Nghiên cứu khoa học

TỔNG QUAN VỀ SEMANTIC WEB VÀ ỨNG DỤNG

Từ khóa: Web3.0; Thư viện số;Semantic Web; Web ngữ nghĩa Semantic Web (Web ngữ nghĩa) là sự mở rộng của Web hiện tại mà trong đó thông tin được định nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn. Mục tiêu của Web có ngữ nghĩa là để phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu được nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin, tích hợp dữ liệu (dữ liệu liên kết động) và tự động hóa các công việc.

1.Tổng quan Semantic Web

1.1 Đặt vấn đề

John Naisbitt đã nói:" Chúng ta đang chìm ngập trong thông tin nhưng lại khát khao tri thức ". World Wide Web (gọi tắt là Web ) đã trở thành một kho tàng thông tin khổng lồ của nhân loại và là một môi trường chuyển tải thông tin không thể thiếu được trong thời đại công nghiệp 4.0. Sự phổ biến và bùng nổ thông tin trên Web đặt ra những thách thức mới, làm thế nào để khai thác được thông tin trên Web một cách hiệu quả, mà cụ thể là làm thế nào để máy tính có thể trợ giúp xử lý tự động được chúng. Muốn vậy, trước hết máy tính phải hiểu được thông tin trên các tài liệu Web, trong khi thế hệ Web hiện tại thông tin được biểu diễn dưới dạng chỉ con người mới đọc hiểu được.

Các chuyên gia dự đoán, bề nổi của Web (Surface Web ) chứa đến hàng chục tỷ trang tài liệu trong khi, ở phần sâu của Web thì chứa đến ngàn tỷ trang tài liệu. Có khoảng hơn nửa số thông tin này nằm trong các cơ sở dữ liệu có chủ đề riêng biệt. Nhưng hiện nay, hầu hết các công cụ tìm kiếm tài liệu trên Web được coi là hiệu quả nhất cũng chủ yếu tìm kiếm được trên bề nổi của Web. Trong khi ở tầng sâu của Web chứa một khối lượng thông tin khổng lồ và thường rất có giá trị thì rất khó khăn tìm kiếm. Bên cạnh đó, các trang Web hiện nay có rất ít đường liên kết với các trang Web khác nên việc tìm kiếm là khó khăn. Ngoài ra, thông tin tìm kiếm được không theo chủ đề mà chỉ là vấn đề tìm thoả theo từ khoá đơn thuần, kết quả tìm kiếm phải do con người chọn lại theo chủ đề mong muốn. Những vấn đề này đã thúc đẩy sự ra đời của ý tưởng Web ngữ nghĩa (Semantic Web), một thế hệ mới của Web, mà chính cha đẻ của World Wide Web là Tim Berners-Lee đề xuất vào năm 1998.

1.2 Sematic Web là gì?

Web có ngữ nghĩa hay Semantic Web là thế hệ mở rộng của Web hiện tại. Mục tiêu ban đầu của Semantic Web là hỗ trợ người dùng tìm kiếm thông tin trên mạng một cách nhanh chóng, chính xác và thông minh hơn so với các công cụ tìm kiếm truyền thống. Kể từ đó đến nay, các kỹ thuật liên quan đến Semantic Web không ngừng được hoàn thiện. Các ứng dụng Semantic Web được mở rộng như: phát triển các chuẩn công nghệ chung để biểu diễn thông tin và cho phép máy tính có thể hiểu được một số thông tin trên Web, hỗ trợ tìm kiếm thông minh hơn, hỗ trợ việc khám phá, tách chiết xuất thông tin, tích hợp dữ liệu và tự động hóa một số công việc thay cho con người.

Xét về mặt bản chất, Semantic Web chỉ là một công cụ để con người cũng như máy tính sử dụng để biểu diễn thông tin. Hay nói chính xác hơn thì Semantic Web chỉ là một dạng dữ liệu trên Web. Khác với các dạng thức dữ liệu được trình bày trong HTML, dữ liệu trong Semantic Web được đánh dấu, phân lớp, mô hình hóa và được bổ sung thêm các thuộc tính, các mối liên hệ… theo các lĩnh vực cụ thể, qua đó giúp cho các phần mềm máy tính có thể hiểu được dữ liệu và tự động xử lý được những dữ liệu đó. Chẳng hạn, với cụm từ “Nguyễn Ngọc Anh Phương ”, trong không gian Semantic Web, nó cũng có thể được suy luận tới cái nick có tên: "kiep_oan_hon", với các thuộc tính cụ thể như: năm sinh, địa chỉ, số điện thoại, email...

Hình 1.1 Một đề xuất nguồn gốc Web với CERN
(CERN-Hội đồng châu Âu nghiên cứu hạt nhân)

Hình 1 biểu diễn bản chất Web của Tim Berners-Lee, phức tạp rất nhiều so với việc lọc ra các trang HTML từ các dịch vụ Web hiện tại. Trong hình, có các mối quan hệ giữa các thông tin "includes", "describes", "rote", … là các mối quan hệ giữa các tài nguyên mà trong Web hiện tại không có. Các quan hệ này đưa vào Web ngữ nghĩa là cần thiết, để máy có thể hiểu và xử lý thông tin tự động trên Web. Các quan hệ này được gọi là các siêu dữ liệu, được xây dựng bởi công nghệ RDF (Resource Description Framework).

Để tạo ra Web có ngữ nghĩa mà máy có thể xử lý được, trước hết phải tạo ra dữ liệu thông minh, không phải là xử lý thông minh.

Hình 1.2 giới thiệu khái quát sự phát triển của tính thông minh dữ liệu. Có bốn mức biểu diễn dữ liệu có tính thông minh từ thấp đến dữ liệu có đủ ngữ nghĩa để máy thực hiện suy luận.

Mức 1- Văn bản và cơ sở dữ liệu tiền XML: Hầu hết dữ liệu độc quyền bởi các ứng dụng. Vì vậy tính thông minh của dữ liệu ở trong các ứng dụng chứ không phải ở trong dữ liệu.

Mức 2- Tài liệu XML với miền đơn: Trong mức này, các ứng dụng độc lập với dữ liệu. Dữ liệu có thể chuyển giao giữa các ứng dụng trong một miền đơn. Nói rằng dữ liệu đủ thông minh. Ví dụ, các chuẩn XML trong các ứng dụng chăm sóc sức khoẻ, công nghiệp bảo hiểm, hoặc công nghiệp bất động sản.

Hình 1.2 Sơ đồ phát triển tính thông minh của dữ liệu

Mức 3- Các phân loại và tài liệu với các bộ từ vựng hỗn hợp:Trong mức này, dữ liệu có thể được soạn từ đa miền và được phân lớp chính xác theo một nguyên tắc phân loại có thứ bậc. Thực tế, sự phân lớp đó có thể được sử dụng để khám phá dữ liệu. Các quan hệ đơn giản giữ các lớp có thể được sử dụng để quan hệ và do vậy, có dữ liệu kết hợp. Như vậy, dữ liệu thông minh đủ để khám phá dễ dàng và được kết hợp một cách hợp lý với dữ liệu khác.

Mức 4- Các Ontology và các luật lập luận: Ở mức này, dữ liệu mới có thể được suy ra từ những dữ liệu đã có theo các luật logic. Thực chất, dữ liệu bây giờ thông minh đủ để được mô tả với các quan hệ cụ thể và các dạng hình thức phức tạp. Điều này cho phép kết hợp hoặc tái kết hợp dữ liệu nguyên thuỷ nhiều hơn và sự phân tích về dữ liệu mịn hơn. Một ví dụ về sự phức tạp của dữ liệu là việc chuyển tự động tài liệu trong một miền này sang một tài liệu tương đương trong một miền khác. Ở mức này, có thể soạn một định nghĩa mới trên Web ngữ nghĩa, máy có thể xử lý các tài liệu Web có dữ liệu thông minh. Hơn nữa, có thể định nghĩa dữ liệu thông minh vì dữ liệu nó độc lập với ứng dụng, có thể soạn, phân lớp và lấy một phần của các hệ thông tin lớn hơn.

1.3 Những đặc trưng cơ bản của Sematic Web

Máy có thể hiểu được thông tin trên Web: Internet ngày nay dựa hoàn toàn vào nội dung. Web hiện hành chỉ cho con người đọc chứ không dành cho máy hiểu. Semantic Web sẽ cung cấp ý nghĩa cho máy hiểu.

Thông tin được tìm kiếm nhanh chóng và chính xác hơn: Với Semantic Web, việc tìm kiếm sẽ dễ dàng nếu mọi thứ được đặt trong ngữ cảnh. Ý tưởng chủ yếu là toàn bộ ngữ cảnh mà người sử dụng được biết đến. Mục tiêu của Semantic Web là phát triển các tiêu chuẩn và kỹ thuật để giúp máy hiểu nhiều thông tin trên Web hơn, để có thể tìm ra các thông tin dồi dào hơn, tích hợp, duyệt dữ liệu và tự động hóa các thao tác. Người dùng không những nhận được những thông tin chính xác hơn khi tìm kiếm thông tin từ máy tính, mà máy tính còn có thể tích hợp thông tin từ nhiều nguồn khác nhau, biết so sánh các thông tin với nhau.

Dữ liệu liên kết động: Với Semantic Web, có thể kết hợp các thông tin đã được mô tả và giàu ngữ nghĩa với bất kỳ nguồn dữ liệu nào.Ví dụ: bằng cách thêm các Metadata (dữ liệu về dữ liệu) cho các tài liệu khi tạo ra nó, có thể tìm kiếm các tài liệu mà Metadata cho biết tác giả là Eric Miller. Cũng thế, với Metadata có thể tìm kiếm chỉ những tài liệu thuộc loại tài liệu nghiên cứu.

Hỗ trợ công cụ tự động hóa: Cung cấp các loại dịch vụ tự động từ nhiều vùng khác nhau: từ gia đình và các thư viện kỹ thuật số cho đến các dịch vụ kinh doanh điện tử và dịch vụ sức khỏe.v.v.

Hỗ trợ quản lý tri thức: Ưu điểm lớn nhất của Semantic Web là dữ liệu đã được cấu trúc hóa. Vì vậy, nền tảng của Semantic Web hỗ trợ rất nhiều cho việc quản lý tri thức. Khả năng biểu diễn luật và khả năng suy diễn tri có thể tạo nên những bước đột phá cho các hệ thống quản lý tri thức hiệu quả:

Tri thức sẽ được tổ chức trong các không gian khái niệm theo ngữ nghĩa
Các công cụ tự động sẽ hỗ trợ cho việc bảo trì tri thức nhờ việc kiểm tra sự không nhất quán và trích rút ra những tri thức mới.
Việc tìm kiếm dựa trên từ khóa sẽ được thay thế bởi việc trả lời các câu truy vấn. Những tri thức được yêu cầu tìm kiếm sẽ được thu thập, trích rút và biểu diễn theo cách thân thiện với con người.
Việc trả lời cho các câu truy vấn trên nhiều tài liệu sẽ được hỗ trợ.
Việc định nghĩa người dùng nào có thể xem được phần thông tin nào (thậm chí là phần nào của văn bản) sẽ có thể thực hiện được.

1.4 Mô hình kiến trúc Semantic Web

Sơ đồ kiến trúc của Semantic Web gồm bảy tầng. Trong đó, Web hiện tại (WWW) là đang ở tầng thứ hai. Hình 1.3 là sơ đồ kiến trúc của Semantic Web

Lớp Unicode & URI: nhằm bảo đảm việc sử dụng tập ký tự quốc tế và cung cấp phương tiện nhằm định danh các đối tượng trong Semantic Web.
Lớp XML cùng với các định nghĩa về Namespace và Schema (lược đồ) bảo đảm có thể tích hợp các định nghĩa Semantic Web với các chuẩn dựa trên XML khác.
Lớp RDF [RDF] và RDFSchema [RDFS]:có thể tạo các phát biểu (Statement) để mô tả các đối tượng với những từ vựng và định nghĩa của URI và các đối tượng này có thể được tham chiếu đến bởi những từ vựng và định nghĩa của URI ở trên. Đây cũng là lớp có thể gán các kiểu (Type) cho các tài nguyên và liên kết. Và cũng là lớp quan trọng nhất trong kiến trúc Semantic Web.
Lớp Ontology: Hỗ trợ sự tiến hóa của từ vựng vì nó có thể định nghĩa mối liên hệ giữa các khái niệm khác nhau.
Lớp Digital Signature: được dùng để xác định chủ thể của tài liệu, quyền tác giả, chống vi phạm bản quyền.

1.5 Chức năng các lớp trong kiến trúc Semantic Web

Lớp định danh tài nguyên-URI: URI là nền tảng của Semantic Web. Các thành phần khác của Web có thể được thay thế, nhưng URI thì không. URI liên hệ các thành phần của Web lại với nhau. Để định danh các thành phần trên Web, cần sử dụng bộ định danh, nghĩa là sử dụng một hệ thống đồng bộ về định danh và cũng bởi vì mỗi thành phần được định danh được xem như là một tài nguyên, gọi những bộ định danh này là “Các bộ định danh tài nguyên” hay URIs.

Lớp XML và XML Schema: XML đã nhanh chóng là nền tảng cho sự phát triển phần mềm. XML được thiết kế đơn giản, có thể trao đổi các tài liệu (document) qua Web. Nó cho phép người thiết kế định dạng tài liệu và sau đó viết một tài liệu theo định dạng đó. XML là một mở rộng của ngôn ngữ đánh dấu cho các các cấu trúc tài liệu bất kỳ, trái với HTML, là một loại ngôn ngữ đánh dấu chỉ dành cho các loại tài liệu siêu liên kết. Một tài liệu XML bao gồm một tập các thẻ đóng và thẻ mở được lồng vào nhau, mỗi một thẻ có một cặp các thuộc tính và giá trị. Thành phần chủ yếu của tài liệu XML là bộ từ vựng của các thẻ và sự kết hợp được cho phép thì không cố định, nhưng có thể được xác định thông qua mỗi ứng dụng XML.

Lớp RDF - RDF Schema: Giải pháp dùng siêu dữ liệu (Metadata) để mô tả dữ liệu trên Web, máy có thể đọc và hiểu được. Siêu dữ liệu là một dạng dữ liệu dùng để mô tả dữ liệu khác. Hay nói cách khác siêu dữ liệu là những thông tin mô tả tài nguyên trên Web. Chẳng hạn, sách là một loại tài nguyên trên Web, khi đó các thông tin mô tả cho tài nguyên này như tên tác giả, tên sách, ngày xuất bản, … chính là siêu dữ liệu.

RDF (Resource Description Framework) là nền tảng của Semantic Web và xử lý Metadata, được định nghĩa bởi tổ chức W3C. RDF cho phép trao đổi thông tin giữa các ứng dụng trên Web. Cấu trúc của một RDF Statement gồm 3 thành phần:

Subject: Chủ thể, là cái mà đề cập, thường được nhận diện bởi một URI.
Predicate: Thuộc tính của chủ thể, có kiểu Metadata (ví dụ như tiêu đề, tác giả,...), cũng có thể được xác định bởi một URI.
Object: Giá trị của thuộc tính (ví dụ: một người có tên Eric Miller).

Lớp Ontology: Ontology là một tập các khái niệm và quan hệ giữa các khái niệm được định nghĩa cho một lĩnh vực nào đó nhằm vào việc biểu diễn và trao đổi thông tin. Đây cũng là một hướng tiếp cận để xây dựng Semantic Web. Tổ chức W3C cũng đã đề ra một ngôn ngữ Ontology trên Web(OWL: WebOntoloty Language) để xây dựng Sematic Webdựa trên nền tảng của Ontology.

Bộ từ vựng Ontology được xây dựng trên cơ sở tầng RDF và RDFS, cung cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên Webvà có khả năng hỗ trợ lập luận. Để xây dựng được các bộ từ vựng này, người ta đã sử dụng các ngôn ngữ Ontology để biểu diễn chúng như: RDFS, OIL, DAML, DAML+OIL, OWL,... Các ngôn ngữ này cung cấp khả năng biểu diễn và hỗ trợ lập luận khác nhau và chúng dựa trên nền tảng là các ngôn ngữ logic mô tả tương ứng khác nhau.

Tầng Logic:Việc biểu diễn các tài nguyên dưới dạng các bộ từ vựng Ontology có mục đích là để máy có thể lập luận được. Mà cơ sở lập luận chủ yếu dựa vào logic. Chính vì vậy mà các Ontology được ánh xạ sang logic, cụ thể là logic mô tả để có thể hỗ trợ lập luận. Vì logic mô tả có biểu diễn ngữ nghĩa hình thức (đặc trưng của lý thuyết mô hình), và cung cấp các dịch vụ lập luận, là cơ sở để hỗ trợ máy có thể lập luận và hiểu tài nguyên.

Tầng Proof:Tầng này đưa ra các luật để suy luận. Cụ thể từ các thông tin đã có có thể suy ra các thông tin mới. Ví dụ: A là cha của B, A là em trai C thì khi đó ta có thông tin mới là C là bác của B. Để có được các suy luận này thì cơ sở là FOL (First-Order-Logic). Và tầng này hiện nay các nhà nghiên cứu đang xây dựng các ngôn ngữ luật cho nó như: SWRL, RuleML.

Tầng Trust: Đảm bảo tính tin cậy của các ứng dụng trên Webngữ nghĩa. Ví dụ: có một người bảo x là xanh, một người khác lại nói x không xanh, như thế Web ngữ nghĩa là không đáng tin cậy? Câu trả lời ở đây được xem xét trong các ngữ cảnh. Mỗi ứng dụng trên Webngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế các mệnh đề trên có thể nằm trong các ngữ cảnh khác nhau khi đó ngữ nghĩa tương ứng khác nhau nên các mệnh đề đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó. Để có được sự chứng minh về độ tin cậy thì các lập luận được áp dụng là không đơn điệu và có các cơ chế kiểm tra chứng minh kết hợp với công nghệ chữ ký điện tử để xác nhận độ tin cậy. Các ngôn ngữ chứng minh là ngôn ngữ chứng minh một mệnh đề là đúng hay sai.

2 Các lĩnh vực ứng dụng Semantic Web

2.1. Lĩnh vực quản lý tri thức

Các quy trình hoặc các công cụ được tổ chức, doanh nghiệp sử dụng để thu thập, phân tích, lưu trữ và phổ biến tri thức. Ngoài việc triển khai các công nghệ và tiến trình thích hợp cho mục đích thương mại thì cũng phải quan tâm đến việc quản lý tri thức sao cho hiệu quả để có thể sử dụng kinh nghiệm và sự hiểu biết của tài nguyên con người một cách tối ưu nhất.

Ngày nay quản lý tri thức nổi lên như một hoạt động quan trọng của các tổ chức lớn cũng như các các doanh nghiệp vì họ coi những tri thức nội bộ như một tài sản quý để từ đó có thể tạo nên hiệu quả tốt hơn, tạo ra những giá trị mới và tăng tính cạnh tranh. Quản lý tri thức cũng đóng vai trò đặc biệt quan trọng trong các tổ chức quốc tế với các phòng ban bị phân tán về địa lý.

2.2. Lĩnh vực tìm kiếm thông tin

Có thể coi việc tìm kiếm thông tin là một ứng dụng nhỏ của quản lý tri thức. Tuy nhiên, với vai trò quan trọng của tìm kiếm thông tin đặc biệt là tìm kiếm thông tin trên Web thì người ta luôn coi đây là một bài toán lớn cần đầu tư nhiều thời gian, công sức cũng như tiền bạc để cải thiện các ứng dụng hiện tại.Điều này là hoàn toàn dễ hiểu vì với lượng thông tin bùng nổ trên Web thì người dùng không thể tự mình duyệt tất cả các trang web để thu thập thông tin mà họ cần phải có những công cụ tìm kiếm hỗ trợ. Đứng trên khía cạnh kinh doanh thì đây có thể coi là một thị trường rất lớn và có khả năng mang lại lợi nhuận cao cho các nhà đầu tư. Đặc biệt, nếu có những giải pháp mang tính đột phá thì chắc chắn các doanh nghiệp sẽ có được siêu lợi nhuận trong lĩnh vực này. Điều đó lý giải tại sao tất cả các công ty công nghệ thông tin lớn nhất trên thế giới như Google, Microsoft, Yahoo, Baidu… đều đầu tư vào các máy tìm kiếm của riêng họ nhằm chiếm lĩnh thị phần. Sự phát triển nhanh chóng của Google là một ví dụ điển hình nhất cho khả năng mang lại lợi nhuận của các ứng dụng tìm kiếm trên Web.

Mặc dù vậy, các ứng dụng tìm kiếm hiện nay vẫn chứa đựng rất nhiều hạn chế và những hạn chế này hầu hết xuất phát từ việc các tài nguyên trên Web là các tài nguyên phi cấu trúc. Vì lý do này mà các máy tìm kiếm chỉ có thể dựa theo từ khóa để tìm kiếm thông tin và đương nhiên sẽ có rất nhiều kết quả không mong muốn được trả về cho người dùng. Các doanh nghiệp cũng đã đề xuất nhiều giải pháp nhằm cải thiện hiệu quả tìm kiếm như các thuật toán sắp hạng, các thuật toán tìm từ đồng nghĩa, tìm các từ khóa liên quan… Tuy nhiên, kết quả tìm kiếm vẫn chưa thực sự thỏa mãn được người dùng. Để có thể chuyển tất cả thông tin trên Web trở thành có cấu trúc là điều rất khó thực hiện được chí ít là trong tương lai gần. Tuy nhiên, nếu trong nội tại một doanh nghiệp thì hoàn toàn có thể thực hiện được. Và khi đó, sức mạnh của Semantic Web sẽ được thể hiện trong việc hỗ trợ các công cụ tìm kiếm. Với việc máy tính có thể hiểu được thông tin trên Semantic Web, các dữ liệu trả về sẽ mang tính ngữ nghĩa nhiều hơn, gần với yêu cầu của người dùng hơn.

Hiện nay đa số các Search Engines hiện có đều thuộc loại Keyword Search Engine. Cơ chế của chúng là định kỳ duyệt Web để phát hiện ra những sự thay đổi, rồi lập chỉ mục những thay đổi này. Người sử dụng có thể tạo các câu truy vấn gồm các từ khóa trên các chỉ mục đó để nhận về kết quả mong muốn. Tuy nhiên, từ khóa có thể có thể có nhiều nghĩa, Search Engine không thể thể phát hiệncác mối quan hệ vì vậy máy trả về tất cả có chứa từ khóa và tương thích với nó

Ví dụ: Tìm thông tin về Ông “Nguyễn Tấn Dũng” nguyên thủ tướng Chính phủ nước Cộng Hòa Xà Hội Chủ Nghĩa Việt Nam. Search “Nguyen Tan Dung” trên Google. Kết quả trả về khoảng 2.540.000 kết quả và không có kết quả chính xác với yêu cầu tìm kiếm.

Nguyên nhân của việc tìm kiếm không theo yêu cầu là do: Keyword “Nguyen Tan Dung” có nhiều ý nghĩa, không xác định được thông tin người dùng cần biết là gì. Ngoài ra, Search Engine không thể hiểu mối liên hệ giữa các Keyword, không biết đối tượng tìm kiếm khi Keyword mang nhiều ý nghĩa. Nếu Search Engine được tích hợp tri thức để hiểu được ý nghĩa của các từ, thì rất có thể nó cho kết quả chính xác hơn. Việc tìm kiếm sẽ dựa trên khái niệm từ tìm kiếm, không phải theo từ khóa.

Semantic Search Engine đã khắc phục được những khuyết điểm của các Search Engine truyền thống. Cũng với tù khóa “nguyen tan dung” áp dụng tìm kiếm trên WolframAlpha.com một trang Web tích hợp tìm kiếm Semantic Web.

Việc ứng dụng Semantic Web để tìm kiếm thông tin trong nội bộ các doanh nghiệp là hoàn toàn có thể thực hiện được ở thời điểm hiện tại với những nền tảng mà Semantic Web đang hỗ trợ. Và chúng ta hoàn toàn có thể tin tưởng rằng nếu tất cả các doanh nghiệp đều cấu trúc hóa các tài nguyên của họ, lượng tài nguyên được cấu trúc hóa trên phạm vi toàn cầu sẽ tăng lên và khả năng ứng dụng Semantic Web trên toàn Internet sẽ có thể trở thành hiện thực để mang lại những giá trị to lớn cho người dùng.

2.3. Lĩnh vực quảng cáo (Semantic Web Advertising)

Semantic Web Advertising là dựa trên khả năng “đọc” của máy để chuyển nội dung vào các mẫu quảng cáo sao cho phù hợp. Bằng cách áp dụng các công nghệ ngữ nghĩa vào giải pháp quảng cáo trực tuyến. Chức năng của công nghệ quảng cáo ngữ nghĩa là ngữ nghĩa phân tích tất cả các trang Web để hiểu đúng và phân loại các ý nghĩa của một trang Web cho phù hợp và đảm bảo rằng các trang Web có chứa quảng cáo thích hợp nhất. Semantic Web Advertising làm tăng cơ hội người sử dụng, vì quảng cáo liên quan đến những gì họ đang xem,

Lợi ích ứng dụng Semantic Web vào quảng cáo

Giới thiệu đúng sản phẩm đến đúng người vào đúng thời điểm họ cần.
Người thiết kế Web chỉ cần tập trung thiết kế nội dung,giao diện trang Web mà ko cần quan tâm đến nội dung quảng cáo.
Nội dung được đưa vào sẽ phù hợp với nội dung trang Web hơn là hình các hình thức quảng cáo động trên Web truyền thống.

Một trong số những ứng dụng quảng cáo đầu tiên có định dạng Web 3.0 được đề xuất là sản phẩm do Radars Networks lập trình. Theo Spivack - người đồng sáng lập công ty này thì đây sẽ là một chương trình được hỗ trợ nhiều tính năng tiên tiến nhất trong khả năng kết nối và tương tác, giúp khách hàng có thể chọn lựa những sản phẩm và dịch vụ phù hợp nhất với kế hoạch sử dụng của họ, sở thích của họ và với đối tượng họ dùng chung.

Chẳng hạn khi một du khách đặt câu hỏi: “Bãi biển nào của Việt Nam đẹp nhất để nghỉ dưỡng?” thì một trong những câu trả lời sẽ là bãi biển Sầm Sơn, Thanh Hóa. Khi du khách click vào địa điểm Sầm Sơn, kết quả là những thông tin về nhà hàng, khách sạn, phương tiện đi lại,..cùng nhiều hình ảnh, video clip, bản đồ giao thông công cộng và cả những nhận xét của những người từng đến đó.

2.4. Lĩnh vực Thương mại điện tử

Thương mại điện tử có thể được hiểu là việc mua và bán các sản phẩm hay dịch vụ trên các hệ thống điện tử như, Internet hay các mạng máy tính. Việc kinh doanh dựa trên thương mại điện tử đã phát triển nhanh chóng từ khi có sự xuất hiện của Internet. Tuy nhiên, với WorldWide Web hiện nay, vẫn còn nhiều khó khăn và hạn chế cho việc phát triển các dịch vụ thương mại điện tử. Tuy nhiên, Semantic Web đã giải quyết được những khó khăn này trong hai hình thức kinh doanh thương mại điện tử là B2C (Bussiness to Consumer) và B2B (Bussiness to Bussiness).

Sự hiện thực hóa của Semantic Web sẽ cho phép các doanh nghiệp tham gia vào các hiệp hội mà không mất quá nhiều chi phí. Sự khác biệt của các thuật ngữ giữa các doanh nghiệp sẽ được giải quyết bằng việc sử dụng các mô hình miền trừu tượng (abstract domain model) và dữ liệu sẽ được trao đổi sử dụng cách dịch vụ phiên dịch. Hơn nữa, các thỏa thuận, các giao kèo tạm thời sẽ có thể được thực hiện bởi các tác tử phần mềm một cách tự động hoặc bán tự động.

2.5. Mạng xã hội

Mạng xã hội là một cấu trúc xã hội được tạo bởi các nút thường là những con người riêng lẻ hoặc những tổ chức khác nhau. Các nút ở trong mạng xác hội được liên kết với các nút khác trong mạng bởi một hoặc nhiều kiểu phụ thuộc khác nhau như: giá trị, ý tưởng, trao đổi tài chính, bạn bè, quan hệ họ hàng… Những cấu trúc tạo được thường rất phức tạp.

Mạng xã hội có thể được hiểu bao gồm các nút (nodes) và các liên kết (ties). Các nút là những tác nhân riêng lẻ bên trong mạng, và các liên kết là mối quan hệ giữa các tác nhân đó. Có thể có nhiều loại liên kết giữa các nút. Việc nghiên cứu trong nhiều lĩnh vực khác nhau đã chỉ ra rằng các mạng xã hội có tác dụng trong rất nhiều cấp khác nhau và đóng vai trò quan trọng trong việc quyết định cách các vấn đề được giải quyết, cách các tổ chức hoạt động và mức độ thành công của các cá nhân trong việc đạt được mục đích của họ.

Với nền tảng của Web hiện tại, đã có những ứng dụng mạng xã hội được thực hiện. Một ví dụ điển hình là các blog. Mỗi blog của một người được coi là một nút trên mạng. Mỗi quan hệ bạn bè được coi là liên kết giữa các nút. Có thể thấy rằng các ứng dụng mạng xã hội trên Web hiện nay vẫn có nhiều hạn chế như chưa hỗ trợ nhiều loại liên kết giữa các nút hoặc nếu có thì cũng rất khó khăn cho người phát triển phần mềm cũng như người dùng khi sử dụng.

Với Semantic Web, các mạng xã hội có khả năng phát triển vượt bậc. Vì ngay bản thân các ontology của Semantic Web cũng được hiểu là bao gồm các khái niệm và mối liên hệ giữa các khái niệm đó. Các nền tảng của Semantic Web có khả năng hỗ trợ rất nhiều trong việc tạo nên các ứng dụng dựa trên cấu trúc như vậy.

Có thể thấy rằng với các nền tảng của Semantic Web thì ứng dụng mạng xã hội là một trong những ứng dụng sẽ được thực hiện dễ dàng và hiệu quả nhất, mang lại những kết quả vượt trội nhất so với những ứng dụng hiện tại.

2.6. Trong lĩnh vực Thư viện điện tử

Thư viện điện tử phải thường xuyên xử lý một lượng lớn thông tin từ các dạng tài liệu số. Phần lớn chúng được rút ra từ thư viện truyền thống, được tập trung biên tập lại thành nguồn thông tin sẵn dùng cho một nhóm người liên quan bằng cách quét bài báo, sách, tài liệu... để trở thành nguồn tài liệu số, tài nguyên đa phương tiện – là đối tượng quản lý chính của thư viện số. Bằng cách này đã làm hạn chế lợi thế của các hệ thống máy tính hiện đại và gây khó khăn cho quá trình xử lý sau này. Áp dụng công nghệ Web3.0 chúng ta có thể nghiên cứu và phát triển hệ thống thư viện số có thể thực hiện xử lý, lưu trữ, tìm kiếm và phân tích tất cả các kiếu thông tin số. Công nghệ Web3.0 cho phép miêu tả đối tượng, thiết lập các lược đồ cần thiết trong các dạng của Ontology cho các định danh của các đối tượng số. Mục tiêu chính là làm cho thao tác giữa các phần có thể xử lý thông minh, nhất quán, mạch lạc tương tự các lớp của đối tượng số và các dịch vụ.

Thành phần chính để xây dựng Web3.0 là các siêu dữ liệu, trong các thư viện số cũng vậy, các tài liệu cũng phải được biểu diễn bởi các siêu dữ liệu. Nếu tài liệu là những khối xây dựng căn bản của thư viện số, thì ngôn ngữ đánh dấu và các siêu dữ liệu là những yếu tố tổ chức. Ngôn ngữ đánh dấu được dùng để chỉ rõ cấu trúc của tài liệu riêng lẻ và kiểm soát phương thức trình bày cho người sử dụng. Siêu dữ liệu được dùng để xúc tiến việc truy cập đến những phần thích họp của tài liệu qua việc tìm kiếm. Trong thư viện số có sự khác biệt quan trọng giữa siêu dữ liệu hiện và siêu dữ liệu ẩn. Siêu dữ liệu hiện được xác định bởi con người sau khi xem xét cẩn thận và phân tích tài liệu. Siêu dữ liệu ẩn được trích xuất tự động từ nội dung tài liệu nhờ kĩ thuật khai thác văn bản. Việc này thường khó thực hiện chính xác, được định nghĩa như một tiến trình phân tích văn bản để trích thông tin hữu ích cho mục đích cụ thể.

Thông thường, một thư viện số sử dụng dữ liệu mô tả có cấu trúc để mô tá hệ thống thư mục tuy nhiên các trường trong dữ liệu mô tả lại không được định nghĩa ngữ nghĩa một cách đầy đủ, việc ứng dụng Ontologies trong thư viện số không những thực hiện lưu trữ dữ liệu đế mô tả hệ thống thư mục mà còn mô tả được nội dung của nó. Thay vì trong trường họp một quyển sách được lưu trữ trong thư viện số, chúng ta có thể tách riêng cấu trúc từng chương của nó, cung cấp mô tả cho mỗi chương và thực hiện lưu trữ mối quan hệ cúa các chương khác nhau. Bằng việc sử dụng tư tưởng cấu trúc của Ontologies và sử dụng tư tưởng này trong việc mô tả dữ liệu, chúng ta cung cấp một tầng tống quát dừ liệu mô tả và nội dung.

Hệ thống dữ liệu của thư viện số rất lớn và đa dạng, nó thường phục vụ cho nhiều tổ chức, cá nhân vào nhiều mục đích khác nhau, trong khi đó dữ liệu chủ yếu thuộc vào hai dạng là dữ liệu có cấu trúc và dừ liệu phi cấu trúc. Một vấn đề đặt ra là làm thế nào đế các ứng dụng sử dụng được đồng thời cả hai loại dữ liệu này, bởi vì trên thực tế mỗi ứng dụng chỉ sử dụng một loại dữ liệu có cấu trúc hoặc phi cấu trúc. Chúng ta có chuấn chung phục vụ cho hầu hết các loại ứng dụng đó là sử dụng XML, nó được xem là nền tảng công nghệ của WEB3.0 và sẽ là cầu nối thực hiện chuẩn hóa các nguồn dữ liệu, từ đó có thể phục vụ cho mọi loại ứng dụng.

2.7. Một số lĩnh vực ứng dụng khác

Nhiều tập đoàn dược phẩm lớn đang phát triển phân tầng Semantic vào nguồn dữ liệu điều chế thuốc nhằm giúp các nhà khoa học tìm được sự liên kết giữa các phân tử thuốc và các loại bệnh. Amazon ứng dụng công nghệ Semantic trong việc giúp khách hàng tra tìm cơ sở dữ liệu. Kodak đánh thẻ tag bằng Semantic giúp người chụp ảnh quản lý tốt các tập tin ảnh trực tuyến. CIA nạp vào bộ nhớ các kết quả nghe lén điện thoại tại hải ngoại theo dạng Semantic nhằm dễ dàng định dạng mối liên hệ giữa các sự kiện, nhân vật và nơi chốn với hy vọng phát hiện được những nguy cơ khủng bố trước khi quá muộn.

Cùng với sự xuất hiện của Web 3.0, tính siêu liên kết của mạng thông tin ngày càng chặt chẽ và sẽ làm tăng tính hấp dẫn của thế giới internet. Dẫu hiện giờ đang là những ngày tháng sơ khai một phiên bản Web mới, nhưng đã được xuất hiện những ứng dụng đầy triển vọng của Radar Networks, Google Base và Flickr.

Một số thách thức của Sematic Web

Tất nhiên, cái gì cũng có hai mặt, và Web 3.0 cũng thế. Một số những thách thức mà Web 3.0 phải đối mặt bao gồm:

Khối lượng dữ liệu khổng lồ: World Wide Web hiện có cả tỉ trang web trên đó, mỗi trang web lại tạo ra một lượng dữ liệu to nhỏ khác nhau. Các cảm biến, thiết bị di động, hành vi của người dùng lại tạo thêm một đống nữa. Chính vì thế, nếu các nhà thiết kế, nhà phát triển web không kịp thay đổi công nghệ thì sẽ không thể đảm đương được hết những dữ liệu này, và không mang lại hiệu quả tối đa cho người dùng. Những hệ thống tự động hóa cũng phải được thiết kế lại để xử lý lượng dữ liệu đầu vào rất rất lớn. Dữ liệu trùng lặp cũng là một vấn đề cần được cân nhắc.

Dữ liệu không rõ ràng: những từ như "trẻ", "cao" hoặc "lớn" có thể được xem là dữ liệu không rõ ràng, hay nói cách khác là quá chung chung. Như thế nào là trẻ? Như thế nào là cao, cao bao nhiêu? Lớn là gì, lớn ra sao, so với cái gì? Kết quả là những truy vấn tìm kiếm của người dùng cũng sẽ chung chung như thế, ngoài ra còn có sự chung chung trong dữ liệu được cung cấp bởi các công ty / tổ chức, hoặc sự chung chung trong các cơ sở dữ liệu kiến thức sẽ khiến việc xử lý, giao tiếp trở nên khó khăn.

Sự thiếu nhất quán: Mặc dù đã có các chuẩn chung nhưng chắc chắn sẽ luôn có sự khác biệt xuất hiện Có thể là vì giải pháp 1 tốt hơn giải pháp 2 nhưng giải pháp 2 lại dễ dùng hơn nên cả hai tồn tại song song. Điều đó tạo ra sự thiếu nhất quán trong thế giới Word Wide Web. Như hiện nay cũng thế, Flash và Silverlight, JSON và XML,...

Bảo mật: khi dữ liệu được chia sẻ dễ dàng thì cũng mang theo nguy cơ cao về an toàn thông tin. Ví dụ, thông tin đó có thể bị giả mạo, có thể bị thay thế giữa lúc đang truyền đi, thông tin mang theo mã độc, thông tin không được mã hóa...

Kết luận

Semantic Web là một sự mở rộng của Web hiện tại với mục đích chính là con người cũng như máy tính có thể đọc, hiểu và sử dụng dữ liệu trên web. Điều này không thể thực hiện được ở Web hiện tại vì dữ liệu trên web là phi cấu trúc và máy tính không thể thực hiện được việc đó. Đó cũng chính là nguyên nhân khiến Web hiện tại đang chứa đựng những hạn chế. Đặc điểm nổi bật nhất của Semantic Web chính là khả năng giúp khắc phục những hạn chế này. Với kiến trúc đã được xây dựng một cách rõ ràng và những khả năng vượt trội, Semantic Web có thể được ứng dụng trong nhiều lĩnh vực khác nhau như quản lý tri thức, tìm kiếm thông tin, mạng xã hội, thư viện số… Mặc dù vẫn còn nhiều nhiều những vấn đề khác, và tất cả đều cần đến một hoặc một số giải pháp đã có sẵn hoặc chưa có. Nhưng tóm lại, Web 3.0 là xu hướng không thể chối bỏ, và nó sẽ dần rõ nét hơn trong thời gian tới.

TÀI LIỆU THAM KHẢO

[1].Wikipedia. http://en.wikipedia.org

[3] M. Hildebrand, J.R. van Ossenbruggen, L. Hardman. “An analysis of search-based user interaction on the Semantic Web”. CWI technical report INS-E0706, July 2012.

[4] Terziev, I., Kiryakov, A., and Mano, D. (2012), “Base upper-level ontology
(bulo) guidance”, Technical Report Deliverable 1.8.1, SEKT project, UK.

[5] John, D., & Martin, D. (2014), “Magpie: Supporting Browsing and
Navigation on the Semantic Web”, Proceedings of the International
Conference on Intelligent User Interfaces, Madeira, pp. 191-197

[6] Philipp, C., Siegfried, H., & Steffen, S. (2010), “Towards the self-annotating
web”, Proceedings of the 13th international conference on World Wide Web,
New York, pp. 462-471.

[7] Stephen, D., Nadav, E., David, G., Daniel, G., Ramanathan, G. V., Anant, J.,
et al. (2011), “SemTag and seeker: bootstrapping the semantic web via
automated semantic annotation”, Proceedings of WWW’ 03, pp. 178-186.

[8] Le, N. D., & Angela, G. (2011), “Matching Semantic Web Services Using
Different Ontologies”, Web Engineering, 5th International Conference,
ICWE 2005, Sydney, pp. 302-307.

[9]. Shelley Powers. “Practical RDF”. O'Reilly. 2012.

[10]. D. Bonino, F. Corno, L. Farinetti, A. Bosca. “Ontology Driven Semantic Search”. WSEAS Transaction on Information Science and Application, Issue 6, Volume 1, December 2011, pp. 1597-1605.

[11]. Gong Cheng, Weiyi Ge, Honghan Wu, Yuzhong Qu. “Searching Semantic Web Objects Based on Class Hierarchies”.WWW 2008 Workshop on Linked Data on the Web, 2013.

[12]. Haiping Zhu, Jiwei Zhong, Jianming Li, Yong Yu. “An Approach for Semantic Searchby Matching RDF Graphs”. FLAIRS Conference 2011: 450-454.

[13]. G. Tummarello, R. Delbru, and E. Oren. “Sindice.com: Weaving the Open Linked Data”. Proceedings of the International Semantic Web Conference (ISWC), 2011.

[14]. C.Rocha, D.Schwabe, M.Poggi. “A Hybrid Approach for Searching in the Semantic Web”.WWW 2004, May 17-22, 2012.

Tác giả: ThS. Tào Ngọc Biên