Bài giảng Công nghệ XML và WEB ngữ nghĩa - Bài 5: Introduction to The Semantic WEB - Trần Nguyên Ngọc

Công nghệ XML và WEB ngữ nghĩa  
Introduction to The Semantic WEB  
Trần Nguyên Ngọc - HVKTQS - 2012  
1
Thông tin và internet  
World Wide Web (WWW) là môi trường tốt  
cho việc biểu diễn và truy cập thông tin dạng  
số.  
Thông tin trên WWW được biểu diễn chủ  
yếu dưới dạng ngôn ngữ tự nhiên (các  
trang Web trên ngôn ngữ HTML).  
Máy tính và người hiểu khác nhau!  
Mong muốn: machine-readable & machine  
analysis  
Trần Nguyên Ngọc - HVKTQS - 2012  
2
Bài toán tìm kiếm thông tin  
Information Retrieval  
Information retrieval (IR)  
là quá trình tìm kiếm dữ  
liệu (thường là tìm dưới  
dạng một đoạn văn bản)  
từ một tập hợp lớn các  
đối tượng không có cấu  
trúc tường minh (thường  
là text lưu trữ trong máy  
tính) nhằm đáp ứng một  
nhu cầu về thông tin  
Trần Nguyên Ngọc - HVKTQS - 2012  
3
Công cụ tìm kiếm trực tuyến  
4
Thực chất google làm gì?  
Gửi đi một yêu cầu (query) như sau  
ab&hl=vi&source=hp&q=seantic+web+l%C3%  
A0+gi%3F&pbx=1&oq=seantic+web+l%C3%A0  
+gi%3F&aq=f&aqi=&aql=&gs_sm=e&gs_upl=9  
10l13129l0l14005l24l20l3l0l0l1l827l4892l0.13  
.3.2.0.1.1l23l0&bav=on.2,or.r_gc.r_pw.,cf.osb  
&fp=2b8791cc67af876b&biw=1280&bih=683  
Trần Nguyên Ngọc - HVKTQS - 2012  
5
Hiện nay làm thế nào để máy tính hiểu  
yêu cầu?  
Boolean retrieval: thiết kế cấu trúc dữ liệu  
cho một hệ thống thu thập thông tin đơn giản  
Quy trình Hoạt động:  
1. Xây dựng Boolean model, mô hình logic dùng  
để thu thập thông tin.  
2. Biểu diễn yêu cầu dưới dạng biểu thức logic  
3. Search engine trả về tất cả các tài liệu thỏa  
mãn biểu thức logic  
Kho dữ liệu khổng lồ  
Với 1M tài liệu văn bản lưu trữ, mỗi văn bản có  
khoảng 1000 từ tách rời  
Suy ra: tổng số 1 tỷ từ tách rời (tính cả trùng  
nhau)  
Trung bình k|h|o|ả|n|g| 6 bytes cho một từ  
tách rời ra (tính cả dấu cách dấu biểu cảm)  
Suy ra kho dữ liệu khoảng 6GB  
Giả sử chỉ khoảng 500K từ -> cần lập bảng  
thống với số lượng:  
500000*1000000=5*10^11  
Search engine  
Vấn đề cấu trúc dữ liệu text  
HTML (Hyper text markup language)  
XML (Extensible Markup language)  
SIML (Synchronized Multimedia Integration  
HTML  
HTML là chữ viết tắt của Hyper Text Markup Language (Ngôn ngữ hiển thị  
siêu văn bản).  
- Một file HTML là một file text bao gồm những tag nhỏ  
- Những tag hiển thị nói cho trình duyệt biết phải hiển thị trang đó như  
thế nào  
- Một file HTML phải phần mở rộng là .htm hoặc .html  
- Một file HTML có thể được tạo bởi một trình soạn thảo đơn giản.  
<p>Đây đoạn văn</p>  
<p>Đây một đoạn văn khác</p>  
Vấn đề của HTML là nó được thiết kế như trong ý nghĩ của con người. Cho  
dù thông tin trên HTML không được thể hiện trên một trình duyệt thì  
chúng ta vẫn đoán biết  
Con người chúng ta đều có trí thông minh để hiểu được ý nghĩa mục  
đích của hầu hết các văn bản. Tuy nhiên một cỗ máy lại không như thế. Khi  
các thẻ trong tài liệu này chỉ cho một trình duyệt cách thể hiện thông tin,  
thì bản thân các thẻ lại không chỉ cho trình duyệt thông tin đó là gì  
XML  
Lớp XML Extensible Markup Language là một mở  
rộng của ngôn ngữ đánh dấu cho các các cấu trúc  
tài liệu bất kỳ  
I just got a new pet dog.  
<sentence>  
<person href="http://aaronsw.com/">I</person>  
just got a new pet  
<animal>dog</animal>.  
</sentence>  
Web có ngữ nghĩa  
Người sáng lập: Tim Berners_Lee giám đốc tổ  
chức World Wide Web Consortium  
Trần Nguyên Ngọc - HVKTQS - 2012  
12  
Định nghĩa của Tim Berners Lee  
Semantic web như một sự mở rộng của web  
hiện tại mà trong đó thông tin được xử một  
cách tự động bằng máy tính, làm cho máy tính  
và con người thể hợp tác với nhau.  
Trần Nguyên Ngọc - HVKTQS - 2012  
13  
Semantic là gì?  
Tôi yêu em = Tui iu iem = I love you = Tôi iêu  
em= Anh yêu em = Em yêu anh =  
Trần Nguyên Ngọc - HVKTQS - 2012  
14  
CẤU TRÚC  
Trần Nguyên Ngọc - HVKTQS - 2012  
15  
CHI TIẾT  
Tầng Unicode & URI: Nhằm đảm bảo việc sử dụng tập  
tự quốc tế và cung cấp phương tiện nhằm định danh  
các đối tượng trong Semantic Web.  
Tầng XML, Namespace & XMLSchema: Tầng này bảo  
đảm rằng chúng ta có thể tích hợp các định nghĩa  
Semantic Web với các chuẩn dựa trên XML khác.  
Tầng RDF & RDFSchema [RDFS]: Tầng này dùng siêu dữ  
liệu để tả tài liệu trên web mà máy tính có thể hiểu  
được. Đây cũng lớp mà chúng ta có thể gán các kiểu  
cho các tài nguyên và liên kết. Và cũng lớp quan  
trọng nhất trong Semantic Web.  
Trần Nguyên Ngọc - HVKTQS - 2012  
16  
CHI TIẾT  
Tầng Ontology : cung cấp từ vựng chung cho việc  
trao đổi thông tin giữa các ứng dụng dịch vụ Web.  
Lớp Digital Signature: Lớp này được dùng cho các  
tầng( tầng RDF RSFS, Ontonogy, Logic, Proof) được  
dùng để xác định chủ thể của tài liệu, nhằm đảm bảo  
độ tin cậy của tài.  
Tầng Logic: Tầng logic được xem như một cơ sở luật  
trên Semantic Web.  
Tầng Proof: dùng để chứng minh các suy diễn của hệ  
thống bằng cách liên kết các dữ kiện.  
Tầng Trust: Trust engine là một hệ thống đang đang  
được xây dựng dựa trên nền tảng của chứ điện tử.  
Trần Nguyên Ngọc - HVKTQS - 2012  
17  
ĐỂ CÓ WEB NGỮ NGHĨA CẦN GÌ?  
Ontology và các ngôn ngữ dùng để  
biểu diễn ngữ nghĩa thông tin.  
Các công cụ tạo nên phần ngữ  
nghĩa cũng như cấu trúc hạ tầng của  
Web có ngữ nghĩa.  
Các ứng dụng sử dụng Web có ngữ  
nghĩa.  
Trần Nguyên Ngọc - HVKTQS - 2012  
18  
SEMANTIC WEB SERVICES VÀ WEB  
SERVICES  
Trần Nguyên Ngọc - HVKTQS - 2012  
19  
TỰ HỌC  
Nghe bài giảng trên youtube  
Trần Nguyên Ngọc - HVKTQS - 2012  
20  
pdf 20 trang yennguyen 12/04/2022 5520
Bạn đang xem tài liệu "Bài giảng Công nghệ XML và WEB ngữ nghĩa - Bài 5: Introduction to The Semantic WEB - Trần Nguyên Ngọc", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfbai_giang_cong_nghe_xml_va_web_ngu_nghia_bai_5_tran_nguyen_n.pdf