Đồ án Các đặc trưng ngôn ngữ cho bài toán phân loại câu hỏi tiếng Việt

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG  
KHOA CÔNG NGHỆ THÔNG TIN 1  
------------  
ĐỒ ÁN  
TỐT NGHIỆP ĐẠI HỌC  
Đề tài: “Các đặc trƣng ngôn ngữ cho bài  
toán phân loại câu hỏi tiếng Việt”  
Giảng viên hƣớng dẫn  
Sinh viên thực hiện  
Lớp  
: TS. NGÔ XUÂN BÁCH  
: NGUYỄN ĐÌNH NGHỊ  
: D11CNPM3  
Khóa:  
: 2011 2016  
Hệ đào tạo  
: ĐẠI HỌC CHÍNH QUY  
Hà Nội 12/2015  
 
ĐỒ ÁN TỐT NGHIỆP  
TÓM TẮT  
Trong thời đại bùng nổ Công nghệ thông tin hiện nay, phương thức sử dụng giấy  
tờ trong giao dịch đã dần được số hóa chuyển sang các dạng văn bản lưu trữ trên máy  
tính hoặc truyền tải trên mạng. Bởi nhiều tính năng ưu việt của tài liệu số như: cách  
lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, tiện dụng trong trao đổi, đặc biệt là qua  
Internet, nên ngày nay, số lượng văn bản số tăng lên một cách chóng mặt, đặc biệt là  
trên World Wide Web. Cùng với sự gia tăng về số lượng văn bản, nhu cầu tìm kiếm  
văn bản cũng tăng theo. Với số lượng văn bản đồ sộ thì yêu cầu cần có những hệ thống  
khai thác thông tin hiệu quả. Các công cụ tìm kiếm hiện thời chỉ trả về cho người dùng  
một tập các tài liệu liên quan có chứa từ khóa trong câu truy vấn của người dùng. Tuy  
nhiên, người dùng mong muốn một câu trả lời chính xác và cụ thể hơn, dẫn đến yêu  
cầu cần phải có một hệ thống hỏi đáp tự động.  
Trong những năm gần đây, hệ thống hỏi đáp tự động đã nhận được sự quan tâm  
đặc biệt của các nhà nghiên cứu, các công ty (Yahoo, Google, Mcrosoft, IBM, v.v.),  
c hội nghị lớn về trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL,  
v.v.) và đã đạt được những kết quả nhất định. Tuy nhiên các nghiên cứu về hệ thống  
hỏi đáp cho tiếng Việt vẫn còn rất hạn chế. Điều này một phần là do thiếu các công cụ  
đủ tốt để xử lý tiếng Việt như nhận dạng thực thể tên, phân tích cú pháp, v.v.  
Đồ án “Các đặc trưng ngôn ngữ cho bài toán phân loại câu hỏi tiếng Việt” tập  
trung nghiên cứu về vấn đề phân loại câu hỏi cho tiếng Việt, đây là pha đầu tiên trong  
một hệ thống hỏi đáp tiếng Việt, có ý nghĩa đặc biệt quan trọng với hoạt động của cả  
hệ thống. Khi một câu hỏi được phân loại sẽ giúp chúng ta thu hẹp được không gian  
tìm kiếm câu trả lời cho câu hỏi và từ đó giúp hệ thống hỏi đáp có thể đưa ra được các  
câu trả lời ngắn gọn và chính xác hơn.  
Trên cơ sở các nghiên cứu đã có và điều kiện thực tế của các công cụ xử lý ngôn  
ngữ tiếng Việt, chúng tôi tiến hành thực nghiệm việc phân loại câu hỏi tiếng Việt trên  
hai bộ dữ liệu: bộ dữ liệu một gồm 3000 câu hỏi tiếng Việt, bộ dữ liệu hai gồm 3000  
câu hỏi tiếng Việt và đi kèm với mỗi câu hỏi là 5 câu truy vấn từ Google. Chúng tôi sử  
dụng một số phương pháp học máy thống kê như Máy véc tơ htr(SVM), Naïve  
Bayes (NB), K-láng giềng gần nhất tiến hành thực nghiệm trên các đặc trưng ngôn  
ngữ tiếng Việt như đặc trưng từ vựng, đặc trưng âm tiết, n-grams, đặc trưng nhãn từ  
loại và đặc trưng cú pháp của câu. Các kết quả ban đầu đạt được khá khả quan. Bộ  
phân lớp câu hỏi đạt được kết quả tốt nhất là 85.53% khi sử dụng thuật toán SVM cho  
đặc trưng âm tiết 1+2 grams kết hợp với đặc trưng nhãn từ loại và đặc trưng cú pháp.  
Từ khóa: Hệ thống hỏi đáp, phân loại câu hỏi, Máy véc tơ hỗ trợ, K-láng giềng  
gần nhất, Naïve Bayes, cây cú pháp, n-grams.  
GVHD: TS. Ngô Xuân Bách  
i
SVTH: Nguyễn Đình Nghị – D11CNPM3  
ĐỒ ÁN TỐT NGHIỆP  
LỜI CẢM ƠN  
Em xin chân thành cảm ơn TS. Ngô Xuân Bách, bộ môn Khoa học máy tính, Khoa  
Công nghệ thông tin 1 đã tận tình chỉ dạy và hướng dẫn cho em trong việc lựa chọn đề  
tài, thực hiện đề tài và viết báo cáo đồ án, giúp cho em có thể hoàn thành tốt đồ án này.  
Em xin cảm ơn các thầy cô giáo Học viện Công nghệ Bưu chính Viễn thông, đặc  
biệt các thầy cô trong khoa Công nghệ thông tin 1 đã tận tình dạy dỗ và chỉ bảo em  
trong suốt 4 năm học.  
Cuối cùng em xin cảm ơn gia đình, bạn bè, đồng nghiệp, những người đã luôn bên  
cạnh động viên em những lúc khó khăn, và giúp đỡ em trong suốt thời gian học tập và  
làm đồ án, tạo mọi điều kiện tốt nhất cho em để có thể hoàn thành tốt đồ án của mình.  
Em xin chân thành cảm ơn!  
Hà Nội, 12/2015  
Sinh viên  
Nguyễn Đình Nghị  
GVHD: TS. Ngô Xuân Bách  
ii  
SVTH: Nguyễn Đình Nghị – D11CNPM3  
 
ĐỒ ÁN TỐT NGHIỆP  
NHẬN XÉT  
(Của giảng viên phản biện)  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
Hà Nội, 12/2015  
Giảng viên phản biện  
GVHD: TS. Ngô Xuân Bách  
iii  
SVTH: Nguyễn Đình Nghị – D11CNPM3  
ĐỒ ÁN TỐT NGHIỆP  
NHẬN XÉT  
(Của giảng viên hƣớng dẫn)  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
…………………………………………………………………………………………..  
Hà Nội, 12/2015  
Giảng viên hướng dẫn  
GVHD: TS. Ngô Xuân Bách  
iv  
SVTH: Nguyễn Đình Nghị – D11CNPM3  
ĐỒ ÁN TỐT NGHIỆP  
MC LC  
GVHD: TS. Ngô Xuân Bách  
v
SVTH: Nguyễn Đình Nghị – D11CNPM3  
ĐỒ ÁN TỐT NGHIỆP  
DANH MỤC HÌNH VẼ  
GVHD: TS. Ngô Xuân Bách  
vii  
SVTH: Nguyễn Đình Nghị – D11CNPM3  
 
ĐỒ ÁN TỐT NGHIỆP  
DANH MỤC BẢNG BIỂU  
GVHD: TS. Ngô Xuân Bách  
viii  
SVTH: Nguyễn Đình Nghị – D11CNPM3  
 
ĐỒ ÁN TỐT NGHIỆP  
BẢNG THUẬT NGỮ TIẾNG ANH  
Viết tt  
Ttiếng Anh  
Giải nghĩa  
Hip hi ngôn nghc tính toán  
Association for Computational  
Linguistics  
ACL  
The Cross-Language Evaluation Diễn đàn đánh giá ngôn ngữ  
CLEF  
KNN  
Forum  
chéo  
Thut toán K láng ging gn  
nht  
K-Nearest Neighbors  
Maximum Entropy Model  
Naïve Bayes  
Mô hình Entropy cực đại  
Phương pháp Bayes đơn giản  
Nhãn tloi  
MEM  
NB  
POS  
QA  
Part Of Speech  
Question Answering  
Support Vector Machine  
Text Retrieval Conference  
Hthng hỏi đáp  
Máy véc tơ hỗ trợ  
SVM  
TREC  
Hi nghtruy xuất văn bản  
GVHD: TS. Ngô Xuân Bách  
ix  
SVTH: Nguyễn Đình Nghị – D11CNPM3  
 
ĐỒ ÁN TỐT NGHIỆP  
LỜI NÓI ĐẦU  
Nghiên cứu về hệ thống hỏi đáp tự động (Q&A) [15] đã được quan tâm từ rất lâu  
trên thế giới. Ngay từ những năm 1960, các hệ thống hỏi đáp đầu tiên sử dụng cơ sở  
dữ liệu đã được ra đời. Đến những năm 1970-1980, rất nhiều dự án lớn hướng đến việc  
“hiểu văn bản” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ thống kê.  
Cuối những năm 1990, World Wide Web ra đời và phát triển nhanh chóng trở thành  
một kho ngữ liệu khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai  
thác web như là một nguồn dữ liệu cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi  
hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất được quan tâm. Tuy  
nhiên các nghiên cứu về xây dựng hệ thống hỏi đáp cho tiếng Việt vẫn còn rất nhiều  
hạn chế. Một trong những lý do chính là chúng ta còn thiếu các công cụ xử lý tiếng  
Việt, các tài nguyên ngôn ngữ học.  
Phân loại câu hỏi [15] là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi  
đáp, có nhiệm vụ tìm ra các thông tin cần thiết làm đầu vào cho quá trình xử lý của các  
pha sau (trích chọn tài liệu, trích xuất câu trả lời, v.v.). Vì vậy phân loại câu hỏi có vai  
trò hết sức quan trọng, ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống. Phân  
loại câu hỏi là việc gán các nhãn phân loại cho một câu hỏi dựa trên mức độ tương tự  
của câu hỏi đó so với các câu hỏi đã được gán nhãn trong tập huấn luyện. Phân loại  
câu hỏi nhận đầu vào là câu hỏi của người dùng dưới dạng ngôn ngữ tự nhiên, và đầu  
ra là nhãn phân loại của câu hỏi. Khi một câu hỏi được phân loại đúng thì việc tìm câu  
trả lời cho câu hỏi đó sẽ được chính xác hơn. Ví vụ với câu hỏi “Thành phố nào có  
diện tích lớn nhất Việt Nam?, nếu chúng ta biết được kiểu câu trả lời là thành phố thì  
nó có thể giúp chúng ta giới hạn được các câu trả lời, thay vì việc phải đi kiểm tra các  
danh từ trong các tài liệu cung cấp câu trả lời.  
Đồ án “Các đặc trưng ngôn ngữ cho bài toán phân loại câu hỏi tiếng Việt” thực  
hiện khảo sát, nghiên cứu các phương pháp xây dựng hệ thống hỏi đáp và phân loại  
câu hỏi đang được quan tâm hiện nay, từ đó đưa ra phương pháp phân loại câu hỏi phù  
hợp nhất cho hệ thống hỏi đáp tiếng Việt. Những nghiên cứu trong đồ án có thể coi là  
tiền đề cho các nghiên cứu tiếp theo để xây dựng một hệ thống hỏi đáp hoàn thiện cho  
tiếng Việt.  
Hiện nay có nhiều phương pháp khác nhau để tiếp cận với bài toán phân loại câu  
hỏi, trong phạm vi đồ án này, chúng tôi thực hiện phân loại câu hỏi sử dụng cách tiếp  
cận học máy thống kê, cụ thể là sử dụng 3 thuật toán: Máy véc tơ hỗ trợ (SVM), Naïve  
Bayes (NB) và K-láng giềng gần nhất (KNN). Với thuật toán SVM, chúng tôi sử dụng  
công cụ libsvm [21] để tiến hành làm thực nghiệm, với các thuật toán còn lại, chúng  
tôi sử dụng công cụ Weka [22] để làm thực nghiệm. Các thuật toán được áp dụng làm  
thực nghiệm trên các đặc trưng ngôn ngữ tiếng Việt gồm có: đặc trưng từ vựng, đặc  
trưng âm tiết, n-grams, đặc trưng nhãn từ loại, và đặc trưng về cú pháp phụ thuộc của  
tiếng Việt. Các đặc trưng này sẽ được biểu diễn dưới dạng các vector đặc trưng, làm  
đầu vào cho các thuật toán. Kết quả thực nghiệm tốt nhất đạt được khi sử dụng thuật  
GVHD: TS. Ngô Xuân Bách  
1
SVTH: Nguyễn Đình Nghị – D11CNPM3  
 
ĐỒ ÁN TỐT NGHIỆP  
toán SVM trên đặc trưng âm tiết 1+2 grams kết hợp với đặc trưng nhãn từ loại và đặc  
trưng cú pháp là 85.53%, với các thuật toán Naïve Bayes, K-láng giềng gần nhất, kết  
quả tốt nhất lần lượt là: 77.56%, 70.83%.  
Đồ án được trình bày thành 3 chương như sau:  
CHƢƠNG 1: GIỚI THIỆU HỆ THỐNG HỎI ĐÁP VÀ BÀI TOÁN PHÂN  
LOẠI CÂU HỎI  
Nội dung của chương này giới thiệu tổng quan về hệ thống hỏi đáp tự động, bài  
toán phân loại câu hỏi và trình bày những đóng góp chính của đồ án.  
CHƢƠNG 2: HỆ THỐNG PHÂN LOẠI CÂU HỎI TIẾNG VIỆT  
Chương 2 trình bày một số phương pháp lấy đặc trưng ngôn ngữ tiếng Việt cho  
bài toán phân loại câu hỏi tiếng Việt và các thuật toán học máy thống kê được sử dụng  
để tiến hành thực nghiệm trên các đặc trưng đó.  
CHƢƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ  
Trong chương 3, đồ án trình bày chi tiết về quá trình làm thực nghiệm gồm có  
cách thu thập dữ liệu, cách xử lý dữ liệu, chi tiết từng bước làm thực nghiệm, đánh giá  
kết quả thực nghiệm.  
GVHD: TS. Ngô Xuân Bách  
2
SVTH: Nguyễn Đình Nghị – D11CNPM3  
ĐỒ ÁN TỐT NGHIỆP  
Chương 1: Giới thiệu  
CHƢƠNG 1: GIỚI THIỆU HỆ THỐNG HỎI ĐÁP VÀ BÀI TOÁN  
PHÂN LOẠI CÂU HỎI  
Trong chương 1, đồ án trình bày cái nhìn tổng quan về hệ thống hỏi đáp tự động,  
bao gồm các khái niệm cơ bản liên quan tới hệ thống hỏi đáp, phân loại hệ thống hỏi  
đáp và kiến trúc chung của một hệ thống hỏi đáp. Ngoài ra, chương 1 cũng giới thiệu  
về bài toán phân loại câu hỏi, các cách tiếp cận với bài toán phân loại câu hỏi và mô  
hình của các giai đoạn phân loại câu hỏi, các nghiên cứu liên quan những đóng góp  
mà đồ án đã thực hiện được.  
1.1  
Gii thiu hthng hỏi đáp tự động  
Vi nhu cầu trao đổi thông tin của con người ngày càng cao, thông tin tràn ngp  
trên mọi phương tiện truyền thông, đặc bit là sphát trin rng rãi ca mng toàn cu  
Internet, hằng ngày con người phi xlý một lượng thông tin khng l. Nhng thc  
mc của người dùng dưới dng truy vn sẽ được tìm kiếm và trvmt cách ngn  
gn, súc tích, chính xác nht nhng gì mà hmong muốn. Đó chính là mục tiêu ca hệ  
thng hỏi đáp tự động. Rt nhiu hthng hỏi đáp thông tin qua mạng ra đời nhằm đáp  
ng nhu cu này.  
Nghiên cu vhthng hỏi đáp tự động [15] hiện đang thu hút sự quan tâm ca  
rt nhiu các nhà nghiên cu từ các trường đại hc, các vin nghiên cu và ccác  
doanh nghip ln trong ngành công nghệ thông tin, có ý nghĩa khoa học lẫn ý nghĩa  
thc tế. Rt nhiu các hi nghị thường niên vkhai phá dliu, trích chn thông tin  
dành mt chủ đề riêng cho các nghiên cu vhthng hỏi đáp như TREC [24], CLEF  
[25], v.v. Ngoài ra còn có các phn mềm thương mại liên quan đến QA cũng được  
phát triển như Yahoo Answers [26] ca Yahoo, Google Question [27] ca Google,  
Live QnA ca Microsoft, v.v. và đặc bit có hai phn mm là Answers.com ca  
Answer Corp đạt được 9.5 triệu đô la và Ask của InterActive Corp đạt được 227 triu  
đô la mỗi năm [8].  
Hthng hỏi đáp tự động (Question Answering - QA) là mt hthống được xây  
dựng đthc hin vic tìm kiếm câu trli cho mt câu hi của người dùng tmt tp  
ln các tài liu mt cách chính xác và ngn gn. Hthng hỏi đáp tự động liên quan  
đến 3 lĩnh vực ln là xlý ngôn ngtnhiên (Natuaral Language Processing), tìm  
kiếm thông tin (Information Retrieval) và rút trích thông tin (Information Extraction).  
Hthng hỏi đáp nhận đầu vào là câu hỏi dưới dng ngôn ngtnhiên của người  
dùng và trlại các đoạn văn bản ngn cha câu trli trc tiếp cho câu hi.  
Bài toán xây dng hthng hỏi đáp [15] là mt bài toán khó thuộc lĩnh vực xlý  
ngôn ngtnhiên. Ngôn ngtnhiên vn nhp nhằng, đa nghĩa, việc xác định được  
ngữ nghĩa của câu hỏi cũng như phát hiện ra câu trli là mt thách thc không nh.  
Không nhng vy, gia câu hi và câu trli còn tn ti các quan hệ “ngầm” hay phụ  
thuc vào ngcnh.  
GVHD: TS. Ngô Xuân Bách  
3
SVTH: Nguyễn Đình Nghị – D11CNPM3  
   
ĐỒ ÁN TỐT NGHIỆP  
Chương 1: Giới thiệu  
Ví dcâu hỏi: “Ai là tác giNhật ký trong tù?”  
Câu trlời mong đợi: “Hồ Chí Minh”.  
Tuy nhiên hiện nay, đa phần các hthng hỏi đáp chỉ trli mức đưa ra các  
đoạn trích dn có cha thông tin vcâu trli như sau:  
- “Hồ Chí Minh viết Nht ký trong tù trong thời gian Người bchính quyn  
Tưởng Gii Thch bt giam và giải đi khắp các nhà giam Qung Tây,  
Trung Quốc.”  
- “Nht ký trong tù, dch tiếng Hán Ngc trung nht ký là mt tập thơ của  
Hồ Chí Minh,…”.  
Hay câu hỏi “Mozart sinh năm nào?” và câu trả lời “…Mozart(1751 - 1791)…”  
Để tìm được câu trả lời trên cho câu hỏi, hệ thống cần có cơ chế để biết được  
rằng “tác giả của một tập thơ là người viết tập thơ đó” hoặc cần học được các mẫu  
thường gặp của câu trả lời (các mẫu về ngày tháng năm sinh, về thời gian, địa chỉ v.v.)  
tương ứng với từng loại câu hỏi. Các hệ thống QA trên thế giới hiện nay sử dụng rất  
nhiều các công cụ xử lý ngôn ngữ như: Bộ gán nhãn từ loại (POS Tagger), bộ nhận  
dạng tên thực thể (Named Entity Recognizer), bộ phân tích ngữ pháp (Parser) v.v. và  
các tài nguyên ngôn ngữ như Wordnet, ontology để phân tích câu hỏi và trích xuất câu  
trả lời [15].  
Có 2 loi hthng hỏi đáp:  
- Hthng hỏi đáp lĩnh vực hp (Closed-domain Question Answering): hệ  
thống này liên quan đến các câu hi trong một lĩnh vực cth, chng hạn như  
lĩnh vc y hc, du lch, kinh tế, ththao, v.v.  
- Hthng hỏi đáp lĩnh vực rng (Open-domain Question Answering): hệ  
thống này liên quan đến các câu hi gần như là về tt cmi th.  
Có nhiều phương pháp được đề xuất để xây dựng hệ thống hỏi đáp. Năm 1997,  
hệ thống trực tuyến START sử dụng một cơ sở dữ liệu để phân tích câu hỏi và đưa ra  
câu trả lời [4]. Hầu hết các hệ thống QA hiện đại sử dụng kĩ thuật trích xuất mối quan  
hệ ngữ nghĩa. Ví dụ, năm 2002 Ravichandran và Hovy đề xuất trích mối quan hệ ngữ  
nghĩa sử dụng máy tìm kiếm [5]. Năm 2009, Fahmi tăng độ bao phủ của các mối quan  
hệ bằng cách sử dụng học nửa giám sát để tự động tạo ra các mối quan hệ từ một tập  
lớn dữ liệu [1].  
GVHD: TS. Ngô Xuân Bách  
4
SVTH: Nguyễn Đình Nghị – D11CNPM3  
ĐỒ ÁN TỐT NGHIỆP  
Chương 1: Giới thiệu  
Kiến trúc hệ thống hỏi đáp:  
Hình 1-1: Kiến trúc hệ thống hỏi đáp [12].  
- Giao diện ngƣời dùng: cung cp giao diện cho phép người dùng nhp câu  
hi vào. Các câu hỏi sau đó được gửi đi, hệ thng sxlý và trvề cho người  
dùng mt câu trlời dưới định dạng tương tự.  
- Phân tích câu hi: câu hỏi được phân tích và xử lý để trích lc càng nhiu  
thông tin càng tt mà có thể được sdụng sau này trong giai đoạn tìm kiếm  
dliu.  
- Tìm kiếm dliu: mt số thông tin đã được trích xuất trong giai đoạn phân  
tích câu hi sẽ được sdụng để tìm kiếm thông tin trong cơ sở tri thc.  
- Rút trích câu trli: rút trích câu trli thuộc lĩnh vực rút trích thông tin.  
Thông tin đã được trvề trong giai đoạn này có thlà các tài liu hoc các  
văn bản tvic truy vấn cơ sở dliu.  
- Xếp hng: nếu các kết qucủa giai đoạn rút trích câu trli có nhiều hơn  
mt câu trli thì các câu trli sẽ được xếp hng da trên mức độ liên quan  
vmt ngôn ngvi câu hi của người dùng.  
- Xác minh câu trli: mt shthng QA ci thin tính chính xác bng cách  
phân tích các câu trlời thu được, qua vic sdụng phương pháp xử lý ngôn  
ngtnhiên bằng cách phân tích sâu hơn để xác minh li câu hi. Các câu  
hi và câu trlời được phân tích cú pháp và chuyển đổi sang cùng mt hình  
GVHD: TS. Ngô Xuân Bách  
5
SVTH: Nguyễn Đình Nghị – D11CNPM3  
 
ĐỒ ÁN TỐT NGHIỆP  
Chương 1: Giới thiệu  
thc logic. Các câu hi và câu trlời sau đó được so sánh với nhau để xác  
minh tính hp lý ca câu trli.  
1.2  
Bài toán phân loi câu hi  
Phân loi câu hỏi đóng một vai trò quan trng trong hthng trli câu hi.  
Trước khi tìm ra được câu trli cho câu hi, hthng cn phải xác định được câu hi  
đó thuộc loi nào, hi vcái gì. Ví dcâu hỏi “Dân sVit Nam là bao nhiêu?” là câu  
hi về “số lượng”, hay câu “Ai là tng thng M?” là câu hỏi về “người”. Xác định  
được loi câu hi sgiúp thu hẹp được không gian tìm kiếm câu trli.  
Bài toán phân loi câu hi thc cht có thxem là bài toán phân lp. Phân loi  
câu hi là vic gán các nhãn phân loi cho các câu hi da trên mức độ tương tự ca  
câu hỏi đó so với các câu hỏi đã được gán nhãn trong tp hun luyn. Nó ánh xmt  
câu hi vào mt chủ đề đã biết trong mt tp hu hn các chủ đề dựa trên các đặc  
trưng của câu hi. Phân loi câu hi [15] nhận đầu vào là câu hỏi dưới dng ngôn ngữ  
tnhiên của người dùng, đưa ra nhãn phân loi cho câu hi đó, xem câu hi đó thuc  
loi nào. Các câu hi có thể được phân vào các loi như địa điểm, số lượng, người, mô  
t, khong cách, v.v. Ví dcâu hi HChí Minh là ai?” là câu hi thuc loi Ngưi,  
hay câu hi “Trường Hc vin Công nghBưu chính Vin thông nm ở đâu?là câu  
hi thuc loi Địa điểm.  
Nhiều kĩ thuật máy hc và khai phá dliệu đã được áp dng vào bài toán phân  
loi câu hỏi như: cây quyết định (decision tree), NaiveBayes, K-láng ging gn nht  
(KNN), mạng nơron (neural network), v.v. Phân loi câu hi [14] thường gm 2 giai  
đoạn: giai đon hun luyện và giai đoạn phân lp:  
Giai đoạn hun luyn:  
Ngữ liệu  
huấn luyện  
Tiền xử lý  
Vector hóa  
Mô hình  
phân loại  
Trích chọn  
đặc trưng  
Thuật toán  
huấn luyện  
Hình 1-2: Mô hình giai đoạn huấn luyện [14].  
Giai đoạn hun luyn nhận đầu vào là tp ngliu hun luyn gm các câu hi  
đã được gán nhãn, sau khi xlý tp ngliu và áp dng các thut toán hun luyn sẽ  
cho ra đầu ra là mt mô hình phân loi.  
GVHD: TS. Ngô Xuân Bách  
6
SVTH: Nguyễn Đình Nghị – D11CNPM3  
   
ĐỒ ÁN TỐT NGHIỆP  
Chương 1: Giới thiệu  
Giai đoạn phân lp:  
Câu hỏi  
Tiền xử lý  
Vector hóa  
Trích chọn  
đặc trưng  
Nhãn cho  
câu hỏi  
Sử dụng mô  
hình phân lớp  
Hình 1-3: Mô hình giai đoạn phân lớp [14].  
Giai đoạn phân lp nhận đầu vào là câu hi của người dùng dưới dng ngôn ngữ  
tnhiên, sau quá trình xlý và áp dng mô hình phân loi scho ra nhãn phân loi  
ca câu hỏi đầu vào.  
1.3  
Các nghiên cu liên quan  
Hiện nay đã có một snghiên cu vbài toán phân loi câu hỏi, đặc bit là tiếng  
Anh như nghiên cu ca Zhiheng Huang và các cng s[3]. Nghiên cu này sdng  
5 đặc trưng gồm wh-word, head word, wordnet semantic, n-grams, word shape và sử  
dng hai cách tiếp cn là Máy vector htr(SVM) và Mô hình entropy cực đại  
(MEM) vi kết quả đạt được lần lượt là 89.2% và 89.0%. Nghiên cu ca Dell Zhang  
và Wee Sun Lee [9] sdụng hai đặc trưng là bag-of-word và n-grams. Nghiên cứu đã  
tiến hành thc nghim vi 5 thut toán gm: Support Vector Machine (SVM), K-  
nearest neighbors (KNN), Naïve Bayes (NB), Decision Tree (DT), Sparse Network of  
Winnows (SNoW), và các thc nghiệm được thc hin với các kích thước dliu khác  
nhau. Vi bdliu 1000 câu hi, sdụng đặc trưng từ vng, độ chính xác ca các  
thut toán lần lượt là: KNN đạt được 70%, NB đạt 53.8%, DT đạt 78.8%, SnoW đạt  
71.8% và SVM đạt 76.8%. Vi bdliu 3000 câu hi, độ chính xác ca các thut  
toán lần lượt là: KNN đạt 74.8%, NB đạt 74.2%, DT đạt 82%, SnoW đạt 74.2% và  
SVM đạt 87.4%. Khi áp dụng trên đặc trưng n-grams, vi bdliu 1000 câu hi,  
KNN đạt được độ chính xác 72%, NB đạt 73%, DT đạt 73.8%, SnoW đạt 59.8% và  
SVM đạt 77.6%. Vi bdliu 3000 câu hỏi, độ chính xác ca KNN, NB, DT, SnoW  
và SVM lần lượt là: 79.8%, 80%, 83%, 80.6%, 84%. Hu hết các thc nghiệm đều cho  
thy kết quphân loi sdng thut toán SVM đạt được độ chính xác cao nht.  
Mt snghiên cu vphân loi câu hi trong tiếng Việt như nghiên cu ca Trn  
Vũ Mai và các cng s[8], nghiên cu này đã kết hp hthng SnowBall và phương  
pháp trích xut mi quan hngữ nghĩa sử dng máy tìm kiếm cho tập văn bản tiếng  
Vit. Thc nghiệm ban đầu ca mô hình cho thy hthng có thtrli chính xác  
được 89.1% câu hi của người dùng đưa vào và khả năng đưa ra câu trả li là 91.4%.  
Nghiên cu ca Trn Hải Đăng và các cng s[7] đã sdng công cụ Weka để chy  
các thut toán hc máy Cây quyết định (DT), Naïve Bayes (NB), Máy véc tơ htrợ  
(SVM) với các đặc trưng được sdng là tvng và tkhóa. Vi 6 lp phân loi,  
GVHD: TS. Ngô Xuân Bách  
7
SVTH: Nguyễn Đình Nghị – D11CNPM3  
   
ĐỒ ÁN TỐT NGHIỆP  
Chương 1: Giới thiệu  
phương pháp cây quyết định đạt được độ chính xác là 86.2%, phương pháp Naïve  
Bayes đạt được độ chính xác là 87.4%, và độ chính xác của phương pháp SVM là  
94.1%. Vi 50 lp phân loi, độ chính xác của phương pháp cây quyết định là 80.3%,  
phương pháp Naïve Bayes là 81.1%, và phương pháp SVM là 94%.  
1.4  
Đóng góp của đồ án  
Đồ án có mt số đóng góp cơ bản sau:  
- Nghiên cu vhthng hỏi đáp và bài toán phân loi câu hi với các đặc  
trưng tvng, âm tiết, n-grams, nhãn tloi và cây cú pháp.  
- Thc nghiệm đánh giá với mt số phương pháp học máy gồm có Máy véc tơ  
htr, Naïve Bayes và K-láng ging gn nht.  
- Đồ án cung cp dliu vnhãn tloi và cây cú pháp ca 3000 câu hi tiếng  
Vit.  
- Ngoài ra đồ án còn cung cp bdliu các câu truy vn tiếng Việt được thu  
thp ttrang web google.com. Các câu truy vấn này được bsung vào 3000  
câu hi tiếng Vit.  
GVHD: TS. Ngô Xuân Bách  
8
SVTH: Nguyễn Đình Nghị – D11CNPM3  
 
ĐỒ ÁN TỐT NGHIỆP  
Chương 2: Hệ thống phân loại câu hỏi tiếng Việt  
CHƢƠNG 2: HỆ THỐNG PHÂN LOẠI CÂU HỎI TIẾNG VIỆT  
Trong chương 2, đồ án trình bày một số phương pháp lấy đặc trưng cho phân loại  
câu hỏi tiếng Việt gồm có đặc trưng từ vựng, đặc trưng âm tiết, n-grams, đặc trưng  
nhãn từ loại, đặc trưng cú pháp. Ngoài ra, đồ án còn trình bày các thuật toán được sử  
dụng khi làm thực nghiệm gồm có Máy véc tơ hỗ trợ, Naïve Bayes và K-láng giềng  
gần nhất.  
2.1  
Vấn đề phân loi câu hi cho tiếng Vit  
Chúng ta có mt tp câu hi tiếng Vit, mục đích của chúng ta là phân loi cho  
các câu hỏi đó, xác định xem câu hỏi đó thuộc lĩnh vực nào như: số lượng, địa điểm,  
mô t, v.v.  
Đầu vào: câu hi tiếng Vit của người dùng  
Đầu ra: nhãn phân loi cho câu hi của người dùng  
Ví d: câu hi Cu thnào giành quả bóng vàng năm 2014?” scó nhãn phân  
loi là Người. Hay câu “Sân vận động Bernabeu nm ở đâu?” scó nhãn phân loi là  
Địa điểm.  
Chúng ta có mô hình phân loi câu hi:  
Trích chọn  
đặc trưng  
Thuật toán  
học máy  
Đầu vào  
Đầu ra  
Câu hỏi tiếng  
Việt  
- Từ vựng  
- Âm tiết  
- SVM  
- NB  
Kiểu câu hỏi  
- n-grams  
- Nhãn từ loại  
- Cú pháp  
- KNN  
Hình 2-1: Kiến trúc hệ thống phân loại câu hỏi tiếng Việt.  
Hthng phân loi câu hi cho tiếng Vit gm có 2 thành phn chính:  
- Btrích chọn đặc trƣng: trích xuất ra các đặc trưng từ câu hi của người  
dùng như đặc trưng từ vựng, đặc trưng âm tiết, n-grams, đặc trưng nhãn từ  
loại và đặc trưng cú pháp của câu hi, các đặc trưng này sẽ là đầu vào cho bộ  
phân loi câu hi.  
- Bphân loi: có thsdng các thut toán khác nhau, trong phạm vi đồ án  
chúng tôi sdng 3 thut toán hc máy gm: Máy véc tơ hỗ tr(SVM),  
Naïve Bayes (NB) và K-láng ging gn nht (KNN).  
GVHD: TS. Ngô Xuân Bách  
9
SVTH: Nguyễn Đình Nghị – D11CNPM3  
     
ĐỒ ÁN TỐT NGHIỆP  
Chương 2: Hệ thống phân loại câu hỏi tiếng Việt  
2.2  
Trích chọn đặc trƣng  
Trích chọn đặc trưng có ý nghĩa quan trọng, ảnh hưởng trc tiếp đến kết quả  
phân lp. Các loại đặc trưng chính thường được sdng là tp t(bag-of-word) và tp  
các t/nhãn tloi (bag-of-word/POS tag). Ngoài ra, trong phạm vi đồ án, chúng tôi  
còn sdng thêm các đặc trưng khác như n-grams, đặc trưng âm tiết (bag-of-syllable),  
đặc trưng về cú pháp phthuc ca câu (dependency feature).  
2.2.1 Tvng  
Với đặc trưng từ vng, mt câu sẽ được biu diễn dưới dng mt tp các triêng  
bit, không quan tâm ti ngpháp hay thtca các ttrong câu, chgili sln  
xut hin ca ttrong câu.  
Không giống như tiếng Anh, mi mt âm tiết là mt từ và được viết cách nhau  
bi mt khong trng. Vi tiếng Vit, mt tcó thể được viết bi mt hoc nhiu âm  
tiết, do đó không thdùng khong trng làm ranh gii phân cách các t. Ví dtrong  
tiếng anh chúng ta có tmobile, khi dch ra tiếng Việt mobile có nghĩa là điện thoi,  
được to thành t2 âm tiết là điện thoi. Vì vậy để xác định được các ttiếng Vit,  
chúng ta phi sdng mt công ctách thiu qucho tiếng Việt, và trong đồ án  
chúng tôi sdng công ctách tvnTokenizer [19].  
Ví dvi 2 câu:  
Câu 1: Trong hai thành phố Hà Nội và Bắc Ninh, thành phố nào có diện tích lớn  
hơn?  
Câu 2: Hà Nội là thành phố có diện tích lớn nhất Việt Nam phải không?  
Khi tách tchúng ta có:  
Câu 1: Trong hai thành_phHà_Ni và Bc_Ninh, thành_phnào có din_ tích  
lớn hơn ?  
Câu 2: Hà_Ni là thành_phcó din_tích ln nht Vit_ Nam phi không ?  
Biu diễn đặc trưng:  
- Xây dng từ điển:  
{
1 : Trong, 2 : hai, 3 : thành_ph, 4 : Hà_Ni, 5 : và, 6 : Bc_Ninh, 7 :  
nào, 8 : có, 9 : din_tích, 10 : lớn, 11 : hơn, 12 : là, 13 : nht, 14 :  
Vit_Nam, 15 : phi, 16 : không  
}
- Biu din 2 câu trên dưới dạng vector đặc trưng, mỗi phn tca vector có  
dng: <vtrí ca ttrong từ điển> : <sln xut hin ca ttrong câu>, da  
vào chstrong từ điển ta có 2 vector:  
Câu 1: [1:1, 2:1, 3:2, 4:1, 5:1, 6:1, 7:1, 8:1, 9:1, 10:1, 11:1, 12:0, 13:0, 14:0,  
15:0, 16:0]  
GVHD: TS. Ngô Xuân Bách  
10  
SVTH: Nguyễn Đình Nghị – D11CNPM3  
   
Tải về để xem bản đầy đủ
pdf 60 trang yennguyen 29/03/2022 5140
Bạn đang xem 20 trang mẫu của tài liệu "Đồ án Các đặc trưng ngôn ngữ cho bài toán phân loại câu hỏi tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfdo_an_cac_dac_trung_ngon_ngu_cho_bai_toan_phan_loai_cau_hoi.pdf