Tóm tắt Luận án Sử dụng ngôn ngữ trục trong dịch đa ngữ

BỘ GIÁO DỤC VÀ ĐÀO TẠO  
ĐẠI HỌC ĐÀ NẴNG  
PHAN THỊ LỆ THUYỀN  
SỬ DỤNG NGÔN NGỮ TRỤC TRONG DỊCH ĐA NGỮ  
Chuyên ngành : Khoa học máy tính  
Mã số  
: 62.48.01.01  
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT  
Đà Nẵng 2018  
Công trình được hoàn thành tại  
ĐẠI HỌC ĐÀ NẴNG  
Người hướng dẫn khoa học: PGS.TS. Võ Trung Hùng  
Phản biện 1: GS.TSKH. Hoàng Văn Kiếm  
Phản biện 2: PGS.TS. Huỳnh Xuân Hiệp  
Phản biện 3: PGS.TS. Lê Mạnh Thạnh  
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ tại Đại học  
Đà Nẵng vào lúc 14h30 ngày 19 tháng 05 năm 2018.  
Có thể tìm hiểu luận án tại  
- Trung tâm Thông tin – Tư liệu, Đại học Đà Nẵng  
- Thư viện Quốc gia Việt Nam  
MỞ ĐẦU  
1. Lý do chọn đề tài  
Cùng vi sphát trin ca công nghệ, con người đã tạo ra mt  
lượng thông tin khng ltrên mng Internet được cung cp thàng  
triu Website trên khp thế gii. Nhưng chúng ta không thkhai thác  
hết thông tin bởi nhiều lý do và một trong những lý do quan trọng  
nhất là rào cản về ngôn ngữ. Vấn đề đặt ra là làm thế nào để mọi  
người trên thế giới có thể khai thác hết nguồn thông tin trên Internet  
mà không bị hạn chế bởi ngôn ngữ? Hiện có hai giải pháp chính để  
giải quyết vấn đề này: Thứ nhất phát triển các hệ thống, các ứng  
dụng, các nguồn dữ liệu đa ngữ để người sử dụng có thể lựa chọn  
ngôn ngữ mà họ muốn khi sử dụng; Thứ hai ứng dụng các phần  
mềm dịch tự động để dịch các giao diện, nội dung từ ngôn ngữ hiện  
có sang ngôn ngữ mà người sử dụng chọn lựa.  
Hiện có nhiều hệ thống dịch đa ngữ được xây dựng với nhiều  
hướng tiếp cận khác nhau và chất lượng bản dịch ngày càng được cải  
thiện. Tuy nhiên, đầu ra bản dịch của các hệ thống này hầu hết chỉ  
mang tính tham khảo vì chưa thể hiện hết ý nghĩa, văn phong của câu  
nguồn. Hơn nữa trên thế giới hiện đang sử dụng hơn 5.000 ngôn ngữ  
có chữ viết, việc phát triển một hệ thống dịch đa ngữ cho từng cặp  
ngôn ngữ là vô cùng khó khăn và nhất là những ngôn ngữ có số  
lượng người dùng ít . Một trong những hướng tiếp cận mới trong dịch  
đa ngữ đang được quan tâm là sử dụng ngôn ngữ trục để dịch, hướng  
tiếp cận này giảm chi phí xây dựng phần mềm từ (n*(n-1)) xuống còn  
(2*n) và giải quyết các cặp ngôn ngữ thiếu tài nguyên hoặc không  
tương đồng cấu trúc ngữ pháp.  
Văn phạm câu nguồn trong phương pháp dịch qua ngôn ngtrc  
được phân tích và biu din qua mt ngôn ngkhác gi là ngôn ngữ  
1
trung gian và sau đó sử dụng văn phạm ca ngôn ngữ đích để dch từ  
ngôn ngữ trung gian này. Ưu điểm của phương pháp này là chcn  
phân tích ngôn ngnguồn để chuyn sang ngôn ngtrung gian và  
ngược li. Ngoài ra, trong hthng dịch đa ngữ, chúng ta ddàng bổ  
sung ngôn ngmi này vào hthng nhưng nhược điểm là làm thế  
nào tìm ra một ngôn ngữ mà có thể biu din tt cthông tin mi  
ngôn ngtnhiên và không nhp nhng vngữ nghĩa.  
Trong những năm gần đây, nhiu ngôn ngtnhiên có kho ngữ  
liu song ngln (như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp,…)  
được la chn làm ngôn ngtrung gian trong dch tự động hoc xây  
dng kho ngliu song ng. Tuy nhiên với phương pháp dịch hai ln  
thông qua ngôn ngthba, chất lượng bn dch không cao vì không  
khử được tính nhp nhng ca tloi trong ngôn ngtnhiên. Đến  
nay, hướng tiếp cận này thường sdng cho các cp ngôn ngkhông  
tương đồng vcu trúc ngpháp hoc khan hiếm ngun tài nguyên  
dliu.  
Hin nay có mt ngôn ngữ được xây dng cho dch máy da vào  
phương pháp trung gian gi là UNL, ngôn ngữ này cho phép người  
sdng có thbiu din tt ccác tri thc ca mi ngôn ngtnhiên  
trên máy tính mà không bnhp nhng vngữ nghĩa. UNL bao gồm  
các thành phần như một ngôn ngtnhiên: tvng (UW), quan hệ  
(relation), thuc tính (attributes) và cơ sở tri thc ngôn ngữ  
(UNLKB). Trong UNL, liên kết gia các tvng da trên quan hệ  
ngữ nghĩa và gắn các thuộc tính để miêu tkhía cnh của người nói.  
Mục đích ra đời ca UNL là cung cấp cho người sdng Internet  
khả năng truy cập vào các trang web bng ngôn ngca h. Hthng  
dch tự động đa ngữ bao gm nhiu máy chngôn ngkhác nhau  
được dch thông qua ngôn ngtrc là UNL. Mi máy chngôn ngữ  
2
sẽ đảm nhn hai chức năng, đó là dịch một văn bản tngôn ngữ  
ngun sang ngôn ngUNL gi là quá trình mã hóa và dịch ngược li  
sang ngôn ngữ đích gọi là quá trình giải mã. Đến nay, nhiu ngôn  
ngtrên thế giới đã tích hợp vào nn tng UNL to thành mt hệ  
thng dịch đa ngữ như: tiếng Nga, tiếng Anh, tiếng Nht, tiếng  
Trung, tiếng Tây Ban Nha,… Vấn đề đặt ra là làm thế nào để tích  
hp máy chtiếng Vit vào nn tảng UNL trong khi nó chưa được  
trin khai?  
Xut phát tnhu cu thc tin trên, tác giả đã chọn Sdng ngôn  
ngtrc trong dịch đa ngữ” làm đề tài nghiên cu ca lun án tiến  
skthut nhằm đóng góp cho sự phát trin dch tự động. Đặc bit,  
kết qunghiên cu ca lun án mra một hướng nghiên cu mi cho  
dch tự động gia tiếng Vit vi các ngôn ngữ khác và là cơ hội phát  
trin mt hthng dch tự động đa ngữ đối vi các ngôn ngữ ở Vit  
Nam như: tiếng Việt, Chăm, Ba-na, Ê-đê, Jrai,…  
2. Mục tiêu nghiên cứu  
Mc tiêu chung ca lun án là nghiên cu và thnghim hthng  
dch tự động đa ngữ có tháp dng cho tiếng Vit và các ngôn ngữ  
ca các dân tộc ít người Vit Nam.  
Mc tiêu cthca lun án gm:  
- Đề xuất hướng tiếp cn mi trong dch tự động đa ngữ cho tiếng  
Vit da trên ngôn ngtrc;  
- Xây dng và thnghim hthng dch tự động đa ngữ cho tiếng  
Vit da trên ngôn ngtrc UNL và hthng UNL sn có;  
- Đề xuất hướng mrng hthng dch tự động đa ngữ hin có cho  
các ngôn ngca các dân tộc ít người ti Vit Nam;  
- Đề xuất hướng tiếp cn mi trong dch tự động đa ngữ bao gm  
cho tiếng Vit da vào ngôn ngUNL.  
3
3. Đối tượng và phạm vi nghiên cứu  
Dựa trên mục tiêu, đối tượng nghiên cứu của luận án gồm:  
-Các hướng tiếp cn trong dch tự động;  
-Các vấn đề dch tự động cho tiếng Vit;  
-ng dng ngôn ngUNL trong dch tự động.  
Phạm vi nghiên cứu trong luận án gồm:  
-Hướng tiếp cn da trên ngôn ngtrc UNL trong dch tự động;  
-Cu trúc ngpháp câu tiếng Vit và biu thc UNL;  
-Hthng dịch đa ngữ cho tiếng Vit và UNL;  
-Gii pháp dch tự động gia tiếng Vit và UNL.  
4. Nội dung nghiên cứu  
Để đạt được mục tiêu, nội dung nghiên cứu của luận án gồm:  
- Nghiên cứu một số phương pháp dịch tự động;  
- Nghiên cứu ứng dụng UNL trong dịch tự động;  
- Nghiên cứu các hướng tiếp cận trong dịch tự động cho tiếng Việt;  
- Đề xuất giải pháp dịch đa ngữ cho tiếng Việt dựa vào UNL;  
- Xây dựng hệ thống thử nghiệm dịch tự động Việt – UNL.  
5. Phương pháp nghiên cứu  
Các phương pháp nghiên cứu trong luận án được sử dụng:  
- Phương pháp lý thuyết.  
- Phương pháp thực nghiệm.  
- Phương pháp chuyên gia.  
6. Đóng góp chính của luận án  
Đóng góp chính của luận án bao gồm:  
1) Đề xuất được giải pháp để tích hợp tiếng Việt vào hệ thống  
UNL. Hệ thống UNL đã được nghiên cứu và phát triển trên 20 năm  
(từ 1996) và đã hỗ trợ dịch tự động cho hơn 54 ngôn ngữ. Tuy nhiên,  
việc nghiên cứu để tích hợp tiếng Việt vào hệ thống UNL chưa được  
4
triển khai. Luận án đã nghiên cứu một cách hệ thống về ngôn ngữ và  
UNL; để trên cơ sở đó đề xuất được mô hình tổng thể và các giải  
pháp liên quan để tích hợp tiếng Việt vào UNL. Việc tích hợp này có  
ý nghĩa quan trọng vì chỉ cần tích hợp được tiếng Việt vào hệ thống  
UNL thì chúng ta có thể dịch tự động từ tiếng Việt sang tất cả các  
ngôn ngữ khác đã có trên hệ thống UNL và ngược lại.  
2) Đề xuất giải pháp và xây dựng thành công từ điển tiếng Việt –  
UNL. Từ điển là cơ sở của bất kỳ hệ thống dịch tự động nào và việc  
xây dựng thành công từ điển tiếng Việt – UNL là một đóng góp quan  
trọng để tích hợp tiếng Việt vào hệ thống UNL. Luận án đã nghiên  
cứu đặc điểm của từ điển trong UNL và các từ điển sẵn có của tiếng  
Việt để từ đó xây dựng từ điển Việt – UNL với 235.602 mục từ.  
3) Đề xuất giải pháp và xây dựng tập luật mã hoá (phục vụ dịch  
tiếng Việt sang UNL) và tập luật giải mã (phục vụ dịch từ UNL sang  
tiếng Việt). Trên cơ sở nghiên cứu các luật trong hệ thống UNL và  
một số công cụ liên quan, luận án đã đề xuất giải pháp cải tiến và xây  
dựng các luật phục vụ quá trình dịch tự động giữa tiếng Việt và UNL.  
Đã xây dựng được 40 luật mã hoá cho một số cấu trúc câu tiếng Việt  
để dịch sang biểu thức UNL và 72 luật giải mã cho chiều dịch ngược  
lại.  
4) Đề xuất giải pháp và xây dựng 2 công cụ: EnCoVie là chương  
trình dịch tự động từ tiếng Việt sang UNL và DeCoVie là chương  
trình dịch tự động từ UNL sang tiếng Việt. Đây là 2 chương trình để  
dịch tự động dựa trên từ điển và các tập luật được xây dựng.  
Những đóng góp này có ý nghĩa về mặt khoa học là mở ra một  
hướng nghiên cứu mới về dịch tự động cho tiếng Việt bên cạnh  
những phương pháp đã có. Về mặt thực tiễn là xây dựng bộ từ điển,  
các tập luật và hai chương trình dịch. Đây là tiền đề để tiếp tục hoàn  
5
thiện hệ thống dịch UNL – tiếng Việt và phục vụ cho các nghiên cứu  
sau này trong lĩnh vực dịch tự động.  
7. Bố cục luận án  
Ngoài các nội dung như: mở đầu, kết luận, hướng phát triển, tài  
liệu tham khảo và phụ lục, luận án được tổ chức thành 4 chương:  
Chương 1: Tổng quan về dịch máy và ngôn ngữ UNL. Trình bày  
các kết quả nghiên cứu liên quan đến dịch tự động, các hệ thống dịch  
đa ngữ cho tiếng Việt, đánh giá chất lượng dịch giữa phương pháp  
dịch trung gian và dịch trực tiếp các cặp dịch. Ngoài ra nội dung  
chương cũng trình bày kết quả nghiên cứu về ngôn ngữ UNL, một số  
thành tựu liên quan UNL và ứng dụng UNL làm ngôn ngữ trục trong  
hệ thống dịch đa ngữ.  
Chương 2: Đề xuất mô hình dịch tiếng Việt - UNL. Trình bày kết  
quả thử nghiệm dịch tự động cho tiếng Việt dựa vào UNL trên các  
công cụ có sẵn. Đề xuất mô hình dịch cho tiếng Việt và UNL dựa  
trên lý thuyết hệ thống UNL và các công cụ dịch tự động UNL đã  
được thử nghiệm cho các ngôn ngữ khác và tiếng Việt.  
Chương 3: Xây dựng từ điển và tập luật. Trình bày các giải pháp  
xây dựng bộ từ điển tiếng Việt – UNL, xây dựng tập luật mã hóa và  
giải mã cho hai công cụ EnCoVie và DeCoVie.  
Chương 4: Thử nghiệm và đánh giá. Xây dựng hai công cụ  
chuyển đổi câu tiếng Việt sang UNL và ngược lại. Trình bày các kết  
quả thử nghiệm và đánh giá về các nội dung: xây dựng bộ từ điển  
tiếng Việt – UNL, chuyển đổi của hai công cụ EnCoVie và DeCoVie,  
hệ thống dịch đa ngữ qua ngôn ngữ trục UNL (gồm ba ngôn ngữ tự  
nhiên trong hệ thống: tiếng Việt, tiếng Anh và tiếng Nga).  
Chương 1. TỔNG QUAN VỀ DỊCH MÁY VÀ NGÔN NGỮ UNL  
6
1.1.Mt skhái nim sdng trong lun án  
Định nghĩa một sthut ngữ như: dịch máy, dch song ng, dch  
đa ngữ, ngôn ngtrung gian, ngôn ngtrc, từ điển, từ điển song  
ng, lut ngpháp, phân tích cú pháp nông, phân tích cú pháp sâu,  
ngôn ngUNL, mã hóa, gii mã, máy chngôn ng, hthng UNL,  
công cEnCoVie và DeCoVie.  
1.2.Mt số hướng tiếp cn trong dch tự động  
1.2.1. Dch máy da trên lut  
Là hướng tiếp cận truyền thống dựa trên cơ sở phân tích hình thái  
học, cú pháp và ngữ nghĩa của ngôn ngữ đích và ngôn ngữ nguồn.  
Hướng tiếp cn này có ba phương pháp là dịch trc tiếp, dch chuyn  
đổi cú pháp và dch qua ngôn ngtrung gian.  
1.2.2. Dch máy da trên ngliu  
Là hướng tiếp cận dựa vào các kho ngữ liệu của ngôn ngữ. Hướng  
tiếp cận dịch máy này có hai phương pháp là dịch máy dựa trên ví dụ  
và dịch máy thống kê.  
1.2.3. Phương pháp dịch kết hp  
Đặc trưng của phương pháp dịch kết hợp là sử dụng các ưu điểm  
của nhiều phương pháp khác nhau trong một hệ thống dịch.  
1.2.4. Đánh giá  
Dịch dựa vào luật: Chất lượng bản dịch cao nhưng tốn nhiều chi  
phí xây dựng một hệ thống quy mô lớn khó mở rộng hệ thống.  
Dịch máy dựa vào kho ngữ liệu: chất lượng dịch dựa vào kho ngữ  
liệu song ngữ được huấn luyện sẵn nên rất tốn kém quản lý.  
Hướng tiếp cận dịch kết hợp: sử dụng nhiều phương pháp dịch khác  
nhau trong một hệ thống nên chất lượng dịch được cải thiện.  
1.3. Dịch đa ngữ  
7
Trong các hệ thống dịch đa ngữ hiện nay các cặp ngôn ngữ được  
xây dựng độc lập với nhau về định dạng cấu trúc, do đó khi cần thêm  
một ngôn ngữ mới thì phải bổ sung các mô-đun theo số lượng các  
cặp ngôn ngữ trong hệ thống.  
Hiện trên thế giới có khoảng 5.000 ngôn ngữ có chữ viết, chúng ta  
cũng không thể xây dựng hết tất cả các cặp dịch cho số lượng lớn các  
ngôn ngữ này.  
Một giải pháp mà khi xây dựng hệ thống dịch đa ngữ đang hướng  
đến là dịch qua một ngôn ngữ trục. Với hướng tiếp cận này sẽ giảm  
chi phí xây dựng hệ thống từ n*(n-1) xuống 2*n mô-đun dịch và khi  
cần bổ sung ngôn ngữ mới vào hệ thống thì chỉ cần xây dựng một  
mô-đun cho ngôn ngữ này với ngôn ngữ trung gian đại diện.  
1.4.Vấn đề dch tự động cho tiếng Vit  
Dịch tự động cho tiếng Việt được nhiều nhóm nghiên cứu quan tâm  
nhưng chủ yếu tập trung ở cặp ngôn ngữ Anh – Việt, Pháp – Việt.  
Các hệ thống dịch đa ngữ hiện còn hạn chế số lượng các cặp dịch  
giữa tiếng Việt với các ngôn ngữ trên thế giới.  
Vấn đề đặt ra là làm thế nào để xây dựng nhanh một hệ thống dịch  
đa ngữ cho tiếng Việt với các ngôn ngữ trên thế giới mà giảm chi phí  
xây dựng cho mỗi ngôn ngữ tham gia vào hệ thống?  
1.5.Tng quan vUNL  
1.5.1. Giới thiệu  
UNL là ngôn ngữ nhân tạo có tất cả các thành phần tương ứng với  
ngôn ngữ tự nhiên và được thiết kế để biểu diễn ngôn ngữ tự nhiên  
trong máy tính dưới dạng mạng ngữ nghĩa với cấu trúc đa đồ thị.  
1.5.2. Ngôn ngUNL  
8
UNL có tất cả các thành phần tương ứng của một ngôn ngữ tự  
nhiên, tuy nhiên sự biểu diễn của ngôn ngữ UNL là không nhập  
nhằng về ngữ nghĩa.  
Các khái niệm được định nghĩa trong UNL gọi là từ vựng (UW),  
các từ vựng được liên kết với với nhau để tạo thành biểu thức UNL.  
Các liên kết này được gọi là quan hệ (Relation) nhằm xác định vai trò  
của mỗi từ vựng trong biểu thức. Ý nghĩa chủ quan của người nói  
trong câu nguồn sẽ được thể hiện qua thuộc tính (Attributes) trong  
biểu thức UNL. Ngoài ra một thành phần được dùng để định nghĩa  
ngữ nghĩa của từ vựng gọi là cơ sở tri thức UNL (UNLKB), UNLKB  
đảm bảo chắc chắn nghĩa của từ vựng không nhập nhằng.  
1.5.3. Hthng UNL  
Hthng UNL xây dng nhm mục đích hỗ trcho các dch vụ đa  
ngôn ngữ trên môi trường Internet. Mt hthng UNL gm có các  
máy chngôn ng(Language server), các trình son tho UNL  
(UNL Editor) và trình xem UNL (UNL Viewer).  
1.5.4. Mt skết qunghiên cu liên quan  
Dán nghiên cu UNL bt đầu năm 1996, cho đến nay có nhiu  
kết quả như:  
1) Định nghĩa ngôn ngữ: Năm 1999 giới thiu cuốn sách đầu tiên  
mô tả ý tưởng của UNL, các đặc tả các đặc điểm ca UNL, hthng  
UNL và các thành phn ca hthống. Năm 2005, phiên bản thhai  
được xut bn bsung thc tin sdng và qun lý hthng UNL.  
2) Từ điển UNL: Xây dng btừ điển ca UNL có khong  
220,000 UW được to ra t95,000 ttiếng Anh khác bit  
3) Hthng UNL: Năm 2006, cấu trúc tng thca hthng UNL  
được phát trin hoàn chnh vi mt bcác phn mềm cơ bản và các  
công ccn thiết cho sphát trin và hoạt động ca UNL.  
9
4) Công cphát trin: Công cchuyển đổi văn bản ngôn ngtự  
nhiên sang văn bản UNL (EnCo tool) và ngược li (DeCo tool), công  
cxây dng từ điển (Word Dictionary Builder tool), hai công cIAN  
và EUGENE htrcho các ngôn ngtnhiên chuyển đổi sang UNL  
và ngược lại trên môi trường Web.  
5) Trin khai: Dán UNL bắt đầu vi 15 ngôn ngtrên thế gii  
tham gia: Đức, Rp, Trung Quc, Tây Ban Nha, Pháp, Hindi,  
Indonesia, Anh, Ý, Latvian, Mông C, Bồ Đào Nha, Nga, Thái Lan.  
Hiện nay có hơn 54 ngôn ngữ đã triển khai nghiên cu hthng UNL  
và nhiu dán, hi thảo được tchc: dán UNL-EOLSS chuyn  
đổi 25 bài báo khoa hc sang UNL và nhiu ngôn ngkhác, dán  
CWL sdụng UNL để mô tcu trúc ngữ nghĩa các trang web, …  
Hi tho vUNL tại Tây Ban Nha năm 2002, Mexico năm 2005, Ai  
Cập năm 2007, Mỹ năm 2009, Ấn Độ năm 2012,…  
1.5.5. ng dng UNL làm ngôn ngtrc trong hthng dịch đa  
ngữ  
tiếng Trung  
EnConverter  
DeConverter  
tiếng Anh  
tiếng Nhật  
UNL  
tiếng Pháp  
tiếng Việt  
H nh1.17. Dch qua ngôn ngtrc UNL  
10  
Mt hthng UNL gm nhiu máy chngôn ngkhác nhau, các  
máy chủ đăng ký với tchc Universal Networking Language  
Foundation để thc hin dịch văn bản thông qua UNL. Vi vai trò  
ca mình trong hthng, ngôn ngữ UNL được sdụng như là một  
ngôn ngtrc trong hthng dịch đa ngữ.  
1.6.Tiu kết chương  
Kết qunghiên cu tng quan này có mt công trình công btrên  
tp chí nước ngoài. Trên cơ sở nghiên cu tng quan, tác giả đánh giá  
li nội dung chương như sau:  
1. Nhu cu xây dng hthng dịch đa ngữ cho tt ccác ngôn ngữ  
trên thế giới và đa ngữ hóa website rt cp thiết, tuy nhiên khó đáp  
ng kp thời đối với hướng tiếp cn xây dng n*(n-1) mô-đun dịch.  
2. Hin nay tn ti nhiu hthng dịch được xây dng theo nhiu  
phương pháp khác nhau, do đó chúng ta không thể tích hp các hệ  
thống đơn lẻ thành mt hthng dịch đa ngữ ln.  
3. Dch qua ngôn ngtrung gian là mt hướng tiếp cận được quan  
tâm vì nó làm gim tn*(n-1) xung còn 2*n mô-đun dịch.  
4. Với phương pháp dịch qua ngôn ngtrung gian, ddàng tích hp  
các hthống đơn lẻ (cùng chung ngôn ngtrung gian) thành hthng  
dịch đa ngữ và sdng ngôn ngtrung gian làm ngôn ngtrc.  
5. Dch tự động cho tiếng Việt được nghiên cứu năm 1960, tuy  
nhiên đến nay các nghiên cu chyếu trên mt scp ngôn ng:  
Vit Pháp, Vit Anh,...  
6. Tiếng Việt đã được dch sang rt nhiu ngôn ngkhác nhau (theo  
trên Google translator có khong 103/ 5.000 ngôn ngtrên thế gii),  
tuy nhiên chất lượng đầu ra chmang tính tham khảo hàm ý và chưa  
thdin tvmặt văn phong và ngữ cnh ca câu ngun.  
11  
7. Vit Nam có 54 dân tc, bên cnh chQuc ngcủa người Kinh  
thì có khong 30 dân tc có chviết chính thc hoc không chính  
thc , nhu cu xây dng mt hthng dịch đa ngữ để trao đổi thông  
tin Vit Nam là cn thiết.  
8. UNL ra đời là skết hp ca giải pháp đa ngữ hóa và gim chi  
phí xây dng hthng dịch đa ngữ. Ý tưởng của UNL là định nghĩa  
ra mt ngôn ngtrc có khả năng biểu din cho tt ccác ngôn ngữ  
tnhiên.  
9. Đến nay, dự án UNL đã có thể htrphát triển hơn 54 ngôn ngữ  
khác nhau và có các dán, hi thảo được trin khai.  
Vấn đề đặt ra là làm thế nào để có thể ứng dng UNL trong hệ  
thng dịch đa ngữ cho tiếng Vit? Những đóng góp của lun án trong  
chương này là cơ sở quan trọng để trin khai ở chương kế tiếp.  
Chương 2. ĐỀ XUT MÔ HÌNH DCH TING VIT - UNL  
2.1. Đặt vấn đề  
Ở Việt Nam nghiên cứu về UNL còn hạn chế và chưa có hệ thống  
dịch tiếng Việt dựa vào UNL. Các công cụ hỗ trợ về UNL phù hợp  
cho các ngôn ngữ thử nghiệm hơn là phát triển hoàn chỉnh một máy  
chủ ngôn ngữ. Vấn đề đặt ra là làm thế nào để tích hợp máy chủ tiếng  
Việt vào nền tảng UNL trong khi nó chưa được triển khai?  
2.2. Ngữ pháp tiếng Việt  
Tiếng Việt được xếp vào loại hình đơn lập (Isolate) hay còn gọi là  
loại hình phi hình thái, không biến hình, đơn tiết. Các phương thức  
ngữ pháp tiếng Việt chủ yếu dựa vào trật tự từ, hư từ và ngữ điệu.  
2.3. Đề xuất mô h nh dịch  
12  
Máy chủ tiếng Việt  
Tập luật  
mã hóa  
Từ điển  
tiếng Việt - UNL  
Công cụ EnCoVie  
Câu  
Tiếng Việt  
Biểu thức  
UNL  
Công cụ DeCoVie  
Từ điển  
UNL – tiếng Việt  
Tập luật  
giải mã  
H nh 2.1. Mô hình hthng máy chtiếng Vit  
2.3.1. Công cụ EnCoVie  
Quá trình chuyển đổi được thực hiện như sau: việc tách các từ, gán  
nhãn từ loại và phân tích cú pháp câu đầu vào được thực hiện bởi một  
mô-đun. Sau đó EnCoVie dựa vào bộ từ điển và tập luật mã hóa để  
chuyển đổi câu tiếng Việt sang biểu thức UNL tương ứng.  
2.3.2. Công cụ DeCoVie  
Quá trình giải mã công cụ DeCoVie được mô tả như sau: biểu  
thức UNL đầu vào được tách các mối quan hệ nhị phân và các UW  
bởi một mô-đun. Công cụ DeCoVie dựa vào bộ từ điển và tập luật  
giải mã để chuyển đổi biểu thức UNL sang câu tiếng Việt tương ứng.  
2.3.3. Từ điển trong UNL  
Một mục từ trong từ điển chứa ba thành phần cơ bản: HW - từ đầu  
mục từ ngôn ngữ cần định nghĩa, UW - định nghĩa khái niệm trong  
13  
UNL tương ứng và tập các thuộc tính ngữ pháp. Mỗi headword được  
định nghĩa duy nhất một UW và các thuộc tính tương ứng.  
[HW]“UW”(ATTR,ATTR,…)<FLG,FRE, PRI>;  
Trong từ điển UNL, HeadWord trong mục từ tiếng Việt được định  
nghĩa duy nhất một UW tương ứng. Trong giai đoạn mã hóa, mục từ  
tiếng Việt được sử dụng để tìm UW thích hợp nhằm tạo thành biểu  
thức UNL. Trong quá trình giải mã, các UW trong biểu thức UNL  
được sử dụng để tìm kiếm mục từ tạo thành câu đầu ra tiếng Việt.  
Dựa vào nguyên lý hoạt động này, thay vì xây dựng hai bộ từ điển  
tiếng Việt – UNL cho quá trình mã hóa và từ điển UNL – tiếng Việt  
cho quá trình giải mã thì tác giả đề xuất chỉ xây dựng một bộ từ điển  
dùng chung cho hai quá trình chuyển đổi. Đây cũng là điểm khác biệt  
giữa hệ thống dịch qua UNL với các hệ thống dịch khác.  
2.3.4. Lut ngpháp trong UNL  
Trong luận án, tác giả định nghĩa 5 loại luật mã hóa và 4 loại luật  
giải mã.  
2.4. Một số vấn đề cần xử lý cho tiếng Việt  
Trong các hệ xử lý ngôn ngữ tự nhiên đều phải giải quyết một số  
bài toán (tách từ, gán nhãn từ loại,...) để đạt được mục đích là hiểu  
được ý nghĩa của ngôn ngữ.  
2.5. Tiểu kết chương  
Nội dung chương trình đã bày các nghiên cứu về tiếng Việt, đề xuất  
mô hình dịch tiếng Việt – UNL và các thành phần của nó. Kết quả  
nghiên cứu chương 2 có một công trình công bố trên tạp chí nước  
ngoài. Nội dung chương 2 trình bày một số vấn đề sau:  
1. Cùng một cách thức dịch thông qua ngôn ngữ trung gian, dịch  
qua UNL có kết quả tốt hơn so với dịch qua ngôn ngữ tự nhiên (ví dụ  
tiếng Anh).  
14  
2. Hiện có nhiều công cụ hỗ trợ phát triển ứng dụng UNL cho ngôn  
ngữ tự nhiên, nhưng chúng phù hợp với thử nghiệm hơn là một công  
cụ hoàn chỉnh phát triển máy chủ ngôn ngữ.  
3. Tiếng Việt thuộc loại hình ngôn ngữ đơn lập. Các phương thức  
ngữ pháp tiếng Việt chủ yếu dựa vào trật tự từ, hư từ và ngữ điệu.  
4. Hiện có nhiều nghiên cứu về các bài toán xử lý câu đầu vào  
tiếng Việt và kết quả đầu ra rất tốt (từ 78% - 98%).  
5. Đề xuất mô hình dịch giữa tiếng Việt và UNL: gồm hai công cụ  
chính là EnCoVie và DeCoVie.  
6. EnCoVie và DeCoVie hoạt động dựa vào hai bộ từ điển và hai  
tập luật chuyển đổi.  
Những nội dung đề xuất chương 2 sẽ đặt ra các bài toán cần giải  
quyết cho hệ thống dịch song ngữ Việt - UNL ở chương tiếp theo.  
Chương 3. GIẢI PHÁP XÂY DỰNG TỪ ĐIỂN VÀ LUẬT  
3.1. Giải pháp xây dựng từ điển Tiếng Việt - UNL  
Đề xuất hai giải pháp:  
- Sử dụng UNL Explorer mở rộng từ điển tiếng Việt – UNL.  
- Rút trích tự động các từ vựng từ biểu thức UNL.  
3.2. Giải pháp xây dựng luật ngữ pháp  
3.2.1. Xây dựng luật mã hóa  
3.2.1.1. Xây dựng luật mã hóa cho câu đơn tiếng Việt  
* Trường hợp cấu trúc câu đơn thứ nhất: Xây dựng luật mã hóa  
cho mô hình thứ 4 (trong 12 nhóm mô hình câu đơn)  
Chủ ngữ - Vị ngữ (vị ngữ là “là”+ danh, tính và động từ.  
Có biến thể không là)  
Xét trường hợp với chủ ngữ là đại từ, vị ngữ là danh từ.  
Đại từ nhân xưng+ “là” + danh từ đơn thể  
15  
Hệ từ “” dùng để biểu thị ý nhấn mạnh sắc thái khẳng định, thuộc  
tính @affirmative” mô tả sự khẳng định của người nói.  
-{“là”:null:null}{n,nt:+@affirmative:null};  
Đại từ là những từ dùng để thay thế một đối tượng, một điều đã  
được nói đến, tồn tại.  
>{p,pp:null:aoj}{n,nt,@affirmative:null:null};  
* Trường hợp cấu trúc câu đơn thứ hai: Đây là loại câu hai  
thành phần với vị ngữ là động từ.  
- Xét trường hợp vị ngữ là động từ nội động với một cấu trúc Đại  
từ nhân xưng + động nội động .  
Động từ nội động loại động từ chỉ trạng thái hay hoạt động  
không nhằm vào một đối tượng nào mà nó khép kín trong phạm vi  
chủ th. Mối quan hệ ngữ pháp này được định nghĩa tương đương bởi  
quan hệ ngữ nghĩa “agt” có luật:  
>{p,pp:null:agt}{v,vs:+.@present:null};  
- Xét trường hợp vị ngữ có động từ là ngoại động với một cấu trúc  
cụ thể hơn như đại từ nhân xưng + ngoại động từ + bổ ngữ  
[danh từ trừu tượng+ giới từ + danh từ đơn thể]).  
Cũng giống như động từ nội động, giữa “đại từ nhân xưng” và  
ngoại động từ” thiết lập mối quan hệ nhị phân “agt” tương đương  
trong UNL được định nghĩa bằng luật sửa đổi phải như sau:  
>{p,pp:null:agt}{v,vt:+.@present.@entry:null};  
danh từ trừu tượng” bị ảnh hưởng bởi trạng thái “động từ ngoại  
động” và được định nghĩa bởi luật sau:  
>{v,vt:null:obj}{n,na:null:null};  
Giới từ là một loại từ có tác dụng nối liền từ phụ với từ chính,  
biểu thị quan hệ ngữ pháp như sau:  
16  
-{E:null:null}{n,ng:+E,+plc:null};  
<{n,na:null:plc}{n,ng,plc:null: null};  
- Xét trường hợp vị ngữ có động từ là sai khiến với một cấu trúc cụ  
thể hơn như đại từ nhân xưng + động từ sai khiến + đại từ  
nhân xưng + động từ ngoại động.  
Động từ sai khiến tác động lên một đối tượng để đối tượng thực  
hiện một hành động nào đó. Giữa “đại từ nhân xưng” và “động từ sai  
khiến” thiết lập một mối quan hệ “agt:  
>{p,pp:null:agt}{v,vt,order:+.@present.@entry:null};  
Động từ sai khiến tác động là đại từ nhân xưng bởi “obj:  
<{v,vt,order:null:obj}{p,pp:null:null};  
Quan hệ “gol” định nghĩa trạng thái cuối cùng đạt được.  
<{v,vt,order:null:gol}{v,vt:null: null};  
3.2.1.2. Xây dựng luật mã hóa cho câu ghép tiếng Việt  
* Trường hợp cấu trúc câu ghép thứ nhất: Sử dụng dấu phẩy  
,” để nối.  
Chủ ngữ 1 – vị ngữ 1, Chủ ngữ 2 – vị ngữ 2  
Ta xét một trường hợp của cấu trúc tổng quát trên như sau: đại  
từ nhân xưng + “vừa”+ động từ trạng thái+ danh từ đơn  
thể, đại từ nhân xưng + “sẽ” + động từ ngoại động + tính  
từ chỉ tính chất.  
Thời thể từ là từ loại trong tiếng Việt, vì nó gắn với động từ tạo  
thành ngữ pháp về thời gian ở quá khứ - hiện tại – tương lai. Phụ từ  
“vừa” đi trước động từ nhằm diễn đạt ý nghĩa thời gian hành động  
xảy ra trước thời điểm nói không lâu. Phụ từ “sẽ” cũng đặt trước  
động từ để diễn đạt ý nghĩa ngữ pháp chỉ thời tương lai của hành  
động.  
17  
null};  
-{“sẽ”:null:null}{v,vt:+.future,+.@entry: null};  
Giữa động từ trạng thái và đại từ nhân xưng được thiết lập quan hệ  
obj” bởi luật sau:  
>{p,pp,@pl:null:obj}{v,vs:null:null};  
Giữa động từ trạng thái và danh từ đơn thể có mối quan hệ “cob”:  
<{v,vs:null:nul}{n,nt:null:cob};  
Giữa đại từ nhân xưng và động từ ngoại động có mối quan hệ “agt”:  
>{p,pp,scope01:null:agt :01}{v,vt:+scope01:null};  
Tính từ chỉ tính chất chỉ trạng thái thời gian bởi quan hệ „tim”  
<{v,vt,scope01:null:nul}{a,ap:null:tim:01};  
Dấu phẩy được sử dụng trong cấu trúc để nối hai mệnh đề của câu.  
:{“,”:null:null}{“,”:+comma:null};  
>{v,vs,@entry:null:nul}{comma:null:cnt};  
-{“:01”:null:null}{P,PP,@pl:+scope01:null};  
* Trường hp cu trúc câu ghép thhai: Nối bằng từ ngữ có tác  
dụng nối: và, hoặc, bởi vì, mặc dù ….  
Chủ ngữ 1 – Vị ngữ 1 và Chủ ngữ 2 – Vị ngữ 2  
Ta xét một trường hợp của cấu trúc tổng quát trên như sau: đại từ  
nhân xưng + động từ ngoại động + “và” + đại từ nhân xưng  
+động từ ngoại động.  
Mối quan hệ “agt” được biểu diển bởi các luật:  
>{p,pp:null:agt}{v,vt,CogAct:+@present,+@entry:null};  
>{p,pp,scope01:null:agt:01}{v,vt,PhyAct:+@present,  
+@entry:null};  
18  
Tải về để xem bản đầy đủ
pdf 27 trang yennguyen 29/03/2022 6000
Bạn đang xem 20 trang mẫu của tài liệu "Tóm tắt Luận án Sử dụng ngôn ngữ trục trong dịch đa ngữ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdftom_tat_luan_an_su_dung_ngon_ngu_truc_trong_dich_da_ngu.pdf