Mô hình học sâu cho bài toán gán nhãn ngữ nghĩa trên văn bản y sinh

Tạp chí Phát triển Khoa học và Công nghệ – Khoa học Tự nhiên, 5(2):1032-1039  
Bài nghiên cứu  
Open Access Full Text Article  
Mô hình học sâu cho bài toán gán nhãn ngữ nghĩa trên văn bản y  
sinh  
Tuấn Nguyên Hoài Đức1,*, Lê Đình Việt Huy2, Trần Tiền Lợi Long Tứ3  
TÓM TẮT  
Chúng tôi xây dựng một mô hình gán nhãn Cấu trúc Đối số Vị ngữ cho văn bản Y Sinh. Cấu trúc  
Đối số Vị ngữ là thông tin ngữ nghĩa quan trọng của văn bản, do nó chuyển tải sự kiện chính được  
Use your smartphone to scan this  
QR code and download this article  
nói đến trong mỗi câu. Rút trích được Cấu trúc Đối số Vị ngữ trong câu là tiền đề quan trọng để  
máy tính có thể giải quyết được hàng loạt bài toán khác liên quan đến ngữ nghĩa của văn bản như  
rút trích sự kiện, rút trích thực thể, hệ hỏi đáp… Cấu trúc Đối số Vị ngữ phụ thuộc vào lĩnh vực của  
văn bản. Do đó, trong lĩnh vực Y Sinh, văn bản cần xác định khung Đối số Vị ngữ hoàn toàn mới so  
với lĩnh vực tổng quát. Với đặc thù phải xử lý trên một khung đối số mới, việc xác định bộ đặc trưng  
cho học máy là khó và đòi hỏi nhiều công sức chuyên gia. Để giải quyết thách thức này, chúng tôi  
chọn huấn luyện mô hình của mình bằng phương pháp Học sâu (Deep learning) với Mạng nơ ron  
bộ nhớ ngắn dài hai chiều (Bi-directional Long Short Term Memory). Học sâu là phương pháp học  
máy không đòi hỏi con người phải xác định bộ đặc trưng một cách thủ công. Ngoài ra, chúng tôi  
cũng tích hợp kết nối cao tốc (Highway Connection) giữa những tầng nơ ron ẩn không liên tiếp  
để hạn chế mất mát đạo hàm. Bên cạnh đó, để khắc phục vấn đề ngữ liệu huấn luyện ít, chúng  
tôi tích hợp Học sâu với kỹ thuật Học đa tác vụ. Học Đa tác vụ giúp cho tác vụ chính (bài toán gán  
nhãn Cấu trúc Đối số Vị ngữ) được bổ trợ tri thức từ một tác vụ phụ có liên quan mật thiết là bài  
toán rút trích Thực thể. Mô hình của chúng tôi đạt F1 = 72% mà không cần chuyên gia thiết kế bất  
kỳ đặc trưng nào, qua đó cho thấy triển vọng của Học sâu trong bài toán này. Ngoài ra, kết quả  
thực nghiệm cũng cho thấy Học đa tác vụ là kỹ thuật phù hợp để khắc phục vấn đề ngữ liệu huấn  
luyện ít trong lĩnh vực Y Sinh vì nó cải thiện được độ đo F1.  
Từ khoá: cấu trúc đối số vị ngữ, gán nhãn ngữ nghĩa văn bản, học sâu  
1Khoa Công nghệ ông tin, Trường Đại  
học Khoa học Tự nhiên, ĐHQG-HCM,  
Việt Nam  
2Công ty TNHH Công nghệ ZAMO LLC,  
Ngữ nghĩa (Semantic Role Labeling – SRL).  
GIỚI THIỆU  
Việt Nam  
SRL là một bài toán phụ thuộc lĩnh vực (domain de-  
pendence). Khi áp dụng vào một lĩnh vực mới như  
lĩnh vực Y Sinh, việc xác định bộ đặc trưng nào phù  
hợp để huấn luyện máy tính hiệu quả là một thách  
thức. Một hướng tiếp cận cho thách thức này là ứng  
dụng học sâu (deep learning – DL) vì DL có thế mạnh  
Y Sinh (Biomedicine) là ngành khoa học ứng dụng các  
kỹ thuật Công nghệ Sinh học vào chăm sóc sức khỏe  
con người. Ngành khoa học này ngày càng khẳng  
định tiềm năng to lớn của nó trong chẩn đoán và điều  
trị bệnh1. Kho tri thức của lĩnh vực Y Sinh đang được  
tích lũy và phát triển không ngừng, và phần lớn ở dạng  
3Công ty Gameloꢀ Vietnam, Việt Nam  
Liên hệ  
Tuấn Nguyên Hoài Đức, Khoa Công nghệ  
Thông tin, Trường Đại học Khoa học Tự  
nhiên, ĐHQG-HCM, Việt Nam  
văn bản. Việc khai thác hiệu quả kho tri thức này sẽ tự đúc kết được bộ đặc trưng phù hợp, giúp tránh  
Email: tnhduc@fit.hcmus.edu.vn  
giúp ích rất nhiều cho các hoạt động chăm sóc sức  
khỏe. Tuy nhiên, với khối lượng văn bản đồ sộ vượt  
trên khả năng khai thác thủ công của con người, việc  
khai khoáng kho tri thức Y Sinh một cách tự động  
bằng máy tính là cần thiết.  
việc chuyên gia phải xây dựng thủ công bộ đặc trưng  
cho một lĩnh vực rất mới2. Công trình của chúng tôi  
nghiên cứu và thử nghiệm một mô hình DL cho bài  
toán SRL trên văn bản Y Sinh và phân tích, đánh giá  
kết quả đạt được của mô hình.  
Lịch sử  
Ngày nhận: 18-7-2020  
Ngày chấp nhận: 01-04-2020  
Ngày đăng: 16-04-2020  
DOI : 10.32508/stdjns.v5i2.928  
Để máy tính có thể đọc hiểu văn bản nhằm rút trích  
tri thức, trước tiên máy tính cần hiểu được nội dung CƠ SỞ LÝ THUYẾT VỀ CẤU TRÚC ĐỐI  
của từng câu trong văn bản. Nội dung của mỗi câu  
được truyền tải thông qua một động từ chính, gọi là  
SỐ VỊ NGỮ  
Bản quyền  
Cấu trúc Đối số Vị ngữ (Predicate Argument Struc-  
ture – PAS) là kết quả của phương pháp phân tích văn  
bản ở mức ngữ nghĩa sâu. Trong cấu trúc này thì trung  
tâm là động từ chính, gọi là vị ngữ, xoay quanh vị ngữ  
là các đối số (bao gồm cả chủ ngữ của câu). Môĩ đối số  
vị ngữ (predicate) và những đối số (argument) có liên  
quan ngữ nghĩa đến động từ chính. Vì vậy, một trong  
những bài toán quan trọng nhằm giúp máy tính đọc  
hiểu văn bản một cách hiệu quả là bài toán rút trích  
Cấu trúc Đối số Vị ngữ (Predicate Argument Struc-  
© ĐHQG Tp.HCM. Đây là bài báo công bố  
mở được phát hành theo các điều khoản của  
the Creative Commons Attribution 4.0  
International license.  
ture – PAS), hay còn được gọi là bài toán Gán nhãn đều có một vai trò ngữ nghĩa cụ thể (semantic role).  
Trích dẫn bài báo này: Đức T N H, Huy L D V, Tứ T T L L. Mô hình học sâu cho bài toán gán nhãn ngữ  
nghĩa trên văn bản y sinh. Sci. Tech. Dev. J. - Nat. Sci.; 5(2):1032-1039.  
1032  
Tạp chí Phát triển Khoa học và Công nghệ – Khoa học Tự nhiên, 5(2):1032-1039  
í dụ: Xét câu “Tôi thuê căn phòng của bạn một  
tháng, câu này có PAS gồm vị ngữ là “thuê” và bốn  
đối số xoay quanh vị ngữ là:  
Sinh. Vì vậy, GREC khắc phục được hạn chế  
của BioProp, và cũng khắc phục được hạn chế  
về kích thước ngữ liệu của PasBIO.  
Đối số 0: “Tôi” (vai trò ngữ nghĩa: Người thuê).  
Đối số 1: “Phòng” (vai trò ngữ nghĩa: Vật được thuê).  
Đối số 2: “Bạn” (vai trò ngữ nghĩa: Người cho thuê).  
Đối số 3: “Một tháng” (vai trò ngữ nghĩa: ời hạn  
thuê).  
NHỮNG NGHIÊN CỨU VỀ SRL  
Gán nhãn ngữ nghĩa (Semantic Role Labeling - SRL)  
là bài toán tự động nhận diện vị ngữ cùng các đối số  
của nó trong văn bản và gắn nhãn vai trò ngữ nghĩa  
(gọi tắt là nhãn ngữ nghĩa) cho từng đối số. Vì vậy,  
SRL còn được gọi là bài toán rút trích PAS. Các nghiên  
cứu về SRL chia ra 3 hướng tiếp cận: Hướng dựa trên  
luật, hướng khớp mẫu và hướng học máy trong đó có  
học sâu.  
Có nhiều bộ ngữ liệu PAS được xây dựng cho lĩnh vực  
tổng quát như FrameNet, VerbNet và PropBank35  
.
Trong đó, PropBank định nghĩa bộ đối số chi tiết nhất  
cho từng vị ngữ.  
PAS trong lĩnh vực Y Sinh có nhiều khác biệt so với  
PAS trong lĩnh vực tổng quát, bao gồm khác biệt về ý  
nghĩa của vị ngữ, cũng như là khác biệt về thành phần  
đối số. í dụ: Xét vị ngữ “mutate. Trong Y Sinh,  
“mutate” có nghĩa là “đột biến” với 4 đối số là: (1) Vị  
trí exon hoặc nitron xảy ra đột biến, (2) Gene bị đột  
biến, (3) Hậu quả về kiểu gene, (4) Hậu quả về kiểu  
hình. Trong khi đó, ở lĩnh vực tổng quát thì “mutate”  
có nghĩa là “thay đổi” với chỉ 2 đối số là: (1) Tác nhân  
gây thay đổi, (2) đối tượng bị thay đổi.  
Nhận thấy những khác biệt đó, nhiều công trình đã  
xây dựng những bộ ngữ liệu PAS riêng cho lĩnh vực  
Y Sinh. Mỗi công trình đều chọn ra những vị ngữ có  
ý nghĩa quan trọng trong văn bản Y Sinh, là những  
động từ thường truyền tải các sự kiện Y Sinh quan  
trọng (như đột biến, mã hóa, giải mã, biểu hiện…),  
để định nghĩa khung đối số cụ thể cho từng vị ngữ  
ấy. Các công trình xây dựng những bộ ngữ liệu PAS  
Y Sinh được biết đến nhiều nhất bao gồm BioProp,  
PasBIO và GREC.  
Hướng dựa trên luật  
Hướng dựa trên luật là hướng tiếp cận sớm nhất, sử  
dụng bộ luật viết thủ công bởi chuyên gia để nhận biết  
vị ngữ, đối số trong văn bản thô và quyết định nhãn  
ngữ nghĩa cho đối số. Những công trình tiêu biểu  
trong hướng này có thể kể đến như: uyết Ngữ pháp  
Cấu trúc Dâñ xuất Đầu tố ngữ (Head-Driven Phrase  
Structure Grammar - HPSG)9; Mô hình khai thác  
Penn Treebank trong việc dựng luật và khắc phục các  
trường hợp đối số rỗng, như câu khuyết túc từ hoặc  
chủ ngữ ngầm định10,11; Hệ thống cơ sở của CoNLL  
2004 và CoNLL 2005 với một tập luật heuristic để xử  
lý SRL12,13. Ngoài ra, một số công trình tuy tiếp cận  
theo hướng học máy nhưng vẫn dùng luật heuristic  
như một giải pháp tinh chỉnh kết quả xử lý14,15  
.
Trong lĩnh vực Y Sinh, nhiều công cụ SRL được xây  
dựng cũng vận dụng bộ luật heuristic dựa trên cây cú  
pháp để rút trích PAS từ văn bản Y Sinh1618. Mặt  
hạn chế của hướng dựa trên luật là cần có chuyên gia  
xây dựng thủ công bộ luật. Chỉ cần chuyển sang một  
lĩnh vực khác hoặc một ngôn ngữ khác thì lại phải xây  
dựng lại từ đầu một bộ luật mới. Hơn nữa, bộ luật  
mà chuyên gia xây dựng cũng không thể nào phủ hết  
mọi cấu trúc ngữ pháp có thể xuất hiện trong văn bản.  
Do đó, hướng này tuy cho độ chính xác cao nhưng độ  
• BioProp là bộ ngữ liệu bao gồm 1635 câu trích  
dẫn từ phần tóm tắt (abstract) của 500 bài báo Y  
Sinh6. Hạn chế của Bioprop là vay mượn hoàn  
toàn bộ đối số từ PropBank, một bộ ngữ liệu của  
lĩnh vực tổng quát. Do đó, các bộ đối số của  
BioProp chưa thực sự được chuyên biệt hóa vào  
lĩnh vực Y Sinh.  
• PasBio khắc phục hạn chế của BioProp bằng bao phủ lại không cao. Tuy nhiên, ưu điểm của hướng  
cách định nghĩa lại toàn bộ các khung đối số cho dựa trên luật là nó phù hợp với những ngôn ngữ hoặc  
phù hợp với lĩnh vực Y Sinh7. Nhưng hạn chế lĩnh vực có ít tài nguyên ngôn ngữ, nơi mà kích thước  
của công trình này là chưa đầu tư gắn nhãn lại ngữ liệu không đủ để huấn luyện máy tính theo hướng  
các đối số ấy vào bộ ngữ liệu. Kết quả là bộ ngữ học máy (như các công trình SRL cho tiếng Hà Lan và  
liệu thực sự được gán nhãn các đối số theo định tiếng Nhật19,20).  
nghĩa của PasBIO chỉ vỏn vẹn hơn 200 câu. Kích  
thước này là quá nhỏ để dùng trong học máy.  
Hướng khớp mẫu  
• GREC là bộ ngữ liệu bao gồm 1489 câu trích dẫn Hướng khớp mẫu sử dụng các mẫu được định nghĩa  
từ phần tóm tắt của 677 bài báo Y Sinh8. Trong sẵn để so khớp vào văn bản, từ đó rút trích được vị ngữ  
GREC, vị ngữ không chỉ bao gồm động từ chính và các đối số kèm theo vai trò ngữ nghĩa của chúng.  
mà còn bao gồm cà các danh động, với bộ đối Trong lĩnh vực tổng quát, ở hầu hết các công trình, bộ  
số được định nghĩa chuyên biệt cho lĩnh vực Y mẫu có được là do khai khoáng từ ngữ liệu2123. Hạn  
1033  
Tạp chí Phát triển Khoa học và Công nghệ – Khoa học Tự nhiên, 5(2):1032-1039  
chế của việc khai khoáng bộ mẫu từ ngữ liệu là khó Vì vậy, công trình của chúng tôi chọn thử nghiệm mô  
kiểm soát các mẫu thu được do độ nhiễu cao. Vì thế, hình học sâu (deep learning) vào bài toán SRL cho văn  
hướng này vẫn không tránh khỏi phải có sự can thiệp  
thủ công để rà soát lại bộ mẫu. Trong lĩnh vực Y Sinh,  
do hạn chế vì kích thước ngữ liệu nên các công trình  
bản Y Sinh vì thế mạnh của học sâu là không cần xác  
định thủ công bộ đặc trưng.  
PHƯƠNG PHÁP THỰC HIỆN  
cần có chuyên gia xây dựng thủ công bộ mẫu16,24  
.
Cũng như hướng dựa trên luật, hướng khớp mẫu chỉ  
phù hợp với những lĩnh vực hoặc những ngôn ngữ  
hạn chế về kích thước ngữ liệu. Khi kích thước ngữ  
liệu đủ lớn, hướng học máy vẫn là giải pháp được lựa  
chọn hàng đầu.  
Mô hình mạng nơ ron mà chúng tôi lựa chọn là Mạng  
nơ ron bộ nhớ ngắn dài hai chiều (Bi-directional Long  
Short Term Memory – gọi tắt là Bi-LSTM).  
Mạng nơ ron hồi quy truyền thống không giải quyết  
được vấn đề phụ thuộc xa, một vấn đề quan trọng  
trong xử lý ngôn ngữ tự nhiên33. Do đó, mạng nơ  
ron bộ nhớ ngắn dài (LSTM) là lựa chọn hợp lý vì nó  
khắc phục được hạn chế này của mạng hồi quy truyền  
thống34. Mạng LSTM mô phỏng tế bào bộ nhớ con  
người với các cổng thông tin vào ra. ông qua các  
cổng này, tế bào sẽ quyết định thông tin nào được ghi  
nhớ để phục vụ xử lý.  
Hướng học máy  
Hướng học máy là hướng tiếp cận mới hơn hai hướng  
kể trên (trong đó, học sâu là kỹ thuật mới nhất).  
Hướng học máy huấn luyện máy tính thông qua một  
quá trình học, có thể là học có giám sát, bán giám sát  
hoặc không giám sát, để sau đó máy tính có thể tự nó  
thực hiện SRL.  
Tuy nhiên, các tế bào của LSTM chỉ liên kết theo một  
chiều, một thông tin chỉ được xử lý dựa trên dữ kiện  
từ các thông tin trước nó. Trong khi đó, mỗi một từ  
trong văn bản có liên hệ ngữ nghĩa mật thiết với không  
chỉ những từ trước nó mà cả những từ sau nó. Một  
cải tiến của mạng LSTM là mạng LSTM hai chiều (Bi-  
LSTM) đã khắc phục vấn đề này, cho phép xử lý thông  
Học máy có giám sát sử dụng bộ ngữ liệu có kích  
thước đủ lớn đã gán nhãn ngữ nghĩa sẵn đế huấn  
luyện máy tính (như Penn TreeBank; PropBank;  
FrameNet)2529. Trong lĩnh vực Y Sinh, BIOSMILE là  
công trình SRL hoàn chỉnh đầu tiên, được huấn luyện  
bằng MaxEnt trên bộ ngữ liệu BioProp30  
.
tin dựa trên những dữ kiện đi trước và đi sau nó35  
Bi-LSTM đã được chọn sử dụng trong các nghiên cứu  
gần đây về SRL3638  
.
ách thức của học máy có giám sát là việc xây dựng  
bộ ngữ liệu gán nhãn sẵn rất công phu, đòi hỏi thời  
gian và chi phí. Từ đó, nhiều công trình đã đề xuất các  
.
mô hình học máy bán giám sát cho bài toán SRL31,32  
.
Bên cạnh đó, chúng tôi vận dụng Kết nối Cao tốc  
(Highway Connection – HC), một cải tiến cho mạng  
BiLSTM được đề xuất cho bài toán SRL38. HC là  
những kết nối thông tầng giữa hai tầng tế bào không  
liên tiếp, tạo nên sự liên kết không những là 2 chiều  
mà còn là xuyên tầng giữa các tế bào trong mạng nơ  
ron, giúp hoạt động học của mạng nơ ron linh hoạt  
và thông minh hơn. Hệ thống SRL cho văn bản trong  
lĩnh vực tổng quát được huấn luyện bằng mạng Bi-  
LSTM có HC đã cho kết quả cao nhất (state-of-the-  
art) với F1 = 83,2%38. Vì vậy, mô hình Bi-LSTM có  
HC cũng hứa hẹn triển vọng cho SRL trên văn bản Y  
Sinh.  
Kết hợp tất cả những đề xuất nêu trên, mô hình của  
chúng tôi vẫn còn một thách thức phải quan tâm: kích  
thước ngữ liệu huấn luyện trong Y sinh rất hạn chế so  
với lĩnh vực tổng quát (Bộ ngữ liệu GREC gồm 1489  
câu). Vì vậy, chúng tôi tích hợp kỹ thuật học đa tác  
vụ vào mô hình của mình. Học đa tác vụ (Multi-Task  
Learning) là thuật toán học máy, cho phép huấn luyện  
các tác vụ có liên quan với nhau trên cùng một mô  
hình và dữ liệu để bổ trợ nhau. Việc tận dụng kiến  
thức của những tác vụ liên quan sẽ giúp cải thiện đáng  
kể hiệu quả của tác vụ chính. Học đa tác vụ được đề  
xuất cho bài toán SRL khi xử lý trên văn bản tiếng  
Trong đó, các cấu trúc PAS được rút trích bằng việc lặp  
đi lặp lại quá trình tuyển chọn ứng viên trên dữ liệu  
thô, bắt đầu từ một ít PAS làm ứng viên hạt giống. Các  
mô hình này không đòi hỏi nhiều ngữ liệu gán nhãn  
sẵn nên thuận lợi khi chuyển sang ngôn ngữ hoặc lĩnh  
vực mới, nhưng do tính phân kỳ của các cấu trúc ứng  
viên nên độ chính xác thấp hơn học máy có giám sát.  
Đối với học máy, bộ đặc trưng đóng vai trò quan  
trọng. Hầu hết công trình đều tập trung vào việc tinh  
chỉnh, bổ sung đặc trưng để cải thiện kết quả của công  
trình trước đó. Việc chọn đặc trưng gì cho từng lĩnh  
vực hoặc từng ngôn ngữ cụ thể là do chuyên gia quyết  
định. Đây là một thách thức đối với lĩnh vực Y Sinh  
vì các lý do sau:  
• Bài toán SRL là phụ thuộc lĩnh vực nên các bộ  
đặc trưng đã được nghiên cứu trong lĩnh vực  
tổng quát không thể áp dụng rập khuôn cho lĩnh  
vực Y Sinh.  
• Khó mà quyết định đặc trưng gì là hiệu quả do:  
(i) Một đối số Y Sinh có nhiều biến thể, (ii) PAS  
trong Y Sinh xuất hiện trong nhiều cấu trúc ngữ  
pháp phong phú phức tạp; (iii) Vai trò ngữ nghĩa  
trong Y Sinh có độ nhập nhằng cao (cùng một  
danh từ có thể giữ nhiều vai trò ngữ nghĩa).  
1034  
Tạp chí Phát triển Khoa học và Công nghệ – Khoa học Tự nhiên, 5(2):1032-1039  
Indonesia trong lĩnh vực tổng quát với dữ liệu huấn  
luyện ít và cho thấy F1 được cải thiện 8%36. Khi áp  
dụng vào văn bản Y Sinh, chúng tôi nhận thấy bài toán  
SRL có liên quan mật thiết với bài toán Rút trích ực  
thể (Named Entity Recognition – NER), vì loại thực  
thể của đối số quyết định vai trò ngữ nghĩa của đối số  
(Ví dụ loại thực thể DNA chỉ có thể giữ vai trò “tác  
nhân” của vị ngữ “encode” chứ không thể giữ vai trò  
“sản phẩm”). Vì vậy, chúng tôi chọn bài toán NER là  
tác vụ phụ trong mô hình học đa tác vụ của mình để  
bổ trợ cho tác vụ chính là SRL.  
Ngoài ra, DL kết hợp với học máy truyền thống sẽ  
cho kết quả tốt hơn từng kỹ thuật riêng l39. Do đó,  
trong mô hình của chúng tôi, tầng đầu ra của mạng  
nơ ron được phân loại một lần nữa bởi mô hình học  
máy truyền thống là CRF và Soꢀmax (Hình 1). Kết  
quả thực nghiệm của mô hình sẽ được phân tích trong  
mục Kết quả thực nghiệm.  
• Ở cả mô hình học đơn tác vụ và đa tác vụ đều  
cho thấy ở tầng đầu ra của tác vụ SRL, CRF là  
phù hợp hơn so với Soꢀmax.  
KẾT LUẬN  
Chúng tôi đã xây đựng được mô hình học sâu cho bài  
toán SRL trên văn bản Y Sinh với một dữ liệu huấn  
luyện có kích thước hạn chế. Mô hình của chúng tôi  
trong lĩnh vực Y Sinh đạt F1 = 72% với chỉ 1389 câu  
trong dữ liệu huấn luyện. Kết quả này không cách quá  
xa so với kết quả cao nhất trong lĩnh vực tổng quát đạt  
F1 = 77% trong công trình tiên phong đề xuất học đa  
tác vụ cho bài toán SRL với dữ liệu huấn luyện hơn  
6000 câu36. Kết quả thử nghiệm của chúng tôi cho  
thấy mô hình học đa tác vụ cũng phù hợp với SRL  
trong lĩnh vực Y Sinh, một lĩnh vực còn hạn chế về  
kích thước ngữ liệu gán nhãn sẵn.  
Hướng phát triển của chúng tôi là thử nghiệm kết hợp  
tri thức ngữ pháp với mức biểu diễn từ và ký tự để  
làm giàu đặc trưng cho mô hình. Đồng thời, chúng  
tôi sẽ kết hợp kỹ thuật học chủ động (Active learn-  
ing) với học đa tác vụ để nâng cao hiệu quả của mô  
hình. Ngoài ra, chúng tôi sẽ nghiên cứu ứng dụng  
transfer learning từ một mô hình pre-trained để hỗ  
trợ mô hình học sâu khi tập dữ liệu huấn luyện có  
kích thước hạn chế.  
KẾT QUẢ THỬ NGHIỆM VÀ THẢO  
LUẬN  
Bộ ngữ liệu được sử dụng để huấn luyện và đánh giá  
là GREC, được xây dựng bởi trung tâm Text Mining  
(NaCTeM), Khoa Khoa học Máy tính, Trường Đại học  
Manchester, Anh quốc8. Ưu điểm của GREC là các vị  
ngữ của câu không chỉ có động từ mà còn bao gồm  
cả danh động nên độ phủ cao, với 4770 vị ngữ. Đồng  
thời GREC còn gán nhãn thực thể nên rất thuận lợi  
cho học đa tác vụ. Về phương pháp đánh giá, chúng  
tôi dùng phương pháp đánh giá chéo 10 pha (10-fold  
cross validation)  
Chúng tôi thử nghiệm và so sánh kết quả của mô hình  
với ba mức biểu diễn là chỉ có mức từ (word embed-  
ding), chỉ có mức ký tự (character embedding) và mức  
từ kết hợp với mức ký tự với những số chiều vector  
khác nhau. Chúng tôi cũng so sánh hiệu quả của Soꢀ-  
max và CRF ở tầng đầu ra, cũng như so sánh hiệu quả  
của mô hình khi không có học đa tác vụ (Bảng 1) và  
khi có học đa tác vụ (Bảng 2).  
LỜI CẢM ƠN  
Nghiên cứu được tài trợ bởi Trường Đại học Khoa học  
Tự nhiên, ĐHQG-HCM trong khuôn khổ Đề tài mã  
số CNTT 2020-13  
DANH MỤC TỪ VIẾT TẮT  
PAS: Cấu trúc Đối số Vị ngữ (Predicate Argument  
Structure)  
SRL: Gán nhãn Ngữ nghĩa (Semantic Role Labelling)  
NER: Gán nhãn thực thể (Named Entity Recognition)  
DL : Ứng dụng học sâu (Deep Learning)  
Từ kết quả thử nghiệm cho thấy:  
XUNG ĐỘT LỢI ÍCH TÁC GIẢ  
• F1 cao nhất của mô hình có học đa tác vụ cao  
hơn F1 cao nhất của mô hình học đơn tác vụ  
5.14%, đây là một khoảng cách đáng kể. Điều  
này củng cố giả thiết của chúng tôi về hiệu quả  
tích cực của học đa tác vụ cũng như việc lựa  
chọn tác vụ phụ là NER đối với SRL cho văn bản  
Y Sinh.  
Các tác giả tuyên bố rằng họ không có xung đột lợi  
ích.  
ĐÓNG GÓP CỦA CÁC TÁC GIẢ  
Tuấn Nguyên Hoài Đức chủ trì đề tài, tiến hành khảo  
sát hiện trạng, thu thập dữ liệu, phân tích đánh giá  
giải pháp và viết bài.  
• Ở cả mô hình học đơn tác vụ và đa tác vụ đều  
cho thấy việc tăng số chiều vector không nâng  
cao F1 đáng kể bằng việc chia mịn mức biểu  
diễn, từ mức từ thành mức ký tự.  
Lê Đình Việt Huy và Trần Tiền Lợi Long Tứ tham gia  
khảo sát hiện trạng, đề xuất giải pháp và lập trình thử  
nghiệm.  
1035  
Tạp chí Phát triển Khoa học và Công nghệ – Khoa học Tự nhiên, 5(2):1032-1039  
Hình 1: Kiến trúc của mô hình được đề xuất  
Bảng 1: Kết quả thực nghiệm với mô hình đơn tác vụ  
STT  
Số chiều vector  
Mức biểu diễn  
Word  
Lớp đầu ra  
Soꢀmax  
CRF  
P
R
F1  
1
2
3
4
5
6
100  
100  
100  
300  
100  
300  
64,12  
67,95  
67,81  
68,62  
72,21  
73,36  
58,01  
56,13  
63,3  
60,91  
61,48  
65,48  
65,98  
69,15  
69,99  
Word  
Char  
CRF  
Char  
CRF  
63,55  
66,34  
66,93  
Word+Char  
Word+Char  
CRF  
CRF  
1036  
   
Tạp chí Phát triển Khoa học và Công nghệ – Khoa học Tự nhiên, 5(2):1032-1039  
Bảng 2: Kết quả thực nghiệm với mô hình đa tác vụ.  
STT Số chiều vector  
Mức biểu Lớp đầu ra cho SRL Lớp đầu ra cho Kết quả SRL  
diễn  
NER  
R
F1  
1
2
3
4
5
6
7
100  
100  
100  
100  
300  
100  
300  
Word  
Word  
Word  
Char  
Char  
Soꢀmax  
CRF  
CRF  
68,93  
69,27  
70,04  
73,29  
74,57  
78,03  
78,86  
64,31  
64,97  
67,74  
67,97  
67,90  
70,97  
71,74  
66,54  
67,05  
68,87  
70,53  
72,08  
74,33  
75,13  
CRF  
CRF  
Soꢀmax  
Soꢀmax  
Soꢀmax  
Soꢀmax  
Soꢀmax  
CRF  
CRF  
Word+Char CRF  
Word+Char CRF  
17. Grenager T, et al. Manning, Unsupervised Discovery of a Sta-  
tistical Verb Lexicon. EMNLP. 2007;06:1–8. Available from:  
TÀI LIỆU THAM KHẢO  
1. Enderle JD, et al. Introduction to Biomedical Engineering, Aca-  
demic Press. 2012;p. 16–21.  
18. Wattarujeekrit T. Exploring Predicate-Argument Relations for  
Named Entity Recognition in the Molecular Biology Domain,  
International Conference on Discovery Science. 2005;8:267–  
280. Available from: https://doi.org/10.1007/11563983_23.  
19. Stevens G. XARA: An XML- and rule-based semantic role  
labeler, The Linguistic Annotation Workshop, Annual Meet-  
ing of the Association for Computational Linguistics. 2007;45.  
from: 26110305.  
2. Schmidhuber J.  
An Overview, Neural Networks. 2015;61:85–117.  
Deep Learning in Neural Networks:  
PMID:  
3. Johnson CR, et al. The FrameNet project: Tools for lexi-  
con building, International Conference on Computational Lin-  
guistics. 1998;17:86–90.  
4. Kipper K, et al. Class-based construction of a verb lexicon,  
AAAI-2000. 2000;(2000):691–696.  
5. Kingsbury P, Palmer M. From Treebank to PropBank, Inter-  
national Conference on Language Resources and Evaluation.  
2002;12:38–43.  
6. Chou WC, et al. A semi-automatic method for annotating a  
biomedical proposition bank, The workshop on frontiers in  
linguistically annotated corpora. 2006;p. 5–12.  
7. Wattarujeekrit T, et al. PASBio: predicate-argument structures  
for event extraction in molecular biology, BMC Bioinformatics.  
2004;5:155–163. PMID: 15494078. Available from: https://doi.  
8. Thompson P, Cotter P, McNaught J, et al. Building a Bio-Event  
Annotated Corpus for the Acquisition of Semantic Frames  
from Biomedical Corpora. LREC. 2008;.  
9. Pollard C, Sag IA. Head-Driven Phrase Structure Grammar. IL:  
Univ. of Chicago Press. 1994;.  
10. Liakata M, et al. From Trees To Predicate-Argument Struc-  
tures, International Conference on Computational Linguis-  
tics. 2002;20:563–569. Available from: https://doi.org/10.3115/  
11. Marcus M, et al. The Penn Treebank: Annotating Predicate Ar-  
gument Structure, The Human Language Technology Work-  
shop. Plainsboro, NJ, 114119. 1994;Available from: https://doi.  
12. Carreras X, Màrquez L. Introduction To the CoNLL-2005 shared  
task: Semantic role labeling, CoNLL. 2005;p. 152–164. Avail-  
13. Carreras X, Màrquez L. Introduction to the CoNLL-2004 shared  
task: Semantic role labeling, HLT-NAACL 2004 Workshop 8th  
Conf. Comput. Natural Lang. Learn. 2004;p. 89–97.  
14. Park KM, et al. Two-phase semantic role labeling based on  
support vector machines, CoNLL. 2004;.  
20. Iida R, et al.  
Annotating a Japanese Text Corpus with  
Predicate-Argument and Coreference Relations, the Linguis-  
tic Annotation Workshop. 2007;p. 132–139. Available from:  
21. Riloff E. Automatically Generating Extraction Patterns from  
Untagged Text, National Conference on Artificial Intelligence.  
1996;19:1044–1049.  
22. Riloff E. An empirical approach to conceptual case frame ac-  
quisition, TheWorkshoponVeryLargeCorpora. 1998;6:49–56.  
23. Riloff E. Automatically constructing a dictionary for informa-  
tion extraction tasks, National Conference on Artificial Intelli-  
gence (AAAI). 1993;1:811–816.  
24. Huang M. Discovering patterns to extract protein-protein in-  
teractions from full texts. Bioinformatics. 2004;p. 3604–3612.  
PMID: 15284092. Available from: https://doi.org/10.1093/  
25. Blaheta D, Charniak E. Assigning function tags to parsed text,  
the Annual Meeting of the North American Chapter of the  
ACL. 2000;1:234–240.  
26. Gildea D, Jurafsky D. Automatic labeling of semantic roles,  
Computational Linguistics. 2002;p. 245–288. Available from:  
27. Gildea D, Palmer M. The necessity of parsing for predicate ar-  
gument recognition, Meeting of the Association for Compu-  
tational Linguistics. 2002;40:239–246. Available from: https:  
28. Surdeanu M, Harabagiu S, et al. Using Predicate-Argument  
Structure for Information Extraction, Annual Conference on  
the Association for Computational Linguistics. 2013;41:46–51.  
29. Kingsbury P, Palmer M, Marcus M. Adding Semantic Annota-  
tion to the Penn TreeBank, The Human Language Technology  
Conference. 2002;p. 252–256.  
30. Tsai RTH, et al. BIOSMILE: Adapting Semantic Role Labeling for  
Biomedical Verbs: An Exponential Model Coupled with Auto-  
matically Generated Template Features, BioNLP Conference.  
2006;.  
15. Surdeanu M, et al. Semantic role labeling using complete syn-  
tactic analysis, CoNLL. 2005;p. 67–72. Available from: https:  
16. Chi-San (Althon) Lin, Tony C. Smith, Semantic role labeling via  
consensus in pattern-matching, CONLL. 2005;5:185–188.  
31. Swier RS, Stevenson S. Exploiting a Verb Lexicon in Automatic  
Semantic Role Labelling, EMNLP. 2005;05:883–890.  
1037  
                                                   
Tạp chí Phát triển Khoa học và Công nghệ – Khoa học Tự nhiên, 5(2):1032-1039  
32. Swier RS, Stevenson S. Unsupervised Semantic Role Labeling,  
EMNLP. 2004;04:95–102.  
Resource NLP. 2018;p. 43–50. Available from: https://doi.org/  
33. Bengio Y, Simard P. Problem of learning long-term Dependen-  
cies in Recurrent Network, IEEE Transactions on Neural Net-  
works archive. 1994;5:157–166. PMID: 18267787. Available  
34. Hochreiter S. Long-Short Term Memory, Neural Computation  
Archive. 1997;9:1735–1780. PMID: 9377276. Available from:  
37. Zhou J, Xu W. End-to-end Learning of Semantic Role La-  
beling Using Recurrent Neural Networks, Annual Meeting  
of the Association for Computational Linguistics 53 - Inter-  
national Joint Conference on Natural Language Processing.  
2015;7:1127–1137. Available from: https://doi.org/10.3115/v1/  
38. He L, et al. Deep Semantic Role Labeling: What Works and  
What’s Next, Annual Meeting of the Association for Compu-  
tational Linguistics. 2017;55:473–483. Available from: https:  
35. Graves A, rahman Mohamed A, Hinton G. Speech Recog-  
nition with Deep Recurrent Neural networks, 1988. ICASSP.  
2013;88:90–95.  
36. Ikhwantri F, et al.  
39. Bethard YV. A survey on recent advances in named entity  
recognition from deep learning models, International Confer-  
ence on Computational Linguistics. 2018;27:2145 –2158.  
Multi-Task Active Learning for Neu-  
ral Semantic Role Labeling on Low Resource Conversational  
Corpus, Workshop on Deep Learning Approaches for Low-  
1038  
             
Tạp chí Phát triển Khoa học và Công nghệ – Natural Sciences, 5(2):1032-1039  
Research article  
Open Access Full Text Article  
A deep-learning model for semantic role labelling in medical  
documents  
Tuan Nguyen Hoai Duc1,*, Le Dinh Viet Huy2, Tran Tien Loi Long Tu3  
TÓM TẮT  
Webuiltamodellabelling thePredicateArgumentStructure(PAS)forbiomedicaldocuments. PASis  
an important semantic information of any document, because it reveals the main event mentioned  
Use your smartphone to scan this  
QR code and download this article  
in each sentence. Extracting PAS in a sentence is an important premise for the computer to solve  
a series of other problems related to the semantics in text such as event extraction, named entity  
extraction, question answering system… The predicate argument structure is domain dependent.  
Therefore, in Biomedical field, it is required to define a completely new Predicate Argument frame  
compared to the general field. For a machine learning model to work well with a new argument  
frame, identifying a new feature set is required. This is difficult, manual and requires a lot of expert  
labor. To address this challenge, we chose to train our model with Deep Learning method utilizing  
Bi-directional Long Short Term Memory. Deep learning is a machine learning method that does  
not require defining the feature sets manually. In addition, we also integrate Highway Connection  
between hidden neuron layers to minimize derivative loss. Besides, to overcome the problem of  
small training corpus, we integrate Deep Learning with Multi-task Learning technique. Multi-task  
Learning helps the main task (PAS tagging) to be complemented with knowledge learnt from a  
closely related task, the NER. Our model achieved F1 = 75.13% without any manually designed  
feature, thereby showing the prospect of Deep Learning in this domain. In addition, the experiment  
results also show that Multi-task Learning is an appropriate technique to overcome the problem of  
little training data in biomedical fields, by improving the F1 score.  
Từ khoá: predicate argument structure, semantic role labelling, deep learning  
1Faculty of Information Technology,  
University of Sciences, VNU-HCM,  
Vietnam.  
2ZAMO LLC Technology Ltd. Company,  
Vietnam.  
3Gameloꢀ Vietnam Company, Vietnam.  
Liên hệ  
Tuan Nguyen Hoai Duc, Faculty of  
Information Technology, University of  
Sciences, VNU-HCM, Vietnam.  
Email: tnhduc@fit.hcmus.edu.vn  
Lịch sử  
Ngày nhận: 18-7-2020  
Ngày chấp nhận: 01-4-2021  
Ngày đăng: 16-4-2021  
DOI : 10.32508/stdjns.v5i2.928  
Bản quyền  
© ĐHQG Tp.HCM. Đây là bài báo công bố  
mở được phát hành theo các điều khoản của  
the Creative Commons Attribution 4.0  
International license.  
Trích dẫn bài báo này: Duc T N H, Huy L D V, Tu T T L L. A deep-learning model for semantic role  
labelling in medical documents. Sci. Tech. Dev. J. - Nat. Sci.; 5(2):1032-1039.  
1039  
pdf 8 trang yennguyen 09/04/2022 7680
Bạn đang xem tài liệu "Mô hình học sâu cho bài toán gán nhãn ngữ nghĩa trên văn bản y sinh", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfmo_hinh_hoc_sau_cho_bai_toan_gan_nhan_ngu_nghia_tren_van_ban.pdf