Đồ án Phát hiện từ quan điểm mới cho phân tích cảm xúc

BGIÁO DỤC VÀ ĐÀO TẠO  
TRƯỜNG ĐẠI HC DÂN LP HI PHÒNG  
-------o0o-------  
ĐỒ ÁN TT NGHIP  
NGHÀNH CÔNG NGHTHÔNG TIN  
HI PHÒNG 2016  
BGIÁO DỤC VÀ ĐÀO TẠO  
TRƯỜNG ĐẠI HC DÂN LP HI PHÒNG  
-------o0o-------  
PHÁT HIN TỪ QUAN ĐIỂM MI CHO PHÂN TÍCH  
CM XÚC  
ĐỒ ÁN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Nghành : Công NghThông Tin  
Hi Phòng 2016  
BGIÁO DỤC VÀ ĐÀO TẠO  
TRƯỜNG ĐẠI HC DÂN LP HI PHÒNG  
-------o0o-------  
PHÁT HIN TỪ QUAN ĐIỂM MI CHO PHÂN TÍCH  
CM XÚC  
ĐỒ ÁN TT NGHIỆP ĐẠI HC HCHÍNH QUY  
Nghành : Công NghThông Tin  
Sinh viên thc hin : Nguyn Danh Long  
Giáo viên hướng dn : Ths. Nguyn Thị Xuân Hương  
Mã ssinh viên : 1413101003  
BGIÁO DỤC VÀ ĐÀO TẠO  
TRƯỜNG ĐẠI HC DÂN LP HI PHÒNG  
-------o0o-------  
CNG HÒA XàHI CHỦ NGHĨA VIỆT NAM  
Độc lp Tdo Hnh phúc  
NHIM VTHIT KTT NGHIP  
Sinh viên : Nguyn Danh Long  
Lp: CLT 801  
Mã s: 1413101003  
Nghành: Công NghThông Tin  
Tên đề tài : Phát hin từ quan điểm mi cho phân tích cm xúc  
NHIÊM VỤ ĐỀ TÀI  
1. Ni dung và các yêu cu cn gii quyết trong nhim vụ đề tài tt nghip  
a. Ni dung  
b. Các yêu cu cn gii quyết  
2. Các sliu cn thiết để thiết kế , tình toán  
3. Địa điểm thc tp  
CÁN BỘ HƯỚNG DẪN ĐỀ TÀI TT NGHIP  
Người hướng dn thnht:  
Hvà tên:....................................................................................................................  
Hc hàm, hc v:.........................................................................................................  
Cơ quan công tác:.......................................................................................................  
Nội dung hướng dn: …………………………………………………………………  
…………………………………………………………………………………………  
…………………………………………………………………………………………  
…………………………………………………………………………………………  
…………………………………………………………………………………………  
Người hướng dn thhai:  
Hvà tên: ……………………………………………………………………………  
Hc hàm, hc v………………………………………………………………………  
Cơ quan công tác: ……………………………………………………………………  
Nội dung hướng dn: …………………….....................................................................  
…………………………………………………………………………………………  
…………………………………………………………………………………………  
…………………………………………………………………………………………  
…………………………………………………………………………………………  
Đề tài tt nghiệp được giao ngày 18 tháng 04năm 2016  
Yêu cu phải hoàn thành trước ngày 9 tháng 07 năm 2016  
Đã nhận nhim vụ: Đ.T.T.N  
Đã nhận nhim vụ: Đ.T.T.N  
Cán bộ hướng dẫn Đ.T.T.N  
Sinh viên  
Hi Phòng, ngày ............tháng.........năm 2016  
HIỆU TRƯỞNG  
GS.TS.NGƯT Trần Hu Nghị  
PHN NHN XÉT TÓM TT CA CÁN BỘ HƯỚNG DN  
1. Tinh thần thái độ của sinh viên trong quá trình làm đề tài tt nghip:  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
2. Đánh giá chất lượng của đề tài tt nghip (so vi ni dung yêu cu  
đã đề ra trong nhim vụ đề tài tt nghip)  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
...................................................................................................................  
3. Cho điểm ca cán bộ hướng dn:  
( Điểm ghi bng svà ch)  
...................................................................................................................  
...................................................................................................................  
Ngày.......tháng.........năm 2016  
Cán bộ hướng dn chính  
( Ký, ghi rõ htên )  
7
PHN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BCHM PHN  
BIỆN ĐỀ TÀI TT NGHIP  
1. Đánh giá chất lượng đề tài tốt nghiệp (về các mặt như cơ sở lý  
luận, thuyết minh chương trình, giá trị thực tế, ...)  
2. Cho điểm ca cán bphn bin  
( Điểm ghi bng svà ch)  
..............................................................................................................  
..............................................................................................................  
Ngày.......tháng.........năm 2016  
Cán bchm phn bin  
( Ký, ghi rõ htên )  
8
MC LC  
9
10  
LI CM ƠN  
Trước tiên, em xin gi li cảm ơn chân thành và biết ơn sâu sắc nht ti  
Cô Nguyn Thị Xuân Hương, Trường Đại hc Dân lp Hải Phòng đã chỉ bo  
và hướng dn tn tình cho em trong sut quá trình tìm hiu và thc hin khóa  
lun này.  
Em xin chân thành cảm ơn các Thầy, Cô trong Khoa Công nghThông  
tin đã tận tình ging dy và truyn cho em nhng kiến thc quý báu cho em  
trong sut quá trình hc tp và làm luận văn tốt nghip  
Em xin chân thành cảm ơn tới các Thy, Cô và các Cán b, Nhân viên  
của trường Đại hc Dân Lp Hải Phòng đã tạo cho em những điều kin thun  
lợi để hc tp và nghiên cu.  
Cui cùng em mun gi li cảm ơn tới gia đình và bạn bè những người  
thân yêu đã luôn bên cạnh động viên trong sut quá trình hc tp và làm khóa  
lun tt nghip.  
Mặc dù em đã rất cgng hoàn thành luận văn trong phạm vi và khả  
năng cho phép nhưng chắc chn skhông tránh khi nhng thiếu sót. Em kính  
mong nhận được scm thông và tn tình chbo, góp ý ca quý Thy Cô và  
các bn.  
Em xin chân thành cảm ơn!  
Hi Phòng , ngày….. tháng….. năm…….  
Sinh viên  
Nguyn Danh Long  
12  
 
LỜI NÓI ĐẦU  
Ngày nay, vi sphát trin mnh mca Internet, các hình thc kết ni  
và chia sthông tin trong cộng đồng mng ngày càng phát triển đã thu hút một  
lượng lớn người dùng tham gia. Qua đó, hcó thdễ dàng trao đổi, chia sẻ  
thông tin, tho lun các vấn đề và sthích cùng quan tâm. Mt smng xã hi  
phbiến trên thế giới như: facebook, twitter và Việt Nam như Zing có số  
lượng người tham gia ngày càng đông đảo. Các bài nhn xét tho luân trên các  
trang mng tin tc, dch vhay các diễn đàn cũng là một hình thc thhin  
khác rt phát trin.  
Các thông tin được chia svà tho lun trên các trang mng xã hi, trên  
các diễn đàn thuộc rt nhiu chủ đề từ các lĩnh vực kinh tế, chính tr, xã hội …  
đến các vấn đề kthut, dch v, cuc sng hàng ngày.... Từ đó hình thành  
nên các xu hướng, quan điểm ca cộng đồng đối vi việc đánh giá nhận xét  
mt vấn đề, một đối tượng, mt sn phm hay mt hiện tượng nào đó. Các  
quan điểm, xu hướng này sẽ có tác động mnh mẽ đến định hướng, quan điểm  
của người dùng khác.  
Người dùng, hay chính các nhà cung cp sn phm, dch vụ cũng có xu  
hướng khai thác ý kiến đánh giá của người khác để sdng vào nhiu mc  
đích khác nhau. Người dùng cn biết nhn xét vsn phm, dch vcho la  
chn ca mình, còn các nhà sn xut, cung cp dch vthì thu thp thông tin  
để phân tích nhu cu, thhiếu của khách hàng, phân tích các đối thcnh  
tranh để từ đó có chiến lược nâng cao chất lượng sn phm và dch vca  
mình… Và với lượng dliu khng lồ được to ra mi ngày thì nhu cu cn  
có các hthng khai thác và phân tích quan điểm mt cách tự động là rt cn  
thiết.  
Để phân tích quan điểm ta cn phi trích các thông tin chứa quan điểm  
để phân loại có quan điểm hay không. Các thông tin chưa quan điểm có thlà  
thoc mt cm tcó chứa quan điểm cm xúc tích cc, tiêu cc, trung lp.  
Trong khi người dùng cp nht và chia sthông tin ca htrên các trang web  
13  
 
xã hi họ thường sdng li hành văn tự do theo phong cách ngôn ngriêng  
ca họ. Do đó xut hin các tmi thhiện quan điểm trong các lĩnh vực.  
Vic xut hin ngày càng nhiu các từ quan điểm mi nên vic nghiên cu các  
phương pháp trích rút tự động các từ quan điểm mi là rt cn thiết.  
Chính vì lý do trên, em đã chọn đề tài “Phát hiện từ quan điểm mi cho  
phân tích cảm xúc” cho đồ án tt nghip ca mình.  
Nội dung đồ án bao gồm 3 chương :  
Chương 1 : Tng quan về phân tích quan điểm  
Chương 2 : Phát hin tmới cho phân tích quan đim  
Chương 3 : ng dng tìm từ quan điểm mi cho dliu Tiếng Vit  
Cui cùng là phn kết lun.  
14  
CHƯƠNG 1 : TỔNG QUAN VPHÂN TÍCH  
QUAN ĐIỂM  
1.1 Nhu cu về thông tin quan điểm và nhn xét  
Nhng thông tin nhn xét góp ý đã luôn luôn là một phn quan trọng  
trong viêc  
̣
cung câ  
́
p thông tin cho qua trinh ra quyê  
́
t đin  
̣
h cua hâ  
̀
u hê  
u ban be hay ngươi  
thân gii thiu mt thợ cơ khí tự động hoc yêu cu tài liu tham kho liên  
quan đến xin vic từ các đồng nghip, hoặc tư vấn tiêu dùng. Ngay nay,  
́
t chung ta.  
̉
́
́
̀
̉
Trươc khi Internet trơ lên phô biê  
́
n, chung ta thương yêu câ  
̀
̣
̉
́
́
̀
̀
̀
̀
̉
̃
Internet và Web đa giup cho chung ta co thê dê dang tiêp cân cac y kiên va  
́
̣
́
̃
́
́
́
̀
́
́
̀
kinh nghiêm  
̣
của những người khac ma không nhâ  
́
t thiê  
́
t phai la nhưng ngươi  
̉
̃
́
̀
̀
̀
̉
quen biêt ca nhân, không phai la cac nha phê binh chuyên nghiêp  
́
̣
nôi tiê  
́
ng,  
̉
́
̀
́
̀
̀
nhưng ngươi ma chung ta chưa bao giơ nghe noi tơi trong không gian rộng  
̃
̀
̀
́
̀
́
́
̀ ̀  
lớn. Và ngược lại, ngay cang nhiêu va nhiêu hơn nưa nhưng ngươi săn sang  
̃
̃ ̃  
̀ ̀ ̀  
̀
̀
cung câ  
́ ́  
p cac y kiên cua minh cho nhưng ngươi khac qua Internet.  
̉
̃
́ ́ ̀ ́  
̀
Theo hai cuc kho sát của hơn 2000 người Mỹ trưởng thành mi: 81%  
người dùng Internet (hoặc 60% người Mỹ) đã thực hiện nghiên cưu trực tuyến  
́
vmt sn phm ít nht mt ln; 20% (15% ca tt cả các người Mỹ) làm như  
vy trong mt ngày. Trong số các độc giả đánh giá trực tuyến ca nhà hàng,  
khách sạn, và cac dịch vkhác nhau (ví dụ như, các cơ quan du lịch hoc bác  
́
sĩ), giữa 73% và 87% báo cáo đánh giá đã có một ảnh hưởng đáng kể mua  
hàng ca họ. Người tiêu dùng sn sàng trtừ 20% đến 99% mt mục đươc  
̣
đanh gia 5 sao cao hơn so với mt mục đánh giá 4 sao, 32% đã cung cấp mt  
́
́
đánh giá về mt sn phm, dch vthông qua mt hthng xếp hng trc  
tuyến, trong đó có 18% ca công dân trc tuyến cao cấp, có đăng một bình  
lun trc tuyến hoc xem xét vmt sn phm hay dch v.  
́ ̀ ̣ ̣  
Thông kê nhanh chi ra răng viêc tiêu thu hàng hóa và dịch vkhông  
̉
phải là động cơ duy nhất khi ngươi dung tim kiê  
́
m hoặc thhiện y kiê  
́
n trc  
̀
̀
́
̀
tuyến. Sư  
tron  
Rainie và Horrigan nghiên cứu co 31% người M- trên 60 triệu người - 2006  
̣
câ  
̀
n thiê  
́
t cua nhưng thông tin chinh tri  
̣
cung la môt  
̣
yê  
́
u tô  
́
quan  
̉
̃
̃
̀
́
̣
g. Ví dụ, trong mt cuc khảo sát hơn 2500 người Mỹ trưởng thành,  
́
người dung Internet vân  
̣
đôn  
̣
g tranh cư, là những người thu thp thông tin về  
̉
̀
15  
   
̣
cuc bu cử năm 2006 trực tuyến và trao đổi nhân xet thông qua email. Trong  
́
snày:  
• 28% nói rằng nguyên nhân chinh cho các hoạt động trc tuyến nay để  
̀
́
thu nhân  
̣
được quan điểm tbên trong cộng đồng ca h, và 34% cho biết mt  
được quan điểm tbên ngoài cộng đồng ca h.  
lý do chính là để nhân  
̣
• 27% đã xem đánh giá trực tuyến cho stán thành hoc xếp hng ca  
các tchc bên ngoài.  
• 28% cho biết rng hu hết các trang web mà hsdụng để chia sẻ  
quan điểm, nhưng 29% nói rằng phn ln các trang web mà hsdng thách  
thức quan điểm ca h, chra rng nhiều người không chỉ đơn giản là tìm  
̉
̉
kiếm đê xác nhận cac quan điêm co trươc cua ho.  
̣
̉
́
́
́
̣
• 8% đăng binh luân trực tuyến bình lun chính trriêng ca h.  
̀
Đô  
n trưc tuyê  
tiêp cac quan điêm trươc tiên la phân loai  
trong khi đa số người sdng internet ca Mỹ cho ră  
́
i vơi ngươi dung tim kiê  
́
m sư  
xây dưn  
chung. Theo Horrigan thô  
̣
tin cây  
̣
trong nhưng lơi khuyên va tư  
̃
̀ ̀  
́
̀
̀
̀
̉
̣ ̣ ́ ̣  
hê thông mơi đê xư ly trưc  
̉
́ ́  
vâ  
́
̣
́
n quan tâm đê  
́
n viêc  
̣
̣
g môt  
̉
́
̣
́
ng kê rằng  
́
́
̀
́
̀
ng kinh nghiệm tích cực  
̉
trong nghiên cưu san phâm trực tuyến, 58% cho rng thông tin trc tuyến la  
̉
́
̀
thiê  
́
u, kho tim, khó hiểu va hoăc  
̣
qua nhiê  
̀
u. Vì vậy, nhu câ  
̀
u co môt  
̣
hê  
̣
thô  
́
ng  
́
̀
́
́
̀
̉
̃
đê hô trơ  
̣
ngươi tiêu dung tim kiê  
́
m thông tin la rât cân thiêt.  
́
̀
́
̀
̀
̀
̀
̉
Cac nha cung câ  
́
p san phâm ngay cang chu y hơn đê  
́
n sự quan tâm mà  
trong các nhận xét trc tuyến vsn phm và  
ảnh hưởng như xu thê sư dung.  
̉
́
̀
̀
̀
́
́
̉
người dùng cá nhân thê hiên  
̣
dch vụ, va sư  
̣
́
̣
̉
̀
Vi sbùng nca nn tng Web 2.0 như cac blog, diễn đàn thảo lun,  
́
̣ ̣  
peer-to-peer mng, và các loi khác nhau của các mang xa hôi...  
̃
• Thống kê của Facebook: có hơn 500 triệu người dùng trng thái  
hoạt động (active) mỗi người có trung bình 130 bạn (friends), trao đổi qua li  
trên 900 triệu đối tượng.  
• Twitter (5/2011): có hơn 200 triệu người dùng. Một ngày có hơn 300  
nghìn tài khon mới, trung bình hơn 190 triệu tin nhn, xlý trung bình  
khong 1,6 tcâu hi.  
16  
• Ở Vit Nam: các mng xã hội zing.vn, go.vn … thu hút được đông  
đảo người dùng tham gia.  
Môt  
chia skinh nghim và nhn xét ca riêng họ vê  
vu, la tích cc hay tiêu cc. Khi các công ty lớn đang ngày càng nhận ra,  
nhng tiếng nói của người tiêu dùng có thvn dng rt ln ảnh hưởng trong  
̣ ̣  
lương đông đao ngươi dung gia tăng chưa từng có và co quyền  
̉
̀ ̀ ́  
̉
́ ̣ ̣  
bât ky san phâm hoăc dich  
̉
̀
̀
̣
̀
̉
́
i cùng đê trung thành  
vic hình thành nhn xét của người tiêu dùng khác, cuô  
vơi thương hiệu ca họ, ho quyết định mua, và vận động cho chính thương  
̣
́
̉
hiu ca h... Công ty có thể đáp ứng vi những hiêu biêt cua người tiêu  
́
̉
̉
̀
u khiên phương tiện truyn thông xã hội và  
dùng mà htạo ra thông qua điê  
̉
̣ ̣ ̣ ̣  
phân tích cac thông điêp maketing cua ho, đinh vi thương hiêu, phat triên san  
̉
́
̣
̉
́
̉
phâm va cac hoat đông phu hơp khac.  
̣
̣
̣
̀
́
̀
́
Tuy nhiên, các nhà phân tích ngành công nghiệp lưu ý rằng vic tn  
dụng các phương tiện truyn thông mi cho mục đích theo doi hình ảnh sn  
̃
̀
phẩm đòi hỏi cân phai co công nghệ mi.  
̉
́
Các nhà tiếp thluôn luôn cần giám sát các phương tiện truyn thông  
cho thông tin liên quan đến thương hiệu ca mình - cho dù đó là đối vi các  
hoạt động quan hcông chúng, vi phm gian ln, hoc tình báo cnh tranh.  
Nhưng phân mảnh các phương tiện truyn thông va thay đổi hành vi ca  
̀
người tiêu dùng đã loai  
Technorati ước tính rng 75. 000 blog mới được to ra mi ngày, cùng vi 1,  
2 triu bài viết mỗi ngày, trong đo co nhiều nhn xét người tiêu dùng tho  
̣
trư cac phương phap giam sat truyền thng.  
̀
́
́
́
́
́
́
lun vsn phm và dch v.  
̉
Vì vậy, không chi co cá nhân, ma cac công ty, cac tô chưc đê  
̀
u quan  
̉
́
̀
́
́
́
̉
tâm đê  
dùng.  
́
n môt hệ thng có khả năng tự động phân tích quan điêm của người tiêu  
̣
1.2 Lch scủa phân tích quan điểm và khai thác quan điểm  
̉
Linh vưc  
̣
phân tích quan điêm (sentiment analysis) hay khai thác quan  
̃
̉
điêm (opinion mining) gần đây đã thu hút được squan tâm rộng rãi cua cac  
̉
́
nha nghiên cưu. Năm 2001 bă  
́
̀ ̣  
t đâu đánh dấu sư lan rộng nhn thc vcác vn  
̀
́
̉
đề nghiên cứu và cơ hội nâng cao phân tích tinh cam và khai thác quan điêm.  
̉
̀
17  
 
́ ̣ ̀  
Các nhân tô đươc nghiên cưu gôm:  
́
• Sự gia tăng của các phương pháp học máy, xlý ngôn ngtnhiên  
và khôi phc thông tin.  
• Sự sn có của cac tâp  
̣
dữ liệu đao tao  
̣
cho các thuật toán học máy, sư  
̣
́
̀
̉
phat triên của Internet, cthể la sự phát triển cua tâp hơp cac trang Web thu  
̣
̣
̉
́
̀
́
̉
̣ ́  
thâp cac y kiên va quan điêm.  
́ ́ ̀  
• Thực hin nhng thách thc trí tuệ, thương mại và các ng dụng  
thông minh trong linh vưc nay.  
̣
̃
̀
̉
Thuât  
̣
ngư khai thác quan điêm (Dave et al. 2003) là các công cu  
̣
khai  
i tươn  
nhất định, sinh ra mt danh sách các thuc tính sn phm (chất lượng, đăc  
̃
̉
thac quan điêm se xử lý mt tp hp các kết qutìm kiếm cho một đô  
́
̣
g
̃
́
̣
̉
trưng, vv) và cac quan điêm tng hợp vê  
̀
chung (kem, binh thương, tô  
́
t).  
́
́
́
̀
̀
̉
̉
“Phân tích quan điêm” la cụm tsong song của "khai thac quan điêm"  
̀
́
nhng khía cnh nhất định (Das và Chen Tong, 2001). “Phân tích quan  
̉
̉
điêm" và "khai thac quan điêm" biểu thcùng một lĩnh vực nghiên cu.  
́
1.3 Mt snghiên cứu trong phân tích quan điểm  
̀
Gân đây, khai thac quan điểm đã trở thành chủ đề nóng gia các nhà  
́
nghiên cu xlý ngôn ngtnhiên và trích chọn thông tin. Co khá nhiều các  
́
bài báo được xut bn và nhng ng dng khác nhau có sdng hthng  
đánh giá quan điểm được phát triển và đưa vào trong hoạt động thương mại.  
Cac tiê  
́
p cân  
̣ ́  
chu yêu vơi bai toan nay la:  
̉
́ ̀ ́ ̀ ̀  
́
̉
Phân lơp quan điêm thông qua viêc  
̣
xac đin  
̣
h từ, cm tchỉ quan điểm  
́
́
̉
Xác định quan điểm vơi cac thê hiên  
̣
trong tưng thuôc tinh cua đôi  
̣
́
̉
́
́
̀
́
̉
̣ ̀ ́  
g cân tim kiêm quan điêm.  
̀
tươn  
1.3.1 Xác định cm từ, quan điểm  
Nhng t, cm tchỉ quan điểm là nhng tngữ được sdụng để din  
tcm xúc, ý kiến người viết, những quan điểm chủ quan đó dựa trên nhng  
vấn đề mà anh ta hay cô ta đang tranh lun. Vic rút ra nhng t, cm tchỉ  
quan điểm là giai đoạn đầu tiên trong hthống đánh giá quan điểm, vì nhng  
18  
   
t, cm tnày là nhng chìa khóa cho công vic nhn biết và phân loi tài  
liệu sau đó.  
ng dng da trên hthống đánh giá quan điểm hin nay tp trung vào  
các tchni dung câu: danh từ, động t, tính tvà phó t. Phn ln công  
vic sdng tloại để rút chúng ra (Hu và Liu, 2004, Turney, 2002). Vic  
gán nhãn tloại cũng được sdng trong công việc này, điều này có thgiúp  
cho vic nhn biết xu hướng quan điểm trong giai đoạn tiếp theo. Những kĩ  
thut phân tích ngôn ngtự nhiên khác như xóa: stopwords, stemming cũng  
được sdụng trong giai đoạn tin xử lý để rút ra t, cm tchỉ quan điểm  
1.3.2 Sdng tính tvà phó từ  
Nhng hthng hin tại dùng để nhn biết nhng tchỉ quan điểm hay  
xu hướng quan điểm tp trung chyếu vào các tính tvà phó tvì chúng  
được xem là sbiu lrõ ràng nht ca tính chquan ( Hatzivassiloglou and  
McKeown, 1997, Wiebe and Bruce, 1999 ).  
Hu và Liu (2004) áp dng vic gán nhãn tloại và kĩ thuật xlý ngôn  
ngtnhiên nhm rút ra nhng tính từ cũng như những tchỉ quan điểm.  
̉
̣ ̣ ̣ ̣ ̣ ́ ̣ ̀  
Phương phap cua ho dưa vao viêc phân loai dưa trên dâu hiêu quan điêm vê  
̀
̉
́
̉
san phâm:  
̉
. Định nghĩa một câu mà cha mt hay nhiu du hiu sn phm và từ  
chỉ quan điểm được xem là mt câu chỉ quan điểm.  
. Vơi mỗi câu trong dliu chỉ quan điểm, rút ra tt cnhng tính từ  
́
được coi là nhng tchỉ quan điểm.  
. Kết quthc nghim vic rút ra những câu đánh giá quan điểm có độ  
chính xác (precision) khong 64.2% và recall là 69.3%.  
. Sdụng WordNet (Fellbaum, 1998) để xác định các tính từ được rút ra  
mang chiều hướng tích cc (positive) hay tiêu cc (negative).  
Trong WordNet, các tính từ được tchc thành các cm từ lưỡng cc,  
na cm thhai phần đầu là từ trái nghĩa của cm thnht. Mi na cm là  
phần đầu ca tp từ đồng nghĩa chính, tiếp theo là tp từ đồng nghĩa kèm theo,  
đại din cho ngữ nghĩa tương tự như những tính tquan trọng. Ngược vi  
cách tiếp cn da trên từ điển, hsdụng định hướng quan điểm ca nhng  
từ đồng nghĩa và từ trái nghĩa để dự đoán định hướng ca các tính t. Hbt  
19  
 
đầu vi mt danh sách khởi đầu gm 30 tính tthông dụng được chn thủ  
công (bằng tay). Sau đó sử dụng WordNet để dự đoán định hướng ca tt cả  
các tính ttrong danh sách từ quan điểm được rút ra bng cách tìm kiếm qua  
cụm lưỡng cực để tìm ra liu các từ đồng nghĩa hay trái nghĩa có trong danh  
sách khởi đầu hay không. Khi định hướng ca tính từ được dự đoán, nó sẽ  
được bsung vào danh sách khởi đầu và có thể được sdụng để xác định  
định hướng ca các tính từ khác. Trong phương pháp này, danh sách khởi đầu  
sdần tăng lên khi sự định hướng ca các tính từ được nhn dng, và khi nó  
ngừng gia tăng, tức qui mô ca danh sách khởi đầu trùng vi qui mô ca danh  
sách tchỉ quan điểm, thì tt cả định hướng ca các tính từ đã được nhn biết  
và quá trình này kết thúc.  
Nhng từ quan điểm thường tp trung chyếu vào hai tư loại: tinh từ  
̀
́
và phó tvì vy càng nhn dạng chính xác được nhiu hai loi tnày hệ  
thống càng có độ chính xác cao  
1.3.3 Sdụng các động từ  
Các tính tvà phó từ đóng một vai trò quan trng trong vic phân tích  
quan điểm và là các loi tcó li thế trong vic nhn biết định hướng và rút ra  
các tchỉ quan điểm trong các nghiên cu hin nay. Tuy nhiên, các loi từ  
khác, ví dụ như động từ cũng được sdụng để din tcm xúc hay ý kiến  
trong các bài viết.  
Nasukawa và Yi (2003) xem xét rng bên cnh các tính tvà phó t,  
thì các động từ cũng có thể din tả quan điểm trong hthống đánh giá quan  
điểm ca h. Hphân loại các động từ có liên quan đến quan điểm thành 2  
loi. Loi thnht trc tiếp thhiện quan điểm tích cc hay tiêu cc, theo lý  
gii ca họ thì “beat” trong “X beats Y”. Loi thhai không thhin quan  
điểm trc tiếp nhưng dẫn đến những quan điểm, giống như “is” trong “X is  
good”.  
̣
Hsdụng gan nhan tư loai dựa trên mô hình Markov (HMM)  
̃
́
̀
(Manning and Schutze, 1999) và phân tích cú pháp nông da trên lut (Neff et  
al., 2003) cho bước tin xlý. Sau đó họ phân tích tính phthuc vmt cú  
pháp gia các cm tvà tìm kiếm các cm tcó mt tchỉ quan điểm mà nó  
bổ nghĩa hoặc được bổ nghĩa bởi mt thut ngchth.  
20  
 
Tải về để xem bản đầy đủ
pdf 55 trang yennguyen 29/03/2022 7320
Bạn đang xem 20 trang mẫu của tài liệu "Đồ án Phát hiện từ quan điểm mới cho phân tích cảm xúc", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfdo_an_phat_hien_tu_quan_diem_moi_cho_phan_tich_cam_xuc.pdf