Đồ án Phát hiện từ quan điểm mới cho phân tích cảm xúc
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
-------o0o-------
ĐỒ ÁN TỐT NGHIỆP
NGHÀNH CÔNG NGHỆ THÔNG TIN
HẢI PHÒNG 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
-------o0o-------
PHÁT HIỆN TỪ QUAN ĐIỂM MỚI CHO PHÂN TÍCH
CẢM XÚC
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Nghành : Công Nghệ Thông Tin
Hải Phòng 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
-------o0o-------
PHÁT HIỆN TỪ QUAN ĐIỂM MỚI CHO PHÂN TÍCH
CẢM XÚC
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Nghành : Công Nghệ Thông Tin
Sinh viên thực hiện : Nguyễn Danh Long
Giáo viên hướng dẫn : Ths. Nguyễn Thị Xuân Hương
Mã số sinh viên : 1413101003
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
-------o0o-------
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP
Sinh viên : Nguyễn Danh Long
Lớp: CLT 801
Mã số : 1413101003
Nghành: Công Nghệ Thông Tin
Tên đề tài : Phát hiện từ quan điểm mới cho phân tích cảm xúc
NHIÊM VỤ ĐỀ TÀI
1. Nội dung và các yêu cầu cần giải quyết trong nhiệm vụ đề tài tốt nghiệp
a. Nội dung
b. Các yêu cầu cần giải quyết
2. Các số liệu cần thiết để thiết kế , tình toán
3. Địa điểm thực tập
CÁN BỘ HƯỚNG DẪN ĐỀ TÀI TỐT NGHIỆP
Người hướng dẫn thứ nhất:
Họ và tên:....................................................................................................................
Học hàm, học vị:.........................................................................................................
Cơ quan công tác:.......................................................................................................
Nội dung hướng dẫn: …………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
Người hướng dẫn thứ hai:
Họ và tên: ……………………………………………………………………………
Học hàm, học vị………………………………………………………………………
Cơ quan công tác: ……………………………………………………………………
Nội dung hướng dẫn: …………………….....................................................................
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
…………………………………………………………………………………………
Đề tài tốt nghiệp được giao ngày 18 tháng 04năm 2016
Yêu cầu phải hoàn thành trước ngày 9 tháng 07 năm 2016
Đã nhận nhiệm vụ: Đ.T.T.N
Đã nhận nhiệm vụ: Đ.T.T.N
Cán bộ hướng dẫn Đ.T.T.N
Sinh viên
Hải Phòng, ngày ............tháng.........năm 2016
HIỆU TRƯỞNG
GS.TS.NGƯT Trần Hữu Nghị
PHẦN NHẬN XÉT TÓM TẮT CỦA CÁN BỘ HƯỚNG DẪN
1. Tinh thần thái độ của sinh viên trong quá trình làm đề tài tốt nghiệp:
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
2. Đánh giá chất lượng của đề tài tốt nghiệp (so với nội dung yêu cầu
đã đề ra trong nhiệm vụ đề tài tốt nghiệp)
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
3. Cho điểm của cán bộ hướng dẫn:
( Điểm ghi bằng số và chữ )
...................................................................................................................
...................................................................................................................
Ngày.......tháng.........năm 2016
Cán bộ hướng dẫn chính
( Ký, ghi rõ họ tên )
7
PHẦN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BỘ CHẤM PHẢN
BIỆN ĐỀ TÀI TỐT NGHIỆP
1. Đánh giá chất lượng đề tài tốt nghiệp (về các mặt như cơ sở lý
luận, thuyết minh chương trình, giá trị thực tế, ...)
2. Cho điểm của cán bộ phản biện
( Điểm ghi bằng số và chữ )
..............................................................................................................
..............................................................................................................
Ngày.......tháng.........năm 2016
Cán bộ chấm phản biện
( Ký, ghi rõ họ tên )
8
MỤC LỤC
DANH MỤC BẢNG..........................................................................................11
LỜI CẢM ƠN ....................................................................................................12
LỜI NÓI ĐẦU.....................................................................................................13
2.2 Phương pháp....................................................................................... 28
2.2.1. Các định nghĩa ........................................................................... 28
9
2.4. Thực nghiệm ..................................................................................... 35
2.4.2. Các độ đo ................................................................................... 35
TIẾNG VIỆT...................................................................................................................40
3.1. Đặt vấn đề ......................................................................................... 40
3.2. Phương pháp...................................................................................... 41
3.3. Thực nghiệm ..................................................................................... 44
3.3.1. Dữ liệu ....................................................................................... 44
3.3.2. Xử lý dữ liệu.............................................................................. 45
KẾT LUẬN .........................................................................................................49
PHỤ LỤC.............................................................................................................50
TÀI LIỆU THAM KHẢO.................................................................................55
10
LỜI CẢM ƠN
Trước tiên, em xin gửi lời cảm ơn chân thành và biết ơn sâu sắc nhất tới
Cô Nguyễn Thị Xuân Hương, Trường Đại học Dân lập Hải Phòng đã chỉ bảo
và hướng dẫn tận tình cho em trong suốt quá trình tìm hiểu và thực hiện khóa
luận này.
Em xin chân thành cảm ơn các Thầy, Cô trong Khoa Công nghệ Thông
tin đã tận tình giảng dạy và truyền cho em những kiến thức quý báu cho em
trong suốt quá trình học tập và làm luận văn tốt nghiệp
Em xin chân thành cảm ơn tới các Thầy, Cô và các Cán bộ, Nhân viên
của trường Đại học Dân Lập Hải Phòng đã tạo cho em những điều kiện thuận
lợi để học tập và nghiên cứu.
Cuối cùng em muốn gửi lời cảm ơn tới gia đình và bạn bè những người
thân yêu đã luôn bên cạnh động viên trong suốt quá trình học tập và làm khóa
luận tốt nghiệp.
Mặc dù em đã rất cố gắng hoàn thành luận văn trong phạm vi và khả
năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Em kính
mong nhận được sự cảm thông và tận tình chỉ bảo, góp ý của quý Thầy Cô và
các bạn.
Em xin chân thành cảm ơn!
Hải Phòng , ngày….. tháng….. năm…….
Sinh viên
Nguyễn Danh Long
12
LỜI NÓI ĐẦU
Ngày nay, với sự phát triển mạnh mẽ của Internet, các hình thức kết nối
và chia sẻ thông tin trong cộng đồng mạng ngày càng phát triển đã thu hút một
lượng lớn người dùng tham gia. Qua đó, họ có thể dễ dàng trao đổi, chia sẻ
thông tin, thảo luận các vấn đề và sở thích cùng quan tâm. Một số mạng xã hội
phổ biến trên thế giới như: facebook, twitter và ở Việt Nam như Zing có số
lượng người tham gia ngày càng đông đảo. Các bài nhận xét thảo luân trên các
trang mạng tin tức, dịch vụ hay các diễn đàn cũng là một hình thức thể hiện
khác rất phát triển.
Các thông tin được chia sẻ và thảo luận trên các trang mạng xã hội, trên
các diễn đàn thuộc rất nhiều chủ đề từ các lĩnh vực kinh tế, chính trị, xã hội …
đến các vấn đề kỹ thuật, dịch vụ, cuộc sống hàng ngày.... Từ đó hình thành
nên các xu hướng, quan điểm của cộng đồng đối với việc đánh giá nhận xét
một vấn đề, một đối tượng, một sản phẩm hay một hiện tượng nào đó. Các
quan điểm, xu hướng này sẽ có tác động mạnh mẽ đến định hướng, quan điểm
của người dùng khác.
Người dùng, hay chính các nhà cung cấp sản phẩm, dịch vụ cũng có xu
hướng khai thác ý kiến đánh giá của người khác để sử dụng vào nhiều mục
đích khác nhau. Người dùng cần biết nhận xét về sản phẩm, dịch vụ cho lựa
chọn của mình, còn các nhà sản xuất, cung cấp dịch vụ thì thu thập thông tin
để phân tích nhu cầu, thị hiếu của khách hàng, phân tích các đối thủ cạnh
tranh để từ đó có chiến lược nâng cao chất lượng sản phẩm và dịch vụ của
mình… Và với lượng dữ liệu khổng lồ được tạo ra mỗi ngày thì nhu cầu cần
có các hệ thống khai thác và phân tích quan điểm một cách tự động là rất cần
thiết.
Để phân tích quan điểm ta cần phải trích các thông tin chứa quan điểm
để phân loại có quan điểm hay không. Các thông tin chưa quan điểm có thể là
từ hoặc một cụm từ có chứa quan điểm cảm xúc tích cực, tiêu cực, trung lập.
Trong khi người dùng cập nhật và chia sẻ thông tin của họ trên các trang web
13
xã hội họ thường sử dụng lối hành văn tự do theo phong cách ngôn ngữ riêng
của họ. Do đó xuất hiện các từ mới thể hiện quan điểm trong các lĩnh vực.
Việc xuất hiện ngày càng nhiều các từ quan điểm mới nên việc nghiên cứu các
phương pháp trích rút tự động các từ quan điểm mới là rất cần thiết.
Chính vì lý do trên, em đã chọn đề tài “Phát hiện từ quan điểm mới cho
phân tích cảm xúc” cho đồ án tốt nghiệp của mình.
Nội dung đồ án bao gồm 3 chương :
Chương 1 : Tổng quan về phân tích quan điểm
Chương 2 : Phát hiện từ mới cho phân tích quan điểm
Chương 3 : Ứng dụng tìm từ quan điểm mới cho dữ liệu Tiếng Việt
Cuối cùng là phần kết luận.
14
CHƯƠNG 1 : TỔNG QUAN VỀ PHÂN TÍCH
QUAN ĐIỂM
1.1 Nhu cầu về thông tin quan điểm và nhận xét
Những thông tin nhận xét góp ý đã luôn luôn là một phần quan trọng
trong viêc
̣
cung câ
́
p thông tin cho qua trinh ra quyê
́
t đin
̣
h cua hâ
̀
u hê
u ban be hay ngươi
thân giới thiệu một thợ cơ khí tự động hoặc yêu cầu tài liệu tham khảo liên
quan đến xin việc từ các đồng nghiệp, hoặc tư vấn tiêu dùng. Ngay nay,
́
t chung ta.
̉
́
́
̀
̉
Trươc khi Internet trơ lên phô biê
́
n, chung ta thương yêu câ
̀
̣
̉
́
́
̀
̀
̀
̀
̉
̃
Internet và Web đa giup cho chung ta co thê dê dang tiêp cân cac y kiên va
́
̣
́
̃
́
́
́
̀
́
́
̀
kinh nghiêm
̣
của những người khac ma không nhâ
́
t thiê
́
t phai la nhưng ngươi
̉
̃
́
̀
̀
̀
̉
quen biêt ca nhân, không phai la cac nha phê binh chuyên nghiêp
́
̣
nôi tiê
́
ng,
̉
́
̀
́
̀
̀
nhưng ngươi ma chung ta chưa bao giơ nghe noi tơi trong không gian rộng
̃
̀
̀
́
̀
́
́
̀ ̀
lớn. Và ngược lại, ngay cang nhiêu va nhiêu hơn nưa nhưng ngươi săn sang
̃
̃ ̃
̀ ̀ ̀
̀
̀
cung câ
́ ́
p cac y kiên cua minh cho nhưng ngươi khac qua Internet.
̉
̃
́ ́ ̀ ́
̀
Theo hai cuộc khảo sát của hơn 2000 người Mỹ trưởng thành mỗi: 81%
người dùng Internet (hoặc 60% người Mỹ) đã thực hiện nghiên cưu trực tuyến
́
về một sản phẩm ít nhất một lần; 20% (15% của tất cả các người Mỹ) làm như
vậy trong một ngày. Trong số các độc giả đánh giá trực tuyến của nhà hàng,
khách sạn, và cac dịch vụ khác nhau (ví dụ như, các cơ quan du lịch hoặc bác
́
sĩ), giữa 73% và 87% báo cáo đánh giá đã có một ảnh hưởng đáng kể mua
hàng của họ. Người tiêu dùng sẵn sàng trả từ 20% đến 99% một mục đươc
̣
đanh gia 5 sao cao hơn so với một mục đánh giá 4 sao, 32% đã cung cấp một
́
́
đánh giá về một sản phẩm, dịch vụ thông qua một hệ thống xếp hạng trực
tuyến, trong đó có 18% của công dân trực tuyến cao cấp, có đăng một bình
luận trực tuyến hoặc xem xét về một sản phẩm hay dịch vụ.
́ ̀ ̣ ̣
Thông kê nhanh chi ra răng viêc tiêu thu hàng hóa và dịch vụ không
̉
phải là động cơ duy nhất khi ngươi dung tim kiê
́
m hoặc thể hiện y kiê
́
n trực
̀
̀
́
̀
tuyến. Sư
tron
Rainie và Horrigan nghiên cứu co 31% người Mỹ - trên 60 triệu người - 2006
̣
câ
̀
n thiê
́
t cua nhưng thông tin chinh tri
̣
cung la môt
̣
yê
́
u tô
́
quan
̉
̃
̃
̀
́
̣
g. Ví dụ, trong một cuộc khảo sát hơn 2500 người Mỹ trưởng thành,
́
người dung Internet vân
̣
đôn
̣
g tranh cư, là những người thu thập thông tin về
̉
̀
15
̣
cuộc bầu cử năm 2006 trực tuyến và trao đổi nhân xet thông qua email. Trong
́
số này:
• 28% nói rằng nguyên nhân chinh cho các hoạt động trực tuyến nay để
̀
́
thu nhân
̣
được quan điểm từ bên trong cộng đồng của họ, và 34% cho biết một
được quan điểm từ bên ngoài cộng đồng của họ.
lý do chính là để nhân
̣
• 27% đã xem đánh giá trực tuyến cho sự tán thành hoặc xếp hạng của
các tổ chức bên ngoài.
• 28% cho biết rằng hầu hết các trang web mà họ sử dụng để chia sẻ
quan điểm, nhưng 29% nói rằng phần lớn các trang web mà họ sử dụng thách
thức quan điểm của họ, chỉ ra rằng nhiều người không chỉ đơn giản là tìm
̉
̉
kiếm đê xác nhận cac quan điêm co trươc cua ho.
̣
̉
́
́
́
̣
• 8% đăng binh luân trực tuyến bình luận chính trị riêng của họ.
̀
Đô
n trưc tuyê
tiêp cac quan điêm trươc tiên la phân loai
trong khi đa số người sử dụng internet của Mỹ cho ră
́
i vơi ngươi dung tim kiê
́
m sư
xây dưn
chung. Theo Horrigan thô
̣
tin cây
̣
trong nhưng lơi khuyên va tư
̃
̀ ̀
́
̀
̀
̀
̉
̣ ̣ ́ ̣
hê thông mơi đê xư ly trưc
̉
́ ́
vâ
́
̣
́
n quan tâm đê
́
n viêc
̣
̣
g môt
̉
́
̣
́
ng kê rằng
́
́
̀
́
̀
ng kinh nghiệm tích cực
̉
trong nghiên cưu san phâm trực tuyến, 58% cho rằng thông tin trực tuyến la
̉
́
̀
thiê
́
u, kho tim, khó hiểu va hoăc
̣
qua nhiê
̀
u. Vì vậy, nhu câ
̀
u co môt
̣
hê
̣
thô
́
ng
́
̀
́
́
̀
̉
̃
đê hô trơ
̣
ngươi tiêu dung tim kiê
́
m thông tin la rât cân thiêt.
́
̀
́
̀
̀
̀
̀
̉
Cac nha cung câ
́
p san phâm ngay cang chu y hơn đê
́
n sự quan tâm mà
trong các nhận xét trực tuyến về sản phẩm và
ảnh hưởng như xu thê sư dung.
̉
́
̀
̀
̀
́
́
̉
người dùng cá nhân thê hiên
̣
dịch vụ, va sư
̣
́
̣
̉
̀
Với sự bùng nổ của nền tảng Web 2.0 như cac blog, diễn đàn thảo luận,
́
̣ ̣
peer-to-peer mạng, và các loại khác nhau của các mang xa hôi...
̃
• Thống kê của Facebook: có hơn 500 triệu người dùng ở trạng thái
hoạt động (active) mỗi người có trung bình 130 bạn (friends), trao đổi qua lại
trên 900 triệu đối tượng.
• Twitter (5/2011): có hơn 200 triệu người dùng. Một ngày có hơn 300
nghìn tài khoản mới, trung bình hơn 190 triệu tin nhắn, xử lý trung bình
khoảng 1,6 tỷ câu hỏi.
16
• Ở Việt Nam: các mạng xã hội zing.vn, go.vn … thu hút được đông
đảo người dùng tham gia.
Môt
chia sẻ kinh nghiệm và nhận xét của riêng họ vê
vu, la tích cực hay tiêu cực. Khi các công ty lớn đang ngày càng nhận ra,
những tiếng nói của người tiêu dùng có thể vận dụng rất lớn ảnh hưởng trong
̣ ̣
lương đông đao ngươi dung gia tăng chưa từng có và co quyền
̉
̀ ̀ ́
̉
́ ̣ ̣
bât ky san phâm hoăc dich
̉
̀
̀
̣
̀
̉
́
i cùng đê trung thành
việc hình thành nhận xét của người tiêu dùng khác, cuô
vơi thương hiệu của họ, ho quyết định mua, và vận động cho chính thương
̣
́
̉
hiệu của họ... Công ty có thể đáp ứng với những hiêu biêt cua người tiêu
́
̉
̉
̀
u khiên phương tiện truyền thông xã hội và
dùng mà họ tạo ra thông qua điê
̉
̣ ̣ ̣ ̣
phân tích cac thông điêp maketing cua ho, đinh vi thương hiêu, phat triên san
̉
́
̣
̉
́
̉
phâm va cac hoat đông phu hơp khac.
̣
̣
̣
̀
́
̀
́
Tuy nhiên, các nhà phân tích ngành công nghiệp lưu ý rằng việc tận
dụng các phương tiện truyền thông mới cho mục đích theo doi hình ảnh sản
̃
̀
phẩm đòi hỏi cân phai co công nghệ mới.
̉
́
Các nhà tiếp thị luôn luôn cần giám sát các phương tiện truyền thông
cho thông tin liên quan đến thương hiệu của mình - cho dù đó là đối với các
hoạt động quan hệ công chúng, vi phạm gian lận, hoặc tình báo cạnh tranh.
Nhưng phân mảnh các phương tiện truyền thông va thay đổi hành vi của
̀
người tiêu dùng đã loai
Technorati ước tính rằng 75. 000 blog mới được tạo ra mỗi ngày, cùng với 1,
2 triệu bài viết mỗi ngày, trong đo co nhiều nhận xét người tiêu dùng thảo
̣
trư cac phương phap giam sat truyền thống.
̀
́
́
́
́
́
́
luận về sản phẩm và dịch vụ.
̉
Vì vậy, không chi co cá nhân, ma cac công ty, cac tô chưc đê
̀
u quan
̉
́
̀
́
́
́
̉
tâm đê
dùng.
́
n môt hệ thống có khả năng tự động phân tích quan điêm của người tiêu
̣
1.2 Lịch sử của phân tích quan điểm và khai thác quan điểm
̉
Linh vưc
̣
phân tích quan điêm (sentiment analysis) hay khai thác quan
̃
̉
điêm (opinion mining) gần đây đã thu hút được sự quan tâm rộng rãi cua cac
̉
́
nha nghiên cưu. Năm 2001 bă
́
̀ ̣
t đâu đánh dấu sư lan rộng nhận thức về các vấn
̀
́
̉
đề nghiên cứu và cơ hội nâng cao phân tích tinh cam và khai thác quan điêm.
̉
̀
17
́ ̣ ̀
Các nhân tô đươc nghiên cưu gôm:
́
• Sự gia tăng của các phương pháp học máy, xử lý ngôn ngữ tự nhiên
và khôi phục thông tin.
• Sự sẵn có của cac tâp
̣
dữ liệu đao tao
̣
cho các thuật toán học máy, sư
̣
́
̀
̉
phat triên của Internet, cụ thể la sự phát triển cua tâp hơp cac trang Web thu
̣
̣
̉
́
̀
́
̉
̣ ́
thâp cac y kiên va quan điêm.
́ ́ ̀
• Thực hiện những thách thức trí tuệ, thương mại và các ứng dụng
thông minh trong linh vưc nay.
̣
̃
̀
̉
Thuât
̣
ngư khai thác quan điêm (Dave et al. 2003) là các công cu
̣
khai
i tươn
nhất định, sinh ra một danh sách các thuộc tính sản phẩm (chất lượng, đăc
̃
̉
thac quan điêm se xử lý một tập hợp các kết quả tìm kiếm cho một đô
́
̣
g
̃
́
̣
̉
trưng, vv) và cac quan điêm tổng hợp vê
̀
chung (kem, binh thương, tô
́
t).
́
́
́
̀
̀
̉
̉
“Phân tích quan điêm” la cụm từ song song của "khai thac quan điêm"
̀
́
ở những khía cạnh nhất định (Das và Chen Tong, 2001). “Phân tích quan
̉
̉
điêm" và "khai thac quan điêm" biểu thị cùng một lĩnh vực nghiên cứu.
́
1.3 Một số nghiên cứu trong phân tích quan điểm
̀
Gân đây, khai thac quan điểm đã trở thành chủ đề nóng giữa các nhà
́
nghiên cứu xử lý ngôn ngữ tự nhiên và trích chọn thông tin. Co khá nhiều các
́
bài báo được xuất bản và những ứng dụng khác nhau có sử dụng hệ thống
đánh giá quan điểm được phát triển và đưa vào trong hoạt động thương mại.
Cac tiê
́
p cân
̣ ́
chu yêu vơi bai toan nay la:
̉
́ ̀ ́ ̀ ̀
́
̉
Phân lơp quan điêm thông qua viêc
̣
xac đin
̣
h từ, cụm từ chỉ quan điểm
́
́
̉
Xác định quan điểm vơi cac thê hiên
̣
trong tưng thuôc tinh cua đôi
̣
́
̉
́
́
̀
́
̉
̣ ̀ ́
g cân tim kiêm quan điêm.
̀
tươn
1.3.1 Xác định cụm từ, quan điểm
Những từ, cụm từ chỉ quan điểm là những từ ngữ được sử dụng để diễn
tả cảm xúc, ý kiến người viết, những quan điểm chủ quan đó dựa trên những
vấn đề mà anh ta hay cô ta đang tranh luận. Việc rút ra những từ, cụm từ chỉ
quan điểm là giai đoạn đầu tiên trong hệ thống đánh giá quan điểm, vì những
18
từ, cụm từ này là những chìa khóa cho công việc nhận biết và phân loại tài
liệu sau đó.
Ứng dụng dựa trên hệ thống đánh giá quan điểm hiện nay tập trung vào
các từ chỉ nội dung câu: danh từ, động từ, tính từ và phó từ. Phần lớn công
việc sử dụng từ loại để rút chúng ra (Hu và Liu, 2004, Turney, 2002). Việc
gán nhãn từ loại cũng được sử dụng trong công việc này, điều này có thể giúp
cho việc nhận biết xu hướng quan điểm trong giai đoạn tiếp theo. Những kĩ
thuật phân tích ngôn ngữ tự nhiên khác như xóa: stopwords, stemming cũng
được sử dụng trong giai đoạn tiền xử lý để rút ra từ, cụm từ chỉ quan điểm
1.3.2 Sử dụng tính từ và phó từ
Những hệ thống hiện tại dùng để nhận biết những từ chỉ quan điểm hay
xu hướng quan điểm tập trung chủ yếu vào các tính từ và phó từ vì chúng
được xem là sự biểu lộ rõ ràng nhất của tính chủ quan ( Hatzivassiloglou and
McKeown, 1997, Wiebe and Bruce, 1999 ).
Hu và Liu (2004) áp dụng việc gán nhãn từ loại và kĩ thuật xử lý ngôn
ngữ tự nhiên nhằm rút ra những tính từ cũng như những từ chỉ quan điểm.
̉
̣ ̣ ̣ ̣ ̣ ́ ̣ ̀
Phương phap cua ho dưa vao viêc phân loai dưa trên dâu hiêu quan điêm vê
̀
̉
́
̉
san phâm:
̉
. Định nghĩa một câu mà chứa một hay nhiều dấu hiệu sản phẩm và từ
chỉ quan điểm được xem là một câu chỉ quan điểm.
. Vơi mỗi câu trong dữ liệu chỉ quan điểm, rút ra tất cả những tính từ
́
được coi là những từ chỉ quan điểm.
. Kết quả thực nghiệm việc rút ra những câu đánh giá quan điểm có độ
chính xác (precision) khoảng 64.2% và recall là 69.3%.
. Sử dụng WordNet (Fellbaum, 1998) để xác định các tính từ được rút ra
mang chiều hướng tích cực (positive) hay tiêu cực (negative).
Trong WordNet, các tính từ được tổ chức thành các cụm từ lưỡng cực,
nửa cụm thứ hai phần đầu là từ trái nghĩa của cụm thứ nhất. Mỗi nửa cụm là
phần đầu của tập từ đồng nghĩa chính, tiếp theo là tập từ đồng nghĩa kèm theo,
đại diện cho ngữ nghĩa tương tự như những tính từ quan trọng. Ngược với
cách tiếp cận dựa trên từ điển, họ sử dụng định hướng quan điểm của những
từ đồng nghĩa và từ trái nghĩa để dự đoán định hướng của các tính từ. Họ bắt
19
đầu với một danh sách khởi đầu gồm 30 tính từ thông dụng được chọn thủ
công (bằng tay). Sau đó sử dụng WordNet để dự đoán định hướng của tất cả
các tính từ trong danh sách từ quan điểm được rút ra bằng cách tìm kiếm qua
cụm lưỡng cực để tìm ra liệu các từ đồng nghĩa hay trái nghĩa có trong danh
sách khởi đầu hay không. Khi định hướng của tính từ được dự đoán, nó sẽ
được bổ sung vào danh sách khởi đầu và có thể được sử dụng để xác định
định hướng của các tính từ khác. Trong phương pháp này, danh sách khởi đầu
sẽ dần tăng lên khi sự định hướng của các tính từ được nhận dạng, và khi nó
ngừng gia tăng, tức qui mô của danh sách khởi đầu trùng với qui mô của danh
sách từ chỉ quan điểm, thì tất cả định hướng của các tính từ đã được nhận biết
và quá trình này kết thúc.
Những từ quan điểm thường tập trung chủ yếu vào hai tư loại: tinh từ
̀
́
và phó từ vì vậy càng nhận dạng chính xác được nhiều hai loại từ này hệ
thống càng có độ chính xác cao
1.3.3 Sử dụng các động từ
Các tính từ và phó từ đóng một vai trò quan trọng trong việc phân tích
quan điểm và là các loại từ có lợi thế trong việc nhận biết định hướng và rút ra
các từ chỉ quan điểm trong các nghiên cứu hiện nay. Tuy nhiên, các loại từ
khác, ví dụ như động từ cũng được sử dụng để diễn tả cảm xúc hay ý kiến
trong các bài viết.
Nasukawa và Yi (2003) xem xét rằng bên cạnh các tính từ và phó từ,
thì các động từ cũng có thể diễn tả quan điểm trong hệ thống đánh giá quan
điểm của họ. Họ phân loại các động từ có liên quan đến quan điểm thành 2
loại. Loại thứ nhất trực tiếp thể hiện quan điểm tích cực hay tiêu cực, theo lý
giải của họ thì “beat” trong “X beats Y”. Loại thứ hai không thể hiện quan
điểm trực tiếp nhưng dẫn đến những quan điểm, giống như “is” trong “X is
good”.
̣
Họ sử dụng gan nhan tư loai dựa trên mô hình Markov (HMM)
̃
́
̀
(Manning and Schutze, 1999) và phân tích cú pháp nông dựa trên luật (Neff et
al., 2003) cho bước tiền xử lý. Sau đó họ phân tích tính phụ thuộc về mặt cú
pháp giữa các cụm từ và tìm kiếm các cụm từ có một từ chỉ quan điểm mà nó
bổ nghĩa hoặc được bổ nghĩa bởi một thuật ngữ chủ thể.
20
Tải về để xem bản đầy đủ
Bạn đang xem 20 trang mẫu của tài liệu "Đồ án Phát hiện từ quan điểm mới cho phân tích cảm xúc", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
File đính kèm:
- do_an_phat_hien_tu_quan_diem_moi_cho_phan_tich_cam_xuc.pdf