Luận văn Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt

ĐẠI HC QUC GIA HÀ NI  
TRƯỜNG ĐẠI HC CÔNG NGHỆ  
LÂM TĂNG DOAN  
NGHIÊN CU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC  
TI VIT NAM VÀ TRÊN THGII, XÂY DNG VÀ  
ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIT  
Ngành: Công nghThông tin  
Chuyên ngành: Qun lý hthng thông tin  
Mã S: 8480205.01  
LUẬN VĂN THẠC HTHNG THÔNG TIN  
NGƯỜI HƯỚNG DN KHOA HC: PGS.TS. Nguyn Hà Nam  
Hà ni 11/2020  
i
Mục lục  
iii  
LI CẢM ƠN  
Trưc tiên tôi xin dành li cảm ơn chân thành và sâu sắc đến thy giáo,  
PGS. TS. Nguyn Hà Nam – người đã hướng dn, khuyến khích, chbo và  
to cho tôi những điều kin tt nht tkhi bắt đu cho ti khi hoàn thành công  
vic ca mình.  
Tôi xin dành li cảm ơn chân thành tới các thy cô giáo khoa Công nghệ  
thông tin, trường Đại hc Công nghệ, ĐHQGHN đã tận tình hun luyn, cung  
cp cho tôi nhng kiến thc vô cùng quý giá và đã tạo điều kin tt nht cho  
tôi trong sut quá trình hc tp, nghiên cu tại trường.  
Đồng thi tôi xin cảm ơn tất cnhững người thân yêu trong gia đình tôi  
cùng toàn thbn bè những người đã luôn giúp đỡ, động viên tôi nhng khi  
vp phi nhng khó khăn, bế tc.  
Cui cùng, tôi xin chân thành cảm ơn các đồng nghip ca tôi ti Trưng  
Đại Hc Kinh tế - Đại hc Quc Gia Hà Ni đã giúp đỡ, tạo điều kin thun  
li cho tôi hc tp và nghiên cứu chương trình thạc sĩ tại Đại hc Công ngh,  
Đại hc Quc Gia Hà Ni.  
 
iv  
LỜI CAM ĐOAN  
Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin Nghiên cu  
các phương pháp lọc thư rác tại vit nam và trên thế gii, xây dựng và đề xut  
phương án lọc thư rác tiếng Vitlà công trình nghiên cu ca riêng tôi, không  
sao chép li của người khác. Trong toàn bni dung ca luận văn, những điều  
đã được trình bày hoc là ca chính cá nhân tôi hoặc là được tng hp tnhiu  
ngun tài liu. Tt ccác ngun tài liu tham khảo đều có xut xrõ ràng và  
hp pháp.  
Tôi xin hoàn toàn chu trách nhim và chu mi hình thc klut theo  
quy định cho lời cam đoan này.  
Hà Ni, ngày 20 tháng 12 năm 2020.  
Lâm Tăng Doan  
 
v
DANH MC HÌNH VẼ  
 
1
Chương 1: Giới thiu  
Mng Internet ra đi đã mở ra nhiều phương thức liên lc mi, cho phép  
liên lc cách xa hàng nghìn kilomet. Mt trong những phương tiện được sử  
dng nhiu nhất để giao tiếp trong công việc cũng như cá nhân đó là thư điện  
t. Thư điện tcho phép ngưi dùng tiếp cận hàng trăm nghìn người trong  
vòng vài giây và hầu như miễn phí. Do đó, số lượng người sdụng thư điện tử  
cho công vic và giao tiếp ngày càng nhiu. Tuy nhiên, do khả năng tiếp cn  
nhiều người ddàng và min phí nên phương thức liên lc này hay bli dng  
cho mục đích xấu. Trong vài năm gần đây, thư rác (hay còn gọi là spam) đã trở  
thành mt vn đề đáng lưu tâm đối vi doanh nghip và ngưi dùng cá nhân.  
Mt số thư rác có mục đích thương mại, mt số khác để để bày tý kiến chính  
trhoc tôn giáo, hoc lừa đảo khán gihoc phát tán virus.  
Thư rác đã trở thành mt công cphbiến phc vcho mục đích xấu  
do thư rác dễ trin khai, có khả năng gửi hàng lot, chi phí thp và khả năng  
tiếp cận người dùng cao. Hơn nữa do trngi vcông nghvới cơ sở htng  
thư điện tử, để theo dõi hoc truy vết cá nhân hoc nhóm gửi thư rác rt khó và  
tn thi gian. Ngoài ra, nhng kgửi thư rác thường hay che giu hoc gimo  
địa chcủa thông điệp. Ngay cả khi chúng được truy tìm, kiến trúc phi tp trung  
ca Internet gây khó khăn cho việc thc hin các bin pháp bo vpháp lý.  
Ti các trường đại hc, các cán bộ công nhân viên cũng như sinh viên  
đều đang sử dụng thư điện tử để trao đổi công vic, hc tập. Do đó, việc ngăn  
chặn thư rác, để làm tăng đường truyền băng thông cho người dùng, giảm lưu  
trtrên máy chủ thư điện tử ngăn chặn phát tán thư độc hi, ni dung tuyên  
truyn phản động, phn cm hay nhng hành vi lừa đảo trên mng là vô cùng  
cn thiết.  
Thc tế và qua quá trình thư thập dliệu thư tiếng Vit cho thy có rt  
nhiều thư rác Tiếng Anh ở hòm thư người dùng Vit, thm chí nhiều hơn thư  
rác tiếng Việt. Do đó, ta cần trin khai mt blọc thư rác có thể lc cả thư rác  
Tiếng Vit và Tiếng Anh.  
1.1. Mc tiêu ca nghiên cu  
Da theo bi cảnh trên, căn cứ nhu cu thc tế, đề tài nghiên cu và trin  
khai được hình thành nhm xây dng mt hthng lọc thư rác tiếng Vit. Hin  
nay các hthng lọc thư rác được tích hp sẵn đã lọc thư rác khá hiệu quả đối  
với thư điện tTiếng Anh và tuy nhiên chưa được tối ưu hóa đối vi các thư  
   
2
điện ttiếng Vit. Các tp luận để lọc được xây dng chỉ cho thư tiếng Anh.  
Do đó, đề tài này mong mun stối ưu và nâng cao khả năng lọc thư rác tiếng  
Vit.  
1.2. Phương pháp nghiên cứu  
Phương pháp luận được sdụng trong đề tài này bao gm phương pháp  
nghiên cu và tng hp lý thuyết và phương pháp thc nghim. Mc lý thuyết  
được nghiên cu và thu thp tcác sách, bài báo tp chí chuyên ngành.  
Sau khi có được nn tng lý thuyết và mô hình thc nghim stiến hành.  
Mô hình thc nghiệm được xây dng, htrbi mt snn tng lý thuyết. Các  
kết quthc nghim thu được sẽ đưc đánh giá và kim chng li trên nn lý  
thuyết.  
1.3. Cu trúc luận văn  
Đề tài bao gm 3 chương chính. Đề tài được nghiên cu và xây dựng đi  
lên tnhng nghiên cu tng quan về thư rác, tho lun tng quan về thư rác,  
mô hình tng quan vgi và nhận thư điện tử cũng như các phương thức xác  
thực để phòng chống thư rác (Chương 1).  
Chương 2 sẽ trình bày các phương pháp trích xuất thông tin thư điện t,  
kthut gim thiu thư rác phổ biến như chặn IP, lc theo lut, lc theo nhn  
dng và các kthut lọc rác cơ bản và thông minh. Tiếp theo, luận văn so sánh,  
nghiên cu về các hướng đi lọc thư rác ở Vit Nam và trên thế gii, để từ đó  
đưa ra đề xut phù hp.  
Cuối cùng, Chương 3 mô tthc nghim bao gm đề xut mô tkiến  
trúc thc nghim, kthut áp dng trong thc nghim và kết luận và đánh giá  
kết quthc nghim.  
1.4. Tng quan về thư rác  
1.4.1. Định nghĩa  
Có rt nhiu định nghĩa khác nhau cho thư rác. Theo [1], thư rác (spam)  
là hoạt động gửi thư điện tử không được yêu cu, vi số lượng ln và trong  
mt số trường hp liên tc gửi đến nhng cá nhân mà không có liên hệ trước  
đó và địa che-mail ca họ đưc thu thp không hp pháp, hoặc spam thường  
được hiu là vic gửi đi hàng loạt các thư thương mại không được yêu cu bi  
một ngưi gi ngy trang hoc gimạo danh tính, hay được định nghĩa là tin  
       
3
nhắn điện tử không được yêu cu, bt kni dung [1] [2]. Định nghĩa này có  
tính đến các đặc điểm của thư điện thàng lot [2].  
Các định nghĩa về thư rác đều có những đặc điểm chung như sau:  
Gi bằng thư điện tử  
Sdụng các địa chỉ được thu thp mà không có sự đồng ý  
Gi hàng lot  
Không mong mun nhn  
Lặp đi lặp li  
Nhm mục đích thương mại hoc tài chính  
Không có mc tiêu và ba bãi  
Không thể ngăn cản  
n danh và / hoc ngy trang  
Ni dung bt hp pháp hoc xúc phm  
Ni dung lừa đảo hoc gian ln  
1.4.2. Thng kê và tác hi của thư rác  
Thư rác chiếm mt phn rt ln của băng thông mạng, theo thng kê ca  
Statista [3], tnhững năm 2012 đến 2018, số lượng thư rác luôn nhiều hơn so  
vi slượng thư hợp l(ham). Mc dù số lượng thư rác có giảm xung so vi  
những năm trước đây từ 69% gim xung 55%, tuy nhiên, có ththấy thư rác  
vn chiếm một lượng băng thông mạng ln.  
Hình 1.1. Tlệ thư rác đin ttừ năm 2012 đến 2018 [3]  
Theo thng kê mi nht ca Statista [4], thư rác chiếm 53,95 phần trăm  
lưu lượng thư điện tử vào tháng 3 năm 2020. Trong khoảng thi gian gần đây  
   
4
nht, Nga chiếm phn ln nht trong số các thư rác với 20,74 % tổng lượng thư  
rác toàn cu. Bt chp sphbiến ca nó, tlệ thư rác e-mail toàn cu thc sự  
đang giảm: tlệ thư rác hàng năm toàn cầu trong năm 2018 là 55%, giảm so  
với 69% vào năm 2012 [5].  
Trong năm 2018, 281,1 tỷ thư điện tử đưc gi và nhn hàng ngày [6].  
Phn ln trong số đó là các e-mail quảng cáo được gi bi các nhà tiếp thmi  
ngày. Trong khi nhiều người sdng cho rng nội dung đó nằm trong thư mục  
thư rác của h, e-mail tiếp thnói chung là vô hi, tuy gây khó chịu cho người  
dùng. Tính đến quý 2 năm 2018, chỉ 85% thư điện ttiếp thị đến được hộp thư  
đến của khách hàng và 7% đã bị blọc thư rác bắt được [6]. Tuy nhiên, mi  
thứ đang được ci thiện đối vi các nhà tiếp thị: vào năm 2018, tlgửi thư  
rác ca các e-mail tiếp thị thương mại đã giảm xung còn 9%, gim t14%  
vào năm 2017 [6]. Tuy nhiên, không phải tt cả các thư rác đều là nhng e-  
mail qung cáo lành tính. Mt phần đáng kể các thư rác có tính chất độc hi  
hơn, nhằm phá hoi hoc chiếm quyền điều khin hthng của người dùng [6].  
Thống kê trong quý đầu tiên của năm 2020, về các ngun của thư rác,  
9,64% khối lượng thư rác toàn cầu bt ngun tcác IP có trsti Hoa Kỳ  
tuy nhiên phn lớn thư rác bắt ngun là Nga chiếm 20,74 phần trăm tổng thư  
rác toàn cu [6].  
Thư rác là thư điện tử được gi không mong mun, gây ra nhiu nh  
hưởng đến nhiu mt khác nhau:  
Quá tải băng thông: Thư rác chặn các kênh liên lc và tạo ra lưu  
lượng băng thông lớn (chi phí băng thông này công ty/doanh  
nghip phi trtin). Ngoài ra, có nhng máy chủ thư phải xlý  
thư rác và những máy chnày phải được bo trì bi các chuyên  
gia được trả lương cao. Do đó, chi phí vận hành cơ sở htầng tăng  
đáng kể.  
Tn thi gian. Nếu thư rác đến hộp thư đến của người dùng, người  
nhn phi xóa nó theo cách thcông. Một người đọc 10-20 thư  
điện tmi ngày có thnhận được khong 160-180 tin nhn rác  
cùng với thư tcông vic ca họ. Điều đó có nghĩa là họ sdành  
5-6 gimi tháng chỉ để xóa thư rác, gây phương hại đến thi  
gian làm vic hiu quca h.  
Khó chu và phin toái. Bng cách xóa thủ công thư rác, người  
dùng trthành mt kthut viên xlý rác thải ‘điện tử’. Việc  
buc phi thc hin các biện pháp như vậy không thkhông gây  
khó chịu cho người dùng, dẫn đến nhng cm xúc tiêu cc không  
5
mong muốn. Cũng có thể trong quá trình xóa, người dùng cũng  
có thvô tình xóa mt một thư điện tquan trng cùng vi vô số  
thư rác. Tất cnhững ai đã đối mt vi tình huống như vậy đều  
cm thy khó chu và phin toái.  
Ảnh hưởng của thư rác đối vi cá nhân:  
Thư rác gây tốn kém chi phí cho người dùng và cho xã hi nói chung.  
Cho dù tài khon doanh nghiệp hay cá nhân, người nhận thường stn thi  
gian để phân loại thư đin tvà xóa các thư không mong muốn và do đó phải  
chịu chi phí cơ hội vthời gian. Thư rác cũng gia tăng chi phí của các nhà cung  
cp dch vInternet (ISP) do tiêu thnhiều băng thông. Cuối cùng, thư rác  
được sdụng để đạt được các mc tiêu gian ln hoc ti phm khác, gây ra các  
chi phí gián tiếp tim ẩn có liên quan đến nó.  
Theo ước tính [1] rằng các công ty và người tiêu dùng Mphi chu chi  
phí gn 20 tỷ đô la mỗi năm do thư rác. Con số của người tiêu dùng phi gánh  
chu chi phí gn 20 tỷ đô la hàng năm do thư rác. Ước tính rng những người  
gửi thư rác và người bán qung cáo bằng thư rác thu thập tng doanh thu trên  
toàn thế giới theo đơn đặt hàng là 200 triệu đô la mỗi năm. Do đó, "tỷ l" ca  
chi phí bên ngoài cho li ích bên trong cho thư rác là khoảng 100:1 [1].  
Ảnh hưởng của thư rác đối vi doanh nghip  
Trong môi trường kinh doanh, thư rác gây ra tốn kém cho chi phí bo  
mt dch v, phn cng và phn mm; chi phí hun luyn; mất năng suất do  
mt thi gian xóa các thư điện tkhông mong mun (hoc tìm kiếm nhng cái  
đã xóa) và chi phí mua dung lượng lưu trữ bổ sung. Theo ước tính [7] ca về  
chi phí spam tcác nhà xut bn và tp chí lên ti 1,1 tỷ đô la Mỹ mỗi năm.  
Tính tt ccác loại spam, chi phí tăng lên khoảng 2,6 tỷ đô la Mỹ mỗi năm.  
Ngoài ra, các doanh nghiệp cũng bị từ các tác động gián tiếp của thư rác,  
chng hạn như phải trả giá cao hơn cho các dịch vISP. cấp độ nhà cung  
cp dch v(ISP), chi phí xử lý thư rác là một phn ca ngân sách bo mt.  
Cách đây vài năm, ISP coi vẫn coi thư rác là một vấn đề của người dùng cá  
nhân [6]. Tuy nhiên, vi một lượng lớn thư rác gia tăng, các ISP phải đối mt  
vi các khoản đầu tư có thể tốn kém vào cơ sở htầng thư và đầu tư mua thêm  
thiết bị lưu trữ, khiến cho các nhà ISP ngày càng quan tâm vấn đề này và giúp  
làm sáng tnhng chi phí tim n này.  
6
1.4.3. Phương pháp phân loại thư rác  
Các phương pháp khác nhau đang được sdụng để đo lường và phân  
tích thư rác. Ba phương pháp tiếp cận chính đang được sdng cho vic này:  
kho sát (da trên ly mẫu); phương pháp tiếp cn dựa trên báo cáo; và phương  
pháp tiếp cn da trên công ckthut.  
1.4.3.1. Phương pháp khảo sát  
Phương pháp khảo sát gn cht vi kích thước mẫu cũng như thái độ ca  
những người tham gia khảo sát. Trong phương pháp, điều quan trng là nhng  
người được chn trong kho sát có thtrở thành đại din mẫu được không. So  
vi các công ckthut, cách tiếp cn này ít tốn kém hơn và có thể được thiết  
lp và thc hin trong thời gian tương đối ngn. Mt ví dvnghiên cu da  
trên kho sát là kho sát ca AOL và DoubleClick, hai nhà cung cp gii pháp  
tiếp thị qua thư điện t. Bng câu hỏi được gửi cho hơn 2000 người, nhm kho  
sát điều gì khiến người sdng phàn nàn, quy trình báo cáo spam cho AOL  
hoc quy trình hủy đăng ký qua thư điện t(unsubscribe) [2].  
1.4.3.2. Phương pháp da trên báo cáo  
Phương pháp dựa trên báo cáo phthuc vào báo cáo ca chính nhng  
người nhận thư rác, sau đó được phân tích. Mục đích chính của phương pháp  
này là phân tích ni dung của thư rác một cách chi tiết và xác định các loại thư  
rác, người gửi thư rác và các đặc điểm ca vic gửi thư rác. Phương pháp này  
dựa trên cơ sở phân tích thư rác được báo cáo, thay vì cgng tính toán khi  
lượng thư rác hoặc xác định phần trăm e-mail là thư rác. Với cách tiếp cn này,  
dliệu được thu thập trên cơ sở tnguyn từ người dùng và do đó, định nghĩa  
về thư rác (theo báo cáo) là chủ quan, da trên nhn thc của cá nhân người  
nhận. Phương pháp này được sdng bi SpamCop và Abuse.net nhm thu  
thp và phân tích các báo cáo tnguyn của người dùng [2]. Trên Google thư  
điện thay các phn mềm thư điện tử đều có mục ‘Report spam’ để gi báo  
cáo cho các nhà cung cp vmột thư điện ttheo cm nhận cá nhân là thư rác.  
Điều này sgiúp các nhà cung cp dch vcó nhng mu thu thp về thư rác  
đa dạng và tổng quan hơn.  
1.4.3.3. Phương pháp kỹ thut  
Phương pháp dựa trên công ckthut không cn stham gia tích cc  
của người dùng. Về cơ bản, phương pháp này sẽ chính xác và khách quan hơn  
do nó không đòi hỏi chquan din gii của người dùng so vi hai cách tiếp  
 
7
cn còn li. Trên mt khác, tuy nhiên, phương pháp này bị hn chế ở chkhông  
thể đánh giá phản ng chủ quan đối với thư rác, chẳng hạn như báo cáo thư  
rác, hay xóa bỏ thư rác. Cách tiếp cn kthut phthuộc vào độ chính ca các  
thut toán và kthuật được sdụng, đòi hỏi cp nht liên tc để nhn ra các  
dạng thư rác mới. Các công ckthuật không đảm bảo độ chính xác hoàn toàn,  
do đó dẫn đến nhiu kết quả dương tính giả (thư hợp lbphân loi nhm thành  
spam) và âm tính giả (thư rác bị nhm lẫn không được phân loi) [2].  
1.4.4. Các loại thư rác  
Thư rác có thể được phân loi theo mc tiêu của người gửi thư rác. Nhiều  
ngưi gửi thư rác gửi e-mail hàng lot vì lý do quảng cáo như gửi qung cáo  
thương mại hoc mi tham gia vào các chiến dch chính tr, hoc nhm mc  
đích lừa đảo hay phân phi phn mềm đc hại như virus hay trojan. Phần này  
trình bày các loại thư rác phổ biến và đưa ra số liu thng kê, nếu có.  
Theo Statista [5], trong năm 2018, 281,1 tỷ thư điện tử được gi và nhn  
hàng ngày. Điu này bao gm hàng tỷ thư quảng cáo được gi bi các nhà tiếp  
thmi ngày. Trong khi nhiều ngưi dùng e-mail tin rng nội dung như sẽ nm  
trong mục thư rác (Spam), hay thư tiếp thnói chung là vô hi, hoc chlà gây  
khó chịu cho người dùng. Tính đến quý 2 năm 2018, chỉ 85% thư điện ttiếp  
thnm trong Hộp thư đến (Inbox) của người dùng và 7% đã bị blọc thư rác  
bắt được. Tuy nhiên, mi thứ đang được ci thiện vào năm 2018, tỷ lệ đặt thư  
rác thương mại đã giảm xung còn 9%, gim từ 14% vào năm 2017.  
Hình 1.2 Thng kê phân loi các ni dung của thư rác năm 2020 [5]  
   
8
Theo thng kê [4], các danh mc nội dung thư rác năm 2019, đứng đầu  
là ni dung vsc khỏe (39%), sau đó là quảng cáo các sn phm (12%), và  
các nội dung khác (người lớn, độc hi, lừa đảo, hẹn hò,…) chiếm từ 2% đến  
10%.  
Nhìn chung, các thư rác được phân thành các loi phbiến như sau:  
1.4.4.1. Thư rác qung cáo  
Thư rác quảng cáo hay còn được gọi là thư rác mục đích thương mại  
(viết tt là UCE). Hu hết, các thư rác quảng cáo được coi là mt loi hình tiếp  
thtrc tiếp và được các công ty coi là mt công cquan trọng để tiếp cn  
khách hàng (tiềm năng), vì thư điện tchi phí r(hầu như miễn phí) và ddàng  
để liên hvi mt nhóm ln khách hàng. Tuy nhiên, hu hết thư rác không  
được gi bi chính các công ty qung cáo, mà bi những người gửi thư rác  
(spammer), là nhng ngưi nhn hoa hng tcác công ty này [1] mt nghiên  
cứu ước tính rng chi phí gi một thư đin tlà từ 0,01 đô la Mỹ đến 0,05 đô  
la M[1]. Vì chi phí gửi thư rác rất thp nên những người gửi thư rác có thể  
kiếm được li nhun mc dù tlphn hi cc kthp. Theo [1] chra mc  
dù chi phí thp, tlphn hi thp, tuy nhiên khoảng 8% người trli tha  
nhn họ đã thực smua mt sn phm quảng cáo qua thư rác. Miễn là nhng  
kgửi thư rác có thể kiếm được nhiu tiền hơn hơn chi phí của h, hcó thể  
stiếp tc gửi thư rác. Đây là hành vi “hợp lý” theo nghĩa kinh tế.  
Ngoài các thư rác nhằm mục đích quảng cáo trc tiếp còn có các thư rác  
gián tiếp skhuyến nghmua mt cphiếu cth, nhằm tác động đến giá cổ  
phiếu nào đó. Một nghiên cu thc nghim [8] cho thy trong ngn hn, cổ  
phiếu thư rác có tác động đáng kể đến ckhối lượng giao dịch và định giá thị  
trường. Theo thng kê ca Symantec, 80% thư rác về lĩnh vực tài chính, sc  
khe, Internet và các sn phẩm dành cho người ln. Theo mt thng kê khác  
thì thư rác về qung cáo các loi thuc chức năng chiếm ưu thế. Hai sliu  
thng kê có skhác biệt rõ ràng, điều này phthuc vào dliu mu ca hai  
thng kê thu thập được. Tuy nhiên, không thphnhn rằng thư rác quảng cáo  
chiếm mt thphn rt ln của thư rác.  
1.4.4.2. Thư rác tuyên truyn, vận động  
Các thư quảng cáo không cn thiết phi có mục đích thương mại. Họ  
cũng có thể tuyên truyền các ý tưởng và/hoc tchc chính trị, văn hóa hoặc  
tôn giáo. Ví dụ, vào năm 2003, các thành viên của Quc hi Hoa Kỳ đã gửi  
hàng trăm nghìn thư không được yêu cu cho thành viên nhm vận động các  
9
chiến dch. Các loại thư điện tử này thường nhm mục đích kêu gọi sự ủng h,  
đồng thun ca những người nhận thư.  
1.4.4.3. Thư rác lừa đảo  
Lừa đảo qua thư điện tlà các tin nhn lừa đo cung cp stin ln và  
yêu cu chi tiết tài khon ngân hàng hoc lừa đo gimo các dch vphbiến  
và lừa người nhn cung cp chi tiết thtín dng /tài khon ca h[2]. Mt  
trong nhng trò lừa đảo ra tin phbiến là người dùng nhận được thư điện tử  
tmt người tự xưng là quan chức chính phủ, thành viên gia đình của mt  
quan chức đã qua đời hoc luật sư đại din cho một khách hàng giàu có đã qua  
đời. Thư điện thi chi tiết ngân hàng hoc yêu cầu người nhn thanh toán  
trước như một cchthin chí, vi li ha shoàn li tiền trong tương lai. Nếu  
ngưi nhn cung cp thông tin chi tiết, thì tài khon ca khách hàng sbtn  
công và trtin. mi quc gia khác nhau li có nhiu phiên bn lừa đảo khác  
nhau tn ti.  
Mt dng lừa đảo qua thư rác nữa là mt doanh nghip hợp pháp được  
thành lp, nhm lừa người dùng cung cp thông tin cá nhân, thông tin này sẽ  
được sdụng để đánh cắp danh tính. Thư gửi đến sẽ hướng dẫn người dùng  
truy cp một trang web nơi họ được yêu cu cp nht thông tin cá nhân, chng  
hn như mật khu và thtín dng, san sinh xã hi và stài khon ngân hàng  
mà tchc hợp pháp đã có. Tuy nhiên, trang web này là giả mạo và được thiết  
lp chỉ để ly cp thông tin của người dùng. Snguy him ca các trò gian ln  
lừa đảo là trang web mà nạn nhân hướng đến thường ging thật, vì đó là trang  
web gimo nhm sao chép trang web ca doanh nghip hp pháp. Lừa đảo  
qua thư điện tử này được gi là phishing, là mt biến thcủa "câu cá", ý tưởng  
là mồi đưc ném ra vi hy vng rng trong khi hu hết sbqua mi, mt số  
sbdcn [2].  
1.4.4.4. Thư rác chứa mã độc  
Tuy nhiên, không phi tt cả các thư rác đều là thư quảng cáo lành tính.  
Mt phần đáng kể các tin nhn rác có tính chất độc hại hơn, nhằm mục đích  
phá hoi hoc chiếm đoạt hthng của người dùng. Các biến thphbiến nht  
của thư rác độc hi trên toàn thế gii bao gm vi rút, trojan, phn mm gián  
điệp và phn mm tng tin [2]. Vi rút là một chương trình, giống như vi rút  
sinh hc, có thể sao chép và đôi khi làm hỏng máy tính bnhim. Bằng phương  
thc này, vi rút là một chương trình hoc tài liệu được đính kèm với một thư  
điện tmà khi mra, nó slây lan bng cách tchuyn tiếp hàng loạt người  
nhn trong danh bcủa người gi hoặc người dùng sti xuống và cài đặt giúp  
10  
ktn công chiếm quyền điều khin hthống. Đối vi thư điện ttừ người l,  
không nên mbt ktệp đính kèm nào nếu không chc chn là nó không gây  
hại. Thư rác phát tán phần mềm độc hại để lây nhim sang máy chnhm  
chiếm quyền điều khin từ xa và được sdụng để gi nhiều thư rác hơn. Các  
máy chbnhiễm được gi là "zombie". Nhiều người tin rng hu hết thư rác  
được gi qua mng botnet, là mt mạng lưới các máy tính cá nhân blây nhim  
mã độc, tuy nhiên githuyết này cũng khó được chng minh.  
1.4.4.5. Thư rác bôi nhọ  
Thư rác bôi nhọ - “Joe job” là thuật ngữ Internet để chỉ địa chỉ thư giả  
mo, nhìn có vẻ đúng là địa chỉ thư của ai đó, nhưng thực sự đó là địa chỉ thư  
được gimo bi một người khác, với ý định to ra các phin toái, bôi nhọ  
hoc làm tn hại đến danh tiếng ca nn nhân vô ti. Ví d, kxu có thgi  
một thư rác chứa ni dung khiêu dâm trẻ em cho hàng nghìn người sdụng địa  
chtrli gimạo để khiến người nhn phn nộ và kích động. Tên "joe job"  
lần đầu tiên được sdụng để mô tmt kế hoạch hướng đến Joe Doll, người  
đã cung cấp dch vlưu trữ cho các trang web min phí. Một người dùng có  
tài khon bxóa vì quảng cáo thông qua thư rác; để trả đũa, anh ta đã gửi mt  
thư rác khác cho vài triệu nn nhân vô tội, nhưng với tiêu đề "trlời" được giả  
mo Joe Doll.  
1.4.5. Mô hình lọc thư rác  
1.4.5.1. Mô hình gi nhận thư điện tử  
Để hiu về phương thức lọc thư rác, cần tìm hiu mô hình gi nhận thư  
điện t. Mô hình sau biu din khái quát vcách thc gi nhận thư:  
Hình 1.3: Mô hình khái quát vgi, nhận thư điện tử  
   
11  
- SMTP: là viết tt của phương thức Send Mail Tranfer Protocol, là  
phương thức gửi thư. Để nhn tải thư điện txuống chương trình  
của người dùng có 2 protocol sau:  
- POP: quản lý thư trên máy tính của người dùng.  
- IMAP: quản lý thư trên máy chủ.  
MUA (Mail User Agent)  
ng dng của người dùng cho phép nhn và gi email. Nó có thlà mt  
ng dụng như Microsoft Outlook/Thunderbird /… hoặc da trên trình duyt  
web như Gmail / Hotmail /… (sau này còn được gi là Webmail).  
MSA (Mail Subssmions Agent)  
ng dng máy chnhận thư từ MUA, kim li và chuyn tiếp (qua  
SMTP) đến MTA được lưu trữ trên cùng server.  
MTA (Máy chchuyển thư)  
ng dng máy chnhận thư từ MSA hoc tMTA khác. Nó stìm bn  
ghi MX tbn ghi DNS ca tên min của người nhận đbiết cách chuyển thư.  
Sau đó, nó sẽ chuyển thư (thông qua phương thức SMTP) đến mt MTA khác  
(đưc gi là SMTP relay) hoc nếu đã đến máy chcủa người nhn thì sẽ  
chuyn tiếp đến MDA.  
Ví dvMTA là Postfix, Exim, Sendmail, qmail, ...  
MDA (Mail Delivery Agent)  
Một chương trình máy chủ nhận thư từ MTA và lưu trữ nó vào hộp thư.  
MDA còn được gi là LDA (Local Delivery Agent).  
Mt ví dlà Dovecot, chyếu là máy chPOP3 và IMAP cho phép  
MUA truy xuất thư, nhưng cũng bao gồm MDA lấy thư từ MTA và gửi đến  
hộp thư của server.  
Hộp thư: maildir / mbox  
Bộ lưu trữ thư của máy ch. Maildir là một phương thức lưu trữ được  
ưu tiên hơn mbox.  
SMTP  
Đây là giao thức được MUA sdụng để gửi email đến MSA. Cng  
SMTP được khuyến nghị để gửi thư (từ MUA đến MSA) là cng 587, sdng  
mã hóa TLS.  
IMAP / POP3  
Đây là các giao thức được MUA sdụng để ly email thộp thư máy  
ch. POP3 xóa các email khi máy chủ sau khi chúng được ti xung. Trong  
12  
khi đó, IMAP duy trì tất cả các thư email trên máy chủ, cho phép qun lý mt  
hộp thư bởi nhiu ng dng máy khách.  
Bn ghi MX (Mail Exchanger)  
Bn ghi Mail Exchanger (MX) trong DNS chỉ định máy chnào là máy  
chủ thư cho một min. Tên máy chtbn ghi MX phi ánh xti mt hoc  
nhiu bản ghi địa ch(A hoặc AAAA) trong DNS và không được trỏ đến bt  
kbn ghi CNAME nào.  
1.4.5.2. Mô hình lọc thư rác tng quan  
Email được chp thun  
Lọc thư rác doanh  
LAN  
WEB  
nghip  
Máy chchuyển thư  
MUA  
MUA  
ng dng nhận thư (MUA)  
MUA  
Ti Email  
MTA  
Máy chchuyển thư  
Lc thư rác cá nhân  
UA  
Gi Email  
Hình 1.4: Mô hình lọc thư rác [9]  
Một thư điện tử được gi và nhận thường thông qua mt nhà cung cp  
dch v. Lọc thư rác có thể trin khai các cp sau:  
- Lọc thư rác cá nhân: Lọc thư rác ở cấp độ người dùng cung cp mt số  
ng dụng để người dùng cá nhân có thgi nhận thư an toàn [9]. Khách  
hàng có thddàng lọc thư rác thông qua các nền tng dng sn  
(framework), mt scác nn tng này sn có và có thể cài đặt trên máy  
tính ddàng. Các nn tng này có thể tương tác với phn mm nhận thư  
và lc hộp thư đến ca khách hàng và qun lý các tin nhn.  
- Lọc thư rác doanh nghiệp: Đối vi lọc thư rác cấp doanh nghip, các  
nn tảng được cài đặt trên máy chủ thư (thư điện tử server) để tương tác  
vi máy chgửi thư nhằm phân loi tin nhn hoc lọc thư rác [9]. Hu  
hết các nn tng lọc thư rác hiện hành sdụng phương pháp tính điểm  
da trên các lut xây dng sn. Khi mt chui ký tự trong thư đáp ứng  
1 quy tc thì sẽ được tính điểm, và các điểm cho các chui ký ttrong  
một thư sẽ được cng dn. Nếu tng số đim của 1 thư vượt quá giá trị  
 
13  
ngưỡng, thư đó sẽ coi như tin nhắn rác. Vì nhng kgửi thư rác sử dng  
nhiu chiến lược và biện pháp khác nhau và luôn thay đổi, vì vy tt cả  
các chức năng phải được thiết kế lại thường xuyên để tự động chặn thư  
rác mt cách hiu qu.  
1.4.6. Quy trình hoạt động ca lọc thư rác  
Mô hình sau thhin quá trình lọc thư rác tiêu chuẩn, bao gm các bước sau:  
Lc ni dung  
(content)  
Lọc tiêu đề  
(header)  
Lc theo danh  
sách chn  
Lc theo quy tc  
(rule-base)  
Lọc theo cơ chế thách thc-phn  
hi (Challenge- response)  
Lc theo phân quyn  
(Permission)  
Hình 1.5: Quy trình lc nội dung thư rác [9]  
Đầu tiên là “Bộ lc nội dung” được sdụng để xác định thư rác bằng  
cách áp dng mt sKthut hc máy [9]. Thứ hai, tiêu đề sẽ được lc thông  
qua “Bộ lc tiêu đề” bằng cách trích xut thông tin từ tiêu đề thư. Sau đó, bộ  
lọc danh sách đen sẽ được chạy để loi bnhững thư điện thoc nhng IP  
trong danh sách chn. Tiếp theo, "Blc da trên luật” lọc các ni dung theo  
các luật do người dùng to hoặc cài đặt. Sau đó, "Bộ lc quyn" cho phép gi  
thư đối với người gửi đã được chp thuận trước. Cuối cùng, “Bộ lọc theo cơ  
chế thách thc- phn hồi” áp dụng mt thuật toán để có được sự cho phép để  
gửi thư [9].  
   
14  
1.4.7. Quy trình lc thư điện tsdng hc máy  
Thc  
Tp mu hun  
Email  
Tin xlý  
Vectơ hóa  
Mô Hình  
Tp mu kim thử  
Trích xut  
đặc trưng  
Đưa ra  
quyết định  
Bphân loi  
Hình 1.6: Quy trình lc nội dung thư điện t[9]  
Hình trên mô tmô hình kiến trúc ca blọc thư áp dụng kthut hc  
máy [9]. Bước đầu tiên, ta sthu thập các thư điện tcủa người dùng bao gm  
cả thư rác và thư hợp l.  
Tiếp theo, quá trình tin xlý (pre-proccessor) din ra, trích xut ly  
t/cm tchính (tokenization), loi bcác ký tag HTML, header MIME hoc  
các tnối như “rằng”, “thì”,…  
Sau đó, bộ lc strích xuất đc tính (feature extraction) và bng cách sử  
dng biu thức vectơ phân loại dliu thành hai tp hp.  
Cui cùng, kthut hc máy (machine learning) được áp dụng để hun  
luyn bộ thư mẫu để xác định thư điện tử cho dù đó là thư rác hay hợp pháp.  
Quyết đnh cui cùng thc hiện qua hai bước; thông qua vic thc và kết quả  
ca blọc để quyết định thư điện tử là thư rác hay thư hợp l.  
1.4.8. Mô hình lọc thư rác của Zimbra  
1.4.8.1. Thành phn ca Zimbra  
Zimbra là mt ng dng máy chủ thư điện tmã ngun mni tiếng,  
trong đó có tích hợp ng dng lọc thư rác mã nguồn mSpamAssassin. Zimbra  
nhận thư qua SMTP và định tuyến từng thư, sử dng Giao thc truyền thư cục  
bộ (LMTP), đến máy chhộp thư Zimbra thích hợp. Máy chgửi thư Zimbra  
MTA bao gồm các chương trình sau:  
Postfix MTA: để định tuyến thư, chuyển tiếp thư và chặn tệp đính kèm  
     
Tải về để xem bản đầy đủ
pdf 73 trang yennguyen 29/03/2022 5160
Bạn đang xem 20 trang mẫu của tài liệu "Luận văn Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfluan_van_nghien_cuu_cac_phuong_phap_loc_thu_rac_tai_viet_nam.pdf