Ứng dụng học chuyển đổi nhận diện hành vi gian lận trong phòng thi

Phạm Văn Sự  
ỨNG DỤNG HỌC CHUYỂN ĐỔI NHẬN  
DIỆN HÀNH VI GIAN LẬN TRONG  
PHÒNG THI  
Phạm Văn Sự  
Hc Vin Cô ng Nghệ Bưu Chính Viễn Thô ng  
thường có thể giúp trung tâm chăm sóc hoặc người quản lý  
có thể hỗ trợ kịp thời.  
Tóm tắt: Nhận diện hành động và cử chỉ của con người  
đã và đang thu hút được sự quan tâm của rất nhiều nhà  
nghiên cứu trong những năm gần đây. Cùng với sự thành  
công của việc ứng dụng học sâu, rất nhiều bài toán về nhận  
diện hành động và cử chỉ của con người ở nhiều khía cạnh  
như thể thao, sinh hoạt, trợ giúp, y tế, … đã được xem xét  
và giải quyết. Trong bài báo này, nhóm nghiên cứu đề xuất  
một giải phát sử dụng học chuyển đổi để giải quyết bài toán  
nhận diện hành vi gian lận trong phòng thi. Bằng cách sử  
dụng một mạng học sâu đã được huấn luyện trên tập dữ  
liệu đủ lớn, giải pháp đề xuất sử dụng học chuyển đổi để  
cá thể hóa cho bài toán vốn không có nhiều dữ liệu để huấn  
luyện. Kết quả kiểm chứng trên bộ dữ liệu thu thập được  
cho thấy giải pháp đề xuất tận dụng được tính tối ưu của  
học sâu, nhờ học chuyển đổi giảm thời gian cần thiết huấn  
luyện lại mà vẫn đạt được kết quả nhận diện chính xác cao.  
Nhận diện hành động và cử chỉ cũng được áp dụng trong  
việc giám sát theo dõi sức khỏe người bệnh [10]. Video  
giám sát được phân tích và trích xuất các tham số động học  
để phát hiện các hành động và được phân loại nhằm đánh  
giá và trợ giúp việc chẩn đoán.  
Bên cạnh đó, còn có rất nhiều các lĩnh vực ứng dụng  
khác mà nhận dạng hành động và cử chỉ con người đã tỏ ra  
là một giải pháp trợ giúp hữu hiệu trong các hệ thống giao  
tiếp người – máy dựa trên thị giác máy tính, chẳng hạn như  
phân tích ngữ cảnh ảnh qua các hành động thường nhật của  
cuộc sống [11]-[13], phân tích các hành động trong thể thao  
[14],[15], phân tích các hành động chủ thể để tạo các hoạt  
động chân thực cho các nhân vật hoạt hình 3D [16].  
Sự thành công và thuận lợi cho phép nhận dạng hành  
động và cử chỉ được áp dụng rộng rãi trong thực tế có được  
là nhờ sự phát triển của thuật toán và công nghệ nhận diện  
hành động dựa trên thị giác máy tính, đặc biệt là học sâu.  
Ở thế hệ công nghệ đầu tiên sử dụng giải quyết bài toàn  
nhận diện hành động và cử chỉ dựa trên ảnh thường tiếp  
cận theo cách trích chọn những đặc trưng thích hợp từ ảnh  
[17], [18]. Việc trích chọn đặc trưng thường dựa trên quan  
điểm chủ quan và kinh nghiệm. Điều này khiến cách tiếp  
cận này không khai thác được hết những thông tin có tính  
phân biệt mức trừu tượng cao từ dữ liệu ảnh vốn là những  
thông tin phức tạp. Và do đó, các phương pháp tiếp cận này  
thường chỉ tập trung vào một số hành động nhất nhưng độ  
chính xác cũng không cao [19].  
Từ khóa: Hành vi gian lận trong thi cử, học chuyển đổi,  
học sâu, mạng nơ-ron tích chập, nhận diện cử chỉ, nhận  
diện hành động.  
I. GIỚI THIỆU  
Nhận diện hành động và cử chỉ của con người là một  
trong những mảng được nghiên cứu sôi động nhất trong  
lĩnh vực thị giác máy tính. Rất nhiều nghiên cứu về mảng  
này đã được công bố trong những năm gần đây cho thấy  
được sự ứng dụng phong phú của nhận diện hành động và  
cử chỉ [1]-[5].  
Lĩnh vực áp dụng của nhận diện hành động và cử chỉ của  
con người đầu tiên phải kể đến đó là nhận diện ngôn ngữ  
ký hiệu nhằm tạo sự thuận lợi trong giao tiếp với người  
điếc [6], [7]. Các ký hiệu tay được nhận diện, giải mã tự  
Cùng với sự phát triển và hoàn thiện của kỹ thuật học  
sâu, hướng tiếp cận giải quyết các bài toán nhận diện hành  
vi đã được chuyển hướng sang sử dụng học sâu [5]-[7]. Với  
kỹ thuật học sâu, nhiều thông tin phức tạp dễ dàng được  
động nhờ các thuật toán được phát triển và cài đặt trên các trích xuất – được học – trực tiếp từ dữ liệu thô. Đặc điểm  
ứng dụng giúp chúng ta có thể dễ dàng hiểu và tương tác này khiến cho học sâu được đánh giá là một phương pháp  
với những người không có khả năng nói.  
Một lĩnh vực áp dụng khác không kém phần quan trọng  
đó chính là lĩnh vực chăm sóc và theo dõi sức khỏe cho  
rất thành công trong việc học các đặc trưng trong dữ liệu  
phức tạp và cho kết quả chính xác cao. Tuy nhiên, để đảm  
bảo sự thành công của giải pháp tiếp cận sử dụng học sâu,  
người già cô đơn [8], [9]. Nhờ sự trợ giúp của hệ thống một yêu cầu bắt buộc đó là cần một lượng dữ liệu đầu vào  
camera cùng với các thuật toán nhận dạng các hành vi bất lớn và chứa đựng thông tin phong phú về vấn đề cần giải  
quyết [19], [20]. Một rào cản nữa của học sâu đó chính là  
Tác giả liên lạc: Phạm Văn Sự,  
Email: supv@ptit.edu.vn  
Đến tòa soạn: 9/2020, chỉnh sửa: 11/2020, chấp nhận đăng: 12/2020.  
SOÁ 04A (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
93  
ỨNG DỤNG HỌC CHUYỂN ĐỔI NHẬN DIỆN HÀNH VI GIAN LẬN TRONG PHÒNG THI  
thời gian cần thiết thực hiện huấn luyện cho mạng học sâu  
thường khá dài. Dù với sự hỗ trợ của phần cứng như GPU,  
thời gian cần thiết huấn luyện cho một bài toán mới với  
lượng dữ liệu lớn cũng phải kéo dài ít nhất vài ngày cho  
đến một tuần [19].  
Ngoài việc cần đáp ứng nhu cầu rút ngắn thời gian đưa  
vào sử dụng của mạng, có rất nhiều bài toán ở một phạm vi  
Hình 1: Sơ đồ tổng quát hệ thống nhận dạng hành động và cử chỉ  
cụ thể bó hẹp hơn việc có được lượng dữ liệu lớn để áp  
dụng một cách trực tiếp kỹ thuật học sâu là điều khó khăn.  
Vấn đề này có thể được khắc phục nhờ kỹ thuật học chuyển  
đổi [21], [22]. Học chuyển đổi là một dạng thức học máy  
trong đó thực hiện trích rút kiến thức đã học được từ một  
hoặc một số bài toán để rút ngắn thời gian và tăng hiệu quả  
giải quyết một bài toán khác có tính tương đồng.  
Hành vi gian lận trong thi cử là một vấn đề nhạy cảm và  
phức tạp [23], [24]. Việc giám sát, tìm cách giảm nhỏ và  
tiến tới loại bỏ nhằm nâng cao chất lượng đào tạo trong các  
cơ sở giáo dục là việc làm hết sức cần thiết. Một số cơ sở  
giáo dục đã bước đầu lắp đặt các camera quan sát [25], [26].  
Tuy nhiên, đây là một bài toán có sự thách thức lớn đòi hỏi  
nguồn nhân lực lớn và cần được đào tạo khi tiếp cận theo  
cách theo dõi thủ công. Trong bài báo này, nhóm nghiên  
cứu đề xuất giải pháp áp dụng học chuyển đổi nhằm phát  
hiện các hành vi gian lận trong phòng thi một cách tự động.  
Bằng cách sử dụng học chuyển đổi, giải pháp tận dụng tính  
ưu việt của các mạng học sâu đã được huấn luyện thuần  
thục áp dụng cho một lĩnh vực cụ thể vốn còn rất ít dữ liệu.  
Giải pháp đề xuất cho thấy tiết kiệm được thời gian huấn  
luyện, nhưng vẫn đảm bảo tính chính xác hứa hẹn là một  
giải pháp khả thi và có tính áp dụng cao.  
Sơ đồ minh ha vic áp dng hc sâu vào bài toán nhn  
diện hành động và cchỉ được trình bày trong Hình 2.  
Trong sơ đồ, mt slp n thc hin mô hình hóa mi quan  
hphi tuyến, đầu ra ca mt lớp là đầu vào ca lp tiếp theo.  
Ti mi lp, mt mi quan hhàm phc tạp được hc và  
hình thành mt phân tng biu din thông tin về đối tượng,  
lp sau trừu tượng/tổng quát hơn lớp trước [22].  
Hình 2: Minh họa giải pháp học sâu giải quyết bài toán nhận diện  
hành động  
Các khi cu thành trong mng hc sâu có thể được xây  
dng tnhiều phương thức khách nhau như: mạng tin sâu  
(DBN), máy Boltzman (BM), mạng nơ-ron sâu (DNN), mã  
hóa tự đng (AE), mng tính chp (CNN), mạng -ron hi  
quy (RNN), mng vi phn tnhdài hn ngn hn  
(LSTM), ... Trong đó các nghiên cứu cho thy các mng  
CNN, RNN, và LSTM tra thích hp hơn với bài toán nhn  
diện hành động.  
Trong nghiên cu này, chúng tôi sdng lp mng CNN  
làm cơ sở cho gii pháp, cthsdng mng ResNet-18  
với sơ đồ trình bày trong Hình 3 [34]. Mạng ResNet được  
cu thành bi các khi ht nhân chính có cấu trúc đặc bit  
trong đó mi khi ni ti có liên kết rút ngn (còn gi là liên  
kết nội) được trình bày trong Hình 4 [34]. Vi liên kết rút  
ngắn này, đầu vào ca khối trước có thtruyền nhanh hơn  
sang các khi tiếp sau.  
Phần còn lại của bài báo được tổ chức thành bốn phần.  
Phần II trình bày giải pháp đề xuất sử dụng học chuyển đổi  
để thực hiện nhận điện hành động và cử chỉ trong phòng  
thi. Phần III cung cấp các kết quả mô phỏng và các thảo  
luận. Cuối cùng, chúng tôi kết luận bài báo trong phần IV.  
II. GIẢI PHÁP ĐỀ XUẤT  
A. Cu hình mng hc sâu cho bài toán nhn dng hành  
vi gian ln trong phòng thi  
Hai lớp đầu tiên của ResNet tương tự vi mng  
GoogLeNet [34]: gm mt lp tích chp 7x7 với bước dch  
bng 2 cho ra 64 kênh ra; theo sau là mt lp chn phn tử  
ln nht (max pooling) 3x3 với bước dch bng 2. Tuy nhiên  
khác vi GoogLeNet, sau mi lp tích chp, mt lp chun  
hóa theo nhóm được sdng.  
Tiếp đến ResNet-18 sdng 4 mô-đun được to bi  
các khi ni. Cui cùng mt lp chn trung bình toàn cc  
được thêm vào trước khi cho kết ququa mt lp kết ni  
đầy đủ.  
Các mng ResNet khác nhau có thdễ dàng đạt được  
bằng thay đổi số kênh đầu ra và slp khi ni. Vi kiến  
trúc đơn giản, dễ dàng thay đổi khiến cho mng ResNet  
được trin khai nhanh chóng và sdng rng rãi. Đây cũng  
là lý do chính mà nhóm nghiên cu xem xét và la chn cu  
hình mng này.  
Tương tự như một hthng nhn dng nh, sơ đồ tng  
quát ca hthng nhn dạng hành động và cchỉ được trình  
bày trong Hình 1. Mt hthng nhn dạng hành động và cử  
chvề cơ bản gồm ba bước: trích xut/học các đặc trưng;  
biu diễn các hành động; và phân lớp các hành động. Mi  
một bước đều có mt vai trò quan trng trong vic nâng cao  
độ chính xác ca vic nhn din.  
Hc sâu có thể tăng khả năng mô tả dliu phc tp  
thông qua mt slp biu diễn. Thành công đầu tiên ca  
học sau trong lĩnh vực thị giác máy tính được biết đến vào  
năm 2012, trong đó bài toán phân loại ảnh được gii quyết  
bng cách xây dng mt mng tích chp (CNN), thc hin  
hun luyn vi 1,2 triu bc ảnh độ phân gii cao và phân  
loi nh theo 1000 lp [27]. Từ sau thành công đầu tiên, rt  
nhiu nghiên cu trong lĩnh vực thị giác máy đã được đề  
xut vi cách tiếp cn hc sâu [28]-[33].  
SOÁ 04A (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
94  
Phạm Văn Sự  
thp dliu thụ động. Dliệu được thu thp mt cách kín  
đáo và không có sự hp tác của người hc. Tp dliu thô  
có tng thời lượng khong 1,5 giờ đồng hồ được thu thp  
ca nhiu sinh viên khác nhau vi 8 nhóm hành động chính:  
sdng tài liệu trong lòng bàn tay để trên bàn (IPF), sử  
dng tài liệu để trên tay để dưới gm bàn (IPU), sdng tài  
liệu dưới giy viết (IPO), quay trái sang nhìn/trao đổi (RL),  
quay phải sang nhìn/trao đổi (RR), quay sau phải để  
nhìn/trao đổi (RBR), quay sau trái đề nhìn/trao đổi (RBL),  
nhổm người về trước nhìn/trao đổi (UF). Dliu ảnh được  
trích xut khung vi shtrcủa thư viện Yolov3. Các  
khung hình ng với các hành động thuộc nhóm hành động  
được chọn và đánh nhãn thủ công thu được khong 1640  
khung hình tương ứng cho 8 nhóm hành động. Cth, số  
lượng khung hình ca mỗi nhóm hành động được trình bày  
trong Bng 1. Mt số hành động điển hình được minh ha  
trong Hình 5.  
Bảng 1: Số lượng khung hình của mỗi nhóm hành động trong dữ  
liệu thu thập  
Lớp hành động  
Số lượng khung hình  
IPF  
229  
171  
190  
185  
236  
174  
252  
203  
IPU  
IPO  
RL  
Hình 3: Sơ đồ giản lược cấu hình mạng ResNet-18  
RR  
RBL  
RBR  
UF  
Hình 4: Sơ đồ cấu trúc khối nội cấu thành của mạng ResNet  
B. Chun bdliu  
Để thc hin hun luyn cho mng hc sâu, trong nghiên  
cu này chúng tôi sdng bdliu HMDB51 [37]. Trong  
nghiên cu này, nhóm nghiên cu tiếp cn bài toán theo  
hướng 2D. Tp dliệu video được thc hin tin xlý bng  
cách trích ct khung chính vi shtrcủa thư viện Yolov3  
[38] thu được hơn 2,5 triệu ảnh tương ứng với 51 hành động.  
Tp ảnh được trn ngu nhiên, phân chia thành 5 tp con và  
được sdụng để thc hin hun luyện và đánh giá chéo.  
Mc dù các tập cơ sở dliệu hành động phong phú như  
KTH [36], UCF50 [37], … nhưng việc tìm tp dliu cho  
các hành động vi phm trong phòng thi hoàn toàn không dễ  
dàng. Thêm nữa, đây là tập dliu có tính nhy cm. Theo  
hiu biết ca tác giả cho đến nay chưa có tp dliu công  
khai thuc chủ đề này. Ngoài ra, việc có được tp dliu  
đủ ln vchủ đề này hin nay để có tháp dng trc tiếp  
mng học sâu là điều rt khó.  
Hình 5: Minh họa một số hành động gian lận trong phòng thi  
C. Gii pháp áp dng hc chuyn đổi  
Để khc phc vic thiếu dliu cho mng học sâu như  
đề cp trên, nhóm nghiên cu xem xét vic áp dng hc  
chuyển đổi dựa trên đặc trưng nhằm chuyển đổi mng  
ResNet sau khi đã được hun luyn thun thc để cá thhóa  
cho bài toán nhn diện hành động gian ln trong phòng thi.  
Phương pháp học chuyển đổi dựa trên đặc trưng cho phép  
vic hc chuyển đổi có ththc hiện trên không gian đặc  
trưng được trừu tượng hóa thay vì phthuc vào không gian  
ảnh thô đầu vào [22].  
Trong quá trình nghiên cu tìm hiu, nhóm nghiên cu  
được scho phép ca Trung tâm Khảo thí và Đảm bo cht  
lượng ti Hc viện Bưu chính Viễn thông đã thực hin thu  
Ý tưởng cơ bn ca hc chuyển đổi dựa trên đặc trưng là  
coi các lớp phía trước ca mng, trmt slp cui cùng,  
SOÁ 04A (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
95  
ỨNG DỤNG HỌC CHUYỂN ĐỔI NHẬN DIỆN HÀNH VI GIAN LẬN TRONG PHÒNG THI  
như các lớp biu diễn đặc trưng. Với các bài toán có sự như quan sát trong Hình 5, có một số hành động có sự tương  
tương đồng, thay vì phi hun luyn li từ đầu thì chúng ta đồng cao. Do đó, khi dữ liệu không đủ lớn, việc học và biểu  
chcn cá thhóa thích hp mt slp cui cùng [22]. Da diễn chúng của mạng chưa đủ mạng để phân biệt được dẫn  
trên ý tưởng đó, nhóm nghiên cứu thay đổi xây dng lp kết đến độ chính xác thấp.  
nối đầy đủ cuối cùng để phù hp vi tập các hành động quan  
Kết quả ma trận nhầm lẫn của phương pháp đề xuất  
tâm. Cth, mt lp kết nối đầy đủ mi vi snút trong lp được trình bày trong Bảng 2. Quan sát kết quả từ bảng  
phù hp slớp hành động được thêm vào. Sơ đồ minh ha chúng ta thấy rằng mặc dù phương pháp đề xuất có độ chính  
mạng đề xut trình bày trong Hình 6.  
xác cao nhưng vẫn có môt số hành động có sự nhầm lẫn khá  
cao chẳng hạn như hành động sử dụng tài liệu trong tay để  
trước mặt dễ bị nhầm đến khoảng hơn 20% thành sử dụng  
tài liệu dưới giấy trước mặt. Bằng kiểm nghiệm quan sát  
trên minh họa Hình 5 thì thấy kết quả này hoàn toàn dễ hiểu  
vì hai hành động này có sự tương đồng đáng kể. Ngoài ra  
các hành động quay sang trái và quay về phía sau bên trái  
cũng có sự nhầm lẫn cao, tương tự cho hành động quay về  
phía bên phải. Điều này cũng là do những hành động này có  
sự tương đồng đáng kể.  
Bảng 2: Kết quả đánh giá ma trận nhầm lẫn  
Dự đoán  
IPF IPU IPO RL  
RR RBL RB  
R
UF  
IPF  
IPU  
IPO  
RL  
RR  
RBL  
175  
0
21  
2
0
0
0
171  
0
0
0
0
0
0
54  
0
169  
0
1
1
0
0
0
167  
0
17  
0
1
0
0
0
0
211  
3
23  
4
0
0
0
12  
0
147  
0
2
0
0
0
2
21  
0
214  
1
0
0
0
2
3
6
0
195  
RBR 12  
UF  
3
0
0
Giải pháp để giảm sự nhầm lẫn giữa các hành động này  
có thể được thực hiện bằng cách tiếp cận 3D trong đó tận  
dụng đặc tính chuỗi thời gian của hành động và áp dụng các  
kiến trúc mạng RNN hoặc LSTM thay vì CNN như hiện  
nay. Giải pháp này nhóm nghiên cứu xin trình bày trong  
nghiên cứu trong thời gian tới.  
Kết quả quan sát về mặt thời gian cho thấy thời gian từ  
lúc bắt đầu thực hiện tinh chỉnh cho đến lúc kết quả đánh  
giá ổn định của giải pháp đề xuất là 2,23 phút trong khi thời  
gian để có kết quả đánh giá ổn định khi thực hiện huấn luyện  
Hình 6: Sơ đồ giản lược kiến trúc đề xuất áp dụng học chuyển đổi  
III. KT QUTHC NGHIM VÀ THO LUN  
Để so sánh đánh giá kết quả, tập dữ liệu HMDB51 và  
tp dliu thu thập được được sử dụng. Quá trình thực  
nghiệm và khảo sát sử dụng ngôn ngữ Python với thư viện mạng từ đầu là 27,51 phút. Các kết quả thời gian là giá trị  
trung bình của 150 lần thử nghiệm. Kết quả này cho thấy độ  
lợi rõ rệt về mặt thời gian khi áp dụng học chuyển đổi. Cũng  
cần nhấn mạnh rằng, nếu tính tổng thời gian huấn luyện dữ  
liệu cho bài toán gốc với bộ dữ liệu HMDB51 thì thời gian  
Pytorch trên máy trạm với sự hỗ trợ của thiết bị GPU.  
Đầu tiên, để đánh giá chất lượng của phương pháp đề  
xuất tập dữ liệu thu được tbdliệu HMDB51 như mô tả  
trong phần II được sdụng để hun luyện và đánh giá với  
mô hình mng ResNet-18. Sau khi mạng được hun luyn là 8,21 giờ. Tuy nhiên, khi quan tâm đến sự hạn chế về mặt  
thun thc thhiện thông qua các đánh giá mạng ổn định, dữ liệu cho bài toán áp dụng và khả năng về sự dịch chuyển  
kiến thức học được sẵn có sang một bài toán mới thì rõ ràng  
độ lợi về độ chính xác và thời gian giải quyết bài toán là rất  
đáng xem xét và có ý nghĩa hết sức thực tế.  
lp kết nối đầy đủ cuối cùng được cu hình li như đã trình  
bày. Tiếp đến bdliu thu thập được được trn ngu nhiên  
và chia thành ba phần vơí tỷ lệ 70%, 15% và 15% tương  
ng cho phn tinh chỉnh, đánh lại và kim tra.  
Để thực hiện đối sánh và đánh giá lợi ích của học chuyển  
đổi, toàn bộ dữ liệu thu thập được cũng được thực hiện trộn  
và chia như trên sau đó được đưa vào huấn luyện và đánh  
từ đầu cho mạng ResNet-18.  
Kết quả đánh giá về độ chính xác cho thấy, với giải pháp  
đề xuất độ chính xác tính trung bình cho các lớp hành động  
đạt 88.35% trong khi việc thực hiện sử dụng dữ liệu huấn  
luyện từ đầu chỉ đạt khoảng 64.8%. Sở dĩ việc sử dụng dữ  
liệu huấn luyện lại từ đầu không đạt kết quả cao có thể bởi  
vì lượng dữ liệu quá nhỏ cho mỗi lớp hành động. Đặc biệt  
IV. KẾT LUẬN  
Trong bài báo này, chúng tôi đã đề xuất một phương pháp  
tiếp cận sử dụng học chuyển đổi để giải quyết bài toán nhận  
diện hành vi gian lận trong phòng thi. Giải pháp sử dụng  
học chuyển đổi dựa trên đặc trưng nhằm tận dụng tính ưu  
việt của mạng học sâu đã được huấn luyện thuần thục với  
một mục tiêu có nét tương đồng. Với giải pháp đề xuất, chất  
lượng theo khía cạnh độ chính xác được cải thiện đáng kể  
dù cơ sở dữ liệu nhỏ vốn dĩ không thích hợp cho việc áp  
SOÁ 04A (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
96  
Phạm Văn Sự  
Conference on Content-Based Multimedia Indexing  
dụng mạng học sâu. Không những thế, thời gian đưa vào áp  
dụng mạng cho bài toán cũng được rút ngắn. Từ đó cho  
thấy, giải pháp đề xuất hứa hẹn có tính thực tiễn cao.  
(CBMI),  
La  
Rochelle, 2018, pp. 1-6, doi:  
10.1109/CBMI.2018.8516488.  
[16] C. Ionescu, D. Papava, V. Olaru and C. Sminchisescu,  
"Human3.6M: Large Scale Datasets and Predictive Methods  
for 3D Human Sensing in Natural Environments," in IEEE  
Transactions on Pattern Analysis and Machine Intelligence,  
vol. 36, no. 7, pp. 1325-1339, July 2014, doi:  
10.1109/TPAMI.2013.248.  
TÀI LIỆU THAM KHẢO  
[1] Schuldt, Laptev and Caputo, “Recognizing Human Actions:  
A local SVM Approach,” in Proc. ICPR’04, Cambridge,  
UK, 2004.  
[17] Wang, H., Kläser, A., Schmid, C., et al.: ‘Dense trajectories  
and motion boundary descriptors for action recognition’, Int.  
J. Comput. Vis., 2013, 103, pp. 6079  
[18] Wang, H., Schmid, C.: ‘Action recognition with improved  
trajectories’. Proc.IEEE Int. Conf. on Computer Vision,  
2013  
[19] Maryam Koohzadi, Nasrollah Moghadam Charkari, Survey  
on deep learning methods in human action recognition,  
Special Section: Deep Learning in Computer Vision, IET  
Comput. Vis., 2017, Vol. 11 Iss. 8, pp. 623-632  
[20] Zhu, F., Sha, L., Xie, J., and Fang, Y., From handcrafted to  
learned representations for human action recognition: A  
survey. Image and Vision Computing, 2016  
[21] A. B. Sargano, X. Wang, P. Angelov and Z. Habib, "Human  
action recognition using transfer learning with deep  
representations," 2017 International Joint Conference on  
Neural Networks (IJCNN), Anchorage, AK, 2017, pp. 463-  
469, doi: 10.1109/IJCNN.2017.7965890.  
[22] Qiang Yang, Yu Zhang, Wenyuan Dai, and Sinno Jialin Pan,  
Transfer Learning, CUP. 2020  
[23] Trần Đức Viên, Gian lận và thi cử: Lo âu về một ngày mai,  
Báo Tia sáng, Tháng 12, 2019  
[2] C. Chen, B. Zhang, Z. Hou, J. Jiang, M. Liu, and Y. Yang.  
Action recognition from depth sequences using weighted  
fusion of 2d and 3d auto-correlation of gradients features.  
Multimedia Tools and Applications, pages 119, 2016  
[3] T. Eleni. Gesture recognition with a convolutional long short  
term memory recurrent neural network. In ESANN, 2015.  
[4] C. Feichtenhofer, A. Pinz, and A. Zisserman. Convolutional  
two-stream network fusion for video action recognition. In  
CVPR, 2016  
[5] W. Ouyang, X. Chu, and X. Wang. Multi-source deep  
learning for human pose estimation. CVPR, pages 2337–  
2344, 2014  
[6] Pigou L., Dieleman S., Kindermans PJ., Schrauwen B.  
(2015) Sign Language Recognition Using Convolutional  
Neural Networks. In: Agapito L., Bronstein M., Rother C.  
(eds) Computer Vision - ECCV 2014 Workshops. ECCV  
2014. Lecture Notes in Computer Science, vol 8925.  
Springer, Cham  
[7] Jie Huang, Wengang Zhou, Qilin Zhang, Houqiang Li,  
Weiping Li, Video-based Sign Language Recognition  
without Temporal Segmentation, arXiv:1801.10111  
Medeley generated error.  
[8] Crispim-Junior, C. F., Ma, Q., Fosty, B., Romdhane, R.,  
Bremond, F., & Thonnat, M. (2015). Combining Multiple  
Sensors for Event Detection of Older People Health  
Monitoring and Personalized Feedback using Multimedia  
Data (pp. 179-194): Springer  
[24] Quỳnh Nguyễn, Cảnh giác gian lận trong thi cử, Báo nhân  
dân. Tháng 8,2020  
[25] Hà Phượng, Chống gian lận thi cử: 100% các phòng thi đều  
được lắp camera, Pháp luật Online, Tháng 5,2019  
[26] idp.com  
[27] Krizhevsky, A., Sutskever, I., Hinton, G.E.: ‘ImageNet  
classification with deep convolutional neural networks’.  
Advances in Neural Information Processing Systems, 2012  
[28] Le, Q.V.: ‘Building high-level features using large scale  
unsupervised learning’. 2013 IEEE Int. Conf. on Acoustics,  
Speech and Signal Processing (ICASSP), 2013  
[9] Foroughi, H., Yazdi, H. S., Pourreza, H., & Javidi, M.  
(2008). An eigenspace-based approach for human fall  
detection usingintegrated time motion image and multi-class  
support vector machine. Paper presented at the Intelligent  
Computer Communication and Processing, 2008. ICCP  
2008. 4th International Conference on  
[29] Peng, X., Zou, C., Qiao, Y., et al.: ‘Action recognition with  
stacked fishervectors’. Computer Vision–ECCV 2014,  
2014, pp. 581595  
[30] Rifai, S., Bengio, Y., Courville, , et al.: ‘Disentangling  
factors of variation for facial expression recognition’.  
Computer VisionECCV 2012, 2012, pp. 808822  
[31] Ciresan, D., Meier, U., Schmidhuber, J.: ‘Multi-column  
deep neural networks for image classification’. 2012 IEEE  
Conf. on Computer Vision and Pattern Recognition (CVPR),  
2012  
[10] Kuo, Y.-M., Lee, J.-S., & Chung, P.-C. (2010). A visual  
context-awareness-based sleeping-respiration measurement  
system. Information Technology in Biomedicine, IEEE  
Transactions on, 14(2), 255-265  
[11] Ahmad Jalal; Maria Mahmood; Abdul S. Hasan, Multi-  
features descriptors for Human Activity Tracking and  
Recognition in Indoor-Outdoor Environments, 2019 16th  
International Bhurban Conference on Applied Sciences and  
Technology (IBCAST)  
[12] Y. Tang, Y. Tian, J. Lu, J. Feng and J. Zhou, "Action  
recognition in RGB-D egocentric videos," 2017 IEEE  
International Conference on Image Processing (ICIP),  
[32] Zeiler, M.D.: ‘Hierarchical convolutional deep learning in  
computer vision’ (New York University, 2013)  
[33] Mnih, V., Kavukcuoglu, K., Silver, D., et al.: ‘Human-level  
control through deep reinforcement learning’, Nature, 2015,  
518, (7540), pp. 529533  
[34] Aston Zhang and Zachary C. Lipton and Mu Li and  
[35] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, and T. Serre.  
HMDB: A Large Video Database for Human Motion  
Recognition. ICCV, 2011  
[36] Christian Schuldt, Ivan Laptev and Barbara Caputo,  
"Recognizing Human Actions: A Local SVM Approach", in  
Proc. ICPR'04, Cambridge, UK  
[38] Redmon, Joseph and Farhadi, Ali, YOLOv3: An  
Beijing,  
10.1109/ICIP.2017.8296915.  
[13] Jalal, A., Kamal, S. & Azurdia-Meza, C.A. Depth Maps-  
Based Human Segmentation and Action Recognition Using  
Full-Body Plus Body Color Cues Via Recognizer Engine. J.  
2017,  
pp.  
3410-3414,  
doi:  
Electr.  
Eng.  
Technol.  
14,  
455461  
(2019).  
[14] Q. V. Le, W. Y. Zou, S. Y. Yeung and A. Y. Ng, "Learning  
hierarchical invariant spatio-temporal features for action  
recognition with independent subspace analysis," CVPR  
2011, Providence, RI, 2011, pp. 3361-3368, doi:  
10.1109/CVPR.2011.5995496.  
[15] P. Martin, J. Benois-Pineau, R. Péteri and J. Morlier, "Sport  
Action Recognition with Siamese Spatio-Temporal CNNs:  
Application to Table Tennis," 2018 International  
Incremental  
Improvement,  
SOÁ 04A (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
97  
ỨNG DỤNG HỌC CHUYỂN ĐỔI NHẬN DIỆN HÀNH VI GIAN LẬN TRONG PHÒNG THI  
APPLICATION OF TRANSFER LEARNING ON  
DETECTING EXAMINIATION CHEATING  
ACTION  
Abstract: Human action and gesture recognition  
(HAR/HGR) has been an attractive research topic recently.  
By applying successfully deep learning to HAR, many  
aspects of daily life actions in sport, leisure, medical care,  
… have been recognized with significantly correctness. In  
this work, we propose a solution which combines transfer  
learning and deep learning to solve the case of recognizing  
the misbebaviour human actions in exams where the  
available data is limited. The evaluations on the collected  
data show that the proposed approach is a promising  
method. The solution can exploit the goodness of deep  
learning and leverage the short cut of transfer learning  
while still achieving the high performance.  
Keywords: Examination cheating behavior, cheating  
action, transfer learning, deep learning (DL), convolutional  
neural network (CNN), human gesture recognition (HGR),  
human action recognition (HAR)  
Phạm Văn Sự tốt nghiệp ngành  
Điện tử Viễn thông tại Đại học Bách  
Khoa Hà Nội (HUST) năm 1999,  
cao học ngành Kỹ thuật Điện – Điện  
tử tại Đại học Thông tin Liên lạc  
(ICU) Hàn Quốc năm 2004. Tác giả  
hiện là giảng viên Bộ môn Xử lý tín  
hiệu & Truyền thông, Khoa Kỹ thuật  
Điện tử I, Học viện Công nghệ Bưu  
chính Viễn thông. Các hướng nghiên cứu chính của tác giả  
gồm: Thiết kế mạch tích hợp số và tương tự, Xử lý ảnh, Xử  
tiếng nói, Thị giác máy tính, Thông tin số.  
SOÁ 04A (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
98  
pdf 6 trang yennguyen 08/04/2022 6440
Bạn đang xem tài liệu "Ứng dụng học chuyển đổi nhận diện hành vi gian lận trong phòng thi", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfung_dung_hoc_chuyen_doi_nhan_dien_hanh_vi_gian_lan_trong_pho.pdf