Cải tiến độ chính xác tra cứu ảnh thông qua học sâu và học độ đo khoảng cách tối ưu

Đào Thị Thúy Qunh  
CI TIẾN ĐỘ CHÍ NH XÁ C TRA CU NH  
THÔ NG QUA HC S U VÀ HỌC ĐỘ ĐO  
KHONG CÁ CH TỐI ƯU  
*Đào Thị Thúy Qunh  
* Khoa Cô ng nghthô ng tin 1, Hc Vin Cô ng Nghệ Bưu Chính Viễn Thô ng  
Tóm tắt- Tra cứu ảnh dựa vào nội dung được thực hiện  
Do đó, biểu din nh bởi véc tơ đặc trưng và độ đo  
bởi việc so sánh độ đo tương tự giữa biểu diễn ảnh truy  
tương tự là hai yếu tchính ảnh hưởng ti hiu quca hệ  
vấn và biểu diễn cơ sở dữ liệu ảnh. Do đó, hiệu quả của  
thng CBIR. Nâng cao hiu quca hthng CBIR là mt  
phương pháp tra cứu ảnh bị ảnh hưởng rất nhiều bởi biểu  
vấn đề thách thc trong nghiên cứu. Để nâng cao hiu qu,  
diễn ảnh và độ đo tương tự. Gần đây, học sâu được sử  
chúng ta cn gim khong trng ngữ nghĩa trong CBIR,  
dụng và đem lại hiệu quả cao trong các bài toán phân lớp,  
khong trng ngữ nghĩa thhin nhng hn chế ca biu  
nhận dạng ảnh, các đặc trưng ảnh được học bởi mô hình  
din nh bởi đặc trưng mức thấp được trích rút tự động và  
CNN mang tính ngữ nghĩa cao. Trong bài báo này, chúng  
ngữ nghĩa của bc ảnh do con người cm nhn. Để gim  
tôi sẽ đề xuất phương pháp tra cứu ảnh IRDLoM (Image  
khong trng ngữ nghĩa này, đã có một số đề xuất đưa các  
Retrieval using Deep learning and optimal distance  
kthut hc máy vào trong quá trình tra cu nh. Nhng  
metric) sử dụng mạng CNN để xây dựng bộ đặc trưng và  
năm gần đây, học sâu đã nâng cao được hiu quca các  
tìm một phép chiếu tuyến tính với một độ đo tương tự cải  
bài toán nhn dng, phân loại đối tượng. Vi mong mun  
tiến. Phần thực nghiệm cung cấp các kết quả thực nghiệm  
nâng cao hiu qungay tquá trình xây dng bộ đặc trưng  
để minh chứng độ chính xác của phương pháp đề xuất.  
biu din ảnh, phương pháp đề xut ssdng cu trúc  
Từ khóa:  
Content-based image retrieval, deep mạng CNN để xây dng bộ đặc trưng có tính ngữ nghĩa  
learning, similarity measures, mahalanobis metric cao. Bên cạnh đó, phương pháp đề xut skết hp kthut  
distance.  
phân lp LDA và học độ đo tương tự (Learning similarity  
measures) để đưa một độ đo tương tự ci tiến phù hợp hơn  
vi dliu.  
I. MỞ ĐẦU  
Tra cu nh da vào ni dung (CBIR-Content Based  
Ý tưởng ca học độ đo khong cách là tìm một độ đo  
khong cách tối ưu mà tối thiểu được khong cách gia  
các cp ảnh tương tự nhau và tối đa hóa khoảng cách gia  
nhng cp ảnh không tương tự. Sau đó, độ đo khoảng cách  
tối ưu này sẽ được dùng để phân hng li toàn btp nh  
và trvkết qu. Chúng tôi đề xut mt kthut hiu cu  
nh hiu qu, kthut có tên là IRDLoM (Image Retrieval  
using Deep learning and optimal distance metric). Bng  
thc nghiệm trên cơ sở dliu nh gm 10.800 nh ,  
chúng tôi schra schính xác ca phương pháp đề xut.  
Image Retrieval) đã nhận được nhiu squan tâm trong  
thp kqua, do nhu cu xlý hiu quả lượng dliệu đa  
phương tiện khng lồ và tăng nhanh chóng. Nhiều hệ  
thống CBIR đã được phát trin, gm QBIC [21],  
Photobook [22], MARS [23], PicHunter [24] , Blobworld  
[25].  
Trong mt hthng CBIR tiêu biểu, các đặc trưng ảnh  
trc quan mc thp (màu, kết cu và hình dạng) được trích  
rút tự động và biu diễn thành các véc tơ đặc trưng tương  
ng cho mc tiêu mô tả ảnh và so sánh độ tương tự. Để  
tìm kiếm các nh mong muốn, người dùng đưa một nh  
làm mu truy vn và hthng trli mt tp các ảnh tương  
tdựa vào các đặc trưng được trích rút. Khi các hthng  
trình bày mt tp các ảnh được xem là tương tự đối vi  
Phn còn li của bài báo được tchức như sau. Trong  
Phn 2, trình bày chi tiết phương pháp đề xut. Phn 3 mô  
tcác thc nghim hiệu năng của chúng tôi và tho lun  
các kết qu. Cuối cùng, chúng tôi đưa ra kết lun.  
truy vấn, người dùng có thly ra nhng nh liên quan II. NGHIÊN CU LIÊN QUAN  
nht vi nh truy vấn được cho, và hthống điều chnh  
Tra cu nh da vào ni dung sdng hc khong  
truy vn sdng chúng. Phn hi liên quan da vào các kỹ  
thut CBIR không yêu cầu người dùng cung cp các truy  
vn khi tạo chính xác, nhưng đánh giá truy vấn lý tưởng  
của người dùng bng sdng các nh liên quan phn hi  
bởi người dùng.  
cách đã nhận được squan tâm trong cộng đồng nghiên  
cu [6, 9, 13, 14, 15, 16, 17,18]. Dliệu đầu vào ca các  
thut toán hc khong cách trong tra cu nh thường được  
chia làm hai nhóm: (1) chỉ xem xét đến các cp nh tương  
tvà (2) xem xét ccác cp nh tương tự và các cp nh  
không tương tự.  
Ý tưởng điều chnh trng sca hàm khoảng cách đã  
được áp dng vào các hthng tra cu nh, chng hn như  
phương pháp SRIR [19]. Phương pháp này thường tn  
dng thông tin ca tp ảnh tương tự, xem xét ti sphân  
tán ca dliu trên mi chiu và biu din bi mt ma  
Tác giả liên hệ: Đào Thị Thúy Quỳnh  
Đến tòa soạn: 8/2020, chỉnh sửa: 9/2020, chấp nhận đăng: 10/2020.  
SOÁ 03 (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
62  
CI TIẾN ĐỘ CHÍNH XÁC TRA CU NH THÔNG QUA HC SÂU VÀ HỌC ĐỘ ĐO KHOẢNG CÁCH TỐI ƯU  
trận đường chéo. Từ đó đưa ra một hàm khong cách Mahalanobis bng thc hin tìm ma trn tối ưu M trong  
Euclid ci tiến và áp dng nó vào phân hng toàn btp công thức độ đo tương tự ci tiến.  
nh.  
A. Tổng quan phương pháp  
Phương pháp MCML [4], các phương pháp này học  
Phương pháp tra cứu ảnh đề xut IRDLoM được mô tả  
một độ đo khoảng cách Mahalanobis sao cho các mu  
trên Hình 1. Phương pháp sẽ sdng mô hình CNN đã  
cùng mt lp sẽ được ánh xti cùng một điểm. Bài toán  
được hun luyn trên mt tp dliu, sau đó sử dng cu  
học độ đo khoảng cách được đưa vbài toán tối ưu lồi và  
trúc mng làm khi tạo để trích rút đặc trưng mức cao, đó  
tìm nghim theo phương pháp Gradient-descent. Tuy  
là quá trình biu din nh bi véc tơ đặc trưng. Khi người  
nhiên, vic tìm nghim ca bài toán tối ưu bởi phương  
dùng đưa vào một nh truy vấn, phương pháp cũng thc  
pháp Gradient-descent có chi phí tính toán ln.  
hiện trích rút đặc trưng tương tự như thực hin vi nh cơ  
Phương pháp LMNN [5] vi ý tưởng cc tiu khong sdliu. Phương pháp sẽ thc hiện so sánh độ tương tự  
cách các mu cùng nhãn nm trong lân cn k-NN và cc giữa véc tơ đặc trưng ảnh truy vn và tp véc tơ đặc trưng  
đại khong cách các mu khác nhãn bi mt llớn hơn mà của cơ sở dliu nh sdụng độ đo Euclid và trvtp  
sdng hàm khong cách Mahalanobis. Ý tưởng này được nh kết qukhi tạo cho người dùng. Người dùng sthc  
mô hình hóa bi mt bài toán tối ưu và giải quyết nó bi hin quá trình phn hi liên quan, la chn ra nhng nh  
phương pháp SDP [3] từ đó tìm ra độ đo khoảng cách ci phù hp vi mong mun. Tiếp theo, thông tin phn hi  
tiến.  
bao gm tp ảnh liên quan và không liên quan được đưa  
vào hc độ đo khong cách và tối ưu hóa trng sca hàm  
khong cách ci tiến. Sau đó, tất ccác ảnh được sp xếp  
li da trên giá trca hàm khong cách Mahalanobis ci  
tiến. Nếu người dùng chưa tha mãn vi các kết qu, quá  
trình phn hi liên quan sẽ được lp li để trvtp nh  
kết quả cho người dùng.  
Thut toán hc trc tuyến cho độ tương tự ảnh cln  
(OASIS) [18] được thiết kế chuyên biệt để làm vic vi  
các ràng buc cp. Tuy nhiên, chúng da trên các githiết  
mnh vdliệu đầu vào hoc cu trúc ca các ràng buc  
(yêu cu dliệu đầu vào là các véc tơ thưa). Do đó, nó khó  
có tháp dụng được trong thc tế.  
Phương pháp Xing [20] vi ý tưởng đưa về bài toán ti  
ưu dạng li mà cc tiu hóa tng khong cách ca các cp  
ảnh tương tvi ràng buc tng khong cách các cp nh  
không tương tự đạt cực đại. pha khi to, phương pháp  
sdng hàm khong cách Euclid ci tiến với A=I. Sau đó,  
phương pháp Xing đưa ra mt hàm khong cách ci tiến  
vi A là kết quca bài toán tối ưu lồi nói trên. Tuy nhiên,  
phương pháp của Xing cũng có chi phí tính toán ln do sử  
dụng phương pháp giải Gradient-descent để tìm nghim và  
cũng chưa khai thác tập ảnh tương tự mt cách hiu qu.  
CNN  
CSDL véc  
tơ đặc  
trưng  
Cơ sở dữ  
liu nh  
Học độ đo  
tương tự  
LoM  
So sánh độ  
đo tương  
Phn hi  
liên quan  
tL2  
CN  
Truy  
vn  
Véc tơ  
đặc trưng  
Vi phương pháp RCA [8], ý tưởng của phương pháp  
này chsdng các cp nh tương tự, tìm mt phép biến  
đổi dliu da vào ma trận phương sai sinh ra từ tp nh  
tương tự. Từ đó, ci tiến hàm khong cách Mahalanobis  
bằng cách thay đổi ma trn trng s. Mặc dù, phương pháp  
RCA này có chi phí tính toán hiu quả hơn phương pháp  
ca Xing nhưng phương pháp RCA chỉ xem xét ti tp  
ảnh tương tự.  
Phân  
hng tp  
nh  
Kết  
quả  
Hình 1. Sơ đồ của phương pháp đề xuất.  
B. Biu din nh sdng hc sâu  
Từ phân tích ưu điểm và hn chế ca nhng nghiên  
cu liên quan trên, chúng tôi đề xut phương pháp tra  
cu nh vi hàm khong cách ci tiến. Vic ci tiến hàm  
khong cách da trên vic cực đại hóa thương giữa tng  
khong các cp ảnh không tương tự và tng khong cách  
các cp ảnh tương tự. Trong ý tưởng này, chúng ta xem  
xét được ctp ảnh tương tự và không tương tự để tìm  
được ma trn trng svà ci tiến hiu qucủa phương  
pháp tra cu.  
Trong những năm gần đây, mạng CNN đã đem lại hiu  
qutuyt vời trong trong lĩnh vực thị giác máy như bài  
toán phân lp ảnh, xác định đối tượng, phân đoạn ngữ  
nghĩa. Từ đó, cũng có nhiều nghiên cu vtra cu nh da  
vào ni dung (CBIR) sdng CNN và nhận được kết quả  
tt.  
Trong [7] chỉ ra một số cách tiếp cận để cải tiến hiệu  
quả của hệ thống CBIR sử dụng học sâu trong việc xây  
dựng ra bộ đặc trưng có tính ngữ nghĩa cao hơn: (1) sử  
dụng một mô hình CNN đã tiền huấn luyện và xây dựng  
ra bộ đặc trưng ảnh dùng khoảng cách L2 để so sánh độ đo  
tương ứng giữa các véc tơ đặc trưng; (2) vẫn dùng mô  
hình CNN đã được tiền huấn luyện để xây dựng ra bộ đặc  
trưng, tuy nhiên cải tiến bằng cách sử dụng học độ đo  
khoảng cách (DML) để có được một độ đo tương tự thích  
hợp với dữ liệu hơn ở pha so sánh độ tương tự; và (3) với  
một bộ dữ liệu cụ thể nào đó, huấn luyện lại mô hình  
CNN kết hợp với một bộ phân lớp cụ thể, sau đó sử dụng  
III. PHƯƠNG PHÁP TRA CU NH ĐỀ XUT  
Phương pháp đề xut sthc hin xây dng bộ đặc  
trưng dựa vào hc sâu, tk-NN strvtp nh khi to  
cho người dùng. Quá trình phn hồi liên quan được thc  
hiện, người dùng sla chn ra tp nh phù hp vi mong  
mun là tp mu liên quan. Ly được tp mu liên quan,  
phương pháp sẽ thc hin hun luyn để tìm ra mt phép  
chiếu tuyến tính thỏa mãn phương sai giữa các mu cùng  
tp liên quan là cc tiu và cực đại hóa phương sai giữa  
mu liên quan và không liên quan. Sau đó, phương pháp sẽ  
thc hin xây dng một độ đo tương tự ci tiến  
SOÁ 03 (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
63  
Đào Thị Thúy Qunh  
độ đo như cách tiếp cận (1) hoặc (2) là hoàn thiện một 4. Return S  
phương pháp tra cứu ảnh sử dụng học sâu.  
C. Một độ đo khoảng cách cải tiến  
Trong [7] đã giới thiệu cách tiếp cận (1) đó cũng là  
một trường hợp cải tiến của cách tiếp cận (2). Giả sử,  
Cho đến nay, cũng có một scách tiếp cn hc  
khong cách khác nhau mà khai thác tính cht ca tp  
phn hi từ phía người dùng trong quá trình tra cu nh.  
Tuy nhiên, các phương pháp đã có thường chxem xét ti  
tp mẫu dương (positive samples) mà chưa xem xét tới  
tp mẫu âm. Ý tưởng cơ bản ca phân tích thành phn  
phân bit (DCA-Discriminative Component analysis) là  
tìm mt phép biến đổi tối ưu dẫn ti mt hàm khong  
cách tối ưu bằng cách cực đại hóa tổng phương sai giữa  
các phn tkhác tp mu (âm hoặc dương) và cực tiu  
hóa phương sai ca dliu trong cùng tp mu (âm hoc  
dương).  
chúng ta có hai ảnh trong CSDL là , quá trình trích  
rút đặc trưng sử dụng một mô hình CNN đã được tiền  
huấn luyện trên tập dữ liệu lớn, sau đó sử dụng mô hình  
làm khởi tạo để trích rút đặc trưng mức cao. Quá trình này  
còn được gọi là quá trình học biểu diễn ảnh, tương ứng bộ  
đặc trưng mức cao là . Độ đo tương tự được dùng  
để so sánh giữa hai đặc trưng này là 2:  
푙푎푟푡푦(푥, 푥 ) = ‖푥− 푥 ‖ (1)  
2
Công thc (1) thhiện độ tương tự gia nh Ii Ij, độ  
tương tự càng lớn thì ảnh càng tương tự nhau.  
Độ đo tương tự theo cách tiếp cận thứ (2) để so sánh { }푁  
giữa hai véc tơ đặc trưng của ảnh được tính bởi công thức  
Gistp nh kết qukhi to gm N nh: 푋 =  
푖  
và mt scác ràng buc. Tp nh kết qukhi  
tạo được trvề cho người dùng phn hi liên quan và  
được chia thành hai tp phân bit là tp mu dương  
(positive samples) và mu âm (negative samples). Để đạt  
được mc tiêu DCA, chúng ta cần xác định hai ma trn  
=1  
:  
푙푎푟푡푦(, 푥 )  
̂
̂
= ‖푥− 푥 ‖ = (− 푥 )퐴(− 푥 ) (2)  
phương sai là là khong cách gia các kvng  
ca các lp khác nhau và khong cách gia kvng và  
các mu ca mi lớp. Được tính theo công thc sau:  
Vi ma trn A được hc tquá trình học độ đo tương  
tvới điu kin M là ma trận xác định dương, vì độ tương  
tphải dương, và độ tương tự đạt giá trnhnht khi  
1
2
=  
(− 푚)(− 푚)(3)  
̂
푖∈퐷  
=1  
1
1
= 푥 . Độ đo tương tự trong cách tiếp cn này slà cách  
2
̂
=  
(푗푖 − 푚)(푥 − )(4)  
푗푖  
=1  
=1  
tiếp cn (1) khi ma trn A là mt ma trận đơn vị = 퐼.  
Một cách khác, đó chính là trường hợp đặc bit khi chúng  
ta xem xét đến sự tương quan giữa các thành phần đặc  
trưng trong cách tiếp cn (1). Hơn thế na, mi thành  
phần đặc trưng lại có độ tương tự khác nhau nên thường  
độ đo tương tự ở cách tiếp cn (2) đem li hiu quả hơn.  
Vi là tng số lượng phn tca hai tp, là  
1
tâm ca lp j vi =  
, vi là véc i ca  
푗푖 푗푖  
=1  
lp j, mi là mt lp và trong bài toán này chúng ta có  
2 lp gm tp mẫu dương và tập mu âm.  
Phương pháp đề xut sthc hin xây dng bộ đặc  
trưng dựa vào hc sâu, tk-NN lấy được, phương pháp sẽ  
thc hin hun luyn với mô hình LDA. Sau đó, phương  
pháp sxây dng một độ đo tương tự ci tiến bng cách  
tn dng tp mẫu dương lấy ý tưởng tcách tiếp cn (2)  
để xây dng nên ma trn A trong công thức độ đo tương  
t(2), ma trn M là mt ma trận đầy đủ nó sphn ánh  
được sự tương quan của dliu trên từng đặc trưng và  
giữa các đặc trưng.  
Ý tưởng ca DCA là tìm mt phép biến đổi tuyến tính  
mà đưa ra một hàm khong cách tối ưu bằng vic cực đại  
hóa tng khong cách các kvng ca các lp khác nhau  
và cc tiu hóa tng khong cách các kvng trong cùng  
lp. Quá trình DCA sẽ đưa về bài toán tối ưu như sau:  
̂
|퐴 퐴|  
( )  
= 푎푟푔푚푎푥퐴  
(5)  
̂
퐴|  
|퐴  
Ma trn A là ma trn biến đổi tối ưu mà chúng ta cần  
tìm. Khi tìm được phép biến đổi tối ưu A, chúng ta scó  
được trng stối ưu của hàm khong cách Mahalanobis:  
푀 = .  
Thut toán hc biu diễn đặc trưng ảnh  
(Representation image learning) dưới đây thực hin hc  
biu din nh da vào tin hun luyn mng hc sâu CNN  
thu được tập đặc trưng mức cao. Thut toán nhận đầu vào  
là mt tp các ảnh và mô hình đã tiền hun luyn CNN  
trên bộ ảnh ImageNet.  
Theo lý thuyết Fisher [11,12], bài toán tối ưu (5)  
tương ứng vi vic cực đại hóa tng khong cách các kỳ  
vng ca các lp khác nhau và cc tiu hóa tng khong  
̂
̂
cách các kvng trong cùng lớp, tương ứng là 푤  
[10]. Để tìm được li gii cho bài toán (5), bài báo đề  
xut thut gii sau, thut giải cũng được dùng để gii các  
nghiên cứu trước đây về LDA [22].  
Thut toán 1.1. Thut toán RIL  
(Representation image learning)  
Input: - Tp các nh X = {x1,x2,…,xn} vi xiRm  
- Mô hình tin hun luyn M  
Output: - Tp biu din nh S = {s1,s2,…,sn} vi siRd  
1. Model LoadModel(M);  
2. ∅  
Thut toán 1.2. Discriminative Component Analysis  
Input:  
{ }푁  
- Tp nh 푋 = 푖  
=1  
- Tp các mu (liên quan, không liên quan) Dj =  
3. for i = 1,…,n do  
{푥1, 푥2, … , 푥} , j =1,2.  
3.1. siExtractFeature(xi,Model);  
3.2. 푆 ∪ 푠푖  
Output:  
- Ma trn biến đổi tối ưu A  
SOÁ 03 (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
64  
CI TIẾN ĐỘ CHÍNH XÁC TRA CU NH THÔNG QUA HC SÂU VÀ HỌC ĐỘ ĐO KHOẢNG CÁCH TỐI ƯU  
- Ma trn tối ưu Mahalanobis Mo  
4. RResultInitial(Q);  
5. Repeat  
̂
̂
1. Tính ma trn theo công thc (1.1) và (1.2)  
5.1. < 푓푒푎푡, +푏푒, 퐹>)Feedback ;  
̂
( )  
2. Chéo hóa ma trn sdng eigen analysis:  
푙푎푏푒푙  
Phn hi liên quan  
̂
2.1. Tìm U sao cho: 푈 퐶푈 = ∧; 푈 푈 = 퐼, là  
ma trận đường chéo các thành phn là trriêng ca U;  
5.2. = 푫푪푨(푓푒푎푡, +푏푒, 푏푒); Tìm phép  
biến đổi tối ưu A  
5.3. = ; Trng stối ưu của hàm khong  
̂
2.2. Tìm là k thành phn ca vi các thành phn  
trriêng khác 0  
cách mahalanobis  
̂ ̂ ̂  
2.3. Tìm = 푈 là ma trn vuông cp k là ma  
trn con ca ma trn .  
(
)
5.4. Ranking 푆, , ; Phân hng li tp nh  
theo hàm khong cách Mahalanobis vi btrng số  
tối ưu  
1/2  
̂
̂
2.4. Tìm 푍 = 푈푏  
= 푍 ;  
̂
3. Chéo hóa ma trn sdng eigeinanalysis:  
until (User dng phn hi);  
̂
3.1. Tìm V sao cho: 푉 퐶푉 = ∧; 푉 푉 = 퐼, là  
ma trận đường chéo các thành phn là trriêng ca U;  
6. Return R;  
Thut toán tra cu nh hiu qusdng vi hc biu  
din nh và kết hp vi hàm khong cách ci tiến  
Mahalanobis trên thc hiện như sau:  
3.2. Nếu cn gim chiu, gisschiu mong mun  
r thì chính là r véc tơ cột ca ma trn V mà mi ct là  
̂
véc tơ riêng tương ứng vi giá trriêng nhnht. Tìm  
Mi nh trong tp ảnh DB được hc biu diễn (bước  
1) và được biu din bi mt véc tơ đặc trưng trong  
không gian đặc trưng nhiều chiều. Khi người dùng đưa  
vào nh truy vn khi to Q, thuật toán cũng sử dng  
cùng mt thtục để biu din nh truy vn cùng mt cách  
với cơ sở dliu ảnh để biu diễn thành véc tơ đặc trưng  
̂
̂
̂
= 푉 ; vi 푉 = 푉 =∧.  
1/2  
4. Ta có: A = 푍푉= .  
̂
Thut toán 1.2 thc hiện như sau, ma trận U là ma trn  
̂
chéo hóa ca ma trn phương sai thhin stách bit  
gia hai tp mu liên quan và không liên quan. Sau khi bỏ ảnh truy vn Sq (bước 2). Truy vn khi tạo được thc  
đi các véc tơ với trriêng bng 0, chúng ta có ma trn  
vuông cp k là là ma trận đường chéo vi thành phn  
trên đường chéo là các trriêng khác 0 ca ma trn . Sau  
hin ở bước 3 bi ResultInitial(Q)RetrievalInitial(Sq,푆, ),  
ở đây Sq là biu din ca nh truy vn, S là tp biu din  
ca tp ảnh cơ sở dliu và N là scác ảnh được tra cu  
trong tp S sau mi làn lp. Kết quthc hin tra cu vi  
truy vn khi to ResultInitial(Q) được gán cho R (bước 4).  
̂
đó, thuật toán sthc hin vic tìm phép chiếu 푍 =  
1/2, phép chiếu này làm cho các lp khác nhau có sự  
̂
̂
phân bit ln nht. Tiếp theo, chúng ta tính = 푍 푍  
Trên tp ResultInitial(Q); trvbi truy vn khi to,  
ngưi dùng sthc hin la chn nhng nh phù hp vi  
và tìm ma trn V để chéo hóa ca ma trn . Nếu mun  
̂
gim chiu, gisschiu mong mun là r thì chính là  
( )  
mong mun ca hthông qua hàm Feedback để được  
tập đặc trưng 퐹  
và tp nhãn 퐿푎푏푒= {+푏푒, 퐹−  
}
r véc tơ cột ca ma trn V mà mi cột là véc tơ riêng  
푓푒푎푡푒  
푙푎푏푒푙  
tương ứng vi giá trriêng nhnht. Từ đó, cho chúng ta  
(bước 5.1). Sau đó, thông tin phi hi gm tp phn hi  
liên quan và không liên quan được đưa vào hc DCA  
(bưc 5.2) để tìm ra phép chiếu A bng cách gii bài toán  
tối ưu (5). Kết quca ma trn chiếu này được đưa vào để  
xây dng ma trn trng stối ưu để ci tiến trng sM  
ca hàm khoảng cách Mahalanobis (bước 5.3). Lúc này,  
chúng ta có được hàm khong cách Mahalanobis ci tiến:  
̂
̂
được ma trận đường chéo = 푉 . Cui cùng,  
chúng ta có ma trn biến đổi tối ưu A và ma trn tối ưu  
1/2  
Mahalanobis M: A = 푍푉= .  
̂
3.4. Thut toán tra cu  
Thut toán 1.3 dưới đây là mô tả thut toán tra cu  
nh hiu qusdng vi hc biu din nh da vào hc  
sâu và kết hp vi hàm khong cách ci tiến Mahalanobis  
IRDLoM (Image Retrieval using Deep learning and  
optimal distance metric).  
푙푎푟푡푦(퐹 , 퐹 ) = (퐹 − )(퐹 − )  
Quá trình tra cu sthc hin phân hng li toàn bộ  
tp ảnh trong cơ sở dliu nh bi hàm Ranking  
(
)
푆, 푀, và ly ra N nh làm tp kết qutrvề cho người  
Thut toán 1.3. Thut toán tra cu nh IRDLoM  
Input:  
dùng (bước 5.4).  
IV. ĐÁNH GIÁ THC NGHIM  
A. Cơ sở dữ liệu ảnh  
Tp các nh: DB  
nh truy vn khi to: Q  
Scác nh trvti mi ln lp: N  
Output:  
Để chứng minh hiệu quả của phương pháp đề xuất,  
thực nghiệm tiến hành trên cơ sở dữ liệu ảnh COREL  
gồm 10.800 ảnh. Một số hình được chỉ trong dưới. Trong  
tập cơ sở dữ liệu ảnh COREL, mỗi thư mục gồm 100 ảnh  
tập tin cậy nền gồm 80 khái niệm khác nhau như hoa,  
hoàng hôn, tàu hỏa, xe hơi, xe buýt, bầu trời, biển...Tất cả  
các ảnh trong tập ảnh này có tính chất là đều chứa đối  
tượng nổi bật.  
Tp kết quả đưc tra cu: R  
1. S RIL<DB,M>;  
2. Sq RIL<Q,M>;  
3. ResultInitial(Q)Retrieval Initial (Sq,푆, )  
SOÁ 03 (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
65  
Đào Thị Thúy Qunh  
mạng và xác suất cuối cùng được lấy từ lớp cuối của  
mạng. Tuy nhiên, trong quá trình học biểu diễn, thay vì  
cho phép hình ảnh lan truyền qua toàn bộ mạng, chúng ta  
có thể dừng việc truyền ở một lớp tùy ý, chẳng hạn như  
lớp được kết nối đầy đủ cuối cùng và trích rút các giá trị  
từ mạng tại thời điểm này, sau đó sử dụng chúng như các  
vectơ đặc trưng.  
B. Thực hiện truy vấn và đánh giá  
Trong phn thc nghim, các tham số được la chn  
như sau:  
Hiu qutra cứu được đánh giá trên cơ sở dliu nh  
COREL gm 10.800 nh, tt ccác ảnh trong cơ sở dữ  
liệu được sdụng để thc hin các truy vn. Thc nghim  
thc hiện đánh giá độ chính xác của phương pháp đề xut  
dựa trên độ chính xác trung bình ca 10.800 nh truy vn.  
Mi truy vn thc hin strv100 nh, lý do  
Hình 2.Các mẫu trong cơ sở dữ liệu ảnh được gán nhãn.  
Chúng tôi kết hp một đặc trưng màu 102 chiều và  
mt kết cu 88 chiều để biu din các ảnh. Đặc trưng màu  
được cu to bi mô men màu 6 chiều, lược đồ màu 32  
chiều và tương quan màu 64 chiều. Mô men màu có 6  
chiu là bi vì trong mi kênh màu H, S và V ca không  
gian màu HSV, chúng tôi trích rút hai mô men là color  
mean, color Standard Deviation. Cũng trong không gian  
màu HSV, lược đồ màu được tính toán sdng 8*2*2  
bins. Tương quan màu được to ra bi sdng 4 bin cho  
mỗi kênh (R, G và B) trong không gian RGB. Đặc trưng  
kết cu tích hợp các đặc trưng Gabor và các đặc trưng  
wavelet. Đặc trưng Gabor gồm Mean-squared energy và  
meanAmplitude cho 4 scale và 6 hướng cho ảnh đa cấp  
xám. đặc trưng wavalet 40 chiều gm hai mô men ca  
wavelet là trung bình, độ lch chun. Tóm lại, các đặc  
trưng này được tổ hợp thành một véc tơ đặc trưng có 190  
giá trị (tức 6+32+64+40+48=190). Sau đó, tất cả các  
thành phần đặc trưng được chuẩn hóa thành các phân bố  
chuẩn với trung bình không và độ lệch chuẩn một để biểu  
diễn các ảnh. Các khong cách Euclid của các đặc trưng  
190 chiu gia nh truy vn và các ảnh cơ sở dliệu được  
tính toán mà không sdng biến đổi. Các kết qutra cu  
này được gọi là “Baseline” cho các so sánh.  
chn 100 nh là bởi vì người dùng thường chxem xét  
2 trang màn hình và mi trang màn hình cha 50 ảnh để  
la chn nh phn hi.  
Nhm mục đích đánh giá, bài báo sử dụng độ chính  
xác trung bình để đánh giá hiệu quvà so sánh vi các  
phương pháp khác. Độ chính xác trung bình là tlca số  
nh liên quan trong danh sách trvề cho người dùng và  
được tính toán bi trung bình tt ccác truy vấn. Độ  
chính xác trung bình là tiêu chí đánh giá chính dùng để  
đánh giá độ chính xác so với các phương pháp khác. Độ  
lch chuẩn dùng để đo lường độ biến thiên ca độ chính  
xác trung bình.  
C. So sánh độ chính xác trung bình của phương pháp  
đề xuất  
Trong thc nghiệm, phương pháp đề xut được so  
sánh vi năm phương pháp tra cứu nh sdụng các độ đo  
khong cách khác nhau: (1) Euclid: thc hin tra cu nh  
dựa vào độ đo khoảng cách Euclid (2) Euclid ci tiến:  
thc hin tra cu nh dựa vào độ đo khoảng cách Euclid  
có ci tiến trng sca tng chiều đặc trưng; (3) RCA:  
thc hin tra cu với độ đo khoảng cách RCA được ci  
tiến từ độ đo khoảng cách Mahalanobis [8]; (4) MCML:  
thc hin tra cu nh với độ đo khoảng cách MCML  
được cải tiến từ độ đo khoảng cách Mahalanobis mà bộ  
trong số là kết quả của việc biến đổi dữ liệu với các ràng  
buộc nhãn và (5) phương pháp đề xut IRDLoM thc  
hin tra cu trên bộ đặc trưng học sâu kết hp vi hàm  
khong cách mahalanobis ti ưu.  
Bên cạnh đó, như đã trình bày ở phần trước, hầu hết  
các hệ thống CBIR đều phụ thuộc chủ yếu vào cách biểu  
diễn đặc trưng hình ảnh. Tuy nhiên với một hệ thống  
CBIR thông thường chỉ quan tâm đến cách biểu diễn ảnh  
bằng cách trích rút các đặc trưng toàn cục hoặc cục bộ  
một cách thủ công dẫn đến hiệu năng của hệ thống nghèo  
n. Do đó, chúng tôi sử dụng kỹ thuật học sâu học biểu  
diễn ảnh sử dụng mạng học sâu CNN tạo ra các đặc trưng  
mức cao từ hình ảnh.  
Bảng I. So sánh độ chính xác trung bình của 5 phương  
pháp tại các mức Top-50, Top-100 sau 1 lần lặp phản  
hồi.  
Trong phương pháp đề xuất, chúng tôi sử dụng một  
mô hình CNN, có tên AlexNet [26], đã được tiền huấn  
luyện trên một tập dữ liệu rất lớn trên tập ImageNet, sau  
đó sử dụng mô hình làm khởi tạo để trích rút đặc trưng  
mức cao, còn được gọi là học biểu diễn ảnh. Mạng  
AlexNet có cấu trúc tương đối đơn giản, bao gồm 5 lớp  
tích chập và 3 lớp kết nối đầy đủ với các lớp giữa là các  
lớp lấy mẫu và ReLU, được huấn luyện song song trên hai  
card đồ họa GPU. Để phù hợp với bài toán tra cứu ảnh,  
chúng tôi chọn lớp FC 8 để trích rút các véc tơ để cho ra  
véc tơ đặc trưng có số chiều là 1000.  
Eclid  
Average  
Eucli  
d
MCM IRDLo  
RCA  
cải  
tiến  
L
M
prec.  
Top  
50  
prec.  
18.87  
%
26.01  
%
62.32  
%
66.32  
%
64.02%  
Lý do chính chúng tôi chọn cách này là tương đối  
hiếm khi chúng ta có một bộ dữ liệu đủ lớn để huấn luyện  
toàn bộ CNN từ đầu; ngoài ra, huấn luyện một mô hình  
CNN từ đầu sẽ mất rất nhiều thời gian. Các CNN thông  
thường được dùng cho các bài toán mang nhiệm vụ phân  
loại hình ảnh trong đó một hình ảnh được lan truyền qua  
Top  
100  
prec.  
19.01  
%
26.08  
%
66.89  
%
63% 64.05%  
Như được chỉ ra trên Bảng I, phương pháp của chúng  
tôi cho độ chính xác cao gơn hẳn các phương pháp còn  
SOÁ 03 (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
66  
CI TIẾN ĐỘ CHÍNH XÁC TRA CU NH THÔNG QUA HC SÂU VÀ HỌC ĐỘ ĐO KHOẢNG CÁCH TỐI ƯU  
[12] S. Mika, G. Ratsch, J. Weston, B. Scholkopf, and K.  
Muller. Fisher discriminant analysis with kernels. In Proc.  
IEEE NN for Signal Processing Workshop, pages 4148,  
1999.  
lại. Lý do của điều này là bộ đặc trưng sâu trong phương  
pháp đề xuất đã bao gồm tính ngữ nghĩa của của ảnh và  
hàm khoảng cách của phương pháp đề xuất đã phản ảnh  
được khoảng cách thích hợp của các ảnh có chung một  
chủ đề.  
[13] M. Guillaumin, J. J. Verbeek, and C. Schmid. Is that you?  
metric learning approaches for face identification. In ICCV,  
pages 498505, 2009.  
V. KT LUN  
Bài báo này trình bày phương pháp IRDLoM, mt  
kthut tra cu nh hiu qucho ci tiến hiệu năng của  
các hthng tra cu ảnh đa điểm. IRDLoM tn dng tt  
thông tin của người dùng thông qua tp mu phn hi liên  
quan và không liên quan thc hin hc mt phép chiếu ti  
ưu nhằm mục đích phân tách các nh không liên quan và  
các nh liên quan gần nhau hơn. Từ đó, tìm ra được ma  
trn trng stối ưu của hàm khong cách Mahalanobis và  
sdng hàm khong cách ci tiến này thc hin phân  
hng toàn btp ảnh cơ sở dliu và trvtp nh kết  
qucho người dùng. Thc hin thc nghim IRDLoM  
vào một cơ sở dliu gm 10800 nh minh chng rng  
IRDLoM cung cấp độ chính xác cao hơn hẳn so vi các  
phương pháp Euclid, phương pháp Euclid ci tiến,  
phương pháp RCA [8] và phương pháp MCML [4].  
[14] J.-E. Lee, R. Jin, and A. K. Jain. Rank-based distance  
metric learning: An application to image retrieval. In  
CVPR, 2008.  
[15] A. S. Mian, Y. Hu, R. Hartley, and R. A. Owens. Image set  
based face recognition using self-regularized non-negative  
coding and adaptive distance metric learning. IEEE  
Transactions on Image Processing, 22(12):52525262,  
2013.  
[16] Z. Wang, Y. Hu, and L.-T. Chia. Learning image-to-class  
distance metric for image classification. ACM TIST,  
4(2):34, 2013.  
[17] K. Q. Weinberger, J. Blitzer, and L. K. Saul. Distance  
metric learning for large margin nearest neighbor  
classification. In NIPS, 2005.  
[18] G. Chechik, V. Sharma, U. Shalit, and S. Bengio. Large  
scale online learning of image similarity through ranking.  
Journal of Machine Learning Research, 11:11091135,  
2010.  
TÀI LIU THAM KHO  
[1] Andre B, Vercauteren T, Buchner AM, Wallace MB,  
Ayache N (2012). Learning semantic and visual similarity  
for endomicroscopy video retrieval. IEEE Transactions on  
Medical Imaging. 31(6):127688.  
[19] D. T T Quynh, N H Quynh, PV Canh, NQ Tao, An efficient  
semantic –  
Related image retrieval method, Expert  
Systems with Applications, Volume 72, pp. 30-41, 2017.  
[20] E. Xing, A. Ng, and M. Jordan. Distancemetric learning  
with application to clustering with side-information. In  
NIPS, 2002.  
[2] Ruigang Fu, Biao Li, Yinghui Gao, Ping Wang, (2016).  
Content-Based Image Retrieval Based on CNN and SVM,  
2nd IEEE International Conference on Computer and  
Communications, 638-642.  
[21] Flickner, M., Sawhney, H., Niblack, W., et al., (1995).  
Query by image and video content: The QBIC system.  
IEEE Computer Magazine 28 (9), 2332.  
[3] Monique Laurent, Franz Rendl, "Semidefinite Programming  
and Integer Programming", Report PNA-R0210, CWI,  
Amsterdam, April 2002.  
[22] A. Pentland, R. W. Picard, and S. Sclaroff (1996).  
Photobook: content-based manipulation for image  
databases.International Journal of Computer Vision,  
18(3):233254.  
[4] A. Globerson and S. Roweis. Metric learning by collapsing  
classes. Advances in Neural Information Processing  
Systems, 18:451, 2006.  
[23] M. Ortega-Binderberger and S. Mehrotra (2004). Relevance  
feedback techniques in the MARS image retrieval systems.  
Multimedia Systems, 9(6):535547.  
[5] K. Weinberger, J. Blitzer, and L. Saul. Distance metric  
learning for large margin nearest neighbor classification.  
Advances in Neural Information Processing Systems,  
18:1473, 2006.  
[24] I. J. Cox, M. L. Miller, T. P. Minka, T. V. Papathomas, and  
P. N.Yianilos (2000). The Bayesian image retrieval system,  
PicHunter: theory, implementation, and psychophysical  
experiments. IEEE Transactions on Image Processing,  
9(1):2037.  
[6] A. Bar-Hillel, T. Hertz, N. Shental, and D. Weinshall.  
Learning distance functions using equivalence relations. In  
ICML, pages 1118, 2003.  
[7] J. Wan,D. Wang,S. C. H. Hoi, and et al,"Deep learning for  
contentbased image retrieval: A comprehensive study,"  
ACM International Conference on Multimedia,pp. 157-  
166,2014.  
[25] C. Carson, S. Belongie, H. Greenspan, and J. Malik (2002).  
Blobworld: image segmentation using expectation-  
maximization and its application to image querying. IEEE  
Transactions on Pattern Analysis and Machine Intelligence,  
24(8):10261038, 2002.  
[8] A. Bar-Hillel, T. Hertz, N. Shental, and D. Weinshall,  
Learning  
a
Mahalanobis Metric from Equivalence  
[26] Krizhevsky, A., Sutskever, I., & Geoffrey E., H. (2012).  
ImageNet Classification with Deep Convolutional Neural  
Networks. Advances in Neural Information Processing  
Systems 25 (NIPS2012), 19.  
Constraints, in Journal of Machine Learning Research  
(JMLR), 2005.  
[9] C. Domeniconi, J. Peng, and D. Gunopulos. Locally adaptive  
metric nearest-neighbor classification. IEEE Trans. Pattern  
Anal. Mach. Intell., 24(9):12811285, 2002  
[26] J. Z. Wang, J. Li, and G. Wiederhold, ( 2001).  
“SIMPLIcity: Semantics-Sensitive Integrated Matching for  
Picture Libraries,” IEEE Transactions on Pattern Analysis  
and Machine Intelligence (TPAMI), vol. 23, no. 9, pp. 947-  
963.  
[10] Q. Liu, H. Lu, and S. Ma. Improving kernel fisher  
discriminant analysis for face recognition. IEEE Trans. on  
Circuits and Systems for Video Technology, 14(1):4249,  
2004.  
[11] G. McLachlan. Discriminant Analysis and Statistical  
Pattern Recognition. John Wiley, 1992.  
SOÁ 03 (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
67  
Đào Thị Thúy Qunh  
IMPROVE THE EFFECTIVENESS OF CONTENT-  
BASED IMAGE RETRIEVAL BY COMBINING  
DEEP LEARNING AND THE OPTIMAL  
DISTANCE FUNCTION  
Abstract: Effective image representation and similarity  
measurement between two images are two important  
issues in improving the performance of a content-based  
image retrieval system. Deep learning has attracted the  
attention of researchers in the issue of effective image  
representation. Meanwhile, the problem of measuring the  
effective  
similarity  
towards  
learning  
distance  
measurement has an advantage. In this paper, we propose  
an image retrieval method, called IRDLoM (Image  
Retrieval using Deep learning and optimal distance  
metric). Method of representing images by deep features  
and measuring the similarity between two images by  
learning a measure of distance. The experimental results  
on the Corel photobook have proved the accuracy of the  
proposed method.  
Đào Thị Thúy Quỳnh nhận học vị  
tiến sĩ Má y tí nh, chuyên ngành Khoa  
học máy tính tại Học viện Khoa học  
và Công nghệ, Viện hàn lâm Khoa  
học và Công nghệ Việt Nam. Hiện  
nay, là giảng viên Khoa Công nghệ  
thông tin 1, Học viện Công nghệ Bưu  
chính Viễn thông.  
Lĩnh vực nghiên cứu: Trí tuệ nhân tạo, học máy, xử lý  
ảnh, tra cứu ảnh dựa vào nội dung.  
SOÁ 03 (CS.01) 2020  
TAÏP CHÍ KHOA HOÏC COÂNG NGHEÄ THOÂNG TIN VAØ TRUYEÀN THOÂNG  
68  
pdf 7 trang yennguyen 08/04/2022 4980
Bạn đang xem tài liệu "Cải tiến độ chính xác tra cứu ảnh thông qua học sâu và học độ đo khoảng cách tối ưu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfcai_tien_do_chinh_xac_tra_cuu_anh_thong_qua_hoc_sau_va_hoc_d.pdf