Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân

Vietnam J. Agri. Sci. 2021, Vol. 19, No. 4: 497-506  
Tp chí Khoa hc Nông nghip Vit Nam 2021, 19(4): 497-506  
TÌM KIM NH THEO NI DUNG DA TRÊN MNG RON TÍCH CHP  
PHƯƠNG PHÁP SINH MÃ NHPHÂN  
Nguyn ThHuyn*, Trn ThThu Huyn, Thị Lưu  
Khoa Công nghthông tin, Hc vin Nông nghip Vit Nam  
*Tác giliên h: nthuyen@vnua.edu.vn  
Ngày nhn bài: 20.07.2020  
Ngày chp nhận đăng: 02.09.2020  
TÓM TT  
Tìm kiếm nh theo ni dung là hướng nghiên cứu đang được quan tâm trong những năm gần đây vì phương  
pháp tìm kiếm này có thkhc phục nhược điểm của phương pháp tìm kiếm dựa trên văn bản mô tlà không bị ảnh  
hưởng bi sthiếu hoc sai của văn bản kèm theo nh. Bên cạnh đó, các phương pháp học sâu như mạng nơron  
tích chập đã chứng minh được khả năng xử lý dliu ln đặc biệt trong lĩnh vực thgiác máy tính và xnh. Mc  
tiêu ca nghiên cu này là gii bài toán tìm kiếm nh theo ni dung và phương pháp để gim thi gian truy vn nh  
sdng mạng nơtron tích chập. Đồng thi, chúng tôi kết hợp phương pháp này vi phương pháp sinh mã nhị phân  
để ci thin thi gian truy vn nh. Kết quthc nghim trên hai bdliu cifar-10 và mnist cho thy vic sdng  
mạng nơron tích chập kết hợp phương pháp sinh mã nhị phân trong tìm kiếm ảnh đạt độ chính xác xp x89% và  
98% và ci thiện đáng kể thi gian truy vn nh.  
Tkhóa: Tìm kiếm nh theo ni dung, mạng nơron tích chp, sinh mã nhphân.  
Content-based Image Retrieval with Convolutional Neural Networks  
and Binary Hashing Method  
ABSTRACT  
Content-based image retrieval has received great attention in recent years because this method overcomes the  
disadvantages of the text-based image retrieval that is not affected by the lack of or wrong of the text attached to the  
image. In addition, deep learning methods such as convolutional neural networks have demonstrated their ability to  
process large-sized data, especially computer vision and image processing. The aims of this study was develop a  
content-based image retrieval program and method to reduce image query time using the convolutional neural  
network (CNN). Also, we combined CNN with a binary hashing method to improve image retrieval time. The  
experimental results on CIFAR-10 and MNIST data sets showed that combining CNN with the binary hashing method  
for content-based image retrieval achieved an accuracy of approximately 89% on CIFAR-10, 98% on MNIST and  
significantly improved retrieval time.  
Keywords: Content-based image retrieval, CBIR, convolutional neural networks, CNN, binary hashing.  
ca Tp đoàn dliu thế gii IDC năm 2016,  
thế gii đã to ra 1.138 nghìn thình nh, gp  
hơn 700 ln so vi năm 2015 (Photoindustrie-  
Verband e.V, 2016). Theo báo cáo vchia sẻ ảnh  
trên toàn cu, Brandwatch đã tính toán rng  
mi ngày có 350 triu hình nh được chia squa  
Facebook, 95 triu hình nh được chia squa  
Instagram, 400 triu trên Snapchat và 1,6 tỷ  
hình nh trên WhatsApp (Văn Thế Thành & Lê  
Mnh Thnh, 2016).  
1. ĐẶT VẤN ĐỀ  
Ngày nay, vi sphát trin vượt tri ca  
công nghkthut svà sphbiến rng rãi  
các thiết bquay phim, chp nh dn đến kho  
dliu hình nh vnhiu lĩnh vc khác nhau  
như: y khoa, hthng thông tin địa lý, thư vin  
s, giáo dc đào to, gii trí, mng xã hội„ cũng  
tăng theo mt cách nhanh chóng. Theo báo cáo  
497  
Tìm kiếm nh theo ni dung da trên mng ron tích chp và phương pháp sinh mã nhphân  
Vì vy, nhu cu tìm kiếm nh hay truy xut  
dliu nh là mt nhu cu tt yếu, và là mt  
trong nhng lĩnh vc nghiên cu thu hút sự  
quan tâm nht hin nay. Tìm kiếm nh hiu  
mt cách bn là tìm nhng nh trong sdữ  
liu nh có liên quan đến mt nh truy vn  
(query) cth. Hình 1 mô tả sơ lược quá trình  
tìm kiếm nh. Bài toán tìm kiếm nh được chia  
thành hai lp chính (Văn Thế Thành, 2017):  
Thnht là tìm kiếm nh da trên văn bn  
TBIR (Text-Based Image Retrieval). Phương  
pháp này mt nhiu thi gian để mô tchmc  
ca hình nh dưới dng văn bn, có nhiu hn  
chế vì tính chquan ca con ngưi và kết quả  
tìm kiếm skhông chính xác khi các mô tnày  
bsai sót hoc không tn ti. Ví d, Google  
Images Search là mt trong các công ctìm  
kiếm nh được sdng phbiến nht hin nay.  
Công cnày cho phép người sdng nhp các  
tkhóa liên quan đến nh cn tìm và thc hin  
vic tìm kiếm thông qua vic phân tích các  
meta-data và văn bn đi kèm vi nh. Phương  
pháp này cho kết quả tương đối tt, đáp ứng  
nhu cu bn ca ngưi sdng. Tuy nhiên,  
các kết qutrvskhông đúng vi yêu cu  
đặt ra khi các meta-data đi kèm vi nh bị  
thiếu hoc sai sót và khi nhng tkhóa truy  
vn mang ý nghĩa nhp nhng (Lê Minh Phúc &  
Trn Công Án, 2017). Thhai là tìm kiếm nh  
da trên ni dung CBIR (Content-Based Image  
Retrieval), tc là tìm tp hình nh có ni dung  
tương tvi hình nh cho trước. Phương pháp  
CBIR thc hin tìm kiếm da trên đặc trưng thị  
giác ca hình nh, do đó vượt qua được hn chế  
ca phương pháp tìm kiếm TBIR. Vi phương  
pháp CBIR, chai vn đề trích xut tự động các  
đặc trưng thgiác và phương pháp đánh giá độ  
tương tgia hai nh đều đóng vai trò quan  
trng, quyết định hiu qutìm kiếm. Vvn đề  
thnht, phương pháp tìm kiếm nh theo ni  
dung “truyền thống” thường da vào các đặc  
trưng trc quan như màu sc, kết cu, hình  
dng, đặc trưng cc bộ được rút trích từ ảnh; do  
đó rt nhiu hthng truy vn nh da trên ni  
dung đã ra đời như: QBIC, VisualSeek,  
WebSeek và BlobWorld... (Văn Thế Thành,  
2017). Phương pháp này có hn chế là khó xác  
định và chn ra được nhng đặc trưng đại din  
cho nh để vic tìm kiếm đạt kết qutt.  
Nhng năm gn đây, các phương pháp hc  
sâu (Deep Learning) trong đó có mng nơron  
tích chp (CNN) đã đạt được thành công to ln  
trong xlý dliu kích thước ln. Nó đã được  
chng minh là rt hiu qutrong lĩnh vc thị  
giác máy tính và xnh như: phát hin ngưi  
đi b(Luo và cng s, 2014), phát hin khuôn  
mt (Li & cs., 2015), phân loi hình nh  
(Ciressan & cs., 2012), tự động tô màu hình nh  
(Cheng, 2015)và gn đây các phương pháp  
da trên Deep Learning như CNN đã được áp  
dng vào bài toán tìm kiếm nh. Lecun & cs.  
(1998) đã đề xut mng nơron tích chp LeNet-  
5 sdng để nhn biết các chcái viết tay, và  
đã cho thy đó là mt thut toán rt thành  
công. Sau đó, Krizhevsky & cs. (2012) đã ci  
thin thut toán mng nơron tích chp, sdng  
đầu ra ca lp th7 làm đặc trưng để truy vn  
hình nh và đã đạt được kết qutt trên tp dữ  
liu ImageNet. Babenko & cs. (2014) đã nghiên  
cu phương pháp ci thin hiu sut truy vn  
nh bng cách sdng PCA để nén các đặc  
trưng được trích chn nhCNN. Mc dù các  
công trình ca Krizhevsky & cs. (2012) và  
Babenko & cs. (2014) cho thy khi sdng CNN  
vào vic truy vn nh cho độ chính xác cao  
nhưng vic đối sánh các nh được thc hin  
trong không gian Euclide dn đến chưa hiu  
quvthi gian tính toán, trong khi yêu cu  
đặt ra vi mt hthng tìm kiếm nh là phi  
đưa ra kết qunhanh chóng.  
Xut phát tnhng vn đề nêu trên, trong  
bài báo này, chúng tôi sgii thiu vmng  
nơron tích chp (CNN) và phương pháp da  
trên mng nơron tích chp để trích chn đặc  
trưng ảnh (gi là đặc trưng CNN) sau đó tiếp  
tc thc hin vic sinh mã nhphân (binary  
hashing) để biến các đặc trưng này thành 1  
véctơ nhphân có độ dài nh, véctơ này được  
gi là mã nhphân (hash code). Sau khi có  
được mã nhphân cho tng bc nh, vic tính  
toán sự tương đồng gia các bc nh strnên  
đơn gin hơn vì schiu thp hơn và chphi  
làm vic vi các toán tnhphân đơn gin, từ  
đó ci thin được tc độ tìm kiếm.  
498  
Nguyn ThHuyn, Trn ThThu Huyn, Thị Lưu  
Ly các nh được tra  
cứu tương ứng từ  
CSDL nh  
CSDL nh  
Sp xếp độ tương tự  
theo chiu gim dn  
Trích chn  
đặc trung  
nh truy vn  
Xác định độ tương tự  
gia nh truy vn và  
các nh trong CSDL  
dựa trên đặc trưng ảnh  
Trích chn  
đặc trung  
CSDL  
đặc trưng ảnh  
Ghi chú: CSDL: sdliu.  
Hình 1. Quá trình tìm kiếm nh  
Hình 2. Hình nh minh ha bdliu CIFAR-10  
còn li được dùng cho kim tra (test). Đây là mt  
2. PHƯƠNG PHÁP NGHIÊN CỨU  
bộ cơ sdliu tương đối khó vì nh nhđối  
tượng trong cùng mt lp cũng biến đổi rt nhiu  
vmàu sc, hình dáng, kích thước.  
2.1. Vt liu  
2.1.1. Dliu nh  
Bdliu MNIST do Lecun & cs. (1998) xây  
dng là sdliu bao gm các nh đa mc  
xám ca 10 chsviết tay t0 đến 9 đã được  
chun hóa vkích thước 28 × 28 pixel. Bộ ảnh  
gm 60.000 nh dùng để hun luyn (train), và  
10.000 nh còn li được dùng cho kim tra (test).  
Bdliu CIFAR-10 do Krizhevsky & cs.  
(2009) thu thp gm 10 lp đối tượng: plane, car,  
bird, cat, deer, dog, frog, horse, ship và truck,  
mi lp gm 6.000 nh màu có kích thước 32 × 32  
pixel. Tng scó 60.000 nh trong đó 50.000 nh  
được sdng cho hun luyn (train), 10.000 nh  
499  
Tìm kiếm nh theo ni dung da trên mng ron tích chp và phương pháp sinh mã nhphân  
Hình 3. Hình nh minh ha bdliu MNIST  
đủ (Fully connected). Ssp xếp vsố lượng và  
thtgia các lp này sto ra nhng mô hình  
khác nhau phù hp cho các bài toán khác nhau.  
2.1.2. Công cụ  
Chúng tôi sdng máy tính cài hệ điều  
hành Windows 64-bit, Intel, Corei5-5200U,  
CPU@2.20GHz, ngôn nglp trình  
a. Lp Convolution  
Matlab2016a, thư vin Caffe CNN (Jia, 2014).  
Lp Convolution (Conv) là lp quan trng  
nht trong cu trúc ca CNN. Hình 4 mô tlý  
thuyết và cách thc Conv hot động trên mt dữ  
liu đầu vào được biu din bng mt ma trn  
hai chiu. Phép tính này được thc hin bng  
cách dch chuyn mt ca smà ta gi là blc  
(hay kernel) trên ma trn đầu vào, trong đó kết  
qumi ln dch chuyn được tính bng tng  
tích chp (tích ca các giá trgia 2 ma trn ti  
vtrí tương ứng), trong hình 4 là giá trị đầu ra  
khi dch chuyn blc có kích thước [3 × 3] trên  
toàn bma trn đầu vào có kích thước [7 × 7].  
2.2. Phương pháp nghiên cứu  
2.2.1. Mạng nơron tích chp  
Vi mng nơron truyn thng (ANN) thông  
thường: nhn đầu vào là mt véctơ và chuyn  
đổi nó thông qua mt lot các lp n. Mi lp n  
bao gm mt tp các -ron, trong đó mi nơron  
được kết ni đầy đủ vi tt ccác nơron trong  
lp trước và các nơron trong mt lp không có  
bt kkết ni nào vi nhau. Lp được kết ni  
đầy đủ cui cùng được gi là lp đầu ra. Như  
vy, vi tp dliu gm các hình nh có kích  
thước [200 × 200 × 3], mi nơron trong lp n  
đầu tiên ca mng scó 200 × 200 × 3 = 120.000  
trng skết ni. Điều này gây khó khăn cho vic  
hun luyn ANN trên chai yếu t: chi phí để  
xây dng dliu hun luyn ln và thi gian  
hun luyn lâu.  
Trong trường hp tng quát, hình nh có  
kích thước [W1 × H1 × D1], sdng K blc có  
kích thước [F × F], trong quá trình xlý sdch  
chuyn các blc trên toàn bộ ảnh vi bước dch  
chuyn (stride) S (S được tính bng pixel).  
Trong mt số trường hp để cân bng gia số  
bước dch chuyn và kích thưc ca nh ngưi ta  
có thchèn thêm P pixel vi mt giá trcho  
trước (thưng là 0) xung quanh vin ca nh khi  
đó ta được ma trn đầu ra (feature map) là  
[W2 × H2 × D2] trong đó:  
Tthc tế đó, mng CNN ra đời vi ý tưởng  
chính là mi nơron chcn kết ni ti mt vùng  
cc bca nh thay vì trên toàn bộ ảnh. Về cơ  
bn CNN là mt kiu mng ANN truyn thng,  
trong đó kiến trúc chính gm nhiu thành phn  
được ghép ni vi nhau theo cu trúc nhiu lp  
đó là: Convolution, ReLU, Pooling và liên kết đầy  
W2 = (W1 F + 2P)/S + 1  
H2 = (H1 F + 2P)/S + 1  
D2 = K  
500  
Nguyn ThHuyn, Trn ThThu Huyn, Thị Lưu  
Hình 4. Minh hoa phép nhân chp  
Hình 5. Lp nhân chp thc hin nhân chp ảnh đầu vào có kích thước [227×227×3] vi 96  
blọc có kích thước [11×11×3], bước dch chuyn S = 4 pixel và P = 0. Tương ứng vi mi bộ  
lc scho một feature map có kích thước là W2 = H2 = (227 11)/4 +1 = 55 kết quả đầu ra  
Lược đồ chia stham số được sdng trong  
các lp tích chp để kim soát số lượng tham s.  
Ví dtrong lp tích chp hình 3, có 55 × 55 ×  
96 = 290.400 nơron, mi nơron có 11 × 11 × 3 =  
363 trng skết ni và 1 bias. Như vy có  
290.400 × 364 = 105.705.600 tham s. Rõ ràng,  
con snày rt ln. Chúng ta có thgim đáng  
ksố lượng tham sbng cách sdng cùng bộ  
trng svà bias cho các nơron trong cùng  
feature map. Vi lược đồ chia stham snày,  
lp Conv trong ví dca chúng ta bây gichcó  
96 btrng s, vi tng s96 × 11 × 11 × 3 =  
34,848 hoc 34.944 tham s(96 bias).  
b. Lp ReLU  
Lp ReLU thường được cài đặt ngay sau lp  
Conv. Lp này sdng hàm kích hot f(x) =  
max(0,x). Nói mt cách đơn gin, lp này có  
nhim vchuyn toàn bgiá trâm trong kết  
quly tlp Conv thành giá tr0. Ý nghĩa ca  
501  
Tìm kiếm nh theo ni dung da trên mng ron tích chp và phương pháp sinh mã nhphân  
cách cài đặt này chính là to nên tính phi tuyến  
cho mô hình. Có rt nhiu cách để khiến mô  
hình trnên phi tuyến như sdng các  
hàm kích hot sigmoid, tanh,„ nhưng hàm  
f(x) = max(0,x) dcài đặt, tính toán nhanh mà  
vn hiu qu(Krizhevsky & cs., 2012).  
d. Lp liên kết đầy đủ  
Liên kết đầy đủ là cách kết ni các nơron ở  
hai lp vi nhau trong đó lp phía sau kết ni  
đầy đủ vi các nơron ở lp phía trước nó. Đây  
cũng là dng kết ni thưng thy ANN, trong  
CNN lp này thường được sdng các lp  
phía cui ca kiến trúc mng.  
c. Lp Pooling  
Lp này sdng mt ca sổ trượt quét qua  
toàn bộ ảnh, mi ln trưt theo mt bước dch  
chuyn cho trước. Khác vi lp Conv, lp Pooling  
không tính tích chp mà thc hin ly mu. Khi  
ca sổ trượt trên nh, chcó mt giá trị được  
xem là giá trị đại din cho thông tin nh ti  
vùng đó (giá trmu) được gili. Các phương  
thc ly mu phbiến trong lp Pooling là  
MaxPooling (ly giá trln nht), MinPooling  
(ly giá trnhnht) và AveragePooling (ly giá  
trtrung bình).  
2.2.2. Ứng dụng mạng nơron tích chp vào  
bài toán tìm kiếm nh  
Như đã đề cp ở trên, phương pháp tìm  
kiếm nh theo nội dung “truyền thống” thường  
da vào các đặc trưng trực quan như màu sc,  
kết cu, hình dạng, đặc trưng cục bộ được rút  
trích từ ảnh và thường không hiu qutrong  
mt số trường hp. Ví dụ, lược đồ màu có thể  
được dùng để miêu tả đặc trưng màu ca mt  
nh. Tuy nhiên, hn chế chính của lược đồ màu  
chưa tận dụng được thông tin không gian ca  
các vùng ảnh. Điều này có thdẫn đến các sai số  
không mong muốn như minh họa trong hình 7,  
hai nh có cấu trúc khác nhau nhưng có lược đồ  
màu ging nhau, hoặc trong trường hp nh bị  
lệch như minh họa trong hình 8.  
Vi ma trn đầu vào có kích thước [W1 × H1  
× D1], thc hin toán tpooling trên ca scó  
kích thước [F×F] vi bước dch chuyn S pixel ta  
được ma trn đầu ra [W2 × H2 × D2] trong đó:  
W2 = (W1F)/S + 1  
H2 = (H1 F)/S + 1  
D2 = D1  
Trong khi đó sdng đặc trưng được trích  
chn bi CNN có thkhc phc được nhng hn  
chế nêu trên do sdng các blc vi kích thước  
khác nhau trượt trên nh, do đó to ra được  
nhiu dliu hơn.  
Hình 6 là ví dminh ha vsdng toán  
tpooling. Trong đó, hình 6(a) phía bên trái là  
cách thc lp pooling xđối vi mt đầu vào  
có kích [224 × 224 × 64], ca scó kích thước [2  
× 2], bước dch chuyn S = 2 khi đó đầu ra thu  
được có kích thước [112 × 112 × 64]. Hình 6(b)  
phía bên phi mô tchi tiết cách thc hot động  
ca max-pooling vi F = 2, S = 2.  
a. Kiến trúc mng CNN  
Chúng tôi sdng mô hình CNN do  
Krizhevsky & cs. (2012) đề xut, mô hình này  
được cung cp sn trong thư vin Caffe CNN  
(Jia, 2014).  
Hình 6. Ví dvsdng toán tpooling  
502  
Nguyn ThHuyn, Trn ThThu Huyn, Thị Lưu  
Ngun: Văn Thế Thành, 2017.  
Hình 7. Hai ảnh khác nhau nhưng có cùng lược đồ màu  
Hình 8. S8 các vtrí khác nhau trong nh  
Hình 9. Mô hình mng CNN do Krizhevsky và các cng s(2012) đề xut  
Trong kiến trúc trên, lp nhân chp thứ  
nht thc hin lc nh đầu vào có kích thước  
[227 × 227 × 3] bi 96 blc có kích thước [11 ×  
11 × 3] vi bước dch chuyn S = 4 pixel, P = 0  
kết quthu được đầu ra có kích thước [55 × 55 ×  
96]. Lp nhân chp thhai thc hin lc đầu  
vào có kích thước [55 × 55 × 96] bi 256 blc có  
kích thước [5 × 5 × 96] vi bước dch chuyn  
S = 1 pixel, P = 2 và thu được đầu ra có kích  
thước [27 × 27 × 256]. Tương tvi các lp nhân  
chp khác. Các lp pooling sdng toán tử  
maxpooling vi ca scó kích thước [3 × 3] và  
bước dch chuyn S = 2.  
là khong cách Euclidean giữa hai véctơ đặc  
trưng tương ứng ca chúng.  
Si Vq ViP  
(1)  
Khong cách Euclidean càng nhthì mc  
độ ging nhau ca hai nh càng cao. Da vào  
khong cách này có thể xác định được top k hình  
nh ging vi nh truy vn nht.  
b. Nâng cao hiu qutìm kiếm nh  
Vic sdng đầu ra ca lp FC7 làm véctơ  
đặc trưng cho thy kết qutìm kiếm nh tt.  
Tuy nhiên, nó không hiu qutrong hthng  
tìm kiếm nh vi sdliu ln do vic tính  
khong cách Euclidean trên các véctơ chiu cao  
mt nhiu thi gian. Để ci thin thi gian truy  
xut hình nh, mt cách đơn gin là chuyn đổi  
các vectơ đặc trưng ca nh thành dng nhị  
phân. Khi đó vic so sánh độ ging nhau ca hai  
hình nh có thể được thc hin nhanh chóng  
bng cách sdng khong cách Hamming.  
Sau khi mng được hun luyn, đầu ra ca  
lp FC7 được sdng như véctơ đặc trưng ca  
nh và được sdng cho bài toán tìm kiếm nh.  
Vi nh truy vn Iq và tp sdliu nh P,  
gi Vq và  
V
P tương ứng là các véctơ đặc trưng  
i
ca nh truy vn Iq và ca nh Ii trong tp P.  
Chúng tôi xác định mức độ tương tự gia Iq và Ii  
503  
Tìm kiếm nh theo ni dung da trên mng ron tích chp và phương pháp sinh mã nhphân  
Hình 10. Mô hình mng CNN sau khi chèn lp n H  
và tng nh trong tp train, sau đó ly ra 1.000  
Để thc hin ý tưởng này, chúng tôi chèn  
thêm mt lp n H sau lp FC7 và lp ra FC8 là  
phân loi softmax ng vi 10 lp dliu để phù  
hp vi các bdliu mà chúng tôi sdng để  
thc nghim. Các nơron trong lp H được kết  
ni đầy đủ vi các nơron ở lp trước và lp sau  
được kích hot bi hàm truyn sigmoid. Các  
trng sliên kết tlp thnht đến lp FC7  
được ly tmng CNN đã được hun luyn  
trước đó, trng skết ni tlp FC7 ti lp H và  
tlp H đến lp FC8 ban đầu được khi to  
ngu nhiên và được cp nht trong quá trình  
hun luyn mng.  
nh có độ đo tương tcao nht để đánh giá độ  
chính xác ca vic tìm kiếm bng mt độ đo  
Precision như sau:  
1.000 Rel i  
   
i1  
Precision  
(3)  
1.000  
Trong đó Rel(i) biu thsliên quan gia  
nh truy vn q và nh được xếp thhng i  
trong s1.000 nh được ly ra. Ở đây, chúng tôi  
sdng nhãn lp ca nh để đo mc độ liên  
quan. Rel(i) = 1 nếu nh truy vn q và nh thi  
thuc cùng mt lp và bng 0 nếu ngưc li.  
Do các nơron trong lp H sdng hàm  
truyn sigmoid nên đầu ra ca lp H ký hiu là  
O(H) là các giá trtrong khong {0,1}, để đưa về  
dng mã nhphân chúng tôi thc hin phân  
ngưng cho mi bit j = 1,, h (vi h là số nơron  
trong lp H) như sau:  
Thi gian truy vn là thi gian trung bình  
để tính độ đo tương tgia nh truy vn và  
tng nh trong tp train.  
2.3.2. Kết quthc nghim  
Chúng tôi thc nghim các trường hp: (1)  
Sdng đầu ra ca lp FC7 làm đặc trưng ảnh,  
khi đó, mi nh sẽ được biu din bng véctơ có  
độ dài 4096 và sdng khong cách Euclidean  
để đo độ tương tgia hai nh; (2) sdng  
phương pháp sinh mã nhphân vi số nơron  
trong lp n H ln lượt là 16, 32, 48, 64 và 128  
chính là độ dài ca vec-tơ đặc trưng (hash code),  
trong trường hp này, chúng tôi sdng khong  
cách Hamming để đo độ tương tgia hai nh.  
Kết quthc nghim được cho trong bng 1.  
nếu Oj(H) 0,5  
nếu ngược li  
1
0
Hj   
(2)  
Gi P = {I1, I2,... , In} là tp sdliu  
nh bao gm n nh, mã nhphân tương ứng  
ca tp nh được ký hiu là  
PH = {H1, H2,,  
Hn} vi Hi  
{0, 1}h. Cho mt hình nh truy  
vn Iq vi mã nhphân tương ứng là Hq.  
Chúng tôi xác định mc độ tương tgia Iq và Ij  
là khong cách Haming gia Hq Hj.  
Kết quthc nghim cho thy vic sdng  
mng CNN vào bài toán tìm kiếm nh theo ni  
dung cho kết qutìm kiếm vi độ chính xác cao,  
tuy nhiên thi gian truy vn khá lâu. Vic áp  
dng mng CNN kết hp vi phương pháp sinh  
mã nhphân không nhng làm tăng hiu sut  
tìm kiếm mà còn cải thiện rất nhiều về thời gian  
truy vấn ảnh.  
2.3. Kết quthc nghim  
2.3.1. Phương pháp đánh giá  
Vi mi bdliu, chúng tôi sdng  
10.000 nh trong tp test làm nh truy vn. Vi  
mt nh truy vn q và mt phép đo độ tương t,  
chúng tôi tính độ đo tương tgia nh truy vn  
504  
Nguyn ThHuyn, Trn ThThu Huyn, Thị Lưu  
Bng 1. Kết quthc nghim  
Bdliu  
CIFAR-10  
Độ i véctơ đặc trưng  
4096  
Độ đo  
Độ chính xác (%)  
87,48  
Thi gian truy vn (giây)  
Euclidean  
Hamming  
Hamming  
Hamming  
Hamming  
Hamming  
Euclidean  
Hamming  
Hamming  
17,43  
0,02  
0,04  
0,06  
0,07  
0,13  
15,32  
0,05  
0,11  
16 (bit)  
89,77  
32 (bit)  
89,72  
48 (bit)  
89,74  
64 (bit)  
89,79  
128 (bit)  
4096  
89,79  
MNIST  
98,12  
48 (bit)  
98,31  
128 (bit)  
98,43  
nh truy  
vn  
Hình 11. Top 10 nh kết qutìm kiếm nh trên bdliu CIFAR-10  
Hình 12. Top 10 nh kết qutìm kiếm nh trên bdliu MNIST  
505  
Tìm kiếm nh theo ni dung da trên mng ron tích chp và phương pháp sinh mã nhphân  
Krizhevsky A., Nair V., & Hinton G. (2009). CIFAR-  
10 and CIFAR-100 dataset. Retrieved from  
3. KT LUN  
Khi sdng mng CNN trên tp hai tp dữ  
May 12, 2018.  
on  
liu CIFAR-10 và MNIST cho kết qutìm kiếm  
vi độ chính xác cao (~ 87% trên bdliu  
CIFAR-10 và (~ 98% trên bdliu MNIST)  
nhưng thi gian truy vn lâu (trên 10 giây).  
Thc hin sinh mã nhphân bng cách chèn  
thêm mt lp n vào mng CNN cho thy thi  
gian truy vn đã gim đáng kcòn chưa đến 1  
giây. Nghiên cu này đã cho thy vic áp dng  
mng CNN và phương pháp sinh mã nhphân  
đáng được quan tâm để góp phn nâng cao hiu  
qucho các hthng tìm kiếm nh.  
Krizhevsky A., Sutskever I. & E. Hinton G. (2012).  
ImageNet Classification with Deep Convolutional  
Neural Networks. In Proc. NIPS.  
Lecun Y., Cortes C., Burges C. (1998). MNIST  
handwritten digit database. Retrieved from  
12, 2018.  
on  
May  
Lecun Y., Bottou L., Bengio Y. & Haffner P. (1998).  
Gradient-based learning applied to document  
recognition. Proceedings of the IEEE.  
Li H., Lin Z., Shen X., Brandt J. & Hua G. (2015). A  
Convolutional Neural Network Cascade for Face  
Detection. Proceedings of the IEEE Conference on  
Computer Vision and Pattern Recognition.  
pp. 5325-5334.  
TÀI LIU THAM KHO  
Babenko A., Slesarev A., Chigorin A. & Lempitsky V.  
(2014). Neural codes for image retrieval. Lecture  
Notes in Computer Science (Including Subseries  
Lecture Notes in Artificial Intelligence and Lecture  
Notes in Bioinformatics), 8689 LNCS(PART 1).  
pp. 584-599.  
Luo P., Tian, Y., Wang X. & Tang X. (2014).  
Switchable Deep Network for Pedestrian Detection  
Ping. Computer Vision Fundation.  
Lê Minh Phúc & Trn Công Án (2017). Tìm kiếm nh  
theo ni dung và ngữ nghĩa. Tp chí Khoa  
hc, Trường Đại hc Cần Thơ. Số chuyên đề:  
Công nghthông tin. tr. 58-64.  
Cheng Z., Yang Q. & Sheng B. (2015). Deep  
Colorization.  
Proceedings  
of  
the  
IEEE  
International Conference on Computer Vision.  
pp. 415-423.  
Photoindustrie-Verband e.V. (2016). Photo and  
imaging market: Trend report. p. 63.  
Ciressan D., Meier U. & Schmidhuber J. (2012). Multi-  
column Deep Neural Networks for Image  
Classification. Proceedings of the IEEE  
Conference on Computer Vision and Pattern  
Recognition.  
Văn Thế Thành (2017). Tìm kiếm nh dựa trên đồ thị  
chký nhphân. Lun án tiến sĩ khoa học máy  
tính. Đại hc Huế.  
Văn Thế Thành & Lê Mnh Thnh (2016). Mt sci  
tiến cho htruy vn nh da trên cây S-Tree. Kỷ  
yếu hi nghkhoa hc quc gia ln thIX -  
Nghiên cứu cơ bản và ng dng công nghthông  
tin (FAIR’9).  
Jia Y., Shelhamer E., Donahue J., Karayev S., Long J.,  
Girshick R., Guadarame S. & Darrell T. (2014).  
Caffe: Convolutional Architecture for Fast Feature  
Embedding. UC Berkeley EECS, Berkeley,  
CA 94702  
506  
pdf 10 trang yennguyen 09/04/2022 7900
Bạn đang xem tài liệu "Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdftim_kiem_anh_theo_noi_dung_dua_tren_mang_noron_tich_chap_va.pdf