本發(fā)明涉及圖像檢索,具體是涉及一種基于序列保留哈希的超低復(fù)雜度圖像檢索方法。
背景技術(shù):
::隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)中的圖像數(shù)據(jù)量呈指數(shù)級別的增長。如何高效地組織、管理以及分析這些數(shù)據(jù)顯得十分重要。基于內(nèi)容的圖像檢索(ContentBasedImageRetrieval,CBIR)技術(shù)應(yīng)運而生,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。通常,CBIR系統(tǒng)可分為兩大部分:1、圖像的特征表達;2、高效的檢索算法。圖像的特征表達是提取圖像的相關(guān)特征對圖像的內(nèi)容進行描述,例如VLAD特征(具體內(nèi)容可以參見文章H,Jegou,M.Douze,C.SchmidandP.Perez“Aggregatinglocaldescriptorsintoacompactimagerepresentation”,Intheproceedingofcomputervisionandpatternrecognition,2011),然后通過特征的相似度計算查找與目標(biāo)圖像相似的圖像。然而,由于網(wǎng)絡(luò)中圖像數(shù)據(jù)規(guī)模非常龐大,暴力搜索不能解決實際問題。因此,如何解決特征壓縮和高效存儲、以及如何實現(xiàn)大規(guī)模數(shù)據(jù)的快速檢索與索引就顯得更為重要。在以往的研究中,基于樹的索引方案和基于哈希編碼的方案得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。當(dāng)特征維度較高時,基于樹的索引方案將會轉(zhuǎn)變?yōu)楦F盡搜索。圖像的特征表達的維度都非常高,基于樹的索引方案很難實現(xiàn)海量高維圖像的檢索需求。哈希算法是目前在大規(guī)模數(shù)據(jù)搜索中得到廣泛采納的方案。哈希算法主要思想是將高維度的實數(shù)特征表達根據(jù)圖像的語義相關(guān)度,將相似的特征表達通過編碼長度相同且漢明距離相差不大的二進制哈希碼進行表示。哈希算法一方面可以通過較少的存儲空間來存儲大規(guī)模的數(shù)據(jù),另一方面哈希編碼之間的漢明距離可以實現(xiàn)高效計算。局部敏感哈希(LocalitySensitiveHashing,LSH)(參考文獻MayurDatar,NicoleImmorlica,PiotrIndykandVahabS.mirrokni,“Locality-sensitivehashingschemebasedonp-stabledistributions”,Intheproceedingoftheannualsymposiumoncomputationalgeometry,2004.)采用隨機投影的方式,將原始特征空間劃分以滿足p穩(wěn)態(tài)分布,然后根據(jù)特征在這些空間的分布情況進行哈希編碼。然而,局部敏感哈希算法通常需要非常高的編碼比特位數(shù)以獲得較好的檢索效果。為了克服局部敏感哈希的缺點,譜哈希(SpectralHashing,SH)(可以參考文章YairWeiss,AntonioTorralba,andRobFergus,“SpectralHashing”,IntheproceedingofNIPS,2008)基于譜圖劃分理論,利用譜分解的近似方法和三角函數(shù)量化的方法對特征向量進行哈希編碼。迭代量化(IterativeQuantization,Intheproceedingofcomputervisionandpatternrecognition,2011)通過尋找最優(yōu)旋轉(zhuǎn)矩陣將原特征空間表達量化到每個超立方體的頂點。錨圖哈希(AnchorGraphHashing,IntheproceedingofICML,2011)通過構(gòu)建錨圖來加速特征的譜分解,并且其離散優(yōu)化版本離散圖哈希(DiscreteGraphHashing,IntheproceedingofNIPS,2014)根據(jù)離散優(yōu)化策略進一步提升檢索效果。然而,以往算法都是基于一個假設(shè),特征之間的相似度都定義在歐式空間中,模型的訓(xùn)練與優(yōu)化都保證歐式空間到漢明空間的量化損失盡量小。然而,圖像特征描述有許許多多,歐幾里得距離并非是最有有效的度量方案。技術(shù)實現(xiàn)要素:本發(fā)明的目的在于為了解決以往無監(jiān)督哈希學(xué)習(xí)算法,在訓(xùn)練模型是限定特征度量空間,即通常模型是在歐式空間中進行模型學(xué)習(xí)與優(yōu)化,為了應(yīng)對并處理大規(guī)模圖像搜索問題,用以克服大規(guī)模圖像檢索存在的各種問題,提高模型的使用范圍,可以處理不同特征度量空間的圖像搜索問題,提供一種基于序列保留哈希的超低復(fù)雜度圖像檢索方法。本發(fā)明包括以下步驟:1)對于圖像庫中的圖像,隨機選取一部分圖像作為訓(xùn)練集,并抽取相應(yīng)的圖像特征,所述圖像特征包括但不限于GIST特征(可以參考文章AudeOlivaandAntonioTorralba,”ModelingtheShapeoftheScene:AHolisticRepresentationoftheSpatialEnvelope”,intheInternationalJournalofComputerVision);2)采用非線性主成分分析方法,將原圖像特征降低維度到與哈希編碼相同的長度;3)利用K-means聚類算法得到一系列的支撐點,作為后續(xù)哈希函數(shù)學(xué)習(xí)的基礎(chǔ);4)通過迭代優(yōu)化學(xué)習(xí)對應(yīng)的哈希函數(shù),具體方法如下:(4.1)選擇一個query特征,計算該特征與所有支撐點之間的關(guān)系,同時構(gòu)建序列關(guān)系圖;(4.2)在序列關(guān)系圖中,以query最近鄰的支撐點為基準(zhǔn),挑選一部分序列關(guān)系子集;(4.3)利用隨機梯度下降算法計算最優(yōu)哈希函數(shù);(4.4)置信度判斷,滿足條件跳出迭代,否則繼續(xù)循環(huán);5)輸出對應(yīng)的哈希函數(shù),并計算整個圖像庫的哈希編碼;6)對于查詢圖像,首先抽取對應(yīng)的GIST特征,然后根據(jù)訓(xùn)練得到的哈希編碼函數(shù)用同樣的方法對圖像特征進行哈希編碼,之后計算查詢圖像的哈希編碼與圖像庫中的圖像特征編碼之間的漢明距離,利用漢明距離大小來衡量查詢圖像與圖像庫中待檢索圖像之間的相似性,返回相似度高的圖像。本發(fā)明所提出的序列保留哈希算法的目標(biāo)在于獲取哈希編碼的函數(shù)(哈希函數(shù)),即:H(x)={h1(x),h2(x),...,hr(x)}。哈希函數(shù)可以將原實數(shù)特征矩陣映射為相對應(yīng)的二值編碼矩陣B={b1,b2,...,bn}∈{0,1}r×n,其中r為哈希編碼的長度。其詳細的方案的形式化描述如下所示:首先,查詢圖像和待檢索圖像庫的圖像GIST特征抽取的形式化描述為:對于訓(xùn)練集中的每幅圖像提取d維的GIST特征,得到一個d×n的原始視覺特征矩陣X={x1,x2,...,xn}∈Rd×n,其中,n表示訓(xùn)練集中的訓(xùn)練樣本個數(shù),xi為矩陣X第i列表示樣本集合中第i個維度為d的GIST特征向量。其次,在上述步驟中,使用非線性主成分分析技術(shù),例如核化主成分分解,將圖像的特征降維到與哈希編碼比特長度相同的低維度空間表示。具體步驟如下:(1)對原特征做核特征變換,在樣本集中隨機選取m個數(shù)據(jù)點作為錨點,即A={a1,...,am}∈Rd×m。(2)采用高斯核變換方法對原特征進行重新描述,原特征xi對應(yīng)的高斯核特征ki中第j維表示為kij=exp(-||xi-aj||2/2σ2)。(3)對新的核變換特征做主成分分析,求出從高維核特征空間到低維度的線性投影矩陣Z∈Rm×r,其優(yōu)化函數(shù)為:通過非線性主成分分析后,原高維特征矩陣可以重新表示為在新的低維度特征表達空間中,本發(fā)明的目標(biāo)是求解一個序列嵌入的哈希函數(shù),可以定義為其中sgn(·)為符號函數(shù),用以將實數(shù)值量化為對應(yīng)的哈希編碼。在本發(fā)明中,通過雙曲正切函數(shù)來逼近這個符號函數(shù)。整個學(xué)習(xí)算法過程需要保證原空間中特征之間的序列關(guān)系在新的漢明空間中有近似等同的關(guān)系,因此目標(biāo)函數(shù)可以表示為:其中,α和β是模型參數(shù)(通常都設(shè)為1);為對樣本集進行k-means聚類得到的聚類中心特征的非線性主成分表達,bli為其對應(yīng)的哈希編碼;o(m,j,k)為序列關(guān)系函數(shù),定義為D(m,j)為樣本xm和xj之間的歐式距離;max[0,x]為最大值函數(shù),定義為通過隨機梯度下降的優(yōu)化方法,可以求出最有的投影矩陣W,進而得到所需要的哈希函數(shù)。對于,查詢圖像特征和待檢索的圖像庫特征,采用如下哈希函數(shù)進行相應(yīng)哈希編碼:H(x)=sgn(WTZTx)。本發(fā)明的優(yōu)點如下:通過本發(fā)明所提出的方案能夠獲得一個魯棒、高效的哈希編碼機制,學(xué)習(xí)得到的哈希函數(shù)使原始特征空間(如GIST特征空間)中的圖像序列關(guān)系,能夠在離散的漢明空間中能夠得到很好的保留,提高了哈希檢索的精確度。同時,通過所提出的基于錨點的序列關(guān)系的表示方法使得學(xué)習(xí)過程的復(fù)雜性大大降低,提高了哈希函數(shù)學(xué)習(xí)的效能,從而使得本發(fā)明能夠很好的適用于大規(guī)模的圖像數(shù)據(jù)集。本發(fā)明在經(jīng)典的檢索數(shù)據(jù)集CIFAR10上做了對應(yīng)的相關(guān)的驗證性實驗,CIFAR10數(shù)據(jù)集中不同哈希算法對應(yīng)的平均精確度指標(biāo)值如表1所示。表1表1展示了CIFAR10數(shù)據(jù)集中所有查詢的檢索平均精確度,對比了現(xiàn)有的大部分經(jīng)典哈希學(xué)習(xí)方法,可以看出本發(fā)明所提出的方案在低比特率編碼條件下,具有良好的檢索性能。附圖說明圖1為本發(fā)明的基于序列保留哈希的超低復(fù)雜度圖像檢索方法流程圖。具體實施方式以下實施例將結(jié)合附圖對本發(fā)明作詳細的說明。以CIFAR10數(shù)據(jù)為例進行說明。CIFAR10包含6萬張32×32大小的圖片。圖片總共可以分為10個大類,如飛機、花朵等。CIFAR10數(shù)據(jù)集中不同哈希算法對應(yīng)的平均精確度指標(biāo)值參見表1。表1本發(fā)明包括以下步驟:1)對于圖像庫中的圖像,隨機選取一部分圖像作為訓(xùn)練集,并抽取相應(yīng)的圖像特征,所述圖像特征包括但不限于GIST特征(可以參考文章AudeOlivaandAntonioTorralba,”ModelingtheShapeoftheScene:AHolisticRepresentationoftheSpatialEnvelope”,intheInternationalJournalofComputerVision);2)采用非線性主成分分析方法,將原圖像特征降低維度到與哈希編碼相同的長度;3)利用K-means聚類算法得到一系列的支撐點,作為后續(xù)哈希函數(shù)學(xué)習(xí)的基礎(chǔ);4)通過迭代優(yōu)化學(xué)習(xí)對應(yīng)的哈希函數(shù),具體方法如下:(4.1)選擇一個query特征,計算該特征與所有支撐點之間的關(guān)系,同時構(gòu)建序列關(guān)系圖;(4.2)在序列關(guān)系圖中,以query最近鄰的支撐點為基準(zhǔn),挑選一部分序列關(guān)系子集;(4.3)利用隨機梯度下降算法計算最優(yōu)哈希函數(shù);(4.4)置信度判斷,滿足條件跳出迭代,否則繼續(xù)循環(huán);5)輸出對應(yīng)的哈希函數(shù),并計算整個圖像庫的哈希編碼;6)對于查詢圖像,首先抽取對應(yīng)的GIST特征,然后根據(jù)訓(xùn)練得到的哈希編碼函數(shù)用同樣的方法對圖像特征進行哈希編碼,之后計算查詢圖像的哈希編碼與圖像庫中的圖像特征編碼之間的漢明距離,利用漢明距離大小來衡量查詢圖像與圖像庫中待檢索圖像之間的相似性,返回相似度高的圖像。本發(fā)明所提出的序列保留哈希算法的目標(biāo)在于獲取哈希編碼的函數(shù)(哈希函數(shù)),即:H(x)={h1(x),h2(x),...,hr(x)}。哈希函數(shù)可以將原實數(shù)特征矩陣映射為相對應(yīng)的二值編碼矩陣B={b1,b2,...,bn}∈{0,1}r×n,其中r為哈希編碼的長度。其詳細的方案的形式化描述如下所示:首先,查詢圖像和待檢索圖像庫的圖像GIST特征抽取的形式化描述為:對于訓(xùn)練集中的每幅圖像提取d維的GIST特征,得到一個d×n的原始視覺特征矩陣X={x1,x2,...,xn}∈Rd×n,其中,n表示訓(xùn)練集中的訓(xùn)練樣本個數(shù),xi為矩陣X第i列表示樣本集合中第i個維度為d的GIST特征向量。其次,在上述步驟中,使用非線性主成分分析技術(shù),例如核化主成分分解,將圖像的特征降維到與哈希編碼比特長度相同的低維度空間表示。具體步驟如下:(1)對原特征做核特征變換,在樣本集中隨機選取m個數(shù)據(jù)點作為錨點,即A={a1,...,am}∈Rd×m。(2)采用高斯核變換方法對原特征進行重新描述,原特征xi對應(yīng)的高斯核特征ki中第j維表示為kij=exp(-||xi-aj||2/2σ2)。(3)對新的核變換特征做主成分分析,求出從高維核特征空間到低維度的線性投影矩陣Z∈Rm×r,其優(yōu)化函數(shù)為:通過非線性主成分分析后,原高維特征矩陣可以重新表示為在新的低維度特征表達空間中,本發(fā)明的目標(biāo)是求解一個序列嵌入的哈希函數(shù),可以定義為其中sgn(·)為符號函數(shù),用以將實數(shù)值量化為對應(yīng)的哈希編碼。在本發(fā)明中,通過雙曲正切函數(shù)來逼近這個符號函數(shù)。整個學(xué)習(xí)算法過程需要保證原空間中特征之間的序列關(guān)系在新的漢明空間中有近似等同的關(guān)系,因此目標(biāo)函數(shù)可以表示為:其中,α和β是模型參數(shù)(通常都設(shè)為1);為對樣本集進行k-means聚類得到的聚類中心特征的非線性主成分表達,bli為其對應(yīng)的哈希編碼;o(m,j,k)為序列關(guān)系函數(shù),定義為D(m,j)為樣本xm和xj之間的歐式距離;max[0,x]為最大值函數(shù),定義為通過隨機梯度下降的優(yōu)化方法,可以求出最有的投影矩陣W,進而得到所需要的哈希函數(shù)。對于,查詢圖像特征和待檢索的圖像庫特征,采用如下哈希函數(shù)進行相應(yīng)哈希編碼:H(x)=sgn(WTZTx)。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3