亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于cnn的快速圖像檢索方法

文檔序號:10552967閱讀:648來源:國知局
一種基于cnn的快速圖像檢索方法【專利摘要】本發(fā)明公開了一種基于CNN(卷積神經(jīng)網(wǎng)絡(luò))的快速圖像檢索方法,第一階段是利用CNN網(wǎng)絡(luò)對要檢索的圖像進(jìn)行特征提取,得到代表圖像的矢量特征。第二階段是在特征數(shù)據(jù)庫中對此矢量特征進(jìn)行k近鄰檢索。本發(fā)明選擇基于GOOGLENET網(wǎng)絡(luò)的CNN特征,這是深度學(xué)習(xí)興起后在計算機(jī)視覺領(lǐng)域的一個突破,它具有魯棒性較好的特點。提取CNN特征后,本發(fā)明基于PQ的快速檢索思想,并加入文本檢索中的倒排策略,在應(yīng)用中考慮自身的數(shù)據(jù)量,合理安排系統(tǒng)參數(shù),并在檢索結(jié)果重排序方面進(jìn)行改進(jìn),加入快速排序策略,縮短了檢測時間,提高了檢測效率?!緦@f明】一種基于CNN的快速圖像檢索方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及計算機(jī)視覺和模式識別的
技術(shù)領(lǐng)域
,具體涉及一種基于CNN(卷積神經(jīng)網(wǎng)絡(luò))的快速圖像檢索方法?!?br>背景技術(shù)
】[0002]在當(dāng)今的信息多媒體時代,互聯(lián)網(wǎng)進(jìn)入普通百姓家庭,并在生活中變得越來越重要。在日常生活中人們能夠隨時隨地與外面的世界溝通交流,在我們通過互聯(lián)網(wǎng)交流的過程中產(chǎn)生了巨大的多媒體數(shù)據(jù),反而卻給互聯(lián)網(wǎng)用戶快速找到自己所需要的信息造成了不小的障礙,因此搜索技術(shù)便應(yīng)運(yùn)而生?,F(xiàn)代人在生活中使用圖像和視頻等方式直觀的展示自己生活狀態(tài),圖像信息在社會各行業(yè)中均得到普遍使用。圖像信息的高效檢索和管理在圖像數(shù)據(jù)急劇增長的現(xiàn)代社會成為一個亟待解決的問題。[0003]面對不斷出現(xiàn)的需求,幫助用戶在海量圖像中高效、快速搜索到感興趣的相關(guān)圖像成為熱門的研究方向。最近鄰檢索算法作為檢索算法中的基礎(chǔ)算法,在圖像檢索,圖像快速匹配等領(lǐng)域有廣泛的應(yīng)用前景,因此也是人們熱衷的研究方向。[0004]圖像快速檢索算法主要是通過提取圖像特征向量,然后在一定的距離準(zhǔn)則(歐式距離、馬氏距離等)下進(jìn)行特征最近鄰檢索,找出與之最近的特征向量作為其對應(yīng)的最相似圖像。目前常用的矢量特征有SIFT、B0W、CNN特征等,常用的檢索方法有K-Dtree、LSH、PQ等。[0005]矢量特征:目前比較經(jīng)典的矢量特征主要有SIFT(ScaleInvariantFeatureTransform)特征、B0W(BagOfWords)特征等。[0006]1)SIFT特征是由Lowe于2004年首次提出的一種矢量特征提取算法(參見文獻(xiàn)【1】LoweDM..Distinctiveimagefeaturesfromscale-invariantkeypoints[J]?InternationalJournalofComputerVision,2004,60(2):91_110)。該特征具有比HOG特征性能更為優(yōu)越的魯棒性,對視頻圖像因外界光照、尺度、位移等產(chǎn)生的變化都具有良好的容忍性。然而該特征計算量復(fù)雜,維度較高,如何降低其維度,實現(xiàn)實時性較好的特征有效提取還是一個懸而未決的難題。[0007]2)B0W特征是信息檢索領(lǐng)域常用的文檔表示方式。在圖像處理中,每幅圖像描述為一個局部區(qū)域/關(guān)鍵點(Patches/KeyPoints)特征的無序集合。使用某種聚類算法(如K-meanS)將局部特征進(jìn)行聚類,每個聚類中心被看作是詞典中的一個視覺詞匯(ViSUalWord),相當(dāng)于文本檢索中的詞,視覺詞匯由聚類中心對應(yīng)特征形成的碼字(codeword)來表示(可看當(dāng)為一種特征量化過程)。所有視覺詞匯形成一個視覺詞典(VisualVocabulary),對應(yīng)一個碼書(codebook),即碼字的集合,詞典中所含詞的個數(shù)反映了詞典的大小。圖像中的每個特征都將被映射到視覺詞典的某個詞上,這種映射可以通過計算特征間的距離去實現(xiàn),然后統(tǒng)計每個視覺詞的出現(xiàn)與否或次數(shù),圖像可描述為一個維數(shù)相同的直方圖向量,即B0W特征。此特征在圖像檢索領(lǐng)域有著廣泛的應(yīng)用。[0008]3)CNN特征是基于CNN網(wǎng)絡(luò)的矢量特征,本發(fā)明中使用該特征使用GoogLeNet網(wǎng)絡(luò)架構(gòu)(【2】SzegedyC,LiuW,JiaY,etal.Goingdeeperwithconvolutions[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015:1-9.),其主要通過Inception結(jié)構(gòu)實現(xiàn)了在不大幅度增加計算量的情況下,讓網(wǎng)絡(luò)走向更深層次,而其在ILSVRC2014的結(jié)果,也證實了該網(wǎng)絡(luò)架構(gòu)的優(yōu)越性。[0009]矢量數(shù)據(jù)檢索方法:目前使用廣泛的檢索方法有K-Dtree、LSH((L〇cality-SensitiveHashing)、PQ(ProductQuantization)等。[0010]4)KD_TREE算法【4,5】(參見文獻(xiàn)【4】FriedmanJH,BentleyJL,F(xiàn)inkelRA.Analgorithmforfindingbestmatchesinlogarithmicexpectedtime[J].ACMTransactionsonMathematicalSoftware(TOMS),1977,3(3):209_226和【5】MooreAW.Anintoductorytutorialonkd_trees[J].1991)思想在于將數(shù)據(jù)分割到k維數(shù)據(jù)空間,并結(jié)合二叉檢索等數(shù)據(jù)結(jié)構(gòu)檢索算法進(jìn)行檢索,這樣建立一個索引樹相對線性掃描可以節(jié)省很多時間,而且在檢索精度上有很好的保證,但是當(dāng)特征數(shù)據(jù)的維度過高,如Gist特征(參見文獻(xiàn)【3】01ivaA,TorralbaA.Buildingthegistofascene:Theroleofglobalimagefeaturesinrecognition[J].Progressinbrainresearch,2006,155:23-36.),B0W特征時,算法的效率急劇下降。[0011]5)LSH算法(參見文獻(xiàn)【6】DatarM,ImmorlicaN,IndykP,etal?Locality-sensitivehashingschemebasedonp-stabledistributions[C]//ProceedingsofthetwentiethannualsymposiumonComputationalgeometry.ACM,2004:253-262)是使用一些哈希函數(shù),確保距離相互比較近的點比距離比較遠(yuǎn)的點沖突的概率大,當(dāng)要查詢的時候,只需要查詢與查詢點沖突的點,從而減少了距離計算,加快查詢時間。[0012]6)PQ算法(參見文獻(xiàn)【7】JegouH,DouzeM,SchmidC.Productquantizationfornearestneighborsearch[J].PatternAnalysisandMachineIntelligence,IEEETransactions〇n,2011,33(l):117-128.)利用樣本數(shù)據(jù)進(jìn)行量化器訓(xùn)練并利用量化器對原向量進(jìn)行壓縮表示。在進(jìn)行ANN檢索時,通過計算query向量與待量化后的檢索向量距離來近似query向量與量化前的待檢索向量的距離,其距離計算方法使用查表方法,減少了計算時間,此算法在IBSIFT特征數(shù)據(jù)上的實驗結(jié)果非常好(參見文獻(xiàn)【8】j6gouH,TavenardR,DouzeM,etal.Searchinginonebillionvectors:re-rankwithsourcecoding[C]//Acoustics,SpeechandSignalProcessing(ICASSP),2011IEEEInternationalConferenceon.IEEE,2011:861-864)?!?br/>發(fā)明內(nèi)容】[0013]本發(fā)明的目的在于:克服上述現(xiàn)有技術(shù)的缺陷,提供一種基于CNN的快速圖像檢索方法,在服務(wù)器平臺上,利用CNN網(wǎng)絡(luò)對圖像進(jìn)行特征提取并利用改進(jìn)的搜索算法,對查詢向量快速的給出與其K近鄰的結(jié)果。本發(fā)明選擇基于G00GLENET網(wǎng)絡(luò)的CNN特征,這是深度學(xué)習(xí)興起后在圖像領(lǐng)域的一個突破,它具有魯棒性較好的特點。提取CNN特征后,本發(fā)明基于PQ的檢索思想,并加入文本檢索中的倒排策略,在應(yīng)用中考慮自身的數(shù)據(jù)量,合理安排系統(tǒng)參數(shù),并在檢索結(jié)果重排序方面進(jìn)行改進(jìn),加入快速排序策略,縮短了檢測時間,提高了檢測效率。[0014]本發(fā)明的技術(shù)方案分兩個階段,第一階段是利用CNN網(wǎng)絡(luò)對要檢索的圖像進(jìn)行特征提取,得到代表圖像的矢量特征。第二階段是在特征數(shù)據(jù)庫中對此矢量特征進(jìn)行k近鄰檢索。[0015]具體步驟如下:[0016]1)對圖像進(jìn)行特征提取[0017]我們利用GoogLeNet網(wǎng)絡(luò)架構(gòu),主要通過Inception結(jié)構(gòu)實現(xiàn)了在不大幅度增加計算量的情況下,讓網(wǎng)絡(luò)走向更深層次,而其在ILSVRC2014的結(jié)果,也證實了該網(wǎng)絡(luò)架構(gòu)的優(yōu)越性,其細(xì)節(jié)如下所示:[0018]e)訓(xùn)練前統(tǒng)一圖像尺寸。我們采用Center-crop的方法將尺寸統(tǒng)一到256*256,即先將按照最小邊縮放到256的比例系數(shù)進(jìn)行整體縮放,然后對長邊以中心為基準(zhǔn)向兩邊分別做等長裁剪,保留256長度,這樣基本可以保證圖片不變形的同時突出圖像的主體。[0019]f)保證訓(xùn)練模型的魯棒性方法。對訓(xùn)練集通過鏡像變換進(jìn)行擴(kuò)充并在每次訓(xùn)練中從256*256的圖像中隨機(jī)選取224*224大小的圖像塊進(jìn)行訓(xùn)練。[0020]g)損失函數(shù)以及優(yōu)化方法。損失函數(shù)選用Softmax損失函數(shù),通過Mini-batch梯度下降法進(jìn)行參數(shù)尋優(yōu)以最小化損失函數(shù)。其中學(xué)習(xí)率每40,000次降低為原來的1/10,最終經(jīng)過120,000次迭代終止。[0021]h)模型應(yīng)用。在模型應(yīng)用上,我們對每張圖片的預(yù)測,我們先將其統(tǒng)一成指定尺寸256*256,然后通過選取其左上、右上、左下、右下、正中以及其各自的鏡面變換圖進(jìn)行預(yù)測,平均其預(yù)測結(jié)果,作為最終的預(yù)測類別。[0022]2)在數(shù)據(jù)庫中檢索其K近鄰的向量[0023]檢索過程分為兩個部分,首先是將數(shù)據(jù)庫中的特征進(jìn)行量化并做成倒排索引結(jié)構(gòu)。給定一個待查詢的向量時,從此結(jié)構(gòu)體中找出其K近鄰的向量。[0024]c)利用樣本數(shù)據(jù)訓(xùn)練[0025]利用數(shù)據(jù)庫中的部分?jǐn)?shù)據(jù),進(jìn)行量化器的訓(xùn)練。先對N維樣本數(shù)據(jù)進(jìn)行聚類,生成M個聚類中心。對每個特征向量在M個聚類中心定位到與之距離最近的聚類中心,上述操作完成后,此數(shù)據(jù)庫即形成倒排索引結(jié)構(gòu)。再將N維特征向量分成H段,對樣本數(shù)據(jù)中的每一段進(jìn)行聚類,生成L個聚類中心,共生成H*L個聚類中心。對數(shù)據(jù)庫中的每一個特征向量,將其分成H段,每一段的子特征向量在其對于的L個聚類中心中進(jìn)行量化,將數(shù)據(jù)量化成N/H維。這樣減小了存儲容量。將特征向量依次進(jìn)行上述操作。再將量化后的數(shù)據(jù)掛載到倒排索引結(jié)構(gòu)中,完成樣本數(shù)據(jù)的訓(xùn)練和量化工作。[0026]d)檢索其K近鄰的向量[0027]對于待檢索特征向量q,為了減小計算量,首先在訓(xùn)練過程中生成的M個聚類中心計算出W近鄰的向量。實際檢索過程中僅計算此W個聚類中心下掛載的向量集合R。對于歐氏距離準(zhǔn)則,首先計算出q與其中一個聚類中心在每H維的歐氏距離,再利用查表的方法快速的計算出q與R中向量的近似距離。[0028]本發(fā)明優(yōu)點和積極效果為:[0029](1)由于采用CNN網(wǎng)絡(luò)進(jìn)行特征提取,這樣的特征向量的魯棒性較好,且數(shù)據(jù)量較小,易于計算,具有較好的實驗效果。[0030](2)在K近鄰檢索時,利用量化思想在保證精度的條件下提高了檢索速度,做到了又快又準(zhǔn)?!靖綀D說明】[0031]圖1為不等式關(guān)系圖;[0032]圖2為本發(fā)明一種基于CNN的快速圖像檢索方法流程圖?!揪唧w實施方式】[0033]本發(fā)明通過利用CNN網(wǎng)絡(luò)和量化檢索方法,實現(xiàn)了相似圖像的快速搜索。[0034]1.利用CNN網(wǎng)絡(luò)提取圖像特征向量[0035]本發(fā)明用GoogleNet網(wǎng)絡(luò)架構(gòu)來提取表征圖像的4096維特征向量。在初始化階段,首先對整個100K圖片庫進(jìn)行特征提取操作,生成100K個4096維的特征向量。當(dāng)進(jìn)行相似圖像檢索時,對待檢索圖像進(jìn)行特征提取操作,生成帶檢索特征q。[0036]2.量化特征向量并構(gòu)建倒排結(jié)構(gòu)[0037]得到100K的特征向量后,隨機(jī)選取10K作為樣本數(shù)據(jù)進(jìn)行量化系統(tǒng)的訓(xùn)練并將得到的量化器對整個100K的特征向量進(jìn)行量化。并利用聚類方法構(gòu)建倒排結(jié)構(gòu)。[0038]2.1數(shù)據(jù)預(yù)處理[0039]對于10K樣本數(shù)據(jù)T,對其進(jìn)行聚類操作,得到M個聚類中心K={k1;iGM},將10K數(shù)據(jù)終端每個向量分配到此M個聚類中心下,即對每個向量V,計算與其歐式距離最近的聚類中心kt并分配到此聚類中心下。[0040]為了減小數(shù)據(jù)誤差,使樣本數(shù)據(jù)的協(xié)方差為0,上述分配到各個聚類中心下的向量均與其對應(yīng)的聚類中心作差,稱為"殘差向量",即v,=V-q(V),q(v)為向量v所屬的聚類中心。[0041]2.2訓(xùn)練量化器[0042]數(shù)據(jù)預(yù)處理完成后,將樣本數(shù)據(jù)中的4096維向量按維度分為H段,每段的維度即為t=4096/H維。對每一段的子向量進(jìn)行聚類操作,計算出L個聚類中心,共會產(chǎn)生H*L個聚類中心。每個子維度上的聚類中心集合即為后續(xù)整個數(shù)據(jù)庫的量化器。[0043]2.3建立倒排索引結(jié)構(gòu)[0044]對于整個數(shù)據(jù)庫中的特征向量,利用最初得到的聚類中心集合K,將數(shù)據(jù)庫中的特征向量均分配到此M個聚類中心下,并計算"殘差向量"。至此形成類似字典檢索的倒排索引結(jié)構(gòu)。[0045]2.4量化數(shù)據(jù)庫中的特征向量[0046]對于數(shù)據(jù)庫中的每個特征向量,在每t維度上均尋找上述對應(yīng)維度上M個聚類中心集合中的最近鄰向量并記錄其索引號^,以此類推,完成此過程后原特征向量降為H維,以此達(dá)到降低維度存儲,減小存儲空間的目的。[0047]3.近似最近鄰檢索[0048]3.1遍歷部分向量并確定距離閾值[0049]給定一個待查詢向量y,首先在聚類中心集合K中計算y與每個^的距離cKn),然后按距離遠(yuǎn)近的準(zhǔn)則找出w個最近鄰的聚類中心,對于向量y而言,僅需要遍歷分配到此w個聚類中心下的向量即可找出其最近鄰的特征向量。[0050]在計算向量y與數(shù)據(jù)庫R中特征向量xGR距離時,我們利用向量y與量化后向量q(X)的歐氏距離d(y,q(x))=||y-q(x)|I來近似y與x的歐式距離d(y,x)=||y-X|I。有三角形不等式原理,如下圖1所示,我們有如下不等式:_1]d(x,y)<d(x,q(x))+d(x,q(x))[0052]我們設(shè)定閾值1'[1=(1(1,9(1))+(1(1,9(1)),隨著遍歷向量的增加,1'[1逐漸迭代到最小值,并以此為依據(jù),當(dāng)x與w中某些聚類中心的距離遠(yuǎn)大于Th時,依據(jù)數(shù)據(jù)的簇狀分布,我們認(rèn)定此聚類中心的向量均與待查詢向量y相距較遠(yuǎn),因此舍棄這部分。這樣進(jìn)一步的減少了遍歷范圍,在保證準(zhǔn)確率的情況下提高了運(yùn)算速度。其流程如下圖2所示。[0053]3.2計算近似距離[0054]在計算d(y,q(x))時,首先計算待檢索向量y與q(x)在每H維的距離之和,由上節(jié)可知每H維度上的聚類中心集合K6=kf;/e#},整個聚類中心的集合EKh,hGH。計算結(jié)束后會形成一個H*M的矩陣T,矩陣中元素Tu代表在第j個聚類中心的第i個H段的子向量與相對應(yīng)維度上的子向量歐式距離之和。[0055]對于分配到此聚類中心下量化后的向量,僅需要在矩陣T中進(jìn)行查表操作并求和即可得到近似距離d(y,q(x))。這樣將計算距離的乘方操作轉(zhuǎn)換為查表的加法操作,極大的減少了計算量,提升了計算速度。[0056]3.3計算結(jié)果重排序[0057]對上面所得到的結(jié)果利用"分治法"先選擇出前k個最小值,再將此k個值進(jìn)行快速排序,則得到重排序后的結(jié)果,由以上的向量序列找出其相對應(yīng)的圖像ID,最終完成了相似圖像檢索的過程?!局鳈?quán)項】1.一種基于CNN(卷積神經(jīng)網(wǎng)絡(luò))的快速圖像檢索方法,其特征在于:該方法包括:步驟一、利用CNN網(wǎng)絡(luò)對要檢索的圖像進(jìn)行特征提取,得到代表圖像的矢量特征;利用GoogLeNet網(wǎng)絡(luò)架構(gòu),通過Inception結(jié)構(gòu)實現(xiàn)了在不大幅度增加計算量的情況下,讓網(wǎng)絡(luò)走向更深層次,具體步驟如下:a)訓(xùn)練前統(tǒng)一圖像尺寸:采用Center-crop的方法將尺寸統(tǒng)一到256*256,即先將按照最小邊縮放到256的比例系數(shù)進(jìn)行整體縮放,然后對長邊以中心為基準(zhǔn)向兩邊分別做等長裁剪,保留256長度,這樣基本可以保證圖片不變形的同時突出圖像的主體;b)保證訓(xùn)練模型的魯棒性:對訓(xùn)練集通過鏡像變換進(jìn)行擴(kuò)充并在每次訓(xùn)練中從256*256的圖像中隨機(jī)選取224*224大小的圖像塊進(jìn)行訓(xùn)練;c)損失函數(shù)以及優(yōu)化:損失函數(shù)選用Softmax損失函數(shù),通過Mini-batch梯度下降法進(jìn)行參數(shù)尋優(yōu)以最小化損失函數(shù);d)模型應(yīng)用:在模型應(yīng)用上,對每張圖片的預(yù)測,先將其統(tǒng)一成指定尺寸256*256,然后通過選取其左上、右上、左下、右下、正中以及其各自的鏡面變換圖進(jìn)行預(yù)測,平均其預(yù)測結(jié)果,作為最終的預(yù)測類別;步驟二、在特征數(shù)據(jù)庫中對此矢量特征進(jìn)行k近鄰檢索;其中檢索過程分為兩個部分,首先是將數(shù)據(jù)庫中的特征進(jìn)行量化并做成倒排索引結(jié)構(gòu);然后給定一個待查詢的向量時,從此結(jié)構(gòu)體中找出其K近鄰的向量,具體步驟如下:a)利用樣本數(shù)據(jù)訓(xùn)練利用數(shù)據(jù)庫中的部分?jǐn)?shù)據(jù),進(jìn)行量化器的訓(xùn)練,先對N維樣本數(shù)據(jù)進(jìn)行聚類,生成M個聚類中心,對每個特征向量在M個聚類中心定位到與之距離最近的聚類中心,上述操作完成后,此數(shù)據(jù)庫即形成倒排索引結(jié)構(gòu),再將N維特征向量分成H段,對樣本數(shù)據(jù)中的每一段進(jìn)行聚類,生成L個聚類中心,共生成H*L個聚類中心,對數(shù)據(jù)庫中的每一個特征向量,將其分成H段,每一段的子特征向量在其對于的L個聚類中心中進(jìn)行量化,將數(shù)據(jù)量化成N/H維,這樣減小了存儲容量,將特征向量依次進(jìn)行上述操作,再將量化后的數(shù)據(jù)掛載到倒排索引結(jié)構(gòu)中,完成樣本數(shù)據(jù)的訓(xùn)練和量化工作;b)檢索其K近鄰的向量對于待檢索特征向量q,為了減小計算量,首先在訓(xùn)練過程中生成的M個聚類中心計算出W近鄰的向量,實際檢索過程中僅計算此W個聚類中心下掛載的向量集合R,對于歐氏距離準(zhǔn)則,首先計算出q與其中一個聚類中心在每H維的歐氏距離,再利用查表的方法快速的計算出q與R中向量的近似距離?!疚臋n編號】G06K9/62GK105912611SQ201610211503【公開日】2016年8月31日【申請日】2016年4月5日【發(fā)明人】凌強(qiáng),單廷佳,李峰【申請人】中國科學(xué)技術(shù)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1