本發(fā)明屬于圖像處理
技術領域:
,具體涉及一種基于語義傳播及混合多示例學習的Web圖像檢索方法。
背景技術:
:網(wǎng)絡環(huán)境下,圖像一般是嵌入在Web網(wǎng)頁中發(fā)布的,具有豐富的文本信息,如標簽(tag)、文件名、網(wǎng)址信息和圖像上下文等。對于Web圖像檢索,基于文本信息的TBIR(Text-basedImageRetrieval)和基于圖像視覺特征的CBlR(Content-basedImageRetrieval)有著各自的優(yōu)勢和不足。TBIR一定程度回避了對復雜可視化元素的識別難題,充分利用了Web網(wǎng)頁上下文和超文本結構信息,并且符合人們熟悉的檢索習慣,實現(xiàn)簡單,但是因為仍舊局限于文本檢索范圍下,通過受控詞匯來描述圖像,因此容易出現(xiàn)主題歧義、標注不一等問題。CBIR則恰好相反,它主要利用對直觀形象的特征元素的分析來檢索圖像,具有一定的客觀性,如每幅圖像的顏色直方圖是確定的,但是CBIR存在語義鴻溝問題,單純依據(jù)圖像視覺特征檢索很可能會將視覺特征相似但語義不同的圖像檢索出來,也有可能會將視覺特征不同但語義相同的圖像檢索不出來。為了能夠充分利用Web圖像所包含的信息,一些研究者開始研究在Web圖像檢索中同時利用Web圖像的視覺特征和圖像所在網(wǎng)頁的文本信息。Woodruff等人在基于關鍵字檢索的基礎之上,利用縮略圖幫助用戶定位其感興趣的網(wǎng)頁。Xue等人采用與Woodruff等人類似的策略,使用網(wǎng)頁的文本片段(textsnippet)和圖像片段(imagesnippet)幫助用戶在檢索結果中快速定位其感興趣的網(wǎng)頁。但是,Woodruff等人和Xue等人僅僅使用Web圖像內(nèi)容將檢索結果更好地展示給用戶,并沒有將它運用在圖像檢索過程中。Wang等人嘗試將圖像視覺特征和文本信息分別當作兩種不同的對象,然后在它們之間建立起各種關聯(lián),再通過使用互信息將二者融合在一起實現(xiàn)Web圖像檢索,但是這種方式并沒有充分利用Web圖像內(nèi)容的高層語義特征。Chen等人通過文本信息對應向量之間夾角的余弦計算文本信息間的相似性,而計算視覺特征之間的相似性時通過計算它們對應向量之間的歐幾里德距離,然后使用線性方式將上述的兩個度量組合起來,并且設置二者權重相同,即認為文本信息和視覺特征在Web圖像檢索中的重要程度一樣。Srihari等人采用了類似的策略將基于文本信息查詢的模型和基于圖像視覺特征查詢的模型線性的組合起來。以上這些研究還只是停留在信息利用層面,并沒有實現(xiàn)這兩種信息的真正融合。Silva等人的研究結果表明,在Web圖像檢索中同時使用包括視覺和文本在內(nèi)的多種信息有助于改進Web圖像檢索。Kuo等人提出了一種針對大規(guī)模圖像檢索的非監(jiān)督輔助視覺詞匯發(fā)現(xiàn)方法。該方法通過基于圖的非監(jiān)督學習,將視覺聚類圖和文本聚類圖對照起來,并將文本聚類圖中圖像之間的關系傳播到視覺聚類圖中。該方法將在線的匹配過程轉變?yōu)殡x線的聚類過程,并且實現(xiàn)了圖像視覺特征與文本信息的有機結合。但是,該方法在關系傳播過程中會產(chǎn)生非常龐大且復雜的關系網(wǎng)絡,運算復雜;而且,傳播過程會產(chǎn)生大量的輔助視覺詞匯,從而降低圖像檢索的精度。技術實現(xiàn)要素:本發(fā)明的目的是克服上述現(xiàn)有技術中存在的問題,為進一步提升Web圖像檢索性能,提出一種基于語義傳播及混合多示例學習的Web圖像檢索方法。本發(fā)明的技術方案是:基于語義傳播及混合多示例學習的Web圖像檢索方法,包括如下步驟:步驟1:將圖像表示為BoW模型:BoW模型采用經(jīng)典的k-means方法對圖像的特征進行聚類,其目標是將n個特征(x1,…,xn)映射到k個視覺詞匯(ω1,…,ωk)上,其中每一個視覺詞匯就是一個聚類中心,每一個特征被映射到距離它最近的一個詞匯上;如式(1)所示,BoW模型其算法通過使每一個類的類內(nèi)方差達到最小,實現(xiàn)將這n個特征映射到k個類別(S1,…,Sk)中:argminSΣi=1kΣj=1n||xj-ωi||2---(1)]]>步驟2:在非監(jiān)督學習框架下借助文本信息將圖像的語義特征傳播給圖像的視覺特征,具體包括如下步驟:步驟2.1:相似度計算采用余弦相似度來度量兩幅圖像的文本信息相似度以及兩幅圖像的視覺特征向量相似度;步驟2.2:圖像聚類采用近鄰傳播AP聚類算法對圖像庫圖像根據(jù)視覺特征相似度和文本信息相似度分別進行聚類;步驟2.3:語義特征傳播采用如下的策略將文本聚類圖中反映出來的圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中:在文本聚類圖中,每一類圖像之間具有相似的文本信息,從而具有相似的語義特征;對每個文本類,將該類中所有圖像的視覺特征向量相加,統(tǒng)計出現(xiàn)頻次最高的P個視覺詞匯作為該文本類的通用視覺詞匯;對于圖像Ii,若其在文本聚類圖中屬于第m類,在視覺聚類圖中屬于第n類,其視覺詞匯直方圖為xi,第m個文本類的通用視覺詞匯直方圖為cm,其中沒有出現(xiàn)的視覺詞匯的頻次為0,經(jīng)語義傳播后Ii的視覺詞匯直方圖為x_newi,則語義傳播過程如下式所示:x_newi=s_viks_vik+s_tik′xi+s_tik′s_vik+s_tik′cm---(2)]]>其中,k和k'分別表示第n個視覺類的聚類中心和第m個文本類的聚類中心,s_vik和s_tik'分別表示圖像Ii與其所在的視覺類聚類中心和文本類聚類中心的相似度;步驟3:引入混合多示例學習算法,解決實際檢索過程中的小樣本問題,具體包括如下步驟:步驟3.1:HMIL定義將圖像各興趣點局塊的局部視覺特征作為示例,則圖像被看成是包含示例的包;設正包、負包和未標記包構成的集合為{B1,···,Bp,Bp+1,···,Bp+q,Bp+q+1,···,Bp+q+r},其中,p、q和r分別表示正包、負包和未標記包的數(shù)量;設所有示例構成的集合為:{b1,···,bu,bu+1,···,bu+v,bu+v+1,···,bu+v+w},其中,u、v和w分別表示所有正包、負包和未標記包中示例的個數(shù);根據(jù)多示例學習的定義,有標記數(shù)據(jù)即負包中的所有示例,半標記數(shù)據(jù)即正包中的所有示例,未標記數(shù)據(jù)即未標記包中的所有示例;包Bi的標記用Yi表示,Yi∈{1,-1};示例bi的標記用yi表示,yi∈{1,-1};對于未標記數(shù)據(jù),可以為其隨機分配一個初始標記;步驟3.2:HMIL求解尋找一個超球B(c,R),其中c表示球心,R表示半徑,同時滿足:(1)半徑R盡可能?。?2)正包中至少有一個正示例被約束在超球內(nèi),負包中所有負示例都被約束在超球外;(3)對于未標記包,由于并不清楚其正負信息,故對其沒有約束;每個包對應一個松弛項ξi,它求解如下優(yōu)化問題:其中,是核函數(shù),I(i)={j|bj∈Bi}為包Bi中示例的下標集合。上述步驟1中,所述BoW模型的具體實施步驟如下:2.1)興趣點檢測(1)對圖像I(x,y),其中x表示圖像像素的橫坐標,y表示圖像像素的縱坐標,按下式計算尺度空間L(x,y,σ):L(x,y,σ)=G(x,y,σ)*I(x,y)(4)其中,*表示卷積運算,G(x,y,σ)為可變尺度的高斯函數(shù),σ為高斯函數(shù)的標準差,σ∈[2,8],(2)計算尺度空間高斯差值函數(shù)D(x,y,σ):D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)---(5)]]>其中,k表示尺度空間中兩個圖像的尺度間隔;(3)定義尺度空間的自相關矩陣A為:A(x,y,δi,δd)=δd2G(δi)*fx2(x,δd)fxfy(x,δd)fxfy(x,δd)fy2(x,δd)=f^x2fxfy^fxfy^f^y2---(6)]]>其中,δi表示積分尺度,δd微分尺度,fx和fy分別表示x和y方向上的導數(shù),表示對f做高斯濾波;記A的兩個特征值λ1和λ2為自相關函數(shù)的主曲率;(4)不同尺度空間的興趣點檢測公式為:C(x,y,δi,δd)=det(A(x,y,δi,δd))-α·trace2(A(x,y,δi,δd))=λ1·λ2-α·(λ1+λ2)(7)其中,α為取值范圍在0.04~0.06的常數(shù),判斷C的局部極大值坐標是否落在多尺度空間極值點δ×δ鄰域內(nèi);若在鄰域內(nèi)則保留該極值點作為興趣點,否則剔除;(5)將發(fā)生重疊的興趣點進行合并,具體做法是:對興趣點按照測度值進行由大到小排序,然后依次計算興趣點對之間的距離,如果距離小于閾值2δ(由于我們選擇的鄰域大小為δ×δ),則合并它們,即把測度值小的興趣點去掉;經(jīng)過上述處理之后,便確定最終的興趣點集合;2.2)特征向量生成對每個興趣點統(tǒng)計該興趣點δ×δ鄰域內(nèi)像素的HSV空間顏色直方圖作為該興趣點對應的特征向量;圖像中所有興趣點的特征向量組成該圖像的特征向量;2.3)k均值聚類對訓練集中所有圖像的全部特征向量進行k-means聚類,生成描述圖像的視覺詞典;這樣,每一幅圖像可以用若干視覺詞匯表示,之后分別統(tǒng)計視覺詞典中每一個視覺詞匯在該圖像中出現(xiàn)的個數(shù),最終將圖像表示為一個k維(k為視覺詞典的大小)的視覺詞匯直方圖;k-means聚類具體步驟如下:(1)初始化,隨機指定k個聚類中心(ω1,…,ωk);(2)分配xi,對所有特征向量xi找到與它距離最近的聚類中心,并將其分配到該類;(3)修正聚類中心,將每一類的均值作為新的聚類中心;(4)計算方差J=Σi=1kΣj=1n||xj-ωi||2---(8)]]>其中,n表示訓練集中所有圖像的全部特征向量的個數(shù);(5)收斂判斷,如果J收斂,則返回(ω1,…,ωk),算法終止;否則返回(2)。上述步驟2.1中,所述余弦相似度是通過找到兩個v維向量之間的夾角來計算向量之間的相似度,其過程如下:首先定義一個被索引為{1,2,…,v}的單詞表;每個文檔d∈D用一個v維的tf-idf向量d=(tfidf1,tfidf2,…,tfidfv)來表示,其中tfidfi是單詞表中第i個單詞的tf-idf值;這樣,兩個文檔dp和dq之間的余弦相似度被定義為:Simcosine(dp,dq)=dp·dq||dp||||dq||---(9)]]>其中,dp表示文檔dp的特征向量;而單詞表中所有單詞的idf值都是基于文檔集合D得到的;同樣,采用上述余弦相似度度量方法計算兩幅圖像的視覺特征向量xp和xq之間的相似度。上述步驟2.2中,采用AP聚類算法對圖像庫圖像根據(jù)視覺特征相似度和文本信息相似度分別進行聚類;AP聚類算法根據(jù)N個數(shù)據(jù)點之間的相似度進行聚類,這些相似度組成N×N的相似度矩陣S;AP聚類算法將所有的數(shù)據(jù)點都作為潛在的聚類中心,稱之為exemplar;兩個數(shù)據(jù)點的相似度采用距離的負數(shù)表示;相似度矩陣S中主對角線上的值s(k,k)表示的是某個點和自身的相似度,稱為偏向參數(shù)p,但這里不直接用0來表示;聚類的數(shù)量受到偏向參數(shù)p的影響,如果認為每個數(shù)據(jù)點都有可能作為聚類中心,那么p就應取相同的值;如果取輸入的相似度的均值作為p的值,得到聚類數(shù)量是中等的;如果取最小值,將得到類數(shù)較少的聚類;AP聚類算法中傳遞兩種類型的消息,即r類型的消息和a類型的消息;r(i,k)表示從點i發(fā)送到候選聚類中心k的數(shù)值消息,反映k點是否適合作為i點的聚類中心;a(i,k)表示點i選擇點k作為其聚類中心的適合程度,它通過候選聚類中心k發(fā)送到i的數(shù)值消息,反映i點是否選擇k作為其聚類中心;AP聚類算法通過迭代過程不斷更新每一個點的吸引度和歸屬度值,直到產(chǎn)生m個高質量的exemplar,同時將其余的數(shù)據(jù)點分配到相應的類別中,其計算迭代更新如下:r(i,k)=(1-λ)ρ(i,k)+λr(i,k)a(i,k)=(1-λ)α(i,k)+λα(i,k)---(10)]]>其中,λ為阻尼因子,引入λ是避免數(shù)值震蕩;ρ(i,k)和α(i,k)分別為傳播r類型的消息和傳播a類型的消息,分別由下式計算:ρ(i,k)=s(i,k)-maxk′≠k{a(i,k′)+s(i,k′)}(i≠k)s(i,k)-maxk′≠k{s(i,k′)}(i=k)---(11)]]>α(i,k)=min{0,r(i,k)+Σk′≠i,kmax{0,r(k′,k)}}(i≠k)Σk′≠imax{0,r(k′,k)}(i=k)---(12)]]>數(shù)據(jù)點i的exemplar最終被定義為:argmax{r(i,k)+a(i,k)k=1,2,···,N}(13)。上述步驟2.3中,采用如下的策略將文本聚類圖中反映出來的圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中:在文本聚類圖中,每一類圖像之間具有相似的文本信息,從而具有相似的語義特征;對每個文本類,將該類中所有圖像的視覺特征向量相加,統(tǒng)計出現(xiàn)頻次最高的P個視覺詞匯作為該文本類的通用視覺詞匯;對于圖像Ii,若其在文本聚類圖中屬于第m類,在視覺聚類圖中屬于第n類,其視覺詞匯直方圖為xi,第m個文本類的通用視覺詞匯直方圖為cm,其中沒有出現(xiàn)的視覺詞匯的頻次為0,經(jīng)語義傳播后Ii的視覺詞匯直方圖為x_newi,則語義傳播過程如下式所示:x_newi=s_viks_vik+s_tik′xi+s_tik′s_vik+s_tik′cm---(2)]]>其中,k和k'分別表示第n個視覺類的聚類中心和第m個文本類的聚類中心,s_vik和s_tik'分別表示圖像Ii與其所在的視覺類聚類中心和文本類聚類中心的相似度。上述步驟3.1中,引入混合多示例學習HMIL算法解決實際檢索過程中的小樣本問題;所述混合多示例學習定義如下:將圖像各興趣點局塊的局部視覺特征作為示例,則圖像被看成是包含示例的包;設正包、負包和未標記包構成的集合為{B1,···,Bp,Bp+1,···,Bp+q,Bp+q+1,···,Bp+q+r},其中,p、q和r分別表示正包、負包和未標記包的數(shù)量;設所有示例構成的集合為:{b1,···,bu,bu+1,···,bu+v,bu+v+1,···,bu+v+w},其中,u、v和w分別表示所有正包、負包和未標記包中示例的個數(shù);根據(jù)多示例學習的定義,有標記數(shù)據(jù)即負包中的所有示例(全部都為負示例),半標記數(shù)據(jù)即正包中的所有示例,未標記數(shù)據(jù)即未標記包中的所有示例;其中正包中的示例不保證都是正的;包Bi的標記用Yi表示,Yi∈{1,-1};示例bi的標記用yi表示,yi∈{1,-1};對于未標記數(shù)據(jù),可以為其隨機分配一個初始標記;則需要找到一個示例級別的分類函數(shù)f,可以把未標記的每個示例分成類別-1或1,從而包級別的分類可根據(jù)f來確定。上述步驟3.2中,通過迭代求解一系列二次凸規(guī)劃問題來實現(xiàn)所述HMIL求解,具體包括如下步驟:(1)初始化:構建初始訓練集其中,b‾p+q+i=Σj∈I(p+q+i)bj/|I(p+q+i)|,i=1,2,...,r;]]>(2)訓練:對訓練集進行如下訓練:(3)更新:用對正包中的示例進行計算,記其中,對負包和未標記包中的示例仍按照(1)中的方式進行選擇,然后組建更新后的訓練集合(4)判斷:如果訓練集合更新前后沒有變化,則轉到步驟(5),否則返回步驟(2);(5)結束:輸出此時的解c、R,得到優(yōu)化的分類函數(shù)根據(jù)分類函數(shù)f,將前一輪檢索結果中的負包圖像剔除,實現(xiàn)對圖像庫圖像的重新排序輸出;在此基礎上,可重復進行多輪反饋,以優(yōu)化檢索結果。本發(fā)明的有益效果:本發(fā)明方法的主要優(yōu)點在于:(1)采用非監(jiān)督學習方法,通過文本類中的通用視覺詞匯將圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中。該方法與其他語義特征提取方法相比,能夠大大降低語義特征提取復雜度,可直接用于互聯(lián)網(wǎng)大規(guī)模圖像檢索。(2)提出在多示例學習框架下引入半監(jiān)督學習的混合多示例學習方法,解決實際檢索中的小樣本問題。該方法不同于傳統(tǒng)監(jiān)督學習視角下的多示例學習,也有別于多示例半監(jiān)督學習方法。與前者相比,混合多示例學習能夠借助圖像庫中大量的未標記圖像來幫助提高學習器的分類性能;與后者相比,混合多示例學習是在多示例學習框架下解決半監(jiān)督學習的優(yōu)化問題,它能夠對包中示例獲得更優(yōu)的學習結果。以下將結合附圖對本發(fā)明做進一步詳細說明。附圖說明圖1是基于語義傳播及混合多示例學習的Web圖像檢索框架;圖2是BoW模型的基本思想示圖;圖3是圖像語義特征傳播流程圖;圖4是AP算法聚類示意圖;圖4(a)是20個數(shù)據(jù)點間的相似度矩陣S示例圖;圖4(b)是p=median(S),λ=0.9時,AP聚類結果,20個數(shù)據(jù)點被分成了4類;圖5是不同p值AP算法聚類結果;圖5(a)是p=median(S)/2時AP算法聚類結果;圖5(b)是p=median(S)時AP算法聚類結果;圖5(c)是p=median(S)×2時AP算法聚類結果;圖6是通用視覺詞匯示例;圖7是語義特征傳播示意圖;圖8是基于語義傳播及混合多示例學習的圖像檢索結果示例;圖9是Web圖像檢索方法測試實驗結果;圖10是表2給出的圖像庫中的示例圖像。具體實施方式本發(fā)明提供了一種基于語義傳播及混合多示例學習的Web圖像檢索方法,通過利用Web圖像豐富的文本信息來縮小基于內(nèi)容的Web圖像檢索中的語義鴻溝;一般來說,在一個互聯(lián)網(wǎng)圖像庫中,每張圖像都同時對應視覺特征與文本信息。但是,很多情況下,CBIR系統(tǒng)中用戶提交的查詢圖像是沒有附加的文本信息的。因此,基于內(nèi)容的圖像檢索只能在視覺特征空間中進行。為此,將文本所反映的圖像的語義特征傳播給圖像的視覺特征向量。本發(fā)明方法框架如圖1所示?;谡Z義傳播及混合多示例學習的圖像檢索問題可以描述如下:把從互聯(lián)網(wǎng)上獲取的數(shù)萬張圖像及其相應的文本信息當做圖像檢索數(shù)據(jù)庫M,圖像對應的視覺特征集為X={x1,x2,…,xN},對應的文本信息集為D={d1,d2,…,dN},其中N為數(shù)據(jù)庫圖像數(shù)量。因此,一幅圖像Ii∈M可以表示成一個視覺—文本特征對:Ii=(xi,di),需要通過文本信息di將圖像Ii的語義特征反映到它的視覺特征中。給定一張查詢圖像Iq=(xq,φ),基于數(shù)據(jù)庫M的視覺詞典為其生成視覺特征向量xq,然后將查詢圖像的視覺特征向量xq與數(shù)據(jù)庫中每幅圖像的視覺特征向量進行相似度計算,并根據(jù)相似度排序輸出檢索結果。在相關反饋階段,由用戶在檢索結果中標記一定數(shù)量的正例圖像和負例圖像,系統(tǒng)利用有限的標記樣本和更多的無標記樣本進行混合多示例學習優(yōu)化檢索結果。本
發(fā)明內(nèi)容具體包括如下步驟:1、BoW模型由于提取出的圖像視覺特征向量往往存在于高維空間,無論是計算還是存儲都有很大困難,而且高維特征也常常面臨稀疏問題和噪聲問題。為解決上述問題,Li借鑒文本處理的思想,提出了BoW模型,并采用SIFT描述子和BoW模型實現(xiàn)場景圖像的分類。BoW模型已經(jīng)發(fā)展為目前最流行也是極具發(fā)展前途的大規(guī)模圖像匹配方法,該方法將高維特征向量映射到低維空間中,并進行簡潔的編碼,這個簡潔的碼字稱為“視覺詞匯”。這個處理過程通??梢酝ㄟ^降維或編碼技術來實現(xiàn),這樣產(chǎn)生的視覺詞匯便于存儲、索引和計算。在Li之后,許多研究者在圖像檢索過程中采用BoW模型表示圖像特征,其基本思路如下:首先提取訓練集屮的每一幅圖像的局部感興趣特征(如SIFT),然后利用K-means聚類,將上述檢測到的全部SIFT關鍵點通過相似性度量的方式聚集成數(shù)量較大的一些簇;其中每個簇被看作一個視覺詞匯,該視覺詞匯可用于表示該簇內(nèi)部的所有SIFT關鍵點共同具有的某種局部模式,因此可以用一個包含全部視覺詞匯的詞典來描述特征空間中的全體局部模式;基于上述視覺詞典,每一個從原始圖像中檢測出來的SIFT關鍵點都可以被映射為該視覺詞典中的一個視覺詞匯,因此數(shù)據(jù)集中的每幅圖像都可以表示為“一袋視覺詞匯”,如圖2所示。BoW模型采用經(jīng)典的k-means方法對圖像的特征進行聚類。它的目標是將n個特征(x1,…,xn)映射到k個視覺詞匯(ω1,…,ωk)上,其中每一個詞匯就是一個聚類中心,每一個特征被映射到距離它最近的一個詞匯上。算法通過使每一個類的類內(nèi)方差達到最小如式(1)所示,實現(xiàn)將這n個特征映射到k個類別(S1,…,Sk)中:argminSΣi=1kΣj=1n||xj-ωi||2---(1)]]>具體計算步驟如下:(1)初始化,隨機指定k個聚類中心(ω1,…,ωk);(2)分配xi,對所有特征向量xi找到與它距離最近的聚類中心,并將其分配到該類;(3)修正聚類中心,將每一類的均值作為新的聚類中心;(4)計算方差J=Σi=1kΣj=1n||xj-ωi||2---(8)]]>其中,n表示訓練集中所有圖像的全部特征向量的個數(shù)。(5)收斂判斷,如果J收斂,則返回(ω1,…,ωk),算法終止;否則返回(2)。通過研究發(fā)現(xiàn),BoW模型存在以下兩個主要問題:(1)視角變化、環(huán)境光照、遮擋等外界干擾,會嚴重影響視覺特征的聚類;(2)我們不能證明視覺空間鄰近的特征其語義空間的距離也同樣鄰近,即需要更合理的詞匯映射。為解決問題(1),應考慮對圖像提取具有穩(wěn)定不變性的局部特征。采用尺度不變興趣點檢測方法檢測興趣點,然后對每個興趣點統(tǒng)計該興趣點δ×δ鄰域內(nèi)像素的HSV空間顏色直方圖。通過對所有圖像的全部特征向量進行k-means聚類后,將每一幅圖像用若干視覺詞匯表示,之后分別統(tǒng)計視覺詞典中每一個視覺詞匯在該圖像中出現(xiàn)的個數(shù),最終將圖像表示為一個k維(k為視覺詞典的大小)的視覺詞匯直方圖。為解決問題(2),研究者提出將一些附加信息如視覺約束條件等信息引入視覺詞匯的生成過程,或從特征相鄰圖像中選擇有用特征來豐富對圖像的特征描述,但是這些方法通常需要額外的人工學習過程,或需要相當復雜的計算,不適于大規(guī)模圖像檢索。為此,考慮在非監(jiān)督學習框架下,為視覺詞匯的映射過程注入語義特征。2、語義特征傳播由于文本是圖像語義描述的一種有效手段,而互聯(lián)網(wǎng)圖像往往具有標簽(tag)、文件名等文本信息,因此,在非監(jiān)督學習框架下借助文本信息將圖像的語義特征傳播給圖像的視覺特征,其流程如圖3所示。2.1相似度計算采用余弦相似度來度量兩個文本之間的相似度。余弦相似度通過找到兩個v維向量之間的夾角來計算向量之間的相似度,它被廣泛應用于文本挖掘和信息檢索領域中對不同文檔的比較。首先定義一個被索引為{1,2,…,v}的單詞表。每個文檔d∈D用一個v維的termfrequency×inversedocumentfrequency(tf-idf)向量:d=(tfidf1,tfidf2,…,tfidfv)來表示,其中tfidfi是單詞表中第i個單詞的tf-idf值。這樣,兩個文檔dp和dq之間的余弦相似度被定義為:Simcosine(dp,dq)=dp·dq||dp||||dq||---(9)]]>其中,dp表示文檔dp的特征向量。而單詞表中所有單詞的inversedocumentfrequency(idf)值都是基于文檔集合D得到的。由于在BoW模型中,圖像被表示成“一袋視覺詞匯”,因此同樣采用上述余弦相似度度量方法計算兩幅圖像的視覺特征向量xp和xq之間的相似度。2.2圖像聚類采用在Science雜志上提出來的近鄰傳播(affinitypropagation,AP)聚類算法對圖像庫圖像根據(jù)視覺特征相似度和文本信息相似度分別進行聚類。AP聚類算法根據(jù)N個數(shù)據(jù)點之間的相似度進行聚類,這些相似度組成N×N的相似度矩陣S。AP算法不需要事先指定聚類數(shù)目,相反它將所有的數(shù)據(jù)點都作為潛在的聚類中心,稱之為exemplar。兩個數(shù)據(jù)點的相似度采用距離的負數(shù)表示。相似度矩陣S中主對角線上的值s(k,k)表示的是某個點和自身的相似度,一般稱為偏向參數(shù)p(preference),但是這里不直接用0來表示。聚類的數(shù)量受到偏向參數(shù)p的影響,如果認為每個數(shù)據(jù)點都有可能作為聚類中心,那么p就應取相同的值。如果取輸入的相似度的均值作為p的值,得到聚類數(shù)量是中等的。如果取最小值,將得到類數(shù)較少的聚類。AP算法中傳遞兩種類型的消息,r(responsibility)和a(availability)。r(i,k)表示從點i發(fā)送到候選聚類中心k的數(shù)值消息,反映k點是否適合作為i點的聚類中心。a(i,k)表示點i選擇點k作為其聚類中心的適合程度,它通過候選聚類中心k發(fā)送到i的數(shù)值消息,反映i點是否選擇k作為其聚類中心。r(i,k)與a(i,k)越強,則k點作為聚類中心的可能性就越大,并且i點隸屬于以k點為聚類中心的聚類可能性也越大。AP算法通過迭代過程不斷更新每一個點的吸引度和歸屬度值,直到產(chǎn)生m個高質量的exemplar,同時將其余的數(shù)據(jù)點分配到相應的類別中。計算迭代更新如下:r(i,k)=(1-λ)ρ(i,k)+λr(i,k)a(i,k)=(1-λ)α(i,k)+λα(i,k)---(10)]]>其中,λ為阻尼因子,引入λ是避免數(shù)值震蕩;ρ(i,k)和α(i,k)分別為傳播responsibility和傳播availability,分別由下式計算:ρ(i,k)=s(i,k)-maxk′≠k{a(i,k′)+s(i,k′)}(i≠k)s(i,k)-maxk′≠k{s(i,k′)}(i=k)---(11)]]>α(i,k)=min{0,r(i,k)+Σk′≠i,kmax{0,r(k′,k)}}(i≠k)Σk′≠imax{0,r(k′,k)}(i=k)---(12)]]>數(shù)據(jù)點i的exemplar最終被定義為:argmax{r(i,k)+a(i,k)k=1,2,···,N}(13)圖4給出了AP算法聚類示意圖,其中4(a)是一個隨機生成的20個數(shù)據(jù)點之間的相似度矩陣S(兩個數(shù)據(jù)點間的相似度被表示成距離的負數(shù)形式),4(b)是根據(jù)4(a)所示的相似度矩陣S通過AP聚類的結果。圖5給出了隨機生成的50個數(shù)據(jù)點在不同p值時AP算法聚類結果,結果比較見表1。表1不同p值得到的聚類數(shù)目比較由圖5和表1可見,p值大小對AP算法聚類結果影響非常明顯。圖像的聚類將直接影響圖像檢索性能。如果分類過度,將造成檢索查全率降低,而如果分類不足,又會造成檢索查準率下降。為此,使用前面所用到的Corel圖像庫中的1000幅圖像作為實驗圖像庫,將每一幅圖像分別表示為BoW模型,并將p值分別設為median(S)/2,median(S),以及median(S)×2分別進行圖像聚類實驗。因為這1000幅圖像已經(jīng)被劃分成10個類,因此可以直接作為評判分類性能的標準。通過實驗,發(fā)現(xiàn)p=median(S)獲得了最好的分類效果。2.3語義特征傳播為了克服BoW模型的缺陷,采用下面的策略將文本聚類圖中反映出來的圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中。在文本聚類圖中,每一類圖像之間具有相似的文本信息,從而具有相似的語義特征。對每個文本類,將該類中所有圖像的視覺特征向量相加,統(tǒng)計出現(xiàn)頻次最高的P個視覺詞匯作為該文本類的通用視覺詞匯。這些通用視覺詞匯是文本相關圖像中具有普遍性和代表性的視覺詞匯,因此它們具有反映該類圖像語義特征的能力。圖6給出了通用視覺詞匯示例,圖中xi和xj分別表示圖像i和圖像j的視覺詞匯直方圖,通用視覺詞匯將xi和xj中普遍存在、更具代表性的視覺詞匯保留了下來。對于圖像Ii,若其在文本聚類圖中屬于第m類,在視覺聚類圖中屬于第n類,其視覺詞匯直方圖為xi,第m個文本類的通用視覺詞匯直方圖(沒有出現(xiàn)的視覺詞匯的頻次為0)為cm,經(jīng)語義傳播后Ii的視覺詞匯直方圖為x_newi,則語義傳播過程如下式所示:x_newi=s_viks_vik+s_tik′xi+s_tik′s_vik+s_tik′cm---(2)]]>其中,k和k'分別表示第n個視覺類的聚類中心和第m個文本類的聚類中心,s_vik和s_tik'分別表示圖像Ii與其所在的視覺類聚類中心和文本類聚類中心的相似度。圖7給出了語義特征傳播示意圖。如圖所示,圖像1在文本聚類圖中位于第1個類中,因此將第1個文本類的通用視覺詞匯直方圖c1加權后添加到圖像1的視覺詞匯直方圖中,類似地,與圖像1位于同一個視覺類的圖像7恰好和圖像1同樣位于第1個文本類中,因此將第1個文本類的通用視覺詞匯直方圖c1加權后也添加到圖像7的視覺詞匯直方圖中,而與圖像1、7位于同一個視覺類的圖像3、4、9,由于它們在文本聚類圖中沒有和圖像1、7位于同一個文本類中,因此它們的視覺詞匯直方圖將添加其他文本類的通用視覺詞匯直方圖。由此可見,通過上述傳播過程,位于同一個視覺類且又位于同一個文本類的圖像,它們會包含更多相似的視覺詞匯從而變得更加相似;相反,位于同一個視覺類卻位于不同文本類的圖像,它們會包含更多不相同的視覺詞匯從而減少相似性。因此,這種傳播過程使圖像的視覺特征一定程度地蘊含了其語義特征,因而可以提高圖像檢索的查準率與查全率。3、混合多示例學習相關和不相關圖像之間自然地存在相關性和不相關性,可通過相關反饋利用圖像間的關系進一步縮減語義鴻溝。多示例學習方法可以更好地解決圖像檢索歧義性問題,從而有助于縮小CBIR的語義鴻溝。然而目前,MIL算法在CBIR中的應用,大多數(shù)都是有監(jiān)督地利用有標記的訓練圖像(包),較少注意利用大量的未標記圖像。實際檢索中,一方面,CBIR系統(tǒng)中有標記的圖像往往是在與用戶的交互過程中由用戶標注的,在有標記圖像數(shù)量非常有限的前提下獲得好的檢索結果非常重要;另一方面,圖像庫里存在大量的未標記圖像。半監(jiān)督學習是近年來模式識別和機器學習領域研究的一個重點問題,是監(jiān)督學習與非監(jiān)督學習相結合的一種學習方法。它主要考慮如何利用少量的標記樣本和大量的未標記樣本進行訓練和分類的問題。因此,通過引入半監(jiān)督學習來解決圖像檢索中MIL方法遇到的實際問題,這種學習方法稱為混合多示例學習(Hybridmultiple-instancelearning,HMIL)。3.1HMIL定義將圖像各興趣點局塊的局部視覺特征作為示例,則圖像被看成是包含示例的包。設正包、負包和未標記包構成的集合為{B1,···,Bp,Bp+1,···,Bp+q,Bp+q+1,···,Bp+q+r},其中,p、q和r分別表示正包、負包和未標記包的數(shù)量;設所有示例構成的集合為:{b1,···,bu,bu+1,···,bu+v,bu+v+1,···,bu+v+w},其中,u、v和w分別表示所有正包、負包和未標記包中示例的個數(shù)。根據(jù)多示例學習的定義,有標記數(shù)據(jù)即負包中的所有示例(全部都為負示例),半標記數(shù)據(jù)即正包中的所有示例,未標記數(shù)據(jù)即未標記包中的所有示例。注意正包中的示例不能保證都是正的。包Bi的標記用Yi表示,Yi∈{1,-1};示例bi的標記用yi表示,yi∈{1,-1}。對于未標記數(shù)據(jù),可以為其隨機分配一個初始標記。需要找到一個示例級別的分類函數(shù)f,可以把未標記的每個示例分成類別-1或1,從而包級別的分類可根據(jù)f來確定。3.2HMIL求解尋找一個超球B(c,R),其中c表示球心,R表示半徑,滿足:(1)半徑R盡可能小;(2)正包中至少有一個正示例被約束在超球內(nèi),負包中所有負示例都被約束在超球外;(3)對于未標記包,由于并不清楚其正負信息,故對其沒有約束。每個包對應一個松弛項ξi,它求解如下優(yōu)化問題:其中,是核函數(shù),I(i)={j|bj∈Bi}為包Bi中示例的下標集合。通過迭代求解一系列二次凸規(guī)劃問題來實現(xiàn)上述優(yōu)化問題:(1)初始化:構建初始訓練集其中,b‾p+q+i=Σj∈I(p+q+i)bj/|I(p+q+i)|,i=1,2,...,r.]]>(2)訓練:對訓練集進行如下訓練:(3)更新:用對正包中的示例進行計算,記其中,對負包和未標記包中的示例仍按照(1)中的方式進行選擇,然后組建更新后的訓練集合(4)判斷:如果訓練集合更新前后沒有變化,則轉到步驟(5),否則返回步驟(2)。(5)結束:輸出此時的解c、R,得到優(yōu)化的分類函數(shù)根據(jù)分類函數(shù)f,可將前一輪檢索結果中的負包圖像剔除,實現(xiàn)對圖像庫圖像的重新排序輸出。在此基礎上,可重復進行多輪反饋,以優(yōu)化檢索結果。本發(fā)明的實驗結果與分析實驗的平臺為,軟件環(huán)境:MS-Windows7下運行MatlabR2010a;硬件環(huán)境:Corei5-3470CPU,3.20GHz,8.0G內(nèi)存。從Flickr網(wǎng)站(http://www.flickr.com/)抓取了大約1.2萬幅圖像,作為實驗圖像庫。Flickr網(wǎng)站是雅虎旗下圖片分享網(wǎng)站,它允許使用者分享他們的私人照片,也可作為網(wǎng)絡圖片的存放空間,并且能夠給照片標上標簽。這些圖像具有豐富的文本信息,比如圖像標題和攝影作者對圖像的描述等。表2給出了圖像庫中的幾個示例圖像及其文本描述。圖10是表2給出的圖像庫中的示例圖像。如表2所示,如果僅提取圖像的低層視覺特征,那么很難將不同光照,不同拍攝角度,不同拍攝范圍的同類圖像全都檢索出來。表2圖像庫中的示例圖像及其文本描述從圖像庫中隨機選取了50幅圖像作為查詢圖像,這些圖像分別屬于以下7類:Colosseum,EiffelTwer,GoldenGateBridge,TowerdePisa,Starbuckslogo,TowerBridge,和ArcdeTriomphe。首先為實驗圖像庫所有圖像生成BoW模型,用k-means方法生成2000個視覺詞匯庫。在混合多示例學習階段,用戶從檢索結果中標記5幅正例圖像和5幅反例圖像反饋給系統(tǒng),系統(tǒng)對用戶提交的10幅標記圖像和排序最靠前的50幅未標記圖像進行混合多示例學習并優(yōu)化檢索結果。圖8給出了對其中一幅查詢圖像用本發(fā)明方法在進行一次混合多示例學習后的檢索結果。返回30幅圖像,全部檢索正確。由此可見,本發(fā)明提出的基于語義傳播及混合多示例學習的方法可以獲得令人滿意的檢索效果。更進一步地,可采用準確率(Precision)和回想率(Recall)作為評價準則,驗證本發(fā)明方法的檢索性能。實驗中,比較了三種方法:(1)基于BoW模型表示視覺特征的圖像檢索方法(簡稱為Visual),(2)基于語義傳播的圖像檢索方法(簡稱Visual+Text),(3)基于語義傳播及混合多示例學習的圖像檢索方法(簡稱Visual+Text+HMIL,即本發(fā)明的完整方法)。圖9給出了實驗結果。圖中的結果顯示,單純依賴圖像視覺特征的圖像檢索方法檢索結果最差,這也證實了之前的判斷,由于計算機視覺發(fā)展水平的制約,語義鴻溝問題使基于內(nèi)容的圖像檢索實際效果比較差。于此對應的是,通過引入文本信息之后,圖像檢索效果有了很大的提高,這是因為文本信息將語義特征傳遞給了圖像的視覺特征;而在引入混合多示例學習方法之后,圖像檢索性能又有了更進一步地提升。綜上,本發(fā)明為縮減CBIR的語義鴻溝,將圖像的視覺特征與文本信息結合起來進行Web圖像檢索。首先將圖像表示為BoW模型,然后對圖像分別根據(jù)視覺相似度和文本相似度進行聚類,并通過文本類中的通用視覺詞匯將圖像所具有的語義特征傳播到圖像的視覺特征向量中;在相關反饋階段,引入混合多示例學習算法,解決實際檢索過程中的小樣本問題。該檢索方法與傳統(tǒng)CBIR框架相比,以跨模態(tài)方式利用互聯(lián)網(wǎng)圖像的文本信息將圖像的語義特征傳播給視覺特征,并且在基于多示例學習的相關反饋中引入半監(jiān)督學習應對小樣本問題,能夠有效縮減語義鴻溝,并提升Web圖像檢索性能。為了實現(xiàn)對大規(guī)模圖像庫的實時檢索,未來將考慮利用MapReduce分布式計算模型對圖像低層視覺特征之間的相似度和文本信息之間的相似度分別進行計算,以解決大數(shù)據(jù)量的并行計算問題。另外,考慮到興趣點局部圖像塊相對于用戶感興趣物體來說往往太小,一般情況下感興趣物體上都會存在多處這樣的圖像塊,因此未來將結合圖像包中“正”示例的比例以及所有“正”示例與目標特征的距離來定義新的相似度,實現(xiàn)對圖像庫圖像的重新排序輸出。本發(fā)明的優(yōu)點:(1)采用非監(jiān)督學習方法,通過文本類中的通用視覺詞匯將圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中。該方法與其他語義特征提取方法相比,能夠大大降低語義特征提取復雜度,可直接用于互聯(lián)網(wǎng)大規(guī)模圖像檢索。(2)提出在多示例學習框架下引入半監(jiān)督學習的混合多示例學習方法,解決實際檢索中的小樣本問題。該方法不同于傳統(tǒng)監(jiān)督學習視角下的多示例學習,也有別于多示例半監(jiān)督學習方法。與前者相比,混合多示例學習能夠借助圖像庫中大量的未標記圖像來幫助提高學習器的分類性能;與后者相比,混合多示例學習是在多示例學習框架下解決半監(jiān)督學習的優(yōu)化問題,它能夠對包中示例獲得更優(yōu)的學習結果。以上例舉僅僅是對本發(fā)明的舉例說明,并不構成對本發(fā)明的保護范圍的限制,凡是與本發(fā)明相同或相似的設計均屬于本發(fā)明的保護范圍之內(nèi)。當前第1頁1 2 3