1.基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法,其特征在于,包括如下步驟:
步驟1:將圖像表示為BoW模型:
BoW模型采用經(jīng)典的k-means方法對圖像的特征進(jìn)行聚類,其目標(biāo)是將n個(gè)特征(x1,…,xn)映射到k個(gè)視覺詞匯(ω1,…,ωk)上,其中每一個(gè)視覺詞匯就是一個(gè)聚類中心,每一個(gè)特征被映射到距離它最近的一個(gè)詞匯上;如式(1)所示,BoW模型其算法通過使每一個(gè)類的類內(nèi)方差達(dá)到最小,實(shí)現(xiàn)將這n個(gè)特征映射到k個(gè)類別(S1,…,Sk)中:
步驟2:在非監(jiān)督學(xué)習(xí)框架下借助文本信息將圖像的語義特征傳播給圖像的視覺特征,具體包括如下步驟:
步驟2.1:相似度計(jì)算
采用余弦相似度來度量兩幅圖像的文本信息相似度以及兩幅圖像的視覺特征向量相似度;
步驟2.2:圖像聚類
采用近鄰傳播AP聚類算法對圖像庫圖像根據(jù)視覺特征相似度和文本信息相似度分別進(jìn)行聚類;
步驟2.3:語義特征傳播
采用如下的策略將文本聚類圖中反映出來的圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中:
在文本聚類圖中,每一類圖像之間具有相似的文本信息,從而具有相似的語義特征;對每個(gè)文本類,將該類中所有圖像的視覺特征向量相加,統(tǒng)計(jì)出現(xiàn)頻次最高的P個(gè)視覺詞匯作為該文本類的通用視覺詞匯;
對于圖像Ii,若其在文本聚類圖中屬于第m類,在視覺聚類圖中屬于第n類,其視覺詞匯直方圖為xi,第m個(gè)文本類的通用視覺詞匯直方圖為cm,其中沒有出現(xiàn)的視覺詞匯的頻次為0,經(jīng)語義傳播后Ii的視覺詞匯直方圖為x_newi,則語義傳播過程如下式所示:
其中,k和k'分別表示第n個(gè)視覺類的聚類中心和第m個(gè)文本類的聚類中心,s_vik和s_tik'分別表示圖像Ii與其所在的視覺類聚類中心和文本類聚類中心的相似度;
步驟3:引入混合多示例學(xué)習(xí)算法,解決實(shí)際檢索過程中的小樣本問題,具體包括如下步驟:
步驟3.1:HMIL定義
將圖像各興趣點(diǎn)局塊的局部視覺特征作為示例,則圖像被看成是包含示例的包;設(shè)正包、負(fù)包和未標(biāo)記包構(gòu)成的集合為{B1,…,Bp,Bp+1,…,Bp+q,Bp+q+1,…,Bp+q+r},其中,p、q和r分別表示正包、負(fù)包和未標(biāo)記包的數(shù)量;設(shè)所有示例構(gòu)成的集合為:{b1,…,bu,bu+1,…,bu+v,bu+v+1,…,bu+v+w},其中,u、v和w分別表示所有正包、負(fù)包和未標(biāo)記包中示例的個(gè)數(shù);根據(jù)多示例學(xué)習(xí)的定義,有標(biāo)記數(shù)據(jù)即負(fù)包中的所有示例,半標(biāo)記數(shù)據(jù)即正包中的所有示例,未標(biāo)記數(shù)據(jù)即未標(biāo)記包中的所有示例;包Bi的標(biāo)記用Yi表示,Yi∈{1,-1};示例bi的標(biāo)記用yi表示,yi∈{1,-1};對于未標(biāo)記數(shù)據(jù),可以為其隨機(jī)分配一個(gè)初始標(biāo)記;
步驟3.2:HMIL求解
尋找一個(gè)超球B(c,R),其中c表示球心,R表示半徑,同時(shí)滿足:(1)半徑R盡可能小;(2)正包中至少有一個(gè)正示例被約束在超球內(nèi),負(fù)包中所有負(fù)示例都被約束在超球外;(3)對于未標(biāo)記包,由于并不清楚其正負(fù)信息,故對其沒有約束;每個(gè)包對應(yīng)一個(gè)松弛項(xiàng)ξi,它求解如下優(yōu)化問題:
其中,是核函數(shù),I(i)={j|bj∈Bi}為包Bi中示例的下標(biāo)集合。
2.如權(quán)利要求1所述的基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法,其特征在于,在步驟1中,所述BoW模型的具體實(shí)施步驟如下:
2.1)興趣點(diǎn)檢測
(1)對圖像I(x,y),其中x表示圖像像素的橫坐標(biāo),y表示圖像像素的縱坐標(biāo),按下式計(jì)算尺度空間L(x,y,σ):
L(x,y,σ)=G(x,y,σ)*I(x,y) (4)
其中,*表示卷積運(yùn)算,G(x,y,σ)為可變尺度的高斯函數(shù),σ為高斯函數(shù)的標(biāo)準(zhǔn)差,σ∈[2,8],
(2)計(jì)算尺度空間高斯差值函數(shù)D(x,y,σ):
其中,k表示尺度空間中兩個(gè)圖像的尺度間隔;
(3)定義尺度空間的自相關(guān)矩陣A為:
其中,δi表示積分尺度,δd微分尺度,fx和fy分別表示x和y方向上的導(dǎo)數(shù),表示對f做高斯濾波;記A的兩個(gè)特征值λ1和λ2為自相關(guān)函數(shù)的主曲率;
(4)不同尺度空間的興趣點(diǎn)檢測公式為:
C(x,y,δi,δd)=det(A(x,y,δi,δd))-α·trace2(A(x,y,δi,δd))=λ1·λ2-α·(λ1+λ2)
(7)
其中,α為取值范圍在0.04~0.06的常數(shù),判斷C的局部極大值坐標(biāo)是否落在多尺度空間極值點(diǎn)δ×δ鄰域內(nèi);若在鄰域內(nèi)則保留該極值點(diǎn)作為興趣點(diǎn),否則剔除;
(5)將發(fā)生重疊的興趣點(diǎn)進(jìn)行合并,具體做法是:對興趣點(diǎn)按照測度值進(jìn)行由大到小排序,然后依次計(jì)算興趣點(diǎn)對之間的距離,如果距離小于閾值2δ,則合并它們,即把測度值小的興趣點(diǎn)去掉;經(jīng)過上述處理之后,便確定最終的興趣點(diǎn)集合;
2.2)特征向量生成
對每個(gè)興趣點(diǎn)統(tǒng)計(jì)該興趣點(diǎn)δ×δ鄰域內(nèi)像素的HSV空間顏色直方圖作為該興趣點(diǎn)對應(yīng)的特征向量;圖像中所有興趣點(diǎn)的特征向量組成該圖像的特征向量;
2.3)k均值聚類
對訓(xùn)練集中所有圖像的全部特征向量進(jìn)行k-means聚類,生成描述圖像的視覺詞典;這樣,每一幅圖像可以用若干視覺詞匯表示,之后分別統(tǒng)計(jì)視覺詞典中每一個(gè)視覺詞匯在該圖像中出現(xiàn)的個(gè)數(shù),最終將圖像表示為一個(gè)k維的視覺詞匯直方圖;k-means聚類具體步驟如下:
(1)初始化,隨機(jī)指定k個(gè)聚類中心(ω1,…,ωk);
(2)分配xi,對所有特征向量xi找到與它距離最近的聚類中心,并將其分配到該類;
(3)修正聚類中心,將每一類的均值作為新的聚類中心;
(4)計(jì)算方差
其中,n表示訓(xùn)練集中所有圖像的全部特征向量的個(gè)數(shù)。
(5)收斂判斷,如果J收斂,則返回(ω1,…,ωk),算法終止;否則返回(2)。
3.如權(quán)利要求1所述的基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法,其特征在于,在步驟2.1中,所述余弦相似度是通過找到兩個(gè)v維向量之間的夾角來計(jì)算向量之間的相似度,其過程如下:
首先定義一個(gè)被索引為{1,2,…,v}的單詞表;每個(gè)文檔d∈D用一個(gè)v維的tf-idf向量d=(tfidf1,tfidf2,…,tfidfv)來表示,其中tfidfi是單詞表中第i個(gè)單詞的tf-idf值;這樣,兩個(gè)文檔dp和dq之間的余弦相似度被定義為:
其中,dp表示文檔dp的特征向量;而單詞表中所有單詞的idf值都是基于文檔集合D得到的;
同樣,采用上述余弦相似度度量方法計(jì)算兩幅圖像的視覺特征向量xp和xq之間的相似度。
4.如權(quán)利要求1所述的基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法,其特征在于,在步驟2.2中,采用AP聚類算法對圖像庫圖像根據(jù)視覺特征相似度和文本信息相似度分別進(jìn)行聚類;AP聚類算法根據(jù)N個(gè)數(shù)據(jù)點(diǎn)之間的相似度進(jìn)行聚類,這些相似度組成N×N的相似度矩陣S;AP聚類算法將所有的數(shù)據(jù)點(diǎn)都作為潛在的聚類中心,稱之為exemplar;兩個(gè)數(shù)據(jù)點(diǎn)的相似度采用距離的負(fù)數(shù)表示;相似度矩陣S中主對角線上的值s(k,k)表示的是某個(gè)點(diǎn)和自身的相似度,稱為偏向參數(shù)p,但這里不直接用0來表示;聚類的數(shù)量受到偏向參數(shù)p的影響,如果認(rèn)為每個(gè)數(shù)據(jù)點(diǎn)都有可能作為聚類中心,那么p就應(yīng)取相同的值;如果取輸入的相似度的均值作為p的值,得到聚類數(shù)量是中等的;如果取最小值,將得到類數(shù)較少的聚類;AP聚類算法中傳遞兩種類型的消息,即r類型的消息和a類型的消息;r(i,k)表示從點(diǎn)i發(fā)送到候選聚類中心k的數(shù)值消息,反映k點(diǎn)是否適合作為i點(diǎn)的聚類中心;a(i,k)表示點(diǎn)i選擇點(diǎn)k作為其聚類中心的適合程度,它通過候選聚類中心k發(fā)送到i的數(shù)值消息,反映i點(diǎn)是否選擇k作為其聚類中心;AP聚類算法通過迭代過程不斷更新每一個(gè)點(diǎn)的吸引度和歸屬度值,直到產(chǎn)生m個(gè)高質(zhì)量的exemplar,同時(shí)將其余的數(shù)據(jù)點(diǎn)分配到相應(yīng)的類別中,其計(jì)算迭代更新如下:
其中,λ為阻尼因子,引入λ是避免數(shù)值震蕩;ρ(i,k)和α(i,k)分別為傳播r類型的消息和傳播a類型的消息,分別由下式計(jì)算:
數(shù)據(jù)點(diǎn)i的exemplar最終被定義為:
argmax{r(i,k)+a(i,k) k=1,2,…,N} (13)。
5.如權(quán)利要求1所述的基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法,其特征在于,步驟2.3中,采用如下的策略將文本聚類圖中反映出來的圖像所具有的潛在語義特征傳播到圖像的視覺特征向量中:
在文本聚類圖中,每一類圖像之間具有相似的文本信息,從而具有相似的語義特征;對每個(gè)文本類,將該類中所有圖像的視覺特征向量相加,統(tǒng)計(jì)出現(xiàn)頻次最高的P個(gè)視覺詞匯作為該文本類的通用視覺詞匯;
對于圖像Ii,若其在文本聚類圖中屬于第m類,在視覺聚類圖中屬于第n類,其視覺詞匯直方圖為xi,第m個(gè)文本類的通用視覺詞匯直方圖為cm,其中沒有出現(xiàn)的視覺詞匯的頻次為0,經(jīng)語義傳播后Ii的視覺詞匯直方圖為x_newi,則語義傳播過程如下式所示:
其中,k和k'分別表示第n個(gè)視覺類的聚類中心和第m個(gè)文本類的聚類中心,s_vik和s_tik'分別表示圖像Ii與其所在的視覺類聚類中心和文本類聚類中心的相似度。
6.如權(quán)利要求1所述的基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法,其特征在于,步驟3.1中,引入混合多示例學(xué)習(xí)HMIL算法解決實(shí)際檢索過程中的小樣本問題;所述混合多示例學(xué)習(xí)定義如下:
將圖像各興趣點(diǎn)局塊的局部視覺特征作為示例,則圖像被看成是包含示例的包;設(shè)正包、負(fù)包和未標(biāo)記包構(gòu)成的集合為{B1,…,Bp,Bp+1,…,Bp+q,Bp+q+1,…,Bp+q+r},其中,p、q和r分別表示正包、負(fù)包和未標(biāo)記包的數(shù)量;設(shè)所有示例構(gòu)成的集合為:{b1,…,bu,bu+1,…,bu+v,bu+v+1,…,bu+v+w},其中,u、v和w分別表示所有正包、負(fù)包和未標(biāo)記包中示例的個(gè)數(shù);根據(jù)多示例學(xué)習(xí)的定義,有標(biāo)記數(shù)據(jù)即負(fù)包中的所有示例,半標(biāo)記數(shù)據(jù)即正包中的所有示例,未標(biāo)記數(shù)據(jù)即未標(biāo)記包中的所有示例;其中正包中的示例不保證都是正的;包Bi的標(biāo)記用Yi表示,Yi∈{1,-1};示例bi的標(biāo)記用yi表示,yi∈{1,-1};對于未標(biāo)記數(shù)據(jù),可以為其隨機(jī)分配一個(gè)初始標(biāo)記;則需要找到一個(gè)示例級別的分類函數(shù)f,可以把未標(biāo)記的每個(gè)示例分成類別-1或1,從而包級別的分類可根據(jù)f來確定。
7.如權(quán)利要求1所述的基于語義傳播及混合多示例學(xué)習(xí)的Web圖像檢索方法,其特征在于,步驟3.2中,通過迭代求解一系列二次凸規(guī)劃問題來實(shí)現(xiàn)所述HMIL求解,具體包括如下步驟:
(1)初始化:構(gòu)建初始訓(xùn)練集
其中,
(2)訓(xùn)練:對訓(xùn)練集進(jìn)行如下訓(xùn)練:
(3)更新:用對正包中的示例進(jìn)行計(jì)算,記其中,對負(fù)包和未標(biāo)記包中的示例仍按照(1)中的方式進(jìn)行選擇,然后組建更新后的訓(xùn)練集合
(4)判斷:如果訓(xùn)練集合更新前后沒有變化,則轉(zhuǎn)到步驟(5),否則返回步驟(2);
(5)結(jié)束:輸出此時(shí)的解c、R,得到優(yōu)化的分類函數(shù)
根據(jù)分類函數(shù)f,將前一輪檢索結(jié)果中的負(fù)包圖像剔除,實(shí)現(xiàn)對圖像庫圖像的重新排序輸出;在此基礎(chǔ)上,可重復(fù)進(jìn)行多輪反饋,以優(yōu)化檢索結(jié)果。