專利名稱:一種基于半監(jiān)督主題建模的圖像標(biāo)注方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機(jī)器學(xué)習(xí)中的半監(jiān)督學(xué)習(xí)技術(shù)領(lǐng)域,特別是涉及一種基于主題建模的圖像標(biāo)注方法。
背景技術(shù):
近年來,由于數(shù)碼相機(jī)越來越普及,個(gè)人的數(shù)碼照片數(shù)目急劇上升,同時(shí)在因特網(wǎng)上分享照片也越來越普及,為了挖掘大型照片集合的潛在價(jià)值,用戶需要能夠有效的檢索到所需要的圖像。圖像標(biāo)注,是將文本和圖像的語義內(nèi)容聯(lián)系起來的技術(shù),是一個(gè)很好的減少語義差距的方式并可以用于圖像檢索的中間步驟。使得用戶可以通過文本查詢對圖像進(jìn)行檢索,并且在語義方面,相對于基于內(nèi)容的檢索能提供更好的結(jié)果。近年來,圖像標(biāo)注已經(jīng)吸引了越來越多的研究興趣。圖像標(biāo)注最基礎(chǔ)的問題在于怎樣對不同模式之間的關(guān)系進(jìn)行建模,這些模式包括視覺特征,文本標(biāo)注以及可能出現(xiàn)的圖像的潛在主題,不同圖像之間的關(guān)系。潛在主題建模在該問題上是一種很有效的解決方式。總體來講,基于模型的方法具有較好的效率和穩(wěn)定性,而它的主要不足在于可能存在不充分的建模。如果模型不能完全描述問題領(lǐng)域,它的推斷值也會(huì)不準(zhǔn)確。例如如果數(shù)據(jù)不是按照高斯分布進(jìn)行分布,對它進(jìn)行高斯建模就會(huì)出現(xiàn)問題。對于圖像標(biāo)注,由于圖像內(nèi)容的多樣化,總是很難對其進(jìn)行充分的可能性建模。相反的,傳統(tǒng)的基于相似性的方法,如譜聚類和流正規(guī)化,并不需要采用具體的數(shù)據(jù)可能性結(jié)構(gòu),只需要對每組數(shù)據(jù)實(shí)例對定義相似性函數(shù)即可。這種方法在半監(jiān)督的內(nèi)容學(xué)習(xí)上已表現(xiàn)得非常成功。在應(yīng)用于正規(guī)化時(shí),這種方法同樣可以運(yùn)用于可能性模型。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于半監(jiān)督主題建模的圖像標(biāo)注的方法。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案如下I)從互聯(lián)網(wǎng)上得到圖像,包括已有文本標(biāo)注的圖像,以及未標(biāo)注圖像;2)利用一種類似于概率潛在語義分析的模型,對所有圖像的視覺特征和文本標(biāo)注之間的聯(lián)系通過潛在主題進(jìn)行建模;3)構(gòu)建所有圖像的最近鄰圖,并根據(jù)由最近鄰圖進(jìn)行建模得到的流形結(jié)構(gòu)對步驟2)的模型進(jìn)行調(diào)整;4)通過期望最大化算法學(xué)習(xí)步驟2)的模型,并分別計(jì)算各個(gè)潛在主題與圖像匹配的概率;5)根據(jù)潛在主題匹配圖像的概率計(jì)算每個(gè)文本標(biāo)注匹配未標(biāo)注圖像的概率,并選擇概率最聞的文本標(biāo)注對未標(biāo)記圖像進(jìn)行標(biāo)注。 I.步驟2)中的建模過程是按照如下方式進(jìn)行的對于每個(gè)圖像i,首先用向量Fi表示圖像視覺特征,向量Wi來表示圖像文本標(biāo)注,其中Fi = {f1;…,fj ,其中fu表示第u個(gè)視覺特征單詞在第i個(gè)圖片中出現(xiàn)的次數(shù)!Wi = (W1,…,wn},其中Wv表示第V個(gè)文本標(biāo)注單詞在第i個(gè)圖片中出現(xiàn)的次數(shù)。并假設(shè)fi (其中i = 1,…,n)服從多項(xiàng)式分布Jz..,Wi (其中i = 1,…,n)服從多項(xiàng)式分布0二,未標(biāo)注圖像Wi = O;然后用多項(xiàng)分布a建模圖像與潛在主題關(guān)系,最后得到所有圖像與潛在主題的匹配概率的和為L,L的計(jì)算公式如下
權(quán)利要求
1.一種基于半監(jiān)督主題建模的圖像標(biāo)注方法,其特征在于 1)從互聯(lián)網(wǎng)上得到圖像,包括已有文本標(biāo)注的圖像,以及未標(biāo)注圖像; 2)利用一種類似于概率潛在語義分析的模型,對所有圖像的視覺特征和文本標(biāo)注之間的聯(lián)系通過潛在主題進(jìn)行建模; 3)構(gòu)建所有圖像的最近鄰圖,并根據(jù)由最近鄰圖進(jìn)行建模得到的流形結(jié)構(gòu)對步驟2)的豐吳型進(jìn)行調(diào)整; 4)通過期望最大化算法學(xué)習(xí)步驟2)的模型,并分別計(jì)算各個(gè)潛在主題與圖像匹配的概率; 5)根據(jù)潛在主題匹配圖像的概率計(jì)算每個(gè)文本標(biāo)注匹配未標(biāo)注圖像的概率,并選擇概率最聞的文本標(biāo)注對未標(biāo)注圖像進(jìn)行標(biāo)注。
2.根據(jù)權(quán)利要求I所述的一種半監(jiān)督下的基于主題建模的圖像標(biāo)注的方法,其特征在于步驟2)中的建模過程是按照如下方式進(jìn)行的對于每個(gè)圖像i,首先用向量Fi表示圖像視覺特征,向量Wi來表示圖像文本標(biāo)注,其中Fi = {f1; ···, fj ,其中fu表示第u個(gè)視覺特征單詞在第i個(gè)圖片中出現(xiàn)的次數(shù);Wi = (W1,…,wn},其中Wv表示第V個(gè)文本標(biāo)注單詞在第i個(gè)圖片中出現(xiàn)的次數(shù)。
并假設(shè)fi (其中i = 1,…,η)服從多項(xiàng)式分布Pz" Wi (其中i = 1,…,η)服從多項(xiàng)式分布,未標(biāo)注圖像Wi = O ;然后用多項(xiàng)分布α建模圖像與潛在主題Zi的關(guān)系, 最后得到所有圖像與潛在主題的匹配概率的對數(shù)似然為L,L的計(jì)算公式如下
3.根據(jù)權(quán)利要求I所述的一種半監(jiān)督下的基于主題建模的圖像標(biāo)注的方法,其特征在于步驟3)中的最近鄰圖的構(gòu)造方法為,所有圖像構(gòu)成最近鄰圖的點(diǎn),若圖像i與圖像j的文本標(biāo)注和視覺特征的重合度達(dá)到某個(gè)閥值,則在最近鄰圖中創(chuàng)建一條連接圖像i與圖像j的邊。
4.根據(jù)權(quán)利要求I所述的一種半監(jiān)督下的基于主題建模的圖像標(biāo)注的方法,其特征在于步驟4)中使用期望最大化算法計(jì)算學(xué)習(xí)步驟2)的模型,并分別計(jì)算各個(gè)潛在主題與圖像匹配的概率,以及三個(gè)多項(xiàng)式分布a,β,Φ。
5.根據(jù)權(quán)利要求I所述的一種半監(jiān)督下的基于主題建模的圖像標(biāo)注的方法,其特征在于步驟5)中利用步驟4)所得到的結(jié)果,從而獲得文本標(biāo)注匹配未標(biāo)注圖像的概率,并選取概率最大的文本標(biāo)注對未標(biāo)注圖像進(jìn)行標(biāo)注,文本標(biāo)注匹配未標(biāo)注圖像的概率P(Wv)的計(jì)算公式如下
全文摘要
本發(fā)明公開了一種基于半監(jiān)督主題建模的圖像標(biāo)注方法。本發(fā)明的方法首先從互聯(lián)網(wǎng)上得到圖像,包括已有文本標(biāo)注的圖像,以及未標(biāo)注圖像。接著利用一種類似于概率潛在語義分析的模型,對所有圖像的視覺特征和文本標(biāo)注之間的聯(lián)系通過潛在主題進(jìn)行建模。然后構(gòu)建所有圖像的最近鄰圖,并根據(jù)由最近鄰圖進(jìn)行建模得到的流形結(jié)構(gòu)對模型進(jìn)行調(diào)整。通過期望最大化算法學(xué)習(xí)該模型,并分別計(jì)算各個(gè)潛在主題與圖像匹配的概率。最后根據(jù)潛在主題匹配圖像的概率計(jì)算每個(gè)文本標(biāo)注匹配未標(biāo)注圖像的概率,并選擇概率最高的文本標(biāo)注對未標(biāo)注圖像進(jìn)行標(biāo)注。
文檔編號G06F17/30GK102637199SQ201210050398
公開日2012年8月15日 申請日期2012年2月29日 優(yōu)先權(quán)日2012年2月29日
發(fā)明者何曉飛, 倪雅博, 卜佳俊, 陳純 申請人:浙江大學(xué)