專利名稱:基于有向圖非等概率隨機搜索的圖像自動標注方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機多媒體技術(shù)領(lǐng)域,特別涉及一種基于有向圖非等概率隨機搜索的圖像自動標注方法及裝置。
背景技術(shù):
隨著社區(qū)網(wǎng)絡(luò)和數(shù)碼攝像技術(shù)的迅猛發(fā)展帶來網(wǎng)絡(luò)圖像數(shù)據(jù)的爆炸式增長,如何對如此海量的圖像數(shù)據(jù)進行有效的存儲、管理和檢索成為一個嚴峻的挑戰(zhàn)和急迫的需求。 傳統(tǒng)的基于圖像周邊文本的檢索(如Google圖像搜索)由于周邊文本噪聲太大而無法達到較好的檢索精度,而基于圖像內(nèi)容的檢索(CBIR)技術(shù)則由于無法跨越圖像底層特征與高層語義之間的“語義鴻溝”(Semantic Gap)而得不到廣泛的認可和應(yīng)用。近年來的研究表明,基于圖像語義內(nèi)容的自動標注技術(shù)將很可能成為以上問題的有效解決途徑。圖像自動標注是指對于一張沒有或只有極少文本描述的圖像,根據(jù)其底層特征, 由計算機自動尋找出能夠有效描述其語義內(nèi)容的文本標簽。圖像標注的目標是將圖像數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù),并且保證轉(zhuǎn)化的過程中能最大程度上保留圖像的語義。通過語義近似等價的轉(zhuǎn)換,添加的文本標簽可被用于圖像的索引和檢索等等,從而方便了后續(xù)的管理和應(yīng)用。圖像標注最根本的問題是如何從圖像的底層特征映射到高層語義。在計算機領(lǐng)域中,圖像的表示是二進制流,而對于生物認知而言,圖像本身包含著大量的概念等高層語義信息, 如何跨越二進制流和高層語義之間的鴻溝便是圖像標注需要集中解決的問題。現(xiàn)有圖像自動標注方法總體上可以劃分為兩大類基于模型的標注方法和數(shù)據(jù)驅(qū)動的標注方法。基于模型的圖像自動標注方法主要采用的是分類器方法和統(tǒng)計模型方法。分類器方法將標注問題轉(zhuǎn)化為分類問題,通常是將每一個候選標簽視為一個類別,并通過訓(xùn)練數(shù)據(jù)為每一個候選標簽訓(xùn)練相應(yīng)的分類器,再由分類器判斷待標注圖像所屬的類別,則這些類別所對應(yīng)的標簽將作為標注的結(jié)果。統(tǒng)計模型的基本思想是通過應(yīng)用概率模型等統(tǒng)計學方法在訓(xùn)練數(shù)據(jù)集上建立起圖像或圖像區(qū)域與文本標簽之間的關(guān)系模型,然后根據(jù)待標注圖像的底層特征,通過應(yīng)用該關(guān)系模型直接評估各個標簽的權(quán)重,最終選擇權(quán)重最大的若干個標簽作為標注的結(jié)果。統(tǒng)計模型在圖像自動標注方面的應(yīng)用包括以下幾種將機器翻譯的思想應(yīng)用到圖像標注中,首先將訓(xùn)練數(shù)據(jù)集中的圖像進行區(qū)域分割和聚類作為“詞袋”,然后應(yīng)用期望最大化(Expectation Maximization)算法,為每一個 “詞袋”分配相應(yīng)的文本標簽,從而建立起“詞袋”與標簽之間的關(guān)系模型。而對于待標注圖像,也可通過區(qū)域分割,并根據(jù)各個區(qū)域所對應(yīng)的“詞袋”獲取相應(yīng)的文本標簽作為標注結(jié)^ ο在“詞袋”量化的基礎(chǔ)上,根據(jù)條件概率思想建立起了另一個標注模型一給定待標注圖像的“詞袋”表示(假設(shè)為Ib1, b2,... bm}),利用訓(xùn)練集上的統(tǒng)計數(shù)據(jù)評估出為其標注上某一個標簽W的概率P (W Ib1, b2,...bm),最終取條件概率最大的若干個候選標簽作為標注結(jié)果。利用貝葉斯法則和獨立假設(shè)將上述概率公式P(w|b1; b2,...bm)進一步改寫為
權(quán)利要求
1.一種基于有向圖非等概率隨機搜索的圖像自動標注方法,其特征在于,包括如下步驟輸入待標注圖像和已標注圖像集,提取所述待標注圖像的多個特征向量,根據(jù)所述多個特征向量計算所述待標注圖像與所述已標注圖像集中的每一個已標注圖像的融合距離, 并選取所述融合距離小的前k個已標注圖像形成近鄰圖像集,所述近鄰圖像集中所有圖像的標簽作為候選標簽集;計算所述近鄰圖像集中的每一個圖像在所述待標注圖像重構(gòu)過程中的權(quán)重值以及所述近鄰圖像集中的每一個已標注圖像在所述近鄰圖像集中的其他已標注圖像重構(gòu)過程中的權(quán)重值,根據(jù)所述權(quán)重值構(gòu)建視覺依賴矩陣F,計算所述近鄰圖像集中的任意兩個圖像的共有標簽數(shù)量,根據(jù)所述共有標簽數(shù)量和所述近鄰圖像集中的每一個圖像的標簽數(shù)量構(gòu)建標簽依賴矩陣C,將所述視覺依賴矩陣F和所述標簽依賴矩陣C進行融合和隨機游走得到穩(wěn)定依賴關(guān)系矩陣A,以所述待標注圖像和近鄰圖像集中的每一個圖像作為節(jié)點,以所述穩(wěn)定依賴關(guān)系矩陣A的元素作為與所述節(jié)點相關(guān)聯(lián)的有向邊的權(quán)重,構(gòu)建針對所述待標注圖像的有向圖模型;計算所述候選標簽集中的任意兩個標簽的詞義相似度,根據(jù)所述標簽詞義相似度構(gòu)建標簽間的詞義相似度矩陣Se,計算所述候選標簽集中任意兩個標簽間的共生關(guān)系矩陣Co, 將所述詞義相似度矩陣Se和標簽間的共生關(guān)系矩陣Co進行融合得到標簽相似矩陣TT ;和對所述候選標簽集中的每一個候選標簽在所述有向圖模型進行非等概率隨機搜索以獲得所述每一個候選標簽的得分,按照所述得分對所有候選標簽進行排序,將得分高的前u 個候選標簽作為標注結(jié)果。
2.如權(quán)利要求1所述的圖像自動標注方法,其特征在于,所述計算待標注圖像與已標注圖像集中的每一個已標注圖像的融合距離,包括如下步驟基于所述待標注圖像的多個特征向量的每一個,計算所述待標注圖像與所述每一個已標注圖像的對應(yīng)特征向量的距離,對與待標注圖像的每種特征向量相對應(yīng)的距離進行歸一化處理,以得到歸一化距離dx ;根據(jù)所述待標注圖像的每種特征向量在計算所述融合距離中所占的比重,將所述多種特征向量對應(yīng)的歸一化距離dx進行融合,得到融合距離d, d =∑w(x).d(x)(1≤x≤n) 其中,d為融合距離,Wx表示所述待標注圖像的第X種特征向量在計算所述融合距離中所占的比重,dx表示第X種特征對應(yīng)的歸一化距離,η表示所述待標注圖像的特征的種類個數(shù),其中 Χ e [1,2,··η]。
3.如權(quán)利要求1所述的圖像自動標注方法,其特征在于,所述計算所述近鄰圖像集中的每一個圖像在所述待標注圖像重構(gòu)過程中的權(quán)重值,包括如下步驟通過將所述待標注圖像的特征向量&與重構(gòu)向量Σ 之間的二次范式值最小,計IjeK算所述近鄰圖像集中的每一個圖像在所述待標注圖像重構(gòu)過程中的權(quán)重值,其中,&為待標注圖像I的特征向量,fO為近鄰圖像集中的圖像Ij的特征向量,j e [1, 2,... k],所述近鄰圖像集包括圖像U1, I2,..., IJ,ω」為所述近鄰圖像集中的圖像Ij在所述待標注圖像重構(gòu)過程中的權(quán)重值,所述計算所述近鄰圖像集中的每一個已標注圖像在所述近鄰圖像集中的其他已標注圖像重構(gòu)過程中的權(quán)重值,包括如下步驟通過將所述近鄰圖像集中的圖像Ij的特征向量f;與重構(gòu)向量“ Σ之間的二次范式值最小,計算所述近鄰圖像集中的每一個已標注圖像在所述其他已標注圖像重構(gòu)過程中的權(quán)重值,
4.如權(quán)利要求3所述的圖像自動標注方法,其特征在于,根據(jù)所述待標注圖像及所述近鄰圖像集中的每一個圖像在重構(gòu)過程中的權(quán)重值構(gòu)建視覺依賴矩陣F,
5.如權(quán)利要求4所述的圖像自動標注方法,其特征在于,所述構(gòu)建標簽依賴矩陣C,包括如下步驟計算所述標簽依賴矩陣C的第i行第j列元素Cy,Ci, J為圖像Ii對圖像Ij的標簽依賴量,
6.如權(quán)利要求5所述的圖像自動標注方法,其特征在于,所述將視覺依賴矩陣F和所述標簽依賴矩陣進行融合并通過隨機游走得到穩(wěn)定依賴關(guān)系矩陣A,包括如下步驟將所述視覺依賴矩陣F和所述標簽依賴矩陣C進行融合得到依賴關(guān)系矩陣G,G= α F+(l-a )C其中,α為視覺依賴關(guān)系矩陣F在計算依賴關(guān)系矩陣G中的權(quán)重值;對所述依賴關(guān)系矩陣G進行隨機游走,得到穩(wěn)定依賴關(guān)系矩陣A,A = (1-β)6(Ε-β6) “1,其中,G為依賴關(guān)系矩陣,E為單位矩陣,β為所述依賴關(guān)系矩陣G中的每個權(quán)重值向后繼節(jié)點傳播的概率。
7.如權(quán)利要求6所述的圖像自動標注方法,其特征在于,所述構(gòu)建針對所述待標注圖像的有向圖模型,包括如下步驟以所述待標注圖像和所述近鄰圖像集中的每一個圖像作為節(jié)點,所述穩(wěn)定依賴關(guān)系矩陣A的元素作為與所述節(jié)點相關(guān)聯(lián)的有向邊上的權(quán)重,構(gòu)建針對所述待標注圖像的有向圖模型。
8.如權(quán)利要求1所述的圖像自動標注方法,其特征在于,所述構(gòu)建標簽間的詞義相似度矩陣Se,包括如下步驟計算所述標簽間的詞義相似度矩陣Se的第i行第j列元素Sey,Seiij為標簽、和標簽、的詞義相似度,其中,、為第i個候選標簽,tj為第j個候選標簽;以及根據(jù)所述詞義相似度Sey構(gòu)建所述標簽間的詞義相似度矩陣Se。
9.如權(quán)利要求8所述的圖像自動標注方法,其特征在于,所述計算所述候選標簽集中標簽間的共生關(guān)系矩陣Co,包括如下步驟計算所述標簽間的共生關(guān)系矩陣Co的第i行第j列元素Coy,Coi, j為標簽、和標簽 、之間的共生關(guān)系,
10.如權(quán)利要求9所述的圖像自動標注方法,其特征在于,所述將所述詞義相似度矩陣 Se和標簽間的共生關(guān)系矩陣Co進行融合得到標簽相似矩陣TT,TT = γ Se+(Ii) Co,其中,Y為所述詞義相似度矩陣Se在計算所述標簽相似矩陣TT中的權(quán)重值。
11.如權(quán)利要求10所述的圖像自動標注方法,其特征在于,所述對每一個候選標簽在所述有向圖模型進行非等概率隨機搜索預(yù)測所述每一個候選標簽的得分,包括如下步驟計算所述每一個候選標簽的得分期望r (ti),
12.一種基于有向圖非等概率隨機搜索的圖像自動標注裝置,其特征在于,包括 近鄰圖像集獲取模塊,所述近鄰圖像集獲取模塊用于接收待標注圖像和已標注圖像集,提取所述待標注圖像的多個特征向量,根據(jù)所述多個特征向量計算所述待標注圖像與所述已標注圖像集中的每一個已標注圖像的融合距離,并選取所述融合距離小的前k個已標注圖像形成近鄰圖像集,所述近鄰圖像集中所有圖像的標簽作為候選標簽集;計算模塊,所述計算模塊用于計算所述近鄰圖像集中的每一個圖像在所述待標注圖像重構(gòu)過程中的權(quán)重值以及所述近鄰圖像集中的每一個圖像在所述近鄰圖像集中的其他已標注圖像重構(gòu)過程中的權(quán)重值,根據(jù)所述權(quán)重值構(gòu)建視覺依賴矩陣F,計算所述近鄰圖像集中的任意兩個圖像的共有標簽數(shù)量,根據(jù)所述共有標簽數(shù)量和所述近鄰圖像集中的每一個圖像的標簽數(shù)量構(gòu)建標簽依賴矩陣C,并且計算所述候選標簽集中的任意兩個標簽的詞義相似度,根據(jù)所述標簽詞義相似度構(gòu)建標簽間的詞義相似度矩陣Se,計算所述候選標簽集中的任意兩個標簽間的共生關(guān)系矩陣Co ;融合模塊,所述融合模塊用于將所述視覺依賴矩陣F和所述標簽依賴矩陣C進行融合并通過隨機游走得到穩(wěn)定依賴關(guān)系矩陣A,以及將所述詞義相似度矩陣Se和標簽間的共生關(guān)系矩陣Co進行融合得到標簽相似矩陣TT ;有向圖模型建立模塊,所述有向圖模型建立模塊用于以所述待標注圖像和近鄰圖像集中的每一個圖像作為節(jié)點,以所述穩(wěn)定依賴關(guān)系矩陣A的元素作為與所述節(jié)點相關(guān)聯(lián)的有向邊的權(quán)重,構(gòu)建針對所述待標注圖像的有向圖模型;和隨機搜索模塊,所述隨機搜索模塊用于對所述候選標簽集中的每一個候選標簽在所述有向圖模型進行非等概率隨機搜索以獲得所述每一個候選標簽的得分,按照所述得分對所有候選標簽進行排序,將得分高的前u個候選標簽作為標注結(jié)果。
13.如權(quán)利要求12所述的圖像自動標注裝置,其特征在于,所述近鄰圖像集獲取模塊基于所述待標注圖像的多個特征向量的每一個,計算所述待標注圖像與所述每一個已標注圖像的對應(yīng)特征向量的距離,對與待標注圖像的每種特征向量相對應(yīng)的距離進行歸一化處理,以得到歸一化距離dx ;根據(jù)所述待標注圖像的每種特征向量在計算所述融合距離中所占的比重,將所述多種特征向量對應(yīng)的歸一化距離dx進行融合,得到融合距離d,
14.如權(quán)利要求12所述的圖像自動標注裝置,其特征在于,所述計算模塊通過將所述待標注圖像的特征向量A與重構(gòu)向量
15.如權(quán)利要求14所述的圖像自動標注裝置,其特征在于,根據(jù)所述待標注圖像及所述近鄰圖像集中的每一個圖像在重構(gòu)過程中的權(quán)重值構(gòu)建視覺依賴矩陣F,
16.如權(quán)利要求15所述的圖像自動標注裝置,其特征在于,所述計算模塊計算所述標簽依賴矩陣C的第i行第j列元素Cu,Ci, J為圖像Ii對圖像Ij的標簽依賴量,
17.如權(quán)利要求16所述的圖像自動標注裝置,其特征在于,所述融合模塊將所述視覺依賴矩陣F和所述標簽依賴矩陣C進行融合得到依賴關(guān)系矩陣G,G= α F+(l-a )C其中,α為視覺依賴關(guān)系矩陣F在計算依賴關(guān)系矩陣G中的權(quán)重值;所述融合模塊對所述依賴關(guān)系矩陣G進行隨機游走,得到穩(wěn)定依賴關(guān)系矩陣A,A =其中,G為依賴關(guān)系矩陣,E為單位矩陣,β為所述依賴關(guān)系矩陣G中的每個權(quán)重值向后繼節(jié)點傳播的概率。
18.如權(quán)利要求17所述的圖像自動標注裝置,其特征在于,所述有向圖模型建立模塊以所述待標注圖像和所述近鄰圖像集中的每一個圖像作為節(jié)點,所述穩(wěn)定依賴關(guān)系矩陣A 的元素作為與所述節(jié)點相關(guān)聯(lián)的有向邊上的權(quán)重,構(gòu)建針對所述待標注圖像的有向圖模型。
19.如權(quán)利要求12所述的圖像自動標注裝置,其特征在于,所述計算模塊計算所述標簽間的詞義相似度矩陣Se的第i行第j列元素Sei, j, Sei, j為標簽、和標簽、的詞義相似度,其中^為第i個候選標簽,、為第j個候選標簽;所述計算模塊根據(jù)所述詞義相似度 Seiij構(gòu)建所述標簽間的詞義相似度矩陣Se。
20.如權(quán)利要求19所述的圖像自動標注裝置,其特征在于,所述計算模塊計算所述標簽間的共生關(guān)系矩陣Co的第i行第j列元素Com,COm為標簽、和標簽、之間的共生關(guān)系,
21.如權(quán)利要求20所述的圖像自動標注裝置,其特征在于,所述融合模塊將所述詞義相似度矩陣Se和標簽間的共生關(guān)系矩陣Co進行融合得到標簽相似矩陣TT,TT = γ Se+(Ii) Co,其中,Y為所述詞義相似度矩陣Se在計算所述標簽相似矩陣TT中的權(quán)重值。
22.如權(quán)利要求21所述的圖像自動標注裝置,其特征在于,所述隨機搜索模塊對每一個候選標簽在所述有向圖模型進行非等概率隨機搜索預(yù)測所述每一個候選標簽的得分,包括計算所述每一個候選標簽的得分期望Hti),
全文摘要
本發(fā)明公開了一種基于有向圖非等概率隨機搜索的圖像自動標注方法,包括輸入待標注圖像和已標注圖像集,提取待標注圖像的多個特征向量,選取近鄰圖像集;構(gòu)建針對待標注圖像的有向圖模型;計算標簽間的詞義相似度矩陣Se和標簽間的共生關(guān)系矩陣Co,將詞義相似度矩陣Se和標簽間的共生關(guān)系矩陣Co進行融合得到標簽相似矩陣TT;對候選標簽集中的每一個候選標簽在有向圖模型中進行非等概率隨機搜索以計算得分,取得分高的多個候選標簽作為標注結(jié)果。本發(fā)明還公開了一種基于有向圖非等概率隨機搜索的圖像自動標注方法裝置。本發(fā)明充分合理地利用圖像間的依賴關(guān)系和標簽之間的相似關(guān)系,可以有效地進行圖像的自動標注,具有較好的標注效果。
文檔編號G06F17/30GK102298605SQ20111014703
公開日2011年12月28日 申請日期2011年6月1日 優(yōu)先權(quán)日2011年6月1日
發(fā)明者丁貴廣, 林梓佳 申請人:清華大學