一種圖片語義自動(dòng)標(biāo)注方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種圖片語義自動(dòng)標(biāo)注方法與系統(tǒng),涉及圖像語義自動(dòng)標(biāo)注技術(shù)。本發(fā)明公開的系統(tǒng)包括:部件一、針對已帶有圖片標(biāo)注的圖片數(shù)據(jù)集,構(gòu)建基于n元圖片的索引;部件二、對待標(biāo)注圖片進(jìn)行預(yù)處理,提取圖像n元;部件三、從所構(gòu)建的基于n元圖片的索引中檢索所提取的圖像n元對應(yīng)的所有語義標(biāo)簽,計(jì)算所檢索出的圖像n元對應(yīng)的語義標(biāo)簽的概率值;部件四、更新所有語義標(biāo)簽的概率值;部件五、按照更新后的概率值對所有語義標(biāo)簽進(jìn)行排序,將概率值排序中達(dá)到設(shè)定值的一個(gè)或多個(gè)語義標(biāo)簽輸出。本發(fā)明還公開了一種圖片語義自動(dòng)標(biāo)注方法。本申請技術(shù)方案應(yīng)用于圖像自動(dòng)語義標(biāo)注中,能快速、高效的挖掘出豐富的圖像語義標(biāo)注。
【專利說明】—種圖片語義自動(dòng)標(biāo)注方法與系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像語義自動(dòng)標(biāo)注技術(shù),具體涉及一種基于n-gram圖片索引結(jié)構(gòu)的圖片語義自動(dòng)標(biāo)注方法與系統(tǒng),主要應(yīng)用于圖像語義自動(dòng)標(biāo)注和圖像檢索領(lǐng)域。
【背景技術(shù)】
[0002]所謂圖像自動(dòng)標(biāo)注(Automatic Image Annotation, ΑΙΑ),就是讓計(jì)算機(jī)能夠自動(dòng)給圖像添加上能夠反應(yīng)圖片內(nèi)容或者用戶意圖的文本標(biāo)簽。利用已經(jīng)帶有了反應(yīng)圖片語義信息的文本信息的圖像集,或者其他對挖掘圖像深層語義信息有幫助的資源。學(xué)習(xí)圖像的深層語義概念空間與圖像底層原始特征空間的函數(shù)關(guān)系。并利用該模型對其他未知語義信息內(nèi)容圖像進(jìn)行自動(dòng)標(biāo)注。
[0003]總體來說,目前進(jìn)行圖像語義自動(dòng)標(biāo)注的方法,主要集中在運(yùn)用機(jī)器學(xué)習(xí)對圖片進(jìn)行語義標(biāo)注上。雖然基于機(jī)器學(xué)習(xí)的圖片語義標(biāo)注已經(jīng)被研究了很多年,并且有了長足的進(jìn)展,同時(shí)人們提出了很多的圖片表示新形式,嘗試了很多多類標(biāo)分類器。但是圖片的語義標(biāo)注效果和效率,并不能令人滿意;對語義鴻溝的縮小仍然沒有突破性的進(jìn)展;離實(shí)際的應(yīng)用還有很大差距。特別是當(dāng)訓(xùn)練數(shù)據(jù)質(zhì)量不夠理想或者數(shù)據(jù)集和類別集非常大時(shí),大多數(shù)的算法的性能都會急劇下降。這主要是因?yàn)?,這些模型都需要首先提供已經(jīng)標(biāo)注的數(shù)據(jù)集,然后利用復(fù)雜的機(jī)器學(xué)習(xí)算法,對大量的分類器的參數(shù)進(jìn)行優(yōu)化。最后通過得到的每個(gè)類別的分類器,挖掘未知圖像的語義標(biāo)簽。這樣對訓(xùn)練集的要求就比較高,而且不同人對同一幅圖片的標(biāo)注的歧義性也比較大。當(dāng)訓(xùn)練集的標(biāo)簽數(shù)量和選取的特征較為復(fù)雜時(shí),需要通過分類器優(yōu)化的參數(shù)的數(shù)量將會非常大,這類方法不能適應(yīng)現(xiàn)今互聯(lián)網(wǎng)時(shí)代圖像數(shù)量爆炸增長的形式。
[0004]而且大多數(shù)機(jī)器學(xué)習(xí)算法由于時(shí)間復(fù)雜度的問題,忽略了圖像中物體的空間信息,而是盡量多的提取圖像的底層特征信息,并將不同的底層特征信息進(jìn)行融合,進(jìn)而去訓(xùn)練相應(yīng)的分離器。這樣當(dāng)訓(xùn)練集發(fā)生變化時(shí),所有訓(xùn)練過程都需要重新做一遍,因此當(dāng)前的機(jī)器學(xué)習(xí)算法大多運(yùn)用在訓(xùn)練數(shù)據(jù)集較小,需要標(biāo)注的圖片屬于特定領(lǐng)域的問題上。
【發(fā)明內(nèi)容】
[0005]本發(fā)明所要解決的技術(shù)問題是,提供一種圖片語義自動(dòng)標(biāo)注方法與系統(tǒng),以提高圖片語義自動(dòng)標(biāo)注的效率與效果。
[0006]為了解決上述技術(shù)問題,本發(fā)明公開了一種圖片語義自動(dòng)標(biāo)注系統(tǒng),包括:
[0007]部件一、針對已帶有圖片標(biāo)注的圖片數(shù)據(jù)集,構(gòu)建基于η元圖片的索引;
[0008]部件二、對待標(biāo)注圖片進(jìn)行預(yù)處理,提取圖像η元;
[0009]部件三、從所構(gòu)建的基于η元圖片的索引中檢索所提取的圖像η元對應(yīng)的所有語義標(biāo)簽,計(jì)算所檢索出的圖像η元對應(yīng)的語義標(biāo)簽的概率值;
[0010]部件四、更新所有語義標(biāo)簽的概率值;
[0011]部件五、按照更新后的概率值對所有語義標(biāo)簽進(jìn)行排序,將概率值排序中達(dá)到設(shè)定值的一個(gè)或多個(gè)語義標(biāo)簽輸出。
[0012]較佳地,上述系統(tǒng)中,所述部件一構(gòu)建的基于η元圖片的索引的結(jié)構(gòu)以圖像η元為索引,以圖像標(biāo)注和圖像詳細(xì)信息為索引對象。
[0013]較佳地,上述系統(tǒng)中,所述部件三按照如下公式計(jì)算所檢索出的圖像η元對應(yīng)的語義標(biāo)簽的概率值:
[0014]
【權(quán)利要求】
1.一種圖片語義自動(dòng)標(biāo)注系統(tǒng),其特征在于,該系統(tǒng)包括: 部件一、針對已帶有圖片標(biāo)注的圖片數(shù)據(jù)集,構(gòu)建基于η元圖片的索引; 部件二、對待標(biāo)注圖片進(jìn)行預(yù)處理,提取圖像η元; 部件三、從所構(gòu)建的基于η元圖片的索引中檢索所提取的圖像η元對應(yīng)的所有語義標(biāo)簽,計(jì)算所檢索出的圖像η元對應(yīng)的語義標(biāo)簽的概率值; 部件四、更新所有語義標(biāo)簽的概率值; 部件五、按照更新后的概率值對所有語義標(biāo)簽進(jìn)行排序,將概率值排序中達(dá)到設(shè)定值的一個(gè)或多個(gè)語義標(biāo)簽輸出。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于, 所述部件一構(gòu)建的基于η元圖片的索引的結(jié)構(gòu)以圖像η元為索引,以圖像標(biāo)注和圖像詳細(xì)信息為索引對象。
3.如權(quán)利要求1或2所述的系統(tǒng),其特征在于,所述部件三按照如下公式計(jì)算所檢索出的圖像η元對應(yīng)的語義標(biāo)簽的概率值:
4.如權(quán)利要求3所述的系統(tǒng),其特征在于,所述部件四更新所有語義標(biāo)簽的概率值指: 初始化待標(biāo)注圖片的各語義標(biāo)簽的概率值為O,更新語義標(biāo)簽的概率值,直至圖片中所有的元都被檢索到。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述部件四按照如下公式更新語義標(biāo)簽的概率值:
6.一種圖片語義自動(dòng)標(biāo)注方法,其特征在于,該方法包括: 針對已帶有圖片標(biāo)注的圖片數(shù)據(jù)集,構(gòu)建基于η元圖片的索引; 對待標(biāo)注圖片進(jìn)行預(yù)處理,提取圖像η元,從所構(gòu)建的基于η元圖片的索引中檢索所提取的圖像η元對應(yīng)的所有語義標(biāo)簽,計(jì)算所檢索出的圖像η元對應(yīng)的語義標(biāo)簽的概率值;更新所有語義標(biāo)簽的出現(xiàn)概率值,按照更新后的出現(xiàn)概率值對所有語義標(biāo)簽進(jìn)行排序,將出現(xiàn)概率值排序中達(dá)到設(shè)定值的一個(gè)或多個(gè)語義標(biāo)簽輸出。
7.如權(quán)利要求6所述的方法,其特征在于,所構(gòu)建的基于η元圖片的索引的結(jié)構(gòu)以圖像η元為索引,以圖像標(biāo)注和圖像詳細(xì)信息為索引對象。
8.如權(quán)利要求6或7所述的方法,其特征在于,按照如下公式計(jì)算所檢索出的圖像η元對應(yīng)的語義標(biāo)簽的概率值:
9.如權(quán)利要求8所述的方法,其特征在于,更新所有語義標(biāo)簽的概率值指: 初始化待標(biāo)注圖片的各語義標(biāo)簽的概率值為O,更新語義標(biāo)簽的概率值,直至圖片中所有的元都被檢索到。
10.如權(quán)利要求9所述的方法,其特征在于,按照如下公式更新語義標(biāo)簽的概率值:
P(sun Iimg) = 1-(l_p(sun|img)).(1-p(sun|img, (I,I)))式中:p(sun| img)-待標(biāo)注圖像img中被標(biāo)注為sun的概率權(quán)值,其中,sun標(biāo)簽為圖像η元對應(yīng)的語義標(biāo)簽;P (sun img, (I, I))-待標(biāo)注圖 片img中,出現(xiàn)(I, I)的條件下,sun標(biāo)簽出現(xiàn)的概率。
【文檔編號】G06K9/46GK103853792SQ201210521573
【公開日】2014年6月11日 申請日期:2012年12月7日 優(yōu)先權(quán)日:2012年12月7日
【發(fā)明者】陸平, 董振江, 羅圣美, 劉麗霞, 陳清財(cái), 劉勝宇, 戶保田 申請人:中興通訊股份有限公司, 哈爾濱工業(yè)大學(xué)深圳研究生院