專利名稱:基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)多媒體技術(shù)領(lǐng)域,尤其涉及一種基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法。
背景技術(shù):
在多媒體檢索領(lǐng)域中,基于內(nèi)容的檢索系統(tǒng)預(yù)先得到圖像或視頻的視覺感知特征(如顏色直方圖、紋理、形狀、運(yùn)動(dòng)矢量等),查詢時(shí)要求用戶提供描述所需圖像的特征,然后進(jìn)行匹配。這種查詢方式普通用戶難以理解,很難推廣使用。另外,視覺感知特征很難反映圖像所表達(dá)的概念,查詢準(zhǔn)確率不高。人們更傾向于使用關(guān)鍵詞在語義層上進(jìn)行查詢,但圖像數(shù)據(jù)中存在著“語義鴻溝”,使得傳統(tǒng)的基于內(nèi)容的圖像檢索技術(shù)無法滿足用戶的需求。
圖像標(biāo)注能有效地彌補(bǔ)語義缺失給檢索帶來的麻煩,但是巨大的人力,物力代價(jià)使得純手工的標(biāo)注變得不切實(shí)際,而且圖像寓意豐富,而手工標(biāo)注存在主觀性,從而導(dǎo)致圖像檢索的不準(zhǔn)確性。
圖像自動(dòng)標(biāo)注算法采用了統(tǒng)計(jì)模型,希望通過機(jī)器學(xué)習(xí)的方法自動(dòng)標(biāo)注圖像,這些模型將標(biāo)注過程看成是將圖像翻譯成文本內(nèi)容的過程。
在第一屆多媒體智能存儲(chǔ)和檢索管理會(huì)議論中(In First International Workshop onMultimedia Intelligent Storage and Retrieval Management)公布了一種Co-occurrence的模型中,研究人員將圖像劃分成規(guī)則區(qū)域,然后將這些區(qū)域進(jìn)行分類,根據(jù)不同類別的圖像區(qū)域和關(guān)鍵詞的共生概率來計(jì)算圖像應(yīng)該被賦予某一關(guān)鍵詞的概率大小。而計(jì)算機(jī)視覺歐洲2002會(huì)議論文集中(In Proceedings of 7thEuropean Conference on Computer Vision,pp.97-112,2002)則使用了blob詞組的概念,每一張圖像都可以看作是由一些blob詞匯組成的語句。他們提出了一種轉(zhuǎn)換模型(Translate Model),來計(jì)算將一張由blob組成的圖像轉(zhuǎn)換成由某些關(guān)鍵詞組成的標(biāo)注結(jié)果的概率。另外一種有效的方式是使用SIGIR2003年會(huì)議論文集中(InProceedings of SIGIR 03 Conference,Toronto,Canada,2003)提出的跨媒體相關(guān)模型(FACMRMModel)。這個(gè)模型計(jì)算每個(gè)關(guān)鍵詞和blob組的聯(lián)合分布概率作為將這一關(guān)鍵詞標(biāo)注給圖像的依據(jù)。
然而,以上的這些方法都存在著一個(gè)詞頻分布畸形的問題,根據(jù)研究表明,在自動(dòng)標(biāo)注模型中作為匹配圖像和關(guān)鍵詞的重要依據(jù)就是圖像區(qū)域和已標(biāo)注關(guān)鍵詞的共生統(tǒng)計(jì)。因此如果關(guān)鍵詞“X”和某一類圖像區(qū)域共生頻率遠(yuǎn)高于其它關(guān)鍵詞和這一類圖像區(qū)域的共生頻率的時(shí)候,這個(gè)關(guān)鍵詞“X”就應(yīng)該以極大的概率標(biāo)注給包含這類圖像區(qū)域的圖像。根據(jù)Zipf’s定律,即極少數(shù)的關(guān)鍵詞頻繁出現(xiàn)在訓(xùn)練圖像中,在標(biāo)注的結(jié)果中,這些高頻的少數(shù)關(guān)鍵詞將會(huì)占所有被標(biāo)注關(guān)鍵詞的絕大多數(shù)。這就意味著,除非用戶使用這些少數(shù)的關(guān)鍵詞進(jìn)行語義檢索,否則,只有少量的圖像能夠被檢索出來。隨著數(shù)據(jù)量的增大,這個(gè)問題帶來的負(fù)面效應(yīng)將會(huì)越來越明顯。
發(fā)明內(nèi)容
本發(fā)明的目的是為了克服已有圖像自動(dòng)標(biāo)注算法的不足之處,提出了一種基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法。
它包括訓(xùn)練標(biāo)注圖像集和圖像自動(dòng)標(biāo)注兩部份,其中(1)訓(xùn)練標(biāo)注圖像集包括如下步驟a)對(duì)于訓(xùn)練圖像集分類,用分類算法將標(biāo)注圖像集分成內(nèi)容一致的圖像集;b)用關(guān)鍵詞集合和圖像語義子塊來表示語義骨架,;(2)圖像自動(dòng)標(biāo)注包括如下步驟a)對(duì)于圖像自動(dòng)標(biāo)注,先將未標(biāo)注的圖像分類到已構(gòu)造語義骨架的某一個(gè)圖像集中,b)再將該圖像進(jìn)行分割,并用語義骨架中的語義子塊進(jìn)行表示,計(jì)算語義骨架中每一個(gè)關(guān)鍵詞w可以表示該未標(biāo)注圖像I的概率P(w|I),P(w|I)的計(jì)算公式如下所示P(w|I)≈P(w|b1,b2…bm)≈p(w,b1,b2…bm) 1P(w|b1,b2...bm)=ΣJ∈TiP(J)P(w,b1,b2...bm|J)---2]]>P(w|b1,b2...bm)=ΣJ∈TiP(J)P(w|J)Πk=1mP(bk|J)---3]]>P(w|J)=(1-α)×#(w,J)×Order(w,J)|J|+α×#(w,Ti)×AvgOrder(w,Ti)|Ti|---4]]>P(b|J)=(1-β)×#(b,J)×OrderB(b,J)|J|+β×#(b,Ti)×AvgOrderB(b,Ti)|Ti|---5]]>其中Ti表示待標(biāo)注圖像I被分到的圖像語義類;|Ti|表示語義骨架Ti中的圖像的個(gè)數(shù);J為圖像語義類Ti中的圖像;|J|是圖像J中的語義子塊和關(guān)鍵詞數(shù)目總和;w為語義骨架Ti中關(guān)鍵詞集合中的詞;b為圖像語義子塊;#(w,J)是w在J中出現(xiàn)的次數(shù),#(w,Ti)是w在語義Ti中出現(xiàn)的次數(shù);#(b,J)是b在J中出現(xiàn)的次數(shù),#(b,Ti)是b在語義Ti中出現(xiàn)的次數(shù);Order(w,J)為w在圖像J中的位置信息,表示w在J中的語義重要性;AvgOrder(w,Ti)為w在語義類別Ti中的語義重要性的均值;OrderB(b,J)表示b在圖像J中的視覺重要性;AvgOrdeB(b,Ti)為b在語義類別Ti中的視覺重要性的均值;先驗(yàn)概率P(J)保持唯一,用J在語義類別Ti中的出現(xiàn)概率表示。
c)選擇最大概率的若干關(guān)鍵詞作為該未標(biāo)注圖像的標(biāo)注詞。
在基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法中,所述的標(biāo)注重要性次序包括語義重要性和視覺重要性。
語義重要性是指關(guān)鍵詞集合中的關(guān)鍵詞w在訓(xùn)練圖像J中的重要性,用Order(w,J)表示;每一個(gè)訓(xùn)練圖像都有一段注釋文字s用于解決圖像J的語義,則Order(w,J)定義為 關(guān)鍵詞w在語義骨架Ti語義重要性的均值定義為AvgOrder(w,Ti),其計(jì)算如下AvgOrder(w,Ti)=1#(w,Ti)ΣJ∈Ti,w∈JOrder(w,J)---7]]>其中#(w,Ti)表示關(guān)鍵詞w在語義骨架Ti中出現(xiàn)的次數(shù),J表示語義骨架Ti中的圖像。
視覺重要性是指圖像語義子塊b在訓(xùn)練圖像J中的重要性,用OrderB(b,J)表示,其計(jì)算公式如下OrderB(b,J)=Size(b)Distance(b)---8]]>其中Size(b)表示b在圖像J中的面積,Distan ce(b)表示b離圖像J中心的距離;圖像子塊b在語義骨架Ti的視覺重要性的均值定義為AvgOrderB(b,Ti),其計(jì)算如下AvgOrderB(b,Ti)=1#(b,Ti)ΣJ∈Ti,b∈JOrderB(b,J)---9]]>其中#(b,Ti)表示圖像語義子塊b在語義骨架Ti中出現(xiàn)的次數(shù),J表示語義骨架Ti中的圖像。
所述的用關(guān)鍵詞集合和圖像語義子塊來表示語義骨架的步驟如下(1)每一個(gè)訓(xùn)練圖像都有一段注釋文字s用于解決圖像J的語義,將訓(xùn)練集中每個(gè)圖像的注釋文字s中的名詞和形容詞提取出來構(gòu)成的集合作為關(guān)鍵詞集合;(2)語義子塊集合描述了整個(gè)圖像集包含的所有語義子塊,采用圖像分割算法結(jié)合聚類算法構(gòu)造語義子塊集合先對(duì)訓(xùn)練集中的每一個(gè)圖像進(jìn)行分割,形成若干子塊,然后進(jìn)行聚類,形成的聚類中心就是語義子塊,這樣每一個(gè)圖都可以用語義子塊表示;(3)在形成語義骨架時(shí),計(jì)算關(guān)鍵詞和圖像子塊的重要性次序,該重要性次序用描述文本的詞序順序和圖像子塊的大小位置來表示;對(duì)于描述前景主體和背景環(huán)境的名詞和位于圖像中心或區(qū)域面積較大的子塊,其重要性較大。
本發(fā)明的基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法具有如下的有益效果本發(fā)明應(yīng)用了關(guān)鍵詞順序和圖像區(qū)域順序解決了原有相關(guān)模型在圖像自動(dòng)標(biāo)注應(yīng)用上帶來的詞頻分布畸形問題,在解決了詞頻分布畸形的同時(shí)使被標(biāo)注圖片包含了更多的有效關(guān)鍵詞,這將提高圖像檢索的準(zhǔn)確度,增加圖像檢索的性能。
圖1為基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法工作流程圖;圖2為本發(fā)明與其他模型低頻關(guān)鍵詞被標(biāo)注的覆蓋率的比較圖;圖3為本發(fā)明在實(shí)施例中的圖像子集“馬”所含的圖像集合圖;圖4為本發(fā)明在實(shí)施例中的語義子塊“馬”所含的圖像子塊集合圖;圖5為本發(fā)明在實(shí)施例中的語義子塊“草地”所含的圖像子塊集合圖;圖6為本發(fā)明在實(shí)施例中的待標(biāo)注圖;圖7為本發(fā)明在實(shí)施例中的分割后的圖像子塊圖。
具體實(shí)施例方式
如圖1所示,在流程圖中,先把訓(xùn)練圖像集按底層特征進(jìn)行分類,形成一系列內(nèi)容一致的圖像集。每一個(gè)圖像集經(jīng)過圖像分割、圖像子塊聚類、統(tǒng)計(jì)學(xué)習(xí)得到一個(gè)語義骨架。在標(biāo)注過程中,將未標(biāo)注圖像進(jìn)行分類,用從屬的圖像集的語義子塊表示該圖像的子塊,再計(jì)算語義骨架中的每一個(gè)關(guān)鍵詞的概率,最后選擇最大概率的若干關(guān)鍵詞作為未標(biāo)注圖像的語義本發(fā)明的具體步驟如下1.訓(xùn)練標(biāo)注圖像集1)訓(xùn)練圖像集分類(步驟101)將訓(xùn)練標(biāo)注圖像集基于底層特征進(jìn)行分類,每一類都形成一個(gè)內(nèi)容一致的圖像集。
2)形成語義骨架(步驟102)假設(shè)C是一個(gè)已經(jīng)具有文本標(biāo)注并且內(nèi)容一致的圖像集合,C中的每個(gè)圖像I的標(biāo)注信息可以表示成I={w1,w2,…,wm},其中wi((1≤i≤m)是標(biāo)注的關(guān)鍵詞。圖像集合的語義骨架Skeleton可以定義成一個(gè)四元組Skeleton=<ID,KeywordSet,SemanticBlobSet>,各項(xiàng)的含義如下ID圖像集合的標(biāo)識(shí)KeywordSet關(guān)鍵詞集合SemanticBlobSet語義子塊集合關(guān)鍵詞集合和語義子塊集合是語義骨架的主要部分。關(guān)鍵詞集合的構(gòu)造把C中每個(gè)圖像的關(guān)鍵詞提取出來構(gòu)成的集合就可以作為KeywordSet={w1,w2,...,wM},描述I的每個(gè)關(guān)鍵詞就是KeywordSet中的某一項(xiàng)。語義子塊集合SemanticBlobSet={b1,b2,…,bM}抽象地描述整個(gè)圖像集合包含的關(guān)鍵圖像對(duì)象,其中每一項(xiàng)bj(1≤j≤N)抽象地描述了C擁有的一個(gè)有效關(guān)鍵對(duì)象。一般說來,可以采用圖像分割結(jié)合聚類算法構(gòu)造語義子塊集合首先對(duì)C中的每個(gè)圖像進(jìn)行分割,形成若干個(gè)子塊。考慮屬于C的所有子塊,對(duì)這些子塊進(jìn)行聚類。語義子塊集合就由這些子塊的聚類構(gòu)成,其中bi(1≤f≤N)是各個(gè)子塊的聚類標(biāo)識(shí)。
構(gòu)造了語義骨架后,可以把集合中的圖像I表示成語義骨架的一個(gè)實(shí)例。對(duì)屬于I的每個(gè)圖像子塊,從SemanticBlobSet中找出與它最相似的聚類b,來標(biāo)識(shí)它。這樣I就可以表示成I={w1,w2,...,wm;b1,b2,...,bn}。語義骨架包含的關(guān)鍵詞集合和語義子塊集合分別在語義級(jí)別和底層特征級(jí)上描述了圖像集合,可以通過求取它們之間的相關(guān)性,達(dá)到語義自動(dòng)標(biāo)注的目的。
在形成語義骨架的同時(shí)計(jì)算重要性次序。在訓(xùn)練圖像中,每一個(gè)訓(xùn)練圖像都有一段注釋文字s用于解決圖像J的語義,這段所帶的描述文本的詞序順序反映了不同關(guān)鍵詞對(duì)圖像的不同重要性,用Order(w,J)表示關(guān)鍵詞集合中的關(guān)鍵詞w在訓(xùn)練圖像J中的重要性,由于作為描述前景主體和背景環(huán)境的名詞比形容詞更能體現(xiàn)圖像語義,因此這些詞體現(xiàn)了更多的重要性,對(duì)于這些詞,就增加其權(quán)重,Order(w,J)的計(jì)算公式如下 關(guān)鍵詞w在語義骨架Ti語義重要性的均值定義為AvgOrder(w,Ti),其計(jì)算如下AvgOrder(w,Ti)=1#(w,Ti)ΣJ∈Ti,w∈JOrder(w,J)]]>其中#(w,Ti)表示關(guān)鍵詞w在語義骨架Ti中出現(xiàn)的次數(shù),J表示語義骨架Ti中的圖像。
對(duì)于圖像子塊,可以發(fā)現(xiàn)位于圖像中心的或者區(qū)域面積比較大的子塊,一般反映了圖像的語義信息,可以用圖像區(qū)域中心的距離值和圖像區(qū)域的大小來反映圖像子塊的重要性信息。
用Order(w,J)表示w在圖像J中的位置信息,表示w在J中的語義重要性;用OrderB(b,J)為 表示圖像子塊b在圖像J中的視覺重要性,其中Size(b)表示b在圖像J中的面積,Dis tan ce(b)表示b離圖像J中心的距離。
圖像子塊b在語義骨架Ti的視覺重要性的均值定義為AvgOrderB(b,Ti),其計(jì)算如下AvgOrderB(b,Ti)=1#(b,Ti)ΣJ∈Ti,b∈JOrderB(b,J)]]>其中#(b,Ti)表示圖像語義子塊b在語義骨架Ti中出現(xiàn)的次數(shù),J表示語義骨架Ti中的圖像。
2.圖像自動(dòng)標(biāo)注假設(shè)由K類圖像組成的訓(xùn)練集為T=T1∪T2∪…∪TK,其中Ti表示第i類已標(biāo)注的訓(xùn)練圖像集合。采用訓(xùn)練圖像標(biāo)注集的方法,為每一類圖像構(gòu)造語義骨架,每一個(gè)訓(xùn)練圖像J都可以表示為J={w1,w2,...,wm;b1,b2,…,bn},wi是第i個(gè)標(biāo)注關(guān)鍵詞,bj對(duì)應(yīng)于圖像第j個(gè)子塊的標(biāo)識(shí)。每個(gè)訓(xùn)練圖像對(duì)應(yīng)的m和n不必相同,且n取決于圖像的復(fù)雜程度。
1)未標(biāo)注圖像分類(步驟103)為了更加準(zhǔn)備的對(duì)圖像進(jìn)行自動(dòng)標(biāo)注,首先對(duì)未標(biāo)注的圖像進(jìn)行分類。假設(shè)一個(gè)未標(biāo)注的圖像I被自動(dòng)分到類別Ti中。
2)用語義子塊表示未標(biāo)注圖像(步驟104)將未標(biāo)注圖像進(jìn)行分割,然后以Ti的語義骨架為標(biāo)準(zhǔn),計(jì)算I中每個(gè)圖像子塊與Ti中語義子塊的相似性,用語義子塊的標(biāo)識(shí)。這樣I就可以表示成I={b1,b2,…,bn}。
3)自動(dòng)標(biāo)注(步驟105)自動(dòng)標(biāo)注希望選取一組最合適的關(guān)鍵詞{w1,w2,…,wm}作為I的文本標(biāo)注,即選取若干個(gè)概率P(w|I)最大的關(guān)鍵詞w。由于訓(xùn)練集中的圖像用關(guān)鍵詞和語義子塊兩種不同的方式描述同一個(gè)主題(圖像內(nèi)容),標(biāo)注過程可以看成是把語義子塊翻譯成關(guān)鍵詞的過程,P(w|I)可以按下式進(jìn)行計(jì)算P(w|I)≈P(w|b1,b2…bm)≈p(w,b1,b2…bm)P(w|b1,b2...bm)=ΣJ∈TiP(J)P(w,b1,b2...bm|J)]]>P(w|b1,b2...bm)=ΣJ∈TiP(J)P(w|J)Πi=1mP(bi|J)]]>P(w|J)=(1-α)×#(w,J)×Order(w,J)|J|+α×#(w,Ti)×AvgOrder(w,Ti)|Ti|]]>P(b|J)=(1-β)×#(b,J)×OrderB(b,J)|J|+β×#(b,Ti)×AvgOrderB(b,Ti)|Ti|]]>其中Ti表示待標(biāo)注圖像I被分到的圖像語義類;|Ti|表示語義骨架Ti中的圖像的個(gè)數(shù);J為圖像語義類Ti中的圖像;|J|是圖像J中的語義子塊和關(guān)鍵詞數(shù)目總和;w為語義骨架Ti中關(guān)鍵詞集合中的詞;b為圖像語義子塊;#(w,J)是w在J中出現(xiàn)的次數(shù),#(w,Ti)是w在語義Ti中出現(xiàn)的次數(shù);#(b,J)是b在J中出現(xiàn)的次數(shù),#(b,Ti)是b在語義Ti中出現(xiàn)的次數(shù);Order(w,J)為w在圖像J中的位置信息,表示w在J中的語義重要性;AvgOrder(w,Ti)為w在語義類別Ti中的語義重要性的均值;OrderB(b,J)表示b在圖像J中的視覺重要性;AvgOrderB(b,Ti)為b在語義類別Ti中的視覺重要性的均值;先驗(yàn)概率P(J)保持唯一,用J在語義類別Ti中的出現(xiàn)概率表示。
為了考察本發(fā)明的性能,使用Corel圖像庫中5000幅圖像作為實(shí)驗(yàn)數(shù)據(jù)集,分為50類,每類有100個(gè)圖像,從中抽取90張作為訓(xùn)練數(shù)據(jù),10張作為測(cè)試數(shù)據(jù)。整個(gè)訓(xùn)練庫分為50個(gè)語義類別,每一個(gè)類別中的語義子塊類別為20,總共包括了373個(gè)關(guān)鍵詞和1000個(gè)語義子塊。在使用RBF核的多類支持向量機(jī)分類器的情況下,獲得了54.5%的語義分類準(zhǔn)確率,就是說272張測(cè)試圖片被正確分類。為了定量評(píng)價(jià)算法的性能,利用訓(xùn)練集中包含的所有373個(gè)作為查詢?nèi)z索圖像,然后計(jì)算平均查全率和查準(zhǔn)率。在檢索過程中,如果圖像標(biāo)注結(jié)果的關(guān)鍵詞中包含查詢關(guān)鍵詞,就把該圖像作為查詢結(jié)果返回。把圖像的手工標(biāo)注作為評(píng)價(jià)查詢相關(guān)性的標(biāo)準(zhǔn)。查全率是正確檢索到的圖像數(shù)目除以所有相關(guān)的圖像數(shù)目。查準(zhǔn)率是正確檢索到的圖像數(shù)目除以檢索返回的圖像數(shù)目。把查全率和查準(zhǔn)率都大于零的關(guān)鍵詞稱為有效關(guān)鍵詞。查全率大于0.4查準(zhǔn)率大于0.14的為良好關(guān)鍵詞。本發(fā)明方法與Co-occurrence Model,Translation Model,F(xiàn)ACMRM作了比較,用平均查全率和平均查準(zhǔn)率作了有效關(guān)鍵詞之間的比較,比較結(jié)果如下
用平均查全率、平均查準(zhǔn)率和F-measure作了良好關(guān)鍵詞之間的比較,比較結(jié)果如下
附圖2展示了重要性較高的而頻率較低的詞的覆蓋率的差別。虛線為其他的模型,實(shí)線為本發(fā)明的模型,在圖2中,本發(fā)明低頻詞被標(biāo)注的覆蓋率為23.3%,遠(yuǎn)遠(yuǎn)大于其他模型的5.92%,這意味著,在保持了較高的查全率和查準(zhǔn)率的情況下,本發(fā)明的方法標(biāo)注的結(jié)果中包含的低頻關(guān)鍵詞更多。這表示,原有的方法中將大量的無效高頻關(guān)鍵詞標(biāo)注給了測(cè)試圖像。而這樣做的結(jié)果使得用戶在查詢中可以使用的關(guān)鍵字被緊緊地局限在這些少數(shù)的高頻關(guān)鍵詞中,帶來的直接后果就是檢索能力的下降。反過來說,本發(fā)明標(biāo)注的結(jié)果使得用戶在使用別的非高頻關(guān)鍵詞查詢時(shí)候也有相當(dāng)?shù)膱D像能被檢索命中。
實(shí)施例1給定6000張圖像,其中5000張圖像已含有標(biāo)注信息作為標(biāo)注方法的訓(xùn)練圖像集,實(shí)施例對(duì)剩下的1000張圖像進(jìn)行圖像自動(dòng)標(biāo)注。
(1)先對(duì)訓(xùn)練圖像集進(jìn)行支持向量機(jī)分類,形成內(nèi)容一致的圖像子集。在該實(shí)施例中,形成50個(gè)圖像子集,每個(gè)子集大約100張圖像,如附圖3所示為歸到圖像子集“馬”中的幾個(gè)圖像。
(2)對(duì)每一個(gè)圖像子集中的圖像都進(jìn)行圖像分割,形成若干圖像子塊,對(duì)圖像子塊進(jìn)行聚類。圖像子集“馬”分割聚類后形成的20個(gè)類,附圖4和附圖5為其中的兩個(gè)語義子塊中所含的圖像子塊集合圖,分別表示“馬”和“草地”,可以用各自的圖像子塊的底層特征聚類中心來表示該類。
(3)將聚類中心定義為語義子塊集合,圖像所帶的關(guān)鍵詞集合和語義子塊集合構(gòu)成該圖像子集的語義骨架。此時(shí)圖像可以由這些關(guān)鍵詞和語義子塊表示,即對(duì)圖像中的每個(gè)圖像子塊,從語義子塊集合中找出與它最相似的聚類來標(biāo)識(shí)它。用語義骨架表示圖像子集中的每一個(gè)圖像,并統(tǒng)計(jì)關(guān)鍵詞和語義子塊在圖像子集中出現(xiàn)的次數(shù)。假設(shè)J為圖像集Ti中的圖像,則可以得到|J|是圖像J中的語義子塊和關(guān)鍵詞數(shù)目總和;#(w,J)是w在J中出現(xiàn)的次數(shù),#(w,Ti)是w語義Ti中出現(xiàn)的次數(shù)。#(b,J)是b在J中出現(xiàn)的次數(shù),#(b,Ti)是b在語義Ti中出現(xiàn)的次數(shù)。
(4)根據(jù)圖像子塊b的大小、位置信息計(jì)算圖像子塊的重要性,計(jì)算得到OrderB(b,J)為 表示b在圖像J中的視覺重要性,Size(b)表示b在圖像J中的面積,Distan ce(b)表示b離圖像J中心的距離,AvgOrderB(b,Ti)為b在語義類別Ti中的視覺重要性的均值;根據(jù)關(guān)鍵詞w在訓(xùn)練圖像J標(biāo)注信息的位置計(jì)算關(guān)鍵詞w的重要性,計(jì)算得到Order(w,J)為w在圖像J中的位置信息,表示w在J中的語義重要性;AvgOrder(w,Ti)為w在語義類別Ti中的語義重要性的均值。
(5)給出待標(biāo)注圖像I,如圖6所示。
(6)對(duì)待標(biāo)注圖像進(jìn)行分割,得到結(jié)果如圖7所示,計(jì)算每一個(gè)圖像子塊的面積和離圖像中心的距離。
(7)將待標(biāo)注圖像根據(jù)底層特征和紋理特征進(jìn)行分類,設(shè)被分到語義類Ti中,用語義類Ti的語義骨架表示該圖像。經(jīng)計(jì)算可以得到,圖7中子塊b1在底層特征上與圖4所表示的聚類最近,用圖4所示的語義子塊來表示圖像子塊b1;圖7中其他子塊在底層特征上與圖5所表示的聚類最近,用圖5所示的語義子塊來表示圖像子塊b2,b3,b4,b5。
(8)對(duì)語義類Ti中的每一個(gè)關(guān)鍵詞w計(jì)算P(w|I),計(jì)算公式如下P(w|I)≈P(w|b1,b2…bm)≈p(w,b1,b2…bm)
P(w|b1,b2...bm)=ΣJ∈TiP(J)P(w,b1,b2...bm|J)]]>P(w|b1,b2...bm)=ΣJ∈TiP(J)P(w|J)Πi=1mP(bi|J)]]>P(w|J)=(1-α)×#(w,J)×Order(w,J)|J|+α×#(w,Ti)×AvgOrder(w,Ti)|Ti|]]>P(b|J)=(1-β)×#(b,J)×OrderB(b,J)|J|+β×#(b,Ti)×AvgOrderB(b,Ti)|Ti|]]>其中Ti表示待標(biāo)注圖像I被分到的圖像語義類;|Ti|表示語義骨架Ti中的圖像的個(gè)數(shù);J為圖像語義類Ti中的圖像;|J|是圖像J中的語義子塊和關(guān)鍵詞數(shù)目總和;w為語義骨架Ti中關(guān)鍵詞集合中的詞;b為圖像語義子塊;#(w,J)是w在J中出現(xiàn)的次數(shù),#(w,Ti)是w在語義Ti中出現(xiàn)的次數(shù);#(b,J)是b在J中出現(xiàn)的次數(shù),#(b,Ti)是b在語義Ti中出現(xiàn)的次數(shù);Order(w,J)為w在圖像J中的位置信息,表示w在J中的語義重要性;AvgOrder(w,Ti)為w在語義類別Ti中的語義重要性的均值;OrderB(b,J)表示b在圖像J中的視覺重要性;AvgOrderB(b,Ti)為b在語義類別Ti中的視覺重要性的均值;先驗(yàn)概率P(J)保持唯一,用J在語義類別Ti中的出現(xiàn)概率表示。
(9)選擇P(w|I)最大的幾個(gè)關(guān)鍵詞作為圖I的標(biāo)注詞。
權(quán)利要求
1.一種基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法,其特征在于它包括訓(xùn)練標(biāo)注圖像集和圖像自動(dòng)標(biāo)注兩部分,其中(1)訓(xùn)練標(biāo)注圖像集包括如下步驟a)對(duì)于訓(xùn)練圖像集分類,用支持向量機(jī)分類算法將標(biāo)注圖像集分成內(nèi)容一致的圖像集;b)用關(guān)鍵詞集合和圖像語義子塊來表示語義骨架;(2)圖像自動(dòng)標(biāo)注包括如下步驟a)對(duì)于圖像自動(dòng)標(biāo)注,先將未標(biāo)注的圖像分類到已構(gòu)造語義骨架的某一個(gè)圖像集中;b)再將該圖像進(jìn)行分割,并用語義骨架中的語義子塊進(jìn)行表示,計(jì)算語義骨架中每一個(gè)關(guān)鍵詞w可以表示該未標(biāo)注圖像I的概率P(w|I),P(w|I)的計(jì)算公式如下所示P(w|I)≈P(w|b1,b2...bm)≈p(w,b1,b2...bm)1P(w|b1,b2...bm)=ΣJ∈TiP(J)P(w,b1,b2...bm|J)...2]]>P(w|b1,b2...bm)=ΣJ∈TiP(J)P(w|J)Πk=1mP(bk|J)...3]]>P(w/J)=(1-α)×#(w,J)×Order(w,J)|J|+α×#(w,Ti)×AvgOrder(w,Ti)|Ti|...4]]>P(b/J)=(1-β)×#(b,J)×OrderB(b,J)|J|+β×#(b,Ti)×AvgOrderB(b,Ti)|Ti|...5]]>其中Ti表示待標(biāo)注圖像I被分到的圖像語義類;|Ti|表示語義骨架Ti中的圖像的個(gè)數(shù);J為圖像語義類Ti中的圖像;|J|是圖像J中的語義子塊和關(guān)鍵詞數(shù)目總和;w為語義骨架Ti中關(guān)鍵詞集合中的詞;b為圖像語義子塊;#(w,J)是w在J中出現(xiàn)的次數(shù),#(w,Ti)是w在語義Ti中出現(xiàn)的次數(shù);#(b,J)是b在J中出現(xiàn)的次數(shù),#(b,Ti)是b在語義Ti中出現(xiàn)的次數(shù);Order(w,J)為w在圖像J中的位置信息,表示w在J中的語義重要性;AvgOrder(w,Ti)為w在語義類別Ti中的語義重要性的均值;OrderB(b,J)表示b在圖像J中的視覺重要性;AvgOrderB(b,Ti)為b在語義類別Ti中的視覺重要性的均值;先驗(yàn)概率P(J)保持唯一,用J在語義類別Ti中的出現(xiàn)概率表示;c)選擇最大概率的若干關(guān)鍵詞作為該未標(biāo)注圖像的標(biāo)注詞。
2.根據(jù)權(quán)利要求1所述的基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法,其特征在于,所述的標(biāo)注重要性次序包括語義重要性和視覺重要性。
3.根據(jù)權(quán)利要求2所述的基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法,其特征在于,所述的語義重要性是指關(guān)鍵詞集合中的關(guān)鍵詞w在訓(xùn)練圖像J中的重要性,用Order(w,J)表示;每一個(gè)訓(xùn)練圖像都有一段注釋文字s用于解決圖像J的語義,則Order(w,J)定義為 關(guān)鍵詞w在語義骨架Ti語義重要性的均值定義為AvgOrder(w,Ti),其計(jì)算如下AvgOrder(w,Ti)=1#(w,Ti)ΣJ∈Ti,w∈JOrder(w,J)...7]]>其中#(w,Ti)表示關(guān)鍵詞w在語義骨架Ti中出現(xiàn)的次數(shù),J表示語義骨架Ti中的圖像。
4.根據(jù)權(quán)利要求2所述的基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法,其特征在于,所述的視覺重要性是指圖像語義子塊b在訓(xùn)練圖像J中的重要性,用OrderB(b,J)表示,其計(jì)算公式如下OrderB(b,J)=Size(b)Distance(b)...8]]>其中Size(b)表示b在圖像J中的面積,Distan ce(b)表示b離圖像J中心的距離;圖像子塊b在語義骨架Ti的視覺重要性的均值定義為AvgOrderB(b,Ti),其計(jì)算如下AvgOrderB(b,Ti)=1#(b,Ti)ΣJ∈Ti,b∈JOrdetB(b,J)...9]]>其中#(b,Ti)表示圖像語義子塊b在語義骨架Ti中出現(xiàn)的次數(shù),J表示語義骨架Ti中的圖像。
5.根據(jù)權(quán)利要求1所述的基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法,其特征在于,所述的用關(guān)鍵詞集合和圖像語義子塊來表示語義骨架的步驟如下(1)每一個(gè)訓(xùn)練圖像都有一段注釋文字s用于解決圖像J的語義,將訓(xùn)練集中每個(gè)圖像的注釋文字s中的名詞和形容詞提取出來構(gòu)成的集合作為關(guān)鍵詞集合;(2)語義子塊集合描述了整個(gè)圖像集包含的所有語義子塊,采用圖像分割算法結(jié)合聚類算法構(gòu)造語義子塊集合先對(duì)訓(xùn)練集中的每一個(gè)圖像進(jìn)行分割,形成若干子塊,然后進(jìn)行聚類,形成的聚類中心就是語義子塊,這樣每一個(gè)圖用語義子塊表示;(3)在形成語義骨架時(shí),計(jì)算關(guān)鍵詞和圖像子塊的重要性次序。
全文摘要
本發(fā)明公開了一種基于標(biāo)注重要性次序的圖像語義自動(dòng)標(biāo)注方法,包括以下步驟(1)對(duì)訓(xùn)練圖像集進(jìn)行分類,形成一系列內(nèi)容一致的圖像集;(2)對(duì)每一個(gè)圖像集構(gòu)建語義骨架,將其中的圖像用語義骨架表示,同時(shí)計(jì)算圖像的關(guān)鍵詞重要性次序和圖像子塊的重要性次序;(3)用統(tǒng)計(jì)學(xué)習(xí)的方法進(jìn)行圖像自動(dòng)標(biāo)注。本發(fā)明在圖像自動(dòng)標(biāo)注時(shí),考慮了圖像區(qū)域子塊的重要性和訓(xùn)練集中文本的重要性次序,有效的解決了圖像自動(dòng)標(biāo)注準(zhǔn)確性和詞頻畸形分布的問題,從而支持基于語義的圖像檢索。
文檔編號(hào)G06T1/00GK1920820SQ20061005340
公開日2007年2月28日 申請(qǐng)日期2006年9月14日 優(yōu)先權(quán)日2006年9月14日
發(fā)明者莊越挺, 吳飛, 魯偉明, 吳江琴 申請(qǐng)人:浙江大學(xué)