基于能量模型的圖像語義標注方法
【專利摘要】本發(fā)明公開了一種基于能量模型的圖像語義標注方法,該圖像語義標注方法中以區(qū)域圖像-語義標簽的對應(yīng)勢,以及語義標簽之間的相互作用勢構(gòu)建原始圖像在不同區(qū)域圖像-語義標簽對應(yīng)關(guān)系下的全能量函數(shù),通過利用全能量函數(shù)來進行圖像上下文信息和外觀信息的融合。與現(xiàn)有技術(shù)中只利用對象之間共生信息,或僅利用固定的空間關(guān)系和簡單的頻率計數(shù)方法的上下文對象分類模型相比,本發(fā)明的圖像語義標注方法中提出的全能量函數(shù)通過模糊空間關(guān)系更充分地利用對象之間空間結(jié)構(gòu)信息,有效避免了產(chǎn)生語義混亂的問題,提高了語義標注的精度。
【專利說明】基于能量模型的圖像語義標注方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像檢索和自動圖像標注【技術(shù)領(lǐng)域】,具體涉及一種基于能量模型的圖像語義標注方法。
【背景技術(shù)】
[0002]為了圖像場景語義分類,圖像分割后需要對分割區(qū)域的對象標注。圖像分割區(qū)域的對象標注直接影響到場景語義理解及分類的準確性。許多研究者們進行了圖像中的對象標注工作,基本上都是利用圖像區(qū)域的底層視覺特征來進行對象分類。近幾年來,研究者們進行融合上下文信息的對象識別工作,但其準確性沒有滿足實際的需求,還需要改進。
[0003]為了解決結(jié)合上下文信息到一個對象分類框架的問題,一般都借用機器學(xué)習(xí)技術(shù),融合對象外觀視覺信息和關(guān)于該對象的上下文約束,以提供有效的概率算法。一般分為兩種模型研究:分類器和圖模型。
[0004]分類器能夠?qū)崿F(xiàn)對象的上下文特征和外觀視覺特征的結(jié)合,例如,Naive Bayes分類器,Logistic Regress1n等。他們將局部視覺特征檢測器的輸出結(jié)合到從局部或全局統(tǒng)計得出來的上下文特征。Wolf等利用boosting分類器來實現(xiàn)局部外觀視覺特征和上下文特征的結(jié)合。圖模型能夠?qū)崿F(xiàn)視覺特征和上下文特征的結(jié)合。
[0005]圖模型可以將所有隨機變量的聯(lián)合分布分解為有關(guān)變量子集的因素的乘積。因此,圖模型提供一個強大而靈活的框架,以用相對局部約束來描述及處理全局概率分布?;趫D模型的上下文融合有兩種:一是有向圖模型,有向圖模型是一種在有向圖上用局部轉(zhuǎn)換概率來定義的全局概率分布,是很有用于表達隨機變量之間的因果關(guān)系;二是無向圖模型,它利用局部團的勢的乘積來定義在圖上的全局概率分布,更適合表達隨機變量之間的軟約束。
[0006]條件隨機場模型(condit1nalrandom fields, CRF 模型)是由 Lafferty 等人于2001年提出的,是一個無向圖模型或馬爾可夫隨機場。該模型在給定需要標記的觀察序列的條件下,計算整個標記序列的聯(lián)合概率,而不是在給定當前狀態(tài)條件下,定義下一個狀態(tài)的分布。標記序列的條件概率依賴于觀察序列中非獨立的、相互作用的特征,并通過賦予特征以不同權(quán)值來表示特征的重要程度。
[0007]CRF模型能夠?qū)⒉煌愋偷男畔⒑喜⒃谕粋€模型當中,而根據(jù)上下文關(guān)系能夠提高對象標注一致性。在CRF模型中,勢函數(shù)是進行標注圖像像素/區(qū)域的標簽之間的特定約束。因此僅考慮到語義(即標簽)之間的約束關(guān)系,并沒有考慮各個語義之間的空間約束關(guān)系,因此容易產(chǎn)生語義混亂,導(dǎo)致標注精度下降。
【發(fā)明內(nèi)容】
[0008]針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于能量模型的圖像語義標注方法。
[0009]一種基于能量模型的圖像語義標注方法,包括:
[0010](I)將原始圖像分割為若干個區(qū)域圖像,并提取各個區(qū)域圖像的視覺特征向量;
[0011](2)根據(jù)各個區(qū)域的視覺特征向量,利用訓(xùn)練好的SVM分類器確定各個區(qū)域圖像的候選語義標簽,以及各個候選語義標簽對該區(qū)域圖像的信任度;
[0012](3)根據(jù)各個區(qū)域圖像與候選語義標簽的對應(yīng)關(guān)系構(gòu)建原始圖像的全能量函數(shù)E(A):
【權(quán)利要求】
1.一種基于能量模型的圖像語義標注方法,其特征在于,包括: (1)將原始圖像分割為若干個區(qū)域圖像,并提取各個區(qū)域圖像的視覺特征向量; (2)根據(jù)各個區(qū)域的視覺特征向量,利用訓(xùn)練好的SVM分類器確定各個區(qū)域圖像的候選語義標簽,以及各個候選語義標簽對該區(qū)域圖像的信任度; (3)根據(jù)各個區(qū)域圖像與候選語義標簽的對應(yīng)關(guān)系構(gòu)建原始圖像的全能量函數(shù)E(A):
其中,k為區(qū)域圖像的個數(shù),α、β、δ均為調(diào)整因子, C1為圖像區(qū)域Si對應(yīng)的語義標簽,Cm為圖像區(qū)域Sj對應(yīng)的語義標簽, P (C11 Si)為語義標簽C1對區(qū)域圖像Si的信任度, P(C1)為區(qū)域圖像Si對應(yīng)的語義標簽C1出現(xiàn)的概率, P(C1, Cffl)為語義標簽C1與語義標簽Cm同時出現(xiàn)的概率, Ψ (C1, Cffl)為語 義標簽C1與語義標簽Cm之間的空間隸屬度,所述的空間隸屬度根據(jù)兩個語義標簽之間的模糊空間關(guān)系計算得到; (4)采用迭代條件模式對所述的全能量函數(shù)進行迭代,直至滿足迭代條件后停止迭代,并根據(jù)最后一次迭代時各個區(qū)域圖像與候選語義標簽的對應(yīng)關(guān)系對原始圖像進行語義標注。
2.如權(quán)利要求1所述的基于能量模型的圖像語義標注方法,其特征在于,所述步驟(1)中利用視覺特征對原始圖像進行分割。
3.如權(quán)利要求2所述的基于能量模型的圖像語義標注方法,其特征在于,所述步驟(2)中SVM分類器為基于視覺特征的SVM分類器。
4.如權(quán)利要求3所述的基于能量模型的圖像語義標注方法,其特征在于,語義標簽C1與語義標簽Cm之間的空間隸屬度根據(jù)以下公式計算:為訓(xùn)練圖像集中各個訓(xùn)練圖像中語義標簽C1與語義標簽Cm對應(yīng)的區(qū)域圖像的空間關(guān)系向量的平均向量, rij為原始圖像中區(qū)域圖像Si和圖像區(qū)域的空間關(guān)系向量; 每個圖像中任意兩個區(qū)域圖像之間的空間關(guān)系向量為:
其中,U1為區(qū)域圖像Sx和區(qū)域圖像Sy在方向關(guān)系上的隸屬度,μ 2為區(qū)域圖像Sx和區(qū)域圖像Sy在距離關(guān)系上的隸屬度,μ 3為區(qū)域圖像Sx和區(qū)域圖像Sy在拓撲關(guān)系上的隸屬度。
5.如權(quán)利要求4所述的基于能量模型的圖像語義標注方法,其特征在于,通過以下步驟計算空間關(guān)系向量rxy: (I)采用邊界像素與矩的區(qū)域表示方法描述區(qū)域圖像sx和區(qū)域圖像sy,獲得區(qū)域圖像sx和區(qū)域圖像Sy之間的空間關(guān)系描述符F (sx,sy):
F (sx, sy) = ( Θ xyJ dxy,P xy),x, y = 1,...,k,X 古 y,Θ xy為區(qū)域圖像Sx和區(qū)域圖像Sy的中心點的連線與距離最近的兩個邊界像素點的連線的夾角,dxy為距離最近的兩個邊界像素點之間的距離,P xy為區(qū)域圖像Sx和區(qū)域圖像Sy的共同邊界長度與區(qū)域圖像Sx的邊界長度的比; (2)所述的方向關(guān)系包括上方、下方、左方和右方,根據(jù)0xy計算區(qū)域圖像8;;和區(qū)域圖像Sy在各個方向關(guān)系上的隸屬度,并以方向關(guān)系上最大的隸屬度作為區(qū)域圖像\和區(qū)域圖像Sy在方向關(guān)系上的隸屬度; 所述的距離關(guān)系包括靠近和遠離,根據(jù)dxy和P xy計算區(qū)域圖像Sx和區(qū)域圖像Sy在各個距離關(guān)系上的隸屬度,并以最大距離關(guān)系上的隸屬度作為區(qū)域圖像Sx和區(qū)域圖像Sy在距離關(guān)系上的隸屬度; 所述的拓撲關(guān)系包括分離、鄰近、入侵和包含,根據(jù)P xy計算區(qū)域圖像Sx和區(qū)域圖像Sy在各個拓撲關(guān)系上的隸屬度,并以拓撲關(guān)系上最大的隸屬度作為區(qū)域圖像Sx和區(qū)域圖像Sy在拓撲關(guān)系上的隸屬度。
6.如權(quán)利要求5所述的基于能量模型的圖像語義標注方法,其特征在于,所述的迭代條件為相鄰兩次迭代得到的全能量函數(shù)值的差小于設(shè)定的閾值或迭代次數(shù)達到設(shè)定的最大次數(shù)。
7.如權(quán)利要求6所述的基于能量模型的圖像語義標注方法,其特征在于,所述的閾值為 0.01 ~0.05。
8.如權(quán)利要求7所述的基于能量模型的圖像語義標注方法,其特征在于,所述的最大次數(shù)為100~150。
9.如權(quán)利要求8所述的基于能量模型的圖像語義標注方法,其特征在于,所述的α為.1.2~1.5,所述的β為0.1~0.5,所述的δ為0.5~0.8。
【文檔編號】G06K9/66GK104077352SQ201410231435
【公開日】2014年10月1日 申請日期:2014年5月27日 優(yōu)先權(quán)日:2014年5月27日
【發(fā)明者】姚敏, 賴盛章, 李昌英, 吳朝暉 申請人:浙江大學(xué)