基于能量模型的圖像語義標注方法

文檔序號：6547930閱讀：178來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于能量模型的圖像語義標注方法
【專利摘要】本發(fā)明公開了一種基于能量模型的圖像語義標注方法，該圖像語義標注方法中以區(qū)域圖像-語義標簽的對應(yīng)勢，以及語義標簽之間的相互作用勢構(gòu)建原始圖像在不同區(qū)域圖像-語義標簽對應(yīng)關(guān)系下的全能量函數(shù)，通過利用全能量函數(shù)來進行圖像上下文信息和外觀信息的融合。與現(xiàn)有技術(shù)中只利用對象之間共生信息，或僅利用固定的空間關(guān)系和簡單的頻率計數(shù)方法的上下文對象分類模型相比，本發(fā)明的圖像語義標注方法中提出的全能量函數(shù)通過模糊空間關(guān)系更充分地利用對象之間空間結(jié)構(gòu)信息，有效避免了產(chǎn)生語義混亂的問題，提高了語義標注的精度。
【專利說明】基于能量模型的圖像語義標注方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像檢索和自動圖像標注【技術(shù)領(lǐng)域】，具體涉及一種基于能量模型的圖像語義標注方法。

【背景技術(shù)】
[0002]為了圖像場景語義分類，圖像分割后需要對分割區(qū)域的對象標注。圖像分割區(qū)域的對象標注直接影響到場景語義理解及分類的準確性。許多研究者們進行了圖像中的對象標注工作，基本上都是利用圖像區(qū)域的底層視覺特征來進行對象分類。近幾年來，研究者們進行融合上下文信息的對象識別工作，但其準確性沒有滿足實際的需求，還需要改進。
[0003]為了解決結(jié)合上下文信息到一個對象分類框架的問題，一般都借用機器學(xué)習(xí)技術(shù)，融合對象外觀視覺信息和關(guān)于該對象的上下文約束，以提供有效的概率算法。一般分為兩種模型研究:分類器和圖模型。
[0004]分類器能夠?qū)崿F(xiàn)對象的上下文特征和外觀視覺特征的結(jié)合,例如,Naive Bayes分類器，Logistic Regress1n等。他們將局部視覺特征檢測器的輸出結(jié)合到從局部或全局統(tǒng)計得出來的上下文特征。Wolf等利用boosting分類器來實現(xiàn)局部外觀視覺特征和上下文特征的結(jié)合。圖模型能夠?qū)崿F(xiàn)視覺特征和上下文特征的結(jié)合。
[0005]圖模型可以將所有隨機變量的聯(lián)合分布分解為有關(guān)變量子集的因素的乘積。因此，圖模型提供一個強大而靈活的框架，以用相對局部約束來描述及處理全局概率分布?；趫D模型的上下文融合有兩種:一是有向圖模型，有向圖模型是一種在有向圖上用局部轉(zhuǎn)換概率來定義的全局概率分布，是很有用于表達隨機變量之間的因果關(guān)系；二是無向圖模型，它利用局部團的勢的乘積來定義在圖上的全局概率分布，更適合表達隨機變量之間的軟約束。
[0006]條件隨機場模型(condit1nalrandom fields, CRF 模型)是由 Lafferty 等人于2001年提出的，是一個無向圖模型或馬爾可夫隨機場。該模型在給定需要標記的觀察序列的條件下，計算整個標記序列的聯(lián)合概率，而不是在給定當前狀態(tài)條件下，定義下一個狀態(tài)的分布。標記序列的條件概率依賴于觀察序列中非獨立的、相互作用的特征，并通過賦予特征以不同權(quán)值來表示特征的重要程度。
[0007]CRF模型能夠?qū)⒉煌愋偷男畔⒑喜⒃谕粋€模型當中，而根據(jù)上下文關(guān)系能夠提高對象標注一致性。在CRF模型中，勢函數(shù)是進行標注圖像像素/區(qū)域的標簽之間的特定約束。因此僅考慮到語義(即標簽)之間的約束關(guān)系，并沒有考慮各個語義之間的空間約束關(guān)系，因此容易產(chǎn)生語義混亂，導(dǎo)致標注精度下降。

【發(fā)明內(nèi)容】

[0008]針對現(xiàn)有技術(shù)的不足，本發(fā)明提供了一種基于能量模型的圖像語義標注方法。
[0009]一種基于能量模型的圖像語義標注方法，包括:
[0010](I)將原始圖像分割為若干個區(qū)域圖像，并提取各個區(qū)域圖像的視覺特征向量；
[0011](2)根據(jù)各個區(qū)域的視覺特征向量，利用訓(xùn)練好的SVM分類器確定各個區(qū)域圖像的候選語義標簽，以及各個候選語義標簽對該區(qū)域圖像的信任度；
[0012](3)根據(jù)各個區(qū)域圖像與候選語義標簽的對應(yīng)關(guān)系構(gòu)建原始圖像的全能量函數(shù)E(A):

【權(quán)利要求】
1.一種基于能量模型的圖像語義標注方法，其特征在于，包括: (1)將原始圖像分割為若干個區(qū)域圖像，并提取各個區(qū)域圖像的視覺特征向量； (2)根據(jù)各個區(qū)域的視覺特征向量，利用訓(xùn)練好的SVM分類器確定各個區(qū)域圖像的候選語義標簽，以及各個候選語義標簽對該區(qū)域圖像的信任度； (3)根據(jù)各個區(qū)域圖像與候選語義標簽的對應(yīng)關(guān)系構(gòu)建原始圖像的全能量函數(shù)E(A):
其中，k為區(qū)域圖像的個數(shù)，α、β、δ均為調(diào)整因子， C1為圖像區(qū)域Si對應(yīng)的語義標簽，Cm為圖像區(qū)域Sj對應(yīng)的語義標簽， P (C11 Si)為語義標簽C1對區(qū)域圖像Si的信任度， P(C1)為區(qū)域圖像Si對應(yīng)的語義標簽C1出現(xiàn)的概率， P(C1, Cffl)為語義標簽C1與語義標簽Cm同時出現(xiàn)的概率， Ψ (C1, Cffl)為語義標簽C1與語義標簽Cm之間的空間隸屬度，所述的空間隸屬度根據(jù)兩個語義標簽之間的模糊空間關(guān)系計算得到； (4)采用迭代條件模式對所述的全能量函數(shù)進行迭代，直至滿足迭代條件后停止迭代，并根據(jù)最后一次迭代時各個區(qū)域圖像與候選語義標簽的對應(yīng)關(guān)系對原始圖像進行語義標注。
2.如權(quán)利要求1所述的基于能量模型的圖像語義標注方法，其特征在于，所述步驟(1)中利用視覺特征對原始圖像進行分割。
3.如權(quán)利要求2所述的基于能量模型的圖像語義標注方法，其特征在于，所述步驟(2)中SVM分類器為基于視覺特征的SVM分類器。
4.如權(quán)利要求3所述的基于能量模型的圖像語義標注方法，其特征在于，語義標簽C1與語義標簽Cm之間的空間隸屬度根據(jù)以下公式計算:為訓(xùn)練圖像集中各個訓(xùn)練圖像中語義標簽C1與語義標簽Cm對應(yīng)的區(qū)域圖像的空間關(guān)系向量的平均向量， rij為原始圖像中區(qū)域圖像Si和圖像區(qū)域的空間關(guān)系向量；每個圖像中任意兩個區(qū)域圖像之間的空間關(guān)系向量為:
其中，U1為區(qū)域圖像Sx和區(qū)域圖像Sy在方向關(guān)系上的隸屬度，μ 2為區(qū)域圖像Sx和區(qū)域圖像Sy在距離關(guān)系上的隸屬度，μ 3為區(qū)域圖像Sx和區(qū)域圖像Sy在拓撲關(guān)系上的隸屬度。
5.如權(quán)利要求4所述的基于能量模型的圖像語義標注方法，其特征在于，通過以下步驟計算空間關(guān)系向量rxy: (I)采用邊界像素與矩的區(qū)域表示方法描述區(qū)域圖像sx和區(qū)域圖像sy，獲得區(qū)域圖像sx和區(qū)域圖像Sy之間的空間關(guān)系描述符F (sx，sy):
F (sx, sy) = ( Θ xyJ dxy，P xy)，x, y = 1，...，k，X 古 y，Θ xy為區(qū)域圖像Sx和區(qū)域圖像Sy的中心點的連線與距離最近的兩個邊界像素點的連線的夾角，dxy為距離最近的兩個邊界像素點之間的距離，P xy為區(qū)域圖像Sx和區(qū)域圖像Sy的共同邊界長度與區(qū)域圖像Sx的邊界長度的比； (2)所述的方向關(guān)系包括上方、下方、左方和右方，根據(jù)0xy計算區(qū)域圖像8;;和區(qū)域圖像Sy在各個方向關(guān)系上的隸屬度，并以方向關(guān)系上最大的隸屬度作為區(qū)域圖像\和區(qū)域圖像Sy在方向關(guān)系上的隸屬度；所述的距離關(guān)系包括靠近和遠離，根據(jù)dxy和P xy計算區(qū)域圖像Sx和區(qū)域圖像Sy在各個距離關(guān)系上的隸屬度，并以最大距離關(guān)系上的隸屬度作為區(qū)域圖像Sx和區(qū)域圖像Sy在距離關(guān)系上的隸屬度；所述的拓撲關(guān)系包括分離、鄰近、入侵和包含，根據(jù)P xy計算區(qū)域圖像Sx和區(qū)域圖像Sy在各個拓撲關(guān)系上的隸屬度，并以拓撲關(guān)系上最大的隸屬度作為區(qū)域圖像Sx和區(qū)域圖像Sy在拓撲關(guān)系上的隸屬度。
6.如權(quán)利要求5所述的基于能量模型的圖像語義標注方法，其特征在于，所述的迭代條件為相鄰兩次迭代得到的全能量函數(shù)值的差小于設(shè)定的閾值或迭代次數(shù)達到設(shè)定的最大次數(shù)。
7.如權(quán)利要求6所述的基于能量模型的圖像語義標注方法，其特征在于，所述的閾值為 0.01 ~0.05。
8.如權(quán)利要求7所述的基于能量模型的圖像語義標注方法，其特征在于，所述的最大次數(shù)為100~150。
9.如權(quán)利要求8所述的基于能量模型的圖像語義標注方法，其特征在于，所述的α為.1.2~1.5，所述的β為0.1~0.5，所述的δ為0.5~0.8。
【文檔編號】G06K9/66GK104077352SQ201410231435
【公開日】2014年10月1日申請日期:2014年5月27日優(yōu)先權(quán)日:2014年5月27日
【發(fā)明者】姚敏, 賴盛章, 李昌英, 吳朝暉申請人:浙江大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姚敏;賴盛章;李昌英;吳朝暉
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：一種應(yīng)用于電網(wǎng)的掌上雷擊查詢系統(tǒng)的制作方法
上一篇：數(shù)據(jù)處理裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

圖像語義標注相關(guān)技術(shù)

圖像語義分割標注工具相關(guān)技術(shù)

圖像語義分割相關(guān)技術(shù)

圖像語義相關(guān)技術(shù)

基于語義的圖像檢索相關(guān)技術(shù)

什么是圖像語義分割相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于能量模型的圖像語義標注方法