亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于文本-物體-場景關系的物體和場景的圖像理解方法

文檔序號:8259578閱讀:638來源:國知局
基于文本-物體-場景關系的物體和場景的圖像理解方法
【技術領域】
[0001] 本發(fā)明涉及一種信號處理的計算機視覺技術領域的方法,具體是一種基于文 本-物體-場景關系的物體和場景的圖像理解方法。
【背景技術】
[0002] 在大數(shù)據(jù)時代,互聯(lián)網(wǎng)上的圖像數(shù)據(jù)呈現(xiàn)爆炸式增長,迫切需要一種能夠自動提 取圖像中語義信息的智能視覺系統(tǒng)。經(jīng)過計算機視覺領域的不懈努力,目前已經(jīng)在諸多關 鍵任務,如物體檢測,場景分類,人臉識別上取得了顯著的進步。然而,作為計算機視覺領域 的終極目標,圖像理解仍然是一個極具挑戰(zhàn)的問題。當面對網(wǎng)絡上海量的圖像理解,這一問 題變得更為艱巨。人們無法再像過去那樣依靠精確標注的圖像數(shù)據(jù)集來訓練模型,因為對 包含了上千類物體的上百萬圖像做精確標注耗費巨大。相比傳統(tǒng)圖像數(shù)據(jù),網(wǎng)絡圖像數(shù)據(jù) 的一個顯著特點是它們往往伴隨著描述性的文本,例如圖像標題,關鍵詞和發(fā)布者的說明。 這些文本提供了與圖像語義高度相關的重要信息。
[0003] 經(jīng)過對現(xiàn)有技術的文獻檢索發(fā)現(xiàn),傳統(tǒng)的利用文字進行圖像理解的方法主要分為 三類:基于特征的方法,基于主題模型的方法和基于條件隨機場的方法?;谔卣鞯姆椒ㄏ?從圖像和文本提取特征,然后在特征層面進行融合。Li等人在2009年ICCV會議上發(fā)表的 "Landmark classification in large-scale image collections" 論文中提出,將文本特 征和視覺特征拼接成最終的特征向量用于訓練支持向量機。Wang等人在2009年CVPR會議 上發(fā)表的"Building text features for object image classification"論文中提出,將 文本特征和視覺特征分別訓練分類器,然后再訓練一個分類器用于融合上述兩個分類器的 分類結(jié)果?;谥黝}模型的方法主要通過LDA方法對圖像和文本聯(lián)合建模。Barnard在2003 年JMLR期刊上發(fā)表的"Matching words and pictures"論文中提出利用LDA方法建立圖 像和文本的聯(lián)合概率分布。后來,Blei等人在2003年ACM SIGIR會議上發(fā)表的"Modeling annotated data"論文中基于文本主題和視覺主題的--對應的假設,提出了 Corr_LDA方 法。近年來流行的條件隨機場也用于建模圖像和文本。Fidler等人在2013年的CVPR會議 上發(fā)表的"A sentence is worth a thousand pixels"論文中提出了通過解析文本建立語 義圖模型的方法對圖像進行聯(lián)合分割、物體檢測和分類。然而該方法的主要不足在于需要 物體和文本實例的一一對應關系來訓練模型,并且在預測過程中需要手動標定名詞所對應 的物體。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明針對現(xiàn)有技術的不足,提供了一種基于文本-物體-場景關系的物體和場 景的圖像理解方法,通過利用描述性文本,結(jié)合視覺信息和文本信息,對圖像做出更有效的 理解。
[0005] 本發(fā)明是通過以下技術方案實現(xiàn)的:利用條件隨機場建模場景、物體和文本的聯(lián) 合概率密度函數(shù),聯(lián)合預測圖像的場景類別和圖像中存在的物體。弱監(jiān)督的條件下學習出 不同域之間的關系,包括:場景-物體關系,場景-文本關系和文本-物體關系。
[0006] 本發(fā)明所述的基于文本-物體-場景關系的物體和場景的圖像理解方法,對于輸 入的圖像-文本對,具體處理步驟如下:
[0007] 第一步:用物體檢測器計算圖像中各類物體存在的可能性大小,進而確定物體勢 函數(shù)。
[0008] 第二步:將文本用自然語言分析工具提取其中的名詞信息,確定文本節(jié)點的取值。
[0009] 第三步:用場景分析算法計算圖像屬于各種場景類別的概率,確定場景勢函數(shù)。
[0010] 第四步:根據(jù)文本節(jié)點的值和文本與場景的關系計算場景-文本勢函數(shù)。
[0011] 第五步:根據(jù)場景和物體的關系計算場景-物體勢函數(shù)。
[0012] 第六步:根據(jù)物體和文本的對應關系計算文本-物體勢函數(shù)。
[0013] 第六步:將上述第一步?到第五步中確定的五種勢函數(shù)用條件隨機場聯(lián)合概率建 模,求解最大后驗概率,得到物體節(jié)點和場景節(jié)點的值,即圖像中存在哪些物體和圖像屬于 的場景類別。
[0014] 所述方法對于輸入的圖像-文本對,具體處理步驟如下:
[0015] 第一步:用物體檢測器計算圖像中各類物體存在的可能性大小,進而確定物體勢 函數(shù);
[0016] 第二步:將文本用自然語言分析工具提取其中的名詞信息,確定文本節(jié)點的取 值;
[0017] 第三步:用場景分析算法計算圖像屬于各種場景類別的概率,確定場景勢函數(shù);
[0018] 第四步:根據(jù)文本節(jié)點的值和文本與場景的關系計算場景_文本勢函數(shù);
[0019] 第五步:根據(jù)場景和物體的關系計算場景-物體勢函數(shù);
[0020] 第六步:根據(jù)物體和文本的對應關系計算文本-物體勢函數(shù);
[0021] 第六步:將上述第一步?到第五步中確定的五種勢函數(shù)用條件隨機場聯(lián)合概率建 模,求解最大后驗概率,得到物體節(jié)點和場景節(jié)點的值,即圖像中存在哪些物體和圖像屬于 的場景類別;
[0022] 所述用條件隨機場聯(lián)合概率建模,是指:每個圖像-文本對用條件隨機場模型建 模文本、場景和物體之間的聯(lián)合概率密度分布函數(shù),條件隨機場由三種類型的節(jié)點和三種 類型的邊組成;三種類型的節(jié)點分別為:場景節(jié)點、物體節(jié)點和文本節(jié)點;三種類型的邊 為:場景-物體邊、場景-文本邊和文本-物體邊。
[0023] 優(yōu)選的,所述的用條件隨機場聯(lián)合概率建模,其中場景節(jié)點有一個,用隨機變量s 表示改圖像的場景類別。
[0024] 優(yōu)選的,所述的場景節(jié)點的一元勢函數(shù)(對應第三步得到的勢函數(shù))由一組線下 場景檢測器定義,該勢函數(shù)有S種可能的取值,S為場景類別的數(shù)量,每種取值為對應的場 景分類器對該類場景的判別值。
[0025] 優(yōu)選的,所述的用條件隨機場聯(lián)合概率建模,其中物體節(jié)點有0個,其中0是物體 類別的數(shù)量,每個物體節(jié)點用隨機變量z表示相應物體在圖像中存在與否。
[0026] 優(yōu)選的,所述的物體節(jié)點的一元勢函數(shù)(對應第一步得到的勢函數(shù))由一組線下 物體檢測器定義,每個物體檢測器對一幅圖像返回多個該物體可能存在的位置,每個位置 都伴有一個判別值指示物體存在于該位置的可能性大小,勢函數(shù)取所有判別值中的最大值 一個作為圖像中存在該類物體的指示。
[0027] 優(yōu)選的,所述的用條件隨機場聯(lián)合概率建模,其中文本節(jié)點有N個,其中N是名詞 類別的數(shù)量,每個文本節(jié)點用隨機變量q表示相應名詞在圖像的文字描述中存在與否。
[0028] 優(yōu)選的,所述的用條件隨機場聯(lián)合概率建模,其中場景-物體邊:場景和物體之間 的關系用場景-物體邊對應的二元勢函數(shù)(對應第五步得到的勢函數(shù))表征,具體表示為 各類物體在不同場景中出現(xiàn)的概率。
[0029] 優(yōu)選的,所述的用條件隨機場聯(lián)合概率建模,其中場景和文本之間的關系用場 景-文本邊對應的二元勢函數(shù)(對應第四步得到的勢函數(shù))表征,具體表示為各類名詞在 不同場景中出現(xiàn)的概率。
[0030] 優(yōu)選的,所述的用條件隨機場聯(lián)合概率建模,其中文本-物體邊:文本和物體之間 的關系用文本-物體邊對應的勢函數(shù)(對應第六步得到的勢函數(shù))表征,具體表示為名詞 和物體之間的相關概率。
[0031] 優(yōu)選的,所述的文本和物體之間的相關概率,其表示方法是通過對每個圖像-文 本對求解受約束的雙向匹配優(yōu)化問題得到樣本級的名詞與物體的映射關系;具體如下:
[0032] (1)用自然語言分析工具提取文本中的名詞及其數(shù)量,其中名詞為文本中詞性標 簽為NN,NNS,NNP的單詞;名詞的數(shù)量有兩類,第一類為精確數(shù)量,包含了單數(shù)名詞和指出 數(shù)量的復數(shù)名詞;第二類為模糊數(shù)量,包含了未給出數(shù)量的復數(shù)名詞,這類名詞的數(shù)量為 2 ;
[0033] (2)求出名詞和物體之間的初始相關概率,具體為其共同出現(xiàn)在一個樣本中的概 率;
[0034] (3)建立受約束的文本-物體的優(yōu)化問題,其中,約束一要求映射到某物體的名詞 的個體數(shù)量不能大于該物體的數(shù)量;約束二要求一個名詞只能映射到一個類別的物體;
[0035] (4)重新估計文本-物體間的相關概率,即在訓練集中統(tǒng)計某名詞的所有個體中 被映射到某物體的個體的比例。
[0036] 與現(xiàn)有技術相比,本發(fā)明具有以下有益效果:
[0037] 本發(fā)明基于文本-物體-場景關系的弱監(jiān)督學習的物體和場景實現(xiàn)圖像理解,利 用條件隨機場建模場景、物體和文本的聯(lián)合概率密度函數(shù),聯(lián)合預測圖像的場景類別和圖 像中存在的物體;在弱監(jiān)督的條件下學習出不同域之間的關系,包括:場景-物體關系,場 景-文本關系和文本-物體關系。這種方法僅僅需要簡單的標注信息,用于訓練的每張圖 像只需要知道其包含了哪些物體,而不需要具體指出每個物體在哪里,且提高了精度。這種 簡單的標注信息廣泛地存在于互聯(lián)網(wǎng)上,從而使得本發(fā)明能夠充分借助網(wǎng)絡資源用于圖像 理解方法,節(jié)省了巨大的人力標注開銷。
【附圖說明】
[0038] 通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、 目的和優(yōu)點將會變得更明顯:
[0039] 圖1是本發(fā)明的訓練過程方法流程圖;
[0040] 圖2是本發(fā)明的測試過程方法流程圖。
【具體實施方式】
[0041] 下面結(jié)合具體實施例對本發(fā)明進行詳細說明。以下實施例將有助于本領域的技術 人員進一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應當指出的是,對本領域的普通技術 人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進。這些都屬于本發(fā)明 的保護范圍。
[0042] 本發(fā)明通過一個條件隨機場融合三個域的信息:場景、物體和文本。不同域的特征 通過三種關系相互關聯(lián):場景與物體,場景與文本,物體與文本。文本以兩種不同的方式與 物體和場景相關聯(lián)。文本和物體的關系通過名詞和物體的匹配概率來表示,而文本和場景 的關系通過名詞在不同場景的描述中出現(xiàn)的概率來表示。其中文本和物體
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1