專利名稱:一種基于稀疏編碼的圖像視覺特征提取方法
技術領域:
本發(fā)明涉及一種基于稀疏編碼的圖像視覺特征提取方法,屬于計算機數(shù)字圖像處理技術領域。
背景技術:
圖像視覺特征是計算機視覺領域為了使機器學習、感知圖像而對圖像進行的一種編碼,視覺特征以分為全局特征和局部特征兩種,常用的全局特征有顏色特征、紋理特征等,最常用的局部特征是尺度不變特征(Scale invariant feature transform,以下簡稱SIFT特征)。
稀疏編碼是利用一組超完備的基去盡可能稀疏地表達一個向量的一種編碼技術,現(xiàn)已廣泛應用于壓縮感知、圖像修復、人臉識別等機器學習的各個領域,且取得了很好的效果。稀疏編碼在圖像處理領域的成功主要是由于兩個原因(I)自然圖片具有稀疏結構?;谌祟愐曈X,一幅自然圖片一般可以被少數(shù)幾個基本結構描述——比如,邊,線或者其他特征元素。當使用一組Iog-Gabor濾波器對圖片過濾,并統(tǒng)計結果直方圖,可以發(fā)現(xiàn)陡峭的尖峰,這說明圖片具有稀疏結構。(2)稀疏表達對噪聲和其他退化情況具有更魯棒的性質。這是因為,對于一組過完備的基,編碼方式有無數(shù)種一而在完備情況下,編碼方式只有一種一很難相信,先驗知識(即詞典)可以完全確定一幅圖像。數(shù)值實驗表明,當圖像發(fā)生微小的平移或縮放操作時,稀疏編碼系數(shù)只是在那些非0項附近平滑變動;而在完備編碼的情況下,系數(shù)會發(fā)會很大的變化。由于在圖像處理領域的極大成功,稀疏編碼成為廣泛使用的技術之一。在學術界,對于圖像數(shù)據(jù)具有稀疏結構已達成共識。互聯(lián)網(wǎng)圖像一般有三方面的信息圖像的內容信息,圖像數(shù)據(jù)分布的結構信息以及圖像周圍的短文本信息。圖像的內容信息一般可由底層視覺特征(如SIFT特征)表達,圖像數(shù)據(jù)分布的結構信息一般可以由流形技術挖掘,圖像周圍的短文本信息最常見的就是標簽信息。但是目前缺乏一種將三種信息有效融合的技術手段。由于短文本蘊含的信息量非常有限,比如不能使用基于長文本廣泛使用的多視覺(MultiView)思想,人們通常的做法是人們在考慮圖像信息與短文本信息融合的時候,通常只會考慮層次模型。比如在圖像檢索中,人們通常使用谷歌的檢索技術針對圖像的標簽進行第一次檢索,然后基于第一次檢索的結果再利用圖像的視覺特征進行第二次檢索,從而返回更精確的結果;在圖像分類中,人們通常提取出圖像的視覺特征,比如SIFT特征,再做一次處理,比如利用概率潛藏語義分析(Probabilistic Latent Semantic Analysis)進行主題挖掘,然后利學支持向量機的多核理論,使用基于圖像數(shù)據(jù)的核和標簽的核的凸組合作為分類器的核分類。這上述模型從本質上都是將兩個特征分開討論,而實際上它們是互相聯(lián)系的,標簽與圖像內容必然存在語義的聯(lián)系。
發(fā)明內容
本發(fā)明的目的是提出一種基于稀疏編碼的互聯(lián)網(wǎng)圖像特征提取方法,將互聯(lián)網(wǎng)圖像的內容信息,圖像數(shù)據(jù)分布的結構信息以及圖像周圍的文本信息有效融合,使提取出的特征能有效地表達圖像語義。本發(fā)明提出的基于稀疏編碼的圖像視覺特征提取方法,包括以下步驟(I)設圖片集中共有N幅圖片,提取圖片集的底層特征,其中第i幅圖片的底層特
征集為=,其中/p)是第i幅圖片的第h個底層特征,Ici = 1,2,...,內|,
|萬|為集合萬中的元素個數(shù),1=1,2,…,N ;(2)設定Iv圖片集中標簽出現(xiàn)頻率的閾值,將圖片集中出現(xiàn)頻率低于設定出現(xiàn)閾值的標簽刪除,圖片集中第i幅圖片的所有標簽生成一個標簽向量Wi, i=l,2,…,N ;(3)生成一個底層特征相似性矩陣W,具體過程如下(3-1)按下式計算底層特征集中任意兩個底層特征之間的歐式距離
權利要求
1. 一種基于稀疏編碼的圖像視覺特征提取方法,其特征在于該方法包括以下步驟 (1)設圖片集中共有N幅圖片,提取圖片集的底層特征,其中第i幅圖片的底層特征集為
全文摘要
本發(fā)明涉及一種基于稀疏編碼的圖像視覺特征提取方法,屬于計算機數(shù)字圖像處理技術領域。首先提取圖片集的底層特征;除去頻率過低的標簽,生成一個標簽向量;生成一個底層特征相似性矩陣W作為流形約束的基礎,從本質上結合底層視覺特征和高層文本特征;建立一個目標函數(shù);對目標函數(shù)最小化,得到圖片集底層特征稀疏編碼構成的最優(yōu)矩陣。本發(fā)明方法中,采用稀疏編碼,不僅很好地挖掘圖像的底層視覺特征以及高層文本的潛藏類別信息,而且使模型具有良好的魯棒性;本方法采用最大化池方法,得到每一幅圖片的唯一圖像視覺特征向量;該方法保證了最終圖像視覺特征簡單有效。
文檔編號G06K9/46GK102968635SQ20121048559
公開日2013年3月13日 申請日期2012年11月23日 優(yōu)先權日2012年11月23日
發(fā)明者丁貴廣, 周繼樂 申請人:清華大學