一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法
【專利摘要】本發(fā)明公開了一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法。獲得圖像集及其圖像級標簽,對每幅圖像進行超像素分割,對每個超像素提取多維特征,組合形成特征矩陣;對每幅圖像進行顯著性檢測,得到每個超像素的平均顯著值;同時定義包含有不同標簽的詞典,計算得到每個超像素中的指導向量;構建優(yōu)化問題模型并進行求解,獲得每個超像素的表示系數(shù)與其在每個詞典原子中的權重以及詞典:根據(jù)各個超像素的表示系數(shù)、權重和詞典,求解獲得每個超像素對應的標簽:由此完成圖像解析,獲得圖像的分割結果。本發(fā)明改造了傳統(tǒng)詞典學習方法,并利用顯著性先驗,與以往的弱監(jiān)督圖像解析方法相比,得到了更好的效果。
【專利說明】
-種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法
技術領域
[0001] 本發(fā)明設及圖像語義分割方法,具體設及了一種基于顯著性指導的詞典學習的弱 監(jiān)督圖像解析方法。
【背景技術】
[0002] 圖像解析,即對圖像中的每個像素,識別出它的類別,是圖像處理中的一個核屯、問 題。傳統(tǒng)的圖像解析方法,一般利用監(jiān)督學習的方法,即需要訓練數(shù)據(jù)中的每個像素都帶有 標簽,而對訓練數(shù)據(jù)進行像素級的標注是十分昂貴的。因此,傳統(tǒng)監(jiān)督學習的方法的瓶頸在 于訓練數(shù)據(jù)的數(shù)量。
[0003] 為了解決訓練數(shù)據(jù)標注昂貴的問題,近年來,發(fā)展出了弱監(jiān)督的學習方法,即僅利 用弱的標簽進行學習,并且達到與監(jiān)督學習近似的性能。具體到圖像解析問題中,弱監(jiān)督的 圖像解析方法僅利用圖像級的標簽來學習,即利用圖像中包含的類別信息,在不知道運些 類別的物體在圖像中的具體位置的情況下,對輸入圖像進行語義的分割,即將每個類別的 物體在圖像中的具體位置標記出來,從而達到對圖像的理解。
[0004] 在大數(shù)據(jù)的背景下,雖然數(shù)據(jù)的總量呈現(xiàn)爆炸式的增長,但是大量的數(shù)據(jù)只有弱 的標記,而傳統(tǒng)的監(jiān)督學習方法并不能利用運些數(shù)據(jù)。同時,隨著圖片社交網(wǎng)絡,如Flickr 的興起,用戶會上傳大量的帶有圖像級標簽的圖像,使得即使海量的帶有圖像級標簽的數(shù) 據(jù)都可W免費獲得。因此,弱監(jiān)督的圖像解析方法比傳統(tǒng)的監(jiān)督學習圖像解析方法在大數(shù) 據(jù)時代有更大的用武之地。
[0005] 然而弱監(jiān)督的圖像解析是一個非常困難的問題,因為用來學習模型的訓練數(shù)據(jù)是 有歧義的。比如一幅帶有"牛","草","天空"的圖像,算法只知道圖像中具有運些標簽的物 體,但是不知道運些物體的具體位置,因此對于運幅圖像的每個像素,都有可能是"牛", "草"或者"天空",運些帶有歧義的數(shù)據(jù)會誤導分類器的學習。同時傳統(tǒng)的弱監(jiān)督的圖像解 析方法沒有利用其它信息進行指導,僅利用帶歧義的訓練數(shù)據(jù),往往不能得到好的解析結 果。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提供一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法, 本發(fā)明利用顯著性檢測,顯著性檢測目的在于檢測出一幅圖像中顯著的區(qū)域,即人有可能 會關注的區(qū)域,采用無監(jiān)督的方法,即并不需要事先訓練。由于人更有可能關注前景,因此 顯著的區(qū)域為前景的概率更大。因此,本發(fā)明用顯著性檢測的結果作為前景目標分割的指 導,可W大幅提高分割的準確性。
[0007] 本發(fā)明采用的技術方案是包括W下步驟:
[000引1)將有N幅圖像的圖像集記為I = {Ii,. . .Ik, . . .,In},N表示圖像的個數(shù),Υ = (Yi,. . .Yk,...,化}是圖像集I的圖像級標簽,Yk表示第k幅圖像Ik的圖像級標簽,所有圖像級 標簽共有化種;
[0009] 2)對每幅圖像用化IC算法進行超像素分割,共得到化個超像素,對每個超像素 p利 用卷積神經(jīng)網(wǎng)絡算法(CNN)提取d維特征,將所有超像素的d維特征組合形成dX化的特征矩 陣A;
[0010] 3)對每幅圖像進行顯著性檢測,得到每個超像素 P的平均顯著值S(p);同時定義一 個詞典£)=(?,…,巧,詞典D為包含有化種不同標簽的詞典,Di是屬于第1種標簽的 子詞典,Di= [Dll, . . . ,Dim],子詞典化包含Μ列,每一列稱為一個原子(atom),Μ表不子詞典化 中的原子個數(shù);
[ocm] 4)再采用W下公式計算得至晦個超像素 Ρ中指導向量Gp的第i個值:
[0012]
[001引其中,L(Di)是詞典D第i列所屬的標簽,I(p)為超像素 P所在的圖像,Ts為顯著性闊 值,扣sO表示圖像中標簽的前-背景值,C為指導向量常量;
[0014] 5)構建W下公式所表示的優(yōu)化問題模型并進行求解,獲得每個超像素 P的表示系 數(shù)Xp與其在每個詞典原子中的權重WpW及詞典D:
[0015]
[0016] 其中,tr()表示計算矩陣跡的函數(shù),diag(Wp)將向量Wp轉換成對角矩陣,I I I Ii指 L1范數(shù),Ap是第P個超像素的CNN特征,Xp為超像素 P的表示系數(shù),X為所有超像素的表示系數(shù), W為所有超像素在每個詞典原子中的權重,Wp表示超像素 P用來學習每個詞典原子的權重,Lx 表示超像素的鄰接矩陣化的拉普拉斯矩陣,Ld表示詞典D的鄰接矩陣化的拉普拉斯矩陣,λι, λ2,λ3,λ4是第一、第二、第Ξ、第四可調(diào)參數(shù);
[0017] 6)根據(jù)各個超像素的表示系數(shù)Xp、權重Wp和詞典D,采用W下公式求解獲得每個超 像素 P對應的標簽/;;:
[001 引
[0019]其中,διΟ表示抽取函數(shù),δι(Χρ)表示表示系數(shù)Xp中關于標簽1相關的部分;
[0020] 抽取函數(shù)διΟ采用W下公式進行計算:
[0021]
[0022] 其中,Xp[i]表示表示系數(shù)Xp的第i個分量,δι(Χρ)[。表示系數(shù)Xp中關于標簽1相關 的部分δι(Χρ)的第i個分量。
[0023] 由此完成圖像解析,獲得圖像的分割結果。
[0024] 所述步驟3)中的顯著性檢測采用文獻(胖.21111,5.^曰11旨,¥.胖6 1,曰11(1 J.Sun.Saliency optimization from robust background detection.In CVPR,2014)方 法。
[0025] 所述步驟4)中圖像標簽的前-背景值化s()具體采用W下公式計算
[0026]
[0027] 其中,Lm表示圖像k中的第m個標簽,扎S (Lm,Ik)表示圖像Ik中標簽Lm的前-背景值,P (LnlLm)為在圖像集中標簽Lm出現(xiàn)時標簽Ln出現(xiàn)的概率,標簽Ln表示圖像Ik下除標簽LmW外 的柄簽;
[0028] 所述的超像素鄰接矩陣化的拉普拉斯矩陣Lx采用W下公式計算:
[0029] 五χ=/-《,尸公、.12
[0030] 其中,Βχ表示超像素的度矩陣,度矩陣Βχ是一個對角矩陣且對角線上的元素
化表示超像素的鄰接矩陣,并采用W下公式計算:
[0031]
[0032] 其中,N(q)是與第q個超像素相鄰的超像素,p、q分別表示超像素的下標,化(p,q) 表示矩陣化的第P行,第q列的元素。
[0033] 所述的詞典D的鄰接矩陣化的拉普拉斯矩陣Ld采用W下公式計算:
[0034] Ld=I-^-i/2UdBd_i'/2
[0035] 其中,Bd表示詞典的度矩陣,度矩陣Bd是一個對角矩陣且對角線上的元素
化表示詞典的鄰接矩陣,并采用W下公式計算:
[0036]
[0037] 其中,UD(i,j)表示Ud的第i行、第j列的元素,L化)是詞典D第j個原子所屬的標簽。
[0038] 所述步驟5)的優(yōu)化問題模型采用塊梯度下降法(Block Coordinate Descent)進 行求解,具體采用W下方式:
[0039] 5.1)記χt,Dt,Wt分別為在第t次迭代中變量X,D,W的值,根據(jù)第t次迭代的詞典D哺 第t次迭代的權重wt求解W下公式計算得到第t+1次迭代的表示系數(shù)xt+i:
[0040]
[OOW 其中,巧!指向量Wp在第t次迭代的值;
[0042] 5.2)接著根據(jù)第*+1次迭代的表示系數(shù)乂^和第村欠迭代的權重¥1求解^下公式計 算得到第t+1次迭代的詞典qw:
[0043]
[0044] 其中,表示第p個超像素在第t+1迭代的值;
[0045] 5.3)最后根據(jù)第*+1次迭代的詞典0^和第*+1次迭代的表示系數(shù)乂^求解^下公 式計算得到第t+1次迭代的權重WW中的每一列!巧";
[0049] 所述步驟5.1)的公式利用FISTA算法進行求解,所述步驟5.2)的公式是一個最小 二乘問題,利用^BFGS算法進行求解,所述步驟5.3)的公式是一個二次規(guī)劃問題,利用 inter ior-point-convex 算法進行求角軍。
[0050] 本發(fā)明方法在傳統(tǒng)的詞典學習方法中引入權重變量,該權重表示每個訓練數(shù)據(jù)對 于不同類別的詞典的重要性,同時使用顯著性先驗來指導權重的更新,使得顯著的區(qū)域?qū)?前景具有大的權重。引入的權重能夠減少弱監(jiān)督中訓練數(shù)據(jù)的歧義性,因此能訓練出具有 高分辨能力的詞典。得到詞典之后再利用稀疏表示分類器,對圖像的每個超像素進行分類, 從而對圖像中的每個像素分配語義標簽。
[0051 ]與【背景技術】相比,本發(fā)明具有的有益效果是:
[0052] 本發(fā)明利用顯著性檢測的結果對弱監(jiān)督圖像解析進行指導,同時通過加權的詞 典學習方法學習每個類別的詞典用來分類,大幅度提高了解析結果的準確性。
[0053] 本發(fā)明改進了傳統(tǒng)詞典學習方法,并利用顯著性先驗,與W往的弱監(jiān)督圖像解析 方法相比,得到了更好的效果。
【附圖說明】
[0054] 圖1是本發(fā)明的方法的步驟示意圖。
[0055] 圖2是兩幅圖像的分割結果。
[0056] 其中圖2第1列為原始輸入圖像和它們的圖像級標簽,圖2第2列為顯著圖,越亮的 區(qū)域表示越顯著,圖2第3列為與圖像邊緣相接的超像素,未被涂白的區(qū)域即為與邊緣相接 的超像素,圖2第4列為本方法的分割結果,圖2第5列為分割結果的真值。
【具體實施方式】
[0057] 下面結合附圖與實施例對本發(fā)明進行進一步說明。
[005引本發(fā)明的實施例如下:
[0059] 圖1給出了基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法的流程圖。
[0060] (1)對數(shù)據(jù)集中的每幅圖像,利用化1C進行超像素分割,每幅圖的超像素個數(shù)為 100。對每個超像素利用CN腳是取特征,具體為,將超像素所在的最小矩形框,利用插值方法 調(diào)整為固定大小,輸入預先訓練好的CNN模型(ImageNet Classification with Deep Convolutional化ural化tworks),取出特征層的輸出。
[0061 ] (2)對每幅圖像利用文獻l(Wangjiang Zhu,Shuang Liang,Yichen Wei ,and Jian Sun. Saliency Optimization from Robust Background Detection. In CVPR,2014)的方 法進行非監(jiān)督的顯著性檢測,得到每個超像素的平均顯著值。按照上述(1)式的定義計算每 張圖像中,每個標簽前-背景值,前-背景值大于零,說明此標簽在此圖中為前景,反之,則為 背景。(1)式基于的假設為,在數(shù)據(jù)集中,前景會伴隨著某一特定背景出現(xiàn),而背景不會伴隨 某一前景出現(xiàn)。比如在有"牛"的圖像中,"草"也出現(xiàn)的概率很大,但是在有"草"出現(xiàn)的圖像 中,"牛"也出現(xiàn)的概率并不高。
[0062] (3)根據(jù)上一步計算的前-背景值,按照(3)計算每個超像素的指導向量。指導向量 會引導算法將顯著的超像素用來學習前景的詞典,將邊緣的超像素用來學習背景的詞典。
[0063] (4)按照式(4)至(6)計算詞典和超像素的拉普拉斯矩陣,式(7)中兩個trO項的作 用是使類別相同的詞典原子更為接近,使特征相似的超像素的標簽接近,即起到平滑的作 用。
[0064] (5)求解式(7)所示的優(yōu)化問題。由于此優(yōu)化問題具有Ξ個變量,因此使用塊梯度 下降法(Block Coordinate Descent)的方法,即每個變量單獨優(yōu)化,并在優(yōu)化單個變量時 固定其他變量,即迭代地求解式(10)至(12)Ξ個標準的優(yōu)化問題。式(10)所示優(yōu)化問題是 一個稀疏編碼的問題,我們使用FISTA算法進行求解。式(11)所示優(yōu)化問題是最小二乘問 題,使用基于梯度的^BFGS方法進行解。式(12)所示優(yōu)化問題是二次規(guī)劃問題,使用 interior-point-convex方法進行求解。經(jīng)試驗,外循環(huán)的迭代次數(shù)為5時,收斂效果好。
[0065] (6)在得到表示系數(shù)X和詞典D后,可W通過重構誤差對每個超像素進行分類,即式 (8)所示。具體為,對超像素的每一個可能的類別,計算僅用此類別對應的詞典和表示系數(shù) 進行重構的誤差,取誤差最小的類別為識別的類別。
[0066] 具體實施中,使用標準數(shù)據(jù)集 MSRC2UJ. Shotton, J.Winn,C.Rother,and A.Criminisi.Textonboost for image understanding:Multi-class object recognition and segmentation by jointly modeling texture,layout,and context.International Journal of Computer Vision,81(l):2-23,2009)和V0C07 (M.Everingham,S.A.Eslami,L.Van Goo1,C.K.Williams,J.Winn,and A.Zisserman.The pascal visual object classes challenge:A retrospective. International Journal of Computer Vision, 111 (1):98-136,2014.)進行測試。MSRC21 數(shù)據(jù)集共有591 張帶圖像級 標簽的圖像,并且每一幅圖像均有較為精細的語義分割的真值,其中共有標簽21種,包括 "天空V単V氷'等背景標簽和"牛V'建筑V'汽車"等前景標簽。V0C07共有632幅帶圖像 級標簽的圖像,也包含21種標簽,其中有20類前景標簽和1類雜亂的背景標簽。相比較于 MSRC21,V0C07的弱監(jiān)督語義解析的難度更大。
[0067] 運行算法時,設置可調(diào)參數(shù)λl=10-3,λ2 = 5X10-l,λ3 = 10-l,λ4=10-2,設置顯著性 闊值Ts = 30,常量c = l(Ti,外循環(huán)次數(shù)為5,每個子問題的內(nèi)循環(huán)次數(shù)為100,每類詞典共學 習30個原子。測試時輸入圖像及對應的圖像級標簽,輸出像素級的語義解析結果。評判時, 按照語義解析的通用評判標準,先對每個類別計算召回率,然后計算所有類別召回率的均 值,并比對均值的大小,均值越大,說明算法效果越好。其中某一類別召回率的計算方法為:
[006引
[0069]表1和表2給出了本方法與最新的弱監(jiān)督語義解析方法的數(shù)值結果的比較。可看 到,由于加入了顯著性的指導,本方法大大優(yōu)于現(xiàn)有方法。
[0070] 表1本方法與最新方法在MSRC21數(shù)據(jù)集上的比較
[0071]
'[0074]~圖2給出了數(shù)據(jù)集中兩幅圖像的輸入,中?司結果和最終結果<!圖2第1列是輸入圖像I 和它的圖像級標簽,第2列是對輸入圖像進行顯著性檢測的結果,越亮的區(qū)域代表越顯著, 第3列顯示了處于圖像邊緣的超像素,通過前3列我們可W發(fā)現(xiàn)顯著的物體一般都是前景物 體,如"牛","建筑"和"樹",而處于圖像邊緣的物體,一般都是背景物體,如"草',"天空",運 也是本方法引入的先驗知識,且此先驗能夠幫助得到更精準的圖像解析結果。第4列和第5 列分別為本方法的解析結果和真值。
[0075]由此可見,本發(fā)明能大幅度提高了解析結果的準確性,較傳統(tǒng)方法具有突出顯著 的技術效果,得到了更好的效果。
【主權項】
1. 一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法,其特征是:包括如下步驟: 1) 將有N幅圖像的圖像集記為1 = (1:, .. .Ik,...,In},N表示圖像的個數(shù),Y={Yl·, ...Yk,...,Yn}是圖像集I的圖像級標簽,Yk表不第k幅圖像Ik的圖像級標簽,所有圖像級標 簽共有Νι種; 2) 對每幅圖像用SLIC算法進行超像素分割,共得到隊個超像素,對每個超像素 p利用卷 積神經(jīng)網(wǎng)絡算法(CNN)提取d維特征,將所有超像素的d維特征組合形成dXNs的特征矩陣A; 3) 對每幅圖像進行顯著性檢測,得到每個超像素 p的平均顯著值S(p);同時定義一個詞 典£> = [£),,…,Ο,,…,1)^,詞典D為包含有沁種不同標簽的詞典,屬于第1種標簽的子詞 典,Di=[Dn,…,Dim],子詞典Di包含Μ個原子; 4) 再采用以下公式計算得到每個超像素 ρ中指導向量GP的第i個值:其中,UDd是詞典D第i列所屬的標簽,I(p)為超像素 p所在的圖像,1^為顯著性閾值, fbs()表示圖像中標簽的前-背景值,c為指導向量常量; 5) 構建以下公式所表示的優(yōu)化問題模型并進行求解,獲得每個超像素 ρ的表示系數(shù)乂[)與 其在每個詞典原子中的權重%以及詞典D:其中,tr()表示計算矩陣跡的函數(shù),diag(WP)將權重WP轉換成對角矩陣,|| IIJgLl范 數(shù),AP是第ρ個超像素的卷積神經(jīng)網(wǎng)絡特征,XPS超像素 ρ的表示系數(shù),X為所有超像素的表示 系數(shù),W為所有超像素在每個詞典原子中的權重,WP表示超像素 ρ用來學習每個詞典原子的 權重,Lx表示超像素的鄰接矩陣Ux的拉普拉斯矩陣,Ld表示詞典D的鄰接矩陣UD的拉普拉斯 矩陣,\ 1,\2,\3,\4分別是第一、第二、第三、第四可調(diào)參數(shù), 84.表示約束條件; 6) 根據(jù)各個超像素的表示系數(shù)XP、權重WP和詞典D,采用以下公式求解獲得每個超像素 ρ 對應的標簽/:;:其中,Si()表示抽取函數(shù)Ji(XP)表示表示系數(shù)XP中關于標簽1相關的部分; 抽取函數(shù)31()采用以下公式進行計算:其中,XP[i]表示表示系數(shù)XP的第i個分量JKXpKi]表示系數(shù)XP中關于標簽1相關的部 分心(XP)的第i個分量。2. 根據(jù)權利要求1所述的一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法,其 特征是:所述步驟3)中的顯著性檢測采用文獻(W.Zhu,S.Liang,Y.Wei, and J. Sun.Saliency optimization from robust background detection. In CVPR,2014)方 法。3. 根據(jù)權利要求1所述的一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法,其 特征是:所述步驟4)中圖像標簽的前-背景值fbs()具體采用以下公式計算其中,匕表示圖像k中的第m個標簽,f bs (Lm,Ik)表示圖像Ik中標簽匕的前-背景值,P (Ln Lm)為在圖像集中標簽Lm出現(xiàn)時標簽Ln出現(xiàn)的概率,標簽匕表示圖像I k下除標簽。以外的標 簽。4. 根據(jù)權利要求1所述的一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法,其 特征是:所述的超像素鄰接矩陣Ux的拉普拉斯矩陣L x采用以下公式計算: L,x 其中,Bx表示超像素的度矩陣,度矩陣Bx是一個對角矩陣且對角線上的元素;Ux表示超像素的鄰接矩陣,并采用以下公式計算:其中,N(q)是與第q個超像素相鄰的超像素,p、q分別表示超像素的下標,Ux(p,q)表示矩 陣Ux的第p行、第q列的元素。5. 根據(jù)權利要求1所述的一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法,其 特征是:所述的詞典D的鄰接矩陣UD的拉普拉斯矩陣Ld采用以下公式計算: Ld = I_Bd-1/2UdBd-172 其中,Bd表示詞典的度矩陣,度矩陣Bd是一個對角矩陣且對角線上的元素;UD表示詞典的鄰接矩陣,并采用以下公式計算:其中,UD(i,j)表示UD的第i行、第j列的元素,L(DJ是詞典D第j個原子所屬的標簽。6. 根據(jù)權利要求1所述的一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法,其 特征是:所述步驟5)的優(yōu)化問題模型采用塊梯度下降法(Block Coordinate Descent)進行 求解具體采用以下方式: 5.1)記乂\0\1汾別為在第七次迭代中變量父,0,1的值,根據(jù)第〖次迭代的詞典0啼第七次 迭代的權重Μ求解以下公式計算得到第t+Ι次迭代的表示系數(shù)Xt+1:其中,^指向量Wp在第t次迭代的值; 5.2) 接著根據(jù)第t+Ι次迭代的表示系數(shù)Xt+1和第t次迭代的權重f求解以下公式計算得 到第t+Ι次迭代的詞典D t+1:其中,表示第p個超像素在第t+1迭代的值; 5.3) 最后根據(jù)第1+1次迭代的詞典〇01和第1+1次迭代的表示系數(shù),+1求解以下公式計 算得到第t+Ι次迭代的權重W t+1中的每一列%+\·:其中,運算符d表示為:7. 根據(jù)權利要求6所述的一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法,其 特征是:所述步驟5.1)的公式利用FISTA算法進行求解。8. 根據(jù)權利要求6所述的一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法,其 特征是:所述步驟5.2)的公式利用L-BFGS算法進行求解。9. 根據(jù)權利要求6所述的一種基于顯著性指導的詞典學習的弱監(jiān)督圖像解析方法,其 特征是:所述步驟5 · 3)的公式利用interior-point-convex算法進行求解。
【文檔編號】G06T7/00GK105825502SQ201610140715
【公開日】2016年8月3日
【申請日】2016年3月12日
【發(fā)明人】賴百勝, 龔小謹, 江文婷
【申請人】浙江大學