專利名稱:一種基于帶權(quán)圖的半監(jiān)督圖像分類方法
一種基于帶權(quán)圖的半監(jiān)督圖像分類方法技'術(shù)領(lǐng)域本發(fā)明屬于計算機多媒體技術(shù)領(lǐng)域,特別涉及半監(jiān)督圖像分類技術(shù)。
技術(shù)背景數(shù)字圖像是指以數(shù)字形式記錄的圖像信息。隨著計算機科學和網(wǎng)絡技術(shù)的發(fā)展,數(shù)字 圖像的數(shù)量正在以驚人的速度急劇增長,并且在人們?nèi)粘I钪邪l(fā)揮著日益重要的作用。 為了更好地處理和利用海量數(shù)字圖像中包含的信息,需要對數(shù)字圖像進行合理的分類。完 全依靠人工對圖像進行分類的方法費時費力,而且分類結(jié)果會受到分類人員主觀性的影 響。為了提高圖像分類的速度和精度,基于內(nèi)容的圖像分類技術(shù)應運而生?;趦?nèi)容的圖像分類的基本框架是給定若干已經(jīng)確定了其所屬類別的圖像(稱為已 標注圖像)和若干沒有確定其所屬類別的圖像(稱為未標注圖像),在使用計算機自動抽 取圖像底層視覺特征的基礎(chǔ)上,設(shè)計合適的分類方法,判斷未標注圖像所屬的類別。對于圖像特征的抽取,最直接的方法是針對整幅圖像提取其全局特征。但是,圖像的 語義往往是由圖像中的物體表現(xiàn)出來的,而基于圖像中物體的信息一般不能在全局特征中 得以體現(xiàn)。為了盡量獲取基于物體的信息,需要先將整幅圖像分割成若干個區(qū)域,并在此 基礎(chǔ)之上抽取區(qū)域的特征。理想情況下,圖像分割得到的每一個區(qū)域?qū)粋€具有實際意 義的物體。盡管現(xiàn)有技術(shù)并不能夠達到理想的分割效果,而一般只能將圖像分為許多具有 相似底層視覺特征的區(qū)域,但是,使用區(qū)域特征對圖像內(nèi)容進行描述更加符合人類的視覺 感知,因此,基于區(qū)域的圖像分類技術(shù)一般可以獲得更高的正確率?;趨^(qū)域的圖像分類技術(shù)可以分為監(jiān)督學習和半監(jiān)督學習兩大類。二者的主要區(qū)別在 于在分類器設(shè)計的過程中,監(jiān)督學習方法著眼于充分利用己標注圖像中的信息,而半監(jiān) 督學習方法則同時挖掘已標注圖像和未標注圖像中的信息。由于對未標注圖像中蘊含的信 息進行了合理利用,所以, 一般來說,半監(jiān)督圖像分類技術(shù)可以取得更好的分類結(jié)果。在 實際中,圖像標注的工作通常需要人工來完成,已標注圖像的數(shù)量往往是十分有限的;而 相對而言,未標注圖像的數(shù)量要多得多。只使用很少的已標注圖像進行訓練時,監(jiān)督學習 得到的分類器的性能往往是不穩(wěn)定的,且一般不具有很好的推廣能力。因此,監(jiān)督圖像分 類技術(shù)的應用受到了很大的限制,而半監(jiān)督圖像分類技術(shù)往往更具實用價值?;趲?quán)圖的方法是半監(jiān)督圖像分類技術(shù)中的重要組成部分,該類方法的基本內(nèi)容是: 構(gòu)建一張用來表征所有圖像之間關(guān)系的帶權(quán)圖,其中每一個結(jié)點對應一幅圖像,連接兩個 結(jié)點的邊的權(quán)重表示兩幅圖像之間的相似性;已標注圖像的類別信息可以在帶權(quán)圖上進行 傳遞,傳遞的結(jié)果可以為未標注圖像提供有效的分類信息。圖l示出了一張帶權(quán)圖,圖中 以圓圈表示結(jié)點,IO個結(jié)點分別對應10幅圖像/,(l&^10);圖中以兩圓圈之間帶箭頭的連線表示兩個結(jié)點之間的邊,^(1^^10,12_/210,/*刀表示由圖像/,.對應結(jié)點到圖像/j 對應結(jié)點的邊的權(quán)重。在所有的10幅圖像中,/p厶為已標注圖像且屬于不同的圖像類, 其余8幅圖像為未標注圖像。合理利用帶權(quán)圖的信息,可以將/,,/2的類別信息傳遞給其余 圖像,從而確定其所屬的類別。在所有基于帶權(quán)圖的半監(jiān)督圖像分類方法中,帶權(quán)圖的構(gòu)建都是極其重要的。由于和 ^:有圖像存在一一對應的關(guān)系,帶權(quán)圖結(jié)點數(shù)目的設(shè)置是顯而易見的,因此,構(gòu)建帶權(quán)圖 的關(guān)鍵問題在于如何有效確定邊的權(quán)重?,F(xiàn)有的絕大多數(shù)方法都基于高斯(Gaussian)函 數(shù)構(gòu)建帶權(quán)圖,已有的一種半監(jiān)督圖像分類方法的流程如圖2所示,其基本步驟如下1) 對所有圖像進行分割;2) 對所有圖像分割后得到的區(qū)域,進行底層視覺特征的抽?。?) 計算每幅圖像中各個區(qū)域面積占整幅圖像面積的比例;4) 基于高斯函數(shù)使用公式(l)計算帶權(quán)圖中邊的權(quán)重,并對計算出的邊的權(quán)重進行標準化處理<formula>formula see original document page 5</formula> (1)其中K為任意兩幅圖像,^為由圖像/,對應結(jié)點到圖像厶.對應結(jié)點的邊的權(quán)重, "aw。(.,.)為兩幅圖像之間的泥土搬運距離(EarthMo'v'er,sDistance,簡稱EMD),是兩幅基 于,區(qū)域表征的圖像之間一種有效的距離度量,o"為高斯函數(shù)中的參數(shù);5) 使用標簽傳播的方法在帶權(quán)圖上傳遞己標注圖像的類別信息;6) 根據(jù)類別信息傳遞的最終結(jié)果,對未標注圖像進行分類。基于高斯函數(shù)構(gòu)建帶權(quán)圖的方法簡單易行,但是,F(xiàn). Wang等人的文章"Label propagation through linear neighborhoods,"(《基于線性近鄰的標簽傳播》)中指出,參數(shù)cr對 分類結(jié)果有較大的影響,而且,目前還沒有可靠的方法能夠自動確定參數(shù)(7的合理取值。 在上述文章中,F(xiàn).Wang等人提出了基于近鄰線性重構(gòu)的思想來構(gòu)建帶權(quán)圖的方法。但是, '該方法只適用于圖像特征長度相等的情況。對于基于區(qū)域的圖像分類而言,不同圖像分割 后得到的區(qū)域數(shù)目往往是不同的,故不同圖像的特征長度也是不同的,因此,直接使用近 鄰線性重構(gòu)的方法是不可行的。作為運籌學的一個重要分支,線性規(guī)劃在實際中得到了廣泛的應用。 一般來說,線性規(guī)劃問題指的是求線性目標函數(shù)在線性約束條件下的最大值或最小值的問題。包含n個決 策變量 (1 S ")禾口 m個線性約束的線性規(guī)劃問題的標準形式為<formula>formula see original document page 5</formula> (2)其中JC,(1S y^/7)需要滿足如下約束條件<formula>formula see original document page 6</formula>其中 A(6^0),。(lSW加,l^Srt)均為常數(shù),m、 n為自然數(shù)。發(fā)明內(nèi)容本發(fā)明的目的是為克服已有技術(shù)的不足之處,提出一種基于帶權(quán)圖的半監(jiān)督圖像分類 方法。本方法使用線性規(guī)劃構(gòu)建帶權(quán)圖,其中需要設(shè)定的參數(shù)為近鄰圖像的數(shù)目。當參數(shù) 在較大的范圍內(nèi)變化時,使用本方法得到的圖像分類結(jié)果比較穩(wěn)定。 .本發(fā)明提出的基于帶權(quán)圖的半監(jiān)督圖像分類方法,包括以下步驟1) 對所有圖像進行分割;2) 對所有圖像分割后得到的區(qū)域,進行底層視覺特征的抽取;3) 計算每幅圖像中各個區(qū)域面積占整幅圖像面積的比例;4) 使用線性規(guī)劃構(gòu)建帶權(quán)圖;5) 使用標簽傳播的7.法在帶權(quán)圖上傳遞已標注圖像的類別信息;6) 根據(jù)類別信息傳i的最終結(jié)果,對未標注圖像進行分類。本發(fā)明的特點及效果本發(fā)明提出一種基于帶權(quán)圖的圖像分類方法,本方法使用線性規(guī)劃構(gòu)建帶權(quán)圖,其中 需要設(shè)定的參數(shù)為近鄰圖像的數(shù)目。實驗結(jié)果表明,使用該方法構(gòu)建的帶權(quán)圖,當參數(shù)在 較大的范圍內(nèi)變化時,得到的圖像分類結(jié)果比較穩(wěn)定,從而有效地克服了基于高斯函數(shù)構(gòu) 建帶權(quán)圖的方法中參數(shù)對分類結(jié)果影響較大的問題。
圖1為表征所有圖像之間關(guān)系的帶權(quán)圖示例。圖2為已有的使用基于高斯函數(shù)的帶權(quán)圖構(gòu)建方法進行圖像分類的流程框圖。圖3為使用本發(fā)明提出的帶權(quán)圖構(gòu)建方法進行圖像分類的流程框圖。圖4為本發(fā)明提出的帶權(quán)圖構(gòu)建方法的流程框圖。圖5為實施例中的圖像分割結(jié)果示例。圖6為實施例中得到的表征所有圖像之間關(guān)系的帶權(quán)圖。圖7為使用基于高斯函數(shù)的帶權(quán)圖構(gòu)建方法在參數(shù)的不同取值下得到的分類正確率。 ''圖8為使用本發(fā)明提出的帶權(quán)圖構(gòu)建方法在參數(shù)的不同取值下得到的分類正確率。
具體實施方式
本發(fā)明提出的一種基于帶權(quán)圖的半監(jiān)督圖像分類方法,結(jié)合附圖及實施例詳細說明如下本發(fā)明方法的流程如圖3所示,包括以下步驟-1) 對所有圖像進行分割設(shè)一共有W幅圖像,對每一幅圖像乙(1^W^A0進行分割 得到 個區(qū)域, 為自然數(shù);2) 對所有圖像分割后得到的區(qū)域,進行底層視覺特征的抽??;3) 計算每幅圖像中各個區(qū)域面積占整幅圖像面積的比例; 使用區(qū)域?qū)傩缘募蠈D像乙描述為^,,^,),(〉,^),…,(;,^),…,其中U(l"S )表示圖像乙中第)k個區(qū)域的特征,^(1S" )表示圖像^中第A:個區(qū) 域的面積占整幅圖像面積的比例;4) 使用線性規(guī)劃構(gòu)建帶權(quán)圖;5) 使用標簽傳播的方法在帶權(quán)圖上傳遞已標注圖像的類別信息;6) 根據(jù)類別信息傳遞的最終結(jié)果,對未標注圖像進行分類。 上述步驟4)的具體流程如圖4所示,包括以下步驟41)選取第一幅圖像乙即令w-l; '42)根據(jù)圖像的區(qū)域特征和區(qū)域面積比例,計算圖像乙與其它所有圖像之間的泥土,距離,記作"脂(/ (,/|),",(/ ,/2)廣',《,(/ ,,/一 ,))廣.,"脂(/ 1,。;43) 根據(jù)步驟42)中計算出的泥土搬運距離確定與圖像乙之間距離最小的K幅近鄰 圖像,記作^AW(4)^、,/仏,…,/ …,/M」,其中MJBh/Q表示近鄰圖像的標號;44) 使用線性規(guī)劃計i由該圖像對應結(jié)點到其近今圖像對應結(jié)點的邊的權(quán)重 設(shè)由圖像乙對應結(jié)點到圖像/^(lS"/Q對應結(jié)點的邊的權(quán)重為氣馬,Q,和、,之間的距離為《a/) (1&^ ,1^7^"仏),基于下述線性規(guī)劃問題計算VV 的值min力.(',j)(5)其中,待求解的決策變量為/力'j) (1《"", ,1^^"仏,1《"尺)和^ (isas/:),它們需要滿足如下約束條件<formula>formula see original document page 7</formula><formula>formula see original document page 8</formula> (io)45) 如果^g幻SW(/m),則令由圖像/ ,對應結(jié)點到圖像/4對應結(jié)點的邊的權(quán)重為 = 0 ,即由圖像對應結(jié)點到圖像/A對應結(jié)點的邊不存在;46) 選取下一幅圖像,即/n的取值加l,如果m^iV,則轉(zhuǎn)至步驟42),直至所有圖 像都被選取。.本發(fā)明的一種實施例選用標準圖像庫Corel中的沙灘(beach)和森林(forest)兩類圖 像進行分類,每個圖像類共包括6幅圖像,每類取其中l(wèi)幅為已標注圖像,其余的5幅作 為未標注圖像。本實施例包括以下步驟-1) 選用Y. Deng等人在文章"Color image segmentation"(《彩色圖像分割》)中提出的 基于J值的圖像分割(JSEG)方法對所有12幅圖像進行分割;其中一幅圖像的分割結(jié)果如圖5所示,該圖像被分割為3個區(qū)域,分別對應沙灘、小 孩和塑料桶;2) 對所有圖像分割后得到的區(qū)域,抽取共91維的區(qū)域特征,包括64維的顏色直方 圖、9維的顏色矩、10維的粗糙度向量和8維的方向度向量; ,'3) 計算每幅圖像中各個區(qū)域面積占整幅圖像面積的比例;.圖5所示圖像分割結(jié)果中,對應于沙灘、小孩和塑料桶三個區(qū)域的面積占整幅圖像面 積的比例分別為0.8935、 0.0891和0.0174。4) 使用線性規(guī)劃構(gòu)建帶權(quán)圖,得到的帶權(quán)圖如圖6所示;5) 分別使用1和-1作為沙灘和森林兩類標注圖像的原始類別標簽,未標注圖像的原 始類別標簽設(shè)為0。使用D. Zhou等人在文章"Learning with local and global consistency"*:《基 于局部和全局一致性的學習》)中提出的方法在帶權(quán)圖上進行類別標簽傳播;6) 判定類別標簽傳播的最終結(jié)果為正的未標注圖像屬于沙灘類,判定類別標簽傳播 的最終結(jié)果為負的未標注圖像屬于森林類。 .本實施例中,上述步驟4)的具體流程如圖4所示,包括以下步驟41) 令/ = 1;42) 根據(jù)圖像的區(qū)域特征和區(qū)域面積比例,計算圖像乙與其它所有圖像之間的泥土搬'運距離,記作^^(4,/,),"腳(4,/2),…A柳(4,/w)),…^腳(4,/,2);43) 根據(jù)步驟42)中計算出的泥土搬運距離確定與圖像乙之間的距離最小3幅近鄰圖像,記作幻、W(4)—/m,,/^,/mJ,其中MJlStS3)表示近鄰圖像的標號;44) 設(shè)由圖像乙對應結(jié)點到圖像/^(BA^3)對應結(jié)點的邊的權(quán)重為氣,^ , c,和 ~ ,之間的距離為(1^!、 ,l^y^"^),基于下述線性規(guī)劃問題計算vv仏的值<formula>formula see original document page 9</formula>
其中,待求解的決策變量為A('W) (1&^" ,,1^7、"卬1^^^3)和>%^ (1SAS3),它們 需要滿足如下約束條件
<formula>formula see original document page 9</formula><formula>formula see original document page 9</formula><formula>formula see original document page 9</formula><formula>formula see original document page 9</formula><formula>formula see original document page 9</formula>
45) 如果/,g幻W(乙),則令由圖像/ 對應結(jié)點到圖像^對應結(jié)點的邊的權(quán)重為 Wmt =0,即由圖像4對應結(jié)點到圖像A對應結(jié)點的'邊不存在;46) m的取值加1,如果w^W,則轉(zhuǎn)至步驟42)。 本發(fā)明方法與已有方法的實驗結(jié)果比較選用標準圖像庫Corel中的沙灘(beach)和森林(forest)兩類圖像進行分類,每個圖 像類共包括100幅圖像,取其中2幅為已標注圖像,其余的98幅作為未標注圖像。使用基于高斯函數(shù)構(gòu)建帶權(quán)圖的方法,在參數(shù)(T的不同取值下,得到的分類正確率如 圖7所示。圖中橫坐標表示高斯函數(shù)中參數(shù)C7的取值,縱坐標表示圖像分類的正確率。當 0.1So^0.2時,分類正確率高于90%;當0.2So^0.3時,分類正確率急劇下降,從高于90%降至50%;當0.3^CT^1時,分類正確率只有50%??梢?,分類結(jié)果受CT的影響較大;只有當cr在一較小的范圍內(nèi)取值時,才可以獲得較好的圖像分類效果。在近鄰圖像數(shù)目的不同取值下,使用本發(fā)明提出的帶權(quán)圖構(gòu)建方法得到的分類正確率 如圖8所示。圖中橫坐標表示近鄰圖像數(shù)目《的取值,縱坐標表示圖像分類的正確率。當 3S/CS16時,分類正確率一直保持在90%左右。可見,當參數(shù)在較大的范圍內(nèi)變化時, 圖像分類的結(jié)果比較穩(wěn)定。
權(quán)利要求
1. 一種基于帶權(quán)圖的半監(jiān)督圖像分類方法,其特征在于,包括如下步驟1)對所有圖像進行分割;2)對所有圖像分割后得到的區(qū)域,進行底層視覺特征的抽??;3)計算每幅圖像中各個區(qū)域面積占整幅圖像面積的比例;4)使用線性規(guī)劃構(gòu)建帶權(quán)圖;5)使用標簽傳播的方法在帶權(quán)圖上傳遞已標注圖像的類別信息;6)根據(jù)類別信息傳遞的最終結(jié)果,對未標注圖像進行分類。
2、如權(quán)利要求l所述的方法,其特征在于,所述步驟4)中使用線性規(guī)劃構(gòu)建帶權(quán)圖 具體包括以下步驟41)設(shè)一共有iV幅圖像,對每一幅圖像乙(l^w^AO進行分割得到 個區(qū)域,",,,為 自然數(shù);令/W =1 ;'42) 使用區(qū)域?qū)傩缘募蠈D像/,,,描述為{(^,vm,)々m2,vm2),''、(Q,^),''.,(;,,v4,其中^(""0表示圖像/, 中第*個區(qū) 域的特征,v A(lS )表示圖像/m中第yt個區(qū)域的面積占整幅圖像面積的比例;根據(jù)圖像的區(qū)域特征和區(qū)域面積比例,計算圖像乙與其它所有圖像之間的泥土搬運距 離,記作"薦(。/,)^層(C/2),…,"膽(4,V礎(chǔ))),…,"層(乙,/J;43)根據(jù)步驟42)中計算出的泥土搬運距離確定與圖像乙之間距離最小的/:幅近鄰 圖像,記作/CMV(/m) = , /仏,…,/ …,/仏.},其中Mt (1《* S尺)表示近鄰圖像的標號;'44)設(shè)由圖像乙對應結(jié)點到圖像/ (l^&2J0對應結(jié)點的邊的權(quán)重為vv^ , ^,與 rM ,之間的距離為刀(1《K ,1 ^ J' ^ ),基于下述線性規(guī)劃問題計算wm仏的值其中,待求解的決策變量為力a力(1"2 ,1^^ ',1S"尺)和^a (B"幻,它 們需要滿足如下約束條件<formula>formula see original document page 2</formula>、2 0, (3)l""加; (4)"1 乂=1= v仏p 1S/《"Mi,1 s A:s A:; (5),1>碼=1- (6)45) 如果人g尺AW(/J,則令由圖像/m對應結(jié)點到圖像人對應結(jié)點的邊的權(quán)重為= 0 ,即由圖像/ 對應結(jié)點到圖像/t對應結(jié)點的邊不存在;46) w的取值加1,如果w^AT,則轉(zhuǎn)至步驟42)。
全文摘要
本發(fā)明涉及半監(jiān)督圖像分類技術(shù),屬于計算機多媒體技術(shù)領(lǐng)域,該方法包括在對數(shù)字圖像進行分割的基礎(chǔ)上,提取區(qū)域特征并計算各個區(qū)域面積占整幅圖像面積的比例;使用線性規(guī)劃構(gòu)建帶權(quán)圖;使用標簽傳播的方法在帶權(quán)圖上傳遞已標注圖像的類別信息;最后根據(jù)類別信息傳遞的最終結(jié)果,對未標注圖像進行分類。本方法使用線性規(guī)劃構(gòu)建帶權(quán)圖,其中需要設(shè)定的參數(shù)為近鄰圖像的數(shù)目,當該參數(shù)在較大的范圍內(nèi)變化時,使用本方法得到的圖像分類結(jié)果比較穩(wěn)定,從而有效地克服了基于高斯函數(shù)構(gòu)建帶權(quán)圖的方法中參數(shù)對分類結(jié)果影響較大的問題。
文檔編號G06K9/46GK101295360SQ200810105980
公開日2008年10月29日 申請日期2008年5月7日 優(yōu)先權(quán)日2008年5月7日
發(fā)明者爾桂花, 徐文立, 戴瓊海, 斐 李 申請人:清華大學