基于多模態(tài)矩陣填充的自然圖像分類方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種基于多模態(tài)矩陣填充的圖像分類方法及裝置,該方法包括:對(duì)帶標(biāo)簽的、無標(biāo)簽的和測(cè)試的自然圖像數(shù)據(jù)進(jìn)行特征抽取,得到不同特征表示;采用矩陣填充算法生成帶標(biāo)簽數(shù)據(jù)的各特征的估計(jì)標(biāo)簽;將各估計(jì)標(biāo)簽進(jìn)行線性組合以逼近其對(duì)應(yīng)的已知的真實(shí)標(biāo)簽,得到組合系數(shù);對(duì)于各種特征,利用帶標(biāo)簽的自然圖像數(shù)據(jù)采用矩陣填充算法預(yù)測(cè)無標(biāo)簽的和測(cè)試的自然圖像數(shù)據(jù)的標(biāo)簽;采用所述組合系數(shù)對(duì)預(yù)測(cè)的所有特征的標(biāo)簽進(jìn)行組合,得到融合多種特征的標(biāo)簽;基于所述融合多種特征的標(biāo)簽對(duì)自然圖像數(shù)據(jù)進(jìn)行分類。本發(fā)明易于實(shí)現(xiàn),能得到較高的分類正確率,同時(shí)繼承了基于矩陣填充的圖像分類的優(yōu)點(diǎn),適用于網(wǎng)絡(luò)圖片總結(jié)歸類、圖像檢索等領(lǐng)域。
【專利說明】基于多模態(tài)矩陣填充的自然圖像分類方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于圖像分類與多模態(tài)數(shù)據(jù)分析(多特征融合)【技術(shù)領(lǐng)域】,涉及基于矩陣填充的多標(biāo)簽分類技術(shù),具體涉及一種利用多模態(tài)矩陣填充的圖像分類方法及裝置。
【背景技術(shù)】
[0002]與人臉、指紋等內(nèi)容單一、形式一致的圖像不同,一幅自然圖像中通常包含多個(gè)物體,且分別呈現(xiàn)不同的形態(tài)。在自然圖像分類中,往往需要給一幅圖像分配多個(gè)類別標(biāo)簽。如圖1所示,Ca) “人”在騎“自行車”,(b) “天空”和“海洋”經(jīng)常一起出現(xiàn),(C) “狗”是一種“動(dòng)物”。傳統(tǒng)的單標(biāo)簽分類(一個(gè)樣本只有一個(gè)類別標(biāo)簽)算法大多數(shù)無法直接用于多標(biāo)簽分類。比較可行的是多類分類中的“一對(duì)多”策略:為每個(gè)類別分別構(gòu)建一個(gè)二值分類器,屬于該類別的樣本視為正例,其余的都視為負(fù)例。這種方法的一個(gè)明顯缺陷是容易導(dǎo)致嚴(yán)重的數(shù)據(jù)偏斜問題,同時(shí)也忽略了類別之間相互關(guān)聯(lián)(例如,“天空”和“海洋”的共現(xiàn)關(guān)系,以及“狗”和“動(dòng)物”的從屬關(guān)系)。因此,近年來有很多新的算法被提出來解決多標(biāo)簽的問題。其中,利用矩陣填充的多標(biāo)簽分類算法允許輸入數(shù)據(jù)(特征和標(biāo)簽)有部分缺失,對(duì)噪聲和野點(diǎn)具有很強(qiáng)的魯棒性。
[0003]矩陣填充,顧名思義,就是將一個(gè)有空缺值的矩陣M填滿。如果對(duì)這個(gè)矩陣沒有任務(wù)假設(shè)或者先驗(yàn)知識(shí),則無法進(jìn)行填充。因此,通常假設(shè)所需恢復(fù)的那個(gè)矩陣是低秩(low-rank)的(Ε.Candes and B.Recht, Exact matrix completion via convexoptimization, Found.Comput.Math, 9:717-772,2009)。矩陣填充的目標(biāo)就是找到一個(gè)矩陣X使得X與M在已知項(xiàng)上的誤差盡量小,同時(shí)X的秩盡可能低。這個(gè)秩最小化問題是個(gè)NP-難問題,因此幾乎沒有什么實(shí)用性。慶幸的是,秩rank(X)可以被它的凸封裝,即核范數(shù) I IXI I * 所替換(M.Fazel, Matrix rank minimization with applications, Ph.D.thesis, Stanford University, 2002)?;谶@一點(diǎn),很多算法被開發(fā)出來用于矩陣填充。例如,Candes 和 Recht (E.Candes and B.Recht, Exact matrix completion via convexoptimization, Found.Comput.Math, 9:717-772,2009)指出最小化核范數(shù) | X UPrank(X)具有相同的唯一解,并證明了恢復(fù)一個(gè)矩陣只需要有限的樣本個(gè)數(shù)。此外,該文獻(xiàn)的作者還提出了一種半正定優(yōu)化的算法來求解最小化核范數(shù)的問題。為了處理大矩陣以及矩陣秩不是很低的情況,研究人員分別提出了奇異值閾值化(singular value thresholding, SVT)(J.Cai, E.Candes and Z.Shen, A singular value thresholding algorithm for matrixcompletion, SIAM, 20(4):1956-1982, 2010)和定點(diǎn)延續(xù)(fixed point continuation)(S.Ma, D.Goldfarb and L.Chen, Fixed point and Bregman iterative methods formatrix rank minimization, Math.Program.,128 (I): 321-353,2009)算法。最近,矩陣填充被引入到傳導(dǎo)學(xué)習(xí)(A.Goldberg, X.Zhu, B.Recht, J.Xu and R.Nowak, Transductionwith matrix completion: three birds with one stone, NIPS, pp.757-765,2010)和多標(biāo)簽圖像分類(R.Cabral, F.Torre, J.Costeira and A.Bernardino, Matrix completion formult1-label image classification, NIPS, pp.190-198,2011),基本思想就是將樣本特征矩陣和樣本標(biāo)簽矩陣拼在一起,然后通過矩陣填充算法將其中的未知特征和標(biāo)簽的值估計(jì)出來。
[0004]這種基于矩陣填充的圖像分類算法只能處理單種特征的數(shù)據(jù)。而事實(shí)上,目前為止還沒有哪一種特征能夠很好的描述自然圖像的各種類別。因此,通常都要求使用多種特征(如 SIFT (D.Lowe, Distinctive image features from scale-1nvariantkeypoints, Int.J.Comput.Vis., 60 (2):91-110, 2004), GIST (A.Torralba, K.Murphy andff.Freeman, Modeling the shape of the scene:A holistic representation of thespatial envelope, Int.J.Comput.Vis., 42 (3): 145-175,2001)和 RGB 等),融合多種特征的最直接的辦法就是將各種特征串成一個(gè)長(zhǎng)向量。這種做法不但會(huì)大大降低運(yùn)算效率,而且會(huì)導(dǎo)致維數(shù)爆炸問題,同時(shí)缺乏物理解釋,影響分類正確率。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于針對(duì)上述問題,提出一種基于多模態(tài)矩陣填充的圖像分類方法及裝置,采用多特征融合的矩陣填充算法,通過挖掘各個(gè)各種特征之間的互補(bǔ)性,實(shí)現(xiàn)高效、快速的多標(biāo)簽圖像分類。
[0006]多特征融合的分類算法大致可分為三種:特征層的融合(M.White, Y.Yu, X.Zhangand D.Schuurmans, Convex mult1-view subspace learning, NIPS, pp.1682-1690, 2012),交互式融合(A.Blum and T.Mitchell, Combining labeled and unlabeled data withco-training, COLT, pp.92-100,1998)以及分類器層的融合(C.Snoek, M.Worring andA.Smeulders, Early versus late fusion in semantic video analysis, Multimedia, pp.399-402,2005)。本發(fā)明采用的是在分類器層進(jìn)行融合的策略。 [0007]具體來說,本發(fā)明的基于多模態(tài)矩陣填充的圖像分類方法,其步驟包括:
[0008]I)對(duì)帶標(biāo)簽的、無標(biāo)簽的和測(cè)試的自然圖像數(shù)據(jù)進(jìn)行特征抽取,得到不同特征表示;
[0009]2)采用矩陣填充算法生成帶標(biāo)簽數(shù)據(jù)的各特征的估計(jì)標(biāo)簽;
[0010]3)將各估計(jì)標(biāo)簽進(jìn)行線性組合以逼近其對(duì)應(yīng)的已知的真實(shí)標(biāo)簽,得到組合系數(shù);
[0011]4)對(duì)于各種特征,利用帶標(biāo)簽的自然圖像數(shù)據(jù)采用矩陣填充算法預(yù)測(cè)無標(biāo)簽的和測(cè)試的自然圖像數(shù)據(jù)的標(biāo)簽;
[0012]5)采用所述組合系數(shù)對(duì)步驟4)預(yù)測(cè)的所有特征的標(biāo)簽進(jìn)行組合,得到融合多種特征的標(biāo)簽;
[0013]6)基于所述融合多種特征的標(biāo)簽對(duì)自然圖像數(shù)據(jù)進(jìn)行分類。
[0014]進(jìn)一步地,采用SIFT、GIST等特征抽取算法進(jìn)行所述特征抽取。
[0015]進(jìn)一步地,對(duì)步驟I)所得各特征表示進(jìn)行預(yù)處理,然后進(jìn)行步驟2);優(yōu)選使用核化主成分分析進(jìn)行預(yù)處理,還可以采用隨機(jī)映射(Random Projection)等其它方法。本發(fā)明中,預(yù)處理不是必要步驟,但進(jìn)行預(yù)處理能夠大大提升算法的執(zhí)行效率,同時(shí)也能在一定程度上提高分類正確率。
[0016]進(jìn)一步地,步驟2)的實(shí)現(xiàn)方法為:設(shè)預(yù)處理后得到X°(v),v=l,…,V,其中V是特征種類個(gè)數(shù),X0表示的是原始數(shù)據(jù)矩陣對(duì)于第V種特征;將帶標(biāo)簽的自然圖像數(shù)據(jù)分成兩部
分,假設(shè)第一部分?jǐn)?shù)據(jù)的標(biāo)簽i?是未知的,第二部分?jǐn)?shù)據(jù)的標(biāo) < )是已知的;采用矩陣填充算法使用第二部分?jǐn)?shù)據(jù)對(duì)第一部分?jǐn)?shù)據(jù)的標(biāo)簽進(jìn)行估計(jì),得到估計(jì)標(biāo)簽if),同理得到第二部分?jǐn)?shù)據(jù)的估計(jì)標(biāo)簽,將if)和if拼在一起,得到第V種特征表示的估計(jì)標(biāo)簽}fS對(duì)所有種類的特征實(shí)施上述過程,得到If \ v=l,…,V。
[0017]進(jìn)一步地,設(shè)組合系數(shù)為{θν},通過求解以下優(yōu)化問題尋找組合系數(shù){θν}使得
【權(quán)利要求】
1.一種基于多模態(tài)矩陣填充的自然圖像分類方法,包括下列步驟: 1)對(duì)帶標(biāo)簽的、無標(biāo)簽的和測(cè)試的自然圖像數(shù)據(jù)進(jìn)行特征抽取,得到不同特征表示; 2)采用矩陣填充算法生成帶標(biāo)簽數(shù)據(jù)的各特征的估計(jì)標(biāo)簽; 3)將各估計(jì)標(biāo)簽進(jìn)行線性組合以逼近其對(duì)應(yīng)的已知的真實(shí)標(biāo)簽,得到組合系數(shù); 4)對(duì)于各種特征,利用帶標(biāo)簽的自然圖像數(shù)據(jù)采用矩陣填充算法預(yù)測(cè)無標(biāo)簽的和測(cè)試的自然圖像數(shù)據(jù)的標(biāo)簽; 5)采用所述組合系數(shù)對(duì)步驟4)預(yù)測(cè)的所有特征的標(biāo)簽進(jìn)行組合,得到融合多種特征的標(biāo)簽; 6)基于所述融合多種特征的標(biāo)簽對(duì)自然圖像數(shù)據(jù)進(jìn)行分類。
2.如權(quán)利要求1所述的方法,其特在于:對(duì)步驟I)所得各特征表示進(jìn)行預(yù)處理,然后進(jìn)行步驟2)。
3.如權(quán)利要求2所述的方法,其特在于:使用核化主成分分析方法或者隨機(jī)映射方法進(jìn)行所述預(yù)處理。
4.如權(quán)利要求2所述的方法,其特在于,步驟2)的實(shí)現(xiàn)方法為: 設(shè)預(yù)處理后得到X°W,v=l,…,V,其中V是特征種類個(gè)數(shù),X0表示的是原始數(shù)據(jù)矩陣對(duì)于第V種特征;將帶標(biāo)簽的自然圖像數(shù)據(jù)分成兩部分,假設(shè)第一部分?jǐn)?shù)據(jù)的標(biāo)簽$是未知的,第二部分?jǐn)?shù)據(jù)的標(biāo); > 是已知的; 采用矩陣填充算法使用第二部分?jǐn)?shù)據(jù)對(duì)第一部分?jǐn)?shù)據(jù)的標(biāo)簽進(jìn)行估計(jì),得到估計(jì)標(biāo)簽 ,同理得到第二部分?jǐn)?shù)據(jù)的估計(jì)標(biāo)簽,將If和if拼在一起,得到第V種特征表示的估計(jì)標(biāo)簽If〗;對(duì)所有種類的特征實(shí)施上述過程,得到v=l,…,V。
5.如權(quán)利要求4所述的方法,其特在于:設(shè)組合系數(shù)為{θν},通過求解以下優(yōu)化問題尋找組合系數(shù){θν}使得
6.如權(quán)利要求5所述的方法,其特征在于:L是均方誤差函數(shù),即L(f(X),y) = (f(X)_y)2,采用坐標(biāo)梯度下降算法進(jìn)行求解,每次迭代只更新兩個(gè)變量,且更新規(guī)則是:
7.如權(quán)利要求5所述的方法,其特在于丄是鉸鏈損失函數(shù),即1^江00,7)= (1-7€00)+,通過交替優(yōu)化兩個(gè)子問題進(jìn)行求解, 子問題1:
8.如權(quán)利要求1或2所述的方法,其特征在于:所述特征抽取采用的特征抽取算法是SIFT 或者 GIST。
9.一種采用權(quán)利要求1所述方法的圖像分類裝置,其特征在于,包括: 特征抽取單元,用于對(duì)帶標(biāo)簽的和未知標(biāo)簽的自然圖像數(shù)據(jù)進(jìn)行特征抽取,得到不同特征表示; 訓(xùn)練數(shù)據(jù)生成單元,用于采用矩陣填充算法生成帶標(biāo)簽數(shù)據(jù)的各特征的估計(jì)標(biāo)簽;組合系數(shù)計(jì)算單元,連接所述訓(xùn)練數(shù)據(jù)生成單元,用于將各個(gè)估計(jì)標(biāo)簽進(jìn)行線性組合以逼近其對(duì)應(yīng)的已知的真實(shí)標(biāo)簽,得到組合系數(shù); 標(biāo)簽預(yù)測(cè)單元,用于利用帶標(biāo)簽的自然圖像數(shù)據(jù)采用矩陣填充算法預(yù)測(cè)未知標(biāo)簽的自然圖像數(shù)據(jù)的標(biāo)簽; 輸出融合單元,連接所述組合系數(shù)計(jì)算單元和所述標(biāo)簽預(yù)測(cè)單元,用于采用所述組合系數(shù)對(duì)由標(biāo)簽預(yù)測(cè)單元得到的標(biāo)簽進(jìn)行組合,得到融合多種特征的標(biāo)簽; 圖像分類單元,連接所述特征融合單元,基于所述融合多種特征的標(biāo)簽對(duì)自然圖像數(shù)據(jù)進(jìn)行分類。
10.如權(quán)利要求9所述的裝置,其特征在于:還包括預(yù)處理單元,連接所述特征抽取單元,用于對(duì)各特征表示進(jìn)行預(yù)處理;所述訓(xùn)練數(shù)據(jù)生成單元和所述標(biāo)簽預(yù)測(cè)單元分別與該預(yù)處理單元連接以接收預(yù)處理后的數(shù)據(jù)。
【文檔編號(hào)】G06F17/30GK103942214SQ201310021734
【公開日】2014年7月23日 申請(qǐng)日期:2013年1月21日 優(yōu)先權(quán)日:2013年1月21日
【發(fā)明者】羅勇, 許超 申請(qǐng)人:北京大學(xué)