一種圖像分類方法
【技術領域】
[0001 ] 本發(fā)明屬于數(shù)字圖像處理技術領域。
【背景技術】
[0002] 圖像理解是一個轉(zhuǎn)變"像素值決定"的過程:它將以圖標形式的圖像表示方式轉(zhuǎn)化 為另一種知識符號的形式,也即是圖像的各個像素塊內(nèi)包含了怎樣的內(nèi)容。其中,圖像分類 是圖像理解的一個分支,它在基于內(nèi)容的圖像檢索、物體分類與識別和場景分類中具有廣 泛的應用。在計算機視覺中,一個基本的問題是怎樣讓計算機像人類一樣"看"事物。實際 中,雖然我們每一秒內(nèi)都接受巨大數(shù)量的視覺數(shù)據(jù),但是我們幾乎并沒有意識到我們正在 以相當快的速度處理它們。對物體,比如桌子、乒乓球或者一個高山流山場景進行分類,進 行分類更是非常容易的事情。但目前機器人的視覺與人眼的視覺是無法比擬的。
[0003] 人工智能結合了計算機科學、神經(jīng)科學、數(shù)學、心理學、哲學和認知科學等領域的 工作。與此同時,在許多領域都去了很大的進步。例如,在認知科學方面的進步使我們有足 夠的理由相信,我們的大腦處理信息是以"至上而下"的方式,而不是"至下而上"的方式。 結合認知科學上取得的成果,圖像分類主要采取類似的兩種不同的技術路線:一種是"至下 而上"的方法,利用圖像中物體的類別來判定圖像的類別;另一種是"至上而下"的方法,直 接從整幅圖像來判定圖像的類別。
[0004] 目前,較多的研宄都聚焦在了第二種技術路線上。從而,避開了圖像分割,并通過 融合一個圖像的全局特征來進行分類。
[0005] 采用"自上而下"技術路線。此種技術由于避開了圖像分割,從而使圖像分類 任務變得簡明和有效。主要的思路是首先提取出圖像的全局或者局部特征;然后,對這 些特征進行編碼;接下里,進行向量的池化;最后,用分類器進行分類。比如,文獻Chang E j Goh Kj Sychay G,et al. CBSA:content-based soft annotation for multimodal image retrieval using Bayes point machines[J]. Circuits and Systems for Video Technology,IEEE Transactions on,2003, 13(1) :26-38 中提到了全局特征;文獻 Szummer M,Picard R W. Indoor-outdoor image classification[C]//Content-Based Access of Image and Video Database, 1998. Proceedings.,1998IEEE International Workshop on. IEEE,1998:42-51使用全局特征來對圖像進行分類。
[0006] 常用的圖像分類算法框架有:
[0007] 空間金字塔匹配 SPM :Lazebnik S,Schmid C,Ponce J. Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]//Computer Vision and Pattern Recognition, 2006IEEE Computer Society Conference on.IEEE,2006,2:2169-2178.
[0008] 基于稀疏編碼的空間金字塔匹配ScSPM :Yang J,Yu K,Gong Y,et al. Linear spatial pyramid matching using sparse coding for image classification[C]// Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on.IEEE, 2009:1794-1801.
[0009] SPM方法需要用到非線性核,訓練時間較長;ScSPM方法編碼時間過長,抵消了后 面運用線性核的整體效果。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明所要解決的技術問題是,提供一種能同時提升分類精度與效率的圖像分類 方法。
[0011] 本發(fā)明為解決上述技術問題所采樣的技術方案是,一種圖像分類方法,包括以步 驟:
[0012] 1)訓練階段:
[0013] 對訓練樣本圖像同時提取SIFT特征與協(xié)方差矩陣特征;
[0014] 對圖像的SIFT特征與圖像的協(xié)方差矩陣特征分別進行局部約束線性編碼LLC得 到圖像的SIFT特征稀疏編碼與圖像的協(xié)方差矩陣特征稀疏編碼;
[0015] SIFT特征稀疏編碼經(jīng)基于空間金字塔匹配SPM框架的池化處理后得到圖像的 SIFT特征表示,協(xié)方差矩陣特征稀疏編碼經(jīng)池化后得到圖像的協(xié)方差特征表示;
[0016] 將SIFT特征表示與協(xié)方差特征表示進行級聯(lián)后形成最終的樣本圖像的特征,將 最終的樣本圖像的特征輸入線性分類器訓練;
[0017] 2)分類階段:
[0018] 對待分類的圖像同時提取SIFT特征與協(xié)方差矩陣特征;
[0019] 對圖像的SIFT特征與圖像的協(xié)方差矩陣特征分別進行局部約束線性編碼LLC得 到圖像的SIFT特征稀疏編碼與圖像的協(xié)方差矩陣特征稀疏編碼;
[0020] SIFT特征稀疏編碼經(jīng)基于SPM框架的池化處理后得到圖像的SIFT特征表示,協(xié)方 差矩陣特征稀疏編碼經(jīng)池化后得到圖像的協(xié)方差特征表示;
[0021] 將SIFT特征表示與協(xié)方差特征表示進行級聯(lián)后形成最終的圖像表示,將最終的 圖像表示向量輸入訓練好的線性分類器得到分類結果。
[0022] 本發(fā)明的有益效果是,保留了 SPM框架,在SIFT特征提取技術基礎上,結合協(xié)方差 矩陣特征提取技術和LLC技術,協(xié)方差矩陣特征融合了多種特征,這些特征對尺度、旋轉(zhuǎn)和 光照變化不敏感。LLC的編碼速度快,效率高,為線性分類提供了基礎。線性分類器的使用 縮短了訓練時間。分類精度提高的同時,又增強了系統(tǒng)的魯棒性。
【附圖說明】
[0023] 圖1是本發(fā)明流程圖。
【具體實施方式】
[0024] 為了方便地描述本
【發(fā)明內(nèi)容】
,首先對一些術語進行說明。
[0025] 特征區(qū)域:特征區(qū)域是在圖像上均勻劃分出來的柵格,這些柵格中包含了圖像的 邊緣紋理和方向信息。這些信息對于特定的圖像都是非常穩(wěn)定的,它們代表了圖像的大體 輪廓,具有較好區(qū)分性。
[0026] 特征描述子:特征描述子(Descriptor)是對特征區(qū)域附近局部特征的定量化數(shù) 據(jù)描述,一個好的特征描述子應該能夠充分表達特征點局部圖像的形狀和紋理結構,具備 高的魯棒性、獨特性和區(qū)分性。通俗地說,就是用一個向量來表示一個局部區(qū)域的特征。
[0027] 稀疏編碼:由于自然圖像信號的稀疏性,圖像信號I(x,y)可分解為一組基的線性 組合。
[0028]
【主權項】
1. 一種圖像分類方法,其特征在于,包括以步驟: 1) 訓練階段: 對訓練樣本圖像同時提取SIFT特征與協(xié)方差矩陣特征; 對圖像的SIFT特征與圖像的協(xié)方差矩陣特征分別進行局部約束線性編碼LLC得到圖 像的SIFT特征稀疏編碼與圖像的協(xié)方差矩陣特征稀疏編碼; SIFT特征稀疏編碼經(jīng)基于空間金字塔匹配SPM框架的池化處理后得到圖像的SIFT特 征表示,協(xié)方差矩陣特征稀疏編碼經(jīng)池化后得到圖像的協(xié)方差特征表示; 將SIFT特征表示與協(xié)方差特征表示進行級聯(lián)后形成最終的樣本圖像的特征,將最終 的樣本圖像的特征輸入線性分類器訓練; 2) 分類階段: 對待分類的圖像同時提取SIFT特征與協(xié)方差矩陣特征; 對圖像的SIFT特征與圖像的協(xié)方差矩陣特征分別進行局部約束線性編碼LLC得到圖 像的SIFT特征稀疏編碼與圖像的協(xié)方差矩陣特征稀疏編碼; SIFT特征稀疏編碼經(jīng)基于SPM框架的池化處理后得到圖像的SIFT特征表示,協(xié)方差矩 陣特征稀疏編碼經(jīng)池化后得到圖像的協(xié)方差特征表示; 將SIFT特征表示與協(xié)方差特征表示進行級聯(lián)后形成最終的圖像表示,將最終的圖像 表示向量輸入訓練好的線性分類器得到分類結果。
2. 如權利要求1所述一種圖像場景分類方法,其特征在于,所述池化方式具體為最大 值池化max-pooling〇
3. 如權利要求1所述一種圖像分類方法,其特征在于,基于空間金字塔匹配SPM框架 的池化將圖像分為3層,第0層將整幅圖像作為一個區(qū)域,第1層將整幅圖像均勻劃分為4 個區(qū)域,第2層將整幅圖像均勻劃分為16個區(qū)域;按從左往右、從上到下的順序?qū)Ω鲗又械?各個區(qū)域?qū)南∈杈幋a矩陣進行池化得到各區(qū)域的向量,再順序?qū)⒏鲄^(qū)域的向量加權后 級聯(lián)得到圖像的特征表示。
4. 如權利要求3所述一種圖像場景分類方法,其特征在于,第0層權值為1/4,第1層 權值為1/4,第2層權值為1/2。
【專利摘要】本發(fā)明提供一種圖像分類方法,保留了SPM框架,在SIFT特征提取技術基礎上,結合協(xié)方差矩陣特征提取技術和LLC技術,協(xié)方差矩陣特征融合了多種特征,這些特征對尺度、旋轉(zhuǎn)和光照變化不敏感。LLC的編碼速度快,效率高,為線性分類提供了基礎。線性分類器的使用縮短了訓練時間。分類精度提高的同時,又增強了系統(tǒng)的魯棒性。
【IPC分類】G06K9-62
【公開號】CN104778476
【申請?zhí)枴緾N201510168725
【發(fā)明人】解梅, 馬爭, 張達明, 于國輝
【申請人】電子科技大學
【公開日】2015年7月15日
【申請日】2015年4月10日