本發(fā)明涉及計算機視覺、模式識別等
技術(shù)領(lǐng)域:
,具體涉及一種基于rgb-d融合特征與稀疏編碼的圖像分類方法。
背景技術(shù):
:當今社會已是信息爆炸的時代,除了大量的文本信息外,人類接觸的多媒體信息(圖片,視頻等)也呈爆炸式增長。為了準確、高效的利用、管理和檢索圖像,這就需要計算機按照人類理解的方式準確地理解圖像內(nèi)容。圖像分類是解決圖像理解問題的重要途徑,對多媒體檢索技術(shù)的發(fā)展有重要的推動作用。而所獲取的圖像可能受到視點變化、照明、遮擋與背景等多因素的影響,這使得圖像分類一直以來都是計算機視覺、人工智能領(lǐng)域一個具有挑戰(zhàn)性的難題,許多圖像特征描述和分類技術(shù)因此得到迅速發(fā)展。當前的圖像特征描述和分類技術(shù)中,主要算法是基于特征袋(bag-of-feature,bof)的算法,s.lazebnik在文章“spatialpyramidmatchingforrecognizingnaturalscenecategories”中提出了基于bof的空間金字塔匹配(spatialpyramidmatching,spm)框架,該算法克服了bof算法中丟失的空間信息,有效的提高了圖像分類的準確率。但是基于bow的算法都是采用矢量量化(vectorquantization,vq)對特征進行編碼,而這種硬編碼模式并沒有考慮視覺字典中視覺單詞之間的相互關(guān)系,從而導(dǎo)致圖像特征編碼后的誤差較大,進而影響整個圖像分類算法的性能。近幾年來,隨著稀疏編碼(sparsecoding,sc)理論的日漸成熟,該理論也成為圖像分類領(lǐng)域最為熱門的技術(shù)。yang在文章“l(fā)inearspatialpyramidmatchingusingsparsecodingforimageclassification”中提出了一種基于稀疏編碼空間金字塔匹配(sparsecodingspatialpyramidmatching,scspm),該模型用稀疏編碼的方式替代硬分配模式,能優(yōu)化視覺字典的權(quán)重系數(shù),從而更好地量化圖像特征,使得圖像分類的準確度和效率都有很大的提升,但由于過完備碼書的原因,原本相似度極高的幾個特征有可能被截然不同地表示出來,scspm模型的穩(wěn)定性不好。wang等改進了scspm,在文章“l(fā)ocality-constrainedlinearcodingforimageclassification”中提出了局部約束線性編碼(locality-constrainedlinearcoding,llc),指出局部性比稀疏性更加重要,用視覺字典中的多個基表示一個特征描述子,且相似的特征描述子通過共享其局部的基,得到相似的編碼,這使得scspm的不穩(wěn)定性得到極大改善。上述方法都是針對彩色圖像的分類,忽略了物體或者場景中的深度信息,而深度信息又是圖像分類重要線索之一,因為深度信息根據(jù)距離很容易將前景與背景分開,能直接反映物體或者場景的三維信息。隨著kinect的興起,深度圖像的獲取變的越來越容易,結(jié)合深度信息進行圖像分類的算法也開始變得流行起來。liefengbo等在文章“kerneldescriptorsforvisualrecognition”提出了從核方法的角度提取圖像的特征并進行圖像分類,然而這種算法的缺陷在于首先要對物體進行三維建模,這是非常耗時的,算法的實時性不高;n.silberman在文章“indoorscenesegmentationusingastructuredlightsensor”中先用尺度不變特征變化(scaleinvariantfeaturetransform,sift)算法分別提取深度圖像(depth圖像)和彩色圖像(rgb圖像)的特征,然后再進行特征融合,之后采用spm編碼進行圖像分類;a.janoch在文章“acategory-level3dobjectdataset:puttingthekinecttowork”中用方向梯度直方圖(histogramoforientedgradient,hog)算法分別對深度圖像和彩色圖像進行特征提取,在特征融合后實現(xiàn)最終的圖像分類;mirdaniesm等在文章“objectrecognitionsysteminremotecontrolledweaponstationusingsiftandsurfmethods”中將提取到的rgb圖像的sift特征與深度圖像的surf特征進行融合,并將融合后的特征用于目標分類。這些算法都是在特征層進行rgb特征與深度特征的融合,可以有效的提高圖像分類的精度。但是這一類算法也同樣存在著一定的缺陷,這就是對rgb圖像與深度圖像提取的特征都是單一的特征,而采用單一特征時存在對圖像的信息提取不足,所得到的融合特征并不能充分的表述圖像內(nèi)容,其原因在于:rgb圖像易受到光照變化、視角變化、圖像幾何變形、陰影與遮擋等多方面的影響,深度圖像容易受到成像設(shè)備的影響,導(dǎo)致圖像中出現(xiàn)孔洞、噪聲等問題,單一的圖像特征提取并不能對圖像中所有的因素保持魯棒性,這勢必會丟失圖像中的信息。因此,有必要設(shè)計一種分類更為準確的圖像分類方法。技術(shù)實現(xiàn)要素:本發(fā)明要解決的技術(shù)問題是,針對現(xiàn)有技術(shù)的不足,提供了一種集成rgb-d融合特征與稀疏編碼的圖像分類方法,準確性高,穩(wěn)定性好。為了解決上述技術(shù)問題,本發(fā)明所提供的技術(shù)方案為:一種基于rgb-d融合特征與稀疏編碼的圖像分類方法,包括訓練階段和測試階段:所述訓練階段包括以下步驟:步驟a1、針對每一個樣本數(shù)據(jù),提取其rgb圖像與depth圖像(彩色圖像與深度圖像)的densesift(scale-invariantfeaturetransform,尺度不變特征變換)與phog(pyramidhistogramoforientedgradients,分層梯度方向直方圖)特征;樣本數(shù)據(jù)的個數(shù)為n;步驟a2、針對每一個樣本數(shù)據(jù),對其兩種圖像提取的特征采用兩兩線性串聯(lián)的形式進行特征融合,得到四種不同的融合特征;n個樣本數(shù)據(jù)得到的同種融合特征組成一個集合,得到四種融合特征集;通過上述特征提取,rgb圖像的densesift和phog特征,以及depth圖像的densesift與phog特征;之后對所得到的特征進行歸一化,使所有的特征擁有相似的尺度;本發(fā)明為了降低特征融合的復(fù)雜度,采用兩兩線性串聯(lián)的方式對特征進行融合,即:f=k1·α+k2·β(1)其中k1,k2為特征對應(yīng)的權(quán)值,且k1+k2=1,本發(fā)明中令k1=k2。α代表rgb圖像提取的特征,β代表depth圖像提取的特征;最終得到四種不同的融合特征,即:rgbd-densesift特征、rgb-densesift特征+phogd特征、rgb-phog特征+d-densesift特征、rgbd-phog特征;分別表示rgb圖像和depth圖像的densesift特征產(chǎn)生的融合特征、rgb圖像的densesift特征和depth圖像的phog特征產(chǎn)生的融合特征、rgb圖像的phog特征和depth圖像的densesift特征產(chǎn)生的融合特征、rgb圖像和depth圖像的phog特征產(chǎn)生的融合特征。步驟a3、分別對四種融合特征集中的融合特征進行聚類處理,得到四種不同的視覺字典;步驟a4、在每種視覺字典上,采用局部約束線性編碼模型對融合特征進行特征編碼,得到四種不同的圖像表述集;步驟a5、根據(jù)四種不同的融合特征集、圖像表述集以及相應(yīng)的樣本數(shù)據(jù)的類標簽構(gòu)造分類器,得到四個不同的分類器。所述測試階段包括以下步驟:步驟b1、按照步驟a2~a3中的方法提取和融合待分類圖像的特征,得到待分類圖像的四種融合特征;步驟b2、在步驟a3得到的四種視覺字典上,采用局部約束線性編碼模型分別對步驟b1得到的四種融合特征進行特征編碼,得到待分類圖像四種不同的圖像表述;步驟b3、用步驟a5得到的四個分類器分別對步驟b2得到的四種圖像表述進行分類,得到四個類標簽(四個類標簽中可能包含相同的類標簽,也可能都是不同的類標簽);步驟b4、基于得到的四個類標簽,使用投票決策方法得到該待分類圖像的最終類標簽,即選取四個類標簽中票數(shù)最多的類標簽作為最終類標簽。進一步地,所述步驟a3中,使用k-means++聚類方法針對某種融合特征集中的融合特征進行聚類處理。傳統(tǒng)建立視覺字典的k-means算法具有簡單、性能高效等優(yōu)點。但k-means算法自身也存在著一定局限性,算法在對初始聚類中心的選擇上是隨機的,這就導(dǎo)致聚類結(jié)果受初始中心點的影響較大,如果由初始中心點的選擇而陷入局部最優(yōu)解,這對圖像正確分類的結(jié)果是致命的。所以針對這點不足,本發(fā)明使用k-means++算法進行視覺字典建立,采取一種概率選取的方法代替隨機選擇初始聚類中心。針對任一種融合特征進行聚類處理,得到相應(yīng)的視覺字典的具體實現(xiàn)方法如下:3.1)將由n個樣本數(shù)據(jù)得到的得到的融合特征組成一個集合,即融合特征集hi={h1,h2,h3,…,hn},并設(shè)置聚類數(shù)目為m;3.2)在融合特征集hi={h1,h2,h3,…,hn}中隨機選擇一個點作為第一個初始聚類中心s1;設(shè)置計數(shù)值t=1;3.3)對融合特征集hi={h1,h2,h3,…,hn}中每一個點hi,hi∈hi,計算它與st之間的距離d(hi);3.4)選擇下一初始聚類中心st+1:基于公式計算點hi'被選擇為下一初始聚類中心的概率,其中hi'∈hi;選擇概率最大的點作為下一初始聚類中心st+1;3.5)令t=t+1,重復(fù)步驟(3)和(4),直到t=m,即m個初始聚類中心被選出來;3.6)利用選出來的初始聚類中心來運行k-means算法,最終于生成m個聚類中心;3.7)定義每個聚類中心為視覺字典中的一個視覺單詞,聚類數(shù)目m即為視覺字典的大小。進一步地,所述步驟a4中,采用局部約束線性編碼模型對融合特征進行特征編碼,模型表達式如下:式中:hi為融合特征集hi中的融合特征,即待編碼的特征向量,hi∈rd,d表示融合特征的維度;b=[b1,b2,b3…bm]是通過k-means++算法建立的視覺字典,b1~bm為視覺字典中的m個視覺單詞,bj∈rd;c=[c1,c2,c3…cn]為編碼得到的圖像表述集,其中ci∈rm為編碼完成后一幅圖像稀疏編碼的表示形式;λ為llc的懲罰因子;表示元素對應(yīng)相乘;1tci中1表示全部元素為1的向量,那么1tci=1用于對llc進行約束,使其具有平移不變性;di定義為:其中dist(hi,b)=[dist(hi,b1),dist(hi,b2),…dist(hi,bm)]t,dist(hi,bj)表示hi與bj之間的歐式距離,σ用于調(diào)整局部位置的約束權(quán)重的下降速度。本發(fā)明采用局部約束線性編碼(locality-constrainedlinearcoding,llc)。因為特征的局部性位置約束必然可以滿足特征的稀疏性,而滿足特征的稀疏性不一定滿足局部性位置約束,所以局部比稀疏更重要。llc使用局部約束代替稀疏約束,能獲得良好的性能。進一步地,所述步驟a4中,采用近似的局部約束線性編碼模型對融合特征進行特征編碼;式(2)中編碼模型在求解ci的過程中,待編碼的特征向量hi傾向選擇視覺字典中距離較近的視覺單詞,形成一個局部坐標系統(tǒng)。因此,根據(jù)這個規(guī)律可以使用一種簡單的近似llc特征編碼方式來加速編碼過程,即不求解式(2),對于任意一個待編碼的特征向量hi,使用k鄰近搜索選取視覺字典b中距離其最近的k個視覺單詞作為局部視覺單詞矩陣bi,通過求解規(guī)模更小的線性系統(tǒng)來獲得編碼。其表達式如下:其中,為近似編碼得到的圖像表述集,其中為近似編碼完成后一幅圖像稀疏編碼的表示形式,根據(jù)式(4)解析解,近似llc特征編碼能夠?qū)⒂嬎銖?fù)雜度從o(n2)降為o(n+k2),其中k<<n,但最后的性能與llc特征編碼相差不大。近似llc特征編碼方式既可以保留局部特征,又可以保證編碼稀疏性的要求,所以在本發(fā)明中使用近似llc模型進行特征編碼。進一步地,取k=50。進一步地,所述步驟a1中,densesift特征利用網(wǎng)格將圖像劃分得到大小相等的特征塊(block),并且塊與塊之間采用重疊方式,每個特征塊的中心位置作為一個特征點,通過同一個特征塊里的所有像素點來形成該特征點的sift特征描述符(與傳統(tǒng)sift特征一樣的特征描述符:梯度直方圖),最后這些基于sift特征描述符的特征點組成整幅圖像的densesift特征;phog特征提取的具體步驟如下:1.1)統(tǒng)計圖像的邊緣信息;利用canny邊緣檢測算子提取出圖像的邊緣輪廓,并將此輪廓用于描述圖像的形狀;1.2)對圖像進行金字塔等級分割,圖像分割的塊數(shù)取決于金字塔等級的層數(shù);本發(fā)明中將圖像分成3層,第1層為整個圖像;第2層將圖像劃分為4個子區(qū)域,每個區(qū)域的大小一致;第3層是在第2層的基礎(chǔ)上對4個子區(qū)域進行劃分,把每個區(qū)域再劃分為4個子區(qū)域,最終得到4×4個子區(qū)域;1.3)在每一層中提取每一個子區(qū)域的hog特征向量(histogramoforientedgridients,方向梯度直方圖);1.4)最后將圖像各個層中子區(qū)域的hog特征向量進行級聯(lián)處理(串聯(lián)),在得到級聯(lián)后的hog數(shù)據(jù)后,進行數(shù)據(jù)的歸一化操作,最終得到整幅圖像的phog特征。進一步地,所述步驟a5中,分類器采用線性svm分類器。進一步地,針對所述步驟b4中的投票決策方法會出現(xiàn)不同類標簽得到最多且相等票數(shù)的問題,對于這種情況,采用隨機選擇的方法,在這幾個相等票數(shù)的類標簽中隨機選擇其中一個類標簽作為最終的類標簽。本發(fā)明的有益效果是:本發(fā)明選用多個融合特征,可以彌補圖像單一的融合特征存在信息量不足的缺點,有效的提高了圖像分類的準確率。選用kmeans++算法建立視覺字典,采用概率選取的方法代替隨機選擇初始聚類中心,可以有效的避免算法陷入局部最優(yōu)解。最后利用投票決策的方法對每個類結(jié)果投票,將差異大的分類結(jié)果融合,由投票決策來決定最后的分類性能,保證了結(jié)果的穩(wěn)定性。附圖說明圖1為集成rgb-d融合特征與稀疏編碼的圖像分類方法的流程圖。圖2為本發(fā)明訓練階段步驟a5中l(wèi)lc特征編碼模型。圖3為本發(fā)明測試階段步驟b4中測試圖像分類決策模塊。圖4為本發(fā)明在rgb-dscenes數(shù)據(jù)集上的識別混淆矩陣。具體實施方式下面結(jié)合具體實例,并參照詳細附圖,對本發(fā)明進一步詳細說明。但所描述的實例旨在于對本發(fā)明的理解,而對其不起任何限定作用。圖1是集成rgb-d融合特征與稀疏編碼的圖像分類的系統(tǒng)流程圖,具體實施步驟如下:步驟s1:提取rgb圖像與depth圖像的densesift特征和phog特征;步驟s2:對兩種圖像提取的特征采用串聯(lián)的形式進行特征融合,最終得到四種不同的融合特征;步驟s3:使用k-means++聚類方法對不同的融合特征進行聚類處理得到四種不同的視覺字典;步驟s4:在每個視覺字典上進行局部約束線性編碼,得到不同的圖像表述集;步驟s5:利用線性svm對不同的圖像表述集構(gòu)造分類器,最后通過對這四種分類器的分類結(jié)果進行投票決策來確定最終的分類?;诩蓃gb-d融合特征與稀疏編碼的圖像分類方法,本發(fā)明利用實驗數(shù)據(jù)對本發(fā)明的方法進行驗證。本發(fā)明采用的實驗數(shù)據(jù)集是rgb-dscenes數(shù)據(jù)集,該數(shù)據(jù)集是由華盛頓大學提供的一個多視角的場景圖片數(shù)據(jù)集,該數(shù)據(jù)集由8個分類場景組成,共5972張圖片,圖像全部通過kinect攝像機獲取,大小均為640*480。在rgb-dscenes數(shù)據(jù)集中,將全部圖像用于實驗并將圖像尺寸調(diào)整為256*256。對于特征提取,本次實驗中圖像提取的densesift特征采樣間隔設(shè)置為8像素,圖像塊為16×16。phog特征提取參數(shù)設(shè)置為:圖像塊大小為16×16,采樣間隔為8像素,梯度方向設(shè)為9。建立視覺字典時,字典大小設(shè)為200。svm分類時采用libsvm工具包的libsvm3.12工具箱,數(shù)據(jù)集中取80%圖片用于訓練,20%圖片用于測試。在此次實驗中,從兩個方面考慮本發(fā)明方法,第一,考察本發(fā)明方法跟當前分類準確率較高的一些研究者的方法進行對比;第二,考察不同的rgb-d融合特征與本發(fā)明方法的分類效果進行對比。表1rgb-dscenes數(shù)據(jù)集分類結(jié)果比較分類方法準確率/%線性svm89.6%高斯核函數(shù)svm90.0%隨機森林90.1%hog77.2%sift+spm84.2%本發(fā)明方法91.7%分類準確率與其他方法的對比如表1所示。liefengbo在文章“kerneldescriptorsforvisualrecognition”中將三種特征集成,分別用線性svm(linearsvm)、高斯核函數(shù)svm(kernelsvm)和隨機森林(randomforest)對其進行訓練與分類,在此次實驗中分別獲得89.6%、90.0%和90.1%的準確率。a.janoch在文章“acategory-level3dobjectdataset:puttingthekinecttowork”中使用hog算法分別對深度圖像和彩色圖像進行特征提取,在特征融合后使用svm分類器實現(xiàn)最終的分類,在本次實驗中此方法獲得77.2%的準確率。n.silberman在文章“indoorscenesegmentationusingastructuredlightsensor”中先用sift算法分別提取深度圖像和彩色圖像的特征,然后再進行特征融合,之后采用spm進行特征編碼,最后采用svm進行分類,在此次實驗中此算法獲得84.2%的分類準確率。而本發(fā)明提出的算法獲得了91.7%的準確率,與之前最好的結(jié)果相比提高了1.6%,由此可以看出本發(fā)明算法具有良好的分類性能。表2rgb-dscenes數(shù)據(jù)集不同融合特征分類結(jié)果對比從表2可以看出,在聯(lián)合深度信息進行圖像分類時,基于單一融合特征的分類算法準確率低于基于多融合特征的分類算法,而基于多特征融合的圖像分類算法可以取得較好的分類準確率,但還是略低于基于多融合特征決策融合的圖像分類算法。以上對本發(fā)明的具體實施例進行了描述。應(yīng)當理解的是,本發(fā)明并不局限于上述特定實施方式,凡在本發(fā)明的精神實質(zhì)與原理之內(nèi)所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明保護的范圍之內(nèi)。當前第1頁12