一種基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)紋理識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及的是一種計(jì)算機(jī)模式識別技術(shù)領(lǐng)域的分類方法,具體地說,設(shè)及的是 一種基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)紋理識別方法。
【背景技術(shù)】
[0002] 傳統(tǒng)模式識別中,解決動(dòng)態(tài)紋理識別的問題主要是集中在提取底層特征上,通過 提取底層特征來刻畫某一類動(dòng)態(tài)紋理。底層特征主要是得到動(dòng)態(tài)紋理的運(yùn)動(dòng)流特征。文 獻(xiàn)(R.Peteri,andD.Chetverikov,DynamicTextureRecognitionUsingNormalFlow andTextureRegularity,InProc.IberianConferenceonPatternRecognitionand ImageAnalysisQbPRIA2005),Estoril,化;rtugal,2005,卵.223-230.)提出的方法是 根據(jù)正則流和紋理的規(guī)律來提取特征。文獻(xiàn)化化zekas,andD.化etverikov,Normal VersusCompleteFlowinDynamicTextureRecognition;AComparativeStudy, Texture2005 ;4thInternationalWorkshoponTextureAnalysisandSynthesis, Beijing, 2005,pp. 37-42.)里面給出了 8種特征來描述動(dòng)態(tài)紋理識別里面的光流特征的運(yùn) 動(dòng)性貪良。文獻(xiàn)(A.FournierandW.Reeves,Asimplemodelofoceanwaves,inProc. ofACMSIGGRAPH,1986,pp. 75-84.)里面提出了合成海洋表面和波浪的形狀的動(dòng)態(tài)紋理的 模型。文獻(xiàn)(M.SzummerandR.W.Picard,Temporaltexturemodeling,inProc.ofthe 比ternationalConferenceonImageProcessing,vol. 3,1996.)里面給出了一個(gè)基于時(shí) 空模型的線性組合來描述每個(gè)像素和它的臨近像素。該些方法的缺點(diǎn)在于該種模型只能描 述某種具體的動(dòng)態(tài)紋理的物理過程,而不能描述大量的動(dòng)態(tài)紋理。
[0003] 基于底層特征的該種缺陷,為了能夠描述大量的動(dòng)態(tài)紋理,最近提出了中層特征。 和底層特征不同,中層特征用的是詞袋模型該種基于統(tǒng)計(jì)學(xué)習(xí)的框架。該種模型是將底層 特征映射到中層特征。因此,該種方法可W克服一定的底層特征帶來的缺點(diǎn),如動(dòng)態(tài)紋理的 視角和尺度變化。
[0004] 最近,通過引入中層特征來表示動(dòng)態(tài)紋理取得了顯著進(jìn)展。文本分析里面的主 題模型,女曰probabilisticlatentsemanticanalysis(pLSA)和LatentDirichlet Allocation(LDA)模型,通過隱含主題的混合分布來表示一個(gè)文本,具有一定的語義特征。 逐點(diǎn)互信息(pointwiseMu化alIn化rmation(PMI))是互信息的擴(kuò)展,并且成功用于信息 索引里面來抓取中層信息之間的聯(lián)系。類似的特征具有很高的同時(shí)出現(xiàn)的聯(lián)系,該是中層 特征可W建模的依據(jù)。在文獻(xiàn)(A.Ravichan化an,R.Qiau化;ry,andR.Vidal.Categorizing DynamicTexturesusingaBagofDynamicalSystems,IEEETransactionsonPattern AnalysisandMachineIntelligence(PAMI),2012.)中,詞袋模型用來對動(dòng)態(tài)紋理識別。 中層特征基于統(tǒng)計(jì)學(xué)習(xí)在大數(shù)據(jù)上面取得了很好的實(shí)驗(yàn)效果。
[0005] 然而,該些視頻詞特征是因?yàn)橥獗砘蛘咝螤钕嗨菩远a(chǎn)生的,忽略了同時(shí)出現(xiàn)的 統(tǒng)計(jì)特性和視頻的聯(lián)系。改進(jìn)該種缺點(diǎn)的一個(gè)很重要的方向是探索該些特征的語義相似性 并且得到高層特征表示。該個(gè)可W通過層次聚類方法來實(shí)現(xiàn),視頻詞特征之間的距離和他 們在視頻中同時(shí)出現(xiàn)有聯(lián)系。
[0006] 數(shù)十年前,人工神經(jīng)網(wǎng)絡(luò)發(fā)展起來,并且可W通過學(xué)習(xí)得到很多特征模型。然而, 單隱含層神經(jīng)網(wǎng)絡(luò)不能適應(yīng)訓(xùn)練大數(shù)據(jù)。最近,深度神經(jīng)網(wǎng)絡(luò)引起了很多研究,如數(shù)字識 另IJ,物體識別,語音識別等等。深度神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)在于它能同時(shí)優(yōu)化特征的判別性和生成 性性質(zhì),使得特征能夠具有很好的判別性能力。從另一個(gè)角度來理解該種高層特征產(chǎn)生的 過程就是層次聚類步驟。也就是嵌入特征空間,即不同層次的特征,需要用不同的距離來比 較特征。深度神經(jīng)網(wǎng)絡(luò)比主成分分析(principalcomponentanalysis(PCA))和局部線性 嵌入(LocallyLinearEmbedding(LLE))具有更好的降維特性。
[0007]深度神經(jīng)網(wǎng)絡(luò)主要集中在數(shù)字識別,人臉識別和語音識別。在文獻(xiàn)化inton,G.E., Osindero,S.andTeh,Y.,Afastlearningalgorithmfordeepbeliefnets.Neural Computation18 ;1527-1554,2006.)里提出了一種有效地訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的算法。將每 層用一個(gè)受限波爾茨曼機(jī)來訓(xùn)練,將前一層的輸出作為輸入。該種算法很好的用在了數(shù)字 識另ij中。在文獻(xiàn)(Mohamed,A.,Dahl,G.E.andHinton,G.E.AcousticModelingusingDeep BeliefNetworks.IEEETrans,onAudio,Speech,andLanguageProcessing.)里深度神 經(jīng)網(wǎng)絡(luò)通過一種產(chǎn)生式模型來取代傳統(tǒng)的混合高斯模型來對電話語音識別,并且比傳統(tǒng)方 法更女子。在文獻(xiàn)(Ranzato,M.,Susskind,J.,Mnih,V.andHinton,G.Ondeepgenerative modelswithapplicationstorecognition.IEEEConferenceonComputerVisionand PatternRecognition.)里像素值看做一個(gè)口限隨機(jī)馬爾科夫場來得到一個(gè)圖像的產(chǎn)生式 模型。該種模型比W往的通過產(chǎn)生高分辨率圖像得到的人臉表情識別率更高。
[000引有鑒于上述的缺陷,本設(shè)計(jì)人,積極加W研究創(chuàng)新,W期創(chuàng)設(shè)一種基于深度神經(jīng)網(wǎng) 絡(luò)的動(dòng)態(tài)紋理識別方法,使其更具有產(chǎn)業(yè)上的利用價(jià)值。
【發(fā)明內(nèi)容】
[0009] 為解決上述技術(shù)問題,本發(fā)明的目的是提供一種基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)紋理識 別方法,能夠有效識別外表或者形狀相似的視頻詞特征,防止忽略同時(shí)出現(xiàn)的統(tǒng)計(jì)特性與 視頻的聯(lián)系。
[0010] 一種基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)紋理識別方法,其特征在于:包括W下步驟:
[0011] 步驟1;對訓(xùn)練視頻中的每個(gè)像素時(shí)間序列計(jì)算混濁特征及相關(guān)特征,并將所有 特征組成混濁特征向量,所述視頻的每個(gè)像素點(diǎn)位置由所述特征向量來表示,所有特征向 量組成所述訓(xùn)練視頻的特征向量矩陣;
[0012] 步驟2 ;用k均值來產(chǎn)生最初的代碼本;將所有訓(xùn)練的特征向量矩陣中的特征向 量,用歐式距離來得到k個(gè)聚類中屯、,形成代碼本;
[0013] 步驟3;給定若干個(gè)訓(xùn)練視頻,產(chǎn)生一個(gè)視頻代碼詞頻率矩陣H,其中每行向量h代 表一個(gè)視頻,每列代表一個(gè)代碼詞,通過所述代碼詞之間的相似性估計(jì)出每列向量之間的 距離W及每列向量表示代碼詞在視頻中的分布,然后將每個(gè)代碼詞頻率通過逐點(diǎn)互信息轉(zhuǎn) 換,通過視頻和代碼詞之間的逐點(diǎn)互信息表示代碼詞和訓(xùn)練數(shù)據(jù)的分布;
[0014] 步驟4 ;通過深度神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)態(tài)紋理識別,具體包括W下步驟;
[0015] 步驟4. 1 ;深度神經(jīng)網(wǎng)絡(luò)首先通過多層的模型訓(xùn)練得到一組具有表示性能的特 征,然后通過后向傳播來對參數(shù)進(jìn)行調(diào)整,得到預(yù)測類別的模型;
[0016] 步驟4. 2 ;在訓(xùn)練階段,通過訓(xùn)練原始特征得到一種語義特征,所有的訓(xùn)練和測試 視頻通過語義特征直方圖來表示,動(dòng)態(tài)紋理識別模型通過支持向量機(jī)(SuppcxrtVector M