了特征出現(xiàn)的次數(shù),所W該種表示是一種中層特征表示。
[0081] 逐點(diǎn)互信息:
[0082] 訓(xùn)練集表示為
其中n是訓(xùn)練個(gè)數(shù),M表示代碼本的大小。Tr是一個(gè) N*M的矩陣,表示視頻-代碼詞的概率。對(duì)每個(gè)直方圖hi,它表示特征向量的聚類中屯、在訓(xùn) 練集上的分布。因此,Tr是一個(gè)表示聚類中屯、的相似性。概率p(Vi)和p(dj.)的邊緣分布 可W通過(guò)相應(yīng)矩陣Tr行和列的求和來(lái)得到。然后一個(gè)新的視頻-詞矩陣f就得到了,每個(gè) 值都是逐點(diǎn)互信息。該個(gè)新的矩陣f反應(yīng)的是代碼詞在訓(xùn)練集上的分布。
[008引深度神經(jīng)網(wǎng)絡(luò):
[0084] 受限玻爾茲曼機(jī)學(xué)習(xí)算法如下:
[0085] 受限玻爾茲曼機(jī)的學(xué)習(xí)算法的目的是為了得到參數(shù)0的值,來(lái)擬合學(xué)習(xí)樣本。本 發(fā)明用基于對(duì)比散度(ContrastiveDivergence,CD)法來(lái)對(duì)受限玻爾茲曼機(jī)學(xué)習(xí),該是一 個(gè)快速學(xué)習(xí)算法。首先,對(duì)一個(gè)訓(xùn)練樣本數(shù)據(jù),將可見(jiàn)層單元的初始的初始狀態(tài)設(shè)置為該個(gè) 樣本數(shù)據(jù),初始化權(quán)重矩陣W,a,b。根據(jù)公式(9)來(lái)更新隱含層狀態(tài)變量p((hj.= 1) |v)。 該里面的Vi和hj.的狀態(tài)都是取{0,1}。然后根據(jù)公式(10)來(lái)計(jì)算可見(jiàn)層p((Vi= 1) |h)。
[0086] 最后,更新各個(gè)參數(shù)。
[0087] AWy=e(<Vihj'〉data-<Vihj'〉modei) (14)
[00能]其中G是學(xué)習(xí)速率。
[0089] 實(shí)驗(yàn)數(shù)據(jù)采用U化A8,U化A9數(shù)據(jù)庫(kù);
[0090]UCLA數(shù)據(jù)庫(kù)含有9中不同的動(dòng)態(tài)紋理。圖5顯示了該9種動(dòng)態(tài)紋理,它們是沸水, 火,花,噴泉,植物,海水,煙霧,水和瀑布,括弧中的數(shù)字代表動(dòng)態(tài)紋理個(gè)數(shù)。由于植物個(gè)數(shù) 很多,去掉植物類別之后,可W得到UCLA-8數(shù)據(jù)庫(kù)。該兩種數(shù)據(jù)庫(kù)是用來(lái)測(cè)試動(dòng)態(tài)紋理對(duì) 視角和尺度變化的。
[0091] 深度神經(jīng)網(wǎng)絡(luò)共有四層,每層用受限玻爾茲曼機(jī)表示。低層特征設(shè)置為100到 1000。深度神經(jīng)網(wǎng)絡(luò)的映射設(shè)為30,高層特征的k-均值設(shè)為50。
[009引圖6中的a給出了對(duì)UCLA-8數(shù)據(jù),用像素時(shí)間序列作為特征的混淆矩陣,識(shí)別率 是66. 96%。圖6中的b給出了用混濁特征向量得到的混淆矩陣,識(shí)別率為85. 65%。在圖 6中,火和花,煙霧和海水容易識(shí)別錯(cuò)誤。從該組實(shí)驗(yàn)可W看出,用混濁特征向量的識(shí)別比用 像素時(shí)間序列更好。
[0093] 代碼本的大小對(duì)識(shí)別率也會(huì)有影響,見(jiàn)圖7。其中帶"□"的線代表炒混濁特征向 量作為特征,帶"的線代表W像素時(shí)間序列作為特征。其中,橫坐標(biāo)代表代碼本的大小, 縱坐標(biāo)代表識(shí)別率。
[0094] 圖8中的a給出了對(duì)UCLA-9數(shù)據(jù),用像素時(shí)間序列作為特征的混淆矩陣,識(shí)別率 是74. 67%。圖8中的b給出了用混濁特征向量得到的混淆矩陣,識(shí)別率為92. 67%。從該 組實(shí)驗(yàn)可W看出,用混濁特征向量的識(shí)別比用像素時(shí)間序列更好。
[0095] 代碼本的大小對(duì)識(shí)別率也會(huì)有影響,見(jiàn)圖9。其中,橫坐標(biāo)代表代碼本的大小,縱坐 標(biāo)代表識(shí)別率。圖中帶"□"的線代表W混濁特征向量作為特征,帶"的線代表W像素時(shí) 間序列作為特征。
[0096] 因?yàn)楦邔诱Z(yǔ)義特征是通過(guò)k-均值聚類中層特征得到的。另一種方法來(lái)顯示深度 神經(jīng)網(wǎng)絡(luò)的有效性的途徑是比較通過(guò)中層特征學(xué)習(xí)得到的高層特征和原來(lái)的中層特征的 識(shí)別率。中層特征在UCLA-8數(shù)據(jù)庫(kù)和UCLA-9數(shù)據(jù)庫(kù)的識(shí)別率分別表示在圖10中的a和 b。分別比較圖6和圖10,圖8和圖10,可W看到高層語(yǔ)義特征得到的識(shí)別率比中層特征的 高1 %到7%。中層特征對(duì)UCLA-8數(shù)據(jù)庫(kù)和UCLA-9數(shù)據(jù)庫(kù)得到的識(shí)別率分別是84. 78%和 89. 3%。通過(guò)對(duì)圖10中a和b的對(duì)比,可W知道用混濁特征向量得到的識(shí)別率比用像素時(shí) 間序列得到的識(shí)別率要高。
[0097] 其它常用的降維方法如主成分分析(PCA),Isomap,局部線性嵌入(locallinear embedding,LLE)和線性判別式分析(LinearDiscriminantAnalysis,LDA)在本節(jié)來(lái)做比 較。在所有的試驗(yàn)中,中層特征降維到30,k-均值也設(shè)為30。
[009引主成分分析是一個(gè)線性降維的方法,它是將數(shù)據(jù)嵌入到線性低維空間。Isomap是 對(duì)數(shù)據(jù)建立領(lǐng)域圖,將領(lǐng)域數(shù)據(jù)考慮其中,并且保持?jǐn)?shù)據(jù)之間測(cè)地的距離。局部線性嵌入和 Isomap類似,也是建立圖模型,它是保持?jǐn)?shù)據(jù)之間的歐式距離。線性判別式分析是讓向量能 夠?qū)Ξ愵愑泻芎玫膮^(qū)分度。
[0099] 主成分分析和線性判別式分析針對(duì)的分別是數(shù)據(jù)的均值和方差。他們的共同缺陷 是對(duì)非線性數(shù)據(jù)無(wú)效。Isomap的弱點(diǎn)是對(duì)瑞±卷類型的數(shù)據(jù)很好。
[0100] 從圖11和圖12可W看出,深度神經(jīng)網(wǎng)絡(luò)比上述方法的識(shí)別率要高1%到10%。
[0101] W上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,并不用于限制本發(fā)明,應(yīng)當(dāng)指出,對(duì)于本技 術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明技術(shù)原理的前提下,還可W做出若干改進(jìn)和 變型,該些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)紋理識(shí)別方法,其特征在于:包括以下步驟: 步驟1:對(duì)訓(xùn)練視頻中的每個(gè)像素時(shí)間序列計(jì)算混沌特征及相關(guān)特征,并將所有特征 組成混純特征向量,所述視頻的每個(gè)像素點(diǎn)位置由所述特征向量來(lái)表示,所有特征向量組 成所述訓(xùn)練視頻的特征向量矩陣; 步驟2 :用k均值來(lái)產(chǎn)生最初的代碼本:將所有訓(xùn)練的特征向量矩陣中的特征向量,用 歐式距離來(lái)得到k個(gè)聚類中心,形成代碼本; 步驟3:給定若干個(gè)訓(xùn)練視頻,產(chǎn)生一個(gè)視頻代碼詞頻率矩陣H,其中每行向量h代表一 個(gè)視頻,每列代表一個(gè)代碼詞,通過(guò)所述代碼詞之間的相似性估計(jì)出每列向量之間的距離 以及每列向量表示代碼詞在視頻中的分布,然后將每個(gè)代碼詞頻率通過(guò)逐點(diǎn)互信息轉(zhuǎn)換, 通過(guò)視頻和代碼詞之間的逐點(diǎn)互信息表示代碼詞和訓(xùn)練數(shù)據(jù)的分布; 步驟4 :通過(guò)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)態(tài)紋理識(shí)別,具體包括以下步驟; 步驟4. 1 :深度神經(jīng)網(wǎng)絡(luò)首先通過(guò)多層的模型訓(xùn)練得到一組具有表示性能的特征,然 后通過(guò)后向傳播來(lái)對(duì)參數(shù)進(jìn)行調(diào)整,得到預(yù)測(cè)類別的模型; 步驟4. 2:在訓(xùn)練階段,通過(guò)訓(xùn)練原始特征得到一種語(yǔ)義特征,所有的訓(xùn)練和測(cè)試 視頻通過(guò)語(yǔ)義特征直方圖來(lái)表示,動(dòng)態(tài)紋理識(shí)別模型通過(guò)支持向量機(jī)(Support Vector Machine (SVM))來(lái)學(xué)習(xí)得到,輸入為語(yǔ)義特征的直方圖,在測(cè)試階段,給出一個(gè)位置的視頻 表示為一個(gè)詞袋模型,然后通過(guò)訓(xùn)練的SVM來(lái)識(shí)別。2. 根據(jù)權(quán)利要求1所述的一種基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)紋理識(shí)別方法,其特征在于: 步驟2中所述的k均值量化通過(guò)PMI計(jì)算方法來(lái)表示所述代碼本之間的關(guān)系。3. 根據(jù)權(quán)利要求2所述的一種基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)紋理識(shí)別方法,其特征在于: 步驟4. 1中所述深度神經(jīng)網(wǎng)絡(luò)共有四層,每層用受限玻爾茲曼機(jī)表示,通過(guò)深度神經(jīng)網(wǎng)絡(luò) 來(lái)建立中層特征之間的語(yǔ)義聯(lián)系。4. 根據(jù)權(quán)利要求1所述的一種基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)紋理識(shí)別方法,其特征在于: 步驟4. 2中利用k均值聚類算法來(lái)得到測(cè)試視頻的高層語(yǔ)義特征。
【專利摘要】本發(fā)明公開(kāi)了一種基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)紋理識(shí)別方法,該方法從每個(gè)像素時(shí)間序列里面抽取混沌特征;用k均值量化得到最初的代碼本,并用PMI方法來(lái)表示這些代碼本之間的關(guān)系;通過(guò)深度神經(jīng)學(xué)習(xí)來(lái)有效的建立中層特征之間的語(yǔ)義聯(lián)系;利用k均值聚類算法來(lái)得到高層特征,該基于深度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)紋理識(shí)別方法,能夠有效識(shí)別外表或者形狀相似的視頻詞特征,防止忽略同時(shí)出現(xiàn)的統(tǒng)計(jì)特性與視頻的聯(lián)系。
【IPC分類】G06K9/62
【公開(kāi)號(hào)】CN104966093
【申請(qǐng)?zhí)枴緾N201510268336
【發(fā)明人】王勇, 羅新斌
【申請(qǐng)人】蘇州珂銳鐵電氣科技有限公司
【公開(kāi)日】2015年10月7日
【申請(qǐng)日】2015年5月25日