achine(SVM))來學(xué)習(xí)得到,輸入為語義特征的直方圖,在測試階段,給出一個(gè)位置的視頻 表示為一個(gè)詞袋模型,然后通過訓(xùn)練的SVM來識(shí)別。
[0017] 進(jìn)一步的,步驟2中所述的k均值量化通過Pffl計(jì)算方法來表示所述代碼本之間 的關(guān)系。
[0018] 進(jìn)一步的,步驟4. 1中所述深度神經(jīng)網(wǎng)絡(luò)共有四層,每層用受限玻爾茲曼機(jī)表示, 通過深度神經(jīng)網(wǎng)絡(luò)來建立中層特征之間的語義聯(lián)系。
[0019] 進(jìn)一步的,步驟4. 2中利用k均值聚類算法來得到測試視頻的高層語義特征
[0020] 借由上述方案,本發(fā)明至少具有W下優(yōu)點(diǎn):通過深度神經(jīng)網(wǎng)絡(luò)能同時(shí)優(yōu)化特征的 判別性和生成性性質(zhì),使得特征能夠具有很好的判別性能力,利用深度神經(jīng)網(wǎng)絡(luò)建立的模 型比W往的通過產(chǎn)生高分辨率圖像得到的識(shí)別率更高,從而能夠有效識(shí)別外表或者形狀相 似的視頻詞特征,防止忽略同時(shí)出現(xiàn)的統(tǒng)計(jì)特性與視頻的聯(lián)系;本發(fā)明可應(yīng)用于人臉識(shí)別、 軍事目標(biāo)跟蹤識(shí)別系統(tǒng)等各類民用及軍用系統(tǒng)中。
[0021] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 并可依照說明書的內(nèi)容予W實(shí)施,W下W本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說明如后。
【附圖說明】
[0022] 圖1為本發(fā)明實(shí)施例的流程圖;
[0023] 圖2為本發(fā)明動(dòng)態(tài)紋理識(shí)別的流程圖;
[0024] 圖3為BP神經(jīng)網(wǎng)絡(luò)圖
[0025] 圖4為RBM結(jié)構(gòu)示意圖;
[0026] 圖5為UCLA數(shù)據(jù)庫圖;
[0027] 圖6為U化A-8數(shù)據(jù)庫的混淆矩陣圖;
[002引圖7為代碼本對(duì)識(shí)別UCLA-8數(shù)據(jù)庫的識(shí)別率的影響圖;
[0029] 圖8為UCLA-9數(shù)據(jù)庫的混淆矩陣圖;
[0030] 圖9代碼本對(duì)識(shí)別UCLA-9數(shù)據(jù)庫的識(shí)別率的影響圖;
[0031] 圖10為UCLA-8數(shù)據(jù)庫和UCLA-9數(shù)據(jù)庫的混淆矩陣圖;
[003引圖11為不同的降維方法對(duì)UCLA-8數(shù)據(jù)庫的識(shí)別率;
[003引圖12為不同的降維方法對(duì)UCLA-9數(shù)據(jù)庫的識(shí)別率。
【具體實(shí)施方式】
[0034] 下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)描述。W下實(shí)施 例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0035] 在講述本發(fā)明算法步驟前,首先簡要介紹逐點(diǎn)互信息算法和深度神經(jīng)網(wǎng)絡(luò)算法, 如下所示;
[0036] 逐點(diǎn)互信息算法:
[0037] 表示動(dòng)態(tài)紋理的高層次特征不僅要表示動(dòng)態(tài)紋理的表面和形狀相似性,更重要的 是獲取動(dòng)態(tài)紋理之間的統(tǒng)計(jì)特征。然而,僅僅量化中層特征是不夠的。因?yàn)橥獗砘蛘咝螤?特征不具有語義特性。給一個(gè)訓(xùn)練數(shù)據(jù)集,如果要得到兩個(gè)代碼詞之間的具有語義特性的 度量,可W粗略比較中層特征在數(shù)據(jù)庫里面出現(xiàn)的分布。逐點(diǎn)互信息就是用來度量該種聯(lián) 系的量,并且已經(jīng)用在了文本分析里面。在文本分析里面,逐點(diǎn)互信息可W得到大量文本的 集合,實(shí)驗(yàn)也表明逐點(diǎn)互信息可W比隱含語義分析更好的得到高層特征。
[003引逐點(diǎn)互信息用于計(jì)算兩個(gè)特征之間的關(guān)系。它可W用來比較代碼詞在代碼本中的 共現(xiàn)概率和兩個(gè)代碼詞的獨(dú)立出現(xiàn)概率。該樣可W估計(jì)兩個(gè)代碼詞之間存在的內(nèi)在聯(lián)系。 逐點(diǎn)互信息的公式如下:
[0039]
[0040] 其中,X,y分別屬于X,Y,p(x,y)是聯(lián)合概率分布。逐點(diǎn)互信息為兩個(gè)概率分布 之間的相關(guān)程度提供了一種度量,即;
[0041] p(x,y) > 0,代表X和y相關(guān);
[0042]P(X,y) =0,代表X和y相互獨(dú)立;
[0043]P(X,y) <0,代表X和y不相關(guān);
[0044] 在本發(fā)明中,我們用的逐點(diǎn)互信息套入公式如下:
[0045]
[0046] 其中,Vi代表代碼詞,p(v1)代表視頻中某個(gè)代碼詞出現(xiàn)的比率,p(dj.)代表視頻中 文本j中出現(xiàn)代碼詞的數(shù)目占語料庫中全部代碼詞的比率,P(Vi,dj.)代表文本j中代碼詞 i出現(xiàn)的數(shù)目占語料庫中全部代碼詞的比率。
[0047] 深度神經(jīng)網(wǎng)絡(luò):
[0048] 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的核屯、是首先對(duì)每層看作成受限波爾茨曼機(jī)并且初始化 權(quán)值。前一層的受限波爾茨曼機(jī)的激勵(lì)當(dāng)作更高層的受限波爾茨曼機(jī)的輸入。對(duì)每個(gè)受限 波爾茨曼機(jī),隱含層之間具有很強(qiáng)的聯(lián)系。在中層特征中,設(shè)置多個(gè)受限玻爾茲曼機(jī)可W很 好的得到語義特征。
[0049] 受限玻爾茲曼機(jī)包含可見層和隱含層。它的連接特點(diǎn)是;層內(nèi)無連接,層間全連 接。如果把神經(jīng)元當(dāng)作頂點(diǎn),神經(jīng)元之間的連接當(dāng)作邊,則受限玻爾茨曼機(jī)可W看作是一個(gè) 二分圖。其中,rvrih分別表示可見層和隱含層中包含的神經(jīng)元的數(shù)目,下標(biāo)V,h分別代表 可見層(vis化le)和隱含層化idden)。
表示可見層的狀態(tài)向量,v;代 表可見層第i個(gè)神經(jīng)元的狀態(tài)。
隸表示隱含層的狀態(tài)向量,hj.代表 隱含層第j個(gè)神經(jīng)元的狀態(tài)。
表示可見層的狀態(tài)向量,a,代表 可見層第i個(gè)神經(jīng)元的偏置。
表示隱含層的狀態(tài)向量,bj.代表 隱含層第j個(gè)神經(jīng)元的狀態(tài)。
表示可見層和隱含層之間的權(quán)值矩陣,Wu 表示隱含層第i個(gè)神經(jīng)元和可見層第j個(gè)神經(jīng)元之間的連接權(quán)重。
[0050] 對(duì)于可見層V和隱含層h的能量函數(shù)可W表示為:
[0化1]
[0化2] 上式的矩陣形式可表示為
[005引 E(V,h)=-aTv-bTh-hTWv(4)
[0054] 由上面的能量函數(shù)(4),可W得到可見層V和隱含層h的聯(lián)合概率分布p(v,h)表 示為:
[0 化 5]
[0化6] 其中Z是所有可見層和隱含層能量之和,即;
[0057]
[0化引可見層向量V的概率分布P(V)表示為;
[0059]
[0060] 同樣,隱含層h的概率分布P化)表示為:
[0061]
[0062] 當(dāng)給一個(gè)可見節(jié)點(diǎn)的訓(xùn)練向量,第j個(gè)隱含層節(jié)點(diǎn)的激活概率表示為:
[006引 p((hj= 1)IV) = 0 化j+EjViW。') (9)
[0064]其中 0 是logisticsigmoid函數(shù),0 (X)=l/(l+exp(-x)),Vi,hj是無偏采樣。 [00化]同樣的,可見節(jié)點(diǎn)的激活概率為:
[0066] p((Vi= 1)|h)= 0(a1+E山W。') (10)
[0067] 各部分具體實(shí)施細(xì)節(jié)如下;
[0068] 混濁特征向量:
[0069] 幾何特征對(duì)動(dòng)態(tài)紋理識(shí)別很重要。分形維數(shù)是一個(gè)很適用于描述時(shí)間序列幾何特 征的量。本發(fā)明中,我們用分形維數(shù)來描述視頻。
[0070] 嵌入時(shí)間時(shí)延和嵌入維數(shù):
[0071]嵌入是將一維空間x(t) = [Xi(t),X2(t),…,x"(t)]Gr映射到多維空間;
[0072]
[007引該里,T表示嵌入時(shí)間延遲,m表示嵌入維數(shù)。
[0074] 信息維數(shù)可W表示成:
[0075]
[0076] 像素時(shí)間序列的平均值(mean)對(duì)識(shí)別也很重要,所W我們的特征向量是;F= {T,m,Id,,mean}。給一個(gè)W*L*T的視頻,W,L和T分別是視頻寬度,長度和時(shí)間長度。對(duì) 每個(gè)時(shí)間序列計(jì)算混濁特征,并組成特征向量,用來表示每個(gè)像素時(shí)間序列。
[0077] 詞袋模型:
[007引在詞袋模型里面,一個(gè)視頻可W表示為代碼詞出現(xiàn)的頻率的直方圖。同樣可W表 示每個(gè)視頻為代碼詞出現(xiàn)頻率的直方圖如下:
[00"79] h(d)=化i(d))i=1...N,with hi(d) = n(d,Vi) (1:3)
[0080]其中n(d,Vi)表示特征Vi在視頻d里面出現(xiàn)的次數(shù)。因?yàn)樵搨€(gè)生成的直方圖僅僅 考慮