本發(fā)明涉及視頻圖像分類領(lǐng)域,尤其是涉及了一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法。
背景技術(shù):
視頻圖像分類是一個非常有挑戰(zhàn)的問題,因為姿勢和外觀變化引起大的內(nèi)部類型的變化,還有在類型之間的整體外觀上的細微差異引起的小的內(nèi)部變化。近來,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)已被用來學(xué)習(xí)許多強大的功能,用層次模型來處理大的變化,自動定位區(qū)域。盡管這些方法有所進步,但以前的工作把對象的分類任務(wù)作為一個靜止的圖像分類問題,忽略視頻中存在的互補的時間信息。至今,沒有使用神經(jīng)網(wǎng)絡(luò)方法為基礎(chǔ)的方法來對視頻的對象進行分類。
本發(fā)明引入基于視頻的對象分類問題,采用了早融的雙流網(wǎng)絡(luò)結(jié)合時間和空間信息(時空共生)方法,首先輸入圖像和光流信息,結(jié)合時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)進行早期融合,將融合輸出作為特征向量輸入到SVM分類器之中,獲得最終分類結(jié)果。從每個視頻使用更多的幀(即更多的空間數(shù)據(jù))產(chǎn)生一個顯著的精度提高;空間和時間信息的結(jié)合,兩者形成互補,精度達到65.8%。采用早期融合是由于晚期融合有一個潛在缺點,空間和時間的信息融合是在最后完成,這限制了從SoftMax分類層組合獲得的補充信息的數(shù)量(或決定),所以,通過使用共生的方法較少的分離的集群形成,和分離的集群往往是更緊密的在一起,可以更好地利用時間信息。
技術(shù)實現(xiàn)要素:
針對忽略了對視頻數(shù)據(jù)進行分類的問題,本發(fā)明的目的在于提供一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法,采用早融的雙流網(wǎng)絡(luò)結(jié)合時間和空間信息(時空共生)方法,使用猴類的視頻數(shù)據(jù)集,提高分類性能。
為解決上述問題,本發(fā)明提供一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法,其主要內(nèi)容包括:
(一)數(shù)據(jù)輸入;
(二)時空雙流網(wǎng)絡(luò);
(三)融合;
(四)SVM分類器。
其中,一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法,采用早融的雙流網(wǎng)絡(luò)結(jié)合時間和空間信息(時空共生)方法,使用猴類的視頻數(shù)據(jù)集,從每個視頻使用更多的幀(即更多的空間數(shù)據(jù))產(chǎn)生一個顯著的精度提高;空間和時間信息的結(jié)合,兩者形成互補,精度達到65.8%。
其中,一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法,基于降維的可視化技術(shù)使用t-分布鄰域嵌入算法(t-SNE)得出,通過使用共生的方法較少的分離的集群形成,和分離的集群往往是更緊密的在一起,更好地利用時間信息。
其中,所述的數(shù)據(jù)輸入,包括圖像和光流信息,數(shù)據(jù)集由100種猴類視頻集組成;該數(shù)據(jù)集分為訓(xùn)練集和測試集。在一定距離內(nèi)記錄猴類視頻,該數(shù)據(jù)集具有較大的挑戰(zhàn),如大規(guī)模的相機運動變化和相當(dāng)大的姿態(tài)變化;
對于每一個類(猴種)提供以下數(shù)據(jù):具有活動注釋的視頻剪輯,聲音剪輯,包圍盒,以及分類和分布位置。
進一步地,所述的測試,每個視頻剪輯采用每秒5幀(FPS)的方式測試,計算每5幀的光流來計算效率。
其中,所述的時空雙流網(wǎng)絡(luò),包括時間網(wǎng)絡(luò),空間網(wǎng)絡(luò),以及時空共生譯碼。
進一步地,所述的時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò),包括
(1)時序網(wǎng)絡(luò)使用作為水平流Ox,豎直流Oy和光流的大小Omag的輸入結(jié)合形成一個單一的光學(xué)特征映射O∈Rh×w×3,其中h×w是特征映射(圖像)的大小;
(2)空間網(wǎng)絡(luò)使用RGB幀(圖像)作為輸入;
和都使用DCNN結(jié)構(gòu),由5個卷積層組成Sc1,Sc2,…,Sc5,其次是完全連接層Sfc6;該網(wǎng)絡(luò)進行訓(xùn)練,通過每一個視頻的輸入幀(圖像或光流)是一個單獨的實例,使用預(yù)訓(xùn)練網(wǎng)絡(luò);在進行分類時,每一個圖像(或幀的光流)最初被視為獨立的;對于一個視頻的Nf幀生成Nf分類決定。
進一步地,所述的時空共生譯碼,包括通過共同出現(xiàn)的聯(lián)合的空間和時間特征,使用DCNNs方法通過計算共生結(jié)合空間和時間網(wǎng)絡(luò)的卷積層,具體地說,讓時空網(wǎng)絡(luò)的第n層的特征映射為和dn是特征映射的維數(shù)的數(shù)目,計算特征映射組合
和是指位置(i,j)上的空間和時間流的局部特征向量,進行矢量化操作,作為位置(i,j)的共生特征;因此,在每個空間位置的共生模式,外積運算捕獲的視覺運動,最大池應(yīng)用到所有的本地編碼向量;Pi,j創(chuàng)建最后的特征表示最后,L2標(biāo)準(zhǔn)化應(yīng)用于編碼向量;
時空雙線性DCNN特征結(jié)合fc6時空特征用于雙流早期融合,這使我們能夠結(jié)合局部和全局的空間和時間信息。
其中,所述的融合,包括如下步驟:
(1)早期融合
(2)使用兩個獨立的時序網(wǎng)絡(luò)和空間網(wǎng)絡(luò)So和的雙流網(wǎng)絡(luò)用于動作識別,在早期結(jié)合雙流的信息,通過融合fc6輸出,Sfc6和Tfc6,fc6是第一個全連接層,經(jīng)常用來從DCNNs中提取單特征;我們把這個網(wǎng)絡(luò)稱為雙流早融;
(3)進行早期融合,采用雙線性DCNN然后融合雙流的方法,空間和時間信息相結(jié)合;通過完全連接的層的組合原始數(shù)據(jù)預(yù)處理、確定分類計算對象、在計算對象上進行分類。
其中,所述的SVM分類器,其原理為:
設(shè)線性可分樣本集和為(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1}是類別標(biāo)號,則
w·x+b=0
是SVM分類器的分類面方程;
在分類時,為了使分類面對所有樣本正確分類且分類間隔達到最大,需要滿足下面兩個條件:
Φ(x)=min(wTw)
yi(w·xi+b)-1≥0
通過解此約束優(yōu)化問題就可以得到最優(yōu)分類面,而過兩類樣本中離分類面最近的點且平行于最優(yōu)分類面的超平面上的訓(xùn)練樣本就是使得公式中等號成立的那些特殊樣本,因為它們支撐了最優(yōu)分類面,因此被稱為支撐向量;將融合輸出作為特征向量輸入到SVM分類器之中,獲得最終分類結(jié)果。
附圖說明
圖1是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類的視頻數(shù)據(jù)集。
圖3是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的使用T-SNE可視化定性評價。
圖4是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的時空共生概念圖的方法。
圖5是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的早期融合策略示意圖。
圖6是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類實例定位圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的系統(tǒng)流程圖。主要包括數(shù)據(jù)輸入;時空雙流網(wǎng)絡(luò);融合;SVM分類器。
數(shù)據(jù)輸入包括圖像和光流信息,數(shù)據(jù)集由100種猴類視頻集組成;該數(shù)據(jù)集分為訓(xùn)練集和測試集。在一定距離內(nèi)記錄猴類視頻,該數(shù)據(jù)集具有較大的挑戰(zhàn),如大規(guī)模的相機運動變化和相當(dāng)大的姿態(tài)變化;對于每一個類(猴種)提供以下數(shù)據(jù):具有活動注釋的視頻剪輯,聲音剪輯,自動定位器檢測,以及分類和分布位置。
其中,每個視頻剪輯采用每秒5幀(FPS)的方式測試,,計算每5幀的光流來計算效率。
時空雙流網(wǎng)絡(luò),包括時間網(wǎng)絡(luò),空間網(wǎng)絡(luò),以及時空共生譯碼。
其中,時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò),包括
(1)時序網(wǎng)絡(luò)使用作為水平流Ox,豎直流Oy和光流的大小Omag的輸入結(jié)合形成一個單一的光學(xué)特征映射O∈Rh×w×3,其中h×w是特征映射(圖像)的大?。?/p>
(2)空間網(wǎng)絡(luò)使用RGB幀(圖像)作為輸入;
和都使用DCNN結(jié)構(gòu),由5個卷積層組成Sc1,Sc2,…,Sc5,其次是完全連接層Sfc6;該網(wǎng)絡(luò)進行訓(xùn)練,通過每一個視頻的輸入幀(圖像或光流)是一個單獨的實例,使用預(yù)訓(xùn)練網(wǎng)絡(luò);在進行分類時,每一個圖像(或幀的光流)最初被視為獨立的;對于一個視頻的Nf幀生成Nf分類決定。
其中,時空共生譯碼,包括通過共同出現(xiàn)的聯(lián)合的空間和時間特征,使用DCNNs方法通過計算共生結(jié)合空間和時間網(wǎng)絡(luò)的卷積層,具體地說,讓時空網(wǎng)絡(luò)的第n層的特征映射為和dn是特征映射的維數(shù)的數(shù)目,計算特征映射組合
和是指位置(i,j)上的空間和時間流的局部特征向量,矢量化操作,作為位置(i,j)的共生特征;因此,在每個空間位置的共生模式,外積運算捕獲的視覺運動,最大池應(yīng)用到所有的本地編碼向量;Pi,j創(chuàng)建最后的特征表示最后,L2標(biāo)準(zhǔn)化應(yīng)用于編碼向量;
時空雙線性DCNN特征結(jié)合fc6時空特征用于雙流早期融合,這使我們能夠結(jié)合局部和全局的空間和時間信息。
融合包括如下步驟:
(1)早期融合:使用兩個獨立的時序網(wǎng)絡(luò)和空間網(wǎng)絡(luò)So和的雙流網(wǎng)絡(luò)用于動作識別,在早期結(jié)合雙流的信息,通過融合fc6輸出,Sfc6和Tfc6,fc6是第一個全連接層,經(jīng)常用來從DCNNs中提取單特征;我們把這個網(wǎng)絡(luò)稱為雙流早融;
(2)進行早期融合,采用雙線性DCNN然后融合雙流的方法,空間和時間信息相結(jié)合;通過完全連接的層的組合原始數(shù)據(jù)預(yù)處理、確定分類計算對象、在計算對象上進行分類。
SVM分類器的原理為:
設(shè)線性可分樣本集和為(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1}是類別標(biāo)號,則
w·x+b=0
是SVM分類器的分類面方程;
在分類時,為了使分類面對所有樣本正確分類且分類間隔達到最大,需要滿足下面兩個條件:
Φ(x)=min(wTw)
yi(w·xi+b)-1≥0
通過解此約束優(yōu)化問題就可以得到最優(yōu)分類面,而過兩類樣本中離分類面最近的點且平行于最優(yōu)分類面的超平面上的訓(xùn)練樣本就是使得公式中等號成立的那些特殊樣本,因為它們支撐了最優(yōu)分類面,因此被稱為支撐向量;將融合輸出作為特征向量輸入到SVM分類器之中,獲得最終分類結(jié)果。
圖2是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類的視頻數(shù)據(jù)集。包括圖像和光流信息,數(shù)據(jù)集由100種猴類視頻集組成;該數(shù)據(jù)集分為訓(xùn)練集和測試集。在一定距離內(nèi)記錄猴類視頻,該數(shù)據(jù)集具有較大的挑戰(zhàn),如大規(guī)模的相機運動變化和相當(dāng)大的姿態(tài)變化;
圖3是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的使用T-SNE可視化定性評價?;诮稻S的可視化技術(shù)使用t-分布鄰域嵌入算法(t-SNE),可以看出,通過使用共生的方法較少的分離的集群形成,和分離的集群往往是更緊密的在一起,更好地利用時間信息。
圖4是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的時空共生概念圖的方法。包括通過共同出現(xiàn)的聯(lián)合的空間和時間特征,使用DCNNs方法通過計算共生結(jié)合空間和時間網(wǎng)絡(luò)的卷積層,具體地說,讓時空網(wǎng)絡(luò)的第n層的特征映射為和dn是特征映射的維數(shù)的數(shù)目,計算特征映射組合
和是指位置(i,j)上的空間和時間流的局部特征向量,矢量化操作,作為位置(i,j)的共生特征;因此,外積運算捕獲的視覺和運動在每個空間位置的共生模式,最大池被施加到所有的本地編碼向量;Pi,j創(chuàng)建最后的特征表示最后,L2標(biāo)準(zhǔn)化應(yīng)用于編碼向量;
時空雙線性DCNN特征結(jié)合fc6時空特征用于雙流早期融合,這使我們能夠結(jié)合局部和全局的空間和時間信息。
圖5是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的早期融合策略示意圖。融合包括如下步驟:
(1)早期融合
使用兩個獨立的時序網(wǎng)絡(luò)和空間網(wǎng)絡(luò)So和的雙流網(wǎng)絡(luò)用于動作識別,在早期結(jié)合兩個流的信息,通過融合fc6輸出,Sfc6和Tfc6,fc6是第一個全連接層,經(jīng)常用來從DCNNs中提取單特征;我們把這個修改網(wǎng)絡(luò)稱為雙流(早融);
(2)進行早期融合,通過完全連接的層的組合原始數(shù)據(jù)預(yù)處理、確定分類計算對象、在計算對象上進行分類;采用雙線性DCNN然后融合雙流的方法,空間和時間信息相結(jié)合。
圖6是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類實例定位圖。在大多數(shù)情況下,可以準(zhǔn)確的定位到圖像中猴類的位置。但是當(dāng)圖片中出現(xiàn)混淆的紋理,雜亂的物體和閉塞情況時,視頻圖像的定位發(fā)生錯誤。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應(yīng)視為本發(fā)明的保護范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。