一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法與流程

文檔序號：12158470閱讀：437來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及視頻圖像分類領(lǐng)域，尤其是涉及了一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法。

背景技術(shù)：

視頻圖像分類是一個非常有挑戰(zhàn)的問題，因為姿勢和外觀變化引起大的內(nèi)部類型的變化，還有在類型之間的整體外觀上的細微差異引起的小的內(nèi)部變化。近來，深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)已被用來學(xué)習(xí)許多強大的功能，用層次模型來處理大的變化，自動定位區(qū)域。盡管這些方法有所進步，但以前的工作把對象的分類任務(wù)作為一個靜止的圖像分類問題，忽略視頻中存在的互補的時間信息。至今，沒有使用神經(jīng)網(wǎng)絡(luò)方法為基礎(chǔ)的方法來對視頻的對象進行分類。

本發(fā)明引入基于視頻的對象分類問題，采用了早融的雙流網(wǎng)絡(luò)結(jié)合時間和空間信息(時空共生)方法，首先輸入圖像和光流信息，結(jié)合時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)進行早期融合，將融合輸出作為特征向量輸入到SVM分類器之中，獲得最終分類結(jié)果。從每個視頻使用更多的幀(即更多的空間數(shù)據(jù))產(chǎn)生一個顯著的精度提高；空間和時間信息的結(jié)合，兩者形成互補，精度達到65.8％。采用早期融合是由于晚期融合有一個潛在缺點，空間和時間的信息融合是在最后完成，這限制了從SoftMax分類層組合獲得的補充信息的數(shù)量(或決定)，所以，通過使用共生的方法較少的分離的集群形成，和分離的集群往往是更緊密的在一起，可以更好地利用時間信息。

技術(shù)實現(xiàn)要素：

針對忽略了對視頻數(shù)據(jù)進行分類的問題，本發(fā)明的目的在于提供一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法，采用早融的雙流網(wǎng)絡(luò)結(jié)合時間和空間信息(時空共生)方法，使用猴類的視頻數(shù)據(jù)集，提高分類性能。

為解決上述問題，本發(fā)明提供一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法，其主要內(nèi)容包括：

(一)數(shù)據(jù)輸入；

(二)時空雙流網(wǎng)絡(luò)；

(三)融合；

(四)SVM分類器。

其中，一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法，采用早融的雙流網(wǎng)絡(luò)結(jié)合時間和空間信息(時空共生)方法，使用猴類的視頻數(shù)據(jù)集，從每個視頻使用更多的幀(即更多的空間數(shù)據(jù))產(chǎn)生一個顯著的精度提高；空間和時間信息的結(jié)合，兩者形成互補，精度達到65.8％。

其中，一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法，基于降維的可視化技術(shù)使用t-分布鄰域嵌入算法(t-SNE)得出，通過使用共生的方法較少的分離的集群形成，和分離的集群往往是更緊密的在一起，更好地利用時間信息。

其中，所述的數(shù)據(jù)輸入，包括圖像和光流信息，數(shù)據(jù)集由100種猴類視頻集組成；該數(shù)據(jù)集分為訓(xùn)練集和測試集。在一定距離內(nèi)記錄猴類視頻，該數(shù)據(jù)集具有較大的挑戰(zhàn)，如大規(guī)模的相機運動變化和相當(dāng)大的姿態(tài)變化；

對于每一個類(猴種)提供以下數(shù)據(jù)：具有活動注釋的視頻剪輯，聲音剪輯，包圍盒，以及分類和分布位置。

進一步地，所述的測試，每個視頻剪輯采用每秒5幀(FPS)的方式測試，計算每5幀的光流來計算效率。

其中，所述的時空雙流網(wǎng)絡(luò)，包括時間網(wǎng)絡(luò)，空間網(wǎng)絡(luò)，以及時空共生譯碼。

進一步地，所述的時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)，包括

(1)時序網(wǎng)絡(luò)使用作為水平流O_x，豎直流O_y和光流的大小O_mag的輸入結(jié)合形成一個單一的光學(xué)特征映射O∈R^h×w×3，其中h×w是特征映射(圖像)的大小；

(2)空間網(wǎng)絡(luò)使用RGB幀(圖像)作為輸入；

和都使用DCNN結(jié)構(gòu)，由5個卷積層組成S^c1,S^c2,…,S^c5，其次是完全連接層S^fc6；該網(wǎng)絡(luò)進行訓(xùn)練，通過每一個視頻的輸入幀(圖像或光流)是一個單獨的實例，使用預(yù)訓(xùn)練網(wǎng)絡(luò)；在進行分類時，每一個圖像(或幀的光流)最初被視為獨立的；對于一個視頻的N_f幀生成N_f分類決定。

進一步地，所述的時空共生譯碼，包括通過共同出現(xiàn)的聯(lián)合的空間和時間特征，使用DCNNs方法通過計算共生結(jié)合空間和時間網(wǎng)絡(luò)的卷積層，具體地說，讓時空網(wǎng)絡(luò)的第n層的特征映射為和d_n是特征映射的維數(shù)的數(shù)目，計算特征映射組合

和是指位置(i,j)上的空間和時間流的局部特征向量，進行矢量化操作，作為位置(i,j)的共生特征；因此，在每個空間位置的共生模式，外積運算捕獲的視覺運動，最大池應(yīng)用到所有的本地編碼向量；P_i,j創(chuàng)建最后的特征表示最后，L₂標(biāo)準(zhǔn)化應(yīng)用于編碼向量；

時空雙線性DCNN特征結(jié)合fc6時空特征用于雙流早期融合，這使我們能夠結(jié)合局部和全局的空間和時間信息。

其中，所述的融合，包括如下步驟：

(1)早期融合

(2)使用兩個獨立的時序網(wǎng)絡(luò)和空間網(wǎng)絡(luò)S^o和的雙流網(wǎng)絡(luò)用于動作識別，在早期結(jié)合雙流的信息，通過融合fc6輸出，S^fc6和T^fc6，fc6是第一個全連接層，經(jīng)常用來從DCNNs中提取單特征；我們把這個網(wǎng)絡(luò)稱為雙流早融；

(3)進行早期融合，采用雙線性DCNN然后融合雙流的方法，空間和時間信息相結(jié)合；通過完全連接的層的組合原始數(shù)據(jù)預(yù)處理、確定分類計算對象、在計算對象上進行分類。

其中，所述的SVM分類器，其原理為：

設(shè)線性可分樣本集和為(x_i,y_i)，i＝1,…,n，x∈R^d，y∈{+1,-1}是類別標(biāo)號，則

w·x+b＝0

是SVM分類器的分類面方程；

在分類時，為了使分類面對所有樣本正確分類且分類間隔達到最大，需要滿足下面兩個條件：

Φ(x)＝min(w^Tw)

y_i(w·x_i+b)-1≥0

通過解此約束優(yōu)化問題就可以得到最優(yōu)分類面，而過兩類樣本中離分類面最近的點且平行于最優(yōu)分類面的超平面上的訓(xùn)練樣本就是使得公式中等號成立的那些特殊樣本，因為它們支撐了最優(yōu)分類面，因此被稱為支撐向量；將融合輸出作為特征向量輸入到SVM分類器之中，獲得最終分類結(jié)果。

附圖說明

圖1是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的系統(tǒng)流程圖。

圖2是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類的視頻數(shù)據(jù)集。

圖3是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的使用T-SNE可視化定性評價。

圖4是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的時空共生概念圖的方法。

圖5是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的早期融合策略示意圖。

圖6是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類實例定位圖。

具體實施方式

需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互結(jié)合，下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。

圖1是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的系統(tǒng)流程圖。主要包括數(shù)據(jù)輸入；時空雙流網(wǎng)絡(luò)；融合；SVM分類器。

數(shù)據(jù)輸入包括圖像和光流信息，數(shù)據(jù)集由100種猴類視頻集組成；該數(shù)據(jù)集分為訓(xùn)練集和測試集。在一定距離內(nèi)記錄猴類視頻，該數(shù)據(jù)集具有較大的挑戰(zhàn)，如大規(guī)模的相機運動變化和相當(dāng)大的姿態(tài)變化；對于每一個類(猴種)提供以下數(shù)據(jù)：具有活動注釋的視頻剪輯，聲音剪輯，自動定位器檢測，以及分類和分布位置。

其中，每個視頻剪輯采用每秒5幀(FPS)的方式測試，，計算每5幀的光流來計算效率。

時空雙流網(wǎng)絡(luò)，包括時間網(wǎng)絡(luò)，空間網(wǎng)絡(luò)，以及時空共生譯碼。

其中，時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)，包括

(1)時序網(wǎng)絡(luò)使用作為水平流O_x，豎直流O_y和光流的大小O_mag的輸入結(jié)合形成一個單一的光學(xué)特征映射O∈R^h×w×3，其中h×w是特征映射(圖像)的大?。?/p>

(2)空間網(wǎng)絡(luò)使用RGB幀(圖像)作為輸入；

其中，時空共生譯碼，包括通過共同出現(xiàn)的聯(lián)合的空間和時間特征，使用DCNNs方法通過計算共生結(jié)合空間和時間網(wǎng)絡(luò)的卷積層，具體地說，讓時空網(wǎng)絡(luò)的第n層的特征映射為和d_n是特征映射的維數(shù)的數(shù)目，計算特征映射組合

和是指位置(i,j)上的空間和時間流的局部特征向量，矢量化操作，作為位置(i,j)的共生特征；因此，在每個空間位置的共生模式，外積運算捕獲的視覺運動，最大池應(yīng)用到所有的本地編碼向量；P_i,j創(chuàng)建最后的特征表示最后，L₂標(biāo)準(zhǔn)化應(yīng)用于編碼向量；

時空雙線性DCNN特征結(jié)合fc6時空特征用于雙流早期融合，這使我們能夠結(jié)合局部和全局的空間和時間信息。

融合包括如下步驟：

(1)早期融合：使用兩個獨立的時序網(wǎng)絡(luò)和空間網(wǎng)絡(luò)S^o和的雙流網(wǎng)絡(luò)用于動作識別，在早期結(jié)合雙流的信息，通過融合fc6輸出，S^fc6和T^fc6，fc6是第一個全連接層，經(jīng)常用來從DCNNs中提取單特征；我們把這個網(wǎng)絡(luò)稱為雙流早融；

(2)進行早期融合，采用雙線性DCNN然后融合雙流的方法，空間和時間信息相結(jié)合；通過完全連接的層的組合原始數(shù)據(jù)預(yù)處理、確定分類計算對象、在計算對象上進行分類。

SVM分類器的原理為：

設(shè)線性可分樣本集和為(x_i,y_i)，i＝1,…,n，x∈R^d，y∈{+1,-1}是類別標(biāo)號，則

w·x+b＝0

是SVM分類器的分類面方程；

在分類時，為了使分類面對所有樣本正確分類且分類間隔達到最大，需要滿足下面兩個條件：

Φ(x)＝min(w^Tw)

y_i(w·x_i+b)-1≥0

圖2是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類的視頻數(shù)據(jù)集。包括圖像和光流信息，數(shù)據(jù)集由100種猴類視頻集組成；該數(shù)據(jù)集分為訓(xùn)練集和測試集。在一定距離內(nèi)記錄猴類視頻，該數(shù)據(jù)集具有較大的挑戰(zhàn)，如大規(guī)模的相機運動變化和相當(dāng)大的姿態(tài)變化；

圖3是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的使用T-SNE可視化定性評價?；诮稻S的可視化技術(shù)使用t-分布鄰域嵌入算法(t-SNE)，可以看出，通過使用共生的方法較少的分離的集群形成，和分離的集群往往是更緊密的在一起，更好地利用時間信息。

圖4是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的時空共生概念圖的方法。包括通過共同出現(xiàn)的聯(lián)合的空間和時間特征，使用DCNNs方法通過計算共生結(jié)合空間和時間網(wǎng)絡(luò)的卷積層，具體地說，讓時空網(wǎng)絡(luò)的第n層的特征映射為和d_n是特征映射的維數(shù)的數(shù)目，計算特征映射組合

和是指位置(i,j)上的空間和時間流的局部特征向量，矢量化操作，作為位置(i,j)的共生特征；因此，外積運算捕獲的視覺和運動在每個空間位置的共生模式，最大池被施加到所有的本地編碼向量；P_i,j創(chuàng)建最后的特征表示最后，L₂標(biāo)準(zhǔn)化應(yīng)用于編碼向量；

時空雙線性DCNN特征結(jié)合fc6時空特征用于雙流早期融合，這使我們能夠結(jié)合局部和全局的空間和時間信息。

圖5是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的早期融合策略示意圖。融合包括如下步驟：

(1)早期融合

使用兩個獨立的時序網(wǎng)絡(luò)和空間網(wǎng)絡(luò)S^o和的雙流網(wǎng)絡(luò)用于動作識別，在早期結(jié)合兩個流的信息，通過融合fc6輸出，S^fc6和T^fc6，fc6是第一個全連接層，經(jīng)常用來從DCNNs中提取單特征；我們把這個修改網(wǎng)絡(luò)稱為雙流(早融)；

(2)進行早期融合，通過完全連接的層的組合原始數(shù)據(jù)預(yù)處理、確定分類計算對象、在計算對象上進行分類；采用雙線性DCNN然后融合雙流的方法，空間和時間信息相結(jié)合。

圖6是本發(fā)明一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法的猴類實例定位圖。在大多數(shù)情況下，可以準(zhǔn)確的定位到圖像中猴類的位置。但是當(dāng)圖片中出現(xiàn)混淆的紋理，雜亂的物體和閉塞情況時，視頻圖像的定位發(fā)生錯誤。

對于本領(lǐng)域技術(shù)人員，本發(fā)明不限制于上述實施例的細節(jié)，在不背離本發(fā)明的精神和范圍的情況下，能夠以其他具體形式實現(xiàn)本發(fā)明。此外，本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍，這些改進和變型也應(yīng)視為本發(fā)明的保護范圍。因此，所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：夏春秋;
技術(shù)所有人：深圳市唯特視科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

圖像灰度共生矩陣相關(guān)技術(shù)

遙感圖像時空融合相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于時空共生雙流網(wǎng)絡(luò)的視頻圖像分類方法與流程