本發(fā)明涉及計算機多媒體技術領域,尤其涉及一種屬性輔助的視頻動作識別方法。
背景技術:
動作識別技術在諸多現(xiàn)實場景中有著廣泛的應用,比如監(jiān)控視頻的事件檢測、體育視頻的內(nèi)容分析、體感設備的人機交互等。在這些應用中,如何構建準確、高效的動作分類器是動作識別技術中最重要的一步。近年來,隨著深度學習和卷積神經(jīng)網(wǎng)絡在圖像識別任務中的突出效果,視頻識別的研究方向偏向于使用大量已標注數(shù)據(jù)訓練出有效的卷積神經(jīng)網(wǎng)絡模型,然后使用模型對動作進行分類和識別。然而,由于動作通常由一小段視頻片段或一系列連續(xù)的幀畫面所描述,相比于單一的圖像而言包含了更多的信息量,因此分類器的輸入信息不再是傳統(tǒng)的一幀圖像或一段文本信息。盡管卷積神經(jīng)網(wǎng)絡在圖像識別任務中表現(xiàn)出極強的學習能力,但對于視頻中動作的識別卻并不完全適用。所以,如何利用現(xiàn)有信息,訓練有效的分類器以識別在復雜場景中發(fā)生的動作,成為一個重要問題。
現(xiàn)有動作識別的方法主要可以分為兩類,傳統(tǒng)方案通過挑選有效的視覺特征對動作進行分類,目前主流的方案則使用基于深度學習的思想。按照目前的研究趨勢,采用深度學習方案基于大量訓練數(shù)據(jù)訓練出卷積神經(jīng)網(wǎng)絡模型,能夠提取到比手工選取特征更加有區(qū)分能力的深度特征。因此,深度學習的方法已經(jīng)成為研究的必要手段。如果直接將動作視頻切分成多幅靜態(tài)圖像,使用靜態(tài)圖像進行卷積神經(jīng)網(wǎng)絡的訓練和分類,并將分類結(jié)果使用投票策略獲得視頻分類的最終結(jié)果,就在手工選取特征方案的分類準確率結(jié)果上得到極大的提升。在此基礎上,有些研究者嘗試將時域特征作訓練數(shù)據(jù)輸入到網(wǎng)絡模型中,能夠有效捕捉到動作的時域信息;若同時將網(wǎng)絡結(jié)構應用于視頻的空間信息和時域信息,將獲得空間和時域兩條不同信息流的深度特征,使用高斯混合模型等方法能夠?qū)深愄卣鬟M行有效的融合,最終使用支持向量機等分類模型對融合特征進行訓練和分類,使動作識別的精確度有了很大提升。另外,也有研究者將卷積神經(jīng)網(wǎng)絡內(nèi)不同卷積層的深度特征根據(jù)原始時域特征進行投影和映射操作,聚合成有效的深度特征表現(xiàn),也能夠獲得一定的分類精度提升。
從目前的研究來看,現(xiàn)有的研究方案主要聚集于對卷積神經(jīng)網(wǎng)絡結(jié)構的調(diào)整以及深度特征的獲取和使用。這類方案雖然相比于樸素的卷積神經(jīng)網(wǎng)絡有不少的提升,但并沒有從本質(zhì)上提升動作識別的能力。所以在卷積神經(jīng)網(wǎng)絡的學習過程需要一種有效的指導和監(jiān)督方法,使在動作發(fā)生環(huán)境較復雜的情況下為動作類別構建更正確、有效的分類模型。
技術實現(xiàn)要素:
本發(fā)明的目的之一在于提供一種屬性輔助的視頻動作識別方法,以解決在動作識別任務中,相同動作類別的場景可能存在多樣化的差別的情況下,如何利用視覺屬性作為輔助信息,指導和監(jiān)督分類器模型的學習過程,從而構建高精度識別動作分類的模型的問題。
本發(fā)明的發(fā)明目的是通過下述技術方案來實現(xiàn)的:
一種屬性輔助的視頻動作識別方法包括如下步驟:
針對視頻的訓練數(shù)據(jù)選取視覺屬性;
將視覺屬性添加到分類器模型中進行訓練,得到訓練好的分類器;
利用訓練好的分類器進行視頻分類。
進一步的,本發(fā)明提供的一種屬性輔助的視頻動作識別方法,具體包括如下步驟:
步驟S1:針對視頻的訓練數(shù)據(jù)選取視覺屬性;
步驟S2:根據(jù)所述視覺屬性修改分類器模型;
步驟S3:構建步驟S2中的修改后的分類器模型的損失函數(shù);
步驟S4:根據(jù)步驟S3中的損失函數(shù)對所述修改后的分類器模型進行訓練,得到訓練好的分類器;
步驟S5:利用訓練好的分類器進行視頻分類。
進一步的,所述步驟S1:針對視頻的訓練數(shù)據(jù)選取視覺屬性的步驟中,包括如下步驟:
將訓練數(shù)據(jù)表示為:datai={I,P},其中I表示視頻的常規(guī)數(shù)據(jù)信息;P表示視頻的分類和屬性的標準信息;
其中P定義為:P={C,A1,A2,…},其中C∈{0,1}c表示訓練數(shù)據(jù)的分類信息向量,表示訓練數(shù)據(jù)在第ai個視覺屬性的取值信息。
進一步的,所述步驟S2:根據(jù)所述視覺屬性修改分類器模型的步驟中,具體包括如下步驟:
步驟S2.1:在分類器模型的輸入層添加視覺屬性標準值;
步驟S2.2:在分類器模型的輸出層中添加視覺屬性輸出層。
進一步的,所述步驟S3:構建步驟S2中的修改后的分類器模型的損失函數(shù)的步驟,具體包括如下步驟:
步驟S3.1:構建分類器模型中視覺屬性輸出層的損失函數(shù);
步驟S3.2:根據(jù)所述視覺屬性輸出層的損失函數(shù)構建分類器模型的全局損失函數(shù)。
進一步的,所述步驟S3.1中分類器模型中視覺屬性輸出層的損失函數(shù)表示為:
其中m表示訓練數(shù)據(jù)個數(shù),k表示視覺屬性取值的范圍個數(shù),y(i∈)表示第i個訓練數(shù)據(jù)的視覺屬性標準值,h∈(xi)表示第i個訓練數(shù)據(jù)在輸出層第∈列的輸出。
進一步的,所述步驟S3.2中構建的分類器模型的全局損失函數(shù)表示為:
ζT表示全局損失函數(shù)值,其中r表示視覺屬性的個數(shù),ζc表示由動作類別產(chǎn)生的損失函數(shù)值,而表示視覺屬性p產(chǎn)生的損失函數(shù)值,表示權重。
進一步的,所述分類器模型采用卷積神經(jīng)網(wǎng)絡模型。
進一步的,所述步驟S4:根據(jù)步驟S3中的損失函數(shù)對所述修改后的分類器模型進行訓練,得到訓練好的分類器的步驟中,采用開源工具Caffe完成分類器模型的訓練。
本發(fā)明的有益效果:
(1)本發(fā)明提出利用一種基于屬性監(jiān)督的視頻動作識別方案。在目前主流的深度學習模型基礎上,通過添加額外的視覺屬性,監(jiān)督和指導卷積神經(jīng)網(wǎng)絡在訓練時的學習過程,從而優(yōu)化特征學習和參數(shù)調(diào)整的過程,獲得了更加有效的特征映射,提升了動作識別的準確率;
(2)本發(fā)明可以在語義層面上提出多種有效的視覺屬性,用于描述視頻中動作的相關信息。這種語義層面上的屬性符合人類常規(guī)認知,標注工作量較小,且只需要在訓練過程中添加屬性信息,在測試分類過程中不需要。通過添加視覺屬性,克服了傳統(tǒng)分類器視覺特征相似的兩個動作類別識別過程中可能出現(xiàn)的錯誤分類問題。
附圖說明
圖1為本發(fā)明所述的屬性輔助的視頻動作識別方法流程圖。
具體實施方式
下文將結(jié)合具體實施方式詳細描述本發(fā)明。應當注意的是,下述實施例中描述的技術特征或者技術特征的組合不應當被認為是孤立的,它們可以被相互組合從而達到更好的技術效果。
本發(fā)明提供的一種屬性輔助的視頻動作識別方法,包括如下步驟:
針對視頻的訓練數(shù)據(jù)提取視覺屬性;
將視覺屬性添加到分類器模型中進行訓練,得到訓練好的分類器;
利用訓練好的分類器進行視頻分類。
如圖1所述,本發(fā)明提供的一種屬性輔助的視頻動作識別方法具體包括如下步驟:
步驟S1:針對視頻的訓練數(shù)據(jù)選取視覺屬性,具體步驟如下:
將訓練數(shù)據(jù)表示為:datai={I,P},其中I表示視頻的常規(guī)數(shù)據(jù)信息,比如幀畫面、時域特征向量等;P表示視頻的分類和屬性的標準信息;
其中P定義為:P={C,A1,A2,…},其中C∈{0,1}c表示訓練數(shù)據(jù)的分類信息向量,表示訓練數(shù)據(jù)在第ai個視覺屬性的取值信息。Ai可以用來表示視頻中是否出現(xiàn)了某個視覺屬性,取值為0或1,出現(xiàn)了,則取值為1,反之為0。本發(fā)明通過在訓練數(shù)據(jù)中增添視覺屬性,使訓練數(shù)據(jù)得到擴充。
步驟S2:根據(jù)所述視覺屬性修改分類器模型,具體包括如下步驟:
步驟S2.1:在分類器模型的輸入層添加視覺屬性標準值。以卷積神經(jīng)網(wǎng)絡模型為例,就是在網(wǎng)絡模型的輸入層添加視覺屬性的標準值。
步驟S2.2:在分類器模型的輸出層中添加視覺屬性輸出層。同樣以卷積神經(jīng)網(wǎng)絡為例,就是在網(wǎng)絡模型的的輸出部分,平行于原有的類別分類輸出層(Softmax Layer),針對每種視覺屬性添加對應的屬性分類輸出層,表示視頻在每種視覺屬性的網(wǎng)絡模型輸出。
步驟S3:構建步驟S2中的修改后的分類器模型的損失函數(shù),具體包括如下步驟:
步驟S3.1:構建分類器模型中視覺屬性輸出層的損失函數(shù),該視覺屬性輸出層的損失函數(shù)可以表示為:
其中m表示訓練數(shù)據(jù)個數(shù),k表示視覺屬性取值的范圍個數(shù),y(i∈)表示第i個訓練數(shù)據(jù)的視覺屬性標準值,h∈(xi)表示第i個訓練數(shù)據(jù)在輸出層第∈列的輸出。
步驟S3.2:根據(jù)所述視覺屬性輸出層的損失函數(shù)構建分類器模型的全局損失函數(shù),該全局損失函數(shù)可以表示為:
ζT表示全局損失函數(shù)值,其中r表示視覺屬性的個數(shù),ζc表示由動作類別產(chǎn)生的損失函數(shù)值,而表示視覺屬性p產(chǎn)生的損失函數(shù)值,表示權重。
在傳統(tǒng)分類器模型中,只有分類向量在訓練過程中被使用到,因此可以看作ζT=ζc。使用視覺屬性輔助的方法,能夠通過添加視頻的視覺屬性信息,給予分類器模型關于視頻額外的信息,從而達到提升動作分類準確率的效果。
步驟S4:根據(jù)步驟S3中的損失函數(shù)對所述修改后的分類器模型進行訓練,得到訓練好的分類器。
在分類器模型構建完成后,可以使用傳統(tǒng)的訓練方法進行分類器模型的訓練。由于在分類器模型中添加了視覺屬性標準值輸入及對應的損失函數(shù),分類器模型在訓練的過程中將根據(jù)視頻的視覺屬性信息進行對應的參數(shù)調(diào)整,從而達到使用屬性輔助指導和監(jiān)督分類器訓練過程的目的。以卷積神經(jīng)網(wǎng)絡為例,可以使用開源工具Caffe完成網(wǎng)絡模型的定義和訓練,最終得取到訓練完成的網(wǎng)絡模型。
步驟S5:利用訓練好的分類器進行視頻分類。
在分類器模型訓練完成后,可以使用分類器輸入視頻進行分類,識別不同的動作類別。在分類過程中,并不需要提供視覺屬性信息,確保了方法的簡捷可行和有效性。
綜上所述,本發(fā)明具有的優(yōu)勢為:
(1)本發(fā)明提出利用一種基于屬性監(jiān)督的視頻動作識別方法在目前主流的深度學習模型基礎上,通過添加額外的視覺屬性,監(jiān)督和指導卷積神經(jīng)網(wǎng)絡在訓練時的學習過程,從而優(yōu)化特征學習和參數(shù)調(diào)整的過程,獲得了更加有效的特征映射,提升了動作識別的準確率。
(2)本發(fā)明可以在語義層面上提出多種有效的視覺屬性,用于描述視頻中動作的相關信息。這種語義層面上的屬性符合人類常規(guī)認知,標注工作量較小,且只需要在訓練過程中添加屬性信息,在測試分類過程中不需要。通過添加視覺屬性,克服了傳統(tǒng)分類器視覺特征相似的兩個動作類別識別過程中可能出現(xiàn)的錯誤分類問題。
實施例
為驗證本發(fā)明所提出的一種屬性輔助的視頻動作識別方法的有效性,分別在動作識別領域的標準數(shù)據(jù)集KTH、UCF101、HMDB51上的實驗。具體來說,在僅添加兩個視覺屬性的條件下,三個數(shù)據(jù)集上使用本發(fā)明所提出的方法在能夠在同等原始深度模型的分類準確度上分別提升1.77%、2.23%、1.13%;在相關深度模型上也能夠獲得1%至3%的提升效果。
通過在不同的模型和不同的數(shù)據(jù)集上對本發(fā)明進行實驗,證明了本發(fā)明對于動作識別效率的提升效果顯著。
當然應意識到,雖然通過本發(fā)明的示例已經(jīng)進行了前面的描述,但是對本發(fā)明做出的將對本領域的技術人員顯而易見的這樣和其他的改進及改變應認為落入如本文提出的本發(fā)明寬廣范圍內(nèi)。因此,盡管本發(fā)明已經(jīng)參照了優(yōu)選的實施方式進行描述,但是,其意并不是使具新穎性的設備由此而受到限制,相反,其旨在包括符合上述公開部分、權利要求的廣闊范圍之內(nèi)的各種改進和等同修改。