專利名稱:基于張量表示的多模態(tài)視頻語義概念檢測方法
技術領域:
本發(fā)明涉及一種基于張量表示的多模態(tài)視頻語義概念檢測方法。該方法將視頻鏡頭表示為3階張量,并尋找有效的降維方法將其投影到低維語義空間, 從而通過訓練分類器模型實現(xiàn)對視頻張量鏡頭的語義概念檢測,屬于視頻語義 分析與理解領域。
技術背景隨著各種數(shù)字影像設備的發(fā)展和普及,以及電影電視行業(yè)、計算機技術、 通信技術、多媒體處理技術、壓縮編碼技術和互聯(lián)網等的飛速發(fā)展,在新聞、 電影、歷史文獻和監(jiān)控等領域產生了大量的視頻數(shù)據(jù)。視頻數(shù)據(jù)蘊含了任務、 場景、對象和事件等豐富的語義,同時視頻又是時序數(shù)據(jù),視頻中存在圖像、 音頻和文本三種媒質數(shù)據(jù),并呈現(xiàn)時序關聯(lián)共生特性。同時,多種模態(tài)的融合 與協(xié)作對于減小底層特征與高層語義之間的"語義鴻溝"也起到重要的作用。 如何有效利用視頻的多模態(tài)及時序特性來挖掘其語義信息,從而支持視頻的有 效檢索,發(fā)揮視頻數(shù)據(jù)的資源共享優(yōu)勢,是一個具有挑戰(zhàn)性的研究問題。對于如何表達視頻中多模態(tài)媒質,傳統(tǒng)的方法是將圖像、音頻及文本特征 用拼接向量來表示。不過這種高維向量往往會導致"維數(shù)災難"的問題,并且 視頻中多種模態(tài)間的時序關聯(lián)共生的關系也會被忽略。近年來,多線性幾何一 即高階張量已經廣泛應用到計算機視覺、信息檢索及信號處理等領域。張量是 對向量和矩陣的一種自然的擴展和延伸,并且張量幾何已經定義了一系列基于 向量空間集合的多線性運算。同時,以張量作為輸入的有監(jiān)督張量學習框架采 用交替投影優(yōu)化步驟來求解最優(yōu)解,是凸優(yōu)化和多線性幾何運算的結合?;?有監(jiān)督張量學習框架,可以將傳統(tǒng)的支持向量機擴展到支持張量機,實現(xiàn)分類 器模型的訓練和應用。 發(fā)明內容本發(fā)明的目的是提供一種基于張量表示的多模態(tài)視頻語義概念檢測方法。 包括如下步驟1) 對訓練集合及測試集合中的視頻鏡頭均提取圖像、音頻、文本三種模態(tài) 的底層特征,每個視頻張量鏡頭由這三種底層特征形成3階張量來表達;2) 根據(jù)視頻張量鏡頭集合的流形空間本征結構,通過尋找轉換矩陣實現(xiàn)對 原始高維張量的維度降低及子空間嵌入;3) 采用支持張量機對降維后的視頻張量鏡頭集合建立分類器模型;4) 對于測試鏡頭,由訓練集合計算得到的轉換矩陣進行投影后,再通過分 類器模型進行語義概念檢測。所述的對訓練集合及測試集合中的鏡頭均提取圖像、音頻、文本三種模態(tài) 的底層特征每個鏡頭中選取一個關鍵幀作為代表圖像,然后提取顏色直方圖、 紋理和Canny邊界作為圖像特征;將鏡頭對應的一段音頻提取出作為一個音頻 例子,并將音頻例子分成含迭加的短時音頻幀,提取每個短時音頻幀特征,包 括MFCC、質心、衰減截止頻率、頻譜流量及過零率,來形成幀特征向量,然 后把短時音頻幀特征向量的統(tǒng)計值作為鏡頭的音頻特征;從視頻中經過識別的 轉錄文本提取TF*IDF值作為文本特征。所述的視頻張量鏡頭的表達基于視頻中提取的圖像、音頻、文本底層特 征,將每個視頻鏡頭用一個3階張量SeR^^來表示。其中,A,/2和/3分別是圖像特征、音頻特征及文本特征的維數(shù)。那么每個元素s,^的值定義為s^uG^^^A)為圖4象牛寺征的1直,52,,2,2(^'2《/2)為音步員牛寺征的<直,S3,3,,3(lS^^/3)為文本特征的值,其它元素的值均初始設為零。所述的根據(jù)視頻張量鏡頭的流形空間本征結構,通過尋找轉換矩陣實現(xiàn)對原始高維張量的維度降低及子空間嵌入的方法為給定空間R^A^上的鏡頭數(shù) 據(jù)集合I^^^,X2,L X",根據(jù)張量鏡頭的流形空間本征結構以及譜圖理論, 為Z上的每個張量鏡頭XJ^尋找三個轉換矩陣力x^維的l^、 ^x/2維的《及 /3x/3維的T;,使之映射這iV個數(shù)據(jù)點到空間1^"2"3 W^, ^《2, Js《3)上的r—Y^2,L Yj,滿足Y,《產X^Tf 2Tf 3Tf ,以此實現(xiàn)對原始高維 張量的維度降低及子空間嵌入;當求取T/I^時,通過求解廣義特征向量問題 (D廠WJV,義D^i計算得到最優(yōu)化的中間轉換矩陣V。其中,= 2>,,.U|ur , Wf/ 二 Sw^U;Uf ,且w是根據(jù)訓練集合義所構建的最近 鄰圖的'權重矩陣,D是W'fe對角矩陣即D,.,:&V^, Ul是對X,」^的一模展開 矩陣mode-l unfolding matrix即X&進行SVD分解得到的左矩陣,那么最終可以計算轉換矩陣^ V卩Ui eR/'x/';用同樣方法求取《與T。所述的采用支持張量機對降維后的視頻張量鏡頭集合建立分類器模型的方法為分類器模型的輸入是經過子空間嵌入及降維得到的低維張量Y ,. £尸X , If 2 If 3 Tf e R7'""以及相應的類別標識^ e{+l,—1},輸出 是分類器模型的張量超平面參數(shù)wt ^eR力和6eR;通過迭代求解最優(yōu)化問題^々掘(w,, 。=* i" l+《《<9丄得到w^ L和6,其中參數(shù)y從i循環(huán)到3,并且c是常量,^是松弛因子,7=n=>:。。所述的對于測試鏡頭,由訓練集合計算得到的轉換矩陣進行投影后,再通過分類器模型進行語義概念檢測訓練集合外的新數(shù)據(jù)X , eR^/2X/'由轉換矩陣 T/ = V卩Ui e R"7'"1 、 T=V^Ui e R/2"2及T( = V3TU, e R^"3映射為低維子空間 中的Y , = X f If 2 Tf 3 Tf e R^AA ,然后通過分類器模型進行類別檢測, 即計算z^Wg"(Yt lWl 2w2 3w3) + 6 ,來得到測試數(shù)據(jù)的類別標識 ^{+1,-1}。 本發(fā)明的有益效果1) 本發(fā)明用張量取代了傳統(tǒng)的視頻的向量表達方式,能有效減小"維數(shù)災 難"帶來的問題;2) 本發(fā)明考慮了視頻中的多種模態(tài)圖像、音頻和文本,以及視頻數(shù)據(jù)的 時序關聯(lián)共生特性,基于此特性的多種模態(tài)的融合與協(xié)作對于減小底層特征與 高層語義之間的"語義鴻溝"起到重要的作用;3) 本發(fā)明根據(jù)保持張量鏡頭集合的流形空間本征結構以及譜圖理論,所提 出的張量鏡頭子空間嵌入和降維方法,不僅有效地解決了高維度帶來的困難, 而且由于是線性方法,對于訓練集外的新數(shù)據(jù)可以直接進行投影映射;4) 本發(fā)明采用支持張量機來訓練分類器模型,具有良好的類別檢測能力。
圖1是基于張量表示的多模態(tài)視頻語義概念檢測方法流程圖;圖2是本發(fā)明對語義概念"Explosion (爆炸)"的檢測結果,分別與ISOMAP和PCA兩種方法進行比較,表示為ROC曲線圖;圖3是本發(fā)明對語義概念"Sports(體育運動)"的檢測結果,分別與ISOMAP和PCA兩種方法進行比較,表示為ROC曲線圖。
具體實施方式
基于張量表示的多模態(tài)視頻語義概念檢測方法。包括如下步驟1) 對訓練集合及測試集合中的視頻鏡頭均提取圖像、音頻、文本三種模態(tài) 的底層特征,每個視頻張量鏡頭由這三種底層特征形成3階張量來表達;2) 根據(jù)視頻張量鏡頭集合的流形空間本征結構,通過尋找轉換矩陣實現(xiàn)對 原始高維張量的維度降低及子空間嵌入;3) 采用支持張量機對降維后的視頻張量鏡頭集合建立分類器模型;4) 對于測試鏡頭,由訓練集合計算得到的轉換矩陣進行投影后,再通過分 類器模型進行語義概念檢測。所述的對訓練集合及測試集合中的鏡頭均提取圖像、音頻、文本三種模態(tài) 的底層特征底層特征是指直接從視頻源數(shù)據(jù)中提取的特征,有別于語義概念 所代表的高層特征。我們從每一個視頻鏡頭中分別提取底層特征,包括圖像、 音頻和文本特征。圖像特征鏡頭是基本處理單元,每個鏡頭中選取一個關鍵幀作為代表圖 像,然后提取關鍵幀的顏色直方圖、紋理和Canny邊界作為圖像特征;音頻特征將鏡頭對應的一段音頻提取出作為一個音頻例子(audio clip), 并將音頻例子分成含迭加的短時音頻幀,提取每個短時音頻幀特征,包括MFCC、 質心、衰減截止頻率、頻譜流量及過零率,來形成幀特征向量,然后把短時音 頻幀特征向量的統(tǒng)計值(均值或方差)作為鏡頭的音頻特征;文本特征我們從視頻中經過識別的轉錄(transcript)文本提取特征。由于文 本特征的維數(shù)遠大于其他模態(tài)特征,并且文本中包含了豐富的語義信息,可以 先采用隱含語義分析(Latent Semantic Analysis, LSA)對文本作降維處理。所述的視頻張量鏡頭的表達基于視頻中提取的圖像、音頻、文本底層特 征,將每個視頻鏡頭用一個3階張量SeR"^來表示。其中,A,/2和/3分別是圖像特征、音頻特征及文本特征的維數(shù)。那么每個元素s,^的值定義為S^UG^^A)為圖像特征的值,S2,,2,2d^2"2)為音頻特征的值,S3,M3(l&'3《/3)為文本特征的值,其它元素的值均初始設為零。所述的根據(jù)視頻張量鏡頭的流形空間本征結構,通過尋找轉換矩陣實現(xiàn)對原始高維張量的維度降低及子空間嵌入的方法為給定空間RA",A上的鏡頭數(shù) 據(jù)集合Z-^^X2,L X",根據(jù)張量鏡頭的流形空間本征結構以及譜圖理論, 為X上的每個張量鏡頭X,.I:尋找三個轉換矩陣力x^維的T/、 ^x/2維的Ti及力x/3維的《,使之映射這7V個數(shù)據(jù)點到空間R々^" J2〈/2,J^/3)上的集合r—Y^2,L Yj,并滿足Y^產X,.(8),Tf 2Tf 3lf ,那么低維數(shù)據(jù)集合 y便反映了集合Z的流形空間的本征幾何拓撲結構;同時,這個映射也保持了線 性特征,也就是說對于訓練集合外的數(shù)據(jù)點X,,可以直接由預先訓練得到的轉換矩陣來計算它在低維子空間中的映射。令X q A^"3代表一個3階張量鏡頭,給定分布在W個張量鏡頭流形空間M eR^A上的數(shù)據(jù)集合JT"Xi,X2,AXj,我們可以構建一個最近鄰圖C7來模擬M的局部幾何結構。定義(7的權重矩陣W如下|x,-x,『 當X,是X/,的k近鄰或X/是&的k近鄰;0 其它。W = ,,y其中c是一個常量。對于每個張量鏡頭X, (B/^AO,根據(jù)高階奇異值分解(Higher-Order Singular Value Decomposition, HOSVD),我們可以分別對X,.的A: 模展開矩陣 (mode J unfolding matrix)X纟),X&,X(^進行奇異值SVD分解,來計算得到左矩陣 U(,U〖,U、。舉例來說,Uj是對X,.的一模展開矩陣(mode-l unfolding matrix)X&) 進行SVD分解得到的左矩陣?,F(xiàn)在已有UieR^'(lS"7V),我們想找到Ax力維的矩陣V,將Ui映射到 If eR^1,也就是使得1/=^7^|£議々/'。我們將從兩個角度來考慮這個問 題。 一方面,要保持流形的本征結構,需要求取下面這個目標函數(shù)的最優(yōu)解minSlviru;_viru/2W..也就是說,最小化Sl《u卜《u/lw^能確保當i^和u/是"相近"的話,那么vfui和vfu/也是"相近"的。D是W的對角矩陣,即D;; ^J^Wy ;并且對于一個矩陣A,它的"跡(trace)"|A|2=/r(AAD,那么有粉(V/(DrW")V!)其中D^二ZDaUiui , Wy二SW"UiU/ 。從上面的推導可以看出,若想求解mvinZ|ViTUi _ VfUjfW(/ ,需要最小化^(V卩(Dy - Wy)VO 。另一方面,除了要保持流形的圖結構,還需要最大化流形空間上的全局方差。 一般地, 一個隨機變量X的方差為var(x)= ( (x-//)2dP(x), //=丄xdP(x)其中M是數(shù)據(jù)的流形,//是期望值,dP是概率密度函數(shù)。根據(jù)譜圖理論(spectral graph theory), dP可以由樣本點的對角矩陣D (D,7 = J]y W"離散化的估計得到。 那么我們有如下推導var(T;) 粉(V卩D^)由以上兩個方面的約朿條件,我們得到了以下的最優(yōu)化問題
顯然,Vi的最優(yōu)解是(Du-W^DJ的廣義特征向量。因此我們可以計算下 面的廣義特征向量問題來獲得最優(yōu)化的V,:
當計算得到V,后,由U;、j A"'(1S/SA0,可以求取T^VfUJei 。 同理,對于音頻以及文本這兩種模態(tài)的中間轉換矩陣V2和V3也可以用同樣的方 法來計算,那么由l^q ^2(1^"A0和V2便可以求取T^VfU^i々、以 及由l4ej ^"l"SA0和V3可以求取X;、VfU;ei力"。這樣低維空間的視頻 張量鏡頭集合r中的數(shù)據(jù)Y ^=X ,■ A If 2 Tf 3 If e R""A 。
下面是張量鏡頭的子空間嵌入和維度降低的算法。 輸入原始訓練張量鏡頭集合義—X"X2,L X"gRA々、
輸出映射后的低維張量鏡頭集合J^仏,Y2,LY"eR^2x、中間轉換矩陣
Vj e R/lXjl 、 V2 e和V3 e R;3"3 ,以及轉換矩陣T(' = V^U; g j 、
"=V2rU'2 e i 和Tj = V3rU; e i人",且滿足Y ,. |二= X ;if 2 if 3 if ;
算法描述
驟l:構建一個最近鄰圖G; 驟2:計算權重矩陣W; 驟3: For A:=lto3 驟4: For /-ltoTV
驟5: 計算X,的A模展開矩陣X^的SVD分解的左矩陣U");
驟6: End;
步驟7: D" = 2>,7l^)Ui/ ;
步步步步步步步驟8: <formula>formula see original document page 11</formula>
步驟9: 求解下列廣義特征向量問題以得到最優(yōu)化的Vfc: <formula>formula see original document page 11</formula>
步驟10: <formula>formula see original document page 11</formula>
步驟11: <formula>formula see original document page 11</formula>
步驟12: end
步驟13: end
步驟14: <formula>formula see original document page 11</formula>
步驟15: <formula>formula see original document page 11</formula>
步驟16: end。
所述的采用支持張量機對降維后的視頻張量鏡頭集合建立分類器模型的方 法為在這一步中,我們采用支持張量機來訓練張量鏡頭的分類器。訓練模型 的輸入就是上一步經過子空間嵌入及降維得到的低維張量Y,,而不是原始的 這樣的處理不僅能提高精確度,而且能提高訓練和分類的效率。
支持張量機訓練分類器的算法如下。
輸入映射后的低維張量鏡頭集合Y,.ir-產X,^lf 2Tf 3lf eR,"^,及
相應的類別標識乃£{+1,-1}; 輸出分類器模型的張量超平面參數(shù)w^L eR力和6e R ;
算法描述
步驟l:設置W^^為R々中的隨機單位向量; 步驟2:重復步驟3-5直至收斂; ;:For= 1 to 3
步驟4:
通過求解最優(yōu)化問題
<formula>formula see original document page 11</formula>得到w,r^和6,其中c是常量,g是松弛因子,^rt:ih。;
步驟5: End;
步驟6:檢査是否收斂如果
<formula>formula see original document page 12</formula>
那么計算得到的
<formula>formula see original document page 12</formula>
已經收斂。這里w^是當前的投影向量,w、^是前一個投影 步驟7: End。
所述的對于測試鏡頭,由訓練集合計算得到的轉換矩陣進行投影后,再通 過分類器模型進行語義概念檢測在這一步中,我們將根據(jù)前面訓練得到的分 類器模型來對訓練集外的新數(shù)據(jù)進行檢測。因為我們的降維方法是線性的,所 以對于新數(shù)據(jù)可以直接映射到低維子空間,然后通過分類器進行類別檢測。
令x,作為一個訓練集合外的檢測例子,下面的算法給出檢測過程。 輸入待檢測鏡頭X,eRAA^,中間轉換矩陣Vi、 V2、 V3,分類器參數(shù)<formula>formula see original document page 12</formula>
輸出X,的類別標識Z, e {+1,-1}; 算法描述
For A = 1 to 3;
計算Xf的t模展開矩陣X&)的SVD分解的左矩陣;
步驟l:
步驟2:
步驟3: 步驟4:
End;
步驟6: 步驟7:
計算<formula>formula see original document page 12</formula>計算<formula>formula see original document page 12</formula>End。
權利要求
1.一種基于張量表示的多模態(tài)視頻語義概念檢測方法,其特征在于包括如下步驟1)對訓練集合及測試集合中的視頻鏡頭均提取圖像、音頻、文本三種模態(tài)的底層特征,每個視頻張量鏡頭由這三種底層特征形成3階張量來表達;2)根據(jù)視頻張量鏡頭集合的流形空間本征結構,通過尋找轉換矩陣實現(xiàn)對原始高維張量的維度降低及子空間嵌入;3)采用支持張量機對降維后的視頻張量鏡頭集合建立分類器模型;4)對于測試鏡頭,由訓練集合計算得到的轉換矩陣進行投影后,再通過分類器模型進行語義概念檢測。
2. 根據(jù)權利要求1所述的一種基于張量表示的多模態(tài)視頻語義概念檢測方法,其特征在于所述的對訓練集合及測試集合中的鏡頭均提取圖像、音頻、文本三種模態(tài)的底層特征每個鏡頭中選取一個關鍵幀作為代表圖像,然后提取顏色直方圖、紋理和Canny邊界作為圖像特征;將鏡頭對應的一段音頻提取出 作為一個音頻例子,并將音頻例子分成含迭加的短時音頻幀,提取每個短時音 頻幀特征,包括MFCC、質心、衰減截止頻率、頻譜流量及過零率,來形成幀 特征向量,然后把短時音頻幀特征向量的統(tǒng)計值作為鏡頭的音頻特征;從視頻 中經過識別的轉錄文本提取TF*IDF值作為文本特征。
3. 根據(jù)權利要求1所述的一種基于張量表示的多模態(tài)視頻語義概念檢測方 法,其特征在于所述的視頻張量鏡頭的表達基于視頻中提取的圖像、音頻、 文本底層特征,將每個視頻鏡頭用一個3階張量SeRA^"3來表示。其中,7/,/2和A分別是圖像特征、音頻特征及文本特征的維數(shù)。那么每個元素s,&的值定 義為s,^(l^/^A)為圖像特征的值,、,2(l"^/2)為音頻特征的值, s^(l^^/3)為文本特征的值,其它元素的值均初始設為零。
4. 根據(jù)權利要求1所述的一種基于張量表示的多模態(tài)視頻語義概念檢測方 法,其特征在于所述的根據(jù)視頻張量鏡頭的流形空間本征結構,通過尋找轉換 矩陣實現(xiàn)對原始高維張量的維度降低及子空間嵌入的方法為給定空間R""A 上的鏡頭數(shù)據(jù)集合了 = ^ i,X 2,L X ",根據(jù)張量鏡頭的流形空間本征結構以及 譜圖理論,為義上的每個張量鏡頭X,I仏尋找三個轉換矩陣^X/,維的1^、J2X/2 維的《及J3x/3維的《,使之映射這iV個數(shù)據(jù)點到空間R々^"3 (力a, ^《2, A《3)上的r^Yi,Y2,L Yj,滿足Y,C^X,.(^lf (8)2Tf 3Tf ,以此實現(xiàn)對原始高維張量的維度降低及子空間嵌入;當求取T/I^時,通過求解廣義特征向量問 題(D^-W^)V,:義^V,計算得到最優(yōu)化的中間轉換矩陣V1;其中, =SD,,uiur , W"=ZW(/Uiu/7 ,且W是根據(jù)訓練集合^所構建的最近鄰圖的'權重矩陣,D是W'fej對角矩陣即D廣&W^., Uj是對X |^的 一模展開矩陣mode-l unfolding matrix即X&)進行SVD分解得到的左矩陣,那么最終可以計算轉換矩陣^ V^UJ eR/'x/';用同樣方法求取《與T^。
5.根據(jù)權利要求1所述的一種基于張量表示的多模態(tài)視頻語義概念檢測方法,其特征在于所述的采用支持張量機對降維后的視頻張量鏡頭集合建立分類器模型的方法為分類器模型的輸入是經過子空間嵌入及降維得到的低維張量Y , £1= X ,if 2 Tf 3 if eR々力"以及相應的類別標識乃e {+1,-1},輸出是分類器模型的張量超平面參數(shù)WA ^eR力和6eR;通過迭代求解最優(yōu)化問題gg々掘l +《《—1乂[々,rt w乂+州""化^得到W4 L和6,其中參數(shù)乂從1循環(huán)到3,并且c是常量,g是松弛因子,/7=n=3ik4
6.根據(jù)權利要求1所述的一種基于張量表示的多模態(tài)視頻語義概念檢測方法,其特征在于所述的對于測試鏡頭,由訓練集合計算得到的轉換矩陣進行投影后,再通過分類器模型進行語義概念檢測訓練集合外的新數(shù)據(jù)X,eR71々73由轉換矩陣T( = V/"U! e R/'x/' 、 ; = V2W2 e及T=V3『U; e 映射為低維子空間中的Y , = X , , Tf 2 Tf 3 Tf e R々^力,然后通過分類器模型進行類別檢測,即計算z,"Zg"(YtAw^2W2^W3) + 6,來得到測試數(shù)據(jù)的類 別標識z, e{+l,-l}。
全文摘要
本發(fā)明公開了一種基于張量表示的多模態(tài)視頻語義概念檢測方法。包括如下步驟1)對訓練集合及測試集合中的視頻鏡頭均提取圖像、音頻、文本三種模態(tài)的底層特征,每個視頻張量鏡頭由這三種底層特征形成3階張量來表達;2)根據(jù)視頻張量鏡頭集合的流形空間本征結構,通過尋找轉換矩陣實現(xiàn)對原始高維張量的維度降低及子空間嵌入;3)采用支持張量機對降維后的視頻張量鏡頭集合建立分類器模型;4)對于測試鏡頭,由訓練集合計算得到的轉換矩陣進行投影后,再通過分類器模型進行語義概念檢測。本發(fā)明充分利用視頻中的多模態(tài)數(shù)據(jù),將視頻鏡頭表示為3階張量,并基于此種表達提出了一種子空間嵌入的降維方法,實現(xiàn)了視頻鏡頭的語義概念檢測,對視頻語義進行了較好的分析與理解。
文檔編號G06K9/62GK101299241SQ20081005912
公開日2008年11月5日 申請日期2008年1月14日 優(yōu)先權日2008年1月14日
發(fā)明者劉亞楠, 飛 吳, 莊越挺, 郭同強 申請人:浙江大學