專利名稱:用于視頻內(nèi)容分析的關(guān)鍵幀提取的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及構(gòu)成鏡頭(shot)的幀序列中的關(guān)鍵幀的提取領(lǐng)域,所述關(guān)鍵幀用于在視頻摘要、瀏覽、搜索和理解中代表鏡頭。
背景技術(shù):
隨著在因特網(wǎng)、移動設(shè)備和大范圍的視頻應(yīng)用中存儲和觀看數(shù)字視頻的流行性的快速增長,對視頻數(shù)據(jù)的有效管理變得比以前重要得多。對于自動視頻檢索而言,幾乎不可能使用關(guān)鍵字描述視頻序列。原因在于,人工注釋需要巨大的人力,并且使用的關(guān)鍵字傾向于不精確且是主觀的。因此,可以提供對視頻序列的有效索引、檢索和瀏覽的基于內(nèi)容的技術(shù)將是一種解決方案。用于管理視頻數(shù)據(jù)的一般方法是借助于鏡頭切分檢測或者場景分解檢測將視頻分割成稱為“鏡頭”的若干組相關(guān)幀。在標(biāo)識鏡頭邊界之后,可以從每組幀(GoF)或者視頻鏡頭中提取一個或多個關(guān)鍵幀或代表幀。然后,這些關(guān)鍵幀上的視覺內(nèi)容被用來代表視頻鏡頭以用于索引和檢索。關(guān)鍵幀提取是視頻分析和管理中的基本部分,其提供用于視頻索引、瀏覽和檢索的適當(dāng)視頻摘要。關(guān)鍵幀的使用減少了視頻索引中所需的數(shù)據(jù)量并且提供了用于處理視頻內(nèi)容的框架。關(guān)鍵幀提取可以在場景或鏡頭水平下進(jìn)行。通常,鏡頭水平下的分析是優(yōu)選的,因為它保留了選擇的關(guān)鍵幀在視頻幀集中的時間順序。當(dāng)前的關(guān)鍵幀提取技術(shù)可以分類成以下六類
基于鏡頭邊界的方法,基于視覺內(nèi)容的方法,基于運(yùn)動分析的方法,基于鏡頭活動的方法,基于無監(jiān)督聚類的方法,以及基于宏塊的方法。這些方法分別具有其優(yōu)點。例如,文獻(xiàn)US2005/000M52公開了一種關(guān)鍵幀提取,該關(guān)鍵幀提取基于由亮度分布定義的熵度量以及與相鄰幀的比較,使得具有最少運(yùn)動活性的幀被選擇??雌饋硪阎奶崛》椒ㄔ谶x擇包含可以用于動作識別的復(fù)雜且快速變化的運(yùn)動的幀方面表現(xiàn)得并不良好。
發(fā)明內(nèi)容
有利的是實現(xiàn)一種提取代表鏡頭捕獲的(多個)運(yùn)動的關(guān)鍵幀的方法。為了更好地解決一個或多個關(guān)切,在本發(fā)明的第一方面中,一種從構(gòu)成鏡頭的每幀由像素矩陣構(gòu)成的幀序列中提取關(guān)鍵幀的方法包括
對于幀序列的每幀
將該幀與后續(xù)幀相比的光流計算為從該幀到后續(xù)幀的每個像素的位移的矩陣; 基于該幀的光流計算運(yùn)動熵度量; 將幀序列的具有最大運(yùn)動熵度量的幀選擇為關(guān)鍵幀。所述方法特別有益于選擇具有復(fù)雜且快速變化的運(yùn)動的(多個)幀。
在一個特定的實施例中,
每個像素的位移被定義為具有模和位移角的矢量,運(yùn)動直方圖由代表模和位移角的組合的預(yù)定數(shù)量的面元(bin)定義?!G棄具有最高頻率的面元?!み\(yùn)動熵度量為每個面元的運(yùn)動熵度量的總和,一個面元的運(yùn)動熵度量與該面元在運(yùn)動直方圖中的出現(xiàn)頻率成比例?!っ嬖囟攘坑稍撁嬖霈F(xiàn)的對數(shù)頻率的絕對值加權(quán)?!⒚繋倪\(yùn)動直方圖與另一幀的運(yùn)動直方圖進(jìn)行比較以便將該幀的運(yùn)動熵度量定義為相似性度量?!ねㄟ^在具有預(yù)定長度的幀的滑動窗中選擇所述幀序列的具有最大運(yùn)動熵度量的幀而提取多個關(guān)鍵幀?!っ總€像素的位移定義為具有模和位移角的矢量,并且運(yùn)動直方圖由代表模和位移角的組合的預(yù)定數(shù)量的面元定義,運(yùn)動熵度量為每個面元的運(yùn)動熵度量的總和,一個面元的運(yùn)動熵度量與該面元在運(yùn)動直方圖中出現(xiàn)的頻率成比例,并且
所述方法進(jìn)一步包括對于每個被選擇的幀,與其相鄰幀的運(yùn)動直方圖進(jìn)行比較,并且用比較的結(jié)果對每個被選擇的幀的運(yùn)動熵度量進(jìn)行加權(quán)。在本發(fā)明的第二方面中,一種計算機(jī)軟件產(chǎn)品存儲在記錄介質(zhì)上并且包括一組指令,當(dāng)計算機(jī)執(zhí)行該組指令時,其使得計算機(jī)能夠?qū)嵤┥厦婀_的方法。在本發(fā)明的第三方面中,一種用于從構(gòu)成鏡頭的幀序列中提取關(guān)鍵幀的裝置,每幀由像素矩陣構(gòu)成,該裝置包括
幀光流計算器,其用于將所述幀序列的每幀與后續(xù)幀相比的光流計算為從該幀到后續(xù)幀的每個像素的位移的矩陣;
運(yùn)動熵度量計算器,其基于幀光流計算器的輸出; 關(guān)鍵幀選擇器,其用于選擇幀序列的具有最大運(yùn)動熵度量的幀。取決于圖像的類型,特定的實施例由于更易于適應(yīng)或者由于給出更好的結(jié)果而可能是優(yōu)選的。然而,可以適當(dāng)?shù)鼗蛘吒鶕?jù)需要組合或修改這些特定實施例的各方面。
本發(fā)明的這些和其他方面根據(jù)以下描述的實施例將是清楚明白的,并且將參照所述實施例進(jìn)行闡述,其中
-圖1為依照本發(fā)明一個實施例的方法的流程圖; -圖2為幀的運(yùn)動直方-圖3為圖2的另一個幀運(yùn)動直方圖,其沒有具有最高計數(shù)的面元; -圖4為依照本發(fā)明另一個實施例的方法的流程圖;以及 -圖5為依照本發(fā)明一個實施例的裝置的示意圖。
具體實施例方式參照圖1,一種從構(gòu)成鏡頭的幀序列中提取關(guān)鍵幀的方法,每幀由像素矩陣構(gòu)成, 該方法包括對于所述幀序列的每幀(步驟1)
將與后續(xù)幀相比的幀光流計算為從該幀到后續(xù)幀的每個像素的位移的矩陣(步驟
3)
基于該幀光流計算運(yùn)動熵度量(步驟5); 將幀序列的具有最大運(yùn)動熵度量的幀選擇為關(guān)鍵幀(步驟7)。現(xiàn)在參照特定實施例詳細(xì)地討論每個步驟。考慮光流的計算,應(yīng)當(dāng)指出的是,每個人類活動引起可以被觀察者容易地識別的特有的運(yùn)動模式。光流是一種適合于識別人類動作的運(yùn)動描述符。在第一步驟中,幀的每個像素的位移通過與后續(xù)幀比較作為光流場而計算。例如, 使用諸如Lucas-Kanade算法之類的標(biāo)準(zhǔn)方法計算光流場序列。因此,對于幀k,幀i與幀i+Ι之間的光流Fk為每個速度矢量具有模Mi (X,y)和角度 i(x,y)的速度矢量Fi (X,y)矩陣。速度矢量FiOc, y)度量像素(x,y)從幀i到幀i+Ι的位移。熵是表示數(shù)據(jù)集的不純度或不可預(yù)測性的良好方式,因為它取決于其中進(jìn)行測量的環(huán)境?;谏厦娑x的光流,計算運(yùn)動熵度量。每個基于光流輸出的速度矢量通過其幅度Mi (X,y)和取向 “χ,y)量化。運(yùn)動直方圖被定義為預(yù)定數(shù)量的面元,每個面元為幅度和取向的組合,從而覆蓋幅度和取向值的整個譜。例如,使用表示5個幅度水平和8個取向角度的40個直方圖面元。幀中第k個面元出現(xiàn)的概率給定為
,,h
PfK^}=‘“ ‘⑴
M *N
其中Μ、N為幀的大小并且h表示第k個面元的計數(shù)。Pf (k)因而為面元k中包含的像素計數(shù)與總像素數(shù)之比。
K m&KKm^K,、 E ,(k) = ρf (k)*logy[p/(^))(2)
k=l
其中Kmax為直方圖中的總面元數(shù),在該實例中KmaX=40,并且所有面元的熵e3f(k)的總和為該幀中的運(yùn)動的全局熵。面元熵度量因而為由面元出現(xiàn)的對數(shù)概率的絕對值加權(quán)的面元出現(xiàn)的概率。由于對數(shù)概率總是為負(fù)的,因而取絕對值以獲得正值作為熵。直觀上,有峰運(yùn)動直方圖包含較少的運(yùn)動信息,從而產(chǎn)生低的熵值;平坦且分布式的直方圖包括更多的運(yùn)動信息,并且因而得到高的熵值。上面公開的熵最大值方法提供了關(guān)于哪些幀包含最復(fù)雜的運(yùn)動的信息。在一些情形中,其中運(yùn)動直方圖相對于周圍幀相對較快地變化的幀也包含重要的信息。因此,公開了第二實施例,其稱為幀間方法或直方圖交會法,并且其測量連續(xù)幀的運(yùn)動之間的差異。所述度量計算兩個直方圖之間的相似性。幀i及其鄰近幀(超前或滯后χ幀)的運(yùn)動直方圖分別為Hf (i)和Hf (i 士χ),并且
權(quán)利要求
1.一種從構(gòu)成鏡頭的幀序列中提取關(guān)鍵幀的方法,每幀由像素矩陣構(gòu)成,所述方法包括 對于所述幀序列的每幀 將所述幀與后續(xù)幀相比的光流計算(3)為從所述幀到后續(xù)幀的每個像素的位移的矩陣; 基于所述幀的光流計算(5)運(yùn)動熵度量; 將所述幀序列的具有最大運(yùn)動熵度量的幀選擇(7)為關(guān)鍵幀。
2.依照權(quán)利要求1的方法,其中每個像素的位移被定義為具有模和位移角的矢量,運(yùn)動直方圖由代表模和位移角的組合的預(yù)定數(shù)量的面元定義。
3.依照權(quán)利要求2的方法,其中丟棄具有最高頻率的面元。
4.依照權(quán)利要求2或3的方法,其中運(yùn)動熵度量為每個面元的運(yùn)動熵度量的總和,一個面元的運(yùn)動熵度量與所述面元在運(yùn)動直方圖中的出現(xiàn)頻率成比例。
5.依照權(quán)利要求4的方法,其中面元熵度量由所述面元出現(xiàn)的對數(shù)頻率的絕對值加權(quán)。
6.依照權(quán)利要求2或3的方法,其中將每幀的運(yùn)動直方圖與另一幀的運(yùn)動直方圖進(jìn)行比較以便將所述幀的所述運(yùn)動熵度量定義為相似性度量。
7.依照權(quán)利要求1的方法,其中通過在具有預(yù)定長度的幀的滑動窗中選擇所述幀序列的具有最大運(yùn)動熵度量的幀而提取多個關(guān)鍵幀。
8.依照權(quán)利要求7的方法,其中每個像素的位移定義為具有模和位移角的矢量,并且運(yùn)動直方圖由代表模和位移角的組合的預(yù)定數(shù)量的面元定義,運(yùn)動熵度量為每個面元的運(yùn)動熵度量的總和,一個面元的運(yùn)動熵度量與所述面元在運(yùn)動直方圖中出現(xiàn)的頻率成比例, 并且所述方法進(jìn)一步包括對于每個選擇的幀,與其相鄰幀的運(yùn)動直方圖進(jìn)行比較,并且由比較的結(jié)果對每個選擇的幀的運(yùn)動熵度量進(jìn)行加權(quán)。
9.計算機(jī)軟件產(chǎn)品,存儲在記錄介質(zhì)上并且包括一組指令,當(dāng)計算機(jī)執(zhí)行該組指令時,其使得計算機(jī)能夠?qū)嵤┮勒諜?quán)利要求1的方法。
10.用于從構(gòu)成鏡頭的幀序列中提取關(guān)鍵幀的裝置,每幀由像素矩陣構(gòu)成,所述裝置包括 幀光流計算器(20),其用于將所述幀序列的每幀與后續(xù)幀相比的光流計算為從所述幀到后續(xù)幀的每個像素的位移的矩陣; 運(yùn)動熵度量計算器(22),其基于幀光流計算器的輸出; 關(guān)鍵幀選擇器(24),其用于選擇所述幀序列的具有最大運(yùn)動熵度量的幀。
全文摘要
一種從構(gòu)成鏡頭的幀序列中提取關(guān)鍵幀的方法,每幀由像素矩陣構(gòu)成,該方法包括對于幀序列的每幀將該幀與后續(xù)幀相比的光流計算(3)為從該幀到后續(xù)幀的每個像素的位移的矩陣;基于該幀的光流計算(5)運(yùn)動熵度量;將幀序列的具有最大運(yùn)動熵度量的幀選擇(7)為關(guān)鍵幀。
文檔編號G06K9/00GK102395984SQ201080016753
公開日2012年3月28日 申請日期2010年4月14日 優(yōu)先權(quán)日2009年4月14日
發(fā)明者紹 L. 申請人:皇家飛利浦電子股份有限公司