專利名稱:一種產(chǎn)生視頻大綱的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,進一步涉及視頻摘要領(lǐng)域。
背景技術(shù):
視頻摘要是從文本摘要引申出來的一個概念,文本摘要是對一篇文章或者一段文字的簡要總結(jié),所以視頻摘要就是要對一段較長的視頻內(nèi)容進行相關(guān)技術(shù)的處理得到一個簡要的總結(jié),也就是以自動或者半自動的方式對視頻的結(jié)構(gòu)和內(nèi)容進行分析,把原視頻中的有意義的部分提取出來,然后再以某種方式進行組合,形成一個簡潔但是能充分表現(xiàn)視頻內(nèi)容的概要。這個總結(jié)可以是以文本形式來表示的,也可以是一些靜止的圖片或者一段比原視頻短的視頻,現(xiàn)在大部分的視頻摘要技術(shù)都是以后者來進行表示。
傳統(tǒng)的視頻摘要技術(shù)根據(jù)摘要的表現(xiàn)形式的不同主要可以分為兩大類靜態(tài)的視頻摘要,又稱為視頻概要(Video Summary),主要是以靜態(tài)的方式來表現(xiàn)原視頻的內(nèi)容,如標題、關(guān)鍵幀、幻燈片、場景轉(zhuǎn)換圖(STG)等;動態(tài)的視頻摘要,又稱為視頻縮略(Video Skimming),它是以動態(tài)的視頻序列來表現(xiàn)原視頻的內(nèi)容,它本身就是一段比原視頻短的視頻,有些還有帶有原視頻中的音頻。視頻概要通常只考慮了視覺信息,以單一靜止的視頻幀或者文字來表示一段視頻,優(yōu)點在于實現(xiàn)簡單,現(xiàn)有商用的系統(tǒng)大部分都是采用該方法,如各大視頻網(wǎng)站都會給每個視頻配一幅該視頻中的圖片來標記該段視頻。但是視頻概要極大的損失了視頻的表現(xiàn)力,不符合用戶的感知習慣,視頻縮略在一定程度上彌補了這一缺點,但是視頻縮略的算法都比較復雜,難以實現(xiàn)自動提取,人工合成的成本很高,目前視頻縮略的方法最常見于專業(yè)的影視行業(yè)的片花制作中。
傳統(tǒng)的視頻摘要技術(shù)忽略了很重要的一個方面,即空域-時域之間的結(jié)合。正如摘要的定義,視頻摘要的目的在于在有限的空間和時間范圍內(nèi)提供給用戶盡量多的信息以展現(xiàn)重要的視頻的內(nèi)容。但是目前研究人員關(guān)注最多的是如何在時間軸上選擇視頻幀,并將它們排列起來展現(xiàn)給用戶。他們理所當然地將視頻幀作為一個不可分割的最小視頻單元。其實這忽略了視頻本身就是一個由兩維的空間和一維的時間組成的三維的流。同時,在這個三維空間中,視頻信息的分布是不均勻的。目前所有的視頻摘要研究都只是針對的視頻信息在時間軸上的不均勻性,卻忽略了視頻在空間域上也是非均勻分布的。
針對目前視頻摘要算法存在缺點,Alex Rav-Acha等人提出了視頻大綱(Video Synopsis)方法,該方法把視頻看做是一個在時域-空域上統(tǒng)一的3維體,不僅考慮視頻在時間維上的信息不均勻性,也考慮了視頻在空間上同樣存在信息的分布不均勻。該算法首先對視頻中的有效信息-運動物體進行分析,抽取出運動物體,然后把這些運動物體在重建的背景上進行重新的排列組合,充分利用每一幀的空間,重新融合成一段視頻大綱,生成后的視頻大綱比原視頻要短得多,但是包含了原視頻中幾乎所有的有效信息。視頻大綱的算法流程可以用附圖1所示。
首先進行運動物體的檢測,如附圖1中的101,對每一幀中的每一個像素檢測其屬于運動物體還是屬于背景。
然后進行運動物體的跟蹤,并生成軌跡,如附圖1中的102。在此步驟中進行運動物體的分割,并對每個運動物體進行跟蹤,生成各自的運動軌跡。
運動物體軌跡生成后,進行運動物體的重新的排列組合,如附圖1中的103,即把所有的運動物體軌跡在時間軸上進行重新排列。排列運動物體本質(zhì)上是找到一個時間域上的映射M,把這些運動物體從原視頻幀中的時間位置映射到輸出視頻中的另外一個時間位置,由于視頻大綱保持運動物體在空間上的不變,所以該映射只作用在時間軸。該模塊算法如下 定義B為所有運動物體的集合,b為其中的一個運動物體,該運動物體在原視頻中的位置是則經(jīng)過映射,在輸出視頻中其中tsb,teb分別表示運動物體在原視頻中的開始位置和結(jié)束位置,
分別表示運動物體在輸出視頻中的開始位置和結(jié)束位置。如果運動物體沒有在最終的輸出視頻中出現(xiàn),則
為了找到一個好的映射M,定義了如下的能量損耗公式,能讓公式(1)取得最小值的M就是達到最好效果的映射。
其中Ea是運動信息損失,定義如下
其中χb(x,y,t)是表示的運動物體b的特征值,就是運動物體b包含的像素個數(shù)。公式(2)表示如果一個運動物體沒有出現(xiàn)在視頻大綱的輸出視頻中,那么該物體的特征值就要加入運動損失中。
Ec是碰撞損失,定義為在輸出視頻中任意兩個運動物體在時空上的重疊 其中表示運動物體b和b’在輸出視頻中同時存在的那段時間,利用公式(3)可以在一定程度上控制運動物體在輸出視頻中的密度。
最后融合運動物體的檢測所得到的背景和重新排列好的運動物體軌跡生成視頻大綱,如附圖1中的104。
上述方法雖然已經(jīng)考慮了視頻中信息在時空三維上的分布,但是最后得到的結(jié)果并不是很理想,在輸出視頻大綱中各種運動物體擁擠在一起,這樣雖然視頻的長度大大縮短了,但是每一幀視頻中的信息量太多,觀察者很難處理這么多信息量,因此需要適當?shù)臏p少每幀視頻中的信息量。
發(fā)明內(nèi)容
本發(fā)明目的在于解決現(xiàn)有技術(shù)中視頻大綱單幀內(nèi)信息量太多、運動物體密度過大的問題,從而提供一種使得輸出視頻大綱符合人眼觀測模式的產(chǎn)生視頻大綱的方法和系統(tǒng)。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種產(chǎn)生視頻大綱的方法,包括以下步驟 1)對視頻幀進行運動物體檢測,得到運動物體和背景; 2)跟蹤所述運動物體,并生成所述運動物體的軌跡; 3)計算密度代價Ed(p),其中p是視頻幀; 4)計算變化代價Er(p); 5)根據(jù)計算視頻大綱代價,其中α和β是不同時為零的同號實數(shù),P是生成視頻幀集合,并根據(jù)所述視頻大綱代價重排所述運動物體的軌跡; 6)融合所述背景和所述重排后的運動物體軌跡,生成視頻大綱。
根據(jù)本發(fā)明的另一方面,上述方法的步驟4)后還包括步驟a)計算碰撞代價Ec(p); 且在步驟5)中根據(jù)計算視頻大綱代價,其中λ是非零實數(shù)且與α和β同號。
根據(jù)本發(fā)明的另一方面,上述方法的步驟4)后還包括步驟b)計算非連貫性代價Et(p); 且在步驟5)中根據(jù)計算視頻大綱代價,其中δ是非零實數(shù)且與α和β同號。
根據(jù)本發(fā)明的另一方面,上述方法的步驟a)后包括步驟b)計算非連貫性代價Et(p); 且在步驟5)中根據(jù)計算所述視頻大綱代價,其中所述δ是非零實數(shù)且與α和β同號。
根據(jù)本發(fā)明的另一方面,上述方法的步驟3)包括根據(jù)Ed(p)=Edn(p)+Edd(p)計算密度代價Ed(p),其中數(shù)量密度代價Edn(p)=|N(p)-Cn|,N(p)是視頻幀p中運動物體的個數(shù),Cn是視覺運動物體數(shù)量容量,物體方向密度代價
Δ(p)是幀p中所有物體運動的方向個數(shù),Cd是視覺運動物體方向容量。
根據(jù)本發(fā)明的另一方面,上述方法的步驟4)包括根據(jù)
計算變化代價Er(p)。
根據(jù)本發(fā)明的另一方面,上述方法的步驟a)包括根據(jù)
計算碰撞代價Ec(p)。
根據(jù)本發(fā)明的另一方面,上述方法的步驟b)包括根據(jù)
計算非連貫性代價Et(p)。
根據(jù)本發(fā)明的再一方面,上述方法的所述α、β、δ和λ取值范圍是[1,5]。
根據(jù)本發(fā)明的再一方面,上述方法的所述Cn是4或5。
根據(jù)本發(fā)明的再一方面,上述方法的所述Cd是3。
根據(jù)本發(fā)明的又一方面,本發(fā)明還提供了一種產(chǎn)生視頻大綱的系統(tǒng),包括 運動物體檢測模塊,其用于進行運動物體的檢測,得到運動物體和背景; 運動物體跟蹤及軌跡生成模塊,其用于跟蹤所述運動物體,并生成所述運動物體的軌跡; 運動物體重排模塊,其用于計算密度代價Ed(p),計算變化代價Er(p),根據(jù)計算視頻大綱代價,其中α、β是不同時為零的同號實數(shù),p是視頻幀,P是視頻幀集合,并依所述視頻大綱代價重排所述運動物體的軌跡; 視頻大綱生成模塊,用于融合所述背景和所述重排后的運動物體軌跡,生成視頻大綱。
根據(jù)本發(fā)明的又一方面,上述系統(tǒng)的所述運動物體重排模塊,還用于計算碰撞代價Ec(p),計算非連貫性代價Et(p),根據(jù)計算視頻大綱代價,其中δ和λ是與α同號的非零實數(shù)。
本發(fā)明通過上述實施例,充分利用了認知心理學近年來在視覺理論方面的研究成果,通過在視頻大綱代價中考慮密度代價和變化代價等因素,避免了輸出視頻大綱中的運動物體雜亂無章,使其適合人眼觀察,方便用戶觀察到原視頻中的有效信息;而且在重排時進一步避免了運動物體的碰撞,并且盡量保持了物體原來的時序連貫性。
下面結(jié)合附圖對本發(fā)明的具體實施方式
作進一步詳細的說明,其中 圖1是產(chǎn)生視頻大綱的方法的流程圖。
圖2是運動方向劃分示意圖。
具體實施例方式 人眼對信息的反映是屬于認知心理學的研究范疇。認知心理學認為人具有視覺工作記憶(Visual Working Memory),其指對非言語視覺信息的短時存儲,是視覺信息接受進一步處理前的暫時存儲。對視覺工作記憶的研究主要集中對視覺客體信息在工作記憶中的存儲方式和容量的問題上。研究者通過實驗得出由于受限于視覺容量,人們只能追蹤4-5個目標項,存儲大約3個客體的運動方向信息。因此本發(fā)明結(jié)合此研究結(jié)果,提出了一種產(chǎn)生視頻大綱的方法和系統(tǒng),即能讓視頻大綱的視頻盡可能地短,又能讓觀察者很舒服的進行觀測。
本發(fā)明與現(xiàn)有技術(shù)類似,分為4個主要步驟運動物體檢測、運動物體跟蹤和軌跡生成、運動物體重排和視頻大綱生成。其中運動物體檢測、運動物體跟蹤和軌跡生成和融合前背景的視頻大綱生成都已經(jīng)有很多相關(guān)的研究,具體實現(xiàn)方法可以參考這些研究成果。本發(fā)明充分考慮人眼對于運動物體的感知能力,主要詳細介紹基于此的運動物體重排的改進方法。這個模塊的輸入是一個運動物體的集合,每個運動物體都包括以下參數(shù)在原視頻中的位置,其用開始幀位置和結(jié)束幀位置表示,在每幀中包含的像素點。模塊的輸出是每個運動物體在新視頻中的位置,其也用開始幀位置和結(jié)束幀位置表示。
假設(shè)B是所有的運動物體集合B={b1,b2,...,bn},其中bi表示B中的一個運動物體。設(shè)b是B中的一個運動物體,在原來的視頻中的位置為運動物體重排可以看作是找到一個時域上的映射M,對每一個物體b,把tb映射到生成的視頻中的某個位置根據(jù)本發(fā)明一個優(yōu)選實施例,使得下面的視頻大綱代價最小的映射M即是所求。
其中P是最后生成的視頻幀集合,P={p1,p2,...,pm};Ed是密度代價,Er是變化代價,Ec是碰撞代價,Et非連貫性代價;α、β、δ和λ是可由用戶根據(jù)試驗設(shè)定的參數(shù),用來調(diào)整各種代價的重要程度,且α、β、δ和λ是同號實數(shù),且α和β不是同時為零。上述根據(jù)本發(fā)明優(yōu)選實施例的視頻大綱代價綜合了密度代價、變化代價、碰撞代價和非連貫性代價4個因素。但是本領(lǐng)域技術(shù)人員應該理解只利用密度代價和變化代價計算視頻大綱,或在這兩個代價基礎(chǔ)上增加碰撞代價或非連貫性代價的計算也可同樣實現(xiàn)本發(fā)明的優(yōu)點。
下面逐個對各個代價函數(shù)進行描述說明。
由認知心理學可知,在最后生成的視頻中,運動物體的密度不能過大,否則超過了人眼的視覺容量就不能讓觀察者所有的物體都觀察到;但運動物體的密度也不能太小,密度太小就會使得最后生成的視頻中的運動物體稀疏,達不到縮短視頻的目的。所以采用密度代價控制輸出視頻幀中運動物體的密度。根據(jù)本發(fā)明的一個實施例,密度可以分為兩部分,一部分是物體數(shù)量上的密度,一部分是物體運動方向上的密度,并可按照如下方式計算密度代價。但本領(lǐng)域技術(shù)人員應該理解,下述密度代價計算方式并不是唯一的,可根據(jù)本發(fā)明所公開的密度代價的作用以其它方式計算。
Ed(p)=Edn(p)+Edd(p)(5) 其中Edn是物體數(shù)量密度代價, Edn(p)=|N(p)-Cn|(6) N(p)是視頻幀p中運動物體的個數(shù),Cn是視覺運動物體數(shù)量容量,優(yōu)選的取值4或5; Edd是物體方向密度代價,
Δ(p)是視頻幀p中所有物體運動的方向個數(shù),Cd是視覺運動物體方向容量,優(yōu)選的取值3; 把視野分為八個方向,每個方向45度,如附圖2所示。每個物體的運動方向都在這八個方向中的一個。
由于變化盲視的存在,觀察者對于新物體的出現(xiàn)很敏感,所以最后的重排中應該盡量減少同一時刻中出現(xiàn)新物體超過一個的機會。所以本發(fā)明的視頻大綱代價中考慮了變化代價。根據(jù)本發(fā)明的一個實施例,變化代價可如下式所示進行計算。但本領(lǐng)域技術(shù)人員應該理解,下述變化代價計算方式并不是唯一的,可根據(jù)本發(fā)明所公開的變化代價的功能以其它方式計算。優(yōu)選的,考慮到人眼需要500毫秒左右的記憶時間,因此新物體出現(xiàn)幀的后500毫秒的時間內(nèi)的幀都算是該新物體出現(xiàn)的時間。
在最后生成的視頻中,應該在每一幀中盡量減少碰撞的存在,也即盡量減少兩個物體重疊出現(xiàn),可以用碰撞代價函數(shù)來衡量最后碰撞帶來的影響。本發(fā)明計算碰撞代價其如下式所示,但本領(lǐng)域技術(shù)人員應該理解,下述碰撞代價計算方式并不是唯一的,可根據(jù)本發(fā)明所公開的碰撞代價的功能以其它方式計算,例如背景技術(shù)中所述的方法。
在生成的視頻中,還應該保持物體之間時序上的連貫性。如果在原視頻中物體a出現(xiàn)在物體b之前,在最后的生成的視頻中,物體a也出現(xiàn)在物體b之前,那么我們就說物體a和b保持了時序上的連貫性,否則就沒有保持時序上的連貫性。因此,可以用非連貫性代價函數(shù)來計算最后生成視頻中的非連貫性。根據(jù)本發(fā)明的一個實施例,可根據(jù)下式計算非連貫性代價,但本領(lǐng)域技術(shù)人員應該理解,下述非連貫性代價計算方式并不是唯一的,可根據(jù)本發(fā)明所公開的非連貫性代價的功能以其它方式計算,
其中sign(a)是表示a的正負符號。
對于本領(lǐng)域普通技術(shù)人員來說,本發(fā)明可以采用一種視頻大綱系統(tǒng)來實現(xiàn),該系統(tǒng)包含如下幾個部分 運動物體檢測模塊,用于進行運動物體的檢測; 運動物體跟蹤及軌跡生成模塊,用于進行運動物體的分割,并對每個運動物體進行跟蹤,生成各自的運動軌跡; 運動物體重排模塊,用于依上述方法計算視頻大綱,并依此重新排列運動物體軌跡; 視頻大綱生成模塊,用于融合背景和重排后的運動物體軌跡,生成視頻大綱。
應該注意到并理解,在不脫離后附的權(quán)利要求所要求的本發(fā)明的精神和范圍的情況下,能夠?qū)ι鲜鲈敿毭枋龅谋景l(fā)明做出各種修改和改進。因此,要求保護的技術(shù)方案的范圍不受所給出的任何特定示范教導的限制。
權(quán)利要求
1.一種產(chǎn)生視頻大綱的方法,包括如下步驟
1)對視頻幀進行運動物體檢測,得到運動物體和背景;
2)跟蹤所述運動物體,并生成所述運動物體的軌跡;
3)計算密度代價Ed(p),其中p是視頻幀;
4)計算變化代價Er(p);
5)根據(jù)計算視頻大綱代價,其中α和β是不同時為零的同號實數(shù),P是生成視頻幀集合,并根據(jù)所述視頻大綱代價重排所述運動物體的軌跡;
6)融合所述背景和所述重排后的運動物體軌跡,生成視頻大綱。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟4)后還包括步驟a)計算碰撞代價Ec(p);
且在所述步驟5)中根據(jù)計算所述視頻大綱代價,其中所述λ是非零實數(shù)且與α和β同號。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟4)后還包括步驟b)計算非連貫性代價Et(p);
且在所述步驟5)中根據(jù)計算所述視頻大綱代價,其中所述δ是非零實數(shù)且與α和β同號。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟a)后包括步驟b)計算非連貫性代價Et(p);
且在所述步驟5)中根據(jù)計算所述視頻大綱代價,其中所述δ是非零實數(shù)且與α和β同號。
5.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,所述步驟3)包括根據(jù)Ed(p)=Edn(p)+Edd(p)計算密度代價Ed(p),其中數(shù)量密度代價Edn(p)=|N(p)-Cn|,N(p)是視頻幀p中運動物體的個數(shù),Cn是視覺運動物體數(shù)量容量,物體方向密度代價
Δ(p)是幀p中所有物體運動的方向個數(shù),Cd是視覺運動物體方向容量。
6.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,所述步驟
4)包括根據(jù)
計算變化代價Er(p)。
7.根據(jù)權(quán)利要求2或4所述的方法,其特征在于,所述步驟a)包括根據(jù)
計算碰撞代價Ec(p)。
8.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述步驟b)包括根據(jù)
計算非連貫性代價Et(p)。
9.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述α、β、δ和λ取值范圍是[1,5]。
10.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述Cn是4或5。
11.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述Cd是3。
12.一種產(chǎn)生視頻大綱的系統(tǒng),包括
運動物體檢測模塊,其用于進行運動物體的檢測,得到運動物體和背景;
運動物體跟蹤及軌跡生成模塊,其用于跟蹤所述運動物體,并生成所述運動物體的軌跡;
運動物體重排模塊,其用于計算密度代價Ed(p),計算變化代價Er(p),根據(jù)計算視頻大綱代價,其中α、β是不同時為零的同號實數(shù),p是視頻幀,P是視頻幀集合,并依所述視頻大綱代價重排所述運動物體的軌跡;
視頻大綱生成模塊,用于融合所述背景和所述重排后的運動物體軌跡,生成視頻大綱。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述運動物體重排模塊,還用于計算碰撞代價Ec(p),計算非連貫性代價Et(p),根據(jù)計算所述視頻大綱代價,其中δ和λ是與α同號的非零實數(shù)。
全文摘要
本發(fā)明提供一種產(chǎn)生視頻大綱的方法,包括如下步驟對視頻幀進行運動物體檢測,得到運動物體和背景;跟蹤所述運動物體,并生成所述運動物體的軌跡;基于認知心理學方面的知識計算視頻大綱,并依此重排所述運動物體的軌跡;融合所述背景和所述重排后的運動物體軌跡,生成視頻大綱。該方法避免了輸出視頻大綱中的運動物體雜亂無章,使其適合人眼觀察,方便用戶觀察到原視頻中的有效信息;而且在重排時進一步避免了運動物體的碰撞,并且盡量保持了物體原來的時序連貫性。
文檔編號G06T15/70GK101262568SQ20081010458
公開日2008年9月10日 申請日期2008年4月21日 優(yōu)先權(quán)日2008年4月21日
發(fā)明者陳益強, 強 黃, 雯 紀 申請人:中國科學院計算技術(shù)研究所