專利名稱:產生摘要視頻的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及一種產生視頻摘要的方法和系統(tǒng),尤其是涉及一種用于密鑰幀抽取以及鏡頭邊界檢測的方法和系統(tǒng)。
本發(fā)明的背景及現(xiàn)有技術近來在個人計算機以及通訊方面的發(fā)展產生了很多種新型的設備,例如手持計算機,個人數(shù)字助理(PDAs),智能電話,車載計算設備以及使用戶獲取更多信息的計算機。
許多設備制造商,包括蜂窩電話,PDA以及手持計算機的制造商正在努力提高他們的設備的性能。這些設備正被賦予日歷工具、地址薄、記錄設備、全球定位設備、旅行和地圖工具、電子郵件客戶機以及網絡瀏覽器等的功能。結果,圍繞有關為這些設備提供各種信息的應用正在形成許多新的行業(yè)。但是,由于許多這些設備在顯示尺寸,存儲,處理能力以及網絡接入等方面的限制,設計允許這些設備獲取存儲及處理信息的應用就存在著很大的挑戰(zhàn)。
在這些發(fā)展的同時,在存儲、采集以及網絡技術的新發(fā)展導致產生了大量豐富的多媒體內容。結果,在可獲得的豐富內容與用戶設備獲取與處理這些內容的能力之間,存在著越來越多的不匹配。
在這一方面,基于所謂的密鑰幀的視頻摘要是管理與傳輸視頻信息的有效途徑。這一表示方法可在于1999年3月,在韓國漢城由C.Christopoulos等人發(fā)表的“MPEG-7應用通過內容再定位(repurporsing)與媒體轉換的通用接入”ISO/IEC/JTC1/SC29/WG11 M4433中描述的MPEG-7應用通用多媒體接入中使用,從而將視頻數(shù)據(jù)適用于用戶設備。
對于音頻—視頻內容,可利用密鑰幀抽取以適合客戶端的帶寬以及計算能力。例如,低帶寬或者低能力的客戶端,可能請求只傳送音頻信息,或者只傳送音頻信息與一些密鑰幀相合并的信息。高帶寬或者計算效率高的客戶端可能請求整個AV內容。另外的一個應用是快速瀏覽數(shù)字視頻。以固定的時間間隔跳過視頻幀減少了視頻觀看時間。但是這只是給出了整個視頻信號的一個隨意取樣。
下面將采用如下描述的定義鏡頭鏡頭被定義為一個攝像機在時間與空間上的一個連續(xù)動作中所捕捉的幀的一個序列,參看J.Monaco,“如何讀電影”,牛津出版社,1981年。
鏡頭邊界在鏡頭之間有一些不同類型的邊界。切換是發(fā)生在一個單獨的幀中的突然的鏡頭改變。漸變是亮度的逐漸改變變?yōu)橐粋€黑幀(淡出)或者以黑幀開始(淡入)。疊化發(fā)生在第一個鏡頭的圖像變得更模糊而第二個鏡頭的圖像變得更明亮的時候,在轉換中的幀表現(xiàn)為一個圖像疊加在另一個圖像之上。劃變發(fā)生在當?shù)诙€鏡頭的像素以規(guī)則的形狀例如從幀的左邊界開始的一條線取代第一個鏡頭中的那些像素的時候。
密鑰幀密鑰幀被定義在每一鏡頭里面。它們代表了根據(jù)主觀或者客觀測量,與鏡頭的內容信息最相關的少量的幀。
傳統(tǒng)的視頻摘要包括兩個步驟1.鏡頭邊界檢測。
2.密鑰幀抽取。
幀的許多特征,例如色彩,運動以及形狀都被用來做視頻摘要。在視頻摘要中標準的鏡頭邊界檢測的運算法則基于頻率分布圖?;陬l率分布圖的技術是魯棒而有效的,這可從以下文章中看出來,即A.Smeulders與R.Jain所著的“圖像數(shù)據(jù)庫以及多媒體搜索”,新加坡,1988,以及J.S.Boreczky與L.A.Rowe的“視頻鏡頭邊界檢測技術的比較”,圖象與視頻數(shù)據(jù)庫IV的存儲與恢復,IS&T/SPIE,1996年度國際研討會,關于電子圖像科學與技術,San Jose,CA,1996年2月。
這樣,兩個圖像的色彩頻率分布圖就可以被計算出來。如果這兩個分布圖之間的歐幾里得距離超過一定的門限值,就假設存在鏡頭邊界。但是,在該鏡頭邊界確定過程中,沒有使用有關運動的信息。因此,這種技術對攝像機以及物體運動來說,其場景存在缺陷。
而且,為提供一個視頻摘要密鑰幀必須從不同的鏡頭中抽取。傳統(tǒng)的密鑰幀抽取計算法則如在Wayne Wolf的“通過運動分析選擇密鑰幀”,ICASSP96的學報中描述的那樣,其中使用了光學流來確定鏡頭中本地運動最小值。這些本地運動最小值被確定與密鑰幀相對應。機械視覺和應用,1997年第10卷,第2期,51-65頁中在W.Xiong與J.C.M.Lee,以及R.H.Ma的“通過鏡頭分割與密鑰幀選擇的自動視頻數(shù)據(jù)構成”,采用了搜索—擴展運算法則,其中為了抽取下一個密鑰幀將先前密鑰幀作為參考。而且,IEEE ICIP 97學報,671-674頁,1997年R.L.Lagendijk、A.Hanjalic、M.Ceccarelli、M.Soletic與E.Persoon的“在SMASH系統(tǒng)中的視覺搜索”中,采用了鏡頭的累積動作以計算在每一鏡頭中分配的密鑰幀的數(shù)目與位置。兩幀之間的動作是通過頻率分布圖的差進行計算的。這種方法的一個優(yōu)點在于密鑰幀的數(shù)目可以預先指定。
發(fā)明概述本發(fā)明的一個目的是提供一種用于鏡頭邊界檢測以及密鑰幀抽取的方法和系統(tǒng),該方法和系統(tǒng)可用于視頻摘要并對攝像機與物體的運動來說是魯棒的。
通過用于密鑰幀抽取的方法和系統(tǒng)可以得到這一目的以及其他目的,在該抽取過程中產生了特征點的列表。該列表跟蹤了視頻序列的連續(xù)幀之間的每個特征點的軌跡。
在兩個連續(xù)的幀之間,當許多新的特征點進入列表的時候或者當許多特征點從列表中移走的時候,就判定發(fā)生了鏡頭分界。于是,就選擇一個密鑰幀作為特征點列表中的一幀,在該幀上,沒有或幾乎沒有特征點進入列表或從列表中出去。
通過使用這樣的從視頻序列中抽取密鑰幀的方法,圖象中的運動和/或攝像機的運動可以加以考慮。這種密鑰幀抽取運算法則相對攝像機的運動將具有更好的魯棒性。
附圖的簡要說明本發(fā)明將參照附圖詳細地描述,其中附
圖1a和1b是表明鏡頭邊界檢測的運算法則的流程圖。
附圖2是表明在連續(xù)的視頻幀中追蹤特征點的裝置的基本方框圖。
附圖3是表明在一個鏡頭中活動性變化的圖。
附圖4表明具有檢測的特征點的一系列連續(xù)幀。
發(fā)明詳述附圖1a和1b中示出了表明按照第一優(yōu)選實施例用于鏡頭邊界檢測的計算法則中在一次循環(huán)中執(zhí)行的步驟的流程圖。
這樣,參照附圖1a,首先在塊101中輸入第一幀,第一幀的特征點就被抽取,并作為輸入來預測下一幀的特征點。接下來,在塊103中,計算下一幀的特征點的預測值。之后,在塊105中輸入下一幀,在塊107中按照與塊101中使用的同樣的特征點的計算法則抽取下一幀的特征點。
有關抽取特征點的計算法則的描述有很多,這些算法都與拐角點相對應。例如,國際技巧與智力聯(lián)合委員會學報第7期,1981年,674-679頁B.Lucas與T.Kanade的“應用于立體視覺的重復圖像注冊技術”中就描述了一種這樣的方法。還有在IEEE高級會議,有關圖像處理1999年,S.K.Bhattacharjee的“使用終端終止小波的特征點的檢測”中描述的方法也可以使用。
接下來,在塊109中,執(zhí)行估測的特征點與塊107中抽取的特征點之間的數(shù)據(jù)關聯(lián)。接下來在塊111中執(zhí)行特征點的列表的更新。接下來,在塊113中執(zhí)行特征點列表上的每一個特征點的估測值的更新。最后,運算法則返回到塊103,在塊105中輸入下一幀從而執(zhí)行當前估測特征點與下一幀的特征點之間的數(shù)據(jù)關聯(lián)。
在附圖1a中,算法每次在塊111中更新特征點的列表時,都要檢測是否存在鏡頭邊界。這一鏡頭邊界檢測過程在附圖1b中示出。從而,首先在塊131中輸入更新的數(shù)據(jù)。接著在塊133中執(zhí)行特征點的當前列表與先前的特征點的列表之間的比較。
如果從特征點的前一個列表中消失的特征點的數(shù)目,或者如果在當前的特征點列表中的新的特征點的數(shù)目大于一個預設的門限值,程序前進到塊135中,在那里當前幀被表示為鏡頭邊界。
然后處理返回到塊131。另一方面,如果在塊133中判定出當前幀不與鏡頭邊界相對應,則程序直接返回到塊131。
在圖2中示出了附圖1a與1b聯(lián)合描述的使用鏡頭邊界檢測過程的密鑰幀抽取的計算法則的一次循環(huán)。在k時刻的一幀用P個特征點的序列xn(k),n=1,2,...,P表示,它包括*運動成分位置(x,y)和速度 *光學成分例如蓋博響應(f1,f2,f3,...)
這里表示在時刻k(或幀k)的特定的特征點的變量n的特征點數(shù)目P是時間的函數(shù)。
光學成分一般為例如蓋博響應或者高斯導數(shù)響應的濾波響應,通過利用圖像強度作為輸入而進計算,參看J.Opt.Soc.Am,第7卷,第5冊,第923-932頁,1990年5月,J.Malik,與P.Perona“利用初期視覺結構辯別文本”。在這里描述的運算法則中光學成分的使用可以提高特征點抽取中的范圍以及旋轉靈敏度,但用與不用光學成分,可以是隨意的。
特征矢量 也被稱為狀態(tài)矢量。它的成分匯總特征點n的當前以及過去歷史,從而預測它未來的軌跡。
特征點對應于象拐角點這樣包含大量特征的點。這些點相對來說較易跟蹤。
參照圖2,首先在特征點抽取階段的塊201中,在k+1時刻被表示為nth測量值矢量的矢量zn(k+1)=(x,y,f1,f2,...)被計算,n=1,2,...,P。接下來,在塊203中測量值預測階段,給出上一幀k的預測階段矢量 以估算 ,在A.Gelb.“應用最佳估測”,MIT出版社,1974,中描述的卡曼濾波可作為估測計算法則來使用。
接下來在塊205中,執(zhí)預測的測量值 與抽取的測量值zn(k+1)之間的關聯(lián),然后更新特征點列表。
Zn(k+1)={zn(1),zn(2),...,zn(k+1)表示到k+1時刻特征點的nth列表。最接近的臨近濾波器在Y.Bar-Shalom,T.E.Fortmann的“跟蹤與數(shù)據(jù)連接”,學院出版社,1988中有所描述,為了更新特征點列表可用作的數(shù)據(jù)關聯(lián)。估測的測量值矢量 ,來自于上一幀k的特征點列表zn(k),以及來自于當前幀k+1的測量值矢量zn(k+1)在數(shù)據(jù)關聯(lián)步驟中都被用作輸入。重要的是應當注意到特征點的數(shù)目P可以隨著時間而變化。這是由于每一數(shù)據(jù)關聯(lián)周期都包括特征點的開始,特征點的終止以及特征點的保持。
下面給出了一個用于特征點的不同處理類型的定義。
1.特征點開始當新的特征點被抽取的時候產生新的特征點。
2.特征點終止當特征點不再被抽取的時候,移走特征點。
3.特征點保持當相應的特征點被抽取的時候,更新特征點。
最后,當許多特征點同時終止(例如在切換,淡入,疊化,或者劃變的情況下)或者開始(例如在切換,淡出,疊化,或者劃變的情況下)的時候,該幀被確定為相應于一個鏡頭邊界。
此外,為了檢測鏡頭邊界定義一個對特征點的變化率的活動性量度。這樣的一個量度值在下文中用活動性變化表示。這個活動性量度值依賴于在連續(xù)的幀之間的特征點結束或者開始的數(shù)目。例如,測量值可以被定義為以百分比計算的特征點結束以及開始之間的最大值。開始特征點的百分值是新的特征點的數(shù)目除以當前幀的全部特征點的數(shù)目。終止特征點的百分值是移走的特征的數(shù)目除以前一幀中的全部特征點的數(shù)目。
可以設定一個合適的門限值,如果終止特征點與開始特征點之間的最大值高于門限值,就確定發(fā)生了一個鏡頭邊界。當然其它的活動性變化的定義也是可能的。
在附圖4中示出了一個連續(xù)序列幀k(537),k+1(540),k+2(541),k+3(542)中檢測的特征點。在幀k+1(540)中來自于幀k(537)中的大部分特征點都被檢測到。同時,幾乎沒有點停止存在且只有少數(shù)的點第一次開始出現(xiàn)。在幀k+3(542),大部分特征點都消失了。因此該幀被確定為相應于鏡頭邊界(切換)。
實驗表明一個鏡頭包含具有最重要的信息內容的一系列連續(xù)的穩(wěn)定狀態(tài)。如圖3所示,在兩個狀態(tài)之間的轉換相應于活動性變化的峰值。在圖3中,示出的活動性變化是時間(或者幀)的函數(shù)。穩(wěn)定狀態(tài),即具有低活動性變化的平坦部分被檢測出來并用于抽取密鑰幀。
再次參照附圖4,在幀k+1(540)中,幀k(537)中的大部分特征點被檢測到。同時,幾乎沒有點停止存在,并且只有少量點開始第一次出現(xiàn)。因此,幀k+1可以是一個合適的密鑰幀。
這樣,一旦使用上述描述的運算法則確定了鏡頭邊界,在鏡頭邊界之間的一個或幾個本地最小值就被抽取出來作為密鑰幀。已經示出本地最小值發(fā)生在活動性變化為常數(shù)的位置。因此沒有必要抽取本地最小幀本身,只要活動性變化為常數(shù)的幀都可以有一個好的結果。但是,相應于鏡頭邊界之間活動性變化中本地最小值的幀會提供最好的結果。
這樣,例如,電影導演可以使用攝像機的移動(平移,變焦)來表明兩個事件之間的連接。在演員A與演員B彼此說話的一個穩(wěn)定的背景前成像一個鏡頭。當演員A講話的時候,攝像機聚焦在A的身上。這相應于時間上的低活動性(抽取的特征點沒有較大的變化)。當演員B開始說話的時候,攝像機移向他。這一平移相應于幀上的高活動性。然后,當攝像機逐漸停留在演員B上的時候,活動性的值再次降為低的值。密鑰幀是從低活動性的幀中選擇出來的,即圖3示出的平坦的部分。
壓縮視頻的應用會使運算法則更為快速。但是,為了實現(xiàn)多目標跟蹤而壓縮的域中可用的信息是有限的。折衷的辦法是只解碼視頻序列的I幀。然后I幀就可以應用于視頻摘要的運算法則當中,如前所述。
該選擇是由三個因素激發(fā)的。首先,I幀頻繁地發(fā)生,例如每12幀中有一個I幀。由于一個鏡頭平均持續(xù)5-23秒,該幀的子抽樣是可以接受的,參看例如D.Colla與G.Ghoma的“廣播電視中的圖像活動特征”,IEEE trans,通訊,第26卷第1201-1206頁,1976。第二,這里描述的運算法則能夠處理兩個連續(xù)幀之間的較大的移動,這有賴于卡曼濾波的使用。第三,可以用JPEG編碼或者其它靜態(tài)圖像格式編碼的I幀能夠被獲取,而與視頻序列中的其它幀(例如B-,P-幀)無關。
權利要求
1.一種從視頻信號中抽取密鑰幀的方法,其特征在于下述步驟從視頻信號幀中抽取特征點,跟蹤連續(xù)幀之間的特征點,測量連續(xù)幀之間的新的或者消失的特征點數(shù)目,當新的或者消失的特征點數(shù)目高于一個特定的門限值的時候確定視頻信號中的鏡頭邊界,當某一幀位于兩個鏡頭邊界之間,該鏡頭邊界新的或者消失的特征點符合某一標準時,該幀選擇為密鑰幀。
2.根據(jù)權利要求1所述的方法,其特征在于門限值被定義為以百分比計算的終止與開始的特征點之間的最大值,這里開始特征點的百分比為新的特征點數(shù)目除以當前幀的全部特征點數(shù)目,終止特征點的百分比為移走的特征點的數(shù)目除以前一幀的全部特征點的數(shù)目。
3.如權利要求1-2中任何一個所述的方法,其特征在于密鑰幀是在視頻信號的一些連續(xù)幀中新的或者消失的特征點為常數(shù)的幀。
4.如權利要求1-2中任何一個所述的方法,其特征在于密鑰幀是新的或者消失的特征點與兩個鏡頭之間的本地最小值相應或者其數(shù)目低于一個特定的預置門限值的那一幀。
5.如權利要求1-4中任何一個所述的方法,視頻信號是一個包括I幀的壓縮視頻信號,其特征在于只有I幀被解碼并且用作確定鏡頭邊界以及選擇密鑰幀的輸入幀。
6.如權利要求1-5中任何一個所述的方法,其特征在于視頻信號幀中的特征點既使用視頻信號的運動成分又使用光學成分抽取。
7.一種在視頻信號中檢測鏡頭邊界的方法,其特征在于包括以下步驟從視頻信號幀中抽取特征點,跟蹤連續(xù)幀之間的特征點,測量連續(xù)幀之間的新的或者消失的特征點數(shù)目,當新的或者消失的特征點數(shù)目高于一個特定的門限值的時候確定視頻信號中的鏡頭邊界。
8.一種如權利要求7所述的方法,其特征在于門限值被定義為以百分比計算的終止與開始的特征點之間的最大值,這里開始特征點的百分比為新的特征點數(shù)目除以當前幀的全部特征點數(shù)目,終止特征點的百分比為移走的特征點的數(shù)目除以前一幀的全部特征點的數(shù)目。
9.如權利要求7-8中的任何一個所述的方法,其特征在于視頻信號幀中的特征點既使用視頻信號的運動部分又使用光學部分來抽取。
10.如權利要求7-9中的任何一個所述的方法,視頻信號是一個包括I幀的壓縮視頻信號,其特征在于只有I幀被解碼并且用作確定鏡頭邊界以及選擇密鑰幀的輸入幀。
11.一種用于從視頻信號中抽取密鑰幀的設備,其特征在于用于測量連續(xù)幀之間的新的或者消失的特征點的數(shù)目的裝置,用于當新的或者消失的特征點的數(shù)目高于一個特定的門限值的時候確定視頻信號中的鏡頭邊界的裝置,用于當某一幀位于兩個鏡頭邊界之間,其中新的或者消失的特征點的數(shù)目符合一個特定的標準時,將該幀選為密鑰幀的裝置。
12.如權利要求11所述的設備,其特征在于門限值被定義為以百分比計算的終止與開始的特征點之間的最大值,這里開始特征點的百分比為新的特征點數(shù)目除以當前幀的全部特征點數(shù)目,終止特征點的百分比為移走的特征點的數(shù)目除以前一幀的全部特征點的數(shù)目。
13.如權利要求11-12中的任何一個所述的設備,其特征在于密鑰幀選擇裝置選擇視頻信號的一些連續(xù)幀中新的或者消失的特征點為常數(shù)的幀。
14.如權利要求11-12中的任何一個所述的設備,其特征在于密鑰幀選擇裝置選擇新的或者消失的特征點與兩個鏡頭之間的本地最小值相應或者其數(shù)目低于一個特定的預置門限值的那一幀。
15.如權利要求11-14中的任何一個所述的設備,視頻信號是一個包括I幀的壓縮視頻信號,其特征在于只有I幀被解碼并且用作確定鏡頭邊界以及選擇密鑰幀的輸入幀。
16.如權利要求11-15中的任何一個所述的設備,其特征在于視頻信號幀中的特征點的裝置既使用視頻信號的運動成分又使用光學成分來抽取。
17.一種在視頻信號中檢測鏡頭邊界的設備,其特征在于用于檢測在連續(xù)的幀之間新的或者消失的特征點的數(shù)目的裝置,用于當新的或者消失的特征的數(shù)目高于一個預定的門限值的時候確定視頻信號中的鏡頭邊界的裝置。
18.如權利要求17所述的設備,其特征在于門限值被定義為以百分比計算的終止與開始的特征點的最大值,這里開始特征點的百分比為新的特征點數(shù)目除以當前幀的全部特征點數(shù)目,終止特征點的百分比為移走的特征點的數(shù)目除以前一幀的全部特征點的數(shù)目。
19.如權利要求17-18中任何一個所述的設備,其特征在于視頻信號幀中的特征點的裝置既使用視頻信號的運動部分又使用光學部分來抽取。
20.如權利要求17-19中任何一個所述的設備,視頻信號是一個包括I幀的壓縮視頻信號,其特征在于只有I幀被解碼并且用作確定鏡頭邊界以及選擇密鑰幀的輸入幀的裝置。
21.一種用于視頻摘要的系統(tǒng),包括根據(jù)權利要求11-20中的任一個的設備。
全文摘要
描述了一種用于視頻摘要的運算法則。該法則包括光學與運動的信息。根據(jù)該運算法則特征點之間的對應關系被用于檢測鏡頭邊界以及用于選擇密鑰幀。這樣,特征點消失或者出現(xiàn)的比率被用于表示鏡頭轉換是否發(fā)生。密鑰幀選擇為活動性變化低的幀。
文檔編號G06T7/20GK1365574SQ0080893
公開日2002年8月21日 申請日期2000年6月7日 優(yōu)先權日1999年6月18日
發(fā)明者Y·阿布德堯伊德, T·埃布拉希米, C·克里斯托普洛斯, I·馬斯伊瓦斯 申請人:艾利森電話股份有限公司