專利名稱:處理和瀏覽所提供的視頻/音頻信號的方法和設備的制作方法
技術領域:
本發(fā)明涉及視頻/音頻信號處理方法和視頻/音頻信號處理設備,并且提供一種用于此的有效計算方法以簡化(facilitate)諸如(但不限于)來自MPEG壓縮領域的攝像運動提取和視頻概括(video summarization)的應用。
背景技術:
隨著視頻存儲裝置容量的增加,出現(xiàn)了為用戶瀏覽方便進行視頻內(nèi)容的構建和概括的需要。元數(shù)據(jù)(即,關于數(shù)據(jù)的數(shù)據(jù))使視頻瀏覽成為可能,該元數(shù)據(jù)最好被自動提取。
圖1描述了從在像素域中的MPEG(運動圖像專家組)壓縮視頻提取與元數(shù)據(jù)有關的運動的現(xiàn)有技術。MPEG視頻至像素域的全解碼(Full decoding)由MPEG解碼單元11執(zhí)行。運動估計單元12(基于本領域技術人員都知道的光流計算或塊匹配)從視頻流的像素表示中計算運動矢量。參數(shù)和攝像運動計算單元13從這些運動矢量中計算涉及元數(shù)據(jù)的運動。
對于像素域中的攝像運動估計,有Ingemar J.Cox,Sebastien Roy的專利“US5,751,8385/1998“在兩圖像幀382/107間的攝像運動的校正(Correction ofc amera motion between two image frames382/107)”以及出版物。
在Yi Tong Tse和Richard L.Baker的“視頻壓縮的全局縮放/全景估計以及補償(Global Zoom/Pan estimation and compensation for video compression)”ICASSP 91,1991,2725-2728頁中估計了視頻編碼的攝像縮放和全景。但是,該方法在不是已建模的那些攝像運動類型的情況下可能產(chǎn)生不可靠的結果。
在SPIE的1992年第1818卷的視覺通信和圖像處理部分1522-1530頁中發(fā)表的A.Akutsu,Y.Tonomura,H.Hashimoto,Y.Ohha的“使用運動矢量進行視頻檢索(Video indexing using motion vectors)”中分析了使用霍夫變換(Hough Transform)像素域中的攝像運動,然而所描述的方法沒有提取攝像運動量。
在IEEE Trans.CSVT的1994年6月卷4第3冊的288-296頁中發(fā)表的Jong-II Park,Nobuyuki Yagi,Kazumasa Enami,Kiyoharu Aizama,MitsutoshiHatori的“對基于視頻編碼模型的圖像序列中的攝像參數(shù)的估計(Estimationof Camera Parameters from Image Sequence for model based video coding)”以及在“信號處理圖像通信”的1996年第9卷43-53頁中發(fā)表的Jong-II Park,Choong Woong Lee的“從視頻組成的圖像序列中進行攝像參數(shù)的強健(robust)估計(Robust estimation of camera parameters from image sequence for videocomposition)”中發(fā)現(xiàn)了使用紋理傾斜度的像素域中的特征點,并確定了這些特征點的運動的攝像運動。
在“信號處理圖像通信”的1996年第9卷43-53頁中發(fā)表的Jong-II Park,Choong Woong Lee的“從視頻組成的圖像序列中進行攝像參數(shù)的強健估計(Robust estimation of camera parameters from image sequence for videocomposition)”中使用了非正常值拒絕方法使得在像素域中的攝像運動估計更強健。
在1995年的Proc.ICPC的406-409頁中發(fā)表的Y.P.Tan,S.R.Kuilarni,PJ.Ramadge的“攝像運動參數(shù)估計的新方法(A new method for camera motionparameter estimation)”中描述了根據(jù)攝像運動的小總量的假設的像素域中的攝像運動估計的回歸最小二乘法。
在“信號處理圖像通信”的1996年第8卷295-307頁發(fā)表的Philippe Joly,Hae-Kwang Kim的“使用時空圖像進行攝像工作和視頻微分割的有效自動分析(Efficient automatic analysis of camera work and microsegmentation of videousing spatiotemporal images)”中基于蘇貝爾算子(Sobel operator)或標準邊緣檢測單元以及邊緣至線條圖形的時空投射描述了像素域中的攝像運動估計算法。使用霍夫變換分析線條圖形以提取運動方向中的邊緣。
在荷蘭政治地理學的“線條識別”的1997年第30卷第4冊593-606頁發(fā)表的M.V.Srinivasan,S.Venkatesh,R.Hosi的“從視頻序列中定性估計攝像運動參數(shù)(Qualitative estimation of camera motion parameters from videosequence)”中,從像素域中的未壓縮視頻中提取攝像運動參數(shù),其中分別提供攝像全景、傾斜、旋轉和縮放的總量。
在ICASSP 99,1999中發(fā)表的Richard R.Schultz,Mark Galford的“通過使用匹配特征點選擇的自動塊進行的投射變換的多幀綜合(Multiframeintegration via the projective transform with automated block matching featurepoint selection)”建議了一種基于非線性投影變換模型的像素域中的自像素分辨率圖像注冊算法以便計算攝像平移、旋轉、縮放、全景和傾斜。
在IEEE圖像編碼論文集,PCS99,1999中發(fā)表的R.S.Jasinschi,T.Naveen,P.Babic-Vovk,A.J.Tabatabai的“視在3-D攝像速度提取及其應用(Apparent 3-Dcamera velocity extraction and its Applicants)”中描述了用于數(shù)據(jù)庫查詢和子畫面(拼接)應用的像素域中的攝像速度估計。
由于視頻內(nèi)容的巨大存儲量,出現(xiàn)了越來越多的采用MPEG-1/MPEG-2或MPEG-4格式壓縮的視頻材料。但是,針對像素域而開發(fā)的攝像運動估計算法卻不是能夠直接應用到MPEG壓縮領域的。因此,需要MPEG壓縮位流的時間耗費解碼以及像素域中的計算需求運動估計,并且必須執(zhí)行攝像運動估計(圖1)。
而且,為了避開像素域中的MPEG視頻解壓縮和攝像運動估計的計算負擔,已經(jīng)建議了在壓縮域中執(zhí)行的攝像運動估計。先前的對于壓縮域中的攝像運動估計是基于使用MPEG運動矢量并將它們匹配到描述攝像運動的參數(shù)運動模型中的。
圖2描述了MPEG壓縮視頻中的涉及元數(shù)據(jù)的運動的提取的本領域的當前狀態(tài)。MPEG視頻分析由MPEG位流分析單元21執(zhí)行。從該分析的位流中,單元22提取運動矢量并將其傳遞到參數(shù)和攝像運動計算單元23。
在1997年2月的關于“圖像和視頻數(shù)據(jù)庫V的存儲和檢索”的SPIE會議的論文集第3022卷200-211頁中發(fā)表的V.Kobla,D.Doermann,K-I.Lin,C.Faloutsos的“使用MPEG視頻的DCT和運動矢量信息的壓縮域視頻技術(Compressed domain video indexing techniques using DCT and motion vectorinformation in MPEG video)”中通過使用方向柱狀圖從MPEG壓縮域運動矢量中確定“流矢量”以便確定全面的轉化運動方向。但是這個基本模型不能檢測攝像縮放和旋轉。
在ICIP,神戶,1999上發(fā)表的Roy Wang,Thomas Huang的“MPEG域的快速攝像分析(Fast Camera Motion Analysis in MPEG domain)”中描述了在MPEG域中的快速運動分析算法。該算法是基于使用來自P-幀的MPEG運動矢量和基于來自B幀的為獲得I幀的內(nèi)插運動矢量。參數(shù)攝像運動估計的非正常值拒絕最小二乘算法被用于加強從這些運動矢量中的攝像運動估計的可靠性。
但是,使用攝像運動估計的MPEG運動矢量具有幾個缺點。
首先,在壓縮的MPEG流中的運動矢量不表示真實的運動,但選擇這些運動矢量是為了在編碼器上快速和位速率的有效壓縮,并且這些運動矢量依賴于編碼器廠商的編碼策略,該編碼策略是沒有被MPEG標準化的,可能是截然不同的。例如,與使用具有增加了的搜索范圍的運動估計算法的高位速率和高質量MPEG編碼相比,為了快速編碼而采用低復雜運動估計算法。比較Kluwer學院出版社,1999年6月出版的Peter Kuhn的“MPEG-4運動估計的算法、復雜分析和VLSI-架構(Complexity Analysis and VLSI-Architecturesfor MPEG-4 Motion Estimation)”,ISBN 792385160。
而且,使用MPEG運動矢量進行攝像運動估計的水平較大地依賴于MPEG的圖像組(GOP)結構、視頻采樣速率(例如,每秒30幀)以及其他的因素,并且因此對于精確攝像運動估計來說是不可靠的。例如,市場上的某些MPEG編碼器設備對具有快速運動的序列動態(tài)地改變GOP結構。
而且,MPEG運動矢量(特別是小的運動矢量)常常被噪聲極大地影響并且可能不可靠。
而且,在使用某些快速運動估計算法使用受限運動估計搜索區(qū)域的情況下,可能不存在長的運動矢量。
而且,僅MPEG視頻的I幀根本不包括運動矢量。因此,這里是不能使用基于使用MPEG運動矢量的算法。僅MPEG視頻的I幀是有效的MPEG視頻格式,由于可以進行幀精確剪切使得該MPEG視頻格式被用于視頻編輯中。在該領域中,涉及元數(shù)據(jù)的運動是很重要的,例如,用于確定該攝像工作。
而且,一些諸如DV和MJPEG的壓縮視頻格式是基于象MPEG的相似的DCT(離散余弦變換)結構的,但是不包括運動信息。因此對于這些情況不使用基于包含在壓縮流中的運動矢量的攝像運動估計算法。
而且,從B幀中進行運動矢量內(nèi)插獲得I幀對于快速攝像或對象運動的情況是失敗的,在這些情況中出現(xiàn)了新圖像內(nèi)容。
發(fā)明內(nèi)容
由于本領域的上述狀態(tài),本發(fā)明的一個目的在于提供用于從壓縮的視頻中提取和瀏覽涉及元數(shù)據(jù)的運動的一種視頻/音頻信號處理方法和一種視頻/音頻信號處理設備。
在本發(fā)明中,運動元數(shù)據(jù)的主要應用包括視頻概括、攝像運動表示以及基于視頻瀏覽的運動。
根據(jù)本發(fā)明的視頻/音頻信號處理方法適用于處理所提供的視頻/音頻信號以實現(xiàn)上述目的。該設備包括步驟提取至少一個表示在所述的視頻/音頻信號的壓縮域中的所述視頻/音頻信號的特性的壓縮域特征點;對在所述提取步驟提取的特征點執(zhí)行運動估計;并通過預設數(shù)量的構成所述視頻/音頻信號的幀跟蹤與運動矢量有關的特征點。
在根據(jù)本發(fā)明的視頻/音頻信號處理方法中,在壓縮域中提取視頻/音頻信號的特征點,執(zhí)行所提取的特征點的運動估計,并且跟蹤與運動矢量有關的特征點。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理設備適用于處理所提供的視頻/音頻信號以實現(xiàn)上述目的。該設備包括提取裝置,提取至少一個表示在所述的視頻/音頻信號的壓縮域中的所述視頻/音頻信號的特性的壓縮域特征點;運動估計裝置,對在所述提取裝置提取的特征點執(zhí)行運動估計;以及特征點跟蹤裝置,通過預設數(shù)量的構成所述視頻/音頻信號的幀跟蹤與運動矢量有關的特征點。
在根據(jù)本發(fā)明的視頻/音頻信號處理設備中,在壓縮域中提取壓縮域特征點的裝置提取視頻/音頻信號的特征點,執(zhí)行特征點的運動估計的裝置執(zhí)行所提取的特征點的運動估計,并且跟蹤特征點的裝置跟蹤與運動矢量有關的特征點。
而且,一種視頻/音頻信號處理方法被用于處理和瀏覽所提供的視頻/音頻信號以便實現(xiàn)上述目的。該方法包括步驟分級建立攝像運動轉換圖,其中圖形建立步驟包括步驟提供具有至少一個主攝像運動轉換圖和具有多個表示其他的具有用于視頻序列說明的轉換路徑的攝像運動的圖形布局;通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動視頻序列的主幀(keyframe)進行瀏覽;以及通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動的圖形表示進行瀏覽。
在根據(jù)本發(fā)明的視頻/音頻信號處理方法中,分級建立攝像運動轉換圖,執(zhí)行通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動視頻序列的主幀進行的瀏覽,以及執(zhí)行通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動的圖形表示進行的瀏覽。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理設備適用于處理和瀏覽所提供的視頻/音頻信號以便實現(xiàn)上述目的。該設備包括建立裝置,用于分級建立攝像運動轉換圖,其中圖形建立裝置包括步驟提供具有至少一個主攝像運動轉換圖和具有多個表示其他的具有用于視頻序列說明的轉換路徑的攝像運動的圖形布局;瀏覽裝置,通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動視頻序列的主幀,進行瀏覽;以及瀏覽裝置,通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動的圖形表示進行瀏覽。
在根據(jù)本發(fā)明的視頻/音頻信號處理設備中,通過建立圖的裝置分級建立攝像運動轉換圖,第一瀏覽裝置執(zhí)行通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動視頻序列的主幀進行的瀏覽,以及第二瀏覽裝置執(zhí)行通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動的圖形表示進行的瀏覽。
并且,根據(jù)本發(fā)明的視頻/音頻信號處理方法適用于提取用于瀏覽的合成視頻選擇的分級分解以便實現(xiàn)上述目的。該方法包括步驟識別視頻;從表示每一視頻段的所述視頻拍攝(shot)中收集主幀;根據(jù)攝像運動或全面的運動信息分類主幀的收集;以及建立視頻的圖形表示,圖形表示是基于所述分類步驟的結果的、瞬間的以及與視頻拍攝的每一部分有關的攝像運動信息,其中所述的圖形表示建立步驟包括由節(jié)點表示視頻拍攝的每一類別的步驟。
在根據(jù)本發(fā)明的視頻/音頻信號處理方法中,識別視頻,從視頻拍攝中收集主幀,分類所收集的主幀,并建立視頻的圖形表示。
而且,在根據(jù)本發(fā)明的視頻/音頻信號處理設備是適用于提取用于瀏覽的合成視頻選擇的分級分解以獲得上述目的。該設備包括識別裝置,用于識別視頻;收集裝置,用于從表示每一視頻段的所述視頻拍攝中收集主幀;分類裝置,用于根據(jù)攝像運動或全面的運動信息分類主幀的收集;以及建立裝置,用于建立視頻的圖形表示,圖形表示是基于所述分類步驟的結果的、瞬間的以及與視頻拍攝的每一部分有關的攝像運動信息,其中所述的圖形表示建立步驟包括由節(jié)點表示視頻拍攝的每一類別的步驟。
在根據(jù)本發(fā)明的視頻/音頻信號處理設備中,識別視頻的裝置識別視頻,收集主幀的裝置從視頻拍攝中收集主幀,分類的裝置分類所收集的主幀,并且建立視頻的圖形表示的裝置建立視頻的圖形表示。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理方法適用于處理所提供的視頻/音頻信號以實現(xiàn)上述目的。該方法包括步驟提取至少一個表示在所述的視頻/音頻信號的壓縮域中的所述視頻/音頻信號的特性的壓縮域特征點。
在根據(jù)本發(fā)明的視頻/音頻信號處理方法中,在壓縮域中提取視頻/音頻信號的特征點。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理設備適用于處理所提供的視頻/音頻信號以實現(xiàn)上述目的。該裝置包括提取裝置,用于在所述視頻/音頻信號的壓縮域中提取表示所述視頻/音頻信號的特性的至少一個壓縮域特征點。
在根據(jù)本發(fā)明的視頻/音頻信號處理設備中,在壓縮域中由提取壓縮域特征點的裝置提取視頻/音頻信號的特征點。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理方法適用于處理所提供的視頻/音頻信號。該方法包括步驟對在所述視頻/音頻信號的壓縮域中的表示所述視頻/音頻信號的特性的至少一個特征點執(zhí)行運動估計。
在根據(jù)本發(fā)明的視頻/音頻信號處理方法中,執(zhí)行所提取特征點的運動估計。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理設備適用于處理所提供的視頻/音頻信號。該設備包括運動估計裝置,用于對在所述視頻/音頻信號的壓縮域中的表示所述視頻/音頻信號的特性的至少一個特征點執(zhí)行運動估計。
在根據(jù)本發(fā)明的視頻/音頻信號處理設備中,由執(zhí)行運動估計的裝置執(zhí)行所提取特征點的運動估計。
圖1描述了運動元數(shù)據(jù)提取的現(xiàn)有技術;圖2描述了運動元數(shù)據(jù)提取的其他的現(xiàn)有技術;圖3描述了視頻瀏覽和元數(shù)據(jù)提取單元的概略圖;圖4給出了對塊和宏塊的命名協(xié)定;圖5給出了壓縮域特征點運動估計概念的概略圖;圖6示出了元數(shù)據(jù)提取單元的數(shù)據(jù)流程圖;
圖7說明了MPEG位流分析、DCT-系數(shù)提取以及運動矢量提取單元;圖8示出了使用在選擇塊中應用的IDCT算法的特征點注冊和運動估計的控制流;圖9示出了塊關聯(lián)度量的計算流;圖10描述了在DCT-域中的特征點選擇和運動估計的控制流;圖11示出了一個8×8DCT-塊的DCT系數(shù)編號方式;圖12示出了視頻概括的特征點壽命的數(shù)據(jù)結構;圖13說明了攝像運動方向;圖14給出了視頻瀏覽單元的一個例子的概略圖;圖15示出了具有攝像全景、縮放和旋轉主幀例子的視頻瀏覽單元;圖16給出了視頻瀏覽單元的圖形表示。
具體實施例方式
現(xiàn)在將參考
根據(jù)本發(fā)明的實施例。
在本發(fā)明中公開了一種新的壓縮域特征點選擇和在多種應用情況下的運動估計算法,包括攝像運動估計、對象運動估計、視頻概括、視頻代碼轉換、運動活動測量、視頻場景檢測以及視頻主幀檢測。
用于對象識別、對象跟蹤、全面運動估計以及視頻概括的現(xiàn)存的特征點選擇方法被應用于像素域中,因此需要消耗時間來進行壓縮視頻位流的解碼。
公開的特征點選擇算法直接工作在壓縮域中,并且因此避免了計算的浪費和解碼壓縮的視頻流所消耗的時間。壓縮域預選擇機構確定后選特征點極大地減小了計算復雜性。
特征點選擇算法采用了包含在DCT(離散余弦變換)系數(shù)和MPEG(運動圖像專家組)運動矢量(當存在時)中的紋理信息,并因此能夠直接應用到基于DCT的壓縮靜止圖像(如運動JPEG(聯(lián)合圖象專家組,)、MIPEG)和壓縮的視頻(如MPEG-1/MPEG-2/MPEG-4、ITU-T(國際電信同盟-電信標準部門)推薦的H.261、H.263、H.26X、或DV格式)。
本發(fā)明公開的內(nèi)容,描述了在壓縮域(例如使用MPEG-1)中的特征點的提取,和利用在MPEG壓縮域中存在的運動矢量的這些特征的運動估計以及預測的誤差能量。
而且,本發(fā)明公開了使用在壓縮域中的這個特征點選擇算法的下列應用。
(1)對象識別和分類(2)用于跟蹤的對象運動估計(使用例如參數(shù)運動模型或卡爾曼濾波器)(3)全面(攝像)運動估計(使用參數(shù)攝像運動模型)(4)使用由該方法提取的運動矢量進行運動活動計算(5)視頻代碼轉換(根據(jù)幀中特征點的位置確定感興趣區(qū)域,并通過適當?shù)牧炕骺刂茖Ω信d趣區(qū)域給出較多的位,使用攝像運動參數(shù)以便于再編碼或為子序列編碼提供運動矢量)(6)視頻場景中前景/背景分割(通過跟蹤特征點的壽命,確定特征點的全面運動和對象運動)(7)視頻概括和視頻場景檢測(通過跟蹤特征點的壽命。當大量先前存在的特征點消失并且大量新的特征點出現(xiàn)時,那么這是一個新場景開始的征候,可以用做視頻概括)(8)視頻主幀檢測(從部分視頻流中檢測出主幀,其中,隨著時間過去,在視頻流中大量的特征點沒有改變)(9)視頻瀏覽(使用特征點和涉及根據(jù)上述分級視頻表示的方法的特征點和主幀的對象/全面運動)(10)視頻拼接(通過合并幾個視頻幀的較小的部分以生成一個單個大的圖像。這里特征點用做參考點)圖3描述了元數(shù)據(jù)提取和視頻瀏覽單元的概略圖。所描述的設備包括存儲介質31(包括光的、磁的、電的和機電的介質,如CD-ROM、DVD-RAM、DVD-ROM、視頻磁帶、硬盤、RAM、ROM等)、提供元數(shù)據(jù)MD30至視頻瀏覽單元35的元數(shù)據(jù)提取單元36。元數(shù)據(jù)提取單元36和視頻瀏覽單元35的實施可以根據(jù)可編程的計算機34,但也可能是其他的裝置。視頻瀏覽單元35由和用戶人33交互的用戶接口單元32控制。
現(xiàn)在將詳細描述第一優(yōu)選實施例。
這部分首先給出了全面的概覽,并接著作為第一優(yōu)選實施例,描述了在壓縮域中的特征點選擇和運動估計的基本方法。另一個優(yōu)選實施例描述了和第一優(yōu)選實施例不同的方法,以及該特征點和運動估計方法的應用。
圖4給出了16×16像素大小的MPEG宏塊(MB)和它們的8×8像素大小的塊的符號。參考幀一般說是,一個在和當前時間相比的不同時間點上的幀。一般來說,在上下文中假設參考幀暫時位于當前幀的后面。在MPEG-4的情況下,參考MBcur是當前(cur)幀或當前視頻對象平面(VOP)的MB,和在MPEG-4的情況中,MBref是參考(ref)幀或參考視頻平面(VOP)的MB,與當前幀或VOP比較,這些MB與不同時間場合有關。在本發(fā)明中,術語“幀”還包括在MPEG-4中使用的任意形狀對象(VOP)。MV是運動矢量,它在x方向和y方向上的分量分別為MVx和MVy。
這里使用的“幀內(nèi)”是用于在MPEG和H.26X標準和推薦中的內(nèi)編碼宏塊,以及用于DCT的僅在DV格式和MJPEG中的編碼塊。“P-型”用于在MPEG和H.26X標準和推薦中的預測編碼宏塊,并且“B-型”用于在MPEG和H.26X標準和推薦中的雙向預測宏塊。
圖5給出了特征點提取和運動估計方法的一般概略圖。特征點(或該例子中的邊緣點)是例如在亮度、顏色或紋理上具有突然地改變的地方,并且因此適用于運動估計和運動跟蹤。51描述了在t=t0的當前幀中具有一些邊緣點的視頻對象,例如這些邊緣點中的一個在位置52。對于在t=t1的參考幀,該邊緣點52(在t=t1的參考幀中重新編號為54)移動到位置55。該移動和運動矢量53有關。為了找到該運動矢量,在預測運動矢量周圍的搜索區(qū)域56中執(zhí)行運動估計技術。本發(fā)明公開的一些方法是如何在壓縮域中尋找特征點的技術以及在壓縮域中的兩個有關的特征點之間有效地計算估計的運動的技術。固然在不同時間情況的相同的兩個特征點(或在幾個特征點是表示一個對象的情況中的超過兩個的特征點)是聯(lián)系在一起的以便找到它們的運動矢量,本發(fā)明還公開了一種在壓縮域以及像素域中的特征點的簽名技術。該簽名技術在圖8的步驟S83中將更詳細地描述。
圖6描述了元數(shù)據(jù)提取單元的數(shù)據(jù)流。該分析單元61是負責MPEG位流分析以及DCT-系數(shù)和運動矢量提取的,并且在圖7中更詳細地進行了描述。分析單元61將當前宏塊的類型(I幀內(nèi),B雙向預測,P預測)、提取的MPEG運動矢量(如果存在該宏塊類型)以及當前幀的DCT-系數(shù)(如果存在)提供到特征點選擇單元以及運動估計單元62。
特征點選擇單元63由特征點保真度參數(shù)控制。它從這些輸入的數(shù)據(jù)中計算出當前幀的特征點坐標,并將它們傳遞到特征點運動估計單元64、參數(shù)和攝像運動計算單元65和視頻概括單元66。從特征點選擇單元63中,將候選運動矢量MV(x,y)、所需要的運動矢量決定(resolution)以及搜索區(qū)域傳遞到特征點運動估計單元64。在圖8中描述了特征點選擇和運動估計的控制流。特征點運動估計單元64從當前幀的特征點坐標以及參考幀的特征點坐標中計算運動矢量,并將這些運動矢量輸出到參數(shù)和攝像運動計算單元65。
參數(shù)和攝像運動計算單元65從前面的步驟中獲得運動矢量,并計算參數(shù)運動模型的參數(shù)和攝像運動參數(shù),這些參數(shù)被傳遞到視頻概括單元66。
視頻概括單元66包括特征點壽命列表67的基本步驟以及基于場景改變檢測和主幀提取單元68的特征點和運動的步驟。
特征點壽命67包括特征點坐標和簽名、與特征點有關的運動矢量以及為運動矢量計算的距離測量,例如比較圖12?;趫鼍案淖儥z測和主幀提取單元68的特征點和運動,將場景改變的幀數(shù)目、具有相應的重要等級和攝像運動參數(shù)的主幀作為元數(shù)據(jù)傳送至圖3所示的視頻瀏覽單元35。
視頻概括單元66可以根據(jù)概括的深度,即具有相應的重要等級和攝像運動參數(shù)的主幀的數(shù)目,進行(可選的)外形上的控制。
圖7描述了由MPEG位流分析單元71組成的分析單元,MPEG位流分析單元71例如從MPEG傳送流中提取MPEG視頻位流。幀-和宏塊-類型提取單元72提取宏塊-類型,并且在當前宏塊(MB)是P-MB或B-MB(分別地是P-VOP或B-VOP)74的情況下,還使用運動矢量提取單元75為該宏塊(或VOP)提取運動矢量。從預分析的位流中,DCT-系數(shù)提取單元73提取在I-幀、P-幀、B-幀(或MPEG-4中的I-VOP、P-VOP或B-VOP)中的幀內(nèi)塊。
圖8描述了通過僅在所選擇的一些塊上使用IDCT(逆離散余弦變換)的特征點選擇和運動估計處理。
當使用CIF格式(352×288像素)時,MPEG流的全解碼(比較圖1)需要對cur和ref進行2×396×4=3168IDCT計算。但是,例如,對于攝像運動估計,僅在與運動矢量有關的cur中的6個特征點(num=6)例如對一個6參數(shù)運動模型來說是必須的。在這個例子中,對于每一特征點,當使用小的[-4,+4]像素搜索區(qū)域(例如,在預示變量周圍)時,需要cur中的一個IDCT計算和ref中的4個IDCT計算(=5×6=30IDCT)。這對于IDCT計算所需的計算量而言給出了相當?shù)谋憷蠹s減少100倍。對于大的運動,還可以使用MPEG運動矢量作為搜索區(qū)域的預示變量。當使用MPEG運動矢量作為預示變量時,[-4,+4]的搜索區(qū)域通常是足夠的。但是,該搜索區(qū)域能夠適當?shù)剡M行選擇。
在圖8中,步驟S81計算當前幀中的所有8×8塊的塊關聯(lián)度量,根據(jù)它們的關聯(lián)分類這些塊并根據(jù)最高關聯(lián)確定cur中的塊的“num”的數(shù)字。在圖9中更詳細地說明了塊關聯(lián)度量的計算。注意,僅在幀內(nèi)-宏塊中的塊能夠被選擇作為“新”關聯(lián)點的一個,而(一旦選擇了)關聯(lián)點能夠通過I-幀、P-幀和B-幀被跟蹤。在圖9中詳細描述了優(yōu)選實施例的步驟S81。
在圖8步驟S82中,對“num”選擇的cur塊,計算8×8塊IDCT(以及MC、運動補償,對于在P-宏塊或B-宏塊內(nèi)的塊)。8×8塊IDCT和MC計算是本領域技術人員熟知的方法。
在圖8中,步驟S83為所有的“num”cur塊執(zhí)行塊簽名提取。對于塊簽名的計算,這里公開了兩個優(yōu)選實施例a)在像素域中的塊簽名的計算;以及b)在DCT域中的塊簽名的計算。由于必須僅對這些cur中的“num”塊計算塊簽名,這些cur中的“num”塊已經(jīng)由步驟S82在像素域中進行了變換,所以從這個步驟中導致了像素域塊簽名的沒有意義的附加計算開銷。
作為一個簡單的像素域塊特征,所有的或選擇的塊的像素的數(shù)目可以被用做一個簽名,并且可以使用SAD(絕對差值和)、MSE(均方誤差)或諸如豪斯多夫距離(Haussdorf-distance)的本領域技術人員熟知的其他標準來執(zhí)行簽名匹配。但是,由于這就表示效率而言不是很合適,所以在像素域中的較高電平塊特征點簽名是表示優(yōu)選實施例的。這些較高電平簽名特征包括如Canny(在1986年的IEEE的圖案分析和機器智能學報(IEEE Transactionson Pattern Analysis and Machine Intelligience),卷8,第6冊,第679-698頁上,John Canny的“邊緣檢測的計算方法”(A computational approach to edgedetection))、Sobel、Prewitt的邊緣檢測技術以及、如Lucas/Kanade(在1980年的人工智能的國際聯(lián)合會議會刊(International Joint Conference on ArtificialIntelligence)第674-679頁上,Bruce D.Lucas and Takeo Kanade發(fā)表的“應用到立體圖象的迭代圖象注冊技術”(An Iterative Image Registration Techniquewith an Application to Stereo Visition))、Marr/Hildreth(在1980年的倫敦皇家學院院刊卷(Proc.of the Royal Society of London B)207第187-217頁發(fā)表的David Marr,Ellen Hildreth的“邊緣檢測理論”(Theory of edge detection))的紋理和顏色分類圖像注冊技術;或者能夠與它們的匹配標準一起使用的、是優(yōu)選實施例的、并且是本領域技術人員熟知的其他技術。
對于DCT-域塊簽名計算,圖11中的所有的或選擇的DCT-系數(shù)可以用于特征點注冊。DCT-塊簽名的DCT-系數(shù)能夠僅從亮度(Y)塊或-可選擇地-從色度(U,V)DCT-塊中獲得。這里,僅描述亮度塊的DCT-系數(shù)的使用,但是本領域技術人員能夠容易地執(zhí)行到色度塊的延伸。優(yōu)選實施例包括根據(jù)應用情況的a)D00,b)D00,D01,D02,D03;和c)所有的DCT系數(shù)。在Dhv(當前DCT-塊的簽名)和Dhv(表示被比較的DCT-塊的簽名的系數(shù))的DCT-系數(shù)之間的距離計算的優(yōu)選實施例包括Distance=ΣhhmaxΣvvmaxPhv.|Chv-Dhv|]]>或Distance=ΣhhmaxΣvvmaxPhv·(Chv-Dhv)2]]>其中(例如h=v=0,并且hmax=vmax=7),并且每一項可以被加權因子phv選擇地加權。使用這些參數(shù),DCT-塊簽名可以應用到各種應用中,例如,用于視頻序列的圖像拼接,可以從為視頻概括或攝像運動估計選擇的那些值中挑選不同的h、v、hmax、vmax、phv值。對于較高電平DCT-塊簽名,優(yōu)選實施例還包括DCT-塊活動特征、DCT-方向特征、DCT-能量特征,如在1990年學院出版社(Academic Press)出版的K.R.Rao.P.Yip的“離散余弦變換-算法、優(yōu)點和應用”(Discrete Cosine Transform-Algorithms,Advantages,Applications)和在1996年Bo Shen、Ishwar K.Sethi在SPIE 2670,圖象和視頻數(shù)據(jù)庫IV的存儲和檢索(Storage & retrieval for Image and Video DatabasesIV)上發(fā)表的“從壓縮的圖象中方向特點的提取”(Direct feature extractionfrom compressed images)”所描述的,并且這些是本領域技術人員熟知的。
在圖8步驟S84中,為一個所選擇的cur塊計算預測運動矢量(MV)、參考塊位置和搜索區(qū)域。運動預測策劃極其依賴應用。例如,對于使用6參數(shù)模型的攝像運動提取,在ref中的特征點的位置能夠從先前幀中獲得的仿射(affine)運動模型中進行預測。相似地可以為對象跟蹤預測特征點的運動。在P-宏塊或B-宏塊的情況下,從壓縮的MPEG位流中提取的運動矢量可以被用做在ref中的搜索區(qū)域的中心。在這種情況中,并且特別在MPEG運動矢量變得小的情況中,搜索區(qū)域可以選得小些。這意味著僅4塊的IDCT解碼和運動補償就已經(jīng)是足夠的了。在幀內(nèi)-宏塊的情況中,必須通過DCT-塊簽名或像素域塊簽名確定一個或幾個塊是否是新的。在該塊是新的情況下,接著根據(jù)應用,優(yōu)選實施例設置一個較大的搜索區(qū)域。
在塊簽名展示了該塊已經(jīng)存在于一個或幾個距離幀中,接著從塊列表的運動矢量歷史中,通過本領域技術人員熟知的運動矢量預測方法能夠確定下一個運動方向和搜索范圍。在圖8步驟S85中,對于在步驟S84中所有的在I-參考幀/、P-參考幀/、B-參考幀中的計算的塊位置,計算8×8塊IDCT。塊位置是具有中心為在步驟S84中計算的運動矢量預示變量的在步驟S84中計算的搜索區(qū)域。對于P-參考宏塊和B-參考宏塊還計算MC(運動補償)。
該技術和在MPEG-1/MPEG-2/MPEG-4標準解碼器中使用的技術相同,并且是本領域技術人員熟知的。注意,IDCT(以及在P-宏塊和B-宏塊的情況中的MC)不僅應用在整個幀上,并且還應用到與在cur中的“num”塊有關的ref中的小的搜索區(qū)域中,并且因此比整個幀的全解碼是顯著快的。
在圖8的步驟S86中,在像素域對所有的預測MV周圍的搜索區(qū)域中的ref中的搜索位置(在步驟S84中計算的二者,)執(zhí)行8×8塊運動估計,以便為cur中的所選擇的塊找到ref中的搜索區(qū)域中的最好的運動矢量。對于像素域中的8×8運動估計,優(yōu)選實施例包括(但不限于)如本領域技術人員熟知的全搜索塊匹配、像素回歸搜索等的運動估計方法,比較1999年6月Kluwer學院出版社(Kluwer Academic Publishers)出版的Peter Kuhn的“MPEG-4運動估計的算法、復雜分析和VLSI-架構(Complexity Analysis andVLSI-Architectures for MPEG-4 Motion Estimation)”,ISBN 792385160。注意對于P-宏塊/B-宏塊,由于來自MPEG-位流的運動矢量被用做運動矢量預示變量(但是在大多數(shù)情況中,它是針對16×16宏塊的,并且不總是可靠的),搜索區(qū)域(以及所需要的計算能力)可以是很小的。運動估計單元的一個優(yōu)選實施例是塊大小不限于8×8,但也可以覆蓋使用諸如4×4以及8×8塊的可變塊大小的運動估計。運動估計的另一個優(yōu)選實施例是一個外形可控的運動位移(displacement)分解(resolution),它可以是例如設置成1像素、2像素或0.5像素,并且可以通過本領域技術人員熟知的方法來實施。注意當使用特定的特征,象例如Lucas/Kanade特征時,就計算復雜性和跟蹤保真度而言,最好在所計算的搜索區(qū)域內(nèi)使用Lucas/Kanade/Tomasi特征跟蹤器,而取代在這些特征點上執(zhí)行的塊-匹配運動估計。
在圖8步驟S87中,使用在步驟S83中描述的相同的方法計算由最佳匹配8×8塊位置的運動矢量(在步驟S86中確定)指向的ref中的塊的塊簽名。注意當使用DCT-塊簽名時最佳匹配8×8塊位置的所有像素必須變換到DCT域。
在圖8步驟S88中,cur中的塊位置(其中剛執(zhí)行過步驟S84、S85、S86、S87)、在步驟S87中計算的塊簽名、運動矢量以及所計算的在由最佳運動矢量(在步驟S86中計算的)指向的當前和參考塊之間的距離(MSE均方誤差,SAD絕對差值和,依據(jù)所使用的運動估計算法)被存儲在一個數(shù)據(jù)結構中,優(yōu)選實施例是例如在圖12中所描述的實施例。在距離計算的結果是高于應用給出的門限,并且最后的“num”塊已經(jīng)被處理的情況下,采用一個或多個下面的策略增加從塊關聯(lián)列表中獲得的“num”塊或者增加運動估計單元的搜索區(qū)域。這個方法允許采用壓縮視頻的不同內(nèi)容材料和編碼結構。
在圖8的步驟S89中,檢測在步驟S83確定的所有的“num”塊是否已經(jīng)都被處理了。如果所有確定的“num”塊已經(jīng)都被處理了(是),則對于這一幀,基于運動估計算法的特征點停止在這里,如果不是都被處理了(否),則進入步驟S90。
在圖8步驟S90中,訪問目前還沒有執(zhí)行運動估計的下一個確定的“num”塊位置,并且再執(zhí)行包括步驟S84、S85、S86、S87、S88的循環(huán)。
在圖9中描述了塊關聯(lián)度量計算的優(yōu)選實施例。塊關聯(lián)度量表示用于運動估計或運動跟蹤的塊的適應性,通常由(不限于)如邊緣、顏色或其他重要的構造傾斜度的視覺特點決定。當可獲得P-幀或B-幀的時候,在這些幀的P-宏塊和B-宏塊中包含的運動信息可以用于幫助發(fā)現(xiàn)描述高關聯(lián)的塊。
在圖9步驟S91中,當前幀的宏塊計數(shù)器,MBcur,被設置成零。該計數(shù)器迭代在當前幀中的所有宏塊而不管它們的宏塊類型(I-型、P-型或B-型)。
在圖9的步驟S92中,選擇與參考幀中的MBcur、MBref有關的宏塊。如果存在一個MBcur的運動矢量(由于我們已經(jīng)訪問了壓縮位流的下一個編碼幀,所以這個信息是可獲得的),MBref是與運動矢量有關的宏塊。如果不存在MBcur的運動矢量(或具有零長度的運動矢量),那么MBref具有和MBcur相同的宏塊號(number)。MBcur和MBref的宏塊類型也是從該步驟壓縮的位流中提取的。
在圖9的步驟S93中,測試一條件。在MBcur的宏塊類型是幀內(nèi),并且MBref是P-型或B-型宏塊的情況下,進入步驟S94。
在圖9的步驟S98中,測試另一個條件。在MBcur的宏塊類型是P-型,并且MBref是B-型的情況下,進入步驟S99。
在圖9的步驟S104中,測試另一個條件。在MBcur的宏塊類型是幀內(nèi),并且MBref也是幀內(nèi)的情況下,進入步驟S105。步驟S105和后續(xù)步驟處理所有的不可預測的僅DCT(DCT-only)編碼MPEG格式以及其他如DV或MJPEG的格式。
在圖9的步驟S94中,用于宏塊內(nèi)部的DCT-塊的塊計數(shù)器(圖4)被設置成零,并且進入步驟S95。
在圖9的步驟S95中,描述了blockMBcur,i關聯(lián)計算的優(yōu)選實施例,其中該8×8DCT塊的關聯(lián)定義如下Relevance(blockMBcur,i)=Activity(blockMBcur,i)]]>+k×MV2MBcur,x+MV2MBcur,yDCTenergy(blockMBref,i)]]>其中“k”是根據(jù)應用選擇的加權系數(shù),并且對于運動估計(例如,通過塊匹配)的選擇不同于對于跟蹤(例如,通過如Lukas/Kanade/Tomasi的特征點跟蹤技術)的選擇。下面定義了DCT域中的8×8塊的活動測量的優(yōu)選實施例,其中Dhv是DCT-系數(shù)(圖11)。
Activity=ΣhhmaxΣvvmax|Dhv|---(h,v)≠(0,0)]]>hmax=vmax的值通常選擇為7,但可以在(1...6)間進行選擇以便獲得較快但更多噪聲的強健的實施。但是,在1990年學院出版社(Academic Press)出版的K.R.Rao.P.Yip的“離散余弦變換-算法、優(yōu)點和應用”(Discrete CosineTransform-Algorithms,Advantages,Applications)中所定義的其他的DCT-活動或邊緣測量也代表了本發(fā)明的可能的實施例。該DCTenergy定義為DCTenergy=ΣhhmaxΣvvmax|Dhv|]]>另一個具有減量計算復雜性的優(yōu)選實施例是對于每個單獨的關聯(lián)計算或僅使用運動矢量的和(并且不是平方和)來說,將DCT-energy項設置成1。
在圖9中,步驟S96和S97迭代步驟S95四次直到MBcur的所有的四個塊都被處理為止。
在圖9的步驟S99中,對于宏塊(圖4)內(nèi)部的塊的塊計數(shù)器被設置成零,并進入步驟S100。
在圖9的步驟S100中,由于在P-宏塊或B-宏塊中,從先前幀(在B-幀的情況下還有將來幀)中預測宏塊像素,并且沒有新的特征點出現(xiàn)在這里,所以該塊的關聯(lián)被設置成零。
但是,在圖9的步驟S101中,已經(jīng)從其他的幀中跟蹤得到的存在的塊特征點仍保留在“num”當前塊特征點的特征點列表中。注意,對于在步驟S82的這些特征點,由于宏塊是類型P或B,所以必須執(zhí)行IDCT和MC。
在圖9中,步驟S102和S103迭代步驟S100和S101四次直到MBcur的所有的四個塊都被處理為止。
但是,在圖9的步驟S105中,對于宏塊(圖4)內(nèi)部的塊的塊計數(shù)器被設置成零,并進入步驟S106。
在圖9的步驟S106中,在當前宏塊和參考宏塊是幀內(nèi)-宏塊的情況下,計算MBcur的塊關聯(lián)。塊關聯(lián)計算如下Relevance(blockMBcur,i)=Activity(blockMBcur,i)+Activity(blockMBref,i)以及Activity(blockMBref,i)=Σk=0kmaxmk×Activity(blockMBref,i)]]>其中在DCT-域中的活動的計算如上所述。對于在參考幀中的相應塊的活動計算,相應的和相鄰的kmax塊的幾個活動測量被概括并相加成為當前塊的活動。相鄰塊的活動還給出了子序列運動估計的搜索區(qū)域的大小的提示。值kmax依賴于幀大小以及應用約束。值mk加權遠距離的參考DCT-塊的活動,并依據(jù)應用約束被確定,但是對于該優(yōu)選實施例mk是小的并且在1以下,但對于其他的(例如,計算上更多的約束)實施例也可以是零。
在圖9中,步驟S107和步驟S108迭代步驟S106四次直到MBcur的所有的四個塊都被處理為止。
在圖9中,步驟S109和S110確定所有的當前宏塊是否已經(jīng)被處理并對幀MBcur的所有的宏塊進行迭代。
在圖9中,步驟S111涉及塊關聯(lián)列表的分類,與已經(jīng)跟蹤的特征點進行合并,并輸出確定的“num”塊。MBcur中的塊按照它們的塊關聯(lián)值被存儲,并且必須決定最佳的“num”特征點。分類算法是本領域技術人員熟知的。特征點數(shù)目的選擇主要根據(jù)目標應用。例如,對于基于仿射6參數(shù)模型的6參數(shù)攝像運動估計,需要與它們的運動矢量相關的6個特征點。因此,在這種情況中,必須選擇至少6個具有高關聯(lián)的塊。對于這個例子,選擇描述最佳關聯(lián)度量的6個塊。對于視頻概括,表示特征點的所選擇塊的數(shù)目依賴于外部選擇的保真度參數(shù)。對于其他的應用,特征點的較大數(shù)目可以僅由圖像中的8×8塊的數(shù)目限定。在特征點的跟蹤僅導致很短的運動矢量(其經(jīng)常被噪聲干擾),或后面的運動估計處理導致不充足的結果(即,出現(xiàn)很高的距離測量)的情況中,本發(fā)明的一個優(yōu)選實施例是根據(jù)它們的相關值選擇下面n個特征點直到再沒有特征點剩下為止。對于特征點跟蹤應用,具有高關聯(lián)的新計算的塊特征點必須與從遠距離的幀中已經(jīng)跟蹤的存在的塊特征點進行合并。
現(xiàn)在將詳細描述第二優(yōu)選實施例。
圖10描述了使用基于DCT的運動估計的本發(fā)明的第二優(yōu)選實施例。該方法具有下述優(yōu)點,即對于當前塊或搜索區(qū)域,沒有宏塊必須通過使用IDCT被從DCT-域變換至像素-域。但是,在壓縮視頻位流中存在P-幀或B-幀的情況中,在壓縮域中必須執(zhí)行運動補償(MC),這就使準確度呈現(xiàn)損失。穿越塊邊界的基于DCT的運動估計也可以導致準確度的損失。本發(fā)明的第二實施例的主要應用期望在于以內(nèi)幀(Intra-frame)主導的視頻領域,如象DV、MJPEG的壓縮位流以及在廣播業(yè)中經(jīng)常使用的僅MPEG格式的內(nèi)幀。
在圖10的步驟S121中,對于cur中的所有的8×8塊的塊關聯(lián)度量使用在圖8步驟S81中所述的相同方法進行計算。
在圖10的步驟S122中,計算所有的選擇的“num”cur塊的塊簽名。基本上在圖8步驟S83描述的DCT-域以及在像素域中的兩種方法都能使用。但是,在圖10步驟S122中描述的DCT-域中的塊簽名方法的優(yōu)點是在這一步驟上不需要IDCT,并且不進行任何IDCT也可以執(zhí)行圖10的完整算法。但是,對于P-宏塊和B-宏塊,在壓縮域中或在像素域中需要運動補償。
在圖10的步驟S123中,使用在圖8步驟S84中描述的相同方法計算預測的運動矢量、計算的參考塊位置以及ref中的搜索區(qū)域。
在圖10的步驟S124中,對于ref中的搜索區(qū)域的P-宏塊和B-宏塊,必須在DCT-壓縮域中計算運動補償(MC)。幾個優(yōu)選實施例中的一個是在1995年IEEE通信中的選擇的區(qū)域期刊(IEEE Journal on Selected Areas inCommunication)卷13第1冊中Shih-Fu Chang,David G.Messerschmidt發(fā)表的“MC-DCT壓縮視頻的處理和組合”(Manipulation and Compositing ofMC-DCT Compressed Video)以及在1999年的ICASSP 99上Yoshiaki Shibata、Zhigang Chen、Roy H.Campell發(fā)表的“對于壓縮域中DCT塊提取的快速自由降級算法”(A fast degradation-free algorithm for DCT block extraction in thecompressed domain)中的修改版描述的算法。
在圖10的步驟S125中,在DCT-域中對預測運動矢量周圍的ref中的所有的搜索位置計算運動估計。對于最佳搜索位置,保存距離度量值以及運動矢量。對于在DCT-域中的運動估計的計算的優(yōu)選實施例例如列出在Ut-va Koc,K.J.Ray Liu的美國專利US 5,790,6868/1998,“基于DCT的運動補償方法382/107”(DCt-based motion estimation method382/107)中。
在圖10的步驟S126中,計算ref中最佳運動矢量位置的塊簽名?;旧显趫D10步驟S122描述的DCT-域以及在像素域中的兩種方法都能使用。但是,在圖8步驟S83中描述的DCT-域中的塊簽名方法的優(yōu)點是在這一步驟上不需要IDCT,并且不進行任何IDCT也可以執(zhí)行圖10的完整算法。在像素域中的塊簽名方法僅需要兩個IDCT,一個用于每一“num”當前塊并且另一個用于壓縮域運動估計的最佳轉移塊,其計算仍是很少的。
在圖10的步驟S127中,在塊列表中保存位置、塊簽名、運動矢量以及ref中最佳塊位置的距離標準。在距離計算的結果是高于該應用給出的標準并且最后的“num”塊已經(jīng)被處理的情況下,可以使用下列策略的一個或多個增加從塊關聯(lián)列表中獲得的“num”塊或者增加運動估計單元的搜索區(qū)域。這個方法允許采用壓縮視頻的不同內(nèi)容材料和編碼結構。
在圖10的步驟S128中,訪問確定的“num”塊位置的下一個,該確定的“num”塊位置的下一個目前是沒有執(zhí)行運動估計的。并且再次執(zhí)行包括步驟S123、S124、S125、S126、S127的循環(huán)。
現(xiàn)在將詳細描述第三優(yōu)選實施例。
本發(fā)明的另一優(yōu)選實施例是視頻概括。這通過保持特征點(其可以由它們的特征點簽名區(qū)分)以及它們的在幀中的相關位置的壽命列表、它們的運動矢量、它們的距離(運動矢量計算的距離)以及它們的簽名來實現(xiàn)。在大量新特征點出現(xiàn)在新幀中的情況下,則極有可能存在有場景改變。類似地當從一個幀到下一幀消失了大量特征點時,那么也極有可能是場景改變。在這樣的幀中選擇場景的主幀,其中存在大量特征點并且整個運動總量是低的。
圖12描述了視頻概括的特征點壽命列表的數(shù)據(jù)結構的優(yōu)選實施例。對于每一特征點存在一個鏈接的列表,為單獨地標記它,給出了feature_point_id,如131、138、141所描述的。feature_point_id數(shù)據(jù)結構還包括一個object_id字段以便將一個或幾個特征點與對象相聯(lián)系。這些feature_point_id使用指針相連作為鏈接列表136。每個feature_point_id指向在視頻流中的每一特征點的時間情況的另一列表(例如132),其中每一項包含該特征點(例如134、135和137)在特定時間情況(例如location_0=(x,y),time)上的時空位置的數(shù)據(jù)、在特定時間情況上的該特征點至下一個時間情況上相同的特征點間的運動矢量(例如,MV_0=(MVx,MVy))的數(shù)據(jù)、用于運動矢量的可靠性確定的特征點運動矢量計算的距離值(distance_0),以及在相同feature_point_id下的正確的特征點相聯(lián)系的特征點簽名(signature_0)。注意對于某些應用,這些數(shù)據(jù)-字段的某些是可以選擇的或者需要其他的數(shù)據(jù)-字段。
這些特征點的時間情況也通過鏈接的列表連接,其中最后項和最初項的鏈接例如可以看作是如一遍一遍播放視頻的一部分的功能,其中出現(xiàn)了對象(包含許多特征點)或特定運動圖形。對于這些鏈接的列表,由于它們在場景中不出現(xiàn),所以存在根據(jù)它們的時間feature_point_id移去的機理(mechanism)。還存在添加新feature_point_id的機理,其使用在簽名空間中的特征點的距離。該簽名空間中的距離確定這是否是一個新的特征點或是否是與存在的一個特征點有關的特征點。添加新feature_point_id至存在的對象的另一個機理包括自該對象的它們的空間距離。從包含在一個feature_point_id的特征段(feature-field)中的運動矢量中,可以構建該特征點在時間上的運動軌跡,這是本領域技術人員熟知的(例如,通過卡爾曼濾波器或Lucas/Kanade/Tomasi特征跟蹤,但不限于此)。
屬于一個object_id組(例如可以根據(jù)簽名和它們位置的空間距離進行分組)的幾個feature_point_id的運動矢量可以用于計算由feature_point_id識別的對象的參數(shù)運動,如本領域技術人員所熟知的。在對象被選做矩形背景幀的情況中,相似地該鏈接的列表可以用做表示攝像運動,這將在下面的優(yōu)選實施例中詳細說明。
現(xiàn)在將詳細描述第四優(yōu)選實施例。
圖13描述了攝像的可能的運動方向,其包括縮放、在三個方向上的旋轉以及在三個方向上的平移。本發(fā)明的一個優(yōu)選實施例是使用提取的包含在圖12的數(shù)據(jù)-結構中的運動元數(shù)據(jù),以計算如壓縮域中視頻序列的縮放、全景、傾斜等的攝像運動。例如對于有效的視頻瀏覽(展現(xiàn)主幀和它們有關的攝像運動)、視頻編輯(例如剪切縮放輸出端的幀上的視頻)以及簡化從一個壓縮表示(例如,MPEG-2)至另一個壓縮表示(例如,MPEG-4)的代碼轉換來說,攝像運動的快速和有效計算是有用的。
為了基于在圖6中的62中所得到的特征點運動矢量提取攝像運動參數(shù),優(yōu)選實施例之一是使用攝像運動模型(在1997年Elsevier的圖案識別(Patternrecognition)卷30第4冊593-606頁中M.V.Srinivasan、S.Venkatesh,R.Hosi發(fā)表的“來自視頻序列的攝像運動的定性估計”(Qualitative estimation ofcamera motion parameters from video sequence))以及它的攝像運動參數(shù)提取方法ux=-ry+Y·rz+X·rzoomuy=rx-X·rz+Y·rzoom在這個算法中,對于每一運動矢量(ux,uy),根據(jù)參數(shù)rx、ry、rz和rzoom計算上面的方程描述的合成運動矢量段,其中X和Y是圖像平面的像素坐標。接著從合成的運動矢量段中減去實際的矢量段(在圖6的步驟62中提供),并且計算剩余運動矢量段的平行度(the parallelism of the residual motionvector field)。剩余運動矢量段表示攝像運動的平移分量。當剩余運動矢量段的所有運動矢量是平行的時候,找到rx、ry、rz和rzoom的最優(yōu)參數(shù)。該算法例如通過改變參數(shù)rx、ry、rz和rzoom執(zhí)行四維單行式最小化直到獲得剩余(平移的(translatoric))運動矢量的最佳近似平行度。但是本領域技術人員所熟知的從運動矢量中確定攝像的參數(shù)運動模型或對象運動的其他方法也是可行的。
圖14描述了視頻瀏覽單元的圖形表示的例子的概略圖。該視頻瀏覽單元(或視頻瀏覽用戶接口)使用運動信息(即,元數(shù)據(jù)),特別是攝像運動元數(shù)據(jù)以便能在拍攝和主幀電平上的分級分解和視頻概括。在本文中定義的拍攝是作為一序列視頻幀,該序列視頻幀是由一個攝像機捕捉的在時間和空間中的單個連續(xù)活動。本發(fā)明是通用的,并且這個視頻瀏覽器不限于攝像運動而是覆蓋涉及如參數(shù)對象運動的一般元數(shù)據(jù)的運動和場景。本發(fā)明不限于矩形幀,也可以用于與它們的運動元數(shù)據(jù)有關的任意形狀對象的瀏覽。在下面的例子中,通常,描述在攝像運動和矩形對象情況下的視頻瀏覽單元。對于視頻瀏覽,使用分級攝像運動模型的狀態(tài)轉換圖。
首先使用本領域技術人員熟知的傾斜度和分類技術識別相似的運動元數(shù)據(jù)段,主幀的收集從這些中得出并用于表示每一視頻段。在每一段的主幀之間的攝像運動過渡弧由攝像運動參數(shù)描述,這些攝像運動參數(shù)在瀏覽器中被可視地表示。攝像運動的總量在視頻瀏覽器中被描述,使得用戶在小的和大的攝像運動之間可視地區(qū)分,或者在慢的和快的攝像縮放之間區(qū)分。
圖14描述,例如,具有三個運動元數(shù)據(jù)狀態(tài)攝像全景、攝像縮放和攝像旋轉的情況。
圖14步驟151描述了在X方向具有0.5的攝像全景常數(shù)的攝像全景狀態(tài)。該箭頭描述了攝像全景運動的方向和它的長度、攝像運動的相對速度。攝像全景的優(yōu)選圖形表示之一是一個包含攝像全景的連續(xù)幀的拼接表示。該拼接表示的生成是本領域技術人員熟知的,如1996年“信號處理、圖象通信”(Signal Processing,Image Communications)卷8上M.Irani,P.Anandan、J.Bergen、R.Kumar、S.Hsu發(fā)表的“視頻序列的有效表示及其應用”(Efficientrepresentations of video sequences and their application)。
圖14步驟152描述了在狀態(tài)轉換圖中的攝像縮放狀態(tài)的圖形表示的優(yōu)選實施例,其中在時間“to”上出現(xiàn)2的攝像縮放。在攝像縮放表示中的縮略圖(thumbnail)(即主幀)表示攝像縮放的中心。在攝像縮放窗口中的箭頭的長度表示相對的攝像縮放速度。至中心的箭頭的方向表示縮放。穿出中心的箭頭的方向表示縮放放大。
圖14步驟153描述了攝像旋轉的圖形表示的優(yōu)選實施例,其中圖標中的縮略圖表示攝像旋轉的焦點的表示幀。該箭頭描述旋轉的方向,并且箭頭表示攝像旋轉的相對速度。
每一攝像運動圖標表示特定的攝像運動狀態(tài)并且在攝像運動圖標之間的箭頭表示在特定攝像運動狀態(tài)之間的攝像運動狀態(tài)轉換。通過例如傾斜度技術或對在連續(xù)幀之間的攝像運動的每一類型的總量設定標準能夠簡單地找到轉換。但是,也可以使用本領域技術人員熟知的更先進的算法。縮放的中心由所有的(人工延長的)運動矢量的相交點來確定。
圖15描述了在圖14中出現(xiàn)的視頻瀏覽單元的擴大圖。優(yōu)選功能之一是在三個狀態(tài)圖標(161、163、164)之一上的BROWSE命令(優(yōu)選實施例是使用鼠標點擊,碰擊功能鍵或觸筆),其將導致顯示更詳盡的表示。當給出BROWSE命令至全景狀態(tài)窗口161時,攝像全景的主幀表示如162所示。當給出BROWSE命令至縮放狀態(tài)窗口163時,攝像縮放的主幀表示如166所示。在166中,主幀168的一部分被可視地標記(優(yōu)選的實施例可能是在焦點區(qū)域的縮放中心周圍的不同顏色的正方形中的幀)。當給出一個命令至該顏色幀(優(yōu)選實施例是使用鼠標或觸筆進行點擊)時,相同運動元數(shù)據(jù)的下一個較低分級電平被圖形顯示為167。當給出BROWSE命令至旋轉狀態(tài)窗口164時,攝像全景的主幀表示如165所示。另一個優(yōu)選實施例的功能包括在三個狀態(tài)圖標(161、163、164)之一或主幀表示(162、165、166、167)上的PLAY命令(優(yōu)選實施例是使用鼠標進行雙擊,碰擊功能鍵或觸筆)描述這個特定的元數(shù)據(jù)的視頻序列的部分(在這個例子中特定的是攝像運動)。這導致播放屬于這個狀態(tài)的視頻序列的部分。
圖16描述了視頻瀏覽單元的功能的另一個優(yōu)選實施例,當在三個狀態(tài)圖標(171、173、174)或它們的自坐標表示的主幀表示(比較圖15)之一上給出一個GRAPH命令(優(yōu)選實施例是使用鼠標按鈕、功能鍵或觸筆進行點擊)時,顯示元數(shù)據(jù)的圖形表示(優(yōu)選實施例沿時間/幀數(shù)字軸的攝像運動元數(shù)據(jù))。
產(chǎn)業(yè)上的可應用性如上已經(jīng)詳細地描述的,根據(jù)本發(fā)明的視頻/音頻信號處理方法適用于處理所提供的視頻/音頻信號。該方法包括步驟提取至少一個表示在視頻/音頻信號的壓縮域中的視頻/音頻信號的特性的壓縮域特征點;對在提取步驟提取的特征點執(zhí)行運動估計;并通過預設數(shù)量的構成視頻/音頻信號的幀跟蹤與運動矢量有關的特征點。
因此,在根據(jù)本發(fā)明的視頻/音頻信號處理方法中,在壓縮域中提取視頻/音頻信號的特征點,執(zhí)行所提取的特征點的運動估計,并且跟蹤與運動矢量有關的特征點。從而能夠實現(xiàn)處理上時間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理設備適用于處理所提供的視頻/音頻信號。該設備包括提取裝置,提取至少一個表示在視頻/音頻信號的壓縮域中的視頻/音頻信號的特性的壓縮域特征點;運動估計裝置,對在提取裝置提取的特征點執(zhí)行運動估計;以及特征點跟蹤裝置,通過預設數(shù)量的構成視頻/音頻信號的幀跟蹤與運動矢量有關的特征點。
因此,在根據(jù)本發(fā)明的視頻/音頻信號處理設備中,在壓縮域中提取壓縮域特征點的裝置提取視頻/音頻信號的特征點,執(zhí)行特征點的運動估計的裝置執(zhí)行所提取的特征點的運動估計,并且跟蹤特征點的裝置跟蹤與運動矢量有關的特征點。從而能夠實現(xiàn)處理上時間或成本的降低,并且使有效處理成為可能。
而且,一種視頻/音頻信號處理方法被用于處理和瀏覽所提供的視頻/音頻信號。該方法包括步驟分級建立攝像運動轉換圖,其中圖形建立步驟包括步驟提供具有至少一個主攝像運動轉換圖和具有多個表示其他的具有用于視頻序列的轉換路徑的攝像運動的節(jié)點的圖形布局;通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動視頻序列的主幀進行瀏覽;以及通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動的圖形表示進行瀏覽。
因此,在根據(jù)本發(fā)明的視頻/音頻信號處理方法中,分級建立攝像運動轉換圖,執(zhí)行通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動視頻序列的主幀進行的瀏覽,以及執(zhí)行通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動的圖形表示進行的瀏覽。從而能夠實現(xiàn)處理時間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理設備適用于處理和瀏覽所提供的視頻/音頻信號。該設備包括建立裝置,用于分級建立攝像運動轉換圖,其中圖形建立裝置包括步驟提供具有至少一個主攝像運動轉換圖和具有多個表示其他的具有用于視頻序列說明的轉換路徑的攝像運動的圖形布局;瀏覽裝置,通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動視頻序列的主幀,進行瀏覽;以及瀏覽裝置,通過攝像運動轉換圖并通過說明在節(jié)點上的攝像運動的圖形表示進行測覽。
因此,在根據(jù)本發(fā)明的視頻/音頻信號處理設備中,通過建立圖的裝置分級建立攝像運動轉換圖,第一瀏覽裝置執(zhí)行通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動視頻序列的主幀進行的瀏覽,以及第二瀏覽裝置執(zhí)行通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動的圖形表示進行的瀏覽。從而能夠實現(xiàn)處理時間或成本的降低,并且使有效處理成為可能。
并且,根據(jù)本發(fā)明的視頻/音頻信號處理方法適用于提取用于瀏覽的合成視頻選擇的分級分解。該方法包括步驟識別視頻;從表示每一視頻段的視頻拍攝中收集主幀;根據(jù)攝像運動或全面的運動信息分類主幀的收集;以及建立視頻的圖形表示,圖形表示是基于分類步驟的結果的、瞬間的以及與視頻拍攝的每一部分有關的攝像運動信息,其中圖形表示建立步驟包括由節(jié)點表示視頻拍攝的每一類別的步驟。
因此,在根據(jù)本發(fā)明的視頻/音頻信號處理方法中,識別視頻,從視頻拍攝中收集主幀,分類所收集的主幀,并建立視頻的圖形表示。從而能夠實現(xiàn)處理時間或成本的降低,并且使有效處理成為可能。
而且,在根據(jù)本發(fā)明的視頻/音頻信號處理設備是適用于提取用于瀏覽的合成視頻選擇的分級分解。該設備包括識別裝置,用于識別視頻;收集裝置,用于從表示每一視頻段的視頻拍攝中收集主幀;分類裝置,用于根據(jù)攝像運動或全面的運動信息分類主幀的收集;以及建立裝置,用于建立視頻的圖形表示,圖形表示是基于分類步驟的結果的、瞬間的以及與視頻拍攝的每一部分有關的攝像運動信息,其中所述的圖形表示建立步驟包括由節(jié)點表示視頻拍攝的每一類別的步驟。
因此,在根據(jù)本發(fā)明的視頻/音頻信號處理設備中,識別視頻的裝置識別視頻,收集主幀的裝置從視頻拍攝中收集主幀,分類的裝置分類所收集的主幀,并且建立視頻的圖形表示的裝置建立視頻的圖形表示。從而能夠實現(xiàn)處理時間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理方法適用于處理所提供的視頻/音頻信號。該方法包括步驟提取至少一個表示在視頻/音頻信號的壓縮域中的視頻/音頻信號的特性的壓縮域特征點。
在根據(jù)本發(fā)明的視頻/音頻信號處理方法中,在壓縮域中提取視頻/音頻信號的特征點。從而能夠實現(xiàn)處理時間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理設備適用于處理所提供的視頻/音頻信號。該裝置包括提取裝置,用于在視頻/音頻信號的壓縮域中提取表示所述視頻/音頻信號的特性的至少一個壓縮域特征點。
因此,在根據(jù)本發(fā)明的視頻/音頻信號處理設備中,在壓縮域中由提取壓縮域特征點的裝置提取視頻/音頻信號的特征點。從而能夠實現(xiàn)處理時間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理方法適用于處理所提供的視頻/音頻信號。該方法包括步驟對在視頻/音頻信號的壓縮域中的表示視頻/音頻信號的特性的至少一個特征點執(zhí)行運動估計。
因此,在根據(jù)本發(fā)明的視頻/音頻信號處理方法中,執(zhí)行所提取特征點的運動估計。從而能夠實現(xiàn)處理時間或成本的降低,并且使有效處理成為可能。
而且,根據(jù)本發(fā)明的視頻/音頻信號處理設備適用于處理所提供的視頻/音頻信號。該設備包括運動估計裝置,用于對在視頻/音頻信號的壓縮域中的表示視頻/音頻信號的特性的至少一個特征點執(zhí)行運動估計。
因此,在根據(jù)本發(fā)明的視頻/音頻信號處理設備中,由執(zhí)行運動估計的裝置執(zhí)行所提取特征點的運動估計。從而能夠實現(xiàn)處理時間或成本的降低,并且使有效處理成為可能。
權利要求
1.一種處理和瀏覽所提供的視頻/音頻信號的方法,包括步驟分級建立攝像運動轉換圖,其中圖形建立步驟包括步驟提供具有至少一個主攝像運動轉換圖和具有多個表示其他的具有用于視頻序列說明的轉換路徑的攝像運動的圖形布局;通過攝像運動轉換圖,通過說明在節(jié)點上的攝像運動視頻序列的主幀進行瀏覽;以及通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動的圖形表示進行瀏覽。
2.一種處理和瀏覽所提供的視頻/音頻信號的設備,包括建立裝置,用于分級建立攝像運動轉換圖,其中圖形建立裝置包括提供具有至少一個主攝像運動轉換圖和具有多個表示其他的具有用于視頻序列說明的轉換路徑的攝像運動的圖形布局;瀏覽裝置,通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動視頻序列的主幀,進行瀏覽;以及瀏覽裝置,通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動的圖形表示進行瀏覽。
全文摘要
一種處理和瀏覽所提供的視頻/音頻信號的方法和設備。所述方法包括步驟分級建立攝像運動轉換圖,其中圖形建立步驟包括步驟提供具有至少一個主攝像運動轉換圖和具有多個表示其他的具有用于視頻序列說明的轉換路徑的攝像運動的圖形布局;通過攝像運動轉換圖,通過說明在節(jié)點上的攝像運動視頻序列的主幀進行瀏覽;以及通過攝像運動轉換圖,并通過說明在節(jié)點上的攝像運動的圖形表示進行瀏覽。元數(shù)據(jù)提取單元具有特征點選擇和運動估計單元(62),用于在視頻/音頻信號的壓縮域中提取至少一個表示該視頻/音頻信號的特性的特征點。因此,能夠實現(xiàn)處理時間或成本的降低,并且使有效處理成為可能。
文檔編號H04N5/91GK1625246SQ200410098368
公開日2005年6月8日 申請日期1999年11月29日 優(yōu)先權日1999年11月29日
發(fā)明者M·彼得·庫恩 申請人:索尼公司