專利名稱:用來處理視頻數(shù)據(jù)的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及數(shù)字信號處理領(lǐng)域,更具體地說涉及用來有效地表達(dá)和處理信號或圖像數(shù)據(jù)(最具體地說,視頻數(shù)據(jù))的裝置和方法。
背景技術(shù):
本發(fā)明存在于其中的現(xiàn)有技術(shù)的一般系統(tǒng)描述能用圖1表示。在這里方框圖顯示典型的現(xiàn)有技術(shù)視頻處理系統(tǒng)。這樣的系統(tǒng)通常包括下列幾級輸入級102、處理級104、輸出級106和一個或多個數(shù)據(jù)儲存機制108。
輸入級102可能包括若干元素,例如,照相機敏感元件,照相機敏感元件陣列、測距敏感元件、或從儲存機制取回數(shù)據(jù)的裝置。輸入級提供表達(dá)合成的和/或自然發(fā)生的現(xiàn)象的時間相關(guān)序列的視頻數(shù)據(jù)。該數(shù)據(jù)的顯著成份可能被噪音或其它不想要的信號掩蓋或污染。
視頻數(shù)據(jù)可以依照預(yù)先定義的轉(zhuǎn)移協(xié)議以數(shù)據(jù)流、陣列或數(shù)據(jù)包的形式被直接地或通過中間的儲存元素108送到處理級104。處理級104可以采用專用的模擬或數(shù)字裝置或可編程的裝置(例如,中央處理器(CPUs)、數(shù)字信號處理器(DSPs)、或現(xiàn)場可編程門陣列(FPGAs))的形式來執(zhí)行所需要的一組視頻數(shù)據(jù)處理操作。處理級104通常包括一個或多個CODECs(編碼/解碼器)。
輸出級106產(chǎn)生能夠影響使用者或外部裝置的信號、顯示或其它響應(yīng)。通常,輸出裝置被用來產(chǎn)生指示信號、顯示、硬拷貝、在存儲器中處理過的數(shù)據(jù)或開始向遠(yuǎn)程站點傳輸?shù)臄?shù)據(jù)的表達(dá)。它也可以用來提供在后來的處理操作中使用的中間信號或控制參數(shù)。
在這個系統(tǒng)中存儲器是作為非必選的元素出現(xiàn)的。當(dāng)被采用時,儲存元素108可以是非易失的,例如,只讀儲存媒體,或易失的,例如,動態(tài)隨機存取儲存器(RAM)。單一視頻處理系統(tǒng)包括若干種類型的儲存元素并非是罕見的,這些元素對輸入級、處理級和輸出級有各種不同的關(guān)系。這樣的儲存元素的例子包括輸入緩沖器,輸出緩沖器和處理高速緩沖存儲器。
圖1所示視頻處理系統(tǒng)的主要目的是處理輸入數(shù)據(jù)以便產(chǎn)生對特定應(yīng)用意義深長的輸出。為了實現(xiàn)這個目標(biāo),可以利用多種處理操作,包括減少或消除噪音、特征提取、目標(biāo)分段和/或規(guī)范化、數(shù)據(jù)分類、事件探測、編輯、數(shù)據(jù)選擇、數(shù)據(jù)重新編碼和代碼變換。
產(chǎn)生受不良約束的數(shù)據(jù)的許多數(shù)據(jù)來源(尤其是聲音和可視圖像)對人是重要的。在大多數(shù)情況下,這些來源信號的基本特征對有效數(shù)據(jù)處理的目標(biāo)有不利的影響。來源數(shù)據(jù)固有的易變性是在不引進(jìn)起因于在派生工程假定中使用的未試驗過的經(jīng)驗的和探索性的方法的誤差的情況下以可靠且有效的方式處理數(shù)據(jù)的障礙。這種易變性對于某些應(yīng)用當(dāng)輸入數(shù)據(jù)被自然地或故意地限制在定義狹窄的特征組(例如,有限的一組符號值或狹窄的帶寬)之中的時候是減輕的。這些限制時常導(dǎo)致商業(yè)價值低的處理技術(shù)。
信號處理系統(tǒng)的設(shè)計受該系統(tǒng)的有意使用和作為輸入使用的來源信號的預(yù)期特征的影響。在大多數(shù)情況下,所需的完成效率也將是重要的設(shè)計因素。完成效率本身又受與可得的儲存數(shù)據(jù)相比較將被處理的數(shù)據(jù)的數(shù)量以及與可得的計算能力相比較該應(yīng)用的計算復(fù)雜性影響。
傳統(tǒng)的視頻處理方法因具有許多低效率性質(zhì)而蒙受損害,這些低效率性質(zhì)是以數(shù)據(jù)通信速度慢、存儲需求大和干擾知覺假象的形式出現(xiàn)的。這些可能是嚴(yán)重的問題,因為人們希望使用和操縱視頻數(shù)據(jù)的方法的多樣性和因為人們對某些形式的可視信息有先天的敏感性。
“最佳的”視頻處理系統(tǒng)在完成一組預(yù)期的處理操作方面是有效的、可靠的和強健的。這樣的操作可以包括數(shù)據(jù)的儲存、傳輸、顯示、壓縮、編輯、加密、增強、分類、特征探測和識別。次要的操作可以包括這種經(jīng)過處理的數(shù)據(jù)與其它數(shù)據(jù)來源的整合。在視頻處理系統(tǒng)的情況下,同樣重要的是,輸出應(yīng)該通過避免引進(jìn)知覺假象與人類視覺相容。
如果它的速度、效率和質(zhì)量不強烈地取決于輸入數(shù)據(jù)的任何特定特征的特性視頻處理系統(tǒng)可以被描述為“強健的”。強健也與一些輸入誤差時完成操作的能力有關(guān)。許多視頻處理系統(tǒng)無法強健到足以考慮到一般的應(yīng)用類別,僅僅適用于在研發(fā)該系統(tǒng)時使用的同樣受狹窄約束的數(shù)據(jù)。
顯著的信息可能由于輸入元素的抽樣速率與感知現(xiàn)象的信號特征不匹配在連續(xù)取值的數(shù)據(jù)來源的離散化中被丟失。另外,當(dāng)信號強度超過敏感元件的極限,從而導(dǎo)致飽和的時候也有丟失。同樣,當(dāng)輸入數(shù)據(jù)的完整數(shù)值范圍用一組不連續(xù)的數(shù)值表示,借此降低數(shù)據(jù)表達(dá)的準(zhǔn)確性之時發(fā)生在任何量化程序中的輸入數(shù)據(jù)的準(zhǔn)確性降低的時候,數(shù)據(jù)被遺失。
整體易變性指的是一類數(shù)據(jù)或信息來源的任何無法預(yù)測性。因為可視信息通常是不受約束的,所以代表可視信息的數(shù)據(jù)有程度非常大的整體易變性。視覺數(shù)據(jù)可以表達(dá)能用在敏感元件陣列上入射的光線形成的任何空間陣列序列或時空序列。
在建立視覺現(xiàn)象模型時,視頻處理器通常把某組限制和/或結(jié)構(gòu)強加在表達(dá)或解釋數(shù)據(jù)的方式上。結(jié)果,這樣的方法可能引進(jìn)將影響輸出的質(zhì)量、可用來考慮輸出的信心和能在該數(shù)據(jù)上可靠地完成的后續(xù)處理任務(wù)的類型的系統(tǒng)誤差。
量化方法在試圖保持那組數(shù)據(jù)的統(tǒng)計變化的同時降低視頻畫面的數(shù)據(jù)準(zhǔn)確性。通常,視頻數(shù)據(jù)是這樣分析的,以致數(shù)據(jù)值的分布被收集到概率分布之中。另外,有一些方法,這些方法為了把數(shù)據(jù)的特色表現(xiàn)為空間頻率的混合把數(shù)據(jù)映射到相空間中,借此允許準(zhǔn)確性下降以較少引起反對的方式散布。這些量化方法在被大量利用的時候往往導(dǎo)致知覺上難以相信的顏色而且能在視頻畫面的原本平滑的區(qū)域中引起突然的怪僻狀態(tài)。
差分編碼通常也用來利用數(shù)據(jù)的局部空間相似性。在畫面的一個部分中數(shù)據(jù)傾向于聚集在畫面中的相似數(shù)據(jù)周圍和后續(xù)畫面中的相似位置。然后,根據(jù)它的空間毗連數(shù)據(jù)表達(dá)數(shù)據(jù)能通過量化組合起來,而最終結(jié)果是對于給定的準(zhǔn)確性使用數(shù)據(jù)的絕對值表達(dá)差分是比較精確的。這個假定在原來的視頻數(shù)據(jù)的光譜分辨率有限(例如,在黑白圖像或顏色少的圖像中)的時候很好地工作。隨著圖像的光譜分辨率逐漸增加,相似性假定被嚴(yán)重破壞。這種破壞是沒有能力有選擇地保護(hù)視頻數(shù)據(jù)準(zhǔn)確性造成的。
殘差編碼與差分編碼類似,因為這種表達(dá)的誤差被進(jìn)一步差分編碼,以便把原始數(shù)據(jù)的準(zhǔn)確性恢復(fù)到預(yù)期的準(zhǔn)確性水平。
這些方法的變化嘗試把視頻數(shù)據(jù)變換成把數(shù)據(jù)相關(guān)關(guān)系暴露在空間相位和刻度之中的替代表達(dá)。一旦視頻數(shù)據(jù)已經(jīng)以這些方式變換,量化和差分編碼的方法就能適用于被變換的數(shù)據(jù),從而導(dǎo)致增加顯著圖像特征的保存。這些變換視頻壓縮技術(shù)中最普遍兩種是離散余弦變換(DCT)和離散子波變換(DWT)。DCT變換的誤差表明在視頻數(shù)據(jù)數(shù)值方面有廣泛的變化,因此,DCT通常被用在視頻數(shù)據(jù)塊上,為的是使這些錯誤的相關(guān)關(guān)系定位。來自這種定位的假象往往沿著這些區(qū)段的邊緣出現(xiàn)。就DWT而言,更復(fù)雜的假象在基礎(chǔ)函數(shù)和某些紋理之間有誤配的時候發(fā)生,而且這引起模糊效應(yīng)。為了抵消DCT和DWT的負(fù)面效應(yīng),表達(dá)的準(zhǔn)確性以寶貴的帶寬為代價增加到較少的失真。
發(fā)明內(nèi)容
本發(fā)明是一種在計算和分析方面均優(yōu)于現(xiàn)有頂級技術(shù)的方法的視頻處理方法。原則上本發(fā)明的方法是線性分解法,空間分段法和空間規(guī)范化法的整合??臻g限定的視頻數(shù)據(jù)大幅地增加線性分解法的強健性和適用性。此外,當(dāng)其它的高變異性數(shù)據(jù)在空間上與被分析的數(shù)據(jù)毗連的時候,數(shù)據(jù)的空間分段能減輕所引起的非線性。
具體地說,本發(fā)明提供一種能用它把信號數(shù)據(jù)有效地處理成一個或多個有益的表達(dá)的裝置。本發(fā)明在處理許多普遍發(fā)生的數(shù)據(jù)組時是有效的而且在處理視頻和圖像數(shù)據(jù)時是特別有效的。本發(fā)明的方法分析該數(shù)據(jù)并且提供數(shù)據(jù)的一個或多個簡潔表達(dá)以促進(jìn)它的處理和編碼。每個新的比較簡潔的數(shù)據(jù)表達(dá)對于許多應(yīng)用(包括但不限于視頻數(shù)據(jù)的編碼、壓縮、傳輸、分析、儲存和顯示)允許減少計算處理、傳輸帶寬和儲存需求。本發(fā)明包括用來識別和提取視頻數(shù)據(jù)的顯著成份的方法,允許區(qū)分?jǐn)?shù)據(jù)的處理和表達(dá)的優(yōu)先次序。信號中的噪音和其它不想要的部分被認(rèn)為是優(yōu)先權(quán)比較低的,以致進(jìn)一步的處理能集中在視頻信號中優(yōu)先權(quán)比較高的部分的分析和表達(dá)上。結(jié)果,視頻信號的表達(dá)比先前可能的更簡潔。而且把準(zhǔn)確性的損失集中在視頻信號中知覺上不重要的部分。
圖1是舉例說明現(xiàn)有技術(shù)視頻處理系統(tǒng)的方框圖。
圖2是提供本發(fā)明的概觀的方框圖,它展示用于處理視頻的主要組件。
圖3是舉例說明本發(fā)明的運動評估方法的方框圖。
圖4是舉例說明本發(fā)明的全面配準(zhǔn)方法的方框圖。
圖5是舉例說明本發(fā)明的規(guī)范化方法的方框圖。
具體實施例方式
在視頻信號數(shù)據(jù)中,視頻畫面組裝成通常描繪投影到二維成像表面上的三維現(xiàn)場的圖像序列。每個畫面(或圖像)都由代表成像敏感元件對抽樣信號的響應(yīng)的象素組成。時常,抽樣信號對應(yīng)于用二維敏感元件陣列抽樣的反射的、折射的或發(fā)射的電磁能。連續(xù)的順序抽樣導(dǎo)致時空數(shù)據(jù)流,每個畫面的兩個空間維度和一個時間維度對應(yīng)于該畫面在視頻序列中的次序。
如同圖2舉例說明的那樣,本發(fā)明分析信號數(shù)據(jù)和識別顯著成份。當(dāng)信號由視頻數(shù)據(jù)組成的時候,時空流分析揭示時常作為特定目標(biāo)的顯著成份(例如,面)。識別程序限定顯著成份的存在和重要性并且選擇那些顯著成份之中最重要的一個或多個顯著成份。這在目前描述的處理之后或同時不限制其它較為不顯著的成份的確認(rèn)和處理。然后,上述的顯著成份被進(jìn)一步分析,從而識別易變的和不變的子成份。不變的子成份的識別是建立該成份一些方面的模型的程序,借此揭示允許將該成份被合成到預(yù)期的準(zhǔn)確性水平的模型的參數(shù)表達(dá)法。
在本發(fā)明的一個實施方案中,探測和跟蹤前景目標(biāo)。該目標(biāo)的象素被識別并且從每個圖像畫面中分段出來?;趨^(qū)段的運動評估在多畫面中被應(yīng)用于被分段的目標(biāo)。然后,這些運動評估被整合成高級的運動模型。該運動模型用來把目標(biāo)例證隱藏到公用的空間配置中。對于特定的數(shù)據(jù),在這種配置中,目標(biāo)的多數(shù)特征被對準(zhǔn)。這種規(guī)范化允許將目標(biāo)象素數(shù)值的線性分解緊湊地表達(dá)在多畫面上。屬于目標(biāo)外表的顯著信息包含在這個緊湊的表達(dá)之中。
本發(fā)明的優(yōu)選實施方案詳細(xì)描述前景視頻目標(biāo)的線性分解。目標(biāo)在空間上規(guī)范化,借此得出緊湊的線性外觀模型。此外,進(jìn)一步的優(yōu)選實施方案在空間規(guī)范化之前將來自視頻畫面背景的前景目標(biāo)分段。
本發(fā)明的一個優(yōu)選實施方案將本發(fā)明應(yīng)用于進(jìn)入攝像機的人邊說話邊進(jìn)行少量運動的錄像片。
本發(fā)明的一個優(yōu)選實施方案將本發(fā)明應(yīng)用于錄像片中能通過空間轉(zhuǎn)換很好表達(dá)的任何目標(biāo)。
本發(fā)明的一個優(yōu)選實施方案明確地使用基于區(qū)段的運動評估來確定兩個或多個視頻畫面之間的有限差異。為了要提供更有效線性分解,高級運動模型是依據(jù)該有限差異因式分解的。
探測&跟蹤一旦已經(jīng)確定信號的顯著構(gòu)成成份,這些成份就可以被保留,而所有其它的信號成份可以被減少或去除。保留的成份代表該視頻數(shù)據(jù)的中間形式。然后,這個中間數(shù)據(jù)能使用對于現(xiàn)有的視頻處理方法通常不可得的技術(shù)編碼。因為該中間數(shù)據(jù)以幾種形式存在,所以標(biāo)準(zhǔn)的視頻編碼技術(shù)能用來給這些中間形式中的一些編碼。對于每個例證,本發(fā)明都先確定然后使用最有效的編碼技術(shù)。
特性分析程序進(jìn)行顯著信號模式的探測和分類。這個程序的一個實施方案使用明確地為產(chǎn)生強度與視頻畫面中目標(biāo)被探測的特性有關(guān)的響應(yīng)信號而設(shè)計的空間過濾器的組合。該分類程序是以不同的空間刻度應(yīng)用于視頻畫面不同位置的。來自分類程序的響應(yīng)的強度指出顯著信號模式出現(xiàn)的可能性。當(dāng)中心定在十分顯著的目標(biāo)上的時候,該程序用對應(yīng)強烈的響應(yīng)給它分類。顯著信號模式的探測通過促成對視頻序列中的顯著數(shù)據(jù)的后來的處理和分析來辨別本發(fā)明。
給出顯著信號模式在一個或多個視頻畫面中的探測位置,本發(fā)明分析顯著信號模式的無變化特征。此外,本發(fā)明對于無變化的特征分析該信號的殘值,“較少顯著的”信號模式。無變化特征的識別提供用來減少多余信息和分段(即,區(qū)分)信號模式的基礎(chǔ)。
特征點跟蹤在本發(fā)明一個實施方案中,在一個或多個畫面中的空間位置是通過空間強度字段梯度分析確定的。這些特征對應(yīng)于“線”的一些交點,這些交點能被不嚴(yán)謹(jǐn)?shù)孛枋鰹椤肮战恰?。這樣的實施方案進(jìn)一步選擇一組這樣的拐角作為強壯的彼此空間上無聯(lián)系的拐角,在此稱之為特征點。促進(jìn),使用光學(xué)流的分層多分辨率評估允許確定隨著時間流逝特征點的平移位移。
特征跟蹤的非限制性實施方案能被這樣使用,以致這些特征被用來證明更規(guī)則的梯度分析法(例如,基于區(qū)段的運動評估)合格。
另一個實施方案期待以特征跟蹤為基礎(chǔ)的運動評估的預(yù)測。
以目標(biāo)為基礎(chǔ)的探測和跟蹤在本發(fā)明的一個非限制性實施方案中,強健的目標(biāo)分類程序被用來跟蹤視頻畫面中的面。這樣的分類程序以對面上已經(jīng)過訓(xùn)練的定向邊緣的級聯(lián)響應(yīng)為基礎(chǔ)。在這個分類程序中,邊緣被定義為一組基本的Haar特征和那些特征的45度旋轉(zhuǎn)。級聯(lián)分類程序是AdaBoost算法的變體。此外,響應(yīng)計算能通過使用總面積表被優(yōu)化。
局部配準(zhǔn)配準(zhǔn)包括在兩個或多個視頻畫面中被識別的目標(biāo)元素之間的對應(yīng)關(guān)系的分配。這些對應(yīng)關(guān)系變成用來建立在視頻數(shù)據(jù)中時間上截然不同的點的視頻數(shù)據(jù)之間的空間關(guān)系模型的基礎(chǔ)。
現(xiàn)在描述用于本發(fā)明的各種不同的非限制性的配準(zhǔn)方法,為的是根據(jù)廣為人知的算法和那些算法的富有創(chuàng)造性的派生算法舉例說明特定的實施方案和它們相關(guān)聯(lián)的對實踐的縮減量。
在時空序列中建立明顯的光學(xué)流模型的一種方法可以是通過從視頻數(shù)據(jù)的兩個或多個畫面產(chǎn)生有限差分字段實現(xiàn)的。如果對應(yīng)關(guān)系遵照特定的恒定不變的限制,光學(xué)流場能在空間和強度雙重意義上被稀疏地評估。
菱形搜尋假定把一個視頻畫面不重疊地分割成若干區(qū)段,搜尋與每個區(qū)段匹配的先前的視頻畫面。以全面搜尋區(qū)段為基礎(chǔ)的(FSBB)運動評估找出與當(dāng)前畫面中的一個區(qū)段比較時在早先的視頻畫面中誤差最小的位置。完成FSBB可能是計算費用十分浩大的,而且往往不產(chǎn)生比以局部運動假設(shè)為基礎(chǔ)的其它評估方案更好的匹配。以菱形搜尋區(qū)段為基礎(chǔ)的(DSBB)梯度下降運動評估是FSBB的常見的替代品,它使用各種不同尺寸的菱形搜尋圖案朝著對于某個區(qū)段最好的匹配的方向反復(fù)地橫越誤差梯度。
在本發(fā)明的一個實施方案中,DSBB被用于一個或多個視頻畫面之間的圖像梯度字段分析,以便產(chǎn)生其數(shù)值稍后被因式分解成高階運動模型的有限差分。
熟悉這項技術(shù)的人知道基于區(qū)段的運動評估能被視為規(guī)則網(wǎng)孔的頂點分析的同價物。
基于相位的運動評估在現(xiàn)有技術(shù)中,基于區(qū)段的運動評估通常是作為導(dǎo)致一個或多個空間匹配的空間搜尋實現(xiàn)的?;谙辔坏囊?guī)范化的互相關(guān)(PNCC)如同圖3舉例說明的那樣把來自當(dāng)前畫面和先前畫面的區(qū)段變換到“相空間”中并且尋找兩個區(qū)段的互相關(guān)關(guān)系。該互相關(guān)關(guān)系被表達(dá)為其位置與兩個區(qū)段之間的邊緣的“相移”相對應(yīng)的數(shù)值字段。這些位置通過定閾值被隔離,然后被逆變換成空間坐標(biāo)。這些空間坐標(biāo)是截然不同的邊緣位移,而且對應(yīng)于運動矢量。
PNCC的優(yōu)勢包括允許視頻流中的增益/曝光調(diào)節(jié)允差的反差掩蔽。另外,PNCC允許來自或許從基于空間的運動評估程序獲得許多迭代的單一步驟的結(jié)果。此外,該運動評估是子象素精確的。
本發(fā)明的一個實施方案在一個或多個視頻畫面之間的圖像梯度字段的分析中利用PNCC,為的是產(chǎn)生其數(shù)值稍后被因式分解成高階運動模型的有限差分。
全面配準(zhǔn)在一個實施方案中,本發(fā)明將來自有限差分評估的字段的一個或多個線性模型因式分解。發(fā)生這樣的抽樣的字段在此被稱為有限差分的一般群體。所描述的方法使用與RANSAC算法類似的強健的評估。
在線性模型評估算法的一個實施方案中,運動模型評估程序以線性最小二乘解為基礎(chǔ)。這種相關(guān)性使評估程序擺脫離群數(shù)據(jù)。基于RANSAC,所揭示的方法是一種通過數(shù)據(jù)子集的反復(fù)評估制止離群效應(yīng),對將描述數(shù)據(jù)的重要子集的運動模型進(jìn)行探查的強健方法。每個探頭產(chǎn)生的模型都對它所代表的數(shù)據(jù)百分比進(jìn)行測試。如果有相當(dāng)大的迭代次數(shù),則將發(fā)現(xiàn)適合最大的數(shù)據(jù)子集的模型。
如同在圖4中構(gòu)思和舉例說明的那樣,本發(fā)明揭示一些在算法變更形式上超過RANSAC算法的改革,包括有限差分的初始抽樣(子樣)和線性模型的最小二乘評估。綜合誤差是使用已解的線性模型對一般群體中的所有子樣評估的。根據(jù)子樣數(shù)目把一個等級分配給該線性模型,其殘差符合預(yù)先設(shè)定的閾值,這個等級被看作是“候選共識”。
初始抽樣、求解和歸類是通過迭代完成的,直到終止判據(jù)得到滿足為止。一旦該判據(jù)得到滿足,等級最高的線性模型被看作是群體的最后共識。
一個非必選的改進(jìn)步驟包括按照對候選模型擬合最好的次序反復(fù)地分析子樣的子集和逐漸增加子集的大小,直到加一后較多的子樣將超過整個子集的殘留誤差閾值。
所描述的本發(fā)明的非限制性實施方案可以作為抽取矢量空間(前面被描述為有限差分矢量的字段)子樣的一般方法被進(jìn)一步推廣,為的是在將與某特定的線性模型相對應(yīng)的另一個參數(shù)矢量空間中確定子空間簇。
全面配準(zhǔn)程序的一個較進(jìn)一步的結(jié)果是這和地方配準(zhǔn)之間的不同程序產(chǎn)生地方配準(zhǔn)剩余的。這個剩余是在接近地方模型方面全局模型誤差。
規(guī)范化規(guī)范化指的是朝著標(biāo)準(zhǔn)的或通常的空間配置方向再次抽取空間強度字段子樣。當(dāng)這些相對空間配置是這樣的配置之間的可逆變換的時候,象素的再次抽樣和附帶插值也是直到拓?fù)錁O限可逆的。本發(fā)明規(guī)范化方法是用圖5舉例說明的。
當(dāng)兩個以上空間強度字段被規(guī)范化的時候,增高的計算效率可以通過保存中間的規(guī)范化計算結(jié)果來實現(xiàn)。
為了配準(zhǔn)的目的,或等效地為了規(guī)范化,用來再次抽取圖像子樣的空間變換模型包括總體模型和本地模型。總體模型有從平移變換到影射變換逐漸增加的階次。本地模型是暗示在基本上用區(qū)段或更復(fù)雜地用分段線性網(wǎng)孔確定的鄰近象素上的內(nèi)插式的有限差分。
原始強度字段對規(guī)范化強度字段的插值增加基于強度字段子集的PCA外表模型的直線性。
分段通過進(jìn)一步描述的分段程序識別的空間間斷點是通過它們各自邊界的幾何參數(shù)表達(dá)法(被稱為空間間斷點模型)有效地編碼的。這些空間間斷點模型可以以永遠(yuǎn)慮及與編碼子集相對應(yīng)的更簡潔的邊界描述的漸進(jìn)方式編碼。漸進(jìn)式編碼提供在保留空間間斷點的許多顯著方面的同時按優(yōu)先次序安排空間幾何學(xué)的強健方法。
本發(fā)明一個優(yōu)選實施方案把多分辨率分段分析和空間強度梯度字段分析結(jié)合起來并且進(jìn)一步使用時間穩(wěn)定性限制,為的是實現(xiàn)強健的分段。
本發(fā)明使用的無變化特征分析的一種形式把重心集中在空間間斷點的識別上。這些間斷點是作為邊緣、陰影、遮蔽、線、拐角或任何其它在一個或多個視頻成像畫面中引起象素之間突然的和可以辨認(rèn)的分離的可見特征出現(xiàn)的。此外,在顏色和/或紋理類似的目標(biāo)之間細(xì)微的空間間斷點出現(xiàn)在視頻畫面中目標(biāo)象素相對于目標(biāo)自己正在經(jīng)歷粘附運動而相對于其它目標(biāo)正在經(jīng)歷不同的運動之時。本發(fā)明利用頻譜分段、紋理分段和運動分段的組合強健地識別與顯著信號模式相關(guān)聯(lián)的空間間斷點。
時間分段把平移運動矢量或在空間強度字段中等價的有限差分測量結(jié)果按時間整合成高階運動模型是現(xiàn)有技術(shù)描述的一種運動分段形式。
在本發(fā)明的一個實施方案中,產(chǎn)生密集的運動矢量場表現(xiàn)圖像中目標(biāo)運動的有限差分。這些導(dǎo)數(shù)通過瓦片的規(guī)則分割或借助設(shè)定初值程序(例如,空間分段)按空間聚集在一起。每組的“導(dǎo)數(shù)”都使用線性最小二乘評估程序整合成一高階運動模型。然后,由此產(chǎn)生的運動模型作為運動模型空間中的矢量使用k-means群集技術(shù)群集。這些導(dǎo)數(shù)是根據(jù)與它們擬合最好的群分類的。然后,群標(biāo)作為空間分割的演化按空間群集。該程序一直繼續(xù)到空間分割是穩(wěn)定的。
在本發(fā)明的進(jìn)一步的實施方案中,用于給定孔徑的運動矢量被內(nèi)插到一組與該孔徑相對應(yīng)的象素位置。當(dāng)用這種內(nèi)插定義的區(qū)段跨越與目標(biāo)邊界相對應(yīng)的象素時候,由此產(chǎn)生的分類是該區(qū)段的某種不規(guī)則的對角線分割。
在現(xiàn)有技術(shù)中,用來整合導(dǎo)數(shù)的最小二乘評估程序?qū)﹄x群值是非常敏感的。這種敏感性能產(chǎn)生使運動模型群集方法嚴(yán)重地向迭代結(jié)果相差很大地發(fā)散的點傾斜的運動模型。
在本發(fā)明中,運動分段方法通過在兩個以上視頻畫面上分析明顯的象素運動識別空間間斷點。明顯的運動在這些視頻畫面上對一致性分析的并且被整合成參數(shù)運動模型。與這種一致運動相關(guān)聯(lián)的空間間斷點被識別。運動分段也可以被稱為時間分段,因為時間變化可能是由運動引起的。然而,時間變化也可可能是由一些其它的現(xiàn)象(例如,局部變形、照明變化,等等)引起的。
通過所描述的方法,與規(guī)范化方法相對應(yīng)的顯著信號模式能被識別而且能通過幾種背景減法之一與周圍的信號模式(背景或非目標(biāo))分開。時常,這些方法從統(tǒng)計上建立象素在每個時間樣本呈現(xiàn)最小變化的背景模型。變化能被視為象素數(shù)值差異。作為替代,運動分段能在給出顯著圖像模式的被探測位置和數(shù)值范圍的情況下實現(xiàn)。距離變換能用來確定每個象素距被探測位置的距離。如果與最大距離相關(guān)聯(lián)的象素數(shù)值被保留,合理的背景模型能被求解。換句話說,能使用信號差異度量標(biāo)準(zhǔn)按時間對環(huán)境信號再次抽樣。
給出環(huán)境信號的模型,就能按每個時間樣本區(qū)別完全的顯著信號模式。這些差別每個都能通過再次抽樣變成空間規(guī)范化的信號差異(絕對差異)。然后,這些差異被相對彼此對準(zhǔn)和累積。由于這些差異相對于顯著信號模式已按空間規(guī)范化,所以,差異的峰通常將對應(yīng)于與顯著信號模式相關(guān)聯(lián)的象素位置。
梯度分段紋理分段方法或同義的強度梯度分段分析象素在一個或多個視頻畫面中的本地梯度。梯度響應(yīng)是表征空間間斷點的統(tǒng)計尺度,其中所述空間間斷點對于該視頻畫面中的象素位置是本地的。然后,使用幾種空間群集技術(shù)之一把這些梯度響應(yīng)組合成一些空間區(qū)域。這些區(qū)域的邊界在識別一個或多個視頻畫面中的空間間斷點方面是有用的。
在本發(fā)明的一個實施方案中,來自計算機圖形紋理生成的總面積表概念被用于加快強度場梯度計算的目的。累加值字段的產(chǎn)生使通過與四次加法運算結(jié)合的四次查詢計算任何長方形原始字段的總和變得容易。
進(jìn)一步的實施方案使用對一幅圖像產(chǎn)生的Harris響應(yīng),而每個象素的鄰近區(qū)域被歸類為同種的、邊緣或拐角。響應(yīng)數(shù)值是依據(jù)這個信息產(chǎn)生的并且指出畫面中每種元素的邊緣狀態(tài)或拐角狀態(tài)的程度。
光譜分段光譜分段方法分析視頻信號中黑白、灰度或彩色象素的統(tǒng)計概率分布。頻譜分類程序是通過完成關(guān)于那些象素的概率分布的群集操作構(gòu)成的。然后,使用該分類程序把一個或多個象素分類,使之屬于某個概率類別。然后,由此產(chǎn)生的概率類別和它的象素被賦予類別標(biāo)簽。然后,這些類別標(biāo)簽按空間與截然不同的邊界聯(lián)合進(jìn)入象素區(qū)域。這些邊界識別在一個或多個視頻畫面中的空間間斷點。
本發(fā)明可以利用基于光譜分類的空間分段來分割視頻畫面中的象素。此外,區(qū)域之間的對應(yīng)關(guān)系可以基于光譜區(qū)域與先前分段的區(qū)域的重疊確定。
業(yè)已觀察到當(dāng)視頻畫面大致由空間上被連接成與視頻畫面中的目標(biāo)相對應(yīng)的較大區(qū)域的連續(xù)彩色區(qū)域組成的時候,彩色(或光譜)區(qū)域的識別和跟蹤能促進(jìn)圖像序列中目標(biāo)的后續(xù)分段。
建立外觀模型視頻處理的通常目標(biāo)往往是建立模型和保存視頻畫面序列的外觀。本發(fā)明指向允許通過預(yù)處理的運用以強健的和廣泛適用的方式應(yīng)用強制外觀建模技術(shù)。先前描述的配準(zhǔn)、分段和規(guī)范化明顯地適合這個目的。
本發(fā)明揭示建立外觀變化模型的方法。在線性模型的情況下分析特征矢量的主要基礎(chǔ)是揭示開發(fā)利用線性相關(guān)關(guān)系的堅實基礎(chǔ)。表達(dá)空間強度場象素的特征矢量能組裝成外觀變化模型。
在替代實施方案中,外觀變化模型是依據(jù)被分段的象素子集計算的。此外,該特征矢量能被分成若干空間上不重疊的特征矢量。這樣空間分解可以用空間鋪瓦來實現(xiàn)。計算效率可以通過處理這些時間總體實現(xiàn),而不犧牲更全面的PCA方法的維數(shù)減少。
在產(chǎn)生外觀變化模型時,空間強度場規(guī)范化能被用來減少空間變形的PCA建模。
主要成份分析產(chǎn)生外觀變化模型的優(yōu)選方法是通過把視頻畫面作為圖案矢量組裝成一個訓(xùn)練矩陣或總體和把主要成份分析(PCA)應(yīng)用在該訓(xùn)練矩陣上。當(dāng)這樣的擴(kuò)展被刪節(jié)的時候,由此產(chǎn)生的PCA變形矩陣被用來分析和合成后面的視頻畫面?;趧h節(jié)水平,改變象素最初的外觀質(zhì)量水平能實現(xiàn)。
構(gòu)成和分解圖案矢量的特定方法對于熟悉這項技術(shù)的人是廣為人知的。
給出來自環(huán)境信號的顯著信號模式的空間分段和這個模式的空間規(guī)范化,象素本身,或同義地,由此產(chǎn)生的規(guī)范化信號的外觀,能被因式分解成線性相關(guān)的成份,其中低級參數(shù)表達(dá)考慮到象素外觀表達(dá)的近似值誤差和比特率之間的直接交換。
連續(xù)的PCAPCA使用PCA變換把圖案編碼成PCA系數(shù)。用PCA變換表達(dá)的圖案越好,給該圖案編碼所需要的系數(shù)就越少。承認(rèn)圖案矢量隨著時間流逝在獲得的訓(xùn)練圖案和被編碼的圖案之間可能降級,更新變換能幫助抵消這種降級。作為產(chǎn)生新變換的替代品,現(xiàn)有圖案的連續(xù)更新在特定的情況下是計算上更有效的。
許多最新穎的視頻壓縮算法依據(jù)一個或多個其它的畫面預(yù)測某視頻畫面。預(yù)測模型通?;诎衙總€預(yù)測畫面分割成與另一畫面中對應(yīng)的補丁和相關(guān)聯(lián)的用偏移運動矢量參數(shù)化的平移位移的相匹配的不重疊的瓦片。非必選地與畫面索引耦合的空間位移提供瓦片的“運動預(yù)測”版本。如果預(yù)測的誤差在特定的閾值以下,則瓦片的象素適合殘差編碼;而且在壓縮效率方面有對應(yīng)的增益。否則,瓦片的象素被直接編碼。這種基于瓦片的或叫做基于區(qū)段的運動預(yù)測方法通過平移包含象素的瓦片建立影像模型。當(dāng)影像中的成像現(xiàn)象堅持這個建模類型的時候,對應(yīng)的編碼效率增加。為了與在基于區(qū)段的預(yù)測中固有的平移假定一致,這種建模限制假定特定的時間分辨率水平(或每秒幀數(shù))對于正在經(jīng)歷運動的成像目標(biāo)是存在的。這種平移模型的另一個需求是對于特定的時間分辨率空間位移受限制;換言之,用來推導(dǎo)預(yù)測結(jié)果的畫面和被預(yù)測的畫面之間的時差必須是比較短的絕對時間量。這些時間分辨率和運動限制使存在于視頻流中的特定的多余視頻信號成份的確認(rèn)和建模變得容易。
基于殘差的分解在MPEG視頻壓縮中,當(dāng)前的畫面是通過先對先前的畫面使用運動矢量進(jìn)行運動補償,然后把殘差更新應(yīng)用于補償區(qū)段,最后將任何沒有充份匹配的區(qū)段作為新區(qū)段完成編碼構(gòu)成的。
與剩余區(qū)段相對應(yīng)的象素通過運動矢量映射到先前畫面中的象素上。結(jié)果是象素通過能通過連續(xù)應(yīng)用殘值合成的影像的瞬時路徑。這些象素被確認(rèn)為能最好地使用PCA表達(dá)的象素。
基于遮蔽的分解本發(fā)明的進(jìn)一步提高確定適用于諸區(qū)段的運動矢量是否將會導(dǎo)致來自先前畫面的任何象素被移動象素遮蔽(覆蓋)。對于每個遮蔽事件,都把遮蔽象素劈成新層。沒有歷史的象素也將被暴露。暴露出來的象素被放到在當(dāng)前畫面中適合它們而且歷史上適宜于它們的也能變得適合所述層的任何層上。
象素的時間連續(xù)性是通過象素對不同層的接合和移植得到支持的。一旦獲得穩(wěn)定的層模型,每層中的象素就能基于對條理分明的運動模型的從屬關(guān)系聚集。
分波段時間量化本發(fā)明的替代實施方案使用離散的余弦變換(DCT)或離散的子波變換(DWT)把每個畫面分解成分波段圖像。然后,將主要成份分析(PCA)應(yīng)用于這些“分波段”影像之中的每幅影像。概念是視頻畫面的分波段分解與原始視頻畫面比較時減少任何一個分波段中的空間變化。
就移動目標(biāo)(人)的影像而言,空間變化傾向于支配用PCA建模的變化。分波段分解減少任何一個分解影像中的空間變化。
就DCT而言,任何一個分波段的分解系數(shù)在空間上被安排到分波段影像之中。舉例來說,DC系數(shù)是從每個區(qū)段獲取的并且被安排到分波段影像之中,看起來像原始影像的郵票版本一樣。這對所有其它的分波段重復(fù),而且由此產(chǎn)生的分波段影像每個都使用PCA處理。
就DWT而言,分波段是已經(jīng)以對DCT描述的方式排列的。
在非限制性實施方案中,PCA系數(shù)的刪節(jié)是變化的。
子波當(dāng)使用離散的子波變換(DWT)分解數(shù)據(jù)的時候,以較低的空間分辨率產(chǎn)生多個帶通數(shù)據(jù)組。轉(zhuǎn)換程序能被遞歸地應(yīng)用于導(dǎo)出數(shù)據(jù)直到僅僅產(chǎn)生單一的標(biāo)量數(shù)值為止。在已分解的結(jié)構(gòu)中標(biāo)量元素通常以分等級的父母/孩子方式相關(guān)。由此產(chǎn)生的數(shù)據(jù)包含多分辨率的分等級結(jié)構(gòu)以及有限差分。
當(dāng)DWT被應(yīng)用于空間強度字段的時候,許多自然發(fā)生的圖像現(xiàn)象是借助由低空間頻率造成的第一或第二低帶通導(dǎo)出數(shù)據(jù)結(jié)構(gòu)以與微不足道的知覺損失表達(dá)的。在當(dāng)高頻空間數(shù)據(jù)不是不存在就是被視為噪音的時候,刪節(jié)分等級的結(jié)構(gòu)提供簡明的表達(dá)。
盡管PCA可以用來以為數(shù)不多的系數(shù)實現(xiàn)正確的重建,但是這種變換本身可能是相當(dāng)大的。為了減少這個“初始”變換的大小,可以使用子波分解的嵌零樹(EZT)結(jié)構(gòu)來建立變換矩陣的越來越精確的版本。
權(quán)利要求
1.一種用來生成來自為數(shù)眾多的視頻畫面的視頻信號數(shù)據(jù)的編碼形式的裝置,該裝置包括探測所述視頻畫面序列中的目標(biāo)的裝置;通過所述視頻畫面序列中的兩畫面或多畫面跟蹤所述目標(biāo)的裝置;識別所述目標(biāo)在兩畫面或多畫面之間的對應(yīng)元素的裝置;建立這種對應(yīng)關(guān)系的模型產(chǎn)生模型式對應(yīng)關(guān)系的裝置;在所述視頻畫面中再次抽取與所述目標(biāo)相關(guān)聯(lián)的象素數(shù)據(jù)子樣的裝置,所述再次抽樣裝置利用所述的模型式對應(yīng)關(guān)系;把與所述目標(biāo)相關(guān)聯(lián)的所述象素數(shù)據(jù)與所述視頻畫面序列中其它的象素數(shù)據(jù)分割開的裝置;分解所述被分割的目標(biāo)象素數(shù)據(jù)的裝置,所述的分解裝置包括主要成份分析,所述的分割裝置包括臨時整合,所述對應(yīng)關(guān)系建模裝置包括對仿射運動模型的解的強健的抽樣共識,所述對應(yīng)關(guān)系建模裝置包括基于依據(jù)在所述序列中的兩個或多個視頻畫面之間基于區(qū)段的運動評估所產(chǎn)生的有限差異的抽樣群體,而所述目標(biāo)探測和跟蹤裝置包括Viola/Jones面探測算法。
全文摘要
這項發(fā)明描述用來處理視頻數(shù)據(jù)的裝置和方法。本發(fā)明提供一種視頻數(shù)據(jù)的表達(dá),該表達(dá)能用來評定數(shù)據(jù)和用于數(shù)據(jù)的特定參數(shù)表達(dá)的擬合模型之間的一致性。這允許比較不同的參數(shù)化技術(shù)和選擇最佳的繼續(xù)處理該特定視頻數(shù)據(jù)的技術(shù)。所述表達(dá)能以中間形式作為較大程序的鋪墊或作為反饋機制被用于處理視頻數(shù)據(jù)。當(dāng)以它的中間形式被利用的時候,本發(fā)明能被用于視頻數(shù)據(jù)的儲存、增強、提煉、特征提取、壓縮、編碼和傳輸?shù)某绦?。本發(fā)明可用來以強健有效的方式提取顯著的信息,同時確定通常與視頻數(shù)據(jù)來源相關(guān)聯(lián)的問題的地址。
文檔編號G06K9/00GK101036150SQ200580032385
公開日2007年9月12日 申請日期2005年7月28日 優(yōu)先權(quán)日2004年7月30日
發(fā)明者查爾斯·保羅·佩斯 申請人:歐幾里得發(fā)現(xiàn)有限責(zé)任公司