專利名稱:數(shù)據(jù)分析方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體涉及數(shù)據(jù)分析的方法和裝置。具體而言,本發(fā)明涉及用于分析數(shù)據(jù)和在不同的域(domain)(例如時(shí)間域、空間域、顏色域和形狀域)內(nèi)提取與利用相關(guān)結(jié)構(gòu)的方法和裝置。
背景技術(shù):
就對(duì)形狀、顏色和運(yùn)動(dòng)的要求而言,為了產(chǎn)生高質(zhì)量的視覺圖像,一般需要對(duì)視頻應(yīng)用領(lǐng)域內(nèi)的全運(yùn)動(dòng)數(shù)字圖像序列進(jìn)行龐大的數(shù)據(jù)處理。數(shù)據(jù)壓縮經(jīng)常用來減少存儲(chǔ)和處理的數(shù)據(jù)量。一個(gè)數(shù)據(jù)壓縮系統(tǒng)一般包括用來對(duì)大量視頻數(shù)據(jù)提供簡單而有效表示的建模(modelling)子系統(tǒng)。
已經(jīng)研制出適于視頻圖像壓縮的一些壓縮系統(tǒng)。這些系統(tǒng)按照其運(yùn)算和建模特性,可以分為三大類。第一種采用因果球體建模(causal global modelling)方法。這種模型的一個(gè)實(shí)例是三維(3D)線幀模型,它隱含了一小組或多或少的固定線框格點(diǎn)處的空間控制位置和密度并在格點(diǎn)之間進(jìn)行內(nèi)插。在有些應(yīng)用中,這種方法與實(shí)心物體的3D射線示蹤相結(jié)合。由于其涉及到非常深層次的模型,即,必須花很大氣力放在展開綜合模型上,所以線幀方法可以提供非常有效和緊湊的數(shù)據(jù)表示。因此,這種模型提供了較好的視覺效果。
但是,這種方法有幾個(gè)缺點(diǎn)。第一,這種因果類型的模型需要預(yù)先提供有關(guān)3D特征、表面紋理、光照特性和運(yùn)動(dòng)方式的詳盡的建模信息。第二,由于模型一旦定義后就很難根據(jù)所遇到的無法估計(jì)的新圖像動(dòng)態(tài)補(bǔ)充和更新,所以在一般的編碼器中靈活利用經(jīng)驗(yàn)的能力很差。因此這類模型的方法在需要實(shí)時(shí)視頻序列動(dòng)態(tài)建模的情況下用得很少。
第二種建模系統(tǒng)是經(jīng)驗(yàn)型可更新壓縮系統(tǒng),它涉及非常有限的模型展開,但提供的壓縮不夠充分。MPEG1和MPEG2兼容系統(tǒng)就是這種方法的代表。例如,在MPEG標(biāo)準(zhǔn)中,一個(gè)圖像序列被表示為一組稀疏的靜止圖像幀,例如一個(gè)序列中每第10幀,它們通過像素塊(如8X8的像素塊)來壓縮/解縮。中間各幀根據(jù)最鄰近解縮幀。由塊變化的附加信息(代表了塊運(yùn)動(dòng)和密度(intensity)變化模式)所修正了的重建出來。一般采用離散余弦變換(DCT)來壓縮/解縮靜止圖像,但是也可以采用諸如子帶、子波或分形靜止圖像編碼等其它方法。由于這種方法涉及的建模深度很小,所以常常忽略時(shí)間和空間上的長程對(duì)稱冗余度從而基本上是多次重復(fù)存儲(chǔ)/傳送相同的信息。
第三種建模系統(tǒng)是基于因子分析的圖像密度經(jīng)驗(yàn)型球體建模。這種方法采用了諸如主分量分析之類的各種技術(shù)以通過對(duì)F個(gè)“因子”的權(quán)重求和來逼近由N幀圖像組成的組的密度。每個(gè)這樣的因子都包含相對(duì)于每個(gè)像素的空間參量和相對(duì)于每一幀的時(shí)間參量。因子的空間參量有時(shí)稱為“裝入”,而時(shí)間參量稱為“計(jì)分s”。這種方法的一個(gè)實(shí)例是用于壓縮和識(shí)別人臉圖像的圖像密度N×M(每幀M個(gè)像素,N幀)矩陣的Karhunen—Loeve擴(kuò)展。在Kirby,M和Sirovich,L發(fā)表在IEEE模式識(shí)別和機(jī)器智能處理,Vol.12,No.1,pp.103—108(1990)上的“人臉特征的Karhunen—Loeve程序的應(yīng)用”一文中以及R.C.Gonzales和R.E.Woods所著的《數(shù)字圖像處理》(Addision-Wesley Publ.Co.,ISBN0—201—50803—6,1992)一書3.6章中都有詳細(xì)的論述,它們作為參考文獻(xiàn)包含在這里。
在Karhunen—Loeve擴(kuò)展(也稱為本征分析或主分量分析、Hotelling變換和單值分解)中,每個(gè)連續(xù)的因子的裝入與計(jì)分s之積使原始的與重建的圖像密度的平方差減至最小。每個(gè)因子對(duì)于每個(gè)像素都有一個(gè)裝入值,因此可以稱為“本征畫面”;對(duì)于每幀也有相應(yīng)的計(jì)分s值。應(yīng)該注意的是,Karhunen—Loeve系統(tǒng)只是在一個(gè)域(即密度域)中使用因子,這與在諸如密度、地址和概率等多個(gè)域中使用因子的本發(fā)明不同。
在某些情況下(如像素組在圖像與圖像之間以固定的模式顯示出關(guān)聯(lián)的密度變化時(shí)),這種壓縮系統(tǒng)的壓縮效果非常好。例如,如果每次像素a、b、c變暗,d、e、f變亮,并且反之也一樣,則可以利用一個(gè)由像素a、b、c為正值而d、e、f為負(fù)值的本征畫面密度裝入構(gòu)成的單因子有效地對(duì)a、b、c、d、e、f所有像素建模。隨后對(duì)每幅圖像利用一個(gè)計(jì)分s數(shù)對(duì)該像素組建模。其它的關(guān)聯(lián)像素模式涉及另外的因子。
這種方法如果使用的表示原始圖像的因子太少,則在重建時(shí)將帶來視覺上的中斷誤差。此外,如果圖像與圖像之間的差異包含大量的空間對(duì)稱變化,如移動(dòng)物體,則獲得良好視覺效果所需的本征畫面數(shù)量也相應(yīng)增加。這樣,壓縮率顯著降低。因此,圖像密度因子建模的Karhunen—Loeve系統(tǒng)無法提供視頻應(yīng)用所需的壓縮。
視頻編碼的第四種方法是采用面向?qū)ο蟮木幋a譯碼器。這種方法的關(guān)鍵是識(shí)別出以相當(dāng)簡單和易于壓縮的方式移動(dòng)和/或一起改變密度的像素“自然”組(“對(duì)象”)。更為先進(jìn)的面向?qū)ο笙到y(tǒng)在各個(gè)對(duì)象的形狀和密度處理上引入了某些靈活性,例如平移、標(biāo)度變換、旋轉(zhuǎn)和剪切變換等仿射形狀變換,或者單因子密度變化。但是,應(yīng)該看到的是,面向?qū)ο笙到y(tǒng)一般只用單因子。
在現(xiàn)有技術(shù)的系統(tǒng)中,一般采用下面兩種方法中的一種來逼近運(yùn)動(dòng)。第一種方法是短時(shí)間間間隔內(nèi)的增量運(yùn)動(dòng)補(bǔ)償,它基本上根據(jù)作為差別圖像而傳送的幀n內(nèi)的像素與前一幀n—1內(nèi)的像素之間的差別進(jìn)行差別編碼。MPEG就是這種系統(tǒng)的例子。由于僅用差別圖像部分來表示,所以這種方法相對(duì)比較簡單地引入新的特征。但是這種方法在動(dòng)態(tài)適應(yīng)時(shí)有明顯的缺點(diǎn),或者說學(xué)習(xí)起來非常困難。例如,當(dāng)圖像中有一個(gè)物體移動(dòng)時(shí),其位置和密度都發(fā)生變化,因而難以提取任何對(duì)稱的數(shù)據(jù)變化。這樣,即使是最簡單形式的運(yùn)動(dòng)也需要大量的建模。
增量運(yùn)動(dòng)補(bǔ)償?shù)牧硪环N方法是基于公共參考幀的紋理映射,它根據(jù)通過計(jì)算得到的相對(duì)于公共參考幀的運(yùn)動(dòng)和從公共參考幀移入新合成幀的像素來實(shí)現(xiàn)。這種方法一般為大多數(shù)線幀模型所采用。這種方法的優(yōu)點(diǎn)是效率非常高并且在一些情況下還可以緊湊表示。但是這種方法明顯的不足之處是只有在運(yùn)動(dòng)物體保持初始密度或紋理時(shí)才能維持高效率。由于現(xiàn)有系統(tǒng)只是在密度或地址中包含一維變化模型,所以不大容易引入密度或特征變化。
因此,本發(fā)明的其中一個(gè)目標(biāo)是提供一種數(shù)據(jù)分析的方法和裝置,它在不需要大量預(yù)先建模信息的情況下(但如果有這樣的信息,這也能利用)提供非常有效和緊縮的數(shù)據(jù)表示。
本發(fā)明還有一個(gè)目標(biāo)是提供一種數(shù)據(jù)分析的方法和裝置,它具有靈活運(yùn)用經(jīng)驗(yàn)的能力并且能根據(jù)各數(shù)據(jù)分析域上短程和長程范圍內(nèi)的對(duì)稱冗余度動(dòng)態(tài)更新。
本發(fā)明進(jìn)一步的目標(biāo)是提供一種數(shù)據(jù)分析的方法和裝置,除了密度域以外,它還在地址和概率域等多個(gè)域上采用因子分析方法。另外,對(duì)于各個(gè)數(shù)據(jù)子組(例如每個(gè)空間上隔開的對(duì)象)都進(jìn)行因子分析。
本發(fā)明另一個(gè)目標(biāo)是提供一種數(shù)據(jù)分析的方法和裝置,它在幾個(gè)域上采用多個(gè)因子來建模。為了能更有效地學(xué)習(xí)和建模輸入數(shù)據(jù)(如視頻圖像)中的對(duì)稱變化模式,要將這些“軟”模型(地址、密度、譜性質(zhì)、透明度、紋理、類型和時(shí)間)與“硬”模型結(jié)合起來使用。這種“硬”建模的例子有a)普通的運(yùn)動(dòng)物體仿射運(yùn)動(dòng)建模,如平移、旋轉(zhuǎn)、標(biāo)度變換和剪切(包括相機(jī)的攝取全景和放大縮小),以及b)多重信號(hào)校正(MSC)和擴(kuò)展,混合多重和疊加的密度效應(yīng)的建模(H.Martens和T.Naes,《多變量標(biāo)度》,pp.345—350,(John Wiley &Sons,1989),它作為參考文獻(xiàn)包含在這里)。
本發(fā)明進(jìn)一步的目標(biāo)是,除了空間域以外,還在其它域上建模,例如將局部的有效時(shí)間變化模式分入時(shí)間對(duì)象而將譜模式分入譜對(duì)象。因此,為了避免物理實(shí)體或面向?qū)ο缶幊痰倪^度簡單化,采用術(shù)語“完全子(holon)”來代替。
本發(fā)明另一個(gè)目標(biāo)是采用在各種域上變化的數(shù)據(jù),這些變化的數(shù)據(jù)涉及各幀相對(duì)于一個(gè)或多個(gè)公共參考幀的變化,而不是相對(duì)于前面的幀。
發(fā)明內(nèi)容
本發(fā)明的用于數(shù)據(jù)分析的方法和裝置通過在所分析的輸入數(shù)據(jù)序列變化中提取一個(gè)或多個(gè)對(duì)稱數(shù)據(jù)結(jié)構(gòu)來分析數(shù)據(jù)。在各種域上對(duì)這些變化進(jìn)行分類和參量化以在這些域上形成隨變化模型一起的參考數(shù)據(jù)結(jié)構(gòu)。這種方法應(yīng)用在對(duì)所分析的輸入數(shù)據(jù)的建模中。這種參量化允許可以具有壓縮、交互功能和解釋功能。隨后數(shù)據(jù)輸入被逼近或重建為一個(gè)或多個(gè)參量數(shù)據(jù)結(jié)構(gòu)(保存在參考數(shù)據(jù)結(jié)構(gòu)內(nèi))的合成體。這種方法的靈活性在于,為了保證各對(duì)稱數(shù)據(jù)結(jié)構(gòu)的靈活性和對(duì)于大量輸入數(shù)據(jù)的可用性,可以通過適當(dāng)?shù)膮⒘孔兓瘉硇薷臉?gòu)成參考數(shù)據(jù)結(jié)構(gòu)的對(duì)稱數(shù)據(jù)結(jié)構(gòu)及其相關(guān)的變化模型。除了可能的誤差校正殘值以外,參量化由完全子s的各種域上的“軟性”多變量因子建模組成,它還可以與各種域上的“硬性”因果建模結(jié)合起來。本發(fā)明的較佳實(shí)施例將借助圖像序列(如視頻)的編碼來闡述,在這種情形下,最重要的域是密度、地址和概率域。
本發(fā)明包括編碼、編輯和譯碼的方法和裝置??梢詫⒒镜慕;蚓幋a方法(“IDLE”建模方法)與其它已知的建模方法結(jié)合使用,而且可以將采用基本建模方法的幾種方式結(jié)合起來并用于給定的一組數(shù)據(jù)。
本發(fā)明的編碼部分包括對(duì)各種域上的參量估計(jì)進(jìn)行平衡的方法。而且,按照本發(fā)明的建模可以重復(fù)使用以產(chǎn)生級(jí)聯(lián)建模和元建模。
附圖的簡要說明從下面借助附圖對(duì)較佳實(shí)施例的描述將能更完整地理解前面所述和本發(fā)明進(jìn)一步的目標(biāo)、特點(diǎn)和優(yōu)點(diǎn)。
圖1是表示按照本發(fā)明的編碼和譯碼過程的高級(jí)流程圖;圖2是表示數(shù)據(jù)矩陣單值分解為計(jì)分矩陣與裝入矩陣之積再加上殘值矩陣的示意圖;圖3a是參考圖像各像素?cái)?shù)據(jù)格式的圖解表示;圖3b是如何導(dǎo)出參考幀的圖解表示;圖4a—4n是密度(著色)域上建模的圖解示意,其中,圖4a—4c表示輸入圖像中著色密度的各種程度;圖4d—4f表示相對(duì)編碼器中參考幀的密度變化區(qū)域;圖4g和4h表示概括了編碼器中幾幀變化區(qū)域的著色因子裝入;圖4i—4k表示譯碼器中變化區(qū)域的重建;圖4l—4n表示譯碼器中根據(jù)變化區(qū)域和參考圖像對(duì)實(shí)際圖像密度的最終重建;圖5a—5n是地址(微笑)域上建模的圖解示意,其中,圖5a—5c表示微笑(像素的運(yùn)動(dòng)或地址變化)的各種程度;圖5d—5f表示與相對(duì)參考圖像的各種程度運(yùn)動(dòng)對(duì)應(yīng)的地址變化區(qū)域;圖5g表示參考密度圖像而圖5h表示微笑因子裝入;圖5i—5k表示重建的地址變化區(qū)域;圖5l和5n表示最終重建的微笑圖像密度;圖6是表示按照本發(fā)明的編碼器的示意圖;
圖7是表示圖6編碼器的模型估計(jì)器部分的示意圖;圖8是表示圖7模型估計(jì)器中變化區(qū)域估計(jì)器的示意圖;圖9是表示在圖8變化區(qū)域估計(jì)器中利用預(yù)測和局部變化區(qū)域估計(jì)的運(yùn)算示意圖;圖9a表示利用預(yù)測和局部變化區(qū)域估計(jì)的步驟;圖9b是圖9a所示運(yùn)動(dòng)的概括表示;圖10是圖8變化區(qū)域估計(jì)器部分的詳細(xì)示意圖;圖11是圖8和圖10所示的變化區(qū)域估計(jì)器的局部變化區(qū)域估計(jì)器的示意圖;圖12是圖7所示編碼器的解釋器部分的示意圖;圖13是作為圖8中編碼器一部分或者單獨(dú)的譯碼器的示意圖。
實(shí)施發(fā)明的較佳方式本發(fā)明的用于數(shù)據(jù)分析的方法和裝置可以用作數(shù)據(jù)壓縮系統(tǒng)的一部分,它包括編碼和譯碼電路,并通過在視頻圖像序列的各種數(shù)據(jù)域上對(duì)數(shù)據(jù)冗余度的高效建模來壓縮、編輯和解縮視頻圖像序列。各種域及子運(yùn)算域上冗余度的自建模本發(fā)明的系統(tǒng)對(duì)輸入數(shù)據(jù)(或經(jīng)過變換的輸入數(shù)據(jù))中的冗余度建立模型??梢栽诟鞣N域或“運(yùn)算域”中(如坐標(biāo)地址、密度和概率)以及這些域的各種亞性質(zhì)(“子運(yùn)算域”)(如坐標(biāo)方向和顏色)中尋找到這些冗余度。可以建立起密度在一段時(shí)間和像素與幀之間的空間內(nèi)協(xié)同變化的模型以及在一段時(shí)間和顏色通道之間的空間內(nèi)協(xié)同變化的模型。同樣,也可以建立起運(yùn)動(dòng)在一段時(shí)間和像素之間的空間內(nèi)協(xié)同變化的模型以及在一段時(shí)間和不同坐標(biāo)通道之間的空間內(nèi)協(xié)同變化的模型。這些運(yùn)動(dòng)的協(xié)同變化一般描述了對(duì)象穿過圖像時(shí)的運(yùn)動(dòng)。對(duì)象或完全子s不必是物理實(shí)體,而是可以代表在各種域中具有簡化的對(duì)稱變化的多變量模型的連接結(jié)構(gòu),如空間變形、密度變化、顏色變化、透明度變化等。
其它可以建模的冗余度包括諸如混濁度之類的概率性質(zhì),它可以按照與顏色密度一樣的方式建立在一段時(shí)間和一定空間內(nèi)。此外,各種數(shù)據(jù)域上的低級(jí)統(tǒng)計(jì)模型參量可以在一段時(shí)間和像素之間與幀之間的空間內(nèi)建模。
在本發(fā)明中,連續(xù)輸入幀建模為對(duì)參考幀的變化或偏離,選取的參考幀包括各種域上的多個(gè)特性或因子。例如,在參考幀內(nèi)包括指示密度變化、運(yùn)動(dòng)和變形的因子,從而使輸入幀建模為包含在參考幀內(nèi)的因子的標(biāo)度組合。在參考幀包含的對(duì)稱數(shù)據(jù)結(jié)構(gòu)中,術(shù)語因子和裝入將互換使用。抽象冗余度建模本發(fā)明的系統(tǒng)和方法結(jié)合了各種模型結(jié)構(gòu)和估計(jì)原理,并且采用了幾個(gè)不同域上的數(shù)據(jù),從而生成具有豐富層次并能重建幾種不同圖像元素的模型。該模型可在各種層次深度上加以表述。
通過根據(jù)前面的圖像從外部建立模型參量,進(jìn)一步提高了本發(fā)明的建模特性。該程序利用了預(yù)建立空間和/或時(shí)間變化模式,調(diào)整這些模式可以建立新場景。通過對(duì)模型參量本身的冗余度建模,即通過對(duì)模型參量組進(jìn)行主分量分析,可以進(jìn)一步提高建模特性。這被稱為元建模。
本發(fā)明可以采用與輸入和/或輸出數(shù)據(jù)格式不同的內(nèi)部數(shù)據(jù)表示。例如,雖然視頻數(shù)據(jù)的輸入和/或輸出格式可能是RGB格式,但是在內(nèi)部參量估計(jì)、存儲(chǔ)、傳送或編輯時(shí)可以采用不同的顏色空間。同樣,在某個(gè)分辨率下坐標(biāo)地址系統(tǒng)(例如PAL格式)可以是直角坐標(biāo)系,而內(nèi)部坐標(biāo)系可以不同,例如NTSC格式或其它常規(guī)或非常規(guī)、密集或稀疏坐標(biāo)系,反之亦然。編碼器本發(fā)明實(shí)施的編碼器提供了表示輸入數(shù)據(jù)流中對(duì)稱結(jié)構(gòu)的模型。新的模型參量估計(jì)是多變量的,并且無需任何先前模型的信息就能自動(dòng)自建模。但是,如果有先前建立模型的信息,則系統(tǒng)也能夠有效利用。系統(tǒng)還提供更新或消除無關(guān)或不可靠的模型成份的動(dòng)態(tài)機(jī)制。系統(tǒng)的靈活性還在于,在不同的時(shí)刻可以采用不同級(jí)別的模型。例如,在壓縮時(shí)采用層次少的密度比較有利,而在其它場合則需要采用涉及廣泛前分析的深層次的硬模型。
另外,本系統(tǒng)包括壓縮模型的自動(dòng)初始化和動(dòng)態(tài)修正。此外,本發(fā)明可以用于任何組合壓縮、存儲(chǔ)、傳送、編輯和控制的應(yīng)用,例如用于視頻電話、視頻壓縮、電影編輯、交互式游戲和醫(yī)學(xué)圖像數(shù)據(jù)庫。
另外,本發(fā)明可以采用因子建模,通過利用輸入數(shù)據(jù)各個(gè)局部之間(例如視頻序列各幀之間)結(jié)構(gòu)信息的初級(jí)因子模型來簡化和增強(qiáng)編碼器中的模型參量估計(jì)。結(jié)構(gòu)信息以統(tǒng)計(jì)方式用于參量估計(jì)中以在對(duì)各個(gè)局部部分(例如幀)建模時(shí)限制所使用的參量數(shù)目。這可以用于運(yùn)動(dòng)估計(jì)中,在那里,借助從同一序列中其它幀導(dǎo)出的低維因子運(yùn)動(dòng)模型,可以使一幀的運(yùn)動(dòng)區(qū)域估計(jì)處于穩(wěn)定狀態(tài)。
通過根據(jù)各種模型來壓縮分立階段中的數(shù)據(jù),按照本發(fā)明的編碼器可以壓縮大量的輸入數(shù)據(jù),如視頻數(shù)據(jù)流。視頻序列或幀可以用幀與幀或幀內(nèi)差異來表示,包括空白圖像到第一幀之間的差異和接下來的幀內(nèi)差異。在本編碼器中,借助空間、時(shí)間和概率模型參量對(duì)幀內(nèi)差異進(jìn)行檢測、分析和建模以減少表示原始幀所需的數(shù)據(jù)量。隨后進(jìn)一步壓縮獲得的模型參量以減少表示原始圖像所需的數(shù)據(jù)流。采用執(zhí)行長度編碼、Huffman編碼或其它統(tǒng)計(jì)壓縮技術(shù)可以進(jìn)行這種再壓縮。
壓縮數(shù)據(jù)隨后被編輯(例如作為用戶控制的視頻游戲或電影編輯系統(tǒng)部分)、存儲(chǔ)(例如存儲(chǔ)在CD—ROM或其它存儲(chǔ)介質(zhì)中)或傳送(例如經(jīng)過衛(wèi)星、電纜或電話線傳送),并由譯碼器解縮以供使用。
譯碼器本發(fā)明還在完成編碼器逆向功能的接收或解縮位置處提供譯碼器。譯碼器接收編碼器生成的壓縮模型參量并對(duì)其解縮以獲得模型參量。模型參量隨后被用于重建最初輸入編碼器的數(shù)據(jù)流。編碼器中的參量估計(jì)參考模型的擴(kuò)展、拓寬和深化模型在本發(fā)明的編碼器中,一個(gè)或多個(gè)擴(kuò)展參考圖像被展開作為其它模型參量的基礎(chǔ)以表示圖像序列或幀的輸入數(shù)據(jù)流。因此,所有的圖像都表示為相對(duì)于擴(kuò)展參考圖像的差異或變化。參考圖像選擇為代表圖像序列中尋找到的多個(gè)空間元素。參考圖像“擴(kuò)展”的含意是擴(kuò)展相對(duì)于圖像或幀的空間以容納和包含建模圖像序列時(shí)所用的附加元素。因此,較佳實(shí)施例中的參考幀與圖片元素或成份集或庫中的類似。
這樣,一個(gè)較長的圖像序列可以表示為由一個(gè)擴(kuò)展的參考圖像加上若干代表地址、密度、變形、透明度或其它變量中建模對(duì)稱圖像變化的參量組成的簡單模型。當(dāng)與每幀的各時(shí)間參量結(jié)合使用時(shí),這些空間參量定義了譯碼器中的參考圖像密度變換為幀密度重建的方式。重建通常涉及兩個(gè)階段。第一個(gè)階段,首先必須確定參考幀密度如何借助密度、透明度等從參考坐標(biāo)系及顯示在空間上改變到輸出幀坐標(biāo)系及顯示。第二個(gè)階段,必須利用圖像扭曲將參考幀密度改變?yōu)檩敵鰩芏取?br>
系統(tǒng)運(yùn)算圖1是表示按照本發(fā)明的編碼和譯碼過程的高級(jí)流程圖,它同時(shí)表示了編碼和譯碼運(yùn)算。在編碼器中,視頻輸入數(shù)據(jù)102首先在步驟104中被輸入系統(tǒng)并分別在步驟106和108中對(duì)變化進(jìn)行檢測和建模以獲得合適的模型參量110。
模型參量110隨后在步驟111中被壓縮以進(jìn)一步減少表示原始數(shù)據(jù)所需的信息量。這種再壓縮利用了存在于模型參量110中的對(duì)稱數(shù)據(jù)冗余度。這些時(shí)間參量還具有其它類型的冗余度。例如,計(jì)分或者應(yīng)用于參考幀內(nèi)的裝入及對(duì)稱數(shù)據(jù)結(jié)構(gòu)上的標(biāo)度變換可能具有時(shí)間的自關(guān)聯(lián),因此可以利用例如沿時(shí)間維的預(yù)測編碼進(jìn)行壓縮。此外還有在雙線性建模中采用并隨后對(duì)模型參量和殘量進(jìn)行獨(dú)立壓縮和傳送的計(jì)分s之間的相關(guān)性。同樣也有顏色互相關(guān)之間的冗余度或者可以被建模的參量冗余度之間的冗余度。
這些模型參量110隨后被按照本發(fā)明的譯碼器使用,在步驟120中,模型參量首先被解縮,然后在步驟122中被用來重建原始的輸入圖像,從而產(chǎn)生圖像輸出或視頻輸出124。
步驟120中的解縮程序基本上是壓縮步驟111的逆向過程。應(yīng)該注意的是,按照本發(fā)明的編碼器和譯碼器可以作為實(shí)時(shí)或偽實(shí)時(shí)視頻傳送系統(tǒng)(如畫面電話)的一部分。編碼器和譯碼器也可以是存儲(chǔ)型系統(tǒng)的一部分,其中編碼器壓縮待存儲(chǔ)的視頻圖像或其它數(shù)據(jù),并在后面恢復(fù)和解縮出來。例如,視頻序列可以存儲(chǔ)在軟盤、磁帶或其它便于攜帶的介質(zhì)中。而且,系統(tǒng)可以用于游戲、交互式視頻和虛擬現(xiàn)實(shí)的應(yīng)用場合下,在那里譯碼器中的時(shí)間計(jì)分s被交互修正。系統(tǒng)還可以用于如醫(yī)學(xué)圖像等的數(shù)據(jù)庫操作中,其中提供的參量同時(shí)用于壓縮和有效搜尋或研究中。利用不同域和子運(yùn)算域的因子分析的軟建模本發(fā)明采用由主成份分析或單值分解決定的因子分析來確定包含在參考幀內(nèi)的各種因子。輸入本發(fā)明的視頻序列可以表示為一系列的幀,每一幀代表特定時(shí)刻的視頻序列。每一幀由多個(gè)像素組成,每個(gè)像素包含了代表幀內(nèi)特定位置處視頻信息的數(shù)據(jù)。
按照本發(fā)明,輸入幀分解為各種域和子運(yùn)算域上應(yīng)用于參考幀內(nèi)所包含的一個(gè)或多個(gè)因子的計(jì)分或權(quán)重。如圖2所示,N幅每幀由M個(gè)變量(例如像素)組成的輸入幀可以排列為N×M矩陣202。在這種表示中,像素排列為一行對(duì)應(yīng)于一幀,而不是普通的兩維行/列排列。隨后矩陣202可以分解或表示為形成N×F矩陣204的每一幀時(shí)間計(jì)分因子f=1,2,…F乘以由F個(gè)因子的空間裝入組成并且每個(gè)值對(duì)應(yīng)M個(gè)像素中的一個(gè)從而形成F×M的裝入矩陣206的空間參考模型。如果因子數(shù)F小于N或M中的較小值,則采用殘量矩陣(208)來對(duì)未建模數(shù)據(jù)部分求和。詳細(xì)情況可參見H.Martens和T.Naes,《多變量標(biāo)度》,第三章,(John Wiley & Sons,1989),它作為參考文獻(xiàn)包含在這里。這種類型的弱假設(shè)自建?;颉败洝苯?梢耘c其它域上的強(qiáng)假設(shè)“硬建?!?如三維實(shí)體運(yùn)動(dòng)和利用MSC建模及其擴(kuò)展的密度混合多重/附加建模(H.Martens和T.Naes,《多變量標(biāo)度》,pp.345—350,(John Wiley & Sons,1989),它作為參考文獻(xiàn)包含在這里))結(jié)合起來。
圖3b表示如何從視頻序列不同幀的幾個(gè)對(duì)象中提取因子并結(jié)合形成一幅參考幀。如圖3所示,幀1包括對(duì)象11和12,分別為出租汽車和建筑物。幀4只包括建筑物12而幀7包括建筑物12和小汽車13。按照本發(fā)明對(duì)這些幀所作的分析產(chǎn)生出包含對(duì)象11、12和13的參考幀20。應(yīng)該注意的是,完全子不必是如房子和汽車之類的實(shí)體。同樣的原理也可以用于形狀更富于變形的對(duì)象,如交談時(shí)的頭部;但是這可能需要提供其它域上的變化因子。
圖3a是參考幀內(nèi)各像素?cái)?shù)據(jù)格式的圖解表示。除了普通像素以外,坐標(biāo)系也可以用于模型表示。它們包括金字塔形表示、極坐標(biāo)或其它不規(guī)則的稀疏坐標(biāo)系。
如圖3a所示,每個(gè)像素除了包含概率、段和其它信息(這種概率值的數(shù)目在編碼器參量估計(jì)期間與參量估計(jì)之后是不同的)之外,還包含了采用顏色空間(例如RGB)內(nèi)的給定顏色信息形式的密度信息和采用垂直(V)、水平(H)和深度(Z)信息形式的地址信息。
每個(gè)這樣的信息成份在各個(gè)階段可以由一個(gè)或多個(gè)信息亞成份組成,而這些亞成份又可以由一個(gè)或多個(gè)更基本的亞成份組成。例如,如圖3a所示,紅(R)色密度信息包含了幾種紅色信息成份R(0)、R(1)、R(2)…。同樣,R(2)又包含了一個(gè)或多個(gè)表示參量值、不確定程度和其它統(tǒng)計(jì)信息的信息亞成份。
用于構(gòu)造參考圖像的對(duì)象的選取擇取決于應(yīng)用的類型。例如,在對(duì)先前錄制的視頻圖像進(jìn)行離線編碼時(shí),選取的對(duì)象使參考圖像盡可能表示長序列幀。相反,對(duì)于例如畫面電話或視頻會(huì)議之類的在線或?qū)崟r(shí)編碼應(yīng)用,選取的對(duì)象力求使參考圖像接近幀序列中早先的圖像。隨后,在遇到新的幀序列和/或消除過時(shí)的幀序列時(shí),利用新的對(duì)象來改善或修正最初的參考圖像。
采用字母u跟上指示計(jì)分類型的第二字母來表示一般的時(shí)間信息(“計(jì)分”),例如用uA表示地址計(jì)分。偶爾也用下標(biāo)來表示特定的時(shí)刻,例如用uAn表示幀n。
空間信息采用層次格式來表示。字母X一般用來表示空間信息,并且包括下列一個(gè)或多個(gè)域I(密度)、A(地址)和P(概率性質(zhì))。這些域表示代表算符之間的數(shù)據(jù)流并稱之為運(yùn)算域。這些運(yùn)算域中的每一個(gè)又包含一個(gè)或多個(gè)“子運(yùn)算域”。例如,密度I可以包含指示所用特定顏色表示的R、G和B子運(yùn)算域。同樣,地址A可以包含指示所用特定坐標(biāo)系的V(垂直)、H(水平)和Z(深度)子運(yùn)算域。概率性質(zhì)P也可以包含子運(yùn)算域S(段)和T(透明度)。不同像素的空間信息可以采用不同的格式。此外,在數(shù)據(jù)輸入、編碼、存儲(chǔ)、傳送、譯碼和輸出各個(gè)階段,可以重新定義各種域和子運(yùn)算域。
因此每個(gè)空間點(diǎn)或像素可以用不同域和子運(yùn)算域的多個(gè)值來表示。對(duì)于每個(gè)子運(yùn)算域,可以有不止一個(gè)的參量或“變化因子”。因子從零開始向上計(jì)數(shù),第零個(gè)因子表示普通的圖像信息(缺省密度和地址)。這樣,在X(0)內(nèi),I(0)代表普通的畫面密度信息,A(0)代表隱含的坐標(biāo)地址信息而P(0)代表例如透明度之類的概率信息,而X(f),f>0則代表其它各種變化的模型參量或因子裝入,即像素在不同域中一起變化的對(duì)稱模式。
根據(jù)一些空間點(diǎn),用大寫、小寫和下標(biāo)字母來定義對(duì)象的空間信息。大寫字母代表參考圖像位置中的空間信息,小寫字母代表特定圖像位置中的空間信息,下標(biāo)表示特定的圖像。所以,Xref表示給定序列的參考位置中的空間模型,而xn代表輸入幀n的空間數(shù)據(jù)。
未參量化的不同圖像的改變區(qū)域用來表示根據(jù)各種域?qū)⒁环鶊D像改變?yōu)榱硪环鶊D像。改變區(qū)域采用兩個(gè)字母符號(hào)來表示,一般還帶有兩個(gè)字母下標(biāo)。兩個(gè)字母符號(hào)中的第一個(gè)字母是表示差值或△的D或d,而第二個(gè)字母表示域或子運(yùn)算域。下標(biāo)用來指示開始和結(jié)束的位置。例如,DARef,m定義了如何將給定參考位置內(nèi)的像素值移入重建幀#m內(nèi),而damn定義了如何將像素值從幀#m移至幀#n。
拓寬參考模型以在更寬的范圍內(nèi)進(jìn)行對(duì)稱表示參考圖像可以拓寬為包含比各輸入圖像中可用的更多的變化信息。例如,RGB系統(tǒng)中彩色圖像的畫面密度一般用對(duì)應(yīng)每個(gè)像素的紅、綠和藍(lán)顏色成份的單個(gè)R、G和B密度值表示。但是,在拓寬參考圖像時(shí),可以有幾種像素組協(xié)同變化的對(duì)稱方式。這些變化因子裝入可以對(duì)各種顏色或顏色組合定義以及對(duì)各種完全子或完全子組定義。
也可以在顏色密度域以外的數(shù)據(jù)域(例如地址(坐標(biāo))和透明度等的各種概率性質(zhì))上完成給定視頻序列的參考圖像的“拓寬”。參考圖像的拓寬指的是用于特定場景的模型的參量化。通過在譯碼器中以不同的方式組合不同的模型參量,可以創(chuàng)建對(duì)模型不同的闡述。這些輸出闡述可以是對(duì)輸入數(shù)據(jù)(各視頻幀)的統(tǒng)計(jì)逼近,或者表示完全新的合成輸出,例如虛擬現(xiàn)實(shí)應(yīng)用。
將“軟”因子分析建模、傳統(tǒng)的統(tǒng)計(jì)參量、ad hoc殘量建模和“硬”或因果性更強(qiáng)的建模結(jié)合起來可以獲得各種域上參考幀的拓寬參量化。
一旦建立起擴(kuò)充的或拓寬的參考圖像模型,就可以對(duì)其動(dòng)態(tài)修改或更新以產(chǎn)生“深化”的參考圖像模型。這種“深化”的參考模型包含重要和相關(guān)的圖像信息的概率較高而不重要和不相關(guān)的變化信息的概率較低的“更硬的”模型參量。
各種域上拓寬的目的在于將緊湊和靈活的表示結(jié)合起來、改變序列中各幀的圖像信息。在自動(dòng)編碼時(shí),這可以通過將給定幀的新變化信息與先前幀的變化圖像信息組合在一起完成編碼以提取對(duì)稱和統(tǒng)計(jì)穩(wěn)定的公共結(jié)構(gòu)。比較好的做法是通過分析幾幀的殘量成份和提取模型參量裝入完成。計(jì)算可以直接在殘量上或各個(gè)殘量叉積上進(jìn)行??刹捎貌煌臋?quán)重函數(shù)來保證給出更多的精確變化信息而不是非精確變化信息,參見H.Martens和T.Naes,《多變量標(biāo)度》,pp.314—321,(John Wiley & Sons,1989),它作為參考文獻(xiàn)包含在這里。可以以不同的數(shù)據(jù)形式提取新雙線性因子和其它參量,所有的形式都提供相同的結(jié)果。數(shù)據(jù)格式可以是原始圖像數(shù)據(jù)、去除了先前提取的模型參量或者已為其它方法所提取的模型參量之后或者在編碼過程不同階段的殘量圖像信息。
在拓寬過程中可以提取若干類型的可建模結(jié)構(gòu)。其中一種通用類型基于空間—時(shí)間的協(xié)同變化,即一個(gè)或多個(gè)信息域在若干像素和幀上的對(duì)稱變化。協(xié)同變化的一般形式是由雙線性因子建模逼近的多變量線性協(xié)同變化。這種類型的因子提取可以應(yīng)用于各種不同的域上,例如地址、密度和概率域。協(xié)同變化的非線性和非公制提取也可以構(gòu)成拓寬運(yùn)算的基礎(chǔ)。
雙線性因子例如也可以采用應(yīng)用于多幀殘量成份的單值分解來提取。單值分解使用于提取因子的權(quán)重平方和最大,但沒有提供對(duì)噪聲的平衡或?yàn)V波或者優(yōu)化后面的壓縮。可以利用例如非線性迭代最小2乘方法(NIPALS)等更先進(jìn)的估計(jì)技術(shù)。NIPALS方法是一種允許根據(jù)需要采用附加判據(jù)的開放結(jié)構(gòu)。
NIPALS方法應(yīng)用于來自多幀的殘量矩陣Ea-1(具有a-1個(gè)因子的系統(tǒng)內(nèi)的矩陣E)以提取附加因子并且從而將殘量矩陣的大小減少為Ea(具有一個(gè)因子的系統(tǒng)內(nèi)的殘量矩陣)。殘量矩陣Ea可以用來尋找殘量矩陣Ea+1中第(a+1)個(gè)因子。
這種因子分析不僅可以應(yīng)用于圖像密度,也可應(yīng)用于各種域上不同的子運(yùn)算域。一幅圖像幀的地址信息一般用像素水平和垂直地址的直角坐標(biāo)系表示。但是,在拓寬參考幀內(nèi),地址信息可以包括每個(gè)單輸入像素坐標(biāo)的多重變量。
拓寬參考圖像中的附加變化因子拓寬了場景中最終圖像模型的應(yīng)用范圍,從而使許多附加的不同視覺量或模式可以用附加變化因子或“裝入”的不同組合來表示。在按照本發(fā)明的較佳實(shí)施例中,不同的裝入線性組合,即每個(gè)裝入用“計(jì)分”進(jìn)行權(quán)重并將經(jīng)過權(quán)重的裝入相加以產(chǎn)生總的裝入。權(quán)重過程中所用的計(jì)分值既可以是正數(shù)也可以是負(fù)數(shù)并且表示一個(gè)應(yīng)用于裝入或變化因子的標(biāo)度因子。這將用于表示子運(yùn)算域紅色密度rn,n=1,2,…,N和垂直地址Vn,n=1,2,…,N。當(dāng)建模密度變化時(shí),計(jì)分s可以用來“翻上”或“翻下”裝入的密度模式。同樣,當(dāng)建模地址變形(運(yùn)動(dòng))時(shí),計(jì)分被用來表示裝入變形的程度。
采用上述用于拓寬參考幀的拓寬原理,可以將例如各輸入幀的紅色密度Rn建模為紅度變化因子裝入的線性組合或者總和(注意,這里的“hat”符號(hào)用于普通的“重建”或“估計(jì)”的統(tǒng)計(jì)含義)rnhat=RRef(0)*uR(0)n+RRef(1)*uR(1)n+RRef(2)*uR(2)n+… (1)也可以對(duì)因子f=0,1,2,…求和,采用的矩陣表示為
rnhat=RRef*Un這里RRef={RRef(0),RRef(1),RRef(2)…}表示擴(kuò)展參考模型中紅色的空間變化因子裝入,而〔Uin={U0,in,U1,in…}〕URn={uR(0)n,uR(1)n,,uR(2)n…}表示應(yīng)用于參考模型上的時(shí)間紅度計(jì)分以產(chǎn)生幀n紅度的估計(jì)值。這種密度變化因子因?yàn)榭捎糜诮o臉部著色的模型,故稱之為“著色因子”。但是,將會(huì)看到的是,這些因子可以用于對(duì)其它類型的信號(hào)和現(xiàn)象的建模中,包括與視頻無關(guān)的應(yīng)用。
圖4a—4n示出了這些所謂著色因子的應(yīng)用。圖4a、4b和4c分別表示中度著色(4a)、深度著色(4b)和輕度著色(4c)的紅色通道的密度圖像rn,n=1,2,3。第一幀r1定義為參考幀。因此,R(0)Ref=i1。
圖4d—4f表示相應(yīng)的密度變化區(qū)域DRRef,n,n=1,2,3。在靜止實(shí)例中,幀的變化區(qū)域等于該幀與參考圖像之差,或者drn=rn-RRef(0)。變化區(qū)域也表示在一條對(duì)應(yīng)穿過圖4a—4c的著色臉頰的直線上的曲線。如圖4d—4f所示,圖4c輕度著色(蒼白)的臉部具有最低的密度變化區(qū)域值(圖4f),圖4a中度著色的臉部由于作為參考圖像(圖4d),密度沒有變化,而圖4b深度著色的臉部具有最高的密度變化區(qū)域值(圖4e)。
本發(fā)明的統(tǒng)計(jì)處理將提取一組通用的著色特性或變化因子裝入以用于不同的幀來對(duì)密度變化的著色狀態(tài)建模。圖4a—4f表示相對(duì)于參考圖像的單著色現(xiàn)象。變化區(qū)域DRRef,n,n=1,2,3的主成份分析可以給出這種采用單著色因子的較好解釋,其在以下給定計(jì)分(分別為0,1.0和-0.5)下的裝入R(1)Ref示于圖4h中。在這種情況下,可以通過將不同的計(jì)分應(yīng)用于主著色因子裝入R(1)Ref以產(chǎn)生不同的變化區(qū)域DRRef(圖4i—4k)以及通過將其加入到參考圖像紅度(圖4g)以產(chǎn)生重建的紅度圖像(圖4l—4n),從而在譯碼期間對(duì)紅色密度建模其中紅度變化區(qū)域?yàn)镈RRef,n=RRef(1)*uR(1)n如圖4d—4f下面的數(shù)字所示,這種情況下由于r1hat=RRef(0),計(jì)分值uR(1)n相對(duì)于參考圖像(4a)本身為0,相對(duì)于著色較深的第二幀(4b)為正數(shù),例如1.0,相對(duì)于蒼白臉部的第三幀(4c)為負(fù)數(shù),例如-0.5。應(yīng)該注意的是,第三幀圖4c的負(fù)的計(jì)分將正的著色裝入圖4h變換為比參考圖像更淺的第三幀圖像的負(fù)的變化區(qū)域DRRef,3。
如果在該序列的圖像中紅度變化引起了不止一種現(xiàn)象,則模型需要多個(gè)變化因子。例如,如果房間內(nèi)的照度是變化的,與人的著色和消色無關(guān),則可以采用兩種因子解來建模,其中第二中因子涉及將計(jì)分uR(o)n應(yīng)用于參考幀本身rnhat=RRef(0)+DRRef,n這里著色變化區(qū)域?yàn)镈RRef,n=RRef(0)*uR(0)n+RRef(1)*uR(1)n對(duì)于不同的顏色和因子一般可以表示為
DIRef,n=IRef*uIn(2)因此,圖4a—4n表示了著色因子loading 4h(包含在Iref中)增加或減少(以計(jì)分作相應(yīng)的標(biāo)度)以產(chǎn)生如圖4d—4f所示的各著色變化區(qū)域的方式。在這種方式下,利用一個(gè)裝入(圖4h)和一系列少量的數(shù)據(jù)較強(qiáng)的計(jì)分,可以壓縮和表示可觀的密度信息。
以同樣方式還能對(duì)透明度T和概率性質(zhì)P的變化建模。在概率建模時(shí),本發(fā)明的較佳實(shí)施例采用雙線性建模??臻g裝入P(f),f=0,1,2…和相應(yīng)的計(jì)分uP(f)n,f=1,2,…一起構(gòu)成概率變化因子。
與用于表示密度信息的著色因子相似,利用變化因子裝入的線性組合也可以對(duì)地址信息建模。例如,借助于變化因子裝入的線性組合或求和可以對(duì)幀的垂直地址信息Vn建模DVn=VRef(0)*uV(0)n+VRef(1)*uV(1)n+VRef(2)*uV(2)n+...(1)采用矩陣記號(hào)也可以將垂直運(yùn)動(dòng)因子f=0,1,2,…概括為DVn=VRef*UVn這里VRef={Vref(0),Vref(1),Vref(2),…為對(duì)于擴(kuò)展的參考(對(duì)于這種完全子)中的紅度的垂直空間地址變化因子裝入,而UVn={UV(0)n,UV(1)n,UV(2)n,…表示應(yīng)用于參考模型以產(chǎn)生幀內(nèi)各像素的幀n的垂直坐標(biāo)估計(jì)值的時(shí)間垂直運(yùn)動(dòng)計(jì)分。由于它們可用于構(gòu)造臉部微笑的模型,所以這種地址變化因子稱為“微笑”因子。
與著色因子一樣,這里需要移動(dòng)參考幀內(nèi)容以逼近輸入幀的垂直地址信息變化區(qū)域稱為DVRef,n。它可以建模為由合適的計(jì)分(un)標(biāo)度的地址變化因子裝入(Vref)帶來的變化貢獻(xiàn)之和。地址變化因子被用于對(duì)象的模型運(yùn)動(dòng)和變形。用于對(duì)象模型變形的地址變化因子因?yàn)橛糜诋a(chǎn)生“軟”運(yùn)動(dòng)(例如臉部微笑)的模型,所以稱為“微笑因子”。但是將會(huì)看到的是,微笑因子可以對(duì)任何其它包括與視頻無關(guān)的信號(hào)和現(xiàn)象,這些信號(hào)和現(xiàn)象可以建模為能變形的復(fù)雜的而仍保持共同的基本特性的樣本。
按照本發(fā)明的微笑因子的應(yīng)用示于5a—5n。圖5a—5c表示各種微笑程度的臉部。圖5a表示文靜的微笑;圖5b表示深度微笑;而圖5c表示皺眉頭的冷笑。圖5a文靜微笑的臉部可以作為圖5g所示參考幀的一部分。如圖5a—5c所示,相對(duì)參考圖像嘴巴垂直動(dòng)作的地址變化區(qū)域DVRef,n示于圖5a—5f中?!皡⒖嘉恢谩?對(duì)應(yīng)參考圖像圖5g)的概念示于圖5d、5e和5f,其中給出了圖5g參考圖像中而不是幀n=1,2,3(圖5a—5c)中像素坐標(biāo)處的地址變化區(qū)域DVRef,n的像素?cái)?shù)值。因此,將參考圖像(圖5g)變換為圖5a—5c的各幀所需的垂直變化區(qū)域(運(yùn)動(dòng))表示為沿嘴巴的三個(gè)點(diǎn)上的垂直箭頭,在參考圖像(圖5g)中的這三個(gè)點(diǎn)處可以找到嘴巴。箭頭的基點(diǎn)位于參考圖像(圖5g)的嘴巴處,而箭頭末端位于圖5a—5c的其它幀內(nèi)的嘴巴上的對(duì)應(yīng)點(diǎn)處。圖5d—5f利用對(duì)應(yīng)參考圖像(圖5g)內(nèi)穿過嘴巴的直線的連續(xù)曲線定量給出了完全變化的區(qū)域。
由于示例中的第一幀圖5a同時(shí)用作參考圖像(圖5g)和單獨(dú)的幀,所以幀1(圖5d)的垂直微笑變換區(qū)域DVRef,1包含所有的零。在圖5b中,嘴巴的中段向下而兩端向上運(yùn)動(dòng)。因此,微笑區(qū)域DVRef,n在中段為負(fù)而在參考位置的嘴巴兩端為正。圖5c的皺眉表示了相反類型的模式。這些變換區(qū)域由此只包含一種主要的運(yùn)動(dòng)并可以采用一個(gè)微笑因子來建模,而且可以利用圖5d—5f的主成份分析來提取這種微笑因子。微笑因子計(jì)分uVn示于本實(shí)例中,當(dāng)公共垂直微笑裝入如圖5h所示時(shí),參考圖像(圖5a)本身為零,幀2(圖5b)為正以及幀3(圖5c)為負(fù)。
如果圖5a—5c中的頭部還作與微笑動(dòng)作無關(guān)的點(diǎn)頭,則需要涉及更多運(yùn)動(dòng)的模型來精確地建立各種運(yùn)動(dòng)的模型。在最簡單的情況下,可以采用一個(gè)或多個(gè)附加的微笑因子,以和多重因子著色建模一樣的方式建立頭部運(yùn)動(dòng)的模型。每個(gè)微笑因子將包含各種運(yùn)動(dòng)的空間裝入,每一種運(yùn)動(dòng)都可以通過幾個(gè)因子計(jì)分簡單地建模。圖像對(duì)象在兩維或三維空間內(nèi)的旋轉(zhuǎn)需要更多坐標(biāo)維數(shù)的因子裝入,或者需要各坐標(biāo)維共享一些因子裝入。例如,如果圖5a—5n中的人將頭側(cè)傾45度,則圖5a—5n中作為純粹是垂直運(yùn)動(dòng)而建模的微笑動(dòng)作不再是純粹的垂直運(yùn)動(dòng)。而且還需要同樣多的水平運(yùn)動(dòng)成份。嘴巴的變化微笑還是一個(gè)因子的運(yùn)動(dòng),但現(xiàn)在還結(jié)合了垂直和水平成份。在相等的計(jì)分下,同時(shí)可以采用垂直和水平裝入。垂直和水平運(yùn)動(dòng)同樣可以共享同一個(gè)裝入(圖5h),但根據(jù)頭部傾斜的角度而具有不同的計(jì)分。
為了更好地控制和更簡單地譯碼和壓縮,可以用稱為“點(diǎn)頭”因子的硬運(yùn)動(dòng)模型代替有些運(yùn)動(dòng)。點(diǎn)頭因子不采用清晰的裝入,但被稱之為實(shí)體的仿射變換,包括相機(jī)的取景和運(yùn)動(dòng)。微笑和點(diǎn)頭可以按各種方式結(jié)合。在按照本發(fā)明的較佳實(shí)施例中,根據(jù)一些連接性判據(jù),創(chuàng)建了運(yùn)動(dòng)的級(jí)聯(lián)。例如,利用微笑因子(軟建模)可以建立諸如微笑的嘴巴之類的易變形的非實(shí)心體的微小運(yùn)動(dòng)模型,而采用點(diǎn)頭因子(硬建模)可以建立主要運(yùn)動(dòng)和諸如頭部之類的實(shí)體運(yùn)動(dòng)。對(duì)于談話的頭部,首先將軟模型用來將初始垂直參考地址VRef修正為參考位置中的“微笑”坐標(biāo)Vn,smile@Ref。同樣的程序可以用于水平坐標(biāo),并且可以選擇是否用于深度坐標(biāo)以形成An,smile@Ref。隨后利用仿射變換修正(即,旋轉(zhuǎn)、標(biāo)度變換、剪切等)這些微笑坐標(biāo)An,smile@Ref以產(chǎn)生仍然是在參考位置An@Ref中給出的微笑和點(diǎn)頭坐標(biāo)值。然后根據(jù)DARef,n=An@Ref-ARef計(jì)算最終的地址變換區(qū)域DARef,n。編碼編碼過程一般包括建立用于一個(gè)或多個(gè)參考圖像或模型的空間模型參量XRef并且隨后估計(jì)個(gè)各幀的時(shí)間計(jì)分sUn和殘量En。編碼過程可以完全手動(dòng)、完全自動(dòng)或者手動(dòng)與自動(dòng)結(jié)合。編碼過程用于密度變化、運(yùn)動(dòng)變換、變形和概率統(tǒng)計(jì)變化。
手動(dòng)編碼在按照本發(fā)明的一個(gè)實(shí)施例中,可以對(duì)視頻序列手動(dòng)建模。在手動(dòng)建模時(shí),操作員控制建模并解釋輸入視頻數(shù)據(jù)序列??梢圆捎萌魏我环N繪圖工具來完成手動(dòng)建模,例如“Corel Draw”、“Aldus Photo-shop”或其它專用軟件。
由于人類相當(dāng)擅長于直觀分辨微笑、著色和分段之間的區(qū)別,所以編碼處理主要集中在向隨后所用計(jì)算機(jī)傳送這種信息的工作上,而不是通過計(jì)算處理來揭示這些復(fù)雜的關(guān)系。
如果有理由采用不同的模型,例如如果序列切換于不同的剪切之間,則可以通過審視序列來判斷剪切邊界或裁剪處。相關(guān)的剪切放入一個(gè)場景中。不同的場景可以分別建模。
對(duì)于給定的場景,如果存在顯示了位置或密度相關(guān)變化的區(qū)域,則這些區(qū)域被操作者隔離為完全子。這些區(qū)域?qū)?yīng)于序列中的對(duì)象。此外,還可以將諸如陰影和反射之類的其它現(xiàn)象選為完全子。對(duì)于復(fù)雜的對(duì)象,將其分為幾個(gè)完全子比較有利。例如,不對(duì)整個(gè)行走的人建立模型,而是對(duì)其各個(gè)部位(例如肢體)分別建模就會(huì)更容易些。
對(duì)于每個(gè)完全子,通過審視可以找到在空間上最好地表示完全子的幀。這稱之為參考幀。一個(gè)好的表示意味著它不會(huì)受其它完全子陰影的遮擋和影響,不會(huì)受運(yùn)動(dòng)模糊的顯著影響,并且盡可能多地表示序列。如果在序列中無法找到一幀較好的表示,可以將來自不同原始幀的較好表示部分裝配起來或者通過修正來合成完全子表示。對(duì)于合成的完全子,參考幀僅由合成的完全子組成。合成的完全子比較適合于例如陰影之類的半透明的完全子,在那里平滑的黑暗圖像常常就足夠了。這種所選取或合成的完全子將作為參考圖像的一部分。來自各幀的完全子的密度圖像被提取出來并轉(zhuǎn)入公共的參考圖像。
每個(gè)完全子都必須分配一個(gè)任意但唯一的完全子數(shù)。隨后形成與參考圖像尺寸相同的包含所有完全子的分段圖像;但是,完全子內(nèi)部的每一像素的像素密度用特定的完全子數(shù)代替。該圖像被稱為分段或S區(qū)域。
為了根據(jù)深度排列完全子,通過判斷包藏、透視或其它深度線索獲得完全子深度信息。如果有幾種深度排序的方式,例如如果一個(gè)序列中的兩個(gè)完全子從不互相包藏并且看上去具有相同的深度,則選擇任意的次序。如果由于序列的次序是變化的,例如完全子A在某一時(shí)刻包藏完全子B而在另一個(gè)時(shí)刻完全子B包藏完全子A,從而不可能進(jìn)行單一的深度排序,則任意選擇其中一種可能的深度排序。隨后這種深度排序以如下的方式轉(zhuǎn)換為深度標(biāo)度,即零對(duì)應(yīng)于無窮遠(yuǎn)而滿刻度基本上對(duì)應(yīng)零深度,也就是最靠近相機(jī)。采用繪圖工具中所用的密度標(biāo)尺可以方便地指定或表示深度標(biāo)尺,例如無窮遠(yuǎn)的對(duì)象賦予零密度值,而非??拷膶?duì)象賦予滿刻度密度?;谶@種深度排序,形成了尺寸與參考圖像相同的圖像;但是,每個(gè)像素值包含用作深度數(shù)值的密度值。該圖像被稱之為Z區(qū)域。
手動(dòng)建?;蚓幋a還包括確定完全子混濁度信息。通過首先形成一幅圖像來確定混濁度,該圖像的完全不透明像素具有最大的密度值,完全透明的像素為零值,而其余的像素為中間值。大多數(shù)對(duì)象一般在內(nèi)部區(qū)域具有最大值(最大的混濁度)而在邊緣處具有范圍較窄的中間值以較好地適應(yīng)背景。另一方面,陰影和反射的值為最大值的一半。表示混濁度的圖像被稱之為Prob區(qū)域。
首先通過確定參考圖像與各個(gè)完全子的參考幀之間的垂直和水平位移獲得完全子運(yùn)動(dòng)信息。這樣做是用于所選擇完全子的容易識(shí)別的像素。隨后對(duì)這些位移進(jìn)行標(biāo)度從而使得沒有運(yùn)動(dòng)對(duì)應(yīng)繪圖工具最大密度刻度的一半。更暗的密度值對(duì)應(yīng)垂直向上或水平向左的運(yùn)動(dòng)。同樣,較亮的密度值對(duì)應(yīng)相反的方向,從而使兩個(gè)方向上的最大運(yùn)動(dòng)都不會(huì)超出繪圖工具的最大密度值范圍。兩幅新圖像共同構(gòu)成尺寸與參考圖像一樣的“第一微笑裝入量”,其中一幅用于垂直方向,另一幅用于水平方向。隨后所標(biāo)度的位移被放于第一微笑裝入量的相應(yīng)地址上,采用手動(dòng)或自動(dòng)內(nèi)插形成其余像素的位移。
第一微笑裝入量比較好的是通過制備出用于譯碼器的上述所有區(qū)域并結(jié)合計(jì)分值表(該表稱為“時(shí)間序列”)來驗(yàn)證。接下來,第一微笑因子的計(jì)分對(duì)構(gòu)成待譯碼的測試幀的全部完全子設(shè)置為1,然后被譯碼。最終的譯碼幀應(yīng)該在各參考幀內(nèi)提供較好的完全子重現(xiàn)性(除了還未尋址的著色效應(yīng))。如果不是這種情況,引起每個(gè)特殊誤差的原因也會(huì)引起不正確的微笑計(jì)分和裝入,它們可以調(diào)整,隨后在重復(fù)處理時(shí)使用新的數(shù)值。該處理正確地建立了將完全子從參考圖像位置移動(dòng)到參考幀位置的方式。
接下來必須估計(jì)幀之間完全子的運(yùn)動(dòng)。對(duì)于每個(gè)完全子,在選取的幀內(nèi)完全子以容易檢測的方式相對(duì)于稱之為中間幀的參考幀Im的譯碼逼近移動(dòng)。除了新的運(yùn)動(dòng)是根據(jù)譯碼參考幀和所選新的幀測量得到的以外,同樣的程序也用于確定第一微笑裝入量,并且最終的輸出稱為“第二微笑裝入量”。這些位移定位在參考幀內(nèi)適當(dāng)?shù)奈恢蒙希渌涤蓛?nèi)插得到。所有完全子的第一和第二微笑裝入量的微笑計(jì)分都設(shè)置為1,并且隨后對(duì)所選幀進(jìn)行譯碼。結(jié)果應(yīng)該是所選幀的較好再現(xiàn)(除了沒有尋址的著色效應(yīng))。
基于已經(jīng)有的微笑裝入量采用湊試法僅僅改變微笑計(jì)分就得到了序列內(nèi)其它幀的運(yùn)動(dòng)。無論何時(shí),只要僅僅利用已有的微笑因子無法較好地再現(xiàn)運(yùn)動(dòng),那么就必須按照上述方法引入新的微笑因子。測量每幅經(jīng)過譯碼的中間幀Im與原始序列中對(duì)應(yīng)的幀之間所選特征(像素)的位移并將結(jié)果存入?yún)⒖紙D像位置處。利用內(nèi)插得到其余的像素,并進(jìn)行最終結(jié)果的驗(yàn)證和任何必要的校正。
當(dāng)用于計(jì)算微笑因子的上述處理產(chǎn)生出足夠精確的運(yùn)動(dòng)再現(xiàn)時(shí),可以隨后引入著色因子。通過在序列中每幀期間的工作,利用已經(jīng)建立起來的微笑因子對(duì)各幀譯碼和計(jì)算經(jīng)過譯碼的與原始序列中相應(yīng)的幀之間的差別來自動(dòng)引入著色因子。這種差別隨后被移回參考位置并存儲(chǔ)起來。為了產(chǎn)生需要的著色裝入量和計(jì)分,隨后對(duì)參考位置上的差別進(jìn)行單值分解。
點(diǎn)頭因子的附加點(diǎn)頭和微笑因子可以有幾種結(jié)合的方式,下面將要討論其中的兩種。在第一種方法中,運(yùn)動(dòng)可以描述為微笑因子與點(diǎn)頭因子貢獻(xiàn)之和。在第二種方法中,像素坐標(biāo)首先被微笑化然后被點(diǎn)頭化。
在第一種方法中,即點(diǎn)頭因子與微笑因子相加的方法中,參考圖像中一個(gè)像素的譯碼處理與不同的微笑因子的貢獻(xiàn)相加,并計(jì)算利用參考圖像中初始位置的點(diǎn)頭因子引起的位移。這兩種貢獻(xiàn)相加在一起產(chǎn)生最終的像素運(yùn)動(dòng)。
在第二種方法中,即級(jí)聯(lián)點(diǎn)頭和微笑因子的方法中,譯碼處理首先相加不同微笑因子的貢獻(xiàn),然后將點(diǎn)頭因子用于已經(jīng)有的微笑像素坐標(biāo)上。
第一種方法在某種程度上實(shí)現(xiàn)起來更簡單,而第二種方法可能產(chǎn)生一個(gè)與序列的物理解釋更接近的模型,其中,點(diǎn)頭因子對(duì)應(yīng)整個(gè)對(duì)象幅度較大的運(yùn)動(dòng)而微笑因子對(duì)應(yīng)較大對(duì)象的微小變形。
提取微笑因子的過程還可以包括用于表示實(shí)體對(duì)象運(yùn)動(dòng)(仿射變換)的點(diǎn)頭因子。本質(zhì)上點(diǎn)頭因子是微笑因子的一種特殊情況。特別是每次對(duì)一個(gè)完全子計(jì)算出新的微笑因子時(shí),可以利用點(diǎn)頭因子逼近它。如果微笑裝入具有的特性使得像素在垂直和水平維上的運(yùn)動(dòng)可以看作是三維空間內(nèi)某一平面上垂直和水平位置的函數(shù),則這種逼近將足夠精確。點(diǎn)頭因子基本上與剛體對(duì)象的運(yùn)動(dòng)對(duì)應(yīng)。當(dāng)微笑因子對(duì)應(yīng)完全子的彈性變形時(shí),逼近的精度差一些。
為了建立點(diǎn)頭裝入量,微笑裝入量被投影到與擴(kuò)展的參考圖像尺寸相同的三個(gè)“點(diǎn)頭裝入量”上。第一點(diǎn)頭裝入量是一幅所有像素值都設(shè)置為像素垂直地址的圖像。第二點(diǎn)頭裝入量是一幅所有像素值都設(shè)置為像素水平地址的圖像。最后,第三點(diǎn)頭裝入量是一幅由前面兩者組成的圖像。
在將點(diǎn)頭因子加入微笑因子時(shí),即附加點(diǎn)頭時(shí),可以采用上述提取新的微笑因子的程序。但是,在級(jí)聯(lián)點(diǎn)頭因子時(shí),即先采用點(diǎn)頭因子隨后采用微笑因子編碼時(shí),必須在編碼過程中完成附加的步驟。只要基于采用點(diǎn)頭因子而產(chǎn)生的中間幀Im來估計(jì)新的微笑裝入量,那么不僅必須將位移Im中的位置映射回參考圖像,而且必須利用逆向點(diǎn)頭因子將實(shí)際的位移映射回去。在級(jí)聯(lián)點(diǎn)頭和微笑的情況下,在譯碼器內(nèi)先使各幀“微笑”然后使其“點(diǎn)頭”。
深度化點(diǎn)頭對(duì)于每個(gè)完全子一個(gè)點(diǎn)頭因子的通常情形,向譯碼器發(fā)送的點(diǎn)頭因子由一組各幀內(nèi)每個(gè)完全子的點(diǎn)頭參量組成。但是,在完全子之間和幀之間,點(diǎn)頭參量可能又有很強(qiáng)的相關(guān)性。完全子之間相關(guān)的原因在于完全子表示的是以比較協(xié)調(diào)的方式運(yùn)動(dòng)的較大對(duì)象的各部分,但完全子本身的運(yùn)動(dòng)并不是很協(xié)調(diào)一致。此外,當(dāng)完全子對(duì)于物理實(shí)體時(shí),由于物理實(shí)體運(yùn)動(dòng)的直線性較強(qiáng),所以幀之間一具有相關(guān)性。當(dāng)對(duì)象沿一個(gè)方向運(yùn)動(dòng)時(shí),在接下來的幾幀內(nèi)對(duì)象常常會(huì)沿同一方向以接近相同的速度運(yùn)動(dòng)?;谶@種認(rèn)識(shí),點(diǎn)頭因子可以深度化。
對(duì)于手動(dòng)編碼,操作者通常可以將完全子分組從而使每一組完全子都具有共同的關(guān)系。這種分組被稱為超級(jí)完全子而一組內(nèi)每個(gè)單獨(dú)的完全子被稱為亞完全子。分組可以不斷進(jìn)行下去,從而使幾個(gè)超級(jí)完全子本身又是更高一級(jí)的超級(jí)完全子的亞完全子。亞完全子和完全子保留了所有的完全子的特征。對(duì)于自動(dòng)編碼,可以通過點(diǎn)頭變換的群集分析進(jìn)行相似的分組。
一個(gè)超級(jí)完全子中的亞完全子的點(diǎn)頭因子可以分為兩個(gè)分量,第一分量用來描述超級(jí)完全子的運(yùn)動(dòng)而第二分量用來描述相對(duì)于超級(jí)完全子的各亞完全子的運(yùn)動(dòng)。
幀之間的點(diǎn)頭因子的深度化包括確定用于同屬某一完全子的點(diǎn)頭因子的幀之間的關(guān)系,完全子可以是標(biāo)準(zhǔn)完全子、超級(jí)完全子和亞完全子。這通過將點(diǎn)頭因子分割為定義了完全子開始位置的靜止部分、定義了完全子遵循軌跡的軌跡部分和描述了給定幀內(nèi)特定完全子在軌跡上的位置的動(dòng)態(tài)部分來完成。靜止和軌跡部分都可以按照參考圖像或超級(jí)完全子的點(diǎn)頭因子來定義。
深度化的點(diǎn)頭因子表示仿射變換組并且可以表示為一組矩陣,參見William M.Newman和Robert F.Sproull《交互式計(jì)算機(jī)圖形原理》,第57頁(mCGraw Hill 1984),它作為參考文獻(xiàn)包含在這里。靜止部分對(duì)應(yīng)一個(gè)固定的矩陣。軌跡和動(dòng)態(tài)部分對(duì)應(yīng)參量化的矩陣,矩陣為軌跡部分而參量為動(dòng)態(tài)部分,參見Neman & Sproull,第58頁,它作為參考文獻(xiàn)包含在這里。這些變形可以根據(jù)靜止部分、軌跡部分和動(dòng)態(tài)部分之間的關(guān)系連接起來。變換也可以根據(jù)沿軌跡的幾種表現(xiàn)的組合以及超級(jí)完全子與亞完全子之間的關(guān)系連接在一起,參見Neman & Sproull,第58頁,它作為參考文獻(xiàn)包含在這里。
人工操作者采用以下方法很容易完成上述操作確定無參量的全仿射變換的方法;以足夠的容量存儲(chǔ)用于確定平移、標(biāo)度、旋轉(zhuǎn)或剪切的參量的變換矩陣的方法;為形成新的變換矩陣而確定連接在一起的變換矩陣的方法;以及確定應(yīng)用于每個(gè)完全子的變換(可能是幾種變換的聯(lián)合)的方法。
自動(dòng)編碼對(duì)于自動(dòng)或半自動(dòng)編碼,編碼過程可以迭代,借助每次迭代增加了編碼的效率。由于密度變化的建模效率沒有地址變化的建模效率高或者情況相反,所以重要的是使自動(dòng)編碼在密度變化與地址變化之間達(dá)到正確的平衡。因此,在域的建模過程中,利用一個(gè)過程來估計(jì)各個(gè)計(jì)分和殘量是很重要的,該過程避免了密度變化建模與地址變化建模效率的差異。這可以通過只是在需要時(shí)才進(jìn)行著色建模的序列模型的建立并確保模型參量可以用于多幀來完成。這里將描述涉及全序列建模的較佳實(shí)施例和涉及簡化序列建模的另一個(gè)實(shí)施例。在描述中,首先在相當(dāng)高的級(jí)別上提出編碼器的各個(gè)構(gòu)成塊,隨后將詳細(xì)地描述這些構(gòu)成塊的操作和控制。
自動(dòng)編碼器總覽借助圖6—13將詳細(xì)描述視頻序列數(shù)據(jù)情形下按照本發(fā)明的自動(dòng)或半自動(dòng)編碼。圖6是按照本發(fā)明的編碼器的框圖。圖7是圖6編碼器的模型估計(jì)器部分的框圖。圖8—10表示了模型估計(jì)器的變化區(qū)域估計(jì)器的較佳實(shí)施例的細(xì)節(jié)和原理。
圖11表示變化區(qū)域估計(jì)器的局部變化區(qū)域估計(jì)器的細(xì)節(jié)。
圖12表示了模型估計(jì)器的解釋器的示意圖。
圖13表示了分立的譯碼器的示意圖。
高級(jí)編碼器操作存儲(chǔ)在數(shù)字存儲(chǔ)介質(zhì)中的輸入數(shù)據(jù)(610)由幀n=1,2,…,的n幀輸入圖像的視頻序列xseq組成。該輸入包括帶有顏色通道的實(shí)際密度數(shù)據(jù)iseq,顏色通道遵從合適的顏色表示格式,例如〔Rseq,Gseq,Bseq〕和合適的空間分辨率格式。輸入還由不同像素或像素的隱含或明示的2D坐標(biāo)地址或位置數(shù)據(jù)aseq組成。因此,每幀的視頻序列xn由in,an和pn信息組成。
最后,xseq也可以由用于增強(qiáng)IDLE編碼的概率性質(zhì)pseq組成。這些數(shù)據(jù)由每幀預(yù)處理的后續(xù)結(jié)果組成(a)可建模性,即利于檢測出的前一幀和后一幀內(nèi)不同部分的概率估計(jì);(b)HeteroPel,即像素表示均勻或非均勻的光學(xué)結(jié)構(gòu)的概率。
按照本發(fā)明的自動(dòng)編碼器由高級(jí)多路控制器620和模型估計(jì)器630組成。多路控制器620優(yōu)化了對(duì)給定序列的一系列幀所作的重復(fù)的幀狀態(tài)的估計(jì)。模型估計(jì)器630優(yōu)化了視頻幀n的建模。
在較佳實(shí)施例中,不同域上帶參量的完全序列模型通過包含來自序列不同幀的信息逐漸擴(kuò)充(“擴(kuò)展”和“拓寬”)和精細(xì)化(“深度化”和統(tǒng)計(jì)意義上的“更新”)。完全序列模型進(jìn)一步精細(xì)化為貫穿序列的連續(xù)、迭代的通道。
相反,在涉及簡化建模的另一個(gè)實(shí)施例中,在不同的域和多幅不同的幀上產(chǎn)生一組競爭附加序列模型以對(duì)輸入幀xn的未建模部分建模。應(yīng)該注意的是,采用已有的序列模型Xref來對(duì)輸入幀xn已建模部分建模。這些競爭附加模型只在一種域上有參量。用于估計(jì)各種域上參量的幀的數(shù)目(通道的長度)由幀建模的難易程度決定。在每種域上通道的末端,通過從幀建模能力增加最大的競爭附加域模型挑選新的因子或分段“拓寬”或“擴(kuò)展”完全序列模型。該實(shí)施例在附錄II的簡化編碼器中有詳細(xì)描述。
模型估計(jì)器630輸入由前述〔in,an和pn〕組成的每一幀xn(640)的輸入數(shù)據(jù)。它還輸入已經(jīng)過初步估計(jì)的模型Xref(650)作為序列的穩(wěn)定輸入。作為輸出,模型估計(jì)器630提供輸入圖像xnhat(660)和相應(yīng)的無擬合殘量en=xn-xnhat(665)的重建圖像以及模型(655)的改進(jìn)模型。
模型估計(jì)器630還輸入/輸出幀n附近數(shù)據(jù)結(jié)構(gòu)的局部模型670。
此外,模型估計(jì)器630可以從外部模型基元數(shù)據(jù)庫680輸入預(yù)建立模型元素,數(shù)據(jù)庫680由運(yùn)動(dòng)模式的空間和時(shí)間模型(例如人的臉部或身體、流水、吹動(dòng)的樹葉和樹枝)和更簡單的建模元素(例如多面體模型)組成。(參見David W.Murray,David A.Castelow和Bernard F.Buxon,“從圖像序列到識(shí)別運(yùn)動(dòng)的多面體”,國際計(jì)算機(jī)期刊,第三期,pp181—208,1989,它作為參考文獻(xiàn)包含在這里)。
模型估計(jì)器630還從多路控制器620和向多路控制器交換控制信息635和637。在以下的圖中沒有清楚地示出有關(guān)控制參量的細(xì)節(jié)。
模型估計(jì)器對(duì)于給定的幀n,圖6的模型估計(jì)器630的完整實(shí)現(xiàn)示于圖7中。模型估計(jì)器630包含變化區(qū)域估計(jì)器710和解釋器720。變化區(qū)域估計(jì)器710取用幀xn(對(duì)應(yīng)640)(由圖像密度數(shù)據(jù)in、地址信息an和概率信息pn)的原始輸入數(shù)據(jù)。它還從編碼過程中該點(diǎn)處的當(dāng)前空間和時(shí)間模型760(對(duì)應(yīng)650)的初始模型輸入信息。初始模型信息760用來穩(wěn)定變化區(qū)域估計(jì)器710中變化區(qū)域圖像區(qū)域的估計(jì),變化區(qū)域用來改變擴(kuò)展參考圖像的密度和初始序列模型xRef,Useq(760)的其它量以盡可能地逼近輸入圖像密度in。
變化區(qū)域估計(jì)器710也從多路控制器620輸入各種控制參量并與解釋器720交換局部控制信息755和756。
作為主輸出,為了盡可能地逼近輸入圖像密度in,變化區(qū)域估計(jì)器710產(chǎn)生用作改變擴(kuò)展參考圖像的初始序列模型XRefUseq(760)的空間和時(shí)間參量的估計(jì)變化圖像區(qū)域DXRef,n(730)。它還產(chǎn)生輸入圖像xnhat(640)和相應(yīng)的無擬合殘量en(645)的基于初始模型的譯碼(重建)結(jié)果。
變化區(qū)域估計(jì)器710也產(chǎn)生包含用于隨后的解釋器720的各種警告和命令統(tǒng)計(jì)的局部概率量wn(750)。變化區(qū)域估計(jì)器710可以選擇輸入和更新局部模型670以進(jìn)一步優(yōu)化和穩(wěn)定參量估計(jì)過程。
解釋器720決定了估計(jì)變化圖像區(qū)域DXRef,n’730和初始預(yù)測xnhat和殘量en以及估計(jì)警告wn750和來自多路控制器620的控制參量輸出。解釋器720可以選擇接收來自模型基元780的外部數(shù)據(jù)庫的信息。這些模型基元有以下幾種類型為了改善壓縮或建模功能,在現(xiàn)有的IDLE模型中可以包括先前從其它數(shù)據(jù)估計(jì)得到的空間裝入或時(shí)間計(jì)分系列組。利用空間裝入模型的一個(gè)例子是在畫面電話編碼時(shí)使已有的通常的嘴巴運(yùn)動(dòng)模型適合于交談?wù)吣槻康慕?。因此不用估?jì)和存儲(chǔ)/傳送詳細(xì)的因子裝入就可以在很多場合利用嘴巴運(yùn)動(dòng);只有用于使通常的嘴巴運(yùn)動(dòng)裝入適應(yīng)面前的人的臉部的參量才需要估計(jì)和存儲(chǔ)/傳送。
同樣也示出了利用對(duì)視頻游戲應(yīng)用中人的行走和奔跑運(yùn)動(dòng)的預(yù)估計(jì)計(jì)分時(shí)間序列將已有的運(yùn)動(dòng)模式包含到IDLE模型中去的例子。在這種情況下,預(yù)估計(jì)計(jì)分以及相應(yīng)的微笑裝入必須適配視頻游戲參考圖像中的人,但不必對(duì)行走和奔跑者的整個(gè)模型進(jìn)行估計(jì)。
模型基元應(yīng)用的第三個(gè)例子是將參考圖像分解為用于參考模型XRef的靜止圖像壓縮的更為簡單的預(yù)定的幾何形狀(例如多邊形)。
解釋器接下來修改序列模型XRef760的內(nèi)容并輸出作為更新序列的序列模型(765)以及輸入圖像xnhat(770)和相應(yīng)的無擬合殘量en(775)的基于經(jīng)過修正的模型的譯碼結(jié)果。在收斂的基礎(chǔ)上(由多路控制器620判斷),這些輸出被用作整個(gè)模型估計(jì)器(630)的輸出。
圖8是按照本發(fā)明的較佳實(shí)施例的變化區(qū)域估計(jì)器710的框圖。如圖8所示,向變化區(qū)域估計(jì)器710提供轉(zhuǎn)換為正確格式的輸入幀xn和用于這里的編碼器的顏色空間。以模型估計(jì)階段采用的形式的序列模型XRef(760)也輸入變化區(qū)域估計(jì)器710。來自變化區(qū)域估計(jì)器710的主輸出是將序列模型XRef810轉(zhuǎn)換為輸入幀xn的較好估計(jì)的變化圖像區(qū)域DXRef,n(890)。
變化區(qū)域估計(jì)器710可以按兩種方式實(shí)現(xiàn)。首先,在較佳實(shí)施例中,對(duì)每種域分別優(yōu)化變化區(qū)域,并且優(yōu)化組合在解釋器720中迭代確定。另一種方式是在變化區(qū)域估計(jì)器710中在各種域上聯(lián)合優(yōu)化變化區(qū)域。這將在下面詳細(xì)描述。
附加的輸出包括輸入和初始估計(jì)en(894)之間的差異,即初始估計(jì)xnhat(892)以及警告wn(896)。
預(yù)測位置m基于計(jì)算和統(tǒng)計(jì)原因,重要的是盡可能地簡化變化區(qū)域的估計(jì)。在變化區(qū)域估計(jì)器的較佳實(shí)施例中,通過預(yù)測與輸入幀xn相似的估計(jì)幀xm并隨后只估計(jì)xn至xm的局部變化,目的是以更精確地表示輸入幀xn。
正如下面將要詳細(xì)論述的那樣,本較佳實(shí)施例的變化區(qū)域估計(jì)器710首先利用內(nèi)部預(yù)測器810和譯碼器830來預(yù)測一個(gè)估計(jì)(稱xm835)以相似于輸入幀xn。預(yù)測器(810)接收到輸入時(shí)間序列模型Useq(811)并向譯碼器(830)輸出預(yù)測的時(shí)間計(jì)分um(815)。譯碼器830將計(jì)分與空間序列模型XRef831結(jié)合起來產(chǎn)生所需的預(yù)測幀xm(835)。有關(guān)譯碼器的其它細(xì)節(jié)將在下面描述。
估計(jì)從m到輸入幀n的局部變化區(qū)域接下來,采用局部變化區(qū)域估計(jì)器來估計(jì)從預(yù)測的xm到實(shí)際的輸入幀xn所需的局部變化區(qū)域。這種變化稱為估計(jì)的局部變化區(qū)域dxmn(855)并包含幾種域上的信息,主要是下面將要討論的運(yùn)動(dòng)和密度變化。
在估計(jì)局部變化區(qū)域dxmn中,對(duì)于“m位置上的”像素(即像素在預(yù)測幀xm中的位置)給出了如何改變預(yù)測xm內(nèi)容的數(shù)據(jù)。為了能對(duì)這些新的變化區(qū)域數(shù)據(jù)和先前從其它幀獲得的相應(yīng)的變化區(qū)域數(shù)據(jù)建模,重要的是要將所有幀的變化區(qū)域數(shù)據(jù)移動(dòng)到公共的位置。在較佳實(shí)施例中,這種公共位置被稱為參考位置或參考幀XRef下面將要論述這種回到公共參考位置的運(yùn)動(dòng)。要注意的是大寫字母將用來表示擴(kuò)展參考圖像模型的該參考位置中給出的數(shù)據(jù),而小寫字母將用來表示圖像xn的輸入格式和輸入圖像xn的逼近。
來自譯碼器830的附加輸出是逆地址變化區(qū)域dam,ref865,它允許移動(dòng)器操作者870將獲得的m位置內(nèi)給定的局部變化區(qū)域信息dxmn移回公共參考位置。dxmn輸出的移動(dòng)的型式稱為Dxmn@Ref875,大寫字母表示參考位置中沒有給出信息。
局部變化區(qū)域估計(jì)器850還可以接收移動(dòng)到m位置(XRef@m(xù))完全模型XRef,加上相應(yīng)的DXRef,m825的移動(dòng)型式和來自譯碼器830的輸出的返回微笑區(qū)域dam,Ref865,以用于dxmn835參量估計(jì)的內(nèi)部穩(wěn)定。
估計(jì)幀n的完全變化區(qū)域編碼過程接下來的步驟是確定從參考位置到輸入幀n的估計(jì)位置的完全估計(jì)變化區(qū)域。這通過向加法器880提供最初用于XRef到xm變換的變化區(qū)域DXRef,n和獲得的DXmn@Ref從而產(chǎn)生所需的主輸出DXRef,n來完成。
局部變化估計(jì)示例圖9從概念上示出了在用于表示移動(dòng)對(duì)象的圖像中的給定像素的地址變化DA情況下的如上所述的預(yù)測位置m的應(yīng)用。DARef,n′(作為變化區(qū)域DXRef,n′的一部分)的確定表示為圖9中的元素902。DARef,n′的估計(jì)分為四個(gè)階段。
第一個(gè)步驟是確定將空間信息從參考位置移動(dòng)到預(yù)測的m位置從而逼近輸入幀n的預(yù)測變化區(qū)域。這基于由從點(diǎn)Ref到點(diǎn)m的矢量表示的地址變化區(qū)域DARef,m(904)。該矢量由預(yù)測確定并且是DXRef,m的一部分。
其次,確定從預(yù)測位置m到實(shí)際輸入幀#n,damn(926)的局部移動(dòng)。
第三,采用逆移動(dòng)區(qū)域daRef,m(905)(即從m位置到參考位置的矢量)將估計(jì)結(jié)果damn從m位置“移動(dòng)”或平移回參考位置從而產(chǎn)生DAm@Ref(936)。
最后,將相對(duì)于參考位置Ref的兩個(gè)區(qū)域(即DARef,m和DAmn@Ref)相加以產(chǎn)生所需的DARef,n(946)。
因此,移動(dòng)器870的功能是將局部變化區(qū)域damn移回參考圖像模型位置Ref。這樣,dxmn中所有的元素(dimn,damn和dpmn)都被移回Ref位置。移動(dòng)器870的輸出是Dxmn@Ref(875),它是從預(yù)測幀m到輸入幀n行進(jìn)時(shí)的局部變化信息,但相對(duì)于參考位置Ref定位。為了確保從給定對(duì)象的幀n獲得的變化信息與從同一對(duì)象的其它幀獲得的變化信息定位在一起,變化信息被“移回”參考位置Ref。通過將所有關(guān)于對(duì)象的信息定位于同一像素位置,可以展開在序列中呈對(duì)稱變化的簡單模型。在這種方式中,系統(tǒng)試圖動(dòng)態(tài)改善輸入幀的最初估計(jì)。在地址變化區(qū)域DARef,m(904)全部定義為零時(shí),局部變化區(qū)域估計(jì)器850必須將完全的變化區(qū)域DARef,n直接估計(jì)為damn。這例如發(fā)生在編碼過程之初,并且對(duì)于幀n,接近用于初始化參考圖像模型的幀。
應(yīng)該指出的是,局部概率變化信息dpmn包含額外的維數(shù),這些維數(shù)包含了局部變化區(qū)域估計(jì)器(850)性能的統(tǒng)計(jì)描述。對(duì)于這些維數(shù),DARef,m中相應(yīng)的變化區(qū)域被考慮為是空的。這些附加的維數(shù)由用于編碼優(yōu)化的解釋器使用。這些維數(shù)例如可以反映可能發(fā)生的折疊或包藏問題,這些問題使xm丟失一些估計(jì)輸入幀xn所需的XRef的空間信息和在后面階段包括XRef所需的xn內(nèi)的空間改進(jìn)。
局部變化區(qū)域估計(jì)器(850)還輸出輸入幀xnhat(892)、無擬合殘量en(894)和某些解釋警告wn(896)的一種估計(jì)。這些也通向用于編碼優(yōu)化的解釋器(720)。
以下詳細(xì)討論用于局部變化區(qū)域估計(jì)器的局部模型信息(899)的輸入和輸出。
變化區(qū)域估計(jì)器圖8的局部變化區(qū)域估計(jì)器850的細(xì)節(jié)隨各種域I、A和P分別示于圖10中。應(yīng)該注意的是,這些域的每一個(gè)都包含子域(例如在A中有V、H、Z;在I中有R,G,B)。為簡化起見,它們不再明確表示出來。
由更詳細(xì)地示出了圖8的變化區(qū)域估計(jì)器主要部分的圖10可見,序列所用的時(shí)間計(jì)分估計(jì)器用于預(yù)測器1010以產(chǎn)生以下三種域上的幀m的預(yù)測因子或計(jì)分密度(uIm)、地址(uAm)和概率(uPm)。
編碼器的內(nèi)部譯碼器部分變化區(qū)域制造器編碼器的內(nèi)部譯碼器部分包括對(duì)有關(guān)的輸入、輸出和內(nèi)部數(shù)據(jù)流進(jìn)行運(yùn)算的變化區(qū)域制造器1020、加法器1030和移動(dòng)器1040。在編碼器的內(nèi)部譯碼器的第一級(jí)(變化區(qū)域制造器),因子或計(jì)分與變化區(qū)域制造器1020中(初始)空間模型XRef所用的相應(yīng)空間因子裝入結(jié)合在一起以產(chǎn)生預(yù)測變化區(qū)域。對(duì)于每個(gè)域I、A和P和每個(gè)子域,估計(jì)因子計(jì)分與因子裝入相乘并累積結(jié)果,從而產(chǎn)生預(yù)測變化區(qū)域DIRef,m′、DARef,m′、DPRef,m′。
為簡化起見,圖8和圖10中沒有包括用于編碼器的內(nèi)部譯碼器部分的硬建模的附加功能。由于分立譯碼器與這里的編碼器內(nèi)部譯碼器部分基本上是一樣的,所以將結(jié)合圖13的分立譯碼器來討論內(nèi)部譯碼器的各種其它的細(xì)節(jié)。加法器在譯碼器的第二級(jí)(加法器),變化區(qū)域與加法器1030中相應(yīng)的基本(初始)空間圖像(即擴(kuò)展參考圖像密度IRef(0)(例如RGB),(隱含的)擴(kuò)展參考圖像地址ARef(0)(例如VHZ)和擴(kuò)展參考圖像概率PRef(0)(例如混濁度))相加。這產(chǎn)生了Im@Ref、Am@Ref和Pm@Ref。移動(dòng)器預(yù)測變化區(qū)域在移動(dòng)器1040內(nèi)根據(jù)移動(dòng)區(qū)域DARef,m(圖9中的904)進(jìn)行變換,從而產(chǎn)生預(yù)測密度圖像im(例如RGB)、預(yù)測地址圖像am(例如VHZ)和預(yù)測概率圖像pm(例如混濁度)。這些預(yù)測數(shù)據(jù)部分構(gòu)成了由圖8譯碼器830輸出的預(yù)測輸出xm(圖8中的835)。
局部變化區(qū)域估計(jì)器局部變化區(qū)域估計(jì)器(850)對(duì)如何在一個(gè)或多個(gè)域上(主要是密度域)改變譯碼器830產(chǎn)生的預(yù)測圖像xm作出估計(jì)以精確逼近輸入幀xn。最終的估計(jì)變化稱為局部變化區(qū)域dxmn。
從參考位置移動(dòng)到預(yù)測位置xRef@m(xù)837的序列模型裝入可以用于統(tǒng)計(jì)模型穩(wěn)定化的輸入。此外,局部模型899可以用作穩(wěn)定這種估計(jì)。局部模型可以是特殊情形下的優(yōu)化特定的幀子組的模型。
變化區(qū)域估計(jì)中的分隔聯(lián)合域?qū)τ谧兓瘏^(qū)域估計(jì)器710中的局部變化區(qū)域的聯(lián)合域估計(jì),密度差異dimn引起一些m—n偏離,而移動(dòng)damn引起一些m—n偏離,并且分段和其它概率差異dpmn引起其它的m—n偏離。變化區(qū)域估計(jì)器710隨后需要內(nèi)部邏輯和迭代處理來平衡不同的域從而使同一m—n變化同一時(shí)刻不會(huì)在一個(gè)以上的域上建模。由于最終的局部變化區(qū)域dxmn已經(jīng)包含了來自不同域的貢獻(xiàn)的適當(dāng)平衡,所以這簡化了編碼處理的其它部分。
但是,當(dāng)涉及聯(lián)合局部變化區(qū)域域時(shí),為了平衡來自各個(gè)域的貢獻(xiàn),局部變化區(qū)域估計(jì)器850必須利用各種內(nèi)部建模機(jī)制的迭代。由于在解釋器中已經(jīng)需要這些內(nèi)部機(jī)制(因子計(jì)分估計(jì)、分段)來平衡不同幀的貢獻(xiàn),所以較佳實(shí)施例在局部變化區(qū)域估計(jì)器850中采用對(duì)各種變化區(qū)域的域的分開建模。這使得局部變化區(qū)域估計(jì)器850的設(shè)計(jì)更簡單。但是,為了達(dá)到每幀的不同域上建模之間的最佳平衡,編碼過程必須在變化區(qū)域估計(jì)器710與解釋器720之間向前和向后迭代幾次。為了更好地逼近xn,在每次迭代后改變預(yù)測幀xm,并且如下所述,由解釋器累計(jì)不同域的增量變化。
采用分開域的建模的局部變化區(qū)域估計(jì)器如圖11所示,局部變化區(qū)域估計(jì)器850的主要用途是采用預(yù)測幀xm1101和輸入幀xn1102來估計(jì)用于從預(yù)測幀m到輸入幀n的局部變化區(qū)域dxmn1103。
局部變化區(qū)域估計(jì)器850采用不同域上的分開估計(jì)。估計(jì)器EstSmile1110估計(jì)局部地址變化區(qū)域(微笑區(qū)域)damn1115,而分開的估計(jì)器EstBlush1120估計(jì)局部密度變化區(qū)域(著色區(qū)域)dimn1125。這些估計(jì)器中的每一個(gè)都可以用來估計(jì)概率變化區(qū)域dpmn1126。圖11的實(shí)施例示出了由EstBlush估計(jì)器1120估計(jì)概率變化密度區(qū)域的情形。
此外,估計(jì)器1110和1120分別提供了對(duì)輸入數(shù)據(jù)、殘量和報(bào)警的逼近1112和1114。報(bào)警用于那些在給定估計(jì)器中難以建模的圖像區(qū)域。兩個(gè)估計(jì)器的輸出流1112和1114作為兩組分開的輸出逼近xnhat、殘量exn和報(bào)警wn來提供。
EstSmile1110運(yùn)動(dòng)估計(jì)器EstSmile1110運(yùn)動(dòng)估計(jì)器主要通過利用任意數(shù)量的不同比較基礎(chǔ)(例如絕對(duì)差之和或平方差權(quán)重之和)將預(yù)測密度im與實(shí)際輸入密度in比較來估計(jì)局部地址變化區(qū)域damn。為此可以應(yīng)用各種運(yùn)動(dòng)估計(jì)技術(shù),例如在R.C.Gonzales和R.E.Woods的《數(shù)字圖像處理》pp465—478(Addison—Wesley,1992)中論述的頻率域技術(shù)(作為參考文獻(xiàn)已包含在這里)或R.Depommier和E.Dubois的“帶有包藏檢測的運(yùn)動(dòng)估計(jì)”IEEE0—7803—0532—9/92,pp.III269—III272,1992中論述的采用耦合馬爾柯夫隨機(jī)場模型的方法(作為參考文獻(xiàn)已包含在這里)。
按照本發(fā)明的較佳實(shí)施例采用一種使統(tǒng)計(jì)估計(jì)平穩(wěn)和通過利用已有的模型信息來盡量減少所需的新的空間微笑裝入的運(yùn)動(dòng)估計(jì)技術(shù)。從參考位置移動(dòng)到m位置XRef@m(xù)的空間模型結(jié)構(gòu)是其中一種模型信息。模型信息的種類還包括下面將要詳細(xì)論述的估計(jì)權(quán)重Wgts—XRef的移動(dòng)變型。
概率域PRef@m(xù)包括能使完全子邊緣區(qū)域內(nèi)的像素從完全子內(nèi)部不同的地方移動(dòng)出來的分段信息sRef@m(xù)。為了獲得較好的運(yùn)動(dòng)估計(jì)和在兩個(gè)完全子接近時(shí)完全子分離的較開,這是很重要的。EstSmile估計(jì)器1110本身可以發(fā)現(xiàn)新的局部段,它們作為報(bào)警wn或概率性dpmn的一部分傳送至解釋器720。局部段一般是子段或分段的一部分,看上去象一個(gè)從預(yù)測幀m到幀n運(yùn)動(dòng)的實(shí)體。
地址域包括每個(gè)坐標(biāo)亞運(yùn)算域和每個(gè)完全子的空間地址因子裝入a(f)Ref@m(xù),f=0,1,2,…。運(yùn)動(dòng)估計(jì)用來接受作為已有的比較可靠的地址因子裝入的線性組合的運(yùn)動(dòng)區(qū)域damn。這使得那些與解釋器720中所用相似的內(nèi)部計(jì)分估計(jì)器和殘量變化區(qū)域估計(jì)器成為必要。隨后幀n對(duì)幀n-1、n+1等的計(jì)分時(shí)間平滑度作為附加的穩(wěn)定限制而被施加上去。
運(yùn)動(dòng)估計(jì)也可以包括對(duì)不同分段的“重度”點(diǎn)頭因子的估計(jì)。這些分段可以是整幅幀(用于全景和變焦)、預(yù)測sm中定義的完全子,可以是運(yùn)動(dòng)估計(jì)操作者自己發(fā)現(xiàn)的新的局部分段。
采用各種輸入xm、xn和xRef@m(xù)的密度和地址的輸入不確定變化的方式保證根據(jù)不確定數(shù)據(jù)的運(yùn)動(dòng)估計(jì)一般被根據(jù)相對(duì)確定的數(shù)據(jù)的運(yùn)動(dòng)估計(jì)所覆蓋。同樣,根據(jù)先前由例如pn判斷難以建模的預(yù)測幀xm或輸入幀xn內(nèi)的像素區(qū)域的運(yùn)動(dòng)估計(jì)一般被經(jīng)判斷相對(duì)容易建模的區(qū)域上的運(yùn)動(dòng)估計(jì)所覆蓋。
在序列的初始建模期間,當(dāng)還沒有確定空間模型結(jié)構(gòu)時(shí),并且當(dāng)提取因子非常不可靠時(shí),其它的諸如空間和時(shí)間平滑度的穩(wěn)定化假設(shè)被賦予較高的權(quán)重。
為了便于運(yùn)動(dòng)估計(jì)處理,除了用于編碼器其余的運(yùn)動(dòng)估計(jì)以外,EstSmile1110估計(jì)器可以在不同的坐標(biāo)系中完成運(yùn)動(dòng)估計(jì)。
EstBlush1120密度變化估計(jì)器EstBlush估計(jì)器1120估計(jì)局部增量著色區(qū)域dimn,最簡單的形式為dimn=in-im應(yīng)該注意的是,在對(duì)給定幀的估計(jì)變化區(qū)域迭代改進(jìn)期間,非常重要的是,在某一迭代過程中的用于在譯碼器830中重建預(yù)測幀xm的著色區(qū)域并不是僅僅根據(jù)dimn=in-im從前面的迭代得到,由于將在預(yù)測幀m與輸入幀n之間進(jìn)行人工擬合,所以提前結(jié)束了對(duì)更佳微笑和概率變化區(qū)域的估計(jì)過程。
EstBlush估計(jì)器1120還通過檢測已有完全子的內(nèi)部入口、新的邊緣來檢測概率性質(zhì)dpmn中的局部變化。這可以基于標(biāo)準(zhǔn)分段技術(shù)的局部應(yīng)用。還可以根據(jù)局部湊試法搜索對(duì)PRef@m(xù)中所用的透明度計(jì)分或裝入(它們不需要進(jìn)一步的著色或微笑變化就能改善im和in之間的擬合)的微小變化檢測透明度的變化。
逆向移動(dòng)器利用從m到來自譯碼器移動(dòng)器870的Ref,dam,Ref的返回地址變化區(qū)域?qū)⒐烙?jì)局部變化區(qū)域(對(duì)應(yīng)于圖8中的dxmn855)從預(yù)測位置m移回逆向移動(dòng)器1060中參考位置Ref。這些輸出DImn@Ref、DAmn@Ref和DPmn@Ref對(duì)應(yīng)于圖9中的DAmn@Ref908和圖8中的DXm@Ref。
逆向加法器最后,將Dxmn@Ref與逆向加法器1070中的原始預(yù)測變化區(qū)域DXRef,m〔DIRef,m′,DARef,m和DPRef,m〕相加以產(chǎn)生用于參考模型XRef上來估計(jì)輸入幀n,xn的所需估計(jì)變化區(qū)域。DXRef,n的這些變化區(qū)域是DIRef,m′,DARef,m和DPRef,m。
局部變化區(qū)域估計(jì)器1050還產(chǎn)生對(duì)應(yīng)各個(gè)域上的en(894)和xnhat(892)的殘量和預(yù)測以及圖8中各種其它的統(tǒng)計(jì)報(bào)警wn(896)。
解釋器解釋器綜述解釋器720的主要用途是從估計(jì)變化區(qū)域和其它用于各幀的數(shù)據(jù)提取用于整個(gè)數(shù)據(jù)序列或部分序列的穩(wěn)定的模型參量。與變化區(qū)域估計(jì)器710相結(jié)合的解釋器720同時(shí)用于初始內(nèi)部模型改進(jìn)和模型的最終完成。對(duì)于視頻編碼,解釋器720將變化區(qū)域信息轉(zhuǎn)變?yōu)榈刂贰⒚芏群透怕视蛏系目臻g、時(shí)間、彩色和其它模型參量。在每幀n、每個(gè)幀序列和通過幀序列的重復(fù)通過的多路控制器620的控制下不斷訪問解釋器720和變化區(qū)域估計(jì)器710。
對(duì)于編碼過程中給定階段的給定幀n,解釋器720從變化區(qū)域估計(jì)器710輸入各個(gè)域上的估計(jì)變化區(qū)域DXRef,n730(包括不確定估計(jì))和附加報(bào)警wn750。解釋器還從變化區(qū)域估計(jì)器710接收各幀的初始編碼數(shù)據(jù)xnhat(735)和殘量誤差en(745)。除了局部模型信息899和局部變化區(qū)域估計(jì)dxmn以及輸入幀信息xn以外,解釋器720還接收已有的模型{XRef,USeq}760,并有選擇地接收用于模型深化的模型基元的數(shù)據(jù)庫780。解釋器720還接收和返回來往于多路控制器的控制信號(hào)和參量635與637以及往來于變化區(qū)域估計(jì)器710的控制信號(hào)和參量755和756。
解釋器720對(duì)這些輸入進(jìn)行處理并輸出模型{XRef,USeq}765的更新。這種模型中的變化可以是參考圖像模型、拓寬的子運(yùn)算域模型的完全子結(jié)構(gòu)的空間擴(kuò)展或再定義或因子裝入XRef以及序列計(jì)分USeq的新的更新值。解釋器720還輸出各幀n上的各種域和子運(yùn)算域un(772)上的計(jì)分以及重建幀xnhat(770)和殘量en(775)。應(yīng)該注意的是,所有的解釋器輸出都表示為單值和相關(guān)的不確定估計(jì)。
圖12詳細(xì)示出了解釋器720的內(nèi)部操作框圖。由圖12可見,解釋器720包括在已知各個(gè)完全子和子運(yùn)算域的裝入的情況下估計(jì)因子的計(jì)分un(1204)的計(jì)分估計(jì)器1202。解釋器720還估計(jì)對(duì)應(yīng)仿射變化的點(diǎn)頭計(jì)分矩陣,包括用于移動(dòng)和標(biāo)度相機(jī)全景和變焦運(yùn)動(dòng)時(shí)的整個(gè)幀的計(jì)分。向扣除了來自變化區(qū)域輸入DXRef,n′的這些已知因子效應(yīng)的殘量變化估計(jì)器1210提供這些計(jì)分以產(chǎn)生殘量或未建模部分EXn(1212)。為了通過分析從同一序列中的幾幀獲得的變化區(qū)域數(shù)據(jù)來提取附加模型參量,空間模型拓寬器1214使用殘量1212(或根據(jù)實(shí)施例使用完全變化區(qū)域DXRef,n)。由于如上所述,所有來自子序列的不同幀的變化區(qū)域已經(jīng)移回參考位置,所以現(xiàn)在可以利用這些變化區(qū)域數(shù)據(jù)的因子分析來提取許多像素和幀的公共的空間—時(shí)間變化結(jié)構(gòu)。根據(jù)在兩幅以上幀內(nèi)發(fā)現(xiàn)的未建模變化的能力判斷為可靠的新的因子用來穩(wěn)定子序列幀的變化區(qū)域估計(jì)。相反,只影響少量像素和幀的微小變化模式不用于統(tǒng)計(jì)穩(wěn)定,但是如果它們代表還未充分顯示出來但在向建模過程加入更多的幀時(shí)具有統(tǒng)計(jì)意義的變化模式,則存入存儲(chǔ)器。
空間模型拓寬器1214還處理諸如3D排序/結(jié)構(gòu)估計(jì)和透明度及陰影效應(yīng)評(píng)價(jià)等其它任務(wù)。而且還向時(shí)間模型更新器1206和空間模型更新器1208提供計(jì)分1215,它們用于模型的統(tǒng)計(jì)細(xì)化、簡化和優(yōu)化。
在解釋器720中,還向執(zhí)行用于從各幀n提取新的空間分段的各種分段操作的空間模型擴(kuò)展器1216提供輸入序列Xi??臻g模型擴(kuò)展器1216還合并與分離圖像段以提供更有效的完全子結(jié)構(gòu)。還向模型深化器1218提供輸入序列xSeq,模型深化器試圖用更有效的域上的等價(jià)模型參量代替各種域上的模型參量。這例如可以包括將諸如微笑因子之類的“軟”建模因子轉(zhuǎn)換為需要較少明示信息的“硬”點(diǎn)頭因子。
解釋器操作模塊的詳細(xì)描述計(jì)分估計(jì)器1202估計(jì)各種域(運(yùn)算對(duì)象)和用于與具有已知的XRef中的裝入的因子一起使用的各個(gè)完全子的子運(yùn)算域上的各幀n的計(jì)分un。每個(gè)計(jì)分包括一個(gè)數(shù)值和相關(guān)的估計(jì)不確定性。為了平衡統(tǒng)計(jì)噪聲穩(wěn)定(使裝入或輸入數(shù)據(jù)中的噪聲引起的誤差計(jì)分估計(jì)最小)、對(duì)統(tǒng)計(jì)的強(qiáng)壯度(使輪廓像素,即沒有發(fā)生變化的像素引起的誤差計(jì)分估計(jì)最小,即采用空間模型無法正確描述變化模式),采用了強(qiáng)壯的統(tǒng)計(jì)估計(jì)。在H.Martens和T.Naes《多變量標(biāo)度》,pp.267—272,(John Wiley & Sons,1989),它作為參考文獻(xiàn)包含在這里)中描述了輪廓的檢測。通過在計(jì)分估計(jì)期間將更多數(shù)量的像素影響組合起來達(dá)到使噪聲最小化的統(tǒng)計(jì)穩(wěn)定。通過在計(jì)分估計(jì)期間減少或消除輪廓像素的影響來達(dá)到使輪廓像素影響最小的統(tǒng)計(jì)穩(wěn)定。在較佳實(shí)施例中,強(qiáng)壯估計(jì)技術(shù)是用于在明示裝入下的“軟模型”的微笑、著色和概率計(jì)分估計(jì)以及實(shí)體仿射變換的點(diǎn)頭計(jì)分矩陣的迭代再權(quán)重最小2乘方優(yōu)化。
可以采用兩種不同的計(jì)分估計(jì)途徑。第一種途徑是在計(jì)分參量空間中的完全迭代搜尋以對(duì)輸入圖像xn的逼近優(yōu)化。第二種途徑是將估計(jì)變換區(qū)域DXRef,n更簡單地投影到已知的因子裝入上(包括XRef中的明示裝入和與點(diǎn)頭仿射變換有關(guān)的暗示裝入)。此外,這兩種方法可以組合使用。
對(duì)于計(jì)分參量空間中的迭代搜尋,非線性迭代優(yōu)化用來尋找不同域(運(yùn)算域)、子運(yùn)算域、完全子和使模型XRef轉(zhuǎn)換為估計(jì)xnhat的最優(yōu)譯碼轉(zhuǎn)換的因子中的計(jì)分un的組合。優(yōu)化判據(jù)基于主要是密度域上的擬合差(xn-xnhat)。為了優(yōu)化對(duì)單個(gè)完全子或其它空間分段的擬合,可以采用一個(gè)或多個(gè)功能以上的組。這些功能表示了由計(jì)算例如絕對(duì)差或平方差得到的不同像素引起的擬合的缺乏。不同像素的貢獻(xiàn)首先被權(quán)重,然后按照每個(gè)像素的可靠性和重要性相加。因此,輪廓像素被賦予較低的權(quán)重而對(duì)應(yīng)視覺上或估計(jì)上比較重要的擬合殘量的缺乏被賦予較高的權(quán)重。
計(jì)分參量空間內(nèi)的搜尋可以是所有因子計(jì)分的全范圍的搜尋,或者可以采用特殊的搜尋策略。在較佳實(shí)施例中,搜尋策略最初利用來自先前幀和迭代預(yù)測的計(jì)分值。為了控制所需的計(jì)算源,優(yōu)化可以以不同的圖像分辨率(例如開始時(shí)較低的分辨率圖像)或不同的時(shí)間分辨率(例如最初的時(shí)候少于每幀)對(duì)單個(gè)空間分段(例如單個(gè)完全子)或?qū)Σ煌念伾ǖ辣硎?例如首先對(duì)照度,然后對(duì)其它顏色通道)進(jìn)行。應(yīng)該注意的是,更多的重點(diǎn)應(yīng)放在對(duì)帶有可靠裝入的主要因子的估計(jì)上,裝入可靠性差的次要因子重視程度較小。這可以通過來自使得不可靠計(jì)分趨于零的多路控制器的計(jì)分脊參量來控制。
由XRef中“已知”裝入上的估計(jì)變化區(qū)域DXRef,n投影的計(jì)分估計(jì)不需要任何參考模型的圖像譯碼。不同的是采用了XRef(回歸方程中的自變量)中已知裝入上獲得的變化區(qū)域DXRef,n(回歸方程中的從屬變量)的統(tǒng)計(jì)投影(多變量回歸)。采用最小2乘方多線性回歸對(duì)各個(gè)域內(nèi)上子運(yùn)算域內(nèi)的所有因子和每個(gè)完全子進(jìn)行回歸。如果不同的像素(例如輪廓像素)的權(quán)重發(fā)生了變化,或者回歸方程中的自變量裝入正交性較弱,則比較好的是采用約化組回歸方法。否則,統(tǒng)計(jì)模型就會(huì)非常不穩(wěn)定,特別是對(duì)于較低權(quán)重裝入貢獻(xiàn)的互相關(guān)因子。在較佳實(shí)施例中,采用標(biāo)準(zhǔn)偏差最小平方回歸(PLSR)或主成份回歸(PCR)進(jìn)行回歸,這在H.Martens和T.Naes《多變量標(biāo)度》,pp.73—166,(John Wiley & Sons,1989)中有詳細(xì)的描述,并作為參考文獻(xiàn)包含在這里。
可以采用其它諸如純粹非矩陣回歸或利用脊參量的普通脊回歸(H.Martens和T.Naes《多變量標(biāo)度》,pp.267—272,(John Wiley& Sons,1989),它作為參考文獻(xiàn)包含在這里))之類的強(qiáng)壯回歸技術(shù)。脊參量用來穩(wěn)定次要因子的計(jì)分估計(jì)。形成脊?fàn)钸€可以用來穩(wěn)定PLSR或PCR回歸中的潛在回歸自變量。另外,通過控制來自多路控制器的計(jì)分脊參量使計(jì)分偏向于零從而在用于變化區(qū)域穩(wěn)定的初始估計(jì)過程中只采用主要因子。采用標(biāo)準(zhǔn)靈敏度分析或線性模型理論可以計(jì)算計(jì)分的不確定程度,這在H.Martens和T.Naes,《多變量標(biāo)度》,pp.168,206,(John Wiley & Sons,1989)中有所討論,并作為參考文獻(xiàn)包含在這里。
殘量變化區(qū)域估計(jì)器殘量變化區(qū)域估計(jì)器1210通過去除各種計(jì)分影響來確定剩下的未建模殘量EXRef,n,這些計(jì)分在計(jì)分估計(jì)器1202中從用于各子運(yùn)算域和完全子的變化區(qū)域DXRef,n估計(jì)得到。在較佳實(shí)施例中,因子的影響(例如所用裝入乘上合適的計(jì)分之和)簡單地從變化區(qū)域中減去。例如,對(duì)于紅色密度ERRef,n=DRRef,n-(R(0)Ref*uR(0)nR+R(1)Ref*uR(1)nR+....)作為一種選擇,為了確保量化誤差影響反饋回用于后面可能校正的編碼器,可以對(duì)殘量結(jié)構(gòu)中所用的模型參量進(jìn)行量化。
空間模型拓寬器解釋器的空間模型拓寬器1214將幀n的殘量變化區(qū)域EXRef,n連同來自前面的幀的未建模殘量累計(jì)起來。這些殘量變化區(qū)域代表每個(gè)完全子、運(yùn)算域和子運(yùn)算域的未建模信息。這些殘量按照其不確定程度賦予權(quán)重并進(jìn)行統(tǒng)計(jì)處理以提取新的因子。這種因子提取比較好的是利用未建模殘量的權(quán)重像素—幀矩陣上的NIPALS分析來完成,這在H.Martens和T.Naes《多變量標(biāo)度》,pp.97—116和163,(John Wiley & Sons,1989)中有所討論,并作為參考文獻(xiàn)包含在這里,或者利用幀連幀的叉積矩陣上的NIPALS分析來完成,參見H.Martens和T.Naes《多變量標(biāo)度》,pp.100(John Wiley &Sons,1989),它作為參考文獻(xiàn)包含在這里。但是,這種迭代NIPALS方法不必迭代至使得每個(gè)因子完全收斂。另外,可以利用單值分解、Karhunen—Loeve變換、Hotelling變換的本征分析從未建模殘量的權(quán)重像素—幀矩陣完成因子提取,參見例如R.C.Gonzales和R.E.Woods《數(shù)字圖像處理》,pp148—156,(Addison—Wesley 1992)和Carlo Tomasi和Takeo Kanade《無深度的形狀和運(yùn)動(dòng)》,IEEECH2934—8/90 p.91—95,1990,它們作為參考文獻(xiàn)都包含在這里。最終的累計(jì)殘量矩陣中的發(fā)生明顯變化的結(jié)構(gòu)作為新的因子被提取并作為模型〔XRef,USeq〕的一部分被包含。包含幾幀上的幾個(gè)像素的變化結(jié)構(gòu)視為有意義。解釋器的空間模型拓寬器部分可以用于局部模型670和更完整的序列或子序列模型650。
對(duì)于實(shí)時(shí)編碼,來自各單獨(dú)幀的余下的未建模殘量的影響可以按時(shí)間標(biāo)度,并且如果它們低于某一水平則從未建模殘量的累計(jì)中去除。在這種方式下,保留時(shí)間長的殘量和對(duì)新的因子的形成貢獻(xiàn)不大的殘量在下一步中基本上不予考慮,由于統(tǒng)計(jì)的緣故,它們對(duì)新因子的貢獻(xiàn)的概率較低。在本實(shí)施例中,空間模型拓寬器1214產(chǎn)生可以加入已有模型的單個(gè)因子。接下來,這組新的因子,即模型可以在多路控制器的控制下,在時(shí)間模型更新器1206和空間模型更新器1208中進(jìn)行優(yōu)化。
在替換實(shí)施例中,為了產(chǎn)生一個(gè)新的模型,對(duì)已有模型連同變化區(qū)域進(jìn)行分析。這種新的模型比較好的是包括帶有來自新引入變化區(qū)域的附加信息的因子。當(dāng)引入每一新的幀時(shí)基本上重新計(jì)算整個(gè)模型〔XRef,USeq〕。比較好的是利用裝入XRef和經(jīng)過標(biāo)度的計(jì)分USeq完成從而使計(jì)分矩陣USeq正交化(參見H.Martens和T.Naes《多變量標(biāo)度》,p.48,(John Wiley & Sons,1989),它作為參考文獻(xiàn)包含在這里)。XRef中不同的因子裝入向量隨后具有不同的反映其相對(duì)意義的平方和。利用由〔XRef(舊的),DXRef,n〕組成的矩陣的因子分析(例如單值分解svd)隨后產(chǎn)生新的裝入〔XRef〕(新的)。這是一種簡單的基于兩塊PLSR基的更新方法的單塊svd基型式(參見H.Martens和T.Naes《多變量標(biāo)度》,pp.162,123,(John Wiley & Sons,1989),它作為參考文獻(xiàn)包含在這里)。在該過程中還可以獲得對(duì)應(yīng)新裝入的新計(jì)分。
三維深度估計(jì)空間模型拓寬器還可以用于估計(jì)構(gòu)成幀系列一部分的場景中像素三維深度結(jié)構(gòu)zn的逼近。這種估計(jì)對(duì)于在前面移動(dòng)的對(duì)象的建模和水平或垂直旋轉(zhuǎn)的對(duì)象的建模是很重要的。深度信息zn對(duì)于其自身來說也很重要。
深度建模需要對(duì)包藏的像素至少是接近的估計(jì)其深度。比較好的是在參考幀圖像模型內(nèi)有關(guān)的像素位置處表示這種估計(jì)信息。
利用任意一種方法可以完成深度估計(jì)。在較佳實(shí)施例中,利用了基于在各幀內(nèi)像素包藏程度的像素拓?fù)渑判?。?duì)于檢測到潛在包藏的像素(在來自局部變化區(qū)域估計(jì)器的報(bào)警wn中指示),在幾幅連續(xù)幀上嘗試不同的深度假設(shè)。對(duì)于每一幀,以不同的深度假設(shè)重復(fù)操作變化區(qū)域估計(jì)器,并且累計(jì)利用了不同假設(shè)下的輸入幀密度in的最終成功的建模。導(dǎo)致測試幀上密度數(shù)據(jù)in的最一致和精確表示的深度假設(shè)獲得承認(rèn)并用作深度模型信息。深度信息開始時(shí)用于建立所需的那些像素的基本深度z(0)Ref。接下來,在同一序列的編碼過程中,可以采用相同的技術(shù)來拓寬帶有用于那些表示更為復(fù)雜的包藏模式(其深度隨幀而變化)的像素的新的因子Z(f)Ref,f=1,2,…的深度變化因子模型。
在替換實(shí)施例中,地址變化區(qū)域DARef,n的單值分解可以用于建立3D深度信息,參見Carlo Tomasi和Takeo Kanade,“無深度的形狀和運(yùn)動(dòng)”,IEEE CH2934—8/90 pp.91—95,1990。
幀n的迭代控制在每一幀n的迭代優(yōu)化期間采用了用于空間模型拓寬器1214的操作的特殊模式。當(dāng)如局部變化區(qū)域估計(jì)器850的較佳實(shí)施例中所述采用分開的局部變化區(qū)域damn、dimn、dpmn的估計(jì)時(shí),空間模型拓寬器1214必須形成一個(gè)同時(shí)用于所有域的共同折衷DXRef,n(聯(lián)合點(diǎn))。在較佳實(shí)施例中,每次迭代期間只有來自其中一個(gè)域的信息被承認(rèn)為聯(lián)合變化區(qū)域DXRef,n(聯(lián)合點(diǎn))。
在每幀的迭代估計(jì)之初,微笑變化被承認(rèn)為最可能的變化。但是,在迭代估計(jì)期間,務(wù)必使承認(rèn)的微笑區(qū)域足夠的平滑并且在后面的迭代中不會(huì)產(chǎn)生錯(cuò)誤的包藏。擬合XRef中已有因子裝入(由計(jì)分估計(jì)器1202確定)的變化區(qū)域信息被確認(rèn)為有利于未建模殘量EXRef,n(在殘量變化區(qū)域估計(jì)器1210中確定),它們只是被確認(rèn)為趨于每幀迭代過程結(jié)束端的變化區(qū)域信息。因此,變化區(qū)域按照編碼的特定階段和與先前迭代相比的迭代變化區(qū)域的質(zhì)量進(jìn)行修改。在每次迭代中,最終承認(rèn)的變化區(qū)域信息被累計(jì)為聯(lián)合變化區(qū)域DXRef,n(聯(lián)合點(diǎn))。
在每次迭代期間,解釋器720必須將該聯(lián)合變化區(qū)域DXRef,n(聯(lián)合點(diǎn))傳回用于在下一次迭代時(shí)進(jìn)一步細(xì)化的變化區(qū)域估計(jì)器710。這通過將聯(lián)合變化區(qū)域DXRef,n(聯(lián)合點(diǎn))包含作為XRef中多余因子(其計(jì)分總是為1)來完成。因此,該多余因子將增量變化累計(jì)至用于每次新的迭代時(shí)的幀n的變化區(qū)域。在迭代過程結(jié)束時(shí),多余因子表示隨后可以用于如上所述的計(jì)分和殘量估計(jì)、拓寬、深化、更新和擴(kuò)展的累計(jì)聯(lián)合變化區(qū)域。
模型更新器兩個(gè)更新模塊,時(shí)間模型更新器1206和空間模型更新器1208用來根據(jù)應(yīng)用場合的不同優(yōu)化就各種判據(jù)而言的時(shí)間和空間模型。對(duì)于例如視頻會(huì)議應(yīng)用之類的實(shí)時(shí)視頻碼處理,時(shí)間模型更新器1206計(jì)算各個(gè)域內(nèi)不同因子計(jì)分之間隨時(shí)間的協(xié)變矩陣的本征結(jié)構(gòu)。變化現(xiàn)象不再激活(例如離開視頻會(huì)議室的人)識(shí)別為與內(nèi)計(jì)分協(xié)變矩陣中較小本征值對(duì)應(yīng)的維數(shù),并且從時(shí)間模型更新器1206的計(jì)分模型中去除。相應(yīng)的裝入維數(shù)從空間模型更新器1208的裝入中消除。最終的內(nèi)計(jì)分協(xié)變矩陣的本征值-本征向量結(jié)構(gòu)可以用來優(yōu)化其它仍然激活的因子的量化和傳送控制。
在視頻數(shù)據(jù)的編碼期間(實(shí)時(shí)或離線),當(dāng)編碼在序列上進(jìn)行時(shí),通過基于內(nèi)計(jì)分協(xié)變矩陣或內(nèi)裝入?yún)f(xié)變矩陣的單值分解的兩個(gè)模型更新器1206和1208中裝入和計(jì)分的因子旋轉(zhuǎn)與去除較小本征值的維數(shù),同樣消除了不可靠的因子維數(shù)。
如下面將要詳述的,對(duì)時(shí)間模型更新器1206中的因子計(jì)分和空間模型更新器1208中的裝入計(jì)分所作的本征分析對(duì)應(yīng)于一種元建模。空間模型更新器1208可以檢驗(yàn)裝入空間內(nèi)指示空間模型擴(kuò)展器1216的完全子分段變化所需要的空間像素簇模式。
模型更新器1206和1208還可以完成諸如最大變化旋轉(zhuǎn)之類的普通因子分析以獲得時(shí)間模型更新器1206中的因子計(jì)分或空間模型更新器1208中的裝入計(jì)分的“簡單結(jié)構(gòu)”來改善壓縮、編輯和存儲(chǔ)功能。通過下面的例子可以理解因子分析的“簡單結(jié)構(gòu)”。首先假設(shè)有兩種變化模式,例如采用兩種著色因子建立著色模式“A”(著色的臉頰)和“B”(室內(nèi)光線)的模型,但是著色因子的模式組合方式為因子1建?!癆”和“B”而因子2建?!癆”和“—B”。在這種情況下,相對(duì)于簡單結(jié)構(gòu)的因子旋轉(zhuǎn)通過將兩個(gè)裝入與2×2旋轉(zhuǎn)矩陣g相乘計(jì)算一組新的裝入從而在矩陣相乘之后,模式“A”由一個(gè)因子表示而模式“B”由另一個(gè)因子表示。通過將原始的計(jì)分與矩陣g的逆矩陣相乘可以得到相應(yīng)的新的計(jì)分。作為另一種選擇,可以采用原始計(jì)分。但是,新的裝入必須與g的逆矩陣相乘。
時(shí)間模型更新器1206的另一個(gè)功能是累計(jì)變化模型參量“同時(shí)發(fā)生”的多維直方圖,例如微笑和著色因子。該直方圖給出了各種域的計(jì)分值的各種變化同時(shí)發(fā)生的累計(jì)計(jì)數(shù)。如果出現(xiàn)了某一模式的同時(shí)發(fā)生,則表明需要例如通過將著色因子信息轉(zhuǎn)換為微笑因子信息來深化模型。
空間模型擴(kuò)展器空間模型擴(kuò)展器1216將數(shù)據(jù)組織和識(shí)別為分段和完全子。對(duì)于視頻碼處理,分段主要是空間完全子,因此擴(kuò)展器被稱為“空間”模型擴(kuò)展器??臻g模型擴(kuò)展器1216接收一組完全子作為輸入,每組完全子由像素裝入XRef、序列幀計(jì)分USeq、變化區(qū)域DXRef,n′和未建模變化區(qū)域殘量EXRef,n。除了各種輸入控制參量以外,空間模型擴(kuò)展器1216還接收來自變化區(qū)域估計(jì)器710wn′的異常警告和實(shí)際輸入幀xn??臻g模型擴(kuò)展器1216對(duì)這些輸入進(jìn)行處理并輸出更新過的一組完全子,每個(gè)都帶有像素裝入XRef、序列幀計(jì)分USeq、未建模變化區(qū)域殘量EXRef,n和各種輸出控制參量。
只要變化區(qū)域估計(jì)器輸出的警告wn中的累計(jì)信號(hào)表明在新的幀xn中有明顯數(shù)量的未建模空間信息,多路控制器620就激活空間模型擴(kuò)展器1216。利用估計(jì)地址變化區(qū)域DARef,n′可以完成完全子內(nèi)未建模區(qū)域的分段,例如參見John Y.A.Wang和Edward H.Adel-son,“圖像序列碼處理的分層表示”,IEEE ICASSP,Vol.5,pp221—224,Minneapolis,Minnesota,1993,作為參考文獻(xiàn)它已包含在這里。這對(duì)于輸入警告wn指示需要分段的區(qū)域尤為重要。這些區(qū)域內(nèi)的像素在均勻運(yùn)動(dòng)模式的分段搜尋過程中被賦予特別大的權(quán)重。
另外,或者作為一種分段方法,采用XRef中的各種因子裝入結(jié)構(gòu)(例如由因子裝入空間的標(biāo)準(zhǔn)簇分析確定的因子裝入向量空間(f=1,2,…)內(nèi)的像素簇)確定分段。具有簡單內(nèi)部結(jié)構(gòu)的簇表示了以相關(guān)方式變化的像素,因此可能是分段的一種選擇。此外,那些在地址空間ARef(0)中相互靠近的像素被更可能成為分段選擇。在這種方式下就形成了新的分段。另一方面,如果新的分段位于已有分段附近并表現(xiàn)出相似的時(shí)間運(yùn)動(dòng)行為,則擴(kuò)展或合并已有的分段。沿邊緣不均勻運(yùn)動(dòng)的已有分段可以縮短為更小的空間區(qū)域,而在其空間內(nèi)部不均勻運(yùn)動(dòng)的分段可以分為獨(dú)立的完全子。
PRef其中一個(gè)概率性質(zhì)用于指示分段性質(zhì)變化或沿已有分段邊緣擴(kuò)展具有特別高的概率,即存在著新的分段實(shí)際上源于已有分段沿其邊緣擴(kuò)展的可能性。同樣,概率性質(zhì)可以用來對(duì)分段分類。此外該性質(zhì)還可以用來在完全子邊緣引入半透明度。
由多路控制器620操作的空間模型擴(kuò)展器1216產(chǎn)生用于初始穩(wěn)定化或編碼過程的試探建模的時(shí)間完全子或分段;這些完全子在迭代編碼期間可以被合并或刪除,從而在編碼過程結(jié)束時(shí)得到用于建模單個(gè)序列的最終的完全子。如圖3所示,由于引入了新的完全子,擴(kuò)展參考圖像變得大于單獨(dú)的輸入幀,所以完全子必須立體地存儲(chǔ)在擴(kuò)展參考圖像模型XRef中,從而不會(huì)互相覆蓋。另外也可以采用諸如多層結(jié)構(gòu)之類的存儲(chǔ)方法,參見John Y.A.Wang和EdwardH.Adelson,“圖像序列碼處理的分層表示”,IEEE ICASSP,Vol.5,pp221—224,Minneapolis,Minnesota,1993,作為參考文獻(xiàn)它已包含在這里。
模型深化器解釋器720的模型深化器1218提供了各種改進(jìn)建模效率的功能。其中一個(gè)功能是估計(jì)作為概率域DPRef,n的子運(yùn)算域的透明度的變化區(qū)域。這可以利用以下的技術(shù)來完成,該技術(shù)可參見MasahikoShizawa和Kenji Mase,“基于本征分析的運(yùn)動(dòng)透明度和運(yùn)動(dòng)邊界的均勻計(jì)算理論”,IEEE CH2983—5/91,pp.289—295,1991,作為參考文獻(xiàn)它以包含在這里。
而且,只要完全子的著色建模的數(shù)量和類型表明無法有效地利用著色建模來建立運(yùn)動(dòng)的模型,那么就用模型深化器將著色因子轉(zhuǎn)換為微笑因子。這可以例如通過采用偏重于微笑因子的選擇而不是著色因子的選擇重建(譯碼)某一完全子并進(jìn)行分析(編碼)來完成。同樣,只要微笑因子裝入表明具有空間模式的完全子與實(shí)體的仿射變換(即平移、旋轉(zhuǎn)、標(biāo)度或剪切)一致,就可以將微笑因子轉(zhuǎn)換為點(diǎn)頭因子。這可以通過確定完全子的地址變化區(qū)域DARef,n并隨后利用與各種仿射變換對(duì)應(yīng)的偽微笑裝入建模來完成。
譯碼器本發(fā)明包括一個(gè)從空間模型參量裝入XRef和時(shí)間模型參量計(jì)分U重建圖像的譯碼器。在諸如視頻壓縮、存儲(chǔ)和傳送之類的應(yīng)用中,譯碼器的主要功能是利用在序列〔xn,n=1,2,…〕=xSeq的編碼期間估計(jì)的計(jì)分〔un,n=1,2,…〕=Useq產(chǎn)生幀〔xn,x=1,2,…〕=xSeq的某一輸入序列。對(duì)于其它諸如視頻游戲和虛擬現(xiàn)實(shí)之類的應(yīng)用,在時(shí)刻〔un,n=n1,n2,…〕=U的不同點(diǎn)處的計(jì)分例如可以由用戶激活的游戲桿實(shí)時(shí)產(chǎn)生。
在本說明書中,每幀的預(yù)測結(jié)果表示為預(yù)測幀m。因此xm等價(jià)于xnhat。
譯碼器1300的較佳實(shí)施例示于圖13的框圖中。譯碼器1300基本上與編碼器的變化估計(jì)器710(圖8)的內(nèi)部譯碼器830等同。但是,圖13的譯碼器包括附加的功能元件。這些附加的功能元件在所附的譯碼器附錄中詳述。
最終的變化區(qū)域DXRef,m1358隨后被送至加法器1330與基本參考圖像X(0)Ref1360相加以產(chǎn)生xm@Ref1362,即在參考位置內(nèi)給定的幀m的預(yù)測值。這包含了參考圖像中的各完全子在預(yù)測幀內(nèi)輸出基礎(chǔ)上假設(shè)的變化值;但是該信息仍在參考位置內(nèi)給出。
隨后利用地址變化區(qū)域DARef,m1364提供的移動(dòng)參量在移動(dòng)器內(nèi)1340將參考位置內(nèi)給定的這些變化值Xm@Ref1362從參考位置“移動(dòng)”到m位置。對(duì)于編碼器600的內(nèi)部譯碼器830,移動(dòng)器1340可以提供用于將值從m位置移回參考位置的返回區(qū)域dam,Ref1366。
移動(dòng)器1340的主要輸出為可以選擇加入誤差校正exm1368的預(yù)測結(jié)果xm。為了產(chǎn)生最終的結(jié)果xm1370,最終的信號(hào)在后處理器1350內(nèi)濾波(例如來增強(qiáng)邊緣效應(yīng))。加法器1330、移動(dòng)器1340和后處理器1350可以采用標(biāo)準(zhǔn)的譯碼技術(shù),例如參見George Wolberg《數(shù)字圖像卷繞》,第7章,(IEEE Computer Society Press 1990),作為參考文獻(xiàn)它已包含在這里。
譯碼器1300還包括用于控制和處理外部通信、解密、本地存儲(chǔ)和重復(fù)使用的模型參量的恢復(fù)和與輸出媒介(例如計(jì)算機(jī)視頻顯示終端或電視機(jī)屏幕)通信的附加功能以及其它為本領(lǐng)域內(nèi)技術(shù)人員理解的功能。
應(yīng)該注意的是,移動(dòng)器操作者1040(1340)和1010(870)可以采用不同的方法將位于同一坐標(biāo)位置上的兩片以上的信息組合起來。在用于視頻編碼和譯碼的較佳實(shí)施中,采用3D保持組合不同的信息,并按照各交疊介質(zhì)的透明度修改。對(duì)于其它諸如用于蛋白質(zhì)分析的二路電泳凝膠圖像分析之類的應(yīng)用,可以簡單地加入不同完全子的貢獻(xiàn)。
編碼器操作—多路控制器編碼器系統(tǒng)的控制和操作現(xiàn)在解釋上面詳述的用于離線視頻編碼應(yīng)用的編碼器/譯碼器系統(tǒng)的操作。首先將比較簡化的譯碼器(替換實(shí)施例)和完整的譯碼器(較佳實(shí)施例)。先描述簡化的編碼器,然后描述完整的譯碼器。
為了由序列模型建模,視頻編碼系統(tǒng)必須能夠檢測充分相關(guān)的圖像信息的序列。對(duì)于這種序列,模型必須構(gòu)造得能提供合適的重建質(zhì)量、高效的壓縮和可編輯能力。這必須在編碼系統(tǒng)、存儲(chǔ)/傳送和譯碼系統(tǒng)的實(shí)際限制下完成。
為了達(dá)到緊湊的序列建模,序列的變化應(yīng)歸結(jié)于合適的域參量,即主要應(yīng)該由微笑和點(diǎn)頭因子建立運(yùn)動(dòng)的模型,由著色因子建立密度變化的模型而由概率因子建立透明度效果的模型。合適域參量的各種變化的有效建模除了各個(gè)模型域的恰當(dāng)分開以外,還需要模型參量估計(jì)的統(tǒng)計(jì)穩(wěn)定性。這又要求對(duì)許多幀建模。兩種編碼器的實(shí)施例的區(qū)別在于完成該任務(wù)的方式。
簡化的編碼器采用簡單的順序控制和能在參量估計(jì)期間識(shí)別合適的幀序列的操作機(jī)制。但是,它并不試圖同時(shí)優(yōu)化各個(gè)域上的統(tǒng)計(jì)建模。另一方面,完整編碼器要求將序列識(shí)別當(dāng)作分開的預(yù)處理階段的一部分。預(yù)處理階段還初始化各種在編碼過程中被更新和利用的統(tǒng)計(jì)權(quán)重函數(shù)以優(yōu)化多域建模的噪聲和誤差強(qiáng)壯度。
簡化的編碼器不斷地在視頻幀序列中搜尋可以建模為微笑域、著色域內(nèi)新的因子或者新的空間圖像分段的相關(guān)的未建模變化結(jié)構(gòu)。來自潛在的微笑、著色和分段變化的優(yōu)化選擇包含在序列模型中作為微笑或著色模型的拓寬或者完全子的擴(kuò)展或重新組織。隨后不斷重復(fù)搜尋過程直到達(dá)到合適的建模。
相反,完整的編碼器要掃描序列幾次,逐漸拓寬、擴(kuò)展和深化用于給定序列的模型,每次在三個(gè)域上建立每幀的模型的方式為使得其與相應(yīng)的其它幀的建模最大程度地一致。
在簡化的編碼器中,由于是對(duì)各個(gè)域分開建模,所以每幀的未建模變化區(qū)域的估計(jì)相對(duì)簡單。在短于整個(gè)幀序列的一次掃描中提取并建立微笑變化區(qū)域DARef,n′, n=n1,n2…的模型,在同樣短于整個(gè)幀序列的第二次掃描中提取并建立密度變化區(qū)域DIRef,n′n=n1,n2,…的模型。每次掃描持續(xù)至建模的復(fù)雜性超出了所得到的增量建模信息。在完整的編碼器中,由于每幀的變化區(qū)域聯(lián)合建模并且必須相互兼容,所以相應(yīng)的每幀的未建模變化區(qū)域的估計(jì)更為復(fù)雜。這種兼容性由每幀的不同域上的變化區(qū)域的迭代發(fā)展得到。
簡化的編碼器系統(tǒng)的控制和操作對(duì)于每幀,簡化的編碼器采用解釋器720的計(jì)分估計(jì)器1202來估計(jì)用于XRef中已有因子的因子計(jì)分un。模型可以借助已建模域上的已有的新的試探因子時(shí)間拓寬。接下來,變化區(qū)域估計(jì)器710用來產(chǎn)生未建模微笑變化區(qū)域DARef,n或未建模著色變化區(qū)域DIRef,n的一個(gè)估計(jì)。在兩種情況下,試探性的新的因子都在空間模型拓寬器1214中形成。解釋器720還檢驗(yàn)是否能改進(jìn)空間模型擴(kuò)展器1216中的分段。與空間模型拓寬器1214相連的多路控制器620借助新的因子拓寬了著色或微笑模型,或者在空間模型擴(kuò)展器1216中施加空間擴(kuò)展/重新組織。多路控制器620還在變化區(qū)域顯示劇烈變化時(shí)初始化新的序列模型的開始。該過程將持續(xù)下去直到達(dá)到令人滿意的建模。
完整的編碼器系統(tǒng)的控制和操作預(yù)處理為了確保亮度和色度更好的分離,來自輸入顏色空間(例如RGB)的輸入數(shù)據(jù)首先被轉(zhuǎn)換為不同的格式,如YUV。可以采用已知的標(biāo)準(zhǔn)技術(shù)來完成這種轉(zhuǎn)換。為了避免YUV內(nèi)的V顏色分量與HVZ地址空間內(nèi)的V(垂直)坐標(biāo)的混淆,這里的描述在RGB顏色空間內(nèi)給出。每幅轉(zhuǎn)換幀的密度稱為in。而且,可以在編碼和譯碼的各個(gè)階段改變輸入空間坐標(biāo)系統(tǒng)。特別是在預(yù)處理期間,通過采用標(biāo)準(zhǔn)技術(shù)沿水平和垂直方向使輸入格式(垂直和水平的像素,地址an)連續(xù)減少一個(gè)2的因子來改變空間分辨率。這產(chǎn)生了所謂的相同輸入圖像的不同空間分辨率的“高斯金字塔”表示。在初始參量估計(jì)時(shí)可以采用較小和較低空間分辨率的圖像,并且隨著模型的可靠性和穩(wěn)定性的提高,空間分辨率也提高。
接著,先估計(jì)輸入數(shù)據(jù)的初始建模能力。對(duì)于每個(gè)連續(xù)的空間分辨率,為了評(píng)估單獨(dú)的像素的密度數(shù)據(jù)數(shù)學(xué)建模的難易程度的概率,要分析每幀的密度數(shù)據(jù)in。這種分析涉及下面要描述的稱為Pn的各種概率。
初始建模能力包括輸入數(shù)據(jù)兩維識(shí)別的判斷,即圖像不同區(qū)域“邊緣鮮明”程度的估計(jì)。具有“邊緣鮮明”的區(qū)域比連續(xù)區(qū)域更容易識(shí)別和跟蹤運(yùn)動(dòng)。具體而言,對(duì)空間的可識(shí)別結(jié)構(gòu)程度p(1)n估計(jì)進(jìn)行計(jì)算從而將接近于1的數(shù)值賦予用清晰的2D空間輪廓表示的像素和空間角落結(jié)構(gòu)處的像素,而連續(xù)區(qū)域內(nèi)的像素賦予接近零的數(shù)值。其它像素被賦予0與1之間的數(shù)值。這可以采用特殊的程序做到,程序參見Carlo Tamasi和Takeo Kanade,“無深度的形狀和運(yùn)動(dòng)”,IEEE CH2934—8/90 pp.91—95,1990或Rolf Volden和JensG.Balchen,“從2D圖像序列確定3D物體的坐標(biāo)”,Proc.of the 8thInternatl Syposium on Unmanned Untethered Submersible Tech-nology,Sept.1993,pp359—369,它們作為參考文獻(xiàn)已包含在這里。
同樣,初始建模能力包括輸入數(shù)據(jù)的一維識(shí)別的確定,即圖像中沿水平或垂直線的密度變化的指示。這種程序涉及水平或垂直的清晰的輪廓程度的估計(jì)。作為清晰的水平或垂直輪廓一部分的像素(從例如水平和垂直方向上的空間偏離絕對(duì)值檢測)被賦予數(shù)值p(2)n=1,而連續(xù)區(qū)域內(nèi)的像素被賦予0,其它像素被賦予中間值。
初始建模能力還包括通過估計(jì)每個(gè)像素的孔徑問題的概率p(3)n確定孔徑問題。平滑的局部運(yùn)動(dòng),即在幾幅連續(xù)幀內(nèi)線性運(yùn)動(dòng)的空間結(jié)構(gòu)被賦予最大值1,而找不到這種結(jié)構(gòu)的像素賦予0。同樣,在幾幅連續(xù)的幀內(nèi)不發(fā)生運(yùn)動(dòng)的結(jié)構(gòu)也以相同的方式處理。表觀平滑移動(dòng)或不運(yùn)動(dòng)的估計(jì)統(tǒng)稱為p(4)n。這個(gè)性質(zhì)還可以用于估計(jì)幾幅連續(xù)幀內(nèi)平滑的密度變化(或不變化)。
對(duì)因?yàn)槲挥谶吔缍鸩⑶矣捎谑遣煌芏瓤臻g區(qū)域的平均值(所以不代表密度)而不可靠的半個(gè)像素的概率進(jìn)行計(jì)算并稱為p(5)n。
密度、地址和概率數(shù)據(jù)都用符號(hào)xn表示,并且包含地址性質(zhì)、密度性質(zhì)和例如p(1)n-p(5)n的不同的概率性質(zhì)。
預(yù)處理還包括序列長度的檢測和子序列范圍的確定。這可以通過分析整個(gè)序列內(nèi)變化的性質(zhì)p(4)n和密度in以及對(duì)低分辨率密度進(jìn)行多變量分析以提取少量主要成份來完成。接下來,為了將相關(guān)性強(qiáng)的幀劃入待建模的序列,進(jìn)行因子計(jì)分的群集分析。如果場景過長或過度不均勻,那么為了簡化采用局部模型的分析,可以在時(shí)間上其分割為較小的子序列。在編碼過程的后面階段,這些子序列可以合并為完整的序列模型。在序列最初的分割時(shí),重要的是在任一方向上以幾幅幀覆蓋子序列。
通過累計(jì)與每個(gè)密度通道相關(guān)的整個(gè)隨機(jī)噪聲變化并且貯存對(duì)作為初始不確定變化s2in的數(shù)值連同in中實(shí)際值估計(jì)子序列中的熱噪聲水平。
預(yù)處理還產(chǎn)生用于每個(gè)子序列的初始參考圖像XRef。一開始,每個(gè)子序列中的一幀nRef被選為參考圖像的始點(diǎn)。該幀在低分辨率的主成份分析的基礎(chǔ)上選定,隨后在子序列的最典型的幀的因子計(jì)分空間內(nèi)搜尋。由于中間的幀在子序列的兩個(gè)方向上都有鄰近的幀,所以子序列中間的幀比子序列兩頭的幀更重要。
初始化初始化包括設(shè)定各種控制參量的初始值。首先,將計(jì)分脊設(shè)定為一個(gè)對(duì)所有的域和子運(yùn)算域都較高的初始值。該參量用于計(jì)分估計(jì)器1202中以穩(wěn)定小因子的計(jì)分。(當(dāng)單值分解(主成份分析等)用于提取因子時(shí),相關(guān)的本征值的大小限定單個(gè)因子的大小,較小的因子具有較小的本征值。在更加一般的情況下,較小的因子被定義為因子的計(jì)分與裝入之積的矩陣具有較小的平方像素?cái)?shù)值之和的因子。涉及的像素?cái)?shù)量、因子的裝入對(duì)其影向的程度和受到影響的幀的數(shù)量以及因子計(jì)分對(duì)其影響的程度決定了因子的大小)。
為了確保微笑區(qū)域的估計(jì)不會(huì)受到錯(cuò)誤獲取運(yùn)動(dòng)效應(yīng)的初始著色區(qū)域的阻撓,壓縮著色設(shè)定為一個(gè)對(duì)于每幀都較高的數(shù)值。同樣為了確保著色區(qū)域的正確估計(jì)不會(huì)受到初始微笑區(qū)域內(nèi)虛假的矛盾的不利影響,也將壓縮微笑設(shè)定為一個(gè)對(duì)于每幀的較高的數(shù)值。壓縮著色和壓縮微笑用于迭代過程以在優(yōu)化建模圖像變化的微笑和著色變化區(qū)域達(dá)到平衡。初始化還包括一開始將完整的參考圖像XRef建立為單個(gè)完全子和假定非常光滑的運(yùn)動(dòng)區(qū)域。
通過對(duì)子序列進(jìn)行幾次迭代掃描估計(jì)出空間模型參量XRef和時(shí)間模型參量USeq。對(duì)于每一遍掃描,在初始參考幀的開始之處,在幀nRef任一側(cè)的子序列中雙向搜尋幀直到獲得足夠滿意的模型。
對(duì)于每一幀,確定了每個(gè)像素、每次迭代和每幀的統(tǒng)計(jì)權(quán)重。這些統(tǒng)計(jì)或可靠性權(quán)重代表了給定幀內(nèi)像素現(xiàn)在的建模能力。各個(gè)子運(yùn)算域的幀n,xn的每個(gè)像素的可靠性權(quán)重wgts—xn為anwgts_an=function of(pn,s2an,wn)inwgts_in=function of(pn,s2in,wn)可靠性權(quán)重正比于概率性質(zhì)Pn,反比于變量s2an和警告wn。同樣,每個(gè)子運(yùn)算域、因子和完全子的初始模型XRef中的每個(gè)像素的可靠性權(quán)重wgts—xRef為ARefwgts—ARef每個(gè)子運(yùn)算域中每個(gè)因子的(S2ARef)的反比例函數(shù)。
IRefwgts—IRef每個(gè)子運(yùn)算域中每個(gè)因子的(S2IRef)的反比例函數(shù)。
一般情況下,只有那些能夠應(yīng)用于足夠數(shù)量的幀上的因子才保留。利用交叉有效性或杠桿校正來檢驗(yàn)提取因子的多幀可用性,參見H.Martens和T.Naes《多變量標(biāo)度》,pp.237—265,(John Wiley &Sons,1989),它作為參考文獻(xiàn)包含在這里。特別是,對(duì)于多路或迭代估計(jì),這可以包含使當(dāng)前幀n的貢獻(xiàn)不會(huì)人工有效化為基于在早先掃描期間對(duì)模型的貢獻(xiàn)的多幀因子。
對(duì)于變化區(qū)域DXRef,n和隨后的相對(duì)子序列或所屬完整的序列模型的幀n的模型{XRef,USeq}的估計(jì)是一個(gè)迭代過程,下面將詳細(xì)討論。對(duì)于子序列的第一遍掃描中遇到的開頭幾幀,還未建立起可靠的模型。因此,比起后面的幀,開頭幾幀的變化區(qū)域的估計(jì)更為困難和不確定。隨著模型的進(jìn)一步發(fā)展,它對(duì)后面幀的變化區(qū)域估計(jì)的穩(wěn)定和簡化的作用更大。因此,在開頭幾幀的初始掃描期間,只利用了建模能力程度較高的那些圖像區(qū)域。此外,就運(yùn)動(dòng)而言,為了限制在對(duì)開頭幾幀的變化區(qū)域的估計(jì)中可能有的自由度,采用了關(guān)于平滑變化區(qū)域的較強(qiáng)假設(shè)。同樣,就著色因子而言,為了防止對(duì)著色因子單獨(dú)的不必要的依賴,采用了關(guān)于平滑和多幀可用性較強(qiáng)的假設(shè)。隨著編碼過程的迭代,這些假設(shè)和要求逐漸放寬從而使變化因子對(duì)真實(shí)的次要變化模式建立正確的模型。
按照本發(fā)明的用于序列的編碼過程需要對(duì)每幀估計(jì)聯(lián)合變化區(qū)域DXRef,n,即可以同時(shí)利用不同的域變化區(qū)域DARef,n′、DIRef,n和DPRef,n以給出可接收的譯碼結(jié)果xm。如上所述,這需要對(duì)每幀的不同的域變化區(qū)域進(jìn)行迭代修改。定義用作地址和密度的權(quán)重wgts—xn和wgts—XRef用于局部變化區(qū)域dxmn估計(jì)的優(yōu)化。在迭代期間,解釋器720如上所述主要用于累計(jì)DXRef,n(聯(lián)合點(diǎn))內(nèi)變化區(qū)域信息。已有序列模型XRef、USeq中的數(shù)值不作修改。
在變化區(qū)域信息DXRef,n(聯(lián)合點(diǎn))的增量迭代估計(jì)中,模型估計(jì)跟蹤每次迭代的結(jié)果,并且調(diào)開那些所選增量沒有產(chǎn)生滿意的建模穩(wěn)定的迭代。
一旦估計(jì)出給定幀的聯(lián)合變化區(qū)域DXRef,n(聯(lián)合點(diǎn)),為了優(yōu)化基于DXRef,n(聯(lián)合點(diǎn))的序列模型XRef、USeq,要在解釋器720中對(duì)其進(jìn)行分析。
發(fā)展序列模型幀n和模型的可靠性權(quán)重得到了更新。接著,對(duì)計(jì)分un和殘量EXRef,n進(jìn)行估計(jì),并且將變化區(qū)域信息累計(jì)起來用于在新的有效變化因子下的可能的參考模型的拓寬。采用分段來擴(kuò)展參考模型,嘗試改善3D結(jié)構(gòu),并檢驗(yàn)是否能深化模型。所有這些操作都將在下面詳述。
當(dāng)子序列中所有的幀都經(jīng)過分析從而完成掃描時(shí),進(jìn)一步更新權(quán)重和概率性質(zhì)以增強(qiáng)下一次掃描過程中的估計(jì),可選擇統(tǒng)計(jì)旋轉(zhuǎn)模型以獲得更簡單的因子結(jié)構(gòu)。此外還檢查給定子序列與其它子序列合并的可能性,并檢查是否需要再次掃描。如果沒有必要,則在系統(tǒng)中最后一次運(yùn)行參量結(jié)果,同時(shí)量化參量。
現(xiàn)在將詳細(xì)描述完整編碼過程的控制和操作。首先,按照所獲DXRef,n中各種子運(yùn)算域的不確定變量修改權(quán)重。在給定子運(yùn)算域區(qū)域內(nèi)有較高不確定性的像素對(duì)于該運(yùn)算域接下來的統(tǒng)計(jì)操作被賦予較低的權(quán)重。這些權(quán)重隨后在解釋器720中用于優(yōu)化多變量統(tǒng)計(jì)過程。
在計(jì)分估計(jì)器1202中對(duì)不同的完全子估計(jì)各個(gè)域和子運(yùn)算域的計(jì)分un。而且,采用普通的線性最小2乘方法(例如假設(shè)殘量中的噪聲為正態(tài)分布并且提供各種因子權(quán)重裝入之間關(guān)聯(lián)的校正)來估計(jì)有關(guān)的不確定的協(xié)變量。采用用于統(tǒng)計(jì)穩(wěn)定的計(jì)分脊參量使具有較小的總信號(hào)效應(yīng)的計(jì)分偏向于零。
在殘量變化區(qū)域估計(jì)器1210中,減去已知因子的效果之后,估計(jì)殘量變化區(qū)域EXn。
接著,嘗試在空間模型拓寬器1214中拓寬各個(gè)域、子運(yùn)算域和完全子的已有模型XRef、USeq。這采用輸入的估計(jì)不確定變量和權(quán)重來完成以保證高度確定的數(shù)據(jù)元素占優(yōu)勢。采用標(biāo)準(zhǔn)的線性最小2乘方方法(例如假設(shè)殘量中的噪聲為正態(tài)分布)來估計(jì)裝入的不確定變量。
作為拓寬過程的一部分,在該階段按照所用數(shù)據(jù)估計(jì)基本的三維結(jié)構(gòu)Z(0)和有關(guān)的變化因子Z(f),f=1,2,…。特別是,wn中未建模像素的警告提示了試探性的3D建模。
為了檢測未建模相關(guān)區(qū)域的累計(jì)發(fā)展,通過檢驗(yàn)各種域數(shù)據(jù),特別是in中對(duì)于鄰近幀的類似未建模數(shù)據(jù)的“未建模能力”警告wn和有關(guān)的數(shù)據(jù)來修改分段。圖像的未建模部分在空間模型擴(kuò)展器1216中經(jīng)過分析,從而在SRef中產(chǎn)生新的完全子或?qū)σ延型耆舆M(jìn)行修改。在分段期間,已有完全子的邊緣與xn和XRef的邊緣的分段較別處發(fā)生變化的可能性較大。在參考圖像中空間上靠近并且時(shí)間上相關(guān)的完全子被合并。相反,顯示出不相容的空間和時(shí)間模型結(jié)構(gòu)的完全子被分離。
陰影和透明的對(duì)象被建模作為拓寬過程的一部分。這包括對(duì)完全子的基本概率透明度的估計(jì)。在用于識(shí)別移動(dòng)陰影的較佳實(shí)施例中,在幀n中與不同的幀相比顯示了顏色空間內(nèi)光線對(duì)稱的低維損失的鄰近像素組被指定為陰影完全子。陰影完全子被定義為具有較暗的顏色密度并且是半透明的。
對(duì)參考圖像中沒有清晰的因子結(jié)構(gòu)(即在A或I域上用許多低能因子來代替高能因子)的區(qū)域進(jìn)行分析以用于空間時(shí)間結(jié)構(gòu)。這些區(qū)域作上標(biāo)記以借助空間建模技術(shù)來建模,例如流水之類的準(zhǔn)隨機(jī)系統(tǒng)的建模。編碼器的這部分可能需要利用特殊的技術(shù)進(jìn)行一些人工干預(yù)。在后面的參量估計(jì)中這種特殊區(qū)域的效應(yīng)最小。
所述的編碼操作可以與更復(fù)雜的局部變化區(qū)域估計(jì)dxmn一起使用。在較佳實(shí)施例中,對(duì)于預(yù)測幀m的子運(yùn)算域的每個(gè)像素,只估計(jì)和由局部變化區(qū)域估計(jì)器1050輸出一個(gè)變化值(帶有相關(guān)的不確定度)。在替換實(shí)施例中,對(duì)于每個(gè)域或子運(yùn)算域,可以由局部變化區(qū)域估計(jì)器1050估計(jì)出多個(gè)不同的變化值(帶有相關(guān)的不確定度)。例如,局部變化區(qū)域估計(jì)器850可以將兩個(gè)以上替換的可能接受的像素組的水平、垂直和深度運(yùn)動(dòng)表示為dxmn855中damn的一部分。每個(gè)這樣的替換都可以移回作為DXRef,n890一部分的參考位置。隨后,解釋器嘗試建立替換物的不同組合的模型,并選擇最佳結(jié)構(gòu)的那個(gè)。局部建模的靈活的替換途徑是使得局部變化區(qū)域估計(jì)器850也象較佳實(shí)施例中的那樣,只輸出每個(gè)子運(yùn)算域的每個(gè)像素的一個(gè)值,但用描述了變化替換的最可能組合的局部統(tǒng)計(jì)協(xié)變量模型來代替不確定度(例如不確定的變量s2dxmn)。隨后累計(jì)這些協(xié)變量模型并由解釋器用來尋找模型拓寬、擴(kuò)展和深化的最能接受的組合。II.更新模型在某一遍掃描期間分析完當(dāng)前子序列的所用幀并且系統(tǒng)已經(jīng)到達(dá)序列的穩(wěn)定模型之后,在解釋器720中,分別在時(shí)間和空間模型更新器1206和1208中更新模型,因此因子結(jié)構(gòu)可以更緊湊和易于壓縮/編輯。III.合并子序列在多路控制器620中,試圖按照元建模或附錄“合并子序列”中給出的技術(shù)將當(dāng)前子序列與另一個(gè)子序列合并。它將局部子序列模型轉(zhuǎn)換為比單個(gè)子序列的幀的數(shù)量更多的模型。IV.收斂控制在每次掃描結(jié)束時(shí),多路控制器650對(duì)收斂進(jìn)行檢驗(yàn)。如果還沒有收斂,則需要再次掃描。因此,多路控制器650修改控制參量和開始下一次掃描。多路控制器還跟蹤每次掃描中模型發(fā)展的性質(zhì)和結(jié)果,如果某些模型發(fā)展選擇看起來提供的是不滿意的結(jié)果就調(diào)頭。V.最后的模型優(yōu)化根據(jù)應(yīng)用場合的不同,將參量壓縮引起的量化誤差引入模型參量的估計(jì)。為了使后面的參量能夠校正先前參量引入的量化誤差,再次對(duì)序列建模。最后,壓縮XRef和USeq中的參量誤差和誤差校正殘量EXRef并準(zhǔn)備存儲(chǔ)和/或發(fā)送以供譯碼器使用。
采用比輸入數(shù)據(jù)更高的精度可以存儲(chǔ)內(nèi)部模型數(shù)據(jù)。例如在視頻碼處理中,通過從相關(guān)的幾幅輸入幀建立累計(jì)信息的模型但又移動(dòng)對(duì)象可以使最終的內(nèi)部模型XRef比單個(gè)輸入幀具有更高的空間分辨率。另一方面,可以采用與輸入或輸出數(shù)據(jù)(例如由模型深化器從所用像素完整組中選取的不規(guī)則空間關(guān)鍵畫面元素的緊湊子組)完全不同的分辨率來存儲(chǔ)內(nèi)部模型,從而通過在譯碼器的移動(dòng)器部分內(nèi)的像素之間內(nèi)插獲得較好的圖像輸出質(zhì)量。本發(fā)明還可以以不同于輸入的形式輸出譯碼結(jié)果。例如,采用時(shí)間和空間參量的內(nèi)插和外插以及顏色空間的變化,系統(tǒng)可以在NTSC和PAL視頻格式之間轉(zhuǎn)換。
本發(fā)明的IDLE建??梢杂脕韺?duì)輸入和輸出數(shù)據(jù)元素進(jìn)行排序。應(yīng)用這種排序從而使單個(gè)輸入或輸出幀的行相對(duì)于作為視頻加密一部分的共同次序發(fā)生變化。
由于每個(gè)輸入數(shù)據(jù)元素的建模貢獻(xiàn)可以相對(duì)于其它數(shù)據(jù)元素被賦予權(quán)重(各權(quán)重由編碼器系統(tǒng)本身估計(jì)),所以本系統(tǒng)可以處理因輸入數(shù)據(jù)中丟失或特別是噪聲數(shù)據(jù)元素引起的衰減效應(yīng)。
本發(fā)明的較佳實(shí)施例采用各種二路雙線性模型,每一種都由因子貢獻(xiàn)之和組成(因此稱為“線性”),每個(gè)因子被定義為計(jì)分與裝入這兩種參量之積(因此被稱為“雙線性”)。這些參量分別描述了例如時(shí)間和空間變化信息。這種建??梢云毡榛驍U(kuò)展。其中一種普遍化的方式是采用多路模型,例如三路模型,在那里每個(gè)因子貢獻(xiàn)是三種參量之積而不是兩種。不同的是,每個(gè)雙線性因子可以進(jìn)一步由本身的雙線性模型建模。
元建模單序列的元建模按照上述系統(tǒng)和方法獲得的IDLE模型參量去除了單個(gè)子運(yùn)算域內(nèi)部的冗余度。但是,模型參量仍然可以在域和子運(yùn)算域上具有冗余度。例如,對(duì)象如何改變顏色密度的空間模式可以與對(duì)象如何移動(dòng)的空間模式相似。因此,一些顏色與Xref中的運(yùn)動(dòng)裝入存在空間相關(guān)性。同樣,對(duì)象如何隨時(shí)間改變顏色的時(shí)間模式與對(duì)象或其它對(duì)象隨時(shí)間的運(yùn)動(dòng)的時(shí)間模式相似。對(duì)于后者,一些顏色與USeq中的運(yùn)動(dòng)計(jì)分之間存在時(shí)間相關(guān)性。除了輸入的是模型參量組而不是輸入幀組以外,元建?;旧吓cIDLE建模相同。
空間元建??臻g元建?;旧吓cIDLE建模相同;但是,對(duì)模型的輸入現(xiàn)在是被確定為第一IDLE模型一部分的單個(gè)裝入。對(duì)于初始化模型XRef的每個(gè)完全子,我們可以將所有顏色的因子裝入(例如對(duì)于RGB表示紅色裝入R(f)Ref,f=0,1,2,…,綠色裝入G(f)Ref,f=0,1,2,...,和藍(lán)色裝入B(f)Ref,f=0,1,2,...,總的F因子)收集入由F密度“幀”組成的等價(jià)單個(gè)元序列,每幀都是一個(gè)具有與擴(kuò)展參考幀內(nèi)的完全子大小相同的密度裝入。當(dāng)每個(gè)裝入如在解釋器的空間拓寬器中那樣展開為一條直線時(shí),顏色密度裝入形成一個(gè)帶有F個(gè)密度裝入(每個(gè)都包含M個(gè)像素)的F×M矩陣。該矩陣的單值分解(svd)產(chǎn)生與元裝入一起的用于M個(gè)像素的元因子和用于F個(gè)原始因子的元計(jì)分。如果元因子的數(shù)量等于M或F中的較小值,則svd產(chǎn)生原始裝入完整的重建。但是,如果原始裝入中存在明顯的內(nèi)部顏色空間相關(guān)性,則將在元因子中累計(jì),從而導(dǎo)致其小于正確重建所需的M或F因子中的較小值。元計(jì)分指示F個(gè)原始顏色因子裝入如何互相關(guān)聯(lián),而元裝入指示這些互關(guān)聯(lián)在M個(gè)像素上的空間分布。
同樣,如果在完全子運(yùn)動(dòng)于三維坐標(biāo)方向上存在空間互關(guān)聯(lián),則在水平、垂直和深度方向上的微笑裝入的空間元建模將揭示這些互關(guān)聯(lián)。同樣,如果在完全子相對(duì)于兩個(gè)以上的概率性質(zhì)的變化之間存在空間互關(guān)聯(lián),則可以利用各種概率性質(zhì)的裝入的空間元建模合并這些概率冗余度。
最后,可以同時(shí)在每個(gè)完全子或完全子組的顏色密度、運(yùn)動(dòng)和概率變化裝入上完成空間元建模??臻g元建模再次代表原始IDLE模型內(nèi)部的空間關(guān)聯(lián)冗余度,并且空間元計(jì)分對(duì)原始因子裝入之間的空間關(guān)聯(lián)程度定量化。如在標(biāo)準(zhǔn)的主分量分析中的那樣,如果原始輸入裝入矩陣經(jīng)過標(biāo)準(zhǔn)化,則來自svd的本征值分布指示了互關(guān)聯(lián)程度,參見H.Martens和T.Naes《多變量標(biāo)度》,第三章,(John Wiley& Sons,1989),它作為參考文獻(xiàn)包含在這里。
這種空間裝入上的直接svd可以考慮為與元級(jí)別上的空間著色因子建模等價(jià)。同樣,僅僅采用元著色因子的空間元建??梢越柚獏⒖肌⒃?、元微笑和元概率模型擴(kuò)展為完整的IDLE建模。其中一個(gè)原始裝入可以用于元參考??臻g元微笑因子隨后定義了不同原始裝入內(nèi)的區(qū)域需要如何移動(dòng)以優(yōu)化它們的空間冗余度。元完全子不必與原始的完全子相同??臻g元完全子可以定義為原始完全子或者原始完全子組的一部分,并且包含的區(qū)域具有相似的對(duì)稱空間內(nèi)裝入關(guān)聯(lián)模式。諸如空間元透明度之類的其它概率空間元子運(yùn)算域允許不同空間元完全子的混合。
時(shí)間元建模時(shí)間元建?;旧吓cIDLE建模相同;但是,模型的輸入現(xiàn)在是確定為第一IDLE模型一部分的計(jì)分。在與XRef中原始空間變化因子裝入的元建模相同的方式中,可以將IDLE元建模應(yīng)用于USeq中的序列計(jì)分上。可以在用于部分或全部序列幀的一些或所有完全子的子運(yùn)算域上完成時(shí)間元分析。
時(shí)間元因子裝入指示原始視頻序列中的不同幀n=1,2,…N如何相互關(guān)聯(lián),而時(shí)間元因子計(jì)分f=1,2,…,F(xiàn)(對(duì)于元分析的子運(yùn)算域和完全子)指示原始IDLE模型中的不同因子的計(jì)分如何相互關(guān)聯(lián)。隨后計(jì)分的N×F矩陣上的簡單svd對(duì)原始IDLE模型的因子之間已有的時(shí)間冗余度建立模型。
這種因子計(jì)分的簡單svd對(duì)應(yīng)于時(shí)間元著色建模。完整的時(shí)間IDLE元建模允許有一個(gè)作為時(shí)間函數(shù)的而不是標(biāo)準(zhǔn)IDLE建模情況下的空間函數(shù)的參考。在這種情況下,元完全子表示隨時(shí)間的事件或動(dòng)作,元微笑因子表示事件或動(dòng)作沿時(shí)間的位移,而元著色因子表示時(shí)間或動(dòng)作的程度。元參考可以選為視頻序列中的其中一個(gè)原始因子計(jì)分系列。
因此時(shí)間元微笑因子可以用于建立離開用于原始IDLE模型表示的其它變化模式的元參考模式的對(duì)稱、復(fù)雜的時(shí)間偏離的模型。例如,如果原始序列中一個(gè)對(duì)象(例如有軌電車)的移動(dòng)在時(shí)間上跟隨另一個(gè)對(duì)象(牽引機(jī)車的剎車燈)的運(yùn)動(dòng)和顏色變化,但顯示出變化、對(duì)稱的延遲(例如由于加速度變化引起),則將引起時(shí)間元微笑因子。即時(shí)元微笑因子的裝入指示了原始輸入序列內(nèi)的不同幀如何互相關(guān)聯(lián),并且時(shí)間元微笑計(jì)分指示原始IDLE模型中的不同因子如何互相關(guān)聯(lián)。
時(shí)間元完全子一般對(duì)應(yīng)于分開來建模最好的分立時(shí)間事件。隨后元透明度因子可以用來平滑地將不同的時(shí)間完全子組合起來。上述元建模處理的模型參量反過來也可以對(duì)其自身元建模。
當(dāng)元建模用于編碼器中時(shí)(“元編碼”),譯碼器系統(tǒng)可以具有相應(yīng)的逆向元建模(“元譯碼”)。
多序列元建模上述單序列建模可以進(jìn)一步用于多序列元建模。多序列元建模的其中一個(gè)主要應(yīng)用是視頻碼處理,在那里用于將不同的但又可能相關(guān)的視頻序列的IDLE模型關(guān)聯(lián)起來。合并兩個(gè)以上相關(guān)IDLE模型的其中一個(gè)方法是如上所述對(duì)裝入或計(jì)分直接元建模。如果擴(kuò)展參考圖像相同或非常相似,則這種空間結(jié)構(gòu)的直接元建模比較有用。但是,如果序列與擴(kuò)展的參考圖像的大小不同,則直接空間元建模就難以完成。而且,雖然實(shí)際上可以做到,但是如果擴(kuò)展的參考圖像大小一樣但完全子不同,則結(jié)果沒有意義。
如果序列的長度相同并且反映的是相關(guān)的事件(例如上述討論的牽引/有軌機(jī)車實(shí)例),則直接時(shí)間元建模也比較有用。如果序列無法分為等長的子序列,則元建模難以完成,并且如果序列不反映相關(guān)事件,則結(jié)果無意義。
非直接多序列元建模非直接多序列元建模利用兩個(gè)以上的元建模階段。一個(gè)階段是制作兩個(gè)以上兼容的模型參量組,第二個(gè)階段是元建模最終的兼容組。非直接序列元建模比起上述元建模,在允許單個(gè)模型對(duì)大量現(xiàn)象建模上具有更多的靈活性。
在空間元建模的開始階段,擴(kuò)展的參考圖像和有關(guān)的一個(gè)以上子序列的因子裝入用來建立新的擴(kuò)展參考圖像,例如利用簡單的I-DLE建模。為了形成新的擴(kuò)展參考圖像而將兩個(gè)空間子序列模型連結(jié)起來的不同方法可進(jìn)一步參見附錄“合并—子序列”。如果子序列至少有一幀互相交疊,則可以應(yīng)用后一條途徑。
初始的時(shí)間元建模借助另一個(gè)子序列的時(shí)間參考子序列達(dá)到一個(gè)以上時(shí)間參考子序列與有關(guān)因子計(jì)分的時(shí)間兼容性。這利用簡單的IDLE模型來建立時(shí)間域的模型就可以完成。
一旦在空間和/或時(shí)間域上達(dá)到兼容,就可以將不同的子序列模型聯(lián)合元建模成看上去好象屬于一個(gè)子序列。
利用元建模的模型組合來自不同模型的計(jì)分和裝入可以與來自其它不同模型的計(jì)分和裝入組合。一個(gè)模型的計(jì)分或裝入可以被不同來源(例如實(shí)時(shí)游戲桿輸入)的其它計(jì)分或裝入代替,并采用元建模進(jìn)行組合。視頻配音中聲音與圖像數(shù)據(jù)的口型同步就是采用元建模的組合模型的實(shí)例。具體而言,微笑因子可以從已建立的IDLE圖像嘴巴運(yùn)動(dòng)模型估計(jì)得到。這些計(jì)分隨后可以與代表說話的嘴巴發(fā)出的聲音對(duì)應(yīng)的時(shí)間系列匹配。接著可以利用來自所建模型的圖像計(jì)分和聲音時(shí)間系列裝入的元建模以提供圖像數(shù)據(jù)隨聲音時(shí)間系列的優(yōu)化協(xié)變來完成口型同步。
利用IDLE模型參量的組合模型的另一個(gè)應(yīng)用是已建模型的I-DLE參量與外部數(shù)據(jù)之間的協(xié)同變化的建模。例如,如果IDLE建模已經(jīng)用來在數(shù)據(jù)庫中建立了一大組的相關(guān)醫(yī)學(xué)圖像,則用于選取圖像的IDLE計(jì)分可能與用于相應(yīng)圖像每個(gè)主題的特殊醫(yī)療和醫(yī)學(xué)歷史相關(guān)。進(jìn)行這種協(xié)同變化的一種方法是局部最小平方回歸#2(“PLS2”),參見H.Martens和T.Naes《多變量標(biāo)度》,pp.146—163,(John Wiley & Sons,1989),它作為參考文獻(xiàn)包含在這里。用于不同圖像輸入通道的聯(lián)合對(duì)分立運(yùn)動(dòng)建模用于顏色視頻序列的典型輸入包括六個(gè)輸入量3個(gè)暗示的位置維數(shù)(垂直、水平和深度)和3個(gè)明示密度(例如R,G,B)。在基本IDLE系統(tǒng)的較佳實(shí)施例中,假定三個(gè)密度通道表示來自同一相機(jī)的輸入并且涉及同一對(duì)象的信息。這樣,對(duì)于所有三種顏色或密度通道假定了相同的分段和運(yùn)動(dòng)(S和混濁度,微笑和點(diǎn)頭)。顏色通道僅僅在著色建模中分離。而且隨后通過上述各種裝入的聯(lián)合多變量建模消除模型冗余度。
基本的IDLE系統(tǒng)可以修改為通過對(duì)每幀要求含有公共計(jì)分的著色因子但對(duì)各顏色通道要求不同的裝入而同時(shí)在輸入量(例如不同顏色通道內(nèi)的模型著色信息)之間具有更強(qiáng)的連接性。這偏重于在一個(gè)完全子或完全子組中的所有顏色通道中具有同一時(shí)間動(dòng)態(tài)的密度變化,并且可以用于例如穩(wěn)定因子的估計(jì)以及編輯和壓縮。
基本的IDLE系統(tǒng)可以修改為在輸入量之間具有更弱的連接性。在那里,對(duì)于分離的每個(gè)顏色通道,或多或少獨(dú)立地對(duì)運(yùn)動(dòng)建模。這有利于計(jì)算并且在不同通道實(shí)際代表不同空間信息時(shí)靈活性更大。
獨(dú)立運(yùn)動(dòng)建模的一個(gè)例子是來自一組裝備不同傳感器的監(jiān)視衛(wèi)星的多傳感器地理輸入圖像?;诓煌恢锰幍牟煌瑫r(shí)間提取的并且可能顯示不同光學(xué)像差、不同的記錄時(shí)間和不同的分辨率的同一地理區(qū)域的多次重復(fù)的記錄,IDLE系統(tǒng)可以用于對(duì)一定程度上不協(xié)調(diào)的輸入圖像進(jìn)行有效的歸一化、壓縮和解釋。不同的傳感器通道對(duì)不同的空間結(jié)構(gòu)和現(xiàn)象具有不同的靈敏度。例如,雷達(dá)和磁性成像傳感器對(duì)陸地和海洋表面高度的變化比較靈敏,而一些基于光子的成像傳感器(例如紫外、可見和紅外照相機(jī))對(duì)各種長程氣候變化和植被變化和短程天氣狀況具有不同的靈敏度。在這種情況下,IDLE系統(tǒng)可能需要用于獨(dú)立觀測通道的分立運(yùn)動(dòng)和著色建模。
這種系統(tǒng)的另一個(gè)例子是從幾種醫(yī)學(xué)成像設(shè)備(MRI,PET,CT)獲得的輸入數(shù)據(jù),這些設(shè)備為了監(jiān)視癌癥生長、血管變化或其它隨時(shí)間變化的現(xiàn)象,在一定時(shí)間間隔內(nèi)重復(fù)掃描一給定物體。由于每個(gè)設(shè)備都需要分離的測量,所以對(duì)于每種設(shè)備和重復(fù)測量中的每次掃描,物體的位置略微不同。生物組織的運(yùn)動(dòng)一般不會(huì)遵循仿射變換。因此,IDLE微笑因子可能更靈活,具有足夠限制身體運(yùn)動(dòng)表示的方式并且允許所需的歸一化。每種成像設(shè)備隨后可以包含相對(duì)用于來自各成像設(shè)備的單獨(dú)掃描組的結(jié)果的來自擴(kuò)展參考位置的微笑因子子組。在最終的歸一化下,可以檢測早先給出緩慢變化組織警告的著色因子和局部微笑因子。對(duì)于用于最大空間和諧的不同成像設(shè)備,如果擴(kuò)展參考位置例如通過元建模歸一化,則這特別有效。在這種方式下,來自不同成像設(shè)備的所有通道的聯(lián)合信號(hào)都可以用來例如通過要求所有通道的著色因子計(jì)分相同而只有裝入不同以穩(wěn)定克服測量噪聲的建模。
來自二維輸入(圖像)分析的普遍化上述IDLE建模系統(tǒng)可以用于除了普通二維視頻圖像以外的不同格式的輸入記錄。例如,可以用于諸如線列照相機(jī)的行時(shí)間系列或靜止圖像的單列之類的一維數(shù)據(jù)。
對(duì)于后者,IDLE系統(tǒng)用作靜止壓縮系統(tǒng)的一部分。在這類應(yīng)用中,向靜止圖像編碼器輸入的信息是像素的行或列,不是兩維幀數(shù)據(jù)。每個(gè)輸入記錄可以代表兩維圖像中的垂直列。因此,靜止圖像I-DLE裝入?yún)⒘渴橇袪畹亩皇莾删S圖像。對(duì)于這種情況,圖像中的水平像素指數(shù)(列數(shù))代替了視頻序列的時(shí)間維數(shù)(幀n=1,2,…)。
不同輸入維數(shù)的同時(shí)建模如果向靜止圖像IDLE編碼譯碼器輸入的是RGB靜止圖像,則如視頻IDLE編碼譯碼器所述,可以分開或聯(lián)合編碼三種顏色通道(或者YUV等的變換)。同樣,如果向靜止圖像IDLE編碼譯碼器輸入的是來自視頻IDLE編碼譯碼器的擴(kuò)展圖像模型的一組空間參量,則可以分開或聯(lián)合地編碼不同的輸入維數(shù)(著色因子、微笑因子、概率因子)。
在視頻壓縮中描述的本發(fā)明可以應(yīng)用于任何一種信息處理和/或獲取的應(yīng)用。例如,對(duì)于用來建模或編輯黑白或彩色的視頻序列(一組相關(guān)的圖像)的圖像序列或視頻序列的處理,借助IDLE參量進(jìn)行建模以優(yōu)化對(duì)模型參量用途的編輯。模型參量反過來可能涉及已建立的參量組,并且其它已知的編輯模型元素被加入模型。參量組以分層的方式互相關(guān)聯(lián)。通過改變時(shí)間和/或空間參量來編輯序列。采用多序列元建模的方法聯(lián)合建立相關(guān)視頻序列組的模型,即由特殊的IDLE元模型將每個(gè)相關(guān)的序列映射到“參考序列”上。
本發(fā)明還可以應(yīng)用于存儲(chǔ)或傳送壓縮。在該應(yīng)用中,通過IDLE編碼建立視頻序列的模型,并壓縮最終的模型參量。根據(jù)譯碼系統(tǒng)的帶寬和存儲(chǔ)容量采用不同的壓縮和表示策略。變換因子的時(shí)間排序與空間參量的金字塔型表示和傳送可以用來在傳送帶寬受到限制時(shí)增加系統(tǒng)的強(qiáng)壯度。
同樣,本發(fā)明還可以用于黑白電影的彩色化。對(duì)于這種情況,通過IDLE編碼建立黑白電影序列的模型。IRef中的空間完全子由人工或自動(dòng)上色,并使這些顏色自動(dòng)分布整個(gè)序列。相關(guān)序列組可以用相容的顏色來識(shí)別。
此外,本發(fā)明可以用于模擬器、虛擬現(xiàn)實(shí)和其它相關(guān)的應(yīng)用。相關(guān)的圖像序列被記錄和壓縮。當(dāng)譯碼時(shí),由用戶控制所選的幾個(gè)計(jì)分而不是采用記錄計(jì)分。同樣,可以按照用戶控制的計(jì)分改變其它計(jì)分。例如,對(duì)于交通模擬器記錄汽車、道路和平臺(tái)的內(nèi)部的序列;識(shí)別那些計(jì)分,可能是點(diǎn)頭計(jì)分,直接與汽車的運(yùn)動(dòng)對(duì)應(yīng);確定那些隨點(diǎn)頭因子間接變化的計(jì)分,例如用于光照、陰影、透視等的微笑/著色因子;以及建立起定義汽車如何與某些控制輸入的的運(yùn)動(dòng)(例如車輪、加速桿、剎車桿等)相互作用的數(shù)學(xué)模型。隨后,用戶可以坐在帶有前方顯示器和可能的側(cè)面顯示器的模擬汽車內(nèi)。模擬控制器隨后與“直接”因子相連,用來控制“非直接”因子。最終的圖像將給出非常自然的效果。
本發(fā)明還可以用于諸如視頻電話、電視和HDTV之類的現(xiàn)實(shí)系統(tǒng)。雖然在新的序列開始時(shí)可能產(chǎn)生大量的空間信息,但是對(duì)于超長序列來說也可以獲得非常高的壓縮比。這種應(yīng)用還包括實(shí)時(shí)編碼和譯碼。根據(jù)計(jì)算能力的大小,可以采用復(fù)雜度不同的IDLE算法。例如,空間域上的信息可以在處理各種大小的圖像的IDLE編碼器算法(根據(jù)特定應(yīng)用的容量和需要決定)下由標(biāo)準(zhǔn)的高斯金字塔表示。用于拓寬、擴(kuò)展或深化的編碼器部分不必對(duì)每幀都是實(shí)時(shí)的。場景的復(fù)雜程度和圖像大小決定了可以達(dá)到的壓縮比和代碼質(zhì)量。
本發(fā)明還可以用于遠(yuǎn)地照相機(jī)監(jiān)視。利用位于圖像信息源的遠(yuǎn)地實(shí)時(shí)編碼器,簡化了照相機(jī)的解釋和發(fā)送部分。一般的著色因子建立諸如各種正常的照明變化的正常對(duì)稱變化,而一般的微笑因子和點(diǎn)頭因子校正一般的運(yùn)動(dòng)(例如樹枝的運(yùn)動(dòng))。自動(dòng)輪廓檢測和空間模型擴(kuò)展器檢測了未建模殘量中的對(duì)稱冗余度并且在發(fā)布自動(dòng)誤差警告之前產(chǎn)生可以通過查詢對(duì)象數(shù)據(jù)庫解釋的新的完全子。數(shù)據(jù)庫中的每個(gè)對(duì)象可以包含自身的微笑、著色和概率因子裝入和/或運(yùn)動(dòng)模型。壓縮殘量可以存儲(chǔ)或在窄帶系統(tǒng)(例如銀行等安全照相機(jī)的TV照相機(jī)輸出用的雙股對(duì)扭銅纜線)或超窄帶系統(tǒng)(例如深水或外層空間用)上發(fā)送。
來自技術(shù)照相機(jī)的圖像,即不是直接供人觀看的圖像可以采用IDLE技術(shù)來建模/壓縮。顏色通道越多,空間IDLE模型的元建模壓縮就越有效。這種應(yīng)用的例子包括用于監(jiān)視近紅外(NIR)或紫外/可見波段(例如用于記錄熒光)內(nèi)生物學(xué)過程的多波段照相機(jī)系統(tǒng)。
IDLE系統(tǒng)還可以與多通道衛(wèi)星和/或航空攝影連結(jié)。不同環(huán)境和時(shí)間下同一地理區(qū)域的重復(fù)圖像可以通過IDLE編碼建模。這種參量化可以進(jìn)行有效的壓縮以供存儲(chǔ)和傳送。它還提供了指示系統(tǒng)密度變化和運(yùn)動(dòng)以及隨時(shí)間變化的解釋工具。如果是從略微不同的位置或以不同的測量條件得到了同一地區(qū)的圖像,則可以采用附加的IDLE預(yù)處理模型來改善對(duì)準(zhǔn)度,從而允許地理區(qū)域有相當(dāng)明顯的變化時(shí)(例如日照的變化)仍能精確鑒別。
本發(fā)明的IDLE方法還可以用于交叉域坐標(biāo)或電影制作與配音的口型同步的應(yīng)用。對(duì)于多變量標(biāo)度,來自說話者嘴部區(qū)域的IDLE視頻模型的技術(shù)參量計(jì)分例如涉及例如由PLS2得到的發(fā)聲模型(例如子帶或Celp編碼譯碼器或IDLE聲音編碼譯碼器)的時(shí)間參量。回歸建模可以基于來自一組帶有已知圖像/聲音同步的說話人的電影序列的數(shù)據(jù),從而建立起用于優(yōu)化口型同步的局部口型延遲的模型。對(duì)于口型問題的新的序列,估計(jì)了同一圖像和聲音模型的計(jì)分參量。一旦估計(jì)出來,就通過修改時(shí)間IDLE參量和/或聲音參量來校正或補(bǔ)償局部口型同步的延遲。
IDLE原理還可以用于數(shù)據(jù)庫壓縮和/或搜尋。在許多數(shù)據(jù)庫中記錄之間相互關(guān)聯(lián),但是這些關(guān)系比較復(fù)雜并且難以用普通建模來表達(dá)。這種應(yīng)用的例子包括人臉的拍攝、各種醫(yī)學(xué)圖像(例如MRI身體掃描)、生物標(biāo)本的照片、汽車照片等。對(duì)于這種情況,可以利用I-DLE模型參量分析和存儲(chǔ)數(shù)據(jù)庫的內(nèi)容。數(shù)據(jù)庫中相關(guān)但又復(fù)雜的信息的IDLE表示有幾個(gè)優(yōu)點(diǎn),即壓縮量大、搜尋能力和靈活性相對(duì)于數(shù)據(jù)庫中單個(gè)記錄來說有所改進(jìn)。壓縮量取決于建模的記錄數(shù)量和采用的IDLE模型的簡單程度,即數(shù)據(jù)庫內(nèi)容的多少和復(fù)雜程度。
搜尋能力(和解釋能力)改善的原因在于,在IDLE表示時(shí),與大量原始輸入數(shù)據(jù)(例如每幅圖像200000個(gè)像素)的情形相反,數(shù)據(jù)庫搜尋可以利用與因子計(jì)分對(duì)應(yīng)的低維參量組(例如少量的點(diǎn)頭、微笑和著色計(jì)分)來完成。采用分形或DCT的壓縮技術(shù)不產(chǎn)生相似的可搜尋參量。少量的IDLE計(jì)分變量可能與數(shù)據(jù)庫中外部變量統(tǒng)計(jì)相關(guān),從而提供了搜尋更大的一般模式(例如對(duì)于醫(yī)學(xué)圖像和醫(yī)療)的能力。數(shù)據(jù)庫中記錄表示的靈活性的改善的原因在于,雙線性IDLE因子的靈活性。將少量微笑和著色因子裝備到完全子模型上可以在模式識(shí)別期間無需統(tǒng)計(jì)過參量化就能量化對(duì)稱的未知變化。
數(shù)據(jù)庫表示中的IDLE建??梢杂糜跀?shù)據(jù)庫中各種記錄類型,例如包含人臉的圖像數(shù)據(jù)庫(醫(yī)學(xué)、犯罪等)、動(dòng)產(chǎn)提示材料或技術(shù)圖紙。在這些情況下,IDLE建??梢允姑繌垐D中的完全子在不同地方使用;這種情況下的完全子可能是幾何原形。另外的應(yīng)用包括聲音(音樂、話音)、事件(空間時(shí)間模式)、情況(例如綜合各種用于天氣結(jié)構(gòu)或地理位置的氣象數(shù)據(jù)的一段時(shí)間內(nèi)的天氣情況)。
IDLE原理還可以用于改善模式識(shí)別。在將未知記錄與各種已知模式匹配時(shí),當(dāng)已知模式還包括少量微笑和著色因子裝入(其計(jì)分在搜尋過程期間估計(jì))時(shí),增加了靈活性。在搜尋相對(duì)給定模式的輸入圖像時(shí),通過使完全子包括少量微笑和著色因子裝入(其計(jì)分在搜尋過程期間估計(jì)),增加了靈活性。這種模式識(shí)別途徑可以用于語音識(shí)別。
IDLE原理還可以用于諸如超聲波、MRI、CT等醫(yī)療和工業(yè)成像設(shè)備以提供噪聲濾波、自動(dòng)警告和改進(jìn)解釋。在醫(yī)學(xué)超聲波成像中,噪聲是一個(gè)主要的問題。噪聲之強(qiáng)常常使得單獨(dú)幀上的濾波損壞所需信號(hào)的重要部分。許多噪聲是隨機(jī)的并且疊加在一起時(shí)趨于零,如果從同一對(duì)象的同一部分收集到許多樣本,則可以通過平均化樣本來抑制噪聲。要保持測量的對(duì)象或使主題穩(wěn)定常常是不可能的,并且所觀察到的運(yùn)動(dòng)看上去相當(dāng)復(fù)雜。但是,引起所觀察到的運(yùn)動(dòng)的原因有限,所以位移只需相當(dāng)少的IDLE微笑和點(diǎn)頭因子。在參考位置上,噪聲可以平均化去除。微笑和著色因子也可以用于解釋這樣的序列。最后,超聲波序列表示了大量難以存儲(chǔ)的原始數(shù)據(jù)。大多數(shù)情況是只有幾幅靜止的圖像存儲(chǔ)。因此本發(fā)明的壓縮大有用武之地。
本發(fā)明的IDLE原理還可以用于信用卡和其它圖像數(shù)據(jù)庫壓縮應(yīng)用。例如,對(duì)于壓縮的情況,只要圖像組具有相似的特征,這組圖像就可視為一個(gè)序列并采用IDLE技術(shù)壓縮。這很容易用于面部圖像的數(shù)據(jù)庫中。如果所有的裝入在編碼器和譯碼器側(cè)都是已知的,則意味著只有計(jì)分需要單獨(dú)存儲(chǔ)。這些計(jì)分能夠與信用卡上磁條的存儲(chǔ)容量匹配,從而構(gòu)成了鑒別系統(tǒng)的基礎(chǔ)。
IDLE原理的其它應(yīng)用包括靜止圖像壓縮、雷達(dá)(噪聲濾波、模式識(shí)別和誤差警告)、自動(dòng)動(dòng)態(tài)視覺技術(shù)(在藝術(shù)畫廊或廣告中,兩臺(tái)以上帶有例如平板彩色LCD屏幕的計(jì)算機(jī),顯示了IDLE模型的輸出。一臺(tái)計(jì)算機(jī)上IDLE模型的計(jì)分參量是另一臺(tái)IDLE模型的屏幕輸出和自組織系統(tǒng)中其它傳感器的函數(shù))、消費(fèi)品或廣告(一臺(tái)帶有例如彩色平板LCD屏幕的計(jì)算機(jī)顯示了來自IDLE模型的輸出,IDLE模型的計(jì)分和裝入受到隨機(jī)數(shù)發(fā)生器和觀察者行為共同作用的影響)、去連接感測和元觀察(當(dāng)移動(dòng)的場景已經(jīng)被許多圖像傳感器多次特征化以致圖像無法再疊加時(shí),IDLE建??梢杂脕韺?duì)移動(dòng)場景歸一化以進(jìn)行更簡單的疊加)。
IDLE系統(tǒng)還可以用于數(shù)據(jù)設(shè)備的歸一化(磁的、光的)。具體而言,如果記錄過程的物理位置或區(qū)域密度發(fā)生了變化,或者讀取過程及介質(zhì)本身是變化的而難以用普通的建模來建立模型和校正,則采用點(diǎn)頭、微笑和/或著色因子的IDLE建??梢孕U龑?duì)稱的但未知的變化。這對(duì)于控制多層讀/寫過程特別重要。在這種應(yīng)用中,已經(jīng)寫入的層可以作為輸入的數(shù)據(jù)來穩(wěn)定潛在的微笑和著色因子。
本發(fā)明的IDLE原理還包括眾多的聲音應(yīng)用。例如諸如音樂、話音或電-機(jī)振動(dòng)之類的聲音可以利用各種域(例如時(shí)間、頻率)上的固定平移/點(diǎn)頭、對(duì)稱位移/微笑、密度/著色和交疊/混濁度的參量化來建模和壓縮。聲音中的完全子可以是時(shí)間和/或頻率域上的連接的聲音模式。另外的聲音應(yīng)用包括聲音的修改/編輯;工業(yè)過程和監(jiān)視、汽車、輪船、飛機(jī)。而且可以在聲音數(shù)據(jù)庫中搜尋(與上面討論的圖像或視頻數(shù)據(jù)庫中的搜尋相似)。由此可以在不同域上將IDLE建模組合起來,例如時(shí)間和頻率域上的聲音建模。
IDLE原理還可以用于天氣預(yù)報(bào);機(jī)械(利用照相機(jī)作為獨(dú)立的傳感器并使IDLE系統(tǒng)能學(xué)習(xí)正常的運(yùn)動(dòng)和在磨損、破裂及異常時(shí)發(fā)出警告的機(jī)器人質(zhì)量控制監(jiān)視);將傳統(tǒng)的機(jī)器人連接性“硬點(diǎn)頭”樹與用于軟運(yùn)動(dòng)的IDLE微笑模型結(jié)合起來并將“軟”“硬”機(jī)器人建模與著色因子連用以建立人體運(yùn)動(dòng)模型的機(jī)器人建模。
本發(fā)明的IDLE原理還可以用于指紋、聲音和臉部槍擊圖像區(qū)域的法醫(yī)研究。
雖然借助較佳實(shí)施例描述了本發(fā)明,但是可以理解的是本領(lǐng)域內(nèi)的技術(shù)人員在不偏離本發(fā)明精神和范圍的前提下可以作出各種修改。
譯碼器—附錄1.總覽2.幀重建2.1直觀解釋2.2INRec公式2.3Holonwise裝入一計(jì)分矩陣的相乘2.4微笑2.5點(diǎn)頭2.6運(yùn)動(dòng)2.7Ad hoc殘量3.參考文獻(xiàn)1.總覽為了增強(qiáng)可讀性,這里的表述采用口語化的縮寫來代替在本申請(qǐng)其它地方所用的標(biāo)志和下標(biāo)記號(hào)。
對(duì)于每幀n,譯碼器完成下列步驟接收域PRef的分段S區(qū)域部分的更新S接收用于著色密度變化(“Blu”)的計(jì)分(“Sco”)的更新,BluSco;垂直和水平地址微笑變化(“Smi”)的計(jì)分的更新,SmiSco;3D深度變化(Z)的計(jì)分的更新,ZSco;以及用于每個(gè)完全子的un的概率變化(“Prob”)的計(jì)分的更新,ProbSco.
接收用于XRef的著色、微笑、Prob和Z裝入(簡記為“Loads”或“Lod”)BluLod,SmiLod,Prolod,ZLod。
接收包含點(diǎn)頭計(jì)分的仿射變換(“Nod”)矩陣NodMat的更新。
接收可選誤差殘量(“Res”)em=(BluRes,SmiRes,ZRes,Pro-bRes)。
根據(jù)S區(qū)域、計(jì)分、裝入和點(diǎn)頭矩陣重建當(dāng)前幀(in,這里是IN)的密度以產(chǎn)生重建的inhat結(jié)果(″INRec″)。
2.幀重建A.直觀解釋通過按照著色因子改變參考圖像中各顏色通道的像素密度來給圖像著色。
通過按照微笑因子(包括Z因子)改變參考圖像中像素地址值來使圖像微笑。
通過按照prob因子改變參考圖像中例如透明度之類的概率子運(yùn)算域來改變圖像的概率性質(zhì)。
通過按照點(diǎn)頭矩陣改變像素的微笑地址來使微笑的坐標(biāo)點(diǎn)頭。
將像素從著色的參考圖像移入完成的圖像從而使每個(gè)像素都在微笑和點(diǎn)頭坐標(biāo)處結(jié)束,圖像中的“完全子”添滿內(nèi)插值,在幾個(gè)像素結(jié)束于同一坐標(biāo)時(shí)Z值最大的像素“贏得”該坐標(biāo),以及如果Prob值小于1,像素半透明。
選擇將殘量校正加入重建密度。
選擇后處理最終的輸出圖像以提供完全子的平滑混合,特別是在移動(dòng)器操作期間沿著運(yùn)動(dòng)形成的邊緣。在較佳實(shí)施例中,可以通過沿運(yùn)動(dòng)圖像中所有的分段邊緣混合完成。
2.2INRec公式計(jì)算INRec的公式如下INRec=Move(IRef+BluSco*BluLod,S,…Nod([VH]+SmiSco*SmiLod,Z+ZSco*ZLod,NodMat,S),...
ProbSco*ProbLod)2.3Holonwise裝入—計(jì)分矩陣的相乘在諸如“BluSco*BluLod”之類的表達(dá)式中,相乘并不意味著傳統(tǒng)的矩陣相乘,而是一種稱為Holonwise裝入—計(jì)分矩陣的相乘的變化。即,每個(gè)完全子都有自己的計(jì)分,而且對(duì)于每個(gè)像素,為了確定像素所屬的完全子,必須分析S區(qū)域,并且完全子的數(shù)量必須用來從BluSco選擇正確的計(jì)分。
為了計(jì)算BluSco*BluLod對(duì)于每個(gè)像素Sum=0對(duì)于每個(gè)因子Sum=Sum+BluSco[S[Pixel],F(xiàn)actor]*BluL-od[Factor,Pixel]Result[Pixel]=Sum同樣也可以這樣計(jì)算SmiSco*SmiLod、ZSco*ZLod和Prob-Sco*ProbLod。
2.4微笑微笑像素意味著按照地址變化區(qū)域位移參考位置坐標(biāo)。地址變化區(qū)域可以在每一維(例如垂直、水平和深度方向)上都有取值,并可以定義為一個(gè)以上的完全子。每個(gè)地址變化區(qū)域可以作為微笑因子貢獻(xiàn)之和而產(chǎn)生,而每個(gè)變化因子貢獻(xiàn)可以是時(shí)間計(jì)分與空間裝入之積。
為了將像素信息從參考位置處移開,可以首先計(jì)算參考位置(DARef,n)中的這些像素的運(yùn)動(dòng)量,隨后在譯碼器的移動(dòng)器的后半段進(jìn)行實(shí)際的移動(dòng)操作。
對(duì)于參考位置中坐標(biāo)為V,H,Z的每個(gè)像素,移動(dòng)后的新地址計(jì)算如下VSmi=V+SmiScoV*SmiLodV
HSmi=H+SmiScoH*SmiLodHZSmi=Z+SmiScoZ*SmiLodZ在這些三個(gè)表達(dá)式中,V和H是參考位置處每個(gè)像素的坐標(biāo),Z是像素Z區(qū)域的數(shù)值。乘法是上節(jié)所述的Holonwise裝入—計(jì)分矩陣的相乘。
2.5點(diǎn)頭點(diǎn)頭函數(shù)用來修改每個(gè)像素的坐標(biāo)值,地址可以用相似的坐標(biāo)向量表示ASmi=((VSmiled HSmiled ZSmiled 1))點(diǎn)頭坐標(biāo)ANod由下面給出VNodHNodZNodDummy=T11T12T130T21T22T230T31T32T330T41T42T431*VSmiHSmiZSmi1]]>這里也可以表示為ANod=NodMat*ASmi2.6運(yùn)動(dòng)將像素移入完成的圖像從而使每個(gè)像素結(jié)束于微笑和點(diǎn)頭坐標(biāo),也使圖像中的“完全子”添滿內(nèi)插值,并在幾個(gè)像素結(jié)束于同一坐標(biāo)時(shí)Z值最大的像素“贏得”該坐標(biāo),以及如果Prob值小于1,像素半透明。
如果裝入X(f)Ref,f=1,2,3也一起移入水平0圖像X(0)Ref,則將同一內(nèi)插和Z緩沖策略用于f=1,2,…。
移動(dòng)和內(nèi)插像素的方法參見George Wolberg《數(shù)字圖像卷繞》,第7章,(IEEE Computer Society Press 1990),作為參考文獻(xiàn)它已包含在這里。Z緩沖可以參見William M.Newman和Robert F.Sproull《交互式計(jì)算機(jī)圖形》,第24章(mCGraw Hill 1984),它作為參考文獻(xiàn)包含在這里。如何將半透明像素組合起來的方法可以參見John Y.A.Wang和Edward H.Adelson,“圖像序列碼處理的層表示”,IEEE ICASSP,Vol.5,pp221—224,Minneapolis,Minnesota,1993,作為參考文獻(xiàn)它已包含在這里。
附錄合并—子序列檢查當(dāng)前子序列模型是否可與其它子序列模型合并A.將當(dāng)前參考模型稱為′位置I′,另一個(gè)參考模型稱為′位置II′。利用由當(dāng)前和另一個(gè)子序列建模的幀n,將當(dāng)前子序列XI的擴(kuò)展參考圖像的空間模型參量移至另一個(gè)子序列XII的擴(kuò)展參考圖像的位置1.由于在模型I中inhat(I)=Move(DAI,nof II+DII,n)在模型II中inhat(II)=Move(DAII,nofIII+DIII,n)并且從xnhat的所有的域普遍化在模型I中xnhat(I)=Move(DAI,nof XI+DXI,n)在模型II中xnhat(II)=Move(DAII,nof XII+DXII,n)2.我們可以將用于幀n的估計(jì)移回兩個(gè)參考位置上在模型I中Xnhat(I)@I=Move(DAn,Iofxn)在模型II中Xnhat(II)@II=Move(DAn,IIof xn)3.如果與著色建模不同,兩個(gè)模型主要包含微笑,則我們利用模型I將模型I移至幀n的估計(jì)位置,隨后利用模型II的逆模型將模型I移入模型II的位置XI@II=Move(DAn,IIof(Move(DAI,nof(XI+DXI,n))4.模型II的位置XI@II中給定的模型I裝入可以與XII比較和合并(借助局部微笑和著色估計(jì)與模型擴(kuò)展,加上XI@II中丟失的XI中的檢測部分)。這產(chǎn)生了一個(gè)新的綜合了模型I和II的放大模型XII。
5.新的放大的模型XII同樣可以與具有另一交疊幀的模型III合并。只要壓縮和/或再現(xiàn)質(zhì)量下降得不大,就可以合并子序列。
附錄簡化的編碼器用途表示一種實(shí)現(xiàn)簡化IDLE編碼器的方式內(nèi)容1 EncSeq2 ExpressSubSeqWithModels3 ExpressWithModels4 ExtractSmiFactSubSeq5 ExtractBluFactSubSeq6 SegSubSeq7 AllocateHolon8 MoveBack9 AnalyseMove10其它需要的方法10.1移動(dòng)10.3Smi2Nod10.4更新模型10.5傳送附錄記號(hào)
1EncSeq輸入Seq幀序列;每行一個(gè)ErrTol允許誤差輸出SmiLodSmile loadsSmiScoSmile scoresBluLodBlush loadsBluScoBlush scores非正式描述在序列上工作。只要無法利用已知的微笑和著色因子在允許誤差內(nèi)重建幀就要引入新的因子。首先嘗試引入微笑因子,然后嘗試引入著色因子。選擇能夠最大程度改善重建的因子。
在這個(gè)過程期間,可以尋找圖像的不同部分來獨(dú)立移動(dòng)或互相包容。每次檢測到這種情況時(shí),檢測圖像的那一部分是固有移動(dòng)的,將最小的部分隔離并定義為多個(gè)新的完全子,通過增大圖像的尺寸提供新的空間,將新的完全子放在那里,以及用微笑因子補(bǔ)償重新定位。
只要表明需要新的信息(即圖像部分采用已有點(diǎn)頭或微笑因子無法精確移回參考位置),就要尋找附近的完全子并試著在擴(kuò)展每個(gè)這樣的完全子的假設(shè)下建立新信息的模型。如果可以找到較好的建模方式,則擴(kuò)展完全子,否則創(chuàng)建新的完全子。
考慮譯碼器剩下的存儲(chǔ)容量如果存儲(chǔ)容量很大,則優(yōu)先存儲(chǔ)跨越許多幀的因子并通過釋放測試允許誤差TestErrTol而更“正確”(即使它們對(duì)于每一幀來說保真度略低)。如果空余的存儲(chǔ)容量很小,重要的是必須在少量剩余的因子下達(dá)到所需的保真度,所以測試允許誤差TestErrTol必須嚴(yán)格。
方法IRef=序列Seq中第一幅圖像將SmiLod和BluLod設(shè)置為空當(dāng)NextFraNo<=length(Seq)[SmiSco,BluSco,F(xiàn)ailFraNo]=...
ExpressSubSeqWithModels(Seq,NextFraNo,IRef,SmiLod,BluLod,ErrTol)如果FailFraNo<=length(Seq)嘗試更新模型的不同方法如果譯碼器的存儲(chǔ)容量很大(基于傳送歷史)將TestErrTol設(shè)置為較大值否則如果譯碼器的存儲(chǔ)容量很小將TestErrTol設(shè)置為接近ErrTolFromFraNO=FailFraNo[NewSmiLod,nSmiFra,TotSmiErr]=ExtractSmiFactSubSeq(Seq,F(xiàn)romFraNo,TestErrTol,SmiLod,BluLod,SmiSco,BluSco) =ExtractBluFactSubSeq(Seq,F(xiàn)romFraNo,TestErrTol,SmiLod,BluLod,SmiSco,BluSco)[NewS,nSegFra,TotSegErr]=SegSubSe-q(Seq,F(xiàn)romFraNo,S,TestErrTol)根據(jù)nSmiFra,nBluFra和nSegFra,和TotSmiErr,TotBluErr和TotSegErr不是選擇包含在模型中的微笑或著色中的一個(gè),就是改變分段如果選擇微笑傳送(SmiLod)更新微笑因子[SmiLod,SmiSco]=UpdateModel(SmiLod,-SmiSco,NewSmiLod)否則如果選擇著色傳送(BluLod)更新著色因子[BluLod,BluSco]=UpdateModel(BluLod,-BluSco,NewBluLod)否則如果選擇分段傳送(NewS-S)S=NewS結(jié)束方法EncSeq
2ExpressSubSeqWithModels用途表示一個(gè)由微笑和著色域上的裝入組成的已有模型下的序列,只要在允許誤差范圍內(nèi)。[SmiSco,BiuSco,NextFraNo]=…ExpressSubSeqWithModels(Seq,NextFraNo,ErrTol,IRef,SmiLod,BluLod,SmiSco,BluS-co)輸入Seq待表示的序列NextFraNoSeq內(nèi)子序列的起點(diǎn)ErrTol允許誤差;子序列結(jié)束的判據(jù)Iref參考圖像SmiLod,BluLod微笑裝入SmiSco,BluSco已知的微笑和著色計(jì)分輸出SmiSco微笑計(jì)分BluSco著色計(jì)分FailFraNo由于ErrTol而建模失敗的幀的數(shù)量方法將當(dāng)前幀的數(shù)量N設(shè)置為NextFraNo重復(fù)IN=Seq(N)嘗試采用已知因子建立IN的模型[INRec,SmiSco[N],BluSco[N]]=ExpressWithModels(IN,S,SmiLod,BluLod)
增加幀的數(shù)量N直到Error(INRec,IN)<ErrTol或IN是Seq中最后一幀NextFraNo=N結(jié)束方法ExpressSubSeqWithModels
3Express WithModels用途用已知模型表示幀,即計(jì)算已有的在IN與重建之間給出最佳擬合的裝入的計(jì)分[INRec,SmiSco,BluSco]=ExpressWithModels(IN,IRef,SmiLod,BluLod,S,SmiSco,BluSco)輸入IN一幅特定的幀IRef參考圖像SmiLod已知微笑裝入BluLod已知著色裝入SS區(qū)域可選輸入SmiSco,BluSco微笑和著色計(jì)分最初的估計(jì)輸出INRec重建圖像SMiSco對(duì)微笑和著色計(jì)分的改進(jìn)估計(jì)非正式描述尋找優(yōu)化的軌跡和誤差的計(jì)分組,即通過類似Simplex的搜尋方法(參見William H.Press等人,《數(shù)值譯碼》(劍橋大學(xué)出版社)中第10章的“多維下山Simplex方法”),它作為參考文獻(xiàn)包含在這里。
選擇新的微笑計(jì)分作為先前最熟悉的微笑計(jì)分的變化,通過將譯碼和需要的圖像之間的差異移入?yún)⒖嘉恢煤屯渡涞揭延械闹b入上估計(jì)著色計(jì)分。
判斷新的圖像逼近所需圖像的程度,并將其作為選擇微笑計(jì)分新變化的標(biāo)準(zhǔn)。方法對(duì)于每個(gè)完全子重復(fù)對(duì)于少數(shù)變量略微改變微笑計(jì)分采用新的微笑計(jì)分和舊的著色計(jì)分對(duì)圖像譯碼將譯碼和需要的圖像之間的差異移回參考位置將差異投射到已有的著色裝入上估計(jì)著色裝入,產(chǎn)生新的BluSco采用新的SmiSco和BluSco對(duì)圖像譯碼選擇最佳變量(即保持給出最佳重建的計(jì)分)直到重建圖像的質(zhì)量足夠的好或者無法進(jìn)一步改善結(jié)束方法ExpressWithModels4ExtractSmiFactSubSeq用途從子序列中提取微笑因子[NewSmiLod,nSmiFra,TotSmiErr]=ExtractSmiFactSubSeq(Seq,F(xiàn)romFraNo,ErrTol, IRef,SmiLod,BluLod,SmiSco,BluSco)輸入Seq序列FromFraNo子序列中第一幀的數(shù)字。與EncSeq中NextFraNo的相同ErrTol允許誤差SmiLod,BluLod已知的微笑和著色裝入
SmiSco,BluSco待更新的計(jì)分輸出nSmiFra用于估計(jì)微笑因子的幀的數(shù)量NewSmiLod一個(gè)新的微笑裝入TotSmiErr微笑后的總的剩余誤差非正式描述對(duì)于每幀,只要微笑看起來合理只利用已知的裝入盡可能地重建所要的幀IN;將它稱為IM為了看上去象IN,尋找IM微笑的方式將微笑映射回參考位置更新模型返回最終模型的第一因子方法TestFraNo=FromFraNoTotErrSmi=0將SmiTestLod設(shè)為空重復(fù)IN=Seq(TestFraNo)建立根據(jù)參考圖像與已知的微笑和著色因子盡可能地重建IN的圖像IM,并作為側(cè)面效應(yīng)計(jì)算從M到參考位置的返回區(qū)域[IM,SmiSco[TestFraNo],BluSco[TestFraNo]]=ExpressWithModels(IN,IRef,SmiLod,BluLod,SmiScoInit,BluScoInit)SmiRefToM=SmiSco[M]*SmiLod
當(dāng)只允許微笑時(shí)尋找如何使IM看上去象IN的方式,同時(shí)計(jì)算微笑區(qū)域的信心[SmiMToN.SmiConfMToN]=EstMov(IM,IN,TestSmi-Lod)將微笑和確定度移回參考位置SmiMToNAtRef=MoveBack(SmiMToN,SmiRefToM)SmiConfMToNAtRef=MoveBack(SmiConfMToN,SmiRef-ToM)計(jì)算只采用微笑時(shí)的誤差ErrSmi=N-Move(IRefBlushed,SmiRefToM+SmiMT-oNAtRef)[SmiTestLod,SmiTestSco]=…TotErrSmi=TotErrSmi+ErrSmi更新模型(SmiTestLod,SmiTestSco,ErrSmi)TotSmiConfMToNAtRef=TotSmiConfMToNAtRef+SmiConf-MToNAtRefTestFraNo=TestFraNo+1直到SmiTestLod中因子間的能量過于分散,或ErrSmi較大最后一幀不包括在摘要內(nèi),所以取消最后的更新模型的效應(yīng)取消最后的誤差求和的效應(yīng)TotErrSmi=TotErrSmi-ErrSmiNewSmiLod=SmiTestLod[1]nSmiFra=FromFraNo-NextFraNo結(jié)束ExtractSmiFactSubSeq方法
5ExtractBluFactSubSeq用途從子序列中提取一個(gè)著色因子[NewBluLod,nBluFra,TotBluErr]=ExtractBluFactSubSeq(Seq,NextFraNo,ErrTol,IRef,SmiLod,BluLod,SmiSco,BluSco)輸入Seq序列NextFraNo下一幀的數(shù)字。即子序列的起點(diǎn)ErrTol允許誤差,可以定義為子序列的結(jié)尾IRef參考圖像SmiLod已知的微笑裝入BluLod已知的著色裝入SmiSco微笑計(jì)分BluSco著色計(jì)分輸出NewBluLod一個(gè)新的著色裝入nBluFra用于定義該著色的幀的數(shù)量TotBluErr著色后的總的剩余誤差方法TotBluErr=0TestFraNo=NextFraNo將BluTestLod設(shè)為空重復(fù)如果用于IM的計(jì)分不能為ExtractSmiFactSubSeq所用建立根據(jù)參考圖像與已知的微笑和著色因子盡可能地重建IN的圖像IM,并作為側(cè)面效應(yīng)計(jì)算從M到參考位置的返回區(qū)域[IM,SmiSco[TestFraNo],BluSco[TestFraNo]]=ExpressWithModels(IN,IRef,SmiLod,BluLod,SmiScoInit,BluScoInit)SmiRefToM=SmiScoM*SmiLod通過著色是IM看上去像IMBluMToN=IN-IM將該著色移回參考位置BluMToNAtRef=MoveBack(BluMToN,SmiRefToM)[BluTestLod,BluTestSco]=…計(jì)算只采用著色時(shí)的誤差ErrBlu=IN-Move(IRefBlushed+BluMToNAtRef,SmiRefToM)直到BluTestLod中因子間的能量過于分散,或Sum(ErrBlu)較大最后一幀不包括在摘要內(nèi),所以取消最后的更新模型的效應(yīng)取消最后的誤差求和的效應(yīng)TotErrBlu=TotErrBlu-ErrBlu
結(jié)束ExtractBluFact方法
6SegSubSeq用途提出一種新的完全子分段,并報(bào)告如何改進(jìn)建模[S,TotSegErr,nSegFra]=SegSubSeq(Seq,F(xiàn)romFraNo,SmiLod,SmiSco,S)輸入Smi微笑區(qū)域FromFraNo子序列中第一幀的數(shù)字SmiLod微笑裝入SmiSco微笑計(jì)分S先前的S區(qū)域輸出S新的更新的S區(qū)域TotSegErr與分段有關(guān)的總誤差nSegFra用于估計(jì)分段的幀的數(shù)量非正式描述采用各種試探技術(shù)來改進(jìn)將參考圖像分裂為分開的完全子的方法檢查在新分裂下提取新的微笑或著色因子的難易程度返回最佳結(jié)果方法重復(fù)TestFraNo=FromFraNo重復(fù)IN=Seq(TestFraNo)
Smi=SmiSco(TestFraNo)*SmiLod如果必要,將一個(gè)完全子一分為二對(duì)于S中的每個(gè)完全子計(jì)算來自完全子的Smi的點(diǎn)頭矩陣如果點(diǎn)頭矩陣與像素之間誤差之和較大沿誤差的主分量分裂每個(gè)完全子如果必要,將兩個(gè)完全子合二為一對(duì)于S中的每個(gè)完全子如果點(diǎn)頭矩陣與另一個(gè)完全子的點(diǎn)頭矩陣相似兩個(gè)完全子合二為一讓擬合較差的邊緣像素改變完全子INRec=Move(IRef+BluSco*BluLod,SmiSco*SmiLod)對(duì)于完全子邊緣上的INRec內(nèi)的位置v,h處的每個(gè)像素如果像素與鄰近的完全子擬合得更好,讓像素屬于鄰近的完全子提取不屬于任何完全子的像素VisInFromAtTo=AnalyseMove(Smi)從VisInFromAtTo(像素)<閾值的像素中提取新的完全子TestFraNo=TestFraNo+1直到SmiSco(TestFraNo)不為早先執(zhí)行的ExtractSmi-FactSubSeq所用直到收斂[NewSmiLod,nSmiFra,TotSmiErr]=ExtractSmiFactSubSeq(Se-q,F(xiàn)romFraNo,TestErrTol,SmiLod,BluLod,SmiSco,BluSco)[NewBluLod,nBluFra,TotBluErr]=ExtractBluFactSubSeq(Se-q,F(xiàn)romFraNo,TestErrTol,SmiLod,BluLod,SmiSco,BluSco)
如果微笑比著色“更好”TotSegErr=TotSmiErrnSegFra=nBluFra否則TotSegErr=TotBluErrnSegFra=nBluFra結(jié)束SegSubSeq方法
7AllocateHolon用途SegSubSeq需要改變完全子的空間定義。這里是一個(gè)所需操作的例子,即將一個(gè)SegSubSeq分配給參考圖像中的新完全子。[S,SmiLod,BluLod,SmiSco,BluSco]=AllocateHolon(S,SNewHol-on,Smi,SmiLod,BluLod,SmiSco,BluSco)輸入S更新前舊的S區(qū)域SNewHolon一個(gè)以上新完全子的S區(qū)域輸出S新更新的S區(qū)域方法對(duì)于S中的每個(gè)新的完全子如果需要增加S的大小,這在S中尋找足夠的自由空間尋找到自由的完全子數(shù)字,將其放入S中每個(gè)新像素的位置將SNewHolon的像素放入新的空間給予新的完全子一個(gè)新的能將完全子從新參考位置移回上一次位置的微笑因子對(duì)計(jì)分表重新格式化
8MoveBack用途將圖像內(nèi)容移回,例如從N到M位置或從M到參考位置。這是移動(dòng)的逆動(dòng)作。
IBack=MoveBack(IOut,SmiBack,SOut)輸入IOut輸入移出位置的圖像,例如IMSmiBack回復(fù)位置的微笑區(qū)域,例如RefSBack回復(fù)位置的S區(qū)域輸出IBack移回的圖像,例如移回到參考位置方法對(duì)于Sback中位置v,h處的每個(gè)像素采用兩路線性內(nèi)插來進(jìn)行內(nèi)插,來自包圍子像素位置(v+SmiV〔v,h〕,h+SmiH〔v,h〕)的IOut中的四個(gè)像素的IBack〔v,h〕
9AnalyseMove用途確定微笑區(qū)域的特征對(duì)于起始圖像中的每個(gè)像素在目的圖像中是否可見 對(duì)于目的圖像中的每個(gè)像素在起始圖像中是否可見 [VisInToAtFrom,VisInFromAtTo]=AnalyseMove(SmiFrom,SFrom)輸入SmiFrom起始位置內(nèi)待分析的微笑區(qū)域SFrom起始位置內(nèi)的S區(qū)域輸出VisInToAtFrom位于起始位置的目的圖像內(nèi)的可見性對(duì)于起始圖像內(nèi)的每個(gè)像素如果目的圖像中的相應(yīng)像素是可見的,則為1否則為0VisInFromAtTo位于目的位置的起始圖像內(nèi)的可見性對(duì)于目的圖像內(nèi)的每個(gè)像素如果起始圖像中的相應(yīng)像素是可見的,則為1否則為0方法產(chǎn)生VisInFromAtTo將VisTo初始化為零對(duì)于SmiFrom中v,h位置上的每個(gè)像素VisInFromAtTo〔int(v+SmiV〔v,h〕),int(h+SmiH〔v,h〕)〕=1
對(duì)于VisInFromAtTo中v,h位置上的每個(gè)像素用其本身的主要值和鄰近值代替VisInFromAtTo〔v,h〕產(chǎn)生VisInFromAtTo〔Dummy2,SmiRet〕=Move(Dummy1,Smi)將VisFrom初始化為零對(duì)于SmiRet中v,h位置上的每個(gè)像素VisInToAtFrom〔int(v+SmiRetV〔v,h〕),int(h+SmiRetH〔v,h〕)〕=1對(duì)于VisInToAtFrom中v,h位置上的每個(gè)像素用其本身的主要值和鄰近值代替VisInToAtFrom〔v,h〕10其它要求的方法10.1移動(dòng)用途按照微笑區(qū)域移動(dòng)圖像的內(nèi)容〔IMoved,Ret〕=Move(IFrom,Smi,S)10.2 EstMov用途結(jié)合估計(jì)的確定程度估計(jì)一幀到另一幀的運(yùn)動(dòng)〔Smi,SmiConf〕=EstMov(Ifrom,ITo)輸入Ifrom起始圖像ITo目的圖像輸出Smi微笑區(qū)域SmiConf微笑信心確認(rèn)Smi的程度方法例如《Optic Flow Computation,A Unified Perspective》,AjitSingh,IEEE Computer Socitey Press 1991,ISBN0—8186—2602,在該文中所用術(shù)語“光學(xué)流區(qū)域”在很多地方與微笑區(qū)域相似。
10.3 Smi2Nod用途計(jì)算來自微笑區(qū)域的點(diǎn)頭矩陣NodMat=Smi2Nod(Smi,S)10.4更新模型〔NewLod,NewSco〕=UpdateModel(oldLod,OldSco,NewDa-ta)10.5傳送用途使計(jì)算數(shù)據(jù)可以為譯碼器使用從而對(duì)序列譯碼傳送(數(shù)據(jù))
方法如果數(shù)據(jù)是空間裝入采用常規(guī)靜止圖像壓縮技術(shù)壓縮數(shù)據(jù)否則如果數(shù)據(jù)是S區(qū)域上的更新采用執(zhí)行長度編碼壓縮數(shù)據(jù)否則如果數(shù)據(jù)代表計(jì)分采用時(shí)間序列壓縮技術(shù)壓縮數(shù)據(jù)經(jīng)過選定的通信介質(zhì)向接收器發(fā)送數(shù)據(jù)附錄記號(hào)=(等號(hào))符號(hào)左邊是待計(jì)算的表達(dá)式,而右邊是結(jié)果。
如果左邊的表達(dá)式有幾種輸出結(jié)果,則右邊采用括號(hào)將一系列的結(jié)果括起來。
()(括號(hào))標(biāo)識(shí)符后面的括號(hào)表明標(biāo)識(shí)符是一個(gè)待計(jì)算數(shù)值的函數(shù),括號(hào)內(nèi)的標(biāo)識(shí)符標(biāo)識(shí)作為函數(shù)輸入?yún)?shù)的變量或結(jié)果。
〔〕(方括號(hào))方括號(hào)的一個(gè)用途在等號(hào)的定義時(shí)已經(jīng)給出。
它的另一個(gè)用途是指示序號(hào)當(dāng)標(biāo)識(shí)符后出現(xiàn)一對(duì)方括號(hào)時(shí),這意味著標(biāo)識(shí)符作為數(shù)值矩陣列陣,并且方括號(hào)內(nèi)的表達(dá)式選擇其中一個(gè)值。
命名采用助記名是“Smi”代替微笑的“DA”“Blu”代替著色的“DI”“Lod”標(biāo)識(shí)裝入“Sco”代替計(jì)分的“U”前后綴代替下標(biāo),不用粗體字,例如“SmiMToN”代替Damn。
權(quán)利要求
1.一種用于將輸入信號(hào)的樣本轉(zhuǎn)換為由多個(gè)分量信號(hào)構(gòu)成的編碼信號(hào)的方法,每個(gè)所述分量信號(hào)都代表了所述輸入信號(hào)在不同域上的特性,所述輸入信號(hào)由組織成多個(gè)樣本記錄形式的數(shù)據(jù)樣本組成,每個(gè)樣本在其記錄中占據(jù)唯一的位置,其特征在于,每個(gè)所述分量信號(hào)以多個(gè)因子組合的形式構(gòu)成,每個(gè)所述因子是計(jì)分(score)信號(hào)與裝入(load)信號(hào)的乘積,所述計(jì)分信號(hào)定義了記錄之間數(shù)據(jù)樣本的差異而所述裝入信號(hào)定義了記錄的不同位置上的樣本子組的相對(duì)變化。
2.如權(quán)利要求1所述的方法,其特征在于,提供了代表樣本參考模式的參考分量信號(hào)數(shù)值組,并且在每個(gè)記錄中用每個(gè)記錄的多個(gè)分量變化信號(hào)數(shù)值表示輸入信號(hào),每個(gè)所述分量變化信號(hào)等于樣本的參考模式與記錄之間的差值。
3.如權(quán)利要求2所述的方法,其特征在于,每個(gè)記錄包含相同數(shù)量的排列于多維列陣內(nèi)的樣本,第一個(gè)所述分量信號(hào)表示樣本的大小而第二個(gè)所述分量信號(hào)表示樣本在列陣中的位置。
4.如權(quán)利要求3所述的方法,其特征在于,分量變化信號(hào)可以使得參考圖像的幾個(gè)像素映射到其中一幀的共同像素上,共同像素的密度等于幾個(gè)像素密度帶權(quán)重的總和。
5.如權(quán)利要求1所述的方法,其特征在于,選擇一組裝入信號(hào)和一組計(jì)分信號(hào)組中至少一組信號(hào)用于每個(gè)分量信號(hào)以統(tǒng)計(jì)地表示所有記錄內(nèi)相應(yīng)特性的變化。
6.如權(quán)利要求3所述的方法,其特征在于,選擇因子的數(shù)量和精度從而使所需存儲(chǔ)空間不超出預(yù)定的范圍。
7.如權(quán)利要求3所述的方法,其特征在于,進(jìn)一步提供多個(gè)對(duì)應(yīng)分量信號(hào)的誤差信號(hào),所述每個(gè)誤差信號(hào)在相應(yīng)的分量信號(hào)不代表預(yù)定范圍內(nèi)輸入信號(hào)的相應(yīng)特征時(shí)提供一定程度的校正。
8.如權(quán)利要求7所述的方法,其特征在于,選擇因子的數(shù)量和精度以獲得低于預(yù)定閾值的誤差信號(hào)。
9.如權(quán)利要求8所述的方法,其特征在于,選擇因子的數(shù)量和精度從而使所需存儲(chǔ)空間不超出預(yù)定的范圍。
10.如權(quán)利要求1所述的方法,其特征在于,進(jìn)一步提供多個(gè)對(duì)應(yīng)分量信號(hào)的誤差信號(hào),所述每個(gè)誤差信號(hào)在相應(yīng)的分量信號(hào)不代表預(yù)定范圍內(nèi)輸入信號(hào)的相應(yīng)特征時(shí)提供一定程度的校正。
11.如權(quán)利要求10所述的方法,其特征在于,提供了代表樣本參考模式的參考分量信號(hào)數(shù)值組,并且在每個(gè)記錄中用每個(gè)記錄的多個(gè)分量變化信號(hào)數(shù)值表示輸入信號(hào),每個(gè)所述分量變化信號(hào)等于樣本的參考模式與記錄之間的差值。
12.如權(quán)利要求1所述的方法,其特征在于,每個(gè)記錄包含相同數(shù)量的排列于多維列陣內(nèi)的樣本,第一個(gè)所述分量信號(hào)表示樣本的大小而第二個(gè)所述分量信號(hào)表示樣本在列陣中的位置。
13.如權(quán)利要求12所述的方法,其特征在于,分量變化信號(hào)可以使得參考圖像的幾個(gè)像素映射到其中一幀的共同像素上,共同像素的密度等于幾個(gè)像素密度帶權(quán)重的總和。
14.如權(quán)利要求12所述的方法,其特征在于,輸入信號(hào)是普通的視頻信號(hào),每個(gè)樣本是視頻圖像的一個(gè)像素,每個(gè)記錄是一幅視頻幀,所述第一個(gè)分量信號(hào)代表像素密度而所述第二個(gè)分量信號(hào)代表像素在幀內(nèi)的位置。
15.如權(quán)利要求14所述的方法,其特征在于,進(jìn)一步提供多個(gè)對(duì)應(yīng)分量信號(hào)的誤差信號(hào),所述每個(gè)誤差信號(hào)在相應(yīng)的分量信號(hào)不代表預(yù)定范圍內(nèi)輸入信號(hào)的相應(yīng)特征時(shí)提供一定程度的校正。
16.如權(quán)利要求15所述的方法,其特征在于,提供了代表樣本參考模式的參考分量信號(hào)數(shù)值組,并且在每個(gè)記錄中用每個(gè)記錄的多個(gè)分量變化信號(hào)數(shù)值表示輸入信號(hào),每個(gè)所述分量變化信號(hào)等于樣本的參考模式與記錄之間的差值。
17.如權(quán)利要求16所述的方法,其特征在于,分量變化信號(hào)可以使得參考圖像的幾個(gè)像素映射到其中一幀的共同像素上,共同像素的密度等于幾個(gè)像素密度帶權(quán)重的總和。
18.如權(quán)利要求16所述的方法,其特征在于,分量變化信號(hào)可以使得參考圖像的幾個(gè)像素映射到其中一幀的共同像素上,共同像素的密度等于一個(gè)常數(shù)與幾個(gè)像素的密度之和的差值。
19.如權(quán)利要求16所述的方法,其特征在于,分量變化信號(hào)可以使得參考圖像的幾個(gè)像素映射到其中一幀的共同像素上,所述方法進(jìn)一步包括對(duì)幾個(gè)像素的每一個(gè)都定義深度,共同像素的密度等于幾個(gè)像素中深度最淺的那一個(gè)像素的密度。
20.如權(quán)利要求19所述的方法,其特征在于,像素深度定義為由第三分量信號(hào)表示的分開的域。
21.如權(quán)利要求16所述的方法,其特征在于,提供帶有完全子(holon)集的參考圖像,完全子集包含所有輸入信號(hào)幀內(nèi)看上去不同的各個(gè)完全子。
22.如權(quán)利要求21所述的方法,其特征在于,參考圖像內(nèi)像素的位置用第一坐標(biāo)系表示,而至少其中一個(gè)完全子內(nèi)像素的位置用不同的坐標(biāo)系表示。
23.如權(quán)利要求21所述的方法,其特征在于,不同完全子內(nèi)像素的位置用不同的坐標(biāo)系表示。
24.如權(quán)利要求21所述的方法,其特征在于,完全子包含一組顯示至少一個(gè)域上坐標(biāo)方式的像素,并且至少有一個(gè)分量信號(hào)的裝入信號(hào)和計(jì)分信號(hào)的至少一個(gè)只在所述像素組上操作。
25.用于權(quán)利要求2所述方法中的產(chǎn)生一組裝入和計(jì)分的方法,其特征在于包含以下步驟a.將多個(gè)分量變化信號(hào)數(shù)值確定為每個(gè)記錄與樣本參考模式之間的差值;b.在多個(gè)分量變化信號(hào)數(shù)值上進(jìn)行主分量分析以提取多個(gè)裝入;c.將多個(gè)分量變化信號(hào)數(shù)值投射到多個(gè)裝入上以產(chǎn)生一組用于產(chǎn)生逼近記錄的多個(gè)裝入的計(jì)分;d.確定每個(gè)逼近記錄與每個(gè)記錄之間的差值;e.重復(fù)步驟c和d直到每個(gè)逼近記錄與每個(gè)記錄之間的差值小于預(yù)定值。
26.用于權(quán)利要求25所述方法中的產(chǎn)生一組裝入和計(jì)分信號(hào)的方法,其特征在于,主分量分析是一種帶權(quán)重的主分量分析。
27.用于權(quán)利要求16所述方法中的產(chǎn)生一組裝入和計(jì)分信號(hào)的方法,其特征在于進(jìn)一步包括的步驟是,擴(kuò)展該組參考分量信號(hào)以包含附加的分量信號(hào)。
28.一種用于將由不同域上多個(gè)分量信號(hào)組成的編碼信號(hào)譯碼為由組織為多個(gè)樣本記錄的數(shù)據(jù)樣本組成的輸入信號(hào)的方法,每個(gè)樣本占據(jù)記錄中唯一的位置,所述方法的特征在于,所述編碼信號(hào)表示為多個(gè)因子的組合,每個(gè)因子是計(jì)分信號(hào)與裝入信號(hào)的乘積,所述計(jì)分信號(hào)定義了記錄之間數(shù)據(jù)樣本的差異而所述裝入信號(hào)定義了記錄的不同位置上的樣本子組的相對(duì)變化,利用樣本的參考模式,包含以下步驟a.將每個(gè)裝入信號(hào)與有關(guān)的計(jì)分信號(hào)相乘以產(chǎn)生每個(gè)因子;b.將步驟a產(chǎn)生的因子結(jié)合起來;c.按照步驟b產(chǎn)生的組合因子修改參考分量信號(hào)數(shù)值組以產(chǎn)生復(fù)制的輸入信號(hào)的記錄。
29.如權(quán)利要求28所述的對(duì)編碼信號(hào)譯碼的方法,其特征在于,在存儲(chǔ)介質(zhì)上至少提供裝入信號(hào)和計(jì)分信號(hào)中的一個(gè)。
30.如權(quán)利要求28所述的對(duì)編碼信號(hào)譯碼的方法,其特征在于,在存儲(chǔ)介質(zhì)上提供參考分量信號(hào)數(shù)值。
31.如權(quán)利要求28所述的對(duì)編碼信號(hào)譯碼的方法,其特征在于,所述方法進(jìn)一步包括的步驟是,經(jīng)通信介質(zhì)從遠(yuǎn)地位置接收裝入信號(hào)和計(jì)分信號(hào)中的至少一個(gè)。
32.如權(quán)利要求31所述的方法,其特征在于,參考分量信號(hào)數(shù)值也經(jīng)通信介質(zhì)接收。
33.一種用于將由不同域上多個(gè)分量信號(hào)組成的編碼信號(hào)編輯為由組織為多個(gè)樣本記錄的數(shù)據(jù)樣本組成的輸入信號(hào)的方法,每個(gè)樣本占據(jù)記錄中唯一的位置,所述方法的特征在于,所述編碼信號(hào)表示為多個(gè)因子的組合,每個(gè)因子是計(jì)分信號(hào)與裝入信號(hào)的乘積,所述計(jì)分信號(hào)定義了記錄之間數(shù)據(jù)樣本的差異而所述裝入信號(hào)定義了記錄的不同位置上的樣本子組的相對(duì)變化,利用了樣本的參考模式,包含以下步驟a.修改至少一個(gè)計(jì)分信號(hào)以進(jìn)行所需的編輯;b.將每個(gè)裝入信號(hào)與相關(guān)的經(jīng)過修改的計(jì)分信號(hào)相乘以產(chǎn)生每個(gè)因子;c.將步驟a產(chǎn)生的因子組合起來;d.按照步驟b產(chǎn)生的組合因子修改參考分量信號(hào)數(shù)值組以產(chǎn)生復(fù)制的輸入信號(hào)的記錄。
34.一種用于將輸入信號(hào)的樣本轉(zhuǎn)換為由多個(gè)分量信號(hào)構(gòu)成的編碼信號(hào)的裝置,每個(gè)所述分量信號(hào)都代表了所述輸入信號(hào)在不同域上的特性,所述輸入信號(hào)由組織成多個(gè)樣本記錄形式的數(shù)據(jù)樣本組成,每個(gè)樣本在其記錄中占據(jù)唯一的位置,其特征在于,所述裝置包含將每個(gè)記錄編碼為一種組合形式的裝置,每個(gè)分量信號(hào)由多個(gè)因子組成,每個(gè)所述因子是計(jì)分信號(hào)與裝入信號(hào)的乘積,所述計(jì)分信號(hào)定義了記錄之間數(shù)據(jù)樣本的差異而所述裝入信號(hào)定義了記錄的不同位置上的樣本子組的相對(duì)變化。
35.如權(quán)利要求34所述的裝置,其特征在于進(jìn)一步包含用于產(chǎn)生代表樣本參考模式的一組參考分量信號(hào)數(shù)值的裝置、用于向每個(gè)記錄產(chǎn)生多個(gè)代表輸入信號(hào)的分量變化信號(hào)數(shù)值的裝置,每個(gè)所述分量變化信號(hào)等于樣本的參考模式與記錄之間的差值。
36.如權(quán)利要求35所述的裝置,其特征在于,每個(gè)記錄包含相同數(shù)量的排列于多維列陣內(nèi)的樣本,第一個(gè)所述分量信號(hào)表示樣本的大小而第二個(gè)所述分量信號(hào)表示樣本在列陣中的位置。
37.如權(quán)利要求36所述的裝置,其特征在于,分量變化信號(hào)可以使得參考圖像的幾個(gè)像素映射到其中一幀的共同像素上,所述裝置進(jìn)一步包含用于使共同像素的密度等于幾個(gè)像素密度帶權(quán)重的總和的裝置。
38.如權(quán)利要求36所述的裝置,其特征在于進(jìn)一步包含用于提供多個(gè)對(duì)應(yīng)分量信號(hào)的誤差信號(hào)的裝置,所述每個(gè)誤差信號(hào)在相應(yīng)的分量信號(hào)不代表預(yù)定范圍內(nèi)輸入信號(hào)的相應(yīng)特征時(shí)提供一定程度的校正。
39.如權(quán)利要求34所述的裝置,其特征在于進(jìn)一步包含用于提供多個(gè)對(duì)應(yīng)分量信號(hào)的誤差信號(hào)的裝置,所述每個(gè)誤差信號(hào)在相應(yīng)的分量信號(hào)不代表預(yù)定范圍內(nèi)輸入信號(hào)的相應(yīng)特征時(shí)提供一定程度的校正。
40.如權(quán)利要求34所述的裝置,其特征在于進(jìn)一步包含用于產(chǎn)生代表樣本參考模式的一組參考分量信號(hào)數(shù)值的裝置、用于向每個(gè)記錄產(chǎn)生多個(gè)代表輸入信號(hào)的分量變化信號(hào)數(shù)值的裝置,每個(gè)所述分量變化信號(hào)等于樣本的參考模式與記錄之間的差值。
41.如權(quán)利要求34所述的裝置,其特征在于,每個(gè)記錄包含相同數(shù)量的排列于多維列陣內(nèi)的樣本,所述用于編碼的裝置使第一個(gè)所述分量信號(hào)表示樣本的大小而第二個(gè)所述分量信號(hào)表示樣本在列陣中的位置。
42.如權(quán)利要求41所述的裝置,其特征在于,輸入信號(hào)是普通的視頻信號(hào),每個(gè)樣本是視頻圖像的一個(gè)像素,每個(gè)記錄是一幅視頻幀,所述第一個(gè)分量信號(hào)代表像素密度而所述第二個(gè)分量信號(hào)代表像素在幀內(nèi)的位置。
43.如權(quán)利要求42所述的裝置,其特征在于進(jìn)一步包含用于產(chǎn)生代表樣本參考模式的一組參考分量信號(hào)數(shù)值的裝置、用于向每個(gè)記錄產(chǎn)生多個(gè)代表輸入信號(hào)的分量變化信號(hào)數(shù)值的裝置,每個(gè)所述分量變化信號(hào)等于樣本的參考模式與記錄之間的差值。
44.如權(quán)利要求43所述的裝置,其特征在于,分量變化信號(hào)可以使得參考圖像的幾個(gè)像素映射到其中一幀的共同像素上,共同像素的密度等于幾個(gè)像素密度帶權(quán)重的總和。
45.如權(quán)利要求43所述的裝置,其特征在于,分量變化信號(hào)可以使得參考圖像的幾個(gè)像素映射到其中一幀的共同像素上,所述裝置進(jìn)一步包括用于控制共同像素的密度使其等于一個(gè)常數(shù)與幾個(gè)像素的密度之和的差值。
46.如權(quán)利要求43所述的裝置,其特征在于,分量變化信號(hào)可以使得參考圖像的幾個(gè)像素映射到其中一幀的共同像素上,所述裝置進(jìn)一步包括用于對(duì)幾個(gè)像素的每一個(gè)都定義深度的裝置和用于控制共同像素的密度使其等于幾個(gè)像素中深度最淺的那一個(gè)像素的密度的裝置。
47.如權(quán)利要求43所述的裝置,其特征在于,參考圖像包括一個(gè)完全子集,完全子集包含所有輸入信號(hào)幀內(nèi)看上去不同的各個(gè)完全子。
48.如權(quán)利要求47所述的裝置,其特征在于,完全子包含一組顯示至少一個(gè)域上坐標(biāo)方式的像素,并且所述用于編碼的裝置產(chǎn)生只在所述像素組上操作的至少一個(gè)分量信號(hào)的裝入信號(hào)和計(jì)分信號(hào)中的至少一個(gè)。
49.一種用于將由不同域上多個(gè)分量信號(hào)組成的編碼信號(hào)譯碼為由組織為多個(gè)樣本記錄的數(shù)據(jù)樣本組成的輸入信號(hào)的裝置,每個(gè)樣本占據(jù)記錄中唯一的位置,所述裝置的特征在于,所述編碼信號(hào)表示為多個(gè)因子的組合,每個(gè)因子是計(jì)分信號(hào)與裝入信號(hào)的乘積,所述計(jì)分信號(hào)定義了記錄之間數(shù)據(jù)樣本的差異而所述裝入信號(hào)定義了記錄的不同位置上的樣本子組的相對(duì)變化,利用樣本的參考模式,包含a.用于將每個(gè)裝入信號(hào)與有關(guān)的計(jì)分信號(hào)相乘以產(chǎn)生每個(gè)因子的裝置;b.用于將步驟a產(chǎn)生的因子結(jié)合起來的裝置;c.用于按照步驟b產(chǎn)生的組合因子修改參考分量信號(hào)數(shù)值組以產(chǎn)生復(fù)制的輸入信號(hào)的記錄的裝置。
50.如權(quán)利要求49所述的裝置,其特征在于包括存儲(chǔ)裝入信號(hào)和計(jì)分信號(hào)中至少一個(gè)的存儲(chǔ)介質(zhì)。
51.如權(quán)利要求49所述的裝置,其特征在于,所述存儲(chǔ)介質(zhì)還包含參考分量信號(hào)數(shù)值。
52.如權(quán)利要求49所述的裝置,其特征在于進(jìn)一步包含用于經(jīng)通信介質(zhì)從遠(yuǎn)地位置接收裝入信號(hào)和計(jì)分信號(hào)中的至少一個(gè)的裝置。
53.如權(quán)利要求52所述的裝置,其特征在于,所述參考分量信號(hào)數(shù)值也經(jīng)通信介質(zhì)接收。
54.一種用于將由不同域上多個(gè)分量信號(hào)組成的編碼信號(hào)編輯為由組織為多個(gè)樣本記錄的數(shù)據(jù)樣本組成的輸入信號(hào)的裝置,每個(gè)樣本占據(jù)記錄中唯一的位置,所述裝置的特征在于,所述編碼信號(hào)表示為多個(gè)因子的組合,每個(gè)因子是計(jì)分信號(hào)與裝入信號(hào)的乘積,所述計(jì)分信號(hào)定義了記錄之間數(shù)據(jù)樣本的差異而所述裝入信號(hào)定義了記錄的不同位置上的樣本子組的相對(duì)變化,利用樣本的參考模式,包含a.用于修改至少一個(gè)計(jì)分信號(hào)以完成所需編輯的裝置;b.用于將每個(gè)裝入信號(hào)與相關(guān)的經(jīng)過修改的計(jì)分信號(hào)相乘以產(chǎn)生每個(gè)因子的裝置;c.用于將步驟a產(chǎn)生的因子組合起來的裝置;d.用于按照步驟b產(chǎn)生的組合因子修改參考分量信號(hào)數(shù)值組以產(chǎn)生復(fù)制的輸入信號(hào)的記錄的裝置。
55.一種系統(tǒng),其特征在于,包含讀取裝置和包含數(shù)據(jù)并且適合于按照權(quán)利要求28—32中任意一項(xiàng)所述方法譯碼的數(shù)據(jù)攜帶器。
56.一種系統(tǒng),其特征在于,包含記錄裝置和包含由按照權(quán)利要求1-28中任意一項(xiàng)所述方法產(chǎn)生的編碼信號(hào)的數(shù)據(jù)攜帶器。
57.一種系統(tǒng),其特征在于,包含讀取裝置和包含數(shù)據(jù)并且適合于按照權(quán)利要求49—53中任意一種所述裝置譯碼的數(shù)據(jù)攜帶器。
58.一種系統(tǒng),其特征在于,包含記錄裝置和包含由按照權(quán)利要求34—48中任意一種所述裝置產(chǎn)生的編碼信號(hào)的數(shù)據(jù)攜帶器。
59.一種包含記錄裝置、數(shù)據(jù)攜帶器和讀取裝置的系統(tǒng),其特征在于,數(shù)據(jù)攜帶器包含由按照權(quán)利要求1—28中任意一項(xiàng)所述方法產(chǎn)生并適合于按照權(quán)利要求28—32中任意一種所述方法譯碼的編碼信號(hào)。
60.一種包含記錄裝置、數(shù)據(jù)攜帶器和讀取裝置的系統(tǒng),其特征在于,數(shù)據(jù)攜帶器包含由按照權(quán)利要求34—48中任意一種所述裝置產(chǎn)生并適合于按照權(quán)利要求49—53中任意一種所述裝置讀取的編碼信號(hào)。
61.一種包含記錄于其上并適合于按照權(quán)利要求28—32中任意一種所述方法譯碼的數(shù)據(jù)攜帶器。
62.一種包含由按照權(quán)利要求1—28中任意一項(xiàng)所述方法產(chǎn)生的編碼信號(hào)的數(shù)據(jù)攜帶器。
63.一種產(chǎn)生包含由按照權(quán)利要求1—28中任意一項(xiàng)所述方法產(chǎn)生的編碼信號(hào)的發(fā)送信號(hào)的裝置。
64.由按照權(quán)利要求1—28中任意一項(xiàng)所述方法產(chǎn)生的編碼信號(hào)提供于存儲(chǔ)介質(zhì)和發(fā)送介質(zhì)其中一個(gè)之上。
全文摘要
本發(fā)明提供了一種用于在輸入信號(hào)的樣本與多個(gè)分量信號(hào)組成的編碼信號(hào)之間提供轉(zhuǎn)換的方法和裝置。所述輸入信號(hào)由組織成多個(gè)樣本記錄形式的數(shù)據(jù)樣本組成,每個(gè)樣本在其記錄中占據(jù)唯一的位置。每個(gè)所述分量信號(hào)以多個(gè)因子組合的形式構(gòu)成,每個(gè)所述因子是計(jì)分(score)信號(hào)與裝入(load)信號(hào)的乘積,所述計(jì)分信號(hào)定義了記錄之間數(shù)據(jù)樣本的差異而所述裝入信號(hào)定義了記錄的不同位置上的樣本子組的相對(duì)變化。
文檔編號(hào)H04N7/36GK1130969SQ94193325
公開日1996年9月11日 申請(qǐng)日期1994年9月8日 優(yōu)先權(quán)日1993年9月8日
發(fā)明者H·A·馬蒂斯, J·O·瑞博格 申請(qǐng)人:Idt股份有限公司