專利名稱:編碼視頻信號的方法
技術領域:
本發(fā)明涉及編碼視頻信號的方法;特別地但是不排他地,本發(fā)明涉及一種編碼視頻信號的方法,其利用圖像分段以便將視頻圖像細分為相應的分段,并且將隨機紋理模型應用于所選擇的分段的子組以便產生已編碼的和/或已壓縮的視頻數(shù)據(jù)。另外,本發(fā)明還涉及解碼根據(jù)本發(fā)明編碼的視頻信號的方法。此外,本發(fā)明還涉及根據(jù)上述一種或多種方法操作的編碼器、解碼器和編碼/解碼系統(tǒng)。另外,本發(fā)明還涉及承載由根據(jù)本發(fā)明的上述編碼視頻數(shù)據(jù)的方法產生的編碼數(shù)據(jù)的數(shù)據(jù)載體。
背景技術:
編碼及相應地解碼圖像信息的方法已經是多年公知的了。這樣的方法在DVD、移動電話數(shù)字圖像傳輸、數(shù)字有線電視和數(shù)字衛(wèi)星電視領域中是很重要的。因此,存在多種編碼及相應的解碼技術,它們中的一些已經成為國際上承認的標準(諸如MPEG-2)。
最近幾年,新的國際電信聯(lián)盟(ITU)標準(也就是ITU-T標準)已經出現(xiàn)了,該新的標準被稱為H.26L。由于與同時代建立的相應標準相比能夠提供較高的編碼效率,因此該新標準現(xiàn)在已經被廣泛地承認。在最近的評估中已經證明,與早先的同時代建立的圖像編碼標準相比,新的H.26L標準能夠以大約少50%的編碼數(shù)據(jù)比特達到可比較的信噪比(S/N)。
雖然由新標準H.26L所提供的優(yōu)勢通常與圖像圖片尺寸(也就是其中的圖像像素的數(shù)量)成比例地降低,但是在多種應用中采用新標準H.26L的潛力還是毫無疑問的。這樣的潛力已經通過聯(lián)合視頻組(JVT)的形成而被確認了,聯(lián)合視頻組(JVT)的責任是把將由ITU-T采用的標準H.26L發(fā)展為新的聯(lián)合ITU-T/MPEG標準。該新標準預計在2003年作為ITU-T H.264或ISO/IEC MPEG-4AVC被正式認可;這里的“AVC”是“高級視頻編碼”的縮寫。目前,H.264標準也被其它的標準化團體考慮,例如“DVB和DVD論壇”。此外,H.264編碼器和解碼器的軟件和硬件實施也正變得可用。
此外還已經知道其它形式的視頻編碼和解碼。例如,在美國專利第5,917,609號中描述了一種混合的波形和基于模型的圖像信號編碼器和相應的解碼器。在該編碼器和相應的解碼器中,原始圖像信號被波形編碼以及解碼,以便在壓縮后盡可能接近原始信號的波形。為了補償其損失,信號的噪聲分量(也就是由于波形編碼而損失的信號分量)被基于模型地編碼并被分開傳送或存儲。在解碼器中,噪聲被再生并且被添加到經過波形解碼的圖像信號上。在該美國專利第5,917,609號中說明的編碼器和解碼器尤其與醫(yī)學X射線血管造影術圖像的壓縮有關,在該壓縮中的噪聲損失導致心臟科醫(yī)師或放射科醫(yī)師推斷出相應的圖像是失真的。然而,所描述的編碼器和相應的解碼器應被看作是專家的實現(xiàn)方式,其不必遵循任何已建立的或新興的圖像編碼和相應的解碼標準。
視頻壓縮的目的是減少被分配來表示給定可視信息的比特數(shù)量。通過使用諸如余弦變換、分形或小波之類的各種變換,已經發(fā)現(xiàn)有可能識別出可以用來表示視頻信號的新的、更有效的方法。然而,本發(fā)明的發(fā)明人已經意識到存在兩種表示視頻信號的方法,也就是確定性的方法和隨機的方法。圖像中的紋理適于隨機地表示,并且可以通過找到最相象的噪聲模型來實施。對于視頻圖像的一些區(qū)域,人類視覺不集中在填充所述區(qū)域的精確圖案細節(jié)上;相反,視覺更多地集中在紋理的某些非確定性的方向性特征上。對于紋理的常規(guī)的隨機描述(例如在醫(yī)學圖像處理應用中以及在氣象學中的衛(wèi)星圖像處理應用中)已經集中在對清晰的隨機特性的圖像壓縮上,例如云的形成。
本發(fā)明的發(fā)明人已經意識到,同時代的編碼方案(例如H.264標準、MPEG-2標準、MPEG-4標準)以及新的視頻壓縮方案(諸如結構化的和/或分層的視頻)不能產生如技術上可行的那樣多的數(shù)據(jù)壓縮。特別地,本發(fā)明的發(fā)明人已經意識到,視頻數(shù)據(jù)中的圖像的一些區(qū)域適于由編碼視頻數(shù)據(jù)中的隨機紋理模型來描述,尤其是那些具有類似于空間噪聲的外觀的圖像部分。此外,本發(fā)明的發(fā)明人已經意識到,優(yōu)選地利用運動補償和深度分布(depth profile)來確保在對已編碼視頻數(shù)據(jù)的隨后的解碼期間、人工產生的紋理被有說服力地呈現(xiàn)在已解碼視頻數(shù)據(jù)中。此外,本發(fā)明的發(fā)明人已經意識到,他們的方法適于應用在基于分段的視頻編碼情境中。
從而,本發(fā)明的發(fā)明人已經解決了在視頻數(shù)據(jù)編碼期間出現(xiàn)的增強數(shù)據(jù)壓縮的問題,同時,在隨后對這樣的已編碼和已壓縮視頻數(shù)據(jù)進行解碼的時候保持了視頻質量。
發(fā)明內容
本發(fā)明的第一個目的是提供一種編碼視頻信號的方法,其能夠在相應于視頻信號的已編碼視頻數(shù)據(jù)中提供更高程度的數(shù)據(jù)壓縮。
本發(fā)明的第二個目的是提供一種空間地模擬視頻數(shù)據(jù)中的隨機圖像紋理的方法。
本發(fā)明的第三個目的是提供一種解碼已經使用參數(shù)編碼的視頻數(shù)據(jù)的方法,所述參數(shù)用來空間地描述其中的隨機圖像內容。
本發(fā)明的第四個目的是提供一種用于編碼輸入視頻信號以便產生相應的具有更高程度的壓縮的已編碼視頻數(shù)據(jù)的編碼器。
本發(fā)明的第五個目的是提供一種用于解碼已經通過隨機紋理模擬從視頻信號編碼的視頻數(shù)據(jù)的解碼器。
根據(jù)本發(fā)明的第一方面,存在一種對包括圖像序列的視頻信號進行編碼以便產生相應的已編碼視頻數(shù)據(jù)的方法,該方法包括以下步驟(a)分析所述圖像以便識別其中的一個或多個圖像分段;(b)識別所述一個或多個分段當中的實質上不是空間隨機特性的那些分段,并且以確定性的方式對其進行編碼以便產生第一已編碼中間數(shù)據(jù);(c)識別所述一個或多個分段當中的實質上是空間隨機特性的那些分段,并且通過一個或多個相應的隨機模型參數(shù)對其進行編碼以便產生第二已編碼中間數(shù)據(jù);以及(d)合并第一和第二中間數(shù)據(jù)以便產生已編碼視頻數(shù)據(jù)。
本發(fā)明的優(yōu)點在于所述編碼方法能夠提供更高程度的數(shù)據(jù)壓縮。
優(yōu)選地,在該方法的步驟(c)中,依賴于在實質上是空間隨機特性的一個或多個分段中出現(xiàn)的時間運動的特征,使用第一或第二編碼例程來編碼所述一個或多個分段,所述第一例程適用于處理其中出現(xiàn)運動的分段,并且所述第二例程適用于處理實質上是時間靜態(tài)的分段。
將對應于具有可觀時間活動性的隨機細節(jié)的區(qū)域與對應于具有相對較小的時間活動性的隨機細節(jié)的區(qū)域進行區(qū)分,從而能夠實現(xiàn)具有相關的增強數(shù)據(jù)壓縮的更高程度的編碼最佳化。
優(yōu)選地,該方法的不同之處還在于(e)在步驟(b)中,使用I幀、B幀和/或P幀來確定性地編碼實質上不是空間隨機特性的所述一個或多個分段,所述I幀包括確定性地描述所述一個或多個分段的紋理分量的信息,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息;以及(f)在步驟(c)中,使用所述模型參數(shù)、B幀和/或P幀來編碼包括紋理分量的實質上是隨機特性的所述一個或多個分段,所述模型參數(shù)描述所述一個或多個分段的紋理,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息。
如前所述,I幀應被解釋為對應于這樣的數(shù)據(jù)字段,所述數(shù)據(jù)字段對應于對一個或多個圖像的至少一部分的空間布局的描述。此外,B幀和P幀應被解釋為對應于描述時間運動和調制深度的數(shù)據(jù)字段。從而,本發(fā)明能夠提供更高程度的壓縮,因為對應于隨機圖像細節(jié)的I幀適于通過隨機模型參數(shù)以更緊致的形式來表示,而不需要例如通過變換編碼在這些I幀中包括對其相關圖像細節(jié)的完整的常規(guī)描述。
根據(jù)本發(fā)明的第二方面,提供一種承載使用根據(jù)本發(fā)明第一方面的方法產生的已編碼視頻數(shù)據(jù)的數(shù)據(jù)載體。
根據(jù)本發(fā)明的第三方面,提供一種對已編碼視頻數(shù)據(jù)進行解碼以便重新產生相應的已解碼視頻信號的方法,該方法包括以下步驟(a)接收已編碼視頻數(shù)據(jù)并且識別其中的一個或多個分段;(b)識別所述一個或多個分段當中的實質上不是空間隨機特性的那些分段,并且以確定性的方式對其進行解碼以便產生第一已解碼中間數(shù)據(jù);(c)識別所述一個或多個分段當中的實質上是空間隨機特性的那些分段,并且通過由模型參數(shù)驅動的一個或多個隨機模型對其進行解碼以便產生第二已解碼中間數(shù)據(jù),所述模型參數(shù)被包括在所述已編碼視頻數(shù)據(jù)輸入中;以及(d)合并該第一和第二中間數(shù)據(jù)以便產生所述已解碼視頻信號。
優(yōu)選地,該方法的不同之處在于在步驟(c)中,依賴于在實質上是空間隨機特性的一個或多個分段中出現(xiàn)的時間運動的特征,使用第一或第二解碼例程來解碼所述一個或多個分段,所述第一例程適用于處理其中出現(xiàn)運動的分段,并且所述第二例程適用于處理其中實質上是時間靜態(tài)的分段。
優(yōu)選地,該方法的不同之處還在于(e)在步驟(b)中,使用I幀、B幀和/或P幀來確定性地解碼實質上不是空間隨機特性的所述一個或多個分段,所述I幀包括確定性地描述所述一個或多個分段的紋理分量的信息,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息;以及(f)在步驟(c)中,使用所述模型參數(shù)、B幀和/或P幀來解碼包括紋理分量的實質上是隨機特性的所述一個或多個分段,所述模型參數(shù)描述所述一個或多個分段的紋理,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息。
根據(jù)本發(fā)明的第四方面,提供一種用于編碼包括圖像序列的視頻信號、以便產生相應的已編碼視頻數(shù)據(jù)的編碼器,該編碼器包括(a)分析裝置,用于分析所述圖像以便識別其中的一個或多個圖像分段;(b)第一識別裝置,用于識別所述一個或多個分段當中的實質上不是空間隨機特性的那些分段,并且以確定性的方式對其進行編碼以便產生第一已編碼中間數(shù)據(jù);(c)第二識別裝置,用于識別所述一個或多個分段當中的實質上是空間隨機特性的那些分段,并且通過一個或多個相應的隨機模型參數(shù)對其進行編碼,以便產生第二已編碼中間數(shù)據(jù);以及(d)數(shù)據(jù)合并裝置,用于合并該第一和第二中間數(shù)據(jù)以便產生所述已編碼視頻數(shù)據(jù)。
優(yōu)選地,在該編碼器中,該第二識別裝置適于依賴于在實質上是空間隨機特性的一個或多個分段中出現(xiàn)的時間運動的特征、使用第一或第二編碼例程來編碼所述一個或多個分段,所述第一例程適用于處理其中出現(xiàn)運動的分段,并且所述第二例程適用于處理其中實質上是時間靜態(tài)的分段。
優(yōu)選地,在該編碼器中
(e)所述第一識別裝置適于使用I幀、B幀和/或P幀來確定性地編碼實質上不是空間隨機特性的所述一個或多個分段,所述I幀包括確定性地描述所述一個或多個分段的紋理分量的信息,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息;以及(f)所述第二識別裝置適于使用所述模型參數(shù)、B幀和/或P幀來編碼包括紋理分量的實質上是隨機特性的所述一個或多個分段,所述模型參數(shù)描述所述一個或多個分段的紋理,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息。
優(yōu)選地,使用電子硬件和可在計算硬件上執(zhí)行的軟件當中的至少一項來實施該編碼器。
根據(jù)本發(fā)明的第五方面,提供一種用于對已編碼視頻數(shù)據(jù)進行解碼以便重新產生相應的已解碼視頻信號的解碼器,該解碼器包括(a)分析裝置,用于接收已編碼視頻數(shù)據(jù)并且識別其中的一個或多個分段;(b)第一識別裝置,用于識別所述一個或多個分段當中的實質上不是空間隨機特性的那些分段,并且以確定性的方式對其進行解碼以便產生第一已解碼中間數(shù)據(jù);(c)第二識別裝置,用于識別所述一個或多個分段當中的實質上是空間隨機特性的那些分段,并且通過由模型參數(shù)驅動的一個或多個隨機模型來對其進行解碼以便產生第二已解碼中間數(shù)據(jù),所述模型參數(shù)被包括在所述已編碼視頻數(shù)據(jù)輸入中;以及(d)合并裝置,用于合并該第一和第二中間數(shù)據(jù)以便產生所述已解碼視頻信號。
優(yōu)選地,該解碼器的不同之處在于其被設置成依賴于在實質上是空間隨機特性的一個或多個分段中出現(xiàn)的時間運動的特征、使用第一或第二解碼例程來解碼所述一個或多個分段,所述第一例程適用于處理其中出現(xiàn)運動的分段,并且所述第二例程適用于處理實質上是時間靜態(tài)的分段。
優(yōu)選地,該解碼器的不同之處還在于(e)所述第一識別裝置適于使用I幀、B幀和/或P幀來確定性地解碼實質上不是空間隨機特性的所述一個或多個分段,所述I幀包括確定性地描述所述一個或多個分段的紋理分量的信息,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息;以及(f)所述第二識別裝置適于使用所述模型參數(shù)、B幀和/或P幀來解碼包括紋理分量的實質上是隨機特性的所述一個或多個分段,所述模型參數(shù)描述所述一個或多個分段的紋理,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息。
優(yōu)選地,使用電子硬件和可在計算硬件上執(zhí)行的軟件當中的至少一項來實施該解碼器。
應意識到,本發(fā)明的特征能夠在不脫離本發(fā)明范圍的情況下以任意組合方式來組合。
附圖簡述下面參照附圖僅通過示例來描述本發(fā)明的各實施例,其中
圖1是視頻處理的示意圖,其中包括編碼輸入視頻信號以便產生相應的已編碼視頻數(shù)據(jù)的第一步驟,將該已編碼視頻數(shù)據(jù)記錄到數(shù)據(jù)載體上和/或廣播該已編碼視頻數(shù)據(jù)的第二步驟,以及解碼該已編碼視頻數(shù)據(jù)以便重建所述輸入視頻信號的一個版本的第三步驟;圖2是圖1中描述的第一步驟的示意圖,其中輸入視頻信號Vip被編碼,以便產生相應的已編碼視頻數(shù)據(jù)Vencode;以及圖3是圖1中描述的第三步驟的示意圖,其中已編碼視頻數(shù)據(jù)被解碼以便產生對應于所述輸入視頻信號Vip的重建的輸出視頻信號Vop。
具體實施例參照圖1,其示出由10表示的視頻處理。處理10包括在編碼器20中編碼輸入視頻信號Vip以便產生相應的已編碼視頻數(shù)據(jù)Vencode的第一步驟;在數(shù)據(jù)載體30上存儲該已編碼視頻數(shù)據(jù)Vencode和/或通過合適的廣播網(wǎng)絡30發(fā)送該已編碼視頻數(shù)據(jù)的第二步驟;以及在解碼器40中解碼所廣播和/或所存儲的視頻數(shù)據(jù)Vencode以便重建對應于輸入視頻信號的輸出視頻信號Vop以用于隨后觀看的第三步驟。輸入視頻信號Vip優(yōu)選地遵循同時代已知的視頻標準,并且包括圖片或圖像的時間序列。在編碼器20中,通過幀(其中有I幀、B幀和P幀)來表示圖像。這樣的幀的指定在同時代的視頻編碼技術中是已知的。
在操作中,輸入視頻信號Vip被提供到編碼器20,該編碼器將分段處理應用于存在于輸入信號Vip中的圖像。該分段處理將圖像細分為各空間分段的區(qū)域,然后對所述空間分段的區(qū)域以用第一分析以便確定它們是否包括隨機紋理。此外,該分段處理還被設置成執(zhí)行第二分析,以用于確定被識別為具有隨機紋理的分段區(qū)域是否是時間穩(wěn)定的。然后根據(jù)第一和第二分析的結果來選擇應用于輸入信號Vip的編碼功能,以便產生已編碼輸出視頻數(shù)據(jù)Vencode。輸出視頻數(shù)據(jù)Vencode然后被記錄在數(shù)據(jù)載體30上,所述數(shù)據(jù)載體例如是下面的至少一項(a)固態(tài)存儲器,例如EEPROM和/或SRAM;(b)光學存儲介質,諸如CD-ROM、DVD、專有藍光介質;以及(c)磁盤記錄介質,例如可轉移的磁硬盤。
附加地或可選擇地,已編碼視頻數(shù)據(jù)Vencode適于通過地面無線、通過衛(wèi)星傳輸、通過數(shù)據(jù)網(wǎng)絡(諸如因特網(wǎng))以及通過已建立的電話網(wǎng)絡進行廣播。
隨后,至少從廣播網(wǎng)絡30接收已編碼視頻數(shù)據(jù)Vencode或者至少從數(shù)據(jù)載體30中讀取Vencode,并且隨后將其輸入到解碼器40,然后解碼器40重建輸入視頻信號Vip的一個拷貝以作為輸出視頻信號Vop。在對已編碼視頻數(shù)據(jù)Veneode進行解碼的過程中,解碼器40應用I幀分段功能來確定由編碼器20應用于分段的參數(shù)標簽,然后從這些標簽確定是否存在隨機紋理。其中對于一個或多個分段,通過與其相關的標簽來表示隨機紋理的存在,解碼器40還確定該隨機紋理是否是時間穩(wěn)定的。依賴于分段的特性(例如它們的隨機紋理和/或時間穩(wěn)定性),解碼器40令所述分段通過適當?shù)墓δ?,以便重建輸入視頻信號Vip的一個拷貝,從而作為輸出視頻信號Vop來輸出。
從而,在構想視頻處理10的過程中,本發(fā)明的發(fā)明人已經基于幀分段技術發(fā)展了一種壓縮視頻信號的方法,其中特定的分段區(qū)域由相應的壓縮的已編碼數(shù)據(jù)中的參數(shù)來描述,這樣的特定區(qū)域具有在空間上具有隨機特性的內容,并且適于在解碼器40中使用由所述參數(shù)驅動的隨機模型來重建。為了進一步幫助這樣的重建,運動補償和深度分布信息也被有利地利用。
本發(fā)明的發(fā)明人已經意識到,在視頻壓縮的范圍中,視頻紋理的一些部分適于以統(tǒng)計學方式來模擬。這樣的統(tǒng)計學模擬作為獲得增強的壓縮的方法是可實行的,因為人類大腦解釋圖像部分的方式是主要集中于它們的邊界的形狀而不是集中于所述部分的內部區(qū)域中的細節(jié)。從而,在由處理10產生的壓縮的已編碼視頻數(shù)據(jù)Vencode中,適于隨機模擬的圖像部分在視頻數(shù)據(jù)中被表示為邊界信息以及簡明地描述邊界內的內容的參數(shù),所述參數(shù)適于在解碼器40中驅動一個紋理產生器。
然而,已解碼圖像的質量由幾個參數(shù)確定,并且從經驗上來說,最重要的參數(shù)之一是時間穩(wěn)定性,該穩(wěn)定性還與包括紋理的圖像部分的穩(wěn)定性有關。從而,在已編碼視頻數(shù)據(jù)Vencode中,空間統(tǒng)計特性的紋理也以時間方式描述,以便允許在已解碼輸出視頻信號Vop中提供時間穩(wěn)定的統(tǒng)計印象。
因此,本發(fā)明的發(fā)明人已經意識到當前在已編碼視頻數(shù)據(jù)中獲得增強的壓縮的當前。由于已經意識到圖像紋理的隨機特性,因此已經考慮到識別適當?shù)膮?shù)以便關于表示這樣的紋理在已編碼視頻數(shù)據(jù)中使用的附加問題。
在本發(fā)明中,能夠通過在解碼器40中利用紋理深度和運動信息以便重新產生這樣的紋理來解決這些問題。傳統(tǒng)上僅在確定性紋理產生的情境中采用參數(shù),例如視頻游戲中的靜態(tài)背景紋理等等。
當前的視頻流(例如存在于編碼器20中的視頻流)被劃分為I幀、B幀和P幀。傳統(tǒng)上,在已編碼視頻數(shù)據(jù)中、以允許在視頻數(shù)據(jù)的隨后解碼期間重建詳細紋理的方式來壓縮I幀。此外,通過使用運動矢量和殘余信息在解碼期間重建B幀和P幀。本發(fā)明與傳統(tǒng)的視頻信號處理方法的不同之處在于,I幀中的某些紋理不需要被傳送,而是只通過模型參數(shù)來傳送其統(tǒng)計模型。此外,在本發(fā)明中,對于B幀和P幀計算運動信息和深度信息的至少其中之一。在解碼器40中,在對已編碼視頻數(shù)據(jù)Vencode進行解碼期間產生隨機紋理,其中對于I幀產生紋理,而所產生的運動和/或深度信息則一貫用于B幀和P幀。通過紋理模擬與對運動和/或深度信息的適當使用的組合,在編碼器20中實現(xiàn)的對視頻數(shù)據(jù)Vencode的數(shù)據(jù)壓縮比上述同時代編碼器更大,同時在解碼視頻質量方面沒有顯著可感覺到的降低。
處理10適于在傳統(tǒng)的和/或新的視頻壓縮方案的情境中使用。傳統(tǒng)的方案包括MPEG-2、MPEG-4和H.264標準當中的一個或多個,而新的視頻壓縮方案包括結構化視頻和分層視頻格式。此外,本發(fā)明可應用于基于塊的以及基于分段的視頻編解碼器。
為了進一步闡述本發(fā)明,下面參照圖2和3來描述本發(fā)明的各實施例。
在圖2中,更詳細地示出編碼器20。編碼器20包括用于接收輸入視頻信號Vip的分段功能100。來自分段功能100的輸出被耦合到具有“是”和“否”輸出的隨機紋理檢測功能110;這些輸出在操作中指示圖像分段是否包括空間隨機紋理細節(jié)。編碼器20還包括用于從紋理檢測功能110接收信息的紋理時間穩(wěn)定性檢測功能120。來自紋理檢測功能110的“否”輸出被耦合到I幀紋理壓縮功能140,該I幀紋理壓縮功能140又直接耦合到數(shù)據(jù)求和功能180,以及經過第一基于分段的運動估計功能170間接耦合到求和功能180。類似地,來自穩(wěn)定性檢測功能120的“是”輸出耦合到I幀紋理模型估計功能150,該I幀紋理模型估計功能150的輸出直接耦合到求和功能180,以及經過第二基于分段的運動估計功能170間接耦合到求和功能180。同樣地,來自穩(wěn)定性檢測功能120的“否”輸出耦合到I幀紋理模型估計功能160,該I幀紋理模型估計功能160的輸出直接耦合到求和功能180,以及經過第三基于分段的運動估計功能170間接耦合到求和功能180。求和功能180包括一個用于輸出已編碼視頻數(shù)據(jù)Vencode的數(shù)據(jù)輸出端,數(shù)據(jù)Vencode對應于在求和功能180處接收的數(shù)據(jù)的組合。編碼器20能夠用在計算硬件上執(zhí)行的軟件實施和/或實施為定制的電子硬件,例如實施為專用集成電路(ASIC)。
在操作中,編碼器20在其輸入端處接收輸入視頻信號Vip。該信號被存儲在與分段功能100相關的存儲器中(并且當需要從模擬格式轉換為數(shù)字格式時被數(shù)字化),從而在其中給出所存儲的視頻圖像。功能100分析其存儲器中的視頻圖像并且識別圖像中的分段(例如圖像的子區(qū)域),所述分段具有預定義程度的相似性。接著,功能100將表示分段的數(shù)據(jù)輸出到紋理檢測功能110;有利地,紋理檢測功能110可以訪問與分段功能100相關的存儲器。
紋理檢測功能110分析被提供給它的每個圖像分段,以便確定其紋理內容是否適于由隨機模擬參數(shù)來描述。
當紋理檢測功能110識別出隨機模擬不合適時,它將分段信息傳送到紋理壓縮功能140及其相關的第一運動估計功能170,以便以更傳統(tǒng)的確定性方式產生用于在求和功能180處接收的、對應于分段的已壓縮視頻數(shù)據(jù)。耦合到紋理壓縮功能140的第一運動估計功能170適于提供適合于B幀和P幀的數(shù)據(jù),而紋理壓縮功能140適于直接產生I幀類型的數(shù)據(jù)。
相反地,當紋理檢測功能110識別出隨機模擬是合適的時候,它將分段信息傳送到時間穩(wěn)定性檢測功能120。該功能120分析被提交給它的分段的時間穩(wěn)定性。當發(fā)現(xiàn)分段是時間穩(wěn)定的時候(例如是在由靜止攝像機拍攝的安靜的場景中,其中該場景包括一面適于進行隨機模擬的斑駁的墻),穩(wěn)定性檢測功能120將分段信息傳送到紋理模型估計功能150,紋理模型估計功能150產生用于所識別的分段的模型參數(shù),所述模型參數(shù)被直接傳送到求和功能180以及經過第二運動估計功能170被間接傳送到180,第二運動估計功能170產生用于相應的B幀和P幀的、關于所識別的分段中的運動的參數(shù)??蛇x擇地,當穩(wěn)定性檢測功能120識別出分段在時間上不夠穩(wěn)定的時候,穩(wěn)定性檢測功能120將分段信息傳送到紋理模型估計功能160,該紋理模型估計功能160產生用于所識別的分段的模型參數(shù),所述模型參數(shù)被直接傳送到求和功能180以及經過第三運動估計功能170被間接傳送到求和功能180,該第三運動估計功能170產生用于相應的B幀和P幀的、關于所識別的分段中的運動的參數(shù)。優(yōu)選地,為了分別處理相對靜態(tài)的以及相對快速改變的圖像,對紋理模型估計功能150、160進行最優(yōu)化。如上所述,求和功能180將來自功能140、150、160、170的輸出結合起來,并且輸出相應的經壓縮的已編碼視頻數(shù)據(jù)Vencode。
從而,在操作中,編碼器20被這樣設置I幀中的某些紋理不必被傳送,而只傳送其等效的隨機/統(tǒng)計模型。然而,對于相應的B幀和P幀則計算運動和/或深度信息。
為了進一步描述編碼器20的操作,下面將描述它處理各種類型的圖像特征的方式。
并非視頻圖像中的所有區(qū)域都適于以統(tǒng)計方式描述。在視頻圖像中經常遇到三種類型的區(qū)域(a)類型1包括空間非統(tǒng)計紋理的區(qū)域。在編碼器20中,以確定性方式將類型1的區(qū)域壓縮為已編碼輸出視頻數(shù)據(jù)Vencode的I幀、B幀和P幀。對于相應的I幀,確定性的紋理被傳送。此外,相關的運動信息在B幀和P幀中被傳送。在解碼器側允許精確的區(qū)域排序的深度數(shù)據(jù)優(yōu)選地在解碼器40這一級被傳送或者重新計算;(b)類型2包括空間統(tǒng)計但是非靜止的紋理的區(qū)域。這樣的區(qū)域的例子包括波浪、霧或者火。對于類型2的區(qū)域,編碼器20適于傳送統(tǒng)計模型。由于這樣的區(qū)域的隨機時間運動,沒有運動信息被用于隨后的紋理產生處理(例如發(fā)生在解碼器40中)。對于每個視頻幀,將在解碼期間從統(tǒng)計模型中產生對紋理的另一種表示。然而,所述區(qū)域的形狀(也就是空間地描述它們的外圍邊緣的信息)在已編碼輸出視頻數(shù)據(jù)Vencode中被運動補償;(c)類型3相對時間穩(wěn)定的并且包括紋理的區(qū)域。這樣的區(qū)域的例子是草地、沙灘和森林的細節(jié)。對于這種類型的區(qū)域,例如ARMA模型的統(tǒng)計模型被傳送,而時間運動和/或深度信息則在已編碼輸出視頻數(shù)據(jù)Vencode中的B幀和P幀中被傳送。在解碼器40中利用被編碼入I幀、B幀和P幀的信息,以便以時間一致的方式產生用于所述區(qū)域的紋理。
從而,編碼器20適于確定是要以傳統(tǒng)的方式壓縮圖像紋理(例如通過DCT、小波或類似的方式)還是要通過參數(shù)化的模型(如本發(fā)明描述的模型)來壓縮。
接著參照圖3,其更詳細的示出解碼器40的各部分。解碼器40適于實施為定制硬件和/或通過在計算機硬件上執(zhí)行的軟件來實施。解碼器40包括I幀分段功能200、分段標記功能210、隨機紋理檢查功能220和時間穩(wěn)定性檢查功能230。此外,解碼器40還包括紋理重建功能240以及第一和第二紋理模擬功能250、260;這些功能240、250、260主要與I幀信息有關。此外,解碼器40包括第一和第二經運動和深度補償?shù)募y理產生功能270、280以及經分段形狀補償?shù)募y理產生功能290;這些功能270、280、290主要與B幀和P幀信息有關。最后,解碼器40包括用于組合來自產生功能270、280、290的輸出的求和功能300。
下面將描述解碼器40的各種功能的互操作。
輸入到解碼器40的已編碼視頻數(shù)據(jù)Vencode被耦合到分段功能200的輸入端,并且還被耦合到分段標記功能210的控制輸入端,如圖所示。來自分段功能200的輸出也被耦合到分段標記功能210的數(shù)據(jù)輸入端。分段標記功能210的輸出被耦合到紋理檢查功能220的輸入端。此外,紋理檢查功能220包括耦合到紋理重建功能240的數(shù)據(jù)輸入端的第一“否”輸出以及耦合到穩(wěn)定性檢查功能230的輸入端的“是”輸出。此外,穩(wěn)定性檢查功能230包括耦合到第一紋理產生功能250的“是”輸出以及耦合到第二紋理產生功能260的相應的“否”輸出。來自功能240、250、260的數(shù)據(jù)輸出被耦合到功能270、280、290的相應的數(shù)據(jù)輸入端,如圖所示。最后,來自功能270、280、290的數(shù)據(jù)輸出被耦合到求和功能300的各求和輸入端,求和功能300還包括用于提供上述已解碼視頻輸出Vop的數(shù)據(jù)輸出端。
在解碼器40的操作中,已編碼視頻數(shù)據(jù)Vencode被提供到分段功能200,該分段功能200從數(shù)據(jù)Vencode中的I幀中識別出各圖像分段,并且將它們提供到標記功能210,該標記功能210用適當?shù)南嚓P參數(shù)來標記所識別的分段。來自標記功能210的分段數(shù)據(jù)輸出被傳遞到紋理檢查功能220,該紋理檢查功能220分析在那里接收的分段以便確定它們是否具有與之相關的、指示應當進行隨機模擬的隨機紋理參數(shù)。在沒有發(fā)現(xiàn)需要使用隨機紋理模擬的指示的情況下(也就是上述類型1的區(qū)域),分段數(shù)據(jù)被傳遞到重建功能240,該重建功能240以傳統(tǒng)的確定性方式解碼送交到那里的分段,以便產生相應的已解碼I幀數(shù)據(jù),然后已解碼I幀數(shù)據(jù)被傳遞到產生功能270,在那里運動和深度信息被以傳統(tǒng)方式添加到已解碼I幀數(shù)據(jù)上。
當檢查功能220識別出提供到那里的分段具有隨機特性時(也就是類型2和/或類型3的區(qū)域),該功能220將它們轉發(fā)到穩(wěn)定性檢查功能230,該穩(wěn)定性檢查功能230進行分析,以便確定所轉發(fā)的分段被編碼為相對穩(wěn)定(也就是上述類型3的區(qū)域)還是具有較大程度的時間改變(也就是上述類型2的區(qū)域)。當檢查功能230發(fā)現(xiàn)分段是類型2的區(qū)域時,所述分段被轉發(fā)到“是”輸出,并且因此到達第一紋理模擬功能250以及隨后到達紋理產生功能280。相反地,當檢查功能230發(fā)現(xiàn)分段是類型3的區(qū)域時,所述分段被轉發(fā)到“否”輸出,并且因此到達第二紋理模擬功能260以及隨后到達經補償?shù)募y理產生功能290。求和功能300適于接收來自功能270、280、290的輸出并且組合它們以便產生已解碼輸出視頻數(shù)據(jù)Vop。
針對執(zhí)行分段的運動和深度重建來優(yōu)化產生功能270、280,同時針對重建如上所述的沒有運動的空間隨機特性分段來優(yōu)化紋理產生功能290。
從而,解碼器40實際上包括三個分段重建通道,也就是包括功能240、270的第一通道,包括功能250、280的第二通道,以及包括功能260、290的第三通道。第一、第二和第三通道分別與對應于類型1、類型2和類型3的已編碼分段的重建相關。
應當理解,可以在不脫離本發(fā)明范圍的情況下修改本發(fā)明的上述在上述說明中,應當理解諸如“包括”、“包含”這樣的表達法是非排他性的,也就是說可以存在其它未特別指出的項目或部件。
權利要求
1.一種編碼包括圖像序列的視頻信號以便產生相應的已編碼視頻數(shù)據(jù)的方法(20),該方法包括下列步驟(a)分析(100)所述圖像以便識別其中的一個或多個圖像分段;(b)識別(110)所述一個或多個分段當中的實質上不是空間隨機特性的那些分段,并且以確定性的方式對其進行編碼(140,170),以便產生第一已編碼中間數(shù)據(jù);(c)識別(110,120)所述一個或多個分段當中的實質上是空間隨機特性的那些分段,并且通過一個或多個相應的隨機模型參數(shù)對其進行編碼(150,160,170,180),以便產生第二已編碼中間數(shù)據(jù);以及(d)合并(180)該第一和第二中間數(shù)據(jù)以便產生所述已編碼視頻數(shù)據(jù)。
2.根據(jù)權利要求1所述的方法,其中在步驟(c)中,依賴于在實質上是空間隨機特性的一個或多個分段中出現(xiàn)的時間運動的特征,使用第一或第二編碼例程來編碼所述一個或多個分段,所述第一例程(150,170)適用于處理其中出現(xiàn)運動的分段,并且所述第二例程(160,170)適用于處理實質上是時間靜態(tài)的分段。
3.根據(jù)權利要求1或2所述的方法,其中(e)在步驟(b)中,使用I幀、B幀和/或P幀來確定性地編碼實質上不是空間隨機特性的所述一個或多個分段,所述I幀包括確定性地描述所述一個或多個分段的紋理分量的信息,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息;以及(f)在步驟(c)中,使用所述模型參數(shù)、B幀和/或P幀來編碼包括紋理分量的實質上是隨機特性的所述一個或多個分段,所述模型參數(shù)描述所述一個或多個分段的紋理,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息。
4.一種承載使用根據(jù)權利要求1至3中的任一個所述的方法產生的已編碼視頻數(shù)據(jù)的數(shù)據(jù)載體。
5.一種對已編碼視頻數(shù)據(jù)進行解碼以便重新產生相應的已解碼視頻信號的方法,該方法包括以下步驟(a)接收所述已編碼視頻數(shù)據(jù)并且識別其中的一個或多個分段;(b)識別所述一個或多個分段當中的實質上不是空間隨機特性的那些分段,并且以確定性的方式對其進行解碼,以便產生第一已解碼中間數(shù)據(jù);(c)識別所述一個或多個分段當中的實質上是空間隨機特性的那些分段,并且通過由模型參數(shù)驅動的一個或多個隨機模型對其進行解碼,以便產生第二已解碼中間數(shù)據(jù),其中所述模型參數(shù)被包括在所述已編碼視頻數(shù)據(jù)輸入中;以及(d)合并該第一和第二中間數(shù)據(jù)以便產生所述已解碼視頻信號。
6.根據(jù)權利要求5所述的方法,其中在步驟(c)中,依賴于在實質上是空間隨機特性的一個或多個分段中出現(xiàn)的時間運動的特征,使用第一或第二解碼例程來解碼所述一個或多個分段,所述第一例程適用于處理其中出現(xiàn)運動的分段,并且所述第二例程適用于處理實質上是時間靜態(tài)的分段。
7.根據(jù)權利要求5或6所述的方法,其中(e)在步驟(b)中,使用I幀、B幀和/或P幀來確定性地解碼實質上不是空間隨機特性的所述一個或多個分段,所述I幀包括確定性地描述所述一個或多個分段的紋理分量的信息,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息;以及(f)在步驟(c)中,使用所述模型參數(shù)、B幀和/或P幀來解碼包括紋理分量的實質上是隨機特性的所述一個或多個分段,所述模型參數(shù)描述所述一個或多個分段的紋理,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息。
8.一種用于編碼包括圖像序列的視頻信號以便產生相應的已編碼視頻數(shù)據(jù)的編碼器(20),該編碼器(20)包括(a)分析裝置,用于分析所述圖像以便識別其中的一個或多個圖像分段;(b)第一識別裝置(110),用于識別所述一個或多個分段當中的實質上不是空間隨機特性的那些分段,并且以確定性的方式對其進行編碼,以便產生第一已編碼中間數(shù)據(jù);(c)第二識別裝置(120),用于識別所述一個或多個分段當中的實質上是空間隨機特性的那些分段,并且通過一個或多個相應的隨機模型參數(shù)對其進行編碼,以便產生第二已編碼中間數(shù)據(jù);以及(d)數(shù)據(jù)合并裝置(180),用于合并該第一和第二中間數(shù)據(jù)以便產生所述已編碼視頻數(shù)據(jù)。
9.根據(jù)權利要求8所述的編碼器(20),其中該第二識別裝置適于依賴于在實質上是空間隨機特性的一個或多個分段中出現(xiàn)的時間運動的特征、使用第一或第二編碼例程來編碼所述一個或多個分段,所述第一例程適用于處理其中出現(xiàn)運動的分段,并且所述第二例程適用于處理實質上是時間靜態(tài)的分段。
10.根據(jù)權利要求8或9所述的編碼器(20),其中(e)所述第一識別裝置適于使用I幀、B幀和/或P幀來確定性地編碼實質上不是空間隨機特性的所述一個或多個分段,所述I幀包括確定性地描述所述一個或多個分段的紋理分量的信息,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息;以及(f)所述第二識別裝置適于使用所述模型參數(shù)、B幀和/或P幀來編碼包括紋理分量的實質上是隨機特性的所述一個或多個分段,所述模型參數(shù)描述所述一個或多個分段的紋理,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息。
11.根據(jù)權利要求8、9或10所述的編碼器(20),該編碼器是利用電子硬件以及可在計算硬件上執(zhí)行的軟件當中的至少一項來實現(xiàn)的。
12.一種用于對已編碼視頻數(shù)據(jù)進行解碼以便重新產生相應的已解碼視頻信號的解碼器(40),該解碼器包括(a)分析裝置,用于接收所述已編碼視頻數(shù)據(jù)并且識別其中的一個或多個分段;(b)第一識別裝置,用于識別所述一個或多個分段當中的實質上不是空間隨機特性的那些分段,并且以確定性的方式對其進行解碼,以便產生第一已解碼中間數(shù)據(jù);(c)第二識別裝置,用于識別所述一個或多個分段當中的實質上是空間隨機特性的那些分段,并且通過由模型參數(shù)驅動的一個或多個隨機模型對其進行解碼,以便產生第二已解碼中間數(shù)據(jù),其中所述模型參數(shù)被包括在所述已編碼視頻數(shù)據(jù)輸入中;以及(d)合并裝置,用于合并該第一和第二中間數(shù)據(jù)以便產生所述已解碼視頻信號。
13.根據(jù)權利要求12所述的解碼器(40),其被設置為依賴于在實質上是空間隨機特性的一個或多個分段中出現(xiàn)的時間運動的特征、使用第一或第二解碼例程來解碼所述一個或多個分段,所述第一例程適用于處理其中出現(xiàn)運動的分段,并且所述第二例程適用于處理實質上是時間靜態(tài)的分段。
14.根據(jù)權利要求12或13所述的解碼器(40),其中(e)所述第一識別裝置適于使用I幀、B幀和/或P幀來確定性地解碼實質上不是空間隨機特性的所述一個或多個分段,所述I幀包括確定性地描述所述一個或多個分段的紋理分量的信息,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息;以及(f)所述第二識別裝置適于使用所述模型參數(shù)、B幀和/或P幀來解碼包括紋理分量的實質上是隨機特性的所述一個或多個分段,所述模型參數(shù)描述所述一個或多個分段的紋理,并且所述B幀和/或P幀包括描述所述一個或多個分段的時間運動的信息。
15.根據(jù)權利要求12、13或14所述的解碼器(40),該解碼器是利用電子硬件以及可在計算硬件上執(zhí)行的軟件當中的至少一項來實現(xiàn)的。
全文摘要
本發(fā)明提供一種編碼包括圖像序列的視頻信號以便產生相應的已編碼視頻數(shù)據(jù)的方法。該方法包括以下步驟(a)分析所述圖像以便識別其中的一個或多個圖像分段;(b)識別所述一個或多個分段當中的實質上不是空間隨機特性的那些分段,并且以確定性的方式對其進行編碼以便產生第一已編碼中間數(shù)據(jù);(c)識別所述一個或多個分段當中的實質上是空間隨機特性的那些分段,并且通過一個或多個相應的隨機模型參數(shù)對其進行編碼,以便產生第二已編碼中間數(shù)據(jù);以及(d)合并該第一和第二中間數(shù)據(jù)以便產生所述已編碼視頻數(shù)據(jù)。
文檔編號H04N7/26GK1875634SQ200480032203
公開日2006年12月6日 申請日期2004年10月14日 優(yōu)先權日2003年10月31日
發(fā)明者P·威林斯基, C·瓦雷坎普 申請人:皇家飛利浦電子股份有限公司