專利名稱:用于壓縮視頻序列的編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于壓縮視頻序列的編碼方法,該視頻序列被劃分為多個幀組,這些幀組依靠導(dǎo)致可以產(chǎn)生指定數(shù)量的連續(xù)清晰度等級的三維(3D)小波變換來進行分解,該方法基于一個被稱作“在分級樹中設(shè)置分區(qū)”(SPIHT)的分級子帶編碼過程,且導(dǎo)致可以從每組幀的圖像元素(像素)的原始集合來變換用二進制格式編碼的系數(shù)并構(gòu)成一個分級金字塔,這些系數(shù)借助于涉及由三個已排序的列表即非重要的集合列表(LIS)、非重要的像素(LIP)列表和重要的像素列表(LSP)所表示的像素的幅度測試來進行排序,這些測試被順序執(zhí)行,以便根據(jù)一個一直持續(xù)到每個重要系數(shù)都在上述二進制表示法內(nèi)被編碼的劃分過程來將上述的圖像元素的原始集合劃分成分段子集,并且在一個空-時方向樹中,根是由3D小波變換產(chǎn)生的近似子帶的像素構(gòu)成的,這些像素中的每一個的后代(offspring)是由對應(yīng)于由這些根像素定義的圖像量的較高的子帶的像素構(gòu)成的,所述空-時方向樹定義了上述分級金字塔內(nèi)部的空-時關(guān)系。
已知3D編碼方法的編碼效率可以通過在低時間子帶中在時間分解的每個等級中執(zhí)行運動估計/補償來提高。因此,該方法包括子帶內(nèi)的運動估計/補償且3D子帶分解被應(yīng)用于被補償?shù)膸M。
圖1中描述了一個完整的三級時間分解。在輸入圖像序列中的每個幀組必須含有等于2的冪的多個幀(通常是16,在本例中是8)。直線箭頭指示低通(L)時間濾波(連續(xù)箭頭)和高通(H)時間濾波(虛線箭頭),且曲線箭頭標明兩幀之間的運動補償。在最后的時間分解等級中,有兩幀處在最低的時間子帶。在時間子帶的每個幀中,執(zhí)行空間分解。在這個結(jié)構(gòu)中,數(shù)據(jù)的三維結(jié)構(gòu)子帶編碼可以作為空間子帶編碼技術(shù)的擴展來被實現(xiàn)。
在視頻技術(shù)電路及系統(tǒng)IEEE學(xué)報vol.6,N3,1996年6月第243-250頁中,Said和W.A.Pearlman的題為“一個新的快速而有效的基于分級樹中的設(shè)置分區(qū)的圖像編解碼器”的文章中,描述了圖像壓縮最有效的基于小波的方法之一,它最近被擴展到子帶3D結(jié)構(gòu),該方法是分級樹中的二維集合劃分(即2D SPIHT)。用于這一3D編碼技術(shù)中的基本概念如下對應(yīng)于相同位置的空-時樹在小波域中被形成;然后,這些樹中的小波變換系數(shù)被劃分成由在這些系數(shù)值的比特平面表示中最高高有效比特級別定義的集合;最后,最高的剩余比特平面被編碼且最后得到的比特被發(fā)送。
上面提出的SPIHT算法的2D和3D形式的一個共同特征是空間的、相應(yīng)的空-時的方向樹被規(guī)定從最低頻率子帶開始,并且代表涉及相同空間或空-時位置的系數(shù)。在這個方法中,除了最低頻帶外,所有的父代(parent)有四個(在2D時)或8個(在3D時)子代(children)。令(i,j,k)代表3D變換域中的一個圖像元素(像素)的坐標如果它不在最低空-時頻率子帶中且它不在最后的清晰度等級子帶中的一個之中,則它的后代有坐標O={(2i,2j,2k),(2i+1,2j,2k),(2i,2j+1,2k),(2i,2j,2k+1),(2i+1,2j+1,2k),(2i+1,2j,2k+1),(2i,2j+1,2k+1),(2i+1,2j+1,2k+1)}為簡單起見,靜止圖像的情況在圖2中示例出(子帶s-LLLL,s-LLLH…等)。
在圖像編碼域中,在最近幾年中零樹壓縮算法被廣泛研究且提出了幾個改進。例如,在MPEG-4標準中,這樣一個算法的變化方案(見例如在有關(guān)信號處理的IEEE學(xué)報vok.41,N12,1993年12月,第3445-3462頁中J.M.Shapiro的題為“利用小波系數(shù)的零樹的嵌入式圖像編碼”的文章)被采納用于靜止圖像編碼模式,其中最低空間子帶使用DPCM技術(shù)進行獨立編碼。然后,空間方向樹的構(gòu)成是以詳細的子帶(除第一個子帶s-LLLL外的所有子帶)的形式開始的。
為此,本發(fā)明涉及諸如在前言中說明定義的、并具有如下特征的編碼方法(A)根據(jù)下面的條件,向量差分脈沖編碼調(diào)制(DPCM)被用于對最低頻率空-時子帶或近似子帶進行單獨編碼(a)為近似子帶中的每個幀中具有分量的系數(shù)的每個向量構(gòu)造一個空-時預(yù)測量,該預(yù)測量不僅使用視頻序列中過去的幀中相同的位置的值,還使用當(dāng)前幀中的相鄰值,上述向量編碼特性來源于這樣的事實最低頻率子帶含有來自至少兩個幀的空間低頻子帶;(b)上述DPCM使用常量預(yù)測系數(shù);(B)預(yù)測錯誤的量化依靠對兩向量分量的分級量化而被執(zhí)行,其后跟隨著與針對每一對指定的被量化的值而計算出的概率相關(guān)的唯一的二進制碼的分配;(C)由步驟(A)和(B)產(chǎn)生的二進制流通過一個用于最小化整個消息的熵的無損過程來進行編碼。
在另一個實施方案中,發(fā)明涉及一個類似的方法,但其特征為(A)根據(jù)下面的條件,向量差分脈沖編碼調(diào)制(DPCM)被用于對最低頻率空-時子帶或近似子帶進行單獨編碼(a)為近似子帶中的每個幀中具有分量的系數(shù)的每個向量構(gòu)造一個時空預(yù)測量,該預(yù)測量不僅使用圖像序列中過去的幀中相同的位置的值,還使用當(dāng)前幀中的相鄰值,上述向量編碼特征來源于這樣的事實最低頻率子帶含有來自至少兩個幀的空間低頻子帶;(b)上述DPCM使用常量預(yù)測系數(shù);(B)預(yù)測錯誤的量化依靠向量量化來實現(xiàn),為此要使用一個最優(yōu)量化器并且要基于廣義Lloyd-Max算法,一個針對所述優(yōu)化而考慮的被量化的預(yù)測錯誤向量的兩個分量的聯(lián)合Laplacian概率密度函數(shù);(C)由步驟(A)和(B)產(chǎn)生的二進制流通過一個用于最小化整個消息的熵的無損過程來進行編碼。
無論是哪個實施方案,上述DPCM都可以是自適應(yīng)的,空-時預(yù)測器的系數(shù)依靠每個幀組的這些系數(shù)的最小均方估值來考慮情況變化。
發(fā)明詳述利用這里提出的3D圖像方案,3D空-時分解的最低頻率子帶被獨立編碼,其它子帶被利用3D SPIHT算法來編碼。然而,這意味著一些重要的修改。本發(fā)明的興趣集中在3D結(jié)構(gòu)。
在這種情況下,SPIHT算法的一個特殊的特征將被再調(diào)用,其方塊圖在圖4中被示例。對于最低空-時子帶,父-子關(guān)系被如下定義形成8個相鄰像素的多個塊,每個方向上包括兩個像素。它們的后代被定義成對應(yīng)于在7個相鄰細節(jié)子帶中相同位置的8像素的組。8像素的組中的一個像素沒有后代,其它的每個像素有作為后代的一個8像素塊。如果用M,N,T代表初始幀組的維,并且考慮J個分解等級,則最低頻率子帶的維是MJ=M/2J,NJ=N/2J,TJ=T/2J。位于最低頻率子帶中的(i,j,k)處的系數(shù)的后代為,O={(i-1+MJ,j-1+NJ,k-1+TJ),(i+MJ,j-1+NJ,k-1+TJ),(i-1+MJ,j+NJ,k-1+TJ),(i+MJ,J+NJ,k-1+TJ),(i-1+MJ,j-1+NJ,k+TJ),(i+MJ,j-1+NJ,k+TJ),(i-1+MJ,j+NJ,k+TJ),(i+MJ,j+NJ,k+TJ)}。
這樣,把最低頻率子帶中的像素作為根,則可形成樹。用于3D圖像編碼中的這一技術(shù)也被用于實施3D醫(yī)學(xué)圖像壓縮,但在這種情況下運動補償和壓縮階段被跳過。
在這個體制中,這里提出的(圖6)對于3D SPIHT算法(圖5)的修改是對最低空-時子帶t-LL-s-LLLL獨立進行編碼。由于該子帶含有最低時間子帶中的兩個幀的最低空間頻率子帶,所以在該范圍內(nèi)的信息可以被看成是向量信息在這兩個空間子帶中有相同索引的像素被分成繼承了相同索引的向量組。這在圖7中針對被包含在最低時間子帶中的兩個幀(特別是針對這些幀中的最低空間頻率子帶)而給出了示例。為了壓縮這一信息,建議使用一種向量自適應(yīng)DPCM(差分脈沖編碼調(diào)制)技術(shù)(很清楚,對兩個幀單獨編碼會導(dǎo)致較低的性能)。
利用在分級樹中設(shè)置分區(qū)的零樹編碼只被用于細節(jié)子帶的編碼。利用這樣的觀點,即如果在金字塔中的高層的一個小波系數(shù)對于一個指定的閾值是無關(guān)緊要的,則對應(yīng)于該金字塔的低一些層中相同的空-時位置的所有系數(shù)對于該閾值也是無關(guān)緊要的。因此,所有這些系數(shù)可以用一個稱作零樹根的單一符號被有效地編碼。如果一個小波系數(shù)的絕對值大于該閾值,則該小波系數(shù)就被稱作是重要的,否則就是無關(guān)緊要的。對于發(fā)送,小波系數(shù)被按照二進制表達法排列,且最高有效比特被首先發(fā)送。
現(xiàn)在來描述用于對最低空-時頻率子帶進行編碼的向量自適應(yīng)DPCM技術(shù)。為此,用(i,j)代表最低頻率子帶中的當(dāng)前像素的坐標,用xi,j,yi,j代表最低時間子帶的第一個和相應(yīng)的第二個幀的這個索引處的系數(shù)值(見圖7)。對于向量si,j=xi,jyi,j,]]>一個線性空-時預(yù)測器被基于下列等式,其中(n,m)∈Λ而建立si,jP=Σn,mPn,m·si-n,j-m(1)]]>其中si-n,j-m=xi-n,j-myi-m,j-m,]]>是si,j=xi,jyi,j]]>最近的鄰居,si,jP=xi,jPyi,jP]]>代表si,j=xi,jyi,j]]>的預(yù)測器,且Pn,m=an,mbn,mcn,mdn,m]]>是預(yù)測系數(shù)的矩陣。例如,參考圖7,它可以是si,jP=P1,1·si-1,j-1+Pi,0·si-1,j+P0,1·si,j-1(2)si,jP=P1,1·si-1,j-1+P1,0·si-1,j+P0,1·si,j-1(2)]]>其中P1,1=a1,1b1,1c1,1d1,1,P1,0=a1,0b1,0c1,0d1,0,P0,1=a0,1b0,1c0,1d0,1]]>在等式(2)中,系數(shù)a1,1’a1,0’a0,1實現(xiàn)幀1中的一個空間預(yù)測,d1,1’d1,0’d1,0形成幀2中的一個空間預(yù)測,同時由b1,1’b1,0’b0,1和c1,1’c1,0’c0,1所代表的系數(shù)對應(yīng)于空-時預(yù)測。在等式(1)中,可以使用固定預(yù)測系數(shù)。
另一個可能的實施方案是基于最小化預(yù)測錯誤的均方差來為每組幀找到最佳的預(yù)測系數(shù)。這是一個自適應(yīng)策略,在付出了需要計算復(fù)雜度的代價下,它能獲得比固定情況下好一些的結(jié)果。預(yù)測錯誤是向量si,j的實際值及其預(yù)測值si,jP之間的差。利用基于一個一般化的Lloyd-Max算法的優(yōu)化量化器,預(yù)測錯誤可以被以向量方式量化。為了優(yōu)化,一個簡單的選擇是考慮一個被量化的預(yù)測錯誤向量的兩個分量的聯(lián)合Laplacian概率密度函數(shù)。
這里選擇的實施方案是基于兩向量分量中的一個分級量化,其后跟隨著對該對分量的唯一的二進制碼的分配。如果對于每對被量化的值都計算這一事件的概率并將它與一個唯一的二進制碼相關(guān),從而最小化消息的墑,則這是可能的。用來選擇這個碼的技術(shù)是算術(shù)墑編碼,它在例如I.H.Witten等的“用于數(shù)據(jù)壓縮的算法編碼”(ACM通信,1987年6月,vol.30,N.6,第520-540頁)中被描述。被提議的視頻編碼系統(tǒng)的總體圖在圖8中給出,很清楚地看到,其中3D空-時分解的最低頻率子帶(通過檢查“是否是細節(jié)?”而被檢測到)在一個依靠向量墑編碼的分級量化之后被獨立編碼。
其它子帶依靠3D SPIHT算法被處理然后墑被編碼。然后這些細節(jié)子帶被利用零樹原理來進行編碼,該原理在上述的文獻“嵌入式圖像編碼…“中已經(jīng)描述,該實施方案的主要方法與SPIHT算法中規(guī)定的將系數(shù)集合與減少的閾值進行比較是相同。第一個閾值被選擇為2的冪 這樣所有小波系數(shù)的最大值(即M)為2nmax≤M≤2nmax+1.]]>小波系數(shù)按照編碼器方和解碼器方都已知的一個預(yù)定順序來與這個閾值進行比較。這樣就沒必要在比特流中發(fā)送它。例如,利用圖6中的表示法,空-時子帶的掃描順序可以是t-LL-s-LLLH,t-LL-s-LLHL,t-LL-s-LLHH,t-LH-s-LLLL,t-LH-s-LLLH,t-LH-LLHL,t-LH-s-LLHH,t-LL-s-LLH,t-LL-s-LHL,t-LL-s-LHH,t-LH-s-LLH,t-LH-s-LHL,t-LH-s-LHH等。其它的子帶掃描順序也是可能的。在每個子帶內(nèi)部,一個簡單的解決方案是使用掃描的一個光柵次序。實際上,其它掃描策略也可以被實施,它們對應(yīng)于每個子帶中細節(jié)的優(yōu)先的方向?qū)τ谧詈笏饕帜笧長L和LH的子帶的水平方向、對于最后索引字母為HL的垂直掃描方向和對于最后索引字母為HH的對角線掃描方向。
附圖及其描述是為了說明而不是限制本發(fā)明,很清楚在本發(fā)明的范圍之內(nèi)可以提出大量可供選擇的方案。還必須指出的是,本發(fā)明不局限于針對空-時預(yù)測器所考慮的相鄰像素的數(shù)量和位置、用于運動估計和補償?shù)姆椒?、用于三維分析及合成的線性小波變化的類型、或者允許計算預(yù)測器系數(shù)的自適應(yīng)算法。
權(quán)利要求
1.一種用于壓縮視頻序列的編碼方法,該視頻序列被劃分為多個幀組,這些幀組依靠導(dǎo)致可以產(chǎn)生指定數(shù)量的連續(xù)清晰度等級的三維(3D)小波變換來進行分解,該方法基于一個被稱作“在分級樹中設(shè)置分區(qū)”(SPIHT)的分級子帶編碼過程,且導(dǎo)致可以從每組幀的圖像元素(像素)的原始集合來變換用二進制格式編碼的系數(shù)并構(gòu)成一個分級金字塔,這些系數(shù)借助于涉及由三個已排序的列表即非重要的集合列表(LIS)、非重要的像素(LIP)列表、和重要的像素列表(LSP)所表示的像素的幅度測試來進行排序,這些測試被順序地執(zhí)行,以便根據(jù)一個一直持續(xù)到每個重要系數(shù)都在上述二進制表示法內(nèi)被編碼的劃分過程來將上述的圖像元素的原始集合劃分成分段子集,并且在一個空-時方向樹中,根是由3D小波變換產(chǎn)生的近似子帶的像素構(gòu)成的,這些像素中的每一個的的后代是由對應(yīng)于由這些根像素定義的圖像量的較高的子帶的像素構(gòu)成的,所述空-時方向樹定義了上述分級金字塔內(nèi)部的空-時關(guān)系,應(yīng)用于所述空-時樹的帶通子帶的該方法的特征進一步為(A)根據(jù)下面的條件,向量差分脈沖編碼調(diào)制(DPCM)被用于對最低頻率空-時子帶或近似子帶進行單獨編碼(a)為近似子帶中的每個幀中具有分量的系數(shù)的每個向量構(gòu)造一個空-時預(yù)測量,該預(yù)測量不僅使用視頻序列中過去的幀中相同的位置的值,還使用當(dāng)前幀中的相鄰值,上述向量編碼特性來源于這樣的事實最低頻率子帶含有來自至少兩個幀的空間低頻子帶;(b)上述DPCM使用常量預(yù)測系數(shù);(B)預(yù)測錯誤的量化依靠對兩向量分量的分級量化而被執(zhí)行,其后跟隨著與針對每一對指定的被量化的值而計算出的概率相關(guān)的唯一的二進制碼的分配;(C)由步驟(A)和(B)產(chǎn)生的二進制流通過一個用于最小化整個消息的熵的無損過程來進行編碼。
2.一種用于壓縮視頻序列的編碼方法,該視頻序列被劃分為多個幀組,這些幀組依靠導(dǎo)致可以產(chǎn)生指定數(shù)量的連續(xù)清晰度等級的三維(3D)小波變換來進行分解,該方法基于一個被稱作“在分級樹中設(shè)置分區(qū)”(SPIHT)的分級子帶編碼過程,且導(dǎo)致可以從每組幀的圖像元素(像素)的原始集合來變換用二進制格式編碼的系數(shù)并構(gòu)成一個分級金字塔,這些系數(shù)借助于涉及由三個已排序的列表即非重要的集合列表(LIS)、非重要的像素(LIP)列表、和重要的像素列表(LSP)所表示的像素的幅度測試來進行排序,這些測試被順序地執(zhí)行,以便根據(jù)一個一直持續(xù)到每個重要系數(shù)都在上述二進制表示法內(nèi)被編碼的劃分過程來將上述的圖像元素的原始集合劃分成分段子集,并且在一個空-時方向樹中,根是由3D小波變換產(chǎn)生的近似子帶的像素構(gòu)成的,這些像素中的每一個的的后代是由對應(yīng)于由這些根像素定義的圖像量的較高的子帶的像素構(gòu)成的,所述空-時方向樹定義了上述分級金字塔內(nèi)部的空-時關(guān)系,應(yīng)用于所述空-時樹的帶通子帶的該方法的特征進一步為(A)根據(jù)下面的條件,向量差分脈沖編碼調(diào)制(DPCM)被用于對最低頻率空-時子帶或近似子帶進行單獨編碼(a)為近似子帶中的每個幀中具有分量的系數(shù)的每個向量構(gòu)造一個時空預(yù)測量,該預(yù)測量不僅使用圖像序列中過去的幀中相同的位置的值,還使用當(dāng)前幀中的相鄰值,上述向量編碼特征來源于這樣的事實最低頻率子帶含有來自至少兩個幀的空間低頻子帶;(b)上述DPCM使用常量預(yù)測系數(shù);(B)預(yù)測錯誤的量化依靠向量量化來實現(xiàn),為此要使用一個最優(yōu)量化器并且要基于廣義Lloyd-Max算法,一個針對所述優(yōu)化而考慮的被量化的預(yù)測錯誤向量的兩個分量的聯(lián)合Laplacian概率密度函數(shù);(C)由步驟(A)和(B)產(chǎn)生的二進制流通過一個用于最小化整個消息的熵的無損過程來進行編碼。
3.根據(jù)權(quán)利要求1和2中的任何一項的編碼方法,其中DPCM成為自適應(yīng)的,空-時預(yù)測器的系數(shù)依靠每組幀的這些系數(shù)的最小均方估計來考慮情況變化。
4.根據(jù)權(quán)利要求3的編碼方法,其中要確定預(yù)測器受空間預(yù)測或是時間預(yù)測的影響最大。
5.根據(jù)權(quán)利要求1到4中的任何一項的編碼方法,其中上述無損方法基于算術(shù)編碼。
6.根據(jù)權(quán)利要求1到4中的任何一項的編碼方法,其中上述無損方法基于哈夫曼編碼。
全文摘要
本發(fā)明涉及一個對圖像序列的壓縮編碼方法,該圖像序列被劃分為利用三維(3D)小波變換而分解成的幀組。根據(jù)這個方法,基于分級子帶編碼方法SPIHT并被用于規(guī)定了所獲得的變換系數(shù)的分級金字塔內(nèi)的空-時關(guān)系的一個空-時方向樹的帶通子帶,利用固定預(yù)測系數(shù)或考慮情況變化的自適應(yīng)預(yù)測系數(shù),一個向量DPCM被用于對最低頻率空-時子帶進行單獨編碼,且當(dāng)為在上述子帶的每個幀中具有分量的變換系數(shù)的每個向量建立一個空-時預(yù)測器時,所觀察到的預(yù)測錯誤的量化依靠一個分級或向量量化來進行。由這些調(diào)制和量化步驟中產(chǎn)生的最終二進制流通過一個最小化整個消息的墑的無損技術(shù)來進行編碼。
文檔編號H03M7/30GK1322442SQ00802012
公開日2001年11月14日 申請日期2000年7月13日 優(yōu)先權(quán)日1999年7月20日
發(fā)明者B·佩斯奎特-波佩斯庫, M·貝尼蒂雷 申請人:皇家菲利浦電子有限公司