專利名稱:使用預(yù)解碼器的可伸縮視頻編碼方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻編碼技術(shù),更具體地講,涉及這樣一種方法和設(shè)備,其用于在使用預(yù)解碼器的基于小波的可伸縮(scalable)視頻編碼技術(shù)中通過使用預(yù)解碼器可用的信息來以最佳方式控制比特率。
背景技術(shù):
已經(jīng)知道可通過使用復(fù)雜的率控制算法來顯著提高視頻編碼技術(shù)的R-D性能(率失真性能)。大多數(shù)已知的技術(shù)使用一些在編碼階段產(chǎn)生的有用信息,按照最佳率失真意義為每個(gè)編碼單元分配足夠數(shù)量的比特。在基于小波的可伸縮視頻編碼中,編碼器產(chǎn)生一個(gè)大的比特流,預(yù)解碼器或代碼轉(zhuǎn)換器按照嵌入原理可將該比特流截為任意尺寸。當(dāng)比特流被遵循嵌入原理的編碼方法壓縮時(shí),即使該比特流的一部分被截?cái)?,?shù)據(jù)也能被恢復(fù)。但是,當(dāng)比特流被不遵循嵌入原理的其它編碼方法壓縮時(shí),如果以任意方式從由編碼器產(chǎn)生的大的比特流截?cái)嘣摫忍亓鞯囊徊糠郑敲磾?shù)據(jù)不能被恢復(fù)。
這個(gè)性質(zhì)使得可伸縮視頻編碼器自然適合于使用率控制算法。但是,由于在可伸縮視頻編碼器中應(yīng)該僅在編碼階段之后進(jìn)行實(shí)際的比特分配,所以使用一些僅在編碼器中可用的信息的傳統(tǒng)率控制算法不能被直接應(yīng)用。為此,需要?jiǎng)?chuàng)建一種適合于可伸縮視頻編碼器的單獨(dú)的率控制算法。
允許以從單個(gè)壓縮比特流獲得的各種分辨率、質(zhì)量和時(shí)間級(jí)別進(jìn)行部分解碼的可伸縮視頻編碼被廣泛地看作為一種有前景的技術(shù),其用于從移動(dòng)電話中的低質(zhì)量視頻會(huì)議到來自數(shù)字存儲(chǔ)介質(zhì)的高質(zhì)量電影重放的異類環(huán)境中的高效的信號(hào)顯示和傳輸。這里,時(shí)間級(jí)別指的是當(dāng)每秒幀數(shù)與原始數(shù)據(jù)的每秒幀數(shù)不同時(shí)各自的每秒幀數(shù)。
有多種可實(shí)現(xiàn)視頻編碼技術(shù)中的可伸縮性的方法。盡管MPEG-4FGS(精細(xì)粒度可伸縮性)已經(jīng)被建立為SNR(聲噪比)和時(shí)間可伸縮視頻編碼標(biāo)準(zhǔn),但是已經(jīng)證明了許多基于小波的可伸縮視頻編碼方案在SNR、空間和時(shí)間可伸縮性方面具有潛力。術(shù)語“時(shí)間”指的是基于時(shí)間布置的多個(gè)幀中的一些幀,術(shù)語“空間”指的是幀的一部分。
運(yùn)動(dòng)補(bǔ)償嵌入零塊編碼(MC-EZBC)是使用3-D子帶/小波變換的完全的可伸縮視頻編碼系統(tǒng),其中,3-D子帶/小波變換通過運(yùn)動(dòng)補(bǔ)償時(shí)間濾波(MCTF)使用時(shí)間相關(guān)并通過小波變換使用空間相關(guān)。要獲得關(guān)于MC-EZBC更詳細(xì)的信息,可參見S.-T.Hsiang的博士論文“Highly scalable subband/wavelet imageand video coding”(Rensselaer Polytechnic Institute,New York,Jan.2002)。
最近的實(shí)驗(yàn)結(jié)果顯示MC-EZBC在幾乎所有的測(cè)試條件下優(yōu)于MPEG-4FGS。在MC-EZBC中,通常包括16或32幀的畫面組(GOP)由可逆運(yùn)動(dòng)補(bǔ)償時(shí)間濾波沿著所有的運(yùn)動(dòng)軌跡變換。濾波后的幀還被小波變換分解以使用空間冗余,并且被嵌入零塊編碼(EZBC)算法編碼,而運(yùn)動(dòng)矢量碼流被DPCM(差分脈沖編碼調(diào)制)和算術(shù)編碼的組合編碼。
由于EZBC算法的嵌入性質(zhì),MC-EZBC的比特流可在任意點(diǎn)被截?cái)?,而沒有顯著的可察覺的失真。因?yàn)榭刂茀?shù)是為每個(gè)編碼單元分配的比特率,而不是通常在混合編碼器中使用的量化步長(zhǎng)大小,所以嵌入性質(zhì)很大地簡(jiǎn)化了率控制。與MPEG的率控制相比,對(duì)關(guān)于嵌入小波視頻編碼器的率控制的研究相對(duì)很少。P.-Y.Cheng在他的論文“Rate control for an embedded waveletvideo coder”(IEEE Trans.Grcuits Syst.Video Technol.,vol.7,no.4,pp.696-702,Aug.1997)中提出了一種通過嵌入小波編碼器的率失真性能以及參考幀和預(yù)測(cè)幀之間的幀依賴性而導(dǎo)出的率控制方案。另外,Caetano在“Rate controlstrategy for embedded wavelet video coders”(Electronics Letters,vol.35,no.21,pp.1815-1817,Oct.1999)中還通過使用分段線性率失真模型而改進(jìn)了P.-Y.Cheng的工作。并且,H.J.Lee在“Scalable rate control for MPEG-4 video”(IEEE Trans.Grcuits Syst.Video Technol.,vol.10,pp.878-894,Sept.2000)中提出了基于用于零樹熵小波編碼的最優(yōu)化技術(shù)的率失真。大多數(shù)率失真最優(yōu)化方法使用一些在編碼器中可用的有用信息,諸如平均絕對(duì)差(MAD)、均方差(MSE)和峰值信噪比(PSNR)。
圖1是示出基于率失真最優(yōu)化技術(shù)的視頻編碼解碼器的整個(gè)結(jié)構(gòu)的方框圖。參照該圖,率控制模塊130基于比特率30,即用戶的目標(biāo)比特率,來選擇關(guān)于每個(gè)編碼單元的最佳量化器步長(zhǎng)或最佳比特量,編碼器110通過基于量化步長(zhǎng)或最佳比特量對(duì)原始運(yùn)動(dòng)畫面編碼來產(chǎn)生適合于有限的通信條件的帶寬有限的比特流40。然后,解碼器120從帶寬有限的比特流40恢復(fù)圖像序列,并且輸出解壓縮的運(yùn)動(dòng)畫面20。在傳統(tǒng)技術(shù)中,僅在編碼器110中執(zhí)行率控制。
將更詳細(xì)地描述在率控制模塊130中執(zhí)行的基于目標(biāo)比特率30的率控制過程。為此,假設(shè)源統(tǒng)計(jì)具有拉格朗日分布。如果使用差分函數(shù)作為失真測(cè)量,那么存在用于率失真函數(shù)的封閉形式的求解等式[1],其中,D表示在數(shù)據(jù)壓縮中產(chǎn)生的失真率,并且通過原始圖像和最終解壓縮的圖像之間的差而被計(jì)算出。
R(D)=ln(1αD)···[1]]]>許多率失真最優(yōu)化技術(shù)基于二次率失真函數(shù),該函數(shù)是等式[1]的簡(jiǎn)化形式,定義為如下R(i)=aQ(i)-1+bQ(i)-2[2]其中,a和b是模型參數(shù),Q(i)是量化器索引,R(i)是用于對(duì)第i編碼單元進(jìn)行編碼的比特的總數(shù)。在H.J.Lee的論文中,通過引入兩個(gè)新的參數(shù)MAD和非紋理開銷,將二次R-D函數(shù)修改為等式[3]。
R(i)-H(i)M(i)=aQ(i)-1+bQ(i)-2···[3]]]>在等式[3]中,H(i)表示用于頭信息和運(yùn)動(dòng)矢量的比特,M(i)表示使用亮度分量的運(yùn)動(dòng)估計(jì)殘差而計(jì)算出的MAD。因?yàn)樵谕槐忍芈氏拗葡?,較大的步長(zhǎng)應(yīng)該用于高復(fù)雜度的幀,較小的步長(zhǎng)應(yīng)該用于低復(fù)雜度的幀,所以將MAD包括在R-D函數(shù)中的原因是考慮了用于選擇量化器步長(zhǎng)的場(chǎng)景復(fù)雜度。
修改后的R-D函數(shù)[3]已經(jīng)被采納為MPEG-4標(biāo)準(zhǔn)的一部分。在MPEG-4驗(yàn)證模型5.1中,通過使用過去幀的數(shù)據(jù)點(diǎn)選擇以及線性回歸分析來找到a和b,從運(yùn)動(dòng)補(bǔ)償塊計(jì)算M(i),并且最終找到目標(biāo)量化器索引Q(i)。在找到Q(i)之后,根據(jù)當(dāng)前幀的信息來更新模型參數(shù)。盡管在MPEG-4中使用的率控制算法能有效地提高R-D性能,但是應(yīng)該做出一些改變,以將該算法應(yīng)用于使用預(yù)解碼器的可伸縮視頻編碼框架。
圖2是示出根據(jù)傳統(tǒng)技術(shù)的基于小波的可伸縮視頻編碼解碼器的操作結(jié)構(gòu)的方框圖。
傳統(tǒng)的率控制算法通常已經(jīng)提高了R-D性能,但是所有傳統(tǒng)方法利用僅在編碼階段可用的預(yù)測(cè)誤差信息,這表明應(yīng)該在編碼器210中進(jìn)行率控制。對(duì)于大多數(shù)需要完全的可伸縮視頻編碼器的應(yīng)用,考慮到質(zhì)量、時(shí)間和空間條件,編碼器210應(yīng)該產(chǎn)生足夠大的比特流35,并且預(yù)解碼器或代碼轉(zhuǎn)換器220通過從比特流35截?cái)嘁徊糠直忍貋硖崛【哂凶銐驍?shù)量的比特的比特流40。然后,解碼器230能夠從比特流40恢復(fù)視頻序列20,并且顯示解壓縮的運(yùn)動(dòng)畫面20。
發(fā)明內(nèi)容
技術(shù)問題再參照?qǐng)D2,因?yàn)樵陬A(yù)解碼器220中確定實(shí)際的比特率,所以應(yīng)該在預(yù)解碼器220中而不是在編碼器210中進(jìn)行率控制。但是,對(duì)預(yù)解碼器220中的率控制算法的研究很少,相反,通常使用恒定比特率(CBR)方案(參見S.-T.Hsiang的論文)。因此,值得對(duì)使用僅在預(yù)解碼器中可用的信息的率控制算法進(jìn)行討論。
技術(shù)解決方案構(gòu)思本發(fā)明以解決上述問題。本發(fā)明的一方面在于提供一種使用僅在預(yù)解碼器中可用的信息的新的率控制算法,以提高基于小波的可伸縮視頻編碼器的性能。
本發(fā)明的另一方面在于提供這樣一種方法,該方法通過將最佳量的比特分配給每個(gè)編碼單元,而不是通過將相同量的比特分配給各個(gè)編碼單元,來提高率失真性能。
本發(fā)明的另一方面在于提出允許率控制算法應(yīng)用于所有基于小波的可伸縮視頻編碼技術(shù)。
與本發(fā)明的一方面一致,提供一種用于控制比特率的方法,該方法包括以下步驟對(duì)通過將原始圖像編碼而產(chǎn)生的比特流確定用于每個(gè)編碼單元的比特量,以將最終圖像偏離原始圖像的失真最小化;和通過基于確定的比特量截?cái)嗨a(chǎn)生的比特流的一部分,來提取具有目標(biāo)量的比特的比特流。
為了獲得通過使用場(chǎng)景復(fù)雜度函數(shù)以及最終幀偏離原始幀的失真而限定的編碼單元的比特量,確定步驟最好包括以下步驟通過使用根據(jù)每編碼單元的比特面的數(shù)量的比特分布,來確定場(chǎng)景復(fù)雜度函數(shù);和使用將最終幀偏離原始幀的失真最小化的方法來確定每編碼單元的比特量。
關(guān)于編碼單元的比特量R(i)被定義為R(i)M(i)=ln(1αD(i)),]]>其中,對(duì)于使用k個(gè)比特面的累加的編碼的比特B(i,k),通過使用外插方案來確定面的數(shù)量K*,由此編碼的比特的總數(shù)為BT,用B(i,k)來取代場(chǎng)景復(fù)雜度函數(shù)M(i),在應(yīng)用所述計(jì)算的率失真函數(shù)中D(i)2為最小的R(i)的表達(dá)是R(i)B(i,K*)=ln(1αD(i)),]]>并且通過應(yīng)用限制Σi=1NR(i)=BT]]>而具有最佳比特分配的R(i)被獲得。
與本發(fā)明的另一方面一致,提供一種用于可伸縮視頻編碼的方法,該方法包括以下步驟通過將原始運(yùn)動(dòng)畫面編碼來產(chǎn)生比特流;使用根據(jù)產(chǎn)生的比特流的比特面的數(shù)量的比特分布來確定場(chǎng)景復(fù)雜度函數(shù),通過將對(duì)原始運(yùn)動(dòng)畫面編碼所產(chǎn)生的比特流表示為相對(duì)于每編碼單元的比特量的場(chǎng)景復(fù)雜度函數(shù),來進(jìn)行所述確定,以使得最終幀偏離原始運(yùn)動(dòng)畫面的失真被最小化;和通過基于確定的比特量截?cái)喈a(chǎn)生的比特流的一部分,來提取具有目標(biāo)量的比特的比特流。
該方法還包括從提取的比特流恢復(fù)并解壓縮原始運(yùn)動(dòng)畫面的圖像序列的步驟。
與本發(fā)明的另一方面一致,提供一種用于控制比特率的設(shè)備,該設(shè)備包括用于通過將原始圖像編碼來確定每編碼單元的比特量以使得最終幀偏離原始圖像的失真最小的裝置;和用于通過基于確定的比特量截?cái)喈a(chǎn)生的比特流的一部分來提取具有目標(biāo)量的比特的比特流的裝置。
與本發(fā)明的另一方面一致,提供一種用于可伸縮視頻編碼的設(shè)備,該設(shè)備包括編碼器,用于通過將原始運(yùn)動(dòng)畫面編碼來產(chǎn)生比特流;率控制模塊,用于使用根據(jù)產(chǎn)生的比特流的比特面的數(shù)量的比特分布來確定場(chǎng)景復(fù)雜度函數(shù),通過將對(duì)原始運(yùn)動(dòng)畫面編碼所產(chǎn)生的比特流表示為相對(duì)于每編碼單元的比特量的場(chǎng)景復(fù)雜度函數(shù),來進(jìn)行所述確定,以使得最終幀偏離原始運(yùn)動(dòng)畫面的失真被最小化;和預(yù)解碼器,用于通過基于確定的比特量截?cái)喈a(chǎn)生的比特流的一部分,來提取具有目標(biāo)量的比特的比特流。
該設(shè)備還可包括解碼器,用于從提取的比特流恢復(fù)并解壓縮原始運(yùn)動(dòng)畫面的圖像序列。
與本發(fā)明的另一方面一致,提供一種在其上存儲(chǔ)有使用預(yù)解碼器的基于小波的可伸縮視頻編碼方法的存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)可由計(jì)算機(jī)讀取。
通過結(jié)合附圖,從下面詳細(xì)的描述中,本發(fā)明的以上和其它方面、特點(diǎn)及其它優(yōu)點(diǎn)將會(huì)更清楚地被理解,其中圖1是示出基于率失真最優(yōu)化技術(shù)的視頻編碼解碼器的整個(gè)結(jié)構(gòu)的方框圖;圖2是示出根據(jù)傳統(tǒng)技術(shù)的基于小波的可伸縮視頻編碼解碼器的操作結(jié)構(gòu)的方框圖;圖3是示出根據(jù)本發(fā)明的基于小波的可伸縮視頻編碼解碼器的操作結(jié)構(gòu)的方框圖;圖4是示出關(guān)于foreman QCIF序列的比特分布的視圖;圖5是示出M(i)和B(i,K*)的視圖,其中,α為0.156;圖6是示出關(guān)于football QCIF的紋理比特率;圖7是示出關(guān)于football QCIF的GOP平均PSNR;圖8是示出本發(fā)明的整個(gè)操作的流程圖;和圖9是示出圖8中所示的步驟S820的詳細(xì)子步驟的流程圖。
具體實(shí)施例方式
以下,將參照附圖來詳細(xì)描述本發(fā)明的示例性實(shí)施例。
圖3是示出根據(jù)本發(fā)明的基于小波的可伸縮視頻編碼解碼器的操作結(jié)構(gòu)的方框圖。參照該圖,可伸縮編碼器310通過對(duì)原始運(yùn)動(dòng)畫面進(jìn)行編碼來產(chǎn)生足夠大的比特流35,率控制模塊340基于用戶的目標(biāo)比特率35來為各個(gè)編碼單元選擇最佳比特量。預(yù)解碼器320接收輸入的比特流35,并且通過基于由率控制模塊340選擇的最佳比特量截?cái)啾忍亓?5的一部分,來提取具有足夠比特量的比特流40。然后,解碼器330從提取的比特流40恢復(fù)原始運(yùn)動(dòng)畫面的圖像序列,并將其解壓縮。接下來,產(chǎn)生最終解壓縮的原始運(yùn)動(dòng)畫面。
本發(fā)明特別集中在率控制模塊340中的操作上。率控制模塊340中的操作包括三個(gè)過程定義預(yù)解碼器的率失真函數(shù);使用來自預(yù)解碼器的信息來對(duì)場(chǎng)景復(fù)雜度函數(shù)進(jìn)行建模;和通過使用預(yù)解碼器的率失真函數(shù)來推導(dǎo)新的率控制函數(shù)以最小化失真。本發(fā)明使用場(chǎng)景復(fù)雜度函數(shù),該函數(shù)使用相同數(shù)量的比特面(bitplane)上的比特分布來取代根據(jù)傳統(tǒng)技術(shù)僅在編碼器中可用的MAD(平均絕對(duì)差)信息。
首先,將描述定義率失真函數(shù)的過程。
假設(shè)發(fā)送的視頻可被分割為多個(gè)具有畫面組(GOP)的編碼單元,每個(gè)GOP具有多個(gè)幀,由此存在于GOP中的各個(gè)幀由于MCTF過程而非常相關(guān),然而,因?yàn)楦鱾€(gè)GOP被單獨(dú)編碼并且彼此獨(dú)立,所以率控制算法可被簡(jiǎn)化。對(duì)于起始點(diǎn),將等式[1]的R-D函數(shù)修改為具有等式[4]中的場(chǎng)景復(fù)雜度參數(shù)M(i)。
R(i)M(i)=ln(1αD(i))···[4]]]>其中,R(i)、M(i)和D(i)分別是用于第iGOP(編碼單元)的比特總數(shù)、場(chǎng)景復(fù)雜度參數(shù)以及一幀與由解碼器解壓縮的最終幀之間的平均差。為了簡(jiǎn)化符號(hào),由于非紋理開銷H(i)具有微小的影響,所以在本說明書的等式[4]和其它等式中沒有考慮H(i)。假設(shè)BT是用于包括N個(gè)GOP的整個(gè)視頻序列的總的比特,則可得到等式[5]。
Σi=1NR(i)=BT···[5]]]>現(xiàn)在,率控制問題可被表示為下式{R(1),···,R(N)}=argmin{R(1),···,R(N)}Σi=1ND(i)2···[6]]]>其中,等式右側(cè)表示R(1)或R(N)被選擇,以使得D(i)2在等式[4]和[5]的條件下具有最小值。均方差(MSE)用于[6]中的失真測(cè)量。非常清楚的是,等式[6]中R(i)的計(jì)算需要兩個(gè)參數(shù)M(i)和D(i)。盡管在傳統(tǒng)方法中,平均絕對(duì)差(MAD)通常用于M(i),但是因?yàn)樵诓坏弥磾?shù)據(jù)的值的預(yù)解碼器階段中不能獲得MAD,所以在本發(fā)明中,MAD不能用于M(i)。因此,必須使用在預(yù)解碼器中可用的其它信息來逼近M(i)。
第二,將描述使用比特分布的場(chǎng)景復(fù)雜度函數(shù)建模的過程。用于量化小波系數(shù)的嵌入量化算法基本包括兩個(gè)步驟為各個(gè)子帶建立四叉樹表示;和對(duì)有效像素進(jìn)行逐行(pregressive)比特面編碼。逐行比特面編碼可被認(rèn)為是逐次逼近量化方案,該方案具有用于系數(shù)比特面索引n的閾值2n。另外,有效像素的數(shù)量與所分配的比特的量直接相關(guān)。有效像素的數(shù)量越大,那么對(duì)這些像素進(jìn)行編碼所需的比特就越多,反之亦然。
圖4是示出關(guān)于foreman QCIF序列的比特分布的視圖。在該圖中,灰度強(qiáng)度表示用于GOP索引和使用的比特面的數(shù)量的所分配的比特的總量,其中,灰度強(qiáng)度越亮,那么比特的數(shù)量就越大。為了清楚地示出相對(duì)強(qiáng)度,灰度強(qiáng)度被在給定數(shù)量的比特面上的所有GOP之和歸一化。如該圖所示,清楚的是,分配的比特的數(shù)量對(duì)于具有相同數(shù)量的比特面的不同GOP索引(相對(duì)于時(shí)間的GOP逐次排列)變化很大。如果將場(chǎng)景復(fù)雜度定義為對(duì)給定圖像幀進(jìn)行編碼的困難程度,那么用于相同數(shù)量的比特面上的GOP的分配的比特的量與GOP中的相對(duì)場(chǎng)景復(fù)雜度強(qiáng)烈相關(guān)。
假設(shè)B(i,k)是使用k個(gè)比特面的累加的編碼的比特,并且使用的比特面的數(shù)量是用于所有GOP的常值K,那么B(i,K)產(chǎn)生用于第iGOP的場(chǎng)景復(fù)雜度的一些統(tǒng)計(jì),并且總的分配的比特由下式給出A(K)=Σi=1NB(i,K)···[7]]]>其中,N是GOP的總數(shù)。通過使用線性內(nèi)插技術(shù),可獲得在總的編碼的比特具有BT的確切點(diǎn)的更準(zhǔn)確的場(chǎng)景復(fù)雜度的統(tǒng)計(jì)。假設(shè)K*是比特面的非整數(shù)數(shù)量,其中所述比特面的分配的比特的總量確切為BT,那么可獲得下面的等式。
B(i,K*)=Γ(i,K){BT-A(K)}+B(i,K) [8]其中,Γ(i,K)=B(i,K)-B(i,K-1)A(K)-A(K-1)···[9]]]>并且,A(K-1)≤BT<A(K) [10]為了找到MAD值M(i)和在相同數(shù)量的比特面上的比特的量B(i,K*)之間的一些關(guān)系,R(i)的值被固定以產(chǎn)生用于foreman QCIF序列的512kbps的比特流。從原始序列和解碼的序列之間的PSNR計(jì)算D(i)。此外,從等式[4]計(jì)算M(i)。
圖5是示出M(i)和B(i,K*)的視圖,其中,α為0.156。如該圖中所示,B(i,K*)與M(i)很好地匹配,因此,B(i,K*)可用于使用近似值alpha(α)來取代M(i)。用B(i,K*)取代等式[4]中的M(i)則產(chǎn)生下式R(i)B(i,K*)=ln(1αD(i))···[11]]]>第三,將描述用于找到最小化失真的率控制算法的過程?,F(xiàn)在,可解決率控制問題??赏ㄟ^使用拉格朗日方法將等式[6]中的有約束的最優(yōu)化問題轉(zhuǎn)化為無約束的最優(yōu)化問題。為了使用用于GOP而不是一幀的數(shù)量的比特,稍微修改了Cheng的方法。在這種情況下,可通過將下面的等式最小化來實(shí)現(xiàn)本發(fā)明的目的。
J(R(1),···,R(N))=Σi=1ND(i)2+λ(Σi=1NR(i)-BT)···[12]]]>其中,R(i)是用于第i GOP的分配的比特,D(i)由等式[11]給出。由于每個(gè)GOP被獨(dú)立地處理,所以D(i)僅取決于R(i)。因此,在最佳點(diǎn)獲得下面的等式∂D(i)2∂R(i)+λ=0,i=1,2,···,N···[13]]]>針對(duì)D(i)2來重新布置等式[11]并將其代入等式[13],則產(chǎn)生下面的等式R(i)=-B(i,K*)2{lnα2λ2+lnB(i,K*)2}···[14]]]>因?yàn)橛糜谒蠫OP的R(i)之和應(yīng)為BT,所以等式[14]的右側(cè)滿足下面的等式-Σi=1NB(i,K*)2{lnα2λ2+lnB(i,K*)2}=BT···[15]]]>重新布置等式[15]并將其代入等式[14],則產(chǎn)生如下面的等式所示的最佳比特分配。
R0(i)=B(i,K*)+B(i,K*)β(i)Σi=1NB(i,K*)···[16]]]>其中,β(i)=Σi=1NB(i,K*)2lnB(i,K*)2-lnB(i,K*)2Σi=1NB(i,K*)2···[17]]]>應(yīng)該注意的是,可同時(shí)去除兩個(gè)未知參數(shù)α和λ。此外,可容易地看出,等式[16]的右側(cè)的第二項(xiàng)從i=1到N之和為零。使用本發(fā)明提出的等式[16],而不是使用恒定比特分配方案,可提高視頻編碼器的R-D性能。另外,由于等式[16]和[17]是簡(jiǎn)單的求和,并且在每個(gè)GOP被計(jì)算一次,所以加于率控制的計(jì)算復(fù)雜度是可忽略的。
將通過仿真來將本發(fā)明提出的方法的性能與傳統(tǒng)方法的性能進(jìn)行比較。公開的MC-EZBC實(shí)現(xiàn)(參見S.-T.Hsiang的論文)用作兩種方法的基線視頻編碼器。作為用于性能比較的運(yùn)動(dòng)畫面源,30Hz幀率(FPS每秒幀數(shù))的QCIF大小的foreman、football和canoa序列被使用。在將這些序列編碼之后,使用傳統(tǒng)CBR(參見S.-T.Hsiang的論文)和本發(fā)明提出的兩種率控制方案,使用預(yù)解碼器以從62kbps到768kbps的比特率來產(chǎn)生比特流。
表1顯示了使用CBR和所提出的率控制方案的平均PSNR結(jié)果。VBR-D是提出的用于將失真最小化的方法。
表1
如上表所示,提出的方案優(yōu)于傳統(tǒng)CBR方案可達(dá)0.4dB。另外,可以看出,PSNR性能在比特率為64kbps時(shí)非常小。因?yàn)樵趥鹘y(tǒng)的MC-EZBC下只有紋理信息可伸縮,所以主要由于在非常低的比特率下缺乏紋理信息而導(dǎo)致這種趨勢(shì)。
表2顯示了使用CBR和VBR-D的PSNR值的標(biāo)準(zhǔn)差。
表2
清楚的是,VBR-D可顯著地降低PSNR曲線的標(biāo)準(zhǔn)差。VBR-D將幀PSNR的標(biāo)準(zhǔn)差降低大約25%。圖6是示出關(guān)于football QCIF的紋理比特率。以512kbps的平均比特率將Football QCIF編碼。因?yàn)闆]有包括用于運(yùn)動(dòng)矢量和頭信息的比特率,所以在該圖中顯示的實(shí)際平均比特率小于目標(biāo)比特率。此外,顯示了GOP平均PSNR,而不是顯示了幀PSNR,以研究PSNR曲線的總體平直度。在圖6中,CBR的比特率幾乎不變,而由于VBR-D的比特率被可變化很大的場(chǎng)景特性最優(yōu)化,所以VBR-D的比特率是可變化很大。另一方面,如圖7所示,VBR-D的GOP平均PSNR曲線比CBR的GOP平均PSNR曲線稍微平直一些。該性質(zhì)對(duì)于增加主觀視覺質(zhì)量非常有用,這是因?yàn)榭赏ㄟ^犧牲一些“太好”的幀的視覺質(zhì)量而提高一些“太差”的幀的視覺質(zhì)量來按照更感性的意義控制視覺質(zhì)量。
圖8是示出本發(fā)明的整個(gè)操作的流程圖,圖9是示出圖8中所示的步驟S820的詳細(xì)子步驟的流程圖??缮炜s編碼器310通過將原始運(yùn)動(dòng)畫面編碼來產(chǎn)生足夠大的比特流35(S810)。然后,率控制模塊340基于用戶的目標(biāo)比特率來選擇用于每個(gè)編碼單元的最佳比特量(S820)。
為了更詳細(xì)地描述步驟S820,通過使用每編碼單元的比特總數(shù)、場(chǎng)景復(fù)雜度函數(shù)以及單幀與最終幀之間的差值(最終幀偏離該單幀的失真),來定義率失真函數(shù)(S910)。然后,場(chǎng)景復(fù)雜度函數(shù)通過根據(jù)編碼單元和比特面的數(shù)量的比特分布來執(zhí)行建模,并且已執(zhí)行了建模的場(chǎng)景復(fù)雜度函數(shù)被應(yīng)用于率失真函數(shù)(S920)。接下來,通過使用應(yīng)用了已執(zhí)行建模的場(chǎng)景復(fù)雜度函數(shù)的率控制函數(shù),來導(dǎo)出用于最小化失真的新的率控制函數(shù)(S930)。
預(yù)解碼器320接收輸入的比特流35,并且,通過基于在率控制模塊340中導(dǎo)出的新的率控制函數(shù),即導(dǎo)出的最佳比特量截?cái)啾忍亓?5的一部分,來提取具有適量比特的比特流40(S830)。然后,解碼器330從提取的比特流40恢復(fù)并解壓縮原始運(yùn)動(dòng)畫面的圖像序列(S840)。最后,產(chǎn)生解壓縮的原始運(yùn)動(dòng)畫面。
產(chǎn)業(yè)上的可利用性如上所述,本發(fā)明提供了根據(jù)帶寬而具有合適大小的比特流,其中,帶寬根據(jù)網(wǎng)絡(luò)環(huán)境而可變。
與利用預(yù)解碼器中的CBR的率控制方法相比,本發(fā)明更具有優(yōu)勢(shì),其在于視覺場(chǎng)景質(zhì)量的平均PSNR提高到上至0.4dB。
此外,根據(jù)本發(fā)明的率控制算法被有利地應(yīng)用于所有基于小波的可伸縮視頻編碼技術(shù)。
雖然本發(fā)明是結(jié)合其示例性的實(shí)施例被描述的,但是本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離本發(fā)明的范圍和精神的情況下,可以對(duì)其進(jìn)行各種修改和變化。因此,應(yīng)該理解,上述實(shí)施例在所有方面不是限制性的,而是示意性的。
權(quán)利要求
1.一種用于控制比特率的方法,包括以下步驟對(duì)通過將原始圖像編碼而產(chǎn)生的比特流確定用于每個(gè)編碼單元的比特量,以將最終圖像偏離原始圖像的失真最小化;和通過基于確定的比特量截?cái)嗨a(chǎn)生的比特流的一部分,來提取具有目標(biāo)量的比特的比特流。
2.根據(jù)權(quán)利要求1所述的方法,其中,為了獲得通過使用場(chǎng)景復(fù)雜度函數(shù)以及最終幀偏離原始幀的失真而限定的編碼單元的比特量,所述確定步驟包括以下步驟通過使用根據(jù)每編碼單元的比特面的數(shù)量的比特分布,來確定場(chǎng)景復(fù)雜度函數(shù);和使用將最終幀偏離原始幀的失真最小化的方法來確定每編碼單元的比特量。
3.根據(jù)權(quán)利要求2所述的方法,其中,關(guān)于編碼單元的比特量R(i)被定義為R(i)M(i)=ln(1αD(i)),]]>其中,對(duì)于使用k個(gè)比特面的累加的編碼的比特B(i,k),通過使用外插方案來確定比特面的數(shù)量K*,由此編碼的比特的總數(shù)為BT,用B(i,k)來取代場(chǎng)景復(fù)雜度函數(shù)M(i),在率失真函數(shù)中具有D(i)2的最小值的R(i)的表達(dá)是R(i)B(i,K*)=ln(1αD(i)),]]>并且通過應(yīng)用限制Σi=1NR(i)=BT]]>而具有最佳比特分配的R(i)被獲得。
4.一種用于可伸縮視頻編碼的方法,包括以下步驟通過將原始運(yùn)動(dòng)畫面編碼來產(chǎn)生比特流;使用根據(jù)產(chǎn)生的比特流的比特面的數(shù)量的比特分布來確定場(chǎng)景復(fù)雜度函數(shù),通過將對(duì)原始運(yùn)動(dòng)畫面編碼所產(chǎn)生的比特流表示為相對(duì)于每編碼單元的比特量的場(chǎng)景復(fù)雜度函數(shù),來進(jìn)行所述確定,以使得最終幀偏離原始運(yùn)動(dòng)畫面的失真被最小化;和通過基于確定的比特量截?cái)喈a(chǎn)生的比特流的一部分,來提取具有目標(biāo)量的比特的比特流。
5.根據(jù)權(quán)利要求4所述的方法,還包括從提取的比特流恢復(fù)并解壓縮原始運(yùn)動(dòng)畫面的圖像序列的步驟。
6.根據(jù)權(quán)利要求4所述的方法,其中,關(guān)于編碼單元的比特量R(i)被定義為R(i)M(i)=ln(1αD(i)),]]>其中,對(duì)于使用k個(gè)比特面的累加的編碼的比特B(i,k),通過使用外插方案來確定比特面的數(shù)量K*,由此編碼的比特的總數(shù)為BT,用B(i,k)來取代場(chǎng)景復(fù)雜度函數(shù)M(i),在率失真函數(shù)中具有D(i)2的最小值的R(i)的表達(dá)是R(i)B(i,K*)=ln(1αD(i)),]]>并且通過應(yīng)用限制Σi=1NR(i)=BT]]>而具有最佳比特分配的R(i)被獲得。
7.根據(jù)權(quán)利要求6所述的方法,其中,通過使用拉格朗日方法來獲得具有D(i)2的最小值的表達(dá)R(i)。
8.一種用于控制比特率的設(shè)備,包括編碼器,用于通過將原始圖像編碼來確定每編碼單元的比特量,以使得最終幀偏離原始圖像的失真最小;和提取器,用于通過基于確定的比特量截?cái)喈a(chǎn)生的比特流的一部分,來提取具有目標(biāo)量的比特的比特流。
9.根據(jù)權(quán)利要求8所述的設(shè)備,其中,為了獲得通過使用場(chǎng)景復(fù)雜度函數(shù)以及最終幀偏離原始幀的失真而限定的編碼單元的比特量,編碼器包括場(chǎng)景復(fù)雜度確定器,用于通過使用根據(jù)每編碼單元的比特面的數(shù)量的比特分布,來確定場(chǎng)景復(fù)雜度函數(shù);和編碼單元確定器,用于使用將最終幀偏離原始幀的失真最小化的方法來確定每編碼單元的比特量。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其中,關(guān)于編碼單元的比特量R(i)被定義為R(i)M(i)=ln(1αD(i)),]]>其中,對(duì)于使用k個(gè)比特面的累加的編碼的比特B(i,k),通過使用外插方案來確定比特面的數(shù)量K*,由此編碼的比特的總數(shù)為BT,用B(i,k)來取代場(chǎng)景復(fù)雜度函數(shù)M(i),在率失真函數(shù)中具有D(i)2的最小值的R(i)的表達(dá)是R(i)B(i,K-*)=ln(1αD(i)),]]>并且通過應(yīng)用限制Σi=1NR(i)=BT]]>而具有最佳比特分配的R(i)被獲得。
11.一種用于可伸縮視頻編碼的設(shè)備,包括編碼器,用于通過將原始運(yùn)動(dòng)畫面編碼來產(chǎn)生比特流;率控制模塊,用于使用根據(jù)產(chǎn)生的比特流的比特面的數(shù)量的比特分布來確定場(chǎng)景復(fù)雜度函數(shù),通過將對(duì)原始運(yùn)動(dòng)畫面編碼所產(chǎn)生的比特流表示為相對(duì)于每編碼單元的比特量的場(chǎng)景復(fù)雜度函數(shù),來進(jìn)行所述確定,以使得最終幀偏離原始運(yùn)動(dòng)畫面的失真被最小化;和預(yù)解碼器,用于通過基于確定的比特量截?cái)喈a(chǎn)生的比特流的一部分,來提取具有目標(biāo)量的比特的比特流。
12.根據(jù)權(quán)利要求11所述的設(shè)備,還包括解碼器,用于從提取的比特流恢復(fù)并解壓縮原始運(yùn)動(dòng)畫面的圖像序列。
13.根據(jù)權(quán)利要求11所述的設(shè)備,其中,關(guān)于編碼單元的比特量R(i)被定義為R(i)M(i)=ln(1αD(i)),]]>其中,對(duì)于使用k個(gè)比特面的累加的編碼的比特B(i,k),通過使用外插方案來確定比特面的數(shù)量K*,由此編碼的比特的總數(shù)為BT,用B(i,k)來取代場(chǎng)景復(fù)雜度函數(shù)M(i),在率失真函數(shù)中具有D(i)2的最小值的R(i)的表達(dá)是R(i)B(i,K*)=ln(1αD(i)),]]>并且通過應(yīng)用限制Σi=1NR(i)=BT]]>而具有最佳比特分配的R(i)被獲得。
14.根據(jù)權(quán)利要求13所述的設(shè)備,其中,通過使用拉格朗日方法來獲得具有D(i)2的最小值的表達(dá)R(i)。
15.一種在其上存儲(chǔ)有根據(jù)權(quán)利要求1所述的方法的存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)可由計(jì)算機(jī)讀取。
全文摘要
提供了一種方法和設(shè)備,該方法和設(shè)備用于在使用預(yù)解碼器的基于小波的可伸縮視頻編碼技術(shù)中通過使用預(yù)解碼器可用的信息來以最佳方式控制比特率。用于控制比特率的方法包括以下步驟對(duì)通過將原始圖像編碼而產(chǎn)生的比特流確定用于每個(gè)編碼單元的比特量,以將最終圖像偏離原始圖像的失真最小化;和通過基于確定的比特量截?cái)嗨a(chǎn)生的比特流的一部分,來提取具有目標(biāo)量的比特的比特流。
文檔編號(hào)H04N7/24GK1843035SQ200480024327
公開日2006年10月4日 申請(qǐng)日期2004年7月9日 優(yōu)先權(quán)日2003年8月26日
發(fā)明者韓宇鎮(zhèn), 任昶勛, 河昊振, 李培根 申請(qǐng)人:三星電子株式會(huì)社