視頻編碼和解碼的方法

文檔序號：7893265閱讀：176來源：國知局

專利名稱：視頻編碼和解碼的方法
技術領域：
本發(fā)明涉及視頻壓縮系統(tǒng)，并且具體涉及一種整數(shù)變換函數(shù)。
背景技術：
在例如像視頻會議、網(wǎng)絡會議、TV廣播和視頻電話的若干應用中采用運動畫面的實時傳送。然而，因為一般通過利用8個比特(1字節(jié))表示畫面中的每個像素來描述數(shù)字視頻，所以表示運動畫面需要大量信息。這種未壓縮的視頻數(shù)據(jù)產(chǎn)生巨大的比特量，并且由于有限的帶寬而無法在常規(guī)的通信網(wǎng)絡和傳輸線路上實時傳輸。因此，為了能夠進行實時視頻傳送需要很大程度的數(shù)據(jù)壓縮。然而，數(shù)據(jù)壓縮可能會損害畫面質量。因此，已經(jīng)投入了很大努力來開發(fā)壓縮技術，使得通過有限帶寬的數(shù)據(jù)連接來實時傳送高質量的視頻。在視頻壓縮系統(tǒng)中，主要目標是利用盡可能少的容量來表示視頻信息。容量利用比特來定義，被定義為恒定值或比特/時間單位。在這兩種情況中，主要目標都是減少比特的數(shù)目。在MPEG*和H. 26*標準中描述了最常見的視頻編碼方法。視頻數(shù)據(jù)在傳送之前經(jīng) 歷四個主要過程，即預測、變換、量化和熵編碼。預測過程顯著地減少了在要傳輸?shù)囊曨l序列中每個畫面所需要的比特量。它利用了序列的一部分與序列的其它部分的相似性。由于預測器部分為編碼器和解碼器所共知，所以只需傳送差異。這種差異的表示通常需要少得多的容量。預測主要基于來自先前重構畫面的畫面內容，其中通過運動向量來定義內容的位置。一般對正方形塊大小(例如 16X16像素)執(zhí)行預測過程。應該注意，在一些情況下，基于相同畫面中的鄰近像素而不是先前畫面的像素來使用像素的預測。與幀間預測相對比，這被稱作幀內預測。被表示為數(shù)據(jù)塊(例如4X4或8X8像素)的剩余仍然包含內部相關性。利用這一點的公知方法是執(zhí)行二維塊變換。ITU推薦標準H. 264使用4X4或8X8整型變換。這把nXn像素變換為nXn變換系數(shù)，并且與像素表示相比它們通常可以由更少的比特來表示。較之原始的nXn像素塊，具有內部相關性的nXn像素陣列的變換可能會產(chǎn)生具有少得多的非零值的nXn變換系數(shù)的塊。對于許多應用來說，變換系數(shù)的直接表示仍然代價太高。執(zhí)行量化過程以進一步減小數(shù)據(jù)表示。因此，變換系數(shù)再經(jīng)歷量化。變換系數(shù)的可能值范圍被劃分為值區(qū)間，每個值區(qū)間由最高和最低的判定值來限定并且分配有固定的量化值。然后把變換系數(shù)量化成與相應系數(shù)所屬的區(qū)間相關聯(lián)的量化值。低于最低判定值的系數(shù)被量化為零。應當提及的是，這種量化過程導致重構的視頻序列與未壓縮的序列相比較多少有些不同。概括地說，數(shù)字視頻畫面經(jīng)過以下步驟把畫面劃分為正方形像素塊，例如16X16或8X8個像素。對亮度信息以及色度信息進行此操作。
為塊中的像素生成預測。這可以基于已經(jīng)編碼/解碼的畫面中的像素(被稱作幀間預測)或者基于同一畫面中已經(jīng)編碼/解碼的像素(幀內預測)。形成待編碼像素和預測像素之間的差異。這常常被稱為剩余。對剩余執(zhí)行二維變換，以產(chǎn)生作為變換系數(shù)的表示。變換系數(shù)包括DC變換系數(shù) 和AC變換系數(shù)。對變換系數(shù)執(zhí)行量化。這是用于控制比特生成量和重構畫面質量的主要工具。建立把二維變換系數(shù)數(shù)據(jù)掃描到一維數(shù)據(jù)集的掃描。對所量化的變換系數(shù)執(zhí)行無損熵編碼。依照編碼器的自然次序列出了以上步驟。解碼器在一定程度上依照相反的次序來執(zhí)行操作，并且進行“逆”操作，如逆變換代替變換以及去量化代替量化。

發(fā)明內容
在獨立權利要求中定義的本發(fā)明的特征表征了此方法。特別，本發(fā)明提供了一種視頻編碼的方法，該方法用于通過由多個基向量形成的變換矩陣來變換運動畫面的第一剩余像素值塊，以產(chǎn)生相應的第二變換系數(shù)塊，其中變換矩陣從DCT或KLT導出，所述基向量接近于正交但不是完全正交的，所述基向量的范數(shù)具有小于的偏差，并且所述基向量的元素小于32。本發(fā)明還提供了用于視頻解碼的相應的逆方法。
具體實施例方式本發(fā)明涉及在背景技術部分中描述的編碼過程的變換部分。因此，將更深入地回顧變換過程。大部分常規(guī)的視頻標準生成基于塊的剩余，所述剩余在編碼端經(jīng)歷二維變換并且在解碼端經(jīng)歷相應的逆變換，并且通常使用可分離的變換。這意味著首先在一個方向上 (例如水平方向)執(zhí)行一維變換，然后在另一方向上對結果使用同樣的一維變換。因此只需定義和使用一維變換。在標準H. 261、H. 263、H. 264和相應的MPEG標準中，使用8點的離散余弦變換 (DCT)。根據(jù)信號理論，如果在剩余信號中的鄰近像素之間的相關性較高，那么DCT接近于最優(yōu)變換。DCT被定義為如下所列的8個實數(shù)值的基向量，精確到3位小數(shù)0.3540. 3540. 3540. 3540. 3540. 3540. 3540. 354
0.4900. 4160. 2780. 098-0.098-0.278-0. 416-0. 490
0.4620. 191-0. 191-0. 462-0. 462-0. 1910. 1910. 462
0.416-0.098-0. 490-0.2780. 2780. 4900. 098-0. 416
0.354-0.354-0.3540. 3540. 354-0.354-0. 3540. 354
0.278-0.4900. 0980. 416-0. 416-0.0980. 490-0. 278
0.191-0. 4620. 462-0. 191-0. 1910. 462-0. 4620. 191
0.098-0.2780. 416-0. 4900. 490-0. 4160. 278-0.098 這些基向量被認為是標準正交的，這意味著，除沿著每條線的范數(shù)或平方和等于1 之外，每個向量與所有其它向量正交。
現(xiàn)在定義以上數(shù)據(jù)矩陣!~(1，」)，1，」=0-7。i表示列編號并且j表示行編號。進一步假定8X8塊的8個像素值集合f(i)將被變換為8個變換值F(j)。然后應用以下關系式逆變換或重構像素然后對每個8 X 8塊的8個像素值集合正常地執(zhí)行變換，并且然后利用相同的變換矩陣對所述結果垂直地重復整個過程。這種變換執(zhí)行地很好，但是它的缺點在于它基于實數(shù)表示。在實現(xiàn)中，這將不可避免地導致一定的不精確。這種不精確對于使用不同實數(shù)內部表示的不同實現(xiàn)來說略有不同。這可能導致在不同的重構過程之間的失配。這種實現(xiàn)也較復雜。由于這些原因，希望使用只通過整數(shù)來描述的變換。上面定義的標準正交條件仍然是所希望的。利用整數(shù)，不可能獲得“沿著每條線的平方和等于1”的條件。因此，改變對所有向量范數(shù)都相同的要求，但是仍然保持每個向量應當與所有其它向量正交的第一要求，這種方式是更為切實可行的。滿足后一要求的基向量的例子是Walsh Hadamard向量。8個點的Hadamard向量如下1111111111 1 1 -1-1-1-111 -1-1-1-11 111 -1-11 1 -1-11-1-11 1 -1-111-1-11 -11 1 -11-11-1 -11 -111-11-1 1 -11 -1然而，此變換被證明具有其它缺點并且因此并不常使用。發(fā)現(xiàn)整數(shù)變換的更好的擴展要求集合如下1.向量應當是正交的；2.用于定義向量的數(shù)目很小——一般小于32 ；3.向量的形狀盡可能地接近相應的DCT ；4.沿著每條線的范數(shù)或平方和對所有向量來說應當是相同的。難以滿足所有要求——特別是對于較大的變換來說。因此以上的要求可以被認為是依照優(yōu)先次序列出的。傳統(tǒng)上，1和2被認為是強制性的，3可以只是部分滿足，而4大概可以在實現(xiàn)中增加一定復雜度的情況下起作用。在早期開發(fā)H. 264的過程中，使用了以下變換13 13 13 1317 7 -7-17
13-13-13 137-17 17-7此向量集滿足以上的要求1、2、3、4。近來的H. 264和MPEG AVC標準使用4點和8點整數(shù)變換兩者。對于4點變換來說，基向量是11112 1-1-21-1-1 11-2 2-1此向量集滿足上面的要求1、2并且部分滿足上面的要求3。對于8點變換來說，基向量是1111111112 10 6 3 -3 -6-10-122 1-1-2-2-11210 -3-12 -6 6 12 3-101-1-111-1-116-12 3 10-10 _3 12 _61-2 2-1-12-213-6 10-12 12-10 6-3此向量集也滿足上面的要求1、2并且部分滿足要求3。本發(fā)明人已經(jīng)認識到即使進一步減少要求仍然可以在不損害畫面質量的情況下改進編碼效率并且減少復雜度。根據(jù)上面內容修改對變換的要求1.向量的形狀盡可能地接近最優(yōu)變換。取決于待編碼信號的統(tǒng)計信息，可以是基于所述信號的統(tǒng)計信息的DCT或Karhunen-Lc^ve (KLT)變換。2.用于定義向量的數(shù)目很小，特別是< 32。3.向量可以不是完全正交的，而是非常接近正交。4.向量的范數(shù)可以不是完全相同的，而是非常接近。在要求3和4被放松的情況下，特別是，有更多的余地來改進要求1。本發(fā)明人認識到，對3和4的放松可以足夠小，使得編碼/解碼性能實際上是一樣的，就好像完全滿足 3 禾口 4。本發(fā)明提供了一種變換向量集設計，略微放松的要求3和4而產(chǎn)生更好的編碼性能，這主要是由于更好地滿足了要求1。基向量具有接近于相應的DCT或KLT的形狀，并且同時具有類似的而不是完全相等的范數(shù)。在范數(shù)之間的最大偏差應當小于1%。另外，基向量接近于正交而不完全正交。在一個方面，如果向量集的一對或多對不是正交的(非正交的)，即一對或多對向量的相應向量積不等于零，并且非正交的向量對的相應向量積小于用來計算DC變換系數(shù) 的基向量的范數(shù)的1%，那么基向量被認為是接近于正交而不是完全正交。用于計算DC變換系數(shù)的基向量通常是基向量矩陣的上基向量(upper basis vector)。在一個方面，如果向量集的一對或多對不是正交的(非正交的)，一對或多對向量的相應向量積大于用來計算DC變換系數(shù)的基向量的范數(shù)的0. 1%，那么基向量被認為是接近于正交而不完全正交。依然，用于計算DC變換系數(shù)的基向量通常也是基向量矩陣的上基向量。此外，用于指定變換向量集的數(shù)目(即，基向量的元素)很小，并且小于或等于32。在一個方面，基向量的元素為整數(shù)。根據(jù)本發(fā)明用于處理變換向量集合的第一步驟是通過使DCT向量乘以26* V 2并且取整到最接近的整數(shù)來產(chǎn)生整數(shù)版本的DCT向量。結果將如下，在每行的右邊是平方和1313 13 13 13 13 13 131352
1815 10 4 -4 -10 -15 -181330
177 -7 -17 -17 -7 7 171352
15-4 -18 -10 10 18 4 -151330
13-13 -13 13 13 -13 -13 131352
10-18 4 15 -15 -4 18 -101330
7 --17 17 -7 -7 17 -17 71352
4 --10 15 -18 18 -15 10 -41330平方和指出，對于所有向量來說，范數(shù)并不是相同的，并且范數(shù)之間的偏差大于1%。然而，作為根據(jù)本發(fā)明用于處理變換向量集合的第二步驟，略微改變數(shù)字可以使每個向量的范數(shù)相互更為接近，并且足夠接近到被認為它們具有相等的范數(shù)。除可以通過略微改變數(shù)字來獲得非常接近于DCT的向量形狀之外，還可以獲得足夠接近而被認為正交的向量之間的近似正交性。作為根據(jù)本發(fā)明的適當變換的一個例子，本發(fā)明人已經(jīng)獲得以下向量集(在每行右面的數(shù)字是相應向量的平方和)13131313 13 13 13 131352
1716113 -3 -11 -16 -171350
177 -7 ■-17 -17 -7 7 171352
16-3-17 -11 11 17 3-161350
13-13-13 13 13 -13 -13 131352
11-17316 -16 -3 17 -111350
7 --1717-7 -7 17 -17 71352
3 --1116-17 17 -16 11 -31350如可以看出的，最大偏差小于1%，以及最大向量積與上基向量的范數(shù)的偏差也小于1%。在一個方面，最大偏差大于0%。在另一方面，最大偏差大于0. 1%。在解碼過程中，為了從變換系數(shù)獲得剩余像素，使用倒轉向量集，即，使用上述向量集的轉置。本發(fā)明適用于任何變換大小。它還不限于近似接近于DCT。近似可以是像KLT的其它最優(yōu)基向量。
本發(fā)明對設計用于圖像和視頻編碼的整數(shù)變換來說是有用的，與先前使用的整數(shù) 變換相比較改進了編碼效率并且降低了復雜度。
權利要求
一種視頻編碼方法，利用由多個基向量形成的變換矩陣來變換運動畫面的第一剩余像素值塊，以產(chǎn)生相應的第二變換系數(shù)塊，所述第二變換系數(shù)塊包括DC和AC變換系數(shù)，其中所述多個基向量中的至少一個對應于在所述第二變換系數(shù)塊中的DC變換系數(shù)，所述方法的特征在于，所述變換矩陣從離散余弦變換(DCT)或Karhunen-Loève變換(KLT)導出，所述基向量的范數(shù)具有在＜0％，1％]范圍內的最大偏差，所述基向量的元素小于32，所述基向量的一對或多對是非正交的，并且一對或多對非正交的基向量的內向量積小于與在所述第二變換系數(shù)塊中的所述DC變換系數(shù)相對應的基向量的范數(shù)的1％。
2.根據(jù)權利要求1所述的方法，其特征在于，分別在第一剩余像素值塊的水平和垂直方向上使用所述基向量，以產(chǎn)生相應的第二變換系數(shù)塊。
3.根據(jù)前述權利要求中的一個所述的方法，其特征在于，所述塊表示在畫面中第一 8X8像素正方形區(qū)域。
4.根據(jù)權利要求3所述的方法，其特征在于，所述基向量被定義為 [13 13 13 13 13 13 13 13][17 16 11 3 -3 -11 -16 -17] [17 7 -7 -17 -17 -7 7 17] [16 -3 -17 -11 11 17 3 -16] [13 -13 -13 13 13 -13 -13 13] [11 -17 3 16 -16 -3 17 -11] [7 -17 17 -7 -7 17 -17 7] [3 -11 16 -17 17 -16 11 -3]
5.一種視頻解碼方法，利用由多個基向量形成的變換矩陣來變換第一變換系數(shù)塊，以產(chǎn)生運動畫面的相應的第二剩余像素值塊，所述方法的特征在于，所述變換矩陣從離散余弦變換(DCT)或Karhimen-Lc^ve變換 (KLT)導出，所述基向量接近于正交而不是完全正交，所述基向量的范數(shù)具有在<0，1% ] 范圍內的偏差，并且所述基向量的元素小于32。
6.根據(jù)權利要求5所述的方法，其特征在于，分別在所述第一變換系數(shù)塊的水平和垂直方向上使用所述基向量，以產(chǎn)生相應的第二剩余像素值塊。
7.根據(jù)權利要求5-6中的一個所述的方法，其特征在于，所述塊表示在所述運動畫面中的第一 8X8像素的正方形區(qū)域。
8.根據(jù)權利要求7所述的方法，其特征在于，所述基向量被定義為 [13 13 13 13 13 13 13 13]T[17 16 11 3 -3 -11 -16 -17]t [17 7 -7 -17 -17 -7 7 17]T [16 -3 -17 -11 11 17 3 -16]t [13 -13 -13 13 13 -13 -13 13]T [11 -17 3 16 -16 -3 17 -11]T [7 -17 17 -7 -7 17 -17 7]T [3 -11 16 -17 17 -16 11 -3]t
9.一種視頻編碼方法，利用由多個基向量形成的變換矩陣來變換運動畫面的第一剩余像素值塊，以產(chǎn)生相應的第二變換系數(shù)塊，所述變換矩陣包括以下基向量 [13 13 13 13 13 13 13 13]T [17 16 11 3 -3 -11 -16 -17]t [17 7 -7 -17 -17 -7 7 17]T [16 -3 -17 -11 11 17 3 -16]t [13 -13 -13 13 13 -13 -13 13]T [11 -17 3 16 -16 -3 17 -11]T [7 -17 17 -7 -7 17 -17 7]T [3 -11 16 -17 17 -16 11 -3]t
10. 一種視頻解碼方法，利用由多個基向量形成的變換矩陣來變換第一變換系數(shù)塊，以產(chǎn)生運動畫面的相應的第二剩余像素值塊，所述變換矩陣包括以下基向量[131313 13 13 13 13 13]t[171611 3 -3 -11 -16 -17]t[177 -7 -17 -17 -7 7 17]t[16-3-17 -11 11 17 3 -16]t[13-13-13 13 13 -13 -13 13][11-173 16 -16 -3 17 -11]T[7 --1717 -7 -7 17 -17 7]t[3 --1116 -17 17 -16 11 -3]t
全文摘要
本發(fā)明應用于視頻編碼/解碼，并且公開了一種用于通過半正交基向量集來執(zhí)行變換系數(shù)和運動畫面中剩余像素數(shù)據(jù)之間的變換的方法。基向量從常規(guī)DCT或KTL矩陣導出，但是對于正交性、范數(shù)相等性和元素大小限制來說在一定程度上放松要求。依照這種方式，本發(fā)明與先前使用的整數(shù)變換相比較改進了編碼效率并且降低了復雜度。
文檔編號H04N7/26GK101855909SQ200880115583
公開日2010年10月6日申請日期2008年11月12日優(yōu)先權日2007年11月12日
發(fā)明者吉斯勒·比約特加德, 阿里爾德·福爾德塞斯申請人:坦德伯格電信公司

完整全部詳細技術資料下載