亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于壓縮數(shù)字數(shù)據(jù)的系統(tǒng)和方法

文檔序號:7654410閱讀:156來源:國知局
專利名稱:用于壓縮數(shù)字數(shù)據(jù)的系統(tǒng)和方法
技術(shù)領(lǐng)域
本文件一般來說涉及編碼數(shù)據(jù)的產(chǎn)生或轉(zhuǎn)換,且更具體地說,涉及將表示信息的數(shù)字信號轉(zhuǎn)換為更緊湊地表示實質(zhì)上相同的信息的不同數(shù)字信號系統(tǒng)。本文件至少揭示用于數(shù)字數(shù)據(jù)的有效壓縮的系統(tǒng)和方法。
背景技術(shù)
以下內(nèi)容一般來說關(guān)于可用在許多應(yīng)用中的數(shù)字數(shù)據(jù)壓縮。由于在潛在應(yīng)用的整個范圍內(nèi)展現(xiàn)無損和有損類型壓縮的實例會顯得煩瑣或多余,因而本文展現(xiàn)的實例主要涉及應(yīng)用于視頻類型數(shù)據(jù)的有損類型壓縮。視頻類型數(shù)據(jù)尤其具有挑戰(zhàn)性且目前對于產(chǎn)業(yè)具有特別意義,并且有損類型壓縮技術(shù)非常適合壓縮視頻類型數(shù)據(jù),且通常可實現(xiàn)較顯著的效率增加。然而,選擇這些作為實例不應(yīng)被解釋為暗示著限制所論述的技術(shù)原理或本發(fā)明的范疇。
圖1(背景技術(shù))是展示典型的端到端視頻系統(tǒng)10的主要元件的方框圖。視頻系統(tǒng)10包含視頻編碼器12和視頻解碼器14,且通常還將具有可選的中間通道16(例如,用于數(shù)據(jù)存儲或傳輸)。視頻編碼器12接受原始視頻數(shù)據(jù)18的視頻序列(其包含原始幀20(也稱為圖像)的以時間為索引的集合)以產(chǎn)生經(jīng)壓縮的數(shù)據(jù)位流22。且相反地,視頻解碼器14接受所述數(shù)據(jù)位流22,并將其轉(zhuǎn)換回視頻序列(現(xiàn)在為經(jīng)處理的視頻數(shù)據(jù)24),所述視頻序列包含經(jīng)處理的幀26的集合。中間通道16(如果存在的話)可有效地存儲數(shù)據(jù)位流22或?qū)⑵鋫鬏數(shù)搅硪晃恢?。這里如同電氣工程中廣泛使用的那樣使用術(shù)語“通道”來表示關(guān)于時間、空間或其兩者而轉(zhuǎn)移的系統(tǒng)。盡管在許多應(yīng)用中比較重要,但是此處中間通道16并不是特別相關(guān)的,且因此不作進一步論述。
原始視頻數(shù)據(jù)18和經(jīng)處理的視頻數(shù)據(jù)24以及類似的原始幀20和經(jīng)處理的幀26很少相同。由于原始視頻數(shù)據(jù)18通常與高帶寬相關(guān)聯(lián),因而需要采用有損類型壓縮來更好地促進對數(shù)據(jù)位流22的操縱,且最終也促進對經(jīng)處理的視頻數(shù)據(jù)24的操縱。雖然有損壓縮如同其名稱所暗示的那樣會丟失原始視頻數(shù)據(jù)18的初始信息內(nèi)容的一些部分,但因為有損壓縮可提供優(yōu)于無損類型壓縮的一個或一個以上益處,所以這通常是可接受的折衷。舉例來說,有損壓縮通常導致數(shù)據(jù)位流22變得緊湊得多,且其還常常允許更快地且用較少處理資源執(zhí)行壓縮和/或解壓縮操作。
在圖1中,視頻系統(tǒng)10的視頻編碼器12具有四個主要級預測級28、變換級30、量化級32和熵編碼級34。這些級中的前兩個級利用原始視頻數(shù)據(jù)18中的固有冗余來將其緊湊地表示在數(shù)據(jù)位流22中。這在許多應(yīng)用中很有效,因為原始視頻數(shù)據(jù)18的特征常常在于其所含有的連續(xù)原始幀20之間具有高相關(guān)度,以及每一特定原始幀20中的相鄰數(shù)據(jù)之間具有高相關(guān)度。
如果將序列中的原始幀20中的每一者視為被分割為矩形數(shù)據(jù)塊(例如,大小范圍為從4×4到16×16像素)的柵格,那么便可應(yīng)用非常簡單的塊運動模型,其中可將當前幀中的塊視為源自位置已發(fā)生移位的先前原始幀中的數(shù)據(jù)。這通常提供對視頻處理的緊湊且相當精確的描述(也稱為預測值)。
因此,視頻編碼器12的預測級28采用移位分量和差異分量。所述移位分量(也稱為運動向量)表示塊的位置相對于其在前一幀(如果有的話)中的位置的改變,且所述差異分量表示現(xiàn)在塊中的信息相對于其存在于先前幀中時(即,在其在先前幀中的先前位置)塊中的信息的改變。
變換級30獲得預測級28的輸出,且將其變換到頻域中以實現(xiàn)更大的緊湊。當塊運動模型提供給定組的原始視頻數(shù)據(jù)18的良好描述時,相應(yīng)的剩余信息具有較小的能量,且對應(yīng)于由變換級產(chǎn)生的域中的低頻特征。如目前將看到的,這尤其影響隨后的級如何有助于視頻系統(tǒng)10的效率。
量化級32獲得變換級30的輸出,并對其應(yīng)用有損壓縮,其中個別變換系數(shù)被按比例縮小且舍位到最靠近的整數(shù)。此有損壓縮通常是對視頻系統(tǒng)10的總效率的主要貢獻因素。
熵編碼級34獲得量化級32的輸出,且對其應(yīng)用無損壓縮,其中量化符號被映射成位。此熵編碼通常與可變長度方案(例如,霍夫曼(Huffman)編碼)一起實施。
視頻解碼器14以直進的方式反向采用上文論述的級,反轉(zhuǎn)由視頻編碼器12執(zhí)行的動作,使得經(jīng)壓縮的數(shù)據(jù)位流22被轉(zhuǎn)換回可用的視頻序列(即,經(jīng)處理的視頻數(shù)據(jù)24)。
在其核心中,基本上當今所有的商業(yè)級視頻壓縮系統(tǒng)都采用這些級和技術(shù)。舉例來說,H.261、H.263及H.264(統(tǒng)稱為H.26x)和MPEG-1、MPEG-2到MPEG-4(統(tǒng)稱為MPEG-x)是當前眾所周知的標準,其采用這些級和技術(shù)且廣泛用于當今的視頻壓縮中。H.264類型視頻壓縮用于本文實例中,盡管以下內(nèi)容可應(yīng)用于壓縮任何帶寬受限的數(shù)據(jù)(僅列舉兩個共同主題類型的兩個眾所周知的實例,例如JPEG和其它靜態(tài)圖像標準,或MP3和其它音頻標準)。
視頻系統(tǒng)10中的實際壓縮發(fā)生在有損壓縮量化級32中和無損壓縮熵編碼級34中,且現(xiàn)在對其進行更詳細的說明。
圖2a-e是對經(jīng)受量化級32處理的數(shù)據(jù)塊40的一系列描述。這里在實例中使用H.264標準類型視頻壓縮,其中對4×4塊執(zhí)行處理。
圖2a展示作為對量化級32的假設(shè)輸入的4×4數(shù)據(jù)塊(原始塊42),所述數(shù)據(jù)塊包含稱為變換系數(shù)的數(shù)據(jù)(因為此“輸入”是來自變換級30的輸出)。
圖2b展示作為圖2a的原始塊42的處理中的中間結(jié)果的低頻塊44(此處這樣命名的原因不久將進行論述)。個別系數(shù)現(xiàn)在已被按比例縮小并舍位到最接近的整數(shù)。舉例來說,假設(shè)變換系數(shù)的值是55且所應(yīng)用的量化比例是18。此變換系數(shù)接著被量化到55/18=3的量化水平?;蛘撸儞Q系數(shù)5被量化為0。
暫時偏離一下主題,可了解到這是有損操作,因為在視頻解碼器14中,量化水平3將乘以相同的量化比例(18),從而給出3*18=54(并非55)的重建值,且量化水平0將給出0*18=0(并非5)的重建值。
圖2c說明量化級32中緊接著使用的常規(guī)線性z字形正向掃描次序46,且圖2d展示此產(chǎn)生的一維低頻陣列48(此處這樣命名的原因不久也將進行論述)。
從圖2b-d中可了解,對于典型的H.264類型視頻數(shù)據(jù),數(shù)據(jù)塊40中較大百分比的變換系數(shù)變?yōu)榈扔诹愕牧炕健4送?,當使用常?guī)的正向掃描次序46時,極有可能所得低頻陣列48的特征將為初始的非零值,然后為散布有偶然非零值的零串(即,主要出現(xiàn)在圖2b中的對角線49上方的值)。此觀察適用于一般的視頻數(shù)據(jù),且形成當今大多數(shù)視頻壓縮系統(tǒng)(例如,H.26x和MPEG-x)以及用于其它數(shù)據(jù)類型的許多壓縮方案中使用的熵編碼機制的基礎(chǔ)。
通常認為此類z字形正向掃描的系數(shù)數(shù)據(jù)是一連串(串、水平、符號、最后)四元組,其中所述串部分對應(yīng)于非零值之前的零的數(shù)目,所述水平部分對應(yīng)于非零值的量值,所述符號部分是非零值的符號的二進制指示符,且所述最后部分是指示當前(串、水平、符號)三元組是否為所述塊中的最后一者的二進制值。
圖2e展示描述低頻塊44和低頻陣列48的熵編碼符號50的四元組序列?,F(xiàn)在由僅僅四個熵編碼符號50有效地表示所述十六個最初的變換系數(shù),所述四個熵編碼符號50是量化級32的輸出,且變?yōu)閷鼐幋a級34的輸入。
概括地說,圖2a-e描繪從輸入變換系數(shù)的原始塊42到輸出熵編碼符號50在量化級32中所發(fā)生的情況。
在視頻編碼器12的熵編碼級34中,通過使用可變長度編碼(VLC)將這些熵編碼符號50轉(zhuǎn)換為數(shù)據(jù)位流22。出于實例的緣故,我們?nèi)岳^續(xù)采用H.264視頻壓縮標準,且特別采用其針對4×4塊而使用的一般(串、水平、符號、最后)機制的變量。
對于H.264,數(shù)據(jù)位流22將具有對應(yīng)于以下內(nèi)容的經(jīng)VLC編碼的值句法元素“coeff_token”;所有非零量化水平的值;句法元素“total_zeros”;和句法元素“run_before”。
句法元素“coeff_token”描述4×4塊中的非零系數(shù)的數(shù)目(例如,在圖2a-e的實例中,非零系數(shù)的量為4)。非零量化水平值連同符號以反向次序展現(xiàn)在數(shù)據(jù)位流22中,其中首先指示最后的非零水平,且最后指示第一非零水平(例如,在我們的實例中為1、2、3和-7)。句法元素“total_zeros”描述最后的非零水平之前的零的總數(shù)目(例如,在我們的實例中為5)。并且,句法元素“run_before”指示每一非零水平值之前的零串長度。正如同量化水平一樣,以反向次序指示這些,其中首先指示最后的非零水平之前的零串,接著是倒數(shù)第二個非零水平之前的零串等等(例如,在我們的實例中為3、2、0;值2與1之間的串為3;值3與2之間的串為2,且值-7與3之間的串為0)。
如上文所述,在H.264中,4×4塊水平處的數(shù)據(jù)的特征在于偶然散布有非零值的大量零。此外,因為與典型的視頻數(shù)據(jù)相關(guān)聯(lián)的低頻特征,所以這些非零值中的大多數(shù)非零值將出現(xiàn)在z字形正向掃描次序中的早先位置處。因此,對最后的非零水平之前的零的總數(shù)進行計數(shù)的“total_zeros”句法元素可能采用較小值而并非較大值。使用霍夫曼編碼的原理,通過將較小大小的代碼字分派給較小值且將較大大小的代碼字分派給較大值來利用這種對較小值而不是較大值的偏好。圖3展示用于H.264標準中的句法元素“total_zeros”的一張此類霍夫曼表格。
再次暫時回到圖1,從視頻解碼器14的觀點來看,使用可變長度解碼(VLD)來將數(shù)據(jù)位流22轉(zhuǎn)換回(串、長度、符號、最后)四元組,所述四元組接著進一步被轉(zhuǎn)換為線性z字形掃描值,所述線性z字形掃描值接著被轉(zhuǎn)換為二維塊,且所述二維塊接著被解量化。
總地來說,雖然不同的壓縮標準使用此方案的不同變量來有效地將經(jīng)量化的水平序列表示為位,但以上論述涵蓋了核心原理。
遺憾的是,僅當塊運動模型提供對基礎(chǔ)視頻過程的良好描述時,上文論述的數(shù)據(jù)特征才可實現(xiàn),從而導致具有低能量和低頻特征的剩余部分。這正是導致非零系數(shù)水平早先出現(xiàn)在所述z字形掃描上且零跟隨其后的原因。然而,存在許多自然視頻現(xiàn)象將含有比塊運動模型可俘獲的運動復雜得多的運動的情況。舉例來說,例如旋轉(zhuǎn)和縮放的普通場景運動沒有被塊運動模型進行良好描述,且由此類主題的塊運動預測值導致的剩余部分趨向于具有高能量且與高頻特征相關(guān)聯(lián)。因此,經(jīng)調(diào)諧以用于更普遍出現(xiàn)的低頻剩余部分情況的用于數(shù)據(jù)位流的句法元素代替地提供對剩余信息的較差描述,從而導致較高位速率和較差壓縮。
圖4a-e也是對經(jīng)受量化級32處理的數(shù)據(jù)塊40的一系列描述,只是此處數(shù)據(jù)塊40包含高頻數(shù)據(jù)(即,值主要出現(xiàn)在圖4b中的對角線49下方)。出于一致性目的,在此實例中再次使用H.264標準類型視頻壓縮。圖4a展示輸入到量化級32(即,從變換級30輸出)的高頻變換系數(shù)的假設(shè)原始塊52。圖4b展示作為圖4a的原始塊52的處理中的中間結(jié)果的高頻塊54(其中個別系數(shù)被按比例縮小且舍位到最接近的整數(shù))。圖4c說明應(yīng)用常規(guī)的線性z字形正向掃描次序46來產(chǎn)生圖4d中所示的一維高頻陣列56。并且,圖4e展示描述高頻塊54和高頻陣列56的熵編碼符號58的四元組序列。
對于H.264類型壓縮,此處由熵編碼級34產(chǎn)生的數(shù)據(jù)位流22將提供經(jīng)VLC編碼的值,其中“coeff_token”為4,連同符號的非零量化水平值為-2、3、1和1(由于它們以與高頻陣列56中的次序反向的次序出現(xiàn)),“total_zeros”值為11,且“run_before”值為0、0和0。
此處主要應(yīng)了解的一點是,“total_zeros”值對于低頻與高頻數(shù)據(jù)是明顯不同的(對于圖2a-e中的情況為5,而對于此處圖4a-e中的情況為11),且當基于圖3的霍夫曼表格對這些值執(zhí)行VLC編碼時,低頻“total_zeros”值產(chǎn)生5位代碼字,而高頻“total_zeros”值產(chǎn)生8位代碼字(即,后者比前者多60%的位)。
現(xiàn)在將超出H.264和視頻而推廣到所有類型的帶寬受限制數(shù)據(jù)的壓縮,當遇到高頻數(shù)據(jù)時,會比低頻數(shù)據(jù)更低效地對其處理和表示。在先前已理解這點的所屬領(lǐng)域的少數(shù)技術(shù)人員看來,這已大體上被解釋為太不重要以致于不值得做出補救努力,或被解釋為將需要太繁重的努力以致于無法產(chǎn)生最后改進。然而,如下文廣泛地論述,本發(fā)明者已觀察到,此類低效率常常是重要的且本發(fā)明者一直工作以設(shè)計出對這種低效率的精確補救方法。

發(fā)明內(nèi)容
因此,本文件的目的在于提供一種用于更有效地壓縮帶寬受限制的數(shù)字數(shù)據(jù)的系統(tǒng)。
簡要來說,本文件的一個優(yōu)選實施例是一種用于壓縮數(shù)字數(shù)據(jù)的方法。將所述數(shù)字數(shù)據(jù)的一部分以預測方式并以變換方式表示為變換系數(shù)塊。接著基于所述變換系數(shù)是否將所述部分表示為具有特定特征的指示來將所述塊選擇性地量化為一組編碼符號。并且,接著將所述組編碼符號編碼為數(shù)據(jù)位流。
本文件的優(yōu)勢在于其允許更有效地壓縮數(shù)字數(shù)據(jù),從而允許更緊湊地表示所述數(shù)字數(shù)據(jù),以及通常允許更快地且用較少的處理資源來執(zhí)行壓縮和解壓縮操作中的每一者或其兩者。
鑒于本文描述且在附式中說明的對實行本發(fā)明的目前已知的最佳模式和優(yōu)選實施例的產(chǎn)業(yè)適用性的描述,所屬領(lǐng)域的技術(shù)人員將了解本發(fā)明的這些和其它目的和優(yōu)勢。


從以下結(jié)合附隨表格和附式所作的詳細描述,將容易了解本發(fā)明的目的和優(yōu)勢,在附圖中圖1(背景技術(shù))是展示典型的端到端視頻系統(tǒng)的主要元件的方框圖。
圖2a-e是對經(jīng)受圖1的量化級處理的數(shù)據(jù)塊的一系列描述。
圖3展示用于H.264標準中的句法元素“total_zeros”的霍夫曼表格,其可能應(yīng)用于圖2a-e中表示的數(shù)據(jù)。
圖4a-e也是對經(jīng)受量化級處理的數(shù)據(jù)塊的一系列描述,只是此處數(shù)據(jù)塊包含高頻數(shù)據(jù)。
圖5a-c是對現(xiàn)正經(jīng)受替代性量化處理(例如,根據(jù)本發(fā)明性壓縮系統(tǒng),通過具有較少變化的圖1的量化級進行)的數(shù)據(jù)塊的一系列描述,尤其是對圖4a的原始塊和圖5b的高頻塊的描述。
圖6是展現(xiàn)被壓縮為H.264位流的典型視頻數(shù)據(jù)中的高頻數(shù)據(jù)塊量的統(tǒng)計分析的圖表。
圖7是描繪當前塊具有三個因果空間相鄰者的實例的方框圖,所述三個因果空間相鄰者用于空間時間相關(guān)性以分攤由本發(fā)明某些實施例使用的額外模式旗標的額外開銷。
圖8是描繪可由本發(fā)明的壓縮系統(tǒng)使用的數(shù)字數(shù)據(jù)壓縮過程的流程圖。
圖9a-b描繪在所述數(shù)字數(shù)據(jù)中具有可由本發(fā)明替代性實施例采用的不同于高頻或低頻的其它特征的數(shù)據(jù)塊。
在附圖中的各種圖式中,相同的參考符號用于表示相同或相似的元件或步驟。
具體實施例方式
本文件的優(yōu)選實施例是用于有效壓縮數(shù)字數(shù)據(jù)的設(shè)備和方法。如本文的各種圖式所說明,且尤其從圖5和圖8來看,由一般參考符號100和200描繪本發(fā)明的優(yōu)選實施例。
在H.264視頻壓縮的情形下,本發(fā)明者已觀察到,較差的壓縮效率是由高頻剩余信息引起的,因為用于句法元素(例如,“total_zeros”)的霍夫曼表格經(jīng)調(diào)諧以用于其中這些句法元素采用較小值的視頻內(nèi)容。如上文所述,在背景技術(shù)部分中,這些句法元素趨向于在高頻情況下采用較大值,從而需要用更多的位來表示它們,且導致較差的壓縮。
簡要地說,本發(fā)明者已通過向句法元素“total_zeros”和“run_before”的解譯增加靈活性而設(shè)計出了一種解決這個問題的方法。詳細地說,本發(fā)明者提出增加靈活性,使得這些句法元素(或其它壓縮技術(shù)中的相應(yīng)元素)對于低頻數(shù)據(jù)可以常規(guī)方式進行處理,且使得對于高頻數(shù)據(jù)可替代性地使用從最后系數(shù)逆向進行的對零的計數(shù)來表示那些句法元素。
圖5a-c是對現(xiàn)正經(jīng)受替代性量化處理(例如,根據(jù)本發(fā)明性壓縮系統(tǒng)100,通過具有較少變化的圖1的量化級32進行)的數(shù)據(jù)塊40的一系列描述,尤其是對圖4a的原始塊52和圖5b的高頻塊54的描述。圖5a說明應(yīng)用新穎的線性z字形反向掃描次序102來產(chǎn)生圖5b中所示的一維高頻陣列104。圖5c展示描述高頻塊54和高頻陣列104的熵編碼符號106的四元組序列。此外,可提供指示已使用線性z字形反向掃描次序102的可選模式旗標108。
如果此處使用的替代量化接下來使用與圖1的量化級32針對H.264數(shù)據(jù)所使用的技術(shù)相同的技術(shù),那么句法元素“coeff_token”為4;包含符號信息的所有非零量化水平的值為1、1、3和-2;句法元素“total_zeros”為1;且句法元素“run_before”為0、0和0。并且,如果采用與圖1中實質(zhì)上相同的(常規(guī)的)熵編碼級34,那么此處用于“total_zeros”的經(jīng)VLC編碼的值為3位代碼字。
因此,在針對所述非常相同的高頻塊54和高頻陣列56使用常規(guī)方法產(chǎn)生為11的“total_zeros”(見(例如)圖4e)(其可經(jīng)VLC編碼為8位代碼字)的情況下,本發(fā)明性壓縮系統(tǒng)100產(chǎn)生為1的“total_zeros”,其可經(jīng)VLC編碼為僅3位代碼字。我們因此獲得價值5位的位速率節(jié)省。
一般來說,取決于即將到來的數(shù)據(jù)(無論其是高頻的還是低頻的),根據(jù)本發(fā)明性壓縮系統(tǒng)100的編碼級可在正向計數(shù)模式(即,采用常規(guī)的線性z字形正向掃描次序46)與逆向計數(shù)模式(即,采用新穎的z字形線性反向掃描次序102)之間進行切換,以在較大范圍的數(shù)據(jù)上獲得增強的壓縮性能。顯然,所述兩種計數(shù)模式都需要相同的計算工作來用于量化并用于熵編碼的主要部分。
從解碼器的立場來看,可由指示已完成正向計數(shù)還是逆向計數(shù)的具有二進制值的“計數(shù)模式”模式旗標108來指示已使用所述兩種量化和編碼模式中的哪一種。當然,額外模式旗標本身的添加構(gòu)成了額外開銷,但本發(fā)明者已觀察到,本發(fā)明性壓縮系統(tǒng)100仍通常提供最后益處。
理論上,模式旗標108是可選的,盡管本發(fā)明者期望本發(fā)明的少數(shù)實施例將不會以至少某一形式包含所述模式旗標。舉例來說,在另外的常規(guī)壓縮過程中使用新穎的z字形線性反向掃描次序102而沒有對這種使用的指示是一種對所得數(shù)據(jù)位流中的數(shù)字數(shù)據(jù)進行加密的方法?;蛘?,對于某些類型的數(shù)字數(shù)據(jù)來說,z字形線性反向掃描次序102可能在本質(zhì)上更有效率,且因此由解碼器針對所述類型的數(shù)據(jù)而設(shè)想編碼器對所述z字形線性反向掃描次序的使用。
稍微偏離一下主題,在考慮添加模式旗標108的負擔之前,了解實際上存在于典型視頻數(shù)據(jù)中的高頻數(shù)據(jù)量可能是有幫助的。圖6是展現(xiàn)正被壓縮成H.264位流的典型視頻數(shù)據(jù)中的高頻數(shù)據(jù)塊量的統(tǒng)計分析的圖表。標記為“Nasa”的條形表示火箭發(fā)射的視頻;標記為“Imax”的條形表示月球行走的具有縮放的電影預告片;標記為“Bus”的條形表示城市公交沿著街道行駛越過畫面的視頻;標記為“Table”的條形表示乒乓球游戲的視頻;標記為“Coastguard”的條形表示船只在航海設(shè)定中航行越過畫面的視頻;標記為“City”的條形表示主要城市風景的空中俯瞰視頻;且標記為“BBC”的條形表示典型的英國電視節(jié)目的俘獲視頻序列。正如將對具有大量快動作、快速場景變化以及縮小和放大的特殊效果的“電影預告片連續(xù)鏡頭”所預期的那樣,“Imax”序列具有大量高頻內(nèi)容。然而,甚至其它場景中高頻內(nèi)容的數(shù)量可能會使有些人感到不可思議。這些場景具有傳統(tǒng)的塊運動視頻主題,且圖6中的值趨向于打消大多數(shù)此類主題僅具有不重要的高頻內(nèi)容的傳統(tǒng)論點。
總而言之,甚至對于具有復雜運動建模的H.264視頻壓縮,仍存在相當大百分比的與高頻特征相關(guān)聯(lián)的數(shù)據(jù)。本發(fā)明性壓縮系統(tǒng)100可直接應(yīng)用于此類數(shù)據(jù)。類似地,可針對例如MPEG-2和MPEG-4的前一代視頻壓縮標準預期甚至更大的適用性和益處,所述前一代視頻壓縮標準具有相對較簡單的運動建模。
以其關(guān)于潛在的可實現(xiàn)益處的暗示,圖6現(xiàn)允許合理地分析添加額外的模式旗標108可能需要多少額外開銷。在圖5c中,模式旗標108被描繪為與熵編碼符號106一起存在,從而暗示著對于每一數(shù)據(jù)塊40,其與每一組熵編碼符號106一起提供。情況可能如此,但在本發(fā)明性壓縮系統(tǒng)100的大多數(shù)實施例中,將需要如此。本發(fā)明者的立場是,(a)可將用于這種情況的此額外句法信息分攤在較大的塊大小上,和(b)可以更有效的方式對其進行編碼。
關(guān)于(a),可以比4×4塊更粗略的水平來指示這種模式旗標108。舉例來說,能夠用以指示模式旗標108的自然粒度處于運動塊、幀(或靜止圖像)、視頻幀的子序列或甚至完全是某些其它單元基礎(chǔ)(例如,一個第二音頻數(shù)據(jù)塊)的粒度水平。舉例來說,如果選擇了16×16的視頻運動塊大小,那么可以16×16塊水平指示模式旗標108,且相同的模式將用于所述16×16塊內(nèi)的所有十六個4×4塊,從而分攤所述額外的句法信息。
關(guān)于(b),通過使用基于情境的方法來預測模式旗標的可能值,可獲得由模式旗標108引起的對平均位速率的額外節(jié)省。由于典型的視頻數(shù)據(jù)展示較高的空間時間相關(guān)性,因而情境信息可從討論中的塊的空間或時間相鄰者的模式旗標108的值中導出。圖7是描繪當前塊110具有用于這種情況的三個因果空間相鄰者(ABC)(相鄰塊112a-c)的實例的方框圖。當分數(shù)位速率方法(例如算術(shù)編碼)用于熵編碼時,此類基于情境的預測會特別有利(例如,如同H.264視頻壓縮標準中的基于情境的自適應(yīng)二進制算術(shù)編碼(CABAC)模式的那種情況)。
圖8是描繪可由壓縮系統(tǒng)100使用的數(shù)字數(shù)據(jù)壓縮過程200的流程圖。所述壓縮過程200開始于步驟202,其中可視情況執(zhí)行任何設(shè)置。在步驟204中,接著執(zhí)行預測。這可以具有完全常規(guī)形式,采用預測級28執(zhí)行其任務(wù)的方式。接下來,在步驟206中,執(zhí)行變換。這也可以具有完全常規(guī)形式,采用變換級30執(zhí)行其任務(wù)的方式。所述數(shù)字數(shù)據(jù)壓縮過程200在隨后步驟(下文更詳細論述的步驟208)中脫離常規(guī)形式且脫離現(xiàn)有技術(shù)方法。接下來,在步驟210中,執(zhí)行熵編碼。這也可以具有完全常規(guī)形式,采用傳統(tǒng)的熵編碼級34執(zhí)行其任務(wù)的方式。然而,在壓縮過程200的大多數(shù)變體中(且在壓縮系統(tǒng)100的大多數(shù)實施例中),這將經(jīng)修改為至少處理模式旗標108(此步驟也將在下文中更詳細地論述)。并且,在步驟212中,壓縮過程200結(jié)束,這里執(zhí)行任何可選的結(jié)尾。
在圖8中,步驟208經(jīng)展示為具有兩個主要內(nèi)部操作且還具有擴展形式。在概念上,步驟208中的量化包含解析數(shù)據(jù)塊40的內(nèi)容(或推斷關(guān)于所述內(nèi)容的信息),且接著基于所述解析創(chuàng)建熵編碼符號106。在步驟208的擴展描述中強調(diào)這點。這里可看到,步驟208可包含步驟214,其中確定應(yīng)用哪種類型的解析(基于數(shù)字數(shù)據(jù)的特征進行分析)?;谶@個確定,接著執(zhí)行用于常規(guī)z字形線性正向掃描次序46的步驟216或用于新穎的z字形線性反向掃描次序102的步驟218。并且跟隨其后,在步驟220中,執(zhí)行位置編碼以創(chuàng)建熵編碼符號106(且通常添加可選的模式旗標108以發(fā)信號通知解碼器關(guān)于已采用哪種解析方法來進行編碼)。
值得關(guān)注一下壓縮過程200的與其在圖8中所展現(xiàn)的內(nèi)容不同的某些特定變化。步驟220被描繪為相同的,而不管其是經(jīng)過步驟216還是步驟218。盡管在采用可選的模式旗標108時此處當然將存在某些微小差異,但也可使用完全不同的用于位置編碼的算法。使用相同的位置編碼算法在本文所使用的實例中相當奏效,所述實例是基于視頻數(shù)據(jù)和應(yīng)用于所述視頻數(shù)據(jù)的壓縮的標準化形式,但這不應(yīng)被認為是暗示著限制或甚至需要性。舉例來說,本發(fā)明還可應(yīng)用于音頻類型數(shù)據(jù),所述音頻類型數(shù)據(jù)通常具有多個通道以獲得立體聲或其它復雜效果。此處使用不同的位置編碼算法可能通過應(yīng)用經(jīng)選擇以利用通道之間的固有關(guān)系來實現(xiàn)對音頻數(shù)據(jù)的更有效壓縮的不同位置編碼算法而可能更為有效。
類似地,當采用可選的模式旗標108時,步驟210將通常具有與先前會以常規(guī)方式進行的步驟有所不同的微小差異。另外,然而,這里也沒有特殊原因來要求針對來自步驟216的輸出與針對來自步驟218的輸出必須以相同方式執(zhí)行步驟210(VLC熵編碼)。
總而言之,與作為當今視頻壓縮標準的目標的僅低頻數(shù)據(jù)相比,提供“計數(shù)模式靈活性”并使用模式旗標108來指示所使用的特定模式使得能夠有效地表示低頻數(shù)據(jù)以及高頻數(shù)據(jù)。此外,如本文反復說明且現(xiàn)在最后一次說明,視頻數(shù)據(jù)僅僅是適合應(yīng)用本發(fā)明性壓縮系統(tǒng)100的一種類型的數(shù)據(jù)。舉例來說(并不限于此),可相對容易理解本發(fā)明性壓縮系統(tǒng)100的合適實施例可有利地應(yīng)用于靜態(tài)圖像和音頻數(shù)據(jù)。在概念上,可認為圖像類似于上文展現(xiàn)的實例中的原始視頻數(shù)據(jù)的個別幀,且當今壓縮音頻數(shù)據(jù)(例如,MP3)尤其使用大多數(shù)與壓縮視頻相同的原理和技術(shù)。
最后,應(yīng)注意,我們使用基于低頻和高頻數(shù)字數(shù)據(jù)的實例,因為這些實例是能夠容易被所屬領(lǐng)域的技術(shù)人員理解的實例。然而,本發(fā)明的精神具有比僅應(yīng)用于對角線49上方的低頻數(shù)據(jù)(例如,圖2b)與對角線49下方的高頻數(shù)據(jù)(例如,圖4b)更廣泛的適用性。從圖2b和圖4b中可理解,頻率是本發(fā)明可采用的數(shù)據(jù)特征。并且,從圖9a-b中的兩個數(shù)據(jù)塊40中可進一步理解,存在可由本發(fā)明實施例采用的數(shù)字數(shù)據(jù)的其它特征。圖9a展示在頻率為步驟214中所使用的標準時卻被低效壓縮的低頻塊114,且圖9b展示在頻率為步驟214中使用的標準時也被低效壓縮的高頻塊116。因此,盡管預期頻率是本發(fā)明實施例最多采用的分析特征,但其它分析特征也可額外地或替代性地用于其它實施例中。
概括地說,本文件已揭示以下內(nèi)容。
概念1.一種用于壓縮數(shù)字數(shù)據(jù)的方法,所述方法包括將所述數(shù)字數(shù)據(jù)的一部分以預測方式并以變換方式表示為變換系數(shù)塊;基于所述變換系數(shù)是否將所述部分表示為具有特定特征的指示而將所述塊選擇性地量化為一組編碼符號;以及將所述組編碼符號編碼為數(shù)據(jù)位流。
概念2.根據(jù)概念1所述的方法,其中所述特征為頻率。
概念3.根據(jù)概念1所述的方法,其中所述部分是在所述數(shù)字數(shù)據(jù)內(nèi)具有相鄰在前部分的當前部分;以及所述表示包含基于包含移位分量和差異分量的預測來表示所述塊中的所述當前部分,其中所述移位分量指示所述當前部分相對于所述在前部分在位置上的改變,且所述差異分量指示所述當前部分相對于所述在前部分在內(nèi)容上的改變。
概念4.根據(jù)概念1所述的方法,其中所述表示包含將所述部分變換為域,其中在所述塊中更緊湊地表示所述部分。
概念5.根據(jù)概念4所述的方法,其中所述域是頻域。
概念6.根據(jù)概念1所述的方法,其中所述量化包含將有損壓縮應(yīng)用于所述塊。
概念7.根據(jù)概念6所述的方法,其中所述有損壓縮包含由按比例縮小所述變換系數(shù)和將所述變換系數(shù)舍位到整數(shù)值組成的組中的至少一項。
概念8.根據(jù)概念1所述的方法,其中所述指示是基于由分析所述數(shù)字數(shù)據(jù)的所述部分、分析所述數(shù)字數(shù)據(jù)的包含所述部分的一段和基于所述數(shù)字數(shù)據(jù)的固有性質(zhì)進行的確定組成的組中的一項。
概念9.根據(jù)概念1所述的方法,其中所述組編碼符號包含表示串、水平、符號和最后的四元組,其中串對應(yīng)于非零值之前的零的數(shù)量,水平對應(yīng)于所述非零值的量值,符號指示所述非零值是正的還是負的,且最后指示當前所述四元組是否為所述組中的最后一者。
概念10.根據(jù)概念1所述的方法,其中所述量化進一步包含將模式旗標添加到所述組編碼符號,所述模式旗標指示用于所述量化的技術(shù)。
概念11.根據(jù)概念1所述的方法,其中所述量化基于所述指示將反向z字形掃描次序應(yīng)用于所述變換系數(shù);以及另外將正向z字形掃描次序應(yīng)用于所述變換系數(shù)。
概念12.根據(jù)概念11所述的方法,其中所述指示是所述部分具有高頻類型的所述特征。
概念13.根據(jù)概念11所述的方法,其中所述量化進一步包含將模式旗標添加到所述組編碼符號,所述模式旗標指示已應(yīng)用所述反向z字形掃描次序還是所述正向z字形掃描次序。
概念14.根據(jù)概念11所述的方法,其中所述部分在所述數(shù)字數(shù)據(jù)內(nèi)的相鄰部分的序列中,所述相鄰部分相對于所述方法的所述指示被相同地處理成一系列所述組編碼符號;且所述量化進一步包含將模式旗標添加到所述系列,所述模式旗標指示已應(yīng)用所述反向z字形掃描次序還是所述正向z字形掃描次序。
概念15.根據(jù)概念1所述的方法,其中所述編碼包含將無損壓縮應(yīng)用于所述組編碼符號。
概念16.根據(jù)概念1所述的方法,其中所述編碼包含將可變長度編碼應(yīng)用于所述組編碼符號。
概念17.根據(jù)概念16所述的方法,其中所述可變長度編碼是霍夫曼編碼。
概念18.一種用于壓縮數(shù)字數(shù)據(jù)的系統(tǒng),其包括將所述數(shù)字數(shù)據(jù)的一部分以預測方式并以變換方式表示為變換系數(shù)塊的邏輯;基于所述變換系數(shù)是否將所述部分表示為具有特定特征的指示而將所述塊選擇性地量化為一組編碼符號的邏輯;以及將所述組編碼符號編碼為數(shù)據(jù)位流的邏輯。
概念19.根據(jù)概念18所述的系統(tǒng),其中所述特征是頻率。
概念20.根據(jù)概念18所述的系統(tǒng),其中所述表示邏輯包含將所述部分變換為域的邏輯,其中在所述塊中更緊湊地表示所述部分。
概念21.根據(jù)概念20所述的系統(tǒng),其中所述域是頻域。
概念22.根據(jù)概念18所述的系統(tǒng),其中所述量化邏輯包含將有損壓縮應(yīng)用于所述塊的邏輯。
概念23.根據(jù)概念22所述的系統(tǒng),其中所述有損壓縮包含執(zhí)行由按比例縮小所述變換系數(shù)和將所述變換系數(shù)舍位到整數(shù)值組成的組中的至少一項。
概念24.根據(jù)概念18所述的系統(tǒng),其進一步包括分析所述數(shù)字數(shù)據(jù)的一段以確定所述指示的邏輯。
概念25.根據(jù)概念24所述的系統(tǒng),其中所述段是所述數(shù)字數(shù)據(jù)的所述部分。
概念26.根據(jù)概念18所述的系統(tǒng),其中所述量化邏輯將模式旗標添加到所述組編碼符號,所述模式旗標指示用于量化的技術(shù)。
概念27.根據(jù)概念18所述的系統(tǒng),其中所述量化邏輯包含基于所述指示將反向z字形掃描次序應(yīng)用于所述變換系數(shù)和另外將正向z字形掃描次序應(yīng)用于所述變換系數(shù)的邏輯。
概念28.根據(jù)概念27所述的系統(tǒng),其中所述指示是所述部分具有高頻類型的所述特征。
概念29.根據(jù)概念27所述的系統(tǒng),其中所述量化邏輯進一步包含將模式旗標添加到所述組編碼符號以指示已應(yīng)用所述反向z字形掃描次序還是所述正向z字形掃描次序的邏輯。
概念30.根據(jù)概念25所述的系統(tǒng),其中所述量化邏輯進一步包含將模式旗標添加到一系列所述組編碼符號中一者的邏輯,其中所述模式旗標指示已相對于所述系列應(yīng)用所述反向z字形掃描次序還是所述正向z字形掃描次序。
概念31.根據(jù)概念18所述的系統(tǒng),其中所述編碼邏輯包含將無損壓縮應(yīng)用于所述組編碼符號的邏輯。
概念32.根據(jù)概念18所述的系統(tǒng),其中所述編碼邏輯包含將可變長度編碼應(yīng)用于所述組編碼符號的邏輯。
廣義上,本文件揭示至少一種用于通過將所述數(shù)字數(shù)據(jù)的一部分以預測方式并以變換方式表示為變換系數(shù)塊、接著基于所述變換系數(shù)是否將所述部分表示為具有特定特征的指示而將所述塊選擇性地量化為一組編碼符號、并接著通過將所述編碼符號組編碼為數(shù)據(jù)位流來壓縮數(shù)字數(shù)據(jù)的系統(tǒng)。具體地說,在許多應(yīng)用中,頻率可用作所述數(shù)字數(shù)據(jù)的特征。
盡管上文已描述了各種實施例,但應(yīng)了解,僅以實例方式來展現(xiàn)所述實施例,且本發(fā)明的寬度和范圍不應(yīng)受到上文所述的示范性實施例中的任何一者限制,而是應(yīng)僅根據(jù)所附權(quán)利要求書和其等效物來界定。
權(quán)利要求
1.一種用于壓縮數(shù)字數(shù)據(jù)的系統(tǒng),其包括將所述數(shù)字數(shù)據(jù)的一部分以預測方式并以變換方式表示為變換系數(shù)塊的邏輯;基于所述變換系數(shù)是否將所述部分表示為具有特定特征的指示而將所述塊選擇性地量化為一組編碼符號的邏輯;以及將所述組編碼符號編碼為數(shù)據(jù)位流的邏輯。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述特征是頻率。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),所述表示邏輯包含將所述部分變換為域的邏輯,其中在所述塊中更緊湊地表示所述部分。
4.根據(jù)權(quán)利要求3所述的系統(tǒng),其中所述域是頻域。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述量化邏輯包含將有損壓縮應(yīng)用于所述塊的邏輯。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其中所述有損壓縮包含執(zhí)行由按比例縮小所述變換系數(shù)和將所述變換系數(shù)舍位到整數(shù)值組成的組中的至少一項。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其進一步包括分析所述數(shù)字數(shù)據(jù)的一段以確定所述指示的邏輯。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述段是所述數(shù)字數(shù)據(jù)的所述部分。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述量化邏輯將模式旗標添加到所述組編碼符號,所述模式旗標指示用于量化的技術(shù)。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述量化邏輯包含基于所述指示將反向z字形掃描次序應(yīng)用于所述變換系數(shù)和另外將正向z字形掃描次序應(yīng)用于所述變換系數(shù)的邏輯。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其中所述指示是所述部分具有高頻類型的所述特征。
12.根據(jù)權(quán)利要求10所述的系統(tǒng),其中所述量化邏輯進一步包含將模式旗標添加到所述組編碼符號以指示已應(yīng)用所述反向z字形掃描次序還是所述正向z字形掃描次序的邏輯。
13.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述量化邏輯進一步包含將模式旗標添加到一系列所述組編碼符號中一者的邏輯,其中所述模式旗標指示已相對于所述系列應(yīng)用所述反向z字形掃描次序還是所述正向z字形掃描次序。
14.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述編碼邏輯包含將無損壓縮應(yīng)用于所述組編碼符號的邏輯。
15.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述編碼邏輯包含將可變長度編碼應(yīng)用于所述組編碼符號的邏輯。
全文摘要
本發(fā)明提供一種用于通過將所述數(shù)字數(shù)據(jù)的一部分以預測方式并以變換方式表示為變換系數(shù)塊、接著基于所述變換系數(shù)是否將所述部分表示為具有特定特征的指示而將所述塊選擇性地量化為一組編碼符號、并接著通過將所述編碼符號組編碼為數(shù)據(jù)位流來壓縮數(shù)字數(shù)據(jù)的系統(tǒng)。具體地說,在許多應(yīng)用中,頻率可用作所述數(shù)字數(shù)據(jù)的特征。
文檔編號H04N7/30GK101087416SQ20071011072
公開日2007年12月12日 申請日期2007年6月6日 優(yōu)先權(quán)日2006年6月8日
發(fā)明者羅希特·普里, 帕塔薩拉蒂·斯里拉姆 申請人:輝達公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1