視頻編碼中的圖像幀編組的制作方法

文檔序號：6554755閱讀：97來源：國知局

專利名稱：視頻編碼中的圖像幀編組的制作方法
技術領域：
本發(fā)明涉及多媒體文件的編組，尤其是視頻文件并且尤其是與流播(streaming)有關的多媒體文件的編組。
背景技術：
術語“流播”指的是同時發(fā)送并回放數(shù)據(jù)(典型的是多媒體數(shù)據(jù)，比如音頻和視頻文件)，在流播過程中，接收人可以在所有要發(fā)送的數(shù)據(jù)已經接收到之前開始數(shù)據(jù)回放。多媒體數(shù)據(jù)流播系統(tǒng)包括一個流播服務器和終端設備，接收人可使用該終端設備與流播服務器典型地通過電信網絡來建立一個數(shù)據(jù)連接。接收人從流播服務器取回已存儲的或實時的多媒體數(shù)據(jù)，然后就可以借助包含在終端中的流播應用程序非常有利地、幾乎與數(shù)據(jù)的傳輸實時地開始多媒體數(shù)據(jù)的回放。
從流播服務器的角度來看，可以將流播執(zhí)行為常規(guī)流播，或者可以將其執(zhí)行為向終端的累進下載。在常規(guī)流播過程中，多媒體數(shù)據(jù)和/或數(shù)據(jù)內容的傳送通過確保傳送的比特率基本上對應于終端設備的回放速率來進行控制，或者如果傳送過程中所使用的電信網絡造成了數(shù)據(jù)傳送中的瓶頸，就通過確保傳送的比特率基本上對應于電信網絡中可用的帶寬來進行控制。在累進下載過程中，根本不必要對多媒體數(shù)據(jù)和/或數(shù)據(jù)內容的傳送進行干預，但是多媒體文件同樣傳送給接收者，這典型地是通過使用傳送協(xié)議流量控制而進行的。于是終端接收、存儲并再生從服務器傳送過來的數(shù)據(jù)的精確副本，然后這個副本可以稍后在終端上再次進行再生，而無需再次通過電信網絡開始一個流播。不過，一般來說，存儲在終端中的多媒體文件都非常大，并且將它們傳送到終端是非常耗時的且它們要求非常大量的存儲空間，這就是為什么經常會首選常規(guī)流播的原因。
多媒體文件中的視頻文件包括大量的靜態(tài)圖像幀，這些幀被快速連續(xù)地(通常為每秒15到30幀)顯示以產生運動圖像的效果。這些圖像幀典型地包括很多靜止的背景物，它們由基本保持不變的圖像信息確定，以及包括少量的運動物，它們由發(fā)生了某種程度的變化的圖像信息確定。由連續(xù)顯示的圖像幀包含的信息通常大同小異，即，連續(xù)的圖像幀包含相當大的冗余量。視頻文件中出現(xiàn)的冗余性可以分為空間、時間和頻譜冗余。空間冗余涉及相鄰圖像像素的相互相關性，時間冗余涉及后續(xù)幀中的特定圖像對象中發(fā)生的變化，而頻譜冗余涉及圖像幀中的不同顏色分量的相關性。
為了減少視頻文件中的數(shù)據(jù)量，可以通過減少圖像幀中的冗余信息量來將圖像數(shù)據(jù)壓縮為較小的形式。此外，在編碼的同時，大多數(shù)當前使用的視頻編碼器會使視頻信息中不很重要的圖像幀片斷的圖像質量降級。此外，很多視頻編碼方法是通過對壓縮參數(shù)進行高效無損編碼(稱為VLC(可變長度編碼))而使得從圖像數(shù)據(jù)編碼得到的比特流中的冗余得以減少的。
此外，很多編碼方法利用上面介紹的連續(xù)圖像幀的時間冗余。在這種情況下，使用了一種稱為運動補償時間預測的方法，即，視頻序列中的一些(典型地是大多數(shù))圖像幀的內容是通過跟蹤連續(xù)圖像幀中的特定對象或區(qū)域的變化，從該序列中的其它幀預測出來的。視頻序列總是包含一些壓縮的圖像幀這些壓縮圖像幀的圖像信息尚未使用運動補償時間預測來確定。這樣的幀被稱為INTRA幀，或I幀。對應地，由在前圖像幀預測的運動補償視頻序列圖像幀被稱為INTER-幀，或P幀(預測的)。P幀的圖像信息是使用一個I幀和可能一個或多個在前編碼的P幀確定出來的。如果丟失了一幀，那么依賴于它的其它幀就不再能夠被正確地解碼。
I幀通常發(fā)起一個被定義為一個圖片組(GOP)的視頻序列，該圖片組的P幀只能根據(jù)所關心的GOP中的I幀和在前的P幀進行確定。下一個I幀開始一個新的圖片組GOP，該圖片組包含的圖像信息因此不能根據(jù)在前的GOP的幀進行確定。換句話說，圖片組在時間上是不重疊的，從而每個圖片組可以單獨進行解碼。此外，很多視頻壓縮方法采用了雙向預測的B幀(雙向的)，在圖片組GOP中，這些B幀被設置在兩個錨定幀(anchor frame)(I幀和P幀或兩個P幀)之間，B幀的圖像信息是從在前的錨定幀和跟在B幀之后的錨定幀預測出來的。因此B幀提供了質量比P幀高的圖像信息，但是通常它們不用作錨定幀，因此從視頻序列中將它們去除不會使后續(xù)圖像的質量降級。不過，沒有什么會阻止B幀也用作為錨定幀，只是在那種情況下，才不能將它們從視頻序列中除去、而不降低依賴于它們的那些幀的質量。
每個視頻幀可以分為稱為宏塊的部分，這些宏塊包括一個矩形圖像區(qū)域的所有像素的顏色分量(比如Y、U、V)。更加具體講，宏塊由每顏色分量至少一個塊組成，這些塊各自包括相關圖像區(qū)域中的一個色級的顏色值(比如Y、U或V)。這些塊的空間分辨率可以不同于宏塊的空間分辨率，例如，U和V分量可以僅使用Y分量的分辨率的一半進行顯示。宏塊可以進一步編組為條，例如，宏塊條可以是通常按照圖像的掃描順序選取的宏塊的組。時間預測通常是在塊或宏塊所特定的視頻編碼方法中進行的，而不是在圖像幀所特定的視頻編碼方法中進行的。
為了顧及視頻文件的靈活流播，很多視頻編碼系統(tǒng)采用了可縮放編碼，按照這種編碼方法，可以除去視頻序列的部分元素或元素組，而不會影響視頻序列其它部分的重構?？煽s放性通常是通過將圖像幀編組為幾個分層結構的層來實現(xiàn)的。編碼到基本層圖像幀的圖像幀基本上只包括對于在接收端進行視頻信息解碼所必需的圖像幀。每個圖片組GOP的基本層因此包括一個I幀和必要數(shù)目的P幀。在基本層之下可確定一個或多個增強層，每一個增強層與上一層相比提高了視頻編碼的質量。因此這些增強層包含基于運動補償、由一個或多個上層圖像預測得到的P或B幀。這些幀通常依據(jù)一個算術級數(shù)來編號。
在流播過程中，傳送比特率必須是根據(jù)所使用的帶寬或接收者的最大解碼或者比特率值進行控制的。比特率可以在流播服務器中進行控制，或者在電信網絡的某一個單元中進行控制，例如在因特網路由器或移動通信網絡的基站中進行控制。在流播服務器中控制比特率的最簡單的手段是從傳送中省去具有高信息含量的B幀。此外，流播服務器可以確定將在視頻流中傳送的可縮放層的數(shù)量，并且因此可以總是在新的圖片組GOP開始的時候，改變可縮放層的數(shù)量。使用不同的視頻序列編碼方法也是可能的。相應地，在電信網絡的單元中，可以從比特流中去除增強層的B幀以及其它的P幀。
上述方案牽涉到許多缺點。很多編碼方法，比如依據(jù)ITU-T(國際電信聯(lián)盟，電信標準化部門)標準H.263進行的編碼，都熟悉一種稱為參考圖片選擇的規(guī)程。在參考圖片選擇中，P圖像的至少一部分是由除了在時域內緊接在該P圖像前面的圖像之外的至少一個其它圖像預測出來的。所選定的參考圖像以特定于圖像的、特定于圖像段(比如一條或一組宏塊)的、特定于宏塊的或者特定于塊的方式在編碼的比特流或者比特流標題字段中用信號通知?？梢詫⒖紙D片選擇進行推廣，以致于還可以從在時間上跟在所要編碼的圖像后邊的圖像來作出預測。此外，還可以將參考圖片選擇推廣為覆蓋所有的在時間上進行預測的幀類型，包括B幀。由于還可能選擇先于作為圖片組GOP開始的I圖像的至少一個圖像作為參考圖像，因此采用參考圖片選擇的一組圖片不是必定能獨立解碼的。此外，在流播服務器或網絡單元中進行可縮放性或編碼方法的調節(jié)變得很困難，因為必須對視頻序列進行長時段的解碼、分析和緩沖，以使得不同圖像組之間的任何依賴性都能夠得以檢測出來。
再有一個問題涉及在另一個視頻序列中間插入一個視頻序列，這通常會導致圖像編號的不連續(xù)。視頻序列圖像的編號典型地用于檢測圖像幀的缺失。不過，如果將一個單獨的視頻序列(比如一個商業(yè)節(jié)目)插入到一個視頻序列中，則所述單獨的視頻序列通常配置有單獨的圖像編號，這個編號方式與原始視頻序列的遞增的圖像編號是不一致的。接收終端可能因此會將不正常的圖像編號解譯為缺失圖像幀的信號，并開始不必要的動作來重構被懷疑為缺失的圖像幀，或者請求對其進行重新發(fā)送。
當在編碼器和解碼器中緩沖和索引參考圖片時，會遇到類似的問題。作為索引的一部分，編碼器可能有意地去除多個圖像幀，這些圖像幀沒有必要作為用于任何剩余圖像幀的時間預測處理的參考圖像幀。再者，沒有用于把去除的原因通知給解碼器的處理過程例如，如果去除了很多個圖像幀，則接收終端可能不必要地將這些有意的去除解譯為協(xié)議錯誤。

發(fā)明內容
現(xiàn)在，發(fā)明了一種改進的方法和實現(xiàn)該方法的設備，該方法和設備使得解碼器能夠考慮已被編碼器有意地去除的圖像幀。本發(fā)明的各方面包括一種方法、一種視頻編碼器、一種視頻解碼器、一種視頻信號、一種用于調整視頻序列的比特率的設備(優(yōu)選地是流播系統(tǒng)單元)和一種計算機程序，它們的特征在于獨立權利要求中所記載的特征。
在從屬權利要求中公開了本發(fā)明的優(yōu)選實施例。
本發(fā)明基于這樣一種思想解碼一個壓縮視頻序列，其中將圖像幀輸入到一個與解碼有關的緩沖存儲器中。該視頻序列包括一個涉及圖像幀編號中的至少一個不連續(xù)性的指示，從該視頻序列解碼出該指示。然后，響應于該指示，配置緩沖存儲器來提供與圖像幀編號中的不連續(xù)性相應的多個圖像幀，并且在解碼處理中使用緩沖存儲器中的圖像幀。優(yōu)選地，所述指示通知視頻序列中圖像幀編號中的至少一個不連續(xù)性是有意的，以及在緩沖存儲器中生成的該多個圖像幀被使用來代替在解碼器中不存在的圖像幀。該缺失的圖像幀導致圖象幀編號中的不連續(xù)性。
按照一個實施例，在緩沖存儲器已被配置來提供與圖像幀編號中的不連續(xù)性相應的該多個圖像幀之后，從正確的圖像幀編號開始，繼續(xù)將所關心的視頻序列包含的圖像幀輸入到緩沖存儲器中。
按照一個實施例，將相應于圖像幀編號中的不連續(xù)性的多個填充幀輸入到緩沖存儲器中。優(yōu)選地，所述填充幀由一個指示該填充幀不屬于該實際視頻序列的標識符來指定。
按照一個實施例，配置緩沖存儲器來提供與圖像幀編號中的不連續(xù)性相應的多個圖像幀的步驟通過存儲器指示來完成，由此沒有數(shù)據(jù)被輸入到緩沖存儲器中。
本發(fā)明的規(guī)程的一個優(yōu)點在于，它向解碼器提供如下信息圖像幀編號中的哪些間斷是有意的，由此解碼器不會開始不必要的糾錯動作。另一個優(yōu)點在于，編碼器和解碼器的緩沖存儲器可以保持同步，這使得參考圖片選擇的處理能夠流暢地運行。

下面，將結合優(yōu)選實施例并參照附圖對本發(fā)明進行描述，其中附圖1表示一種普通的多媒體數(shù)據(jù)流播系統(tǒng)，其中可以應用本發(fā)明的可縮放編碼分層結構；附圖2表示本發(fā)明的一個優(yōu)選實施例的可縮放編碼分層結構；附圖3a和3b表示用于調整可縮放性的本發(fā)明的實施例；附圖4a、4b和4c表示用于調整圖像編號的本發(fā)明的實施例；附圖5a、5b和5c表示在可縮放編碼分層結構中使用B幀的本發(fā)明的實施例；附圖6a、6b和6c表示本發(fā)明結合參考圖片選擇的優(yōu)選實施例的可縮放編碼分層結構；和附圖7表示按照用于對場景變換進行編碼的本發(fā)明的優(yōu)選實施例的方案。
具體實施例方式
下面，公開了一種通用的多媒體數(shù)據(jù)流播系統(tǒng)，其基本原理可以與任何電信系統(tǒng)相結合地應用。雖然這里是具體參照流播系統(tǒng)(其中多媒體數(shù)據(jù)最好是通過諸如IP網絡這樣的采用包交換數(shù)據(jù)協(xié)議的電信網絡傳送的)對本發(fā)明進行介紹的，但是本發(fā)明同樣也可應用在諸如固定電話網PSTN/ISDN(公共交換電話網/綜合業(yè)務數(shù)字網)這樣的電路交換網絡或者移動通信網PLMN(公共地面移動網絡)中。此外，本發(fā)明既可以應用在正常流播形式的多媒體文件流播中，又可以應用在累進下載的多媒體文件流播中，而且可以用于實現(xiàn)例如視頻呼叫。
還應當注意到，雖然這里是具體參照流播系統(tǒng)對本發(fā)明進行介紹的，并且本發(fā)明也可以便利地應用于這些系統(tǒng)中，但是本發(fā)明并不單單局限于流播系統(tǒng)，而是可以應用在任何視頻再生系統(tǒng)中，不管所要解碼的視頻文件是如何下載和從哪里下載的。本發(fā)明因此可以應用于，例如，從DVD盤或從其它一些計算機存儲載體上下載的視頻文件的回放，例如與可用于視頻回放的變化處理能力相結合而進行。具體來講，本發(fā)明可應用于通常在受到帶寬限制的電信系統(tǒng)中使用的不同低比特率視頻編碼。一個實例是按照I TU-T標準H.263定義的系統(tǒng)和正在H.26L(可能以后會變?yōu)镠.264)定義的系統(tǒng)。結合這些系統(tǒng)，本發(fā)明可以應用于例如移動臺，在這種情況下，當移動臺還被用來執(zhí)行視頻回放之外的其它應用時，可以對視頻回放進行調節(jié)，以適應改變的傳送容量或信道質量以及當前可用的處理器運算能力。
還應當注意，為了清楚起見，下面將通過給出一個圖像幀級別上的圖像幀編碼和時間預測的計算來對本發(fā)明進行介紹。不過，在實踐中，編碼和時間預測通常是對塊或宏塊級進行的，正如上面所述的。
將參照附圖1對一個典型的多媒體流播系統(tǒng)進行介紹，該系統(tǒng)是應用本發(fā)明的規(guī)程的優(yōu)選系統(tǒng)。
多媒體數(shù)據(jù)流播系統(tǒng)通常包括一個或多個多媒體源100，比如攝像機和麥克風，或者存儲在存儲載體中的視頻圖像或計算機圖形文件。在編碼器102中，將從不同的多媒體源100得到的原始數(shù)據(jù)組合到一個多媒體文件中，該編碼器102也可以稱為編輯單元。從一個或多個多媒體源100得到的原始數(shù)據(jù)首先是使用一個包含在編碼器102中的捕獲裝置104捕獲到的，這個捕獲裝置通常可以被實現(xiàn)為不同的接口卡、驅動軟件或控制卡功能的應用軟件。例如，可以使用視頻捕獲卡和相關軟件來捕獲視頻數(shù)據(jù)。捕獲裝置104的輸出通常是未壓縮或輕微壓縮的數(shù)據(jù)流，例如當涉及到視頻捕獲卡時，是YUV 4:2:0格式或運動-JPEG圖像格式的未壓縮視頻幀。
編輯器106將不同的媒體流鏈接在一起，以使按期望要同時再生的視頻和音頻流同步。編輯器106還可以舉例而言，通過使幀速率減半或通過降低空間分辨率來對比如視頻流的各個媒體流進行編輯。這些單獨的(雖然是同步的)媒體流在壓縮器108中進行壓縮，在這種情況下，每個媒體流是使用適用于該媒體流的壓縮器單獨進行壓縮的。例如，可以使用依照ITU-T建議標準H.263或H.26L的低比特率視頻編碼技術對YUV 4:2:0格式的視頻幀進行壓縮。通常在多路復用器110中對這些單獨的、同步且經過壓縮的媒體流進行交織，從編碼器102得到的輸出是一個單一、均勻的比特流，該比特流包含多個媒體流的數(shù)據(jù)，并且可以將該比特流稱為多媒體文件。需要注意的是，多媒體文件的形成并非必須要求將多個媒體流多路復用為一個單一的文件，而是可以由流播服務器就在傳送該媒體流之前對它們進行交織。
這些媒體文件被傳送給一個流播服務器112，這樣該服務器就具有按照實時流播方式或以累進下載的形式進行流播的能力。在累進下載過程中，首先將多媒體文件保存在服務器112的存儲器中，當需求產生時，可以從這里取回它們以進行傳送。在實時流播過程中，編輯器102向流播服務器112發(fā)送多媒體文件的連續(xù)媒體流，并且服務器112將該媒體流直接轉送給客戶端114。作為另外一種選擇，還可以這樣來執(zhí)行實時流播將多媒體文件存儲在一個可從服務器112進行訪問的存儲裝置中，當需求產生時，可以從那里驅動實時流播并啟動多媒體文件的連續(xù)媒體流。在這種情況下，編輯器102就沒有必要借助任何手段對流播進行控制了。流播服務器112依照可用帶寬或者客戶端114的最大解碼和回放速率來進行多媒體數(shù)據(jù)的業(yè)務量整形，該流播服務器112能夠例如通過從傳輸中省去B幀或者通過調整可縮放層的數(shù)量來調節(jié)媒體流的比特率。而且，流播服務器112可以修改經多路復用的媒體流的標題字段，以減小它們的大小，并且可以將多媒體數(shù)據(jù)封裝到適于在所采用的電信網絡中傳送的數(shù)據(jù)包中?？蛻舳?14可以通過使用適當?shù)目刂茀f(xié)議來至少在某種程度上對服務器112的操作進行調節(jié)?？蛻舳?14至少可以通過這樣的方式對服務器112進行控制可以選擇所需的多媒體文件傳送到客戶端，除此之外，客戶端通常還能夠停止和中斷多媒體文件的傳送。
當客戶端114正在接收多媒體文件時，首先將該文件提供給一個解復用器116，該解復用器將多媒體文件所包含的媒體流分離出來。然后將單獨的、經壓縮的媒體流提供給一個解壓縮器118，此處各個單獨的媒體流是由適用于各個具體媒體流的解壓縮器進行解壓縮的。將經解壓縮和重構的媒體流提供給一個回放單元120，在這里，這些媒體流是依照它們的同步數(shù)據(jù)以正確的步調得以還原的，然后將經還原的媒體流提供給呈現(xiàn)裝置124。實際的呈現(xiàn)裝置124可以包括，例如，計算機或移動臺顯示器和揚聲器裝置?？蛻舳?14一般來說還包括一個控制單元122，終端用戶一般可以通過一個用戶界面對該控制單元122進行控制，并且該控制單元122根據(jù)終端用戶給出的指令，既可以通過上述的控制協(xié)議對服務器的操作進行控制，也可以對回放單元120的操作進行控制。
要注意的是，多媒體文件從流播服務器112到客戶端114的傳送是通過電信網絡進行的，傳送路徑通常包括多個電信網絡單元。因此有可能至少有這樣的一些網絡單元，它們可以至少部分地以與上面關于流播服務器介紹的相同方式，來進行關于可用帶寬或客戶端114的最大解碼和回放速率的多媒體數(shù)據(jù)的業(yè)務量整形。
下面將參照本發(fā)明的優(yōu)選實施例和附圖2中示出的一個實例對可縮放編碼進行介紹。附圖2表示壓縮視頻序列的一部分，具有第一幀200，該第一幀200是一個I NTRA幀或I幀，并因此是一個獨立確定的視頻幀，其圖像信息無需使用運動補償時間預測來確定。I幀200位于第一可縮放層，該層也可稱為INTRA層。給每個可縮放層分配一個唯一的標識符，比如層號。因此可以分配給INTRA層例如一個號碼0，或者其它字母數(shù)字的標識符，例如一個字母，或字母與數(shù)字的組合。
相應地，為各個可縮放層確定了由一個或多個視頻幀的組構成的子序列，在一個組的圖像中的至少一個(一般來說是第一個或最后一個)被至少從另一個子序列的視頻幀進行時間預測，所述另一個子序列一般來說是較高或同一可縮放層的子序列，其余的視頻幀是僅從同一子序列的視頻幀進行時間預測，或者也有可能從所述第二個子序列的一個或多個視頻幀進行時間預測。子序列可以獨立地進行解碼，而不考慮除了所述第二個子序列之外的其它子序列。使用例如從為可縮放層的第一個子序列給出的號碼0開始的連續(xù)編號，為每個可縮放層的子序列分配了一個唯一的標識符。由于I幀200是獨立確定的，并且在接收的時候還可以進行與其它圖像幀無關的獨立解碼，因此它還可以在某種意義上形成一個單獨的子序列。
因此，本發(fā)明的主要特征是根據(jù)子序列所依賴的那些子序列來確定每個子序列。換句話說，一個子序列包括關于已直接用于預測該所關心子序列的圖像幀的所有子序列的信息。這個信息在視頻序列比特流中用信號通知，最好是獨立于實際的圖像信息，并且因此該視頻序列的圖像數(shù)據(jù)可以優(yōu)選地被調節(jié)，因為很容易確定要獨立進行解碼的視頻子序列部分，并且可以將其除去，而不會影響其余圖像數(shù)據(jù)的解碼。
下面，在每個子序列中，使用例如從為子序列的第一個視頻幀給出的號碼0開始的連續(xù)編號，為子序列的視頻幀給出圖像號碼。由于I幀200也形成一個單獨的子序列，所以其圖像號碼為0。在附圖2中，I幀200顯示為該幀的類型(I)、子序列標識符和圖像號碼(0.0)。
附圖2還示出了INTRA層的下一個I幀202，該幀也是一個未使用運動補償時間預測而確定的獨立確定的視頻幀。I幀的時間傳輸頻率取決于很多與視頻編碼、圖像信息內容以及所要使用的帶寬相關的因素，并且，取決于應用程序或應用環(huán)境，例如，I幀以0.5到10秒的間隔在視頻序列中傳送。由于I幀202可以獨立解碼，因此它也形成一個單獨的子序列。由于這是INTRA層中的第二個子序列，因此I幀202的子序列標識符的連續(xù)編號為1。此外，由于I幀202也形成單獨的子序列，即，它是該子序列中僅有的視頻幀，因此其圖像號碼為0。這樣，I幀202可由標識符(I.1.0)標示。相應地，INTRA層中的下一個I幀的標識符是(I.2.0)，等等。結果，只有獨立確定的I幀(其中圖像信息不是使用運動補償時間預測確定的)被編碼到第一個可縮放層(即，INTRA層)中。也可以使用其它類型編號方式或其它的標識符來確定這些子序列，只要可以使子序列相互區(qū)別開來即可。
下一個可縮放層(該層具有層號(例如)1，并且可以將該層稱為基本層)，包括經編碼的、經運動補償?shù)腎NTER或P幀(一般僅從在前的圖像幀進行預測，即，在這種情況下，是從上面的INTRA層的I幀預測)。附圖2中所示的基本層的第一個P幀204的圖像信息是使用INTRA層的I幀200確定的。以P幀204開始該基本層的第一個子序列，因此P幀204的子序列的標識符為0。此外，由于P幀204是基本層的第一個子序列的第一個圖像幀，因此P幀204的圖像號碼是0。P幀204因此可由(P.0.0)來標識。
基本層中在時間上跟在后邊的P幀206是從在前的P幀204預測出來的。因此P幀206和204屬于同一子序列，從而P幀206也接納子序列標識符0。由于P幀206是子序列0中的第二圖像幀，所以P幀206的圖像號是1，并且該P幀206可由(P.0.1)來標識。
跟在基本層后面且具有層號2的可縮放層叫做增強層1。該層包括經編碼的、僅從在前的圖像幀預測出來的運動補償?shù)腜幀，在這種情況下是從INTRA層的I幀或基本層的P幀預測出來的。附圖2示出了增強層1的第一個圖像幀208和第二個圖像幀210，它們都是僅從INTRA層的第一圖像幀200預測出來的。從P幀208開始增強層1的第一個子序列，因此該P幀的子序列標識符是0。此外，由于P幀208是所述子序列中的第一個也是僅有的圖像幀，因此P幀208接納圖像編號0。這樣P幀208可由(P.0.0)來標識。
由于第二個圖像幀210也是僅從INTRA層的第一個圖像幀200預測來的，所以從該P幀210開始增強層1的第二個子序列并且因此該P幀210的子序列標識符是1。由于P幀210是該子序列中的第一個圖像幀，因此P幀210的圖像編號為0。這樣該P幀可由(P.1.0)來標識。增強層1中的在時間上后續(xù)的P幀212是從前一P幀210預測出來的。P幀210和212因此屬于同一子序列，并且因此該P幀也接納子序列標識符1。P幀212是子序列1中的第二個圖像幀，因此該P幀接納圖像編號1，從而該P幀可由(P.1.1)標識。
增強層1的按時間順序第四個圖像幀214是從基本層的第一個圖像幀204預測出來的。P幀214因此起始了增強層1的第三個子序列，因此P幀214接納子序列標識符2。此外，由于P幀214是該子序列中的第一個且僅有的圖像幀，因此P幀214的圖像編號為0。因此P幀208可由(P.2.0)標識。
而且增強層1的按時間順序第五個圖像幀216是僅從基本層的第一個圖像幀204預測出來的，P幀216因此起始了增強層1的第四個子序列，并且P幀216的子序列標識符是3。此外，由于P幀216是所關心的子序列中的第一個圖像幀，因此P幀216的圖像編號為0。因此P幀216可由(P.3.0)標識。增強層1中的在時間上后續(xù)的P幀218是從先前的P幀216預測出來的。P幀216和218因此屬于同一子序列，并且該P幀218的子序列標識符也為3。由于P幀218是子序列3中的第二個圖像幀，因此該P幀218的圖像編號為1，從而該P幀218可由(P.3.1)標識。
為了說明的簡便和清楚，上面所介紹的公開內容僅涉及I和P幀。不過，本領域的技術人員可以輕而易舉地發(fā)現(xiàn)，本發(fā)明的可縮放視頻編碼也可以使用其它公知的圖像幀類型來實現(xiàn)，比如上面所介紹的B幀和至少SI幀、SP幀和MH幀。SI幀對應于I幀，不過和SP幀結合在一起，才能使相同的圖像得以重構。依次地，SP幀是一個P幀，它經歷了特殊的編碼，與一個SI幀或另一個SP幀組合在一起才能使得同一圖像得以重構。通常把SP幀放在視頻序列中需要訪問點或掃描點的點上，或者放在可能改變視頻流的編碼參數(shù)的點上。并且這些幀還可用于糾錯和用于提高容錯。SP幀在其它方面與由在前幀預測的常規(guī)P幀相同，只是將SP幀定義為可由SP或SI類型的另一個視頻幀進行替換，新的幀的解碼結果與視頻流中原來的SP幀的解碼結果相同。換句話說，用于代替視頻流中的SP幀的新的SP幀是從另一個序列或視頻流中預測出來的，并且重構得出的幀仍然具有相同的內容。在例如本申請人較早的申請PCT/FI02/00004中對SP幀進行了介紹。
與B幀類似，MH(多假設(Multi Hypothesis))幀的宏塊是根據(jù)運動補償預測由兩個其它的幀預測出來的，不過，這兩個其它的幀并不必須與MH幀位置相鄰。更精確地講，將預測宏塊計算做兩個其它幀的兩個宏塊的平均。不使用兩個幀，MH幀宏塊實際上也可從一個其它幀預測出來。可以依據(jù)宏塊而改變參考圖像，換句話說，在同一圖像中的所有宏塊沒有必要使用同一幀進行預測。
這樣，子序列覆蓋了視頻序列中的特定的時間段。同一層或不同層的子序列可以是部分或完全重疊的。如果在同一層上有時間上重疊的圖像幀，那么可以將這些幀解譯為是同一圖像內容的交替表示，因此任何模式的圖像表示都可以使用。另一方面，如果在不同層上有時間上重疊的圖像幀，則它們形成了同一圖像內容的不同表示，并且因此這些表示在圖像質量上是不同的，即，較低層上的圖像質量更好。
上面參照附圖2公開的內容說明了按照本發(fā)明的優(yōu)選實施例的圖像幀的一種可縮放的編碼方案以及一種分層結構和編號方法。在這個實施例中，INTRA層只包括I幀，基本層可以只使用從INTRA層接收的信息進行解碼。相應地，增強層1的解碼一般來說需要來自基本層和INTRA層的信息。
可縮放層的數(shù)量不局限于如上所述的三個，而是可以使用為產生足夠的可縮放性而考慮的任何數(shù)量的增強層。從而，增強層2的層號是四，增強層3的層號是五等等。由于上述例子中的某些圖像幀被給予相同的標識符(例如，圖像幀204和208的標識符都是(P.0.0))，因此通過在標識符中包含層號，便能夠唯一地標識每個圖像幀，并且同時，優(yōu)選地確定了每個圖像幀與其它圖像幀的依賴性。這樣就唯一地標識了每個圖像幀，圖像幀204的標識符，例如，是(P.1.0.0)或簡單地是(1.0.0)，相應地，圖像208的標識符是(P.2.0.0)或(2.0.0)。
按照本發(fā)明的一個優(yōu)選實施例，參考圖像幀的號碼是依照一個特定的預定字母數(shù)字數(shù)序列來確定的，例如為0和255之間的整數(shù)。當參數(shù)值達到所考慮的序列中的最大值N(例如，255)時，則參數(shù)值的確定從頭開始，即，從序列的最小值(例如，0)開始。這樣，圖像幀在特定的子序列中得到了唯一地標識，直到同樣的圖像編號被再次使用的那一點。子序列標識符也可以依照一個特定的預定算術級數(shù)來確定。當子序列標識符的值達到該級數(shù)的最大值N時，標識符的確定再次從該級數(shù)的首項開始。不過，不能將仍在使用的(在同一層中的)標識符分配給子序列。除了算術方法外，還可以采用另外一種方法來確定所使用的序列。一種可選方案是，分配隨機子序列標識符，要考慮所分配的標識符不被再次使用。
當用戶希望在視頻序列的中間開始瀏覽視頻文件時，圖像幀的編號會出現(xiàn)問題。這種情況發(fā)生在，例如，用戶希望向后或向前瀏覽本地存儲的視頻文件或在一個特定的點瀏覽流播文件的時候；用戶從一個隨機點啟動流播文件的回放的時候；或者檢測到所要再生的視頻文件中包含錯誤、而該錯誤會中斷回放或者要求從錯誤之后的點重新恢復回放的時候。當視頻文件的瀏覽是在先前的瀏覽之后從一個隨機點重新開始時，圖像編號通常會出現(xiàn)不連續(xù)性。解碼器一般來說會將這種情況解譯為圖像幀的非故意缺失，并且將會不必要地設法重構那些疑為丟失的圖像幀。
按照本發(fā)明的一個優(yōu)選實施例，這可以通過在可獨立解碼的圖片組GOP中定義一個起始圖像來避免在解碼器中發(fā)生這種情況，該可獨立解碼的圖片組GOP是在視頻文件的隨機點上被激活的，并且所述起始圖像的編號被設置為零。這樣，該可獨立解碼的圖片組可以是例如INTRA層的一個子序列，例如在這種情況下，將一個I幀用作所述起始圖像，或者，如果采用了源自基本層的縮放，則該可獨立解碼的圖像組是基本層的一個子序列，在這種情況下，該子序列的第一個圖像幀(一般來說是I幀)通常用作起始圖像。從而，當在一個隨機點激活時，解碼器優(yōu)選地將可獨立解碼的子序列的第一個圖像幀(最好是I幀)的標識符設置為0。由于所要解碼的子序列還可能包含其它標識符為零的圖像幀(例如當上述的字母數(shù)字序列從頭開始時)，可以將子序列的開端(即，其第一個圖像幀)，例如，通過加在該圖像幀中的一個條的標題字段中的一個單獨標記而指示給解碼器。這使得解碼器能夠將該圖像編號正確地解譯，并且能夠從視頻序列的圖像幀中找到起始該子序列的正確圖像幀。
上述的編號系統(tǒng)給出了這樣一個實例如何進行本發(fā)明的唯一圖像幀標識，以致同時指示出圖像幀之間的相互依賴性。不過，可以應用本發(fā)明的方法的視頻編碼方法，比如依照ITU-T標準H.263和H.26L的視頻編碼方法，采用了代碼表，它們進而使用了可變長度編碼。當使用可變長度編碼來對層號進行編碼時，例如，一個較低的碼字索引，即較小的層號，則這意味著一個較短的碼字。在實踐中，本發(fā)明的可縮放編碼將會在大多數(shù)情況中以這樣一種方式用，即基本層將會包括明顯多于INTRA層的圖像幀。這證明了在基本層使用比INTRA層較低的索引(即，較小的層號)是正確的，因為編碼的視頻數(shù)據(jù)量由此有利地得到了降低。由此，最好為INTRA層指配層號1而將層號0配給基本層。另外，可以通過使用比INTRA層編號更少的比特對基本層編號進行編碼來形成所述代碼，在這種情況下，考慮到所創(chuàng)建的代碼長度，實際的層號值是無關的。
此外，按照本發(fā)明的第二個優(yōu)選實施例，當使可縮放層的數(shù)量保持得較低時，尤其可以將第一個可縮放層編碼為包含INTRA層和基本層。從編碼的分層結構的角度考慮，構思此方案的最簡單的方法是一起省略掉INTRA層，并為基本層提供由獨立定義的I幀(其圖像信息未使用運動補償時間預測來確定)和從在前的幀預測出來的圖像幀(圖像幀在這種情況下是由同一層的I幀預測出來的運動補償P幀)組成的編碼幀。這樣，基本層仍然可以使用層號0，并且，如果將增強層編碼為視頻序列，則分配給增強層1的層號是1。這將在下面參照附圖3a和3b進行說明。
附圖3a表示一個非可縮放的視頻序列結構，其中所有的圖像幀都放在同一可縮放層上，即，基本層上。該視頻序列包括一個第一圖像幀300，它是一個I幀(I.0.0)，并且因此它起始第一子序列。圖像幀300用于預測子序列的第二個圖像幀302，即，P幀(P.0.1)，然后該P幀用于預測該子序列的第三個圖像幀304，即，P幀(P.0.2)，該P幀(P.0.2)進而用于預測下一個圖像幀306，即，P幀(P.0.3)。然后在該視頻序列中配備一個經編碼的I幀(I.1.0)，即I幀308，這樣，該I幀起始該視頻序列中的第二個子序列。這種類型的非可縮放編碼可用于，例如，當所采用的應用不允許使用可縮放編碼時，或者不需要使用可縮放編碼時。例如，在電路交換可視電話應用中，信道帶寬保持恒定，并且視頻序列是實時編碼的，因此一般情況下不需要可縮放編碼。
接下來，附圖3b表示這樣一個實例，在需要的時候，如何為組合在一起的I NTRA和基本層添加可縮放性。這里，視頻序列基本層同樣包括一個第一圖像幀310，它是一個I幀(I.0.0)，并且它起始基本層的第一個子序列。圖像幀310用于預測該子序列的第二個圖像幀312，即，P幀(P.0.1)，然后該P幀用于預測該子序列的第三個圖像幀314，即，P幀(P.0.2)。不過，增強層1也編碼為這一視頻序列，并且它包括一個第一子序列，該第一子序列的第一個且唯一的圖像幀316是一個P幀(P.0.0)，該P幀是從基本層的第一個圖像幀310預測來的。增強層的第二個子序列的第一個圖像幀318是順次從基本層的第二個圖像幀312預測來的，并且因此這個P幀的標識符是(P.1.0)。增強層的下一個圖像幀320再次地是從同一層的在前圖像幀318預測出來的，因此，它屬于同一個子序列，從而其標識符為(P.1.1)。
在本發(fā)明的這一實施例中，基本層的子序列可獨立地解碼，雖然基本層子序列可能依賴于另一個基本層子序列。基本層子序列的解碼需要來自基本層和/或來自增強層1的第二個子序列的信息，增強層2的子序列的解碼需要來自增強層1和/或來自增強層2的第二個子序列的信息，等等。按照一種實施方案，I幀并不單單限于基本層，而是較低的增強層也可以包含I幀。
支持上述實施例的基本思想是，一個子序列包含關于它所依賴的所有子序列的信息，即，關于用于預測所討論的子序列的圖像幀中的至少一幀的所有子序列的信息。不過，按照一種實施方式，也可能是一個子序列包含關于依賴于所討論的子序列的所有子序列的信息，也就是，關于所有這樣的子序列的信息，即在該子序列中至少一個圖像幀已使用所討論的子序列中的至少一個圖像幀預測。由于在后一情況下，依賴性一般來說在時間上是向前確定的，因此在編碼過程中可以按照稍后介紹的方式來方便地利用圖像幀緩沖器。
在上述所有實施例中，圖像幀的編號都是子序列所特定的，即，新的子序列總是從頭開始編號。這樣，標識個體圖像幀就需要確定層號、子序列標識符和圖像幀編號。按照本發(fā)明的優(yōu)選實施方式，可以使用連續(xù)的編號對圖像幀進行獨立編號，其中連續(xù)的參考圖像幀按照編碼順序由遞增一的號碼來指示。關于層號和子序列標識符，也可以采用上述的編號規(guī)程。在必要的時候，這使得每個圖像幀都能夠得以唯一地標識，而無需使用層號和子序列標識符。
這將參照附圖4a所示的例子進行介紹，在附圖4a中，基本層包括一個在時間上處于第一位的I幀400(I.0.0)。這個幀用于預測增強層1的第一個圖像幀402，即，(P.0.1)，然后幀(P.0.1)用于預測屬于同一子序列(具有子序列標識符0)的第二個圖像幀404，即，(P.0.2)，幀(P.0.2)用于預測同一子序列的第三個圖像幀406，即，(P.0.3)，幀(P.0.3)用于預測第四個圖像幀408(P.0.4)，最后，第四個幀用于預測第五個圖像幀410(P.0.5)。按時間順序下一個視頻序列圖像幀412位于基本層上，在這種情況下該幀412與I幀400處于同一子序列中，雖然按時間順序它只是第七個編碼的圖像幀，并且因此其標識符為(P.0.6)。于是該第七個幀用于預測增強層1的第二個子序列的第一個圖像幀414，即，(P.1.7)，然后該幀(P.1.7)用于預測屬于同一子序列(具有子序列標識符1)的第二個圖像幀416，即，(P.1.8)，幀(P.1.8)進而用于預測第三個圖像幀418(P.1.9)，該第三個圖像幀(P.1.9)用于預測第四個圖像幀420(P.1.10)，最后，第四個圖像幀420用于預測同一子序列的第五個圖像幀422(P.1.11)。按時間順序下一個視頻序列圖像幀424再次位于基本層上，這里它與I幀400和P幀412處于同一子序列中，雖然按時間順序它只是第十三個編碼圖像幀，并且因此其標識符為(P.0.12)。為了說明清楚，本實施例的上述說明沒有包含層標識符，不過顯然，為了實現(xiàn)可縮放性，層標識符也必須與視頻序列一起用信號通知，一般來說是作為圖像幀標識符的一部分。
附圖4b和4c表示對附圖4a中所示的視頻序列的圖像幀進行編組的另外的實施例。附圖4b中的圖像幀是依據(jù)子序列進行編號的，即，新的子序列總是從開端(從零)開始編號。接下來，附圖4c采用了這樣一種圖像幀編號方法在其它方面上與附圖4a中所使用的編號方法相對應，只是基本層的P幀由SP幀對代替，以顧及圖像信息的等同重構。
如上所述，本發(fā)明的規(guī)程也可以使用B幀采實現(xiàn)。它的一個例子在附圖5a、5b和5c中給出。附圖5a表示時域中的一個視頻序列，該序列包含P幀P1、P4和P7，有多個B幀位于它們之間，B幀關于時間預測的相互依賴關系由箭頭表示。附圖5b表示視頻序列圖像幀的一個優(yōu)選編組，其中示出了附圖5a中所示的相互依賴關系。附圖5b表示子序列所特定的圖像幀編號，其中新的子序列總是從零開始對圖像幀編號。接下來，附圖5c表示這樣一種圖像幀編號按照時間預測的順序連續(xù)編號，其中后面的參考幀總是接納前一編碼的參考幀的下一個圖像號碼。圖像幀(B1.8)(和(B 2.10))不用作任何其它幀的參考預測幀，因此它不影響圖像幀編號。
上面的例子說明了可如何通過使用本發(fā)明的方法來調整視頻序列編碼的可縮放性的不同可選方案。從終端設備再生視頻序列的角度看，可得到越多的可縮放層，或者說能夠解碼的可縮放層越多，圖像的質量就越好。換句話說，圖像信息量的增加和用于傳送這些信息的比特率的增大，提高了時間或空間分辨率，或者圖像數(shù)據(jù)的空間質量。相應地，較多數(shù)量的可縮放層也會對執(zhí)行解碼的終端設備的處理能力提出相當高的要求。
此外，上面的例子說明了通過使用子序列所獲得的優(yōu)點。通過使用圖像幀標識符，便以明確的方式指出了子序列中每個圖像幀與其它圖像幀的依賴性。這樣，子序列就形成了一個獨立的整體，在必要時，它可以整個被從視頻序列中省去，而不會影響視頻序列中后續(xù)圖像幀的解碼。在這種情況下，只有所討論的子序列的圖像幀和在同一可縮放層上和/或在較低可縮放層上依賴于該所討論子序列的子序列中的圖像幀不被解碼。
與視頻序列一起發(fā)送的圖像幀標識符數(shù)據(jù)最好包含在視頻序列的標題字段中或包含在傳送視頻序列所使用的傳送協(xié)議的標題字段中。換句話說，預測得到的圖像幀的標識符數(shù)據(jù)并不包含在經編碼的視頻序列的圖像數(shù)據(jù)中，而總是包含在標題字段中，從而不用對實際視頻序列的圖像進行解碼就可以檢測出圖像幀的依賴性。在對視頻序列進行編碼以進行傳送的時候，該圖像幀的標識符數(shù)據(jù)可以存儲在，例如，流播服務器的緩沖存儲器中。此外，可以在各個可縮放層上對子序列進行獨立的解碼，因為子序列的圖像幀不依賴于同一可縮放層上的其它子序列。
按照本發(fā)明的一種實施方式，子序列所包含的圖像幀因此也可以依賴于同一可縮放層上的其它子序列。然后必須將這種依賴性用信號通知給，例如，執(zhí)行業(yè)務量整形的流播服務器，因為位于同一層上的相互依賴的子序列不能單獨地從所要發(fā)送的視頻序列中除去。執(zhí)行該信令的優(yōu)選方式是將其包含在所發(fā)送的圖像幀標識符中，例如通過列出所討論的子序列所依賴的層一子序列對。這還提供了一種表示與同一可縮放層上的另一個子序列的依賴性的優(yōu)選方式。
上述的例子說明了這樣一種情況圖像幀是按照時間順序從在前的圖像幀預測出來的。不過，在一些編碼方法中，已經將參考圖片選擇進一步擴展到還包括從按時間順序跟在后面的圖像幀來預測圖像幀的圖像信息。參考圖片選擇提供了創(chuàng)建不同的在時間上可縮放圖像幀結構的很多各種各樣的手段，并且使得視頻序列的錯誤敏感度得到了降低?；趨⒖紙D片選擇的編碼技術之一是INTRA幀延期。INTRA幀未被放在在視頻序列中其在時間上的“正確”位置上，但是其位置被在時間上延期。位于INTRA幀的“正確”位置與其實際位置之間的視頻序列圖像幀按時間順序向后由所討論的INTRA幀進行預測。這自然要求將未編碼的圖像幀緩沖充分長的時間段，以致使所要顯示的所有圖像幀都可以被編碼且得以按照它們的呈現(xiàn)次序安排。下面將參照附圖6對按照本發(fā)明的INTRA幀轉移以及相關的子序列確定進行介紹。
附圖6a表示一個視頻序列部分，其中INTRA幀包括一個單一的I幀600，該I幀在時間上被轉移到附圖6中所示的位置上，雖然該I幀在視頻序列中的“正確”位置應當是第一個圖像幀的位置。這樣，在“正確”位置與實際位置600之間的視頻序列圖像幀是按照時間順序向后由I幀600預測出來的。這是通過編碼到增強層1中并且具有第一個按時間順序后向預測的圖像幀602(P幀(P.0.0))的子序列表示出來的。這個幀用于按時間順序預測在前的圖像幀604，即，P幀(P.0.1)，該P幀(P.0.1)順次用于預測圖像幀606，即，P幀(P.0.2)，最后，幀606用于預測圖像幀608，即，P幀(P.0.3)，該P幀(P.0.3)處于I幀600在視頻序列中的“正確”位置上。相應地，基本層上的I幀600還用于包含四個P幀610、612、614和616(即，P幀(P.0.0)、(P.0.1)、(P.0.2)和(P.0.3))的子序列的按時間順序前向預測。
在這個例子中，將后向預測的圖像幀放在比前向預測的圖像層更低層上的行為表明，為了說明的目的，在這個編碼實例中，將后向預測的圖像幀主觀地看作沒有前向預測的圖像幀有價值。自然，這些子序列也可以同時放在同一層上，在這種情況下，可以將它們看作是等同的，或者也可以將后向預測的子序列放在上層上，在這種情況下，可以將其主觀地看作為更有價值。
附圖6b和6c表示對依據(jù)附圖6a的視頻序列進行編碼的一些可供選擇的方法。在附圖6b中，前向和后向預測的子序列都放在了基本層上，只有I幀放在INTRA層上。這樣，這一層上的前向預測的子序列是第二個子序列并且其子序列標識符為1。接下來，在附圖6c中，I幀和基于該I幀的前向預測的子序列放在基本層上，而后向預測的子序列放在了增強層1上。
而且，按照本發(fā)明的優(yōu)選實施例方式，可以利用上面介紹的可縮放性來將所謂的場景變換編碼為視頻序列。諸如新聞報道、音樂視頻和電影預告片這樣的視頻素材經常包括單獨的圖像素材場景之間的迅速切換。有時候這種切換是突然的，不過通常使用一種稱為場景變換的規(guī)程，按照這種方法，從一個場景向另一個場景的轉換是通過使前一個場景的圖像幀漸漸變暗、擦除、馬賽克淡入淡出或滾動、并且相應地通過表現(xiàn)出下一場景的圖像幀來進行的。從編碼效率的角度看，場景變換的視頻編號通常是很有問題的，因為在場景變換過程中出現(xiàn)的圖像幀既包括有關終止場景的圖像幀的信息又包括有關開始場景的圖像幀的信息。
一種典型的場景變換-淡出淡入，是通過逐漸將第一個場景的圖像幀的強度或亮度降低為零，同時逐漸將第二個場景的圖像幀的強度增大到其最大值來實現(xiàn)的。這種場景變換被稱為交叉淡出淡入場景變換。
一般來說，可以將計算機制作的圖像想象為是由多個層或圖像對象組成的?？梢詤⒄罩辽偃N信息類型來定義每個對象圖像對象的結構、它的形狀和透明度，以及相對于圖像的背景和其它圖像對象的分層等級(深度)。形狀和透明度通常是使用所謂的阿爾法平面來確定的，該阿爾法平面測量不透明性并且其值通常是為各個圖像對象單獨確定的，有可能不包括背景，背景通常被確定為不透明的。這樣，可以將不透明的圖像對象(比如背景)的阿爾法平面值設置為1.0，而完全透明的圖像對象的阿爾法平面值為0.0。之間的值定義了圖片中的特定圖像對象相比于背景，或其它至少部分重疊的具有高于所討論的圖像對象的深度值的圖像對象的可見性的強度。
依據(jù)圖像對象的形狀、透明度和深度位置、按層次的圖像對象的疊合稱為場景合成。在實踐中，該規(guī)程是以使用加權平均為基礎的。首先，將最接近背景，即，依據(jù)其深度位置是最深的圖像對象放到背景上，從而形成了它們兩個的組合圖像。將組合圖像的像素值形成為由背景圖像和所討論的圖像對象的阿爾法平面值加權了的平均值。然后將該組合圖像的阿爾法平面值設置為1.0，此后，該組合圖像用作下一圖像對象的背景圖像。這一處理過程繼續(xù)進行，直到將所有圖像對象都粘貼到該圖像上。
在下文中，將會介紹一種按照本發(fā)明的優(yōu)選實施方式的規(guī)程，其中將視頻序列可縮放層與上面介紹的圖像幀的圖像對象以及它們的信息類型結合起來，以提供具有可縮放視頻編碼的場景變換，它還具有良好的壓縮效率。
下文中本發(fā)明的這個實施例是借助實例并以簡化的方式進行介紹的，一方面，通過使用交叉淡出淡入場景變換作為實例，另一方面，通過使用突變場景變換作為實例。在場景變換過程中所要顯示的圖像幀一般來說是由兩個重疊的圖像幀形成的，第一個圖像幀包括第一個圖像場景而第二個圖像幀包括第二個場景。圖像幀之一用作背景圖像，而其它被稱為前景圖像的圖像幀被放在該背景圖像之上。背景圖像的不透明度，即，其非透明性值是恒定的。換句話說，其像素所特定的阿爾法平面值不被調節(jié)。
在本發(fā)明的這個實施例中，背景和前景圖像都是按照可縮放層定義的。這在附圖7中進行了說明，附圖7表示可如何在本發(fā)明的場景變換期間將兩個不同場景的圖像幀放到可縮放層上。附圖7示出了位于基本層上的第一個(終止)場景的第一個圖像幀700。該圖像幀700可以是一個包含沒有使用運動補償時間預測確定的圖像信息的I幀，或者是一個P幀(它是由在前的圖像幀預測的運動補償圖像幀)。在按照時間順序的后面的圖像幀期間，第二個(起始)場景的編碼開始，并且，按照本發(fā)明，也將該場景的圖像幀放在基本層上。然后將第二個(終止)場景中剩下的圖像幀702、704放在增強層1上。這些圖像幀一般來說是P幀。
在這個實施例中，因此至少在場景變換的持續(xù)時間之內將第二個(起始)場景的圖像幀放在基本層上。該場景的第一個圖像幀706一般來說是一個I幀，并且它用于按時間順序預測該場景的后續(xù)圖像幀。因此，第二個場景的后續(xù)圖像幀是時間上預測的幀，一般來說是P幀，比如附圖7中所示的幀708和710。
按照本發(fā)明的一種優(yōu)選實施方式，通過將基本層上的圖像層總是定義為具有最大不透明度(100％)或非透明性值的背景圖像，這種將圖像幀放在可縮放層上可用于實現(xiàn)交叉淡出淡入場景變換。在場景變換期間，將位于增強層上的圖像幀放到背景圖像上，并且例如借助適當?shù)臑V波器對它們的不透明度進行調節(jié)，以致這些幀逐漸從不透明變?yōu)橥该鳌?br> 在附圖7所示的視頻序列中，在第一個基本層圖像幀700期間，在較低的可縮放層上沒有圖像幀。對于這一時刻，僅將該第一個圖像幀700編碼為視頻序列。
基本層的下一個圖像幀706起始了一個新的(第二)場景，在此期間，為圖像幀706提供了將其放置為背景圖像的深度定位，并且將其不透明度值設置為最大。在增強層1上，有一個終止(第一)場景的圖像幀702與基本層的圖像幀706在時間上是同時的。為了使得交叉淡出淡入場景變換得以實現(xiàn)，必須要增大幀702的透明性。附圖7的例子假設，將圖像幀702的不透明度設置為67％，并且，此外，為圖像幀702提供了將其確定為前景圖像的深度定位。對于這一時刻，將組合了圖像幀706和702的圖像編碼到視頻序列中，圖像706可視為背景上的一個較弱的圖像，而圖像702可視為前面的一個較強的圖像，因為其不透明度值實質上很高(67％)。
在按時間順序跟在后面的圖像幀期間，在基本層上有一個第二場景的第二圖像幀708，因此為該幀708相應地提供了將其確定為背景圖像的深度定位，并且將其不透明度值設為最大。增強層1還包括時間上同時終止的(第一)場景的最后一個圖像幀704，將該幀的不透明度值設置為33％，并且此外，為該圖像幀704提供了將其也確定為前景圖像的深度定位。從而，對于這一時刻，將由圖像幀708和704組合的圖像編碼為視頻序列，圖像708得以顯示為背景上較強的圖像，而圖像704顯示為前景上較弱的圖像，因為圖像704的不透明度值不再超過33％。
在按時間順序跟在后面的圖像幀期間，基本層包括一個第二場景的第三圖像幀710。由于第一個場景已經終止，所以只有圖像幀710被編碼到視頻序列中，并且第二個場景的顯示從幀710繼續(xù)進行。
上面的公開內容借助實例介紹了按照本發(fā)明的圖像幀在可縮放層上的定位，用于以從編碼效率的角度看比較有利的方式實現(xiàn)交叉淡出淡入的場景變換。不過，有可能在傳送或解碼視頻序列的時候，出現(xiàn)這樣一種情況，即必須依據(jù)可用于數(shù)據(jù)傳送的帶寬的最大值和/或終端設備解碼速度對視頻序列的比特率進行調整。此種比特率控制在要使用現(xiàn)有技術的視頻編碼方法實現(xiàn)場景變換的時候會引發(fā)問題。
本發(fā)明的優(yōu)選實施方式現(xiàn)在允許將一個或多個可縮放層或包含在它們之中的可獨立解碼的子序列從視頻序列中除去，從而可以降低視頻序列的比特率，且同時仍然可以對視頻序列進行解碼，而不會降低圖像頻率。在按照附圖7的圖像幀定位中，這可以通過從視頻序列中除去增強層1來實現(xiàn)。這樣，視頻序列僅用于顯示基本層的圖像幀700、706、708和710。換句話說，從第一個(終止)場景到第二個(起始)場景的直接變換以突然的場景變換的形式進行，即，直接從第一個場景的圖像幀700進入到起始第二個場景的I圖像幀706。該變換因此不是一個交叉淡出淡入的場景變換，而是一個突然的場景變換。然而盡管如此，場景變換還是能夠以不影響視頻序列圖像的質量的有利方式進行，并且觀眾通常不會經歷一個代替交叉淡出淡入場景變換的、以任何令人心煩或者有錯誤的方式而執(zhí)行的突然的場景變換。與之相比較，由于現(xiàn)有技術的實現(xiàn)方法不允許除去可縮放層，所以場景變換經常需要降低圖像頻率，此時觀眾會感覺到突然的變化并且會覺得心煩。
因此，本發(fā)明提供了一種在流播服務器中執(zhí)行多媒體數(shù)據(jù)業(yè)務量整形的優(yōu)選手段，包括關于視頻序列的不同子序列的信息它們的平均比特率、相對于整個視頻序列的位置、持續(xù)時間和它們與各層有關的相互依賴性。流播服務器還確定了可用于數(shù)據(jù)傳送的帶寬的最大值和/或終端設備的解碼速度。根據(jù)這一信息，流播服務器決定在視頻序列中傳送多少可縮放層和傳送哪些子序列。這樣，在必要的時候，就可以進行比特率控制了首先通過對可縮放層的數(shù)量進行組略地調整，此后可以容易地進行子序列所特定的較為精細的調整。最簡單地講，比特率控制意味著作出有關一個具體的子序列是否應被加入到視頻序列中或從該視頻序列中將其除去的子序列所特定的決定。在除去的情況下，從視頻序列中除去整個子序列是比較可行的，因為除去單獨的圖像可能會導致同一子序列中其它圖像的錯誤。出于同樣的原因，如果較低增強層的所有子序列依賴于已經除去的較高層上的子序列的話，那么應當將它們全部都除去。如果在同一可縮放層上有相互依賴的多個子序列，那么如果除去了比較靠前的子序列，則依賴于該比較靠前的子序列的子序列也必須除去。
如果將圖像幀標識符數(shù)據(jù)加到了所要傳送的視頻序列中，那么業(yè)務量整形也可以在用于傳送視頻序列的電信網絡單元中進行，例如，在因特網路由器中、在不同的網關中或者在移動通信網絡的基站或基站控制器中進行。為了使網絡單元能夠維持并處理子序列信息，它必須具有額外的存儲器和處理能力。出于這一原因，在網絡中進行的業(yè)務量整形也許最有可能使用簡單的處理方法來執(zhí)行，比如由某些基于IP的網絡支持的DiffServ，即區(qū)別業(yè)務，規(guī)程。按照DiffServ方法，為每個IP數(shù)據(jù)包分配一個優(yōu)先級，從而與較低優(yōu)先級的數(shù)據(jù)包相比，較高優(yōu)先級的數(shù)據(jù)包被更加快速且更加可靠地傳遞給接收者。通過不僅確定可縮放層所特定的優(yōu)先級，而且確定子序列所特定的優(yōu)先級，而可以將這種方法便利地應用到本發(fā)明的可縮放性中，這使得能夠實現(xiàn)更加高級的優(yōu)先級。
有很多用于在所要傳送的視頻序列中添加圖像幀標識符數(shù)據(jù)的可選擇的方案。此外，也有可能不在視頻序列中加入任何標識符數(shù)據(jù)，在這種情況下，僅在流播服務器中進行業(yè)務量整形。標識符數(shù)據(jù)可以包含在視頻序列的標題字段中，或者包含在所使用的傳送協(xié)議的標題字段中，例如RTP(實時協(xié)議)的標題字段中。按照一種優(yōu)選實施方式，可以使用一種輔助增強信息(SEI)機制來傳送標識符數(shù)據(jù)。SEI提供一種與視頻數(shù)據(jù)內容同步傳送的數(shù)據(jù)傳遞機制，這樣有助于視頻序列的解碼和顯示。在ITU-T標準文件ITU-T Rec.H.264(ISO/IEC 14496-102002)，附件D中，較為詳細地公開了SEI機制，尤其是在用于傳送層和子序列信息的時候。在這種情況下，其中單獨的傳送協(xié)議或機制被用于標識符數(shù)據(jù)的傳送，業(yè)務量整形也可以在傳送路徑中的一個網絡單元中進行。此外，接收終端設備可以對解碼進行控制。
如果編碼器或解碼器支持參考圖片選擇，那么視頻序列編碼要求在編碼之前緩沖經解碼的圖像幀，以便使得不同的圖像幀之間的關系能夠按時間順序從一個或多個其它的圖像幀預測出來?？梢灾辽僖詢煞N不同的方式來安排圖像幀緩沖或者作為活動窗口或者作為自適應緩沖存儲器控制。在滑動窗口中，將最后編碼的M個圖像幀用作為一個緩沖器。該緩沖器中的幀具有已解碼和已重構的形式，這使得它們能夠在編碼中用作參考圖像。隨著編碼的進行，圖像幀緩沖根據(jù)FIFO原理(先入先出)工作。不用作參考圖像的圖像，比如傳統(tǒng)的B幀，不需要存儲在緩沖器中。另外，也可以按照自適應緩沖存儲器控制來實施緩沖，在這種情況下，圖像緩沖并不限于FIFO原理，而是在處理過程中間可以將不需要的圖像幀清出緩沖器，或者，相應地，某些圖像幀可以在更長時間內被存儲在緩沖器中(如果它們需要作為后面的圖像幀的參考圖像)。例如，一種公知的參考圖片選擇是通過對緩沖存儲器中的圖像幀編制索引為一個特定的順序來實現(xiàn)的，然后使用這些圖像索引來查找與運動補償相關的圖像。與使用圖像編號(例如，當運動補償參考圖像要用信號通知時，使用圖像編號來查找一個特定的圖像)相比，這種編制索引的方法總地來說提供了更好的壓縮效率。
上面所述的參考圖像編制索引方法對傳送錯誤很敏感，因為發(fā)送者的編碼器和接收者的解碼器的緩沖器必須以相同的順序包含相互對應的重構圖像，以確保編碼器和解碼器都根據(jù)相同的索引順序。如果圖像幀在編碼器和解碼器的緩沖器中是以不同的順序編制索引的，那么在解碼器中可能會使用不正確的參考圖像。為了防止這種情況的發(fā)生，有必要使解碼器可被控制去考慮編碼器有意從視頻序列中除去的圖像幀和子序列。在這種情況下，圖像幀編號可能會包括間隙，解碼器通常會將此解譯為錯誤，并設法重構被解譯為丟失的圖像幀。出于這種原因，有必要使編碼器能夠告知解碼器，所發(fā)送的圖像幀中的圖像編號的不連續(xù)性是有意造成的。
響應于此，并假定使用了滑動窗口來對圖像幀進行緩沖，則解碼器將與丟失的圖像編號相應的多個圖像幀輸入到緩沖存儲器中，它們的內容可以是完全隨機的。然后使用一個標識符“無效”標示這些隨機的圖像幀，以指示這些所關心的圖像幀不屬于實際的視頻序列，而只是為了緩沖存儲器管理而輸入的填充幀。自然，填充幀可以僅僅使用存儲器指示器來實現(xiàn)，即，最好不將數(shù)據(jù)輸入到緩沖存儲器中，而是僅僅使用存儲器管理來存儲對同類的“無效”幀的引用。在將由丟失的圖像編號所指示的數(shù)量的填充幀輸入到緩沖器中之后，實際視頻序列的圖像幀的輸入從正確的圖像幀編號繼續(xù)進行，這使得編碼器和解碼器的緩沖存儲器優(yōu)選地被保持為同步。如果在解碼期間，檢測到了一個圖像編號的引用，然后發(fā)現(xiàn)它指示位于該緩沖器中的一個填充幀，則在解碼器中啟動糾錯動作，以重構該實際的參考圖像，例如，通過請求編碼器重新發(fā)送所討論的參考圖像。
此外，本發(fā)明的規(guī)程使得單獨的緩沖存儲器能夠用在不同的可縮放層上，或者，相應地，特定于子序列。這樣，每個可縮放層可以具有一個單獨的緩沖存儲器，該緩沖存儲器在概念上是單獨的并且是在滑動窗口原理的基礎上運行的。類似地，每個子序列還可以配備一個概念性的單獨的緩沖存儲器，該緩沖存儲器也在滑動窗口原理的基礎上運行。這意味著當子序列終止時，緩沖存儲器總是空的。單獨的緩沖存儲器能夠以優(yōu)選的方式用于在某些情況下降低對信令的需求，在這些情況中，正常的滑動窗口緩沖將是不夠的并且可能將需要改為使用主動的自適應緩沖存儲器管理。
H.26L標準將圖片次序計數(shù)定義為按照輸出次序的圖片位置。在H.26L標準中規(guī)定的解碼處理使用圖片次序計數(shù)來為B條中的參考圖片確定默認的索引排序，以表示用于運動矢量預測中的矢量縮放和用于B條中的隱含模式加權預測的幀與場之間的圖片次序差，并確定何時按照解碼順序的連續(xù)條屬于不同的圖片。對圖片次序計數(shù)進行編碼并為每個圖片進行傳送。
按照本發(fā)明的一種實施方式，解碼器使用圖片次序計數(shù)來推斷那些圖片是時間重疊的，即，具有相等的圖片次序計數(shù)的圖片是時間重疊的。最好，解碼器僅輸出最高的接收到的層上的圖片。在缺少層信息的情況下，解碼器推斷最新的按照解碼順序、在時間上重疊的圖像駐留于最高的所接收到的層。
上面公開的內容介紹了一種為了產生一個可縮放的壓縮視頻序列而對視頻幀進行編碼的規(guī)程。實際的規(guī)程是在視頻編碼器中執(zhí)行的，比如是在附圖1中的壓縮器108中執(zhí)行的，該壓縮器可以是任何公知的視頻編碼器。例如可以使用依據(jù)ITU-T建議H.263或H.26L的視頻編碼器，將這種視頻編碼器安排為按照本發(fā)明，將一個第一子序列形成到視頻序列中，該子序列的至少一部分是通過對I幀進行編碼形成的；將至少一個第二子序列形成到視頻序列中，該第二子序列的至少一部分是通過對至少P或B幀進行編碼形成的，并且該第二子序列的至少一個視頻幀是從所述第一子序列的至少一個視頻幀預測出來的；以及，將至少第二子序列的視頻幀的標識數(shù)據(jù)確定到視頻序列中。
按照本發(fā)明的規(guī)程，一個特定可縮放層的每個子序列最好是可獨立解碼的，自然要考慮對較高可縮放層或者同一可縮放層的可能的其它子序列的依賴性。因此，可以通過如下方式對諸如上述的一個可縮放的壓縮視頻幀進行解碼對視頻序列的第一個子序列進行解碼，該子序列的至少一部分是通過對至少I幀編碼而形成的；和對視頻序列的至少一個第二子序列進行解碼，該第二子序列的至少一部分是通過對至少P或B幀編碼而形成的，且該第二子序列的至少一個視頻幀是從第一子序列的至少一個視頻幀預測出來的；和確定至少由視頻序列的第二子序列包含的視頻幀的標識和依賴性數(shù)據(jù)；并根據(jù)子序列依賴性重構該視頻序列的至少一部分。
實際的解碼是在視頻解碼器(比如附圖1中的解壓縮器118)中進行的，該視頻解碼器可以是任何公知的視頻解碼器。例如，可以使用依據(jù)ITU-T建議H.263或H.26L的低比特率視頻解碼器，在本發(fā)明中，將該解碼器安排為用于對視頻序列的第一個子序列進行解碼，該子序列的至少一部分是通過對I幀編碼形成的；對視頻序列的至少一個第二子序列進行解碼，該第二子序列的至少一部分是通過對至少P或B幀編碼而形成的，且該第二子序列的至少一個視頻幀是從第一子序列的至少一個視頻幀預測出來的。將該視頻解碼器安排為用于確定至少由視頻序列的第二子序列包含的視頻幀的標識和依賴性數(shù)據(jù)，并根據(jù)子序列的依賴性而重構該視頻序列的至少一部分。
本發(fā)明的流播系統(tǒng)的操作中的一個主要方面是，對編碼器和解碼器進行定位，至少使得編碼器在操作上與流播服務器相連接并且解碼器在操作上與接收終端設備相連接。不過，該流播系統(tǒng)的不同組成部分，尤其是終端設備，可以包括允許多媒體文件的雙向傳送(即，傳送和接收)的功能性。因此，編碼器和解碼器可以以集成了編碼器和解碼器功能性的、稱為視頻編解碼器的形式實現(xiàn)。
應當注意到，按照本發(fā)明，上述流播系統(tǒng)的功能單元及其組成部分，比如流播服務器、視頻編碼器、視頻解碼器和終端最好是借助軟件、通過硬件解決方案或者作為二者的組合來實現(xiàn)的。本發(fā)明的編碼和解碼方法尤其適于實現(xiàn)為包括用于執(zhí)行本發(fā)明的處理步驟的計算機可讀命令的計算機軟件。實現(xiàn)編碼器和解碼器的優(yōu)選方式是將它們作為可由計算機類的設備(例如個人計算機(PC)或移動臺)執(zhí)行的程序代碼存儲在存儲裝置中，以便為所討論的設備提供編碼/解碼功能性。
另一種可選方案是將本發(fā)明實現(xiàn)為包括可縮放地壓縮的視頻序列的視頻信號，其中可縮放地壓縮的視頻序列進而包括按照至少第一和第二幀格式編碼的視頻幀，按照第一幀格式的視頻幀獨立于其它的視頻幀，并且第二幀格式的視頻幀是從其它視頻幀中的至少一個預測出來的。按照本發(fā)明，所討論的視頻信號包括至少一個第一子序列，該第一子序列的至少一部分是通過對至少第一幀格式的視頻幀進行編碼而形成的；至少一個第二子序列，該第二子序列的至少一部分是通過對至少第二幀格式的視頻幀進行編碼而形成的；且至少一個第二子序列的視頻幀是從至少一個第一子序列的視頻幀預測出來的；以及至少一個數(shù)據(jù)字段，該數(shù)據(jù)字段確定屬于第二子序列的視頻幀。
對本領域的技術人員而言，有一點是顯而易見的隨著技術的進步，本發(fā)明的基本思想可以以各種不同的方式來實現(xiàn)。因此，本發(fā)明及其實施例并不局限于上述的實例，而是，它們可以在權利要求書的范圍之內進行各種改變。
權利要求
1.一種用于解碼壓縮視頻序列的方法，其中將圖像幀輸入到一個與解碼有關的緩沖存儲器中，其特征在于從視頻序列解碼出一個涉及圖像幀編號的至少一個不連續(xù)性的指示；響應于該指示，配置該緩沖存儲器來提供與圖像幀編號中的該不連續(xù)性相應的多個圖像幀；以及在解碼處理中使用該緩沖存儲器中的所述圖像幀。
2.按照權利要求1所述的方法，其特征在于，所述指示通知該視頻序列中圖像幀編號中的至少一個不連續(xù)性是有意的。
3.按照權利要求1或2所述的方法，其特征在于還包括使用該緩沖存儲器中的該多個圖像幀來代替由于圖像幀編號中的不連續(xù)性而在解碼器中不存在的圖像幀。
4.按照前述任何一項權利要求所述的方法，其特征在于該緩沖存儲器中的該多個圖像幀被用于圖像幀的滑動窗口緩沖。
5.按照前述任何一項權利要求所述的方法，其特征在于還包括在該緩沖存儲器已被配置來提供與圖像幀編號中的不連續(xù)性相應的多個圖像幀之后，從正確的圖像幀編號繼續(xù)將所關心的視頻序列包含的圖像幀輸入到該緩沖存儲器中。
6.按照前述任何一項權利要求所述的方法，其特征在于還包括將相應于圖像幀編號中的不連續(xù)性的多個填充幀輸入到該緩沖存儲器中。
7.按照權利要求6所述的方法，其特征在于所述填充幀由一個指示該填充幀不屬于該實際視頻序列的標識符來指定。
8.按照權利要求1-5中任何一項所述的方法，其特征在于配置緩沖存儲器來提供與圖像幀編號中的不連續(xù)性相應的多個圖像幀的步驟通過存儲器指示來完成，由此沒有數(shù)據(jù)被輸入到該緩沖存儲器中。
9.按照權利要求3或6所述的方法，其特征在于還包括在對相應于圖像幀編號中的不連續(xù)性的一個圖像幀的解碼處理中，根據(jù)一個參考來檢測所述壓縮視頻序列中的錯誤。
10.一種用于解碼壓縮視頻序列的視頻解碼器，該視頻解碼器被連接到一個緩沖存儲器，其中圖像幀被結合該解碼而輸入，其特征在于該視頻解碼器被安排來從視頻序列解碼出一個涉及圖像幀編號的至少一個不連續(xù)性的指示；響應于該指示，配置該緩沖存儲器來提供與圖像幀編號中的不連續(xù)性相應的多個圖像幀；以及在解碼處理中使用該緩沖存儲器中的所述圖像幀。
11.按照權利要求10所述的視頻解碼器，其特征在于所述指示通知該視頻序列中圖像幀編號中的不連續(xù)性是有意的。
12.按照權利要求10或11所述的視頻解碼器，其特征在于該視頻解碼器還被安排來使用該緩沖存儲器中的該多個圖像幀來代替由于圖像幀編號中的不連續(xù)性而在解碼器中不存在的圖像幀。
13.按照權利要求10-12中任何一項所述的視頻解碼器，其特征在于該緩沖存儲器中的該多個圖像幀被用于圖像幀的滑動窗口緩沖。
14.按照權利要求10-13中任何一項所述的視頻解碼器，其特征在于該視頻解碼器還被安排來在該緩沖存儲器已被配置來提供與圖像幀編號中的不連續(xù)性相應的該多個圖像幀之后，從正確的圖像幀編號繼續(xù)將所關心的視頻序列包含的圖像幀輸入到該緩沖存儲器中。
15.按照權利要求10-14中任何一項所述的視頻解碼器，其特征在于該視頻解碼器還被安排來將相應于圖像幀編號中的不連續(xù)性的多個填充幀輸入到該緩沖存儲器中。
16.按照權利要求15所述的視頻解碼器，其特征在于所述填充幀由一個指示該填充幀不屬于該實際視頻序列的標識符來指定。
17.按照權利要求10-14中任何一項所述的視頻解碼器，其特征在于該視頻解碼器還被安排來通過存儲器指示，配置所述緩沖存儲器來提供與圖像幀編號中的不連續(xù)性相應的多個圖像幀，由此沒有數(shù)據(jù)被輸入到該緩沖存儲器中。
18.一種存儲在計算機可讀介質上并且可在數(shù)據(jù)處理設備中執(zhí)行的計算機程序產品，用于解碼壓縮視頻序列，所述視頻序列的圖像幀被輸入到一個與解碼有關的緩沖存儲器中，其特征在于該計算機程序產品包括用于從該視頻序列解碼出一個涉及圖像幀編號的至少一個不連續(xù)性的指示的計算機程序代碼；用于響應于該指示而配置該緩沖存儲器來提供與圖像幀編號中的不連續(xù)性相應的多個圖像幀的計算機程序代碼；以及用于在解碼處理中包括該緩沖存儲器中的所述圖像幀的計算機程序代碼。
19.按照權利要求18所述的計算機程序產品，其特征在于所述指示通知該視頻序列中圖像幀編號中的不連續(xù)性是有意的。
20.按照權利要求18或19所述的計算機程序產品，其特征在于該計算機程序產品還包括用于包括該緩沖存儲器中的該多個圖像幀以代替由于圖像幀編號中的不連續(xù)性而在解碼器中不存在的圖像幀的計算機程序代碼。
21.按照權利要求18-20中任何一項所述的計算機程序產品，其特征在于該計算機程序產品還包括用于將該緩沖存儲器中的該多個圖像幀使用于圖像幀的滑動窗口緩沖的計算機程序代碼。
22.按照權利要求18-21中任何一項所述的計算機程序產品，其特征在于該計算機程序產品還包括用于以下目的的計算機程序代碼，即在緩沖存儲器已被配置來提供與圖像幀編號中的不連續(xù)性相應的該多個圖像幀之后，從正確的圖像幀編號開始，繼續(xù)將所關心的視頻序列包含的圖像幀輸入到緩沖存儲器中。
23.按照權利要求18-22中任何一項所述的計算機程序產品，其特征在于該計算機程序產品還包括用于將相應于圖像幀編號中的不連續(xù)性的多個填充幀輸入到緩沖存儲器中的計算機程序代碼。
24.按照權利要求23所述的計算機程序產品，其特征在于該計算機程序產品還包括用于通過一個指示該填充幀不屬于該實際視頻序列的標識符來指定所述填充幀的計算機程序代碼。
25.按照權利要求18-22中任何一項所述的計算機程序產品，其特征在于該計算機程序產品還包括用于以下目的的計算機程序代碼，即通過存儲器指示，配置所述緩沖存儲器來提供與圖像幀編號中的不連續(xù)性相應的多個圖像幀，由此沒有數(shù)據(jù)被輸入到該緩沖存儲器中。
26.一種用于編碼視頻序列的視頻編碼器，其特征在于該視頻編碼器被安排來編碼該視頻序列，以使得至少一個圖像幀被從該視頻序列排除，造成圖像幀編號中的不連續(xù)性，以及將一個涉及所述圖像幀編號的不連續(xù)性的指示編碼到該視頻序列中。
27.按照權利要求26所述的視頻編碼器，其特征在于所述指示通知該視頻序列中圖像幀編號中的不連續(xù)性是有意的。
28.一種用于調整視頻序列的比特率的設備，該設備被安排來接收編碼視頻序列，其特征在于該設備還被安排來從該視頻序列排除至少一個圖像幀，從而造成圖像幀編號中的不連續(xù)性，以及將一個涉及所述圖像幀編號的不連續(xù)性的指示包括到該視頻序列中。
29.按照權利要求28所述的設備，其特征在于所述指示通知該視頻序列中圖像幀編號中的不連續(xù)性是有意的。
30.一種包含壓縮視頻序列的視頻信號，其中該壓縮視頻序列包含圖像幀，其特征在于該視頻信號包括一個涉及所傳輸?shù)囊曨l信號中圖像幀編號的不連續(xù)性的指示，其中所述指示通知解碼器在解碼處理中使用相應于圖像幀編號中的不連續(xù)性的多個圖像幀。
31.按照權利要求30的視頻信號，其特征在于所述指示通知該視頻序列中圖像幀編號中的不連續(xù)性是有意的。
全文摘要
一種解碼壓縮視頻序列的方法，其中將圖像幀輸入到一個與解碼有關的緩沖存儲器中。該視頻序列包括一個涉及圖像幀編號中至少一個不連續(xù)性的指示，從所述視頻序列解碼出該指示。然后，響應于該指示，緩沖存儲器被配置來提供與圖像幀編號中的不連續(xù)性相應的多個圖像幀，以及在解碼處理中使用由該緩沖存儲器提供的所述圖像幀。優(yōu)選地，所述指示通知該視頻序列中圖像幀編號中的至少一個不連續(xù)性是有意的，以及由緩沖存儲器提供的該多個圖像幀被用來代替在解碼器中不存在的圖像幀。
文檔編號G06T9/00GK1819661SQ20061000935
公開日2006年8月16日申請日期2003年1月22日優(yōu)先權日2002年1月23日
發(fā)明者M·漢努克塞拉申請人:諾基亞有限公司

完整全部詳細技術資料下載