專利名稱:基于內(nèi)容信息的可縮放性技術(shù)的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)案針對(duì)于用于對(duì)用于實(shí)時(shí)串流的視頻數(shù)據(jù)進(jìn)行視頻代碼變換的設(shè)備和方法, 且更明確地說,針對(duì)于在移動(dòng)廣播應(yīng)用中對(duì)用于實(shí)時(shí)串流的視頻數(shù)據(jù)進(jìn)行代碼變換。
背景技術(shù):
由于有限的帶寬資源和可用帶寬可變性的緣故,有效的視頻壓縮在例如無線視頻串 流和視頻電話等許多多媒體應(yīng)用中是有用的。某些視頻編碼標(biāo)準(zhǔn)(例如MPEG-4 (ISO/IEC)、 H.264 (ITU)或類似視頻編碼)提供非常適合例如無線廣播等應(yīng)用的高效編 碼。 一些多媒體數(shù)據(jù)(例如,數(shù)字電視呈現(xiàn))通常根據(jù)例如MPEG-2等其它標(biāo)準(zhǔn)來編碼。 因此,在無線廣播之前,使用轉(zhuǎn)碼器將根據(jù)一個(gè)標(biāo)準(zhǔn)(例如,MPEG-2)編碼的多媒體數(shù) 據(jù)代碼變換或轉(zhuǎn)換為另一標(biāo)準(zhǔn)(例如,H.264)。
改進(jìn)速率優(yōu)化的編解碼器可在錯(cuò)誤復(fù)原、錯(cuò)誤恢復(fù)和可縮放性方面提供優(yōu)點(diǎn)。此外, 使用根據(jù)多媒體數(shù)據(jù)自身確定的信息還可為編碼提供額外改進(jìn),其中包括錯(cuò)誤復(fù)原、錯(cuò) 誤恢復(fù)和可縮放性。因此,需要一種提供對(duì)多媒體數(shù)據(jù)的高效處理和壓縮的轉(zhuǎn)碼器,其 使用根據(jù)多媒體數(shù)據(jù)自身確定的信息,具有可縮放性,且具有錯(cuò)誤復(fù)原,以用于包括串 流多媒體信息的移動(dòng)廣播的許多多媒體數(shù)據(jù)應(yīng)用中。
發(fā)明內(nèi)容
所描述和說明的發(fā)明性基于內(nèi)容的代碼變換設(shè)備和方法中的每一者均具有若干方 面,其中不是單個(gè)方面單獨(dú)對(duì)其所需屬性負(fù)責(zé)。在不限制此揭示內(nèi)容的范圍的情況下, 現(xiàn)將簡(jiǎn)要論述其較顯著的特征。在考慮此論述之后且尤其是在閱讀標(biāo)題為"具體實(shí)施方 式"的部分之后,將了解這種內(nèi)容驅(qū)動(dòng)代碼變換的特征如何提供針對(duì)多媒體數(shù)據(jù)處理設(shè) 備和方法的改進(jìn)。
本文所描述的發(fā)明性方面涉及將內(nèi)容信息用于編碼多媒體數(shù)據(jù)的多種方法和編碼器 (例如,在轉(zhuǎn)碼器中使用的編碼器)的多個(gè)模塊或組件中。轉(zhuǎn)碼器可使用內(nèi)容信息來協(xié)調(diào) 代碼變換多媒體數(shù)據(jù)。所述內(nèi)容信息可從另一來源(例如,與視頻一起接收的元數(shù)據(jù)) 接收。轉(zhuǎn)碼器可經(jīng)配置以通過各種不同處理操作而產(chǎn)生內(nèi)容信息。在一些方面中,轉(zhuǎn)碼 器產(chǎn)生多媒體數(shù)據(jù)的內(nèi)容分類,接著在一個(gè)或一個(gè)以上編碼過程中使用所述內(nèi)容分類。在一些方面中,內(nèi)容驅(qū)動(dòng)轉(zhuǎn)碼器可確定多媒體數(shù)據(jù)的空間和時(shí)間內(nèi)容信息,且使用所述 內(nèi)容信息來在信道上進(jìn)行注意內(nèi)容的均勻質(zhì)量編碼和進(jìn)行基于內(nèi)容分類的壓縮/位分配。
在一些方面中,獲得或計(jì)算多媒體數(shù)據(jù)的內(nèi)容信息(例如,元數(shù)據(jù)、內(nèi)容量度和/或 內(nèi)容分類),且接著將其提供到轉(zhuǎn)碼器的組件以用于處理多媒體數(shù)據(jù)以進(jìn)行編碼。舉例來 說,預(yù)處理器可使用某種內(nèi)容信息來進(jìn)行場(chǎng)景變化檢測(cè),從而執(zhí)行反向電視電影 ("IVTC")、解交錯(cuò)、運(yùn)動(dòng)補(bǔ)償和噪音抑制(例如,2D小波變換)和空間-時(shí)間噪音消減 (例如,假像移除、去環(huán)、去塊和/或去噪音)。在一些方面中,預(yù)處理器還可使用內(nèi)容信 息來進(jìn)行空間解析度向下取樣,例如在從標(biāo)準(zhǔn)清晰度(SD)向下取樣到四分之一視頻圖 形陣列(QVGA)時(shí)確定適當(dāng)?shù)?安全"和"作用處理"區(qū)域。
在一些方面中,編碼器包括經(jīng)配置以計(jì)算內(nèi)容信息的內(nèi)容分類模塊。所述編碼器可 使用內(nèi)容分類來進(jìn)行位速率控制(例如,位分配)以確定每一 MB的量化參數(shù)(QP)、 運(yùn)動(dòng)估計(jì)(例如,執(zhí)行顏色運(yùn)動(dòng)估計(jì)(ME),執(zhí)行運(yùn)動(dòng)向量(MV)預(yù)測(cè))、在提供基礎(chǔ) 層和增強(qiáng)層方面的可縮放性和錯(cuò)誤復(fù)原,所述錯(cuò)誤復(fù)原通過使用內(nèi)容分類來影響預(yù)測(cè)分 級(jí)結(jié)構(gòu)和錯(cuò)誤復(fù)原方案(包括(例如)適應(yīng)性幀內(nèi)刷新、邊界對(duì)準(zhǔn)過程)且在增強(qiáng)層中 提供冗余I幀數(shù)據(jù)而獲得。在一些方面中,轉(zhuǎn)碼器與數(shù)據(jù)多路復(fù)用器配合使用內(nèi)容分類 以在信道上維持最佳多媒體數(shù)據(jù)質(zhì)量。在一些方面中,編碼器可使用內(nèi)容分類信息以迫 使I幀周期性出現(xiàn)在經(jīng)編碼數(shù)據(jù)中以允許快速信道切換。此類實(shí)施方案還可利用經(jīng)編碼 數(shù)據(jù)中可能出于錯(cuò)誤復(fù)原目的而需要的I塊,使得可通過預(yù)測(cè)分級(jí)結(jié)構(gòu)來有效組合隨機(jī) 存取切換和錯(cuò)誤復(fù)原(基于(例如)內(nèi)容分類)以在增加抗錯(cuò)性的同時(shí)改進(jìn)編碼效率。
在一個(gè)方面中, 一種處理多媒體數(shù)據(jù)的方法包含將多媒體數(shù)據(jù)的內(nèi)容分類;和基 于所述內(nèi)容分類將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組,其中第一數(shù)據(jù)組包 含系數(shù)且第二數(shù)據(jù)組包含與第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的微分改進(jìn)。所述編碼可包括基于 多媒體數(shù)據(jù)的內(nèi)容分類來確定位速率和基于所述位速率來編碼多媒體數(shù)據(jù)。將內(nèi)容分 類可包含確定多媒體數(shù)據(jù)的復(fù)雜性,且其中基于多媒體數(shù)據(jù)的復(fù)雜性來編碼選定多媒體 數(shù)據(jù)。復(fù)雜性可包含時(shí)間復(fù)雜性或空間復(fù)雜性,或時(shí)間復(fù)雜性和空間復(fù)雜性。所述編碼 可包括編碼多媒體數(shù)據(jù)以便允許僅解碼第一數(shù)據(jù)組或?qū)⒌谝粩?shù)據(jù)組和第二數(shù)據(jù)組解碼 為單個(gè)組合數(shù)據(jù)組。第一微分改進(jìn)可指示選定視頻幀與從解碼第一數(shù)據(jù)組產(chǎn)生的幀數(shù)據(jù) 之間的差異。第一數(shù)據(jù)組可以是基礎(chǔ)層,且第二數(shù)據(jù)組可以是增強(qiáng)層。此外,所述方法 可包括從初始基礎(chǔ)層殘余誤差系數(shù)或初始增強(qiáng)層殘余誤差系數(shù)中的一者選擇系數(shù);和
基于所述系數(shù)和初始增強(qiáng)層殘余誤差系數(shù)來計(jì)算第一微分改進(jìn)。編碼可進(jìn)一步包含編碼第一數(shù)據(jù)組中的宏區(qū)塊標(biāo)頭信息和運(yùn)動(dòng)向量信息。編碼可進(jìn)一步包含以第一步長(zhǎng)量化第 一數(shù)據(jù)組,和以第二步長(zhǎng)量化第二數(shù)據(jù)組,其中第一步長(zhǎng)和第二步長(zhǎng)通過比例因子相關(guān)。 編碼可進(jìn)一步包括確定具有第一量化步長(zhǎng)的第一量化參數(shù)以用于編碼第一數(shù)據(jù)組,和確 定具有第二量化步長(zhǎng)的第二量化參數(shù)以用于編碼第二數(shù)據(jù)組,其中第一和第二量化參數(shù) 是基于選定幀數(shù)據(jù)的內(nèi)容信息而確定的,且其中所述第一量化步長(zhǎng)比所述第二量化步長(zhǎng) 粗。在另一方面中,編碼包括使用I幀和P幀或其任何組合來編碼第一數(shù)據(jù)組,和使用I 幀、P幀和B幀或其任何組合來編碼第二數(shù)據(jù)組。
在另一方面中, 一種用于編碼多媒體數(shù)據(jù)的設(shè)備包括用于將多媒體數(shù)據(jù)的內(nèi)容分 類的裝置;用于基于所述內(nèi)容分類將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組的 裝置,其中第一數(shù)據(jù)組包含系數(shù)且第二數(shù)據(jù)組包含與第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的第一微分 改進(jìn)。所述編碼裝置可包含用于基于多媒體數(shù)據(jù)的內(nèi)容分類來確定位速率且基于所述位 速率來編碼多媒體數(shù)據(jù)的裝置。所述內(nèi)容分類裝置可包括用于確定多媒體數(shù)據(jù)的復(fù)雜性 的裝置,且其中基于多媒體數(shù)據(jù)的復(fù)雜性來編碼選定多媒體數(shù)據(jù),所述復(fù)雜性包含時(shí)間 復(fù)雜性或空間復(fù)雜性,或時(shí)間復(fù)雜性和空間復(fù)雜性。所述編碼裝置可包含用以允許僅解 碼第一數(shù)據(jù)組或?qū)⒌谝粩?shù)據(jù)組和第二數(shù)據(jù)組解碼為單個(gè)組合數(shù)據(jù)組的裝置。
在另一方面中, 一種設(shè)備包括內(nèi)容分類模塊,其經(jīng)配置以將多媒體數(shù)據(jù)的內(nèi)容分 類且提供內(nèi)容分類數(shù)據(jù);和編碼器,其經(jīng)配置以基于所述內(nèi)容分類將所述多媒體數(shù)據(jù)編 碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組,其中第一數(shù)據(jù)組包含系數(shù)且第二數(shù)據(jù)組包含與第一數(shù)據(jù) 組系數(shù)相關(guān)聯(lián)的第一微分改進(jìn)。所述編碼器可包括位速率組件,其經(jīng)配置以基于內(nèi)容分 類確定位分配,且其中所述編碼組件經(jīng)進(jìn)一步配置以使用所述位分配來編碼選定多媒體 數(shù)據(jù)。
在另一方面中, 一種機(jī)器可讀媒體包含在執(zhí)行時(shí)致使機(jī)器執(zhí)行以下操作的指令將 多媒體數(shù)據(jù)的內(nèi)容分類,且基于所述內(nèi)容分類將所述多媒體數(shù)據(jù)編碼為第 數(shù)據(jù)組和第 二數(shù)據(jù)組,其中第一數(shù)據(jù)組包含系數(shù)且第二數(shù)據(jù)組包含與第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的第一 微分改進(jìn)。
在另一方面中, 一種處理器經(jīng)配置以將多媒體數(shù)據(jù)的內(nèi)容分類,且基于所述內(nèi)容分 類將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組,其中第一數(shù)據(jù)組包含系數(shù)且所述 第二數(shù)據(jù)組包含與第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的第一微分改進(jìn)。
圖1A是包括用于在不同視頻格式之間進(jìn)行代碼變換的轉(zhuǎn)碼器的媒體廣播系統(tǒng)的方 框圖。
圖IB是經(jīng)配置以編碼多媒體數(shù)據(jù)且提供經(jīng)編碼第一數(shù)據(jù)組和經(jīng)編碼第二數(shù)據(jù)組的
編碼器的方框圖。
圖1C是經(jīng)配置以編碼多媒體數(shù)據(jù)的處理器的方框圖。
圖2是圖1的系統(tǒng)的轉(zhuǎn)碼器的實(shí)例的方框圖。
圖3是說明圖2的轉(zhuǎn)碼器內(nèi)使用的剖析器的操作的流程圖。
圖4是說明圖2的轉(zhuǎn)碼器內(nèi)使用的解碼器的操作的流程圖。
圖5是說明由圖2的轉(zhuǎn)碼器執(zhí)行的操作序列的系統(tǒng)時(shí)序圖。
圖6是說明可在圖2的轉(zhuǎn)碼器中使用的預(yù)處理器的操作和功能序列的流程圖。
圖7是可在圖2的轉(zhuǎn)碼器中使用的示范性兩遍編碼器的方框圖。
圖8說明分類圖表的實(shí)例,其說明如何使紋理值和運(yùn)動(dòng)值與內(nèi)容分類相關(guān)聯(lián)的一個(gè)方面。
圖9是說明用于內(nèi)容分類(例如在圖7的編碼器中使用)的示范性操作的流程圖。 圖10是說明速率控制(例如與圖7的編碼器一起使用)的操作的流程圖。 圖11是說明示范性運(yùn)動(dòng)估計(jì)器(例如與圖7的編碼器一起使用)的操作的流程圖。 圖12是說明示范性模式?jīng)Q策編碼器功能(例如與圖7的編碼器一起使用)的操作的 流程圖。
圖13是說明實(shí)現(xiàn)用于圖7的編碼器中的可縮放性的示范性操作的流程圖。 圖14是說明(例如)在圖7的編碼器中發(fā)生的實(shí)現(xiàn)速率失真數(shù)據(jù)流的示范性操作的 流程圖。
圖15是說明編碼復(fù)雜性、分配位與人類視覺質(zhì)量之間的關(guān)系的曲線圖。 圖16是說明非線性場(chǎng)景檢測(cè)公式的曲線圖。
圖17A是說明處理已經(jīng)獲得、接收或另外可存取的多媒體數(shù)據(jù)的流程圖。
圖17B是多媒體編碼系統(tǒng)的方框圖。
圖18是說明使用運(yùn)動(dòng)估計(jì)/補(bǔ)償?shù)慕饨诲e(cuò)過程的圖。
圖19是多媒體通信系統(tǒng)的方框圖。
圖20是說明增強(qiáng)層和基礎(chǔ)層中的視頻位流的組織的圖。
圖21是說明切片與視頻幀邊界的對(duì)準(zhǔn)的圖。
圖22是說明預(yù)測(cè)分級(jí)結(jié)構(gòu)的方框圖。圖23是說明基于內(nèi)容信息來編碼多媒體數(shù)據(jù)的方法的過程流程圖。 圖24是說明基于內(nèi)容信息層級(jí)來編碼多媒體數(shù)據(jù)以對(duì)準(zhǔn)數(shù)據(jù)邊界的方法的過程流 程圖。
圖25是說明數(shù)據(jù)幀的安全作用區(qū)域和安全標(biāo)題區(qū)域的圖解。 圖26是說明數(shù)據(jù)幀的安全作用區(qū)域的圖解。
圖27是說明基于多媒體內(nèi)容信息使用適應(yīng)性幀內(nèi)刷新來編碼多媒體數(shù)據(jù)的過程的 過程流程圖。
圖28是說明基于多媒體內(nèi)容信息使用冗余I幀來編碼多媒體數(shù)據(jù)的過程的過程流程圖。
圖29說明當(dāng)前幀與先前幀之間的運(yùn)動(dòng)補(bǔ)償向量MVp和當(dāng)前幀與下一幀之間的運(yùn)動(dòng) 補(bǔ)償向量MV^
圖30是說明鏡頭檢測(cè)的過程流程圖。
圖31是說明編碼基礎(chǔ)層和增強(qiáng)層的過程流程圖。
圖32是說明編碼宏區(qū)塊的示意圖。
圖33是說明用于編碼基礎(chǔ)層和增強(qiáng)層的模塊的示意圖。
圖34展示基礎(chǔ)層和增強(qiáng)層系數(shù)選擇器過程的實(shí)例。
圖35展示基礎(chǔ)層和增強(qiáng)層系數(shù)選擇器過程的另一實(shí)例。
圖36展示基礎(chǔ)層和增強(qiáng)層系數(shù)選擇器過程的另一實(shí)例。
圖37是說明基于內(nèi)容信息來編碼多媒體數(shù)據(jù)的過程流程圖。
圖38是說明在反向電視電影處理過程中可能的系統(tǒng)確定的圖。
圖39說明宏區(qū)塊中待由去塊過程來濾波的邊界。
圖40是說明空間-時(shí)間解交錯(cuò)過程的圖。
圖41說明1D多相重取樣的實(shí)例。
圖42是說明視頻串流中的適應(yīng)性GOP結(jié)構(gòu)的實(shí)例的流程圖。
請(qǐng)注意,在適當(dāng)之處,在所述附圖的若干視圖中,相同數(shù)字始終指代相同零件。
具體實(shí)施例方式
以下詳細(xì)描述針對(duì)于在此揭示內(nèi)容中論述的某些方面。然而,可以許多不同方式實(shí) 施本發(fā)明。此說明書中提到"一個(gè)方面"或"一方面"意指結(jié)合所述方面描述的特定特 征、結(jié)構(gòu)或特性包括在至少一個(gè)方面中。在所述說明書中多處出現(xiàn)短語"在一個(gè)方面中"、"根據(jù)一個(gè)方面"或"在一些方面中"未必全部指代相同方面,也不是與其它方面相互排 斥的單獨(dú)或替代方面。此外,描述可由某些方面且不由其它方面展現(xiàn)的各種特征。類似 地,描述可能是某些方面但不是其它方面的要求的各種要求。
以下描述包括多個(gè)細(xì)節(jié)以提供對(duì)所述實(shí)例的徹底理解。然而,所屬領(lǐng)域的技術(shù)人員 了解到,即使本文并未描述或說明實(shí)例或方面中的過程或裝置的每個(gè)細(xì)節(jié),也可實(shí)踐所 述實(shí)例。舉例來說,可在不說明組件的每個(gè)電連接或每個(gè)電元件的方框圖中展示電組件, 以免以不必要的細(xì)節(jié)混淆所述實(shí)例。在其它情況下,可詳細(xì)展示此類組件、其它結(jié)構(gòu)和 技術(shù)以進(jìn)一步解釋所述實(shí)例。
本發(fā)明涉及使用正被編碼的多媒體數(shù)據(jù)的內(nèi)容信息來控制編碼和代碼變換的設(shè)備和 方法。(多媒體數(shù)據(jù)的)"內(nèi)容信息"或"內(nèi)容"是意指與多媒體數(shù)據(jù)的內(nèi)容有關(guān)的信息 的廣義術(shù)語,且可包括(例如)元數(shù)據(jù)、從多媒體數(shù)據(jù)計(jì)算得的量度和與一個(gè)或一個(gè)以 上量度(例如,內(nèi)容分類)相關(guān)聯(lián)的內(nèi)容相關(guān)信息。依據(jù)特定應(yīng)用而定,可向編碼器提 供內(nèi)容信息或由編碼器確定內(nèi)容信息。內(nèi)容信息可用于多媒體數(shù)據(jù)編碼的許多方面,包 括場(chǎng)景變化檢測(cè)、時(shí)間處理、空間-時(shí)間噪音消減、向下取樣、針對(duì)量化、可縮放性、錯(cuò) 誤復(fù)原確定位速率、維持廣播信道上的最佳多媒體質(zhì)量和快速信道切換。通過使用這些 方面中的一者或一者以上,轉(zhuǎn)碼器可協(xié)調(diào)處理多媒體數(shù)據(jù)且產(chǎn)生與內(nèi)容有關(guān)的經(jīng)編碼多 媒體數(shù)據(jù)。本文中描述代碼變換方面的描述和圖式還可應(yīng)用于編碼方面和解碼方面。
轉(zhuǎn)碼器設(shè)備和方法涉及從一種格式代碼變換到另一格式,且本文中具體描述為涉及 將MPEG-2視頻代碼變換為增強(qiáng)型可縮放H.264格式以供經(jīng)由無線信道傳輸?shù)揭苿?dòng)裝置, 其說明某些方面。然而,對(duì)將MPEG-2視頻代碼變換為H.264格式的描述不希望限制本 發(fā)明的范圍,而僅僅是示范性說明本發(fā)明的某些方面。所揭示的設(shè)備和方法提供支持具 有隨機(jī)存取和分層能力的錯(cuò)誤復(fù)原編碼的高效結(jié)構(gòu),且還可應(yīng)用于代碼變換和/或編碼除 MPEG-2和H.264以外的視頻格式。
本文所使用的"多媒體數(shù)據(jù)"或簡(jiǎn)稱"多媒體"是包括視頻數(shù)據(jù)(其可包括音頻數(shù) 據(jù))、音頻數(shù)據(jù)或視頻數(shù)據(jù)和音頻數(shù)據(jù)兩者的廣義術(shù)語。本文作為廣義術(shù)語使用的"視頻 數(shù)據(jù)"或"視頻"指代基于幀或基于場(chǎng)的數(shù)據(jù),其包括一個(gè)或一個(gè)以上圖像或相關(guān)圖像 序列,包含文本、圖像信息和/或音頻數(shù)據(jù),且還可用于指代多媒體數(shù)據(jù)(例如,可互換 使用所述術(shù)語),除非另外規(guī)定。
下文描述轉(zhuǎn)碼器的各種組件的實(shí)例和可使用內(nèi)容信息來編碼多媒體數(shù)據(jù)的過程的實(shí)例。圖A是說明多媒體數(shù)據(jù)廣播系統(tǒng)100的一些方面的數(shù)據(jù)流的方框圖。在系統(tǒng)100 中,多媒體數(shù)據(jù)提供者106將經(jīng)編碼多媒體數(shù)據(jù)104傳達(dá)到轉(zhuǎn)碼器200。經(jīng)編碼多媒體 數(shù)據(jù)104由轉(zhuǎn)碼器200接收,在方框110中轉(zhuǎn)碼器200將多媒體數(shù)據(jù)104處理為原始多 媒體數(shù)據(jù)。方框110中的處理對(duì)經(jīng)編碼多媒體數(shù)據(jù)104進(jìn)行解碼和剖析,且進(jìn)一步處理 所述多媒體數(shù)據(jù)以準(zhǔn)備將其編碼為另一格式。將經(jīng)解碼多媒體數(shù)據(jù)提供到方框112,在方 框112處將多媒體數(shù)據(jù)編碼為預(yù)定多媒體格式或標(biāo)準(zhǔn)。 一旦多媒體數(shù)據(jù)已經(jīng)被編碼,便 在方框114處準(zhǔn)備經(jīng)由(例如)無線廣播系統(tǒng)(例如,蜂窩式電話廣播網(wǎng)絡(luò)或經(jīng)由另一 通信網(wǎng)絡(luò))進(jìn)行傳輸。在一些方面中,已經(jīng)根據(jù)MPEG-2標(biāo)準(zhǔn)對(duì)所接收多媒體數(shù)據(jù)104 進(jìn)行編碼。在已經(jīng)解碼已代碼變換的多媒體數(shù)據(jù)104之后,轉(zhuǎn)碼器200將多媒體數(shù)據(jù)編 碼為H.264標(biāo)準(zhǔn)。
圖1B是可經(jīng)配置以執(zhí)行圖1A的方框110和112中的處理的轉(zhuǎn)碼器130的方框圖。 轉(zhuǎn)碼器130可經(jīng)配置以接收多媒體數(shù)據(jù),將多媒體數(shù)據(jù)解碼并剖析為分包基本流(例如, 字幕、音頻、元數(shù)據(jù)、"原始"視頻、CC數(shù)據(jù)和顯示時(shí)間戳記),將所述分包基本流編碼 為所需格式,且提供經(jīng)編碼數(shù)據(jù)以供進(jìn)一步處理或傳輸。轉(zhuǎn)碼器130可經(jīng)配置以用兩個(gè) 或兩個(gè)以上數(shù)據(jù)組(例如,經(jīng)編碼的第一數(shù)據(jù)組和經(jīng)編碼的第二數(shù)據(jù)組)提供經(jīng)編碼數(shù) 據(jù),這被稱為分層編碼。在多個(gè)方面的一些實(shí)例中,可將分層編碼方案中的各個(gè)數(shù)據(jù)組 (或?qū)?以不同質(zhì)量等級(jí)進(jìn)行編碼,且對(duì)其進(jìn)行格式化,使得在第一數(shù)據(jù)組中編碼的數(shù)據(jù) 與在第二數(shù)據(jù)組中編碼的數(shù)據(jù)相比具有較低質(zhì)量(例如,當(dāng)播放時(shí)提供較低的視覺質(zhì)量 等級(jí))。
圖1C是處理器140的方框圖,處理器140可經(jīng)配置以對(duì)多媒體數(shù)據(jù)進(jìn)行代碼變換, 且可經(jīng)配置以執(zhí)行圖1A的方框110和112中所描繪的部分或全部處理。處理器140可包 括模塊124a...n以執(zhí)行本文描述的代碼變換過程(包括解碼、剖析、預(yù)處理和編碼)中 的一者或一者以上,且使用內(nèi)容信息進(jìn)行處理。處理器140還可包括內(nèi)部存儲(chǔ)器122, 且可經(jīng)配置以直接或通過另一裝置間接與外部存儲(chǔ)器120通信。處理器140還包括通信 模塊126,其經(jīng)配置以與處理器140外部的一個(gè)或一個(gè)以上裝置通信,其中包括接收多 媒體數(shù)據(jù)和提供經(jīng)編碼數(shù)據(jù)(例如在第一數(shù)據(jù)組中編碼的數(shù)據(jù)和在第二數(shù)據(jù)組中編碼的 數(shù)據(jù))。在多個(gè)方面的一些實(shí)例中,可將分層編碼方案中的各個(gè)數(shù)據(jù)組(或?qū)?以不同質(zhì) 量等級(jí)進(jìn)行編碼,且對(duì)其進(jìn)行格式化,使得在第一數(shù)據(jù)組中編碼的數(shù)據(jù)與在第二數(shù)據(jù)組 中編碼的數(shù)據(jù)相比具有較低質(zhì)量(例如,當(dāng)播放時(shí)提供較低的視覺質(zhì)量等級(jí))。
轉(zhuǎn)碼器130或預(yù)處理器140 (其經(jīng)配置以進(jìn)行代碼變換)中的組件和包含在其中的過程可由硬件、軟件、固件、中間件、微碼或其任何組合實(shí)施。舉例來說,剖析器、解 碼器、預(yù)處理器或編碼器可以是單獨(dú)組件,作為硬件、固件、中間件并入在另一裝置的 組件中,或在處理器上執(zhí)行的微碼或軟件中實(shí)施,或者其組合。當(dāng)在軟件、固件、中間 件或微碼中實(shí)施時(shí),執(zhí)行運(yùn)動(dòng)補(bǔ)償、鏡頭分類和編碼過程的程序碼或碼段可存儲(chǔ)在例如 存儲(chǔ)媒體等機(jī)器可讀媒體中。碼段可表示處理程序、函數(shù)、子程序、程序、例行程序、 子例行程序、模塊、軟件包、種類,或指令、數(shù)據(jù)結(jié)構(gòu)或程序語句的任何組合??赏ㄟ^ 傳遞和/或接收信息、數(shù)據(jù)、自變量、參數(shù)或存儲(chǔ)器內(nèi)容來將一個(gè)碼段耦合到另一碼段。 轉(zhuǎn)碼器結(jié)構(gòu)的說明性實(shí)例
圖2說明可用于圖1的多媒體廣播系統(tǒng)100中所說明的轉(zhuǎn)碼器200的轉(zhuǎn)碼器的實(shí)例 的方框圖。轉(zhuǎn)碼器200包含剖析器/解碼器202、預(yù)處理器226、編碼器228和同步層240, 下文將進(jìn)一步加以描述。轉(zhuǎn)碼器200經(jīng)配置以使用多媒體數(shù)據(jù)104的內(nèi)容信息進(jìn)行代碼 變換過程的一個(gè)或一個(gè)以上方面(如本文所描述)。內(nèi)容信息可通過多媒體元數(shù)據(jù)從位于 轉(zhuǎn)碼器200外部的來源獲得或由轉(zhuǎn)碼器(例如,由預(yù)處理器226或編碼器228)計(jì)算。 圖2中展示的組件說明可包括在使用內(nèi)容信息進(jìn)行一個(gè)或一個(gè)以上代碼變換過程的轉(zhuǎn)碼 器中的組件。在特定實(shí)施方案中,可排除轉(zhuǎn)碼器200的組件中的一者或一者以上,或可 包括額外組件。另外,描述轉(zhuǎn)碼器和代碼變換過程的若干部分,以便允許所屬領(lǐng)域的技 術(shù)人員即使在本文未描述過程或裝置的每個(gè)細(xì)節(jié)的情況下仍可實(shí)踐本發(fā)明。
圖5說明時(shí)序圖以作為轉(zhuǎn)碼器200的各個(gè)組件和/或過程的操作的時(shí)間關(guān)系的圖解說 明。如圖5所示,首先在任意時(shí)間零(0)處由剖析器205 (圖2)接收經(jīng)編碼串流視頻 104 (經(jīng)編碼多媒體數(shù)據(jù),例如MPEG-2視頻)。接下來,對(duì)所述視頻流進(jìn)行剖析501、 多路分用502和解碼503,這例如通過剖析器205結(jié)合解碼器214來進(jìn)行。如所說明的, 這些過程可并行發(fā)生(具有輕微定時(shí)偏移),以便將處理數(shù)據(jù)的流輸出提供到預(yù)處理器 226 (圖2)。在時(shí)間T, 504處, 一旦預(yù)處理器226己經(jīng)從解碼器214接收到足夠數(shù)據(jù)以 開始輸出處理結(jié)果,剩余處理步驟便變得在實(shí)質(zhì)上按順序進(jìn)行,其中在預(yù)處理之后,依 序發(fā)生第一遍編碼505、第二遍編碼506和再編碼507,直到在時(shí)間Tf 508處完成再編碼 為止。
本文描述的轉(zhuǎn)碼器200可經(jīng)配置以對(duì)各種多媒體數(shù)據(jù)進(jìn)行代碼變換,且所述過程中 的許多者適用于對(duì)任何類型的多媒體數(shù)據(jù)進(jìn)行代碼變換。雖然本文提供的一些實(shí)例明確 涉及將MPEG-2數(shù)據(jù)代碼變換為H.264數(shù)據(jù),但這些實(shí)例并不打算將本發(fā)明限于此數(shù)據(jù)。 下文描述的編碼方面可應(yīng)用于將任何適合的多媒體數(shù)據(jù)標(biāo)準(zhǔn)代碼變換為另一適合的多媒體數(shù)據(jù)標(biāo)準(zhǔn)。
剖析器/解碼器
再次參看圖2,剖析器/解碼器202接收多媒體數(shù)據(jù)104。剖析器/解碼器202包括傳 送流剖析器("剖析器")205,其接收多媒體數(shù)據(jù)104且將所述數(shù)據(jù)剖析為視頻基本流(ES) 206、音頻ES 208、顯示時(shí)間戳記(PTS) 210和例如字幕212等其它數(shù)據(jù)。ES攜載來自 單個(gè)視頻或音頻編碼器的一種類型的數(shù)據(jù)(視頻或音頻)。舉例來說,視頻ES包含用于 數(shù)據(jù)序列的視頻數(shù)據(jù),所述數(shù)據(jù)序列包括序列標(biāo)頭和所述序列的所有子部分。分包基本 流或PES由已經(jīng)制成多個(gè)包的單個(gè)ES組成,其中所述包的每一者通常以附加的包標(biāo)頭 開始。PES流僅含有來自一個(gè)來源(例如,來自一個(gè)視頻或音頻編碼器)的一種類型的 數(shù)據(jù)。PES包具有可變長(zhǎng)度,所述長(zhǎng)度不對(duì)應(yīng)于傳送包的固定包長(zhǎng)度,且可比傳送包長(zhǎng) 得多。當(dāng)從PES流形成傳送包時(shí),可緊隨傳送包標(biāo)頭之后將PES標(biāo)頭放置在傳送包有效 負(fù)載的開始處。剩余PES包內(nèi)容填充連續(xù)傳送包的有效負(fù)載,直到所述PES包全部被使 用為止???例如)通過用字節(jié)(例如,字節(jié)-OxFF (全部為l))填滿來將最后傳送包 填充到固定長(zhǎng)度。
剖析器205將視頻ES 206傳達(dá)到解碼器214,解碼器214是此處所示的剖析器/解碼 器202的一部分。在其它配置中,剖析器205和解碼器214是單獨(dú)組件。將PTS 210發(fā) 送到轉(zhuǎn)碼器PTS產(chǎn)生器215,轉(zhuǎn)碼器PTS產(chǎn)生器215可產(chǎn)生特定針對(duì)于轉(zhuǎn)碼器200的單 獨(dú)顯示時(shí)間戳記以用于排列待從轉(zhuǎn)碼器200發(fā)送到廣播系統(tǒng)的數(shù)據(jù)。轉(zhuǎn)碼器PTS產(chǎn)生器 215可經(jīng)配置以將數(shù)據(jù)提供到轉(zhuǎn)碼器200的同步層240以協(xié)調(diào)數(shù)據(jù)廣播的同步。
圖3說明當(dāng)剖析出上述各個(gè)分包基本流時(shí)剖析器205可遵循的過程300的一個(gè)實(shí)例 的流程圖。過程300在方框302處開始,此時(shí)從內(nèi)容提供者106 (圖1)接收多媒體數(shù)據(jù) 104。過程300前進(jìn)到方框304,在此處執(zhí)行剖析器205的初始化。初始化可由獨(dú)立產(chǎn)生 的獲取命令306觸發(fā)。舉例來說,獨(dú)立于剖析器205且基于外部接收的電視時(shí)間表和信 道陣容信息的過程可產(chǎn)生獲取命令306。另外,可輸入實(shí)時(shí)傳送流(TS)緩沖器描述符 308以輔助初始化和主要處理。
如方框304中所說明,初始化可包括獲取命令語法驗(yàn)證;執(zhí)行第一遍PSI/PSIP/SI (程序特定信息/程序和系統(tǒng)信息協(xié)議/系統(tǒng)信息)處理;執(zhí)行具體關(guān)于獲取命令或 PSI/PSIP/SI—致性驗(yàn)證的處理;為每一PES分配PES緩沖器;和設(shè)定定時(shí)(例如,為了 與所需獲取開始瞬時(shí)對(duì)準(zhǔn))。PES緩沖器保存經(jīng)剖析的ES數(shù)據(jù)且將每一經(jīng)剖析ES數(shù)據(jù) 傳達(dá)到相應(yīng)音頻解碼器216、測(cè)試編碼器220、解碼器214或轉(zhuǎn)碼器PTS產(chǎn)生器215。在初始化之后,過程300前進(jìn)到方框310以對(duì)所接收多媒體數(shù)據(jù)104進(jìn)行主要處理。 方框310中的處理可包括目標(biāo)包識(shí)別符(PID)濾波、連續(xù)PSI/PSIP/SI監(jiān)視和處理,和 定時(shí)過程(例如,為了實(shí)現(xiàn)所需獲取時(shí)段),使得將進(jìn)入的多媒體數(shù)據(jù)傳遞到適當(dāng)?shù)腜ES 緩沖器中。由于在方框310中處理多媒體數(shù)據(jù),因而產(chǎn)生了程序描述符和PES緩沖器"讀 取"的指示,其將如下文描述與解碼器214 (圖2)介接。
在方框310之后,過程300前進(jìn)到方框314,在此處發(fā)生剖析操作的終止,其中包 括產(chǎn)生定時(shí)器中斷且釋放PES緩沖器以免受其消耗。請(qǐng)注意,PES緩沖器將存在用于程 序描述符中所列舉的程序的所有相關(guān)基本流,例如音頻、視頻和字幕流。
再次參看圖2,剖析器205將音頻ES 208發(fā)送到音頻解碼器216以對(duì)應(yīng)于轉(zhuǎn)碼器實(shí) 施方案,且將經(jīng)編碼文本216提供到同步層240并將音頻信息解碼。將字幕信息212遞 送到文本編碼器220。還將來自解碼器214的內(nèi)建字幕(CC)數(shù)據(jù)218提供到文本編碼 器220,文本編碼器220將字幕信息212和CC數(shù)據(jù)218編碼為由轉(zhuǎn)碼器200實(shí)現(xiàn)的格式。
剖析器/解碼器202還包括解碼器214,其接收視頻ES 206。解碼器214可產(chǎn)生與視 頻數(shù)據(jù)相關(guān)聯(lián)的元數(shù)據(jù),將經(jīng)編碼視頻分包基本流解碼為原始視頻224 (例如,以標(biāo)準(zhǔn) 清晰度格式),且處理視頻ES流中的視頻內(nèi)建字幕數(shù)據(jù)。
圖4展示流程圖,其說明可由解碼器214執(zhí)行的解碼過程400的一個(gè)實(shí)例。過程400 以在方框402處輸入視頻基本流數(shù)據(jù)206開始。過程400前進(jìn)到方框404,在此處對(duì)解 碼器進(jìn)行初始化。初始化可包括許多任務(wù),包括檢測(cè)視頻序列標(biāo)頭(VSH);執(zhí)行第一 遍VSH、視頻序列(VS)和VS顯示延伸處理(包括視頻格式、基色和矩陣系數(shù));和 分配數(shù)據(jù)緩沖器以分別緩沖經(jīng)解碼圖片、相關(guān)聯(lián)的元數(shù)據(jù)和內(nèi)建字幕(CC)數(shù)據(jù)。另外, 輸入由剖析器205提供的視頻PES緩沖器"讀取"信息406 (例如,其可由過程300在 圖3的方框310中產(chǎn)生)。
在方框404處進(jìn)行初始化之后,過程400前進(jìn)到方框408,在此處解碼器214執(zhí)行 視頻ES的主要處理。主要處理包括針對(duì)新數(shù)據(jù)可用性來輪詢視頻PES緩沖器"讀取" 信息或"界面";解碼視頻ES;在圖片邊界處重建并存儲(chǔ)像素?cái)?shù)據(jù);同步視頻與a/v;產(chǎn) 生元數(shù)據(jù)并存儲(chǔ)在圖片邊界處;和將CC數(shù)據(jù)存儲(chǔ)在圖片邊界處。主要處理408的結(jié)果 方框410包括產(chǎn)生序列描述符、經(jīng)解碼圖片緩沖器描述符、元數(shù)據(jù)緩沖器描述符和CC 數(shù)據(jù)緩沖器描述符。
在主要處理408之后,過程400前進(jìn)到方框412,在此處其執(zhí)行終止過程。所述終 止過程可包括確定終止條件,其包括在超過預(yù)定閾值的特定時(shí)段中未出現(xiàn)新數(shù)據(jù);檢測(cè)序列末端碼;和/或檢測(cè)明確的終止信號(hào)。終止過程可進(jìn)一步包括釋放經(jīng)解碼圖片、相 關(guān)聯(lián)的元數(shù)據(jù)和CC數(shù)據(jù)緩沖器以免受下文將描述的由預(yù)處理器對(duì)其的消耗。過程400 在方框414處結(jié)束,在此處其可進(jìn)入等待將接收視頻ES作為輸入的狀態(tài)。 預(yù)處理器
圖2 (且圖6更詳細(xì))說明可使用內(nèi)容信息進(jìn)行一個(gè)或一個(gè)以上預(yù)處理操作的預(yù)處 理器226的樣本方面。預(yù)處理器226從剖析器/解碼器202接收元數(shù)據(jù)222和經(jīng)解碼"原 始"視頻數(shù)據(jù)224。預(yù)處理器226經(jīng)配置以對(duì)視頻數(shù)據(jù)224和元數(shù)據(jù)222執(zhí)行某些類型 的處理,且將經(jīng)處理的多媒體(例如,基礎(chǔ)層參考幀、增強(qiáng)層參考幀、帶寬信息、內(nèi)容 信息)和視頻提供到編碼器228。對(duì)多媒體數(shù)據(jù)的此處理可改進(jìn)數(shù)據(jù)的視覺清晰性、抗 混疊和壓縮效率。 一般來說,預(yù)處理器226接收由剖析器/解碼器202中的解碼器214提 供的視頻序列,且將所述視頻序列轉(zhuǎn)換為循序視頻序列以供由編碼器228進(jìn)一步處理(例 如,編碼)。在一些方面中,預(yù)處理器226可經(jīng)配置以用于許多操作,包括反向電視電影 處理、解交錯(cuò)、濾波(例如,假像移除、去環(huán)、去塊和去噪音)、調(diào)整大小(例如,將空 間解析度從標(biāo)準(zhǔn)清晰度向下取樣到四分之一視頻圖形陣列(QVGA))和GOP結(jié)構(gòu)產(chǎn)生 (例如,計(jì)算復(fù)雜性映射產(chǎn)生、場(chǎng)景變化檢測(cè)和衰減/閃光檢測(cè))。
預(yù)處理器226可使用來自解碼器的元數(shù)據(jù)來影響所述預(yù)處理操作中的一者或一者以 上。元數(shù)據(jù)可包括關(guān)于、描述或分類多媒體數(shù)據(jù)內(nèi)容的信息("內(nèi)容信息");明確地說, 元數(shù)據(jù)可包括內(nèi)容分類。在一些方面中,元數(shù)據(jù)不包括編碼操作所需的內(nèi)容信息。在此 類情況下,預(yù)處理器226可經(jīng)配置以確定內(nèi)容信息且使用所述內(nèi)容信息進(jìn)行預(yù)處理操作, 且/或?qū)?nèi)容信息提供到轉(zhuǎn)碼器200的其它組件(例如,解碼器228)。在一些方面中,預(yù) 處理器226可使用此內(nèi)容信息來影響GOP分割、確定適當(dāng)類型的濾波且/或確定傳達(dá)到 編碼器的編碼參數(shù)。
圖6展示可包括在預(yù)處理器226中的各個(gè)過程塊的說明性實(shí)例,且說明可由預(yù)處理 器226執(zhí)行的處理。在此實(shí)例中,預(yù)處理器226接收元數(shù)據(jù)和視頻222、 224,且將包含 (已處理)元數(shù)據(jù)和視頻的輸出數(shù)據(jù)614提供到編碼器228。通常,可接收到三種類型的 視頻。第一,所接收的視頻可以是循序視頻,其中不需要解交錯(cuò)。第二,視頻數(shù)據(jù)可以 是經(jīng)電視電影處理的視頻,即從24fps電影序列轉(zhuǎn)換的交錯(cuò)視頻,在此情況下所述視頻。 第三,視頻可以是未經(jīng)電視電影處理的交錯(cuò)視頻。預(yù)處理器226可如下文描述處理這些 類型的視頻。
在方框601處,預(yù)處理器226確定所接收的視頻數(shù)據(jù)222、 224是否是循序視頻。在一些情況下,如果元數(shù)據(jù)包含此信息,那么這可從元數(shù)據(jù)確定,或通過視頻數(shù)據(jù)自身的 處理來確定。舉例來說,下文描述的反向電視電影處理過程可確定所接收的視頻222是 否是循序視頻。如果是,那么過程前進(jìn)到方框607,在此處對(duì)視頻執(zhí)行濾波(例如,噪 音抑制器)操作以減少例如白高斯噪音等噪音。如果在方框601處視頻數(shù)據(jù)222、 224不 是循序視頻,那么過程前進(jìn)到方框604到達(dá)相位檢測(cè)器604。
相位檢測(cè)器604區(qū)分起源于電視電影處理的視頻與以標(biāo)準(zhǔn)廣播格式開始的視頻。如 果作出視頻經(jīng)電視電影處理的決策(離開相位檢測(cè)器604的"是"決策路徑),那么在反 向電視電影處理606中將經(jīng)電視電影處理的視頻返回到其初始格式。識(shí)別并消除冗余幀, 且將從同一視頻幀導(dǎo)出的場(chǎng)重編為完整圖像。由于經(jīng)重建的膠片圖像序列以1/24秒的規(guī) 則間隔進(jìn)行攝影記錄,因而通過使用經(jīng)反向電視電影處理的圖像而非經(jīng)電視電影處理的 數(shù)據(jù)(其具有不規(guī)則時(shí)基)而在GOP分割器612或解碼器228中執(zhí)行的運(yùn)動(dòng)估計(jì)過程更 準(zhǔn)確。
在一個(gè)方面中,相位檢測(cè)器604在接收到視頻幀之后作出某些決策。這些決策包括 (i)本視頻是否來自電視電影處理輸出且3:2下拉相位是否是圖38中所示的五個(gè)相位P0、 P,、 P2、 P3和P4中的一者;和(ii)視頻作為常規(guī)NTSC產(chǎn)生。所述決策被表示為相位 P5。這些決策顯示作為圖2中所示的相位檢測(cè)器604的輸出。來自相位檢測(cè)器604的標(biāo) 記為"是"的路徑啟動(dòng)反向電視電影處理606,從而指示其已經(jīng)具備正確的下拉相位, 使得其可選出從同一攝影圖像形成的場(chǎng)且將其組合。來自相位檢測(cè)器604的標(biāo)記為"否" 的路徑類似地啟動(dòng)解交錯(cuò)器605以將視在NTSC幀分成多個(gè)場(chǎng)以進(jìn)行最佳處理。因?yàn)榭?在任何時(shí)間接收到不同類型的視頻,所以相位檢測(cè)器604可持續(xù)分析視頻幀。作為例示, 可將符合NTSC標(biāo)準(zhǔn)的視頻插入到所述視頻中作為商業(yè)廣告。在反向電視電影處理之后, 將所得循序視頻發(fā)送到可用于減少白高斯噪音的噪音抑制器(濾波器)607。
當(dāng)認(rèn)識(shí)到常規(guī)NTSC視頻(來自相位檢測(cè)器601的"否"路徑)時(shí),將其傳輸?shù)浇?交錯(cuò)器605以進(jìn)行壓縮。解交錯(cuò)器605將交錯(cuò)場(chǎng)變換為循序視頻,且可接著對(duì)循序視頻 執(zhí)行去噪音操作。下文描述解交錯(cuò)處理的一個(gè)說明性實(shí)例。
如電視等傳統(tǒng)模擬視頻裝置以交錯(cuò)方式再現(xiàn)視頻,即此類裝置傳輸偶數(shù)編號(hào)的掃描 線(偶數(shù)場(chǎng))和奇數(shù)編號(hào)的掃描線(奇數(shù)場(chǎng))。根據(jù)信號(hào)取樣觀點(diǎn),這等同于以由下列等 式描述的圖案進(jìn)行的空間-時(shí)間子取樣0(義,;y,"),如果;ymod2二0用于偶數(shù)場(chǎng), (;c,;y,n),,如果ymod2 = l用于奇數(shù)場(chǎng), 擦除,其它,
其中 代表初始幀圖片,F(xiàn)代表交錯(cuò)場(chǎng),且(x,y,n)分別表示像素的水平、垂直和 時(shí)間位置。
在無損通用性的情況下,可假設(shè)在此揭示內(nèi)容中n-O始終是偶數(shù)場(chǎng),使得以上等式 1簡(jiǎn)化為
F"'^i擦除,其它, [2]
由于未在水平維度上進(jìn)行抽取,因而可在下一個(gè)n y坐標(biāo)中描繪子取樣圖案。 解交錯(cuò)器的目標(biāo)在于將交錯(cuò)視頻(場(chǎng)序列)變換為非交錯(cuò)循序幀(幀序列)。換句話 說,內(nèi)插偶數(shù)和奇數(shù)場(chǎng)以"復(fù)原"或產(chǎn)生全幀圖像。這可由等式3表示
, 、 「F(;c,y,n), ;y mod2 = Mmod2,
尸。(",")H^ 、 甘—
L F,^,;y,"》其匕 [3]
其中Fi表示丟失像素的解交錯(cuò)結(jié)果。
圖40是說明使用Wmed濾波和運(yùn)動(dòng)估計(jì)以從交錯(cuò)多媒體數(shù)據(jù)產(chǎn)生循序幀的解交錯(cuò)器 605的一方面的某些方面的方框圖。圖40的上部部分展示運(yùn)動(dòng)強(qiáng)度映射4002,可通過使 用來自當(dāng)前場(chǎng)、兩個(gè)先前場(chǎng)(PP場(chǎng)和P場(chǎng))和兩個(gè)后續(xù)場(chǎng)(下一場(chǎng)和下下個(gè)場(chǎng))的信息 來產(chǎn)生所述運(yùn)動(dòng)強(qiáng)度映射4002。運(yùn)動(dòng)強(qiáng)度映射4002將當(dāng)前幀歸類或分割為兩個(gè)或兩個(gè) 以上不同運(yùn)動(dòng)水平,且可通過空間-時(shí)間濾波來產(chǎn)生,下文進(jìn)一步詳細(xì)描述。在一些方面 中,產(chǎn)生運(yùn)動(dòng)強(qiáng)度映射4002以識(shí)別靜態(tài)區(qū)域、緩慢運(yùn)動(dòng)區(qū)域和快速運(yùn)動(dòng)區(qū)域,如下文參 考等式4到8描述??臻g-時(shí)間濾波器(例如,Wmed濾波器4004)使用基于運(yùn)動(dòng)強(qiáng)度映 射的標(biāo)準(zhǔn)來對(duì)交錯(cuò)多媒體數(shù)據(jù)進(jìn)行濾波,且產(chǎn)生空間-時(shí)間臨時(shí)解交錯(cuò)幀。在一些方面中, Wmed濾波過程涉及水平鄰域[-l, l]、垂直鄰域[-3, 3]和五個(gè)相鄰場(chǎng)的時(shí)間鄰域,所述五 個(gè)相鄰場(chǎng)由圖40中所說明的五個(gè)場(chǎng)(PP場(chǎng)、P場(chǎng)、當(dāng)前場(chǎng)、下一場(chǎng)、下下個(gè)場(chǎng))表示, 其中Z—'表示一個(gè)場(chǎng)的延遲。相對(duì)于當(dāng)前場(chǎng)來說,下一場(chǎng)和P場(chǎng)是非奇偶性場(chǎng),且PP場(chǎng)和下下個(gè)場(chǎng)是奇偶性場(chǎng)。用于空間-時(shí)間濾波的"鄰域"指代在濾波操作期間實(shí)際使用的 場(chǎng)和像素的空間和時(shí)間位置,且可說明為(例如)圖6和圖7中所示的"光圈"。
解交錯(cuò)器605還可包括噪音抑制器(去噪音濾波器)4006,其經(jīng)配置以對(duì)由Wmed 濾波器4004產(chǎn)生的空間-時(shí)間臨時(shí)解交錯(cuò)幀進(jìn)行濾波。對(duì)空間-時(shí)間臨時(shí)解交錯(cuò)幀進(jìn)行去 噪音使得后續(xù)運(yùn)動(dòng)搜索過程更準(zhǔn)確,尤其是當(dāng)源交錯(cuò)多媒體數(shù)據(jù)序列受白噪音污染時(shí)。 其還可至少部分地移除Wrned圖片中的偶數(shù)行與奇數(shù)行之間的假像。噪音抑制器4006 可實(shí)施為各種濾波器,包括基于小波收縮和小波維納(Wiener)濾波器的噪音抑制器。 噪音抑制器可用于在使用運(yùn)動(dòng)補(bǔ)償信息對(duì)候選者Wmed幀進(jìn)行進(jìn)一步處理之前從其移除 噪音,且可移除Wmed幀中存在的噪音并保留存在的信號(hào)而不管信號(hào)的頻率內(nèi)容如何。 可使用各種類型的去噪音濾波器,其中包括小波濾波器。小波是用于在空間域和縮放域 中定位給定信號(hào)的一類函數(shù)。小波所基于的基本思想是以不同尺度或解析度分析信號(hào), 使得小波表示中的較小變化在初始信號(hào)中產(chǎn)生相應(yīng)較小的變化。
小波收縮或小波維納濾波器還可用作噪音抑制器。小波收縮由噪音信號(hào)的小波變換 組成,隨后將較小的小波系數(shù)收縮到零(或更小值),同時(shí)使較大的系數(shù)保持不變。最后, 執(zhí)行反向變換以獲取估計(jì)信號(hào)。
去噪音濾波提高了噪音環(huán)境中的運(yùn)動(dòng)補(bǔ)償?shù)臏?zhǔn)確性。小波收縮去噪音可涉及小波變 換域中的收縮,且通常包含三個(gè)步驟線性正向小波變換、非線性收縮去噪音和線性反 向小波變換。維納濾波器是可用于改進(jìn)由附加噪音和模糊而降級(jí)的圖像的MSE最佳線性 濾波器。此類濾波器大體上在此項(xiàng)技術(shù)中已知,且在(例如)上文引用的"通過小波收 縮的理想空間適應(yīng)性(Ideal spatial adaptation by wavelet shrinkage)"和S.P.黑爾(S, P. Ghael)、 A.M.塞伊德(A. M. Sayeed)和R.G.巴拉尼克(R. G. Baraniuk)的"經(jīng)由經(jīng)驗(yàn)維 納濾波的改進(jìn)小波去噪音(Improvement Wavelet denoising via empirical Wiener filtering)" (SP正會(huì)議錄,第3169巻,第389到399頁(yè),圣地亞哥,1997年7月)中描述,后者全 文明確地以引用方式并入本文。
在一些方面中,去噪音濾波器基于(4,2)雙正交三次B樣條小波濾波器的一方面。 一個(gè)此類濾波器可由以下正向和反向變換來定義
<formula>formula see original document page 21</formula>
禾口= + + +(反向變換) [5]
去噪音濾波器的應(yīng)用可增加噪音環(huán)境中的運(yùn)動(dòng)補(bǔ)償?shù)臏?zhǔn)確性。在D丄.道能浩(D丄. Donoho)和I.M.強(qiáng)斯頓(I.M.Johnstone)所作的"通過小波收縮的理想空間適應(yīng)性(Ideal spatial adaptation by wavelet shrinkage)"(生物統(tǒng)計(jì)學(xué),第8巻,第425到455頁(yè),1994
年)中進(jìn)一步描述此類濾波器的實(shí)施方案,所述文獻(xiàn)的全文明確地以引用方式并入本文 中。
圖40的下部部分說明用于確定交錯(cuò)多媒體數(shù)據(jù)的運(yùn)動(dòng)信息(例如,運(yùn)動(dòng)向量候選者、 運(yùn)動(dòng)估計(jì)、運(yùn)動(dòng)補(bǔ)償)的方面。明確地說,圖40說明運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償方案,其用于 產(chǎn)生選定幀的經(jīng)運(yùn)動(dòng)補(bǔ)償?shù)呐R時(shí)循序幀,且接著與Wined臨時(shí)幀組合以形成所得"最終" 循序幀(展示為經(jīng)解交錯(cuò)的當(dāng)前幀4014)。在一些方面中,從外部運(yùn)動(dòng)估計(jì)器將交錯(cuò)多 媒體數(shù)據(jù)的運(yùn)動(dòng)向量("MV")候選者(或估計(jì))提供到解交錯(cuò)器,且使用其來提供雙向 運(yùn)動(dòng)估計(jì)器和補(bǔ)償器("ME/MC")4018的開始點(diǎn)。在一些方面中,MV候選者選擇器4022 針對(duì)正被處理的塊的MV候選者使用鄰近塊的先前確定MV,例如先前處理塊(例如, 在經(jīng)解交錯(cuò)的先前幀4020中的塊)的MV??苫谙惹敖?jīng)解交錯(cuò)的幀70和下一 (例如, 未來)Wmed幀4008雙向進(jìn)行運(yùn)動(dòng)補(bǔ)償。當(dāng)前Wmed幀4010和經(jīng)運(yùn)動(dòng)補(bǔ)償?shù)?"MC") 當(dāng)前幀4016由組合器4012合并或組合。將所得經(jīng)解交錯(cuò)的當(dāng)前幀4014 (現(xiàn)在是循序幀) 提供回到ME/MC 4018以用作經(jīng)解交錯(cuò)的先前幀4020,且還向外傳達(dá)到解交錯(cuò)器605以 供后續(xù)處理。
能夠通過Wmed與MC解交錯(cuò)方案將包含場(chǎng)間內(nèi)插的解交錯(cuò)預(yù)測(cè)方案與場(chǎng)內(nèi)內(nèi)插去 耦。換句話說,空間-時(shí)間Wmed濾波可主要用于場(chǎng)內(nèi)內(nèi)插目的,而在運(yùn)動(dòng)補(bǔ)償期間可執(zhí) 行場(chǎng)間內(nèi)插。這減小了 Wmed結(jié)果的峰值信噪比,但應(yīng)用運(yùn)動(dòng)補(bǔ)償之后的視覺質(zhì)量更合 意,因?yàn)閷腤med濾波過程移除由于不準(zhǔn)確的場(chǎng)間預(yù)測(cè)模式?jīng)Q策而產(chǎn)生的不良像素。
在適當(dāng)?shù)姆聪螂娨曤娪疤幚砘蚪饨诲e(cuò)處理之后,在方框608處,對(duì)循序視頻進(jìn)行處 理以抑制假像且重取樣(例如,調(diào)整大小)。在一些重取樣方面中,實(shí)施多相重取樣器以 對(duì)圖片大小進(jìn)行大小調(diào)整。在向下取樣的一個(gè)實(shí)例中,初始圖片與經(jīng)調(diào)整大小的圖片之 間的比可為p/q,其中p和q是互質(zhì)整數(shù)。相位總數(shù)目為p。在一些方面中,對(duì)于約為0.5 的調(diào)整大小因子,多相濾波器的截止頻率為0.6。截止頻率并不與調(diào)整大小比完全匹配, 以便提高經(jīng)調(diào)整大小的序列的高頻率響應(yīng)。這不可避免地允許一些混疊。然而,眾所周知的是,相比于模糊但無混疊的圖片,人類眼睛更喜歡鮮明但稍被混疊的圖片。
圖41說明多相重取樣的實(shí)例,其展示調(diào)整大小定量為%時(shí)的相位。圖41中說明的截 止頻率也是%。在以上圖式中用垂直軸線說明初始像素。還以所述軸線為中心畫出正弦函 數(shù)來表示濾波器波形。因?yàn)槲覀冞x擇將截止頻率選擇為與重取樣定量完全相同,所以在 調(diào)整大小之后正弦函數(shù)的零點(diǎn)與像素的位置重疊(在圖41中用十字標(biāo)說明)。為了找到 調(diào)整大小之后的像素值,可如以下等式中所展示從初始像素合計(jì)所述作用
VW = 2 M(0X sin c(《(! -義))
其中fc為截止頻率。以上ID多相濾波器可應(yīng)用于水平維度和垂直維度兩者。 重取樣(調(diào)整大小)的另一方面用于解決過掃描。在NTSC電視信號(hào)中,圖像具有 486條掃描線,且在數(shù)字視頻中每一掃描線上可具有720個(gè)像素。然而,由于所述大小 與屏幕格式之間的失配的緣故,并非整個(gè)圖像全部在電視上可見。不可見的圖像部分稱 為過掃描。
為了幫助廣播臺(tái)將有用信息放置在盡可能多的電視可見的區(qū)域中,電影與電視工程 師協(xié)會(huì)(SMPTE)定義了稱為安全作用區(qū)域和安全標(biāo)題區(qū)域的作用幀的具體大小。請(qǐng)參 見"用于電視系統(tǒng)的安全作用和安全標(biāo)題區(qū)域測(cè)試圖案的說明書(Specifications for Safe Action and Safe Title Areas Test Pattern for Television Systems)"上的SMPTE推薦實(shí)踐RP 27.3-1989。 SMPTE將安全作用區(qū)域定義為"必須發(fā)生所有顯著作用"的區(qū)域。將安全標(biāo) 題區(qū)域定義為"可約束所有有用信息以確保在大多數(shù)家用電視接收器上可見"的區(qū)域。
舉例來說,參看圖25,安全作用區(qū)域2510占據(jù)屏幕中心90%,四周留出5%的邊 框。安全標(biāo)題區(qū)域2505占據(jù)屏幕中心80%,留出10%的邊框?,F(xiàn)參看圖26,因?yàn)榘踩?標(biāo)題區(qū)域如此小以致不能在圖像中添加更多內(nèi)容,所以一些電臺(tái)將文本放置在安全作用 區(qū)域中,安全作用區(qū)域在白色矩形窗2615內(nèi)。
通??稍谶^掃描中看見黑色邊框。舉例來說,在圖26中,黑色邊框出現(xiàn)在圖像的上 側(cè)2620和下側(cè)2625處??稍谶^掃描中移除這些黑色邊框,因?yàn)镠.264視頻在運(yùn)動(dòng)估計(jì) 中使用邊界延伸。延伸的黑色邊框可增加殘差。保守地說,可將邊界切除2%,且接著 調(diào)整大小。因此,可產(chǎn)生用于調(diào)整大小的濾波器。執(zhí)行截?cái)嘁栽诙嘞嘞蛳氯又耙瞥?過掃描。
再次參看圖6,循序視頻接著前進(jìn)到方框610,在此處執(zhí)行去塊和去環(huán)操作。在視頻壓縮應(yīng)用中通常出現(xiàn)兩種類型的假像,即"成塊"和"成環(huán)"。成塊假像發(fā)生是因?yàn)閴嚎s 算法將每一幀劃分為多個(gè)塊(例如,8x8個(gè)塊)。所重建的每一塊均具有一些小錯(cuò)誤,且 位于一個(gè)塊的邊緣處的錯(cuò)誤通常與位于相鄰塊的邊緣處的錯(cuò)誤形成對(duì)比,從而使得塊邊 界可見。相反,成環(huán)假像出現(xiàn)為位于圖像特征的邊緣周圍的失真。成環(huán)假像出現(xiàn)是因?yàn)?編碼器在量化高頻率DCT系數(shù)中丟棄了太多信息。在一些說明性實(shí)例中,去塊和去環(huán)兩 者可使用低通FIR (有限脈沖響應(yīng))濾波器來隱藏這些可見假像。
在去環(huán)處理的一個(gè)實(shí)例中,除了位于幀邊界處的邊緣和停用去塊濾波過程的任何邊 緣以外,去塊濾波器可應(yīng)用于幀的所有4x4個(gè)塊邊緣。在完成幀構(gòu)建過程之后應(yīng)在宏區(qū) 塊基礎(chǔ)上執(zhí)行此濾波過程,其中幀中所有宏區(qū)塊均經(jīng)處理以便增加宏區(qū)塊地址。對(duì)于每 一宏區(qū)塊來說,首先從左到右對(duì)垂直邊緣進(jìn)行濾波,且接著從頂部到底部對(duì)水平邊緣進(jìn) 行濾波。如圖39所示,對(duì)于水平方向和垂直方向,對(duì)四個(gè)16樣本邊緣執(zhí)行亮度去塊濾 波過程,且對(duì)兩個(gè)8樣本邊緣執(zhí)行針對(duì)每一色度分量的去塊濾波過程??赡芤呀?jīng)由對(duì)先 前宏區(qū)塊的去塊過程操作修改的位于當(dāng)前宏區(qū)塊上方和左邊的樣本值應(yīng)當(dāng)用作對(duì)當(dāng)前宏 區(qū)塊的去塊濾波過程的輸入,且可在對(duì)當(dāng)前宏區(qū)塊進(jìn)行濾波期間對(duì)其進(jìn)行進(jìn)一步修改。 在對(duì)垂直邊緣進(jìn)行濾波期間經(jīng)修改的樣本值可用作對(duì)同一宏區(qū)塊的水平邊緣進(jìn)行濾波的 輸入??蓡为?dú)為亮度和色度分量調(diào)用去塊過程。
在去環(huán)處理的實(shí)例中,可將2D濾波器適應(yīng)性地應(yīng)用于使邊緣附近的區(qū)域平滑化。邊 緣像素經(jīng)受較少濾波或不經(jīng)受濾波以便避免模糊。
GOP分割器
在去塊和去環(huán)之后,由GOP分割器612處理循序視頻。GOP定位可包括檢測(cè)鏡頭變 化、產(chǎn)生復(fù)雜性映射(例如,時(shí)間、空間帶寬映射)和適應(yīng)性GOP分割。下文一一描述 這些步驟。
A.場(chǎng)景變化檢測(cè)
鏡頭檢測(cè)涉及確定圖片組(GOP)中的幀何時(shí)展現(xiàn)指示已經(jīng)出現(xiàn)場(chǎng)景變化的數(shù)據(jù)。 一般來說,在GOP內(nèi),在任何兩個(gè)或三個(gè)(或更多)鄰近幀中,所述幀可能沒有顯著變 化,或可能存在緩慢變化或快速變化。當(dāng)然,依據(jù)具體應(yīng)用而定,在必要時(shí)可進(jìn)一步將 這些場(chǎng)景變化分類分解成更高的變化水平。
檢測(cè)鏡頭或場(chǎng)景變化對(duì)于視頻的有效編碼來說是重要的。通常,當(dāng)GOP沒有顯著變 化時(shí),位于GOP開始處的I幀后跟隨許多預(yù)測(cè)幀能夠充分編碼視頻,使得對(duì)所述視頻的 后續(xù)解碼和顯示在視覺上可接受。然而,當(dāng)場(chǎng)景突然或緩慢地變化時(shí),可能必須需要額外I幀和較少預(yù)測(cè)編碼(P幀和B幀)以產(chǎn)生后續(xù)解碼的視覺上可接受的結(jié)果。
下文描述改進(jìn)現(xiàn)有編碼系統(tǒng)的性能的鏡頭檢測(cè)及編碼系統(tǒng)和方法。此些方面可在預(yù) 處理器226的GOP分割器612中(圖7)實(shí)施,或包括于可在具有或沒有預(yù)處理器的情 況下操作的編碼器裝置中。此些方面利用包括視頻數(shù)據(jù)的鄰近幀之間的統(tǒng)計(jì)比較的統(tǒng)計(jì) 量(或量度)來確定是否發(fā)生了突然的場(chǎng)景變化、場(chǎng)景是否緩慢變化,或場(chǎng)景中是否存 在可能使視頻編碼特別復(fù)雜的相機(jī)閃光。所述統(tǒng)計(jì)量可從預(yù)處理器獲得且接著發(fā)送到編 碼裝置,或其可在編碼裝置中產(chǎn)生(例如,由經(jīng)配置以執(zhí)行運(yùn)動(dòng)補(bǔ)償?shù)奶幚砥鳟a(chǎn)生)。所 得統(tǒng)計(jì)量輔助場(chǎng)景變化檢測(cè)決策。在進(jìn)行代碼變換的系統(tǒng)中,通常存在適當(dāng)?shù)念A(yù)處理器 或可配置的處理器。如果預(yù)處理器執(zhí)行運(yùn)動(dòng)補(bǔ)償輔助的解交錯(cuò),那么運(yùn)動(dòng)補(bǔ)償統(tǒng)計(jì)量可 用且準(zhǔn)備好供使用。在此類系統(tǒng)中,鏡頭檢測(cè)算法可能稍微增加系統(tǒng)復(fù)雜性。
本文描述的鏡頭檢測(cè)器的說明性實(shí)例僅需要利用來自先前幀、當(dāng)前幀和下一幀的統(tǒng) 計(jì)量,且因此具有非常低的等待時(shí)間。鏡頭檢測(cè)器區(qū)分若干不同類型的鏡頭事件,其中 包括突然的場(chǎng)景變化、交叉淡化及其它緩慢的場(chǎng)景變化,和相機(jī)閃光。通過在編碼器中 用不同策略確定鏡頭事件的不同類型,可增強(qiáng)編碼效率和視覺質(zhì)量。
場(chǎng)景變化檢測(cè)可用于針對(duì)其的任何視頻編碼系統(tǒng),以通過以固定間隔插入I幀來智 能地節(jié)省位。在一些方面中,由預(yù)處理器獲得的內(nèi)容信息(例如,并入在元數(shù)據(jù)中或由 預(yù)處理器226計(jì)算)可用于場(chǎng)景變化檢測(cè)。舉例來說,依據(jù)所述內(nèi)容信息而定,可針對(duì) 不同類型的視頻內(nèi)容動(dòng)態(tài)地調(diào)整下文描述的閾值和其它標(biāo)準(zhǔn)。
通常對(duì)結(jié)構(gòu)化圖片組(GOP)執(zhí)行視頻編碼。GOP通常以幀內(nèi)編碼幀(I幀)開始, 其后跟隨一系列P (預(yù)測(cè))或B (雙向)幀。通常,I幀可存儲(chǔ)用以顯示所述幀需要的所 有數(shù)據(jù),B幀依賴于先前和隨后幀中的數(shù)據(jù)(例如,僅含有從先前幀變化或與下一幀中 的數(shù)據(jù)不同的數(shù)據(jù)),且P幀含有已經(jīng)從先前幀變化的數(shù)據(jù)。在通常使用中,I幀與P幀 和B幀一起散布在經(jīng)編碼視頻中。在大小(例如,用于編碼幀的位數(shù)目)方面,I幀通 常比P幀大得多,P幀又大于B幀。為了進(jìn)行有效編碼、傳輸和解碼處理,GOP的長(zhǎng)度 應(yīng)足夠長(zhǎng)以減小來自較大I幀的效率損失,且足夠短以阻止編碼器與解碼器之間的失配 或信道損害。另外,由于相同原因,可對(duì)P幀中的宏區(qū)塊(MB)進(jìn)行幀內(nèi)編碼。
場(chǎng)景變化檢測(cè)可用于視頻編碼器以確定合適的GOP長(zhǎng)度且基于所述GOP長(zhǎng)度來插 入I幀,而并非以固定間隔插入通常不需要的I幀。在實(shí)用串流視頻系統(tǒng)中,通常由于位 錯(cuò)誤或包丟失而損害通信信道。放置I幀或1MB的位置可顯著影響經(jīng)解碼視頻的質(zhì)量和 觀看體驗(yàn)。 一個(gè)編碼方案是將幀內(nèi)編碼幀用于從并置的先前圖片或圖片部分顯著變化的圖片或圖片部分。通常,這些區(qū)不能通過運(yùn)動(dòng)估計(jì)來有效且有效率地加以預(yù)測(cè),且如果 此類區(qū)被免除使用幀間編碼技術(shù)(例如,使用B幀和P幀進(jìn)行編碼),那么可更有效率地 進(jìn)行編碼。在信道損害的情況下,那些區(qū)可能遭受錯(cuò)誤傳播,通過幀內(nèi)編碼可減少或消 除(或幾乎消除)錯(cuò)誤傳播。
GOP視頻的多個(gè)部分可分類為兩種或兩種以上種類,其中每一區(qū)均可具有可取決于 特定實(shí)施方案的不同幀內(nèi)編碼標(biāo)準(zhǔn)。作為實(shí)例,視頻可分類為三個(gè)種類突然的場(chǎng)景變 化、交叉淡化及其它緩慢的場(chǎng)景變化,和相機(jī)閃光。
突然的場(chǎng)景變化包括與先前幀顯著不同(通常由相機(jī)操作造成)的幀。由于這些幀 的內(nèi)容不同于先前幀的內(nèi)容,因而應(yīng)將突然的場(chǎng)景變化幀編碼為I幀。
交叉淡化及其它緩慢的場(chǎng)景變化包括場(chǎng)景的緩慢切換,通常由攝像的計(jì)算機(jī)處理造 成。兩個(gè)不同場(chǎng)景的逐漸混合看起來可能更為人眼所喜歡,但是對(duì)視頻編碼提出了挑戰(zhàn)。 運(yùn)動(dòng)補(bǔ)償不能有效降低那些幀的位速率,且可為這些幀更新更多內(nèi)MB。
相機(jī)閃光或相機(jī)閃光事件發(fā)生在幀內(nèi)容包括相機(jī)閃光時(shí)。此些閃光的持續(xù)時(shí)間相對(duì) 較短(例如, 一個(gè)幀),且此類閃光極其明亮,使得幀中描繪所述閃光的像素展現(xiàn)出相對(duì) 于鄰近幀上的相應(yīng)區(qū)域來說異常高的亮度。相機(jī)閃光突然且快速地改變圖片的亮度。通 常相機(jī)閃光的持續(xù)時(shí)間比人類視覺系統(tǒng)(HVS)的時(shí)間遮蔽持續(xù)時(shí)間(其通常定義為44 ms)短。人眼對(duì)這些短時(shí)間爆發(fā)的亮度的質(zhì)量并不敏感,且因此可對(duì)其進(jìn)行粗編碼。因 為閃光幀不能通過運(yùn)動(dòng)補(bǔ)償來有效處理且其是未來幀的不良預(yù)測(cè)候選者,所以這些幀的 粗編碼不會(huì)降低未來幀的編碼效率。由于"假像"高亮度的緣故,分類為閃光的場(chǎng)景不 應(yīng)用于預(yù)測(cè)其它幀,且出于相同原因,其它幀也不能有效用于預(yù)測(cè)這些幀。 一旦被識(shí)別, 便可取出這些幀,因?yàn)樗鰩赡苄枰鄬?duì)較高數(shù)量的處理。 一個(gè)選項(xiàng)是移除相機(jī)閃光 幀且在適當(dāng)位置處編碼DC系數(shù);此辦法簡(jiǎn)單、計(jì)算快速且節(jié)省許多位。
當(dāng)檢測(cè)到以上種類的幀中的任一者時(shí),即宣告鏡頭事件。鏡頭檢測(cè)不僅有利于改進(jìn) 編碼質(zhì)量,而且其還可輔助識(shí)別視頻內(nèi)容搜索和索引。下文描述場(chǎng)景檢測(cè)過程的一個(gè)說 明性方面。在此實(shí)例中,鏡頭檢測(cè)過程首先為正被處理的選定幀計(jì)算信息或量度以進(jìn)行 鏡頭檢測(cè)。所述量度可包括來自視頻的雙向運(yùn)動(dòng)估計(jì)和補(bǔ)償處理的信息,和其它基于亮 度的量度。
為了執(zhí)行雙向運(yùn)動(dòng)估計(jì)/補(bǔ)償,可用雙向運(yùn)動(dòng)補(bǔ)償器對(duì)視頻序列進(jìn)行預(yù)處理,雙向運(yùn) 動(dòng)補(bǔ)償器使當(dāng)前幀的每個(gè)8x8塊與最鄰近的相鄰幀中的兩個(gè)幀(一個(gè)是過去的,且一個(gè) 是未來的)中的塊匹配。運(yùn)動(dòng)補(bǔ)償器產(chǎn)生每個(gè)塊的運(yùn)動(dòng)向量和差異量度。圖29是展示使當(dāng)前幀C的像素與過去幀P和未來(或下一)幀N匹配的實(shí)例且描繪匹配像素的運(yùn)動(dòng)向 量(過去運(yùn)動(dòng)向量MVp和未來運(yùn)動(dòng)向量MV"的說明。下文參看圖32概括描述對(duì)雙向 運(yùn)動(dòng)向量產(chǎn)生和相關(guān)編碼的概括描述。
在確定雙向運(yùn)動(dòng)信息(例如,識(shí)別相應(yīng)鄰近幀中的MB (最佳匹配)的運(yùn)動(dòng)信息) 之后,可通過當(dāng)前幀與下一幀和先前幀的各種比較(例如,由GOP分割器612中的運(yùn)動(dòng) 補(bǔ)償器或另一適當(dāng)組件)產(chǎn)生額外量度。運(yùn)動(dòng)補(bǔ)償器可產(chǎn)生每個(gè)塊的差異量度。差異量 度可以是平方差總和(SSD)或絕對(duì)差總和(SAD)。在無損通用性的情況下,此處使用 SAD作為實(shí)例。
對(duì)于每個(gè)幀,如下計(jì)算SAD比(還稱為"反差比")
—£ + &4£>P
其中SADp和SADN分別是正向和反向差異量度的絕對(duì)差總和。應(yīng)注意,分母含有小 正數(shù)s以防止"由零除"的錯(cuò)誤。分子也含有s以平衡分母中的數(shù)字l效應(yīng)。舉例來說, 如果先前幀、當(dāng)前幀和下一幀是相同的,那么運(yùn)動(dòng)搜索應(yīng)得出SADP=SADN=0。在此情況 下,以上計(jì)算產(chǎn)生器Y-l,而不是0或無窮大。
可為每個(gè)幀計(jì)算亮度直方圖。通常,多媒體圖像具有8個(gè)位的亮度深度(例如,"頻 率組"數(shù)目)??蓪⒂糜诟鶕?jù)一些方面計(jì)算亮度直方圖的亮度深度設(shè)定為16以獲得直方 圖。在其它方面中,可將亮度深度設(shè)定為適當(dāng)數(shù)字,所述數(shù)字可取決于正被處理的數(shù)據(jù) 的類型、可用的計(jì)算功率或其它預(yù)定標(biāo)準(zhǔn)。在一些方面中,可基于所計(jì)算或所接收的量 度(例如數(shù)據(jù)的內(nèi)容)來動(dòng)態(tài)設(shè)定亮度深度。
以下等式說明計(jì)算亮度直方圖差異(人)的一個(gè)實(shí)例
義=
其中Npi是用于先前幀的第i個(gè)頻率組中的塊數(shù)目,且Nci是用于當(dāng)前幀的第i個(gè)頻 率組中的塊數(shù)目,且N是幀中的塊總數(shù)目。如果先前幀與當(dāng)前幀的亮度直方圖差異完全 不一樣(或不相交),那么人=2。
通過使用此信息,如下計(jì)算幀差異量度(D):<formula>formula see original document page 28</formula> [8]
其中a是應(yīng)用程序選擇的常數(shù),rc = p ,且k
如果所述幀差異量度滿足等式9中所示的標(biāo)準(zhǔn),那么將選定(當(dāng)前)幀分類為突然
場(chǎng)景變化幀
<formula>formula see original document page 28</formula> [9]
其中A是應(yīng)用程序選擇的常數(shù),且T:是閾值。
在一個(gè)實(shí)例中,模擬展示設(shè)定A=l且T1=5實(shí)現(xiàn)良好的檢測(cè)性能。如果當(dāng)前幀是
突然場(chǎng)景變化幀,那么^應(yīng)較大,且^應(yīng)較小??墒褂帽萟來代替單獨(dú)的"c,使得將 所述量度標(biāo)準(zhǔn)化為所述情形的活動(dòng)性水平。
應(yīng)注意,以上標(biāo)準(zhǔn)以非線性方式使用亮度直方圖差異(X)。圖16說明人* (2"I)為 凸函數(shù)。當(dāng)X較小(例如,接近零)時(shí),其幾乎不能預(yù)加重。X變得越大,所述函數(shù)所進(jìn) 行的加重就越多。通過此預(yù)加重,對(duì)于大于1.4的任何X,如果將閾值T,設(shè)定為5,那么 檢測(cè)到突然的場(chǎng)景變化。
如果場(chǎng)景強(qiáng)度量度D滿足等式5中所示的標(biāo)準(zhǔn),那么確定當(dāng)前幀是交叉淡化或緩慢 場(chǎng)景變化
<formula>formula see original document page 28</formula> [10]
其用于特定數(shù)目的連續(xù)幀,其中T,是與以上所用閾值相同的閾值,且T2是另一閾值。 閃光事件通常致使亮度直方圖移位到較亮側(cè)。在此說明性方面相機(jī)中,亮度直方圖 統(tǒng)計(jì)量用于確定當(dāng)前幀是否包含相機(jī)閃光。鏡頭檢測(cè)過程可確定當(dāng)前幀的亮度是否比先 前幀的亮度大某閾值T3,且當(dāng)前幀的亮度是否比下一幀的亮度大閾值T3,如等式ll和 12中所示<formula>formula see original document page 29</formula> [12]
如果不滿足以上標(biāo)準(zhǔn),那么不將當(dāng)前幀分類為包含相機(jī)閃光。如果滿足所述標(biāo)準(zhǔn), 那么鏡頭檢測(cè)過程確定反向差異量度SADp和正向差異量度SADN是否大于某閾值T4, 如以下等式中說明
<formula>formula see original document page 29</formula> [13]
<formula>formula see original document page 29</formula>[14]
其中5是當(dāng)前幀的平均亮度,g是先前幀的平均亮度,^是下一幀的平均亮度,
且SADp和SADN是與當(dāng)前幀相關(guān)聯(lián)的正向和反向差異量度。
鏡頭檢測(cè)過程通過首先確定當(dāng)前幀的亮度是否大于先前幀的亮度和下一幀的亮度來 確定相機(jī)閃光事件。如果不大于,那么所述幀不是相機(jī)閃光事件;但如果大于,那么其
可能是相機(jī)閃光事件。鏡頭檢測(cè)過程接著可估計(jì)反向差異量度是否大于閾值T3和正向差
異量度是否大于闊值T4;如果滿足這兩個(gè)條件,那么鏡頭檢測(cè)過程將當(dāng)前幀分類為具有 相機(jī)閃光。如果不滿足所述標(biāo)準(zhǔn),那么不將所述幀分類為任何類型的鏡頭事件,或其可 被給予默認(rèn)分類,所述默認(rèn)分類識(shí)別待對(duì)所述幀進(jìn)行的編碼(例如,丟棄幀,編碼為I 幀)。
上文展示T,、 T2、 T3和T4的一些示范性值。通常,通過測(cè)試鏡頭檢測(cè)的特定實(shí)施方 案來選擇這些閾值。在一些方面中,所述閾值T,、 T2、 T3和T4中的一者或一者以上是預(yù) 定的,且此些值被并入到編碼裝置中的鏡頭分類器。在一些方面中,所述閾值T卜T2、 T3和T4中的一者或一者以上可在處理期間(例如,動(dòng)態(tài)地)基于使用供應(yīng)到鏡頭分類器 的信息(例如,元數(shù)據(jù))或基于由鏡頭分類器自身計(jì)算的信息來設(shè)定。
通常在編碼器中執(zhí)行使用鏡頭檢測(cè)信息來編碼視頻,但是為了鏡頭檢測(cè)揭示的完整 性而在此處描述對(duì)視頻的編碼。參看圖30,編碼過程301可使用鏡頭檢測(cè)信息以基于所 述幀序列中的所檢測(cè)鏡頭來編碼視頻。過程301前進(jìn)到方框303,且檢查以査看當(dāng)前幀是否被分類為突然的場(chǎng)景變化。如果是,那么在方框305處,可將當(dāng)前幀編碼為I幀且 可確定GOP邊界。如果不是,那么過程301前進(jìn)到方框307:如果當(dāng)前幀被分類為緩慢 變化場(chǎng)景的一部分,那么在方框309處,可將當(dāng)前幀和所述緩慢變化場(chǎng)景中的其它幀編 碼為預(yù)測(cè)幀(例如,P幀或B幀)。過程301接著前進(jìn)到方框311,在此處其檢查當(dāng)前幀 是否被分類為包含相機(jī)閃光的閃光場(chǎng)景。如果是,那么在方框313處,可將所述幀識(shí)別 為進(jìn)行特殊處理(例如,移除或編碼用于所述幀的DC系數(shù));如果不是,那么不進(jìn)行當(dāng) 前幀的分類且根據(jù)其它標(biāo)準(zhǔn)來編碼當(dāng)前幀(編碼為I幀或丟棄)。
在上述方面中,待壓縮的幀與其鄰近兩個(gè)幀之間的差異量由幀差異量度D指示。如 果檢測(cè)到顯著量的單向亮度變化,那么意味著在所述幀中存在交叉淡化效應(yīng)。交叉淡化 越明顯,通過使用B幀可獲得的增益就越多。在一些方面中,如以下等式中所示來使用 經(jīng)修改的幀差異量度
<formula>formula see original document page 30</formula>
其它, [15]
其中^=|^-^|和^=|^-^1分別是當(dāng)前幀與先前幀之間的亮度差異和當(dāng)前幀與 下一幀之間的亮度差異,a表示常數(shù),所述常數(shù)可在標(biāo)準(zhǔn)實(shí)驗(yàn)中確定,因?yàn)槠淇梢罁?jù)實(shí) 施方案而定,且a是具有介于0到i之間的值的加權(quán)變量。
B.帶寬映射產(chǎn)生
預(yù)處理器226 (圖6)還可經(jīng)配置以產(chǎn)生可用于編碼多媒體數(shù)據(jù)的帶寬映射。在一些 方面中,編碼器228中的內(nèi)容分類模塊712 (圖7)代替產(chǎn)生帶寬映射。
人類視覺質(zhì)量V可以是編碼復(fù)雜性C和分配位B (還稱為帶寬)的函數(shù)。圖15是 說明此關(guān)系的曲線圖。應(yīng)注意,編碼復(fù)雜性量度C從人類視覺觀點(diǎn)考慮空間和時(shí)間頻率。 對(duì)于人眼較敏感的失真,復(fù)雜性值相應(yīng)較高。通??杉僭O(shè)V關(guān)于C單調(diào)下降,且關(guān)于B 單調(diào)增加。
為了實(shí)現(xiàn)恒定的視覺質(zhì)量,將帶寬(Bi)指派給待編碼的第i個(gè)對(duì)象(幀或MB), 其滿足以下緊隨的兩個(gè)等式中所表述的標(biāo)準(zhǔn)200680043886. 1
說明書第25/55頁(yè)
<formula>formula see original document page 31</formula>
在上文剛剛列出的兩個(gè)等式中,Ci是第i個(gè)對(duì)象的編碼復(fù)雜性,B是總體可用帶寬, 且V是對(duì)象的實(shí)現(xiàn)視覺質(zhì)量。人類視覺質(zhì)量難以用公式表示為等式。因此,以上等式組<formula>formula see original document page 31</formula>
(V)
不是精確定義的。然而,如果假設(shè)3D模型在所有變量中均連續(xù),那么可將帶寬比、/^ 視為在(C,V)對(duì)的鄰域內(nèi)不變。帶寬比Pi在下文所示等式中定義<formula>formula see original document page 31</formula>
可接著如下列等式中所表述來定義位分配:
1 = 2 A其中(C,.,V)e ^C。,K)
其中3指示"鄰域"。
在時(shí)間和空間上,編碼復(fù)雜性均受到人類視覺敏感度影響?;_德(Girod)的人類 視覺模型是可用于定義空間復(fù)雜性的模型的實(shí)例。此模型考慮局部空間頻率和環(huán)境照明。 所得量度稱為Desat。在所述過程中的預(yù)處理點(diǎn)處,將對(duì)圖片進(jìn)行幀內(nèi)編碼還是幀間編碼
是未知的且產(chǎn)生所述二者的帶寬比。根據(jù)不同視頻對(duì)象的P^TRA之間的比來分配位。對(duì)
于幀內(nèi)編碼圖片來說,在下列等式中表述帶寬比
AaTO4 二 A)/ato410 (1 + "mto4 y乃"。,j [20]
在以上等式中,Y是宏區(qū)塊的平均亮度分量,"'^^是亮度平方與其后的Dcsat項(xiàng)的加
權(quán)因子,/ 。WHM是保證 i的標(biāo)準(zhǔn)化因子。舉例來說,"》 ^=4時(shí)的值實(shí)現(xiàn)良好的視
覺質(zhì)量??墒褂脙?nèi)容信息(例如,內(nèi)容分類)來將"^^設(shè)定為對(duì)應(yīng)于視頻的特定內(nèi)容的所需良好視覺質(zhì)量等級(jí)的值。在一個(gè)實(shí)例中,如果視頻內(nèi)容包含"演說者頭部"新聞廣 播,那么可將視覺質(zhì)量等級(jí)設(shè)定得較低,因?yàn)榭烧J(rèn)為視頻的信息圖像或可顯示部分沒有 音頻部分那么重要,且可分配較少位來編碼所述數(shù)據(jù)。在另一實(shí)例中,如果視頻內(nèi)容包
含體育事件,那么可使用內(nèi)容信息來將"^/m設(shè)定為對(duì)應(yīng)于較高視覺質(zhì)量等級(jí)的值,因?yàn)?所顯示圖像可能對(duì)觀看者較重要,且因此可分配更多位來編碼所述數(shù)據(jù)。
為了理解此關(guān)系,應(yīng)注意帶寬是與編碼復(fù)雜性成對(duì)數(shù)關(guān)系來分配的。亮度平方項(xiàng)Y2 反映具有越大量值的系數(shù)使用越多的位來編碼的事實(shí)。為了防止對(duì)數(shù)得到負(fù)值,向括弧 中的項(xiàng)添加數(shù)字l。還可使用具有其它底數(shù)的對(duì)數(shù)。
時(shí)間復(fù)雜性由幀差異量度的測(cè)量確定,所述測(cè)量通過考慮運(yùn)動(dòng)量(例如,運(yùn)動(dòng)向量) 連同幀差異量度(例如絕對(duì)差總和(SAD))來測(cè)量?jī)蓚€(gè)連續(xù)幀之間的差異。
幀間編碼圖片的位分配可考慮空間以及時(shí)間復(fù)雜性。這表述為如下
<formula>formula see original document page 32</formula>
在以上等式中,MVp和MVn是當(dāng)前MB的正向和反向運(yùn)動(dòng)向量(見圖29)??勺⒁?到,幀內(nèi)編碼帶寬公式中的¥2由平方差總和(SSD)取代。為了理解iiAf、+MV"2在以 上等式中的作用,請(qǐng)注意人類視覺系統(tǒng)的下一特性經(jīng)歷平滑的可預(yù)測(cè)運(yùn)動(dòng)(小 ||AfVV+M^||2)的區(qū)域吸引注意力,且可由眼睛跟蹤并且通常不容許比靜止區(qū)更多的失 真。然而,經(jīng)歷快速或不可預(yù)測(cè)運(yùn)動(dòng)(大llM^+M^f)的區(qū)域不能被跟蹤且可容許顯
著量化。實(shí)驗(yàn)展示,aINTER-l且7=0.001實(shí)現(xiàn)良好的視覺質(zhì)量。 C.適應(yīng)性GOP分割
在預(yù)處理器226可執(zhí)行的處理的另一說明性實(shí)例中,圖6的GOP分割器612還可適 應(yīng)性地改變一起編碼的圖片組的成分,且參考使用MPEG2的實(shí)例加以論述。 一些較老的 視頻壓縮標(biāo)準(zhǔn)(例如,MPEG2)不要求GOP具有規(guī)則結(jié)構(gòu),但是可強(qiáng)加于所述標(biāo)準(zhǔn)。 MPEG2序列總以I幀開始(即,在不參考先前圖片的情況下已被編碼的幀)。通常通過 固定跟隨所述I幀的P或預(yù)測(cè)圖片在GOP中的間距來在編碼器處預(yù)先安排MPEG2 GOP 格式。P幀是已經(jīng)從先前的I或P圖片部分預(yù)測(cè)的圖片。將開始的I幀與隨后的P幀之間 的幀編碼為B幀。"B"幀(B代表雙向)可單獨(dú)或同時(shí)使用先前和下一I或P圖片作為 參考。編碼I幀所需要的位數(shù)目平均超過編碼P幀所需要的位數(shù)目;同樣,編碼P幀所需要的位數(shù)目平均超過B幀所需要的位數(shù)目。如果使用跳過幀,那么其將不需要任何位 來用于其表示。
使用P幀及B幀和在較新近的壓縮算法中使用跳過幀以減小表示視頻所需的數(shù)據(jù)速 率的基礎(chǔ)概念是消除時(shí)間冗余。當(dāng)時(shí)間冗余較高(即,圖片與圖片之間存在極小變化) 時(shí),使用P、 B或跳過圖片可有效地表示視頻流,因?yàn)樯院笫褂迷缦冉獯a的I或P圖片作 為參考來解碼其它P或B圖片。
適應(yīng)性GOP分割是基于適應(yīng)性地使用此概念。對(duì)幀之間的差異進(jìn)行量化,且在對(duì)經(jīng) 量化差異執(zhí)行適合測(cè)試之后自動(dòng)作出由I幀、P幀、B幀還是跳過幀表示所述圖片的決策。 適應(yīng)性結(jié)構(gòu)具有固定GOP結(jié)構(gòu)中不存在的優(yōu)點(diǎn)。固定結(jié)構(gòu)將忽略內(nèi)容中已經(jīng)發(fā)生極小變 化的可能性;適應(yīng)性程序?qū)⒃试S將遠(yuǎn)遠(yuǎn)更多的B幀插入在每一 I幀與P幀之間或兩個(gè)P 幀之間,進(jìn)而減小充分表示幀序列所需的位數(shù)目。相反,當(dāng)視頻內(nèi)容中的變化顯著時(shí),P 幀的效率大大降低,因?yàn)轭A(yù)測(cè)幀與參考幀之間的差異太大。在這些條件下,匹配對(duì)象可 能離開運(yùn)動(dòng)搜索區(qū),或匹配對(duì)象之間的相似性由于相機(jī)角度變化所引起的失真而減小。 此時(shí),應(yīng)將P幀或I幀和其鄰近P幀選擇為彼此更接近,且應(yīng)插入較少的B幀。固定GOP 不能作出所述調(diào)整。
在此處所揭示的系統(tǒng)中,這些條件是自動(dòng)感測(cè)的。所述GOP結(jié)構(gòu)較靈活且使得適應(yīng) 內(nèi)容中的這些變化。所述系統(tǒng)用相同的距離相加性質(zhì)來評(píng)估幀差異量度,幀差異量度可
被看作幀之間的距離測(cè)量。在概念上,假定幀F(xiàn),、 F2和F3具有幀間距離d,2和d23,那么
F|與F3之間的距離可視為至少dI2+d23?;诖司嚯x類量度來進(jìn)行幀指派。
GOP分割器通過在接收到幀時(shí)向所述幀指派圖片類型來操作。圖像類型指示編碼每
一塊時(shí)可能需要的預(yù)測(cè)方法。
在不參考其它圖片的情況下編碼I圖片。由于其獨(dú)立,因而其提供在數(shù)據(jù)流中可開
始解碼的存取點(diǎn)。如果幀到其前趨幀的"距離"超過場(chǎng)景變化閾值,那么向所述幀指派
I編碼類型。
P圖片可使用先前I或P圖片進(jìn)行運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)。其將先前場(chǎng)或幀中可從正被預(yù)測(cè)的 塊替換的塊用作編碼基礎(chǔ)。在從正被考慮的塊減去參考?jí)K之后,將殘余塊編碼,這通常 使用離散余弦變換來消除空間冗余。如果幀與指派為P幀的最后幀之間的"距離"超過 第二閾值(其通常小于第一閾值),那么向所述幀指派P編碼類型。
B幀圖片可使用先前和下一 P或I圖片進(jìn)行如上所述的運(yùn)動(dòng)補(bǔ)償。B圖片中的塊可被 正向、反向或雙向預(yù)測(cè);或可在不參考其它幀的情況下對(duì)其進(jìn)行幀內(nèi)編碼。在H.264中,參考?jí)K可以是來自許多幀的多達(dá)32個(gè)塊的線性組合。如果不能將所述幀指派為I或P類 型,那么如果從其到其緊接前趨的"距離"大于第三閾值(其通常小于第二閾值),則將 其指派為B類型。
如果不能將所述幀指派成為編碼的B幀,那么將其指派為"跳過幀"狀態(tài)??蓪⒋?幀跳過,因?yàn)槠鋵?shí)際上是先前幀的拷貝。
評(píng)估量化顯示次序中的鄰近幀之間的差異的量度是所發(fā)生的此處理的第一部分。此 量度是上文提到的距離;通過所述量度,可評(píng)估每個(gè)幀以確定其恰當(dāng)類型。因此,I幀與 鄰近P幀或兩個(gè)連續(xù)P幀之間的間距可以是可變的。通過用基于塊的運(yùn)動(dòng)補(bǔ)償器處理視 頻幀來開始計(jì)算所述量度,塊是視頻壓縮的基本單位,通常由16x16個(gè)像素組成,但例 如8x8、 4x4和8x16等其它塊大小也是可能的。對(duì)于由兩個(gè)解交錯(cuò)場(chǎng)組成的幀,運(yùn)動(dòng)補(bǔ) 償可在場(chǎng)基礎(chǔ)上進(jìn)行,對(duì)參考?jí)K的搜索在場(chǎng)而并非幀中發(fā)生。對(duì)于當(dāng)前幀的第一場(chǎng)中的 塊,正向參考?jí)K在跟隨當(dāng)前幀的幀的場(chǎng)中找到;同樣,反向參考?jí)K在緊接在當(dāng)前場(chǎng)之前 的幀的場(chǎng)中找到。將當(dāng)前塊匯集成補(bǔ)償場(chǎng)。所述過程繼續(xù)對(duì)所述幀的第二場(chǎng)執(zhí)行。組合 所述兩個(gè)補(bǔ)償場(chǎng)以形成正向和反向補(bǔ)償幀。
對(duì)于在反向電視電影606中創(chuàng)建的幀來說,由于僅重建膠片幀的緣故,僅在幀基礎(chǔ) 上搜索參考?jí)K。找到兩個(gè)參考?jí)K和兩個(gè)差異(正向和反向),從而還產(chǎn)生正向和反向補(bǔ)償 幀??偲饋碚f,運(yùn)動(dòng)補(bǔ)償器產(chǎn)生每個(gè)塊的運(yùn)動(dòng)向量和差異量度;但是在處理解交錯(cuò)器605 的輸出的情況下,塊是NTSC場(chǎng)的一部分,且如果處理反向電視電影的輸出,那么其是 膠片幀的一部分。請(qǐng)注意,所述量度中的差異是在正被考慮的場(chǎng)或幀中的塊與最與其匹 配的塊之間進(jìn)行評(píng)估的,評(píng)估在先前場(chǎng)或幀中或在緊隨其后的場(chǎng)或幀中進(jìn)行,這取決于 正在評(píng)估正向差異還是反向差異。只有亮度值參與此計(jì)算。
因此,運(yùn)動(dòng)補(bǔ)償步驟產(chǎn)生兩組差異。這些差異是在具有當(dāng)前亮度值的塊與具有取自 在時(shí)間上緊接在當(dāng)前幀之前和之后的幀的參考?jí)K中的亮度值的塊之間。針對(duì)每一像素確 定每一正向差異和每一反向差異的絕對(duì)值,且其每一者單獨(dú)在整個(gè)幀范圍內(nèi)求和。當(dāng)處 理包含幀的經(jīng)解交錯(cuò)NTSC場(chǎng)時(shí),兩個(gè)場(chǎng)均包括在兩個(gè)總和中。以此方式,找到正向差 異和反向差異的總絕對(duì)值SADp和SADN。
使用以下關(guān)系式來針對(duì)每個(gè)幀計(jì)算SAD比<formula>formula see original document page 34</formula>其中SADp和SADiv分別是正向差異和反向差異的總絕對(duì)值。向分子添加小正數(shù)s以 防止"由零除"的錯(cuò)誤。向分母添加類似s項(xiàng),從而進(jìn)一步減小當(dāng)SADp或SADn接近零 時(shí)Y的敏感度。
在替代方面中,所述差異可以是SSD(平方差總和)和SAD(絕對(duì)差總和),或SATD, 其中在取得塊元素中的差異之前通過對(duì)其應(yīng)用二維離散余弦變換來對(duì)具有像素值的塊進(jìn) 行變換。在有效視頻的區(qū)域上評(píng)估所述總和,但在其它方面中可使用較小區(qū)域。
還計(jì)算每個(gè)幀在接收(非運(yùn)動(dòng)補(bǔ)償)時(shí)的亮度直方圖。直方圖對(duì)16x16系數(shù)陣列中 的DC系數(shù)(即,(0,0)系數(shù))進(jìn)行操作,所述DC系數(shù)是具有亮度值的塊可用時(shí)對(duì)其應(yīng) 用二維離散余弦變換的結(jié)果。16x16塊中的256個(gè)亮度值的平均值可均等地用于直方圖 中。對(duì)于亮度深度為8個(gè)位的圖像,將頻率組數(shù)目設(shè)定為16。下一量度評(píng)估直方圖差異
W ,=i [23〗
在以上等式中,Npj是來自第i個(gè)頻率組中的先前幀的塊的數(shù)目,且Nci是來自屬于 第i個(gè)頻率組的當(dāng)前幀的塊的數(shù)目,N是幀中的塊的總數(shù)目。 這些中間結(jié)果經(jīng)匯集以形成當(dāng)前幀差異量度
£) = &+;1(2;1+1)
"/> , [24]
其中&是基于當(dāng)前幀的SAD比'且"是基于先前幀的SAD比。如果場(chǎng)景具有平滑 運(yùn)動(dòng)且其亮度直方圖幾乎不變,那么D^1。如果當(dāng)前幀顯示突然的場(chǎng)景變化,那么&將
較大且^應(yīng)較小。使用比^來代替單獨(dú)的^,使得將所述量度標(biāo)準(zhǔn)化到所述情形的活 動(dòng)性水平。
圖42說明向幀指派壓縮類型的過程。D (等式19中定義的當(dāng)前幀差異)是關(guān)于幀指 派作出決策的基礎(chǔ)。如決策方框4202所指示,如果正被考慮的幀是序列中的第一幀,那 么標(biāo)記為"是"的決策路徑延續(xù)到方框4206,進(jìn)而宣告所述幀為I幀。在方框4208處將 累計(jì)的幀差異設(shè)定為零,且過程返回(在方框4210中)到開始方框。如果正被考慮的幀 不是序列中的第一幀,那么從作出決策的方框4202處延續(xù)標(biāo)記為"否"的路徑,且在測(cè)試方框4204中,相對(duì)于場(chǎng)景變化閾值來測(cè)試當(dāng)前幀差異。如果當(dāng)前幀差異大于所述閾值, 那么標(biāo)記為"是"的決策路徑延續(xù)到方框4206,從而再次產(chǎn)生I幀的指派。
如果當(dāng)前幀差異小于場(chǎng)景變化閾值,那么"否"路徑延續(xù)到方框4212,在此處將當(dāng) 前幀差異加上累計(jì)的幀差異。在決策方框4214處繼續(xù)通過所述流程圖,將累計(jì)幀差異與 閾值t進(jìn)行比較,t一般小于場(chǎng)景變化閾值。如果累計(jì)幀差異大于t,那么控制轉(zhuǎn)移到方 框4216,且將所述幀指派為P幀;接著在步驟4218中將累計(jì)幀差異重設(shè)為零。如果累 計(jì)幀差異小于t,那么控制從方框4214轉(zhuǎn)移到方框4220。在此處將當(dāng)前幀差異與T (其 小于t)進(jìn)行比較。如果當(dāng)前幀差異小于T,那么在方框4222中將所述幀指派為跳過幀且 接著過程返回;如果當(dāng)前幀差異大于T,那么在方框4226中將所述幀指派為B幀。
編碼器
回頭參看圖2,轉(zhuǎn)碼器200包括編碼器228,其接收來自預(yù)處理器226的經(jīng)處理的元 數(shù)據(jù)和原始視頻。元數(shù)據(jù)可包括最初在源視頻104中接收的任何信息和由預(yù)處理器226 計(jì)算的任何信息。編碼器228包括第一遍編碼器230、第二遍編碼器232和再編碼器234。 編碼器228還接收來自轉(zhuǎn)碼器控制231的輸入,轉(zhuǎn)碼器控制231可將來自第二遍編碼器 232的信息(例如,元數(shù)據(jù)、錯(cuò)誤復(fù)原信息、內(nèi)容信息、編碼位速率信息、基礎(chǔ)層及增 強(qiáng)層平衡信息和量化信息)提供到第一遍編碼器230、再編碼器234以及預(yù)處理器226。 編碼器228使用從預(yù)處理器226接收的內(nèi)容信息和/或由編碼器228自身(例如,由內(nèi)容 分類模塊712 (圖7))產(chǎn)生的內(nèi)容信息來編碼所接收視頻。
圖7說明可包括在示范性兩遍編碼器中的功能模塊的方框圖,所述示范性兩遍編碼 器可用于圖2中所說明的編碼器228。圖7中展示所述功能模塊的各個(gè)方面,但圖7和 此處描述沒有必要解決可并入到編碼器中的所有功能性。因此,下文在以下論述基礎(chǔ)層 和增強(qiáng)層編碼之后描述所述功能模塊的某些方面。
基礎(chǔ)層和增強(qiáng)層編碼
編碼器228可以是SNR可縮放編碼器,其可將來自預(yù)處理器226的原始視頻和元數(shù) 據(jù)編碼為第一編碼數(shù)據(jù)組(本文還稱為基礎(chǔ)層),和一個(gè)或一個(gè)以上額外編碼數(shù)據(jù)組(本 文還稱為增強(qiáng)層)。編碼算法產(chǎn)生基礎(chǔ)層系數(shù)和增強(qiáng)層系數(shù),當(dāng)所述兩種層均可用于解碼 時(shí),可在解碼時(shí)在解碼器處組合所述基礎(chǔ)層系數(shù)與增強(qiáng)層系數(shù)。當(dāng)所述兩種層均不可用 時(shí),基礎(chǔ)層的編碼允許其被解碼為單個(gè)層。
參看圖31描述此多層編碼過程的一個(gè)方面。在方框321處,用全部幀內(nèi)編碼宏區(qū)塊 (幀內(nèi)編碼MB)來編碼I幀。在H.264中,通過完全利用的空間預(yù)測(cè)來編碼I幀中的幀內(nèi)編碼MB,所述空間預(yù)測(cè)提供大量編碼增益。存在兩種子模式幀內(nèi)4x4和幀內(nèi)16x16。 如果基礎(chǔ)層將利用由空間預(yù)測(cè)提供的編碼增益,那么需要在編碼和解碼增強(qiáng)層之前編碼 和解碼基礎(chǔ)層。使用I幀的兩遍編碼和解碼。在基礎(chǔ)層中,基礎(chǔ)層量化參數(shù)QPb為變換 系數(shù)提供粗量化步長(zhǎng)。將在增強(qiáng)層處編碼初始幀與經(jīng)重建基礎(chǔ)層幀之間的像素方面的差 異。增強(qiáng)層使用量化參數(shù)QPe (其提供較細(xì)的量化步長(zhǎng))。編碼裝置(例如圖2的編碼器 228)可在方框321處執(zhí)行編碼。
在方框323處,編碼器針對(duì)正被處理的GOP中的P幀和/或B幀來編碼基礎(chǔ)層數(shù)據(jù) 和增強(qiáng)層數(shù)據(jù)。編碼裝置(例如編碼器228)可在方框323處執(zhí)行編碼。在方框325處, 編碼過程檢查是否存在更多P幀或B幀要編碼。編碼裝置(例如SNR可縮放編碼器228) 可執(zhí)行動(dòng)作325。如果仍有更多P幀或B幀,那么重復(fù)步驟323,直到GOP中的所有幀 完成編碼為止。P幀或B幀包含幀間編碼宏區(qū)塊(幀間編碼MB),但如下文將論述的, 在P幀或B幀中還可存在幀內(nèi)編碼MB。
為了使解碼器能區(qū)分基礎(chǔ)層數(shù)據(jù)與增強(qiáng)層數(shù)據(jù),編碼器228編碼額外開銷信息(方 框327)。額外開銷信息的類型包括(例如)識(shí)別層數(shù)目的數(shù)據(jù)、將層識(shí)別為基礎(chǔ)層的數(shù) 據(jù)、將層識(shí)別為增強(qiáng)層的數(shù)據(jù)、識(shí)別層之間的相互關(guān)系(例如,層2是基礎(chǔ)層1的增強(qiáng) 層,或?qū)?是增強(qiáng)層2的增強(qiáng)層)的數(shù)據(jù)或?qū)幼R(shí)別為一連串增強(qiáng)層中的最后增強(qiáng)層的 數(shù)據(jù)。額外開銷信息可包含在與其所屬的基礎(chǔ)層和/或增強(qiáng)層數(shù)據(jù)連接的標(biāo)頭中,或包含 在單獨(dú)的數(shù)據(jù)消息中。編碼裝置(例如圖2的編碼器228)可在方框327處執(zhí)行所述過 程。
為了進(jìn)行單層解碼,必須在反量化之前組合兩種層的系數(shù)。因此,必須交互式產(chǎn)生 所述兩種層的系數(shù);否則,這可引入大量額外開銷。額外開銷增加的一個(gè)原因在于,基 礎(chǔ)層編碼和增強(qiáng)層編碼可使用不同的時(shí)間參考。需要一種產(chǎn)生基礎(chǔ)層和增強(qiáng)層系數(shù)的算 法,當(dāng)所述兩種層均可用時(shí),可在去量化之前在解碼器處組合所述基礎(chǔ)層系數(shù)與增強(qiáng)層 系數(shù)。同時(shí),當(dāng)增強(qiáng)層不可用或解碼器出于例如功率節(jié)省等原因而決定不解碼增強(qiáng)層時(shí), 所述算法應(yīng)提供用于可接受的基礎(chǔ)層視頻。在以下緊接的對(duì)標(biāo)準(zhǔn)預(yù)測(cè)編碼的簡(jiǎn)要論述的 情形中,下文進(jìn)一步論述此過程的示范性實(shí)例的細(xì)節(jié)。
P幀(或任何幀間編碼部分)可利用當(dāng)前圖片中的區(qū)與參考圖片中的最佳匹配預(yù)測(cè) 區(qū)之間的時(shí)間冗余。參考幀中的最佳匹配預(yù)測(cè)區(qū)的位置可在運(yùn)動(dòng)向量中編碼。當(dāng)前區(qū)與 最佳匹配參考預(yù)測(cè)區(qū)之間的差異稱為殘余誤差(或預(yù)測(cè)誤差)。
圖32是(例如)MPEG-4中的P幀構(gòu)建過程的實(shí)例的說明。過程331是可在圖31的方框323中發(fā)生的實(shí)例性過程的更詳細(xì)說明。過程331包括由5x5個(gè)宏區(qū)塊組成的當(dāng) 前圖片333,其中此實(shí)例中的宏區(qū)塊數(shù)目是任意的。宏區(qū)塊由16x16個(gè)像素組成。像素 可由8位亮度值(Y)和兩個(gè)8位色度值(Cr和Cb)定義。在MPEG中,Y、 Cr和Cb 分量可存儲(chǔ)為4:2:0格式,其中Cr和Cb分量在X和Y方向上以2向下取樣。因此,每 一宏區(qū)塊將由256個(gè)Y分量、64個(gè)Cr分量和64個(gè)Cb分量組成。在從位于與當(dāng)前圖片 333不同的時(shí)間點(diǎn)處的參考圖片337預(yù)測(cè)當(dāng)前圖片333的宏區(qū)塊335。在參考圖片337中 進(jìn)行搜索以定位在Y、 Cr和Cb值方面最接近正被編碼的當(dāng)前宏區(qū)塊335的最佳匹配宏 區(qū)塊339。參考圖片337中的最佳匹配宏區(qū)塊339的位置在運(yùn)動(dòng)向量341中編碼。參考 圖片337可以是I幀或P幀,在構(gòu)建當(dāng)前圖片333之前解碼器將已經(jīng)重建所述I幀或P 幀。從當(dāng)前宏區(qū)塊335減去最佳匹配宏區(qū)塊339(計(jì)算Y、Cr和Cb分量中每一者的差異), 從而產(chǎn)生殘余誤差343。用2D離散余弦變換(DCT) 345編碼殘余誤差343且接著進(jìn)行 量化347??蓤?zhí)行量化347以通過(例如)向高頻率系數(shù)分派較少位而向低頻率系數(shù)分 派較多位來提供空間壓縮。殘余誤差343的量化系數(shù)連同運(yùn)動(dòng)向量341和參考圖片333 識(shí)別信息是表示當(dāng)前宏區(qū)塊335的經(jīng)編碼信息。所述經(jīng)編碼信息可存儲(chǔ)在存儲(chǔ)器中以供 將來出于(例如)錯(cuò)誤校正或圖像增強(qiáng)的目的來使用或操作,或經(jīng)由網(wǎng)絡(luò)349傳輸。
殘余誤差343的經(jīng)編碼量化系數(shù)連同經(jīng)編碼運(yùn)動(dòng)向量341可用于在編碼器中重建當(dāng) 前宏區(qū)塊335,以用作用于后續(xù)運(yùn)動(dòng)估計(jì)和補(bǔ)償?shù)膮⒖紟囊徊糠?。編碼器可模仿解碼 器的針對(duì)此P幀重建的程序。模仿解碼器將導(dǎo)致編碼器和解碼器兩者對(duì)同一參考圖片起 作用。此處展現(xiàn)重建過程,無論是在編碼器中進(jìn)行以供進(jìn)一步幀間編碼還是在解碼器中 進(jìn)行??稍谥亟▍⒖紟?或正被參考的圖片或幀的一部分)之后開始P幀的重建。經(jīng)編 碼量化系數(shù)經(jīng)去量化351且接著執(zhí)行2D反DCT或IDCT 353,從而產(chǎn)生經(jīng)解碼或重建的 殘余誤差355。經(jīng)編碼運(yùn)動(dòng)向量341經(jīng)解碼且用于在已經(jīng)重建的參考圖片337中定位已 經(jīng)重建的最佳匹配宏區(qū)塊357。接著將重建的殘余誤差355添加到重建的最佳匹配宏區(qū) 塊357以形成重建的宏區(qū)塊359。重建的宏區(qū)塊359可存儲(chǔ)在存儲(chǔ)器中,獨(dú)立顯示或與 其它重建宏區(qū)塊一起在圖片中顯示,或進(jìn)一步進(jìn)行處理以實(shí)現(xiàn)圖像增強(qiáng)。
B幀(或通過雙向預(yù)測(cè)編碼的任何部分)可利用當(dāng)前圖片中的區(qū)與先前圖片中的最 佳匹配預(yù)測(cè)區(qū)和后續(xù)圖片中的最佳匹配預(yù)測(cè)區(qū)之間的時(shí)間冗余。將后續(xù)最佳匹配預(yù)測(cè)區(qū) 與先前最佳匹配預(yù)測(cè)區(qū)組合以形成組合雙向預(yù)測(cè)區(qū)。當(dāng)前圖片區(qū)與最佳匹配組合雙向預(yù) 測(cè)區(qū)之間的差異是殘余誤差(或預(yù)測(cè)誤差)。后續(xù)參考圖片中的最佳匹配預(yù)測(cè)區(qū)和先前參 考圖片中的最佳匹配預(yù)測(cè)區(qū)的位置可在兩個(gè)運(yùn)動(dòng)向量中編碼。圖33說明可由編碼器228執(zhí)行的用于編碼基礎(chǔ)層和增強(qiáng)層系數(shù)的編碼器過程的實(shí) 例。對(duì)基礎(chǔ)層和增強(qiáng)層進(jìn)行編碼以提供SNR可縮放位流。圖33描繪例如將在圖31的歩 驟323中進(jìn)行的用于編碼幀間MB殘余誤差系數(shù)的實(shí)例。然而,還可使用類似方法來編 碼幀內(nèi)MB系數(shù)。例如圖2的編碼器組件228等編碼裝置可執(zhí)行圖33中說明的過程和圖 32的步驟323。將初始(待編碼)視頻數(shù)據(jù)406 (在此實(shí)例中,視頻數(shù)據(jù)包含亮度和色 度信息)輸入到基礎(chǔ)層最佳匹配宏區(qū)塊回路363和增強(qiáng)層最佳匹配宏區(qū)塊回路365?;?路363和365兩者的目的在于分別將在加法器367和369處計(jì)算的殘余誤差減到最小。 可并行地(如圖所示)或依次地執(zhí)行回路363和365?;芈?63和365分別包括用于搜 索緩沖器371和373 (其含有參考幀)的邏輯,以識(shí)別將最佳匹配宏區(qū)塊與初始數(shù)據(jù)361 之間的殘余誤差減到最小的最佳匹配宏區(qū)塊(緩沖器371和373可以是同一緩沖器)。由 于基礎(chǔ)層回路363將通常利用比增強(qiáng)層回路365粗的量化步長(zhǎng)(較高QP值),因而回路 363和365的殘余誤差將不同。變換方框375和377變換每一回路的殘余誤差。
接著在選擇器379中將經(jīng)變換系數(shù)剖析為基礎(chǔ)層和增強(qiáng)層系數(shù)。選擇器379的剖析 可采取若干形式,如下文論述。剖析技術(shù)的一個(gè)共同特征是計(jì)算增強(qiáng)層系數(shù)C'enh,使得 其是基礎(chǔ)層系數(shù)C'bMe的微分改迸。將增強(qiáng)層計(jì)算為基礎(chǔ)層的改進(jìn)允許解碼器自己解碼基 礎(chǔ)層系數(shù)且具有圖像的合理表示,或組合基礎(chǔ)層和增強(qiáng)層系數(shù)且具有圖像的改進(jìn)表示。
接著由量化器381和383量化由選擇器379選擇的系數(shù)。量化系數(shù)^^和^^ (分別用 量化器381和383計(jì)算)可存儲(chǔ)在存儲(chǔ)器中或經(jīng)由網(wǎng)絡(luò)傳輸?shù)浇獯a器。
為了與解碼器中的宏區(qū)塊重建匹配,去量化器385將基礎(chǔ)層殘余誤差系數(shù)去量化。 經(jīng)去量化的殘余誤差系數(shù)經(jīng)反變換387且添加389到在緩沖器371中找到的最佳匹配宏 區(qū)塊,從而產(chǎn)生與將在解碼器中重建的宏區(qū)塊匹配的重建宏區(qū)塊。量化器383、去量化 器391、反變換器393、加法器397和緩沖器373在增強(qiáng)回路365中執(zhí)行與在基礎(chǔ)層回路 363中進(jìn)行的計(jì)算類似的計(jì)算。另外,加法器393用于組合增強(qiáng)層重建中所使用的經(jīng)去 量化增強(qiáng)層系數(shù)與基礎(chǔ)層系數(shù)。增強(qiáng)層量化器和去量化器將通常利用比基礎(chǔ)層細(xì)的量化 器步長(zhǎng)(較低QP)。
圖34、 35和36展示可在圖33的選擇器379中采用的基礎(chǔ)層和增強(qiáng)層系數(shù)選擇器過 程的實(shí)例。例如圖2的編碼器228等選擇裝置可執(zhí)行圖34、 35和36中描繪的過程。使 用圖34作為實(shí)例,將經(jīng)變換系數(shù)剖析為基礎(chǔ)層和增強(qiáng)層系數(shù),如以下等式中所示={0,如果c^e和c^帶相反正負(fù)號(hào) imin(C^,C^),其它 [25]
<formula>formula see original document page 40</formula> [26]
其中"min"函數(shù)可以是所述兩個(gè)自變量的數(shù)學(xué)最小值或最小量值。在圖34中,將 等式25描繪為方框401且將等式26描繪為加法器510。在等式26中,Qb代表基礎(chǔ)層量 化器381,且Qb—1代表基礎(chǔ)層的去量化器385。等式26將增強(qiáng)層系數(shù)轉(zhuǎn)換為用等式25計(jì) 算的基礎(chǔ)層系數(shù)的微分改進(jìn)。
圖35是基礎(chǔ)層和增強(qiáng)層系數(shù)選擇器379的另一實(shí)例的說明。在此實(shí)例中,方框405 中包含的等式(.)表示如下
<formula>formula see original document page 40</formula> 其它 [27]
加法器407如下列兩個(gè)等式中所示計(jì)算增強(qiáng)層系數(shù):
<formula>formula see original document page 40</formula>[28]
其中CWw由等式27給出。
圖36是基礎(chǔ)層和增強(qiáng)層選擇器379的另一實(shí)例的說明。在此實(shí)例中,基礎(chǔ)層系數(shù)不 變,且增強(qiáng)層等于量化/去量化基礎(chǔ)層系數(shù)與初始增強(qiáng)層系數(shù)之間的差值。
除了基礎(chǔ)層和增強(qiáng)層殘余誤差系數(shù)以外,解碼器還需要識(shí)別如何編碼MB的信息。 例如圖2的編碼器組件228等編碼裝置可編碼額外開銷信息,所述額外開銷信息可包括 幀內(nèi)編碼部分和幀間編碼部分的映射,例如MB映射,其中宏區(qū)塊(或子宏區(qū)塊)被識(shí) 別為經(jīng)幀內(nèi)編碼或幀間編碼(還識(shí)別哪種類型的幀間編碼,包括例如正向、反向或雙向), 和幀間編碼部分參考哪些幀。在實(shí)例性方面中,MB映射和基礎(chǔ)層系數(shù)在基礎(chǔ)層中編碼, 且增強(qiáng)層系數(shù)在增強(qiáng)層中編碼。
P幀和B幀可含有幀內(nèi)編碼MB以及幀間MB?;旌弦曨l編碼器通常使用速率失真 (RD)優(yōu)化來決定將P幀或B幀中的某些宏區(qū)塊編碼為幀內(nèi)編碼MB。為了具有其中幀內(nèi)編碼MB不依賴于增強(qiáng)層幀間MB的單層解碼,不使用任何相鄰幀間MB來進(jìn)行基礎(chǔ) 層幀內(nèi)編碼MB的空間預(yù)測(cè)。為了使計(jì)算復(fù)雜性對(duì)增強(qiáng)層解碼保持不變,對(duì)于基礎(chǔ)層P 或B幀中的幀內(nèi)編碼MB,可跳過增強(qiáng)層處的改進(jìn)。
P幀或B幀中的幀內(nèi)編碼MB比幀間MB需要許多更多的位。出于此原因,可僅以 基礎(chǔ)層質(zhì)量在較高QP下對(duì)P或B幀中的幀內(nèi)編碼MB進(jìn)行編碼。這將在視頻質(zhì)量中引 入某一劣化,但是如果在稍后的幀中如上論述用基礎(chǔ)層和增強(qiáng)層中的幀間MB系數(shù)改進(jìn) 此劣化,那么此劣化應(yīng)為不明顯的。兩個(gè)原因使得此劣化不明顯。第一原因是人類視覺 系統(tǒng)(HVS)的特征,且另一原因是幀間MB改進(jìn)幀內(nèi)MB。對(duì)于從第一幀到第二幀改 變位置的對(duì)象,第一幀中的一些像素在第二幀中不可見(待被覆蓋的信息),且第二幀中 的一些像素對(duì)于第一時(shí)間為可見的(未被覆蓋的信息)。人類眼睛對(duì)未被覆蓋和待被覆蓋 的視覺信息不敏感。因此對(duì)于未被覆蓋的信息,即使其以較低質(zhì)量進(jìn)行編碼,眼睛也可 能不能分辯所述差異。如果在隨后的P幀中仍有相同信息,那么增強(qiáng)層處的隨后P幀將 很可能對(duì)其改進(jìn),因?yàn)樵鰪?qiáng)層具有較低QP。
在P幀或B幀中引入幀內(nèi)編碼MB的另一常見技術(shù)稱為幀內(nèi)刷新。在此情況下,即 使標(biāo)準(zhǔn)R-D優(yōu)化將規(guī)定MB應(yīng)該是幀間編碼MB,但一些MB被編碼為幀內(nèi)編碼MB。 這些幀內(nèi)編碼MB (包含在基礎(chǔ)層中)可用QPb或QPe進(jìn)行編碼。如果將QPe用于基礎(chǔ) 層,那么不需要在增強(qiáng)層處的改進(jìn)。如果QPb用于基礎(chǔ)層,那么可能需要改進(jìn),否則在 增強(qiáng)層處,質(zhì)量下降將較明顯。由于在編碼效率的意義上幀間編碼比幀內(nèi)編碼更有效, 因而增強(qiáng)層處的這些改進(jìn)將被幀間編碼。以此方式,基礎(chǔ)層系數(shù)將不用于增強(qiáng)層。因此, 在不引入新操作的情況下質(zhì)量在增強(qiáng)層處得到改進(jìn)。
因?yàn)锽幀提供較高壓縮質(zhì)量,所以其通常用于增強(qiáng)層中。然而,B幀可能必須參考 P幀的幀內(nèi)編碼MB。如果B幀的像素待以增強(qiáng)層質(zhì)量進(jìn)行編碼,那么由于P幀幀內(nèi)編 碼MB的較低質(zhì)量的緣故,可能需要太多位,如上論述。通過利用HVS的質(zhì)量,如上論 述,當(dāng)參考P幀的較低質(zhì)量幀內(nèi)編碼MB時(shí),B幀MB可以較低質(zhì)量進(jìn)行編碼。
P幀或B幀中的幀內(nèi)編碼MB的一種極端情況是當(dāng)由于正被編碼的視頻中存在場(chǎng)景 變化的緣故P幀或B幀中所有MB均以幀內(nèi)模式進(jìn)行編碼時(shí)。在此情況下,整個(gè)幀可以 基礎(chǔ)層質(zhì)量進(jìn)行編碼且在增強(qiáng)層處沒有改進(jìn)。如果在B幀處發(fā)生場(chǎng)景變化,且假設(shè)B幀 僅在增強(qiáng)層中被編碼,那么B幀可以基礎(chǔ)層質(zhì)量進(jìn)行編碼或完全丟棄。如果在P幀處發(fā) 生場(chǎng)景變化,那么可能不需要變化,但P幀可被丟棄或以基礎(chǔ)層質(zhì)量進(jìn)行編碼。在題為 "具有兩層編碼和單層解碼的可縮放視頻編碼(SCALABLE VIDEO CODING WITH TWOLAYER ENCODING AND SINGLE LAYER DECODING)"且由本受讓人所有的共同待決 的第[代理人案號(hào)/參考號(hào)050078]號(hào)美國(guó)專利申請(qǐng)案中進(jìn)一步描述可縮放層編碼,所述申 請(qǐng)案的全文以引用方式并入本文中。 編碼器第一遍部分
圖7展示圖2的編碼器228的說明性實(shí)例。所示方框說明可包括在編碼器228中的 各種編碼器處理。在此實(shí)例中,編碼器228包括在分界線704上方的第一遍部分706和 在線704下方的第二遍部分706 (包括圖2中的第二遍編碼器232和再編碼器234的功 能性)。
編碼器228從預(yù)處理器226接收元數(shù)據(jù)和原始視頻。元數(shù)據(jù)可包括由預(yù)處理器226 接收或計(jì)算的任何元數(shù)據(jù),其中包括與視頻的內(nèi)容信息相關(guān)的元數(shù)據(jù)。編碼器228的第 一遍部分702說明可包括在第一遍編碼702中的示范性過程,下文在其功能性方面加以 描述。如所屬領(lǐng)域的技術(shù)人員將了解,可以各種形式(例如,硬件、軟件、固件或其組 合)來實(shí)施此功能。
圖7說明適應(yīng)性幀內(nèi)刷新(AIR)模塊。AIR模塊710向I幀例示模塊708提供輸入, I幀例示模塊708基于元數(shù)據(jù)來例示I幀。第一遍部分702還可包括內(nèi)容分類模塊712, 其經(jīng)配置以接收元數(shù)據(jù)和視頻且確定與所述視頻相關(guān)的內(nèi)容信息。可將內(nèi)容信息提供到 速率控制位分配模塊714,其還接收元數(shù)據(jù)和視頻??刂莆环峙淠K714確定速率位控 制信息且將其提供到模式?jīng)Q策模塊715??蓪?nèi)容信息和視頻提供到幀內(nèi)模型(失真) 模塊716,幀內(nèi)模型(失真)模塊716將幀內(nèi)編碼失真信息提供到模式?jīng)Q策模塊715以 及基礎(chǔ)和增強(qiáng)層可縮放性速率失真模塊718。將視頻和元數(shù)據(jù)提供到運(yùn)動(dòng)估計(jì)(失真) 模塊720,運(yùn)動(dòng)估計(jì)(失真)模塊720將幀間編碼失真信息提供到基礎(chǔ)和增強(qiáng)層可縮放 性速率失真模塊718?;A(chǔ)和增強(qiáng)層可縮放性速率失真模塊718使用來自運(yùn)動(dòng)估計(jì)模塊 720和幀內(nèi)模型失真模塊716的失真估計(jì)來確定可縮放性速率失真信息,所述可縮放性 速率失真信息被提供到模式?jīng)Q策模塊715。模式?jīng)Q策模塊715還接收來自切片/MB定序 模塊722的輸入。切片/MB定序模塊722接收來自錯(cuò)誤復(fù)原模塊740 (第二遍部分706 中展示)的輸入,且向模式?jīng)Q策模塊715提供關(guān)于將視頻的可獨(dú)立編碼部分(切片)與 存取單元邊界對(duì)準(zhǔn)以獲得錯(cuò)誤復(fù)原的信息。模式?jīng)Q策模塊715基于其輸入來確定編碼模 式信息且向第二遍部分706提供"最佳"編碼模式。下文描述此第一遍部分702的一些 實(shí)例的進(jìn)一步說明性解釋。
如上陳述,內(nèi)容分類模塊712接收由預(yù)處理器226供應(yīng)的元數(shù)據(jù)和原始視頻。在一些實(shí)例中,預(yù)處理器226根據(jù)多媒體數(shù)據(jù)計(jì)算內(nèi)容信息且將所述內(nèi)容信息提供到內(nèi)容分 類模塊712(例如,以元數(shù)據(jù)形式),內(nèi)容分類模塊712可使用所述內(nèi)容信息來確定多媒 體數(shù)據(jù)的內(nèi)容分類。在其它一些方面中,內(nèi)容分類模塊712經(jīng)配置以根據(jù)多媒體數(shù)據(jù)確 定各種內(nèi)容信息,且還可經(jīng)配置以確定內(nèi)容分類。
內(nèi)容分類模塊712可經(jīng)配置以確定具有不同類型的內(nèi)容的視頻的不同內(nèi)容分類。不 同內(nèi)容分類可導(dǎo)致不同參數(shù)用于編碼多媒體數(shù)據(jù)的方面中,例如確定位速率(例如,位 分配)以確定量化參數(shù)、運(yùn)動(dòng)估計(jì)、可縮放性、錯(cuò)誤復(fù)原,在信道上維持最佳多媒體數(shù) 據(jù)質(zhì)量,且用于快速信道切換方案(例如,周期性促成I幀以允許快速信道切換)。根據(jù) 一個(gè)實(shí)例,編碼器228經(jīng)配置以基于內(nèi)容分類來確定速率-失真(R-D)優(yōu)化和位速率分 配。確定內(nèi)容分類允許基于內(nèi)容分類而將多媒體數(shù)據(jù)壓縮為對(duì)應(yīng)于所需位速率的給定質(zhì) 量等級(jí)。而且,通過將多媒體數(shù)據(jù)的內(nèi)容分類(例如,基于人類視覺系統(tǒng)來確定內(nèi)容分 類),使得所傳達(dá)的多媒體數(shù)據(jù)在接收裝置的顯示器上的所得感知質(zhì)量依賴于視頻內(nèi)容。
作為內(nèi)容分類模塊712所經(jīng)歷的將內(nèi)容分類的程序的實(shí)例,圖9展示過程卯O,其 說明內(nèi)容分類模塊712可操作的示范性過程。如圖所示,過程900在輸入方框902處開 始,在此處內(nèi)容分類模塊712接收原始多媒體數(shù)據(jù)和元數(shù)據(jù)。過程900接著前進(jìn)到方框 904,在此處內(nèi)容分類模塊712確定多媒體數(shù)據(jù)的空間信息和時(shí)間信息。在一些方面中, 通過空間和時(shí)間遮蔽(例如,濾波)來確定空間和時(shí)間信息。可基于包括場(chǎng)景變化數(shù)據(jù) 和運(yùn)動(dòng)向量(MV)平滑化的元數(shù)據(jù)來確定空間和時(shí)間信息。過程900接著前進(jìn)到方框 912,其執(zhí)行空間復(fù)雜性、時(shí)間復(fù)雜性和敏感度估計(jì)。過程900接著前進(jìn)到方框916,在 此處基于方框904和912中確定的空間、時(shí)間和敏感度數(shù)據(jù)的結(jié)果將多媒體數(shù)據(jù)的內(nèi)容 分類。而且在方框916處,可選擇特定速率-失真(R-D)曲線且/或可更新R-D曲線數(shù)據(jù)。 過程900接著前進(jìn)到輸出方框918,在此處輸出可包括指示空間和時(shí)間活動(dòng)性(例如, 內(nèi)容分類)的復(fù)雜性-失真映射或值,和/或所選擇的R-D曲線?;仡^參看圖7,內(nèi)容分類 模塊712將輸出提供到速率控制位分配模塊714、幀內(nèi)模型(失真)模塊716,且還提供 到I幀例示模塊708 (上文論述)。
內(nèi)容信息
內(nèi)容分類模塊712可經(jīng)配置以根據(jù)多媒體數(shù)據(jù)計(jì)算各種內(nèi)容信息,其中包括各種內(nèi) 容相關(guān)量度,包括空間復(fù)雜性、時(shí)間復(fù)雜性、反差比值、標(biāo)準(zhǔn)偏差和幀差異量度,下文 進(jìn)一步加以描述。
內(nèi)容分類模塊712可經(jīng)配置以確定多媒體數(shù)據(jù)的空間復(fù)雜性和時(shí)間復(fù)雜性,且還將紋理值與空間復(fù)雜性相關(guān)聯(lián)并將運(yùn)動(dòng)值與時(shí)間復(fù)雜性相關(guān)聯(lián)。內(nèi)容分類模塊712從預(yù)處 理器226接收與正被編碼的多媒體數(shù)據(jù)的內(nèi)容相關(guān)的預(yù)處理內(nèi)容信息,或者預(yù)處理器226 可經(jīng)配置以計(jì)算內(nèi)容信息。如上所述,內(nèi)容信息可包括(例如)一個(gè)或一個(gè)以上D^t值、 反差比值、運(yùn)動(dòng)向量(MV)和絕對(duì)差總和(SAD)。
一般來說,多媒體數(shù)據(jù)包括一個(gè)或一個(gè)以上圖像序列或幀。每一幀可分解成多個(gè)像 素塊以供處理??臻g復(fù)雜性是大體上描述幀內(nèi)的空間細(xì)節(jié)水平的測(cè)量的廣義術(shù)語。具有 主要為素色或不變或低變化的亮度和色度區(qū)域的場(chǎng)景將具有低空間復(fù)雜性??臻g復(fù)雜性 與視頻數(shù)據(jù)的紋理相關(guān)聯(lián)。在此方面中,空間復(fù)雜性基于稱為D^t的人類視覺敏感度量 度,其是作為局部空間頻率與環(huán)境照明的函數(shù)來針對(duì)每一塊計(jì)算的。 一般熟練技術(shù)人員 知道用于使用視覺圖像的空間頻率圖案和照明及對(duì)比特性來利用人類視覺系統(tǒng)的技術(shù)。 己知許多敏感度量度用于利用人類視覺系統(tǒng)的透視限制,且可與本文所描述的方法一起 使用。
時(shí)間復(fù)雜性是用于大體上描述如在幀序列中的幀之間所參考的多媒體數(shù)據(jù)中的運(yùn)動(dòng) 水平的測(cè)量的廣義術(shù)語。具有很少運(yùn)動(dòng)或沒有運(yùn)動(dòng)的場(chǎng)景(例如,視頻數(shù)據(jù)幀序列)具 有低時(shí)間復(fù)雜性??舍槍?duì)每一宏區(qū)塊且可基于D^t值、運(yùn)動(dòng)向量和一個(gè)幀與另一幀(例 如,參考幀)之間的絕對(duì)像素差異總和來計(jì)算時(shí)間復(fù)雜性。
通過考慮運(yùn)動(dòng)量(例如,運(yùn)動(dòng)向量或MV)連同表示為預(yù)測(cè)器與當(dāng)前宏區(qū)塊之間的 絕對(duì)差總和(SAD)的殘余能量,幀差異量度給出兩個(gè)連續(xù)幀之間的差異的測(cè)量。幀差 異還提供雙向或單向預(yù)測(cè)效率的測(cè)量。
基于從潛在執(zhí)行運(yùn)動(dòng)補(bǔ)償解交錯(cuò)的預(yù)處理器接收的運(yùn)動(dòng)信息的幀差異量度的一個(gè)實(shí) 例如下。解交錯(cuò)器執(zhí)行雙向運(yùn)動(dòng)估計(jì),且因此雙向運(yùn)動(dòng)向量和SAD信息可用??扇缦聦?dǎo) 出由SAD一MV表示的針對(duì)每一宏區(qū)塊的幀差異-
SAD—MV - 1og,。[SAD * exp(-min(l, MV))] [29]
其中MV=Square—root (MVx2+MVy2), SAD=min(SADN, SADP),其中SADn是從反向 參考幀計(jì)算的SAD,且SADp是從正向參考幀計(jì)算的SAD。
上文參考等式6到8描述了估計(jì)幀差異的另一方法。可如早先在以上等式6中描述 來計(jì)算SAD比(或?qū)Ρ榷?y。還可確定每個(gè)幀的亮度直方圖,直方圖差異人是使用 等式7來計(jì)算的??扇绲仁?中所示計(jì)算幀差異量度D。在一個(gè)示范性實(shí)例中,以下列方式利用反差比和幀差異量度以獲得視頻內(nèi)容分類, 視頻內(nèi)容分類能可靠地預(yù)測(cè)給定視頻序列中的特征。雖然本文描述為發(fā)生在編碼器228 中,但預(yù)處理器226還可經(jīng)配置以確定內(nèi)容分類(或其它內(nèi)容信息)且經(jīng)由元數(shù)據(jù)將內(nèi) 容分類傳遞到編碼器228。在以下實(shí)例中描述的過程將內(nèi)容分類成8個(gè)可能種類,這與 從基于R-D曲線的分析獲得的分類類似。依據(jù)每一超幀中的場(chǎng)景復(fù)雜性和場(chǎng)景變化發(fā)生 數(shù)目而定,分類過程針對(duì)每一超幀輸出在O與1之間的范圍內(nèi)的值。預(yù)處理器中的內(nèi)容 分類模塊可對(duì)每一超幀執(zhí)行下列步驟(1)到(5)以從幀對(duì)比值和幀差異值獲得內(nèi)容分 類量度。
1. 根據(jù)宏區(qū)塊對(duì)比值計(jì)算平均幀對(duì)比和幀對(duì)比偏差。
2. 使用從模擬獲得的值來標(biāo)準(zhǔn)化幀對(duì)比值和幀差異值,其分別為40和5。
3. 使用(例如)以下通用化等式來計(jì)算內(nèi)容分類量度
CCMetric=CCWl*I—Frame—Contrast—Mean+CCW2*Frame—Difference—Mean—CCW3*I —Contrast—DeviationA2*exp(CCW4*Frame—Difference—DeviationA2) [30]
其中CCW1、 CCW2、 CCW3和CCW4是加權(quán)因子。在此實(shí)例中,將所述值選擇為 CCW1為0.2, CCW2為0.9, CCW3為0.1,且CCW4為-0.00009。
4. 確定超幀中的場(chǎng)景變化數(shù)目。 一般來說,超幀是指可在特定時(shí)段中顯示的圖片或 幀組。通常,所述時(shí)段為l秒。在一些方面中,超幀包含30個(gè)幀(用于30/fps視頻)。 在其它方面中,超幀包含24個(gè)幀(24/fps視頻)。依據(jù)場(chǎng)景變化數(shù)目而定,可執(zhí)行下列 情況中的一者
(a) 沒有場(chǎng)景變化當(dāng)超幀中不存在場(chǎng)景變化時(shí),量度完全僅依賴于幀差異值,如 下列等式中所示-
CCMetric=(CCW2+(CCWl/2))*Frame_Difference—Mean-(CCW3-(CCWl/2))*l*exp(-C CW4*Frame—Difference—Deviation") [31 ]
(b) 單個(gè)場(chǎng)景變化當(dāng)超幀中觀察到單個(gè)場(chǎng)景變化時(shí),將使用默認(rèn)等式來計(jì)算量度, 如下所示
CCMetric=CCWl*I—Frame—Contrast—Mean+CCW2*Frame—Difference—Mean-CCW3*I— Contrast—DeviationA2*exp(CCW4*Frame—Difference—DeviationA2) [32〗(C)兩個(gè)場(chǎng)景變化當(dāng)觀察到在給定超幀中存在至多2個(gè)場(chǎng)景變化時(shí),與第一超幀 相比將更多權(quán)數(shù)給予最后超幀,因?yàn)榈谝怀瑤瑹o論如何會(huì)由稍后超幀快速刷新,如下列 等式中所示
CCMetric=0.1*I—Frame—Contrast一Meanl+CCW"I一Frame—Contrast—Mean2+(CCW2-0. l)*Frame—Difference—Mean-CCW3*I—Contrast—DeviationlA2*I—Contrast—Deviation2A2*exp( CCW4*Frame—Difference—Deviation") [33]
(d)三個(gè)或三個(gè)以上場(chǎng)景變化如果觀察到給定超幀具有3個(gè)以上(比如N個(gè))I 幀,那么給予最后I幀較多權(quán)數(shù)且給予所有其它I幀為0.05的權(quán)數(shù),如下列等式中所示
CCMetric=0.05*I—Frame—Contrast_Mean(i....N-i)+CCWl*I—Frame—Contrast一Mean(N)+(C CW2-(0.05*(N-l)))*Frame—Difference—Mean-CCW3*I—Contrast_Deviation(N)A2*I—Contrast_ Deviation(1....N-i)A2*exp(CCW4*Frame—Difference—DeviationA2) [34]
5.在幀差異平均值小于0.05時(shí)的低運(yùn)動(dòng)場(chǎng)景的情況下,可對(duì)量度進(jìn)行校正。將0.33 的偏移(CCOFFSET)添加到CCMetric。
內(nèi)容分類模塊712使用D^t值、運(yùn)動(dòng)向量和/或絕對(duì)差總和來確定指示宏區(qū)塊的空間 復(fù)雜性的值(或視頻數(shù)據(jù)的指定量)。時(shí)間復(fù)雜性是由幀差異量度(考慮運(yùn)動(dòng)量連同運(yùn)動(dòng) 向量的兩個(gè)連續(xù)幀之間的差異,和所述幀之間的絕對(duì)差總和)的測(cè)量決策的。
在一些方面中,內(nèi)容分類模塊712可經(jīng)配置以產(chǎn)生帶寬映射。舉例來說,如果預(yù)處 理器226不產(chǎn)生帶寬映射,那么帶寬映射產(chǎn)生可由內(nèi)容分類模塊712執(zhí)行。
確定紋理值和運(yùn)動(dòng)值
對(duì)于多媒體數(shù)據(jù)中的每一宏區(qū)塊,內(nèi)容分類模塊712將紋理值與空間復(fù)雜性相關(guān)聯(lián) 且將運(yùn)動(dòng)值與時(shí)間復(fù)雜性相關(guān)聯(lián)。紋理值與多媒體數(shù)據(jù)的亮度值有關(guān),其中低紋理值指 示數(shù)據(jù)的相鄰像素的亮度值中的較小變化,且高紋理值指示數(shù)據(jù)的相鄰像素的亮度值中 的較大變化。 一旦計(jì)算出紋理值和運(yùn)動(dòng)值,內(nèi)容分類模塊712便通過考慮運(yùn)動(dòng)信息和紋 理信息兩者來確定內(nèi)容分類。內(nèi)容分類模塊712將正被分類的視頻數(shù)據(jù)的紋理與相對(duì)紋 理值(例如,"低"紋理、"中"紋理或"高"紋理)相關(guān)聯(lián),相對(duì)紋理值大體上指示宏 區(qū)塊的亮度值的復(fù)雜性。而且,內(nèi)容分類模塊712將為正被分類的視頻數(shù)據(jù)計(jì)算的運(yùn)動(dòng) 值與相對(duì)運(yùn)動(dòng)值(例如,"低"運(yùn)動(dòng)、"中"運(yùn)動(dòng)或"高"運(yùn)動(dòng))相關(guān)聯(lián),相對(duì)運(yùn)動(dòng)值大體上指示宏區(qū)塊的運(yùn)動(dòng)量。在替代方面中,可使用用于運(yùn)動(dòng)和紋理的更少或更多種類。 接著,通過考慮相關(guān)聯(lián)的紋理值和運(yùn)動(dòng)值來確定內(nèi)容分類量度。
圖8說明分類圖表的實(shí)例,所述分類圖表說明紋理值和運(yùn)動(dòng)值如何與內(nèi)容分類相關(guān) 聯(lián)。所屬領(lǐng)域的技術(shù)人員熟悉用以實(shí)施此分類圖表的許多方式(例如,以査找表或數(shù)據(jù) 庫(kù)形式)。分類圖表是基于視頻數(shù)據(jù)內(nèi)容的預(yù)定評(píng)估來產(chǎn)生的。為了確定視頻數(shù)據(jù)分類, 交叉參考"低"、"中"或"高"紋理值(在"x軸"上)與"低"、"中"或"高"運(yùn)動(dòng) 值(在"y軸"上)。將相交塊中指示的內(nèi)容分類指派給視頻數(shù)據(jù)。舉例來說,"高"紋 理值與"中"運(yùn)動(dòng)值導(dǎo)致分類七(7)。圖8說明在此實(shí)例中與8個(gè)不同內(nèi)容分類相關(guān)聯(lián) 的相對(duì)紋理值與運(yùn)動(dòng)值的各種組合。在其它一些方面中,可使用更多或更少的分類。在 2006年3月10日申請(qǐng)的題為"用于多媒體處理的內(nèi)容分類(CONTENT CLASSIFICATION FOR MULTIMEDIA PROCESSING)"且轉(zhuǎn)讓給本受讓人的共同待決的第U/373,577號(hào)美 國(guó)專利申請(qǐng)案中揭示了對(duì)內(nèi)容分類的說明性方面的進(jìn)一步描述,所述申請(qǐng)案明確地以引 用的方式并入本文中。
速率控制位分配
如本文所描述,多媒體數(shù)據(jù)內(nèi)容分類可用于編碼算法以在維持視頻的恒定感知質(zhì)量 的同時(shí)有效地改進(jìn)位管理。舉例來說,可在用于場(chǎng)景變化檢測(cè)、編碼位速率分配控制和 幀速率向上變換(FRUC)的算法中使用分類量度。壓縮器/解壓縮器(編解碼器)系統(tǒng) 和數(shù)字信號(hào)處理算法通常用于視頻數(shù)據(jù)通信中,且可經(jīng)配置以節(jié)省帶寬,但在質(zhì)量與帶 寬節(jié)省之間存在折衷。最佳編解碼器在產(chǎn)生視頻質(zhì)量的最小降級(jí)的同時(shí)提供最大的帶寬 節(jié)省。
在一個(gè)說明性實(shí)例中,速率控制位分配模塊714使用內(nèi)容分類來確定位速率(例如, 分配用于編碼多媒體數(shù)據(jù)的位數(shù)目)且將位速率存儲(chǔ)到存儲(chǔ)器中以供編碼器228的其它 過程和組件使用。根據(jù)視頻數(shù)據(jù)的分類確定的位速率可幫助在以一致質(zhì)量等級(jí)提供多媒 體數(shù)據(jù)的同時(shí)節(jié)省帶寬。在一個(gè)方面中,可將不同的位速率與所述8個(gè)不同的內(nèi)容分類 中的每一者相關(guān)聯(lián)且接著使用所述位速率來編碼多媒體數(shù)據(jù)。所得效應(yīng)在于,雖然多媒 體數(shù)據(jù)的不同內(nèi)容分類被分配不同數(shù)目的位以進(jìn)行編碼,但當(dāng)在顯示器上觀看時(shí)感知質(zhì) 量類似或一致。
一般來說,具有較高內(nèi)容分類的多媒體數(shù)據(jù)指示較高運(yùn)動(dòng)和/或紋理水平且在編碼時(shí) 被分配較多位。具有較低分類的多媒體數(shù)據(jù)(指示較少紋理和運(yùn)動(dòng))被分配較少位。對(duì) 于特定內(nèi)容分類的多媒體數(shù)據(jù)來說,可基于為觀看多媒體數(shù)據(jù)而選定的目標(biāo)感知質(zhì)量等級(jí)來確定位速率??赏ㄟ^人類觀看多媒體數(shù)據(jù)并對(duì)其評(píng)級(jí)來確定對(duì)多媒體數(shù)據(jù)質(zhì)量的確 定。在一些替代方面中,可通過自動(dòng)測(cè)試系統(tǒng)使用(例如)信噪比算法來估計(jì)多媒體數(shù) 據(jù)質(zhì)量。在一個(gè)方面中,針對(duì)每一內(nèi)容分類的多媒體數(shù)據(jù)預(yù)定一組標(biāo)準(zhǔn)質(zhì)量等級(jí)(例如, 5個(gè))和實(shí)現(xiàn)每一特定質(zhì)量等級(jí)需要的相應(yīng)位速率。為了確定一組質(zhì)量等級(jí),可通過產(chǎn) 生平均意見分?jǐn)?shù)(MOS)來評(píng)估特定內(nèi)容分類的多媒體數(shù)據(jù),平均意見分?jǐn)?shù)(MOS)在 使用某位速率編碼多媒體數(shù)據(jù)時(shí)提供對(duì)所述多媒體數(shù)據(jù)的視覺感知質(zhì)量的數(shù)字指示。 MOS可表述為在1到5范圍內(nèi)的單個(gè)數(shù)字,其中l(wèi)是最低感知質(zhì)量,且5是最高感知質(zhì) 量。在其它方面中,MOS可具有5個(gè)以上或5個(gè)以下質(zhì)量等級(jí),且可使用每一質(zhì)量等級(jí) 的不同描述。
可通過人類觀看多媒體數(shù)據(jù)并對(duì)其評(píng)級(jí)來確定對(duì)多媒體數(shù)據(jù)質(zhì)量的確定。在一些替 代方面中,可通過自動(dòng)測(cè)試系統(tǒng)使用(例如)信噪比算法來估計(jì)多媒體數(shù)據(jù)質(zhì)量。在一 個(gè)方面中,針對(duì)每一內(nèi)容分類的多媒體數(shù)據(jù)來預(yù)定一組標(biāo)準(zhǔn)質(zhì)量等級(jí)(例如,5個(gè))和 實(shí)現(xiàn)每一特定質(zhì)量等級(jí)需要的相應(yīng)位速率。
可通過選擇目標(biāo)(例如,所需)質(zhì)量等級(jí)來確定對(duì)特定內(nèi)容分類的多媒體數(shù)據(jù)的視 覺感知質(zhì)量等級(jí)與位速率之間的關(guān)系的了解。用于確定位速率的目標(biāo)質(zhì)量等級(jí)可預(yù)先選 擇,由用戶選擇,通過自動(dòng)過程或需要來自用戶或來自另一過程的輸入的半自動(dòng)過程來 選擇,或通過編碼裝置或系統(tǒng)基于預(yù)定標(biāo)準(zhǔn)來動(dòng)態(tài)選擇。可基于(例如)編碼應(yīng)用程序 的類型或?qū)⒔邮斩嗝襟w數(shù)據(jù)的客戶端裝置的類型來選擇目標(biāo)質(zhì)量等級(jí)。
在圖7中所說明的實(shí)例中,速率控制位分配模塊714接收來自內(nèi)容分類模塊712的 數(shù)據(jù)和直接來自預(yù)處理器226的元數(shù)據(jù)兩者。速率控制位分配模塊714駐留在編碼器228 的第一遍部分中,且速率控制微調(diào)模塊738駐留在第二遍部分706中。此兩遍速率控制 方面經(jīng)配置以使得第一遍(速率控制位分配模塊714)通過預(yù)看一個(gè)超幀來執(zhí)行上下文 適應(yīng)性位分配(例如,以256 kbps的長(zhǎng)期平均位速率為目標(biāo))并限制峰值速率,且第二 遍(速率控制微調(diào)模塊738)改進(jìn)第一遍結(jié)果以獲得兩層可縮放性并執(zhí)行速率調(diào)適。速 率控制以四個(gè)等級(jí)進(jìn)行操作(1) GOP等級(jí)一一控制I幀、P幀、B幀和F幀的位分布 在GOP內(nèi)不均勻;(2)超幀等級(jí)——控制對(duì)最大超幀大小的硬性限制;(3)幀等級(jí)一一 根據(jù)多媒體數(shù)據(jù)幀的空間和時(shí)間復(fù)雜性來控制位要求,空間和時(shí)間復(fù)雜性是基于內(nèi)容信 息(例如,內(nèi)容分類);和(4)宏區(qū)塊等級(jí)——基于空間和時(shí)間復(fù)雜性映射來控制宏區(qū) 塊的位分配,空間和時(shí)間復(fù)雜性映射是基于內(nèi)容信息(例如,內(nèi)容分類)。
圖10中說明速率控制模塊714的操作的示范性流程圖。如圖10中所示,過程IOOO在輸入1002方框處開始。速率控制模塊7I4接收各種輸入,不是所有所述輸入都必須由 圖7加以說明。舉例來說,輸入信息可包括來自預(yù)處理器226的元數(shù)據(jù)、目標(biāo)位速率、 編碼器緩沖器大小(或作為等效物,用于速率控制的最大延遲時(shí)間)、初始速率控制延遲 和幀速率信息。另外的輸入信息可包括圖片組(GOP)等級(jí)的輸入,其中包括(例如) 最大超幀大小、GOP的長(zhǎng)度和P/B幀分布(包括場(chǎng)景變化信息)、所需的基礎(chǔ)層和增強(qiáng)層 排列、GOP中用于未來30個(gè)幀的圖片的復(fù)雜性-失真量度。其它輸入信息包括圖片等級(jí) 的輸入,其中包括針對(duì)當(dāng)前圖片的復(fù)雜性-失真映射(從內(nèi)容分類模塊712接收)、量化 參數(shù)(QP)和過去30個(gè)幀的位分解(套在滑動(dòng)時(shí)窗上)。最后,宏區(qū)塊(MB)等級(jí)的 輸入信息包括(例如)參考圖片中的并置宏區(qū)塊(MB)的平均絕對(duì)差(MAD)和宏區(qū) 塊在量化之后(無論是否跳過)的編碼塊圖案(CBP)。
在方框1002處輸入之后,過程1000前進(jìn)到方框1004以進(jìn)行對(duì)編碼位流的初始化。 同時(shí),執(zhí)行緩沖器初始化1006。接下來,如方框1008中所示對(duì)GOP初始化,其中接收 GOP位分配1010作為初始化的一部分。在GOP初始化之后,流程前進(jìn)到方框1012,其 中對(duì)切片初始化。此初始化包括如方框1014所示的更新標(biāo)頭位。在執(zhí)行方框1004、 1008 和1012的初始化之后,如方框1016所示執(zhí)行針對(duì)基本單元或宏區(qū)塊(MB)的速率控制 (RC)。作為方框1016中的宏區(qū)塊的速率控制確定的一部分,經(jīng)由編碼器228中的界面 接收輸入。這些輸入可包括宏區(qū)塊(MB)位分配1018、 二次式模型參數(shù)的更新1020和 偏離中值的中值絕對(duì)偏差("MAD",穩(wěn)健離散估計(jì))參數(shù)的更新1022。接下來,過程 IOOO前進(jìn)到方框1024以在編碼一個(gè)圖片之后執(zhí)行操作1024。此程序包括接收如方框1026 所示的緩沖器參數(shù)的更新。過程1000接著前進(jìn)到輸出方框1028,在此處速率控制模塊 714輸出待由如圖7所示的模式?jīng)Q策模塊715使用的每一宏區(qū)塊MB的量化參數(shù)QP。
運(yùn)動(dòng)估計(jì)
運(yùn)動(dòng)估計(jì)模塊720接收來自預(yù)處理器226的元數(shù)據(jù)和原始視頻的輸入,且將可包括 塊大小、運(yùn)動(dòng)向量失真量度和參考幀識(shí)別符的輸出提供到模式?jīng)Q策模塊715。圖ll說明 運(yùn)動(dòng)估計(jì)模塊720的示范性操作。如圖所示,過程1100以輸入1102開始。在幀等級(jí)處, 模塊720接收參考幀ID和運(yùn)動(dòng)向量的輸入。在宏區(qū)塊等級(jí)處,輸入1102包括輸入像素 和參考幀像素。過程1100繼續(xù)到步驟1104,其中執(zhí)行顏色運(yùn)動(dòng)估計(jì)(ME)和運(yùn)動(dòng)向量 預(yù)測(cè)。為了執(zhí)行此過程,接收各種輸入,其中包括MPEG-2運(yùn)動(dòng)向量和亮度運(yùn)動(dòng)向量MV 1106、運(yùn)動(dòng)向量平滑化1108和非因果運(yùn)動(dòng)向量1110。接下來,過程IIOO前進(jìn)到方框1112, 在此處執(zhí)行運(yùn)動(dòng)向量搜索算法或方法,例如六邊形或菱形搜索方法。到方框1112處的過程的輸入可包括如方框1N4所示的絕對(duì)差總和(SAD)、平方差總和(SSD)和/或其它 量度。 一旦執(zhí)行了運(yùn)動(dòng)向量搜索,過程1100便前進(jìn)到終止方框1116,在此處執(zhí)行終止處 理。過程1100接著在輸出方框1118處結(jié)束,所述輸出方框1118產(chǎn)生塊大小、運(yùn)動(dòng)向量 (MV)、失真量度和參考幀識(shí)別符的輸出。 基礎(chǔ)層和增強(qiáng)層的可縮放性R-D
圖13說明可由可縮放性R-D模塊718執(zhí)行的可縮放性過程300的示范性流程圖。 過程1300在開始方框1302處開始且前進(jìn)到方框1304,在此處可縮放性R-D模塊718接 收來自運(yùn)動(dòng)估計(jì)模塊720的輸入且執(zhí)行運(yùn)動(dòng)估計(jì)。運(yùn)動(dòng)估計(jì)依賴于如方框1306指示的基 礎(chǔ)層參考幀、增強(qiáng)層參考幀和待編碼初始幀的輸入。此信息可由GOP分割器612計(jì)算且 經(jīng)由(例如)元數(shù)據(jù)傳達(dá)到可縮放性R-D模塊718。過程1300前進(jìn)到方框1308以確定 數(shù)據(jù)基礎(chǔ)層和增強(qiáng)層數(shù)據(jù)的可縮放性信息。接下來如方框1310中所示執(zhí)行基礎(chǔ)層編碼, 隨后在方框1312中執(zhí)行增強(qiáng)層編碼。增強(qiáng)層的編碼可使用針對(duì)層間預(yù)測(cè)的基礎(chǔ)層編碼結(jié) 果作為輸入(如方框1314所說明),因此在時(shí)間上,其在基礎(chǔ)層編碼之后執(zhí)行。這在題 為"具有兩層編碼和單層解碼的可縮放視頻編碼(SCALABLE VIDEO CODING WITH TWO LAYER ENCODING AND SINGLE LAYER DECODING)"的共同待決的第[代理人 案號(hào)/參考號(hào)050078]號(hào)美國(guó)專利申請(qǐng)案中進(jìn)一步加以描述。在完成編碼之后,過程1300 在方框1316處結(jié)束。
切片/宏區(qū)塊定序
第一遍部分702還包括切片/宏區(qū)塊定序模塊722,其接收來自第二遍部分中的錯(cuò)誤 復(fù)原模塊740的輸入且將切片對(duì)準(zhǔn)信息提供到模式?jīng)Q策模塊715。切片是可獨(dú)立解碼(熵 解碼)的經(jīng)編碼視頻數(shù)據(jù)的塊體。存取單元(AU)是經(jīng)編碼視頻幀,其每一者包含一組 NAL單元,所述一組NAL單元總是含有正好一個(gè)主要編碼圖片。除了所述主要編碼圖 片以外,存取單元還可含有一個(gè)或一個(gè)以上冗余編碼圖片或不含有編碼圖片的切片或切 片數(shù)據(jù)分區(qū)的其它NAL單元。存取單元的解碼總是產(chǎn)生解碼圖片。
幀可以是提供最高時(shí)間分集的物理層包的時(shí)分多路復(fù)用塊(稱為TDM封裝)。超幀 對(duì)應(yīng)于一個(gè)單位時(shí)間(例如,1 sec)且含有四個(gè)幀。在時(shí)域中將切片和AU邊界對(duì)準(zhǔn)幀 邊界產(chǎn)生對(duì)被破壞數(shù)據(jù)的最有效分離和定位。在強(qiáng)衰減期間,TDM封裝中的大多數(shù)連續(xù) 數(shù)據(jù)受錯(cuò)誤影響。由于時(shí)間分集的緣故,剩余TDM封裝有很大可能是完整無損的。可利 用未被破壞的數(shù)據(jù)來復(fù)原和隱藏來自受影響的TDM封裝的丟失數(shù)據(jù)。類似邏輯適用于頻 域多路復(fù)用(FDM),其中通過數(shù)據(jù)符號(hào)調(diào)制的頻率子載波的分離來獲得頻率分集。此外,類似邏輯適用于空間分集(通過傳輸器與接收器天線的分離)和無線網(wǎng)絡(luò)中通常應(yīng)用的 其它形式的分集。
為了將切片和AU與幀對(duì)準(zhǔn),外部碼(FEC)碼塊創(chuàng)建與MAC層包封同樣應(yīng)對(duì)準(zhǔn)。 圖20說明切片和AU中的編碼視頻數(shù)據(jù)或視頻位流的組織。編碼視頻可以一個(gè)或一個(gè)以 上位流(例如,應(yīng)用分層視頻編碼的基礎(chǔ)層位流和增強(qiáng)層位流)構(gòu)成。
視頻位流包含如圖20中由幀1'2005、幀3'2010和幀M'2015說明的AU。 AU包含 數(shù)據(jù)切片,如由切片l 2020、切片2 2025和切片N 2030所說明。切片的每一開始由開 始碼識(shí)別且提供用于網(wǎng)絡(luò)適應(yīng)。 一般來說,I幀或幀內(nèi)編碼AU較大,接著是P幀或正向 預(yù)測(cè)幀,接著是B幀。將AU編碼為多個(gè)切片使得在編碼位速率方面引起相當(dāng)大的額外 開銷成本,因?yàn)榍衅系目臻g預(yù)測(cè)受到限制且切片標(biāo)頭還作用于額外開銷。因?yàn)榍衅?界是再同步點(diǎn),所以將連續(xù)物理層包限制到切片控制錯(cuò)誤,這是由于當(dāng)PLP受到破壞時(shí), 錯(cuò)誤限于所述PLP中的切片,而如果PLP含有多個(gè)切片或多個(gè)切片的部分,那么錯(cuò)誤將 影響所述PLP中的所有切片或切片部分。
由于I幀通常較大(例如,大約幾十千位),因而由于多個(gè)切片引起的額外開銷占總 I幀大小或總位速率的比例不大。而且,在幀內(nèi)編碼AU中具有較多切片實(shí)現(xiàn)更好且更頻 繁的再同步和更有效的空間錯(cuò)誤隱藏。而且,由于P幀和B幀是從I幀預(yù)測(cè)的,因而I
幀攜載視頻位流中最重要的信息。I幀還充當(dāng)用于信道獲取的隨機(jī)存取點(diǎn)。
現(xiàn)在參看圖21,仔細(xì)地將I幀與幀邊界對(duì)準(zhǔn)且同樣將具有IAU的切片與幀邊界對(duì)準(zhǔn) 實(shí)現(xiàn)最有效的錯(cuò)誤控制、錯(cuò)誤保護(hù)(這是由于如果屬于幀1 2105的一個(gè)切片丟失,那么 屬于幀2 2110的切片很有可能是完整無損的,因?yàn)閹? 2110與幀1 2105具有明顯時(shí)間分 離),可通過再同步和錯(cuò)誤隱藏來執(zhí)行錯(cuò)誤恢復(fù)。
因?yàn)镻幀的大小通常為大約幾千位,所以將P幀的切片和整數(shù)個(gè)P幀與幀邊界對(duì)準(zhǔn) 實(shí)現(xiàn)錯(cuò)誤復(fù)原而不會(huì)對(duì)效率產(chǎn)生有害損失(出于與I幀的原因類似的原因)。在此些方面 中可利用時(shí)間錯(cuò)誤隱藏?;蛘?,分散連續(xù)P幀以使得其到達(dá)不同幀中可在P幀間提供增 加的時(shí)間分集,這可能是因?yàn)闀r(shí)間隱藏是基于來自先前重建的I幀或P幀的運(yùn)動(dòng)向量和 數(shù)據(jù)。B幀可以非常小(幾百位)到適度大(幾千位)。因此,需要將整數(shù)個(gè)B幀與幀邊 界對(duì)準(zhǔn)以實(shí)現(xiàn)錯(cuò)誤復(fù)原而不會(huì)對(duì)效率產(chǎn)生有害損失。 模式?jīng)Q策模塊
圖12說明模式?jīng)Q策模塊715的操作的一些實(shí)例。如圖所示,過程1200在輸入方框 1202處開始。在一個(gè)說明性實(shí)例中,輸入到模式?jīng)Q策模塊715的各種信息包括切片類型、幀內(nèi)4x4成本、幀內(nèi)16x16成本、幀內(nèi)UV 8x8成本、幀內(nèi)Y 16x16模式、幀內(nèi)UV模 式、運(yùn)動(dòng)向量數(shù)據(jù)(MVD)、量化參數(shù)(QP)、 SpPredMB4x4Y、 SpPredMB16xl6Y、 SpPredMB8x8U、 SpPredMB8x8V、速率失真旗標(biāo)、原始YMB像素、原始UMB像素和 原始VMB像素。接著,過程1200前進(jìn)到方框1204編碼初始化,其可通過指導(dǎo)如方框 1206所指示的編碼器初始化的輸入信號(hào)或界面來起始。初始化可包括設(shè)定允許模式(包 括跳過、直接)、設(shè)定模式權(quán)數(shù)(如果需要的話,默認(rèn)值將對(duì)于所有模式均為相等權(quán)數(shù)) 和設(shè)定緩沖器。在初始化之后,過程1200前進(jìn)到方框1208,在此處執(zhí)行用于模式?jīng)Q策 的主要處理,包括計(jì)算用于每一允許模式的宏區(qū)塊(MB)模式成本、用加權(quán)因子加權(quán) 每一MB模式成本和選擇最小MB模式成本模式。這些操作所涉及的輸入包括如方框1210 和1212所說明的運(yùn)動(dòng)估計(jì)(例如,MVD和預(yù)測(cè))和空間預(yù)測(cè)(例如,所有幀內(nèi)成本和 預(yù)測(cè))。與模式?jīng)Q策模塊715介接的是方框1214中的熵編碼,其尤其改進(jìn)壓縮速率。過 程1200前進(jìn)到方框1216,在此處緩沖器經(jīng)更新以將信息傳遞到編碼器第二遍部分706。 最后,過程1200前進(jìn)到方框1218,在此處可將"最佳"編碼模式傳達(dá)到編碼器第二遍 部分706。
編碼器第二遍部分
再次參看圖7,編碼器228的第二遍部分706包括用于執(zhí)行第二遍編碼的第二遍編 碼器模塊232。第二遍編碼器232接收來自模式?jīng)Q策模塊715的輸出。第二遍編碼器232 包括MC/變換量化模塊726和Z字形(ZZ) /熵編碼器728。第二遍編碼器232的結(jié)果被 輸出到可縮放性模塊730和位流包裝模塊731,位流包裝模塊731輸出經(jīng)編碼基礎(chǔ)層和 增強(qiáng)層以供通過轉(zhuǎn)碼器200經(jīng)由同步層240進(jìn)行傳輸(圖2中說明)。如圖2中所示,請(qǐng) 注意來自第二遍編碼器232和再編碼器234的基礎(chǔ)層和增強(qiáng)層由同步層240匯集為包括 基礎(chǔ)層和增強(qiáng)層的分包PES 242、數(shù)據(jù)PES 244 (例如,CC和其它文本數(shù)據(jù))和音頻PES 246。請(qǐng)注意,音頻編碼器236接收經(jīng)解碼音頻信息218,且又編碼所述信息并將經(jīng)編碼 信息238輸出到同步層240。
再編碼器
再次參看圖7,編碼器第二遍部分706還包括再編碼器234,其對(duì)應(yīng)于圖2中的再編 碼器234。再編碼器234還接收第一遍部分702的輸出且包括MC/變換量化726和ZZ/ 熵編碼728部分。另外,可縮放性模塊730輸出到再編碼器234。再編碼器234將來自 重編碼的所得基礎(chǔ)層和增強(qiáng)層輸出到位流包裝模塊731以供傳輸?shù)酵狡?例如,圖2 中所示的同步層240)。圖7中的編碼器228實(shí)例還包括速率控制微調(diào)模塊738,其將位流包裝反饋提供到第二遍編碼器232中的MC/變換量化模塊234和再編碼器234中的ZZ/ 熵模塊736兩者,以幫助調(diào)整第二遍編碼(例如,以增加壓縮效率)。 錯(cuò)誤復(fù)原模塊
圖7中所說明的編碼器228實(shí)例還包括第二遍部分706中的錯(cuò)誤復(fù)原模塊740。錯(cuò) 誤復(fù)原模塊740與位流包裝模塊731和切片/MB定序模塊722通信。錯(cuò)誤復(fù)原模塊740 接收來自預(yù)處理器228的元數(shù)據(jù),且選擇錯(cuò)誤復(fù)原方案,例如將切片和存取單元與幀邊 界對(duì)準(zhǔn)、預(yù)測(cè)性分級(jí)結(jié)構(gòu)和適用性幀內(nèi)刷新??苫谠谠獢?shù)據(jù)中接收的信息或根據(jù)從位 流包裝模塊731和切片/MB定序模塊722傳達(dá)到錯(cuò)誤復(fù)原模塊的信息來選擇錯(cuò)誤復(fù)原方 案。錯(cuò)誤復(fù)原模塊740將信息提供到第一遍部分702中的切片/宏區(qū)塊(MB)定序模塊 以實(shí)施選定的錯(cuò)誤復(fù)原過程。易出錯(cuò)環(huán)境中的視頻傳輸可采用錯(cuò)誤復(fù)原策略和算法,其 可導(dǎo)致向觀看用戶展現(xiàn)更清楚且較少錯(cuò)誤填充的數(shù)據(jù)。以下錯(cuò)誤復(fù)原描述可應(yīng)用于現(xiàn)有 或未來應(yīng)用、傳送和物理層或其它技術(shù)的任何個(gè)體或組合。有效的抗錯(cuò)性算法集成OSI 層間的錯(cuò)誤易感特性和錯(cuò)誤保護(hù)能力連同通信系統(tǒng)的所需特性(例如低等待時(shí)間和高處 理量)的理解。錯(cuò)誤復(fù)原處理可基于多媒體數(shù)據(jù)的內(nèi)容信息(例如,基于多媒體數(shù)據(jù)的 內(nèi)容分類)。主要優(yōu)點(diǎn)之一是從衰減和多路徑信道錯(cuò)誤的可復(fù)原性。下文描述的錯(cuò)誤復(fù)原 方法具體關(guān)于可并入在編碼器228中(例如,明確地說,在錯(cuò)誤復(fù)原模塊740和切片/MB 定序模塊722中)的過程,且通??裳由斓揭壮鲥e(cuò)環(huán)境中的數(shù)據(jù)通信。
錯(cuò)誤復(fù)原
對(duì)于基于預(yù)測(cè)的混合壓縮系統(tǒng)來說,在沒有進(jìn)行任何時(shí)間預(yù)測(cè)的情況下獨(dú)立編碼幀 內(nèi)編碼幀。可在時(shí)間上從過去幀(P幀)和未來幀(B幀)預(yù)測(cè)幀間編碼幀??赏ㄟ^搜索 過程在參考幀(一個(gè)或一個(gè)以上)中識(shí)別最佳預(yù)測(cè)者,且使用例如SAD等失真量度來識(shí) 別最佳匹配。當(dāng)前幀的預(yù)測(cè)編碼區(qū)可以是具有各種大小和形狀(16x16、 32x32、 8x4等) 的塊或通過(例如)分段來識(shí)別為對(duì)象的像素組。
時(shí)間預(yù)測(cè)通常在許多幀(例如,IO到幾十個(gè)幀)上延伸且在將幀編碼為I幀時(shí)終止, GOP通常由I幀頻率定義。對(duì)于最大編碼頻率,GOP為場(chǎng)景,舉例來說,GOP邊界與場(chǎng) 景邊界對(duì)準(zhǔn)且場(chǎng)景變化幀被編碼為I幀。在低運(yùn)動(dòng)序列中包含相對(duì)靜態(tài)的背景,且運(yùn)動(dòng) 通常限制于前景對(duì)象。此些低運(yùn)動(dòng)序列的內(nèi)容的實(shí)例包括新聞和天氣預(yù)報(bào)節(jié)目,其中觀 看最多的內(nèi)容的30%以上具有此性質(zhì)。在低運(yùn)動(dòng)序列中,大多數(shù)區(qū)被幀間編碼,且預(yù)測(cè) 幀通過中間預(yù)測(cè)幀來回頭參考I幀。
參看圖22,I幀中的幀內(nèi)編碼塊2205是用于編碼幀(或AU)P1中的幀間編碼塊2210的預(yù)測(cè)者。在此實(shí)例中,具有這些塊的區(qū)是背景的靜止部分。通過連續(xù)的時(shí)間預(yù)測(cè),幀 內(nèi)編碼塊2205對(duì)錯(cuò)誤的敏感度上升,因?yàn)槠涫沁€暗示其"重要性"較高的"良好"預(yù)測(cè) 者。另外,幀內(nèi)編碼塊2205由于稱為預(yù)測(cè)鏈的此時(shí)間預(yù)測(cè)鏈而在顯示器中存留時(shí)間較長(zhǎng) (在所述圖式的實(shí)例中持續(xù)場(chǎng)景的持續(xù)時(shí)間)。
預(yù)測(cè)分級(jí)結(jié)構(gòu)被定義為基于此重要性水平或存留時(shí)間測(cè)量而創(chuàng)建的塊樹,其中母代 位于頂部(幀內(nèi)編碼塊2205)且子代位于底部。請(qǐng)注意,Pl中的幀間編碼塊2215處于 分級(jí)結(jié)構(gòu)的第二級(jí)別上,依此類推。葉子是終止預(yù)測(cè)鏈的塊。
可為視頻序列創(chuàng)建預(yù)測(cè)分級(jí)結(jié)構(gòu)而不管內(nèi)容類型(例如以及音樂和體育而并非僅為 新聞)如何,且其通??蓱?yīng)用于基于預(yù)測(cè)的視頻(和數(shù)據(jù))壓縮(這適用于本申請(qǐng)案中 描述的所有發(fā)明)。 一旦建立預(yù)測(cè)分級(jí)結(jié)構(gòu),便可更有效地應(yīng)用例如適應(yīng)性幀內(nèi)刷新(下 文描述)等錯(cuò)誤復(fù)原算法。重要性測(cè)量可基于給定塊從錯(cuò)誤的可復(fù)原性,例如通過隱藏 操作和應(yīng)用適應(yīng)性幀內(nèi)刷新以增強(qiáng)編碼位流對(duì)錯(cuò)誤的彈性。重要性測(cè)量的估計(jì)可基于塊 用作預(yù)測(cè)者的次數(shù)(還稱為存留時(shí)間量度)。存留時(shí)間量度還用于通過阻止預(yù)測(cè)錯(cuò)誤傳播 來改進(jìn)編碼效率。所述存留時(shí)間量度還增加用于具有更高重要性的塊的位分配。
適應(yīng)性幀內(nèi)刷新
適應(yīng)性幀內(nèi)刷新是可基于多媒體數(shù)據(jù)的內(nèi)容信息的錯(cuò)誤復(fù)原技術(shù)。即使標(biāo)準(zhǔn)R-D優(yōu) 化將指示MB應(yīng)是幀間編碼MB,但在幀內(nèi)刷新過程中, 一些MB被幀內(nèi)編碼。AIR采 用運(yùn)動(dòng)加權(quán)幀內(nèi)刷新以在P幀或B幀中引入幀內(nèi)編碼MB。可用QPb或QPe編碼這些幀 內(nèi)編碼MB (其包含在基礎(chǔ)層中)。如果QPe用于基礎(chǔ)層,那么在增強(qiáng)層處不需要進(jìn)行改 進(jìn)。如果QPb用于基礎(chǔ)層,那么改進(jìn)可能是適當(dāng)?shù)?,否則在增強(qiáng)層處,質(zhì)量下降將是明 顯的。由于在編碼效率的意義上幀間編碼比幀內(nèi)編碼更有效,因而在增強(qiáng)層處這些改進(jìn) 將被幀間編碼。以此方式,基礎(chǔ)層系數(shù)將不用于增強(qiáng)層,且在不引入新操作的情況下在 增強(qiáng)層處改進(jìn)質(zhì)量。
在一些方面中,適應(yīng)性幀內(nèi)刷新可基于多媒體數(shù)據(jù)的內(nèi)容信息(例如,內(nèi)容分類) 來代替或外加運(yùn)動(dòng)加權(quán)基礎(chǔ)。舉例來說,如果內(nèi)容分類相對(duì)較高(例如,具有高空間和 時(shí)間復(fù)雜性的場(chǎng)景),那么適應(yīng)性幀內(nèi)刷新可向P或B幀中引入相對(duì)較多的幀內(nèi)編碼MB 。 或者,如果內(nèi)容分類相對(duì)較低(指示具有低空間和/或時(shí)間復(fù)雜性的欠動(dòng)態(tài)場(chǎng)景),那么 適應(yīng)性幀內(nèi)刷新可在P或B幀中引入較少的幀內(nèi)編碼MB。此些用于改進(jìn)錯(cuò)誤復(fù)原的量 度和方法不僅可應(yīng)用于無線多媒體通信的情形中,而且通??舍槍?duì)數(shù)據(jù)壓縮和多媒體處 理(例如,在圖形再現(xiàn)中)。信道切換幀
本文定義的信道切換幀(CSF)是描述為了在廣播多路復(fù)用中實(shí)現(xiàn)快速信道獲取和 因此流之間的快速信道變化而在廣播流中的適當(dāng)位置處插入的隨機(jī)存取幀的廣義術(shù)語。 信道切換幀還增加抗錯(cuò)性,因?yàn)槠涮峁┰谥饕獛瑐鬏斁哂绣e(cuò)誤的情況下可使用的冗余數(shù) 據(jù)。I幀或循序I幀(例如H.264中的循序解碼器刷新幀)通常用作隨機(jī)存取點(diǎn)。然而, 頻繁的I幀(或短GOP,比場(chǎng)景持續(xù)時(shí)間短)導(dǎo)致壓縮效率顯著降低。因?yàn)閹瑑?nèi)編碼塊 可用于獲得錯(cuò)誤復(fù)原,所以可通過預(yù)測(cè)分級(jí)結(jié)構(gòu)有效組合隨機(jī)存取和錯(cuò)誤復(fù)原以在增加 抗錯(cuò)性的同時(shí)改進(jìn)編碼效率。
可共同實(shí)現(xiàn)隨機(jī)存取切換和抗錯(cuò)性的改進(jìn),且其可基于例如內(nèi)容分類等內(nèi)容信息。 對(duì)于低運(yùn)動(dòng)序列來說,預(yù)測(cè)鏈較長(zhǎng)且用以重建超幀或場(chǎng)景所需要的信息的重要部分包含 在場(chǎng)景開始處出現(xiàn)的I幀中。信道錯(cuò)誤往往是突發(fā)性的,并當(dāng)發(fā)生衰減且FEC和信道編 碼失敗時(shí),存在重大殘余誤差而使得隱藏失敗。對(duì)于低運(yùn)動(dòng)(且因此低位速率)序列來 說,由于編碼數(shù)據(jù)的數(shù)量不足以在視頻位流內(nèi)提供良好的時(shí)間分集,且因?yàn)檫@些序列是 再現(xiàn)有利于重建的每個(gè)位的高度壓縮序列,所以此現(xiàn)象尤其嚴(yán)重。歸因于內(nèi)容性質(zhì)一一 每個(gè)幀中的更多新信息增加了可獨(dú)立解碼且本質(zhì)上更具錯(cuò)誤復(fù)原的幀內(nèi)編碼塊的數(shù)目, 高運(yùn)動(dòng)序列具有更好的抗錯(cuò)性?;陬A(yù)測(cè)分級(jí)結(jié)構(gòu)的適應(yīng)性幀內(nèi)刷新針對(duì)高運(yùn)動(dòng)序列實(shí) 現(xiàn)高性能,且對(duì)于低運(yùn)動(dòng)序列來說性能改進(jìn)并不顯著。因此,含有大多數(shù)I幀的信道切 換幀是用于低運(yùn)動(dòng)序列的分集的良好來源。當(dāng)超幀發(fā)生錯(cuò)誤時(shí),連續(xù)幀中的解碼從CSF 開始,CSF由于預(yù)測(cè)而復(fù)原丟失信息且實(shí)現(xiàn)錯(cuò)誤復(fù)原。
在高運(yùn)動(dòng)序列(例如具有相對(duì)較高內(nèi)容分類(例如,6到8)的序列)的情況下,CSF 可由存留在SF中的塊組成——那些塊是良好預(yù)測(cè)者。不必編碼CSF的所有其它區(qū),因 為這些塊是具有短預(yù)測(cè)鏈的塊,這暗示著所述塊以幀內(nèi)塊終止。因此,CSF仍用于在發(fā) 生錯(cuò)誤時(shí)由于預(yù)測(cè)而復(fù)原丟失信息。用于低運(yùn)動(dòng)序列的CSF與I幀的大小等同,且可通 過更多量化以較低位速率進(jìn)行編碼,其中用于高運(yùn)動(dòng)序列的CSF遠(yuǎn)小于相應(yīng)I幀。
基于預(yù)測(cè)分級(jí)結(jié)構(gòu)的錯(cuò)誤復(fù)原可很好地對(duì)可縮放性起作用,且可實(shí)現(xiàn)高度有效的分 層編碼。用以支持物理層技術(shù)中的分級(jí)調(diào)制的可縮放性可能需要用特定帶寬比對(duì)視頻位 流進(jìn)行數(shù)據(jù)分割。這些特定帶寬比可能并不總是用于最佳可縮放性(例如,具有最小額 外開銷)的理想比。在一些方面中,使用具有L'l帶寬比的兩層可縮放性。對(duì)于低運(yùn)動(dòng) 序列來說,將視頻位流分割成大小相等的兩個(gè)層可能并不有效。對(duì)于低運(yùn)動(dòng)序列,含有 所有標(biāo)頭和元數(shù)據(jù)信息的基礎(chǔ)層大于增強(qiáng)層。然而,由于用于低運(yùn)動(dòng)序列的CSF較大,因而其恰好適合增強(qiáng)層處的剩余帶寬。
高運(yùn)動(dòng)序列具有足夠殘余信息使得可用最小額外開銷實(shí)現(xiàn)1:1的數(shù)據(jù)分割。另外, 用于此些序列的信道切換幀遠(yuǎn)小于用于高運(yùn)動(dòng)序列的。因此,基于預(yù)測(cè)分級(jí)結(jié)構(gòu)的錯(cuò)誤 復(fù)原同樣可很好地對(duì)高運(yùn)動(dòng)序列的可縮放性起作用。基于對(duì)這些算法的描述能夠延伸以 上針對(duì)適度運(yùn)動(dòng)碼片論述的概念,且所提議的概念適用于通常的視頻編碼。
多路復(fù)用器
在一些編碼器方面中,多路復(fù)用器可用于編碼由編碼器產(chǎn)生的多個(gè)多媒體流且用于 準(zhǔn)備經(jīng)編碼位以供廣播。舉例來說,在圖2所示的編碼器228的說明性方面中,同步層 240包含多路復(fù)用器。所述多路復(fù)用器可經(jīng)實(shí)施以提供位速率分配控制。可將所估計(jì)的 復(fù)雜性提供到多路復(fù)用器,所述多路復(fù)用器可接著根據(jù)針對(duì)一批多路復(fù)用視頻信道預(yù)期 的編碼復(fù)雜性來為那些視頻信道分配可用帶寬,這于是準(zhǔn)許特定信道的質(zhì)量保持相對(duì)恒 定,即使所述批多路復(fù)用視頻流的帶寬相對(duì)恒定。這使得一批信道內(nèi)的信道具有可變位 速率和相對(duì)恒定的視覺質(zhì)量,而非相對(duì)恒定的位速率和可變視覺質(zhì)量。
圖18是說明編碼多個(gè)多媒體流或信道1802的系統(tǒng)的方框圖。所述多媒體流1802由 各自編碼器1804編碼,編碼器1804與多路復(fù)用器(MUX) 1806通信,多路復(fù)用器(MUX) 1806又與傳輸媒體1808通信。舉例來說,多媒體流1802可對(duì)應(yīng)于多個(gè)內(nèi)容信道,例如 新聞信道、體育信道、電影信道和其類似信道。編碼器1804將多媒體流1802編碼為針 對(duì)所述系統(tǒng)指定的編碼格式。盡管在編碼視頻流的上下文中進(jìn)行描述,但所揭示技術(shù)的 原理和優(yōu)點(diǎn)通常適用于包括(例如)音頻流的多媒體流。將經(jīng)編碼的多媒體流提供到多 路復(fù)用器1806,多路復(fù)用器1806組合多個(gè)經(jīng)編碼的多媒體流且將組合流發(fā)送到傳輸媒 體1808以供傳輸。
傳輸媒體1808可對(duì)應(yīng)于各種媒體,例如(但不限于)數(shù)字衛(wèi)星通信(例如DirecTV⑧)、 數(shù)字電纜、有線和無線因特網(wǎng)通信、光學(xué)網(wǎng)絡(luò)、手機(jī)網(wǎng)絡(luò)等。傳輸媒體1808可包括(例 如)射頻(RF)調(diào)制。通常,由于頻譜約束等的緣故,傳輸媒體具有有限帶寬且從多路 復(fù)用器1806到傳輸媒體的數(shù)據(jù)維持在相對(duì)恒定的位速率(CBR)。
在常規(guī)系統(tǒng)中,在多路復(fù)用器1806的輸出處使用恒定位速率(CBR)可能需要輸入 到多路復(fù)用器1806的經(jīng)編碼多媒體或視頻流也為CBR。如在背景技術(shù)中所描述,在編碼 視頻內(nèi)容時(shí)使用CBR可導(dǎo)致可變的視覺質(zhì)量,可變的視覺質(zhì)量通常是不合需要的。
在所說明的系統(tǒng)中,所述編碼器1804中的兩者或兩者以上傳達(dá)輸入數(shù)據(jù)的預(yù)期編碼 復(fù)雜性。所述編碼器1804中的一者或一者以上可作為響應(yīng)從多路復(fù)用器1806接收適應(yīng)位速率控制。這準(zhǔn)許期望編碼相對(duì)較復(fù)雜視頻的編碼器1804以準(zhǔn)可變位速率方式針對(duì)那 些視頻幀接收較高位速率或較高帶寬(每幀更多位)。這準(zhǔn)許將多媒體流1802編碼為具 有恒定視覺質(zhì)量。編碼相對(duì)復(fù)雜視頻的特定編碼器804所使用的額外帶寬來自本應(yīng)在編 碼器經(jīng)實(shí)施為以恒定位速率操作的情況下用于編碼其它視頻流1804的位。這將多路復(fù)用 器1806的輸出維持在恒定位速率(CBR)。
盡管各個(gè)多媒體流1802可相對(duì)具有"突發(fā)性",即在所使用帶寬中改變,但多個(gè)視 頻流的累計(jì)總和可具有較少"突發(fā)性"。來自正在編碼較不復(fù)雜的視頻的信道的位速率可 由(例如)多路復(fù)用器1806重新分配到正在編碼相對(duì)復(fù)雜的視頻的信道,且這可在整體 上增強(qiáng)組合視頻流的視覺質(zhì)量。
編碼器1804向多路復(fù)用器1806提供對(duì)將一起編碼和多路復(fù)用的一組視頻幀的復(fù)雜 性的指示。多路復(fù)用器1806的輸出應(yīng)提供不高于為傳輸媒體1808指定的位速率的輸出。 復(fù)雜性指示可基于如上論述的內(nèi)容分類以提供選定質(zhì)量等級(jí)。多路復(fù)用器1006分析所述 復(fù)雜性指示,且向各個(gè)編碼器1004提供分配數(shù)目的位或帶寬,且編碼器1804使用此信 息來編碼所述組中的視頻幀。這準(zhǔn)許一組視頻幀各自為可變位速率,且作為一個(gè)組仍實(shí) 現(xiàn)恒定位速率。
內(nèi)容分類還可用于大體上使任何通用壓縮器能夠基于質(zhì)量壓縮多媒體。本文描述的 內(nèi)容分類和方法及設(shè)備可用于任何多媒體數(shù)據(jù)的基于質(zhì)量和/或基于內(nèi)容的多媒體處理。 一個(gè)實(shí)例是其用于大體上任何通用壓縮器的多媒體壓縮。另一實(shí)例是用于任何解壓縮器 或解碼器或后處理器中的解壓縮和解碼,例如內(nèi)插、重取樣、增強(qiáng)、恢復(fù)和呈現(xiàn)操作。
現(xiàn)參看圖19,典型的視頻通信系統(tǒng)包括視頻壓縮系統(tǒng),其由視頻編碼器和視頻解碼 器組成,所述視頻編碼器和視頻解碼器由通信網(wǎng)絡(luò)連接。無線網(wǎng)絡(luò)是一類易出錯(cuò)網(wǎng)絡(luò), 其中通信信道除了路徑損耗外還在移動(dòng)情境中表現(xiàn)出對(duì)數(shù)-正態(tài)衰減或遮蔽和多路徑衰 減。為了抵抗信道錯(cuò)誤且為應(yīng)用層數(shù)據(jù)提供可靠通信,RF調(diào)制器包括正向錯(cuò)誤校正,其 中包括交錯(cuò)器和信道編碼(例如巻積或渦輪編碼)。
視頻壓縮減少了源視頻中的冗余且增加了經(jīng)編碼視頻數(shù)據(jù)的每一位中攜載的信息 量。這增加了在甚至編碼視頻的一小部分丟失時(shí)對(duì)質(zhì)量的影響。視頻壓縮系統(tǒng)中固有的 空間和時(shí)間預(yù)測(cè)加重了損耗且引起錯(cuò)誤傳播,從而在重建視頻中產(chǎn)生可見假像。視頻編 碼器處的錯(cuò)誤復(fù)原算法和視頻解碼器處的誤差復(fù)原算法增強(qiáng)了視頻壓縮系統(tǒng)的抗錯(cuò)性。
通常,視頻壓縮系統(tǒng)不知道底層網(wǎng)絡(luò)。然而,在易出錯(cuò)網(wǎng)絡(luò)中,非常需要將應(yīng)用層 中的錯(cuò)誤保護(hù)算法與鏈路/物理層中的FEC和信道編碼集成或?qū)?zhǔn),且其在增強(qiáng)系統(tǒng)的錯(cuò)誤性能方面提供最大效率。圖14說明在用以編碼幀的編碼器228中可能出現(xiàn)的速率-失真數(shù)據(jù)流的一個(gè)實(shí)例。 過程1400在開始1402處開始,且前進(jìn)到?jīng)Q策方框1404,在此處其接收來自預(yù)處理器226 的場(chǎng)景變化檢測(cè)器輸入1410 (例如,經(jīng)由元數(shù)據(jù)),且獲取錯(cuò)誤復(fù)原輸入1406。如果信 息指示選定幀為I幀,那么過程對(duì)所述幀進(jìn)行幀內(nèi)編碼。如果信息指示選定幀為P幀或B 幀,那么過程使用幀內(nèi)編碼和運(yùn)動(dòng)估計(jì)(幀間)編碼來編碼所述幀。在對(duì)方框1404的條件出現(xiàn)肯定條件之后,過程1400前進(jìn)到準(zhǔn)備方框1414,在此處 將速率R設(shè)定為值R-Rqual (基于R-D曲線的所需目標(biāo)質(zhì)量)。此設(shè)定是從包含R-D曲 線的數(shù)據(jù)方框1416接收的。過程1400接著前進(jìn)到方框1418,在此處基于來自方框1420 處的內(nèi)容分類過程的圖像/視頻活動(dòng)信息(例如,內(nèi)容分類)執(zhí)行速率控制位分配(QpU。速率控制位分配方框1418又用于方框1422中的運(yùn)動(dòng)估計(jì)。運(yùn)動(dòng)估計(jì)1422還可接收 來自預(yù)處理器1412的元數(shù)據(jù)輸入、來自方框1424的運(yùn)動(dòng)向量平滑化(MPEG-2和歷史) 和來自方框1426的多個(gè)參考幀(因果和非因果宏區(qū)塊MB)。過程1400接著前進(jìn)到方框 1428,在此處為速率控制位分配(Qpi)確定幀內(nèi)編碼模式的速率計(jì)算。過程1400接下 來前進(jìn)到方框1430,在此處確定模式和量化參數(shù)。方框1430的模式?jīng)Q策是基于運(yùn)動(dòng)估 計(jì)方框1422輸入、錯(cuò)誤復(fù)原1406輸入和可縮放性R-D(其在方框1432處確定)進(jìn)行的。 一旦決策模式,流程便前進(jìn)到方框1432。請(qǐng)注意,從方框1430流動(dòng)到1432發(fā)生在將數(shù) 據(jù)從編碼器的第一遍部分傳遞到第二遍部分時(shí)。在方框1432處,編碼器228的第二遍執(zhí)行變換和量化。如方框1444所指示對(duì)所述 變換/量化過程進(jìn)行調(diào)整或微調(diào)。此變換/量化過程可能受到速率控制微調(diào)模塊(圖7)的 影響。過程1400接著前進(jìn)到方框1434進(jìn)行Z字形分類和熵編碼以產(chǎn)生經(jīng)編碼的基礎(chǔ)層。 Z字形分類以有效格式準(zhǔn)備量化數(shù)據(jù)以供編碼。熵編碼是使用一系列位碼來表示一組可 能符號(hào)的壓縮技術(shù)。還將變換/量化方框1432的增強(qiáng)層結(jié)果發(fā)送到加法器1436,加法器 1436減去基礎(chǔ)層且將結(jié)果發(fā)送到用于增強(qiáng)層的ZZ/熵編碼器1438,如先前參看圖31到 36所描述。請(qǐng)進(jìn)一步注意,增強(qiáng)層被反饋回(見線1440真實(shí)速率更新)以更新真實(shí)速 率的內(nèi)容分類1420和用于確定位速率的長(zhǎng)期和短期歷史以供速率控制使用的操作。圖17A是說明處理已經(jīng)獲得、接收或另外可存取的多媒體數(shù)據(jù)的流程圖。過程noo 開始且在方框1702處,其將多媒體數(shù)據(jù)的內(nèi)容進(jìn)行分類。在一個(gè)說明性方面中,可由分 類裝置(例如,圖7中的內(nèi)容分類模塊712)執(zhí)行內(nèi)容分類。過程1700繼續(xù)到方框1704, 在此處其基于內(nèi)容分類將多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組。執(zhí)行此編碼以使2006800得第一數(shù)據(jù)組包含系數(shù)且第二數(shù)據(jù)組包含與所述第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的第一微分改 進(jìn)。這可由本文描述的編碼裝置(例如,圖7中的編碼器228)來執(zhí)行。
圖17B是可執(zhí)行圖17A中所說明的過程的多媒體編碼系統(tǒng)1710的方框圖。在一些 方面中,多媒體編碼系統(tǒng)1710可以是轉(zhuǎn)碼器,例如轉(zhuǎn)碼器200。在其它方面中,編碼系 統(tǒng)1710可包含轉(zhuǎn)碼器的一部分。多媒體編碼系統(tǒng)1710包括用于將多媒體數(shù)據(jù)的內(nèi)容分 類的裝置,即用于將多媒體數(shù)據(jù)的內(nèi)容分類的模塊1712。用于將內(nèi)容分類的裝置可以是 (例如)預(yù)處理器(例如,預(yù)處理器226)或編碼器(例如,編碼器228)中的分類模塊。 編碼系統(tǒng)1710還包括用于編碼多媒體數(shù)據(jù)的裝置,即用于編碼多媒體數(shù)據(jù)的模塊1714, 其可經(jīng)配置以基于所述內(nèi)容分類將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組,其 中執(zhí)行此編碼以使得第一數(shù)據(jù)組包含系數(shù)且第二數(shù)據(jù)組包含與第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的 第一微分改進(jìn)。編碼系統(tǒng)1710中還可包括例如本文所描述的其它轉(zhuǎn)碼器組件。
圖23、 24、 27和28是示范性說明實(shí)施本文所述方面的編碼多媒體數(shù)據(jù)的方法的過 程流程圖。圖23是說明基于內(nèi)容信息編碼多媒體數(shù)據(jù)的過程2300的過程流程圖。在方 框2305處,過程2300接收經(jīng)編碼多媒體數(shù)據(jù),且在方框2310處,過程2300解碼多媒 體數(shù)據(jù)。在方框2315處,過程2300確定與經(jīng)解碼多媒體數(shù)據(jù)相關(guān)聯(lián)的內(nèi)容信息。在方 框2320處,過程2300基于所述內(nèi)容信息編碼多媒體數(shù)據(jù)。
圖24是說明編碼多媒體數(shù)據(jù)以便基于內(nèi)容信息等級(jí)來對(duì)準(zhǔn)數(shù)據(jù)邊界的過程2400的 過程流程圖。在方框2405處,過程2400獲得與多媒體數(shù)據(jù)相關(guān)聯(lián)的內(nèi)容信息,這可由 (例如)圖7中所示的預(yù)處理器226或內(nèi)容分類模塊712進(jìn)行。在方框2410處,過程2400 編碼多媒體數(shù)據(jù)以便基于內(nèi)容信息來對(duì)準(zhǔn)數(shù)據(jù)邊界。舉例來說,基于正被編碼的多媒體 數(shù)據(jù)的內(nèi)容分類將切片邊界和存取單元邊界與幀邊界對(duì)準(zhǔn)。接著,經(jīng)編碼數(shù)據(jù)可用于后 續(xù)處理和/或傳輸?shù)揭苿?dòng)裝置,且過程2400結(jié)束。
圖27是說明用于基于內(nèi)容信息使用適應(yīng)性幀內(nèi)刷新方案編碼數(shù)據(jù)的過程2700的過 程流程圖。當(dāng)過程2700開始時(shí),已經(jīng)獲得多媒體數(shù)據(jù)。在方框2705處,過程2700獲得 多媒體數(shù)據(jù)的內(nèi)容信息。獲得內(nèi)容信息可由(例如)上述預(yù)處理器226或內(nèi)容分類模塊 712來執(zhí)行。過程2700前進(jìn)到方框2710,在此處其使用適應(yīng)性幀內(nèi)刷新錯(cuò)誤復(fù)原方案編 碼多媒體數(shù)據(jù),其中適應(yīng)性幀內(nèi)刷新錯(cuò)誤復(fù)原方案是基于內(nèi)容信息的。方框2710的功能 性可由編碼器228執(zhí)行。使得經(jīng)編碼數(shù)據(jù)可用于后續(xù)處理和傳輸,且過程2700接著結(jié)束。
圖28是說明基于多媒體內(nèi)容信息使用冗余I幀編碼多媒體數(shù)據(jù)的過程的過程流程 圖。當(dāng)過程2800開始時(shí),多媒體數(shù)據(jù)可用于處理。在方框2805處,過程2800獲得多媒體數(shù)據(jù)的內(nèi)容信息。如上所述,這可由(例如)預(yù)處理器226和/或編碼器228進(jìn)行。在 方框2810處,過程2800編碼多媒體數(shù)據(jù)以便基于內(nèi)容信息將一個(gè)或一個(gè)以上額外I幀 插入到經(jīng)編碼數(shù)據(jù)中。這可由如上所述的編碼器228結(jié)合錯(cuò)誤復(fù)原方案來進(jìn)行,將I幀 插入到基礎(chǔ)層還是增強(qiáng)層中依據(jù)所采用的錯(cuò)誤復(fù)原方案而定。在方框2810之后,經(jīng)編碼 數(shù)據(jù)可用于后續(xù)處理和/或傳輸?shù)揭苿?dòng)裝置。應(yīng)注意,本文描述的方法可在所屬領(lǐng)域的技術(shù)人員己知的各種通信硬件、處理器和 系統(tǒng)上實(shí)施。舉例來說,對(duì)客戶端如本文描述那樣操作的通常要求是客戶端具有顯示器 來顯示內(nèi)容和信息,具有處理器來控制客戶端的操作,且具有存儲(chǔ)器來存儲(chǔ)與客戶端的 操作相關(guān)的數(shù)據(jù)和程序。在一個(gè)方面中,客戶端是蜂窩式電話。在另一方面中,客戶端 是具有通信能力的手持式計(jì)算機(jī)。在又一方面中,客戶端是具有通信能力的個(gè)人計(jì)算機(jī)。 另外,可將例如GPS接收器等硬件并入在客戶端中以實(shí)施所述各種方面。結(jié)合本文所揭 示的方面描述的各種說明性邏輯、邏輯塊、模塊和電路可用通用處理器、數(shù)字信號(hào)處理 器(DSP)、專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程門陣列(FPGA)或其它可編程邏輯裝置、 離散門或晶體管邏輯、離散硬件組件或經(jīng)設(shè)計(jì)以執(zhí)行本文描述的功能的其任何組合來實(shí) 施或執(zhí)行。通用處理器可以是微處理器,但在替代方案中,所述處理器可以是任何常規(guī) 處理器、控制器、微控制器或狀態(tài)機(jī)。處理器還可實(shí)施為計(jì)算裝置的組合,例如DSP與 微處理器的組合、多個(gè)微處理器、結(jié)合DSP核心的一個(gè)或一個(gè)以上微處理器或任何其它 此類配置。結(jié)合本文所揭示的方面描述的各種說明性邏輯、邏輯塊、模塊和電路可用通用處理 器、數(shù)字信號(hào)處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程門陣列(FPGA)或其 它可編程邏輯裝置、離散門或晶體管邏輯、離散硬件組件或經(jīng)設(shè)計(jì)以執(zhí)行本文描述的功 能的其任何組合來實(shí)施或執(zhí)行。通用處理器可以是微處理器,但在替代方案中,所述處 理器可以是任何常規(guī)處理器、控制器、微控制器或狀態(tài)機(jī)。處理器還可實(shí)施為計(jì)算裝置 的組合,例如DSP與微處理器的組合、多個(gè)微處理器、結(jié)合DSP核心的一個(gè)或一個(gè)以上 微處理器或任何其它此類配置。所揭示的方法和設(shè)備提供將以一種格式編碼的視頻數(shù)據(jù)代碼變換為以另一種格式編 碼的視頻數(shù)據(jù),其中所述編碼基于視頻數(shù)據(jù)的內(nèi)容且所述編碼對(duì)錯(cuò)誤有彈性。結(jié)合本文 所揭示的實(shí)例來描述的方法或算法可直接在硬件、由處理器執(zhí)行的軟件模塊、固件或這 些中的兩者或兩者以上的組合中實(shí)施。軟件模塊可駐留在RAM存儲(chǔ)器、快閃存儲(chǔ)器、 ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬盤、可移動(dòng)盤、CD-ROM或此項(xiàng)技術(shù)中己知的任何其它形式的存儲(chǔ)媒體中。示范性存儲(chǔ)媒體耦合到處理器,使得 處理器可從存儲(chǔ)媒體讀取信息和向存儲(chǔ)媒體寫入信息。在替代方案中,存儲(chǔ)媒體可與處 理器成一體式。處理器和存儲(chǔ)媒體可駐留在ASIC中。ASIC可駐留在用戶終端中。在替 代方案中,處理器和存儲(chǔ)媒體可作為離散組件駐留在用戶終端中。
以上描述的實(shí)例僅為示范性的,且在不脫離本文所揭示的發(fā)明性概念的情況下,所 屬領(lǐng)域的技術(shù)人員現(xiàn)在可多樣化使用并改變上述實(shí)例。對(duì)這些實(shí)例的各種修改對(duì)于所屬 領(lǐng)域的技術(shù)人員是顯而易見的,且在不脫離本文所述的新穎方面的精神或范圍的情況下, 本文所定義的基本原理可應(yīng)用于其它實(shí)例,例如在即時(shí)消息傳達(dá)服務(wù)或任何通用無線數(shù) 據(jù)通信應(yīng)用中。因此,本揭示案的范圍不希望限于本文所示的實(shí)例,而是應(yīng)符合與本文 所揭示的原理和新穎特征一致的最廣范圍。詞語"示范性"在本文中專用于意指"充當(dāng) 實(shí)例、例子或說明"。沒有必要將本文描述為"示范性"的任何實(shí)例解釋為與其它實(shí)例相 比是優(yōu)選或有優(yōu)點(diǎn)的。因此,本文描述的新穎方面將僅由所附權(quán)利要求書的范圍界定。
權(quán)利要求
1. 一種編碼多媒體數(shù)據(jù)的方法,其包含將多媒體數(shù)據(jù)的內(nèi)容分類;和基于所述內(nèi)容分類來將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組,其中所 述第一數(shù)據(jù)組包含系數(shù)且所述第二數(shù)據(jù)組包含與所述第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的第 一微分改進(jìn)。
2. 根據(jù)權(quán)利要求l所述的方法,其中所述編碼包含基于所述多媒體數(shù)據(jù)的所述內(nèi)容分 類來確定位速率和基于所述位速率來編碼所述多媒體數(shù)據(jù)。
3. 根據(jù)權(quán)利要求l所述的方法,其中將內(nèi)容分類包含確定所述多媒體數(shù)據(jù)的復(fù)雜性, 且其中基于所述多媒體數(shù)據(jù)的所述復(fù)雜性來編碼所述選定多媒體數(shù)據(jù)。
4. 根據(jù)權(quán)利要求3所述的方法,其中所述復(fù)雜性包含時(shí)間復(fù)雜性或空間復(fù)雜性。
5. 根據(jù)權(quán)利要求3所述的方法,其中所述復(fù)雜性包含時(shí)間復(fù)雜性和空間復(fù)雜性。
6. 根據(jù)權(quán)利要求l所述的方法,其中編碼包含編碼所述多媒體數(shù)據(jù)以便允許解碼僅所 述第一數(shù)據(jù)組或?qū)⑺龅谝粩?shù)據(jù)組和所述第二數(shù)據(jù)組解碼為單個(gè)組合數(shù)據(jù)組。
7. 根據(jù)權(quán)利要求l所述的方法,其中所述第一微分改進(jìn)指示選定視頻幀與從解碼所述 第一數(shù)據(jù)組中產(chǎn)生的幀數(shù)據(jù)之間的差異。
8. 根據(jù)權(quán)利要求l所述的方法,其中所述第一數(shù)據(jù)組是基礎(chǔ)層,且所述第二數(shù)據(jù)組是 增強(qiáng)層。
9. 根據(jù)權(quán)利要求8所述的方法,其進(jìn)一步包含從初始基礎(chǔ)層殘余誤差系數(shù)或初始增強(qiáng)層殘余誤差系數(shù)中的一者中選擇所述系 數(shù);和基于所述系數(shù)和所述初始增強(qiáng)層殘余誤差系數(shù)來計(jì)算所述第一微分改進(jìn)。
10. 根據(jù)權(quán)利要求1所述的方法,其中編碼進(jìn)一步包含在所述第一數(shù)據(jù)組中編碼宏區(qū)塊 標(biāo)頭信息和運(yùn)動(dòng)向量信息。
11. 根據(jù)權(quán)利要求l所述的方法,其中編碼進(jìn)一步包含以第一步長(zhǎng)量化所述第一數(shù)據(jù)組 和以第二步長(zhǎng)量化所述第二數(shù)據(jù)組,其中所述第一步長(zhǎng)與第二步長(zhǎng)通過比例因子來 相關(guān)。
12. 根據(jù)權(quán)利要求l所述的方法,其中編碼進(jìn)一步包含確定用于編碼所述第一數(shù)據(jù)組的 具有第一量化步長(zhǎng)的第一量化參數(shù)和確定用于編碼所述第二數(shù)據(jù)組的具有第二量 化步長(zhǎng)的第二量化參數(shù),其中基于選定幀數(shù)據(jù)的內(nèi)容信息來確定所述第一和第二量 化參數(shù),且其中所述第一量化步長(zhǎng)比所述第二量化步長(zhǎng)粗。
13. 根據(jù)權(quán)利要求I所述的方法,其中編碼包含使用I幀和P幀或其任何組合編碼所述 第一數(shù)據(jù)組,和使用I幀、P幀和B幀或其任何組合編碼所述第二數(shù)據(jù)組。
14. 一種用于編碼多媒體數(shù)據(jù)的設(shè)備,其包含用于將多媒體數(shù)據(jù)的內(nèi)容分類的裝置;用于基于所述內(nèi)容分類來將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組的 裝置,其中所述第一數(shù)據(jù)組包含系數(shù)且所述第二數(shù)據(jù)組包含與所述第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的第一微分改進(jìn)。
15. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述編碼裝置包含用于基于所述多媒體數(shù)據(jù)的 所述內(nèi)容分類來確定位速率且基于所述位速率來編碼所述多媒體數(shù)據(jù)的裝置。
16. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述內(nèi)容分類裝置包含用于確定所述多媒體數(shù) 據(jù)的復(fù)雜性的裝置,且其中基于所述多媒體數(shù)據(jù)的所述復(fù)雜性來編碼所述選定多媒 體數(shù)據(jù)。
17. 根據(jù)權(quán)利要求16所述的設(shè)備,其中所述復(fù)雜性包含時(shí)間復(fù)雜性或空間復(fù)雜性。
18. 根據(jù)權(quán)利要求16所述的設(shè)備,其中所述復(fù)雜性包含時(shí)間復(fù)雜性和空間復(fù)雜性。
19. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述編碼裝置包含用于編碼所述多媒體數(shù)據(jù)以 便允許解碼僅所述第一數(shù)據(jù)組或?qū)⑺龅谝粩?shù)據(jù)組和所述第二數(shù)據(jù)組解碼為單個(gè) 組合數(shù)據(jù)組的裝置。
20. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述第一微分改進(jìn)指示選定視頻幀與從解碼所 述第一數(shù)據(jù)組產(chǎn)生的幀數(shù)據(jù)之間的差異。
21. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述第一數(shù)據(jù)組是基礎(chǔ)層,且所述第二數(shù)據(jù)組 是增強(qiáng)層。
22. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述編碼裝置包含用于在所述第一數(shù)據(jù)組中編 碼宏區(qū)塊標(biāo)頭信息和運(yùn)動(dòng)向量信息的裝置。
23. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述編碼裝置進(jìn)一步包含用于以第一步長(zhǎng)量化 所述第一數(shù)據(jù)組且以第二步長(zhǎng)量化所述第二數(shù)據(jù)組的裝置,其中所述第一步長(zhǎng)與第 二步長(zhǎng)通過比例因子來相關(guān)。
24. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述解碼裝置包含用于確定用于編碼所述第一 數(shù)據(jù)組的具有第一量化步長(zhǎng)的第一量化參數(shù)和確定用于編碼所述第二數(shù)據(jù)組的具 有第二量化步長(zhǎng)的第二量化參數(shù)的裝置,其中基于選定幀數(shù)據(jù)的內(nèi)容信息來確定所 述第一和第二量化參數(shù),且其中所述第一量化步長(zhǎng)比所述第二量化步長(zhǎng)粗。
25. 根據(jù)權(quán)利要求14所述的設(shè)備,其中所述編碼裝置包含用于使用I幀和P幀編碼所述第一數(shù)據(jù)組的裝置;和 用于使用I幀、P幀和B幀編碼所述第二數(shù)據(jù)組的裝置。
26. 根據(jù)權(quán)利要求21所述的設(shè)備,其中所述編碼裝置包含-用于從初始基礎(chǔ)層殘余誤差系數(shù)或初始增強(qiáng)層殘余誤差系數(shù)中的一者中選擇所 述系數(shù)的裝置;和用于基于所述系數(shù)和所述初始增強(qiáng)層殘余誤差系數(shù)來計(jì)算所述第一微分改進(jìn)的裝置。
27. —種經(jīng)配置以編碼多媒體數(shù)據(jù)的設(shè)備,其包含內(nèi)容分類模塊,其經(jīng)配置以將多媒體數(shù)據(jù)的內(nèi)容分類且提供內(nèi)容分類數(shù)據(jù);和編碼器,其經(jīng)配置以基于所述內(nèi)容分類來將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和 第二數(shù)據(jù)組,其中所述第一數(shù)據(jù)組包含系數(shù)且所述第二數(shù)據(jù)組包含與所述第一數(shù)據(jù) 組系數(shù)相關(guān)聯(lián)的第一微分改進(jìn)。
28. 根據(jù)權(quán)利要求27所述的設(shè)備,其中所述編碼器包含位速率組件,所述位速率組件 經(jīng)配置以基于所述內(nèi)容分類來確定位分配,且其中所述編碼組件進(jìn)一步經(jīng)配置以使 用所述位分配來編碼所述選定多媒體數(shù)據(jù)。
29. 根據(jù)權(quán)利要求27所述的設(shè)備,其中將內(nèi)容分類包含確定所述多媒體數(shù)據(jù)的復(fù)雜性, 且其中基于所述多媒體數(shù)據(jù)的所述復(fù)雜性來編碼所述選定多媒體數(shù)據(jù)。
30. 根據(jù)權(quán)利要求29所述的設(shè)備,其中所述復(fù)雜性包含時(shí)間復(fù)雜性或空間復(fù)雜性。
31. 根據(jù)權(quán)利要求29所述的設(shè)備,其中所述復(fù)雜性包含時(shí)間復(fù)雜性和空間復(fù)雜性。
32. 根據(jù)權(quán)利要求27所述的設(shè)備,其中編碼包含編碼所述多媒體數(shù)據(jù)以便允許解碼僅 所述第一數(shù)據(jù)組或?qū)⑺龅谝粩?shù)據(jù)組和所述第二數(shù)據(jù)組解碼為單個(gè)組合數(shù)據(jù)組。
33. 根據(jù)權(quán)利要求27所述的設(shè)備,其中所述第一微分改進(jìn)指示選定視頻幀與從解碼所 述第一數(shù)據(jù)組產(chǎn)生的幀數(shù)據(jù)之間的差異。
34. 根據(jù)權(quán)利要求27所述的設(shè)備,其中所述第一數(shù)據(jù)組是基礎(chǔ)層,且所述第二數(shù)據(jù)組 是增強(qiáng)層。
35. —種機(jī)器可讀媒體,其包含在執(zhí)行時(shí)致使機(jī)器執(zhí)行以下操作的指令將多媒體數(shù)據(jù)的內(nèi)容分類;和基于所述內(nèi)容分類來將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組,其中所 述第一數(shù)據(jù)組包含系數(shù)且所述第二數(shù)據(jù)組包含與所述第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的第一微分改迸。
36. 根據(jù)權(quán)利要求35所述的機(jī)器可讀媒體,其中所述用以編碼的指令包含用以基于所 述內(nèi)容分類來確定位分配的指令,且其中所述編碼組件進(jìn)一步經(jīng)配置以使用所述位 分配來編碼所述選定多媒體數(shù)據(jù)。
37. 根據(jù)權(quán)利要求35所述的機(jī)器可讀媒體,其中將內(nèi)容分類包含確定所述多媒體數(shù)據(jù) 的復(fù)雜性,且其中基于所述多媒體數(shù)據(jù)的所述復(fù)雜性來編碼所述選定多媒體數(shù)據(jù)。
38. 根據(jù)權(quán)利要求37所述的機(jī)器可讀指令,其中所述復(fù)雜性包含時(shí)間復(fù)雜性或空間復(fù) 雜性。
39. 根據(jù)權(quán)利要求37所述的機(jī)器可讀指令,其中所述復(fù)雜性包含時(shí)間復(fù)雜性和空間復(fù) 雜性。
40. —種處理器,其經(jīng)配置以將多媒體數(shù)據(jù)的內(nèi)容分類;和基于所述內(nèi)容分類來將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組,其中所 述第一數(shù)據(jù)組包含系數(shù)且所述第二數(shù)據(jù)組包含與所述第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的第一微分改進(jìn)。
41. 根據(jù)權(quán)利要求40所述的處理器,其中所述處理器進(jìn)一步經(jīng)配置以基于所述內(nèi)容分 類來確定位分配,且其中所述編碼組件進(jìn)一步經(jīng)配置以使用所述位分配來編碼所述 選定多媒體數(shù)據(jù)。
42. 根據(jù)權(quán)利要求40所述的處理器,其中所述處理器進(jìn)一步經(jīng)配置以確定所述多媒體 數(shù)據(jù)的復(fù)雜性,且其中所述內(nèi)容分類是基于所述多媒體數(shù)據(jù)的所述復(fù)雜性。
43. 根據(jù)權(quán)利要求42所述的處理器,其中所述復(fù)雜性包含時(shí)間復(fù)雜性或空間復(fù)雜性。
44. 根據(jù)權(quán)利要求42所述的處理器,其中所述復(fù)雜性包含時(shí)間復(fù)雜性和空間復(fù)雜性。
全文摘要
本發(fā)明描述使用內(nèi)容信息來編碼多媒體數(shù)據(jù)的設(shè)備和方法。一種處理多媒體數(shù)據(jù)的方法包括將多媒體數(shù)據(jù)的內(nèi)容分類,和基于所述內(nèi)容分類來將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組,其中所述第一數(shù)據(jù)組包含系數(shù),且所述第二數(shù)據(jù)組包含與所述第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的第一微分改進(jìn)。一種用于使用內(nèi)容信息來編碼多媒體數(shù)據(jù)的設(shè)備包括內(nèi)容分類模塊,其經(jīng)配置以將多媒體數(shù)據(jù)的內(nèi)容分類且提供內(nèi)容分類數(shù)據(jù);和編碼器,其經(jīng)配置以基于所述內(nèi)容分類來將所述多媒體數(shù)據(jù)編碼為第一數(shù)據(jù)組和第二數(shù)據(jù)組,其中所述第一數(shù)據(jù)組包含系數(shù),且所述第二數(shù)據(jù)組包含與所述第一數(shù)據(jù)組系數(shù)相關(guān)聯(lián)的第一微分改進(jìn)。
文檔編號(hào)H04N7/26GK101313588SQ200680043886
公開日2008年11月26日 申請(qǐng)日期2006年9月27日 優(yōu)先權(quán)日2005年9月27日
發(fā)明者塞伊富拉·哈立德·奧古茲, 希塔拉曼·加納帕蒂·蘇布拉馬尼亞, 帕尼庫(kù)馬爾·巴米迪帕蒂, 戈登·肯特·沃克, 濤 田, 方 石, 維賈雅拉克希米·R·拉韋恩德拉恩, 陳培松 申請(qǐng)人:高通股份有限公司