專利名稱:人臉區(qū)域時域依賴性與全局率失真優(yōu)化相結(jié)合的會話視頻編碼方法
技術(shù)領(lǐng)域:
本發(fā)明屬于視頻編碼和處理領(lǐng)域,具體涉及會話視頻編碼過程中率失真優(yōu)化編碼方法的研究。
背景技術(shù):
人臉作為人類區(qū)別于其他生物的關(guān)鍵特征之一,在人際交往及社會活動中扮演著主要信息載體的角色,因而對其進(jìn)行全面而深入的研究具有十分重要的理論和現(xiàn)實意義。 隨著實時多媒體服務(wù)的興起,視頻會議、可視電話、新聞播報等應(yīng)用都與人臉有著直接或間接的聯(lián)系。伴隨這些應(yīng)用的廣泛推廣,人臉研究的重要性更是與日俱增。通常,視頻編碼及通信界用“會話視頻序列”來對上述應(yīng)用加以概括,而與其相應(yīng)的編碼技術(shù)則稱為會話視頻編碼技術(shù)。在經(jīng)典的視頻壓縮理論中,所有的幀圖像及編碼單元都基于同等重要性而被順序編碼。隨著研究的深入,人們逐漸意識到視頻編碼算法的評價指標(biāo)除了壓縮率和峰值信噪比(Peak Signal to Noise Ratio, PSNR)之外,還應(yīng)考慮“感興趣區(qū)域(Region of Interest,ROI) ”的編碼質(zhì)量。事實上,使用者往往以對ROI壓縮效果的主觀感受的好壞來直接評價視頻編碼結(jié)果的可接受程度。因此,如何保證或提高會話視頻序列中人臉ROI的編解碼質(zhì)量是當(dāng)前會話視頻編碼領(lǐng)域中亟待研究的前沿課題。從已有的研究成果看,圍繞人臉ROI視頻編碼的相關(guān)研究主要分為兩類1)編碼端優(yōu)先保護(hù)人臉ROI,如基于人臉ROI的幀內(nèi)編碼模式更新、基于人臉ROI的比特分配及資源優(yōu)化;幻解碼端重點恢復(fù)或在出現(xiàn)差錯的情況下優(yōu)先恢復(fù)人臉R0I,如基于人臉ROI的差錯掩蓋。其中,大部分研究成果通過賦予人臉ROI更高的編解碼優(yōu)先級,一定程度上實現(xiàn)了人臉ROI主客觀質(zhì)量的提高并促進(jìn)了會話視頻編碼技術(shù)的發(fā)展。然而學(xué)者們忽視的一個問題是,人臉ROI的質(zhì)量雖然具有視頻評價上的特殊作用,但由于其只是會話視頻序列中的一部分,對于人臉ROI的側(cè)重編解碼必然意味著會話視頻序列的其他部分即非人臉 ROI部分編解碼優(yōu)先級的降低。這一點在編碼過程中的體現(xiàn)尤為突出,如在比特資源有限的情況下,側(cè)重人臉ROI的比特分配即以犧牲非人臉ROI的編碼比特為前提。當(dāng)所犧牲的編碼比特影響到非人臉ROI的編碼質(zhì)量時,此時編碼質(zhì)量陡然降低的非人臉ROI會超越人臉ROI成為人眼關(guān)注的核心。如此一來,雖然人臉ROI的編碼質(zhì)量因比特側(cè)重分配獲得了明顯提高,但人眼所感覺到的視頻序列整體編碼質(zhì)量非但不會提高反而降低。另一方面,人臉ROI中各部分的重要性也并非完全一致,雖然已有部分文獻(xiàn)中對人臉編碼優(yōu)先級給出了更細(xì)致的劃分(如按眼、耳、口、鼻區(qū)域)以對該問題加以突出,但相關(guān)劃分方法仍顯得過于主觀。因此,基于人臉ROI實際編碼時還應(yīng)結(jié)合人臉ROI在編碼過程中的具體表現(xiàn)如率失真(fcite-Distortion,R-D)性能來進(jìn)行。率失真優(yōu)化(Rate Distortion Optimization, RD0)控制策略是在有限的帶寬條件下提供解碼端最佳視頻質(zhì)量的有效手段之一。理論上,視頻編碼RDO的最優(yōu)解是對所有編碼單元進(jìn)行全局優(yōu)化的結(jié)果。為了使問題更易于求解,學(xué)者們往往傾向于做一個獨立性假設(shè),即認(rèn)為各編碼單元間互不影響,從而實現(xiàn)各編碼單元碼率及失真度的獨立衡量。以此為基礎(chǔ)并結(jié)合拉格朗日乘子法,視頻編碼RDO問題即被分而治之而求解。事實上,因為單個編碼單元在特定編碼模式下的比特數(shù)必須在其他編碼單元計算完畢后才能獲得,所以從嚴(yán)格意義上講,各編碼單元最佳編碼模式的判決是相互依賴的。由于視頻編碼的關(guān)鍵任務(wù)是移除不同編碼單元間的冗余(時間冗余、空間冗余及統(tǒng)計冗余),于是與其相關(guān)的運動估計、運動補償和熵編碼等常用策略導(dǎo)致了復(fù)雜的編碼依賴性,該依賴性也使得每個編碼單元的RDO不可能是一個完全封閉的個體。因此,基于獨立性假設(shè)的RDO方法并不合理,且在各編碼單元RDO過程中考慮編碼依賴性已成為改善視頻編碼性能的重要手段之一。近年來,很多視頻編碼相關(guān)研究工作中對編碼依賴性已經(jīng)有所涉及,但這些方法普遍存在計算復(fù)雜度較高的缺陷。為了取得編碼效率和時間復(fù)雜度之間的平衡,大量RDO 方法不得不放棄對部分編碼依賴性的考慮以獲得性能上的提高。在本發(fā)明所關(guān)注的會話視頻編碼中,由于人臉ROI編碼單元紋理的相似性和運動的一致性,因而在一個圖像組 (Group of Picture, GOP)中相鄰幀編碼時所表現(xiàn)出來的依賴性更強。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)的以上不足,本發(fā)明的目的是設(shè)計一種提高會話視頻編碼性能的新方法,使之取得更優(yōu)秀的編碼性能和很好的應(yīng)用價值和理論意義,且適用于視頻存儲(可設(shè)置GOP最大長度為整個序列幀數(shù))及實時性要求大于一個GOP延時的實時視頻編碼。本發(fā)明的目的是通過如下的手段實現(xiàn)的。一種人臉區(qū)域時域依賴性與全局率失真優(yōu)化相結(jié)合的會話視頻編碼方法,利用人臉感興趣區(qū)域ROI在同一圖像組GOP內(nèi)相鄰編碼幀之間的時域依賴性,提前估計人臉ROI 的失真度及其擴(kuò)散影響,為最佳運動向量及模式劃分選擇提供有效的輔助手段,以實現(xiàn)視頻序列整體及人臉ROI在主客觀質(zhì)量上的同步提高,其實現(xiàn)方式包括如下的序列步驟A.(在編碼會話視頻序列各GOP之前)對當(dāng)前GOP內(nèi)所有編碼幀進(jìn)行人臉ROI檢測,從而確定人臉ROI編碼單元的具體位置。會話視頻序列、G0P、編碼單元及人臉ROI編碼單元的定義和示意圖見下文關(guān)于附圖
和術(shù)語的說明第1項。B.根據(jù)當(dāng)前編碼單元是否屬于人臉R0I,選擇不同的RDO方法進(jìn)行優(yōu)化編碼。對于人臉ROI編碼單元,B. 1構(gòu)造人臉ROI編碼單元時域擴(kuò)散鏈。人臉ROI編碼單元時域擴(kuò)散鏈的定義見見下文關(guān)于附圖和術(shù)語的說明第2項。為了降低人臉ROI編碼單元時域擴(kuò)散鏈構(gòu)造時的時間復(fù)雜度,本發(fā)明給出一種簡化的人臉ROI編碼單元時域擴(kuò)散鏈構(gòu)造方法如下(1)對會話視頻序列的當(dāng)前編碼GOP內(nèi)各編碼單元進(jìn)行前向運動搜索,以獲得各編碼單元在下一幀中最佳匹配單元位置,記錄對應(yīng)的前向運動向量及前向預(yù)測差值(該步驟在當(dāng)前GOP內(nèi)僅進(jìn)行一次)。前向運動搜索、最佳匹配單元、前向運動向量、前向預(yù)測差值見見下文關(guān)于附圖和術(shù)語的說明第3項。(2)根據(jù)步驟(1)中得到的前向運動向量推導(dǎo)人臉ROI編碼單元在當(dāng)前GOP下一編碼幀中的擴(kuò)散位置,該擴(kuò)散位置所對應(yīng)的與人臉ROI編碼單元大小相同的單元稱為人臉 ROI擴(kuò)散單元。區(qū)別起見,本步驟人臉ROI擴(kuò)散單元稱為1號人臉ROI擴(kuò)散單元。實際上, 1號人臉ROI擴(kuò)散單元即為步驟(1)中當(dāng)前人臉ROI編碼單元的最佳匹配單元。本步驟存儲人臉ROI編碼單元的前向預(yù)測差值及1號人臉ROI擴(kuò)散單元的位置。(3)將步驟O)中1號人臉ROI擴(kuò)散單元中心所在的實際編碼單元的前向運動向量作為該人臉ROI擴(kuò)散單元的前向運動向量,從而可得到其在當(dāng)前GOP的再下一個編碼幀中的擴(kuò)散位置。該擴(kuò)散位置所對應(yīng)的與人臉ROI編碼單元大小相同的單元即為人臉ROI編碼單元在當(dāng)前GOP的再下一個編碼幀中的人臉ROI擴(kuò)散單元,稱為2號人臉ROI擴(kuò)散單元。 此處所得到的擴(kuò)散單元不應(yīng)超出發(fā)明內(nèi)容步驟A中所得到的當(dāng)前編碼幀中人臉ROI范圍, 若超出則將擴(kuò)散單元水平平移至人臉ROI范圍內(nèi)作為2號人臉ROI擴(kuò)散單元,若平移后仍超出人臉ROI范圍則繼續(xù)垂直平移直至擴(kuò)散單元完全位于人臉ROI范圍內(nèi)。同時,根據(jù)步驟( 所得到的1號人臉ROI擴(kuò)散單元在各實際編碼單元上的比例情況,將各實際編碼單元的前向預(yù)測差值按比例求和作為1號人臉ROI擴(kuò)散單元的前向預(yù)測差值。本步驟存儲1 號人臉ROI擴(kuò)散單元前向預(yù)測差值及2號人臉ROI擴(kuò)散單元的位置。(4)類似于步驟C3)推導(dǎo)后續(xù)的人臉ROI擴(kuò)散單元,直至人臉ROI擴(kuò)散單元位于當(dāng)前GOP的最后一幀。將人臉ROI編碼單元及其在后續(xù)幀上的所有擴(kuò)散單元連接在一起形成人臉ROI編碼單元時域擴(kuò)散鏈,各前向預(yù)測差值保存供后述使用。該方法的示意圖及相關(guān)說明見見下文關(guān)于附圖和術(shù)語的說明第2項。B. 2計算人臉ROI編碼單元及人臉ROI編碼單元時域擴(kuò)散鏈上所有擴(kuò)散單元的失真度估計值。失真度估計值是在當(dāng)前編碼單元或擴(kuò)散單元未編碼前對其實際編碼后所產(chǎn)生的失真度進(jìn)行合理估計所得的結(jié)果,本發(fā)明給出一種根據(jù)殘差DCT系數(shù)的拉普拉斯分布特性所得到的失真度估計方法為如下公式1 :D = Dmcp-Fi^Q/^β^)其中D為失真度估計值,Dmcp為時域擴(kuò)散鏈上當(dāng)前編碼單元的上一個編碼單元或擴(kuò)散單元的前向預(yù)測差值,Q為量化步長。由于人臉ROI編碼單元是時域預(yù)測鏈的起始單元,因此計算其失真度估計值時需采用其后向預(yù)測差值。后向預(yù)測差值基于后向運動搜索得到,后向運動搜索及后向預(yù)測差值見說明書定義及附圖第4項。對于公式1中的F( □) 函數(shù),其計算方法如下,公式2:
θC0 (k+d+l)-0F(0)= JV.KyMF+ X j [c(y)-\y-(k^d^m)-e\2 ^(l-c(y))-y2)·p(y)-dy 。
_ 0k=() (k+d)-e_B. 3計算人臉ROI編碼單元時域擴(kuò)散鏈上所有擴(kuò)散單元受人臉ROI編碼單元影響的失真度擴(kuò)散系數(shù)并求和得到總失真度擴(kuò)散系數(shù)。失真度擴(kuò)散系數(shù)是某一編碼單元或擴(kuò)散單元的編碼結(jié)果對其時域擴(kuò)散鏈下一相鄰擴(kuò)散單元編碼影響的衡量標(biāo)志。本發(fā)明給出一種
基于實驗推導(dǎo)所得的失真度擴(kuò)散系數(shù)計算方法表示如下,
n Dt公式3 Λ = D +dMCP其中β t表示當(dāng)前擴(kuò)散單元受時域擴(kuò)散鏈上前一編碼單元或擴(kuò)散單元影響的失真度擴(kuò)散系數(shù),Dt表示當(dāng)前擴(kuò)散單元的失真度估計值,Dt^1表示前一編碼單元或擴(kuò)散單元的失真度估計值,辟MeP表示當(dāng)前擴(kuò)散單元的前向預(yù)測差值。為了計算人臉ROI編碼單元時域擴(kuò)散鏈上所有其他擴(kuò)散單元受人臉ROI編碼單元影響的失真度擴(kuò)散系數(shù)并進(jìn)而求得總失真
6度擴(kuò)散系數(shù),本發(fā)明分別計算人臉ROI編碼單元時域擴(kuò)散鏈上某擴(kuò)散單元受前一編碼單元或擴(kuò)散單元影響的失真度擴(kuò)散系數(shù),然后利用基于推導(dǎo)得到的乘性關(guān)系得出其受人臉ROI 編碼單元影響的失真度擴(kuò)散系數(shù)。例如,當(dāng)前擴(kuò)散單元N及其前面N-I個擴(kuò)散單元的失真度擴(kuò)散系數(shù)分別為βΝ,β η,……,,則其受人臉ROI編碼單元影響的失真度擴(kuò)散系數(shù)為 β 1 * β 2.....β N。Β· 4更新拉格朗日系數(shù)。(1)統(tǒng)計人臉ROI編碼單元的實際編碼方式(SKIP、DIRECT、幀內(nèi)、幀間等)、運動補償預(yù)測失真值及重建失真值。運動補償預(yù)測失真值對應(yīng)人臉ROI編碼單元與其在視頻編碼運動搜索相應(yīng)的編碼單元之間的絕對差均值,重建失真值則對應(yīng)人臉ROI編碼單元與其在視頻編碼后的重建單元之間的絕對差均值。(2)若當(dāng)前人臉ROI編碼單元為當(dāng)前幀最后一個人臉ROI編碼單元(按空間順序從前向后從上向下),計算所有已編碼GOP及當(dāng)前GOP內(nèi)已編碼幀中以幀內(nèi)方式進(jìn)行編碼的人臉ROI編碼單元百分比、人臉ROI編碼單元的平均運動補償預(yù)測失真值及人臉ROI編碼單元的平均重建失真值。否則,跳至STEP 3。(3)調(diào)整拉格朗日系數(shù)。相應(yīng)的調(diào)整公式為,公式
權(quán)利要求
1.人臉區(qū)域時域依賴性與全局率失真優(yōu)化相結(jié)合的會話視頻編碼方法,利用人臉感興趣區(qū)域ROI在同一圖像組GOP內(nèi)相鄰編碼幀之間的時域依賴性,提前估計人臉ROI的失真度及其擴(kuò)散影響,為最佳運動向量及模式劃分選擇提供有效的輔助手段,以實現(xiàn)視頻序列整體及人臉ROI在主客觀質(zhì)量上的同步提高,其實現(xiàn)方式包括如下的系列步驟A.在編碼會話視頻序列各GOP之前對當(dāng)前GOP內(nèi)所有編碼幀進(jìn)行人臉ROI檢測,從而確定人臉ROI編碼單元的具體位置;B.根據(jù)當(dāng)前編碼單元是否屬于人臉R0I,選擇不同的RDO方法進(jìn)行優(yōu)化編碼對于人臉ROI編碼單元,B. 1構(gòu)造人臉ROI編碼單元時域擴(kuò)散鏈,構(gòu)造方法如下(1)對會話視頻序列的當(dāng)前編碼GOP內(nèi)各編碼單元進(jìn)行前向運動搜索,以獲得各編碼單元在下一幀中最佳匹配單元位置,記錄對應(yīng)的前向運動向量及前向預(yù)測差值;該步驟在當(dāng)前GOP內(nèi)僅進(jìn)行一次;(2)根據(jù)步驟(1)中得到的前向運動向量推導(dǎo)人臉ROI編碼單元在當(dāng)前GOP下一編碼幀中的擴(kuò)散位置,該擴(kuò)散位置所對應(yīng)的與人臉ROI編碼單元大小相同的單元稱為人臉ROI 擴(kuò)散單元;區(qū)別起見,本步驟人臉ROI擴(kuò)散單元稱為1號人臉ROI擴(kuò)散單元,存儲人臉ROI 編碼單元的前向預(yù)測差值及1號人臉ROI擴(kuò)散單元的位置;(3)將步驟O)中1號人臉ROI擴(kuò)散單元中心所在的實際編碼單元的前向運動向量作為該人臉ROI擴(kuò)散單元的前向運動向量,從而得到其在當(dāng)前GOP的再下一個編碼幀中的擴(kuò)散位置;該擴(kuò)散位置所對應(yīng)的與人臉ROI編碼單元大小相同的單元即為人臉ROI編碼單元在當(dāng)前GOP的再下一個編碼幀中的人臉ROI擴(kuò)散單元,稱為2號人臉ROI擴(kuò)散單元;此處所得到的擴(kuò)散單元不應(yīng)超出發(fā)明內(nèi)容步驟A中所得到的當(dāng)前編碼幀中人臉ROI范圍,若超出則將擴(kuò)散單元水平平移至人臉ROI范圍內(nèi)作為2號人臉ROI擴(kuò)散單元,若平移后仍超出人臉ROI范圍則繼續(xù)垂直平移直至擴(kuò)散單元完全位于人臉ROI范圍內(nèi);同時,根據(jù)步驟(2)所得到的1號人臉ROI擴(kuò)散單元在各實際編碼單元上的比例情況,將各實際編碼單元的前向預(yù)測差值按比例求和作為1號人臉ROI擴(kuò)散單元的前向預(yù)測差值,存儲1號人臉ROI擴(kuò)散單元前向預(yù)測差值及2號人臉ROI擴(kuò)散單元的位置;(4)重復(fù)步驟C3)處理后續(xù)的人臉ROI擴(kuò)散單元,直至人臉ROI擴(kuò)散單元位于當(dāng)前GOP 的最后一幀時,將人臉ROI編碼單元及其在后續(xù)幀上的所有擴(kuò)散單元連接在一起形成人臉 ROI編碼單元時域擴(kuò)散鏈,各前向預(yù)測差值保存供后述步驟使用;B. 2計算人臉ROI編碼單元及人臉ROI編碼單元時域擴(kuò)散鏈上所有擴(kuò)散單元的失真度估計值,失真度估計方法為如下公式 l:D = DMCP·F(42Q/^D^p)其中D為失真度估計值,Dmcp為時域擴(kuò)散鏈上當(dāng)前編碼單元的上一個編碼單元或擴(kuò)散單元的前向預(yù)測差值,Q為量化步長,公式1中的F( □)函數(shù),其計算方法如下,公式2
全文摘要
本發(fā)明公開了一種人臉區(qū)域時域依賴性與全局率失真優(yōu)化相結(jié)合的會話視頻編碼方法,利用人臉感興趣區(qū)域ROI在同一圖像組GOP內(nèi)相鄰編碼幀之間的時域依賴性,提前估計人臉ROI的失真度及其擴(kuò)散影響,為最佳運動向量及模式劃分選擇提供有效的輔助手段。采用本發(fā)明方法,從全局的角度側(cè)重優(yōu)化人臉ROI編碼單元,較好保證了人臉ROI編碼單元及未來以其作為參考的編碼單元的主客觀質(zhì)量,避免了傳統(tǒng)編碼過程中因失真度擴(kuò)散所引起的額外比特開銷,在維持或提升編碼圖像主客觀質(zhì)量的前提下,有效降低了會話視頻編碼碼率,改善了編碼性能,完全兼容于傳統(tǒng)的順序編碼結(jié)構(gòu),適用于視頻存儲及實時性要求大于一個GOP延時的實時視頻編碼等應(yīng)用場合。
文檔編號H04N7/26GK102547293SQ201210034708
公開日2012年7月4日 申請日期2012年2月16日 優(yōu)先權(quán)日2012年2月16日
發(fā)明者彭強, 楊天武, 王瓊?cè)A, 范小九 申請人:西南交通大學(xué)