專利名稱:使用ρ域位分配的視頻電話中的關(guān)注區(qū)編碼的制作方法
技術(shù)領(lǐng)域:
本揭示內(nèi)容涉及數(shù)字視頻編碼,且更明確地說,涉及用于視頻電話(VT)應用的編碼關(guān)注區(qū)(ROI)信息的技術(shù)。
背景技術(shù):
已經(jīng)為編碼數(shù)字視頻序列建立了許多不同的視頻編碼標準。舉例來說,移動圖片專家組(MPEG)已經(jīng)開發(fā)出許多標準,包含MPEG-1、MPEG-2和MPEG-4。其它實例包含國際電信聯(lián)盟(ITU)H.263標準和新興的H.264標準。這些視頻編碼標準通常支持通過以壓縮方式編碼數(shù)據(jù)而改進視頻序列的傳輸效率。
視頻電話(VT)允許用戶共享視頻和音頻信息以支持例如視頻會議的應用。示范性視頻電話標準包含由對話啟始協(xié)議(SIP)界定的那些標準、ITU H.323標準和ITU H.324標準。在VT系統(tǒng)中,用戶可發(fā)送并接收視頻信息,僅接收視頻信息,或僅發(fā)送視頻信息。接收者通常以視頻信息從發(fā)送者傳輸?shù)男问接^看所接收的視頻信息。
已提議對視頻信息的選定部分進行優(yōu)先編碼。舉例來說,發(fā)送者可指定以較高質(zhì)量編碼關(guān)注區(qū)(ROI)以用于傳輸?shù)浇邮照?。發(fā)送者可能希望對遠程接收者強調(diào)所述ROI。盡管發(fā)送者可能希望將注意力集中在視頻場景內(nèi)的其它對象上,但ROI的典型實例是人臉。利用對ROI的優(yōu)先編碼,與非ROI區(qū)相比,接收者能夠較清楚地觀看ROI。
發(fā)明內(nèi)容
本揭示內(nèi)容針對用于視頻電話(VT)的關(guān)注區(qū)(ROI)編碼的技術(shù)。所揭示的技術(shù)包含用于適應性地跳過視頻幀的非ROI區(qū)域以保留編碼位以供分配到ROI的技術(shù)。所揭示的技術(shù)還包含用于在ρ域內(nèi)以宏區(qū)塊(MB)級使用經(jīng)加權(quán)位分配模型將位分配到ROI的技術(shù)。另外,所揭示的技術(shù)包含用于產(chǎn)生針對ROI視頻的質(zhì)量度量的技術(shù),其在評估經(jīng)編碼視頻序列的質(zhì)量時共同考慮用戶對ROI的關(guān)注程度、ROI視頻保真度和ROI感知質(zhì)量。
非ROI跳過技術(shù)用于增強ROI的圖像質(zhì)量,而不會使非ROI區(qū)的圖像質(zhì)量顯著降級。明確地說,非ROI跳過技術(shù)可保留非ROI位以提供額外位用于分配到ROI??蓱觅|(zhì)量度量來使位分配技術(shù)偏移以增強經(jīng)編碼視頻場景中的主觀圖像質(zhì)量。ρ域中的位分配可提供對ROI量化的較準確且一致的控制以便增強視覺質(zhì)量。非ROI跳過、ρ域位分配和質(zhì)量度量可共同或單獨使用以實現(xiàn)對ROI和非ROI編碼的有效控制。
在一個實施例中,本揭示內(nèi)容提供一種方法,所述方法包括基于先前幀的視頻保真度、先前幀的感知質(zhì)量和用戶對關(guān)注區(qū)的偏好來產(chǎn)生含有關(guān)注區(qū)的經(jīng)編碼視頻幀的質(zhì)量度量。
在另一實施例中,本揭示內(nèi)容提供一種裝置,所述裝置包括視頻編碼器,其編碼含有關(guān)注區(qū)的視頻幀;以及質(zhì)量度量計算器,其基于先前幀的視頻保真度、先前幀的感知質(zhì)量和用戶對關(guān)注區(qū)的偏好來產(chǎn)生視頻幀的質(zhì)量度量。
在又一實施例中,本揭示內(nèi)容提供一種方法,所述方法包括獲得視頻幀內(nèi)的關(guān)注區(qū)界定;獲得界定可用于所述幀的編碼位的數(shù)目的幀預算;以及基于所述幀預算和關(guān)注區(qū)內(nèi)的宏區(qū)塊與視頻幀的不在關(guān)注區(qū)內(nèi)的區(qū)域內(nèi)的宏區(qū)塊之間的加權(quán)將ρ域值分配到幀內(nèi)的宏區(qū)塊。
在額外實施例中,本揭示內(nèi)容提供一種裝置,所述裝置包括關(guān)注區(qū)映射器,其產(chǎn)生視頻幀內(nèi)的關(guān)注區(qū)界定;幀級速率控制器,其產(chǎn)生界定可用于所述幀的編碼位的數(shù)目的幀預算;以及位分配模塊,其基于所述幀預算和關(guān)注區(qū)內(nèi)的宏區(qū)塊與視頻幀的不在關(guān)注區(qū)內(nèi)的區(qū)域內(nèi)的宏區(qū)塊之間的加權(quán)將ρ域值分配到幀內(nèi)的宏區(qū)塊。
在另一實施例中,本揭示內(nèi)容提供一種方法,所述方法包括將連續(xù)幀分組為幀單元;編碼所述幀單元中各個幀內(nèi)的關(guān)注區(qū);以及針對所述幀單元中的至少一個幀跳過對不在各個關(guān)注區(qū)內(nèi)的區(qū)域的編碼。
在又一實施例中,本揭示內(nèi)容提供一種裝置,所述裝置包括關(guān)注區(qū)映射器,其產(chǎn)生視頻幀內(nèi)的關(guān)注區(qū)界定;視頻編碼器,其編碼視頻幀;以及跳過模塊,其將分組連續(xù)幀分組為幀單元,引導視頻編碼器編碼所述幀單元中各個幀內(nèi)的關(guān)注區(qū),并引導視頻編碼器針對所述幀單元中的至少一個幀跳過對不在各個關(guān)注區(qū)內(nèi)的區(qū)域的編碼。
本文描述的技術(shù)可在硬件、軟件、固件或其任何組合中實施。如果在軟件中實施,那么可部分通過計算機可讀媒體來實現(xiàn)所述技術(shù),所述計算機可讀媒體包括含有在執(zhí)行時會執(zhí)行本文描述的方法中的一者或一者以上的指令的程序代碼。
附圖和以下描述內(nèi)容中陳述了一個或一個以上實施例的細節(jié)。從描述內(nèi)容和附圖以及從權(quán)利要求書中將容易了解其它特征、目的和優(yōu)點。
圖1是說明并入有ROI啟用視頻編解碼器(CODEC)的視頻編碼和解碼系統(tǒng)的方框圖。
圖2是說明與無線通信裝置相關(guān)聯(lián)的顯示器上呈現(xiàn)的視頻場景內(nèi)的ROI界定的圖。
圖3A和3B是說明圖2中描繪的視頻場景的ROI和非ROI區(qū)域的圖。
圖4是說明并入有具有非ROI跳過模塊、ROIρ域位分配模塊和ROI權(quán)重計算器的ROI啟用編碼器的視頻通信裝置的方框圖。
圖5是說明ROI質(zhì)量度量計算器的方框圖。
圖6是進一步說明并入有用于ROI質(zhì)量度量計算的ROI用戶偏好輸入裝置的無線通信裝置的圖。
圖7是說明使用ROI質(zhì)量度量計算器來分析視頻序列以優(yōu)化由視頻編碼器應用的編碼參數(shù)的方框圖。
圖8是說明使用ROI質(zhì)量度量計算器來分析經(jīng)編碼視頻以調(diào)節(jié)由視頻編碼器應用的編碼參數(shù)的方框圖。
圖9是說明針對經(jīng)編碼視頻的ROI質(zhì)量度量計算的流程圖。
圖10是說明針對視頻序列的ROI質(zhì)量度量計算的流程圖。
圖11是說明ROIρ域位分配的流程圖。
圖12是將使用經(jīng)加權(quán)位分配模型的編碼技術(shù)與最佳解決方案的總體感知質(zhì)量進行比較的曲線圖。
圖13是說明非ROI跳過技術(shù)的流程圖。
圖14是說明將連續(xù)幀分組為幀單元以支持非ROI跳過的圖。
圖15是說明編碼連續(xù)ROI區(qū)域以及共同非ROI區(qū)域以支持非ROI跳過的圖。
圖16是將使用標準位分配、經(jīng)加權(quán)位分配和背景跳過的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖,其中用戶偏好因數(shù)α=0.9。
圖17是將使用標準位分配、經(jīng)加權(quán)位分配和背景跳過的ROI編碼技術(shù)的總體視頻保真度進行比較的曲線圖,其中用戶偏好因數(shù)α=0.9。
圖18是將使用標準位分配、經(jīng)加權(quán)位分配和背景跳過的ROI編碼技術(shù)的ROI視頻保真度進行比較的曲線圖,其中用戶偏好因數(shù)α=0.9。
圖19是將使用標準位分配、經(jīng)加權(quán)位分配和背景跳過的ROI編碼技術(shù)的非ROI視頻保真度進行比較的曲線圖,其中用戶偏好因數(shù)α=0.9。
圖20是將使用標準位分配、經(jīng)加權(quán)位分配和背景跳過的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖,其中用戶偏好因數(shù)α=0.7。
圖21是將使用標準位分配、經(jīng)加權(quán)位分配和背景跳過的ROI編碼技術(shù)的總體視頻保真度進行比較的曲線圖,其中用戶偏好因數(shù)α=0.7。
圖22是將使用標準位分配、經(jīng)加權(quán)位分配和背景跳過的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖,其中用戶偏好因數(shù)α=0.5。
圖23是將使用標準位分配、經(jīng)加權(quán)位分配和背景跳過的ROI編碼技術(shù)的總體視頻保真度進行比較的曲線圖,其中用戶偏好因數(shù)α=0.5。
圖24是將在各種用戶偏好因數(shù)值下使用標準幀跳過和非ROI跳過的ROI編碼技術(shù)的感知質(zhì)量進行比較的曲線圖。
圖25是將當非ROI跳過開啟和關(guān)閉時ROI編碼技術(shù)的感知質(zhì)量進行比較的曲線圖。
圖26是說明示范性視頻序列上由非ROI跳過引起的失真的曲線圖。
圖27是將使用非ROI跳過、沒有非ROI跳過和適應性非ROI跳過的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖。
圖28是將在一編碼速率范圍內(nèi)針對示范性視頻序列使用各種位分配技術(shù)的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖。
圖29是將在40千位每秒(kps)的編碼速率下使用各種位分配技術(shù)的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖。
圖30是將在40千位每秒(kps)的編碼速率下使用各種位分配技術(shù)的ROI編碼技術(shù)的總體視頻保真度進行比較的曲線圖。
圖31是將在40千位每秒(kps)的編碼速率下使用各種位分配技術(shù)的ROI編碼技術(shù)的ROI視頻保真度進行比較的曲線圖。
圖32是將在40千位每秒(kps)的編碼速率下使用各種位分配技術(shù)的ROI編碼技術(shù)的非ROI視頻保真度進行比較的曲線圖。
圖33是將在一編碼速率范圍內(nèi)針對另一示范性視頻序列使用各種位分配技術(shù)的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖。
具體實施例方式 圖1是說明并入有ROI啟用視頻編解碼器(CODEC)的視頻編碼和解碼系統(tǒng)10的方框圖。如圖1所示,系統(tǒng)10包含第一視頻通信裝置12和第二視頻通信裝置14。通信裝置12、14通過傳輸通道16連接。傳輸通道16可以是有線或無線通信媒體。系統(tǒng)10支持視頻通信裝置12、14之間的用于視頻電話的雙向視頻傳輸。裝置12、14可以大體上對稱的方式進行操作。然而,在一些實施例中,視頻通信裝置12、14中的一者或兩者可經(jīng)配置以僅用于單向通信以支持ROI啟用視頻串流。
視頻通信裝置12、14中的一者或兩者可經(jīng)配置以針對視頻電話(VT)應用ROI編碼技術(shù),如本文所描述。ROI編碼技術(shù)包含適應性地跳過非ROI區(qū)以保留編碼位以供分配到ROI;以視頻區(qū)塊級(例如,ρ域內(nèi)的宏區(qū)塊(MB)級)使用經(jīng)加權(quán)位分配模型將位分配到ROI;以及產(chǎn)生ROI視頻的ROI視頻質(zhì)量度量,其在評估經(jīng)編碼視頻序列的質(zhì)量時共同考慮用戶對ROI的關(guān)注程度、ROI視頻保真度和ROI感知質(zhì)量。ρ(rho)參數(shù)表示視頻區(qū)塊(例如,MB)中的非零AC系數(shù)的數(shù)目。ρ域中的速率控制趨向于比QP域中的速率控制準確。非ROI跳過、ρ域位分配和質(zhì)量度量可共同或單獨使用以實現(xiàn)對ROI和非ROI編碼的有效控制。
宏區(qū)塊是形成幀的一部分的視頻區(qū)塊。MB的大小可為16×16像素。然而,其它MB大小也是可能的。本文將出于說明的目的描述宏區(qū)塊,應了解宏區(qū)塊或其它視頻區(qū)塊可具有多種不同大小。
對于雙向應用,互逆編碼、解碼、多路復用(MUX)和解多路復用(DEMUX)組件可提供在通道16的相對端上。在圖1的實例中,視頻通信裝置12包含MUX/DEMUX組件18、ROI啟用視頻CODEC 20和音頻CODEC 22。類似地,視頻通信裝置14包含MUX/DEMUX組件26、ROI啟用視頻CODEC 28和音頻CODEC 30。
系統(tǒng)10可根據(jù)對話啟始協(xié)議(SIP)、ITU H.323標準、ITU H.324標準或其它標準支持視頻電話。每一視頻CODEC 20、28根據(jù)例如MPEG-2、MPEG-4、ITU H.263或ITU H.264的視頻壓縮標準而產(chǎn)生經(jīng)編碼的視頻數(shù)據(jù)。如圖1中進一步展示,視頻CODEC 20、28可與各自音頻CODEC 22、30集成,且包含適當?shù)腗UX/DEMUX組件18、26以處理數(shù)據(jù)流的音頻和視頻部分。音頻部分可攜帶聲音或其它音頻內(nèi)容。MUX-DEMUX單元18、26可符合ITU H.223多路復用器協(xié)議或例如用戶數(shù)據(jù)報協(xié)議(UDP)的其它協(xié)議。
每一ROI啟用視頻CODEC 20、28可能能夠處理由各自視頻通信裝置12、14的本地用戶本地提供的ROI信息或由其它視頻通信裝置12、14的遠程用戶遠程提供的ROI信息。舉例來說,視頻通信裝置12的本地用戶可指定由視頻通信裝置12本地產(chǎn)生的“近端”視頻中的ROI以向裝置14的遠程用戶強調(diào)所傳輸視頻的區(qū)。相反,視頻通信裝置12的本地用戶可指定由視頻通信裝置14遠程產(chǎn)生的“遠端”視頻中的ROI,并將所述ROI傳送到遠程視頻通信裝置。在此情況下,視頻通信裝置12的用戶遠程控制視頻通信裝置14對ROI的優(yōu)先編碼(例如)以較清楚地觀看從視頻通信裝置14接收的視頻中的ROI。
視頻通信裝置12、14可實施為經(jīng)裝備以用于視頻串流、視頻電話或兩者的無線移動終端或有線終端。為此目的,視頻通信裝置12、14可進一步包含適當?shù)臒o線發(fā)射器、接收器、調(diào)制解調(diào)器和處理電子元件以支持無線通信。無線移動終端的實例包含移動無線電話、移動個人數(shù)字助理(PDA)、移動計算機或裝備有無線通信能力和視頻編碼和/或解碼能力的其它移動裝置。有線終端的實例包含桌上型計算機、視頻電話、網(wǎng)絡(luò)設(shè)備、機頂盒、交互式電視等。任一視頻通信裝置12、14可經(jīng)配置以發(fā)送視頻信息、接收視頻信息,或發(fā)送并接收視頻信息。
對于視頻電話應用,通常需要裝置12支持視頻發(fā)送和視頻接收能力兩者。然而,還預期串流視頻應用。在視頻電話且尤其是借助無線通信的移動視頻電話中,帶寬是重要的考慮因素,因為通常需要極低的位速率。明確地說,通信通道16可能具有有限帶寬,從而使經(jīng)由通道16的優(yōu)質(zhì)視頻序列的有效實時傳輸非常具有挑戰(zhàn)性。舉例來說,通信通道16可以是無線通信鏈路,其由于通道16的物理約束或者可能由通信通道16的提供商所強加的服務質(zhì)量(QoS)限制或帶寬分配約束的緣故而具有有限帶寬。
因此,將額外編碼位選擇性地分配到ROI、較強的誤差防護或其它優(yōu)先編碼步驟可改進視頻的一部分的圖像質(zhì)量,且同時維持總體編碼效率。對于優(yōu)先編碼,可將額外位分配到ROI,同時可將減少的數(shù)目的位分配到非ROI區(qū)(例如視頻場景中的背景)。非ROI區(qū)域?qū)⒈环Q為“背景”區(qū)域,但非ROI區(qū)域更通常地包含視頻場景中不形成ROI的一部分的任何區(qū)域。因此,本揭示內(nèi)容中可互換使用術(shù)語非ROI和背景來指代不在指定ROI內(nèi)的區(qū)域。
一般來說,系統(tǒng)10采用用于視頻電話(VT)應用的關(guān)注區(qū)(ROI)處理技術(shù)。然而,此類技術(shù)也可應用于視頻串流應用,如上文所提及。出于說明的目的,將假定每一視頻通信裝置12、14能夠作為視頻信息的發(fā)送者和接收者兩者來操作,且借此作為VT對話中的全額參與者來操作。對于從視頻通信裝置12向視頻通信裝置14傳輸?shù)囊曨l信息,視頻通信裝置12是發(fā)送者裝置且視頻通信裝置14是接收者裝置。相反,對于從視頻通信裝置14向視頻通信裝置12傳輸?shù)囊曨l信息,視頻通信裝置12是接收者裝置且視頻通信裝置14是發(fā)送者裝置。本文描述的技術(shù)也可應用于僅發(fā)送或僅接收此類視頻的裝置。當討論待由本地視頻通信裝置12、14編碼和傳輸?shù)囊曨l信息時,所述視頻信息可被稱為“近端”視頻,如上文所提及。當討論待由遠程視頻通信裝置12、14編碼并從遠程視頻通信裝置12、14接收的視頻信息時,所述視頻信息可被稱為“遠端”視頻。
根據(jù)所揭示的技術(shù),當作為接收者裝置操作時,視頻通信裝置12或14針對從發(fā)送者裝置接收的遠端視頻信息界定ROI信息。再次,從發(fā)送者裝置接收的視頻信息將被稱為“遠端”視頻信息,因為其是從位于通信通道的遠端處的另一(發(fā)送者)裝置接收的。同樣,針對從發(fā)送者裝置接收的視頻信息而界定的ROI信息將被稱為“遠端”ROI信息。遠端ROI通常是指遠端視頻內(nèi)最引起遠端視頻接收者關(guān)注的區(qū)。接收者裝置解碼遠端視頻信息并將經(jīng)解碼的遠端視頻經(jīng)由顯示裝置呈現(xiàn)給用戶。用戶在遠端視頻所呈現(xiàn)的視頻場景內(nèi)選擇ROI。或者,可自動界定ROI。
接收者裝置基于接收者裝置處的用戶選擇的ROI而產(chǎn)生遠端ROI信息,并將所述遠端ROI信息發(fā)送到發(fā)送者裝置,使得發(fā)送者裝置可使用此類信息。遠端ROI信息可采取ROI宏區(qū)塊(MB)映射的形式,其依據(jù)駐存在ROI內(nèi)的MB來界定ROI。ROI MB映射可用1標記處于ROI內(nèi)的MB,且用0標記處于ROI外部的MB,以容易地識別包含在ROI中(1)以及從ROI中排除(0)的MB。
通過使用由接收者裝置傳輸?shù)倪h端ROI信息,發(fā)送者裝置將優(yōu)先編碼應用于視頻場景內(nèi)的相應ROI。明確地說,可將額外編碼位分配到ROI,同時可將減少的數(shù)目的編碼位分配到非ROI區(qū),借此改進ROI的圖像質(zhì)量。以此方式,接收者裝置能夠遠程控制發(fā)送者裝置對遠端視頻信息的ROI編碼。
優(yōu)先編碼例如通過ROI區(qū)域中的優(yōu)先位分配或優(yōu)先量化而向ROI區(qū)域應用比視頻場景的非ROI區(qū)域具有更高質(zhì)量的編碼。經(jīng)優(yōu)先編碼的ROI允許接收者裝置的用戶較清楚地觀看對象或區(qū)。舉例來說,與視頻場景的背景區(qū)相比,接收者裝置的用戶可能希望較清楚地觀看臉部或某一其它對象。
當作為發(fā)送者裝置操作時,視頻通信裝置12或14也可針對由發(fā)送者裝置傳輸?shù)囊曨l信息界定ROI信息。再次,發(fā)送者裝置中產(chǎn)生的視頻信息將被稱為“近端”視頻,因為其是在通信通道的近端處產(chǎn)生的。由發(fā)送者裝置產(chǎn)生的ROI信息將被稱為“近端”ROI信息。
近端ROI通常是指近端視頻中發(fā)送者希望向接收者強調(diào)的區(qū)。因此,ROI可由接收者裝置用戶指定為遠端ROI信息,或由發(fā)送者裝置用戶指定為近端ROI信息。發(fā)送者裝置將近端視頻經(jīng)由顯示裝置呈現(xiàn)給用戶。與發(fā)送者裝置相關(guān)聯(lián)的用戶在近端視頻所呈現(xiàn)的視頻場景內(nèi)選擇ROI。發(fā)送者裝置使用用戶選擇的ROI來編碼近端視頻,使得相對于非ROI區(qū)域,近端視頻中的ROI被(例如)以較高質(zhì)量編碼進行優(yōu)先編碼。
由發(fā)送者裝置處的本地用戶選擇或界定的近端ROI允許發(fā)送者裝置的用戶強調(diào)視頻場景內(nèi)的區(qū)或?qū)ο?,且借此使此類區(qū)或?qū)ο笠鸾邮照哐b置用戶的注意。值得注意的是,由發(fā)送者裝置用戶選擇的近端ROI無需傳輸?shù)浇邮照哐b置。而是,發(fā)送者裝置在將所選擇的近端ROI信息傳輸?shù)浇邮照哐b置之前使用所述信息在本地編碼近端視頻。然而,在一些實施例中,發(fā)送者裝置可將ROI信息發(fā)送到接收者裝置以允許應用優(yōu)先解碼技術(shù),例如較高質(zhì)量誤差校正或后處理。
如果ROI信息由發(fā)送者裝置和接收者裝置兩者提供,那么發(fā)送者裝置應用從接收者裝置接收的遠端ROI信息或本地產(chǎn)生的近端ROI信息來編碼近端視頻。在發(fā)送者裝置與接收者裝置提供的近端與遠端ROI選擇之間可能出現(xiàn)ROI沖突。此類沖突可能需要解決,例如由本地用戶主動解決或根據(jù)所規(guī)定的存取權(quán)利和等級來解決。在任一情況下,發(fā)送者裝置均基于由發(fā)送者裝置本地提供的或由接收者裝置遠程提供的近端ROI信息來優(yōu)先編碼ROI。
給定由本地用戶或遠程用戶指定的ROI,本揭示內(nèi)容大體上集中在ROI編碼技術(shù)上。明確地說,本揭示內(nèi)容依據(jù)視頻場景內(nèi)ROI與非ROI區(qū)域之間的位分配來敘述優(yōu)先編碼ROI的方式。可應用ROI視頻質(zhì)量度量來偏移ROI與非ROI區(qū)域之間的經(jīng)加權(quán)位分配。視頻質(zhì)量度量在評估經(jīng)編碼視頻序列的質(zhì)量時考慮用戶對ROI的偏好(即,關(guān)注)程度、ROI視頻保真度和ROI感知質(zhì)量。在ρ域內(nèi)應用經(jīng)加權(quán)位分配。另外,可應用非ROI或“背景”跳過算法來保留編碼位以供分配到ROI。
圖2是說明與無線通信裝置36相關(guān)聯(lián)的顯示器34上呈現(xiàn)的視頻場景32內(nèi)的ROI界定的圖。在圖2的實例中,ROI被描繪為矩形ROI 38或非矩形ROI 40。非矩形ROI 40可具有圓形或不規(guī)則形狀。在每一情況下,ROI 38或ROI 40均含有視頻場景32中呈現(xiàn)的人的臉部42。圖3A和3B是說明圖2中描繪的視頻場景32的ROI 38和非ROI區(qū)域43的圖。圖3B中用陰影突出顯示非ROI區(qū)域43(即,背景)。
可由用戶手動、通過裝置36自動或使用用戶的手動ROI描述與裝置36的自動ROI界定的組合來界定ROI 38或40。用戶可選擇矩形ROI 38。非矩形ROI 40可由用戶例如使用鐵筆和觸摸屏幕繪制,或者通過裝置36使用多種對象檢測或分割技術(shù)中的任一者來自動選擇。對于VT應用,ROI 38或40可包含視頻場景32中含有視頻會議參與者的臉部42的部分。ROI 38或40的大小、形狀和位置可以是固定或可調(diào)節(jié)的,且可以多種方式來界定、描述或調(diào)節(jié)。
ROI 38或40允許視頻發(fā)送者強調(diào)所傳輸?shù)囊曨l場景32內(nèi)的個別對象,例如人的臉部42。相反,ROI 38或40允許視頻接收者較清楚地觀看所接收的視頻場景32內(nèi)的所需對象。在任一情況下,ROI 38或40內(nèi)的臉部42均相對于視頻場景32的非ROI區(qū)域(例如,背景區(qū))以較高圖像質(zhì)量進行編碼。以此方式,用戶能夠較清楚地觀看面部表情、唇部活動、眼部活動等。
然而,可使用ROI 38或40來指定除臉部以外的對象。一般來說,VT應用中的ROI可以是非常主觀的且可由于用戶不同而不同。所需的ROI還取決于如何使用VT。在一些情況下,VT可用于觀看和評估對象,這與視頻會議不同。舉例來說,用戶可能希望集中在白色書寫板的含有等式或圖畫的區(qū)域上而并非演講者的臉部,尤其是當演講背對攝像機且朝向白色書寫板進行時。在一些情況下,視頻場景可包含被指定用于優(yōu)先編碼的兩個或兩個以上ROI。
圖4是說明用于視頻通信裝置12中的ROI啟用視頻編碼系統(tǒng)44的方框圖。如圖4所示,系統(tǒng)44包含ROI權(quán)重計算器46、ROIρ域位分配模塊48、非ROI(即,背景)跳過模塊50、ROI宏區(qū)塊(MB)映射器52、幀級速率控制器54、ρ-量化參數(shù)(QP)映射器56、視頻編碼器58和失真分析器60。在圖4中,為便于說明而省略了MUX-DEMUX和音頻組件。
圖4中描繪的各個組件可以多種方式形成,作為離散功能模塊或作為包含歸屬于每一模塊的功能性的單片式模塊。在任一情況下,視頻編碼系統(tǒng)44的各個組件可以硬件、軟件、固件或其組合來實現(xiàn)。舉例來說,此類組件可作為在一個或一個以上微處理器或數(shù)字信號處理器(DSP)、一個或一個以上專用集成電路(ASIC)、一個或一個以上現(xiàn)場可編程門陣列(FPGA)或者其它等效集成或離散邏輯電路上執(zhí)行的軟件程序來操作。
在圖4的實例中,ROI權(quán)重計算器46接收由視頻通信裝置12的本地用戶或視頻通信裝置14的遠程用戶輸入的用戶偏好因數(shù)α。用戶偏好α是ROI的感知重要性因數(shù),其表示從實際用戶的觀點來看ROI的視覺質(zhì)量的重要性。用戶偏好α將用戶對ROI內(nèi)的視覺質(zhì)量的重視程度進行量化。如果用戶強烈重視ROI視覺質(zhì)量,那么α將較高。如果ROI的視覺質(zhì)量較不重要,那么α將較低?;谄忙?,ROI權(quán)重計算器46產(chǎn)生一組權(quán)重wi,其被施加于ROIρ域位分配模塊48以偏移正由視頻編碼器58編碼的視頻幀的非ROI與ROI區(qū)域之間的經(jīng)加權(quán)位分配。可為視頻幀內(nèi)的各個視頻區(qū)塊(例如,宏區(qū)塊(MB))指定權(quán)重wi。ROI權(quán)重計算器46從ROI MB映射器52接收ROI MB映射,并將各自權(quán)重wi分派到由ROI MB映射器52識別的ROI和非ROI MB。具有較高權(quán)重wi的宏區(qū)塊將接收較大數(shù)目的編碼位。
ρ域位分配模塊48從ROI權(quán)重計算器46接收權(quán)重輸入wi,從非ROI背景跳過模塊50接收跳過指示(跳過開啟/關(guān)閉),從ROI MB映射器52接收ROI MB映射,從幀級速率控制器54接收速率預算RBUDGET,并從視頻編碼器58接收經(jīng)編碼MB的標準偏差σ。標準偏差σ可以是運動評估之后獲得的實際剩余物的標準偏差,且可以是來自先前幀的所存儲的剩余物統(tǒng)計。由ROI MB映射器52提供的ROI MB映射識別給定視頻幀內(nèi)的落在指定ROI內(nèi)的MB。使用ROI MB映射,ρ域位分配模塊48出于向ROI MB進行優(yōu)先位分配的目的而區(qū)分ROI MB與非ROI MB,即使用由ROI權(quán)重計算器46提供的權(quán)重wi。位分配模塊48為每一MB產(chǎn)生ρ參數(shù)。ρ參數(shù)表示MB中非零AC系數(shù)的數(shù)目。ρ域中的速率控制趨向于比QP域中的速率控制更準確。
出于本揭示內(nèi)容的目的,假定用于產(chǎn)生ROI MB映射的適宜過程可用。舉例來說,ROI映射過程可基于來自界定ROI的用戶的手動輸入或(例如)使用例如具有可接受準確性的臉部檢測、臉部分割和目標跟蹤的常規(guī)技術(shù)對ROI的自動界定或檢測。在本揭示內(nèi)容中,出于說明的目的,考慮頭部或頭部與肩部視頻序列,但本文描述的技術(shù)可應用于含有除人之外或作為人的替代的多種對象的其它類型的視頻序列。
幀級速率控制器54對視頻序列內(nèi)的各個幀產(chǎn)生位分配。明確地說,幀級速率控制器54產(chǎn)生值RBUDGET,其指示可用于編碼當前幀內(nèi)的所有MB(即,ROI和非ROI MB兩者)的位的數(shù)目。如圖4中進一步展示,ρ域位分配模塊48從非ROI背景跳過模塊50接收跳過指示(跳過開啟/關(guān)閉),其指示將編碼還是跳過當前幀中的背景。如果將跳過背景,那么ρ域位分配模塊48可有效地取回原本將已分配到非ROI的位,并將其重新分配到可用于編碼ROI的位集區(qū)。因此,如果特定幀中跳過是開啟的,那么ρ域位分配模塊48在RBUDGET內(nèi)具有較多位來分配到ROI。如果在特定幀中跳過背景,那么可在其位置中代入來自先前編碼的幀的背景?;蛘撸赏ㄟ^內(nèi)插來產(chǎn)生跳過的背景。
通過使用權(quán)重wi、ROI MB映射、RBUDGET、跳過開啟/關(guān)閉指示和標準偏差σ,ρ域位分配模塊48產(chǎn)生指示每一MB的ρ預算的ρ域輸出。ρ域輸出施加到ρ-QP映射器56,所述ρ-QP映射器56將ρ值映射到每一MB的相應QP值。通過使用幀內(nèi)MB的QP值,視頻編碼器58編碼輸入視頻以產(chǎn)生經(jīng)編碼的視頻。另外,跳過模塊50將跳過指示(跳過開啟/關(guān)閉)提供給視頻編碼器58,以引導視頻編碼器將連續(xù)幀分組為幀單元,編碼幀的ROI區(qū)域,并跳過對幀單元內(nèi)的一個幀的非ROI區(qū)域的編碼。跳過可以是適應性的,因為跳過模塊50可引導視頻編碼器58在與先前幀單元相關(guān)聯(lián)的失真值小于閾值時跳過對幀單元中的一個幀的非ROI區(qū)域的編碼。以此方式,跳過模塊50可基于失真水平而應用適應性跳過以便維持視覺質(zhì)量。
可從與視頻通信裝置12集成或可操作地耦合到視頻通信裝置12的視頻俘獲裝置(例如攝影機)中獲得輸入視頻。舉例來說,在一些實施例中,視頻俘獲裝置可與移動電話集成以形成所謂的攝像電話或視頻電話。以此方式,視頻俘獲裝置40可支持移動VT應用。視頻可在視頻通信裝置12上本地呈現(xiàn),且通過傳輸經(jīng)由顯示裝置在視頻通信裝置14上呈現(xiàn),所述顯示裝置例如液晶顯示器(LCD)、等離子屏幕等,其可與視頻通信裝置12或14集成或可操作地耦合到視頻通信裝置12或14。
失真分析器60分析經(jīng)編碼視頻與原始輸入視頻。舉例來說,失真分析器60將原始輸入視頻幀F(xiàn)與重構(gòu)視頻幀F(xiàn)′進行比較。失真分析器60產(chǎn)生失真值DNONROI_SKIP以供施加到非ROI背景跳過模塊50。失真值DNONROI_SKIP指示是否應跳過下一視頻幀的非ROI區(qū)域。因此,對于當前幀中的適應性非ROI跳過,非ROI跳過模塊50通常可依賴于與先前幀或含有兩個或兩個以上幀的幀單元有關(guān)的失真信息。
如果失真值DNONROI_SKIP超過所需閾值,那么非ROI背景跳過模塊50指示不應跳過下一幀中的非ROI。在此情況下,編碼ROI和非ROI區(qū)域兩者。然而,如果失真值小于所需閾值,那么可跳過非ROI區(qū)域而不會有過度水平的失真。在此情況下,針對先前幀編碼的非ROI區(qū)域用于當前幀中。如將描述,非ROI跳過模塊50可將連續(xù)幀分組為幀單元,并引導視頻編碼器58依據(jù)先前幀單元(即,含有在當前正編碼的幀之前的幀的幀單元)的失真值DNONROI_SKIP而跳過對一個幀的非ROI的編碼。
圖5是說明根據(jù)本揭示內(nèi)容的另一實施例的ROI質(zhì)量度量計算器61的方框圖。圖4的ROI權(quán)重計算器46可形成ROI質(zhì)量度量計算器61的一部分。因此,ROI質(zhì)量度量計算器46的一個產(chǎn)物可能是一組權(quán)重wi,其可基于用戶偏好因數(shù)α以及視頻保真度、空間質(zhì)量和/或時間質(zhì)量值。如圖5所示,ROI質(zhì)量度量計算器61接收用戶偏好值α和一個或一個以上視頻失真值。視頻失真值可劃分為ROI值和非ROI值,且可包含視頻保真度值DRF、DNF、空間質(zhì)量值DRS、DNS以及時間質(zhì)量值DRT、DNT。DRF表示ROI內(nèi)的視頻保真度,而DNF表示非ROI區(qū)內(nèi)的視頻保真度。DRS表示ROI區(qū)域內(nèi)的空間質(zhì)量,而DNS表示非ROI區(qū)域內(nèi)的空間質(zhì)量。DRT表示ROI區(qū)域內(nèi)的時間質(zhì)量,而DNT表示非ROI區(qū)域內(nèi)的時間質(zhì)量。ROI質(zhì)量度量在評估經(jīng)編碼視頻序列的質(zhì)量時共同考慮用戶關(guān)注、視頻保真度和感知質(zhì)量(空間、時間或兩者)。在一些實施例中,所述度量可用于偏移由ρ域位分配模塊48應用的位分配算法以實現(xiàn)較好的主觀視覺質(zhì)量。
盡管已廣泛地學習了ROI視頻編碼,但尚未充分詳細地敘述針對ROI視頻的質(zhì)量測量。大多數(shù)質(zhì)量測量技術(shù)使用峰值信號噪聲比(PSNR)作為失真測量來評估視頻幀的ROI和非ROI部分的質(zhì)量。ROI視頻質(zhì)量度量不僅可用于分析目的,而且可用作輸入來朝向主觀視覺有利的解決方案偏移經(jīng)加權(quán)位分配技術(shù)(例如,如圖4的位分配模塊48所應用)。一般來說,如上文論述,ROI視頻質(zhì)量的評估考慮至少三個方面用戶對ROI視覺質(zhì)量的關(guān)注或偏好α、重構(gòu)視頻數(shù)據(jù)的視頻保真度以及重構(gòu)視頻數(shù)據(jù)的感知質(zhì)量(空間、時間或兩者)。
用戶偏好α直接決定將視頻幀分類為ROI和非ROI部分及其相關(guān)聯(lián)的感知重要性因素。在視頻電話應用中,發(fā)言者的臉部區(qū)是典型的ROI,因為人類的面部表情非常復雜且較小的變化可傳達大量信息。對于視頻保真度因素,PSNR是良好測量,其指示重構(gòu)視頻幀與原始幀相比的失真總量。重構(gòu)幀是通過解碼經(jīng)編碼的視頻幀而產(chǎn)生的,而原始幀是編碼之前的視頻幀。
在許多情況下,視頻保真度將是視頻編碼的最重要的考慮因素,其中任何改進均可能產(chǎn)生更好的主觀視覺質(zhì)量。然而,情況并非總是如此,這就是為什么在一些情況下還應考慮感知質(zhì)量因素。感知質(zhì)量考慮空間誤差和時間誤差兩者??臻g誤差可包含成塊(即,塊效應)、環(huán)繞假象或兩者的存在。時間誤差可包含時間閃爍的存在,即當視頻幀的視覺質(zhì)量沿著時間軸不均勻地變化時。時間誤差可導致視頻序列中的常變運動,這是不合需要的。
DR和DNR表示ROI和非ROI的標準化每像素失真,且α表示ROI感知重要性因數(shù)。如果假定可在視頻質(zhì)量評估中將上文提及的各方面之間的關(guān)系簡化為線性函數(shù),那么視頻序列的總體失真可表示為 其中fi和
是視頻序列中的M個幀內(nèi)的第i個原始和重構(gòu)幀,β和γ是加權(quán)因數(shù),DR和DNR是ROI和非ROI的總體失真,DRF、DRS和DRT是ROI的保真度、空間感知質(zhì)量和時間感知質(zhì)量的標準化誤差,且DNF、DNS和DNT是其對于非ROI區(qū)域的對應物。應當向值α、β和γ指派介于0與1之間的實值。所得的質(zhì)量度量可用作成本函數(shù)以用公式表示經(jīng)加權(quán)位分配中的ρ參數(shù)的優(yōu)化問題或用于ROI處理中的其它問題。
在低位速率視頻應用(例如無線視頻電話)中,成塊(即,塊效應)、假象是空間感知質(zhì)量的主要問題。這種假象是由量化引起的,其中大多數(shù)高頻系數(shù)被移除,即設(shè)定為零。所得效果是經(jīng)平滑的圖像區(qū)塊使區(qū)塊邊界相當明顯。在極低的位速率情況下,將僅編碼DC系數(shù),這使得經(jīng)解碼的圖像成為分段的恒定區(qū)塊。在本揭示內(nèi)容中,將ROI空間質(zhì)量值DRS(對于DNS是類似的)定義為標準化塊效應失真,其可表示為
其中,檢查區(qū)塊之間的邊界以查明是否存在可感知的不連續(xù)性。在S.Minami和A.Zakhor的“An optimization approach for removing blocking effects in transform coding”(IEEE Trans.Circuits Systems for Video Technology,第5卷,第2期,第74-82頁,1995年4月)中描述了一種適宜的不連續(xù)性檢測方法,其檢查區(qū)塊邊界上的強度斜率均方差的總和,所述文章的全部內(nèi)容以引用的方式并入本文中。此方法假設(shè),區(qū)塊邊界兩側(cè)的斜率應當是相同的,且可能由于量化的緣故引起斜率的急劇變化。
在等式(1)中,基于視頻序列中所有幀的DRS(或DNS)的方差,將DRT(或DNT)值定義為在
范圍內(nèi)的指派分數(shù)。以此方式,視頻保真度、空間感知質(zhì)量和時間感知質(zhì)量的各項得以標準化,且可通過加權(quán)參數(shù)α、β和γ橋接以形成可控制的視頻質(zhì)量測量。這些加權(quán)參數(shù)的選擇由用戶基于其要求和期望來確定。再次,此測量可有用地作為輸入以朝向有利于主觀感知而偏移位分配過程。因此,用戶可在ROI編碼方面實現(xiàn)視覺上較合意的結(jié)果。
圖6是說明并入有用于ROI質(zhì)量度量計算的ROI用戶偏好輸入裝置62的無線通信裝置36的圖。在圖6中,無線通信裝置36大體上與圖2一致,但進一步并入有輸入裝置62以俘獲用戶偏好α,所述用戶偏好α指定分派到視頻場景32的ROI和非ROI部分的相對重要性。在圖6的實例中,輸入裝置62展示為具有滑塊64的滑動條的形式,所述滑塊64可沿著滑動條的長度移動以指示用戶偏好程度α。
通過使用輸入裝置62,用戶可例如通過質(zhì)量度量計算器61來選擇性地調(diào)節(jié)用戶偏好α以便以動態(tài)基礎(chǔ)影響ROI位分配。隨著用戶偏好α變化,視頻幀的ROI與非ROI部分之間的位分配可發(fā)生變化。盡管圖6中描繪水平滑動條,但輸入裝置62可由例如垂直滑動條、按鈕、刻度盤、下拉百分比菜單等多種等效輸入媒體中的任一者來實施。此類輸入媒體可經(jīng)由觸摸屏或多種硬鍵、軟鍵、指向裝置等中的任一者來操縱。
圖7是說明使用ROI質(zhì)量度量計算器61來分析視頻序列以優(yōu)化由ROI啟用視頻編碼器63應用的編碼參數(shù)的方框圖。如圖7所示,在視頻序列由ROI啟用視頻編碼器63編碼之前,應用ROI質(zhì)量度量計算器61來分析傳入視頻序列的失真值。因此,ROI質(zhì)量度量計算器分析視頻位流的失真值,例如參看圖5描述的?;谑д嬷岛陀脩羝弥郸?,ROI質(zhì)量度量計算器產(chǎn)生一組經(jīng)優(yōu)化的參數(shù)以供視頻編碼器63使用來編碼傳入的視頻序列。經(jīng)優(yōu)化的參數(shù)可包含由位分配模塊用來在視頻幀的ROI與非ROI區(qū)域之間分配編碼位的權(quán)重,或位分配中使用的其它參數(shù)的值,例如加權(quán)因數(shù)β和γ。在某種意義上,圖7表示開放式環(huán)路實施方案,其中ROI質(zhì)量度量計算器61在編碼之前分析傳入的視頻流,但不分析經(jīng)編碼的視頻。質(zhì)量度量導致產(chǎn)生最佳編碼參數(shù)以供編碼器63使用。
圖8是說明使用ROI質(zhì)量度量計算器61來分析經(jīng)編碼視頻以調(diào)節(jié)由ROI啟用視頻編碼器63應用的編碼參數(shù)的方框圖。在圖8的實例中,ROI質(zhì)量度量計算器61分析與經(jīng)編碼視頻相關(guān)聯(lián)的失真值以及用戶偏好值α,以產(chǎn)生對于由ROI啟用視頻編碼器63使用的編碼參數(shù)的調(diào)節(jié)。因此,ROI質(zhì)量度量計算器61在視頻已由ROI啟用視頻編碼器63編碼之后分析所述視頻,并以閉合式環(huán)路基礎(chǔ)產(chǎn)生調(diào)節(jié)(例如)以改進視頻編碼器的性能和經(jīng)編碼視頻的質(zhì)量。對編碼參數(shù)的調(diào)節(jié)可包含調(diào)節(jié)由位分配模塊用來在視頻幀的ROI與非ROI區(qū)域之間分配編碼位的權(quán)重,或位分配中使用的其它參數(shù)的值,例如加權(quán)因數(shù)β和γ。在圖8的實例中,質(zhì)量度量用于在環(huán)路中迭代地編碼和評估質(zhì)量,直到質(zhì)量度量與閾值的比較令人滿意為止。在每次迭代中,質(zhì)量度量計算器61發(fā)送一組改進的編碼參數(shù)。最終,迭代由于質(zhì)量度量閾值滿足或結(jié)果收斂而停止。
圖9是說明ROI質(zhì)量度量計算的流程圖。如圖9所示,給定適用的ROI MB映射,ROI質(zhì)量度量計算器46獲得ROI用戶偏好α(68)并編碼視頻幀的ROI和非ROI部分(70)。當重構(gòu)經(jīng)編碼視頻幀時,失真分析器60分析先前編碼的視頻幀和原始視頻幀以分別確定先前視頻幀的ROI和非ROI部分的視頻保真度DRF和DNF。另外,失真分析器60分別產(chǎn)生ROI和非ROI感知時間質(zhì)量值DRT、DNT以及ROI和非ROI感知空間質(zhì)量值DRS、DNS。ROI質(zhì)量度量計算器46從失真分析器60處獲得視頻保真度(72)、ROI和非ROI時間質(zhì)量(74)以及ROI和非ROI空間質(zhì)量(76)。
基于用戶偏好α、視頻保真度、空間質(zhì)量和時間質(zhì)量,ROI質(zhì)量度量計算器46確定ROI質(zhì)量度量(78)。視頻保真度例如以逐個像素為基礎(chǔ)依據(jù)顏色強度值來測量重構(gòu)視頻幀相對于原始幀的視頻誤差??臻g質(zhì)量測量重構(gòu)幀相對于原始幀的空間誤差,例如成塊和環(huán)繞假象。時間質(zhì)量測量例如在幀視覺質(zhì)量沿著時間軸不均勻地變化的情況下的時間閃爍的誤差。
值得注意的是,用戶偏好α是用戶所施加的當前值,而視頻保真度、空間質(zhì)量和時間質(zhì)量是從位分配模塊48處理的當前幀之前的一個或一個以上幀中導出的。用戶偏好α在幀之間可以是固定的,直到用戶改變所述值時為止。如果用戶尚未指定值,那么可向用戶偏好因數(shù)α指派默認值。可應用ROI質(zhì)量度量來偏移當前視頻幀的ROI與非ROI之間的位分配(80),如上文參看圖5所描述。舉例來說,可使用質(zhì)量度量來調(diào)節(jié)用于ROI位分配的權(quán)重。在一些實施例中,圖9所示的功能性可表示圖8的“閉合式環(huán)路”實例中ROI質(zhì)量度量計算器61所執(zhí)行的操作。
圖10是說明針對視頻序列的ROI質(zhì)量度量計算的流程圖。圖10大體上對應于圖9,但表示在編碼視頻流之前相對于視頻流進行質(zhì)量度量計算的實施例。因此,圖10的過程進一步包含獲得視頻流(67)。另外,與圖9形成對比,在偏移ROI/非ROI位分配(80)之后執(zhí)行視頻編碼(70)。在一些實施例中,圖9所示的功能性可表示圖7的“開放式環(huán)路”實例中ROI質(zhì)量度量計算器61所執(zhí)行的操作。
圖11是說明ROI ρ域位分配的流程圖。如圖11所示,位分配模塊48獲得ROI界定(82)和幀的速率預算(84)兩者。ROI界定可采取ROI MB映射的形式,其識別落在ROI內(nèi)的MB或其它視頻區(qū)塊。速率預算提供可用于編碼整個幀(包含ROI和非ROI區(qū)域)的位的數(shù)目。另外,位分配模塊48從ROI權(quán)重計算器46獲得ROI權(quán)重wi(86),其偏移ROI與非ROI之間的位分配。當確定幀的非ROI跳過模式(88),即對于所述幀是開啟還是關(guān)閉跳過時,位分配模塊48獲得當前幀的統(tǒng)計(89)。當前幀統(tǒng)計(89)接著可用于對后續(xù)幀作出跳過模式?jīng)Q策。幀統(tǒng)計可包含(例如)運動評估之后幀的剩余物的標準偏差?;蛘?,可獲得先前幀的幀統(tǒng)計。利用跳過模式指示(88),位分配模塊48能夠確定所有可用的位均可歸屬于ROI(非ROI幀跳過開啟)還是所述位必須在ROI與非ROI之間共用(非ROI幀跳過關(guān)閉)。
通過使用ROI界定、幀速率預算、質(zhì)量度量偏移和非ROI跳過模式,位分配模塊48產(chǎn)生ROI MB與非ROI MB之間的位的經(jīng)加權(quán)ρ域分配(90)。當確定ρ域位分配時,映射器56執(zhí)行ρ-QP映射以提供MB QP值(92)以供施加到視頻編碼器58(94)。映射器56可應用ρ-QP映射表或者針對特定ρ產(chǎn)生QP的等式或函數(shù)。視頻編碼器58使用由位分配模塊48和映射器56提供的QP值來編碼可應用視頻幀內(nèi)的各個ROI和非ROI MB。所得的位分配可不僅考慮適用的幀預算而且還考慮非ROI跳過的可用性以及與視頻序列中的先前幀相關(guān)聯(lián)的質(zhì)量度量。下文將更詳細描述位分配模塊48的操作。
本揭示內(nèi)容中描述的位分配技術(shù)通常假定充分的ROI檢測或界定可用,且可接受的幀級速率控制可用。以此為基礎(chǔ),位分配技術(shù)通常集中在ROI與非ROI MB之間的MB級速率控制上。大多數(shù)常規(guī)ROI位分配算法基于ITU H.263+TMN8模型的經(jīng)加權(quán)版本,其中創(chuàng)建成本函數(shù),且通過使用一組預設(shè)權(quán)重來不同地懲罰函數(shù)中各個區(qū)上的失真分量。與大多數(shù)其它視頻標準相似,TMN8使用Q域速率控制方案,其以QP的函數(shù)建模速率和失真。然而,本揭示內(nèi)容中描述的位分配技術(shù)利用ρ域速率控制模塊,其中ρ表示視頻編碼過程中MB中的非零量化AC系數(shù)的數(shù)目。如本文所描述,使用ρ域位分配趨向于比QP域速率控制更準確,且可有效地減少速率波動。
在視頻編碼應用中,典型的問題是在給定視頻序列的位預算的情況下使失真值Dsequence最小化。此復雜問題的最佳解決方案依賴于最佳幀級速率控制算法和最佳宏區(qū)塊級位分配方案。然而,對于實時應用(例如視頻電話),在當編碼當前幀時關(guān)于將來幀的非常有限的信息可用的情況下,追求最佳幀級速率控制不是實際的或可行的。通常,應用普遍的算法(“貪婪”算法)。貪婪算法假定視頻內(nèi)容的復雜性沿著視頻序列中的幀均勻分布。以此為基礎(chǔ),貪婪算法將可用位的一小部分分配到序列中的每一幀。在實時應用中,將來幀信息的有限可用性還使得難以考慮速率控制中的時間質(zhì)量。
在本揭示內(nèi)容中,為了找到實用的解決方案并簡化位分配問題,通常假定良好的幀級速率控制是可用的。這一假定將位分配問題簡化為宏區(qū)塊級位分配。同時,位分配方案可利用非ROI跳過方法。非ROI跳過增加了減小時間失真項
的值的可能性,因為被跳過的區(qū)將呈現(xiàn)與先前幀的感知質(zhì)量相同的感知質(zhì)量。因此,跳過非ROI區(qū)域可減少連續(xù)幀之間的感知質(zhì)量的波動。
出于說明目的,根據(jù)等式(1)來評估視頻幀的圖像質(zhì)量。然而,為簡單起見,設(shè)定β和γ使得β+γ=1。將Rbudget表示為給定幀f的總計位預算且將R表示為編碼所述幀的位速率,所述問題可由以下函數(shù)表示 最小化
使得R≤Rbudget。
上述優(yōu)化問題可通過格拉朗日松弛和動態(tài)編程來解決。然而,此類方法的計算復雜性將大大高于實時系統(tǒng)所能承受的。因此,根據(jù)本揭示內(nèi)容,低復雜性近最佳解決方案是優(yōu)選的。明確地說,在本揭示內(nèi)容中,應用ρ域中的二階段位分配算法。第一階段涉及以下優(yōu)化問題 最小化使得R≤Rbudget。(4) 在獲得等式(4)的最佳編碼參數(shù)之后,第二階段以迭代方式調(diào)節(jié)編碼參數(shù)以降低項直到達到局部最小值為止。當β是相對較大的數(shù)字時,此二階段算法的結(jié)果可能非常接近最佳解決方案。當β=1時,問題(3)與(4)相同。在本揭示內(nèi)容中,集中在第一階段和針對問題(4)的解決方案上。
在ROI視頻編碼中,N是幀中的MB的數(shù)目,{ρi}、{σi}、{Ri}和{Di}分別是第i個宏區(qū)塊的ρ、標準偏差、速率和失真(誤差平方和)的集合。因此,為幀中所有MB界定一組權(quán)重{wi}
其中K是ROI內(nèi)的MB的數(shù)目。等式(5)可(例如)由ROI權(quán)重計算器46實施。
因此,幀的經(jīng)加權(quán)失真為 因此,問題(4)可重寫為 最小化D,使得R≤Rbudget。(7) 通過使用基于建模的位分配方法來求解等式(7)。自然圖像的AC系數(shù)的分布可由拉普拉斯分布來最佳近似。因此,可在以下等式(8)和(9)中將第i個宏區(qū)塊的速率和失真建模為ρ的函數(shù)。
舉例來說,速率可表示為 Ri=Aρi+B,(8) 其中A和B是恒定建模參數(shù),且A可認為是編碼非零系數(shù)所需的位的平均數(shù)目,且B可認為是歸因于非紋理信息的位。
另外,失真可表示為 其中θ是未知常數(shù),且σ是剩余數(shù)據(jù)的標準偏差。此處,位分配技術(shù)優(yōu)化ρi而并非量化器,因為假定存在充分準確的ρ-QP表可用于根據(jù)任何選定ρi產(chǎn)生可接受的量化器。一般來說,可通過使用格拉朗日松弛法來求解等式(7),其中將受約束的問題轉(zhuǎn)化為不受約束的問題,如下
其中λ*是實現(xiàn)的解。通過在等式(10)中將偏導數(shù)設(shè)定為零,獲得以下經(jīng)優(yōu)化ρi的表達式 令 其為 因此 且 另一方面,因為 所以以下關(guān)系成立, 根據(jù)等式(14)和(16),獲得位分配模型I,如下 接著將所得ρ映射到相應QP并用于將適當數(shù)目的編碼位分配到各個ROI或非ROIMB。
可使用替代失真模型來獲得另一位分配模型(位分配模型II)。根據(jù)所述替代失真模型,假定步長為q的均勻量化器可用,由下式給出由量化引起的失真 且由下式給出零的百分比 因此, 根據(jù)如T.M.Cover和J.A.Thomas的“Elements of information theory”(Wiley,NewYork,NY,1991)中描述的香農(nóng)源編碼定理,對于拉普拉斯源,表示符號所需的位的最小數(shù)目由給出,使得 由于其中384是對于4∶2∶0視頻的第i個宏區(qū)塊中的系數(shù)總數(shù)目,因而可通過使用泰勒展開式來展開等式(21),且可由下式來近似位速率與ρ之間的關(guān)系 Ri=Aρi+B,(22) 其中A和B是恒定建模參數(shù),且A可認為是編碼非零系數(shù)所需的位的平均數(shù)目,且B可認為是歸因于非紋理信息的位。
另外,由下式表示系數(shù)的方差 因此,可由下式表示第i個宏區(qū)塊的失真 與位分配模型I的推導一樣,可通過解決優(yōu)化問題(7)(即,以下問題)來實現(xiàn)最佳位分配方案
一般來說,可通過使用格拉朗日松弛法來求解等式(25),其中將受約束的問題轉(zhuǎn)化為不受約束的問題,如下
其中λ*是實現(xiàn)的解。通過在等式(26)中將偏導數(shù)設(shè)定為零,獲得以下經(jīng)優(yōu)化ρi的表達式 令 其為 因此 另一方面,因為 那么 根據(jù)等式(28)和(30),獲得以下表達式 其中ρbudget是幀的總計ρ預算。
盡管等式(32)中以不同方式建模失真,但基于所述模型,獲得以下位分配模型II 可(例如)通過位分配模塊48來實施等式(33)。
圖12是將使用經(jīng)加權(quán)位分配模型I和II的編碼技術(shù)與最佳解決方案的總體感知質(zhì)量進行比較的曲線圖。通過格拉朗日松弛法來實現(xiàn)最佳解決方案,而如上文所述來實施位分配模型I和II。圖12展示在對標準Foreman視頻測試序列的最初100個幀進行ROI編碼期間的PSNR(以分貝計)與幀數(shù)目。在圖12中,分別由參考標號91、93和95識別最佳解決方案、位分配模型I和位分配模型II。對于位分配模型I和II,出于位分配加權(quán)等式(5)的目的,α的值為0.9。如圖12所示,與最佳解決方案相比,位分配模型I和II兩者均執(zhí)行得非常好。
圖13是說明非ROI(“背景”)跳過技術(shù)的流程圖。跳過對視頻幀的非ROI區(qū)域的編碼的能力可產(chǎn)生位分配的顯著節(jié)省。如果不編碼(即,跳過)非ROI,那么原本分配到非ROI的位可改為被重新分配用于編碼ROI,從而改進ROI中的MB的視覺質(zhì)量。如果針對給定幀跳過非ROI,那么針對先前幀編碼的非ROI重復,或用內(nèi)插的非ROI區(qū)域代入當前幀中。除了保留位以供用于ROI編碼外,跳過非ROI區(qū)域還可改進當前幀的時間質(zhì)量。明確地說,在兩個或兩個以上連續(xù)幀中呈現(xiàn)相同的非ROI區(qū)域?qū)②呄蛴跍p少非ROI區(qū)域中的時間閃爍。
在非常低的位速率(例如,32kbps)下,即使位均勻地分布在MB之間,通常也粗略地編碼非ROI區(qū),其中例如閃爍的時間視覺質(zhì)量問題變得顯著。另一方面,在背景是非ROI的大多數(shù)視頻電話應用情況下,背景中存在非常有限的移動。因此,背景跳過是重新分配位以改進ROI和經(jīng)編碼非ROI區(qū)的質(zhì)量的解決方案,只要所述跳過不會嚴重降級視頻保真度。
幀跳過是在非常低位速率應用中用以保留編碼位的普遍方法。非ROI跳過與幀跳過之間的差異在于,在非ROI跳過方法中編碼每一幀的ROI以確保ROI的良好視覺質(zhì)量。幀跳過在許多應用中非常有用。然而,在ROI視頻編碼中,幀跳過將存在丟失例如面部表情的重要信息的風險,尤其是當在等式(1)中將α設(shè)定為較大值時,因為任何ROI失真都會受到嚴重懲罰并可降級總體性能。因此,非ROI跳過是較佳選擇且通??晒?jié)省大量的位以改進ROI質(zhì)量,因為背景MB的數(shù)目在普通視頻幀中占支配地位。
如圖13所示,非ROI跳過技術(shù)涉及將連續(xù)幀分組為單元,所述單元包含幀的ROI區(qū)域和幀之間共享的共同非ROI區(qū)域。在圖13的實例中,將兩個連續(xù)幀進行分組。非ROI背景跳過模塊50將幀i和幀i+1分組為幀單元(96),并通知視頻編碼器58關(guān)于其中將跳過非ROI區(qū)域的幀。作為響應,視頻編碼器58使用由位分配模塊48提供的經(jīng)加權(quán)位分配來編碼幀i和i+1的各自ROI區(qū)域(98)。另外,視頻編碼器58使用經(jīng)加權(quán)位分配來編碼幀i的非ROI區(qū)域。然而,視頻編碼器58不編碼幀i+1的非ROI區(qū)域。而是,跳過幀i+1的非ROI區(qū)域,且在其位置中提供先前幀i的非ROI區(qū)域。
可以全部時間為基礎(chǔ)提供非ROI跳過。舉例來說,可以交替幀為基礎(chǔ)出于連續(xù)全部時間跳過非ROI的目的,將每兩個幀分組為一單元。換句話說,可以全部時間為基礎(chǔ)跳過每隔一個幀中的非ROI。作為替代,可在適應性基礎(chǔ)上激活和解除跳過。當由最近的先前幀產(chǎn)生的非ROI失真超過失真閾值時,可解除跳過。如圖13所示,舉例來說,如果先前幀的非ROI區(qū)域中的失真小于閾值(102),那么跳過幀i+1的非ROI(104),且過程繼續(xù)到下一組兩個連續(xù)幀,如由幀遞增i=i+2(106)表示。在此情況下,非ROI失真的水平是可接受的,且激活跳過。然而,如果非ROI失真大于失真閾值(102),那么使用經(jīng)加權(quán)位分配來編碼幀i+1的非ROI區(qū)域(108)。在此情況下,由于過度的非ROI失真(即,相關(guān)視頻場景的非ROI區(qū)域內(nèi)的過度失真)的緣故而解除跳過。
圖14是說明將連續(xù)幀分組為單元以支持非ROI跳過的圖。如圖14所示,幀0、1、2和3表示視頻序列內(nèi)的連續(xù)幀。在此實例中,幀0和幀1分組為單元1,且?guī)?和幀3分組為單元2。每一單元共享共同非ROI區(qū)域。明確地說,在具有可接受失真的全部時間跳過或適應性跳過的情況下,針對幀1重復幀0的非ROI區(qū)域。因為針對幀1重復幀0的非ROI區(qū)域,所以不必編碼幀1的非ROI區(qū)域。將幀分組為單元可應用于整個視頻序列。在圖14的實例中,將兩個幀分組為一單元。然而,在一些應用中,可將兩個或兩個以上幀分組為一單元,其中除了單元中的一個幀外,跳過其它所有幀中的非ROI。
圖15是說明編碼連續(xù)ROI區(qū)域以及共同非ROI區(qū)域的圖。明確地說,當將連續(xù)幀0和1分組為一單元時,分別編碼幀0和1中的ROI區(qū)域110、112。然而,針對幀0和幀1兩者重復幀0非ROI區(qū)域114,使得跳過幀1的非ROI區(qū)域(未圖示)。以此方式,可避免原本需要用于編碼幀1非ROI的位消耗。在圖15的實例中,應注意,非ROI區(qū)域114盡管被稱為“背景”但可包含例如人的肩部的前景特征。因此,本揭示內(nèi)容中背景通常用于指代ROI外部的任何區(qū)域,且不應認為嚴格限于視頻場景內(nèi)的背景成像。下文進一步詳細描述非ROI跳過。
現(xiàn)將描述用于實施圖4的非ROI跳過模塊50的示范性原型系統(tǒng)。在所述原型系統(tǒng)中,如上文參看圖13-15描述將每兩個幀分組為一單元。在每一單元中,編碼第一非ROI區(qū)域而跳過第二非ROI區(qū)域(例如使用具有零運動向量的預測MB)。每一單元的位分配可基于與“貪婪”幀級位分配相同的邏輯,其中假定序列中的視頻幀的內(nèi)容復雜性均勻分布在幀中。通過這一假定,位應當均勻地分布在兩幀單元之間 其中ρsequence是視頻序列中的一組M個連續(xù)幀的總計ρ預算,ρuniti是針對第i個單元的ρ分配,且ρused是最初(i-1)/2個單元的ρ消耗。在單元內(nèi),可使用任一位分配模型(I或II)將位分配到ROI和非ROI區(qū)域內(nèi)的MB。
為了評估非ROI跳過的結(jié)果,如本文所述,已執(zhí)行了若干測試。在所述測試中,對以下位分配技術(shù)進行了比較(a)經(jīng)加權(quán)位分配算法,其基于模型II,具有全部時間非ROI跳過;(b)經(jīng)加權(quán)位分配算法,其基于模型II,沒有非ROI跳過;以及(c)“貪婪”算法,其中在位分配過程中等同地對待ROI和非ROI MB。以15幀每秒(fps)的速率對標準“Carphone”QCIF視頻序列的最初150個幀實行了所述測試。圖16-23中展示所述比較的結(jié)果。
圖16是將上述編碼技術(shù)(a)、(b)和(c)的總體感知質(zhì)量進行比較的曲線圖。明確地說,圖16描繪在一編碼速率范圍(以每秒千位(kbps)計)內(nèi)的感知PSNR(以分貝(db)計)。圖17是將上述編碼技術(shù)(a)、(b)和(c)的總體視頻保真度進行比較的曲線圖。術(shù)語“總體”視頻保真度是指ROI和非ROI區(qū)域兩者的組合(即,整個幀的視頻保真度),且可替代地稱為“幀”視頻保真度。圖17描繪在一編碼速率范圍(以每秒千位(kbps)計)內(nèi)的“幀”PSNR(以分貝(db)計)。
圖18和19分別是將上述編碼技術(shù)(a)、(b)和(c)的ROI視頻保真度與非ROI視頻保真度進行比較的曲線圖。明確地說,圖18和19描繪在一編碼速率范圍(以每秒千位(kbps)計)內(nèi)的PSNR(以分貝(db)計)。根據(jù)圖18,ROI視頻保真度是指視頻幀的ROI區(qū)域內(nèi)的視頻保真度。根據(jù)圖19,非ROI視頻是指視頻幀的非ROI區(qū)域內(nèi)的視頻保真度。圖16-19表示在經(jīng)加權(quán)位分配算法中應用用戶偏好因數(shù)α=0.9。在圖16-19的每一者中,(a)具有全部時間非ROI跳過的經(jīng)加權(quán)位分配、(b)沒有跳過的經(jīng)加權(quán)位分配和(c)貪婪算法的曲線分別由參考標號116、118、120識別。
圖20和21分別是將上述編碼技術(shù)(a)、(b)、(c)的總體感知質(zhì)量和總體視頻保真度進行比較的曲線圖。明確地說,圖20描繪在一編碼速率范圍(以每秒千位(kbps)計)內(nèi)的感知PSNR(以分貝(db)計)。圖21描繪在一編碼速率范圍(以每秒千位(kbps)計)內(nèi)的PSNR(以分貝(db)計)。圖20和21表示在經(jīng)加權(quán)位分配算法中應用用戶偏好因數(shù)α=0.7。圖22和23分別是將編碼技術(shù)(a)、(b)和(c)的總體感知質(zhì)量和總體視頻保真度進行比較的曲線圖。圖22和23表示在經(jīng)加權(quán)位分配算法中應用用戶偏好因數(shù)α=0.5。在圖20-23中,(a)具有全部時間非ROI跳過的經(jīng)加權(quán)位分配、(b)沒有跳過的經(jīng)加權(quán)位分配和(c)貪婪算法的曲線分別由參考標號116、118、120識別。
對于圖16-23所示的測試結(jié)果,四組視頻質(zhì)量測量(即感知PSNR、幀PSNR、ROI PSNR和非ROI PSNR)已界定如下 1.感知PSNR=-10 log10 DFrame; 2.幀 3.以及 4.非 在以上表達式中,DFrame是幀的總體時間和空間失真,DF是原始幀與重構(gòu)幀之間的視頻保真度,DRF是原始幀與重構(gòu)幀的ROI區(qū)域之間的視頻保真度,且DNF是原始幀與重構(gòu)幀的非ROI區(qū)域之間的視頻保真度。圖16、20和22中展示感知PSNR。圖17、21和23中展示幀PSNR。圖18中展示ROI PSNR,且圖19中展示非ROI PSNR。圖16-23所示的結(jié)果表明所提議的非ROI跳過方法與所有測試中的其它方法相比在感知PSNR(PPSNR)方面具有1dB以上的增益。所述增益主要來自ROI質(zhì)量的改進,如圖18和19所示,所述改進是通過在編碼幀中將來自非ROI的位重新分配到ROI來實現(xiàn)的。
一個引入注意的觀測結(jié)果是,非ROI(背景)跳過方法在低位速率下幀PSNR方面也勝過其它方法,如圖17、21和23所示。另外,曲線圖展示幀PSNR的增益隨著用戶偏好因數(shù)α的減小而增加。這些觀測結(jié)果指示非ROI跳過方法對于如無線VT的非常低位速率應用非常具有吸引力,因為其不僅在視頻保真度而且在視覺質(zhì)量方面均勝過其它方法。預期當為α指派較大值(例如,圖16中α=0.9)時,經(jīng)加權(quán)位分配方法將勝過貪婪算法。然而,所述優(yōu)點隨著α的減小而減小,如圖20和22所示。
已經(jīng)執(zhí)行了額外測試來評估并入有非ROI跳過的位分配技術(shù)與依賴于幀跳過(即,跳過整個幀而不是僅跳過非ROI區(qū)域)的經(jīng)加權(quán)位分配技術(shù)的性能。圖24是將使用標準幀跳過和背景跳過的ROI編碼技術(shù)的感知質(zhì)量進行比較的曲線圖。在每一情況下,均應用如本文所述的經(jīng)加權(quán)位分配。在一種情況下,應用非ROI(背景)跳過。在另一情況下,應用全部時間幀跳過,使得以交替基礎(chǔ)每隔一個幀進行跳過。圖24描繪感知PSNR(以分貝計)與速率(以每秒千位(kbps)計)。在圖24中,參考標號122、124和126分別識別具有幀跳過且用戶偏好因數(shù)α=0.9、0.7和0.5的經(jīng)加權(quán)位分配的曲線。參考標號128、130、132分別識別具有非ROI跳過且用戶偏好因數(shù)α=0.9、0.7和0.5的經(jīng)加權(quán)位分配的曲線。如圖24所示,具有非ROI跳過的經(jīng)加權(quán)位分配在α的所有設(shè)定值下均勝過具有幀跳過的經(jīng)加權(quán)位分配。非ROI跳過所提供的性能增益隨著α值的增加而增加。此結(jié)果是合理的,因為當α較大時,因幀跳過而對ROI的懲罰加重。
如圖16-24表明,非ROI背景跳過方法產(chǎn)生良好性能,尤其是在非ROI維持相對較低移動時。然而,對于具有含有大量運動的非ROI區(qū)域的視頻序列,性能增益可能減小。同時,可能跳過重要的背景信息,從而導致系統(tǒng)性能降級。因此,當跳過嚴重降級視頻保真度時,例如當背景內(nèi)容含有重要信息時,需要關(guān)閉背景跳過。舉例來說,將通過具有開啟和關(guān)閉的非ROI跳過的經(jīng)加權(quán)位分配進行的ROI編碼應用于標準Carphone視頻測試序列的其中背景快速移動的第180到209個幀。圖25展示此分析的結(jié)果。更明確地說,圖25是將如本文所描述當非ROI跳過開啟和關(guān)閉時的經(jīng)加權(quán)位分配的ROI編碼技術(shù)的感知質(zhì)量進行比較的曲線圖。
圖25以曲線圖描繪感知PSNR(以分貝計)與速率(以每秒千位計)。在圖25中,參考標號134和136分別識別表示應用非ROI跳過開啟的且用戶偏好因數(shù)α=0.9和0.5的經(jīng)加權(quán)位分配的曲線。參考標號138、140分別識別表示應用非ROI跳過關(guān)閉的且用戶偏好因數(shù)α=0.9和0.5的經(jīng)加權(quán)位分配的曲線。圖25中的結(jié)果指示所比較的非ROI跳過的優(yōu)點隨著α減小(例如,從0.9到0.5)而減小。此結(jié)果還指示開發(fā)實現(xiàn)基于視頻序列的內(nèi)容和用戶的關(guān)注程度(如用戶偏好因數(shù)α所表示)對非ROI跳過進行動態(tài)控制的適應性非ROI跳過方法的價值。
可明確地比較具有和不具有非ROI跳過的經(jīng)加權(quán)位分配所產(chǎn)生的失真,如以下指示 DSkip_on=αDRF(ρ1)+(1-α)DNF(ρ2)+αDRF(ρunit-ρ1-ρ2)+(1-α)DNonROI_skip,(35) DSkip_off=αDRF(ρ1′)+(1-α)DNF(ρ2′)+αDRF(ρ3′)+(1-α)DNF(ρunit-ρ1′-ρ2′-ρ3′),(36) 其中DSkip_on是當非ROI跳過模式開啟時的單元總計失真,DSkip_off是當背景跳過模式關(guān)閉時的單元總計失真,DNonROI_skip是由跳過單元的第二幀中的非ROI引起的失真,且其中等式(35)中的ρ1和ρ2以及等式(36)中的ρ1′、ρ2′和ρ3′是分配到ROI和非ROI的AC系數(shù)(ρ)的數(shù)目。
從等式(35)和(36)中可觀察到,僅當DNonROI_skip>>DNF(ρunit-ρ1′-ρ2′-ρ3′)時,Dskip_on>Dskip_off才成立,因為通常以下表達式成立 αDRF(ρ1)+(1-α)DNF(ρ2)+αDRF(ρunit-ρ1-ρ2)<αDRF(ρ1′)+(1-α)DNF(ρ2′)+αDRF(ρ3′) 從如圖26所示的Carphone視頻測試序列的DNonROI_skip的統(tǒng)計中驗證此觀測結(jié)果是正確的。圖26是說明示范性視頻序列上由背景跳過引起的失真的曲線圖。明確地說,圖26描繪Carphone視頻測試序列的最初240個幀上的平均非ROI區(qū)剩余能量DNonROI_skip與幀數(shù)目。根據(jù)圖26,可容易了解到在幀180-209期間DNonROI_skip值遠遠大于其它值,幀180-209是以高度運動為特征的幀。因此,盡管非ROI跳過通常是有利的,但在幀180-209所提供的高運動部分期間其并不有利。
基于以上觀測結(jié)果,追求用于開啟和關(guān)閉背景跳過模式的標準的任務轉(zhuǎn)化為尋找DNonROI_skip失真的閾值的任務。如果假定視頻序列中的單元失真以平滑方式變化(通常如此),那么最新近處理的單元失真的平均值可用于導出失真閾值。將
表示為最新近n個單元的平均失真,那么基于(35)和(36),如果成立,那么非常有可能實現(xiàn)DSkip_on>DSkip_off。換句話說,用于關(guān)閉非ROI跳過的標準可被指定為此標準可充當適應性非ROI跳過算法的基礎(chǔ)。
適應性非ROI跳過算法可與圖13所示的過程大體上一致,且可進一步描述為如下。
步驟0初始化數(shù)據(jù),并設(shè)定且跳過模式=開啟。
步驟1使用等式(34)為當前單元(具有兩個連續(xù)幀F(xiàn)n和Fn+1的群組)分配ρ預算。
步驟2在當前單元內(nèi),通過等式(32)為每一宏區(qū)塊分配位。如果跳過模式開啟,那么不為單元內(nèi)的第二幀的非ROI分配位。
步驟3在獲得當前單元的失真之后,通過更新
其中η是學習因數(shù)且在
范圍內(nèi)。
步驟4為下一單元取得數(shù)據(jù);如果這是最后的單元,那么行進到步驟6。
步驟5計算新單元(具有接下來兩個幀F(xiàn)n+2和Fn+3的群組)的DNonROI_skip失真;如果那么關(guān)閉跳過模式;否則,開啟跳過模式。返回到步驟1。
步驟6終止適應性跳過算法。
圖27是將使用非ROI跳過、沒有非ROI跳過和適應性非ROI跳過的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖。在每一情況下,均應用如本文所述的經(jīng)加權(quán)位分配算法。圖27描繪針對標準Carphone視頻測試序列的幀180-209的ROI視頻編碼的感知PSNR(以分貝計)與速率(以每秒千位計)。參考標號142和144分別識別表示非ROI跳過開啟的且用戶偏好因數(shù)α=0.9和0.5的經(jīng)加權(quán)位分配的曲線。參考標號146和148分別識別表示非ROI跳過關(guān)閉的且用戶偏好因數(shù)α=0.9和0.5的經(jīng)加權(quán)位分配的曲線。參考標號150和152分別識別表示具有適應性非ROI跳過和用戶偏好因數(shù)α=0.9和0.5的經(jīng)加權(quán)位分配的曲線。在此估計中,值η設(shè)定為η=0.25。圖27中的結(jié)果展示,對于α的各種值,適應性非ROI跳過方法的結(jié)果均非常接近于最佳解決方案。
圖28-33展示應用如本揭示內(nèi)容中描述的經(jīng)加權(quán)位分配技術(shù)的ROI編碼技術(shù)的額外實驗結(jié)果。圖28-32表示將各種ROI編碼技術(shù)應用于標準Carphone視頻測試序列。對于圖28-32,經(jīng)加權(quán)位分配方法(“提議的方法”和“經(jīng)加權(quán)位分配”)中使用的用戶偏好因數(shù)α設(shè)定為0.9?!疤嶙h的方法”標記是指具有非ROI跳過的經(jīng)加權(quán)位分配?!敖?jīng)加權(quán)位分配”標記是指沒有非ROI跳過的經(jīng)加權(quán)位分配。
圖28是將使用各種位分配技術(shù)的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖,并描繪感知PSNR與速率。在圖28中,參考標號154、156、158、160和162分別識別表示應用幀跳過方法、具有非ROI跳過的經(jīng)加權(quán)位分配方法、貪婪算法、恒定QP算法和沒有非ROI跳過的經(jīng)加權(quán)位分配方法的曲線。
圖29是將在40千位每秒(kps)的編碼速率下使用各種位分配技術(shù)的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖。明確地說,圖29描繪針對具有非ROI跳過的經(jīng)加權(quán)位分配、貪婪算法和恒定QP算法的感知PSNR與幀數(shù)目。
圖30是將在40千位每秒(kps)的編碼速率下使用各種位分配技術(shù)的ROI編碼技術(shù)的總體視頻保真度進行比較的曲線圖,并描繪PSNR與幀數(shù)目。圖31是將在40千位每秒(kps)的編碼速率下使用各種位分配技術(shù)的ROI編碼技術(shù)的ROI視頻保真度進行比較的曲線圖,并描繪ROI中的PSNR與幀數(shù)目。圖32是將在40千位每秒(kps)的編碼速率下使用各種位分配技術(shù)的ROI編碼技術(shù)的非ROI視頻保真度進行比較的曲線圖,并描繪非ROI PSNR與幀數(shù)目。
在圖29-32中,具有非ROI跳過的經(jīng)加權(quán)位分配由參考標號164指示,貪婪算法由參考標號166指示,且恒定QP算法由參考標號168指示。恒定QP算法是僅幀級速率控制算法,其中幀中的所有MB均被分派相同量化器。貪婪算法已在上文中描述,且以MB級進行操作。幀跳過算法應用標準幀跳過以避免以交替基礎(chǔ)編碼每隔一個幀的內(nèi)容,且跳過ROI和非ROI區(qū)域兩者。沒有非ROI跳過的經(jīng)加權(quán)位分配和具有適應性幀跳過的經(jīng)加權(quán)位分配(“提議的方法”)已在上文中描述。
圖28展示提議的方法在整個位速率范圍內(nèi)均勝過所有其它方法,且性能增益多達2dB。在圖29-32中,表明提議的方法、貪婪算法和恒定QP算法的幀級細節(jié)。
圖33是將在一編碼速率范圍內(nèi)針對另一示范性視頻序列使用各種位分配技術(shù)的ROI編碼技術(shù)的總體感知質(zhì)量進行比較的曲線圖。明確地說,圖33描繪標準Foreman視頻測試序列的最初180個幀上的感知PSNR與速率。在圖33中,參考標號154、156、158、160和162分別識別表示應用幀跳過方法、具有非ROI跳過的經(jīng)加權(quán)位分配方法、貪婪算法、恒定QP算法和沒有非ROI跳過的經(jīng)加權(quán)位分配方法的曲線。
如圖33所示,幀跳過方法沒有像在Carphone序列中執(zhí)行得那樣好,因為與Carphone序列相比,F(xiàn)oreman序列的臉部含有大得多的運動。因此,在Foreman序列中幀跳過遺漏過多量的ROI信息,從而導致令人不滿意的性能。值得注意的是,具有適應性非ROI跳過的經(jīng)加權(quán)位分配的提議方法對于Foreman序列執(zhí)行得非常好,如圖33表明。
在本揭示內(nèi)容中,已描述了各種技術(shù)以支持用于視頻電話或視頻串流應用的ROI編碼,尤其是在具有非常低位速率要求時(例如,在無線視頻電話中)。本揭示內(nèi)容提供兩種不同的經(jīng)優(yōu)化的用于ROI視頻編碼的ρ域中的經(jīng)加權(quán)位分配方案。本揭示內(nèi)容還提供可與經(jīng)加權(quán)位分配模型共同工作以實現(xiàn)較好性能的適應性非ROI(“背景”)跳過方法。另外,本揭示內(nèi)容提供用于測量ROI視頻質(zhì)量的視頻質(zhì)量度量。ROI質(zhì)量度量可用于引導優(yōu)化的位分配技術(shù)通過共同考慮用戶對ROI的偏好、視頻保真度、空間感知質(zhì)量和時間感知質(zhì)量來產(chǎn)生較好的主觀視覺質(zhì)量。ROI質(zhì)量度量實現(xiàn)用戶交互以偏移編碼參數(shù)從而滿足主觀感知質(zhì)量要求。
本文描述的技術(shù)可在硬件、軟件、固件或其任何組合中實施。如果在軟件中實施,那么可部分通過計算機可讀媒體來實現(xiàn)所述技術(shù),所述計算機可讀媒體包括含有在執(zhí)行時會執(zhí)行所述方法中的一者或一者以上的指令的程序代碼。在此情況下,計算機可讀媒體可包括例如同步動態(tài)隨機存取存儲器(SDRAM)的隨機存取存儲器(RAM)、只讀存儲器(ROM)、非易失性隨機存取存儲器(NVRAM)、電可擦除可編程只讀存儲器(EEPROM)、FLASH存儲器、磁性或光學數(shù)據(jù)存儲媒體等。
程序代碼可由一個或一個以上處理器執(zhí)行,所述一個或一個以上處理器例如一個或一個以上數(shù)字信號處理器(DSP)、通用微處理器、專用集成電路(ASIC)、現(xiàn)場可編程邏輯陣列(FPGA)或其它等效集成或離散邏輯電路。在一些實施例中,本文描述的功能性可提供在經(jīng)配置以用于編碼和解碼的專用軟件模塊或硬件單元內(nèi),或并入在組合的視頻編解碼器(CODEC)中。
已描述了各種實施例。這些和其它實施例屬于所附權(quán)利要求書的范圍內(nèi)。
權(quán)利要求
1.一種方法,其包括
獲得視頻幀內(nèi)的關(guān)注區(qū)的界定;
獲得界定可用于所述幀的編碼位數(shù)目的幀預算;以及
基于所述幀預算和所述關(guān)注區(qū)內(nèi)的宏區(qū)塊與所述視頻幀的不在所述關(guān)注區(qū)內(nèi)的區(qū)域內(nèi)的宏區(qū)塊之間的加權(quán)將ρ域值分配到所述幀內(nèi)的宏區(qū)塊。
2.根據(jù)權(quán)利要求2所述的方法,其進一步包括將所述ρ域值映射到相應的量化參數(shù)(QP)值以將一數(shù)目的編碼位分配到所述宏區(qū)塊中的每一者。
3.根據(jù)權(quán)利要求2所述的方法,其進一步包括使用所述分配的編碼位來編碼所述視頻幀的所述宏區(qū)塊。
4.根據(jù)權(quán)利要求2所述的方法,其中所述分配的位的數(shù)目小于或等于由所述幀預算指定的位數(shù)目。
5.根據(jù)權(quán)利要求2所述的方法,其中所述加權(quán)至少部分基于先前幀的失真。
6.根據(jù)權(quán)利要求2所述的方法,其中所述加權(quán)至少部分基于先前幀的視頻保真度、所述先前幀的感知質(zhì)量和用戶對所述關(guān)注區(qū)的偏好。
7.根據(jù)權(quán)利要求6所述的方法,其中所述感知質(zhì)量包含所述先前幀的時間質(zhì)量值和空間質(zhì)量值。
8.根據(jù)權(quán)利要求6所述的方法,其中所述時間質(zhì)量值包含所述關(guān)注區(qū)的第一時間質(zhì)量值以及所述視頻幀的不在所述關(guān)注區(qū)內(nèi)的區(qū)域的第二時間質(zhì)量值。
9.根據(jù)權(quán)利要求6所述的方法,其中所述空間質(zhì)量值包含所述關(guān)注區(qū)的第一空間質(zhì)量值以及所述視頻幀的不在所述關(guān)注區(qū)內(nèi)的區(qū)域的第二空間質(zhì)量值。
10.根據(jù)權(quán)利要求6所述的方法,其中所述空間質(zhì)量值至少部分基于所述先前幀中成塊假象的存在,且其中所述時間質(zhì)量值至少部分基于所述先前幀中時間閃爍假象的存在。
11.根據(jù)權(quán)利要求6所述的方法,其中所述視頻保真度包含至少部分基于所述先前視頻幀的峰值信號噪聲比的失真值。
12.根據(jù)權(quán)利要求1所述的方法,其中分配ρ域值包含基于關(guān)于是否將跳過對不在所述關(guān)注區(qū)內(nèi)的所述區(qū)域的編碼的指示來分配所述ρ域值。
13.根據(jù)權(quán)利要求12所述的方法,其進一步包括將連續(xù)幀分組為幀單元,編碼與所述各個幀相關(guān)聯(lián)的關(guān)注區(qū),以及針對所述幀中的至少一者跳過對所述視頻幀的不在各個關(guān)注區(qū)內(nèi)的區(qū)域的編碼。
14.根據(jù)權(quán)利要求12所述的方法,其進一步包括當與先前幀單元相關(guān)聯(lián)的失真值小于閾值時,針對所述幀中的至少一者選擇性地跳過對不在各個關(guān)注區(qū)內(nèi)的區(qū)域的編碼。
15.一種裝置,其包括
關(guān)注區(qū)映射器,其產(chǎn)生視頻幀內(nèi)的關(guān)注區(qū)的界定;
幀級速率控制器,其產(chǎn)生界定可用于所述幀的編碼位數(shù)目的幀預算;以及
位分配模塊,其基于所述幀預算和所述關(guān)注區(qū)內(nèi)的宏區(qū)塊與所述視頻幀的不在所述關(guān)注區(qū)內(nèi)的區(qū)域內(nèi)的宏區(qū)塊之間的加權(quán)而將ρ域值分配到所述幀內(nèi)的宏區(qū)塊。
16.根據(jù)權(quán)利要求15所述的裝置,其進一步包括ρ-QP映射器,所述ρ-QP映射器將所述ρ域值映射到相應的量化參數(shù)(QP)值以將一數(shù)目的編碼位分配到所述宏區(qū)塊中的每一者。
17.根據(jù)權(quán)利要求15所述的裝置,其進一步包括視頻編碼器,所述視頻編碼器使用所述分配的編碼位來編碼所述視頻幀的所述宏區(qū)塊。
18.根據(jù)權(quán)利要求15所述的裝置,其中所述分配的位的數(shù)目小于或等于由所述幀預算指定的位數(shù)目。
19.根據(jù)權(quán)利要求15所述的裝置,其中所述加權(quán)至少部分基于先前幀的視頻保真度、所述先前幀的感知質(zhì)量和用戶對所述關(guān)注區(qū)的偏好。
20.根據(jù)權(quán)利要求19所述的裝置,其中所述感知質(zhì)量包含所述先前幀的時間質(zhì)量值和空間質(zhì)量值。
21.根據(jù)權(quán)利要求20所述的裝置,其中所述時間質(zhì)量值包含所述關(guān)注區(qū)的第一時間質(zhì)量值以及所述視頻幀的不在所述關(guān)注區(qū)內(nèi)的區(qū)域的第二時間質(zhì)量值。
22.根據(jù)權(quán)利要求20所述的裝置,其中所述空間質(zhì)量值包含所述關(guān)注區(qū)的第一空間質(zhì)量值以及所述視頻幀的不在所述關(guān)注區(qū)內(nèi)的區(qū)域的第二空間質(zhì)量值。
23.根據(jù)權(quán)利要求20所述的裝置,其中所述空間質(zhì)量值至少部分基于所述先前幀中成塊假象的存在,且其中所述時間質(zhì)量值至少部分基于所述先前幀中時間閃爍假象的存在。
24.根據(jù)權(quán)利要求19所述的裝置,其中所述視頻保真度包含至少部分基于所述先前視頻幀的峰值信號噪聲比的失真值。
25.根據(jù)權(quán)利要求15所述的裝置,其中所述位分配模塊基于關(guān)于是否將跳過對不在所述關(guān)注區(qū)內(nèi)的所述區(qū)域的編碼的指示來分配ρ域值。
26.根據(jù)權(quán)利要求25所述的裝置,其進一步包括
視頻編碼器,其編碼所述視頻幀的所述宏區(qū)塊;以及
跳過模塊,其引導所述視頻編碼器將連續(xù)幀分組為幀單元,編碼與所述各個幀相關(guān)聯(lián)的關(guān)注區(qū),且針對所述幀單元內(nèi)的所述幀中的至少一者跳過對所述視頻幀的不在各個關(guān)注區(qū)內(nèi)的區(qū)域的編碼。
27.根據(jù)權(quán)利要求25所述的裝置,其中當與先前幀單元相關(guān)聯(lián)的失真值小于閾值時,所述跳過模塊引導所述視頻編碼器針對所述幀中的至少一者選擇性地跳過對所述視頻幀的不在各個關(guān)注區(qū)內(nèi)的區(qū)域的編碼。
28.根據(jù)權(quán)利要求15所述的裝置,其進一步包括無線發(fā)射器,所述無線發(fā)射器經(jīng)由無線通信通道來傳輸所述經(jīng)編碼的視頻幀,其中所述裝置經(jīng)配置以支持移動視頻電話。
29.一種計算機可讀媒體,其包括用以促使處理器執(zhí)行以下操作的指令
獲得視頻幀內(nèi)的關(guān)注區(qū)的界定;
獲得界定可用于所述幀的編碼位數(shù)目的幀預算;以及
基于所述幀預算和所述關(guān)注區(qū)內(nèi)的宏區(qū)塊與所述視頻幀的不在所述關(guān)注區(qū)內(nèi)的區(qū)域內(nèi)的宏區(qū)塊之間的加權(quán)將ρ域值分配到所述幀內(nèi)的宏區(qū)塊。
30.根據(jù)權(quán)利要求29所述的計算機可讀媒體,其進一步包括用以促使所述處理器執(zhí)行以下操作的指令將所述ρ域值映射到相應的量化參數(shù)(QP)值以將一數(shù)目的編碼位分配到所述宏區(qū)塊中的每一者。
31.根據(jù)權(quán)利要求29所述的計算機可讀媒體,其進一步包括用以促使所述處理器執(zhí)行以下操作的指令使用所述分配的編碼位來編碼所述視頻幀的所述宏區(qū)塊。
32.根據(jù)權(quán)利要求29所述的計算機可讀媒體,其中所述分配的位的數(shù)目小于或等于由所述幀預算指定的位數(shù)目。
33.根據(jù)權(quán)利要求29所述的計算機可讀媒體,其中所述加權(quán)至少部分基于先前幀的失真。
34.根據(jù)權(quán)利要求29所述的計算機可讀媒體,其中所述加權(quán)至少部分基于先前幀的視頻保真度、所述先前幀的感知質(zhì)量和用戶對所述關(guān)注區(qū)的偏好。
35.根據(jù)權(quán)利要求34所述的計算機可讀媒體,其中所述感知質(zhì)量包含所述先前幀的時間質(zhì)量值和空間質(zhì)量值。
36.根據(jù)權(quán)利要求35所述的計算機可讀媒體,其中所述時間質(zhì)量值包含所述關(guān)注區(qū)的第一時間質(zhì)量值,和所述視頻幀的不在所述關(guān)注區(qū)內(nèi)的區(qū)域的第二時間質(zhì)量值。
37.根據(jù)權(quán)利要求35所述的計算機可讀媒體,其中所述空間質(zhì)量值包含所述關(guān)注區(qū)的第一空間質(zhì)量值以及所述視頻幀的不在所述關(guān)注區(qū)內(nèi)的區(qū)域的第二空間質(zhì)量值。
38.根據(jù)權(quán)利要求35所述的計算機可讀媒體,其中所述空間質(zhì)量值至少部分基于所述先前幀中成塊假象的存在,且其中所述時間質(zhì)量值至少部分基于所述先前幀中時間閃爍假象的存在。
39.根據(jù)權(quán)利要求34所述的計算機可讀媒體,其中所述視頻保真度包含至少部分基于所述先前視頻幀的峰值信號噪聲比的失真值。
40.根據(jù)權(quán)利要求29所述的計算機可讀媒體,其進一步包括用以促使所述處理器執(zhí)行以下操作的指令基于關(guān)于是否將跳過對不在所述關(guān)注區(qū)內(nèi)的所述區(qū)域的編碼的指示來分配所述ρ域值。
41.根據(jù)權(quán)利要求40所述的計算機可讀媒體,其進一步包括用以促使所述處理器執(zhí)行以下操作的指令將連續(xù)幀分組為幀單元,編碼與所述各個幀相關(guān)聯(lián)的關(guān)注區(qū),且針對所述幀中的至少一者跳過對所述視頻幀的不在各個關(guān)注區(qū)內(nèi)的區(qū)域的編碼。
42.根據(jù)權(quán)利要求40所述的計算機可讀媒體,其進一步包括用以促使所述處理器執(zhí)行以下操作的指令當與先前幀單元相關(guān)聯(lián)的失真值小于閾值時,針對所述幀中的至少一者選擇性地跳過對不在各個關(guān)注區(qū)內(nèi)的區(qū)域的編碼。
全文摘要
本揭示內(nèi)容針對用于視頻電話(VT)的關(guān)注區(qū)(ROI)編碼的技術(shù)。所揭示的技術(shù)還包含用于在ρ域內(nèi)以宏區(qū)塊(MB)級使用經(jīng)加權(quán)位分配模型將位分配到ROI和非ROI區(qū)域的技術(shù)。
文檔編號H04N7/26GK101164342SQ200680013595
公開日2008年4月16日 申請日期2006年2月28日 優(yōu)先權(quán)日2005年3月1日
發(fā)明者王浩宏, 哈立德·希勒米·厄勒-馬列 申請人:高通股份有限公司