專利名稱:一種交互式多視點視頻系統(tǒng)的圖像信號處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多視點視頻系統(tǒng)技術(shù),尤其是涉及一種交互式多視點視頻系統(tǒng)的圖像信號處理方法。
背景技術(shù):
交互式多視點視頻系統(tǒng)能夠給用戶提供多個視角的視頻內(nèi)容,用戶可以根據(jù)個人的喜好選擇視角,并在觀看過程中隨意改變欣賞視角。因此,對于交互式多視點視頻系統(tǒng)來說,其基本目標是有效地實現(xiàn)用戶與服務端的視點交互。通常,交互式多視點視頻系統(tǒng)由以下幾個部分組成視頻捕獲、預處理、多視點視頻編碼器、多視點視頻解碼器、視點繪制和顯示部分,如圖1所示。由一組相機(或攝像機)捕獲的多視點視頻序列,會因為各視點的場景光照、相機標定、CCD噪聲、快門速度和曝光等要素不一致,導致各視點間可能存在亮度或色度差異。因此,為了得到更加良好的編碼性能和虛擬視點繪制效果,需要在進行多視點視頻編碼前加入預處理過程。此外,一般情況下服務端無法提供給用戶足夠多視角的視頻內(nèi)容,因而用戶端就需要利用解碼視點信息繪制出虛擬視點視頻內(nèi)容,以滿足用戶多變的要求。
對于多視點視頻編碼的性能評價,通常有多個性能指標,如率失真性能、時間可分級、視點可分級、隨機接入性能、編碼復雜度、解碼復雜度、存儲需求等等,這些指標在一定程度上本身就存在著相互制約;因此,根據(jù)不同的應用環(huán)境,需要側(cè)重不同的技術(shù)指標來進行性能評價,并且對某些性能指標做適當?shù)男拚?。面向用戶端的交互式多視點視頻系統(tǒng)的目的是為了滿足用戶最大限度的自主性,因此,實現(xiàn)用戶與服務端之間的高效交互操作以滿足用戶的選擇需求是面向用戶端的交互式多視點視頻系統(tǒng)最基本也是最主要的任務。基于面向用戶端的交互式多視點視頻系統(tǒng)考慮,實現(xiàn)高效的交互操作應滿足1)合理的帶寬代價,以適應網(wǎng)絡傳輸?shù)囊螅?)較低的解碼復雜度以及虛擬視點繪制復雜度,能夠?qū)崟r解碼及繪制虛擬視點,以降低對用戶端系統(tǒng)(如數(shù)字交互式多視點電視接收機)資源的要求,達到降低接收機的成本的目的。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,以合理的帶寬代價、較低的解碼復雜度以及虛擬視點繪制復雜度,降低交互式多視點系統(tǒng)對于網(wǎng)絡帶寬和用戶端資源的要求,滿足用戶最大限度的自主性,使得在給定網(wǎng)絡帶寬的條件下能傳輸更多的節(jié)目,服務更多的用戶,使得數(shù)字交互式多視點電視接收機的成本更低。
本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案為一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,由系統(tǒng)服務端的多視點視頻成像模塊、集成的多視點視頻編碼模塊和部分碼流選擇與傳輸模塊以及系統(tǒng)用戶端的視點解碼模塊、任意視點繪制模塊和視頻顯示模塊來完成圖像信號的采集、編碼、傳輸、解碼、繪制與顯示,用戶端將用戶選擇的視點和顯示設備類型信息傳輸給服務端的部分碼流選擇與傳輸模塊,部分碼流選擇與傳輸模塊根據(jù)接收到的信息從集成的多視點視頻編碼模塊生成的視點可分解的結(jié)構(gòu)式碼流中分離出繪制用戶所選視點圖像所需的視頻數(shù)據(jù)和視差場信息并將其通過網(wǎng)絡傳輸給視點解碼模塊進行解碼,在所述的集成的多視點視頻編碼模塊中進行多視點圖像色彩校正、關(guān)聯(lián)視點視差場估計與編碼、塊基多視點視頻編碼和視點可分解的結(jié)構(gòu)式碼流生成,具體步驟為(1)由多視點視頻成像模塊中的多個可同步拍攝的相機獲取多個視點的視頻信號,并向集成的多視點視頻編碼模塊傳輸多視點視頻信號;(2)集成的多視點視頻編碼模塊接收多視點視頻成像模塊采集的多視點視頻信號,對多視點視頻信號進行多視點圖像色彩校正、關(guān)聯(lián)視點視差場估計與編碼、塊基多視點視頻編碼,并將生成的關(guān)聯(lián)視點視差場與多視點視頻信號的視點可分解的結(jié)構(gòu)式碼流存儲于服務端的存儲器或者傳輸給用戶端的視點解碼模塊;(3)部分碼流選擇與傳輸模塊根據(jù)交互反饋的用戶端視點選擇情況以及用戶端顯示設備類型信息,從視點可分解的結(jié)構(gòu)式碼流中截取繪制用戶所選視點圖像所需的視點視頻信號和關(guān)聯(lián)視點視差場碼流通過網(wǎng)絡進行傳輸;(4)用戶端視點解碼模塊接收到多視點視頻信號和關(guān)聯(lián)視點視差場碼流,并對該碼流進行解碼;(5)若用戶所選擇的視點為實際存在的視點,則將由視點解碼模塊解碼得到的視點信號直接傳輸給視頻顯示模塊進行顯示;若用戶選擇的視點為虛擬視點,則由任意視點繪制模塊根據(jù)視點解碼模塊解碼得到的視點信號和視差場繪制虛擬視點,再傳輸給視頻顯示模塊進行顯示。
所述的多視點圖像色彩校正方法為
(1)分別提取參考視點圖像和待校正視點圖像的邊緣紋理或反映邊緣和紋理特征的特征點作為邊緣紋理信息;(2)利用所提取的邊緣紋理信息進行參考視點圖像和待校正視點圖像間的區(qū)域匹配,得到參考視點圖像和待校正視點圖像間的視差信息;區(qū)域匹配通過將圖像分割成若干圖像塊,再以圖像塊為單位進行匹配來實現(xiàn),或通過對圖像的邊緣紋理豐富區(qū)域進行匹配,然后采用插值的方法得到非邊緣紋理豐富區(qū)域的匹配關(guān)系來實現(xiàn);(3)利用視差信息確定圖像的近景區(qū)域與遠景區(qū)域,以遠景區(qū)域作為參照區(qū)域求取待校正視點圖像的色度和亮度的校正參數(shù),并用這些校正參數(shù)對整幅待校正視點圖像進行色度和亮度的校正。
所述的關(guān)聯(lián)視點視差場估計與編碼實現(xiàn)步驟為(1)將相鄰的兩兩視點作為關(guān)聯(lián)視點;(2)根據(jù)多視點圖像間的色彩校正過程中所得到的視差信息計算所有兩兩關(guān)聯(lián)視點之間的視差場,得到精確的完全像素級分辨率視差場或者較為精細的非完全像素級分辨率視差場,任意兩兩關(guān)聯(lián)視點視差場的參考方向與塊基多視點視頻編碼所采用的預測編碼結(jié)構(gòu)中這兩個關(guān)聯(lián)視點的預測參考方向一致;(3)對關(guān)聯(lián)視點視差場進行編碼,生成關(guān)聯(lián)視點視差場的結(jié)構(gòu)式碼流并預存儲于服務端的存儲器。
所述的塊基多視點視頻編碼是根據(jù)與顯示設備類型對應的預測編碼結(jié)構(gòu),預先對多視點視頻信號進行編碼,得到多個不同預測編碼結(jié)構(gòu)的視點視頻信號碼流,然后將不同預測編碼結(jié)構(gòu)的視點視頻信號碼流組成多視點視頻信號的視點可分解的結(jié)構(gòu)式碼流并預存儲于服務端的存儲器。
所述的塊基多視點視頻編碼的預測編碼結(jié)構(gòu)由基本單元結(jié)構(gòu)疊加而成,所述的基本單元結(jié)構(gòu)由位于左右兩邊的2個時間預測視點和位于中間的1個混合預測視點構(gòu)成,每個視點由若干個連續(xù)時刻的圖像幀所組成,所述的時間預測視點的預測方式是對視點內(nèi)各幀僅在本視點內(nèi)部進行預測編碼,生成由時間預測編碼得到的碼流,所述的混合預測視點的預測方式是采用時間預測+左視點預測方式、時間預測+右視點預測方式和時間預測方式分別對視點內(nèi)的圖像幀在視點內(nèi)部及視點間進行預測編碼,此處,符號+表示兩者的結(jié)合,然后對預測的準確度進行判斷,若時間預測方式準確度最高,則僅生成由時間預測編碼得到的碼流,否則生成3個預測方式的碼流,所述的由基本單元結(jié)構(gòu)疊加構(gòu)成預測編碼結(jié)構(gòu)的方式如下將若干個基本單元結(jié)構(gòu)在視點軸上并列放置,相鄰的2個基本單元結(jié)構(gòu)有1個時間預測視點是重疊的,左右相鄰的2個基本單元結(jié)構(gòu)中的左基本單元結(jié)構(gòu)的右邊時間預測視點和右基本單元結(jié)構(gòu)的左邊時間預測視點為同一個視點,或者并列放置的相鄰的2個基本單元結(jié)構(gòu)互不重疊。
所述的視點可分解的結(jié)構(gòu)式碼流采用層次結(jié)構(gòu),由多視點視頻序列、圖像組、視點和視差場、圖像幀、片、宏塊及子塊七個層次組成,1個多視點視頻序列碼流以圖像組為單位,每個圖像組的結(jié)構(gòu)由各視點視頻信號碼流和相鄰關(guān)聯(lián)視點視差場碼流交替組成,其碼流形式為
圖像組1個圖像組內(nèi)同一視點圖像幀的碼流按其視點內(nèi)的預測順序組織在一起,1個圖像幀由若干片組成,1個片由若干宏塊組成,對于時間預測視點,其宏塊碼流形式為
宏塊對于混合預測視點,若1個宏塊的時間預測方式準確度最高,則該宏塊碼流形式為
宏塊其中11為預測方式標志位;否則該宏塊碼流形式為
宏塊其中預測方式標志位10標識時間預測+左視點預測得到的碼流,01標識時間預測+右視點預測得到的碼流,00標識由時間預測得到的碼流,此處,符號+表示兩者的結(jié)合,1個宏塊由多個子塊組成,子塊碼流根據(jù)其預測方式按子塊在宏塊中的位置順序嵌入宏塊碼流對應預測方式下的碼流中,子塊的碼流形式為
子塊
子塊
子塊所述的部分碼流選擇與傳輸模塊根據(jù)用戶端顯示設備的不同通過網(wǎng)絡按以下不同的方式進行傳輸(1)若用戶端顯示設備為單目顯示器,或者為多視點視頻顯示器且用戶選擇某1個實際存在的單目視點觀看,則將用戶所需視點的時間預測碼流從視點可分解的結(jié)構(gòu)式碼流中截取出來并傳輸給用戶端視點解碼模塊;(2)若用戶端顯示設備為立體顯示器,則直接截取用戶所選擇的2個視點的碼流進行傳輸,這2個視點一個為時間預測視點,其時間預測碼流將被傳輸,一個為混合預測視點,若該混合預測視點圖像幀的宏塊碼流的預測方式標志位為11,則選取該碼流進行傳輸,否則,參考要傳輸?shù)?個視點中的時間預測視點相對于該混合預測視點的位置來決定要傳輸?shù)拇a流,若時間預測視點位于該混合預測視點左側(cè),則選取該宏塊的預測方式標志位為10的碼流,若時間預測視點位于該混合預測視點右側(cè),則選取該宏塊的預測方式標志位為01的碼流;(3)若用戶所選的視點為實際并不存在的虛擬視點,則從視點可分解的結(jié)構(gòu)式碼流中截取該虛擬視點左右最為鄰近的2個實際存在的視點視頻信號碼流和它們之間的關(guān)聯(lián)視點視差場碼流進行傳輸,這2個實際存在視點的視點視頻信號碼流的截取方式與方式(2)相同。
所述的任意視點繪制模塊實現(xiàn)步驟為(1)若視點解碼模塊解碼得到的是完全像素級分辨率視差場,則直接執(zhí)行步驟(2);若視點解碼模塊解碼得到的是非完全像素級分辨率視差場,則以非完全像素級分辨率視差場按其分辨率與完全像素級分辨率視差場分辨率比例關(guān)系得到完全像素級分辨率視差場中某像素(x,y)的視差值d作為該像素的初始視差值,然后在小搜索范圍[max{0,d-2},min{max_disp,d+2}]所限定的以像素(x+d,y)為中心的水平5個搜索點內(nèi)計算完全像素級分辨率視差場(x,y)處的關(guān)聯(lián)視點間的精確視差值,其中max_disp為完全像素級分辨率視差場的最大視差值,對完全像素級分辨率視差場中的所有像素重復上述處理即得到完全像素級分辨率視差場;(2)令視點n和視點n+1為1對關(guān)聯(lián)視點,它們之間的距離歸一化表示為1,虛擬視點位于視點n和視點n+1之間,虛擬視點與視點n之間的距離以α表示,0<α<1,虛擬視點與視點n+1之間的距離為1-α,利用視點解碼模塊解碼得到的視點n和視點n+1的視頻信號和這2個視點之間的完全像素級分辨率視差場繪制虛擬視點圖像信號a、令視點n圖像中像素(x,y)相對于視點n+1圖像的視差為d,該像素(x,y)在視點n+1圖像中的匹配點為(x+d,y),該像素(x,y)相對于虛擬視點圖像的視差為αd,在虛擬視點圖像中的匹配點為(x+αd,y),則虛擬視點圖像像素(x+αd,y)的值由視點n中像素(x,y)和視點n+1中像素(x+d,y)線性插值得到,即Iα(x+αd,y)=(1-α)In(x,y)+αIn+1(x+d,y),其中,Iα、In和In+1分別表示虛擬視點、視點n和視點n+1指定坐標處的像素點的像素值;b、對于虛擬視點圖像Iα中未能在步驟a中確定像素值的坐標為(x′,y′)的右遮擋像素點p,使其像素值Iα(x′,y′)等于視點n+1圖像中的點(x′+dn+1,y′)的像素值或點(x′+dn+1,y′)周圍若干點像素值的加權(quán)平均值,dn+1=α1-αdn,]]>為p相對于視點n+1的視差,dn=dbDpa+daDbpDpa+Dbp,]]>為p相對于視點n的視差,a、b分別表示虛擬視點圖像Iα中與p同一行的左右兩邊最近的非遮擋像素點,a、b相對于視點n的視差分別表示為da和db,Dpa、Dbp分別表示點p和a、b和p之間的距離;c、對于虛擬視點圖像Iα中未能在步驟a中確定像素值的左遮擋像素點q采取類似右遮擋點p的處理方法處理,q的像素值由q在視點n圖像中的匹配點的像素值或其周圍若干點像素值的加權(quán)平均值得到。
現(xiàn)有多視點視頻系統(tǒng)技術(shù)的預測編碼結(jié)構(gòu)通常是固定的,且預測編碼結(jié)構(gòu)的設計側(cè)重考慮多視點視頻信號的壓縮效率,而沒有充分考慮到傳輸帶寬的需求,視點間的依賴性較強,以致系統(tǒng)對傳輸帶寬的需求較高,而且對于系統(tǒng)用戶端的資源需求較大。與現(xiàn)有技術(shù)相比,本發(fā)明所提供的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法的優(yōu)點在于通過在服務端預編碼存儲不同預測方式下得到的碼流以及鄰近關(guān)聯(lián)視點間完整的視差場碼流,利用反饋的用戶端視點選擇信息和顯示設備類型信息,從視點可分解的結(jié)構(gòu)式碼流中選擇合適的1個視點(用于單目顯示)或2個視點(用于立體顯示)或者最多4個視點(用于2個虛擬視點的立體顯示)數(shù)據(jù),從而實現(xiàn)多視點視頻信號數(shù)據(jù)的部分傳輸,降低系統(tǒng)對傳輸帶寬的要求以及用戶端系統(tǒng)復雜度的要求,使得在給定網(wǎng)絡帶寬的條件下能傳輸更多的節(jié)目,服務更多的用戶,使得數(shù)字交互式多視點電視接收機的成本更低。
圖1為多視點視頻系統(tǒng)組成框圖;圖2為本發(fā)明的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法框圖;圖3a為用圖4的基本單元結(jié)構(gòu)進行部分重疊疊加生成塊基多視點視頻預測編碼結(jié)構(gòu)示意圖;圖3b為用圖4的基本單元結(jié)構(gòu)進行非重疊疊加生成塊基多視點視頻預測編碼結(jié)構(gòu)示意圖;圖4為塊基多視點視頻預測編碼結(jié)構(gòu)的基本單元結(jié)構(gòu)示意圖;圖5為多視點視頻序列1個圖像組的預測編碼結(jié)構(gòu)示意圖;圖6為圖5多視點視頻序列1個圖像組的預測編碼結(jié)構(gòu)的基本單元結(jié)構(gòu)示意圖;圖7a為圖5的預測編碼結(jié)構(gòu)中混合預測視點的時間預測+左視點預測方式示意圖;圖7b為圖5的預測編碼結(jié)構(gòu)中混合預測視點的時間預測+右視點預測方式示意圖;圖7c為圖5的預測編碼結(jié)構(gòu)中混合預測視點的時間預測方式示意圖;圖8a為混合預測視點中B3幀的時間預測+左視點預測方式第一種參考方式示意圖;圖8b為混合預測視點中B3幀的時間預測+右視點預測方式第一種參考方式示意圖;圖8c為混合預測視點中B3幀的時間預測方式第一種參考方式示意圖;圖9a為混合預測視點中B3幀的時間預測+左視點預測方式第二種參考方式示意圖;圖9b為混合預測視點中B3幀的時間預測+右視點預測方式第二種參考方式示意圖;圖9c為混合預測視點中B3幀的時間預測方式第二種參考方式示意圖;
圖10a為混合預測視點中B3幀的時間預測+左視點預測方式第三種參考方式示意圖;圖10b為混合預測視點中B3幀的時間預測+右視點預測方式第三種參考方式示意圖;圖10c為混合預測視點中B3幀的時間預測方式第三種參考方式示意圖;圖11為視點可分解的結(jié)構(gòu)式碼流層次結(jié)構(gòu)示意圖;圖12為虛擬視點繪制示意圖;圖13為虛擬視點繪制時右遮擋區(qū)域的繪制示意圖;圖14為本發(fā)明實施例的傳輸率失真性能與現(xiàn)有三種多視點視頻編碼方案傳輸率失真性能的比較圖;圖15為Simulcast多視點視頻編碼方案的預測編碼結(jié)構(gòu)示意圖;圖16為HBP多視點視頻編碼方案的預測編碼結(jié)構(gòu)示意圖;圖17為IPP多視點視頻編碼方案的預測編碼結(jié)構(gòu)示意圖。
具體實施例方式
以下結(jié)合附圖實施例對本發(fā)明作進一步詳細描述。
如圖2所示,本發(fā)明的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法由系統(tǒng)服務端的多視點視頻成像模塊、集成的多視點視頻編碼模塊和部分碼流選擇與傳輸模塊以及系統(tǒng)用戶端的視點解碼模塊、任意視點繪制模塊和視頻顯示模塊來完成圖像信號的采集、編碼、傳輸、解碼、繪制與顯示,在集成的多視點視頻編碼模塊中進行多視點圖像色彩校正、關(guān)聯(lián)視點視差場估計與編碼、塊基多視點視頻編碼和視點可分解的結(jié)構(gòu)式碼流生成,用戶端將用戶選擇的視點和顯示設備類型信息傳輸給服務端的部分碼流選擇與傳輸模塊,部分碼流選擇與傳輸模塊根據(jù)接收到的信息從集成的多視點視頻編碼模塊生成的視點可分解的結(jié)構(gòu)式碼流中分離出繪制用戶所選視點圖像所需的視頻數(shù)據(jù)和視差場信息并將其通過網(wǎng)絡傳輸給視點解碼模塊進行解碼,然后根據(jù)解碼得到的信息繪制圖像信號并最終由視頻顯示模塊進行顯示,具體步驟為1、多視點視頻成像模塊該模塊中的多個相機組成的相機陣列從不同角度同步拍攝同一場景,獲取多個視點的視頻信號,并向集成的多視點視頻編碼模塊傳輸多視點視頻信號。
2、集成的多視點視頻編碼模塊該模塊接收多視點視頻成像模塊采集的多視點視頻信號,對多視點視頻信號進行多視點圖像色彩校正、關(guān)聯(lián)視點視差場估計與編碼、塊基多視點視頻編碼,并將生成的關(guān)聯(lián)視點視差場與多視點視頻信號的視點可分解的結(jié)構(gòu)式碼流存儲于系統(tǒng)服務端的存儲器或者傳輸給用戶端的視點解碼模塊。
1)多視點圖像色彩校正
在多視點視頻成像過程中,由于各視點的場景光照、相機標定、CCD噪聲、快門速度和曝光等要素不一致,會導致不同位置采集的圖像色彩差別較大,這將對多視點視頻視點間預測和任意視點繪制帶來不利影響。多視點圖像的色彩校正將消除多視點圖像間色彩的不一致性,是多視點視頻應用的重要預處理步驟。
由于光照的不均勻性以及物體光線反射的角度的不同,近景物體在不同視點中呈現(xiàn)的色彩本身就可能存在一定的差異,此部分由于環(huán)境光照所引起的色彩差異并不是要消除的對象,然而相機參數(shù)的不一致也會導致近景物體色彩的不一致,這部分差異是需要消除的;遠景物體由于遠離相機,其由于環(huán)境光照原因呈現(xiàn)在不同視點中的差異幾乎很小,其色差的出現(xiàn)主要是由于相機參數(shù)的不一致所引起的。因此多視點圖像色彩校正參數(shù)的獲取應以遠景區(qū)域為參照,而不以近景區(qū)域為參照。
為獲取準確的色彩校正參數(shù),需要確定多視點圖像間的區(qū)域(物體)對應關(guān)系,以計算同一物體在不同視點圖像中的色彩差異程度,從而推斷出校正參數(shù)。視差估計技術(shù)可用來獲得不同視點圖像間的對應關(guān)系。然而由于不同視點圖像間的色彩差異,會影響到視差估計的準確性,也即影響到所估計的多視點圖像區(qū)域?qū)P(guān)系的準確性。而圖像的邊緣信息相對穩(wěn)定,因此,可以利用圖像的邊緣紋理特征進行色彩無關(guān)的視差估計,以準確確定多視點圖像間的區(qū)域(物體)對應關(guān)系。
本實施例的多視點圖像色彩校正步驟如下首先分別提取參考視點圖像和待校正視點圖像的邊緣紋理或反映邊緣和紋理特征的特征點作為邊緣紋理信息。然后利用所提取的邊緣紋理信息進行參考視點圖像和待校正視點圖像間的區(qū)域匹配,得到參考視點圖像和待校正視點圖像間的視差信息。上述區(qū)域匹配可以通過兩種方式實現(xiàn),一是將圖像分割成若干圖像塊,再以圖像塊為單位進行匹配;或者對圖像的邊緣紋理豐富區(qū)域進行匹配,然后采用插值的方法得到非邊緣紋理豐富區(qū)域的匹配關(guān)系。最后利用視差信息確定圖像的近景區(qū)域與遠景區(qū)域,將視差大的區(qū)域作為近景區(qū)域,視差小的區(qū)域作為遠景區(qū)域,僅以遠景區(qū)域作為參照區(qū)域求取待校正視點圖像的色度和亮度校正參數(shù),并用這些參數(shù)對整幅待校正的多視點圖像幀進行色度和亮度校正。
2)關(guān)聯(lián)視點視差場估計與編碼現(xiàn)有典型的采用多參考幀的多視點視頻編碼方法采用視差估計與補償技術(shù),但其視差估計只是作為和運動估計一起來提高預測精度以減少預測誤差、提高編碼率失真性能的一項輔助技術(shù)使用,不能提供完整的視差場(即圖像部分區(qū)域沒有視差信息),也沒有對完整的視差場進行編碼并傳輸?shù)接脩舳?。而在交互式多視點視頻系統(tǒng)中,完整精確的視差場是用戶端快速繪制用戶所選擇的任意視點圖像所需的重要信息。如果由用戶端來完成視差場的計算,既要求用戶端具有較強的計算能力,增加了數(shù)字交互式多視點電視接收機的成本,又影響了用戶端實時繪制虛擬視點的速度。
本實施例中,集成的多視點視頻編碼模塊在系統(tǒng)服務端計算鄰近關(guān)聯(lián)視點間的完整視差場,并對視差場單獨進行編碼壓縮,生成關(guān)聯(lián)視點視差場的結(jié)構(gòu)式碼流并預存儲于服務端的存儲器。這里,完整視差場可以是鄰近關(guān)聯(lián)視點間的“完全像素級分辨率視差場”或者“非完全像素級分辨率視差場”。“完全像素級分辨率視差場”是指根據(jù)圖像分辨率(即圖像尺寸)為W×H(W、H為正整數(shù))的左右視點圖像估計得到的相同分辨率W×H的視差場;“非完全像素級分辨率視差場”是指根據(jù)圖像分辨率為W×H的左右視點圖像估計得到的分辨率低于N×M的視差場,例如分辨率為(0.25W)×(0.25H)的視差場,或者以多分辨率塊方式構(gòu)成的視差場。編碼壓縮后的視差場將根據(jù)用戶視點選擇情況有選擇性地通過網(wǎng)絡傳輸給用戶端,以便在用戶端解碼和繪制所選擇視點的視頻信號。同時,鄰近關(guān)聯(lián)視點間的“完全像素級分辨率視差場”或者“非完全像素級分辨率視差場”將傳輸給塊基多視點視頻編碼部分進行視點間的預測。
由于多視點圖像色彩校正中已得到參考視點圖像和待校正視點圖像間的視差信息,因此完整視差場可以通過對多視點圖像間的色彩校正過程中所得到的視差估計結(jié)果進行補充并使其在分辨率上更加精細,形成精確的完全像素級分辨率視差場,或者較為精細的非完全像素級分辨率視差場。
關(guān)聯(lián)視點的選取可根據(jù)相機陣列的形式以及用戶端顯示設備類型等信息采取不同的形式。在本實施例中,選取兩兩相鄰視點互為關(guān)聯(lián)視點,即若服務端多視點成像視點數(shù)為N,則有(N-1)對的兩兩視點作為關(guān)聯(lián)視點,也即有(N-1)個相鄰兩兩視點之間的關(guān)聯(lián)視點視差場。如圖3a、圖3b所示,塊基多視點視頻預測編碼結(jié)構(gòu)中有8個視點S0~S7,它們將形成視點S0和S1之間、S1和S2之間、S2和S3之間等7個相鄰兩兩視點之間的視差場,這些視差場將被完整計算和編碼。兩兩視點之間的關(guān)聯(lián)視點視差場的參考方式與這2個視點預測編碼結(jié)構(gòu)中的預測參考方向一致,其中視點S0和S1之間的視差場是以視點S0為參考,由S0來預測S1;視點S2和S1之間的視差場是以S2為參考,由S2來預測S1。在關(guān)聯(lián)視點視差場的計算中可以利用2個相鄰視差場中已計算的視差場以及相關(guān)視點的位置關(guān)系外推出另一尚未計算的視差場中視差矢量的初始值,以減少得到相鄰視差場的計算量。例如,利用S0和S1之間的視差場以及視點S0、S1、S2之間的位置關(guān)系外推出S1和S2之間視差場中視差矢量的初始值,S1和S2之間視差場中視差矢量的準確值則通過在該初始值周圍的小范圍內(nèi)搜索來確定。
3)塊基多視點視頻編碼與視點可分解的結(jié)構(gòu)式碼流生成塊基多視點視頻編碼根據(jù)與顯示設備類型對應的預測編碼結(jié)構(gòu),預先對多視點視頻信號進行編碼,得到多個不同預測編碼結(jié)構(gòu)的視點視頻信號碼流,然后將不同預測編碼結(jié)構(gòu)的視點視頻信號碼流組成多視點視頻信號的視點可分解的結(jié)構(gòu)式碼流并預存儲于服務端的存儲器,以便部分碼流選擇與傳輸模塊根據(jù)用戶端請求選取合適的碼流進行傳輸。
圖4給出了塊基多視點視頻預測編碼結(jié)構(gòu)的基本單元結(jié)構(gòu),它由位于左右兩邊的2個時間預測視點和位于中間的1個混合預測視點構(gòu)成,每個視點由若干個連續(xù)時刻的圖像幀所組成。其中,時間預測視點是指僅采用時間預測的視點,即這類視點的編解碼不依賴于其它視點的信號,視點內(nèi)各幀只在視點內(nèi)部進行預測編碼,而不進行視點間的預測,生成由時間預測編碼得到的碼流;混合預測視點是指采用時間預測+左視點預測方式、時間預測+右視點預測方式和時間預測方式分別對視點內(nèi)的圖像幀在視點內(nèi)部及視點間進行預測編碼,這類視點的編解碼依賴于其左右相鄰的時間預測視點(即參考視點),然后對預測的準確度進行判斷,若時間預測方式準確度最高,則僅生成時間預測方式的碼流,否則生成3個預測方式的碼流。
圖3a、圖3b為由圖4所示的基本單元結(jié)構(gòu)疊加而成的塊基多視點視頻編碼的預測編碼結(jié)構(gòu),多個基本單元結(jié)構(gòu)在視點軸上并列放置,相鄰基本單元結(jié)構(gòu)之間可以如圖3a所示有1個時間預測視點重疊,即左右相鄰的2個基本單元結(jié)構(gòu)中的左基本單元結(jié)構(gòu)的右邊時間預測視點和右基本單元結(jié)構(gòu)的左邊時間預測視點為同一個視點,也可以如圖3b所示互不重疊。在時間軸上,對于時間預測視點可采取任意的視點內(nèi)預測方式(即與傳統(tǒng)單視點視頻編碼類似的僅有時間預測的方式),每個時間預測視點生成1個碼流?;旌项A測視點的時間預測方式與時間預測視點的時間預測方式相同,但增加了左視點預測和右視點預測,這2個視點間預測分別參考該混合預測視點相鄰的左右2個時間預測視點中與混合預測視點當前幀同一時刻的幀。如圖3a、圖3b所示,混合預測視點的預測有三種方式第一種是水平實線箭頭所指示的由其左邊的視點進行視點間預測,同時采取垂直實線箭頭所指示的時間預測的方式,稱為時間預測+左視點預測方式;第二種是水平虛線箭頭所指示的由其右邊的視點進行視點間預測,同時采取垂直實線箭頭所指示的時間預測的方式,稱為時間預測+右視點預測方式;第三種是與時間預測視點相同的僅采用時間預測而不進行視點間預測的方式,稱為時間預測方式。這三種預測方式將各自以不同的預測方式編碼產(chǎn)生1個碼流,即每個混合預測視點最多有3個碼流;但當時間預測方式的預測結(jié)果最為準確時,則僅生成并保留時間預測方式得到的碼流,而不生成另外2個預測方式的碼流,即此時該混合預測視點僅有唯一的1個以時間預測方式編碼得到的碼流。
圖5為由圖6所示的基本單元結(jié)構(gòu)疊加而成的多視點視頻序列1個圖像組GOP(Group of Pictures)的預測編碼結(jié)構(gòu),圖中箭頭所指的圖像幀為參考圖像幀,1個圖像組由N個視點M個時刻的共計N×M幀圖像構(gòu)成。該結(jié)構(gòu)通過增加多視點視頻節(jié)目的存儲容量來減少節(jié)目網(wǎng)絡傳輸?shù)拇a率,降低系統(tǒng)對于網(wǎng)絡帶寬的需求。圖5中各個視點在時域上都采用分級編碼結(jié)構(gòu)。其中,S0、S2、S4、S6為時間預測視點,僅采用基于時間預測的視點間獨立的編碼方式,每個時間預測視點僅生成1個碼流,這4個視點的解碼不依賴于任何其它視點,即觀看這4個視點中的任何1個視點僅需要傳輸該視點自身的碼流即可;S1、S3、S5、S7為混合預測視點,這4個視點除時間預測方式外,還有時間預測+左視點預測方式和時間預測+右視點預測方式,其中視點S7是一個特殊情況,它僅有一個參考視點,即視點S6,而S1、S3、S5則分別參考其左右相鄰的2個時間預測視點。圖5中的混合預測視點的時間預測+左視點預測方式、時間預測+右視點預測方式和時間預測方式分別如圖7a、7b、7c所示。其中混合預測視點中的P幀可以按幀內(nèi)預測編碼方式編碼,即將該P幀變?yōu)镮幀;也可以通過采用H.264中的SP幀技術(shù)由該混合預測視點的左右2個相鄰的時間預測視點中與該P幀同一時刻的2個I幀進行視點間預測來對該P幀進行預測編碼。圖5中的S1、S3、S5、S7混合預測視點中的B3幀具有時間預測+左視點預測方式、時間預測+右視點預測方式和時間預測方式,針對三種不同的預測方式其參考方式可以采用如圖8a、圖8b、圖8c所示的第一種參考方式。每個混合預測視點的B3幀的如圖8a所示的時間預測+左視點預測方式的第一種參考方式和如圖8b所示的時間預測+右視點預測方式的第一種參考方式分別有3個參考幀,圖8c所示的時間預測方式的第一種參考方式有2個參考幀。以宏塊為單位對混合預測視點的B3幀編碼,對于平坦區(qū)域,宏塊即為最小編碼單位,對于非平坦區(qū)域,宏塊可進一步分割成若干子塊。對宏塊或其子塊分別進行以第1和2幀為參考幀的時間預測,以及以第3和4幀為參考幀的視點間預測。如果以第1和第2幀為參考的預測結(jié)果最為準確,則生成該宏塊或其子塊的唯一的以時間預測方式得到的碼流,該碼流的預測方式標志位為11;如果以第3或第4幀為參考的預測結(jié)果最為準確,則生成該宏塊或其子塊的分別以時間預測+左視點預測、時間預測+右視點預測和時間預測得到的3個碼流,其對應的預測方式標志位分別為10、01和00,即由第3幀作為參考幀進行視點間預測生成的碼流放入時間預測+左視點預測碼流,由第4幀作為參考幀進行視點間預測生成的碼流放入時間預測+右視點預測碼流,而由第1幀或第2幀作為參考幀進行時間預測生成的碼流放入時間預測碼流。圖5中的S1、S3、S5、S7混合預測視點的B3幀的參考方式也可以采用如圖9a、圖9b、圖9c所示的第二種參考方式或如圖10a、圖10b、圖10c所示的第三種參考方式,此時,每個混合預測視點的B3幀的如圖9a、圖10a所示的時間預測+左視點預測方式的參考方式和如圖9b、圖10b所示的時間預測+右視點預測方式的參考方式各自分別只有2個參考幀,圖9c和圖10c所示的時間預測方式的參考方式與圖8c所示的時間預測方式的參考方式一致。
視點可分解的結(jié)構(gòu)式碼流采用如圖11所示的層次結(jié)構(gòu),由多視點視頻序列、圖像組、視點和視差場、圖像幀、片、宏塊及子塊七個層次組成,1個多視點視頻序列碼流以圖像組為單位,多視點視頻序列頭信息中包含多視點視頻格式、圖像組等結(jié)構(gòu)標志信息,結(jié)構(gòu)為
多視點視頻序列每個圖像組由各視點視頻信號碼流和相鄰關(guān)聯(lián)視點視差場碼流交替組成,圖像組中的頭信息包含圖像組內(nèi)預測參考方式等標志信息
圖像組1個圖像組內(nèi)同一視點圖像幀的碼流以其視點內(nèi)的預測順序組織在一起,視點的頭信息包含該視點的類型(時間預測視點或混合預測視點)和預測方式信息,各視點碼流形式如下
視點1個圖像幀以片為單位進行組織,圖像幀的頭信息包含量化步長等信息
圖像幀1個片由整數(shù)個宏塊組成,片的頭信息包含片編號等信息
片對于時間預測視點,其宏塊碼流形式為
宏塊對于混合預測視點,當1個宏塊的預測準確度最高的預測為時間預測時,該宏塊只有1個預測方式標志位為11的由時間預測得到的碼流
宏塊當1個宏塊的預測準確度最高的預測不是時間預測時,該宏塊有3個碼流,分別為預測方式標志位為10的由時間預測+左視點預測得到的碼流、預測方式標志位為01的由時間預測+右視點預測得到的碼流以及預測方式標志位為00的由時間預測得到的碼流
宏塊宏塊的頭信息包含宏塊地址、宏塊類型和宏塊量化步長等信息。當1個宏塊分裂為多個子塊時,1個宏塊的碼流由幾個子塊的碼流組成。子塊的碼流形式如下
子塊
子塊
子塊子塊碼流根據(jù)其預測方式按子塊在宏塊中的位置順序嵌入宏塊碼流對應預測方式下的碼流中。
3、部分碼流選擇與傳輸模塊該模塊根據(jù)交互反饋的用戶端視點選擇情況以及用戶端顯示設備類型信息,從視點可分解的結(jié)構(gòu)式碼流中截取合適的視點視頻信號碼流和可能需要的視差場碼流通過網(wǎng)絡進行傳輸。
當用戶端顯示設備類型為單目顯示器時,如果用戶端所選擇的視點是實際存在的視點,則按圖像組順序選取各圖像組中相應視點碼流。對于時間預測視點,該碼流是唯一的;對于混合預測視點,在宏塊或子塊級碼流上,選取預測方式標志位為11或00的時間預測方式得到的碼流。而如果用戶端所選擇的視點是虛擬視點時,則按圖像組順序選取各圖像組中該虛擬視點左右2側(cè)最為鄰近的2個實際存在的視點碼流以及這1對視點之間的視差場碼流。在混合預測視點的宏塊或子塊級碼流選取上,以這對視點中時間預測視點相對于該混合預測視點的位置來選取碼流,即如果對應宏塊或子塊碼流的預測方式標志位為11,表明該宏塊或子塊只有唯一的1個碼流,因此傳輸該宏塊或子塊的這個唯一的碼流,而如果對應宏塊或子塊碼流的預測方式標志位不是11,則若時間預測視點在該混合預測視點的左邊就選預測方式標志位為10的碼流,若時間預測視點在其右邊就選預測方式標志位為01的碼流。
當用戶端顯示設備類型為立體(雙目)顯示時,如果用戶端所選擇的1對視點是實際存在的2個視點,則碼流截取與傳輸方式與上述單目虛擬視點顯示時的方式相同。如果用戶端所選擇的1對視點中2個均是虛擬視點時,則每個視點參照上述單目虛擬視點的方式。如果用戶端所選擇的1對視點中1個是實際存在的視點,1個是虛擬視點,則實際存在視點的碼流截取與傳輸方式與上述單目實際存在視點的方式相同,虛擬視點的碼流截取與傳輸方式與上述單目虛擬視點的方式相同。
4、視點解碼模塊該模塊接收到多視點視頻信號的結(jié)構(gòu)式碼流,并對結(jié)構(gòu)式碼流進行解碼以獲得繪制用戶所選擇視點視頻圖像的視頻信號和相應的關(guān)聯(lián)視點視差場。
5、任意視點繪制模塊該模塊利用解碼視頻信號和關(guān)聯(lián)視點視差場信息繪制用戶所選擇視點的視頻圖像。如果用戶所選擇的視點為實際存在的視點,則將由視點解碼模塊解碼得到的該視點信號直接提交給視頻顯示模塊進行顯示即可;如果用戶所選擇的視點為虛擬視點,則由視點繪制模塊根據(jù)解碼得到的視點信號和關(guān)聯(lián)視點視差場繪制該虛擬視點信號。
在用戶端虛擬視點繪制上,如果解碼得到的是完全像素級分辨率視差場,用戶端無需進一步對該視差場進行求精,而直接用于快速、低復雜度的任意視點繪制。如果解碼得到的是非完全像素級分辨率視差場,則以非完全像素級分辨率視差場按其分辨率與完全像素級分辨率視差場分辨率比例關(guān)系得到完全像素級分辨率視差場中某像素(x,y)的視差值d作為該像素的初始視差值,然后在小搜索范圍[max{0,d-2},min{max_disp,d+2}]所限定的以像素(x+d,y)為中心的水平5個搜索點內(nèi)計算完全像素級分辨率視差場(x,y)處的關(guān)聯(lián)視點間的精確視差值,其中max_disp為完全像素級分辨率視差場的最大視差值,對完全像素級分辨率視差場中的所有像素重復上述處理即得到完全像素級分辨率視差場。
在得到完全像素級分辨率視差場后,虛擬視點的繪制可以按如圖12所示的方法進行。圖中視點n和視點n+1為1對關(guān)聯(lián)視點,虛擬視點位于視點n和視點n+1之間。設視點n和視點n+1之間的距離歸一化表示為1,虛擬視點與視點n之間的距離由α表示,0<α<1,則虛擬視點與視點n+1之間的距離為1-α,利用視點解碼模塊解碼得到的視點n和視點n+1的視頻信號和這2個視點之間的完全像素級分辨率視差場繪制虛擬視點圖像信號a、令視點n圖像中像素(x,y)相對于視點n+1圖像的視差為d,該像素(x,y)在視點n+1圖像中的匹配點為(x+d,y),該像素(x,y)相對于虛擬視點圖像的視差為αd,在虛擬視點圖像中的匹配點為(x+αd,y),則如圖12中雙箭頭所示虛擬視點圖像像素(x+αd,y)的值由視點n中像素(x,y)和視點n+1中像素(x+d,y)線性插值得到,即Iα(x+αd,y)=(1-α)In(x,y)+αIn+1(x+d,y),其中,Iα、In和In+1分別表示虛擬視點、視點n和視點n+1指定坐標處的像素點的像素值;b、經(jīng)過步驟a計算之后的虛擬視點圖像中存在一些空洞,即這些空洞區(qū)域內(nèi)的像素在經(jīng)過步驟a處理后仍未能得到其像素值,這些區(qū)域被認為是遮擋像素,其中右遮擋是指遮擋區(qū)域的物體僅在視點n+1中可見,而在視點n中不可見,左遮擋則是指遮擋區(qū)域的物體僅在視點n可見,而在視點n+1不可見,如圖13所示,對于虛擬視點圖像中坐標為(x′,y′)的右遮擋像素點p,在其左右兩邊查找最近的非遮擋像素點a和b,a和b相對于視點n的視差分別表示為da和db,則當前遮擋點p相對于視點n的視差dn通過下式得到dn=dbDpa+daDbpDpa+Dbp,]]>式中Dpa、Dbp分別表示圖13中點p和a、b和p之間的距離,該遮擋點p相對于視點n+1的視差為dn+1=α1-αdn,]]>最后令當前右遮擋點p的像素值等于dn+1所指示的視點n+1中的坐標為(x′+dn+1,y′)的點o的像素值或點o周圍若干點像素值的加權(quán)平均值;c、對于虛擬視點圖像Iα中未能在步驟a中確定像素值的左遮擋像素點q采取類似右遮擋點p的處理方法處理,左遮擋點q的像素值如圖12所示由q在視點n圖像中的匹配點r的像素值或點r周圍若干點像素值的加權(quán)平均值得到。
6、視頻顯示模塊將任意視點繪制模塊繪制完成的視頻圖像直接傳輸?shù)揭曨l顯示模塊進行顯示,其顯示設備包括單目視頻(單視點視頻)顯示設備(如數(shù)字電視)、立體視頻(雙目視頻)顯示設備和多視點視頻顯示設備。
為更有效地分析和設計多視點視頻編碼器,對傳統(tǒng)的、源于單視點視頻編碼器并用于其壓縮性能評價的率失真模型進行了修正。傳統(tǒng)的視頻編碼器的率失真模型反映視頻編碼器的編碼失真D(Rcoding)與編碼碼率Rcoding的關(guān)系,即D(Rcoding)~Rcoding;該率失真性能模型與交互式多視點傳輸聯(lián)系不夠密切。而傳輸率失真性能模型是指在網(wǎng)絡無失真?zhèn)鬏斚拢⒂脩舳私獯a某個視點平均需要傳輸視頻碼流的帶寬Ltransmit與解碼失真D(Ltransmit)的關(guān)系,即D(Ltransmit)~Ltransmit。它反映在給定的解碼視頻信號質(zhì)量下解碼顯示多視點視頻一個視點視頻信號時所需傳輸?shù)钠骄a率,或者是在給定的解碼顯示多視點視頻一個視點視頻信號時所需傳輸?shù)钠骄a率下的解碼視頻信號的質(zhì)量。在給定的解碼視頻信號質(zhì)量下解碼顯示多視點視頻一個視點視頻信號時所需傳輸?shù)钠骄a率越低,說明面向用戶端的交互式多視點視頻系統(tǒng)對于傳輸帶寬的要求越低,在給定網(wǎng)絡帶寬的條件下系統(tǒng)能傳輸更多的節(jié)目,服務更多的用戶;在給定的解碼顯示多視點視頻一個視點視頻信號時所需傳輸?shù)钠骄a率下的解碼視頻信號的質(zhì)量(信噪比)越高,說明面向用戶端的交互式多視點視頻系統(tǒng)在相同傳輸帶寬下能提供更高質(zhì)量的多視點視頻信號。
以下就本發(fā)明的傳輸率失真性能進行比較說明。
針對面向用戶端的交互式多視點立體視頻的應用(即用戶端顯示設備為立體顯示方式),基于H.264平臺對現(xiàn)有的Simucast、HBP、IPP多視點視點編碼方案的分別如圖15、圖16和圖17所示的預測編碼結(jié)構(gòu)與本發(fā)明如圖5所示的預測編碼結(jié)構(gòu)進行了實驗,圖14為這四種多視點視頻編碼結(jié)構(gòu)的傳輸率失真曲線圖。實驗采用的測試序列為ballroom,量化參數(shù)分別為QP=24、28、32、36,整個序列共有11個GOP,每個GOP有8個視點,時域上有9個時刻,前后2個GOP頭尾相接,即前1個GOP的第T8時刻就是后1個GOP的第T0時刻,整個多視點視頻序列共有712幀。由圖14可見,本發(fā)明的傳輸率失真性能明顯優(yōu)于Simucast、HBP、IPP方案的傳輸率失真性能,即為獲取相同質(zhì)量的立體視頻信號,本發(fā)明的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法所傳輸?shù)牧Ⅲw視頻信號碼率明顯小于Simucast、HBP、IPP方案下所需傳輸?shù)拇a率,或者也可以說在給定傳輸帶寬的前提下本發(fā)明所能提供的立體視頻信號質(zhì)量優(yōu)于Simucast、HBP、IPP方案所能提供的立體視頻信號質(zhì)量。
顯而易見,交互式多視點視頻系統(tǒng)及其內(nèi)部各模塊不僅限于本實施例的形式,因此在不背離權(quán)利要求及同等范圍所限定的一般概念的精神和范圍的情況下,本發(fā)明的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法并不限于特定的細節(jié)和這里示出與描述的示例。
權(quán)利要求
1.一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,由系統(tǒng)服務端的多視點視頻成像模塊、集成的多視點視頻編碼模塊和部分碼流選擇與傳輸模塊以及系統(tǒng)用戶端的視點解碼模塊、任意視點繪制模塊和視頻顯示模塊來完成圖像信號的采集、編碼、傳輸、解碼、繪制與顯示,用戶端將用戶選擇的視點和顯示設備類型信息傳輸給服務端的部分碼流選擇與傳輸模塊,部分碼流選擇與傳輸模塊根據(jù)接收到的信息從集成的多視點視頻編碼模塊生成的視點可分解的結(jié)構(gòu)式碼流中分離出繪制用戶所選視點圖像所需的視頻數(shù)據(jù)和視差場信息并將其通過網(wǎng)絡傳輸給視點解碼模塊進行解碼,其特征在于在所述的集成的多視點視頻編碼模塊中進行多視點圖像色彩校正、關(guān)聯(lián)視點視差場估計與編碼、塊基多視點視頻編碼和視點可分解的結(jié)構(gòu)式碼流生成,具體步驟為(1)由多視點視頻成像模塊中的多個可同步拍攝的相機獲取多個視點的視頻信號,并向集成的多視點視頻編碼模塊傳輸多視點視頻信號;(2)集成的多視點視頻編碼模塊接收多視點視頻成像模塊采集的多視點視頻信號,對多視點視頻信號進行多視點圖像色彩校正、關(guān)聯(lián)視點視差場估計與編碼、塊基多視點視頻編碼,并將生成的關(guān)聯(lián)視點視差場與多視點視頻信號的視點可分解的結(jié)構(gòu)式碼流存儲于服務端的存儲器或者傳輸給用戶端的視點解碼模塊;(3)部分碼流選擇與傳輸模塊根據(jù)交互反饋的用戶端視點選擇情況以及用戶端顯示設備類型信息,從視點可分解的結(jié)構(gòu)式碼流中截取繪制用戶所選視點圖像所需的視點視頻信號和關(guān)聯(lián)視點視差場碼流通過網(wǎng)絡進行傳輸;(4)用戶端視點解碼模塊接收到多視點視頻信號和關(guān)聯(lián)視點視差場碼流,并對該碼流進行解碼;(5)若用戶所選擇的視點為實際存在的視點,則將由視點解碼模塊解碼得到的視點信號直接傳輸給視頻顯示模塊進行顯示;若用戶選擇的視點為虛擬視點,則由任意視點繪制模塊根據(jù)視點解碼模塊解碼得到的視點信號和視差場繪制虛擬視點,再傳輸給視頻顯示模塊進行顯示。
2.如權(quán)利要求1所述的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,其特征在于所述的多視點圖像色彩校正方法為(1)分別提取參考視點圖像和待校正視點圖像的邊緣紋理或反映邊緣和紋理特征的特征點作為邊緣紋理信息;(2)利用所提取的邊緣紋理信息進行參考視點圖像和待校正視點圖像間的區(qū)域匹配,得到參考視點圖像和待校正視點圖像間的視差信息;區(qū)域匹配通過將圖像分割成若干圖像塊,再以圖像塊為單位進行匹配來實現(xiàn),或通過對圖像的邊緣紋理豐富區(qū)域進行匹配,然后采用插值的方法得到非邊緣紋理豐富區(qū)域的匹配關(guān)系來實現(xiàn);(3)利用視差信息確定圖像的近景區(qū)域與遠景區(qū)域,以遠景區(qū)域作為參照區(qū)域求取待校正視點圖像的色度和亮度的校正參數(shù),并用這些校正參數(shù)對整幅待校正視點圖像進行色度和亮度的校正。
3.如權(quán)利要求2所述的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,其特征在于所述的關(guān)聯(lián)視點視差場估計與編碼實現(xiàn)步驟為(1)將相鄰的兩兩視點作為關(guān)聯(lián)視點;(2)根據(jù)多視點圖像間的色彩校正過程中所得到的視差信息計算所有兩兩關(guān)聯(lián)視點之間的視差場,得到精確的完全像素級分辨率視差場或者較為精細的非完全像素級分辨率視差場,任意兩兩關(guān)聯(lián)視點視差場的參考方向與塊基多視點視頻編碼所采用的預測編碼結(jié)構(gòu)中這兩個關(guān)聯(lián)視點的預測參考方向一致;(3)對關(guān)聯(lián)視點視差場進行編碼,生成關(guān)聯(lián)視點視差場的結(jié)構(gòu)式碼流并預存儲于服務端的存儲器。
4.如權(quán)利要求1所述的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,其特征在于所述的塊基多視點視頻編碼是根據(jù)與顯示設備類型對應的預測編碼結(jié)構(gòu),預先對多視點視頻信號進行編碼,得到多個不同預測編碼結(jié)構(gòu)的視點視頻信號碼流,然后將不同預測編碼結(jié)構(gòu)的視點視頻信號碼流組成多視點視頻信號的視點可分解的結(jié)構(gòu)式碼流并預存儲于服務端的存儲器。
5.如權(quán)利要求4所述的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,其特征在于所述的塊基多視點視頻編碼的預測編碼結(jié)構(gòu)由基本單元結(jié)構(gòu)疊加而成,所述的基本單元結(jié)構(gòu)由位于左右兩邊的2個時間預測視點和位于中間的1個混合預測視點構(gòu)成,每個視點由若干個連續(xù)時刻的圖像幀所組成,所述的時間預測視點的預測方式是對視點內(nèi)各幀僅在本視點內(nèi)部進行預測編碼,生成由時間預測編碼得到的碼流,所述的混合預測視點的預測方式是采用時間預測+左視點預測方式、時間預測+右視點預測方式和時間預測方式分別對視點內(nèi)的圖像幀在視點內(nèi)部及視點間進行預測編碼,此處,符號+表示兩者的結(jié)合,然后對預測的準確度進行判斷,若時間預測方式準確度最高,則僅生成由時間預測編碼得到的碼流,否則生成3個預測方式的碼流,所述的由基本單元結(jié)構(gòu)疊加構(gòu)成預測編碼結(jié)構(gòu)的方式如下將若干個基本單元結(jié)構(gòu)在視點軸上并列放置,相鄰的2個基本單元結(jié)構(gòu)有1個時間預測視點是重疊的,左右相鄰的2個基本單元結(jié)構(gòu)中的左基本單元結(jié)構(gòu)的右邊時間預測視點和右基本單元結(jié)構(gòu)的左邊時間預測視點為同一個視點,或者并列放置的相鄰的2個基本單元結(jié)構(gòu)互不重疊。
6.如權(quán)利要求1所述的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,其特征在于所述的視點可分解的結(jié)構(gòu)式碼流采用層次結(jié)構(gòu),由多視點視頻序列、圖像組、視點和視差場、圖像幀、片、宏塊及子塊七個層次組成,1個多視點視頻序列碼流以圖像組為單位,每個圖像組的結(jié)構(gòu)由各視點視頻信號碼流和相鄰關(guān)聯(lián)視點視差場碼流交替組成,其碼流形式為圖像組
1個圖像組內(nèi)同一視點圖像幀的碼流按其視點內(nèi)的預測順序組織在一起,1個圖像幀由若干片組成,1個片由若干宏塊組成,對于時間預測視點,其宏塊碼流形式為宏塊
對于混合預測視點,若1個宏塊的時間預測方式準確度最高,則該宏塊碼流形式為宏塊
其中11為預測方式標志位;否則該宏塊碼流形式為宏塊
其中預測方式標志位10標識時間預測+左視點預測得到的碼流,01標識時間預測+右視點預測得到的碼流,00標識由時間預測得到的碼流,此處,符號+表示兩者的結(jié)合,1個宏塊由多個子塊組成,子塊碼流根據(jù)其預測方式按子塊在宏塊中的位置順序嵌入宏塊碼流對應預測方式下的碼流中,子塊的碼流形式為子塊
子塊
子塊
7.如權(quán)利要求1所述的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,其特征在于所述的部分碼流選擇與傳輸模塊根據(jù)用戶端顯示設備的不同通過網(wǎng)絡按以下不同的方式進行傳輸(1)若用戶端顯示設備為單目顯示器,或者為多視點視頻顯示器且用戶選擇某1個實際存在的單目視點觀看,則將用戶所需視點的時間預測碼流從視點可分解的結(jié)構(gòu)式碼流中截取出來并傳輸給用戶端視點解碼模塊;(2)若用戶端顯示設備為立體顯示器,則直接截取用戶所選擇的2個視點的碼流進行傳輸,這2個視點一個為時間預測視點,其時間預測碼流將被傳輸,一個為混合預測視點,若該混合預測視點圖像幀的宏塊碼流的預測方式標志位為11,則選取該碼流進行傳輸,否則,參考要傳輸?shù)?個視點中的時間預測視點相對于該混合預測視點的位置來決定要傳輸?shù)拇a流,若時間預測視點位于該混合預測視點左側(cè),則選取該宏塊的預測方式標志位為10的碼流,若時間預測視點位于該混合預測視點右側(cè),則選取該宏塊的預測方式標志位為01的碼流;(3)若用戶所選的視點為實際并不存在的虛擬視點,則從視點可分解的結(jié)構(gòu)式碼流中截取該虛擬視點左右最為鄰近的2個實際存在的視點視頻信號碼流和它們之間的關(guān)聯(lián)視點視差場碼流進行傳輸,這2個實際存在視點的視點視頻信號碼流的截取方式與方式(2)相同。
8.如權(quán)利要求1所述的一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,其特征在于所述的任意視點繪制模塊實現(xiàn)步驟為(1)若視點解碼模塊解碼得到的是完全像素級分辨率視差場,則直接執(zhí)行步驟(2);若視點解碼模塊解碼得到的是非完全像素級分辨率視差場,則以非完全像素級分辨率視差場按其分辨率與完全像素級分辨率視差場分辨率比例關(guān)系得到完全像素級分辨率視差場中某像素(x,y)的視差值d作為該像素的初始視差值,然后在小搜索范圍[max{0,d-2},min{max_disp,d+2}]所限定的以像素(x+d,y)為中心的水平5個搜索點內(nèi)計算完全像素級分辨率視差場(x,y)處的關(guān)聯(lián)視點間的精確視差值,其中max_disp為完全像素級分辨率視差場的最大視差值,對完全像素級分辨率視差場中的所有像素重復上述處理即得到完全像素級分辨率視差場;(2)令視點n和視點n+1為1對關(guān)聯(lián)視點,它們之間的距離歸一化表示為1,虛擬視點位于視點n和視點n+1之間,虛擬視點與視點n之間的距離以α表示,0<α<1,虛擬視點與視點n+1之間的距離為1-α,利用視點解碼模塊解碼得到的視點n和視點n+1的視頻信號和這2個視點之間的完全像素級分辨率視差場繪制虛擬視點圖像信號a、令視點n圖像中像素(x,y)相對于視點n+1圖像的視差為d,該像素(x,y)在視點n+1圖像中的匹配點為(x+d,y),該像素(x,y)相對于虛擬視點圖像的視差為αd,在虛擬視點圖像中的匹配點為(x+αd,y),則虛擬視點圖像像素(x+αd,y)的值由視點n中像素(x,y)和視點n+1中像素(x+d,y)線性插值得到,即Iα(x+αd,y)=(1-α)In(x,y)+αIn+1(x+d,y),其中,Iα、In和In+1分別表示虛擬視點、視點n和視點n+1指定坐標處的像素點的像素值;b、對于虛擬視點圖像Iα中未能在步驟a中確定像素值的坐標為(x′,y′)的右遮擋像素點p,使其像素值Iα(x′,y′)等于視點n+1圖像中的點(x′+dn+1,y′)的像素值或點(x′+dn+1,y′)周圍若干點像素值的加權(quán)平均值,dn+1=α1-αdn,]]>為p相對于視點n+1的視差,dn=dbDpa+daDbpDpa+Dbp,]]>為p相對于視點n的視差,a、b分別表示虛擬視點圖像Iα中與p同一行的左右兩邊最近的非遮擋像素點,a、b相對于視點n的視差分別表示為da和db,Dpa、Dbp分別表示點p和a、b和p之間的距離;c、對于虛擬視點圖像Iα中未能在步驟a中確定像素值的左遮擋像素點q采取類似右遮擋點p的處理方法處理,q的像素值由q在視點n圖像中的匹配點的像素值或其周圍若干點像素值的加權(quán)平均值得到。
全文摘要
本發(fā)明公開了一種交互式多視點視頻系統(tǒng)的圖像信號處理方法,通過在服務端編碼存儲不同預測方式下得到的多視點視頻信號碼流以及關(guān)聯(lián)視點間完整的視差場碼流,利用反饋的用戶端視點選擇信息和顯示設備類型信息,從視點可分解的結(jié)構(gòu)式碼流中選擇合適的1個視點(用于單目顯示)或2個視點(用于立體顯示)或者最多4個視點(用于2個虛擬視點的立體顯示)數(shù)據(jù),從而實現(xiàn)多視點視頻信號的部分傳輸,降低系統(tǒng)對傳輸帶寬的要求以及用戶端系統(tǒng)復雜度的要求,使得在給定網(wǎng)絡帶寬的條件下能傳輸更多的節(jié)目,服務更多的用戶,使得數(shù)字交互式多視點電視接收機的成本更低。
文檔編號H04N9/64GK101035261SQ20071006797
公開日2007年9月12日 申請日期2007年4月11日 優(yōu)先權(quán)日2007年4月11日
發(fā)明者蔣剛毅, 郁梅, 葉斌, 徐秋敏 申請人:寧波大學