專利名稱:一種基于avs的快速立體視頻編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種立體視頻編碼方法,特別涉及一種基于AVS的快速立體視頻編碼方法。
背景技術(shù):
立體視頻是一種能使人眼觀看時產(chǎn)生立體感的視頻。它的原理是通過傳輸兩路視頻信號,根據(jù)人眼的 雙目視差原理,以一定的方式送到人眼,在大腦中形成立體的效果。立體視頻能使觀眾得到更真實強烈的 視覺沖擊效果,在數(shù)字電視、遠程教育、視頻會議、虛擬顯示等方面有著廣泛的應(yīng)用。但是傳輸兩路視頻 信號會帶來比原來單通道信號大一倍的傳輸量。因此,必須通過有效的方法對其進行編碼傳輸。
《信息技術(shù)先進音視頻》國家標準(簡稱AVS標準)視頻部分于2006年2月由國家標準化管理委員 會正式頒布,編號為GB/T 20090.2-2006,并從2006年3月1日起正式實施。AVS的產(chǎn)生是一個歷史的機 遇,面對MPEG、 H,264等標準的昂貴專利使用費,我國迫切需要研究出具有自主知識產(chǎn)權(quán)的音視頻標準, 這也有利于提高我國數(shù)字音視頻產(chǎn)業(yè)的核心競爭力。
發(fā)明內(nèi)容
本發(fā)明的目的就在于解決現(xiàn)有技術(shù)的缺陷,設(shè)計了一種基于AVS的快速立體視頻編碼方法。 本發(fā)明的技術(shù)方案是
一種基于AVS的快速立體視頻編碼方法,其特征在于包括以下步驟 一種基于AVS的快速立體視頻編碼方法,其特征在于包括以下步驟
(1) 左路參考視頻編碼
左路視頻序列作為參考序列,通過AVS視頻編碼技術(shù)進行編碼,產(chǎn)生后綴為.avs的比特流;
(2) 兩級神經(jīng)分類器處理
為了覆蓋所有可能的分塊和預(yù)測源,使用兩級神經(jīng)分類器來完成模式確定;第一級分類器完成16X16 直接、16X16、內(nèi)部三種分類結(jié)果,第二級分類器估計出采用前向運動補償或是視差補償;
(3) 右路目標圖像編碼
通過兩級神經(jīng)分類器處理后的數(shù)據(jù),根據(jù)確定的補償類型進行相應(yīng)的運動或是視差補償;最后產(chǎn)生后
綴為.avs的比特流。
在所述的基于AVS的快速立體視頻編碼方法中,在所述的左路參考視頻編碼過程中,AVS編碼 器使用的參考代碼是RM5.0a,編碼參數(shù)選擇2D-VLC熵編碼,使用率失真優(yōu)化,2幀參考圖像,2幀IBBP, 圖像幀/場自適應(yīng),使用環(huán)路濾波。
在所述的基于AVS的快速立體視頻編碼方法中,所述的第一級分類器和第二級分類器采用的是基 于自組織映射(SOFM)神經(jīng)網(wǎng)絡(luò)的分類器。
在所述的基于AVS的快速立體視頻編碼方法中,所述的第一級分類器總共有7種特征,包括大塊 的均值、大塊的方差、頂部和底部的16X16塊的均值、方差、左和右的16X16塊的均值、方差、前景圖 像在大塊中所占的比重。
在所述的基于AVS的快速立體視頻編碼方法中,所述的第二級分類器計算的是輸入右路視頻當(dāng)前
4幀、前向參考幀和同一時刻左路參考幀。總共有4種特征,包括前向子塊的均值、子塊的方差、參考圖像 子塊的均值、子塊的方差。
在所述的基于AVS的快速立體視頻編碼方法中,所述的第一級分類器將一個大塊分成3類16 X16直接、16X16、內(nèi)部;分別使用4、 6、 3個神經(jīng)元作為輸入層、隱藏層和輸出層;加速模式估計過程,
只選擇3類分割中的一種i^進入下一步的評估,K,為第一級分類器的輸出得分。
在所述的基于AVS的快速立體視頻編碼方法中,所述的第二級分類器分別使用了 5、 4、 2個神經(jīng) 元作為輸入層、隱藏層和輸出層;與第一級相似,根據(jù)得分從兩個輸出中選取小的〖2,《2為第二級分類 器的輸出得分。
在所述的基于AVS的快速立體視頻編碼方法中,所述的兩級神經(jīng)分類器處理過程采用的第二級分 類器計算視差使用的是塊算法,其步驟如下
(1) 計算匹配代價
y, c/。 ) = F' o,力-,o + c/。,力 其中默認y方向上沒有視差,這是使用到極限約束,即認為視差只出現(xiàn)在x方向上,y方向上沒 有視差,其中A e(《in,c/max),這樣考慮所有可能的視差情況以后就可以得到一個DSI空間,包括
所有可能的視差所決定的代價;
(2) 將得到的代價相加求和
如式所示,現(xiàn)在是以塊為單位,所以計算某塊的某一個視差對應(yīng)的代價就是把這塊內(nèi)的所有像素
在該視差值處的代價值相加,而每一個塊的大小由則是固定的;
(3) 計算視差
在上一步計算得到了各像素的代價加權(quán)相加的C空間后,找出使得每個像素的C0o,:^,力最小的d
作為該像素的視差值。
本發(fā)明的優(yōu)點和效果在于
1. 利用了AVS技術(shù),提高了編碼效率和速度,在實用中也可避免支付高額的專利使用費。
2. 使用塊匹配計算視差,計算速度快,計算量小。
3. 通過兩級神經(jīng)分類器技術(shù),可以更加有效地確定使用何種補償模式,獲得比傳統(tǒng)方法更快的速度。
本發(fā)明的其他優(yōu)點和效果將在下面繼續(xù)描述。
圖1——基于AVS的快速立體視頻編碼算法流程圖
圖2——兩級神經(jīng)分類器算法框圖
圖3——目標序列參考幀示意圖
圖4——使用本方法與使用普通AVS編碼比較圖5——使用本方法與使用H.264編碼比較
具體實施例方式
下面結(jié)合附圖和實施例,對本發(fā)明所述的技術(shù)方案作進一步的闡述。
圖1表示了基于AVS的快速立體視頻編碼算法流程圖。該編碼方法可以通過以下三個步驟完成。
一. 左路參考視頻編碼
左路視頻作為參考序列,只做時間域上的運動估計,具體實現(xiàn)是通過現(xiàn)有的AVS編碼器進行編碼。
二. 兩級神經(jīng)分類器處理
該步驟是為了確定補償模式的選取,選擇基于SOFM神經(jīng)網(wǎng)絡(luò)的分類器。第一級分類器完成對每一個 大塊的不同分割,第二級分類器選取是采用前向運動估計還是空間的視差估計。兩級神經(jīng)分類器算法框圖 如圖2所示,具體說明如下
1. 第一級分類器特征提取
第一級分類器計算當(dāng)前幀和前向參考幀,計算出特征值,包括7種特征包括大塊的均值、大塊 的方差、頂部和底部的16X16塊的均值、方差、左和右的16X16塊的均值、方差、前景圖像在大塊 中所占的比重。
2. 第一級分類器塊分割
第一級分類器將一個大塊分成3類16X16直接、16X16、內(nèi)部。方法中分別使用4、 6、 3個神 經(jīng)元作為輸入層、隱藏層和輸出層。在充分的訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)可以計算出每一個輸出神經(jīng)元的分數(shù)
&,分數(shù)的取值從0.0到1.0。 一個小的《,可以加速程序,但是會增加比特量。為了加速模式估計過
程,只選擇3類分割中的一種i:,進入下一步的評估。不同的類在下面的處理過程中使用不同,比如
16X16直接和內(nèi)部兩類并不進入第二級神經(jīng)分類,而16X16類會在第二級神經(jīng)分類中進一步分為16 X8、 8X16、 8X8三種子塊。
3. 第二級分類器特征提取
第二級分類器計算當(dāng)前幀和前向運動估計,空間視差估計。視差估計釆用塊估計算法-首先計算匹配代價
DS/(;c,:v,O-F'(jc,:v)-i^0: + c/。,力 (式1)
如(式l)所示,其中默認y方向上沒有視差,這是使用到極限約束,即認為視差只出現(xiàn)在x方 向上,y方向上沒有視差,其中"。e(《in,^^),這樣考慮所有可能的視差情況以后就可以得到一
個DSI空間,包括所有可能的視差所決定的代價。要注意的是,視差的范圍要合理的選擇,這樣才可 以得到一個比較滿意的結(jié)果。 然后將計算出代價相加求和
C(x,_y,^)= Z D57(x,,力^。) (式2)
如(式2)所示,現(xiàn)在是以塊為單位,所以計算某塊的某一個視差對應(yīng)的代價就是把這塊內(nèi)的所 有像素在該視差值處的代價值相加,而每一個塊的大小由則是固定的。與DSI空間相比,C空間的尺寸大大減小,在程序的運算速度上會有提高。
最后計算出視差在上一個步驟計算得到了各像素的代價加權(quán)相加的C空間后,找出使得每個像素的
C(JC。, j;。,力最小的d作為該像素的視差值。
第二級分類器計算出的特征總共有4種特征,包括前向子塊的均值、子塊的方差、參考圖像子塊的均 值、子塊的方差。 4.第二級分類器預(yù)測模式確定.-
第二級分類器分別使用了5、 4、 2個神經(jīng)元作為輸入層、隱藏層和輸出層。與第一級相似,根據(jù)
分數(shù)從兩個輸出中選取小的《2, ^2為第二級分類器的輸出得分。
這樣就確定了目標圖像幀塊是采用前向運動補償還是用空間視差補償。
三. 右路目標圖像編碼
通過兩級神經(jīng)分類器處理后的數(shù)據(jù),根據(jù)確定的補償類型進行相應(yīng)的運動或是視差補償,如圖3所示。
四. 性能評價
為了驗證本發(fā)明提出的方法可以有效性和快速性,采用兩個實驗來比較驗證。第一個是本發(fā)明提出的 方法和基于AVS不使用兩級神經(jīng)分類進行編碼方法的比較。第二個是本發(fā)明提出的方法和基于H.264使用 兩級神經(jīng)分類進行編碼方法的比較。實驗使用2組視頻序列"Puppy"、 "Bookseller"作為訓(xùn)練序列,使用 "Soccer"作為實驗序列。
1. 和基于AVS不使用兩級神經(jīng)分類進行編碼方法的比較
圖4顯示了使用本發(fā)明提出的方法和基于AVS不使用兩級神經(jīng)分類進行編碼方法的比較結(jié)果。可以看 出,本發(fā)明提出的方法對于"Puppy"序列,在第一級分類器中增加了比特率0.12%,速度節(jié)省78.41%, 在第二級分類器后比特率增加2.44%,速度節(jié)省82.10%。本發(fā)明提出的方法對于"Bookseller"序列,在 第一級分類器中增加了比特率2.52%,速度節(jié)省77.93%,在第二級分類器后比特率增加6.79%,速度節(jié)省 83.28%。本發(fā)明提出的方法對于"Soccer"序列,在第一級分類器中增加了比特率2.17%,速度節(jié)省77.43%, 在第二級分類器后比特率增加7.68%,速度節(jié)省85.19%。
2. 和基于H.264使用兩級神經(jīng)分類進行編碼方法的比較
圖5顯示了使用本發(fā)明提出的方法和基于H.264使用兩級神經(jīng)分類進行編碼方法的比較結(jié)果。H.264 編碼器使用的是JM6.1e,編碼參數(shù)選擇CABAC熵編碼,使用率失真優(yōu)化,2幀參考圖像,2幀IBBP,宏 塊幀/場自適應(yīng),使用環(huán)路濾波。AVS的量化步長選擇的是28, &264除了第一幀步長為23,其它都為26。 從實驗結(jié)果可以觀察出,使用AVS編碼比使用H.264編碼有0.3~0.5db的性能差異,這主要是因為AVS視 頻標準目前只支持圖像級幀/場自適應(yīng)編碼。但是從計算實現(xiàn)復(fù)雜度來講,AVS編碼復(fù)雜度大致只有H.264 的70%。
權(quán)利要求
1.一種基于AVS的快速立體視頻編碼方法,其特征在于包括以下步驟(1)左路參考視頻編碼左路視頻序列作為參考序列,通過AVS視頻編碼技術(shù)進行編碼,產(chǎn)生后綴為.avs的比特流;(2)兩級神經(jīng)分類器處理為了覆蓋所有可能的分塊和預(yù)測源,使用兩級神經(jīng)分類器來完成模式確定;第一級分類器完成16×16直接、16×16、內(nèi)部三種分類結(jié)果,第二級分類器估計出采用前向運動補償或是視差補償;(3)右路目標圖像編碼通過兩級神經(jīng)分類器處理后的數(shù)據(jù),根據(jù)確定的補償類型進行相應(yīng)的運動或是視差補償;最后產(chǎn)生后綴為.avs的比特流。
2. 根據(jù)權(quán)利要求1所述的一種基于AVS的快速立體視頻編碼方法,其特征在于,在所述的左路參考視頻 編碼過程中,AVS編碼器使用的參考代碼是RM5.0a,編碼參數(shù)選擇2D-VLC熵編碼,使用率失真優(yōu)化,2 幀參考圖像,2幀IBBP,圖像幀/場自適應(yīng),使用環(huán)路濾波。
3. 根據(jù)權(quán)利要求1所述的一種基于AVS的快速立體視頻編碼方法,其特征在于,所述的第一級分類器和 第二級分類器采用的是基于自組織映射(SOFM)神經(jīng)網(wǎng)絡(luò)的分類器。
4. 根據(jù)權(quán)利要求1所述的一種基于AVS的快速立體視頻編碼方法,其特征在于,所述的第一級分類器總 共有7種特征,包括大塊的均值、大塊的方差、頂部和底部的16X16塊的均值、方差、左和右的16X16 塊的均值、方差、前景圖像在大塊中所占的比重。
5. 根據(jù)權(quán)利要求1所述的一種基于AVS的快速立體視頻編碼方法,其特征在于,所述的第二級分類器計 算的是輸入右路視頻當(dāng)前幀、前向參考幀和同一時刻左路參考幀;總共有4種特征,包括前向子塊的均值、 子塊的方差、參考圖像子塊的均值、子塊的方差。
6. 根據(jù)權(quán)利要求1所述的一種基于AVS的快速立體視頻編碼方法,其特征在于,所述的第一級分類器將 一個大塊分成3類16X16直接、16X16、內(nèi)部;分別使用4、 6、 3個神經(jīng)元作為輸入層、隱藏層和輸出層;加速模式估計過程,只選擇3類分割中的一種^^進入下一步的評估,《i為第一級分類器的輸出得分。
7. 根據(jù)權(quán)利要求1所述的一種基于AVS的快速立體視頻編碼方法,其特征在于,所述的第二級分類器分 別使用了5、 4、 2個神經(jīng)元作為輸入層、隱藏層和輸出層;與第一級相似,根據(jù)得分從兩個輸出中選取小的尺2,尺2為第二級分類器的輸出得分。
8. 根據(jù)權(quán)利要求1所述的一種基于AVS的快速立體視頻編碼方法,其特征在于,所述的視差估計采用塊 估計算法,具體步驟如下(1)計算匹配代價:M。 ) = , 0,力-r o+4,力其中默認y方向上沒有視差,這是使用到極限約束,即認為視差只出現(xiàn)在jc方向上,y方向上沒 有視差,其中A e(c/^,J,),這樣考慮所有可能的視差情況以后就可以得到一個DSI空間,包括 所有可能的視差所決定的代價;(2) 將得到的代價相加求和如式所示,現(xiàn)在是以塊為單位,所以計算某塊的某一個視差對應(yīng)的代價就是把這塊內(nèi)的所有像素在該視差值處的代價值相加,而每一個塊的大小由則是固定的;(3) 計算視差在上一步計算得到了各像素的代價加權(quán)相加的C空間后,找出使得每個像素的C(:c。,_y。,d)最小的d 作為該像素的視差值。
全文摘要
本發(fā)明提出了一種基于AVS的快速立體視頻編碼方法,對左路的參考圖像使用AVS編碼器編碼,對右路的目標圖像同時在時間域和空間域進行預(yù)測,使用的是基于SOFM神經(jīng)網(wǎng)絡(luò)的兩級神經(jīng)分類器來快速確定預(yù)測模式。第一級分類的結(jié)果是產(chǎn)生對每一個大塊的不同塊分割的候選對象,第二級分類選出最合適的預(yù)測源,可能是前向的運動估計,也可能是視差估計。兩級分類器的輸入都是當(dāng)前幀和其參考幀之間的簡單計算。通過實驗表明,本發(fā)明提出的方法可以在可忽略的質(zhì)量衰減上節(jié)省80%的時間,同時占用的編碼字節(jié)數(shù)僅多出可接受的7%左右。
文檔編號H04N7/26GK101621683SQ20081012280
公開日2010年1月6日 申請日期2008年7月1日 優(yōu)先權(quán)日2008年7月1日
發(fā)明者翀 王, 力 趙, 鄒采榮, 昕 魏 申請人:鄒采榮;趙 力