專利名稱:一種基于mpeg-4的視頻對象快速運動估值方法
技術領域:
本發(fā)明屬于多媒體通信領域中的數(shù)字視頻壓縮技術,涉及MPEG-4標準,具體的說涉及MPEG-4標準中任意形狀視頻對象的運動估值方法。
背景技術:
傳統(tǒng)的視頻壓縮標準MPEG-1、MPEG-2、H.261、H.263,采用的均是帶有運動補償?shù)念A測編碼與DCT變換編碼相結(jié)合的混合矩形幀壓縮編碼方法,沒有對視頻場景進行分割或分析,屬于低級壓縮編碼技術。隨著多媒體應用的快速增長和基于內(nèi)容的交互需求,這些基于幀壓縮編碼技術的視頻標準無法滿足要求,為此,MPEG專家組制訂了新的基于內(nèi)容的視頻壓縮國際標準——MPEG-4,通過引入視頻對象(VO)、視頻對象平面(VOP)的概念,將輸入視頻序列的每一幀分割成相應形狀的圖形區(qū)域,使每一幀視頻對象都代表語義上有意義的對象或感興趣的視頻內(nèi)容,能實現(xiàn)許多基于內(nèi)容的多媒體交互功能,如視頻會議、電子商務、遠程監(jiān)控及醫(yī)療和教學等。
MPEG-4標準支持任意形狀視頻對象序列的壓縮編碼,一系列的VOP限制在一個VO里,使得運動估值更準確,運動補償也更有效。如圖1所示,VO本身在VOP界框(能包含VO的最小矩形,邊、長均為16的整數(shù)倍)里有效的部分只是在VOP形狀之內(nèi),而運動往往會使形狀本身發(fā)生變化,在當前VOP的某個地方有VO的存在(Alpha平面中像素值為255,白色),在其參考VOP的相同點可能就沒有VO存在(Alpha平面中像素值為0,黑色),因此,在進行運動估值之前,參考VOP內(nèi)不屬于VO的像素要進行填充,基本思想是以圖像的邊界值代替其相鄰單元而以平均值代替遠離目標的單元,接著對當前VOP內(nèi)屬于VO的邊界宏塊和內(nèi)部宏塊按照從上到下、從左到右的順序進行運動估值,采用全搜索塊匹配方法(FS),即對參考VOP某一窗口中的所有宏塊進行絕對幀差和(SAD)運算找到使SAD值最小的參考VOP窗口中宏塊的對應位置,從而得到當前宏塊的運動矢量。研究發(fā)現(xiàn),全搜索塊匹配方法將耗費MPEG-4視頻編碼器70%左右的計算資源,如果采用通常的快速運動估值方法,如三步搜索法(TSS)、二維對數(shù)搜索法(2DLOG)、正交搜索法(OSA)、新三步搜索法(NTSS)、環(huán)狀搜索法(DS)等,雖然比起全搜索塊匹配方法大大減少了運算量,但往往只能找到搜索區(qū)域內(nèi)的局部最優(yōu)值,而不是全局最優(yōu)值,使估計出的運動矢量信息不夠正確,影響解碼后的重建圖像質(zhì)量。香港理工大學的Ko-Cheung Hui等人在Signal ProcessingImageCommunication 18(2003)上發(fā)表的《Fast motion estimation of arbitrarily shaped videoobjects in MPEG-4》一文提出先對所有邊界宏塊采用全搜索塊匹配方法(FS)得到每個邊界宏塊的運動矢量,然后再利用相鄰宏塊的運動信息對內(nèi)部宏塊進行環(huán)狀搜索法(DS)得到內(nèi)部宏塊的運動矢量,該方法利用邊界宏塊的運動信息對內(nèi)部宏塊進行環(huán)狀搜索法(DS)運動估值,雖然與全搜索塊匹配方法(FS)相比減少了運算量,與其它快速搜索方法相比獲得了更好的重建圖像質(zhì)量,但是該方法的運算量仍然偏大。通過對國內(nèi)外專利和文獻的查詢,未發(fā)現(xiàn)與本發(fā)明相類似的方法。
發(fā)明內(nèi)容
本發(fā)明提出了一種基于MPEG-4的視頻對象快速運動估值方法,能夠減少MPEG-4標準中任意形狀視頻對象運動估值的計算量,提高搜索效率,獲得與全搜索塊匹配方法(FS)接近的峰值信噪比(PSNR)和良好的主觀視覺質(zhì)量。
本發(fā)明提出的基于MPEG-4的視頻對象快速運動估值方法包括采用漸進式塊匹配準則對視頻對象平面中各邊界宏塊進行運動估值;利用相鄰邊界宏塊或內(nèi)部宏塊的運動矢量對所有內(nèi)部宏塊進行運動估值。
優(yōu)選地,在對邊界宏塊進行運動估值之前,還包括按MPEG-4標準的規(guī)定對視頻對象平面進行填充;尋找上述視頻對象平面中的所有邊界宏塊。
優(yōu)選地,采用漸進式塊匹配準則對邊界宏塊的運動估值進一步包括把每一個16*16宏塊分割成16個4*4的小塊,再把小塊分成若干個子塊,每個子塊對應一個像素標注值;通過各子塊的失真值dg根據(jù)Dg←dg+Dg-1,其中設D0=0,計算出Dg值;判斷是否滿足(Dg/n)≥(DMIN/Nα),其中DMIN為當前宏塊與參考窗口中搜索中心位置處宏塊進行絕對幀差和運算得到的SAD值,n為參考位置宏塊中已參與基本運算的VO像素數(shù)目,n=0時判斷為否,Nα為邊界宏塊中VO的像素數(shù)目;如果滿足,說明該參考位置不是所搜索過位置中的最優(yōu)位置,轉(zhuǎn)入下一參考位置;否則g←g+1,如此反復,直到搜索完搜索窗中所有需要參考的位置,最終找到使DMIN最小的那一位置點,從而獲得邊界宏塊的運動矢量,完成運動估值。
優(yōu)選地,在邊界宏塊的運動估值中可采用按包含視頻對象像素的小塊中標號由小到大的順序進行漸進式塊匹配。
優(yōu)選地,可以在搜索窗口中每隔一個參考位置螺旋式地從里到外對搜索窗中每一宏塊執(zhí)行漸進式塊匹配準則,得到搜索窗口中參考位置一半點數(shù)中的最優(yōu)匹配位置,以加快搜索速度。
優(yōu)選地,對所有內(nèi)部宏塊進行運動估值可以按照內(nèi)部宏塊從上到下、從左到右的順序進行。
本發(fā)明所述的方法與全搜索塊匹配方法相比,可減少MPEG-4標準中任意形狀視頻對象運動估值方法的計算量,與其它快速運動估值方法相比,可提高搜索效率,防止運動估值陷入局部最優(yōu)值情況的發(fā)生,獲得與全搜索塊匹配方法接近的峰值信噪比(PSNR)和良好的主觀重建視頻質(zhì)量。表1列出了本方法(內(nèi)部宏塊采用自適應一維直線搜索法進行運動估值)與全搜索塊匹配方法(FS)、環(huán)狀搜索法(DS)的比較結(jié)果,可以看出與全搜索塊匹配方法(FS)相比,本方法可獲得與全搜索塊匹配方法(FS)接近的峰值信噪比(PSNR),并有效減少了運算量,與環(huán)狀搜索法(DS)相比,本方法雖然運算量增加了一些,但是峰值信噪比(PSNR)獲得很大的提高,也就意味著重建視頻的質(zhì)量獲得了很大的改善。
表1、不同序列采用不同方法的性能比較
圖1是視頻對象平面和二值alpha平面示意圖;圖2是本發(fā)明的運動估值實現(xiàn)流程圖;圖3是宏塊分割示意圖;圖4是本發(fā)明的漸進式塊匹配準則實現(xiàn)流程圖。
具體實施例方式
下面結(jié)合附圖對本方法作進一步的詳細描述第一步采用MPEG-4標準規(guī)定的填充方法對參考VOP進行填充,每一幀中圖像形狀是任意的,而運動估值是在一定長寬的搜索窗內(nèi)進行的,如果搜索窗中存在沒有填充的區(qū)域,就會對整個運動估值的精度產(chǎn)生影響。
第二步尋找當前VOP中的所有邊界宏塊,即包含VO邊界像素的宏塊,可通過對描述視頻對象的二值形狀文件經(jīng)過一定計算獲得,描述視頻對象的二值形狀文件的提取方法不屬于本專利內(nèi)容,可采用任意視頻分割方法進行提取。
從圖1所示,在圖1(a)中每個VOP都是由邊界宏塊和內(nèi)部宏塊構(gòu)成的,邊界宏塊中有的像素屬于VO,有的不屬于VO,內(nèi)部宏塊中所有像素都屬于VO。人眼視覺模型理論指出,人眼對VO邊界宏塊的運動估值精確與否是相當敏感的,且內(nèi)部宏塊與邊界宏塊的運動通常是一致的,如圖1中內(nèi)部宏塊e和邊界宏塊a、b、d、f的運動是極其相關的,所以先對所有邊界宏塊運動矢量進行準確定位是很有必要的,為此引入了尋找所有邊界宏塊模塊,如圖1(b)所示,通過定義一個N*N大小的值全為255的模板Tem與VOP的所有二值alpha平面宏塊BAn(大小為N*N,N一般為16)進行對應位置像素的異或運算,見式(1),若運算結(jié)果Tn不為0或N2,則該alpha宏塊對應的VOP宏塊就是邊界宏塊,否則為外部宏塊(Tn=N2)或內(nèi)部宏塊(Tn=0)。
Tn=Σi=0N-1Σj=0N-1BAn(i,j)⊗Tem(i,j)----(1)]]>第三步對所有邊界宏塊進行運動估值,采用漸進式塊匹配準則快速找到其運動矢量,準則的思想是在盡可能多地保留搜索點數(shù)的情況下減少每次運動估值基本運算的次數(shù)。
衡量最佳匹配的準則有很多種,如均方誤差(MSE)、歸一化互相關函數(shù)(NCCF)、絕對幀差和(SAD)等。研究表明,各種準則性能差別不顯著,而SAD運算量最小,所以用的最多。SAD定義為d=SAD(x,y)(u,v)=Σ--i=0N-1Σj=0N-1|Fi(x+i,y+j)-Fi-1(x+i+u,y+j+v)|×(alphai≠0)----(2)]]>式(2)中,F(xiàn)i(x+i,y+j)為第i個VOP中位于(x,y)位置的塊中(i,j)處的像素值,u、v分別為水平和垂直方向的偏移量,N為宏塊的邊長。由于是對任意形狀視頻對象進行運動估值,所以只有屬于VO的像素(alpha≠0)才能參與式(2)運算。
在基于SAD塊運動估值方法中,假設搜索窗大小為±w,則參考位置數(shù)為(2w+1)2,那么找到最佳匹配塊所需的最大計算量為(2w+1)2(3N2-1)。對于幀頻為k、大小為I*J的視頻序列而言,每秒需進行k(I/N)(J/N)(2w+1)2(3N2-1)≈12kIJw2次運算,例如w=8,k=25,I=352,J=288時,每秒需(1.9×109)次基本運算。
邊界宏塊的運動估值方法是以盡可能多地保留搜索窗中參與匹配運算的搜索位置數(shù)目來找到邊界宏塊全局最優(yōu)值為前提的,因此需要一種更為快速高效的匹配準則來減小每一次塊匹配運算的基本運算次數(shù),也就是在運算過程中盡可能早地確定該塊是否是已檢測參考位置中SAD值最小的塊。
漸進式塊匹配準則把每一個16*16宏塊分割成16個4*4的小塊,如圖3(a)所示,各小塊對應位置如圖中標號所示。同時,把小塊1分成若干個子塊,如圖3(b)所示,圖中標注相同值的像素點(不需要一定相鄰)構(gòu)成小塊1的一個子塊。若小塊1被分割成L個子塊,則可得到d1,...,dL個失真值,下標1,....,L對應各子塊中像素的標注值。
漸進式塊匹配準則的實現(xiàn)過程如圖4所示,圖中G是一個宏塊所分的級數(shù),小塊1被分成5個子塊,則G=5+16-1=20。運動估值開始時,設g=1,D0=0,DMIN為當前宏塊與參考窗口中搜索中心位置處宏塊進行絕對幀差和運算得到的SAD值,也就是說,在搜索中心位置處要進行一次完整的宏塊匹配運算,即宏塊中所有的像素都參與,然后在下一參考點處利用式(2)計算出dg,則Dg←dg+Dg-1,若(Dg/n)≥(DMIN/Nα)(n為參考位置宏塊中已參與基本運算的VO像素數(shù)目,n=0時判斷為否,Nα為邊界宏塊中VO的像素數(shù)目),說明該參考位置不是所搜索過位置中的最優(yōu)位置,轉(zhuǎn)入下一參考位置;否則g←g+1,如此反復,直到搜索完搜索窗中所有需要參考的位置,最終找到使DMIN最小的那一位置點。
在邊界宏塊分割形成的16個小塊中,有的小塊包含VO中的像素,有的不包含,把包含VO像素的小塊中標號最小的小塊按照漸進式塊匹配準則中的小塊1來運算,依次類推,完成邊界宏塊的運動估值。
搜索窗口中每隔一個參考位置螺旋式地從里到外對搜索窗中每一宏塊執(zhí)行漸進式塊匹配準則,這樣就可進一步加快搜索速度,得到搜索窗口中參考位置一半點數(shù)中的最優(yōu)匹配位置。實驗發(fā)現(xiàn),采用這種方式得到的重建圖像質(zhì)量與搜索所有點得到的重建圖像質(zhì)量的PSNR差別非常小,平均不超過0.1dB。
第四步對所有內(nèi)部宏塊(位于VO內(nèi)部的宏塊)按照從上到下、從左到右的順序進行運動估值,由于內(nèi)部宏塊的運動與邊界宏塊的運動是高度相關的,內(nèi)部宏塊就可以利用其相鄰邊界宏塊或內(nèi)部宏塊的運動矢量做參考,找到一個比較接近于全局最優(yōu)值的初始搜索中心位置,再采用自適應一維直線搜索法或其它運動估值方法進行運動估值。自適應一維直線搜索方法利用與當前內(nèi)部宏塊相鄰的八個宏塊中已完成運動估值的宏塊運動矢量為參考,以這些運動矢量在X方向和Y方向上位置居中的值作為該內(nèi)部宏塊的初始運動矢量(xi,yi),得到初始運動矢量(xi,yi)后,可以得出該內(nèi)部宏塊在參考VOP中的初始搜索中心位置,即該內(nèi)部宏塊在當前VOP中的位置(x1,y1)與初始運動矢量(xi,yi)的和(x1+xi,y1+yi),如果該運動矢量X方向的值的絕對值大于Y方向的值的絕對值,則認為該宏塊有在X方向上運動的趨勢,那么就以該初始搜索中心位置為中心在水平方向上左右各取兩個像素點(即水平直線)采用絕對幀差和準則找到水平五個點中讓SAD值最小的點,得到運動矢量,如果初始運動矢量的Y值的絕對值大于X值的絕對值,則認為該宏塊有在Y方向上運動的趨勢,那么就以該初始搜索中心位置為中心在垂直方向上各取兩個像素點(即垂直直線)采用絕對幀差和準則找到垂直五個點中讓SAD值最小的點得到該內(nèi)部宏塊的運動矢量。
圖2為本方法的運動估值實現(xiàn)流程圖,先用MPEG-4標準規(guī)定的方法對參考VOP進行填充,然后并不按照從上到下、從左到右的順序?qū)Ξ斍癡OP宏塊進行運動估值,而是先對當前VOP中更能反映VO運動信息所有邊界宏塊在盡可能多地保留搜索窗中參與匹配運算的搜索點數(shù)、防止其陷入局部最優(yōu)值的情況下,按照漸進式塊匹配準則來減少實際參與運算的像素點數(shù)目,即減少塊匹配運算的基本運算次數(shù),從而快速判斷參考宏塊是否為最佳匹配宏塊,得到邊界宏塊的運動矢量。由于內(nèi)部宏塊的運動與邊界宏塊的運動是高度相關的,在得到準確的邊界宏塊運動信息后,內(nèi)部宏塊就可以利用其相鄰邊界宏塊或內(nèi)部宏塊的運動矢量做參考,找到一個接近于全局最優(yōu)值的初始搜索中心位置,采用自適應一維直線搜索法或其它運動估值方法進行運動估值,算出內(nèi)部宏塊運動矢量。
人眼視覺模型理論指出,人眼對VO邊界宏塊的運動估值精確與否是相當敏感的,且內(nèi)部宏塊與邊界宏塊的運動通常是一致的,因此先對所有邊界宏塊做精確的運動估值是相當重要的,利用圖3、圖4中所示的方法對所有宏塊采用漸進式塊匹配準則進行運動估值,獲得所有邊界宏塊的運動矢量。完成邊界宏塊的運動估值后,利用自適應一維直線搜索方法或其它運動估值方法從上到下、從左到右對內(nèi)部宏塊進行運動估值。例如,一個內(nèi)部宏塊的八個相鄰宏塊中有三個宏塊已完成運動估值,運動矢量分別為(1,5)、(3,-2)、(-1,7),則X方向上的排序為{-1,1,3},Y方向上的排序為{-2,5,7},那么就以(1,5)為該內(nèi)部宏塊的初始運動矢量,如果該內(nèi)部宏塊的位置為(8,24),則在參考VOP中的初始搜索中心位置為(9,29),可以看出初始運動矢量Y方向的值的絕對值5大于X方向上的值的絕對值1,所以在垂直方向上以初始搜索中心位置(9,29)為中心上下各取兩個像素點采用絕對幀差和準則找到垂直五個點中讓SAD最小的點,得到該內(nèi)部宏塊的運動矢量。
權(quán)利要求
1.一種基于MPEG-4的視頻對象快速運動估值方法,其特征在于,所述方法包括以下步驟采用漸進式塊匹配準則對視頻對象平面中各邊界宏塊進行運動估值;利用相鄰邊界宏塊或內(nèi)部宏塊的運動矢量對所有內(nèi)部宏塊進行運動估值。
2.如權(quán)利要求1所述的方法,其特征在于,在對邊界宏塊進行運動估值之前,還包括以下步驟按MPEG-4標準的規(guī)定對視頻對象平面進行填充;尋找上述視頻對象平面中的所有邊界宏塊。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述采用漸進式塊匹配準則對邊界宏塊的運動估值進一步包括把每一個16*16宏塊分割成16個4*4的小塊,再把小塊分成若干個子塊,每個子塊對應一個像素標注值;通過各子塊的失真值dg根據(jù)Dg←dg+Dg-1,其中設D0=0,計算出Dg值;判斷是否滿足(Dg/n)≥(DMIN/Nα),其中DMIN為當前宏塊與參考窗口中搜索中心位置處宏塊進行絕對幀差和運算得到的SAD值,n為參考位置宏塊中已參與基本運算的VO像素數(shù)目,n=0時判斷為否,Nα為邊界宏塊中VO的像素數(shù)目;如果滿足,說明該參考位置不是所搜索過位置中的最優(yōu)位置,轉(zhuǎn)入下一參考位置;否則g←g+1,如此反復,直到搜索完搜索窗中所有需要參考的位置,最終找到使DMIN最小的那一位置點,從而獲得邊界宏塊的運動矢量,完成運動估值。
4.如權(quán)利要求3所述的方法,其特征在于,在邊界宏塊的運動估值中可采用按包含視頻對象像素的小塊中標號由小到大的順序進行漸進式塊匹配。
5.如權(quán)利要求3所述的方法,其特征在于,可以在搜索窗口中每隔一個參考位置螺旋式地從里到外對搜索窗中每一宏塊執(zhí)行漸進式塊匹配準則,得到搜索窗口中參考位置一半點數(shù)中的最優(yōu)匹配位置,以加快搜索速度。
6.如權(quán)利要求2所述的方法,其特征在于,所述尋找上述視頻對象平面中的所有邊界宏塊可以通過對描述視頻對象的二值形狀文件的計算獲得邊界宏塊。
7.如權(quán)利要求1或2所述的方法,其特征在于,對所有內(nèi)部宏塊進行運動估值利用其相鄰邊界宏塊或內(nèi)部宏塊的運動矢量做參考,找到一個比較接近于全局最優(yōu)值的初始搜索中心位置,再采用自適應一維直線搜索法進行運動估值。
8.如權(quán)利要求7所述的方法,其特征在于,對所有內(nèi)部宏塊進行運動估值可以按照內(nèi)部宏塊從上到下、從左到右的順序進行。
全文摘要
本發(fā)明提出一種視頻對象的快速運動估值方法,該方法先對VOP的所有邊界宏塊按照漸進式塊匹配準則進行運動估值,快速得到其運動矢量;由于內(nèi)部宏塊的運動與邊界宏塊的運動是高度相關的,內(nèi)部宏塊就可以利用其相鄰邊界宏塊或內(nèi)部宏塊的運動矢量做參考,找到一個比較接近于全局最優(yōu)值的初始搜索中心位置,再采用自適應一維直線搜索法或其它運動估值方法進行運動估值。本發(fā)明所述的方法與全搜索塊匹配方法相比,可減少MPEG-4標準中任意形狀視頻對象運動估值方法的計算量,與其它快速運動估值方法相比,可提高搜索效率,防止運動估值陷入局部最優(yōu)值情況的發(fā)生,獲得與全搜索塊匹配方法接近的峰值信噪比(PSNR)和良好的主觀重建視頻質(zhì)量。
文檔編號H04N7/50GK1713733SQ200410048219
公開日2005年12月28日 申請日期2004年6月15日 優(yōu)先權(quán)日2004年6月15日
發(fā)明者魯照華, 劉繼興, 劉安 申請人:中興通訊股份有限公司