一種實時視頻通信中的感興趣區(qū)域提取方法
【專利摘要】本發(fā)明公開了一種實時視頻通信中的感興趣區(qū)域提取方法,本發(fā)明首先對視頻圖像中的運動區(qū)域和亮度區(qū)域進行提取,同時將視頻圖像劃分為結(jié)構(gòu)化紋理,平滑紋理,隨機紋理三個區(qū)域。根據(jù)人眼對運動的區(qū)域,亮度較高的區(qū)域以及結(jié)構(gòu)化紋理區(qū)域較為感興趣的特點,對運動信息,亮度信息和紋理信息設(shè)置不同的權(quán)重,最終綜合得出人眼對各個區(qū)域的感興趣程度。本發(fā)明基于人眼的視覺特性,根據(jù)人眼對視頻圖像中不同區(qū)域感興趣程度的不同,對視頻中感興趣區(qū)域進行分級提取,從而使提取的感興趣區(qū)域更為細致準確,有利于對不同的區(qū)域采用不同的編碼方式,提高視頻的壓縮率。
【專利說明】—種實時視頻通信中的感興趣區(qū)域提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)字視頻【技術(shù)領(lǐng)域】,涉及一種實時視頻通信中的感興趣區(qū)域提取方法,具體而言,基于本發(fā)明方法可以提取視頻中的人眼感興趣區(qū)域,以達到為視頻不同區(qū)域選擇不同壓縮率的編碼,緩解視頻壓縮率和視頻質(zhì)量之間矛盾的目的。
【背景技術(shù)】
[0002]隨著科學(xué)技術(shù)的高速發(fā)展,視頻作為視覺信息的主要載體已經(jīng)深入到人們生活的方方面面。再加上近年來通信領(lǐng)域的高速發(fā)展,人們在進行通信時不再停留于語言信號的傳輸,而是希望能夠通過視頻通信來獲取更多的信息。然而在實時視頻通信中,網(wǎng)絡(luò)的帶寬是有限的,因此平衡視頻質(zhì)量和視頻壓縮率十分重要。由于人們在觀看視頻的過程中往往只對視頻中較小部分的關(guān)注度較高,而對大多數(shù)視頻區(qū)域的關(guān)注度較小,因此可以有選擇性的提取那些人眼關(guān)注度較高的區(qū)域,即感興趣區(qū)域。在對視頻進行編碼的過程中,對感興趣區(qū)域進行更精細化的編碼,而對人眼不太感興趣的區(qū)域進行相對粗略的編碼,這樣可以很好的緩解在視頻編解碼過程中視頻質(zhì)量與視頻壓縮率的矛盾。因此,怎樣更準確的提取視頻中的感興趣區(qū)域成為亟待解決的問題。
[0003]目前感興趣區(qū)域提取方法主要分為三類:
[0004](I)基于運動目標的感興趣區(qū)域提取方法,即將人眼較為關(guān)注運動區(qū)域作為感興趣區(qū)域進行提??;
[0005](2)基于圖像分割的感興趣區(qū)域提取方法,即將圖像分割為若干具有獨特性質(zhì)的區(qū)域,并從中提取出感興趣的區(qū)域;
[0006](3)基于視覺特征的感興趣區(qū)域提取方法,即將觀察者能從中獲取更多信息的區(qū)域作為感興趣區(qū)域。
[0007]以上方法均存在各自的局限性,例如感興趣區(qū)域提取不準確,易受光照變化影響,計算復(fù)雜度高等問題。
【發(fā)明內(nèi)容】
[0008]為了解決上述的技術(shù)問題,本發(fā)明的目的在于提供一種實時視頻通信中感興趣區(qū)域的提取方法。該方法可以更準確的從視頻中提取人眼感興趣區(qū)域,達到平衡視頻質(zhì)量和視頻壓縮率的目的。
[0009]本發(fā)明所采用的技術(shù)方案是:一種實時視頻通信中的感興趣區(qū)域提取方法,用于從視頻中提取人眼感興趣區(qū)域,其特征在于,包括以下步驟:
[0010]步驟1:從第一幀視頻圖像開始,依次獲取一幀視頻圖像;
[0011]步驟2:將該幀圖像轉(zhuǎn)換成灰度圖像,并分成若干宏塊;
[0012]步驟3:從第一個宏塊開始,依次獲取一個宏塊;
[0013]步驟4:檢測該宏塊是否屬于運動區(qū)域,得到該宏塊的運動狀態(tài)信息并記錄結(jié)果;
[0014]步驟5:檢測該宏塊是否屬于亮度區(qū)域,得到該宏塊的亮度狀態(tài)信息并記錄結(jié)果;
[0015]步驟6:檢測該宏塊的紋理類型,得到該宏塊的紋理類型信息并記錄結(jié)果;
[0016]步驟7:根據(jù)該宏塊的運動狀態(tài)信息、亮度狀態(tài)信息和紋理類型信息,計算人眼對該宏塊的感興趣程度,從而進行感興趣區(qū)域劃分;
[0017]步驟8:判斷,步驟7所述的宏塊是否是最后一個宏塊;
[0018]若否,則獲取下一個宏塊,并回轉(zhuǎn)執(zhí)行所述的步驟4 ;
[0019]若是,則順序執(zhí)行下述步驟9 ;
[0020]步驟9:判斷,步驟8所述的視頻圖像是否是最后一幀;
[0021]若否,則獲取下一幀,并回轉(zhuǎn)執(zhí)行所述的步驟2 ;
[0022]若是,則感興趣區(qū)域劃分完畢。
[0023]作為優(yōu)選,步驟2中所述的將該幀圖像轉(zhuǎn)換成灰度圖像并分成若干宏塊,其為16X 16大小的宏塊。
[0024]作為優(yōu)選,步驟4中所述的檢測該宏塊是否屬于運動區(qū)域,其具體實現(xiàn)是利用HEXAGON搜索模式及迭代最小二乘法得出該宏塊的運動向量,利用算式
【權(quán)利要求】
1.一種實時視頻通信中的感興趣區(qū)域提取方法,用于從視頻中提取人眼感興趣區(qū)域,其特征在于,包括以下步驟: 步驟1:從第一幀視頻圖像開始,依次獲取一幀視頻圖像; 步驟2:將該幀圖像轉(zhuǎn)換成灰度圖像,并分成若干宏塊; 步驟3:從第一個宏塊開始,依次獲取一個宏塊; 步驟4:檢測該宏塊是否屬于運動區(qū)域,得到該宏塊的運動狀態(tài)信息并記錄結(jié)果; 步驟5:檢測該宏塊是否屬于亮度區(qū)域,得到該宏塊的亮度狀態(tài)信息并記錄結(jié)果; 步驟6:檢測該宏塊的紋理類型,得到該宏塊的紋理類型信息并記錄結(jié)果; 步驟7:根據(jù)該宏塊的運動狀態(tài)信息、亮度狀態(tài)信息和紋理類型信息,計算人眼對該宏塊的感興趣程度,從而進行感興趣區(qū)域劃分; 步驟8:判斷,步驟7所述的宏塊是否是最后一個宏塊; 若否,則獲取下一個宏塊,并回轉(zhuǎn)執(zhí)行所述的步驟4 ; 若是,則順序執(zhí)行下述步驟9; 步驟9:判斷,步驟8所述的視頻圖像是否是最后一幀; 若否,則獲取下一幀,并回轉(zhuǎn)執(zhí)行所述的步驟2 ; 若是,則感興趣區(qū)域劃分完畢。
2.根據(jù)權(quán)利要求1所述的實時視頻通信中的感興趣區(qū)域提取方法,其特征在于:步驟2中所述的將該幀圖像轉(zhuǎn)換成灰度圖像并分成若干宏塊,其為16X16大小的宏塊。
3.根據(jù)權(quán)利要求1所述的實時視頻通信中的感興趣區(qū)域提取方法,其特征在于:步驟4中所述的檢測該宏塊是否屬于運動區(qū)域,其具體實現(xiàn)是利用HEXAGON搜索模式及迭代最小二乘法得出該宏塊的運動向量,利用算式
[3, if |M^(x,y)| + \MVy(x,y)\ = O 檢測該宏塊是否屬于運動區(qū)域并記錄結(jié)果,其中X,I標識該宏塊的坐標,Mf (x, y)表示運動狀態(tài)信息,MVx(x,y)表示該宏塊X方向上的運動向量,MVy(x,y)表示該宏塊y方向上的運動向量。
4.根據(jù)權(quán)利要求1所述的實時視頻通信中的感興趣區(qū)域提取方法,其特征在于:步驟5中所述的檢測該宏塊是否屬于亮度區(qū)域,其具體實現(xiàn)是基于圖像熵得出判斷該宏塊是否屬于亮度區(qū)域的閾值,利用算式
f(y νΛ 二 (1-1f ^μβα(χ,?) > T\x,y) 1if LMBA{x,y) < T'{x,y) 檢測該宏塊是否屬于亮度區(qū)域并記錄結(jié)果,其中X,y標識該宏塊的坐標,E(x,y)表示亮度狀態(tài)信息,LmbaU, y)表示該宏塊的平均亮度,T’ (x, y)表示判斷閾值。
5.根據(jù)權(quán)利要求1所述的實時視頻通信中的感興趣區(qū)域提取方法,其特征在于:步驟6中所述的檢測該宏塊的紋理類型,其具體實現(xiàn)是利用模版卷積的方法判斷該宏塊的紋理類型,利用算式
判斷該宏塊的紋理類型并記錄結(jié)果,其中X,I標識該宏塊的坐標,Tc (x, y)表示紋理信息,Ce表示邊緣復(fù)雜因素,若被判斷為邊緣像素點的像素數(shù)大于設(shè)定的閾值,Ce = 1,反之,Ce = O ;Cd表示方向復(fù)雜因素,初始值設(shè)為0,若被判斷為屬于某個方向的像素點數(shù)大于設(shè)定的閾值,則Cd = Cd+1。
6.根據(jù)權(quán)利要求1所述的實時視頻通信中的感興趣區(qū)域提取方法,其特征在于:步驟7中所述的計算人眼對該宏塊的感興趣程度,其具體實現(xiàn)是利用算式
計算人眼對該宏塊的感興趣程度,其中x,y標識該宏塊的坐標,Vs(x,y)表示綜合考慮前景運動物體、亮度信息及紋理信息后,人眼對該宏塊的關(guān)注程度,Tc (x, y)表示紋理信息,七”^為設(shè)定的閾值’乂?“,。表示人眼對該宏塊區(qū)域所關(guān)注的程度,VP(x,y)由下式得出:
VP (X, y) = max {Tc (x, y) + ξ E(x, y), Tc (χ, y) + ξ Mf (χ, y)} 其中x,y標識該宏塊的坐標,Tjx,y)表示該宏塊的紋理類型信息,E (x,y)表示該宏塊的亮度狀態(tài)信息,Mf(x,y)表示該宏塊的運動狀態(tài)信息,ξ代表該宏塊的亮度信息在人眼關(guān)注度中所占的權(quán)重。
【文檔編號】H04N19/167GK104079934SQ201410333331
【公開日】2014年10月1日 申請日期:2014年7月14日 優(yōu)先權(quán)日:2014年7月14日
【發(fā)明者】王中元, 朱婧雅, 周治龍 申請人:武漢大學(xué)