基于視覺注意的全景可定位視頻編碼方法
【專利摘要】本發(fā)明公開了一種基于視覺注意的全景可定位視頻編碼方法,它涉及視頻編碼【技術(shù)領(lǐng)域】,包括以下步驟:全景可定位視頻拼接與分割;視頻幀內(nèi)運動捕捉;幀內(nèi)噪聲區(qū)域標記;幀注意度標記;視頻編碼優(yōu)化。它可以實現(xiàn)全景GIS視頻在移動終端上的應(yīng)用,優(yōu)化后的編碼大大降低了全景GIS視頻資源對傳輸資源的占用,同時通用的解碼方案也有利于視頻GIS應(yīng)用的推廣與普及。
【專利說明】基于視覺注意的全景可定位視頻編碼方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于視覺注意的全景可定位視頻編碼方法,屬于視頻編碼技術(shù)領(lǐng) 域。
【背景技術(shù)】
[0002]作為一種能通過視頻數(shù)據(jù)的方式為用戶提供直觀、細致的空間地理信息的技術(shù), 視頻GIS早在20世紀80年代就被提出。應(yīng)用實踐中,Hwang(2003)提出了 MPEG-7元 數(shù)據(jù)方案用于位置相關(guān)服務(wù)(Hwang T H,Choi K H,Joo I H,Lee J H.MPEG_7metadata for video-based GIS applications.1-GARSS'03Proceedings, Toulouse,France, 21-25July2003;MPEG-7元數(shù)據(jù)用于視頻GIS應(yīng)用服務(wù),2003年IGARSS (國際地球科學(xué)與 遙感)學(xué)術(shù)會議論文集,法國圖盧茲,2003年7月21-25日)Joo (2004)引入視頻影 像元數(shù)據(jù)概念,實現(xiàn)地圖與視頻影像的相互參照,用于支持GIS與視頻影像的交互操作 (Joo I H,Hwang T H,Choi K H.Generation of video metadata supporting video-GIS integration.1CIP,04Proceedings, 0ct-24-27, 2004, Singapore.支持視頻與 GIS 集成 的視頻元數(shù)據(jù)生成,2004年ICIP (國際圖像處理學(xué)術(shù)會議)論文集,新加坡,2004年10 月24-27日);Paul(2009)完成了面向車載系統(tǒng)的全景定位視頻編碼方法,但不支持直播 (Paul L, BSc.Linking Spatial Video and GIS.Doctor Thesis, Department of Computer Science&National Centre for Geocomputation National University of Ireland Maynooth, 2009.將GIS與空間視頻聯(lián)系起來,博士學(xué)位論文,梅努斯大學(xué)計算機科學(xué)系, 2009);美國Red Hen Systems公司先后推出了 MediaMapper和GeoVideo等面向GIS視頻 應(yīng)用的軟件(http://www.redhensvstems, com/,2013-10-7)。閭國年等在中國發(fā)明 專利(200810024763.4)中提出“基于ASF數(shù)據(jù)融合技術(shù)獲得可定位流媒體的方法”。其核 心是將GPS接收機、視頻傳感器、音頻采集裝置采集到的位置信息和音視頻信息實時自動 融合。
[0003]然而,目前的視頻GIS均直接采用面向通信或廣播的編碼方法,沒有針對任務(wù)本 身進行特殊的編碼,沒有表達數(shù)據(jù)包含的語義信息。使得編碼效率與應(yīng)用范圍具有很大的 局限性。
[0004]視頻編碼效率的提高有很多方法,最常用的是基于人類視覺系統(tǒng)(Human Visual System, HVS)的可視媒體編碼方法。目前已經(jīng)形成基于HVS評價標準的混合視頻編碼;基于 紋理分析與合成的編碼;基于圖像修復(fù)的圖像/視頻編碼。HVS已可以使碼率縮減20%-40%。
[0005]綜上所述,盡管相關(guān)領(lǐng)域研究取得了豐富的成果,但也存在一些需要解決的問 題:
[0006]一、采集的全景GIS視頻往往數(shù)據(jù)量龐大,視頻編碼需要在專業(yè)設(shè)備上播放,不利 于GIS視頻服務(wù)在便攜終端上推廣和應(yīng)用。
[0007]二、HVS編碼沒有針對GIS應(yīng)用的成果出現(xiàn)。盡管大部分成果具有通用性,但多義 性是可視媒體對象固有的,GIS視頻圖像中往往包含有地理空間認知特有的語義。
【發(fā)明內(nèi)容】
[0008]針對以上現(xiàn)有技術(shù)中的不足,本發(fā)明的目的在于提供一種基于視覺注意的全景可定位視頻編碼方法。本發(fā)明的技術(shù)方案如下:
[0009]一種基于視覺注意的全景可定位視頻編碼方法,其特征在于,包括以下步驟:
360
[0010]101、將n個鏡頭視角大于——度的攝像頭組成一個360度鏡頭組,將360度鏡頭
n
組中n個攝像頭在同一時刻拍攝的視頻幀進行拼接得到360度全景幀,并將360度全景幀分解成前向幀和后向幀,其中n為整數(shù)且n ^ 2 ;
[0011]102、在步驟101中得到的前向幀和后向幀中設(shè)置均勻分布特征點,采用光流法分別對前向幀和后向幀對應(yīng)的特征點進行檢測捕捉,得出特征點的運動矢量V,并統(tǒng)計出若干個特征點的集合M(v,(x,y)),其中(x,y)為特征點在視頻幀區(qū)域中的位置坐標,并對特征點的集合M(V, (X,y)規(guī)模歸一化得到規(guī)模Scalei,其中Scalei G (0, I);
[0012]103、對步驟102中規(guī)模歸一化后的視頻幀區(qū)域進行噪聲區(qū)域標記;
[0013]104、對步驟103中噪聲區(qū)域標記后的視頻幀區(qū)域進行注意度標記;
[0014]105、采用X264碼率控制算法對步驟104中注意度標記后的視頻幀區(qū)域進行視頻編碼優(yōu)化,完成視頻編碼。
[0015]進一步的,步驟101中,設(shè)置有4個攝像頭,每個攝像頭的視角大于90度。
[0016]進一步的,步驟103中,所述噪聲區(qū)域標記包括以下步驟:
[0017]Al、當(dāng)規(guī)模Scalei大于規(guī)模閾值Nseale時,則將視頻幀區(qū)域分割成3*9*3個子域,并計算每個子域運動向量的均值向量,跳轉(zhuǎn)至步驟A2 ;當(dāng)規(guī)模Scalei小于或者等于規(guī)模閾值 Ns。-時,跳轉(zhuǎn)至步驟A3 ;
[0018]A2、參照步驟Al得到的均值向量消減每個子域規(guī)模,當(dāng)消減后的Scalei小于 Ns。-,則跳轉(zhuǎn)至步驟A3 ;若消減后的Scalei仍然大于Ns。-,則對消減后新的點集重復(fù)消減處理,消減函數(shù)中的f參數(shù)值減半,消減完成后跳轉(zhuǎn)至步驟A3;
[0019]A3、導(dǎo)出標記矩陣,完成噪聲區(qū)域標記。
[0020]進一步的,步驟104中,所述視頻編碼優(yōu)化包括以下步驟:
[0021]B1、將視頻幀區(qū)域分解為8X8大小的視頻宏塊,其中視頻宏塊與步驟A3中的標記矩陣中的元素一一對應(yīng),元素坐標即為視頻宏塊坐標。
[0022]B2、依次掃描標記矩陣,記錄標記矩陣中位于邊界或與0元素相鄰的I元素的位置,若不存在,則循環(huán)結(jié)束;若存在,則將對應(yīng)視頻宏塊的像素矩陣分別做離散余弦變換,得到各自的頻域信號矩陣塊;
[0023]B3、將小于Qpbltjdt的高頻系數(shù)量化為0,其中Qpbltxi為固定塊量化參數(shù),
[0024]B4、將標記矩陣中記錄過的元素值置為0,執(zhí)行步驟B2,且Qpbltjek值翻倍;
[0025]B5、利用幀級注意度的值優(yōu)化X264默認的編碼量化參數(shù),根據(jù)式:
[0026]
【權(quán)利要求】
1.ー種基于視覺注意的全景可定位視頻編碼方法,其特征在于,包括以下步驟: 101、將n個鏡頭視角大干
2.根據(jù)權(quán)利要求1所述的基于視覺注意的全景可定位視頻編碼方法,其特征在于:步驟101中,設(shè)置有4個攝像頭,每個攝像頭的視角大于90度。
3.根據(jù)權(quán)利要求1所述的基于視覺注意的全景可定位視頻編碼方法,其特征在于:步驟103中,所述噪聲區(qū)域標記包括以下步驟: Al、當(dāng)規(guī)模Scalei大于規(guī)模閾值Nseale吋,則將視頻幀區(qū)域分割成3*9*3個子域,并計算每個子域運動向量的均值向量,跳轉(zhuǎn)至步驟A2 ;當(dāng)規(guī)模Scalei小于或者等于規(guī)模閾值Ns。丨時,跳轉(zhuǎn)至步驟A3 ; A2、參照步驟Al得到的均值向量消減每個子域規(guī)模,當(dāng)消減后的Scalei小于Ns。-,則跳轉(zhuǎn)至步驟A3 ;若消減后的ScaleJB然大于Nseale,則對消減后新的點集重復(fù)消減處理,消減函數(shù)中的X參數(shù)值減半,消減完成后跳轉(zhuǎn)至步驟A3; A3、導(dǎo)出標記矩陣,完成噪聲區(qū)域標記。
4.根據(jù)權(quán)利要求1所述的基于視覺注意的全景可定位視頻編碼方法,其特征在于:步驟104中,所述視頻編碼優(yōu)化包括以下步驟: B1、將視頻幀區(qū)域分解為8X8大小的視頻宏塊,其中視頻宏塊與步驟A3中的標記矩陣中的元素一一對應(yīng),元素坐標即為視頻宏塊坐標; B2、依次掃描標記矩陣,記錄標記矩陣中位于邊界或與0元素相鄰的I元素的位置,若不存在,則循環(huán)結(jié)束;若存在,則將對應(yīng)視頻宏塊的像素矩陣分別做離散余弦變換,得到各自的頻域信號矩陣塊; B3、將小于Qpbltjdt的高頻系數(shù)量化為0,其中Qpbltjdt為固定塊量化參數(shù), B4、將標記矩陣中記錄過的元素值置為0,執(zhí)行步驟B2,且Qpbltjek值翻倍; B5、利用幀級注意度的值優(yōu)化X264默認的編碼量化參數(shù),根據(jù)式:
【文檔編號】H04N19/645GK103561261SQ201310476150
【公開日】2014年2月5日 申請日期:2013年10月12日 優(yōu)先權(quán)日:2013年10月12日
【發(fā)明者】豐江帆, 朱毅, 夏英 申請人:重慶郵電大學(xué)