基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法
【專利摘要】本發(fā)明公開了一種基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法,在拍攝視頻中,通過麥克風(fēng)陣列(兩個(gè)或多個(gè)麥克風(fēng))獲取視頻拍攝中聲音的空間方向,然后通過該方向確定視頻拍攝中的自動(dòng)對(duì)焦點(diǎn),通過對(duì)焦點(diǎn)確定視頻幀的感興趣區(qū)域( Regionofinterest , ROI ),并且最終通過不同的編碼策略對(duì)視頻幀進(jìn)行編碼的方法。該方法可以提升用戶拍攝體驗(yàn),動(dòng)態(tài)的選取對(duì)焦點(diǎn)和感興趣區(qū)域,并最終通過重新分配碼流來提升視頻主觀觀看體驗(yàn)。
【專利說明】基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于感興趣區(qū)域的視頻編碼方法,具體涉及一種基于麥克風(fēng)陣列 輔助的視頻感興趣區(qū)域的提取及編碼的方法。
【背景技術(shù)】
[0002] 目前,高清晰度視頻格式(High Definition, HD)越來越多的被用于各種視頻錄制 與實(shí)時(shí)視頻通信中。然而,存儲(chǔ)和傳輸HD視頻碼流為存儲(chǔ)設(shè)備和網(wǎng)絡(luò)帶寬帶來了極大的挑 戰(zhàn)。尤其是對(duì)于便攜式錄像設(shè)備,例如智能手機(jī)和DV機(jī),由于其存儲(chǔ)空間受限,限制了 HD 視頻的廣泛使用。一種有效的解決方案是通過劃分視頻中感興趣區(qū)域和非感興趣區(qū)域,對(duì) 不同區(qū)域使用不同編碼策略,使用更多的碼率編碼感興趣區(qū)域,反之亦然。
[0003] 在傳統(tǒng)的基于感興趣區(qū)域的視頻編碼方法中,大多數(shù)采用人臉識(shí)別、運(yùn)動(dòng)識(shí)別或 者通過數(shù)學(xué)模型預(yù)測圖像中的感興趣區(qū)域,然后對(duì)不同區(qū)域采用不同的量化參數(shù)進(jìn)行編 碼。然而,這些方案往往只是關(guān)注視頻圖像本身,而在錄像的過程中,聲音也是非常重要的 一部分。通常,人們?cè)谟^看視頻的時(shí)候,會(huì)更關(guān)注發(fā)出聲音的人或者物體,例如在多人視頻 會(huì)議場景中,觀看者會(huì)更關(guān)注正在說話的人;在賽車比賽中,觀看者會(huì)更加關(guān)注呼嘯駛過的 賽車。因此,發(fā)出聲音的人和物體可以作為感興趣點(diǎn)。
[0004] 大多數(shù)的視頻錄像場景都是同步采集聲音的,而音頻信號(hào)一般都是獨(dú)立于視頻信 號(hào)進(jìn)行編碼。多數(shù)情況下,視頻編碼方案的研究中并不考慮音頻信號(hào)本身提供的信息的。然 而,對(duì)于同一個(gè)場景來說,音頻和視頻是以不同的形式描述同一個(gè)事物,中間必然有很多關(guān) 聯(lián)。尤其是雙麥克風(fēng)系統(tǒng)組成的立體聲采集,不僅可以采集到立體聲音頻,同樣可以用立體 聲信號(hào)來判斷聲音的方向。而麥克風(fēng)陣列可以同時(shí)米樣多個(gè)不同位置上的麥克風(fēng)信號(hào),然 后可以通過幅值和相位等信息的差異,可以判斷聲音的空間方向。除此之外,通過聲音方向 的變換也可以作為視頻編碼中運(yùn)動(dòng)估計(jì)與運(yùn)動(dòng)補(bǔ)償?shù)妮o助。
[0005] 智能手機(jī)是目前一種非常流行的視頻拍攝設(shè)備,而相當(dāng)多的智能手機(jī)已經(jīng)具備了 兩個(gè)或更多的麥克風(fēng),通常一個(gè)用于受話器,另一個(gè)位于手機(jī)背面,用于通話降噪。由于這 兩個(gè)麥克風(fēng)安裝位置不同,因此可以用來在一定程度上判斷聲音的方向,用于輔助檢測感 興趣區(qū)域。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明目的是:提供一種基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法,該 方法可以提升用戶拍攝體驗(yàn),動(dòng)態(tài)的選取對(duì)焦點(diǎn)和感興趣區(qū)域,并最終通過重新分配碼流 來提升視頻主觀觀看體驗(yàn)。
[0007] 本發(fā)明的技術(shù)方案是:一種基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法, 包括以下步驟:
[0008] (1)米樣麥克風(fēng)陣列中各麥克風(fēng)的音頻信號(hào);
[0009] (2)根據(jù)各音頻信號(hào),結(jié)合各麥克風(fēng)的位置,計(jì)算出聲音方向;
[0010] (3)根據(jù)聲音方向結(jié)合相機(jī)參數(shù),獲取感興趣點(diǎn)坐標(biāo)(x,y),并進(jìn)行自動(dòng)對(duì)焦;
[0011] (4)完成對(duì)焦后,判斷對(duì)焦點(diǎn)周圍的清晰區(qū)域,將該區(qū)域作為感興趣區(qū)域;
[0012] (5)對(duì)感興趣區(qū)域和非感興趣區(qū)域設(shè)定不同編碼參數(shù),并對(duì)視頻進(jìn)行編碼。
[0013] 進(jìn)一步的,所述麥克風(fēng)陣列的麥克風(fēng)數(shù)量為2個(gè)或者2個(gè)以上。
[0014] 進(jìn)一步的,所述聲音方向的計(jì)算方法為:通過聲音到達(dá)不同麥克風(fēng)的時(shí)間差,求出 雙曲面漸進(jìn)錐面,在距離麥克風(fēng)一段距離之后,近似認(rèn)為聲源在錐面上或者通過聲音到達(dá) 不同麥克風(fēng)之間的能量變化,結(jié)合麥克風(fēng)之間的距離,計(jì)算出聲源的方向。
[0015] 進(jìn)一步的,所述麥克風(fēng)為3個(gè)以上,通過聲音到達(dá)不同麥克風(fēng)的時(shí)間差,計(jì)算出聲 源所在的多個(gè)錐面,聲源方向?yàn)殄F面相交處。
[0016] 進(jìn)一步的,所述對(duì)焦完成之后,再次通過拍攝設(shè)備中自動(dòng)對(duì)焦系統(tǒng),判斷對(duì)焦點(diǎn)或 對(duì)焦區(qū)域周圍更大范圍內(nèi)的清晰圖像區(qū)域,該區(qū)域?yàn)楦信d趣區(qū)域。
[0017] 進(jìn)一步的,所述自動(dòng)對(duì)焦方法為:將原始視頻幀的全部內(nèi)容,或者選取合焦點(diǎn)附近 的一部分區(qū)域表不為灰度圖P ;
[0018] 設(shè)計(jì)范圍為f的低通濾波器對(duì)P進(jìn)行濾波:
[0019]
【權(quán)利要求】
1. 一種基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法,其特征在于,包括以下步 驟: (1) 米樣麥克風(fēng)陣列中各麥克風(fēng)的音頻信號(hào); (2) 根據(jù)各音頻信號(hào),結(jié)合各麥克風(fēng)的位置,計(jì)算出聲音方向; (3) 根據(jù)聲音方向結(jié)合相機(jī)參數(shù),獲取感興趣點(diǎn)坐標(biāo)(x,y),并進(jìn)行自動(dòng)對(duì)焦; (4) 完成對(duì)焦后,判斷對(duì)焦點(diǎn)周圍的清晰區(qū)域,將該區(qū)域作為感興趣區(qū)域; (5) 對(duì)感興趣區(qū)域和非感興趣區(qū)域設(shè)定不同編碼參數(shù),并對(duì)視頻進(jìn)行編碼。
2. 根據(jù)權(quán)利要求1所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法,其特征 在于,所述麥克風(fēng)陣列的麥克風(fēng)數(shù)量為2個(gè)或者2個(gè)以上。
3. 根據(jù)權(quán)利要求1所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法,其特征 在于,所述聲音方向的計(jì)算方法為:通過聲音到達(dá)不同麥克風(fēng)的時(shí)間差,求出雙曲面漸進(jìn)錐 面,在距離麥克風(fēng)一段距離之后,近似認(rèn)為聲源在錐面上或者通過聲音到達(dá)不同麥克風(fēng)之 間的能量變化,結(jié)合麥克風(fēng)之間的距離,計(jì)算出聲源的方向。
4. 根據(jù)權(quán)利要求3所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法,其特征 在于,所述麥克風(fēng)為3個(gè)以上,通過聲音到達(dá)不同麥克風(fēng)的時(shí)間差,計(jì)算出聲源所在的多個(gè) 錐面,聲源方向?yàn)殄F面相交處。
5. 根據(jù)權(quán)利要求1所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法,其特征 在于,所述對(duì)焦完成之后,再次通過拍攝設(shè)備中自動(dòng)對(duì)焦系統(tǒng),判斷對(duì)焦點(diǎn)或?qū)箙^(qū)域周圍 更大范圍內(nèi)的清晰圖像區(qū)域,該區(qū)域?yàn)楦信d趣區(qū)域。
6. 根據(jù)權(quán)利要求1所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法,其特征 在于,所述自動(dòng)對(duì)焦方法為: 將原始視頻幀的全部內(nèi)容R,或者選取合焦點(diǎn)附近的一部分區(qū)域表示為灰度圖P ; 設(shè)計(jì)范圍為f的低通濾波器對(duì)P進(jìn)行濾波:
其中,H是高斯低通濾波器,即:
Px,y為P中的一個(gè)像素點(diǎn),X,y為像素的坐標(biāo),f是低通濾波器處理的范圍,exp是以e的指 數(shù); 求原視頻幀與濾波后的新視頻幀的差距E = |P-F(P) I,使用差的絕對(duì)值或方差或者標(biāo) 準(zhǔn)差來判斷原視頻幀和新視頻幀之間的差距; 差距最大的區(qū)域?yàn)楹辖箙^(qū)域的邊界,以及合焦區(qū)域中的紋理細(xì)節(jié); 獲得合焦區(qū)域邊界所圍成的閉合區(qū)域C,按照P與R的截取關(guān)系將C映射到R中,記錄 為I,即為感興趣區(qū)域。
7. 根據(jù)權(quán)利要求1-6任一項(xiàng)所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方 法,其特征在于,對(duì)感興趣區(qū)域采用容錯(cuò)策略以及保護(hù)策略進(jìn)行保護(hù)。
【文檔編號(hào)】H04N5/232GK104378635SQ201410589327
【公開日】2015年2月25日 申請(qǐng)日期:2014年10月28日 優(yōu)先權(quán)日:2014年10月28日
【發(fā)明者】羅天明, 程飛 申請(qǐng)人:西交利物浦大學(xué)