基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法

文檔序號(hào)：7817971閱讀：495來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法
【專利摘要】本發(fā)明公開了一種基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法，在拍攝視頻中，通過麥克風(fēng)陣列（兩個(gè)或多個(gè)麥克風(fēng)）獲取視頻拍攝中聲音的空間方向，然后通過該方向確定視頻拍攝中的自動(dòng)對(duì)焦點(diǎn)，通過對(duì)焦點(diǎn)確定視頻幀的感興趣區(qū)域（ Regionofinterest ， ROI ），并且最終通過不同的編碼策略對(duì)視頻幀進(jìn)行編碼的方法。該方法可以提升用戶拍攝體驗(yàn)，動(dòng)態(tài)的選取對(duì)焦點(diǎn)和感興趣區(qū)域，并最終通過重新分配碼流來提升視頻主觀觀看體驗(yàn)。
【專利說明】基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于感興趣區(qū)域的視頻編碼方法，具體涉及一種基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的提取及編碼的方法。

【背景技術(shù)】
[0002] 目前，高清晰度視頻格式（High Definition, HD)越來越多的被用于各種視頻錄制與實(shí)時(shí)視頻通信中。然而，存儲(chǔ)和傳輸HD視頻碼流為存儲(chǔ)設(shè)備和網(wǎng)絡(luò)帶寬帶來了極大的挑戰(zhàn)。尤其是對(duì)于便攜式錄像設(shè)備，例如智能手機(jī)和DV機(jī)，由于其存儲(chǔ)空間受限，限制了 HD 視頻的廣泛使用。一種有效的解決方案是通過劃分視頻中感興趣區(qū)域和非感興趣區(qū)域，對(duì) 不同區(qū)域使用不同編碼策略，使用更多的碼率編碼感興趣區(qū)域，反之亦然。
[0003] 在傳統(tǒng)的基于感興趣區(qū)域的視頻編碼方法中，大多數(shù)采用人臉識(shí)別、運(yùn)動(dòng)識(shí)別或者通過數(shù)學(xué)模型預(yù)測圖像中的感興趣區(qū)域，然后對(duì)不同區(qū)域采用不同的量化參數(shù)進(jìn)行編碼。然而，這些方案往往只是關(guān)注視頻圖像本身，而在錄像的過程中，聲音也是非常重要的一部分。通常，人們?cè)谟^看視頻的時(shí)候，會(huì)更關(guān)注發(fā)出聲音的人或者物體，例如在多人視頻會(huì)議場景中，觀看者會(huì)更關(guān)注正在說話的人；在賽車比賽中，觀看者會(huì)更加關(guān)注呼嘯駛過的賽車。因此，發(fā)出聲音的人和物體可以作為感興趣點(diǎn)。
[0004] 大多數(shù)的視頻錄像場景都是同步采集聲音的，而音頻信號(hào)一般都是獨(dú)立于視頻信號(hào)進(jìn)行編碼。多數(shù)情況下，視頻編碼方案的研究中并不考慮音頻信號(hào)本身提供的信息的。然而，對(duì)于同一個(gè)場景來說，音頻和視頻是以不同的形式描述同一個(gè)事物，中間必然有很多關(guān) 聯(lián)。尤其是雙麥克風(fēng)系統(tǒng)組成的立體聲采集，不僅可以采集到立體聲音頻，同樣可以用立體聲信號(hào)來判斷聲音的方向。而麥克風(fēng)陣列可以同時(shí)米樣多個(gè)不同位置上的麥克風(fēng)信號(hào)，然后可以通過幅值和相位等信息的差異，可以判斷聲音的空間方向。除此之外，通過聲音方向的變換也可以作為視頻編碼中運(yùn)動(dòng)估計(jì)與運(yùn)動(dòng)補(bǔ)償?shù)妮o助。
[0005] 智能手機(jī)是目前一種非常流行的視頻拍攝設(shè)備，而相當(dāng)多的智能手機(jī)已經(jīng)具備了兩個(gè)或更多的麥克風(fēng)，通常一個(gè)用于受話器，另一個(gè)位于手機(jī)背面，用于通話降噪。由于這兩個(gè)麥克風(fēng)安裝位置不同，因此可以用來在一定程度上判斷聲音的方向，用于輔助檢測感興趣區(qū)域。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明目的是：提供一種基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法，該方法可以提升用戶拍攝體驗(yàn)，動(dòng)態(tài)的選取對(duì)焦點(diǎn)和感興趣區(qū)域，并最終通過重新分配碼流來提升視頻主觀觀看體驗(yàn)。
[0007] 本發(fā)明的技術(shù)方案是：一種基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法，包括以下步驟：
[0008] (1)米樣麥克風(fēng)陣列中各麥克風(fēng)的音頻信號(hào)；
[0009] (2)根據(jù)各音頻信號(hào)，結(jié)合各麥克風(fēng)的位置，計(jì)算出聲音方向；
[0010] (3)根據(jù)聲音方向結(jié)合相機(jī)參數(shù)，獲取感興趣點(diǎn)坐標(biāo)（x，y)，并進(jìn)行自動(dòng)對(duì)焦；
[0011] (4)完成對(duì)焦后，判斷對(duì)焦點(diǎn)周圍的清晰區(qū)域，將該區(qū)域作為感興趣區(qū)域；
[0012] (5)對(duì)感興趣區(qū)域和非感興趣區(qū)域設(shè)定不同編碼參數(shù)，并對(duì)視頻進(jìn)行編碼。
[0013] 進(jìn)一步的，所述麥克風(fēng)陣列的麥克風(fēng)數(shù)量為2個(gè)或者2個(gè)以上。
[0014] 進(jìn)一步的，所述聲音方向的計(jì)算方法為：通過聲音到達(dá)不同麥克風(fēng)的時(shí)間差，求出雙曲面漸進(jìn)錐面，在距離麥克風(fēng)一段距離之后，近似認(rèn)為聲源在錐面上或者通過聲音到達(dá) 不同麥克風(fēng)之間的能量變化，結(jié)合麥克風(fēng)之間的距離，計(jì)算出聲源的方向。
[0015] 進(jìn)一步的，所述麥克風(fēng)為3個(gè)以上，通過聲音到達(dá)不同麥克風(fēng)的時(shí)間差，計(jì)算出聲源所在的多個(gè)錐面，聲源方向?yàn)殄F面相交處。
[0016] 進(jìn)一步的，所述對(duì)焦完成之后，再次通過拍攝設(shè)備中自動(dòng)對(duì)焦系統(tǒng)，判斷對(duì)焦點(diǎn)或對(duì)焦區(qū)域周圍更大范圍內(nèi)的清晰圖像區(qū)域，該區(qū)域?yàn)楦信d趣區(qū)域。
[0017] 進(jìn)一步的，所述自動(dòng)對(duì)焦方法為：將原始視頻幀的全部內(nèi)容，或者選取合焦點(diǎn)附近的一部分區(qū)域表不為灰度圖P ;
[0018] 設(shè)計(jì)范圍為f的低通濾波器對(duì)P進(jìn)行濾波：
[0019]

【權(quán)利要求】
1. 一種基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法，其特征在于，包括以下步驟： (1) 米樣麥克風(fēng)陣列中各麥克風(fēng)的音頻信號(hào)； (2) 根據(jù)各音頻信號(hào)，結(jié)合各麥克風(fēng)的位置，計(jì)算出聲音方向； (3) 根據(jù)聲音方向結(jié)合相機(jī)參數(shù)，獲取感興趣點(diǎn)坐標(biāo)（x，y)，并進(jìn)行自動(dòng)對(duì)焦； (4) 完成對(duì)焦后，判斷對(duì)焦點(diǎn)周圍的清晰區(qū)域，將該區(qū)域作為感興趣區(qū)域； (5) 對(duì)感興趣區(qū)域和非感興趣區(qū)域設(shè)定不同編碼參數(shù)，并對(duì)視頻進(jìn)行編碼。
2. 根據(jù)權(quán)利要求1所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法，其特征在于，所述麥克風(fēng)陣列的麥克風(fēng)數(shù)量為2個(gè)或者2個(gè)以上。
3. 根據(jù)權(quán)利要求1所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法，其特征在于，所述聲音方向的計(jì)算方法為：通過聲音到達(dá)不同麥克風(fēng)的時(shí)間差，求出雙曲面漸進(jìn)錐面，在距離麥克風(fēng)一段距離之后，近似認(rèn)為聲源在錐面上或者通過聲音到達(dá)不同麥克風(fēng)之間的能量變化，結(jié)合麥克風(fēng)之間的距離，計(jì)算出聲源的方向。
4. 根據(jù)權(quán)利要求3所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法，其特征在于，所述麥克風(fēng)為3個(gè)以上，通過聲音到達(dá)不同麥克風(fēng)的時(shí)間差，計(jì)算出聲源所在的多個(gè) 錐面，聲源方向?yàn)殄F面相交處。
5. 根據(jù)權(quán)利要求1所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法，其特征在于，所述對(duì)焦完成之后，再次通過拍攝設(shè)備中自動(dòng)對(duì)焦系統(tǒng)，判斷對(duì)焦點(diǎn)或?qū)箙^(qū)域周圍更大范圍內(nèi)的清晰圖像區(qū)域，該區(qū)域?yàn)楦信d趣區(qū)域。
6. 根據(jù)權(quán)利要求1所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法，其特征在于，所述自動(dòng)對(duì)焦方法為：將原始視頻幀的全部內(nèi)容R，或者選取合焦點(diǎn)附近的一部分區(qū)域表示為灰度圖P ; 設(shè)計(jì)范圍為f的低通濾波器對(duì)P進(jìn)行濾波：
其中，H是高斯低通濾波器，即：
Px，y為P中的一個(gè)像素點(diǎn)，X，y為像素的坐標(biāo)，f是低通濾波器處理的范圍，exp是以e的指數(shù)；求原視頻幀與濾波后的新視頻幀的差距E = |P-F(P) I，使用差的絕對(duì)值或方差或者標(biāo) 準(zhǔn)差來判斷原視頻幀和新視頻幀之間的差距；差距最大的區(qū)域?yàn)楹辖箙^(qū)域的邊界，以及合焦區(qū)域中的紋理細(xì)節(jié)；獲得合焦區(qū)域邊界所圍成的閉合區(qū)域C，按照P與R的截取關(guān)系將C映射到R中，記錄為I，即為感興趣區(qū)域。
7. 根據(jù)權(quán)利要求1-6任一項(xiàng)所述的基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法，其特征在于，對(duì)感興趣區(qū)域采用容錯(cuò)策略以及保護(hù)策略進(jìn)行保護(hù)。
【文檔編號(hào)】H04N5/232GK104378635SQ201410589327
【公開日】2015年2月25日申請(qǐng)日期:2014年10月28日優(yōu)先權(quán)日:2014年10月28日
【發(fā)明者】羅天明, 程飛申請(qǐng)人:西交利物浦大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅天明;程飛;
技術(shù)所有人：西交利物浦大學(xué);
我是此專利的發(fā)明人

上一篇：一種省電的光網(wǎng)絡(luò)單元的制作方法
上一篇：窄帶無線Mesh網(wǎng)絡(luò)的RFID室內(nèi)定位系統(tǒng)及方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

麥克風(fēng)陣列相關(guān)技術(shù)

麥克風(fēng)陣列聲源定位相關(guān)技術(shù)

麥克風(fēng)陣列解決方案相關(guān)技術(shù)

麥克風(fēng)陣列信號(hào)處理相關(guān)技術(shù)

陣列式麥克風(fēng)相關(guān)技術(shù)

麥克風(fēng)陣列技術(shù)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于麥克風(fēng)陣列輔助的視頻感興趣區(qū)域的編碼方法