多聲道音頻數(shù)據(jù)的視頻分析輔助產(chǎn)生的制作方法

文檔序號：9278249閱讀：367來源：國知局

多聲道音頻數(shù)據(jù)的視頻分析輔助產(chǎn)生的制作方法
【專利說明】
[0001]本申請案請求2013年2月15日申請的美國臨時申請案第61/765，556號的權利。
技術領域
[0002]本發(fā)明涉及俘獲音頻數(shù)據(jù)，并且更確切地說涉及俘獲多聲道音頻數(shù)據(jù)。
【背景技術】
[0003]通常，視頻俘獲裝置(例如視頻可攜式攝像機、平板或平板觸摸計算機、移動電話(包含所謂的“智能電話”)、個人游戲裝置、個人媒體裝置和類似者)以攝像機為特征而以給定幀速率俘獲一系列圖像來產(chǎn)生視頻數(shù)據(jù)。通常，這些視頻俘獲裝置以麥克風為特征，以俘獲視頻數(shù)據(jù)中所描繪的場景的單聲道音頻數(shù)據(jù)。更復雜的視頻俘獲裝置可能以兩個或兩個以上麥克風為特征，以增加能夠俘獲的音頻聲道(以單聲道音頻數(shù)據(jù)來自單個聲道)的數(shù)目。這些更復雜的視頻錄制裝置可包含至少兩個麥克風來俘獲立體聲音頻數(shù)據(jù)(其指代具有左右聲道的音頻數(shù)據(jù))。
[0004]鑒于更多地采用所謂的智能電話，智能電話逐漸變成俘獲視頻數(shù)據(jù)的主導方式。通常，由于智能電話的本質及其作為音頻通信裝置的用途，智能電話可包含兩個、三個、四個或甚至五個麥克風。智能手機可在電話呼叫、視頻會議或包含音頻通信的其它形式通信期間出于噪音消除的目的而使用附加麥克風。盡管智能電話以大量麥克風為特征，但通常不使用這些麥克風來俘獲除立體聲音頻數(shù)據(jù)外的多聲道音頻數(shù)據(jù)，因為這些麥克風通常放置于智能電話上限制其充分俘獲除立體聲音頻數(shù)據(jù)外的任何數(shù)據(jù)的能力的位置中。

【發(fā)明內容】

[0005]一般來說，本發(fā)明描述視頻俘獲裝置可使用視頻分析來協(xié)助多聲道音頻數(shù)據(jù)的俘獲的技術。視頻俘獲裝置可促進使用視頻場景分析(或計算機視覺)技術產(chǎn)生環(huán)繞聲音頻數(shù)據(jù)(通常具有五個或五個以上聲道)。在一些實例中，視頻俘獲裝置可俘獲音頻數(shù)據(jù)和視頻數(shù)據(jù)，從而處理視頻數(shù)據(jù)來識別視頻對象，同時也處理音頻數(shù)據(jù)來識別音頻對象。視頻俘獲裝置可執(zhí)行視頻場景分析技術來識別所述視頻對象并產(chǎn)生關于所述對象的各種元數(shù)據(jù)。視頻俘獲裝置也可執(zhí)行聽覺場景分析，嘗試識別音頻對象及關于所述對象的各種元數(shù)據(jù)。通過比較所述對象，視頻俘獲裝置可識別很可能為音頻對象的來源的所述視頻對象。
[0006]鑒于視頻分析技術可更確切地識別視頻對象(相比僅音頻對象)相對于視頻俘獲裝置的位置，相比僅依賴于通常不準確的波束形成技術，視頻俘獲裝置可更好地本地化音頻對象。隨后可使用將音頻對象更好地本地化到一或多個前聲道的分貝差來將所述音頻對象再現(xiàn)到一或多個聲道，借此使得能夠更好地產(chǎn)生環(huán)繞聲音頻數(shù)據(jù)(相比由常規(guī)視頻俘獲裝置產(chǎn)生的環(huán)繞聲音頻數(shù)據(jù))。
[0007]在一個方面中，一種方法包括分析用裝置俘獲的音頻數(shù)據(jù)以識別一或多個音頻對象及分析用裝置在俘獲音頻數(shù)據(jù)的同時所俘獲的視頻數(shù)據(jù)來識別一或多個視頻對象。所述方法進一步包括:使一或多個音頻對象中的至少一者與一或多個視頻對象中的至少一者相關聯(lián)，及基于一或多個音頻對象中的至少一者與一或多個視頻對象中的至少一者的關聯(lián)從音頻數(shù)據(jù)產(chǎn)生多聲道音頻數(shù)據(jù)。
[0008]在另一方面中，一種裝置包括一或多個處理器，所述處理器經(jīng)配置以獲得音頻對象、獲得視頻對象、使音頻對象與視頻對象相關聯(lián)、比較所述音頻對象與相關聯(lián)的視頻對象及基于音頻對象與相關聯(lián)視頻對象之間的比較再現(xiàn)音頻對象。
[0009]在另一方面中，產(chǎn)生音頻輸出信號的裝置包括:用于基于第一音頻對象的數(shù)據(jù)分量與第一視頻對象的數(shù)據(jù)分量的第一比較識別與第一視頻對象對應物相關聯(lián)的第一音頻對象的裝置，及用于基于第二音頻對象的數(shù)據(jù)分量與第二視頻對象的數(shù)據(jù)分量的第二比較識別不與第二視頻對象對應物相關聯(lián)的第二音頻對象的裝置。所述裝置進一步包括:用于在第一區(qū)域中再現(xiàn)第一音頻對象的裝置，用于在第二區(qū)域中再現(xiàn)第二音頻對象的裝置，及用于基于組合第一區(qū)域中的再現(xiàn)第一音頻對象和第二區(qū)域中的再現(xiàn)第二音頻對象產(chǎn)生音頻輸出信號的裝置。
[0010]在另一方面中，一種非暫時性計算機可讀存儲媒體上存儲有在執(zhí)行時致使裝置的一或多個處理器執(zhí)行以下操作的指令:分析用裝置俘獲的音頻數(shù)據(jù)來識別一或多個音頻對象，分析用裝置在俘獲所述音頻數(shù)據(jù)的同時所俘獲的視頻數(shù)據(jù)來識別一或多個視頻對象，使一或多個音頻對象中的至少一者與一或多個視頻對象中的至少一者相關聯(lián)，及基于一或多個音頻對象中的至少一者與一或多個視頻對象中的至少一者的關聯(lián)從所述音頻數(shù)據(jù)產(chǎn)生多聲道音頻數(shù)據(jù)。
[0011]在附圖及以下描述中闡述所述技術的一或多個方面的細節(jié)。這些技術的其它特征、目標及優(yōu)點將從所述描述及圖式以及權利要求書而顯而易見。
【附圖說明】
[0012]圖1A為說明執(zhí)行本發(fā)明中所描述技術的實例視頻俘獲裝置10的各種視圖的圖。
[0013]圖1B為更詳細說明執(zhí)行本發(fā)明中所描述技術的視頻俘獲裝置的方塊圖。
[0014]圖2A至2D為說明由圖1的視頻俘獲裝置在根據(jù)本發(fā)明中所描述技術使視頻對象與音頻對象相關聯(lián)時執(zhí)行的操作的圖。
[0015]圖3為更詳細說明圖1B的輔助音頻再現(xiàn)單元的方塊圖。
[0016]圖4為說明由圖1B的實例中所展示的視頻俘獲裝置的攝像機所俘獲并且根據(jù)本發(fā)明中所描述技術經(jīng)處理的場景的圖。
[0017]圖5為說明由圖1B的實例中所展示的視頻俘獲裝置的攝像機所俘獲并且根據(jù)本發(fā)明中所描述技術的擴增實境方面經(jīng)處理的另一場景的圖。
[0018]圖6為說明視頻俘獲裝置在執(zhí)行本發(fā)明中所描述技術時的示范性操作的流程圖。
[0019]圖7為說明可如何根據(jù)本發(fā)明中所描述技術在多聲道音頻數(shù)據(jù)的前景和背景中再現(xiàn)各種音頻對象的圖。
【具體實施方式】
[0020]圖1A為說明執(zhí)行本發(fā)明中所描述技術的實例視頻俘獲裝置10的各種視圖8A至8C(分別為前視圖、后視圖及側視圖)的圖。視頻俘獲裝置10可表示能夠俘獲視頻及音頻數(shù)據(jù)的任何類型的裝置，例如視頻可攜式攝像機、平板或平板觸摸計算機、移動電話(包含所謂的“智能手機”)、個人游戲裝置、個人媒體裝置和類似者。出于說明的目的，假定視頻俘獲裝置10表示智能手機。盡管關于特定類型的裝置(即智能手機)進行了描述，但在本發(fā)明中，所述技術可由能夠俘獲視頻數(shù)據(jù)及多聲道音頻數(shù)據(jù)的任何類型的裝置實施。
[0021]在圖1A的實例中，從三個不同視圖8A至8C展示視頻俘獲裝置10。視圖8A從前面展示視頻俘獲裝置10。視圖8B從后面展示視頻俘獲裝置10。視圖8C從側面展示視頻俘獲裝置10。
[0022]如視圖8A中所展示，視頻俘獲裝置10包含耳機9、揚聲器11A、11B及麥克風16A、16B和16E。耳機9表示當用靠近用戶耳朵的裝置10收聽音頻時用于再現(xiàn)聲音或音頻數(shù)據(jù)的小型揚聲器。揚聲器IlA和IlB各自表示當用距用戶較遠的裝置10收聽音頻時(例如當用于再現(xiàn)音樂、觀看視頻或用作免提電話時)用于再現(xiàn)聲音音頻數(shù)據(jù)音頻數(shù)據(jù)的揚聲器。揚聲器IlA可被稱為左揚聲器IlA(或“揚聲器L”)，原因在于揚聲器IlA可再現(xiàn)多聲道音頻數(shù)據(jù)的左聲道。揚聲器IlB可被稱為右揚聲器IlA(或“揚聲器R”)，原因在于揚聲器IiB可再現(xiàn)多聲道音頻數(shù)據(jù)的右聲道。下文更詳細描述麥克風16A、16B及16E。
[0023]如視圖8B中所展示，在一個實例中，視頻俘獲裝置10還包含攝像機14及麥克風16C和16D。攝像機14可表示能夠俘獲圖像的任何類型的裝置。攝像機14可能以給定速率(其通常被稱為“幀速率”)俘獲一系列圖像以形成視頻數(shù)據(jù)。攝像機14可包含可促進光的俘獲以產(chǎn)生或以其它方式產(chǎn)生圖像的透鏡及其它組件。攝像機14也可與閃光燈或其它光產(chǎn)生元件(其在圖1A的實例中未展示)介接，其中，在一些情況下，攝像機14可與閃光燈集成。在假定的智能手機的上下文中，攝像機14通常包括數(shù)碼攝像機，其包含光感應傳感器(例如互補型金屬氧化物半導體(CMOS)光圖像傳感器或電荷耦合裝置(CCD)圖像傳感器)來感應進入透鏡的光的亮度和色度，這與電影攝像機中常見的用于感應光的賽璐璐媒體形成對照。攝像機14可俘獲光并產(chǎn)生一系列圖像，其在下文的圖1B的實例中展示為視頻數(shù)據(jù)18。
[0024]麥克風16A至16E( “麥克風16”)可各自表示能夠俘獲音頻數(shù)據(jù)的任何類型的裝置。麥克風16可一般涉及能夠將聲音轉換成電信號的任何類型的聲電換能器或傳感器。存在大量不同類型的麥克風，其中的每一者在不同類型俘獲聲音的方式方面不同。提供幾個實例，麥克風16可包含動態(tài)麥克風(其指代使用電磁感應俘獲聲音的麥克風)、調相器麥克風(其指代使用電容變化俘獲聲音的麥克風)及壓電麥克風。雖然展示為并入視頻俘獲裝置10內或在視頻俘獲裝置10內部，麥克風16中的一或多者可在視頻俘獲裝置10外部并通過有線連接或無線連接偶合到視頻俘獲裝置10。麥克風16中的每一者可俘獲單獨音頻數(shù)據(jù)20A至20E，如關于圖1B的實例更詳細展示。
[0025]通常，視頻俘獲裝置(例如視頻可攜式攝像機、平板或平板觸摸計算機、移動電話(包含所謂的“智能電話”)、個人游戲裝置、個人媒體裝置和類似者)以攝像機為特征而以給定幀速率俘獲一系列圖像來產(chǎn)生視頻數(shù)據(jù)。通常，這些視頻俘獲裝置以麥克風為特征，以俘獲視頻數(shù)據(jù)中所描繪的場景的單聲道音頻數(shù)據(jù)。更復雜的視頻俘獲裝置可能以兩個或兩個以上麥克風為特征，以增加能夠俘獲的聲道(以單聲道音頻數(shù)據(jù)來自單個聲道)的數(shù)目。這些更復雜的視頻錄制裝置可包含至少兩個麥克風來俘獲立體聲音頻數(shù)據(jù)(其指代具有左右聲道的音頻數(shù)據(jù))。
[0026]三個或三個以上麥克風(例如圖1A中展示為麥克風16的五個麥克風)可使得視頻俘獲裝置能夠執(zhí)行被稱作“波束形成”技術的操作，以促進具有前后及左右區(qū)別(或所謂的音頻數(shù)據(jù)的“聲道”，例如前或中央聲道、前左聲道、前右聲道、后左聲道及后右聲道)的環(huán)繞聲音頻的俘獲。在俘獲麥克風信號(其也可被稱作“音頻數(shù)據(jù)”)之后，智能手機可以算法方式形成至其它空間方向的空間波束(其可指代擴增某些方向的聲音的過程)。通過用這些波束單獨地過濾所俘獲的聲音，智能手機可產(chǎn)生不同輸出環(huán)繞聲聲道。在一些實例中，智能手機可產(chǎn)生波束，使得波束區(qū)域與對應無波束區(qū)域之間的差異展現(xiàn)6dB的聲級差異。作為一個實例，智能手機可基于這些波束產(chǎn)生5.1環(huán)繞聲音頻數(shù)據(jù)。
[0027]盡管智能電話可使用波束形成技術俘獲環(huán)繞音頻并借此相比以僅一個或兩個麥克風為特征的視頻俘獲裝置俘獲更真實的音頻，但一些智能電話上的麥克風布置(例如圖1A的實例的視圖8A至SC中所展示的布置)時常不允許最好質量的環(huán)繞聲音頻。通常，針對轉角的分貝差異并不十分重要。也就是說，當組合波束時的6dB差異并不產(chǎn)生多大差異，使得產(chǎn)生識別波束的聲音并不在播放后顯得十分本地化。當產(chǎn)生環(huán)繞聲音頻數(shù)據(jù)時，智能手機可將應為本地化音頻的音頻放置在中央聲道和前右聲道中(例如當所述音頻應對于前右聲道更本地化時)。
[0028]另外，鑒于一些前后麥克風(例如麥克風16B及16C)之間的接近度，智能電話可不能夠充分區(qū)別前后音頻。不能夠充分區(qū)別前后音頻可導致智能手機產(chǎn)生并不再現(xiàn)前后聲道之間的音頻的充分區(qū)別的環(huán)繞聲或多聲道音頻數(shù)據(jù)。換句話說，前后聲道可能聽起來混亂，其中后部聲音可通過前揚聲器(通常，結合后部聲音以使前后聲音混合)再現(xiàn)，并且前部聲音可通過后揚聲器(通常，結合前部聲音以使前后聲音混合)再現(xiàn)。
[0029]視頻俘獲裝置10可實施本發(fā)明中所描述技術以促進更好地復制當俘獲視頻數(shù)據(jù)時聽到的音頻數(shù)據(jù)的環(huán)繞聲或多聲道音頻數(shù)據(jù)的產(chǎn)生。為根據(jù)本發(fā)明中描述的技術產(chǎn)生這種多聲道音頻數(shù)據(jù)，視頻俘獲裝置10可使用視頻分析來協(xié)助多聲道音頻數(shù)據(jù)的俘獲。視頻俘獲裝置10可促進使用視頻場景分析(或計算機視覺)技術產(chǎn)生多聲道音頻數(shù)據(jù)(通常具有五個或五個以上聲道)。在一些實例中，視頻俘獲裝置10可俘獲音頻數(shù)據(jù)和視頻數(shù)據(jù)，從而處理視頻數(shù)據(jù)來識別視頻對象，同時也處理音頻數(shù)據(jù)來識別音頻對象。視頻俘獲裝置10可執(zhí)行視頻場景分析技術來識別所述視頻對象和關于所述對象的各種元數(shù)據(jù)。視頻俘獲裝置10也可執(zhí)行聽覺場景分析，嘗試識別音頻對象及關于所述對象的各種元數(shù)據(jù)。通過比較所述對象，視頻俘獲裝置可識別很可能為音頻對象的來源的所述視頻對象。
[0030]鑒于視頻分析技術可更確切地識別視頻對象(相比僅音頻對象)相對于視頻俘獲裝置的位置，相比僅依賴于通常不準確的波束形成技術，視頻俘獲裝置10可更好地本地化音頻對象。隨后可使用將音頻對象更好地本地化到前聲道中的一者的分貝差來將所述音頻對象再現(xiàn)到一或多個聲道，借此使得能夠更好地產(chǎn)生環(huán)繞聲或其它類型的多聲道音頻數(shù)據(jù)(相比由常規(guī)視頻俘獲裝置產(chǎn)生的音頻數(shù)據(jù))。關于下圖1B更詳細地描述由視頻俘獲裝置10執(zhí)行的技術。
[0031]圖1B為更詳細說明執(zhí)行本發(fā)明中所描述技術的視頻俘獲裝置10的方塊圖。在圖1B的實例中，視頻俘獲裝置10包含控制單元12、攝像機14及麥克風(“mic”)16A至16E( “麥克風16”或“mic 16”)。盡管為了易于說明目的在圖1B的實例中未展示，但視頻俘獲裝置10還可包含耳機9及揚聲器IIA和11B，以及執(zhí)行通常與視頻俘獲裝置10相關聯(lián)的各種其它功能的

完整全部詳細技術資料下載

當前第1頁1 2 3 4 5 6

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：向佩;
技術所有人：高通股份有限公司;
我是此專利的發(fā)明人

上一篇：具有自旋霍爾mtj器件的交叉點陣列mram的制作方法
上一篇：使用高級頻譜延拓降低量化噪聲的壓擴裝置和方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、畢老師：機構動力學與控制
2、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
3、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
4、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
5、張老師：1.機械設計的應力分析、強度校核的計算機仿真 2.生物反應器研制 3.生物力學
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多聲道音頻數(shù)據(jù)的視頻分析輔助產(chǎn)生的制作方法