亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

處理空間音頻的方法,系統(tǒng)及制品與流程

文檔序號:11456673閱讀:388來源:國知局
處理空間音頻的方法,系統(tǒng)及制品與流程

優(yōu)先權(quán)主張

本專利申請案主張2015年1月2日申請的臨時(shí)申請案第62/099,395號及2015年7月23日申請的美國申請案第14/807,760號(兩者標(biāo)題均為“具有用戶可配置的聲聚焦的多聲道聲渲染(multi-channelsoundreproductionwithuserconfigurablesoundfocus)”)的優(yōu)先權(quán),且特此以全文引用的方式明確地并入本文中,猶如完全在本文中闡明一般。

本發(fā)明大體來說涉及音頻系統(tǒng),且,更特定來說,涉及一種可動(dòng)態(tài)地配置的多聲道音頻系統(tǒng)。



背景技術(shù):

常規(guī)多聲道記錄通常在播放環(huán)境中假定固定擴(kuò)音器位置;且因此,一些常規(guī)多聲道音響系統(tǒng)基于標(biāo)準(zhǔn)擴(kuò)音器配置處理并存儲(chǔ)音頻信號。標(biāo)準(zhǔn)多聲道擴(kuò)音器配置包含常規(guī)l-r立體聲、5.1環(huán)繞立體聲及7.1環(huán)繞立體聲以及其它音響。然而,在用戶的聲學(xué)空間(例如,起居室、汽車或其類似者)中,擴(kuò)音器位置與由標(biāo)準(zhǔn)指定的那些擴(kuò)音器位置不匹配并不少見。此外,如果用戶想要?jiǎng)討B(tài)地配置擴(kuò)音器設(shè)置或聚焦于聲源或方向,那么應(yīng)考慮實(shí)際設(shè)置及/或用戶或裝置選擇以用于恰當(dāng)?shù)囊纛l渲染。舉例來說,如果一個(gè)擴(kuò)音器出于例如電池不足問題或非標(biāo)準(zhǔn)位置的某種原因而為非理想的,那么音頻播放系統(tǒng)應(yīng)獲得此信息并實(shí)時(shí)反映此些差異以用于恰當(dāng)?shù)囊纛l渲染。

存在用以使用經(jīng)編碼聲源形成虛擬擴(kuò)音器位置以補(bǔ)償擴(kuò)音器位置不匹配的一些已知方法,但這些方法可引起不可避免的聲源位置不匹配,這是因?yàn)樗龇椒ㄖ械囊恍┓椒ㄔ噲D重新映射經(jīng)處理的輸出以形成虛擬擴(kuò)音器。



技術(shù)實(shí)現(xiàn)要素:

為了解決前述缺點(diǎn),本文中所揭示的技術(shù)可處理經(jīng)方向性編碼音頻以考慮收聽者播放環(huán)境的實(shí)體特性,例如實(shí)際擴(kuò)音器位置。本發(fā)明技術(shù)還可處理經(jīng)方向性編碼音頻以準(zhǔn)許對音頻場景中來自特定方向的聲音進(jìn)行聚焦/散焦。所揭示技術(shù)的優(yōu)點(diǎn)在于:可在播放時(shí)更準(zhǔn)確地渲染所記錄音頻場景,而不管輸出擴(kuò)音器設(shè)置(即,擴(kuò)音器的物理配置及布局)。另一優(yōu)點(diǎn)在于:技術(shù)可準(zhǔn)許用戶動(dòng)態(tài)地配置音頻數(shù)據(jù)以使得其更好地符合用戶的特定擴(kuò)音器布局及/或用戶的對音頻場景中的特定對象或區(qū)域的所要聚焦。

根據(jù)所揭示技術(shù)的方面,一種處理音頻的方法包含:接收對應(yīng)于場景的音頻數(shù)據(jù)。所述音頻數(shù)據(jù)包含指示所述場景中的一或多個(gè)聲源的一或多個(gè)方向的空間信息?;谧R別播放環(huán)境的一或多個(gè)空間特性的輸入數(shù)據(jù)而修改所述音頻數(shù)據(jù)。

根據(jù)另一方面,一種系統(tǒng)包含經(jīng)配置以接收對應(yīng)于場景的音頻數(shù)據(jù)的接口。所述音頻數(shù)據(jù)包含指示場景中的一或多個(gè)聲源的一或多個(gè)方向的空間信息。所述系統(tǒng)還包含處理器,所述處理器經(jīng)配置以基于識別播放環(huán)境的一或多個(gè)空間特性的輸入數(shù)據(jù)而修改所述音頻數(shù)據(jù)。

根據(jù)又一方面,一種系統(tǒng)包含用于接收對應(yīng)于場景的音頻數(shù)據(jù)的裝置,其中所述音頻數(shù)據(jù)包含指示場景中的一或多個(gè)聲源的一或多個(gè)方向的空間信息;以及用于基于識別播放環(huán)境的一或多個(gè)空間特性的輸入數(shù)據(jù)而修改音頻數(shù)據(jù)的裝置。

根據(jù)又一方面,一種體現(xiàn)可由一或多個(gè)處理器執(zhí)行的指令集的計(jì)算機(jī)可讀媒體存儲(chǔ)用于接收對應(yīng)于場景的音頻數(shù)據(jù)的程序代碼,其中所述音頻數(shù)據(jù)包含指示場景中的一或多個(gè)聲源的一或多個(gè)方向的空間信息。所述計(jì)算機(jī)可讀媒體還存儲(chǔ)用于基于識別播放環(huán)境的一或多個(gè)空間特性的輸入數(shù)據(jù)而修改音頻數(shù)據(jù)的程序代碼。

前述概述并不界定對所附權(quán)利要求書的限制。在檢查以下各圖及詳細(xì)描述后,所屬領(lǐng)域的技術(shù)人員即將顯而易見或?qū)⒆兊蔑@而易見其它方面、特征及優(yōu)點(diǎn)。意欲將所有此些額外特征、方面及優(yōu)點(diǎn)包含于此描述內(nèi)且受隨附權(quán)利要求書保護(hù)。

附圖說明

應(yīng)理解,圖式僅用于說明的目的且并不界定對所附權(quán)利要求書的限制。此外,諸圖中的組件未必按比例繪制。在諸圖中,相似參考數(shù)字貫穿不同視圖指明對應(yīng)零件。

圖1為說明實(shí)例音頻輸出空間的概念圖,其中將音頻掩蔽窗應(yīng)用于經(jīng)方向性編碼音頻數(shù)據(jù)以補(bǔ)償不匹配的擴(kuò)音器位置。

圖2為說明示范性掩蔽窗函數(shù)的曲線圖。

圖3為說明經(jīng)劃分成26個(gè)扇段的另一實(shí)例音頻輸出空間的概念圖。

圖4為說明實(shí)例音頻輸出空間的概念圖,其中音頻空間的區(qū)由用戶啟用且音頻空間的其它區(qū)經(jīng)禁用。

圖5為說明實(shí)例音頻輸出空間的概念圖,其中音頻空間的兩個(gè)區(qū)由用戶啟用且音頻空間的其它區(qū)經(jīng)禁用。

圖6a到b為說明不同操作情境期間的實(shí)例多聲道音頻空間的概念圖,其中各種音頻場景區(qū)由用戶選擇性地啟用或禁用。

圖7a到b為說明不同操作情境期間的實(shí)例立體聲音頻空間的概念圖,其中各種音頻場景區(qū)由用戶選擇性地啟用或禁用。

圖8為說明手持式裝置周圍的實(shí)例音頻場景空間的概念圖,其中對應(yīng)于手持式裝置的后置攝像機(jī)的音頻區(qū)經(jīng)啟用。

圖9為說明手持式裝置周圍的實(shí)例音頻場景空間的概念圖,其中對應(yīng)于手持式裝置的前置攝像機(jī)的音頻區(qū)經(jīng)啟用。

圖10為根據(jù)本文中所揭示技術(shù)的用于對音頻進(jìn)行塑形的示范性系統(tǒng)的框圖。

圖11為說明根據(jù)本文中所揭示技術(shù)的對音頻進(jìn)行塑形的方法的流程圖。

圖12為可操作以執(zhí)行多聲道音頻產(chǎn)生及方向性編碼所接收音頻的實(shí)例系統(tǒng)的圖。

圖13為可操作以實(shí)施圖12的系統(tǒng)的裝置的實(shí)例的多個(gè)視圖的圖。

圖14a為相對于圖12的系統(tǒng)的麥克風(fēng)對的平面波傳播的實(shí)例遠(yuǎn)場模型的圖。

圖14b為可對應(yīng)于圖12的系統(tǒng)的麥克風(fēng)的實(shí)例麥克風(fēng)置放的圖。

圖15為可包含于圖12的系統(tǒng)中的麥克風(fēng)的替代示范性布置的圖。

圖16為說明用于校準(zhǔn)播放系統(tǒng)的擴(kuò)音器的實(shí)際位置以使得可根據(jù)本文中所描述的技術(shù)對音頻數(shù)據(jù)進(jìn)行塑形以考慮實(shí)際揚(yáng)聲器位置的技術(shù)的概念圖。

具體實(shí)施方式

參看圖式且并有圖式的以下詳細(xì)描述描述并說明音頻處理技術(shù)的一或多個(gè)特定實(shí)例。充分詳細(xì)地展示及描述并非為了限制而提供而僅用以舉例說明及教示所揭示內(nèi)容而提供的這些技術(shù),以使得所屬領(lǐng)域的技術(shù)人員能夠?qū)嵺`所揭示技術(shù)。因此,在適于避免混淆技術(shù)的情況下,描述可省略所屬領(lǐng)域的技術(shù)人員已知的某些信息。

詞“示范性”貫穿本申請案用于意指“用作實(shí)例、例子或說明”。本文中描述為“示范性”的任何系統(tǒng)、方法、裝置、技術(shù)、特征或其類似者未必應(yīng)被解釋為較其它特征較佳或有利。

本文中所揭示的音頻處理技術(shù)的優(yōu)點(diǎn)在于:可經(jīng)由圖形用戶接口(gui)自定義音頻捕獲以考慮任意或非標(biāo)準(zhǔn)擴(kuò)音器布局。因此,可對基于標(biāo)準(zhǔn)聲道捕獲的數(shù)字音頻數(shù)據(jù)進(jìn)行“塑形”以考慮非標(biāo)準(zhǔn)擴(kuò)音器配置。可如實(shí)渲染聲音的空間印象而不管距所推薦標(biāo)準(zhǔn)位置的擴(kuò)音器偏移。在本創(chuàng)新之前,對于自定義音頻捕獲及/或播放,并不存在此類靈活性及穩(wěn)健性。已知的音頻捕獲及/或播放是針對固定標(biāo)準(zhǔn)擴(kuò)音器位置,例如,環(huán)繞立體聲5.1、環(huán)繞立體聲7.1、立體聲、單聲道或其類似者。

用戶可能想要在播放時(shí)盡可能類似地渲染所記錄音頻場景,而不管其輸出擴(kuò)音器設(shè)置(即,擴(kuò)音器的物理配置及布局)。所揭示音頻處理技術(shù)準(zhǔn)許用戶動(dòng)態(tài)地配置音頻數(shù)據(jù)以使得其分別更好地符合用戶的特定擴(kuò)音器布局。

另外,所揭示音頻處理技術(shù)結(jié)合透明方向性音頻場景渲染提供對來自特定方向的聲音進(jìn)行聚焦/散焦的能力。所揭示音頻處理技術(shù)可在(例如)成對/基于矢量的振幅平移(panning)的上下文內(nèi)提供所記錄聲源與所渲染源位置之間的透明匹配。因此,所揭示技術(shù)提供用戶可調(diào)整的聲音聚焦/散焦能力,同時(shí)維持對所渲染音頻場景內(nèi)的聲音的方向性感知。

所揭示技術(shù)還可在播放/渲染時(shí)動(dòng)態(tài)地執(zhí)行位置聲音編碼以使得音響系統(tǒng)可基于實(shí)際位置及可用擴(kuò)音器的數(shù)目、基于關(guān)于此等擴(kuò)音器的先驗(yàn)位置信息而達(dá)成互易性。

本文中參考二維音頻空間(場景)描述音頻處理技術(shù)。然而,可通過沿z軸添加一或多個(gè)麥克風(fēng)(用于捕獲處理程序)及擴(kuò)音器(用于播放)而將所揭示技術(shù)擴(kuò)展到三維音頻場景。

圖1為說明表示向一或多個(gè)收聽者播放音頻的播放環(huán)境的實(shí)例音頻輸出空間100(輸出場景)的概念圖。在所展示的實(shí)例中,使用五個(gè)輸出音頻聲道,其中在實(shí)際擴(kuò)音器108a到108e上播放音頻。示范性配置為環(huán)繞立體聲系統(tǒng)5.1,其中擴(kuò)音器108a對應(yīng)于左(l)聲道,擴(kuò)音器108b對應(yīng)于中心(c)聲道,擴(kuò)音器108c對應(yīng)于右(r)聲道,擴(kuò)音器108d對應(yīng)于環(huán)繞聲右(sr)聲道,擴(kuò)音器108e對應(yīng)于環(huán)繞聲左(sl)聲道。然而,如圖1中所展示,用戶的真實(shí)擴(kuò)音器108a到108e的實(shí)際位置偏離標(biāo)準(zhǔn)擴(kuò)音器位置110a到110e。在實(shí)例中,標(biāo)準(zhǔn)擴(kuò)音器位置110a到110e對應(yīng)于通過環(huán)繞立體聲5.1指定的那些位置。

如概念上所說明,由音響系統(tǒng)(圖1中未展示)將音頻掩蔽窗106a到106e應(yīng)用于經(jīng)方向性編碼音頻數(shù)據(jù)以補(bǔ)償不匹配的擴(kuò)音器位置。為了完成掩蔽,將音頻空間100劃分成五個(gè)用戶可配置的扇段102a到102e。通過扇段邊界104a到104e描繪扇段102a到102e。邊界位置可為用戶界定的,如下文結(jié)合圖4及10到11進(jìn)一步描述。因此,用戶可通過界定每一扇段的邊界來界定每一扇段的區(qū)。盡管可使用任何合適方法或測量來界定邊界及扇段,但出于說明的目的,可將邊界界定為從空間的中心發(fā)出的徑向線,其中單位圓角界定邊界104a到104e中的每一者的位置。舉例來說,扇段5106e的邊界104a、104e分別位于0度及90度。邊界及扇段為可用以描述播放環(huán)境的空間特性的數(shù)據(jù)或信息的實(shí)例。

每一扇段102a到102e可對應(yīng)于各別擴(kuò)音器108a到108e的實(shí)際位置。在一些情況中,擴(kuò)音器可居中定位于邊界之間在其各別扇段內(nèi)。

此處所描述的音頻處理技術(shù)可適用于具有任何合適數(shù)目個(gè)扇段的音頻空間,且扇段的大小及形狀可變化,且其大小或形狀可能均勻或可能不均勻。

掩蔽窗106a到106e可為應(yīng)用于經(jīng)方向性編碼輸入音頻數(shù)據(jù)以根據(jù)播放音頻空間100的擴(kuò)音器配置對輸出音頻進(jìn)行“塑形”的增益函數(shù)。每一掩蔽窗函數(shù)可使用基于頻率區(qū)間的掩蔽及時(shí)間-頻域平滑化。

針對每一所捕獲音頻幀,按照頻率區(qū)間估計(jì)到達(dá)方向(doa),從而產(chǎn)生經(jīng)方向性編碼音頻幀。可將每一幀的方向信息(doa)連同描述幀的其它音頻數(shù)據(jù)(例如,頻譜信息)一起保留。下文結(jié)合圖12到15描述用于估計(jì)輸入音頻的doa的技術(shù)?;谳斎胍纛l的所估計(jì)doa,計(jì)算每一輸出聲道108a到108e的掩蔽窗增益。一般來說,針對每一音頻幀計(jì)算m個(gè)掩蔽增益(對應(yīng)于m個(gè)音頻輸出聲道),其中m為整數(shù)。

在圖1的實(shí)例音頻空間100中,m=5,且因此,針對音頻的每一幀計(jì)算五個(gè)掩蔽增益。以另一實(shí)例說明,考慮m=2,其可為表示立體聲輸出的音頻空間。因此,針對每一音頻幀,基于每一頻率區(qū)間之doa,計(jì)算兩個(gè)掩蔽增益,一個(gè)掩蔽增益用于左聲道且另一個(gè)掩蔽增益用于右聲道。盡管本說明中描繪雙聲道及五聲道音頻場景,但本文中所描述的音頻處理技術(shù)可適用于具有任何合適數(shù)目(m)個(gè)聲道的場景。

圖2為說明示范性掩蔽窗函數(shù)201的曲線圖200。掩蔽窗函數(shù)201為分段余弦函數(shù)。曲線圖x軸202表示doa,且曲線圖y軸203表示增益。在所展示的實(shí)例中,增益在0與1(單位一)之間變化。

實(shí)例函數(shù)201說明僅啟用一個(gè)音頻扇段且扇段邊界為225度及315度的狀況。掩蔽窗經(jīng)設(shè)計(jì)成扇段的中心(270度)具有單位增益。移動(dòng)遠(yuǎn)離中心,增益可在“滾降開始”角度(其為為調(diào)諧參數(shù)的度數(shù)值)之前維持為單位一204。

掩蔽函數(shù)的結(jié)束具有零增益。這些結(jié)束的位置可通過使用“滾降結(jié)束”角度來調(diào)諧。

介于單位一增益與零增益之間的窗的部分可為分段余弦函數(shù)(在圖2中參考為206a到206b)。為了計(jì)算具有按音頻幀的所估計(jì)doa角度θ(以度為單位)應(yīng)用的增益的音頻輸出,可使用以下廣義函數(shù):

其中“增益”為掩蔽窗函數(shù)輸出(音頻輸出信號),“滾降結(jié)束”等于滾降結(jié)束(例如,參見圖2)時(shí)介于零增益與單位一增益之間的度數(shù),且p2為通過幀表示的輸入音頻信號的振幅。

參看圖1,掩蔽窗函數(shù)可經(jīng)配置以使得每一實(shí)際擴(kuò)音器位置108a到108e處的增益為單位一,且在每一扇段邊界104a到104e處,增益為1/sqrt(2)以確保邊界處的平滑音頻過渡。邊界處的增益為可調(diào)諧的。

可使用其它合適的掩蔽窗函數(shù),包含基于成對平移規(guī)則的那些函數(shù),如緊接著在下文所描述。

針對成對平移規(guī)則,大體上遵循關(guān)于平移的正弦定律。

舉例來說,參看圖1,在左聲道108a與中心聲道108b之間,存在30度角距離,且從左擴(kuò)音器位置測量聲源doa角θ產(chǎn)生:

其中l(wèi)eft2為左聲道擴(kuò)音器108a的輸出且center2為中心聲道揚(yáng)聲器108b的輸出,且p2為輸入音頻振幅。

可使用各別角距離及doa角對每一對擴(kuò)音器執(zhí)行類似計(jì)算。一旦進(jìn)行每一對的此些計(jì)算,便將其加總在一起以獲得每聲道的最終輸出。舉例來說,針對圖1的左揚(yáng)聲器108a,可執(zhí)行以下計(jì)算:

其中n等于揚(yáng)聲器對的數(shù)目且leftfinal為左聲道輸出。

還可通過取決于收聽者與特定擴(kuò)音器之間的直線距離而引入每聲道超過一個(gè)增益因子來考慮從收聽者到每一擴(kuò)音器的距離不匹配。

舉例來說,為了考慮圖1的收聽者與左聲道揚(yáng)聲器108a之間的實(shí)際距離,可使用以下等式:

leftfinal=gainleft·leftfinal(等式5)

其中distancemax可為收聽者與擴(kuò)音器108a之間的標(biāo)準(zhǔn)的預(yù)期距離,且distanceleft為收聽者與擴(kuò)音器108a之間的實(shí)際距離。在圖100的實(shí)例空間100中,收聽者可位于圖的中心中。

可替代地將基于矢量的平移規(guī)則用于掩蔽窗,例如在2013年3月14日申請的標(biāo)題為“合作音響系統(tǒng)(collaborativesoundsystem)”的美國專利申請案第13/831,515號中所描述的彼規(guī)則。

圖3為說明經(jīng)劃分成26個(gè)扇段的第二實(shí)例音頻輸出空間300的概念圖。在此狀況下,扇段的數(shù)目n等于26。音頻空間300是通過26個(gè)等大小的扇段302(通過邊界304劃定)表示。在輸出場景300中,通過實(shí)際擴(kuò)音器306a到306e播放音頻,每一實(shí)際擴(kuò)音器輸出環(huán)繞立體聲5.1的各別聲道。擴(kuò)音器306a到306e的位置可能與環(huán)繞立體聲5.1的所推薦擴(kuò)音器位置308a到308e不匹配,如所展示。

可記錄來自輸入音頻場景的音頻且接著如上文結(jié)合圖1到2所描述將其關(guān)于實(shí)際擴(kuò)音器位置306a到306e后處理成多聲道音頻輸出(在圖3的實(shí)例中,五個(gè)聲道)。舉例來說,將扇段1中具有doa的音頻幀指派給由擴(kuò)音器306a輸出的中心聲道。取決于所使用的平移規(guī)則或掩蔽窗函數(shù)且基于扇段2中占優(yōu)勢聲源的doa角,將扇段2中具有doa的音頻幀指派給中心聲道306a及左聲道306b。取決于所使用的平移規(guī)則或掩蔽窗函數(shù)且基于扇段3中占優(yōu)勢聲源的doa角,將扇段3中出現(xiàn)的具有doa的音頻幀指派給中心聲道306a及左聲道306b。將扇段4中具有所估計(jì)doa的音頻幀指派給左聲道306b,等等。

在具有任意數(shù)目(n)個(gè)扇段的情況下,處理技術(shù)可處置任何數(shù)目(m)個(gè)擴(kuò)音器,其中m≤n,而不失一般性。

扇段302不需要具有相等角距離及大小,如圖3中所描繪。

圖4為說明實(shí)例音頻輸出空間400的概念圖,其中音頻空間400的區(qū)401由用戶啟用且音頻空間400的其它區(qū)403經(jīng)禁用。在此實(shí)例中,不僅取決于音頻的doa而通過掩蔽窗函數(shù)或平移規(guī)則(如圖1到3中所說明)對經(jīng)方向性編碼音頻進(jìn)行塑形,而且基于音頻空間400的用戶所選擇區(qū)對經(jīng)方向性編碼音頻進(jìn)一步進(jìn)行塑形。此情形準(zhǔn)許用戶將音頻播放聚焦于音頻空間中的所要區(qū)上。

所述區(qū)可對應(yīng)于內(nèi)部定位有聲源且經(jīng)受由音頻系統(tǒng)記錄的音頻場景中的區(qū)域及方向。

實(shí)例音頻空間400描繪具有兩個(gè)聲道扇段(左聲道扇段405及右聲道扇段407)的場景,所述聲道扇段具有概念上在90度與270度之間延行以劃分扇段405、407的扇段邊界406。左擴(kuò)音器408a提供左聲道音頻輸出,且右擴(kuò)音器408b提供左聲道音頻輸出。此聲道布置可表示立體聲輸出。

存在通過邊界404a到404d分離的四個(gè)用戶可選擇區(qū)402a到402d。用戶可選擇區(qū)402a到402d的數(shù)目、邊界位置及大小可由用戶經(jīng)由圖形用戶接口(gui)來配置,所述圖形用戶接口可以單位圓方式顯示音頻場景,例如圖1、2及4中所說明。如實(shí)例中所展示,第一可選擇區(qū)402a在225°與315°之間延伸;第二可選擇區(qū)402b在120°與225°之間延伸;第三可選擇區(qū)402c在60°與120°之間延伸;且第四可選擇區(qū)402d在315°與60°之間延伸??墒褂萌魏魏线m數(shù)目個(gè)聲道扇段及用戶可選擇區(qū)。

實(shí)例空間400展示第一區(qū)402a經(jīng)選擇(經(jīng)啟用),且其它三個(gè)區(qū)402b到402d經(jīng)禁用。

為了完成圖4中所描繪的音頻處理,由用戶經(jīng)由gui輸入兩種類型的參數(shù)。這些參數(shù)為:

扇段邊界及區(qū)邊界—這些邊界可為按扇段邊界及區(qū)邊界所位于的單位圓的度數(shù)計(jì)的鍵入角。這些邊界可由用戶在音頻記錄期間或在音頻播放期間實(shí)時(shí)改變。

區(qū)啟用—關(guān)于是否啟用特定區(qū)的信息。用戶可在記錄期間或在播放期間實(shí)時(shí)選擇或不選擇區(qū)。

基于來自gui的區(qū)啟用信息,針對經(jīng)啟用扇段中的每一者產(chǎn)生掩蔽窗。確定哪些扇段或其部分經(jīng)啟用需要將經(jīng)啟用區(qū)映射到扇段。此情形取決于扇段邊界及區(qū)邊界。在已知來自gui的用戶配置的情況下,可根據(jù)以下方法做出經(jīng)啟用區(qū)屬于某一聲道扇段還是其組合的決策。參看圖4的音頻空間400說明所述方法。因此,如下文所論述,方法決定經(jīng)啟用區(qū)401屬于左聲道扇段405、右聲道扇段407還是兩者的組合。

示范性方法如下進(jìn)行。首先針對每一角度以1度為步長將區(qū)啟用信息轉(zhuǎn)換成0及1。舉例來說,考慮以下狀況:其中,通過如圖4中所展示的扇段邊界406配置僅啟用圖4的頂部區(qū)401。

如下產(chǎn)生360×1矩陣:

如果角度為經(jīng)啟用區(qū)的部分,那么所述角度下的矩陣=1

如果角度并非經(jīng)啟用區(qū)的部分,那么所述角度下的矩陣=0。

以此方式,基于經(jīng)啟用區(qū)信息產(chǎn)生0及1的360×1矩陣。所述矩陣可存儲(chǔ)于音頻處理系統(tǒng)中且供一或多個(gè)軟件程序用于執(zhí)行方法。

接著,針對每一聲道扇段405、407,需要獲得掩蔽窗的開始點(diǎn)及結(jié)束點(diǎn)。為了對右聲道扇段407進(jìn)行此操作,方法從90度邊界開始且向上遞增1度地搜索矩陣,直到其命中(hit)存儲(chǔ)于矩陣中的第一個(gè)1為止。在實(shí)例空間400中,第一個(gè)1可見于矩陣中225度的角度。方法將此點(diǎn)視為用于右聲道扇段的掩蔽窗的開始點(diǎn)。接下來,方法繼續(xù)依序搜索矩陣中的0,直到其到達(dá)270度的第二扇段邊界(所述邊界為右聲道扇段邊界)為止。將出現(xiàn)第一個(gè)0的角度視為用于右聲道的掩蔽窗的結(jié)束。如果直到270度邊界之后矩陣中仍未出現(xiàn)0,那么將左聲道扇段的開始點(diǎn)(在此狀況下為315度)視為右聲道扇段掩蔽窗的結(jié)束點(diǎn)。

以類似方式,執(zhí)行左聲道掩蔽窗的開始點(diǎn)及結(jié)束點(diǎn)??蓮?70度的扇段邊界開始,逆時(shí)針方向地執(zhí)行對左聲道扇段的依序矩陣搜索以獲得1的第一次命中及0的第一次命中,直到到達(dá)90度邊界為止。

如果經(jīng)啟用區(qū)401共享扇段邊界(如同在圖4中的情形),那么方法將所連接扇段視為一個(gè)扇段。在此狀況下,最外經(jīng)啟用區(qū)邊界變成扇段邊界。因此,根據(jù)方法,扇段邊界在某一情況下可重疊。舉例來說,在圖4的音頻輸出場景400中,出于計(jì)算左聲道掩蔽窗的目的,將左聲道扇段邊界擴(kuò)展到225度而非270度。相反地,出于計(jì)算右聲道掩蔽窗的目的,將右聲道扇段邊界擴(kuò)展到315度而非270度。

接下來,在確定扇段邊界的情況下,使用掩蔽窗計(jì)算每頻率區(qū)間每幀的增益,如上文結(jié)合圖1到3所論述。在圖4的實(shí)例音頻空間中,可針對具有介于225°與315°之間的doaθ的音頻幀計(jì)算以0度為中心的左聲道掩蔽函數(shù);且可針對具有介于225°與315°之間的相關(guān)聯(lián)doaθ的音頻幀計(jì)算以180度為中心的右聲道掩蔽函數(shù)。

圖5為說明實(shí)例音頻輸出空間500的概念圖,其中音頻空間500的兩個(gè)不相交區(qū)502a、502b由用戶啟用且音頻空間的其它區(qū)504a、504b經(jīng)禁用。經(jīng)用戶啟用區(qū)通過邊界503a到503d界定。此處存在屬于左聲道扇段405的兩個(gè)經(jīng)用戶啟用區(qū)502a、502b及屬于右聲道扇段407的一個(gè)區(qū)502a。gui可用以鍵入關(guān)于區(qū)及扇段邊界以及區(qū)啟用的信息,如結(jié)合圖4所描述。上文結(jié)合圖4所描述的矩陣搜索方法可用以確定左聲道掩蔽窗及右聲道掩蔽窗兩者的開始點(diǎn)及結(jié)束點(diǎn)。

在此狀況下,如上文結(jié)合圖4所論述般產(chǎn)生右聲道掩蔽窗。針對左聲道,產(chǎn)生兩個(gè)掩蔽窗,每一經(jīng)啟用區(qū)502a到502b一個(gè)掩蔽窗。接著將應(yīng)用于左聲道的累積掩蔽窗增益計(jì)算為,

gainleft=gain1+gain2(等式7)

gain1—根據(jù)第一經(jīng)啟用區(qū)502a的增益,如使用左聲道掩蔽窗函數(shù)計(jì)算。

gain2—根據(jù)第二經(jīng)啟用區(qū)502b的增益,如使用左聲道掩蔽窗函數(shù)計(jì)算。

在此情境中,針對任一給定doa,兩個(gè)左聲道增益中的一者或兩者始終為零。

針對圖4及5的上述描述假定立體聲輸出。然而,這些圖中所描繪的音頻處理技術(shù)可應(yīng)用于m個(gè)輸出聲道(例如,扇段),例如,可根據(jù)類似于上文所論述的那些技術(shù)的技術(shù)產(chǎn)生五聲道或七聲道環(huán)繞立體聲輸出。差異為:代替計(jì)算兩個(gè)掩蔽窗增益(左聲道及右聲道各一個(gè)掩蔽窗增益),計(jì)算五個(gè)或七個(gè)掩蔽窗增益,對應(yīng)聲道中的每一者一個(gè)掩蔽窗增益。

圖6a到b為說明八個(gè)不同操作情境600a到600h期間的實(shí)例多聲道音頻場景空間600的概念圖,其中各個(gè)區(qū)608、610、612、614由用戶選擇性地啟用或禁用。用于根據(jù)本文中所描述的方法記錄及處理音頻的裝置602居中定位于空間600內(nèi)。裝置可為具有用于顯示gui的屏幕607及多個(gè)麥克風(fēng)604a到604c的例如蜂窩式電話或智能電話的手持式裝置。gui可供用戶用以輸入關(guān)于扇段、扇段邊界、區(qū)、區(qū)邊界及區(qū)啟用選擇的信息。

在通過圖6a到b描繪的實(shí)例中,裝置602可根據(jù)由裝置602的用戶設(shè)置的配置劃分音頻場景600。在所展示的實(shí)例中,將音頻場景600劃分成五個(gè)聲道扇段,如通過扇段邊界606a到606e指示。扇段配置對應(yīng)于五聲道環(huán)繞立體聲系統(tǒng),其具有中心(c)聲道擴(kuò)音器620a、右(r)聲道擴(kuò)音器620b、環(huán)繞聲右(sr)聲道擴(kuò)音器620c、環(huán)繞聲左(sl)聲道擴(kuò)音器620d、左(l)聲道擴(kuò)音器620e??墒褂闷渌榷?擴(kuò)音器)配置,例如七聲道輸出。

根據(jù)結(jié)合圖1到5及10到11所描述的技術(shù),通過一或多個(gè)掩蔽窗函數(shù)處理經(jīng)用戶啟用區(qū)(經(jīng)聚焦區(qū)域)。掩蔽窗中的每一者可對對應(yīng)扇段擴(kuò)音器的位置給予單位一增益且可給予恰當(dāng)滾降(例如,圖2的分段余弦函數(shù))以抑制來自屬于其它擴(kuò)音器聲道扇段的經(jīng)禁用區(qū)或方向的聲音。

在第一操作情境600a中,左側(cè)區(qū)608(黑暗陰影)經(jīng)啟用以用于音頻捕獲/播放,且其它區(qū)610到614(線陰影)經(jīng)禁用???例如)由用戶經(jīng)由gui輸入來完成啟用/禁用選擇,如參看圖4所描述。結(jié)合圖4所描述的方法可用以確定此情境中欲應(yīng)用于所記錄音頻的掩蔽窗函數(shù)的開始點(diǎn)及結(jié)束點(diǎn)。接著可將掩蔽窗應(yīng)用于音頻,如結(jié)合圖1到3所描述。以此方式,將位于經(jīng)啟用區(qū)608中的聲源聚焦,同時(shí)抑制經(jīng)禁用區(qū)中的聲源。

在第二操作情境600b中,左側(cè)區(qū)608及右側(cè)區(qū)612(均為黑暗陰影)經(jīng)啟用以用于音頻捕獲/播放,且其它區(qū)610、614(線陰影)經(jīng)禁用???例如)由用戶經(jīng)由gui輸入來完成啟用/禁用選擇,如參看圖4所描述。結(jié)合圖4所描述的方法可用以確定此情境中欲應(yīng)用于所記錄音頻的掩蔽窗函數(shù)的開始點(diǎn)及結(jié)束點(diǎn)。接著可將掩蔽窗應(yīng)用于音頻,如結(jié)合圖1到3所描述。以此方式,將位于經(jīng)啟用區(qū)608、612中的聲源聚焦,同時(shí)抑制經(jīng)禁用區(qū)610、614中的聲源。

在第三操作情境600c中,頂部區(qū)610及底部區(qū)614(黑暗陰影)經(jīng)啟用以用于音頻捕獲/播放,且其它區(qū)608、612(線陰影)經(jīng)禁用。可(例如)由用戶經(jīng)由gui輸入來完成啟用/禁用選擇,如參看圖4所描述。結(jié)合圖4到5所描述的方法可用以確定此情境中欲應(yīng)用于所記錄音頻的掩蔽窗函數(shù)的開始點(diǎn)及結(jié)束點(diǎn)。接著可將掩蔽窗應(yīng)用于音頻,如結(jié)合圖1到3所描述。以此方式,將位于經(jīng)啟用區(qū)610、614中的聲源聚焦,同時(shí)抑制經(jīng)禁用區(qū)608、612中的聲源。

在第四操作情境600d中,左側(cè)區(qū)608、頂部區(qū)610及右側(cè)區(qū)612(黑暗陰影)經(jīng)啟用以用于音頻捕獲/播放,且剩余區(qū)614(線陰影)經(jīng)禁用???例如)由用戶經(jīng)由gui輸入來完成啟用/禁用選擇,如參看圖4所描述。結(jié)合圖4所描述的方法可用以確定此情境中欲應(yīng)用于所記錄音頻的掩蔽窗函數(shù)的開始點(diǎn)及結(jié)束點(diǎn)。接著可將掩蔽窗應(yīng)用于音頻,如結(jié)合圖1到3所描述。以此方式,將位于經(jīng)啟用區(qū)608到612中的聲源聚焦,同時(shí)抑制經(jīng)禁用區(qū)614中的聲源。

應(yīng)以類似于先前所描述的情境600a到600d的方式來理解圖6b的剩余操作情境600e到600h,其中實(shí)心陰影區(qū)描繪經(jīng)啟用區(qū)且線陰影區(qū)描繪禁用區(qū)。

圖7a到b為說明八個(gè)不同操作情境700a到700h期間的實(shí)例立體聲音頻場景空間700的概念圖,其中各個(gè)區(qū)608到614由用戶選擇性地啟用或禁用。用于根據(jù)本文中所描述的方法記錄及處理音頻的裝置602居中定位于空間700內(nèi)。裝置gui可供用戶用以輸入關(guān)于扇段、扇段邊界、區(qū)、區(qū)邊界及區(qū)啟用選擇的信息。

在通過圖7描繪的實(shí)例中,裝置602根據(jù)經(jīng)由裝置gui配置的用戶邊界選擇將音頻空間700劃分成兩個(gè)聲道扇段(立體聲輸出),如通過扇段邊界712指示。扇段分別對應(yīng)于左(l)聲道擴(kuò)音器720及右(r)聲道擴(kuò)音器722。

根據(jù)結(jié)合圖1到4及10到11所描述的技術(shù),通過一或多個(gè)掩蔽窗處理經(jīng)用戶啟用區(qū)(經(jīng)聚焦區(qū)域)。掩蔽窗中的每一者可對對應(yīng)扇段擴(kuò)音器的位置給予單位一增益且可給予恰當(dāng)滾降(例如,圖2的分段余弦函數(shù))以抑制來自屬于其它擴(kuò)音器聲道扇段的經(jīng)禁用區(qū)或方向的聲音。

在第一操作情境700a中,左側(cè)區(qū)608(黑暗陰影)經(jīng)啟用以用于音頻捕獲/播放,且其它區(qū)610到614(線陰影)經(jīng)禁用。可(例如)由用戶經(jīng)由gui輸入來完成啟用/禁用選擇,如參看圖4所描述。結(jié)合圖4所描述的方法可用以確定此情境中欲應(yīng)用于所記錄音頻的掩蔽窗函數(shù)的開始點(diǎn)及結(jié)束點(diǎn)。接著可將掩蔽窗應(yīng)用于音頻,如結(jié)合圖1到3所描述。以此方式,可將位于經(jīng)啟用區(qū)608中的聲源聚焦,同時(shí)抑制經(jīng)禁用區(qū)610到614中的那些聲源。

在第二操作情境700b中,左側(cè)區(qū)608及右側(cè)區(qū)612(黑暗陰影)經(jīng)啟用以用于音頻捕獲/播放,且其它區(qū)610、614(線陰影)經(jīng)禁用???例如)由用戶經(jīng)由gui輸入來完成啟用/禁用選擇,如參看圖4所描述。結(jié)合圖4所描述的方法可用以確定此情境中欲應(yīng)用于所記錄音頻的掩蔽窗函數(shù)的開始點(diǎn)及結(jié)束點(diǎn)。接著可將掩蔽窗應(yīng)用于音頻,如結(jié)合圖1到3所描述。以此方式,將位于經(jīng)啟用區(qū)608、612中的聲源聚焦,同時(shí)抑制經(jīng)禁用區(qū)610、614中的聲源。

在第三操作情境700c中,頂部區(qū)610及底部區(qū)614(黑暗陰影)經(jīng)啟用以用于音頻捕獲/播放,且其它區(qū)608、612(線陰影)經(jīng)禁用???例如)由用戶經(jīng)由gui輸入來完成啟用/禁用選擇,如參看圖4所描述。結(jié)合圖4到5所描述的方法可用以確定此情境中欲應(yīng)用于所記錄音頻的掩蔽窗函數(shù)的開始點(diǎn)及結(jié)束點(diǎn)。接著可將掩蔽窗應(yīng)用于音頻,如結(jié)合圖1到3所描述。以此方式,將位于經(jīng)啟用區(qū)610、614中的聲源聚焦,同時(shí)抑制經(jīng)禁用區(qū)608、612中的聲源。

在第四操作情境700d中,左側(cè)區(qū)608、頂部區(qū)610及右側(cè)區(qū)612(黑暗陰影)經(jīng)啟用以用于音頻捕獲/播放,且剩余區(qū)614(線陰影)經(jīng)禁用。可(例如)由用戶經(jīng)由gui輸入來完成啟用/禁用選擇,如參看圖4所描述。結(jié)合圖4所描述的方法可用以確定此情境中欲應(yīng)用于所記錄音頻的掩蔽窗函數(shù)的開始點(diǎn)及結(jié)束點(diǎn)。接著可將掩蔽窗應(yīng)用于音頻,如結(jié)合圖1到3所描述。以此方式,將位于經(jīng)啟用區(qū)608到612中的聲源聚焦,同時(shí)抑制經(jīng)禁用區(qū)614中的聲源。

將以類似于先前所描述的情境700a到700d的方式理解圖7b的剩余操作情境700e到700h,其中實(shí)心陰影區(qū)描繪經(jīng)啟用區(qū)且線陰影區(qū)描繪禁用區(qū)。

依據(jù)保留區(qū)域化提示進(jìn)行經(jīng)改進(jìn)場景渲染可能為有可能的,其中立體聲向下混頻另外供圖7的場景700中所展示的裝置602使用。

可將上文所描述的方法擴(kuò)展到立體聲向下混頻,其限制條件為:用于立體聲脈沖響應(yīng)的數(shù)據(jù)庫足夠密集以足夠圍繞裝置602進(jìn)行360度取樣。由于本文中所揭示的技術(shù)可針對任何種類的擴(kuò)音器設(shè)置產(chǎn)生多聲道音頻輸出,因此可將此音頻輸出用作到立體聲向下混頻的輸入。通過向下混頻計(jì)算各自在所指明擴(kuò)音器位置處的對應(yīng)立體聲回應(yīng)。

圖8為說明手持式裝置802周圍的實(shí)例音頻場景800的概念圖,其中對應(yīng)于手持式裝置802的后置攝像機(jī)808的音頻區(qū)經(jīng)啟用。裝置802可為蜂窩式電話或智能電話,或任何其它移動(dòng)裝置。在此實(shí)例中,裝置802充當(dāng)記錄用于立體聲輸出的音頻的方向性編碼的音頻捕獲裝置。方向性編碼是基于攝像機(jī)操作。

裝置802包含用于捕獲場景中的音頻的多個(gè)麥克風(fēng)806及用于顯示gui的顯示屏幕804,gui經(jīng)配置以允許用戶操作攝像機(jī)808,包含例如變焦功能的攝像機(jī)特征。攝像機(jī)808可為靜態(tài)攝像機(jī)或視頻攝像機(jī)。

在場景800中,邊界818界定具有左(l)聲道擴(kuò)音器820的左聲道扇段及具有右(r)聲道擴(kuò)音器822的右聲道扇段。在音頻捕獲/播放期間,裝置802應(yīng)用掩蔽窗函數(shù)821、823,如結(jié)合圖1到3所描述??扇Q于攝像機(jī)808的操作而啟用或禁用可選擇區(qū)810、812、814及816。在所展示的實(shí)例中,當(dāng)攝像機(jī)808經(jīng)啟動(dòng)時(shí),頂部區(qū)812經(jīng)啟用(實(shí)心陰影),而其它區(qū)810、814及816經(jīng)禁用(線陰影)。此情形聚焦攝像機(jī)前方的場景上的音頻記錄且抑制其它區(qū)中的聲音。結(jié)合圖4所描述的方法可用以將經(jīng)啟用區(qū)映射到左聲道扇段及右聲道扇段。

如圖9中所展示,裝置802可由用戶在后置攝像機(jī)808與前置攝像機(jī)902之間切換。因此,音頻的塑形是基于捕獲裝置802的操作模式?;诤笾?前置攝像機(jī)選擇,裝置802在頂部區(qū)812與底部區(qū)816之間切換經(jīng)聚焦音頻區(qū)。圖9為說明裝置802周圍的實(shí)例音頻輸出空間900的概念圖,其中對應(yīng)于手持式裝置82的前置攝像機(jī)902的音頻區(qū)816由于前置攝像機(jī)902經(jīng)啟動(dòng)而經(jīng)啟用。

前置攝像機(jī)及后置攝像機(jī)808、902兩者可具有變焦特征。裝置802可經(jīng)配置以使得頂部區(qū)812及底部區(qū)816的角寬度可取決于攝像機(jī)變焦操作。舉例來說,當(dāng)后置攝像機(jī)808經(jīng)啟動(dòng)時(shí),按比例放大可使得經(jīng)啟用頂部區(qū)812的角寬度減小,以使得音頻記錄更狹窄地聚焦于變焦操作的對象上。相反地,當(dāng)攝像機(jī)808經(jīng)按比例縮小時(shí),經(jīng)啟用頂部區(qū)812的角寬度可增加。替代地/另外,取決于攝像機(jī)變焦操作,可將額外增益應(yīng)用于音頻聲道。通過應(yīng)用額外增益,隨著變焦增加,立體聲音頻變得更像具有居中定位的影像的單聲道。針對前置攝像機(jī)902,同樣可包含相同的音頻變焦功能。

圖10為根據(jù)本文中所揭示技術(shù)的用于對音頻輸出進(jìn)行塑形的示范性系統(tǒng)1000的框圖。系統(tǒng)1000包含耦合到一或多個(gè)音頻揚(yáng)聲器1008的裝置1001。裝置1001可為音頻捕獲裝置、音頻渲染裝置或兩種類型裝置的組合。舉例來說,裝置1001可為機(jī)頂盒、影院音響系統(tǒng)、汽車音響系統(tǒng)、移動(dòng)裝置(例如,蜂窩式電話或智能電話)、視頻攝像機(jī)、靜態(tài)攝像機(jī)、兩種類型的攝像機(jī)的組合或其類似者。裝置1001包含與gui1004及音頻播放模塊1006通信的音頻處理器1002。音頻處理器1002包含掩蔽產(chǎn)生器1005。音頻處理器1002根據(jù)上文結(jié)合圖1到5所描述的方法及技術(shù)接收及處理經(jīng)方向性編碼(空間)音頻數(shù)據(jù)1010。掩蔽產(chǎn)生器1005可根據(jù)本文中所描述的方法產(chǎn)生一或多個(gè)掩蔽窗函數(shù)及此些函數(shù)的音頻輸出。

經(jīng)方向性編碼音頻1010可由裝置1001產(chǎn)生或由其它記錄裝置或系統(tǒng)提供。裝置可包含用于存儲(chǔ)經(jīng)方向性編碼音頻1010的存儲(chǔ)器(未展示)。

gui1004可呈現(xiàn)于包含于裝置1001中的顯示器(未展示)上。gui1004可準(zhǔn)許用戶執(zhí)行如本文中所描述的功能及控制操作(包含鍵入數(shù)據(jù),例如扇段邊界、區(qū)邊界及經(jīng)啟用區(qū)選擇),以及音頻處理器1002及播放模塊1006的控制操作。因此,gui1004基于用戶輸入(例如,手勢、捏合、觸摸或其類似者)而準(zhǔn)許使用本文中所描述方法進(jìn)行自定義音頻塑形。gui1004還可提供用戶接口以控制其它裝置操作,例如攝像機(jī)操作,包含結(jié)合圖8到9所描述的那些操作。

播放模塊1006從音頻處理器1002接收經(jīng)處理的音頻數(shù)據(jù)且將其渲染成適合于由揚(yáng)聲器1008輸出的形式。模塊1006可包含一或多個(gè)音頻d/a轉(zhuǎn)換器、濾波器、音頻放大器及其類似者。

圖11為說明根據(jù)本文中所揭示技術(shù)的對數(shù)字音頻數(shù)據(jù)進(jìn)行塑形的方法1050的流程圖。方法1050大體上描述圖10中所展示的音頻處理器1002的操作。在方框1052中,接收經(jīng)方向性編碼音頻。所接收音頻數(shù)據(jù)包含用于在合適聲音渲染系統(tǒng)上播放音頻的信息,及關(guān)于音頻場景中的聲源的位置的信息??墒褂媒Y(jié)合圖12到15所描述的技術(shù)方向性地編碼音頻。經(jīng)方向性編碼或空間音頻可包含識別所接收每一音頻幀的doa的信息。

在方框1054中,接收音頻扇段邊界。可由用戶經(jīng)由gui(例如,gui1004)輸入音頻扇段邊界。扇段邊界可指示單位圓上的角位置,如(例如)圖1到2中所說明。

在方框1056中,接收一或多個(gè)經(jīng)啟用區(qū)選擇。經(jīng)啟用區(qū)選擇可由用戶經(jīng)由gui(例如,gui1004)輸入。經(jīng)啟用區(qū)可指示單位圓上的角位置,如結(jié)合圖4到5所描述。替代地,經(jīng)啟用區(qū)選擇可基于裝置的操作模式(例如,如圖8到9中所展示),其中經(jīng)啟用區(qū)取決于啟用裝置的前置攝像機(jī)還是后置攝像機(jī),或攝像機(jī)的變焦設(shè)置。

在方框1058中,根據(jù)結(jié)合圖1到3所描述的方法,基于扇段邊界產(chǎn)生一或多個(gè)掩蔽窗函數(shù)。

在方框1060中,基于經(jīng)啟用區(qū)(如結(jié)合圖4到5所描述)將掩蔽窗應(yīng)用于所接收的經(jīng)方向性編碼音頻以產(chǎn)生經(jīng)聚焦或經(jīng)塑形音頻輸出。接著可渲染經(jīng)聚焦音頻輸出數(shù)據(jù)以用于經(jīng)由擴(kuò)音器、耳機(jī)或任何其它合適渲染構(gòu)件播放。

參看圖12,展示可操作以執(zhí)行多聲道音頻產(chǎn)生及確定聲源到達(dá)方向(doa)的系統(tǒng)1100的特定說明性實(shí)例。系統(tǒng)1100可用以產(chǎn)生經(jīng)方向性編碼音頻數(shù)據(jù)1010。因此,系統(tǒng)1100可與裝置1002或本文中所描述的其它裝置602、802、1604中的任一者組合或結(jié)合其一起使用。

系統(tǒng)1100包含裝置1102。裝置1102可包含或耦合到多個(gè)麥克風(fēng)(例如,多麥克風(fēng)陣列)。舉例來說,多麥克風(fēng)陣列可包含第一麥克風(fēng)1104a、第二麥克風(fēng)1104b及第三麥克風(fēng)1104c。盡管圖12說明三個(gè)麥克風(fēng),但裝置1102可耦合到大于三個(gè)麥克風(fēng)。裝置1102輸出經(jīng)方向性編碼或空間音頻數(shù)據(jù)作為音頻信號1110。

多麥克風(fēng)陣列可與空間選擇性濾波器一起用以針對一或多個(gè)來源方向中的每一者產(chǎn)生單聲道聲音。更重要地,多麥克風(fēng)陣列還可用以支持以二維或三維方式進(jìn)行的空間、方向性音頻編碼??赏ㄟ^如本文中所描述的多麥克風(fēng)陣列支持的空間音頻編碼方法的實(shí)例包含5.1環(huán)繞聲、7.1環(huán)繞聲、杜比(dolby)環(huán)繞聲、杜比定向邏輯環(huán)繞聲(dolbypro-logic)或任何其它相位振幅矩陣立體聲格式;杜比數(shù)字、dts或任何離散多聲道格式;以及波場合成。五聲道編碼的一個(gè)實(shí)例包含左聲道、右聲道、中心聲道、左環(huán)繞聲聲道及右環(huán)繞聲聲道。

盡管圖12說明耦合到三個(gè)麥克風(fēng)的裝置1102,但裝置1102可耦合到或可包含多于三個(gè)麥克風(fēng)。裝置1102可包含或耦合到顯示器1106、耳機(jī)或顯示器1106與耳機(jī)兩者。裝置1102可包含音頻分析器1114及gui數(shù)據(jù)1150。

在操作期間,音頻分析器1114可從麥克風(fēng)(例如,麥克風(fēng)1104a到1104c)接收第一多個(gè)輸入信號(例如,輸入信號1108)。舉例來說,音頻分析器1114可從第一麥克風(fēng)1104a接收第一輸入信號1108a,可從第二麥克風(fēng)1104b接收第二輸入信號1108b,且可從第三麥克風(fēng)1104c接收第三輸入信號1108c。輸入信號1108可對應(yīng)于音頻場景中的一或多個(gè)聲源。舉例來說,用戶118可能在海灘上正握持裝置1102(例如,移動(dòng)裝置)。輸入信號1108可對應(yīng)于波浪聲、風(fēng)聲、交通聲、人聲、狗聲等。

音頻分析器1114可產(chǎn)生圖形用戶接口(gui)1120。舉例來說,用戶118可通過選擇顯示器1106處所顯示的特定圖標(biāo)或通過講出語音命令來啟動(dòng)音頻產(chǎn)生應(yīng)用程序或音頻處理應(yīng)用程序。音頻分析器1114可響應(yīng)于接收到對特定圖示的選擇或響應(yīng)于接收到語音命令而產(chǎn)生gui1120。gui1120可為交互式的。舉例來說,gui1120可包含一或多個(gè)可選擇選項(xiàng)(例如,可選擇選項(xiàng)1140)。用戶1118可選擇可選擇選項(xiàng)中的至少一者且音頻分析器1114可基于所述選擇從輸入信號1108產(chǎn)生音頻信號1110。舉例來說,可選擇選項(xiàng)1140可包含噪聲抑制選項(xiàng),可對應(yīng)于特定聲道圖標(biāo),可包含刪除選項(xiàng),可包含方向選項(xiàng),可包含特定增益選項(xiàng),可包含數(shù)個(gè)聲道選項(xiàng),可包含耳機(jī)選項(xiàng),或其組合。gui1120可與本文中所揭示的其它gui(例如,圖10的gui104)組合或結(jié)合所述其它gui操作。

音頻分析器1114可將gui1120提供到顯示器1106。用戶1118可選擇可選擇選項(xiàng)1140。舉例來說,音頻分析器1114可經(jīng)由輸入裝置(例如,鼠標(biāo)、鍵盤、觸摸屏等)從用戶1118接收選擇1130。在一個(gè)配置中,音頻分析器1114可將音頻信號1110作為經(jīng)方向性編碼音頻1010提供及/或?qū)⑵涮峁┑蕉鷻C(jī)。用戶1118可使用耳機(jī)來監(jiān)視音頻信號1110。舉例來說,用戶1118可偵測音頻信號1110的靜態(tài)噪聲水平且可選擇對應(yīng)于噪聲抑制選項(xiàng)的可選擇選項(xiàng)1140以減少隨后產(chǎn)生的音頻信號1110的靜態(tài)噪聲水平。

音頻分析器1114可使用2013年3月15日申請的標(biāo)題為“用于映射源位置的系統(tǒng)及方法(systemsandmethodsformappingasourcelocation)”的美國專利申請案第13/833,867號(下文中稱作“'867專利申請案”)中所描述的技術(shù)來確定輸入信號1108的到達(dá)方向信息及產(chǎn)生輸入信號1108的角度圖表示。

舉例來說,例如由音頻分析器1114執(zhí)行的產(chǎn)生經(jīng)方向性編碼多聲道信號(例如,音頻信號1110)的方法可包含:針對所接收多聲道輸入信號(例如,輸入信號1108)的多個(gè)不同頻率分量中的每一者,計(jì)算所接收多聲道信號的第一對聲道(例如,第一輸入信號1108a與第二輸入信號1108b)中的每一者的頻率分量的相位之間的差,以獲得多個(gè)相位差。方法還可包含:針對多個(gè)候選方向中的每一者,估計(jì)候選方向與基于多個(gè)相位差的矢量之間的誤差。多個(gè)相位差可指示所觀察的相位差。音頻分析器1114可確定對應(yīng)于候選方向的候選相位差。所估計(jì)誤差可指示所觀察的相位差與候選相位差之間的差。此方法還可包含:從多個(gè)候選方向當(dāng)中,選擇對應(yīng)于所估計(jì)誤差當(dāng)中的最小者的候選方向。在此方法中,所述第一對聲道中的每一者是基于由第一對麥克風(fēng)(例如,麥克風(fēng)1104a及1104c)中的對應(yīng)麥克風(fēng)產(chǎn)生的信號(例如,第一輸入信號1108a、第二輸入信號1108b或第三輸入信號1108c),且不同頻率分量中的至少一者具有小于第一對的麥克風(fēng)之間的距離的兩倍的波長。

可假定:在所發(fā)出聲場的近場區(qū)及遠(yuǎn)場區(qū)中,所發(fā)出聲場的波前分別為球形的及平面的。可將近場定義為距聲音接收器(例如,包含麥克風(fēng)1104a到1104c的麥克風(fēng)陣列)達(dá)小于一個(gè)波長的空間區(qū)。在此定義下,到區(qū)的邊界的距離與頻率成反比地變化。舉例來說,在兩百、七百或兩千赫茲的頻率下,到波長邊界的距離分別為約170厘米、49厘米及17厘米??紤]以下情形可為有用的:近場/遠(yuǎn)場邊界位于距麥克風(fēng)陣列特定距離處(例如,距陣列中的麥克風(fēng)或距陣列的形心達(dá)50厘米,或距陣列中的麥克風(fēng)或距陣列的形心達(dá)1米或1.5米)。

除確定傳入音頻的doa之外,音頻分析器1114還可對輸入信號1108執(zhí)行進(jìn)一步處理以產(chǎn)生音頻信號1110。舉例來說,音頻分析器1114可使用2012年10月31日申請的標(biāo)題為“通話期間的三維聲音壓縮及空中傳輸(three-dimensionalsoundcompressionandover-the-airtransmissionduringacall)”的美國專利申請案第13/664,687號(下文中稱作“'687專利申請案”)的參看至少圖10到17所描述的技術(shù)來處理輸入信號1108。在此狀況下,音頻分析器1114可從輸入信號1108產(chǎn)生數(shù)個(gè)不同方向聲道(例如,音頻信號1110),例如,以對輸入信號1108進(jìn)行向上混頻(upmix)。舉例來說,輸入信號1108可對應(yīng)于與第一數(shù)目個(gè)(例如,三個(gè))麥克風(fēng)(例如,麥克風(fēng)1104a到1104c)相關(guān)聯(lián)的第一數(shù)目個(gè)聲道。音頻信號1110可對應(yīng)于第二數(shù)目個(gè)聲道且第二數(shù)目可高于第一數(shù)目。舉例來說,針對5.1環(huán)繞立體聲方案,音頻信號1110可對應(yīng)于五個(gè)聲道。音頻分析器1114可對輸入信號1108進(jìn)行向上混頻以產(chǎn)生音頻信號110,以使得可使用具有第二數(shù)目個(gè)揚(yáng)聲器的揚(yáng)聲器陣列中的不同揚(yáng)聲器來播放音頻信號1110中的每一信號(或聲道)。音頻分析器1114可在對應(yīng)方向上應(yīng)用空間濾波(例如,一或多個(gè)波束成形器)以獲得經(jīng)向上混頻的聲道(例如,音頻信號1110)。音頻分析器1114可將多聲道編碼方案應(yīng)用于經(jīng)向上混頻的聲道(例如,杜比環(huán)繞聲的版本)。

此外,音頻分析器1114可另外通過在對應(yīng)方向上應(yīng)用空間濾波來處理輸入信號1108以獲得經(jīng)向下混頻的聲道(例如,音頻信號1110)。舉例來說,輸入信號1108可對應(yīng)于第三數(shù)目個(gè)麥克風(fēng)且第三數(shù)目可大于第二數(shù)目。

在一些配置中,音頻分析器1114還可通過將波束成形器1190應(yīng)用于輸入信號1108以產(chǎn)生音頻信號1110的每一特定音頻信號(或聲道)。波束成形器1190可對應(yīng)于與特定音頻信號(或聲道)相關(guān)聯(lián)的特定方向。舉例來說,音頻分析器1114可將第一波束成形器(例如,波束成形器1190)應(yīng)用于對應(yīng)于第一方向(例如,中心)的輸入信號1108以產(chǎn)生音頻信號1110的第一音頻信號(例如,中心聲道),可將第二波束成形器(例如,波束成形器1190)應(yīng)用于對應(yīng)于第二方向(例如,右方)的輸入信號1108以產(chǎn)生音頻信號1110的第二音頻信號(例如,右聲道),等等。

音頻分析器1114可通過基于接收到選擇1130而對輸入信號1108進(jìn)行濾波以產(chǎn)生經(jīng)濾波的信號。在此實(shí)例中,音頻分析器1114可處理(例如,向上混頻或向下混頻)經(jīng)濾波的信號以產(chǎn)生音頻信號1110。

gui數(shù)據(jù)1150可包含gui1120、輸入信號1108、音頻信號1110或其組合。音頻分析器1114可將gui數(shù)據(jù)1150存儲(chǔ)于耦合到裝置1102或包含于裝置1102中的存儲(chǔ)器中。音頻信號1110可經(jīng)壓縮且與輸入信號1108相比較來說可占據(jù)較少存儲(chǔ)器。舉例來說,如果用戶118預(yù)期經(jīng)由特定數(shù)目個(gè)揚(yáng)聲器播放所捕獲音頻,那么用戶1118可基于聲道數(shù)目選項(xiàng)產(chǎn)生對應(yīng)于特定數(shù)目個(gè)揚(yáng)聲器(或聲道)的音頻信號1110,可包含存儲(chǔ)于存儲(chǔ)器中的gui數(shù)據(jù)1150中的音頻信號1110,且可能并不將輸入信號1108存儲(chǔ)于存儲(chǔ)器中(例如,刪除對應(yīng)于輸入信號1108的存儲(chǔ)器或?qū)⑺龃鎯?chǔ)器標(biāo)記用于刪除)以節(jié)省存儲(chǔ)器使用量。

因此,系統(tǒng)1100可使得用戶能夠選擇圖形用戶接口的特定可選擇選項(xiàng)以從經(jīng)由多個(gè)麥克風(fēng)接收的輸入信號以互動(dòng)方式產(chǎn)生多聲道音頻信號。用戶可接收關(guān)于所產(chǎn)生的音頻信號的反饋。舉例來說,用戶可經(jīng)由耳機(jī)或擴(kuò)音器聽見音頻信號,或可經(jīng)由gui接收反饋。用戶可基于反饋挑選gui的可選擇選項(xiàng)以改變產(chǎn)生音頻信號的方式。因此,可改進(jìn)所產(chǎn)生音頻信號的用戶體驗(yàn)及質(zhì)量。

參看圖13,展示裝置1102的多個(gè)視圖。所述視圖包含正視圖1220、后視圖1230及側(cè)視圖1240。正視圖1220可對應(yīng)于裝置1102的包含顯示器1106的第一側(cè)。第一側(cè)可包含第一麥克風(fēng)1104a、第二麥克風(fēng)1104b、第三麥克風(fēng)1104c、聽筒1208、第一擴(kuò)音器1210a及第二擴(kuò)音器1210b。

后視圖1230可對應(yīng)于裝置1102的與第一側(cè)對置的第二側(cè)。第二側(cè)可包含攝像機(jī)1206、第四麥克風(fēng)1204d及第五麥克風(fēng)1204e。側(cè)視圖1240可對應(yīng)于裝置1102的連接第一側(cè)及第二側(cè)的第三側(cè)。

裝置1102(或圖12的音頻分析器1114)可經(jīng)配置以通過以下步驟來確定源信號的到達(dá)方向(doa):針對每一頻率區(qū)間測量麥克風(fēng)聲道(例如,第一輸入信號1108a與第二輸入信號1108b)之間的差(例如,相位差)以獲得方向的指示(或估計(jì)),及在所有頻率區(qū)間上對方向指示取平均值以確定所估計(jì)方向在所有頻率區(qū)間上是否一致。可用于追蹤的頻率區(qū)間的范圍可受對應(yīng)麥克風(fēng)對(例如,第一麥克風(fēng)1104a及第二麥克風(fēng)1104b)的空間混迭頻率約束。可將范圍的上限界定為源信號的波長為麥克風(fēng)1104a到1104b之間的距離d的兩倍時(shí)所處的頻率。

如上文所論述,音頻分析器1114可使用'867專利申請案中所描述的技術(shù)來確定對應(yīng)于麥克風(fēng)1104a到1104c及麥克風(fēng)1204d到1204e的輸入信號1108的到達(dá)方向信息及產(chǎn)生輸入信號1108的角度圖表示。

舉例來說,可通過增加可靠頻率區(qū)間的數(shù)目來獲得估計(jì)針對同時(shí)多個(gè)聲音事件的音頻信號的每一幀的三維到達(dá)方向(doa)的穩(wěn)健性??蛇m當(dāng)?shù)貙⑷绫疚闹兴枋龅某蓪σ痪S(1-d)方法并入到任何麥克風(fēng)幾何布置中。

音頻分析器1114可使用可用頻率區(qū)間(高到奈奎斯特頻率且低到較低頻率)來追蹤聲音的來源(例如,通過支持具有較大麥克風(fēng)間距離的麥克風(fēng)對的使用)。并非限于使用單一對用于追蹤,而是可實(shí)施此類方法以選擇所有可用對當(dāng)中的最佳對。此類方法可用以甚至在遠(yuǎn)場情境(高達(dá)3米到5米或更大的距離)中也支持來源追蹤,及提供更高doa分辨率。其它可能特征包含獲得有效來源的確切2-d表示。

音頻分析器1114可計(jì)算多聲道輸入信號(例如,輸入信號1108)的一對聲道之間的差。舉例來說,多聲道信號的每一聲道可基于由對應(yīng)麥克風(fēng)(例如,麥克風(fēng)1104a到1104c、1204d到1204e中的一者)產(chǎn)生的信號(例如,輸入信號1108中的第一輸入信號)。針對多個(gè)(k個(gè))候選方向當(dāng)中的每一者,音頻分析器1114可計(jì)算基于所計(jì)算差的對應(yīng)方向性誤差。基于k個(gè)方向性誤差,音頻分析器1114可選擇候選方向。

音頻分析器1114可將多聲道輸入信號(例如,輸入信號1108)處理為一系列片段或“幀”。片段長度的范圍可為從約五或十毫秒到約四十或五十毫秒,且片段可為重疊的(例如,其中鄰近片段重疊達(dá)25%或50%)或不重疊的。在特定實(shí)例中,將多聲道信號(例如,輸入信號1108)劃分成一系列不重疊片段或幀,每一者具有10毫秒的長度。在另一特定實(shí)例中,每一幀具有二十毫秒的長度。如由音頻分析器1114處理的片段還可為如通過不同操作處理的較大片段的片段(即,“子幀”),或反之亦然。

輸入聲道(例如,第一輸入信號1108a與第二輸入信號1108b)之間的差的實(shí)例包含增益差或比率、到達(dá)時(shí)間差及相位差。舉例來說,音頻分析器1114可將一對輸入信號(例如,第一輸入信號1108a與第二輸入信號1108b)的聲道之間的差計(jì)算為聲道的對應(yīng)增益值之間的差或比率(例如,量值或能量的差)。

音頻分析器1114可計(jì)算多聲道信號(例如,輸入信號1108)的片段在時(shí)域中(例如,針對所述信號的多個(gè)子頻帶中的每一者)或在頻域中(例如,針對所述信號在變換域(例如,快速傅立葉變換(fft)、離散余弦變換(dct)或經(jīng)修改的dct(mdct)域)中的多個(gè)頻率分量中的每一者)的增益的度量。此些增益度量的實(shí)例包含但不限于以下各者:總量值(例如,樣本值的絕對值總和)、平均量值(例如,每樣本)、均方根(rms)振幅、中位量值、峰值量值、峰值能量、總能量(例如,樣本值的平方和)及平均能量(例如,每樣本)。

為了用增益差技術(shù)獲得準(zhǔn)確結(jié)果,可相對于彼此校準(zhǔn)兩個(gè)麥克風(fēng)聲道(例如,第一輸入信號1108a與第二輸入信號1108b)的響應(yīng)。音頻分析器1114可將低通濾波器應(yīng)用于多聲道信號(例如,輸入信號1108)以使得增益度量的計(jì)算限于多聲道信號(例如,輸入信號1108)的音頻頻率分量。

音頻分析器1114可將增益之間的差計(jì)算為多聲道信號(例如,輸入信號1108)的每一聲道在對數(shù)域中的對應(yīng)增益度量值(例如,以分貝為單位的值)之間的差,或等效地,計(jì)算為線性域中的增益度量值之間的比率。針對經(jīng)校準(zhǔn)的麥克風(fēng)對(例如,麥克風(fēng)1104a到1104b),可采用零增益差來指示來源距每一麥克風(fēng)等距(即,位于所述對的邊射方向上),可采用具有大的正值的增益差來指示來源較接近于一個(gè)麥克風(fēng)(即,位于所述對的一個(gè)端射方向上),且可采用具有大的負(fù)值的增益差來指示所述來源較接近于另一麥克風(fēng)(即,位于所述對的另一端射方向上)。

在另一實(shí)例中,音頻分析器1114可對輸入聲道(例如,第一輸入信號1108a及第二輸入信號1108b)執(zhí)行交叉相關(guān)以例如通過基于多聲道信號(例如,輸入信號1108)的聲道之間的遲滯(lag)計(jì)算到達(dá)時(shí)間差來確定差。

在又一實(shí)例中,音頻分析器1114可將一對(例如,第一輸入信號1108a與第二輸入信號1108b)的聲道之間的差計(jì)算為每一聲道(例如,信號的特定頻率分量下)的相位之間的差。如本文中所描述,可對多個(gè)頻率分量當(dāng)中的每一者執(zhí)行此計(jì)算。

針對通過一對麥克風(fēng)(例如,麥克風(fēng)1104a到1104b)直接從相對于所述麥克風(fēng)對(例如,麥克風(fēng)1104a到1104b)的軸線的特定到達(dá)方向(doa)上的點(diǎn)源接收的信號,相位延遲可針對每一頻率分量而不同且還可取決于麥克風(fēng)1104a到1104b之間的間距。音頻分析器1114可將特定頻率分量(或“頻率區(qū)間”)下的相位延遲的所觀察值計(jì)算為復(fù)數(shù)fft系數(shù)的虛數(shù)項(xiàng)對復(fù)數(shù)fft系數(shù)的實(shí)數(shù)項(xiàng)的比率的反正切(inversetangent,也稱為arctangent)。

參看圖14a,展示平面波傳播的遠(yuǎn)場模型的圖且大體上將其指明為1300a。在圖14b中,展示麥克風(fēng)置放的實(shí)例的圖且大體上將其指明為1300b。麥克風(fēng)置放1300b可對應(yīng)于圖12的麥克風(fēng)1104a到1104c及圖13的第四麥克風(fēng)1204d的置放。

音頻分析器1114可使用'867專利申請案中所揭示的技術(shù)來確定對應(yīng)于麥克風(fēng)1104a到1104c及1204d的輸入信號1108的到達(dá)方向信息及產(chǎn)生輸入信號1108的角度圖表示。

舉例來說,遠(yuǎn)場模型1300a說明:特定頻率f下用于至少一個(gè)麥克風(fēng)(例如,麥克風(fēng)1104a到1104b)的來源s01的相位延遲值在遠(yuǎn)場(即,平面波)假定下可與來源doa有關(guān),如其中d表示麥克風(fēng)1104a到1104b之間的距離(以米為單位),θ表示相對于正交于陣列軸線的方向的到達(dá)角(以弧度為單位),f表示頻率(以赫茲(hz)為單位),且c表示聲速(以米/秒為單位)??蓪⒈疚闹兴枋龅膁oa估計(jì)原理擴(kuò)展到線性陣列中的多個(gè)麥克風(fēng)對(例如,如圖14b中所展示)。針對無混響的單一點(diǎn)源的狀況,相位延遲對頻率的比率將在所有頻率上具有相同值相對于麥克風(fēng)對(例如,麥克風(fēng)1104a到1104b)來說的doaθ為界定空間中的錐體的表面的一維測量值(例如,使得錐體的軸線為陣列的軸線)。

話音信號在時(shí)間-頻率域中可為稀疏的。如果輸入信號1108的來源在頻域中不相交,那么音頻分析器1114可同時(shí)追蹤兩個(gè)來源。如果來源在時(shí)域中不相交,那么音頻分析器1114可在相同頻率下追蹤兩個(gè)來源。裝置1102的麥克風(fēng)陣列可包含至少等于欲在任一時(shí)間加以區(qū)分的不同來源方向的數(shù)目的數(shù)目個(gè)麥克風(fēng)。麥克風(fēng)(例如,圖12的麥克風(fēng)1104a到1104c及麥克風(fēng)1204d到1204e)可為全向性的(例如,對于蜂窩式電話或?qū)S脮?huì)議裝置來說)或方向性的(例如,對于例如機(jī)頂盒的裝置來說)。

音頻分析器1114可計(jì)算針對所接收多聲道輸入信號(例如,輸入信號1108)的幀的doa估計(jì)。音頻分析器1114可在每一頻率區(qū)間下計(jì)算每一候選角相對于所觀察角的誤差,其通過相位延遲指示。彼頻率區(qū)間下的目標(biāo)角可為具有最小(或最少)誤差的候選者。在實(shí)例中,可跨越頻率區(qū)間對誤差進(jìn)行加總以獲得關(guān)于候選者的可能性的度量。在另一實(shí)例中,可將跨越所有頻率區(qū)間最頻繁出現(xiàn)的目標(biāo)doa候選者中的一或多者識別為針對給定幀的doa估計(jì)(或若干個(gè)估計(jì))。

音頻分析器1114可獲得實(shí)質(zhì)上瞬時(shí)追蹤結(jié)果(例如,具有小于1個(gè)幀的延遲)。延遲可取決于fft大小及重疊程度。舉例來說,針對具有50%重疊及16千赫(khz)的取樣頻率的512點(diǎn)fft,所得256樣本延遲可對應(yīng)于十六毫秒。音頻分析器1114可支持高達(dá)二到三米或甚至高達(dá)五米的來源-陣列距離的來源方向的差異化。

還可將誤差視為方差(即,個(gè)別誤差偏離預(yù)期值的程度)。將時(shí)域接收信號轉(zhuǎn)換成頻域(例如,通過應(yīng)用fft)具有對每一頻率區(qū)間中的頻譜取平均值的效應(yīng)。如果音頻分析器1114使用子頻帶表示(例如,梅爾(mel)標(biāo)度或巴克(bark)標(biāo)度),那么此取平均值可為更有效的。另外,音頻分析器1114可對doa估計(jì)執(zhí)行時(shí)域平滑化(例如,通過應(yīng)用回歸平滑器,例如一階無限脈沖響應(yīng)濾波器)。音頻分析器1114可降低誤差計(jì)算操作的計(jì)算復(fù)雜性(例如,通過使用搜索策略,例如二進(jìn)制樹,及/或應(yīng)用已知信息,例如來自一或多個(gè)先前幀的doa候選者選擇)。

即使可依據(jù)相位延遲來測量方向信息,但音頻分析器1114可獲得指示來源doa的結(jié)果。因此,音頻分析器1114可依據(jù)doa而非依據(jù)相位延遲計(jì)算k個(gè)doa候選者的清單(inventory)中的每一者在頻率f下的方向性誤差。

參看圖15,展示麥克風(fēng)的特定替代布置且大體上將其指明為1400。布置1400可對應(yīng)于圖12的系統(tǒng)1100的麥克風(fēng)。在此麥克風(fēng)布置1400的情況下,音頻分析器1114可使用'687專利申請案中所描述的技術(shù)從對應(yīng)于麥克風(fēng)1104a到1104c及1204d的輸入信號1108產(chǎn)生音頻信號1110。

舉例來說,圖12的音頻分析器1114可使用布置1400來使用四麥克風(fēng)(例如,麥克風(fēng)1104a到1104c及麥克風(fēng)1204d)設(shè)置近似對空間譯碼的一階捕獲??赏ㄟ^如本文中所描述的多麥克風(fēng)陣列支持的空間音頻編碼方法的實(shí)例還可包含最初可意欲與特定麥克風(fēng)(例如,環(huán)繞聲b格式或高級環(huán)繞聲格式)一起使用的方法。舉例來說,環(huán)繞聲編碼方案的經(jīng)處理的多聲道輸出可包含關(guān)于測量點(diǎn)的三維泰勒擴(kuò)展,可使用三維定位的麥克風(fēng)陣列(例如,對應(yīng)于布置1400)來將其近似至少高達(dá)一階。在更多麥克風(fēng)的情況下,可增加近似階數(shù)。根據(jù)實(shí)例,第二麥克風(fēng)1104b可在z方向上與第一麥克風(fēng)1104a分離達(dá)距離δz。第三麥克風(fēng)1104c可在y方向上與第一麥克風(fēng)1104a分離達(dá)距離δy。第四麥克風(fēng)1204d可在x方向上與第一麥克風(fēng)1104a分離達(dá)距離δx。

總之,可基于用戶選擇1130處理使用麥克風(fēng)1104a到1104c及/或1204d到1204e捕獲的音頻信號或/及對其進(jìn)行濾波(如參看圖12到15所描述),以獲得音頻幀的doa,且接著還根據(jù)參看圖1到11所描述的技術(shù)對其“進(jìn)行塑形”??稍诃h(huán)繞立體聲系統(tǒng)、耳機(jī)或其它設(shè)置中播放經(jīng)塑形的音頻信號以產(chǎn)生身臨其境的音響體驗(yàn)。

圖16為說明用于通過擴(kuò)音器1602a到1602g在播放系統(tǒng)中的實(shí)際位置來校準(zhǔn)音響渲染系統(tǒng)以使得可根據(jù)本文中所描述的技術(shù)對音頻進(jìn)行塑形以考慮實(shí)際揚(yáng)聲器位置的技術(shù)的概念圖。場景1600中所展示的系統(tǒng)為環(huán)繞立體聲7.1系統(tǒng)??墒褂靡韵路椒ㄐ?zhǔn)具有不同數(shù)目個(gè)擴(kuò)音器的其它系統(tǒng)。

用于在記錄位點(diǎn)與收聽空間1600之間進(jìn)行透明空間渲染的校準(zhǔn)方法如下進(jìn)行:

1.經(jīng)由左聲道揚(yáng)聲器1602a發(fā)送左聲道校準(zhǔn)信號。校準(zhǔn)信號可為預(yù)先定義的音調(diào)。

2.通過用戶1606所握持的用戶裝置1604獲得左擴(kuò)音器1602a的doa,且通過裝置1604記錄信號延遲以估計(jì)裝置1604與揚(yáng)聲器1602a之間的距離。裝置1102及結(jié)合圖12到15所描述的技術(shù)可包含于裝置1604中以使得可確定擴(kuò)音器1602a的doa。

3.對其它聲道1602b到1602g重復(fù)步驟1到2。

4.將關(guān)于每一擴(kuò)音器1602a到1602g的doa及距離信息傳遞到環(huán)繞立體聲記錄(ssr)系統(tǒng)。舉例來說,可將擴(kuò)音器距離及doa(位置)信息提供到裝置602、802、1001、1102中的任一者,所述裝置中的任一者可包含于裝置1604中。

5.當(dāng)用戶通過(例如)裝置1604處理、存儲(chǔ)或播放所記錄音頻剪輯時(shí),可通過此擴(kuò)音器位置信息實(shí)時(shí)處理所述音頻剪輯。實(shí)時(shí)處理可在音頻渲染階段中或在記錄階段進(jìn)行。

應(yīng)注意,通過此程序,音響系統(tǒng)可依據(jù)方向性渲染聽覺場景,所述方向性具有由用戶用相同裝置記錄的實(shí)際音響場景的高得多的方向保真度。

在常規(guī)系統(tǒng)中,校準(zhǔn)僅旨在補(bǔ)償擴(kuò)音器位置不匹配且其在實(shí)際源位置與經(jīng)補(bǔ)償?shù)脑次恢弥g引起不可避免的非線性映射失真。不同于常規(guī)音響系統(tǒng),本文中所描述的系統(tǒng)1600及技術(shù)以互逆(reciprocal)方式解決此問題,且因此,不存在非線性源位置映射不匹配。此情形改進(jìn)所記錄音頻場景與所渲染音頻場景之間的透明性。

應(yīng)理解,取決于實(shí)例,本文中所描述的諸方法中的任一者的某些動(dòng)作或事件可以不同順序執(zhí)行,可添加、合并或完全省去某些動(dòng)作或事件(例如,并非所有所描述動(dòng)作或事件為實(shí)踐方法所必要的)。此外,在某些實(shí)例中,可(例如)經(jīng)由多線程處理、中斷處理或多個(gè)處理器同時(shí)地而非依序地執(zhí)行動(dòng)作或事件。另外,雖然出于清晰的目的將本發(fā)明的某些方面描述為由單一模塊或組件執(zhí)行,但應(yīng)理解,本發(fā)明的技術(shù)可由與音響系統(tǒng)相關(guān)聯(lián)的組件或模塊的任何合適組合來執(zhí)行。

在一或多個(gè)實(shí)例中,所描述功能可以硬件、軟件、固件或其任何合適組合來實(shí)施。如果以軟件實(shí)施,那么功能可作為一或多個(gè)指令或程序代碼存儲(chǔ)于計(jì)算機(jī)可讀媒體上且由基于硬件的處理單元執(zhí)行。計(jì)算機(jī)可讀媒體可包含任何計(jì)算機(jī)可讀存儲(chǔ)媒體,包含數(shù)據(jù)存儲(chǔ)媒體,其可為可由一或多個(gè)計(jì)算機(jī)或一或多個(gè)處理器存取以檢索用于實(shí)施本發(fā)明中所描述的技術(shù)的指令、程序代碼及/或數(shù)據(jù)結(jié)構(gòu)的任何可用媒體。計(jì)算機(jī)程序產(chǎn)品可包含計(jì)算機(jī)可讀媒體。

以實(shí)例說明且并非限制,此些計(jì)算機(jī)可讀存儲(chǔ)媒體可包括ram、rom、eeprom、cd-rom或其它光盤存儲(chǔ)器、磁盤存儲(chǔ)器或其它磁性存儲(chǔ)裝置、快閃存儲(chǔ)器或可用于以指令或數(shù)據(jù)結(jié)構(gòu)的形式存儲(chǔ)所要程序代碼且可由計(jì)算機(jī)存取的任何其它媒體。如本文中所使用的磁盤及光盤包含光盤(cd)、激光光盤、光學(xué)光盤、數(shù)字通用光盤(dvd)、軟盤及藍(lán)光光盤,其中磁盤通常以磁性方式再生數(shù)據(jù),而光盤通過激光以光學(xué)方式再生數(shù)據(jù)。上述各者的組合還應(yīng)包含于計(jì)算機(jī)可讀媒體的范圍內(nèi)。

指令或程序代碼可由一或多個(gè)處理器執(zhí)行,例如一或多個(gè)數(shù)字信號處理器(dsp)、通用微處理器、專用集成電路(asic)、場可編程邏輯陣列(fpga)或其它等效集成或離散邏輯電路系統(tǒng)。因此,如本文中所使用的術(shù)語“處理器”可指前述結(jié)構(gòu)或適合于實(shí)施本文中所描述的技術(shù)的任何其它結(jié)構(gòu)中的任一者。另外,在一些方面中,本文中所描述的功能性可提供于經(jīng)配置以用于編碼及解碼或并入于組合式編碼解碼器中的專用硬件及/或軟件模塊內(nèi)。此外,技術(shù)可完全實(shí)施于一或多個(gè)電路(包含邏輯電路及/或邏輯組件)中。

本發(fā)明的技術(shù)可在廣泛多種裝置或設(shè)備(包含無線手機(jī)、個(gè)人計(jì)算機(jī)、機(jī)頂盒、會(huì)議系統(tǒng)、集成電路(ic)或ic組(例如,芯片組))中實(shí)施。在本發(fā)明中描述各種組件、模塊或單元以強(qiáng)調(diào)經(jīng)配置以執(zhí)行所揭示技術(shù)的裝置的功能方面,而未必需要由不同硬件單元實(shí)現(xiàn)。確切來說,如上文所描述,各種單元可組合于硬件單元中或通過互操作性硬件單元(包含如上文所描述的一或多個(gè)處理器)的集合結(jié)合合適軟件及/或固體提供。

已描述各種技術(shù)。這些及其它技術(shù)在以下權(quán)利要求書的范圍內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1