本發(fā)明涉及音頻信號處理,具體地,涉及用于基于所通知的空間濾波的一致聲學(xué)場景再現(xiàn)的系統(tǒng)、裝置和方法。
背景技術(shù):
在空間聲音再現(xiàn)中,利用多個麥克風(fēng)捕獲記錄位置(近端側(cè))處的聲音,然后使用多個揚(yáng)聲器或耳機(jī)在再現(xiàn)側(cè)(遠(yuǎn)端側(cè))再現(xiàn)。在許多應(yīng)用中,期望再現(xiàn)所記錄的聲音,使得在遠(yuǎn)端側(cè)重建的空間圖像與在近端側(cè)的原始空間圖像一致。這意味著例如聲源的聲音從源存在于原始記錄場景中的方向再現(xiàn)。備選地,當(dāng)例如視頻對所記錄的音頻進(jìn)行補(bǔ)充時,期望再現(xiàn)聲音,使得重建的聲學(xué)圖像與視頻圖像一致。這意味著例如聲源的聲音從源在視頻中可見的方向再現(xiàn)。另外,視頻相機(jī)可以配備有視覺縮放功能,或者在遠(yuǎn)端側(cè)的用戶可以對視頻應(yīng)用數(shù)字縮放,從而改變視覺圖像。在這種情況下,再現(xiàn)的空間聲音的聲學(xué)圖像將相應(yīng)地改變。在許多情況下,遠(yuǎn)端側(cè)確定應(yīng)與再現(xiàn)聲音一致的空間圖像在遠(yuǎn)端側(cè)或在回放期間(例如當(dāng)涉及視頻圖像時)被確定。因此,在近端側(cè)的空間聲音必須被記錄、處理和傳輸,使得在遠(yuǎn)端側(cè),我們?nèi)匀豢梢钥刂浦亟ǖ穆晫W(xué)圖像。
在許多現(xiàn)代應(yīng)用中需要再現(xiàn)與期望的空間圖像一致的所記錄的聲學(xué)場景的可能性。例如,諸如數(shù)字相機(jī)或移動電話之類的現(xiàn)代消費(fèi)者設(shè)備通常配備有視頻相機(jī)和多個麥克風(fēng)。這使得視頻能夠與空間聲音(例如立體聲)一起被記錄。當(dāng)與視頻一起再現(xiàn)記錄的音頻時,期望視覺和聲學(xué)圖像是一致的。當(dāng)用戶用相機(jī)放大時,期望在聲學(xué)上重新創(chuàng)建視覺縮放效果,使得在觀看視頻時視覺和聲學(xué)圖像是對齊的。例如,當(dāng)用戶放大人物時,隨著人物看起來更靠近相機(jī),該人物的聲音的混響應(yīng)越來越小。此外,人的語音應(yīng)當(dāng)從與人在視覺圖像中出現(xiàn)的方向相同的方向再現(xiàn)。在下文中聲學(xué)地模擬相機(jī)的視覺縮放被稱為聲學(xué)縮放,并且表示一致的音頻-視頻再現(xiàn)的一個示例。可能涉及聲學(xué)縮放的一致的音頻-視頻再現(xiàn)在電視會議中也是有用的,其中近端側(cè)的空間聲音在遠(yuǎn)端側(cè)與視覺圖像一起再現(xiàn)。此外,期望以聲學(xué)方式再現(xiàn)視覺縮放效果,使得視覺和聲學(xué)圖像對齊。
聲學(xué)縮放的第一種實(shí)現(xiàn)在[1]中提出,其中,通過增加二階定向麥克風(fēng)的方向性來獲得縮放效果,二階定向麥克風(fēng)的信號是基于線性麥克風(fēng)陣列的信號生成的。這種方法在[2]中被擴(kuò)展到立體聲縮放。在[3]中提出了最近的用于單聲道或立體聲縮放的方法,其包括改變聲源水平,使得來自正面方向的源被保留,而來自其他方向的源和擴(kuò)散聲音被衰減。[1]、[2]中提出的方法導(dǎo)致直達(dá)與混響比(DRR)的增加,并且[3]中的方法額外地允許抑制不期望的源。上述方法假設(shè)聲源位于相機(jī)的正面,但不旨在捕獲與視頻圖像一致的聲學(xué)圖像。
用于靈活的空間聲音記錄和再現(xiàn)的公知方法由定向音頻編碼(DirAC)表示[4]。在DirAC中,根據(jù)音頻信號和參數(shù)輔助信息(即,聲音的到達(dá)方向(DOA)和擴(kuò)散性)來描述近端側(cè)的空間聲音。參數(shù)描述使得能夠利用任意揚(yáng)聲器設(shè)置再現(xiàn)原始空間圖像。這意味著在遠(yuǎn)端側(cè)的重建空間圖像與在近端側(cè)在記錄期間的空間圖像一致。然而,如果例如視頻對記錄的音頻進(jìn)行補(bǔ)充,則再現(xiàn)的空間聲音不一定與視頻圖像對齊。此外,當(dāng)視覺圖像改變時,例如當(dāng)相機(jī)的觀看方向和縮放改變時,不能調(diào)整重建的聲學(xué)圖像。這意味著DirAC不提供將重建的聲學(xué)圖像調(diào)整為任意期望的空間圖像的可能性。
在[5]中,基于DirAC實(shí)現(xiàn)了聲學(xué)縮放。DirAC表示實(shí)現(xiàn)聲學(xué)縮放的合理基礎(chǔ),因?yàn)樗诤唵味鴱?qiáng)大的信號模型,該模型假設(shè)時域-頻域中的聲場由單個平面波加擴(kuò)散聲音組成。基礎(chǔ)模型參數(shù)(例如DOA和擴(kuò)散)被用來分離直達(dá)聲音和擴(kuò)散聲音,并產(chǎn)生聲學(xué)縮放效果??臻g聲音的參數(shù)描述使得能夠?qū)⒙曇魣鼍坝行У貍鬏數(shù)竭h(yuǎn)端側(cè),同時仍然向用戶提供對縮放效果和空間聲音再現(xiàn)的完全控制。即使DirAC使用多個麥克風(fēng)來估計(jì)模型參數(shù),也僅應(yīng)用單聲道濾波器來提取直達(dá)聲音和擴(kuò)散聲音,從而限制了再現(xiàn)聲音的質(zhì)量。此外,假設(shè)聲音場景中的所有源位于圓上,并且參考與視覺縮放不一致的音頻-視覺相機(jī)的改變位置來執(zhí)行空間聲音再現(xiàn)。實(shí)際上,縮放改變了相機(jī)的視角,而到視覺對象的距離和它們在圖像中的相對位置保持不變,這與移動相機(jī)相反。
相關(guān)的方法是所謂的虛擬麥克風(fēng)(VM)技術(shù)[6]、[7],其考慮與DirAC相同的信號模型,但允許在聲音場景中的任意位置合成不存在的(虛擬)麥克風(fēng)的信號。將VM朝向聲源移動類似于相機(jī)到新位置的移動。使用多聲道濾波器來實(shí)現(xiàn)VM以提高聲音質(zhì)量,但需要若干分布式麥克風(fēng)陣列來估計(jì)模型參數(shù)。
然而,提供用于音頻信號處理的進(jìn)一步改進(jìn)的構(gòu)思是非常有利的。
技術(shù)實(shí)現(xiàn)要素:
因此,本發(fā)明的目的是提供用于音頻信號處理的改進(jìn)的構(gòu)思。通過根據(jù)權(quán)利要求1所述的系統(tǒng)、根據(jù)權(quán)利要求14所述的裝置、根據(jù)權(quán)利要求15所述的方法、根據(jù)權(quán)利要求16所述的方法以及根據(jù)權(quán)利要求17所述的計(jì)算機(jī)程序來實(shí)現(xiàn)本發(fā)明的目的。
提供了一種用于生成一個或更多個音頻輸出信號的系統(tǒng)。所述系統(tǒng)包括分解模塊、信號處理器和輸出接口。分解模塊被配置為接收兩個或更多個音頻輸入信號,其中分解模塊被配置為生成包括所述兩個或更多個音頻輸入信號的直達(dá)信號分量在內(nèi)的直達(dá)分量信號,并且其中分解模塊被配置為生成包括所述兩個或更多個音頻輸入信號的擴(kuò)散信號分量在內(nèi)的擴(kuò)散分量信號。信號處理器被配置為接收直達(dá)分量信號、擴(kuò)散分量信號和方向信息,所述方向信息取決于所述兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向。此外,信號處理器被配置為根據(jù)擴(kuò)散分量信號生成一個或更多個經(jīng)處理的擴(kuò)散信號。對于一個或更多個音頻輸出信號的每個音頻輸出信號,信號處理器被配置為根據(jù)到達(dá)方向確定直達(dá)增益,并且信號處理器被配置為將所述直達(dá)增益應(yīng)用于所述直達(dá)分量信號以獲得經(jīng)處理的直達(dá)信號,且所述信號處理器被配置為將所述經(jīng)處理的直達(dá)信號與所述一個或更多個經(jīng)處理的擴(kuò)散信號中的一個擴(kuò)散信號進(jìn)行組合以生成所述音頻輸出信號。輸出接口被配置為輸出所述一個或更多個音頻輸出信號。信號處理器包括用于計(jì)算一個或更多個增益函數(shù)的增益函數(shù)計(jì)算模塊,其中所述一個或更多個增益函數(shù)中的每個增益函數(shù)包括多個增益函數(shù)自變量值,其中增益函數(shù)返回值被分配給每個所述增益函數(shù)自變量值,其中,當(dāng)所述增益函數(shù)接收到所述增益函數(shù)自變量值中的一個值時,其中所述增益函數(shù)被配置為返回分配給所述增益函數(shù)自變量值中的所述一個值的增益函數(shù)返回值。此外,信號處理器還包括信號修改器,用于根據(jù)到達(dá)方向從所述一個或更多個增益函數(shù)的增益函數(shù)中的增益函數(shù)自變量值中選擇取決于方向的自變量值,以用于從所述增益函數(shù)獲得分配給所述取決于方向的自變量值的增益函數(shù)返回值,并且用于根據(jù)從所述增益函數(shù)獲得的所述增益函數(shù)返回值來確定所述一個或更多個音頻輸出信號中的至少一個信號的增益值。
根據(jù)實(shí)施例,增益函數(shù)計(jì)算模塊可以例如被配置為針對所述一個或更多個增益函數(shù)的每個增益函數(shù)生成查找表,其中查找表包括多個條目,其中查找表的每個條目包括增益函數(shù)自變量值之一和被分配給所述增益函數(shù)自變量值的增益函數(shù)返回值,其中增益函數(shù)計(jì)算模塊可以例如被配置為將每個增益函數(shù)的查找表存儲在持久性或非持久性存儲器中,并且其中信號修改器可以例如被配置為通過從存儲在存儲器中的所述一個或更多個查找表之一中讀取所述增益函數(shù)返回值,來獲得被分配給所述取決于方向的自變量值的增益函數(shù)返回值。
在實(shí)施例中,信號處理器可以例如被配置為確定兩個或更多個音頻輸出信號,其中增益函數(shù)計(jì)算模塊可以例如被配置為計(jì)算兩個或更多個增益函數(shù),其中對于所述兩個或更多個音頻輸出信號中的每個音頻輸出信號,增益函數(shù)計(jì)算模塊可以例如被配置為計(jì)算被分配給所述音頻輸出信號的平移增益函數(shù)作為所述兩個或更多個增益函數(shù)之一,其中信號修改器可以例如被配置為根據(jù)所述平移增益函數(shù)生成所述音頻輸出信號。
根據(jù)實(shí)施例,所述兩個或更多個音頻輸出信號中的每一個信號的平移增益函數(shù)可以例如具有作為所述平移增益函數(shù)的增益函數(shù)自變量值之一的一個或更多個全局最大值,其中對于所述平移增益函數(shù)的一個或更多個全局最大值中的每一個最大值,不存在使得所述平移增益函數(shù)返回比所述全局最大值更大的增益函數(shù)返回值的其他增益函數(shù)自變量值,并且其中對于所述兩個或更多個音頻輸出信號的第一音頻輸出信號和第二音頻輸出信號的每對,第一音頻輸出信號的平移增益函數(shù)的一個或更多個全局最大值中的至少一個最大值可以例如不同于第二音頻輸出信號的平移增益函數(shù)的一個或更多個全局最大值中的任一個最大值。
根據(jù)實(shí)施例,對于所述兩個或更多個音頻輸出信號中的每個音頻輸出信號,增益函數(shù)計(jì)算模塊可以例如被配置為計(jì)算被分配給所述音頻輸出信號的窗增益函數(shù)作為所述兩個或更多個增益函數(shù)之一,其中所述信號修改器可以例如被配置為根據(jù)所述窗增益函數(shù)生成所述音頻輸出信號,并且其中如果所述窗增益函數(shù)的自變量值大于下窗閾值并且小于上窗閾值,則窗增益函數(shù)被配置為返回比在窗函數(shù)自變量值小于下閾值或大于上閾值的情況下由所述窗增益函數(shù)返回的任何增益函數(shù)返回值大的增益函數(shù)返回值。
在實(shí)施例中,所述兩個或更多個音頻輸出信號中的每一個信號的窗增益函數(shù)具有作為所述窗增益函數(shù)的增益函數(shù)自變量值之一的一個或更多個全局最大值,其中對于所述窗增益函數(shù)的一個或更多個全局最大值中的每一個最大值,不存在使得所述窗增益函數(shù)返回比所述全局最大值更大的增益函數(shù)返回值的其他增益函數(shù)自變量值,并且其中對于所述兩個或更多個音頻輸出信號的第一音頻輸出信號和第二音頻輸出信號的每對,第一音頻輸出信號的窗增益函數(shù)的一個或更多個全局最大值中的至少一個最大值可以例如等于第二音頻輸出信號的窗增益函數(shù)的一個或更多個全局最大值中的一個最大值。
根據(jù)實(shí)施例,增益函數(shù)計(jì)算模塊可以例如被配置為進(jìn)一步接收指示觀看方向相對于到達(dá)方向的角位移的取向信息,并且其中增益函數(shù)計(jì)算模塊可以例如被配置為根據(jù)所述取向信息生成每個音頻輸出信號的平移增益函數(shù)。
在實(shí)施例中,增益函數(shù)計(jì)算模塊可以例如被配置為根據(jù)取向信息生成每個音頻輸出信號的窗增益函數(shù)。
根據(jù)實(shí)施例,增益函數(shù)計(jì)算模塊可以例如被配置為進(jìn)一步接收縮放信息,其中縮放信息指示相機(jī)的打開角度,并且其中增益函數(shù)計(jì)算模塊可以例如被配置為根據(jù)縮放信息生成每個音頻輸出信號的平移增益函數(shù)。
在實(shí)施例中,增益函數(shù)計(jì)算模塊可以例如被配置為根據(jù)縮放信息生成每個音頻輸出信號的窗增益函數(shù)。
根據(jù)實(shí)施例,增益函數(shù)計(jì)算模塊可以例如被配置為進(jìn)一步接收用于對齊視覺圖像和聲學(xué)圖像的校準(zhǔn)參數(shù),并且其中增益函數(shù)計(jì)算模塊可以例如被配置為根據(jù)校準(zhǔn)參數(shù)生成每個音頻輸出信號的平移增益函數(shù)。
在實(shí)施例中,增益函數(shù)計(jì)算模塊可以例如被配置為根據(jù)校準(zhǔn)參數(shù)生成每個音頻輸出信號的窗增益函數(shù)。
根據(jù)前述任一權(quán)利要求所述的系統(tǒng),增益函數(shù)計(jì)算模塊可以例如被配置為接收關(guān)于視覺圖像的信息,并且增益函數(shù)計(jì)算模塊可以例如被配置為根據(jù)關(guān)于視覺圖像的信息生成模糊函數(shù)返回復(fù)數(shù)增益以實(shí)現(xiàn)聲源的感知擴(kuò)展。
此外,提供了一種用于生成一個或更多個音頻輸出信號的裝置。該裝置包括信號處理器和輸出接口。信號處理器被配置為接收包括兩個或更多個原始音頻信號的直達(dá)信號分量在內(nèi)的直達(dá)分量信號,其中信號處理器被配置為接收包括所述兩個或更多個原始音頻信號的擴(kuò)散信號分量在內(nèi)的擴(kuò)散分量信號,并且其中信號處理器被配置為接收方向信息,所述方向信息取決于所述兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向。此外,信號處理器被配置為根據(jù)擴(kuò)散分量信號生成一個或更多個經(jīng)處理的擴(kuò)散信號。對于一個或更多個音頻輸出信號的每個音頻輸出信號,信號處理器被配置為根據(jù)到達(dá)方向確定直達(dá)增益,并且信號處理器被配置為將所述直達(dá)增益應(yīng)用于所述直達(dá)分量信號以獲得經(jīng)處理的直達(dá)信號,且所述信號處理器被配置為將所述經(jīng)處理的直達(dá)信號與所述一個或更多個經(jīng)處理的擴(kuò)散信號中的一個擴(kuò)散信號進(jìn)行組合以生成所述音頻輸出信號。輸出接口被配置為輸出所述一個或更多個音頻輸出信號。信號處理器包括用于計(jì)算一個或更多個增益函數(shù)的增益函數(shù)計(jì)算模塊,其中所述一個或更多個增益函數(shù)中的每個增益函數(shù)包括多個增益函數(shù)自變量值,其中增益函數(shù)返回值被分配給每個所述增益函數(shù)自變量值,其中,當(dāng)所述增益函數(shù)接收到所述增益函數(shù)自變量值中的一個值時,其中所述增益函數(shù)被配置為返回分配給所述增益函數(shù)自變量值中的所述一個值的增益函數(shù)返回值。此外,信號處理器還包括信號修改器,用于根據(jù)到達(dá)方向從所述一個或更多個增益函數(shù)的增益函數(shù)中的增益函數(shù)自變量值中選擇取決于方向的自變量值,以用于從所述增益函數(shù)獲得分配給所述取決于方向的自變量值的增益函數(shù)返回值,并且用于根據(jù)從所述增益函數(shù)獲得的所述增益函數(shù)返回值來確定所述一個或更多個音頻輸出信號中的至少一個信號的增益值。
此外,提供了一種用于生成一個或更多個音頻輸出信號的方法。所述方法包括:
-接收兩個或更多個音頻輸入信號。
-生成包括所述兩個或更多個音頻輸入信號的直達(dá)信號分量在內(nèi)的直達(dá)分量信號。
-生成包括所述兩個或更多個音頻輸入信號的擴(kuò)散信號分量在內(nèi)的擴(kuò)散分量信號。
-接收取決于所述兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向的方向信息。
-根據(jù)擴(kuò)散分量信號生成一個或更多個經(jīng)處理的擴(kuò)散信號。
-對于一個或更多個音頻輸出信號的每個音頻輸出信號,根據(jù)到達(dá)方向確定直達(dá)增益,將所述直達(dá)增益應(yīng)用于所述直達(dá)分量信號以獲得經(jīng)處理的直達(dá)信號,以及將所述經(jīng)處理的直達(dá)信號與所述一個或更多個經(jīng)處理的擴(kuò)散信號中的一個擴(kuò)散信號進(jìn)行組合以生成所述音頻輸出信號。以及:
-輸出所述一個或更多個音頻輸出信號。
生成所述一個或更多個音頻輸出信號包括:計(jì)算一個或更多個增益函數(shù),其中所述一個或更多個增益函數(shù)中的每個增益函數(shù)包括多個增益函數(shù)自變量值,其中增益函數(shù)返回值被分配給每個所述增益函數(shù)自變量值,其中,當(dāng)所述增益函數(shù)接收到所述增益函數(shù)自變量值中的一個值時,其中所述增益函數(shù)被配置為返回分配給所述增益函數(shù)自變量值中的所述一個值的增益函數(shù)返回值。此外,生成所述一個或更多個音頻輸出信號包括:根據(jù)到達(dá)方向從所述一個或更多個增益函數(shù)的增益函數(shù)中的增益函數(shù)自變量值中選擇取決于方向的自變量值,以用于從所述增益函數(shù)獲得分配給所述取決于方向的自變量值的增益函數(shù)返回值,并且用于根據(jù)從所述增益函數(shù)獲得的所述增益函數(shù)返回值來確定所述一個或更多個音頻輸出信號中的至少一個信號的增益值。
此外,提供了一種用于生成一個或更多個音頻輸出信號的方法。所述方法包括:
-接收包括所述兩個或更多個原始音頻信號的直達(dá)信號分量在內(nèi)的直達(dá)分量信號。
-接收包括所述兩個或更多個原始音頻信號的擴(kuò)散信號分量在內(nèi)的擴(kuò)散分量信號。
-接收方向信息,所述方向信息取決于所述兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向。
-根據(jù)擴(kuò)散分量信號生成一個或更多個經(jīng)處理的擴(kuò)散信號。
-對于一個或更多個音頻輸出信號的每個音頻輸出信號,根據(jù)到達(dá)方向確定直達(dá)增益,將所述直達(dá)增益應(yīng)用于所述直達(dá)分量信號以獲得經(jīng)處理的直達(dá)信號,以及將所述經(jīng)處理的直達(dá)信號與所述一個或更多個經(jīng)處理的擴(kuò)散信號中的一個擴(kuò)散信號進(jìn)行組合以生成所述音頻輸出信號。以及:
-輸出所述一個或更多個音頻輸出信號。
生成所述一個或更多個音頻輸出信號包括:計(jì)算一個或更多個增益函數(shù),其中所述一個或更多個增益函數(shù)中的每個增益函數(shù)包括多個增益函數(shù)自變量值,其中增益函數(shù)返回值被分配給每個所述增益函數(shù)自變量值,其中,當(dāng)所述增益函數(shù)接收到所述增益函數(shù)自變量值中的一個值時,其中所述增益函數(shù)被配置為返回分配給所述增益函數(shù)自變量值中的所述一個值的增益函數(shù)返回值。此外,生成所述一個或更多個音頻輸出信號包括:根據(jù)到達(dá)方向從所述一個或更多個增益函數(shù)的增益函數(shù)中的增益函數(shù)自變量值中選擇取決于方向的自變量值,以用于從所述增益函數(shù)獲得分配給所述取決于方向的自變量值的增益函數(shù)返回值,并且用于根據(jù)從所述增益函數(shù)獲得的所述增益函數(shù)返回值來確定所述一個或更多個音頻輸出信號中的至少一個信號的增益值。
此外,提供了計(jì)算機(jī)程序,其中每個計(jì)算機(jī)程序被配置為當(dāng)在計(jì)算機(jī)或信號處理器上執(zhí)行時實(shí)現(xiàn)上述方法之一,使得上述方法中的每一個由計(jì)算機(jī)程序之一來實(shí)現(xiàn)。
此外,提供了一種用于生成一個或更多個音頻輸出信號的系統(tǒng)。所述系統(tǒng)包括分解模塊、信號處理器和輸出接口。分解模塊被配置為接收兩個或更多個音頻輸入信號,其中分解模塊被配置為生成包括所述兩個或更多個音頻輸入信號的直達(dá)信號分量在內(nèi)的直達(dá)分量信號,并且其中分解模塊被配置為生成包括所述兩個或更多個音頻輸入信號的擴(kuò)散信號分量在內(nèi)的擴(kuò)散分量信號。信號處理器被配置為接收直達(dá)分量信號、擴(kuò)散分量信號和方向信息,所述方向信息取決于所述兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向。此外,信號處理器被配置為根據(jù)擴(kuò)散分量信號生成一個或更多個經(jīng)處理的擴(kuò)散信號。對于一個或更多個音頻輸出信號的每個音頻輸出信號,信號處理器被配置為根據(jù)到達(dá)方向確定直達(dá)增益,并且信號處理器被配置為將所述直達(dá)增益應(yīng)用于所述直達(dá)分量信號以獲得經(jīng)處理的直達(dá)信號,且所述信號處理器被配置為將所述經(jīng)處理的直達(dá)信號與所述一個或更多個經(jīng)處理的擴(kuò)散信號中的一個擴(kuò)散信號進(jìn)行組合以生成所述音頻輸出信號。輸出接口被配置為輸出所述一個或更多個音頻輸出信號。
根據(jù)實(shí)施例,提供用于實(shí)現(xiàn)空間聲音記錄和再現(xiàn)的構(gòu)思,使得重建的聲學(xué)圖像可以例如與期望的空間圖像一致,所述期望的空間圖像例如由用戶在遠(yuǎn)端側(cè)確定或者由視頻圖像確定。提出的方法在近端側(cè)使用麥克風(fēng)陣列,這允許我們將捕獲的聲音分解為直達(dá)聲音分量和擴(kuò)散聲音分量。然后將提取的聲音分量發(fā)送到遠(yuǎn)端側(cè)。一致的空間聲音再現(xiàn)可以例如通過所提取的直達(dá)聲音和擴(kuò)散聲音的加權(quán)和來實(shí)現(xiàn),其中權(quán)重取決于應(yīng)當(dāng)與再現(xiàn)的聲音一致的期望的空間圖像,例如,權(quán)重取決于視頻相機(jī)的觀看方向和縮放因子,所述視頻相機(jī)可以例如補(bǔ)充音頻記錄。提供了采用所通知的多聲道濾波器來提取直達(dá)聲音和擴(kuò)散聲音的構(gòu)思。
根據(jù)實(shí)施例,信號處理器可以例如被配置為確定兩個或更多個音頻輸出信號,其中對于所述兩個或更多個音頻輸出信號的每個音頻輸出信號,可以例如將平移增益函數(shù)分配給所述音頻輸出信號,其中所述兩個或更多個音頻輸出信號中的每一個信號的所述平移增益函數(shù)包括多個平移函數(shù)自變量值,其中,平移函數(shù)返回值可以例如被分配給所述平移函數(shù)自變量值中的每一個值,其中,當(dāng)所述平移增益函數(shù)接收所述平移函數(shù)自變量值中的一個值時,所述平移增益函數(shù)可以例如被配置為返回被分配給所述平移函數(shù)自變量值中的所述一個值的平移函數(shù)返回值,并且其中,信號處理器例如被配置為根據(jù)分配給所述音頻輸出信號的平移增益函數(shù)的平移函數(shù)自變量值中的取決于方向的自變量值,來確定所述兩個或更多個音頻輸出信號中的每一個信號,其中所述取決于方向的自變量值取決于到達(dá)方向。
在實(shí)施例中,所述兩個或更多個音頻輸出信號中的每一個信號的平移增益函數(shù)具有作為平移函數(shù)自變量值之一的一個或更多個全局最大值,其中對于每個平移增益函數(shù)的一個或更多個全局最大值中的每一個最大值,不存在使得所述平移增益函數(shù)返回比所述全局最大值更大的平移函數(shù)返回值的其他平移函數(shù)自變量值,并且其中對于所述兩個或更多個音頻輸出信號的第一音頻輸出信號和第二音頻輸出信號的每對,第一音頻輸出信號的平移增益函數(shù)的一個或更多個全局最大值中的至少一個最大值可以例如不同于第二音頻輸出信號的平移增益函數(shù)的一個或更多個全局最大值中的任一個最大值。
根據(jù)實(shí)施例,信號處理器可以例如被配置為根據(jù)窗增益函數(shù)來生成所述一個或更多個音頻輸出信號的每個音頻輸出信號,其中窗增益函數(shù)可以例如被配置為在接收到窗函數(shù)自變量值時返回窗函數(shù)返回值,其中,如果窗函數(shù)自變量值可以例如大于下窗閾值并小于上窗閾值,窗增益函數(shù)可以例如被配置為返回比在窗函數(shù)自變量值可以例如小于下閾值或大于上閾值的情況下由窗增益函數(shù)返回的任何窗函數(shù)返回值大的窗函數(shù)返回值。
在實(shí)施例中,信號處理器可以例如被配置為進(jìn)一步接收指示相對于到達(dá)方向的觀看方向的角位移的取向信息,并且其中,平移增益函數(shù)和窗增益函數(shù)中的至少一個取決于所述取向信息;或者其中增益函數(shù)計(jì)算模塊可以例如被配置為進(jìn)一步接收縮放信息,其中所述縮放信息指示相機(jī)的打開角度,并且其中平移增益函數(shù)和窗增益函數(shù)中的至少一個取決于所述縮放信息;或者其中增益函數(shù)計(jì)算模塊可以例如被配置為進(jìn)一步接收校準(zhǔn)參數(shù),并且其中,平移增益函數(shù)和窗增益函數(shù)中的至少一個取決于所述校準(zhǔn)參數(shù)。
根據(jù)實(shí)施例,信號處理器可以例如被配置為接收距離信息,其中信號處理器可以例如被配置為根據(jù)所述距離信息生成所述一個或更多個音頻輸出信號中的每個音頻輸出信號。
根據(jù)實(shí)施例,信號處理器可以例如被配置為接收取決于原始到達(dá)方向的原始角度值,原始到達(dá)方向是所述兩個或更多音頻輸入信號的直達(dá)信號分量的到達(dá)方向,并且信號處理器可以例如被配置為接收距離信息,其中信號處理器可以例如被配置為根據(jù)原始角度值并根據(jù)距離信息計(jì)算修改的角度值,并且其中信號處理器可以例如被配置為根據(jù)修改的角度值來生成所述一個或更多個音頻輸出信號中的每個音頻輸出信號。
根據(jù)實(shí)施例,信號處理器可以例如被配置為通過進(jìn)行低通濾波、或通過添加延遲的直達(dá)聲音、或通過進(jìn)行直達(dá)聲音衰減、或通過進(jìn)行時間平滑、或者通過進(jìn)行到達(dá)方向擴(kuò)展、或通過進(jìn)行去相關(guān)來生成所述一個或更多個音頻輸出信號。
在實(shí)施例中,信號處理器可以例如被配置為生成兩個或更多個音頻輸出聲道,其中信號處理器可以例如被配置為對擴(kuò)散分量信號應(yīng)用擴(kuò)散增益以獲得中間擴(kuò)散信號,并且其中信號處理器可以例如被配置為通過執(zhí)行去相關(guān)從中間擴(kuò)散信號生成一個或更多個去相關(guān)信號,其中所述一個或更多個去相關(guān)信號形成所述一個或更多個經(jīng)處理的擴(kuò)散信號,或其中所述中間擴(kuò)散信號和所述一個或更多個去相關(guān)信號形成所述一個或更多個經(jīng)處理的擴(kuò)散信號。
根據(jù)實(shí)施例,直達(dá)分量信號和一個或更多個另外的直達(dá)分量信號形成兩個或更多個直達(dá)分量信號的組,其中分解模塊可以例如被配置為生成包括所述兩個或更多個音頻輸入信號的另外的直達(dá)信號分量在內(nèi)的所述一個或更多個另外的直達(dá)分量信號,其中所述到達(dá)方向和一個或更多個另外的到達(dá)方向形成兩個或更多個到達(dá)方向的組,其中所述兩個或更多個到達(dá)方向的組中的每個到達(dá)方向例如可以被分配給所述兩個或更多個直達(dá)分量信號的組中的恰好一個直達(dá)分量信號,其中所述兩個或更多個直達(dá)分量信號的直達(dá)分量信號數(shù)量和所述兩個到達(dá)方向的到達(dá)方向數(shù)量可以例如相等,其中信號處理器可以例如被配置為接收所述兩個或更多個直達(dá)分量信號的組、以及所述兩個或更多個到達(dá)方向的組,并且其中對于所述一個或更多個音頻輸出信號中的每個音頻輸出信號,信號處理器可以例如被配置為針對所述兩個或更多個直達(dá)分量信號的組中的每個直達(dá)分量信號,根據(jù)所述直達(dá)分量信號的到達(dá)方向確定直達(dá)增益,并且信號處理器可以例如被配置為通過針對所述兩個或更多個直達(dá)分量信號的組中的每個直達(dá)分量信號,對所述直達(dá)分量信號應(yīng)用所述直達(dá)分量信號的直達(dá)增益,來生成兩個或更多個經(jīng)處理的直達(dá)信號的組,并且信號處理器可以例如被配置為對所述一個或更多個經(jīng)處理的擴(kuò)散信號與所述一個或更多個經(jīng)處理的信號的組中的每個經(jīng)處理的信號進(jìn)行組合,來生成所述音頻輸出信號。
在實(shí)施例中,所述兩個或更多個直達(dá)分量信號的組中的直達(dá)分量信號的數(shù)量加1可以例如小于由接收接口接收的音頻輸入信號的數(shù)量。
此外,可以例如提供包括如上所述的系統(tǒng)的助聽器或助聽設(shè)備。
此外,提供了一種用于生成一個或更多個音頻輸出信號的裝置。該裝置包括信號處理器和輸出接口。信號處理器被配置為接收包括兩個或更多個原始音頻信號的直達(dá)信號分量在內(nèi)的直達(dá)分量信號,其中信號處理器被配置為接收包括所述兩個或更多個原始音頻信號的擴(kuò)散信號分量在內(nèi)的擴(kuò)散分量信號,并且其中信號處理器被配置為接收方向信息,所述方向信息取決于所述兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向。此外,信號處理器被配置為根據(jù)擴(kuò)散分量信號生成一個或更多個經(jīng)處理的擴(kuò)散信號。對于一個或更多個音頻輸出信號的每個音頻輸出信號,信號處理器被配置為根據(jù)到達(dá)方向確定直達(dá)增益,并且信號處理器被配置為將所述直達(dá)增益應(yīng)用于所述直達(dá)分量信號以獲得經(jīng)處理的直達(dá)信號,且所述信號處理器被配置為將所述經(jīng)處理的直達(dá)信號與所述一個或更多個經(jīng)處理的擴(kuò)散信號中的一個擴(kuò)散信號進(jìn)行組合以生成所述音頻輸出信號。輸出接口被配置為輸出所述一個或更多個音頻輸出信號。
此外,提供了一種用于生成一個或更多個音頻輸出信號的方法。所述方法包括:
-接收兩個或更多個音頻輸入信號。
-生成包括所述兩個或更多個音頻輸入信號的直達(dá)信號分量在內(nèi)的直達(dá)分量信號。
-生成包括所述兩個或更多個音頻輸入信號的擴(kuò)散信號分量在內(nèi)的擴(kuò)散分量信號。
-接收取決于所述兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向的方向信息。
-根據(jù)擴(kuò)散分量信號生成一個或更多個經(jīng)處理的擴(kuò)散信號。
-對于一個或更多個音頻輸出信號的每個音頻輸出信號,根據(jù)到達(dá)方向確定直達(dá)增益,將所述直達(dá)增益應(yīng)用于所述直達(dá)分量信號以獲得經(jīng)處理的直達(dá)信號,以及將所述經(jīng)處理的直達(dá)信號與所述一個或更多個經(jīng)處理的擴(kuò)散信號中的一個擴(kuò)散信號進(jìn)行組合以生成所述音頻輸出信號。以及:
-輸出所述一個或更多個音頻輸出信號。
此外,提供了一種用于生成一個或更多個音頻輸出信號的方法。所述方法包括:
-接收包括所述兩個或更多個原始音頻信號的直達(dá)信號分量在內(nèi)的直達(dá)分量信號。
-接收包括所述兩個或更多個原始音頻信號的擴(kuò)散信號分量在內(nèi)的擴(kuò)散分量信號。
-接收方向信息,所述方向信息取決于所述兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向。
-根據(jù)擴(kuò)散分量信號生成一個或更多個經(jīng)處理的擴(kuò)散信號。
-對于一個或更多個音頻輸出信號的每個音頻輸出信號,根據(jù)到達(dá)方向確定直達(dá)增益,將所述直達(dá)增益應(yīng)用于所述直達(dá)分量信號以獲得經(jīng)處理的直達(dá)信號,以及將所述經(jīng)處理的直達(dá)信號與所述一個或更多個經(jīng)處理的擴(kuò)散信號中的一個擴(kuò)散信號進(jìn)行組合以生成所述音頻輸出信號。以及:
-輸出所述一個或更多個音頻輸出信號。
此外,提供了計(jì)算機(jī)程序,其中每個計(jì)算機(jī)程序被配置為當(dāng)在計(jì)算機(jī)或信號處理器上執(zhí)行時實(shí)現(xiàn)上述方法之一,使得上述方法中的每一個由計(jì)算機(jī)程序之一來實(shí)現(xiàn)。
附圖說明
參考附圖更詳細(xì)地描述本發(fā)明的實(shí)施例,其中:
圖1a示出了根據(jù)實(shí)施例的系統(tǒng),
圖1b示出了根據(jù)實(shí)施例的裝置,
圖1c示出了根據(jù)另一實(shí)施例的系統(tǒng),
圖1d示出了根據(jù)另一實(shí)施例的裝置,
圖2示出了根據(jù)另一實(shí)施例的系統(tǒng),
圖3示出了根據(jù)實(shí)施例的用于直達(dá)/擴(kuò)散分解和用于對系統(tǒng)的估計(jì)的參數(shù)的模塊,
圖4示出了根據(jù)實(shí)施例的具有聲學(xué)縮放的聲學(xué)場景再現(xiàn)的第一幾何形狀,其中聲源位于焦平面上,
圖5示出了用于一致的場景再現(xiàn)和聲學(xué)縮放的平移函數(shù),
圖6示出了根據(jù)實(shí)施例的另外的用于一致的場景再現(xiàn)和聲學(xué)縮放的平移函數(shù),
圖7示出了根據(jù)實(shí)施例的用于各種情況的示例窗增益函數(shù),
圖8示出了根據(jù)實(shí)施例的擴(kuò)散增益函數(shù),
圖9示出了根據(jù)實(shí)施例的具有聲學(xué)縮放的聲學(xué)場景再現(xiàn)的第二幾何形狀,其中聲源不位于焦平面上,
圖10示出了用于解釋直達(dá)聲音模糊的函數(shù),以及
圖11示出了根據(jù)實(shí)施例的助聽器。
具體實(shí)施方式
圖1a示出了一種用于生成一個或更多個音頻輸出信號的系統(tǒng)。該系統(tǒng)包括分解模塊101、信號處理器105和輸出接口106。
分解模塊101被配置為生成直達(dá)分量信號Xdir(k,n),其包括兩個或更多音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的直達(dá)信號分量。此外,分解模塊101被配置為生成擴(kuò)散分量信號Xdiff(k,n),其包括兩個或更多音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的擴(kuò)散信號分量。
信號處理器105被配置為接收直達(dá)分量信號Xdir(k,n)、擴(kuò)散分量信號Xdiff(k,n)和方向信息,所述方向信息取決于兩個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的直達(dá)信號分量的到達(dá)方向。
此外,信號處理器105被配置為根據(jù)擴(kuò)散分量信號Xdiff(k,n)生成一個或更多個經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n)。
對于一個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)的每個音頻輸出信號Yi(k,n),信號處理器105被配置為根據(jù)到達(dá)方向確定直達(dá)增益Gi(k,n),信號處理器105被配置為將所述直達(dá)增益Gi(k,n)應(yīng)用于直達(dá)分量信號Xdir(k,n)以獲得經(jīng)處理的直達(dá)信號Ydir,i(k,n),并且信號處理器105被配置為將所述經(jīng)處理的直達(dá)信號Ydir,i(k,n)與一個或更多個經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n)中的一個Ydiff,i(k,n)組合,以生成音頻輸出信號Yi(k,n)。
輸出接口106被配置為輸出一個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)。
如概述的,方向信息取決于兩個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的直達(dá)信號分量的到達(dá)方向例如,兩個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的直達(dá)信號分量的到達(dá)方向例如本身可以是方向信息?;蛘?,例如,方向信息可以例如是兩個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的直達(dá)信號分量的傳播方向。當(dāng)?shù)竭_(dá)方向從接收麥克風(fēng)陣列指向聲源時,傳播方向從聲源指向接收麥克風(fēng)陣列。因此,傳播方向精確地指向到達(dá)方向的相反方向,并且因此取決于到達(dá)方向。
為了生成一個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)的一個Yi(k,n),信號處理器105:
-根據(jù)到達(dá)方向確定直達(dá)增益Gi(k,n),
-將所述直達(dá)增益應(yīng)用于直達(dá)分量信號Xdir(k,n)以獲得經(jīng)處理的直達(dá)信號Ydir,i(k,n),以及
-將所述經(jīng)處理的直達(dá)信號Ydir,i(k,n)和所述一個或更多個經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n)的一個Ydiff,i(k,n)組合以生成所述音頻輸出信號Yi(k,n)。
針對應(yīng)被生成的Y1(k,n),Y2(k,n),...,Yv(k,n)的一個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)中的每個執(zhí)行所述操作。信號處理器可以例如被配置為生成一個、兩個、三個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)。
關(guān)于一個或更多個經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n),根據(jù)實(shí)施例,信號處理器105可以例如被配置為通過將擴(kuò)散增益Q(k,n)應(yīng)用于擴(kuò)散分量信號Xdiff(k,n),來生成一個或更多個經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n)。
分解模塊101被配置為可以例如通過將一個或更多個音頻輸入信號分解成直達(dá)分量信號和分解成擴(kuò)散分量信號,生成包括兩個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的直達(dá)信號分量在內(nèi)的直達(dá)分量信號Xdir(k,n)、以及包括兩個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的擴(kuò)散信號分量在內(nèi)的擴(kuò)散分量信號Xdiff(k,n)。
在具體實(shí)施例中,信號處理器105可以例如被配置為生成兩個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)。信號處理器105可以例如被配置為將擴(kuò)散增益Q(k,n)應(yīng)用于擴(kuò)散分量信號Xdiff(k,n)以獲得中間擴(kuò)散信號。此外,信號處理器105可以例如被配置為通過執(zhí)行去相關(guān)來從中間擴(kuò)散信號生成一個或更多個去相關(guān)信號,其中一個或更多個去相關(guān)信號形成一個或更多個經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n),或其中中間擴(kuò)散信號和一個或更多個去相關(guān)信號形成一個或更多個經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n)。
例如,經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n)的數(shù)量和音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)的數(shù)量可以例如相等。
從中間擴(kuò)散信號生成一個或更多個去相關(guān)信號可以例如通過對中間擴(kuò)散信號應(yīng)用延遲、或者例如通過使中間擴(kuò)散信號與噪聲突發(fā)進(jìn)行卷積、或者例如通過使中間擴(kuò)散信號與脈沖響應(yīng)進(jìn)行卷積等來執(zhí)行??梢岳鐐溥x地或附加地應(yīng)用任何其他現(xiàn)有技術(shù)的去相關(guān)技術(shù)。
為了獲得v個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n),可以例如對v個直達(dá)增益G1(k,n),G2(k,n),...,Gv(k,n)進(jìn)行v次確定、以及對一個或更多個直達(dá)分量信號Xdir(k,n)應(yīng)用v次相應(yīng)增益,來獲得v個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)。
例如,可以僅需要單個擴(kuò)散分量信號Xdiff(k,n)、單個擴(kuò)散增益Q(k,n)的一次確定和對擴(kuò)散分量信號Xdiff(k,n)應(yīng)用一次擴(kuò)散增益Q(k,n),來獲得v個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)。為了實(shí)現(xiàn)去相關(guān),可以僅在已經(jīng)將擴(kuò)散增益應(yīng)用于擴(kuò)散分量信號之后應(yīng)用去相關(guān)技術(shù)。
根據(jù)圖1a的實(shí)施例,然后將相同的經(jīng)處理的擴(kuò)散信號Ydiff(k,n)與經(jīng)處理的直達(dá)信號的相應(yīng)的一個信號(Ydir,i(k,n))組合,以獲得相應(yīng)的一個音頻輸出信號(Yi(k,n))。
圖1a的實(shí)施例考慮了兩個或更多音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的直達(dá)信號分量的到達(dá)方向。因此,通過根據(jù)到達(dá)方向靈活調(diào)整直達(dá)分量信號Xdir(k,n)和擴(kuò)散分量信號Xdiff(k,n),可以生成音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)。實(shí)現(xiàn)了高級適配可能性。
根據(jù)實(shí)施例,例如可以針對時頻域的每個時間頻率倉(k,n)來確定音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)。
根據(jù)實(shí)施例,分解模塊101可以例如被配置為接收兩個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)。在另一實(shí)施例中,分解模塊101可以例如被配置為接收三個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)。分解模塊101可以例如被配置為將兩個或更多個(或者三個或更多個)音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)分解為不是多聲道信號的擴(kuò)散分量信號Xdiff(k,n)、以及一個或更多個直達(dá)分量信號Xdir(k,n)。音頻信號不是多聲道信號意味著音頻信號本身不包括多于一個音頻聲道。因此,多個音頻輸入信號的音頻信息在兩個分量信號(Xdir(k,n),Xdiff(k,n))(以及可能的附加輔助信息)內(nèi)傳輸,這可實(shí)現(xiàn)高效傳輸。
信號處理器105可以例如被配置為通過以下操作來生成兩個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)的每個音頻輸出信號Yi(k,n):將直達(dá)增益Gi(k,n)應(yīng)用于所述音頻輸出信號Yi(k,n),將所述直達(dá)增益Gi(k,n)應(yīng)用于一個或更多個直達(dá)分量信號Xdir(k,n)以獲得針對所述音頻輸出信號Yi(k,n)的經(jīng)處理的直達(dá)信號Ydir,i(k,n),以及將用于所述音頻輸出信號Yi(k,n)的所述經(jīng)處理的直達(dá)信號Ydir,i(k,n)與經(jīng)處理的擴(kuò)散信號Ydiff(k,n)組合以生成所述音頻輸出信號Yi(k,n)。輸出接口106被配置為輸出兩個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)。通過僅確定單個經(jīng)處理的擴(kuò)散信號Ydiff(k,n)來生成兩個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)是尤其有益的。
圖1b示出了根據(jù)實(shí)施例的用于生成一個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)的裝置。該裝置實(shí)現(xiàn)了圖1a的系統(tǒng)中的所謂的“遠(yuǎn)端”側(cè)。
圖1b的裝置包括信號處理器105和輸出接口106。
信號處理器105被配置為接收直達(dá)分量信號Xdir(k,n),其包括兩個或更多個原始音頻信號x1(k,n),x2(k,n),...xp(k,n)(例如,圖1a的音頻輸入信號)的直達(dá)信號分量。此外,信號處理器105被配置為接收擴(kuò)散分量信號Xdiff(k,n),其包括兩個或更多原始音頻信號x1(k,n),x2(k,n),...xp(k,n)的擴(kuò)散信號分量。此外,信號處理器105被配置為接收方向信息,所述方向信息取決于所述兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向。
信號處理器105被配置為根據(jù)擴(kuò)散分量信號Xdiff(k,n)生成一個或更多個經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n)。
對于一個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)的每個音頻輸出信號Yi(k,n),信號處理器105被配置為根據(jù)根據(jù)到達(dá)方向確定直達(dá)增益Gi(k,n),信號處理器105被配置為將所述直達(dá)增益Gi(k,n)應(yīng)用于直達(dá)分量信號Xdir(k,n)以獲得經(jīng)處理的直達(dá)信號Ydir,i(k,n),并且信號處理器105被配置為將所述經(jīng)處理的直達(dá)信號Ydir,i(k,n)與一個或更多個經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n)中的一個Ydiff,i(k,n)組合,以生成所述音頻輸出信號Yi(k,n)。
輸出接口106被配置為輸出所述一個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)。
下面參考系統(tǒng)描述的信號處理器105的所有配置也可以在根據(jù)圖1b的裝置中實(shí)現(xiàn)。這具體涉及下文描述的信號修改器103和增益函數(shù)計(jì)算模塊104的各種配置。這同樣適用于下述構(gòu)思的各種應(yīng)用示例。
圖1c示出了根據(jù)另一實(shí)施例的系統(tǒng)。在圖1c中,圖1a的信號處理器105還包括用于計(jì)算一個或更多個增益函數(shù)的增益函數(shù)計(jì)算模塊104,其中所述一個或更多個增益函數(shù)中的每個增益函數(shù)包括多個增益函數(shù)自變量值,其中增益函數(shù)返回值被分配給每個所述增益函數(shù)自變量值,其中,當(dāng)所述增益函數(shù)接收到所述增益函數(shù)自變量值中的一個值時,其中所述增益函數(shù)被配置為返回分配給所述增益函數(shù)自變量值中的所述一個值的增益函數(shù)返回值。
此外,信號處理器105還包括信號修改器103,用于根據(jù)到達(dá)方向從所述一個或更多個增益函數(shù)的增益函數(shù)的增益函數(shù)自變量值中選擇取決于方向的自變量值,以用于從所述增益函數(shù)獲得分配給所述取決于方向的自變量值的增益函數(shù)返回值,并且用于根據(jù)從所述增益函數(shù)獲得的所述增益函數(shù)返回值來確定所述一個或更多個音頻輸出信號中的至少一個信號的增益值。
圖1d示出了根據(jù)另一實(shí)施例的系統(tǒng)。在圖1d中,圖1b的信號處理器105還包括用于計(jì)算一個或更多個增益函數(shù)的增益函數(shù)計(jì)算模塊104,其中所述一個或更多個增益函數(shù)中的每個增益函數(shù)包括多個增益函數(shù)自變量值,其中增益函數(shù)返回值被分配給每個所述增益函數(shù)自變量值,其中,當(dāng)所述增益函數(shù)接收到所述增益函數(shù)自變量值中的一個值時,其中所述增益函數(shù)被配置為返回分配給所述增益函數(shù)自變量值中的所述一個值的增益函數(shù)返回值。
此外,信號處理器105還包括信號修改器103,用于根據(jù)到達(dá)方向從所述一個或更多個增益函數(shù)的增益函數(shù)的增益函數(shù)自變量值中選擇取決于方向的自變量值,以用于從所述增益函數(shù)獲得分配給所述取決于方向的自變量值的增益函數(shù)返回值,并且用于根據(jù)從所述增益函數(shù)獲得的所述增益函數(shù)返回值來確定所述一個或更多個音頻輸出信號中的至少一個信號的增益值。
實(shí)施例提供了記錄和再現(xiàn)空間聲音,使得聲學(xué)圖像與期望的空間圖像一致,該期望的空間圖像例如由補(bǔ)充遠(yuǎn)端側(cè)的音頻的視頻確定。一些實(shí)施例基于利用位于混響近端側(cè)的麥克風(fēng)陣列的記錄。實(shí)施例提供例如與相機(jī)的視覺縮放一致的聲學(xué)縮放。例如,當(dāng)放大時,從揚(yáng)聲器將位于縮放的視覺圖像中的方向再現(xiàn)揚(yáng)聲器的直達(dá)聲音,使得視覺圖像和聲學(xué)圖像對齊。如果在放大之后揚(yáng)聲器位于視覺圖像之外(或者在期望的空間區(qū)域之外),則這些揚(yáng)聲器的直達(dá)聲音可以被衰減,因?yàn)檫@些揚(yáng)聲器不再可見,或者例如來自這些揚(yáng)聲器的直達(dá)聲音不是所期望的。此外,例如,當(dāng)放大以模擬視覺相機(jī)的較小打開角度時,可以增加直達(dá)與混響比。
實(shí)施例基于以下構(gòu)思:通過在近端側(cè)應(yīng)用兩個近期的多聲道濾波器,將記錄的麥克風(fēng)信號分離為聲源的直達(dá)聲音和擴(kuò)散聲音(例如,混響聲音)。這些多聲道濾波器可以例如基于聲場的參數(shù)信息,例如直達(dá)聲音的DOA。在一些實(shí)施例中,分離的直達(dá)聲音和擴(kuò)散聲音可以例如與參數(shù)信息一起被發(fā)送到遠(yuǎn)端側(cè)。
例如,在遠(yuǎn)端側(cè),可以例如將特定權(quán)重應(yīng)用于提取的直達(dá)聲音和擴(kuò)散聲音,這樣可調(diào)整再現(xiàn)的聲學(xué)圖像,使得得到的音頻輸出信號與期望的空間圖像一致。這些權(quán)重例如模擬聲學(xué)縮放效果并且例如取決于直達(dá)聲音的到達(dá)方向(DOA)以及例如取決于相機(jī)的縮放因子和/或觀看方向。然后,可以例如通過對加權(quán)的直達(dá)聲音和擴(kuò)散聲音求和來獲得最終的音頻輸出信號。
所提供的構(gòu)思實(shí)現(xiàn)了在上述具有消費(fèi)者設(shè)備的視頻記錄場景中或在電話會議場景中的高效使用:例如,在視頻記錄場景中,其可以例如足以存儲或發(fā)送所提取的直達(dá)聲音和擴(kuò)散聲音(而不是所有麥克風(fēng)信號),同時仍然能夠控制所重建的空間圖像。
這意味著,如果例如在后處理步驟(數(shù)字縮放)中應(yīng)用視覺縮放,則聲學(xué)圖像仍然可以被相應(yīng)地修改,而不需要存儲和訪問原始麥克風(fēng)信號。在電話會議場景中,所提出的構(gòu)思也可以被有效地使用,因?yàn)橹边_(dá)和擴(kuò)散聲音提取可以在近端側(cè)執(zhí)行,同時仍然能夠在遠(yuǎn)端側(cè)控制空間聲音再現(xiàn)(例如,改變揚(yáng)聲器設(shè)置)并且將聲學(xué)圖像和視覺圖像對齊。因此,只需要發(fā)送很少的音頻信號和估計(jì)的DOA作為輔助信息,同時遠(yuǎn)端側(cè)的計(jì)算復(fù)雜度低。
圖2示出了根據(jù)實(shí)施例的系統(tǒng)。近端側(cè)包括模塊101和102。遠(yuǎn)端側(cè)包括模塊105和106。模塊105本身包括模塊103和104。當(dāng)參考近端側(cè)和遠(yuǎn)端側(cè)時,應(yīng)當(dāng)理解,在一些實(shí)施例中,第一裝置可以實(shí)現(xiàn)近端側(cè)(例如,包括模塊101和102),并且第二裝置可以實(shí)現(xiàn)遠(yuǎn)端側(cè)(例如,包括模塊103和104),而在其他實(shí)施例中,單個裝置實(shí)現(xiàn)近端側(cè)以及遠(yuǎn)端側(cè),其中這樣的單個裝置例如包括模塊101、102、103和104。
特別地,圖2示出了根據(jù)實(shí)施例的系統(tǒng),其包括分解模塊101、參數(shù)估計(jì)模塊102、信號處理器105和輸出接口106。在圖2中,信號處理器105包括增益函數(shù)計(jì)算模塊104和信號修改器103。信號處理器105和輸出接口106可以例如實(shí)現(xiàn)如圖1b所示的裝置。
在圖2中,參數(shù)估計(jì)模塊102可以例如被配置為接收兩個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)。此外,參數(shù)估計(jì)模塊102可以例如被配置為根據(jù)兩個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)估計(jì)所述兩個或更多音頻輸入信號的直達(dá)信號分量的到達(dá)方向。信號處理器105可以例如被配置為從參數(shù)估計(jì)模塊102接收包括兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向在內(nèi)的到達(dá)方向信息。
圖2的系統(tǒng)的輸入包括在時頻域(頻率索引k,時間索引n)中的M個麥克風(fēng)信號X1...M(k,n)。例如,可以假設(shè)由麥克風(fēng)捕獲的聲場存在于在各向同性擴(kuò)散場中傳播的平面波的每個(k,n)。平面波對聲源(例如,揚(yáng)聲器)的直達(dá)聲音進(jìn)行建模,而擴(kuò)散聲音對混響進(jìn)行建模。
根據(jù)這種模型,第m個麥克風(fēng)信號可以寫為
Xm(k,n)=Xdir,m(k,n)+Xdiff,m(k,n)+Xn,m(k,n), (1)
其中Xdir,m(k,n)是測量的直達(dá)聲音(平面波),Xdiff,m(k,n)是測量的擴(kuò)散聲音,Xn,m(k,n)是噪聲分量(例如,麥克風(fēng)自噪聲)。
在圖2中的分解模塊101中(直達(dá)/擴(kuò)散分解),從麥克風(fēng)信號中提取直達(dá)聲音Xdir(k,n)和擴(kuò)散聲音Xdiff(k,n)。為此目的,例如,可以采用如下所述的所通知的多聲道濾波器。對于直達(dá)/擴(kuò)散分解,例如可以采用關(guān)于聲場的特定參數(shù)信息,例如直達(dá)聲音的該參數(shù)信息可以例如在參數(shù)估計(jì)模塊102中從麥克風(fēng)信號中估計(jì)。除了直達(dá)聲音的之外,在一些實(shí)施例中,例如可以估計(jì)距離信息r(k,n)。該距離信息可以例如描述麥克風(fēng)陣列和發(fā)射平面波的聲源之間的距離。對于參數(shù)估計(jì),例如可以采用距離估計(jì)器和/或現(xiàn)有技術(shù)的DOA估計(jì)器。例如,可以在下面描述相應(yīng)的估計(jì)器。
提取的直達(dá)聲音Xdir(k,n)、提取的擴(kuò)散聲音Xdiff(k,n)和直達(dá)聲音的估計(jì)的參數(shù)信息例如和/或距離r(k,n)隨后可以例如被存儲,被發(fā)送到遠(yuǎn)端側(cè),或者立即被用于生成具有期望的空間圖像的空間聲音,例如以創(chuàng)建聲學(xué)縮放效果。
使用提取的直達(dá)聲音Xdir(k,n)、提取的擴(kuò)散聲音Xdiff(k,n)和估計(jì)的參數(shù)信息和/或r(k,n),在信號修改器103中生成期望的聲學(xué)圖像,例如聲學(xué)縮放效果。
信號修改器103可以例如計(jì)算在時頻域中的一個或更多個輸出信號Yi(k,n),其重建聲學(xué)圖像,使得它與期望的空間圖像一致。例如,輸出信號Yi(k,n)模擬聲學(xué)縮放效果。這些信號可以最終被變換回時域并且例如通過揚(yáng)聲器或耳機(jī)被回放。第i個輸出信號Yi(k,n)被計(jì)算為提取的直達(dá)聲音Xdir(k,n)和擴(kuò)散聲音Xdiff(k,n)的加權(quán)和,例如,
在公式(2a)和(2b)中,權(quán)重Gi(k,n)和Q是用于創(chuàng)建期望聲學(xué)圖像(例如聲學(xué)縮放效果)的參數(shù)。例如,當(dāng)放大時,可以減小參數(shù)Q,使得再現(xiàn)的擴(kuò)散聲音被衰減。
此外,利用權(quán)重Gi(k,n),可以控制從哪個方向再現(xiàn)直達(dá)聲音,使得視覺圖像和聲學(xué)圖像對齊。此外,可以將聲學(xué)模糊效果與直達(dá)聲音對齊。
在一些實(shí)施例中,可以例如在增益選擇單元201和202中確定權(quán)重Gi(k,n)和Q。這些單元可以例如根據(jù)估計(jì)的參數(shù)信息和r(k,n),從由gi和q表示的兩個增益函數(shù)中選擇適當(dāng)?shù)臋?quán)重Gi(k,n)和Q。在數(shù)學(xué)上表達(dá)為,
Q(k,n)=q(r). (3b)
在一些實(shí)施例中,增益函數(shù)gi和q可以取決于應(yīng)用,并且例如可以在增益函數(shù)計(jì)算模塊104中生成。增益函數(shù)描述了對于給定參數(shù)信息、和/或r(k,n)應(yīng)在(2a)中使用哪些權(quán)重Gi(k,n)和Q,使得獲得期望的一致空間圖像。
例如,當(dāng)用可視相機(jī)放大時,調(diào)整增益函數(shù),使得從源在視頻中可見的方向再現(xiàn)聲音。下面進(jìn)一步描述權(quán)重Gi(k,n)和Q以及基本增益函數(shù)gi和q。應(yīng)當(dāng)注意,權(quán)重Gi(k,n)和Q以及基本增益函數(shù)gi和q可以例如是復(fù)數(shù)值的。計(jì)算增益函數(shù)需要諸如縮放因子、視覺圖像的寬度、期望的觀看方向和揚(yáng)聲器設(shè)置之類的信息。
在其他實(shí)施例中,在信號修改器103內(nèi)直接計(jì)算的權(quán)重Gi(k,n)和Q,而不是首先在模塊104中計(jì)算增益函數(shù),然后在增益選擇單元201和202中從計(jì)算的增益函數(shù)中選擇權(quán)重Gi(k,n)和Q。
根據(jù)實(shí)施例,例如可以針對每個時間-頻率對多于一個的平面波進(jìn)行具體處理。例如,來自兩個不同方向的相同頻帶中的兩個或更多個平面波可以例如由相同時間點(diǎn)的麥克風(fēng)陣列記錄。這兩個平面波可以各自具有不同的到達(dá)方向。在這種情況下,可以例如單獨(dú)考慮兩個或更多個平面波的直達(dá)信號分量及其到達(dá)方向。
根據(jù)實(shí)施例,直達(dá)分量信號Xdir1(k,n)和一個或更多個另外的直達(dá)分量信號Xdir2(k,n),...,Xdir q(k,n)可以例如形成兩個或更多個直達(dá)分量分量信號Xdir1(k,n),Xdir2(k,n),...,Xdir q(k,n)的組,其中分解模塊101可以例如被配置為生成一個或更多個另外的直達(dá)分量信號Xdir2(k,n),...,Xdir q(k,n),所述直達(dá)分量信號包括兩個或更多個音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的另外的直達(dá)信號分量。
到達(dá)方向和一個或更多個另外的到達(dá)方向形成兩個或更多個到達(dá)方向的組,其中兩個或更多個到達(dá)方向的組中的每個方向被分配給所述兩個或更多個直達(dá)分量信號Xdir1(k,n),Xdir2(k,n),...,Xdir q,m(k,n)的組中的恰好一個直達(dá)分量信號Xdir j(k,n),其中所述兩個或更多個直達(dá)分量信號的直達(dá)分量信號數(shù)量與所述兩個到達(dá)方向的到達(dá)方向數(shù)量相等。
信號處理器105可以例如被配置為接收兩個或更多個直達(dá)分量信號Xdir1(k,n),Xdir2(k,n),...,Xdir q(k,n)的組、以及兩個或更多個到達(dá)方向的組。
對于一個或更多個音頻輸出信號Y1(k,n),Y2(k,n),...,Yv(k,n)的每個音頻輸出信號Yi(k,n),
-信號處理器105可以例如被配置為針對兩個或更多個直達(dá)分量信號Xdir1(k,n),Xdir2(k,n),...,Xdir q(k,n)的組中的每個直達(dá)分量信號Xdir j(k,n),根據(jù)所述直達(dá)分量信號Xdir j(k,n)的到達(dá)方向確定直達(dá)增益Gj,i(k,n),
-信號處理器105可以例如被配置為通過針對所述兩個或更多個直達(dá)分量信號Xdir1(k,n),Xdir2(k,n),...,Xdir q(k,n)的組中的每個直達(dá)分量信號Xdir j(k,n),將所述直達(dá)分量信號Xdir j(k,n)的直達(dá)增益Gj,i(k,n)應(yīng)用于所述直達(dá)分量信號Xdir j(k,n),來生成兩個或更多個經(jīng)處理的直達(dá)信號Ydir1,i(k,n),Ydir2,i(k,n),...,Ydir q,i(k,n)的組。并且:
-信號處理器105可以例如被配置為將一個或更多個經(jīng)處理的擴(kuò)散信號Ydiff,1(k,n),Ydiff,2(k,n),...,Ydiff,v(k,n)中的一個Ydiff,i(k,n)與兩個或更多個經(jīng)處理的信號Ydir1,i(k,n),Ydir2,i(k,n),...,Ydirq,i(k,n)的組中的每個經(jīng)處理的信號Ydir j,i(k,n)進(jìn)行組合,來生成所述音頻輸出信號Yi(k,n)。
因此,如果分別考慮兩個或更多個平面波,則公式(1)的模型變?yōu)椋?/p>
Xm(k,n)=Xdir1,m(k,n)+Xdir2,m(k,n)+...+Xdir q,m(k,n)+Xdiff,m(k,n)+Xn,m(k,n)
并且可以例如根據(jù)下式與公式(2a)和(2b)相類似地計(jì)算權(quán)重:
Yi(k,n)=G1,i(k,n)Xdir1(k,n)+G2,i(k,n)Xdir2(k,n)+...+Gq,i(k,n)Xdir q(k,n)+QXdiff,m(k,n)
=Y(jié)dir1,i(k,n)+Ydir2,i(k,n)+...+Ydir q,i(k,n)+Ydiff,i(k,n)
僅一些直達(dá)分量信號、擴(kuò)散分量信號和輔助信息從近端側(cè)發(fā)送到遠(yuǎn)端側(cè)也是足夠的。在實(shí)施例中,兩個或更多個直達(dá)分量信號Xdir1(k,n),Xdir2(k,n),...,Xdir q(k,n)的組中的直達(dá)分量信號的數(shù)量加1小于由接收接口101接收到的音頻輸入信號x1(k,n),x2(k,n),...xp(k,n)的數(shù)量。(使用指數(shù):q+1<p)“加1”表示所需的擴(kuò)散分量信號Xdiff(k,n)。
當(dāng)在下文中提供關(guān)于單個平面波、關(guān)于單個到達(dá)方向和關(guān)于單個直達(dá)分量信號的解釋時,應(yīng)當(dāng)理解,所解釋的構(gòu)思同樣適用于多于一個平面波、多于一個到達(dá)方向和多于一個直達(dá)分量信號。
在下文中,描述了直達(dá)和擴(kuò)散聲音提取。提供了實(shí)現(xiàn)直達(dá)/擴(kuò)散分解的圖2的分解模塊101的實(shí)際實(shí)現(xiàn)。
在實(shí)施例中,為了實(shí)現(xiàn)一致的空間聲音再現(xiàn),對在[8]和[9]中描述的兩個最近提出的所通知的線性約束最小方差(LCMV)濾波器的輸出進(jìn)行組合,這在假設(shè)與在DirAC(直達(dá)音頻編碼)中相似的聲場模型的情況下,實(shí)現(xiàn)利用期望的任意響應(yīng)對直達(dá)聲音和擴(kuò)散聲音的精確多聲道提取?,F(xiàn)在在下文描述根據(jù)實(shí)施例組合這些濾波器的具體方式:
首先,描述根據(jù)實(shí)施例的直達(dá)聲音提取。
使用最近提出的在[8]中描述的所通知的空間濾波器來提取直達(dá)聲音。在下文中簡要回顧該濾波器,然后將其制定為使得其可用于根據(jù)圖2的實(shí)施例。
(2b)和圖2中的第i個揚(yáng)聲器聲道的估計(jì)的期望直達(dá)信號通過將線性多聲道濾波器應(yīng)用于麥克風(fēng)信號來計(jì)算,例如,
其中,向量x(k,n)=[X1(k,n),...,XM(k,n)]T包括M個麥克風(fēng)信號,并且wdir,i是復(fù)數(shù)值的權(quán)重向量。這里,濾波器權(quán)重最小化麥克風(fēng)所包括的噪聲和擴(kuò)散聲音并且同時以期望增益Gi(k,n)捕獲直達(dá)聲音聲音。在數(shù)學(xué)上表示,權(quán)重可以例如被計(jì)算為
受到線性約束
這里,是所謂的陣列傳播向量。該向量的第m個元素是第m個麥克風(fēng)和陣列的參考麥克風(fēng)之間的直達(dá)聲音的相對傳遞函數(shù)(不失一般性,在下面的描述中使用位置d1處的第一麥克風(fēng))。該向量取決于直達(dá)聲音的
例如,在[8]中定義了陣列傳播向量。在文獻(xiàn)[8]的公式(6)中,根據(jù)下式定義陣列傳播向量
其中是第l個平面波的到達(dá)方向的方位角。因此,陣列傳播向量取決于到達(dá)方向。如果僅存在或考慮一個平面波,則可以省略索引l。
根據(jù)[8]的公式(6),陣列傳播向量a的第i個元素ai描述了從第一個到第i個麥克風(fēng)的第l個平面波的相移是根據(jù)下式定義的
例如,ri等于第一個和第i個麥克風(fēng)之間的距離,κ表示平面波的波數(shù),并且j是虛數(shù)。
關(guān)于陣列傳播向量a及其元素ai的更多信息可以在[8]中找到,其通過引用明確地并入本文。
(5)中的M×M矩陣Φu(k,n)是噪聲和擴(kuò)散聲音的功率譜密度(PSD)矩陣,其可以如[8]中所解釋的那樣來確定。(5)的解由下式給出
其中
計(jì)算濾波器需要陣列傳播向量其可以在直達(dá)聲音的被估計(jì)之后被確定[8]。如上所述,陣列傳播向量以及濾波器取決于DOA??梢匀缦滤鰧OA進(jìn)行估計(jì)。
在[8]中提出的例如使用(4)和(7)的直達(dá)聲音提取的所通知的空間濾波器不能直接用于圖2的實(shí)施例中。實(shí)際上,該計(jì)算需要麥克風(fēng)信號x(k,n)以及直達(dá)聲音增益Gi(k,n)。從圖2中可以看出,麥克風(fēng)信號x(k,n)僅在近端側(cè)可用,而直達(dá)聲音增益Gi(k,n)僅在遠(yuǎn)端側(cè)可用。
為了在本發(fā)明的實(shí)施例中使用所通知的空間濾波器,提供了修改,其中我們將(7)代入(4),導(dǎo)致
其中
該修改的濾波器hdir(k,n)獨(dú)立于權(quán)重Gi(k,n)。因此,可以在近端側(cè)應(yīng)用濾波器以獲得直達(dá)聲音然后可以將該直達(dá)聲音與估計(jì)的DOA(和距離)一起作為輔助信息發(fā)送到遠(yuǎn)端側(cè),以提供對直達(dá)聲音的再現(xiàn)的完全控制??梢栽谖恢胐1處相對于參考麥克風(fēng)確定直達(dá)聲音因此,也可以將直達(dá)聲音分量與相關(guān)聯(lián),因此:
所以根據(jù)實(shí)施例,分解模塊101可以例如被配置為通過根據(jù)下式對兩個或更多個音頻輸入信號應(yīng)用濾波器來生成直達(dá)分量信號:
其中,k表示頻率,并且其中n表示時間,其中表示直達(dá)分量信號,其中x(k,n)表示兩個或更多個音頻輸入信號,其中hdir(k,n)表示濾波器,并且
其中Φu(k,n)表示所述兩個或更多個音頻輸入信號的噪聲和擴(kuò)散聲音的功率譜密度矩陣,其中表示陣列傳播向量,并且其中表示所述兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向的方位角。
圖3示出根據(jù)實(shí)施例的參數(shù)估計(jì)模塊102和實(shí)現(xiàn)直達(dá)/擴(kuò)散分解的分解模塊101。
圖3示出的實(shí)施例實(shí)現(xiàn)了直達(dá)聲音提取模塊203的直達(dá)聲音提取和擴(kuò)散聲音提取模塊204的擴(kuò)散聲音提取。
在直達(dá)聲音提取模塊203中通過將濾波器權(quán)重應(yīng)用于如(10)中給出的麥克風(fēng)信號來執(zhí)行直達(dá)聲音提取。在直達(dá)權(quán)重計(jì)算單元301中計(jì)算直達(dá)濾波器權(quán)重,其可以例如用(8)來實(shí)現(xiàn)。然后,例如方程式(9)的增益Gi(k,n)被應(yīng)用在遠(yuǎn)端側(cè),如圖2所示。
在下文中,描述了擴(kuò)散聲音提取。擴(kuò)散聲音提取可以例如由圖3的擴(kuò)散聲音提取模塊204來實(shí)現(xiàn)。在例如下文描述的圖3的擴(kuò)散權(quán)重計(jì)算單元302中計(jì)算擴(kuò)散濾波器權(quán)重。
在實(shí)施例中,擴(kuò)散聲音可以例如使用最近在[9]中提出的空間濾波器來提取。(2a)和圖2中的擴(kuò)散聲音Xdiff(k,n)可以例如通過將第二空間濾波器應(yīng)用于麥克風(fēng)信號來估計(jì),例如,
為了找到用于擴(kuò)散聲音hdiff(k,n)的最佳濾波器,我們考慮最近提出的[9]中的濾波器,它可以提取具有期望的任意響應(yīng)的擴(kuò)散聲,同時最小化濾波器輸出處的噪聲。對于空間白噪聲,濾波器由下式給出
符合以及hHγ1(k)=1。第一線性約束確保直達(dá)聲音被抑制,而第二約束確保平均來說以所需增益Q捕獲擴(kuò)散聲音,參見文獻(xiàn)[9]。注意,γ1(k)是在[9]中定義的擴(kuò)散聲音相干向量。(12)的解由下式給出
其中
其中,I是大小為M×M的單位矩陣。濾波器hdiff(k,n)不取決于權(quán)重Gi(k,n)和Q,因此,可以在近端側(cè)計(jì)算并應(yīng)用該濾波器來獲得為此,僅需要將單個音頻信號發(fā)送到遠(yuǎn)端側(cè),即同時仍然能夠完全控制擴(kuò)散聲音的空間聲音再現(xiàn)。
圖3還示出了根據(jù)實(shí)施例的擴(kuò)散聲音提取。在擴(kuò)散聲音提取模塊204中通過將濾波器權(quán)重應(yīng)用于如公式(11)中給出的麥克風(fēng)信號來執(zhí)行擴(kuò)散聲音提取。在擴(kuò)散權(quán)重計(jì)算單元302中計(jì)算濾波器權(quán)重,其可以例如通過使用公式(13)來實(shí)現(xiàn)。
在下文中,描述了參數(shù)估計(jì)。參數(shù)估計(jì)可以例如由參數(shù)估計(jì)模塊102進(jìn)行,其中可以例如估計(jì)關(guān)于所記錄的聲音場景的參數(shù)信息。該參數(shù)信息用于計(jì)算分解模塊101中的兩個空間濾波器以及用于在信號修改器103中對一致的空間音頻再現(xiàn)進(jìn)行增益選擇。
首先,描述了DOA信息的確定/估計(jì)。
在下文中描述了實(shí)施例,其中參數(shù)估計(jì)模塊(102)包括用于直達(dá)聲音(例如用于源自聲源位置并到達(dá)麥克風(fēng)陣列的平面波)的DOA估計(jì)器。在不失一般性的情況下,假設(shè)對于每個時間和頻率存在單個平面波。其他實(shí)施例考慮存在多個平面波的情況,并且將這里描述的單個平面波構(gòu)思擴(kuò)展到多個平面波是顯而易見的。因此,本發(fā)明還涵蓋具有多個平面波的實(shí)施例。
可以使用現(xiàn)有技術(shù)的窄帶DOA估計(jì)器之一(例如ESPRIT[10]或根MUSIC[11]),從麥克風(fēng)信號估計(jì)窄帶DOA。針對到達(dá)麥克風(fēng)陣列的一個或更多個波,除方位角以外,DOA信息也可以被提供為空間頻率相移或傳播向量的形式。應(yīng)當(dāng)注意,DOA信息也可以在外部提供。例如,平面波的DOA可以與假設(shè)人類說話者形成聲學(xué)場景的面部識別算法一起由視頻相機(jī)來確定。
最后,應(yīng)當(dāng)注意,DOA信息也可以在3D(三維)中估計(jì)。在這種情況下,在參數(shù)估計(jì)模塊102中估計(jì)方位角和仰角并且平面波的DOA在這種情況下被提供為例如
因此,當(dāng)在下文中提及DOA的方位角時,應(yīng)當(dāng)理解,所有解釋也可應(yīng)用于DOA的仰角、DOA的方位角或從DOA的方位角導(dǎo)出的角度、DOA的仰角或從DOA的仰角導(dǎo)出的角度、或者從DOA的方位角和仰角導(dǎo)出的角度。更一般地,下文提供的所有解釋同樣適用于取決于DOA的任何角度。
現(xiàn)在,描述距離信息確定/估計(jì)。
一些實(shí)施例涉及基于DOA和距離的頂部聲學(xué)縮放。在這樣的實(shí)施例中,參數(shù)估計(jì)模塊102可以例如包括兩個子模塊,例如上述DOA估計(jì)器子模塊和距離估計(jì)子模塊,該距離估計(jì)子模塊估計(jì)從記錄位置到聲源r(k,n)的距離。在這樣的實(shí)施例中,例如可以假定到達(dá)記錄麥克風(fēng)陣列的每個平面波源自聲源并沿著直線傳播到該陣列(其也被稱為直達(dá)傳播路徑)。
存在幾種使用麥克風(fēng)信號進(jìn)行距離估計(jì)的現(xiàn)有技術(shù)方法。例如,到源的距離可以通過計(jì)算麥克風(fēng)信號之間的功率比來找到,如[12]中所述。備選地,可以基于估計(jì)的信號與擴(kuò)散比(SDR)來計(jì)算到聲學(xué)環(huán)境(例如,房間)中的源r(k,n)的距離[13]。然后可以將SDR估計(jì)與房間的混響時間(已知的或使用現(xiàn)有技術(shù)方法估計(jì)的混響時間)組合以計(jì)算距離。對于高SDR,與擴(kuò)散聲音相比,直達(dá)聲音能量高,這表示到源的距離小。當(dāng)SDR值為低時,與房間混響相比,直達(dá)聲音功率弱,這表示到源的距離大。
在其他實(shí)施例中,取代通過在參數(shù)估計(jì)模塊102中采用距離計(jì)算模塊來計(jì)算/估計(jì)距離,可以例如從視覺系統(tǒng)接收外部距離信息。例如,可以采用能夠提供距離信息(例如,飛行時間(ToFu)、立體視覺和結(jié)構(gòu)光)的在視覺中使用的現(xiàn)有技術(shù)。例如,在ToF相機(jī)中,可以根據(jù)由相機(jī)發(fā)出的、行進(jìn)到源并返回到相機(jī)傳感器的光信號的測量的飛行時間來計(jì)算到源的距離。例如,計(jì)算機(jī)立體視覺使用兩個有利點(diǎn),從這兩個點(diǎn)中捕獲視覺圖像以計(jì)算到源的距離。
或者,例如,可以采用結(jié)構(gòu)化光相機(jī),其中已知的像素圖案被投影在視覺場景上。投影之后的變形分析使得視覺系統(tǒng)能夠估計(jì)到源的距離。應(yīng)當(dāng)注意,對于一致的音頻場景再現(xiàn),需要針對每個時間-頻率倉的距離信息r(k,n)。如果距離信息由視覺系統(tǒng)在外部提供,則到與相對應(yīng)的源r(k,n)的距離可以例如被選為來自視覺系統(tǒng)的與該特定方向相對應(yīng)的距離值。
在下文中,考慮一致的聲學(xué)場景再現(xiàn)。首先,考慮基于DOA的聲學(xué)場景再現(xiàn)。
可以進(jìn)行聲學(xué)場景再現(xiàn),使得其與記錄的聲場景一致?;蛘?,可以進(jìn)行聲學(xué)場景再現(xiàn),使得其與視覺圖像一致??梢蕴峁?yīng)的視覺信息以實(shí)現(xiàn)與視覺圖像的一致性。
例如,可以通過調(diào)整(2a)中的權(quán)重Gi(k,n)和Q來實(shí)現(xiàn)一致性。根據(jù)實(shí)施例,信號修改器103可以例如存在于近端側(cè),或者如圖2所示,可以在遠(yuǎn)端側(cè)例如接收直達(dá)聲音和擴(kuò)散聲音作為輸入,同時接收DOA估計(jì)作為輔助信息?;谒邮盏男畔?,可以例如根據(jù)公式(2a)生成用于可用的再現(xiàn)系統(tǒng)的輸出信號Yi(k,n)。
在一些實(shí)施例中,在增益選擇單元201和202中,分別從由增益函數(shù)計(jì)算模塊104提供的兩個增益函數(shù)和q(k,n)中選擇參數(shù)Gi(k,n)和Q。
根據(jù)實(shí)施例,例如可以僅基于DOA信息來選擇Gi(k,n),并且Q可以例如具有常數(shù)值。然而,在其他實(shí)施例中,其他權(quán)重Gi(k,n)可以例如基于進(jìn)一步的信息來確定,并且權(quán)重Q可以例如以多種方式來確定。
首先,考慮實(shí)現(xiàn)與記錄的聲學(xué)場景的一致性的實(shí)施。之后,考慮實(shí)現(xiàn)與圖像信息/與視覺圖像的一致性的實(shí)施例。
在下文中,描述了權(quán)重Gi(k,n)和Q的計(jì)算,用于再現(xiàn)與所記錄的聲學(xué)場景一致的聲學(xué)場景,例如,使得位于再現(xiàn)系統(tǒng)的最佳點(diǎn)的收聽者將聲源感知為從所記錄的聲學(xué)場景中的聲源的DOA到達(dá),具有與所記錄的場景中相同的功率,并且再現(xiàn)對周圍的擴(kuò)散聲音的相同感知。
對于已知的揚(yáng)聲器設(shè)置,例如可以通過由增益選擇單元201從由增益函數(shù)計(jì)算模塊104針對估計(jì)的聽提供的固定查找表中選擇直達(dá)聲音增益Gi(k,n)(“直達(dá)增益選擇”),來實(shí)現(xiàn)對來自方向的聲源的再現(xiàn),其可以寫為
其中是為第i個揚(yáng)聲器的所有DOA返回平移增益的函數(shù)。平移增益函數(shù)取決于揚(yáng)聲器設(shè)置和平移方案。
圖5(a)中示出了用于立體聲再現(xiàn)中的左、右揚(yáng)聲器的由向量基幅度平移(VBAP)[14]定義的平移增益函數(shù)的示例。
在圖5(a)中,示出了用于立體聲設(shè)置的VBAP平移增益函數(shù)pb,i的示例,圖5(b)中示出了用于一致再現(xiàn)的平移增益。
例如,如果直達(dá)聲音從到達(dá),則右揚(yáng)聲器增益為Gr(k,n)=gr(30°)=pr(30°)=1,左揚(yáng)聲器增益為Gl(k,n)=gl(30°)=pl(30°)=0。對于從到達(dá)的直達(dá)聲音,最終的立體聲揚(yáng)聲器增益是
在實(shí)施例中,在雙耳聲音再現(xiàn)的情況下,平移增益函數(shù)(例如,)可以是例如頭相關(guān)傳遞函數(shù)(HRTF)。
例如,如果HRTF返回復(fù)數(shù)值,則在增益選擇單元201中選擇的直達(dá)聲音增益Gi(k,n)可以例如是復(fù)數(shù)值的。
如果將生成三個或更多個音頻輸出信號,則可以例如采用對應(yīng)的現(xiàn)有技術(shù)的平移概念來將輸入信號平移到該三個或更多個音頻輸出信號。例如,可以采用用于三個或更多個音頻輸出信號的VBAP。
在一致的聲學(xué)場景再現(xiàn)中,擴(kuò)散聲音的功率應(yīng)與所記錄的場景保持相同。因此,對于具有例如等間隔揚(yáng)聲器的揚(yáng)聲器系統(tǒng),擴(kuò)散聲音增益具有常數(shù)值:
其中I是輸出揚(yáng)聲器聲道的數(shù)量。這意味著增益函數(shù)計(jì)算模塊104根據(jù)可用于再現(xiàn)的揚(yáng)聲器的數(shù)量為第i個揚(yáng)聲器(或耳機(jī)聲道)提供單個輸出值,并且該值被用作所有頻率上的擴(kuò)散增益Q。通過對在(2b)中獲得的Ydiff(k,n)進(jìn)行去相關(guān)來獲得第i個揚(yáng)聲器聲道的最終擴(kuò)散聲音Ydiff,i(k,n)。
因此,可以通過以下操作來實(shí)現(xiàn)與所記錄的聲學(xué)場景一致的聲學(xué)場景再現(xiàn):例如根據(jù)例如到達(dá)方向確定每個音頻輸出信號的增益,將多個確定的增益Gi(k,n)應(yīng)用于直達(dá)聲音信號以確定多個直達(dá)輸出信號分量將確定的增益Q應(yīng)用于擴(kuò)散聲音信號以獲得擴(kuò)散輸出信號分量以及將所述多個直達(dá)輸出信號分量中的每一個與擴(kuò)散輸出信號分量進(jìn)行組合以獲得一個或更多個音頻輸出信號Yi(k,n)。
現(xiàn)在,描述根據(jù)實(shí)施例的實(shí)現(xiàn)與視覺場景的一致性的音頻輸出信號生成。具體地,描述了根據(jù)實(shí)施例的用于再現(xiàn)與視覺場景一致的聲學(xué)場景的權(quán)重Gi(k,n)和Q的計(jì)算。其目的在于重建聲像,其中來自源的直達(dá)聲音從源在視頻/圖像中可見的方向被再現(xiàn)。
可以考慮如圖4所示的幾何形狀,其中l(wèi)對應(yīng)于視覺相機(jī)的觀看方向。不失一般性地,我們可以在坐標(biāo)系的y軸上定義l。
在所描繪的(x,y)坐標(biāo)系中,直達(dá)聲音的DOA的方位角由給出,并且源在x軸上的位置由xg(k,n)給出。這里,假設(shè)所有聲源位于與x軸相距相同的距離g處,例如,源位置位于左虛線上,其在光學(xué)中被稱為焦平面。應(yīng)當(dāng)注意,該假設(shè)僅用于確保視覺和聲音圖像對齊,并且對于所呈現(xiàn)的處理不需要實(shí)際距離值g。
在再現(xiàn)側(cè)(遠(yuǎn)端側(cè)),顯示器位于b,并且顯示器上的源的位置由xb(k,n)給出。此外,xd是顯示器尺寸(或者,在一些實(shí)施例中,例如,xd表示顯示器尺寸的一半),是相應(yīng)的最大視角,S是聲音再現(xiàn)系統(tǒng)的最佳點(diǎn),是直達(dá)聲音應(yīng)被再現(xiàn)為使得視覺圖像和聲音圖像對齊的角度。取決于xb(k,n)以及最佳點(diǎn)S與位于b處的顯示器之間的距離。此外,xb(k,n)取決于幾個參數(shù),例如源與相機(jī)的距離g、圖像傳感器尺寸和顯示器尺寸xd。不幸的是,這些參數(shù)中的至少一些在實(shí)踐中經(jīng)常是未知的,使得對于給定的不能確定xb(k,n)和然而,假設(shè)光學(xué)系統(tǒng)是線性的,根據(jù)公式(17):
其中c是補(bǔ)償上述未知參數(shù)的未知常數(shù)。應(yīng)當(dāng)注意,僅當(dāng)所有源位置具有與x軸相同的距離g時,c才是常數(shù)。
在下文中,假設(shè)c為校準(zhǔn)參數(shù),其應(yīng)當(dāng)在校準(zhǔn)階段期間被調(diào)整,直到視覺圖像和聲音圖像一致。為了執(zhí)行校準(zhǔn),聲源應(yīng)當(dāng)被定位在焦平面上,并且找到c的值以使得視覺圖像和聲音圖像被對齊。一旦校準(zhǔn),c的值保持不變,并且直達(dá)聲音應(yīng)該被再現(xiàn)的角度由下式給出
為了確保聲學(xué)場景和視覺場景兩者一致,將原始平移函數(shù)修改為一致(修改的)平移函數(shù)現(xiàn)在根據(jù)下式來選擇直達(dá)聲音增益Gi(k,n)
其中是一致的平移函數(shù),其在所有可能的源DOA中返回用于第i個揚(yáng)聲器的平移增益。對于c的固定值,在增益函數(shù)計(jì)算模塊104中從原始(例如,VBAP)平移增益表將這樣的一致平移函數(shù)計(jì)算為
因此,在實(shí)施例中,信號處理器105可以例如被配置為針對一個或更多個音頻輸出信號的每個音頻輸出信號進(jìn)行確定,使得直達(dá)增益Gi(k,n)根據(jù)下式來定義
其中,i表示所述音頻輸出信號的索引,其中k表示頻率,并且其中n表示時間,其中Gi(k,n)表示直達(dá)增益,其中表示取決于到達(dá)方向的角度(例如,到達(dá)方向的方位角),其中c表示常數(shù)值,并且其中pi表示平移函數(shù)。
在實(shí)施例中,在增益選擇單元201中基于來自由增益函數(shù)計(jì)算模塊104提供的固定查找表的估計(jì)的來選擇直達(dá)聲音增益,其在使用(19)時(在校準(zhǔn)階段之后)被計(jì)算一次。
因此,根據(jù)實(shí)施例,信號處理器105可以例如被配置為針對一個或更多個音頻輸出信號的每個音頻輸出信號,取決于到達(dá)方向從查找表獲得用于所述音頻輸出信號的直達(dá)增益。
在實(shí)施例中,信號處理器105計(jì)算用于直達(dá)增益函數(shù)gi(k,n)的查找表。例如,對于DOA的方位角值的每個可能的全度數(shù),例如1°、2°、3°、...,可以預(yù)先計(jì)算和存儲直達(dá)增益Gi(k,n)。然后,當(dāng)接收到到達(dá)方向的當(dāng)前方位角值時,信號處理器105從查找表讀取用于當(dāng)前方位角值的直達(dá)增益Gi(k,n)。(當(dāng)前方位角值可以例如是查找表自變量值;并且直達(dá)增益Gi(k,n)可以例如是查找表返回值)。取代DOA的方位角在其他實(shí)施例中,可以針對取決于到達(dá)方向的任意角度計(jì)算查找表。其優(yōu)點(diǎn)在于,不必總是針對每個時間點(diǎn)或者針對每個時間-頻率倉計(jì)算增益值,而是相反地,計(jì)算查找表一次,然后針對接收角從查找表讀取直達(dá)增益Gi(k,n)。
因此,根據(jù)實(shí)施例,信號處理器105可以例如被配置為計(jì)算查找表,其中查找表包括多個條目,其中每個條目包括查找表自變量值和被分配給所述自變量值的查找表返回值。信號處理器105可以例如被配置為通過取決于到達(dá)方向來選擇查找表的查找表自變量值之一,從查找表獲得查找表返回值之一。此外,信號處理器105可以例如被配置為根據(jù)從查找表獲得的查找表返回值中的一個來確定一個或更多個音頻輸出信號中的至少一個信號的增益值。
信號處理器105可以例如被配置為通過取決于另一個到達(dá)方向選擇查找表自變量值中的另一個自變量值,從(相同)查找表獲得查找表返回值中的另一個返回值,以確定增益值。例如,信號處理器可以例如在稍后的時間點(diǎn)接收取決于所述另一個到達(dá)方向的另一個方向信息。
圖5(a)和5(b)中示出了VBAP平移和一致的平移增益函數(shù)的示例。
應(yīng)當(dāng)注意,取代重新計(jì)算平移增益表,可以備選地計(jì)算用于顯示器的并將其應(yīng)用于原始平移函數(shù)中作為這是真的,因?yàn)橐韵玛P(guān)系成立:
然而,這將要求增益函數(shù)計(jì)算模塊104還接收估計(jì)的作為輸入,并且然后將針對每個時間索引n執(zhí)行例如根據(jù)公式(18)進(jìn)行的DOA重新計(jì)算。
關(guān)于擴(kuò)散聲音再現(xiàn),當(dāng)以與沒有視覺的情況下所解釋的方式相同的方式進(jìn)行處理時,例如當(dāng)擴(kuò)散聲音的功率保持與記錄場景中的擴(kuò)散功率相同,并且揚(yáng)聲器信號是Ydiff(k,n)的不相關(guān)版本時,一致地重建聲學(xué)圖像和視覺圖像。對于等間隔的揚(yáng)聲器,擴(kuò)散聲音增益具有例如由公式(16)給出的常數(shù)值。結(jié)果,增益函數(shù)計(jì)算模塊104為第i個揚(yáng)聲器(或耳機(jī)聲道)提供在所有頻率上用作擴(kuò)散增益Q的單個輸出值。通過對由公式(2b)給出的Ydiff(k,n)進(jìn)行去相關(guān)來獲得第i個揚(yáng)聲器聲道的最終擴(kuò)散聲音Ydiff,i(k,n)。
現(xiàn)在,考慮提供基于DOA的聲學(xué)縮放的實(shí)施例。在這樣的實(shí)施例中,可以考慮與視覺縮放一致的用于聲學(xué)縮放的處理。通過調(diào)整例如在公式(2a)中采用的權(quán)重Gi(k,n)和Q來實(shí)現(xiàn)這種一致的視聽縮放,如圖2的信號修改器103所示。
在實(shí)施例中,例如,可以在增益選擇單元201中從直達(dá)增益函數(shù)gi(k,n)中選擇直達(dá)增益Gi(k,n),其中,所述直達(dá)增益函數(shù)是在增益函數(shù)計(jì)算模塊104中基于參數(shù)估計(jì)模塊102中估計(jì)的DOA來計(jì)算的。在增益選擇單元202中從在增益函數(shù)計(jì)算模塊104中計(jì)算的擴(kuò)散增益函數(shù)q(β)中選擇擴(kuò)散增益Q。在其他實(shí)施例中,直達(dá)增益Gi(k,n)和擴(kuò)散增益Q由信號修改器103計(jì)算,而不需要首先計(jì)算相應(yīng)的增益函數(shù)然后選擇增益。
應(yīng)當(dāng)注意,與上述實(shí)施例相反,基于縮放因子β確定擴(kuò)散增益函數(shù)q(β)。在實(shí)施例中,不使用距離信息,因此,在這樣的實(shí)施例中,不在參數(shù)估計(jì)模塊102中估計(jì)距離信息。
為了在(2a)中導(dǎo)出縮放參數(shù)Gi(k,n)和Q,考慮圖4中的幾何圖形。圖中所示的參數(shù)類似于在上述實(shí)施例中參考圖4所描述的參數(shù)。
類似于上述實(shí)施例,假設(shè)所有聲源位于焦平面上,所述焦平面以距離g與x軸平行。應(yīng)當(dāng)注意,一些自動聚焦系統(tǒng)能夠提供g,例如到焦平面的距離。這允許假設(shè)圖像中的所有源都是銳利的。在再現(xiàn)(遠(yuǎn)端)側(cè),顯示器上的和位置xb(k,n)取決于許多參數(shù),例如源與相機(jī)的距離g、圖像傳感器尺寸、顯示器尺寸xd和相機(jī)的縮放因子(例如,相機(jī)的打開角度)β。假設(shè)光學(xué)系統(tǒng)是線性的,根據(jù)公式(23):
其中c是補(bǔ)償未知光學(xué)參數(shù)的校準(zhǔn)參數(shù),β≥1是用戶控制的縮放因子。應(yīng)當(dāng)注意,在視覺相機(jī)中,以因子β放大等于將xb(k,n)乘以β。此外,僅當(dāng)所有源位置與x軸具有相同的距離g時,c才是常數(shù)。在這種情況下,c可以被認(rèn)為是校準(zhǔn)參數(shù),其被調(diào)整一次使得視覺圖形和聲音圖像對齊。從直達(dá)增益函數(shù)中選擇直達(dá)聲音增益Gi(k,n),如下
其中表示平移增益函數(shù),是用于一致的視聽縮放的窗增益函數(shù)。在增益函數(shù)計(jì)算模塊104中從原始(例如,VBAP)平移增益函數(shù)計(jì)算用于一致的視聽縮放的平移增益函數(shù),如下
因此,例如在增益選擇單元201中選擇的直達(dá)聲音增益Gi(k,n)基于來自在增益函數(shù)計(jì)算模塊104中計(jì)算的查找平移表的估計(jì)的來確定,如果β不改變,則所述估計(jì)的是固定的。應(yīng)當(dāng)注意,在一些實(shí)施例中,每次修改縮放因子β時,需要通過使用例如公式(26)來重新計(jì)算
圖6(參照圖6(a)和圖6(b))中示出了β=1和β=3的示例立體聲平移增益函數(shù)。特別地,圖6(a)示出了β=1的示例平移增益函數(shù)pb,i;圖6(b)示出了在β=3的縮放之后的平移增益;以及圖6(c)示出了在具有角位移的β=3的縮放之后的平移增益。
在該示例中可以看出,當(dāng)直達(dá)聲音從到達(dá)時,對于大的β值,左揚(yáng)聲器的平移增益增加,而右揚(yáng)聲器的平移函數(shù),且β=3返回比β=1小的值。當(dāng)縮放因子β增加時,這種平移有效地將感知的源位置更多地向外部方向移動。
根據(jù)實(shí)施例,信號處理器105可以例如被配置為確定兩個或更多個音頻輸出信號。對于兩個或更多個音頻輸出信號的每個音頻輸出信號,將平移增益函數(shù)分配給所述音頻輸出信號。
兩個或更多個音頻輸出信號中的每一個的平移增益函數(shù)包括多個平移函數(shù)自變量值,其中平移函數(shù)返回值被分配給所述平移函數(shù)自變量值中的每一個,其中,當(dāng)所述平移函數(shù)接收到所述平移函數(shù)自變量值之一時,所述平移函數(shù)被配置為返回被分配給所述平移函數(shù)自變量值中的所述一個值的平移函數(shù)返回值。
信號處理器105被配置為根據(jù)分配給所述音頻輸出信號的平移增益函數(shù)的平移函數(shù)自變量值的取決于方向的自變量值來確定兩個或更多個音頻輸出信號中的每一個,其中所述取決于方向的自變量值取決于到達(dá)方向。
根據(jù)實(shí)施例,兩個或更多個音頻輸出信號中的每一個的平移增益函數(shù)具有作為平移函數(shù)自變量值之一的一個或更多個全局最大值,其中對于每個平移增益函數(shù)的一個或更多個全局最大值中的每一個,不存在使得所述平移增益函數(shù)返回比所述全局最大值更大的平移函數(shù)返回值的其他平移函數(shù)自變量值。
對于兩個或更多個音頻輸出信號的第一音頻輸出信號和第二音頻輸出信號的每對,第一音頻輸出信號的平移增益函數(shù)的一個或更多個全局最大值中的至少一個不同于第二音頻輸出信號的平移增益函數(shù)的一個或更多個全局最大值中的任一個。
簡言之,實(shí)現(xiàn)平移函數(shù)使得不同的平移函數(shù)的全局最大值(的至少一個)不同。
例如,在圖6(a)中,的局部最大值在-45°至-28°的范圍內(nèi),并且的局部最大值在+28°至+45°的范圍內(nèi),因此全局最大值不同。
例如,在圖6(b)中,的局部最大值在-45°至-8°的范圍內(nèi),并且的局部最大值在+8°至+45°的范圍內(nèi),因此全局最大值也不同。
例如,在圖6(c)中,的局部最大值在-45°至+2°的范圍內(nèi),并且的局部最大值在+18°至+45°的范圍內(nèi),因此全局最大值也不同。
平移增益函數(shù)可以例如被實(shí)現(xiàn)為查找表。
在這樣的實(shí)施例中,信號處理器105可以例如被配置為計(jì)算用于至少一個音頻輸出信號的平移增益函數(shù)的平移查找表。
所述至少一個音頻輸出信號的每個音頻輸出信號的平移查找表可以例如包括多個條目,其中每個條目包括所述音頻輸出信號的平移增益函數(shù)的平移函數(shù)自變量值,并且所述平移函數(shù)返回值被分配給所述平移函數(shù)自變量值,其中信號處理器105被配置為通過根據(jù)到達(dá)方向來從平移查找表選擇取決于方向的自變量值,來從所述平移查找表獲得平移函數(shù)返回值之一,并且其中信號處理器105被配置為根據(jù)從所述平移查找表獲得的所述平移函數(shù)返回值之一來確定所述音頻輸出信號的增益值。
在下文中,描述了采用直達(dá)聲音窗的實(shí)施例。根據(jù)這樣的實(shí)施例,根據(jù)下式來計(jì)算用于一致的縮放的直達(dá)聲窗
其中是用于聲學(xué)縮放的窗增益函數(shù),其中如果源被映射到縮放因子β的視覺圖像之外的位置,則所述窗增益函數(shù)衰減直達(dá)聲音。
例如,可以針對β=1設(shè)置窗函數(shù)使得在視覺圖像之外的源的直達(dá)聲音減小到期望的水平,并且可以例如通過采用公式(27)在每次縮放參數(shù)改變時都對其進(jìn)行重新計(jì)算。應(yīng)當(dāng)注意,對于所有揚(yáng)聲器聲道,是相同的。圖7(a-b)中示出了β=1和β=3的示例窗函數(shù),其中對于增加的β值,窗寬度減小。
圖7中示出了一致的窗增益函數(shù)的示例。特別地,圖7(a)示出了沒有縮放(縮放因子β=1)的窗增益函數(shù)wb,圖7(b)示出了縮放之后(縮放因子β=3)的窗增益函數(shù),圖7(c)示出了在具有角位移的縮放之后(縮放因子β=3)的窗增益函數(shù)。例如,角位移可以實(shí)現(xiàn)窗向觀察方向的旋轉(zhuǎn)。
例如,在圖7(a)、7(b)和7(c)中,如果位于窗內(nèi),則窗增益函數(shù)返回增益1,如果位于窗外,則窗增益函數(shù)返回增益0.18,并且如果位于窗的邊界處,則窗增益函數(shù)返回0.18和1之間的增益。
根據(jù)實(shí)施例,信號處理器105被配置為根據(jù)窗增益函數(shù)來生成一個或更多個音頻輸出信號的每個音頻輸出信號。窗增益函數(shù)被配置為在接收到窗函數(shù)自變量值時返回窗函數(shù)返回值。
如果窗函數(shù)自變量值大于下窗閾值并且小于上窗閾值,則窗增益函數(shù)被配置為返回比在窗函數(shù)自變量值小于下閾值或大于上閾值的情況下由所述窗增益函數(shù)返回的任何窗函數(shù)返回值大的窗函數(shù)返回值。
例如,在公式(27)中
到達(dá)方向的方位角是窗增益函數(shù)的窗函數(shù)自變量值。窗增益函數(shù)取決于縮放信息,這里為縮放因子β。
為了解釋窗增益函數(shù)的定義,可以參考圖7(a)。
如果DOA的方位角大于-20°(下閾值)且小于+20°(上閾值),則窗增益函數(shù)返回的所有值都大于0.6。否則,如果DOA的方位角小于-20°(下閾值)或大于+20°(上閾值),則窗增益函數(shù)返回的所有值都小于0.6。
在實(shí)施例中,信號處理器105被配置為接收縮放信息。此外,信號處理器105被配置為根據(jù)窗增益函數(shù)生成一個或更多個音頻輸出信號的每個音頻輸出信號,其中窗增益函數(shù)取決于縮放信息。
在其他值被認(rèn)為是下/上閾值,或者其他值被認(rèn)為是返回值的情況下,這可以通過圖7(b)和圖7(c)的(修改的)窗增益函數(shù)看出。參考圖7(a)、7(b)和7(c),可以看出,窗增益函數(shù)取決于縮放信息:縮放因子β。
窗增益函數(shù)可以例如被實(shí)現(xiàn)為查找表。在這樣的實(shí)施例中,信號處理器105被配置為計(jì)算窗查找表,其中窗查找表包括多個條目,其中每個條目包括窗增益函數(shù)的窗函數(shù)自變量值和窗增益函數(shù)的被分配給所述窗函數(shù)自變量值的窗函數(shù)返回值。信號處理器105被配置為通過取決于到達(dá)方向選擇窗查找表的窗函數(shù)自變量值之一,從窗查找表獲得窗函數(shù)返回值之一。此外,信號處理器105被配置為根據(jù)從窗查找表獲得的窗函數(shù)返回值中的所述一個值來確定一個或更多個音頻輸出信號中的至少一個信號的增益值。
除了縮放概念之外,窗和平移函數(shù)可以移動位移角度θ。該角度可以對應(yīng)于相機(jī)觀看方向l的旋轉(zhuǎn)或者通過類比于相機(jī)中的數(shù)字縮放在視覺圖像內(nèi)移動。在前一種情況下,針對顯示器上的角度重新計(jì)算相機(jī)旋轉(zhuǎn)角度,例如,類似于公式(23)。在后一種情況下,θ可以是用于一致的聲學(xué)縮放的窗和平移函數(shù)(例如和)的直接偏移。在圖5(c)和圖6(c)中描繪了對兩個函數(shù)進(jìn)行位移的示意性示例。
應(yīng)注意的是,取代重新計(jì)算平移增益和窗函數(shù),可以例如根據(jù)公式(23)計(jì)算顯示器的并且將其分別應(yīng)用于原始平移和窗函數(shù)作為和這種處理是等效的,因?yàn)橐韵玛P(guān)系成立:
然而,這將要求增益函數(shù)計(jì)算模塊104接收估計(jì)的作為輸入,并且在每個連續(xù)時間幀中執(zhí)行例如根據(jù)公式(18)的DOA重新計(jì)算,而不管β是否改變。
對于擴(kuò)散聲音,例如在增益函數(shù)計(jì)算模塊104中計(jì)算擴(kuò)散增益函數(shù)q(β)僅需要知道可用于再現(xiàn)的揚(yáng)聲器I的數(shù)量。因此,其可以獨(dú)立于視覺相機(jī)或顯示器的參數(shù)來設(shè)置。
例如,對于等間隔的揚(yáng)聲器,在增益選擇單元202中基于縮放參數(shù)β選擇公式(2a)中的實(shí)值擴(kuò)散聲音增益使用擴(kuò)散增益的目的是根據(jù)縮放因子衰減擴(kuò)散聲音,例如,縮放增加了再現(xiàn)信號的DRR。這通過針對較大的β而降低Q來實(shí)現(xiàn)。事實(shí)上,放大意味著相機(jī)的打開角度變小,例如,自然聲學(xué)對應(yīng)將是捕獲較少擴(kuò)散聲音的更直達(dá)的麥克風(fēng)。
為了模擬這種效果,實(shí)施例可以例如采用圖8所示的增益函數(shù)。圖8示出了擴(kuò)散增益函數(shù)q(β)的示例。
在其他實(shí)施例中,增益函數(shù)被不同地定義。通過對例如根據(jù)公式(2b)的Ydiff(k,n)進(jìn)行去相關(guān)來獲得第i個揚(yáng)聲器聲道的最終擴(kuò)散聲音Ydiff,i(k,n)。
在下文中,考慮基于DOA和距離的聲學(xué)縮放。
根據(jù)一些實(shí)施例,信號處理器105可以例如被配置為接收距離信息,其中信號處理器105可以例如被配置為根據(jù)所述距離信息生成一個或更多個音頻輸出信號中的每個音頻輸出信號。
一些實(shí)施例采用基于估計(jì)的和距離值r(k,n)的一致的聲學(xué)縮放的處理。這些實(shí)施例的構(gòu)思還可以應(yīng)用于在不進(jìn)行縮放的情況下將所記錄的聲學(xué)場景與視頻對齊,其中源不位于與之前在可用的距離信息r(k,n)中假設(shè)的距離相同的距離,這使得我們能夠創(chuàng)建針對在視覺圖像中不出現(xiàn)尖銳的聲源(例如針對不位于相機(jī)的焦平面上的源)創(chuàng)建聲學(xué)模糊效果。
為了利用對位于不同距離處的源進(jìn)行模糊來促進(jìn)一致的聲音再現(xiàn)(例如聲學(xué)縮放),可以在公式(2a)中基于兩個估計(jì)的參數(shù)(即和r(k,n))并根據(jù)縮放因子β來調(diào)整增益Gi(k,n)和Q,如在圖2的信號修改器103中所示。如果不涉及縮放,則β可以被設(shè)置為β=1。
例如,可以如上所述在參數(shù)估計(jì)模塊102中估計(jì)參數(shù)和r(k,n)。在該實(shí)施例中,基于來自一個或更多個直達(dá)增益函數(shù)gi,j(k,n)(其可以例如在增益函數(shù)計(jì)算模塊104中計(jì)算)的DOA和距離信息來確定直達(dá)增益Gi(k,n)(例如通過在增益選擇單元201中選擇)。與如針對上述實(shí)施例所描述的相類似,可以例如在增益選擇單元202中從擴(kuò)散增益函數(shù)q(β)中選擇擴(kuò)散增益Q,例如,基于縮放因子β在增益函數(shù)計(jì)算模塊104中計(jì)算。
在其他實(shí)施例中,直達(dá)增益Gi(k,n)和擴(kuò)散增益Q由信號修改器103計(jì)算,而不需要首先計(jì)算相應(yīng)的增益函數(shù)然后選擇增益。
為了解釋不同距離處的聲源的聲學(xué)再現(xiàn)和聲學(xué)縮放,參考圖9。圖9中表示的參數(shù)與上文描述的那些類似。
在圖9中,聲源位于與x軸相距距離R(k,n)的位置P′。距離r可以是例如是(k,n)特定的(時間-頻率特定的:r(k,n))表示源位置和焦平面(通過g的左垂直線)之間的距離。應(yīng)當(dāng)注意,一些自動聚焦系統(tǒng)能夠提供g,例如到焦平面的距離。
來自麥克風(fēng)陣列的視點(diǎn)的直達(dá)聲音的DOA由表示。與其他實(shí)施例不同,不假設(shè)所有源位于距相機(jī)鏡頭相同的距離g處。因此,例如,位置P′可以具有相對于x軸的任意距離R(k,n)。
如果源不位于焦平面上,則視頻中的源將顯得模糊。此外,實(shí)施例基于如下發(fā)現(xiàn):如果源位于虛線910上的任何位置,則它將出現(xiàn)在視頻中的相同位置xb(k,n)。然而,實(shí)施例基于如下的發(fā)現(xiàn):如果源沿著虛線910移動,則直達(dá)聲音的估計(jì)的將改變。換句話說,基于實(shí)施例采用的發(fā)現(xiàn),如果源平行于y軸移動,則估計(jì)的將在xb(進(jìn)而應(yīng)該再現(xiàn)聲音的)保持相同。因此,如果如在先前實(shí)施例中所描述的那樣將估計(jì)的發(fā)送到遠(yuǎn)端側(cè)并且用于聲音再現(xiàn),則如果源改變其距離R(k,n),聲學(xué)圖像和視覺圖像不再對齊。
為了補(bǔ)償該效應(yīng)并實(shí)現(xiàn)一致的聲音再現(xiàn),例如在參數(shù)估計(jì)模塊102中進(jìn)行的DOA估計(jì)好像源位于位置P處的焦平面上那樣對直達(dá)聲音的DOA進(jìn)行估計(jì)。該位置表示P′在焦平面上的投影。相應(yīng)的DOA由圖9中的表示,并且在遠(yuǎn)端側(cè)用于一致的聲音再現(xiàn),與前述實(shí)施例相類似。如果r和g是已知的,則可以基于幾何考慮從估計(jì)的(原始)計(jì)算(修改的)
例如,在圖9中,信號處理器105可以例如根據(jù)下式從r和g計(jì)算
因此,根據(jù)實(shí)施例,信號處理器105可以例如被配置為接收到達(dá)方向的原始方位角所述到達(dá)方向是兩個或更多個音頻輸入信號的直達(dá)信號分量的到達(dá)方向,并且信號處理器被配置為還接收距離信息,并且可以例如被配置為還接收距離信息r。信號處理器105可以例如被配置為根據(jù)原始到達(dá)方向的方位角并根據(jù)到達(dá)方向的距離信息r和g來計(jì)算到達(dá)方向的修改的方位角信號處理器105可以例如被配置為根據(jù)修改的到達(dá)方向的方位角生成一個或更多個音頻輸出信號中的每個音頻輸出信號。
可以如上所述估計(jì)所需的距離信息(焦平面的距離g可以從透鏡系統(tǒng)或者自動聚焦信息獲得)。應(yīng)當(dāng)注意,例如,在本實(shí)施例中,源和焦平面之間的距離r(k,n)與(映射的)一起被發(fā)送到遠(yuǎn)端側(cè)。
此外,通過類比于視覺縮放,位于距焦平面大距離r處的源在圖像中不顯得銳利。這種效應(yīng)在光學(xué)中是公知的,稱為所謂的場深(DOF),其定義了源距離在視覺圖像中看起來銳利的可接受的范圍。
作為距離r的函數(shù)的DOF曲線的示例在圖10(a)中示出。
圖10示出了用于場深的示例圖(圖10(a))、用于低通濾波器的截止頻率的示例圖(圖10(b))和用于重復(fù)直達(dá)聲音的以ms為單位的時延的示例圖(圖10(c))。
在圖10(a)中,距離焦平面小距離處的源仍然是銳利的,而較遠(yuǎn)距離(距離相機(jī)更近或更遠(yuǎn))的源顯得模糊。因此,根據(jù)實(shí)施例,相應(yīng)的聲源被模糊,使得它們的視覺圖像和聲學(xué)圖像是一致的。
為了導(dǎo)出實(shí)現(xiàn)聲學(xué)模糊和一致的空間聲音再現(xiàn)的(2a)中的增益Gi(k,n)和Q,考慮位于處的源將出現(xiàn)在顯示器上的角度。模糊的源將顯示在
其中c是校準(zhǔn)參數(shù),β≥1是用戶控制的縮放因子,是例如在參數(shù)估計(jì)模塊102中估計(jì)的(映射的)DOA。如前所述,這種實(shí)施例中的直達(dá)增益Gi(k,n)可以例如根據(jù)多個直達(dá)增益函數(shù)gi,j來計(jì)算。特別地,例如可以使用兩個增益函數(shù)和gi,2(r(k,n)),其中第一增益函數(shù)取決于并且其中第二增益函數(shù)取決于距離r(k,n)。直達(dá)增益Gi(k,n)可以計(jì)算為:
gi,2(r)=b(r), (33)
其中表示平移增益函數(shù)(以確保聲音從右方向再現(xiàn)),其中是窗增益函數(shù)(以確保直達(dá)聲音在源在視頻中不可見的情況下被衰減),并且其中b(r)是模糊函數(shù)(在源不位于焦平面上的情況下對源進(jìn)行聲學(xué)模糊化)。
應(yīng)當(dāng)注意,所有增益函數(shù)可以被定義為取決于頻率(為了簡潔在此省略)。還應(yīng)當(dāng)注意,在該實(shí)施例中,通過選擇和乘以來自兩個不同增益函數(shù)的增益來找到直達(dá)增益Gi,如公式(32)所示。
兩個增益函數(shù)和被如上所述類似地定義。例如,可以例如在增益函數(shù)計(jì)算模塊104中使用公式(26)和(27)計(jì)算它們,并且它們保持固定,除非縮放因子β改變。上文已經(jīng)提供了對這兩個函數(shù)的詳細(xì)描述。模糊函數(shù)b(r)返回導(dǎo)致源的模糊(例如,感知擴(kuò)展)的復(fù)數(shù)增益,因此總增益函數(shù)gi通常也將返回復(fù)數(shù)。為了簡單起見,在下文中,將模糊表示為到焦平面的距離的函數(shù)b(r)。
可以獲得模糊效果作為以下模糊效果中的選定的一個或組合:低通濾波、添加延遲的直達(dá)聲音、直達(dá)聲音衰減、時間平滑和/或DOA擴(kuò)展。因此,根據(jù)實(shí)施例,信號處理器105可以例如被配置為通過進(jìn)行低通濾波、或通過添加延遲的直達(dá)聲音、或通過進(jìn)行直達(dá)聲音衰減、或通過進(jìn)行時間平滑、或者通過進(jìn)行到達(dá)方向擴(kuò)展來生成一個或更多個音頻輸出信號。
低通濾波:在視覺中,可以通過低通濾波獲得非銳利的視覺圖像,其有效地合并視覺圖像中的相鄰像素。類似地,可以通過對具有截止頻率的直達(dá)聲音的低通濾波來獲得聲學(xué)模糊效果,其中所述截止頻率是基于源到焦平面r的估計(jì)距離來選擇的。這種情況下,模糊函數(shù)b(r,k)針對頻率k和距離r返回低通濾波器增益。圖10(b)中示出了用于16kHz的采樣頻率的一階低通濾波器的截止頻率的示例曲線。對于小距離r,截止頻率接近奈奎斯特頻率,因此幾乎沒有有效地執(zhí)行低通濾波。對于較大的距離值,截止頻率減小,直到其在3kHz處穩(wěn)定,此時聲學(xué)圖像被充分模糊。
添加延遲的直達(dá)聲音:為了鈍化源的聲學(xué)圖像,我們可以例如通過在某個延遲τ(例如,在1和30ms之間)之后重復(fù)衰減直達(dá)聲音來對直達(dá)聲音進(jìn)行去相關(guān)。這樣的處理可以例如根據(jù)公式(34)的復(fù)數(shù)增益函數(shù)來進(jìn)行:
b(r,k)=1+α(r)e-jωτ(r) (34)
其中α表示重復(fù)聲音的衰減增益,τ是直達(dá)聲音被重復(fù)之后的延遲。圖10(c)中示出示例延遲曲線(以ms為單位)。對于小距離,不重復(fù)延遲的信號,并且將α設(shè)置為零。對于更大的距離,時間延遲隨著距離的增加而增加,這導(dǎo)致聲源的感知擴(kuò)展。
直達(dá)聲衰減:當(dāng)直達(dá)聲音以常數(shù)因子衰減時,源也可以被感知為模糊的。在這種情況下,b(r)=const<1。如上所述,模糊函數(shù)b(r)可以由任何所提到的模糊效應(yīng)或這些效果的組合構(gòu)成。此外,可以使用模糊源的備選處理。
時間平滑:直達(dá)聲音隨時間的平滑可以例如用于感知地模糊聲源。這可以通過隨著時間對所提取的直達(dá)信號的包絡(luò)進(jìn)行平滑來實(shí)現(xiàn)。
DOA擴(kuò)展:鈍化聲源的另一種方法在于僅從估計(jì)方向再現(xiàn)來自方向范圍的源信號。這可以通過對角度進(jìn)行隨機(jī)化(例如通過從以估計(jì)的為中心的高斯分布取隨機(jī)角度)來實(shí)現(xiàn)。增加這種分布的方差從而擴(kuò)大可能的DOA范圍,增加了模糊的感覺。
與如上所述相類似地,在一些實(shí)施例中,在增益函數(shù)計(jì)算模塊104中計(jì)算擴(kuò)散增益函數(shù)q(β)可以僅需要知道可用于再現(xiàn)的揚(yáng)聲器I的數(shù)量。因此,在這種實(shí)施例中,可以根據(jù)應(yīng)用的需要來設(shè)置擴(kuò)散增益函數(shù)q(β)。例如,對于等間隔的揚(yáng)聲器,在增益選擇單元202中基于縮放參數(shù)β選擇公式(2a)中的實(shí)值擴(kuò)散聲音增益使用擴(kuò)散增益的目的是根據(jù)縮放因子衰減擴(kuò)散聲音,例如,縮放增加了再現(xiàn)信號的DRR。這通過針對較大的β而降低Q來實(shí)現(xiàn)。事實(shí)上,放大意味著相機(jī)的打開角度變小,例如,自然聲學(xué)對應(yīng)將是捕獲較少擴(kuò)散聲音的更直達(dá)的麥克風(fēng)。為了模擬這種效果,我們可以使用例如圖8所示的增益函數(shù)。顯然,增益函數(shù)也可以不同地定義??蛇x地,通過對在公式(2b)中獲得的Ydiff(k,n)進(jìn)行去相關(guān)來獲得第i個揚(yáng)聲器聲道的最終擴(kuò)散聲音Ydiff,i(k,n)。
現(xiàn)在,考慮實(shí)現(xiàn)針對助聽器和助聽設(shè)備的應(yīng)用的實(shí)施例。圖11示出了這種助聽器應(yīng)用。
一些實(shí)施例涉及雙耳助聽器。在這種情況下,假設(shè)每個助聽器配備有至少一個麥克風(fēng),并且可以在兩個助聽器之間交換信息。由于一些聽力損失,聽覺受損的人可能難以對期望的聲音進(jìn)行聚焦(例如,集中于來自特定點(diǎn)或方向的聲音)。為了幫助聽力受損人士的大腦處理由助聽器再現(xiàn)的聲音,使聲學(xué)圖像與助聽器用戶的焦點(diǎn)或方向一致??梢韵氲?,焦點(diǎn)或方向是預(yù)定義的,用戶定義的或由腦機(jī)接口定義的。這樣的實(shí)施例確保期望的聲音(假定從焦點(diǎn)或聚焦方向到達(dá))和不期望的聲音在空間上分離。
在這樣的實(shí)施例中,可以以不同的方式估計(jì)直達(dá)聲音的方向。根據(jù)實(shí)施例,基于使用兩個助聽器(參見[15]和[16])確定的耳間電平差(ILD)和/或耳間時間差(ITD)來確定方向。
根據(jù)其他實(shí)施例,使用配備有至少兩個麥克風(fēng)的助聽器獨(dú)立地估計(jì)左側(cè)和右側(cè)的直達(dá)聲音的方向(參見[17])?;谧笥抑犉魈幍穆晧杭壔蜃笥抑犉魈幍目臻g相干性,可以確定(fuss)估計(jì)的方向。由于頭部遮蔽效應(yīng),可以對不同的頻帶(例如,在高頻處的ILD和在低頻處的ITD)采用不同的估計(jì)器。
在一些實(shí)施例中,直達(dá)聲音信號和擴(kuò)散聲音信號可以例如使用上述通知的空間濾波技術(shù)來估計(jì)。在這種情況下,可以(例如,通過改變參考麥克風(fēng))單獨(dú)地估計(jì)在左、右助聽器處接收的直達(dá)和擴(kuò)散聲音,或者可以以與在先前實(shí)施例中獲得不同揚(yáng)聲器或耳機(jī)信號相類似的方式,分別使用用于左、右助聽器輸出的增益函數(shù)來生成左、右輸出信號。
為了在空間上分離期望的聲音和非期望的聲音,可以應(yīng)用在上述實(shí)施例中說明的聲學(xué)縮放。在這種情況下,對焦點(diǎn)或?qū)狗较驔Q定了縮放因子。
因此,根據(jù)實(shí)施例,可以提供助聽器或助聽設(shè)備,其中助聽器或助聽設(shè)備包括如上所述的系統(tǒng),其中上述系統(tǒng)的信號處理器105例如根據(jù)聚焦方向或聚焦點(diǎn),針對一個或更多個音頻輸出信號中的每一個確定直達(dá)增益。
在實(shí)施例中,上述系統(tǒng)的信號處理器105可以例如被配置為接收縮放信息。上述系統(tǒng)的信號處理器105例如可以被配置為根據(jù)窗增益函數(shù)生成一個或更多個音頻輸出信號的每個音頻輸出信號,其中窗增益函數(shù)取決于縮放信息。采用與參考圖7(a)、7(b)和7(c)解釋的相同的構(gòu)思。
如果取決于聚焦方向或聚焦點(diǎn)的窗函數(shù)自變量值大于下閾值并且小于上閾值,則窗增益函數(shù)被配置為返回比在窗函數(shù)自變量值小于下閾值或大于上閾值的情況下由所述窗增益函數(shù)返回的任何窗增益大的窗增益。
例如,在聚焦方向的情況下,聚焦方向本身可以是窗函數(shù)自變量(因此,窗函數(shù)自變量取決于聚焦方向)。在聚焦位置的情況下,可以例如從聚焦位置導(dǎo)出窗函數(shù)自變量。
類似地,本發(fā)明可以應(yīng)用于包括輔助收聽設(shè)備或諸如Google眼鏡之類的設(shè)備的其他可穿戴設(shè)備。應(yīng)當(dāng)注意,一些可穿戴設(shè)備還配備有一個或更多個相機(jī)或ToF傳感器,其可以用于估計(jì)物體到佩戴該設(shè)備的人的距離。
雖然已經(jīng)在裝置的上下文中描述了一些方面,但是將清楚的是,這些方面還表示對相應(yīng)方法的描述,其中,框或設(shè)備對應(yīng)于方法步驟或方法步驟的特征。類似地,在方法步驟的上下文中描述的方案也表示對相應(yīng)塊或項(xiàng)或者相應(yīng)裝置的特征的描述。
創(chuàng)造性的分解信號可以存儲在數(shù)字存儲介質(zhì)上,或者可以在諸如無線傳輸介質(zhì)或有線傳輸介質(zhì)(例如,互聯(lián)網(wǎng))等的傳輸介質(zhì)上傳輸。
取決于某些實(shí)現(xiàn)要求,可以在硬件中或在軟件中實(shí)現(xiàn)本發(fā)明的實(shí)施例??梢允褂闷渖洗鎯τ须娮涌勺x控制信號的數(shù)字存儲介質(zhì)(例如,軟盤、DVD、CD、ROM、PROM、EPROM、EEPROM或閃存)來執(zhí)行該實(shí)現(xiàn),該電子可讀控制信號與可編程計(jì)算機(jī)系統(tǒng)協(xié)作(或者能夠與之協(xié)作)從而執(zhí)行相應(yīng)方法。
根據(jù)本發(fā)明的一些實(shí)施例包括具有電子可讀控制信號的非暫時性數(shù)據(jù)載體,該電子可讀控制信號能夠與可編程計(jì)算機(jī)系統(tǒng)協(xié)作從而執(zhí)行本文所述的方法之一。
通常,本發(fā)明的實(shí)施例可以實(shí)現(xiàn)為具有程序代碼的計(jì)算機(jī)程序產(chǎn)品,程序代碼可操作以在計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時執(zhí)行方法之一。程序代碼可以例如存儲在機(jī)器可讀載體上。
其他實(shí)施例包括存儲在機(jī)器可讀載體上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。
換言之,本發(fā)明方法的實(shí)施例因此是具有程序代碼的計(jì)算機(jī)程序,該程序代碼用于在計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時執(zhí)行本文所述的方法之一。
因此,本發(fā)明方法的另一實(shí)施例是其上記錄有計(jì)算機(jī)程序的數(shù)據(jù)載體(或者數(shù)字存儲介質(zhì)或計(jì)算機(jī)可讀介質(zhì)),該計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。
因此,本發(fā)明方法的另一實(shí)施例是表示計(jì)算機(jī)程序的數(shù)據(jù)流或信號序列,所述計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。數(shù)據(jù)流或信號序列可以例如被配置為經(jīng)由數(shù)據(jù)通信連接(例如,經(jīng)由互聯(lián)網(wǎng))傳遞。
另一實(shí)施例包括處理裝置,例如,計(jì)算機(jī)或可編程邏輯器件,所述處理裝置被配置為或適于執(zhí)行本文所述的方法之一。
另一實(shí)施例包括其上安裝有計(jì)算機(jī)程序的計(jì)算機(jī),該計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。
在一些實(shí)施例中,可編程邏輯器件(例如,現(xiàn)場可編程門陣列)可以用于執(zhí)行本文所述的方法的功能中的一些或全部。在一些實(shí)施例中,現(xiàn)場可編程門陣列可以與微處理器協(xié)作以執(zhí)行本文所述的方法之一。通常,方法優(yōu)選地由任意硬件裝置來執(zhí)行。
上述實(shí)施例對于本發(fā)明的原理僅是說明性的。應(yīng)當(dāng)理解的是:本文所述的布置和細(xì)節(jié)的修改和變形對于本領(lǐng)域其他技術(shù)人員將是顯而易見的。因此,旨在僅由所附專利權(quán)利要求的范圍來限制而不是由借助對本文的實(shí)施例的描述和解釋所給出的具體細(xì)節(jié)來限制。
參考文獻(xiàn)
Y.Ishigaki,M.Yamamoto,K.Totsuka,and N.Miyaji,“Zoom microphone,”in Audio Engineering Society Convention 67,Paper 1713,October 1980.
M.Matsumoto,H.Naono,H.Saitoh,K.Fujimura,and Y.Yasuno,“Stereo zoom microphone for consumer video cameras,”Consumer Electronics,IEEE Transactions on,vol.35,no.4,pp.759-766,November 1989.August 13,2014
T.van Waterschoot,W.J.Tirry,and M.Moonen,“Acoustic zooming by multi microphone sound scene manipulation,”J.Audio Eng.Soc,vol.61,no.7/8,pp.489-507,2013.
V.Pulkki,“Spatial sound reproduction with directional audio coding,”J.Audio Eng.Soc,vol.55,no.6,pp.503-516,June 2007.
R.Schultz-Amling,F(xiàn).Kuech,O.Thiergart,and M.Kallinger,“Acoustical zooming based on a parametric sound field representation,”in Audio Engineering Society Convention 128,Paper 8120,London UK,May 2010.
O.Thiergart,G.Del Galdo,M.Taseska,and E.Habets,“Geometry-based spatial sound acquisition using distributed microphone arrays,”Audio,Speech,and Language Processing,IEEE Transactiohs on,vol.21,no.12,pp.2583-2594,December 2013.
K.Kowalczyk,O.Thiergart,A.Craciun,and E.A.P.Habets,“Sound acquisition in noisy and reverberant environments using virtual microphones,”in Applications of Signal Processing to Audio and Acoustics(WASPAA),2013IEEE Workshop on,October 2013.
O.Thiergart and E.A.P.Habets,“An informed LCMV filter based on multiple instantaneous direction-of-arrival estimates,”in Acoustics Speech and Signal Processing(ICASSP),2013IEEE International Conference on,2013,pp.659-663.
O.Thiergart and E.A.P.Habets,“Extracting reverberant sound using a linearly constrained minimum variance spatial filter,”Signal Processing Letters,IEEE,vol.21,no.5,pp.630-634,May 2014.
R.Roy and T.Kailath,“ESPRIT-estimation of signal parameters via rotational invariance techniques,”Acoustics,Speech and Signal Processing,IEEE Transactions on,vol.37,no.7,pp.984-995,July 1989.
B.Rao and K.Hari,“Performance analysis of root-music,”in Signals,Systems and Computers,1988.Twenty-Second Asilomar Conference on,vol.2,1988,pp.578-582.
H.Teutsch and G.Elko,“An adaptive close-talking microphone array,”in Applications of Signal Processing to Audio and Acoustics,2001IEEE Workshop on the,2001,pp.163-166.
O.Thiergart,G.D.Galdo,and E.A.P.Habets,“On the spatial coherence in mixed sound fields and its application to signal-to-diffuse ratio estimation,”The Journal of the Acoustical Society of America,vol.132,no.4,pp.2337-2346,2012,
V.Pulkki,“Virtual sound source positioning using vector base amplitude panning,”J.Audio Eng.Soc,vol.45,no.6,pp.456-466,1997.
J.Blauert,Spatial hearing,3rd ed.Hirzel-Verlag,2001.
T.May,S.van de Par,and A.Kohlrausch,“A probabilistic model for robust localization based on a binaural auditory front-end,”IEEE Trans.Audio,Speech,Lang.Process.,vol.19,no.1,pp.1-13,2011.
J.Ahonen,V.Sivonen,and V.Pulkki,“Parametric spatial sound processing applied to bilateral hearing aids,”in AES 45th International Conference,Mar.2012.