專利名稱:用于解析到達(dá)方向估計(jì)的模糊度的設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及用于解析到達(dá)方向估計(jì)的模糊度的設(shè)備和方法。本發(fā)明的進(jìn)一步的實(shí)施方式涉及增強(qiáng)模糊空間音頻參數(shù)估計(jì)。
背景技術(shù):
本發(fā)明定位于麥克風(fēng)前端的空間音頻編碼的背景中。我們關(guān)注參數(shù)技術(shù),即,通過伴隨著參數(shù)側(cè)邊信息的一個(gè)或多個(gè)音頻信號(hào)來描述空間聲音。側(cè)邊信息是基于至少兩個(gè)側(cè)麥克風(fēng)來獲得的。麥克風(fēng)布置和信號(hào)處理架構(gòu)通常被設(shè)計(jì)為覆蓋所關(guān)注的特定頻率范圍,其中,嚴(yán)格滿足所需的規(guī)范。在該感興趣的區(qū)域之外,可能會(huì)發(fā)生所需空間選擇性的顯著偏差。極端偏差由所謂的空間混疊組成。在音域分析上下文中,空間混疊的最重要的效果是聲音的到達(dá)方向的估計(jì)變得模糊。因此,在一個(gè)或多個(gè)其他方向,也觀察到了僅針對(duì)一個(gè)特定方向所期望或需要的特定行為??臻g音頻編碼的目的由通過伴隨有參數(shù)側(cè)邊信息的一些音頻信道再生空間聲學(xué)場景組成。因此,一個(gè)普遍問題是,不精確的參數(shù)估計(jì)將會(huì)引起再生過程或使用該空間參數(shù)的任何其他處理單元(例如,用于定向過濾)不想要的結(jié)果。該考慮適用于上述受影響的頻率范圍,特別是在發(fā)生空間混疊時(shí)。
發(fā)明內(nèi)容
因此,本發(fā)明的目的是提供用于空間參數(shù)處理的改進(jìn)概念。該目的是通過根據(jù)權(quán)利要求1的設(shè)備、根據(jù)權(quán)利要求14的方法、或根據(jù)權(quán)利要求15的計(jì)算機(jī)程序來實(shí)現(xiàn)的。根據(jù)本發(fā)明實(shí)施方式,用于解決DOA估計(jì)模糊度的設(shè)備包括DOA估計(jì)分析器和模糊度解析器。DOA估計(jì)分析器被配置為通過使用偏差信息分析DOA估計(jì)以獲得多個(gè)模糊分析參數(shù)。這里,偏差信息表示有偏和無偏DOA估計(jì)之間的關(guān)系。此外,模糊度解析器被配置為解析多個(gè)模糊分析參數(shù)中的模糊度,以獲得非模糊解析參數(shù)。本發(fā)明的基本思想在于,如果通過使用偏差信息(偏差信息表示有偏和無偏DOA估計(jì)之間的關(guān)系)來分析DOA估計(jì)以獲得多個(gè)模糊分析參數(shù),并且如果解析多個(gè)模糊分析參數(shù)中的模糊度以獲得非模糊的解析參數(shù),可以實(shí)現(xiàn)改進(jìn)的空間參數(shù)處理。該測(cè)量使得可以解析由空間混置引起的不精確DOA參數(shù)估計(jì)導(dǎo)致的|旲糊。根據(jù)另一實(shí)施方式,DOA估計(jì)分析器被配置為基于偏差函數(shù)將DOA估計(jì)與多個(gè)模糊無偏DOA估計(jì)關(guān)聯(lián),其中,偏差函數(shù)由偏差/[目息指不。這里,多個(gè)模糊無偏DOA估計(jì)對(duì)應(yīng)于多個(gè)模糊分析參數(shù)。此外,模糊度解析器被配置為通過使用一個(gè)或多個(gè)有效源的先驗(yàn)本地化信息確定多個(gè)模糊無偏DOA估計(jì)中的非模糊解析參數(shù),這基本上允許從關(guān)于聲音源的位置的先驗(yàn)信息獲得具體或校正的DOA參數(shù)。根據(jù)又一實(shí)施方式,DOA估計(jì)分析器被配置為針對(duì)多個(gè)模糊分析參數(shù)中的每個(gè)模糊分析參數(shù)生成多個(gè)分支,其中,多個(gè)分支反映了多個(gè)模糊分析參數(shù)中的模糊度。這里,DOA估計(jì)分析器被配置為從DOA估計(jì)中直接獲得多個(gè)分支,或者進(jìn)一步處理多個(gè)模糊無偏DOA估計(jì)以獲得多個(gè)分支。另外,DOA估計(jì)分析器被配置為計(jì)算光譜加權(quán)操作的增益參數(shù)??蛇x地,DOA估計(jì)分析器可以被配置為通過替代方法(例如,加法,減法)或采用與光譜加權(quán)操作類似的算法進(jìn)行光譜調(diào)制。此外,模糊度解析器被配置為確定表示模糊分析參數(shù)的多個(gè)分支中的非模糊解析參數(shù)。因此,可以獲得光譜加權(quán)操作(諸如定向音頻編碼領(lǐng)域中的呈現(xiàn)或定向過濾)的適當(dāng)增益參數(shù)。此外,通過這種測(cè)量,不需要獲取先驗(yàn)本地化信息。在另一實(shí)施方式中,DOA估計(jì)分析器被配置為在單個(gè)處理步驟中獲得多個(gè)分支,使得提供了在連續(xù)執(zhí)行兩個(gè)處理步驟時(shí)獲得的處理結(jié)果。特別地,對(duì)于多個(gè)分支中的每個(gè)分支,DOA估計(jì)分析器可以包括參數(shù)處理單元,其中,參數(shù)處理單元可以被配置為使DOA估計(jì)與由處理結(jié)果指示的預(yù)定模糊分析參數(shù)相關(guān)。這樣,當(dāng)解析了多個(gè)模糊分析參數(shù)中的模糊度時(shí),可以實(shí)現(xiàn)更高的處理效率或計(jì)算工作量的減少。本發(fā)明的另一實(shí)施方式提供了一種用于解析DOA估計(jì)的模糊度的方法。
以下,將參照
本發(fā)明的實(shí)施方式,在附圖中:圖1示出了用于解析DOA估計(jì)的模糊度的設(shè)備的實(shí)施方式的框圖;圖2示出了用于通過使用先驗(yàn)本地化信息解析DOA估計(jì)的模糊度的設(shè)備的另一實(shí)施方式的框圖;圖3示出了利用用于選擇非模糊解析參數(shù)的選擇器來解析DOA估計(jì)的模糊度的設(shè)備的另一實(shí)施方式的框圖;圖4示出了利用映射器來解析DOA估計(jì)的模糊度的設(shè)備的另一實(shí)施方式的框圖,該映射器用于將多個(gè)模糊無偏DOA估計(jì)映射至非模糊解析參數(shù);圖5示出了根據(jù)圖4的具有數(shù)字生成器的映射器的實(shí)施方式的框圖;圖6示出了利用用于提供先驗(yàn)本地化信息的本地化信息提供器來解析DOA估計(jì)的模糊度的設(shè)備的另一實(shí)施方式的框圖;圖7示出了用于利用增益參數(shù)計(jì)算來解析DOA估計(jì)的模糊度的設(shè)備的另一實(shí)施方式的框圖;圖8示出了包括模糊無偏DOA估計(jì)生成器和參數(shù)處理器的用于解析DOA估計(jì)的模糊度的設(shè)備的另一實(shí)施方式的框圖;圖9示出了用于通過在單個(gè)步驟中獲得處理結(jié)果的多個(gè)參數(shù)處理單元來解析DOA估計(jì)的模糊度的設(shè)備的另一實(shí)施方式的框圖;圖10示出了參數(shù)空間音頻編碼器的示意圖;圖11示出了參數(shù)空間音頻解碼器的示意圖;圖12示出了在中心具有第五個(gè)全向麥克風(fēng)的全向麥克風(fēng)的方形陣列的示意圖;圖13示出了根據(jù)本發(fā)明實(shí)施方式的在4KHz和7kHz之間的頻率的方位角估計(jì)的示例圖;圖14示出了根據(jù)本發(fā)明實(shí)施方式的作為用于3個(gè)揚(yáng)聲器設(shè)置的DOA函數(shù)的左右平移增益(panning gain)的示例性曲線圖;圖15示出了根據(jù)本發(fā)明實(shí)施方式的方向過濾增益函數(shù)的示例方向圖16示出了解析空間參數(shù)估計(jì)的模糊度的設(shè)備的實(shí)施方式的總體結(jié)構(gòu);圖17示出了根據(jù)本發(fā)明實(shí)施方式的用于校正有偏DOA估計(jì)的結(jié)構(gòu);圖18示出了根據(jù)本發(fā)明實(shí)施方式的作為高于空間混疊頻率的無偏DOA的函數(shù)的估計(jì)DOA的示例曲線圖;圖19示出了根據(jù)本發(fā)明另一實(shí)施方式的作為無偏DOA的函數(shù)的估計(jì)DOA的示例曲線圖;圖20示出了根據(jù)本發(fā)明實(shí)施方式的具有其各自的概率密度函數(shù)的兩個(gè)有效源(active source)的不例曲線圖;圖21示出了根據(jù)本發(fā)明實(shí)施方式的作為DOA的函數(shù)的定向過濾的示例性設(shè)計(jì)函數(shù);圖22示出了根據(jù)本發(fā)明實(shí)施方式的調(diào)節(jié)作為模糊DOA的函數(shù)運(yùn)行的處理單元以生成校正的輸出函數(shù)的結(jié)構(gòu)。
具體實(shí)施例方式圖1示出了用于解析DOA估計(jì)105的模糊度的設(shè)備100的實(shí)施方式的框圖。DOA估計(jì)105可以通過使用DOA估計(jì)器從空間音頻信號(hào)中獲得。這里,空間音頻信號(hào)可以包括全向的和多個(gè)不同方向的偶極信號(hào)。從空間音頻信號(hào)獲得的DOA估計(jì)105可以對(duì)應(yīng)于DirAC
參數(shù),并且可以用聲音的DOA的角#_.來表示。特別地,DOA估計(jì)105可以取決于時(shí)間和
頻率,(k,m),其中,k表示時(shí)間塊,m表示頻帶。另外,DOA估計(jì)105,實(shí)質(zhì)
上對(duì)應(yīng)于源自一個(gè)或多個(gè) 活動(dòng)聲音源的不精確或模糊DOA估計(jì)。參照?qǐng)D1,設(shè)備100包括DOA估計(jì)分析器110和模糊度解析器120。從圖1中可以看出,DOA估計(jì)分析器110被配置為用于通過使用偏差信息101分析DOA估計(jì)105以獲得多個(gè)模糊分析參數(shù)。這里,偏差信
息101表示有偏DOA估計(jì)和無偏DOA估計(jì)-之間的關(guān)系寺別指出,DOA估計(jì)可
以表示有偏或無偏DOA估計(jì)。此外,模糊度解析器120被配置為解析多個(gè)模糊分析參數(shù)115的模糊,以獲得非模糊解析參數(shù)125。圖2示出了通過使用先驗(yàn)本地化或空間信息211解析DOA估計(jì)105的模糊度的設(shè)備200的另一實(shí)施方式的框圖。如圖2所示,設(shè)備200包括DOA估計(jì)分析器210,其被配
置為基于偏差函數(shù)201, φ = (φ\使DOA估計(jì)105, ,與多個(gè)模糊無偏DOA估計(jì)215,
病相關(guān)。圖2中示出的設(shè)備200的DOA估計(jì)分析器210可以對(duì)應(yīng)于圖1中示出的設(shè)備100的DOA估計(jì)分析器110。這里,由圖2中的DOA估計(jì)分析器210使用的偏差函數(shù)201可以用圖1中的偏差信息101表示,而在圖2中的DOA估計(jì)分析器210的輸出的多個(gè)模糊無偏DOA估計(jì)215,祆…#K可以對(duì)應(yīng)于圖1中的多個(gè)模糊分析參數(shù)115。在圖2的實(shí)施方式中,模糊度解析器120被配置為通過使用一個(gè)或多個(gè)有效源的先驗(yàn)本地化信息211,根據(jù)多個(gè)模糊無偏DOA估計(jì)215, ft...ft ,確定非模糊解析參數(shù)125,^res。這里,先驗(yàn)本地化信
息可以表示一個(gè)或多個(gè)有效源的D0A211, %.*.。此外,應(yīng)當(dāng)注意的是,根據(jù)DOA估計(jì)獲得的DOA估計(jì)105, #**可以源自一個(gè)或多個(gè)有效源。這里,還應(yīng)當(dāng)指出的是,一般而言,有兩種D0A。在實(shí)施方式中,DOA的 %,…可以對(duì)應(yīng)于相應(yīng)的源位置,而DOA估計(jì)Uif可以對(duì)應(yīng)于“瞬時(shí)”DOA卿,
DOA涉及相應(yīng)的時(shí)間/頻率瓦片)。圖3示出了用于用選擇器320解析DOA估計(jì)105的模糊度的設(shè)備300的另一實(shí)施方式的框圖。這里,圖3的設(shè)備300基本上包括與圖2的設(shè)備200相同的塊。因此,具有類似的實(shí)現(xiàn)和/或功能的相同塊用同一標(biāo)號(hào)表示。然而,在圖3的實(shí)施方式中,模糊度解析器
120被配置為用于從多個(gè)模糊無偏DOA估計(jì)215選擇非模糊解析參數(shù)325,的選擇器
320。在實(shí)施方式中,選 擇器320可以被配置為基于對(duì)應(yīng)于多個(gè)模糊無偏DOA估計(jì)215的一個(gè)或多個(gè)有效源的模糊無偏DOA估計(jì)和先驗(yàn)本地化估計(jì)311之間的距離測(cè)量,執(zhí)行非模糊
解析參數(shù)325,φτ&的選擇。這里,在圖3中示出的選擇器320的輸出端處的非模糊解析參
數(shù)325可以對(duì)應(yīng)于在圖2中示出的模糊度解析器120的輸出端處的非模糊解析參數(shù)125。圖3中示出的先驗(yàn)本地化估計(jì)311可以對(duì)應(yīng)于一個(gè)或多個(gè)有效源的DOA的% ’ %,“ 中
中的任一個(gè)。因此,在實(shí)施方式中,非模糊解析參數(shù)325,,可以對(duì)應(yīng)于選自多個(gè)模糊無
偏DOA估計(jì)215的所選DOA估計(jì),氣,對(duì)于所選DOA估計(jì),相對(duì)于一個(gè)或多個(gè)有效源的距離
測(cè)量最小。圖4示出了用于用映射器420解析DOA估計(jì)105的模糊度的設(shè)備400的另一實(shí)施方式的框圖。由于圖4的設(shè)備400基本上包括與圖2的設(shè)備200相同的塊,因此具有類似實(shí)現(xiàn)和/或功能的相同塊再次由相同的標(biāo)號(hào)表示。在圖4的實(shí)施方式中,模糊度解析器120
被配置為用于將多個(gè)模糊無偏DOA估計(jì)215映射至非模糊解析參數(shù)425映射器420,。
特別地,映射器420可以被配置為:基于對(duì)應(yīng)于多個(gè)模糊無偏DOA估計(jì)215的模糊無偏DOA
估計(jì)的本地化估計(jì)或者對(duì)應(yīng)于選自多個(gè)模糊無偏DOA估計(jì)215的所選DOA估計(jì)515 的
所選本地化估計(jì)與一個(gè)或多個(gè)有效源的先驗(yàn)本地化估計(jì)311之間的距離測(cè)量,執(zhí)行多個(gè)模糊無偏DOA估計(jì)215的映射。如在圖3的實(shí)施方式中那樣,先驗(yàn)本地化估計(jì)311可以對(duì)應(yīng)
于一個(gè)或多個(gè)有效源的DOA的% ,Qi'* ** 中的任一個(gè)。圖5示出了根據(jù)圖4的具有數(shù)字生成器540的映射器420的實(shí)施方式的框圖。特別地,在圖5中,示出了映射器420的更多細(xì)節(jié)。從圖5可以看出,映射器420可以包括&
選擇器510、%確定器520以及組合器530。&選擇器510可以被配置為從多個(gè)模糊無偏
DOA估計(jì)215選擇相對(duì)于一個(gè)或多個(gè)有效源的距離測(cè)量最小的無偏DOA估計(jì)515,Pso^Qt
確定器520可以被配置為確定一個(gè)或多個(gè)有效源中相對(duì)于所選擇的無偏DOA估計(jì)515,ψχ
的距離測(cè)量最小化的D0A525, PQt。這里,非模糊解析參數(shù)@res可以對(duì)應(yīng)于一個(gè)或多個(gè)有效源的所確定的D0A525, Pqs圖5中示出的映射器420的數(shù)字生成器540可以被實(shí)施為用于生成隨時(shí)間可變數(shù)字545,而圖5中示出的映射器420的組合器530可以被實(shí)施為用于將由數(shù)字生成器540提
供的可變數(shù)字545的數(shù)字和對(duì)應(yīng)于一個(gè)或多個(gè)有效源的確定的D0A525,%的預(yù)定先驗(yàn)本地化估計(jì)相組合,以獲得修改的DOA相關(guān)值535,。這里,非模糊解析參數(shù)125,Pra,可
以對(duì)應(yīng)于修改的DOA相關(guān)值535,例如,用于生成隨時(shí)間可變數(shù)字545的數(shù)字生成器
O
540可以被實(shí)現(xiàn)為諸如線性反饋移位寄存器的偽隨機(jī)數(shù)生成器。圖6示出了用于利用本地化或空間信息提供器610來解析DOA估計(jì)105的模糊度的設(shè)備600的另一實(shí)施方式的框圖。這里,圖6的設(shè)備600基本上包括與圖2的設(shè)備200相同的塊。因此,具有類似實(shí)現(xiàn)和/或功能的相同塊用相同標(biāo)號(hào)表示。如圖6所示,本地化信息提供器610可以被配置為提供一個(gè)或多個(gè)有效源的先驗(yàn)本地化信息211。在圖6的實(shí)施方式
中示出,本地化信息提供器610可以被配置為基于與DOA估計(jì)105 不同的輸入?yún)?shù)611來提供先驗(yàn)本地化信息211。這意味著,諸如一個(gè)或多個(gè)有效源的DOA的-β, ...:
形式的先驗(yàn)本地化信息211實(shí)質(zhì)上是從不同于DOA估計(jì)105,的數(shù)據(jù)導(dǎo)出的。圖7示出了用于利用增益參數(shù)計(jì)算解析DOA估計(jì)105的模糊度的設(shè)備700的另一實(shí)施方式的框圖。從圖7可以看出,設(shè)備700包括DOA估計(jì)分析器710,其可以被配置為針對(duì)多個(gè)模糊分析參數(shù)115的每個(gè)模糊分析參數(shù)生成多個(gè)分支715,其中,多個(gè)分支715反映了多個(gè)模糊分析參數(shù)115中的模糊度。在圖7的實(shí)施方式中,DOA估計(jì)分析器710可以被配置為直接從DOA估計(jì)105獲得多個(gè)分支715,或者進(jìn)一步處理多個(gè)模糊無偏DOA估計(jì)813以獲得多個(gè)分支715。特別地,DOA估計(jì)分析器710被配置為在定向音頻編碼的背景中,為諸如呈現(xiàn)或定向過濾的頻譜加權(quán)操作計(jì)算增益參數(shù)。如圖7所示,包括增益參數(shù)計(jì)算的DOA估計(jì)分析器710可以接收偏差信息101,以通過考慮DOA估計(jì)105的模糊度,生成多個(gè)分支715。在圖7中還示出,設(shè)備700的模糊度解析器720可以被配置為根據(jù)表示模糊分析參數(shù)115的多個(gè)分支715確定非模糊解析參數(shù)725,fres0根據(jù)另一實(shí)施方式,設(shè)備700的模糊度解析器720可以被配置為用于組合由多個(gè)分支715表示的多個(gè)模糊分析參數(shù),以獲得表示非模糊解析參數(shù)725, fres的組合參數(shù)的組合器。根據(jù)另一實(shí)施方式,設(shè)備700的模糊度解析器720還可以被配置為用于從由多個(gè)分支715表示的多個(gè)模糊分析參數(shù)115中選擇非模糊解析參數(shù)725,fres的選擇器。
特別地,圖7中示出的設(shè)備700的用于執(zhí)行增益參數(shù)計(jì)算的DOA估計(jì)分析器710以及組合器或選擇器形式的模糊度解析器720,可以分別對(duì)應(yīng)于圖1中的設(shè)備100的DOA估計(jì)分析器110和模糊度解析器120?;旧?,圖7的設(shè)備700可以特別用于指定多個(gè)模糊分析參數(shù)中的非模糊解析參數(shù),而不需要操作先驗(yàn)本地化信息。在圖7的實(shí)施方式中,例如,被配置為組合器或選擇器的模糊度解析器720可以被實(shí)施為選擇增益參數(shù)的最小值或最大值,或者通過計(jì)算平均值來組合增益參數(shù)。圖8示出了用于解析DOA估計(jì)105的模糊度的設(shè)備800的另一實(shí)施方式的框圖,該設(shè)備包括模糊無偏DOA估計(jì)生成器812和參數(shù)處理器814。這里,圖8的設(shè)備800基本上對(duì)應(yīng)于圖7的設(shè)備700,其中,具有類似實(shí)現(xiàn)和/或功能的相同塊用相同的標(biāo)號(hào)表示。如圖8所示,設(shè)備800的DOA估計(jì)分析器810可以包括模糊無偏DOA估計(jì)生成器812和參數(shù)處理器814。這里,模糊無偏DOA估計(jì)生成器812可以被實(shí)施為基于偏差函數(shù)201使DOA估計(jì)105與多個(gè)模糊無偏DOA估計(jì)813相關(guān),其中,偏差函數(shù)201用偏差信息101表示。此夕卜,參數(shù)處理器814可以被實(shí)施為進(jìn)一步處理多個(gè)模糊無偏DOA估計(jì)813,以獲得表示模糊分析參數(shù)115的多個(gè)分支815。根據(jù)實(shí)施方式,表不模糊分析參數(shù)115的多個(gè)分支815可以分別對(duì)應(yīng)于要用于提供操作的一組增益參數(shù)(gp)(諸如三向平搖增益函數(shù))或者可以用于DirAC編碼機(jī)制中的定向過濾的增益函數(shù)(D)。在實(shí)施方式中,用于提供操作的對(duì)應(yīng)增益函數(shù)gp或用于不同分支815的定向過濾操作的增益函數(shù)D例如可以線性組合,以獲得其平均值,或者通過使用模糊度解析720來選擇具體增益參數(shù)(例如,最小或最大值)。在模糊度解析器720的輸出端處,將獲得非模糊解析參數(shù)725,fres0圖9示出了用于利用多個(gè)參數(shù)處理單元913來解析DOA估計(jì)105的模糊度的設(shè)備900的另一實(shí)施方式的框圖。這里,圖9的設(shè)備900可以對(duì)應(yīng)于圖7的設(shè)備700,其中,具有相似實(shí)現(xiàn)和/或功能的相同塊可以用相同的標(biāo)號(hào)表示。具體地,在圖9的實(shí)施方式中,設(shè)備900包括DOA估計(jì)分析器910,其可以被配置用于在單個(gè)處理步驟中獲得多個(gè)分支915,使得將會(huì)提供表示模糊分析參數(shù)115的處理結(jié)果,該結(jié)果會(huì)在連續(xù)執(zhí)行兩個(gè)處理步驟時(shí)獲得。這里需要指出,通過DOA估計(jì)分析器910獲得的處理結(jié)果基本上對(duì)應(yīng)于由圖8中示出的DOA估計(jì)分析器810所獲得的處理結(jié)果或多個(gè)分支815。這里,通過多個(gè)參數(shù)處理單元913獲得的每個(gè)處理參數(shù)或輸出參數(shù)基本上等于由參數(shù)處理器814輸出的相應(yīng)增益參數(shù)gp ;D。然而,在圖9的實(shí)施方式中,可以通過僅使用單個(gè)處理步驟來有效地獲得這些相同的參數(shù)。設(shè)備900的DOA估計(jì)分析器910因此也可以被稱為增強(qiáng)處理器,用于以增強(qiáng)方式處理DOA估計(jì)105,以在不需要中間處理步驟的情況下獲得處理結(jié)果。此外,在圖9的實(shí)施方式中,DOA估計(jì)分析器910和模糊度解析器720可以被配置為在單個(gè)處理步驟中獲得非模糊解析參數(shù)725,使得將會(huì)提供表示非模糊解析參數(shù)725的處理結(jié)果,該處理結(jié)果會(huì)在連續(xù)執(zhí)行至少兩個(gè)處理步驟時(shí)獲得。在實(shí)施方式中,可以根據(jù)對(duì)應(yīng)的DOA估計(jì)105來預(yù)定或預(yù)計(jì)算非模糊解析參數(shù)725。這樣獲得的參數(shù)和對(duì)應(yīng)的DOA估計(jì)可以被插入到查找表中。包括該預(yù)定信息的查找表可以有效地用于避免或至少減少實(shí)際處理期間的計(jì)算工作量。特別地,通過使用DOA估計(jì)器從空間音頻信號(hào)估計(jì)的DOA估計(jì)105可以首先作為輸入值在查找表中尋址,然后可以輸出與查找表中的輸入值相關(guān)聯(lián)的相應(yīng)非模糊解析參數(shù)725作為輸出值??蛇x地,參照?qǐng)D9,對(duì)于多個(gè)分支915中的每個(gè)分支,設(shè)備900的DOA估計(jì)分析器910可以包括參數(shù)處理單元。特別地,多個(gè)參數(shù)處理單元913的每個(gè)參數(shù)處理單元914可以被配置為使DOA估計(jì)105與對(duì)應(yīng)的模糊分析參數(shù)相關(guān)。此外,設(shè)備900的模糊度解析器720可以后續(xù)用于解析表示模糊分析參數(shù)915的處理結(jié)果中的模糊度,以最終獲得非模糊解析參數(shù)725。
本發(fā)明的實(shí)施方式涉及參數(shù)空間音頻編碼和定向音頻編碼(DirAC)的一些處理單元。DirAC編碼機(jī)制是有效的空間編碼技術(shù),其基于麥克風(fēng)輸入并且用作進(jìn)一步考慮的示例性基礎(chǔ)。以下更詳細(xì)地給出了處理不精確的空間參數(shù)估計(jì)的本發(fā)明的方法。本發(fā)明的上下文為參數(shù)空間音頻編碼。首先,描述了參數(shù)空間音頻表示的一些重要實(shí)例。我們主要考慮在 V.Pulkk1.Spatial sound reproduction with directionalaudio coding.J.Audio Eng.Soc., 55 (6): 503-516 中描述的方法 DirAC 作為基于麥克風(fēng)信號(hào)的空間音頻代碼的實(shí)例。然而,本發(fā)明的基本原理還可以應(yīng)用于其他空間音頻編碼機(jī)制,其中,例如,可以借助于不同區(qū)域的參數(shù)估計(jì)或通過考慮諸如視頻圖像的其他額外信息源來解析特定光譜區(qū)域中的空間參數(shù)估計(jì)模糊度。在研究DirAC的具體細(xì)節(jié)之前,我們考慮通用于所有參數(shù)空間編碼機(jī)制的編碼器/解碼器結(jié)構(gòu)。在圖10中示出了根據(jù)本發(fā)明實(shí)施方式的參數(shù)空間音頻編碼器10的一般結(jié)構(gòu)。圖10示出了參數(shù)空間音頻編碼器的說明。如在V.Pulkk1.Spatial sound reproductionwith directional audio coding.J.Audio Eng.Soc.,55 (6):503-516, June.2007以 及 C.Faller.Microphone front-ends for spatial audio coders.1nl25th AESConvention, San Francisco, USA, Oct.2008中描述的,編碼器10將多個(gè)音頻信道2 (例如,麥克風(fēng)信號(hào))作為輸入。編碼器10的輸出為縮混信號(hào)3和對(duì)應(yīng)的側(cè)邊信息4。縮混信號(hào)3由一個(gè)或多個(gè)音頻信道組成。側(cè)邊信息4包括表示所觀察的聲音域的參數(shù)元數(shù)據(jù)。編碼器10的輸出,即,縮混信號(hào)3和側(cè)邊信息4的組合在下文被稱為空間音頻流或空間音頻表示。在圖11中示出了對(duì)應(yīng)的參數(shù)空間音頻解碼器20的一般結(jié)構(gòu)。圖11示出了參數(shù)空間音頻解碼器的圖解。解碼器20將空間音頻流作為輸入。基于縮混信號(hào)7和側(cè)邊信息6中包括的元數(shù)據(jù),解碼器20計(jì)算對(duì)應(yīng)于所需的播放所配置的揚(yáng)聲器或耳機(jī)信號(hào)。例如,在IS0/IEC23003-1:2007.1nformation technology-MPEG Audio technologies-Partl:MPEGSurround.1nternational Standards Organization, Geneva, Switzerland, 2007 中描述了典型的揚(yáng)聲器設(shè)置。定向音頻編碼(DirAC)使用音場的參數(shù)表示,音場使用瞬時(shí)到達(dá)方向(DOA)和聲音在頻率子帶中的擴(kuò)散性,即,其僅考慮與人類聽覺有關(guān)的特征。DirAC方法基于以下假設(shè):如果正確地再生了聲場的D0A,則正確地感知了雙耳時(shí)間差(ITD)和雙耳水平差(ILD)。對(duì)應(yīng)地,如果正確地再生了聲場的擴(kuò)散性,則假設(shè)正確地感知了雙耳間一致性參數(shù)(1C)。以此方式,再生側(cè)僅需要方向和擴(kuò)散性參數(shù)以及單聲道麥克風(fēng)信號(hào)來生成與以任意的揚(yáng)聲器集合在給定的收聽位置對(duì)空間音頻的人類感知相關(guān)聯(lián)的特征。應(yīng)當(dāng)注意的是,在下文中,假設(shè)點(diǎn)狀聲音源引起了寬頻率范圍中的特定聲音D0A。一個(gè)實(shí)例是,希望單個(gè)說話的人引起整個(gè)語音頻譜的特定聲音D0A。如果兩個(gè)人同時(shí)說話,則我們希望通過對(duì)應(yīng)于在該具體頻帶“發(fā)出最高聲音能量”的最有優(yōu)勢(shì)的源的DOA來確定每個(gè)頻帶的DOA。以下,描述了 DirAC中的參數(shù)估計(jì)的DirAC分析。在DirAC中,基于B-格式麥克風(fēng)信號(hào),如同在 V.Pulkk1.Spatial sound reproduction with directional audiocoding.J.Audio Eng.Soc.,55(6):503-516, June.2007 中描述的,在 DirAC 中,可以經(jīng)由有聲場的能量分析,確定所需的參數(shù),即,聲音的DOAeD0A (k,m)以及每個(gè)在每個(gè)頻帶m和時(shí)間塊索引k中的擴(kuò)散性Ψ (k, m)。B-格式麥克風(fēng)信號(hào)由全向信號(hào)W (k, m)和對(duì)應(yīng)于Cartesian坐標(biāo)系統(tǒng)的χ-, y_方向的兩個(gè)雙極信號(hào)(Ux(k, m)和Uy(k,m))組成。如在 E.Benjamin and T.Chen.The native B-format microphone:Part 1.1nll9thAES Convention, Paper6621, New York, Oct.2005 中描述的,B-格式信號(hào)可以使用例如特定的B-格式麥克風(fēng)直接測(cè)量,或者可選地,如同在J.Merima.Applications of a3_Dmicrophone array.1nl 12th AES Convention, Paper55Ol, Munich, May2002 中描述的,使用全向麥克風(fēng)陣列來直接測(cè)量B格式信號(hào)。對(duì)于后一種,有一個(gè)基本假設(shè)是,聲音信號(hào)的波長遠(yuǎn)遠(yuǎn)長于全向麥克風(fēng)的間距。在該假設(shè)不成立的高頻率,有一個(gè)關(guān)于DOA估計(jì)的系統(tǒng)性有偏。在非常低的頻率下,麥克風(fēng)的自有噪聲的影響增大。因此,通過設(shè)計(jì)間隔非??拷年嚵?,并不能簡單地解決高頻率的問題。在以下的段落中解決了關(guān)于DOA估計(jì)的細(xì)節(jié)和先前描述的高頻率的問題??臻g音頻編碼中(例如,DirAC)中的一個(gè)基本基礎(chǔ)是,正確地估計(jì)D0A。為了執(zhí)行該項(xiàng)任務(wù),研究時(shí)/頻域表示的活動(dòng)強(qiáng)度矢量的方向:
權(quán)利要求
1.一種用于解析DOA估計(jì)(105)(多amb)中的模糊度的設(shè)備(100),所述設(shè)備包括: DOA估計(jì)分析器(110),用于通過使用偏差信息(101)分析所述DOA估計(jì)(105) ( U以獲得多個(gè)模糊分析參數(shù)(115)(吞 I...運(yùn) N; {φ\)... {φ N); fenli,l( Φ amb)…fenli,N( Φ ainb); gp( ψ I)-.-gP( ψ N)_;D(爐I)..,D(^n)) j所述偏差/[目息(101)表不有偏DOA估計(jì)(φ )和無偏DOA估計(jì)(φ)之間的關(guān)系(多0(());以及 模糊度解析器(120),用于解析所述多個(gè)模糊分析參數(shù)(115)(吞 1...吞 N; f(運(yùn) I)…f(吞 N); fenh,l( Ψ amb) - -.fenh,N( Φ amb) ; gp(運(yùn) I)...gp( ψ N);D(多!)...D(運(yùn)Ν))中的所述模糊度,以獲得非模糊解析參數(shù)Qres; fres,125)0
2.根據(jù)權(quán)利要求1所述的設(shè)備(200),其中,所述DOA估計(jì)分析器(210)被配置為基于偏差函數(shù)(201)(# =f((p))使所述DOA估計(jì)(IO5 ) (Samb)與多個(gè)模糊DOA估計(jì)(2I5)(吞!..Jn)關(guān)聯(lián),其中,所述偏差函數(shù)(201) (# =f((p))由所述偏差信息(101)表示,并且其中,所述多個(gè)模糊DOA估計(jì)(215)(吞][...^n)對(duì)應(yīng)于所述多個(gè)模糊分析參數(shù)(115),其中,所述模糊度解析器(120)被配置為通過使用一個(gè)或多個(gè)有效源的先驗(yàn)空間信息(211)根據(jù)所述多個(gè)模糊DOA估計(jì)(215)(運(yùn)μ..運(yùn)N)確定所述非模糊解析參數(shù)(125)。
3.根據(jù)權(quán)利要求1或2所述的設(shè)備(300),其中,所述模糊度解析器(120)被配置為用于從多個(gè)模糊DOA估計(jì)(215) (^1...^N)中選擇所述非模糊解析參數(shù)(325)(運(yùn)res)的選擇器(320),其中,所 述選擇器(320)被配置為基于對(duì)應(yīng)于所述多個(gè)模糊DOA估計(jì)(215)(吞1...運(yùn)N)的本地化估計(jì)與一個(gè)或多個(gè)有效源的先驗(yàn)本地化估計(jì)(311)之間的距離的測(cè)量,執(zhí)行所述非模糊解析參數(shù)(325) ( 的選擇。
4.根據(jù)權(quán)利要求1或2所述的設(shè)備(400),其中,所述模糊度解析器(120)被配置為用于將所述多個(gè)模糊DOA估計(jì)(215)(運(yùn)I…運(yùn)N)映射至所述非模糊解析參數(shù)(425) (^res)的映射器(420),其中,所述映射器(420)被配置為基于對(duì)應(yīng)于所述多個(gè)模糊DOA估計(jì)(215)(運(yùn)I...運(yùn)N)的本地化估計(jì)或?qū)?yīng)于選自所述多個(gè)模糊DOA估計(jì)(215)( ψχ..^Ν)的所選DOA估計(jì)(515)(運(yùn)s)的所選本地化估計(jì)與一個(gè)或多個(gè)有效源的先驗(yàn)本地化估計(jì)(311)之間的距離的測(cè)量,執(zhí)行所述多個(gè)模糊DOA估計(jì)(215) (^1.的映射。
5.根據(jù)權(quán)利要求4所述的設(shè)備(400),其中,所述映射器(420)包括用于隨時(shí)間生成可變數(shù)字(545)的數(shù)字生成器(540)以及用于將大量可變數(shù)字(545)和對(duì)應(yīng)于一個(gè)或多個(gè)有效源的所確定的DOA (525) φ Qs)的確定的先驗(yàn)本地化估計(jì)相組合以獲得修改的DOA相關(guān)值(535)(運(yùn)d池)的組合器(530),其中,所述非模糊解析參數(shù)(125) (^res)對(duì)應(yīng)于所述修改的DOA相關(guān)值(535) (^dlth)ο
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的設(shè)備(600),還包括用于提供一個(gè)或多個(gè)有效源的先驗(yàn)空間信息(211)的空間信息提供器(610),其中,所述空間信息提供器(610)被配置為基于不同于所述DOA估計(jì)(105)
7.根據(jù)權(quán)利要求1所述的設(shè)備(700),其中,所述DOA估計(jì)分析器(710)被配置為針對(duì)所述多個(gè)模糊分析參數(shù)(115)
8.根據(jù)權(quán)利要求7所述的設(shè)備(700),其中,所述模糊度解析器(720)被配置為用于組合由所述多個(gè)分支(715)表示的所述多個(gè)模糊分析參數(shù)(115)
9.根據(jù)權(quán)利要求7所述的設(shè)備(700),其中,所述模糊度解析器(720)被配置為用于從由所述多個(gè)分支(715)表示的所述多個(gè)模糊分析參數(shù)(115)
10.根據(jù)權(quán)利要求7至9中任一項(xiàng)所述的設(shè)備(800),其中,所述DOA估計(jì)分析器(810)被配置為基于偏差函數(shù)(201)
11.根據(jù)權(quán)利要求7至9中任一項(xiàng)所述的設(shè)備(900),其中,所述DOA估計(jì)分析器(910)和所述模糊度解析器(720)被配置為用于在單個(gè)處理步驟中獲得所述非模糊解析參數(shù)(725)
12.根據(jù)權(quán)利要求7所述的設(shè)備(900),其中,對(duì)于所述多個(gè)分支(915)中的每個(gè)分支,所述DOA估計(jì)分析器(910)包括參數(shù)處理單元,其中,所述參數(shù)處理單元(914)被配置為使所述DOA估計(jì)(105 )(
13.根據(jù)權(quán)利要求1至12中任一項(xiàng)所述的設(shè)備,還包括用于從空間音頻信號(hào)估計(jì)所述DOA估計(jì)(105) ( ^aiwb)的DOA估計(jì)器(11 ),其中,所述空間音頻信號(hào)包括全向(W)和多個(gè)不同方向的雙極信號(hào)(ux, Ur..)。
14.一種用于解析DOA估計(jì)(105)(參amb)中的模糊度的方法,所述方法包括: 分析所述DOA估計(jì)(105) ( Carafe),以通過使用偏差信息(101)來獲得多個(gè)模糊分析參數(shù)(115) (( ^ 1...^ n); f(^i)...f(^N);fenh,l( Ψ amb)..- fenh,N( Φ amb); gp(吞 I)…gP(運(yùn) N); D(運(yùn) 0...D(多 N)),所述偏差信息(101)表示有偏DOA估計(jì)(φ )和無偏DOA估計(jì)(ρ )之間的關(guān)系(旮οφ);以及 解析所述多個(gè)模糊分析參數(shù)(115) {φι...φ^ f( ^ i)...f(^ N);feliia( ^ amb)..-fenh,N( Ψ amb); gpOl)-.-gP(^N); D(運(yùn) I)...D(運(yùn) N))中的所述模糊度,以獲得非模糊解析參數(shù)(吞res; fres;,125)。
15.一種計(jì)算機(jī)程序, 具有用于在所述計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行根據(jù)權(quán)利要求14所述的方法的程序代碼。
全文摘要
一種用于解析DOA估計(jì)(105)中的模糊度的設(shè)備(100),包括DOA模糊分析器(110),用于通過使用偏差信息(101)來分析DOA估計(jì)(105)以獲得多個(gè)模糊分析參數(shù)(115)偏差信息(101)表示有偏DOA估計(jì)和無偏DOA估計(jì)之間的關(guān)系以及模糊度解析器(120),用于解析多個(gè)模糊分析參數(shù)(115)中的模糊度,以獲得非模糊解析參數(shù)
文檔編號(hào)H04R3/00GK103180752SQ201180050678
公開日2013年6月26日 申請(qǐng)日期2011年8月23日 優(yōu)先權(quán)日2010年8月27日
發(fā)明者馬庫斯·卡琳格爾, 喬瓦尼·德爾加爾多, 法比安·庫奇, 奧利弗·蒂爾加特, 迪爾克·瑪赫內(nèi), 阿希姆·昆茨, 理查德·舒爾茨-阿姆林 申請(qǐng)人:弗蘭霍菲爾運(yùn)輸應(yīng)用研究公司