專利名稱:聲源定位設備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聲源定位。更具體地,本發(fā)明的實施例涉及通過話筒陣列進行聲源定位的設備和方法。
背景技術(shù):
聲源定位的例子包含利用話筒陣列來定位聲源。比如,在J. DiBiase的文章"Ahigh-accuracy, low-latency technique for talker localization in reverberantenvironments" , PhD thesis, Brown University, Providence RI, USA, May 2000 中提出了基于不同話筒的信號之間的時間差(相位差)進行聲源定位的方法(SRP-PHAT算法)
發(fā)明內(nèi)容
根據(jù)本發(fā)明一個實施例,提供了一種進行聲源定位的方法。該方法包含基于通過話筒陣列獲得的短時間幀數(shù)據(jù)計算幀幅度差向量,所述幀幅度差向量反映在記錄所述短時間幀數(shù)據(jù)期間所述陣列的話筒捕獲的幅度之間的差;評價所述幀幅度差向量和多個參考幀幅度差向量中的每個之間的相似度,所述多個參考幀幅度差向量中的每個反映在記錄來自多個候選位置之一的聲音期間所述陣列的話筒捕獲的幅度之間的差;和至少基于候選位置和相關(guān)的相似度估計聲源的期望位置。根據(jù)本發(fā)明另一個實施例,提供一種進行聲源定位的設備。該設備包含向量計算器,其基于通過話筒陣列獲得的短時間幀數(shù)據(jù)計算幀幅度差向量,所述幀幅度差向量反映在記錄所述短時間幀數(shù)據(jù)期間所述陣列的話筒捕獲的幅度之間的差;相似度評價器,其評價所述幀幅度差向量和多個參考幀幅度差向量中的每個之間的相似度,所述多個參考幀幅度差向量中的每個反映在記錄來自多個候選位置之一的聲音期間所述陣列的話筒捕獲的幅度之間的差;和估計器,其至少基于候選位置和相關(guān)的相似度估計聲源的期望位置。根據(jù)本發(fā)明另一個實施例,提供一種上面記錄有用于使處理器進行聲源定位的計算機程序指令的計算機可讀介質(zhì)。計算機程序指令包含用于基于通過話筒陣列獲得的短時間幀數(shù)據(jù)計算幀幅度差向量的裝置,所述幀幅度差向量反映在記錄所述短時間幀數(shù)據(jù)期間所述陣列的話筒捕獲的幅度之間的差;用于評價所述幀幅度差向量和多個參考幀幅度差向量中的每個之間的相似度的裝置,所述多個參考幀幅度差向量中的每個反映在記錄來自多個候選位置之一的聲音期間所述陣列的話筒捕獲的幅度之間的差;和用于至少基于候選位置和相關(guān)的相似度估計聲源的期望位置的裝置。下面參考附圖詳細描述本發(fā)明的進一步特性和優(yōu)點,以及本發(fā)明各個實施例的結(jié)構(gòu)和操作。應當注意,本發(fā)明不限于這里描述的具體實施例。在這里出現(xiàn)這樣的實施例只是出于說明的目的。相關(guān)領(lǐng)域技術(shù)人員根據(jù)這里包含的指導會想到其它實施例。
在附圖中通過例子圖解本發(fā)明,但這些例子不對本發(fā)明產(chǎn)生限制,圖中用類似的附圖標記表示類似的元件,其中圖I是圖示根據(jù)本發(fā)明一個實施例的用于進行聲源定位的示例設備的框圖;圖2描述了三個心型指向話筒的示例陣列;圖3描述了根據(jù)本發(fā)明一個實施例的進行聲源定位的示例方法;圖4是圖示根據(jù)本發(fā)明一個實施例的用于進行聲源定位的示例設備的框圖;圖5描述了根據(jù)本發(fā)明一個實施例的進行聲源定位的示例方法;圖6是圖示根據(jù)本發(fā)明一個實施例的用于進行聲源定位的示例設備的框圖;圖7描述了根據(jù)本發(fā)明一個實施例的進行聲源定位的示例方法;
圖8是圖示根據(jù)本發(fā)明一個實施例的用于進行聲源定位的示例設備的框圖;圖9描述了根據(jù)本發(fā)明一個實施例的進行聲源定位的示例方法;圖10圖示了通過把第一概率函數(shù)和第二概率函數(shù)相乘而獲得的組合概率函數(shù)的示例;圖11是圖示用于實現(xiàn)本發(fā)明的各個方面的示例性系統(tǒng)的框圖。
具體實施例方式下面參考附圖描述本發(fā)明實施例。應當注意,出于清楚的目的,在附圖和描述中省略了有關(guān)所屬技術(shù)領(lǐng)域的技術(shù)人員知道但是與本發(fā)明無關(guān)的部分和過程的表示和說明。本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明的各方面可以被實施為系統(tǒng)、方法或計算機程序產(chǎn)品。因此,本發(fā)明可以具體實現(xiàn)為以下形式,即,可以是完全硬件實施例、完全軟件實施例(包括固件、駐留軟件、微代碼等)、或組合軟件部分與硬件部分的實施例,本文可以一般稱為"電路"、"模塊"或"系統(tǒng)"。此外,本發(fā)明的各個方面可以采取體現(xiàn)為一個或多個計算機可讀介質(zhì)的計算機程序產(chǎn)品的形式,該計算機可讀介質(zhì)上面體現(xiàn)有計算機可讀程序代碼。可以使用一個或多個計算機可讀介質(zhì)的任何組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是,但不限于電的、磁的、光的、電磁的、紅外線的、或半導體的系統(tǒng)、設備或裝置、或前述各項的任何適當?shù)慕M合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括以下有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲裝置、磁存儲裝置、或前述各項的任何適當?shù)慕M合。在本文語境中,計算機可讀存儲介質(zhì)可以是任何含有或存儲供指令執(zhí)行系統(tǒng)、設備或裝置使用的或與指令執(zhí)行系統(tǒng)、設備或裝置相聯(lián)系的程序的有形介質(zhì)。計算機可讀信號介質(zhì)可以包括例如在基帶中或作為載波的一部分傳播的其中帶有計算機可讀程序代碼的數(shù)據(jù)信號。這樣的傳播信號可以采取任何適當?shù)男问?,包括但不限于電磁的、光的或其任何適當?shù)慕M合。計算機可讀信號介質(zhì)可以是不同于計算機可讀存儲介質(zhì)的、能夠傳達、傳播或傳輸供指令執(zhí)行系統(tǒng)、設備或裝置使用的或與指令執(zhí)行系統(tǒng)、設備或裝置相聯(lián)系的程序的任何一種計算機可讀介質(zhì)。體現(xiàn)在計算機可讀介質(zhì)中的程序代碼可以采用任何適當?shù)慕橘|(zhì)傳輸,包括但不限于無線、有線、光纜、射頻等等、或上述各項的任何適當?shù)慕M合。用于執(zhí)行本發(fā)明各方面的操作的計算機程序代碼可以以一種或多種程序設計語言的任何組合來編寫,所述程序設計語言包括面向?qū)ο蟮某绦蛟O計語言,諸如Java、Smalltalk、C++之類,還包括常規(guī)的過程式程序設計語言,諸如"C"程序設計語言或類似的程序設計語言。程序代碼可以完全地在用戶的計算機上執(zhí)行、部分地在用戶的計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶的計算機上并且部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務器上執(zhí)行。在后一種情形中,遠程計算機可以通過任何種類的網(wǎng)絡,包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN),連接到用戶的計算機,或者,可以(例如利用因特網(wǎng)服務提供商來通過因特網(wǎng))連接到外部計算機。以下參照按照本發(fā)明實施例的方法、設備(系統(tǒng))和計算機程序產(chǎn)品的流程圖和/或框圖來描述本發(fā)明的各個方面。應當理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理設備的處理器以生產(chǎn)出一種機器,使得通過計算機或其它可編程數(shù)據(jù)處理設備執(zhí)行的這些指令產(chǎn)生用于實現(xiàn)流程圖和/或框圖中 的方框中規(guī)定的功能/操作的裝置。也可以把這些計算機程序指令存儲在能夠指引計算機或其它可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀介質(zhì)中,使得存儲在計算機可讀介質(zhì)中的指令產(chǎn)生一個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令的制造品。也可以把計算機程序指令加載到計算機或其它可編程數(shù)據(jù)處理設備上,導致在計算機或其它可編程數(shù)據(jù)處理設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的過程,使得在計算機或其它可編程設備上執(zhí)行的指令提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。圖I是圖示根據(jù)本發(fā)明一個實施例的用于進行聲源定位的示例設備100的框圖。設備100可以用于各種應用。在一個應用中,設備100可以檢測會議中揚聲器的位置信息。這個位置信息能夠被用于在會議錄制時分離揚聲器,或者能夠被用于會議的空間首頻編碼。如圖I所示,設備100包含向量計算器101、相似度評價器102和估計器103。向量計算器101被配置成根據(jù)通過話筒陣列獲得的短時間幀數(shù)據(jù)計算幀幅度差向量(FADV)。幀幅度差向量反映在記錄短時間幀數(shù)據(jù)期間陣列話筒捕獲的幅度之間的差。通常,由于從聲源到陣列的不同話筒的距離之間的差異性,或者由于話筒對來自聲源的聲音信號的靈敏度之間的差異性,各話筒從相同聲源捕獲的聲音信號的幅度是不同的。對于不同聲源位置,話筒間幅度差的分布可以是不同的。比如,在單向話筒的陣列的情況下,或者在聲源接近全向話筒的陣列的情況下,話筒間幅度差的分布能夠顯著不同。根據(jù)這個觀察,話筒間幅度差的分布可以與不同聲音位置,至少是那些表現(xiàn)出這種差異性的位置相關(guān)聯(lián)。在這個方面,可以基于由聲源引入的話筒間幅度差,根據(jù)這種關(guān)聯(lián)來估計聲源是否位于這些位置之一。下面會把單向話筒的陣列用作示例來描述本發(fā)明的實施例。單向話筒可以是心型指向話筒。圖2描述了三個心型指向話筒201、202和203的示例陣列。圖形204、205和206分別圖示了心型指向話筒201、202和203的方向圖。心型指向話筒201、202和203在平面中的取向分別為O度、-120度和-240度的方向。此外,每個對的兩個話筒之間的距離可以是I. 15cm。為方便說明,這種心型指向話筒陣列被稱為CMA0通常,聲源的位置可以是指聲源的到達方向(DOA)角或聲源的地點(position)。在某些情況下,對于沿DOA方向的不同地點,話筒間幅度差的分布基本相似,因此可以使用DOA來度量位置。取決于具體應用,可以用聲源在CMA所位于的平面(稱為水平面)中的方位角來表示D0A。在這樣的情況下,音頻定位問題被簡化為角檢測問題。然而,通過添加一個面朝上的話筒,可以檢測聲源在水平面中的方位角和在垂直平面中的仰角。
在下文中,聲源在水平面中的方位角被用作位置的示例。需要注意,各種話筒陣列可以應用于本發(fā)明的實施例,只要不同位置的話筒間幅度差的分布能夠表現(xiàn)出顯著的差異性。FADV反映話筒間幅度差。在下文中,F(xiàn)ADV被表示成向量(V1, V2,…,vM),其中M表示話筒的數(shù)目,Vi表示第i個話筒捕獲的幅度。本領(lǐng)域技術(shù)人員能夠理解,其它格式可以被應用于FADV以反映話筒間幅度差。比如,向量(Vl,V2,…,vM)中的Vi可以表示相對于某個話筒捕獲的幅度的幅度差。再例如,F(xiàn)ADV可以被表示成向量(d^,dljM, d2j2,…,d2,M,…,(Vu),其中M表示話筒的數(shù)目,dy表示第i個話筒和第j個話筒捕獲的幅度的差??梢詮耐ㄟ^陣列預先記錄的音頻數(shù)據(jù)流中,或者從通過陣列實時記錄的音頻數(shù)據(jù)流中,提取短時間幀數(shù)據(jù)。此外,可以在短時間幀數(shù)據(jù)上乘上窗口。窗口可以是漢明窗口、漢寧窗口等等。假定短時間幀包含N個樣本并且話筒數(shù)目為M,短時間幀數(shù)據(jù)能夠被存儲為具有M行和N列的矩陣X,其中X (n, m)對應于第m個話筒的第η個樣本。
權(quán)利要求
1.一種進行聲源定位的方法,包括 基于通過話筒陣列獲得的短時間幀數(shù)據(jù)計算幀幅度差向量,所述幀幅度差向量反映在記錄所述短時間幀數(shù)據(jù)期間所述陣列的話筒捕獲的幅度之間的差; 評價所述幀幅度差向量和多個參考幀幅度差向量中的每個之間的相似度,所述多個參考幀幅度差向量中的每個反映在記錄來自多個候選位置之一的聲音期間所述陣列的話筒捕獲的幅度之間的差; 至少基于所述候選位置和相關(guān)的相似度估計聲源的期望位置。
2.如權(quán)利要求I所述的方法,還包括 根據(jù)基于時間差的音頻定位方法評價多個可能位置中的每個是所述期望位置的可能性,并且 其中所述估計包括基于所述候選位置、所述相似度、所述可能位置和所述可能性來估計所述期望位置。
3.如權(quán)利要求2所述的方法,還包括 基于所述可能位置及其可能性導出用于估計所有位置是所述期望位置的概率的第一概率函數(shù); 基于所述候選位置及其相似度導出用于估計所有位置是所述期望位置的概率的第二概率函數(shù);和 基于所述第一概率函數(shù)和所述第二概率函數(shù)計算用于估計所有位置是所述期望位置的概率的組合概率函數(shù),并且 其中所述估計包括基于所述組合概率函數(shù)把具有最高組合概率的位置估計為所述期望位置。
4.如權(quán)利要求3所述的方法,其中所述估計包括從所述第一概率函數(shù)的一個或多個峰位置中,或者從具有較高可能性的一個或多個可能位置中,選擇與具有最大組合概率的位置最接近的位置。
5.如權(quán)利要求3所述的方法,其中通過引入第一系數(shù)來導出所述第一概率函數(shù),通過引入第二系數(shù)來導出第二概率函數(shù),所述第一系數(shù)和所述第二系數(shù)使得所述組合概率函數(shù)對于所述相似度更加敏感。
6.如權(quán)利要求2所述的方法,還包括 基于所述可能位置及其可能性,或者基于所述候選位置及其相似度,導出用于估計所有位置是所述期望位置的概率的概率函數(shù),并且 其中,所述估計包括從具有較高相似度的一個或多個所述候選位置中,或者從具有較高可能性的一個或多個所述可能位置中,基于所述概率函數(shù)選擇具有最高概率的位置。
7.如權(quán)利要求2所述的方法,其中所述估計包括 找到一對具有較高相似度的所述候選位置和具有較高可能性的所述可能位置,所述一對候選位置和可能位置彼此最接近;和 選擇所述一對候選位置和可能位置之一作為所述期望位置。
8.如權(quán)利要求I所述的方法,其中根據(jù)下面的方法之一來計算所述幀幅度差向量基于能量的方法和基于特征向量的方法。
9.如權(quán)利要求I所述的方法,其中根據(jù)下面的方法之一來計算所述幀幅度差向量基于時域樣本值的方法和基于頻域參數(shù)的方法。
10.如權(quán)利要求I所述的方法,其中根據(jù)下面的方法之一來計算所述幀幅度差向量 基于所述短時間幀數(shù)據(jù)中各個信道上的平均幅度來計算所述幀幅度差向量; 基于對協(xié)方差矩陣的特征向量分析來計算所述幀幅度差向量,所述協(xié)方差矩陣包含所述短時間幀數(shù)據(jù)中各個信道的時域樣本值;和 基于所述短時間幀數(shù)據(jù)中各個信道的頻域上的平均幅度來計算所述幀幅度差向量。
11.如權(quán)利要求I所述的方法,其中基于所述短時間幀數(shù)據(jù)中各個信道的譜參數(shù)的特征向量分析來計算所述幀幅度差向量。
12.如權(quán)利要求11所述的方法,其中所述譜參數(shù)是下面類型的參數(shù)之一FFT參數(shù)、梅爾倒頻譜參數(shù)和子帶能量。
13.如權(quán)利要求11所述的方法,其中所述譜參數(shù)是復譜參數(shù)或幅度譜參數(shù)。
14.如權(quán)利要求11所述的方法,其中通過對所述信道中的每個的多個子幀進行譜分析來獲得所述信道的譜參數(shù),并且其中所述信道的所有樣本被組合成所述子幀。
15.如權(quán)利要求14所述的方法,其中獲得作為第二協(xié)方差矩陣的和的第一協(xié)方差矩陣,其中每個所述第二協(xié)方差矩陣對應于所使用頻率區(qū)間中的相應一個,并且包含所有信道的所有子幀的針對所述相應所使用頻率區(qū)間的譜參數(shù),并且 其中,基于對所述第一協(xié)方差矩陣的特征向量分析來計算所述幀幅度差向量。
16.如權(quán)利要求14所述的方法,其中通過對協(xié)方差矩陣的最大特征向量求平均來計算所述幀幅度差向量,其中每個所述協(xié)方差矩陣對應于所使用頻率區(qū)間中的相應一個,并且包含所有信道的所有子幀的針對所述相應所使用頻率區(qū)間的譜參數(shù)。
17.如權(quán)利要求11所述的方法,其中通過直接對每個所述信道的所有樣本進行譜分析來獲得所述信道的譜參數(shù),并且 其中所述幀幅度差向量被計算為協(xié)方差矩陣的最大特征向量,其中所述協(xié)方差矩陣包含所有所述信道的所有所使用頻率區(qū)間的譜參數(shù)。
18.如權(quán)利要求I所述的方法,其中基于所述短時間幀數(shù)據(jù)及其前面的短時間幀數(shù)據(jù)自適應地計算所述幀幅度差向量。
19.如權(quán)利要求18所述的方法,其中通過下述步驟自適應地計算所述幀幅度差向量 基于所述短時間幀數(shù)據(jù)計算當前幀幅度差向量,和 把所述當前幀幅度差向量和基于前面的短時間幀數(shù)據(jù)自適應地計算的歷史幀幅度差向量平滑為所述幀幅度差向量,其中所述幀幅度差向量或所述當前幀幅度差向量被用作下一幀幅度差向量的歷史幀幅度差向量。
20.如權(quán)利要求18所述的方法,其中根據(jù)基于特征向量的方法來計算所述幀幅度差向量,并且 其中通過下述步驟來獲得用于基于短時間幀數(shù)據(jù)計算特征向量的最終協(xié)方差矩陣 基于所述短時間幀數(shù)據(jù)導出當前協(xié)方差矩陣,和 把所述當前協(xié)方差矩陣和基于前面的短時間幀數(shù)據(jù)的歷史協(xié)方差矩陣平滑為所述最終協(xié)方差矩陣,其中用于基于所述短時間幀數(shù)據(jù)計算特征向量的所述最終協(xié)方差矩陣或所述當前協(xié)方差矩陣被用作下一最終協(xié)方差矩陣的歷史協(xié)方差矩陣。
21.如權(quán)利要求I所述的方法,還包括通過經(jīng)由所述陣列分別捕獲來自所述候選位置的聲音來獲得所述多個參考幀幅度差向量。
22.如權(quán)利要求I所述的方法,還包括 基于所述陣列的所述話筒對來自所述候選位置的聲音的靈敏度來計算所述多個參考幀幅度差向量。
23.如權(quán)利要求I所述的方法,其中所述陣列包括三個心型指向話筒,所述三個心型指向話筒在平面中的取向分別為O度、-120度和-240度的方向。
24.一種進行聲源定位的設備,包括 向量計算器,其基于通過話筒陣列獲得的短時間幀數(shù)據(jù)計算幀幅度差向量,所述幀幅度差向量反映在記錄所述短時間幀數(shù)據(jù)期間所述陣列的話筒捕獲的幅度之間的差; 相似度評價器,其評價所述幀幅度差向量和多個參考幀幅度差向量中的每個之間的相似度,所述多個參考幀幅度差向量中的每個反映在記錄來自多個候選位置之一的聲音期間所述陣列的話筒捕獲的幅度之間的差; 估計器,其至少基于所述候選位置和相關(guān)的相似度估計聲源的期望位置。
25.如權(quán)利要求24所述的設備,還包括 可能性評價器,其根據(jù)基于時間差的音頻定位方法評價多個可能位置中的每個是所述期望位置的可能性,并且 其中所述估計器進一步被配置成基于所述候選位置、所述相似度、所述可能位置和所述可能性來估計所述期望位置。
26.如權(quán)利要求25所述的設備,還包括 第一函數(shù)生成器,其基于所述可能位置及其可能性導出用于估計所有位置是所述期望位置的概率的第一概率函數(shù); 第二函數(shù)生成器,其基于所述候選位置及其相似度導出用于估計所有位置是所述期望位置的概率的第二概率函數(shù);和 第三函數(shù)生成器,其基于所述第一概率函數(shù)和所述第二概率函數(shù)計算用于估計所有位置是所述期望位置的概率的組合概率函數(shù),并且 其中所述估計器進一步被配置成基于所述組合概率函數(shù)把具有最高組合概率的位置估計為所述期望位置。
27.如權(quán)利要求26所述的設備,其中所述估計器進一步被配置成從所述第一概率函數(shù)的一個或多個峰位置中,或者從具有較高可能性的一個或多個可能位置中,選擇與具有最大組合概率的位置最接近的位置。
28.如權(quán)利要求26所述的設備,其中通過引入第一系數(shù)來導出所述第一概率函數(shù),通過引入第二系數(shù)來導出第二概率函數(shù),所述第一系數(shù)和所述第二系數(shù)使得所述組合概率函數(shù)對于所述相似度更加敏感。
29.如權(quán)利要求25所述的設備,還包括 函數(shù)生成器,其基于所述可能位置及其可能性,或者基于所述候選位置及其相似度,導出用于估計所有位置是所述期望位置的概率的概率函數(shù),并且 其中,所述估計器進一步被配置成從具有較高相似度的一個或多個所述候選位置中,或者從具有較高可能性的一個或多個所述可能位置中,基于所述概率函數(shù)選擇具有最高概率的位置。
30.如權(quán)利要求25所述的設備,其中所述估計器進一步被配置成找到一對具有較高相似度的所述候選位置和具有較高可能性的所述可能位置,所述一對候選位置和可能位置彼此最接近,以及選擇所述一對候選位置和可能位置之一作為所述期望位置。
31.如權(quán)利要求24所述的設備,其中所述向量計算器被配置成根據(jù)下面的方法之一來計算所述幀幅度差向量基于能量的方法和基于特征向量的方法。
32.如權(quán)利要求24所述的設備,其中所述向量計算器被配置成根據(jù)下面的方法之一來計算所述幀幅度差向量基于時域樣本值的方法和基于頻域參數(shù)的方法。
33.如權(quán)利要求24所述的設備,其中所述向量計算器被配置成根據(jù)下面的方法之一來計算所述幀幅度差向量 基于所述短時間幀數(shù)據(jù)中各個信道上的平均幅度來計算所述幀幅度差向量; 基于對協(xié)方差矩陣的特征向量分析來計算所述幀幅度差向量,所述協(xié)方差矩陣包含所述短時間幀數(shù)據(jù)中各個信道的時域樣本值;和 基于所述短時間幀數(shù)據(jù)中各個信道的頻域上的平均幅度來計算所述幀幅度差向量。
34.如權(quán)利要求24所述的設備,其中所述向量計算器被配置成基于所述短時間幀數(shù)據(jù)中各個信道的譜參數(shù)的特征向量分析來計算所述幀幅度差向量。
35.如權(quán)利要求34所述的設備,其中所述譜參數(shù)是下面類型的參數(shù)之一FFT參數(shù)、梅爾倒頻譜參數(shù)和子帶能量。
36.如權(quán)利要求34所述的設備,其中所述譜參數(shù)是復譜參數(shù)或幅度譜參數(shù)。
37.如權(quán)利要求34所述的設備,其中所述向量計算器被配置成通過對所述信道中的每個的多個子幀進行譜分析來獲得所述信道的譜參數(shù),并且其中所述信道的所有樣本被組合成所述子幀。
38.如權(quán)利要求37所述的設備,其中所述向量計算器被配置成獲得作為第二協(xié)方差矩陣的和的第一協(xié)方差矩陣,其中每個所述第二協(xié)方差矩陣對應于所使用頻率區(qū)間中的相應一個,并且包含所有信道的所有子幀的針對所述相應所使用頻率區(qū)間的譜參數(shù),并且 其中,所述向量計算器被配置成基于對所述第一協(xié)方差矩陣的特征向量分析來計算所述幀幅度差向量。
39.如權(quán)利要求37所述的設備,其中所述向量計算器被配置成通過對協(xié)方差矩陣的最大特征向量求平均來計算所述幀幅度差向量,其中每個所述協(xié)方差矩陣對應于所使用頻率區(qū)間中的相應一個,并且包含所有信道的所有子幀的針對所述相應所使用頻率區(qū)間的譜參數(shù)。
40.如權(quán)利要求34所述的設備,其中所述向量計算器被配置成通過直接對每個所述信道的所有樣本進行譜分析來獲得所述信道的譜參數(shù),并且 其中所述向量計算器被配置成把所述幀幅度差向量計算為協(xié)方差矩陣的最大特征向量,其中所述協(xié)方差矩陣包含所有所述信道的所有所使用頻率區(qū)間的譜參數(shù)。
41.如權(quán)利要求24所述的設備,其中所述向量計算器被配置成基于所述短時間幀數(shù)據(jù)及其前面的短時間幀數(shù)據(jù)自適應地計算所述幀幅度差向量。
42.如權(quán)利要求41所述的設備,其中所述向量計算器被配置成通過下述操作自適應地計算幀幅度差向量基于所述短時間幀數(shù)據(jù)計算當前幀幅度差向量,和 把所述當前幀幅度差向量和基于前面的短時間幀數(shù)據(jù)自適應地計算的歷史幀幅度差向量平滑為所述幀幅度差向量,其中所述幀幅度差向量或所述當前幀幅度差向量被用作下一幀幅度差向量的歷史幀幅度差向量。
43.如權(quán)利要求41所述的設備,其中所述向量計算器被配置成根據(jù)基于特征向量的方法來計算所述幀幅度差向量,并且 其中所述向量計算器被配置成通過下述操作來獲得用于基于短時間幀數(shù)據(jù)計算特征向量的最終協(xié)方差矩陣 基于所述短時間幀數(shù)據(jù)導出當前協(xié)方差矩陣,和 把所述當前協(xié)方差矩陣和基于前面的短時間幀數(shù)據(jù)的歷史協(xié)方差矩陣平滑為所述最終協(xié)方差矩陣,其中用于基于所述短時間幀數(shù)據(jù)計算特征向量的所述最終協(xié)方差矩陣或所述當前協(xié)方差矩陣被用作下一最終協(xié)方差矩陣的歷史協(xié)方差矩陣。
44.如權(quán)利要求24所述的設備,還包括 參考向量計算器,其基于通過經(jīng)由所述陣列分別捕獲來自所述候選位置的聲音而獲得的音頻數(shù)據(jù)來計算所述多個參考幀幅度差向量。
45.如權(quán)利要求24所述的設備,還包括 參考向量計算器,其基于所述陣列的所述話筒對來自所述候選位置的聲音的靈敏度來計算所述多個參考幀幅度差向量。
46.如權(quán)利要求24所述的設備,其中所述陣列包括三個心型指向話筒,所述三個心型指向話筒在平面中的取向分別為O度、-120度和-240度的方向。
47.一種計算機可讀介質(zhì),其上記錄有使得處理器能夠進行聲源定位的計算機程序指令,所述計算機程序指令包括 用于基于通過話筒陣列獲得的短時間幀數(shù)據(jù)計算幀幅度差向量的裝置,所述幀幅度差向量反映在記錄所述短時間幀數(shù)據(jù)期間所述陣列的話筒捕獲的幅度之間的差; 用于評價所述幀幅度差向量和多個參考幀幅度差向量中的每個之間的相似度的裝置,所述多個參考幀幅度差向量中的每個反映在記錄來自多個候選位置之一的聲音期間所述陣列的話筒捕獲的幅度之間的差; 用于至少基于所述候選位置和相關(guān)的相似度估計聲源的期望位置的裝置。
48.如權(quán)利要求47所述的計算機可讀介質(zhì),其中所述計算機程序指令還包括 用于根據(jù)基于時間差的音頻定位方法評價多個可能位置中的每個是所述期望位置的可能性的裝置,并且 其中用于估計的裝置包括用于基于所述候選位置、所述相似度、所述可能位置和所述可能性來估計所述期望位置的裝置。
全文摘要
描述了聲源定位設備和方法?;谕ㄟ^話筒陣列獲得的短時間幀數(shù)據(jù)計算幀幅度差向量。幀幅度差向量反映在記錄短時間幀數(shù)據(jù)期間陣列話筒捕獲的幅度之間的差。評價幀幅度差向量和多個參考幀幅度差向量中的每個之間的相似度。每個參考幀幅度差向量反映在記錄來自多個候選位置之一的聲音期間陣列話筒捕獲的幅度之間的差。至少基于候選位置和相關(guān)的相似度估計聲源的期望位置。能夠至少基于幅度差來進行聲源定位。
文檔編號G01S5/18GK102809742SQ20111015773
公開日2012年12月5日 申請日期2011年6月1日 優(yōu)先權(quán)日2011年6月1日
發(fā)明者雙志偉, 大衛(wèi)·麥格拉思, 格倫·迪肯斯 申請人:杜比實驗室特許公司