亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種聲源定位方法

文檔序號:7615626閱讀:298來源:國知局
專利名稱:一種聲源定位方法
技術領域
本發(fā)明涉及多媒體通信技術領域的音頻處理技術,具體涉及一種聲源定位方法。
背景技術
在基于麥克風的拾音系統(tǒng)中,聲源定位技術能夠確定感興趣的聲音,使拾音系統(tǒng)能夠對其接收的信號進行聲音去噪、聲源跟蹤、語音提取和分離等處理。準確的聲源定位能夠有效提高嘈雜背景下的語音通信質量。
傳統(tǒng)的拾音工具一般為單個孤立的麥克風。單個麥克風會將其拾音范圍內的任何聲音包括噪聲等全部接收,即單個麥克風接收的信號是由環(huán)境噪聲、多個聲源發(fā)出的聲音組成的混合信號。
單個麥克風不能夠自適應的對準并跟蹤感興趣的說話人,主要采用在頻譜域進行功率譜抵消(spectral subtraction)和濾波等技術來抑制噪聲。然而,麥克風接收的語音信號和噪聲信號通常在時間上和頻譜上是相互重疊的,因此,要從單個麥克風接收的混合信號中分離出不同的聲音,并有效抑制不感興趣的聲音如噪聲等是相當困難。
因而,基于單個麥克風拾音系統(tǒng)的語音通信質量差,使得感興趣的說話人的聲音難以聽清。
麥克風陣列技術是語音信號處理的一個新領域。麥克風陣列由多個麥克風按照一定的拓撲結構組成,典型的麥克風陣列如附圖1,附圖2、附圖3和附圖4所示。
目前,麥克風陣列主要采用三種方法實現(xiàn)聲源定位
方法一、采用時延估計(Time-Delay estimator)技術和延遲求和波束形成(Delay Sum Beamformer,DSB)技術來進行聲源定位。由于時延估計和延遲求和波束形成技術的定位精度較低,所以,該方法在三維定位、多聲源定位、非語音信號處理等方面的應用局限性大。
方法二、采用極大似然估計類算法和高階估計類算法進行聲源定位。該方法中的算法復雜度高、計算量大,一般僅用于理論研究,作為評價算法的標準。
方法三、采用近場聲源定位技術來實現(xiàn)聲源定位,該方法通過譜峰的空間搜索來獲得聲源的方位和距離信息。
具體方法為首先把M個普通全向麥克風按照一定的拓撲結構組成麥克風陣列,如將8個全向麥克風均勻分布在一個直徑為50厘米的圓周上,組成均勻圓形麥克風陣列,來拾取聲源發(fā)出的聲音信號和其他處于麥克風接收范圍內的所有語音信號。
用數(shù)學公式表示麥克風陣列的接收信號F(t)為F(t)=[f1(t) L fi(t) L fM(t)]T(1)然后,對每個麥克風接收到的信號進行AD(模數(shù))變換F(n)=[f1(n) L fi(n) L fM(n)]T(2)再從公式(2)計算出的每路信號中選取一幀信號進行短時傅立葉變換S(ω)=Σm=1NF(n)w(n-m)exp(-jωm)=Σm=1Nf1(n)w(n-m)exp(-jωm)LΣm=1NfM(n)w(n-m)exp(-jωm)---(3)]]>其中w(n)為窗函數(shù),m為窗函數(shù)每次移動的點數(shù),N為幀長。
對公式(3)的S(ω)的每一頻率點S(ωi)S(ωi)=S1(i)LSM(i)---(4)]]>作如下4個步驟的處理1、獲取語音幀的頻域相關矩陣R(i)R(i)=E{S(ωi)SH(ωi)} (5)2、對上述相關矩陣進行特征值分解,求出特征值和對應的特征向量;R(i)=Uidiag(λ1,L,λM)ViH---(6)]]>3、按照特征值的大小把特征向量組成的信號空間分解成為噪聲子空間S和信號子空間GVi=SiMGi---(7)]]>4、根據(jù)公式(8)獲取每一搜索位置的位置矢量ai(r,θ)ai(r,θ)=1r1e-jωiτ1L1rme-jωiτmL1rMe-jωiτM---(8)]]>其中rm是從搜索點(r,θ)到第m個麥克風的距離;τm聲源從搜索點(r,θ)到第m個麥克風的傳播時間;ωi表示第i個頻率點。
定義bi(r,θ)為bi(r,θ)=ai(r,θ)||ai(r,θ)||---(9)]]>求出第i個頻率點的二維空間譜矩陣為Pi(θ,r,ωi)=1||biH(r,θ)Gi||---(10)]]>通過上面4個步驟的處理后,選擇一個頻率范圍并求出該頻率范圍內的平均空間譜為P(r,θ)=1KΣi=ωLωHPi(θ,r,ωi)---(11)]]>其中ωL,ωH分別為該頻率范圍的下界和上界頻率,K=ωH-ωL+1。
對P(r,θ)進行二維譜峰搜索,從而找到目標信號的位置,即在二維空間譜矩陣P(r,θ)中找出峰值,峰值對應的坐標就是聲源位置估計值(r,θ)。
該方法存在如下缺點1、只能夠進行二維聲源定位,不能實現(xiàn)三維聲源定位,定位不準確,從而使聲音去噪、聲源跟蹤、語音提取和分離等方面的處理受到影響,降低了語音通信質量。
2、該方法中搜索位置矢量a(r,θ)的幅度衰減因子和時間延遲因子沒有體現(xiàn)麥克風之間的空間相對位置關系,這與子空間理論的基本假設有一定的差異,使聲源定位性能下降。
3、該方法在沒有語音時拾音系統(tǒng)也進行聲源定位,浪費了大量的資源,而且使位置估計錯誤比率高。
4、大量非白高斯噪聲會使聲源定位性能顯著下降。
5、該方法對所有頻率點均求空間譜,運算量大、實時性低、實現(xiàn)成本高。
6、該方法在搜索目標位置時,采用頻率范圍內的每一頻率點的空間譜的簡單平均,沒有考慮語音信號的頻率特性,使聲源定位性能下降。
綜上所述,現(xiàn)有的麥克風陣列的聲源定位方法不能夠實現(xiàn)三維空間定位,存在聲源定位不準確、拾音系統(tǒng)的語音通信質量低等問題。

發(fā)明內容
本發(fā)明的目的在于,提供一種聲源定位方法,以克服現(xiàn)有技術的聲源二維空間定位存在的聲源定位精度差的缺點。
為達到上述目的,本發(fā)明提供的技術方案具體為一種聲源定位方法,包括a、根據(jù)預定三維空間坐標將拾音范圍內的三維空間劃分為若干個空間搜索點;b、根據(jù)預定頻點確定所述各空間搜索點的三維搜索位置矢量;c、根據(jù)所述各空間搜索點的三維搜索位置矢量、聲源信號確定各空間搜索點在各預定頻點的三維空間譜矩陣;d、根據(jù)所述各三維空間譜矩陣確定聲源的三維位置信息。
所述步驟a中預定三維空間坐標具體是指以麥克風陣列的中心位置為坐標原點的三維空間坐標或以麥克風陣列中任一麥克風的位置為坐標原點的三維空間坐標。
所述步驟b具體包括如下步驟b1、根據(jù)預定三維空間坐標確定各麥克風的三維空間矢量pm為pm={xm,ym,zm}=rm*((sinθmcosm,sinθmsinm,cosθm)),i=1,L,M;其中x、y、z為第m個麥克風的坐標位置,rm為第m個麥克風距坐標原點的距離,θ為第m個麥克風的坐標矢量與Z軸正方向的夾角,為第m個麥克風坐標矢量在XOY平面的投影與X軸正方向的夾角;b2、根據(jù)各麥克風的三維空間矢量確定所述各空間搜索點分別在各預定頻點的三維搜索位置矢量。
所述步驟b2具體包括如下步驟b21、根據(jù)語音信號的頻率確定預定個數(shù)的子帶;b22、分別確定所述各子帶的中心頻率;b23、分別根據(jù)各子帶的中心頻率、各麥克風的三維空間矢量確定所述各空間搜索點在所述各子帶的三維搜索位置矢量。
所述步驟b23具體包括如下步驟設定空間搜索點(r,θ,φ)的坐標矢量S分別為S=r*[sinθcosφ sinθsinφ cosθ];其中r為空間搜索點距坐標原點的距離,θ為空間搜索點的坐標矢量與Z軸正方向的夾角,為空間搜索點在XOY平面的投影與X軸正方向的夾角;確定空間搜索點(r,θ,φ)到第m個麥克風的相對幅度衰減因子m為∂m=||S||||Pm-S||;]]>其中pm為第m個麥克風的三維空間矢量,‖*‖表示矢量*的范數(shù);確定空間搜索點(r,θ,φ)到第m個麥克風的相對時間延遲因子τm為τm=||S-Pm||-||S||c;]]>
其中c為聲音在空氣中的傳播速度,‖*‖表示矢量*的范數(shù);確定空間搜索點(r,θ,φ)在所述各子帶的三維搜索位置矢量ai(r,θ,φ)為ai(r,θ,φ)=∂1e-jωiτ1L∂me-jωiτmL∂Me-jωiτM;]]>其中ωi為各子帶的中心頻率。
所述步驟c具體包括如下步驟c1、各麥克風根據(jù)預定采樣頻率獲取聲源信號;c2、將所述聲源信號進行AD轉換F(n)=[f1(n) L fi(n) L fM(n)]T;c3、從所述AD轉換后的聲源信號中選取信號幀進行短時傅立葉變換S(ω)=Σm=1NF(n)w(n-m)exp(-jωm)=Σm=1Nf1(n)w(n-m)exp(-jωm)LΣm=1NfM(n)w(n-m)exp(-jωm);]]>c4、確定所述傅立葉變換后的語音幀;c5、根據(jù)所述各空間搜索點在各預定頻點的位置矢量、所述語音幀確定各空間搜索點在所述各子帶的三維空間譜矩陣。
所述步驟c4具體包括如下步驟判斷所述傅立葉變換后的信號幀是否為語音幀;如果為非語音幀,將所述信號幀存儲為當前估計噪聲譜;如果為語音幀,根據(jù)當前估計噪聲譜將所述語音幀進行譜抵消去噪S(ω)=F(ω)-N(ω)=s1(1)Ls1(NFFT)LLLsM(1)LsM(NFFT)M×NFFT;]]>其中N(ω)=n1(1)Ln1(NFFT)LLLnM(1)LnM(NFFT)M×NFFT]]>為當前估計噪聲譜,NFFT為短時傅立葉變換的頻率采樣點數(shù)。
所述步驟c5具體包括如下步驟
確定譜抵消去噪后的語音幀在各子帶的頻域相關矩陣R(i)R(i)=E{S(ωi)SH(ωi)};其中S(ωi)為第i個子帶的信號分量,且S(ωi)=S1(i)LSM(i);]]>根據(jù)所述R(i)的奇異值分解R(i)=Uidiag(λ1,L,λM)ViH]]>確定各頻域相關矩陣對應的奇異向量和奇異值;其中λ1,L,λM為R(i)的奇異值,Ui和Vi是對應的奇異向量組成的矩陣;根據(jù)奇異值的大小、聲源個數(shù)確定語音幀在各子帶的噪聲子空間;根據(jù)所述語音幀在各子帶的噪聲子空間確定各空間搜索點在所述各子帶的三維空間譜矩陣為Pi(ri,θi,φi,ωi)=1||aiH(r,θ,φ)Gi||2;]]>其中Gi為語音幀在第i個子帶的噪聲子空間,ai(r,θ,φ)為空間搜索點(r,θ,φ)在第i個子帶的三維搜索位置矢量。
所述步驟d具體包括如下步驟d1、將所述各三維空間譜矩陣的各三維譜峰坐標分別作為聲源信號在各子帶的位置坐標;d2、將所述聲源信號在各子帶的位置加權平均值確定為聲源信號的位置坐標為(θ^,φ^,r^)=1KΣi=1Kwi*(θi,φi,ri);]]>其中K為子帶的預定個數(shù),wi為第i個子帶的權值,且wi為wi=||S(ωi)||2Σi=1K||S(ωi)||2,]]>S(ωi)為第i個子帶的信號分量,(θi,φi,γi)為聲源信號在第i個子帶的位置坐標。
所述步驟d具體包括如下步驟
d3、根據(jù)所述各三維空間譜矩陣進行加權平均P‾(r,θ,φ)=Σi=1Kwi*Pi(ri,θi,φi,ωi);]]>其中wi為第i個子帶的權值,且wi為wi=||S(ωi)||2Σi=1K||S(ωi)||2,]]>S(ωi)為第i個子帶的信號分量,Pi(ri,θi,φi,ωi)為各空間搜索點在第i個子帶的三維空間譜矩陣;d4、將所述加權平均后的三維空間譜矩陣的三維譜峰坐標作為聲源信號的位置坐標。
所述步驟d1、d4中的wi可替換為 其中K為子帶的預定個數(shù)。
通過上述技術方案的描述可知,本發(fā)明通過空間搜索點的三維搜索位置矢量實現(xiàn)了聲源三維空間定位,提高了聲源定位的精度;通過參考麥克風的位置來確定空間搜索點的幅度衰減因子和時延因子,使本發(fā)明與子空間理論的模型假設一致,減少了模型誤差,提高了聲源位置估計性能;通過設置子帶,大大減少了頻域相關矩陣的運算量,減少了算法復雜度,提高了拾音系統(tǒng)的實時性,節(jié)約了硬件成本;通過對每個子帶分別估計出聲源位置坐標,并進行加權求和,使聲源位置的估計值更加準確;通過語音檢測使本發(fā)明在沒有語音輸入時,拾音系統(tǒng)不進行聲源位置估計,提高了聲源位置估計性能,降低了系統(tǒng)資源消耗;通過采用譜抵消去噪,減少了非白高斯噪聲的影響;從而通過本發(fā)明提供的技術方案實現(xiàn)了提高聲源定位精度、提高拾音系統(tǒng)語音通信質量的目的。


圖1是麥克風陣列示意圖1;圖2是麥克風陣列示意圖2;圖3是麥克風陣列示意圖3;
圖4是麥克風陣列示意圖4;圖5是本發(fā)明的聲源定位方法的流程圖。
具體實施例方式
在麥克風的實際拾音環(huán)境中,聲源的位置可能會因為說話人的走動、起坐等原因在三維空間中發(fā)生變化,如果在聲源定位時,能夠進行三維聲源定位,則能夠提高麥克風的聲源定位準確性,從而使拾音系統(tǒng)能夠對聲源準確跟蹤,提高拾音系統(tǒng)的語音通信質量。
因此,本發(fā)明的核心是根據(jù)預定三維空間坐標將拾音范圍內的三維空間劃分為若干個空間搜索點,根據(jù)預定頻點分別確定所述各空間搜索點的三維搜索位置矢量,根據(jù)所述各空間搜索點的三維搜索位置矢量、聲源信號確定各空間搜索點在各預定頻點的三維空間譜矩陣,根據(jù)所述各三維空間譜矩陣確定聲源的三維位置信息。
下面基于本發(fā)明的核心思想對本發(fā)明提供的技術方案做進一步的描述。
本發(fā)明中的麥克風可以為普通的全向麥克風,且多個麥克風按照一定的拓撲結構組成的麥克風陣列可以為任意陣列形式,如8個普通全向麥克風組成的如附圖1所示的均勻直線麥克風陣列,如8個普通全向麥克風組成的如附圖2所示的均勻圓形麥克風陣列,如18個普通全向麥克風組成的如附圖3所示的均勻球面形麥克風陣列,再如10個普通全向麥克風組成的如附圖4所示的三維均勻直線麥克風陣列。
麥克風陣列在其拾音距離內拾取聲源發(fā)出的聲源信號和其他處于麥克風拾取范圍內的所有語音信號。
麥克風的拾音距離可根據(jù)具體的應用環(huán)境來確定,如房間大小為長5米、寬10米、高4米,則可以要求麥克風陣列對該房間內的所有聲音進行處理,麥克風的拾音距離應至少為10米。
本發(fā)明對構成麥克風的支架材料不限,但是,麥克風的支架幾何尺寸要越小越好,以減少支架對聲音的反射,從而減少多徑效應。
本發(fā)明首先需要在麥克風陣列的拾音范圍內的三維空間中設置三維空間坐標,三維空間坐標的原點可以為麥克風陣列的中心位置,也可以為麥克風陣列中的任意一個麥克風的位置,或其他位置。
在確定三維空間坐標后,應根據(jù)三維空間坐標確定各麥克風的坐標矢量和各空間搜索點的坐標矢量。
設第m個麥克風的坐標矢量為pm={xm,ym,zm}=rm*((sinθmcosm,sinθmsinm,cosθm)),i=1,L,M(12)其中ri為第i個麥克風距麥克風陣列中心即三維空間坐標原定的距離,θ為第i個麥克風的坐標矢量與三維空間坐標Z軸正方向的夾角,為第i個麥克風坐標矢量在三維空間坐標XOY平面的投影與X軸正方向的夾角。
M個麥克風的坐標矢量組成整個麥克風陣列的坐標矩陣為 設三維空間坐標中任一空間搜索點(r,θ,φ)的坐標矢量S為S=r*[sinθcosφ sinθsinφ cosθ] (14)其中r為空間搜索點(r,θ,φ)距麥克風陣列中心即三維空間坐標原定的距離,θ為空間搜索點(r,θ,φ)坐標矢量與三維空間坐標Z軸正方向的夾角,為空間搜索點(r,θ,φ)的坐標矢量在三維空間坐標XOY平面的投影與X軸正方向的夾角。
在三維空間坐標中劃分空間搜索點可根據(jù)具體的應用環(huán)境來確定,如當聲源為人時,在20厘米×20厘米×20厘米的空間內一般情況下不可能出現(xiàn)兩個聲源,此時,可以選擇水平角步長為5°,俯仰角步長為5°,距離步長為15厘米就可以了,如果選擇更小的步長,如水平角、俯仰角步長均為1°,距離步長為5厘米,則對拾音系統(tǒng)的運算能力要求會很高,普通的DSP(數(shù)字信號處理)芯片實現(xiàn)困難,在聲源為人的拾音系統(tǒng)中是沒有必要的。
在確定了各麥克風的坐標矢量、空間搜索點的坐標矢量后,麥克風陣列接收的聲源信號可以用數(shù)學公式表示為F(t)=[f1(t) L fi(t) L fM(t)]T(15)其中fi(t)表示第i個麥克風接收到的聲源信號;i=1,L,M;M為麥克風陣列中麥克風的個數(shù);[●]T表示對“●”矩陣的轉置運算。
對麥克風陣列中每個麥克風接收到的聲源信號進行AD變換。在進行AD變換時可以根據(jù)對聲音質量的要求對接收的聲源信號采用16KHz,22KHz,44Khz或其它的采樣頻率,采樣精度可以選用8bit,16bit,32bit或其它采樣精度。采樣的技術和使用的采樣芯片不限。
采樣后形成多路數(shù)字語音信號,即F(n)=[f1(n) L fi(n) L fM(n)]T(16)從AD變換后的每路聲源信號中選取一幀信號如選取幀長為32ms的信號幀進行短時傅立葉變換,短時傅立葉變換可以選用漢明窗或其它窗函數(shù)。
如果采用512點的FFT(快速傅立葉變換)來實現(xiàn)短時傅立葉變換,則短時傅立葉變換后的信號幀為F(ω)=Σm=1NF(n)w(n-m)exp(-jωm)=Σm=1Nf1(n)w(n-m)exp(-jωm)LΣm=1NfM(n)w(n-m)exp(-jωm)---(17)]]>對短時傅立葉變換后的信號幀進行語音檢測,以確定該聲源信號幀是語音幀,還是非語音幀。檢測語音幀可采用過零率、短時能量相結合的語音檢測技術來實現(xiàn),也可通過其他語音檢測技術來實現(xiàn)。
對于非語音幀,可將其存儲為當前估計噪聲譜,對于語音幀,則繼續(xù)進行下面的聲源定位過程。通過語音檢測使本發(fā)明在沒有語音輸入時,拾音系統(tǒng)不進行聲源位置估計,提高了聲源位置估計性能,降低了系統(tǒng)資源消耗。
在檢測為語音幀后,對語音幀采用譜抵消方法,如減譜法進行譜抵消去噪,以去除拾音系統(tǒng)中的噪聲。由于譜抵消去噪技術在一定程度上能夠解決非白高斯噪聲的影響,所以,對語音幀進行譜抵消去噪后,使拾音系統(tǒng)的聲源定位更加準確,提高了聲源定位的估計性能。
當前估計噪聲譜的初始值可設為0矩陣。
設定當前估計噪聲譜為N(ω)=n1(1)Ln1(512)LLLnM(1)LnM(512)M×512---(18)]]>其中M為麥克風的個數(shù),512為512點FFT的短時傅立葉變換。
將語音幀進行譜抵消去噪后的語音幀信號為S(ω)=F(ω)-N(ω)=s1(1)Ls1(512)LLLsM(1)LsM(512)M×512---(19)]]>其中M為麥克風的個數(shù),512為512點FFT的短時傅立葉變換。
對于經過譜抵消去噪后的語音幀信號,應分別確定各空間搜索點在語音幀信號的各頻點的三維搜索位置矢量。
為減少運算的復雜程度,提高聲源定位性能,本發(fā)明可以根據(jù)語音幀信號的特點劃分子帶,即選取感興趣的K個頻率ωi,i=1,...K,把這些頻率作為每一個子帶的中心頻率,將各空間搜索點在各子帶中心頻率點的三維搜索位置矢量確定為各空間搜索點在各子帶的各頻點的三維搜索位置矢量。
設定第i個子帶的信號分量S(ωi)為S(ωi)=S1(i)LSM(i)---(20)]]>
對每一子帶的信號分量S(ωi)作如下處理獲取語音幀的頻域相關矩陣R(i)R(i)=E{S(ωi)SH(ωi)} (21)將上述相關矩陣R(i)奇異值分解為R(i)=Uidiag(λ1,L,λM)ViH---(22)]]>其中λ1,L,λM為R(i)的奇異值,Ui和Vi是對應的奇異向量組成的矩陣,即V1=[v1L vM],其中的v1L vM為λ1,L,λM對應的奇異向量。
根據(jù)奇異值λ1,L,λM的大小和聲源個數(shù)對Vi分塊為 =SiMGi---(23)]]>其中D為需要估計聲源位置的聲源個數(shù),聲源個數(shù)可以由系統(tǒng)預先設定,v1L vD為D個較大的奇異值對應的奇異向量,vD+1L vM為其余的奇異向量。
根據(jù)公式(23)可以確定語音幀在各子帶的信號子空間Si和噪聲子空間Gi。
在對語音幀的每一子帶進行上述處理后,應根據(jù)各空間搜索點在第i個子帶的三維搜索位置矢量ai(r,θ,φ)與各子帶的噪聲子空間Gi確定語音信號在第i個子帶的三維空間譜矩陣。
空間搜索點的三維搜索位置矢量ai(r,θ,φ)可根據(jù)各空間搜索與各麥克風的相對位置求出,具體過程為設第m個麥克風的坐標矢量為Pm,任一空間搜索點(r,θ,φ)的坐標矢量為S,即S=r*[sinθcosφ sinθsinφ cosθ] (24)
Pm=rm*[sinθmcosmsinθmsinmcosθm](25)則從空間搜索點(r,θ,φ)到第m個麥克風的相對幅度衰減因子m為∂m=||S||||Pm-SS||---(26)]]>從空間搜索點(r,θ,φ)到第m個麥克風的相對時間延遲因子τm為τm=||S-Pm||-||S||c---(27)]]>其中c為聲音在空氣中的傳播速度,在室溫時取340米/秒。
任一空間搜索點(r,θ,φ)在第i個子帶的三維搜索位置矢量ai(r,θ,φ)為ai(r,θ,φ)=∂1e-jωiτ1L∂me-jωiτmL∂Me-jωiτM---(28)]]>在確定了各空間搜索點在第i個子帶的三維搜索位置矢量后,可確定語音信號在第i個子帶的三維空間譜矩陣為Pi(ri,θi,φi,ωi)=1||aiH(r,θ,φ)Gi||2---(29)]]>其中Gi為第i個子帶的噪聲子空間。
對Pi(ri,θi,φi,ωi)進行三維譜峰搜索目標信號的位置,即在三維空間譜矩陣Pi(θi,φi,ri,ωi)中找出峰值,該峰值對應的坐標就是聲源信號的第i個子帶的位置估計值(θi,φi,ri)。
根據(jù)上述方法對劃分的K個子帶分別求出K個聲源信號的位置估計值,對這K個聲源信號的位置估計值進行加權平均,即可得到聲源信號的三維位置估計值(θ^,φ^,r^)=1KΣi=1Kwi*(θi,φi,ri)---(30)]]>其中K為子帶的預定個數(shù),wi為第i個子帶的權值,且wi為
wi=||S(ωi)||2Σi=1K||S(ωi)||2;---(31)]]>其中S(ωi)為第i個子帶的信號分量,K為子帶的預定個數(shù)。
上述公式30中的權值wi可以結合聲源的特點進行相應的變化,以增強部分子帶的估計結果,例如當已知聲源為男聲,則可以提高低頻部分子帶的權值,從而獲得更加準確的聲源位置估計值。
在上述公式30中,各子帶的權值wi也可以簡化為 K為子帶的預定個數(shù)。
在獲取語音信號在第i個子帶的三維空間譜矩陣后,也可以對各三維空間譜矩陣求加權平均,即P‾(r,θ,φ)=Σi=1Kwi*Pi(ri,θi,φi,ωi)---(32)]]>其中K為子帶的預定個數(shù),wi為第i個子帶的權值,且wi=||S(ωi)||2Σi=1K||S(ωi)||2;]]>權值wi同樣也可以簡化為 K為預定子帶的預定個數(shù)。
從上述加權平均后的三維空間譜矩陣P(r,θ,φ)中搜索峰值,將該峰值對應的坐標位置(r,θ,φ)確定為聲源信號的坐標位置,從而實現(xiàn)聲源三維定位。
下面以8個全向麥克風組成的如附圖1所示的均勻直線麥克風陣列確定一個聲源位置為例,結合附圖5對本發(fā)明的技術方案進行詳細說明。
設定三維空間坐標的原點設置在附圖1中的第一個麥克風處,則各麥克風的位置矢量組成的矩陣為
P=000800160024003200400048005600---(33)]]>在步驟500,麥克風陣列中的各麥克風接收模擬聲源信號,設麥克風接收的模擬聲源信號為{f1(t),L,f8(t)}。
到步驟510,取采樣頻率為16KHz,采樣精度為16bit,將接收的模擬聲源信號進行AD變換,AD變換后的聲源信號為{f1(n),L,f8(n)}。
到步驟520,從上述AD變換后的聲源信號幀中選擇32毫秒長的一幀數(shù)據(jù),即幀長為512的信號幀F(xiàn)(N)=f1(1)Lf1(512)LLLf8(1)Lf8(512)8×512---(34)]]>取頻率采樣點數(shù)為512,對上述選擇的信號幀進行加漢明(hamming)窗的短時傅立葉變換F(ω)=f1(1)Lf1(512)LLLf8(1)Lf8(512)8×512---(35)]]>到步驟530,對上述短時傅立葉變換后的聲源信號幀進行語音檢測,如采用過零率、短時能量相結合的語音檢測技術對F(ω)進行語音檢測,判斷F(ω)是語音信號還是非語音信號如噪聲等,如果F(ω)是非語音信號到步驟531,將該非語音信號存儲為當前估計噪聲譜N(ω),即當前估計噪聲譜N(ω)=F(ω),到步驟532。
在步驟530,如果F(ω)是語音信號,到步驟532,采用譜抵消去噪的方法對語音幀進行去噪處理。設定當前估計噪聲譜為N(ω)=n1(1)Ln1(512)LLLn8(1)Ln8(512)8×512---(36)]]>譜抵消去噪后的語音信號為S(ω)=F(ω)-N(ω)=s1(1)Ls1(512)LLLs8(1)Ls8(512)8×512---(37)]]>到步驟540,根據(jù)語音幀的特點劃分子帶,如對語音信號的譜進行分析,一般語音信號頻率在300Hz~3400Hz之間,對于512點FFT變換可以選取11點到100點間共90個點為語音信號,由對稱性可知在267~356之間也為語音信號,把公式37中的非語音信號點置零,并把90個點分成9個子帶。
到步驟550,對每一個子帶進行相關運算,得到每一個子帶的相關矩陣{R1(ω)8×8,L,R9(ω)8×8},對{R1(ω)8×8,L,R9(ω)8×8}進行奇異值分解,獲得每個相關矩陣的奇異值和奇異向量,并進行空間分解,得到信號子空間和噪聲子空間。
對第i個子帶的相關矩陣進行特征值分解得Ri(ω)8×8=VΛUH(38)其中Λ=diag(λ1L λ8),λ1>L>λ8為奇異值組成的對角陣,U、V為對應的奇異矩陣。U可以劃分為信號子空間和噪聲子空間U=[UsMUN] (39)由于預先設定只有一個聲源,故UN為U矩陣的后7列。
到步驟560,假設三維空間搜索范圍和步長分別是θ為0°~90°,搜索步長為5°;φ為0°~90°搜索步長為5°;r為50厘米~500厘米,搜索步長為15厘米,則三維空間共有19×19×31個空間搜索點。
根據(jù)公式ai(r,θ,φ)=∂1e-jωiτ1L∂me-jωiτmL∂Me-jωiτM;]]>確定各空間搜索點分別在9個子帶中的三維空間搜索位置矢量,根據(jù)公式Pi(ri,θi,φi,ωi)=1||aiH(r,θ,φ)Gi||2]]>確定上述各三維空間搜索位置矢量的三維空間譜矩陣Pi(ri,θi,φi,ωi),該矩陣的尺寸為19×19×31。
對這9個子帶應分別求出9個三維空間譜矩陣。
到步驟570,每個三維空間譜矩陣確定了一個三維空間的曲面,找出各三維空間曲面的峰值點即矩陣的最大值點。
到步驟580,將各三維空間譜矩陣中的峰值點對應的三維坐標確定為聲源信號在第i個子帶的聲源位置的估計值ri,θi,φi。
到步驟590,對根據(jù)上述方法求出的9個聲源位置的估計值進行加權平均,即可得到聲源信號的位置估計值 下述公式中的權值可根據(jù)信號的特點來設定。
(r^,θ^,φ^)=19Σi=19wi*[ri,θi,φi]---(40)]]>其中各子帶的權值wi=||S(ωi)||2Σi=19||S(ωi)||2;]]>各子帶的權值也可以簡化為 到步驟591,輸出聲源信號的三維位置估計值。
雖然通過實施例描繪了本發(fā)明,本領域普通技術人員知道,本發(fā)明有許多變形和變化而不脫離本發(fā)明的精神,本發(fā)明的申請文件的權利要求包括這些變形和變化。
權利要求
1.一種聲源定位方法,其特征在于,包括步驟a、根據(jù)預定三維空間坐標將拾音范圍內的三維空間劃分為若干個空間搜索點b、根據(jù)預定頻點確定所述各空間搜索點的三維搜索位置矢量;c、根據(jù)所述各空間搜索點的三維搜索位置矢量、聲源信號確定各空間搜索點在各預定頻點的三維空間譜矩陣;d、根據(jù)所述各三維空間譜矩陣確定聲源的三維位置信息。
2.如權利要求1所述的一種聲源定位方法,其特征在于,所述步驟a中預定三維空間坐標具體是指以麥克風陣列的中心位置為坐標原點的三維空間坐標或以麥克風陣列中任一麥克風的位置為坐標原點的三維空間坐標。
3.如權利要求1所述的一種聲源定位方法,其特征在于,所述步驟b具體包括如下步驟b1、根據(jù)預定三維空間坐標確定各麥克風的三維空間矢量pm為pm={xm,ym,zm}=rm*((sinθmcosm,sinθmsinm,cosθm)),i=1,L,M;其中x、y、z為第m個麥克風的坐標位置,rm為第m個麥克風距坐標原點的距離,θ為第m個麥克風的坐標矢量與Z軸正方向的夾角,為第m個麥克風坐標矢量在XOY平面的投影與X軸正方向的夾角;b2、根據(jù)各麥克風的三維空間矢量確定所述各空間搜索點分別在各預定頻點的三維搜索位置矢量。
4.如權利要求3所述的一種聲源定位方法,其特征在于,所述步驟b2具體包括如下步驟b21、根據(jù)語音信號的頻率確定預定個數(shù)的子帶;b22、分別確定所述各子帶的中心頻率;b23、分別根據(jù)各子帶的中心頻率、各麥克風的三維空間矢量確定所述各空間搜索點在所述各子帶的三維搜索位置矢量。
5.如權利要求4所述的一種聲源定位方法,其特征在于,所述步驟b23具體包括如下步驟設定空間搜索點(r,θ,φ)的坐標矢量S分別為S=r*[sinθcosφsinθsinφcosθ];其中r為空間搜索點距坐標原點的距離,θ為空間搜索點的坐標矢量與Z軸正方向的夾角,為空間搜索點在XOY平面的投影與X軸正方向的夾角;確定空間搜索點(r,θ,φ)到第m個麥克風的相對幅度衰減因子m為∂m=|S|||Pm-S||;]]>其中pm為第m個麥克風的三維空間矢量,‖*‖表示矢量*的范數(shù);確定空間搜索點(r,θ,φ)到第m個麥克風的相對時間延遲因子τm為τm=||S-Pm||-||S||c;]]>其中c為聲音在空氣中的傳播速度,‖*‖表示矢量*的范數(shù);確定空間搜索點(r,θ,φ)在所述各子帶的三維搜索位置矢量ai(r,θ,φ)為ai(r,θ,φ)=∂1e-jωiτ1L∂me-jωiτmL∂Me-jωiτM;]]>其中ωi為各子帶的中心頻率。
6.如權利要求4所述的一種聲源定位方法,其特征在于,所述步驟c具體包括如下步驟c1、各麥克風根據(jù)預定采樣頻率獲取聲源信號;c2、將所述聲源信號進行AD轉換F(n)=[f1(n)L fi(n)L fM(n)]T;c3、從所述AD轉換后的聲源信號中選取信號幀進行短時傅立葉變換F(ω)=Σm=1NF(n)w(n-m)exp(-jωm)=Σm=1Nf1(n)w(n-m)exp(-jωm)LΣm=1NfM(n)w(n-m)exp(-jωm);]]>c4、確定所述傅立葉變換后的語音幀;c5、根據(jù)所述各空間搜索點在各預定頻點的位置矢量、所述語音幀確定各空間搜索點在所述各子帶的三維空間譜矩陣。
7.如權利要求6所述的一種聲源定位方法,其特征在于,所述步驟c4具體包括如下步驟判斷所述傅立葉變換后的信號幀是否為語音幀;如果為非語音幀,將所述信號幀存儲為當前估計噪聲譜;如果為語音幀,根據(jù)當前估計噪聲譜將所述語音幀進行譜抵消去噪S(ω)=F(ω)-N(ω)=s1(1)Ls1(NFFT)LLLsM(1)LsM(NFFT)M×NFFT;]]>其中N(ω)=n1(1)Ln1(NFFT)LLLnM(1)LnM(NFFT)M×MFFT]]>為當前估計噪聲譜,NFFT為短時傅立葉變換的頻率采樣點數(shù)。
8.如權利要求7所述的一種聲源定位方法,其特征在于,所述步驟c5具體包括如下步驟確定譜抵消去噪后的語音幀在各子帶的頻域相關矩陣R(i)R(i)=E{S(ωi)SH(ωi)};其中S(ωi)為第i個子帶的信號分量,且S(ωi)=S1(i)LSM(i);]]>根據(jù)所述R(i)的奇異值分解R(i)=Uidiag(λ1,L,λM)ViH]]>確定各頻域相關矩陣對應的奇異向量和奇異值;其中λ1,L,λM為R(i)的奇異值,Ui和Vi是對應的奇異向量組成的矩陣;根據(jù)奇異值的大小、聲源個數(shù)確定語音幀在各子帶的噪聲子空間;根據(jù)所述語音幀在各子帶的噪聲子空間確定各空間搜索點在所述各子帶的三維空間譜矩陣為Pi(ri,θi,φi,ωi)=1||aiH(r,θ,φ)Gi||2;]]>其中Gi為語音幀在第i個子帶的噪聲子空間,ai(r,θ,φ)為空間搜索點(r,θ,φ)在第i個子帶的三維搜索位置矢量。
9.如權利要求4所述的一種聲源定位方法,其特征在于,所述步驟d具體包括如下步驟d1、將所述各三維空間譜矩陣的各三維譜峰坐標分別作為聲源信號在各子帶的位置坐標;d2、將所述聲源信號在各子帶的位置加權平均值確定為聲源信號的位置坐標為(θ^,φ^,r^)=1KΣi=1Kwi*(θi,φi,ri);]]>其中K為子帶的預定個數(shù),wi為第i個子帶的權值,且wi為wi=||S(ωi)||2Σi=1K||S(ωi)||2,]]>S(ωi)為第i個子帶的信號分量,(θi,φi,γi)為聲源信號在第i個子帶的位置坐標。
10.如權利要求4所述的一種聲源定位方法,其特征在于,所述步驟d具體包括如下步驟d3、根據(jù)所述各三維空間譜矩陣進行加權平均P‾(r,θ,φ)=Σi=1Kwi*Pi(ri,θi,φi,ωi);]]>其中wi為第i個子帶的權值,且wi為wi=||S(ωi)||2Σi=1K||S(ωi)||2,]]>S(ωi)為第i個子帶的信號分量,Pi(ri,θi,φi,ωi)為各空間搜索點在第i個子帶的三維空間譜矩陣;d4、將所述加權平均后的三維空間譜矩陣的三維譜峰坐標作為聲源信號的位置坐標。
11.如權利要求9或10所述的一種聲源定位方法,其特征在于,所述步驟d1、d4中的wi可替換為 其中K為子帶的預定個數(shù)。
全文摘要
本發(fā)明提供一種聲源定位方法,其核心為根據(jù)預定三維空間坐標將拾音范圍內的三維空間劃分為若干個空間搜索點,根據(jù)預定頻點分別確定所述各空間搜索點的三維搜索位置矢量,根據(jù)所述各空間搜索點的三維搜索位置矢量、聲源信號確定各空間搜索點在各預定頻點的三維空間譜矩陣,根據(jù)所述各三維空間譜矩陣確定聲源的三維位置信息。本發(fā)明實現(xiàn)了聲源三維空間定位,使聲源定位更加準確;從而實現(xiàn)了提高聲源定位精度、提高拾音系統(tǒng)語音通信質量的目的。
文檔編號H04R1/40GK1832633SQ20051005131
公開日2006年9月13日 申請日期2005年3月7日 優(yōu)先權日2005年3月7日
發(fā)明者邵懷宗, 居太亮, 林靜然, 彭啟琮, 余水安 申請人:華為技術有限公司, 電子科技大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1