亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于分布矩陣決策的聲音定位方法與流程

文檔序號:12114842閱讀:473來源:國知局
基于分布矩陣決策的聲音定位方法與流程

本發(fā)明屬于信號處理技術(shù)領(lǐng)域,尤其涉及基于分布矩陣決策的聲音定位方法。



背景技術(shù):

傳統(tǒng)的聲音定位算法中,存在以下幾個問題:

1.抗干擾能力差。在室內(nèi)無干擾,無噪聲的情況下,定位算法準確率高,但在戶外復(fù)雜環(huán)境情況下,一旦出現(xiàn)噪聲或是甚是干擾,就會對定位結(jié)果產(chǎn)生很大影響。

2.聲音信號處理領(lǐng)域,識別和定位算法聯(lián)系緊密,且相輔相成。常規(guī)定位算法卻沒有很好的利用這一點,缺少對信息融合技術(shù)優(yōu)勢的把握。



技術(shù)實現(xiàn)要素:

針對以上問題,本發(fā)明提供了一種基于分布矩陣決策的聲音定位方法?,F(xiàn)以十字形聲陣列為例加以說明。

為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案包括如下步驟:

步驟1、對聲陣列采集到的四通道聲音信號進行預(yù)處理,預(yù)處理包括分幀;

步驟2、對單通道數(shù)據(jù)進行聲音識別;

步驟3、對多通道數(shù)據(jù)進行寬帶聲音定位;

步驟4、根據(jù)步驟2、3得到的識別和定位結(jié)果集合,構(gòu)建分布矩陣;

步驟5、得到分布矩陣后,找到目標聲源的定位分布峰值;

步驟6、選擇峰值及其相鄰兩個角度區(qū)間,計算這三個區(qū)間的統(tǒng)計均值,即為最后的定位結(jié)果。

所述的步驟1:采用十字形聲陣列獲取現(xiàn)場聲音信號,記采樣頻率為fs。對四通道聲音信號進行分幀處理,假設(shè)分幀后的幀數(shù)是m。接下來對分幀后的每一幀信號進行處理。

所述的步驟2:取分幀后的每一幀單通道信號進行識別。

所述的對單通道信號進行識別的算法為LPCC+SVM算法。

每一幀得到一個識別結(jié)果,從而構(gòu)成長度為m的識別結(jié)果數(shù)組C。

C=[c(1) c(2) ··· c(m)];

所述的步驟3:取分幀后的每一幀四通道信號進行寬帶定位算法。

所述的四通道信號進行寬帶定位的算法為寬帶MUSIC算法

3-1、根據(jù)需要選取頻帶和中心頻率f0,所述的頻帶和中心頻率f0需要根據(jù)實際目標信號的頻率特征來進行選擇。

3-2、對每一幀四通道信號做FFT傅里葉變換,變換后每一幀四通道信號的模型X(fj)表示為:

X(fj)=Aθ(fj)S(fj)+N(fj),j=1,2,3...J公式1

Aθ(fj)是導(dǎo)向向量,S(fj)和N(fj)分別是FFT傅里葉變換后的聲源信號和噪聲。

變換后將所選頻帶劃分成多個頻率為fj的窄帶信號的組合。

3-3、利用聚焦矩陣T,將每個窄帶所在頻率fj通過聚焦變化至中心頻率f0所在窄帶,變化過程如下:

T(fj)A(fj)S(fj)=A(f0)S(f0) 公式2

并且通過公式3求得中心頻率f0處的自相關(guān)矩陣,用于定位:

3-4、對中心頻率f0所在窄帶進行定位,得到此幀數(shù)據(jù)的定位結(jié)果。每一幀對應(yīng)一個定位結(jié)果,從而構(gòu)成長度為m的定位結(jié)果數(shù)組A。

A=[a(1) a(2) ··· a(m)]

所述的步驟4:根據(jù)步驟2和步驟3得到的識別結(jié)果數(shù)組C和定位結(jié)果數(shù)組A,構(gòu)造分布矩陣M。

以識別結(jié)果數(shù)組C的取值為橫坐標,以定位結(jié)果數(shù)組A的角度取值范圍為縱坐標,遍歷每一幀的結(jié)果,構(gòu)建矩陣M,其中M(Ci,Aj)表示的是所有幀中識別結(jié)果為Ci定位結(jié)果為Aj的幀的個數(shù)。

所述的步驟5:得到分布矩陣后,通過識別結(jié)果Ci找到目標聲源的定位分布峰值A(chǔ)top。

所述的步驟6:在識別結(jié)果Ci的定位分布上,選擇峰值A(chǔ)top及其相鄰兩個值A(chǔ)top-1及Atop+1,計算這三個值所在矩陣單元的統(tǒng)計均值,公式可以表示為:

其中P表示矩陣縱坐標角度區(qū)間的分辨率。例如將圓周360度劃分成36個角度區(qū)間,則分辨率P=10。

本發(fā)明有益效果如下:

本發(fā)明將采集到的聲音信號同時做識別和定位算法,并根據(jù)結(jié)果構(gòu)建分布矩陣,通過一定決策算法得到最后結(jié)果。此發(fā)明能夠充分利用聲音片段內(nèi)的所有識別和定位信息,在目標聲音為識別結(jié)果的前提下,根據(jù)所有幀的定位結(jié)果分布,得到最終的定位結(jié)果。優(yōu)點是能夠最大化剔除聲音信號中干擾和噪聲帶來的影響,而且對識別算法的依賴性低,具有廣泛適用性。

附圖說明

圖1是本發(fā)明提出總體算法流程圖

圖2是定位部分算法流程圖

圖3是分布矩陣的示意圖

圖4為4通道十字形聲陣列建立在直角坐標系下的結(jié)構(gòu)圖

具體實施方式

下面結(jié)合附圖和具體實施方式對本發(fā)明作詳細說明,以下描述僅作為示范和解釋,并不對本發(fā)明作任何形式上的限制。

如圖4所示為4通道十字形聲陣列建立在直角坐標系下的結(jié)構(gòu)圖,其中d為兩個相鄰傳聲器的間距;r為十字形陣列的半徑;S(t)為聲源,它的方向為θ;圖中的A、B、C、D分別對應(yīng)于通道1、通道2、通道3、通道4。然后采集信號,總共會采集到4個通道的信號,分別記為x1(t),x2(t),x3(t),x4(t)。

基于十字陣所收集信號的導(dǎo)向向量可以表示為:

其中,ω=2πf,f是信號頻率,τp(θ)(p=1,2,3,4)是信號之間的時延。導(dǎo)向向量在下面定位算法會用到。

圖1展示了本發(fā)明的算法總體流程圖,按照圖1中的步驟,在通過四通道聲陣列接收了四個通道信號之后,對其進行預(yù)處理操作。主要的預(yù)處理操作即為分幀。對四個通道的信號分別做分幀,分幀長度為1024個采樣點,步長為分幀長度的二分之一。假設(shè)信號分幀后被分為m個長為1024個采樣點的幀,接下來我們的算法則要對這每一幀進行處理。

首先,對每一幀單通道信號進行識別算法。

任何語音識別算法都可以使用,這里我們以LPCC特征提取和SVM分類學(xué)習(xí)算法為例來說明。其中,我們使用16階LPCC系數(shù),SVM的核函數(shù)我們選取徑向基函數(shù)(Radial Basis Function,RBF),假設(shè)進行識別的聲音類型有C1,C2,C3,C4,C5三種類型。

求得每幀信號的12階線性預(yù)測系數(shù)(Linear Prediction Coefficients,LPC)值,其中LPC值可以采用Levinson-Durbin算法來求解。接下來通過LPCC值與LPC值的對應(yīng)關(guān)系求得16階的LPCC值。

所述的聲指紋庫建立方法如下:

對每幀信號提取出來的16階LPCC值按行排列,然后在前面加入一列作為類標,標號‘0’代表C1,‘1’代表C2,‘2’代表C3,‘3’代表C4,‘4’代表C5。從而構(gòu)成一個17階的特征向量。

用現(xiàn)有的libsvm庫來實現(xiàn)SVM算法,選取RBF作為分類器函數(shù);RBF有兩個參數(shù):懲罰因子c以及參數(shù)gamma,可以通過libsvm的網(wǎng)格搜索函數(shù)opti_svm_coeff選取出最優(yōu)數(shù)值。

訓(xùn)練過程使用libsvm庫中的svmtrain函數(shù),包含四個參數(shù):特征向量,用上述提取出的有標號的LPCC值;核函數(shù)類型,選用RBF核函數(shù);RBF核函數(shù)參數(shù)c和gamma,使用網(wǎng)格搜索法確定;調(diào)用svmtrain后會得到一個名為model的變量,這一變量保存了訓(xùn)練所得模型信息,即所述的聲指紋庫,將這一變量保存下來供下一步識別用。

而聲音的識別是通過libsvm庫中的svmtest來實現(xiàn)的,將每幀信號得到的LPCC值用libsvm的svmtest函數(shù)進行智能分類,svmtest有三個參數(shù):第一個為類標,用來測試識別率用的(在對未知類型的聲音進行識別時,該參數(shù)不具有實際意義);第二個為特征向量,即存儲LPCC值的變量,第三個為匹配模型,就是上述步驟訓(xùn)練過程svmtrain函數(shù)的返回值。調(diào)用svmtest得到的返回值就是分類所得結(jié)果,即類標,從而能確定產(chǎn)生這一聲音的設(shè)備類型。

在實際應(yīng)用中時,對信號進行特征提取,然后與已建立的聲指紋庫進行比較,來做到識別。

則在此階段之后,我們會得到m個識別結(jié)果,組成數(shù)組C

C=[c(1) c(2) ··· c(m)]

接下來,本發(fā)明對每一幀的四通道信號進行定位算法。

圖2展示了定位算法部分的具體流程圖,包括對子幀進行FFT變換,對每個窄帶的預(yù)估計角度,和寬帶的定位算法,在這里我們以MUSIC算法為例說明。

為求信號的自相關(guān)矩陣,將此幀四通道信號做二次分幀,分幀長度為256,步長為幀長的一半。對子分幀后做FFT傅里葉變換。FFT變換的公式如下:

L為子幀長,即為256。

FFT變換后數(shù)據(jù)可以表示為:

n為二次分幀后的子幀個數(shù)。

則得到的信號頻域模型可以表示為:

X(fj)=Aθ(fj)S(fj)+N(fj),j=1,2,3...J

其中fs是信號的采樣頻率。由于實際信號大多為寬帶信號,需要選取一個合適的寬帶頻域和中心頻率點f0。

寬帶信號可以看作是多個窄帶信號構(gòu)成。通過聚焦矩陣Tj我們可以將每個窄帶作聚焦變換至中心頻率。

T(fj)A(fj)S(fj)=A(f0)S(f0)

A(f)是定位算法中要用到的導(dǎo)向向量。

我們對每個窄帶先做一個窄帶的MUSIC定位算法,作為求聚焦矩陣時候的預(yù)估計結(jié)果。步驟如下:

先求每一個窄帶頻率的信號自相關(guān)矩陣Rf,對自相關(guān)矩陣Rf作特征值分解。

式中US是由大特征值對應(yīng)的特征矢量張成的子空間也即信號子空間,而UN是由小特征值對應(yīng)的特征矢量張成的子空間也即噪聲子空間。MUSIC算法的譜估計函數(shù)為

式中Θ表示觀察扇面。

讓θ在觀察扇Θ面內(nèi)掃描,計算出式在各掃描方位對應(yīng)的函數(shù)值,該函數(shù)出現(xiàn)峰值的方位,記作βj,即為信號方位。

在對每個窄帶做MUSIC定位算法預(yù)估計后可以得到β=[β1 β2 ··· βJ]。

緊接著,我們要通過預(yù)估計結(jié)果構(gòu)造聚焦矩陣。

T(fj)=V(fj)U(fj)H

其中U(fj)和V(fj)分別為A(fj,β)AH(f0,β)的左奇異和右奇異矢量。利用一系列聚焦矩陣T(fj)對陣列接收數(shù)據(jù)進行聚焦變換,得到單一頻率點的數(shù)據(jù)自相關(guān)矩陣

同樣,在得到了自相關(guān)矩陣后,我們可以對中心頻率再做一次窄帶MUSIC算法,便能得到最后的定位結(jié)果。

在此階段之后,我們可以得到m個定位結(jié)果,組成數(shù)組A。

A=[a(1) a(2) a(3) a(4) ··· a(m)]

由圖1可知,在得到定位和識別結(jié)果后,我們可以因此構(gòu)建分布矩陣M。圖3展示了分布矩陣的示意圖。橫坐標是定位結(jié)果A可能的取值范圍區(qū)間。縱坐標表示的是識別結(jié)果C可能的取值范圍。M(Ci,Aj)表示此段數(shù)據(jù)所有幀中識別結(jié)果為Ci定位結(jié)果為Aj的幀的總個數(shù)。

在得到分布矩陣統(tǒng)計后,就通過目標聲源的識別結(jié)果的定位分布,求得目標的定位結(jié)果。

本發(fā)明選擇識別結(jié)果為目標聲源的那一行,可得到目標聲源的定位結(jié)果分布。找到峰值A(chǔ)top,確定峰值及其相鄰兩個值A(chǔ)top-1和Atop+1,計算此3個值所在矩陣單元內(nèi)的統(tǒng)計均值,即為最終定位結(jié)果。

公式可以表示為:

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1