專利名稱:基于支撐向量機(jī)的基帶時(shí)域音頻信號(hào)分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信號(hào)處理技術(shù)領(lǐng)域,具體涉及一種基于支撐向量機(jī)的基帶時(shí)域音頻信號(hào)分類方法。
背景技術(shù):
本發(fā)明應(yīng)用于無(wú)線電偵測(cè)系統(tǒng)中,所處理的信號(hào)是已經(jīng)解調(diào)之后的基帶時(shí)域音頻信號(hào),信號(hào)可能是被噪聲不同程度污染的語(yǔ)音信號(hào),也可能是純?cè)肼曅盘?hào),其中噪聲均以白噪聲為主且混有少量有色噪聲,利用SVM的原理構(gòu)建一種分類器,對(duì)信號(hào)類型進(jìn)行簡(jiǎn)單有效的鑒別分類。
以下的文章和專利文獻(xiàn),基本覆蓋了該領(lǐng)域主要的背景技術(shù)。為了交待出技術(shù)的發(fā)展過(guò)程,讓它們時(shí)間順序排列,并逐個(gè)介紹文獻(xiàn)的主要貢獻(xiàn)。I. S. Gokhun Tanyer, Hamza ozer, “Voice Activity Detection inNonstationary Gaussian Noise”,Proceedings of ICSP, 1620-1623,1998.語(yǔ)音端點(diǎn)檢測(cè)(Voice Activity Detection, VAD)是指從噪聲中K別出語(yǔ)音的過(guò)程,文章提出了能量門限方法、過(guò)零率方法、最小二乘周期估計(jì)器和自適應(yīng)能量門限的方法,其中能量門限方法和過(guò)零率方法多適用于信號(hào)信噪比(signal to noise ratio, SNR)較高的情況下,在信噪比較低時(shí)虛警很高,而最小二乘周期估計(jì)器會(huì)由于噪聲非平穩(wěn)包含周期性而導(dǎo)致檢測(cè)失敗。同時(shí)文章還提出將多種方法融合進(jìn)行語(yǔ)音信號(hào)檢測(cè)的策略。2. C. J. C. Burges, “A Tutorial on Support Vector Machines for PatternRecognition,,,Data Mining and Knowledge Discovery, vol. 2, no. 2, pp. 121-167, 1998.詳細(xì)介紹了 SVM的基本原理以及結(jié)論推導(dǎo),SVM的方法是從線性可分情況下的最優(yōu)分類超平面提出來(lái)的,其基本思想可以概括為首先通過(guò)非線性變換將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新空間中求取最優(yōu)先性分類超平面?!白畲箝g隔”和“將數(shù)據(jù)投影至更高維空間”是其核心概念,SVM構(gòu)成通常意義上的二類模式分類器。但是該文章多是對(duì)SVM基本原理進(jìn)行公式推導(dǎo)的證明,并沒有給出在語(yǔ)音信號(hào)檢測(cè)方面應(yīng)用的提示和指導(dǎo)。3. S. Gokhun Tanyer, Hamza ozer, “Voice Activity Detection inNonstationary Noise,,,IEEE Trans. Speech Audio Process. , vol. 8, no. 4, pp. 478-481, Jul. 2001提出自適應(yīng)能量門限的語(yǔ)音端點(diǎn)檢測(cè)方法并給出實(shí)施策略,其中應(yīng)用到幾何方法計(jì)算信號(hào)SNR,減少了對(duì)噪聲信號(hào)先驗(yàn)信息的依賴。但是該SNR的估計(jì)方法受信號(hào)累積分布的影響,不能對(duì)噪聲信號(hào)信息進(jìn)行充分學(xué)習(xí),參數(shù)選取和調(diào)整較為困難,在噪聲非平穩(wěn)的情況下SNR估計(jì)有偏差。4. Quanwei Cai, Ping Wei, Xianci Xiao, “A Digital Modulation RecognitionMethod”,Proceedings of ICASSP, 2004,pp 863 - 866提出了基于SVD的信號(hào)SNR估計(jì)原理和方法,簡(jiǎn)單易行,沒有對(duì)該方法的性能進(jìn)行探討,也沒有給出計(jì)算參數(shù)的選取方法。
5. Cheol-Sun Park, Won Jang, Sun-Phil Nah. and Dae Young Kim, “AutomaticModulation Recognition using Support Vector Machine in Software RadioApplications”,in Proc. 9th IEEE ICACT, Feb. 2007, pp. 9-12提出基于SVM的信號(hào)調(diào)制方式識(shí)別的方法,以信號(hào)的歸一化中心對(duì)稱瞬時(shí)幅度的功率譜密度最大值Ymax、信號(hào)強(qiáng)分量瞬時(shí)相位中的中心對(duì)稱非線性分量絕對(duì)值的標(biāo)準(zhǔn)差O ap、信號(hào)強(qiáng)分量瞬時(shí)相位中的中心對(duì)稱非線性分量的標(biāo)準(zhǔn)差0 dp、接收信號(hào)的歸一化中心對(duì)稱瞬時(shí)幅度絕對(duì)值的標(biāo)準(zhǔn)差O心以及信號(hào)強(qiáng)分量中歸一化瞬時(shí)頻率絕對(duì)值的標(biāo)準(zhǔn)差0af作為特征量輸入獲得結(jié)果,即使在信號(hào)低SNR的情況下也取得準(zhǔn)確地分類結(jié)果。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供了一種基于支撐向量機(jī)的基帶時(shí)域音頻信號(hào)分類方法,對(duì)基帶時(shí)域音頻信號(hào)進(jìn)行處理,提取特征量作為分類器的輸入以獲取對(duì)信號(hào)類型的鑒別分類結(jié)果,從而將語(yǔ)音信號(hào)和噪聲信號(hào)分類。 為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是基于支撐向量機(jī)的基帶時(shí)域音頻信號(hào)分類方法,包括如下步驟步驟一將總長(zhǎng)度為N的基帶時(shí)域音頻信號(hào)序列s = {s (I),s (2), ,s (N)}分為
S1 — (I), (2),..., (Z)}
1(段,每段長(zhǎng)度為1,得到初始分段子序列?.2 _{'"2(1)’'"2(2)’‘‘_’'"2(1)},其中Si(m) =S ((i-1)
~ ( OX (2), j (I)}
L+m) (i = I,2,. . .,K,m = I,2,. . .,L),然后每個(gè)初始分段子序列分別減去各自的均值,可
X1 =(^(1),^(2),...,^(1)}
得零均值分段子序齊X2={X2(lXX2(2X…AM,其中p
,/Ji
X1 ' = X1W
,_T步驟二 對(duì)每個(gè)零均值分段子序列進(jìn)行加窗處理,得到結(jié)果為 ,_X2W ,其中
XK ' =
W為漢寧窗;步驟三對(duì)加窗處理后的結(jié)果分別進(jìn)行傅里葉變換處理,得到每個(gè)加窗后的零均
卞=| ^FTXx1') I= U(I),/⑵(M)}
f =| FFT(x2') I= {/2 (I), L (2), ...JAM)}
值分段子序列的頻譜幅度序列為山、 ,其中M是頻譜
fK =I FFT(xk ') I= {fK(I), fK(2),...Jk(M))
幅度序列的長(zhǎng)度;步驟四分別求出每個(gè)頻譜幅度的標(biāo)準(zhǔn)差d= {d(l), d(2),...,d(K)},其中,然后求出所有標(biāo)準(zhǔn)差的平均值,得到i亥基帶時(shí)域音頻
\M-Iz^l Mtt
信號(hào)序列的一個(gè)特征量,即頻譜幅度標(biāo)準(zhǔn)差0 =錢#);
^ i=l步驟五將各個(gè)零均值分段子序列X1, X2,..., xK按照次序依次組合成為一個(gè)長(zhǎng)序列X,即X = {x1; X2, ... , xK} = {x(l), x(2), . . . , x(N)},然后計(jì)算出該序列的歸一化自相
rO rI rQ
ff *IJ\[—i
關(guān)矩陣,結(jié)果為尺=' .° :,其中^是自相關(guān)矩陣的維
; y'r 1 tajy H
rQ rI r0」勻
數(shù),取值范圍為[50,90];步驟六對(duì)自相關(guān)矩陣R進(jìn)行奇異值分解,得到R = V A VH,其中A =CliagU1,入 2,…,入 Q)QXQ = diag( Y ^ o 2,…,yp+o 2, o 2,…,o 2)QXQ,且Y1S Y2彡…彡Yp,從而得到子空間的分界點(diǎn)P ;
P八步驟七根據(jù)A I e。A = IOlQg ^PXa計(jì)算出該基帶時(shí)域音頻
U =- > A ,&'
Q-P^gxa2
信號(hào)序列的另一個(gè)特征量,記為信噪比參量SNR'步驟八將該基帶時(shí)域音頻信號(hào)序列的兩個(gè)特征量,即頻譜幅度標(biāo)準(zhǔn)差D和信噪比參量S&R,構(gòu)成輸入向量,送入已經(jīng)訓(xùn)練過(guò)的SVM分類器中,從而鑒別出該基帶時(shí)域音頻信號(hào)的種類,區(qū)分出語(yǔ)音信號(hào)和噪聲信號(hào)。上述的子空間分界點(diǎn)p可由如下方法得到由E1 =j^ D,其中
是對(duì)自相關(guān)矩陣維數(shù)處理結(jié)果的向下取整,計(jì)算出末T+1個(gè)特征值入Q_T,入Q_T+1,...,Aq的均值,然后所有大于1.5Ea的特征值中最大的下標(biāo)為P,即p = Ul Ai > 1.5Ea,入i+1< I. 5EA}。上述將總長(zhǎng)度為N的基帶時(shí)域音頻信號(hào)序列s = {s (I),s (2), ,s (N)}分為K段,每段所對(duì)應(yīng)的時(shí)間應(yīng)不大于20ms。與現(xiàn)有技術(shù)相比,本發(fā)明通過(guò)訓(xùn)練的方式更多的獲取待分類信號(hào)的先驗(yàn)信息,選取適當(dāng)?shù)妮斎胩卣髁磕軌蜓杆儆行У墨@得分類結(jié)果。為了反映語(yǔ)音信號(hào)和噪聲信號(hào)的區(qū)另IJ,選擇信號(hào)SNR參量和信號(hào)頻譜幅度標(biāo)準(zhǔn)差作為分類器的輸入特征量,既方便計(jì)算又能夠很好的實(shí)現(xiàn)信號(hào)的鑒別和分類。本發(fā)明能夠有效地檢測(cè)鑒別語(yǔ)音信號(hào)和噪聲信號(hào),選取的兩個(gè)輸入特征量信號(hào)信噪比參量和信號(hào)頻譜幅度標(biāo)準(zhǔn)差計(jì)算簡(jiǎn)單又能有效的反映出兩種信號(hào)的區(qū)別,即使在信噪比較低的情況下也能夠保證較高的分類正確率。本發(fā)明適用于實(shí)時(shí)信號(hào)處理,易于實(shí)現(xiàn),可很好地用于無(wú)線電應(yīng)用中。
圖I是本發(fā)明流程圖。
圖2是輸入特征量為信號(hào)信噪比參量時(shí)的概率密度分布圖。圖3是輸入特征量為頻譜幅度標(biāo)準(zhǔn)差時(shí)的概率密度分布圖。圖4是SVM分類器工作結(jié)果示意圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明。本發(fā)明基于SVM原理設(shè)計(jì)分類器,通過(guò)對(duì)基帶時(shí)域音頻信號(hào)序列處理提取特征量,將其作為輸入送入訓(xùn)練完畢的分類器,從而鑒別出音頻信號(hào)的類型,對(duì)語(yǔ)音信號(hào)和噪聲信號(hào)進(jìn)行正確分類。
如圖I所示,實(shí)現(xiàn)步驟如下步驟一由于要處理的是已經(jīng)經(jīng)過(guò)解調(diào)的基帶時(shí)域音頻信號(hào)序列,首先應(yīng)對(duì)信號(hào)進(jìn)行預(yù)處理,以便于提取充分反映信號(hào)特征的特征量。將總長(zhǎng)度為N的基帶時(shí)域音頻信號(hào)序列s = {s (I),s (2), ,s (N)}均勻分成K段,每段長(zhǎng)度為L(zhǎng),每段所對(duì)應(yīng)的時(shí)間應(yīng)不大于20ms。
S1 — (I), (2),..., (Z)} S9 = (I), sn (2),..., (Z)}得到初始分段子序列..2.2W/,其中Si(m) = s((i-l)
~ ( OX (2), j (I)}
L+m) (i = 1,2, . . . , K, m = 1,2, . . . , L),然后每個(gè)初始分段子序列分別減去各自的
X1 =(^(1),^(2),...,^(1)}
均值以除去直流分量,從而可得零均值分段子序列^_{X2(1XX2(2)’…A⑹},其中
xK ={xk(1\xk(21...,xk(L)}
I 1
xt(m) = St(Jn)--YjSlU)。
L ;=i步驟二 為了降低對(duì)分段子序列進(jìn)行頻域處理時(shí)旁瓣對(duì)結(jié)果的影響,選用漢寧窗
,/Ji
X1 ' = X1W
,_T
對(duì)每個(gè)零均值分段子序列進(jìn)行加窗處理。加窗后的結(jié)果為,X W ,其中W為漢寧窗序
xK ' =列。步驟三對(duì)加窗處理后的結(jié)果分別進(jìn)行傅里葉變換處理,得到每個(gè)加窗后的零均
卞=| ^FTXx1') I= U(I),/⑵(M)} f =| FFT(x2') I= {/2 (I), L (2), ...JAM)}
值分段子序列的頻譜幅度序列為八,其巾FFT的點(diǎn)
fK =I FFT(xk ') I= {fK (I), fK (2), ...JAM))
數(shù)應(yīng)為大于子序列長(zhǎng)度2 4倍的2的冪指數(shù)2% M是頻譜幅度序列的長(zhǎng)度。
步驟四利用標(biāo)準(zhǔn)差的無(wú)偏估計(jì)形式邱)=J^rf;ac/+)-if;y;(/))2分別求
出每個(gè)分段子序列的頻譜幅度的標(biāo)準(zhǔn)差d = {d(l),d(2),. . .,d (K) },然后求出所有標(biāo)準(zhǔn)差
的平均值,就得到該時(shí)域音頻信號(hào)序列的一個(gè)特征量,即頻譜幅度標(biāo)準(zhǔn)差D =。
^ i=l信號(hào)信噪比參量如圖2所示,其中橫坐標(biāo)是信號(hào)信噪比參量的取值范圍,縱坐標(biāo)是概率密度;頻譜幅度標(biāo)準(zhǔn)差的概率密度函數(shù)如圖3所示,其中橫坐標(biāo)是頻譜幅度標(biāo)準(zhǔn)差的取值范圍,縱坐標(biāo)是概率密度。從圖中可以看出噪聲信號(hào)的特征量分布較為集中,因此單個(gè)特征量可以一定程度上反映語(yǔ)音信號(hào)和噪聲信號(hào)的區(qū)別,但是不能將兩類信號(hào)完全有效地區(qū)分開,所以需要聯(lián)合兩者作為分類器的輸入量才能實(shí)現(xiàn)正確的信號(hào)分類,因此繼續(xù)執(zhí)行以下步驟。
步驟五接著對(duì)音頻信號(hào)序列進(jìn)行處理已獲得另外一個(gè)特征量。首先將各個(gè)零均值分段子序列X1, X2,. . .,Xk按照次序依次組合成為一個(gè)信號(hào)長(zhǎng)序列X,即得到X = {Xl,X2, ...,%} = {x(l), x(2), ...,x(N)},然后計(jì)算出該序列的歸一化自相關(guān)矩陣,結(jié)果為
~r0 rI rQ
ff *IJ\[—i
R= ' -° 、,其中^i>(/)x(/+/),且Q是自相關(guān)矩陣的維數(shù),取值范圍
rQ rI r?!箘?br>
為[50,90],本發(fā)明中取值為70。步驟六對(duì)自相關(guān)矩陣R進(jìn)行SVD分解,得到R = VAVH。假設(shè)語(yǔ)音信號(hào)和噪聲信號(hào)是相互獨(dú)立的,R = Rx+Rn = V(Ax+An)VH = VAVH,其中Rx、Rn分別是語(yǔ)音信號(hào)和噪聲信號(hào)的自相關(guān)矩陣。由SVD 分解可知 Ax = diag( Y 1; Y2,, Yp,0,…,0)QXQ,Y 丄彡 Y 2 彡…彡 Yp,An = diag( O 2,O 2,...,o2)QXQ,A — diag(X1,入 2,…,入 q)qxq — diag( Y 1+ 0,*** Yp+ 0,o,...,o )qxq。通過(guò)其中^ =是對(duì)自相關(guān)矩陣維數(shù)處理結(jié)果的向下取
整,計(jì)算出末T+1個(gè)特征值XQ_T,A Q_T+1, . . . , Xq的均值,然后搜尋所有大于I. 5Ea的特征值中最大的下標(biāo)為分界點(diǎn)P,即P= Ul Ai > 1.5E入,入i+1 < 1.5Ea}。
P八
V Ai - /7 X a2步驟七根據(jù)a2 I Sr SNR = IOXoq,--計(jì)算出該基帶時(shí)域音頻
(7 =- > Ai ,&'
Q-Piz^Qxct2
信號(hào)序列的另一個(gè)特征量,即信噪比參量SNR,能夠在一定程度上反映出信號(hào)的信噪比情況。步驟八將該基帶時(shí)域音頻信號(hào)序列的兩個(gè)特征量,即頻譜幅度標(biāo)準(zhǔn)差D和信噪比參量SNR,構(gòu)成輸入向量,送入訓(xùn)練完畢的SVM分類器中,就可以得到該基帶時(shí)域音頻信號(hào)的分類結(jié)果,區(qū)分出語(yǔ)音信號(hào)和噪聲信號(hào)。執(zhí)行該步驟的分類器工作結(jié)果如圖4所示,其中“ + ”是語(yǔ)音信號(hào)特征量,是噪聲信號(hào)特征量,在空間中兩類特征量可 以被正確隔離,由此證實(shí)該基于SVM的基帶時(shí)域音頻信號(hào)分類器能夠有效地鑒別信號(hào)類型并且正確地分類。
權(quán)利要求
1.基于支撐向量機(jī)的基帶時(shí)域音頻信號(hào)分類方法,其特征在于,包括如下步驟 步驟一將總長(zhǎng)度為N的基帶時(shí)域音頻信號(hào)序列
2.根據(jù)權(quán)利要求I所述信號(hào)分類方法,其特征在于,子空間分界點(diǎn)p可由如下方法得至IJ :由
3.根據(jù)權(quán)利要求I所述信號(hào)分類方法,其特征在于,所述步驟一中分為K段,每段對(duì)應(yīng)的時(shí)間不大于20ms。
全文摘要
基于支撐向量機(jī)的基帶時(shí)域音頻信號(hào)分類方法,首先將基帶時(shí)域音頻信號(hào)序列分段,得到初始分段子序列,然后每個(gè)初始分段子序列分別減去各自的均值,得零均值分段子序列,接著對(duì)每個(gè)零均值分段子序列進(jìn)行加窗處理,將結(jié)果分別進(jìn)行傅里葉變換處理,得到分段子序列的頻譜幅度,分別求出每個(gè)頻譜幅度的標(biāo)準(zhǔn)差得到一個(gè)特征量,將各個(gè)零均值分段子序列按照次序依次組合成為一個(gè)長(zhǎng)序列,然后計(jì)算出該序列的歸一化自相關(guān)矩陣,對(duì)自相關(guān)矩陣進(jìn)行奇異值分解,得到子空間的分界點(diǎn),再計(jì)算出該基帶時(shí)域音頻信號(hào)序列的另一個(gè)特征量信噪比參量;最后將兩個(gè)特征量構(gòu)成輸入向量送入已經(jīng)訓(xùn)練過(guò)的SVM分類器中,從而鑒別出該基帶時(shí)域音頻信號(hào)的種類,區(qū)分出語(yǔ)音信號(hào)和噪聲信號(hào)。
文檔編號(hào)G10L19/00GK102760444SQ20121012508
公開日2012年10月31日 申請(qǐng)日期2012年4月25日 優(yōu)先權(quán)日2012年4月25日
發(fā)明者劉一民, 孟華東, 李元新 申請(qǐng)人:清華大學(xué)