本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域,具體涉及一種基于純凈語音與背景噪聲兩極建模的音頻類型檢測方法。
背景技術(shù):
音頻類型檢測技術(shù)是指利用不同類型音頻特征來辨別它們的類型。目前使用得比較多的技術(shù)是GMM(Gaussian Mixture Model)模型、HMM(hidden Markov model)模型。而近年出現(xiàn)GMM-SVM的組合方法,利用GMM模型構(gòu)建超矢量作為特征,使用SVM模型進行軟分類,得到不錯的效果。GMM-SVM的運算量由GMM的高斯混合度、使用的超矢量維數(shù)以及SVM核函數(shù)所決定,超矢量的維數(shù)一般是GMM所使用的特征維數(shù)或高斯混合度,使用后者居多。因此GMM-SVM的運算量很大,對于需要實時處理的應(yīng)用,對設(shè)備有一定的性能要求。背景噪聲、帶噪語音和純凈語音的分類,一般應(yīng)用在實時的音頻監(jiān)控中,不同類型的音頻有不同的處理策略,例如背景噪聲可用于噪聲估計建模,而帶噪語音需要進行降噪或語音增強等操作,然后再進行下一步處理,在通信質(zhì)量監(jiān)控、異常音頻事件監(jiān)控等應(yīng)用中,分類處理可有效地提高處理質(zhì)量并降低計算復(fù)雜度,比如語音通信質(zhì)量監(jiān)控應(yīng)用中,只有帶噪語音需要進行復(fù)雜的質(zhì)量評估。
技術(shù)實現(xiàn)要素:
為了克服現(xiàn)有技術(shù)存在的缺點與不足,本發(fā)明提供一種基于純凈語音與背景噪聲兩極建模的音頻類型檢測方法,在能夠降低GMM-SVM運算量的同時,還能夠有效地區(qū)分純凈語音、純凈背景噪聲和含噪聲語音。
為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種基于純凈語音與背景噪聲兩極建模的音頻類型檢測方法,包括以下步驟:
S1、構(gòu)建純凈語音模型以及純粹背景噪聲模型:基于足夠的合適訓(xùn)練數(shù)據(jù),訓(xùn)練一個N高斯混元的純凈語音模型和一個M高斯混元的背景噪聲模型;
S2、計算純凈語音模型自身各高斯混元間的距離,得到N*N的語音模型自距離矩陣;計算純粹背景噪聲模型的自身各高斯混元間的距離,得到M*M的背景噪聲模型自距離矩陣;計算純凈語音模型與純粹背景噪聲模型對應(yīng)各高斯混元間的距離,得到N*M的互距離矩陣;根據(jù)上述矩陣以及高斯混元的鄰域成分分析,判斷高斯混元是否位于特征重疊空間;
S3、剔除位于特征重疊空間中的高斯混元,利用非重疊空間的高斯成分重新構(gòu)建純凈語音統(tǒng)計模型、純粹背景噪聲統(tǒng)計模型;
S4、計算新的純凈語音統(tǒng)計模型、純粹背景噪聲統(tǒng)計模型的概率,以及估算音頻樣本信噪比;
S5、根據(jù)計算得到的概率以及估算信噪比,構(gòu)建特征矢量且利用SVM模型進行判決,將樣本判別為純凈語音、背景噪聲或含噪聲語音。
進一步地,所述步驟S2中判斷高斯混元是否位于特征重疊空間具體為:對模型內(nèi)每一高斯混元A統(tǒng)計其σ鄰域內(nèi)的成分構(gòu)成,即鄰域內(nèi)兩種模型各自的高斯混元數(shù)量,以此判斷高斯混元A是否處于特征重疊空間。
進一步地,所述步驟S3中剔除在特征重疊空間中的高斯混元具體為:
S31、根據(jù)純凈語音模型自距離矩陣和互距離矩陣,統(tǒng)計純凈語音模型中高斯混元A與純凈語音模型中其他高斯混元的距離小于閾值的高斯混元數(shù)量a1,以及該高斯混元A與背景噪聲模型中高斯混元的距離小于閾值的高斯混元數(shù)量b1,若數(shù)量b1大于數(shù)量a1,則剔除純凈語音模型中的高斯混元A,其中,所述閾值即為σ鄰域;
S32、根據(jù)背景噪聲模型自距離矩陣和互距離矩陣,統(tǒng)計背景噪聲模型中高斯混元B與背景噪聲模型中其他高斯混元間的距離小于閾值的高斯混元數(shù)量a2以及該高斯混元B與純凈語音模型中高斯混元間的距離小于閾值的高斯混元數(shù)量b2,若數(shù)量b2大于數(shù)量a2,則剔除背景噪聲模型中的高斯混元B。
進一步地,所述高斯混元間的距離定義為:
其中,n代表純凈語音模型的第n個高斯混元,m代表背景噪聲模型中的第m個高斯混元,i代表高斯混元的第i維,σn(i)代表純凈語音模型的第n個高斯混元的第i維的標準差,σm(i)代表背景噪聲模型的第m個高斯混元的第i維的標準差,μn(i)代表純凈語音模型的第n個高斯混元的第i維的均值,μm(i)代表背景噪聲模型的第m個高斯混元的第i維的均值。
進一步地,所述σ鄰域定義如下:
σ=kdmin
其中,k為經(jīng)驗常數(shù),dmin為該高斯混元到該模型內(nèi)的其他高斯混元間的最小距離。
進一步地,所述步驟S5,使用純凈語音統(tǒng)計模型的概率p1、純粹背景噪聲統(tǒng)計模型的概率p2以及估算信噪比SNR作為SVM模型的輸入特征,即有特征矢量ξ:
ξ={p1,p2,SNR}
利用特征矢量ξ訓(xùn)練背景噪聲、帶噪語音與純凈語音SVM三分模型,其中,所述估算信噪比定義如下:
其中,ref表示降噪后的語音采樣點序列,deg表示原始語音采樣點序列,var(ref)代表降噪后的語音采樣點序列的方差,var(ref-deg)代表降噪后的語音采樣點序列與原始語音采樣點序列的差之方差。
采用上述技術(shù)方案后,本發(fā)明至少具有如下有益效果:
1、本發(fā)明利用純凈語音與背景非語音信號的顯著感覺差異特征,在傳統(tǒng)GMM模型的基礎(chǔ)上構(gòu)建純凈語音統(tǒng)計模型和純凈背景噪聲統(tǒng)計模型,然后利用該極端模型對音頻樣本的評估信息和估算信噪比構(gòu)建分類器,將音頻段分為純凈語音、純凈背景噪聲和含噪聲語音三類。
2、本發(fā)明考慮到,根據(jù)統(tǒng)計學(xué)原理中的中心極限定理,單一類型音頻的特征應(yīng)近似符合正態(tài)分布,單一類型音頻在特征空間上應(yīng)該符合這樣一個規(guī)律:在該類型的特征區(qū)域中,越靠近中心,特征密度越大,換言之越靠近區(qū)域邊界,特征密度越小。對于兩種單一類型音頻A和B,假設(shè)兩者的特征空間有所重疊,在重疊區(qū)域中,如果向A的中心移動,則A的特征密度會增大,B的特征密度會減少,如果向B的中心移動,則B的特征密度會增大,A的特征密度會減少。GMM統(tǒng)計模型利用高斯混元描述音頻類型特征,因此高斯混元應(yīng)當符合上述規(guī)律。由此,本發(fā)明提出高斯混元的鄰域概念,通過研究高斯混元的鄰域成分構(gòu)成以得到高斯混元的鄰域中背景噪聲和純凈語音兩種音頻的特征密度,確定高斯混元是否位于特征重疊空間。
3、本發(fā)明考慮到音頻類型檢測技術(shù)利用不同音頻類型的特征差異性進行分類,而不同音頻類型的特征共性對音頻類型檢測起著負面作用。兩個模型的特征重疊空間描述的是兩類音頻的共性,而特征非重疊空間描述的是兩類音頻的差異性。本發(fā)明通過上述鄰域的概念,確定特征重疊空間,通過剔除特征重疊空間中的高斯混元,減少了兩個模型的共性,保留了兩個模型的差異性,構(gòu)建出兩個新的GMM統(tǒng)計模型,因此新的統(tǒng)計模型區(qū)分性更強。而由于高斯混元的減少,運算量也相應(yīng)得到降低。
4、本發(fā)明使用的SVM分類器特征矢量,不僅利用了具備頻域特性的GMM統(tǒng)計概率,而且結(jié)合具備時域特性的估算信噪比,使特征矢量的信息更加完備,特征區(qū)分性強,而且特征維度低,運算量少。
附圖說明
圖1是本發(fā)明中背景噪聲與純凈語音兩極模型的生成以及分類器訓(xùn)練流程圖;
圖2是本發(fā)明中基于純凈語音與背景噪聲兩極模型評價的音頻類型檢測方法的識別流程圖;
圖3是本發(fā)明中純凈語音與背景噪聲的特征重疊空間示意圖。
圖4是本發(fā)明中純凈語音、背景噪聲與含噪語音的若干樣本以純凈語音模型概率對數(shù)為X軸、以背景噪聲模型概率對數(shù)為Y軸、以估算信噪比為Z軸的分類器特征矢量空間分布圖;
圖5是本發(fā)明中純凈語音、背景噪聲與含噪語音的若干樣本以背景噪聲模型概率對數(shù)為X軸、以純凈語音模型概率對數(shù)為Y軸、以估算信噪比為Z軸的分類器特征矢量空間分布圖;
圖6是本發(fā)明中純凈語音、背景噪聲與含噪語音的若干樣本以估算信噪比為X軸、以背景噪聲模型概率對數(shù)為Y軸、以純凈語音模型概率對數(shù)為Z軸的分類器特征矢量空間分布圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本申請作進一步詳細說明。
實施例
圖1是本發(fā)明中背景噪聲與純凈語音兩極模型的生成以及分類器訓(xùn)練流程圖。所述的方法包括一下步驟:
(1)純凈語音和純粹背景噪聲模型構(gòu)建:基于足夠的合適訓(xùn)練數(shù)據(jù)訓(xùn)練一個N個高斯混元的純凈語音模型GMMs和一個M個高斯混元的背景噪聲模型GMMn。
在本實施例中,純凈語音模型的高斯混合數(shù)使用256,利用盡量多的說話人、語言內(nèi)容不同的純凈語音構(gòu)建一個GMM模型;說話人數(shù)不少于20人,男性:女性的比列盡量保持均衡。語言內(nèi)容也應(yīng)多樣化。從完備性來講,語言內(nèi)容應(yīng)該包含所有基本語音單元。
背景噪聲模型的高斯混合數(shù)使用512,利用盡可能多的背景噪聲樣本(類型盡量多)訓(xùn)練一個GMM模型;模型的高斯數(shù)根據(jù)數(shù)據(jù)量來定,每一個高斯的平均數(shù)據(jù)量不少于200(幀)。
(2)純凈語音與背景噪聲的特征重疊空間的甄別:通過計算純凈語音與背景噪聲兩個GMM模型自身各高斯混元的距離和兩個模型各高斯混元的距離,得到一個256*256的語音模型自距離矩陣、一個512*512的背景噪聲模型自距離矩陣和一個256*512的互距離矩陣,根據(jù)三個矩陣以及高斯混元的鄰域成分構(gòu)成,確定高斯混元是否位于特征重疊空間。
高斯混元間的距離定義為:
其中,n代表純凈語音模型的第n個高斯混元,m代表背景噪聲模型中的第m個高斯混元,i代表高斯混元的第i維,σn(i)代表純凈語音模型的第n個高斯混元的第i維的標準差,σm(i)代表背景噪聲模型的第m個高斯混元的第i維的標準差,μn(i)代表純凈語音模型的第n個高斯混元的第i維的均值,μm(i)代表背景噪聲模型的第m個高斯混元的第i維的均值。
不同的音頻類型具有特征重疊的空間,為了甄別純凈語音與背景噪聲的特征重疊空間,對模型內(nèi)每一高斯混元A統(tǒng)計在其鄰域σ內(nèi)的成分構(gòu)成,即鄰域內(nèi)兩種模型各自的高斯混元數(shù)量,以此判斷高斯混元A是否處于特征重疊空間。
某模型內(nèi)的某一個高斯混元的鄰域σ定義如下:
σ=kdmin
其中,k為經(jīng)驗常數(shù),dmin為該高斯混元到該模型內(nèi)的其他高斯混元的最小距離。在本實例中,經(jīng)實驗調(diào)試,選擇k為5。
圖3是本發(fā)明中純凈語音與背景噪聲的特征重疊空間示意圖。圓和三角形分別代表純凈語音的高斯混元、背景噪聲的高斯混元,兩者存在重疊的區(qū)域,在此重疊區(qū)域中的某個高斯混元的鄰域σ內(nèi),同時存在純凈語音與背景噪聲的高斯混元,而在非重疊區(qū)域中的某個高斯混元的鄰域σ內(nèi),只存在該高斯混元所屬的模型中的高斯混元。對于任一類而言,該類的高斯混元密度從該類特征區(qū)域的邊界向區(qū)域中心遞增,而另一類的高斯混元密度則遞減。因此根據(jù)高斯混元的鄰域成分構(gòu)成,能夠確定高斯混元是否位于特征重疊空間。
(3)純凈語音與背景噪聲區(qū)分統(tǒng)計模型構(gòu)建:通過剔除特征重疊空間中的高斯混元,重新計算GMM模型參數(shù),構(gòu)建純凈語音與背景噪聲區(qū)分統(tǒng)計模型。根據(jù)純凈語音模型自距離矩陣和互距離矩陣,統(tǒng)計純凈語音模型中高斯混元A與純凈語音模型中其他高斯混元的距離小于閾值(即鄰域σ)的高斯混元數(shù)量a1以及該高斯混元A與背景噪聲模型中高斯混元的距離小于閾值的高斯混元數(shù)量b1,若數(shù)量b1大于數(shù)量a1,則剔除純凈語音模型中的高斯混元A;根據(jù)背景噪聲模型自距離矩陣和互距離矩陣,統(tǒng)計背景噪聲模型中高斯混元B與背景噪聲模型中其他高斯混元的距離小于閾值(即鄰域σ)的高斯混元數(shù)量a2以及該高斯混元B與純凈語音模型中高斯混元的距離小于閾值的高斯混元數(shù)量b2,若數(shù)量b2大于數(shù)量a2,則剔除背景噪聲模型中的高斯混元B。
根據(jù)剔除后剩余的高斯混元,重新計算GMM模型的權(quán)重,設(shè)純凈語音模型與背景噪聲模型保留的高斯混元原權(quán)重為{a1,a2,...ak}和{b1,b2,...bL},按下述規(guī)律調(diào)整各高斯混元的權(quán)重:
(4)音頻樣本信噪比估計:利用語音增強算法得到降噪后的音頻,對信噪比進行估計,估算信噪比定義如下:
其中,ref表示降噪后的語音采樣點序列,deg表示原始語音采樣點序列,var(ref)代表降噪后的語音采樣點序列的方差,var(ref-deg)代表降噪后的語音采樣點序列與原始語音采樣點序列的差之方差。
(5)音頻分類器訓(xùn)練:對背景噪聲、帶噪語音以及純凈語音三類音頻計算兩個GMM統(tǒng)計模型的概率,并估算樣本信噪比,利用兩個概率以及信噪比構(gòu)建特征矢量:
ξ={p1,p2,SNR}
利用特征矢量ξ訓(xùn)練背景噪聲、帶噪語音與純凈語音SVM三分模型訓(xùn)練三分SVM模型;
(6)音頻樣本分類階段:對待測試音頻計算兩個統(tǒng)計模型的概率以及估算信噪比,構(gòu)建特征矢量,利用SVM模型進行判決,將樣本判別為純凈語音、背景噪聲或含噪聲語音。
圖4至圖6是本發(fā)明中在實例中分類器特征矢量空間分布圖的不同角度。由幾個不同的角度,可以明顯看出,背景噪聲、帶噪語音以及純凈語音三類音頻在特征空間中具有自己的獨占區(qū)域,通過分類器可以有效區(qū)分。
圖2是本發(fā)明中基于背景噪聲與純凈語音兩極模型的識別流程圖。利用訓(xùn)練過程中得到的背景噪聲、純凈語音GMM統(tǒng)計模型和SVM三分模型,首先對輸入音頻計算兩個GMM重構(gòu)模型的概率,并且估算輸入音頻的信噪比,利用兩個概率和信噪比作為特征矢量,利用SVM三分模型對輸入音頻進行判決。
盡管已經(jīng)示出和描述了本發(fā)明的實施例,對于本領(lǐng)域的普通技術(shù)人員而言,可以理解的是,在不脫離本發(fā)明的原理和精神的情況下可以對這些實施例進行多種等效的變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同范圍限定。