本發(fā)明涉及語音信號處理領域,特別是一種改進Mel濾波器的語音特征提取方法。
背景技術:
語音信號的特征提取是對輸入語音信號在其含有背景噪聲的情況下,提取能夠有效表征語音信號的特征參數(shù)。它解決了環(huán)境噪聲惡化情形下語音識別系統(tǒng)的識別性能急劇下降的問題。
在對特征參數(shù)選擇的問題上,目前主流的研究熱點是共振峰頻率、線性預測系數(shù)(LPC)、線譜對(LSP)、線性預測倒譜系數(shù)(LPCC)、基于人耳聽覺特性的梅爾倒譜系數(shù)(MFCC)、伽馬通濾波倒譜系數(shù)(GFCC)。在信噪比較高情形時基于MFCC的語音識別結果會受到嚴重影響,識別率急劇地下降,而GFCC是基于聲道模型的特征向量,相比MFCC對于環(huán)境噪聲的魯棒性更強。標準的GFCC只反映了語音參數(shù)的靜態(tài)特性,而人耳對語音的動態(tài)特性更高敏感,二次特征提取就是對原始的GFCC進行分析處理。運用滑動差分方法,進一步得到隱藏在語音特征背后的特征信息。
基音頻率是語音識別系統(tǒng)中最重要的判別依據,反映了語音信號的濁音發(fā)聲時聲帶振動的頻率,能夠有效區(qū)分語音信息與噪聲信號。基于單一特征的識別率往往受其他因素影響惡劣,因此融合GFCC和基音頻率兩種特征參數(shù)作為語音特征,兩種參數(shù)體現(xiàn)了不同的語音特性,GFCC利用了人耳聽覺的非線性特性,更具有魯棒性;基音頻率體現(xiàn)了不同信號聲學特征。
自適應融合特征后的語音信號存在兩個問題:一是特征矩陣過大,存在降維計算需要;二是信息之間存在冗余,不利于后續(xù)處理。因此利用核主成分分析方法對融合特征數(shù)據進行轉換降維,降低了計算復雜度,提高了識別的實時性。將核函數(shù)和主成分分析兩種方法進行結合,通過非線性映射實現(xiàn)輸入空間到特征空間的轉換,求取其協(xié)方差矩陣C及其特征值和特征向量,最后進行主成分抽取。
技術實現(xiàn)要素:
本發(fā)明旨在解決現(xiàn)有方法中存在的特征參數(shù)魯棒性低問題,特別提出了一種基于核主成分分析改進Mel濾波器的語音特征提取方法。
為了實現(xiàn)本發(fā)明的上述目的,本發(fā)明提供了一種基于核主成分分析改進Mel濾波器的語音特征提取方法,包括以下步驟:
S1對初始輸入語音信號進行數(shù)字化采樣、預加重和得到預處理語音信號。
S2根據伽馬通濾波器計算預處理語音信號的伽馬通濾波倒譜系數(shù)。
S3對伽馬通濾波倒譜系數(shù)進行滑動差分處理。
S4根據自相關函數(shù)對預處理語音信號進行基音頻率提取。
S5根據融合公式對伽馬通濾波倒譜系數(shù)、滑動差分和基音頻率進行特征數(shù)據融合。
S6根據核主成分分析對特征數(shù)據融合后的語音特征進行降維處理。
上述方法中預加重的傳遞函數(shù)為:
H(z)=1-a*z-1
其中,a是預加重的系數(shù),在通常情況下,a的值為0.95時處理的語音信號效果較好;H(z)表示傳遞函數(shù),z表示函數(shù)變量。
所述分幀加窗處理中采用的加窗函數(shù)為:
w(n)表示窗函數(shù),L表示窗函數(shù)的長度。
所述伽馬通濾波倒譜系數(shù)通過對伽馬通濾波系數(shù)取對數(shù)和離散余弦變換處理得到;其中離散余弦變換的計算公式為:
X(k)表示離散余弦變換歸一函數(shù),x(n)表示一維語音信號序列,N表示信號序列范圍。
伽馬通濾波器的時域脈沖響應為:
其中:A為輸出增益,M為濾波器階數(shù),fc是中心頻率,是相位,ERB(fc)為等效矩形帶寬,t為時間。
所述滑動差分處理如下:
△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]
△C(t+p)=C(t+p+d)-C(t+p-d)
△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]
將t時刻,t+p時刻一直到t+(k-1)p時刻的一階差分倒譜系數(shù)順序相連,即為當前幀的滑動差分特征向量:
△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]
上式中△C(t)表示第t幀語音的一階差分倒譜系數(shù);△cN-1(t)表示第t幀語音的第N-1個倒譜系數(shù);C(t+d)表示第t+d幀語音的GFCC系數(shù);C(t-d)表示第t-d幀語音的GFCC系數(shù);△C(t+p)表示第t+p幀語音的一階差分倒譜系數(shù);C(t+p+d)表示第t+p+d幀語音的GFCC系數(shù);C(t+p-d)表示第t+p-d幀語音的GFCC系數(shù);△C[t+(k-1)p]表示第t+(k-1)p幀語音的一階差分倒譜系數(shù);C[t+(k-1)p+d]表示第t+(k-1)p+d幀語音的GFCC系數(shù);C[t+(k-1)p-d]表示第t+(k-1)p-d幀語音的GFCC系數(shù)。d,p,k表示對應的時刻。
所述自相關函數(shù)為:
其中,Sn(m)為加窗后的語音信號,Rn(k)表示自相關函數(shù)值,k表示時間的延遲量,K表示語音分幀后每幀的長度。
所述特征數(shù)據融合為:
其中,LGFCC為伽馬通濾波倒譜系數(shù)及其滑動差分,F(xiàn)pitch為被測信號的基音頻率,S表示數(shù)據融合值,Lmax表示最大似然度之差,α表示權重調節(jié)系數(shù),k1表示拉普普拉斯平滑系數(shù),F(xiàn)max表示歸一化基音頻率參數(shù),k2表示拉普拉斯平滑系數(shù)。
綜上所述,由于采用了上述技術方案,本發(fā)明的有益效果是:提高了語音識別的識別精度,改善了語音識別的抗噪性,從而獲得更具魯棒性的特征參數(shù)。
附圖說明
圖1是本發(fā)明的流程示意圖。
具體實施方式
下面詳細介紹本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示具有相同或類似功能的意義。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
參見圖1的流程圖,基于核主成分分析改進Mel濾波器的語音特征提取方法包括以下步驟:
S1,對初始輸入語音信號數(shù)字化采樣、預加重和分幀加窗等處理得到預處理后的語音信號,預加重的傳遞函數(shù)為:
H(z)=1-a*z-1
其中,a是預加重的系數(shù),在通常情況下,a的值為0.95時處理的語音信號效果較好。H(z)表示傳遞函數(shù),z表示函數(shù)變量。
加窗函數(shù)表達方式為:
w(n)表示窗函數(shù),L表示窗函數(shù)的長度。
S2,根據伽馬通濾波器特性計算處理后語音信號伽馬通濾波倒譜系數(shù)特征,伽馬通濾波器的時域脈沖響應為:
其中:A為輸出增益,M為濾波器階數(shù),fc是中心頻率,是相位,t為時間,ERB(fc)為等效矩形帶寬(Equivalent Rectangular Bandwidth,ERB),它決定了脈沖響應的衰減速度,可定義為中心頻率fc的函數(shù):
ERB(fc)=24.7+0.108fc
中心頻率fc的計算公式為:
其中:fH為濾波器的截止頻率,ωi是濾波器重疊因子。
S3,提取伽馬通濾波倒譜系數(shù)的滑動差分,對伽馬通濾波倒譜系數(shù)進行滑動差分計算:
△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]
△C(t+p)=C(t+p+d)-C(t+p-d)
△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]
將t時刻,t+p時刻一直到t+(k-1)p時刻的一階差分倒譜系數(shù)順序相連,即為當前幀的滑動差分特征向量:
△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]
上式中△C(t)表示第t幀語音的一階差分倒譜系數(shù);△cN-1(t)表示第t幀語音的第N-1個倒譜系數(shù);C(t+d)表示第t+d幀語音的GFCC系數(shù);C(t-d)表示第t-d幀語音的GFCC系數(shù);△C(t+p)表示第t+p幀語音的一階差分倒譜系數(shù);C(t+p+d)表示第t+p+d幀語音的GFCC系數(shù);C(t+p-d)表示第t+p-d幀語音的GFCC系數(shù);△C[t+(k-1)p]表示第t+(k-1)p幀語音的一階差分倒譜系數(shù);C[t+(k-1)p+d]表示第t+(k-1)p+d幀語音的GFCC系數(shù);C[t+(k-1)p-d]表示第t+(k-1)p-d幀語音的GFCC系數(shù)。d,p,k表示對應的時刻。
S4,計算完步驟S3中涉及的伽馬通濾波倒譜系數(shù)及滑動差分之后,還需計算預處理語音信號的基音頻率,根據自相關函數(shù)對預處理后語音信號提取基音頻率:
自相關函數(shù)為:
其中,Sn(m)為加窗后的語音信號。Rn(k)表示自相關函數(shù)值,k表示時間的延遲量,N表示語音分幀后每幀的長度。
S5,對伽馬通濾波倒譜系數(shù)、滑動差分和基音頻率進行特征數(shù)據融合:
其中,LGFCC為伽馬通濾波倒譜系數(shù)及其滑動差分,F(xiàn)pitch為被測信號的基音頻率。LGFCC表示伽馬通濾波倒譜系數(shù)作滑動差分后的似然度,S表示數(shù)據融合值,Lmax表示最大似然度之差,α表示權重調節(jié)系數(shù),k1表示拉普普拉斯平滑系數(shù),F(xiàn)max表示歸一化基音頻率參數(shù),k2表示拉普拉斯平滑系數(shù)。
S6,利用核主成分分析對融合特征數(shù)據進行轉換降維,將輸入特征空間RN映射到特征空間F后其協(xié)方差矩陣為:
C表示協(xié)方差矩陣,M表示特征空間的維度,φ(xj)表示第j個特征映射值,T表示轉置運算符號。
C的特征值和特征向量滿足:
λ(φ(xk)·V)=(φ(xk)·CV),1≤k≤M
λ表示特征值,V表示特征向量。
輸入特征在映射空間向量上的投影為:
Vk表示特征向量,表示標準化系數(shù),φ(x)表示輸入特征映射值。