1.基于核主成分分析改進(jìn)Mel濾波器的語(yǔ)音特征提取方法,包括以下步驟:
S1對(duì)初始輸入語(yǔ)音信號(hào)進(jìn)行數(shù)字化采樣、預(yù)加重和得到預(yù)處理語(yǔ)音信號(hào);
S2根據(jù)伽馬通濾波器計(jì)算預(yù)處理語(yǔ)音信號(hào)的伽馬通濾波倒譜系數(shù);
S3對(duì)伽馬通濾波倒譜系數(shù)進(jìn)行滑動(dòng)差分處理;
S4根據(jù)自相關(guān)函數(shù)對(duì)預(yù)處理語(yǔ)音信號(hào)進(jìn)行基音頻率提??;
S5根據(jù)融合公式對(duì)伽馬通濾波倒譜系數(shù)、滑動(dòng)差分和基音頻率進(jìn)行特征數(shù)據(jù)融合;
S6根據(jù)核主成分分析對(duì)特征數(shù)據(jù)融合后的語(yǔ)音特征進(jìn)行降維處理。
2.根據(jù)權(quán)利要求1所述基于核主成分分析改進(jìn)Mel濾波器的語(yǔ)音特征提取方法,其特征在于:所述預(yù)加重的傳遞函數(shù)為:
H(z)=1-a*z-1
其中,a表示預(yù)加重的系數(shù),H(z)表示傳遞函數(shù),z表示函數(shù)變量。
3.根據(jù)權(quán)利要求1所述基于核主成分分析改進(jìn)Mel濾波器的語(yǔ)音特征提取方法,其特征在于:所述分幀加窗處理中采用的加窗函數(shù)為:
w(n)表示窗函數(shù),L表示窗函數(shù)的長(zhǎng)度。
4.根據(jù)權(quán)利要求1所述基于核主成分分析改進(jìn)Mel濾波器的語(yǔ)音特征提取方法,其特征在于:所述伽馬通濾波倒譜系數(shù)通過(guò)對(duì)伽馬通濾波系數(shù)取對(duì)數(shù)和離散余弦變換處理得到;其中離散余弦變換的計(jì)算公式為:
X(k)表示離散余弦變換歸一函數(shù),x(n)表示一維語(yǔ)音信號(hào)序列,N表示信號(hào)序列范圍值。
5.根據(jù)權(quán)利要求1或4所述基于核主成分分析改進(jìn)Mel濾波器的語(yǔ)音特征提取方法,其特征在于:所述伽馬通濾波器的時(shí)域脈沖響應(yīng)為:
其中:A為輸出增益,M為濾波器階數(shù),fc是中心頻率,是相位,ERB(fc)為等效矩形帶寬,t為時(shí)間。
6.根據(jù)權(quán)利要求1所述基于核主成分分析改進(jìn)Mel濾波器的語(yǔ)音特征提取方法,其特征在于:所述滑動(dòng)差分處理如下:
△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]
△C(t+p)=C(t+p+d)-C(t+p-d)
△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]
將t時(shí)刻,t+p時(shí)刻一直到t+(k-1)p時(shí)刻的一階差分倒譜系數(shù)順序相連,即為當(dāng)前幀的滑動(dòng)差分特征向量:
△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]
上式中△C(t)表示第t幀語(yǔ)音的一階差分倒譜系數(shù);△cN-1(t)表示第t幀語(yǔ)音的第N-1個(gè)倒譜系數(shù);C(t+d)表示第t+d幀語(yǔ)音的GFCC系數(shù);C(t-d)表示第t-d幀語(yǔ)音的GFCC系數(shù);△C(t+p)表示第t+p幀語(yǔ)音的一階差分倒譜系數(shù);C(t+p+d)表示第t+p+d幀語(yǔ)音的GFCC系數(shù);C(t+p-d)表示第t+p-d幀語(yǔ)音的GFCC系數(shù);△C[t+(k-1)p]表示第t+(k-1)p幀語(yǔ)音的一階差分倒譜系數(shù);C[t+(k-1)p+d]表示第t+(k-1)p+d幀語(yǔ)音的GFCC系數(shù);C[t+(k-1)p-d]表示第t+(k-1)p-d幀語(yǔ)音的GFCC系數(shù)。
7.根據(jù)權(quán)利要求1所述基于核主成分分析改進(jìn)Mel濾波器的語(yǔ)音特征提取方法,其特征在于:所述自相關(guān)函數(shù)為:
其中,Sn(m)為加窗后的語(yǔ)音信號(hào),Rn(k)表示自相關(guān)函數(shù)值,k表示時(shí)間的延遲量,K表示語(yǔ)音分幀后每幀的長(zhǎng)度。
8.根據(jù)權(quán)利要求1所述基于核主成分分析改進(jìn)Mel濾波器的語(yǔ)音特征提取方法,其特征在于:所述特征數(shù)據(jù)融合為:
其中,LGFCC為伽馬通濾波倒譜系數(shù)及其滑動(dòng)差分,F(xiàn)pitch為被測(cè)信號(hào)的基音頻率,S表示數(shù)據(jù)融合值,Lmax表示最大似然度之差,α表示權(quán)重調(diào)節(jié)系數(shù),k1、k2均表示拉普普拉斯平滑系數(shù),F(xiàn)max表示歸一化基音頻率參數(shù)。