基于核主成分分析改進Mel濾波器的語音特征提取方法與流程

文檔序號：12736603閱讀：1022來源：國知局

本發(fā)明涉及語音信號處理領域，特別是一種改進Mel濾波器的語音特征提取方法。

背景技術：

語音信號的特征提取是對輸入語音信號在其含有背景噪聲的情況下，提取能夠有效表征語音信號的特征參數(shù)。它解決了環(huán)境噪聲惡化情形下語音識別系統(tǒng)的識別性能急劇下降的問題。

在對特征參數(shù)選擇的問題上，目前主流的研究熱點是共振峰頻率、線性預測系數(shù)(LPC)、線譜對(LSP)、線性預測倒譜系數(shù)(LPCC)、基于人耳聽覺特性的梅爾倒譜系數(shù)(MFCC)、伽馬通濾波倒譜系數(shù)(GFCC)。在信噪比較高情形時基于MFCC的語音識別結果會受到嚴重影響，識別率急劇地下降，而GFCC是基于聲道模型的特征向量，相比MFCC對于環(huán)境噪聲的魯棒性更強。標準的GFCC只反映了語音參數(shù)的靜態(tài)特性，而人耳對語音的動態(tài)特性更高敏感，二次特征提取就是對原始的GFCC進行分析處理。運用滑動差分方法，進一步得到隱藏在語音特征背后的特征信息。

基音頻率是語音識別系統(tǒng)中最重要的判別依據，反映了語音信號的濁音發(fā)聲時聲帶振動的頻率，能夠有效區(qū)分語音信息與噪聲信號。基于單一特征的識別率往往受其他因素影響惡劣，因此融合GFCC和基音頻率兩種特征參數(shù)作為語音特征，兩種參數(shù)體現(xiàn)了不同的語音特性，GFCC利用了人耳聽覺的非線性特性，更具有魯棒性；基音頻率體現(xiàn)了不同信號聲學特征。

自適應融合特征后的語音信號存在兩個問題：一是特征矩陣過大，存在降維計算需要；二是信息之間存在冗余，不利于后續(xù)處理。因此利用核主成分分析方法對融合特征數(shù)據進行轉換降維，降低了計算復雜度，提高了識別的實時性。將核函數(shù)和主成分分析兩種方法進行結合，通過非線性映射實現(xiàn)輸入空間到特征空間的轉換，求取其協(xié)方差矩陣C及其特征值和特征向量，最后進行主成分抽取。

技術實現(xiàn)要素：

本發(fā)明旨在解決現(xiàn)有方法中存在的特征參數(shù)魯棒性低問題，特別提出了一種基于核主成分分析改進Mel濾波器的語音特征提取方法。

為了實現(xiàn)本發(fā)明的上述目的，本發(fā)明提供了一種基于核主成分分析改進Mel濾波器的語音特征提取方法，包括以下步驟：

S1對初始輸入語音信號進行數(shù)字化采樣、預加重和得到預處理語音信號。

S2根據伽馬通濾波器計算預處理語音信號的伽馬通濾波倒譜系數(shù)。

S3對伽馬通濾波倒譜系數(shù)進行滑動差分處理。

S4根據自相關函數(shù)對預處理語音信號進行基音頻率提取。

S5根據融合公式對伽馬通濾波倒譜系數(shù)、滑動差分和基音頻率進行特征數(shù)據融合。

S6根據核主成分分析對特征數(shù)據融合后的語音特征進行降維處理。

上述方法中預加重的傳遞函數(shù)為：

H(z)＝1-a*z^-1

其中，a是預加重的系數(shù)，在通常情況下，a的值為0.95時處理的語音信號效果較好；H(z)表示傳遞函數(shù)，z表示函數(shù)變量。

所述分幀加窗處理中采用的加窗函數(shù)為：

w(n)表示窗函數(shù)，L表示窗函數(shù)的長度。

所述伽馬通濾波倒譜系數(shù)通過對伽馬通濾波系數(shù)取對數(shù)和離散余弦變換處理得到；其中離散余弦變換的計算公式為：

X(k)表示離散余弦變換歸一函數(shù)，x(n)表示一維語音信號序列，N表示信號序列范圍。

伽馬通濾波器的時域脈沖響應為：

其中：A為輸出增益，M為濾波器階數(shù)，f_c是中心頻率，是相位，ERB(f_c)為等效矩形帶寬，t為時間。

所述滑動差分處理如下：

△C(t)＝C(t+d)-C(t-d)＝[△c₀(t),△c₁(t),…,△c_N-1(t)]

△C(t+p)＝C(t+p+d)-C(t+p-d)

△C[t+(k-1)p]＝C[t+(k-1)p+d]-C[t+(k-1)p-d]

將t時刻，t+p時刻一直到t+(k-1)p時刻的一階差分倒譜系數(shù)順序相連，即為當前幀的滑動差分特征向量：

△GFCC(t)＝[△C(t),△C(t+p),…,△C(t+(k-1)p)]

上式中△C(t)表示第t幀語音的一階差分倒譜系數(shù)；△c_N-1(t)表示第t幀語音的第N-1個倒譜系數(shù)；C(t+d)表示第t+d幀語音的GFCC系數(shù)；C(t-d)表示第t-d幀語音的GFCC系數(shù)；△C(t+p)表示第t+p幀語音的一階差分倒譜系數(shù)；C(t+p+d)表示第t+p+d幀語音的GFCC系數(shù)；C(t+p-d)表示第t+p-d幀語音的GFCC系數(shù)；△C[t+(k-1)p]表示第t+(k-1)p幀語音的一階差分倒譜系數(shù)；C[t+(k-1)p+d]表示第t+(k-1)p+d幀語音的GFCC系數(shù)；C[t+(k-1)p-d]表示第t+(k-1)p-d幀語音的GFCC系數(shù)。d，p，k表示對應的時刻。

所述自相關函數(shù)為：

其中，S_n(m)為加窗后的語音信號，R_n(k)表示自相關函數(shù)值，k表示時間的延遲量，K表示語音分幀后每幀的長度。

所述特征數(shù)據融合為：

其中，L_GFCC為伽馬通濾波倒譜系數(shù)及其滑動差分，F(xiàn)_pitch為被測信號的基音頻率，S表示數(shù)據融合值，L_max表示最大似然度之差，α表示權重調節(jié)系數(shù)，k₁表示拉普普拉斯平滑系數(shù)，F(xiàn)_max表示歸一化基音頻率參數(shù)，k₂表示拉普拉斯平滑系數(shù)。

綜上所述，由于采用了上述技術方案，本發(fā)明的有益效果是：提高了語音識別的識別精度，改善了語音識別的抗噪性，從而獲得更具魯棒性的特征參數(shù)。

附圖說明

圖1是本發(fā)明的流程示意圖。

具體實施方式

下面詳細介紹本發(fā)明的實施例，所述實施例的示例在附圖中示出，其中自始至終相同或類似的標號表示具有相同或類似功能的意義。下面通過參考附圖描述的實施例是示例性的，僅用于解釋本發(fā)明，而不能理解為對本發(fā)明的限制。

參見圖1的流程圖，基于核主成分分析改進Mel濾波器的語音特征提取方法包括以下步驟：

S1，對初始輸入語音信號數(shù)字化采樣、預加重和分幀加窗等處理得到預處理后的語音信號，預加重的傳遞函數(shù)為：

H(z)＝1-a*z^-1

其中，a是預加重的系數(shù)，在通常情況下，a的值為0.95時處理的語音信號效果較好。H(z)表示傳遞函數(shù)，z表示函數(shù)變量。

加窗函數(shù)表達方式為：

w(n)表示窗函數(shù)，L表示窗函數(shù)的長度。

S2，根據伽馬通濾波器特性計算處理后語音信號伽馬通濾波倒譜系數(shù)特征，伽馬通濾波器的時域脈沖響應為：

其中：A為輸出增益，M為濾波器階數(shù)，f_c是中心頻率，是相位，t為時間，ERB(f_c)為等效矩形帶寬(Equivalent Rectangular Bandwidth,ERB)，它決定了脈沖響應的衰減速度，可定義為中心頻率f_c的函數(shù)：

ERB(f_c)＝24.7+0.108f_c

中心頻率f_c的計算公式為：

其中：f_H為濾波器的截止頻率，ω_i是濾波器重疊因子。

S3，提取伽馬通濾波倒譜系數(shù)的滑動差分，對伽馬通濾波倒譜系數(shù)進行滑動差分計算：

△C(t)＝C(t+d)-C(t-d)＝[△c₀(t),△c₁(t),…,△c_N-1(t)]

△C(t+p)＝C(t+p+d)-C(t+p-d)

△C[t+(k-1)p]＝C[t+(k-1)p+d]-C[t+(k-1)p-d]

將t時刻，t+p時刻一直到t+(k-1)p時刻的一階差分倒譜系數(shù)順序相連，即為當前幀的滑動差分特征向量：

△GFCC(t)＝[△C(t),△C(t+p),…,△C(t+(k-1)p)]

S4，計算完步驟S3中涉及的伽馬通濾波倒譜系數(shù)及滑動差分之后，還需計算預處理語音信號的基音頻率，根據自相關函數(shù)對預處理后語音信號提取基音頻率：

自相關函數(shù)為：

其中，S_n(m)為加窗后的語音信號。R_n(k)表示自相關函數(shù)值，k表示時間的延遲量，N表示語音分幀后每幀的長度。

S5，對伽馬通濾波倒譜系數(shù)、滑動差分和基音頻率進行特征數(shù)據融合:

其中，L_GFCC為伽馬通濾波倒譜系數(shù)及其滑動差分，F(xiàn)_pitch為被測信號的基音頻率。L_GFCC表示伽馬通濾波倒譜系數(shù)作滑動差分后的似然度，S表示數(shù)據融合值，L_max表示最大似然度之差，α表示權重調節(jié)系數(shù)，k₁表示拉普普拉斯平滑系數(shù)，F(xiàn)_max表示歸一化基音頻率參數(shù)，k₂表示拉普拉斯平滑系數(shù)。

S6，利用核主成分分析對融合特征數(shù)據進行轉換降維，將輸入特征空間R^N映射到特征空間F后其協(xié)方差矩陣為：

C表示協(xié)方差矩陣，M表示特征空間的維度，φ(x_j)表示第j個特征映射值，T表示轉置運算符號。

C的特征值和特征向量滿足：

λ(φ(x_k)·V)＝(φ(x_k)·CV),1≤k≤M

λ表示特征值，V表示特征向量。

輸入特征在映射空間向量上的投影為：

V^k表示特征向量，表示標準化系數(shù)，φ(x)表示輸入特征映射值。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：張毅;倪雷
技術所有人：重慶郵電大學
我是此專利的發(fā)明人

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

核相關濾波器相關技術

核自適應濾波器相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于核主成分分析改進Mel濾波器的語音特征提取方法與流程