一種基于伽馬通相關(guān)圖語音特征參數(shù)提取方法

文檔序號：2827500閱讀：286來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于伽馬通相關(guān)圖語音特征參數(shù)提取方法
【專利摘要】本發(fā)明涉及自動語音信號處理領(lǐng)域，特別是一種基于聽覺濾波器組相關(guān)圖提取語音特征的方法。該方法的特征在于通過利用聽覺濾波器相關(guān)圖對表現(xiàn)語音共振峰和基頻等特性的優(yōu)勢對語音信號中包含更多內(nèi)容、聲學(xué)特點等信息的濁音進(jìn)行多通道擴展處理，這在刻畫語音的聲學(xué)特性方面具有克服了僅依賴于信號某一方面特性的特征集在環(huán)境發(fā)生改變時性能會急劇下降的問題。在現(xiàn)有的聽覺模型都在表示譜包絡(luò)和幅度調(diào)制的特征基礎(chǔ)上，增加了表示相位譜（即頻率調(diào)制）的信息。因此利用合適的聽覺濾波器的相關(guān)圖可以提高語音信號的魯棒性。
【專利說明】一種基于伽馬通相關(guān)圖語音特征參數(shù)提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自動語音處理領(lǐng)域，具體而言，是一種基于相關(guān)圖語音特征參數(shù)提取方法及應(yīng)用。
【背景技術(shù)】
[0002]語音是人類最自然、最靈活、最頻繁的信息交流方式。語音中蘊含多層信息，如何自動提取這些信息便成為當(dāng)前語音信號處理領(lǐng)域的主要研究內(nèi)容。作為該領(lǐng)域的一個重要分支，自動從語音片段中提取表征內(nèi)容、身份等信息的識別技術(shù)，在汽車導(dǎo)航、計算機控制、玩具等諸多領(lǐng)域有廣泛的應(yīng)用。
[0003]語音信號處理從本質(zhì)上講就是要盡可能的模擬人耳的聽覺過程。而在人耳的聽覺系統(tǒng)中，耳蝸對聲音的感知一直是研究的熱點之一。耳蝸通常被描述維一組帶通濾波器，且濾波器組的每個頻帶具有尖銳的頻率選擇性，通過采用這樣的濾波器組模擬耳蝸基底膜分頻作用。研究發(fā)現(xiàn)，人耳聽覺系統(tǒng)對頻率調(diào)制信號非常敏感，比如警車聲、救護車聲就特別容易引起人耳的注意，因此，現(xiàn)有的聽覺模型都在表示譜包絡(luò)和幅度調(diào)制的特征基礎(chǔ)上，增加了表示相位譜(即頻率調(diào)制)的信息。基于伽瑪函數(shù)的濾波器參數(shù)簡單，階數(shù)低，可以采用簡單的時域函數(shù)實現(xiàn)。借用相關(guān)圖的概念引入聽覺濾波器相關(guān)圖(CochlearCorrelogram)。所謂聽覺濾波器相關(guān)圖就是考慮到語音信號通過聽覺濾波器后表現(xiàn)為多通道信號的疊加，為了動態(tài)描述各個通道濾波器在頻域和時域的相互關(guān)系而引入的概念。聽覺濾波器相關(guān)圖特征提取方法就是通過對濾波器組的各個通道相關(guān)圖所表現(xiàn)出來的特性對語音信號的內(nèi)容等信息進(jìn)行描述。
[0004]一般的語音產(chǎn)生模型包括三個部分:激勵源，聲道模型和輻射模型。在傳統(tǒng)語音信號處理方法中，基音頻率在一幀范圍內(nèi)被視為常數(shù)，從而濁音的激勵信號可以用一個周期脈沖發(fā)生器來產(chǎn)生。實際上，對于語音信號，特別是有調(diào)語言的語音信號，基音頻率在一幀之內(nèi)也是連續(xù)變化的?？紤]到語音的諧波結(jié)構(gòu)與基音值的變化，濁音可以建模為一個調(diào)幅調(diào)頻信號。
[0005]目前，語音信號處理的應(yīng)用主要集中在語音識別和語音合成等方面，主要利用對所提取的特征進(jìn)行統(tǒng)計分析的方法。例如語音識別和語音合成技術(shù)(基于HMM的參數(shù)合成方法)中的訓(xùn)練和測試兩個階段的建模和分類過程。在訓(xùn)練階段的三個步驟為:前端處理，特征提取和建立模型；測試階段的四個步驟:前端處理，特征提取，模型匹配和分?jǐn)?shù)判決。通常而言，
(O前端處理:包括語音增強、活動語音檢測和語音切分等信號處理技術(shù)；
(2)特征提取:通常選擇線性預(yù)測倒譜系數(shù)(LinearPredictive CepstralCoefficients, LPCC)、梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)或感知線性預(yù)測(Perceptual Linear Prediction, PLP)；
(3)建模方法(建立模型和模型匹配):主流技術(shù)是隱含馬爾科夫模型(HiddenMarkovModel, HMM)；(4)分?jǐn)?shù)判決:根據(jù)閾值，對分?jǐn)?shù)進(jìn)行比較，對HMM的輸出分?jǐn)?shù)進(jìn)行處理，給出識別結(jié)
果O
[0006]在上述過程中，特征提取作為訓(xùn)練和測試中基礎(chǔ)環(huán)節(jié)，對語音信號處理的效果影響顯而易見。根據(jù)人耳對不同頻率的聲波有不同的聽覺靈敏度的特點所發(fā)展起來的MFCC為現(xiàn)今語音識別廣泛采用的一種特征參數(shù)，它反映了人耳聽覺系統(tǒng)的某些頻率特性，但是，MFCC以及多數(shù)在語音識別中采用的特征參數(shù)由于僅反映了譜特性、缺乏時間信息，而導(dǎo)致對語音中迅速變化的成分(如爆破音)無法處理。另外，在語音感知中起重要作用的共振峰間的過渡，在MFCC參數(shù)中也只是間接地有所反映。由于聲調(diào)或協(xié)同發(fā)音等的影響，基音和諧波都是隨時間變化的，因此在計算譜包絡(luò)時，若將這些變化因素體現(xiàn)到能量分布計算中，有望得到更具區(qū)分性的特征以改善語音識別率。目前大部分語音識別系統(tǒng)中所采用的聲學(xué)特征，無論MFCC或是PLP，都僅僅體現(xiàn)了信號的幅度調(diào)制即包絡(luò)特性。一般來講，在實際的傳輸環(huán)境中，僅依賴于信號某一方面特性的特征集在環(huán)境發(fā)生改變時，性能會急劇下降，而若是將體現(xiàn)信號不同方面特性的特征結(jié)合起來，則可在環(huán)境變化時表現(xiàn)出較好的魯棒性。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的在于:考慮到語音信號通過聽覺濾波器后表現(xiàn)為多通道信號的疊加，為了動態(tài)描述各個通道濾波器在頻域和時域的相互關(guān)系而引入聽覺濾波器相關(guān)圖(Cochlear Correlogram)的概念。本發(fā)明利用聽覺濾波器組在時域?qū)瓮ǖ勒Z音分解成多個不同頻段的時域信號，這相當(dāng)于用單通道信號構(gòu)建出不同頻率成分的多通道信號。這樣獲得的時域信號，分別包含了基音和各個共振峰等信息。再利用聽覺濾波器相關(guān)圖將語音中基頻和共振峰的信息提取出來。
[0008]發(fā)明的具體步驟如下:
(1.1)前端處理
包括語音增強，用于抑制背景噪聲，提升語音部分的可懂度，以便后端能夠更好的區(qū)分語音信號和非語音信號。采用的方法是頻域的維納濾波；活動語音檢測，用于區(qū)分語音信號和非語音信號，去除非語音信號，以便后端對語音信號的識別。采用的方法有G723.1、G723.9等。語音聲韻母切分，并對檢測到的語音信號分幀處理，以便后續(xù)的特征提??；
(1.2)清音特征提取
在語音信號中，由于發(fā)音方式的不同，可以分為清音和濁音。清音的本質(zhì)是噪聲發(fā)生器，在頻域上沒有明顯的特征表現(xiàn)，因此對語音的清音部分仍然采用傳統(tǒng)的MFCC特征提取方法:提取12維MFCC基本特征和能量構(gòu)成13維特征。該13維特征是靜態(tài)特征，為了反映語音的動態(tài)特性，利用靜態(tài)特征構(gòu)造差分特征。將I階、2階差分特征附到靜態(tài)特征后，構(gòu)成用于建模的39維MFCC特征；
(1.3)濁音特征提取:
伽馬通(Ga_atone)濾波器是一個標(biāo)準(zhǔn)的耳蝸聽覺濾波器，該濾波器的時域脈沖響應(yīng)可以表示為
h(t) = kta~l tsp(-2mBl) cos ?- φ)
其中k表示濾波器輸出增益，B表示濾波器的帶寬，η是濾波器的階數(shù)并決定了邊緣處的斜度，f。是濾波器的中心頻率，Φ是相位，簡化模型中一般取Φ= O ；采用的Ga_atone濾波器為4階線性濾波器為例，它基于沖激響應(yīng)不變法的全極點設(shè)計，輸出為復(fù)值的解析信號。將若干個該類型的濾波器在等價矩形帶寬(EquivalentRectangular Bandwidth, ERB)尺度上均勻放置形成本文采用的聽覺濾波器組。ERB與臨界帶寬緊密相關(guān)，但是不是基于傳統(tǒng)掩蔽實驗得出，因此不易被信號和掩蔽信號之間的互調(diào)所影響，而且它比MFCC所采用的尺度表現(xiàn)更平滑。
[0009]ERB的選擇決定了脈沖響應(yīng)的衰減速度，與濾波器帶寬有關(guān)，而每個濾波器帶寬都與人耳聽覺臨界頻帶(Critical Band, CB)有關(guān)，ERB尺度由某個頻率下的ERB數(shù)目確定，從聽覺心理學(xué)得到ERB與以赫茲為單位的線性頻率關(guān)系為
【權(quán)利要求】
1.一種基于聽覺濾波器相關(guān)圖的語音特征參數(shù)提取的方法，其特征在于，將聽覺濾波器組相關(guān)圖應(yīng)用于語音特征提取中，從而降低語音數(shù)據(jù)中體現(xiàn)基頻特性的韻母對色噪聲的敏感性，提升系統(tǒng)的識別性能。
2.根據(jù)權(quán)利要求1所述的，基于聽覺濾波器組相關(guān)圖語音特征參數(shù)提取方法，其特征在于所述方法適用各種語音的濁音(或韻母)。
3.根據(jù)權(quán)利要求1所述的，基于聽覺濾波器組相關(guān)圖特征參數(shù)提取方法與語種無關(guān)。
4.根據(jù)權(quán)利要求1所述的，基于聽覺濾波器組相關(guān)圖特征參數(shù)提取方法適用于需要提取語音特征的各種應(yīng)用，包括但不限于語音識別、語音合成以及聲紋識別等應(yīng)用。
5.基于聽覺濾波器組相關(guān)圖特征參數(shù)提取方法，其特征在于，該方法分為5個模塊:清濁音切分模塊、聽覺濾波器組濾波器組模塊、聽覺濾波器組濾波器相關(guān)圖譜模塊、特征提取模塊。
【文檔編號】G10L25/84GK103985390SQ201410215133
【公開日】2014年8月13日申請日期:2014年5月20日優(yōu)先權(quán)日:2014年5月20日
【發(fā)明者】馬多佳, 劉孟美, 楊楊申請人:北京安慧音通科技有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬多佳;劉孟美;楊楊
技術(shù)所有人：北京安慧音通科技有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：信號處理裝置和信號處理方法以及解碼器和解碼方法
上一篇：語音處理設(shè)備及方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音特征參數(shù)相關(guān)技術(shù)

語音信號特征參數(shù)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于伽馬通相關(guān)圖語音特征參數(shù)提取方法