一種基于伽馬通相關(guān)圖語音特征參數(shù)提取方法
【專利摘要】本發(fā)明涉及自動語音信號處理領(lǐng)域,特別是一種基于聽覺濾波器組相關(guān)圖提取語音特征的方法。該方法的特征在于通過利用聽覺濾波器相關(guān)圖對表現(xiàn)語音共振峰和基頻等特性的優(yōu)勢對語音信號中包含更多內(nèi)容、聲學(xué)特點等信息的濁音進(jìn)行多通道擴展處理,這在刻畫語音的聲學(xué)特性方面具有克服了僅依賴于信號某一方面特性的特征集在環(huán)境發(fā)生改變時性能會急劇下降的問題。在現(xiàn)有的聽覺模型都在表示譜包絡(luò)和幅度調(diào)制的特征基礎(chǔ)上,增加了表示相位譜(即頻率調(diào)制)的信息。因此利用合適的聽覺濾波器的相關(guān)圖可以提高語音信號的魯棒性。
【專利說明】一種基于伽馬通相關(guān)圖語音特征參數(shù)提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自動語音處理領(lǐng)域,具體而言,是一種基于相關(guān)圖語音特征參數(shù)提取方法及應(yīng)用。
【背景技術(shù)】
[0002]語音是人類最自然、最靈活、最頻繁的信息交流方式。語音中蘊含多層信息,如何自動提取這些信息便成為當(dāng)前語音信號處理領(lǐng)域的主要研究內(nèi)容。作為該領(lǐng)域的一個重要分支,自動從語音片段中提取表征內(nèi)容、身份等信息的識別技術(shù),在汽車導(dǎo)航、計算機控制、玩具等諸多領(lǐng)域有廣泛的應(yīng)用。
[0003]語音信號處理從本質(zhì)上講就是要盡可能的模擬人耳的聽覺過程。而在人耳的聽覺系統(tǒng)中,耳蝸對聲音的感知一直是研究的熱點之一。耳蝸通常被描述維一組帶通濾波器,且濾波器組的每個頻帶具有尖銳的頻率選擇性,通過采用這樣的濾波器組模擬耳蝸基底膜分頻作用。研究發(fā)現(xiàn),人耳聽覺系統(tǒng)對頻率調(diào)制信號非常敏感,比如警車聲、救護車聲就特別容易引起人耳的注意,因此,現(xiàn)有的聽覺模型都在表示譜包絡(luò)和幅度調(diào)制的特征基礎(chǔ)上,增加了表示相位譜(即頻率調(diào)制)的信息。基于伽瑪函數(shù)的濾波器參數(shù)簡單,階數(shù)低,可以采用簡單的時域函數(shù)實現(xiàn)。借用相關(guān)圖的概念引入聽覺濾波器相關(guān)圖(CochlearCorrelogram)。所謂聽覺濾波器相關(guān)圖就是考慮到語音信號通過聽覺濾波器后表現(xiàn)為多通道信號的疊加,為了動態(tài)描述各個通道濾波器在頻域和時域的相互關(guān)系而引入的概念。聽覺濾波器相關(guān)圖特征提取方法就是通過對濾波器組的各個通道相關(guān)圖所表現(xiàn)出來的特性對語音信號的內(nèi)容等信息進(jìn)行描述。
[0004]一般的語音產(chǎn)生模型包括三個部分:激勵源,聲道模型和輻射模型。在傳統(tǒng)語音信號處理方法中,基音頻率在一幀范圍內(nèi)被視為常數(shù),從而濁音的激勵信號可以用一個周期脈沖發(fā)生器來產(chǎn)生。實際上,對于語音信號,特別是有調(diào)語言的語音信號,基音頻率在一幀之內(nèi)也是連續(xù)變化的??紤]到語音的諧波結(jié)構(gòu)與基音值的變化,濁音可以建模為一個調(diào)幅調(diào)頻信號。
[0005]目前,語音信號處理的應(yīng)用主要集中在語音識別和語音合成等方面,主要利用對所提取的特征進(jìn)行統(tǒng)計分析的方法。例如語音識別和語音合成技術(shù)(基于HMM的參數(shù)合成方法)中的訓(xùn)練和測試兩個階段的建模和分類過程。在訓(xùn)練階段的三個步驟為:前端處理,特征提取和建立模型;測試階段的四個步驟:前端處理,特征提取,模型匹配和分?jǐn)?shù)判決。通常而言,
(O前端處理:包括語音增強、活動語音檢測和語音切分等信號處理技術(shù);
(2)特征提取:通常選擇線性預(yù)測倒譜系數(shù)(LinearPredictive CepstralCoefficients, LPCC)、梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)或感知線性預(yù)測(Perceptual Linear Prediction, PLP);
(3)建模方法(建立模型和模型匹配):主流技術(shù)是隱含馬爾科夫模型(HiddenMarkovModel, HMM);(4)分?jǐn)?shù)判決:根據(jù)閾值,對分?jǐn)?shù)進(jìn)行比較,對HMM的輸出分?jǐn)?shù)進(jìn)行處理,給出識別結(jié)
果O
[0006]在上述過程中,特征提取作為訓(xùn)練和測試中基礎(chǔ)環(huán)節(jié),對語音信號處理的效果影響顯而易見。根據(jù)人耳對不同頻率的聲波有不同的聽覺靈敏度的特點所發(fā)展起來的MFCC為現(xiàn)今語音識別廣泛采用的一種特征參數(shù),它反映了人耳聽覺系統(tǒng)的某些頻率特性,但是,MFCC以及多數(shù)在語音識別中采用的特征參數(shù)由于僅反映了譜特性、缺乏時間信息,而導(dǎo)致對語音中迅速變化的成分(如爆破音)無法處理。另外,在語音感知中起重要作用的共振峰間的過渡,在MFCC參數(shù)中也只是間接地有所反映。由于聲調(diào)或協(xié)同發(fā)音等的影響,基音和諧波都是隨時間變化的,因此在計算譜包絡(luò)時,若將這些變化因素體現(xiàn)到能量分布計算中,有望得到更具區(qū)分性的特征以改善語音識別率。目前大部分語音識別系統(tǒng)中所采用的聲學(xué)特征,無論MFCC或是PLP,都僅僅體現(xiàn)了信號的幅度調(diào)制即包絡(luò)特性。一般來講,在實際的傳輸環(huán)境中,僅依賴于信號某一方面特性的特征集在環(huán)境發(fā)生改變時,性能會急劇下降,而若是將體現(xiàn)信號不同方面特性的特征結(jié)合起來,則可在環(huán)境變化時表現(xiàn)出較好的魯棒性。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于:考慮到語音信號通過聽覺濾波器后表現(xiàn)為多通道信號的疊加,為了動態(tài)描述各個通道濾波器在頻域和時域的相互關(guān)系而引入聽覺濾波器相關(guān)圖(Cochlear Correlogram)的概念。本發(fā)明利用聽覺濾波器組在時域?qū)瓮ǖ勒Z音分解成多個不同頻段的時域信號,這相當(dāng)于用單通道信號構(gòu)建出不同頻率成分的多通道信號。這樣獲得的時域信號,分別包含了基音和各個共振峰等信息。再利用聽覺濾波器相關(guān)圖將語音中基頻和共振峰的信 息提取出來。
[0008]發(fā)明的具體步驟如下:
(1.1)前端處理
包括語音增強,用于抑制背景噪聲,提升語音部分的可懂度,以便后端能夠更好的區(qū)分語音信號和非語音信號。采用的方法是頻域的維納濾波;活動語音檢測,用于區(qū)分語音信號和非語音信號,去除非語音信號,以便后端對語音信號的識別。采用的方法有G723.1、G723.9等。語音聲韻母切分,并對檢測到的語音信號分幀處理,以便后續(xù)的特征提??;
(1.2)清音特征提取
在語音信號中,由于發(fā)音方式的不同,可以分為清音和濁音。清音的本質(zhì)是噪聲發(fā)生器,在頻域上沒有明顯的特征表現(xiàn),因此對語音的清音部分仍然采用傳統(tǒng)的MFCC特征提取方法:提取12維MFCC基本特征和能量構(gòu)成13維特征。該13維特征是靜態(tài)特征,為了反映語音的動態(tài)特性,利用靜態(tài)特征構(gòu)造差分特征。將I階、2階差分特征附到靜態(tài)特征后,構(gòu)成用于建模的39維MFCC特征;
(1.3)濁音特征提取:
伽馬通(Ga_atone)濾波器是一個標(biāo)準(zhǔn)的耳蝸聽覺濾波器,該濾波器的時域脈沖響應(yīng)可以表示為
h(t) = kta~l tsp(-2mBl) cos ?- φ)
其中k表示濾波器輸出增益,B表示濾波器的帶寬,η是濾波器的階數(shù)并決定了邊緣處的斜度,f。是濾波器的中心頻率,Φ是相位,簡化模型中一般取Φ= O ;采用的Ga_atone濾波器為4階線性濾波器為例,它基于沖激響應(yīng)不變法的全極點設(shè)計,輸出為復(fù)值的解析信號。將若干個該類型的濾波器在等價矩形帶寬(EquivalentRectangular Bandwidth, ERB)尺度上均勻放置形成本文采用的聽覺濾波器組。ERB與臨界帶寬緊密相關(guān),但是不是基于傳統(tǒng)掩蔽實驗得出,因此不易被信號和掩蔽信號之間的互調(diào)所影響,而且它比MFCC所采用的尺度表現(xiàn)更平滑。
[0009]ERB的選擇決定了脈沖響應(yīng)的衰減速度,與濾波器帶寬有關(guān),而每個濾波器帶寬都與人耳聽覺臨界頻帶(Critical Band, CB)有關(guān),ERB尺度由某個頻率下的ERB數(shù)目確定,從聽覺心理學(xué)得到ERB與以赫茲為單位的線性頻率關(guān)系為
【權(quán)利要求】
1.一種基于聽覺濾波器相關(guān)圖的語音特征參數(shù)提取的方法,其特征在于,將聽覺濾波器組相關(guān)圖應(yīng)用于語音特征提取中,從而降低語音數(shù)據(jù)中體現(xiàn)基頻特性的韻母對色噪聲的敏感性,提升系統(tǒng)的識別性能。
2.根據(jù)權(quán)利要求1所述的,基于聽覺濾波器組相關(guān)圖語音特征參數(shù)提取方法,其特征在于所述方法適用各種語音的濁音(或韻母)。
3.根據(jù)權(quán)利要求1所述的,基于聽覺濾波器組相關(guān)圖特征參數(shù)提取方法與語種無關(guān)。
4.根據(jù)權(quán)利要求1所述的,基于聽覺濾波器組相關(guān)圖特征參數(shù)提取方法適用于需要提取語音特征的各種應(yīng)用,包括但不限于語音識別、語音合成以及聲紋識別等應(yīng)用。
5.基于聽覺濾波器組相關(guān)圖特征參數(shù)提取方法,其特征在于,該方法分為5個模塊:清濁音切分模塊、聽覺濾波器組濾波器組模塊、聽覺濾波器組濾波器相關(guān)圖譜模塊、特征提取模塊。
【文檔編號】G10L25/84GK103985390SQ201410215133
【公開日】2014年8月13日 申請日期:2014年5月20日 優(yōu)先權(quán)日:2014年5月20日
【發(fā)明者】馬多佳, 劉孟美, 楊楊 申請人:北京安慧音通科技有限責(zé)任公司