專利名稱:基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音識別的方法,具體涉及一種漢語耳語音的聲調(diào)的識別 方法。
背景技術(shù):
耳語音是一種有別于正常語音的發(fā)音模式,其主要特點是發(fā)音時音量低且 聲帶完全不振動。耳語,作為一種特殊的語言交流方式,有著廣泛的應(yīng)用領(lǐng)域。在醫(yī)學(xué)方面,語音臨床醫(yī)學(xué)專家研究耳語音模式以期幫助失音患者,并致 力于觀察耳語發(fā)音是否有利于喉部手術(shù)病人噪音的恢復(fù)和治療。從通信的角度 來看,在公眾場合如會議環(huán)境中,為了避免對他人的干擾或為了通話的保密性, 人們有時需要利用耳語進行電話交流。此外,耳語音課題的研究也能夠為公安 司法部門的語音識別、話者識別提供依據(jù)。在國外,有些用于低比特率語音編 碼和語音識別的數(shù)據(jù)庫中也包括了對耳語音的要求。目前,對于耳語音的研究,主要從語音學(xué)的角度集中在耳語音發(fā)音特征分 析、耳語音與正常語音的比較等方面。已有研究的一些主要結(jié)論有①耳語音與正常語音相比有很大差異,這種差異在濁音段更加突出。②耳語音的激勵源 為噪聲,發(fā)音時聲帶不振動,因而沒有基音頻率信息。③耳語音是氣聲發(fā)音, 其能量比正常語音低約20dB,信噪比更低。④耳語音雖然沒有基音,但從聽 覺上仍能感知聲調(diào)和音髙。⑤耳語音仍存在共振峰,但第一共振峰的振幅較小, 頻率向髙端偏移,帶寬大于正常語音,第二、第三共振峰也有類似的情形。目 前對耳語音的研究中,由于語言語系的差異,基本上不涉及耳語音聲調(diào)的提取 和識別。作為聲調(diào)語言的漢語,擁有世界上人數(shù)最多的使用者。與英語等其它語調(diào) 語言相比,聲調(diào)語言所攜帶的語義量是無調(diào)語言的約四倍。聲調(diào)的提取是聲調(diào) 語言研究中不可或缺的一部分,耳語音聲調(diào)的研究在耳語增加、耳語識別、耳 語轉(zhuǎn)換等方面都有著舉足輕重的意義。在正常語音中,人們通常采用韻母段基音頻率的軌跡曲線,來表征語音的聲調(diào)。而在耳語音中,由于發(fā)音時聲帶不振 動,不存在基音頻率,因此無法利用該參數(shù)進行四聲識別。加拿大維多利亞大學(xué)語言學(xué)系的Man Gao在2002年發(fā)表的碩士學(xué)位論文 "Tones in Whispered Chinese: Articulatory Features and Perceptual Cues" 中,從三個步驟對漢語耳語音的聲調(diào)進行了分析首先,通過喉部內(nèi)腔鏡觀測正常音與耳語發(fā)音時的咽喉動作差異;其次,采集孤立字與語句環(huán)境下兩男兩女四聲語音;最后進行聽覺感知實驗。該文從聽覺感知的角度對耳語音的聲調(diào) 進行了研究,但并不能直接應(yīng)用于計算機語音識別系統(tǒng)中去?!峨娐暭夹g(shù)》2003 年第11期上,沙丹青等在《耳語音聲調(diào)特征的研究》 一文中,介紹了耳語音 的聲學(xué)特性,通過人耳聽覺實驗驗證了孤立的耳語音節(jié)是攜有聲調(diào)信息的,并 進一步得出幅值包絡(luò)和音長都是耳語音聲調(diào)識別的重要因素。但是,采用幅值 包絡(luò)方式進行耳語音聲調(diào)識別難度較大,識別率低。發(fā)明內(nèi)容本發(fā)明目的是提供一種漢語耳語音的聲調(diào)識別方法,通過基于聲道參數(shù)的 識別,提髙耳語音聲調(diào)的識別率。為達到上述目的,本發(fā)明采用的技術(shù)方案是 一種基于聲道參數(shù)的漢語耳 語音聲調(diào)識別方法,對錄制的耳語音進行數(shù)字化采樣,對采樣數(shù)據(jù)進行分析, 識別出耳語音的聲調(diào),所述的對采樣數(shù)據(jù)進行分析是,對耳語音采樣數(shù)據(jù)進行 分幀加窗,窗長不大于20毫秒,求取每一幀語音的線性預(yù)測模型參數(shù),據(jù)此 計算每一幀語音信號的增益參數(shù),由此獲得語音信號增益軌跡曲線,與標準語音聲調(diào)曲線進行對比,確定耳語音的聲調(diào)。上述技術(shù)方案中,所述對釆樣數(shù)據(jù)進行分析中,在進行所述分幀加窗之前, 先對語音進行預(yù)加重,即提升髙頻部分。由此,使信號的頻譜變得平坦,保持 在低頻到髙頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲 道參數(shù)分析。所述預(yù)加重采用一階數(shù)字濾波器H(z)二l-^1,其中,H是傳遞函數(shù),z為z變換,U為預(yù)加重系數(shù),li <1。鑒于語音信號的短時性,分幀時,窗長不大于20亳秒。所述分幀加窗采用漢明(Hamming)窗<formula>formula see original document page 5</formula>為其它值式中,n為加窗點,N為窗長。求取每一幀語音的線性預(yù)測模型參數(shù)時,在最小均方根誤差準則下,利用 格型法實現(xiàn)。用過去P個樣點值來預(yù)測現(xiàn)在或未來的樣點值S(n)二^a,s(ri-i),i = l預(yù)測誤差e(n)為e(n^s(n)-§(n) = s(n)ta|S(n-i),通過最小均方誤差準則使預(yù)測誤差e(n)達到最小值的方法來決定唯一的一組線性預(yù)測系數(shù)ai(i^,2,…,0)。 所述增益參數(shù)為,G2=R (0)-^>kRn(k),式中,R為自相關(guān)函數(shù),p為樣點數(shù)。k = l在求得完整的語音信號增益軌跡曲線后,進行平滑、插值及時間歸一化。 由于上述技術(shù)方案運用,本發(fā)明與現(xiàn)有技術(shù)相比具有下列優(yōu)點1. 本發(fā)明基于聲道參數(shù),采用聲道增益參數(shù)分析方法,實現(xiàn)了漢語耳語 音的聲調(diào)識別,可以進一步應(yīng)用于漢語的語音識別系統(tǒng)。2. 本發(fā)明比幅值包絡(luò)方式更能體現(xiàn)語音固有的信息,因而識別率髙,實 驗表明,本發(fā)明的識別率既高于幅值包絡(luò)方式的識別率,也髙于人耳辨聽實驗 的識別率,應(yīng)用于語音識別系統(tǒng)時具有顯著的優(yōu)越性。
圖1是漢語語音四聲標準曲線;圖2是實施例一中采用增益參數(shù)與語音幅值包絡(luò)曲線對漢語耳語音聲調(diào) 信息提取的對比圖。
具體實施方式
下面結(jié)合附圖及實施例對本發(fā)明作進一步描述實施例一參考楊順安提出的漢語普通話對一化字調(diào)模型,做出漢語語音四聲曲線,如附圖1所示,圖中實線為一聲,短虛線為二聲,點劃線為三聲, 長虛線為四聲。采用自行錄制的耳語音,進行數(shù)字化采樣,采樣頻率為8000Hz。先對語 音進行預(yù)加重,即提升高頻部分。由此,使信號的頻譜變得平坦,保持在低頻 到髙頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù) 分析。所述預(yù)加重采用一階數(shù)字濾波器H(z)-l,z1,其中,H是傳遞函數(shù),z為z變換,W為預(yù)加重系數(shù),U <1。對耳語音采樣數(shù)據(jù)進行分幀加窗,取128點分幀,窗長為16亳秒,幀移 為1/4,所述分幀加窗采用漢明(Hamming)窗式中,n為加窗點,N為窗長。求取每一幀語音的線性預(yù)測模型參數(shù),在最小均方根誤差準則下,利用格型法實現(xiàn)。用過去P個樣點值來預(yù)測現(xiàn)在或未來的樣點值S(n)二 j>,s(n-i),預(yù)測誤差e(n)為e(nXn)-S(n)i(n)j^s(n-i),通過最小均方誤差準則使預(yù)測誤差e(n)達到最小值的方法來決定唯一的一組線性預(yù)測系數(shù)ai(i = l,2,…,0)。據(jù)此計算每一幀語音信號的增益參數(shù),G2=Rn(0)-j>kRn(k),式中,R為自相關(guān)函數(shù),p為樣點數(shù)。由此獲得語音信號增益軌跡曲線。在求得完整的語音信號增益軌跡曲線后,進行平滑、插值及時間歸一化, 計算其與字調(diào)模型的均方誤差,比較函數(shù)斜率、拐點值,進行判決,輸出最后 結(jié)果。附圖2為采用時域參數(shù)一一語音幅值包絡(luò)曲線及頻域參數(shù)一一聲道增益 對四聲漢語耳語聲調(diào)信息提取的比較,圖中實線為增益參數(shù)曲線,虛線為語音 幅值包絡(luò)曲線。由此可以看出,盡管幅值包絡(luò)在一定程度上能夠反映語音聲調(diào),但相較于聲道增益參數(shù),其識別率低。實驗的統(tǒng)計結(jié)果如下:識人耳辨聽實驗y。幅值包絡(luò)%聲道增益參數(shù)%別一四四一四結(jié)聲聲聲聲聲聲聲聲聲聲聲聲果55558875041458080c425185604560797070808285i50408552u53408675U65668280由統(tǒng)計結(jié)果可知,通過聲道增益參數(shù)對漢語耳語進行識別,其識別率均大于人耳辨聽及采用時域參量進行判決。其平均識別率大于80,能有效用于耳 語聲調(diào)識別。
權(quán)利要求
1. 一種基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法,對錄制的耳語音進行數(shù)字化采樣,對采樣數(shù)據(jù)進行分析,識別出耳語音的聲調(diào),其特征在于所述的對采樣數(shù)據(jù)進行分析是,對耳語音采樣數(shù)據(jù)進行分幀加窗,窗長不大于20毫秒,求取每一幀語音的線性預(yù)測模型參數(shù),據(jù)此計算每一幀語音信號的增益參數(shù),由此獲得語音信號增益軌跡曲線,與標準語音聲調(diào)曲線進行對比,確定耳語音的聲調(diào)。
2. 根據(jù)權(quán)利要求1所述的基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法,其 特征在于所述對采樣數(shù)據(jù)進行分析中,在進行所述分幀加窗之前,先對語音 進行預(yù)加重,即提升髙頻部分。
3. 根據(jù)權(quán)利要求2所述的基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法,其特征在于所述預(yù)加重采用一階數(shù)字濾波器H(z):l-^1,其中,H是傳遞函數(shù),z為z變換,U為預(yù)加重系數(shù),U<1。
4. 根據(jù)權(quán)利要求1所述的基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法,其 特征在于所述分幀加窗采用漢明窗。
5. 根據(jù)權(quán)利要求1所述的基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法,其 特征在于求取每一幀語音的線性預(yù)測模型參數(shù)時,在最小均方根誤差準則下, 利用格型法實現(xiàn)。
6. 根據(jù)權(quán)利要求1所述的基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法,其 特征在于所述增益參數(shù)為,G2=Rn(0)-^>kRn(k),式中,R為自相關(guān)函數(shù),p為樣點數(shù)。
全文摘要
本發(fā)明公開了一種基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法,對錄制的耳語音進行數(shù)字化采樣,對采樣數(shù)據(jù)進行分析,識別出耳語音的聲調(diào),其特征在于所述的對采樣數(shù)據(jù)進行分析是,對耳語音采樣數(shù)據(jù)進行分幀加窗,窗長不大于20毫秒,求取每一幀語音的線性預(yù)測模型參數(shù),據(jù)此計算每一幀語音信號的增益參數(shù),由此獲得語音信號增益軌跡曲線,與標準語音聲調(diào)曲線進行對比,確定耳語音的聲調(diào)。本發(fā)明基于聲道參數(shù),采用聲道增益參數(shù)分析方法,實現(xiàn)了漢語耳語音的聲調(diào)識別,應(yīng)用于漢語的語音識別系統(tǒng),識別率高,具有顯著的優(yōu)越性。
文檔編號G10L15/08GK101281747SQ20081012371
公開日2008年10月8日 申請日期2008年5月30日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者趙鶴鳴, 龔呈卉 申請人:蘇州大學(xué)