基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法

文檔序號：2830961閱讀：534來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音識別的方法，具體涉及一種漢語耳語音的聲調(diào)的識別方法。
背景技術(shù)：
耳語音是一種有別于正常語音的發(fā)音模式，其主要特點是發(fā)音時音量低且聲帶完全不振動。耳語，作為一種特殊的語言交流方式，有著廣泛的應(yīng)用領(lǐng)域。在醫(yī)學(xué)方面，語音臨床醫(yī)學(xué)專家研究耳語音模式以期幫助失音患者，并致力于觀察耳語發(fā)音是否有利于喉部手術(shù)病人噪音的恢復(fù)和治療。從通信的角度來看，在公眾場合如會議環(huán)境中，為了避免對他人的干擾或為了通話的保密性，人們有時需要利用耳語進行電話交流。此外，耳語音課題的研究也能夠為公安司法部門的語音識別、話者識別提供依據(jù)。在國外，有些用于低比特率語音編碼和語音識別的數(shù)據(jù)庫中也包括了對耳語音的要求。目前，對于耳語音的研究，主要從語音學(xué)的角度集中在耳語音發(fā)音特征分析、耳語音與正常語音的比較等方面。已有研究的一些主要結(jié)論有①耳語音與正常語音相比有很大差異，這種差異在濁音段更加突出。②耳語音的激勵源為噪聲，發(fā)音時聲帶不振動，因而沒有基音頻率信息。③耳語音是氣聲發(fā)音，其能量比正常語音低約20dB，信噪比更低。④耳語音雖然沒有基音，但從聽覺上仍能感知聲調(diào)和音髙。⑤耳語音仍存在共振峰，但第一共振峰的振幅較小，頻率向髙端偏移，帶寬大于正常語音，第二、第三共振峰也有類似的情形。目前對耳語音的研究中，由于語言語系的差異，基本上不涉及耳語音聲調(diào)的提取和識別。作為聲調(diào)語言的漢語，擁有世界上人數(shù)最多的使用者。與英語等其它語調(diào) 語言相比，聲調(diào)語言所攜帶的語義量是無調(diào)語言的約四倍。聲調(diào)的提取是聲調(diào) 語言研究中不可或缺的一部分，耳語音聲調(diào)的研究在耳語增加、耳語識別、耳語轉(zhuǎn)換等方面都有著舉足輕重的意義。在正常語音中，人們通常采用韻母段基音頻率的軌跡曲線，來表征語音的聲調(diào)。而在耳語音中，由于發(fā)音時聲帶不振動，不存在基音頻率，因此無法利用該參數(shù)進行四聲識別。加拿大維多利亞大學(xué)語言學(xué)系的Man Gao在2002年發(fā)表的碩士學(xué)位論文 "Tones in Whispered Chinese: Articulatory Features and Perceptual Cues" 中，從三個步驟對漢語耳語音的聲調(diào)進行了分析首先，通過喉部內(nèi)腔鏡觀測正常音與耳語發(fā)音時的咽喉動作差異；其次，采集孤立字與語句環(huán)境下兩男兩女四聲語音；最后進行聽覺感知實驗。該文從聽覺感知的角度對耳語音的聲調(diào) 進行了研究，但并不能直接應(yīng)用于計算機語音識別系統(tǒng)中去?！峨娐暭夹g(shù)》2003 年第11期上，沙丹青等在《耳語音聲調(diào)特征的研究》一文中，介紹了耳語音的聲學(xué)特性，通過人耳聽覺實驗驗證了孤立的耳語音節(jié)是攜有聲調(diào)信息的，并進一步得出幅值包絡(luò)和音長都是耳語音聲調(diào)識別的重要因素。但是，采用幅值包絡(luò)方式進行耳語音聲調(diào)識別難度較大，識別率低。發(fā)明內(nèi)容本發(fā)明目的是提供一種漢語耳語音的聲調(diào)識別方法，通過基于聲道參數(shù)的識別，提髙耳語音聲調(diào)的識別率。為達到上述目的，本發(fā)明采用的技術(shù)方案是一種基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法，對錄制的耳語音進行數(shù)字化采樣，對采樣數(shù)據(jù)進行分析，識別出耳語音的聲調(diào)，所述的對采樣數(shù)據(jù)進行分析是，對耳語音采樣數(shù)據(jù)進行分幀加窗，窗長不大于20毫秒，求取每一幀語音的線性預(yù)測模型參數(shù)，據(jù)此計算每一幀語音信號的增益參數(shù)，由此獲得語音信號增益軌跡曲線，與標準語音聲調(diào)曲線進行對比，確定耳語音的聲調(diào)。上述技術(shù)方案中，所述對釆樣數(shù)據(jù)進行分析中，在進行所述分幀加窗之前，先對語音進行預(yù)加重，即提升髙頻部分。由此，使信號的頻譜變得平坦，保持在低頻到髙頻的整個頻帶中，能用同樣的信噪比求頻譜，以便于頻譜分析或聲道參數(shù)分析。所述預(yù)加重采用一階數(shù)字濾波器H(z)二l-^1，其中，H是傳遞函數(shù)，z為z變換，U為預(yù)加重系數(shù)，li <1。鑒于語音信號的短時性，分幀時，窗長不大于20亳秒。所述分幀加窗采用漢明(Hamming)窗<formula>formula see original document page 5</formula>為其它值式中，n為加窗點，N為窗長。求取每一幀語音的線性預(yù)測模型參數(shù)時，在最小均方根誤差準則下，利用格型法實現(xiàn)。用過去P個樣點值來預(yù)測現(xiàn)在或未來的樣點值S(n)二^a,s(ri-i)，i = l預(yù)測誤差e(n)為e(n^s(n)-§(n) = s(n)ta|S(n-i)，通過最小均方誤差準則使預(yù)測誤差e(n)達到最小值的方法來決定唯一的一組線性預(yù)測系數(shù)ai(i^，2,…，0)。所述增益參數(shù)為，G2=R (0)-^>kRn(k)，式中，R為自相關(guān)函數(shù)，p為樣點數(shù)。k = l在求得完整的語音信號增益軌跡曲線后，進行平滑、插值及時間歸一化。由于上述技術(shù)方案運用，本發(fā)明與現(xiàn)有技術(shù)相比具有下列優(yōu)點1. 本發(fā)明基于聲道參數(shù)，采用聲道增益參數(shù)分析方法，實現(xiàn)了漢語耳語音的聲調(diào)識別，可以進一步應(yīng)用于漢語的語音識別系統(tǒng)。2. 本發(fā)明比幅值包絡(luò)方式更能體現(xiàn)語音固有的信息，因而識別率髙，實驗表明，本發(fā)明的識別率既高于幅值包絡(luò)方式的識別率，也髙于人耳辨聽實驗的識別率，應(yīng)用于語音識別系統(tǒng)時具有顯著的優(yōu)越性。

圖1是漢語語音四聲標準曲線；圖2是實施例一中采用增益參數(shù)與語音幅值包絡(luò)曲線對漢語耳語音聲調(diào) 信息提取的對比圖。
具體實施方式
下面結(jié)合附圖及實施例對本發(fā)明作進一步描述實施例一參考楊順安提出的漢語普通話對一化字調(diào)模型，做出漢語語音四聲曲線，如附圖1所示，圖中實線為一聲，短虛線為二聲，點劃線為三聲，長虛線為四聲。采用自行錄制的耳語音，進行數(shù)字化采樣，采樣頻率為8000Hz。先對語音進行預(yù)加重，即提升高頻部分。由此，使信號的頻譜變得平坦，保持在低頻到髙頻的整個頻帶中，能用同樣的信噪比求頻譜，以便于頻譜分析或聲道參數(shù) 分析。所述預(yù)加重采用一階數(shù)字濾波器H(z)-l,z1，其中，H是傳遞函數(shù)，z為z變換，W為預(yù)加重系數(shù)，U <1。對耳語音采樣數(shù)據(jù)進行分幀加窗，取128點分幀，窗長為16亳秒，幀移為1/4,所述分幀加窗采用漢明(Hamming)窗式中，n為加窗點，N為窗長。求取每一幀語音的線性預(yù)測模型參數(shù)，在最小均方根誤差準則下，利用格型法實現(xiàn)。用過去P個樣點值來預(yù)測現(xiàn)在或未來的樣點值S(n)二 j>,s(n-i)，預(yù)測誤差e(n)為e(nXn)-S(n)i(n)j^s(n-i)，通過最小均方誤差準則使預(yù)測誤差e(n)達到最小值的方法來決定唯一的一組線性預(yù)測系數(shù)ai(i = l,2,…，0)。據(jù)此計算每一幀語音信號的增益參數(shù)，G2=Rn(0)-j>kRn(k)，式中，R為自相關(guān)函數(shù)，p為樣點數(shù)。由此獲得語音信號增益軌跡曲線。在求得完整的語音信號增益軌跡曲線后，進行平滑、插值及時間歸一化，計算其與字調(diào)模型的均方誤差，比較函數(shù)斜率、拐點值，進行判決，輸出最后結(jié)果。附圖2為采用時域參數(shù)一一語音幅值包絡(luò)曲線及頻域參數(shù)一一聲道增益對四聲漢語耳語聲調(diào)信息提取的比較，圖中實線為增益參數(shù)曲線，虛線為語音幅值包絡(luò)曲線。由此可以看出，盡管幅值包絡(luò)在一定程度上能夠反映語音聲調(diào)，但相較于聲道增益參數(shù)，其識別率低。實驗的統(tǒng)計結(jié)果如下:識人耳辨聽實驗y。幅值包絡(luò)％聲道增益參數(shù)％別一四四一四結(jié)聲聲聲聲聲聲聲聲聲聲聲聲果55558875041458080c425185604560797070808285i50408552u53408675U65668280由統(tǒng)計結(jié)果可知，通過聲道增益參數(shù)對漢語耳語進行識別，其識別率均大于人耳辨聽及采用時域參量進行判決。其平均識別率大于80，能有效用于耳語聲調(diào)識別。
權(quán)利要求
1. 一種基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法，對錄制的耳語音進行數(shù)字化采樣，對采樣數(shù)據(jù)進行分析，識別出耳語音的聲調(diào)，其特征在于所述的對采樣數(shù)據(jù)進行分析是，對耳語音采樣數(shù)據(jù)進行分幀加窗，窗長不大于20毫秒，求取每一幀語音的線性預(yù)測模型參數(shù)，據(jù)此計算每一幀語音信號的增益參數(shù)，由此獲得語音信號增益軌跡曲線，與標準語音聲調(diào)曲線進行對比，確定耳語音的聲調(diào)。
2. 根據(jù)權(quán)利要求1所述的基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法，其特征在于所述對采樣數(shù)據(jù)進行分析中，在進行所述分幀加窗之前，先對語音進行預(yù)加重，即提升髙頻部分。
3. 根據(jù)權(quán)利要求2所述的基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法，其特征在于所述預(yù)加重采用一階數(shù)字濾波器H(z):l-^1，其中，H是傳遞函數(shù)，z為z變換，U為預(yù)加重系數(shù)，U<1。
4. 根據(jù)權(quán)利要求1所述的基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法，其特征在于所述分幀加窗采用漢明窗。
5. 根據(jù)權(quán)利要求1所述的基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法，其特征在于求取每一幀語音的線性預(yù)測模型參數(shù)時，在最小均方根誤差準則下，利用格型法實現(xiàn)。
6. 根據(jù)權(quán)利要求1所述的基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法，其特征在于所述增益參數(shù)為，G2=Rn(0)-^>kRn(k)，式中，R為自相關(guān)函數(shù)，p為樣點數(shù)。
全文摘要
本發(fā)明公開了一種基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法，對錄制的耳語音進行數(shù)字化采樣，對采樣數(shù)據(jù)進行分析，識別出耳語音的聲調(diào)，其特征在于所述的對采樣數(shù)據(jù)進行分析是，對耳語音采樣數(shù)據(jù)進行分幀加窗，窗長不大于20毫秒，求取每一幀語音的線性預(yù)測模型參數(shù)，據(jù)此計算每一幀語音信號的增益參數(shù)，由此獲得語音信號增益軌跡曲線，與標準語音聲調(diào)曲線進行對比，確定耳語音的聲調(diào)。本發(fā)明基于聲道參數(shù)，采用聲道增益參數(shù)分析方法，實現(xiàn)了漢語耳語音的聲調(diào)識別，應(yīng)用于漢語的語音識別系統(tǒng)，識別率高，具有顯著的優(yōu)越性。
文檔編號G10L15/08GK101281747SQ20081012371
公開日2008年10月8日申請日期2008年5月30日優(yōu)先權(quán)日2008年5月30日
發(fā)明者趙鶴鳴, 龔呈卉申請人:蘇州大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙鶴鳴;龔呈卉
技術(shù)所有人：蘇州大學(xué)
我是此專利的發(fā)明人

上一篇：文本到語音設(shè)備的制作方法
上一篇：一種基于改進模糊矢量量化的語音情感識別方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

漢語聲調(diào)相關(guān)技術(shù)

漢語拼音聲調(diào)標注口訣相關(guān)技術(shù)

漢語拼音聲調(diào)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法