專利名稱:漢語語音識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別領(lǐng)域,更具體地說是涉及一種基于頻域特性與時域特性相結(jié)合、基于共鳴腔選頻曲線分析的漢語語音識別方法。
背景技術(shù):
隨著計算機(jī)與信息技術(shù)的持續(xù)發(fā)展,語音交互已成為人機(jī)交互的必要手段。語音識別技術(shù)經(jīng)過了近半個世紀(jì)的發(fā)展,目前已日趨成熟,并得到廣泛的應(yīng)用。漢語數(shù)碼語音識別已經(jīng)在電話自動撥號、家電產(chǎn)品的遙控、工業(yè)控制等領(lǐng)域中開始發(fā)揮作用,但是仍然有很大的深入研究空間,以提高識別系統(tǒng)的速度、穩(wěn)健性和識別率。一般來說,語音識別的方法有三種基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。其中(1)基于聲道模型和語音知識的方法,是基于通常認(rèn)為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區(qū)分的原理。該方法分為兩步實現(xiàn)(a)把語音信號按時間分成離散的段,每段對應(yīng)一個或幾個語音基元的聲學(xué)特性。然后根據(jù)相應(yīng)聲學(xué)特性對每個分段給出相近的語音標(biāo)號;(b)根據(jù)第一步所得語音標(biāo)號序列得到一個語音基元網(wǎng)格,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語義同時進(jìn)行。 該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復(fù)雜,至今仍沒有達(dá)到實用的階段。(2)利用人工神經(jīng)網(wǎng)絡(luò)的方法是80年代末期提出的一種新的語音識別方法。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),它模擬了人類神經(jīng)活動的原理, 具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性,其較強(qiáng)的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由于存在訓(xùn)練、識別時間太長的缺點,該方法目前仍處于實驗探索階段。由于ANN不能很好的描述語音信號的時間動態(tài)特性,所以常把ANN與傳統(tǒng)識別方法結(jié)合,分別利用各自優(yōu)點來進(jìn)行語音識別。(3)模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實用階段。在模板匹配方法中, 要經(jīng)過四個步驟特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種動態(tài)時間規(guī)整 (DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。1)動態(tài)時間規(guī)整(DTW)語音信號的端點檢測是進(jìn)行語音識別中的一個基本步驟,它是特征訓(xùn)練和識別的基礎(chǔ)。所謂端點檢測就是在語音信號中的各種段落(如音素、音節(jié)、詞素)的始點和終點的位置,從語音信號中排除無聲段。在早期,進(jìn)行端點檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60年代日本學(xué)者Itakura提出了動態(tài)時間規(guī)整算法(DTW DynamicTimeffarping)。算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模型特征對正。2)隱馬爾可夫法(HMM)是70年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質(zhì)性的突破。HMM方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的。HMM是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型,將之看作一個數(shù)學(xué)上的雙重隨機(jī)過程一個是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機(jī)過程,另一個是與Markov鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機(jī)過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流??梢?HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。3)矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是將語音信號波形的k個樣點的每一幀,或有k個參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個矢量,然后對矢量進(jìn)行量化。 量化時,將k維無限空間劃分為M個區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書,從實際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運(yùn)算量,實現(xiàn)最大可能的平均信噪比。在實際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致可以分為兩類無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。目前幾乎所有成功的語音識別方法都是基于統(tǒng)計的、概率的或信息理論的方法。其中較具代表性的方法有上文提及的矢量量化法(VQ)和隱馬爾可夫模型法(HMM)。VQ法是由Shore和Burton首先提出的,其主要優(yōu)點是無需進(jìn)行時間規(guī)正或動態(tài)時間伸縮(DTW),缺點是需要進(jìn)行訓(xùn)練和學(xué)習(xí),在用于大詞匯量、孤立詞時需要配備大容量詞匯表。由于語音特征是時間序列,所以Burton等人又提出了分段VQ的方法,它可以看成是VQ法和DTW的統(tǒng)合。DTW也需要進(jìn)行訓(xùn)練和學(xué)習(xí),或者配備大容量詞匯表。HMM作為統(tǒng)計概率模型已經(jīng)被證明是一種很好的語音識別模型,但是這些識別方法需要的計算復(fù)雜, 數(shù)據(jù)庫龐大,對系統(tǒng)硬件的要求高,難以在便攜式設(shè)備上使用。在國內(nèi)公開文獻(xiàn)中,關(guān)于漢語語音識別軟件的開發(fā)已有一些相關(guān)報道,其中南京理工大學(xué)陳麗霞2005年在其碩士學(xué)位論文《基于聲韻母基元的漢語語音識別系統(tǒng)》中,通過研究大詞匯量漢語語音識別技術(shù),針對漢語語音識別的特點,采用聲韻母基元作為識別基元,開發(fā)了以語音識別為主要目的的語音分析系統(tǒng)。其主要工作包括以下三個部分建立基于聲韻母基元的特定人大詞匯表孤立詞漢語語音識別系統(tǒng);建立針對特定人的所有漢語音節(jié)的聲母識別系統(tǒng);建立以語音識別為主要目的的語音分析系統(tǒng),以實現(xiàn)語音的實時操作、時域分析、頻域分析以及基于聲韻母基元的漢語語音識別。該系統(tǒng)的四大功能模塊為 語音基本處理模塊、時域分析模塊、頻域分析模塊、訓(xùn)練和識別模塊。北京工業(yè)大學(xué)王彥朋2008年在其碩士學(xué)位論文的《漢語數(shù)碼語音識別系統(tǒng)設(shè)計與實現(xiàn)》中,基于語音產(chǎn)生的模型,從時域、頻域,特別是從倒譜出發(fā),對語音信號進(jìn)行分析, 并結(jié)合模式識別的理論,進(jìn)行了基于模板匹配法的孤立詞、特定人語音識別系統(tǒng)研究,介紹了一個基于DSP的硬件,漢語數(shù)碼語音識別系統(tǒng)的設(shè)計與實現(xiàn)。對信號進(jìn)行動態(tài)時域分析,正如本領(lǐng)域技術(shù)人員所公知的,包絡(luò)線檢波處理技術(shù)常用于無線電技術(shù)領(lǐng)域,上升時間(速率)和過沖及超調(diào)量的計算均為自動控制領(lǐng)域的常用方法,但是,未見有其應(yīng)用于語音識別的文獻(xiàn)及報道。
發(fā)明內(nèi)容
本發(fā)明的目的,即在于提供一種不需要在使用前對特定人聲進(jìn)行學(xué)習(xí)、能識別出非特定人的漢語語音單字及句子的漢語語音識別方法。針對現(xiàn)有技術(shù)的不足,本發(fā)明漢語語音識別方法基于語音頻域特性與時域特性相結(jié)合,能識別出漢語語音聲母、韻母、聲調(diào), 在進(jìn)一步進(jìn)行拼音整合后,即可輸出漢語單字拼音,進(jìn)而形成漢語句子的拼音序列。本發(fā)明漢語語音識別方法,具體包括以下步驟(1)漢語語音由拾音器輸入,進(jìn)行A/D轉(zhuǎn)換后生成數(shù)字語音信號序列;(2)音節(jié)界定音節(jié)是聽覺感覺可以區(qū)分清楚的語音的基本單位,漢語中一般一個漢字就是一個音節(jié),每個音節(jié)由聲母、韻母和聲調(diào)三個部分組成。通過對采集得到的漢語數(shù)字語音信號序列進(jìn)行分析,不難發(fā)現(xiàn)通常,說話時各音節(jié)間存在明顯的信號停頓或突變,這就為音節(jié)界定提供了條件。此外,由于識別時,拾音器會在無人聲或只有背景噪聲時也采集信號,因此還要把無用信號依據(jù)信號強(qiáng)弱和有無周期性規(guī)律按時段與有用信號劃分出來。音節(jié)界定的方法是先將前述獲得的數(shù)字語音信號序列中無周期性規(guī)律的信號及背景噪聲信號去除,再根據(jù)各音節(jié)間存在的固有的信號停頓或突變,明確每個音節(jié)的起止, 從而獲取各單字的數(shù)字語音信號序列;(3)對各單字的數(shù)字語音信號序列進(jìn)行漢語單字拼音的識別a)識別所需相關(guān)參數(shù)的提取對該單字的數(shù)字語音信號序列提取包絡(luò)線并波形進(jìn)行分析,包括計算其上升時間及超調(diào)量,以及,標(biāo)定出該單字的數(shù)字語音信號序列基頻穩(wěn)定階段的起點和終點;以波形兩個峰點之間計為一個周期,對該基頻穩(wěn)定階段的波形進(jìn)行周期界定,并計算出各個周期的基波頻率;及,標(biāo)定出該單字的數(shù)字語音信號序列的前端信息段;所述前端信息段指從該段數(shù)字語音信號序列的信號截取起點到基頻穩(wěn)定階段起點之間的信號區(qū)段;聲調(diào)識別依據(jù)該單字的數(shù)字語音信號序列中周期變化的各信號時段的基波頻率的變化特征識別出該音節(jié)的聲調(diào);聲母識別對該單字的數(shù)字語音信號序列的前端信息段進(jìn)行波形動態(tài)時域分析, 根據(jù)分析得到的包括有包絡(luò)線瞬態(tài)響應(yīng)的上升時間長短及超調(diào)量大小在內(nèi)的參數(shù),結(jié)合經(jīng)驗數(shù)據(jù),識別出聲母;韻母識別用該單字的數(shù)字語音信號序列中除所述前端信息段外的余下信息段作為韻母識別處理的信息源;根據(jù)該信息段的基波數(shù)據(jù)分析出該信息段各周期變化時段的幅頻特性;以該幅頻特性的帶寬及矩形系數(shù)分別與韻母發(fā)音時共鳴腔的體積大小及張緊程度相對應(yīng),與收集統(tǒng)計得到的各韻母發(fā)音時共鳴腔體積大小及張緊程度的經(jīng)驗數(shù)值進(jìn)行比對,即可識別出該韻母。本發(fā)明人在測試中通過對數(shù)字語音信號序列進(jìn)行分析,發(fā)現(xiàn)韻母發(fā)音時共鳴腔的體積大小及張緊程度與相應(yīng)的數(shù)字語音信號序列的幅頻特性的帶寬及矩形系數(shù)存在相對簡單的對應(yīng)關(guān)系共鳴腔(口腔和咽)體積大時,對應(yīng)的數(shù)字語音信號序列的幅頻特性帶寬大;共鳴腔的肌肉較為緊張時,對應(yīng)的數(shù)字語音信號序列的幅頻特性矩形系數(shù)較大。由于 a,o,e等各韻母發(fā)音時,共鳴腔的形狀及張緊程度存在明顯不同,所以可以根據(jù)共鳴腔的選頻曲線,結(jié)合經(jīng)驗數(shù)據(jù)反推出具體發(fā)出的是哪個音。例如,帶寬比較窄時(例如小于440HZ 時),表明共鳴腔較小,可能發(fā)音為i、U、或U,通過與收集統(tǒng)計得到的各韻母發(fā)音時共鳴腔的實際數(shù)值比較,挑選最接近的一個,就可推斷識別出該韻母;c)將上述識別出的漢語語音聲母、韻母、聲調(diào)進(jìn)行整合,輸出漢語單字拼音;(4)將識別出的各漢語單字拼音按時間順序進(jìn)行組合,即形成漢語句子的拼音序列。進(jìn)一步地,所述聲調(diào)識別的方法步驟可設(shè)計為若本單字的數(shù)字語音信號序列中周期變化的各信號時段的基波頻率保持穩(wěn)定,則聲調(diào)為第一聲;若為連續(xù)上升,則聲調(diào)為第二聲;若為先降后升,則聲調(diào)為第三聲;若為下降,則聲調(diào)為第四聲。進(jìn)一步地,所述聲母識別的方法步驟可設(shè)計為(1)標(biāo)定出氣聲數(shù)據(jù)段在本單字的數(shù)字語音信號序列的前端信息段里,標(biāo)定出波形平穩(wěn)期的起點;該起點與本單字的數(shù)字語音信號序列的起點之間的數(shù)據(jù)段,即為氣聲數(shù)據(jù)段;測試表明,該氣聲數(shù)據(jù)段的長度與漢語單字發(fā)音的氣聲長度相對應(yīng);(2)將該氣聲數(shù)據(jù)段的時長與經(jīng)驗閾值相比較,將聲母的類型劃分為有氣聲或無氣聲兩種類型;判斷無氣聲時,轉(zhuǎn)至(3);判斷有氣聲時,轉(zhuǎn)至;(3)根據(jù)本單字的數(shù)字語音信號序列前端信息段的包絡(luò)線瞬態(tài)響應(yīng)的上升時間長短,結(jié)合經(jīng)驗數(shù)據(jù),識別出聲母為w、m、n、r或1 根據(jù)測試經(jīng)驗,上升時間從長至短依次為 m、η、w、r、1 ;(4)對該單字的數(shù)字語音信號序列的前端信息段進(jìn)行包絡(luò)檢波處理,計算其上升時間及超調(diào)量;將超調(diào)量大小與經(jīng)驗閾值相比較,分為有爆鳴聲(超調(diào)量大)或無爆鳴聲 (超調(diào)量小);判斷有爆鳴聲時,轉(zhuǎn)至(5);判斷無爆鳴聲時,轉(zhuǎn)至(6);(5)結(jié)合經(jīng)驗數(shù)據(jù),根據(jù)超調(diào)量大小識別出聲母為P、t、g或k;根據(jù)測試經(jīng)驗,超調(diào)量從大到小依次為P、t、k、g ;(6)進(jìn)行氣聲長度分析將所述氣聲數(shù)據(jù)段的長短與經(jīng)驗閾值相比較,區(qū)分出短氣聲和長氣聲判斷為短氣聲時,將所述包絡(luò)線瞬態(tài)響應(yīng)的上升時間與經(jīng)驗閾值相比較,區(qū)分出聲母為b或d ;如上升時間處于判斷閾值的臨界期時,還可以用超調(diào)量參與輔助判斷上升時間短/超調(diào)量大的為d;判斷為長氣聲時,結(jié)合經(jīng)驗數(shù)據(jù),根據(jù)氣聲長度識別出聲母為廠11、2、(3、^_、(1、1 讓、(^、或吐。根據(jù)測試經(jīng)驗,上述聲母中,氣聲長度最長的為f。同樣地,如氣聲長度處于判斷閾值的臨界期時,還可以用包絡(luò)線上升時間參與輔助判斷。上述方案中,所述幅頻特性可采用DFT算法,優(yōu)選采用自適應(yīng)DFT算法分析得到。 DFT算法和公式在所有信號處理類教科書中都有重點闡述,但由于在保證精度的前提下,計算量巨大,在實際使用中幾乎無應(yīng)用價值。目前的頻譜分析都用60年代派生出的碟形運(yùn)算 FFT(快速傅里葉)算法。不過,本發(fā)明人在本項目對特定信號(人聲)分析時發(fā)現(xiàn)結(jié)合自適應(yīng)調(diào)節(jié)等效采樣速率的前提下,DFT的計算量反而遠(yuǎn)小于FFT。而且,采用自適應(yīng)DFT 算法,除了可以達(dá)到自適應(yīng)調(diào)節(jié)等效采樣速率,還可實現(xiàn)動態(tài)改變NT值,避免柵欄效應(yīng),降低泄漏,提高頻譜分析的精度。自適應(yīng)DFT算法應(yīng)用于韻母識別時的方法步驟可設(shè)計為(1)從該單字的數(shù)字語音信號序列中除所述前端信息段外的余下信息段的語音數(shù)字序列中連續(xù)截取出時長為T的若干段數(shù)據(jù),統(tǒng)計獲得每一段所包含的數(shù)據(jù)個數(shù)N后,自適
權(quán)利要求
1.漢語語音識別方法,其特征在于,包括以下步驟(1)漢語語音由拾音器輸入,進(jìn)行A/D轉(zhuǎn)換后生成數(shù)字語音信號序列;(2)音節(jié)界定先將前述獲得的數(shù)字語音信號序列中無周期性規(guī)律的信號及背景噪聲信號去除,再根據(jù)各音節(jié)間存在的固有的信號停頓或突變,明確每個音節(jié)的起止,從而獲取各單字的數(shù)字語音信號序列;(3)對各單字的數(shù)字語音信號序列進(jìn)行漢語單字拼音的識別a)識別所需相關(guān)參數(shù)的提取對該單字的數(shù)字語音信號序列提取包絡(luò)線并進(jìn)行波形分析,包括計算其上升時間及超調(diào)量,以及,標(biāo)定出該單字的數(shù)字語音信號序列基頻穩(wěn)定階段的起點和終點;以波形兩個峰點之間計為一個周期,對該基頻穩(wěn)定階段的波形進(jìn)行周期界定,并計算出各個周期的基波頻率;及,標(biāo)定出該單字的數(shù)字語音信號序列的前端信息段;所述前端信息段,是指從該段數(shù)字語音信號序列的信號截取起點到基頻穩(wěn)定階段起點之間的信號區(qū)段;聲調(diào)識別依據(jù)該單字的數(shù)字語音信號序列中周期變化的各信號時段的基波頻率的變化特征識別出該音節(jié)的聲調(diào);聲母識別對該單字的數(shù)字語音信號序列的前端信息段進(jìn)行波形動態(tài)時域分析,根據(jù)分析得到的包括有包絡(luò)線瞬態(tài)響應(yīng)的上升時間長短及超調(diào)量大小在內(nèi)的參數(shù),結(jié)合經(jīng)驗數(shù)據(jù),識別出聲母;韻母識別用該單字的數(shù)字語音信號序列中除所述前端信息段外的余下信息段作為韻母識別處理的信息源;根據(jù)該信息段的基波數(shù)據(jù)分析出該信息段各周期變化時段的幅頻特性;以該幅頻特性的帶寬及矩形系數(shù)分別與韻母發(fā)音時共鳴腔的體積大小及張緊程度相對應(yīng),與收集統(tǒng)計得到的各韻母發(fā)音時共鳴腔體積大小及張緊程度的經(jīng)驗數(shù)值進(jìn)行比對,即可識別出該韻母;b)將上述識別出的漢語語音聲母、韻母、聲調(diào)進(jìn)行整合,輸出漢語單字拼音;(4)將識別出的各漢語單字拼音按時間順序進(jìn)行組合,即形成漢語句子的拼音序列。
2.根據(jù)權(quán)利要求1所述的漢語語音識別方法,其特征在于,所述聲調(diào)識別的方法為 若本單字的數(shù)字語音信號序列中周期變化的各信號時段的基波頻率保持穩(wěn)定,則聲調(diào)為第一聲;若為連續(xù)上升,則聲調(diào)為第二聲; 若為先降后升,則聲調(diào)為第三聲; 若為下降,則聲調(diào)為第四聲。
3.根據(jù)權(quán)利要求1所述的漢語語音識別方法,其特征在于,所述聲母識別的方法步驟為(1)標(biāo)定出氣聲數(shù)據(jù)段在本單字的數(shù)字語音信號序列的前端信息段里,標(biāo)定出波形平穩(wěn)期的起點;該起點與本單字的數(shù)字語音信號序列的起點之間的數(shù)據(jù)段,即為氣聲數(shù)據(jù)段;(2)將該氣聲數(shù)據(jù)段的時長與經(jīng)驗閾值相比較,將聲母的類型劃分為有氣聲或無氣聲兩種類型;判斷無氣聲時,轉(zhuǎn)至(3);判斷有氣聲時,轉(zhuǎn)至;(3)根據(jù)本單字的數(shù)字語音信號序列前端信息段的包絡(luò)線瞬態(tài)響應(yīng)的上升時間長短, 結(jié)合經(jīng)驗數(shù)據(jù),識別出聲母為w、m、n、r或1 ;(4)對該單字的數(shù)字語音信號序列的前端信息段進(jìn)行包絡(luò)檢波處理,計算其上升時間及超調(diào)量;將超調(diào)量大小與經(jīng)驗閾值相比較,判斷是否存在爆鳴聲;判斷有爆鳴聲時,轉(zhuǎn)至 (5);判斷無爆鳴聲時,轉(zhuǎn)至(6);(5)結(jié)合經(jīng)驗數(shù)據(jù),根據(jù)超調(diào)量大小識別出聲母為p、t、g或k;(6)進(jìn)行氣聲長度分析將所述氣聲數(shù)據(jù)段的長短與經(jīng)驗閾值相比較,區(qū)分出短氣聲和長氣聲判斷為短氣聲時,將所述包絡(luò)線瞬態(tài)響應(yīng)的上升時間與經(jīng)驗閾值相比較,區(qū)分出聲母為b或d;判斷為長氣聲時,結(jié)合經(jīng)驗數(shù)據(jù),根據(jù)氣聲長度識別出聲母為f、h、z、c、s、j、q、χ、zh、 ch、或 sh0
4.根據(jù)權(quán)利要求1所述的漢語語音識別方法,其特征在于所述幅頻特性,采用DFT算法分析得到。
5.根據(jù)權(quán)利要求4所述的漢語語音識別方法,其特征在于,所述幅頻特性采用自適應(yīng) DFT算法分析獲得,其方法包括有如下步驟(1)從該單字的數(shù)字語音信號序列中除所述前端信息段外的余下信息段的語音數(shù)字序列中連續(xù)截取出時長為T的若干段數(shù)據(jù),統(tǒng)計獲得每一段所包含的數(shù)據(jù)個數(shù)N后,自適應(yīng)動2[ 2k it態(tài)生成對應(yīng)的若干個Sin(——)及Cos(—-)表;其中,τ為每一段的基波周期;k = 0,NN1,2,…,N;N為自然數(shù);(2)結(jié)合上表及前文分析得出的對應(yīng)時段的基波頻率,通過進(jìn)行DFT分析,計算出該段語音信號1 10次諧波的幅度,再以不小于諧波最大幅值_30db的所有諧波的最高頻率確定帶寬。
6.根據(jù)權(quán)利要求5所述的漢語語音識別方法,其特征在于(1)如帶寬>1040Hz時,該韻母初步界定為a ; 當(dāng)帶寬< 440Hz時,韻母為i、U、或U,并轉(zhuǎn)至(3); 帶寬在440Hz至1040Hz之間時,則為e或o,并轉(zhuǎn)至(2);(2)進(jìn)行高次諧波的DFT分析,計算出1000Hz至1500Hz所對應(yīng)的語音諧波幅度如果存在有1000Hz至1500Hz的諧波,該韻母界定為e ;(3)進(jìn)行高次諧波的DFT分析,計算出3000至3500Hz頻段的語音諧波幅度如果存在有該頻段的諧波,該韻母界定為i ;如果不存在有該頻段的諧波,則轉(zhuǎn)至;(4)進(jìn)行高次諧波的DFT分析,計算出1700至2500Hz頻段的語音諧波幅度如果存在有該頻段的諧波,該韻母界定為U ;如果不存在有該頻段的諧波,該韻母界定為U。
7.根據(jù)權(quán)利要求1至6之一所述的漢語語音識別方法,其特征在于,所述聲調(diào)識別,是采用該單字的數(shù)字語音信號序列的所有整段信號序列作為聲調(diào)識別處理信息源,或者,是采用該單字的數(shù)字語音信號序列除所述前端信息段外的余下的信息段作為聲調(diào)識別處理 fn息源ο
全文摘要
本發(fā)明公開了一種漢語語音識別方法,具體為將拾音器輸入的漢語語音進(jìn)行A/D轉(zhuǎn)換后,經(jīng)音節(jié)界定、基波分析、對漢語單字進(jìn)行聲調(diào)/韻母/聲母識別,最后將上述識別出的漢語語音聲母、韻母、聲調(diào)進(jìn)行整合,輸出漢語單字拼音序列;將識別出的各漢語單字拼音序列按順序進(jìn)行組合,即形成漢語句子的拼音序列。本漢語語音識別方法的優(yōu)點可對漢語聲、韻母進(jìn)行單音節(jié)分析;采用頻域幅頻特性分析技術(shù),漢語韻母的識別率高;不需要在使用前對特定人語音進(jìn)行學(xué)習(xí)或訓(xùn)練;能識別出漢語四個聲調(diào);能識別出非特定人的漢語語音單字和句子;采用自適應(yīng)等效采樣速率梳狀DFT頻譜分析算法,計算量小,占用存儲單元少,便于移植應(yīng)用到嵌入式設(shè)備上。
文檔編號G10L15/02GK102208186SQ201110125829
公開日2011年10月5日 申請日期2011年5月16日 優(yōu)先權(quán)日2011年5月16日
發(fā)明者唐勇明, 梁向東 申請人:南寧向明信息科技有限責(zé)任公司