一種語音識別系統(tǒng)的制作方法

文檔序號：12475879閱讀：235來源：國知局

本發(fā)明涉及語音技術(shù)領(lǐng)域，尤其是指一種語音識別系統(tǒng)。

背景技術(shù)：

語音識別是一門交叉學科。近二十年來，語音識別技術(shù)取得顯著進步，開始從實驗室走向市場。人們預計，未來10年內(nèi)，語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。語音識別聽寫機在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機發(fā)展十件大事之一。很多專家都認為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。

語音識別技術(shù)，也被稱為自動語音識別(英語：Automatic Speech Recognition,ASR)，其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入，例如按鍵、二進制編碼或者字符序列。與用戶識別及用戶確認不同，后者嘗試識別或確認發(fā)出語音的用戶而非其中所包含的詞匯內(nèi)容。

語音識別技術(shù)的應(yīng)用包括語音撥號、語音導航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機器翻譯及語音合成技術(shù)相結(jié)合，可以構(gòu)建出更加復雜的應(yīng)用，例如語音到語音的翻譯。

語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

語音識別包含用戶識別和用戶語義識別兩種，前者利用的是語音信號中用戶的個性特征，不考慮包含在語音中的字詞的含義，強調(diào)的是用戶的個性；而后者的目的是識別出語音信號中的語義內(nèi)容，并不考慮用戶的個性，強調(diào)的是語音的共性；同時對于具體用戶的實際語意沒有進行考慮。

然而現(xiàn)有技術(shù)識別用戶的技術(shù)可靠性不高，因此使得采用具有特定語意的用戶語音產(chǎn)品不能被廣泛應(yīng)用。

技術(shù)實現(xiàn)要素：

為了解決上述技術(shù)問題，本發(fā)明提供一種語音識別系統(tǒng)。

本發(fā)明是以如下技術(shù)方案實現(xiàn)的，一種語音識別系統(tǒng)，包括：

語音采集模塊，用于收集用戶待識別的語音數(shù)據(jù)；

預處理模塊，用于對所述待識別的語音數(shù)據(jù)進行預處理；

特征提取模塊，用于從預處理后的所述待識別的語音數(shù)據(jù)中提取語音特征參數(shù)；

存儲模塊，用于存儲至少一個用戶的語音模型；

模式匹配模塊，基于提取所述語音特征參數(shù)，并且選擇對應(yīng)于所述語音特征參數(shù)的語音模型；

參數(shù)調(diào)整模塊，用于通過使用所選擇的所述模式匹配模塊來調(diào)整語音參數(shù)，所述語音參數(shù)是用于識別所述待識別的語音數(shù)據(jù)的語音指令和語意；

語音指令識別模塊，用于基于調(diào)整的所述語音參數(shù)來識別所述用戶的所述語音指令；

語意識別模塊，用于基于調(diào)整的所述語音參數(shù)來識別所述用戶的所述語意。

優(yōu)選的是，所述預處理模塊包括模數(shù)轉(zhuǎn)換單元、信號放大單元、增益控制單元、降噪單元、濾波單元和采樣單元，用于依次對所述待識別的語音數(shù)據(jù)進行將采集到的模擬語音數(shù)據(jù)轉(zhuǎn)換為數(shù)字語音數(shù)據(jù)、數(shù)字語音數(shù)據(jù)進行放大、校正所述數(shù)字語音數(shù)據(jù)的增益、消除所述數(shù)字語音數(shù)據(jù)中的噪聲、對所述所述數(shù)字語音數(shù)據(jù)進行濾波和采樣；其中，語音信號具有相關(guān)性，而背景噪聲則無相關(guān)性，因而利用相關(guān)性的不同，可以檢測出語音，尤其是可以將清音從噪聲中檢測出來。

優(yōu)選的是，所述預處理模塊還包括編碼單元，用于對采樣的數(shù)字語音數(shù)據(jù)進行格式轉(zhuǎn)換及編碼，使其被分割為由多幀組合而成的短時信號；其中，語音短時信號中包含有激勵源和聲道的特性，因而可以反映用戶生理上的差別。而短時信號隨時間變化，又在一定程度上反映了用戶的發(fā)音習慣，因此，由語音短時信號中導出的參數(shù)可以有效地用于用戶識別中。

優(yōu)選的是，所述預處理模塊還包括端點檢測單元，用于計算進行格式轉(zhuǎn)換及編碼后的所述待識別的語音數(shù)據(jù)的語音起點和終點，獲得所述待識別的語音數(shù)據(jù)中語音的時域范圍。

優(yōu)選的是，所述特征提取模塊通過從編碼后的所述待識別的語音數(shù)據(jù)中提取頻率倒譜系數(shù)MFCC特征，來提取所述語音特征參數(shù)。

優(yōu)選的是，所述語意識別模塊包括儲存單元、識別單元和選擇單元，所述儲存單元儲存不同語音情感的語意；所述識別單元基于調(diào)整的所述語音參數(shù)來識別所述語調(diào)，并通過選擇單元選取所述儲存單元中的語意。

優(yōu)選的是，所述模式匹配模塊利用高斯混合模型，使用最大后驗概率算法MAP將所提取的所述語音特征參數(shù)與所述語音模型進行匹配，計算所述待識別語音信號與每一個所述語音模型的似然度，來選擇對應(yīng)于所述語音特征參數(shù)的語音模型。

本發(fā)明的有益效果是：從語音的產(chǎn)生原理開始分析語音的特性，并使用MFCC參數(shù)，來提取所述語音特征參數(shù)，進而建立用戶的語音模型并識別用戶的實際語意。

附圖說明

圖1是本發(fā)明語音識別系統(tǒng)的結(jié)構(gòu)示意圖。

具體實施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合附圖對本發(fā)明作進一步地詳細描述。

如圖1所示，本發(fā)明是以如下技術(shù)方案實現(xiàn)的，一種語音識別系統(tǒng)，包括：

語音采集模塊，用于收集用戶待識別的語音數(shù)據(jù)；

預處理模塊，用于對所述待識別的語音數(shù)據(jù)進行預處理；

特征提取模塊，用于從預處理后的所述待識別的語音數(shù)據(jù)中提取語音特征參數(shù)；

存儲模塊，用于存儲至少一個用戶的語音模型；

模式匹配模塊，基于提取所述語音特征參數(shù)，并且選擇對應(yīng)于所述語音特征參數(shù)的語音模型；

語音指令識別模塊，用于基于調(diào)整的所述語音參數(shù)來識別所述用戶的所述語音指令；

語意識別模塊，用于基于調(diào)整的所述語音參數(shù)來識別所述用戶的所述語意。

優(yōu)選的是，所述特征提取模塊通過從編碼后的所述待識別的語音數(shù)據(jù)中提取頻率倒譜系數(shù)MFCC特征，來提取所述語音特征參數(shù)。

以上所揭露的僅為本發(fā)明較佳實施例而已，當然不能以此來限定本發(fā)明之權(quán)利范圍，因此依本發(fā)明權(quán)利要求所作的等同變化，仍屬本發(fā)明所涵蓋的范圍。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：斯琴高娃;尹利平;吳坤書;錢勇
技術(shù)所有人：海南職業(yè)技術(shù)學院
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音識別系統(tǒng)相關(guān)技術(shù)

ibm語音識別系統(tǒng)相關(guān)技術(shù)

智能語音識別系統(tǒng)相關(guān)技術(shù)

一個語音識別系統(tǒng)相關(guān)技術(shù)

ibm英文語音識別系統(tǒng)相關(guān)技術(shù)

法院智能語音識別系統(tǒng)相關(guān)技術(shù)

庭審智能語音識別系統(tǒng)相關(guān)技術(shù)

語音識別系統(tǒng)組成相關(guān)技術(shù)

庭審語音識別系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種語音識別系統(tǒng)的制作方法