本發(fā)明涉及語音技術(shù)領(lǐng)域,尤其是指一種語音識別系統(tǒng)。
背景技術(shù):
語音識別是一門交叉學科。近二十年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。語音識別聽寫機在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機發(fā)展十件大事之一。很多專家都認為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。
語音識別技術(shù),也被稱為自動語音識別(英語:Automatic Speech Recognition,ASR),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與用戶識別及用戶確認不同,后者嘗試識別或確認發(fā)出語音的用戶而非其中所包含的詞匯內(nèi)容。
語音識別技術(shù)的應(yīng)用包括語音撥號、語音導航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復雜的應(yīng)用,例如語音到語音的翻譯。
語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。
語音識別包含用戶識別和用戶語義識別兩種,前者利用的是語音信號中用戶的個性特征,不考慮包含在語音中的字詞的含義,強調(diào)的是用戶的個性;而后者的目的是識別出語音信號中的語義內(nèi)容,并不考慮用戶的個性,強調(diào)的是語音的共性;同時對于具體用戶的實際語意沒有進行考慮。
然而現(xiàn)有技術(shù)識別用戶的技術(shù)可靠性不高,因此使得采用具有特定語意的用戶語音產(chǎn)品不能被廣泛應(yīng)用。
技術(shù)實現(xiàn)要素:
為了解決上述技術(shù)問題,本發(fā)明提供一種語音識別系統(tǒng)。
本發(fā)明是以如下技術(shù)方案實現(xiàn)的,一種語音識別系統(tǒng),包括:
語音采集模塊,用于收集用戶待識別的語音數(shù)據(jù);
預處理模塊,用于對所述待識別的語音數(shù)據(jù)進行預處理;
特征提取模塊,用于從預處理后的所述待識別的語音數(shù)據(jù)中提取語音特征參數(shù);
存儲模塊,用于存儲至少一個用戶的語音模型;
模式匹配模塊,基于提取所述語音特征參數(shù),并且選擇對應(yīng)于所述語音特征參數(shù)的語音模型;
參數(shù)調(diào)整模塊,用于通過使用所選擇的所述模式匹配模塊來調(diào)整語音參數(shù),所述語音參數(shù)是用于識別所述待識別的語音數(shù)據(jù)的語音指令和語意;
語音指令識別模塊,用于基于調(diào)整的所述語音參數(shù)來識別所述用戶的所述語音指令;
語意識別模塊,用于基于調(diào)整的所述語音參數(shù)來識別所述用戶的所述語意。
優(yōu)選的是,所述預處理模塊包括模數(shù)轉(zhuǎn)換單元、信號放大單元、增益控制單元、降噪單元、濾波單元和采樣單元,用于依次對所述待識別的語音數(shù)據(jù)進行將采集到的模擬語音數(shù)據(jù)轉(zhuǎn)換為數(shù)字語音數(shù)據(jù)、數(shù)字語音數(shù)據(jù)進行放大、校正所述數(shù)字語音數(shù)據(jù)的增益、消除所述數(shù)字語音數(shù)據(jù)中的噪聲、對所述所述數(shù)字語音數(shù)據(jù)進行濾波和采樣;其中,語音信號具有相關(guān)性,而背景噪聲則無相關(guān)性,因而利用相關(guān)性的不同,可以檢測出語音,尤其是可以將清音從噪聲中檢測出來。
優(yōu)選的是,所述預處理模塊還包括編碼單元,用于對采樣的數(shù)字語音數(shù)據(jù)進行格式轉(zhuǎn)換及編碼,使其被分割為由多幀組合而成的短時信號;其中,語音短時信號中包含有激勵源和聲道的特性,因而可以反映用戶生理上的差別。而短時信號隨時間變化,又在一定程度上反映了用戶的發(fā)音習慣,因此,由語音短時信號中導出的參數(shù)可以有效地用于用戶識別中。
優(yōu)選的是,所述預處理模塊還包括端點檢測單元,用于計算進行格式轉(zhuǎn)換及編碼后的所述待識別的語音數(shù)據(jù)的語音起點和終點,獲得所述待識別的語音數(shù)據(jù)中語音的時域范圍。
優(yōu)選的是,所述特征提取模塊通過從編碼后的所述待識別的語音數(shù)據(jù)中提取頻率倒譜系數(shù)MFCC特征,來提取所述語音特征參數(shù)。
優(yōu)選的是,所述語意識別模塊包括儲存單元、識別單元和選擇單元,所述儲存單元儲存不同語音情感的語意;所述識別單元基于調(diào)整的所述語音參數(shù)來識別所述語調(diào),并通過選擇單元選取所述儲存單元中的語意。
優(yōu)選的是,所述模式匹配模塊利用高斯混合模型,使用最大后驗概率算法MAP將所提取的所述語音特征參數(shù)與所述語音模型進行匹配,計算所述待識別語音信號與每一個所述語音模型的似然度,來選擇對應(yīng)于所述語音特征參數(shù)的語音模型。
本發(fā)明的有益效果是:從語音的產(chǎn)生原理開始分析語音的特性,并使用MFCC參數(shù),來提取所述語音特征參數(shù),進而建立用戶的語音模型并識別用戶的實際語意。
附圖說明
圖1是本發(fā)明語音識別系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進一步地詳細描述。
如圖1所示,本發(fā)明是以如下技術(shù)方案實現(xiàn)的,一種語音識別系統(tǒng),包括:
語音采集模塊,用于收集用戶待識別的語音數(shù)據(jù);
預處理模塊,用于對所述待識別的語音數(shù)據(jù)進行預處理;
特征提取模塊,用于從預處理后的所述待識別的語音數(shù)據(jù)中提取語音特征參數(shù);
存儲模塊,用于存儲至少一個用戶的語音模型;
模式匹配模塊,基于提取所述語音特征參數(shù),并且選擇對應(yīng)于所述語音特征參數(shù)的語音模型;
參數(shù)調(diào)整模塊,用于通過使用所選擇的所述模式匹配模塊來調(diào)整語音參數(shù),所述語音參數(shù)是用于識別所述待識別的語音數(shù)據(jù)的語音指令和語意;
語音指令識別模塊,用于基于調(diào)整的所述語音參數(shù)來識別所述用戶的所述語音指令;
語意識別模塊,用于基于調(diào)整的所述語音參數(shù)來識別所述用戶的所述語意。
優(yōu)選的是,所述預處理模塊包括模數(shù)轉(zhuǎn)換單元、信號放大單元、增益控制單元、降噪單元、濾波單元和采樣單元,用于依次對所述待識別的語音數(shù)據(jù)進行將采集到的模擬語音數(shù)據(jù)轉(zhuǎn)換為數(shù)字語音數(shù)據(jù)、數(shù)字語音數(shù)據(jù)進行放大、校正所述數(shù)字語音數(shù)據(jù)的增益、消除所述數(shù)字語音數(shù)據(jù)中的噪聲、對所述所述數(shù)字語音數(shù)據(jù)進行濾波和采樣;其中,語音信號具有相關(guān)性,而背景噪聲則無相關(guān)性,因而利用相關(guān)性的不同,可以檢測出語音,尤其是可以將清音從噪聲中檢測出來。
優(yōu)選的是,所述預處理模塊還包括編碼單元,用于對采樣的數(shù)字語音數(shù)據(jù)進行格式轉(zhuǎn)換及編碼,使其被分割為由多幀組合而成的短時信號;其中,語音短時信號中包含有激勵源和聲道的特性,因而可以反映用戶生理上的差別。而短時信號隨時間變化,又在一定程度上反映了用戶的發(fā)音習慣,因此,由語音短時信號中導出的參數(shù)可以有效地用于用戶識別中。
優(yōu)選的是,所述預處理模塊還包括端點檢測單元,用于計算進行格式轉(zhuǎn)換及編碼后的所述待識別的語音數(shù)據(jù)的語音起點和終點,獲得所述待識別的語音數(shù)據(jù)中語音的時域范圍。
優(yōu)選的是,所述特征提取模塊通過從編碼后的所述待識別的語音數(shù)據(jù)中提取頻率倒譜系數(shù)MFCC特征,來提取所述語音特征參數(shù)。
優(yōu)選的是,所述語意識別模塊包括儲存單元、識別單元和選擇單元,所述儲存單元儲存不同語音情感的語意;所述識別單元基于調(diào)整的所述語音參數(shù)來識別所述語調(diào),并通過選擇單元選取所述儲存單元中的語意。
優(yōu)選的是,所述模式匹配模塊利用高斯混合模型,使用最大后驗概率算法MAP將所提取的所述語音特征參數(shù)與所述語音模型進行匹配,計算所述待識別語音信號與每一個所述語音模型的似然度,來選擇對應(yīng)于所述語音特征參數(shù)的語音模型。
以上所揭露的僅為本發(fā)明較佳實施例而已,當然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。