專利名稱:一種仿人機(jī)器人的語(yǔ)音識(shí)別系統(tǒng)的制作方法
一種仿人機(jī)器人的語(yǔ)音識(shí)別系統(tǒng)技術(shù)領(lǐng)域
本發(fā)明是一種基于仿人機(jī)器人的語(yǔ)音識(shí)別系統(tǒng),用于智能機(jī)器人,也可用于智能系統(tǒng)或智能裝備,人機(jī)交互裝置等等。
背景技術(shù):
能夠用語(yǔ)音與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情,也是人類(lèi)一直以來(lái)的一個(gè)理想,就是讓各種機(jī)器能聽(tīng)懂人類(lèi)的語(yǔ)言并能按人的口頭命令來(lái)行動(dòng),從而實(shí)現(xiàn)人機(jī)的語(yǔ)言交流。隨著科學(xué)技術(shù)的不斷發(fā)展,出現(xiàn)了語(yǔ)音識(shí)別技術(shù),使人類(lèi)的這個(gè)理想逐漸得以實(shí)現(xiàn)。但是要完全實(shí)現(xiàn)這個(gè)理想還需人類(lèi)的不懈努力。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解語(yǔ)音信號(hào),并將其轉(zhuǎn)換成為相應(yīng)的文本或命令的技術(shù)。
語(yǔ)音識(shí)別是近年來(lái)十分活躍的一個(gè)研究領(lǐng)域。其應(yīng)用領(lǐng)域非常廣泛,常見(jiàn)的有語(yǔ)音輸入系統(tǒng)、語(yǔ)音控制系統(tǒng)、語(yǔ)音撥號(hào)系統(tǒng)、智能家電等等。在不遠(yuǎn)的將來(lái)語(yǔ)音識(shí)別技術(shù)有可能作為一種重要的人機(jī)交互手段,輔助甚至取代傳統(tǒng)的鍵盤(pán)、鼠標(biāo)等輸入設(shè)備,在個(gè)人計(jì)算機(jī)上進(jìn)行文字錄入和操作控制。而在手持式PDA、智能家電、工業(yè)現(xiàn)場(chǎng)控制等應(yīng)用場(chǎng)合,語(yǔ)音識(shí)別技術(shù)則有更為廣闊的發(fā)展前景。尤其是在包括PDA、手機(jī)等的掌上型嵌入式系統(tǒng)中, 鍵盤(pán)的存在已經(jīng)大大妨礙了系統(tǒng)的小型化,然而這些系統(tǒng)越來(lái)越趨向于智能化、信息化,不僅可以顯示大量的文字和圖形,還需要提供方便的文字輸入能力,傳統(tǒng)的鍵盤(pán)輸入方式已經(jīng)不能勝任,而語(yǔ)音識(shí)別技術(shù)就是一種極富潛力的替代手段。并且,語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興技術(shù)產(chǎn)業(yè)。因此研究語(yǔ)音識(shí)別技術(shù)有著廣泛的應(yīng)用價(jià)值和發(fā)展前旦-5^ O
語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。 語(yǔ)音識(shí)別技術(shù)車(chē)聯(lián)網(wǎng)也得到了充分的引用,例如在翼卡車(chē)聯(lián)網(wǎng)中,只需按一鍵通客服人員口述即可設(shè)置目的地直接導(dǎo)航,安全、便捷。但語(yǔ)音識(shí)別主要還面臨著有以下五個(gè)問(wèn)題
(I)、對(duì)自然語(yǔ)言的識(shí)別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個(gè)理解語(yǔ)義的規(guī)則;
(2)、語(yǔ)音信息量大。語(yǔ)音模式不僅對(duì)不同的說(shuō)話人不同,對(duì)同一說(shuō)話人也是不同的,例如,一個(gè)說(shuō)話人在隨意說(shuō)話和認(rèn)真說(shuō)話時(shí)的語(yǔ)音信息時(shí)不同的。一個(gè)人的說(shuō)話方式隨著時(shí)間變化;
(3)、語(yǔ)音的模糊性。說(shuō)話者在講話時(shí),不同的詞可能聽(tīng)起來(lái)是相似的。這在英語(yǔ)和漢語(yǔ)中常見(jiàn);
(4)、單個(gè)字母或詞、字的語(yǔ)音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等;
(5)、環(huán)境噪聲和干擾對(duì)語(yǔ)音識(shí)別有嚴(yán)重影響,致使識(shí)別率低。
近幾十年來(lái),很多專家、學(xué)者帶著這些問(wèn)題,不斷地研究與探索,使得語(yǔ)音識(shí)別技術(shù)得到發(fā)展。并基于語(yǔ)音識(shí)別技術(shù)構(gòu)造了各種各樣地語(yǔ)音識(shí)別系統(tǒng)。目 前語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用領(lǐng)域有電話通信的語(yǔ)音撥號(hào)、汽車(chē)的語(yǔ)音控制、工業(yè)控制及醫(yī)療領(lǐng)域、個(gè)人數(shù)字助理 (Personal Digital Assistant,PDA)、智能玩具、家電遙控等等。人們不斷的研究語(yǔ)音識(shí)別 技術(shù),是希望有一天能夠達(dá)到像人和人之間交流一樣,人和機(jī)器也能實(shí)現(xiàn)自由的對(duì)話,從而 實(shí)現(xiàn)工業(yè)生產(chǎn)的自動(dòng)化、智能化。隨著科技的發(fā)展和人們對(duì)語(yǔ)音識(shí)別理論的逐漸深入化的 研究,理論體系的日趨成熟,隨著數(shù)字信號(hào)處理技術(shù)的發(fā)展,在未來(lái)20年,語(yǔ)音識(shí)別技術(shù)將 逐漸的進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療以及各種電子設(shè)備中。可以肯定地說(shuō),語(yǔ)音識(shí) 別技術(shù)必將成為未來(lái)信息產(chǎn)業(yè)中的一項(xiàng)關(guān)鍵的技術(shù)。但是也不可否認(rèn),它還有很長(zhǎng)的一段 路需要走,要真正的商業(yè)化,還需要在多方面取得突破性的進(jìn)展,還需要借助于其它相關(guān)學(xué) 科的發(fā)展。發(fā)明內(nèi)容
本發(fā)明是一種語(yǔ)音識(shí)別系統(tǒng),主要目的是提供一種高效的、穩(wěn)定的、實(shí)用性強(qiáng)的、 高識(shí)別率的語(yǔ)音識(shí)別系統(tǒng)。
為實(shí)現(xiàn)上述目的,本發(fā)明以MATLAB為實(shí)現(xiàn)工具,結(jié)合迎賓仿人機(jī)器人平臺(tái)。搭建 好完整的語(yǔ)音識(shí)別系統(tǒng),用戶利用平臺(tái)通過(guò)麥克風(fēng)語(yǔ)音命令,輸入語(yǔ)音信號(hào)經(jīng)處理、識(shí)別, 得出結(jié)果作用于迎賓機(jī)器人的行動(dòng)動(dòng)作。測(cè)評(píng)該系統(tǒng)能否能達(dá)到期望指標(biāo),識(shí)別能力強(qiáng),正 確率高,魯棒性好的語(yǔ)音識(shí)別系統(tǒng)。
本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的,一種仿人機(jī)器人的語(yǔ)音識(shí)別系統(tǒng),包括語(yǔ)音 輸入模塊、預(yù)處理模塊、特征提取模塊、訓(xùn)練模塊、識(shí)別模塊、識(shí)別決策模塊、閾值比較模塊, 語(yǔ)音輸入模塊的輸出端與預(yù)處理模塊的輸入端連接,預(yù)處理模塊的輸出端與特征提取模塊 的輸入端連接,特征提取模塊的輸出端分別與訓(xùn)練模塊、識(shí)別模塊的輸入端連接,訓(xùn)練模塊 與識(shí)別模塊連接;識(shí)別模塊的輸出端與識(shí)別決策模塊的輸入端連接,識(shí)別決策模塊的輸出 端與閾值比較模塊的輸入端連接。
所述語(yǔ)音輸入模塊用于輸入原始語(yǔ)音信號(hào)。
所述預(yù)處理模塊包括順次連接的預(yù)濾波單元、采樣與量化單元、預(yù)加重單元、加窗 單元、端點(diǎn)檢測(cè)單元;
所述預(yù)濾波單元用于去除原始語(yǔ)音信號(hào)的高頻噪聲;
所述采樣與量化單元采樣奈奎斯特采樣定理采樣和量化去噪的模擬信號(hào),獲得數(shù) 字信號(hào);
所述預(yù)加重單元用于提升高頻部分,讓信號(hào)的頻譜變得平坦,以便參數(shù)分析;
所述加窗單元用于將信號(hào)有限化;
所述端點(diǎn)檢測(cè)單元用于檢測(cè)語(yǔ)音段的起點(diǎn)、終點(diǎn),去除不需要的靜音段,提取試劑 的語(yǔ)音信號(hào)段。
所述端點(diǎn)檢測(cè)單元采用雙門(mén)限能量法與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法。
所述特征提取模塊采用基于小波變換的混合特征參數(shù)提取算法,所述提取算法為 基于小波變換的線性預(yù)測(cè)倒譜參數(shù)和基于小波變換的Mel頻率倒譜系數(shù)。
所述訓(xùn)練模塊是通過(guò)Baum-Welch (期望值修正)算法作為隱馬爾科夫模型的訓(xùn)練 學(xué)習(xí)方法。
所述識(shí)別決策模塊是通過(guò)Viterbi (維特比)算法得到輸出概率。
所述閾值比較模塊用于將獲得的輸出概率值與設(shè)定的閾值比較,如果高于閾值則 輸出識(shí)別結(jié)果,否則丟棄該識(shí)別結(jié)果。
本發(fā)明的工作過(guò)程語(yǔ)音信號(hào)從麥克風(fēng)即語(yǔ)音輸入模塊輸入信號(hào),經(jīng)預(yù)處理模塊 預(yù)處理,預(yù)處理包括預(yù)濾波、采樣與量化、預(yù)加重、加窗及端點(diǎn)檢測(cè);預(yù)處理后對(duì)信號(hào)進(jìn)行特 征參數(shù)提取,將所提取的參數(shù)序列,建立保存成語(yǔ)音參數(shù)模板庫(kù)即訓(xùn)練模板模塊;語(yǔ)音識(shí)別 過(guò)程是語(yǔ)音從麥克風(fēng)輸入,經(jīng)過(guò)預(yù)處理、特征參數(shù)提取,將提取的特征參數(shù)與所建立的語(yǔ)音 參數(shù)模板庫(kù)進(jìn)行概率計(jì)算與匹配,匹配得出結(jié)果通過(guò)閾值比較模塊進(jìn)行閾值比較,最終得 到識(shí)別結(jié)果。
本發(fā)明中,計(jì)算概率后再進(jìn)行一次閾值比較,若高于閾值者認(rèn)為是正確識(shí)別結(jié)果, 否則,丟棄該識(shí)別結(jié)果,并提示“請(qǐng)?jiān)僬f(shuō)一遍”語(yǔ)音后重新輸入語(yǔ)音命令。閾值是一個(gè)經(jīng)驗(yàn) 值,在特定的實(shí)驗(yàn)室環(huán)境下,經(jīng)過(guò)多次實(shí)驗(yàn)而得出的值。
圖1語(yǔ)音識(shí)別系統(tǒng)框圖2語(yǔ)音信號(hào)預(yù)處理框圖3DWTM計(jì)算過(guò)程框圖。
具體實(shí)施方式
為了更好的理解本發(fā)明,下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施例作詳細(xì)說(shuō)明本實(shí)施例 在以本發(fā)明技術(shù)方案為前提下進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體操作過(guò)程,但本發(fā) 明的保護(hù)范圍不限于下述的實(shí)施例。
如圖1所示,為本發(fā)明的系統(tǒng)框圖,一種語(yǔ)音識(shí)別系統(tǒng),包括語(yǔ)音輸入模塊、預(yù)處 理模塊、特征提取模塊、訓(xùn)練模塊、識(shí)別模塊、識(shí)別決策模塊、閾值比較模塊,語(yǔ)音輸入模塊 的輸出端與預(yù)處理模塊的輸入端連接,預(yù)處理模塊的輸出端與特征提取模塊的輸入端連 接,特征提取模塊的輸出端分別與訓(xùn)練模塊、識(shí)別模塊的輸入端連接,訓(xùn)練模塊與識(shí)別模塊 連接;識(shí)別模塊的輸出端與識(shí)別決策模塊的輸入端連接,識(shí)別決策模塊的輸出端與閾值比 較模塊的輸入端連接。
所述語(yǔ)音輸入模塊用于輸入原始語(yǔ)音信號(hào)。
如圖2所示所述預(yù)處理模塊包括順次連接的預(yù)濾波單元、采樣與量化單元、預(yù)加 重單元、加窗單元、端點(diǎn)檢測(cè)單元。
預(yù)處理中,先對(duì)語(yǔ)音信號(hào)預(yù)濾波,其目的是防止混疊干擾,預(yù)濾波實(shí)際上是一個(gè)帶 通濾波器,其上下截止頻率分別為fH和fV ;再對(duì)信號(hào)進(jìn)行A/D轉(zhuǎn)換,模擬語(yǔ)音信號(hào)是連續(xù)信 號(hào),無(wú)法被計(jì)算機(jī)處理,所以語(yǔ)音信號(hào)處理的第一步,就是要將模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。 因此,必須經(jīng)過(guò)取樣和量化兩個(gè)步驟,從而語(yǔ)音信號(hào)從麥克風(fēng)錄入后,經(jīng)A/D轉(zhuǎn)換將模擬信 號(hào)轉(zhuǎn)換成數(shù)字信號(hào),再對(duì)其采樣與量化,采樣與量化是通過(guò)電腦或者其它數(shù)字錄音設(shè)備采 集的語(yǔ)音信號(hào)都已經(jīng)經(jīng)過(guò)數(shù)字化了,一般不需要用戶再進(jìn)行數(shù)字化處理。根據(jù)奈奎斯特采 樣定理fs > 2*fmax,以8000Hz的頻率采樣,分成200采樣的幀,相鄰幀有50%重疊;再對(duì)量 化后信號(hào)進(jìn)行預(yù)加重,由于語(yǔ)音信號(hào)的平均功率譜受聲門(mén)激勵(lì)和口鼻輻射的影響,高頻端 大約在800Hz以上按6dB/倍頻程跌落,為此要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析,預(yù)加重?cái)?shù)字濾波器H(Z) =1-UZ-1, u為O. 97 ;最后對(duì)信號(hào)進(jìn)行加窗,由于人自身的發(fā)音器官的運(yùn)動(dòng),語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),其特性是隨時(shí)間變化的。但是,這種物理運(yùn)動(dòng)要比聲波振動(dòng)速度緩慢得多,因此,語(yǔ)音信號(hào)常常可假定在10 20ms這樣的時(shí)間段內(nèi),語(yǔ)音信號(hào)是平穩(wěn)信號(hào),其頻譜特性和某些物理特征參量可近似地看作是不變的;本發(fā)明中采用的是漢明窗。
所述預(yù)濾波單元用于去除原始語(yǔ)音信號(hào)的高頻噪聲;去除不必要的成分,為后面信號(hào)處理做準(zhǔn)備,保證信號(hào)的質(zhì)量與速度。
所述采樣與量化單元采樣奈奎斯特采樣定理采樣和量化去噪的模擬信號(hào),獲得數(shù)字信號(hào);由于原始語(yǔ)音信號(hào)是混有高頻噪聲的模擬信號(hào),因?yàn)閷?duì)原始語(yǔ)音信號(hào)進(jìn)行去高頻噪聲和數(shù)字化處理,根據(jù)Nyquist采樣定理,用8000Hz的頻率采樣和量化,得到數(shù)字化的語(yǔ)音信號(hào)。
所述預(yù)加重單元用于提升高頻部分,讓數(shù)字信號(hào)的頻譜變得平坦,以便參數(shù)分析; 語(yǔ)音信號(hào)的平均功率受聲門(mén)激勵(lì)和口鼻輻射的影響,高頻端會(huì)出現(xiàn)跌落,為此為語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理,提升高頻部分,讓信號(hào)的頻譜變得平坦,以便參數(shù)分析。預(yù)加重?cái)?shù)字濾波器為
H(Z)=1-μ Z-1
其中,u值接近于I,在此取O. 97。
所述加窗單元用于將數(shù)字信號(hào)有限化;由于語(yǔ)音信號(hào)是一種非平衡信號(hào),其特性隨時(shí)間而變化。但是語(yǔ)音信號(hào)常??杉俣ㄔ贗Oms 20ms時(shí)間段內(nèi),可看作平穩(wěn)信號(hào),其頻譜特性也近似不變。因此對(duì)語(yǔ)音信號(hào)進(jìn)行加窗處理,將其分成苦干個(gè)短段,每個(gè)短段稱為一個(gè)分析幀。將數(shù)字化的語(yǔ)音信號(hào)分成200采樣的幀,相鄰幀有50%重疊。用漢明窗給語(yǔ)音信號(hào)加窗操作,漢明窗函數(shù)為
權(quán)利要求
1.一種語(yǔ)音識(shí)別系統(tǒng),包括語(yǔ)音輸入模塊(I)、預(yù)處理模塊(2)、特征提取模塊(3)、訓(xùn)練模塊(4)、識(shí)別模塊(5),所述語(yǔ)音輸入模塊(I)的輸出端與預(yù)處理模塊(2)的輸入端連接,預(yù)處理模塊(2)的輸出端與特征提取模塊(3)的輸入端連接,特征提取模塊(3)的輸出端分別與訓(xùn)練模塊(4)、識(shí)別模塊(5)的輸入端連接,訓(xùn)練模塊(4)與識(shí)別模塊(5)連接;其特征在于還包括識(shí)別決策模塊¢)、閾值比較模塊(7),識(shí)別模塊(5)的輸出端與識(shí)別決策模塊(6)的輸入端連接,識(shí)別決策模塊(6)的輸出端與閾值比較模塊(7)的輸入端連接。
2.根據(jù)權(quán)利要求1所述語(yǔ)音識(shí)別系統(tǒng),其特征在于所述語(yǔ)音輸入模塊(I)用于輸入原始語(yǔ)首 目號(hào)。
3.根據(jù)權(quán)利要求1所述語(yǔ)音識(shí)別系統(tǒng),其特征在于所述預(yù)處理模塊(2)包括順次連接的預(yù)濾波單元、采樣與量化單元、預(yù)加重單元、加窗單元、端點(diǎn)檢測(cè)單元;所述預(yù)濾波單元用于去除原始語(yǔ)音信號(hào)的高頻噪聲;所述采樣與量化單元采樣奈奎斯特采樣定理采樣和量化去噪的模擬信號(hào),獲得數(shù)字信號(hào);所述預(yù)加重單元用于提升高頻部分,讓信號(hào)的頻譜變得平坦,以便參數(shù)分析;所述加窗單元用于將信號(hào)有限化;所述端點(diǎn)檢測(cè)單元用于檢測(cè)語(yǔ)音段的起點(diǎn)、終點(diǎn),去除不需要的靜音段,提取試劑的語(yǔ)音信號(hào)段。
4.根據(jù)權(quán)利要求3所述語(yǔ)音識(shí)別系統(tǒng),其特征在于所述端點(diǎn)檢測(cè)單元采用雙門(mén)限能量法與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法。
5.根據(jù)權(quán)利要求1所述語(yǔ)音識(shí)別系統(tǒng),其特征在于所述特征提取模塊(3)采用基于小波變換的混合特征參數(shù)提取算法,所述提取算法為基于小波變換的線性預(yù)測(cè)倒譜參數(shù)和基于小波變換的Mel頻率倒譜系數(shù)。
6.根據(jù)權(quán)利要求1所述語(yǔ)音識(shí)別系統(tǒng),其特征在于所述訓(xùn)練模塊(4)是通過(guò) Baum-Welch算法作為隱馬爾科夫模型的訓(xùn)練學(xué)習(xí)方法。
7.根據(jù)權(quán)利要求1所述語(yǔ)音識(shí)別系統(tǒng),其特征在于所述識(shí)別決策模塊(6)是通過(guò) Viterbi算法得到輸出概率。
8.根據(jù)權(quán)利要求1所述語(yǔ)音識(shí)別系統(tǒng),其特征在于所述閾值比較模塊(7)用于將獲得的輸出概率值與設(shè)定的閾值比較,如果高于閾值則輸出識(shí)別結(jié)果,否則丟棄該識(shí)別結(jié)果。
全文摘要
本發(fā)明公開(kāi)一種語(yǔ)音識(shí)別系統(tǒng),包括語(yǔ)音輸入模塊、預(yù)處理模塊、特征提取模塊、訓(xùn)練模塊、識(shí)別模塊、識(shí)別決策模塊、閾值比較模塊,語(yǔ)音輸入模塊的輸出端與預(yù)處理模塊的輸入端連接,預(yù)處理模塊的輸出端與特征提取模塊的輸入端連接,特征提取模塊的輸出端分別與訓(xùn)練模塊、識(shí)別模塊的輸入端連接,訓(xùn)練模塊與識(shí)別模塊連接;識(shí)別模塊的輸出端與識(shí)別決策模塊的輸入端連接,識(shí)別決策模塊的輸出端與閾值比較模塊的輸入端連接。本發(fā)明采用隱馬爾科夫(HMM)模型及小波變換和神經(jīng)網(wǎng)絡(luò)技術(shù),采用閾值比較來(lái)進(jìn)一步?jīng)Q策,提高識(shí)別率。
文檔編號(hào)G10L15/14GK103065629SQ201210475180
公開(kāi)日2013年4月24日 申請(qǐng)日期2012年11月20日 優(yōu)先權(quán)日2012年11月20日
發(fā)明者劉治, 林俊潛, 徐淑瓊, 章云 申請(qǐng)人:廣東工業(yè)大學(xué)