一種提高語音辨識(shí)效率的方法及其語音辨識(shí)裝置的制作方法

文檔序號(hào)：2831163閱讀：258來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種提高語音辨識(shí)效率的方法及其語音辨識(shí)裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種提高語音辨識(shí)效率的方法及其語音辨識(shí)裝置，尤其涉及一種通過刪除非語音區(qū)來提升語音辨識(shí)準(zhǔn)確率的方法及裝置。
背景技術(shù)：
語音辨識(shí)最基本的定義，即"計(jì)算機(jī)能聽懂人類說話的語句或命令，而做出相對(duì)應(yīng)的工作"。也就是，如果計(jì)算機(jī)配備有"語音辨識(shí)"的功能，當(dāng)聲音通過一個(gè)轉(zhuǎn)換裝置轉(zhuǎn)換為一種語音信號(hào)輸入到一個(gè)電子裝置內(nèi)部，并加以儲(chǔ)存后，語音辨識(shí)程序便開始以你輸入的聲音樣本與事先儲(chǔ)存好的聲音樣本進(jìn)行比對(duì)的工作。語音信號(hào)比對(duì)工作完成的后，電子裝置就會(huì)輸入一個(gè)它認(rèn)為最"像"的聲音樣本序號(hào)，即可辨識(shí)剛才發(fā)出的聲音是什么含意，進(jìn)而執(zhí)行此命令。但要真正建立辨識(shí)率高的語音辨識(shí)程序組，其難度十分高。舉例而言，如要辨識(shí)十個(gè)詞匯，
那就是先把這十個(gè)字匯的聲音念入計(jì)算機(jī)中，存成十個(gè)參考樣本，辨識(shí)時(shí)，只需將接收到的語音訊號(hào)與事先記錄的十個(gè)參考樣本一一比對(duì)，找出與測(cè)試樣本最像的樣本，即可把測(cè)試樣本辨識(shí)出來。但每個(gè)使用者念入計(jì)算機(jī)的語音長度、音調(diào)、頻率都不一樣，甚至同一位使用者，盡管每次都念相同的聲音，但波形
也會(huì)不盡相同，如果在一個(gè)有雜音的環(huán)境中，那情況將更糟。因此，許多人都在研究如何解決這個(gè)難題。
對(duì)于此種問題，有人嘗試用如傅立葉轉(zhuǎn)換、倒頻譜參數(shù)等，但是結(jié)果還是不理想。
此外，準(zhǔn)確率越高的語音辨識(shí)程序組所需要的運(yùn)算量也就越大，所以就無法在以往低運(yùn)算量處理器的便攜式裝置上實(shí)現(xiàn)高準(zhǔn)確率的語音辨識(shí)。然而，目前便攜式裝置已經(jīng)十分普遍，幾乎是人人每天都會(huì)使用。鑒于以上問題本發(fā)明提出了一種運(yùn)算量低并且辨識(shí)準(zhǔn)確率高的方法以及語音辨識(shí)裝置。

發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中所提到的辨識(shí)準(zhǔn)確率低，需要處理器運(yùn)算率高而現(xiàn)有都是可攜式裝置的缺點(diǎn)，本發(fā)明提供了一種運(yùn)算量低并且辨識(shí)準(zhǔn)確率高的語音辨識(shí)方法及其語音辨識(shí)裝置。
本發(fā)明的技術(shù)解決方案本發(fā)明為一種提高語言辨識(shí)效率的方法，其特殊之處在于該方法包括以下步驟
1) 提供至少一辨識(shí)數(shù)據(jù)并在其中設(shè)置一第一特征參數(shù)；
2) 接收一語音信號(hào)；
3) 利用語音活動(dòng)檢測(cè)程序，偵測(cè)該語音信號(hào)的開始和結(jié)束的位置，從而取得第一語音波段；
4) 判別第一語音波段中的語音區(qū)及非語音區(qū)，并在該第一語音波段的語音區(qū)設(shè)置一第二特征參數(shù)，所述第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng)；
5) 利用語音活動(dòng)檢測(cè)程序，刪除第一語音波段中的非語音區(qū)從而產(chǎn)生第二語音波段；
6) 將辨識(shí)數(shù)據(jù)中的第一特征參數(shù)與第二語音波段中的第二特征參數(shù)進(jìn)行比
對(duì)，以判斷第二語音波段是否符合該辨識(shí)數(shù)據(jù)，以完成語音辨識(shí)。
上述辨識(shí)數(shù)據(jù)是已利用語音活動(dòng)檢測(cè)程序經(jīng)過刪除非語音區(qū)處理的辨識(shí)數(shù)據(jù)。
上述非語音區(qū)是指靜音或噪音。上述辨識(shí)數(shù)據(jù)、第二語音波段均是數(shù)字信號(hào)。上述辨識(shí)數(shù)據(jù)是為使用者預(yù)先錄制的語音數(shù)據(jù)或是廠商預(yù)先儲(chǔ)存于電子裝置內(nèi)的語音數(shù)據(jù)。
上述語音數(shù)據(jù)是語音指令。上述語音信號(hào)是一語音指令。
一種使用上述的提高語言辨識(shí)效率的方法的語音辨識(shí)裝置，其特殊之處在于該裝置包含用于儲(chǔ)存至少一個(gè)已經(jīng)過非語音區(qū)刪除處理的辨識(shí)數(shù)據(jù)的儲(chǔ)存單元，用于接收聲音并將聲音轉(zhuǎn)化為語音信號(hào)的接收單元，用于偵測(cè)語音信號(hào) 開始及結(jié)束的位置以取得第一語音波段、并刪除第一語音波段中的非語音區(qū)以產(chǎn)生第二語音波段，繼而比對(duì)辨識(shí)數(shù)據(jù)與第二語音波段，以判斷第二語音波段是否符合辨識(shí)數(shù)據(jù)的處理單元，以及用于判別第一語音波段中語音區(qū)和非語音
區(qū)的判別單元；接收單元接入處理單元，處理單元分別與判別單元和儲(chǔ)存單元相連。本發(fā)明具有以下優(yōu)點(diǎn)
(1) 本發(fā)明運(yùn)用了語音活動(dòng)偵測(cè)程序以決定進(jìn)行語音辨識(shí)時(shí)語音訊號(hào)開始和結(jié)束的位置，取得進(jìn)行語音辨識(shí)的第一語音波段后，例如語音段落，再進(jìn) 行二次處理，將第一語音波段段落中的非語音區(qū)(靜音或噪聲)消除后以產(chǎn)生一不具非語音區(qū)的第二語音波段，并利用多個(gè)辨識(shí)數(shù)據(jù)辨識(shí)此第二語音波段，依此提高辨識(shí)的效率。
(2) 本發(fā)明的方法中僅需處理語音的部分，這樣就可以減少系統(tǒng)的負(fù)荷程度或是不需要較高效能的微處理器(CPU)。

圖1為本發(fā)明提高語音辨識(shí)效率的方法的步驟流程圖；圖2為本發(fā)明的語音辨識(shí)裝置的實(shí)施例方塊圖；圖3為本發(fā)明的實(shí)施例示意圖一；圖4為本發(fā)明的實(shí)施例示意圖二。
附圖標(biāo)記說明20-第一語音波段，201-語音區(qū)，202-非語音區(qū)，21-開始鍵， 22-結(jié)束鍵，23-歌手辨識(shí)鍵，24-歌手選單，25-進(jìn)度條，26-第二語音波段，31-存儲(chǔ)單元，32-接收單元，33-處理單元,34-判別單元，311-辨識(shí)數(shù)據(jù)，321-語音信號(hào)，33〗-第一語音波段，332-第二語音波段。
具體實(shí)施例方式
如圖1所示，為本發(fā)明提高語音辨識(shí)效率的方法的步驟流程圖。該方法包
含以下步驟
Sll:提供至少一個(gè)辨識(shí)數(shù)據(jù)，且該辨識(shí)數(shù)據(jù)是已利用語音活動(dòng)檢測(cè)程序經(jīng) 過刪除非語音區(qū)(靜音或噪聲)處理的。這些辨識(shí)數(shù)據(jù)是為使用者預(yù)先錄制的語音數(shù)據(jù)，或是廠商預(yù)先儲(chǔ)存于電子裝置內(nèi)的語音數(shù)據(jù)；此辨識(shí)數(shù)據(jù)可為語音指令；在該辨識(shí)數(shù)據(jù)中設(shè)置第一特征參數(shù)；
S12:接收語音信號(hào)，例如使用者所輸入的語音指令；
S13:利用語音活動(dòng)偵測(cè)程序 (Voice Activity Detection, VAD)偵測(cè)該語音信號(hào)開始及結(jié)束的位置以取得第一語音波段；
S14:判別第一語音波段中的語音區(qū)及非語音區(qū)(靜音或噪聲)，并在該第一語音波段的語音區(qū)設(shè)置一第二特征參數(shù)，第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng)；
S15:利用語音活動(dòng)偵測(cè)程序 (Voice Activity Detection, VAD)將第一語音波段中的非語音區(qū)刪除以產(chǎn)生第二語音波段；
S16:比對(duì)辨識(shí)數(shù)據(jù)與第二語音波段，以判斷第二語音波段是否符合該辨識(shí) 數(shù)據(jù)，即將辨識(shí)數(shù)據(jù)中的第一特征參數(shù)與第二語音波段中的第二特征參數(shù)進(jìn)行比對(duì)，以判斷第二語音波段是否符合該辨識(shí)數(shù)據(jù)，以完成語音辨識(shí)。
若辨識(shí)數(shù)據(jù)符合第二語音波段，接著便執(zhí)行此辨識(shí)數(shù)據(jù)所對(duì)應(yīng)的指令，便可達(dá)到語音輸入指令的效果。
語音活動(dòng)偵測(cè)程序(Voice Activity Detection,簡稱VAD)的目的是為決定語音開始和結(jié)束的位置，在語音處理與辨識(shí)中，扮演一個(gè)重要的角色，如何有效運(yùn)用VAD技術(shù)將對(duì)于語音辨識(shí)效率有很大的影響。
更具體的描述，當(dāng)使用者開始發(fā)出聲音時(shí)，語音活動(dòng)偵測(cè)程序便開始將聲音錄制為語音信號(hào)，當(dāng)偵測(cè)到發(fā)聲結(jié)束后即停止錄制，如此便取得第一語音波段。其中，第一語音波段的語音區(qū)包含有第二特征參數(shù)，且當(dāng)刪除第一語音波段的非語音區(qū)便產(chǎn)生第二語音波段時(shí)，第二語音波段也保留了第一語音波段中的第二特征參數(shù)。辨識(shí)數(shù)據(jù)則包含有第一特征參數(shù)，此第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng)，故辨識(shí)用的存儲(chǔ)單元里所存的辨識(shí)數(shù)據(jù)即為第二語音波段的對(duì) 比資料。此辨識(shí)數(shù)據(jù)儲(chǔ)存于存儲(chǔ)單元中。
刪除第一語音波段的非語音區(qū)，使進(jìn)行語音辨識(shí)比對(duì)時(shí)所用的特征參數(shù)長度縮短，例如縮小需記錄的語音波段的長度，則需記錄的第二特征參數(shù)亦隨之減少，提高語音辨識(shí)的速度。正因如此，在進(jìn)行語音辨識(shí)時(shí)，將預(yù)先錄下使用者輸入的正常語音并轉(zhuǎn)換為第一語音波段，再將第一語音波段中的非語音區(qū) 刪除以產(chǎn)生第二語音波段，接著才將第二語音波段與存儲(chǔ)單元內(nèi)的辨識(shí)數(shù)據(jù)做比對(duì)，當(dāng)辨識(shí)數(shù)據(jù)中第一特征參數(shù)與第二語音波段中的第二特征參數(shù)相對(duì)應(yīng)時(shí)，即可判別第二語音波段為何，則表示完成辨識(shí)。通過這種方法來提高辨識(shí)的精確性以及減少程序資源的使用。
第二語音波段也可轉(zhuǎn)換為一數(shù)位信號(hào)并與儲(chǔ)存于存儲(chǔ)單元中的辨識(shí)數(shù)據(jù)相對(duì)應(yīng)，其中，將聲音轉(zhuǎn)換為語音信號(hào)或?qū)⒌诙Z音波段轉(zhuǎn)換為數(shù)位信號(hào)的技術(shù) 為已知技術(shù)，其為本領(lǐng)域的技術(shù)人員所熟知，故在此不再多加闡述。參見圖2，語音辨識(shí)裝置是包含存儲(chǔ)單元31、接收單元32、處理單元33 及判別單元34。存儲(chǔ)單元31是用于儲(chǔ)存至少一個(gè)辨識(shí)數(shù)據(jù)311，此辨識(shí)數(shù)據(jù) 311是已經(jīng)過非語音區(qū)刪除處理，接收單元32是用以接收聲音并將其轉(zhuǎn)化為語音信號(hào)321，接收單元32可為麥克風(fēng)或聲音接收耳。處理單元33是偵測(cè)語音信號(hào)321開始及結(jié)束的位置以取得第一語音波段331，判別單元33是判別第一語音波段331的語音區(qū)及非語音區(qū)，接著處理單元32是刪除第一語音波段331的非語音區(qū)以產(chǎn)生第二語音波段332，并比對(duì)辨識(shí)數(shù)據(jù)311與第二語音波段332，以判斷第二語音波段332是否符合辨識(shí)數(shù)據(jù)311。第一語音波段 331的語音區(qū)包含第二特征參數(shù)，且當(dāng)刪除第一語音波段331的非語音區(qū)以產(chǎn) 生的第二語音波段332時(shí)，第二語音波段332也保留了第一語音波段331中的第二特征參數(shù)。辨識(shí)數(shù)據(jù)311則包含有第一特征參數(shù)，此第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng)，故辨識(shí)用的數(shù)據(jù)庫31里所存的辨識(shí)數(shù)據(jù)311即為第二語音波段332的對(duì)比資料。刪除第一語音波段331的非語音區(qū)，使進(jìn)行語音辨識(shí)比對(duì)時(shí)所用的特征參數(shù)長度縮短，例如縮小需記錄的語音波段的長度，則需記錄的第二特征參數(shù)亦隨之減少，提高語音辨識(shí)的速度。
處理單元33是利用語音活動(dòng)偵測(cè)程序偵測(cè)語音信號(hào)321開始及結(jié)束的位置并刪除其非語音區(qū)的波段。第二語音波段332也可轉(zhuǎn)換為一位數(shù)信號(hào)與儲(chǔ)存于存儲(chǔ)單元31中的辨識(shí)數(shù)據(jù)311相對(duì)應(yīng)。
圖3中，語音辨識(shí)裝置提供語音辨識(shí)接口給使用者，當(dāng)使用者按下開始鍵 21，聲音接收端便接收使用者發(fā)出的聲音并轉(zhuǎn)換為語音信號(hào)，然后利用語音活動(dòng)偵測(cè)程序(Voice Activity Detection,簡稱VAD)偵測(cè)語音信號(hào)開始及結(jié)束的位置以取得第一語音波段20，此第一語音波段20包含有第二特征參數(shù)，隨后判別第一語音波段20的語音區(qū)201及非語音區(qū)202。
圖4中，利用VAD技術(shù)將非語音區(qū)202予以刪除，則取得第二語音波段 26，此第二語音波段26是刪除了第一語音波段20的非語音區(qū)202，只保留了第一語音波段20的語音區(qū)201，故此第二語音波段26亦保留了第一語音波段20的語音區(qū)201的第二特征參數(shù)，這種方法可以減少語音辨識(shí)裝置需處理的信號(hào)長度。
語音辨識(shí)裝置是依據(jù)存儲(chǔ)單元中至少一個(gè)辨識(shí)數(shù)據(jù)來辨識(shí)第二語音波段26，且此些辨識(shí)數(shù)據(jù)包含有第一特征參數(shù)，且此辨識(shí)數(shù)據(jù)是已經(jīng)過非語音區(qū)刪除處理的。更具體的說，因第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng)，故這些識(shí)別資料可視為第二語音波段的對(duì)應(yīng)資料，另一方面，刪除第一語音波段20的非語音區(qū)202，使進(jìn)行語音辨識(shí)比對(duì)時(shí)所用的特征參數(shù)長度縮短，例如縮小需
記錄的語音波段的長度，則需記錄的第二特征參數(shù)亦隨之減少。
在進(jìn)行語音辨識(shí)時(shí)，預(yù)先錄下使用者輸入的正常語音，并轉(zhuǎn)換為第一語音
波段20，再將第一語音波段20中的非語音區(qū)刪除以產(chǎn)生第二語音波段26，接著才將第二語音波段26與存儲(chǔ)單元內(nèi)的辨識(shí)數(shù)據(jù)做比對(duì)，當(dāng)?shù)诙卣鲄?shù)與第二語音波段26中的第一特征參數(shù)相對(duì)應(yīng)時(shí)，即可判別第二語音波段為何，完成辨識(shí)。通過此方法可以提高辨識(shí)的精確性以及減少程序資源的浪費(fèi)。
請(qǐng)注意，特征參數(shù)的定義方法系為本領(lǐng)域工作者所熟知，故在此不在贅述。第二語音波段26亦可轉(zhuǎn)換為一數(shù)位訊號(hào)與儲(chǔ)存于數(shù)據(jù)庫中的辨識(shí)數(shù)據(jù)相對(duì) 應(yīng)，其中，將聲音轉(zhuǎn)換為語音信號(hào)或?qū)⒌诙Z音波段26轉(zhuǎn)換為數(shù)位的技術(shù)系為已知技藝，其系為本領(lǐng)域者所熟知，故在此不再多加闡述。
其中，如使用者欲在語音辨識(shí)過程中執(zhí)行其它指令，語音辨識(shí)接口還提供結(jié)束鍵22以供使用者終止語音辨識(shí)的動(dòng)作，更甚者，語音辨識(shí)接口也包含一進(jìn)度條25以供使用者了解語音辨識(shí)的進(jìn)度。另外，使用者進(jìn)行歌手點(diǎn)歌時(shí)，可點(diǎn)選本語音辨識(shí)接口中的歌手辨識(shí)鍵，由使用者輸入語音信號(hào)(如歌手名稱)，語音辨識(shí)裝置將辨識(shí)相對(duì)應(yīng)較符合的歌手候選名單24給使用者選擇決定。
權(quán)利要求
1、一種提高語言辨識(shí)效率的方法，其特征在于該方法包括以下步驟1)提供至少一辨識(shí)數(shù)據(jù)并在其中設(shè)置一第一特征參數(shù)；2)接收一語音信號(hào)；3)利用語音活動(dòng)檢測(cè)程序，偵測(cè)該語音信號(hào)的開始和結(jié)束的位置，從而取得第一語音波段；4)判別第一語音波段中的語音區(qū)及非語音區(qū)，并在該第一語音波段的語音區(qū)設(shè)置一第二特征參數(shù)，所述第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng)；5)利用語音活動(dòng)檢測(cè)程序，刪除第一語音波段中的非語音區(qū)從而產(chǎn)生第二語音波段；6)將辨識(shí)數(shù)據(jù)中的第一特征參數(shù)與第二語音波段中的第二特征參數(shù)進(jìn)行比對(duì)，以判斷第二語音波段是否符合該辨識(shí)數(shù)據(jù)，以完成語音辨識(shí)。
2、根據(jù)權(quán)利要求1所述的提高語言辨識(shí)效率的方法，其特征在于所述辨識(shí)數(shù)據(jù)是已利用語音活動(dòng)檢測(cè)程序經(jīng)過刪除非語音區(qū)處理的辨識(shí)數(shù)據(jù)。
3、根據(jù)權(quán)利要求1所述的提高語言辨識(shí)效率的方法，其特征在于所述非語音區(qū)是指靜音或噪音。
4、根據(jù)權(quán)利要求1所述的提高語言辨識(shí)效率的方法，其特征在于所述辨識(shí)數(shù)據(jù)、第二語音波段均是數(shù)字信號(hào)。
5、根據(jù)權(quán)利要求1所述的提高語言辨識(shí)效率的方法，其特征在于所述辨識(shí)數(shù)據(jù)是為使用者預(yù)先錄制的語音數(shù)據(jù)或是廠商預(yù)先儲(chǔ)存于電子裝置內(nèi)的語音數(shù)據(jù)。
6、根據(jù)權(quán)利要求5所述的提高語言辨識(shí)效率的方法，其特征在于所述語音數(shù)據(jù)是語音指令。
7、根據(jù)權(quán)利要求1所述的提高語言辨識(shí)效率的方法，其特征在于所述語音信號(hào)是一語音指令。
8、一種使用權(quán)利要求1所述的提高語言辨識(shí)效率的方法的語音辨識(shí)裝置，其特征在于該裝置包含用于儲(chǔ)存至少一個(gè)已經(jīng)過非語音區(qū)刪除處理的辨識(shí)數(shù) 據(jù)的儲(chǔ)存單元，用于接收聲音并將聲音轉(zhuǎn)化為語音信號(hào)的接收單元，用于偵測(cè)語音信號(hào)開始及結(jié)束的位置以取得第一語音波段、并刪除第一語音波段中的非語音區(qū)以產(chǎn)生第二語音波段，繼而比對(duì)辨識(shí)數(shù)據(jù)與第二語音波段，以判斷第二語音波段是否符合辨識(shí)數(shù)據(jù)的處理單元，以及用于判別第一語音波段中語音區(qū) 和非語音區(qū)的判別單元；所述接收單元接入處理單元，所述處理單元分別與判別單元和儲(chǔ)存單元相連。
全文摘要
本發(fā)明涉及一種提高語言辨識(shí)效率的方法及其語音辨識(shí)裝置，包括步驟1)提供至少一辨識(shí)數(shù)據(jù)并在其中設(shè)置一第一特征參數(shù)；2)接收一語音信號(hào)；3)利用語音活動(dòng)檢測(cè)程序，偵測(cè)該語音信號(hào)的開始和結(jié)束的位置，從而取得第一語音波段；4)判別第一語音波段中的語音區(qū)及非語音區(qū)，并在該第一語音波段的語音區(qū)設(shè)置一第二特征參數(shù)，所述第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng)；5)利用語音活動(dòng)檢測(cè)程序，刪除第一語音波段中的非語音區(qū)從而產(chǎn)生第二語音波段；6)將辨識(shí)數(shù)據(jù)中的第一特征參數(shù)與第二語音波段中的第二特征參數(shù)進(jìn)行比對(duì)，以判斷第二語音波段是否符合該辨識(shí)數(shù)據(jù)，完成語音辨識(shí)。本發(fā)明運(yùn)算量低并且辨識(shí)準(zhǔn)確率高。
文檔編號(hào)G10L15/20GK101419797SQ200810232600
公開日2009年4月29日申請(qǐng)日期2008年12月5日優(yōu)先權(quán)日2008年12月5日
發(fā)明者趙仁宏申請(qǐng)人:無敵科技(西安)有限公司

完整全部詳細(xì)技術(shù)資料下載