專利名稱:一種提高語音辨識(shí)效率的方法及其語音辨識(shí)裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種提高語音辨識(shí)效率的方法及其語音辨識(shí)裝置,尤其涉及一 種通過刪除非語音區(qū)來提升語音辨識(shí)準(zhǔn)確率的方法及裝置。
背景技術(shù):
語音辨識(shí)最基本的定義,即"計(jì)算機(jī)能聽懂人類說話的語句或命令,而做出 相對(duì)應(yīng)的工作"。也就是,如果計(jì)算機(jī)配備有"語音辨識(shí)"的功能,當(dāng)聲音通過一 個(gè)轉(zhuǎn)換裝置轉(zhuǎn)換為一種語音信號(hào)輸入到一個(gè)電子裝置內(nèi)部,并加以儲(chǔ)存后,語 音辨識(shí)程序便開始以你輸入的聲音樣本與事先儲(chǔ)存好的聲音樣本進(jìn)行比對(duì)的工 作。語音信號(hào)比對(duì)工作完成的后,電子裝置就會(huì)輸入一個(gè)它認(rèn)為最"像"的聲音樣 本序號(hào),即可辨識(shí)剛才發(fā)出的聲音是什么含意,進(jìn)而執(zhí)行此命令。但要真正建 立辨識(shí)率高的語音辨識(shí)程序組,其難度十分高。舉例而言,如要辨識(shí)十個(gè)詞匯,
那就是先把這十個(gè)字匯的聲音念入計(jì)算機(jī)中,存成十個(gè)參考樣本,辨識(shí)時(shí),只 需將接收到的語音訊號(hào)與事先記錄的十個(gè)參考樣本一一比對(duì),找出與測(cè)試樣本 最像的樣本,即可把測(cè)試樣本辨識(shí)出來。但每個(gè)使用者念入計(jì)算機(jī)的語音長度、 音調(diào)、頻率都不一樣,甚至同一位使用者,盡管每次都念相同的聲音,但波形
也會(huì)不盡相同,如果在一個(gè)有雜音的環(huán)境中,那情況將更糟。因此,許多人都 在研究如何解決這個(gè)難題。
對(duì)于此種問題,有人嘗試用如傅立葉轉(zhuǎn)換、倒頻譜參數(shù)等,但是結(jié)果還是 不理想。
此外,準(zhǔn)確率越高的語音辨識(shí)程序組所需要的運(yùn)算量也就越大,所以就無 法在以往低運(yùn)算量處理器的便攜式裝置上實(shí)現(xiàn)高準(zhǔn)確率的語音辨識(shí)。然而,目 前便攜式裝置已經(jīng)十分普遍,幾乎是人人每天都會(huì)使用。鑒于以上問題本發(fā)明 提出了一種運(yùn)算量低并且辨識(shí)準(zhǔn)確率高的方法以及語音辨識(shí)裝置。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中所提到的辨識(shí)準(zhǔn)確率低,需要處理器運(yùn)算率高而現(xiàn)有 都是可攜式裝置的缺點(diǎn),本發(fā)明提供了一種運(yùn)算量低并且辨識(shí)準(zhǔn)確率高的語音辨識(shí)方法及其語音辨識(shí)裝置。
本發(fā)明的技術(shù)解決方案本發(fā)明為一種提高語言辨識(shí)效率的方法,其特殊 之處在于該方法包括以下步驟
1) 提供至少一辨識(shí)數(shù)據(jù)并在其中設(shè)置一第一特征參數(shù);
2) 接收一語音信號(hào);
3) 利用語音活動(dòng)檢測(cè)程序,偵測(cè)該語音信號(hào)的開始和結(jié)束的位置,從而取 得第一語音波段;
4) 判別第一語音波段中的語音區(qū)及非語音區(qū),并在該第一語音波段的語音 區(qū)設(shè)置一第二特征參數(shù),所述第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng);
5) 利用語音活動(dòng)檢測(cè)程序,刪除第一語音波段中的非語音區(qū)從而產(chǎn)生第二 語音波段;
6) 將辨識(shí)數(shù)據(jù)中的第一特征參數(shù)與第二語音波段中的第二特征參數(shù)進(jìn)行比
對(duì),以判斷第二語音波段是否符合該辨識(shí)數(shù)據(jù),以完成語音辨識(shí)。
上述辨識(shí)數(shù)據(jù)是已利用語音活動(dòng)檢測(cè)程序經(jīng)過刪除非語音區(qū)處理的辨識(shí)數(shù)據(jù)。
上述非語音區(qū)是指靜音或噪音。 上述辨識(shí)數(shù)據(jù)、第二語音波段均是數(shù)字信號(hào)。 上述辨識(shí)數(shù)據(jù)是為使用者預(yù)先錄制的語音數(shù)據(jù)或是廠商預(yù)先儲(chǔ)存于電子裝 置內(nèi)的語音數(shù)據(jù)。
上述語音數(shù)據(jù)是語音指令。 上述語音信號(hào)是一語音指令。
一種使用上述的提高語言辨識(shí)效率的方法的語音辨識(shí)裝置,其特殊之處在 于該裝置包含用于儲(chǔ)存至少一個(gè)已經(jīng)過非語音區(qū)刪除處理的辨識(shí)數(shù)據(jù)的儲(chǔ)存 單元,用于接收聲音并將聲音轉(zhuǎn)化為語音信號(hào)的接收單元,用于偵測(cè)語音信號(hào) 開始及結(jié)束的位置以取得第一語音波段、并刪除第一語音波段中的非語音區(qū)以 產(chǎn)生第二語音波段,繼而比對(duì)辨識(shí)數(shù)據(jù)與第二語音波段,以判斷第二語音波段 是否符合辨識(shí)數(shù)據(jù)的處理單元,以及用于判別第一語音波段中語音區(qū)和非語音
區(qū)的判別單元;接收單元接入處理單元,處理單元分別與判別單元和儲(chǔ)存單元 相連。本發(fā)明具有以下優(yōu)點(diǎn)
(1) 本發(fā)明運(yùn)用了語音活動(dòng)偵測(cè)程序以決定進(jìn)行語音辨識(shí)時(shí)語音訊號(hào)開始 和結(jié)束的位置,取得進(jìn)行語音辨識(shí)的第一語音波段后,例如語音段落,再進(jìn) 行二次處理,將第一語音波段段落中的非語音區(qū)(靜音或噪聲)消除后以產(chǎn)生 一不具非語音區(qū)的第二語音波段,并利用多個(gè)辨識(shí)數(shù)據(jù)辨識(shí)此第二語音波段, 依此提高辨識(shí)的效率。
(2) 本發(fā)明的方法中僅需處理語音的部分,這樣就可以減少系統(tǒng)的負(fù)荷程 度或是不需要較高效能的微處理器(CPU)。
圖1為本發(fā)明提高語音辨識(shí)效率的方法的步驟流程圖; 圖2為本發(fā)明的語音辨識(shí)裝置的實(shí)施例方塊圖; 圖3為本發(fā)明的實(shí)施例示意圖一; 圖4為本發(fā)明的實(shí)施例示意圖二。
附圖標(biāo)記說明20-第一語音波段,201-語音區(qū),202-非語音區(qū),21-開始鍵, 22-結(jié)束鍵,23-歌手辨識(shí)鍵,24-歌手選單,25-進(jìn)度條,26-第二語音波段,31-存儲(chǔ)單元,32-接收單元,33-處理單元,34-判別單元,311-辨識(shí)數(shù)據(jù),321-語音 信號(hào),33〗-第一語音波段,332-第二語音波段。
具體實(shí)施例方式
如圖1所示,為本發(fā)明提高語音辨識(shí)效率的方法的步驟流程圖。該方法包
含以下步驟
Sll:提供至少一個(gè)辨識(shí)數(shù)據(jù),且該辨識(shí)數(shù)據(jù)是已利用語音活動(dòng)檢測(cè)程序經(jīng) 過刪除非語音區(qū)(靜音或噪聲)處理的。這些辨識(shí)數(shù)據(jù)是為使用者預(yù)先錄制的 語音數(shù)據(jù),或是廠商預(yù)先儲(chǔ)存于電子裝置內(nèi)的語音數(shù)據(jù);此辨識(shí)數(shù)據(jù)可為語音 指令;在該辨識(shí)數(shù)據(jù)中設(shè)置第一特征參數(shù);
S12:接收語音信號(hào),例如使用者所輸入的語音指令;
S13:利用語音活動(dòng)偵測(cè)程序 (Voice Activity Detection, VAD)偵測(cè)該語音 信號(hào)開始及結(jié)束的位置以取得第一語音波段;
S14:判別第一語音波段中的語音區(qū)及非語音區(qū)(靜音或噪聲),并在該第 一語音波段的語音區(qū)設(shè)置一第二特征參數(shù),第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng);
S15:利用語音活動(dòng)偵測(cè)程序 (Voice Activity Detection, VAD)將第一語音 波段中的非語音區(qū)刪除以產(chǎn)生第二語音波段;
S16:比對(duì)辨識(shí)數(shù)據(jù)與第二語音波段,以判斷第二語音波段是否符合該辨識(shí) 數(shù)據(jù),即將辨識(shí)數(shù)據(jù)中的第一特征參數(shù)與第二語音波段中的第二特征參數(shù)進(jìn)行 比對(duì),以判斷第二語音波段是否符合該辨識(shí)數(shù)據(jù),以完成語音辨識(shí)。
若辨識(shí)數(shù)據(jù)符合第二語音波段,接著便執(zhí)行此辨識(shí)數(shù)據(jù)所對(duì)應(yīng)的指令,便 可達(dá)到語音輸入指令的效果。
語音活動(dòng)偵測(cè)程序(Voice Activity Detection,簡稱VAD)的目的是為決定語 音開始和結(jié)束的位置,在語音處理與辨識(shí)中,扮演一個(gè)重要的角色,如何有效 運(yùn)用VAD技術(shù)將對(duì)于語音辨識(shí)效率有很大的影響。
更具體的描述,當(dāng)使用者開始發(fā)出聲音時(shí),語音活動(dòng)偵測(cè)程序便開始將聲 音錄制為語音信號(hào),當(dāng)偵測(cè)到發(fā)聲結(jié)束后即停止錄制,如此便取得第一語音波 段。其中,第一語音波段的語音區(qū)包含有第二特征參數(shù),且當(dāng)刪除第一語音波 段的非語音區(qū)便產(chǎn)生第二語音波段時(shí),第二語音波段也保留了第一語音波段中 的第二特征參數(shù)。辨識(shí)數(shù)據(jù)則包含有第一特征參數(shù),此第二特征參數(shù)與第一特 征參數(shù)相對(duì)應(yīng),故辨識(shí)用的存儲(chǔ)單元里所存的辨識(shí)數(shù)據(jù)即為第二語音波段的對(duì) 比資料。此辨識(shí)數(shù)據(jù)儲(chǔ)存于存儲(chǔ)單元中。
刪除第一語音波段的非語音區(qū),使進(jìn)行語音辨識(shí)比對(duì)時(shí)所用的特征參數(shù)長 度縮短,例如縮小需記錄的語音波段的長度,則需記錄的第二特征參數(shù)亦隨 之減少,提高語音辨識(shí)的速度。正因如此,在進(jìn)行語音辨識(shí)時(shí),將預(yù)先錄下使 用者輸入的正常語音并轉(zhuǎn)換為第一語音波段,再將第一語音波段中的非語音區(qū) 刪除以產(chǎn)生第二語音波段,接著才將第二語音波段與存儲(chǔ)單元內(nèi)的辨識(shí)數(shù)據(jù)做 比對(duì),當(dāng)辨識(shí)數(shù)據(jù)中第一特征參數(shù)與第二語音波段中的第二特征參數(shù)相對(duì)應(yīng)時(shí), 即可判別第二語音波段為何,則表示完成辨識(shí)。通過這種方法來提高辨識(shí)的精 確性以及減少程序資源的使用。
第二語音波段也可轉(zhuǎn)換為一數(shù)位信號(hào)并與儲(chǔ)存于存儲(chǔ)單元中的辨識(shí)數(shù)據(jù)相 對(duì)應(yīng),其中,將聲音轉(zhuǎn)換為語音信號(hào)或?qū)⒌诙Z音波段轉(zhuǎn)換為數(shù)位信號(hào)的技術(shù) 為已知技術(shù),其為本領(lǐng)域的技術(shù)人員所熟知,故在此不再多加闡述。參見圖2,語音辨識(shí)裝置是包含存儲(chǔ)單元31、接收單元32、處理單元33 及判別單元34。存儲(chǔ)單元31是用于儲(chǔ)存至少一個(gè)辨識(shí)數(shù)據(jù)311,此辨識(shí)數(shù)據(jù) 311是已經(jīng)過非語音區(qū)刪除處理,接收單元32是用以接收聲音并將其轉(zhuǎn)化為語 音信號(hào)321,接收單元32可為麥克風(fēng)或聲音接收耳。處理單元33是偵測(cè)語 音信號(hào)321開始及結(jié)束的位置以取得第一語音波段331,判別單元33是判別 第一語音波段331的語音區(qū)及非語音區(qū),接著處理單元32是刪除第一語音波 段331的非語音區(qū)以產(chǎn)生第二語音波段332,并比對(duì)辨識(shí)數(shù)據(jù)311與第二語 音波段332,以判斷第二語音波段332是否符合辨識(shí)數(shù)據(jù)311。第一語音波段 331的語音區(qū)包含第二特征參數(shù),且當(dāng)刪除第一語音波段331的非語音區(qū)以產(chǎn) 生的第二語音波段332時(shí),第二語音波段332也保留了第一語音波段331中 的第二特征參數(shù)。辨識(shí)數(shù)據(jù)311則包含有第一特征參數(shù),此第二特征參數(shù)與第 一特征參數(shù)相對(duì)應(yīng),故辨識(shí)用的數(shù)據(jù)庫31里所存的辨識(shí)數(shù)據(jù)311即為第二語 音波段332的對(duì)比資料。刪除第一語音波段331的非語音區(qū),使進(jìn)行語音辨 識(shí)比對(duì)時(shí)所用的特征參數(shù)長度縮短,例如縮小需記錄的語音波段的長度,則 需記錄的第二特征參數(shù)亦隨之減少,提高語音辨識(shí)的速度。
處理單元33是利用語音活動(dòng)偵測(cè)程序偵測(cè)語音信號(hào)321開始及結(jié)束的位置 并刪除其非語音區(qū)的波段。第二語音波段332也可轉(zhuǎn)換為一位數(shù)信號(hào)與儲(chǔ)存于 存儲(chǔ)單元31中的辨識(shí)數(shù)據(jù)311相對(duì)應(yīng)。
圖3中,語音辨識(shí)裝置提供語音辨識(shí)接口給使用者,當(dāng)使用者按下開始鍵 21,聲音接收端便接收使用者發(fā)出的聲音并轉(zhuǎn)換為語音信號(hào),然后利用語音活 動(dòng)偵測(cè)程序(Voice Activity Detection,簡稱VAD)偵測(cè)語音信號(hào)開始及結(jié)束的位 置以取得第一語音波段20,此第一語音波段20包含有第二特征參數(shù),隨后判 別第一語音波段20的語音區(qū)201及非語音區(qū)202。
圖4中,利用VAD技術(shù)將非語音區(qū)202予以刪除,則取得第二語音波段 26,此第二語音波段26是刪除了第一語音波段20的非語音區(qū)202,只保留了 第一語音波段20的語音區(qū)201,故此第二語音波段26亦保留了第一語音波 段20的語音區(qū)201的第二特征參數(shù),這種方法可以減少語音辨識(shí)裝置需處理 的信號(hào)長度。
語音辨識(shí)裝置是依據(jù)存儲(chǔ)單元中至少一個(gè)辨識(shí)數(shù)據(jù)來辨識(shí)第二語音波段26,且此些辨識(shí)數(shù)據(jù)包含有第一特征參數(shù),且此辨識(shí)數(shù)據(jù)是已經(jīng)過非語音區(qū)刪 除處理的。更具體的說,因第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng),故這些識(shí)別 資料可視為第二語音波段的對(duì)應(yīng)資料,另一方面,刪除第一語音波段20的非 語音區(qū)202,使進(jìn)行語音辨識(shí)比對(duì)時(shí)所用的特征參數(shù)長度縮短,例如縮小需
記錄的語音波段的長度,則需記錄的第二特征參數(shù)亦隨之減少。
在進(jìn)行語音辨識(shí)時(shí),預(yù)先錄下使用者輸入的正常語音,并轉(zhuǎn)換為第一語音
波段20,再將第一語音波段20中的非語音區(qū)刪除以產(chǎn)生第二語音波段26,接 著才將第二語音波段26與存儲(chǔ)單元內(nèi)的辨識(shí)數(shù)據(jù)做比對(duì),當(dāng)?shù)诙卣鲄?shù)與 第二語音波段26中的第一特征參數(shù)相對(duì)應(yīng)時(shí),即可判別第二語音波段為何, 完成辨識(shí)。通過此方法可以提高辨識(shí)的精確性以及減少程序資源的浪費(fèi)。
請(qǐng)注意,特征參數(shù)的定義方法系為本領(lǐng)域工作者所熟知,故在此不在贅述。 第二語音波段26亦可轉(zhuǎn)換為一數(shù)位訊號(hào)與儲(chǔ)存于數(shù)據(jù)庫中的辨識(shí)數(shù)據(jù)相對(duì) 應(yīng),其中,將聲音轉(zhuǎn)換為語音信號(hào)或?qū)⒌诙Z音波段26轉(zhuǎn)換為數(shù)位的技術(shù)系 為已知技藝,其系為本領(lǐng)域者所熟知,故在此不再多加闡述。
其中,如使用者欲在語音辨識(shí)過程中執(zhí)行其它指令,語音辨識(shí)接口還提供 結(jié)束鍵22以供使用者終止語音辨識(shí)的動(dòng)作,更甚者,語音辨識(shí)接口也包含一 進(jìn)度條25以供使用者了解語音辨識(shí)的進(jìn)度。另外,使用者進(jìn)行歌手點(diǎn)歌時(shí),可 點(diǎn)選本語音辨識(shí)接口中的歌手辨識(shí)鍵,由使用者輸入語音信號(hào)(如歌手名稱), 語音辨識(shí)裝置將辨識(shí)相對(duì)應(yīng)較符合的歌手候選名單24給使用者選擇決定。
權(quán)利要求
1、一種提高語言辨識(shí)效率的方法,其特征在于該方法包括以下步驟1)提供至少一辨識(shí)數(shù)據(jù)并在其中設(shè)置一第一特征參數(shù);2)接收一語音信號(hào);3)利用語音活動(dòng)檢測(cè)程序,偵測(cè)該語音信號(hào)的開始和結(jié)束的位置,從而取得第一語音波段;4)判別第一語音波段中的語音區(qū)及非語音區(qū),并在該第一語音波段的語音區(qū)設(shè)置一第二特征參數(shù),所述第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng);5)利用語音活動(dòng)檢測(cè)程序,刪除第一語音波段中的非語音區(qū)從而產(chǎn)生第二語音波段;6)將辨識(shí)數(shù)據(jù)中的第一特征參數(shù)與第二語音波段中的第二特征參數(shù)進(jìn)行比對(duì),以判斷第二語音波段是否符合該辨識(shí)數(shù)據(jù),以完成語音辨識(shí)。
2、 根據(jù)權(quán)利要求1所述的提高語言辨識(shí)效率的方法,其特征在于所述辨 識(shí)數(shù)據(jù)是已利用語音活動(dòng)檢測(cè)程序經(jīng)過刪除非語音區(qū)處理的辨識(shí)數(shù)據(jù)。
3、 根據(jù)權(quán)利要求1所述的提高語言辨識(shí)效率的方法,其特征在于所述非語音區(qū)是指靜音或噪音。
4、 根據(jù)權(quán)利要求1所述的提高語言辨識(shí)效率的方法,其特征在于所述辨識(shí)數(shù)據(jù)、第二語音波段均是數(shù)字信號(hào)。
5、 根據(jù)權(quán)利要求1所述的提高語言辨識(shí)效率的方法,其特征在于所述辨 識(shí)數(shù)據(jù)是為使用者預(yù)先錄制的語音數(shù)據(jù)或是廠商預(yù)先儲(chǔ)存于電子裝置內(nèi)的語音 數(shù)據(jù)。
6、 根據(jù)權(quán)利要求5所述的提高語言辨識(shí)效率的方法,其特征在于所述語 音數(shù)據(jù)是語音指令。
7、 根據(jù)權(quán)利要求1所述的提高語言辨識(shí)效率的方法,其特征在于所述語 音信號(hào)是一語音指令。
8、 一種使用權(quán)利要求1所述的提高語言辨識(shí)效率的方法的語音辨識(shí)裝置, 其特征在于該裝置包含用于儲(chǔ)存至少一個(gè)已經(jīng)過非語音區(qū)刪除處理的辨識(shí)數(shù) 據(jù)的儲(chǔ)存單元,用于接收聲音并將聲音轉(zhuǎn)化為語音信號(hào)的接收單元,用于偵測(cè)語音信號(hào)開始及結(jié)束的位置以取得第一語音波段、并刪除第一語音波段中的非 語音區(qū)以產(chǎn)生第二語音波段,繼而比對(duì)辨識(shí)數(shù)據(jù)與第二語音波段,以判斷第二 語音波段是否符合辨識(shí)數(shù)據(jù)的處理單元,以及用于判別第一語音波段中語音區(qū) 和非語音區(qū)的判別單元;所述接收單元接入處理單元,所述處理單元分別與判 別單元和儲(chǔ)存單元相連。
全文摘要
本發(fā)明涉及一種提高語言辨識(shí)效率的方法及其語音辨識(shí)裝置,包括步驟1)提供至少一辨識(shí)數(shù)據(jù)并在其中設(shè)置一第一特征參數(shù);2)接收一語音信號(hào);3)利用語音活動(dòng)檢測(cè)程序,偵測(cè)該語音信號(hào)的開始和結(jié)束的位置,從而取得第一語音波段;4)判別第一語音波段中的語音區(qū)及非語音區(qū),并在該第一語音波段的語音區(qū)設(shè)置一第二特征參數(shù),所述第二特征參數(shù)與第一特征參數(shù)相對(duì)應(yīng);5)利用語音活動(dòng)檢測(cè)程序,刪除第一語音波段中的非語音區(qū)從而產(chǎn)生第二語音波段;6)將辨識(shí)數(shù)據(jù)中的第一特征參數(shù)與第二語音波段中的第二特征參數(shù)進(jìn)行比對(duì),以判斷第二語音波段是否符合該辨識(shí)數(shù)據(jù),完成語音辨識(shí)。本發(fā)明運(yùn)算量低并且辨識(shí)準(zhǔn)確率高。
文檔編號(hào)G10L15/20GK101419797SQ200810232600
公開日2009年4月29日 申請(qǐng)日期2008年12月5日 優(yōu)先權(quán)日2008年12月5日
發(fā)明者趙仁宏 申請(qǐng)人:無敵科技(西安)有限公司