專利名稱:語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法
技術領域:
本發(fā)明涉及一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方 法,特別是一種可支持多音字處理的詞匯數(shù)據(jù)庫建置方法及其更具效率的搜 尋比對方法。
技術背景習知語音辨識系統(tǒng),并沒有加入多音字的處理功能,導致使用者在進行 語音輸入時,必須念成其多音字的另一種發(fā)音才能辨識成功,例如,人名陳 力行的「行」字,必須發(fā)音為「廠尤z」才能辨識成功,如使用者發(fā)音為「丁 一丄'」便無法正確辨識,又例如,樂團的「樂」字,必須發(fā)音為「為亡、」 才能辨識,若發(fā)音為「U廿、」亦無法正確辨識,而這樣的語音輸入方式與 一般使用者的發(fā)音習慣有很大的差異。此外,語音辨識系統(tǒng)在進行辨識時,通常是利用維特比算法(ViterbiAlgorithm)計算詞匯中每個字所對應聲學模 型的機率值來進行辨識,而這樣的演算也是語音辨識系統(tǒng)花費最大計算量的 地方,因此,若是經(jīng)常重復計算某些相同的字將導致系統(tǒng)不必要的計算量加 重,也會造成系統(tǒng)辨識速度的下降,因此促成我們思考如何避免重復計算相 同的字以降低整體的運算量。 發(fā)明內(nèi)容本發(fā)明的目的是提供一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜 尋比對方法,特別是一種可支持多音字處理的詞匯數(shù)據(jù)庫建置方法及其更具 效率的搜尋比對方法,從而避免重復計算相同的字以降低整體的運算量的技術問題。本發(fā)明的技術解決方案是本發(fā)明為一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫的 建置方法,其特殊之處在于該方法包含以下步驟1) 、提供多音字數(shù)據(jù)多音字數(shù)據(jù)包含復數(shù)個多音字及其發(fā)音方式;2) 、輸入詞匯;3) 、建立聲學模型將詞匯和多音字數(shù)據(jù)進行比對,判斷此詞匯是否包含至少一個多音字,若是,則對于此詞匯所包含的多音字的復數(shù)個發(fā)音方式 分別建立相對應的復數(shù)個聲學模型,若否,則對于此詞匯建立單一對應的聲學模型;4)、儲存此詞匯及其對應的聲學模型至詞匯數(shù)據(jù)庫。 一種利用上述的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫的搜尋比對方法,其特殊之處在于該方法包括以下步驟1) 、提供一詞匯數(shù)據(jù)庫該詞匯數(shù)據(jù)庫包含復數(shù)個詞匯,并且將其中前 綴相同的詞匯以相鄰的方式進行排序,而且這些詞匯是以一對一的方式對應 于復數(shù)個聲學模型;2) 、輸入語音訊號;3) 、獲取語音訊號的特征參數(shù)其中特征參數(shù)是梅爾倒頻譜系數(shù);4) 、將步驟3)獲取的特征參數(shù)與這些詞匯的聲學模型逐一比對聲學 模型是對應于特征參數(shù)分別產(chǎn)生的機率值,其中,每一詞匯是繼承前一相鄰 詞匯中相同發(fā)音字符所產(chǎn)生的機率值;5) 、通過這些詞匯的機率值進行語音訊號的辨識。 上述聲學模型是隱藏式馬可夫模型。上述機率值是利用維特比算法(ViterbiAlgorithm)計算產(chǎn)生的。 本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法,可建 置一種支持多音字處理功能的詞匯數(shù)據(jù)庫,通過將所需詞匯與詞匯數(shù)據(jù)庫的 多音字數(shù)據(jù)比對,判斷此詞匯是否包含至少一個多音字,從而對于此詞匯所 包含的多音字的一個或復數(shù)個發(fā)音方式分別建立相對應的一個或復數(shù)個聲 學模型,使本發(fā)明所建置的詞匯數(shù)據(jù)庫,具有多音字辨識功能,使語音辨識 系統(tǒng)更加人性化,也更貼近一般使用者的發(fā)音習慣,讓使用者能夠依照一般 慣用的發(fā)音,而得到正確的辨識結果;通過獲取的語音訊號的特征參數(shù)與這 些詞匯的聲學模型逐一比對,根據(jù)聲學模型機率值進行語音訊號的辨識,能 夠避免對相同的字的重復計算,提高整體運算量。
圖1是本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法的流程圖;圖2是本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法的具體實施例的流程圖;圖3是本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法的流程圖; 圖4是本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法的具體實施例的流程圖。
具體實施方式
本發(fā)明的語音辨識系統(tǒng)主要是利用隱藏式馬可夫模型(Hidden Markov Model, HMM)的方法作辨識,它以機率模型來描述發(fā)音的現(xiàn)象,將一小段 語音的發(fā)音過程,看成是一個馬可夫模型中連續(xù)的狀態(tài)轉移;其中辨識過程 所利用的語音特征參數(shù)為梅爾倒頻譜系數(shù)(Mel-Frequency Cepstrum Coefficients, MFCC),它除了考慮到人耳對不同頻率的感受程度,更具有分 離發(fā)音腔道模型與激發(fā)訊號的特性,使得我們在語音辨識時不會受到說話者 的音量大小,或中文語音的五種聲調(diào)(一、二、三、四聲與輕聲)的影響?;谝陨咸匦裕覀儗?45個中文多音字中選出適合本發(fā)明辨識系統(tǒng) 的多音字,由于辨識時利用到的特征參數(shù)為梅爾倒頻譜系數(shù),因此多音字中 其發(fā)音差異僅在于聲調(diào)不同的這些字,并不包含在我們要處理的多音字中, 例如「少」這個多音字的發(fā)音有兩種,其一為「尸幺1,另一則為「尸幺、」, 差異僅在于聲調(diào)的不同,我們便將其舍去,最后剩下來的便是我們的多音字 數(shù)據(jù),其包含的字大致有行、仔、樂、和、重、說、干、長、大、曾、沈、 冒、沒、校、從、都、落、朝、傳、單、彷、召、便、降、盛、強、調(diào)、參、 黏、省、塞、差、蓋、傍、般、彈、屏、蔚、更、暴、熟、模、給、薄、告、 嚇、藏、還、翟、識、騎、系、覺、露、屬、攪等等。參見圖1,本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法步驟如下步驟S11:提供多音字數(shù)據(jù);步驟S12:輸入詞匯;步驟S13:比對該多音字數(shù)據(jù),判斷該詞匯是否包含至少一多音字,若 是,則對于該詞匯所包含的該多音字的復數(shù)個發(fā)音方式分別建立相對應的復 數(shù)個聲學模型,若否,則對于該詞匯建立單一對應的聲學模型;步驟S14:儲存該詞匯及這些聲學模型至該詞匯數(shù)據(jù)庫。其中,上述多音字數(shù)據(jù)包含復數(shù)個多音字及其發(fā)音方式,上述聲學模型為隱藏式馬可夫模型。參見圖2,以歌手姓名為具體實施例,本發(fā)明建置歌手姓名的詞匯數(shù)據(jù) 庫的方法步驟如下步驟S21:讀入歌手姓名;步驟S22:將輸入的歌手姓名與多音字數(shù)據(jù)進行比對,判斷此歌手姓名是否包含至少一多音字,若是,執(zhí)行步驟S23,若否,執(zhí)行步驟S24;步驟S23:增加一組由多音字代替的姓名;步驟S24:分別將姓名的字轉換成由隱藏式馬可夫模型來表示;步驟S25:是否讀到最后一筆歌手姓名,若是,執(zhí)行步驟S26若否,執(zhí)行步驟S21;步驟S26:結束初始化,進入辨識流程。通過本發(fā)明所建置的詞匯數(shù)據(jù)庫,具有多音字辨識功能,讓使用者能夠 依照一般慣用的發(fā)音,而得到正確的辨識結果。另外,在語音辨識技術中,每一個中文字可將其分解為聲母和韻母,聲 母出現(xiàn)在音節(jié)前端,韻母出現(xiàn)在音節(jié)尾端,每一個中文字都可利用兩個表示 聲母及韻母的聲學模型來代表,而語音辨識即是通過計算聲母及韻母的聲學 模型機率值來做判定,因此如果將詞匯數(shù)據(jù)庫中的詞匯以前綴相同者排在一 起的方式作排序,并且記下前一個詞匯同音字的機率值,在計算時便只要計 算目前的詞匯與上一個詞匯不同音字的機率值,而不需重復計算同音字的機 率值,可節(jié)省搜尋比對時的計算量。參見圖3,本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法的步驟如下步驟S31:提供一詞匯數(shù)據(jù)庫該詞匯數(shù)據(jù)庫包含復數(shù)個詞匯,這些詞 匯是以前綴相同者相鄰的方式進行排序,并且這些詞匯是以一對一的方式對 應于復數(shù)個聲學模型;步驟S32:輸入一語音訊號;步驟S33:獲取該語音訊號的一特征參數(shù)該特征參數(shù)是梅爾倒頻譜系數(shù)(Mel-Frequency Cepstrum Coefficients, MFCC);步驟S34:將特征參數(shù)與這些詞匯的聲學模型逐一比對聲學模型是對應于特征參數(shù)分別產(chǎn)生的一機率值,其中,每一詞匯是繼承前一相鄰詞匯中 相同發(fā)音字符所產(chǎn)生的機率值(將詞匯數(shù)據(jù)庫中的詞匯以前綴相同者排在一 起的方式作排序,并且記下前一個詞匯同音字的機率值,在計算時便只要計 算目前的詞匯與上一個詞匯不同音字的機率值,而不需重復計算同音字的機 率值);步驟S35:通過這些詞匯的機率值,以進行語音訊號的辨識。上述聲學模型為一隱藏式馬可夫模型,上述機率值是利用一維特比算法 (Viterbi Algorithm )計算產(chǎn)生。以歌手姓名的詞匯數(shù)據(jù)庫為例,若總數(shù)有692個歌手姓名,共有2233 個字,在做維特比算法計算器率時,每段語音將會與系統(tǒng)的聲學模型做4466 次的搜尋,在這些搜尋中有部分是重復計算的,因此,本發(fā)明將歌手姓名作 排序,讓相同姓的歌手排在一起,并且記下前一個名字同音字的機率,所以 在計算這一筆歌手名字時,只要計算非同音字的機率。參見圖4,本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法的較佳實施例的步驟如下步驟S41:輸入語音的梅爾倒頻譜系數(shù)(所獲取的語音訊號的特征參數(shù)); 步驟S42:讀入歌手姓名模型;步驟S43:判斷目前歌手姓名的發(fā)音與前一個歌手姓名是否重復,若是,執(zhí)行步驟S44,若否,則執(zhí)行步驟S45;步驟S44:將相同發(fā)音的字利用前一個名字記錄的機率代替,再由不同 發(fā)音的字繼續(xù)進行下一個步驟;步驟S45:利用維特比算法(ViterbiAlgorithm)計算器率; 步驟S46:儲存目前歌手姓名每個字的機率;步驟S47:是否所有歌手姓名皆已計算器率,若是,執(zhí)行步驟S48,若 否,則重復上述步驟S42;以及步驟S48:排列出五個最大機率的歌手姓名。以歌手姓名「陳力行」為例,其與歌手「陳力宏」相鄰,這兩位歌手姓 名的前兩個字的發(fā)音是相同的,因此在做維特比算法的計算時,輸入語音的 梅爾倒頻譜系數(shù)先與「陳力行」所代表的6個聲學模型做機率計算,并且儲存其每個字的機率值,接下來輸入語音要與「陳力宏」做機率計算時,只需 要利用前一個名字計算出「陳力」這兩個字的機率,接著加上目前「宏」的2個聲學模型所計算的機率值,即可得到「陳力宏」的完整機率。
權利要求
1、一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫的建置方法,其特征在于該方法包含以下步驟1)、提供多音字數(shù)據(jù)多音字數(shù)據(jù)包含復數(shù)個多音字及其發(fā)音方式;2)、輸入詞匯;3)、建立聲學模型將詞匯和多音字數(shù)據(jù)進行比對,判斷此詞匯是否包含至少一個多音字,若是,則對于此詞匯所包含的多音字的復數(shù)個發(fā)音方式分別建立相對應的復數(shù)個聲學模型,若否,則對于此詞匯建立單一對應的聲學模型;4)、儲存此詞匯及其對應的聲學模型至詞匯數(shù)據(jù)庫。
2、 根據(jù)權利要求1所述的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫的建置方法,其 特征在于所述聲學模型是隱藏式馬可夫模型。
3、 一種利用權利要求1所述的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫的搜尋比對方法,其特征在于其包括以下步驟1) 、提供一詞匯數(shù)據(jù)庫該詞匯數(shù)據(jù)庫包含復數(shù)個詞匯,并且將其中前綴相同的詞匯以相鄰的方式進行排序,而且這些詞匯是以一對一的方式對應 于復數(shù)個聲學模型;2) 、輸入語音訊號;3) 、獲取語音訊號的特征參數(shù)其中特征參數(shù)是梅爾倒頻譜系數(shù);4) 、將步驟3)獲取的特征參數(shù)與這些詞匯的聲學模型逐一比對聲學 模型是對應于特征參數(shù)分別產(chǎn)生的機率值,其中,每一詞匯是繼承前一相鄰 詞匯中相同發(fā)音字符所產(chǎn)生的機率值;5) 、通過這些詞匯的機率值進行語音訊號的辨識。
4、 根據(jù)權利要求3所述的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法, 其特征在于所述聲學模型是隱藏式馬可夫模型。
5、 根據(jù)權利要求3所述的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法, 其特征在于所述機率值是利用維特比算法計算產(chǎn)生的。
全文摘要
本發(fā)明涉及一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法,本發(fā)明為解決重復計算相同的字以降低整體的運算量的技術問題,提供了一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法,該方法包括以下步驟1)提供多音字數(shù)據(jù);2)輸入詞匯;3)建立聲學模型;4)儲存此詞匯及其對應的聲學模型至詞匯數(shù)據(jù)庫。本發(fā)明所建置的詞匯數(shù)據(jù)庫,具有多音字辨識功能,使語音辨識系統(tǒng)更加人性化,也更貼近一般使用者的發(fā)音習慣,讓使用者能夠依照一般慣用的發(fā)音,而得到正確的辨識結果。
文檔編號G10L15/14GK101217035SQ200710185709
公開日2008年7月9日 申請日期2007年12月29日 優(yōu)先權日2007年12月29日
發(fā)明者廖崇伯, 陳淮琰 申請人:無敵科技(西安)有限公司