語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法

文檔序號：2837495閱讀：280來源：國知局

專利名稱：語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法
技術領域：
本發(fā)明涉及一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法，特別是一種可支持多音字處理的詞匯數(shù)據(jù)庫建置方法及其更具效率的搜尋比對方法。
技術背景習知語音辨識系統(tǒng)，并沒有加入多音字的處理功能，導致使用者在進行語音輸入時，必須念成其多音字的另一種發(fā)音才能辨識成功，例如，人名陳力行的「行」字，必須發(fā)音為「廠尤z」才能辨識成功，如使用者發(fā)音為「丁一丄'」便無法正確辨識，又例如，樂團的「樂」字，必須發(fā)音為「為亡、」才能辨識，若發(fā)音為「U廿、」亦無法正確辨識，而這樣的語音輸入方式與一般使用者的發(fā)音習慣有很大的差異。此外，語音辨識系統(tǒng)在進行辨識時，通常是利用維特比算法(ViterbiAlgorithm)計算詞匯中每個字所對應聲學模型的機率值來進行辨識，而這樣的演算也是語音辨識系統(tǒng)花費最大計算量的地方，因此，若是經(jīng)常重復計算某些相同的字將導致系統(tǒng)不必要的計算量加重，也會造成系統(tǒng)辨識速度的下降，因此促成我們思考如何避免重復計算相同的字以降低整體的運算量。發(fā)明內(nèi)容本發(fā)明的目的是提供一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法，特別是一種可支持多音字處理的詞匯數(shù)據(jù)庫建置方法及其更具效率的搜尋比對方法，從而避免重復計算相同的字以降低整體的運算量的技術問題。本發(fā)明的技術解決方案是本發(fā)明為一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫的建置方法，其特殊之處在于該方法包含以下步驟1) 、提供多音字數(shù)據(jù)多音字數(shù)據(jù)包含復數(shù)個多音字及其發(fā)音方式；2) 、輸入詞匯；3) 、建立聲學模型將詞匯和多音字數(shù)據(jù)進行比對，判斷此詞匯是否包含至少一個多音字，若是，則對于此詞匯所包含的多音字的復數(shù)個發(fā)音方式分別建立相對應的復數(shù)個聲學模型，若否，則對于此詞匯建立單一對應的聲學模型；4)、儲存此詞匯及其對應的聲學模型至詞匯數(shù)據(jù)庫。一種利用上述的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫的搜尋比對方法，其特殊之處在于該方法包括以下步驟1) 、提供一詞匯數(shù)據(jù)庫該詞匯數(shù)據(jù)庫包含復數(shù)個詞匯，并且將其中前綴相同的詞匯以相鄰的方式進行排序，而且這些詞匯是以一對一的方式對應于復數(shù)個聲學模型；2) 、輸入語音訊號；3) 、獲取語音訊號的特征參數(shù)其中特征參數(shù)是梅爾倒頻譜系數(shù)；4) 、將步驟3)獲取的特征參數(shù)與這些詞匯的聲學模型逐一比對聲學模型是對應于特征參數(shù)分別產(chǎn)生的機率值，其中，每一詞匯是繼承前一相鄰詞匯中相同發(fā)音字符所產(chǎn)生的機率值；5) 、通過這些詞匯的機率值進行語音訊號的辨識。上述聲學模型是隱藏式馬可夫模型。上述機率值是利用維特比算法(ViterbiAlgorithm)計算產(chǎn)生的。本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法，可建置一種支持多音字處理功能的詞匯數(shù)據(jù)庫，通過將所需詞匯與詞匯數(shù)據(jù)庫的多音字數(shù)據(jù)比對，判斷此詞匯是否包含至少一個多音字，從而對于此詞匯所包含的多音字的一個或復數(shù)個發(fā)音方式分別建立相對應的一個或復數(shù)個聲學模型，使本發(fā)明所建置的詞匯數(shù)據(jù)庫，具有多音字辨識功能，使語音辨識系統(tǒng)更加人性化，也更貼近一般使用者的發(fā)音習慣，讓使用者能夠依照一般慣用的發(fā)音，而得到正確的辨識結果；通過獲取的語音訊號的特征參數(shù)與這些詞匯的聲學模型逐一比對，根據(jù)聲學模型機率值進行語音訊號的辨識，能夠避免對相同的字的重復計算，提高整體運算量。

圖1是本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法的流程圖；圖2是本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法的具體實施例的流程圖；圖3是本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法的流程圖；圖4是本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法的具體實施例的流程圖。
具體實施方式
本發(fā)明的語音辨識系統(tǒng)主要是利用隱藏式馬可夫模型(Hidden Markov Model, HMM)的方法作辨識，它以機率模型來描述發(fā)音的現(xiàn)象，將一小段語音的發(fā)音過程，看成是一個馬可夫模型中連續(xù)的狀態(tài)轉移；其中辨識過程所利用的語音特征參數(shù)為梅爾倒頻譜系數(shù)(Mel-Frequency Cepstrum Coefficients, MFCC)，它除了考慮到人耳對不同頻率的感受程度，更具有分離發(fā)音腔道模型與激發(fā)訊號的特性，使得我們在語音辨識時不會受到說話者的音量大小，或中文語音的五種聲調(diào)(一、二、三、四聲與輕聲)的影響?；谝陨咸匦裕覀儗?45個中文多音字中選出適合本發(fā)明辨識系統(tǒng) 的多音字，由于辨識時利用到的特征參數(shù)為梅爾倒頻譜系數(shù)，因此多音字中其發(fā)音差異僅在于聲調(diào)不同的這些字，并不包含在我們要處理的多音字中，例如「少」這個多音字的發(fā)音有兩種，其一為「尸幺1，另一則為「尸幺、」，差異僅在于聲調(diào)的不同，我們便將其舍去，最后剩下來的便是我們的多音字數(shù)據(jù)，其包含的字大致有行、仔、樂、和、重、說、干、長、大、曾、沈、冒、沒、校、從、都、落、朝、傳、單、彷、召、便、降、盛、強、調(diào)、參、黏、省、塞、差、蓋、傍、般、彈、屏、蔚、更、暴、熟、模、給、薄、告、嚇、藏、還、翟、識、騎、系、覺、露、屬、攪等等。參見圖1，本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法步驟如下步驟S11:提供多音字數(shù)據(jù)；步驟S12:輸入詞匯；步驟S13:比對該多音字數(shù)據(jù)，判斷該詞匯是否包含至少一多音字，若是，則對于該詞匯所包含的該多音字的復數(shù)個發(fā)音方式分別建立相對應的復數(shù)個聲學模型，若否，則對于該詞匯建立單一對應的聲學模型；步驟S14:儲存該詞匯及這些聲學模型至該詞匯數(shù)據(jù)庫。其中，上述多音字數(shù)據(jù)包含復數(shù)個多音字及其發(fā)音方式，上述聲學模型為隱藏式馬可夫模型。參見圖2，以歌手姓名為具體實施例，本發(fā)明建置歌手姓名的詞匯數(shù)據(jù) 庫的方法步驟如下步驟S21:讀入歌手姓名；步驟S22:將輸入的歌手姓名與多音字數(shù)據(jù)進行比對，判斷此歌手姓名是否包含至少一多音字，若是，執(zhí)行步驟S23，若否，執(zhí)行步驟S24;步驟S23:增加一組由多音字代替的姓名；步驟S24:分別將姓名的字轉換成由隱藏式馬可夫模型來表示；步驟S25:是否讀到最后一筆歌手姓名，若是，執(zhí)行步驟S26若否，執(zhí)行步驟S21;步驟S26:結束初始化，進入辨識流程。通過本發(fā)明所建置的詞匯數(shù)據(jù)庫，具有多音字辨識功能，讓使用者能夠依照一般慣用的發(fā)音，而得到正確的辨識結果。另外，在語音辨識技術中，每一個中文字可將其分解為聲母和韻母，聲母出現(xiàn)在音節(jié)前端，韻母出現(xiàn)在音節(jié)尾端，每一個中文字都可利用兩個表示聲母及韻母的聲學模型來代表，而語音辨識即是通過計算聲母及韻母的聲學模型機率值來做判定，因此如果將詞匯數(shù)據(jù)庫中的詞匯以前綴相同者排在一起的方式作排序，并且記下前一個詞匯同音字的機率值，在計算時便只要計算目前的詞匯與上一個詞匯不同音字的機率值，而不需重復計算同音字的機率值，可節(jié)省搜尋比對時的計算量。參見圖3,本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法的步驟如下步驟S31:提供一詞匯數(shù)據(jù)庫該詞匯數(shù)據(jù)庫包含復數(shù)個詞匯，這些詞匯是以前綴相同者相鄰的方式進行排序，并且這些詞匯是以一對一的方式對應于復數(shù)個聲學模型；步驟S32:輸入一語音訊號；步驟S33:獲取該語音訊號的一特征參數(shù)該特征參數(shù)是梅爾倒頻譜系數(shù)(Mel-Frequency Cepstrum Coefficients, MFCC);步驟S34:將特征參數(shù)與這些詞匯的聲學模型逐一比對聲學模型是對應于特征參數(shù)分別產(chǎn)生的一機率值，其中，每一詞匯是繼承前一相鄰詞匯中相同發(fā)音字符所產(chǎn)生的機率值(將詞匯數(shù)據(jù)庫中的詞匯以前綴相同者排在一起的方式作排序，并且記下前一個詞匯同音字的機率值，在計算時便只要計算目前的詞匯與上一個詞匯不同音字的機率值，而不需重復計算同音字的機率值)；步驟S35:通過這些詞匯的機率值，以進行語音訊號的辨識。上述聲學模型為一隱藏式馬可夫模型，上述機率值是利用一維特比算法 (Viterbi Algorithm )計算產(chǎn)生。以歌手姓名的詞匯數(shù)據(jù)庫為例，若總數(shù)有692個歌手姓名，共有2233 個字，在做維特比算法計算器率時，每段語音將會與系統(tǒng)的聲學模型做4466 次的搜尋，在這些搜尋中有部分是重復計算的，因此，本發(fā)明將歌手姓名作排序，讓相同姓的歌手排在一起，并且記下前一個名字同音字的機率，所以在計算這一筆歌手名字時，只要計算非同音字的機率。參見圖4，本發(fā)明的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法的較佳實施例的步驟如下步驟S41:輸入語音的梅爾倒頻譜系數(shù)(所獲取的語音訊號的特征參數(shù))；步驟S42:讀入歌手姓名模型；步驟S43:判斷目前歌手姓名的發(fā)音與前一個歌手姓名是否重復，若是，執(zhí)行步驟S44，若否，則執(zhí)行步驟S45;步驟S44:將相同發(fā)音的字利用前一個名字記錄的機率代替，再由不同發(fā)音的字繼續(xù)進行下一個步驟；步驟S45:利用維特比算法(ViterbiAlgorithm)計算器率；步驟S46:儲存目前歌手姓名每個字的機率；步驟S47:是否所有歌手姓名皆已計算器率，若是，執(zhí)行步驟S48，若否，則重復上述步驟S42;以及步驟S48:排列出五個最大機率的歌手姓名。以歌手姓名「陳力行」為例，其與歌手「陳力宏」相鄰，這兩位歌手姓名的前兩個字的發(fā)音是相同的，因此在做維特比算法的計算時，輸入語音的梅爾倒頻譜系數(shù)先與「陳力行」所代表的6個聲學模型做機率計算，并且儲存其每個字的機率值，接下來輸入語音要與「陳力宏」做機率計算時，只需要利用前一個名字計算出「陳力」這兩個字的機率，接著加上目前「宏」的2個聲學模型所計算的機率值，即可得到「陳力宏」的完整機率。
權利要求
1、一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫的建置方法，其特征在于該方法包含以下步驟1)、提供多音字數(shù)據(jù)多音字數(shù)據(jù)包含復數(shù)個多音字及其發(fā)音方式；2)、輸入詞匯；3)、建立聲學模型將詞匯和多音字數(shù)據(jù)進行比對，判斷此詞匯是否包含至少一個多音字，若是，則對于此詞匯所包含的多音字的復數(shù)個發(fā)音方式分別建立相對應的復數(shù)個聲學模型，若否，則對于此詞匯建立單一對應的聲學模型；4)、儲存此詞匯及其對應的聲學模型至詞匯數(shù)據(jù)庫。
2、根據(jù)權利要求1所述的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫的建置方法，其特征在于所述聲學模型是隱藏式馬可夫模型。
3、一種利用權利要求1所述的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫的搜尋比對方法，其特征在于其包括以下步驟1) 、提供一詞匯數(shù)據(jù)庫該詞匯數(shù)據(jù)庫包含復數(shù)個詞匯，并且將其中前綴相同的詞匯以相鄰的方式進行排序，而且這些詞匯是以一對一的方式對應于復數(shù)個聲學模型；2) 、輸入語音訊號；3) 、獲取語音訊號的特征參數(shù)其中特征參數(shù)是梅爾倒頻譜系數(shù)；4) 、將步驟3)獲取的特征參數(shù)與這些詞匯的聲學模型逐一比對聲學模型是對應于特征參數(shù)分別產(chǎn)生的機率值，其中，每一詞匯是繼承前一相鄰詞匯中相同發(fā)音字符所產(chǎn)生的機率值；5) 、通過這些詞匯的機率值進行語音訊號的辨識。
4、根據(jù)權利要求3所述的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法，其特征在于所述聲學模型是隱藏式馬可夫模型。
5、根據(jù)權利要求3所述的語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫搜尋比對方法，其特征在于所述機率值是利用維特比算法計算產(chǎn)生的。
全文摘要
本發(fā)明涉及一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法，本發(fā)明為解決重復計算相同的字以降低整體的運算量的技術問題，提供了一種語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法，該方法包括以下步驟1)提供多音字數(shù)據(jù)；2)輸入詞匯；3)建立聲學模型；4)儲存此詞匯及其對應的聲學模型至詞匯數(shù)據(jù)庫。本發(fā)明所建置的詞匯數(shù)據(jù)庫，具有多音字辨識功能，使語音辨識系統(tǒng)更加人性化，也更貼近一般使用者的發(fā)音習慣，讓使用者能夠依照一般慣用的發(fā)音，而得到正確的辨識結果。
文檔編號G10L15/14GK101217035SQ200710185709
公開日2008年7月9日申請日期2007年12月29日優(yōu)先權日2007年12月29日
發(fā)明者廖崇伯, 陳淮琰申請人:無敵科技(西安)有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：廖崇伯;陳淮琰
技術所有人：無敵科技(西安)有限公司
我是此專利的發(fā)明人

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音數(shù)據(jù)庫相關技術

語音識別數(shù)據(jù)庫相關技術

情感語音數(shù)據(jù)庫相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音辨識系統(tǒng)的詞匯數(shù)據(jù)庫建置方法及其搜尋比對方法