特定人漢語短語語音識別快速方法

文檔序號：2830375閱讀：411來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：特定人漢語短語語音識別快速方法
技術(shù)領(lǐng)域：
本發(fā)明屬于語音識別技術(shù)領(lǐng)域，特別涉及一種特定人漢語短語語音識別的快速方法。
背景技術(shù)：
現(xiàn)有特定人語音識別方法及應(yīng)用系統(tǒng)通常存在以下不足(1) 訓(xùn)練次數(shù)多或可識別詞匯量過少，用戶使用不方便；(2)支持短詞(通常4個音節(jié)以下)識別，不支持短語(通常10個音節(jié)左右)識別，應(yīng)用領(lǐng)域有限；(3)核心算法采用隱馬爾可夫模型(HMM)或動態(tài)時間卷曲(DTW)方法，方法復(fù)雜度較高，占用系統(tǒng)資源多，識別速度較慢。
例如飛利浦公司、三星公司、西門子公司至2001年上半年推出的各款具備語音撥號功能的手機(如西門子6688)，均需要特定人進行2次訓(xùn)練，而且只支持20個以下的人名撥號，每條語音的持續(xù)時間不能超過2秒。又如清華大學(xué)的專利“小詞匯量語音識別方法及其模塊”(專利公開號CN1262502A)和“基于語音識別專用芯片的特定人語音識別、語音回放方法”(專利公開號CNl268732A)雖然對傳統(tǒng)語音識別方法提出了一定改進，但其中的特定人語音識別方法仍需要使用者訓(xùn)練2次或2次以上，而且由于采用HMM為核心算法，訓(xùn)練量和運算量依然很大。

發(fā)明內(nèi)容
本發(fā)明的目的是為克服已有技術(shù)的不足之處，提出一種特定人漢語短語語音的快速識別方法，采用本方法，在系統(tǒng)資源有限的情況下可實現(xiàn)快速語音識別，使用者只需訓(xùn)練1次，具有資源消耗小、運行速度快、識別率高的突出優(yōu)點，適合移植應(yīng)用于玩具、個人數(shù)字助理、通信終端等產(chǎn)品。
本發(fā)明提出的一種特定人漢語短語語音識別快速方法，其特征在于，包括以下步驟1)語音采樣及預(yù)處理將模擬語音信號采樣編碼，形成數(shù)字語音信號，經(jīng)過濾波器預(yù)加重后，語音信號被分幀并加窗；2)語音聲學(xué)特征提取從每幀語音信號中提取聲學(xué)特征，形成該幀的特征矢量；3)音節(jié)模糊切分根據(jù)各幀語音的上述聲學(xué)特征，采用模糊判決規(guī)則對語音中音節(jié)的端點作模糊判斷，檢測出大致的音節(jié)端點進行切分，統(tǒng)計出當(dāng)前語音的音節(jié)數(shù)目，作為表征語音長度的重要參數(shù)；
4)語音模板訓(xùn)練在訓(xùn)練階段，根據(jù)各幀聲學(xué)特征所屬的音節(jié)，對各個音節(jié)的聲學(xué)特征矢量作聚類處理，形成按照音節(jié)順序排列的矢量碼本模板；5)語音模式匹配在識別階段，將語音幀的聲學(xué)特征與已訓(xùn)練的語音模板比對，記錄待識別語音與各個模板的矢量量化誤差作為相似度評分；6)識別判決基于相似度評分，如果首選模板的相似度遠遠大于第二候選模板，則確認(rèn)首選模板為識別結(jié)果；如果首選模板與第二候選模板的相似度接近，則拒絕識別該語音；上述各處理步驟按照語音幀順序以流水作業(yè)模式進行。
本發(fā)明的特點及效果本發(fā)明提出的特定人漢語短語語音識別方法，在各級信號處理過程中采用了獨特的快速方法，在系統(tǒng)資源有限的情況下可實現(xiàn)快速語音識別。使用者只需訓(xùn)練1次，具有資源消耗小、運行速度快、識別率高的突出優(yōu)點。
本發(fā)明提出的特定人漢語短語語音識別方法可支持60條左右漢語語音短語，每條長度在5秒以下，識別率在98％以上(根據(jù)具體語音命令集合而有所不同)。該方法的典型應(yīng)用系統(tǒng)包括語音撥號電話、語音對話玩具、語音控制電器等。

圖1為本發(fā)明的特定人漢語短語語音識別快速方法總體結(jié)構(gòu)框圖。
圖2為本發(fā)明方法中的語音音節(jié)模糊切分方法實現(xiàn)框圖。
圖3為本發(fā)明方法中的語音識別兩級模板匹配示意圖。
具體實施例方式
本發(fā)明提出的一種特定人漢語短語語音識別快速方法，結(jié)合各附圖及具體實施方式
詳細說明如下本發(fā)明的特定人漢語短語語音識別快速方法總體結(jié)構(gòu)如附圖1所示，包括以下步驟1)語音采樣及預(yù)處理——將模擬語音信號采樣編碼，形成數(shù)字語音信號，經(jīng)過濾波器預(yù)加重后，語音信號被分幀并加窗；2)語音聲學(xué)特征提取——從每幀語音信號中提取聲學(xué)特征，形成該幀的特征矢量；3)音節(jié)模糊切分——根據(jù)各幀語音的上述聲學(xué)特征，采用模糊判決規(guī)則對語音中音節(jié)的端點作模糊判斷，檢測出大致的音節(jié)端點進行切分，統(tǒng)計出當(dāng)前語音的音節(jié)數(shù)目，作為表征語音長度的重要參數(shù)；4)語音模板訓(xùn)練——在訓(xùn)練階段，根據(jù)各幀聲學(xué)特征所屬的音節(jié)，對各個音節(jié)的聲學(xué)特征矢量作聚類處理，形成按照音節(jié)順序排列的矢量碼本模板；5)語音模式匹配——在識別階段，將語音幀的聲學(xué)特征與已訓(xùn)練的語音模板比對，記錄待識別語音與各個模板的矢量量化誤差作為相似度評分；
6)識別判決——基于相似度評分，如果首選模板的相似度遠遠大于第二候選模板，則確認(rèn)首選模板為識別結(jié)果；如果首選模板與第二候選模板的相似度接近，則拒絕識別該語音；上述各處理步驟按照語音幀順序以流水作業(yè)模式進行。
本發(fā)明所說的音節(jié)模糊切分的方法，其實現(xiàn)流程如圖2所示，包括以下步驟(1)根據(jù)語音幀聲學(xué)特征，通過語音靜默段估計出聲學(xué)特征(包括能量、過零率)閾值；(2)以連續(xù)10幀語音聲學(xué)特征為一組，采用組合模糊邏輯規(guī)則進行音節(jié)端點判斷；該組合模糊邏輯規(guī)則具體包括(按照優(yōu)先次序排列)(a)如果10幀中大部分幀的能量低于閾值，而且大部分幀的過零率低于閾值，則此段語音為靜默段，是音節(jié)的端點；(b)如果10幀中大部分幀的能量高于閾值，或者大部分幀的過零率高于閾值，則此段語音為音節(jié)段，不是音節(jié)的端點；(c)如果10幀中能量低于閾值與高于閾值的幀數(shù)相當(dāng)，或者過零率低于閾值于高于閾值的幀數(shù)相當(dāng)，則根據(jù)接下來的10幀判斷；(d)任何音節(jié)段持續(xù)至少20幀以上，即如果出現(xiàn)不滿20幀的音節(jié)段，則將此音節(jié)段強行更改為音節(jié)端點；(3)根據(jù)端點判斷結(jié)果，計算出語音中包含的音節(jié)概數(shù)，并判決出語音的起止區(qū)間。
本發(fā)明中語音模式匹配階段采用了兩級識別方法，如圖3所示，包括以下步驟(1)第一級識別——先導(dǎo)入所有語音模板，根據(jù)待識別語音的音節(jié)概數(shù)篩選出具有相近音節(jié)概數(shù)的語音模板；(2)第二級識別——然后導(dǎo)入該第一級識別后篩選出的語音模板，與待識別語音作進一步匹配，記錄積累的矢量量化誤差，輸出識別結(jié)果。
本發(fā)明提出的一種特定人漢語短語語音的快速識別方法具體實施方式
，如圖1詳細說明如下(1)語音采樣及預(yù)處理——將模擬語音信號以10KHz采樣率采樣編碼，形成數(shù)字語音信號，經(jīng)過濾波器(1-0.97Z-1)預(yù)加重后，語音信號按20毫秒/幀被分幀，相鄰兩幀之間重疊10毫秒，各語音幀用漢明窗加權(quán)；(2)語音聲學(xué)特征提取——從每幀語音信號中提取出能量信息、過零率信息、線性預(yù)測倒譜系數(shù)(LPCC)等聲學(xué)特征，形成該幀的特征矢量；(3)音節(jié)模糊切分——根據(jù)各幀語音的上述聲學(xué)特征，采用模糊判決規(guī)則對漢語中音節(jié)的端點作模糊判斷，檢測出大致的漢語音節(jié)端點進行切分，統(tǒng)計出當(dāng)前語音的音節(jié)數(shù)目，記為L，作為表征語音長度的重要參數(shù)；(4)語音模板訓(xùn)練——在訓(xùn)練階段，根據(jù)語音各幀聲學(xué)特征所屬的音節(jié)，對各個音節(jié)的聲學(xué)特征矢量采用K平均(K-Means)作聚類處理，形成各個語音按照音節(jié)順序排列的矢量碼本模板；
(5)語音模式匹配——在識別階段，將語音幀的聲學(xué)特征與各個經(jīng)過訓(xùn)練得到的語音模板比對，記錄待識別語音與各個模板的矢量量化誤差作為相似度評分，相似度評分為正值，相似度越小則說明相似度越大；(6)識別判決——基于相似度評分，設(shè)首選模板的相似度評分為F，第二候選模板的相似度評分為S，如果S＞1.5F成立，則確認(rèn)首選模板為識別結(jié)果，否則拒絕識別該語音。
綜上所述，本發(fā)明的特點及效果(1)語音處理采用流水作業(yè)模式，對語音信號的采樣、分幀、提取特征、音節(jié)模糊切分、模式匹配等處理是按幀流水進行的。因此避免了對語音信號截取后再做處理的“后處理”模式，減小了數(shù)據(jù)存儲量，提高了處理速度。
(2)語音聲學(xué)特征選用LPCC(線性預(yù)測倒譜系數(shù))，可以采用這一聲學(xué)特征特有的自相關(guān)快速算法。避免了諸如MFCC(Mel頻率倒譜系數(shù))一類聲學(xué)特征計算中需要采用FT(傅立葉變換)而占用較多系統(tǒng)資源。
(3)采用的音節(jié)模糊切分的方法，與傳統(tǒng)的端點檢測通常對語音部分的邊界定位精確到樣點有顯著不同。在本發(fā)明中，語音邊界的范圍較為寬松，這與實際中人的聽覺機理是一致的——即語音沒有絕對精確的邊界。這樣的處理復(fù)雜度低，計算量小，減小了語音識別系統(tǒng)對精確端點檢測的依賴程度，從而提高了語音識別系統(tǒng)的魯棒性。
(4)采用音節(jié)模糊切分的方法界定語音端點及音節(jié)邊界。
(5)采用兩級識別方法，在精確模式匹配之前，系統(tǒng)根據(jù)音節(jié)概數(shù)篩選出可能的候選模板，縮小了模板搜索范圍，降低了計算量。
(6)采用矢量量化實現(xiàn)模板的訓(xùn)練與匹配，相對于HMM和DTW方法復(fù)雜度低，計算量小，而且避免了HMM和DTW方法中回溯搜索帶來的延遲。
權(quán)利要求
1.一種特定人漢語短語語音識別快速方法，其特征在于，包括以下步驟1)語音采樣及預(yù)處理將模擬語音信號采樣編碼，形成數(shù)字語音信號，經(jīng)過濾波器預(yù)加重后，語音信號被分幀并加窗；2)語音聲學(xué)特征提取從每幀語音信號中提取聲學(xué)特征，形成該幀的特征矢量；3)音節(jié)模糊切分根據(jù)各幀語音的上述聲學(xué)特征，采用模糊判決規(guī)則對語音中音節(jié)的端點作模糊判斷，檢測出大致的音節(jié)端點進行切分，統(tǒng)計出當(dāng)前語音的音節(jié)數(shù)目，作為表征語音長度的重要參數(shù)；4)語音模板訓(xùn)練在訓(xùn)練階段，根據(jù)各幀聲學(xué)特征所屬的音節(jié)，對各個音節(jié)的聲學(xué)特征矢量作聚類處理，形成按照音節(jié)順序排列的矢量碼本模板；5)語音模式匹配在識別階段，將語音幀的聲學(xué)特征與已訓(xùn)練的語音模板比對，記錄待識別語音與各個模板的矢量量化誤差作為相似度評分；6)識別判決基于相似度評分，如果首選模板的相似度遠遠大于第二候選模板，則確認(rèn)首選模板為識別結(jié)果；如果首選模板與第二候選模板的相似度接近，則拒絕識別該語音；上述各處理步驟按照語音幀順序以流水作業(yè)模式進行。
2.如權(quán)利要求1所述的特定人漢語短語語音識別快速方法，其特征在于，所說的音節(jié)模糊切分的方法，具體包括以下步驟(1)根據(jù)各幀語音的所述聲學(xué)特征通過語音靜默段估計出聲學(xué)參數(shù)閾值；(2)以連續(xù)10幀語音聲學(xué)特征為一組，采用組合模糊邏輯規(guī)則進行音節(jié)端點判斷；(3)根據(jù)端點判斷結(jié)果，計算出語音中包含的音節(jié)概數(shù)，并判決出語音的起止區(qū)間。
3.如權(quán)利要求2所述的特定人漢語短語語音識別快速方法，其特征在于，所說的組合模糊邏輯規(guī)則具體包括(1)如果10幀中大部分幀的能量低于閾值，而且大部分幀的過零率低于閾值，則此段語音為靜默段，是音節(jié)的端點；(2)如果10幀中大部分幀的能量高于閾值，或者大部分幀的過零率高于閾值，則此段語音為音節(jié)段，不是音節(jié)的端點；(3)如果10幀中能量低于閾值與高于閾值的幀數(shù)相當(dāng)，或者過零率低于閾值于高于閾值的幀數(shù)相當(dāng)，則根據(jù)接下來的10幀判斷；(4)任何音節(jié)段持續(xù)至少20幀以上，即如果出現(xiàn)不滿20幀的音節(jié)段，則將此音節(jié)段強行更改為音節(jié)端點。
4.如權(quán)利要求1所述的特定人漢語短語語音識別快速方法，其特征在于，所說的語音模式匹配方法采用兩級識別方法，包括以下步驟(1)第一級識別先導(dǎo)入所有語音模板，根據(jù)待識別語音的音節(jié)概數(shù)篩選出具有相近音節(jié)概數(shù)的語音模板；(2)第二級識別然后導(dǎo)入該第一級識別后篩選出的語音模板，與待識別語音作進一步匹配，記錄積累的矢量量化誤差，輸出識別結(jié)果。
全文摘要
本發(fā)明屬于語音識別技術(shù)領(lǐng)域,包括語音采樣及預(yù)處理、語音聲學(xué)特征提取、音節(jié)模糊切分、語音模板訓(xùn)練、語音模式匹配、識別判決等,本方法在各級信號處理過程中采用了獨特的快速方法,支持漢語短語識別,使用者只需訓(xùn)練1次,具有資源消耗小、運行速度快、識別率高的突出優(yōu)點。該方法適合移植應(yīng)用于玩具、個人數(shù)字助理、通信終端等產(chǎn)品,在系統(tǒng)資源有限的情況下實現(xiàn)快速語音識別。
文檔編號G10L15/00GK1337670SQ0114161
公開日2002年2月27日申請日期2001年9月28日優(yōu)先權(quán)日2001年9月28日
發(fā)明者薛曉光申請人:北京安可爾通訊技術(shù)有限公司

完整全部詳細技術(shù)資料下載