專利名稱:特定人漢語短語語音識別快速方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音識別技術(shù)領(lǐng)域,特別涉及一種特定人漢語短語語音識別的快速方法。
背景技術(shù):
現(xiàn)有特定人語音識別方法及應(yīng)用系統(tǒng)通常存在以下不足(1) 訓(xùn)練次數(shù)多或可識別詞匯量過少,用戶使用不方便;(2)支持短詞(通常4個音節(jié)以下)識別,不支持短語(通常10個音節(jié)左右)識別,應(yīng)用領(lǐng)域有限;(3)核心算法采用隱馬爾可夫模型(HMM)或動態(tài)時間卷曲(DTW)方法,方法復(fù)雜度較高,占用系統(tǒng)資源多,識別速度較慢。
例如飛利浦公司、三星公司、西門子公司至2001年上半年推出的各款具備語音撥號功能的手機(如西門子6688),均需要特定人進行2次訓(xùn)練,而且只支持20個以下的人名撥號,每條語音的持續(xù)時間不能超過2秒。又如清華大學(xué)的專利“小詞匯量語音識別方法及其模塊”(專利公開號CN1262502A)和“基于語音識別專用芯片的特定人語音識別、語音回放方法”(專利公開號CNl268732A)雖然對傳統(tǒng)語音識別方法提出了一定改進,但其中的特定人語音識別方法仍需要使用者訓(xùn)練2次或2次以上,而且由于采用HMM為核心算法,訓(xùn)練量和運算量依然很大。
發(fā)明內(nèi)容
本發(fā)明的目的是為克服已有技術(shù)的不足之處,提出一種特定人漢語短語語音的快速識別方法,采用本方法,在系統(tǒng)資源有限的情況下可實現(xiàn)快速語音識別,使用者只需訓(xùn)練1次,具有資源消耗小、運行速度快、識別率高的突出優(yōu)點,適合移植應(yīng)用于玩具、個人數(shù)字助理、通信終端等產(chǎn)品。
本發(fā)明提出的一種特定人漢語短語語音識別快速方法,其特征在于,包括以下步驟1)語音采樣及預(yù)處理將模擬語音信號采樣編碼,形成數(shù)字語音信號,經(jīng)過濾波器預(yù)加重后,語音信號被分幀并加窗;2)語音聲學(xué)特征提取從每幀語音信號中提取聲學(xué)特征,形成該幀的特征矢量;3)音節(jié)模糊切分根據(jù)各幀語音的上述聲學(xué)特征,采用模糊判決規(guī)則對語音中音節(jié)的端點作模糊判斷,檢測出大致的音節(jié)端點進行切分,統(tǒng)計出當(dāng)前語音的音節(jié)數(shù)目,作為表征語音長度的重要參數(shù);
4)語音模板訓(xùn)練在訓(xùn)練階段,根據(jù)各幀聲學(xué)特征所屬的音節(jié),對各個音節(jié)的聲學(xué)特征矢量作聚類處理,形成按照音節(jié)順序排列的矢量碼本模板;5)語音模式匹配在識別階段,將語音幀的聲學(xué)特征與已訓(xùn)練的語音模板比對,記錄待識別語音與各個模板的矢量量化誤差作為相似度評分;6)識別判決基于相似度評分,如果首選模板的相似度遠遠大于第二候選模板,則確認(rèn)首選模板為識別結(jié)果;如果首選模板與第二候選模板的相似度接近,則拒絕識別該語音;上述各處理步驟按照語音幀順序以流水作業(yè)模式進行。
本發(fā)明的特點及效果本發(fā)明提出的特定人漢語短語語音識別方法,在各級信號處理過程中采用了獨特的快速方法,在系統(tǒng)資源有限的情況下可實現(xiàn)快速語音識別。使用者只需訓(xùn)練1次,具有資源消耗小、運行速度快、識別率高的突出優(yōu)點。
本發(fā)明提出的特定人漢語短語語音識別方法可支持60條左右漢語語音短語,每條長度在5秒以下,識別率在98%以上(根據(jù)具體語音命令集合而有所不同)。該方法的典型應(yīng)用系統(tǒng)包括語音撥號電話、語音對話玩具、語音控制電器等。
圖1為本發(fā)明的特定人漢語短語語音識別快速方法總體結(jié)構(gòu)框圖。
圖2為本發(fā)明方法中的語音音節(jié)模糊切分方法實現(xiàn)框圖。
圖3為本發(fā)明方法中的語音識別兩級模板匹配示意圖。
具體實施例方式
本發(fā)明提出的一種特定人漢語短語語音識別快速方法,結(jié)合各附圖及具體實施方式
詳細說明如下本發(fā)明的特定人漢語短語語音識別快速方法總體結(jié)構(gòu)如附圖1所示,包括以下步驟1)語音采樣及預(yù)處理——將模擬語音信號采樣編碼,形成數(shù)字語音信號,經(jīng)過濾波器預(yù)加重后,語音信號被分幀并加窗;2)語音聲學(xué)特征提取——從每幀語音信號中提取聲學(xué)特征,形成該幀的特征矢量;3)音節(jié)模糊切分——根據(jù)各幀語音的上述聲學(xué)特征,采用模糊判決規(guī)則對語音中音節(jié)的端點作模糊判斷,檢測出大致的音節(jié)端點進行切分,統(tǒng)計出當(dāng)前語音的音節(jié)數(shù)目,作為表征語音長度的重要參數(shù);4)語音模板訓(xùn)練——在訓(xùn)練階段,根據(jù)各幀聲學(xué)特征所屬的音節(jié),對各個音節(jié)的聲學(xué)特征矢量作聚類處理,形成按照音節(jié)順序排列的矢量碼本模板;5)語音模式匹配——在識別階段,將語音幀的聲學(xué)特征與已訓(xùn)練的語音模板比對,記錄待識別語音與各個模板的矢量量化誤差作為相似度評分;
6)識別判決——基于相似度評分,如果首選模板的相似度遠遠大于第二候選模板,則確認(rèn)首選模板為識別結(jié)果;如果首選模板與第二候選模板的相似度接近,則拒絕識別該語音;上述各處理步驟按照語音幀順序以流水作業(yè)模式進行。
本發(fā)明所說的音節(jié)模糊切分的方法,其實現(xiàn)流程如圖2所示,包括以下步驟(1)根據(jù)語音幀聲學(xué)特征,通過語音靜默段估計出聲學(xué)特征(包括能量、過零率)閾值;(2)以連續(xù)10幀語音聲學(xué)特征為一組,采用組合模糊邏輯規(guī)則進行音節(jié)端點判斷;該組合模糊邏輯規(guī)則具體包括(按照優(yōu)先次序排列)(a)如果10幀中大部分幀的能量低于閾值,而且大部分幀的過零率低于閾值,則此段語音為靜默段,是音節(jié)的端點;(b)如果10幀中大部分幀的能量高于閾值,或者大部分幀的過零率高于閾值,則此段語音為音節(jié)段,不是音節(jié)的端點;(c)如果10幀中能量低于閾值與高于閾值的幀數(shù)相當(dāng),或者過零率低于閾值于高于閾值的幀數(shù)相當(dāng),則根據(jù)接下來的10幀判斷;(d)任何音節(jié)段持續(xù)至少20幀以上,即如果出現(xiàn)不滿20幀的音節(jié)段,則將此音節(jié)段強行更改為音節(jié)端點;(3)根據(jù)端點判斷結(jié)果,計算出語音中包含的音節(jié)概數(shù),并判決出語音的起止區(qū)間。
本發(fā)明中語音模式匹配階段采用了兩級識別方法,如圖3所示,包括以下步驟(1)第一級識別——先導(dǎo)入所有語音模板,根據(jù)待識別語音的音節(jié)概數(shù)篩選出具有相近音節(jié)概數(shù)的語音模板;(2)第二級識別——然后導(dǎo)入該第一級識別后篩選出的語音模板,與待識別語音作進一步匹配,記錄積累的矢量量化誤差,輸出識別結(jié)果。
本發(fā)明提出的一種特定人漢語短語語音的快速識別方法具體實施方式
,如圖1詳細說明如下(1)語音采樣及預(yù)處理——將模擬語音信號以10KHz采樣率采樣編碼,形成數(shù)字語音信號,經(jīng)過濾波器(1-0.97Z-1)預(yù)加重后,語音信號按20毫秒/幀被分幀,相鄰兩幀之間重疊10毫秒,各語音幀用漢明窗加權(quán);(2)語音聲學(xué)特征提取——從每幀語音信號中提取出能量信息、過零率信息、線性預(yù)測倒譜系數(shù)(LPCC)等聲學(xué)特征,形成該幀的特征矢量;(3)音節(jié)模糊切分——根據(jù)各幀語音的上述聲學(xué)特征,采用模糊判決規(guī)則對漢語中音節(jié)的端點作模糊判斷,檢測出大致的漢語音節(jié)端點進行切分,統(tǒng)計出當(dāng)前語音的音節(jié)數(shù)目,記為L,作為表征語音長度的重要參數(shù);(4)語音模板訓(xùn)練——在訓(xùn)練階段,根據(jù)語音各幀聲學(xué)特征所屬的音節(jié),對各個音節(jié)的聲學(xué)特征矢量采用K平均(K-Means)作聚類處理,形成各個語音按照音節(jié)順序排列的矢量碼本模板;
(5)語音模式匹配——在識別階段,將語音幀的聲學(xué)特征與各個經(jīng)過訓(xùn)練得到的語音模板比對,記錄待識別語音與各個模板的矢量量化誤差作為相似度評分,相似度評分為正值,相似度越小則說明相似度越大;(6)識別判決——基于相似度評分,設(shè)首選模板的相似度評分為F,第二候選模板的相似度評分為S,如果S>1.5F成立,則確認(rèn)首選模板為識別結(jié)果,否則拒絕識別該語音。
綜上所述,本發(fā)明的特點及效果(1)語音處理采用流水作業(yè)模式,對語音信號的采樣、分幀、提取特征、音節(jié)模糊切分、模式匹配等處理是按幀流水進行的。因此避免了對語音信號截取后再做處理的“后處理”模式,減小了數(shù)據(jù)存儲量,提高了處理速度。
(2)語音聲學(xué)特征選用LPCC(線性預(yù)測倒譜系數(shù)),可以采用這一聲學(xué)特征特有的自相關(guān)快速算法。避免了諸如MFCC(Mel頻率倒譜系數(shù))一類聲學(xué)特征計算中需要采用FT(傅立葉變換)而占用較多系統(tǒng)資源。
(3)采用的音節(jié)模糊切分的方法,與傳統(tǒng)的端點檢測通常對語音部分的邊界定位精確到樣點有顯著不同。在本發(fā)明中,語音邊界的范圍較為寬松,這與實際中人的聽覺機理是一致的——即語音沒有絕對精確的邊界。這樣的處理復(fù)雜度低,計算量小,減小了語音識別系統(tǒng)對精確端點檢測的依賴程度,從而提高了語音識別系統(tǒng)的魯棒性。
(4)采用音節(jié)模糊切分的方法界定語音端點及音節(jié)邊界。
(5)采用兩級識別方法,在精確模式匹配之前,系統(tǒng)根據(jù)音節(jié)概數(shù)篩選出可能的候選模板,縮小了模板搜索范圍,降低了計算量。
(6)采用矢量量化實現(xiàn)模板的訓(xùn)練與匹配,相對于HMM和DTW方法復(fù)雜度低,計算量小,而且避免了HMM和DTW方法中回溯搜索帶來的延遲。
權(quán)利要求
1.一種特定人漢語短語語音識別快速方法,其特征在于,包括以下步驟1)語音采樣及預(yù)處理將模擬語音信號采樣編碼,形成數(shù)字語音信號,經(jīng)過濾波器預(yù)加重后,語音信號被分幀并加窗;2)語音聲學(xué)特征提取從每幀語音信號中提取聲學(xué)特征,形成該幀的特征矢量;3)音節(jié)模糊切分根據(jù)各幀語音的上述聲學(xué)特征,采用模糊判決規(guī)則對語音中音節(jié)的端點作模糊判斷,檢測出大致的音節(jié)端點進行切分,統(tǒng)計出當(dāng)前語音的音節(jié)數(shù)目,作為表征語音長度的重要參數(shù);4)語音模板訓(xùn)練在訓(xùn)練階段,根據(jù)各幀聲學(xué)特征所屬的音節(jié),對各個音節(jié)的聲學(xué)特征矢量作聚類處理,形成按照音節(jié)順序排列的矢量碼本模板;5)語音模式匹配在識別階段,將語音幀的聲學(xué)特征與已訓(xùn)練的語音模板比對,記錄待識別語音與各個模板的矢量量化誤差作為相似度評分;6)識別判決基于相似度評分,如果首選模板的相似度遠遠大于第二候選模板,則確認(rèn)首選模板為識別結(jié)果;如果首選模板與第二候選模板的相似度接近,則拒絕識別該語音;上述各處理步驟按照語音幀順序以流水作業(yè)模式進行。
2.如權(quán)利要求1所述的特定人漢語短語語音識別快速方法,其特征在于,所說的音節(jié)模糊切分的方法,具體包括以下步驟(1)根據(jù)各幀語音的所述聲學(xué)特征通過語音靜默段估計出聲學(xué)參數(shù)閾值;(2)以連續(xù)10幀語音聲學(xué)特征為一組,采用組合模糊邏輯規(guī)則進行音節(jié)端點判斷;(3)根據(jù)端點判斷結(jié)果,計算出語音中包含的音節(jié)概數(shù),并判決出語音的起止區(qū)間。
3.如權(quán)利要求2所述的特定人漢語短語語音識別快速方法,其特征在于,所說的組合模糊邏輯規(guī)則具體包括(1)如果10幀中大部分幀的能量低于閾值,而且大部分幀的過零率低于閾值,則此段語音為靜默段,是音節(jié)的端點;(2)如果10幀中大部分幀的能量高于閾值,或者大部分幀的過零率高于閾值,則此段語音為音節(jié)段,不是音節(jié)的端點;(3)如果10幀中能量低于閾值與高于閾值的幀數(shù)相當(dāng),或者過零率低于閾值于高于閾值的幀數(shù)相當(dāng),則根據(jù)接下來的10幀判斷;(4)任何音節(jié)段持續(xù)至少20幀以上,即如果出現(xiàn)不滿20幀的音節(jié)段,則將此音節(jié)段強行更改為音節(jié)端點。
4.如權(quán)利要求1所述的特定人漢語短語語音識別快速方法,其特征在于,所說的語音模式匹配方法采用兩級識別方法,包括以下步驟(1)第一級識別先導(dǎo)入所有語音模板,根據(jù)待識別語音的音節(jié)概數(shù)篩選出具有相近音節(jié)概數(shù)的語音模板;(2)第二級識別然后導(dǎo)入該第一級識別后篩選出的語音模板,與待識別語音作進一步匹配,記錄積累的矢量量化誤差,輸出識別結(jié)果。
全文摘要
本發(fā)明屬于語音識別技術(shù)領(lǐng)域,包括語音采樣及預(yù)處理、語音聲學(xué)特征提取、音節(jié)模糊切分、語音模板訓(xùn)練、語音模式匹配、識別判決等,本方法在各級信號處理過程中采用了獨特的快速方法,支持漢語短語識別,使用者只需訓(xùn)練1次,具有資源消耗小、運行速度快、識別率高的突出優(yōu)點。該方法適合移植應(yīng)用于玩具、個人數(shù)字助理、通信終端等產(chǎn)品,在系統(tǒng)資源有限的情況下實現(xiàn)快速語音識別。
文檔編號G10L15/00GK1337670SQ0114161
公開日2002年2月27日 申請日期2001年9月28日 優(yōu)先權(quán)日2001年9月28日
發(fā)明者薛曉光 申請人:北京安可爾通訊技術(shù)有限公司