專利名稱:基于語音識(shí)別專用芯片的非特定人語音識(shí)別、語音提示方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音技術(shù)領(lǐng)域,尤其涉及采用8位或16位單片MCU微控制器實(shí)現(xiàn)小詞表特定人、非特定人語音識(shí)別方法。特別適合用于8位微控制器的語音識(shí)別專用芯片。
特定人語音識(shí)別專用芯片,近年來在國(guó)外發(fā)展很快。國(guó)外一些語音技術(shù)和半導(dǎo)體公司都投入大量人力和物力開發(fā)語音識(shí)別專用芯片,并對(duì)自己的語音識(shí)別方法進(jìn)行專利保護(hù)。這些專用芯片的語音識(shí)別性能也各不相同。通常語音識(shí)別的過程如
圖1所示,輸入的語音信號(hào)首先經(jīng)過A/D進(jìn)行采樣,頻譜整形加窗預(yù)加重處理,提高高頻成分,進(jìn)行實(shí)時(shí)特征參數(shù)提取,提取的參數(shù)為線性預(yù)測(cè)倒譜系數(shù)(LPCC)或Me1頻標(biāo)倒譜系數(shù)(MFCC),然后進(jìn)行端點(diǎn)檢測(cè),提取有效語音參數(shù),并進(jìn)行語音識(shí)別模板訓(xùn)練或語音識(shí)別模板匹配,并將最好的識(shí)別結(jié)果輸出。其專用芯片的硬件系統(tǒng)一般如圖2所示,包括執(zhí)行語音識(shí)別和語音合成方法的8位或16位單片MCU微控制器及與其相連的自動(dòng)增益控制(AGC)、音頻前置放大器、低通濾波器、數(shù)/模(A/D)、模/數(shù)(D/A)、音頻功率放大器、語音合成器、隨機(jī)存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、脈寬調(diào)制(PWM)。目前美國(guó)Sensory公司生產(chǎn)的語音識(shí)別專用芯片RSC-164系列產(chǎn)品是目前國(guó)際上可以買到識(shí)別性能最好專用芯片之一。這些語音識(shí)別專用芯片已經(jīng)用于不同的手機(jī)和無繩電話中。隨著語音識(shí)別技術(shù)提高,語音識(shí)別專用芯片將被廣泛地應(yīng)用于各種家用電器和控制系統(tǒng)中,形成信息家電產(chǎn)業(yè),這是一個(gè)迅速發(fā)展而且潛力很大的新興高科技產(chǎn)業(yè)。目前Philips公司和韓國(guó)三星公司推出的具有特定人語音識(shí)別聲控?fù)芴?hào)功能的手機(jī)。識(shí)別人名的個(gè)數(shù)為10~20個(gè)。而且并不具有非特定人語音識(shí)別的能力。目前還未見到基于專用芯片的非特定人的中文語音識(shí)別方法,非特定人的英文語音識(shí)別方法也只能識(shí)別極少量詞匯,如yes、no等。
本發(fā)明的目的是為克服已有技術(shù)的不足之處,提出一種基于語音識(shí)別專用芯片的非特定人語音識(shí)別、語音提示方法,可在廉價(jià)8位單片或16位MCU微控制器實(shí)現(xiàn)高精度特定人語音識(shí)別,具有方法復(fù)雜度低,識(shí)別精度高和穩(wěn)健性好的特點(diǎn)。特別是對(duì)漢語數(shù)碼語音識(shí)別性能達(dá)到、甚至超過當(dāng)前的國(guó)際先進(jìn)水平。
本發(fā)明提出一種基于語音識(shí)別專用芯片的非特定人語音識(shí)別、語音提示方法,包括A/D采樣,頻譜整形加窗預(yù)加重處理,特征參數(shù)提取,端點(diǎn)檢測(cè),語音識(shí)別模板訓(xùn)練,語音識(shí)別模板匹配,識(shí)別結(jié)果輸出,以及語音合成,其特征在于,具體包括以下步驟A、非特定人語音識(shí)別的預(yù)先訓(xùn)練訓(xùn)練過程要求有大量的語音庫(kù),訓(xùn)練過程在PC機(jī)上完成,將訓(xùn)練后的模板存入芯片中,其訓(xùn)練方法包括采用基于多項(xiàng)式的分類方法;識(shí)別模型的參數(shù)用多項(xiàng)式的系數(shù)來表示;通過多項(xiàng)式來逼近后驗(yàn)概率;模型參數(shù)通過線性方程組的優(yōu)化計(jì)算方法求得;B、語音識(shí)別參數(shù)提取(1)語音信號(hào)輸入后采用A/D進(jìn)行采樣,成為原始的數(shù)字語音,采用電平增益控制,以確保采樣的高精度;(2)對(duì)所說的原始數(shù)字語音信號(hào)進(jìn)行頻譜整形及分幀加窗處理,以保證分幀語音的準(zhǔn)平穩(wěn)性;(3)對(duì)所說的分幀語音的特征進(jìn)行語音特征提取,主要特征參數(shù)采用線性預(yù)測(cè)倒頻譜系數(shù)(LPCC),并存儲(chǔ)用于后面動(dòng)態(tài)分段和模板提?。?4)使用語音信號(hào)的過零率與短時(shí)能量特征進(jìn)行端點(diǎn)檢測(cè),去除無聲區(qū)的語音幀,以保證各幀語音特征的有效性;C、非特定人語音命令的識(shí)別識(shí)別過程采用兩級(jí)識(shí)別結(jié)構(gòu),分為粗識(shí)別和精識(shí)別。對(duì)不容易混淆的命令粗識(shí)別就可以得出結(jié)果,對(duì)易于混淆的命令通過更精細(xì)的模型進(jìn)行識(shí)別;D、非特定人語音識(shí)別的說話人自適應(yīng)學(xué)習(xí)對(duì)說話人具有地方口音或說話不規(guī)范時(shí),識(shí)別系統(tǒng)會(huì)造成誤判,采用說話人自適應(yīng)方法對(duì)識(shí)別模板進(jìn)行調(diào)整;所說的自適應(yīng)調(diào)整方法采用最大后驗(yàn)概率方法,通過迭代方法逐步修正識(shí)別模板參數(shù);E.語音提示語音提示使用語音合成與語音編解碼技術(shù),但考慮到系統(tǒng)資源的限制,應(yīng)該盡可能減小系統(tǒng)的開銷;語音合成模型參數(shù)分析提取過程在計(jì)算機(jī)上完成,然后存儲(chǔ)在芯片中,因此語音分析參數(shù)提取方法可以非常復(fù)雜,從而保證有高質(zhì)量的合成語音,但需要存儲(chǔ)的語音合成模型參數(shù)應(yīng)盡可能少,語音合成方法也要盡可能簡(jiǎn)單;本發(fā)明的語音合成模型使用多脈沖語音合成模型。
所說的語音特征提取中的電平增益控制可包括對(duì)輸入語音信號(hào)采樣精度進(jìn)行判斷,如果輸入語音信號(hào)采樣精度不夠高,通過自適應(yīng)電平控制,調(diào)整語音的放大量,提高語音采樣精度;所說的端點(diǎn)檢測(cè)方法為根據(jù)設(shè)定的端點(diǎn)門限,搜索靜音段,確定語音的起、始端點(diǎn);所說的倒譜參數(shù)是根據(jù)語音的線性預(yù)測(cè)模型(LPC)計(jì)算得到。
所說的語音識(shí)別的預(yù)先訓(xùn)練方法中的識(shí)別模型訓(xùn)練過程可為建立要識(shí)別語音命令的數(shù)據(jù)庫(kù),然后提取語音的特征參數(shù),特征參數(shù)提取的過程與前面相同。通過迭代的學(xué)習(xí)過程,提取基于多項(xiàng)式的分類模型的識(shí)別參數(shù)。學(xué)習(xí)過程采用次優(yōu)方法,每次調(diào)整多項(xiàng)式的分類模型中一個(gè)參數(shù),直到所要求的模型參數(shù)都計(jì)算出來;整個(gè)訓(xùn)練過程在計(jì)算機(jī)上完成,最后將訓(xùn)練后得出的模型參數(shù)存入語音識(shí)別專用芯片中,作為識(shí)別模型;這是與特定人語音識(shí)別不同的地方;所說的語音命令識(shí)別方法的中識(shí)別過程可為計(jì)算每個(gè)多項(xiàng)式的分類模型的輸出結(jié)果,取輸出概率最大的模型為識(shí)別結(jié)果;識(shí)別過程采用粗識(shí)別和精識(shí)別兩級(jí)識(shí)別;其區(qū)別在于粗識(shí)別的模型參數(shù)較少,識(shí)別速度快,精識(shí)別模型參數(shù)較多。對(duì)易于混淆的命令通過精識(shí)別可以提高識(shí)別率。
所說的語音命令的識(shí)別方法中的自適應(yīng)采用模型自適應(yīng)調(diào)整技術(shù),對(duì)識(shí)別錯(cuò)誤的語音命令,通過自適應(yīng)學(xué)習(xí)后,識(shí)別率可以明顯改進(jìn)。自適應(yīng)過程可為輸入要求自適應(yīng)的語音數(shù)據(jù),采用基于最大后驗(yàn)概率的自適應(yīng)方法,通過迭代分別對(duì)語音識(shí)別參數(shù)進(jìn)行調(diào)整,使模型之間鑒別測(cè)度保持最大鑒別性。
所說的語音提示中的采用語音合成方法,具體可包括以下步驟(1)使用多脈沖語音合成模型,在PC機(jī)上通過優(yōu)化方法提取語音合成模型的LPC參數(shù)與激勵(lì)參數(shù)。
(2)LPC參數(shù)的量化用10個(gè)比特進(jìn)行矢量量化;LPC模型的激勵(lì)脈沖的個(gè)數(shù)為25個(gè),采用一階基音周期環(huán)路,這些參數(shù)使用189個(gè)比特進(jìn)行標(biāo)量量化。
(3)為保證合成語音的平滑,在幀間進(jìn)行線性插值。
本發(fā)明具有如下特點(diǎn)(1)本發(fā)明為基于語音識(shí)別專用芯片的中小詞匯量非特定人語音識(shí)別方法。這些方法具有復(fù)雜性低、識(shí)別精度高、穩(wěn)健性好等特點(diǎn)。
(2)采用識(shí)別參數(shù)與編碼參數(shù)共享的辦法,從而大大減少了對(duì)系統(tǒng)資源的要求,同時(shí)保證有很高的編碼質(zhì)量。
(3)由于采用8位MCU或16位DSP為核心,采用10位線性A/D、D/A,因此該芯片具有體積小、重量輕、耗電省、成本低等突出特點(diǎn)。在通信、工業(yè)控制、智能型家用電器、智能玩具、汽車電子等領(lǐng)域有著極大的應(yīng)用價(jià)值。
(4)本發(fā)明的語音識(shí)別命令條數(shù)在8位芯上為10條以內(nèi),在16位芯片上為30條。對(duì)8位芯片識(shí)別率為95%以上,對(duì)16位芯片識(shí)別率為98%以上。
附簡(jiǎn)要說明圖1為通常語音識(shí)別的過程示意框圖。
圖2為一般語音專用芯片的硬件系統(tǒng)組成示意圖。
圖3為本發(fā)明實(shí)施例的方法總體構(gòu)成示意圖。
圖4本實(shí)施例的端點(diǎn)檢測(cè)方法框圖如所示。
圖5為本實(shí)施例的非特定人語音訓(xùn)練過程整體流程框圖。
圖6為本實(shí)施例的非特定人孤立詞識(shí)別器的識(shí)別流程框圖。
圖7為本實(shí)施例的識(shí)別判決過程詳細(xì)流程圖。
本發(fā)明提出的一種基于語音識(shí)別專用芯片的非特定人語音識(shí)別、語音提示方法實(shí)施例結(jié)合各圖詳細(xì)說明如下本發(fā)明的實(shí)施例整個(gè)方法構(gòu)成如圖3所示,整個(gè)過程可以分為(1)A/D采樣及采樣后語音的與加重,提高高頻信號(hào)的能量,加窗分幀處理;(2)語音特征參數(shù)的提取(包括端點(diǎn)檢測(cè)參數(shù)、識(shí)別模型參數(shù))、(3)端點(diǎn)檢測(cè),確定有效的語音參數(shù);(4)對(duì)有效的語音特征參數(shù)進(jìn)行動(dòng)態(tài)分段,以減小參數(shù)的模板存儲(chǔ)空間;(5)語音識(shí)別通過模式匹配方法進(jìn)行模板比較,并將語音識(shí)別結(jié)果輸出。每個(gè)步驟的細(xì)節(jié)說明如下。1、語音識(shí)別參數(shù)特征提取(1)語音信號(hào)首先進(jìn)行低通濾波器,然后通過10-位線性A/D進(jìn)行采樣,成為原始的數(shù)字語音,采用10位A/D的目的是為了降低芯片的成本。由于A/D的精度低,因此從方法上要對(duì)增益控制放大器進(jìn)行控制、以及對(duì)輸入信號(hào)的能量和過載情況進(jìn)行判斷,以便確保充分利用好10位A/D的動(dòng)態(tài)范圍,得到盡可能高的采樣精度。(2)對(duì)原始數(shù)字語音信號(hào)進(jìn)行頻譜整形及分幀加窗處理,保證分幀語音的準(zhǔn)平穩(wěn)性。預(yù)加重濾波器取為1-0.95z-1,過零率計(jì)算中,抬起電平取為4。(3)對(duì)分幀語音的特征進(jìn)行語音特征提取,語音特征包括LPCC倒譜系數(shù)、能量、過零率等,并存儲(chǔ)用于后面動(dòng)態(tài)分段。其中很重要的一步相關(guān)函數(shù)值的計(jì)算需要實(shí)時(shí)完成,由于基于8位的單片機(jī)僅有8位的無符號(hào)乘法,因此計(jì)算相關(guān)函數(shù)值的過程如下α(n)=s(n)+128R(i)=Σns(n)×s(n+i)=Σn(a(n)-128)×(a(n+i)-128)]]>=Σna(n)×a(n+i)-128×Σn(a(n)+a(n+i))+Σn128×128]]>上式中,s(n)為有8位有符號(hào)數(shù),轉(zhuǎn)換成為無符號(hào)數(shù)α(n)。顯然乘積用三個(gè)字節(jié)保存不可能發(fā)生溢出(幀長(zhǎng)不大于256)。2、端點(diǎn)檢測(cè)(1)保證各幀語音特征的有效性,消除無關(guān)的噪聲,必須進(jìn)行語音的端點(diǎn)檢測(cè)和判斷。本發(fā)明的端點(diǎn)檢測(cè)方法分為兩步,首先根據(jù)語音信號(hào)能量對(duì)端點(diǎn)進(jìn)行初步判決,當(dāng)能量大于某一確定值后,確定為初步的起始點(diǎn),然后從該起點(diǎn)繼續(xù)向后尋找語音信號(hào)能量更大的濁音幀,進(jìn)行濁音段定位。如果濁音幀存在說明該端點(diǎn)判斷基本正確,從濁音幀開始向前、向后搜索靜音幀作為語音的起始幀。將搜索的結(jié)果輸出。端點(diǎn)檢測(cè)框圖如圖4所示。它的基本方法為ZERO_RATE_TH是過零率的一個(gè)閾值,ACTIVE_LEVEL、INACTIVE_LEVEL和ON_LEVEL是能量的閾值。(2)系統(tǒng)的初始值定為無聲狀態(tài)。在無聲狀態(tài)下,當(dāng)過零率超過閾值ZERO_RATE_TH或能量超過閾值A(chǔ)CTIVE_LEVEL′時(shí),轉(zhuǎn)入激活狀態(tài),若能量超過閾值ON_LEVEL,則直接轉(zhuǎn)入有聲狀態(tài)。記此幀為語音的前端點(diǎn)。(3)在激活狀態(tài)下,若能量超過閾值ON_LEVEL,則轉(zhuǎn)入有聲狀態(tài);若連續(xù)若干幀(由常數(shù)CONST_DURATION設(shè)定)能量都超不過閾值ON_LEVEL,轉(zhuǎn)入無聲態(tài)。(4)在有聲狀態(tài),若能量低于閾值INACTIVE_LEVEL,則轉(zhuǎn)入非激活狀態(tài)。標(biāo)記此幀為語音的后端點(diǎn)。(5)在非激活狀態(tài),若連續(xù)若干幀(由常數(shù)CONST_DURATION設(shè)定)能量都超不過閾值INACTIVE_LEVEL,則語音結(jié)束;否則轉(zhuǎn)入有聲狀態(tài)。
參數(shù)的實(shí)際取值如下ZERO_RATE_TH取為0.4,ACTIVE_LEVEL更據(jù)背景噪音設(shè)置,INACTIVE_LEVEL取為ACTIVE_LEVEL的4倍,ON_LEVEL取為ACTIVE_LEVEL的8倍,CONST_DURATION設(shè)為20幀。
3、語音特征動(dòng)態(tài)分段、加權(quán)平均(1)對(duì)輸入語音特征進(jìn)行動(dòng)態(tài)分段和加權(quán)平均,提高清輔音特征參數(shù)在識(shí)別中的比重,提取語音特征中最重要的模板參數(shù)。語音特征分段是該系統(tǒng)語音識(shí)別方法的核心之一。
(2)動(dòng)態(tài)分段采用計(jì)算不同幀間的語音特征參數(shù)的歸一化歐氏距離。當(dāng)變化超過一定的門限,認(rèn)定該點(diǎn)為語音特征重要分界點(diǎn)。對(duì)不同段內(nèi)語音特征進(jìn)行加權(quán)平均,并把它們作為新的語音特征參數(shù)保存下來,并清除早先的語音特征。
通過平均使模型參數(shù)大大地減小,不僅節(jié)省存儲(chǔ)空間,而且減少了運(yùn)算的復(fù)雜度和提高了系統(tǒng)運(yùn)算速度。
4、非特定人語音識(shí)別模板的訓(xùn)練非特定人語音識(shí)別模板參數(shù)的訓(xùn)練在計(jì)算機(jī)上完成,首先進(jìn)行語音特征參數(shù)的提取,使用基于多項(xiàng)式分類模型,通過多項(xiàng)式來逼近后驗(yàn)概率。多項(xiàng)式模型的階數(shù)和模型精度有關(guān),采用二次多項(xiàng)式分類模型就可以達(dá)到很高識(shí)別精度。整個(gè)方法如下令F(V)=(f1(V)f2(V)…f10(V))T=ATX(V)其中f1(V)是多項(xiàng)式逼近函數(shù),X(V)是多項(xiàng)式的特征矢量,它由語音特征矢量不同分量之間的相互乘積組成?;谧钚【秸`差(MSE)準(zhǔn)則優(yōu)化方法,用D(V)估計(jì)后驗(yàn)概率A=argminAE{|D(V)-P|2}=argminAE{|ATX(V-)Y|2}---(1)]]>其中P是概率矢量。Y=(0,0,0,…,0,1,0,…,0)是P的近似矢量,僅僅與V相對(duì)應(yīng)的類的值為1,其它值為0。滿足等式(1)的解為E{XXT}A*=E{XYT} (2)非特定人語音識(shí)別系統(tǒng)的訓(xùn)練流程圖如圖5所示,詳細(xì)說明如下(1)由輸入的語音特征矢量計(jì)算多項(xiàng)式的特征矢量X(V)。
其中vtk是Vi的第k維分量。(2)將多項(xiàng)式特征矢量分K類,K為識(shí)別詞數(shù)。Ω是分類器訓(xùn)練集合。Ci表示第i類,i=1,…,K。{Xci}表示所有屬于第i類的語音的所有多項(xiàng)式特征。
(3)為了提高訓(xùn)練效率,預(yù)先把有關(guān)的一階統(tǒng)計(jì)量E(X)與二階統(tǒng)計(jì)量E(XXT)計(jì)算完成。
(4)基于最小均方誤差準(zhǔn)則優(yōu)化方法,采用次優(yōu)的優(yōu)化方法,每次調(diào)整多項(xiàng)式的分類模型中鑒別性最高的一個(gè)模型參數(shù),直到滿足模型的精度要求。并從高維的多項(xiàng)式特征矢量X中計(jì)算出實(shí)際使用的特征分量,構(gòu)成分類器訓(xùn)練特征矢量X*,(5)采用公式(2)重新優(yōu)化整體多項(xiàng)式分類模型參數(shù),系統(tǒng)訓(xùn)練完成。
5、非特定人語音識(shí)別非特定人語音識(shí)別流程圖如圖6所示。詳細(xì)的步驟如下(1)輸入語音信號(hào),提取語音識(shí)別特征,方法與前面相同。
(2)計(jì)算多項(xiàng)式的特征矢量X(V)。
(3)計(jì)算每一個(gè)多項(xiàng)式模型的輸出概率值。di=(1TΣi=1TXi)Tai---(4)]]>其中αi是多項(xiàng)式分類模型參數(shù)A的第i分量A=[α1α2…αK]T。(4)由(4)式判決找出輸出概率最大的為識(shí)別結(jié)果。為提高識(shí)別速度和識(shí)別精度,識(shí)別判決過程還分為粗識(shí)別和精識(shí)別兩個(gè)過程。詳細(xì)流圖如圖7所示。粗識(shí)別的模型參數(shù)較少,模型參數(shù)為300個(gè),粗識(shí)別速度快。對(duì)一些易混的語音和粗識(shí)別可信測(cè)度差的語音必須進(jìn)行精識(shí)別,精識(shí)別模型的參數(shù)較多,比粗識(shí)別多100個(gè)左右。精識(shí)別模型的訓(xùn)練方法和粗識(shí)別方法相同。首先進(jìn)行粗識(shí)別,將粗識(shí)別頭3選識(shí)別結(jié)果送入可信測(cè)度計(jì)算模塊,當(dāng)識(shí)別結(jié)果的可信度低或存在易混語音,則將粗識(shí)別結(jié)果送入精識(shí)別模塊,對(duì)粗識(shí)別前三選結(jié)果進(jìn)行進(jìn)一步精識(shí)別,然后將精識(shí)別結(jié)果送入可信測(cè)度模塊進(jìn)一步判定可信測(cè)度判決。如果僅識(shí)別的結(jié)果仍然不滿足可信測(cè)度的要求,系統(tǒng)進(jìn)行拒識(shí),提示重新輸入語音。(5)可信測(cè)度計(jì)算方法比較復(fù)雜,為將第一選識(shí)別概率與前三選識(shí)別結(jié)果的平均概率構(gòu)成的似然比,以及第一選識(shí)別概率與第二選概率構(gòu)成的似然比組合成為綜合可信測(cè)度估值,如果該似然比值小于某個(gè)門限(該值約為3,根據(jù)不同環(huán)境噪聲可以設(shè)定不同值),則認(rèn)為可信測(cè)度低。6、非特定人語音識(shí)別模型的自適應(yīng)(1)自適應(yīng)過程為說話人對(duì)識(shí)別錯(cuò)誤的語音進(jìn)行有監(jiān)督學(xué)習(xí),通過實(shí)時(shí)的調(diào)整識(shí)別多項(xiàng)式模型的參數(shù),增加模型之間的鑒別度。如果一次自適應(yīng)后,不能達(dá)到結(jié)果,可以進(jìn)行多次自適應(yīng)學(xué)習(xí),直到得到滿意識(shí)別結(jié)果為止。(2)自適應(yīng)方法采用迭代方法,對(duì)識(shí)別模板進(jìn)行修正,該方法是具有鑒別特性的方法,在修正錯(cuò)誤模板的同時(shí)也能夠同時(shí)調(diào)整其它相關(guān)的模板,調(diào)整步長(zhǎng)α的取值要小于0.01,否則容易造成過調(diào)整。自適應(yīng)調(diào)整方法如下Ak+1T=E{XXT}k+1-1E{XYT}k+1]]>≈AkT+αE{XXT}k+1-1Xk+1[Yk+1T-Xk+1TAkT]----(5)]]>其中Ak+1為更新后模型參數(shù),Ak為更新前模型參數(shù)。α為調(diào)整步長(zhǎng),取值約為10-3,x為多項(xiàng)式的特征矢量。用英語TI-digit數(shù)據(jù)庫(kù)訓(xùn)練英語數(shù)字識(shí)別模型,對(duì)某些中國(guó)人發(fā)音的英語數(shù)字識(shí)別率很低(78%),但通過自適應(yīng)調(diào)整后,識(shí)別率有了明顯提高,達(dá)到99%以上。
7、語音提示處理(1)采用多脈沖激勵(lì)LPC語音合成模型;模型參數(shù)在計(jì)算機(jī)上預(yù)先進(jìn)行處理,編輯,壓縮,然后存入專用芯片的ROM中;LPC分析幀長(zhǎng)為20毫秒;LPC參數(shù)的量化用10個(gè)比特進(jìn)行矢量量化;基音周期5比特量化,基音預(yù)測(cè)器系數(shù)3比特量化,激勵(lì)脈沖的個(gè)數(shù)為25個(gè),每個(gè)脈沖位置用4比特量化,最大幅度的脈沖在對(duì)數(shù)域用6個(gè)比特量化,其余脈沖的幅度在對(duì)數(shù)域用3個(gè)比特量化。
(2)為減少對(duì)多脈沖位置參數(shù)量化的比特?cái)?shù),對(duì)多脈沖參數(shù)的估值方法進(jìn)行改進(jìn);該方法對(duì)脈沖的最小間距進(jìn)行限制,脈沖的位置序號(hào)僅僅可以出現(xiàn)在以3位倍數(shù)的點(diǎn)上;脈沖之間的最大間距不允許超過48;最大脈沖間距的限制條件,不可能在脈沖提取的優(yōu)化過程中一次滿足;每次脈沖提取的優(yōu)化完成后,將碼沖幅度最小的5個(gè)脈沖去掉,插入到脈沖間距大于48的兩個(gè)脈沖之間;該過程重復(fù)直到滿足脈沖間距要求的條件為止。
(3)參數(shù)的解碼過程采用查表方法;為保證合成語音的平滑,在解碼過程進(jìn)行幀間線性插值;對(duì)每幀語音的頭1/3與后1/3分別對(duì)LPC參數(shù)進(jìn)行幀間線性插值。
(4)為進(jìn)一步提高語音合成的主觀質(zhì)量,使用感覺加權(quán)濾波器進(jìn)行后濾波處理。
本實(shí)施例基于上述方法開發(fā)了一種語基于音識(shí)別專用芯片的中小詞匯量特定人、非特定人語音識(shí)別方法。通常語音識(shí)別專用芯片內(nèi)包括音頻預(yù)放大器、自動(dòng)增益控制(AGC)、數(shù)/模(A/D)轉(zhuǎn)換器、模/數(shù)(D/A)轉(zhuǎn)換器、MCU核(8051)、脈寬調(diào)制器(PWM)、隨機(jī)存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、閃爍存儲(chǔ)器(FLASH)。ROM中存儲(chǔ)有語音合成方法、語音編碼方法、語音識(shí)別訓(xùn)練方法和語音識(shí)別方法,以及提示語音。語音識(shí)別的模板和提示語音存于FLASH中。
權(quán)利要求
1.一種基于語音識(shí)別專用芯片的非特定人語音識(shí)別、語音提示方法,包括A/D采樣,頻譜整形加窗預(yù)加重處理,特征參數(shù)提取,端點(diǎn)檢測(cè),語音識(shí)別模板訓(xùn)練,語音識(shí)別模板匹配,識(shí)別結(jié)果輸出,以及語音提示,其特征在于,具體包括以下步驟A、非特定人語音識(shí)別的預(yù)先訓(xùn)練訓(xùn)練過程要求有大量的語音庫(kù),訓(xùn)練過程在PC機(jī)上完成,將訓(xùn)練后的模板存入芯片中,其訓(xùn)練方法包括采用基于多項(xiàng)式的分類方法;識(shí)別模型的參數(shù)用多項(xiàng)式的系數(shù)來表示;通過多項(xiàng)式來逼近后驗(yàn)概率;模型參數(shù)通過線性方程組的優(yōu)化計(jì)算方法求得;B、語音識(shí)別參數(shù)提取(1)語音信號(hào)輸入后采用A/D進(jìn)行采樣,成為原始的數(shù)字語音,采用電平增益控制,以確保采樣的高精度;(2)對(duì)所說的原始數(shù)字語音信號(hào)進(jìn)行頻譜整形及分幀加窗處理,以保證分幀語音的準(zhǔn)平穩(wěn)性;(3)對(duì)所說的分幀語音的特征進(jìn)行語音特征提取,主要特征參數(shù)采用線性預(yù)測(cè)倒頻譜系數(shù)(LPCC),并存儲(chǔ)用于后面動(dòng)態(tài)分段和模板提??;(4)使用語音信號(hào)的過零率與短時(shí)能量特征進(jìn)行端點(diǎn)檢測(cè),去除無聲區(qū)的語音幀,以保證各幀語音特征的有效性;C、非特定人語音命令的識(shí)別識(shí)別過程采用兩級(jí)識(shí)別結(jié)構(gòu),分為粗識(shí)別和精識(shí)別。對(duì)不容易混淆的命令粗識(shí)別就可以得出結(jié)果,對(duì)易于混淆的命令通過更精細(xì)的模型進(jìn)行識(shí)別;以提高識(shí)別的平均速度和識(shí)別精度;D、非特定人語音識(shí)別的說話人自適應(yīng)學(xué)習(xí)對(duì)說話人具有地方口音或說話不規(guī)范時(shí),識(shí)別系統(tǒng)會(huì)造成誤判,采用說話人自適應(yīng)方法對(duì)識(shí)別模板進(jìn)行調(diào)整;所說的自適應(yīng)調(diào)整方法采用最大后驗(yàn)概率方法,通過迭代方法逐步修正識(shí)別模板參數(shù);E.語音提示語音提示使用語音合成與語音編解碼技術(shù),語音合成模型參數(shù)分析提取過程在計(jì)算機(jī)上完成,然后存儲(chǔ)在芯片中用語語音合成,因此語音分析參數(shù)提取方法可以非常復(fù)雜,從而保證有高質(zhì)量的合成語音,但需要存儲(chǔ)的語音合成模型參數(shù)應(yīng)盡可能少,語音合成方法也要盡可能簡(jiǎn)單;語音合成模型使用多脈沖語音合成模型。
2.如權(quán)利要求1所述的的非特定人語音識(shí)別、語音提示方法,其特征在于,所說的語音特征提取中的電平增益控制包括對(duì)輸入語音信號(hào)采樣精度進(jìn)行判斷,如果輸入語音信號(hào)采樣精度不夠高,通過自適應(yīng)電平控制,調(diào)整語音的放大量,提高語音采樣精度;所說的端點(diǎn)檢測(cè)方法為根據(jù)設(shè)定的端點(diǎn)門限,搜索靜音段,確定語音的起、始端點(diǎn);所說的倒譜參數(shù)是根據(jù)語音的線性預(yù)測(cè)模型(LPC)計(jì)算得到。
3.如權(quán)利要求1所述的非特定人語音識(shí)別、語音提示方法,其特征在于,所說的語音識(shí)別的預(yù)先訓(xùn)練方法中的識(shí)別模型訓(xùn)練過程為建立要識(shí)別語音命令的數(shù)據(jù)庫(kù),然后提取語音的特征參數(shù),特征參數(shù)提取的過程與前面相同。通過迭代的學(xué)習(xí)過程,提取基于多項(xiàng)式的分類模型的識(shí)別參數(shù)。學(xué)習(xí)過程采用次優(yōu)方法,每次調(diào)整多項(xiàng)式的分類模型中一個(gè)參數(shù),直到所要求的模型參數(shù)都計(jì)算出來;整個(gè)訓(xùn)練過程在計(jì)算機(jī)上完成,最后將訓(xùn)練后得出的模型參數(shù)存入語音識(shí)別專用芯片中,作為識(shí)別模型;這是與特定人語音識(shí)別不同的地方;
4.如權(quán)利要求1所述的非特定人語音識(shí)別、語音提示方法,其特征在于,所說的語音命令識(shí)別方法的中識(shí)別過程為計(jì)算每個(gè)多項(xiàng)式的分類模型的輸出結(jié)果,取輸出概率最大的模型為識(shí)別結(jié)果;識(shí)別過程采用粗識(shí)別和精識(shí)別兩級(jí)識(shí)別;其區(qū)別在于粗識(shí)別的模型參數(shù)較少,識(shí)別速度快,精識(shí)別模型參數(shù)較多。對(duì)易于混淆的命令通過精識(shí)別可以提高識(shí)別率。
5.如權(quán)利要求1所述的非特定人語音識(shí)別、語音提示方法,其特征在于,所說的語音命令的識(shí)別方法中的自適應(yīng)采用模型自適應(yīng)調(diào)整技術(shù),對(duì)識(shí)別錯(cuò)誤的語音命令,通過自適應(yīng)學(xué)習(xí)后,識(shí)別率可以明顯改進(jìn)。自適應(yīng)過程為輸入要求自適應(yīng)的語音數(shù)據(jù),采用基于最大后驗(yàn)概率的自適應(yīng)方法,通過迭代分別對(duì)語音識(shí)別參數(shù)進(jìn)行調(diào)整,使模型之間鑒別測(cè)度保持最大鑒別性。
6.如權(quán)利要求1所述的非特定人語音識(shí)別、語音提示方法,其特征在于,所說的語音提示中的采用改進(jìn)的多脈沖語音合成方法,其中包括多脈沖幅度和位置的估值方法;幀間模型參數(shù)的插值方法。
全文摘要
本發(fā)明屬于語音技術(shù)領(lǐng)域,包括:非特定人語音識(shí)別的預(yù)先訓(xùn)練、語音識(shí)別參數(shù)提取、非特定人語音命令的識(shí)別、非特定人語音識(shí)別的說話人自適應(yīng)學(xué)習(xí)、語音提示。本識(shí)別方法具有方法簡(jiǎn)單、識(shí)別率高、穩(wěn)健性好等特點(diǎn)。構(gòu)成的系統(tǒng)可以用于玩具控制、聲控?fù)芴?hào)、智能性家用電器、學(xué)習(xí)機(jī)、以及生產(chǎn)環(huán)節(jié)的控制系統(tǒng)中。
文檔編號(hào)G10L15/00GK1264887SQ00105548
公開日2000年8月30日 申請(qǐng)日期2000年3月31日 優(yōu)先權(quán)日2000年3月31日
發(fā)明者劉加, 李曉宇, 史緩緩, 劉潤(rùn)生 申請(qǐng)人:清華大學(xué)