專利名稱:嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種自動(dòng)語(yǔ)音識(shí)別處理方法,具體是一種嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法。用于智能信息處理技術(shù)領(lǐng)域。
背景技術(shù):
語(yǔ)音識(shí)別技術(shù)的應(yīng)用可以分為兩個(gè)發(fā)展方向一個(gè)方向是大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽寫機(jī),以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語(yǔ)音信息查詢服務(wù)系統(tǒng),這些系統(tǒng)都是在計(jì)算機(jī)平臺(tái)上實(shí)現(xiàn)的;另外一個(gè)重要的發(fā)展方向嵌入式語(yǔ)音識(shí)別系統(tǒng),它是小型化、便攜式語(yǔ)音產(chǎn)品的應(yīng)用,如無(wú)線手機(jī)上的撥號(hào)、汽車設(shè)備的語(yǔ)音控制、智能玩具、家電遙控、個(gè)人數(shù)字助理(PDA)的語(yǔ)音交互等方面的應(yīng)用,這些應(yīng)用系統(tǒng)大都使用專門的硬件系統(tǒng)實(shí)現(xiàn),如MCU、DSP和語(yǔ)音識(shí)別專用芯片。特別是對(duì)于移動(dòng)電話等移動(dòng)設(shè)備,語(yǔ)音輸入是最為理想的輸入方法,不但可以消除繁瑣的鍵盤輸入,而且有利于產(chǎn)品的小型化。對(duì)于其中大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)一般都是基于PC機(jī)平臺(tái),而嵌入式語(yǔ)音識(shí)別系統(tǒng)則一般采用低功耗、低價(jià)位的MCU或DSP芯片,其運(yùn)算速度、存儲(chǔ)容量都非常有限。同時(shí),它一般還要求識(shí)別是實(shí)時(shí)的,并具有體積小、可靠性高、耗電省、價(jià)錢低等特點(diǎn)。這些應(yīng)用特點(diǎn)以及資源的有限性是目前嵌入式語(yǔ)音識(shí)別系統(tǒng)推向?qū)嵱玫碾y點(diǎn),因此在保證一定識(shí)別率的前提下其識(shí)別計(jì)算不能太復(fù)雜,識(shí)別的詞匯量大多是中、小詞匯量,即在10~100個(gè)命令詞之間。
現(xiàn)有的嵌入式語(yǔ)音識(shí)別系統(tǒng)有些是特定人語(yǔ)音識(shí)別,即需要用戶在使用前讓系統(tǒng)對(duì)所識(shí)別的詞條先進(jìn)行學(xué)習(xí)或訓(xùn)練。這一類識(shí)別功能對(duì)語(yǔ)種、方言沒有限制,識(shí)別率很高,但使用前的錄音和訓(xùn)練很不方便。有的系統(tǒng)能實(shí)現(xiàn)非特定人語(yǔ)音識(shí)別,即預(yù)先將所要識(shí)別的語(yǔ)音模型訓(xùn)練好并裝入系統(tǒng)的存儲(chǔ)器,用戶使用時(shí)不需要再進(jìn)行學(xué)習(xí)而直接應(yīng)用。但這一類識(shí)別功能只適用于規(guī)定的語(yǔ)種和方言,所識(shí)別的語(yǔ)句只限于預(yù)先已訓(xùn)練好的語(yǔ)句,識(shí)別率比特定人系統(tǒng)低,還有待進(jìn)一步的提高。例如Brad的基于單片機(jī)開發(fā)的Tiny-Voice系統(tǒng)。這個(gè)系統(tǒng)是一個(gè)特定說(shuō)話人的小詞匯量識(shí)別系統(tǒng)。識(shí)別的命令個(gè)數(shù)為16個(gè)。命令的輸入為手動(dòng)按鍵指示。對(duì)輸入命令的長(zhǎng)度也有要求,為0.2至1.6秒。識(shí)別的時(shí)間大致在100毫秒之內(nèi)。硬體計(jì)算單元為HC705。價(jià)格為5美金左右。TI公司的非特定人小詞匯量識(shí)別系統(tǒng)。它所采用的是HMM模型的模板。識(shí)別15個(gè)不同的命令。區(qū)別男聲和女聲。同時(shí)還建立了語(yǔ)法層的模型,支持簡(jiǎn)單語(yǔ)法的輸入。應(yīng)用的場(chǎng)景是電話撥號(hào)的語(yǔ)音識(shí)別。識(shí)別率大于90%。硬體計(jì)算單元為TMS320C2x和TMS320C5x。價(jià)格較貴,為200美金左右。這些系統(tǒng)的穩(wěn)健性不高,在低信噪比情況下的性能會(huì)急劇變壞,并且識(shí)別的命令集很小。
經(jīng)對(duì)現(xiàn)有技術(shù)的公開文獻(xiàn)檢索發(fā)現(xiàn),專利號(hào)99123747.1,名稱為“語(yǔ)音命令控制器的訓(xùn)練與識(shí)別方法”,該專利提出了一種用于嵌入式系統(tǒng)的語(yǔ)音識(shí)別處理方法。它直接應(yīng)用訓(xùn)練語(yǔ)音壓縮形成模板,沒有考慮語(yǔ)音命令模板之間的區(qū)別性能,影響了識(shí)別的效果。它采用基于概率的識(shí)別方法,計(jì)算復(fù)雜,不適合在實(shí)時(shí)性能要求高的嵌入式系統(tǒng)中應(yīng)用。同時(shí),它所采用的端點(diǎn)檢測(cè)方法還需提高對(duì)環(huán)境的適應(yīng)能力,對(duì)非命令詞的拒識(shí)過(guò)于簡(jiǎn)單,其性能有待進(jìn)一步提高。
發(fā)明內(nèi)容
本發(fā)明的目的是為克服現(xiàn)有技術(shù)的不足,提出一種低價(jià)的嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法,使其用于各種嵌入式應(yīng)用領(lǐng)域的實(shí)時(shí)語(yǔ)音識(shí)別與控制,有效地提高了系統(tǒng)的識(shí)別率,識(shí)別率達(dá)95%以上,算法壓力小,存儲(chǔ)空間小,很適合在硬件環(huán)境中實(shí)時(shí)運(yùn)行。
本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的,本發(fā)明由前端處理、實(shí)時(shí)識(shí)別、后端處理以及模板訓(xùn)練四個(gè)部分組成,采用自適應(yīng)端點(diǎn)檢測(cè)技術(shù)提取有聲段;采用同步方式識(shí)別輸入語(yǔ)音;應(yīng)用支持向量機(jī)算法實(shí)現(xiàn)快速的非命令語(yǔ)音拒識(shí),提高識(shí)別的可靠性和實(shí)用性;采用多段矢量量化方法訓(xùn)練語(yǔ)音模板,并輔以MCE/GPD區(qū)別性訓(xùn)練,優(yōu)化語(yǔ)音模板提高識(shí)別性能。
以下對(duì)本發(fā)明進(jìn)一步的說(shuō)明1.前端處理由端點(diǎn)檢測(cè)和特征提取兩部分組成,其中端點(diǎn)檢測(cè)基于自適應(yīng)能量和語(yǔ)音波形特征,采用語(yǔ)音狀態(tài)圖準(zhǔn)確檢測(cè)出語(yǔ)音的開始與結(jié)束。端點(diǎn)檢測(cè)方法以語(yǔ)音能量狀態(tài)變遷為基礎(chǔ),包含了一個(gè)測(cè)定短時(shí)能量的前向過(guò)程。先用自適應(yīng)均衡能量的方法估測(cè)出語(yǔ)音信號(hào)的背景平均能量,在此基礎(chǔ)上測(cè)定語(yǔ)音能量輪廓,把每個(gè)短時(shí)語(yǔ)音能量按一定的能量門限值轉(zhuǎn)換為狀態(tài)值。根據(jù)能量的大小和持續(xù)時(shí)間,將整個(gè)語(yǔ)音過(guò)程分成六個(gè)狀態(tài),分別是初始態(tài)(0)、靜音態(tài)(1)、能量上升態(tài)(2)、能量持續(xù)態(tài)(3)、能量下降態(tài)(4)和上升下降態(tài)(5),其狀態(tài)變遷的條件取決于轉(zhuǎn)變的條件。最后按能量門限值和能量狀態(tài)數(shù)值序列的邏輯關(guān)系進(jìn)行端點(diǎn)檢測(cè)。由于考慮了發(fā)音時(shí)語(yǔ)音波形從開始到結(jié)束的整個(gè)起伏過(guò)程,同時(shí)采用自適應(yīng)能量作為判斷的依據(jù),因此端點(diǎn)檢測(cè)的準(zhǔn)確性得到了提高,并對(duì)背景噪聲具有了一定的自適應(yīng)能力。
2.實(shí)時(shí)識(shí)別識(shí)別算法采用改進(jìn)的DTW算法,修改DTW算法中使用的經(jīng)典權(quán)重,限制路徑的延展方向接近于對(duì)角線。重新定義權(quán)重之后,路徑的權(quán)重之和不再由終點(diǎn)坐標(biāo)完全確定。在路徑延展的權(quán)重比較過(guò)程當(dāng)中,必須將權(quán)重用路徑上的權(quán)重之和作均衡,使得權(quán)重之和獨(dú)立于路徑長(zhǎng)度。同時(shí),考慮到端點(diǎn)檢測(cè)的不確定性,讓路徑的起止點(diǎn)是松弛的,改善因端點(diǎn)檢測(cè)不準(zhǔn)確引起的識(shí)別誤差。通過(guò)多次實(shí)驗(yàn),可以選擇最優(yōu)的權(quán)重和松弛范圍。經(jīng)過(guò)修改的動(dòng)態(tài)時(shí)間規(guī)整算法,可以進(jìn)一步提高系統(tǒng)在應(yīng)用環(huán)境下的識(shí)別率。
3.后端處理主要包括非命令語(yǔ)音的拒識(shí),這里直接利用識(shí)別的計(jì)算結(jié)果實(shí)現(xiàn)拒識(shí)功能,計(jì)算簡(jiǎn)單,不影響識(shí)別的實(shí)時(shí)性。其特征在于直接利用語(yǔ)音識(shí)別結(jié)果中前N個(gè)候選詞的識(shí)別得分,采用支持向量機(jī)(Support Vector Machine,SVM)實(shí)現(xiàn)快速拒識(shí)。算法利用統(tǒng)計(jì)學(xué)習(xí)理論在分類問(wèn)題上的最大推廣能力,在計(jì)算量沒有增加的情況下進(jìn)一步提高了性能,優(yōu)于傳統(tǒng)的基于SLP(單層感知器)或MLP(多層感知器)神經(jīng)網(wǎng)絡(luò)方法。
4.模板訓(xùn)練采用基于動(dòng)態(tài)規(guī)劃算法的多段矢量量化(Multi-Section VectorQuantization,MSVQ)方法,先將屬于同一類的訓(xùn)練語(yǔ)句按照動(dòng)態(tài)規(guī)劃算法在時(shí)間上分成幾段,然后每段中用LBG方法生成一個(gè)標(biāo)準(zhǔn)VQ碼本。MSVQ模板包含了訓(xùn)練集中所有說(shuō)話人的語(yǔ)音特征,并且保留了語(yǔ)音的時(shí)序特征,因而代表性強(qiáng),識(shí)別率較高。同時(shí)模板具有CDHMM模板的某些特點(diǎn),且可以大大減小模板的體積,提高識(shí)別速度,具有較好的識(shí)別效果,適用于資源有限的嵌入式識(shí)別系統(tǒng)。在MSVQ模板基礎(chǔ)之上,針對(duì)識(shí)別所采用的DTW識(shí)別技術(shù),應(yīng)用MCE/GPD區(qū)別性訓(xùn)練算法從最小誤識(shí)率(Minimum Classification Error,MCE)的角度提高模板的區(qū)分能力,經(jīng)過(guò)區(qū)別性訓(xùn)練后,得到更為優(yōu)化的模板,識(shí)別率有明顯提高。
本發(fā)明基于16位定點(diǎn)DSP TMS320C5402芯片,是一種成本較低的可移植單元,不但可以獨(dú)立作為功能較簡(jiǎn)單的聲控裝置,而且可以方便的應(yīng)用于各種嵌入式應(yīng)用領(lǐng)域。與現(xiàn)有的嵌入式語(yǔ)音識(shí)別系統(tǒng)相比,本發(fā)明所用聲學(xué)模型的存儲(chǔ)空間小,每個(gè)只需96×16位,即192字節(jié),有利于擴(kuò)展命令集容量;模板訓(xùn)練時(shí)采用了區(qū)別性訓(xùn)練方法,從最小化誤識(shí)率(MCE)的角度考慮模板的區(qū)分能力,而不是盡可能精確的描述訓(xùn)練數(shù)據(jù)的不同,有效地提高了系統(tǒng)的識(shí)別率;識(shí)別過(guò)程與語(yǔ)音輸入同步進(jìn)行,保證了識(shí)別的實(shí)時(shí)性,識(shí)別率達(dá)95%以上;前端處理中端點(diǎn)檢測(cè)算法按能量門限值和能量狀態(tài)數(shù)值序列的邏輯關(guān)系進(jìn)行,算法壓力小,存儲(chǔ)空間小,很適合在硬件環(huán)境中實(shí)時(shí)運(yùn)行;后端處理能有效拒識(shí)命令集以外的詞或發(fā)音,而不影響識(shí)別的實(shí)時(shí)性,拒識(shí)率高于80%。
圖1本發(fā)明的示意2端點(diǎn)檢測(cè)算法示意3區(qū)別性訓(xùn)練示意4系統(tǒng)硬件結(jié)構(gòu)示意圖具體實(shí)施方式
本發(fā)明實(shí)施例結(jié)合各圖詳細(xì)說(shuō)明如下嵌入式語(yǔ)音識(shí)別核的結(jié)構(gòu)如圖4所示,包括用于計(jì)算與控制的DSP單元;用于存放程序與語(yǔ)音識(shí)別模板的FlashROM;用于語(yǔ)音輸入的A/D轉(zhuǎn)換器與麥克風(fēng)以及用于譯碼與輸出控制的可編程邏輯器件CPLD。說(shuō)明MIC麥克風(fēng),A/D模數(shù)轉(zhuǎn)換器,DSP數(shù)字信號(hào)處理器,RAM隨機(jī)訪問(wèn)存儲(chǔ)器,F(xiàn)lashROM快閃存儲(chǔ)器,CPLD可編程邏輯器件。
本發(fā)明的語(yǔ)音處理過(guò)程可分為前端處理、實(shí)時(shí)識(shí)別、后端處理以及模板訓(xùn)練四個(gè)部分,結(jié)合圖1說(shuō)明如下1.前端處理(1)通過(guò)A/D(模數(shù))轉(zhuǎn)換器對(duì)語(yǔ)音信號(hào)進(jìn)行采樣,并對(duì)采樣后的語(yǔ)音進(jìn)行預(yù)加重和加窗分幀處理。其中采樣頻率為8kHz,采樣數(shù)據(jù)以16位方式保存。
(2)對(duì)獲得語(yǔ)音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)計(jì)算,當(dāng)檢測(cè)到語(yǔ)音開始后,進(jìn)行下述步驟直到檢測(cè)到語(yǔ)音的結(jié)束,否則繼續(xù)檢測(cè)語(yǔ)音信號(hào)的開始點(diǎn)。根據(jù)能量的大小和持續(xù)時(shí)間,將整個(gè)語(yǔ)音過(guò)程分成六個(gè)狀態(tài),分別是初始態(tài)(0)、靜音態(tài)(1)、能量上升態(tài)(2)、能量持續(xù)態(tài)(3)、能量下降態(tài)(4)和上升下降態(tài)(5)。其狀態(tài)變遷的條件取決于轉(zhuǎn)變的條件。當(dāng)發(fā)現(xiàn)一幀數(shù)據(jù)處于“有聲態(tài)”時(shí),就可以標(biāo)識(shí)聲音開始。對(duì)后面的幀,系統(tǒng)可以開始做信號(hào)處理和識(shí)別的過(guò)程。對(duì)于前面的幀,完全可以丟棄,因?yàn)樗鼈兌际菬o(wú)用的。當(dāng)發(fā)現(xiàn)語(yǔ)音在“下降態(tài)”狀態(tài)中停留時(shí)間達(dá)到一定長(zhǎng)度的時(shí)候,就可以判斷語(yǔ)音已經(jīng)結(jié)束了。圖2中標(biāo)識(shí)的一些閥值系數(shù)是用來(lái)調(diào)整端點(diǎn)檢測(cè)性能的。不同的參數(shù)設(shè)置,將得到不同的端點(diǎn)檢測(cè)性能。參數(shù)說(shuō)明如下E能量,取一幀能量的以2為底的對(duì)數(shù)值L1能量門限值1,取自適應(yīng)平均能量+232L2能量門限值2,取自適應(yīng)平均能量+432Backgroundframe背景平均能量的統(tǒng)計(jì)幀數(shù)Artifact干擾能量幀數(shù)(例如嘴唇摩擦聲、重呼吸、牙齒摩擦聲都是突起干擾)WordGap在兩個(gè)聲音段之間最小間隔幀數(shù)MinWord最小的聲音段幀數(shù)MaxWord最大的聲音段幀數(shù)(3)提取語(yǔ)音信號(hào)的特征參數(shù),即提取LPCC特征參數(shù)。
2.實(shí)時(shí)識(shí)別(1)對(duì)上一步得到的語(yǔ)音特征與所有的命令模板進(jìn)行DTW匹配計(jì)算。
(2)保存最匹配的前10個(gè)候選命令的DTW結(jié)果,并將最匹配的模板作為識(shí)別的結(jié)果。
3.識(shí)別結(jié)果的驗(yàn)證(1)識(shí)別結(jié)果的驗(yàn)證采用支持向量機(jī)(Support Vector Machine,SVM)理論實(shí)現(xiàn)假定有數(shù)據(jù)(x1,y1),Λ,(xM,yM),其中xi∈Rn,i=1,2,Λ,M是d維訓(xùn)練樣本,yi∈{+1,-1},i=1,2,Λ,M表明該向量所屬兩類中的一類。則能區(qū)分兩類數(shù)據(jù)的支持向量機(jī)能通過(guò)以下問(wèn)題的求解獲得MaxmizeW(α)=Σi=1Mαi-12Σi,jMαiαjyiyjxi·xj]]>s.t.Σi=1Mαiyi=0---(1)]]>0≤αi≤C;i=1,...,M]]>其中C>0是控制懲罰程度的常數(shù)。每一個(gè)拉格朗日乘數(shù)αi對(duì)應(yīng)一個(gè)訓(xùn)練樣本xi,對(duì)應(yīng)的αi>0的訓(xùn)練樣本就被稱為“支持向量”。則最后得到的支持向量機(jī)分類函數(shù)為f(x)=sgn(w·x+b)=sgn(Σi=1Mαiyixi·x+b)---(2)]]>(2)根據(jù)每次識(shí)別的結(jié)果,設(shè)q1,q2,Λ,q10為前10個(gè)候選詞的識(shí)別得分,按從小到大的順序排列。則其歸一化識(shí)別得分為di=qiΣi=1N|qi|,i=1,Λ,10---(3)]]>相應(yīng)的歸一化一階差分為di=|qi-qi+1|Σi=1N-1|qi-qi+1|,i=1,Λ,9---(4)]]>將它們組成的特征向量{d1,Λ,d10,d1′,Λ,d9′}作為支持向量機(jī)(SVM)的輸入,計(jì)算支持向量機(jī)分類函數(shù)的結(jié)果y=fSVM(x)。
(3)利用支持向量機(jī)輸出的分類函數(shù)結(jié)果y=fSVM(x)∈[-1,1],根據(jù)其符號(hào)判斷當(dāng)前識(shí)別結(jié)果所屬的類(命令與非命令兩類),從而快速判斷出識(shí)別結(jié)果是否為命令詞,并對(duì)不屬于命令詞的語(yǔ)音進(jìn)行拒識(shí)。其中SVM在識(shí)別前由訓(xùn)練集得到,訓(xùn)練集中的數(shù)據(jù)按上述方法獲得。
4.模板訓(xùn)練(1)采用多段矢量量化(Multi-Section Vector Quantization,MSVQ)方法訓(xùn)練初始模板。設(shè)幀長(zhǎng)為T語(yǔ)音信號(hào)由一個(gè)特征矢量序列來(lái)表示X={x1,x2,…,xT},MSVQ按時(shí)間先后順序?qū)⒄Z(yǔ)句均勻分段,然后根據(jù)得到的分段信息對(duì)每一段分別采用LBG方法生成一個(gè)標(biāo)準(zhǔn)VQ碼本,這里本發(fā)明取該段所有矢量的均值(質(zhì)心)作為該段碼本。
(2)結(jié)合MSVQ碼本,采用基于DTW識(shí)別的泛化概率下降(GeneralizedProbabilistic Descent,GPD)區(qū)別性訓(xùn)練算法(MCE/GPD)對(duì)模板進(jìn)行再訓(xùn)練,訓(xùn)練流程如圖3所示。
給定一個(gè)訓(xùn)練語(yǔ)句集={x1,x2,…,xN},其中xi屬于M個(gè)詞Ci,i=1,2,…,M中的一個(gè)。xi={xp,si,p=1,2,···,Pi,s=1,2,···,S}]]>是由Pi個(gè)幀組成,每幀為S維語(yǔ)音特征矢量,通常由倒譜系數(shù)組成。每個(gè)命令詞由一個(gè)參考模板代表。參考模板集Λ={λi={(Ri,Wi)},i=1,2,…,M}其中Ri={rq,si,q=1,2,···,Qi,s=1,2,···,S}]]>是倒譜系數(shù)序列,Wi={wqi,q=1,2,···,Qi}]]>是區(qū)別權(quán)重函數(shù)用來(lái)修正模板的距離分值。本發(fā)明的目標(biāo)是,依據(jù)GPD算法,對(duì)參考模板集Λ基于訓(xùn)練集進(jìn)行區(qū)別性訓(xùn)練,使得識(shí)別錯(cuò)誤率達(dá)到最小。
(2.1)定義訓(xùn)練語(yǔ)句x與詞Cj的參考模板rj之間的距離做為區(qū)別函數(shù)gj(x,Λ)=Σq=1Qwqjδpqj---(5)]]>其中wqj是詞Cj的參考模板的區(qū)別權(quán)重。δpqj是經(jīng)DTW匹配后得到的最佳路徑中,詞Cj的參考模板的第q個(gè)幀和x中相對(duì)應(yīng)的pq幀之間的距離。這里采用歐式距離δpqj=Σs=1S(rq,sj-xpq,s)2---(6)]]>通過(guò)以上的定義可以得到一個(gè)連續(xù)的可對(duì)其進(jìn)行梯度操作的區(qū)別函數(shù)gk(x;Λ)。
(2.2)定義誤分類測(cè)度,將識(shí)別結(jié)果嵌入其中dk(x)=gk(x;Λ)-ln{1M-1Σj,j≠ke-gj(x;Λ)η}-1/η---(7)]]>其中η是一個(gè)正實(shí)數(shù)。
(2.3)成本函數(shù)如下定義lk(dk)=11+e-dk---(8)]]>它可以正確地近似于識(shí)別錯(cuò)誤率。
(2.4)用GPD算法自適應(yīng)地調(diào)整參考模板參數(shù),從而使成本函數(shù)達(dá)到最小。給定一個(gè)屬于詞Ck的訓(xùn)練語(yǔ)句x,參考模板參數(shù)的調(diào)整規(guī)則如下j=k時(shí), j≠k時(shí), 其中vk=lk(dk)(1-lk(dk))(11)φk=2wqk(rq,sk-xpq,s)---(12)]]>πj,k=e-gjηΣj′,j′≠ke-gj′η---(13)]]>ϵt=ϵ0(1-tT)---(14)]]>t表示第t次迭代,T是最大迭代次數(shù),ε0是一個(gè)較小的正數(shù)。一般經(jīng)過(guò)幾十次迭代就可得到收斂值。通過(guò)梯度下降方法實(shí)現(xiàn)最小化分類錯(cuò)誤率的區(qū)別性訓(xùn)練,可以獲得優(yōu)化后的命令模板。
權(quán)利要求
1.一種嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法,其特征在于,由前端處理、實(shí)時(shí)識(shí)別、后端處理以及模板訓(xùn)練四個(gè)部分組成,采用自適應(yīng)端點(diǎn)檢測(cè)技術(shù)提取有聲段,采用同步方式識(shí)別輸入語(yǔ)音,應(yīng)用支持向量機(jī)算法實(shí)現(xiàn)快速的非命令語(yǔ)音拒識(shí),提高識(shí)別的可靠性和實(shí)用性,采用多段矢量量化方法訓(xùn)練語(yǔ)音模板,并輔以MCE/GPD區(qū)別性訓(xùn)練,優(yōu)化語(yǔ)音模板提高識(shí)別性能。
2.如權(quán)利要求1所述的嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法,其特征是,所述的前端處理,具體如下由端點(diǎn)檢測(cè)和特征提取兩部分組成,其中端點(diǎn)檢測(cè)基于自適應(yīng)能量和語(yǔ)音波形特征,采用語(yǔ)音狀態(tài)圖準(zhǔn)確檢測(cè)出語(yǔ)音的開始與結(jié)束,端點(diǎn)檢測(cè)方法以語(yǔ)音能量狀態(tài)變遷為基礎(chǔ),包含了一個(gè)測(cè)定短時(shí)能量的前向過(guò)程,先用自適應(yīng)均衡能量的方法估測(cè)出語(yǔ)音信號(hào)的背景平均能量,在此基礎(chǔ)上測(cè)定語(yǔ)音能量輪廓,把每個(gè)短時(shí)語(yǔ)音能量按一定的能量門限值轉(zhuǎn)換為狀態(tài)值,根據(jù)能量的大小和持續(xù)時(shí)間,將整個(gè)語(yǔ)音過(guò)程分成六個(gè)狀態(tài),分別是初始態(tài)、靜音態(tài)、能量上升態(tài)、能量持續(xù)態(tài)、能量下降態(tài)和上升下降態(tài),其狀態(tài)變遷的條件取決于轉(zhuǎn)變的條件,最后按能量門限值和能量狀態(tài)數(shù)值序列的邏輯關(guān)系進(jìn)行端點(diǎn)檢測(cè)。
3.如權(quán)利要求1所述的嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法,其特征是,所述的實(shí)時(shí)識(shí)別,具體如下識(shí)別算法采用改進(jìn)的DTW算法,修改DTW算法中使用的經(jīng)典權(quán)重,限制路徑的延展方向接近于對(duì)角線,重新定義權(quán)重之后,在路徑延展的權(quán)重比較過(guò)程當(dāng)中,必須將權(quán)重用路徑上的權(quán)重之和作均衡,使得權(quán)重之和獨(dú)立于路徑長(zhǎng)度,同時(shí),考慮到端點(diǎn)檢測(cè)的穩(wěn)定性差,讓路徑的起止點(diǎn)是松弛的,改善因端點(diǎn)檢測(cè)穩(wěn)定性差引起的識(shí)別誤差。
4.如權(quán)利要求1所述的嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法,其特征是,所述的后端處理,具體如下包括非命令語(yǔ)音的拒識(shí),直接利用語(yǔ)音識(shí)別結(jié)果中前N個(gè)候選詞的識(shí)別得分,采用支持向量機(jī)實(shí)現(xiàn)快速拒識(shí)。
5.如權(quán)利要求1所述的嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法,其特征是,所述的模板訓(xùn)練,具體如下模板訓(xùn)練采用基于動(dòng)態(tài)規(guī)劃算法的多段矢量量化方法,先將屬于同一類的訓(xùn)練語(yǔ)句按照動(dòng)態(tài)規(guī)劃算法在時(shí)間上分成幾段,然后每段中用LBG方法生成一個(gè)標(biāo)準(zhǔn)VQ碼本,MSVQ模板包含了訓(xùn)練集中所有說(shuō)話人的語(yǔ)音特征,并且保留了語(yǔ)音的時(shí)序特征,在MSVQ模板基礎(chǔ)之上,針對(duì)識(shí)別所采用的DTW識(shí)別技術(shù),應(yīng)用MCE/GPD區(qū)別性訓(xùn)練算法從最小誤識(shí)率的角度提高模板的區(qū)分能力,經(jīng)過(guò)區(qū)別性訓(xùn)練后,得到更為優(yōu)化的模板。
全文摘要
一種嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法。用于智能信息處理技術(shù)領(lǐng)域。本發(fā)明由前端處理、實(shí)時(shí)識(shí)別、后端處理以及模板訓(xùn)練四個(gè)部分組成,采用自適應(yīng)端點(diǎn)檢測(cè)技術(shù)提取有聲段,采用同步方式識(shí)別輸入語(yǔ)音,應(yīng)用支持向量機(jī)算法實(shí)現(xiàn)快速的非命令語(yǔ)音拒識(shí),提高識(shí)別的可靠性和實(shí)用性,采用多段矢量量化方法訓(xùn)練語(yǔ)音模板,并輔以MCE/GPD區(qū)別性訓(xùn)練,優(yōu)化語(yǔ)音模板提高識(shí)別性能。本發(fā)明所用聲學(xué)模型的存儲(chǔ)空間小,有效地提高了系統(tǒng)的識(shí)別率,識(shí)別率達(dá)95%以上,算法壓力小,存儲(chǔ)空間小,拒識(shí)率高于80%。
文檔編號(hào)G10L15/02GK1588535SQ20041006679
公開日2005年3月2日 申請(qǐng)日期2004年9月29日 優(yōu)先權(quán)日2004年9月29日
發(fā)明者朱杰, 蔡鐵 申請(qǐng)人:上海交通大學(xué)