嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法

文檔序號(hào)：2821704閱讀：892來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種自動(dòng)語(yǔ)音識(shí)別處理方法，具體是一種嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法。用于智能信息處理技術(shù)領(lǐng)域。
背景技術(shù)：
語(yǔ)音識(shí)別技術(shù)的應(yīng)用可以分為兩個(gè)發(fā)展方向一個(gè)方向是大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)，主要應(yīng)用于計(jì)算機(jī)的聽寫機(jī)，以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語(yǔ)音信息查詢服務(wù)系統(tǒng)，這些系統(tǒng)都是在計(jì)算機(jī)平臺(tái)上實(shí)現(xiàn)的；另外一個(gè)重要的發(fā)展方向嵌入式語(yǔ)音識(shí)別系統(tǒng)，它是小型化、便攜式語(yǔ)音產(chǎn)品的應(yīng)用，如無(wú)線手機(jī)上的撥號(hào)、汽車設(shè)備的語(yǔ)音控制、智能玩具、家電遙控、個(gè)人數(shù)字助理(PDA)的語(yǔ)音交互等方面的應(yīng)用，這些應(yīng)用系統(tǒng)大都使用專門的硬件系統(tǒng)實(shí)現(xiàn)，如MCU、DSP和語(yǔ)音識(shí)別專用芯片。特別是對(duì)于移動(dòng)電話等移動(dòng)設(shè)備，語(yǔ)音輸入是最為理想的輸入方法，不但可以消除繁瑣的鍵盤輸入，而且有利于產(chǎn)品的小型化。對(duì)于其中大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)一般都是基于PC機(jī)平臺(tái)，而嵌入式語(yǔ)音識(shí)別系統(tǒng)則一般采用低功耗、低價(jià)位的MCU或DSP芯片，其運(yùn)算速度、存儲(chǔ)容量都非常有限。同時(shí)，它一般還要求識(shí)別是實(shí)時(shí)的，并具有體積小、可靠性高、耗電省、價(jià)錢低等特點(diǎn)。這些應(yīng)用特點(diǎn)以及資源的有限性是目前嵌入式語(yǔ)音識(shí)別系統(tǒng)推向?qū)嵱玫碾y點(diǎn)，因此在保證一定識(shí)別率的前提下其識(shí)別計(jì)算不能太復(fù)雜，識(shí)別的詞匯量大多是中、小詞匯量，即在10~100個(gè)命令詞之間。
現(xiàn)有的嵌入式語(yǔ)音識(shí)別系統(tǒng)有些是特定人語(yǔ)音識(shí)別，即需要用戶在使用前讓系統(tǒng)對(duì)所識(shí)別的詞條先進(jìn)行學(xué)習(xí)或訓(xùn)練。這一類識(shí)別功能對(duì)語(yǔ)種、方言沒有限制，識(shí)別率很高，但使用前的錄音和訓(xùn)練很不方便。有的系統(tǒng)能實(shí)現(xiàn)非特定人語(yǔ)音識(shí)別，即預(yù)先將所要識(shí)別的語(yǔ)音模型訓(xùn)練好并裝入系統(tǒng)的存儲(chǔ)器，用戶使用時(shí)不需要再進(jìn)行學(xué)習(xí)而直接應(yīng)用。但這一類識(shí)別功能只適用于規(guī)定的語(yǔ)種和方言，所識(shí)別的語(yǔ)句只限于預(yù)先已訓(xùn)練好的語(yǔ)句，識(shí)別率比特定人系統(tǒng)低，還有待進(jìn)一步的提高。例如Brad的基于單片機(jī)開發(fā)的Tiny-Voice系統(tǒng)。這個(gè)系統(tǒng)是一個(gè)特定說(shuō)話人的小詞匯量識(shí)別系統(tǒng)。識(shí)別的命令個(gè)數(shù)為16個(gè)。命令的輸入為手動(dòng)按鍵指示。對(duì)輸入命令的長(zhǎng)度也有要求，為0.2至1.6秒。識(shí)別的時(shí)間大致在100毫秒之內(nèi)。硬體計(jì)算單元為HC705。價(jià)格為5美金左右。TI公司的非特定人小詞匯量識(shí)別系統(tǒng)。它所采用的是HMM模型的模板。識(shí)別15個(gè)不同的命令。區(qū)別男聲和女聲。同時(shí)還建立了語(yǔ)法層的模型，支持簡(jiǎn)單語(yǔ)法的輸入。應(yīng)用的場(chǎng)景是電話撥號(hào)的語(yǔ)音識(shí)別。識(shí)別率大于90％。硬體計(jì)算單元為TMS320C2x和TMS320C5x。價(jià)格較貴，為200美金左右。這些系統(tǒng)的穩(wěn)健性不高，在低信噪比情況下的性能會(huì)急劇變壞，并且識(shí)別的命令集很小。
經(jīng)對(duì)現(xiàn)有技術(shù)的公開文獻(xiàn)檢索發(fā)現(xiàn)，專利號(hào)99123747.1，名稱為“語(yǔ)音命令控制器的訓(xùn)練與識(shí)別方法”，該專利提出了一種用于嵌入式系統(tǒng)的語(yǔ)音識(shí)別處理方法。它直接應(yīng)用訓(xùn)練語(yǔ)音壓縮形成模板，沒有考慮語(yǔ)音命令模板之間的區(qū)別性能，影響了識(shí)別的效果。它采用基于概率的識(shí)別方法，計(jì)算復(fù)雜，不適合在實(shí)時(shí)性能要求高的嵌入式系統(tǒng)中應(yīng)用。同時(shí)，它所采用的端點(diǎn)檢測(cè)方法還需提高對(duì)環(huán)境的適應(yīng)能力，對(duì)非命令詞的拒識(shí)過(guò)于簡(jiǎn)單，其性能有待進(jìn)一步提高。

發(fā)明內(nèi)容
本發(fā)明的目的是為克服現(xiàn)有技術(shù)的不足，提出一種低價(jià)的嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法，使其用于各種嵌入式應(yīng)用領(lǐng)域的實(shí)時(shí)語(yǔ)音識(shí)別與控制，有效地提高了系統(tǒng)的識(shí)別率，識(shí)別率達(dá)95％以上，算法壓力小，存儲(chǔ)空間小，很適合在硬件環(huán)境中實(shí)時(shí)運(yùn)行。
本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的，本發(fā)明由前端處理、實(shí)時(shí)識(shí)別、后端處理以及模板訓(xùn)練四個(gè)部分組成，采用自適應(yīng)端點(diǎn)檢測(cè)技術(shù)提取有聲段；采用同步方式識(shí)別輸入語(yǔ)音；應(yīng)用支持向量機(jī)算法實(shí)現(xiàn)快速的非命令語(yǔ)音拒識(shí)，提高識(shí)別的可靠性和實(shí)用性；采用多段矢量量化方法訓(xùn)練語(yǔ)音模板，并輔以MCE/GPD區(qū)別性訓(xùn)練，優(yōu)化語(yǔ)音模板提高識(shí)別性能。
以下對(duì)本發(fā)明進(jìn)一步的說(shuō)明1.前端處理由端點(diǎn)檢測(cè)和特征提取兩部分組成，其中端點(diǎn)檢測(cè)基于自適應(yīng)能量和語(yǔ)音波形特征，采用語(yǔ)音狀態(tài)圖準(zhǔn)確檢測(cè)出語(yǔ)音的開始與結(jié)束。端點(diǎn)檢測(cè)方法以語(yǔ)音能量狀態(tài)變遷為基礎(chǔ)，包含了一個(gè)測(cè)定短時(shí)能量的前向過(guò)程。先用自適應(yīng)均衡能量的方法估測(cè)出語(yǔ)音信號(hào)的背景平均能量，在此基礎(chǔ)上測(cè)定語(yǔ)音能量輪廓，把每個(gè)短時(shí)語(yǔ)音能量按一定的能量門限值轉(zhuǎn)換為狀態(tài)值。根據(jù)能量的大小和持續(xù)時(shí)間，將整個(gè)語(yǔ)音過(guò)程分成六個(gè)狀態(tài)，分別是初始態(tài)(0)、靜音態(tài)(1)、能量上升態(tài)(2)、能量持續(xù)態(tài)(3)、能量下降態(tài)(4)和上升下降態(tài)(5)，其狀態(tài)變遷的條件取決于轉(zhuǎn)變的條件。最后按能量門限值和能量狀態(tài)數(shù)值序列的邏輯關(guān)系進(jìn)行端點(diǎn)檢測(cè)。由于考慮了發(fā)音時(shí)語(yǔ)音波形從開始到結(jié)束的整個(gè)起伏過(guò)程，同時(shí)采用自適應(yīng)能量作為判斷的依據(jù)，因此端點(diǎn)檢測(cè)的準(zhǔn)確性得到了提高，并對(duì)背景噪聲具有了一定的自適應(yīng)能力。
2.實(shí)時(shí)識(shí)別識(shí)別算法采用改進(jìn)的DTW算法，修改DTW算法中使用的經(jīng)典權(quán)重，限制路徑的延展方向接近于對(duì)角線。重新定義權(quán)重之后，路徑的權(quán)重之和不再由終點(diǎn)坐標(biāo)完全確定。在路徑延展的權(quán)重比較過(guò)程當(dāng)中，必須將權(quán)重用路徑上的權(quán)重之和作均衡，使得權(quán)重之和獨(dú)立于路徑長(zhǎng)度。同時(shí)，考慮到端點(diǎn)檢測(cè)的不確定性，讓路徑的起止點(diǎn)是松弛的，改善因端點(diǎn)檢測(cè)不準(zhǔn)確引起的識(shí)別誤差。通過(guò)多次實(shí)驗(yàn)，可以選擇最優(yōu)的權(quán)重和松弛范圍。經(jīng)過(guò)修改的動(dòng)態(tài)時(shí)間規(guī)整算法，可以進(jìn)一步提高系統(tǒng)在應(yīng)用環(huán)境下的識(shí)別率。
3.后端處理主要包括非命令語(yǔ)音的拒識(shí)，這里直接利用識(shí)別的計(jì)算結(jié)果實(shí)現(xiàn)拒識(shí)功能，計(jì)算簡(jiǎn)單，不影響識(shí)別的實(shí)時(shí)性。其特征在于直接利用語(yǔ)音識(shí)別結(jié)果中前N個(gè)候選詞的識(shí)別得分，采用支持向量機(jī)(Support Vector Machine，SVM)實(shí)現(xiàn)快速拒識(shí)。算法利用統(tǒng)計(jì)學(xué)習(xí)理論在分類問(wèn)題上的最大推廣能力，在計(jì)算量沒有增加的情況下進(jìn)一步提高了性能，優(yōu)于傳統(tǒng)的基于SLP(單層感知器)或MLP(多層感知器)神經(jīng)網(wǎng)絡(luò)方法。
4.模板訓(xùn)練采用基于動(dòng)態(tài)規(guī)劃算法的多段矢量量化(Multi-Section VectorQuantization，MSVQ)方法，先將屬于同一類的訓(xùn)練語(yǔ)句按照動(dòng)態(tài)規(guī)劃算法在時(shí)間上分成幾段，然后每段中用LBG方法生成一個(gè)標(biāo)準(zhǔn)VQ碼本。MSVQ模板包含了訓(xùn)練集中所有說(shuō)話人的語(yǔ)音特征，并且保留了語(yǔ)音的時(shí)序特征，因而代表性強(qiáng)，識(shí)別率較高。同時(shí)模板具有CDHMM模板的某些特點(diǎn)，且可以大大減小模板的體積，提高識(shí)別速度，具有較好的識(shí)別效果，適用于資源有限的嵌入式識(shí)別系統(tǒng)。在MSVQ模板基礎(chǔ)之上，針對(duì)識(shí)別所采用的DTW識(shí)別技術(shù)，應(yīng)用MCE/GPD區(qū)別性訓(xùn)練算法從最小誤識(shí)率(Minimum Classification Error，MCE)的角度提高模板的區(qū)分能力，經(jīng)過(guò)區(qū)別性訓(xùn)練后，得到更為優(yōu)化的模板，識(shí)別率有明顯提高。
本發(fā)明基于16位定點(diǎn)DSP TMS320C5402芯片，是一種成本較低的可移植單元，不但可以獨(dú)立作為功能較簡(jiǎn)單的聲控裝置，而且可以方便的應(yīng)用于各種嵌入式應(yīng)用領(lǐng)域。與現(xiàn)有的嵌入式語(yǔ)音識(shí)別系統(tǒng)相比，本發(fā)明所用聲學(xué)模型的存儲(chǔ)空間小，每個(gè)只需96×16位，即192字節(jié)，有利于擴(kuò)展命令集容量；模板訓(xùn)練時(shí)采用了區(qū)別性訓(xùn)練方法，從最小化誤識(shí)率(MCE)的角度考慮模板的區(qū)分能力，而不是盡可能精確的描述訓(xùn)練數(shù)據(jù)的不同，有效地提高了系統(tǒng)的識(shí)別率；識(shí)別過(guò)程與語(yǔ)音輸入同步進(jìn)行，保證了識(shí)別的實(shí)時(shí)性，識(shí)別率達(dá)95％以上；前端處理中端點(diǎn)檢測(cè)算法按能量門限值和能量狀態(tài)數(shù)值序列的邏輯關(guān)系進(jìn)行，算法壓力小，存儲(chǔ)空間小，很適合在硬件環(huán)境中實(shí)時(shí)運(yùn)行；后端處理能有效拒識(shí)命令集以外的詞或發(fā)音，而不影響識(shí)別的實(shí)時(shí)性，拒識(shí)率高于80％。

圖1本發(fā)明的示意2端點(diǎn)檢測(cè)算法示意3區(qū)別性訓(xùn)練示意4系統(tǒng)硬件結(jié)構(gòu)示意圖具體實(shí)施方式
本發(fā)明實(shí)施例結(jié)合各圖詳細(xì)說(shuō)明如下嵌入式語(yǔ)音識(shí)別核的結(jié)構(gòu)如圖4所示，包括用于計(jì)算與控制的DSP單元；用于存放程序與語(yǔ)音識(shí)別模板的FlashROM；用于語(yǔ)音輸入的A/D轉(zhuǎn)換器與麥克風(fēng)以及用于譯碼與輸出控制的可編程邏輯器件CPLD。說(shuō)明MIC麥克風(fēng)，A/D模數(shù)轉(zhuǎn)換器，DSP數(shù)字信號(hào)處理器，RAM隨機(jī)訪問(wèn)存儲(chǔ)器，F(xiàn)lashROM快閃存儲(chǔ)器，CPLD可編程邏輯器件。
本發(fā)明的語(yǔ)音處理過(guò)程可分為前端處理、實(shí)時(shí)識(shí)別、后端處理以及模板訓(xùn)練四個(gè)部分，結(jié)合圖1說(shuō)明如下1.前端處理(1)通過(guò)A/D(模數(shù))轉(zhuǎn)換器對(duì)語(yǔ)音信號(hào)進(jìn)行采樣，并對(duì)采樣后的語(yǔ)音進(jìn)行預(yù)加重和加窗分幀處理。其中采樣頻率為8kHz，采樣數(shù)據(jù)以16位方式保存。
(2)對(duì)獲得語(yǔ)音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)計(jì)算，當(dāng)檢測(cè)到語(yǔ)音開始后，進(jìn)行下述步驟直到檢測(cè)到語(yǔ)音的結(jié)束，否則繼續(xù)檢測(cè)語(yǔ)音信號(hào)的開始點(diǎn)。根據(jù)能量的大小和持續(xù)時(shí)間，將整個(gè)語(yǔ)音過(guò)程分成六個(gè)狀態(tài)，分別是初始態(tài)(0)、靜音態(tài)(1)、能量上升態(tài)(2)、能量持續(xù)態(tài)(3)、能量下降態(tài)(4)和上升下降態(tài)(5)。其狀態(tài)變遷的條件取決于轉(zhuǎn)變的條件。當(dāng)發(fā)現(xiàn)一幀數(shù)據(jù)處于“有聲態(tài)”時(shí)，就可以標(biāo)識(shí)聲音開始。對(duì)后面的幀，系統(tǒng)可以開始做信號(hào)處理和識(shí)別的過(guò)程。對(duì)于前面的幀，完全可以丟棄，因?yàn)樗鼈兌际菬o(wú)用的。當(dāng)發(fā)現(xiàn)語(yǔ)音在“下降態(tài)”狀態(tài)中停留時(shí)間達(dá)到一定長(zhǎng)度的時(shí)候，就可以判斷語(yǔ)音已經(jīng)結(jié)束了。圖2中標(biāo)識(shí)的一些閥值系數(shù)是用來(lái)調(diào)整端點(diǎn)檢測(cè)性能的。不同的參數(shù)設(shè)置，將得到不同的端點(diǎn)檢測(cè)性能。參數(shù)說(shuō)明如下E能量，取一幀能量的以2為底的對(duì)數(shù)值L1能量門限值1，取自適應(yīng)平均能量+232L2能量門限值2，取自適應(yīng)平均能量+432Backgroundframe背景平均能量的統(tǒng)計(jì)幀數(shù)Artifact干擾能量幀數(shù)(例如嘴唇摩擦聲、重呼吸、牙齒摩擦聲都是突起干擾)WordGap在兩個(gè)聲音段之間最小間隔幀數(shù)MinWord最小的聲音段幀數(shù)MaxWord最大的聲音段幀數(shù)(3)提取語(yǔ)音信號(hào)的特征參數(shù)，即提取LPCC特征參數(shù)。
2.實(shí)時(shí)識(shí)別(1)對(duì)上一步得到的語(yǔ)音特征與所有的命令模板進(jìn)行DTW匹配計(jì)算。
(2)保存最匹配的前10個(gè)候選命令的DTW結(jié)果，并將最匹配的模板作為識(shí)別的結(jié)果。
3.識(shí)別結(jié)果的驗(yàn)證(1)識(shí)別結(jié)果的驗(yàn)證采用支持向量機(jī)(Support Vector Machine，SVM)理論實(shí)現(xiàn)假定有數(shù)據(jù)(x1，y1)，Λ，(xM，yM)，其中xi∈Rn，i＝1，2，Λ，M是d維訓(xùn)練樣本，yi∈{+1，-1}，i＝1，2，Λ，M表明該向量所屬兩類中的一類。則能區(qū)分兩類數(shù)據(jù)的支持向量機(jī)能通過(guò)以下問(wèn)題的求解獲得MaxmizeW(α)=Σi=1Mαi-12Σi,jMαiαjyiyjxi·xj]]>s.t.Σi=1Mαiyi=0---(1)]]>0≤αi≤C;i=1,...,M]]>其中C＞0是控制懲罰程度的常數(shù)。每一個(gè)拉格朗日乘數(shù)αi對(duì)應(yīng)一個(gè)訓(xùn)練樣本xi，對(duì)應(yīng)的αi＞0的訓(xùn)練樣本就被稱為“支持向量”。則最后得到的支持向量機(jī)分類函數(shù)為f(x)=sgn(w·x+b)=sgn(Σi=1Mαiyixi·x+b)---(2)]]>(2)根據(jù)每次識(shí)別的結(jié)果，設(shè)q1，q2，Λ，q10為前10個(gè)候選詞的識(shí)別得分，按從小到大的順序排列。則其歸一化識(shí)別得分為di=qiΣi=1N|qi|,i=1,Λ,10---(3)]]>相應(yīng)的歸一化一階差分為di=|qi-qi+1|Σi=1N-1|qi-qi+1|,i=1,Λ,9---(4)]]>將它們組成的特征向量{d1，Λ，d10，d1′，Λ，d9′}作為支持向量機(jī)(SVM)的輸入，計(jì)算支持向量機(jī)分類函數(shù)的結(jié)果y＝fSVM(x)。
(3)利用支持向量機(jī)輸出的分類函數(shù)結(jié)果y＝fSVM(x)∈[-1，1]，根據(jù)其符號(hào)判斷當(dāng)前識(shí)別結(jié)果所屬的類(命令與非命令兩類)，從而快速判斷出識(shí)別結(jié)果是否為命令詞，并對(duì)不屬于命令詞的語(yǔ)音進(jìn)行拒識(shí)。其中SVM在識(shí)別前由訓(xùn)練集得到，訓(xùn)練集中的數(shù)據(jù)按上述方法獲得。
4.模板訓(xùn)練(1)采用多段矢量量化(Multi-Section Vector Quantization，MSVQ)方法訓(xùn)練初始模板。設(shè)幀長(zhǎng)為T語(yǔ)音信號(hào)由一個(gè)特征矢量序列來(lái)表示X＝{x1，x2，…，xT}，MSVQ按時(shí)間先后順序?qū)⒄Z(yǔ)句均勻分段，然后根據(jù)得到的分段信息對(duì)每一段分別采用LBG方法生成一個(gè)標(biāo)準(zhǔn)VQ碼本，這里本發(fā)明取該段所有矢量的均值(質(zhì)心)作為該段碼本。
(2)結(jié)合MSVQ碼本，采用基于DTW識(shí)別的泛化概率下降(GeneralizedProbabilistic Descent，GPD)區(qū)別性訓(xùn)練算法(MCE/GPD)對(duì)模板進(jìn)行再訓(xùn)練，訓(xùn)練流程如圖3所示。
給定一個(gè)訓(xùn)練語(yǔ)句集＝{x1，x2，…，xN}，其中xi屬于M個(gè)詞Ci，i＝1，2，…，M中的一個(gè)。xi={xp,si,p=1,2,···,Pi,s=1,2,···,S}]]>是由Pi個(gè)幀組成，每幀為S維語(yǔ)音特征矢量，通常由倒譜系數(shù)組成。每個(gè)命令詞由一個(gè)參考模板代表。參考模板集Λ＝{λi＝{(Ri，Wi)}，i＝1，2，…，M}其中Ri={rq,si,q=1,2,···,Qi,s=1,2,···,S}]]>是倒譜系數(shù)序列，Wi={wqi,q=1,2,···,Qi}]]>是區(qū)別權(quán)重函數(shù)用來(lái)修正模板的距離分值。本發(fā)明的目標(biāo)是，依據(jù)GPD算法，對(duì)參考模板集Λ基于訓(xùn)練集進(jìn)行區(qū)別性訓(xùn)練，使得識(shí)別錯(cuò)誤率達(dá)到最小。
(2.1)定義訓(xùn)練語(yǔ)句x與詞Cj的參考模板rj之間的距離做為區(qū)別函數(shù)gj(x,Λ)=Σq=1Qwqjδpqj---(5)]]>其中wqj是詞Cj的參考模板的區(qū)別權(quán)重。δpqj是經(jīng)DTW匹配后得到的最佳路徑中，詞Cj的參考模板的第q個(gè)幀和x中相對(duì)應(yīng)的pq幀之間的距離。這里采用歐式距離δpqj=Σs=1S(rq,sj-xpq,s)2---(6)]]>通過(guò)以上的定義可以得到一個(gè)連續(xù)的可對(duì)其進(jìn)行梯度操作的區(qū)別函數(shù)gk(x；Λ)。
(2.2)定義誤分類測(cè)度，將識(shí)別結(jié)果嵌入其中dk(x)=gk(x;Λ)-ln{1M-1Σj,j&NotEqual;ke-gj(x;Λ)η}-1/η---(7)]]>其中η是一個(gè)正實(shí)數(shù)。
(2.3)成本函數(shù)如下定義lk(dk)=11+e-dk---(8)]]>它可以正確地近似于識(shí)別錯(cuò)誤率。
(2.4)用GPD算法自適應(yīng)地調(diào)整參考模板參數(shù)，從而使成本函數(shù)達(dá)到最小。給定一個(gè)屬于詞Ck的訓(xùn)練語(yǔ)句x，參考模板參數(shù)的調(diào)整規(guī)則如下j＝k時(shí)， j≠k時(shí)，其中vk＝lk(dk)(1-lk(dk))(11)φk=2wqk(rq,sk-xpq,s)---(12)]]>πj,k=e-gjηΣj′,j′&NotEqual;ke-gj′η---(13)]]>ϵt=ϵ0(1-tT)---(14)]]>t表示第t次迭代，T是最大迭代次數(shù)，ε0是一個(gè)較小的正數(shù)。一般經(jīng)過(guò)幾十次迭代就可得到收斂值。通過(guò)梯度下降方法實(shí)現(xiàn)最小化分類錯(cuò)誤率的區(qū)別性訓(xùn)練，可以獲得優(yōu)化后的命令模板。
權(quán)利要求
1.一種嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法，其特征在于，由前端處理、實(shí)時(shí)識(shí)別、后端處理以及模板訓(xùn)練四個(gè)部分組成，采用自適應(yīng)端點(diǎn)檢測(cè)技術(shù)提取有聲段，采用同步方式識(shí)別輸入語(yǔ)音，應(yīng)用支持向量機(jī)算法實(shí)現(xiàn)快速的非命令語(yǔ)音拒識(shí)，提高識(shí)別的可靠性和實(shí)用性，采用多段矢量量化方法訓(xùn)練語(yǔ)音模板，并輔以MCE/GPD區(qū)別性訓(xùn)練，優(yōu)化語(yǔ)音模板提高識(shí)別性能。
2.如權(quán)利要求1所述的嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法，其特征是，所述的前端處理，具體如下由端點(diǎn)檢測(cè)和特征提取兩部分組成，其中端點(diǎn)檢測(cè)基于自適應(yīng)能量和語(yǔ)音波形特征，采用語(yǔ)音狀態(tài)圖準(zhǔn)確檢測(cè)出語(yǔ)音的開始與結(jié)束，端點(diǎn)檢測(cè)方法以語(yǔ)音能量狀態(tài)變遷為基礎(chǔ)，包含了一個(gè)測(cè)定短時(shí)能量的前向過(guò)程，先用自適應(yīng)均衡能量的方法估測(cè)出語(yǔ)音信號(hào)的背景平均能量，在此基礎(chǔ)上測(cè)定語(yǔ)音能量輪廓，把每個(gè)短時(shí)語(yǔ)音能量按一定的能量門限值轉(zhuǎn)換為狀態(tài)值，根據(jù)能量的大小和持續(xù)時(shí)間，將整個(gè)語(yǔ)音過(guò)程分成六個(gè)狀態(tài)，分別是初始態(tài)、靜音態(tài)、能量上升態(tài)、能量持續(xù)態(tài)、能量下降態(tài)和上升下降態(tài)，其狀態(tài)變遷的條件取決于轉(zhuǎn)變的條件，最后按能量門限值和能量狀態(tài)數(shù)值序列的邏輯關(guān)系進(jìn)行端點(diǎn)檢測(cè)。
3.如權(quán)利要求1所述的嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法，其特征是，所述的實(shí)時(shí)識(shí)別，具體如下識(shí)別算法采用改進(jìn)的DTW算法，修改DTW算法中使用的經(jīng)典權(quán)重，限制路徑的延展方向接近于對(duì)角線，重新定義權(quán)重之后，在路徑延展的權(quán)重比較過(guò)程當(dāng)中，必須將權(quán)重用路徑上的權(quán)重之和作均衡，使得權(quán)重之和獨(dú)立于路徑長(zhǎng)度，同時(shí)，考慮到端點(diǎn)檢測(cè)的穩(wěn)定性差，讓路徑的起止點(diǎn)是松弛的，改善因端點(diǎn)檢測(cè)穩(wěn)定性差引起的識(shí)別誤差。
4.如權(quán)利要求1所述的嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法，其特征是，所述的后端處理，具體如下包括非命令語(yǔ)音的拒識(shí)，直接利用語(yǔ)音識(shí)別結(jié)果中前N個(gè)候選詞的識(shí)別得分，采用支持向量機(jī)實(shí)現(xiàn)快速拒識(shí)。
5.如權(quán)利要求1所述的嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法，其特征是，所述的模板訓(xùn)練，具體如下模板訓(xùn)練采用基于動(dòng)態(tài)規(guī)劃算法的多段矢量量化方法，先將屬于同一類的訓(xùn)練語(yǔ)句按照動(dòng)態(tài)規(guī)劃算法在時(shí)間上分成幾段，然后每段中用LBG方法生成一個(gè)標(biāo)準(zhǔn)VQ碼本，MSVQ模板包含了訓(xùn)練集中所有說(shuō)話人的語(yǔ)音特征，并且保留了語(yǔ)音的時(shí)序特征，在MSVQ模板基礎(chǔ)之上，針對(duì)識(shí)別所采用的DTW識(shí)別技術(shù)，應(yīng)用MCE/GPD區(qū)別性訓(xùn)練算法從最小誤識(shí)率的角度提高模板的區(qū)分能力，經(jīng)過(guò)區(qū)別性訓(xùn)練后，得到更為優(yōu)化的模板。
全文摘要
一種嵌入式語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)語(yǔ)音識(shí)別處理方法。用于智能信息處理技術(shù)領(lǐng)域。本發(fā)明由前端處理、實(shí)時(shí)識(shí)別、后端處理以及模板訓(xùn)練四個(gè)部分組成，采用自適應(yīng)端點(diǎn)檢測(cè)技術(shù)提取有聲段，采用同步方式識(shí)別輸入語(yǔ)音，應(yīng)用支持向量機(jī)算法實(shí)現(xiàn)快速的非命令語(yǔ)音拒識(shí)，提高識(shí)別的可靠性和實(shí)用性，采用多段矢量量化方法訓(xùn)練語(yǔ)音模板，并輔以MCE/GPD區(qū)別性訓(xùn)練，優(yōu)化語(yǔ)音模板提高識(shí)別性能。本發(fā)明所用聲學(xué)模型的存儲(chǔ)空間小，有效地提高了系統(tǒng)的識(shí)別率，識(shí)別率達(dá)95％以上，算法壓力小，存儲(chǔ)空間小，拒識(shí)率高于80％。
文檔編號(hào)G10L15/02GK1588535SQ20041006679
公開日2005年3月2日申請(qǐng)日期2004年9月29日優(yōu)先權(quán)日2004年9月29日
發(fā)明者朱杰, 蔡鐵申請(qǐng)人:上海交通大學(xué)

完整全部詳細(xì)技術(shù)資料下載