亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

非特定人的嵌入式中英文混合語(yǔ)音識(shí)別方法及系統(tǒng)的制作方法

文檔序號(hào):2832286閱讀:583來(lái)源:國(guó)知局
專利名稱:非特定人的嵌入式中英文混合語(yǔ)音識(shí)別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及自動(dòng)語(yǔ)音識(shí)別技術(shù)領(lǐng)域,是一種非特定人的、面向計(jì)算和存儲(chǔ)資源有限的嵌入式應(yīng)用環(huán)境、支持中英文混合語(yǔ)言的語(yǔ)音識(shí)別方法及系統(tǒng)。

背景技術(shù)
語(yǔ)音是人類溝通和獲取信息最自然、最便捷的方式。智能語(yǔ)音交互技術(shù)主要包括語(yǔ)音識(shí)別技術(shù)、語(yǔ)音合成技術(shù)、語(yǔ)音評(píng)測(cè)技術(shù)等,智能語(yǔ)音交互將是繼圖形交互模式(GUI)之后人機(jī)交互模式上具有突破性意義的變革。
語(yǔ)音識(shí)別技術(shù)是讓機(jī)器聽(tīng)懂人說(shuō)話,通過(guò)機(jī)器自動(dòng)將語(yǔ)音信號(hào)轉(zhuǎn)化為文本及相關(guān)信息的技術(shù),是智能語(yǔ)音交互技術(shù)中非常重要的、也是非常關(guān)鍵的部分。從語(yǔ)音識(shí)別技術(shù)發(fā)展的情況看,其應(yīng)用主要向以下兩個(gè)方向發(fā)展一個(gè)是大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要應(yīng)用于聽(tīng)寫(xiě)機(jī)、語(yǔ)音信息查詢服務(wù)系統(tǒng)、海量音頻數(shù)據(jù)自動(dòng)標(biāo)注系統(tǒng)等,這些系統(tǒng)都運(yùn)行在PC平臺(tái)或服務(wù)器上;另一個(gè)是嵌入式語(yǔ)音識(shí)別系統(tǒng),面向小型化、便攜式的、嵌入式的產(chǎn)品應(yīng)用,如手機(jī)上的語(yǔ)音撥號(hào)、車載設(shè)備的語(yǔ)音控制、智能語(yǔ)音玩具、家電遙控等,這些嵌入式應(yīng)用系統(tǒng)大都使用專門的硬件系統(tǒng)實(shí)現(xiàn),如MCU、DSP和語(yǔ)音識(shí)別專用芯片,其運(yùn)算速度、存儲(chǔ)容量都非常有限。同時(shí),它這些嵌入式應(yīng)用系統(tǒng)還要求識(shí)別是實(shí)時(shí)的,并具有體積小、可靠性高、耗電少、成本低等特點(diǎn)。嵌入式語(yǔ)音產(chǎn)品的這些應(yīng)用特點(diǎn)以及嵌入式系統(tǒng)資源的有限性是目前語(yǔ)音識(shí)別技術(shù)嵌入式應(yīng)用的難點(diǎn)。
現(xiàn)有的嵌入式語(yǔ)音識(shí)別系統(tǒng)主要還是特定人孤立詞語(yǔ)音識(shí)別,即需要用戶在使用前讓系統(tǒng)對(duì)所識(shí)別的詞條先進(jìn)行學(xué)習(xí)或訓(xùn)練。這一類識(shí)別功能對(duì)語(yǔ)種、方言沒(méi)有限制,識(shí)別率很高,但使用前的錄音和訓(xùn)練很不方便。
有一些嵌入式語(yǔ)音識(shí)別系統(tǒng)能實(shí)現(xiàn)非特定人語(yǔ)音識(shí)別,即預(yù)先將所要識(shí)別的語(yǔ)音模型訓(xùn)練好并裝入系統(tǒng)的存儲(chǔ)器,用戶使用時(shí)不需要再進(jìn)行學(xué)習(xí)而直接使用。但這類識(shí)別功能只適用于特定的語(yǔ)種和方言,識(shí)別率比特定人系統(tǒng)低,還有待進(jìn)一步提高。
21世紀(jì)全球大融合的趨勢(shì)越來(lái)越明顯,甚至不同語(yǔ)種語(yǔ)言之間的融合特征也越來(lái)越多。在中國(guó),外來(lái)英語(yǔ)詞匯越來(lái)越多,一個(gè)人同時(shí)有中英文名字的情況越來(lái)越多,現(xiàn)實(shí)社會(huì)中越來(lái)越多的應(yīng)用環(huán)境和產(chǎn)品系統(tǒng)中出現(xiàn)了中英文混用的情況。在這樣的情況下,目前單一語(yǔ)種的中文語(yǔ)音識(shí)別技術(shù)無(wú)法實(shí)現(xiàn)中英文混合的語(yǔ)音識(shí)別,中英文混合識(shí)別是未來(lái)的中文語(yǔ)音識(shí)別技術(shù)發(fā)展的趨勢(shì)。
結(jié)合語(yǔ)音識(shí)別技術(shù)的發(fā)展趨勢(shì),針對(duì)嵌入式系統(tǒng)語(yǔ)音識(shí)別應(yīng)用的特點(diǎn),以及目前中英文混用的應(yīng)用特點(diǎn),本發(fā)明采用全新的語(yǔ)音識(shí)別理念和框架,實(shí)現(xiàn)了一種非特定人的,面向嵌入式應(yīng)用的,支持中英文混合識(shí)別的語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)可廣泛應(yīng)用于各種小型化的嵌入式電子產(chǎn)品和嵌入式系統(tǒng)中,實(shí)現(xiàn)高識(shí)別率的、中英文混合語(yǔ)音識(shí)別。


發(fā)明內(nèi)容
本發(fā)明克服現(xiàn)有語(yǔ)音識(shí)別技術(shù)的不足,實(shí)現(xiàn)了一種高識(shí)別率、非特定人、支持中英文混合的嵌入式語(yǔ)音識(shí)別方法及系統(tǒng),使其能夠應(yīng)用于各種嵌入式應(yīng)用領(lǐng)域,實(shí)現(xiàn)實(shí)時(shí)的語(yǔ)音識(shí)別,且在中等詞匯量上識(shí)別率達(dá)95%以上。本發(fā)明算法壓力小,存儲(chǔ)空間小,適合在各種主流硬件環(huán)境中實(shí)時(shí)運(yùn)行。
本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的,主要由S1-聲學(xué)模型訓(xùn)練、S2-詞樹(shù)生成、S3-前端處理、S4-識(shí)別解碼四個(gè)部分組成,如圖1所示。
以下是對(duì)本發(fā)明進(jìn)一步的說(shuō)明 S1-聲學(xué)模型訓(xùn)練 特征提取按幀長(zhǎng)25毫秒,幀移10毫秒提取12維MFCC特征,再加上1維能量特征,共13維靜態(tài)特征。動(dòng)態(tài)特征取一階和二階差分特征,得到39維的聲學(xué)特征向量序列。
兼容中文和英文發(fā)音方式的聲學(xué)建模單元集,基于海量語(yǔ)音數(shù)據(jù)訓(xùn)練的聲學(xué)模型,使得該語(yǔ)音識(shí)別方法是非特定人的、并支持中英文語(yǔ)言混合識(shí)別。具體是在英文音素集的基礎(chǔ)上,擴(kuò)展了英文中沒(méi)有的中文發(fā)音單元,再加上靜音單元構(gòu)成。
基本聲學(xué)模型的訓(xùn)練聲學(xué)建模方法使用CDHMM+GMM,利用本領(lǐng)域熟知的方法訓(xùn)練狀態(tài)綁定的上下文相關(guān)三音子模型,并得到與每個(gè)GMM模型的每個(gè)混合項(xiàng)綁定的特征集合。
采用二叉樹(shù)形式組織的多背景模型(背景模型-Background Model,簡(jiǎn)稱BM,其中BM-n表示第n個(gè)背景模型),如圖2所示,然后將聲學(xué)模型中混合高斯模型(GMM)的每個(gè)混合項(xiàng)與某個(gè)背景模型按最大似然準(zhǔn)則綁定,對(duì)背景模型進(jìn)行均值自適應(yīng)訓(xùn)練得到混合項(xiàng)的均值參數(shù),并將其與背景模型均值相減得到兩者的差值向量。每個(gè)背景模型均采用正態(tài)分布模型,所有背景模型采用二叉樹(shù)形式來(lái)組織。背景模型的訓(xùn)練方式如下首先使用所有的聲學(xué)特征訓(xùn)練一個(gè)背景模型作為二叉樹(shù)的根節(jié)點(diǎn),然后使用分裂法訓(xùn)練得到兩個(gè)子節(jié)點(diǎn)背景模型,再對(duì)每個(gè)子節(jié)點(diǎn)進(jìn)行分裂,如此循環(huán),直到分裂滿足停止條件,則停止分裂,待所有節(jié)點(diǎn)都停止分裂后,即得到二叉樹(shù)形式的背景模型。
在自適應(yīng)訓(xùn)練完成后,對(duì)所有的差值向量進(jìn)行矢量量化,并用混合系數(shù)、綁定的背景模型標(biāo)號(hào)、與背景模型均值的差值向量標(biāo)號(hào)三個(gè)信息表達(dá)GMM模型的每個(gè)混合項(xiàng)。其中混合系數(shù)的含義與標(biāo)準(zhǔn)GMM混合系數(shù)的含義一致,混合項(xiàng)高斯模型的均值向量由其綁定的背景模型的均值加上其綁定的差值向量得到,其方差向量等于其綁定的背景模型的方差向量。
用最大混合項(xiàng)得分代替混合概率相加來(lái)計(jì)算GMM模型的聲學(xué)得分,從而簡(jiǎn)化GMM模型。依據(jù)簡(jiǎn)化的GMM模型,對(duì)GMM模型的某些參數(shù)進(jìn)行預(yù)運(yùn)算,并保存為新的混合系數(shù)參數(shù),減少計(jì)算GMM模型聲學(xué)得分時(shí)的計(jì)算量。
簡(jiǎn)化GMM模型的方法是,用最大混合項(xiàng)得分代替混合概率相加來(lái)計(jì)算GMM模型的聲學(xué)得分,具體數(shù)學(xué)公式如下 標(biāo)準(zhǔn)GMM模型 簡(jiǎn)化GMM模型 依據(jù)簡(jiǎn)化的GMM模型,對(duì)GMM模型的某些參數(shù)進(jìn)行預(yù)運(yùn)算,并保存為新的混合系數(shù)參數(shù),以下是GMM模型某一混合項(xiàng)的數(shù)學(xué)公式推導(dǎo) 令新的混合系數(shù)為 令新的方差向量為 則有 S2-詞樹(shù)生成 發(fā)音標(biāo)注把詞表中的每一個(gè)詞看作一個(gè)字符串,把字符串分隔為漢字串、字母串、數(shù)字串、其他符號(hào),依據(jù)發(fā)音詞典,對(duì)漢字串、字母串和數(shù)字串標(biāo)注發(fā)音,忽略其他符號(hào),把這些發(fā)音再按原順序連接在一起,得到該詞的發(fā)音單元序列。對(duì)詞表中的每個(gè)詞標(biāo)注發(fā)音,得到一系列的發(fā)音單元序列,利用這些發(fā)音單元序列生成詞樹(shù)。
詞樹(shù)生成詞樹(shù)的數(shù)據(jù)結(jié)構(gòu)為平凡樹(shù),詞樹(shù)中除根節(jié)點(diǎn)和葉節(jié)點(diǎn)代表靜音外,其余每個(gè)節(jié)點(diǎn)代表一個(gè)發(fā)音單元,從根節(jié)點(diǎn)出發(fā)到達(dá)葉節(jié)點(diǎn)的一天完整路徑表示一個(gè)詞或多個(gè)發(fā)音相同的詞,詞表中有多少個(gè)發(fā)音不同的詞,詞樹(shù)中就有多少個(gè)這樣的路徑。用詞樹(shù)的根節(jié)點(diǎn)和葉節(jié)點(diǎn)代表靜音的目的是允許語(yǔ)音指令前后帶靜音。
S3-前端處理 前端處理有兩個(gè)功能,語(yǔ)音增強(qiáng)和語(yǔ)音端點(diǎn)檢測(cè)。首先對(duì)信號(hào)進(jìn)行語(yǔ)音增強(qiáng)處理,消除平穩(wěn)背景噪聲或緩慢漸變的非平穩(wěn)噪聲;然后進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),特征采用幀對(duì)數(shù)能量,由于語(yǔ)音增強(qiáng)處理后的背景噪音能量近似一個(gè)很小的常量,因此可以采用絕對(duì)門限來(lái)判斷是否是語(yǔ)音。語(yǔ)音增強(qiáng)處理后的語(yǔ)音信號(hào)中可能會(huì)殘留突發(fā)噪聲,因此設(shè)定語(yǔ)音段最小長(zhǎng)度門限,如果檢測(cè)到的語(yǔ)音段小于該門限,則判斷為突發(fā)噪聲。由于語(yǔ)音前后部分的能量較弱,容易造成漏檢,這通常會(huì)導(dǎo)致識(shí)別錯(cuò)誤,由于語(yǔ)音識(shí)別器容許語(yǔ)音前后帶靜音,因此在語(yǔ)音端點(diǎn)檢測(cè)過(guò)程中,分別把語(yǔ)音開(kāi)始點(diǎn)向前擴(kuò)展200毫秒,語(yǔ)音結(jié)束點(diǎn)向后擴(kuò)展200毫秒。
S4-識(shí)別解碼 識(shí)別解碼部分,首先用與聲學(xué)模型訓(xùn)練階段一樣的方法提取聲學(xué)特征。提取完聲學(xué)特征后,對(duì)聲學(xué)特征序列進(jìn)行歸一化處理,然后送入識(shí)別器進(jìn)行識(shí)別。
識(shí)別采用Viterbi-Beam寬度優(yōu)先的幀同步搜索方法。對(duì)每一幀聲學(xué)特征,首先計(jì)算其所有背景模型的聲學(xué)得分,并對(duì)背景模型按聲學(xué)得分高低排序。然后在二叉樹(shù)上自上而下地對(duì)背景模型的聲學(xué)得分進(jìn)行退化處理,具體方法是令根節(jié)點(diǎn)背景模型的退化得分等于其聲學(xué)得分,如果子節(jié)點(diǎn)的聲學(xué)得分低于父節(jié)點(diǎn)的退化得分,則將子節(jié)點(diǎn)的退化得分設(shè)為父節(jié)點(diǎn)的退化得分,否則子節(jié)點(diǎn)的退化得分等于其聲學(xué)得分。
接下來(lái)計(jì)算所有由一個(gè)背景模型和矢量量化表中的一個(gè)差值向量所確定的高斯模型的聲學(xué)得分,并將該聲學(xué)得分保存于高斯得分緩存中。具體做法是選擇聲學(xué)得分較高的若干個(gè)背景模型、以及其所有子節(jié)點(diǎn)背景模型,計(jì)算矢量量化表中每個(gè)差值向量與背景模型對(duì)應(yīng)的聲學(xué)得分差值,將該聲學(xué)得分差值與背景模型的聲學(xué)得分相加,得到對(duì)應(yīng)高斯模型的聲學(xué)得分,如果該得分小于背景模型的退化得分,則將該高斯模型的聲學(xué)得分修改為背景模型的退化得分,并將之保存到高斯得分緩存中;對(duì)其余的背景模型,其跟矢量量化表中的任一差值向量所確定的高斯模型的聲學(xué)得分不再運(yùn)算,直接將對(duì)應(yīng)的高斯得分緩存設(shè)為背景模型的退化得分。
下面介紹計(jì)算矢量量化表中每個(gè)差值向量與背景模型對(duì)應(yīng)的聲學(xué)得分差值的方法。以下是GMM模型某混合項(xiàng)的高斯模型的聲學(xué)得分的數(shù)學(xué)公式推導(dǎo) 其中σ′m2(x-μb)2為背景模型的聲學(xué)得分,σ′m2((Δμi)2-2Δμi(x-μb))為差值向量Δμi對(duì)應(yīng)的聲學(xué)得分差值,兩者相加,即得到GMM模型某混合項(xiàng)的高斯模型的聲學(xué)得分。
然后利用背景模型聲學(xué)得分排序信息、及GMM模型與背景模型的綁定信息進(jìn)行快速高斯選擇,在計(jì)算GMM模型的聲學(xué)得分時(shí),僅計(jì)算該GMM模型的若干個(gè)候選混合項(xiàng)的聲學(xué)得分。GMM模型某混合項(xiàng)的聲學(xué)得分的計(jì)算方法是根據(jù)該混合項(xiàng)綁定的背景模型標(biāo)號(hào)、與背景模型均值的差值向量標(biāo)號(hào),從高斯得分緩存中讀取該混合項(xiàng)的高斯模型聲學(xué)得分,將該得分與混合項(xiàng)的混合系數(shù)相加,即得到該混合項(xiàng)的聲學(xué)得分。
基于二叉樹(shù)多背景模型的快速高斯選擇方法如下根據(jù)GMM模型各混合項(xiàng)所綁定的背景模型的標(biāo)號(hào),再參照背景模型的排序信息,得到這些背景模型中聲學(xué)得分為最高的背景模型標(biāo)號(hào),然后選擇綁定該背景模型標(biāo)號(hào)的一個(gè)或多個(gè)混合項(xiàng)作為待運(yùn)算的混合項(xiàng)。
最后用最大混合項(xiàng)得分代替混合概率相加來(lái)計(jì)算GMM模型的聲學(xué)得分,從而簡(jiǎn)化GMM模型,避免計(jì)算量較大的指數(shù)運(yùn)算和對(duì)數(shù)運(yùn)算。
發(fā)明實(shí)例 為了說(shuō)明本方法的有效性,下面用一個(gè)實(shí)驗(yàn)來(lái)比較本方法與CDHMM模型、混合綁定CDHMM模型(Tied Mixture CDHMM,TM-CDHMM)在識(shí)別率、識(shí)別速度、模型大小方面的區(qū)別。
訓(xùn)練數(shù)據(jù)標(biāo)注普通話純凈語(yǔ)音數(shù)據(jù)庫(kù),100男100女;南方口音語(yǔ)音數(shù)據(jù)庫(kù),50男50女;北方口音語(yǔ)音數(shù)據(jù)庫(kù),50男50女。
測(cè)試數(shù)據(jù)自錄的人命庫(kù),共500個(gè)人名,5男5女,每人100句,共1000個(gè)句子。
測(cè)試平臺(tái)為ARM9處理器,主頻200MHz。
模型參數(shù)為GMM個(gè)數(shù)1528,GMM混合數(shù)16,TM-CDHMM的共享高斯個(gè)數(shù)為8192,本方法背景模型個(gè)數(shù)為255個(gè),差值矢量量化表含256個(gè)向量。
以下是測(cè)試結(jié)果


圖1為本發(fā)明的框架示意圖 圖2為基于二叉樹(shù)的背景模型示意圖 圖3為本發(fā)明的系統(tǒng)流程示意圖
具體實(shí)施例方式 下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明。
圖1為本發(fā)明的框架示意圖,圖3為本發(fā)明的系統(tǒng)流程示意圖,如圖1和圖3所示,本系統(tǒng)主要由S1-聲學(xué)模型訓(xùn)練、S2-詞樹(shù)生成、S3-前端處理、S4-識(shí)別解碼四個(gè)部分組成,系統(tǒng)流程如下 S1-聲學(xué)模型訓(xùn)練部分流程如下 1.S1-1,特征提取。按幀長(zhǎng)25毫秒,幀移10毫秒提取12維MFCC特征,再加上1維能量特征,共13維靜態(tài)特征。動(dòng)態(tài)特征取一階和二階差分特征,得到39維的聲學(xué)特征向量序列; 2.S1-2,訓(xùn)練背景模型; 3.S1-3,自適應(yīng)訓(xùn)練GMM模型的參數(shù); 4.S1-4,訓(xùn)練差值向量的矢量量化表,并對(duì)GMM模型參數(shù)進(jìn)行矢量量化。
S2-詞樹(shù)生成部分流程如下 1.S2-1,把詞表中的每一個(gè)詞看作一個(gè)字符串,把字符串分隔為漢字串、字母串、數(shù)字串、其他符號(hào); 2.S2-2,依據(jù)發(fā)音詞典,對(duì)漢字串、字母串和數(shù)字串標(biāo)注發(fā)音,忽略其他符號(hào),把這些發(fā)音再按原順序連接在一起,得到該詞的發(fā)音單元序列; 3.S2-3,對(duì)詞表中的每個(gè)詞標(biāo)注發(fā)音,得到一系列的發(fā)音單元序列,利用這些發(fā)音單元序列生成詞樹(shù)。
S3-前端處理部分流程如下 1.S3-1,對(duì)信號(hào)進(jìn)行語(yǔ)音增強(qiáng)處理,消除平穩(wěn)背景噪聲或緩慢漸變的非平穩(wěn)噪聲; 2.S3-2,采用幀對(duì)數(shù)能量為特征,進(jìn)行語(yǔ)音端點(diǎn)檢測(cè); 3.S3-3,如果檢測(cè)到的語(yǔ)音段小于語(yǔ)音段最小長(zhǎng)度門限,則判斷為突發(fā)噪聲,否則,將檢測(cè)到語(yǔ)音送入識(shí)別器識(shí)別。
S4-識(shí)別解碼部分流程如下 1.步驟S4-1,參照步驟S1-1,提取聲學(xué)特征序列; 2.步驟S4-2,進(jìn)行Viterbi-Beam搜索,將聲學(xué)得分最高的詞作為最終識(shí)別結(jié)果。
權(quán)利要求
1、非特定人的嵌入式中英文混合語(yǔ)音識(shí)別方法及系統(tǒng),是一種非特定人的、支持中英文混合語(yǔ)言、面向計(jì)算和存儲(chǔ)資源有限的嵌入式應(yīng)用環(huán)境的語(yǔ)音識(shí)別方法及系統(tǒng)。本系統(tǒng)由聲學(xué)模型訓(xùn)練、詞樹(shù)生成、前端處理、及識(shí)別解碼四個(gè)部分組成。其特征在于
兼容中文和英文發(fā)音方式的聲學(xué)建模單元集,基于海量語(yǔ)音數(shù)據(jù)訓(xùn)練的聲學(xué)模型,使得該語(yǔ)音識(shí)別方法是非特定人的、并支持中英文語(yǔ)言混合識(shí)別。
采用二叉樹(shù)形式組織的多背景模型,然后將聲學(xué)模型中混合高斯模型(GMM)的每個(gè)混合項(xiàng)與某個(gè)背景模型按最大似然準(zhǔn)則綁定,對(duì)背景模型進(jìn)行均值自適應(yīng)訓(xùn)練得到混合項(xiàng)的均值參數(shù),并將其與背景模型均值相減得到兩者的差值向量。
在自適應(yīng)訓(xùn)練完成后,對(duì)所有的差值向量進(jìn)行矢量量化,并用混合系數(shù)、綁定的背景模型標(biāo)號(hào)、與背景模型均值的差值向量標(biāo)號(hào)三個(gè)信息表達(dá)GMM模型的每個(gè)混合項(xiàng)。
用最大混合項(xiàng)得分代替混合概率相加來(lái)計(jì)算GMM模型的聲學(xué)得分,從而簡(jiǎn)化GMM模型。依據(jù)簡(jiǎn)化的GMM模型,對(duì)GMM模型的某些參數(shù)進(jìn)行預(yù)運(yùn)算,并保存為新的混合系數(shù)參數(shù),減少計(jì)算GMM模型聲學(xué)得分時(shí)的計(jì)算量。
識(shí)別解碼階段,對(duì)每一幀聲學(xué)特征,首先計(jì)算其所有背景模型的聲學(xué)得分,并對(duì)背景模型按聲學(xué)得分高低排序。然后在二叉樹(shù)上自上而下地對(duì)背景模型的聲學(xué)得分進(jìn)行退化處理,具體方法是令根節(jié)點(diǎn)背景模型的退化得分等于其聲學(xué)得分,如果子節(jié)點(diǎn)的聲學(xué)得分低于父節(jié)點(diǎn)的退化得分,則將子節(jié)點(diǎn)的退化得分設(shè)為父節(jié)點(diǎn)的退化得分,否則子節(jié)點(diǎn)的退化得分等于其聲學(xué)得分。
接下來(lái)計(jì)算所有由一個(gè)背景模型和矢量量化表中的一個(gè)差值向量所確定的高斯模型的聲學(xué)得分,并將該聲學(xué)得分保存于高斯得分緩存中。具體做法是選擇聲學(xué)得分較高的若干個(gè)背景模型、以及其所有子節(jié)點(diǎn)背景模型,計(jì)算矢量量化表中每個(gè)差值向量與背景模型對(duì)應(yīng)的聲學(xué)得分差值,將該聲學(xué)得分差值與背景模型的聲學(xué)得分相加,得到對(duì)應(yīng)高斯模型的聲學(xué)得分,如果該得分小于背景模型的退化得分,則將該高斯模型的聲學(xué)得分修改為背景模型的退化得分,并將之保存到高斯得分緩存中;對(duì)其余的背景模型,其跟矢量量化表中的任一差值向量所確定的高斯模型的聲學(xué)得分不再運(yùn)算,直接將對(duì)應(yīng)的高斯得分緩存設(shè)為背景模型的退化得分。
然后利用背景模型聲學(xué)得分排序信息、及GMM模型與背景模型的綁定信息進(jìn)行快速高斯選擇,在計(jì)算GMM模型的聲學(xué)得分時(shí),僅計(jì)算該GMM模型的若干個(gè)候選混合項(xiàng)的聲學(xué)得分。GMM模型某混合項(xiàng)的聲學(xué)得分的計(jì)算方法是根據(jù)該混合項(xiàng)綁定的背景模型標(biāo)號(hào)、與背景模型均值的差值向量標(biāo)號(hào),從高斯得分緩存中讀取該混合項(xiàng)的高斯模型聲學(xué)得分,將該得分與混合項(xiàng)的混合系數(shù)相加,即得到該混合項(xiàng)的聲學(xué)得分。
最后用最大混合項(xiàng)得分代替混合概率相加來(lái)計(jì)算GMM模型的聲學(xué)得分,從而簡(jiǎn)化GMM模型,避免計(jì)算量較大的指數(shù)運(yùn)算和對(duì)數(shù)運(yùn)算。
2、根據(jù)權(quán)利要求1所述的非特定人的嵌入式中英文混合語(yǔ)音識(shí)別方法及系統(tǒng),其特征在于,聲學(xué)建模單元集兼容中文和英文發(fā)音方式,是在英文音素集的基礎(chǔ)上,擴(kuò)展了英文中沒(méi)有的中文發(fā)音單元,再加上靜音單元構(gòu)成。
3、根據(jù)權(quán)利要求1所述的非特定人的嵌入式中英文混合語(yǔ)音識(shí)別方法及系統(tǒng),其特征在于,使用了多個(gè)背景模型,每個(gè)背景模型均采用正態(tài)分布模型,所有背景模型采用二叉樹(shù)形式來(lái)組織。背景模型的訓(xùn)練方式如下首先使用所有的聲學(xué)特征訓(xùn)練一個(gè)背景模型作為二叉樹(shù)的根節(jié)點(diǎn),然后使用分裂法訓(xùn)練得到兩個(gè)子節(jié)點(diǎn)背景模型,再對(duì)每個(gè)子節(jié)點(diǎn)進(jìn)行分裂,如此循環(huán),直到分裂滿足停止條件,則停止分裂,待所有節(jié)點(diǎn)都停止分裂后,即得到二叉樹(shù)形式的背景模型。
4、根據(jù)權(quán)利要求1所述的非特定人的嵌入式中英文混合語(yǔ)音識(shí)別方法及系統(tǒng),其特征在于,用混合系數(shù)、綁定的背景模型標(biāo)號(hào)、與背景模型均值的差值向量標(biāo)號(hào)三個(gè)信息表達(dá)GMM模型的每個(gè)混合項(xiàng)。其中混合系數(shù)的含義與標(biāo)準(zhǔn)GMM混合系數(shù)的含義一致,混合項(xiàng)高斯模型的均值向量由其綁定的背景模型的均值加上其綁定的差值向量得到,其方差向量等于其綁定的背景模型的方差向量。
5、根據(jù)權(quán)利要求1所述的非特定人的嵌入式中英文混合語(yǔ)音識(shí)別方法及系統(tǒng),其特征在于,簡(jiǎn)化GMM模型的方法是,用最大混合項(xiàng)得分代替混合概率相加來(lái)計(jì)算GMM模型的聲學(xué)得分,具體數(shù)學(xué)公式如下
標(biāo)準(zhǔn)GMM模型
簡(jiǎn)化GMM模型
6、根據(jù)權(quán)利要求1所述的非特定人的嵌入式中英文混合語(yǔ)音識(shí)別方法及系統(tǒng),其特征在于,依據(jù)簡(jiǎn)化的GMM模型,對(duì)GMM模型的某些參數(shù)進(jìn)行預(yù)運(yùn)算,并保存為新的混合系數(shù)參數(shù),以下是GMM模型某一混合項(xiàng)的數(shù)學(xué)公式推導(dǎo)
令新的混合系數(shù)為
令新的方差向量為
則有
7、根據(jù)權(quán)利要求1所述的非特定人的嵌入式中英文混合語(yǔ)音識(shí)別方法及系統(tǒng),其特征在于,計(jì)算矢量量化表中每個(gè)差值向量與背景模型對(duì)應(yīng)的聲學(xué)得分差值的方法。以下是GMM模型某混合項(xiàng)的高斯模型的聲學(xué)得分的數(shù)學(xué)公式推導(dǎo)
其中σ′m2(x-μb)2為背景模型的聲學(xué)得分,σ′m2((Δμi)2-2Δμi(x-μb))為差值向量Δμi對(duì)應(yīng)的聲學(xué)得分差值,兩者相加,即得到GMM模型某混合項(xiàng)的高斯模型的聲學(xué)得分。
8、根據(jù)權(quán)利要求1所述的非特定人的嵌入式中英文混合語(yǔ)音識(shí)別方法及系統(tǒng),其特征在于,基于二叉樹(shù)多背景模型的快速高斯選擇方法,如下根據(jù)GMM模型各混合項(xiàng)所綁定的背景模型的標(biāo)號(hào),再參照背景模型的排序信息,得到這些背景模型中聲學(xué)得分為最高的背景模型標(biāo)號(hào),然后選擇綁定該背景模型標(biāo)號(hào)的一個(gè)或多個(gè)混合項(xiàng)作為待運(yùn)算的混合項(xiàng)。
全文摘要
一種非特定人的、支持中英文混合語(yǔ)言、面向嵌入式應(yīng)用的語(yǔ)音識(shí)別方法及系統(tǒng)。本發(fā)明采用海量語(yǔ)音數(shù)據(jù)訓(xùn)練的聲學(xué)模型,兼容中文和英文發(fā)音方式的聲學(xué)建模單元集,從而實(shí)現(xiàn)非特定人的中英文混合語(yǔ)音識(shí)別。本發(fā)明采用多個(gè)背景模型,由背景模型進(jìn)行均值自適應(yīng)訓(xùn)練得到混合高斯模型(GMM)參數(shù),然后再對(duì)混合高斯模型(GMM)均值與背景模型均值的差值向量進(jìn)行矢量量化,壓縮模型參數(shù);在識(shí)別階段,使用快速高斯選擇、聲學(xué)得分預(yù)運(yùn)算、以及簡(jiǎn)化GMM模型,從而大幅降低識(shí)別的計(jì)算量和模型的存儲(chǔ)空間,使得本語(yǔ)音識(shí)別方法及系統(tǒng)可以在各種嵌入式應(yīng)用系統(tǒng)上使用。
文檔編號(hào)G10L15/00GK101604522SQ200910157598
公開(kāi)日2009年12月16日 申請(qǐng)日期2009年7月16日 優(yōu)先權(quán)日2009年7月16日
發(fā)明者輝 王 申請(qǐng)人:北京森博克智能科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1