亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于語音識別設(shè)備的補償裝置和方法

文檔序號:2823458閱讀:260來源:國知局
專利名稱:用于語音識別設(shè)備的補償裝置和方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種補償裝置和方法,更具體地,涉及一種用于語音識別設(shè)備的補償裝置和方法。
背景技術(shù)
在過去幾十年中,自動語音識別(ASR)已經(jīng)在干凈環(huán)境中獲得了很好的效果。在這樣的環(huán)境中,幾個非特定說話人的大詞匯量連續(xù)語音識別(LargeVocabulary Continuous Speech Recognition, LVCSR)系統(tǒng)已經(jīng)獲得5% 10%之間的詞錯誤率。然而,在真實噪聲環(huán)境中,ASR系統(tǒng)的性能顯著降低。對抗裝置、說話人、信道、背景等中的聲音變化的穩(wěn)健自動語音識別技術(shù)已經(jīng)成為用于實用ASR系統(tǒng)的關(guān)鍵技術(shù)。大體上來說,實用ASR系統(tǒng)需要對以下三部分的聲音變化進(jìn)行補償特定域或特定裝置中的數(shù)據(jù);不同性別、年齡、聲音特點的說話人;包括背景、信道等的環(huán)境。這樣,能夠使得ASR系統(tǒng)更加穩(wěn)健。具體地,對于嵌入式實用ASR系統(tǒng),補償任務(wù)的難點在于不充足的訓(xùn)練數(shù)據(jù)、不同的用戶以及變化的噪聲環(huán)境。許多方法已經(jīng)對用于說話人和環(huán)境的補償進(jìn)行了研究。對于說話人補償,研究主要集中于模型自適應(yīng)和特征歸一化,所述模型自適應(yīng)處于主導(dǎo)地位。對于環(huán)境補償,研究主要集中于特征歸一化、噪聲估計和模型自適應(yīng),所述特征歸一化、噪聲估計處于主導(dǎo)地位。 由于模型自適應(yīng)對說話人和環(huán)境兩者都有效,因此變得越來越常見。在現(xiàn)有技術(shù)的實用ASR中,僅使用一階補償,用于僅補償說話人或環(huán)境;或者,使用二階補償來分別補償說話人、話筒和環(huán)境。在這兩種方案中,最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR)是最常用的方法。對于一些基于便攜式裝置的實用ASR,對于說話人和裝置的補償必須按照不同的階進(jìn)行,并且MLLR對于時變環(huán)境來說會不夠快速。

發(fā)明內(nèi)容
本發(fā)明提供了一種用于語音識別設(shè)備的補償裝置,所述補償裝置包括模型訓(xùn)練模塊,使用期望最大化算法對預(yù)置聲學(xué)模型執(zhí)行訓(xùn)練,輸出非特定說話人的聲學(xué)模型;全局補償模塊,使用聲學(xué)模型對影響聲學(xué)數(shù)據(jù)的特性的特定域和特定裝置進(jìn)行補償,輸出全局適應(yīng)的聲學(xué)模型;目標(biāo)補償模塊,使用全局適應(yīng)的聲學(xué)模型對特定說話人的變化進(jìn)行補償, 輸出說話人適應(yīng)的聲學(xué)模型;環(huán)境補償模塊,使用說話人適應(yīng)的聲學(xué)模型對特定環(huán)境的變化進(jìn)行補償,輸出環(huán)境適應(yīng)的聲學(xué)模型。所述全局補償模塊可包括統(tǒng)計累加模塊,對預(yù)置的自適應(yīng)語音和自適應(yīng)文本進(jìn)行統(tǒng)計累加計算;最大后驗概率自適應(yīng)模塊,通過使用所述統(tǒng)計累加模塊統(tǒng)計累加的結(jié)果, 對模型訓(xùn)練模塊輸出的非特定說話人聲學(xué)模型執(zhí)行最大后驗概率自適應(yīng);二次迭代均值最大似然線性回歸自適應(yīng)模塊,通過使用所述統(tǒng)計累加模塊統(tǒng)計累加的結(jié)果,對所述最大后驗概率自適應(yīng)模塊的執(zhí)行結(jié)果執(zhí)行二次迭代均值最大似然線性回歸自適應(yīng),輸出全局適應(yīng)的聲學(xué)模型。所述目標(biāo)補償模塊可包括解碼模塊,通過使用全局適應(yīng)的聲學(xué)模型對輸入語音進(jìn)行解碼,輸出識別文本;統(tǒng)計累加模塊,對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加計算; 均值最大似然線性回歸自適應(yīng)模塊,使用所述統(tǒng)計累加模塊統(tǒng)計累加的結(jié)果對全局適應(yīng)的聲學(xué)模型執(zhí)行均值最大似然線性回歸自適應(yīng),輸出說話人適應(yīng)的聲學(xué)模型,并將說話人適應(yīng)的聲學(xué)模型反饋到所述均值最大似然線性回歸自適應(yīng)模塊。所述環(huán)境補償模塊可包括解碼模塊,通過使用說話人適應(yīng)的聲學(xué)模型對輸入語音進(jìn)行解碼,輸出識別文本;統(tǒng)計累加模塊,對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加計算;本征音自適應(yīng)模塊,使用所述統(tǒng)計累加模塊統(tǒng)計累加的結(jié)果對說話人適應(yīng)的聲學(xué)模型執(zhí)行本征音自適應(yīng),輸出環(huán)境適應(yīng)的聲學(xué)模型,并將環(huán)境適應(yīng)的聲學(xué)模型反饋到所述本征音自適應(yīng)模塊。本發(fā)明提供了一種用于語音識別設(shè)備的補償方法,所述補償方法包括(a)使用期望最大化算法對預(yù)置聲學(xué)模型執(zhí)行訓(xùn)練,輸出非特定說話人的聲學(xué)模型;(b)使用聲學(xué)模型對影響聲學(xué)數(shù)據(jù)的特性的特定域和特定裝置進(jìn)行補償,輸出全局適應(yīng)的聲學(xué)模型;(C) 使用全局適應(yīng)的聲學(xué)模型對特定說話人的變化進(jìn)行補償,輸出說話人適應(yīng)的聲學(xué)模型;(d) 使用說話人適應(yīng)的聲學(xué)模型對特定環(huán)境的變化進(jìn)行補償,輸出環(huán)境適應(yīng)的聲學(xué)模型。所述步驟(b)可包括(bl)對預(yù)置的自適應(yīng)語音和自適應(yīng)文本進(jìn)行統(tǒng)計累加計算;( )通過使用所述統(tǒng)計累加的結(jié)果,對所述非特定說話人聲學(xué)模型執(zhí)行最大后驗概率自適應(yīng);(b;3)通過使用所述統(tǒng)計累加的結(jié)果,對所述最大后驗概率自適應(yīng)的執(zhí)行結(jié)果執(zhí)行二次迭代均值最大似然線性回歸自適應(yīng),輸出全局適應(yīng)的聲學(xué)模型。所述步驟(C)可包括(cl)使用全局適應(yīng)的聲學(xué)模型對輸入語音進(jìn)行解碼,輸出識別文本;(^)對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加;(c!3)使用所述統(tǒng)計累加結(jié)果對全局適應(yīng)的聲學(xué)模型執(zhí)行均值最大似然線性回歸自適應(yīng),輸出說話人適應(yīng)的聲學(xué)模型,并將說話人適應(yīng)的聲學(xué)模型反饋到所述均值最大似然線性回歸自適應(yīng)操作。所述步驟(d)可包括(dl)通過使用說話人適應(yīng)的聲學(xué)模型對輸入語音進(jìn)行解碼,輸出識別文本;(業(yè))對所述識別文本進(jìn)行統(tǒng)計累加計算;(們)使用所述統(tǒng)計累加的結(jié)果對說話人適應(yīng)的聲學(xué)模型執(zhí)行本征音自適應(yīng),輸出環(huán)境適應(yīng)的聲學(xué)模型,并將環(huán)境適應(yīng)的聲學(xué)模型反饋到所述本征音自適應(yīng)操作。本發(fā)明提供了一種語音識別設(shè)備,包括上述的補償裝置。將在接下來的描述中部分闡述本發(fā)明另外的方面和/或優(yōu)點,還有一部分通過描述將是清楚的,或者可以經(jīng)過本發(fā)明的實施而得知。


通過下面結(jié)合附圖進(jìn)行的詳細(xì)描述,本發(fā)明的上述和其它目的和特點將會變得更加清楚,其中圖1是示出根據(jù)本發(fā)明示例性實施例的用于語音識別設(shè)備的補償裝置的框圖;圖2是示出根據(jù)本發(fā)明示例性實施例的全局補償模塊的框圖;圖3是示出根據(jù)本發(fā)明示例性實施例的目標(biāo)補償模塊的框圖;圖4是示出根據(jù)本發(fā)明示例性實施例的環(huán)境補償模塊的框圖5是示出根據(jù)本發(fā)明示例性實施例的目標(biāo)補償模塊的選項的接口的示圖;圖6是示出根據(jù)本發(fā)明示例性實施例的環(huán)境補償模塊的選項的接口的示圖;圖7是示出根據(jù)本發(fā)明示例性實施例的用于語音識別設(shè)備的補償方法的流程圖。
具體實施例方式現(xiàn)在,詳細(xì)描述本發(fā)明的實施例,其示例在附圖中表示,其中,相同的標(biāo)號始終表示相同的部件。圖1是示出根據(jù)本發(fā)明示例性實施例的用于語音識別設(shè)備的補償裝置的框圖。應(yīng)該理解,根據(jù)本發(fā)明示例性實施例的補償裝置能夠用于任何適合的語音識別設(shè)備,同時,所述語音識別設(shè)備需要嵌入到能夠執(zhí)行各種語音識別相關(guān)應(yīng)用(諸如,信息檢索、語音網(wǎng)頁搜索、語音輸入等)的裝置中,諸如,移動電話、個人數(shù)字助理(PDA)等,但本發(fā)明不限于此。如圖1所示,根據(jù)本發(fā)明示例性實施例的用于語音識別設(shè)備的補償裝置包括模型訓(xùn)練模塊100、全局補償模塊200、目標(biāo)補償模塊300和環(huán)境補償模塊400。這里,模型訓(xùn)練模塊100和全局補償模塊200在根據(jù)本發(fā)明示例性實施例的語音識別設(shè)備嵌入到能夠執(zhí)行各種語音識別相關(guān)應(yīng)用的裝置之前進(jìn)行操作,即,在制造所述裝置的過程中完成模型訓(xùn)練模塊100和全局補償模塊200的操作。在根據(jù)本發(fā)明示例性實施例的補償裝置中,音素集是總共具有97個音素的分段有調(diào)音素集,聲學(xué)模型結(jié)構(gòu)是每個狀態(tài)具有256高斯分量的半連續(xù)HMM(隱馬爾可夫)模型。在模型訓(xùn)練模塊100中,使用EM(期望最大化)算法執(zhí)行聲學(xué)模型的傳統(tǒng)訓(xùn)練處理,輸出非特定說話人的聲學(xué)模型(speaker-ind印endent acoustic model,SI-AM),所述聲學(xué)模型也是非特定數(shù)據(jù)和非特定環(huán)境的。圖2是示出根據(jù)本發(fā)明示例性實施例的全局補償模塊200的框圖。如圖2所示,全局補償模塊200包括統(tǒng)計累加模塊201、最大后驗概率(Maximum a Posteriori, MAP)自適應(yīng)模塊202和二次迭代均值MLLR自適應(yīng)模塊203。全局補償模塊 200主要用于對影響聲學(xué)數(shù)據(jù)的特性的特定域和特定裝置進(jìn)行補償。然而,全局補償模塊 200也可以用于對非特定性別和年齡的說話人進(jìn)行補償。為了獲得較好的性能,為全局補償模塊200預(yù)置了大量的特定域和特定裝置的自適應(yīng)數(shù)據(jù),并使用具有較好漸進(jìn)性的兩個自適應(yīng)方法,即,最大后驗概率(MAP)和最大似然線性回歸(MLLR)。在本實施例中,自適應(yīng)數(shù)據(jù)是彼此正確對應(yīng)的自適應(yīng)語音和自適應(yīng)文本, 但是應(yīng)該理解,所述自適應(yīng)數(shù)據(jù)不限于此,還可以是任何適用的自適應(yīng)數(shù)據(jù)。統(tǒng)計累加模塊201對預(yù)置的自適應(yīng)語音和自適應(yīng)文本進(jìn)行統(tǒng)計累加計算。MAP自適應(yīng)模塊202通過使用統(tǒng)計累加模塊201統(tǒng)計累加的結(jié)果,對模型訓(xùn)練模塊 100輸出的SI-AM執(zhí)行MAP自適應(yīng),以更新聲學(xué)模型的均值參數(shù)和協(xié)方差參數(shù),這里使用貝葉斯插值來估計均值參數(shù)。這里,不對MAP自適應(yīng)進(jìn)行迭代。應(yīng)該理解,所述MAP自適應(yīng)及其相關(guān)操作屬于現(xiàn)有技術(shù),為了避免模糊本發(fā)明的主題,在此不作詳細(xì)介紹。二次迭代均值MLLR自適應(yīng)模塊203通過使用統(tǒng)計累加模塊201統(tǒng)計累加的結(jié)果對MAP自適應(yīng)模塊202的輸出執(zhí)行二次迭代均值MLLR自適應(yīng),以更新均值參數(shù)。二次迭代均值MLLR自適應(yīng)操作完成后輸出全局適應(yīng)的聲學(xué)模型(glcAally adapted acousticmodel, GA-AM)。應(yīng)該理解,所述二次迭代均值MLLR自適應(yīng)及其相關(guān)操作屬于現(xiàn)有技術(shù),為了避免模糊本發(fā)明的主題,在此不作詳細(xì)介紹。圖3是示出根據(jù)本發(fā)明示例性實施例的目標(biāo)補償模塊300的框圖。如圖3所示,目標(biāo)補償模塊300包括解碼模塊301、統(tǒng)計累加模塊302和均值MLLR 自適應(yīng)模塊303。目標(biāo)補償模塊300用于對特定說話人的變化進(jìn)行補償,即,用于對當(dāng)前用戶的特性進(jìn)行補償。然而,目標(biāo)補償模塊300也可以用于補償平穩(wěn)噪聲或信道。目標(biāo)補償模塊300在所述能夠執(zhí)行各種語音識別相關(guān)應(yīng)用的裝置上執(zhí)行目標(biāo)補償,將所述裝置當(dāng)前執(zhí)行的語音識別相關(guān)應(yīng)用中創(chuàng)建的用戶的輸入語音作為自適應(yīng)數(shù)據(jù)。 應(yīng)該理解,這里也可以使用預(yù)置的自適應(yīng)語音和自適應(yīng)文本作為自適應(yīng)數(shù)據(jù)。在目標(biāo)補償模塊300中,為了快速補償新用戶,需要使用快速說話人自適應(yīng)方法,在此應(yīng)用在全局補償模塊200中使用的均值MLLR自適應(yīng)來實現(xiàn)快速說話人自適應(yīng)方法。應(yīng)該注意,僅少量的用戶輸入語音可以使均值MLLR自適應(yīng)有效,故目標(biāo)補償模塊 300使用增量自適應(yīng)方案,S卩,隨著用戶的語音輸入不斷地進(jìn)行目標(biāo)補償,以獲得自適應(yīng)效果更好的聲學(xué)模型。解碼模塊301使用全局補償模塊200輸出的GA-AM對用戶的輸入語音進(jìn)行解碼操作,輸出識別文本。統(tǒng)計累加模塊302對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加計算。所述輸出的識別文本可以用于各種語音識別相關(guān)應(yīng)用,例如,可以顯示所述輸出的識別文本,但是本發(fā)明不限于此。應(yīng)該理解,上述解碼和統(tǒng)計累加的操作屬于現(xiàn)有技術(shù),為了避免模糊本發(fā)明的主題,在此不作詳細(xì)介紹。均值MLLR自適應(yīng)模塊303通過使用統(tǒng)計累加模塊302統(tǒng)計累加的結(jié)果對全局補償模塊200輸出的GA-AM進(jìn)行均值MLLR自適應(yīng),輸出說話人適應(yīng)的聲學(xué)模型(speaker adapted acoustic model,SA-AM),并將所述輸出反饋到均值MLLR自適應(yīng)模塊303,用于下一用戶輸入語音的均值MLLR自適應(yīng)。這里,不對均值MLLR自適應(yīng)進(jìn)行迭代。應(yīng)該理解,所述均值MLLR自適應(yīng)屬于現(xiàn)有技術(shù),為了避免模糊本發(fā)明的主題,在此不作詳細(xì)介紹。圖4是示出根據(jù)本發(fā)明示例性實施例的環(huán)境補償模塊400的框圖。如圖4所示,環(huán)境補償模塊400包括解碼模塊401、統(tǒng)計累加模塊402和本征音自
適應(yīng)模塊403。環(huán)境補償模塊400用于對特定環(huán)境的變化進(jìn)行補償,即,用于對當(dāng)前環(huán)境(諸
如,背景噪聲)進(jìn)行補償。然而,環(huán)境補償模塊400也可對用戶的情緒、健康等變化進(jìn)行補 m
te ο環(huán)境補償模塊400在所述能夠執(zhí)行各種語音識別相關(guān)應(yīng)用的裝置上執(zhí)行環(huán)境補償,通過將所述裝置當(dāng)前執(zhí)行的語音識別相關(guān)應(yīng)用中創(chuàng)建的用戶的輸入語音作為自適應(yīng)數(shù)據(jù)。應(yīng)該理解,這里也可以使用預(yù)置的自適應(yīng)語音和自適應(yīng)文本作為自適應(yīng)數(shù)據(jù)。由于能夠執(zhí)行各種語音識別相關(guān)應(yīng)用的裝置的環(huán)境總是隨時間變化的,故在環(huán)境補償模塊400中需要使用極快速自適應(yīng)方法,在此應(yīng)用本征音自適應(yīng)來實現(xiàn)極快速說話人自適應(yīng)方法。應(yīng)該注意,僅少量的用戶輸入語音可以使本征音自適應(yīng)有效,故環(huán)境補償模塊400 使用增量自適應(yīng)方案,即,隨著用戶的語音輸入不斷地進(jìn)行環(huán)境補償,以獲得自適應(yīng)效果更好的聲學(xué)模型。
解碼模塊401對目標(biāo)補償模塊300輸出的SA-AM以及用戶的輸入語音進(jìn)行解碼操作,輸出識別文本。統(tǒng)計累加模塊402對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加計算。所述輸出的識別文本可以用于各種語音識別相關(guān)應(yīng)用,例如,可以顯示所述輸出的識別文本,但是本發(fā)明不限于此。應(yīng)該理解,上述解碼和統(tǒng)計累加的操作屬于現(xiàn)有技術(shù),為了避免模糊本發(fā)明的主題,在此不作詳細(xì)介紹。本征音自適應(yīng)模塊403通過使用統(tǒng)計累加模塊402統(tǒng)計累加的結(jié)果對目標(biāo)補償模塊300輸出的SA-AM進(jìn)行本征音自適應(yīng),輸出環(huán)境適應(yīng)的聲學(xué)模型(environment adapted acoustic model, EA-AM),并將所述輸出反饋到本征音自適應(yīng)模塊403,用于下一用戶輸入語音的均值MLLR自適應(yīng)。在該步驟中,不對本征音自適應(yīng)進(jìn)行迭代操作。應(yīng)該理解,所述本征音自適應(yīng)操作屬于現(xiàn)有技術(shù),為了避免模糊本發(fā)明的主題,在此不作詳細(xì)介紹。應(yīng)該理解,目標(biāo)補償模塊300和環(huán)境補償模塊400并行運行,即,它們的輸入語音相同,并且環(huán)境補償模塊400總是基于從目標(biāo)補償模塊300輸出的聲學(xué)模型來執(zhí)行環(huán)境補償。同時,目標(biāo)補償模塊300和環(huán)境補償模塊400可以在用戶輸入一次語音就進(jìn)行一次目標(biāo)補償,也可以在用戶輸入幾次語音才進(jìn)行一次目標(biāo)補償,這可以在所述能夠執(zhí)行各種語音識別相關(guān)應(yīng)用的裝置出廠的時候預(yù)定也可以由用戶自己設(shè)置。圖5是示出根據(jù)本發(fā)明示例性實施例的目標(biāo)補償模塊300的選項的接口的示圖。參照圖5,存在三種用戶選項非特定用戶選項、新用戶選項和選擇用戶選項。非特定用戶選項保持使用從裝置的所有用戶的輸入語音自適應(yīng)的聲學(xué)模型。新用戶選項將創(chuàng)建用于特定新用戶的聲學(xué)模型,所述聲學(xué)模型是從非特定用戶的聲學(xué)模型自適應(yīng)得到的,使用當(dāng)前應(yīng)用中所述特定新用戶的輸入語音來對所述非特定用戶的聲學(xué)模型進(jìn)行自適應(yīng)。選擇用戶選項用于從之前保存的用戶的聲學(xué)模型中進(jìn)行選擇,當(dāng)選擇了一個聲學(xué)模型時,對所述聲學(xué)模型進(jìn)行自適應(yīng)。應(yīng)該理解,用于目標(biāo)補償300的選項選擇的實現(xiàn)不限于圖5所示。圖6是示出根據(jù)本發(fā)明示例性實施例的環(huán)境補償模塊400的選項的接口的示圖。參照圖6,存在三種環(huán)境選項非特定環(huán)境選項、新環(huán)境選項和選擇環(huán)境選項。非特定環(huán)境選項保持使用從裝置遇到的所有環(huán)境的輸入語音自適應(yīng)的聲學(xué)模型。新環(huán)境選項將創(chuàng)建用于特定新環(huán)境的聲學(xué)模型,所述聲學(xué)模型是從非特定環(huán)境的聲學(xué)模型自適應(yīng)得到的,使用當(dāng)前應(yīng)用中特定新用戶在所述特定新環(huán)境中的輸入語音來對所述非特定環(huán)境的聲學(xué)模型進(jìn)行自適應(yīng)。選擇環(huán)境選項用于從之前保存的聲學(xué)模型中進(jìn)行選擇,當(dāng)選擇了一個聲學(xué)模型時,對所述聲學(xué)模型進(jìn)行自適應(yīng)。應(yīng)該理解,圖5和圖6所示的兩個選項接口是聲學(xué)模型的兩個屬性,并且可以隨時進(jìn)行選擇和更改,諸如,當(dāng)分別選擇非特定用戶選項和非特定環(huán)境選項時,將使用從裝置的所有用戶在所有環(huán)境的輸入語音自適應(yīng)的聲學(xué)模型作為目標(biāo)補償模塊300的輸入;當(dāng)分別選擇非特定用戶選項和新環(huán)境選項時,將創(chuàng)建用于特定新環(huán)境的從非特定用戶的輸入語音自適應(yīng)的聲學(xué)模型作為目標(biāo)補償模塊300的輸入;當(dāng)僅選擇選擇環(huán)境選項時,將從之前保存的非特定用戶在各個環(huán)境中的輸入語音自適應(yīng)的聲學(xué)模型中進(jìn)行選擇,作為目標(biāo)補償模塊300的輸入,諸如此類,在此不再累述。圖7是示出根據(jù)本發(fā)明示例性實施例的用于語音識別設(shè)備的補償方法的流程圖。在操作701,使用期望最大化算法對預(yù)置聲學(xué)模型執(zhí)行訓(xùn)練,輸出非特定說話人的聲學(xué)模型。在操作702,使用聲學(xué)模型對影響聲學(xué)數(shù)據(jù)的特性的特定域和特定裝置進(jìn)行補償, 輸出全局適應(yīng)的聲學(xué)模型。更具體地,對預(yù)置的自適應(yīng)語音和自適應(yīng)文本進(jìn)行統(tǒng)計累加計算;通過使用所述統(tǒng)計累加的結(jié)果,對聲學(xué)模型訓(xùn)練輸出的非特定說話人聲學(xué)模型執(zhí)行最大后驗概率自適應(yīng);通過使用所述統(tǒng)計累加的結(jié)果,對所述最大后驗概率自適應(yīng)的執(zhí)行結(jié)果執(zhí)行二次迭代均值最大似然線性回歸自適應(yīng),輸出全局適應(yīng)的聲學(xué)模型。在操作703,使用全局適應(yīng)的聲學(xué)模型對特定說話人的變化進(jìn)行補償,輸出說話人適應(yīng)的聲學(xué)模型。更具體地,通過使用全局適應(yīng)的聲學(xué)模型對輸入語音進(jìn)行解碼,輸出識別文本;對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加計算;使用所述統(tǒng)計累加的結(jié)果對全局適應(yīng)的聲學(xué)模型執(zhí)行均值最大似然線性回歸自適應(yīng),輸出說話人適應(yīng)的聲學(xué)模型,并將說話人適應(yīng)的聲學(xué)模型反饋到所述均值最大似然線性回歸自適應(yīng)操作。在操作704,使用說話人適應(yīng)的聲學(xué)模型對特定環(huán)境的變化進(jìn)行補償,輸出環(huán)境適應(yīng)的聲學(xué)模型。更具體地,通過使用說話人適應(yīng)的聲學(xué)模型對輸入語音進(jìn)行解碼,輸出識別文本;對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加計算;使用所述統(tǒng)計累加的結(jié)果對說話人適應(yīng)的聲學(xué)模型執(zhí)行本征音自適應(yīng),輸出環(huán)境適應(yīng)的聲學(xué)模型,并將環(huán)境適應(yīng)的聲學(xué)模型反饋到所述本征音自適應(yīng)操作。通過本發(fā)明,可以在不同情況下在各種語音識別相關(guān)應(yīng)用中使用所有聲學(xué)模型, 并且,目標(biāo)補償模塊300和環(huán)境補償模塊400的組合提供了能夠立即適應(yīng)于不同用戶和不同環(huán)境的聲學(xué)模型。雖然已經(jīng)參照示例性實施例示出和描述了本發(fā)明,但是本領(lǐng)域的技術(shù)人員應(yīng)該理解在不脫離由權(quán)利要求定義的本發(fā)明的精神和范圍的情況下,可以進(jìn)行形式和細(xì)節(jié)上的各種改變。
權(quán)利要求
1.一種用于語音識別設(shè)備的補償裝置,所述補償裝置包括模型訓(xùn)練模塊,使用期望最大化算法對預(yù)置聲學(xué)模型執(zhí)行訓(xùn)練,輸出非特定說話人的聲學(xué)模型;全局補償模塊,使用聲學(xué)模型對影響聲學(xué)數(shù)據(jù)的特性的特定域和特定裝置進(jìn)行補償, 輸出全局適應(yīng)的聲學(xué)模型;目標(biāo)補償模塊,使用全局適應(yīng)的聲學(xué)模型對特定說話人的變化進(jìn)行補償,輸出說話人適應(yīng)的聲學(xué)模型;環(huán)境補償模塊,使用說話人適應(yīng)的聲學(xué)模型對特定環(huán)境的變化進(jìn)行補償,輸出環(huán)境適應(yīng)的聲學(xué)模型。
2.如權(quán)利要求1所述的補償裝置,其中,所述全局補償模塊包括 統(tǒng)計累加模塊,對預(yù)置的自適應(yīng)語音和自適應(yīng)文本進(jìn)行統(tǒng)計累加計算;最大后驗概率自適應(yīng)模塊,通過使用所述統(tǒng)計累加模塊統(tǒng)計累加的結(jié)果,對模型訓(xùn)練模塊輸出的非特定說話人聲學(xué)模型執(zhí)行最大后驗概率自適應(yīng);二次迭代均值最大似然線性回歸自適應(yīng)模塊,通過使用所述統(tǒng)計累加模塊統(tǒng)計累加的結(jié)果,對所述最大后驗概率自適應(yīng)模塊的執(zhí)行結(jié)果執(zhí)行二次迭代均值最大似然線性回歸自適應(yīng),輸出全局適應(yīng)的聲學(xué)模型。
3.如權(quán)利要求1所述的補償裝置,其中,所述目標(biāo)補償模塊包括解碼模塊,通過使用全局適應(yīng)的聲學(xué)模型對輸入語音進(jìn)行解碼,輸出識別文本; 統(tǒng)計累加模塊,對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加計算; 均值最大似然線性回歸自適應(yīng)模塊,通過使用所述統(tǒng)計累加模塊統(tǒng)計累加的結(jié)果,對全局適應(yīng)的聲學(xué)模型執(zhí)行均值最大似然線性回歸自適應(yīng),輸出說話人適應(yīng)的聲學(xué)模型,并將說話人適應(yīng)的聲學(xué)模型反饋到所述均值最大似然線性回歸自適應(yīng)模塊。
4.如權(quán)利要求1所述的補償裝置,其中,所述環(huán)境補償模塊包括解碼模塊,通過使用說話人適應(yīng)的聲學(xué)模型對輸入語音進(jìn)行解碼,輸出識別文本; 統(tǒng)計累加模塊,對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加計算; 本征音自適應(yīng)模塊,通過使用所述統(tǒng)計累加模塊統(tǒng)計累加的結(jié)果,對說話人適應(yīng)的聲學(xué)模型執(zhí)行本征音自適應(yīng),輸出環(huán)境適應(yīng)的聲學(xué)模型,并將環(huán)境適應(yīng)的聲學(xué)模型反饋到所述本征音自適應(yīng)模塊。
5.一種用于語音識別設(shè)備的補償方法,所述補償方法包括(a)使用期望最大化算法對預(yù)置聲學(xué)模型執(zhí)行訓(xùn)練,輸出非特定說話人的聲學(xué)模型;(b)使用聲學(xué)模型對影響聲學(xué)數(shù)據(jù)的特性的特定域和特定裝置進(jìn)行補償,輸出全局適應(yīng)的聲學(xué)模型;(c)使用全局適應(yīng)的聲學(xué)模型對特定說話人的變化進(jìn)行補償,輸出說話人適應(yīng)的聲學(xué)模型;(d)使用說話人適應(yīng)的聲學(xué)模型對特定環(huán)境的變化進(jìn)行補償,輸出環(huán)境適應(yīng)的聲學(xué)模型。
6.如權(quán)利要求5所述的補償方法,其中,所述步驟(b)包括 (bl)對預(yù)置的自適應(yīng)語音和自適應(yīng)文本進(jìn)行統(tǒng)計累加計算;(b2)通過使用所述統(tǒng)計累加的結(jié)果,對所述非特定說話人聲學(xué)模型執(zhí)行最大后驗概率自適應(yīng);(b3)通過使用所述統(tǒng)計累加的結(jié)果,對所述最大后驗概率自適應(yīng)的執(zhí)行結(jié)果執(zhí)行二次迭代均值最大似然線性回歸自適應(yīng),輸出全局適應(yīng)的聲學(xué)模型。
7.如權(quán)利要求5所述的補償方法,其中,所述步驟(c)包括(cl)通過使用全局適應(yīng)的聲學(xué)模型對輸入語音進(jìn)行解碼,輸出識別文本; (c2)對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加計算;(c3)通過使用所述統(tǒng)計累加的結(jié)果,對全局適應(yīng)的聲學(xué)模型執(zhí)行均值最大似然線性回歸自適應(yīng),輸出說話人適應(yīng)的聲學(xué)模型,并將說話人適應(yīng)的聲學(xué)模型反饋到所述均值最大似然線性回歸自適應(yīng)操作。
8.如權(quán)利要求5所述的補償方法,其中,所述步驟(d)包括(dl)通過使用說話人適應(yīng)的聲學(xué)模型對輸入語音進(jìn)行解碼,輸出識別文本; (d2)對所述輸入語音和識別文本進(jìn)行統(tǒng)計累加計算;(d3)通過使用所述統(tǒng)計累加的結(jié)果,對說話人適應(yīng)的聲學(xué)模型執(zhí)行本征音自適應(yīng),輸出環(huán)境適應(yīng)的聲學(xué)模型,并將環(huán)境適應(yīng)的聲學(xué)模型反饋到所述本征音自適應(yīng)操作。
9.一種語音識別設(shè)備,包括權(quán)利要求1 4之一所述的補償裝置。
全文摘要
提供了一種用于語音識別設(shè)備的補償裝置和方法,所述補償裝置包括模型訓(xùn)練模塊,使用期望最大化算法對預(yù)置聲學(xué)模型執(zhí)行訓(xùn)練,輸出非特定說話人的聲學(xué)模型;全局補償模塊,使用聲學(xué)模型對影響聲學(xué)數(shù)據(jù)的特性的特定域和特定裝置進(jìn)行補償,輸出全局適應(yīng)的聲學(xué)模型;目標(biāo)補償模塊,使用全局適應(yīng)的聲學(xué)模型對特定說話人的變化進(jìn)行補償,輸出說話人適應(yīng)的聲學(xué)模型;環(huán)境補償模塊,使用說話人適應(yīng)的聲學(xué)模型對特定環(huán)境的變化進(jìn)行補償,輸出環(huán)境適應(yīng)的聲學(xué)模型。
文檔編號G10L15/20GK102237086SQ20101017371
公開日2011年11月9日 申請日期2010年4月28日 優(yōu)先權(quán)日2010年4月28日
發(fā)明者嚴(yán)基完, 張華 , 朱璇, 蘇騰榮 申請人:三星電子株式會社, 北京三星通信技術(shù)研究有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1