專利名稱:語音識別裝置以及語音識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種借由說話人適應(yīng)處理實行語音識別的語音識別裝置以及語音識別方法。
而且,本發(fā)明還涉及一種使用實施過說話人適應(yīng)處理的語音模型實行語音識別的語音識別裝置以及語音識別方法。
背景技術(shù):
語音識別很困難的主要原因,一般被認(rèn)為是由于說話人的語音受發(fā)音器官及語音習(xí)慣等個人差異影響。
以往,對于這些存在個人差異影響的語音,作為常用的語音識別算法,主要使用MLLR(Maximum Likelihood Linear Regression)與MAP(Maximum a Posteriori)等說話人適應(yīng)處理來提高對于特定說話人語音的識別率。
這種說話人適應(yīng)處理方法,利用許多非特定人的語音預(yù)先形成以音素或者單詞為單位的許多聲音模型(初期的聲音模型),然后借由應(yīng)作說話人適應(yīng)處理的說話人語音的特征量,對這些聲音模型進(jìn)行說話人適應(yīng)處理。
但是,為了實行適當(dāng)?shù)恼f話人適應(yīng)處理,必須參照語音識別結(jié)果,對音素或單詞單位的聲音模型實施說話人適應(yīng)處理。
也就是,以具體的事例來說明,當(dāng)說話人講出“東京”時,只有在該語音被正確識別為“東京”時,才需要將“東京”的聲音模型作說話人適應(yīng)處理,若根據(jù)錯誤識別的結(jié)果將“東京”的聲音模型作說話人適應(yīng)處理,則變成實行錯誤的說話人適應(yīng)處理之情況。
假設(shè)說話人講出“東京”時,將其語音誤識別為“京都”,則當(dāng)對“京都”的聲音模型以“東京”的語音特征量實行說話人適應(yīng)處理時,無法實施適當(dāng)?shù)恼f話人適應(yīng)處理,從而會降低說話人適應(yīng)處理后的語音識別率。
因此,作為實行說話人適應(yīng)處理時的前提條件,準(zhǔn)確的判斷語音與語音識別的結(jié)果是否一致,也就是準(zhǔn)確的判斷語音識別的結(jié)果是否正確很重要。
但是,按照現(xiàn)有的說話人適應(yīng)處理方法,因為判斷語音識別結(jié)果是否正確的工作量非常龐大,因此開發(fā)一種不會使說話人感到壓力,可迅速并且適當(dāng)?shù)膶嵭姓f話人適應(yīng)處理的新穎的判斷處理方法成為一個很重要的課題。
此外,在語音識別的技術(shù)領(lǐng)域中,存在使用大量語音數(shù)據(jù)庫實行學(xué)習(xí)的非特定人語音模型實行語音識別的技術(shù)。
但是,這種非特定人語音模型,因為是根據(jù)許多非特定人的語音資料進(jìn)行學(xué)習(xí),所以在識別標(biāo)準(zhǔn)語音說話人的語音的情況下可得到較高的識別性能,然而在識別具有特征語音說話人的語音的情況下,存在不一定能得到較高識別性能的問題。
因此,本發(fā)明有借由各個說話人的語音將非特定人語音模型作說話人適應(yīng)處理,而借由使用該經(jīng)說話人適應(yīng)處理的聲音模型對每個說話人實行適當(dāng)?shù)恼Z音識別的說話人適應(yīng)處理方法。
現(xiàn)有的說話人適應(yīng)處理方法,使用大量的語音數(shù)據(jù)庫預(yù)先生成音素等次單詞單位的非特定人語音模型(以下稱為“初期語音模型”),而在開始實際的語音識別之前的前期處理階段對初期語音模型實施說話人適應(yīng)處理。也就是,在前期處理階段的時候使說話人說話,然后根據(jù)語音特征矢量系列將初期語音模型作說話人適應(yīng)處理,生成考慮到說話人個人差異的說話人適應(yīng)模型。
還有,在實際的語音識別時,對照說話人所發(fā)出的應(yīng)識別的語音的特征矢量系列與由上述的說話人適應(yīng)模型構(gòu)成的系列,就可得對說話人適應(yīng)模型系列作語音識別的最優(yōu)結(jié)果。
但是,對于初期語音模型實行說話人適應(yīng)處理時,在說話人的語音上將疊加以說話環(huán)境下的背景雜音。
因此,應(yīng)用現(xiàn)有的說話人適應(yīng)處理方法的情況下,除說話人的語音之外,還需借由疊加有背景雜音的語音(也就是背景雜音疊加語音)的特征矢量系列作說話人適應(yīng)處理,從而有時會難以產(chǎn)生高精度的說話人適應(yīng)模型。
特別是在使用雜音較多環(huán)境下的語音進(jìn)行說話人適應(yīng)處理時,將強(qiáng)烈的受到背景雜音的影響,而產(chǎn)生難以生成能適當(dāng)反映說話人特征的說話人適應(yīng)模型之情形。
而且,實際上,借由利用現(xiàn)有的說話人適應(yīng)處理方法作說話人適應(yīng)處理的上述說話人適應(yīng)模型實行語音識別時,如果識別時環(huán)境下的背景雜音與已述的說話人適應(yīng)處理時的背景雜音不同,就會無法充分獲得實行說話人適應(yīng)處理所產(chǎn)生的效果,也就是無法改善語音識別率。
發(fā)明內(nèi)容
為解決前述問題,本發(fā)明的目的在于提供一種可迅速并且適當(dāng)?shù)膶嵭姓f話人適應(yīng)處理的語音識別裝置以及語音識別方法。
還有,本發(fā)明的另一目的在于提供一種對于背景雜音的影響可實行強(qiáng)制的說話人適應(yīng)處理的語音識別裝置以及語音識別方法。
為實現(xiàn)上述目的,本發(fā)明提供一種語音識別裝置,其對聲音模型借由語音的特征矢量實施說話人自適應(yīng);其具備有語音識別裝置,借由對照上述聲音模型與語音的特征矢量而輸出表示得到最大優(yōu)度(相似度)的聲音模型的識別結(jié)果,與表示上述最大優(yōu)度的值的第一記錄,與表示其次的優(yōu)度值的第二記錄;判斷裝置,將依據(jù)上述第一記錄與第二記錄的評價值與預(yù)先設(shè)定的基值(閾值)作比較,在上述評價值相對于基值呈一定關(guān)系的情況下則判斷前述識別結(jié)果為正確;說話人適應(yīng)處理裝置,借由上述判斷裝置判斷上述識別結(jié)果為正確時對前述聲音模型實施說話人適應(yīng)處理。
另外,本發(fā)明提供一種語音識別方法,根據(jù)語音的特征矢量對聲音模型實施說話人適應(yīng)處理;包括第一步驟,對照上述聲音模型與語音的特征矢量而求取表示得到最大優(yōu)度的聲音模型的識別結(jié)果,與表示前述最大優(yōu)度的值的第一記錄,及表示其次優(yōu)度值的第二記錄;第二步驟,將依據(jù)前述第一記錄與第二記錄得出的評價值與預(yù)先設(shè)定的基值作比較,在上述評價值相對于基值呈一定關(guān)系的情況下判斷上述識別結(jié)果為正確;第三步驟,在上述第二步驟中,在判斷前述識別結(jié)果為正確時則對前述聲音模型實施說話人適應(yīng)處理。
所述的語音識別裝置與語音識別方法,其中,在說話人適應(yīng)處理的過程中,借由對照聲音模型與語音的特征矢量求取表示得到最優(yōu)聲音模型的識別結(jié)果與表示最優(yōu)值的第一記錄以及表示其次優(yōu)度值的第二記錄,然后再將依據(jù)第一記錄與第二記錄的評價值與預(yù)設(shè)的基值比較。隨后,在評價值相對于基值呈一定關(guān)系時,則判斷為識別結(jié)果正確,對聲音模型實施說話人適應(yīng)處理。借此,可根據(jù)正確的識別結(jié)果實施適當(dāng)?shù)恼f話人適應(yīng)處理。
另外,所述語音識別裝置,其中,在上述評價值相對于基值為不呈一定關(guān)系的情況下,則上述判斷裝置判斷上述識別結(jié)果為誤,而上述說話人適應(yīng)處理裝置在判斷上述識別結(jié)果為誤時不對前述聲音模型實施說話人適應(yīng)處理。
另外,所述語音識別方法,其中,在上述第二步驟中在上述評價值相對于前述基值不呈一定關(guān)系的情況下則判斷上述識別結(jié)果為誤,而在上述第三步驟中在判斷上述識別結(jié)果為誤時則不對上述聲音模型實施說話人適應(yīng)處理。
所述的語音識別裝置與語音識別方法,其中,當(dāng)識別結(jié)果判斷為誤時則不對聲音模型實施說話人適應(yīng)處理。借此,借由不根據(jù)錯誤的識別結(jié)果實行說話人適應(yīng)處理可防止說話人適應(yīng)處理后的語音識別精度的變低。
所述的語音識別裝置,其中前述評價值根據(jù)上述第一記錄與第二記錄的差值進(jìn)行演算。
所述的語音識別方法,其中前述評價值根據(jù)上述第一記錄與第二記錄的差值進(jìn)行演算。
所述的語音識別裝置與語音識別方法,借由以第一記錄與第二記錄的差值計算評價值,而在該計算所得的評價值相對于基值呈一定關(guān)系時則判斷識別結(jié)果為正確,另外,其評價值相對于基值不呈一定關(guān)系時則判斷為識別結(jié)果為錯誤,由此可提高判斷時的判斷精度。
另外,所述語音識別裝置,其還具備一裝置,為在前述判斷裝置判斷前述識別結(jié)果為錯誤時則禁止上述識別結(jié)果的輸出,并且實行上述識別結(jié)果為錯誤的信息提示。
另外,所述語音識別方法,在前述第二步驟中在判斷前述識別結(jié)果為錯誤時則禁止上述識別結(jié)果的輸出同時還實行上述識別結(jié)果為錯誤的信息提示。
所述的語音識別裝置與語音識別方法,可對使用者提示是否實行了適當(dāng)?shù)恼f話人適應(yīng)處理等有效信息。
此外,本發(fā)明提供一種語音識別裝置,具備有記憶裝置,具有初期語音模型;一雜音適應(yīng)裝置,借由在對上述記憶裝置的初期語音模型實行說話人適應(yīng)處理時的背景雜音,實施以雜音適應(yīng)處理來產(chǎn)生雜音適應(yīng)模型;說話人適應(yīng)參數(shù)計算裝置,對上述雜音適應(yīng)處置所產(chǎn)生的前述雜音適應(yīng)模型借由上述說話人適應(yīng)處理時所說話的語音實行說話人適應(yīng)計算,從而計算出將上述雜音適應(yīng)模型變換為雜音疊加說話人適應(yīng)模型用的說話人適應(yīng)參數(shù);語音模型更新裝置,在對上述記憶裝置的初期語音模型借由上述說話人適應(yīng)處理參數(shù)實施說話人適應(yīng)處理以產(chǎn)生說話人適應(yīng)模型,而將該說話人適應(yīng)模型取代前述初期語音模型從而更新記憶于上述記憶裝置。
所述語音識別裝置,其還具備有在語音識別時實行語音識別處理的識別處理裝置,并且上述雜音適應(yīng)裝置借由上述語音識別時的非說話期間的背景雜音對更新記憶于上述記憶裝置的上述說話人適應(yīng)模型實施雜音適應(yīng)處理,從而產(chǎn)生經(jīng)雜音適應(yīng)處理的說話人適應(yīng)模型,并且將雜音適應(yīng)處理過的說話人適應(yīng)模型作為識別語音用的聲音模型供給至上述語音識別裝置。
本發(fā)明又提供一種語音識別裝置,具備有記憶裝置,具有初期語音模型;雜音適應(yīng)裝置,借由語音識別時的非說話期間的背景雜音對上述記憶裝置的初期語音模型實施雜音適應(yīng)處理而生成雜音適應(yīng)模型;識別處理裝置,對照上述語音識別時的說話期間所說話的應(yīng)該語音識別的語音與上述雜音適應(yīng)裝置所生成的上述雜音適應(yīng)模型而實行語音識別;說話人適應(yīng)參數(shù)計算裝置,對前述雜音適應(yīng)裝置所生成的上述雜音適應(yīng)模型借由上述應(yīng)該語音識別的語音實行說話人適應(yīng)計算,而算出將上述雜音適應(yīng)模型變換成雜音疊加說話人適應(yīng)模型用的說話人適應(yīng)參數(shù);語音模型更新裝置,對上述記憶裝置的初期語音模型借由上述說話人適應(yīng)參數(shù)實施說話人適應(yīng)處理以產(chǎn)生說話人適應(yīng)模型,并將該說話人適應(yīng)模型取代上述初期語音模型而更新記憶于上述記憶裝置中。
所述的語音識別裝置,其中前述說話人適應(yīng)參數(shù)計算裝置與語音模型更新裝置在前述識別處理裝置的識別結(jié)果的可靠度較高時,生成前述說話人適應(yīng)模型而取代上述初期語音模型從而更新記憶于上述記憶裝置中。
本發(fā)明還提供一種語音識別方法,包括雜音適應(yīng)處理步驟;對記憶于記憶裝置的初期語音模型借由說話人適應(yīng)處理時的背景雜音實施雜音適應(yīng)處理而產(chǎn)生雜音適應(yīng)模型;說話人適應(yīng)參數(shù)計算處理步驟,對上述雜音適應(yīng)處理步驟所產(chǎn)生的上述雜音適應(yīng)模型借由上述說話人適應(yīng)處理時所說話的語音實行說話人適應(yīng)計算,而計算出將上述雜音適應(yīng)模型變換成雜音疊加說話人適應(yīng)模型用的說話人適應(yīng)參數(shù);語音模型更新處理步驟,對上述記憶裝置的初期語音模型借由上述說話人適應(yīng)參數(shù)實施說話人適應(yīng)處理而產(chǎn)生說話人適應(yīng)模型,而以該說話人適應(yīng)模型取代上述初期語音模型從而更新記憶于上述記憶裝置。
所述的語音識別方法,其在上述雜音適應(yīng)處理步驟中還具備有語音識別處理步驟,借由在語音識別時的非說話期間的背景雜音,對更新記憶于上述記憶裝置的上述說話人適應(yīng)模型實施雜音適應(yīng)處理,從而生成實施過雜音適應(yīng)處理的說話人適應(yīng)模型,而借由對照該實施過雜音適應(yīng)處理的說話人適應(yīng)模型與上述語音識別時的說話期間的應(yīng)該語音識別的語音來實行語音識別。
本發(fā)明又提供一種語音識別方法,包括雜音適應(yīng)處理步驟,借由語音識別時的非說話期間的背景雜音對記憶于記憶裝置的初期語音模型實施雜音適應(yīng)處理而產(chǎn)生雜音適應(yīng)模型;識別處理步驟,對照上述語音識別時的說話期間所說話的應(yīng)該語音識別的語音與上述雜音適應(yīng)處理步驟所生成的上述雜音適應(yīng)模型而實行語音識別;說話人適應(yīng)參數(shù)計算處理步驟,對上述雜音適應(yīng)處理步驟所生成的上述雜音適應(yīng)模型借由上述應(yīng)該語音識別的語音實行說話人適應(yīng)計算,從而算出將上述雜音適應(yīng)模型變換成雜音疊加說話人適應(yīng)模型用的說話人適應(yīng)參數(shù);語音模型更新處理步驟,對上述記憶裝置的初期語音模型以上述說話人適應(yīng)參數(shù)實施說話人適應(yīng)處理而產(chǎn)生說話人適應(yīng)模型,而將該說話人適應(yīng)模型取代上述初期語音模型以更新記憶于上述記憶裝置。
所述的語音識別方法,其中上述說話人適應(yīng)參數(shù)計算處理步驟與語音模型更新處理步驟在上述識別處理步驟的識別結(jié)果的可靠度較高的情況下產(chǎn)生上述說話人適應(yīng)模型,從而取代前述初期語音模型而更新記憶于上述記憶裝置中。
所述的語音識別裝置與語音識別方法,其中,在說話人適應(yīng)處理時,對初期語音模型實施雜音適應(yīng)處理,而對以該雜音適應(yīng)處理所得的雜音適應(yīng)模型實行說話人適應(yīng)計算,而計算出將雜音適應(yīng)模型變換成雜音疊加適應(yīng)模型用的說話人適應(yīng)參數(shù),而對初期語音模型以前述說話人適應(yīng)參數(shù)實施說話人適應(yīng)處理而生成在語音識別時所利用的說話人適應(yīng)模型,而將初期語音模型以該說話人適應(yīng)模型加以更新。
借此,可減低說話人適應(yīng)處理時的背景雜音的不良影響,從而可實現(xiàn)說話人適應(yīng)處理的本來目的,產(chǎn)生對說話人的個人特征的適應(yīng)效果較高的說話人適應(yīng)模型。
所述的語音識別裝置與語音識別方法,在實行說話人適應(yīng)處理后的語音識別時,借由其語音識別時的非說話期間的背景雜音對被更新記憶的說話人適應(yīng)模型實施雜音適應(yīng)處理。借此,產(chǎn)生經(jīng)雜音適應(yīng)處理的說話人適應(yīng)模型。然后,借由對照實施雜音適應(yīng)處理的說話人適應(yīng)模型與語音識別時的說話期間的應(yīng)該語音識別的語音,實行語音識別。
所述的語音識別裝置與語音識別方法,可在語音識別時同時實行說話人自適應(yīng)。
也就是,借由語音識別時的非說話期間的背景雜音對初期語音模型實施雜音適應(yīng)處理而生成雜音適應(yīng)模型,而借由對照其語音識別時的說話期間的說話的應(yīng)該語音識別的語音與雜音適應(yīng)模型可實行語音識別。還有,對雜音適應(yīng)模型借由應(yīng)該語音識別的語音實行說話人適應(yīng)計算,可算出將雜音適應(yīng)模型變換成雜音疊加說話人適應(yīng)模型用的說話人適應(yīng)參數(shù)。還有,借由對初期語音模型以說話人適應(yīng)參數(shù)實施說話人適應(yīng)處理,可產(chǎn)生說話人適應(yīng)模型,從而以生成的說話人適應(yīng)模型取代更新初期語音模型。
其結(jié)果是,隨著對大量的語音實行語音識別,可將初期語音模型更新成對說話人的個人特征的適應(yīng)程度較高的說話人自適應(yīng)模型,可實現(xiàn)語音識別性能的提高。
所述語音識別裝置與語音識別方法,其在語音識別結(jié)果的可靠度較高的情況下,借由產(chǎn)生說話人適應(yīng)模型而更新初期語音模型,可對應(yīng)說話環(huán)境的狀態(tài)等實現(xiàn)適當(dāng)?shù)恼f話人適應(yīng)處理。
還有,所謂初期語音模型,指實施說話人適應(yīng)處理前記憶于前述記憶裝置的語音模型。在本發(fā)明中,利用由說話人適應(yīng)處理所產(chǎn)生的說話人適應(yīng)模型將記憶于記憶裝置的初期語音模型予以更新,然后,此經(jīng)更新的說話人適應(yīng)語音模型被作為初期語音模型處理。也就是,在記憶裝置中最初記憶初期語音模型,而在以說話人適應(yīng)模型更新后,將更新過的說話人適應(yīng)模型視為初期語音模型加以處置而重復(fù)其操作。
下面結(jié)合附圖對本發(fā)明的具體實施方式
作進(jìn)一步詳細(xì)的描述。
附圖中,圖1為第一實施方式的語音識別裝置的構(gòu)成的示意圖;圖2為正確的判斷識別結(jié)果為正確或錯誤的原理的說明圖;圖3為第一實施方式的語音識別裝置的操作的流程圖;圖4為第二實施方式的語音識別裝置的構(gòu)成的示意圖;
圖5為第三實施方式的語音識別裝置的構(gòu)成的示意圖;圖6為第三實施方式的語音識別裝置的操作的流程圖;圖7為第四實施方式的語音識別裝置的構(gòu)成的示意圖;圖8為第四實施方式的語音識別裝置的操作的流程圖。
具體實施例方式
以下參照圖示說明本發(fā)明的較佳實施方式。
(第一實施方式)現(xiàn)在參照圖1至圖3說明本發(fā)明的第一實施方式。其中,圖1為本實施方式的語音識別裝置的構(gòu)成圖。
在圖1中,本語音識別裝置包括有使用HMM模型(Hidden MarkovModel)實行語音識別,將作為收音裝置的麥克風(fēng)(省略圖示)所輸出的語音輸入訊號v(t)變換成倒頻譜(cepstrum)范圍的特征矢量系列V(n)來輸出的聲音分析部1,語音識別處理部2,單詞模型生成部3,單詞辭典4,聲音模型記憶部5,正誤判斷部6及說話人適應(yīng)處理部7。
在聲音模型記憶部5中記憶著由非特定人的語音所產(chǎn)生的音素等次單詞單位的聲音模型(標(biāo)準(zhǔn)的音素HMM模型)。
還有,由后述可知,在聲音模型記憶部5中預(yù)先將來自非特定人的語音的聲音模型(標(biāo)準(zhǔn)的音素HMM模型)當(dāng)作初期聲音模型而加以記憶,其后,在實施說話人適應(yīng)處理后,其初期的聲音模型被更新成經(jīng)說話人適應(yīng)處理的聲音模型。接著,在繼續(xù)說話人適應(yīng)處理或者重復(fù)實行時,記憶于聲音模型記憶部5的說話人適應(yīng)聲音模型被實行說話人適應(yīng)處理,再次對該經(jīng)說話人適應(yīng)處理的聲音模型實施以說話人適應(yīng)處理,而重復(fù)加以處理,在聲音模型記憶部5記憶著重復(fù)更新的說話人適應(yīng)聲音模型。這樣,借由持續(xù)更新說話人適應(yīng)聲音模型可實現(xiàn)對說話人語音的識別性能的提高。
在單詞辭典4中預(yù)先記憶著大量的單詞與文句的辭典資料(textdata)。
單詞模型生成部3依照記憶于單詞辭典4中的各單詞或文句的資料(以下將這些資料統(tǒng)稱為“單詞資料”)WRD將記憶在聲音模型記憶部5的各音素的聲音模型HMMsb組合,借此產(chǎn)生對應(yīng)于單詞資料WRD的音響模型(以下稱為“單詞模型”)HMMw。
聲音識別處理部2將單詞模型生成部3所生成的單詞模型HMMw與自聲音分析部1所供給的語音的特征矢量V(n)作實時(real time)對照。然后,對照全部的單詞模型HMMw與特征矢量V(n)的結(jié)果輸出可得到最大優(yōu)度揭示單詞模型HMMw的識別結(jié)果RCG。
還有,語音識別處理部2除輸出識別果RCG外,將所述的最大優(yōu)度的值作為第一記錄FSCR,而將次大的優(yōu)度值(相對于最大優(yōu)度為第二大的優(yōu)度值)作為第二記錄SSCR輸出。
以具體例子作說明,例如說話人講出“東京(Tokyo)”時,語音識別處理部2對照其特征矢量系列V(n)與全部的單詞模型HMMw的結(jié)果,“東京(Tokyo)“的單詞模型的優(yōu)度成為最大值,而其它的單詞“京都(Kyoto)”的單詞模型的優(yōu)度如果為第二大的優(yōu)度值時,則將其最大優(yōu)度的值作為第一記錄FSCR而將第二大的優(yōu)度值作為第二記錄SSCR輸出。還有,在前述例子中,“東京(Tokyo)”的語音與相當(dāng)于第一記錄FSRC的“東京(Tokyo)”的單詞模型如果一致,則識別結(jié)果RCG為相當(dāng)于正確的情況。
另一方面,識別結(jié)果RCG為誤識別的情況,例如說話人講出“東京(Tokyo)”時,語音識別處理部2識別語音的結(jié)果例如單詞“京都(Kyoto)”的單詞模型的優(yōu)度為最大值,而“東京(Tokyo)”的單詞模型的優(yōu)度為第二大值時,其最大的優(yōu)度值被作為第一記錄FSCR而第二大的優(yōu)度值被作為第二記錄SSCR輸出。這樣,因“東京(Tokyo)”的語音與相當(dāng)于第一記錄FSCR的“京都(Kyoto)”的單詞模型并不一致,因此識別結(jié)果RCG變得不正確。
正誤判斷部6將語音識別處理部2對某一語音作語音識別時的輸出的第一記錄FSCR與第二記錄SSCR應(yīng)用于下式(1)所表示的記錄評價函數(shù),然后將其所得的記錄評價G(L)與一定的基值THD作比較。
G(L)=FSCR×(FSCR-SSCR) …(1)其中,上述式(1)的右邊中所示的變量FSCR為第一記錄FSCR的值(最大優(yōu)度值),而變量SSCR為第二記錄FSCR的值(第二的優(yōu)度值),記錄評價值G(L)為與借由右邊的評價計算所得到的優(yōu)度L有關(guān)的變量。
還有,當(dāng)記錄評價值G(L)比基值THD大時(也就是G(L)>THD時),則將識別結(jié)果RCG判斷為正確,而當(dāng)記錄評價值G(L)小于基值THD時(也就是G(L)≤THD時),則識別結(jié)果RCG判斷為誤,從而分別輸出判斷結(jié)果RSLT。
在此,詳細(xì)敘述上述式(1)的記錄評價函數(shù)與基值THD以及正誤判斷部6的判斷原理。
上述式(1)的記錄評價函數(shù)與基值THD是借由下述的統(tǒng)計方法預(yù)先實驗決定出。
首先,令任意的說話人作一定數(shù)量N的單詞以及文句的說話,而借由單詞辭典4與單詞模型生成部3與語音識別處理部2實行語音識別,而實驗性的測量總數(shù)N的各單詞及文句所輸出的第一記錄FSCR以及第二記錄SSCR。
然后,分類成語音與識別結(jié)果RCG為一致時的單詞及文句(也就是被正確識別時的單詞或文句)與語音與識別結(jié)果RCG為不一致時的單詞及文句(也就是被誤識別時的單詞及文句)。
例如作為實驗對象其所說話的單詞及文句的總數(shù)N為500個,其中被正確識別的單詞及文句的個數(shù)為400個,而被誤識別的單詞及文句的個數(shù)Y為100個,則將500個單詞及文句分別分類成個數(shù)分別為X及Y的兩類。
然后,如圖2(a)所示,利用被正確地識別的單詞或文句(在已述的例子中為X=400個單詞及文句),作成第一記錄FSCR的值(最大優(yōu)度值)相對應(yīng)的單詞及文句的個數(shù)的分布的曲線P(FSCR),并作成第二記錄SSCR的值(第二優(yōu)度值)相對應(yīng)的單詞及文句的個數(shù)的分布的曲線Q(SSCR)。
也就是,曲線P(FSCR)與Q(SSCR)以被正確的語音識別的400個單詞及文句為對象所作成。還有,語音識別處理部2所輸出的第一記錄FSCR的值(最大優(yōu)度值)與第二記錄SSCR的值(第二的優(yōu)度值)對應(yīng)于語音識別環(huán)境等作各種變化,因此將400個單詞及文句相對應(yīng)于第一記錄FSCR的各個值作分配而作成圖中以實線所示的曲線P(FSCR),同樣的借由將400個單詞及文句相對應(yīng)于第二記錄SSCR的各個值作分配而作成圖中以虛線所示的曲線Q(SSCR)。
還有,如圖2(b)所示,同樣利用被誤識別的單詞及文句(在已述的例子中為X=100個單詞及文句),作成揭示相對應(yīng)于第一記錄FSCR的值的單詞及文句的個數(shù)的分布的曲線P(FSCR)”與揭示相對應(yīng)于第二記錄SSCR的值的單詞及文句的分布的曲線Q(SSCR)”。
也就是,圖2(b)所示的曲線P(FSCR)”與Q(SSCR)”以誤識別的100個單詞及文句為對象作成。還有,語音識別處理部2在誤識別的情況下,前述第一記錄FSCR的值(最大優(yōu)度值)與第二記錄SSCR的值(第二優(yōu)度值)對應(yīng)于語音識別環(huán)境等作各種變化,因此借由將100個單詞及文句相對應(yīng)于第一記錄FSCR的各個值作分配,作成圖2(b)中的實線所示的曲線P(FSCR)”,而借由將100個單詞與文句相對應(yīng)于第二記錄SSCR的各個值作分配,作成圖2(b)中的虛線所示的曲線Q(SSCR)”。
這樣,在作成曲線后,圖2(a)中的曲線P(FSCR)與Q(SSCR)偏向分布在各個分離的優(yōu)度值范圍,因此在識別結(jié)果RCG為正確的情況下,第一記錄FSCR的統(tǒng)計性特征與第二記錄SSCR的統(tǒng)計性特征表現(xiàn)出很大的差異。
還有,圖2(b)中的曲線(FSCR)”與Q(FSCR)”分布在大約相同的優(yōu)度值的范圍,因此,在識別結(jié)果RCG為錯誤的情況下,第一記錄FSCR的統(tǒng)計性特征與第二記錄SSCR的統(tǒng)計性特征大約相同。
這樣,在識別結(jié)果RCG為正確的情況下及在識別結(jié)果為錯誤的情況下,曲線P(FSCR)與Q(SSCR)以及曲線P(FSCR)”與Q(SSCR)”的關(guān)系具有特有的統(tǒng)計特征,作為表現(xiàn)該統(tǒng)計特征的函數(shù)被確定為上述式(1)的記錄評價函數(shù)。
依照上述式(1)的記錄評價函數(shù),在識別結(jié)果RCG為正確的情況下,如圖2(a)所示,第一記錄FSCR比第二記錄SSCR偏向于較大的優(yōu)度值側(cè),上述式(1)的右邊中的差值(FSCR-SSCR)很大,而借由對此差值(FSCR-SSCR)乘以第一記錄FSCR可得到將其差值(FSCR-SSCR)的特征更顯著化的記錄評價值。
因此,上述式(1)的記錄評價函數(shù)借由用于語音識別正確實行時的第一記錄FSCR與第二記錄SSCR,可適當(dāng)?shù)胤从吵稣_地實行語音識別時的統(tǒng)計性特征,而且還可作為判斷正確實行語音識別時所輸出的識別結(jié)果RCG的基礎(chǔ)。
另一方面,在實行誤識別的情況下,如圖2(b)所示,因第一記錄FSCR與第二記錄SSCR的優(yōu)度值大約產(chǎn)生于相同范圍內(nèi),因此上述式(1)的右邊中的差值(FSCR-SSCR)很小,再對此差值(FSCR-SSCR)乘以第一記錄FSCR可將其差值(FSCR-SSCR)的特征更加顯著化,從而可得到明確的記錄評價值。
因此,上述式(1)的記錄評價函數(shù)借由用于實行誤識別時的第一記錄FSCR與第二記錄SSCR可適當(dāng)?shù)姆从硨嵭姓`識別時的統(tǒng)計特征,從而可作為實行誤識別時判斷輸出的識別結(jié)果RCG為錯誤的基礎(chǔ)。
其次,基值THD以自上述式(1)的記錄評價函數(shù)所求得的記錄評價值G(L)為對象,再識別結(jié)果RCG為正確時判斷為正確,而再識別結(jié)果為誤時判斷為錯誤,從而可成為判斷的基準(zhǔn)。
也就是,想要將全部的識別結(jié)果RCG的正確解答及不正確解答正確的予以判斷一般很困難。在說話人適應(yīng)處理時,若將不正確解答誤判斷為正確解答,則如前述,聲音模型將會被錯誤地實行適應(yīng)處理,將導(dǎo)致識別性能的降低。相反的,將正確解答誤判斷為不正確解答時,因不實行說話人適應(yīng)處理,故識別性能不能改善但也不降低。因此,基值THD為充份確保將不正確解答判斷為不正確的性能,根據(jù)下述的原理加以選擇。
首先,將正確實行語音識別時的各單詞及各文句所取得的各個第一記錄FSCR與第二記錄SSCR以上述式(1)的記錄評價函數(shù)加以運(yùn)算,而算出各單詞及各文句的記錄評價值G(L)。然后,求出對應(yīng)于所算出的各記錄評價值G(L)的單詞及文句的個數(shù)的分布的曲線R(G(L))。
同樣的,將實行誤識別時的各個單詞及文句所得的第一記錄FSCR與第二記錄SSCR以上述式(1)的記錄評價函數(shù)加以運(yùn)算,而算出各單詞及各文句的記錄評價值G(L)。然后,求出對應(yīng)于所算出的各記錄評價值G(L)的單詞及文句的個數(shù)的分布的曲線T(G(L))。
這樣,在求出各曲線R(G(L))與T(G(L))后,曲線R(G(L))為圖2(c)中的實線所示的分布狀態(tài),而曲線T(G(L))為圖2(c)中的虛線所示的分布狀態(tài)。
也就是,曲線R(G(L))表示正確識別某單詞或某文句時的特征,而曲線T(G(L))表示誤識別某單詞或某文句時的特征。
還有,以曲線R(G(L))的個數(shù)為0時的記錄評價值G(L)為界限,比其記錄評價值G(L)的值大的范圍WR在識別結(jié)果RCG為正確時成為可判斷其為正確的范圍,而以曲線T(G(L))的個數(shù)為0時的記錄評價值G(L)為界限,比其記錄評價值G(L)的值小的范圍WT成為在識別結(jié)果RCG為誤時可判斷其為錯誤的范圍。
為此,基值THD被決定為比曲線T(G(L))的個數(shù)為0時的記錄評價值G(L)稍大一些的值。
還有,正誤判斷部6在每次輸出各單詞及各文字的識別結(jié)果RCG時比較基值THD與由上述式(1)的記錄評價函數(shù)所取得的記錄評價值G(L),來判斷基值THD與記錄評價值G(L)是否為既定的關(guān)系,并輸出其判斷結(jié)果RSLT。也就是,在記錄評價值G(L)比基值THD大時(G(L)>THD時),則判斷識別結(jié)果RC6為正確,而在記錄評價值G(L)比基值THD小時(G(L)≤THD的時),則判斷識別結(jié)果RCG為錯誤,而分別輸出判斷結(jié)果RSLT。
說話人自適應(yīng)處理部7輸入識別結(jié)果RCG與判斷結(jié)果RSLT,然后對應(yīng)于判斷結(jié)果RSLT實行說話人適應(yīng)處理。
也就是,在輸入表示正確的語音識別的判斷結(jié)果RSLT時,借由在那時的說話人的語音的特征矢量V(n)實行說話人適應(yīng)處理,另一方面,在輸入的判斷結(jié)果RSLT為誤判斷時不實行說話人適應(yīng)處理。
還有,上述的說話人適應(yīng)處理是對說話人適應(yīng)處理前的音素模型HMMsb的全部或者一部份加以實行。
也就是,輸入表示正確的語音識別的判斷結(jié)果RSLT時,語音的特征矢量系列V(n)的說話內(nèi)容被視為識別結(jié)果RCG,而借由以說話內(nèi)容為已知條件的MLLR或MAP算法等說話人適應(yīng)處理方法,對說話人適應(yīng)處理前的音素模型HMMsb實施說話人適應(yīng)處理而取得說話人適應(yīng)處理后的因素模型HMMsb”。然后,將此HMMsb”供給至聲音模型記憶部5,從而置換說話人適應(yīng)處理前的聲音模型HMMsb而更新記憶。
然后,不必說,說話人適應(yīng)處理被持續(xù)性地或者重復(fù)性地實行。因此,更新記憶于聲音模型記憶部5中的說話人適應(yīng)處理后的音素模型成為接下來的說話人適應(yīng)處理過程的說話人適應(yīng)處理前的音素模型,而該說話人適應(yīng)處理所得到的音素模型被更新記憶于聲音模型記憶部5后,在下回實行說話人適應(yīng)處理的時候?qū)Ρ桓碌囊羲啬P蛯嵤┱f話人適應(yīng)處理,然后用這種方式重復(fù)進(jìn)行。
接著參照圖3所示的流程圖,說明具有前述構(gòu)成的本語音識別裝置的操作。
在本圖中,開始說話人適應(yīng)處理后,在步驟S100開始語音輸入的處理。
接著,在步驟S102,單詞辭典4與單詞模型生成部3及語音識別處理部2對照語音的特征矢量V(n)與單詞模型HMMw來實行語音識別,識別結(jié)果RCG與第一記錄FSCR及第二記錄SSCR被輸出。
接著在步驟104,正誤判斷部6將第一記錄FSCR與第二記錄SSCR應(yīng)用于上述式(1)的記錄評價函數(shù)中,從而算出記錄評價值G(L)。
接著在步驟106,正誤判斷部6比較記錄評價值G(L)與基值THD,而在G(L)>THD時(“YES”時),判斷識別結(jié)果RCG為正確而轉(zhuǎn)移至步驟S108的處理,而在G(L)≤THD時(“NO”時)判斷識別結(jié)果RCG為誤,而不實施說話人適應(yīng)處理就轉(zhuǎn)移至結(jié)束。
處理轉(zhuǎn)移至步驟S108后,說話人適應(yīng)處理部7借由特征矢量V(n)對聲音模型記憶部5中的音素模型HMMsb作說話人適應(yīng)處理,然后在步驟S110將說話人適應(yīng)處理后的音素模型HMMsb”更新記憶,之后終止處理。
還有,在圖3中為方便的原因,只揭示了針對說話的一個單詞或一句文句的語音實施說話人適應(yīng)處理的情形,在由許多單詞或文句所構(gòu)成的文章成為對象而實施說話人適應(yīng)處理的情況下,只要重復(fù)圖3的處理過程就可以。
然后,順序處理被說話的大量的單詞以及文句,而對于誤識別的單詞及文句的音素模型HMMsb在步驟106中被判斷為“NO”,因此跳過說話人適應(yīng)處理(步驟108及步驟110),而對正確識別的單詞及文句在步驟106中被判斷為”YES”,而借由實施說話人適應(yīng)處理(步驟108及步驟110)實行適當(dāng)?shù)恼f話人適應(yīng)處理。
這樣,依照本實施方式的語音識別裝置,借由將兩個第一記錄FSCR與兩個第二記錄SSCR應(yīng)用于記錄評價函數(shù)中,可得到記錄評價值G(L),而將該值與既定的基值THD作比較時可確實并且迅速的判斷識別結(jié)果RCG為正確或錯誤。也就是,可大量削減判斷語音識別的結(jié)果RCG為正確或錯誤的處理量,同時可獲得高判斷準(zhǔn)確度。
因此,可在不使說話人感到壓力的情形下迅速并且適當(dāng)?shù)膶嵭姓f話人適應(yīng)處理。同時,因為可大幅減少錯誤的說話人適應(yīng)處理,因此可防止說話人適應(yīng)處理后的語音識別精度變差等問題的發(fā)生。
還有,成為說話人的使用者在每次使用本語音識別裝置時,可對聲音模型記憶部5中的音素模型HMMsb逐漸的實施適當(dāng)?shù)恼f話人適應(yīng)處理,所以可隨著使用次數(shù)的增加將語音識別率予以提高。
還有,在本實施方式中如前述式(1)所示根據(jù)第一記錄FSCR與第二記錄SSCR計算記錄評價值G(L),其先求取第一記錄FSCR與第二記錄SSCR的差值,然后還對其差值乘以第一記錄FSCR。但是,本發(fā)明并不只限定于此,作為變化的例子也可將第一記錄FSCR與第二記錄SSCR的差值作為記錄值G(L)。
(第二實施方式)接著參照圖4說明本發(fā)明的第二實施方式。其中,在圖4中與圖1相同或相當(dāng)?shù)牟糠輼?biāo)注以相同符號。
本語音識別裝置與圖1所示的實施方式的語音識別裝置作對比時,在本語音識別裝置中還具有成為區(qū)別的誤判斷對應(yīng)部8與顯示部9。
誤判斷對應(yīng)部8輸入來自正誤判斷部6的判斷結(jié)果RSLT,而在識別結(jié)果RCG的判斷結(jié)果RSLT為正確時輸出該識別結(jié)果RCG,而在識別結(jié)果RCG的判斷結(jié)果RSLT為誤識別時則禁止該識別結(jié)果RCG的輸出。借此,只在正確的實行語音識別的情況下才輸出識別結(jié)果RCG。
還有,在識別結(jié)果RCG的判斷結(jié)果RSLT為誤識別時,借由指示于由液晶顯示器等所形成的顯示部9上,將表示誤識別與應(yīng)實行再次說話含義的文字等所構(gòu)成的警告予以顯示出。
這樣,依照本發(fā)明的語音識別裝置,其借由利用正誤判斷部6的判斷結(jié)果RSLT可對使用者提示是否已實行了適當(dāng)?shù)恼f話人適應(yīng)處理,或者再次實行說話等信息,可達(dá)到提高使用者的易用性的目的。
如以上所說明,依照本發(fā)明的語音識別裝置以及語音識別方法,其在說話人適應(yīng)處理時借由對照聲音模型與語音的特征矢量,求出表示得到最大優(yōu)度的聲音模型的識別結(jié)果與表示最大優(yōu)度值的第一記錄與表示其次優(yōu)度值的第二記錄,而借由比較由前述第一記錄與第二記錄所產(chǎn)生的評價值與預(yù)先設(shè)定好的基值,來實行識別結(jié)果的正誤判斷,因此可實現(xiàn)高準(zhǔn)確度并且較少處理量的正誤判斷。
接下來,參照圖示說明關(guān)于本發(fā)明的其它較佳實施方式。
(第三實施方式)參照圖5及圖6說明本發(fā)明的第三實施方式。圖5為本實施方式的語音識別裝置的構(gòu)成圖。
接下來,作為一較佳的實施方式,現(xiàn)說明在初期設(shè)定就實行說話人適應(yīng)處理,而在識別時使用初期設(shè)定的語音模型加以實施的實施方式。
圖5中,本語音識別裝置使用HMM模型(Hidden Markov Model)實行語音識別,具備有初期語音模型記憶部11,記憶有預(yù)先在無雜音的環(huán)境下收錄成的語音數(shù)據(jù)庫,并且使用該數(shù)據(jù)庫作學(xué)習(xí)的成為非特定人語音模型的初期語音模型Mc;說話人自適應(yīng)模型記憶部12,用來更新記憶后述的說話人適應(yīng)計算處理所生成的說話人適應(yīng)模型Mc”;雜音適應(yīng)部13;說話人適應(yīng)部,具備有說話人適應(yīng)參數(shù)計算部14與語音模型更新部15。
還具備有聲音分析部16,將麥克風(fēng)17所收音的收音訊號v(t)變換成在各既定的幀(frame)期間的倒頻譜系數(shù)矢量,從而生成倒頻譜范圍的特征矢量系列V(n);切換開關(guān)18以及一識別處理部19。
還有,同圖中以帶箭頭的虛線與帶箭頭的實線以模式化的方式揭示訊號的通過路徑,而帶箭頭的虛線表示僅在說話人適應(yīng)處理時通過的訊號的流程,另一方面,帶箭頭的實線表示僅在語音識別時所通過的訊號的流程,或者語音識別時以及說話人適應(yīng)處理時的訊號的流程。
在此,聲音分析部16借由將麥克風(fēng)17作收音所產(chǎn)生的時間軸上的收音訊號v(t)在每個既定的幀時間變換成倒頻譜系數(shù)矢量,而產(chǎn)生并輸出倒頻譜范圍的特征矢量系列V(n)。其中,符號V(n)中的變量n表示幀號碼。
切換開關(guān)18在后述的說話人適應(yīng)處理之際,在說話人尚未開始說話的非說話期間內(nèi)切換至雜音適應(yīng)部13一側(cè),從而將語音分析部16所生成的特征矢量系列V(n)送出至雜音適應(yīng)部13。
這部份看作說話人或者裝置在處理開始的指示被執(zhí)行后的數(shù)十微秒乃至數(shù)秒之間語音尚未發(fā)出的區(qū)間,將切換開關(guān)18切換至雜音適應(yīng)部13一側(cè),其后將切換開關(guān)18切換控制至說話人自適應(yīng)計算部14或者識別處理部19一側(cè)而加以實現(xiàn)。
或者,將來自麥克風(fēng)17的收音訊號v(t)以既定的監(jiān)視控制裝置(省略圖示)作逐次監(jiān)視,在由收音訊號v(t)中判斷無說話人的語音時將切換開關(guān)18切換至雜音適應(yīng)部13一側(cè),而在判斷出已有說話人的語音時則切換控制至說話人適應(yīng)計算部14或者識別處理部19一側(cè)。重點在于對應(yīng)其是否為收音訊號v(t)中含有說話人的語音的區(qū)間而將切換開關(guān)18如上述般切換。
還有,在說話人適應(yīng)處理之際,當(dāng)說話人開始說話時,在其說話期間內(nèi)切換至說話人適應(yīng)參數(shù)計算部14一側(cè),而將語音分析部16所生成的特征矢量系列V(n)送出至說話人適應(yīng)參數(shù)計算部14。
接著,在說話人適應(yīng)處理終了后,在語音識別處理開始的情況下,切換開關(guān)18也實行同樣的操作,然而如前述般,訊號并不通過帶箭頭的虛線所示的路徑而通過帶箭頭的實線所通過的路徑。
在說話人開始說話前僅收錄背景雜音期間,切換開關(guān)18切換至雜音適應(yīng)部13一側(cè),而將背景雜音的特征矢量N(n)送出至雜音適應(yīng)部3。
在到達(dá)麥克風(fēng)17收錄語音的說話期間時,切換開關(guān)18在說話人適應(yīng)處理時切換至說話人自適應(yīng)參數(shù)計算部14一側(cè),而在識別處理時則切換至識別處理部19一側(cè),將說話期間的特征矢量系列V(n)送出至說話人自適應(yīng)參數(shù)計算部14或者識別處理部19。
初期語音模型記憶部11為由只讀半導(dǎo)體內(nèi)存(ROM)或者設(shè)為易裝卸的智能型媒體或者小型閃存等所形成的數(shù)據(jù)庫,其記憶借由預(yù)先學(xué)習(xí)標(biāo)準(zhǔn)的說話人語音所產(chǎn)生的音素等次單詞單位的初期語音模型Mc。
說話人適應(yīng)模型記憶部12由可反復(fù)記憶的半導(dǎo)體內(nèi)存等所形成,在后述的說話人適應(yīng)處理之際,首先寫入記存于初期語音模型記憶部1中的初期語音模型Mc。
然后則如后述,借由說話人適應(yīng)參數(shù)計算部14與語音模型更新部5將HMM模型作說話人適應(yīng)處理,而在以說話人適應(yīng)模型Mc”更新后,將初期語音模型Mc置換(更新)為說話人適應(yīng)模型Mc”。
雜音適應(yīng)部13在說話人適應(yīng)處理之際對記憶于說話人適應(yīng)模型記憶部12的音素等次單詞單位的全部的初期語音模型Mc實施雜音適應(yīng)處理,借以生成對應(yīng)于全部的初期語音模型Mc的雜音適應(yīng)模型Mc’,并經(jīng)由同圖中的帶箭頭的虛線所示的路徑送出至說話人適應(yīng)參數(shù)計算部14。
還有,雜音適應(yīng)部13在語音識別時借由上述說話人適應(yīng)處理對更新記憶于說話人適應(yīng)模型記憶部12中的語音模型(也就是說話人適應(yīng)模型Mc”)實施雜音適應(yīng)處理,而將該經(jīng)雜音適應(yīng)處理的說話人適應(yīng)模型Mreg經(jīng)由同圖中帶箭頭的實線所示的路徑送出至識別處理部19。
也就是,在前者的說話人適應(yīng)處理之際,在說話人適應(yīng)處理時在說話人尚未說話的非說話期間,在將其說話環(huán)境中所產(chǎn)生的背景雜音以麥克風(fēng)17收音之后,聲音分析部16由其收音訊號v(t)產(chǎn)生各既定幀期間的特征矢量系列V(n),并且切換開關(guān)18切換至雜音適應(yīng)部13一側(cè),將前述特征矢量系列V(n)當(dāng)作背景雜音的特征矢量系列N(n)送出至雜音適應(yīng)部13。
還有,雜音適應(yīng)部13使用其背景雜音特征矢量系列N(n),自所有的初期語音模型Mc中借由HMM模型合成方法或者雅可比(Jaboci)適應(yīng)方法等雜音適應(yīng)處理產(chǎn)生雜音適應(yīng)模型Mc’,而送出至說話人適應(yīng)參數(shù)計算部14。
還有,在后者的語音識別處理之際,在語音識別時,在說話人尚未說話的非說話期間,將該說話環(huán)境所產(chǎn)生的背景雜音以麥克風(fēng)17加以收音,聲音分析部16由該收音訊號v(t)產(chǎn)生各既定幀期間的特征矢量系列V(n),而切換開關(guān)18借由切換至雜音適應(yīng)部13一側(cè),將其特征矢量系列V(n)作為背景雜音的特征矢量系列N(n)送出至雜音適應(yīng)部13。
接著,雜音適應(yīng)部13使用前述背景雜音特征矢量系列N(n)對經(jīng)過更新記憶的語音模型(也就是說話人自適應(yīng)模型Mc”)實施雜音適應(yīng)處理,而將經(jīng)雜音適應(yīng)處理的說話人適應(yīng)模型Mreg送出至識別處理部19。
在此,現(xiàn)說明雜音適應(yīng)部13在說話人適應(yīng)處理時使用HMM模型合成法將對語音識別率具有巨大影響的說話人適應(yīng)模型Mc”的各分布的平均矢量μc作雜音適應(yīng)處理的情形。
首先,雜音適應(yīng)部13自背景雜音的特征矢量系列N(n)求取背景雜音模型Nb。
在此,為說明的方便,假設(shè)背景雜音為定常狀態(tài),而背景雜音模型Nb為一狀態(tài)一混合模型,而在將背景雜音模型Nb的平均矢量作為μN(yùn)說明時,平均矢量μN(yùn)以幀數(shù)將背景雜音的特征矢量系列N(n)加以平均來求得。
接著,借由合成初期語音模型Mc的分布m的平均矢量μcm與背景雜音模型Nb的平均矢量μN(yùn)求得下式(2)所表示的合成后的雜音適應(yīng)分布m的平均矢量μcm’。
μcm’=IDCT[log[(exp[DCT[μcm]]+k·exp[DCT[μN(yùn)]])] …(2)在此,IDCT[]為逆離散余弦變換,log[]為對數(shù)變換,exp[]為指數(shù)變換,DCT[]為離散余弦變換,k為自SN比求得的混合比。
對初期語音模型Mc的全部分布求取前述值。借此,求出在初期語音模型Mc上疊加以說話人適應(yīng)處理時的說話環(huán)境下的背景雜音的形態(tài)的雜音適應(yīng)模型Mc’,并送出至說話人適應(yīng)參數(shù)計算部14。
接著,在此雖將雜音模型定為一狀態(tài)一混合,而在兩狀態(tài)以上或兩混合以上的情況下則對初期語音模型Mc的一分布求取大量的對應(yīng)的雜音適應(yīng)模型Mc’的分布。還有,考慮共分散行列的情況下時也可求取雜音適應(yīng)模型Mc’。
使用HMM模型合成法作為雜音適應(yīng)方法只是用作說明,在本發(fā)明中也可使用雅可比適應(yīng)方法或其它的求取在初期語音模型Mc上疊加以說話時的背景雜音的狀態(tài)的雜音適應(yīng)模型Mc’用的雜音適應(yīng)方法。
說話人適應(yīng)參數(shù)計算部14在說話人適應(yīng)處理時,從雜音適應(yīng)部13輸入雜音適應(yīng)模型Mc’,從自聲音分析部16輸入,介以切換開關(guān)18作供給的語音的特征矢量系列V(n),從而生成輸出具有語音特征的說話人適應(yīng)參數(shù)P。
更具體的描述,在說話人適應(yīng)處理時,在說話人開始說話時,在其說話期間,切換開關(guān)18被切換至說話人適應(yīng)參數(shù)計算部14一側(cè),而疊加有背景雜音的語音的特征矢量系列V(n),從語音分析部16經(jīng)由切換開關(guān)18被供給至說話人適應(yīng)參數(shù)計算部14。
這樣,疊加有背景雜音的語音(背景雜音疊加語音)的特征矢量系列V(n),與和其同樣經(jīng)過背景雜音之雜音適應(yīng)處理的雜音適應(yīng)模型Mc’被予以供給后,說話人適應(yīng)參數(shù)計算部14使用這些特征矢量系列V(n)與雜音適應(yīng)模型Mc’實行說話人適應(yīng)計算處理,而產(chǎn)生將雜音適應(yīng)模型Mc’作說話人適應(yīng)處理用的說話人適應(yīng)參數(shù)P。
在此,使用MLLR(Maximum Likelihood Linear Regression)算法為例作為對說話人適應(yīng)計算處理的說明,來說明對識別率具有很大影響的說話人適應(yīng)模型Mc的各分布的平均矢量作更新的情形。
說話內(nèi)容使用已知的語音的特征矢量系列V(n)與雜音適應(yīng)模型Mc’實行MLLR處理,而將雜音適應(yīng)模型Mc’的分布m的平均矢量μcm’作為說話人適應(yīng)處理用的說話人適應(yīng)參數(shù)P,從而求出變換行列Wm’與偏移矢量bm’。
在此,變換行列Wm’與偏移矢量bm’因為共有大量的分布,所以在若干的分布中使用相同值的變換行列Wm’與偏移矢量bm’。
還有,共有變換行列Wm’與偏移矢量bm’的分布的選擇借由將全平均矢量加以分組,從而預(yù)先計算原本的雜音適應(yīng)處理前的分布。
接著,在全部的分布中為共有變換行列Wm’與偏移矢量bm’的情況下,對全分布求取共通的一類的變換行列Wm’與偏移矢量bm’。
接著,在上述的雜音適應(yīng)部13所使用的雜音模型非為一狀態(tài)一混合時,雜音適應(yīng)模型Mc’的大量分布對應(yīng)于初期語音模型Mc的一個分布,此情況下,在對應(yīng)于初期語音模型Mc的一分布的全部的雜音適應(yīng)模型Mc’上,共有變換行列Wm’與偏移矢量bm’。
還有,MLLR算法一般使用多份說話內(nèi)容的語音資料實行計算,在這里是將說話人適應(yīng)參數(shù)P的分布間的共有信息在全體說話內(nèi)容中共通使用,對應(yīng)于語音資料的聲音模型使用對各說話內(nèi)容實行雜音適應(yīng)的雜音適應(yīng)模型Mc’作計算。
這樣,在使用MLLR算法作為說話人適應(yīng)方法的情況下,在說話人適應(yīng)參數(shù)計算部14中,說話內(nèi)容使用已知的語音的特征矢量系列V(n)作為將聲音模型Mc’的各分布的平均矢量作更新用的說話人適應(yīng)參數(shù)P,求取變換行列Wm’與偏移矢量bm’。
還有,如上述般,雖舉例說明使用MLLR算出變換行列Wm’與偏移矢量bm’的情形,但是其也可適用MAP(Maximum A Posteriori)算法。
采用此MPA算法求取適應(yīng)平均矢量μcm’用的參數(shù)P時,借由MAP算法將雜音適應(yīng)模型Mc’的平均矢量作說話人適應(yīng)處理,而借由說話人適應(yīng)參數(shù)計算部14由其處變換出說話人適應(yīng)參數(shù)P。
此MAP算法,為將說話內(nèi)容借由已知的語音特征矢量系列V(n)的各幀的特征矢量與雜音適應(yīng)模型Mc’的各分布的對應(yīng)關(guān)系借由維托畢(Viterbi)整合等加以算出。
之后,搜集對應(yīng)于雜音適應(yīng)模型Mc’的分布m的幀的特征矢量,而借由將其以幀數(shù)作平均而求出平均特征矢量Vm~。
此時,將對應(yīng)于分布m的幀的特征矢量的幀數(shù)(個數(shù))設(shè)為nm,而將分布m的重度系數(shù)設(shè)為τm’,而將把分布m的平均矢量μcm’作了說話人適應(yīng)處理的更新平均矢量設(shè)為μcm’^時,則可依下式(3)所表示的關(guān)系算出其更新平均矢量μcm’^。μcm'^=τm'·μm'+nm·Vm~τm'+nm···(3)]]>還有,重度系數(shù)τm’也以下式(4)所表示的關(guān)系對各說話內(nèi)容作更新。
τm’^=τ m’+nm …(4)之后,以更新平均矢量μcm’^置換平均矢量μcm’,再將重度系數(shù)也以τm’^將τm’置換,而再每次說話時將平均矢量μcm’與重度系數(shù)τm’分別以更新平均矢量μcm’^與重度系數(shù)τm’^順序加以更新。
在此,再將說話人適應(yīng)參數(shù)P當(dāng)作或者適應(yīng)處理后的模型與說話人適應(yīng)處理前的模型的差矢量考慮時,成為分布m的說話人自適應(yīng)參數(shù)P的差矢量dm’可用下式(5)表示。dm'=μcm'^-μcm'=nm·(Vm~-μcm')τm'+nm···(5)]]>依照此式(5)時,可不需算出更新平均矢量μcm’^而求出差矢量dm’。
接著,將差矢量dm’轉(zhuǎn)送至后述的語音模型更新部15,并將重度系數(shù)τm’以上述式(4)更新而收容于說話人適應(yīng)參數(shù)計算部14中。還有,重度系數(shù)τm’的初期值可選擇任意的值。
還有,上述雜音適應(yīng)部13所使用的雜音適應(yīng)模型Mc’不是一狀態(tài)一混合時,雜音適應(yīng)模型Mc’的大量分布對應(yīng)于初期語音模型Mc的一個分布。
例如初期語音模型Mc的分布m,對應(yīng)于雜音適應(yīng)模型Mc’的分布m1、m2……,mk。還有,使對應(yīng)于雜音適應(yīng)模型Mc’的分布m1的由上述式(5)求出的說話人適應(yīng)參數(shù)為dm1’,并使重度系數(shù)為τm1’時,則可將更新初期語音模型Mc的分布m用的說話人適應(yīng)參數(shù)dm’借由下式(6)所表示的運(yùn)算處理加以求得。dm'=dm1'+dm2'+······+dmk'k···(6)]]>還有,借由對上述式(6)以重度系數(shù)τm1’作權(quán)重的下式(7)所表示的運(yùn)算將k個參數(shù)統(tǒng)合而算出說話人適應(yīng)參數(shù)dm’也可以。dm'=τm1'·dm1'+τm2'·dm2'+···+τmk'·dmk'τm1'+τm2'+···+τmk'···(7)]]>以上說明使用MLLR與MAR算法為說話人適應(yīng)方法說明說話人適應(yīng)參數(shù)計算部14的動作。
其中,作為說話人適應(yīng)方法,也可使用其它的方法。
像MLLR的變換行列Wm’與偏移矢量bm’一樣,在使用借由說話人適應(yīng)處理求取說話人適應(yīng)參數(shù)P的說話人適應(yīng)方法的情況下,使用前述的說話人適應(yīng)參數(shù),如MAP算法一般,而在不直接使用說話人適應(yīng)參數(shù)的情況下,考慮對雜音適應(yīng)模型Mc’實行說話人適應(yīng)處理的說話人雜音適應(yīng)模型,而借由使用成為雜音適應(yīng)模型Mc’與雜音適應(yīng)模型Mc’之差的說話人適應(yīng)參數(shù)P時,可對應(yīng)于許多種說話人適應(yīng)方法。
而且,此例中雖然為平均矢量的情況下,也可應(yīng)用于適應(yīng)共分散行列的情況下。
還有,在多種的說話人自適應(yīng)方法中,需要知到說話內(nèi)容(所說話的單詞或文句為何內(nèi)容)。此情況下,在實行語音識別處理前僅實行說話人適應(yīng)處理,在這時,應(yīng)說話內(nèi)容被預(yù)先決定,而將既定的內(nèi)容對說話人提示,而根據(jù)提示的說話內(nèi)容而加以處理。
在說話人適應(yīng)處理中,除適應(yīng)說話人的個人特征外,還需對說話環(huán)境作適應(yīng)。
使用在無背景雜音的環(huán)境下的說話內(nèi)容,而在對應(yīng)使用于背景雜音的環(huán)境下所收錄的語音數(shù)據(jù)庫作學(xué)習(xí)的非特定人模型的初期語音模型Mc作說話人適應(yīng)處理的情況下,因為可不受背景雜音的影響,因此只實行對說話人的個人特征的適應(yīng)處理。
當(dāng)使用于說話人適應(yīng)處理的說話內(nèi)容為在有背景雜音的環(huán)境下實行,而將其使用于上述的初期語音模型Mc的說話人適應(yīng)處理時,可同時實行對說話人的個人特征的適應(yīng)處理與對適應(yīng)說話時的背景雜音的適應(yīng)處理。
因此,一般在使用說話人適應(yīng)處理后的說話人適應(yīng)模型作語音識別時,若語音識別時的說話環(huán)境與適應(yīng)說話時為具有相同的雜音環(huán)境時,則可得到較高的識別率,而當(dāng)實行識別的說話環(huán)境與適應(yīng)說話時為不同的情況下則有可能無法獲得較高的識別率。
在本發(fā)明中為解決前述問題,在實行說話人適應(yīng)處理前,如上述般借由以雜音適應(yīng)部13作雜音適應(yīng),可生成將上述初期語音模型Mc適應(yīng)于與適應(yīng)處理時的語音為相同的背景雜音環(huán)境中的雜音適應(yīng)模型Mc’,其后,在說話人適應(yīng)參數(shù)計算部14中使用該雜音適應(yīng)模型Mc’,實行說話人適應(yīng)處理而算出說話人適應(yīng)參數(shù)P。
還有,雜音適應(yīng)模型Mc’在實行說話人適應(yīng)處理前因已適應(yīng)于說話環(huán)境為相同的背景雜音,因此以說話人適應(yīng)處理所求取的說話人適應(yīng)參數(shù)P,可減輕背景雜音適應(yīng)項的影響,從而可包含更多的本來目的的對說話人的個人特征的適應(yīng)項。
使用此說話人適應(yīng)參數(shù)P并且利用后述的語音模型更新部15將初期語音模型作更新時,可生成適應(yīng)說話時的背景雜音的影響較少的說話人適應(yīng)模型Mc”。
語音模型更新部15將記憶于說話人適應(yīng)模型記憶部12的初期語音模型Mc,使用說話人適應(yīng)參數(shù)計算部14的輸出的說話人適應(yīng)參數(shù)P,變換成說話人適應(yīng)模型Mc”。
現(xiàn)在說明采用上述的MLLR與MAP算法,更新初期語音模型Mc的分布m的平均矢量μcm的情況下的語音模型更新部15的功能。
如上述般,在說話人適應(yīng)參數(shù)計算部14中使用MLLR作為說話人適應(yīng)處理,并且使用變換行列Wm’與偏移矢量bm’作為說話人適應(yīng)參數(shù)P的情況下,說話人適應(yīng)更新后的說話人適應(yīng)模型Mc”的分布m的平均矢量μcm”由下式(8)的關(guān)系求得。
μcm”=Wm’·μcm+bm’ …(8)又,在說話人適應(yīng)計算部14使用MAP算法作適應(yīng)處理而使用差矢量dm’作為說話人適應(yīng)參數(shù)P的情況下,其平均矢量μcm”可由下式(9)的關(guān)系求得。
μcm”=μcm+dm’ …(9)不論是何種情況下,平均矢量μcm”如上述般其成為適應(yīng)說話時的背景雜音的影響較少,并且可適應(yīng)說話人的個人特征的平均矢量。
其后,如上述般,語音模型更新部15將記憶于說話人適應(yīng)模型記憶部12中的語音模型Mc使用說話人適應(yīng)參數(shù)生成部14所輸出的說話人適應(yīng)參數(shù)P加以更新,而將更新后的說話人適應(yīng)模型Mc”更新記憶于說話人適應(yīng)模型記憶部12。也就是,在語音識別時應(yīng)使用說話人適應(yīng)模型Mc”作為語音模型Mc而加以更新記憶。
識別處理部19設(shè)置用以實行語音識別處理。也就是,在語音識別之際,雜音適應(yīng)部13對被更新記憶于說話人適應(yīng)模型記憶部12的說話人適應(yīng)模型Mc(也就是說話人適應(yīng)模型Mc”)以在識別說話雜音環(huán)境下的背景雜音的特征矢量系列N(n)實施雜音適應(yīng),從而產(chǎn)生經(jīng)雜音適應(yīng)的說話人適應(yīng)模型Mreg,而將該說話人適應(yīng)模型Mreg供給至識別處理部19。
接著,識別處理部19對照由經(jīng)過雜音適應(yīng)的說話人適應(yīng)模型Mreg所構(gòu)成的系列與由聲音分析部16一側(cè)所供給的應(yīng)該識別的語音的特征矢量系列V(n)與其識別候補(bǔ)單詞及文句等模型,從而將由能取得最大優(yōu)度的說話人自適應(yīng)模型Mreg所構(gòu)成的系列當(dāng)作識別結(jié)果而加以輸出。
在此,使用于語音識別時的上述經(jīng)雜音適應(yīng)處理的說話人適應(yīng)模型Mreg如上述般被實行說話人個人特征的適應(yīng),并且也被實行對識別說話時的背景雜音的適應(yīng)。
因此,即使語音識別時的背景雜音環(huán)境與適應(yīng)說話時的背景雜音環(huán)境不同,在語音識別時也可得到很高的識別性能。
接著,參照圖6的流程圖說明本語音識別裝置的操作。也就是圖6揭示說話人適應(yīng)處理時的操作。
在圖6中,在開始說話人適應(yīng)處理時,首先在步驟S100’將記憶于初期語音模型記憶部1的初期語音模型Mc復(fù)制寫入說話人適應(yīng)模型記憶部12,其后由雜音適應(yīng)部13對該初期語音模型Mc實施雜音適應(yīng)處理,以生成雜音適應(yīng)模型Mc’。
也就是,說話人適應(yīng)處理時的非說話期間所收音的背景雜音的特征矢量系列N(n)自聲音分析部16被供給至雜音適應(yīng)部,而雜音適應(yīng)部13則借由其特征矢量系列N(n)對初期語音模型Mc實施雜音適應(yīng)處理,借以生成雜音適應(yīng)模型Mc’,并送出至說話人適應(yīng)參數(shù)計算部14。
接著在步驟S102’在說話人開始說話時,切換開關(guān)18切換至說話人適應(yīng)參數(shù)計算部14一側(cè),而在其說話期間內(nèi),疊加有背景雜音的語音(背景雜音疊加語音)的特征矢量系列V(n)自語音分析部16被供給至說話人適應(yīng)參數(shù)計算部14。
接著,說話人適應(yīng)參數(shù)計算部14借由這些特征矢量系列V(n)與雜音適應(yīng)模型Mc’產(chǎn)生說話人適應(yīng)參數(shù)P。
也就是,適應(yīng)已述的MLLR或MAR算法而求取說話人適應(yīng)參數(shù)P時,將變換行列Wm’與偏移矢量bm’作為說話人適應(yīng)參數(shù)P加以生成。
接著在步驟S104’,由語音模型更新部15使用記憶于說話人適應(yīng)模型記憶部12的初期語音模型Mc與說話人適應(yīng)參數(shù)P實行模型更新計算,從而求出說話人適應(yīng)模型Mc”。
接著在步驟S106’由語音模型更新部15將說話人適應(yīng)模型Mc”取代記憶于說話人適應(yīng)模型記憶部12的初期語音模型Mc作更新記憶后,結(jié)束說話人適應(yīng)處理。
其后,在此說話人適應(yīng)處理之后,識別處理部19在實行語音識別處理之際將更新記憶于說話人適應(yīng)模型記憶部12的說話人適應(yīng)模型Mc”當(dāng)作初期語音模型Mc利用,而借由將該經(jīng)更新的初期語音模型Mc(換句話說就是說話人適應(yīng)模型Mc”)由雜音適應(yīng)部13作雜音適應(yīng)處理,生成實施過雜音適應(yīng)處理的說話人適應(yīng)模型Mreg而供給至語音識別部19,接著,語音識別部19對照由前述說話人適應(yīng)模型Mreg所構(gòu)成的系列與由聲音分析部16輸出的說話人語音的特征矢量系列V(n)。接著,將能得到最高優(yōu)度的說話人適應(yīng)模型Mreg所構(gòu)成的說話人適應(yīng)系列當(dāng)作識別結(jié)果作輸出。
這樣,依本實施方式的語音識別裝置,因在說話人適應(yīng)處理前已實行雜音適應(yīng)處理,所以在說話人適應(yīng)處理時所求得的說話人適應(yīng)參數(shù)可減低說話人自適應(yīng)時的背景雜音的不良影響。
還有,因為使用該經(jīng)減低背景雜音的不良影響的說話人適應(yīng)參數(shù)產(chǎn)生說話人適應(yīng)模型Mc”,所以可達(dá)到說話人適應(yīng)處理的本來目的,也就是說話人適應(yīng)處理效果較高的說話人適應(yīng)模型Mc”。
還有,在語音識別時,將經(jīng)更新記憶的說話人適應(yīng)模型Mc”以識別說話時的背景雜音加以雜音適應(yīng)處理而使用。
因此,可使用適應(yīng)于說話人的個人特征與說話時的背景雜音的兩者的模型實行識別,結(jié)果可得到很高的識別性能。
(第四實施方式)接著參照圖7及圖8說明本發(fā)明的第四實施方式。其中,圖7揭示本實施方式的語音識別裝置的構(gòu)成的示意圖,其與圖5中相同或相當(dāng)?shù)牟糠輼?biāo)注以相同符號。本實施方式為在語音識別處理中實施說話人適應(yīng)處理。在此,圖7中所示的訊號的通過路徑全部以帶箭頭的實線表示。
在圖7中,顯示了本語音識別裝置與第三實施方式的語音識別裝置的差異,在第三實施方式的語音識別裝置中,其在說話人適應(yīng)處理后實行語音識別,而本實施方式的語音識別裝置在語音識別中同時實行說話人適應(yīng)處理。
還有,由雜音適應(yīng)部13所輸出的雜音適應(yīng)模型Mc’除被送至實行說話人適應(yīng)處理的說話人適應(yīng)參數(shù)計算部14外,說話人適應(yīng)模型記憶部12的內(nèi)容被說話人適應(yīng)模型Mc”所更新,而雜音適應(yīng)模型Mc’被作為圖15所示的經(jīng)雜音適應(yīng)處理的說話人適應(yīng)模型Mreg而送至識別處理部19。
因此,圖7所示的雜音適應(yīng)模型Mc’自雜音適應(yīng)部13被輸出至說話人適應(yīng)參數(shù)計算部14以及識別處理部19,其中送到說話人適應(yīng)參數(shù)計算部14,作為說話人適應(yīng)處理用的雜音適應(yīng)模型Mc’,而送到識別處理部19作為語音識別處理用的經(jīng)雜音適應(yīng)處理的說話人適應(yīng)模型Mreg來輸出。
識別處理部19將已述的說話人適應(yīng)模型Mc”當(dāng)作初期語音模型Mc,而由雜音適應(yīng)部13對照由雜音適應(yīng)模型Mc’(也就是經(jīng)雜音適應(yīng)處理的說話人適應(yīng)模型Mreg)所構(gòu)成的系列與應(yīng)該識別的語音的特征矢量系列V(n),從而將能得到最大優(yōu)度的說話人適應(yīng)模型Mreg所構(gòu)成的系列當(dāng)作識別結(jié)果來輸出。接著,由前述優(yōu)度產(chǎn)生揭示識別結(jié)果與語音的相似性的記錄資料SCR而與識別結(jié)果一同輸出。
也就是,實行上述對照的結(jié)果,在得到較高優(yōu)度的情況下,輸出表示語音識別結(jié)果的可靠度很高的記錄資料SCR與上述的識別結(jié)果,而在無法得到高優(yōu)度的情況下,輸出表示語音識別結(jié)果的可靠度較低的記錄資料SCR與上述的識別結(jié)果,而供給至說話人適應(yīng)參數(shù)計算部14。
之后,當(dāng)說話人適應(yīng)參數(shù)計算部14被供給以表示語音識別結(jié)果的可靠度較高的記錄資料SCR與上述識別結(jié)果時,判斷為正確地識別出語音,從而產(chǎn)生以該語音識別為對象的語音的特征矢量系列V(n),與雜音適應(yīng)部13所輸出的雜音適應(yīng)模型Mc’,與說話人適應(yīng)處理用的說話人適應(yīng)參數(shù)P。
接著,語音模型更新部15使用前述說話人適應(yīng)參數(shù)P與記憶于說話人適應(yīng)模型記憶部12的初期語音模型Mc產(chǎn)生說話人適應(yīng)模型Mc”,而借由將該說話人適應(yīng)模型Mc”供給至說話人適應(yīng)模型記憶部12,取代語音模型Mc而作更新記憶。
因此,本語音識別裝置者在處理語音識別處理次數(shù)越多時,其記憶于說話人適應(yīng)模型記憶部12的初期語音模型Mc的對說話人的個人特征的適應(yīng)程度逐漸被加以提高。
接著參照圖8所示的流程圖說明本語音識別裝置的操作。
在圖8中在開始語音識別處理后,首先在步驟S200其雜音適應(yīng)部13對記憶于說話人適應(yīng)模型記憶部12的初期語音模型Mc實施雜音適應(yīng)處理,借以生成雜音適應(yīng)模型Mc’。
也就是,說話人尚未開始說話的前的非說話期間所收音的背景雜音的特征矢量系列N(n)自聲音分析部16被供給至雜音適應(yīng)部13,而雜音適應(yīng)部13借由其背景雜音的特征矢量系列N(n)將初期語音模型Mc作雜音適應(yīng)處理而產(chǎn)生雜音適應(yīng)模型Mc’。
接著在步驟S202在說話人開始說話時,前述切換開關(guān)18切換至識別處理部19一側(cè),而其說話期間所說話的語音的特征矢量系列V(n)自聲音分析部16被供給至識別處理部19。
接著,識別處理部19使用由雜音適應(yīng)部13所產(chǎn)生的雜音適應(yīng)模型Mc’產(chǎn)生識別候補(bǔ)單詞模型及識別候補(bǔ)文句模型。
接著,識別處理部19在接下來的步驟S204中借由對照識別候補(bǔ)單詞模型及識別候補(bǔ)文句模型和特征矢量系列V(n)而實行語音識別,并輸出識別結(jié)果與記錄資料SCR。
接著,在步驟S206前述說話人適應(yīng)參數(shù)計算部14判斷記錄資料SCR是否為較高的記錄,若不是較高的記錄(“No”的情況下),則判斷識別結(jié)果的可靠度為很低而轉(zhuǎn)移至后述的步驟S214,而在較高的記錄時(“Yes”的情況下)則轉(zhuǎn)移至步驟S208。
在步驟S208,前述說話人適應(yīng)參數(shù)計算部14借由當(dāng)前識別對象的語音的特征矢量系列V(n),與雜音適應(yīng)模型Mc’及識別結(jié)果產(chǎn)生出說話人適應(yīng)處理用的說話人適應(yīng)參數(shù)P。
接著,在步驟S210中前述語音模型更新部15使用記憶于說話人適應(yīng)模型記憶部12的初期語音模型Mc與說話人適應(yīng)參數(shù)P實行說話人適應(yīng)處理,從而求出說話人適應(yīng)模型Mc”。
接著,在步驟S212前述語音模型更新部15將所生成的說話人適應(yīng)模型Mc”供給至說話人適應(yīng)模型記憶部12,而置換語音模型Mc,并且在更新記憶后結(jié)束其處理。
這樣,依照本實施方式的語音識別裝置因為同時進(jìn)行語音識別與說話人適應(yīng)處理,所以可產(chǎn)生對說話人的個人特征的適應(yīng)程度較高的說話人適應(yīng)模型Mc”,從而可更新記憶于說話人適應(yīng)模型記憶部12。
因此,通過說出大量的不同的單詞及文句而由識別處理部19累積性的對這些語音作語音識別,記憶于說話人適應(yīng)模型記憶部12的初期語音模型Mc被更新成對說話人個人特征的適應(yīng)程度較高的說話人適應(yīng)模型Mc”,借此可達(dá)到提高語音識別性能的目的。
還有,在得到高記錄的情況下,由于產(chǎn)生說話人適應(yīng)模型Mc”而更新初期語音模型Mc,因此可對應(yīng)說話環(huán)境的狀態(tài)等實行適當(dāng)?shù)恼f話人適應(yīng)處理,可防止使語音識別性能低下的不適當(dāng)?shù)恼f話人適應(yīng)處理,甚至可實現(xiàn)提高語音識別性能的效果。
同時,在同時進(jìn)行語音識別與說話人適應(yīng)處理的本實施方式的語音識別裝置上,與已述的第三實施方式相同,在以說話人適應(yīng)處理部實行說話人適應(yīng)處理前因為以雜音適應(yīng)部13實行雜音適應(yīng)處理,所以在說話人適應(yīng)處理時所求取的說話人適應(yīng)參數(shù)P具有減低說話人適應(yīng)處理時的背景雜音的不良影響的優(yōu)秀效果。
如以上所說明,依照本發(fā)明的語音識別裝置以及語音識別方法,其借由對初期語音模型實施雜音適應(yīng)處理而產(chǎn)生雜音適應(yīng)模型,而借由對此雜音適應(yīng)模型實施說話人適應(yīng)計算而求取說話人適應(yīng)參數(shù),而借由對雜音適應(yīng)處理前的初期語音模型以前述說話人適應(yīng)參數(shù)實施說話人適應(yīng)處理而產(chǎn)生說話人適應(yīng)模型,因此可減低說話人適應(yīng)處理時的背景雜音的不良影響,從而可達(dá)到說話人適應(yīng)處理的本來目的,生成對說話人的個人特征的適應(yīng)效果較高的說話人適應(yīng)模型。
還有,在語音識別時因?qū)ι鲜鼋?jīng)說話人適應(yīng)處理的說話人適應(yīng)模型實施雜音適應(yīng)處理,而產(chǎn)生實施過雜音適應(yīng)處理的說話人適應(yīng)模型,并使用該雜音適應(yīng)了的說話人適應(yīng)模型實行語音識別之處理,由此可使用適應(yīng)于識別說話時的背景雜音與說話人的個人特征的雜音說話人適應(yīng)模型而實行語音識別,因此可在各種說話雜音環(huán)境下得到很高的識別性能。
權(quán)利要求
1.一種語音識別裝置,其對聲音模型借由語音的特征矢量實施說話人適應(yīng)處理;其具備有語音識別裝置,借由對照上述聲音模型與語音的特征矢量而輸出表示得到最大優(yōu)度(相似度)的聲音模型的識別結(jié)果,與表示上述最大優(yōu)度的值的第一記錄,與表示其次的優(yōu)度值的第二記錄;判斷裝置,將依據(jù)上述第一記錄與第二記錄的評價值與預(yù)先設(shè)定的基值(閾值)作比較,在上述評價值相對于基值呈一定關(guān)系的情況下則判斷前述識別結(jié)果為正確;說話人適應(yīng)處理裝置,借由上述判斷裝置判斷上述識別結(jié)果為正確時對前述聲音模型實施說話人適應(yīng)處理。
2.根據(jù)權(quán)利要求1所述的語音識別裝置,其中前述判斷裝置在上述評價值相對于基值不呈一定關(guān)系的情況下判斷上述識別結(jié)果為誤,而上述說話人適應(yīng)處理裝置在判斷上述識別結(jié)果為誤時不對前述聲音模型實施說話人適應(yīng)處理。
3.根據(jù)權(quán)利要求1所述的語音識別裝置,其中前述評價值根據(jù)上述第一記錄與第二記錄的差值進(jìn)行計算。
4.根據(jù)權(quán)利要求2所述的語音識別裝置,其還具備一裝置,在前述判斷裝置判斷前述識別結(jié)果為錯誤時則禁止上述識別結(jié)果的輸出,并且作出表示上述識別結(jié)果為錯誤的信息提示。
5.一種語音識別方法,根據(jù)語音的特征矢量對聲音模型實施說話人適應(yīng)處理;其具備有第一步驟,對照上述聲音模型與語音的特征矢量而求取表示得到最大優(yōu)度的聲音模型的識別結(jié)果,與表示前述最大優(yōu)度的值的第一記錄,及表示其次優(yōu)度值的第二記錄;第二步驟,將依據(jù)前述第一記錄與第二記錄得出的評價值與預(yù)先設(shè)定的基值作比較,在上述評價值相對于基值呈一定關(guān)系的情況下判斷上述識別結(jié)果為正確;第三步驟,在上述第二步驟中,在判斷前述識別結(jié)果為正確時則對前述聲音模型實施說話人適應(yīng)處理。
6.根據(jù)權(quán)利要求5所述的語音識別方法,其在上述第二步驟中在上述評價值相對于前述基值不呈一定關(guān)系的情況下則判斷上述識別結(jié)果為誤,而在上述第三步驟中在判斷上述識別結(jié)果為誤時則不對上述聲音模型實施說話人適應(yīng)處理。
7.根據(jù)權(quán)利要求5所述的語音識別方法,其中前述評價值借由上述第一記錄與第二記錄的差值作計算。
8.根據(jù)權(quán)利要求6所述的語音識別方法,其在前述第二步驟中在判斷前述識別結(jié)果為錯誤時則禁止上述識別結(jié)果的輸出,同時還作出表示上述識別結(jié)果為錯誤的信息提示。
9.一種語音識別裝置,具備有記憶裝置,具有初期語音模型;一雜音適應(yīng)裝置,借由在對上述記憶裝置的初期語音模型實行說話人適應(yīng)處理時的背景雜音,實施以雜音適應(yīng)處理來產(chǎn)生雜音適應(yīng)模型;說話人適應(yīng)參數(shù)計算裝置,對上述雜音適應(yīng)處置所產(chǎn)生的前述雜音適應(yīng)模型借由上述說話人適應(yīng)處理時所說話的語音實行說話人適應(yīng)計算,從而計算出將上述雜音適應(yīng)模型變換為雜音疊加說話人適應(yīng)模型用的說話人適應(yīng)參數(shù);語音模型更新裝置,在對上述記憶裝置的初期語音模型借由上述說話人適應(yīng)處理參數(shù)實施說話人適應(yīng)處理以產(chǎn)生說話人適應(yīng)模型,而將該說話人適應(yīng)模型取代前述初期語音模型從而更新記憶于上述記憶裝置。
10.根據(jù)權(quán)利要求9所述的語音識別裝置,其還具備有在語音識別時實行語音識別處理的識別處理裝置,并且上述雜音適應(yīng)裝置借由上述語音識別時的非說話期間的背景雜音對更新記憶于上述記憶裝置的上述說話人適應(yīng)模型實施雜音適應(yīng)處理,從而產(chǎn)生經(jīng)雜音適應(yīng)處理的說話人適應(yīng)模型,并且將雜音適應(yīng)處理過的說話人適應(yīng)模型作為識別語音用的聲音模型供給至上述語音識別裝置。
11.一種語音識別裝置,具備有記憶裝置,具有初期語音模型;雜音適應(yīng)裝置,借由語音識別時的非說話期間的背景雜音對上述記憶裝置的初期語音模型實施雜音適應(yīng)處理而生成雜音適應(yīng)模型;識別處理裝置,對照上述語音識別時的說話期間所說話的應(yīng)該語音識別的語音與上述雜音適應(yīng)裝置所生成的上述雜音適應(yīng)模型而實行語音識別;說話人適應(yīng)參數(shù)計算裝置,對前述雜音適應(yīng)裝置所生成的上述雜音適應(yīng)模型借由上述應(yīng)該語音識別的語音實行說話人適應(yīng)計算,而算出將上述雜音適應(yīng)模型變換成雜音疊加說話人適應(yīng)模型用的說話人適應(yīng)參數(shù);語音模型更新裝置,對上述記憶裝置的初期語音模型借由上述說話人適應(yīng)參數(shù)實施說話人適應(yīng)處理以產(chǎn)生說話人適應(yīng)模型,并將該說話人適應(yīng)模型取代上述初期語音模型而更新記憶于上述記憶裝置中。
12.根據(jù)權(quán)利要求11所述的語音識別裝置,其中前述說話人適應(yīng)參數(shù)計算裝置與語音模型更新裝置在前述識別處理裝置的識別結(jié)果的可靠度較高時,生成前述說話人適應(yīng)模型而取代上述初期語音模型從而更新記憶于上述記憶裝置中。
13.一種語音識別方法,包括雜音適應(yīng)處理步驟;對記憶于記憶裝置的初期語音模型借由說話人適應(yīng)處理時的背景雜音實施雜音適應(yīng)處理而產(chǎn)生雜音適應(yīng)模型;說話人適應(yīng)參數(shù)計算處理步驟,對上述雜音適應(yīng)處理步驟所產(chǎn)生的上述雜音適應(yīng)模型借由上述說話人適應(yīng)處理時所說話的語音實行說話人適應(yīng)計算,而計算出將上述雜音適應(yīng)模型變換成雜音疊加說話人適應(yīng)模型用的說話人適應(yīng)參數(shù);語音模型更新處理步驟,對上述記憶裝置的初期語音模型借由上述說話人適應(yīng)參數(shù)實施說話人適應(yīng)處理而產(chǎn)生說話人適應(yīng)模型,而以該說話人適應(yīng)模型取代上述初期語音模型從而更新記憶于上述記憶裝置。
14.根據(jù)權(quán)利要求13所述的語音識別方法,其在上述雜音適應(yīng)處理步驟中還具備有語音識別處理步驟,借由在語音識別時的非說話期間的背景雜音,對更新記憶于上述記憶裝置的上述說話人適應(yīng)模型實施雜音適應(yīng)處理,從而生成實施過雜音適應(yīng)處理的說話人適應(yīng)模型,而借由對照該實施過雜音適應(yīng)處理的說話人適應(yīng)模型與上述語音識別時的說話期間的應(yīng)該語音識別的語音來實行語音識別。
15.一種語音識別方法,包括雜音適應(yīng)處理步驟,借由語音識別時的非說話期間的背景雜音對記憶于記憶裝置的初期語音模型實施雜音適應(yīng)處理而產(chǎn)生雜音適應(yīng)模型;識別處理步驟,對照上述語音識別時的說話期間所說話的應(yīng)該語音識別的語音與上述雜音適應(yīng)處理步驟所生成的上述雜音適應(yīng)模型而實行語音識別;說話人適應(yīng)參數(shù)計算處理步驟,對上述雜音適應(yīng)處理步驟所生成的上述雜音適應(yīng)模型借由上述應(yīng)該語音識別的語音實行說話人適應(yīng)計算,從而算出將上述雜音適應(yīng)模型變換成雜音疊加說話人適應(yīng)模型用的說話人適應(yīng)參數(shù);語音模型更新處理步驟,對上述記憶裝置的初期語音模型以上述說話人適應(yīng)參數(shù)實施說話人適應(yīng)處理而產(chǎn)生說話人適應(yīng)模型,而將該說話人適應(yīng)模型取代上述初期語音模型以更新記憶于上述記憶裝置。
16.根據(jù)權(quán)利要求15所述的語音識別方法,其中上述說話人適應(yīng)參數(shù)計算處理步驟與語音模型更新處理步驟在上述識別處理步驟的識別結(jié)果的可靠度較高的情況下產(chǎn)生上述說話人適應(yīng)模型,從而取代前述初期語音模型而更新記憶于上述記憶裝置中。
全文摘要
一種語音識別裝置以及語音識別方法,借由較高的精度以及較少的處理量對語音識別的結(jié)果作正誤判斷。借由對照聲音模型HMMsb與語音的特征矢量V(n)求取表示最大優(yōu)度的聲音模型的識別結(jié)果RCG與表示最大優(yōu)度值的第一記錄FSCR,與表示其次優(yōu)度值的第二記錄SSCR,而借由將以前述第一記錄FSCR及第二記錄SSCR為依據(jù)的評價值FSCRX(FSCR-SSCR)與預(yù)先設(shè)定的基值THD比較,來判斷識別結(jié)果為正或為誤。識別結(jié)果RCG若判斷為正確時則對聲音模型HMMsb實行說話人適應(yīng)處理,而識別結(jié)果RCG若判斷為誤,則不對聲音模型HMMsb進(jìn)行說話人適應(yīng)處理,借此方式以提高說話人適應(yīng)處理的精度等。
文檔編號G10L21/0216GK1453767SQ03122309
公開日2003年11月5日 申請日期2003年4月23日 優(yōu)先權(quán)日2002年4月26日
發(fā)明者外山聡一 申請人:日本先鋒公司