模式識別裝置和模式識別方法
【技術領域】
[0001] 本發(fā)明設及用于例如語音識別和文字識別的模式識別裝置和模式識別方法。
【背景技術】
[0002] 下文中,使用語音識別作為示例進行描述,但描述還設及其它類型的識別。在過去 10年中,語音識別的性能已經(jīng)大大提高。最大的因素之一在于訓練聲學模型的方法已經(jīng)從 最大似然(ML)轉變?yōu)楸鎰e訓練。該方法目的在于通過用單個系統(tǒng)參照正確標記來提高性 能。
[0003] 與此相對,基于系統(tǒng)集成的方法(例如,識別器輸出投票錯誤降低:R0VER)目的在 于通過使用多個系統(tǒng)來提高性能。
[0004] 具體地說,該方法可W獲得基礎系統(tǒng)和補充系統(tǒng)的基于多數(shù)決定原則的假設中的 較佳的假設。因此,即使補充系統(tǒng)的性能低于基礎系統(tǒng)的性能,與僅使用基礎系統(tǒng)的情況相 比,也可W獲得更高的性能。
[000引同時,已知運樣一種技術:當存在多個模型時,為了強化某個特定模型,有效地選 擇要用于訓練模型的訓練數(shù)據(jù)(例如,參見日本專利申請?zhí)亻_第2012-108429號)。該技術與 本發(fā)明的關聯(lián)在于通過使用針對包括特定模型在內的多個模型的識別結果來選擇具有低 識別率的發(fā)聲,并且使用由對應的正確標記選擇的發(fā)聲來更新并訓練特定模型。然而,該技 術W選擇訓練數(shù)據(jù)為重點,并且在訓練系統(tǒng)的配置也不同。
[0006] 還已知運樣一種技術:確定正確標記的語音特征統(tǒng)計量和錯誤假設的語音特征統(tǒng) 計量的權重。運些權重用于補償正確標記及錯誤假設的語音特征統(tǒng)計量,從而更新聲音模 型,該正確標記及錯誤假設的語音特征統(tǒng)計量可W用于針對各辨別標準(例如,最小分類錯 誤、最大交互信息或最小音素錯誤)計算附加語音特征統(tǒng)計量(例如,參見日本專利申請?zhí)?開第2010-164780號)。雖然該技術在更新單個聲學模型與本發(fā)明部分關聯(lián),但未提供關于 多個模型的描述。
[0007] 還已知運樣一種技術:多個模型被構造成針對各個環(huán)境進行優(yōu)化(例如,參見日本 專利申請?zhí)亻_第2010-204175號)。與本發(fā)明相反,該技術未構造系統(tǒng)的組合W提高性能,并 且在訓練系統(tǒng)的配置也不同。
[0008] 進一步地,已知運樣一種技術:針對每N個訓練數(shù)據(jù)集來構造統(tǒng)計模型,并且選擇 給出最高識別率的統(tǒng)計模型(例如,參見日本專利申請?zhí)亻_第2010-152751號)。與本發(fā)明相 反,該技術未同時構造多個系統(tǒng)。
[0009] 在系統(tǒng)集成時,有效的是集成具有不同趨勢的假設,并且為了構造具有不同輸出 趨勢的補充系統(tǒng),使用不同的特征和模型訓練方法。然而,當補充系統(tǒng)的假設呈現(xiàn)出與基礎 系統(tǒng)的假設類似的趨勢或包括太多的錯誤時,系統(tǒng)集成不總是提高性能。
[0010] 為了處理該問題,常規(guī)地,經(jīng)常出現(xiàn)運樣的情況:創(chuàng)建大量系統(tǒng),并且按照開發(fā)集 的性能確定多個系統(tǒng)輸出的幾個最佳組合。憑借運種試錯嘗試,系統(tǒng)被過調諧到特定任務, 并且降低了針對未知數(shù)據(jù)的魯棒性。因此,期望的是,基于一些理論訓練標準來構造補充系 統(tǒng)。
【發(fā)明內容】
[0011] 做出本發(fā)明,W解決上述問題,并且因此本發(fā)明具有提供能夠在組合多個系統(tǒng)時 提高識別性能的模式識別裝置和模式識別方法的目的。
[0012] 根據(jù)本發(fā)明的一個實施方式,提供了一種用于創(chuàng)建多個系統(tǒng)并組合所述多個系統(tǒng) W提高識別性能的模式識別裝置,該模式識別裝置包括:辨別訓練單元,該辨別訓練單元用 于構造第二或后續(xù)系統(tǒng),其中訓練模型參數(shù)W輸出與先前構造的模型的輸出趨勢不同的趨 勢。
[0013] 進一步地,根據(jù)本發(fā)明的一個實施方式,提供了一種要在模式識別裝置中使用的 用于創(chuàng)建多個系統(tǒng)并組合所述多個系統(tǒng)W提高識別性能的模式識別方法,所述模式識別方 法包括辨別訓練步驟,該辨別訓練步驟用于構造第二或后續(xù)系統(tǒng),其中訓練所述模型參數(shù) W輸出與先前構造的模型的輸出趨勢不同的趨勢。
[0014] 根據(jù)本發(fā)明的實施方式的模式識別裝置和模式識別方法創(chuàng)建多個系統(tǒng)并將該多 個系統(tǒng)組合W提高識別性能,并且包括辨別訓練單元(步驟),其用于構造第二或后續(xù)系統(tǒng), 其中訓練模型參數(shù)W輸出與先前構造的模型的輸出趨勢不同的趨勢。
[0015] 因此,當組合多個系統(tǒng)時,能夠提高識別性能。
【附圖說明】
[0016] 圖1是例示了根據(jù)常規(guī)方法的多個系統(tǒng)的集成的配置的框配置圖;
[0017] 圖2是例示了根據(jù)常規(guī)方法的模型更新的配置的框配置圖;
[0018] 圖3是例示了根據(jù)常規(guī)方法的整個系統(tǒng)的框構造圖;
[0019] 圖4是例示了根據(jù)本發(fā)明的第一實施方式的模式識別裝置中的模型更新的配置的 框配置圖;
[0020] 圖5是例示了根據(jù)本發(fā)明的第一實施方式的模式識別裝置中針對語音識別的模型 更新的配置的框配置圖;
[0021] 圖6是例示了根據(jù)本發(fā)明的第Ξ實施方式的模式識別裝置中基于集成結果的識別 率最大化的補充系統(tǒng)的構造的配置的框配置圖;
[0022] 圖7是例示了根據(jù)常規(guī)方法的重新排列方法的配置的框配置圖;
[0023] 圖8是例示了根據(jù)本發(fā)明的第四實施方式的模式識別裝置中使用重新排列方法進 行的模型更新的配置的框配置圖;
[0024] 圖9是例示了根據(jù)本發(fā)明的第四實施方式的模式識別裝置中針對語音識別的模型 更新的配置的框配置圖;
[0025] 圖10是例示了根據(jù)常規(guī)方法的特征變換方法的配置的框配置圖;W及
[0026] 圖11是例示了使用根據(jù)本發(fā)明的第五實施方式的模式識別裝置中的特征變換方 法進行的模型更新的配置的框配置圖。
【具體實施方式】
[0027] 現(xiàn)在,參照附圖描述根據(jù)本發(fā)明的示例性實施方式的模式識別裝置和模式識別方 法,附圖中,用相同的附圖標記來表示相同或對應的元件,w便描述。
[0028] 第一實施方式
[0029] 基于辨別標準的補充系統(tǒng)的構造方法
[0030] 首先,在圖1中例示了根據(jù)常規(guī)方法的多個系統(tǒng)的集成的配置。在圖1中,解碼單元 3(第一解碼單元3A和第二解碼單元3B)通過核對模型4(第一模型4A和第二模型4B)從特征 向量1獲得符號串5(第一符號串5A和第二符號串5B)。運里描述了兩個系統(tǒng)的組合,但是可 W使用兩個或更多個的任意數(shù)量的系統(tǒng)。
[0031] 由多個解碼單元3獲得的符號串5(第一符號串5A和第二符號串5B)經(jīng)由結果集成 單元2集成W獲得符號串6。此時,可W使用諸如上述ROVER等的結果集成方法。
[0032] 用該方法的問題在于:在訓練模型4時,因為符號串5不具有互相不同的趨勢,所W 難W發(fā)現(xiàn)最優(yōu)組合。而且,為了發(fā)現(xiàn)最優(yōu)組合,需要創(chuàng)建大量系統(tǒng),并且進行試錯,進一步 地,當增加系統(tǒng)的數(shù)量時,大大增加了組合的數(shù)量,因此試錯變得很費時。
[0033] 如上所述,常規(guī)方法具有的問題在于系統(tǒng)不是基于其識別結果應具有互相不同的 趨勢的假定下構造的。為了在系統(tǒng)集成時提高識別性能,需要W下兩點。
[0034] 條件1:系統(tǒng)的輸出趨勢互相不同(運是因為在系統(tǒng)給出類似假設時組合效果?。?。
[0035] 條件2:系統(tǒng)分別具有類似等級的識別性能(要組合的系統(tǒng)不包括具有過低識別性 能的系統(tǒng))。
[0036] 為了滿足運些條件,在本發(fā)明的第一實施方式中,順序構建系統(tǒng)。具體地說,首先 由通用方法構造系統(tǒng),并且通過在考慮首先構造的系統(tǒng)的輸出趨勢的同時調整模型參數(shù)而 將下一系統(tǒng)構造成具有不同的輸出趨勢,并通過在辨別訓練框架中參照正確標記而不具有 過低識別性能。
[0037] 接著,在圖2中例示了根據(jù)常規(guī)方法的模型更新的配置。在圖2中,在更新模型時, 使用辨別訓練單元7而不是圖1中所例示的結果集成單元2, W基于正確標記8經(jīng)由辨別訓練 根據(jù)特征向量更新模型參數(shù)。在圖3中例示了根據(jù)常規(guī)方法將圖1和圖2組合的整個系統(tǒng)。
[0038] 該模型可W預先更新,但是該模型的參數(shù)可W根據(jù)作為識別結果的符號串6的日 志(log)來在線更新,具有最高似然或可靠性的符號串6被作為正確標記8。換言之,正確標 記8可W由符號串6替換。
[0039] 在常規(guī)方法中,模型4由辨別訓練單元7基于一個模型的輸出符號串5來更新。與此 相對,在本發(fā)明的第一實施方式中,模型更新用圖4中所例示的配置來執(zhí)行。
[0040] 圖4中所例示的根據(jù)本發(fā)明的第一實施方式的模型更新的配置與圖2的不同在于: 在辨別訓練單元7中,模型更新在參照其它系統(tǒng)的輸出(在該示例中是第一符號串5A)的同 時執(zhí)行。要注意的是,W下實施方式省略由常規(guī)方法進行