專利名稱:使用隱含語者自適應(yīng)的語音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音信號的處理。更具體的說,本發(fā)明涉及通過非監(jiān)督式訓(xùn)練 來獲得性能改善的新穎語音識別方法和裝置。技術(shù)背景語音識別是最重要的技術(shù)之一,它可賦予機器以模擬智能,用于識別用戶 的語音命令且便于作為人類與機器的接口。采用從聲學(xué)語音信號中恢復(fù)語言信 息的技術(shù)的系統(tǒng)被稱為語音識別(VR)系統(tǒng)。
圖1顯示了基本的VR系統(tǒng),它 包括預(yù)加重濾波器102,聲學(xué)特征提取(AFE)單元104,以及模式匹配引擎 110。 AFE單元104將一系列數(shù)字語音樣本轉(zhuǎn)變?yōu)橐唤M測量數(shù)值(例如,被提 取的頻率分量),該測量數(shù)值可稱之為聲學(xué)特征矢量。模式匹配引擎110將一 系列聲學(xué)特征矢量與在VR聲學(xué)模型112中所包含的模板相匹配。VR模式匹 配引擎 一 般采用動態(tài)時間規(guī)整(DTW , Dynamic Timing Warping)或隱馬爾可 夫(Markov)模型(HMM)技術(shù)。DTW或HMM都是在本領(lǐng)域中所熟悉的, 并且在Rabiner, L.R和Juang, B.H編著的《語音識別的基礎(chǔ)》(Prentic Hall 出版,1993年出版)中詳細討論了。當(dāng)一系列聲學(xué)特征與在聲學(xué)模型112中所 包含的一個模板相匹配時,可用該被識別的模板產(chǎn)生所希望的輸出格式,例如, 對應(yīng)于輸入語音的語言詞匯的識別序列。正如以上所指出的,聲學(xué)模型112 —般是HMM模型或者DTW模型。DTW 聲學(xué)模型可以認為是與需要識別的各種詞匯有關(guān)的模板數(shù)據(jù)庫。 一般來說, DTW模板包括特征矢量的序列,該特征矢量序列是根據(jù)許多相關(guān)詞匯的例子 加以平均的。DTW模式匹配一般會涉及到將具有最小距離的存儲模板置于表示輸入語音的輸入特征矢量序列中。在基于HMM的聲學(xué)模型中使用的模板包含了對相關(guān)語音發(fā)音的詳細統(tǒng)計描述。 一般來說,HMM模板存儲了一系列的 平均矢量、方差矢量和一組轉(zhuǎn)變的概率。這些參數(shù)可用于描述語音單元的統(tǒng)計 并且是從許多語音單元的例子中估算出來的。HMM模式匹配一般涉及到根據(jù) 與輸入語音相關(guān)的輸入特征矢量系列,為模型中的各個模板生成概率。具有最 高概率的模板可選擇為最類似輸入的發(fā)音。"訓(xùn)練"是指從一個和多個語者的特殊語音片段和音節(jié)中收集語音樣本以 便于產(chǎn)生聲學(xué)模型112中的模板的過程。在聲學(xué)模型中的各種模板與稱為發(fā)音 種類的特殊詞匯或語音片段有關(guān)。在與同一發(fā)音種類有關(guān)的聲學(xué)模型中可以有 許多模板。"測試"是指將聲學(xué)模型中的模板與從輸入語音中提取的特征矢量 序列相匹配的過程。給定系統(tǒng)的性能很大程度上取決于最終用戶的輸入語音和 數(shù)據(jù)庫中的內(nèi)容之間的匹配程度,因此,也取決于在通過訓(xùn)練所產(chǎn)生的參考模 板和用于V R測試的語音樣本之間的匹配。兩種常用類型的訓(xùn)練是監(jiān)督式訓(xùn)練和非監(jiān)督式訓(xùn)練。在監(jiān)督式訓(xùn)練中,與 各組訓(xùn)練特征矢量有關(guān)的發(fā)音種類是先驗已知的。提供輸入語音的語者通常具 有對應(yīng)于預(yù)定發(fā)音種類的詞匯和語音片段的原稿。隨后,朗讀原稿所產(chǎn)生的特 征矢量可以合并到與正確發(fā)音種類有關(guān)的聲學(xué)模型模板中。在非監(jiān)督式訓(xùn)練中,與一組訓(xùn)練特征矢量有關(guān)的發(fā)音種類不是先驗已知 的。在一組訓(xùn)練特征矢量可以合并到正確的聲學(xué)模型模板中之前,必須正確地 識別發(fā)音種類。在非監(jiān)督式訓(xùn)練中,在對一組訓(xùn)練特征矢量識別發(fā)音種類時發(fā) 生錯誤會導(dǎo)致在錯誤的聲學(xué)模型模板中引起變化。此類錯誤一般會降低,而不 是提高語言識別性能。為了能避免這類錯誤,基于非監(jiān)督式訓(xùn)練的聲學(xué)模型的 任何變化一般都必須非常小心地來進行。只有具有相當(dāng)高的可信程度認為已經(jīng) 正確識別了發(fā)音種類,則該組訓(xùn)練特征量才可以合并到聲學(xué)模型中。這類必要 的保守使得通過非監(jiān)督式訓(xùn)練來構(gòu)成SD聲學(xué)模型是一個非常慢的處理過程。 直到SD聲學(xué)模型采用該方法來構(gòu)成,VR性能或許對大多數(shù)用戶是難以接受 的。最佳的是,最終的用戶在訓(xùn)練和測試過程中提供語音聲學(xué)特征矢量,使得 聲學(xué)模型112能與最終用戶的語音有力匹配。適用于單個語者的個性化聲學(xué)模 型也可稱為語者特定(SD)聲學(xué)模型。產(chǎn)生SD聲學(xué)模型一般要求最終用戶能 提供大量監(jiān)督式訓(xùn)練樣本。首先,用戶必須為許多不同的發(fā)音種類提供訓(xùn)練樣本。同樣,為了獲得最好的性能,最終用戶必須為各個發(fā)音種類提供表示各種 可能的聲學(xué)環(huán)境的多個模板。因為大多數(shù)用戶不能或者不希望提供產(chǎn)生SD聲 學(xué)模型所需的輸入語音,所以許多現(xiàn)有的VR系統(tǒng)使用廣義的聲學(xué)模型作為替 代,該模型是釆用許多"代表性"語者的語音來訓(xùn)練的。這類聲學(xué)模型可稱為 語者無關(guān)(SI)聲學(xué)模型,并且可設(shè)計成對廣泛范圍的用戶都具有最好的性能。然而,SI聲學(xué)模型并不是對任何一個用戶都是最佳的。使用SI聲學(xué)模型的VR 系統(tǒng)對特殊的用戶并不能像使用適合于該用戶的SD聲學(xué)模型的VR系統(tǒng)那樣 工作。對某些用戶來說,例如,具有強烈的外地口音的用戶,使用SI聲學(xué)模型 的VR系統(tǒng)的性能就非常差,以致于根本不能有效地使用VR的服務(wù)。最佳的是,對各個個性的用戶產(chǎn)生SD聲學(xué)模型。正如以上所討論的,使 用監(jiān)督式訓(xùn)練來構(gòu)成SD聲學(xué)模型是不實際的。但是,使用非監(jiān)督式訓(xùn)練來產(chǎn) 生SD聲學(xué)模型會花費很長的時間,在這過程中,基于部分SD聲學(xué)模型的VR 性能將是非常差的。因此,本領(lǐng)域需要一種VR系統(tǒng),該系統(tǒng)能在使用非監(jiān)督 式訓(xùn)練來產(chǎn)生SD聲學(xué)模型之前或過程中比較好地工作。發(fā)明內(nèi)容本文所揭示的方法和裝置提出了一種新穎和改進的語音識別(VR)系統(tǒng), 該系統(tǒng)采用了語者無關(guān)(SI)和語者特定(SD)聲學(xué)模型的組合。將至少一個 SI聲學(xué)模型與至少一個SD聲學(xué)模型組合使用,以使得所提供的語音識別性能 的水平至少等于純SI聲學(xué)模型的水平。所揭示的混合SI/SDVR系統(tǒng)可繼續(xù)使 用非監(jiān)督式訓(xùn)練來更新在一個或多個SD聲學(xué)模型中的聲學(xué)模板?;旌系腣R 系統(tǒng)隨后單獨或與至少一個SI聲學(xué)模型組合使用更新的SD聲學(xué)模型,以便于 在VR測試過程中提供改進的VR性能。本文所使用的術(shù)語"示例"是指"用作一個例子、實例、或說明"。作為 "示例性實施例"所討論的任何實施例并不一定解釋為好過或勝過其它實施 例。附圖的簡要說明從結(jié)合附圖所闡明的詳細討論中,本發(fā)明所揭示的方法和裝置的性能、目 標(biāo)和優(yōu)點將變得顯而易見,在附圖中,類似的參考符號將標(biāo)示所對應(yīng)的部件,其中圖1示出基本語音識別系統(tǒng);圖2示出根據(jù)示例性實施例的語音識別系統(tǒng);圖3示出用于進行非監(jiān)督式訓(xùn)練的方法;圖4示出用于產(chǎn)生在非監(jiān)督式訓(xùn)練中所使用的組合匹配評價的示例性方法;圖5是示出使用語者無關(guān)(SI)和語者特定(SD)匹配評價兩者來進行語 音識別(測試)方法的流程圖;圖6示出用于從語者無關(guān)(SI)和語者特定(SD)匹配評價中產(chǎn)生組合匹 配評價的方法。具體實施方法圖2顯示了可以在無線遠程站202中實現(xiàn)的混合語音識別(VR)系統(tǒng)的示 例性實施例。在該示例性實施例中,遠程站202通過無線信道(未顯示)與無 線通信網(wǎng)絡(luò)(未顯示)通信。例如,遠程站202可以是與無線電話系統(tǒng)通信的 無線電話。在本領(lǐng)域的專業(yè)人士會意識到,本文所討論的技術(shù)可以同樣應(yīng)用于 固定(不是便攜的)的VR系統(tǒng)或者不包括無線信道。在所示的實施例中,來自用戶的語音信號在麥克風(fēng)(MIC) 210中轉(zhuǎn)換成 電信號,并且在模擬數(shù)字變換器(ADC) 212轉(zhuǎn)換成數(shù)字語音樣本。該數(shù)字樣 本流隨后使用預(yù)加重(PE)濾波器214進行濾波,例如,可以采用衰減低頻信 號分量的有限脈沖響應(yīng)(FIR)濾波器。濾波后的樣本隨后在聲學(xué)特征提取(AFE)單元216中進行分析。該AFE 單元216將數(shù)字語音樣本轉(zhuǎn)換成聲學(xué)特征矢量。在示例性實施例中,AFE單元 216對具有連續(xù)的數(shù)字樣本的片段進行傅立葉變換,以產(chǎn)生對應(yīng)于不同頻率箱 的信號強度的矢量。在示例性實施例中,頻率箱可以根據(jù)巴克標(biāo)度(bark scale) 來變化帶寬。在巴克標(biāo)度中,各個頻率箱的帶寬具有與箱的中心頻率有關(guān)的關(guān) 系,使得更高頻率箱可具有比較低頻率箱更寬的頻率帶寬。在Rabiner, L.R和 Juang, B.H編著的《語音識別的基礎(chǔ)》(Prentic Hall出版,1993年出版)討 論了巴克標(biāo)度。在示例性實施例中,各個聲學(xué)特征矢量是從在固定時間間隔中所收集的一 系列語音樣本中提取的。在示例性實施例中,這些時間間隔是重疊的。例如, 聲學(xué)特征可以從每個10毫秒開始的語音數(shù)據(jù)的20毫秒間隔中獲得,使得每兩個連續(xù)的間隔都可以公用IO毫秒的片段。在本領(lǐng)域中的專業(yè)人士都會意識到, 可以在不脫離本文所揭示實施例的范圍的條件下,時間間隔可以被替換成非重 疊的或者具有非固定的周期。由AFE單元216所產(chǎn)生的聲學(xué)特征矢量可提供給VR引擎220,該引擎進 行模式匹配,以便根據(jù)一個和多個聲學(xué)模型230、 232和234的內(nèi)容表征聲學(xué) 特征矢量的特征。在圖2所示的示例性實施例中,顯示了三個聲學(xué)模型語者無關(guān)(SI)隱 馬爾可夫模型(HMM)的模型230,語者無關(guān)動態(tài)時間規(guī)整(Dynamic Time Warping) (DTW)模型232,以及語者特定(SD)聲學(xué)模型234。本領(lǐng)域的 專業(yè)人士將會意識到,在其它實施例中可以使用SI聲學(xué)模型的不同組合。例如, 遠程站202可以僅包括SIHMM聲學(xué)模型230和SD聲學(xué)模型234,而省去了 SIDTW聲學(xué)模型232。另外,遠程站202可以包括單個的SIHMM聲學(xué)模型230, 一個SD聲學(xué)模型234和兩個不同的SIDTW聲學(xué)模型232。另外,本領(lǐng)域的專 業(yè)人士將會意識到,SD聲學(xué)模型234可以是HMM類型的或者是DTW類型的 或者是兩者的組合。在示例性實施例中,SD聲學(xué)模型234是DTW聲學(xué)模型。正如以上所討論的,VR引擎220進行模式匹配,以確定在聲學(xué)特征矢量 和一個或多個聲學(xué)模型230、 232和234的內(nèi)容之間的匹配程度。在示例性實 施例中,VR引擎220根據(jù)聲學(xué)特征的矢量與在各個聲學(xué)模型230、 232和234 中的不同聲學(xué)模板的匹配來產(chǎn)生匹配的評價。例如,VR引擎220根據(jù)一組聲 學(xué)特征矢量與在SIHMM聲學(xué)模型230中的多個HMM模板的匹配來產(chǎn)生HMM 匹配的評價。同樣,VR引擎220根據(jù)聲學(xué)特征的矢量與在SIDTW聲學(xué)模型 232中的多個DTW模板的匹配來產(chǎn)生DTW匹配的評價。VR引擎220根據(jù)聲 學(xué)特征矢量與在SD聲學(xué)模型234中的模板的匹配來產(chǎn)生匹配的評價。正如以上所討論的,在聲學(xué)模型中的各個模板是與發(fā)音種類有關(guān)的。在一 個示例性實施例中,VR引擎220組合了與相同發(fā)音種類有關(guān)的模板的評價, 以產(chǎn)生將在非監(jiān)督式訓(xùn)練中使用的組合匹配評價。例如,VR引擎220組合了 通過使一組輸入的聲學(xué)特征矢量相關(guān)所獲得的SIHMM和SIDTW的評價,從 而產(chǎn)生組合的SI評價。根據(jù)該組合的匹配評價,VR引擎220確定是否存儲該 組輸入的聲學(xué)特征矢量作為在SD聲學(xué)模型234中的SD模板。在一個示例性 實施例中,使用獨特的SI匹配評價來進行用于更新SD聲學(xué)模型234的非監(jiān)督 式訓(xùn)練。這就防止了在對其本身進行非監(jiān)督式訓(xùn)練而使用擴展的SD聲學(xué)模型234所引發(fā)的其它差錯。進行非監(jiān)督式訓(xùn)練的示例性方法將在下文中作更詳細 的討論。除了非監(jiān)督式訓(xùn)練之外,VR引擎220在測試過程中使用了各種聲學(xué)模型 (230, 232和234)。在示例性實施例中,VR引擎220從聲學(xué)模型(230, 232 和234)中檢索匹配的評價,并且產(chǎn)生適用于各個發(fā)音種類的組合匹配評價。 組合匹配評價可用于選擇最佳匹配于輸入語音的發(fā)音種類。VR引擎220根據(jù) 需要將連續(xù)發(fā)音種類集合在一起,以識別整個詞匯或短語。隨后,VR引擎220 將有關(guān)識別的詞匯或短語的信息提供給控制處理器222,該處理器222使用該 信息來確定對語音信息或命令的適當(dāng)響應(yīng)。例如,響應(yīng)于所識別的詞匯或短語, 控制處理器222可以提過顯示器或其它用戶接口向用戶提供反饋。在另一個實 施例中,控制處理器222可以通過無線調(diào)制解調(diào)器218和天線224向無線網(wǎng)絡(luò) (未顯示)發(fā)送信息,開始對與被發(fā)音和被識別的人的名字有關(guān)的目標(biāo)電話號 碼的移動電話呼叫。無線調(diào)制解調(diào)器218可以通過包括CDMA、 TDMA或FDMA的多種無線 信道類型中的任何一種來發(fā)送信號。此外,無線調(diào)制解調(diào)器218可以采用通過 非無線信道通信的其它類型的通信接口來替代,這并不脫離所揭示實施例的范 圍。例如,遠程站202可以通過任何一類通信信道來發(fā)送信令信息,其中通 信信道的類型可以包括地面一有線調(diào)制解調(diào)器、T1/E1、 ISDN、 DSL、以太網(wǎng)、 或者甚至是印刷電路板(PCB)上的線徑。圖3是顯示進行非監(jiān)督式訓(xùn)練的示例性方法的流程圖。在步驟302,模擬 數(shù)字轉(zhuǎn)換器(ADC)(圖2中212)采樣模擬語音數(shù)據(jù)。隨后,在步驟304, 使用預(yù)加重(PE)濾波器(圖2中的214)濾波數(shù)字樣本流。在步驟306,聲 學(xué)特征提取(AFE)單元(圖2中的216)從濾波后的樣本中提取輸入的聲學(xué) 特征矢量。VR 引擎(圖2中的220)接收來自AFE單元216的輸入聲學(xué)特 征矢量,并且進行輸入聲學(xué)特征矢量與SI聲學(xué)模型(圖2中的230和232)中 的內(nèi)容的模式匹配。在步驟308, VR引擎220從模式匹配的結(jié)果中產(chǎn)生匹配的 評價。VR引擎220通過輸入聲學(xué)特征矢量與SIHMM聲學(xué)模型230的匹配產(chǎn)生 SIHMM匹配評價,并且通過輸入聲學(xué)特征矢量與SIDTW聲學(xué)模型232的匹配 產(chǎn)生SIDTW匹配評價。在SIHMM和SIDTW聲學(xué)模型(230和232)中的各 個聲學(xué)模板都與特定的發(fā)音種類相關(guān)。在步驟310,對SIHMM和SIDTW評價 進行組合,以形成組合匹配評價。圖4顯示了在非監(jiān)督式訓(xùn)練中使用的組合匹配評價的產(chǎn)生。在示例性實施 例中,關(guān)于一特定發(fā)音種類的語者無關(guān)組合匹配評價SC0MB—51是根據(jù)圖示的等 式1的加權(quán)和,其中SIHMMT是目標(biāo)發(fā)音種類的SIHMM匹配評價;SIHMM^是適用于SIHMM聲學(xué)模型中與非目標(biāo)發(fā)音種類(不是目標(biāo)發(fā)音 種類的發(fā)音種類)有關(guān)的模板的下一個最佳匹配評價;SIHMMc是適用于"垃圾(garbage)"發(fā)音種類的SIHMM的匹配評價。 SIDTW"r是目標(biāo)發(fā)音種類的SIDTW匹配評價;SIDTWwt是造用于SIDTW聲學(xué)模型中與非目標(biāo)發(fā)音種類有關(guān)的模板的下 一個最佳匹配;以及,SIDTWc是適用于"垃圾"發(fā)音種類的SIDTW的匹配評價。各種個體的匹配評價SIHMMn和SIDTWn可以被視為表示在一系列輸入聲 學(xué)特征矢量和聲學(xué)模型中一模板之間的距離值。輸入聲學(xué)特征矢量和模板之間 的距離越長,則匹配的評價就越大。模板和輸入聲學(xué)特征矢量之間的緊密匹配 會產(chǎn)生非常低的匹配評價。如果將一系列輸入聲學(xué)特征矢量與兩個和不同發(fā)音 種類相關(guān)的模板比較且產(chǎn)生近似相等的兩個匹配評價,則VR系統(tǒng)就不能識別 哪一個是"正確"的發(fā)音種類。SIHMMe和SIDTWc是適用于"垃圾"發(fā)音種類的匹配評價。與垃圾發(fā)音 種類相關(guān)的一個模板或多個模板都稱為垃圾模板并且不會對應(yīng)于具體的詞匯 和短語。正是這個原因,它們對所有的輸入語音都同樣趨于不正確,垃圾匹配 評價作為一種在VR系統(tǒng)中的噪聲水平的測量是非常有用的。 一般來說,在可 以確信能識別發(fā)音種類之前, 一系列的輸入聲學(xué)特征矢量對與目標(biāo)發(fā)音種類相 關(guān)的模板的匹配程度應(yīng)該比與垃圾模板的匹配程度好得多。在VR系統(tǒng)可以確信識別出一個發(fā)音種類為"正確"的發(fā)音種類之前,輸 入聲學(xué)特征矢量對與該發(fā)音種類相關(guān)的模板的匹配程度應(yīng)該比對與其它發(fā)音 種類相關(guān)的垃圾模板和其他模板有關(guān)的匹配程度更高。比基于單一聲學(xué)模型的 匹配評價相比,從各種聲學(xué)模型中產(chǎn)生的組合匹配評價可以在發(fā)音種類之間得 到更加確定的區(qū)分。在示例性實施例中,VR系統(tǒng)使用這類組合匹配評價來確 定是否采用從一組新的輸入聲學(xué)特征矢量中獲得的模板來取代在SD聲學(xué)模型 (圖2中的234)中的模板??梢赃x擇加權(quán)因子(W….W6)來提供在整個聲學(xué)環(huán)境中的最佳訓(xùn)練性能。在示例性實施例中,加權(quán)因子(W,.,.W6)在所有的發(fā)音種類中都是恒定的。 換句話說,用于產(chǎn)生第一目標(biāo)發(fā)音種類的組合匹配評價所使用的Wn和用于產(chǎn) 生另一個目標(biāo)發(fā)音種類的組合匹配評價所使用的Wn是相同的。在另一個實施例中,加權(quán)因子根據(jù)目標(biāo)發(fā)音種類而變化。對本領(lǐng)域的專業(yè)人士來說,進行圖4所示組合的其他方法是顯而易見的,并且可以視為在本文所討論實施例的范 圍中。例如,也可以使用大于6或小于6的加權(quán)輸入。另一個顯而易見的變化 是根據(jù)一類聲學(xué)模型來產(chǎn)生組合的匹配評價。例如,根據(jù)SIHMMt, SIHMMnt 和SIHMMc來產(chǎn)生組合匹配評價,或者根據(jù)SIDTWt, SIDTWNT和SIDTWG來產(chǎn)生組合匹配評價。在示例性實施例中,W,和W4是負數(shù),并且So)mb的較大(即負得較少) 數(shù)值表示在目標(biāo)發(fā)音種類和一系列輸入聲學(xué)特征矢量之間有較大程度的匹配 (較小的距離)。在本領(lǐng)域中的專業(yè)人士會意識到,在不脫離所揭示實施例的 范圍的條件下,加權(quán)因子的符號可以容易地重新設(shè)置,使得較大程度的匹配可 以對應(yīng)較小的數(shù)值。再返回到圖3,在步驟310,為與HMM和DTW聲學(xué)模型(230和232) 中的模板相關(guān)的發(fā)音種類產(chǎn)生組合匹配評價。在示例性實施例中,只為與最佳 的n個SIHMM匹配評價相關(guān)的發(fā)音種類和與最佳的m個SIDTW匹配評價相 關(guān)的發(fā)音種類產(chǎn)生組合匹配評價。為保存計算資源,此限制是需要的,即使在 產(chǎn)生各個匹配評價時需消耗大量的計算功率。例如,如果n二m^3,可以為與 最好的三個SIHMM匹配評價相關(guān)的發(fā)音種類和與最好的三個SIDTW匹配評 價相關(guān)的發(fā)音種類產(chǎn)生組合匹配評價。根據(jù)與最好的三個SIHMM匹配評價相 關(guān)的發(fā)音種類是否和與最好的三個SIDTW匹配評價相關(guān)的發(fā)音種類相同,此 方法會產(chǎn)生三個至六個不同的組合匹配評價。在步驟312,遠程站202將組合匹配評價與所對應(yīng)的模板一起存儲在SD 聲學(xué)模型中的組合匹配評價進行比較。如果對于相同的發(fā)音種類,新的輸入聲 學(xué)特征矢量系列比存儲在SD模板中的舊的模板具有更大的匹配程度,那么從 新的輸入聲學(xué)特征矢量系列中產(chǎn)生新的SD模板。在SD聲學(xué)模型是DTW聲學(xué) 模型的實施例中,輸入聲學(xué)特征矢量系列自身就構(gòu)成新的SD模板。隨后,用 新的模板替代舊的模板,并且將與新的模板有關(guān)的組合匹配評價存儲在SD聲 學(xué)模型中,供以后比較使用。在替換的實施例中,非監(jiān)督式訓(xùn)練用于更新語者特定隱馬爾可夫模型(SDHMM)的聲學(xué)模型中的一個和多個模板。該SDHMM聲學(xué)模型可以代替 SDDTW模型使用,或者除了 SDDTW模型以外,也在SD聲學(xué)模型234中使 用。在示例性實施例中,在步驟312中的比較還包括將預(yù)期的新SD模板的組 合匹配評價與恒定訓(xùn)練閎值進行比較。即使在SD聲學(xué)模型中還沒有存儲任何 適用于一特定發(fā)音種類的模板,則新的模板也不能存儲在SD聲學(xué)模型中,除 非它具有比訓(xùn)練閾值的數(shù)值更好的組合匹配評價(表示匹配程度更大)。在替換的實施例中,在替代SD聲學(xué)模型中的任何模板之前,SD聲學(xué)模型 一般是由SI聲學(xué)模型的模板來定義的。這樣的初始化提供了一種替換方法,用 于保證使用SD聲學(xué)模型的VR性能在開始時至少和只使用SI聲學(xué)模型的VR 性能一樣好。隨著越來越多的在SD聲學(xué)模型中的模板被更新,使用SD聲學(xué) 模型的VR性能會超越只使用SI聲學(xué)模型的VR性能。在替換的實施例中,VR系統(tǒng)允許用戶進行監(jiān)督式訓(xùn)練。用戶必須在進行 這類監(jiān)督式訓(xùn)練之前將VR系統(tǒng)置于監(jiān)督式訓(xùn)練的模式。在監(jiān)督式訓(xùn)練的過程 中,VR系統(tǒng)具有正確發(fā)音種類的先驗知識。如果關(guān)于輸入語音的組合匹配評 價好于為該發(fā)音種類在先存儲的SD模板的組合匹配評價,則用輸入語音形成 替換的SD模板。在替換的實施例中,VR系統(tǒng)允許用戶在監(jiān)督式訓(xùn)練過程中強 制替換現(xiàn)有的SD模板。SD聲學(xué)模型可以采用適用于單個發(fā)音種類的多個(兩個或多個)模板的 情況來設(shè)計。在替換的實施例中,在SD模型中為每個發(fā)音種類存儲了兩個模 板。因此,在步驟312所作的比較必然將用新模板所獲得的匹配評價與為SD 聲學(xué)模型中關(guān)于相同發(fā)音種類的兩個模板所獲得的匹配評價進行比較。如果新 的模板比在SD聲學(xué)模型中任何一個較舊的模板具有更好的匹配評價,則在步 驟314,具有最差匹配評價的SD聲學(xué)模型模板可采用該新的模板來替代。如 果新的模板的匹配評價沒有兩個舊的模板好,則跳過步驟314。另外,在步驟 312,將用新的模板所獲得的匹配評價與匹配評價的閾值進行比較。如此地, 在用新的模板來覆蓋SD聲學(xué)模型的原先內(nèi)容之前,進行新的模板與該閾值數(shù) 值的比較,直到新的模板具有比存儲在SD聲學(xué)模型中的閾值更好的匹配評價。 可以預(yù)料各種顯而易見的變化,例如,根據(jù)組合匹配評價按分類次序存儲SD 聲學(xué)模型模板以及將新的匹配評價與最低的匹配評價進行比較,這些變化被認 為在本文所揭示的實施例的范圍內(nèi)。還可以預(yù)料對于存儲在聲學(xué)模型中的關(guān)于各個發(fā)音種類的模板數(shù)的各種顯而易見的變化。例如,SD聲學(xué)模型可以對于 各個發(fā)音種類包含多于兩個的模板,或者可以對于不同發(fā)音種類包含不同數(shù)量的模板。圖5是顯示了采用SI和SD聲學(xué)模型的組合來進行VR測試的示例性 方法的流程圖。步驟302, 304, 306和308與圖3的討論相同。在步驟510, 該示例的方法不同于圖3所示的方法。在步驟510, VR引擎220根據(jù)輸入特征 矢量與在SD聲學(xué)模型中模板的比較來產(chǎn)生SD匹配評價。在示例性實施例中, 只為與最佳n SIHMM匹配評價和最佳m SIDTW匹配評價相關(guān)的發(fā)音種類產(chǎn)生 SD匹配評價。在示例性實施例中,n=m=3。根據(jù)在兩組發(fā)音種類之間的重疊程 度,這可以導(dǎo)致為三個至六個發(fā)音種類產(chǎn)生SD匹配評價。正如以上所討論的, SD聲學(xué)模型可以包含單個發(fā)音種類的多個模板。在步驟512, VR引擎220產(chǎn) 生混合的組合匹配評價,供在VR測試中使用。在示例性實施例中,這些混合 的組合匹配評價是基于各個SI和各個SD匹配評價兩者的。在步驟514,可選 擇具有最佳組合匹配評價的詞匯或發(fā)音,并且將其與測試閾值相比較。如果某 個發(fā)音的組合匹配評價超過了測試閾值,只認為識別出該發(fā)音。在示例性實施 例中,用于產(chǎn)生訓(xùn)練用組合評價的加權(quán)[W,…W6](如圖4所示)與用于產(chǎn)生 測試用組合評價的加權(quán)[W卜.W6](如圖6所示)是相同的,但是訓(xùn)練的閾值不 同于測試的閾值。圖6顯示了在步驟512所進行的混合的組合匹配評價的產(chǎn)生。所示的示例 性實施例的操作雷同于圖4所示的組合器,除了釆用加權(quán)因子W4皮用于DTWt 以替代SIDTWT以及采用加權(quán)因子Ws應(yīng)用于DTWOT以替代SIDTWot。從與 目標(biāo)發(fā)音種類相關(guān)的SIDTW和SDDTW最佳評價中選擇DTWT (適用于目標(biāo) 發(fā)音種類的動態(tài)時間規(guī)整匹配評價)。類似地,從與非目標(biāo)發(fā)音種類相關(guān)的 SIDTW和SDDTW最佳評價中選擇DTWNT (適用于其余非目標(biāo)發(fā)音種類的動 態(tài)時間規(guī)整匹配評價)。適用于特殊發(fā)音種類的SI/SD混合評價ScoMB一h是根據(jù)圖示EQN.2的加權(quán) 和,式中SIHMMt, SIHMMnt, SIHMMg和SIDTWG與EQN.l中的SIHMMT, SIHMMNT,SIHMMg和SIDTWci是相同的。特別是,在EQN.2中SIHMMT是目標(biāo)發(fā)音種類的SIHMM匹配評價;SIHMM^是適用于與非目標(biāo)發(fā)音種類(不是目標(biāo)發(fā)音種類的發(fā)音種類)有 關(guān)的SIHMM聲學(xué)模型中模板的下一個最佳匹配;SIHMMc是適用于"垃圾"發(fā)音種類的SIHMM匹配評價;DTWi是對應(yīng)于目標(biāo)發(fā)音種類的適用于SI和SD模板的最佳DTW匹配評價;DTWNT是對應(yīng)于非目標(biāo)發(fā)音種類的適用于SI和SD模板的最佳DTW匹配 評價;以及,SIDTWc是適用于"垃圾"發(fā)音種類的SIDTW匹配評價。于是,SI/SD混合評價ScoMB—h是各個SI和各個SD匹配評價的組合。最 終的組合匹配評價并不整個依賴于SI或SD聲學(xué)模型。如果匹配評價SIDTWT 比任何SDDTWT的評價要好,則從較好的SIDTWT評價中計算出SI/SD混合評 價。類似地,如果匹配評價SDDTWt比任何SIDTWT的評價要好,則從較好的 SDDTWT評價中計算出SI/SD混合評價。因此,如果在SD聲學(xué)模型中的模板 產(chǎn)生較差的匹配評價,則VR系統(tǒng)仍舊可以根據(jù)SI/SD混合評價的SI部分來識 別輸入語音。這類較差的SD匹配評價可以具有多種原因,包括在訓(xùn)練和測試 過程中聲學(xué)環(huán)境之間的差異。或者或許是訓(xùn)練所使用的較差質(zhì)量的輸入。在替換的實施例中,對SI評價的加權(quán)輕于SD評價,或者甚至可以全部忽 略。例如,從與目標(biāo)發(fā)音種類相關(guān)的最佳SDDTW評價中選擇DTWT,并忽略 該目標(biāo)發(fā)音種類的SIDTW評價。同樣,可以從與非目標(biāo)發(fā)音種類相關(guān)的最佳 SIDTW或SDDTW評價中選擇DTWNT,代替使用兩組評價。盡管只采用適用于語者特定模式的SDDTW聲學(xué)模型來討論示例性實施 例,本文所討論的混合方法可以同樣應(yīng)用于使用SDHMM聲學(xué)模型或者甚至于 使用SDDTW和SDHMM聲學(xué)模型的VR系統(tǒng)。例如,通過改進圖6所示的方 法,加權(quán)因子W,可以應(yīng)用于從最佳的SIHMMt和SDHMMT評價中選出的匹配 評價。加權(quán)因子W2可以應(yīng)用于從最佳的SIHMMNT和SDHMMNT評價中選出的 匹配評價。于是,本文所揭示的是使用SI和SD聲學(xué)模型的組合來改善在非監(jiān)督式訓(xùn) 練和測試過程中的VR性能的VR方法和裝置。本領(lǐng)域的專業(yè)人士都會理解到 信息和信號可以釆用多種不同工藝和技術(shù)中任何一種來表示。例如,在以上討 論中所參考的數(shù)據(jù)、指令、命令、信息、信號、比特、碼元、和碼片都可以采 用電壓、電流、電磁波、磁場或粒子、光場或粒子,或者其上述的組合來表示。 同樣,盡管上述的實施例主要考慮了動態(tài)時間規(guī)整(DTW)或隱馬爾可夫模型 (HMM)聲學(xué)模型,但是所討論的技術(shù)同樣可以應(yīng)用于其它類型的聲學(xué)模型, 例如,神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。本領(lǐng)域的普通專業(yè)人士還會進一步意識到,參考本文所揭示的實施例所討 論的各種說明性的邏輯單元、模塊、電路和算法步驟都可以采用電子硬件、計 算機軟件、及其兩者的組合來實現(xiàn)。為了能簡潔地說明這些硬件和軟件的互換 性,以上已經(jīng)從功能上討論了各種說明性的元件、邏輯單元、模塊、電路以及 步驟。這些功能是實現(xiàn)為硬件還是軟件取決于施加在整個系統(tǒng)上的特定的應(yīng)用 和設(shè)計制約。專業(yè)人士都可以采用各種特殊應(yīng)用的變化方式來實現(xiàn)上述的功 能,但是這類實現(xiàn)方法都不應(yīng)理解為脫離本發(fā)明的范圍。以上結(jié)合本文所揭示的實施例討論的各種說明性的邏輯單元、模塊、和電路可以采用通用處理器、數(shù)字信號處理器(DPS)、專用集成電路(ASIC)、 現(xiàn)場可編程門陣列(FPGA)或者其它可編程邏輯器件、分立的門電路和晶體 管邏輯、分立硬件元件、或者為實現(xiàn)上述功能而設(shè)計的任何組合來實現(xiàn)或完成。 通用處理器可以是微處理器,但是在替換中,處理器可以是任何一種常規(guī)的處 理器、控制器、微控制器、或者狀態(tài)機。處理器也可以用計算器件的組合來實 現(xiàn),例如,DSP和微處理器的組合、多個微處理器、 一個或多個結(jié)合DSP芯核 的微處理器,或者任何其它這類結(jié)構(gòu)。結(jié)合本文揭示的實施例所討論的方法或算法的步驟可以直接嵌入在硬件 中、直接嵌入在處理器所執(zhí)行的軟件模塊中、或者直接嵌入在兩者的組合之中。 該軟件模塊可以駐留在RAM存儲器,閃存存儲器、ROM存儲器、EPROM存 儲器、EPPROM存儲器、寄存器、硬盤、可移動盤、CD — ROM、或者本領(lǐng)域 中所熟悉的任何其它形式的存儲媒介中。示例性存儲媒介與處理器相耦合,使 得處理器能從存儲媒介中讀取信息,也可以將信息寫入該存儲媒介中。在替換 的實施例中,存儲媒介可以集成于處理器。處理器和存儲媒介可以駐留在ASIC 中。在替換的實施例中,處理器和存儲媒介可以駐留在用戶終端中的分立元件 中。上述揭示實施例的說明使得本領(lǐng)域任何專業(yè)人士都能夠產(chǎn)生或應(yīng)用本發(fā) 明。對本領(lǐng)域任何專業(yè)人士來說,各種對這些實施例的改進都是顯而易見的, 本文所定義的基本原理可以在不脫離本發(fā)明的精神和范圍的條件下應(yīng)用于其 它實施例。于是,本發(fā)明并不試圖受限于本文所顯示的實施例,而是考慮與本 文所揭示的原理和新穎特征相一致的最廣泛范圍。
權(quán)利要求
1.一種語音識別方法,所述方法包括下述步驟將第一輸入語音片段與至少一個語者無關(guān)聲學(xué)模板進行模式匹配,以產(chǎn)生至少一個輸入模式匹配評價并且確定被識別的發(fā)音種類(308);將所述至少一個輸入模式匹配評價跟與被存儲的、對應(yīng)于所識別的發(fā)音種類的聲學(xué)模板相關(guān)的評價進行比較(312);根據(jù)所述比較結(jié)果,用由所述第一輸入語音片段導(dǎo)出的新模板來替換所述被存儲的聲學(xué)模板;和用與所述新模板相關(guān)的所述至少一個輸入模式匹配評價來替換與所述被存儲的聲學(xué)模板相關(guān)的評價。
2. 如權(quán)利要求l所述的方法,其特征在于,用于進行模式匹配的所述步驟還包括將所述第一輸入語音片段與至少一個隱馬爾可夫模型模板進行隱馬爾可夫模型模式匹配,以生成至少一個隱馬爾可夫模型匹配評價(308);將所述第一輸入語音片段與至少一個動態(tài)時間規(guī)整模板進行動態(tài)時間規(guī)整模 式匹配,以生成至少一個動態(tài)時間規(guī)整匹配評價(308);和對所述至少一個隱馬爾可夫模型匹配評價和所述至少一個動態(tài)時間規(guī)整匹配 評價求至少一個加權(quán)和,以生成所述至少一個輸入模式匹配評價(310)。
3. 如權(quán)利要求l所述的方法,其特征在于,還包括將第二輸入語音片段與至少一個語者無關(guān)聲學(xué)模板進行模式匹配,以生成至 少一個語者無關(guān)匹配評價(308);將所述第二輸入語音片段與所述被存儲的聲學(xué)模板進行模式匹配,以生成語 者特定匹配評價(510);和將所述至少一個語者無關(guān)匹配評價與所述語者特定匹配評價進行組合,以生 成至少一個組合匹配評價(512)。
4. 如權(quán)利要求3所述的方法,其特征在于,還包括識別與所述至少一個組 合匹配評價中的最佳組合匹配評價相關(guān)的發(fā)音種類。5. —種語音識別設(shè)備(202),所述設(shè)備包括用于將第一輸入語音片段與至少一個語者無關(guān)聲學(xué)模板進行模式匹配,以產(chǎn) 生至少一個輸入模式匹配評價并且確定被識別的發(fā)音種類的裝置;用于將所述至少一個輸入模式匹配評價跟與被存儲的、對應(yīng)于所識別的發(fā)音種類的聲學(xué)模板相關(guān)的評價進行比較的裝置;根據(jù)所述比較結(jié)果,用由所述第一輸入語音片段導(dǎo)出的新模板來替換所述被 存儲的聲學(xué)模板的裝置;和用與所述新模板相關(guān)的所述至少一個輸入模式匹配評價來替換與所述被存儲 的聲學(xué)模板相關(guān)的評價的裝置。
全文摘要
本發(fā)明涉及使用隱含語者自適應(yīng)的語音識別系統(tǒng)。具體地,揭示了一種語音識別(VR)系統(tǒng),該系統(tǒng)采用語者無關(guān)(SI)(230和232)和語者特定(SD)(234)的聲學(xué)模型的組合。至少一個SI聲學(xué)模型(230和232)用于和至少一個SD聲學(xué)模型(234)的組合,以提供至少與純SI聲學(xué)模型的語音識別性能相同的水平。所揭示的SI/SD VR系統(tǒng)可連續(xù)使用非監(jiān)督式的訓(xùn)練,來更新在一個和多個SD聲學(xué)模型(234)中的聲學(xué)模板?;旌系腣R系統(tǒng)隨后使用與至少一個SI聲學(xué)模型(230和232)組合的經(jīng)更新的SD聲學(xué)模型(234),在VR測試過程中提供改良的VR性能。
文檔編號G10L15/16GK101221758SQ20071019669
公開日2008年7月16日 申請日期2002年3月22日 優(yōu)先權(quán)日2001年3月28日
發(fā)明者A·P·德雅柯, C·張, H·加魯達德里, N·馬拉亞, S·賈里爾, 寧 畢 申請人:高通股份有限公司