專利名稱:利用具有轉(zhuǎn)換狀態(tài)空間模型的變化推理的語音識別方法
背景技術(shù):
本發(fā)明涉及模式識別,尤其涉及語音識別。
模式識別系統(tǒng),例如語音識別系統(tǒng),接收輸入信號并且將信號解碼以發(fā)現(xiàn)信號所代表的模式。例如在語音識別系統(tǒng)中,語音信號(經(jīng)常稱為測試信號)通過識別系統(tǒng)接收并且將其解碼以識別由語音信號代表的字符串。
很多語音識別系統(tǒng)利用隱藏馬爾可夫模型,在該隱藏馬爾可夫模型中,也可以稱為聲學(xué)單元或者語言單元的語音單元是通過單層連接的狀態(tài)表示的。利用訓(xùn)練信號,來確定每個語音單元的占用狀態(tài)和在狀態(tài)之間躍遷的概率分布。為了對語音信號解碼,將信號分成幀,并且將每幀變換成特征向量。然后將特征向量比作狀態(tài)的分布以識別通過幀表示的HMM狀態(tài)的大部分可能序列。然后選擇與那個序列對應(yīng)的語音單元。
雖然基于HMM的識別系統(tǒng)在執(zhí)行很多相對簡單的語音識別任務(wù)時非常好,但是它們不能直接做語音的一些重要的動態(tài)元素的模型(并且眾所周知很難執(zhí)行象對話式語音一樣的困難的任務(wù))。因此,它們不能適應(yīng)用于訓(xùn)練的語音信號和已經(jīng)解碼的語音信號之間的動態(tài)發(fā)音的差別。
例如,在臨時的說話的調(diào)整中,說話者趨向于次清晰發(fā)音或者趨向于比他們的語音的清晰發(fā)音差。這就意味著在重新定向到下一個目標(biāo)之前,用戶的語音清晰度的遞歸定義軌道可能達(dá)不到想要的目標(biāo)。由于訓(xùn)練信號是代表性地利用“讀取”語音式樣形成的,在語音式樣中說話者提供比在次清晰的語音中更充分清晰的語音資料,因此次清晰語音不能與訓(xùn)練的HMM狀態(tài)匹配。結(jié)果,識別器對臨時語音提供的識別結(jié)果少于理想的識別結(jié)果。
對于過度清晰的語音來說存在相似的問題。在過度清晰的語音中,說話者盡極大的努力使與他們的語音不同的聲音可識別。這種極大的努力能夠包括改變某些語音單元的聲音以致它們能夠從相似的發(fā)聲語音單元中區(qū)分出來,較長時間的保持某些語音單元的發(fā)聲,或者在聲音之間比較突然地進(jìn)行躍遷,以致可以察覺出每個聲音相對于相鄰的聲音來說是獨特的。這些過程中的每一個使得利用HMM系統(tǒng)識別語音更加困難,因為每個技術(shù)導(dǎo)致語音信號的一組特征向量經(jīng)常不能很好的與存在于訓(xùn)練數(shù)據(jù)中的特征向量相匹配。
即使對應(yīng)于次清晰或者過度清晰的語音的特征向量匹配于在訓(xùn)練數(shù)據(jù)中的那些特征向量(獲得其可能是非常昂貴的),由于對于HMM系統(tǒng)增加的語音的混淆導(dǎo)致通常的HMM技術(shù)仍然不能很好的執(zhí)行,這里在HMM系統(tǒng)中沒有考慮由次清晰或者過度清晰度引起的特征向量軌道變化的主要原因。這個問題將通過本發(fā)明明確的提出。
HMM系統(tǒng)處理人們說話速度的變化時也是比較困難的。因此,如果某人以比訓(xùn)練信號較慢或者較快的速度說話,那么HMM系統(tǒng)將對語音信號進(jìn)行錯誤的解碼。
已經(jīng)提出了HMM系統(tǒng)的替代物。特別的,提出可以直接將語音信號的統(tǒng)計定義軌道或者相關(guān)生成式參數(shù)的性能建模。由于不能直接測量相關(guān)生成式值,因此這些模型稱為隱藏動態(tài)模型(HDM)。隱藏動態(tài)模型是通常所說的轉(zhuǎn)換狀態(tài)空間模型的一類模型的一個例子,其在一個或者多個在前的幀和一個或者多個恒定選擇的幀中的參數(shù)值的基礎(chǔ)上對當(dāng)前幀的參數(shù)值建摸。
HDMs的一個問題是它們難于訓(xùn)練,因為象預(yù)期最大化算法的通常的訓(xùn)練算法對于HDMs來說是難處理的。這主要是因為為了在給定輸入值序列時獲得適于隱藏參數(shù)序列的后驗概率,必須在所有可能的語音單元序列的之中合計隱藏參數(shù)和可能的語音單元的組合的概率這個事實。這將導(dǎo)致計算量隨著輸入值的每一個附加幀而成指數(shù)規(guī)律地增加。
為了克服這個問題,在先技術(shù)的一些系統(tǒng)在訓(xùn)練期間假設(shè)語音單元的固定序列。定義這個序列的語音單元之間的邊界是通過利用在訓(xùn)練HDM之前的HMM訓(xùn)練設(shè)置的。這與在隱藏動態(tài)模型中的其它參數(shù)相比在理論上并不是最優(yōu)的,因為語音單元的邊界參數(shù)是根據(jù)不同的標(biāo)準(zhǔn)確定的。
因此,需要訓(xùn)練系統(tǒng)在克服與這種訓(xùn)練相關(guān)聯(lián)的難處理性質(zhì)的時候允許邊界與隱藏動態(tài)模型的其它參數(shù)一起訓(xùn)練。
發(fā)明概述一種方法,其包括定義隱藏相關(guān)生成式參數(shù)的轉(zhuǎn)換狀態(tài)空間模型并且近似提供隱藏相關(guān)生成式參數(shù)的序列和基于輸入值的語音單元序列的似然性的后驗概率。在近似后驗概率中,并不確定語音單元的邊界。在第一個實施例中,使用高斯近似混合。在另一個實施例中,使用HMM后驗近似。
附圖的簡要說明
圖1是一個計算環(huán)境的框圖,在該計算環(huán)境中可以實現(xiàn)本發(fā)明。
圖2是可供選擇的計算環(huán)境的框圖,在該計算環(huán)境中可以實現(xiàn)本發(fā)明。
圖3是在本發(fā)明的一個實施例中的語音識別系統(tǒng)的框圖。
實施例的詳細(xì)說明圖1說明了適合執(zhí)行本發(fā)明的計算系統(tǒng)環(huán)境100的例子。該計算系統(tǒng)環(huán)境100僅僅是適合的計算環(huán)境的一個例子并不對本發(fā)明的使用或者功能的范圍提出任何限定。計算環(huán)境100也不作為具有在典型的操作環(huán)境100中說明的元件的任一個或者組合的相關(guān)性或者需求的解釋。
本發(fā)明可以運(yùn)行在大量其它的通用、專用計算系統(tǒng)環(huán)境或者結(jié)構(gòu)中。適合與本發(fā)明一起使用的公知的計算系統(tǒng)、環(huán)境和/或結(jié)構(gòu)的例子包括,但是并不限制于,個人計算機(jī)、服務(wù)器計算機(jī)、手提式的或者膝上型裝置、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計算機(jī)、大型計算機(jī)、電話系統(tǒng)、包括上述系統(tǒng)或者裝置的任何一個的分布式計算環(huán)境等等。
本發(fā)明可以在象由計算機(jī)執(zhí)行的程序模塊的計算機(jī)可執(zhí)行指令的普通環(huán)境中得到說明。通常,程序模塊包括執(zhí)行特定任務(wù)或者實現(xiàn)特定抽象數(shù)據(jù)類型的例行程序、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。將本發(fā)明設(shè)計成可以在分布式計算環(huán)境中實現(xiàn),在該分布計算環(huán)境中任務(wù)可以通過遠(yuǎn)程處理裝置來執(zhí)行,該遠(yuǎn)程處理裝置是通過通信網(wǎng)絡(luò)連接的。在分布式計算環(huán)境中,將程序模塊定位在包括記憶體存儲器的本地和遠(yuǎn)程計算存儲介質(zhì)兩者中。
參照附圖1,用來實現(xiàn)本發(fā)明的示范系統(tǒng)包括計算機(jī)110形式的通用計算裝置。計算機(jī)110的組件可以包括,但是并不限制于,處理單元120、系統(tǒng)存儲器130以及用于將包括系統(tǒng)存儲器的不同的系統(tǒng)組件與處理單元120連接的系統(tǒng)總線121。系統(tǒng)總線121可以是包括存儲器總線或者存儲控制器、外圍總線和利用多種總線結(jié)構(gòu)的任何一個的局域總線的多種類型中的任何一種。作為舉例,但是并不作為限制,這種結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、增強(qiáng)的ISA(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)局域總線,以及也稱作夾層(Mezzanine)總線的外設(shè)部件互連(PCI)總線。
計算機(jī)110典型地包括多種計算機(jī)可讀介質(zhì)。計算機(jī)可讀介質(zhì)能夠是可以通過計算機(jī)110訪問的任何可用的介質(zhì),并且其包括易失性和非易失性介質(zhì)、可拆裝和不可拆裝性介質(zhì)。作為舉例,但是并不限制于該例子,計算機(jī)可讀介質(zhì)可以包括計算機(jī)存儲介質(zhì)和通信介質(zhì)。計算機(jī)存儲介質(zhì)包括在用于例如計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者其它數(shù)據(jù)的信息的存儲的方法和技術(shù)中的易失性的和非易失性的、可拆裝的和不可拆裝的介質(zhì)。計算機(jī)存儲介質(zhì)包括,但是并不限制于,RAM、ROM、EEPROM、閃存或者其它存儲器技術(shù)、CD-ROM、數(shù)字化通用光盤(DVD)或者其它的光盤存儲器、磁帶盒、磁帶、磁盤存儲器或者其它的磁存儲裝置、或者用于存儲期望信息的并且可以通過計算機(jī)110訪問的任何其它介質(zhì)。通信介質(zhì)一般包含計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者在已調(diào)數(shù)據(jù)信號例如載波或者其它傳送機(jī)構(gòu)中的其它數(shù)據(jù),并且該通信介質(zhì)包括任何信息傳輸介質(zhì)。術(shù)語“已調(diào)數(shù)據(jù)信號”的意思是具有一個或者多個特征集的信號,或者是以關(guān)于在信號中的編碼信息的方式改變的信號。作為舉例,但是并不限制于,通信介質(zhì)包括象有線網(wǎng)或者直接有線連接的有線介質(zhì),以及象聲學(xué)、RF、紅外以及其它的無線介質(zhì)。上述的任何的組合也可以包括在計算機(jī)可讀介質(zhì)的范圍內(nèi)。
系統(tǒng)存儲器130包括以象只讀存儲器(ROM)131和隨機(jī)存儲器(RAM)132的易失性的和/或非易失性存儲器的形式存在的計算機(jī)存儲介質(zhì)。例如在啟動期間,包括幫助在計算機(jī)110中的元件之間傳輸信息的基本例程的基本輸入/輸出系統(tǒng)133(BIOS)被典型地存儲在ROM131中。RAM132典型地包括立即可存取的和/或不久就可以通過處理單元120操作的數(shù)據(jù)和/或程序模塊。作為舉例,但是并不限于,圖1說明操作系統(tǒng)134、應(yīng)用程序135、其它的應(yīng)用程序模塊136以及程序數(shù)據(jù)137。
計算機(jī)110也可以包括其它的可拆裝/不可拆裝、易失性/非易失性計算機(jī)存儲介質(zhì)。僅僅作為舉例,圖1說明了從不可拆裝、非易失性磁介質(zhì)中讀出或者寫入到其中的硬盤驅(qū)動器141,從可拆裝、非易失性磁盤152中讀出或者寫入到其中的磁盤驅(qū)動器151,以及用于從例如CDROM或者其它光介質(zhì)的可拆裝、非易失性光盤156中讀出或者寫入其中的光盤驅(qū)動器155。其它可以用在典型的操作環(huán)境中的可拆裝/不可拆裝、易失性/非易失性計算機(jī)存儲介質(zhì)包括,但是并不限于,盒式磁帶、快速存儲卡、數(shù)字通用盤、數(shù)字錄像磁帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動器141典型地通過象接口140的不可拆裝存儲器接口與系統(tǒng)總線121連接,并且磁盤驅(qū)動器151和光盤驅(qū)動器155典型地通過可拆裝存儲器接口,例如接口150與系統(tǒng)總線121連接。
上述和在圖1中說明的驅(qū)動器和與之相關(guān)的計算機(jī)存儲介質(zhì)提供計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和用于計算機(jī)的其它數(shù)據(jù)的存儲。在圖1中,例如,硬盤驅(qū)動器141是作為存儲操作系統(tǒng)144、應(yīng)用程序145、其它的程序模塊146和程序數(shù)據(jù)147來說明的。注意這些組件能夠與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同或者不同。操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147在這里給出不同的編號最低限度的說明,它們是不同的副本。
用戶可以通過象鍵盤162、麥克風(fēng)163和象鼠標(biāo)、軌跡球或者接觸墊的點擊設(shè)備161將命令和信息輸入到計算機(jī)110中。其它的輸入裝置(沒有示出)可以包括操縱桿、游戲墊、碟形衛(wèi)星天線(satellite dish)、掃描器等等。這些或者其它輸入裝置經(jīng)常通過與系統(tǒng)總線耦合的用戶輸入接口160與處理單元120連接,但是也可以通過其它的接口和總線結(jié)構(gòu),例如并行端口、博弈端口或者通用串行總線(USB)的總線結(jié)構(gòu)連接。監(jiān)視器191或者其它類型的顯示裝置也通過例如視頻接口190的接口與系統(tǒng)總線121連接。除監(jiān)視器之外,計算機(jī)也可以包括象揚(yáng)聲器197和打印機(jī)196的外圍輸出設(shè)備,其可以通過輸出外圍接口195連接。
計算機(jī)110可以利用與一個或者多個遠(yuǎn)程計算機(jī)例如遠(yuǎn)程計算機(jī)180的邏輯連接在網(wǎng)絡(luò)環(huán)境中進(jìn)行操作。該遠(yuǎn)程計算機(jī)180可以是個人計算機(jī)、手提裝置、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或者其它的公用網(wǎng)絡(luò)結(jié)點,并且典型地包括很多或者所有的上面描述的涉及計算機(jī)110的元件。在圖1中描繪的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)絡(luò)(WAN)173,但是也可以包括其它的網(wǎng)絡(luò)。這種網(wǎng)絡(luò)環(huán)境在辦公室、企業(yè)廣域計算機(jī)網(wǎng)絡(luò)(enterprise-wide computer networks)、企業(yè)內(nèi)部網(wǎng)絡(luò)和國際互聯(lián)網(wǎng)中是很常見的。
當(dāng)計算機(jī)110用在LAN網(wǎng)絡(luò)環(huán)境中的時候,它通過網(wǎng)絡(luò)接口或者適配器170與LAN171連接。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用的時候,計算機(jī)110典型地包括調(diào)制解調(diào)器172或者其它的用于在WAN173例如國際互聯(lián)網(wǎng)上建立通信的裝置??梢詢?nèi)置或者外置的調(diào)制解調(diào)器172可以通過用戶輸入接口160或者其它的適當(dāng)?shù)臋C(jī)構(gòu)將其與系統(tǒng)總線121連接。在網(wǎng)絡(luò)環(huán)境中,描繪相關(guān)計算機(jī)110或者其部分的程序模塊可以存儲在遠(yuǎn)程存儲裝置中。作為舉例,但不限于,圖1說明遠(yuǎn)程應(yīng)用程序185是駐留于遠(yuǎn)程計算機(jī)180上的??梢岳斫怙@示的網(wǎng)絡(luò)連接是例證式的,并且可以使用在計算機(jī)之間建立通信鏈接的其它裝置。
圖2是移動裝置200的框圖,該移動裝置是典型的計算環(huán)境。移動裝置200包括微處理器202、存儲器204、輸入/輸出(I/O)組件206以及用于與遠(yuǎn)程計算機(jī)或者其它移動裝置通信的通信接口208。在一個實施例中,上述組件彼此之間通過相配的總線210進(jìn)行用于通信的連接。
存儲器204是作為帶有備用電池模塊(沒有示出)的象隨機(jī)存儲器(RAM)的非易失的電子存儲器實現(xiàn)的,因此當(dāng)移動裝置的總電源關(guān)閉的時候,存儲在存儲器204中的信息不會丟失。存儲器204的一部分最好配置為存放用于程序執(zhí)行的可尋址存儲器,而存儲器204的另外一個部分最好用于存儲,例如在硬盤驅(qū)動器上模擬存儲。
存儲器204包括操作系統(tǒng)212、應(yīng)用程序214以及對象存儲器216。在操作期間,操作系統(tǒng)212最好通過來自存儲器204的處理器202執(zhí)行。在一個較佳實施例中,操作系統(tǒng)212是來自微軟公司的在商業(yè)上可用的WINDOWS CE版號的操作系統(tǒng)。操作系統(tǒng)212最好設(shè)計成用于移動裝置并且通過一組陳列的應(yīng)用程序接口和方法來執(zhí)行能夠通過應(yīng)用程序214利用的數(shù)據(jù)庫功能部件。在對象存儲器216中的對象是通過應(yīng)用程序214和操作系統(tǒng)212維護(hù)的,至少局部響應(yīng)對陳列的應(yīng)用程序接口和方法的調(diào)用。
通信接口208代表允許移動裝置200發(fā)送和接收信息的很多裝置和技術(shù)。僅舉例來說,該裝置包括有線和無線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器。移動裝置200也能夠直接與計算機(jī)相連接以與之交換數(shù)據(jù)。在這種情況下,通信接口208可以是紅外收發(fā)器或者串行通信連接或者并行通信連接,這些都能夠傳輸流式信息。
輸入/輸出組件206包括象觸摸屏、按鈕、滾輪以及麥克風(fēng)的多種輸入裝置,以及包括聲頻發(fā)生器、振動裝置和顯示器的多種輸出裝置。上面列出的裝置是示例并且在移動裝置200中并不需要存在所有的這些裝置。此外,在本發(fā)明的范圍內(nèi),其它輸入/輸出裝置可以附加到移動裝置200中或者與移動裝置200一起存在。
本發(fā)明提供語音的再生模型。在這個模型中,將語音描繪成說話者嘗試的輸出,以根據(jù)語音執(zhí)行語音單元序列對語言的定義(definition)。在這個嘗試期間,說話者產(chǎn)生相關(guān)生成式值,該相關(guān)生成式值服從對于與當(dāng)前語音單元相關(guān)聯(lián)的目標(biāo)的統(tǒng)計定義軌道(利用具有遞歸噪音的狀態(tài)空間模式)。在本發(fā)明的實施例中,這個軌道是作為轉(zhuǎn)換狀態(tài)空間模型被建摸的。
本發(fā)明的模型是隱藏軌道模型的特定形式,在隱藏軌道模型中,該軌道是隨著加到每幀中的噪音而遞歸定義的。這個狀態(tài)空間模型包括兩層,描述隱藏相關(guān)生成式參數(shù)(例如聲道諧振頻率)的動態(tài)或者軌道模型組件、以及將相關(guān)生成式參數(shù)翻譯成象嘜耳頻率倒頻譜系數(shù)(Mel-Frequency Cepstral Coefficients)的可觀測的聲學(xué)特征的映射模型組件。在狀態(tài)空間模型中的狀態(tài)方程預(yù)測適于相關(guān)生成式參數(shù)的連續(xù)狀態(tài)值(X1,...,Xn,...,XN)的序列。映射模型或者觀察方程在給定連續(xù)隱藏狀態(tài)值序列時預(yù)測聲觀察向量Yn的序列。
該遞歸定義軌道和映射模型能夠通過兩個公式簡單的表示xn=Asxn-1+(I-As)us+w 公式1yn=Csxn+cs+v 公式2其中n和s分別是幀號碼和語音單元標(biāo)記,X是隱藏相關(guān)生成式參數(shù),y是聲學(xué)特征向量,As和Cs是語音單元相依系統(tǒng)矩陣,us是語音單元相依目標(biāo),I是恒等矩陣,cs是語音單元相依常數(shù),并且w和v是噪聲項。
在一個實施例中,公式1和2的模型根據(jù)概率分布表示為p(sn=s|sn-1=s′)=πss′公式3p(xn|sn=s,xn-1)=N(xn|Asxn-1+as,Bs)公式4p(yn|sn=s,xn)=N(yn|Csxn+cs,Ds)公式5其中Bs和Ds是精密矩陣(協(xié)方差矩陣的逆),其是以與噪音項w和v以及as=(I-As)ux相關(guān)的方差為基準(zhǔn)的。
通常,訓(xùn)練公式3-5的模型參數(shù)需要迭代的兩步處理。第一步驟稱為推理,在這期間,計算后驗分布p(s1∶N,x1∶N/y1∶N)給出模型參數(shù)的初始設(shè)置。在第二步期間,稱為學(xué)習(xí)或者參數(shù)估計,更新模型參數(shù)。重復(fù)這些步驟直到模型參數(shù)收斂或者達(dá)到某最大數(shù)量的迭代為止。當(dāng)執(zhí)行廣義預(yù)期最大化訓(xùn)練的時候,E步驟是推理步驟并且M步驟是學(xué)習(xí)步驟。
公式3-5的模型的推理步驟不能直接執(zhí)行,因為后驗計算是難處理的。本發(fā)明的一個實施例通過近似利用高斯模型混合的后驗分布克服了這個問題。本發(fā)明的另一個實施例通過近似利用HMM后驗的后驗分布克服了這個問題。利用這種近似和變化的計算,使估計后驗概率是可能的。下面將分別討論每個近似。
高斯混合在本發(fā)明的高斯混合的實施例中,后驗概率p(S1∶N,x1∶N/y1∶N)是作為q(s1∶N,x1∶N/y1∶N)近似的,其定義為q(s1:N,x1:N|y1:N)=Πn=1:Nq(xn|sn,y1:N)q(sn|y1:N)]]>公式6其中q()表示概率。注意在公式6的近似中,在幀n上相關(guān)生成式值的概率是不依賴于在其它時間幀期間的相關(guān)生成式參數(shù)的值的,并且僅僅取決于在幀n上的語音單元的值并且不取決于其它幀的語音單元的值。這樣就大大的減小了為了計算近似而完成的計算量。
通過最小化在近似和實際后驗分布之間的偏差,本發(fā)明者已經(jīng)發(fā)現(xiàn)概率q(xn/sn,y1∶N)是高斯分布的必然結(jié)果q(xn|sn,y1∶N)=N(xn|ρs,n,Γs,n)公式7其中平均數(shù)ρs,n和協(xié)方差Γs,n通過下面的公式給出Γs,n=CsTDsCs+Bs+Σs′γs′,n+1As′TBs′As′]]>公式8Γs,nρs,n=Bs(AsΣs′γs′,n-1ρs′,n-1+as)]]>+Σs′γs′,n+1As′TBs′(ρs′,n+1-as′)]]>公式9+CsTDs(yn-cs)]]>其中γs,n=q(sn=s/y1∶N)是在幀n上的語音單元的概率,并且作為下面的公式來計算logγs,n=f1+f2+f3公式10其中f1=12{log|Ds2π|-log|Γs,n2π|-<CsTDsCs,Γs,n-1+ρs,nρs,nT>-2(cs-yn)TDsCsρs,n]]>-(cs-yn)TDs(cs-yn)+<Γs,n,Γs,n-1+ρs,nρs,nT>-ρs,nTΓs,nρs,n]]>log|Bs2π|-<Bs,Γs,n-1+ρs,nρs,nT>+2asTBsρs,n-asTBsas}]]>公式11f2=12Σγs′,n-1{-<AsTBsAs,Γs′,n-1-1+ρs′,n-1ρs′,n-1T>]]>-2s′(as-ρs,n)TBs′As·ρs′,n-1+2logπs′s}]]>公式12f3=12Σs′γs′,n+1{log|Bs′2π|-<As′TBs′As′,Γs,n-1+ρs,nρs,nT>-2(as′-ρs′,n+1)TBs′As′ρs′,n]]>-<Bs′,Γs′,n+1-1+ρs′,n+1ρs′,n+1T>-2as′TBs′ρs′n+1-as′TBs′as′+2logπs′s]]>公式13其中<>表示通過對兩個相同大小的向量或者矩陣的元素方向乘積的求和獲得標(biāo)量。在這個發(fā)明的實踐中,在訓(xùn)練期間,在上述公式中通過s’變量(離散狀態(tài))指示的總和項已經(jīng)徹底的減小了,因為訓(xùn)練過程(script)是可靠的,以致能夠強(qiáng)烈的約束可能的s序列。
在一個實施例中,推理步驟是通過適于利用公式10和ρs,n和Γs,n的在前的值的每個s,n組合的第一個決定γs,n執(zhí)行的。由于在公式10中的γs,n的計算是取決于γs,n的,公式10是迭代估算的直到γs,n收斂為止。然后利用來自公式10的γs,n的新的值估算公式8,以產(chǎn)生一個Γs,n的更新值。然后Γs,n的更新值與γs,n一起使用以確定在公式9中的ρs,n。注意,公式8和9是組合的線性方程并且能夠通過稀疏矩陣技術(shù)得到有效的解答。這個過程能夠重復(fù)迭代以提高γs,n,Γs,n和ρs,n的值的精確度。
當(dāng)推理步驟完成之后,γs,n,Γs,n和ρs,n的值用在學(xué)習(xí)步驟中,以設(shè)置模型參數(shù)Θ={A1∶S,a1∶s,B1∶S,C1∶S,c1∶S,D1∶S}的值,其是根據(jù)As=[1Σnγs,n(Σnγs,nρs,n)(Σnγs,nΣs′γs′,n-1ρs′,n-1)T-Σnγs′,nρs,nΣs′γs′,n-1ρs′,n-1T]]]>[1Σnγs,n(Σnγs,nΣs′γs′,n-1ρs′,n-1)(Σnγs,nΣs′γs′,n-1ρs′,n-1)T-Σnγs,nΣs′γs′,n-1(Γs′,n-1-1+ρs′,n-1ρs′,n-1T)]-1]]>公式14as=1Σnγs,n(Σnγs,nρs,n-AsΣnγs,nΣs′γs′,n-1ρs′,n-1)]]>公式15Bs-1=1Σnγs,n{Σnγs,n(Γs,n-1+ρs,nρs,nT)-[(Σnγs,nρs,n(Σs′γs′,n-1ρs′,n-1)T]-AsT-(Σnγs,nρs,n)asT}]]>-As[Σnγs,n(Σs′γs′,n-1ρs′,n-1)ρs,nT]+As[Σnγs,nΣs′γs′,n-1(Γs′-1+ρs′,n-1ρs′,n-1T)]AsT]]>+As(Σnγs,nΣs′γs′,n-1ρs′,n-1)asT-as(Σnγs,nρs,n)T]]>+as[Σnγs,n(Σs′γs′,n-1ρs′,n-1)T]AsT}+asasT]]>公式16Cs=[1Σnγs,n(Σnγs,nyn)(Σnγs,nρs,n)T-Σnγs,nynρs,nT]]]>[1Σnγs,n(Σnγs,nyn)(Σnγs,nρs,n)T-Σnγs,n(Γs,n-1+ρs,nρs,nT)]-1]]>公式17Cs=1Σnγs,n(Σnγs,nyn-CsΣnγs,nρs,n)]]>公式18
Ds-1=1Σnγs,n{Σnγs,nynynT-(Σnγs,nynρs,nT)CsT-(Σnγs,nyn)csT-Cs(Σnγs,nynρs,nT)T]]>+Cs[Σnγs,n(Γs,n-1+ρs,nρs,nT)]CsT+Cs(Σnγs,nρs,n)csT-Cs(Σnγs,nyn)T]]>+cs(Σnγs,nρs,n)TCsT}+cscsT]]>公式19推理和學(xué)習(xí)步驟可以重復(fù)很多次以完成訓(xùn)練。
HMM后驗在第二個實施例中,后驗是利用HMM后驗近似的,HMM后驗定義為q(s1:N,x1:N|y1:N)=Πn=1Nq(xn|sn,y1:N)·Πn=2Nq(sn|sn-1,y1:N)·q(s1|y1:N)]]>公式20如在高斯模型的混合中,在HMM后驗?zāi)P椭械母怕蕅(xn/sn,y1∶N)是具有平均值ρs,n和協(xié)方差矩陣Γs,n的高斯分布。該平均值ρs,n和協(xié)方差矩陣Γs,n是利用具有γs,n的新定義的上面提到的公式8和9計算的。特別地,γs,n是利用反向—正向(backward-forward)處理確定的,反向—正向處理也定義了后驗躍遷概率ηs′x,n=q(sn=s/sn-1-s′,y1∶N)。
反向—正向處理是通過初始化適于所有的s的值zs,N+1=1開始的。在反向通過(pass)期間,對于n=N,...,2執(zhí)行下面的計算zs,n=Σs′exp(fss′,n)zs′,n+1]]>公式21ηss′,n=1zs,nexp(fss′,n)zs′,n+1]]>公式22當(dāng)n=1的時候z1=Σsexp(fs,1)zs,2]]>公式23γs,1=1z1exp(fs,1)zs,2]]>公式24在正向通過期間,對n=2,...,N執(zhí)行下面的計算γs,n=Σs′ηs′s,nγs′,n-1]]>公式25其中
fs′s,n=12{log|Ds2π|-<CsTDsCs,Γs,n-1+ρs,nρs,nT>-2(cs-yn)TDsCsρs,n-(cs-yn)TDs(cs-yn)]]>-log|Γs,n2π|+<Γs,n,Γs,n-1+ρs,nρs,nT>-ρs,nTΓs,nρs,n+log|Bs2π|]]>-<AsTBsAs,Γs′-1+ρs′,n-1ρs′,n-1T>-2(as-ρs,n)TBsAsρs′,n-1-<Bs,Γs,n-1+ρs,nρs,nT>]]>+2asTBsρs,n-asTBsas+2logπs′s}]]>公式26fs,1=12{log|Ds2π|-<CsTDsCs,Γs,1-1+ρs,1ρs,1T>-2(cs-y1)TDsCsρs,1-(cs-y1)TDs(cs-y1)]]>-log|Γs,12π|+<Γs,1,Γs,1-1+ρs,1ρs,1T>-ρs,1TΓs,1ρs,1+log|Bs2π|]]>-<Bs,Γs,1-1+ρs,1ρs,1T>+2asTBsρs,1-asTBsas+2logπ0}]]>公式27因此在推理步驟期間,首先利用公式21-27的反向—正向處理計算γs,n。然后利用上面提到的公式8和9以及計算出的γs,n計算平均值ρs,n和協(xié)方差Γs,n。在執(zhí)行學(xué)習(xí)步驟之前,能夠重復(fù)這些步驟使得γs,n、ρs,n和Γs,n的值能夠達(dá)到穩(wěn)定值。
當(dāng)推理步驟完成之后,利用下面的公式,能夠執(zhí)行學(xué)習(xí)步驟以設(shè)置模型參數(shù)的值Θ={A1∶S,a1∶s,B1∶S,C1∶s,c1∶S,D1∶s}As=[1Σnγs,n(Σnγs,nρs,n)(ΣnΣs′ηs′s,nγs′,n-1ρs′,n-1)T-Σnρs,nΣs′ηs′s,nγs′,n-1ρs′,n-1T]]]>[1Σnγs,n(ΣnΣs′ηs′s,nγs′,n-1ρs′,n-1)(ΣnΣs′ηs′s,nγs′,n-1ρs′,n-1)T-ΣnΣs′ηs′s,nγs′,n-1(Γs′,n-1-1+ρs′,n-1ρs′,n-1T)]-1]]>公式28as=1Σnγs,n(Σnγs,nρs,n-AsΣnΣs′ηs′s,nγs′,n-1ρs′,n-1)]]>公式29NBs-1=Σnγs,n(Γs,n-1+ρs,nρs,nT)-[Σnρs,n(Σs′ηs′s,nγs′,n-1ρs′,n-1T)]AsT-(Σnγs,nρs,n)asT]]>-As[Σn(Σs′ηs′s,nγs′,n-1ρs′,n-1)ρs,nT]+As[ΣnΣs′ηs′s,nγs′,n-1(Γs′-1+ρs′,n-1ρs′,n-1T)]AsT]]>+As(ΣnΣs′ηs′s,nγs′,n-1ρs′,n-1)asT-asΣnγs,nρs,nT+as(ΣnΣs′ηs′s,nγs,n-1ρs′,n)TAsT]]>+(Σnγs,n)asasT]]>公式30
Cs=[1Σnγs,n(Σnγs,nyn)(Σnγs,nρs,n)T-Σnγs,nynρs,nT]]]>[1Σnγs,n(Σnγs,nρs,n)(Σnγs,nρs,n)T-Σnγs,n(Γs′,n-1T+ρs′,n-1ρs′,n-1T)]-1]]>公式31Cs=[1Σnγs,n(Σnγs,nyn)-CsΣnγs,nρs,n]]]>公式32NDs-1=Σnγs,nynynT-(Σnγs,nynρs,nT)CsT-(Σnγs,nyn)csT-Cs(Σnγs,nynρs,nT)T]]>+Cs[Σnγs,n(Γs,n-1+ρs,nρs,nT)]CsT+Cs(Σnγs,nρs,n)csT-Cs(Σnγs,nyn)T]]>+cs(Σnγs,nρs,n)TCsT+(Σnγs,n)cscsT]]>公式33訓(xùn)練精化如那些本領(lǐng)域技術(shù)人員認(rèn)識到的,如果適于模型參數(shù)的初始值接近于通過訓(xùn)練識別的值,那么象上面討論的那些高斯混合和HMM后驗?zāi)P偷闹貜?fù)局部最優(yōu)化訓(xùn)練算法將能夠比較好的執(zhí)行。在本發(fā)明的一些實施例中,關(guān)于相關(guān)生成式參數(shù)的目標(biāo)參數(shù)as是在手工標(biāo)記(hand-labeled)的相關(guān)生成式值的基礎(chǔ)上設(shè)置的。在一個特定的實施例中,相關(guān)生成式值是聲道共振(VTR),目標(biāo)是在來自說話者獲取的手工標(biāo)記的VTR數(shù)據(jù)的基礎(chǔ)上初始化的。
因為音素邊界在上述進(jìn)行的近似中是不確定的,因此音素躍遷能夠在每一幀中出現(xiàn)。對于自然語音來說,每個音素存在某個最短持續(xù)時間以致躍遷在每一幀上是不被允許的。為了解決這個問題,本發(fā)明的實施例利用了一串隨時間變化的躍遷矩陣,該躍遷矩陣將適于躍遷的概率提供給在每一幀上的其它音素。矩陣是通過修改通過HMM訓(xùn)練識別的語音單元邊界而建立的。對邊界的修改涉及將來自出現(xiàn)在兩幀之間的強(qiáng)固定邊界的每個邊界轉(zhuǎn)換成在許多幀上延伸的概率邊界。在強(qiáng)固定邊界中,適于每個語音單元的ρs,n的值可以是表示對于幀的語音單元的百分之百概率的1,或者是表示對于幀的語音單元的零百分比概率的0。在修改的邊界中,ρs,n的值能夠是在0和1之間的任何一個值。
例如,如果HMM預(yù)測在語音單元s1和語音單元s2之間的固定邊界,那么在一個實施例中,對于在固定邊界之前的三幀和固定邊界之后的三幀的語音單元s1和語音單元s2的概率將被設(shè)置成0.5。在另一個實施例中,穿過圍繞固定邊界的幀的語音單元s1和語音單元s2的概率逐漸改變。例如穿過相應(yīng)幀的語音單元s1的概率可以是[1,0.8,0.6,0.5,0.4,0.2,0],而穿過相同的幀的語音單元s2的概率將是
。注意對于幀或者其相鄰幀的沒有預(yù)測的語音單元具有零概率。
注意在邊界的每一側(cè)的幀的數(shù)目可以不同于三,并且能夠取決于由HMM訓(xùn)練設(shè)置的每個語音單元的中點。
隱藏生成式參數(shù)恢復(fù)(recovery)如上面提到的一樣,本發(fā)明的模型所根據(jù)的相關(guān)生成式參數(shù)被隱藏并且該相關(guān)生成式參數(shù)是不能直接測量的。然而,為了判斷系統(tǒng)的性能并且為了收集在隱藏相關(guān)生成式參數(shù)上的數(shù)據(jù),例如聲音共振軌跡(vocal resonance tracks),需要恢復(fù)隱藏相關(guān)生成式參數(shù)的值。
在本發(fā)明中,一旦γs,n和ρs,n的值利用上述的高斯近似混合或者HMM后驗近似已經(jīng)訓(xùn)練完成,那么做到這點是很容易的。一旦那些值是已知的,隱藏相關(guān)生成式參數(shù)是簡單的x^n=Σsγs,nρs,n]]>公式34語音識別當(dāng)模型參數(shù)已經(jīng)利用上面討論的一個近似得到訓(xùn)練之后,模型參數(shù)和近似能夠用于執(zhí)行語音識別。在給定表示語音信號的觀測特征向量的序列時,這涉及到識別大多數(shù)可能的語音單元序列,例如音素。
對于高斯近似混合來說,語音識別能夠通過簡單的測定基于觀測特征向量和訓(xùn)練出的模型參數(shù)Θ={A1∶S,a1∶s,B1∶S,C1∶s,c1∶s,D1∶S}的γs,n、Γs,n和ρs,n來執(zhí)行。然后選擇在幀n上的具有最大γs,n的語音單元s作為適于幀n的語音單元。
為了避免非自然語音單元轉(zhuǎn)換,能夠用躍遷矩陣擴(kuò)充這個識別系統(tǒng),其將最小持續(xù)時間約束增加到語音單元中。因此在躍遷矩陣中,在語音單元之間的每個躍遷具有聯(lián)合概率,至少對于每個語音單元的一些最小數(shù)量的幀來說,保留在語音單元中的概率高于躍遷到另一個語音單元的概率。為了利用這個躍遷矩陣執(zhí)行語音識別,可以使用維特比譯碼器,該譯碼器在給定躍遷概率和γs,n概率時,通過可能的語音單元識別大部分可能路徑。
對于HMM后驗近似來說,語音識別是通過確定基于觀測特征向量和訓(xùn)練出的模型參數(shù)Θ={A1∶S,a1∶S,B1∶S,C1∶S,c1∶S,D1∶S}的γs,n、ηss′n、Γs,n和ρs,n來執(zhí)行的。然后在維特比譯碼中使用第一幀的語音單元概率γs,1和躍遷概率ηss′,n以識別語音單元s的大部分可能序列。對公式而言,維特比譯碼器根據(jù)下面的公式得出最大路徑得分(score)VNV1(s)=γs,1公式35Vn(s′)=max1≤s≤S[Vn-1(s)ηss′,n]]]>公式36當(dāng)用高斯近似混合的時候,能夠?qū)⒊掷m(xù)時間約束加到通過修改躍遷概率解碼的HMM后驗中,以增加與躍遷到其它語音單元中的似然性有關(guān)的保留在語音單元中的似然性。
圖3提供了語音識別系統(tǒng)的框圖,在該語音識別系統(tǒng)中能夠使用本發(fā)明。在圖3中,可以是訓(xùn)練者或者用戶的說話者300將發(fā)言輸入到麥克風(fēng)304中。麥克風(fēng)304也接收來自一個或者多個噪聲源302的添加性噪聲。將通過麥克風(fēng)檢測的音頻信號轉(zhuǎn)換為電信號,再將該電信號提供給模擬—數(shù)字轉(zhuǎn)換器306。
模-數(shù)轉(zhuǎn)換器306將來自麥克風(fēng)304的模擬信號轉(zhuǎn)換成一串?dāng)?shù)字值。在幾個實施例中,模-數(shù)轉(zhuǎn)換器306以16KHz采樣模擬信號并且每個樣本是16位,因此每秒鐘產(chǎn)生32KB語音數(shù)據(jù)。將這些數(shù)字值提供給幀構(gòu)造器307,該幀構(gòu)造器在一個實施例中將值分組成10毫秒間隔啟動的25毫秒幀。
通過幀構(gòu)造器307產(chǎn)生的數(shù)據(jù)幀提供給特征抽取器308,該特征抽取器從每幀中抽取特征。特征抽取模塊的范例包括用于執(zhí)行線性預(yù)測編碼(LPC)的模塊,LPC導(dǎo)出倒頻譜、感知線性預(yù)測(PLP)、聽覺模型特征抽取以及嘜耳頻率倒頻譜系數(shù)(MFCC)特征抽取。注意本發(fā)明并不限于這些特征抽取模塊,并且其它的模塊可以用在本發(fā)明的范圍內(nèi)。
如果輸入信號是訓(xùn)練信號,那么將該系列特征向量提供給訓(xùn)練器324,該訓(xùn)練器使用特征向量和訓(xùn)練文本326訓(xùn)練本發(fā)明的再生模型328。例如可以使用上述的EM訓(xùn)練算法訓(xùn)練再生模型參數(shù)Θ={A1∶S,a1∶S,B1∶S,C1∶s,c1∶s,D1∶S}。如上面所述,為了訓(xùn)練再生模型328,訓(xùn)練器324訓(xùn)練近似模型327,例如上述的高斯近似混合或者HMM后驗近似。
如上所述,重復(fù)EM訓(xùn)練算法。在這種情況下,當(dāng)訓(xùn)練近似模型327的時候訓(xùn)練器324訪問再生模型328,并且當(dāng)訓(xùn)練再生模型328的時候,訓(xùn)練器324訪問近似模型327。
一旦已經(jīng)訓(xùn)練完再生模型328,就將輸入語音信號轉(zhuǎn)換成觀測特征向量流。將這些向量提供給訓(xùn)練器324,訓(xùn)練器324以觀測向量和再生模型328的參數(shù)為基礎(chǔ)為近似模型327設(shè)置模型參數(shù)。然后解碼器312在特征向量流、詞典314、語言模型316、近似模型327和再生模型328的基礎(chǔ)上識別詞的大部分可能序列。在一個實施例中,詞典314定義了有限狀態(tài)網(wǎng)絡(luò),通過解碼器312穿過有限狀態(tài)網(wǎng)絡(luò)以識別來自特征向量的序列。注意如上面所述,關(guān)于上面作為躍遷矩陣的這個網(wǎng)絡(luò)可以包括組成詞的語音單元的持續(xù)時間約束。
將大多數(shù)可能的假設(shè)詞序列提供給置信量度模塊320。置信量度模塊320部分地以第二聲音模塊(沒有示出)為基礎(chǔ)識別通過語音識別器錯誤識別的大部分可能詞。然后置信量度模塊320將假設(shè)詞的序列連同指示哪些詞已經(jīng)被錯誤的識別的標(biāo)識符一起提供給輸出模塊322。那些本領(lǐng)域技術(shù)人員能夠認(rèn)識到置信量度模塊320對于本發(fā)明的實踐來說不是必須的。
雖然已經(jīng)參考特定實施例對本發(fā)明進(jìn)行了敘述,但是本領(lǐng)域的技術(shù)人員在不脫離本發(fā)明的精神和范圍的情況下,可以在形式上和細(xì)節(jié)上對本發(fā)明進(jìn)行變換。
權(quán)利要求
1.一種估計轉(zhuǎn)換狀態(tài)空間模型的后驗概率的方法,該后驗概率根據(jù)與幀序列聯(lián)系在一起的輸入值提供語音單元組和幀序列的隱藏參數(shù)組的似然性,其特征在于,所述方法包括通過將單個隱藏參數(shù)概率乘到一起形成隱藏參數(shù)概率的乘積的方法部分地近似后驗概率,其中每個單個隱藏參數(shù)概率,在給定幀的語音單元和給定適于幀序列的輸入值的幀時,提供隱藏參數(shù)的概率;并且調(diào)整定義隱藏參數(shù)概率的參數(shù),使隱藏參數(shù)概率提供后驗概率的較好的近似。
2.如權(quán)利要求1所述的方法,其特征在于,所述近似后驗概率進(jìn)一步包括用語音單元概率的乘積乘以隱藏參數(shù)概率的乘積,其中每個語音單元概率為一幀提供語音單元的概率。
3.如權(quán)利要求2所述的方法,其特征在于,所述方法進(jìn)一步包括調(diào)整語音單元概率,使語音單元概率提供較好的后驗概率的近似。
4.如權(quán)利要求2所述的方法,其特征在于,所述方法進(jìn)一步包括利用后驗概率的近似解碼輸入值,以識別幀序列的語音單元序列。
5.如權(quán)利要求4所述的方法,其特征在于,所述利用的近似包括為每一幀選擇語音單元是選擇該幀的具有最高語音單元概率的語音單元。
6.如權(quán)利要求4所述的方法,其特征在于,所述利用的近似包括將持續(xù)時間約束應(yīng)用到語音單元中,并且根據(jù)持續(xù)時間約束和語音單元概率選擇最好的語音單元序列。
7.如權(quán)利要求1所述的方法,其特征在于,所述近似后驗概率進(jìn)一步包括用語音單元躍遷概率的乘積乘以隱藏參數(shù)概率的乘積,其中每個語音單元躍遷概率在給定另一幀中語音單元時,提供一幀中的語音單元的概率。
8.如權(quán)利要求7所述的方法,其特征在于,所述方法進(jìn)一步包括調(diào)整語音單元躍遷概率,使語音單元躍遷概率提供后驗概率的較好的近似。
9.如權(quán)利要求7所述的方法,其特征在于,所述方法進(jìn)一步包括利用后驗概率的近似解碼輸入值,以識別幀序列的語音單元序列。
10.如權(quán)利要求9所述的方法,其特征在于,所述利用的近似包括根據(jù)語音單元躍遷概率選擇語音單元序列。
11.如權(quán)利要求10所述的方法,其特征在于,所述利用的近似包括將持續(xù)時間約束應(yīng)用到語音單元,并且根據(jù)持續(xù)時間約束和語音單元躍遷概率選擇最好的語音單元序列。
12.如權(quán)利要求1所述的方法,其特征在于,所述調(diào)整定義隱藏參數(shù)概率的參數(shù)包括根據(jù)轉(zhuǎn)換狀態(tài)空間模型參數(shù)調(diào)整參數(shù)以產(chǎn)生已調(diào)整的參數(shù)。
13.如權(quán)利要求12所述的方法,其特征在于,所述輸入值從訓(xùn)練信號中產(chǎn)生,并且其中調(diào)整參數(shù)進(jìn)一步包括根據(jù)定義隱藏參數(shù)概率的已經(jīng)調(diào)整的參數(shù)調(diào)整轉(zhuǎn)換狀態(tài)空間模型的參數(shù),以形成已經(jīng)調(diào)整的轉(zhuǎn)換狀態(tài)空間模型參數(shù),并且根據(jù)已經(jīng)調(diào)整的轉(zhuǎn)換狀態(tài)空間模型參數(shù)調(diào)整定義隱藏參數(shù)概率的已經(jīng)調(diào)整的參數(shù)。
14.如權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包括利用后驗概率的近似識別幀序列的隱藏參數(shù)的序列。
15.一種包括計算機(jī)可執(zhí)行指令的計算機(jī)可讀介質(zhì),該計算機(jī)可執(zhí)行指令的執(zhí)行步驟包括定義包括隱藏相關(guān)生成式參數(shù)模型的語音的隱藏動態(tài)模型;并且近似后驗概率,該后驗概率在不需要固定語音單元邊界的條件下在輸入值的序列的基礎(chǔ)上提供隱藏相關(guān)生成式參數(shù)的序列和語音單元的序列的似然性。
16.如權(quán)利要求15所述的計算機(jī)可讀介質(zhì),其特征在于,所述近似后驗概率包括在給定該幀的語音單元和輸入值序列時,為輸入值幀確定描述隱藏相關(guān)生成式參數(shù)的似然性的模型參數(shù)。
17.如權(quán)利要求16所述的計算機(jī)可讀介質(zhì),其特征在于,所述近似后驗概率進(jìn)一步包括確定語音單元概率,該語音單元概率在給定輸入值序列時描述了一幀的語音單元的似然性。
18.如權(quán)利要求17所述的計算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括利用語音單元概率為一幀選擇語音單元。
19.如權(quán)利要求18所述的計算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括為輸入值的每一幀的多個語音單元的每一個確定語音單元概率。
20.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,所述利用語音單元概率選擇語音單元包括在每一幀選擇具有最高語音單元概率的語音單元。
21.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括將持續(xù)時間約束應(yīng)用到語音單元,并且其中利用語音單元概率選擇語音單元包括在持續(xù)時間約束和每幀的多個語音單元概率的基礎(chǔ)上選擇最好的語音單元序列。
22.如權(quán)利要求16所述的計算機(jī)可讀介質(zhì),其特征在于,所述近似后驗概率進(jìn)一步包括確定語音單元躍遷概率,該語音單元躍遷概率在一幀另一幀的語音單元和輸入值序列時,描述了幀的語音單元的似然性。
23.如權(quán)利要求22所述的計算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括利用語音單元躍遷概率為幀選擇語音單元。
24.如權(quán)利要求16所述的計算機(jī)可讀介質(zhì),其特征在于,所述確定描述隱藏相關(guān)生成式參數(shù)的似然性的模型參數(shù)包括在語音的隱藏動態(tài)模型的模型參數(shù)和描述相關(guān)生成式參數(shù)的似然性的模型參數(shù)的前值的基礎(chǔ)上重復(fù)的調(diào)整模型參數(shù)。
25.如權(quán)利要求24所述的計算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括在描述隱藏相關(guān)生成式參數(shù)的似然性的參數(shù)的基礎(chǔ)上調(diào)整語音的隱藏動態(tài)模型的模型參數(shù)。
26.如權(quán)利要求16所述的計算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括在描述隱藏相關(guān)生成式參數(shù)的似然性的模型參數(shù)的基礎(chǔ)上識別輸入值的每一幀的隱藏相關(guān)生成式參數(shù)。
全文摘要
本發(fā)明公開了開發(fā)出的一種方法,其包括1)定義對于連續(xù)有價值的隱藏相關(guān)生成式參數(shù)和觀測語音音質(zhì)的轉(zhuǎn)換狀態(tài)空間模型,以及2)根據(jù)觀測的輸入值序列,近似提供隱藏相關(guān)生成式參數(shù)的序列和語音單元序列的似然性的后驗概率。在近似后驗概率中,語音單元的邊界是不固定的,但是是可以被最優(yōu)確定的。在一個實施例中,使用了高斯近似混合。在另一個實施例中,使用了HMM后驗概率。
文檔編號G10L15/06GK1534597SQ20041003269
公開日2004年10月6日 申請日期2004年3月31日 優(yōu)先權(quán)日2003年4月1日
發(fā)明者H·埃笛亞斯, L·J·李, 鄧立, H 埃笛亞斯, 李 申請人:微軟公司