專利名稱:使用合成輸入測(cè)試和調(diào)整語音識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識(shí)別,尤其涉及語音識(shí)別器的測(cè)試和調(diào)整。
背景技術(shù):
首先,將描述用于語音識(shí)別系統(tǒng)中的處理的基本描述。在語音識(shí)別系統(tǒng)中,輸入語音信號(hào)被轉(zhuǎn)換成表示該語音信號(hào)的口頭內(nèi)容的單詞。該轉(zhuǎn)換通過將模擬語音信號(hào)轉(zhuǎn)換成一系列數(shù)字值開始。數(shù)字值然后通過一特征提取單元,該特征提取單元基于數(shù)字值計(jì)算特征矢量序列。每一特征矢量通常是多維的,并表示單個(gè)語音信號(hào)幀。
為標(biāo)識(shí)最可能的單詞序列,將特征矢量應(yīng)用于已使用訓(xùn)練文本來訓(xùn)練的一個(gè)或多個(gè)模型。通常,這涉及向基于幀的聲學(xué)模型應(yīng)用特征矢量,在該模型中,單個(gè)幀狀態(tài)與單個(gè)特征矢量相關(guān)聯(lián)。然而,近來引入了將多個(gè)特征矢量與單個(gè)分段狀態(tài)相關(guān)聯(lián)的分段模型。該分段模型被認(rèn)為是提供了一種人類語音大規(guī)模轉(zhuǎn)換的更準(zhǔn)確模型。
所有的模型,包括基于幀的和基于分段的模型,都確定了聲學(xué)單元的概率。在初始語音識(shí)別系統(tǒng)中,聲學(xué)單元是整個(gè)單詞。然而,這類系統(tǒng)需要大量的建模數(shù)據(jù),因?yàn)檎Z言中的每一單詞需要被單獨(dú)地建模。例如,如果語言包含10,000個(gè)單詞,則識(shí)別系統(tǒng)需要多達(dá)10,000個(gè)模型。
為減少所需要的模型的數(shù)量,現(xiàn)有技術(shù)開始使用較小的聲學(xué)單元。這類較小的單元的示例包括表示單詞中的個(gè)別聲音的音位(phoneme),以及表示音位內(nèi)的個(gè)別狀態(tài)的聚類結(jié)果(senone)。其它識(shí)別系統(tǒng)使用雙音素(diphone),它表示跨越從一個(gè)音位的中心到一個(gè)相鄰音位的中心的聲學(xué)單元。更新近的識(shí)別系統(tǒng)使用了三音素(triphone),它表示跨越三個(gè)音位(諸如從一個(gè)音位的中心通過主音位到下一音位的中心)的聲學(xué)單元。
在確定特征矢量序列的概率時(shí),現(xiàn)有技術(shù)的語音識(shí)別系統(tǒng)不混合不同類型的聲學(xué)單元。由此,當(dāng)使用音位聲學(xué)模型確定概率時(shí),所考慮的所有的聲學(xué)單元都是音位。現(xiàn)有技術(shù)不將音位用于語音信號(hào)的某些分段,并且不將聚類結(jié)果用于語音信號(hào)的其它部分。由于這一原因,開發(fā)者必須在使用對(duì)于分段模型起良好作用的較大的單元或使用易于訓(xùn)練且需要較少數(shù)據(jù)的較小單元之間進(jìn)行決定。
在語音識(shí)別期間,個(gè)別聲學(xué)單元的概率通常使用一組高斯分布來確定。至少對(duì)聲學(xué)單元所跨越的每一特征矢量提供單個(gè)高斯分布。
高斯分布從訓(xùn)練數(shù)據(jù)形成,并指示具有用于特定聲學(xué)單元的特定值的特征矢量的概率。該分布從訓(xùn)練數(shù)據(jù)形成,訓(xùn)練數(shù)據(jù)由不同地方、不同說話者的環(huán)境中找到以及具有不同聲學(xué)條件的不同聲學(xué)單元的上千次重復(fù)來示出。最終的分布可被描述為特定建模單元的所有出現(xiàn)的所有矢量的直方圖的近似。例如,對(duì)于訓(xùn)練文本中音位“th”的每一次出現(xiàn),所得的特征矢量值被測(cè)量并用于生成高斯分布。
由于不同的說話者產(chǎn)生不同的語音信號(hào),因此聲學(xué)單元的單個(gè)高斯分布有時(shí)候可產(chǎn)生識(shí)別中的高出錯(cuò)率,這僅僅是因?yàn)樗^察到的特征矢量是由與用于訓(xùn)練該系統(tǒng)的說話者不同的說話者產(chǎn)生的。為克服這一問題,現(xiàn)有技術(shù)引入了每一聲學(xué)單元的高斯分布的混合。在每一混合中,為一組說話者生成一個(gè)單獨(dú)的高斯分布。例如,對(duì)于男性說話者可以有一個(gè)高斯型,而對(duì)于女性說話者可以有一個(gè)高斯分布。
使用高斯分布的混合,每一聲學(xué)單元具有位于每一高斯分布的均值上的多個(gè)目標(biāo)。由此,作為示例,對(duì)于特定的聲學(xué)單元,一個(gè)目標(biāo)可以來自男性訓(xùn)練語音,而另一目標(biāo)可以來自女性訓(xùn)練語音。
然而,即使語音識(shí)別器在發(fā)展,當(dāng)提供某些類型的單詞時(shí),識(shí)別器的準(zhǔn)確度仍有許多問題。當(dāng)矢量的準(zhǔn)確度提高時(shí),由于所包裝的矢量的包裝和解釋,仍會(huì)出現(xiàn)錯(cuò)誤。這些問題可包括由于聲學(xué)模型和說出的話語之間、語言模型和期望的文本之間的失配而引起的錯(cuò)誤、兩者的組合或諸如發(fā)音或語音識(shí)別器引擎中的錯(cuò)誤等其它問題。在與語言模型有關(guān)的問題中,一個(gè)尤其困難的問題是同音異義字的問題。
同音異義字是聽上去相同,但具有不同的拼寫和意義的單詞。例如,常見的同音異義字包括read/reed、read/red、their/there、here/hear、cue/queue、whether/weather以及fore/for/four。由于這些單詞在發(fā)音時(shí)完全相同,因此識(shí)別器必須選擇這些單詞之一來匹配所說的話語。在大多數(shù)情況下,識(shí)別器選擇被指示為較佳單詞的單詞。較佳可以例如依照哪一單詞是最常用的單詞版本,或者使用語言模型信息哪一單詞在語言上看似是適當(dāng)?shù)膩硗瓿伞?br>
在語音識(shí)別系統(tǒng)無法在與數(shù)據(jù)輸入無關(guān)的任何上下文中識(shí)別個(gè)別單詞的情況下,會(huì)引發(fā)語言模型相關(guān)錯(cuò)誤。在這一情況下,預(yù)期的單詞出現(xiàn)在備選列表中,但是它不是第一選擇。只要減少語言模型的權(quán)重,就可識(shí)別這些單詞。語言模型引入的錯(cuò)誤是語音識(shí)別系統(tǒng)能夠在單詞單獨(dú)存在時(shí)識(shí)別個(gè)別單詞,但在這些單詞在測(cè)試中存在的上下文中不能識(shí)別個(gè)別單詞的情況。例如,如果語言模型可單獨(dú)識(shí)別“tohose”,但是無法識(shí)別“want to hose”(例如,系統(tǒng)可將輸入識(shí)別為“want to host”),這就是語言模型錯(cuò)誤。在這一錯(cuò)誤的第二個(gè)示例中,語言模型將正確地識(shí)別“July25th”,但無法識(shí)別“July 25th.”。
其它錯(cuò)誤可歸因于聲學(xué)模型失配、說話者和其它來源。通常,這些錯(cuò)誤是由于話語的說話者產(chǎn)生和模型之間由于不同的發(fā)音、重音、噪聲環(huán)境等而引起的失配,并且不是由系統(tǒng)的內(nèi)部錯(cuò)誤導(dǎo)致的。然而,由于語音識(shí)別系統(tǒng)的特性,這些類型的錯(cuò)誤可以看似為類似于以上錯(cuò)誤。因此,開發(fā)者必須識(shí)別這些其它錯(cuò)誤類型,而無需考慮源于聲學(xué)失配的錯(cuò)誤的可能性,例如,本發(fā)明解決了這些問題中的至少一些。
發(fā)明內(nèi)容
本發(fā)明的一個(gè)實(shí)施例針對(duì)一種用于基于文本文檔測(cè)試和調(diào)整語音識(shí)別器的系統(tǒng)和方法。本發(fā)明充分利用了較大的現(xiàn)有文本文檔語料庫,而不是使用昂貴的聲音文件來測(cè)試語音識(shí)別器。充分利用文本文檔的好處可包括基于結(jié)果、當(dāng)初始結(jié)果為錯(cuò)時(shí)的備選結(jié)果等的語音識(shí)別器系統(tǒng)格式在功能上測(cè)試系統(tǒng)的特征、測(cè)試系統(tǒng)而不需要語言的任何說話者、以及預(yù)測(cè)系統(tǒng)在實(shí)際情況中將具有的錯(cuò)誤的部分。
在一個(gè)實(shí)施例中,由系統(tǒng)在發(fā)音工具處接收文本文檔。該發(fā)音工具確定了文本文檔中的每一單詞的發(fā)音。為實(shí)現(xiàn)這一目的,該工具可查看單詞和相關(guān)聯(lián)的發(fā)音的數(shù)據(jù)庫,或文本-語音合成器。這些發(fā)音然后被轉(zhuǎn)換成音位序列。音位序列可從單詞的發(fā)音中確定,或可儲(chǔ)存在單詞的數(shù)據(jù)庫條目中。
接下來,音位序列由模型單元生成器轉(zhuǎn)換成模型。該模型單元生成器可從模型數(shù)據(jù)庫獲取模型。對(duì)于每一音位,標(biāo)識(shí)表示該音位的至少一個(gè)模型。這些模型基于一“單素(phone)”模型。換言之,模型單元生成器使用雙音素、三音素、四音素等。由此,取決于如何結(jié)構(gòu)化音位序列,模型單元生成器可任選地需要將音位序列轉(zhuǎn)換成音素。在一個(gè)實(shí)施例中,模型單元生成器獲取每一音位的隱馬爾可夫模型(HMM),并使用三音素來表示音位。使用三音素導(dǎo)致具有三個(gè)馬爾可夫狀態(tài)的隱馬爾可夫模型。模型單元生成器也獲取每一馬爾可夫狀態(tài)的概率分布。HMM和概率被傳遞到理想矢量生成器。在一個(gè)實(shí)施例中,每一三音素由三個(gè)聚類結(jié)果來表示。聚類結(jié)果是隱馬爾可夫模型的一個(gè)狀態(tài)。每聚類結(jié)果是概率分布函數(shù)的描述,它被描述為多維高斯分布的線性組合。
理想矢量生成器對(duì)音位序列中的每一音位,將矢量序列包裝在一起。理想矢量生成器訪問特征矢量的數(shù)據(jù)庫,并確定匹配或最接近匹配分布曲線上具有最高概率的點(diǎn)的特征矢量。由于這些特征矢量說明性地基于最可能的狀態(tài),因此它們被稱為理想矢量。理想矢量生成器可說明性地使用語音識(shí)別器的聲學(xué)模型,用于特征矢量數(shù)據(jù)庫。通過使用特征矢量的聲學(xué)模型,本發(fā)明向語音識(shí)別器提供了它對(duì)表示單詞的每一音位所期望的特征矢量。這避免了聲學(xué)失配。
所包裝的理想矢量然后被提供給語音識(shí)別器。它們?cè)谔卣魈崛∧K之后,但在特征矢量上的任何進(jìn)一步處理之前被提供給語音識(shí)別器。這本質(zhì)上向語音識(shí)別器表示為好像矢量是內(nèi)部地確定的。理想矢量隨后依照語音識(shí)別器的正常規(guī)則來處理,然后作為文本輸出。開發(fā)者然后可基于識(shí)別結(jié)果測(cè)試和調(diào)整語音識(shí)別器。通過提供從語音識(shí)別器的聲學(xué)觀點(diǎn)來看是完美的輸入,開發(fā)者將知道測(cè)試中由語言模型中的失配或弱點(diǎn),或系統(tǒng)中的內(nèi)部錯(cuò)誤引起的每一錯(cuò)誤。這些錯(cuò)誤與由于在使用真實(shí)的音頻文件用于測(cè)試時(shí)遇到的聲學(xué)失配而引起的預(yù)期錯(cuò)誤有區(qū)別。
圖1是其中可使用本發(fā)明的一個(gè)示例性環(huán)境的框圖。
圖2是依照本發(fā)明的一個(gè)實(shí)施例示出語音識(shí)別測(cè)試系統(tǒng)的組件的框圖。
圖3是示出可用于本發(fā)明的文本-語音引擎的組件的框圖。
圖4是示出其中可使用本發(fā)明的一個(gè)說明性語音識(shí)別系統(tǒng)的框圖。
圖5是示出由依照本發(fā)明的一個(gè)實(shí)施例的測(cè)試系統(tǒng)執(zhí)行的步驟的流程圖。
具體實(shí)施例方式
本發(fā)明涉及基于單獨(dú)生成的特征矢量測(cè)試或調(diào)整語音識(shí)別器。在更詳細(xì)描述本發(fā)明之前,將描述其中可使用本發(fā)明的一個(gè)示例性環(huán)境。
圖1示出了適合在其中實(shí)現(xiàn)本發(fā)明的計(jì)算系統(tǒng)環(huán)境100的一個(gè)示例。計(jì)算系統(tǒng)環(huán)境100僅為合適的計(jì)算環(huán)境的一個(gè)示例,并非對(duì)本發(fā)明的使用范圍或功能提出任何局限。也不應(yīng)將計(jì)算環(huán)境100解釋為對(duì)示例性操作環(huán)境100中示出的任一組件或其組合具有任何依賴或需求。
本發(fā)明可以使用眾多其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置來操作。適合使用本發(fā)明的眾所周知的計(jì)算系統(tǒng)、環(huán)境和/或配置包括但不限于個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式或膝上設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)者電子設(shè)備、網(wǎng)絡(luò)PC、小型機(jī)、大型機(jī)、包括任一上述系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。
本發(fā)明可以在諸如由計(jì)算機(jī)執(zhí)行的程序模塊等計(jì)算機(jī)可執(zhí)行指令的一般上下文環(huán)境中描述。一般而言,程序模塊包括例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等,它們執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。本發(fā)明也可以在分布式計(jì)算環(huán)境中實(shí)踐,其中,任務(wù)由通過通信網(wǎng)絡(luò)連接的遠(yuǎn)程處理設(shè)備來執(zhí)行。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)器存儲(chǔ)設(shè)備的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
參考圖1,用于實(shí)現(xiàn)本發(fā)明的示例系統(tǒng)包括以計(jì)算機(jī)110形式的通用計(jì)算裝置。計(jì)算機(jī)110的組件可包括,但不限于,處理單元120、系統(tǒng)存儲(chǔ)器130以及將包括系統(tǒng)存儲(chǔ)器的各類系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干種總線結(jié)構(gòu)類型的任一種,包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線以及使用各類總線體系結(jié)構(gòu)的局部總線。作為示例而非局限,這類體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強(qiáng)ISA(EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線以及外圍部件互連(PCI)總線,也稱為Mezzanine總線。
計(jì)算機(jī)110通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是可由計(jì)算機(jī)110訪問的任一可用介質(zhì),包括易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。作為示例而非局限,計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以用于儲(chǔ)存諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的任一方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性,可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于,RAM、ROM、EEPROM、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲(chǔ)、磁盒、磁帶、磁盤存儲(chǔ)或其它磁存儲(chǔ)設(shè)備、或可以用來儲(chǔ)存所期望的信息并可由計(jì)算機(jī)110訪問的任一其它介質(zhì)。通信介質(zhì)通常具體化為諸如載波或其它傳輸機(jī)制的已調(diào)制數(shù)據(jù)信號(hào)中的計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包括任一信息傳送介質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號(hào)”指以對(duì)信號(hào)中的信息進(jìn)行編碼的方式設(shè)置或改變其一個(gè)或多個(gè)特征的信號(hào)。作為示例而非局限,通信介質(zhì)包括有線介質(zhì),如有線網(wǎng)絡(luò)或直接連線連接,以及無線介質(zhì),如聲學(xué)、RF、紅外和其它無線介質(zhì)。上述任一的組合也應(yīng)當(dāng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。
系統(tǒng)存儲(chǔ)器130包括易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì),如只讀存儲(chǔ)器(ROM)131和隨機(jī)存取存儲(chǔ)器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)包括如在啟動(dòng)時(shí)幫助在計(jì)算機(jī)110內(nèi)的元件之間傳輸信息的基本例程,通常儲(chǔ)存在ROM 131中。RAM 132通常包含處理單元120立即可訪問或者當(dāng)前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非局限,圖1示出了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計(jì)算機(jī)110也可包括其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。僅作示例,圖1示出了對(duì)不可移動(dòng)、非易失性磁介質(zhì)進(jìn)行讀寫的硬盤驅(qū)動(dòng)器141、對(duì)可移動(dòng)、非易失性磁盤152進(jìn)行讀寫的磁盤驅(qū)動(dòng)器151以及對(duì)可移動(dòng)、非易失性光盤156,如CD ROM或其它光介質(zhì)進(jìn)行讀寫的光盤驅(qū)動(dòng)器155??梢栽谑纠圆僮鳝h(huán)境中使用的其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字視頻帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動(dòng)器141通常通過不可移動(dòng)存儲(chǔ)器接口,如接口140連接到系統(tǒng)總線121,磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器155通常通過可移動(dòng)存儲(chǔ)器接口,如接口150連接到系統(tǒng)總線121。
上文討論并在圖1示出的驅(qū)動(dòng)器及其關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算機(jī)110提供了計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲(chǔ)。例如,在圖1中,示出硬盤驅(qū)動(dòng)器141儲(chǔ)存操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同,也可以與它們不同。這里對(duì)操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147給予不同的標(biāo)號(hào)來說明至少它們是不同的副本。
用戶可以通過輸入設(shè)備,如鍵盤162、話筒163和定位設(shè)備161(諸如鼠標(biāo)、跟蹤球或觸摸墊)向計(jì)算機(jī)110輸入命令和信息。其它輸入設(shè)備(未示出)可包括操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等等。這些和其它輸入設(shè)備通常通過耦合至系統(tǒng)總線的用戶輸入接口160連接至處理單元120,但是也可以通過其它接口和總線結(jié)構(gòu)連接,如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器191或其它類型的顯示設(shè)備也通過接口,如視頻接口190連接至系統(tǒng)總線121。除監(jiān)視器之外,計(jì)算機(jī)也可包括其它外圍輸出設(shè)備,如揚(yáng)聲器197和打印機(jī)196,它們通過輸出外圍接口195連接。
計(jì)算機(jī)110可以使用到一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),如遠(yuǎn)程計(jì)算機(jī)180的邏輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其它普通網(wǎng)絡(luò)節(jié)點(diǎn),并通常包括許多或所有相對(duì)于計(jì)算機(jī)110所描述的元件。圖1描述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也可包括其它網(wǎng)絡(luò)。這類網(wǎng)絡(luò)環(huán)境常見于辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)以及因特網(wǎng)。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110通過網(wǎng)絡(luò)接口或適配器170連接至LAN 171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110通常包括調(diào)制解調(diào)器172或用于通過WAN 173,如因特網(wǎng)建立通信的其它裝置。調(diào)制解調(diào)器173可以是內(nèi)置或外置的,它通過用戶輸入接口160或其它適當(dāng)?shù)臋C(jī)制連接至系統(tǒng)總線121。在網(wǎng)絡(luò)化環(huán)境中,相對(duì)于計(jì)算機(jī)110所描述的程序模塊或其部分可儲(chǔ)存在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中??梢岳斫猓境龅木W(wǎng)絡(luò)連接是示例性的,也可以使用在計(jì)算機(jī)之間建立通信鏈路的其它裝置。
圖2是依照本發(fā)明的一個(gè)實(shí)施例示出語音識(shí)別測(cè)試和調(diào)整系統(tǒng)200的組件的框圖。測(cè)試組件200包括發(fā)音工具210、模型單元生成器220以及理想矢量生成器230、以及與語音識(shí)別器240的接口。這些組件的每一個(gè)的細(xì)節(jié)在下文提供。
文本210被提供給測(cè)試組件200。該文本210可采用許多形式,取決于系統(tǒng)中開發(fā)者正在測(cè)試或調(diào)整的部分。在一個(gè)實(shí)施例中,開發(fā)者手工輸入文本201。然而,在另一實(shí)施例中,多個(gè)文本條目被饋入組件200。在這一說明性實(shí)施例中,文本作為包括多個(gè)單詞的文件被傳遞給組件,開發(fā)者已確定這些單詞可能會(huì)引起普通的語音識(shí)別系統(tǒng)的錯(cuò)誤。文本可以采用任何語言,但是較佳地,文本是識(shí)別器用于操作的語言。
發(fā)音工具201是測(cè)試系統(tǒng)200的一個(gè)組件,它被配置成標(biāo)識(shí)給定文本210的一個(gè)發(fā)音或多個(gè)發(fā)音。當(dāng)在發(fā)音工具210處接收文本210時(shí),文本中每一單詞的發(fā)音說明性地從發(fā)音數(shù)據(jù)庫214或文本-語音合成器216獲得。然而,在獲取發(fā)音之前,發(fā)音工具210標(biāo)識(shí)文本中的單詞,并且還將任何發(fā)音轉(zhuǎn)換成單詞格式。由發(fā)音數(shù)據(jù)庫214或文本-語音合成器216返回的結(jié)果是表示文本中一個(gè)或多個(gè)單詞的發(fā)音的音位序列。這些音位然后被輸出到模型單元生成器220。
在一個(gè)實(shí)施例中,數(shù)據(jù)庫214與由語音識(shí)別組件240用于標(biāo)識(shí)與來自用戶的給定語音輸入相關(guān)聯(lián)的單詞的數(shù)據(jù)庫相同。然而,可使用其它數(shù)據(jù)庫。數(shù)據(jù)庫214說明性地包括語音識(shí)別系統(tǒng)能夠識(shí)別的每一單詞的條目。對(duì)于系統(tǒng)能夠識(shí)別的每一單詞,數(shù)據(jù)庫214也包含表示單詞的發(fā)音的至少一個(gè)音位序列。該音位序列被返回給發(fā)音工具210。
圖3示出了一個(gè)示例性文本-語音合成器216。然而,可使用其它文本-語音合成器或字母-聲音組件。一般而言,生成器216包括文本分析器320和單元串接模塊330。要轉(zhuǎn)換成合成語音的文本作為輸入310被提供給文本分析器320。文本分析器320執(zhí)行文本歸一化,這可包括將縮寫擴(kuò)展到其正式形式,以及將數(shù)字、貨幣量、標(biāo)點(diǎn)符號(hào)以及其它非字母字符擴(kuò)展到其完整的單詞等效物。文本分析器320然后用已知的技術(shù)將歸一化的文本輸入轉(zhuǎn)換成諸如音位等子單詞元素的串。音位串然后被提供給單元串接模塊330。如有所需,文本分析器320可使用韻律模板(prosodic template)(未示出)將重音參數(shù)分配給音位串。
單元串接模塊330接收音位串,并構(gòu)造對(duì)應(yīng)的合成語音,該合成語音作為輸出信號(hào)360被提供給數(shù)-模轉(zhuǎn)換器370,后者進(jìn)而向揚(yáng)聲器83提供模擬信號(hào)375。然而,在本申請(qǐng)中,合成語音的輸出信號(hào)被提供給發(fā)音工具210。
基于來自文本分析器320的串輸入,單元串接模塊330在完成了350處儲(chǔ)存的對(duì)應(yīng)決策樹之后,從單元詳細(xì)目錄340中選擇代表性的實(shí)例。單元詳細(xì)目錄340是實(shí)際聲學(xué)數(shù)據(jù)的代表性的、上下文相關(guān)的、基于音位的單元的存儲(chǔ)。在一個(gè)實(shí)施例中,對(duì)上下文相關(guān)的、基于音位的單元使用三音素(具有其一個(gè)直接前導(dǎo)和后續(xù)音位作為上下文的音位)。其它形式的基于音位的單元包括四音素和雙音素或其它n音素。訪問決策樹350以確定哪一基于音位的單元要由單元串接模塊330使用。在一個(gè)實(shí)施例中,基于音位的單元是一個(gè)音位,因此創(chuàng)建了總共有45個(gè)音位的決策樹,并儲(chǔ)存在350處。
音位決策樹350說明性地為二叉樹,它通過用與每一節(jié)點(diǎn)相關(guān)聯(lián)的語言問題分裂根節(jié)點(diǎn)以及每一后續(xù)節(jié)點(diǎn)來增長(zhǎng),每一問題詢問左(前導(dǎo))或右(后續(xù))音位的類別。關(guān)于音位的左或右上下文的語言問題通常由語言學(xué)專家在捕捉上下文影響的語言類別的設(shè)計(jì)中生成。在一個(gè)實(shí)施例中,對(duì)每一唯一的上下文相關(guān)、基于音位的單元?jiǎng)?chuàng)建隱馬爾可夫模型(HMM)。創(chuàng)建單元詳細(xì)目錄340和決策樹的一個(gè)說明性示例在名為“TEXT-TO-SPEECH USING CLUSTEREDCONTEXT-DEPENDENT PHONEME-BASED UNITS(使用聚類的上下文相關(guān)、基于音位的單元的文本-語音)”的美國(guó)專利第6,163,769中提供,該專利通過引用結(jié)合于此,并轉(zhuǎn)讓給本發(fā)明的同一受讓人。然而,可使用其它方法。
如上所述,單元串接模塊330在完成決策樹350之后從單元詳細(xì)目錄340中選擇代表性的實(shí)例。在運(yùn)行時(shí),單元串接模塊330可串接最佳的預(yù)先選擇的基于音位的單元,或可從多個(gè)實(shí)例中選擇將聯(lián)合失真函數(shù)最小化的可用最佳基于音位的單元。在一個(gè)實(shí)施例中,聯(lián)合失真函數(shù)是HMM得分、基于音位的單元串接失真和韻律失配失真的組合。文本-語音合成器216可包含在計(jì)算機(jī)110內(nèi),其中,文本分析器320和單元串接模塊330是硬件或軟件模塊,并且其中,單元詳細(xì)目錄340和決策樹350可使用相對(duì)于計(jì)算機(jī)110所描述的任何存儲(chǔ)設(shè)備來儲(chǔ)存。本領(lǐng)域的技術(shù)人員可以理解,可使用其它形式的文本-語音合成器。除上文所描述的串接合成器216之外,也可使用發(fā)音器官合成器和格式合成器來提供音頻校對(duì)反饋。
模型單元生成器220被配置成對(duì)音位序列中的每一音位生成模型。在一個(gè)實(shí)施例中,模型單元生成器220對(duì)每一音位構(gòu)造三音素。從該三音素,模型單元生成器訪問數(shù)據(jù)庫224以獲得表示所生成的三音素的隱馬爾可夫模型。在一個(gè)實(shí)施例中,數(shù)據(jù)庫224是語音識(shí)別系統(tǒng)的聲學(xué)模型。然而,可使用包含用于音位的HMM或其它模型的其它數(shù)據(jù)庫。(例如,如果音位是使用文本-語音合成器216生成的,則可使用所計(jì)算的HMM。)由于生成的每一三音素可具有與其相關(guān)聯(lián)的多個(gè)HMM,因此檢索該三音素的所有相關(guān)聯(lián)的HMM狀態(tài)。這些HMM狀態(tài)被傳遞到理想矢量生成器230。
理想矢量生成器230檢索由模型單元生成器生成的所有HMM。對(duì)于每一HMM,理想矢量生成器230標(biāo)識(shí)三個(gè)馬爾可夫狀態(tài)或聚類結(jié)果。然而,在其它實(shí)施例中,對(duì)音位可以有更多或更少的馬爾可夫狀態(tài)。然后,理想矢量生成器230對(duì)每一HMM確定每一馬爾可夫狀態(tài)的相對(duì)概率。然后,理想矢量生成器230對(duì)每一狀態(tài)選擇產(chǎn)生最大似然性的點(diǎn)的矢量。然而,如果使用了其它模型,則理想矢量生成器230確定該模型的相對(duì)概率。
在隱馬爾可夫的情況下,理想矢量生成器230對(duì)每一維度選擇每一馬爾可夫狀態(tài)的輸出概率分布中具有最大似然性的點(diǎn)。然而,例如,在概率是基于多變量混合高斯分布來表示的情況下,理想矢量生成器230選擇具有權(quán)重和G常數(shù)(Gconst)的最高組合的混合。一旦標(biāo)識(shí)了最佳混合,理想矢量生成器230找出語音識(shí)別器的聲學(xué)模型或其它數(shù)據(jù)庫234中最接近匹配該馬爾可夫模型的所確定混合的特征矢量或碼字。一旦標(biāo)識(shí)了特征矢量,它們被包裝在一起并被發(fā)送到語音識(shí)別組件240。
圖4示出了語音識(shí)別系統(tǒng)240的一個(gè)示例性實(shí)施例。語音識(shí)別系統(tǒng)240包括話筒92、模-數(shù)(A/D)轉(zhuǎn)換器401、訓(xùn)練模塊415、特征提取模塊410、詞典存儲(chǔ)模塊430、聲學(xué)模型和聚類結(jié)果樹440、樹搜索引擎420以及語言模型450。應(yīng)當(dāng)注意,整個(gè)系統(tǒng)240或語音識(shí)別系統(tǒng)240的一部分,可以在圖1所示的環(huán)境中實(shí)現(xiàn)。例如,話筒92較佳地可以通過適當(dāng)?shù)慕涌?,并通過A/D轉(zhuǎn)換器401,作為計(jì)算機(jī)110的輸入設(shè)備來提供。訓(xùn)練模塊415和特征提取模塊410可以是計(jì)算機(jī)110中的硬件模塊,或儲(chǔ)存在圖1所揭示的任何信息存儲(chǔ)設(shè)備中且可由處理單元120或另一合適的處理器訪問的軟件模塊。另外,詞典存儲(chǔ)模塊430、聲學(xué)模型440以及語言模型450也較佳地儲(chǔ)存在圖1所示的任何存儲(chǔ)器設(shè)備中。此外,樹搜索引擎420在處理單元120(可包括一個(gè)或多個(gè)處理器)中實(shí)現(xiàn),或可以由個(gè)人計(jì)算機(jī)110采用的專用語音識(shí)別處理器來執(zhí)行。
在所示的實(shí)施例中,在語音識(shí)別過程中,語音以用于可聽見的話音信號(hào)的形式,作為對(duì)系統(tǒng)240的輸入提供給話筒92。話筒92將可聽見的話音信號(hào)轉(zhuǎn)換成被提供給A/D轉(zhuǎn)換器401的模擬電子信號(hào)。A/D轉(zhuǎn)換器401將模擬語音信號(hào)轉(zhuǎn)換成被提供給特征提取模塊410的數(shù)字信號(hào)序列。在一個(gè)實(shí)施例中,特征提取模塊410是在數(shù)字信號(hào)上執(zhí)行頻譜分析并對(duì)頻譜的每一頻帶計(jì)算幅度值的陣列處理器。在一個(gè)說明性實(shí)施例中,信號(hào)由A/D轉(zhuǎn)換器401以大約16kHz的采樣率提供給特征提取模塊410。
特征提取模塊410將從A/D轉(zhuǎn)換器401接收到的數(shù)字信號(hào)劃分成包括多個(gè)數(shù)字樣值的幀。每一幀的持續(xù)時(shí)間大約為10毫秒。幀然后由特征提取模塊410編碼成反映多個(gè)頻帶的頻譜特性的特征矢量。在離散和半連續(xù)隱馬爾可夫建模的情況下,特征提取模塊410也使用矢量量化技術(shù)和從訓(xùn)練數(shù)據(jù)中導(dǎo)出的碼本將特征矢量編碼成一個(gè)或多個(gè)碼字。由此,特征提取模塊410在其輸出提供了每一所說的話語的特征矢量(或碼字)。特征提取模塊410以大約每10毫秒一個(gè)特征矢量(或碼字)的速率提供特征矢量(或碼字)。
然后對(duì)照隱馬爾可夫模型使用所分析的特定幀的特征矢量(或碼字)來計(jì)算輸出概率分布。這些概率分布稍后用于執(zhí)行維特比(Viterbi)或相似類型的處理技術(shù)。
由于本發(fā)明被設(shè)計(jì)成測(cè)試和調(diào)整語音識(shí)別器240,因此表示特征矢量的數(shù)字信號(hào)從理想特征生成器230直接提供給語音識(shí)別器240。當(dāng)這些矢量是在別處生成時(shí),上述對(duì)語音信號(hào)的處理的需求是不必要的。然而,作為對(duì)語音識(shí)別器的準(zhǔn)確度的第二核查,可向語音識(shí)別器提供發(fā)音。無論如何,特征矢量都被提供給樹搜索引擎420。
在從特征特區(qū)模塊410或矢量生成器230(取決于如何測(cè)試系統(tǒng))接收碼字之后,樹搜索引擎420訪問儲(chǔ)存在聲學(xué)模型440中的信息。模型440儲(chǔ)存表示要由語音識(shí)別系統(tǒng)240檢測(cè)到語音單元的聲學(xué)模型,如隱馬爾可夫模型。在一個(gè)實(shí)施例中,聲學(xué)模型440包括與隱馬爾可夫模型中的每一馬爾可夫狀態(tài)相關(guān)聯(lián)的聚類結(jié)果樹。在一個(gè)實(shí)施例中,隱馬爾可夫模型表示音位?;诼晫W(xué)模型440中的聚類結(jié)果,樹搜索引擎420確定由從特征提取模塊410接收到的特征矢量(或碼字)表示的最可能的音位,并且因此該音位表示從系統(tǒng)的用戶接收到的話語。
樹搜索引擎420也訪問儲(chǔ)存在模塊430中的詞典。由樹搜索引擎420基于其對(duì)聲學(xué)模型440的訪問而接收到的信息用于搜索詞典存儲(chǔ)模塊430來確定最可能表示從特征提取模塊410接收到的碼字或特征矢量的單詞。搜索引擎420還訪問語言模型450,它說明性地為從北美商業(yè)新聞?wù)Z料庫中導(dǎo)出的具有0,000個(gè)單詞三字母組的語言模型,并且在名為CSR-III Text Language Model(CSR-III文本語言模型),University of Penn.,1994的出版物中詳細(xì)展示;或者可以是任何其它語料庫。語言模型450也用于標(biāo)識(shí)由輸入語音表示的最可能單詞。最可能單詞作為輸出文本而提供。
盡管此處描述了語音識(shí)別系統(tǒng)240使用HMM建模和聚類結(jié)果樹,然而應(yīng)當(dāng)理解,語音識(shí)別系統(tǒng)240可采用許多形式,且所需要的全部是它提供由用戶說出或由測(cè)試系統(tǒng)200提供的文本作為輸出。
圖5是示出由依照本發(fā)明的一個(gè)實(shí)施例的測(cè)試系統(tǒng)200執(zhí)行的步驟的流程圖。首先,開發(fā)者在步驟510向測(cè)試系統(tǒng)200提供文本210。該文本可以是開發(fā)者預(yù)期會(huì)導(dǎo)致語音識(shí)別器的識(shí)別錯(cuò)誤的單詞或一系列單詞。例如,文本可以是輸入“HiBechy.I am sending you this e-mail to give you the latest update from Seattle.Afterfour months of house searching I bought a house last week.The house is grey and hasfour bedrooms,three bathrooms,and a great big deck with a view of the lake.”。該文本具有包括空話的錯(cuò)誤,且能夠被典型的語音識(shí)別器錯(cuò)誤地識(shí)別為諸如“Hideki I′msending you this e-mail to give you the latest update from Seattle.After for months ofhouse searching a bought a house last week.The house is gray and has four bedrooms,three bathrooms,and a great big back with a view of the lake.”該文本首先由發(fā)音工具210接收。發(fā)音工具210首先對(duì)該文本進(jìn)行語法分析以標(biāo)識(shí)文本中的每一單詞,并將存在的任何標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換成標(biāo)點(diǎn)符號(hào)的表示。例如,“,”被轉(zhuǎn)換成單詞“comma(逗號(hào))”。文本的這一語法分析和轉(zhuǎn)換在步驟520示出。
一旦語法分析且轉(zhuǎn)換了文本,發(fā)音工具210然后搜索發(fā)音數(shù)據(jù)庫214以標(biāo)識(shí)與文本中的每一單詞相關(guān)聯(lián)的發(fā)音和音位序列。如果對(duì)所標(biāo)識(shí)的單詞存在多個(gè)發(fā)音,則發(fā)音工具210選擇第一個(gè)。然而,可使用選擇發(fā)音的其它方法。這在步驟525示出。如果找到匹配,則將該單詞的相關(guān)聯(lián)音位序列返回給發(fā)音工具210。然而,如果未找到匹配,則將該單詞傳遞到文本-語音合成器216。文本-語音合成器216對(duì)該單詞生成音位序列,并將該序列傳回發(fā)音工具210。這在步驟526示出。生成單詞的發(fā)音和音位序列的過程已在上文相對(duì)于圖3詳細(xì)描述。文本-語音合成器216的音位生成在步驟527示出。音位在步驟526被返回給發(fā)音工具210。
發(fā)音工具210然后將音位序列傳遞到模型單元生成器220。模型單元生成器220取音位序列中的每一音位,并生成每一音位的三音素表示。然后,模型單元生成器220訪問數(shù)據(jù)庫224或聲學(xué)模型440以獲取每一三音素的隱馬爾可夫模型。這些步驟在步驟530示出。一旦獲取了隱馬爾可夫模型,該模型被傳遞到理想矢量生成器230。
理想矢量生成器230對(duì)用于對(duì)由隱馬爾可夫模型表示的三音素建模的每一聚類結(jié)果生成理想矢量。為生成理想矢量,獲取三音素的每一馬爾可夫狀態(tài)的概率分布。與每一馬爾可夫狀態(tài)相關(guān)聯(lián)的這一概率分布可在步驟540從聲學(xué)模型440中檢索。然而,在其它實(shí)施例中,它們可使用用于確定馬爾可夫模型以及相關(guān)聯(lián)的三音素的概率分布的任何方法來計(jì)算。
在一個(gè)實(shí)施例中,每一隱馬爾可夫模型包含三個(gè)馬爾可夫狀態(tài)(聚類結(jié)果)。一旦確定或獲取了每一馬爾可夫狀態(tài)的概率,選擇概率分布中最大概率的位置作為維度。通過標(biāo)識(shí)最接近匹配最大概率點(diǎn)的特征矢量(或碼字),從訓(xùn)練過程中生成的語音識(shí)別器240的聲學(xué)模型選擇特征矢量。對(duì)每一馬爾可夫狀態(tài)生成特征矢量的這一過程在步驟550示出。該過程生成理想矢量是因?yàn)樗傻氖噶空f明性地基于構(gòu)成三音素的每一馬爾可夫狀態(tài)的分布上的最大點(diǎn)。
一旦對(duì)文本生成了所有理想矢量,它們被包裝在一起并傳遞到語音識(shí)別器240。然而,它們被直接提供給樹搜索引擎274,而不是如在普通的語音識(shí)別中那樣作為聲音模式被輸入到語音識(shí)別器240。通過向樹搜索引擎474提供矢量,本發(fā)明能夠“愚弄”語音識(shí)別器,使其相信這些矢量是從其自己的特征提取模塊接收的,而不是在別處生成的。向語音識(shí)別器提供理想矢量在步驟555示出。
使用所提供的特征矢量,語音識(shí)別器在步驟560輸出識(shí)別結(jié)果。該輸出然后由開發(fā)者分析,以標(biāo)識(shí)語音識(shí)別器的編程中的錯(cuò)誤或問題。系統(tǒng)的其它調(diào)整或測(cè)試可在步驟570完成。
盡管參考特定實(shí)施例描述了本發(fā)明,然而本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,可在不脫離本發(fā)明的精神和范圍的情況下在形式和細(xì)節(jié)上做出改變。
權(quán)利要求
1.一種語音識(shí)別測(cè)試系統(tǒng),包括一語音識(shí)別器,它被配置成基于特征矢量提供輸出文本;一發(fā)音工具,它被配置成提供具有至少一個(gè)單詞的所提供文本的發(fā)音;以及一矢量生成器,它被配置成從所提供的文本發(fā)音生成特征矢量序列。
2.如權(quán)利要求1所述的語音識(shí)別系統(tǒng),其特征在于,還包括一模型單元生成器,它被配置成從所提供的發(fā)音生成模型;以及其中,所述矢量生成器基于所生成的模型生成所述特征矢量序列。
3.如權(quán)利要求2所述的語音識(shí)別系統(tǒng),其特征在于,還包括一發(fā)音數(shù)據(jù)庫,它被配置成向所述發(fā)音工具提供發(fā)音。
4.如權(quán)利要求2所述的語音識(shí)別系統(tǒng),其特征在于,還包括一文本-語音合成器,它被配置向所述發(fā)音工具提供所述文本中的至少一個(gè)單詞的發(fā)音。
5.如權(quán)利要求2所述的語音識(shí)別系統(tǒng),其特征在于,所述發(fā)音工具被配置成為所述發(fā)音生成音位序列;以及其中,所述模型單元生成器對(duì)所述音位序列中的每一音位標(biāo)識(shí)模型。
6.如權(quán)利要求5所述的語音識(shí)別系統(tǒng),其特征在于,所述模型單元生成器在對(duì)所述音位序列中的每一音位生成模型時(shí)訪問一模型數(shù)據(jù)庫。
7.如權(quán)利要求6所述的語音識(shí)別系統(tǒng),其特征在于,所述模型數(shù)據(jù)庫中的模型包括隱馬爾可夫模型。
8.如權(quán)利要求1所述的語音識(shí)別系統(tǒng),其特征在于,所述矢量生成器從一特征矢量數(shù)據(jù)庫中獲取所述特征矢量。
9.如權(quán)利要求8所述的語音識(shí)別系統(tǒng),其特征在于,所述特征矢量數(shù)據(jù)庫包括所述語音識(shí)別器的聲學(xué)模型。
10.如權(quán)利要求9所述的語音識(shí)別系統(tǒng),其特征在于,所述矢量生成器被配置成將具有最接近匹配所述模型的分布概率的特征矢量標(biāo)識(shí)為所述特征矢量。
11.一種測(cè)試語音識(shí)別系統(tǒng)的方法,包括接收包含至少一個(gè)單詞的文本;用一發(fā)音工具生成所述文本的發(fā)音;生成所述發(fā)音的矢量序列;向所述語音識(shí)別系統(tǒng)提供所述矢量序列;響應(yīng)于所提供的矢量序列,從所述語音識(shí)別系統(tǒng)輸出文本。
12.如權(quán)利要求11所述的方法,其特征在于,生成發(fā)音還包括為所述發(fā)音生成音位序列。
13.如權(quán)利要求12所述的方法,其特征在于,生成發(fā)音還包括在一發(fā)音數(shù)據(jù)庫中標(biāo)識(shí)所述文本中的至少一個(gè)單詞;以及檢索所標(biāo)識(shí)的發(fā)音。
14.如權(quán)利要求12所述的方法,其特征在于,生成所述文本的發(fā)音包括向包括至少一組字母-聲音規(guī)則的模塊提供所述文本;在所述模塊上對(duì)所述文本生成音位序列;以及將所述音位序列返回給所述發(fā)音工具。
15.如權(quán)利要求14所述的方法,其特征在于,所述模塊是文本-語音引擎。
16.如權(quán)利要求12所述的方法,其特征在于,對(duì)所述音位序列生成模型還包括對(duì)所述音位序列生成模型單元序列。
17.如權(quán)利要求16所述的方法,其特征在于,對(duì)所述音位序列生成模型單元序列還包括訪問一模型數(shù)據(jù)庫;在所述模型數(shù)據(jù)庫中標(biāo)識(shí)匹配所述音位序列中的一個(gè)音位的模型;以及返回該模型作為所述模型。
18.如權(quán)利要求16所述的方法,其特征在于,還包括對(duì)所述模型單元序列中的每一模型單元獲取至少一個(gè)概率。
19.如權(quán)利要求18所述的方法,其特征在于,所獲取的模型是隱馬爾可夫模型;以及其中,對(duì)所述隱馬爾可夫模型中的每--馬爾可夫狀態(tài)獲取概率。
20.如權(quán)利要求19所述的方法,其特征在于,所述每一馬爾可夫狀態(tài)的概率是所述狀態(tài)的概率分布。
21.如權(quán)利要求18所述的方法,其特征在于,生成矢量包括對(duì)所述模型單元序列中的每一模型單元標(biāo)識(shí)特征矢量;以及對(duì)每一模型單元,選擇匹配具有最接近匹配概率函數(shù)的最大值的模型單元的矢量作為所述特征矢量。
22.如權(quán)利要求21所述的方法,其特征在于,生成矢量還包括確定所述模型單元中具有最高概率的分布點(diǎn);以及選擇具有與所確定的分布點(diǎn)的最接近匹配的特征矢量。
23.如權(quán)利要求21所述的方法,其特征在于,選擇所述特征矢量包括訪問一特征矢量數(shù)據(jù)庫。
24.如權(quán)利要求23所述的方法,其特征在于,所述特征矢量數(shù)據(jù)庫是所述語音識(shí)別系統(tǒng)的聲學(xué)模型。
25.如權(quán)利要求11所述的方法,其特征在于,提供所述特征矢量序列將所述語音識(shí)別系統(tǒng)的矢量直接提供給確定所述語音系統(tǒng)的特征矢量的組件之后的組件。
全文摘要
一種通過向語音識(shí)別器提供發(fā)音來測(cè)試和調(diào)整語音識(shí)別系統(tǒng)的系統(tǒng)和方法。首先,向該系統(tǒng)提供文本文檔,并將其轉(zhuǎn)換成表示文本中的單詞的音位序列。該音位然后被轉(zhuǎn)換成模型單元,諸如隱馬爾可夫模型。從該模型,對(duì)每一模型或狀態(tài)獲取概率,并確定特征矢量。對(duì)每一模型選擇匹配每一狀態(tài)的最可能矢量的特征矢量。這些理想特征矢量被提供給語音識(shí)別器并被處理。將最終結(jié)果與原始文本進(jìn)行比較,并且可基于輸出文本對(duì)系統(tǒng)做出修改。
文檔編號(hào)G10L15/06GK1760972SQ200510108960
公開日2006年4月19日 申請(qǐng)日期2005年9月23日 優(yōu)先權(quán)日2004年10月15日
發(fā)明者R·洛佩斯-巴基利亞 申請(qǐng)人:微軟公司