專利名稱:發(fā)音網(wǎng)絡的制作方法
背景技術:
文本到音素分析程序可產生書寫字的發(fā)音串。這種文本到音素分析程序可用語音詞典來產生文本的語音表達。語音詞典可包括帶語音表達和/或字的表達的語言(如英語、法語、西班牙語、日語等)的詞匯。音素串也是字的發(fā)音。因此,可為語音詞典的字裝備一或多個發(fā)音串(音素串)。
自動的字母到音素分析程序可以是語音詞典的替換物。自動的字母到音素分析程序適合于分析書寫字。但是,該自動的字母到音素分析程序在被分析的字中會產生誤差。字母到音素分析程序可提出書寫字的幾種不同的發(fā)音,以減少書寫字的語音表達產生中的錯誤。但是眾多的發(fā)音串要耗用存儲器。
因此,需要有更好的方法提供字的語音表達,以減少上述的缺點。
有關本發(fā)明的主題內容已在本說明書的結論部分中特別地指出并明確地要求。然而通過結合附圖參閱下述的詳細說明后將能最好地了解本發(fā)明的組織和操作方法,以及目的、特征和其優(yōu)點,附圖中圖1為根據(jù)本發(fā)明的例示性實施例的發(fā)音網(wǎng)絡的示意圖;圖2為根據(jù)本發(fā)明的例示性實施例生成發(fā)音網(wǎng)絡節(jié)點表的方法的流程圖;圖3為根據(jù)本發(fā)明的例示性實施例字“right”的發(fā)音網(wǎng)絡的示意圖;圖4為根據(jù)本發(fā)明的例示性實施例的裝置的示意圖;和圖5為根據(jù)本發(fā)明的例示性實施例的語言識別裝置的示意圖。
為圖示的簡單明了,圖中畫出的單元不一定按比例。例如,為清晰起見,一些單元相對于另一些單元被放大。而且,為表示對應的或類似單元,標注數(shù)字在圖中可被重復。
具體實施例方式
在下面的詳細說明中,提出許多具體細節(jié)以供對本發(fā)明的完全了解。但將為止內的技術人員所理解,沒有這些具體細節(jié),本發(fā)明也可實施。在另一些情況中,一些熟知的方法、程序、組件和電路未加細述,以免妨礙本發(fā)明。
下面的某些部分的細述,通過對計算機存儲器中數(shù)據(jù)位或二進位數(shù)字信號操作的算法和符號表示來呈現(xiàn)。這些算法說明和表示可以是數(shù)據(jù)處理和語言處理方面的人員向其他技術人員傳送內容的技術。
應該理解本發(fā)明可用于多種應用中。雖然本發(fā)明并不限于這方面,但這里所揭示的方法和技術可用于許多裝置如語言識別系統(tǒng),手提設備例如終端、無線電終端、計算機系統(tǒng)、蜂窩式電話機、個人數(shù)字助理(PDA),等等。包括語言識別并打算包括在本發(fā)明范圍內的應用和系統(tǒng)包括(僅作為例子)語音撥號、瀏覽因特網(wǎng)、口授電子郵件消息、等等。
參看圖1,示出本發(fā)明的例示實施形態(tài)的書寫字“McDonald”的例示發(fā)音網(wǎng)絡100的示意圖。雖然本發(fā)明不限于這方面,但發(fā)音網(wǎng)絡100可包括節(jié)點120和箭頭130。雖然本發(fā)明的范圍不限于這方面,但節(jié)點120可包括音素122和標識符124。因此,箭頭130可表明從一個節(jié)點到另一節(jié)點的連接,在生成發(fā)音路徑上有所幫助。例如,如果愿意,字“McDonald”的至少一條發(fā)音路徑可包括音素“M,AH,K,D,OW,N,AH,L,D”。但可產生字“McDonald”的其他發(fā)音路徑。
雖然本發(fā)明的范圍不限于這方面,但書寫字“McDonald”的發(fā)音網(wǎng)絡100(至少部分)可包括節(jié)點表,它包括音素“M,AH,K,D,AH,AA,OW,N,AH,AE,L,D”的節(jié)點。而且,本例中字母“Mc”可用音素“M”,“AH”和“K”表示,字母“O”可用音素“AH”,“AA”,“OW”中的至少一個來表示,字母“A”可用音素“AH”,或“AE”中的至少一個表示。節(jié)點120可包括標識符124。標識符124可以是節(jié)點120的標號。例如,包括音素“M”的節(jié)點120可以有標號“13”作為標識符124。附加地和/或替代地,如愿意,標識符124可以是標簽如“P13”和/或其他表達。因此,本發(fā)明的實施形態(tài)中,節(jié)點120可用其標識符標注,盡管本發(fā)明的范圍決不限于這方面。
參看圖2,示出本發(fā)明例示實施形態(tài)的生成發(fā)音網(wǎng)絡的節(jié)點表的方法。雖然本發(fā)明的范圍不限于這方面,但該方法以接收書寫字的發(fā)音串開始(方框200)。例如,字“RIGHT”發(fā)音串可包括音素節(jié)點串“R,AY,T”,和音素節(jié)點串“R,IH,G,T”和/或需要時,字“right”的其他音素節(jié)點串。在本發(fā)明的某些實施形態(tài)中,需要時至少語音詞典、字母到音素(G2P)分析程序、語言到發(fā)音串模塊的轉換等中的一種可接收字“right”的發(fā)音串。
雖然本發(fā)明的范圍不限于這方面,但音素節(jié)點串“R,AY,T”和“R,IH,G,T”可組成成包括兩串的全部音素的單個音素節(jié)點串“R,IH,G,AY,T”,并包括在發(fā)音網(wǎng)絡中(方框210)。例如,下述的將兩或多個發(fā)音串的音素節(jié)點串組合成為音網(wǎng)絡的示例算法,包括至少兩階段。示例算法的第一階段可包括對至少在某些所需的字如“right”的某些發(fā)音串中的發(fā)音串的最短音素節(jié)點串的搜索。業(yè)內的技術人員應理解,最短音素節(jié)點串可包括至少其他發(fā)音串的一個音素節(jié)點。示例算法的第二階段可根據(jù)第一階段算法中建立的節(jié)點構建發(fā)音網(wǎng)絡。
回到算法的第一階段,包括兩個發(fā)音串的節(jié)點串“R,AY,T”和“R,IH,G,T”的最短音素節(jié)點串是“R,IH,G,AY,T”。
尋求最短的共同發(fā)音節(jié)點串可用確定量化包括在候選的節(jié)點串中的部分發(fā)音串的得分來開始。例如建議的最短音素節(jié)點串“R,IH,AY,T”包括3音素串“R,AY,T”,因此相對于這一音素節(jié)點串的得分是3。而且,音素節(jié)點串“R,IH,AY,T”只包括“R,IH,G,T”的開頭兩個的音素。由于音素“G”缺失,故根據(jù)上述缺失的音素G相對于這一音素節(jié)串的得分是2。本例中,總分值是3+2=5,而目標分值為兩者發(fā)音串的音素節(jié)點串的長度的和即7。
下述的例示算法可生成其分值等于接收到的書寫字的發(fā)音串的長度總和的最短音素節(jié)點串。
例示的算法如下1.接收多個長度為1的N音素節(jié)點串;2.在各節(jié)點串的末尾加所有M個可能音素,以接收新組M*N音素節(jié)點串;3.求出N*M音素節(jié)點串的1到N的得分;4.如最新的串達到目標分值,就停止;5.使N節(jié)點串有最高分值;6.返回到2。
以上述提出的算法中,N是節(jié)點串數(shù),M是可能的音素數(shù)。
雖然本發(fā)明的范圍不限于這方面,但在各語音系統(tǒng)中可能的音素數(shù)M是不同的,例如在英語中存在幾種可能的語音組,其對應的M在40與50之間。在其他語言中,可能的語音數(shù)可以不同。
雖然本發(fā)明的不限于這方面,但對圖3的發(fā)音網(wǎng)絡300可提供組合的音素節(jié)點串,它包括字“RIGHT”的兩個發(fā)音路徑。例如,第一發(fā)音路徑可包括發(fā)音串“R,AY,T”,第二發(fā)音路徑可包括發(fā)音串“R,IH,G,T”。而且示明發(fā)音網(wǎng)絡路徑,(由箭頭)表明音素節(jié)點串中音素的搜索次序,盡管本發(fā)明的范圍不限于這方面。
上述算法的第二階段,示出根據(jù)第一階段生成的音素節(jié)點串構建發(fā)音網(wǎng)絡的方法。雖然本發(fā)明不限于這方面,但如需要,可在計算機存儲器中作為節(jié)點表表示發(fā)音網(wǎng)絡300和發(fā)音網(wǎng)絡300的發(fā)音路徑??蓪Πl(fā)音網(wǎng)絡300的節(jié)點320加標識符310以識別發(fā)音網(wǎng)絡的節(jié)點(方框320)。例如標識符310可以是音素節(jié)點串的音素的升序的數(shù),與發(fā)音串“R,IH,G,AY,T”一起示出如下1T2AY3G4IH5R在方框250中,執(zhí)行搜索求出第一發(fā)音路徑和第一發(fā)音路徑的標識符。標識符可以下列方式加到節(jié)點表上1T 22AY 53G4IH5R例如,表示第一發(fā)音路徑“R,AY,T”的標識符2和5已加到節(jié)點表。
而且,繼續(xù)搜索直至字“right”的發(fā)音網(wǎng)絡的所有發(fā)音路徑的標識符被加到節(jié)點表(方框240)。表1示出發(fā)音網(wǎng)絡的節(jié)點表的例子
表1
雖然本發(fā)明不限于這方面,但發(fā)音網(wǎng)絡300的節(jié)點表可存儲到半導體存儲器如閃存中,或任何其他合適的半導體存儲器和/或硬盤存儲媒體或任何其他合適的存儲媒體中。
參看圖4,示出本發(fā)明的例示實施形態(tài)的裝置400的方框圖。雖然本發(fā)明決不限于這方面,但裝置400的實施形態(tài)可裝入字母到語音執(zhí)行程序(G2P)。G2P可用于多種應用和/或設備和/或系統(tǒng)中,例如文本到語音轉換器、語音詞典發(fā)生器等。
雖然本發(fā)明決不限于這方面,但裝置400可包括文本發(fā)生器420,語音詞典430,語音串發(fā)生器440,發(fā)音網(wǎng)絡發(fā)生器450,以及存儲設備如閃存460。
操作中,諸如手機、個人計算機、手寫翻譯器等的鍵盤的文本發(fā)生器420提供表示書寫字的數(shù)字信號。在一個實施形態(tài)中,文本發(fā)生器420提供書寫字到語音詞典420和/或到語音串發(fā)生器440。語音串發(fā)生器440生成書寫字的語音串,其中語音串可稱為書寫字的發(fā)音串。語音串發(fā)生器440提供有關給定字的不同發(fā)音的發(fā)音串。雖然本發(fā)明的范圍不限于這方面,但語音串發(fā)生器440可以是基于HMM的文本到語音執(zhí)行程序,字母到語音執(zhí)行程序,等等。
附加地或替代地,本發(fā)明的一些實施形態(tài)可包括有字的發(fā)音串的語音詞典430。例如該語音詞典可以是CMMU(Carnegie Mellen University)發(fā)音詞典。CMU發(fā)音詞典包括接近127000個帶其對應音素發(fā)音的英文字。CMU發(fā)音詞典還確定英語中39個單個音素。也可用其他詞典。在本發(fā)明的另一實施形態(tài)中,文本發(fā)生器420提供書寫字到語音詞典430和/或音素串發(fā)生器440。語音詞典430和/或語音串發(fā)生器440可對發(fā)音網(wǎng)絡發(fā)生器450提供書寫字的發(fā)音串。
雖然本發(fā)明的范圍不限于這方面,但發(fā)音網(wǎng)絡發(fā)生器450可產生寫字的發(fā)音網(wǎng)絡。在本發(fā)明的一些實施形態(tài)中,發(fā)音網(wǎng)絡發(fā)生器450可產生書寫字的節(jié)點表,并將該表存入閃存460。雖然本發(fā)明的范圍不限于這方面,但本發(fā)明的另一實施形態(tài)中,書寫字的節(jié)點表可配置于數(shù)據(jù)庫中,數(shù)據(jù)庫被存入存儲媒體如只讀存儲器(ROM)、小型盤(CD)、數(shù)字視頻盤(DVD)、軟盤和硬驅動器等。
雖然本發(fā)明的范圍不限于這方面,但在本發(fā)明的一些實施形態(tài)中,可根據(jù)發(fā)音網(wǎng)絡使用基于音素的語言識別法。在識別方面,表示給定字的發(fā)音網(wǎng)絡可轉換成隱式馬爾科夫模型(HMM)。因此,發(fā)音網(wǎng)絡的節(jié)點可轉換成對應的音素的HMM。
參看圖5,示出本發(fā)明的例示實施形態(tài)的語言識別裝置500的示例方框圖。雖然本發(fā)明的范圍不限于這方面,但語音識別裝置500可包括誤音輸入裝置如話筒510、處理器如語音前端處理器520、根據(jù)HMM網(wǎng)絡540、550、560的語音分類器530以及判決單元580。
操作中,從話筒510接收測試的語音并由語音前端處理器520處理。雖然本發(fā)明不限于這方面,但話筒510可以是各種型號話筒中的一種,包括炭粒話筒、動力(磁)話筒、壓電晶體話筒以及光學話筒。在本發(fā)明的實施形態(tài)中,可用各類語音前端處理器520,如減少指令組計算機(RISC),復合指令組計算機(CISC),數(shù)字信號處理器等。
在本發(fā)明的實施形態(tài)中,可用HMM的隨模模型如HMM網(wǎng)絡540、550、560。為選擇最佳區(qū)域測試語音的HMM網(wǎng)絡,語音前端處理器520可將測試的語音分成N幀。然后可由HMM網(wǎng)絡540、550、560計算N幀測試語音的得分。語音分類器530的HMM網(wǎng)絡540、550、560可表示不同的字并可包括這些字的發(fā)音網(wǎng)絡和/或節(jié)點表。由判決單元580執(zhí)行最佳匹配語言的判斷。判決單元580可選擇有最高分值的HMM網(wǎng)絡。例如,可將有最高分值的測試字認為是所要的字。而且可迭代地實行由HMM網(wǎng)絡540、550、560中的一個計算得分。
雖然本發(fā)明的范圍不限于這方面,但HMM網(wǎng)絡540、550、560可對測試語音的節(jié)點裝上如下的實體HMM模型、局部分數(shù)和總分數(shù)。在本發(fā)明的實施形態(tài)中,HMM模型可對應于節(jié)點的音素。局部分數(shù)可對局部HMM模型測量進入的測試語音的語音幀的可能性??偡謹?shù)可對在當前語音上結束的音素的節(jié)點串測量測試字直至幀n的整個發(fā)音串的可能性。
示出測試的語音分值的示例性迭代計算對各幀n從1到n{對參與HMM網(wǎng)絡540、550、560的全部HMM語音模型計算幀分值(local_score(frame(n),phoneme(j).;對各節(jié)點i{global_score(node(i),frame(n))=max(over all nodes j that enter node(i),including I itself)(global_score(node(j),frame(n-1)+local_score(phoneme_ofnode_node(i),frame(n))}}元素local_score(frame(n),phoneme(j)對phoneme(j)(音素j)測量frame(n)(幀(n))的相似性。元素global_score(frame(n),phoneme(j))測量具有屬于該網(wǎng)絡并在節(jié)點j上終止的音素串的全部語言數(shù)據(jù)直至幀n的相似性。
按照上述定義,上述計算的輸出可供在global_score(node(o),frame(N))中所需分值。識別的字可以是所有HMM網(wǎng)絡540、550、560中具有最高分值的一個。
盡管在此說明并描述了本發(fā)明的某些特點,但對業(yè)內的技術人員而言可以出現(xiàn)許多修改、替代、變化和等效物。因此,應理解所附的要求被打算覆蓋所有落入本發(fā)明的真正精神內的這種修改和變化。
權利要求
1.一種方法,包括通過組合兩個或多個從書寫字的發(fā)音串選入音素節(jié)點表的發(fā)音串,生成書寫字的發(fā)音網(wǎng)絡。
2.如權利要求1所述的方法,其特征在于,所述生成包括生成音素節(jié)點表的音素節(jié)點,其中所述音素節(jié)點包括發(fā)音網(wǎng)絡的參考所述音素節(jié)點的第一標識符,書寫字的音素以及先行的音素節(jié)點的第二標識符。
3.如權利要求2所述的方法,其特征在于,所述生成音素節(jié)點表包括以降序編號所述發(fā)音網(wǎng)絡的節(jié)點,并對第一和第二標識符的至少一個提供參照號。
4.如權利要求3所述的方法,其特征在于,進一步包括以升序搜索發(fā)音路徑的發(fā)音網(wǎng)絡;和對音素節(jié)點表的節(jié)點附加第二標識符。
5.如權利要求1所述的方法,其特征在于,所述生成包括根據(jù)從字母到音素分析程序接收的書寫字的發(fā)音串生成發(fā)音網(wǎng)絡。
6.如權利要求1所述的方法,其特征在于,所述生成包括根據(jù)從語音詞典接收的書寫字的發(fā)音串生成發(fā)音網(wǎng)絡。
7.如權利要求1所述的方法,其特征在于,所述生成包括根據(jù)從語音生成的書寫字的發(fā)音串生成發(fā)音網(wǎng)絡。
8.如權利要求1所述的方法,其特征在于,進一步包括根據(jù)發(fā)音網(wǎng)絡識別語音。
9.一種裝置,包括生成書寫字的發(fā)音串的音素串發(fā)生器,和通過組合兩或多個書寫字的發(fā)音串到音素節(jié)點表示來生成發(fā)音網(wǎng)絡的發(fā)音網(wǎng)絡發(fā)生器。
10.如權利要求9所述的裝置,其特征在于,進一步包括存儲發(fā)音網(wǎng)絡的存儲器。
11.如權利要求9所述的裝置,其特征在于,進一步包括對發(fā)音網(wǎng)絡發(fā)生器提供書寫字的發(fā)音串的語音詞典。
12.一種裝置,包括接收測試語音的電動式話筒;語音分類器,包括至少兩個或多個對測試的語音計算得分的發(fā)音網(wǎng)絡,并根據(jù)所述兩個或多個發(fā)音網(wǎng)絡比較所述得分;和根據(jù)所述得分識別所述測試語音的判決單元。
13.如權利要求12所述的裝置,其特征在于,所述兩個或多個發(fā)音網(wǎng)絡的發(fā)音網(wǎng)絡包括字的音素節(jié)點表。
14.如權利要求13所述的裝置,其特征在于,所述音素節(jié)點表的節(jié)點包括對應于該節(jié)點的音素的隨機模型。
15.如權利要求14所述的裝置,其特征在于,所述隨機模型是隱式馬爾可夫模型,所述發(fā)音網(wǎng)絡是隱式馬爾夫模型網(wǎng)絡。
16.如權利要求15所述的裝置,其特征在于,所述隱式馬爾可夫模型網(wǎng)絡通過對音素節(jié)點表的節(jié)點附加下述內容是通過生成節(jié)點表的,這些內容是對應于節(jié)點的音素的隱式馬爾可夫模型;對應于進入隱式馬爾可夫模型的測試語音的語音幀的可能性測量的局部得分數(shù);以及對應于測試語音的發(fā)音串的可能性測量的總得分數(shù)。
17.如權利要求12所述的裝置,其特征在于,所述兩個或多個發(fā)音網(wǎng)絡是不同字的發(fā)音網(wǎng)絡。
18.如權利要求16所述的裝置,其特征在于,所述判決單元根據(jù)隱式馬爾可夫模型網(wǎng)絡提供的總得分識別測試語音。
19.一種物品,包括在其上存儲有指令的存儲媒體,當指令執(zhí)行時,結果是通過組合從書寫字的發(fā)音串選入音素節(jié)點表的兩條或多條發(fā)音串,生成書寫字的發(fā)音網(wǎng)絡。
20.如權利要求19所述的物品,其特征在于,生成的指令當執(zhí)行時,結果是生成音素節(jié)點表的音素節(jié)點,其中音素節(jié)點包括發(fā)音網(wǎng)絡的參考所述音素節(jié)點的第一標識符、書寫字的音素以及先行的音素節(jié)點的第二標識符。
21.如權利要求20所述的物品,其特征在于,所述生成音素節(jié)點表的指令,當執(zhí)行時,結果是以降序編號發(fā)音網(wǎng)絡的節(jié)點,和對節(jié)點的標識符提供參考號。
22.如權利要求21所述的物品,其特征在于,所述指令當執(zhí)行時,結果進一步是以升序搜索發(fā)音路徑的發(fā)音網(wǎng)絡;和對音素節(jié)點表的節(jié)點附加第二標識符。
23.如權利要求19所述的物品,其特征在于,所述指令當執(zhí)行時,結果是根據(jù)從字母到音素分析程序接收的書寫字和發(fā)音串生成發(fā)音網(wǎng)絡。
24.如權利要求19所述的物品,其特征在于,所述指令當接收時,結果是根據(jù)從語音詞典接收的書寫字的發(fā)音串生成發(fā)音網(wǎng)絡。
25.如權利要求19所述的物品,其特征在于,所述指令當執(zhí)行時,結果是根據(jù)從語音生成的書寫字的發(fā)音串生成發(fā)音網(wǎng)絡。
26.如權利要求19所述的物品,其特征在于,所述指令當執(zhí)行時,結果是根據(jù)發(fā)音網(wǎng)絡識別語音。
全文摘要
本發(fā)明提供產生書寫字的發(fā)音網(wǎng)絡的簡單方法和裝置。通過從能產生所述書寫字的發(fā)音網(wǎng)絡的音素串發(fā)生器中至少接收一個書寫字的發(fā)音串,可以實現(xiàn)發(fā)音網(wǎng)絡的生成。發(fā)音網(wǎng)絡可包括根據(jù)書寫字的不同發(fā)音串組合的音素的節(jié)點表,還提供根據(jù)發(fā)音網(wǎng)絡的語音識別裝置。
文檔編號G10L15/14GK1732511SQ200380107684
公開日2006年2月8日 申請日期2003年12月24日 優(yōu)先權日2002年12月30日
發(fā)明者M·格林尼爾斯蒂 申請人:英特爾公司