專利名稱:發(fā)音詞典的構建方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明總體涉及自動語音識別(ASR Automatic Speech Recognition),更具體地,涉及構建用于ASR的發(fā)音詞典。
背景技術:
信息檢索(IR information Retrieval)系統(tǒng)通常包括諸如地理興趣點(POI)或音樂專輯名稱的項目的大列表。響應于由用戶提供的查詢,IR系統(tǒng)檢索與查詢最匹配的結果列表??梢愿鶕?jù)多個因素對結果列表進行等級排序。項目輸入列表、查詢結果列表通常通過文本以單詞的形式表示??谡Z查詢用于用戶無法使用鍵盤作為用戶接口的一部分的環(huán)境中,例如,當駕駛或操作機器時,或者用戶身體上受到傷害。在該情況下,用戶接口包括麥克風,并且自動語音識別器(ASR)用于將語音轉換成單詞。ASR使用兩個基礎數(shù)據(jù)結構單詞的發(fā)音詞典和單詞的語言模型。通常,IR系統(tǒng)按照發(fā)音將單詞表示為音素,例如,RESTAURANT被表示為“R EH S T R AAN T”。音素指的是具體語言中聲音的基本單位。音素可以包括重音符號、音節(jié)邊界和表示如何對單詞進行發(fā)音的其他標音。發(fā)音詞典針對ASR系統(tǒng)詞表中的各單詞來限定用于該單詞的一個或可能多個發(fā)音。要由IR系統(tǒng)檢索的各個項目具有相應的發(fā)音。經(jīng)常,使用單詞數(shù)據(jù)庫,來提供用于這些項目的發(fā)音。但是,在大多數(shù)情況下,發(fā)音詞典是與圖1中所示的類似的未匹配 (unaligned)輸入文件的形式。輸入文件包括一組條目110,其中各條目包括具有相應發(fā)音120的單詞集115。但是,單詞未與相應發(fā)音匹配。常規(guī)方法通過以出現(xiàn)的順序次序將各單詞映射到各發(fā)音來執(zhí)行匹配。對于圖1中所示的示例,該方法將單詞“HERITAGE”映射到發(fā)音“hE | rl | tldZ”,將單詞“ELEMENTARY”映射到發(fā)音“E I IOlmEn |t@ |ri ”,以及將單詞“SCHOOL”映射到發(fā)音“skul. ”。但是,該方法在一些諸如下面的重要情況中是失效的。發(fā)音比單詞多在圖1中的第二行,發(fā)音“bi”和“dZiz”必須映射到第一個單詞 “BG,S”。單詞比發(fā)音多在第三行中,單詞“CARRER”沒有相應的發(fā)音并且應當使其保持不被映射。錯誤條目在第四行中,發(fā)音中的音節(jié)“bAr I bi I kju”已經(jīng)被錯誤地合成為一個單詞,而不是被留作三個單獨的發(fā)音,以映射到單詞“BAR B QUE”。因此,需要提供用于將單詞與發(fā)音匹配的方法,并且需要制作適用于輸入到語音識別器的發(fā)音詞典
發(fā)明內(nèi)容
主題發(fā)明的目的是提供了一種用于將單詞匹配到發(fā)音,以制作發(fā)音詞典的方法。本發(fā)明的另一個目的是提供自動匹配單詞的方法。本發(fā)明的另一個目的是制作適用于輸入到自動語音識別器的最終發(fā)音詞典。本發(fā)明的實施方式基于這樣的認識單詞的拼寫表示與相應的發(fā)音形式明顯不同,這導致了映射錯誤。因此,實施方式不是直接將單詞映射到發(fā)音而是確定各單詞的發(fā)音預測,使得在單詞和發(fā)音預測之間存在一一對應關系,并且接著,將發(fā)音預測映射到發(fā)音。 實施方式利用另一個認識兩個語音形式之間的映射比拼寫形式和語音形式之間的映射更精確。一種實施方式公開了一種通過將未匹配條目變換成匹配條目來構建發(fā)音詞典的方法,其中,所述未匹配條目和所述匹配條目包括單詞集和與所述單詞集相對應的發(fā)音集, 并且其中,所述匹配條目中的各單詞與所述發(fā)音集中的發(fā)音子集匹配,該方法包括以下步驟確定所述單詞集中的各單詞的發(fā)音預測,使得在所述單詞和所述發(fā)音預測之間存在一一對應關系;將各發(fā)音預測映射到所述發(fā)音子集,以產(chǎn)生與所述發(fā)音子集匹配的各發(fā)音預測的預測-發(fā)音映射;以及使用所述單詞和所述發(fā)音預測之間的一一對應關系,基于所述預測-發(fā)音映射來確定所述匹配條目。另一個實施方式公開了一種根據(jù)未匹配條目集來構建發(fā)音詞典的方法,其中,未匹配條目包括單詞集和與所述單詞集相對應的發(fā)音集,該方法包括以下步驟將各未匹配條目迭代地變換成匹配條目,其中,所述匹配條目中的各單詞與所述發(fā)音集中的發(fā)音子集相匹配;將各匹配條目存儲在內(nèi)部詞典中;以及輸出所述內(nèi)部詞典作為所述發(fā)音詞典,其中,所述方法的步驟由處理器來執(zhí)行。另一個實施方式公開了一種通過將未匹配條目變換成匹配條目來構建發(fā)音詞典的系統(tǒng),其中,所述未匹配條目和所述匹配條目包括單詞集和與所述單詞集相對應的發(fā)音集,并且其中,所述匹配條目中的各單詞與所述發(fā)音集的發(fā)音子集匹配,該系統(tǒng)包括發(fā)音預測子模塊,該發(fā)音預測子模塊用于確定所述單詞集中的各單詞的發(fā)音預測,使得在所述單詞和所述發(fā)音預測之間存在一一對應關系;動態(tài)編程子模塊,該動態(tài)編程子模塊用于將各發(fā)音預測映射到所述發(fā)音子集,以產(chǎn)生各發(fā)音預測與所述發(fā)音子集匹配的預測-發(fā)音映射;以及處理器,該處理器被構成為使用所述單詞和所述發(fā)音預測之間的一一對應關系,基于所述預測-發(fā)音映射來確定所述匹配條目。
圖1是包括未匹配條目的常規(guī)輸入文件的框圖;圖2是根據(jù)本發(fā)明的實施方式的用于將未匹配條目變換成匹配條目的方法的流程圖;圖3是與圖1中所示的未匹配條目相對應的匹配條目的表;圖4是根據(jù)本發(fā)明的一個實施方式的用于確定發(fā)音詞典的方法的流程圖;圖5是根據(jù)本發(fā)明的一個實施方式的變換模塊的流程圖;圖6A-6B是未匹配條目的表;圖7A-7B是單詞的發(fā)音預測的表;圖8A-8B是發(fā)音和音節(jié)的表;
圖9A-9B是片語(chunk)和語符列(string)組織的示例的框圖;圖10是根據(jù)本發(fā)明的實施方式的示例性動態(tài)編程產(chǎn)生的匹配路徑的圖;圖11是根據(jù)本發(fā)明的實施方式的A-字母-B-片語映射表;圖12是根據(jù)本發(fā)明的實施方式的分解A-字母-B-片語映射的流程圖;圖13A-13B是單詞和匹配音節(jié)的表;圖14A-14B是未刪節(jié)詞典和已刪節(jié)詞典的示例;以及圖15是根據(jù)本發(fā)明的一個實施方式的用于確定匹配路徑的偽代碼。
具體實施例方式系統(tǒng)概述本發(fā)明的實施方式基于這樣的認識單詞的拼寫表示與相應的發(fā)音形式明顯不同,這導致了將單詞映射到發(fā)音時的錯誤。因此,在實施方式中,不是直接將單詞映射到發(fā)音,而是針對各單詞確定發(fā)音預測,使得在單詞和發(fā)音預測之間存在一一對應關系,并且接著,將發(fā)音預測映射到發(fā)音。實施方式利用了另一個認識兩個語音形式之間的映射比拼寫形式和語音形式之間的映射更精確。圖2示出了根據(jù)本發(fā)明的實施方式的用于將未匹配條目210變換成匹配條目220 的方法。使用現(xiàn)有技術中已知的處理器201通過變換模塊200來執(zhí)行該方法。未匹配條目包括單詞集212和與該單詞集相對應216的發(fā)音集214。但是,未匹配條目中的單詞和發(fā)音不匹配。如文中所限定的,如果該單詞集中的各單詞映射到該發(fā)音集中的發(fā)音子集,則該單詞集被匹配到該發(fā)音集。在多個實施方式中,發(fā)音子集包括零個或更多個發(fā)音。圖3示出了與圖1中所示的未匹配條目的示例相對應的匹配條目220的示例。左手列301中的單詞與來自右手列302的發(fā)音匹配。在本發(fā)明的多個實施方式中,未匹配條目包括相同或不同數(shù)目的單詞和發(fā)音。根據(jù)上述目的,針對該單詞集中的各單詞,確定230發(fā)音預測235,使得在單詞和發(fā)音預測之間存在一一對應關系。將各發(fā)音預測映射240到發(fā)音子集,制作使各發(fā)音預測與發(fā)音子集匹配的預測_發(fā)音映射245?;谝灰粚P系255,根據(jù)發(fā)音預測-發(fā)音映射確定250匹配條目,使得匹配條目中的單詞被匹配225到發(fā)音。匹配條目中的單詞與未匹配條目中的單詞相同。但是,匹配條目中的發(fā)音可以與未匹配條目中的發(fā)音不同。在多個實施方式中,如下面更詳細地所述,發(fā)音被分成更小成分(如,音節(jié)),由此被重新排列。確定發(fā)音詞典圖4示出了根據(jù)本發(fā)明的一個實施方式的用于構建發(fā)音詞典470的方法400。該方法在存儲器(未示出)中存儲的一組未匹配條目410的范圍內(nèi)迭代。各未匹配條目210 由變換模塊200變換成匹配條目220。匹配條目在迭代460過程中被添加430到由該方法維持的內(nèi)部詞典435。當440所有未匹配條目被變換445時,輸出內(nèi)部詞典,作為發(fā)音詞典 470。在一個實施方式中,在輸出之前,刪節(jié)模塊450對內(nèi)部詞典進行刪節(jié),使得去除具有低準確度的單詞發(fā)音映射。圖5示出了變換模塊的示例。在一個實施方式中,變換模塊包括發(fā)音預測子模塊 510、音節(jié)劃分子模塊520、動態(tài)編程(DP)子模塊530和編輯距離(ED)子模塊540。用下面的示例例示出變換模塊的操作。
圖6B示出了未匹配條目的示例。未匹配條目中的單詞是“New York NY Exspresso”,并且相應的發(fā)音是“nujOrk nujOrk肽| sprE | so”。在該示例中,發(fā)音數(shù)目大于單詞數(shù)目。圖6A示出了以符號寫出的如圖6B中的示例,其中,發(fā)音Pi被表示為音節(jié)的聯(lián)結。變量i是發(fā)音在該發(fā)音集中的索引,并且變量j和k是發(fā)音音節(jié)的索引。發(fā)音預測子模塊發(fā)音預測子模塊針對未匹配條目中的各單詞進行發(fā)音預測。在多個實施方式中, 從多個源中的至少一個源導出發(fā)音預測。第一源是內(nèi)部詞典435。發(fā)音預測子模塊確定該單詞的單詞發(fā)音映射是否存在于內(nèi)部詞典中,并且選擇頻率最高的單詞發(fā)音作為該單詞的發(fā)音預測。為此,一個實施方式包括頻率計數(shù)c (w,p),頻率計數(shù)表示單詞發(fā)音映射到目前為止已經(jīng)出現(xiàn)的次數(shù)。如果發(fā)音被選擇為發(fā)音預測,則該單詞發(fā)音映射的頻率計數(shù)增加例如,1。附加地或者另選地,一個實施方式使用字素-音素(G2P)引擎550來確定單詞的發(fā)音預測。當很少出現(xiàn)該單詞時,和/或在變換200開始時,該實施方式是有益的。例如,一個實施方式使用推導G2P引擎550,其是在RWTH Aachen University-Department of Computer Science開發(fā)的數(shù)據(jù)驅動字素-音素轉換器,參見M. Bisani和 H. Ney. "Joint-Sequence Models for Grapheme-to-Phoneme Conversion,,,Speech Communication,第50卷,2008年5月5日發(fā)表,第434-451頁,此處以引證方式并入。附加地或另選地,一個實施方式使用單詞的拼寫形式作為該單詞的發(fā)音預測。圖 7A和7B示出了發(fā)音預測的示例。音節(jié)劃分子模塊音節(jié)劃分子模塊520將未匹配條目中的發(fā)音組織為單個音節(jié)。音節(jié)劃分說明了錯誤條目的問題,即,發(fā)音音節(jié)被錯誤地合并成一個單詞。將發(fā)音組織成音節(jié)使得能夠重新匹配發(fā)音,以校正該問題。在一個實施方式中,發(fā)音是由聯(lián)結符號(如,“ I ”)分開的聯(lián)結音節(jié),并且音節(jié)劃分子模塊用空格替換聯(lián)結符號。附加地或另選地,單獨的音節(jié)劃分產(chǎn)品用于音節(jié)劃分。例如, 一個實施方式使用由國家標準與技術研究院(NIST :National Institute of Standards and Technology)開發(fā)的音節(jié)劃分工具。圖8A和8B示出了音節(jié)劃分的示例。動態(tài)編程子模塊僅作為術語,各發(fā)音的音節(jié)被稱為A-片語。類似地,發(fā)音預測被稱為B-片語。A-片語和B-片語的聯(lián)結被分別稱為由A-字母形成的A-語符列和由B-字母形成的B-語符列。 圖9A示出了 A-片語910和B-片語920的示例。圖9B示出了 A-語符列930和B-語符列 940的示例。動態(tài)編程子模塊確定具有A-語符列中字母和B-語符列中字母之間的最小編輯距離的匹配路徑。兩個語符列之間的該編輯距離(還被稱為Levenshtein(來文史)距離) 被定義為利用每次對單個符號進行插入、刪除或替換的允許的編輯操作將第一語符列變換成第二語符列所需的編輯操作的最小數(shù)目。通過由動態(tài)編程子模塊采用的動態(tài)編程來確定編輯距離。如果符號序列的長度分別是η和m,則動態(tài)編程涉及確定條目的矩陣尺寸nXm。動態(tài)編程子模塊基于最小的插入、刪除和替換成本,以遞歸的方式確定矩陣中的各元素。確定矩陣中的所有元素之后,矩陣中的最右下元素是兩個語符列之間的編輯距離。在多個實施方式中,插入、刪除和替換的成本是相同的或不同的。圖10示出了具有A-語符列930和B-語符列940之間的最小編輯距離的匹配路徑。由星號1010來標記匹配路徑。為了確定匹配路徑,動態(tài)編程子模塊保持使矩陣中各點的匹配成本最小化的元素的軌跡,即,代表插入、刪除或替換成本的元素。例如,一個實施方式確定兩個矩陣,即,表示成本的成本矩陣,和表示使成本最小化的元素的索引的索引矩陣。確定矩陣的所有元素之后,順著元素的索引,回溯從索引矩陣中的最右下元素開始的路徑,以識別語符列之間的匹配路徑。星號1010是沿著匹配路徑的點。當索引矩陣中的元素代表刪除時,兩個星號1015并排水平放置在匹配路徑上。參照圖10,這兩個星號表示語符列930中的元素j和j+Ι這兩者被映射到語符列940中的元素i,即,根據(jù)語符列之間的映射刪除元素j。當索引矩陣中的元素表示插入時,兩個星號1025并排垂直放置在匹配路徑上。這兩個星號表示語符列930中的元素j被映射到語符列940中的元素i和i+Ι,即,在語符列之間的映射中元素j被插入兩次。當索引矩陣中的元素表示替換時,兩個星號1035并排對角放置在匹配路徑上。這兩個星號表示語符列930中的元素j被映射到語符列940中的元素i,并且元素j+Ι被映射到元素i+Ι。圖15示出了根據(jù)本發(fā)明的一個實施方式的用于確定匹配路徑的偽代碼。編輯距離子模塊編輯距離子模塊在B-片語和A-片語中產(chǎn)生一對一映射?;谟蓜討B(tài)編程子模塊提供的匹配路徑來產(chǎn)生映射。初始地,生成A-字母-B-片語映射,其針對各A-語序列字母或B-語序列字母識別該字母屬于的相應A-片語或B-片語。例如,如在圖10中所示,A-字母/N/映射到B-片語1,A-字母/u/映射到B-片語1,A-字母/j/映射到B-片語2,等。 但是,在某些情況下,動態(tài)編程將一個A-字母映射到多個B-片語。例如,A-字母/k/被映射到B-片語2和B-片語3?;贏-字母到B-片語映射,確定A-片語-B-片語映射,如圖11所示。如下確定 A-片語-B-片語映射如果一個A-片語中的所有字母都被映射到一個B-片語,則A-片語被映射到相應B-片語。例如,A-片語1被映射到B-片語1。如果A-片語中的字母映射到多個B-片語,則A-片語映射到多個B-片語。例如,A-片語2被映射到B-片語2且被映射到B-片語3。如果A-字母到B-片語映射是一對一片語映射,即,各A-片語映射到多于一個 B-片語,則形成預測_發(fā)音映射245,并且基于該映射確定匹配條目。但是,如果至少一個 A-片語映射到多個B-片語,即,一對多片語映射,如圖11,則A-字母-B-片語映射需要被分解為一對一片語映射。一個實施方式通過確定由一對多片語映射允許的A-片語-B-片語映射的一對一片語映射的笛卡爾積、計算各一對一片語映射的累計編輯距離、以及選擇具有最小累計編輯距離的一對一片語映射,來分解A-字母-B-片語映射。圖12示出了用于分解A-字母-B-片語映射的方法,其中,A-字母-B-片語映射是一對多片語映射。對于各一對一片語映射1210-1M0,確定映射后的A-片語和B-片語之間的編輯距離并且進行加和,以產(chǎn)生累計編輯距離1215-1M5。具有最小1250值的累計編輯分數(shù)1260確定了分解后的A-片語-B-片語映射。在該示例中,因為映射1210具有最低累計編輯分數(shù),即,7,因此映射1210被選擇為分解后的映射。圖13A-i;3B示出了由變換模塊輸出的匹配條目的示例。變換模塊具有與發(fā)音“皿” 匹配的單詞“New”,與發(fā)音“ jOrk”匹配的單詞lork”,與發(fā)音“nu | jOrk”匹配的單詞“NY”, 與發(fā)音"Ek I sprE I so”匹配的單詞“Exspresso”。刪節(jié)模塊刪節(jié)模塊450對內(nèi)部詞典進行刪節(jié),使得去除具有低精確度的單詞-發(fā)音映射。一個實施方式基于上述頻率計數(shù)C (W,P)來刪節(jié)單詞-發(fā)音映射。通過根據(jù)下式除以為具有所有其他發(fā)音q的單詞W而確定的所有頻率計數(shù)和,各頻率計數(shù)C (w, P)被轉換成單詞w映射到發(fā)音P的概率P (W,P)
權利要求
1.一種通過將未匹配條目變換成匹配條目來構建發(fā)音詞典的方法,其中,所述未匹配條目和所述匹配條目包括單詞集和與所述單詞集相對應的發(fā)音集,并且其中,所述匹配條目中的各單詞與所述發(fā)音集中的發(fā)音子集匹配,該方法包括以下步驟確定所述單詞集中的各單詞的發(fā)音預測,使得在所述單詞和所述發(fā)音預測之間存在一一對應關系;將各發(fā)音預測映射到所述發(fā)音子集,以產(chǎn)生各發(fā)音預測與所述發(fā)音子集相匹配的預測-發(fā)音映射;以及使用所述單詞和所述發(fā)音預測之間的一一對應關系,基于所述預測-發(fā)音映射來確定所述匹配條目,其中,該方法的步驟由處理器執(zhí)行。
2.根據(jù)權利要求1所述的方法,其中,所述發(fā)音和預測被表示為音節(jié)的聯(lián)結,所述方法還包括以下步驟聯(lián)結所述發(fā)音集中的發(fā)音的音節(jié)形成A-語符列,其中,發(fā)音的所述音節(jié)形成A-片語; 聯(lián)結所述發(fā)音預測的音節(jié)形成B-語符列,其中,所述發(fā)音預測的所述音節(jié)形成B-片語;確定所述A-語符列中字母和所述B-語符列中字母之間的匹配路徑; 基于所述匹配路徑來確定A-片語-B-片語映射;以及基于所述A-片語-B-片語映射來確定所述預測-發(fā)音映射。
3.根據(jù)權利要求2所述的方法,其中,所述A-片語-B-片語映射是一對一片語映射。
4.根據(jù)權利要求2所述的方法,其中,所述A-片語-B-片語映射是一對多片語映射,該方法還包括以下步驟將所述A-片語-B-片語映射分解成一對一片語映射。
5.根據(jù)權利要求4所述的方法,其中,所述分解步驟還包括以下步驟確定所述一對多片語映射所允許的A-片語-B-片語映射的一對一片語映射的笛卡爾積;計算各一對一片語映射的累計編輯距離;以及選擇具有最小累計編輯距離的所述一對一片語映射。
6.根據(jù)權利要求5所述的方法,所述方法還包括以下步驟確定各一對一片語映射中的各映射的編輯距離,以產(chǎn)生各一對一片語映射的編輯距離;以及通過將各一對一片語映射的所述編輯距離進行相加,來確定所述累計編輯距離。
7.根據(jù)權利要求1所述的方法,該方法還包括以下步驟 從內(nèi)部詞典中選擇所述發(fā)音預測。
8.根據(jù)權利要求1所述的方法,該方法還包括以下步驟 使用字素-音素轉換器來確定所述發(fā)音預測。
9.根據(jù)權利要求1所述的方法,該方法還包括以下步驟 選擇所述單詞的拼寫形式作為該單詞的所述發(fā)音預測。
10.根據(jù)權利要求2所述的方法,該方法還包括以下步驟確定表示所述A-語符列中的字母和所述B-語符列中的字母之間的插入、刪除和替換成本的成本矩陣;確定表示使所述成本最小化的元素的索引的索引矩陣;以及基于所述索引矩陣來確定所述匹配路徑。
11.根據(jù)權利要求10所述的方法,其中,所述匹配路徑是從所述索引矩陣中的最右下元素開始并且順著使所述成本最小化的元素的索引而回溯的路徑。
12.根據(jù)權利要求11所述的方法,其中,所述索引矩陣中的元素表示所述刪除的成本, 該方法還包括以下步驟將兩個星號水平并排放置在所述匹配路徑上。
13.根據(jù)權利要求11所述的方法,其中,所述索引矩陣中的元素表示所述插入的成本, 該方法還包括以下步驟將兩個星號豎直并排放置在所述匹配路徑上。
14.根據(jù)權利要求11所述的方法,其中,所述索引矩陣中的元素表示所述替換的成本, 該方法還包括以下步驟將兩個星號對角地并排放置在所述匹配路徑上。
15.根據(jù)權利要求1所述的方法,其中,所述匹配條目包括單詞_發(fā)音映射集,該方法還包括以下步驟去除概率在閾值之下的單詞_發(fā)音映射。
16.根據(jù)權利要求15所述的方法,該方法還包括以下步驟確定所述單詞集中的各單詞的頻率計數(shù)c (w,ρ),其中,所述頻率計數(shù)表示單詞w和發(fā)音P之間的映射次數(shù);基于所述頻率計數(shù)C (w, P)和具有發(fā)音q的單詞的頻率計數(shù),根據(jù)下式來確定所述單詞 w和所述發(fā)音ρ之間的單詞_發(fā)音映射的概率P (w, ρ)
17.一種用于根據(jù)未匹配條目集來構建發(fā)音詞典的方法,其中,未匹配條目包括單詞集和與所述單詞集相對應的發(fā)音集,該方法包括以下步驟將各未匹配條目迭代地變換成匹配條目,其中,所述匹配條目中的各單詞與所述發(fā)音集中的發(fā)音子集匹配;將各匹配條目存儲在內(nèi)部詞典中;以及輸出所述內(nèi)部詞典作為所述發(fā)音詞典,其中,該方法的步驟由處理器執(zhí)行。
18.根據(jù)權利要求17所述的方法,其中,所述變換還包括以下步驟確定所述單詞集中的各單詞的發(fā)音預測,使得在所述單詞和所述發(fā)音預測之間存在一一對應關系;將各發(fā)音預測映射到所述發(fā)音子集,以產(chǎn)生各發(fā)音預測與所述發(fā)音子集相匹配的預測-發(fā)音映射;以及使用所述單詞和所述發(fā)音預測之間的一一對應關系,基于所述預測-發(fā)音映射來確定所述匹配條目。
19.根據(jù)權利要求17所述的方法,其中,所述匹配條目包括單詞_發(fā)音映射集,該方法還包括以下步驟去除概率在閾值之下的單詞-發(fā)音映射。
20. 一種用于通過將未匹配條目變換成匹配條目來構建發(fā)音詞典的系統(tǒng),其中,所述未匹配條目和所述匹配條目包括單詞集和與所述單詞集相對應的發(fā)音集,并且其中,所述匹配條目中的各單詞與所述發(fā)音集中的發(fā)音子集匹配,該系統(tǒng)包括發(fā)音預測子模塊,該發(fā)音預測子模塊用于確定所述單詞集中的各單詞的發(fā)音預測,使得在所述單詞和所述發(fā)音預測之間存在一一對應關系;動態(tài)編程子模塊,該動態(tài)編程子模塊用于將各發(fā)音預測映射到所述發(fā)音子集,以產(chǎn)生各發(fā)音預測與所述發(fā)音子集匹配的預測-發(fā)音映射;以及處理器,該處理器被構成為使用所述單詞和所述發(fā)音預測之間的一一對應關系,基于所述預測-發(fā)音映射來確定所述匹配條目。
全文摘要
本發(fā)明的實施方式公開了通過將未匹配條目變換成匹配條目來構建發(fā)音詞典的系統(tǒng)和方法。未匹配條目和匹配條目包括單詞集和與所述單詞集相對應的發(fā)音集。該方法通過以下步驟將匹配條目中的各單詞與發(fā)音子集匹配確定各單詞的發(fā)音預測,使得在所述單詞和所述發(fā)音預測之間存在一一對應關系;將各發(fā)音預測映射到所述發(fā)音子集,以產(chǎn)生與所述發(fā)音子集匹配的各發(fā)音預測的預測-發(fā)音映射;以及使用所述單詞和所述發(fā)音預測之間的一一對應關系,基于所述預測-發(fā)音映射來確定所述匹配條目。
文檔編號G10L15/18GK102201235SQ20111007253
公開日2011年9月28日 申請日期2011年3月24日 優(yōu)先權日2010年3月26日
發(fā)明者安東尼·伊扎特 申請人:三菱電機株式會社