專利名稱:用于變換粒子集合的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及信息檢索,并且具體地,涉及使用粒子(particle)之間的最大編輯距離來變換粒子集合。
背景技術(shù):
信息檢索(IR)系統(tǒng)通常包括很大的項(xiàng)目表,這些項(xiàng)目諸如為感興趣的地理點(diǎn)(POI)或者音樂專輯名稱等。該列表通過索引進(jìn)行訪問。對索引的輸入是由用戶提供的查詢。響應(yīng)于查詢,IR系統(tǒng)生成與該查詢最佳匹配的結(jié)果列表??梢愿鶕?jù)各種因素對結(jié)果列表進(jìn)行排序。結(jié)果列表、索引、查詢以及結(jié)果列表通常由單詞表示。輸入列表、查詢以及結(jié)果列表是文本方式或語音方式。
語音查詢是在用戶無法使用鍵盤(例如,在駕駛時(shí))或者用戶接口包括麥克風(fēng)的情況下使用的。在那些環(huán)境下,使用自動語音識別器(ASR:Automatic Speech Recognizer)將語音轉(zhuǎn)換成單詞。ASR使用兩種基本的數(shù)據(jù)結(jié)構(gòu),單詞的發(fā)音詞典和單詞的語言模型。通常,IR系統(tǒng)按照發(fā)音將單詞表示為音素,例如,將RESTAURANT表示為“R EH S T R AA N T”。音素是指特定語言中的聲音的基本單位。音素可包括重音符號、音節(jié)邊界(syllable boundary)和指示單詞如何發(fā)音的其它記號。語言模型描述了單詞排序的可能性,并且供ASR使用,以強(qiáng)制搜索正確的單詞假設(shè)。語言模型可以是η元(n-gram)語法。如果η元語法是二元語法,則該二元語法列出諸如P (“BELL” I “TAC0”)的可能性,即單詞“BELL”跟隨在單詞“TAC0”之后的可能性。語言模型也可是有限狀態(tài)語法,其中語法中的狀態(tài)表示能夠在各個(gè)狀態(tài)出現(xiàn)的單詞,并且狀態(tài)之間的轉(zhuǎn)變表示從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的可能性。基于單詞的IR存在兩個(gè)主要問題。首先,用于IR的重要單詞通常是罕見的標(biāo)識符單詞(identifier word)。例如,在項(xiàng)目POI “MJ’S RESTAURANT”中,重要的標(biāo)識符單詞是“MJ’S”。這些標(biāo)識符單詞常常是來自其它語言的專有名詞。例如,項(xiàng)目“AASHIANI RESTAURANT”中的單詞“AASHIANI”來自印地語。這些標(biāo)識符單詞出現(xiàn)的另一種方式是通過組合,如“GREENHOUSE”。修改單詞的詞根也會增加詞匯量的大小。一般而言,罕見但重要的標(biāo)識符單詞的數(shù)量非常大。另外,重要的標(biāo)識符單詞常常被念錯(cuò),或者語言模型對重要的標(biāo)識符單詞的表示非常差。針對η元語法的精確統(tǒng)計(jì)一般也無法獲得。因此,識別重要的罕見的單詞的可能性很低,并且單詞順序常常不正確。這導(dǎo)致IR系統(tǒng)的查全性(recall performance)差。其次,隨著列表和索引的大小的增大,基于單詞的IR系統(tǒng)的計(jì)算負(fù)荷也增大,并且系統(tǒng)的性能對于實(shí)時(shí)檢索來說變得不可接受。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施方式提供了一種用于在以粒子表示的信息檢索(IR)數(shù)據(jù)庫中檢索項(xiàng)目的方法。唯一粒子的數(shù)量大大小于唯一單詞的數(shù)量(例如,至少小一個(gè)數(shù)量級)。這改善了自動語音識別(ASR)系統(tǒng)的性能,使得識別時(shí)間減少多達(dá)50%。令人驚訝地是,即使與單詞的數(shù)量相比顯著減少了粒子的數(shù)量并且吞吐量同樣增加時(shí),通過查全率(recall rate)測量的IR系統(tǒng)的性能提高了 2%。本發(fā)明的實(shí)施方式基于如下認(rèn)識針對信息檢索(IR)系統(tǒng)的操作,使用盡可能彼此不同的粒子來表示單詞集合是有利的。例如,具有盡可能彼此不同的粒子在ASR期間允許精確的識別。而且,實(shí)施方式基于如下進(jìn)一步的認(rèn)識可使用編輯距離來測量粒子之間的差異。本發(fā)明的一個(gè)實(shí)施方式公開了一種變換輸出粒子集合中的由項(xiàng)目集合中的至少一部分形成的粒子集合的方法,其中所述項(xiàng)目集合表示適于在信息檢索系統(tǒng)中使用的單詞集合。針對所述粒子集合中的各個(gè)粒子,該方法生成所述粒子集合中的粒子的部分的組合,并且使用使所述粒子集合的總的最小編輯距離(MED)最大化的組合的所述部分來替代所述 粒子集合中的所述粒子。例如,該方法確定所述粒子集合中的各個(gè)粒子的MED,將所述粒子集合的所述總的MED確定為各個(gè)粒子的MED的總和,然后確定使所述粒子集合的所述總的MED最大化的所述組合。另一個(gè)實(shí)施方式公開了一種用于生成表示單詞集合的輸出粒子集合的方法,該方法包括如下步驟由所述單詞集合確定粒子集合;生成所述粒子集合中的粒子的部分的組合;使用使所述粒子集合的總的最小編輯距離(MED)最大化的組合的所述部分來替代所述粒子集合中的所述粒子;以及針對所述粒子集合中的各個(gè)粒子,重復(fù)所述生成步驟和所述替代步驟,以生成所述輸出粒子集合,其中該方法的步驟由處理器執(zhí)行。又一個(gè)實(shí)施方式公開了一種用于變換表示單詞集合的輸出粒子集合中的粒子集合的系統(tǒng),該系統(tǒng)包括變換模塊,其被配置為針對所述粒子集合中的各個(gè)粒子確定使所述粒子集合的總的最小編輯距離(MED)最大化的所述粒子的部分的組合;以及處理器,其被配置為使用所述組合的所述部分來替代所述粒子集合中的所述粒子。該實(shí)施方式的一個(gè)變形包括用于確定所述粒子集合中的各個(gè)粒子的MED的單元;用于確定所述粒子集合的所述總的MED的單元;以及用于確定使所述粒子集合的所述總的MED最大化的所述組合的單元。
圖I是根據(jù)本發(fā)明實(shí)施方式的信息檢索系統(tǒng)的框圖;圖2A是按照單詞書寫的感興趣項(xiàng)目的索引的表;圖2B是根據(jù)索引的單詞的發(fā)音詞典的表;圖3是根據(jù)本發(fā)明實(shí)施方式的從單詞到粒子的映射的示例的表;圖4是根據(jù)本發(fā)明實(shí)施方式的、按照粒子書寫的感興趣項(xiàng)目的索引的示例的表;
圖5是粒子的發(fā)音詞典的表;圖6是根據(jù)本發(fā)明實(shí)施方式的用于變換輸出粒子集合中的粒子集合的方法;圖7是根據(jù)本發(fā)明實(shí)施方式的用粒子的前綴和后綴替代該粒子的方法的框圖;以及圖8是示出粒子的變換的表。 圖9是示出粒子的變換的表。圖10是示出粒子的變換的表。圖11示出粒子的變換的表。
具體實(shí)施例方式如圖I所示,本發(fā)明的實(shí)施方式提供了一種在信息檢索(IR)系統(tǒng)100中從數(shù)據(jù)庫中檢索項(xiàng)目的方法。如本領(lǐng)域公知的那樣,該方法的步驟在處理器中運(yùn)行。處理器包括存儲器和I/O接口。IR系統(tǒng)包括由單詞表不的項(xiàng)目列表101。由該基于單詞的列表101,我們生成110由粒子(particle)表示的項(xiàng)目列表102?;趩卧~的列表中的項(xiàng)目與基于粒子的列表中的項(xiàng)目之間的對應(yīng)關(guān)系可以是一對一,或者當(dāng)可能存在單詞的另選發(fā)音時(shí),該對應(yīng)關(guān)系可以
是一對多。粒子在語音識別領(lǐng)域中是公知的。如這里所定義的,“粒子”表示連接的音素序列。一串粒子表示單詞的音素序列,參見Whittaker等人的“Particle-based languagemodelling”,語音和語言處理國際會議(ICSLP),2000。迄今為止,粒子僅在自動語音識別器(ASR)系統(tǒng)中用于識別單詞。相比之下,本發(fā)明使用粒子來執(zhí)行信息檢索(IR)。我們將索引器120應(yīng)用到列表102,以產(chǎn)生基于粒子的索引121。為了檢索項(xiàng)目,從用戶104獲取基于粒子的查詢103。查詢可以來自文本中的單詞或使用ASR的語音。查詢103用于查找從基于粒子的列表102構(gòu)成的索引121。響應(yīng)于查詢103的輸出是來自基于單詞的列表101的與基于粒子的列表102中的項(xiàng)目最佳匹配的項(xiàng)目的結(jié)果列表。為了生成基于粒子的列表102,在預(yù)處理步驟中,我們維持列表101中的唯一單詞的集合149。我們將基于單詞的集合149轉(zhuǎn)換成唯一粒子的集合151。在我們獲得基于粒子的集合151之后,我們可將列表101中的項(xiàng)目的單詞轉(zhuǎn)化為對應(yīng)的基于粒子的項(xiàng)目,以生成110基于粒子的列表102。圖2A示出了我們的基于單詞的項(xiàng)目列表101。這些項(xiàng)目是感興趣的地理點(diǎn),各個(gè)ID 201唯一地標(biāo)識項(xiàng)目202。
圖2B示出了單詞211和對應(yīng)的音素212。一些單詞可具有另選的發(fā)音,例如“HOUSES”。圖3示出了單詞301和對應(yīng)的粒子302。如果基于單詞的列表中的項(xiàng)目具有多個(gè)發(fā)音,則形成將所有單詞分割成粒子的所有可能分割的笛卡爾積,并且在基于粒子的列表中列舉出來。例如,如果可將AASHIANI分割成如 “AA_SH_IY AA_N_IY” 或如 “AA_SH Y_AE_N_IH” 的粒子并且將 RESTAURANT 分割成如“R_E_S_T_R_AA_N_T”或如“R_E_S_T_ER_R_AA_N_T”的粒子,則在基于粒子的索引中列舉出所有可能的分割A(yù)A_SH_IY AA_N_IY R_E_S_T_R_AA_N_T,AA_SH_IY AA_N_IY R_E_S_T_ER_R_AA_N_T,AA_SH Y_AE_N_IH R_E_S_T_R_AA_N_T,以及 AA_SH Y_AE_N_IH R_E_S_T_ER_AA_N_T。圖4示出了基于粒子的列表102的詳細(xì)情況,包括各個(gè)項(xiàng)目402的唯一 ID 401。圖5示出了可供ASR使用的包括粒子501和對應(yīng)的音素502的發(fā)音詞典。我們的語言模型包括粒子,例如包括對粒子η元語法的統(tǒng)計(jì)的η元語法語言模型。粒子的變換本發(fā)明的實(shí)施方式基于如下認(rèn)識針對信息檢索(IR)系統(tǒng)的操作,使用盡可能彼此不同的粒子來表示單詞的集合是有利的。例如,具有盡可能彼此不同的粒子在ASR期間允許精確的識別。而且,實(shí)施方式基于如下進(jìn)一步的認(rèn)識可使用編輯距離(editdistance)來測量粒子之間的差異。因此,所述實(shí)施方式變換輸出粒子集合中的項(xiàng)目集合660。在本發(fā)明的各種實(shí)施方式中,該項(xiàng)目集合表示適于在IR系統(tǒng)中使用的單詞集合。例如,一個(gè)實(shí)施方式針對單詞集合中的各個(gè)單詞,確定將單詞分割成粒子的所有可能的分割,并且根據(jù)從單詞的集合得到的唯一粒子而形成項(xiàng)目集合。在另一個(gè)實(shí)施方式中,從單詞集合、從單詞集合得到的語音串的集合、從單詞集合得到的粒子集合及它們的組合中的至少一個(gè)來選擇項(xiàng)目集合中的項(xiàng)目。圖8示出了粒子的集合的示例。針對集合中的各個(gè)粒子,確定最小編輯距離(MED)810。MED是粒子相對于所有其它粒子的最小編輯距離。此外,粒子集合的總的MED 820被確定為各個(gè)粒子的MED的和。圖6示出了用于變換輸出粒子集合615中的粒子集合610的方法600。在一個(gè)實(shí)施方式中,粒子集合由項(xiàng)目集合的至少一部分形成。如本領(lǐng)域公知的那樣,該方法的步驟由 處理器601執(zhí)行。變換模塊602生成630粒子集合中的粒子620的部分的組合635。例如,在一個(gè)實(shí)施方式中,該組合僅包括兩個(gè)部分,即粒子的前綴和后綴。另外,組合635是粒子的所有可能組合。在另選實(shí)施方式中,該組合包括多于兩個(gè)部分。在粒子集合中,使用組合645的部分來替代650粒子620,該組合645使粒子集合的總的最小編輯距離(MED)最大化640。針對粒子集合中的所有粒子,重復(fù)執(zhí)行變換,從而變換輸出粒子集合中的粒子集合。圖7示出了用粒子的前綴和后綴715替代700粒子710的示例。從粒子集合中去除720粒子,并且將組合的一部分(即,前綴和后綴)添加730到粒子集合中。接下來,確定740粒子集合中的各個(gè)粒子的MED ;并且對MED求和以確定750粒子集合的總的MED 755。針對粒子的所有組合重復(fù)該替代步驟。具體地講,從粒子集合中去除組合的部分并且使用粒子的另一個(gè)組合的部分來替代,并且使用該另一個(gè)組合的部分來確定MED以及總的MED。最后,將與總的MED的最大值相對應(yīng)的組合的部分添加到粒子集合中。—個(gè)實(shí)施方式在粒子集合中僅保留唯一粒子。例如,沒有將與粒子集合中的粒子相同的組合的部分添加到集合中。在變換期間,根據(jù)單詞集合對粒子集合及輸出粒子集合進(jìn)行索引。例如,一個(gè)實(shí)施方式創(chuàng)建了項(xiàng)目集合與單詞集合之間的索引的索引圖。索引圖跟蹤將單詞分割成粒子的分害I]。在變換期間,索引圖變成了樹狀圖,該樹狀圖對替代粒子的粒子的部分進(jìn)行索引。圖9至圖11示出了從圖8所示的粒子集合810到粒子“abcd”830的變換的示例。粒子“abed”的所有可能的兩個(gè)部分組合是“a”+ “bed”(如圖9所示)、“ab”+ “cd”(如圖10所示)以及“abc”+ “d”(如圖11所示)。針對各個(gè)組合,變換模塊確定各個(gè)粒子的MED 和整個(gè)集合的總的MED值。因?yàn)榻M合“a+bed”的部分使總的MED最大化,所以總的MED的值等于7,該組合的部分替代了粒子“abed”。
權(quán)利要求
1.一種變換輸出粒子集合中的由項(xiàng)目集合的至少一部分形成的粒子集合的方法,其中所述項(xiàng)目集合表示適于在信息檢索系統(tǒng)中使用的單詞集合,針對所述粒子集合中的各個(gè)粒子,該方法包括如下步驟 生成所述粒子集合中的粒子的部分的組合;以及 利用使得所述粒子集合的總的最小編輯距離(MED)最大化的組合的所述部分來替代所述粒子集合中的所述粒子,以變換所述輸出粒子集合中的所述粒子集合,其中該方法的所述步驟由處理器執(zhí)行。
2.根據(jù)權(quán)利要求I所述的方法,該方法還包括如下步驟 確定使得所述粒子集合的所述總的MED最大化的所述組合。
3.根據(jù)權(quán)利要求I所述的方法,該方法還包括如下步驟 確定所述粒子集合中的各個(gè)粒子的MED, 將所述粒子集合的所述總的MED確定為各個(gè)粒子的MED的總和。
4.根據(jù)權(quán)利要求3所述的方法,該方法還包括如下步驟 確定所述粒子集合中的所述粒子與全部其它粒子之間的編輯距離;以及 選擇最小編輯距離作為所述粒子的MED。
5.根據(jù)權(quán)利要求I所述的方法,其中所述替代步驟還包括如下步驟 從所述粒子集合中去除所述粒子; 將所述組合的所述部分添加到所述粒子集合中; 確定所述粒子集合中的各個(gè)粒子的MED ;以及 確定所述粒子集合的所述總的MED。
6.根據(jù)權(quán)利要求I所述的方法,該方法還包括如下步驟 從所述粒子集合中去除所述組合的所述部分。
7.根據(jù)權(quán)利要求I所述的方法,其中所述替代步驟還包括如下步驟 從所述粒子集合中去除所述粒子; 針對各個(gè)組合,確定所述組合的各個(gè)部分的MED以及所述粒子集合的所述總的MED,其中所述總的MED包括所述組合的所述部分的MED ;以及 將所述組合的所述部分添加到與所述總的MED的最大值對應(yīng)的所述粒子集合中。
8.根據(jù)權(quán)利要求I所述的方法,其中所述組合包括所述粒子的前綴和后綴,其中所述生成步驟還包括如下步驟 生成前綴和后綴的全部可能組合。
9.根據(jù)權(quán)利要求I所述的方法,該方法還包括如下步驟 針對所述單詞集合中的各個(gè)單詞,確定將所述單詞分割成唯一的粒子的全部可能分割;以及 由所述粒子形成所述項(xiàng)目集合。
10.根據(jù)權(quán)利要求I所述的方法,該方法還包括如下步驟 根據(jù)所述單詞集合的索引對所述項(xiàng)目集合進(jìn)行索引,以產(chǎn)生基于粒子的索引。
11.根據(jù)權(quán)利要求10所述的方法,該方法還包括如下步驟 基于所述項(xiàng)目集合對所述輸出粒子集合進(jìn)行索引。
12.根據(jù)權(quán)利要求9所述的方法,該方法還包括如下步驟從用戶獲取查詢; 使用所述基于粒子的索引來訪問所述項(xiàng)目集合,以確定與所述查詢最為匹配的對應(yīng)單詞;以及 輸出所述對應(yīng)單詞作為針對所述用戶的結(jié)果列表。
13.根據(jù)權(quán)利要求I所述的方法,其中從所述單詞集合、從所述單詞集合得到的語音串的集合、從所述單詞集合得到的粒子集合及它們的組合中的至少一個(gè)中選擇所述項(xiàng)目集合中的項(xiàng)目。
14.一種生成表示單詞集合的輸出粒子集合的方法,該方法包括如下步驟 由所述單詞集合確定粒子集合; 生成所述粒子集合中的粒子的部分的組合; 使用使所述粒子集合的總的最小編輯距離(MED)最大化的組合的所述部分來替代所述粒子集合中的所述粒子;以及 針對所述粒子集合中的各個(gè)粒子,重復(fù)所述生成步驟和所述替代步驟,以生成所述輸出粒子集合,其中該方法的所述步驟由處理器執(zhí)行。
15.根據(jù)權(quán)利要求14所述的方法,其中所述確定步驟還包括如下步驟 將所述單詞集合中的各個(gè)單詞分割成粒子;以及 按照使得所述粒子集合中的所有粒子都唯一的方式將所述粒子選入所述粒子集合。
16.根據(jù)權(quán)利要求14所述的方法,其中所述確定步驟還包括如下步驟 確定所述單詞集合中的各個(gè)單詞的語音串;以及 基于所述語音串,形成所述粒子集合。
17.根據(jù)權(quán)利要求14所述的方法,該方法還包括如下步驟 確定所述粒子集合中的各個(gè)粒子的MED ;以及 將所述粒子集合的所述總的MED確定為各個(gè)粒子的MED的總和。
18.根據(jù)權(quán)利要求14所述的方法,該方法還包括如下步驟 確定所述粒子集合中的所述粒子與所有其它粒子之間的編輯距離;以及 選擇最小編輯距離作為所述粒子的MED。
19.一種變換表示單詞集合的輸出粒子集合中的粒子集合的系統(tǒng),該系統(tǒng)包括 變換模塊,其被配置為針對所述粒子集合中的各個(gè)粒子確定使所述粒子集合的總的最小編輯距離(MED)最大化的所述粒子的部分的組合;以及 處理器,其被配置為使用所述組合的所述部分來替代所述粒子集合中的所述粒子。
20.根據(jù)權(quán)利要求19所述的系統(tǒng),該系統(tǒng)還包括 用于確定所述粒子集合中的各個(gè)粒子的MED的單元; 用于確定所述粒子集合的所述總的MED的單元;以及 用于確定使得所述粒子集合的所述總的MED最大化的所述組合的單元。
全文摘要
本發(fā)明的實(shí)施方式公開了一種變換表示適于在信息檢索系統(tǒng)中使用的單詞集合的輸出粒子集合中的粒子集合的系統(tǒng)和方法。該方法針對所述粒子集合中的各個(gè)粒子生成粒子的部分的組合,并且使用使得粒子集合的總的最小編輯距離(MED)最大化的組合的部分來替代粒子集合中的粒子。例如,該方法確定粒子集合中的各個(gè)粒子的MED,將粒子集合中的總的MED確定為各個(gè)粒子的MED的總和,然后確定使得粒子集合的總的MED最大化的組合。
文檔編號G06F17/30GK102822823SQ20118001619
公開日2012年12月12日 申請日期2011年3月22日 優(yōu)先權(quán)日2010年3月31日
發(fā)明者托尼·伊扎特 申請人:三菱電機(jī)株式會社