專利名稱:將單詞集轉(zhuǎn)換成相應(yīng)的粒子集的方法
技術(shù)領(lǐng)域:
本發(fā)明總體涉及信息檢索,具體而言,涉及檢索由粒子表示的條目。
背景技術(shù):
本發(fā)明要求Ramarkrishnan等于2008年2月15日提交的名稱為“Method for Indexing for Retrieving Documents Using Particles” 的美國專利申請 12/036,681 的 優(yōu)先權(quán)。信息檢索(information retrieval, IR)系統(tǒng)通常包括大的條目列表,這些條目諸 如地理興趣點(POI)或者音樂專輯的名稱。通過索引來訪問這個列表。對該索引的輸入是 由用戶提供的查詢。響應(yīng)于該查詢,IR系統(tǒng)檢索最匹配該查詢的結(jié)果列表。該結(jié)果列表可 以根據(jù)各種要素按等級排序。列表、索引、查詢和結(jié)果列表通常用單詞來表示。輸入列表、 查詢和結(jié)果列表可以是文本或口語??谡Z查詢通常用于用戶無法使用鍵盤(例如,正在開車)或者用戶接口包括麥克 風的環(huán)境中。當要檢索的條目是音頻條目(諸如,廣播或電視節(jié)目)時,使用口語文檔檢索。 在那種環(huán)境中,使用自動語音識別器(ASR)將語音轉(zhuǎn)換成單詞。ASR使用兩種基本的數(shù)據(jù)結(jié)構(gòu)單詞的發(fā)音字典和單詞的語言模型。通常,IR系統(tǒng) 將單詞在語音學上表示為音素,例如,將RESTAURAN表示為“R EH S T RAAN T”。音素是指 特定語言中的基本聲音單位。音素可包括重音標記、音節(jié)邊界以及表示該單詞如何發(fā)音的 其它符號。語言模型描述了詞序的概率,并且由ASR用來對正確單詞假設(shè)的搜索進行約束。 語言模型可以是η元語法(n-gram)。如果η元語法是二元語法(bigram),則二元語法列出 諸如P (“BELL,,“TAC0”)的概率,其是單詞“BELL”緊接在單詞“TAC0”之后的概率。語 言模型還可以是有限狀態(tài)的語法,其中,語法中的狀態(tài)表示可以在各個狀態(tài)出現(xiàn)的單詞,并 且狀態(tài)之間的跳轉(zhuǎn)表示從一個狀態(tài)轉(zhuǎn)到另一個狀態(tài)的概率?;趩卧~的IR存在兩個主要問題。第一,用于IR的重要單詞通常是頻度低的標識符單詞。例如,在條目POI "MJ' S RESTAURANT”中,重要的標識符單詞是“MJ’ S”。經(jīng)常的情況是,這些標識符單詞是來自其 它語言的專有名詞。例如,條目“AASHIANI RESTAURANT”中的單詞“AASHIANI”來自北印度 語。這些標識符單詞出現(xiàn)的另一種方法是通過組合,如“GREENHOUSE”。修改單詞的詞根也 會增加詞匯表的大小。通常,頻度低但重要的標識符單詞數(shù)量巨大。此外,重要的標識符單詞經(jīng)常被發(fā)錯音或者不能由語言模型很好地表示。通常無 法得到對η元語法的精確統(tǒng)計。因此對重要的頻度低的單詞的識別概率較低,并且單詞序 列經(jīng)常不正確。這導致IR系統(tǒng)的召回(recall)性能較差。第二,基于單詞的IR系統(tǒng)的計算負荷隨著列表和索引的尺寸而增加,并且對于實 時檢索來說系統(tǒng)的性能變得不能接受。
發(fā)明內(nèi)容
本發(fā)明的實施方式提供了一種在由粒子表示的信息檢索(IR)數(shù)據(jù)庫中進行條目 檢索的方法。唯一粒子的數(shù)量遠少于唯一單詞的數(shù)量,例如是十分之一。這提高了自動語 音識別(ASR)系統(tǒng)的性能,使得識別時間減少多達50%。令人吃驚的是,盡管與單詞數(shù)量相 比,粒子的數(shù)量大大減少,但吞吐量同樣增加,且由召回率測量的IR系統(tǒng)的性能提高了多 達2%。
圖1是根據(jù)本發(fā)明的實施方式的信息檢索系統(tǒng)的框圖2A是以單詞書寫的感興趣條目的索引表;
圖2B是根據(jù)索引的單詞的發(fā)音字典的表;
圖3是根據(jù)本發(fā)明的實施方式的從單詞到粒子的映射的示例的表;
圖4是根據(jù)本發(fā)明的實施方式的以粒子書寫的感興趣條目的索引的示例的表
圖5是粒子的發(fā)音字典的表;
圖6和圖9-10是粒子生成處理操作的階段的示意圖7-8是將單詞映射到粒子的方法的偽碼;以及
圖11是用于從輸入索引來構(gòu)造輸出粒子索引的方法的流程圖。
具體實施例方式如圖1所示,本發(fā)明的實施方式提供了一種從信息檢索(IR)系統(tǒng)100的數(shù)據(jù)庫中 檢索條目的方法。該方法的步驟工作在已有技術(shù)中已知的處理器中。該處理器包括存儲器 和I/O接口。RI系統(tǒng)包括用單詞表示的條目列表101。從基于單詞的列表101,我們生成(110) 用粒子表示的條目列表102?;趩卧~的列表101中的條目與基于粒子的列表102中的條 目之間的對應(yīng)關(guān)系可以是一對一,或者當存在單詞的另選的發(fā)音時,是一對多。粒子在語音識別領(lǐng)域是公知的。這里定義的“粒子”表示串接的音素序列。粒子 串表示單詞的音素序列,參見如下文獻Whittaker et al.,“Particle-based language modeling", International Conference on Speechand Language Processing(ICSLP), 2000。迄今為止,粒子僅用于在自動語音識別器(ASR)系統(tǒng)中識別單詞。相反,本發(fā)明利 用粒子來執(zhí)行信息檢索(IR)。我們對列表102應(yīng)用索引器120以產(chǎn)生基于粒子的索引121。為了檢索條目,從用 戶104獲得基于粒子的查詢103。查詢103可以源自文本中的單詞或者利用ASR的語音。查詢103用于查找根據(jù)基于粒子的列表102構(gòu)造的索引121。響應(yīng)于查詢103,輸 出130是基于單詞的列表101中與基于粒子的列表102中的最佳匹配條目相對應(yīng)的條目的 結(jié)果列表105。為了生成基于粒子的列表102,在預處理步驟中,我們在列表101中維持唯一單詞 的集合149。我們將基于單詞的集合149轉(zhuǎn)換150成唯一粒子的集合151。在獲得了基于 粒子的集合151之后,我們可以將列表101中的條目的單詞翻譯成相應(yīng)的基于粒子的條目以生成110基于粒子的列表102。圖2A示出了基于單詞的條目列表101的細節(jié)。這些條目是地理興趣點,各個ID 201唯一地標識了條目202。圖2B示出了單詞211和相應(yīng)的音素212。一些單詞可以有另選的發(fā)音,例如, HOUSE”。圖3示出了單詞301以及相應(yīng)的粒子302。如果基于單詞的列表中的條目有多種發(fā)音,則針對所有的單詞形成成為粒子的所 有可能分割的笛卡爾乘積,并且在基于粒子的列表中進行枚舉。例如,如果AASHIANI能被 分割成粒子 “AA_SH_IY AA_N_IY” 或者 “AA_SH Y_AE_N_IH”,并且 RESTAURANT 可被分割成 “R_E_S_T_R_AA_N_T”或者“R_E_S_T_ER_R_AA_N_T”,則在基于粒子的索引中枚舉出所有可 能的分割
R_E_S_T_R_AA_N_T, R E S T ER R AA N Τ,
AA_SH_IY AA_N_IY AA_SH_IY AA_N_IYAA_SH Y_AE_N_IH R_E_S_T_R_AA_N_T,和AA_SH Y_AE_N_IH R_E_S_T_ER_R_AA_N_T。 圖4示出了基于粒子的列表102的詳細情況,該列表包括各個條目402的唯一 ID 401。 502。型。
圖5示出了 ASR可以使用的發(fā)音字典,該發(fā)音字典包括粒子501和相應(yīng)的音素 我們的語言模型包括粒子,例如包含關(guān)于粒子η元語法的統(tǒng)計的η元語法語言模
方法
從基于單詞的列表101生成基于粒子的列表102的方法遵從以下思想 由上至下的策略本方法起始于集合149中的唯一單詞并且將單詞分割成粒子; 基于頻度的分段該方法對單詞在列表101中的頻度進行計數(shù)。將更頻繁出現(xiàn)的 單詞保持原樣,而將頻度低的單詞分割成更頻繁出現(xiàn)的粒子;以及壓縮維持粒子151的集合,本發(fā)明偏向生成更小的集合151以使得不同粒子的總 數(shù)遠小于不同單詞的總數(shù)。我們實現(xiàn)了大約10倍的尺寸減小,這將IR檢索的吞吐量提高了大約50%,同時召 回性能增大了 2%。圖6示出了本方法使用的用于將單詞149轉(zhuǎn)換150成粒子151的表600。最初,列 表101中各個唯一的單詞被視為一個粒子。例如,單詞“AWR G L AE S”被視為粒子“AW_ R_G_L_AE_S”。因為它們是從列表101中的單詞直接獲得的,所以我們將它們稱為“初始粒子”。針對各個初始粒子601利用行600對表進行初始化。在該示例中,該表包括3個 初始粒子AW_R_G_L_AE_S、AW_R以及G_L_AE_S。本方法試圖將各個原始粒子分割成更小的粒子。表包括用來追蹤初始粒子以及添加到該表中的粒子的數(shù)據(jù)結(jié)構(gòu)。此外,該表包含 指示了初始粒子如何被分割成更小的粒子的數(shù)據(jù)結(jié)構(gòu)?!霸紗卧~? ”列602表示單詞是否在列表101中?!傲W?? ”列603表示單詞是否被分割成粒子?!胺指钗恢谩绷?04表示進行分割的位置?!邦l度”列605表示粒子的出現(xiàn) 頻度C。“長度”列606表示以音素為單位的粒子的長度1。初始地,從列表101中的相應(yīng)單詞的頻度獲得頻度C。如果初始粒子被分割,則按 照以下方式將原始粒子的頻度計數(shù)傳送給新的粒子。如果表中不存在新的粒子,則將其頻 度設(shè)置為父粒子的頻度。如果表中已經(jīng)存在新的粒子,則將其頻度增加父粒子的頻度。利用最小描述長度(minimal description length,MDL)代價609 (其為似然度代 價607與目錄生成(inventory)代價608之和)來評估粒子151的當前集合。目錄生成代 價608表示粒子集的大小。本方法的目標是選擇使總MDL代價減小的將單詞分成粒子的一 種分割。例如在集合151包含了希望數(shù)量的粒子之后,該方法終止。似然度代價607是集合中的粒子的對數(shù)概率ρ之和
權(quán)利要求
一種將單詞集轉(zhuǎn)換成相應(yīng)的粒子集的方法,其中,單詞和粒子在各個集中是唯一的,該方法包括以下步驟針對各個單詞,確定將該單詞分割成粒子的所有可能分割;針對各個單詞,確定各個可能分割的代價;以及將與最小代價相關(guān)聯(lián)的可能分割的粒子添加到所述粒子集中。
2.根據(jù)權(quán)利要求1所述的方法,其中,從基于單詞的條目列表獲得所述單詞集,并且該 方法還包括以下步驟利用所述單詞集和所述粒子集,由所述基于單詞的條目列表生成相應(yīng)的基于粒子的條 目列表。
3.根據(jù)權(quán)利要求2所述的方法,該方法還包括以下步驟利用所述粒子集為所述基于粒子的條目列表編制索引,以生成對所述基于粒子的條目 列表的基于粒子的索引。
4.根據(jù)權(quán)利要求3所述的方法,該方法還包括以下步驟從用戶獲取查詢;利用所述基于粒子的索引訪問所述基于粒子的條目列表,以檢索與所述查詢最匹配的 基于粒子的條目;以及輸出相應(yīng)的基于單詞的條目作為給用戶的結(jié)果列表。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述查詢是文本,并且利用所述粒子集將所述文 本轉(zhuǎn)換成基于粒子的查詢。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述查詢是語音,并且利用所述粒子集將所述語 音轉(zhuǎn)換成基于粒子的查詢。
7.根據(jù)權(quán)利要求1所述的方法,其中,所述可能的粒子是針對所述單詞的另選的發(fā)音。
8.根據(jù)權(quán)利要求1所述的方法,其中,各個粒子表示串接的音素序列,并且粒子串表示 相應(yīng)單詞的音素序列。
9.根據(jù)權(quán)利要求1所述的方法,其中,使頻度高的單詞保持原樣,而將頻度低的單詞分 割成粒子。
10.根據(jù)權(quán)利要求1所述的方法,其中,所述代價是似然度代價與目錄生成代價之和,該似然度代價為
11.根據(jù)權(quán)利要求1所述的方法,其中,所述可能的分割使用單詞的從左至右的線性掃 描,以將該單詞分割成左前綴和右前綴。
12.根據(jù)權(quán)利要求1所述的方法,其中,在所述單詞的由發(fā)音字典中的附加信息所指示的音節(jié)邊界處進行所述可能的分割。
13.根據(jù)權(quán)利要求1所述的方法,其中,所述單詞集按照隨機的順序布置,并且按照不 同的隨機順序迭代地重新處理所述單詞集直到達到終止條件。
14.根據(jù)權(quán)利要求1所述的方法,其中,所述代價取決于η元語法復雜度。
15.根據(jù)權(quán)利要求1所述的方法,其中,所述代價取決于有限狀態(tài)語法。
16.根據(jù)權(quán)利要求2所述的方法,其中,從文本構(gòu)建所述基于單詞的條目列表。
17.根據(jù)權(quán)利要求2所述的方法,其中,從語音構(gòu)建所述基于單詞的條目列表。
18.根據(jù)權(quán)利要求1所述的方法,其中,所述代價隨著所述粒子集的大小而增大,并且 作為所述粒子集中的粒子出現(xiàn)頻度的函數(shù)而減小。
全文摘要
一種將單詞集轉(zhuǎn)換成相應(yīng)的粒子集的方法,其中,所述單詞和所述粒子在各集合中是唯一的。針對各個單詞,確定將該單詞分割成粒子的所有可能分割,并且確定針對各個分割的代價。將與最小代價相關(guān)聯(lián)的可能分割的粒子添加到所述粒子集中。
文檔編號G06F17/30GK101937450SQ201010220209
公開日2011年1月5日 申請日期2010年6月30日 優(yōu)先權(quán)日2009年6月30日
發(fā)明者埃萬德羅·戈維亞, 托尼·伊扎特 申請人:三菱電機株式會社