專利名稱:信息檢索系統(tǒng)中基于短語的搜索的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于對諸如互聯(lián)網(wǎng)(Internet)的大規(guī)模語料庫中的文獻編制索引、搜索與分類的信息檢索系統(tǒng)。
背景技術(shù):
信息檢索系統(tǒng)通常稱作搜索引擎,如今它們是一種用于在諸如互聯(lián)網(wǎng)的大規(guī)模、 多樣化并不斷增長的語料庫中尋找信息的基本工具。一般來說,搜索引擎創(chuàng)建索引以使文獻(或“頁”)與各文獻中存在的個別字相關(guān)。響應(yīng)一含有多個查詢項的查詢來檢索文獻, 此通常是基于在文獻中存在一定數(shù)量的查詢項而實現(xiàn)的。根據(jù)諸如查詢項出現(xiàn)的頻率、主域、鏈接分析等其它統(tǒng)計度量來對檢索到的文獻分等級。然后,通常按分等級后的次序?qū)z索到的文獻呈現(xiàn)給用戶,而不進行任何其他分組或強制分級。在某些狀況下,僅呈現(xiàn)文獻文本的選定部分以便使用戶能夠粗略了解所述文獻的內(nèi)容。查詢項的直接“布爾(Boolean)”匹配具有多個熟知的限制,并且尤其無法識別那些不具有查詢項但具有相關(guān)字的文獻。舉例來說,在典型的布爾系統(tǒng)中,搜索“Australian Shepherds (澳大利亞牧羊犬)”時將不會返回不具有確切查詢項的關(guān)于其它herding dogs (牧羊犬)(例如,Border Collies (博得牧羊犬))的文獻。反而,所述系統(tǒng)通??赡芡瑫r檢索到關(guān)于Australia(澳大利亞)(并且與dogs (狗)無關(guān))的文獻與關(guān)于"shepherds (牧羊犬),,的文獻,并且將這些文獻排在較高等級。這里的問題是傳統(tǒng)的系統(tǒng)是根據(jù)個別項而不是概念來編制文獻索引。概念通常以短語表示,如"Australian Sh印herd (澳大利亞牧羊犬)”、"President of the United Mates (美國總統(tǒng))”或者“Sundance Film Festival (圣丹斯電影節(jié))”等。某些現(xiàn)有系統(tǒng)最多是就預(yù)定且非常有限的“已知”短語集合來編制文獻索引,這些“已知”短語一般是由人工操作員選擇的。因為察覺到識別由(比如)三個、四個或五個或更多個字組成的所有可能的短語需要計算與存儲器,所以一般會避免對短語編制索引。舉例來說,如果假定任意五個字可構(gòu)成一個短語并且一個大的語料庫將具有至少200,000個唯一項,那么將存在約3. 2*1026個可能短語,此明顯超出任何現(xiàn)有系統(tǒng)能夠存儲于存儲器中的量或者其可另外編程操縱的量。另一個問題是短語不斷輸入并會超出其在詞典中的用法,此比發(fā)明新的個別字頻繁得多。新短語總是從諸如技術(shù)、藝術(shù)、世界事件與法律等來源中產(chǎn)生。其它短語將隨時間降低使用。某些現(xiàn)有信息檢索系統(tǒng)試圖通過使用個別字同時出現(xiàn)的模式來提供概念檢索。在這些系統(tǒng)中,搜索一個字,例如“President (總統(tǒng))”,將同時檢索到具有頻繁地與 "President (總統(tǒng))”一起出現(xiàn)的其它字(如“White (白色)”及“House (房子)”)的文獻。 盡管這種方法可能產(chǎn)生具有在個別字水平上概念性地相關(guān)的文獻的搜索結(jié)果,但其一般無法俘獲在同時出現(xiàn)的短語之間存在的主題關(guān)系。因此,需要一種信息檢索系統(tǒng)與方法,其能夠全面地識別大規(guī)模語料庫中的短語、 根據(jù)短語編制文獻索引、根據(jù)其短語搜索文獻并將文獻分等級、并提供關(guān)于所述文獻的另外的群集與說明性信息。
發(fā)明內(nèi)容
本發(fā)明涉及一種信息檢索系統(tǒng)與方法,其使用短語來對文獻庫中的文獻編制索弓丨、進行搜索、分等級及說明。所述系統(tǒng)適合于識別那些在文獻庫中具有足夠頻繁及/或獨特用法的短語以指示其為“有效”或“好”短語。以此方式,可識別多字短語,例如由四個、 五個或更多項組成的短語。這就避免了必須識別由給定數(shù)量的字的所有可能序列所產(chǎn)生的每個可能的短語并對其編制索引的問題。該系統(tǒng)還適合于根據(jù)短語預(yù)測文獻中存在其它短語的能力來識別彼此相關(guān)的短語。更具體地說,利用使兩個短語的實際同時出現(xiàn)率與這兩個短語的預(yù)期同時出現(xiàn)率相關(guān)的預(yù)測度量。一種此類預(yù)測度量是信息增益,即實際同時出現(xiàn)率與預(yù)期同時出現(xiàn)率的比率。 在預(yù)測度量超過一預(yù)定閾值時,兩個短語相關(guān)。在那種狀況下,第二短語相對于第一短語具有顯著的信息增益。語義上,相關(guān)短語將是那些共同用來討論或描述一給定主題或概念的短語,如 “President of the United Mates (美國總統(tǒng))”與 “White House (白宮)”。對于一給定短語,相關(guān)短語可根據(jù)其相關(guān)性或有效性基于其各自的預(yù)測度量來定序。信息檢索系統(tǒng)通過有效或好短語來對文獻庫中的文獻編制索引。對于每一個短語,一個記入列表識別那些含有所述短語的文獻。此外,對于一給定短語,使用第二列表、向量或其它結(jié)構(gòu)來存儲指示在含有所述給定短語的每一文獻中還存在給定短語的哪些相關(guān)短語的數(shù)據(jù)。以此方式,所述系統(tǒng)不僅能夠響應(yīng)搜索查詢而輕易地識別出哪些文獻含有哪些短語,而且能夠識別出哪些文獻還含有與查詢短語相關(guān)、并且因此更可能特定地關(guān)于查詢短語所表示的主題或概念的短語。使用短語與相關(guān)短語還創(chuàng)建并使用了相關(guān)短語的群集,其在語義上代表短語的有意義的分組。從在群集中的所有短語之間具有非常高的預(yù)測度量的相關(guān)短語來識別群集。 群集可用來組織搜索結(jié)果,包括選擇搜索結(jié)果中包括哪些文獻及其次序,以及從搜索結(jié)果去除文獻。信息檢索系統(tǒng)還適合于在響應(yīng)查詢而搜索文獻時使用短語。處理查詢以便識別在查詢中存在的任何短語,從而檢索查詢短語的相伴記入列表與相關(guān)短語信息。此外,在有些情況下,用戶可以在搜索查詢中輸入不完整的短語,如“!Resident of the (……總統(tǒng))”。 可以識別象這樣的不完整短語并且用擴展短語來代替,如“!Resident of the United Mates (美國總統(tǒng))”。這有助于確保實際執(zhí)行用戶最有可能的搜索。系統(tǒng)也可使用相關(guān)短語信息來識別或選擇搜索結(jié)果中包括哪些文獻。對于一給定短語與一給定文獻,相關(guān)短語信息指出在所述給定文獻中存在所述給定短語的哪些相關(guān)短語。因此,對于一含有兩個查詢短語的查詢來說,先處理第一查詢短語的記入列表以識別含有第一查詢短語的文獻,接著處理相關(guān)短語信息以識別這些文獻中哪些文獻還含有第二查詢短語。接著,將后面這些文獻包括在搜索結(jié)果中。這就不需要系統(tǒng)接著單獨處理第二查詢短語的記入列表,由此提供更快的搜索時間。當然,此方法也可以擴展到查詢中有任意數(shù)量的短語,從而能夠顯著節(jié)約計算與時間。系統(tǒng)還可適合于使用短語與相關(guān)短語信息來對一組搜索結(jié)果中的文獻分等級。一給定短語的相關(guān)短語信息較佳以諸如位向量的格式存儲,其表示每一相關(guān)短語相對于所述給定短語的有效性。舉例來說,一個相關(guān)短語位向量對于給定短語的每一個相關(guān)短語均具有一個位,這些位根據(jù)相關(guān)短語的預(yù)測度量(例如,信息增益)來定序。相關(guān)短語位向量的最有效的位與具有最高預(yù)測度量的相關(guān)短語相關(guān),并且最低有效位與具有最低預(yù)測度量的相關(guān)短語相關(guān)。以此方式,對于一給定文獻與一給定短語,相關(guān)短語信息可用來對文獻計分。位向量本身(作為一個值)的值可用作文獻分數(shù),以此方式,含有查詢短語的高級相關(guān)短語的文獻比具有低級相關(guān)短語的文獻更可能在主題上與查詢相關(guān)。位向量值也可用作更復(fù)雜的計分函數(shù)中的一個分量,并且還可以加權(quán)。接著,可以根據(jù)文獻分數(shù)來對文獻分等級。短語信息也可以用在信息檢索系統(tǒng)中以使用戶的搜索個性化。將用戶模擬為一個從(例如)所述用戶曾經(jīng)訪問過(例如,在屏幕上看、打印、存儲等等)的文獻所獲得的短語集合。更特定地說,給定用戶訪問過的文獻,則在用戶模型或概況中就會包括在此文獻中存在的相關(guān)短語。在隨后的搜索期間,使用用戶模型中的短語來過濾搜索查詢的短語并對檢索到的文獻的文獻分數(shù)加權(quán)。短語信息也可以用在信息檢索系統(tǒng)中以創(chuàng)建(例如)包括在一組搜索結(jié)果中的文獻的文獻說明。給定一搜索查詢,所述系統(tǒng)識別出查詢中存在的短語以及其相關(guān)短語與其擴展短語。對于一給定文獻,所述文獻的每一個句子都具有一個在句子中存在多少個查詢短語、相關(guān)短語與擴展短語的計數(shù)??梢酝ㄟ^這些計數(shù)(個別或組合)來對文獻句子分等級,并且選擇一定數(shù)量的最高等級的句子(例如,五個句子)來形成文獻說明。當搜索結(jié)果中包括所述文獻時,可以接著向用戶呈現(xiàn)文獻說明,使得相對于查詢用戶能夠更好地了解所述文獻。
進一步改進這種產(chǎn)生文獻說明的方法,以使系統(tǒng)能夠提供反映用戶興趣所在的個性化說明。如上所述,用戶模型存儲了識別用戶感興趣的相關(guān)短語的信息。此用戶模型與一列與查詢短語相關(guān)的短語相交,以識別這兩組共有的短語。然后,根據(jù)相關(guān)短語信息來對所述共有集合定序。接著,使用所得相關(guān)短語集合來根據(jù)每一文獻中存在的這些相關(guān)短語的實例數(shù)來對文獻的句子分等級。選擇具有最高數(shù)量的共有相關(guān)短語的多個句子作為個性化文獻說明。當對文獻庫編制索引(爬行)或當處理搜索查詢時,信息檢索系統(tǒng)也可以使用短語信息來識別并去除重復(fù)文獻。對于一給定文獻,所述文獻的每一個句子都具有一個在句子中存在多少個相關(guān)短語的計數(shù)??梢酝ㄟ^此計數(shù)來對文獻句子分等級,并且選擇多個最高等級的句子(例如,五個句子)來形成文獻說明。然后,將與文獻相關(guān)的此說明存儲(例如)為所述句子的字符串或散列。在編制索引期間,以相同方式處理新爬行的文獻以產(chǎn)生文獻說明。新的文獻說明可與先前的文獻說明匹配(例如,散列),并且如果發(fā)現(xiàn)匹配,那么這個新的文獻就是一個重復(fù)文獻。類似地,在準備搜索查詢的結(jié)果期間,可以處理搜索結(jié)果集合中的文獻以去除重復(fù)文獻。本發(fā)明的系統(tǒng)與軟件架構(gòu)、計算機程序產(chǎn)品及計算機實施的方法與計算機產(chǎn)生的用戶界面與呈現(xiàn)具有其它實施例。上文僅僅是基于短語的信息檢索系統(tǒng)與方法的一些特征。信息檢索領(lǐng)域的技術(shù)人員將了解,短語信息普遍性的靈活性使其能夠在文獻分析與處理的編制索引、文獻注釋、搜索、分等級與其它領(lǐng)域中廣泛使用與應(yīng)用。
圖1是本發(fā)明的一個實施例的軟件架構(gòu)的方塊圖。圖2說明一種用于識別文獻中的短語的方法。圖3說明一具有短語窗口與二級窗口的文獻。圖4說明一種用于識別相關(guān)短語的方法。圖5說明一種對相關(guān)短語的文獻編制索引的方法。圖6說明一種基于短語檢索文獻的方法。圖7說明用于顯示搜索結(jié)果的顯示系統(tǒng)的操作。圖及圖8b說明引用文獻與被引用文獻之間的關(guān)系。這些圖式僅僅是為了說明的目的而描繪本發(fā)明的一較佳實施例。從以下討論,所屬技術(shù)領(lǐng)域的技術(shù)人員將容易地了解,在不偏離本文所述的本發(fā)明的原理下,可采用本文所述的結(jié)構(gòu)與方法的替代實施例。
具體實施例方式I.系統(tǒng)概述現(xiàn)在參看圖1,其展示了根據(jù)本發(fā)明的一個實施例的搜索系統(tǒng)100的一實施例的軟件架構(gòu)。在此實施例中,系統(tǒng)包括一索引系統(tǒng)100、一搜索系統(tǒng)120、一顯示系統(tǒng)130與一前端服務(wù)器140。索引系統(tǒng)110負責識別文獻中的短語并根據(jù)其短語通過訪問不同網(wǎng)站190與其它文獻庫來對文獻編制索引。前端服務(wù)器140從用戶端170的用戶接收查詢,并且向搜索系統(tǒng)120提供那些查詢。搜索系統(tǒng)120負責搜索與搜索查詢相關(guān)的文獻(搜索結(jié)果),包括識別搜索查詢中的任何短語,接著使用出現(xiàn)的短語對搜索結(jié)果中的文獻分等級以影響等級次序。搜索系統(tǒng)120向顯示系統(tǒng)130提供搜索結(jié)果。顯示系統(tǒng)130負責修正搜索結(jié)果(包括除去接近重復(fù)的文獻和產(chǎn)生文獻的主題說明),并將修正后的搜索結(jié)果返回給前端服務(wù)器 140,即將結(jié)果提供給用戶端170。系統(tǒng)100進一步包括一用于存儲關(guān)于文獻的索引信息的索引150與一用于存儲短語與相關(guān)統(tǒng)計信息的短語數(shù)據(jù)存儲160。就本申請案而言,“文獻”應(yīng)理解為可以由搜索引擎編制索引并檢索的任何類型的媒體,包括網(wǎng)頁文獻、圖像、多媒體文件、文本文獻、PDF或其它圖像格式的文件等等。一個文獻可以具有一或多個頁、分區(qū)、段或其他適合其內(nèi)容與類型的組成部分。同等地,文獻可以稱為“頁”,其常用來指互聯(lián)網(wǎng)上的文獻。使用通用術(shù)語“文獻”并不意味對本發(fā)明的范疇進行任何限制。搜索系統(tǒng)100可對大的文獻語料庫進行操作,如互聯(lián)網(wǎng)與萬維網(wǎng),但其同樣可用于更有限的集合中,如用于圖書館或私營企業(yè)的文獻庫。在任一情形下應(yīng)了解,文獻一般分布在許多不同的計算機系統(tǒng)與站點中。于是,不喪失一般性,不管格式或位置(例如,哪個網(wǎng)站或數(shù)據(jù)庫),將文獻統(tǒng)稱為語料庫或文獻庫。每個文獻都具有一個唯一識別所述文獻的相伴識別符;所述識別符較佳為URL,但也可以使用其它類型的識別符(例如,文獻號)。 在本揭示中,假定使用URL來識別文獻。II.索引系統(tǒng)在一實施例中,索引系統(tǒng)110提供三個主要功能性操作1)識別短語與相關(guān)短語, 2)關(guān)于短語對文獻編制索引,及幻產(chǎn)生并維持基于短語的分類。所屬技術(shù)領(lǐng)域的技術(shù)人員將了解,在傳統(tǒng)索引功能的支持下,索引系統(tǒng)110還將執(zhí)行其它功能,因此本文不再進一步說明這些其它操作。索引系統(tǒng)110對短語數(shù)據(jù)的索引150與數(shù)據(jù)儲存庫160進行操作。下文進一步說明這些數(shù)據(jù)儲存庫。1.短語識別索引系統(tǒng)110的短語識別操作識別文獻庫中的“好”與“壞”短語,這些短語有助于對文獻編制索引并搜索。一方面,好短語是那些往往出現(xiàn)在文獻庫中超過某一百分比的文獻中的短語,且/或表示為在所述文獻中具有不同的外觀,如由置標標簽或其它形態(tài)、格式或語法標記來定界。好短語的另一方面是其能夠預(yù)測其它好短語,而不僅僅是出現(xiàn)在詞典中的字序列。舉例來說,短語“President of the United States (美國總統(tǒng))”是一個預(yù)測諸如“George Bush (喬治·布什)”與“Bill Clinton (比爾·克林頓)”等其它短語的短語。然而,諸如"fell down the stairs”或"top of the morning,,、“out of the blue” 的其它短語不具預(yù)測性,這是因為象這些的成語與習語往往與許多其它不同且無關(guān)的短語一起出現(xiàn)。因此,短語識別階段確定哪些短語是好短語而哪些是壞短語(即,缺乏預(yù)測能力)?,F(xiàn)在參看圖2,短語識別過程具有以下功能性階段200 收集可能且好的短語,以及所述短語的頻率與同時出現(xiàn)的統(tǒng)計值;202 基于頻率統(tǒng)計值將可能短語分為好短語或壞短語;204:基于從同時出現(xiàn)的統(tǒng)計值獲得的預(yù)測性度量來精簡好短語列表?,F(xiàn)在將進一步詳細地說明這些階段的每個階段。
第一階段200是這樣一個過程,通過該過程,索引系統(tǒng)110爬行(crawl)文獻庫中的一組文獻,隨時間形成所述文獻庫的多個重復(fù)分區(qū)。每遍處理一個分區(qū)。每遍爬行的文獻數(shù)可能變化,較佳為每個分區(qū)約1,000,000個文獻。較佳僅處理每個分區(qū)中先前未爬行的文獻,直到處理完所有文獻,或滿足某一其它終止準則。實際上,由于新文獻不斷地添加到文獻庫中,所以爬行不斷繼續(xù)。索引系統(tǒng)110對爬行后的每個文獻采取下列步驟。以η的短語窗口長度遍歷所述文獻的各字,其中η是期望的最大短語長度。窗口的長度一般為至少2項,較佳為4或5項(字)。短語較佳包括短語窗口中的所有字,包括那些否則會被表征為結(jié)束字的字,如“a”、“the”等等。短語窗口可以由行尾、段落返回、置標標簽或其他內(nèi)容或格式變化的標志來終止。圖3說明遍歷期間文獻300的一部分,其展示短語窗口 302從字“stock”開始并向右擴展5個字。窗口 302中的第一個字是候選短語i,并且序列i+l、i+2、i+3、i+4與i+5 中的每個短語同樣為候選短語。因此,在此實例中,候選短語為“st0Ck”、“St0Ck dogs”、 "stock dogs for "λ" stock dogs for the,,、"stock dogs for the Basque,,與"stock dogs for the Basque shepherds,,。在每個短語窗口 302中,依次檢查每個候選短語以確定其是否已經(jīng)存在于好短語列表208或可能短語列表206中。如果候選短語未出現(xiàn)在好短語列表208或可能短語列表 206中,那就確定所述候選短語為“壞”短語并將其跳過。如果候選短語出現(xiàn)在好短語列表208中,如款目&,那就更新短語&的索引150款目以包括所述文獻(例如,其URL或其它文獻識別符),以指示此候選短語&出現(xiàn)在當前文獻中。短語&的索引150中的款目(或項)稱作短語&的記入列表。記入列表包括其中出現(xiàn)短語的一列文獻d(通過其文獻識別符,例如文獻號或者URL)。此外,如下文進一步解釋,更新同時出現(xiàn)矩陣212。在最初的第一遍中,好的與壞的列表都將為空,因此往往會將大多數(shù)短語添加到可能短語列表206中。如果候選短語沒有出現(xiàn)在好短語列表208中,那就將其添加到可能短語列表206 中,除非其中已經(jīng)存在所述候短語??赡芏陶Z列表206上的每個款目ρ都具有三個相伴計數(shù)P(p)存在可能短語的文獻數(shù);S(p)可能短語的所有實例數(shù);及M(p)可能短語的引起注意的實例數(shù)。在可能短語與文獻中的相鄰內(nèi)容的不同之處在于語法或格式標記,例如黑體或下劃線或為超鏈接或引號中的錨文本時,可能短語的實例“引起注意”。這些(與其它)區(qū)別外觀由各種HTML置標語言標簽與語法標記來指示。 當一個短語被放在好短語列表208中時,所述短語的這些統(tǒng)計值仍被保留。除了各列表外,還保留好短語的同時出現(xiàn)矩陣212(G)。矩陣G具有mxm維,其中m 是好短語的數(shù)量。矩陣中的每個款目G(j,k)代表一對好短語(gj,&)。同時出現(xiàn)矩陣212 在邏輯上(但在物理上不一定)保留每對好短語(gj,gk)關(guān)于二級窗口 304的三個獨立計數(shù),所述窗口 304的中心位于當前字i,并且擴展+/_h個字。在一實施例中,例如如圖3所述,二級窗口 304有30個字。因此,同時出現(xiàn)矩陣212保留R(j,k):原始的同時出現(xiàn)計數(shù),即短語&與短語& 一起出現(xiàn)在二級窗口 304中的次數(shù);
D(j,k)分離的引起注意的計數(shù),即短語&或短語&作為特異文本出現(xiàn)在二級窗口中的次數(shù);及C(j,k)連接的引起注意的計數(shù),即短語&與短語&同時作為特異文本出現(xiàn)在二級窗口中的次數(shù)。使用連接的引起注意的計數(shù)尤其有利于避免短語(例如,版權(quán)通知)頻繁出現(xiàn)在側(cè)邊欄、頁腳或頁眉中并因此實際上無法預(yù)測其它文本的情形。參看圖3的實例,假定“stock dogs”以及短語“Australian Shepherd"與 "Australian Shepard Club of America”都位于好短語列表208上。后兩個短語出現(xiàn)在二級窗口 304 內(nèi)當前短語“stock dogs”周圍。然而,短語“Australian Shepherd Club of America”作為網(wǎng)站的超鏈接(由下劃線指示)的錨文本出現(xiàn)。因此,所述對{“stock dogs”, "Australian Shepherd"}的原始同時出現(xiàn)計數(shù)遞增,并且{ "stock dogs”,“Australian Shepherd Club of America"}的原始同時出現(xiàn)計數(shù)和分離的引起注意的計數(shù)都遞增,這是因為后者是作為特異文本出現(xiàn)的。對分區(qū)中的每個文獻重復(fù)以序列窗口 302與二級窗口 304遍歷每個文獻的過程。在遍歷完分區(qū)中的文獻后,編制索引操作的下一階段就是從可能短語列表206更新202好短語列表208。如果可能短語列表206上的一個可能短語ρ的出現(xiàn)頻率與出現(xiàn)所述短語的文獻數(shù)指示其足夠用作語義上有意義的短語,那就將所述短語移到好短語列表208 中。在一實施例中,其測試如下。從可能短語列表206取一個可能短語ρ并且將其放在好短語列表208中,前提條件是a)P(ρ) >10并且S(p) > 20 (含有ρ的文獻數(shù)大于10,并且短語ρ的出現(xiàn)次數(shù)大于20);或者b)M(p) > 5(短語ρ的引起注意的實例數(shù)大于5)。這些閾值與分區(qū)中的文獻數(shù)成比例;例如,如果一個分區(qū)中爬行2,000, 000個文獻,那閾值大約加倍。當然,所屬技術(shù)領(lǐng)域的技術(shù)人員將了解,這些閾值的具體值或測試其的邏輯可隨需要而變化。如果短語ρ沒有資格進入好短語列表208,則檢查其成為壞短語的資格。短語ρ是一個壞短語的條件是a)含有短語的文獻數(shù)P (ρ) < 2 ;并且b)短語的引起注意的實例數(shù)M(p) = 0。這些條件指示所述短語既不頻繁,也不能用來指示有效內(nèi)容,同樣地,這些閾值可與分區(qū)中的文獻數(shù)成比例。應(yīng)注意,如上所述,除了多字短語外,好短語列表208自然將包括個別字作為短語。這是因為短語窗口 302中的每個第一字總是一個候選短語,并且適當?shù)膶嵗嫈?shù)將累積。因此,索引系統(tǒng)110可以自動地對個別字(即,具有單個字的短語)與多字短語編制索引。好短語列表208也將比基于m個短語的所有可能組合的理論最大值短很多。在典型實施例中,好短語列表208將包括約6. 5x10s個短語。由于系統(tǒng)只需要明了可能短語和好短語,所以不需要存儲壞短語列表。通過最后一遍檢查文獻庫,由于大語料庫中短語使用的預(yù)期分布,所以可能短語的列表將相對較短。因此,如果在第10遍(例如,10,000, 000個文獻),一個短語第一次出現(xiàn),那么其在那次中是極不可能成為一個好短語的。其可能是剛開始使用的新短語,因此在隨后爬行中變得越來越常見。在那種狀況下,其相應(yīng)計數(shù)將增大,并且可能最終滿足成為一個好短語的閾值。編制索引操作的第三階段是使用從同時出現(xiàn)矩陣212獲得的預(yù)測性度量來精簡 204好短語列表208。不經(jīng)過精減,好短語列表208很可能包括許多盡管合理地出現(xiàn)在字典中但本身無法充分預(yù)測其它短語的存在或本身是更長短語的子序列的短語。除去這些較弱的好短語后更可能有力地獲得好短語。為了識別好短語,使用一預(yù)測性度量,其表示給定一短語的存在,在文獻中出現(xiàn)另一短語的可能性增加。在一實施例中,此完成如下。如上所述,同時出現(xiàn)矩陣212是存儲與好短語相關(guān)聯(lián)的數(shù)據(jù)的mxm矩陣。矩陣中的每行j代表好短語&,并且每列k代表好短語&。對于每個好短語&,計算期望值E (gj)。 期望值E是庫中預(yù)期含有&的文獻的百分比。例如,其計算為含有&的文獻數(shù)與庫中已爬行的文獻總數(shù)T的比率P(j)/T。如上所述,當&每次出現(xiàn)在文獻中時,即更新含有&的文獻數(shù)。每次&的計數(shù)增加時或在此第三階段期間,可更新E (gj)的值。接著,對于每個其它好短語&(例如,矩陣的各列),確定&是否預(yù)測了 &。&的預(yù)測性度量的確定如下i)計算期望值E(gk)。如果是無關(guān)短語,則其預(yù)期同時出現(xiàn)率E(j,k)為 E(gj)*E(gk);ii)計算的實際同時出現(xiàn)率A(j,k)。即將原始同時出現(xiàn)計數(shù)R(j,k)除以文獻總數(shù)T ;iii)據(jù)說當實際同時出現(xiàn)率A(j,k)超過預(yù)期同時出現(xiàn)率E(j,k) 一臨界量時,gj 預(yù)測gk。在一實施例中,預(yù)測性度量為信息增益。因此,當在短語&面前另一短語&的信息增益I超過一閾值時,短語&預(yù)測短語&。在一實施例中,此計算如下I(j,k) =A(j,k)/E(j,k)。并且當滿足下列條件時,好短語&預(yù)測好短語& I(j,k) >信息增益閾值。在一實施例中,信息增益閾值為1. 5,但較佳在1. 1與1. 7之間。將閾值升高到超過1.0是為了減少兩個原本無關(guān)的短語同時出現(xiàn)超過隨機預(yù)測的可能性。如上所述,相對于給定行j,對矩陣G的每列k重復(fù)信息增益的計算。在一行完成后,如果好短語&中無一短語的信息增益超過信息增益閾值,那這就意味著短語&無法預(yù)測任何其它好短語。在那種狀況下,從好短語列表208除去&,其基本上就變?yōu)閴亩陶Z。注意,不除去短語&的列j,因為這個短語本身可由其它好短語來預(yù)測。當評估完同時出現(xiàn)矩陣212中的所有行后,結(jié)束這個步驟。該階段的最后一個步驟是精簡好短語列表208以除去不完整短語。一個不完整短語是一個僅預(yù)測其擴展短語并且從所述短語的最左側(cè)(即,短語的開始處)開始的短語。 短語P的“擴展短語”是一個以短語P開始的超序列。舉例來說,短語“President of”預(yù) IlJ "President of the United States'\"President of Mexico'\"President of AT&T” 等等。由于所有后面這些短語都是以“!Resident of”開始并且是其超序列,所以他們都是"President of ”的擴展短語。因此,保留在好短語列表208上的每個短語&都將基于前述信息增益閾值來預(yù)測一定量的其它短語。現(xiàn)在,對于每個短語&,索引系統(tǒng)110執(zhí)行其與其所預(yù)測的每個短語& 的字符串匹配。字符串匹配測試每個預(yù)測短語&是否是短語&的擴展短語。如果所有預(yù)測短語&都是短語&的擴展短語,那么&就不完整,將其從好短語列表208中除去并添加到不完整短語列表216中。因此,如果存在至少一個不是&的擴展短語的短語&,那&就是完整的,并且會保留在好短語列表208中。于是舉例來說,當“!^resident of the United” 所預(yù)測的唯一其它短語是“!Resident of the United States”并且這個預(yù)測短語是所述短語的擴展短語時,“!Resident of the United”就是一個不完整短語。不完整短語列表216本身在實際搜索過程中非常有用。當接收到搜索查詢時,可將其與不完整列表216比較。如果所述查詢(或其一部分)與所述列表中的一個款目匹配, 那搜索系統(tǒng)120就可以查找這個不完整短語的最可能的擴展短語(給定不完整短語,具有最高信息增益的擴展短語),并且向用戶建議此短語或?qū)U展短語自動搜索。例如,如果搜索查詢是“President of the United”,那搜索系統(tǒng)120可以自動向用戶建議“President of the United Mates”作為搜索查詢。在完成編制索引過程的最后一個階段后,好短語列表208將含有在語料庫中發(fā)現(xiàn)的大量好短語。這些好短語中的每一個短語都將預(yù)測至少一個不是其擴展短語的其它短語。S卩,每一個好短語都以足夠的頻率使用,并且獨立代表語料庫中所表示的有意義的概念或思想。與使用預(yù)定或人工選擇的短語的現(xiàn)有系統(tǒng)不同,好短語列表反映了語料庫中正在實際使用的短語。此外,由于新文獻添加到文獻庫中使得周期性地重復(fù)上述爬行與編制索引過程,所以索引系統(tǒng)110在新短語進入詞典時自動檢測所述新短語。2.識別相關(guān)短語與相關(guān)短語的群集參看圖4,相關(guān)短語識別過程包括以下功能性操作400 識別具有高信息增益值的相關(guān)短語;402 識別相關(guān)短語的群集;404 存儲群集位向量與群集號。現(xiàn)在詳細描述這些操作中的每一個操作。首先回想,同時出現(xiàn)矩陣212含有好短語&,其中每一個短語都預(yù)測至少一個具有大于信息增益閾值的信息增益的其它好短語&。然后,為了識別400相關(guān)短語,對于每一對好短語(gj,,將信息增益與相關(guān)短語閾值(例如,100)進行比較。S卩,當I(gj,gk) > 100 時,是相關(guān)短語。使用此高閾值來識別很好地超過統(tǒng)計期望率的好短語的同時出現(xiàn)。在統(tǒng)計上,其意指短語&與&同時出現(xiàn)率超過預(yù)期同時出現(xiàn)率的100倍。舉例來說,給定文獻中的短語 "Monica Lewinsky”,如果短語“Bill Clinton”在相同文獻中更可能出現(xiàn)率是其100倍,則短語“Bill Clinton”可能出現(xiàn)在任意隨機選擇的文獻中。因為出現(xiàn)率是100 1,所以另一種表述方式是預(yù)測精確度為99. 999%。因此,將小于相關(guān)短語閾值的任何款目(gj,&)調(diào)零,以指示短語不相關(guān)?,F(xiàn)在,同時出現(xiàn)矩陣212中任何剩余款目都指示所有相關(guān)短語。
接著,通過信息增益值I (gj,gk)來對同時出現(xiàn)矩陣212的各行&中的列&排序, 使得首先列出具有最高信息增益的相關(guān)短語&。因此,此排序為一給定短語&識別出按照信息增益哪些其它短語最可能相關(guān)。下一步驟是確定402哪些相關(guān)短語一起形成相關(guān)短語群集。群集是相關(guān)短語的集合,其中每個短語相對于至少一個其它短語而具有高信息增益。在一實施例中,群集的識別如下。在矩陣的每行&中,將存在一或多個與短語&相關(guān)的其它短語。這個集合就是相關(guān)短語集合Rj,其中R = {gk gl. · · gj。對于&中的每個相關(guān)短語m,索引系統(tǒng)110確定R中的各其它相關(guān)短語是否也與 &相關(guān)。因此,如果I(gk,gl)也非零,那&、&與而是群集的一部分。對R中的每一對(gl, gm)重復(fù)此群集測試。舉例來說,假定好短語“BillClinton” 與短語“I^residenW'Monica Lewinsky,, 相關(guān),這是因為每一個這些短語相對于“Bill Clinton"的信息增益都超過相關(guān)短語閾值。 另外,假定短語“Monica Lewinsky”與短語“purse designer”相關(guān)。這些短語于是形成集合 R0為確定群集,索引系統(tǒng)110通過確定這些短語的相應(yīng)信息增益來評估每個短語相對于其它短語的信息增益。因此,索引系統(tǒng)110確定R中的所有對短語的信息增益I (“!Resident”, "Monica Lewinsky”)、I ( “President”,“purse designer”)等等。在此實例中,“Bill Clinton”、“President”與“Monica Lewinsky”形成一群集,“Bill Clinton”與“President,, 形成第二群集,并且“Monica Lewinsky”與“purse designer”形成第三群集,并且“Monica Lewinsky”、“Bill Clinton” 與 “purse designer” 形成第四群集。這是因為盡管 “Bill Clinton”沒有足夠的信息增益來預(yù)測“purse designer”,但“Monica Lewinsky”仍預(yù)測這兩個短語。為記錄404群集信息,向每一個群集指派一個唯一的群集號(群集ID)。然后,結(jié)合每一個好短語& 一起記錄此信息。在一實施例中,群集號是由群集位向量來確定,群集位向量還指示短語之間的正交關(guān)系。群集位向量是長度為η的位的序列,其中η是好短語列表208中的好短語的數(shù)量。 對于一給定好短語&,位位置對應(yīng)于&的排序后的相關(guān)短語R。如果R中的相關(guān)短語&與短語&在同一個群集中,則設(shè)定一個位。更一般來說,這意味著如果在&與&之間的任一方向上存在信息增益,則設(shè)定群集位向量中的相應(yīng)位。于是,群集號就是所得位串的值。此實施例具有這樣一個特性,即具有多向或單向信息增益的相關(guān)短語出現(xiàn)在相同群集中。如下是使用上述短語的群集位向量的一個實例
權(quán)利要求
1.一種用于響應(yīng)查詢而對包括在搜索結(jié)果中的文獻分等級的方法,所述查詢包含查詢短語,所述方法包含針對所述搜索結(jié)果中的每一個文獻存取所述查詢短語的相關(guān)短語位向量,其中所述位向量中的每一位指示所述查詢短語的相關(guān)短語在所述文獻中是否存在,其中,所述查詢短語預(yù)測所述相關(guān)短語中的每一個在所述文獻集中的出現(xiàn);以及通過一組相應(yīng)的相關(guān)短語位向量的值來對所述搜索結(jié)果中的所述文獻排序,以使得具有最高值的相關(guān)短語位向量的文獻在所述搜索結(jié)果中的等級最高,從而產(chǎn)生經(jīng)過排序的搜索結(jié)果。
2.如權(quán)利要求1所述的方法,其中,在相關(guān)短語相對于查詢短語的信息增益超過預(yù)定閾值的情況下,所述查詢短語預(yù)測相關(guān)短語。
3.如權(quán)利要求2所述的方法,當相關(guān)短語和所述查詢短語在所述文獻集中的實際同時出現(xiàn)率的度量超過所述相關(guān)短語和所述查詢短語在所述文獻集中的預(yù)期同時出現(xiàn)率時,所述預(yù)定閾值被超過,所述相關(guān)短語和所述查詢短語的預(yù)期同時出現(xiàn)率是所述相關(guān)短語和所述查詢短語在所述文獻集中的多個出現(xiàn)的函數(shù)。
4.如權(quán)利要求1所述的方法,其中所述相關(guān)短語位向量中的每一位與所述查詢短語的相關(guān)短語相關(guān)聯(lián);且對所述位排序,使所述位向量的最高有效位與相對于所述查詢短語具有最大信息增益的相關(guān)短語相關(guān)聯(lián),并且最低有效位與相對于所述查詢短語具有最小信息增益的相關(guān)短語相關(guān)聯(lián)。
5.如權(quán)利要求1所述的方法,其中,對所述相關(guān)短語位向量的所述位排序,使所述位向量的最高有效位與相對于所述查詢短語具有最大信息增益的相關(guān)短語相關(guān)聯(lián),并且最低有效位與相對于所述查詢短語具有最小信息增益的相關(guān)短語相關(guān)聯(lián)。
全文摘要
本發(fā)明涉及信息檢索系統(tǒng)中基于短語的搜索。本發(fā)明涉及一種信息檢索系統(tǒng),其使用短語來編制索引、檢索、組織并描述文獻。識別預(yù)測文獻中存在其它短語的短語。根據(jù)文獻中所包括的短語來對文獻編制索引。同時識別相關(guān)短語與擴展短語。識別并使用查詢中的短語來檢索文獻并對文獻分等級。同時使用短語來群集搜索結(jié)果中的文獻、創(chuàng)建文獻說明并從搜索結(jié)果與索引中去除重復(fù)文獻。
文檔編號G06F17/30GK102226899SQ201110198660
公開日2011年10月26日 申請日期2005年7月26日 優(yōu)先權(quán)日2004年7月26日
發(fā)明者安娜·林恩·帕特森 申請人:咕果公司