專(zhuān)利名稱(chēng):信息檢索系統(tǒng)中基于短語(yǔ)的搜索的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于對(duì)諸如互聯(lián)網(wǎng)(Internet)的大規(guī)模語(yǔ)料庫(kù)中的文獻(xiàn)編制索引、搜索與分類(lèi)的信息檢索系統(tǒng)。
背景技術(shù):
信息檢索系統(tǒng)通常稱(chēng)作搜索引擎,如今它們是一種用于在諸如互聯(lián)網(wǎng)的大規(guī)模、 多樣化并不斷增長(zhǎng)的語(yǔ)料庫(kù)中尋找信息的基本工具。一般來(lái)說(shuō),搜索引擎創(chuàng)建索引以使文獻(xiàn)(或“頁(yè)”)與各文獻(xiàn)中存在的個(gè)別字相關(guān)。響應(yīng)一含有多個(gè)查詢(xún)項(xiàng)的查詢(xún)來(lái)檢索文獻(xiàn), 此通常是基于在文獻(xiàn)中存在一定數(shù)量的查詢(xún)項(xiàng)而實(shí)現(xiàn)的。根據(jù)諸如查詢(xún)項(xiàng)出現(xiàn)的頻率、主域、鏈接分析等其它統(tǒng)計(jì)度量來(lái)對(duì)檢索到的文獻(xiàn)分等級(jí)。然后,通常按分等級(jí)后的次序?qū)z索到的文獻(xiàn)呈現(xiàn)給用戶(hù),而不進(jìn)行任何其他分組或強(qiáng)制分級(jí)。在某些狀況下,僅呈現(xiàn)文獻(xiàn)文本的選定部分以便使用戶(hù)能夠粗略了解所述文獻(xiàn)的內(nèi)容。查詢(xún)項(xiàng)的直接“布爾(Boolean)”匹配具有多個(gè)熟知的限制,并且尤其無(wú)法識(shí)別那些不具有查詢(xún)項(xiàng)但具有相關(guān)字的文獻(xiàn)。舉例來(lái)說(shuō),在典型的布爾系統(tǒng)中,搜索“Australian Shepherds (澳大利亞牧羊犬)”時(shí)將不會(huì)返回不具有確切查詢(xún)項(xiàng)的關(guān)于其它herding dogs (牧羊犬)(例如,Border Collies (博得牧羊犬))的文獻(xiàn)。反而,所述系統(tǒng)通??赡芡瑫r(shí)檢索到關(guān)于Australia(澳大利亞)(并且與dogs (狗)無(wú)關(guān))的文獻(xiàn)與關(guān)于"shepherds (牧羊犬),,的文獻(xiàn),并且將這些文獻(xiàn)排在較高等級(jí)。這里的問(wèn)題是傳統(tǒng)的系統(tǒng)是根據(jù)個(gè)別項(xiàng)而不是概念來(lái)編制文獻(xiàn)索引。概念通常以短語(yǔ)表示,如"Australian Sh印herd (澳大利亞牧羊犬)”、"President of the United Mates (美國(guó)總統(tǒng))”或者“Sundance Film Festival (圣丹斯電影節(jié))”等。某些現(xiàn)有系統(tǒng)最多是就預(yù)定且非常有限的“已知”短語(yǔ)集合來(lái)編制文獻(xiàn)索引,這些“已知”短語(yǔ)一般是由人工操作員選擇的。因?yàn)椴煊X(jué)到識(shí)別由(比如)三個(gè)、四個(gè)或五個(gè)或更多個(gè)字組成的所有可能的短語(yǔ)需要計(jì)算與存儲(chǔ)器,所以一般會(huì)避免對(duì)短語(yǔ)編制索引。舉例來(lái)說(shuō),如果假定任意五個(gè)字可構(gòu)成一個(gè)短語(yǔ)并且一個(gè)大的語(yǔ)料庫(kù)將具有至少200,000個(gè)唯一項(xiàng),那么將存在約3. 2*1026個(gè)可能短語(yǔ),此明顯超出任何現(xiàn)有系統(tǒng)能夠存儲(chǔ)于存儲(chǔ)器中的量或者其可另外編程操縱的量。另一個(gè)問(wèn)題是短語(yǔ)不斷輸入并會(huì)超出其在詞典中的用法,此比發(fā)明新的個(gè)別字頻繁得多。新短語(yǔ)總是從諸如技術(shù)、藝術(shù)、世界事件與法律等來(lái)源中產(chǎn)生。其它短語(yǔ)將隨時(shí)間降低使用。某些現(xiàn)有信息檢索系統(tǒng)試圖通過(guò)使用個(gè)別字同時(shí)出現(xiàn)的模式來(lái)提供概念檢索。在這些系統(tǒng)中,搜索一個(gè)字,例如“President (總統(tǒng))”,將同時(shí)檢索到具有頻繁地與 "President (總統(tǒng))”一起出現(xiàn)的其它字(如“White (白色)”及“House (房子)”)的文獻(xiàn)。 盡管這種方法可能產(chǎn)生具有在個(gè)別字水平上概念性地相關(guān)的文獻(xiàn)的搜索結(jié)果,但其一般無(wú)法俘獲在同時(shí)出現(xiàn)的短語(yǔ)之間存在的主題關(guān)系。因此,需要一種信息檢索系統(tǒng)與方法,其能夠全面地識(shí)別大規(guī)模語(yǔ)料庫(kù)中的短語(yǔ)、 根據(jù)短語(yǔ)編制文獻(xiàn)索引、根據(jù)其短語(yǔ)搜索文獻(xiàn)并將文獻(xiàn)分等級(jí)、并提供關(guān)于所述文獻(xiàn)的另外的群集與說(shuō)明性信息。
發(fā)明內(nèi)容
本發(fā)明涉及一種信息檢索系統(tǒng)與方法,其使用短語(yǔ)來(lái)對(duì)文獻(xiàn)庫(kù)中的文獻(xiàn)編制索弓丨、進(jìn)行搜索、分等級(jí)及說(shuō)明。所述系統(tǒng)適合于識(shí)別那些在文獻(xiàn)庫(kù)中具有足夠頻繁及/或獨(dú)特用法的短語(yǔ)以指示其為“有效”或“好”短語(yǔ)。以此方式,可識(shí)別多字短語(yǔ),例如由四個(gè)、 五個(gè)或更多項(xiàng)組成的短語(yǔ)。這就避免了必須識(shí)別由給定數(shù)量的字的所有可能序列所產(chǎn)生的每個(gè)可能的短語(yǔ)并對(duì)其編制索引的問(wèn)題。該系統(tǒng)還適合于根據(jù)短語(yǔ)預(yù)測(cè)文獻(xiàn)中存在其它短語(yǔ)的能力來(lái)識(shí)別彼此相關(guān)的短語(yǔ)。更具體地說(shuō),利用使兩個(gè)短語(yǔ)的實(shí)際同時(shí)出現(xiàn)率與這兩個(gè)短語(yǔ)的預(yù)期同時(shí)出現(xiàn)率相關(guān)的預(yù)測(cè)度量。一種此類(lèi)預(yù)測(cè)度量是信息增益,即實(shí)際同時(shí)出現(xiàn)率與預(yù)期同時(shí)出現(xiàn)率的比率。 在預(yù)測(cè)度量超過(guò)一預(yù)定閾值時(shí),兩個(gè)短語(yǔ)相關(guān)。在那種狀況下,第二短語(yǔ)相對(duì)于第一短語(yǔ)具有顯著的信息增益。語(yǔ)義上,相關(guān)短語(yǔ)將是那些共同用來(lái)討論或描述一給定主題或概念的短語(yǔ),如 “President of the United Mates (美國(guó)總統(tǒng))”與 “White House (白宮)”。對(duì)于一給定短語(yǔ),相關(guān)短語(yǔ)可根據(jù)其相關(guān)性或有效性基于其各自的預(yù)測(cè)度量來(lái)定序。信息檢索系統(tǒng)通過(guò)有效或好短語(yǔ)來(lái)對(duì)文獻(xiàn)庫(kù)中的文獻(xiàn)編制索引。對(duì)于每一個(gè)短語(yǔ),一個(gè)記入列表識(shí)別那些含有所述短語(yǔ)的文獻(xiàn)。此外,對(duì)于一給定短語(yǔ),使用第二列表、向量或其它結(jié)構(gòu)來(lái)存儲(chǔ)指示在含有所述給定短語(yǔ)的每一文獻(xiàn)中還存在給定短語(yǔ)的哪些相關(guān)短語(yǔ)的數(shù)據(jù)。以此方式,所述系統(tǒng)不僅能夠響應(yīng)搜索查詢(xún)而輕易地識(shí)別出哪些文獻(xiàn)含有哪些短語(yǔ),而且能夠識(shí)別出哪些文獻(xiàn)還含有與查詢(xún)短語(yǔ)相關(guān)、并且因此更可能特定地關(guān)于查詢(xún)短語(yǔ)所表示的主題或概念的短語(yǔ)。使用短語(yǔ)與相關(guān)短語(yǔ)還創(chuàng)建并使用了相關(guān)短語(yǔ)的群集,其在語(yǔ)義上代表短語(yǔ)的有意義的分組。從在群集中的所有短語(yǔ)之間具有非常高的預(yù)測(cè)度量的相關(guān)短語(yǔ)來(lái)識(shí)別群集。 群集可用來(lái)組織搜索結(jié)果,包括選擇搜索結(jié)果中包括哪些文獻(xiàn)及其次序,以及從搜索結(jié)果去除文獻(xiàn)。信息檢索系統(tǒng)還適合于在響應(yīng)查詢(xún)而搜索文獻(xiàn)時(shí)使用短語(yǔ)。處理查詢(xún)以便識(shí)別在查詢(xún)中存在的任何短語(yǔ),從而檢索查詢(xún)短語(yǔ)的相伴記入列表與相關(guān)短語(yǔ)信息。此外,在有些情況下,用戶(hù)可以在搜索查詢(xún)中輸入不完整的短語(yǔ),如“!Resident of the (……總統(tǒng))”。 可以識(shí)別象這樣的不完整短語(yǔ)并且用擴(kuò)展短語(yǔ)來(lái)代替,如“!Resident of the United Mates (美國(guó)總統(tǒng))”。這有助于確保實(shí)際執(zhí)行用戶(hù)最有可能的搜索。系統(tǒng)也可使用相關(guān)短語(yǔ)信息來(lái)識(shí)別或選擇搜索結(jié)果中包括哪些文獻(xiàn)。對(duì)于一給定短語(yǔ)與一給定文獻(xiàn),相關(guān)短語(yǔ)信息指出在所述給定文獻(xiàn)中存在所述給定短語(yǔ)的哪些相關(guān)短語(yǔ)。因此,對(duì)于一含有兩個(gè)查詢(xún)短語(yǔ)的查詢(xún)來(lái)說(shuō),先處理第一查詢(xún)短語(yǔ)的記入列表以識(shí)別含有第一查詢(xún)短語(yǔ)的文獻(xiàn),接著處理相關(guān)短語(yǔ)信息以識(shí)別這些文獻(xiàn)中哪些文獻(xiàn)還含有第二查詢(xún)短語(yǔ)。接著,將后面這些文獻(xiàn)包括在搜索結(jié)果中。這就不需要系統(tǒng)接著單獨(dú)處理第二查詢(xún)短語(yǔ)的記入列表,由此提供更快的搜索時(shí)間。當(dāng)然,此方法也可以擴(kuò)展到查詢(xún)中有任意數(shù)量的短語(yǔ),從而能夠顯著節(jié)約計(jì)算與時(shí)間。系統(tǒng)還可適合于使用短語(yǔ)與相關(guān)短語(yǔ)信息來(lái)對(duì)一組搜索結(jié)果中的文獻(xiàn)分等級(jí)。一給定短語(yǔ)的相關(guān)短語(yǔ)信息較佳以諸如位向量的格式存儲(chǔ),其表示每一相關(guān)短語(yǔ)相對(duì)于所述給定短語(yǔ)的有效性。舉例來(lái)說(shuō),一個(gè)相關(guān)短語(yǔ)位向量對(duì)于給定短語(yǔ)的每一個(gè)相關(guān)短語(yǔ)均具有一個(gè)位,這些位根據(jù)相關(guān)短語(yǔ)的預(yù)測(cè)度量(例如,信息增益)來(lái)定序。相關(guān)短語(yǔ)位向量的最有效的位與具有最高預(yù)測(cè)度量的相關(guān)短語(yǔ)相關(guān),并且最低有效位與具有最低預(yù)測(cè)度量的相關(guān)短語(yǔ)相關(guān)。以此方式,對(duì)于一給定文獻(xiàn)與一給定短語(yǔ),相關(guān)短語(yǔ)信息可用來(lái)對(duì)文獻(xiàn)計(jì)分。位向量本身(作為一個(gè)值)的值可用作文獻(xiàn)分?jǐn)?shù),以此方式,含有查詢(xún)短語(yǔ)的高級(jí)相關(guān)短語(yǔ)的文獻(xiàn)比具有低級(jí)相關(guān)短語(yǔ)的文獻(xiàn)更可能在主題上與查詢(xún)相關(guān)。位向量值也可用作更復(fù)雜的計(jì)分函數(shù)中的一個(gè)分量,并且還可以加權(quán)。接著,可以根據(jù)文獻(xiàn)分?jǐn)?shù)來(lái)對(duì)文獻(xiàn)分等級(jí)。短語(yǔ)信息也可以用在信息檢索系統(tǒng)中以使用戶(hù)的搜索個(gè)性化。將用戶(hù)模擬為一個(gè)從(例如)所述用戶(hù)曾經(jīng)訪問(wèn)過(guò)(例如,在屏幕上看、打印、存儲(chǔ)等等)的文獻(xiàn)所獲得的短語(yǔ)集合。更特定地說(shuō),給定用戶(hù)訪問(wèn)過(guò)的文獻(xiàn),則在用戶(hù)模型或概況中就會(huì)包括在此文獻(xiàn)中存在的相關(guān)短語(yǔ)。在隨后的搜索期間,使用用戶(hù)模型中的短語(yǔ)來(lái)過(guò)濾搜索查詢(xún)的短語(yǔ)并對(duì)檢索到的文獻(xiàn)的文獻(xiàn)分?jǐn)?shù)加權(quán)。短語(yǔ)信息也可以用在信息檢索系統(tǒng)中以創(chuàng)建(例如)包括在一組搜索結(jié)果中的文獻(xiàn)的文獻(xiàn)說(shuō)明。給定一搜索查詢(xún),所述系統(tǒng)識(shí)別出查詢(xún)中存在的短語(yǔ)以及其相關(guān)短語(yǔ)與其擴(kuò)展短語(yǔ)。對(duì)于一給定文獻(xiàn),所述文獻(xiàn)的每一個(gè)句子都具有一個(gè)在句子中存在多少個(gè)查詢(xún)短語(yǔ)、相關(guān)短語(yǔ)與擴(kuò)展短語(yǔ)的計(jì)數(shù)??梢酝ㄟ^(guò)這些計(jì)數(shù)(個(gè)別或組合)來(lái)對(duì)文獻(xiàn)句子分等級(jí),并且選擇一定數(shù)量的最高等級(jí)的句子(例如,五個(gè)句子)來(lái)形成文獻(xiàn)說(shuō)明。當(dāng)搜索結(jié)果中包括所述文獻(xiàn)時(shí),可以接著向用戶(hù)呈現(xiàn)文獻(xiàn)說(shuō)明,使得相對(duì)于查詢(xún)用戶(hù)能夠更好地了解所述文獻(xiàn)。
進(jìn)一步改進(jìn)這種產(chǎn)生文獻(xiàn)說(shuō)明的方法,以使系統(tǒng)能夠提供反映用戶(hù)興趣所在的個(gè)性化說(shuō)明。如上所述,用戶(hù)模型存儲(chǔ)了識(shí)別用戶(hù)感興趣的相關(guān)短語(yǔ)的信息。此用戶(hù)模型與一列與查詢(xún)短語(yǔ)相關(guān)的短語(yǔ)相交,以識(shí)別這兩組共有的短語(yǔ)。然后,根據(jù)相關(guān)短語(yǔ)信息來(lái)對(duì)所述共有集合定序。接著,使用所得相關(guān)短語(yǔ)集合來(lái)根據(jù)每一文獻(xiàn)中存在的這些相關(guān)短語(yǔ)的實(shí)例數(shù)來(lái)對(duì)文獻(xiàn)的句子分等級(jí)。選擇具有最高數(shù)量的共有相關(guān)短語(yǔ)的多個(gè)句子作為個(gè)性化文獻(xiàn)說(shuō)明。當(dāng)對(duì)文獻(xiàn)庫(kù)編制索引(爬行)或當(dāng)處理搜索查詢(xún)時(shí),信息檢索系統(tǒng)也可以使用短語(yǔ)信息來(lái)識(shí)別并去除重復(fù)文獻(xiàn)。對(duì)于一給定文獻(xiàn),所述文獻(xiàn)的每一個(gè)句子都具有一個(gè)在句子中存在多少個(gè)相關(guān)短語(yǔ)的計(jì)數(shù)??梢酝ㄟ^(guò)此計(jì)數(shù)來(lái)對(duì)文獻(xiàn)句子分等級(jí),并且選擇多個(gè)最高等級(jí)的句子(例如,五個(gè)句子)來(lái)形成文獻(xiàn)說(shuō)明。然后,將與文獻(xiàn)相關(guān)的此說(shuō)明存儲(chǔ)(例如)為所述句子的字符串或散列。在編制索引期間,以相同方式處理新爬行的文獻(xiàn)以產(chǎn)生文獻(xiàn)說(shuō)明。新的文獻(xiàn)說(shuō)明可與先前的文獻(xiàn)說(shuō)明匹配(例如,散列),并且如果發(fā)現(xiàn)匹配,那么這個(gè)新的文獻(xiàn)就是一個(gè)重復(fù)文獻(xiàn)。類(lèi)似地,在準(zhǔn)備搜索查詢(xún)的結(jié)果期間,可以處理搜索結(jié)果集合中的文獻(xiàn)以去除重復(fù)文獻(xiàn)。本發(fā)明的系統(tǒng)與軟件架構(gòu)、計(jì)算機(jī)程序產(chǎn)品及計(jì)算機(jī)實(shí)施的方法與計(jì)算機(jī)產(chǎn)生的用戶(hù)界面與呈現(xiàn)具有其它實(shí)施例。上文僅僅是基于短語(yǔ)的信息檢索系統(tǒng)與方法的一些特征。信息檢索領(lǐng)域的技術(shù)人員將了解,短語(yǔ)信息普遍性的靈活性使其能夠在文獻(xiàn)分析與處理的編制索引、文獻(xiàn)注釋、搜索、分等級(jí)與其它領(lǐng)域中廣泛使用與應(yīng)用。
圖1是本發(fā)明的一個(gè)實(shí)施例的軟件架構(gòu)的方塊圖。圖2說(shuō)明一種用于識(shí)別文獻(xiàn)中的短語(yǔ)的方法。圖3說(shuō)明一具有短語(yǔ)窗口與二級(jí)窗口的文獻(xiàn)。圖4說(shuō)明一種用于識(shí)別相關(guān)短語(yǔ)的方法。圖5說(shuō)明一種對(duì)相關(guān)短語(yǔ)的文獻(xiàn)編制索引的方法。圖6說(shuō)明一種基于短語(yǔ)檢索文獻(xiàn)的方法。圖7說(shuō)明用于顯示搜索結(jié)果的顯示系統(tǒng)的操作。圖及圖8b說(shuō)明引用文獻(xiàn)與被引用文獻(xiàn)之間的關(guān)系。這些圖式僅僅是為了說(shuō)明的目的而描繪本發(fā)明的一較佳實(shí)施例。從以下討論,所屬技術(shù)領(lǐng)域的技術(shù)人員將容易地了解,在不偏離本文所述的本發(fā)明的原理下,可采用本文所述的結(jié)構(gòu)與方法的替代實(shí)施例。
具體實(shí)施例方式I.系統(tǒng)概述現(xiàn)在參看圖1,其展示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的搜索系統(tǒng)100的一實(shí)施例的軟件架構(gòu)。在此實(shí)施例中,系統(tǒng)包括一索引系統(tǒng)100、一搜索系統(tǒng)120、一顯示系統(tǒng)130與一前端服務(wù)器140。索引系統(tǒng)110負(fù)責(zé)識(shí)別文獻(xiàn)中的短語(yǔ)并根據(jù)其短語(yǔ)通過(guò)訪問(wèn)不同網(wǎng)站190與其它文獻(xiàn)庫(kù)來(lái)對(duì)文獻(xiàn)編制索引。前端服務(wù)器140從用戶(hù)端170的用戶(hù)接收查詢(xún),并且向搜索系統(tǒng)120提供那些查詢(xún)。搜索系統(tǒng)120負(fù)責(zé)搜索與搜索查詢(xún)相關(guān)的文獻(xiàn)(搜索結(jié)果),包括識(shí)別搜索查詢(xún)中的任何短語(yǔ),接著使用出現(xiàn)的短語(yǔ)對(duì)搜索結(jié)果中的文獻(xiàn)分等級(jí)以影響等級(jí)次序。搜索系統(tǒng)120向顯示系統(tǒng)130提供搜索結(jié)果。顯示系統(tǒng)130負(fù)責(zé)修正搜索結(jié)果(包括除去接近重復(fù)的文獻(xiàn)和產(chǎn)生文獻(xiàn)的主題說(shuō)明),并將修正后的搜索結(jié)果返回給前端服務(wù)器 140,即將結(jié)果提供給用戶(hù)端170。系統(tǒng)100進(jìn)一步包括一用于存儲(chǔ)關(guān)于文獻(xiàn)的索引信息的索引150與一用于存儲(chǔ)短語(yǔ)與相關(guān)統(tǒng)計(jì)信息的短語(yǔ)數(shù)據(jù)存儲(chǔ)160。就本申請(qǐng)案而言,“文獻(xiàn)”應(yīng)理解為可以由搜索引擎編制索引并檢索的任何類(lèi)型的媒體,包括網(wǎng)頁(yè)文獻(xiàn)、圖像、多媒體文件、文本文獻(xiàn)、PDF或其它圖像格式的文件等等。一個(gè)文獻(xiàn)可以具有一或多個(gè)頁(yè)、分區(qū)、段或其他適合其內(nèi)容與類(lèi)型的組成部分。同等地,文獻(xiàn)可以稱(chēng)為“頁(yè)”,其常用來(lái)指互聯(lián)網(wǎng)上的文獻(xiàn)。使用通用術(shù)語(yǔ)“文獻(xiàn)”并不意味對(duì)本發(fā)明的范疇進(jìn)行任何限制。搜索系統(tǒng)100可對(duì)大的文獻(xiàn)語(yǔ)料庫(kù)進(jìn)行操作,如互聯(lián)網(wǎng)與萬(wàn)維網(wǎng),但其同樣可用于更有限的集合中,如用于圖書(shū)館或私營(yíng)企業(yè)的文獻(xiàn)庫(kù)。在任一情形下應(yīng)了解,文獻(xiàn)一般分布在許多不同的計(jì)算機(jī)系統(tǒng)與站點(diǎn)中。于是,不喪失一般性,不管格式或位置(例如,哪個(gè)網(wǎng)站或數(shù)據(jù)庫(kù)),將文獻(xiàn)統(tǒng)稱(chēng)為語(yǔ)料庫(kù)或文獻(xiàn)庫(kù)。每個(gè)文獻(xiàn)都具有一個(gè)唯一識(shí)別所述文獻(xiàn)的相伴識(shí)別符;所述識(shí)別符較佳為URL,但也可以使用其它類(lèi)型的識(shí)別符(例如,文獻(xiàn)號(hào))。 在本揭示中,假定使用URL來(lái)識(shí)別文獻(xiàn)。II.索引系統(tǒng)在一實(shí)施例中,索引系統(tǒng)110提供三個(gè)主要功能性操作1)識(shí)別短語(yǔ)與相關(guān)短語(yǔ), 2)關(guān)于短語(yǔ)對(duì)文獻(xiàn)編制索引,及幻產(chǎn)生并維持基于短語(yǔ)的分類(lèi)。所屬技術(shù)領(lǐng)域的技術(shù)人員將了解,在傳統(tǒng)索引功能的支持下,索引系統(tǒng)110還將執(zhí)行其它功能,因此本文不再進(jìn)一步說(shuō)明這些其它操作。索引系統(tǒng)110對(duì)短語(yǔ)數(shù)據(jù)的索引150與數(shù)據(jù)儲(chǔ)存庫(kù)160進(jìn)行操作。下文進(jìn)一步說(shuō)明這些數(shù)據(jù)儲(chǔ)存庫(kù)。1.短語(yǔ)識(shí)別索引系統(tǒng)110的短語(yǔ)識(shí)別操作識(shí)別文獻(xiàn)庫(kù)中的“好”與“壞”短語(yǔ),這些短語(yǔ)有助于對(duì)文獻(xiàn)編制索引并搜索。一方面,好短語(yǔ)是那些往往出現(xiàn)在文獻(xiàn)庫(kù)中超過(guò)某一百分比的文獻(xiàn)中的短語(yǔ),且/或表示為在所述文獻(xiàn)中具有不同的外觀,如由置標(biāo)標(biāo)簽或其它形態(tài)、格式或語(yǔ)法標(biāo)記來(lái)定界。好短語(yǔ)的另一方面是其能夠預(yù)測(cè)其它好短語(yǔ),而不僅僅是出現(xiàn)在詞典中的字序列。舉例來(lái)說(shuō),短語(yǔ)“President of the United States (美國(guó)總統(tǒng))”是一個(gè)預(yù)測(cè)諸如“George Bush (喬治·布什)”與“Bill Clinton (比爾·克林頓)”等其它短語(yǔ)的短語(yǔ)。然而,諸如"fell down the stairs”或"top of the morning,,、“out of the blue” 的其它短語(yǔ)不具預(yù)測(cè)性,這是因?yàn)橄筮@些的成語(yǔ)與習(xí)語(yǔ)往往與許多其它不同且無(wú)關(guān)的短語(yǔ)一起出現(xiàn)。因此,短語(yǔ)識(shí)別階段確定哪些短語(yǔ)是好短語(yǔ)而哪些是壞短語(yǔ)(即,缺乏預(yù)測(cè)能力)。現(xiàn)在參看圖2,短語(yǔ)識(shí)別過(guò)程具有以下功能性階段200 收集可能且好的短語(yǔ),以及所述短語(yǔ)的頻率與同時(shí)出現(xiàn)的統(tǒng)計(jì)值;202 基于頻率統(tǒng)計(jì)值將可能短語(yǔ)分為好短語(yǔ)或壞短語(yǔ);204:基于從同時(shí)出現(xiàn)的統(tǒng)計(jì)值獲得的預(yù)測(cè)性度量來(lái)精簡(jiǎn)好短語(yǔ)列表?,F(xiàn)在將進(jìn)一步詳細(xì)地說(shuō)明這些階段的每個(gè)階段。
第一階段200是這樣一個(gè)過(guò)程,通過(guò)該過(guò)程,索引系統(tǒng)110爬行(crawl)文獻(xiàn)庫(kù)中的一組文獻(xiàn),隨時(shí)間形成所述文獻(xiàn)庫(kù)的多個(gè)重復(fù)分區(qū)。每遍處理一個(gè)分區(qū)。每遍爬行的文獻(xiàn)數(shù)可能變化,較佳為每個(gè)分區(qū)約1,000,000個(gè)文獻(xiàn)。較佳僅處理每個(gè)分區(qū)中先前未爬行的文獻(xiàn),直到處理完所有文獻(xiàn),或滿(mǎn)足某一其它終止準(zhǔn)則。實(shí)際上,由于新文獻(xiàn)不斷地添加到文獻(xiàn)庫(kù)中,所以爬行不斷繼續(xù)。索引系統(tǒng)110對(duì)爬行后的每個(gè)文獻(xiàn)采取下列步驟。以η的短語(yǔ)窗口長(zhǎng)度遍歷所述文獻(xiàn)的各字,其中η是期望的最大短語(yǔ)長(zhǎng)度。窗口的長(zhǎng)度一般為至少2項(xiàng),較佳為4或5項(xiàng)(字)。短語(yǔ)較佳包括短語(yǔ)窗口中的所有字,包括那些否則會(huì)被表征為結(jié)束字的字,如“a”、“the”等等。短語(yǔ)窗口可以由行尾、段落返回、置標(biāo)標(biāo)簽或其他內(nèi)容或格式變化的標(biāo)志來(lái)終止。圖3說(shuō)明遍歷期間文獻(xiàn)300的一部分,其展示短語(yǔ)窗口 302從字“stock”開(kāi)始并向右擴(kuò)展5個(gè)字。窗口 302中的第一個(gè)字是候選短語(yǔ)i,并且序列i+l、i+2、i+3、i+4與i+5 中的每個(gè)短語(yǔ)同樣為候選短語(yǔ)。因此,在此實(shí)例中,候選短語(yǔ)為“st0Ck”、“St0Ck dogs”、 "stock dogs for "λ" stock dogs for the,,、"stock dogs for the Basque,,與"stock dogs for the Basque shepherds,,。在每個(gè)短語(yǔ)窗口 302中,依次檢查每個(gè)候選短語(yǔ)以確定其是否已經(jīng)存在于好短語(yǔ)列表208或可能短語(yǔ)列表206中。如果候選短語(yǔ)未出現(xiàn)在好短語(yǔ)列表208或可能短語(yǔ)列表 206中,那就確定所述候選短語(yǔ)為“壞”短語(yǔ)并將其跳過(guò)。如果候選短語(yǔ)出現(xiàn)在好短語(yǔ)列表208中,如款目&,那就更新短語(yǔ)&的索引150款目以包括所述文獻(xiàn)(例如,其URL或其它文獻(xiàn)識(shí)別符),以指示此候選短語(yǔ)&出現(xiàn)在當(dāng)前文獻(xiàn)中。短語(yǔ)&的索引150中的款目(或項(xiàng))稱(chēng)作短語(yǔ)&的記入列表。記入列表包括其中出現(xiàn)短語(yǔ)的一列文獻(xiàn)d(通過(guò)其文獻(xiàn)識(shí)別符,例如文獻(xiàn)號(hào)或者URL)。此外,如下文進(jìn)一步解釋?zhuān)峦瑫r(shí)出現(xiàn)矩陣212。在最初的第一遍中,好的與壞的列表都將為空,因此往往會(huì)將大多數(shù)短語(yǔ)添加到可能短語(yǔ)列表206中。如果候選短語(yǔ)沒(méi)有出現(xiàn)在好短語(yǔ)列表208中,那就將其添加到可能短語(yǔ)列表206 中,除非其中已經(jīng)存在所述候短語(yǔ)。可能短語(yǔ)列表206上的每個(gè)款目ρ都具有三個(gè)相伴計(jì)數(shù)P(p)存在可能短語(yǔ)的文獻(xiàn)數(shù);S(p)可能短語(yǔ)的所有實(shí)例數(shù);及M(p)可能短語(yǔ)的引起注意的實(shí)例數(shù)。在可能短語(yǔ)與文獻(xiàn)中的相鄰內(nèi)容的不同之處在于語(yǔ)法或格式標(biāo)記,例如黑體或下劃線(xiàn)或?yàn)槌溄踊蛞?hào)中的錨文本時(shí),可能短語(yǔ)的實(shí)例“引起注意”。這些(與其它)區(qū)別外觀由各種HTML置標(biāo)語(yǔ)言標(biāo)簽與語(yǔ)法標(biāo)記來(lái)指示。 當(dāng)一個(gè)短語(yǔ)被放在好短語(yǔ)列表208中時(shí),所述短語(yǔ)的這些統(tǒng)計(jì)值仍被保留。除了各列表外,還保留好短語(yǔ)的同時(shí)出現(xiàn)矩陣212(G)。矩陣G具有mxm維,其中m 是好短語(yǔ)的數(shù)量。矩陣中的每個(gè)款目G(j,k)代表一對(duì)好短語(yǔ)(gj,&)。同時(shí)出現(xiàn)矩陣212 在邏輯上(但在物理上不一定)保留每對(duì)好短語(yǔ)(gj,gk)關(guān)于二級(jí)窗口 304的三個(gè)獨(dú)立計(jì)數(shù),所述窗口 304的中心位于當(dāng)前字i,并且擴(kuò)展+/_h個(gè)字。在一實(shí)施例中,例如如圖3所述,二級(jí)窗口 304有30個(gè)字。因此,同時(shí)出現(xiàn)矩陣212保留R(j,k):原始的同時(shí)出現(xiàn)計(jì)數(shù),即短語(yǔ)&與短語(yǔ)& 一起出現(xiàn)在二級(jí)窗口 304中的次數(shù);
D(j,k)分離的引起注意的計(jì)數(shù),即短語(yǔ)&或短語(yǔ)&作為特異文本出現(xiàn)在二級(jí)窗口中的次數(shù);及C(j,k)連接的引起注意的計(jì)數(shù),即短語(yǔ)&與短語(yǔ)&同時(shí)作為特異文本出現(xiàn)在二級(jí)窗口中的次數(shù)。使用連接的引起注意的計(jì)數(shù)尤其有利于避免短語(yǔ)(例如,版權(quán)通知)頻繁出現(xiàn)在側(cè)邊欄、頁(yè)腳或頁(yè)眉中并因此實(shí)際上無(wú)法預(yù)測(cè)其它文本的情形。參看圖3的實(shí)例,假定“stock dogs”以及短語(yǔ)“Australian Shepherd"與 "Australian Shepard Club of America”都位于好短語(yǔ)列表208上。后兩個(gè)短語(yǔ)出現(xiàn)在二級(jí)窗口 304 內(nèi)當(dāng)前短語(yǔ)“stock dogs”周?chē)H欢?,短語(yǔ)“Australian Shepherd Club of America”作為網(wǎng)站的超鏈接(由下劃線(xiàn)指示)的錨文本出現(xiàn)。因此,所述對(duì){“stock dogs”, "Australian Shepherd"}的原始同時(shí)出現(xiàn)計(jì)數(shù)遞增,并且{ "stock dogs”,“Australian Shepherd Club of America"}的原始同時(shí)出現(xiàn)計(jì)數(shù)和分離的引起注意的計(jì)數(shù)都遞增,這是因?yàn)楹笳呤亲鳛樘禺愇谋境霈F(xiàn)的。對(duì)分區(qū)中的每個(gè)文獻(xiàn)重復(fù)以序列窗口 302與二級(jí)窗口 304遍歷每個(gè)文獻(xiàn)的過(guò)程。在遍歷完分區(qū)中的文獻(xiàn)后,編制索引操作的下一階段就是從可能短語(yǔ)列表206更新202好短語(yǔ)列表208。如果可能短語(yǔ)列表206上的一個(gè)可能短語(yǔ)ρ的出現(xiàn)頻率與出現(xiàn)所述短語(yǔ)的文獻(xiàn)數(shù)指示其足夠用作語(yǔ)義上有意義的短語(yǔ),那就將所述短語(yǔ)移到好短語(yǔ)列表208 中。在一實(shí)施例中,其測(cè)試如下。從可能短語(yǔ)列表206取一個(gè)可能短語(yǔ)ρ并且將其放在好短語(yǔ)列表208中,前提條件是a)P(ρ) >10并且S(p) > 20 (含有ρ的文獻(xiàn)數(shù)大于10,并且短語(yǔ)ρ的出現(xiàn)次數(shù)大于20);或者b)M(p) > 5(短語(yǔ)ρ的引起注意的實(shí)例數(shù)大于5)。這些閾值與分區(qū)中的文獻(xiàn)數(shù)成比例;例如,如果一個(gè)分區(qū)中爬行2,000, 000個(gè)文獻(xiàn),那閾值大約加倍。當(dāng)然,所屬技術(shù)領(lǐng)域的技術(shù)人員將了解,這些閾值的具體值或測(cè)試其的邏輯可隨需要而變化。如果短語(yǔ)ρ沒(méi)有資格進(jìn)入好短語(yǔ)列表208,則檢查其成為壞短語(yǔ)的資格。短語(yǔ)ρ是一個(gè)壞短語(yǔ)的條件是a)含有短語(yǔ)的文獻(xiàn)數(shù)P (ρ) < 2 ;并且b)短語(yǔ)的引起注意的實(shí)例數(shù)M(p) = 0。這些條件指示所述短語(yǔ)既不頻繁,也不能用來(lái)指示有效內(nèi)容,同樣地,這些閾值可與分區(qū)中的文獻(xiàn)數(shù)成比例。應(yīng)注意,如上所述,除了多字短語(yǔ)外,好短語(yǔ)列表208自然將包括個(gè)別字作為短語(yǔ)。這是因?yàn)槎陶Z(yǔ)窗口 302中的每個(gè)第一字總是一個(gè)候選短語(yǔ),并且適當(dāng)?shù)膶?shí)例計(jì)數(shù)將累積。因此,索引系統(tǒng)110可以自動(dòng)地對(duì)個(gè)別字(即,具有單個(gè)字的短語(yǔ))與多字短語(yǔ)編制索引。好短語(yǔ)列表208也將比基于m個(gè)短語(yǔ)的所有可能組合的理論最大值短很多。在典型實(shí)施例中,好短語(yǔ)列表208將包括約6. 5x10s個(gè)短語(yǔ)。由于系統(tǒng)只需要明了可能短語(yǔ)和好短語(yǔ),所以不需要存儲(chǔ)壞短語(yǔ)列表。通過(guò)最后一遍檢查文獻(xiàn)庫(kù),由于大語(yǔ)料庫(kù)中短語(yǔ)使用的預(yù)期分布,所以可能短語(yǔ)的列表將相對(duì)較短。因此,如果在第10遍(例如,10,000, 000個(gè)文獻(xiàn)),一個(gè)短語(yǔ)第一次出現(xiàn),那么其在那次中是極不可能成為一個(gè)好短語(yǔ)的。其可能是剛開(kāi)始使用的新短語(yǔ),因此在隨后爬行中變得越來(lái)越常見(jiàn)。在那種狀況下,其相應(yīng)計(jì)數(shù)將增大,并且可能最終滿(mǎn)足成為一個(gè)好短語(yǔ)的閾值。編制索引操作的第三階段是使用從同時(shí)出現(xiàn)矩陣212獲得的預(yù)測(cè)性度量來(lái)精簡(jiǎn) 204好短語(yǔ)列表208。不經(jīng)過(guò)精減,好短語(yǔ)列表208很可能包括許多盡管合理地出現(xiàn)在字典中但本身無(wú)法充分預(yù)測(cè)其它短語(yǔ)的存在或本身是更長(zhǎng)短語(yǔ)的子序列的短語(yǔ)。除去這些較弱的好短語(yǔ)后更可能有力地獲得好短語(yǔ)。為了識(shí)別好短語(yǔ),使用一預(yù)測(cè)性度量,其表示給定一短語(yǔ)的存在,在文獻(xiàn)中出現(xiàn)另一短語(yǔ)的可能性增加。在一實(shí)施例中,此完成如下。如上所述,同時(shí)出現(xiàn)矩陣212是存儲(chǔ)與好短語(yǔ)相關(guān)聯(lián)的數(shù)據(jù)的mxm矩陣。矩陣中的每行j代表好短語(yǔ)&,并且每列k代表好短語(yǔ)&。對(duì)于每個(gè)好短語(yǔ)&,計(jì)算期望值E (gj)。 期望值E是庫(kù)中預(yù)期含有&的文獻(xiàn)的百分比。例如,其計(jì)算為含有&的文獻(xiàn)數(shù)與庫(kù)中已爬行的文獻(xiàn)總數(shù)T的比率P(j)/T。如上所述,當(dāng)&每次出現(xiàn)在文獻(xiàn)中時(shí),即更新含有&的文獻(xiàn)數(shù)。每次&的計(jì)數(shù)增加時(shí)或在此第三階段期間,可更新E (gj)的值。接著,對(duì)于每個(gè)其它好短語(yǔ)&(例如,矩陣的各列),確定&是否預(yù)測(cè)了 &。&的預(yù)測(cè)性度量的確定如下i)計(jì)算期望值E(gk)。如果是無(wú)關(guān)短語(yǔ),則其預(yù)期同時(shí)出現(xiàn)率E(j,k)為 E(gj)*E(gk);ii)計(jì)算的實(shí)際同時(shí)出現(xiàn)率A(j,k)。即將原始同時(shí)出現(xiàn)計(jì)數(shù)R(j,k)除以文獻(xiàn)總數(shù)T ;iii)據(jù)說(shuō)當(dāng)實(shí)際同時(shí)出現(xiàn)率A(j,k)超過(guò)預(yù)期同時(shí)出現(xiàn)率E(j,k) 一臨界量時(shí),gj 預(yù)測(cè)gk。在一實(shí)施例中,預(yù)測(cè)性度量為信息增益。因此,當(dāng)在短語(yǔ)&面前另一短語(yǔ)&的信息增益I超過(guò)一閾值時(shí),短語(yǔ)&預(yù)測(cè)短語(yǔ)&。在一實(shí)施例中,此計(jì)算如下I(j,k) =A(j,k)/E(j,k)。并且當(dāng)滿(mǎn)足下列條件時(shí),好短語(yǔ)&預(yù)測(cè)好短語(yǔ)& I(j,k) >信息增益閾值。在一實(shí)施例中,信息增益閾值為1. 5,但較佳在1. 1與1. 7之間。將閾值升高到超過(guò)1.0是為了減少兩個(gè)原本無(wú)關(guān)的短語(yǔ)同時(shí)出現(xiàn)超過(guò)隨機(jī)預(yù)測(cè)的可能性。如上所述,相對(duì)于給定行j,對(duì)矩陣G的每列k重復(fù)信息增益的計(jì)算。在一行完成后,如果好短語(yǔ)&中無(wú)一短語(yǔ)的信息增益超過(guò)信息增益閾值,那這就意味著短語(yǔ)&無(wú)法預(yù)測(cè)任何其它好短語(yǔ)。在那種狀況下,從好短語(yǔ)列表208除去&,其基本上就變?yōu)閴亩陶Z(yǔ)。注意,不除去短語(yǔ)&的列j,因?yàn)檫@個(gè)短語(yǔ)本身可由其它好短語(yǔ)來(lái)預(yù)測(cè)。當(dāng)評(píng)估完同時(shí)出現(xiàn)矩陣212中的所有行后,結(jié)束這個(gè)步驟。該階段的最后一個(gè)步驟是精簡(jiǎn)好短語(yǔ)列表208以除去不完整短語(yǔ)。一個(gè)不完整短語(yǔ)是一個(gè)僅預(yù)測(cè)其擴(kuò)展短語(yǔ)并且從所述短語(yǔ)的最左側(cè)(即,短語(yǔ)的開(kāi)始處)開(kāi)始的短語(yǔ)。 短語(yǔ)P的“擴(kuò)展短語(yǔ)”是一個(gè)以短語(yǔ)P開(kāi)始的超序列。舉例來(lái)說(shuō),短語(yǔ)“President of”預(yù) IlJ "President of the United States'\"President of Mexico'\"President of AT&T” 等等。由于所有后面這些短語(yǔ)都是以“!Resident of”開(kāi)始并且是其超序列,所以他們都是"President of ”的擴(kuò)展短語(yǔ)。因此,保留在好短語(yǔ)列表208上的每個(gè)短語(yǔ)&都將基于前述信息增益閾值來(lái)預(yù)測(cè)一定量的其它短語(yǔ)?,F(xiàn)在,對(duì)于每個(gè)短語(yǔ)&,索引系統(tǒng)110執(zhí)行其與其所預(yù)測(cè)的每個(gè)短語(yǔ)& 的字符串匹配。字符串匹配測(cè)試每個(gè)預(yù)測(cè)短語(yǔ)&是否是短語(yǔ)&的擴(kuò)展短語(yǔ)。如果所有預(yù)測(cè)短語(yǔ)&都是短語(yǔ)&的擴(kuò)展短語(yǔ),那么&就不完整,將其從好短語(yǔ)列表208中除去并添加到不完整短語(yǔ)列表216中。因此,如果存在至少一個(gè)不是&的擴(kuò)展短語(yǔ)的短語(yǔ)&,那&就是完整的,并且會(huì)保留在好短語(yǔ)列表208中。于是舉例來(lái)說(shuō),當(dāng)“!^resident of the United” 所預(yù)測(cè)的唯一其它短語(yǔ)是“!Resident of the United States”并且這個(gè)預(yù)測(cè)短語(yǔ)是所述短語(yǔ)的擴(kuò)展短語(yǔ)時(shí),“!Resident of the United”就是一個(gè)不完整短語(yǔ)。不完整短語(yǔ)列表216本身在實(shí)際搜索過(guò)程中非常有用。當(dāng)接收到搜索查詢(xún)時(shí),可將其與不完整列表216比較。如果所述查詢(xún)(或其一部分)與所述列表中的一個(gè)款目匹配, 那搜索系統(tǒng)120就可以查找這個(gè)不完整短語(yǔ)的最可能的擴(kuò)展短語(yǔ)(給定不完整短語(yǔ),具有最高信息增益的擴(kuò)展短語(yǔ)),并且向用戶(hù)建議此短語(yǔ)或?qū)U(kuò)展短語(yǔ)自動(dòng)搜索。例如,如果搜索查詢(xún)是“President of the United”,那搜索系統(tǒng)120可以自動(dòng)向用戶(hù)建議“President of the United Mates”作為搜索查詢(xún)。在完成編制索引過(guò)程的最后一個(gè)階段后,好短語(yǔ)列表208將含有在語(yǔ)料庫(kù)中發(fā)現(xiàn)的大量好短語(yǔ)。這些好短語(yǔ)中的每一個(gè)短語(yǔ)都將預(yù)測(cè)至少一個(gè)不是其擴(kuò)展短語(yǔ)的其它短語(yǔ)。S卩,每一個(gè)好短語(yǔ)都以足夠的頻率使用,并且獨(dú)立代表語(yǔ)料庫(kù)中所表示的有意義的概念或思想。與使用預(yù)定或人工選擇的短語(yǔ)的現(xiàn)有系統(tǒng)不同,好短語(yǔ)列表反映了語(yǔ)料庫(kù)中正在實(shí)際使用的短語(yǔ)。此外,由于新文獻(xiàn)添加到文獻(xiàn)庫(kù)中使得周期性地重復(fù)上述爬行與編制索引過(guò)程,所以索引系統(tǒng)110在新短語(yǔ)進(jìn)入詞典時(shí)自動(dòng)檢測(cè)所述新短語(yǔ)。2.識(shí)別相關(guān)短語(yǔ)與相關(guān)短語(yǔ)的群集參看圖4,相關(guān)短語(yǔ)識(shí)別過(guò)程包括以下功能性操作400 識(shí)別具有高信息增益值的相關(guān)短語(yǔ);402 識(shí)別相關(guān)短語(yǔ)的群集;404 存儲(chǔ)群集位向量與群集號(hào)?,F(xiàn)在詳細(xì)描述這些操作中的每一個(gè)操作。首先回想,同時(shí)出現(xiàn)矩陣212含有好短語(yǔ)&,其中每一個(gè)短語(yǔ)都預(yù)測(cè)至少一個(gè)具有大于信息增益閾值的信息增益的其它好短語(yǔ)&。然后,為了識(shí)別400相關(guān)短語(yǔ),對(duì)于每一對(duì)好短語(yǔ)(gj,,將信息增益與相關(guān)短語(yǔ)閾值(例如,100)進(jìn)行比較。S卩,當(dāng)I(gj,gk) > 100 時(shí),是相關(guān)短語(yǔ)。使用此高閾值來(lái)識(shí)別很好地超過(guò)統(tǒng)計(jì)期望率的好短語(yǔ)的同時(shí)出現(xiàn)。在統(tǒng)計(jì)上,其意指短語(yǔ)&與&同時(shí)出現(xiàn)率超過(guò)預(yù)期同時(shí)出現(xiàn)率的100倍。舉例來(lái)說(shuō),給定文獻(xiàn)中的短語(yǔ) "Monica Lewinsky”,如果短語(yǔ)“Bill Clinton”在相同文獻(xiàn)中更可能出現(xiàn)率是其100倍,則短語(yǔ)“Bill Clinton”可能出現(xiàn)在任意隨機(jī)選擇的文獻(xiàn)中。因?yàn)槌霈F(xiàn)率是100 1,所以另一種表述方式是預(yù)測(cè)精確度為99. 999%。因此,將小于相關(guān)短語(yǔ)閾值的任何款目(gj,&)調(diào)零,以指示短語(yǔ)不相關(guān)。現(xiàn)在,同時(shí)出現(xiàn)矩陣212中任何剩余款目都指示所有相關(guān)短語(yǔ)。
接著,通過(guò)信息增益值I (gj,gk)來(lái)對(duì)同時(shí)出現(xiàn)矩陣212的各行&中的列&排序, 使得首先列出具有最高信息增益的相關(guān)短語(yǔ)&。因此,此排序?yàn)橐唤o定短語(yǔ)&識(shí)別出按照信息增益哪些其它短語(yǔ)最可能相關(guān)。下一步驟是確定402哪些相關(guān)短語(yǔ)一起形成相關(guān)短語(yǔ)群集。群集是相關(guān)短語(yǔ)的集合,其中每個(gè)短語(yǔ)相對(duì)于至少一個(gè)其它短語(yǔ)而具有高信息增益。在一實(shí)施例中,群集的識(shí)別如下。在矩陣的每行&中,將存在一或多個(gè)與短語(yǔ)&相關(guān)的其它短語(yǔ)。這個(gè)集合就是相關(guān)短語(yǔ)集合民,其中R= {gk gnJ。對(duì)于&中的每個(gè)相關(guān)短語(yǔ)m,索引系統(tǒng)110確定R中的各其它相關(guān)短語(yǔ)是否也與 &相關(guān)。因此,如果I(gk,gl)也非零,那&、&與而是群集的一部分。對(duì)R中的每一對(duì)(gl, gm)重復(fù)此群集測(cè)試。舉例來(lái)說(shuō),假定好短語(yǔ)“BillClinton” 與短語(yǔ)“I^residenW'Monica Lewinsky,, 相關(guān),這是因?yàn)槊恳粋€(gè)這些短語(yǔ)相對(duì)于“Bill Clinton"的信息增益都超過(guò)相關(guān)短語(yǔ)閾值。 另外,假定短語(yǔ)“Monica Lewinsky”與短語(yǔ)“purse designer”相關(guān)。這些短語(yǔ)于是形成集合 R0為確定群集,索引系統(tǒng)110通過(guò)確定這些短語(yǔ)的相應(yīng)信息增益來(lái)評(píng)估每個(gè)短語(yǔ)相對(duì)于其它短語(yǔ)的信息增益。因此,索引系統(tǒng)110確定R中的所有對(duì)短語(yǔ)的信息增益I (“!Resident”, "Monica Lewinsky”)、I ( “President”,“purse designer”)等等。在此實(shí)例中,“Bill Clinton”、“President”與“Monica Lewinsky”形成一群集,“Bill Clinton”與“President,, 形成第二群集,并且“Monica Lewinsky”與“purse designer”形成第三群集,并且“Monica Lewinsky”、“Bill Clinton” 與 “purse designer” 形成第四群集。這是因?yàn)楸M管 “Bill Clinton”沒(méi)有足夠的信息增益來(lái)預(yù)測(cè)“purse designer”,但“Monica Lewinsky”仍預(yù)測(cè)這兩個(gè)短語(yǔ)。為記錄404群集信息,向每一個(gè)群集指派一個(gè)唯一的群集號(hào)(群集ID)。然后,結(jié)合每一個(gè)好短語(yǔ)& 一起記錄此信息。在一實(shí)施例中,群集號(hào)是由群集位向量來(lái)確定,群集位向量還指示短語(yǔ)之間的正交關(guān)系。群集位向量是長(zhǎng)度為η的位的序列,其中η是好短語(yǔ)列表208中的好短語(yǔ)的數(shù)量。 對(duì)于一給定好短語(yǔ)&,位位置對(duì)應(yīng)于&的排序后的相關(guān)短語(yǔ)R。如果R中的相關(guān)短語(yǔ)&與短語(yǔ)&在同一個(gè)群集中,則設(shè)定一個(gè)位。更一般來(lái)說(shuō),這意味著如果在&與&之間的任一方向上存在信息增益,則設(shè)定群集位向量中的相應(yīng)位。于是,群集號(hào)就是所得位串的值。此實(shí)施例具有這樣一個(gè)特性,即具有多向或單向信息增益的相關(guān)短語(yǔ)出現(xiàn)在相同群集中。如下是使用上述短語(yǔ)的群集位向量的一個(gè)實(shí)例
權(quán)利要求
1.一種用于響應(yīng)查詢(xún)而對(duì)包括在搜索結(jié)果中的文獻(xiàn)分等級(jí)的方法,所述查詢(xún)包含至少一個(gè)查詢(xún)短語(yǔ),所述方法包含針對(duì)所述搜索結(jié)果中的每一個(gè)文獻(xiàn)存取所述查詢(xún)的短語(yǔ)的相關(guān)短語(yǔ)位向量,其中所述位向量中的每一位指示所述查詢(xún)短語(yǔ)的相關(guān)短語(yǔ)是否存在;對(duì)用于指示所述查詢(xún)短語(yǔ)的相關(guān)短語(yǔ)是否存在的每一位,將與所述位相關(guān)聯(lián)的預(yù)定點(diǎn)數(shù)添加到所述文獻(xiàn)的分?jǐn)?shù)中;及使用對(duì)應(yīng)于所述文獻(xiàn)的文獻(xiàn)分?jǐn)?shù)對(duì)所述搜索結(jié)果中的所述文獻(xiàn)排序。
2.如權(quán)利要求1所述的方法,其中,在相關(guān)短語(yǔ)相對(duì)于查詢(xún)短語(yǔ)的信息增益超過(guò)預(yù)定閾值的情況下,所述查詢(xún)短語(yǔ)預(yù)測(cè)相關(guān)短語(yǔ)。
3.如權(quán)利要求2所述的方法,當(dāng)所述相關(guān)短語(yǔ)和所述查詢(xún)短語(yǔ)在所述文獻(xiàn)集中的實(shí)際同時(shí)出現(xiàn)率的度量超過(guò)所述相關(guān)短語(yǔ)和所述查詢(xún)短語(yǔ)在所述文獻(xiàn)集中的預(yù)期同時(shí)出現(xiàn)率時(shí),所述預(yù)定閾值被超過(guò),其中,所述相關(guān)短語(yǔ)和所述查詢(xún)短語(yǔ)的預(yù)期同時(shí)出現(xiàn)率是所述相關(guān)短語(yǔ)和所述查詢(xún)短語(yǔ)在所述文獻(xiàn)集中的多個(gè)出現(xiàn)的函數(shù)。
4.如權(quán)利要求1所述的方法,其中所述相關(guān)短語(yǔ)位向量中的每一位與所述查詢(xún)短語(yǔ)的相關(guān)短語(yǔ)相關(guān)聯(lián);且對(duì)所述位排序,使所述位向量的最高有效位與相對(duì)于所述查詢(xún)短語(yǔ)具有最大信息增益的相關(guān)短語(yǔ)相關(guān)聯(lián),并且最低有效位與相對(duì)于所述查詢(xún)短語(yǔ)具有最小信息增益的相關(guān)短語(yǔ)相關(guān)聯(lián);及與每一位相關(guān)聯(lián)的所述預(yù)定點(diǎn)數(shù)量的范圍是從與所述最高有效位相關(guān)聯(lián)的最大點(diǎn)數(shù)到與最低有效位相關(guān)聯(lián)的最低點(diǎn)數(shù)。
5.如權(quán)利要求1所述的方法,進(jìn)一步包含存儲(chǔ)所述搜索結(jié)果中的所述文獻(xiàn)。
全文摘要
本發(fā)明涉及信息檢索系統(tǒng)中基于短語(yǔ)的搜索。本發(fā)明涉及一種信息檢索系統(tǒng),其使用短語(yǔ)來(lái)編制索引、檢索、組織并描述文獻(xiàn)。識(shí)別預(yù)測(cè)文獻(xiàn)中存在其它短語(yǔ)的短語(yǔ)。根據(jù)文獻(xiàn)中所包括的短語(yǔ)來(lái)對(duì)文獻(xiàn)編制索引。同時(shí)識(shí)別相關(guān)短語(yǔ)與擴(kuò)展短語(yǔ)。識(shí)別并使用查詢(xún)中的短語(yǔ)來(lái)檢索文獻(xiàn)并對(duì)文獻(xiàn)分等級(jí)。同時(shí)使用短語(yǔ)來(lái)群集搜索結(jié)果中的文獻(xiàn)、創(chuàng)建文獻(xiàn)說(shuō)明并從搜索結(jié)果與索引中去除重復(fù)文獻(xiàn)。
文檔編號(hào)G06F17/30GK102226901SQ20111020037
公開(kāi)日2011年10月26日 申請(qǐng)日期2005年7月26日 優(yōu)先權(quán)日2004年7月26日
發(fā)明者安娜·林恩·帕特森 申請(qǐng)人:咕果公司