信息檢索系統(tǒng)中基于短語(yǔ)的搜索的制作方法

文檔序號(hào)：6428721閱讀：199來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：信息檢索系統(tǒng)中基于短語(yǔ)的搜索的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于對(duì)諸如互聯(lián)網(wǎng)(Internet)的大規(guī)模語(yǔ)料庫(kù)中的文獻(xiàn)編制索引、搜索與分類(lèi)的信息檢索系統(tǒng)。
背景技術(shù)：
信息檢索系統(tǒng)通常稱(chēng)作搜索引擎，如今它們是一種用于在諸如互聯(lián)網(wǎng)的大規(guī)模、多樣化并不斷增長(zhǎng)的語(yǔ)料庫(kù)中尋找信息的基本工具。一般來(lái)說(shuō)，搜索引擎創(chuàng)建索引以使文獻(xiàn)(或“頁(yè)”)與各文獻(xiàn)中存在的個(gè)別字相關(guān)。響應(yīng)一含有多個(gè)查詢(xún)項(xiàng)的查詢(xún)來(lái)檢索文獻(xiàn)，此通常是基于在文獻(xiàn)中存在一定數(shù)量的查詢(xún)項(xiàng)而實(shí)現(xiàn)的。根據(jù)諸如查詢(xún)項(xiàng)出現(xiàn)的頻率、主域、鏈接分析等其它統(tǒng)計(jì)度量來(lái)對(duì)檢索到的文獻(xiàn)分等級(jí)。然后，通常按分等級(jí)后的次序?qū)z索到的文獻(xiàn)呈現(xiàn)給用戶(hù)，而不進(jìn)行任何其他分組或強(qiáng)制分級(jí)。在某些狀況下，僅呈現(xiàn)文獻(xiàn)文本的選定部分以便使用戶(hù)能夠粗略了解所述文獻(xiàn)的內(nèi)容。查詢(xún)項(xiàng)的直接“布爾(Boolean)”匹配具有多個(gè)熟知的限制，并且尤其無(wú)法識(shí)別那些不具有查詢(xún)項(xiàng)但具有相關(guān)字的文獻(xiàn)。舉例來(lái)說(shuō)，在典型的布爾系統(tǒng)中，搜索“Australian Shepherds (澳大利亞牧羊犬)”時(shí)將不會(huì)返回不具有確切查詢(xún)項(xiàng)的關(guān)于其它herding dogs (牧羊犬)(例如，Border Collies (博得牧羊犬))的文獻(xiàn)。反而，所述系統(tǒng)通?？赡芡瑫r(shí)檢索到關(guān)于Australia(澳大利亞)(并且與dogs (狗)無(wú)關(guān))的文獻(xiàn)與關(guān)于"shepherds (牧羊犬)，，的文獻(xiàn)，并且將這些文獻(xiàn)排在較高等級(jí)。這里的問(wèn)題是傳統(tǒng)的系統(tǒng)是根據(jù)個(gè)別項(xiàng)而不是概念來(lái)編制文獻(xiàn)索引。概念通常以短語(yǔ)表示，如"Australian Sh印herd (澳大利亞牧羊犬)”、"President of the United Mates (美國(guó)總統(tǒng))”或者“Sundance Film Festival (圣丹斯電影節(jié))”等。某些現(xiàn)有系統(tǒng)最多是就預(yù)定且非常有限的“已知”短語(yǔ)集合來(lái)編制文獻(xiàn)索引，這些“已知”短語(yǔ)一般是由人工操作員選擇的。因?yàn)椴煊X(jué)到識(shí)別由(比如)三個(gè)、四個(gè)或五個(gè)或更多個(gè)字組成的所有可能的短語(yǔ)需要計(jì)算與存儲(chǔ)器，所以一般會(huì)避免對(duì)短語(yǔ)編制索引。舉例來(lái)說(shuō)，如果假定任意五個(gè)字可構(gòu)成一個(gè)短語(yǔ)并且一個(gè)大的語(yǔ)料庫(kù)將具有至少200，000個(gè)唯一項(xiàng)，那么將存在約3. 2*1026個(gè)可能短語(yǔ)，此明顯超出任何現(xiàn)有系統(tǒng)能夠存儲(chǔ)于存儲(chǔ)器中的量或者其可另外編程操縱的量。另一個(gè)問(wèn)題是短語(yǔ)不斷輸入并會(huì)超出其在詞典中的用法，此比發(fā)明新的個(gè)別字頻繁得多。新短語(yǔ)總是從諸如技術(shù)、藝術(shù)、世界事件與法律等來(lái)源中產(chǎn)生。其它短語(yǔ)將隨時(shí)間降低使用。某些現(xiàn)有信息檢索系統(tǒng)試圖通過(guò)使用個(gè)別字同時(shí)出現(xiàn)的模式來(lái)提供概念檢索。在這些系統(tǒng)中，搜索一個(gè)字，例如“President (總統(tǒng))”，將同時(shí)檢索到具有頻繁地與 "President (總統(tǒng))”一起出現(xiàn)的其它字(如“White (白色)”及“House (房子)”)的文獻(xiàn)。盡管這種方法可能產(chǎn)生具有在個(gè)別字水平上概念性地相關(guān)的文獻(xiàn)的搜索結(jié)果，但其一般無(wú)法俘獲在同時(shí)出現(xiàn)的短語(yǔ)之間存在的主題關(guān)系。因此，需要一種信息檢索系統(tǒng)與方法，其能夠全面地識(shí)別大規(guī)模語(yǔ)料庫(kù)中的短語(yǔ)、根據(jù)短語(yǔ)編制文獻(xiàn)索引、根據(jù)其短語(yǔ)搜索文獻(xiàn)并將文獻(xiàn)分等級(jí)、并提供關(guān)于所述文獻(xiàn)的另外的群集與說(shuō)明性信息。

發(fā)明內(nèi)容
本發(fā)明涉及一種信息檢索系統(tǒng)與方法，其使用短語(yǔ)來(lái)對(duì)文獻(xiàn)庫(kù)中的文獻(xiàn)編制索弓丨、進(jìn)行搜索、分等級(jí)及說(shuō)明。所述系統(tǒng)適合于識(shí)別那些在文獻(xiàn)庫(kù)中具有足夠頻繁及/或獨(dú)特用法的短語(yǔ)以指示其為“有效”或“好”短語(yǔ)。以此方式，可識(shí)別多字短語(yǔ)，例如由四個(gè)、五個(gè)或更多項(xiàng)組成的短語(yǔ)。這就避免了必須識(shí)別由給定數(shù)量的字的所有可能序列所產(chǎn)生的每個(gè)可能的短語(yǔ)并對(duì)其編制索引的問(wèn)題。該系統(tǒng)還適合于根據(jù)短語(yǔ)預(yù)測(cè)文獻(xiàn)中存在其它短語(yǔ)的能力來(lái)識(shí)別彼此相關(guān)的短語(yǔ)。更具體地說(shuō)，利用使兩個(gè)短語(yǔ)的實(shí)際同時(shí)出現(xiàn)率與這兩個(gè)短語(yǔ)的預(yù)期同時(shí)出現(xiàn)率相關(guān)的預(yù)測(cè)度量。一種此類(lèi)預(yù)測(cè)度量是信息增益，即實(shí)際同時(shí)出現(xiàn)率與預(yù)期同時(shí)出現(xiàn)率的比率。在預(yù)測(cè)度量超過(guò)一預(yù)定閾值時(shí)，兩個(gè)短語(yǔ)相關(guān)。在那種狀況下，第二短語(yǔ)相對(duì)于第一短語(yǔ)具有顯著的信息增益。語(yǔ)義上，相關(guān)短語(yǔ)將是那些共同用來(lái)討論或描述一給定主題或概念的短語(yǔ)，如 “President of the United Mates (美國(guó)總統(tǒng))”與 “White House (白宮)”。對(duì)于一給定短語(yǔ)，相關(guān)短語(yǔ)可根據(jù)其相關(guān)性或有效性基于其各自的預(yù)測(cè)度量來(lái)定序。信息檢索系統(tǒng)通過(guò)有效或好短語(yǔ)來(lái)對(duì)文獻(xiàn)庫(kù)中的文獻(xiàn)編制索引。對(duì)于每一個(gè)短語(yǔ)，一個(gè)記入列表識(shí)別那些含有所述短語(yǔ)的文獻(xiàn)。此外，對(duì)于一給定短語(yǔ)，使用第二列表、向量或其它結(jié)構(gòu)來(lái)存儲(chǔ)指示在含有所述給定短語(yǔ)的每一文獻(xiàn)中還存在給定短語(yǔ)的哪些相關(guān)短語(yǔ)的數(shù)據(jù)。以此方式，所述系統(tǒng)不僅能夠響應(yīng)搜索查詢(xún)而輕易地識(shí)別出哪些文獻(xiàn)含有哪些短語(yǔ)，而且能夠識(shí)別出哪些文獻(xiàn)還含有與查詢(xún)短語(yǔ)相關(guān)、并且因此更可能特定地關(guān)于查詢(xún)短語(yǔ)所表示的主題或概念的短語(yǔ)。使用短語(yǔ)與相關(guān)短語(yǔ)還創(chuàng)建并使用了相關(guān)短語(yǔ)的群集，其在語(yǔ)義上代表短語(yǔ)的有意義的分組。從在群集中的所有短語(yǔ)之間具有非常高的預(yù)測(cè)度量的相關(guān)短語(yǔ)來(lái)識(shí)別群集。群集可用來(lái)組織搜索結(jié)果，包括選擇搜索結(jié)果中包括哪些文獻(xiàn)及其次序，以及從搜索結(jié)果去除文獻(xiàn)。信息檢索系統(tǒng)還適合于在響應(yīng)查詢(xún)而搜索文獻(xiàn)時(shí)使用短語(yǔ)。處理查詢(xún)以便識(shí)別在查詢(xún)中存在的任何短語(yǔ)，從而檢索查詢(xún)短語(yǔ)的相伴記入列表與相關(guān)短語(yǔ)信息。此外，在有些情況下，用戶(hù)可以在搜索查詢(xún)中輸入不完整的短語(yǔ)，如“!Resident of the (……總統(tǒng))”。可以識(shí)別象這樣的不完整短語(yǔ)并且用擴(kuò)展短語(yǔ)來(lái)代替，如“!Resident of the United Mates (美國(guó)總統(tǒng))”。這有助于確保實(shí)際執(zhí)行用戶(hù)最有可能的搜索。系統(tǒng)也可使用相關(guān)短語(yǔ)信息來(lái)識(shí)別或選擇搜索結(jié)果中包括哪些文獻(xiàn)。對(duì)于一給定短語(yǔ)與一給定文獻(xiàn)，相關(guān)短語(yǔ)信息指出在所述給定文獻(xiàn)中存在所述給定短語(yǔ)的哪些相關(guān)短語(yǔ)。因此，對(duì)于一含有兩個(gè)查詢(xún)短語(yǔ)的查詢(xún)來(lái)說(shuō)，先處理第一查詢(xún)短語(yǔ)的記入列表以識(shí)別含有第一查詢(xún)短語(yǔ)的文獻(xiàn)，接著處理相關(guān)短語(yǔ)信息以識(shí)別這些文獻(xiàn)中哪些文獻(xiàn)還含有第二查詢(xún)短語(yǔ)。接著，將后面這些文獻(xiàn)包括在搜索結(jié)果中。這就不需要系統(tǒng)接著單獨(dú)處理第二查詢(xún)短語(yǔ)的記入列表，由此提供更快的搜索時(shí)間。當(dāng)然，此方法也可以擴(kuò)展到查詢(xún)中有任意數(shù)量的短語(yǔ)，從而能夠顯著節(jié)約計(jì)算與時(shí)間。系統(tǒng)還可適合于使用短語(yǔ)與相關(guān)短語(yǔ)信息來(lái)對(duì)一組搜索結(jié)果中的文獻(xiàn)分等級(jí)。一給定短語(yǔ)的相關(guān)短語(yǔ)信息較佳以諸如位向量的格式存儲(chǔ)，其表示每一相關(guān)短語(yǔ)相對(duì)于所述給定短語(yǔ)的有效性。舉例來(lái)說(shuō)，一個(gè)相關(guān)短語(yǔ)位向量對(duì)于給定短語(yǔ)的每一個(gè)相關(guān)短語(yǔ)均具有一個(gè)位，這些位根據(jù)相關(guān)短語(yǔ)的預(yù)測(cè)度量(例如，信息增益)來(lái)定序。相關(guān)短語(yǔ)位向量的最有效的位與具有最高預(yù)測(cè)度量的相關(guān)短語(yǔ)相關(guān)，并且最低有效位與具有最低預(yù)測(cè)度量的相關(guān)短語(yǔ)相關(guān)。以此方式，對(duì)于一給定文獻(xiàn)與一給定短語(yǔ)，相關(guān)短語(yǔ)信息可用來(lái)對(duì)文獻(xiàn)計(jì)分。位向量本身(作為一個(gè)值)的值可用作文獻(xiàn)分?jǐn)?shù)，以此方式，含有查詢(xún)短語(yǔ)的高級(jí)相關(guān)短語(yǔ)的文獻(xiàn)比具有低級(jí)相關(guān)短語(yǔ)的文獻(xiàn)更可能在主題上與查詢(xún)相關(guān)。位向量值也可用作更復(fù)雜的計(jì)分函數(shù)中的一個(gè)分量，并且還可以加權(quán)。接著，可以根據(jù)文獻(xiàn)分?jǐn)?shù)來(lái)對(duì)文獻(xiàn)分等級(jí)。短語(yǔ)信息也可以用在信息檢索系統(tǒng)中以使用戶(hù)的搜索個(gè)性化。將用戶(hù)模擬為一個(gè)從(例如)所述用戶(hù)曾經(jīng)訪問(wèn)過(guò)(例如，在屏幕上看、打印、存儲(chǔ)等等)的文獻(xiàn)所獲得的短語(yǔ)集合。更特定地說(shuō)，給定用戶(hù)訪問(wèn)過(guò)的文獻(xiàn)，則在用戶(hù)模型或概況中就會(huì)包括在此文獻(xiàn)中存在的相關(guān)短語(yǔ)。在隨后的搜索期間，使用用戶(hù)模型中的短語(yǔ)來(lái)過(guò)濾搜索查詢(xún)的短語(yǔ)并對(duì)檢索到的文獻(xiàn)的文獻(xiàn)分?jǐn)?shù)加權(quán)。短語(yǔ)信息也可以用在信息檢索系統(tǒng)中以創(chuàng)建(例如)包括在一組搜索結(jié)果中的文獻(xiàn)的文獻(xiàn)說(shuō)明。給定一搜索查詢(xún)，所述系統(tǒng)識(shí)別出查詢(xún)中存在的短語(yǔ)以及其相關(guān)短語(yǔ)與其擴(kuò)展短語(yǔ)。對(duì)于一給定文獻(xiàn)，所述文獻(xiàn)的每一個(gè)句子都具有一個(gè)在句子中存在多少個(gè)查詢(xún)短語(yǔ)、相關(guān)短語(yǔ)與擴(kuò)展短語(yǔ)的計(jì)數(shù)?？梢酝ㄟ^(guò)這些計(jì)數(shù)(個(gè)別或組合)來(lái)對(duì)文獻(xiàn)句子分等級(jí)，并且選擇一定數(shù)量的最高等級(jí)的句子(例如，五個(gè)句子)來(lái)形成文獻(xiàn)說(shuō)明。當(dāng)搜索結(jié)果中包括所述文獻(xiàn)時(shí)，可以接著向用戶(hù)呈現(xiàn)文獻(xiàn)說(shuō)明，使得相對(duì)于查詢(xún)用戶(hù)能夠更好地了解所述文獻(xiàn)。
進(jìn)一步改進(jìn)這種產(chǎn)生文獻(xiàn)說(shuō)明的方法，以使系統(tǒng)能夠提供反映用戶(hù)興趣所在的個(gè)性化說(shuō)明。如上所述，用戶(hù)模型存儲(chǔ)了識(shí)別用戶(hù)感興趣的相關(guān)短語(yǔ)的信息。此用戶(hù)模型與一列與查詢(xún)短語(yǔ)相關(guān)的短語(yǔ)相交，以識(shí)別這兩組共有的短語(yǔ)。然后，根據(jù)相關(guān)短語(yǔ)信息來(lái)對(duì)所述共有集合定序。接著，使用所得相關(guān)短語(yǔ)集合來(lái)根據(jù)每一文獻(xiàn)中存在的這些相關(guān)短語(yǔ)的實(shí)例數(shù)來(lái)對(duì)文獻(xiàn)的句子分等級(jí)。選擇具有最高數(shù)量的共有相關(guān)短語(yǔ)的多個(gè)句子作為個(gè)性化文獻(xiàn)說(shuō)明。當(dāng)對(duì)文獻(xiàn)庫(kù)編制索引(爬行)或當(dāng)處理搜索查詢(xún)時(shí)，信息檢索系統(tǒng)也可以使用短語(yǔ)信息來(lái)識(shí)別并去除重復(fù)文獻(xiàn)。對(duì)于一給定文獻(xiàn)，所述文獻(xiàn)的每一個(gè)句子都具有一個(gè)在句子中存在多少個(gè)相關(guān)短語(yǔ)的計(jì)數(shù)?？梢酝ㄟ^(guò)此計(jì)數(shù)來(lái)對(duì)文獻(xiàn)句子分等級(jí)，并且選擇多個(gè)最高等級(jí)的句子(例如，五個(gè)句子)來(lái)形成文獻(xiàn)說(shuō)明。然后，將與文獻(xiàn)相關(guān)的此說(shuō)明存儲(chǔ)(例如)為所述句子的字符串或散列。在編制索引期間，以相同方式處理新爬行的文獻(xiàn)以產(chǎn)生文獻(xiàn)說(shuō)明。新的文獻(xiàn)說(shuō)明可與先前的文獻(xiàn)說(shuō)明匹配(例如，散列)，并且如果發(fā)現(xiàn)匹配，那么這個(gè)新的文獻(xiàn)就是一個(gè)重復(fù)文獻(xiàn)。類(lèi)似地，在準(zhǔn)備搜索查詢(xún)的結(jié)果期間，可以處理搜索結(jié)果集合中的文獻(xiàn)以去除重復(fù)文獻(xiàn)。本發(fā)明的系統(tǒng)與軟件架構(gòu)、計(jì)算機(jī)程序產(chǎn)品及計(jì)算機(jī)實(shí)施的方法與計(jì)算機(jī)產(chǎn)生的用戶(hù)界面與呈現(xiàn)具有其它實(shí)施例。上文僅僅是基于短語(yǔ)的信息檢索系統(tǒng)與方法的一些特征。信息檢索領(lǐng)域的技術(shù)人員將了解，短語(yǔ)信息普遍性的靈活性使其能夠在文獻(xiàn)分析與處理的編制索引、文獻(xiàn)注釋、搜索、分等級(jí)與其它領(lǐng)域中廣泛使用與應(yīng)用。

圖1是本發(fā)明的一個(gè)實(shí)施例的軟件架構(gòu)的方塊圖。圖2說(shuō)明一種用于識(shí)別文獻(xiàn)中的短語(yǔ)的方法。圖3說(shuō)明一具有短語(yǔ)窗口與二級(jí)窗口的文獻(xiàn)。圖4說(shuō)明一種用于識(shí)別相關(guān)短語(yǔ)的方法。圖5說(shuō)明一種對(duì)相關(guān)短語(yǔ)的文獻(xiàn)編制索引的方法。圖6說(shuō)明一種基于短語(yǔ)檢索文獻(xiàn)的方法。圖7說(shuō)明用于顯示搜索結(jié)果的顯示系統(tǒng)的操作。圖及圖8b說(shuō)明引用文獻(xiàn)與被引用文獻(xiàn)之間的關(guān)系。這些圖式僅僅是為了說(shuō)明的目的而描繪本發(fā)明的一較佳實(shí)施例。從以下討論，所屬技術(shù)領(lǐng)域的技術(shù)人員將容易地了解，在不偏離本文所述的本發(fā)明的原理下，可采用本文所述的結(jié)構(gòu)與方法的替代實(shí)施例。
具體實(shí)施例方式I.系統(tǒng)概述現(xiàn)在參看圖1，其展示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的搜索系統(tǒng)100的一實(shí)施例的軟件架構(gòu)。在此實(shí)施例中，系統(tǒng)包括一索引系統(tǒng)100、一搜索系統(tǒng)120、一顯示系統(tǒng)130與一前端服務(wù)器140。索引系統(tǒng)110負(fù)責(zé)識(shí)別文獻(xiàn)中的短語(yǔ)并根據(jù)其短語(yǔ)通過(guò)訪問(wèn)不同網(wǎng)站190與其它文獻(xiàn)庫(kù)來(lái)對(duì)文獻(xiàn)編制索引。前端服務(wù)器140從用戶(hù)端170的用戶(hù)接收查詢(xún)，并且向搜索系統(tǒng)120提供那些查詢(xún)。搜索系統(tǒng)120負(fù)責(zé)搜索與搜索查詢(xún)相關(guān)的文獻(xiàn)(搜索結(jié)果)，包括識(shí)別搜索查詢(xún)中的任何短語(yǔ)，接著使用出現(xiàn)的短語(yǔ)對(duì)搜索結(jié)果中的文獻(xiàn)分等級(jí)以影響等級(jí)次序。搜索系統(tǒng)120向顯示系統(tǒng)130提供搜索結(jié)果。顯示系統(tǒng)130負(fù)責(zé)修正搜索結(jié)果(包括除去接近重復(fù)的文獻(xiàn)和產(chǎn)生文獻(xiàn)的主題說(shuō)明)，并將修正后的搜索結(jié)果返回給前端服務(wù)器 140，即將結(jié)果提供給用戶(hù)端170。系統(tǒng)100進(jìn)一步包括一用于存儲(chǔ)關(guān)于文獻(xiàn)的索引信息的索引150與一用于存儲(chǔ)短語(yǔ)與相關(guān)統(tǒng)計(jì)信息的短語(yǔ)數(shù)據(jù)存儲(chǔ)160。就本申請(qǐng)案而言，“文獻(xiàn)”應(yīng)理解為可以由搜索引擎編制索引并檢索的任何類(lèi)型的媒體，包括網(wǎng)頁(yè)文獻(xiàn)、圖像、多媒體文件、文本文獻(xiàn)、PDF或其它圖像格式的文件等等。一個(gè)文獻(xiàn)可以具有一或多個(gè)頁(yè)、分區(qū)、段或其他適合其內(nèi)容與類(lèi)型的組成部分。同等地，文獻(xiàn)可以稱(chēng)為“頁(yè)”，其常用來(lái)指互聯(lián)網(wǎng)上的文獻(xiàn)。使用通用術(shù)語(yǔ)“文獻(xiàn)”并不意味對(duì)本發(fā)明的范疇進(jìn)行任何限制。搜索系統(tǒng)100可對(duì)大的文獻(xiàn)語(yǔ)料庫(kù)進(jìn)行操作，如互聯(lián)網(wǎng)與萬(wàn)維網(wǎng)，但其同樣可用于更有限的集合中，如用于圖書(shū)館或私營(yíng)企業(yè)的文獻(xiàn)庫(kù)。在任一情形下應(yīng)了解，文獻(xiàn)一般分布在許多不同的計(jì)算機(jī)系統(tǒng)與站點(diǎn)中。于是，不喪失一般性，不管格式或位置(例如，哪個(gè)網(wǎng)站或數(shù)據(jù)庫(kù))，將文獻(xiàn)統(tǒng)稱(chēng)為語(yǔ)料庫(kù)或文獻(xiàn)庫(kù)。每個(gè)文獻(xiàn)都具有一個(gè)唯一識(shí)別所述文獻(xiàn)的相伴識(shí)別符；所述識(shí)別符較佳為URL，但也可以使用其它類(lèi)型的識(shí)別符(例如，文獻(xiàn)號(hào))。在本揭示中，假定使用URL來(lái)識(shí)別文獻(xiàn)。II.索引系統(tǒng)在一實(shí)施例中，索引系統(tǒng)110提供三個(gè)主要功能性操作1)識(shí)別短語(yǔ)與相關(guān)短語(yǔ)， 2)關(guān)于短語(yǔ)對(duì)文獻(xiàn)編制索引，及幻產(chǎn)生并維持基于短語(yǔ)的分類(lèi)。所屬技術(shù)領(lǐng)域的技術(shù)人員將了解，在傳統(tǒng)索引功能的支持下，索引系統(tǒng)110還將執(zhí)行其它功能，因此本文不再進(jìn)一步說(shuō)明這些其它操作。索引系統(tǒng)110對(duì)短語(yǔ)數(shù)據(jù)的索引150與數(shù)據(jù)儲(chǔ)存庫(kù)160進(jìn)行操作。下文進(jìn)一步說(shuō)明這些數(shù)據(jù)儲(chǔ)存庫(kù)。1.短語(yǔ)識(shí)別索引系統(tǒng)110的短語(yǔ)識(shí)別操作識(shí)別文獻(xiàn)庫(kù)中的“好”與“壞”短語(yǔ)，這些短語(yǔ)有助于對(duì)文獻(xiàn)編制索引并搜索。一方面，好短語(yǔ)是那些往往出現(xiàn)在文獻(xiàn)庫(kù)中超過(guò)某一百分比的文獻(xiàn)中的短語(yǔ)，且/或表示為在所述文獻(xiàn)中具有不同的外觀，如由置標(biāo)標(biāo)簽或其它形態(tài)、格式或語(yǔ)法標(biāo)記來(lái)定界。好短語(yǔ)的另一方面是其能夠預(yù)測(cè)其它好短語(yǔ)，而不僅僅是出現(xiàn)在詞典中的字序列。舉例來(lái)說(shuō)，短語(yǔ)“President of the United States (美國(guó)總統(tǒng))”是一個(gè)預(yù)測(cè)諸如“George Bush (喬治·布什)”與“Bill Clinton (比爾·克林頓)”等其它短語(yǔ)的短語(yǔ)。然而，諸如"fell down the stairs”或"top of the morning，，、“out of the blue” 的其它短語(yǔ)不具預(yù)測(cè)性，這是因?yàn)橄筮@些的成語(yǔ)與習(xí)語(yǔ)往往與許多其它不同且無(wú)關(guān)的短語(yǔ)一起出現(xiàn)。因此，短語(yǔ)識(shí)別階段確定哪些短語(yǔ)是好短語(yǔ)而哪些是壞短語(yǔ)(即，缺乏預(yù)測(cè)能力)。現(xiàn)在參看圖2，短語(yǔ)識(shí)別過(guò)程具有以下功能性階段200 收集可能且好的短語(yǔ)，以及所述短語(yǔ)的頻率與同時(shí)出現(xiàn)的統(tǒng)計(jì)值；202 基于頻率統(tǒng)計(jì)值將可能短語(yǔ)分為好短語(yǔ)或壞短語(yǔ)；204:基于從同時(shí)出現(xiàn)的統(tǒng)計(jì)值獲得的預(yù)測(cè)性度量來(lái)精簡(jiǎn)好短語(yǔ)列表?，F(xiàn)在將進(jìn)一步詳細(xì)地說(shuō)明這些階段的每個(gè)階段。
第一階段200是這樣一個(gè)過(guò)程，通過(guò)該過(guò)程，索引系統(tǒng)110爬行(crawl)文獻(xiàn)庫(kù)中的一組文獻(xiàn)，隨時(shí)間形成所述文獻(xiàn)庫(kù)的多個(gè)重復(fù)分區(qū)。每遍處理一個(gè)分區(qū)。每遍爬行的文獻(xiàn)數(shù)可能變化，較佳為每個(gè)分區(qū)約1，000，000個(gè)文獻(xiàn)。較佳僅處理每個(gè)分區(qū)中先前未爬行的文獻(xiàn)，直到處理完所有文獻(xiàn)，或滿(mǎn)足某一其它終止準(zhǔn)則。實(shí)際上，由于新文獻(xiàn)不斷地添加到文獻(xiàn)庫(kù)中，所以爬行不斷繼續(xù)。索引系統(tǒng)110對(duì)爬行后的每個(gè)文獻(xiàn)采取下列步驟。以η的短語(yǔ)窗口長(zhǎng)度遍歷所述文獻(xiàn)的各字，其中η是期望的最大短語(yǔ)長(zhǎng)度。窗口的長(zhǎng)度一般為至少2項(xiàng)，較佳為4或5項(xiàng)(字)。短語(yǔ)較佳包括短語(yǔ)窗口中的所有字，包括那些否則會(huì)被表征為結(jié)束字的字，如“a”、“the”等等。短語(yǔ)窗口可以由行尾、段落返回、置標(biāo)標(biāo)簽或其他內(nèi)容或格式變化的標(biāo)志來(lái)終止。圖3說(shuō)明遍歷期間文獻(xiàn)300的一部分，其展示短語(yǔ)窗口 302從字“stock”開(kāi)始并向右擴(kuò)展5個(gè)字。窗口 302中的第一個(gè)字是候選短語(yǔ)i，并且序列i+l、i+2、i+3、i+4與i+5 中的每個(gè)短語(yǔ)同樣為候選短語(yǔ)。因此，在此實(shí)例中，候選短語(yǔ)為“st0Ck”、“St0Ck dogs”、 "stock dogs for "λ" stock dogs for the，，、"stock dogs for the Basque，，與"stock dogs for the Basque shepherds，，。在每個(gè)短語(yǔ)窗口 302中，依次檢查每個(gè)候選短語(yǔ)以確定其是否已經(jīng)存在于好短語(yǔ)列表208或可能短語(yǔ)列表206中。如果候選短語(yǔ)未出現(xiàn)在好短語(yǔ)列表208或可能短語(yǔ)列表 206中，那就確定所述候選短語(yǔ)為“壞”短語(yǔ)并將其跳過(guò)。如果候選短語(yǔ)出現(xiàn)在好短語(yǔ)列表208中，如款目&，那就更新短語(yǔ)&的索引150款目以包括所述文獻(xiàn)(例如，其URL或其它文獻(xiàn)識(shí)別符)，以指示此候選短語(yǔ)&出現(xiàn)在當(dāng)前文獻(xiàn)中。短語(yǔ)&的索引150中的款目(或項(xiàng))稱(chēng)作短語(yǔ)&的記入列表。記入列表包括其中出現(xiàn)短語(yǔ)的一列文獻(xiàn)d(通過(guò)其文獻(xiàn)識(shí)別符，例如文獻(xiàn)號(hào)或者URL)。此外，如下文進(jìn)一步解釋?zhuān)峦瑫r(shí)出現(xiàn)矩陣212。在最初的第一遍中，好的與壞的列表都將為空，因此往往會(huì)將大多數(shù)短語(yǔ)添加到可能短語(yǔ)列表206中。如果候選短語(yǔ)沒(méi)有出現(xiàn)在好短語(yǔ)列表208中，那就將其添加到可能短語(yǔ)列表206 中，除非其中已經(jīng)存在所述候短語(yǔ)。可能短語(yǔ)列表206上的每個(gè)款目ρ都具有三個(gè)相伴計(jì)數(shù)P(p)存在可能短語(yǔ)的文獻(xiàn)數(shù)；S(p)可能短語(yǔ)的所有實(shí)例數(shù)；及M(p)可能短語(yǔ)的引起注意的實(shí)例數(shù)。在可能短語(yǔ)與文獻(xiàn)中的相鄰內(nèi)容的不同之處在于語(yǔ)法或格式標(biāo)記，例如黑體或下劃線(xiàn)或?yàn)槌溄踊蛞?hào)中的錨文本時(shí)，可能短語(yǔ)的實(shí)例“引起注意”。這些(與其它)區(qū)別外觀由各種HTML置標(biāo)語(yǔ)言標(biāo)簽與語(yǔ)法標(biāo)記來(lái)指示。當(dāng)一個(gè)短語(yǔ)被放在好短語(yǔ)列表208中時(shí)，所述短語(yǔ)的這些統(tǒng)計(jì)值仍被保留。除了各列表外，還保留好短語(yǔ)的同時(shí)出現(xiàn)矩陣212(G)。矩陣G具有mxm維，其中m 是好短語(yǔ)的數(shù)量。矩陣中的每個(gè)款目G(j，k)代表一對(duì)好短語(yǔ)(gj，&)。同時(shí)出現(xiàn)矩陣212 在邏輯上(但在物理上不一定)保留每對(duì)好短語(yǔ)(gj，gk)關(guān)于二級(jí)窗口 304的三個(gè)獨(dú)立計(jì)數(shù)，所述窗口 304的中心位于當(dāng)前字i，并且擴(kuò)展+/_h個(gè)字。在一實(shí)施例中，例如如圖3所述，二級(jí)窗口 304有30個(gè)字。因此，同時(shí)出現(xiàn)矩陣212保留R(j，k):原始的同時(shí)出現(xiàn)計(jì)數(shù)，即短語(yǔ)&與短語(yǔ)& 一起出現(xiàn)在二級(jí)窗口 304中的次數(shù)；
D(j，k)分離的引起注意的計(jì)數(shù)，即短語(yǔ)&或短語(yǔ)&作為特異文本出現(xiàn)在二級(jí)窗口中的次數(shù)；及C(j,k)連接的引起注意的計(jì)數(shù)，即短語(yǔ)&與短語(yǔ)&同時(shí)作為特異文本出現(xiàn)在二級(jí)窗口中的次數(shù)。使用連接的引起注意的計(jì)數(shù)尤其有利于避免短語(yǔ)(例如，版權(quán)通知)頻繁出現(xiàn)在側(cè)邊欄、頁(yè)腳或頁(yè)眉中并因此實(shí)際上無(wú)法預(yù)測(cè)其它文本的情形。參看圖3的實(shí)例，假定“stock dogs”以及短語(yǔ)“Australian Shepherd"與 "Australian Shepard Club of America”都位于好短語(yǔ)列表208上。后兩個(gè)短語(yǔ)出現(xiàn)在二級(jí)窗口 304 內(nèi)當(dāng)前短語(yǔ)“stock dogs”周?chē)Ｈ欢?，短語(yǔ)“Australian Shepherd Club of America”作為網(wǎng)站的超鏈接(由下劃線(xiàn)指示)的錨文本出現(xiàn)。因此，所述對(duì){“stock dogs”， "Australian Shepherd"}的原始同時(shí)出現(xiàn)計(jì)數(shù)遞增，并且{ "stock dogs”，“Australian Shepherd Club of America"}的原始同時(shí)出現(xiàn)計(jì)數(shù)和分離的引起注意的計(jì)數(shù)都遞增，這是因?yàn)楹笳呤亲鳛樘禺愇谋境霈F(xiàn)的。對(duì)分區(qū)中的每個(gè)文獻(xiàn)重復(fù)以序列窗口 302與二級(jí)窗口 304遍歷每個(gè)文獻(xiàn)的過(guò)程。在遍歷完分區(qū)中的文獻(xiàn)后，編制索引操作的下一階段就是從可能短語(yǔ)列表206更新202好短語(yǔ)列表208。如果可能短語(yǔ)列表206上的一個(gè)可能短語(yǔ)ρ的出現(xiàn)頻率與出現(xiàn)所述短語(yǔ)的文獻(xiàn)數(shù)指示其足夠用作語(yǔ)義上有意義的短語(yǔ)，那就將所述短語(yǔ)移到好短語(yǔ)列表208 中。在一實(shí)施例中，其測(cè)試如下。從可能短語(yǔ)列表206取一個(gè)可能短語(yǔ)ρ并且將其放在好短語(yǔ)列表208中，前提條件是a)P(ρ) >10并且S(p) > 20 (含有ρ的文獻(xiàn)數(shù)大于10，并且短語(yǔ)ρ的出現(xiàn)次數(shù)大于20)；或者b)M(p) > 5(短語(yǔ)ρ的引起注意的實(shí)例數(shù)大于5)。這些閾值與分區(qū)中的文獻(xiàn)數(shù)成比例；例如，如果一個(gè)分區(qū)中爬行2，000, 000個(gè)文獻(xiàn)，那閾值大約加倍。當(dāng)然，所屬技術(shù)領(lǐng)域的技術(shù)人員將了解，這些閾值的具體值或測(cè)試其的邏輯可隨需要而變化。如果短語(yǔ)ρ沒(méi)有資格進(jìn)入好短語(yǔ)列表208，則檢查其成為壞短語(yǔ)的資格。短語(yǔ)ρ是一個(gè)壞短語(yǔ)的條件是a)含有短語(yǔ)的文獻(xiàn)數(shù)P (ρ) < 2 ；并且b)短語(yǔ)的引起注意的實(shí)例數(shù)M(p) = 0。這些條件指示所述短語(yǔ)既不頻繁，也不能用來(lái)指示有效內(nèi)容，同樣地，這些閾值可與分區(qū)中的文獻(xiàn)數(shù)成比例。應(yīng)注意，如上所述，除了多字短語(yǔ)外，好短語(yǔ)列表208自然將包括個(gè)別字作為短語(yǔ)。這是因?yàn)槎陶Z(yǔ)窗口 302中的每個(gè)第一字總是一個(gè)候選短語(yǔ)，并且適當(dāng)?shù)膶?shí)例計(jì)數(shù)將累積。因此，索引系統(tǒng)110可以自動(dòng)地對(duì)個(gè)別字(即，具有單個(gè)字的短語(yǔ))與多字短語(yǔ)編制索引。好短語(yǔ)列表208也將比基于m個(gè)短語(yǔ)的所有可能組合的理論最大值短很多。在典型實(shí)施例中，好短語(yǔ)列表208將包括約6. 5x10s個(gè)短語(yǔ)。由于系統(tǒng)只需要明了可能短語(yǔ)和好短語(yǔ)，所以不需要存儲(chǔ)壞短語(yǔ)列表。通過(guò)最后一遍檢查文獻(xiàn)庫(kù)，由于大語(yǔ)料庫(kù)中短語(yǔ)使用的預(yù)期分布，所以可能短語(yǔ)的列表將相對(duì)較短。因此，如果在第10遍(例如，10，000, 000個(gè)文獻(xiàn))，一個(gè)短語(yǔ)第一次出現(xiàn)，那么其在那次中是極不可能成為一個(gè)好短語(yǔ)的。其可能是剛開(kāi)始使用的新短語(yǔ)，因此在隨后爬行中變得越來(lái)越常見(jiàn)。在那種狀況下，其相應(yīng)計(jì)數(shù)將增大，并且可能最終滿(mǎn)足成為一個(gè)好短語(yǔ)的閾值。編制索引操作的第三階段是使用從同時(shí)出現(xiàn)矩陣212獲得的預(yù)測(cè)性度量來(lái)精簡(jiǎn) 204好短語(yǔ)列表208。不經(jīng)過(guò)精減，好短語(yǔ)列表208很可能包括許多盡管合理地出現(xiàn)在字典中但本身無(wú)法充分預(yù)測(cè)其它短語(yǔ)的存在或本身是更長(zhǎng)短語(yǔ)的子序列的短語(yǔ)。除去這些較弱的好短語(yǔ)后更可能有力地獲得好短語(yǔ)。為了識(shí)別好短語(yǔ)，使用一預(yù)測(cè)性度量，其表示給定一短語(yǔ)的存在，在文獻(xiàn)中出現(xiàn)另一短語(yǔ)的可能性增加。在一實(shí)施例中，此完成如下。如上所述，同時(shí)出現(xiàn)矩陣212是存儲(chǔ)與好短語(yǔ)相關(guān)聯(lián)的數(shù)據(jù)的mxm矩陣。矩陣中的每行j代表好短語(yǔ)&，并且每列k代表好短語(yǔ)&。對(duì)于每個(gè)好短語(yǔ)&，計(jì)算期望值E (gj)。期望值E是庫(kù)中預(yù)期含有&的文獻(xiàn)的百分比。例如，其計(jì)算為含有&的文獻(xiàn)數(shù)與庫(kù)中已爬行的文獻(xiàn)總數(shù)T的比率P(j)/T。如上所述，當(dāng)&每次出現(xiàn)在文獻(xiàn)中時(shí)，即更新含有&的文獻(xiàn)數(shù)。每次&的計(jì)數(shù)增加時(shí)或在此第三階段期間，可更新E (gj)的值。接著，對(duì)于每個(gè)其它好短語(yǔ)&(例如，矩陣的各列)，確定&是否預(yù)測(cè)了 &。&的預(yù)測(cè)性度量的確定如下i)計(jì)算期望值E(gk)。如果是無(wú)關(guān)短語(yǔ)，則其預(yù)期同時(shí)出現(xiàn)率E(j，k)為 E(gj)*E(gk)；ii)計(jì)算的實(shí)際同時(shí)出現(xiàn)率A(j，k)。即將原始同時(shí)出現(xiàn)計(jì)數(shù)R(j，k)除以文獻(xiàn)總數(shù)T ；iii)據(jù)說(shuō)當(dāng)實(shí)際同時(shí)出現(xiàn)率A(j，k)超過(guò)預(yù)期同時(shí)出現(xiàn)率E(j，k) 一臨界量時(shí)，gj 預(yù)測(cè)gk。在一實(shí)施例中，預(yù)測(cè)性度量為信息增益。因此，當(dāng)在短語(yǔ)&面前另一短語(yǔ)&的信息增益I超過(guò)一閾值時(shí)，短語(yǔ)&預(yù)測(cè)短語(yǔ)&。在一實(shí)施例中，此計(jì)算如下I(j，k) =A(j，k)/E(j，k)。并且當(dāng)滿(mǎn)足下列條件時(shí)，好短語(yǔ)&預(yù)測(cè)好短語(yǔ)& I(j，k) >信息增益閾值。在一實(shí)施例中，信息增益閾值為1. 5，但較佳在1. 1與1. 7之間。將閾值升高到超過(guò)1.0是為了減少兩個(gè)原本無(wú)關(guān)的短語(yǔ)同時(shí)出現(xiàn)超過(guò)隨機(jī)預(yù)測(cè)的可能性。如上所述，相對(duì)于給定行j，對(duì)矩陣G的每列k重復(fù)信息增益的計(jì)算。在一行完成后，如果好短語(yǔ)&中無(wú)一短語(yǔ)的信息增益超過(guò)信息增益閾值，那這就意味著短語(yǔ)&無(wú)法預(yù)測(cè)任何其它好短語(yǔ)。在那種狀況下，從好短語(yǔ)列表208除去&，其基本上就變?yōu)閴亩陶Z(yǔ)。注意，不除去短語(yǔ)&的列j，因?yàn)檫@個(gè)短語(yǔ)本身可由其它好短語(yǔ)來(lái)預(yù)測(cè)。當(dāng)評(píng)估完同時(shí)出現(xiàn)矩陣212中的所有行后，結(jié)束這個(gè)步驟。該階段的最后一個(gè)步驟是精簡(jiǎn)好短語(yǔ)列表208以除去不完整短語(yǔ)。一個(gè)不完整短語(yǔ)是一個(gè)僅預(yù)測(cè)其擴(kuò)展短語(yǔ)并且從所述短語(yǔ)的最左側(cè)(即，短語(yǔ)的開(kāi)始處)開(kāi)始的短語(yǔ)。短語(yǔ)P的“擴(kuò)展短語(yǔ)”是一個(gè)以短語(yǔ)P開(kāi)始的超序列。舉例來(lái)說(shuō)，短語(yǔ)“President of”預(yù) IlJ "President of the United States'\"President of Mexico'\"President of AT&T” 等等。由于所有后面這些短語(yǔ)都是以“!Resident of”開(kāi)始并且是其超序列，所以他們都是"President of ”的擴(kuò)展短語(yǔ)。因此，保留在好短語(yǔ)列表208上的每個(gè)短語(yǔ)&都將基于前述信息增益閾值來(lái)預(yù)測(cè)一定量的其它短語(yǔ)?，F(xiàn)在，對(duì)于每個(gè)短語(yǔ)&，索引系統(tǒng)110執(zhí)行其與其所預(yù)測(cè)的每個(gè)短語(yǔ)& 的字符串匹配。字符串匹配測(cè)試每個(gè)預(yù)測(cè)短語(yǔ)&是否是短語(yǔ)&的擴(kuò)展短語(yǔ)。如果所有預(yù)測(cè)短語(yǔ)&都是短語(yǔ)&的擴(kuò)展短語(yǔ)，那么&就不完整，將其從好短語(yǔ)列表208中除去并添加到不完整短語(yǔ)列表216中。因此，如果存在至少一個(gè)不是&的擴(kuò)展短語(yǔ)的短語(yǔ)&，那&就是完整的，并且會(huì)保留在好短語(yǔ)列表208中。于是舉例來(lái)說(shuō)，當(dāng)“!^resident of the United” 所預(yù)測(cè)的唯一其它短語(yǔ)是“!Resident of the United States”并且這個(gè)預(yù)測(cè)短語(yǔ)是所述短語(yǔ)的擴(kuò)展短語(yǔ)時(shí)，“!Resident of the United”就是一個(gè)不完整短語(yǔ)。不完整短語(yǔ)列表216本身在實(shí)際搜索過(guò)程中非常有用。當(dāng)接收到搜索查詢(xún)時(shí)，可將其與不完整列表216比較。如果所述查詢(xún)(或其一部分)與所述列表中的一個(gè)款目匹配，那搜索系統(tǒng)120就可以查找這個(gè)不完整短語(yǔ)的最可能的擴(kuò)展短語(yǔ)(給定不完整短語(yǔ)，具有最高信息增益的擴(kuò)展短語(yǔ))，并且向用戶(hù)建議此短語(yǔ)或?qū)U(kuò)展短語(yǔ)自動(dòng)搜索。例如，如果搜索查詢(xún)是“President of the United”，那搜索系統(tǒng)120可以自動(dòng)向用戶(hù)建議“President of the United Mates”作為搜索查詢(xún)。在完成編制索引過(guò)程的最后一個(gè)階段后，好短語(yǔ)列表208將含有在語(yǔ)料庫(kù)中發(fā)現(xiàn)的大量好短語(yǔ)。這些好短語(yǔ)中的每一個(gè)短語(yǔ)都將預(yù)測(cè)至少一個(gè)不是其擴(kuò)展短語(yǔ)的其它短語(yǔ)。S卩，每一個(gè)好短語(yǔ)都以足夠的頻率使用，并且獨(dú)立代表語(yǔ)料庫(kù)中所表示的有意義的概念或思想。與使用預(yù)定或人工選擇的短語(yǔ)的現(xiàn)有系統(tǒng)不同，好短語(yǔ)列表反映了語(yǔ)料庫(kù)中正在實(shí)際使用的短語(yǔ)。此外，由于新文獻(xiàn)添加到文獻(xiàn)庫(kù)中使得周期性地重復(fù)上述爬行與編制索引過(guò)程，所以索引系統(tǒng)110在新短語(yǔ)進(jìn)入詞典時(shí)自動(dòng)檢測(cè)所述新短語(yǔ)。2.識(shí)別相關(guān)短語(yǔ)與相關(guān)短語(yǔ)的群集參看圖4，相關(guān)短語(yǔ)識(shí)別過(guò)程包括以下功能性操作400 識(shí)別具有高信息增益值的相關(guān)短語(yǔ)；402 識(shí)別相關(guān)短語(yǔ)的群集；404 存儲(chǔ)群集位向量與群集號(hào)?，F(xiàn)在詳細(xì)描述這些操作中的每一個(gè)操作。首先回想，同時(shí)出現(xiàn)矩陣212含有好短語(yǔ)&，其中每一個(gè)短語(yǔ)都預(yù)測(cè)至少一個(gè)具有大于信息增益閾值的信息增益的其它好短語(yǔ)&。然后，為了識(shí)別400相關(guān)短語(yǔ)，對(duì)于每一對(duì)好短語(yǔ)(gj，，將信息增益與相關(guān)短語(yǔ)閾值(例如，100)進(jìn)行比較。S卩，當(dāng)I(gj，gk) > 100 時(shí)，是相關(guān)短語(yǔ)。使用此高閾值來(lái)識(shí)別很好地超過(guò)統(tǒng)計(jì)期望率的好短語(yǔ)的同時(shí)出現(xiàn)。在統(tǒng)計(jì)上，其意指短語(yǔ)&與&同時(shí)出現(xiàn)率超過(guò)預(yù)期同時(shí)出現(xiàn)率的100倍。舉例來(lái)說(shuō)，給定文獻(xiàn)中的短語(yǔ) "Monica Lewinsky”，如果短語(yǔ)“Bill Clinton”在相同文獻(xiàn)中更可能出現(xiàn)率是其100倍，則短語(yǔ)“Bill Clinton”可能出現(xiàn)在任意隨機(jī)選擇的文獻(xiàn)中。因?yàn)槌霈F(xiàn)率是100 1，所以另一種表述方式是預(yù)測(cè)精確度為99. 999%。因此，將小于相關(guān)短語(yǔ)閾值的任何款目(gj，&)調(diào)零，以指示短語(yǔ)不相關(guān)。現(xiàn)在，同時(shí)出現(xiàn)矩陣212中任何剩余款目都指示所有相關(guān)短語(yǔ)。
接著，通過(guò)信息增益值I (gj，gk)來(lái)對(duì)同時(shí)出現(xiàn)矩陣212的各行&中的列&排序，使得首先列出具有最高信息增益的相關(guān)短語(yǔ)&。因此，此排序?yàn)橐唤o定短語(yǔ)&識(shí)別出按照信息增益哪些其它短語(yǔ)最可能相關(guān)。下一步驟是確定402哪些相關(guān)短語(yǔ)一起形成相關(guān)短語(yǔ)群集。群集是相關(guān)短語(yǔ)的集合，其中每個(gè)短語(yǔ)相對(duì)于至少一個(gè)其它短語(yǔ)而具有高信息增益。在一實(shí)施例中，群集的識(shí)別如下。在矩陣的每行&中，將存在一或多個(gè)與短語(yǔ)&相關(guān)的其它短語(yǔ)。這個(gè)集合就是相關(guān)短語(yǔ)集合民，其中R= {gk gnJ。對(duì)于&中的每個(gè)相關(guān)短語(yǔ)m，索引系統(tǒng)110確定R中的各其它相關(guān)短語(yǔ)是否也與 &相關(guān)。因此，如果I(gk，gl)也非零，那&、&與而是群集的一部分。對(duì)R中的每一對(duì)(gl， gm)重復(fù)此群集測(cè)試。舉例來(lái)說(shuō)，假定好短語(yǔ)“BillClinton” 與短語(yǔ)“I^residenW'Monica Lewinsky，，相關(guān)，這是因?yàn)槊恳粋€(gè)這些短語(yǔ)相對(duì)于“Bill Clinton"的信息增益都超過(guò)相關(guān)短語(yǔ)閾值。另外，假定短語(yǔ)“Monica Lewinsky”與短語(yǔ)“purse designer”相關(guān)。這些短語(yǔ)于是形成集合 R0為確定群集，索引系統(tǒng)110通過(guò)確定這些短語(yǔ)的相應(yīng)信息增益來(lái)評(píng)估每個(gè)短語(yǔ)相對(duì)于其它短語(yǔ)的信息增益。因此，索引系統(tǒng)110確定R中的所有對(duì)短語(yǔ)的信息增益I (“!Resident”， "Monica Lewinsky”)、I ( “President”，“purse designer”)等等。在此實(shí)例中，“Bill Clinton”、“President”與“Monica Lewinsky”形成一群集，“Bill Clinton”與“President，，形成第二群集，并且“Monica Lewinsky”與“purse designer”形成第三群集，并且“Monica Lewinsky”、“Bill Clinton” 與 “purse designer” 形成第四群集。這是因?yàn)楸M管 “Bill Clinton”沒(méi)有足夠的信息增益來(lái)預(yù)測(cè)“purse designer”，但“Monica Lewinsky”仍預(yù)測(cè)這兩個(gè)短語(yǔ)。為記錄404群集信息，向每一個(gè)群集指派一個(gè)唯一的群集號(hào)(群集ID)。然后，結(jié)合每一個(gè)好短語(yǔ)& 一起記錄此信息。在一實(shí)施例中，群集號(hào)是由群集位向量來(lái)確定，群集位向量還指示短語(yǔ)之間的正交關(guān)系。群集位向量是長(zhǎng)度為η的位的序列，其中η是好短語(yǔ)列表208中的好短語(yǔ)的數(shù)量。對(duì)于一給定好短語(yǔ)&，位位置對(duì)應(yīng)于&的排序后的相關(guān)短語(yǔ)R。如果R中的相關(guān)短語(yǔ)&與短語(yǔ)&在同一個(gè)群集中，則設(shè)定一個(gè)位。更一般來(lái)說(shuō)，這意味著如果在&與&之間的任一方向上存在信息增益，則設(shè)定群集位向量中的相應(yīng)位。于是，群集號(hào)就是所得位串的值。此實(shí)施例具有這樣一個(gè)特性，即具有多向或單向信息增益的相關(guān)短語(yǔ)出現(xiàn)在相同群集中。如下是使用上述短語(yǔ)的群集位向量的一個(gè)實(shí)例
權(quán)利要求
1.一種用于響應(yīng)查詢(xún)而對(duì)包括在搜索結(jié)果中的文獻(xiàn)分等級(jí)的方法，所述查詢(xún)包含至少一個(gè)查詢(xún)短語(yǔ)，所述方法包含針對(duì)所述搜索結(jié)果中的每一個(gè)文獻(xiàn)存取所述查詢(xún)的短語(yǔ)的相關(guān)短語(yǔ)位向量，其中所述位向量中的每一位指示所述查詢(xún)短語(yǔ)的相關(guān)短語(yǔ)是否存在；對(duì)用于指示所述查詢(xún)短語(yǔ)的相關(guān)短語(yǔ)是否存在的每一位，將與所述位相關(guān)聯(lián)的預(yù)定點(diǎn)數(shù)添加到所述文獻(xiàn)的分?jǐn)?shù)中；及使用對(duì)應(yīng)于所述文獻(xiàn)的文獻(xiàn)分?jǐn)?shù)對(duì)所述搜索結(jié)果中的所述文獻(xiàn)排序。
2.如權(quán)利要求1所述的方法，其中，在相關(guān)短語(yǔ)相對(duì)于查詢(xún)短語(yǔ)的信息增益超過(guò)預(yù)定閾值的情況下，所述查詢(xún)短語(yǔ)預(yù)測(cè)相關(guān)短語(yǔ)。
3.如權(quán)利要求2所述的方法，當(dāng)所述相關(guān)短語(yǔ)和所述查詢(xún)短語(yǔ)在所述文獻(xiàn)集中的實(shí)際同時(shí)出現(xiàn)率的度量超過(guò)所述相關(guān)短語(yǔ)和所述查詢(xún)短語(yǔ)在所述文獻(xiàn)集中的預(yù)期同時(shí)出現(xiàn)率時(shí)，所述預(yù)定閾值被超過(guò)，其中，所述相關(guān)短語(yǔ)和所述查詢(xún)短語(yǔ)的預(yù)期同時(shí)出現(xiàn)率是所述相關(guān)短語(yǔ)和所述查詢(xún)短語(yǔ)在所述文獻(xiàn)集中的多個(gè)出現(xiàn)的函數(shù)。
4.如權(quán)利要求1所述的方法，其中所述相關(guān)短語(yǔ)位向量中的每一位與所述查詢(xún)短語(yǔ)的相關(guān)短語(yǔ)相關(guān)聯(lián)；且對(duì)所述位排序，使所述位向量的最高有效位與相對(duì)于所述查詢(xún)短語(yǔ)具有最大信息增益的相關(guān)短語(yǔ)相關(guān)聯(lián)，并且最低有效位與相對(duì)于所述查詢(xún)短語(yǔ)具有最小信息增益的相關(guān)短語(yǔ)相關(guān)聯(lián)；及與每一位相關(guān)聯(lián)的所述預(yù)定點(diǎn)數(shù)量的范圍是從與所述最高有效位相關(guān)聯(lián)的最大點(diǎn)數(shù)到與最低有效位相關(guān)聯(lián)的最低點(diǎn)數(shù)。
5.如權(quán)利要求1所述的方法，進(jìn)一步包含存儲(chǔ)所述搜索結(jié)果中的所述文獻(xiàn)。
全文摘要
本發(fā)明涉及信息檢索系統(tǒng)中基于短語(yǔ)的搜索。本發(fā)明涉及一種信息檢索系統(tǒng)，其使用短語(yǔ)來(lái)編制索引、檢索、組織并描述文獻(xiàn)。識(shí)別預(yù)測(cè)文獻(xiàn)中存在其它短語(yǔ)的短語(yǔ)。根據(jù)文獻(xiàn)中所包括的短語(yǔ)來(lái)對(duì)文獻(xiàn)編制索引。同時(shí)識(shí)別相關(guān)短語(yǔ)與擴(kuò)展短語(yǔ)。識(shí)別并使用查詢(xún)中的短語(yǔ)來(lái)檢索文獻(xiàn)并對(duì)文獻(xiàn)分等級(jí)。同時(shí)使用短語(yǔ)來(lái)群集搜索結(jié)果中的文獻(xiàn)、創(chuàng)建文獻(xiàn)說(shuō)明并從搜索結(jié)果與索引中去除重復(fù)文獻(xiàn)。
文檔編號(hào)G06F17/30GK102226901SQ20111020037
公開(kāi)日2011年10月26日申請(qǐng)日期2005年7月26日優(yōu)先權(quán)日2004年7月26日
發(fā)明者安娜·林恩·帕特森申請(qǐng)人:咕果公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：安娜·林恩·帕特森
技術(shù)所有人：咕果公司
我是此專(zhuān)利的發(fā)明人

上一篇：狀態(tài)指示模組的制作方法
上一篇：信息檢索系統(tǒng)中基于短語(yǔ)的搜索的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

短語(yǔ)搜索相關(guān)技術(shù)

中國(guó)法律信息檢索系統(tǒng)相關(guān)技術(shù)

信息檢索系統(tǒng)相關(guān)技術(shù)

信息檢索系統(tǒng)的功能為相關(guān)技術(shù)

信息檢索系統(tǒng)的功能相關(guān)技術(shù)

信息檢索系統(tǒng)評(píng)價(jià)相關(guān)技術(shù)

光盤(pán)信息檢索系統(tǒng)相關(guān)技術(shù)

信息檢索系統(tǒng)導(dǎo)論相關(guān)技術(shù)

完整的信息檢索系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信息檢索系統(tǒng)中基于短語(yǔ)的搜索的制作方法