專利名稱:通過超級鏈接擴(kuò)散特性的制作方法
一般地說,本發(fā)明涉及信息檢索,更具體地說,涉及在例如萬維網(wǎng)上高效率地和有效果地檢索超文本文檔(document)的方法和裝置。
稱作因特網(wǎng)的廣域計(jì)算機(jī)網(wǎng)絡(luò),特別是稱作萬維網(wǎng)的因特網(wǎng)部分,使用戶能訪問大量信息。毫不驚奇,已經(jīng)提供了若干個(gè)搜索引擎,用戶能向其中輸入查詢,而搜索引擎能使用各種方案返回萬維網(wǎng)站清單以響應(yīng)這些查詢,從而便于從萬維網(wǎng)挖掘信息。這些萬維網(wǎng)站一般代表由計(jì)算機(jī)存儲(chǔ)的文檔,用戶能訪問這些文檔以得到關(guān)于該特定站點(diǎn)主題的信息。
通常,與大多數(shù)計(jì)算機(jī)搜索方法相似,萬維網(wǎng)搜索引擎使用某種關(guān)鍵詞搜索策略,其中,用戶輸入查詢的一個(gè)或多個(gè)術(shù)語以某種方式與萬維網(wǎng)文檔中的術(shù)語進(jìn)行匹配,以向查詢用戶返回一個(gè)特定萬維網(wǎng)站清單。然而,發(fā)生的情況是大多數(shù)查詢的長度只有一至三個(gè)詞,這樣,通常這些查詢的范圍很廣。這意味著有大量萬維網(wǎng)站可能含有一個(gè)查詢的一個(gè)或多個(gè)詞,而且,如果搜索引擎返回所有可能的候選者,那么用戶可能需要篩選成百或數(shù)千個(gè)文檔。
再有,可能發(fā)生這樣的情況,即響應(yīng)一個(gè)查詢時(shí),那些最貼近該查詢的萬維網(wǎng)站可能根本未被返回。更具體地說,一個(gè)查詢使用的術(shù)語可能在最貼近該查詢的萬維網(wǎng)站中不出現(xiàn)。例如,在為當(dāng)今最普及的兩個(gè)瀏覽器的萬維網(wǎng)站中根本沒出現(xiàn)“瀏覽器”這個(gè)術(shù)語。相反,這些萬維網(wǎng)站使用“瀏覽器”以外的其他詞來說明這些網(wǎng)站的主題。結(jié)果,如果一個(gè)用戶向使用簡單的關(guān)鍵詞查詢策略的搜索引擎輸入詞“瀏覽器”,那么這些網(wǎng)站將不會(huì)被返回給用戶。
然而,如本發(fā)明認(rèn)識到的那樣,因特網(wǎng)用戶不知不覺地在合作搜索、閱讀、評論和判斷萬維網(wǎng)文檔的質(zhì)量。這種合作大部分通過萬維網(wǎng)頁的匯編反映在大部分(如果不是全部)萬維網(wǎng)頁中,這些萬維網(wǎng)頁通常描述和指向那些被看作是高質(zhì)量的其他網(wǎng)頁。
更具體地說,一個(gè)萬維網(wǎng)頁以超級鏈接的形式指向其他萬維網(wǎng)頁,這實(shí)質(zhì)上是在第一文檔(即第一萬維網(wǎng)頁)中參考其他文檔(即其他網(wǎng)頁)。超級鏈接使用戶能通過利用計(jì)算機(jī)鼠標(biāo)或其他指向與點(diǎn)擊裝置“點(diǎn)擊”該超級鏈接,從而選擇立即訪問另一個(gè)萬維網(wǎng)頁。如這里所認(rèn)識到的那樣,這種參考萬維網(wǎng)頁可以是這樣一些術(shù)語的豐富來源,這些術(shù)語已經(jīng)廣泛地與那些被參考萬維網(wǎng)頁關(guān)聯(lián),即使那些被參考網(wǎng)頁本身并不使用這些術(shù)語。結(jié)果,這些術(shù)語能被用于改善萬維網(wǎng)搜索查詢結(jié)果。本發(fā)明進(jìn)一步認(rèn)識到,通過對一文檔的參考(例如一個(gè)超級鏈接)來有效地?cái)U(kuò)散特性的這些原理不僅適用于萬維網(wǎng),也能應(yīng)用于被鏈接如專利、學(xué)術(shù)論文、文章、書藉、電子郵件等文檔的任何實(shí)體。
因此,本發(fā)明的一個(gè)目的是提供一種通過超級鏈接擴(kuò)散特性的方法和系統(tǒng)。本發(fā)明的另一目的是提供一種方法和系統(tǒng),用于響應(yīng)用戶查詢,在一組文檔中對文檔進(jìn)行分級。本發(fā)明的又一目的是提供一種方法和系統(tǒng),用于在一組文檔中找出關(guān)鍵詞。本發(fā)明的再一個(gè)目的是提供一種方法和系統(tǒng),用于在計(jì)算機(jī)存儲(chǔ)的文檔中找出文檔術(shù)語和由一個(gè)或多個(gè)查詢術(shù)語所代表的查詢主題之間的關(guān)聯(lián)。本發(fā)明的另一目的是提供一種用于萬維網(wǎng)搜索的方法和系統(tǒng),這種萬維網(wǎng)搜索便于使用而且節(jié)省費(fèi)用。
本發(fā)明是根據(jù)這里所發(fā)明的步驟進(jìn)行編程的通用計(jì)算機(jī),以響應(yīng)查詢對一組文檔中的文檔進(jìn)行分級。本發(fā)明還能實(shí)現(xiàn)為一個(gè)制造的物品-機(jī)器部件-它被一數(shù)字處理系統(tǒng)所用并且有形地實(shí)現(xiàn)一個(gè)指令程序,該程序可由該數(shù)據(jù)處理裝置執(zhí)行,以在計(jì)算機(jī)存儲(chǔ)的文檔中找出文檔術(shù)語和查詢主題之間的關(guān)聯(lián)。本發(fā)明在一個(gè)關(guān)鍵機(jī)器部件中實(shí)現(xiàn),該部件使一數(shù)字處理裝置完成這里發(fā)明的方法步驟。
根據(jù)本發(fā)明,該計(jì)算機(jī)包括計(jì)算機(jī)可讀代碼裝置,用于在第一文檔中識別出對第二文檔的參考。計(jì)算機(jī)可讀代碼裝置接收一個(gè)定義文檔術(shù)語個(gè)數(shù)的詞匯間隔(lexical distance)。再有,該計(jì)算機(jī)包括計(jì)算機(jī)可讀代碼裝置用于接收包括一個(gè)或多個(gè)查詢術(shù)語的查詢,以及計(jì)算機(jī)可讀代碼裝置用于確定在第一文檔中出現(xiàn)的位于對第二文檔進(jìn)行參考的詞匯間隔范圍內(nèi)的至少一個(gè)查詢術(shù)語的次數(shù),用于據(jù)此對文檔分級。
在一個(gè)實(shí)施例中,可通過廣域計(jì)算機(jī)網(wǎng)絡(luò)訪問文檔,而參考包括一個(gè)統(tǒng)一資源列表(URL)。如果希望的話,根據(jù)查詢建立詞匯間隔。
最好是該計(jì)算機(jī)還包括計(jì)算機(jī)可讀代碼裝置用于根據(jù)在文檔中參考的詞匯間隔范圍內(nèi)存在查詢術(shù)語的相應(yīng)次數(shù)來對多個(gè)文檔進(jìn)行分級。此外,該計(jì)算機(jī)包括計(jì)算機(jī)可讀代碼用于接收文檔集合“U”。提供的計(jì)算機(jī)可讀代碼用于對集合“U”中的至少一個(gè)測試文檔“u”,把集合“U”中包括至少一個(gè)對測試文檔“u”的參考的那些文檔定義為鄰居文檔“N(u)”。再有,對于至少一個(gè)鄰居文檔“N(u)”中的至少一個(gè)文檔術(shù)語,計(jì)算機(jī)可讀代碼裝置確定是否至少有一個(gè)文檔術(shù)語處在測試文檔“u”的鄰居文檔“N(u)”中的一個(gè)參考的預(yù)先確定的間隔內(nèi)(即在一預(yù)先確定的術(shù)語個(gè)數(shù)范圍內(nèi))。根據(jù)本發(fā)明,計(jì)算機(jī)可讀代碼裝置于是發(fā)出一個(gè)信號,以響應(yīng)確定是否至少有一個(gè)文檔術(shù)語處在一個(gè)參考的預(yù)先確定間隔范圍內(nèi)的那個(gè)裝置。當(dāng)這至少一個(gè)文檔術(shù)語處在對測試文檔“u”的一個(gè)參考的預(yù)先確定間隔范圍內(nèi)時(shí),該輸出裝置使一個(gè)與這至少一個(gè)文檔術(shù)語相關(guān)聯(lián)的計(jì)數(shù)器增量。
除了上面概述的邏輯外,該計(jì)算機(jī)還能包括計(jì)算機(jī)可讀代碼裝置用于響應(yīng)包括一個(gè)或多個(gè)查詢術(shù)語的查詢,從而接收一個(gè)文檔集合“U”,其每個(gè)文檔包含一個(gè)或多個(gè)文檔術(shù)語。提供的計(jì)算機(jī)可讀代碼裝置用于確定在至少一個(gè)第一文檔和至少一個(gè)第一文檔術(shù)語之間的相關(guān)性,如果該第一文檔術(shù)語和對該第一文檔的一個(gè)參考二者都處在一個(gè)查詢術(shù)語的一個(gè)預(yù)先確定的間隔范圍內(nèi)的話。如果希望,該相關(guān)性與一權(quán)重相關(guān)聯(lián),而該權(quán)重是基于文檔集合“U”中第一文檔術(shù)語和對第一文檔的一個(gè)參考二者處在一查詢術(shù)語的一個(gè)預(yù)先確定間隔范圍內(nèi)的次數(shù)。
在另一方面,一個(gè)計(jì)算機(jī)程序裝置包括一個(gè)可由數(shù)字處理裝置讀出的計(jì)算機(jī)程序存儲(chǔ)裝置,以及程序存儲(chǔ)裝置上的一個(gè)程序裝置,它包括可由該數(shù)字處理裝置執(zhí)行的指令,用于完成在一文檔集合中找出關(guān)鍵詞的方法步驟。這些方法步驟包括接收一組文檔,然后確定該組文檔中的參考文檔和被參考文檔,參考文檔是該組中含有對被參考文檔的參考的那些文檔。對參考文檔中的每個(gè)文檔術(shù)語,確定該文檔術(shù)語出現(xiàn)在對一被參考文檔的參考的預(yù)先確定間隔范圍內(nèi)的次數(shù)。根據(jù)各相應(yīng)的次數(shù),在這些文檔中至少有一些文檔術(shù)語被分級。還公開了一種計(jì)算機(jī),用于實(shí)現(xiàn)上面描述的程序裝置。
在又一方面,公開了一種由計(jì)算機(jī)實(shí)現(xiàn)的方法,用于在由計(jì)算機(jī)存儲(chǔ)的文檔中找出在文檔術(shù)語和由一個(gè)或多個(gè)查詢術(shù)語代表的查詢主題之間的關(guān)聯(lián)。根據(jù)本發(fā)明,這些文檔各有相應(yīng)的文檔名。該方法包括響應(yīng)查詢術(shù)語接收至少一個(gè)文檔列表,然后,當(dāng)在一文檔中在一查詢術(shù)語的一個(gè)預(yù)先確定間隔范圍內(nèi)找出一文檔術(shù)語和一文檔名二者時(shí),輸出一個(gè)信號代表該文檔術(shù)語和該查詢主題之間的關(guān)聯(lián)。還公開了一個(gè)執(zhí)行上面概括的方法的計(jì)算機(jī)。
在另一方面,一個(gè)計(jì)算機(jī)包括一個(gè)數(shù)據(jù)存儲(chǔ)裝置,該數(shù)據(jù)存儲(chǔ)裝置又包括一個(gè)計(jì)算機(jī)可用介質(zhì),它有計(jì)算機(jī)可用代碼裝置用于響應(yīng)一查詢對一個(gè)文檔集合中的文檔進(jìn)行分級。該計(jì)算機(jī)可用代碼裝置有計(jì)算機(jī)可讀代碼裝置用于接收一個(gè)文檔集合“U”,以及計(jì)算機(jī)可讀代碼裝置用于對集合“U”中的至少一個(gè)測試文檔“u”,把集合“U”中包括至少一個(gè)對測試文檔“u”的參考的那些文檔定義為鄰居文檔“N(u)”。此外,對至少一個(gè)鄰居文檔“N(u)”中的至少一個(gè)文檔術(shù)語,計(jì)算機(jī)可讀代碼裝置確定該文檔術(shù)語是否處在該測試文檔“u”的鄰居文檔“N(u)”內(nèi)的一個(gè)參考的預(yù)先確定間隔范圍內(nèi)。然后,計(jì)算機(jī)可讀代碼裝置輸出一個(gè)信號,以響應(yīng)該確定裝置。
現(xiàn)在將參考附圖,僅以舉例方式描述本發(fā)明,這些附圖中
圖1是通過超級鏈接擴(kuò)散文檔特性的本計(jì)算機(jī)系統(tǒng)略圖;圖2是計(jì)算機(jī)程序產(chǎn)品略圖;圖3是一邏輯的流程圖,該邏輯用于響應(yīng)一查詢,增長已提供的萬維網(wǎng)站列表;
圖4是一邏輯的流程圖,該邏輯用于響應(yīng)一查詢,從所產(chǎn)生的頁面列表中回送“高質(zhì)量”頁面;圖5是一流程圖,所顯示的邏輯用于通過超級鏈接找出描述性術(shù)語(這里也稱作特性);以及圖6是一流程圖,所顯示的邏輯用于在計(jì)算機(jī)存儲(chǔ)的文檔中找出文檔術(shù)語和由一個(gè)或多個(gè)查詢術(shù)語代表的查詢主題之間的關(guān)聯(lián)。
發(fā)明詳述首先參考圖1,圖中顯示通過超級鏈接找出描述性術(shù)語的系統(tǒng),總體用10表示。在所示具體結(jié)構(gòu)中,系統(tǒng)10包括一數(shù)字處理裝置,如計(jì)算機(jī)12。在一個(gè)預(yù)定的實(shí)施例中,計(jì)算機(jī)12可以是圖中所示由ArmonK,N.Y.的國際商用機(jī)器公司(IBM)制造的個(gè)人計(jì)算機(jī),或者計(jì)算機(jī)12可以是任何計(jì)算機(jī),包括以諸如AS/100為商標(biāo)出售的計(jì)算機(jī),并伴有IBM網(wǎng)絡(luò)工作站。或者,計(jì)算機(jī)12可以是一個(gè)Unix計(jì)算機(jī),或OS/2服務(wù)器,或Windows NT服務(wù)器,或運(yùn)行AIX3.2.5的帶有128MB主存儲(chǔ)器的IBM RS/6000 250工作站,或IBM膝上計(jì)算機(jī)。(UNIX是Open Group的商標(biāo),AS/400、OS/2、RS/6000和AIX是國際商用機(jī)器公司的商標(biāo),Windos NT是微軟公司的商標(biāo))。
計(jì)算機(jī)12訪問一個(gè)因特網(wǎng)搜索引擎14。在一個(gè)實(shí)施例中,該搜索引擎14是由Alta Vista制造的,可以理解,其他搜索引擎當(dāng)然也可使用。搜索引擎14從計(jì)算機(jī)12接收查詢,并響應(yīng)該查詢向計(jì)算機(jī)12回送一個(gè)計(jì)算機(jī)存儲(chǔ)文檔列表,更具體地回送一個(gè)萬維網(wǎng)站列表16,利用這一列表,計(jì)算機(jī)12能經(jīng)由稱作萬維網(wǎng)18的因特網(wǎng)部分進(jìn)行通信。
此外,計(jì)算機(jī)12包括一個(gè)特性擴(kuò)散器模塊19,它作為一系列計(jì)算機(jī)可執(zhí)行的指令,由計(jì)算機(jī)12內(nèi)的處理器來執(zhí)行。這些指令可以駐留在例如計(jì)算機(jī)12的RAM中。這里的這些流程圖說明本發(fā)明的模塊19承擔(dān)在計(jì)算機(jī)程序軟件中實(shí)現(xiàn)的編程指令結(jié)構(gòu)。本領(lǐng)域技術(shù)人員將會(huì)理解,這些流程圖說明根據(jù)本發(fā)明實(shí)現(xiàn)其功能的邏輯單元(如計(jì)算機(jī)程序代碼單元或電子邏輯電路)的結(jié)構(gòu)。顯然地,本發(fā)明在其基本實(shí)施例中是由機(jī)器部件實(shí)現(xiàn)的,這些機(jī)器部件執(zhí)行邏輯單元,其執(zhí)行方式是指示數(shù)字處理裝置(即計(jì)算機(jī))完成與所示邏輯單元對應(yīng)的一系列功能步驟。
換言之,模塊19可以是一計(jì)算機(jī)程序,它作為一系列計(jì)算機(jī)可執(zhí)行的指令由計(jì)算機(jī)12內(nèi)的處理器執(zhí)行。
另一種作法是,這些指令可以存儲(chǔ)在具有計(jì)算機(jī)可讀介質(zhì)的數(shù)據(jù)存儲(chǔ)裝置上,如圖2中所示軟盤20。軟盤20可包括計(jì)算機(jī)可用介質(zhì)22,它電子存儲(chǔ)計(jì)算機(jī)可讀程序代碼單元A-D。或者,這些指令可存儲(chǔ)在DASD陣列,磁帶、傳統(tǒng)的硬盤驅(qū)動(dòng)器、電子只讀存儲(chǔ)器、光存儲(chǔ)裝置、或其他適當(dāng)?shù)臄?shù)據(jù)存儲(chǔ)裝置上。在本發(fā)明的一個(gè)示例實(shí)施例中,計(jì)算機(jī)可執(zhí)行指令可以是編譯的C++兼容代碼行或超文本標(biāo)記語言(HTML)兼容代碼行。
圖1還顯示出系統(tǒng)10可包括本領(lǐng)域公知的外圍計(jì)算機(jī)設(shè)備,包括輸入裝置,如計(jì)算機(jī)鍵盤24和/或計(jì)算機(jī)鼠標(biāo)25??墒褂贸龍D中所示以外的其他輸入裝置,如跟蹤球、小鍵盤(Keypad)、觸模屏、以及語音識別裝置。還提供了一個(gè)輸出裝置,如視頻監(jiān)視器26。其他輸出裝置可以使用,如打印機(jī)和其他計(jì)算機(jī)等。
現(xiàn)在參考圖3,圖中可看到由模塊19承擔(dān)的第一過程(這里稱作“過程A”)的邏輯。在塊28開始,接收一個(gè)可能由鍵盤24輸入的用戶查詢。用戶查詢由一個(gè)或多個(gè)查詢術(shù)語組成,如“高山(highmountains)”。
進(jìn)到塊30,建立了詞匯間隔“1”。在一個(gè)最佳實(shí)施例中,為便于簡短地說明,該詞匯間隔“1”用術(shù)語的整數(shù)個(gè)數(shù)定義一個(gè)窗口。詞匯間隔“1”可有固定值,或者,作為另一種方式,詞匯間隔“1”的值可根據(jù)查詢中的中個(gè)數(shù)來建立。例如,詞匯間隔“1”的值可與查詢術(shù)語個(gè)數(shù)成反比。
在塊32,該查詢被送到搜索引擎14。根據(jù)搜索引擎原理,搜索引擎14返回一個(gè)符合該查詢的萬維網(wǎng)站列表16,該列表在一結(jié)果集合“R”中返回,并在塊34收到該結(jié)果集合“R”。通常,結(jié)果集合是作為萬維網(wǎng)站名列表返回的,這些萬維網(wǎng)站名被稱作統(tǒng)一資源定位符(URL)。
進(jìn)到塊36,于是該邏輯按下述方式擴(kuò)展結(jié)果集合“R”。首先,把與結(jié)果集合“R”中的一個(gè)或多個(gè)元素“r”存在超級鏈接的所有“s”URL加到結(jié)果集合“R”中。這樣,在塊36,在第一文檔中識別出了對第二文檔的參考。
接下來,在塊38,把全部“t”URL加到結(jié)果集合“R”中,這“t”URL的特征是存在從結(jié)果集合“R”中的任何元素“r”到該URL的超級鏈接,這一擴(kuò)展了的集合表示為“S”。這樣,在塊36和38,通過把由結(jié)果集合“R”中的URL中的超級鏈接所指向的那些URL或者借助超級鏈接指向R中URL的那些URL添加到結(jié)果集合“R”中,使結(jié)果集合“R”擴(kuò)展為擴(kuò)展集合“S”。
該邏輯從塊38移到塊40,從而進(jìn)入對擴(kuò)展集合“S”中每個(gè)文檔的“DO”循環(huán)。在決策菱形42中,確定是否在該文檔的URL“u”的詞匯間隔范圍內(nèi)出現(xiàn)任何查詢術(shù)語,即是否在被測試文檔中有任何查詢術(shù)語出現(xiàn)在指向擴(kuò)展集合“S”中第u個(gè)文檔的超級鏈接的詞匯間隔范圍內(nèi)。如果是,則在塊44使與擴(kuò)展集合“S”中的第u個(gè)文檔關(guān)聯(lián)的一個(gè)計(jì)數(shù)器u增加1,然后在塊46檢索出下一個(gè)文檔。這樣,該邏輯確定了在第一文檔中有至少一個(gè)查詢術(shù)語存在于對第二文檔的參考的詞匯間隔范圍內(nèi)的次數(shù),用于據(jù)此對文檔分級(見下述)。
如果在決策菱形42處的測試是否定的,則邏輯直接移到塊46。邏輯從塊46移到?jīng)Q策菱形48,以確定是否已完成“DO”循環(huán),如果否,則邏輯循環(huán)回到?jīng)Q策菱形42。另一方面,一旦完成了“DO”循環(huán),過程則移到塊50,返回一個(gè)按計(jì)數(shù)器值遞減順序的URL有序集合。
現(xiàn)在參考圖4,可理解“B”過程,它試圖根據(jù)這里某些術(shù)語的重要性對從過程“A”返回的頭“N”個(gè)URL進(jìn)行重新排序。在塊52開始,接收一組文檔。這組文檔可以是例如在塊50輸出的頭“N”個(gè)(例如20個(gè))URL。對于這一組文檔,進(jìn)入一個(gè)“DO”循環(huán),并在塊54把索引變量“v”設(shè)為等于被測試的URL。
移到塊56,在那里確定引用被測試URL“v”(例如,通過包含一個(gè)指向被測試URL“v”的超級鏈接)的所有URL“u”(或其子集)。接下來,進(jìn)到塊58,在那里檢索出指向被測試URL“v”的超級鏈接所屬的那些URL中的所有錨入文本。
“錨入文本”是指一個(gè)文本中直接與一超級鏈接或者其他參考或引用相關(guān)聯(lián)的文本。例如,在這樣一段話“One of the earliesthigh-energy nuclear accelerators was built at(最高的高能核子加速器之一曾建在)<A HREF=http//www.CERN.ch>CERN,the EuropeanLaboratory for Particle Physics(歐洲粒子物理實(shí)驗(yàn)室)</A>,中,超鏈接是短語http//www.CERN.ch,而錨入文本是介于“<A>…</A>”之間的材料。利用此例,對于例如為5的詞匯間隔,在該錨入文本的詞匯間隔范圍內(nèi)的術(shù)語是“nuclear accelerators was built at”,而不在該錨入文本的詞匯間隔范圍內(nèi)的術(shù)語是“One of the earliesthigh-energy”。
然后,對每個(gè)查詢術(shù)語,在塊60進(jìn)入一個(gè)嵌入的“DO”循環(huán)。進(jìn)入決策菱形62,確定被測試查詢術(shù)語在被測試文檔中出現(xiàn)的頻度是否大于錨入文本的某參考集合中的參考頻度,如由各種傳統(tǒng)的統(tǒng)計(jì)技術(shù)之一所確定的那樣。
當(dāng)被測試文檔中的被測試查詢術(shù)語出現(xiàn)的頻度大于參考頻度時(shí),該過程移到塊64,在那里把該被測試文檔標(biāo)注為重要的。否則,被測試文檔不被標(biāo)注為重要的。在每種情況中,每個(gè)文檔都可與一個(gè)計(jì)數(shù)器或其他值相關(guān)聯(lián),該計(jì)數(shù)器或其他值代表由上述測試得到的它的重要性。在上面討論的“DO”循環(huán)結(jié)束時(shí),這頭“N”個(gè)URL按其重要性排序。
現(xiàn)在參考圖5,圖中顯示通過超級鏈接找出描述性術(shù)語的過程“C”。在塊68處開始,接收URL“u”的一個(gè)集合“U”,并對集合“U”中的每個(gè)單個(gè)URL“u”,進(jìn)入一個(gè)“DO”循環(huán)。在塊70,確定URL“u”的近鄰“N(u)”集合?!敖?in-neighbour)”是指URL集合“U”中的含有指向被測試文檔“u”的超級鏈接的文檔。換一種說法,可把近鄰集合N(u)看作是參考被參考文檔“u”的參考文檔。
對近鄰集合N(u)的每個(gè)元素(即文檔術(shù)語),在塊72進(jìn)入一個(gè)嵌入的“DO”循環(huán)。移到塊74,一個(gè)計(jì)數(shù)器與近鄰集合N(u)的每個(gè)術(shù)語關(guān)聯(lián)。接著,進(jìn)入一個(gè)雙嵌入“DO”循環(huán)進(jìn)入決策菱形76,確定被測試術(shù)語是否在指向被測試文檔“u”的一個(gè)參考(例如超級鏈接)的預(yù)先確定間隔范圍內(nèi)。這個(gè)預(yù)先確定間隔可以是上文討論的詞匯間隔。如果被測試術(shù)語處在指向被測試文檔的一個(gè)參考的預(yù)先確定間隔范圍內(nèi),則在塊78對計(jì)數(shù)器加1。否則,該計(jì)數(shù)器不加1。當(dāng)文檔集合“U”中所有文檔“u”的近鄰集合N(u)中的所有近鄰的所有術(shù)語都已按上述作法測試過時(shí),該邏輯移到塊80,按各術(shù)語各自的計(jì)數(shù)器值對這些術(shù)語排序,并返回一個(gè)排序列表。
如本發(fā)明認(rèn)識到的那樣,在塊80處的輸出是文檔集合“U”中術(shù)語的分級列表。這一分級列表能用于向用戶建議額外的查詢術(shù)語。而且,它可作為運(yùn)行中的關(guān)聯(lián)詞典。此外,在塊80處的輸出能用于注釋被超級鏈接接的文檔集叢和術(shù)語集叢,作為許多搜索引擎的一個(gè)后處理步驟。
圖6顯示過程“D”的邏輯,用于找出計(jì)算機(jī)存儲(chǔ)文檔中文檔術(shù)語和由一個(gè)或多個(gè)查詢術(shù)語代表的查詢主題之間的關(guān)聯(lián)。在塊82處開始,接收一個(gè)查詢“Q”。該查詢“Q”由一個(gè)或多個(gè)查詢術(shù)語“q”構(gòu)成。
在塊84處,該查詢被送到一搜索引擎,作為響應(yīng),從搜索引擎回收到一個(gè)文檔列表。移到塊86,在此處構(gòu)成一個(gè)雙枝圖G=((T,U),E),其頂點(diǎn)是在塊84處返回的術(shù)語(T)和文檔(U),這里T和U分別代表雙枝圖的文檔術(shù)語分支和URL分支,而這里的E代表分枝之間的邊緣。
進(jìn)到塊88,對每個(gè)文檔,進(jìn)入一個(gè)“DO”循環(huán)。進(jìn)到塊90,該文檔被掃描,尋找URL“u”和查詢術(shù)語“q”。接下來進(jìn)到塊92,對于在查詢術(shù)語“q”的一個(gè)預(yù)先確定間隔范圍內(nèi)找出的每個(gè)文檔術(shù)語“t”和URL“u”,進(jìn)入一個(gè)“DO”循環(huán),其中在塊94處對邊緣(t,u)E的權(quán)重增1。利用這一邏輯,如果在一文檔中在一查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)找到一文檔術(shù)語和一文檔名或引用(以超級鏈接的形式)二者,則輸出一個(gè)信號,它代表該文檔術(shù)語和該查詢主題之間的關(guān)聯(lián)。
如果希望的話,該“DO”循環(huán)能包括進(jìn)入塊96,在這里對邊緣Eai,j定義的矩陣A確定一個(gè)單值分解(SVD),這里ai,j是從第i個(gè)術(shù)語到第j個(gè)URL的邊緣的權(quán)重。如本領(lǐng)域眾所周知,在塊96處對SVD的確定有效地對A進(jìn)行了因式分解A=USV,這里S是含有A的奇異值的對角矩陣,而U和V是用于進(jìn)行正交交換的正交矩陣。在本領(lǐng)域中稱作隱伏語義檢索(Latent Semantic Indexing,LSI)的技術(shù),如在美國專利4,839,853號中公開的那種,可用于對全集進(jìn)行預(yù)處理,特別是把文檔-術(shù)語矩陣A分解為USV,這里U給出從術(shù)語空間到可稱作LSI或概念空間的線性投影。幾百個(gè)LSI維數(shù)“k”足夠了。
然而,LSI搜索并不使用U矩陣,而本發(fā)明使用U矩陣,如下述。每個(gè)術(shù)語被映射到LSI空間,其每個(gè)文檔由一個(gè)K維矢量序列代表。查詢本身被變換成這種矢量的一個(gè)短序列。然后,這些文檔被掃描,該邏輯試圖使查詢矢量與文檔中的一個(gè)矢量小窗口匹配。如果存在一個(gè)低成本(即“好的”)匹配,則對附近的引用,即超級鏈接,投一個(gè)大的贊成票,可以用一種最小成本匹配策略來對成本進(jìn)行估計(jì),匹配與術(shù)語t1和t2對應(yīng)的矢量所需的邊緣成本就是它們在U中投影之間的距離。作為一例,查詢“auto makers(汽車制造商)”可以以小成本匹配于文本序列“companies making cars(制造汽車的公司)”,于是對這種類似短語附近發(fā)生的引用投贊成票。
與LSI相反,本發(fā)明對每個(gè)文檔保持一個(gè)LSI矢量序列。換言之,與LSI不同,本發(fā)明考慮匹配LSI矢量序列和使用評分對鄰近的引用投票。
如果希望的話,該過程可在塊98向用戶返回建議的搜索術(shù)語。為確定這些建議的術(shù)語,該邏輯按降值順序?qū)υ跊Q96中確定的SVD左矢量(即“U”的第一列)上有投影的那些術(shù)語進(jìn)行排序。然后,在塊98將排序列表中的頭“k”個(gè)術(shù)語返回,這里“k”是一個(gè)預(yù)先確定的整數(shù),例如5。
權(quán)利要求
1.一個(gè)包括數(shù)據(jù)存儲(chǔ)裝置的計(jì)算機(jī)(12),該數(shù)據(jù)存儲(chǔ)裝置包括一計(jì)算機(jī)可用介質(zhì)(19,22),該介質(zhì)中有計(jì)算機(jī)可用代碼裝置,用于響應(yīng)查詢以對一文檔集合中的文檔進(jìn)行分級,該計(jì)算機(jī)可用代碼裝置有用于在第一文檔中識別出對第二文檔的參考的計(jì)算機(jī)可讀代碼裝置;用于接收一詞匯間隔的計(jì)算機(jī)可讀代碼裝置(30),該詞匯間隔定義文檔術(shù)語個(gè)數(shù);用于接收包括一個(gè)或多個(gè)查詢術(shù)語的查詢的計(jì)算機(jī)可讀代碼裝置(28);以及用于確定在第一文檔中在指向第二文檔的參考的詞匯間隔范圍內(nèi)存在至少一個(gè)查詢術(shù)語的次數(shù),并據(jù)此對文檔分級的計(jì)算機(jī)可讀代碼裝置(40、42、44、46、48)。
2.如權(quán)利要求1中申明的計(jì)算機(jī)(12),這里的文檔可通過廣域計(jì)算機(jī)網(wǎng)絡(luò)訪問,而且參考包括一個(gè)統(tǒng)一資源列表(URL)。
3.如權(quán)利要求2中申明的計(jì)算機(jī)(12),這里的詞匯間隔是根據(jù)查詢建立的。
4.如權(quán)利要求2中申明的計(jì)算機(jī),進(jìn)一步包含計(jì)算機(jī)可讀代碼裝置(50)用于根據(jù)文檔中查詢術(shù)語各自出現(xiàn)在參考的詞匯間隔范圍內(nèi)的次數(shù)來對多個(gè)文檔分級。
5.如權(quán)利要求2中申明的計(jì)算機(jī)(12),進(jìn)一步包含用于接收文檔集合“U”的計(jì)算機(jī)可讀代碼裝置(52);對于集合“U”中的至少一個(gè)測試文檔“u”,把集合“U”中包括至少一個(gè)對測試文檔“u”的參考的那些文檔定義為近鄰文檔“N(u)”的計(jì)算機(jī)可讀代碼裝置(70);對于至少一個(gè)近鄰文檔“N(u)”中的至少一個(gè)文檔術(shù)語,確定是否該至少一個(gè)文檔術(shù)語處在近鄰文檔“N(u)”中對測試文檔“u”的一個(gè)參考的預(yù)先確定間隔內(nèi)的計(jì)算機(jī)可讀代碼裝置(76,78);以及響應(yīng)確定是否該至少一個(gè)文檔術(shù)語處在一參考的預(yù)先確定間隔范圍內(nèi)的裝置,從而輸出一個(gè)信號的計(jì)算機(jī)可讀代碼裝置。
6.如權(quán)利要求5中申明的計(jì)算機(jī),這里當(dāng)至少一個(gè)文檔術(shù)語處在對測試文檔“u”的參考的預(yù)先確定間隔范圍內(nèi)時(shí),該輸出裝置使與這至少一個(gè)文檔術(shù)語關(guān)聯(lián)的計(jì)數(shù)器增量。
7.如權(quán)利要求2中申明的計(jì)算機(jī),進(jìn)一步包含響應(yīng)包括一個(gè)或多個(gè)查詢術(shù)語的查詢,接收文檔集合“U”的計(jì)算機(jī)可讀代碼裝置,其中每個(gè)文檔包含一個(gè)或多個(gè)文檔術(shù)語;以及當(dāng)至少一個(gè)文檔術(shù)語和對至少一個(gè)第一文檔的參考二者在這至少一個(gè)文檔的一個(gè)查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)時(shí),在這至少一個(gè)第一文檔和這至少一個(gè)文檔術(shù)語之間定義相關(guān)性的計(jì)算機(jī)可讀代碼裝置。
8.如權(quán)利要求7中申明的計(jì)算機(jī),這里的相關(guān)性與一權(quán)重關(guān)聯(lián),該權(quán)重是基于該文檔術(shù)語和對第一文檔的參考處在文檔集合“U”中一查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)的次數(shù)。
9.一個(gè)計(jì)算機(jī)程序裝置,包含可由數(shù)字處理裝置讀出的計(jì)算機(jī)程序存儲(chǔ)器裝置;以及在程序存儲(chǔ)器裝置上的程序裝置,它包括可由數(shù)字處理裝置執(zhí)行的指令,用于完成在一文檔集合中找出關(guān)鍵詞的方法步驟,這些方法步驟包含接收該文檔集合;確定該文檔集合中的參考文檔和被參考文檔,參考文檔是該集合中的含有對被參考文檔的參考的那些文檔;對參考文檔中的每個(gè)文檔術(shù)語,確定該文檔術(shù)語出現(xiàn)在對被參考文檔的參考的預(yù)先確定間隔范圍內(nèi)的次數(shù);以及根據(jù)各次的次數(shù)對這些文檔中的至少一些文檔術(shù)語進(jìn)行分級。
10.如權(quán)利要求9中申明的計(jì)算機(jī)程序裝置,這里的方法步驟進(jìn)一步包含每當(dāng)一文檔術(shù)語出現(xiàn)在對一被參考文檔的參考的預(yù)先確定隔范圍內(nèi)時(shí),使相應(yīng)的計(jì)數(shù)器增量。
11.如權(quán)利要求9中申明的計(jì)算機(jī)程序裝置,這里的方法步驟進(jìn)一步包含響應(yīng)包括一個(gè)或多個(gè)查詢術(shù)語的查詢,接收文檔集合“U”;以及定義至少一個(gè)第一文檔和至少一個(gè)文檔術(shù)語之間的相關(guān)性,如果該文檔術(shù)語和對該第一文檔的一個(gè)參考二者處在一查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)的話。
12.如權(quán)利要求11中申明的計(jì)算機(jī)程序裝置,這里的相關(guān)性與一權(quán)重關(guān)聯(lián),該權(quán)重基于該文檔術(shù)語和對第一文檔的參考處在文檔集合“U”中一查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)的次數(shù)。
13.如權(quán)利要求9中申明的計(jì)算機(jī)程序裝置,這里的方法步驟進(jìn)一步包含接收一詞匯間隔,該詞匯間隔定義一文檔術(shù)語個(gè)數(shù);接收包括一個(gè)或多個(gè)查詢術(shù)語的查詢;以及確定至少一個(gè)查詢術(shù)語在第一文檔中出現(xiàn)在對第二文檔的參考的詞匯間隔范圍內(nèi)的次數(shù),并據(jù)此對文檔分級。
14.如權(quán)利要求13中申明的計(jì)算機(jī)程序裝置,這里的文檔可通過廣域計(jì)算機(jī)網(wǎng)絡(luò)訪問,而且該參考包括一個(gè)統(tǒng)一資源列表(URL)。
15.如權(quán)利要求14中申明的計(jì)算機(jī)程序裝置,這里的詞匯間隔是根據(jù)查詢建立的。
16.如權(quán)利要求14中申明的計(jì)算機(jī)程序裝置,這里的方法步驟進(jìn)一步包含根據(jù)文檔中查詢術(shù)語出現(xiàn)在參考的詞匯間隔范圍內(nèi)的次數(shù)來對多個(gè)文檔分級。
17.在計(jì)算機(jī)存儲(chǔ)的文檔中找出文檔術(shù)語和由一個(gè)或多個(gè)查詢術(shù)語代表的查詢主題之間的關(guān)聯(lián)的方法,這些文檔有各自的文檔名,該方法包含如下步驟響應(yīng)查詢術(shù)語,接收至少一個(gè)文檔列表;以及當(dāng)在一文檔中在一查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)找出一文檔術(shù)語和一文檔名二者時(shí),輸出一個(gè)信號,以代表該文檔術(shù)語和該查詢主題之間的關(guān)聯(lián)。
18.如權(quán)利要求17中申明的方法,這里的輸出步驟包括構(gòu)成一個(gè)有頂點(diǎn)的雙枝圖,其頂點(diǎn)代表在接收步驟接收的文檔;以及對至少一些文檔(u),和對每個(gè)文檔(u)中的至少一些文檔術(shù)語(t),當(dāng)在一查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)找到該文檔術(shù)語(t)和文檔(u)的文檔名二者時(shí),對雙枝圖中的邊緣(b,u)的權(quán)重增量,這里邊緣(t,u)代表文檔(u)和文檔術(shù)語(t)。
19.如權(quán)利要求17中申明的方法,進(jìn)一步包含如下步驟在文檔列表中確定參考文檔和被參考文檔,參考文檔是列表中含有對被參考文檔的參考的文檔;對參考文檔中的每個(gè)文檔術(shù)語,確定該文檔術(shù)語出現(xiàn)在對一被參考文檔的參考的預(yù)先確定的間隔范圍內(nèi)的次數(shù);以及根據(jù)各自的次數(shù),對這些文檔中的至少一些文檔術(shù)語進(jìn)行分級。
20.如權(quán)利要求17中申明的方法,進(jìn)一步包含如下步驟接收一詞匯間隔,該詞匯間隔定義一文檔術(shù)語個(gè)數(shù);確定至少一個(gè)查詢術(shù)語在第一文檔中出現(xiàn)在對第二文檔的參考的詞匯間隔范圍內(nèi)的次數(shù),并據(jù)此對文檔分級。
21.如權(quán)利要求20中申明的方法,這里的文檔可通過廣域計(jì)算機(jī)網(wǎng)絡(luò)訪問,而且該參考包括一個(gè)統(tǒng)一資源列表(URL)。
22.如權(quán)利要求20中申明的方法,這里的詞匯間隔是根據(jù)查詢術(shù)語建立的。
23.如權(quán)利要求20中申明的方法,進(jìn)一步包含根據(jù)文檔中查詢術(shù)語出現(xiàn)在參考的詞匯間隔范圍內(nèi)的各自次數(shù)來對多個(gè)文檔分級的步驟。
24.一個(gè)包括數(shù)據(jù)存儲(chǔ)裝置的計(jì)算機(jī),該數(shù)據(jù)存儲(chǔ)裝置包括一計(jì)算機(jī)可用介質(zhì),該介質(zhì)中有計(jì)算機(jī)可用代碼裝置,用于在計(jì)算機(jī)存儲(chǔ)的文檔中找出文檔術(shù)語和由一個(gè)或多個(gè)查詢術(shù)語代表的查詢主題之間的關(guān)聯(lián),這些文檔有各自的文檔名,該計(jì)算機(jī)可用代碼裝置有用于響應(yīng)查詢術(shù)語,接收至少一個(gè)文檔列表的計(jì)算機(jī)可讀代碼裝置;以及當(dāng)在一文檔中在一查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)找出一文檔術(shù)語和一文檔名二者時(shí),用于輸出一個(gè)代表該文檔術(shù)語和該查詢主題之間關(guān)聯(lián)的信號的計(jì)算機(jī)可讀代碼裝置。
25.如權(quán)利要求24中申明的計(jì)算機(jī),這里的輸出裝置包括構(gòu)成一個(gè)有頂點(diǎn)的雙枝圖的計(jì)算機(jī)可讀代碼裝置,各頂點(diǎn)代表在接收步驟接收的文檔;對至少一些文檔(u),和對每個(gè)文檔(u)中的至少一些文檔術(shù)語(t),當(dāng)在一查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)找到該文檔術(shù)語(t)和文檔(u)的文檔名二者時(shí),用于對雙枝圖中的邊緣(t,u)的權(quán)重進(jìn)行增量的計(jì)算機(jī)可讀代碼裝置,這里邊緣(t,u)代表文檔(u)和文檔術(shù)語(t)。
26.如權(quán)利要求25中申明的計(jì)算機(jī),進(jìn)一步包含在文檔列表中確定參考文檔和被參考文檔的計(jì)算機(jī)可讀代碼裝置,參考文檔是列表中含有對被參考文檔的參考的文檔;對參考文檔中的每個(gè)文檔術(shù)語,確定該文檔術(shù)語出現(xiàn)在對一被參考文檔的參考的預(yù)先確定間隔范圍內(nèi)的次數(shù)的計(jì)算機(jī)可讀代碼裝置;根據(jù)各自的次數(shù),對這些文檔中的至少一些文檔術(shù)語進(jìn)行分級的計(jì)算機(jī)可讀代碼裝置。
27.如權(quán)利要求26中申明的計(jì)算機(jī),進(jìn)一步包含用于接收一詞匯間隔的計(jì)算機(jī)可讀代碼裝置,該詞匯間隔定義一文檔術(shù)語個(gè)數(shù);以及確定至少一個(gè)查詢術(shù)語在第一文檔中出現(xiàn)在對第二文檔的參考的詞匯間隔范圍內(nèi)的次數(shù),并據(jù)此對文檔分級的計(jì)算機(jī)可讀代碼裝置。
28.如權(quán)利要求27中申明的計(jì)算機(jī),這里的文檔可通過廣域計(jì)算機(jī)網(wǎng)絡(luò)訪問,而且該參考包括一個(gè)統(tǒng)一資源列表(URL)。
29.一個(gè)包括數(shù)據(jù)存儲(chǔ)裝置的計(jì)算機(jī),該數(shù)據(jù)存儲(chǔ)裝置包括一個(gè)計(jì)算機(jī)可用介質(zhì),該介質(zhì)中有計(jì)算機(jī)可用代碼裝置,用于在一文檔集合中找出關(guān)鍵詞,該計(jì)算機(jī)可用代碼裝置有用于接收文檔集合的計(jì)算機(jī)可讀代碼裝置;確定該文檔集合中的參考文檔和被參考文檔的計(jì)算機(jī)可讀代碼裝置,其參考文檔是該集合中的那些包含對被參考文檔的參考的文檔;對參考文檔中的每個(gè)文檔術(shù)語,確定該文檔術(shù)語出現(xiàn)在對一被參考文檔的參考的預(yù)先確定的間隔范圍內(nèi)的次數(shù)的計(jì)算機(jī)可讀代碼裝置;以及根據(jù)各自的次數(shù),對這些文檔中的至少一些文檔術(shù)語進(jìn)行分級的計(jì)算機(jī)可讀代碼裝置。
30.如權(quán)利要求29中申明的計(jì)算機(jī),進(jìn)一步包含計(jì)算機(jī)可讀代碼裝置用于每當(dāng)一文檔術(shù)語出現(xiàn)在對一被參考文檔的參考的預(yù)先確定間隔范圍內(nèi)時(shí)使相應(yīng)的計(jì)數(shù)器增量。
31.如權(quán)利要求30中申明的計(jì)算機(jī),進(jìn)一步包含響應(yīng)包括一個(gè)或多個(gè)查詢術(shù)語的查詢,接收文檔集合“U”的計(jì)算機(jī)可讀代碼裝置;以及當(dāng)至少一個(gè)文檔術(shù)語和對至少一個(gè)第一文檔的參考二者在一個(gè)查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)時(shí),在這至少一個(gè)第一文檔和這至少一個(gè)文檔術(shù)語之間定義相關(guān)性的計(jì)算機(jī)可讀代碼裝置。
32.如權(quán)利要求31中申明的計(jì)算機(jī),這里的相關(guān)性與一權(quán)重關(guān)聯(lián),該權(quán)重是基于該文檔術(shù)語和對第一文檔的參考處在文檔集合“U”中一查詢術(shù)語的預(yù)先確定間隔范圍內(nèi)的次數(shù)。
33.如權(quán)利要求32中申明的計(jì)算機(jī),進(jìn)一步包含接收一詞匯間隔的計(jì)算機(jī)可讀代碼裝置,該詞匯間隔定義一文檔術(shù)語個(gè)數(shù);接收包括一個(gè)或多個(gè)查詢術(shù)語的查詢的計(jì)算機(jī)可讀代碼裝置;以及確定至少一個(gè)查詢術(shù)語在第一文檔中出現(xiàn)在對第二文檔的參考的詞匯間隔范圍內(nèi)的次數(shù),并據(jù)此對文檔分級的計(jì)算機(jī)可讀代碼裝置。
34.如權(quán)利要求33中申明的計(jì)算機(jī),這里的文檔可通過廣域計(jì)算機(jī)網(wǎng)絡(luò)訪問,而且該參考包括一個(gè)統(tǒng)一資源列表(URL)。
35.一個(gè)包括數(shù)據(jù)存儲(chǔ)裝置的計(jì)算機(jī),該數(shù)據(jù)存儲(chǔ)裝置包括一計(jì)算機(jī)可用介質(zhì),該介質(zhì)中有計(jì)算機(jī)可用代碼裝置用于響應(yīng)一查詢對一文檔集合中的文檔進(jìn)行分級,該計(jì)算機(jī)可用代碼裝置有用于接收文檔集合“U”的計(jì)算機(jī)可讀代碼裝置;對于集合“U”中的至少一個(gè)測試文檔“u”,把集合“U”中包括至少一個(gè)對測試文檔“u”的參考的那些文檔定義為近鄰文檔“N(u)”的計(jì)算機(jī)可讀代碼裝置;對于至少一個(gè)近鄰文檔“N(u)”中的至少一個(gè)文檔術(shù)語,確定是否該至少一個(gè)文檔術(shù)語處在測試文檔“u”的近鄰文檔“N(u)”的一個(gè)參考的預(yù)先確定間隔內(nèi)的計(jì)算機(jī)可讀代碼裝置;以及響應(yīng)確定是否該至少一個(gè)文檔術(shù)語處在一參考的預(yù)先確定間隔范圍內(nèi)的裝置,從而輸出一個(gè)信號的計(jì)算機(jī)可讀代碼裝置。
36.如權(quán)利要求35中申明的計(jì)算機(jī),這里當(dāng)該至少一個(gè)文檔術(shù)語處在對測試文檔“u”的參考的預(yù)先確定間隔范圍內(nèi)時(shí),該輸出裝置使與這至少一個(gè)文檔術(shù)語關(guān)聯(lián)的計(jì)數(shù)器增量。
全文摘要
響應(yīng)查詢根據(jù)普及性對廣域網(wǎng)計(jì)算機(jī)網(wǎng)絡(luò)(如萬維網(wǎng))頁面進(jìn)行分級的系統(tǒng)和方法。再有,使用查詢和來自搜索引擎的對查詢的響應(yīng),該系統(tǒng)和方法找出附加的為好的擴(kuò)展的搜索術(shù)語的關(guān)鍵詞,尤其在查詢時(shí)刻實(shí)時(shí)產(chǎn)生一個(gè)本地同義詞典。
文檔編號G06F17/30GK1296589SQ9980491
公開日2001年5月23日 申請日期1999年3月12日 優(yōu)先權(quán)日1998年4月10日
發(fā)明者索門·查卡雷貝蒂, 拜倫·E·多姆 申請人:國際商業(yè)機(jī)器公司