專利名稱:基于歷史數(shù)據(jù)的信息檢索的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及信息檢索系統(tǒng),以及更具體地說(shuō),涉及用于至少部分基于與相關(guān)文檔有關(guān)的歷史數(shù)據(jù),來(lái)生成搜索結(jié)果的系統(tǒng)和方法。
背景技術(shù):
萬(wàn)維網(wǎng)(“網(wǎng)頁(yè)”)包含大量信息。搜索引擎幫助用戶通過(guò)編目錄網(wǎng)頁(yè)文檔,來(lái)定位該信息的所需部分。通常,響應(yīng)用戶的請(qǐng)求,搜索引擎返回到與該請(qǐng)求有關(guān)的文檔的鏈接。
搜索引擎可以將用戶興趣的確定基于由用戶提供的搜索項(xiàng)(被稱為搜索查詢)。搜索引擎的目標(biāo)是基于搜索查詢,來(lái)識(shí)別到高質(zhì)量相關(guān)結(jié)果的鏈接。典型地,搜索引擎通過(guò)匹配搜索查詢中的術(shù)語(yǔ)與預(yù)存儲(chǔ)的網(wǎng)頁(yè)文檔的資料庫(kù)來(lái)實(shí)現(xiàn)此目標(biāo)。包含用戶搜索項(xiàng)的網(wǎng)頁(yè)文檔被視為“命中”并返回給用戶。
理想地,搜索引擎將響應(yīng)指定用戶搜索查詢,為用戶提供最相關(guān)結(jié)果。一種搜索引擎基于比較搜索查詢術(shù)語(yǔ)與包含在文檔中的詞來(lái)識(shí)別相關(guān)文檔。另一種搜索引擎使用除文檔中存在搜索查詢術(shù)語(yǔ)之外的因素來(lái)識(shí)別相關(guān)文檔。一個(gè)這種搜索引擎使用與到或來(lái)自文檔的鏈接有關(guān)的信息來(lái)確定文檔的相對(duì)重要性。
這兩種搜索引擎力求提供高質(zhì)量的搜索查詢結(jié)果。存在會(huì)影響由搜索引擎生成的結(jié)果質(zhì)量的幾種因素。例如,一些網(wǎng)站生產(chǎn)商使用垃圾郵件技術(shù)來(lái)人為地抬高他們的等級(jí)。同時(shí),可以使“過(guò)期”文檔(即長(zhǎng)時(shí)間未更新的那些文檔,從而包含過(guò)期數(shù)據(jù))等級(jí)高于“較新”文檔(即最近更新的那些文檔,從而包含更新的數(shù)據(jù))。在一些特定環(huán)境下,較高等級(jí)的過(guò)期文檔降低了搜索結(jié)果。
因此,仍然需要提高由搜索引擎生成的結(jié)果的質(zhì)量。
發(fā)明內(nèi)容
與本發(fā)明的原理相符的系統(tǒng)和方法可以至少部分基于與文檔有關(guān)的歷史數(shù)據(jù)來(lái)給文檔計(jì)分。該計(jì)分可以用來(lái)提高連同搜索查詢生成的搜索結(jié)果。
根據(jù)與本發(fā)明的原理相符的一個(gè)方面,提供一種用于計(jì)分文檔的方法。該方法可以包括識(shí)別文檔并獲得與所述文檔有關(guān)的一種或多種歷史數(shù)據(jù)。該方法可以進(jìn)一步包括至少部分基于一種或多種歷史數(shù)據(jù),來(lái)生成用于所述文檔的得分。
根據(jù)另一方面,提供一種用于計(jì)分文檔的方法。該方法可以包括確定與所鏈接的文檔有關(guān)的連接數(shù)據(jù)的壽命,以及基于該連接數(shù)據(jù)的壽命的衰減函數(shù),來(lái)分級(jí)所鏈接的文檔。
包含并構(gòu)成本說(shuō)明書的一部分的附圖示例性本發(fā)明的實(shí)施例,以及結(jié)合說(shuō)明書,解釋本發(fā)明。在圖中圖1是可以實(shí)現(xiàn)與本發(fā)明的原理相符的系統(tǒng)和方法的示例性網(wǎng)絡(luò)圖;圖2是根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),圖1的客戶機(jī)和/或服務(wù)器的示例圖;圖3是根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),圖1的搜索引擎的示例性功能框圖;以及圖4是根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),用于計(jì)分文檔的示例性處理的流程圖。
具體實(shí)施例方式
本發(fā)明的下述詳細(xì)描述參考附圖。不同圖中的相同參考數(shù)字可以識(shí)別相同或類似的元件。同時(shí),下述詳細(xì)描述不限制本發(fā)明。
與本發(fā)明的原理相符的系統(tǒng)和方法可以使用例如與所述文檔有關(guān)的歷史數(shù)據(jù)來(lái)計(jì)分文檔。系統(tǒng)和方法可以使用這些得分來(lái)提供高質(zhì)量搜索結(jié)果。
“文檔”如在此所使用的,廣泛解釋成包括任何機(jī)器可讀和機(jī)器可存儲(chǔ)的作品。文檔可以包括電子郵件、網(wǎng)站、文件、文件組合、具有與其他文件的嵌入鏈接的一個(gè)或多個(gè)文件、新聞組布告、博客、網(wǎng)頁(yè)廣告等等。在因特網(wǎng)的情況下,公用文檔是網(wǎng)頁(yè)。網(wǎng)頁(yè)通常包括文本信息并可以包括嵌入的信息(諸如元信息、圖像、超級(jí)鏈接等等)和/或嵌入的指令(諸如Java腳本等等)。網(wǎng)頁(yè)可以對(duì)應(yīng)于文檔或部分文檔。因此,單詞“網(wǎng)頁(yè)”或“文檔”在某些情況下可以互換使用。在其他情況下,網(wǎng)頁(yè)可以指部分文檔,諸如子文檔。網(wǎng)頁(yè)對(duì)應(yīng)于不止單個(gè)文檔也是可能的。
在下述描述中,可以將文檔描述為具有到其他文檔的鏈接和/或來(lái)自其他文檔的鏈接。例如,當(dāng)文檔包括到另一文檔的鏈接時(shí),鏈接可以被稱為“前向鏈接”。當(dāng)文檔包括來(lái)自另一文檔的鏈接時(shí),該鏈接可以被稱為“后向鏈接”。當(dāng)使用術(shù)語(yǔ)“鏈接”時(shí),可以指后向鏈接或前向鏈接。
網(wǎng)絡(luò)結(jié)構(gòu)的例子圖1是網(wǎng)絡(luò)100的示例性圖,其中,可以實(shí)現(xiàn)與本發(fā)明的原理相符的系統(tǒng)和方法。網(wǎng)絡(luò)100可以包括經(jīng)網(wǎng)絡(luò)150連接到多個(gè)服務(wù)器120-140的多個(gè)客戶機(jī)110。網(wǎng)絡(luò)150可以包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、電話網(wǎng),諸如公用交換電話網(wǎng)(PSTN)、內(nèi)聯(lián)網(wǎng)、互聯(lián)網(wǎng)、存儲(chǔ)器設(shè)備、另一類型的網(wǎng)絡(luò)或網(wǎng)絡(luò)組合。為簡(jiǎn)化起見(jiàn),兩個(gè)客戶機(jī)110和三個(gè)服務(wù)器120-140示例為連接到網(wǎng)絡(luò)150。實(shí)際上,可以有更多或更少的客戶機(jī)和服務(wù)器。同時(shí),在一些實(shí)例中,客戶機(jī)可以執(zhí)行服務(wù)器的功能,以及服務(wù)器可以執(zhí)行客戶機(jī)的功能。
客戶機(jī)110可以包括客戶實(shí)體。實(shí)體可以被定義為設(shè)備,諸如無(wú)線電話、個(gè)人計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)、膝上型電腦或另一計(jì)算或通信設(shè)備、在這些設(shè)備的一個(gè)上運(yùn)行的線程或過(guò)程和/或能由這些設(shè)備的一個(gè)執(zhí)行的對(duì)象。服務(wù)器120-140可以包括以與本發(fā)明的原理相符的方式,收集、處理、搜索和/或維護(hù)文檔的服務(wù)器實(shí)體??蛻魴C(jī)110和服務(wù)器120-140可以經(jīng)有線、無(wú)線和/或光學(xué)連接而與網(wǎng)絡(luò)150相連。
在與本發(fā)明的原理相符的實(shí)現(xiàn)中,服務(wù)器120可以包括可由客戶機(jī)110使用的搜索引擎125。服務(wù)器120可以扒(crawl)文檔的資料庫(kù)(例如網(wǎng)頁(yè))、索引文檔以及存儲(chǔ)與所扒的文檔庫(kù)中的文檔有關(guān)的信息。服務(wù)器130和140可以存儲(chǔ)或維護(hù)可以由服務(wù)器120扒的文檔。盡管服務(wù)器120-140被示為單獨(dú)實(shí)體,但也可以服務(wù)器120-140的一個(gè)或多個(gè)執(zhí)行服務(wù)器120-140的另一個(gè)或多個(gè)的功能的一個(gè)或多個(gè)。例如,兩個(gè)或多個(gè)服務(wù)器120-140實(shí)現(xiàn)為單個(gè)服務(wù)器是可能的。也可以將服務(wù)器120-140的單個(gè)實(shí)現(xiàn)為兩個(gè)或多個(gè)獨(dú)立(以及可以分布式)設(shè)備。
示例性客戶機(jī)/服務(wù)器體系結(jié)構(gòu)圖2是根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),客戶機(jī)或服務(wù)器實(shí)體(在下文中稱為“客戶機(jī)/服務(wù)器實(shí)體”)的示例性圖,可以對(duì)應(yīng)于一個(gè)或多個(gè)客戶機(jī)110和服務(wù)器120-140??蛻魴C(jī)/服務(wù)器實(shí)體可以包括總線210、處理器220、主存儲(chǔ)器230、只讀存儲(chǔ)器(ROM)240、存儲(chǔ)設(shè)備250、一個(gè)或多個(gè)輸入設(shè)備260、一個(gè)或多個(gè)輸出設(shè)備270以及通信接口280??偩€210可以包括一個(gè)或多個(gè)導(dǎo)線,允許客戶機(jī)/服務(wù)器實(shí)體的部件間的通信。
處理器220可以包括解釋和執(zhí)行指令的一個(gè)或多個(gè)傳統(tǒng)處理器或微處理器。主存儲(chǔ)器230可以包括隨機(jī)存取存儲(chǔ)器(RAM)或另一種動(dòng)態(tài)存儲(chǔ)設(shè)備,存儲(chǔ)信息和指令以便由處理器220執(zhí)行。ROM240可以包括傳統(tǒng)ROM設(shè)備或另一種靜態(tài)存儲(chǔ)設(shè)備,存儲(chǔ)用于由處理器220使用的靜態(tài)信息和指令。存儲(chǔ)設(shè)備250可以包括磁性和/或光學(xué)記錄介質(zhì)及其相應(yīng)驅(qū)動(dòng)。
輸入設(shè)備260可以包括一個(gè)或多個(gè)傳統(tǒng)的機(jī)構(gòu),允許操作者將信息輸入客戶機(jī)/服務(wù)器實(shí)體,諸如鍵盤、鼠標(biāo)、筆、語(yǔ)音識(shí)別和/或生物機(jī)構(gòu)等等。輸出設(shè)備270可以包括一個(gè)或多個(gè)傳統(tǒng)的機(jī)構(gòu),向操作者輸出信息,包括顯示器、打印機(jī)、揚(yáng)聲器等等。通信接口280可以包括收發(fā)信機(jī)類機(jī)構(gòu),允許客戶機(jī)/服務(wù)器實(shí)體與其他設(shè)備和/或系統(tǒng)通信。例如,通信接口280可以包括用于經(jīng)網(wǎng)絡(luò),諸如網(wǎng)絡(luò)150與另一設(shè)備或系統(tǒng)通信的機(jī)構(gòu)。
如下文詳細(xì)所述,與本發(fā)明的原理相符,客戶機(jī)/服務(wù)器實(shí)體執(zhí)行某些搜索相關(guān)操作??蛻魴C(jī)/服務(wù)器實(shí)體可以響應(yīng)執(zhí)行包含在計(jì)算機(jī)可讀介質(zhì),諸如存儲(chǔ)器230中的軟件指令的處理器220,而執(zhí)行這些操作。計(jì)算機(jī)可讀介質(zhì)可以被定義為一個(gè)或多個(gè)物理或邏輯存儲(chǔ)設(shè)備和/或載波。
軟件指令可以從另一計(jì)算機(jī)可讀介質(zhì),諸如數(shù)據(jù)存儲(chǔ)設(shè)備250,或經(jīng)通信接口280,從另一設(shè)備讀入存儲(chǔ)器230中。包含在存儲(chǔ)器230中的軟件指令可以使處理器220執(zhí)行將在下文所述的過(guò)程。另外,可以使用硬布線電路來(lái)代替或結(jié)合軟件指令來(lái)實(shí)現(xiàn)與本發(fā)明的原理相符的過(guò)程。因此,與本發(fā)明的原理相符的實(shí)現(xiàn)可以不限于硬布線電路和軟件的任何特定組合。
示例性搜索引擎圖3是根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),搜索引擎125的示例性功能框圖。搜索引擎125可以包括文檔定位器310、歷史部件320和等級(jí)部件330。如圖3所示,文檔定位器310和歷史部件320的一個(gè)或多個(gè)可以連接到文檔資料庫(kù)340。文檔資料庫(kù)340可以包括與例如在由搜索引擎125可訪問(wèn)的數(shù)據(jù)庫(kù)中先前扒、索引和存儲(chǔ)的文檔有關(guān)的信息。歷史數(shù)據(jù),如在下文中更詳細(xì)地描述,可以與文檔資料庫(kù)340中的每一個(gè)文檔相關(guān)聯(lián)。歷史數(shù)據(jù)可以存儲(chǔ)在文檔資料庫(kù)340或其他地方中。
文檔定位器310可以識(shí)別其內(nèi)容與用戶搜索查詢匹配的文檔集。文檔定位器310可以通過(guò)將用戶搜索查詢中的術(shù)語(yǔ)與資料庫(kù)中的文檔進(jìn)行比較,初始地從文檔資料庫(kù)340定位文檔。通常,用于索引文檔并搜索索引集合以返回包含搜索項(xiàng)的文檔集的過(guò)程在本領(lǐng)域非常公知。因此,在此不再描述文檔定位器310的該功能。
歷史部件320可以收集與文檔資料庫(kù)340中的文檔有關(guān)的歷史數(shù)據(jù)。在與本發(fā)明的原理相符的實(shí)現(xiàn)中,歷史數(shù)據(jù)可以包括與下列有關(guān)的數(shù)據(jù)文檔初始日期;文檔內(nèi)容更新/改變;查詢分析;基于鏈接的標(biāo)準(zhǔn);錨文本(例如嵌入超級(jí)鏈接的文本,通常在文檔中被加下劃線或者高亮);通信量;用戶行為;域相關(guān)信息;等級(jí)歷史;用戶維護(hù)/產(chǎn)生的數(shù)據(jù)(例如書簽);錨文本中的唯一字、二元語(yǔ)法和短語(yǔ);獨(dú)立對(duì)等的連接和/或文檔主題。在下文中另外詳細(xì)地描述這些不同類型的歷史數(shù)據(jù)。在其他實(shí)現(xiàn)中,歷史數(shù)據(jù)可以包括另外或不同類型的數(shù)據(jù)。
等級(jí)部件330可以向文檔資料庫(kù)340中的一個(gè)或多個(gè)文檔分配等級(jí)得分(在此也簡(jiǎn)單地稱為“計(jì)分”)。等級(jí)部件330可以在搜索查詢前、與搜索查詢無(wú)關(guān)或結(jié)合搜索查詢,來(lái)分配等級(jí)得分。當(dāng)文檔與搜索查詢相關(guān)時(shí)(例如識(shí)別為與搜索查詢有關(guān)),搜索引擎125可以基于等級(jí)得分來(lái)排序文檔并將排序后的文檔集返回給提交搜索查詢的客戶機(jī)。與本發(fā)明的原理相符,等級(jí)得分是試圖量化文檔質(zhì)量的值。在與本發(fā)明的原理相符的實(shí)現(xiàn)中,得分至少部分基于來(lái)自歷史部件320的歷史數(shù)據(jù)。
示例性歷史數(shù)據(jù)文檔初始日期根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),文檔初始日期可以用來(lái)生成(或修改)與那個(gè)文檔有關(guān)的得分。術(shù)語(yǔ)“日期”在此廣泛使用并可以由此包括時(shí)間和日期度量。如下所述,存在能用來(lái)確定文檔初始日期的幾種技術(shù)。這些技術(shù)中的一些在它們會(huì)受期望提高與文檔有關(guān)的得分的第三方影響的意義方面是“有偏差”。其他技術(shù)無(wú)偏差。這些技術(shù)中的任何一種、這些技術(shù)的組合或其他技術(shù)可以用來(lái)確定文檔的初始日期。
根據(jù)一種實(shí)現(xiàn),可以由搜索引擎125首次獲悉或索引文檔的日期,來(lái)確定文檔的初始日期。搜索引擎125可以通過(guò)扒、從“外部”源向搜索引擎125提交文檔(或其表示/概述)、扒或基于提交的索引技術(shù)的組合,或以其他方式,來(lái)發(fā)現(xiàn)所述文檔。另外,可以由搜索引擎125首次發(fā)現(xiàn)到所述文檔的鏈接的日期,來(lái)確定文檔的初始日期。
根據(jù)另一實(shí)現(xiàn),通過(guò)域注冊(cè)文檔的日期可以被用作文檔的初始日期的表示。根據(jù)另一實(shí)現(xiàn),可以使用在另一文檔,諸如新聞文章、新聞組、電子郵件列表或一個(gè)或多個(gè)這些文檔的組合中第一次參考文檔的時(shí)間來(lái)推斷文檔的初始日期。根據(jù)另一實(shí)現(xiàn),文檔至少包括閾值數(shù)目頁(yè)的日期可以被用作文檔的初始日期的表示。根據(jù)另一實(shí)現(xiàn),可以使文檔的初始日期等于服務(wù)器寄存文檔的與所述文檔有關(guān)的時(shí)間戳。其他技術(shù),在此未具體提及的,或技術(shù)組合也能用來(lái)確定或推斷文檔的初始日期。
搜索引擎125可以將文檔的初始日期用于計(jì)分文檔。例如,可以假定具有相當(dāng)近的初始日期的文檔將不具有來(lái)自其他文檔的多個(gè)鏈接(即后向鏈接)。對(duì)基于到/來(lái)自文檔的鏈接數(shù)的現(xiàn)有的基于鏈接的計(jì)分技術(shù),該新文檔可能得分低于具有更多鏈接(例如向后鏈接)的較早文檔。當(dāng)考慮文檔的初始日期時(shí),然而,可以基于文檔的初始日期,來(lái)(正或負(fù)地)修改文檔的得分。
假定由10個(gè)后向鏈接參考的具有初始日期為昨天的文檔的例子。所述文檔可以由搜索引擎125計(jì)分高于由100個(gè)后向鏈接參考的具有初始日期為10年前的文檔,因?yàn)榍罢叩逆溄釉鲩L(zhǎng)率相對(duì)高于后者。盡管后向鏈接數(shù)的增長(zhǎng)的尖峰速率(spiky rate)可以是由搜索引擎125用來(lái)計(jì)分文檔的因素,但也可能是發(fā)嘗試信號(hào)來(lái)向搜索引擎125發(fā)送垃圾郵件。因此,在這種情況下,搜索引擎125實(shí)際上可以降低文檔的分值來(lái)降低發(fā)送垃圾郵件的影響。
因此,根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),搜索引擎125可以使用文檔的初始日期來(lái)確定創(chuàng)建到所述文檔的鏈接的速率(例如作為基于從初始日期以來(lái)或在那個(gè)周期中的一些窗口創(chuàng)建的鏈接數(shù)的每單位時(shí)間的平均值)。然后,能使用該速率來(lái)計(jì)分所述文檔,例如向更常生成鏈接的文檔提供更大權(quán)重。
在一個(gè)實(shí)現(xiàn)中,搜索引擎125可以修改文檔的基于鏈接的分值如下H=L/log(F+2)其中,H指歷史調(diào)整的鏈接分值,L可以指為所述文檔提供的鏈接分值,其可以使用基于到/來(lái)文檔的鏈接而為文檔分配分值的任何已知鏈接計(jì)分技術(shù)(例如在U.S.專利No.6,285,999中所描述的計(jì)分技術(shù))來(lái)導(dǎo)出,以及F可以指從與所述文檔有關(guān)的初始日期(或該周期內(nèi)的窗口)測(cè)量的逝去時(shí)間。
對(duì)于一些查詢,較早文檔比新的更有利。因此,可以基于與結(jié)果集的平均壽命的差值(壽命方面),來(lái)調(diào)整文檔的分值。換句話說(shuō),搜索引擎125可以確定結(jié)果集中每個(gè)文檔的壽命(例如使用它們的初始日期),確定文檔的平均壽命,以及基于文檔的壽命和平均壽命之間的差值,來(lái)(正或負(fù))地修改文檔的分值。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于與文檔的初始日期有關(guān)的信息,來(lái)生成(或修改)與文檔有關(guān)的分值。
內(nèi)容更新/改變根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),與文檔內(nèi)容隨時(shí)間改變的方式有關(guān)的信息可以被用來(lái)生成(或修改)與那個(gè)文檔有關(guān)的分值。例如,其內(nèi)容經(jīng)常被編輯的文檔得分不同于其內(nèi)容隨時(shí)間保持不變的文檔。同時(shí),相對(duì)多內(nèi)容隨時(shí)間更新的文檔的計(jì)分可以不同于隨時(shí)間更新相對(duì)少量?jī)?nèi)容的文檔。
在一個(gè)實(shí)現(xiàn)中,搜索引擎125可以生成內(nèi)容更新得分(U)如下U=f(UF,UA)其中,f可以指函數(shù),諸如求和或加權(quán)和,UF可以指表示多久更新文檔(或網(wǎng)頁(yè))的更新頻率得分,以及UA可以指表示文檔(或網(wǎng)頁(yè))隨時(shí)間改變多少的更新量得分。UF可以以多個(gè)方式來(lái)確定,包括更新之間的平均時(shí)間、在指定時(shí)限內(nèi)的更新次數(shù)等等。
UA也可以確定為一個(gè)或多個(gè)因素的函數(shù),諸如在一個(gè)時(shí)間周期內(nèi)與文檔有關(guān)的“新”或唯一頁(yè)的數(shù)量。另一因素可以包括一個(gè)時(shí)間周期內(nèi)與文檔有關(guān)的新或唯一頁(yè)的數(shù)量和與那個(gè)文檔有關(guān)的總頁(yè)數(shù)的比率。另一因素可以包括在一個(gè)或多個(gè)時(shí)間周期內(nèi)更新文檔的數(shù)量(例如文檔的可見(jiàn)內(nèi)容的n%可以隨周期t改變(例如最近m個(gè)月)),其可以是平均值。另一因素可以包括在一個(gè)或多個(gè)時(shí)間周期內(nèi)(例如在最近x天內(nèi)),文檔(或網(wǎng)頁(yè))改變的數(shù)量。
根據(jù)一個(gè)示例性實(shí)現(xiàn),UA可以確定為文檔內(nèi)容的不同加權(quán)部分的函數(shù)。例如,當(dāng)確定UA時(shí),認(rèn)為如果更新/改變不重要的內(nèi)容,諸如Java腳本、注釋、廣告、導(dǎo)航要素、樣板資料或日期/時(shí)間標(biāo)簽,則給予相對(duì)小的權(quán)重或甚至完全忽略。另一方面,當(dāng)確定UA時(shí),認(rèn)為如果(例如經(jīng)常、更近、更廣泛等等)更新/改變很重要的內(nèi)容,諸如與前向鏈接有關(guān)的標(biāo)題或錨文本,則給予比其他內(nèi)容改變更高的權(quán)重。
UF和UA可以用其他方式來(lái)影響分配給文檔的分值。例如,能將當(dāng)前時(shí)間周期中的改變率與在另一(例如在前)時(shí)間周期中的改變率進(jìn)行比較,來(lái)確定存在加速還是減速趨勢(shì)。改變率增加的文檔可以比改變率穩(wěn)定的那些文檔計(jì)分更高,即使那一改變率相當(dāng)高。改變量也可以是該計(jì)分中的因素。例如,當(dāng)改變量大于一些閾值時(shí),改變率增加的文檔可以計(jì)分高于改變率穩(wěn)定或改變量小于閾值的那些文檔。
在一些情況下,當(dāng)監(jiān)視文檔的內(nèi)容改變時(shí),數(shù)據(jù)存儲(chǔ)資源可能不足以存儲(chǔ)那些文檔。在這種情況下,搜索引擎125可以存儲(chǔ)文檔的表示并監(jiān)視這些表示的變化。例如,搜索引擎125可以存儲(chǔ)文檔的“簽名”,代替(整個(gè))文檔本身以檢測(cè)文檔內(nèi)容的改變。在這種情況下,搜索引擎125可以存儲(chǔ)用于文檔(或網(wǎng)頁(yè))的術(shù)語(yǔ)矢量并監(jiān)視其相對(duì)大的改變。根據(jù)另一實(shí)現(xiàn),搜索引擎125可以存儲(chǔ)和監(jiān)視確定為重要或最頻繁發(fā)生(除“停止字”外)的文檔的相對(duì)小部分(例如幾個(gè)術(shù)語(yǔ))。
根據(jù)另一實(shí)現(xiàn),搜索引擎125可以存儲(chǔ)文檔的概述或其他表示并監(jiān)視該信息的變化。根據(jù)另一實(shí)現(xiàn),搜索引擎125可以生成用于所述文檔的相似度散列(可以用來(lái)檢測(cè)文檔的較近復(fù)制)并監(jiān)視其變化。相似度散列的變化可以被視為表示其相關(guān)文檔中的相對(duì)大變化。在其他實(shí)現(xiàn)中,可以使用其他技術(shù)來(lái)監(jiān)視文檔的變化。在存在足夠數(shù)據(jù)存儲(chǔ)資源的情況下,可以存儲(chǔ)和使用整個(gè)文檔來(lái)確定變化,而不是文檔的一些表示。
對(duì)一些查詢,具有最近未改變的內(nèi)容的文檔可以比具有最近改變過(guò)的內(nèi)容的文檔更有利。因此,可以基于與結(jié)果集的平均改變?nèi)掌诘牟钪祦?lái)調(diào)整文檔的分值可能是有利的。換句話說(shuō),搜索引擎125可以確定結(jié)果集中每一個(gè)文檔的內(nèi)容最后一次改變的日期,確定所述文檔的平均改變?nèi)掌?,并基于文檔的改變?nèi)掌诤推骄淖內(nèi)掌谥g的差值,來(lái)修改文檔的分值(正或負(fù))。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于與文檔的內(nèi)容隨時(shí)間改變的方式有關(guān)的信息,來(lái)生成(或修改)與文檔有關(guān)的分值。對(duì)于包括屬于多個(gè)個(gè)人或公司的內(nèi)容的非常大的文檔,分值可以對(duì)應(yīng)于每一個(gè)子文檔(即,屬于單個(gè)人或公司或由其更新的內(nèi)容)。
查詢分析根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),可以使用一個(gè)或多個(gè)基于查詢的因素來(lái)生成(或改變)與文檔有關(guān)的分值。例如,當(dāng)文檔包括在搜索結(jié)果集中時(shí),一個(gè)基于查詢的因素涉及隨時(shí)間選擇該文檔的程度。在這種情況下,搜索引擎125可以使用戶相對(duì)經(jīng)常/日益增加選擇的文檔的得分高于其他文檔。
另一基于查詢的因素可以涉及在查詢中出現(xiàn)的某些搜索項(xiàng)隨時(shí)間的出現(xiàn)。特定搜索項(xiàng)集可以隨時(shí)間周期遞增地出現(xiàn)在查詢中。例如,與正變得/已經(jīng)變?yōu)榱餍械摹盁衢T”標(biāo)題或分裂新聞事件有關(guān)的術(shù)語(yǔ)將可能在時(shí)間周期上頻繁地出現(xiàn)。在這種情況下,搜索引擎125可以使與這些搜索項(xiàng)(或查詢)相關(guān)的文檔的得分高于不與這些術(shù)語(yǔ)有關(guān)的文檔。
另一基于查詢的因素可以涉及通過(guò)類似查詢生成的搜索結(jié)果數(shù)目隨時(shí)間的改變。由類似查詢生成的搜索結(jié)果數(shù)的顯著增加例如可以表示熱門標(biāo)題或分裂新聞,并使搜索引擎125增加與這些查詢有關(guān)的文檔的得分。
另一基于查詢的因素可以涉及隨時(shí)間保持相對(duì)恒定但會(huì)導(dǎo)致隨時(shí)間改變的結(jié)果的查詢。例如,與“世界職業(yè)棒球錦標(biāo)賽”有關(guān)的查詢導(dǎo)致隨時(shí)間改變的搜索結(jié)果(例如與特定隊(duì)有關(guān)的文檔控制在特定年或年度內(nèi)的搜索結(jié)果)。該改變能被監(jiān)視并用來(lái)相應(yīng)地計(jì)分文檔。
另一基于查詢的因素可以涉及作為搜索結(jié)果返回的文檔的“過(guò)期”。文檔過(guò)期可以基于以下因素,諸如文檔創(chuàng)建日期、錨增長(zhǎng)、通信量、內(nèi)容變化、前向/后向鏈接增長(zhǎng)等等。對(duì)于一些查詢,最近文檔非常重要(例如如果搜索常問(wèn)問(wèn)題(FAQ)文件,則將非常希望最近版本)。搜索引擎125可以通過(guò)分析用戶選擇搜索結(jié)果中的哪些文檔,來(lái)學(xué)習(xí)哪些查詢最近變化最重要。更具體地說(shuō),搜索引擎125可以考慮用戶有多經(jīng)常喜歡等級(jí)低于搜索結(jié)果中的較早文檔的最新文檔。另外,如果隨時(shí)間流逝,特定文檔被包括在最關(guān)注的查詢(例如“世界職業(yè)棒球大賽”)對(duì)更特定的查詢(例如“紐約美國(guó)人”)中,那么,該基于查詢的因素-通過(guò)自身或通過(guò)在此提到的其他-可以用來(lái)降低似乎過(guò)期的文檔的分值。
在一些情況下,可以比更新文檔更優(yōu)先考慮過(guò)期文檔。因此,當(dāng)生成用于所述文檔的分值時(shí),搜索引擎125可以考慮隨時(shí)間選擇該文檔的程度。例如,如果對(duì)指定查詢,用戶隨時(shí)間傾向于選擇比更高等級(jí)的更新文檔更低等級(jí)、相對(duì)過(guò)期的文檔,則這由搜索引擎125用作調(diào)整過(guò)期文檔的分值的指示。
另一基于查詢的因素可以涉及文檔出現(xiàn)在不同查詢結(jié)果中的程度。換句話說(shuō),可以監(jiān)視用于一個(gè)或多個(gè)文檔的查詢熵,并用作用于計(jì)分的基礎(chǔ)。例如,如果特定文檔作為用于不一致查詢集的命中而出現(xiàn),這可以(盡管不一定)看作所述文檔是垃圾郵件的信號(hào),在這種情況下,搜索引擎125可以相對(duì)更低地計(jì)分所述文檔。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于一個(gè)或多個(gè)基于查詢的因素,來(lái)生成(或修改)與文檔有關(guān)的分值。
基于鏈接的標(biāo)準(zhǔn)根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),可使用一個(gè)或多個(gè)基于鏈接的因素來(lái)生成(或修改)與文檔有關(guān)的分值。在一種實(shí)現(xiàn)中,基于鏈接的因素可以涉及新鏈接出現(xiàn)于文檔以及現(xiàn)有鏈接消失的日期。鏈接的出現(xiàn)日期可以是搜索引擎125找到鏈接的第一日期或文檔包含鏈接的日期(例如,通過(guò)鏈接找到文檔的日期或最近更新它的日期)。鏈接的消失日期可以是包含該鏈接的文檔刪除該鏈接或本身消失的第一日期。
這些日期可以由搜索引擎125在扒或索引更新操作期間確定。將該日期作為參考,然后,搜索引擎125可以監(jiān)視到文檔的鏈接的時(shí)間變化行為,諸如當(dāng)鏈接出現(xiàn)或消失時(shí),鏈接隨時(shí)間出現(xiàn)或消失的速率、在指定時(shí)間周期期間多少鏈接出現(xiàn)或消失、存在傾向出現(xiàn)新鏈接還是文檔的現(xiàn)有鏈接消失等等。
使用到和/或來(lái)自文檔的鏈接的時(shí)間變化行為,搜索引擎125可以相應(yīng)地計(jì)分文檔。例如,隨時(shí)間新鏈接數(shù)量或速率下降趨勢(shì)(例如基于最近時(shí)間周期對(duì)較早時(shí)間周期中新鏈接的數(shù)量或速率的比較)能信號(hào)告知搜索引擎125文檔是過(guò)期的,在這種情況下,搜索引擎125可以減少文檔的分值。相反地,根據(jù)特定情況和實(shí)現(xiàn),向上趨勢(shì)會(huì)信號(hào)告知可以被視為更相關(guān)的“最新”文檔(例如最新創(chuàng)建或更新其內(nèi)容的文檔)。
通過(guò)分析文檔(或頁(yè)面)的后向鏈接隨時(shí)間增加/減少的數(shù)量或速率的變化,搜索引擎125可以導(dǎo)出文檔有多新的重要信號(hào)。例如,如果這種分析用逐漸下滑的曲線反映,這可以發(fā)信號(hào)告知文檔是過(guò)期的(例如不再更新、重要性降低、由另一文檔代替等等)。
根據(jù)一種實(shí)現(xiàn),分析可以取決于文檔的新鏈接的數(shù)量。例如,搜索引擎125可以監(jiān)視自首次找到文檔以來(lái)新鏈接的數(shù)量相比于最近n天中文檔的新鏈接的數(shù)量。另外,搜索引擎125可以確定與找到的第一鏈接的壽命相比,最新y%鏈接的最早壽命。
為示例目的,假定y=10和100天前首次發(fā)現(xiàn)兩個(gè)文檔(在該例子中為網(wǎng)站)。對(duì)于第一網(wǎng)站,發(fā)現(xiàn)10%的鏈接少于10天前,而對(duì)于第二網(wǎng)站,發(fā)現(xiàn)0%的鏈接少于10天前(換句話說(shuō),更早地發(fā)現(xiàn)它們)。在這種情況下,量度導(dǎo)致對(duì)網(wǎng)站A為0.1以及對(duì)網(wǎng)站B為0。可以適當(dāng)?shù)胤糯蠖攘?。在另一示例性?shí)現(xiàn)中,可以通過(guò)執(zhí)行鏈接日期分布的相對(duì)更詳細(xì)的分析來(lái)修改度量。例如,可以構(gòu)建模型,預(yù)測(cè)特定分布是否表示特定類型的網(wǎng)站(例如不再更新、流行增加或減少、取代等等的網(wǎng)站)。
根據(jù)另一實(shí)現(xiàn),分析可以取決于分配給鏈接的權(quán)重。在這種情況下,每個(gè)鏈接可以由隨鏈接的新鮮度而增加的函數(shù)來(lái)加權(quán)??梢杂涉溄拥某霈F(xiàn)/改變的日期、與該鏈接有關(guān)的錨文本的出現(xiàn)/改變的日期、包含該鏈接的文檔的出現(xiàn)/改變?nèi)掌趤?lái)確定鏈接的新鮮度?;谌绻溄尤匀幌嚓P(guān)且良好,則當(dāng)文檔更新時(shí)良好鏈接不變的理論,包含鏈接的文檔的出現(xiàn)/改變?nèi)掌诳梢允擎溄拥男迈r度的更好指示。為了不由文檔的細(xì)微不相關(guān)部分的微小編輯而更新每個(gè)鏈接的新鮮度,可以測(cè)試每個(gè)更新文檔的顯著變化(例如文檔的更大部分的變化或文檔的許多不同部分的改變),并相應(yīng)地更新(或不更新)鏈接的新鮮度。
可以用其他方式來(lái)加權(quán)鏈接。例如,可以基于有多信任包含鏈接的文檔(例如政府文檔可以給予較高信任)來(lái)加權(quán)鏈接。鏈接也可以基于包含鏈接的文檔有多少權(quán)威性(例如以類似于在U.S.專利No.6,285,999中所述的方式來(lái)確定權(quán)威文檔)來(lái)加權(quán)。鏈接也可以使用確定新鮮度的一些其他特征,基于包含該鏈接的文檔的新鮮度來(lái)加權(quán)(例如頻繁更新的文檔(例如Yahoo主頁(yè))突然刪除到文檔的鏈接)。
搜索引擎125可以提高或降低存在到其的鏈接的文檔的分值作為指向文檔的鏈接的加權(quán)和的函數(shù)。該技術(shù)可以遞歸采用。例如,假定文檔S有2年。如果到S的鏈接的n%是新的或如果包含到S的前向鏈接的文檔被視為新的,則將文檔S視為新。可以通過(guò)使用文檔的創(chuàng)建日期并遞歸地應(yīng)用該技術(shù)來(lái)校驗(yàn)后者。
根據(jù)另一技術(shù),分析可以取決于與指向文檔的鏈接有關(guān)的壽命分布。換句話說(shuō),可以確定創(chuàng)建到文檔的鏈接的日期并輸入到確定壽命分布的函數(shù)中??梢约俣ㄟ^(guò)期文檔的壽命分布將非常不同于新文檔的壽命分布。因此,搜索引擎125可以部分基于與文檔有關(guān)的壽命分布來(lái)計(jì)分文檔。
鏈接出現(xiàn)的日期也可以被用來(lái)檢測(cè)“垃圾郵件”,其中,文檔的所有者或他們的同僚為提高由搜索引擎分配的分值的目的而創(chuàng)建到他們自己的文檔的鏈接。典型的“合理”文檔緩慢地吸引后向鏈接。后向鏈接數(shù)量的大峰值會(huì)信號(hào)告知關(guān)注現(xiàn)象(例如CDC網(wǎng)站在爆發(fā)諸如SARS后,會(huì)迅速地發(fā)展許多鏈接),或通過(guò)交換鏈接、購(gòu)買鏈接或獲得來(lái)自文檔的鏈接,而沒(méi)有有關(guān)生成鏈接的編輯判斷,信號(hào)嘗試向搜索引擎發(fā)送垃圾郵件(以便獲得較高等級(jí),從而獲得搜索結(jié)果中的更好位置)。提供鏈接而沒(méi)有編輯判斷的文檔的例子包括訪客薄、參考日志和允許任何人增加文檔鏈接的“免費(fèi)”頁(yè)。
根據(jù)另一實(shí)現(xiàn),分析可以取決于鏈接消失的日期。許多鏈接消失能表示這些鏈接所指向的文檔過(guò)期(例如不再更新或已經(jīng)由另一文檔替代)。例如,搜索引擎125可以監(jiān)視到文檔的一個(gè)或多個(gè)鏈接消失的日期、在指定時(shí)間窗口中消失的鏈接數(shù),或到文檔的鏈接數(shù)(或到包含這些鏈接的文檔的鏈接/更新)的一些其他時(shí)間變化減少,來(lái)識(shí)別可被視為過(guò)期的文檔。一旦已經(jīng)確定文檔過(guò)期,當(dāng)確定由鏈接指向的文檔的分值時(shí),包含在那個(gè)文檔中的鏈接可以由搜索引擎125忽視或忽略。
根據(jù)另一實(shí)現(xiàn),分析可以不僅取決于文檔的鏈接的壽命,而且可以取決于鏈接的動(dòng)態(tài)化。如此,搜索引擎125可以加權(quán)除具有非常新的鏈接外,每天具有不同于(例如降低)始終更新并始終鏈接到指定目標(biāo)文檔的文檔的不同特征鏈接的文檔。在一個(gè)示例性實(shí)現(xiàn)中,搜索引擎125可以基于在時(shí)間窗內(nèi),對(duì)于所有版本文檔,具有到一個(gè)文檔的鏈接的各文檔的分值,來(lái)生成用于該文檔的分值。該另一版本可以基于文檔的主要更新時(shí)間,將減少/衰減因子包含在集成中。
總的來(lái)說(shuō),搜索引擎125可以部分基于一個(gè)或多個(gè)基于鏈接的因素,來(lái)生成(或修改)與文檔有關(guān)的分值。
錨文本根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),與錨文本隨時(shí)間改變的方式有關(guān)的信息可以用來(lái)生成(或修改)與文檔有關(guān)的分值。例如,可以將與到文檔的鏈接有關(guān)的錨文本隨時(shí)間的改變用作文檔中已經(jīng)有更新或甚至焦點(diǎn)改變的表示。
另外,如果文檔的內(nèi)容改變,使得它顯著地不同于與其后向鏈接有關(guān)的錨文本,那么與文檔有關(guān)的域可以顯著地(完全)從前身改變。當(dāng)域?qū)脻M和不同方購(gòu)買該域時(shí)這會(huì)發(fā)生。因?yàn)殄^文本通常被視為是其相關(guān)鏈接所指向的文檔的一部分,域可以在用于查詢的搜索結(jié)果中不再在標(biāo)題上顯現(xiàn)。這是不期望的結(jié)果。
解決該問(wèn)題的一個(gè)方法是估計(jì)域改變其焦點(diǎn)的日期。這可以通過(guò)確定文檔的文本顯著改變或錨文本的文本顯著改變的日期來(lái)完成。然后可以忽略或忽視在那一日期前的所有鏈接和/或錨文本。
錨文本的新鮮度也可以被用作計(jì)分文檔的因素??梢酝ㄟ^(guò)例如錨文本的出現(xiàn)/改變?nèi)掌?、與錨文本有關(guān)的鏈接的出現(xiàn)/改變?nèi)掌诤?或相關(guān)鏈接所指向的文檔的出現(xiàn)/改變?nèi)掌冢瑏?lái)確定錨文本的新鮮度?;谌绻^文本仍然相關(guān)且良好,則當(dāng)文檔更新時(shí)良好錨文本不變的理論,由鏈接指向的文檔的出現(xiàn)/改變?nèi)掌诳梢允清^文本的新鮮度的良好指示符。為了不由文檔的細(xì)微不相關(guān)部分的細(xì)微編輯而更新錨文本的新鮮度,可以測(cè)試每個(gè)更新文檔的顯著變化(例如文檔的大部分改變或文檔的許多不同部分的改變)并相應(yīng)地更新(或不更新)錨文本的新鮮度。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于與錨文本隨時(shí)間改變的方式有關(guān)的信息,來(lái)生成(或修改)與文檔有關(guān)的分值。
通信量根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),有關(guān)與文檔有關(guān)的通信量隨時(shí)間的信息可以用來(lái)生成(或修改)與文檔有關(guān)的分值。例如,搜索引擎125可以監(jiān)視一個(gè)或多個(gè)用戶到文檔的通信量或其他“用途”的時(shí)間變化特性。通信量的大的降低可以表示文檔為過(guò)期(例如不再更新或可能由另一文檔替代)。
在一種實(shí)現(xiàn)中,搜索引擎125可以比較最近j天(例如其中j=30)文檔的平均通信量與文檔接收最多通信量,可選地,按季節(jié)變化調(diào)整的月期間,或最近k天(例如k=365)期間的平均通信量??蛇x地,搜索引擎125可以識(shí)別重復(fù)通信量模式或通信量模式隨時(shí)間的變化??梢园l(fā)現(xiàn)存在文檔或多或少流行(例如具有或多或少通信量)的周期,諸如在夏季月期間,周末或在一些其他季節(jié)時(shí)間周期期間。通過(guò)識(shí)別重復(fù)通信量模式或通信量模式的變化,搜索引擎125可以適當(dāng)?shù)卣{(diào)整在這些周期期間或之外文檔的得分。
另外,或者,搜索引擎125可以監(jiān)視與用于特定文檔的“廣告通信量”有關(guān)的時(shí)間變化特性。例如,搜索引擎125可以監(jiān)視下述因素的一個(gè)或多個(gè)組合(1)隨時(shí)間,由指定文檔呈現(xiàn)或更新廣告的程度或頻率;(2)廣告商的質(zhì)量(例如其廣告參考/鏈接到搜索引擎125知道隨時(shí)間具有相對(duì)高通信量和信任的文檔,諸如amazon.com的文檔可以被提供比其廣告指向低通信量/不可靠文檔的那些文檔,諸如色情網(wǎng)站相對(duì)更高的權(quán)重);以及(3)廣告生成到它們所涉及的文檔的用戶通信量的程度(例如它們的點(diǎn)擊率)。搜索引擎125可以使用與廣告通信量有關(guān)的這些時(shí)間變化特性來(lái)計(jì)分文檔。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于有關(guān)與文檔有關(guān)的通信量隨時(shí)間的信息,來(lái)生成(或修改)與文檔有關(guān)的分值。
用戶行為根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),可以使用對(duì)應(yīng)于隨時(shí)間與文檔有關(guān)的個(gè)人或集體用戶行為的信息,來(lái)生成(或修改)與文檔有關(guān)的分值。例如搜索引擎125可以監(jiān)視從搜索結(jié)果集中選擇一個(gè)文檔的次數(shù)和/或一個(gè)或多個(gè)用戶訪問(wèn)所述文檔所花費(fèi)的時(shí)間量。然后,搜索引擎125可以至少部分基于該信息來(lái)計(jì)分所述文檔。
如果對(duì)某一查詢返回文檔,以及給定相同或類似查詢,隨時(shí)間或在指定時(shí)間窗口內(nèi),用戶在該文檔上平均花費(fèi)或多或少的時(shí)間,那么這可以分別被用作該文檔新或舊的表示。例如假定查詢“Riverview游泳計(jì)劃”返回具有標(biāo)題“Riverview游泳計(jì)劃”的文檔。進(jìn)一步假定用戶以前花費(fèi)30秒訪問(wèn)它,但現(xiàn)在選擇所述文檔的每個(gè)用戶僅花費(fèi)幾秒來(lái)訪問(wèn)它。搜索引擎125可以使用該信息來(lái)確定所述文檔為舊(即包含過(guò)時(shí)游泳計(jì)劃)并相應(yīng)地計(jì)分所述文檔。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于與隨時(shí)間與文檔有關(guān)的個(gè)人或集體用戶行為相應(yīng)的信息,來(lái)生成(或修改)與文檔有關(guān)的分值。
域相關(guān)信息根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),涉及與文檔有關(guān)的域的信息可以用來(lái)生成(或修改)與所述文檔有關(guān)的分值。例如,搜索引擎125可以監(jiān)視與在計(jì)算機(jī)網(wǎng)絡(luò)(例如互聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)或其他網(wǎng)絡(luò)或文檔數(shù)據(jù)庫(kù))內(nèi)如何寄存文檔有關(guān)的信息,并使用該信息來(lái)計(jì)分文檔。
嘗試欺騙(發(fā)送垃圾郵件)搜索引擎的個(gè)人通常使用用完即扔或“門口(doorway)”域,并嘗試在被抓住前獲得盡可能多的通信量。當(dāng)計(jì)分與這些域有關(guān)的文檔時(shí),關(guān)于域的合法性的信息可以由搜索引擎125使用。
可以使用某些信號(hào)來(lái)區(qū)分非法域和合法域。例如域可以續(xù)達(dá)10年的周期。有用(合法)域通常預(yù)先支付幾年,而門口(非法)域僅使用1年多。因此,當(dāng)未來(lái)域?qū)脻M時(shí)的日期能被用作預(yù)測(cè)域的合法性,從而預(yù)測(cè)與之有關(guān)的文檔的合法性的因素。
同樣,或者,用于域的域名服務(wù)器(DNS)記錄可以被監(jiān)視以預(yù)測(cè)域是否合法。DNS記錄包含誰(shuí)注冊(cè)了域、行政和技術(shù)地址以及名稱服務(wù)器(即將域名解析為IP地址的服務(wù)器)的地址的詳情。通過(guò)分析用于域的隨時(shí)間的該數(shù)據(jù),可以識(shí)別非法域。例如,搜索引擎125可以監(jiān)視在時(shí)間周期上,物理正確的地址信息是否存在,域的聯(lián)系信息是否相對(duì)頻繁地改變,在不同名稱服務(wù)器和寄主公司之間是否存在相當(dāng)大量的變化等等。在一個(gè)實(shí)現(xiàn)中,可以識(shí)別、存儲(chǔ)已知不良聯(lián)系信息、名稱服務(wù)器和/或IP地址的清單,并用于預(yù)測(cè)域的合法性,從而預(yù)測(cè)與之相關(guān)的文檔的合法性。
同樣,另外,關(guān)于與域有關(guān)的名稱服務(wù)器的壽命或其他信息可以用來(lái)預(yù)測(cè)域的合法性?!傲己谩泵Q服務(wù)器可以具有來(lái)自不同注冊(cè)器的不同域的混合并具有寄主這些域的歷史,而“不良”名稱服務(wù)器會(huì)主要寄主色情或門口域、具有商業(yè)詞匯的域(垃圾郵件的通用指示符)或主要來(lái)自單個(gè)注冊(cè)器的零散域或可能是全新的。名稱服務(wù)器的新鮮度可以非自動(dòng)地為確定相關(guān)域的合法性的消極因素,而可以結(jié)合其他因素,諸如在此所述的。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于有關(guān)與文檔有關(guān)的域的合法性的信息,來(lái)生成(或修改)與文檔有關(guān)的分值。
等級(jí)歷史根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),可以使用與文檔的先前等級(jí)有關(guān)的信息來(lái)生成(或修改)與文檔有關(guān)的分值。例如,搜索引擎125可以響應(yīng)提供給搜索引擎125的搜索查詢,監(jiān)視文檔的時(shí)間變化等級(jí)。搜索引擎125可以確定在許多查詢上等級(jí)跳躍的文檔可能是主題文檔,或它可能是發(fā)信號(hào)試圖向搜索引擎125發(fā)送垃圾郵件。
因此,可以使用在時(shí)間周期上文檔在等級(jí)方面移動(dòng)的數(shù)量或速率來(lái)影響分配給那個(gè)文檔的未來(lái)分值。在一種實(shí)現(xiàn)中,對(duì)于搜索結(jié)果的每個(gè)集合,可以根據(jù)它在前N個(gè)搜索結(jié)果中的位置來(lái)加權(quán)文檔。對(duì)N=30,一個(gè)示例函數(shù)可以是[((N+1)-SLOT/N)]4。在這種情況下,第一結(jié)果可得到1.0的分值,對(duì)第N個(gè)結(jié)果,下降到接近0的分值。
可以重復(fù)查詢集(例如商業(yè)查詢),以及可以標(biāo)記獲得等級(jí)多于M%的文檔,或等級(jí)的百分比增長(zhǎng)被用作確定用于所述文檔的分值的信號(hào)。例如,如果前面結(jié)果的平均(中等)分值相對(duì)高以及前面結(jié)果逐月存在相當(dāng)大的變化,則搜索引擎125可以確定查詢很可能是商業(yè)的。搜索引擎125也可以監(jiān)視流入流出(churn)作為商業(yè)查詢的指示。對(duì)商業(yè)查詢,垃圾郵件的可能性較高,因此,搜索引擎125可以相應(yīng)地處理與之有關(guān)的文檔。
除用于指定查詢的文檔的位置(或等級(jí))的歷史外,搜索引擎125可以監(jiān)視(在頁(yè)面、主機(jī)、文檔和/或域基礎(chǔ)上)一個(gè)或多個(gè)其他因素,諸如隨時(shí)間將文檔選擇為搜求結(jié)果的查詢數(shù)以及速率(增加/減少)、季節(jié)性、突發(fā)性和隨時(shí)間文檔被選擇為搜索結(jié)果的其他模式和/或?qū)τ赨RL查詢對(duì),分值隨時(shí)間的變化。
另外,或者,搜索引擎125可以監(jiān)視隨時(shí)間,與基于查詢的標(biāo)準(zhǔn)無(wú)關(guān)的文檔(例如URL)數(shù)量。例如,搜索引擎125可以監(jiān)視響應(yīng)于指定查詢或查詢集而生成的頂端結(jié)果集中的平均分值,并調(diào)整響應(yīng)于指定查詢或查詢集而生成的結(jié)果集和/或其他結(jié)果的分值。此外,搜索引擎125可以監(jiān)視隨時(shí)間,為特定查詢或查詢集生成的結(jié)果數(shù)。如果搜索引擎125確定結(jié)果數(shù)增加或增長(zhǎng)率有變化(例如這種增加可以是“熱門主題”或其他現(xiàn)象的表示),搜索引擎125可以使那些結(jié)果在未來(lái)計(jì)分更高。
另外,或者,搜索引擎125可以監(jiān)視隨時(shí)間的文檔等級(jí)來(lái)檢測(cè)文檔等級(jí)中的突然峰值。峰值可以表示主題現(xiàn)象(例如熱門主題)或試圖通過(guò)例如交易或購(gòu)買鏈接而向搜索引擎125發(fā)送垃圾郵件。搜索引擎125可以通過(guò)利用滯后來(lái)允許以某一速率增長(zhǎng)等級(jí),采用防止垃圾郵件嘗試的措施。在另一實(shí)現(xiàn)中,指定文檔的等級(jí)可以被允許在預(yù)定時(shí)間窗上增長(zhǎng)的某一最大閾值。作為將與主題現(xiàn)象有關(guān)的文檔與垃圾郵件文檔區(qū)分的進(jìn)一步措施,搜索引擎125可以基于例如在新聞中將不會(huì)提到垃圾郵件文檔的理論,考慮在新聞文章、論述組等等中文檔的記載??梢允褂眠@些技術(shù)的任何一個(gè)或組合來(lái)減少垃圾郵件嘗試。
搜索引擎125也可以把在一些方面中被確定為權(quán)威的文檔,諸如政府文檔、web目錄(例如Yahoo)以及隨時(shí)間已經(jīng)顯示出相對(duì)穩(wěn)定和高等級(jí)的文檔作為例外。例如,如果到權(quán)威文檔的鏈接的數(shù)量或增加率中出現(xiàn)不尋常峰值,那么搜索引擎125可以認(rèn)為所述文檔不是垃圾郵件,從而允許相當(dāng)高或甚至(隨時(shí)間)對(duì)其等級(jí)(增長(zhǎng))無(wú)閾值。
另外,或者,搜索引擎125可以將文檔等級(jí)的顯著下降視為這些文檔“不受喜歡”或過(guò)期的指示。例如,如果文檔的等級(jí)隨時(shí)間顯著地下降,那么搜索引擎125可以將所述文檔視為過(guò)期并相應(yīng)地計(jì)分所述文檔。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于與文檔的先前等級(jí)有關(guān)的信息,來(lái)生成(或修改)與文檔有關(guān)的分值。
用戶維護(hù)/生成的數(shù)據(jù)根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),可以使用用戶維護(hù)或生成的數(shù)據(jù)來(lái)生成(或修改)與文檔有關(guān)的分值。例如,搜索引擎125可以監(jiān)視由用戶維護(hù)或生成的數(shù)據(jù),諸如“書簽”、“喜好”或可以提供用戶喜歡或感興趣的文檔的一些指示的其他類型的數(shù)據(jù)。搜索引擎125可以直接(例如經(jīng)瀏覽器輔助)或間接(例如經(jīng)瀏覽器)獲得該數(shù)據(jù)。然后,搜索引擎125隨時(shí)間分析文檔與之有關(guān)的多個(gè)書簽/喜好來(lái)確定文檔的重要性。
搜索引擎125還可以分析從書簽/喜好列表增加或移出文檔(或更具體地說(shuō),文檔的路徑),增加到書簽/喜好列表或從其移出文檔的速率和/或是否增加、刪除或通過(guò)書簽/喜好列表訪問(wèn)文檔的向上和向下趨勢(shì)。如果多個(gè)用戶正將特定文檔增加到他們的書簽/喜好列表中,或通常隨時(shí)間通過(guò)這些列表訪問(wèn)該文檔,這可以被視為該文檔相對(duì)重要的指示。另一方面,如果多個(gè)用戶正減少訪問(wèn)在他們的書簽/喜好列表中指示的文檔,或正從他們的列表日益刪除/替代到所述文檔的路徑,這可以被看作該文檔過(guò)時(shí)、不流行等等的指示。因此,搜索引擎125可以相應(yīng)地計(jì)分所述文檔。
在另一實(shí)現(xiàn)中,可以表示用戶隨時(shí)間對(duì)特定文檔的興趣增加或減少的其他類型的用戶數(shù)據(jù)可以由搜索引擎125使用來(lái)計(jì)分文檔。例如,與用戶有關(guān)的“臨時(shí)”或緩沖文件能由搜索引擎125監(jiān)視,以識(shí)別隨時(shí)間添加的文檔增加還是減少。類似地,與特定文檔有關(guān)的cookie數(shù)據(jù)塊也可以由搜索引擎125監(jiān)視來(lái)確定對(duì)文檔的興趣存在向上還是向下趨勢(shì)。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于用戶維護(hù)或生成的數(shù)據(jù),來(lái)生成(或修改)與文檔有關(guān)的分值。
錨文本中的唯一字、二元語(yǔ)法(bigram)、短語(yǔ)根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),可以使用關(guān)于錨文本中的唯一字、二元語(yǔ)法、短語(yǔ)的信息來(lái)生成(或修改)與文檔有關(guān)的分值。例如搜索引擎125可以監(jiān)視隨時(shí)間的網(wǎng)站(或鏈接)圖以及它們的行為,并將該信息用于計(jì)分、垃圾郵件檢測(cè)或其他目的。自然開(kāi)發(fā)的網(wǎng)站圖通常包含獨(dú)立的判斷。通常表示垃圾郵件意圖的合成生成的網(wǎng)站圖是基于協(xié)調(diào)判斷,引起錨字/二元語(yǔ)法/短語(yǔ)的增長(zhǎng)圖可能相對(duì)尖。
這種尖峰的一種原因可以是增加了來(lái)自許多文檔的大量相同錨。另一可能性是增加了來(lái)自多個(gè)文檔的故意不同的錨。搜索引擎125可以監(jiān)視錨并將它們作為計(jì)分它們的相關(guān)鏈接所指向的文檔的因素。例如,搜索引擎125可以改進(jìn)可疑錨對(duì)相關(guān)文檔分值的影響。另外,搜索引擎125可以使用合成生成的似然度的連續(xù)換算并導(dǎo)出乘法因子來(lái)?yè)Q算用于所述文檔的分值。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于關(guān)于與指向文檔的一個(gè)或多個(gè)鏈接有關(guān)的錨文本中的唯一字、二元語(yǔ)法和短語(yǔ)的信息,來(lái)生成(或修改)與文檔有關(guān)的分值。
獨(dú)立對(duì)等體(peer)的連接根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),可以使用關(guān)于獨(dú)立對(duì)等體(例如無(wú)關(guān)文檔)的連接的信息來(lái)生成(或修改)與文檔有關(guān)的分值。
具有到各文檔的大量鏈接的明顯獨(dú)立對(duì)等體-輸入和/或輸出數(shù)量的突然增長(zhǎng)可以表示潛在虛假網(wǎng)站圖,其是試圖發(fā)送垃圾郵件的指示符。如果增長(zhǎng)對(duì)應(yīng)于通常相干或不一致的錨文本,則可以增強(qiáng)該指示。當(dāng)與基于鏈接的計(jì)分技術(shù)一起使用時(shí),能使用該信息來(lái)降級(jí)這些鏈接的影響,作為二進(jìn)制判斷項(xiàng)(例如將分值降級(jí)固定量)或乘法因子。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于關(guān)于獨(dú)立對(duì)等體的連接的信息,來(lái)生成(或修改)與文檔有關(guān)的分值。
文檔主題根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),可以使用有關(guān)文檔主題的信息來(lái)生成(或修改)與文檔有關(guān)的分值。例如,搜索引擎125可以執(zhí)行主題提取(例如通過(guò)分目錄、URL分析、內(nèi)容分析、群集、概括、唯一低頻字集或一些其他類型的主題提取)。然后,搜索引擎125可以監(jiān)視隨時(shí)間文檔的主題并將該信息用于計(jì)分目的。
與文檔有關(guān)的主題集隨時(shí)間的顯著變化可以表示文檔已經(jīng)改變所有者和先前文檔指示符,諸如分值、錨文本等等不再可靠。類似地,主題數(shù)目中的峰值能表示垃圾郵件。例如,如果特定文檔與可以視為“穩(wěn)定的”時(shí)間周期上的一個(gè)或多個(gè)主題集有關(guān),然后與所述文檔有關(guān)的主題數(shù)目中出現(xiàn)(突然)峰值,則這可以是文檔已經(jīng)被取代為“門口”文檔的指示。另一指示可以包括與文檔有關(guān)的初始主題的消失。如果檢測(cè)到一個(gè)或多個(gè)這些情形,那么,搜索引擎125可以降低這些文檔和/或鏈接、錨文本或與所述文檔有關(guān)的其他數(shù)據(jù)的相對(duì)分值。
總的來(lái)說(shuō),搜索引擎125可以至少部分基于與所述文檔有關(guān)的一個(gè)或多個(gè)主題的變化,來(lái)生成(或修改)與文檔有關(guān)的分值。
示例性處理圖4是根據(jù)與本發(fā)明的原理相符的實(shí)現(xiàn),用于計(jì)分文檔的示例性處理的流程圖。處理可以從服務(wù)器120識(shí)別文檔(動(dòng)作410)開(kāi)始。文檔可以包括例如與搜索查詢有關(guān)的一個(gè)或多個(gè)文檔,諸如識(shí)別為與搜索查詢有關(guān)的文檔。另外,文檔可以包括與任何搜索查詢無(wú)關(guān)的文檔資料庫(kù)或庫(kù)中的一個(gè)或多個(gè)文檔(例如通過(guò)扒網(wǎng)絡(luò)而識(shí)別并存儲(chǔ)在庫(kù)中的文檔)。
搜索引擎125可以獲得與所識(shí)別的文檔有關(guān)的歷史數(shù)據(jù)(動(dòng)作420)。如上所述,歷史數(shù)據(jù)可以采用不同形式。例如,歷史數(shù)據(jù)可以包括與文檔初始日期有關(guān)的數(shù)據(jù);文檔內(nèi)容更新/改變;查詢分析;基于鏈接的標(biāo)準(zhǔn);錨文本;通信量;用戶行為;域相關(guān)信息;等級(jí)歷史;用戶維護(hù)/生成的數(shù)據(jù)(例如書簽和/或喜好);錨文本中的唯一字、二元語(yǔ)法和短語(yǔ);獨(dú)立對(duì)等體的連接和/或文檔主題。搜索引擎125可以獲得這些類型的歷史數(shù)據(jù)中的一個(gè)或組合。
然后,搜索引擎125可以至少部分基于歷史數(shù)據(jù)來(lái)計(jì)分所識(shí)別的文檔(動(dòng)作430)。當(dāng)所識(shí)別的文檔與搜索查詢有關(guān)時(shí),搜索引擎125可以例如基于它們與搜索查詢有多相關(guān),來(lái)生成用于所述文檔的相關(guān)分值。然后,搜索引擎125可以將歷史分值與相關(guān)分值組合來(lái)獲得用于所述文檔的總分值。代替組合分值,搜索引擎125可以基于歷史數(shù)據(jù)來(lái)修改用于所述文檔的相關(guān)分值,從而提高或降低分值,或在一些情況下,使分值相同。另外,搜索引擎125可以基于歷史數(shù)據(jù)來(lái)計(jì)分文檔,而不生成相關(guān)分值。在任一情況下,搜索引擎125可以使用歷史數(shù)據(jù)類型的一個(gè)或組合來(lái)計(jì)分文檔。
當(dāng)所識(shí)別的文檔與搜索查詢有關(guān)時(shí),搜索引擎125也可以由計(jì)分文檔來(lái)形成搜索結(jié)果。例如,搜索引擎125可以基于它們的分值來(lái)排序文檔。然后,搜索引擎125可以形成對(duì)這些文檔的參考,其中,參考可以包括文檔的標(biāo)題(可以包含當(dāng)選擇時(shí),將用戶引導(dǎo)到該真正文檔的超級(jí)鏈接)以及來(lái)自文檔的片斷(例如文本摘錄)。在其他實(shí)現(xiàn)中,可以不同地形成參考。搜索引擎125可以將對(duì)應(yīng)于多個(gè)高計(jì)分文檔的參考(例如預(yù)定多個(gè)文檔,具有超出閾值分值的文檔,所有文檔等等)呈現(xiàn)給提交搜索查詢的用戶。
結(jié)論與本發(fā)明的原理相符的系統(tǒng)和方法可以使用歷史數(shù)據(jù)來(lái)計(jì)分文檔并形成高質(zhì)量搜索結(jié)果。
本發(fā)明的優(yōu)選實(shí)施例的上述描述提供示例和描述,但不打算排除或?qū)⒈景l(fā)明限制到所公開(kāi)的具體形式。鑒于上述進(jìn)行教導(dǎo),修改和改進(jìn)是可能的,或可以從實(shí)施本發(fā)明獲得。例如,盡管參考圖4描述了一系列動(dòng)作,但在與本發(fā)明的原理相符的其他實(shí)現(xiàn)中,可以修改動(dòng)作順序。同時(shí),可以并行執(zhí)行不相關(guān)動(dòng)作。
另外,通常描述服務(wù)器120來(lái)執(zhí)行參考圖4的處理描述的大部分動(dòng)作,如果不是全部的話。在與本發(fā)明的原理相符的另一實(shí)現(xiàn)中,可以由另一實(shí)體,諸如另一服務(wù)器130和/或140或客戶機(jī)110來(lái)執(zhí)行一個(gè)或多個(gè)或所有動(dòng)作。
對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),如上所述的本發(fā)明的方面可以以在圖中所示的實(shí)現(xiàn)中的軟件、固件和硬件的許多不同形式實(shí)現(xiàn)是顯而易見(jiàn)的。用來(lái)實(shí)現(xiàn)與本發(fā)明的原理相符的方面的真正軟件代碼或?qū)S每刂朴布皇潜景l(fā)明的限制。因此,在不參考特定軟件代碼的情況下,描述這些方面的操作和行為,應(yīng)理解到本領(lǐng)域的一個(gè)普通技術(shù)將能基于在此的說(shuō)明,設(shè)計(jì)實(shí)現(xiàn)這些方面的軟件和控制硬件。
權(quán)利要求
1.一種計(jì)分文檔的方法,包括識(shí)別文檔;獲得與所述文檔有關(guān)的一種或多種歷史數(shù)據(jù);以及基于一種或多種歷史數(shù)據(jù),生成用于所述文檔的分值。
2.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括和初始日期有關(guān)的信息;以及其中,生成分值包括確定對(duì)應(yīng)于所述文檔的初始日期;以及至少部分基于對(duì)應(yīng)于所述文檔的初始日期,來(lái)計(jì)分所述文檔。
3.如權(quán)利要求2所述的方法,其中,所述文檔包括多個(gè)文檔;以及其中,計(jì)分文檔包括基于對(duì)應(yīng)于文檔的初始日期,確定每一個(gè)文檔的壽命,基于文檔的壽命,確定文檔的平均壽命;以及至少部分基于文檔的壽命和平均壽命之間的差值,來(lái)計(jì)分文檔。
4.如權(quán)利要求2所述的方法,其中,生成用于所述文檔的分值包括至少部分基于從對(duì)應(yīng)于所述文檔的初始日期測(cè)定的逝去時(shí)間,來(lái)計(jì)分文檔。
5.如權(quán)利要求2所述的方法,其中,對(duì)應(yīng)于所述文檔的初始日期是基于下列中的至少一個(gè)搜索引擎首次發(fā)現(xiàn)所述文檔的日期、搜索引擎首次發(fā)現(xiàn)到所述文檔的鏈接的日期以及所述文檔至少包括預(yù)定數(shù)目頁(yè)的日期。
6.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括和文檔內(nèi)容隨時(shí)間改變的方式有關(guān)的信息;以及其中,生成分值包括確定所述文檔的內(nèi)容隨時(shí)間改變的頻率;以及至少部分基于所述文檔的內(nèi)容隨時(shí)間改變的頻率,來(lái)計(jì)分所述文檔。
7.如權(quán)利要求6所述的方法,其中,所述文檔內(nèi)容的變化頻率是基于下列中的至少一個(gè)變化之間的平均時(shí)間、一個(gè)時(shí)間周期中的變化次數(shù)、以及當(dāng)前時(shí)間周期中的變化率與先前時(shí)間周期中的變化率的比較。
8.如權(quán)利要求6所述的方法,其中,生成分值進(jìn)一步包括確定所述文檔的內(nèi)容隨時(shí)間的變化量;以及至少部分基于所述文檔的內(nèi)容隨時(shí)間變化的頻率和數(shù)量,來(lái)計(jì)分所述文檔。
9.如權(quán)利要求8所述的方法,其中,所述文檔內(nèi)容的變化量是基于下列中的至少一個(gè)在一個(gè)時(shí)間周期內(nèi)與所述文檔有關(guān)的新頁(yè)數(shù)、與所述文檔有關(guān)的新頁(yè)數(shù)和與所述文檔有關(guān)的總頁(yè)數(shù)的比率、以及在一個(gè)時(shí)間周期期間已經(jīng)改變的文檔內(nèi)容的百分比。
10.如權(quán)利要求8所述的方法,其中,確定所述文檔內(nèi)容的變化量包括基于感知的各部分的重要性,不同地加權(quán)所述文檔內(nèi)容的不同部分;以及將所述文檔內(nèi)容的變化量確定為所述內(nèi)容的不同加權(quán)部分的函數(shù)。
11.如權(quán)利要求6所述的方法,其中,所述文檔包括多個(gè)文檔;以及其中,計(jì)分所述文檔包括確定每一個(gè)文檔的內(nèi)容最近改變的日期;基于所確定的文檔內(nèi)容最近改變的日期,來(lái)確定改變的平均日期;以及至少部分基于文檔內(nèi)容最近改變的日期和改變的平均日期之間的差值,來(lái)計(jì)分文檔。
12.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與文檔內(nèi)容隨時(shí)間改變的方式有關(guān)的信息;以及其中,生成分值包括確定所述文檔內(nèi)容隨時(shí)間的變化量;以及至少部分基于所述文檔內(nèi)容隨時(shí)間的變化量,來(lái)計(jì)分所述文檔。
13.如權(quán)利要求12所述的方法,其中,所述文檔內(nèi)容的變化量是基于下列中的至少一個(gè)在一個(gè)時(shí)間周期內(nèi)與所述文檔有關(guān)的新頁(yè)數(shù)、與所述文檔有關(guān)的新頁(yè)數(shù)和與所述文檔有關(guān)的總頁(yè)數(shù)的比率、以及在一個(gè)時(shí)間周期期間已經(jīng)改變的文檔內(nèi)容的百分比。
14.如權(quán)利要求12所述的方法,其中,確定所述文檔內(nèi)容的變化量包括基于感知的各部分的重要性,不同地加權(quán)所述文檔內(nèi)容的不同部分;以及將所述文檔內(nèi)容的變化量確定為所述內(nèi)容的不同加權(quán)部分的函數(shù)。
15.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與當(dāng)所述文檔被包括在一個(gè)搜索結(jié)果集中時(shí)選擇所述文檔的頻度有關(guān)的信息;以及其中,生成分值包括當(dāng)所述文檔被包括在一個(gè)搜索結(jié)果集中時(shí),確定隨時(shí)間所述文檔被選擇的程度;以及至少部分基于當(dāng)所述文檔被包括在所述搜索結(jié)果集中時(shí)隨時(shí)間所述文檔被選擇的程度,來(lái)計(jì)分所述文檔。
16.如權(quán)利要求15所述的方法,其中,計(jì)分所述文檔包括當(dāng)在一個(gè)時(shí)間周期上相比于所述搜索結(jié)果集中的其他文檔所述文檔被更經(jīng)常選擇時(shí),向所述文檔分配更高分值。
17.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與隨時(shí)間越來(lái)越多地出現(xiàn)在搜索查詢中的搜索項(xiàng)有關(guān)的信息;以及其中,生成分值包括確定所述文檔是否與搜索項(xiàng)有關(guān);以及至少部分基于所述文檔是否與搜索項(xiàng)有關(guān),來(lái)計(jì)分所述文檔。
18.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與隨時(shí)間近似保持恒定但導(dǎo)致隨時(shí)間改變的結(jié)果的查詢有關(guān)的信息;以及其中,生成分值包括確定所述文檔是否與導(dǎo)致隨時(shí)間改變的結(jié)果的查詢有關(guān);以及至少部分基于所述文檔是否與導(dǎo)致隨時(shí)間改變的結(jié)果的查詢有關(guān),來(lái)計(jì)分所述文檔。
19.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與文檔的過(guò)期有關(guān)的信息;以及其中,生成分值包括確定所述文檔是否過(guò)期;以及至少部分基于所述文檔是否過(guò)期,來(lái)計(jì)分所述文檔。
20.如權(quán)利要求19所述的方法,其中,計(jì)分所述文檔包括當(dāng)確定所述文檔過(guò)期時(shí),確定是否認(rèn)為該過(guò)期文檔有利于搜索查詢;以及至少部分基于當(dāng)確定所述文檔過(guò)期時(shí)是否認(rèn)為該過(guò)期文檔有利于搜索查詢,來(lái)計(jì)分所述文檔。
21.如權(quán)利要求20所述的方法,其中,確定是否認(rèn)為過(guò)期文檔有利于搜索查詢至少部分基于在用于搜索查詢的時(shí)間上,在最近文檔上多常選擇過(guò)期文檔。
22.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與隨時(shí)間的鏈接行為有關(guān)的信息;以及其中,生成分值包括確定與所述文檔有關(guān)的鏈接行為;以及至少部分基于與所述文檔有關(guān)的鏈接行為,來(lái)計(jì)分所述文檔。
23.如權(quán)利要求22所述的方法,其中,鏈接行為與指向所述文檔的一個(gè)或多個(gè)鏈接的出現(xiàn)和消失的至少一個(gè)有關(guān)。
24.如權(quán)利要求23所述的方法,其中,一個(gè)或多個(gè)鏈接的出現(xiàn)與下列中的至少一個(gè)有關(guān)出現(xiàn)到所述文檔的新鏈接的日期、一個(gè)或多個(gè)鏈接隨時(shí)間出現(xiàn)的速率、以及在一個(gè)時(shí)間周期期間出現(xiàn)的一個(gè)或多個(gè)鏈接的數(shù)量,以及一個(gè)或多個(gè)鏈接的消失與到所述文檔的現(xiàn)有鏈接消失的日期、一個(gè)或多個(gè)鏈接隨時(shí)間消失的速率、以及在一個(gè)時(shí)間周期期間消失的一個(gè)或多個(gè)鏈接的數(shù)量的至少一個(gè)有關(guān)。
25.如權(quán)利要求22所述的方法,其中,確定與所述文檔有關(guān)的鏈接的行為包括監(jiān)視下列中的至少一個(gè)與所述文檔有關(guān)的鏈接的時(shí)間變化行為、在一個(gè)時(shí)間周期期間出現(xiàn)或消失多少與所述文檔有關(guān)的鏈接、以及與所述文檔有關(guān)的現(xiàn)有鏈接的消失相比是否存在傾向出現(xiàn)與所述文檔有關(guān)的新鏈接。
26.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與鏈接的新鮮度有關(guān)的信息;其中,生成分值包括確定與所述文檔有關(guān)的鏈接的新鮮度;基于所確定的新鮮度,向鏈接分配權(quán)重;以及至少部分基于分配給與所述文檔有關(guān)的鏈接的權(quán)重,來(lái)計(jì)分所述文檔。
27.如權(quán)利要求26所述的方法,其中,與所述文檔有關(guān)的鏈接的新鮮度是基于下列中的至少一個(gè)鏈接出現(xiàn)的日期、鏈接變化的日期、與該鏈接有關(guān)的錨文本的出現(xiàn)日期、與該鏈接有關(guān)的錨文本變化的日期、包含該鏈接的鏈接文檔出現(xiàn)的日期以及包含該鏈接的鏈接文檔變化的日期。
28.如權(quán)利要求26所述的方法,其中,分配給鏈接的權(quán)重是基于下列中的至少一個(gè)包含該鏈接的文檔被信任多少、包含該鏈接的文檔有多權(quán)威、以及包含該鏈接的文檔的新鮮度。
29.如權(quán)利要求26所述的方法,其中,計(jì)分文檔包括確定指向所述文檔的每個(gè)鏈接的壽命;基于鏈接的壽命,來(lái)確定與鏈接有關(guān)的壽命分布;以及至少部分基于與鏈接有關(guān)的壽命分布,來(lái)計(jì)分文檔。
30.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與錨文本隨時(shí)間改變的方式有關(guān)的信息;以及其中,生成分值包括識(shí)別與到所述文檔的鏈接有關(guān)的錨文本的變化;以及至少部分基于與到所述文檔的鏈接有關(guān)的錨文本的變化,計(jì)分所述文檔。
31.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與文檔和與到所述文檔的鏈接有關(guān)的錨文本中的差異有關(guān)的信息;以及其中,生成分值包括確定文檔內(nèi)容是否改變使得所述內(nèi)容不同于與到所述文檔的一個(gè)或多個(gè)鏈接有關(guān)的錨文本;以及至少部分基于所述文檔的內(nèi)容是否改變使得所述內(nèi)容不同于與到所述文檔的一個(gè)或多個(gè)鏈接有關(guān)的錨文本,來(lái)計(jì)分所述文檔。
32.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與錨文本的新鮮度有關(guān)的信息;以及其中,生成分值包括確定與到所述文檔的一個(gè)或多個(gè)鏈接有關(guān)的錨文本的新鮮度;以及至少部分基于與到所述文檔的一個(gè)或多個(gè)鏈接有關(guān)的錨文本的新鮮度,來(lái)計(jì)分所述文檔。
33.如權(quán)利要求32所述的方法,其中,與到所述文檔的鏈接有關(guān)的錨文本的新鮮度是基于下列中的至少一個(gè)錨文本的出現(xiàn)日期、錨文本的改變?nèi)掌?、與錨文本有關(guān)的鏈接的出現(xiàn)日期、與錨文本有關(guān)的鏈接的改變?nèi)掌?、所述文檔的出現(xiàn)日期和所述文檔的改變?nèi)掌凇?br>
34.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括和與文檔有關(guān)的通信量有關(guān)的信息;以及其中,生成分值包括確定與文檔有關(guān)的通信量的特性;以及至少部分基于與所述文檔有關(guān)的通信量的特性,來(lái)計(jì)分所述文檔。
35.如權(quán)利要求34所述的方法,其中,確定與所述文檔有關(guān)的通信量的特性包括分析與所述文檔有關(guān)的通信量模式以便識(shí)別通信量模式隨時(shí)間的變化。
36.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括和與文檔有關(guān)的用戶行為有關(guān)的信息;以及其中,生成分值包括確定與文檔有關(guān)的用戶行為;以及至少部分基于與文檔有關(guān)的用戶行為,來(lái)計(jì)分所述文檔。
37.如權(quán)利要求36所述的方法,其中,用戶行為與在搜索結(jié)果集內(nèi)文檔被選擇的次數(shù)以及一個(gè)或多個(gè)用戶訪問(wèn)所述文檔所花費(fèi)的時(shí)間量中的至少一個(gè)有關(guān)。
38.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括對(duì)應(yīng)于與文檔有關(guān)的域的域相關(guān)信息;以及其中,生成分值包括分析對(duì)應(yīng)于與文檔有關(guān)的域隨時(shí)間的域相關(guān)信息;以及至少部分基于分析結(jié)果,來(lái)計(jì)分所述文檔。
39.如權(quán)利要求38所述的方法,其中,計(jì)分所述文檔包括確定與所述文檔有關(guān)的域是否合法;以及至少部分基于與所述文檔有關(guān)的域是否合法,來(lái)計(jì)分所述文檔。
40.如權(quán)利要求38所述的方法,其中,域相關(guān)信息與下列中的至少一個(gè)有關(guān)域的屆滿日期、與域有關(guān)的域名服務(wù)器記錄、以及與域有關(guān)的名稱服務(wù)器。
41.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與文檔的先前等級(jí)歷史有關(guān)的信息;以及其中,生成分值包括確定所述文檔的先前等級(jí)歷史;以及至少部分基于所述文檔的先前等級(jí)歷史,來(lái)計(jì)分所述文檔。
42.如權(quán)利要求41所述的方法,其中,計(jì)分所述文檔包括確定在一個(gè)時(shí)間周期上所述文檔在等級(jí)方面移動(dòng)的數(shù)量或速率;以及至少部分基于所述文檔在等級(jí)方面移動(dòng)的數(shù)量或速率,來(lái)計(jì)分所述文檔。
43.如權(quán)利要求41所述的方法,其中,先前等級(jí)歷史是基于下列中的至少一個(gè)隨時(shí)間所述文檔被選擇為搜索結(jié)果的查詢數(shù)量、隨時(shí)間所述文檔被選擇為搜索結(jié)果的速率、季節(jié)性、突發(fā)性以及對(duì)URL查詢對(duì),分值隨時(shí)間的變化。
44.如權(quán)利要求41所述的方法,其中,確定文檔的先前等級(jí)歷史包括監(jiān)視隨時(shí)間文檔等級(jí)的等級(jí)峰值。
45.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與用戶維護(hù)或生成的數(shù)據(jù)有關(guān)的信息;以及其中,生成分值包括確定用戶維護(hù)或生成的數(shù)據(jù)是否表示用戶對(duì)所述文檔感興趣;以及至少部分基于用戶維護(hù)或生成的數(shù)據(jù)是否表示用戶對(duì)所述文檔感興趣,來(lái)計(jì)分所述文檔。
46.如權(quán)利要求45所述的方法,其中,用戶維護(hù)或生成的數(shù)據(jù)與下列中的至少一個(gè)有關(guān)與一個(gè)或多個(gè)用戶有關(guān)的喜好列表、書簽、臨時(shí)文件和緩沖文件。
47.如權(quán)利要求45所述的方法,其中,計(jì)分所述文檔包括分析隨時(shí)間用戶維護(hù)或生成的數(shù)據(jù),來(lái)識(shí)別下列中的至少一個(gè)增加或移出文檔的趨勢(shì)、所述文檔增加到用戶維護(hù)或生成的數(shù)據(jù)或從中移出的速率、以及所述文檔是增加到用戶維護(hù)或生成的數(shù)據(jù)、從用戶維護(hù)或生成的數(shù)據(jù)刪除還是通過(guò)用戶維護(hù)或生成數(shù)據(jù)被訪問(wèn);以及至少部分基于分析結(jié)果,來(lái)計(jì)分所述文檔。
48.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與錨文本的增長(zhǎng)圖有關(guān)的信息;以及其中,生成分值包括確定與到所述文檔的一個(gè)或多個(gè)鏈接有關(guān)的錨文本的增長(zhǎng)圖;以及至少部分基于與到所述文檔的一個(gè)或多個(gè)鏈接有關(guān)的錨文本的增長(zhǎng)圖,來(lái)計(jì)分所述文檔。
49.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與獨(dú)立對(duì)等體的連接有關(guān)的信息;以及其中,生成分值包括確定包括所述文檔的獨(dú)立對(duì)等體的數(shù)量增長(zhǎng);以及至少部分基于獨(dú)立對(duì)等體的數(shù)量,來(lái)計(jì)分所述文檔。
50.如權(quán)利要求1所述的方法,其中,一種或多種歷史數(shù)據(jù)包括與文檔主題有關(guān)的信息;以及其中,生成分值包括執(zhí)行與所述文檔有關(guān)的主題提?。槐O(jiān)視文檔主題隨時(shí)間的變化;以及至少部分基于文檔主題的變化,來(lái)計(jì)分所述文檔。
51.如權(quán)利要求1所述的方法,進(jìn)一步包括獲得搜索查詢,其中,將所識(shí)別的文檔識(shí)別為與該搜索查詢有關(guān);以及基于所述文檔與搜索查詢有多相關(guān),生成用于所述文檔的相關(guān)分值;以及其中,生成用于所述文檔的分值至少部分基于一種或多種歷史數(shù)據(jù)和相關(guān)分值。
52.一種用于計(jì)分文檔的系統(tǒng),包括用于識(shí)別文檔的裝置;用于獲得與所述文檔有關(guān)的多種歷史數(shù)據(jù)的裝置;以及用于至少部分基于多種歷史數(shù)據(jù),來(lái)生成用于所述文檔的分值的裝置。
53.一種用于計(jì)分文檔的系統(tǒng),包括歷史部件,配置成獲得與文檔有關(guān)的一種或多種歷史數(shù)據(jù);以及等級(jí)部件,配置成至少部分基于一種或多種歷史數(shù)據(jù),來(lái)生成用于所述文檔的分值。
54.一種用于分級(jí)所鏈接的文檔的方法,包括獲得與所鏈接的文檔有關(guān)的連接數(shù)據(jù)的壽命;以及基于連接數(shù)據(jù)的壽命的衰減函數(shù),來(lái)分級(jí)鏈接的文檔。
55.如權(quán)利要求54所述的方法,其中,連接數(shù)據(jù)包括至少一個(gè)鏈接。
56.如權(quán)利要求54所述的方法,其中,連接數(shù)據(jù)包括錨文本。
57.如權(quán)利要求54所述的方法,其中,連接數(shù)據(jù)包括至少部分基于由一個(gè)或多個(gè)鏈接文檔提供的與所鏈接的文檔有關(guān)的鏈接和錨文本的等級(jí)。
58.如權(quán)利要求57所述的方法,進(jìn)一步包括確定連接數(shù)據(jù)的壽命;導(dǎo)出用于提供該連接數(shù)據(jù)的鏈接文檔的內(nèi)容更新的表示;以及基于連接數(shù)據(jù)的壽命和用于該鏈接文檔的內(nèi)容更新的表示,來(lái)調(diào)整所鏈接的文檔的等級(jí)。
59.如權(quán)利要求58所述的方法,其中,調(diào)整等級(jí)包括如果壽命表示該連接數(shù)據(jù)的短壽命,則降低所述等級(jí),以及如果壽命表示該連接數(shù)據(jù)的長(zhǎng)壽命,則提高所述等級(jí)。
60.如權(quán)利要求59所述的方法,其中,調(diào)整等級(jí)進(jìn)一步包括如果認(rèn)為來(lái)自鏈接文檔的至少部分內(nèi)容在一個(gè)時(shí)間周期上過(guò)期,則降低所述等級(jí),以及如果認(rèn)為來(lái)自鏈接文檔的部分內(nèi)容在所述時(shí)間周期上被更新,則提高所述等級(jí)。
61.如權(quán)利要求54所述的方法,進(jìn)一步包括確定用于提供連接數(shù)據(jù)的鏈接文檔的鏈接流入流出的表示;以及基于該鏈接流失,來(lái)調(diào)整所鏈接的文檔的等級(jí)。
62.如權(quán)利要求61所述的方法,其中,鏈接流入流出的表示被計(jì)算為由鏈接文檔提供的一個(gè)或多個(gè)鏈接隨時(shí)間改變的程度的函數(shù)。
63.如權(quán)利要求62所述的方法,其中,調(diào)整等級(jí)包括如果鏈接流入流出高于閾值,則降低所述等級(jí)。
全文摘要
系統(tǒng)(125)識(shí)別文檔并獲得與所述文檔有關(guān)的一種或多種歷史數(shù)據(jù)。系統(tǒng)(125)可以至少部分基于一種或多種歷史數(shù)據(jù),來(lái)生成用于所述文檔的分值。
文檔編號(hào)G06F17/30GK1879107SQ200480033254
公開(kāi)日2006年12月13日 申請(qǐng)日期2004年9月15日 優(yōu)先權(quán)日2003年9月30日
發(fā)明者阿努拉格·阿查雅, 馬特·卡特斯, 杰弗里·迪安, 保羅·哈阿, 莫尼卡·亨辛格, 厄斯·霍爾澤勒, 史蒂夫·勞倫斯, 卡爾·菲勒格, 奧爾坎·瑟斯諾格魯, 西蒙·佟 申請(qǐng)人:Google公司