亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

Web爬行的差異檢測的制作方法

文檔序號:6427001閱讀:202來源:國知局
專利名稱:Web爬行的差異檢測的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及web搜索,尤其涉及web爬行的差異檢測。
背景技術(shù)
許多因特網(wǎng)用戶使用搜索查詢來發(fā)現(xiàn)因特網(wǎng)文檔并與之交互。例如,用戶可以通過向搜索引擎提交查詢來搜索網(wǎng)站、圖像、視頻和其他因特網(wǎng)文檔。搜索引擎可以爬行web 來獲取數(shù)以百萬計的可被用作搜索結(jié)果的文檔(例如,web爬行器可以從網(wǎng)站獲取圖像、文章和/或其他文檔)。于是由搜索引擎提供的搜索結(jié)果的質(zhì)量可以基于搜索引擎取得的已獲取文檔的合乎需要性。不幸的是,可能從文檔提供者獲取不合需要的文檔。在一個示例中,由于網(wǎng)站可能感到web爬行器可能是粗魯?shù)模虼司W(wǎng)站可以通過悄悄地將web爬行器重定向至垃圾頁面來執(zhí)行軟屏蔽。在另一示例中,網(wǎng)站可能被關(guān)閉來維護或是在非預(yù)期停機時間,web爬行器從而可能被定向至維護頁面。垃圾頁面和/或維護頁面可能是提供作搜索引擎結(jié)果的不合需要的文檔。

發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容以便以簡化形式介紹將在以下的具體實施方式
中進一步描述的一些概念。本發(fā)明內(nèi)容并不旨在標(biāo)識出所要求保護的主題的關(guān)鍵因素或必要特征,也不旨在用于限定所要求保護的主題的范圍。特別地,此處公開了用于將文檔提供者分組至包括簡檔的提供者群集中的一種或多種系統(tǒng)和/或技術(shù)??梢岳斫獾氖?,文檔可被解釋為電子內(nèi)容(例如,文本文檔、網(wǎng)頁內(nèi)的文章、數(shù)據(jù)庫內(nèi)的圖像、網(wǎng)頁、音樂文件、文本、web服務(wù)數(shù)據(jù)、應(yīng)用程序和/或各種各樣的可通過因特網(wǎng)訪問的內(nèi)容)。文檔提供者可以被解釋為提供文檔的實體(例如,網(wǎng)站、web 服務(wù)、數(shù)據(jù)庫、web應(yīng)用程序、web主機和/或各種提供電子內(nèi)容以供消費的其他實體)。搜索引擎可以通過發(fā)出文檔獲取操作以利用web爬行計數(shù)來從文檔提供者獲取文檔。例如,文檔獲取操作可以從新聞網(wǎng)站獲取新聞文章。在文檔獲取操作期間,可確定文檔獲取參數(shù)(例如,文檔大小參數(shù)、http狀態(tài)碼參數(shù)、mime類型參數(shù)、重定向參數(shù)和/或多種其他參數(shù))。例如,可以分析與對一文檔提供者的文檔獲取操作相關(guān)聯(lián)的http首部以確定與該文檔獲取操作相關(guān)聯(lián)的一個或多個文檔獲取參數(shù)??梢岳斫獾氖?,文檔提供者的文檔獲取數(shù)據(jù)可以被解釋為對應(yīng)于一個或多個先前執(zhí)行的與該文檔提供者相關(guān)聯(lián)的文檔獲取操作的文檔獲取參數(shù)的集合。可以接收一個或多個文檔提供者的文檔獲取數(shù)據(jù)。例如,可以接收包括與一個或多個對汽車網(wǎng)站的文檔獲取操作(例如,汽車文章獲取(1)、汽車圖像獲取(1)、汽車圖像獲取(2)等等)相關(guān)聯(lián)的文檔獲取參數(shù)的該汽車網(wǎng)站(文檔提供者)的文檔獲取數(shù)據(jù)。文檔提供者可基于文檔獲取數(shù)據(jù)被分組至提供者群集中。在一個示例中,具有一文檔獲取頻率 (例如,web爬行器一小時獲取30次文檔)的文檔提供者可以被置于具有對應(yīng)文檔獲取頻率類別(例如,獲取頻率在一小時20次和30次之間)的提供者群集中。以此方式,具有類似文檔獲取參數(shù)(例如,文檔獲取頻率)的文檔提供者可以一起被分組在提供者群集中??梢岳斫獾氖牵m然文檔提供者可能并不是字面意義上地被分組至多個提供者群集中,但是對文檔提供者的引用可以被分組至提供者群集中。例如,對汽車網(wǎng)站、新聞網(wǎng)站和游戲評論網(wǎng)站的引用可以被分組至一提供者群集中,而不是將實際網(wǎng)站分組至提供者群集中??梢曰谙鄳?yīng)的提供者群集中的文檔提供者的文檔獲取參數(shù)為相應(yīng)的提供者群集指定簡檔。簡檔可以包括對應(yīng)于文檔大小、http狀態(tài)碼的頻率、mine類型、重定向率等的參數(shù)。可以基于提供者群集中的文檔提供者的文檔獲取參數(shù)來指定提供者群集的簡檔的參數(shù)。例如,基于提供者群集中的文檔提供者的文檔獲取參數(shù),包括可接受的文檔大小值的范圍的文檔大小參數(shù)可以被指定給提供者群集的簡檔,其中文檔獲取參數(shù)對應(yīng)于從文檔提供者所獲取的文檔的文檔大小。以此方式,提供者群集可以包括指定“預(yù)期”參數(shù)值的簡檔,該 “預(yù)期”參數(shù)值在對提供者群集中的文檔提供者執(zhí)行文檔獲取操作時返回??梢岳斫獾氖?, 對文檔提供者的后續(xù)文檔獲取操作的、在與包括該文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)以外的文檔獲取參數(shù)可以是文檔提供者正在返回可能是不合需要的“超標(biāo)(out of norm),,的文檔的指示符。此外,簡檔可以被用于基于所獲取文檔的文檔獲取參數(shù)與簡檔的參數(shù)之間的差異來確定文檔提供者正在返回具有“預(yù)期”文檔獲取參數(shù)的文檔,或者相反,文檔提供者正在返回“超標(biāo)”文檔。具體地,可以對一文檔提供者執(zhí)行當(dāng)前文檔獲取操作。當(dāng)前文檔獲取操作可以是與當(dāng)前文檔獲取數(shù)據(jù)相關(guān)聯(lián)的,所述當(dāng)前文檔獲取數(shù)據(jù)包括當(dāng)前文檔獲取參數(shù) (例如,文檔大小、mime類型、重定向等等)??梢詫?dāng)前文檔獲取操作的當(dāng)前文檔獲取參數(shù)與同包括文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)相比較??梢岳斫獾氖牵啓n的參數(shù)可以指示當(dāng)合乎需要的文檔被返回時文檔提供者可返回的“預(yù)期”參數(shù)。如果該比較指示了當(dāng)前文檔獲取參數(shù)和簡檔的參數(shù)之間的差異,則可以生成警告。以此方式,該警告可以指示文檔提供者可能正在返回web爬行器可能不想獲取的不合需要的文檔,并由此可執(zhí)行進一步的調(diào)查以禁止獲取不合需要的文檔作為可能的搜索結(jié)果。為實現(xiàn)上述內(nèi)容和相關(guān)目的,以下描述和附圖闡述了各個說明性方面和實現(xiàn)。這些方面和實現(xiàn)僅指示可以使用一個或多個方面的各種方式中的一些。結(jié)合附圖閱讀以下詳細(xì)描述,則本發(fā)明的其他方面、優(yōu)點、以及新穎特征將變得顯而易見。


圖1是示出了將文檔提供者分組至包括簡檔的提供者群集中的一種示例性方法的流程圖。圖2是示出了將當(dāng)前文檔獲取參數(shù)與簡檔的參數(shù)進行比較的一種示例性方法的流程圖。圖3是示出了將文檔提供者分組至包括簡檔的提供者群集中的示例性系統(tǒng)的組件框圖。圖4是一個或多個文檔提供者的文檔獲取數(shù)據(jù)的示例的圖示。圖5是具有簡檔的提供者群集的示例的圖示。圖6是將當(dāng)前文檔獲取參數(shù)與簡檔的參數(shù)進行比較的比較組件的示例的圖示。圖7是比較組件基于當(dāng)前文檔獲取參數(shù)與簡檔的參數(shù)的比較來生成警告的示例的圖示。圖8是示例性計算機可讀介質(zhì)的圖示,其中可包括被配置成實現(xiàn)此處所闡述的原理中的一個或多個的處理器可執(zhí)行指令。圖9示出了其中可以實現(xiàn)此處所闡述的實施方式中的一種或多種的示例性計算環(huán)境。
具體實施例方式現(xiàn)在參考附圖來描述所要求保護的主題,所有附圖中使用相同的附圖標(biāo)記來指代相同的元素。在以下描述中,為解釋起見,闡明了眾多具體細(xì)節(jié)以提供對所要求保護的主題的全面理解。然而,很明顯,所要求保護的主題可以在沒有這些具體細(xì)節(jié)的情況下實施。在其它情況下,以框圖形式示出了各種結(jié)構(gòu)和設(shè)備以便于描述所要求保護的主題。許多搜索引擎利用web爬行技術(shù)來發(fā)現(xiàn)可能被提供為搜索結(jié)果的文檔(例如,圖像、網(wǎng)頁、文章、博客、視頻、音樂和/或其他電子內(nèi)容)。所需文檔可以被解釋為由web爬行器所獲取的“預(yù)期”和/或提供給用戶為搜索結(jié)果將是有用的文檔。非需要文檔可以被解釋為由web爬行器所獲取的包括兜售信息、垃圾網(wǎng)頁、維護頁面和/或提供給用戶為搜索結(jié)果可能是沒有用的和/或令人為難的其他內(nèi)容的文檔。由此,標(biāo)識不合需要的文檔以使這樣的文檔從搜索結(jié)果中被排除可能是有利的。此外,已標(biāo)識的不合需要的文檔可以被用作擴充訓(xùn)練集以訓(xùn)練垃圾頁面分類器來將類似的文檔檢測為垃圾頁面。因此,特別地,此處提供了用于將文檔提供者分組至包括簡檔的提供者群集中的一種或多種系統(tǒng)和/或技術(shù)。具體地,具有類似文檔獲取參數(shù)(例如,具有類似文檔大小的文檔,具有以類似頻率所獲取的文檔的網(wǎng)頁,返回類似的重定向率的網(wǎng)頁,等等)的文檔提供者(例如,網(wǎng)頁提供者)可以被分組至提供者群集中??梢詾樘峁┱呷杭付ò▍?shù)的簡檔,以使簡檔的參數(shù)可以反映當(dāng)普通的/合乎需要的文檔被獲取時文檔提供者可能 “預(yù)期”返回的文檔獲取參數(shù)。即,簡檔的參數(shù)可以反映當(dāng)文檔提供者返回所需文檔(例如, 所查找的文章,而非通用錯誤)時,從對文檔提供者的文檔獲取操作返回的“預(yù)期”文檔獲取參數(shù)??梢詫?dāng)前文檔獲取操作與簡檔進行比較以確定文檔提供者所返回的文檔是否是 “普通的”和/或“預(yù)期”。例如,可以將對文檔提供者的當(dāng)前文檔獲取操作的當(dāng)前文檔獲取參數(shù)和與包括該文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)相比較。如果當(dāng)前文檔獲取參數(shù)和簡檔的“預(yù)期”參數(shù)之間具有差異,則可以生成一警告。將文檔提供者分組至包括簡檔的提供者群集中的一個實施例由圖1中的示例性方法100示出。在102處,該方法開始。在104處,可接收一個或多個文檔提供者的文檔獲取數(shù)據(jù)(例如,圖4中的一個或多個文檔提供者402的文檔獲取數(shù)據(jù))。文檔提供者的文檔獲取數(shù)據(jù)可包括對應(yīng)于與文檔提供者相關(guān)聯(lián)的文檔獲取操作的一個或多個文檔獲取參數(shù)。 例如,文檔提供者的文檔獲取數(shù)據(jù)可以包括先前文檔獲取操作(例如,從新聞網(wǎng)頁取得文檔、從新聞網(wǎng)頁獲取文章、從新聞網(wǎng)頁獲取圖像,等等)及其相應(yīng)的文檔獲取參數(shù)(例如,獲取文檔操作被重定向、獲取文章操作返回具有1001Λ文檔大小的文檔,獲取圖像返回http 狀態(tài)碼302和30 的歷史數(shù)據(jù)。在一個示例中,文檔提供者的文檔獲取參數(shù)可以使用與對該文檔提供者的文檔獲取操作相關(guān)聯(lián)的http首部來確定。在106處,可基于文檔獲取數(shù)據(jù)將文檔提供者分組至提供者群集中。在一個示例中,具有一小時獲取10到20次的文檔獲取頻率(例如,以該頻率從響應(yīng)的文檔提供者獲取內(nèi)容)的文檔提供者可以被分組至具有對應(yīng)的文檔獲取頻率類別的第一提供者群集;具有一小時獲取21次之50次的文檔獲取頻率的文檔提供者可以被分組至具有對應(yīng)的文檔獲取頻率類別的第二提供者群集;等等??梢岳斫獾氖?,可以基于文檔獲取數(shù)據(jù)中所指定的各種準(zhǔn)則(例如,文檔獲取頻率、文檔大小、http狀態(tài)碼頻率和/或各種與文檔提供者相關(guān)的其他參數(shù)或信息(例如,文檔提供者的流行度、一般從文檔提供者所獲取的文檔類型,等等)) 將文檔提供者分組至提供者群集中。在108處,可以基于提供者群集中的文檔提供者的文檔獲取參數(shù)為該提供者群集指定簡檔。例如,簡檔可以包括一個或多個對應(yīng)于文檔大小參數(shù)的參數(shù)(例如,從文檔提供者所獲取的文檔的平均大小)、http狀態(tài)碼頻率參數(shù)(例如,響應(yīng)于文檔獲取操作文檔提供者多久返回一次特定的http狀態(tài)碼)、mime類型參數(shù)(例如,一般由文檔提供者返回的 mime類型參數(shù))、重定向率參數(shù)(例如,文檔提供者響應(yīng)于文檔獲取操作返回重定向頁面的比率),和/或指示提供者群集中的文檔提供者可展示的“預(yù)期”參數(shù)的各種其他參數(shù)。在一個示例中,基于提供者群集中具有可接受的值的范圍內(nèi)的文檔獲取參數(shù)的文檔提供者的百分比,提供者群集的簡檔的參數(shù)可以具有對應(yīng)的可接受的值的范圍。包括文檔提供者的群集的簡檔可以被用于評估由文檔提供者所返回的文檔以確定該文檔是否是合乎需要的(例如,不是垃圾頁面或維護頁面)。在一個示例中,可以對一文檔提供者執(zhí)行當(dāng)前文檔獲取操作以獲取文檔。當(dāng)前文檔獲取操作可以和包括當(dāng)前文檔獲取參數(shù)的當(dāng)前文檔獲取數(shù)據(jù)相關(guān)聯(lián)??梢詫?dāng)前文檔獲取操作的當(dāng)前文檔獲取參數(shù)(例如,文檔大小、mime類型等等)和與包括文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)進行比較。在一個示例中,該比較可以在包括當(dāng)前文檔獲取操作的web爬行會話期間實時執(zhí)行。在另一示例中,該比較可以離線執(zhí)行。如果該比較指示當(dāng)前文檔獲取參數(shù)與簡檔的一個或多個參數(shù)之間的差異,則就生成警告(例如,當(dāng)前文檔獲取參數(shù)可以指定由簡檔的文檔大小參數(shù)所指定的可接受的值范圍以外的文檔大小)。在另一示例中,該比較可以在多個當(dāng)前文檔獲取操作被執(zhí)行以后來執(zhí)行。具體地, 可以執(zhí)行對文檔提供者的多個當(dāng)前文檔獲取操作以生成計算出的當(dāng)前文檔獲取參數(shù)(例如,當(dāng)前文檔獲取參數(shù)的計算出的平均值和/或當(dāng)前文檔獲取參數(shù)的計算出的標(biāo)準(zhǔn)差)??梢詫⑴c文檔提供者相關(guān)聯(lián)的計算出的當(dāng)前文檔獲取參數(shù)和與包括該文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)相比較。如果該比較指示了計算出的當(dāng)前文檔獲取參數(shù)和簡檔的一個或多個參數(shù)之間的差異,則可以生成警告。為了調(diào)整與從文檔提供者所獲取的文檔相關(guān)的改變(例如,獲取頻率下降、平均文檔大小增大,等等),可以將文檔提供者分組至新的提供者群集。例如,具有上升到預(yù)定閾值以上的警告頻率的文檔提供者可以被分組至具有與文檔提供者的當(dāng)前獲取數(shù)據(jù)類似的簡檔的不同的提供者群集中。此外,例如,可以基于提供者群集中具有上升到預(yù)定閾值以上的警告頻率的一個或多個文檔提供者來對提供者群集的簡檔進行更新。在一個示例中,平均值和/或標(biāo)準(zhǔn)差可被用于重新群集(和/或群集)。例如,可以為部分或全部提供者的部分或全部參數(shù)來計算平均值和/或標(biāo)準(zhǔn)差。例如,具有落入一群集或另一群集的平均值的 2個標(biāo)準(zhǔn)差內(nèi)的一個或多個參數(shù)的平均值的提供者可以被分組在一起。在一個示例中,警告可以指示文檔提供者響應(yīng)于當(dāng)前文檔獲取操作正在向web爬行器返回垃圾網(wǎng)頁(不合需要的文檔),因為文檔提供者的帶寬正在被web爬行器過度消耗。以此方式,如果文檔提供者的警告頻率上升至預(yù)定閾值以上,則可以對執(zhí)行對該文檔提供者的當(dāng)前文檔獲取操作的頻率進行扼流(例如,可以較不頻繁地執(zhí)行當(dāng)前文檔獲取操作)。在110處,該方法結(jié)束。將當(dāng)前文檔獲取參數(shù)與簡檔的參數(shù)進行比較的一個實施例由圖2中的示例性方法200示出。在202處,該方法開始。在204處,可以對一文檔提供者執(zhí)行當(dāng)前文檔獲取操作以獲取文檔。當(dāng)前文檔獲取操作可以和包括當(dāng)前文檔獲取參數(shù)的當(dāng)前文檔獲取數(shù)據(jù)相關(guān)聯(lián)。在206處,可以將當(dāng)前文檔獲取操作的當(dāng)前文檔獲取參數(shù)和與包括該文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)進行比較。在208處,如果該比較指示了當(dāng)前文檔獲取參數(shù)和簡檔的一個或多個參數(shù)之間的差異,則可以生成警告。例如,可以在電子郵件內(nèi)將警告發(fā)送至一個體,該個體可以手動檢查文檔提供者以確定垃圾頁面和/或維護頁面是否被返回為文檔,垃圾頁面和/或維護頁面用作搜索結(jié)果是不合需要的。在210處,該方法結(jié)束。圖3示出了被配置成將文檔提供者分組至包括簡檔的提供者群集308中的系統(tǒng) 300的示例。系統(tǒng)300可以包括提供者群集組件304、簡檔指定組件306、比較組件322和/ 或扼流組件332。提供者群集組件304可被配置為取得一個或多個文檔提供則會的文檔獲取數(shù)據(jù)302(例如,文檔提供者(1)的文檔獲取數(shù)據(jù),文檔提供者( 的文檔獲取數(shù)據(jù))。文檔提供者的文檔獲取數(shù)據(jù)可包括對應(yīng)于與文檔提供者相關(guān)聯(lián)的文檔獲取操作的一個或多個文檔獲取參數(shù)。例如,文檔提供者(1)的文檔獲取數(shù)據(jù)(例如,歷史數(shù)據(jù))可以包括與對文檔提供者(1)的針對比如文章、圖像和/或其他內(nèi)容之類的文檔的50個先前的文檔獲取操作相關(guān)的信息。相應(yīng)的文檔獲取操作可以包括文檔獲取參數(shù),例如由文檔提供者返回了多大的文檔、文檔提供者是否重定向了 web爬行器,等等。以此方式,文檔獲取數(shù)據(jù)可以被用于確定具有類似屬性的文檔提供者組(例如,歷史上返回具有從Imb至3mb的大小范圍的文檔的文檔提供者組)。 提供者群集組件304可被配置來基于文檔獲取數(shù)據(jù)302將文檔提供者分組至提供者群集308中。例如,文檔提供者O)、文檔提供者(4)和文檔提供者(1)可以被分組至提供者群集(1),因為相應(yīng)的文檔提供者具有至少一些相似的文檔獲取數(shù)據(jù)(例如,文檔提供者的文檔獲取頻率在一小時20次至30次獲取之間,而且提供者群集(1)310具有20至30 的文檔獲取頻率類別)。文檔提供者(7)、文檔提供者( 和文檔提供者(9)可以被分組至提供者群集(N),因為相應(yīng)的文檔提供者具有至少一些相似的文檔獲取數(shù)據(jù)(例如,文檔提供者的文檔獲取頻率在一小時31次至50次獲取之間,而且提供者群集(N)具有31至50 的文檔獲取頻率類別)。 簡檔指定組件306可以被配置來基于提供者群集308中的文檔提供者的文檔獲取參數(shù)為提供者群集指定簡檔。例如,簡檔指定組件306可以指定簡檔312,簡檔312具有從文檔提供者(2)、文檔提供者(4)和文檔提供者(1)的文檔獲取參數(shù)導(dǎo)出的參數(shù)。簡檔指定組件306可以指定簡檔318,簡檔318具有從文檔提供者(7)、文檔提供者( 和文檔提供者(9)的文檔獲取參數(shù)導(dǎo)出的參數(shù)。以此方式,提供者群集的簡檔可以指示當(dāng)對文檔提供者執(zhí)行文檔獲取操作時相應(yīng)的文檔提供者歷史上所展示的“預(yù)期”文檔獲取參數(shù)。可以理解的是,簡檔可以包括對應(yīng)于文檔大小參數(shù)、http狀態(tài)碼頻率參數(shù)、mime類型參數(shù)、重定向率和/或與文檔提供者相關(guān)的各種其他參數(shù)。
比較組件322可以被配置為對文檔提供者(例如,文檔提供者(7))執(zhí)行當(dāng)前文檔獲取操作324以獲取文檔(例如,比較組件322可以調(diào)用web爬行器來從網(wǎng)頁獲取文章)。 當(dāng)前文檔獲取操作3M可以和包括當(dāng)前文檔獲取參數(shù)的當(dāng)前文檔獲取數(shù)據(jù)相關(guān)聯(lián),在一個示例中當(dāng)前文檔獲取參數(shù)可以包括在獲取數(shù)據(jù)302內(nèi)。比較組件322可以被配置為將當(dāng)前文檔獲取操作324的當(dāng)前文檔獲取參數(shù)和與包括該文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)進行比較(比較328)。例如,當(dāng)前文檔獲取參數(shù)可以和包括文檔提供者(7)的提供者群集(N)316的簡檔318的參數(shù)來比較。如果該比較指示了當(dāng)前文檔獲取參數(shù)和簡檔 318的一個或多個參數(shù)之間的差異,則可以生成警告(警告330)。在一個示例中,該比較可以在包括當(dāng)前文檔獲取操作324的web爬行會話期間實時執(zhí)行。在另一示例中,該比較可以離線執(zhí)行。比較組件322可以被配置為在比較進行之前執(zhí)行多個當(dāng)前文檔獲取操作。具體地,比較組件322可以被配置為對文檔提供者(例如,文檔提供者(7)326)執(zhí)行多個當(dāng)前文檔獲取操作以生成計算出的當(dāng)前文檔獲取參數(shù)(例如,文檔獲取參數(shù)的平均值和/或標(biāo)準(zhǔn)差)。比較組件322可以將與文檔提供者(7)3 相關(guān)聯(lián)的計算出的當(dāng)前文檔獲取參數(shù)和與包括文檔提供者(7)的提供者群集(N)316相關(guān)聯(lián)的簡檔318的參數(shù)進行比較。如果該比較指示了當(dāng)前文檔獲取參數(shù)和簡檔318的一個或多個參數(shù)之間的差異,則可以生成警告 (警告330)。簡檔指定組件306可以被配置為基于文檔提供者的警告頻率上升至預(yù)定閾值以上來將文檔提供者重新分組至新的提供者群集中。例如,可能會出現(xiàn)關(guān)于文檔提供者(4) 的大量的警告,因為文檔提供者(4) 一致地返回具有大于簡檔312內(nèi)的可接受的文檔大小值(例如,文檔大小參數(shù)在Imb和2mb之間)的文檔大小(例如,當(dāng)前文檔獲取參數(shù)具有 4mb的大小)的文檔。以此方式,簡檔指定組件306可以將文檔提供者(4)重新分組至具有文檔大小參數(shù)更接近4mb的簡檔的提供者群集中。簡檔指定組件306可以被配置為基于提供者群集中具有上升到預(yù)定閾值以上的警告頻率的一個或多個文檔提供者來對提供者群集的簡檔進行更新。例如,提供者群集 (1)310中的文檔提供者( 和文檔提供者(1)可以具有關(guān)于對相應(yīng)的文檔提供者的當(dāng)前文檔獲取操作而出現(xiàn)的大量的警告。簡檔指定組件306可以通過調(diào)節(jié)一個或多個參數(shù)來反映相應(yīng)的文檔提供者的當(dāng)前文檔獲取參數(shù)。扼流組件332可以被配置為基于文檔提供者的警告頻率上升到預(yù)定閾值以上來對執(zhí)行對文檔提供者的當(dāng)前文檔獲取操作的頻率進行扼流。例如,大量的警告可能關(guān)于文檔提供者( 而出現(xiàn)。該警告可以是文檔提供者(5)正在返回垃圾頁面的指示,因為文檔提供者(5)已確定比較組件332執(zhí)行當(dāng)前文檔獲取操作太頻繁。由此,扼流組件332可以減小對文檔提供者( 執(zhí)行的當(dāng)前文檔獲取操作的頻率。圖4示出了一個或多個文檔提供者401的文檔獲取數(shù)據(jù)的示例400。文檔獲取數(shù)據(jù)可以和對文檔提供者的普通或預(yù)期文檔獲取操作期間生成的文檔獲取參數(shù)相關(guān)。具體地, 文檔獲取數(shù)據(jù)可以包括公知的或表現(xiàn)良好的文檔提供者(例如,在文檔獲取操作期間一致地返回所需要的文檔而非返回垃圾頁面的文檔提供者)的文檔獲取參數(shù)。在一個示例中,一個或多個文檔提供者402的文檔獲取數(shù)據(jù)可以包括文檔提供者 (1)404(新聞網(wǎng)站)的文檔獲取數(shù)據(jù)、文檔提供者(幻422(汽車試駕評論網(wǎng)站)的文檔獲取數(shù)據(jù)和/或其他文檔提供者(幾百到幾千或更多的文檔提供者)的文檔獲取數(shù)據(jù)。文檔提供者(1)404的文檔獲取數(shù)據(jù)可以包括與文檔獲取操作相關(guān)聯(lián)的文檔獲取參數(shù)(例如,與幾百至幾千個先前的文檔獲取操作相關(guān)聯(lián)的參數(shù))。例如,先前的文檔獲取操作(1)406已被執(zhí)行以從文檔提供者(1)(新聞網(wǎng)站)獲取當(dāng)前的體育比分。一個或多個文檔獲取參數(shù)已經(jīng)與先前的文檔獲取操作(1)406相關(guān)聯(lián)。例如,包括文檔大小為1501Λ的文檔獲取參數(shù) (1)408、包括http狀態(tài)碼為302的文檔獲取參數(shù)(幻410、包括重定向為是(yes)的文檔獲取參數(shù)(3)412和/或其他文檔獲取參數(shù)可以和先前的文檔獲取操作(1)406相關(guān)聯(lián)。可以理解的是,文檔獲取操作的整數(shù)值(N)可以和文檔提供者(1)404(新聞網(wǎng)站) 的文檔獲取數(shù)據(jù)相關(guān)聯(lián)。例如,先前的文檔獲取操作(N)414已被執(zhí)行以從文檔提供者(1) (新聞網(wǎng)站)獲取名人緋聞圖像。一個或多個文檔獲取參數(shù)已經(jīng)與先前的文檔獲取操作 (N)414相關(guān)聯(lián)。例如,包括文檔大小為3001Λ的文檔獲取參數(shù)(1)416、包括http狀態(tài)碼為無的文檔獲取參數(shù)(幻418、包括重定向為否(no)的文檔獲取參數(shù)(3)420和/或其他文檔獲取參數(shù)可以和先前的文檔獲取操作(N)414相關(guān)聯(lián)。一個或多個文檔提供者402的文檔獲取數(shù)據(jù)可以包括其他文檔提供者的文檔獲取數(shù)據(jù),例如文檔提供者(幻422(汽車試駕評論網(wǎng)站)的文檔獲取數(shù)據(jù)。文檔提供者0)422 的文檔獲取數(shù)據(jù)可以包括與一個或多個文檔獲取操作相關(guān)聯(lián)的文檔獲取參數(shù)。例如,先前的文檔獲取操作(1)4 已被執(zhí)行以從文檔提供者O)(汽車試駕評論網(wǎng)站)獲取當(dāng)前的汽車試駕文章。先前的文檔獲取操作(1)4 可以包括一個或多個文檔獲取參數(shù)??梢岳斫獾氖牵哂幸粋€或多個文檔獲取參數(shù)的文檔獲取操作的整數(shù)值(N)可以和文檔提供者0)422 的文檔獲取數(shù)據(jù)相關(guān)聯(lián)。圖5示出了具有簡檔5 的提供者群集的示例500。可以理解的是,文檔提供者可以基于文檔獲取數(shù)據(jù)(例如,圖4中的一個或多個文檔提供者402的文檔獲取數(shù)據(jù))被分組至提供者群集中??梢曰谔峁┱呷杭械奈臋n提供者的文檔獲取參數(shù)將簡檔分配給相應(yīng)的提供者群集。簡檔可以包括用作參考點的參數(shù),將該參考點與當(dāng)前文檔獲取操作的當(dāng)前文檔獲取參數(shù)相比較以確定文檔提供者是否正在返回所需要的文檔。提供者群集(1)502可以包括分組在提供者群集(1)502中的一個或多個文檔提供者。在一個示例中,文檔提供者( 506(汽車試駕評論網(wǎng)站)、文檔提供者(4)516(游戲評論網(wǎng)站)、文檔提供者(1)522(新聞網(wǎng)站)和/或其他文檔提供者可以被分組至提供者群集 (1)502中。例如,文檔提供者(2) 506、文檔提供者(4)、文檔提供者(1)和/或其他文檔提供者已經(jīng)被分組至提供者群集(1)502中,因為相應(yīng)的文檔提供者具有在每小時30次之60 次獲取之間的文檔獲取頻率,其對應(yīng)于每小時30次之60次獲取的文檔獲取頻率類別504?;谔峁┱呷杭?1)502中的文檔提供者的文檔獲取數(shù)據(jù),簡檔5 可以被指定給提供者群集(1)502。例如,文檔提供者0)506的文檔獲取數(shù)據(jù)508可以包括文檔獲取參數(shù) (例如,平均文檔大小參數(shù)510、http狀態(tài)碼頻率參數(shù)512、mime類型參數(shù)514,等等)。文檔提供者(4)的文檔獲取數(shù)據(jù)518可以包括文檔獲取參數(shù)(例如,文檔大小參數(shù)520等)。文檔提供者(1)的文檔獲取數(shù)據(jù)5M可以包括文檔獲取參數(shù)(例如,文檔大小參數(shù)5 等)。 示例500中所示出的文檔獲取參數(shù)可以是一個或多個文檔獲取操作的文檔獲取參數(shù)的“組合概要”(例如,平均大小值、http狀態(tài)碼的出現(xiàn)頻率、重定向率,等等)。簡檔5 可以包括從提供者群集(1)502中的文檔提供者的文檔獲取參數(shù)導(dǎo)出的參數(shù)。例如,可以從文檔提供者0)506的文檔大小參數(shù)510、文檔提供者0)516的文檔大小參數(shù)520、文檔提供者522的文檔大小參數(shù)5 和/或提供者群集(1)中的其他文檔提供者的其他文檔大小提供者來導(dǎo)出951Λ至3001Λ的文檔大小參數(shù)530。簡檔518可以包括其他參數(shù),例如http狀態(tài)碼頻率參數(shù)。以此方式,簡檔5 可以包括這樣的參數(shù),將該參數(shù)與對提供者群集(1)502中的文檔提供者的后續(xù)文檔獲取操作的參數(shù)進行比較以在出現(xiàn)差異時生成警告,使得非需要的文檔不會被web爬行器保留和/或提供為搜索結(jié)果。圖6示出了將當(dāng)前文檔獲取參數(shù)與簡檔618的參數(shù)進行比較的比較組件602的示例600。具體地,比較組件602可以執(zhí)行當(dāng)前文檔獲取操作604來從咖啡訂購網(wǎng)站606獲取關(guān)于咖啡定價的文檔(例如,比較組件602可以調(diào)用web爬行器來取得該文檔)。響應(yīng)于當(dāng)前文檔獲取操作604,咖啡訂購網(wǎng)站606可以返回數(shù)據(jù)(例如,所需要的文檔、出錯消息、 非需要的文檔——垃圾頁面、無響應(yīng),等等)。包括當(dāng)前文檔獲取參數(shù)的當(dāng)前文檔獲取數(shù)據(jù) 608可以從已返回的數(shù)據(jù)和/或當(dāng)前文檔獲取操作604來確定(例如,當(dāng)前文檔獲取參數(shù)可以從http首部數(shù)據(jù)來提取)。例如,當(dāng)前文檔獲取數(shù)據(jù)608可以包括具有2001Λ文檔大小參數(shù)的當(dāng)前文檔獲取參數(shù)624。可以理解的是,提供者群集(5)610可以包括一個或多個文檔提供者(例如,咖啡訂購網(wǎng)站612、服裝網(wǎng)站614、汽車制造商網(wǎng)站616,等等),以及包括從提供者群集(5)610 中的文檔提供者的文檔獲取參數(shù)導(dǎo)出的參數(shù)的簡檔618。比較組件602可以將與當(dāng)前文檔獲取操作604相關(guān)聯(lián)的當(dāng)前文檔獲取參數(shù)(例如,當(dāng)前文檔獲取參數(shù)624)與同包括咖啡訂購網(wǎng)站612的提供者集群(5) 610相關(guān)聯(lián)的簡檔618的參數(shù)(例如,文檔大小參數(shù)620、http 狀態(tài)碼頻率參數(shù)622,等等)進行比較。例如,可以將具有2001Λ文檔大小參數(shù)的當(dāng)前文檔獲取參數(shù)擬4和簡檔618中的文檔大小參數(shù)620進行比較。比較組件602可以確定在當(dāng)前文檔獲取參數(shù)6M和文檔大小參數(shù)520之間沒有差異,因為2001Λ落入951Λ到3001Λ的范圍內(nèi)。因而,關(guān)于文檔大小,由咖啡訂購網(wǎng)站606所返回的文檔可以在預(yù)期值的范圍以內(nèi)。 可以理解的是,可以將其他當(dāng)前文檔獲取參數(shù)與簡檔618的其他參數(shù)進行比較。圖7示出了比較組件702基于當(dāng)前文檔獲取參數(shù)7 與簡檔718的參數(shù)的比較來生成警告724的示例700。比較組件702可以執(zhí)行當(dāng)前文檔獲取操作704以從服裝網(wǎng)站 706獲取關(guān)于服裝圖像的文檔。服裝網(wǎng)站706可以返回數(shù)據(jù),例如文檔。包括當(dāng)前文檔獲取參數(shù)的當(dāng)前文檔獲取數(shù)據(jù)708可以從已返回的數(shù)據(jù)和/或當(dāng)前文檔獲取操作704來確定。 例如,可以在當(dāng)前文檔獲取數(shù)據(jù)708內(nèi)來確定具有151Λ文檔大小參數(shù)的當(dāng)前文檔獲取參數(shù) 726??梢岳斫獾氖牵峁┱呷杭?5)710可以包括一個或多個文檔提供者(例如,咖啡訂購網(wǎng)站、服裝網(wǎng)站714、汽車制造商網(wǎng)站,等等),以及包括從提供者群集(5)710中的文檔提供者的文檔獲取參數(shù)導(dǎo)出的參數(shù)的簡檔718。比較組件702可以將與當(dāng)前文檔獲取操作 704相關(guān)聯(lián)的當(dāng)前文檔獲取參數(shù)和與包括服裝網(wǎng)站714的提供者集群( 710相關(guān)聯(lián)的簡檔718的參數(shù)(例如,文檔大小參數(shù)720、http狀態(tài)碼頻率參數(shù)722,等等)進行比較。例如,可以將具有151Λ文檔大小參數(shù)的當(dāng)前文檔獲取參數(shù)7 和簡檔718中的文檔大小參數(shù) 720進行比較。警告7M可以基于相應(yīng)的參數(shù)之間的差異來生成,因為151Λ文檔大小并不在“預(yù)期的”951Λ至3001Λ文檔大小范圍以內(nèi)??梢曰诰? 采取進一步動作。在一個示例中,服裝網(wǎng)站706可以被手動評估以確定服裝網(wǎng)站706是否正在返回不合需要的文檔。在另一示例中,可以將關(guān)于服裝圖像的文檔從搜索引擎將來的搜索結(jié)果中排除,服裝網(wǎng)站可以被重新分組至不同的群集中和 /或更新群集的簡檔,等等。再一實施例涉及包括被配置成實現(xiàn)此處所呈現(xiàn)的技術(shù)中的一種或多種的處理器可執(zhí)行指令的計算機可讀介質(zhì)??梢杂眠@些方式設(shè)計的一種示例性計算機可讀介質(zhì)在圖8 中示出,其中實現(xiàn)800包括其上編碼有計算機可讀數(shù)據(jù)814的計算機可讀介質(zhì)816(例如, ⑶-R、DVD-R、或硬盤驅(qū)動器盤片)。該計算機可讀數(shù)據(jù)814進而包括被配置成根據(jù)此處闡述的原理中的一個或多個來操作的一組計算機指令812。在一個這樣的實施例800中,處理器可執(zhí)行計算機指令812可被配置成執(zhí)行方法810,諸如例如,圖1的示例性方法100和 /或圖2的示例性方法200。在另一個這樣的實施例中,處理器可執(zhí)行指令812可被配置成實現(xiàn)一種系統(tǒng),諸如例如,圖3的示例性系統(tǒng)300。本領(lǐng)域普通技術(shù)人員可以設(shè)計可被配置成根據(jù)此處描述的技術(shù)操作的許多這樣的計算機可讀介質(zhì)。盡管用結(jié)構(gòu)特征和/或方法動作專用的語言描述了本主題,但可以理解,所附權(quán)利要求書中定義的主題不必限于上述具體特征或動作。相反,上述具體特征和動作是作為實現(xiàn)權(quán)利要求的示例形式公開的。如在本申請中所使用的,術(shù)語“組件”、“模塊”、“系統(tǒng)”、“接口 ”等等一般旨在表示計算機相關(guān)的實體,其可以是硬件、硬件和軟件的組合、軟件、或運行中的軟件。例如,組件可以是,但不限于是,在處理器上運行的進程、處理器、對象、可執(zhí)行碼、執(zhí)行的線程、程序和 /或計算機。作為說明,運行在控制器上的應(yīng)用程序和控制器都可以是組件。一個或多個組件可以駐留在進程和/或執(zhí)行線程中,并且組件可以位于一個計算機內(nèi)和/或分布在兩個或更多的計算機之間。此外,所要求保護的主題可以使用產(chǎn)生控制計算機以實現(xiàn)所公開的主題的軟件、 固件、硬件或其任意組合的標(biāo)準(zhǔn)編程和/或工程技術(shù)而被實現(xiàn)為方法、裝置或制品。如這里所使用的術(shù)語“制品”可以包含可以從任何計算機可讀的設(shè)備、載體或介質(zhì)進行訪問的計算機程序。當(dāng)然,本領(lǐng)域的技術(shù)人員將會認(rèn)識到,在不背離所要求保護的主題的范圍或精神的前提下可以對這一配置進行許多修改。圖9以及下面的討論提供了用于實現(xiàn)這里所闡述的供應(yīng)中的一個或多個的實施方式的合適計算環(huán)境的簡要概括描述。圖9的操作環(huán)境只是合適的操作環(huán)境的一個示例, 并且不旨在對操作環(huán)境的使用范圍或功能提出任何限制。示例計算設(shè)備包括,但不限于,個人計算機、服務(wù)器計算機、手提式或膝上型設(shè)備、移動設(shè)備(諸如移動電話、個人數(shù)字助理 (PDA)、媒體播放器等等)、多處理器系統(tǒng)、消費電子產(chǎn)品、小型計算機、大型計算機、包括上面的系統(tǒng)或設(shè)備的中的任何一種的分布式計算環(huán)境等等。盡管并非必需,但各實施例在由一個或多個計算設(shè)備執(zhí)行的“計算機可讀指令”的一般上下文中描述。計算機可讀指令可以通過計算機可讀介質(zhì)來分發(fā)(下面將討論)。計算機可讀指令可被實現(xiàn)為執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的程序模塊,諸如函數(shù)、 對象、應(yīng)用程序編程接口(API)、數(shù)據(jù)結(jié)構(gòu)等等。通常,計算機可讀指令的功能可按需在各個環(huán)境中組合或分布。圖9示出了包括被配置成實現(xiàn)此處所提供的一個或多個實施例的計算設(shè)備910的系統(tǒng)912的示例。在一種配置中,計算設(shè)備912包括至少一個處理單元916和存儲器918。取決于計算設(shè)備的確切配置和類型,存儲器918可以是易失性的(如RAM)、非易失性的(如 ROM、閃存等)或是兩者的某種組合。該配置在圖9中由虛線914來例示。在其它實施例中,設(shè)備912可以包括附加特征和/或功能。例如,設(shè)備912還可以包括附加存儲(例如,可移動和/或不可移動),其中包括但不限于磁存儲、光存儲等等。這樣的附加存儲在圖9中由存儲920示出。在一個實施例中,用于實現(xiàn)此處所提供的一個或多個實施例的計算機可讀指令可以在存儲920中。存儲920還可以儲存實現(xiàn)操作系統(tǒng)、應(yīng)用程序等的其它計算機可讀指令??梢栽诖鎯ζ?18中加載計算機可讀指令以供例如處理單元916執(zhí)行。此處所使用的術(shù)語“計算機可讀介質(zhì)”包括計算機存儲介質(zhì)。計算機存儲介質(zhì)包括以用于存儲諸如計算機可讀指令或其他數(shù)據(jù)之類的信息的任何方法或技術(shù)實現(xiàn)的易失性和非易失性、可移動和不可移動介質(zhì)。存儲器918和存儲920都是計算機存儲介質(zhì)的示例。計算機存儲介質(zhì)包括,但不限于,RAM、R0M、EEPR0M、閃存或其他存儲技術(shù),CD-ROM、數(shù)字多功能盤(DVD)或其他光存儲、磁帶盒、磁帶、磁盤存儲或其他磁存儲設(shè)備,或可以用來存儲所需信息并可以被計算設(shè)備912訪問的任何其他介質(zhì)。任何這樣的計算機存儲介質(zhì)可以是設(shè)備912的一部分。設(shè)備912還可以包括允許設(shè)備912與其他設(shè)備進行通信的通信連接926。通信連接擬6可以包括,但不限于,調(diào)制解調(diào)器、網(wǎng)絡(luò)接口卡(NIC)、集成網(wǎng)絡(luò)接口、射頻發(fā)射機/接收機、紅外線端口、USB連接,或用于將計算設(shè)備912連接到其他計算設(shè)備的其他接口。通信連接擬6可以包括有線連接或無線連接。通信連接擬6可以發(fā)送和/或接收通信介質(zhì)。術(shù)語“計算機可讀介質(zhì)”可以包括通信介質(zhì)。通信介質(zhì)通常以諸如載波或其他傳輸機制等“已調(diào)制數(shù)據(jù)信號”來體現(xiàn)計算機可讀指令或其他數(shù)據(jù),并包括任何信息傳送介質(zhì)。 術(shù)語“已調(diào)制數(shù)據(jù)信號”可以包括以對信號中的信息進行編碼的方式設(shè)置或改變其一個或多個特征的信號。設(shè)備912可以包括輸入設(shè)備924,諸如鍵盤、鼠標(biāo)、筆、語音輸入設(shè)備、觸摸輸入設(shè)備、紅外照相機、視頻輸入設(shè)備、和/或任何其他輸入設(shè)備。設(shè)備922還可以包括輸出設(shè)備 912,諸如一個或多個顯示器、揚聲器、打印機、和/或任何其他輸出設(shè)備。輸入設(shè)備擬4和輸出設(shè)備922可以通過有線連接、無線連接、或其任何組合來連接到設(shè)備912。在一個實施方式中,可以使用來自另一計算設(shè)備的輸入設(shè)備或輸出設(shè)備作為計算設(shè)備924的輸入設(shè)備 922或輸出設(shè)備912。計算設(shè)備912的組件可通過多種互連來連接,例如總線。這樣的互連可以包括諸如PCIExpress之類的外圍部件互連(PCI)、通用串行總線(USB)、火線(IEEE1384)、光學(xué)總線結(jié)構(gòu)等等。在另一實施方式中,計算設(shè)備912的組件可以通過網(wǎng)絡(luò)互連。例如,存儲器 918可以包括位于通過網(wǎng)絡(luò)互連的不同物理位置的多個物理存儲器單元。本領(lǐng)域的技術(shù)人員將認(rèn)識到,用來存儲計算機可讀指令的存儲設(shè)備可以分布在網(wǎng)絡(luò)上。例如,可以通過網(wǎng)絡(luò)930訪問的計算設(shè)備擬8可以儲存實現(xiàn)此處所提供的一個或多個實施例的計算機可讀指令。計算設(shè)備912可以訪問計算設(shè)備930,并下載計算機可讀指令的一部分或全部以便執(zhí)行?;蛘撸嬎阍O(shè)備912可以根據(jù)需要下載計算機可讀指令的一部分,或者一些指令可以在計算設(shè)備912上執(zhí)行而一些指令則在計算設(shè)備930上執(zhí)行。這里提供了實施方式的各種操作。在一個實施方式中,所描述的操作中的一個或多個可以組成存儲在一個或多個計算機可讀介質(zhì)上的計算機可讀指令,這些指令如果由計算設(shè)備執(zhí)行則使得計算設(shè)備執(zhí)行所描述的操作。描述一些或所有操作的順序不應(yīng)該被解釋為暗示這些操作一定是依賴于順序的。從本說明書獲益的本領(lǐng)域技術(shù)人員將認(rèn)識到替換順序。此外,應(yīng)該理解,并非所有的操作都一定存在于這里所提供的每一個實施方式中。此外,在此使用詞語“示例性”意指用作示例、實例或說明。這里作為“示例性”所描述的任何方面或設(shè)計不必被解釋為有利于其他方面或設(shè)計。相反,使用詞語“示例性”旨在以具體的方式呈現(xiàn)各個概念。如本申請中所使用的,術(shù)語“或”意指包括性“或”而非互斥性“或”。即,除非另有指定或從上下文可以清楚,“X使用A或B”意指任何自然的包括性排列。即,如果X使用A ;X使用B^X使用A和B兩者,則在任何以上情況下,都滿足“X使用A或B”。此外,本申請中和所附權(quán)利要求書所使用的冠詞“一”和“一個” 一般可以解釋為“一個或多個”,除非另有指定或從上下文可以清楚是指單數(shù)形式。同樣,雖然參考一個或多個實現(xiàn)示出并描述了本發(fā)明,但本領(lǐng)域技術(shù)人員基于對本說明書和附圖閱讀和理解,可以想到各種等效更改和修改。本發(fā)明包括所有這樣的修改和更改,并且僅由所附權(quán)利要求書的范圍來限定。特別地,對于由上述組件(例如,元素、資源等)執(zhí)行的各種功能,除非另外指明,否則用于描述這些組件的術(shù)語旨在對應(yīng)于執(zhí)行所描述的執(zhí)行此處在本發(fā)明的示例性實現(xiàn)中所示的功能的組件的指定功能(例如,功能上等效)的任何組件,即使這些組件在結(jié)構(gòu)上不等效于所公開的結(jié)構(gòu)。此外,盡管可相對于若干實現(xiàn)中的僅一個實現(xiàn)來公開本發(fā)明的一個特定特征,但這一特征可以如對任何給定或特定應(yīng)用所需且有利地與其他實現(xiàn)的一個或多個其他特征相組合。此外,就在“具體實施方式
” 或者權(quán)利要求書中使用術(shù)語“包括”、“具有”、“帶有”或其變體而言,這些術(shù)語旨在以與術(shù)語 “包括”相似的方式為包含性的。
權(quán)利要求
1.一種用于將文檔提供者分組至包括簡檔的提供者群集中的方法(100),包括 接收104 —個或多個文檔提供者的文檔獲取數(shù)據(jù),所述文檔提供者的文檔獲取數(shù)據(jù)包括對應(yīng)于與所述文檔提供者相關(guān)聯(lián)的文檔獲取操作的一個或多個文檔獲取參數(shù); 基于所述文檔獲取數(shù)據(jù)將所述文檔提供者分組106至提供者群集中;以及對于相應(yīng)的提供者群集,基于所述提供者集群中的文檔提供者的文檔獲取參數(shù)給所述提供者集群指定108簡檔,所述簡檔包括對應(yīng)于文檔大小參數(shù)、http狀態(tài)碼頻率參數(shù)、mime 類型參數(shù)和重定向率參數(shù)中的至少一個的一個或多個參數(shù)。
2.如權(quán)利要求1所述的方法,其特征在于,對所述文檔提供者進行分組包括 將具有對應(yīng)于所述提供者群集的文檔獲取頻率類別的文檔獲取頻率的一個或多個文檔提供者置于一提供者群集中。
3.如權(quán)利要求1所述的方法,其特征在于,所述接收所述文檔獲取數(shù)據(jù)包括 基于與對所述文檔提供者的文檔獲取操作相關(guān)聯(lián)的一個或多個http首部確定所述文檔提供者的文檔獲取參數(shù)。
4.如權(quán)利要求1所述的方法,其特征在于,包括對文檔提供者執(zhí)行當(dāng)前文檔獲取操作以獲取文檔,所述當(dāng)前文檔獲取操作與包括當(dāng)前文檔獲取參數(shù)的當(dāng)前文檔獲取數(shù)據(jù)相關(guān)聯(lián);將所述當(dāng)前文檔獲取操作的當(dāng)前文檔獲取參數(shù)與同包括所述文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)進行比較;以及如果所述比較指示所述當(dāng)前文檔獲取參數(shù)和所述簡檔的一個或多個參數(shù)之間的差異, 則生成警告。
5.如權(quán)利要求1所述的方法,其特征在于,包括對文檔提供者執(zhí)行多個當(dāng)前文檔獲取操作以生成計算出的當(dāng)前文檔獲取參數(shù); 將與所述文檔提供者相關(guān)聯(lián)的計算出的當(dāng)前文檔獲取參數(shù)與同包括所述文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)進行比較;以及如果所述比較指示所述計算出的當(dāng)前文檔獲取參數(shù)和所述簡檔的一個或多個參數(shù)之間的差異,則生成警告。
6.如權(quán)利要求5所述的方法,其特征在于,所述計算出的當(dāng)前文檔獲取參數(shù)包括當(dāng)前文檔獲取參數(shù)的計算出的平均值和所述當(dāng)前文檔獲取參數(shù)的計算出的標(biāo)準(zhǔn)差。
7.如權(quán)利要求5所述的方法,其特征在于,包括基于文檔提供者的警告頻率上升至預(yù)定閾值以上,將所述文檔提供者重新分組至新的提供者群集中。
8.如權(quán)利要求5所述的方法,其特征在于,包括基于提供者群集中具有上升至預(yù)定閾值以上的警告頻率的文檔提供者,更新所述提供者集群的簡檔。
9.一種用于將文檔提供者分組至包括簡檔的提供者群集中的系統(tǒng)(300),包括 提供者群集組件(304),其被配置成取得一個或多個文檔提供者的文檔獲取數(shù)據(jù),所述文檔提供者的文檔獲取數(shù)據(jù)包括對應(yīng)于與所述文檔提供者相關(guān)聯(lián)的文檔獲取操作的一個或多個文檔獲取參數(shù);以及基于所述文檔獲取數(shù)據(jù)將所述文檔提供者分組至提供者群集中;以及 2簡檔指定組件306,其被配置成基于提供者集群中的文檔提供者的文檔獲取參數(shù)給提供者集群指定簡檔,所述簡檔包括對應(yīng)于文檔大小參數(shù)、http狀態(tài)碼頻率參數(shù)、mime類型參數(shù)和重定向率參數(shù)中的至少一個的一個或多個參數(shù)。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,包括比較組件,其被配置成對文檔提供者執(zhí)行當(dāng)前文檔獲取操作以獲取文檔,所述當(dāng)前文檔獲取操作與包括當(dāng)前文檔獲取參數(shù)的當(dāng)前文檔獲取數(shù)據(jù)相關(guān)聯(lián);將所述當(dāng)前文檔獲取操作的當(dāng)前文檔獲取參數(shù)與同包括所述文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)進行比較;以及如果所述比較指示所述當(dāng)前文檔獲取參數(shù)和所述簡檔的一個或多個參數(shù)之間的差異, 則生成警告。
11.如權(quán)利要求10所述的系統(tǒng),其特征在于,所述比較組件被配置成對文檔提供者執(zhí)行多個當(dāng)前文檔獲取操作以生成計算出的當(dāng)前文檔獲取參數(shù);將與所述文檔提供者相關(guān)聯(lián)的計算出的當(dāng)前文檔獲取參數(shù)與同包括所述文檔提供者的提供者群集相關(guān)聯(lián)的簡檔的參數(shù)進行比較;以及如果所述比較指示所述計算出的當(dāng)前文檔獲取參數(shù)和所述簡檔的一個或多個參數(shù)之間的差異,則生成警告。
12.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述提供者群集組件被配置成將具有對應(yīng)于提供者群集的文檔獲取頻率類別的文檔獲取頻率的一個或多個文檔提供者置于所述提供者群集中。
13.如權(quán)利要求10所述的系統(tǒng),其特征在于,所述簡檔指定組件被配置成基于文檔提供者的警告頻率上升至預(yù)定閾值以上,將所述文檔提供者重新分組至新的提供者群集中。
14.如權(quán)利要求10所述的系統(tǒng),其特征在于,所述簡檔指定組件被配置成基于提供者群集中具有上升至預(yù)定閾值以上的警告頻率的文檔提供者,更新所述提供者集群的簡檔。
15.如權(quán)利要求10所述的系統(tǒng),其特征在于,包括扼流組件,其被配置成基于文檔提供者的警告頻率上升至預(yù)定閾值以上,對執(zhí)行對所述文檔提供者的當(dāng)前文檔獲取操作的頻率進行扼流。
全文摘要
搜索引擎可以利用web爬行器來發(fā)現(xiàn)可作為搜索結(jié)果被提供給用戶的合乎需要的內(nèi)容。不幸的是,諸如網(wǎng)站之類的文檔提供者可能返回垃圾網(wǎng)頁和/或維護網(wǎng)頁作為文檔結(jié)果,搜索引擎提供這些網(wǎng)頁作為搜索結(jié)果可能是不合需要的。因此,可以將文檔提供者分組至提供者群集中。簡檔可以被分配給提供者群集,其中簡檔可以包括表示歷史上從對提供者群集中的文檔提供者的普通文檔獲取操作返回的“預(yù)期”參數(shù)的參數(shù)。可以將包括文檔提供者的提供者群集的簡檔的參數(shù)與當(dāng)前文檔獲取操作的當(dāng)前文檔獲取參數(shù)進行比較。如果簡檔的參數(shù)和當(dāng)前文檔獲取參數(shù)不匹配,則可以生成警告。
文檔編號G06F17/30GK102289456SQ20111017264
公開日2011年12月21日 申請日期2011年6月16日 優(yōu)先權(quán)日2010年6月17日
發(fā)明者B·B·希亞姆庫瑪, H·維爾馬, P·薩尼 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1