專利名稱:廣域網(wǎng)搜索引擎中不適當(dāng)搜索查詢的檢測的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索查詢(search query)分析的領(lǐng)域,更具體而言,本發(fā)明涉及用于自動過濾出提交到廣域網(wǎng)搜索引擎的不適當(dāng)搜索查詢,從而改善搜索引擎的性能和分析的機(jī)制。
背景技術(shù):
因特網(wǎng)是一種真正全球可達(dá)的廣域網(wǎng),它將遍布世界各地的計算機(jī)互連在一起。因特網(wǎng)中一般被稱為萬維網(wǎng)(World Wide Web)的部分是相互關(guān)聯(lián)的數(shù)據(jù)的集合,其中數(shù)據(jù)的數(shù)量是非常驚人的。萬維網(wǎng)(有時被稱為“Web”)的內(nèi)容包括具有已知的HTML(超文本標(biāo)記語言)格式的文檔以及其他內(nèi)容,這些HTML格式的文檔根據(jù)已知協(xié)議HTTP(超文本傳輸協(xié)議)通過因特網(wǎng)來傳輸。
Web內(nèi)容的廣度和寬度對希望在其中尋找特定信息的任何人來說都是驚人的且壓倒性的。據(jù)此,Web的一個極其重要的組件是搜索引擎。這里使用的搜索引擎是一種交互式系統(tǒng),該系統(tǒng)用于定位與集總代表一個搜索查詢的一個或多個用戶指定的搜索項(xiàng)相關(guān)的內(nèi)容。通過已知的公共網(wǎng)關(guān)接口(CGI),Web可以包括交互式的內(nèi)容,即響應(yīng)于由連接到Web的計算機(jī)的人類用戶指定的數(shù)據(jù)的內(nèi)容。搜索引擎接收來自用戶的具有一個或多個搜索項(xiàng)的搜索查詢,并向用戶呈現(xiàn)對被確定與該搜索查詢相關(guān)的文檔的一個或多個引用(reference)的列表。
搜索引擎顯著地提高了用戶可以定位Web上的所需信息的效率。因此,搜索引擎是因特網(wǎng)的最常用資源之一。有效的搜索引擎可以幫助用戶在當(dāng)前Web內(nèi)呈現(xiàn)的數(shù)十億文檔中定位到非常具體的信息。搜索引擎的關(guān)鍵功能和存在的目的是在給定用戶查詢的一些搜索項(xiàng)的情況下,從數(shù)十億可獲得的文檔中識別出若干最相關(guān)的結(jié)果并且使這種識別在盡可能短的時間內(nèi)完成。
一般而言,搜索引擎維護(hù)著使搜索項(xiàng)與Web上的信息資源相關(guān)聯(lián)的記錄的數(shù)據(jù)庫。搜索引擎主要以幾種常用方法獲得關(guān)于Web的內(nèi)容的信息。最常用的方法一般被稱為Web爬行搜索(crawling),而第二種方法是由這種信息的提供者或第三方(即,既不是信息的提供者,也不是搜索引擎的提供者)提交這種信息。搜索引擎用來獲取關(guān)于Web內(nèi)容的信息的另一常用方法是由人類編輯者基于他們的瀏覽來創(chuàng)建信息的索引。
為了理解爬行搜索,首先必須理解HTML文檔可以包括對其他信息的引用,一般被稱為鏈接。已經(jīng)“點(diǎn)擊”了文檔的一部分以使所引用的文檔被顯示的任何人已經(jīng)激活了該鏈接。Web爬行搜索一般指的是一個自動過程,利用該過程,由一個文檔所引用的文檔被獲取和分析,進(jìn)而由這些文檔所引用的文檔被獲取和分析,并且這種獲取和分析以遞歸方式重復(fù)。從而,嘗試著自動遍歷Web的全部內(nèi)容,以對Web的全部內(nèi)容分類。
由于Web的文檔經(jīng)常被添加和/或修改,還由于Web非常巨大,因此沒有一種Web爬行搜索器成功地分類了Web的全部內(nèi)容。據(jù)此,想要將其Web內(nèi)容包括到搜索引擎數(shù)據(jù)庫中的Web內(nèi)容的提供者將其內(nèi)容直接提交給搜索引擎的提供者。通過因特網(wǎng)可獲得的其他內(nèi)容和/或服務(wù)的提供者與搜索引擎的運(yùn)營者簽訂合約以使其內(nèi)容被定期爬行搜索和更新,從而使搜索結(jié)果包括當(dāng)前信息。一些搜索引擎(例如由California,Pasadena的Overture公司(http//www.overture.com)提供的搜索引擎,該搜索引擎在美國專利6,269,361中有所描述,這里通過引用并入了該專利)允許因特網(wǎng)內(nèi)容和/或服務(wù)的提供者編輯和提交與其內(nèi)容和/或服務(wù)相關(guān)聯(lián)的簡要標(biāo)題和描述。這種與信息相關(guān)的標(biāo)題、描述和地址被統(tǒng)稱為搜索列表項(xiàng)。搜索列表項(xiàng)通常作為與接收到的已被處理的搜索查詢相對應(yīng)的單獨(dú)結(jié)果返回。由于因特網(wǎng)不斷成長并且通過因特網(wǎng)進(jìn)行的商業(yè)行為也不斷成長,因此某些搜索引擎被專門用于提供商業(yè)搜索結(jié)果,這些商業(yè)搜索結(jié)果與信息結(jié)果分開呈現(xiàn),從而有利于輔助因特網(wǎng)上的商業(yè)交易。
出于各種目的,關(guān)于搜索引擎的行為的信息被收集。這些目的包括公共目的和私人目的。作為私人目的的一個示例,搜索引擎提供者可以收集關(guān)于搜索行為的信息,以用于評估諸如服務(wù)器資源需求以及公眾對所提供的搜索服務(wù)的各個方面的響應(yīng)之類的事務(wù)。作為公共目的的一個示例,搜索引擎提供者可以希望公布關(guān)于針對各個時間段和針對各個搜索項(xiàng)總共執(zhí)行的搜索次數(shù)的信息。不論是用于搜索引擎性能的內(nèi)部審核與評估,還是用于搜索引擎普及的外部宣傳,或用于另外的目的,這種所收集信息的準(zhǔn)確性極其重要。
但是,一般希望這種信息代表真正試圖定位由搜索引擎保存的特定信息的人類用戶的搜索行為。搜索查詢由于除了真正試圖定位信息之外的其他原因而被頻繁提交。例如,信息的提供者可能周期性地搜索該信息,以查看該信息是如何被搜索引擎呈現(xiàn)的。有時,一方或多方可能對通過提交多個搜索查詢并對提交和結(jié)果接收之間的延遲計時來測量一個或多個搜索引擎的立刻響應(yīng)性感興趣。另外,某些方可能試圖使某個搜索列表項(xiàng)顯得更加受歡迎,這一目的可以通過配置程序以周期性地提交為給出這種景象而制作的搜索查詢來達(dá)成。所有這些情形以及出于除了定位感興趣的信息之外的其他目的而提交搜索查詢的任意其他情形,影響搜索引擎行為的信息到這樣一個程度,即任何這種信息都會代表人類搜索者的行為。
需要這樣一種機(jī)制,利用該機(jī)制可以識別出不是人類用戶的真正信息搜索結(jié)果的搜索行為,從而顯著地提高被收集到的關(guān)于人類搜索行為的信息的準(zhǔn)確性。
發(fā)明內(nèi)容
根據(jù)本發(fā)明,非法搜索的記錄被檢測到并被刪除,以使從記錄的搜索行為中收集的信息不會反映非法搜索行為。非法搜索是這樣的一種搜索,該搜索或者是自動提交的(即不是由人類用戶提交的),或者是由人類用戶出于除了真正嘗試定位由搜索引擎提供的信息之外的其他目的而提交的。非法搜索的示例包括為確定搜索引擎的立刻響應(yīng)性而提交的搜索、為確定特定搜索列表項(xiàng)在結(jié)果集合中的特定位置而提交的搜索,以及主要為了影響搜索引擎收集的搜索行為數(shù)據(jù)而提交的搜索。
搜索記錄的過濾既要通過對單獨(dú)的搜索(獨(dú)立于其他搜索或與其他搜索相關(guān))的分析,也要通過對搜索的總體量的分析。
在對單獨(dú)的搜索的分析中,將用戶代理(用于提交單獨(dú)的搜索查詢的程序)與被認(rèn)可為合法的預(yù)定用戶代理相比較。如果搜索查詢是由被配置用于自動提交搜索查詢的自動化腳本或程序提交的,則不認(rèn)為該搜索查詢是用戶用于定位來自搜索引擎的信息的真正嘗試,因此丟棄該搜索查詢,以便不影響搜索引擎的行為報告。
搜索查詢相對于從同一網(wǎng)絡(luò)地址(例如因特網(wǎng)協(xié)議(IP)地址)提交的其他搜索查詢的計時被分析,以檢測不可能是人類用戶真正嘗試定位信息的的行為。具體而言,在其他搜索查詢后面跟得太近(例如在小于2秒內(nèi))的搜索查詢被認(rèn)為提交得太快而不可能是由人類用戶提交的。另外,以過于規(guī)律性的時間間隔提交的搜索查詢被認(rèn)為不可能是人類用戶真正嘗試通過搜索引擎定位信息的結(jié)果。為了確定搜索查詢之間的時間間隔的規(guī)律性,收集時間間隔,并且將這些時間間隔的標(biāo)準(zhǔn)偏差與預(yù)定的最小閾值(例如2秒)相比較。例如,如果多個搜索查詢以彼此間隔大約60秒的時間間隔被提交,并且相對于60秒平均值的標(biāo)準(zhǔn)偏差小于1秒,則認(rèn)為這些搜索查詢是由自動過程而非人類用戶提交的。因此,從搜索查詢的數(shù)據(jù)流中刪除這樣的搜索查詢,以使該數(shù)據(jù)流更準(zhǔn)確地代表合法搜索行為。
在搜索查詢量的分析中,執(zhí)行統(tǒng)計分析以檢測異常的搜索行為,從而識別不可能是人類用戶用于定位信息的真正嘗試的搜索行為。這種統(tǒng)計分析的示例涉及通過因特網(wǎng)的多個信道到達(dá)的搜索,例如來自多個向給定的搜索引擎轉(zhuǎn)發(fā)搜索請求的關(guān)聯(lián)(affiliate)服務(wù)器的搜索。雖然搜索行為不是可具體預(yù)測的,但是分布在多個信道中的搜索行為的相對比例趨向于保持穩(wěn)定并是可預(yù)測的。
為了檢測這種異常,針對給定項(xiàng)的搜索查詢被累積到15分鐘的聚集后搜索記錄中,該15分鐘的聚集后搜索記錄代表在15分鐘時間段中針對該搜索項(xiàng)的搜索查詢量。也可以針對24小時的時間段執(zhí)行類似的聚集。將每個聚集后的搜索記錄與在同樣時間段內(nèi)針對該項(xiàng)的搜索查詢的期望量相比較。該期望量是基于通過因特網(wǎng)的各個路徑之間的相對量。如果聚集后的搜索量明顯比期望量大得多,則將聚集后的搜索量超出期望量的量記下來,并將該超出量減去被單獨(dú)確定為非法的任何搜索查詢,進(jìn)而從用于搜索列表項(xiàng)性能評估的搜索查詢的數(shù)據(jù)流中刪除上述過程所得之差。
針對每個搜索項(xiàng)(term)的搜索查詢的期望量是根據(jù)在當(dāng)前可比較的時間段中被允許通過搜索列表項(xiàng)性能評估的過濾后的搜索查詢的量來確定的。
圖1是示出通過廣域網(wǎng)彼此耦合的根據(jù)本發(fā)明的搜索引擎、宿主計算機(jī)、客戶端計算機(jī)的框圖。
圖2是更詳細(xì)示出搜索引擎的框圖。
圖3是更詳細(xì)示出圖2的搜索引擎的搜索行為分析模塊的框圖。
圖4是更詳細(xì)示出圖3的搜索行為分析模塊的搜索請求過濾器的框圖。
圖5是更詳細(xì)示出圖4的搜索請求過濾器的異常分析模塊的框圖。
圖6是由圖4的搜索請求過濾器分析的原始搜索數(shù)據(jù)的框圖。
圖7是圖6的原始搜索數(shù)據(jù)的搜索記錄的更詳細(xì)框圖。
圖8是示出根據(jù)本發(fā)明由圖4的搜索請求過濾器處理原始搜索數(shù)據(jù)的過程的邏輯流程圖。
圖9是圖8的邏輯流程圖的一部分的更詳細(xì)邏輯流程圖。
圖10是圖8的邏輯流程圖的一部分的更詳細(xì)邏輯流程圖。
圖11是圖10的邏輯流程圖的一部分的更詳細(xì)邏輯流程圖。
圖12是由圖4的搜索請求過濾器分析的聚集后搜索數(shù)據(jù)的框圖。
圖13是圖12的原始搜索數(shù)據(jù)的聚集后搜索記錄的更詳細(xì)框圖。
圖14是示出根據(jù)本發(fā)明由圖4的搜索請求過濾器處理過濾后的原始搜索數(shù)據(jù)和聚集后的搜索數(shù)據(jù)的過程的邏輯流程圖。
具體實(shí)施例方式
根據(jù)本發(fā)明,不是用戶用于定位計算機(jī)網(wǎng)絡(luò)上的信息的合法嘗試的搜索請求被檢測出,并從搜索數(shù)據(jù)中刪除。從而,為了計費(fèi)或進(jìn)行搜索引擎行為評估而對搜索數(shù)據(jù)的任何使用不會受到這種非法搜索的不適當(dāng)影響。非法搜索包括用于測試搜索引擎102(圖1)的響應(yīng)時間的搜索、用于測試特定搜索列表項(xiàng)在搜索結(jié)果集合中的位置的搜索,以及試圖影響搜索行為分析的搜索。這些搜索不應(yīng)該影響希望代表用戶用于定位Web內(nèi)信息的真實(shí)嘗試的任意信息。
圖1示出了耦合到并服務(wù)于廣域網(wǎng)104的搜索引擎102,在本示例性實(shí)施例中,廣域網(wǎng)104是因特網(wǎng)。多個宿主計算機(jī)系統(tǒng)106A-D被耦合到因特網(wǎng)104,并向多個客戶端計算機(jī)系統(tǒng)108A-C提供內(nèi)容,這些客戶端計算機(jī)系統(tǒng)108A-C獲取并顯示這種內(nèi)容以例如用于人類用戶。當(dāng)然,圖1出于舉例說明的目的而被大大簡化。例如,雖然只示出了四(4)個宿主計算機(jī)系統(tǒng)和三(3)個客戶端計算機(jī)系統(tǒng),但是應(yīng)該意識到,(i)耦合到因特網(wǎng)的宿主計算機(jī)系統(tǒng)和客戶端計算機(jī)系統(tǒng)的總數(shù)可以為數(shù)百萬個計算機(jī)系統(tǒng),并且(ii)宿主計算機(jī)系統(tǒng)可以像客戶端計算機(jī)系統(tǒng)那樣獲取信息,并且客戶端計算機(jī)系統(tǒng)可以像宿主計算機(jī)系統(tǒng)那樣提供信息。
搜索引擎102是一種計算機(jī)系統(tǒng),它對宿主計算機(jī)系統(tǒng)106A-D所提供的信息進(jìn)行分類,并服務(wù)于客戶端計算機(jī)系統(tǒng)108A-C的搜索請求而提供可能由宿主計算機(jī)106A-D中的任意一個所提供的信息。響應(yīng)于這些請求,搜索引擎102產(chǎn)生與搜索請求中所指定的一個或多個搜索項(xiàng)相匹配的任何分類后信息的報告。這種由宿主計算機(jī)系統(tǒng)106A-D提供的信息包括通常稱為“網(wǎng)站”形式的信息。這種信息在因特網(wǎng)中公知為萬維網(wǎng)的部分中通過已知的并被廣泛使用的超文本傳輸協(xié)議(HTTP)來獲取。呈現(xiàn)給用戶的單個多媒體文檔一般被稱為網(wǎng)頁,而由單個人、小組或組織控制下的相互關(guān)聯(lián)的多個網(wǎng)頁一般被稱為網(wǎng)站。雖然這里描述了對相關(guān)網(wǎng)頁和網(wǎng)站的搜索,但是應(yīng)該意識到,這里描述的某些技術(shù)可同樣應(yīng)用于對以其他形式存儲在計算機(jī)網(wǎng)絡(luò)中的信息的搜索。
在圖2中更詳細(xì)示出了搜索引擎102。搜索引擎102包括搜索服務(wù)器206,它接收并使用搜索數(shù)據(jù)庫208來服務(wù)于來自客戶端計算機(jī)系統(tǒng)108A-C中的任意一個的搜索請求。另外,搜索引擎102可以代表一個或多個其他的搜索引擎來接收和服務(wù)于搜索查詢。這種其他的搜索引擎有時被稱為源。
搜索引擎102還包括提交服務(wù)器202,其用于接收來自宿主計算機(jī)106A-D中的任意一個的搜索列表項(xiàng)提交。每個提交請求將宿主計算機(jī)106A-D中的任意一個提供的信息分類到搜索數(shù)據(jù)庫208中,從而使這些信息可作為搜索結(jié)果通過搜索服務(wù)器206來獲取。
為了避免向客戶端計算機(jī)系統(tǒng)108A-C提供不想要的搜索結(jié)果,搜索引擎102包括編輯評估器204,該編輯評估器204在將搜索列表項(xiàng)包括到搜索數(shù)據(jù)庫208中之前評估這些已提交的搜索列表項(xiàng)。
在本示例性實(shí)施例中,搜索引擎102以及提交服務(wù)器202、編輯評估器204和搜索服務(wù)器206中的每一個都是在一個或多個計算機(jī)中執(zhí)行的一個或多個計算機(jī)進(jìn)程的全部或一部分。簡言之,提交服務(wù)器202接收用于在搜索數(shù)據(jù)庫208內(nèi)列出信息的請求,而編輯評估器204在將已提交的搜索列表項(xiàng)包括到搜索數(shù)據(jù)庫208中之前對這些搜索列表項(xiàng)進(jìn)行過濾。在2002年9月13日遞交的Dominic Cheung等人的題為“AutomatedProcessing of Appropriateness Determination of Content for Search Listings inWide Area Network Searches”的美國專利申請10/244,051中更完整地描述了過濾這種搜索列表項(xiàng)的過程,這里通過引用并入了該專利的描述以用于任意和所有目的。
搜索引擎102還包括搜索行為數(shù)據(jù)庫210,該數(shù)據(jù)庫包括代表人類用戶真正試圖定位信息的搜索行為的數(shù)據(jù)。另外,搜索引擎102包括搜索行為分析模塊212,其用于分析由搜索引擎102處理的搜索行為。搜索行為分析模塊212也是在一個或多個計算機(jī)中執(zhí)行的一個或多個計算機(jī)進(jìn)程的全部或一部分。
如這里所使用的,搜索包括搜索請求,該搜索請求包括(i)被統(tǒng)稱為搜索查詢的一個或多個搜索項(xiàng)以及(ii)響應(yīng)于該搜索查詢而作為搜索結(jié)果返回的一個或多個搜索列表項(xiàng)的集合。當(dāng)然,沒有找到與搜索查詢相關(guān)的搜索列表項(xiàng)以及響應(yīng)于查詢而返回的搜索結(jié)果的集合不包括搜索列表項(xiàng)也是可能的。一般而言,搜索請求被呈現(xiàn)在上述搜索行為數(shù)據(jù)庫210(圖2)中。搜索行為分析模塊212包括搜索請求過濾器302,該過濾器刪除代表非法搜索請求的數(shù)據(jù)。
在圖4中更詳細(xì)示出了搜索請求過濾器302。搜索請求過濾器302包括原始(raw)搜索數(shù)據(jù)供給(feed)402,它代表通過搜索服務(wù)器206(圖2)接收到的搜索請求。在圖6和7中更詳細(xì)示出了原始搜索數(shù)據(jù)供給402,它包括多個搜索記錄602,其中每個搜索記錄代表由客戶端計算機(jī)系統(tǒng)(例如客戶端計算機(jī)系統(tǒng)108A-C(圖1)中的任意一個)提交的搜索請求。
每個搜索記錄602(圖6和7)包括多個字段702-710。搜索查詢字段702代表搜索請求的搜索查詢,其是一個或多個搜索項(xiàng)的集合。例如,“experimental aircraft engine”的搜索查詢請求與三個單獨(dú)的搜索項(xiàng),即“experimental”、“aircraft”和“engine”相關(guān)的信息。
源字段704指定搜索請求的源。在本示例性實(shí)施例中,搜索引擎102代表其他搜索引擎執(zhí)行搜索,而這些其他的搜索引擎被稱為源,并且源字段704標(biāo)識為其執(zhí)行搜索記錄602所代表的搜索的特定源。在替換實(shí)施例中,搜索引擎102僅直接接收來自客戶端計算機(jī)系統(tǒng)的搜索請求,并且源字段704被省略。
市場(Marketplace)字段706代表對其提交搜索請求的市場。這里使用的市場指的是可單獨(dú)獲得每個搜索列表項(xiàng)的地理區(qū)域。在本示例性實(shí)施例中,搜索引擎102允許搜索列表項(xiàng)的所有者指定可獲得其搜索列表項(xiàng)作為搜索查詢結(jié)果的一個或多個市場。因此,就希望得到特定市場中的搜索行為的情況而言,這種市場信息應(yīng)該與搜索記錄相關(guān)聯(lián)。類似地,搜索請求中感興趣的任意其他信息可以被包括在搜索記錄602中。
CGI(公共網(wǎng)關(guān)接口)環(huán)境字段708代表在其中提交搜索請求的環(huán)境的多個特性。在本示例性實(shí)施例中,搜索請求過濾器302尤其感興趣的是CGI環(huán)境變量HTTP_USER_AGENT和REMOTE_ADDR。以下將更完整地描述這些變量以及搜索請求過濾器302對這些變量的使用。
時間戳字段710代表提交搜索查詢的日期和時間。
原始搜索數(shù)據(jù)供給402(圖4)被原始搜索過濾器404、一個或多個異常分析模塊406A-B和搜索數(shù)據(jù)分析模塊408所接收。原始搜索過濾器404分析原始搜索數(shù)據(jù)供給402的單獨(dú)的搜索記錄,以檢測非法搜索并標(biāo)記代表非法搜索的搜索記錄。一個或多個異常分析模塊406A-B中的每一個將原始搜索數(shù)據(jù)供給402中的搜索數(shù)據(jù)與期望的搜索數(shù)據(jù)相比較,以檢測搜索數(shù)據(jù)的異常。搜索數(shù)據(jù)分析模塊408使用來自異常分析模塊406A-B的異常分析、來自原始搜索過濾器404的信息和原始搜索數(shù)據(jù)供給402來刪除原始搜索數(shù)據(jù)供給402中的非法搜索,以產(chǎn)生過濾后的搜索數(shù)據(jù)供給410。
原始搜索過濾器404的處理過程如邏輯流程圖800(圖8)所示。步驟802和804彼此獨(dú)立,并且一般可以以任意順序執(zhí)行,甚至同時執(zhí)行。在步驟802中,原始搜索過濾器404應(yīng)用用戶代理過濾器來檢測原始搜索數(shù)據(jù)供給402中的非法搜索請求。在步驟804中,原始搜索過濾器404應(yīng)用網(wǎng)絡(luò)地址過濾器來檢測原始搜索數(shù)據(jù)供給402中的非法搜索請求。
步驟802被更詳細(xì)地示為邏輯流程圖802(圖9)。在測試步驟902中,原始搜索過濾器404判斷搜索的用戶代理是否被認(rèn)出為合法用戶代理。用戶代理由存儲在每個搜索的CGI環(huán)境字段708中的CGI環(huán)境變量HTTP_USER_AGENT所代表,并標(biāo)識出用戶通過其提交搜索查詢的web瀏覽器或其他計算機(jī)程序。代表HTTP_USER_AGENT CGI環(huán)境變量的數(shù)據(jù)示例是“Mozilla/5.0(X11;U;Linux i686;en-US;rv1.0.1)Gecko/20020918”,其標(biāo)識出在Linux操作系統(tǒng)環(huán)境中執(zhí)行的Mozilla web瀏覽器的1.0.1版本。原始搜索過濾器404存儲代表用戶提交真正試圖通過廣域網(wǎng)104定位信息的搜索查詢所使用的多個公知計算機(jī)程序的用戶代理標(biāo)識的數(shù)據(jù)。通常,這種計算機(jī)程序是web瀏覽器,該web瀏覽器是公知的,這里不再描述。經(jīng)標(biāo)識的計算機(jī)程序在這里有時被稱為認(rèn)可的用戶代理。優(yōu)選地,認(rèn)可的用戶代理的集合盡可能完整,以包括盡可能多的合法用戶代理。
原始搜索過濾器404在測試步驟902中將原始搜索數(shù)據(jù)供給402的每個搜索的用戶代理標(biāo)識與認(rèn)可的用戶代理相比較。如果特定搜索的用戶代理標(biāo)識與所有認(rèn)可的用戶代理都不匹配,則在步驟904中將該搜索標(biāo)記為非法的。相反,如果搜索的用戶代理標(biāo)識與認(rèn)可的用戶代理中的任意一個用戶代理匹配,則通過跳過步驟904而不將該搜索標(biāo)記為非法的。
存在未經(jīng)認(rèn)可的用戶代理可以提交搜索請求的多種情形。例如,腳本或程序可以被配置為周期性地向搜索引擎102提交多個搜索請求,以測量搜索引擎102的響應(yīng)時間和/或確定一個或多個搜索列表項(xiàng)在搜索結(jié)果集合中的位置。腳本或程序還可以被配置為重復(fù)提交具有特定搜索查詢的搜索請求并隨后模仿用戶對搜索列表項(xiàng)的選擇,以試圖影響由搜索行為分析模塊212(圖3)確定的明顯搜索行為。這種腳本和程序一般不將其自身標(biāo)識為認(rèn)可的用戶代理。
從而,這種不是用戶真正嘗試定位信息的合法搜索請求的搜索請求被原始搜索過濾器404標(biāo)記為非法的??梢砸远喾N方法中的任意一種將搜索標(biāo)記為非法的,所述方法例如在搜索記錄602(圖7)中包括一個有效字段(未示出),和/或在非法搜索查詢的列表中包括搜索記錄602的唯一標(biāo)識符。
步驟804被更詳細(xì)地示為邏輯流程圖804(圖10)。在步驟1002中,原始搜索過濾器404(圖4)收集近期窗口內(nèi)的搜索記錄。例如,近期窗口可以是1小時或12小時或24小時的近期窗口,以使代表分別在最近的1小時、12小時或24小時內(nèi)提交的搜索查詢的所有搜索記錄在步驟1002-1014的循環(huán)中分別被處理。
在步驟1004中,原始搜索過濾器404根據(jù)用戶IP/源對將近期窗口的所有搜索記錄分組。換句話說,與相同的用戶IP和相同的源相對應(yīng)的所有搜索記錄被分成一組。用戶IP是通過其提交由搜索記錄代表的搜索查詢的IP(因特網(wǎng)協(xié)議)網(wǎng)絡(luò)地址。在搜索記錄602(圖7)中,用戶IP被表示在CGI環(huán)境字段708中。具體而言,用戶IP由已知的CGI環(huán)境變量REMOTE_ADDR來提供,并代表通過其提交搜索請求的IP地址。雖然某些用戶可以通過單個IP地址來路由他們的查詢,但是大多數(shù)IP地址標(biāo)識出單獨(dú)的用戶。從而,評估與單個IP地址相關(guān)聯(lián)的行為在評估單獨(dú)的用戶的行為的過程中很有用。
在本示例性實(shí)施例中,搜索引擎102直接服務(wù)于搜索查詢,因此是唯一的源,因此所有源是同一個。在替換實(shí)施例中,搜索引擎102也可以接收由其他搜索引擎轉(zhuǎn)發(fā)的搜索請求,并且作為響應(yīng)將所產(chǎn)生的搜索列表項(xiàng)發(fā)送到這些其他的搜索引擎。每個其他的搜索引擎都是一個源。就多個用戶的搜索請求通過單個IP地址被路由的情況而言,使通過不同源提交的請求分離有助于隔離多個用戶的搜索查詢。
在步驟1006中,原始搜索過濾器404(圖4)分析在步驟1004(圖10)中收集的搜索記錄。步驟1006被更詳細(xì)地示為邏輯流程圖1006(圖11)。在步驟1102中,原始搜索過濾器404(圖4)測量在步驟1004(圖10)中形成的集合中的搜索之間的時間間隔。該時間間隔是作為在時間順序上相鄰的搜索記錄的時間戳字段710(圖7)之間的時間差來測量的。
在測試步驟1104(圖11)中,原始搜索過濾器404將每個間隔與預(yù)定的最小閾值相比較。該預(yù)定的最小閾值被選擇得一般非常短而不能合理地代表用戶的連續(xù)搜索查詢之間的間隔。在本示例性實(shí)施例中,假設(shè)人類用戶在提交連續(xù)的搜索查詢之間至少要花費(fèi)大約兩(2)秒。因此,在本示例性實(shí)施例中,與測試步驟1102相關(guān)聯(lián)的預(yù)定的最小閾值間隔是兩(2)秒。
如果任意搜索記錄在其他搜索記錄后面跟得太近,即緊接在小于預(yù)定的最小閾值的搜索間間隔之后,處理則轉(zhuǎn)移到步驟1106(圖11),在該步驟中,這種搜索記錄被原始搜索過濾器404標(biāo)記為非法的。對于沒有與另一搜索記錄跟得過近的搜索記錄,步驟1106被跳過。
在步驟1108中,原始搜索過濾器404確定集合中搜索之間的間隔的統(tǒng)計標(biāo)準(zhǔn)偏差。在測試步驟1110中,原始搜索過濾器404將該標(biāo)準(zhǔn)偏差與預(yù)定的最小閾值相比較。一般而言,在步驟1108-1110中,原始搜索過濾器404測量搜索查詢之間的間隔的規(guī)律性,以自動檢測出已生成的一般比由人類用戶提交的搜索規(guī)律得多的搜索查詢。例如,如果通過相同源并來自相同網(wǎng)絡(luò)地址的多個搜索之間的間隔平均為60秒,并且標(biāo)準(zhǔn)偏差小于一(1)秒,則不太可能是由人類用戶生成這些搜索查詢的。在本示例性實(shí)施例中,與測試步驟1110相關(guān)聯(lián)的預(yù)定最小閾值是兩(2)秒。
如果測量出的標(biāo)準(zhǔn)偏差小于預(yù)定最小閾值,處理則轉(zhuǎn)移到步驟1112,在該步驟中,原始搜索過濾器404將集合中的所有搜索記錄標(biāo)記為非法的。相反,如果測量出的標(biāo)準(zhǔn)偏差大于等于預(yù)定的最小閾值,原始搜索過濾器404則跳過步驟1112。
在步驟1110-1112之后,根據(jù)邏輯流程圖1006的處理完成,因此步驟1006(圖10)完成。從而,在步驟1006中,如果搜索記錄彼此之間在時間上跟得太近或者之間的間隔過于規(guī)律以至不能合理地代表由人類用戶提交的真實(shí)搜索查詢,原始搜索過濾器404則將這些搜索記錄標(biāo)記為非法的。
在步驟1008中,原始搜索過濾器404根據(jù)用戶IP而不依賴于源對近期窗口中的搜索記錄分組。在步驟1010中,原始搜索過濾器404以上面關(guān)于步驟1006描述的方式來分析經(jīng)分組的搜索記錄。步驟1008-1010允許原始搜索過濾器404檢測遍布在多個源中的非法搜索。如果只使用了單個源,即搜索引擎102不服務(wù)于由其他搜索引擎轉(zhuǎn)發(fā)的搜索查詢,則由于存在步驟1004-1006,因此步驟1008-1010是多余的,并省略這些步驟。
在步驟1012中,原始搜索過濾器404根據(jù)源而不依賴于用戶IP對近期窗口中的搜索記錄分組。在步驟1014中,原始搜索過濾器404以上面關(guān)于步驟1006和1010描述的方式來分析經(jīng)分組的搜索記錄。步驟1012-1014允許原始搜索過濾器404檢測遍布在多個用戶IP中的非法搜索。
在步驟1014之后,根據(jù)邏輯流程圖804的處理完成,從而步驟804(圖8)完成。從而,原始搜索過濾器404(圖4)分析原始搜索數(shù)據(jù)供給402,已找到示出非法搜索查詢的樣式,所述非法搜索查詢會不適當(dāng)?shù)赜绊懰阉髁斜眄?xiàng)的性能評估。異常分析模塊406A-B檢測搜索查詢行為中的異常,以檢測用戶搜索行為中通常不可能的改變。
在圖5中更詳細(xì)地示出了異常分析模塊406A。在本示例性實(shí)施例中,只使用了一個異常分析模塊,即異常分析模塊406B或者不存在,或者如圖示那樣被包括進(jìn)來,但是不執(zhí)行任何操作。但是,由于搜索數(shù)據(jù)分析模塊408能夠處理來自多個異常分析模塊的異常分析結(jié)果,因此替換實(shí)施例包括除了異常分析模塊406A之外的其他異常分析模塊。
異常分析模塊406A包括原始搜索聚集器502,該聚集器將來自原始搜索數(shù)據(jù)供給402(圖4)的搜索數(shù)據(jù)聚集成15分鐘的聚集后搜索記錄。例如,聚集后搜索記錄1204(圖13)包括計數(shù)字段1302、搜索項(xiàng)字段1304、源字段1306和市場字段1308。聚集后搜索記錄1204代表具有相同搜索項(xiàng)、源和市場的多個單獨(dú)的搜索查詢。計數(shù)字段1302指定由聚集后搜索記錄1204代表的搜索記錄的數(shù)目。搜索項(xiàng)字段1304指定由聚集后搜索記錄1204代表的那些搜索記錄的搜索項(xiàng)。源字段1306指定由聚集后搜索記錄1204代表的那些搜索記錄的源。市場字段1308指定由聚集后搜索記錄1204代表的那些搜索記錄的市場。
原始搜索聚集器502將搜索記錄聚集起來,以構(gòu)成針對搜索項(xiàng)、源和市場的所有組合的聚集后搜索記錄,并且這些聚集后搜索記錄集中構(gòu)成聚集后搜索數(shù)據(jù)1202(圖12)。15分鐘的聚集后搜索數(shù)據(jù)對原始搜索第二級聚集器504(圖5)和搜索數(shù)據(jù)分析模塊408(圖4)來說都可獲得。原始搜索第二級聚集器504(圖5)將96個最近的15分鐘聚集后搜索數(shù)據(jù)(例如聚集后搜索數(shù)據(jù)1202(圖12))聚集起來,從而形成以與上面關(guān)于圖12-13描述的方式直接類似的方式組織起來的24小時的聚集后搜索數(shù)據(jù)。該24小時的聚集后搜索數(shù)據(jù)對搜索數(shù)據(jù)分析408來說也可獲得。
為了執(zhí)行比較以檢測搜索行為中不期望出現(xiàn)的改變,異常分析模塊406A還包括純凈搜索聚集器506,以用于形成純凈搜索聚集窗口508。純凈搜索聚集器506接收已從中刪除了非法搜索的純凈搜索數(shù)據(jù)供給410(圖4),并以與上面關(guān)于原始搜索聚集器502(圖5)描述的方式類似的方式聚集純凈搜索數(shù)據(jù)供給410的搜索記錄,以形成純凈搜索聚集窗口508。在本示例性實(shí)施例中,純凈搜索聚集窗口508是在最近24小時周期內(nèi)聚集的,以避免可能隨一天中的時間波動的搜索流量樣式。
搜索數(shù)據(jù)分析模塊408(圖4)接收(i)原始搜索數(shù)據(jù)供給402,(ii)來自原始搜索過濾器404的單獨(dú)的非法搜索查詢的標(biāo)識,以及(iii)來自異常分析模塊406A的15分鐘和24小時聚集后搜索數(shù)據(jù)以及24小時的聚集后純凈搜索數(shù)據(jù)。在包括了附加的異常分析模塊的實(shí)施例中,搜索數(shù)據(jù)分析模塊408還接收來自這些附加異常分析模塊的數(shù)據(jù)。搜索數(shù)據(jù)分析模塊408使用所有這些信息從原始搜索數(shù)據(jù)供給402中刪除非法搜索查詢,以產(chǎn)生過濾后的搜索數(shù)據(jù)供給410。過濾后的搜索數(shù)據(jù)供給410被異常分析模塊406A以上述方式所使用,并比原始搜索數(shù)據(jù)供給402更準(zhǔn)確地代表人類用戶的實(shí)際搜索行為。
搜索分析模塊408(圖4)的處理由邏輯流程圖1400(圖14)示出。循環(huán)步驟1402和下一步驟1414定義了一個循環(huán),在該循環(huán)中,搜索項(xiàng)、源和市場的每個組合,例如每個聚集后搜索記錄1204(圖12-13)根據(jù)步驟1404-1412(圖14)被處理。在步驟1402-1414的循環(huán)中,特定聚集后搜索記錄的特定搜索項(xiàng)、源和市場有時被分別稱為目標(biāo)項(xiàng)、目標(biāo)源和目標(biāo)市場。雖然搜索數(shù)據(jù)分析模塊408針對所有聚集后的搜索記錄執(zhí)行步驟1404-1412,但是步驟1404-1212在這里是在處理聚集后搜索記錄1204(圖13)的上下文中被描述的。
在步驟1404中,搜索數(shù)據(jù)分析模塊408將接收自原始搜索聚集器502(圖5)和原始搜索第二級聚集器504的聚集后的原始搜索數(shù)據(jù)與純凈搜索聚集窗口508相比較。在測試步驟1406中,搜索數(shù)據(jù)分析模塊408判斷15分鐘或24小時的聚集后原始搜索數(shù)據(jù)是否在統(tǒng)計上不同于純凈搜索聚集窗口508。
搜索數(shù)據(jù)分析模塊408通過首先計算聚集后原始搜索數(shù)據(jù)的期望最大值來判斷聚集后的原始搜索數(shù)據(jù)在統(tǒng)計上是否不同。在本示例性實(shí)施例中,根據(jù)以下等式來計算期望最大值。
EV=EVsws+EVs/tws/t+EVt/swt/sws+ws/t+wt/s---(1)]]>在等式(1)中,期望最大量EV是EVs、EVs/t和EVt/s的加權(quán)平均。EVs是基于可歸因于目標(biāo)源的搜索量所占比例而計算出的期望量。EVs/t是基于相對于目標(biāo)項(xiàng)可歸因于目標(biāo)源的搜索量所占比例而計算出的期望量。EVt/s是基于相對于目標(biāo)源可歸因于目標(biāo)項(xiàng)的搜索量所占比例而計算出的期望量。權(quán)重ws、ws/t和wt/s分別對應(yīng)于EVs、EVs/t和EVt/s。在本示例性實(shí)施例中,權(quán)重ws、ws/t和wt/s都被設(shè)置為一(1.0),以使每個期望量彼此相等地被加權(quán)。
期望量EVs是根據(jù)以下等式由搜索數(shù)據(jù)分析模塊408計算出的。
EVs=CVtm(CVsmCVm)ks---(2)]]>在等式(2)中,CVtm代表針對被比較的聚集后原始搜索數(shù)據(jù)的相同時間段,純凈搜索聚集窗口508內(nèi)從所有源對目標(biāo)項(xiàng)和目標(biāo)市場的搜索量。具體而言,在比較來自原始搜索聚集器502的聚集原始搜索數(shù)據(jù)的15分鐘窗口時,純凈搜索聚集窗口508的15分鐘窗口由CVtm表示。類似地,在比較來自原始搜索第二級聚集器504的聚集原始搜索數(shù)據(jù)的24小時窗口時,純凈搜索聚集窗口508的24小時窗口由CVtm表示。
CVsm代表針對最近24小時時間段,純凈搜索聚集窗口508內(nèi)對目標(biāo)源和目標(biāo)市場的搜索量。CVm代表針對最近24小時時間段,純凈搜索聚集窗口508內(nèi)對目標(biāo)市場(包括所有搜索項(xiàng)和搜索源)的搜索量。因此,比率 代表最近24小時中來自目標(biāo)源的在目標(biāo)市場中的所有搜索所占比例。雖然針對單獨(dú)的搜索項(xiàng)的搜索量可能在各個小時內(nèi)以不可預(yù)知地方式波動,但是來自特定源的搜索所占比例傾向于保持相對恒定。因此,將針對目標(biāo)項(xiàng)的搜索量乘以這一比率提供了對來自目標(biāo)源的針對目標(biāo)項(xiàng)的合法搜索的真實(shí)量的相當(dāng)可靠的期望。
該相當(dāng)可靠的期望被乘以調(diào)諧因子ks,以允許搜索量中接收自目標(biāo)源的部分逐日的改變,而不會被察覺為搜索量的非法增長。在本示例性實(shí)施例中,ks為1.1,從而允許目標(biāo)源的搜索量所占比例逐日發(fā)生10%的增長。
期望量EVs/t是由搜索數(shù)據(jù)分析模塊408根據(jù)以下等式計算出的。
EVs/t=Observedtm(CVtsmCVtm)ks/t---(3)]]>在等式(3)中,Observedtm代表來自所有源的針對目標(biāo)項(xiàng)和目標(biāo)市場的所有聚集后原始搜索記錄。在本示例性實(shí)施例中,只有具有相同持續(xù)時間(在本實(shí)施例中為15分鐘或24小時)的聚集后原始搜索記錄被聚集以形成Observedtm。
CVtm如以上關(guān)于等式(2)所描述的,但是其覆蓋了純凈搜索數(shù)據(jù)的整個24小時窗口。CVtsm代表針對最近24小時時間段,在純凈搜索聚集窗口508內(nèi)針對目標(biāo)項(xiàng)、目標(biāo)源和目標(biāo)市場的搜索量。因此,比率 代表針對目標(biāo)項(xiàng)和目標(biāo)市場,來自目標(biāo)源的搜索相對于所有源所占的比例。這一比率傾向于保持恒定,不論目標(biāo)項(xiàng)的受歡迎程度是否波動。因此,將來自所有源的針對目標(biāo)項(xiàng)觀察到的搜索量乘以這一比率提供了對來自目標(biāo)源的針對目標(biāo)項(xiàng)的合法搜索的真實(shí)量的相當(dāng)可靠的期望。
該相當(dāng)可靠的期望被乘以調(diào)諧因子ks/t,以允許搜索量中接收自目標(biāo)源的部分逐日改變,而不會被察覺為搜索的非法泛濫。在本示例性實(shí)施例中,ks/t為1.1,從而允許目標(biāo)源的針對目標(biāo)項(xiàng)的搜索量的比例逐日發(fā)生10%的增長。
期望量EVt/s是由搜索數(shù)據(jù)分析模塊408根據(jù)以下等式計算出的。
EVt/s=Observedsm(CVtsmCVsm)kt/s---(4)]]>在等式(3)中,Observedsm代表針對目標(biāo)市場來自目標(biāo)源的針對所有搜索項(xiàng)的所有聚集后原始搜索記錄。在本示例性實(shí)施例中,只有具有相同持續(xù)時間(在本實(shí)施例中為15分鐘或24小時)的聚集后原始搜索記錄被聚集以形成Observedsm。
CVsm代表純凈搜索聚集窗口508中與目標(biāo)源和目標(biāo)市場相關(guān)的部分,并因此代表針對目標(biāo)市場來自目標(biāo)源的針對所有項(xiàng)的合法搜索的量。CVtsm如以上關(guān)于等式(3)所描述的。因此,比率 代表在最近24小時中,來自目標(biāo)源的在目標(biāo)市場中的針對目標(biāo)項(xiàng)的搜索相對于所有搜索項(xiàng)所占的比例。將來自目標(biāo)源的針對所有搜索項(xiàng)的觀察到的搜索量乘以這一比率可以估計目標(biāo)市場中來自目標(biāo)源的針對目標(biāo)項(xiàng)的合法搜索的真實(shí)量的期望。
該相當(dāng)可靠的期望被乘以調(diào)諧因子kt/s,以允許搜索量中接收自目標(biāo)源的部分逐日改變,而不會被察覺為搜索的非法泛濫。在本示例性實(shí)施例中,kt/s為1.1,從而允許目標(biāo)源的針對目標(biāo)項(xiàng)的搜索量相對于所有搜索項(xiàng)所占比例逐日發(fā)生10%的增長。
以上等式(1)的加權(quán)平均避免依賴于任意特定單個計算出的期望,并且上述權(quán)重和調(diào)諧因子可以被調(diào)整,以在搜索量被累積時更準(zhǔn)確地代表最大的期望合法搜索流量。
如果聚集后的搜索記錄1204沒有在統(tǒng)計上不同于期望的搜索行為,即其不大于根據(jù)等式(1)確定的最大的期望搜索量,處理則轉(zhuǎn)移到下一步驟1414(圖14),并由搜索數(shù)據(jù)分析模塊408根據(jù)步驟1402-1414的循環(huán)處理下一聚集后的搜索記錄。相反,如果聚集后的搜索記錄1204(圖13)在統(tǒng)計上不同于期望的搜索行為,即其大于根據(jù)等式(1)確定的最大的期望搜索量,處理則轉(zhuǎn)移到步驟1408。
在步驟1408中,搜索數(shù)據(jù)分析模塊408估計聚集后的搜索記錄1204中可歸因于非法搜索查詢的部分。在本示例性實(shí)施例中,估計出的部分是計數(shù)1302超出根據(jù)等式(1)確定的最大的期望搜索量的數(shù)字差。
在步驟1410中,搜索數(shù)據(jù)分析模塊408從在步驟1408中估計出的部分中減去由原始搜索過濾器404標(biāo)記為非法的單獨(dú)的搜索的數(shù)目。在步驟1412中,搜索數(shù)據(jù)分析模塊408隨機(jī)地選擇原始搜索數(shù)據(jù)供給402中的多個搜索記錄并將它們標(biāo)記為非法的,其中搜索記錄的數(shù)目等于在步驟1408中估計出并在步驟1410中被調(diào)整的非法搜索的數(shù)目。如果經(jīng)調(diào)整的估計部分是非正的(non-positive),則跳過步驟1412。另外,搜索數(shù)據(jù)分析模塊408只隨機(jī)地選擇尚未被原始搜索過濾器404標(biāo)記為非法的搜索記錄。
以下示例是示例性的。假設(shè)純凈搜索聚集窗口508和以上等式(1)建議,針對給定項(xiàng)、從給定源并在給定市場內(nèi),期望有2000個搜索。還假設(shè)針對所述項(xiàng)、源和市場的組合有3000個搜索被聚集,并且在測試步驟1406中確定此差異在統(tǒng)計上相當(dāng)大。因此,1000個搜索被估計為非法的。假設(shè)原始搜索過濾器404已識別出600個單獨(dú)的搜索是非法的。則估計有400個搜索是非法的,但還未識別出。在步驟1412中,搜索數(shù)據(jù)分析模塊408從尚未被原始搜索過濾器404標(biāo)記為非法的2400個搜索中隨機(jī)地選擇400個搜索,并將這400個隨機(jī)選擇的搜索標(biāo)記為非法的。
在步驟1412之后,處理通過下一步驟1414(圖14)轉(zhuǎn)移,并由搜索數(shù)據(jù)分析模塊408根據(jù)步驟1402-1414的循環(huán)處理下一聚集后的搜索記錄。一旦項(xiàng)、源和市場的所有組合都已根據(jù)步驟1402-1414的循環(huán)進(jìn)行了處理,處理則轉(zhuǎn)移到步驟1416,在該步驟中,從原始搜索數(shù)據(jù)供給402中刪除所有被標(biāo)記為非法的搜索記錄,以生成過濾后的搜索數(shù)據(jù)供給410。
因此,當(dāng)檢測到搜索行為中的異常時,從原始搜索數(shù)據(jù)供給402中刪除單獨(dú)識別出的非法搜索,還刪除多個隨機(jī)選擇的其他搜索。因此,過濾后的搜索數(shù)據(jù)供給410更準(zhǔn)確地反映出用戶提交真實(shí)搜索查詢的實(shí)際行為。
如上所述,過濾后的搜索數(shù)據(jù)供給410被異常分析模塊406A用于確定搜索行為的期望水平,并被搜索列表項(xiàng)精選器304用于以在搜索行為分析模塊應(yīng)用中描述的方式來評估單獨(dú)的搜索列表項(xiàng)的性能。這樣一來,單獨(dú)的搜索列表項(xiàng)的性能評估不會受到非法搜索的過分影響。
以上描述僅僅是示例性的而非限制性的。本發(fā)明僅僅由權(quán)利要求及其等同物的全部范圍來限定。
權(quán)利要求
1.一種用于檢測非法搜索查詢的方法,該方法包括針對一個或多個接收到的搜索查詢中的每個目標(biāo)搜索查詢識別提交所述目標(biāo)搜索查詢的用戶代理;將所述用戶代理與一個或多個預(yù)定的合法用戶代理相比較;在所述用戶代理與所述預(yù)定的合法用戶代理中的任何一個都不匹配的情況下,將所述目標(biāo)搜索查詢標(biāo)記為非法的。
2.如權(quán)利要求1所述的方法,其中識別步驟包括獲取代表與用戶在提交所述目標(biāo)搜索查詢時一道提交的表單數(shù)據(jù)相關(guān)聯(lián)的環(huán)境變量的數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,還包括從搜索查詢的數(shù)據(jù)庫中刪除被標(biāo)記為非法的搜索查詢,從而使所述數(shù)據(jù)庫更準(zhǔn)確地代表人類用戶的搜索行為。
4.一種用于檢測非法搜索查詢的方法,所述非法搜索查詢中的每一個接收自相應(yīng)的網(wǎng)絡(luò)地址,該方法包括確定搜索查詢中的一個或多個選中的搜索查詢每個是在小于下述預(yù)定時間段的時間內(nèi)被提交的,所述預(yù)定時間段是搜索查詢中的相應(yīng)較早提交的搜索查詢的提交后的預(yù)定時間段,其中所述選中的搜索查詢和相應(yīng)較早提交的搜索查詢接收自相同的網(wǎng)絡(luò)地址;將所述選中的搜索查詢標(biāo)記為非法的。
5.如權(quán)利要求4所述的方法,其中確定步驟包括通過獲取代表與用戶在提交目標(biāo)搜索查詢時一道提交的表單數(shù)據(jù)相關(guān)聯(lián)的環(huán)境變量的數(shù)據(jù),來確定所述搜索查詢接收自哪個網(wǎng)絡(luò)地址。
6.如權(quán)利要求4所述的方法,還包括從搜索查詢的數(shù)據(jù)庫中刪除所述選中的搜索查詢,從而使所述數(shù)據(jù)庫更準(zhǔn)確地代表人類用戶的搜索行為。
7.一種用于檢測非法搜索查詢的方法,所述非法搜索查詢中的每一個接收自相應(yīng)的網(wǎng)絡(luò)地址,該方法包括確定搜索查詢中的一個或多個選中的搜索查詢是以如下時間間隔被提交的,所述時間間隔之間的變化小于預(yù)定量,其中所述選中的搜索查詢和相應(yīng)較早提交的搜索查詢接收自相同的網(wǎng)絡(luò)地址;將所述選中的搜索查詢標(biāo)記為非法的。
8.如權(quán)利要求7所述的方法,其中確定步驟包括通過獲取代表與用戶在提交目標(biāo)搜索查詢時一道提交的表單數(shù)據(jù)相關(guān)聯(lián)的環(huán)境變量的數(shù)據(jù),來確定所述搜索查詢接收自哪個網(wǎng)絡(luò)地址。
9.如權(quán)利要求7所述的方法,還包括從搜索查詢的數(shù)據(jù)庫中刪除所述選中的搜索查詢,從而使所述數(shù)據(jù)庫更準(zhǔn)確地代表人類用戶的搜索行為。
10.如權(quán)利要求7所述的方法,其中確定步驟包括確定所述選中的搜索查詢的接收之間的時間間隔的標(biāo)準(zhǔn)偏差。
11.一種用于提高搜索查詢的數(shù)據(jù)庫代表人類搜索行為的準(zhǔn)確性的方法,該方法包括將所述搜索查詢的數(shù)量與搜索查詢的期望數(shù)量相比較;確定所述搜索查詢的數(shù)量比所述搜索查詢的期望數(shù)量至少超出預(yù)定容限;根據(jù)所述數(shù)量比所述期望數(shù)量超出的量來選擇具有所述數(shù)量的多個搜索查詢;以及從所述數(shù)量中刪除所述選中的多個搜索查詢。
12.如權(quán)利要求11所述的方法,其中所述數(shù)量和所述期望數(shù)量對應(yīng)于包括特定搜索項(xiàng)的搜索查詢。
13.如權(quán)利要求11所述的方法,其中所述數(shù)量和所述期望數(shù)量對應(yīng)于特定地理區(qū)域特有的搜索查詢。
14.如權(quán)利要求11所述的方法,其中所述數(shù)量在時間窗口中被采樣。
15.如權(quán)利要求14所述的方法,其中所述時間窗口是15分鐘。
16.如權(quán)利要求14所述的方法,其中所述時間窗口是24小時。
17.如權(quán)利要求11所述的方法,還包括確定搜索查詢的所述期望數(shù)量。
全文摘要
用于評估搜索列表項(xiàng)的性能的搜索查詢被過濾,以使剩余的搜索查詢更準(zhǔn)確地代表人類用戶在搜索引擎中真正尋找信息的行為。來自未被認(rèn)可的用戶代理的搜索查詢或來自同一網(wǎng)絡(luò)地址的彼此過于接近或過于有規(guī)律性的搜索查詢被刪除。如果在某一時間段內(nèi)針對給定搜索項(xiàng)的搜索查詢量超過期望量,則丟棄針對該搜索項(xiàng)的搜索查詢。
文檔編號G06F17/30GK1816810SQ200480018779
公開日2006年8月9日 申請日期2004年4月30日 優(yōu)先權(quán)日2003年5月2日
發(fā)明者斯科特·B·克萊恩, 卓迪·D·比格斯 申請人:奧弗圖爾服務(wù)公司