亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

檢測尖峰查詢的制作方法

文檔序號:6353915閱讀:260來源:國知局
專利名稱:檢測尖峰查詢的制作方法
技術領域
本發(fā)明涉及搜索技術,尤其涉及處理查詢的系統(tǒng)和方法。
背景技術
搜索查詢活動的陡然迅猛增長(通常被稱為尖峰)可以來自多個源。尖峰可以來 自諸如節(jié)日或體育比賽等常規(guī)和流行事件、或者來自諸如高調死亡或自然災害等非常規(guī)事 件。尖峰還可以作為大規(guī)模行銷企圖或惡意網(wǎng)絡攻擊的結果而出現(xiàn)。存在在出現(xiàn)尖峰之后標識尖峰查詢趨勢的若干系統(tǒng)。然而,在趨勢的開頭標識尖 峰查詢趨勢將更困難和復雜。在事件正常進行或者在事件結束之前在合法尖峰和惡意或不 合法尖峰之間進行區(qū)分也將是困難的。

發(fā)明內容
本發(fā)明的各實施例由所附權利要求書來定義。提供本發(fā)明的各實施例的高層次概 覽以便介紹將在以下具體實施方式
一節(jié)中進一步描述的系統(tǒng)、方法和介質的概述。本概述 既不旨在標識所要求保護的主題的關鍵特征或必要特征,也不旨在用于獨立地幫助確定所 要求保護的主題的范圍。本發(fā)明的各實施例包括標識、分類、聚類、并呈現(xiàn)合法搜索查詢尖峰的結果的計算 機實現(xiàn)的方法和系統(tǒng)。接收輸入查詢活動(被稱為查詢流),并監(jiān)視該輸入查詢活動以尋找 任何尖峰活動。當特定查詢被標識為尖峰時,隨后將該尖峰查詢的各組分與展示了相似的 行為或特征的其他所存儲的查詢進行比較和聚類,這些特征包括時間和文本相關性。在包含來自最近爬行的內容源的信息和結果的新鮮索引中檢索某些先前接收的 查詢。還在包含可能在時間上與聚類的查詢流相關的信息和結果的歷史索引中檢索某些先 前接收的查詢。可以計算尖峰的加權平均加速度來確定該尖峰是流行查詢興趣的結果還是 可能是惡意攻擊。根據(jù)諸如季節(jié)性結果圖庫等經(jīng)分組的內容來將來自合法尖峰查詢的聚類 的結果呈現(xiàn)給用戶輸出設備。合法聚類與相似的現(xiàn)有聚類進行合并或者被建立為新的聚類。這些合并的和新建 立的聚類與先前存儲的聚類一起存儲以便與將來的查詢流活動進行比較并作為查詢建議 來呈現(xiàn)。本發(fā)明的另一實施例包括其上存儲有指令的計算機可讀介質,該指令在由計算設 備執(zhí)行時執(zhí)行上述方法。


以下將參考附圖詳細描述本發(fā)明的說明性實施例,附圖通過引用結合于此,并且 其中圖1是示出根據(jù)本發(fā)明的各實施例使用的示例性計算機操作環(huán)境的框圖;圖2是根據(jù)本發(fā)明的各實施例使用的客戶機服務器系統(tǒng)的框圖;圖3是示出根據(jù)本發(fā)明的各實施例使用的用于檢測尖峰查詢的示例性計算的圖4是示出根據(jù)本發(fā)明的各實施例使用的用于檢測尖峰和季節(jié)性查詢的示例性 方法的流程圖;圖5是示出根據(jù)本發(fā)明的各實施例使用的接收并合并聚類的示例性方法的流程 圖;圖6是示出根據(jù)本發(fā)明的各實施例使用的標識合法搜索查詢尖峰的示例性方法 的流程圖;圖7是示出根據(jù)本發(fā)明的各實施例使用的產(chǎn)生流行搜索查詢結果的示例性方法 的流程圖;圖8是示出根據(jù)本發(fā)明的各實施例使用的標識并聚類查詢的示例性方法的流程 圖。
具體實施例方式本發(fā)明的各實施例提供了用于標識、聚類和呈現(xiàn)流行尖峰查詢的系統(tǒng)、方法和計 算機可讀存儲介質。該具體實施方式
和所附權利要求書滿足適用的法定要求。此處可使用術語“步驟”、“塊”等來意味所采用的方法的不同動作,但是這些術語 不應被解釋為暗示任何特定次序,除非明確地描述了各單獨步驟、框等的次序。同樣,此處 可使用術語“模塊”等來意味所采用的系統(tǒng)的不同組件,但是這些術語不應被解釋為暗示任 何特定次序,除非明確地描述了各單獨模塊等的次序。貫穿本發(fā)明的不同實施例的描述,使用若干縮寫和簡寫符號來幫助理解關于相關 聯(lián)的系統(tǒng)、方法和計算機可讀介質的特定概念。這些縮寫和簡寫符號旨在幫助提供一種傳 達此處所表達的觀念的容易方法,并且不意味著限制本發(fā)明的任何實施例的范圍。本發(fā)明的各實施例包括,但不限于,方法、系統(tǒng)以及具體化在一個或多個計算機可 讀介質上的計算機可執(zhí)行指令集。計算機可讀介質包括易失性和非易失性介質、可移動和 不可移動介質、以及可由數(shù)據(jù)庫和各種其它網(wǎng)絡設備讀取的介質。作為示例而非限制,計算 機可讀介質包括以用于存儲信息的任何方法或技術實現(xiàn)的介質。存儲的信息的示例包括計 算機可使用指令、數(shù)據(jù)結構、程序模塊以及其它數(shù)據(jù)表示。介質示例包括,但不限于,信息傳 送介質、隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、 閃存或其他存儲器技術、緊致盤只讀存儲器(CD-ROM)、數(shù)字多功能盤(DVD)、全息介質或其 他光盤存儲、磁帶盒、磁帶、磁盤存儲以及其他磁存儲設備。這些介質示例可被配置成暫時 地、臨時地或永久地存儲數(shù)據(jù)。計算機可讀介質包括唯一地存在于一個處理系統(tǒng)上或分布 在對該計算系統(tǒng)為本地或遠程的多個互連的處理系統(tǒng)之間的協(xié)作或互連的計算機可讀介 質。本發(fā)明的各實施例可以在計算機代碼或機器可使用指令的一般上下文中描述,機 器可使用指令包括由計算系統(tǒng)或其它一個或多個機器執(zhí)行的諸如程序模塊等的計算機可 執(zhí)行指令。一般而言,包括例程、程序、對象、組件、數(shù)據(jù)結構等的程序模塊指的是可執(zhí)行特 定任務或實現(xiàn)特定數(shù)據(jù)類型的代碼。此處所描述的各實施例可以使用各種系統(tǒng)配置來實 現(xiàn),包括手持式設備、消費電子產(chǎn)品、通用計算機、更專用計算設備等。此處所描述的各實施 例還可以使用通過通信網(wǎng)絡或因特網(wǎng)鏈接的遠程處理設備來在分布式計算環(huán)境中實現(xiàn)。在某些實施例中,提供了使用具有存儲器、處理器和數(shù)據(jù)存儲子系統(tǒng)的計算系統(tǒng)來標識合法搜索查詢尖峰的計算機實現(xiàn)的方法。從一個或多個用戶輸入設備接收多個搜索 查詢請求。搜索查詢被分類為尖峰或非尖峰。標識在所接收的搜索查詢請求中存在的一個 或多個尖峰。所標識的尖峰根據(jù)時間或文本相關性被聚類在一起,隨后經(jīng)由計算系統(tǒng)的處 理器來確定每一尖峰的加速度速率。將所確定的聚類的所標識的尖峰的加速度速率與所存 儲的聚類的相似時間行為進行比較。當所確定的加速度速率超過第一閾值水平并且與時間 行為的比較低于第二閾值水平時,可以為特定的聚類尖峰標識惡意攻擊。將不是惡意的聚 類尖峰的所接收的搜索查詢請求和結果作為一個或多個內容組存儲到計算系統(tǒng)的數(shù)據(jù)存 儲子系統(tǒng)中。非惡意的聚類尖峰用作對將來的相關搜索查詢請求的比較和查詢建議。在另 一實施例中,一個或多個計算機可讀存儲介質上包含有計算機可讀指令,這些指令在由計 算設備執(zhí)行時執(zhí)行上述標識合法搜索查詢尖峰的方法。在某些實施例中,提供了使用具有存儲器、處理器和數(shù)據(jù)存儲子系統(tǒng)的計算系統(tǒng) 來產(chǎn)生流行搜索查詢結果的計算機實現(xiàn)的方法。從用戶輸入設備接收搜索查詢請求。在包 含所接收的搜索查詢請求和其他傳入搜索查詢請求的查詢流中標識尖峰。作為搜索多個歷 史索引的結果,查詢流中的尖峰在時間上與來自那些歷史索引的相關內容相關。作為搜索 多個新鮮索引的結果,查詢流中的尖峰還與來自那些新鮮索引的相關內容相關。新鮮索引 包含來自最近爬行的內容源的信息和結果。通過使用計算系統(tǒng)的處理器來確定接收查詢流 中的尖峰的加速度速率。將所確定的加速度速率與相似的所存儲的搜索查詢的時間行為進 行比較。使用分組的內容算法分析來自搜索歷史索引和新鮮索引的結果來確定是否應該將 該搜索查詢請求與現(xiàn)有的搜索查詢結果組聚類在一起。當特定的聚類尖峰的加速度速率超 過第一閾值水平并且與時間行為的比較低于第二閾值水平時,可以標識惡意攻擊。將查詢 流的非惡意的聚類尖峰作為一個或多個季節(jié)性圖庫存儲到計算系統(tǒng)的數(shù)據(jù)存儲子系統(tǒng)中。 根據(jù)所標識的聚類結果的使用期和大小來對搜索查詢請求的結果排定優(yōu)先級。將一個或多 個季節(jié)性圖庫和排定了優(yōu)先級的結果傳遞給用戶輸出設備。在另一實施例中,一個或多個 計算機可讀存儲介質上包含有計算機可讀指令,這些指令在由計算設備執(zhí)行時執(zhí)行上述產(chǎn) 生流行搜索查詢結果的方法。在其他實施例中,提供了使用具有存儲器、處理器和數(shù)據(jù)存儲子系統(tǒng)的計算系統(tǒng) 來標識并對流行度不斷提升的查詢進行聚類的計算機實現(xiàn)的方法。從用戶輸入設備接收搜 索查詢請求。在包含該搜索查詢請求的傳入查詢流活動中標識尖峰。作為搜索多個歷史索 引的結果,傳入查詢流活動中的尖峰在時間上與來自那些歷史索引的相關內容相關。作為 搜索多個新鮮索引的結果,傳入查詢流活動中的尖峰還與來自那些新鮮索引的相關內容相 關。新鮮索引包含來自最近爬行的內容源的信息和結果。分析來自搜索歷史索引和新鮮索 引的結果來確定該搜索查詢請求是否應該與現(xiàn)有的搜索查詢結果組聚類在一起。根據(jù)所標 識的循環(huán)聚類結果的使用期和大小來對搜索查詢請求的結果排定優(yōu)先級。將排定了優(yōu)先級 的搜索查詢請求的結果傳遞給用戶輸出設備。在另一實施例中,一個或多個計算機可讀存 儲介質上包含有計算機可讀指令,這些指令在由計算設備執(zhí)行時執(zhí)行上述標識并對流行度 不斷提升的查詢進行聚類的方法。在簡要描述了此處的各實施例的概覽后,以下描述一示例性計算設備。最初參考 圖1,示出了用于實現(xiàn)本發(fā)明的各實施例的示例性操作環(huán)境,并將其概括指定為計算設備 100。計算設備100只是合適的計算系統(tǒng)的一個示例,并且不旨在對本發(fā)明的各實施例的使用范圍或功能提出任何限制。也不應該將計算設備100解釋為對所示出的任一組件或其組 合有任何依賴性或要求。在一個實施例中,計算設備100是常規(guī)計算機(例如,個人計算機 或膝上型計算機)。本發(fā)明的各實施例還適用于多個互連的計算設備,如計算設備100。計算設備100包括直接或間接耦合以下設備的總線110 存儲器112、一個或多個 處理器114、一個或多個呈現(xiàn)組件116、輸入/輸出(I/O)端口 118、輸入/輸出組件120、和 說明性電源122??偩€110表示一個或多個總線(諸如地址總線、數(shù)據(jù)總線或其組合)。盡 管為了清楚起見用線條示出了圖1的各框,但是在現(xiàn)實中,各組件的劃界并不是那樣清楚, 并且按比喻的說法,更精確而言這些線條將是灰色的和模糊的。例如,可以將諸如顯示設備 等的呈現(xiàn)組件116認為是I/O組件120。同樣,處理器114具有存儲器112。本領域的技術 人員可以理解,這是本領域的特性,并且如上所述,圖1的圖示只是例示可結合本發(fā)明的一 個或多個實施例來使用的示例性計算設備。諸如“工作站”、“服務器”、“膝上型計算機”、“手 持式設備”等分類之間沒有區(qū)別,它們全部都被認為是在圖1的范圍之內并且被稱為“計算 設備”或“計算系統(tǒng)”。計算設備100可包括各種計算機可讀介質。作為示例而非局限,計算機可讀介質 可包括RAM、R0M、EEPR0M、閃存或其他存儲器技術、CDR0M、DVD或其他光學或全息介質、磁帶 盒、磁帶、磁盤存儲或其他磁存儲設備、或可被配置成存儲與此處所描述的各實施例相關的 數(shù)據(jù)和/或執(zhí)行的類似的有形介質。存儲器112包括易失性和/或非易失性存儲器形式的計算機存儲介質。存儲器 112可以是可移動的、不可移動的或其組合。示例性硬件設備包括固態(tài)存儲器、硬盤驅動器、 高速緩存、光盤驅動器等。計算設備100包括從諸如存儲器112或I/O組件120等各種實 體讀取數(shù)據(jù)的一個或多個處理器114。呈現(xiàn)組件116向用戶或其它設備呈現(xiàn)數(shù)據(jù)指示。示 例性呈現(xiàn)組件116包括顯示設備、揚聲器設備、打印設備、振動設備等等。I/O端口 118將計算設備100邏輯上耦合至包括I/O組件120的其它設備,其中某 些設備可以是內置的。說明性I/O組件120包括話筒、操縱桿、游戲手柄、圓盤式衛(wèi)星天線、 掃描儀、打印機、無線設備等等。以上描述的與計算設備100有關的組件也可被包括在無線設備中。如此處所描述 的無線設備指的是任何類型的無線電話、手持式設備、個人數(shù)字助理(PDA) ,BlackBerry , 智能電話、數(shù)碼相機、或可無線地通信的其他移動設備(除了膝上型計算機之外)。本領域 的技術人員可以理解,無線設備也包括執(zhí)行各種功能的處理器和計算機存儲介質。此處所 描述的各實施例適用于計算設備和無線設備兩者。在各實施例中,計算設備也可以指運行 其圖像由無線設備中的照相機來捕捉的應用程序的設備。上述計算系統(tǒng)被配置成供上文中概括描述并在下文中更詳細描述的若干計算機 實現(xiàn)的方法、系統(tǒng)和介質來使用。本發(fā)明的各實施例提供標識合法查詢尖峰并對流行查詢 進行聚類的計算機實現(xiàn)的方法、系統(tǒng)和介質。聚類是試圖在項集合中找到一個或多個共同結構的統(tǒng)計過程。聚類將整個項集合 分成其成員具有某種共同特征的離散的組。通常使用共同性閾值水平來確定將哪些項分組 在一起。不滿足該閾值的項可以與另一聚類分組在一起或者用于形成新的組。聚類是在字符集合中發(fā)現(xiàn)結構的過程。如果文本串和滿足預定閾值的現(xiàn)有聚類之 間存在共同性,則基于文本相似性將該文本串添加到該聚類。如果共同性不滿足預定閾值,則可以創(chuàng)建新的聚類。聚類還可以基于時間相關性,其中各項基于有相似時間的或日歷事件被聚類在一 起。如果兩個查詢的流行度在一段時間內表現(xiàn)得相似,則它們被推斷為是相關的。時間相 關性使用查詢上下文來隱式地“理解”為什么查詢在特定時刻會引起興趣。例如,在二月份 查詢巧克力變得流行而在十月份查詢南瓜變得流行。即使巧克力和二月份不具有文本相似 性(并且南瓜和十月份不具有文本相似性),但是因為它們的時間相關性所以將這些組合 關聯(lián)在一起。該方法提供了對諸如新聞事件等當前事件的快速調整。與事件有關的查詢將 開始立即出現(xiàn)在搜索引擎查詢流中。此處查詢流被定義為實時查詢輸入。時間相關性的形式測量可以通過將查詢χ在特定時間單位t內的頻率定義為t中 χ的出現(xiàn)次數(shù)與t中的查詢總數(shù)的比率來設計。兩個查詢χ和y在許多時間單位的跨度內 的時間相關性的測量是X和y的頻率的標準相關系數(shù)。該相關系數(shù)是-1和+1之間的值, 值越大指示相關性越強。最近鄰居算法和嵌入理論的組合找到了近似最相關的查詢。計算機上存儲并操縱 的大多數(shù)數(shù)據(jù)可被表示為高維空間中的點。然而,操作這些數(shù)據(jù)所需的算法往往隨著維度 的增加而很快地變得陷入停頓。在嵌入理論中,按照幾乎保留各點之間的距離的方式將來 自高維空間的點嵌入到低維空間中。在最近鄰居算法中,處理點集P來找到集合P中與查 詢集合Q中的查詢點q最接近的點P。對象的特征被表示為所定義的空間中的點,并且使用 距離度量來測量對象的相似性或不相似性。為合理的距離度量確定近似最近鄰居對于大多 數(shù)實際目的應該足夠,從而極大地降低了維數(shù)。這種將嵌入理論與最近鄰居算法進行組合 的方法使得輸入查詢的實時處理變得可行。使用頻率函數(shù)的相關性來歸一化方差,并且因 此帶有高方差的錯誤查詢變?yōu)闅w一化而非表現(xiàn)成實際尖峰或流行查詢。這僅僅是實現(xiàn)查詢 之間的時間相關性的一個示例,并且其他的時間相關性可以用于實現(xiàn)本發(fā)明的各實施例。圖2是帶有可以實現(xiàn)本發(fā)明的各實施例的搜索引擎的客戶機服務器系統(tǒng)的框圖。 客戶機服務器系統(tǒng)200包括耦合到通信網(wǎng)絡205的客戶機計算機201??蛻魴C計算機201 可以包括個人計算機,如參考圖1所描述的。客戶機計算機201上可以安裝有基于可擴展 標記語言Uml)和/或超文本標記語言(html)的瀏覽器軟件。通信網(wǎng)絡205可以是例如 LAN或WAN或因特網(wǎng)。應該理解,雖然在圖2中示出一個客戶機計算機201,但實際上,可以 存在許多客戶機計算機同時訪問通信網(wǎng)絡205。通信網(wǎng)絡205還耦合到搜索引擎服務器204,在那里搜索引擎204耦合到搜索引擎 數(shù)據(jù)庫211??蛻魴C計算機201經(jīng)由通信網(wǎng)絡205將查詢202發(fā)送到搜索引擎服務器204。 作為來自搜索引擎服務器204的回報,客戶機計算機201接收與位于搜索引擎數(shù)據(jù)庫211 中的數(shù)據(jù)相對應的搜索結果203。搜索引擎服務器204耦合到查詢日志數(shù)據(jù)庫206。查詢日志數(shù)據(jù)庫206將查詢202 存儲到包括所有從一個或多個客戶機計算機201接收的查詢的數(shù)據(jù)庫中。查詢202通過聚 類計算機207從查詢日志數(shù)據(jù)庫206接收,在那里將查詢202與存儲在數(shù)據(jù)庫210中的現(xiàn)有 聚類208進行比較。取決于查詢202和數(shù)據(jù)庫210中的現(xiàn)有聚類208之間的共同性程度, 將向數(shù)據(jù)庫210提供經(jīng)更新的聚類213。如果查詢202滿足與現(xiàn)有聚類208的預定共同性 程度,則將查詢202添加到該聚類。如果查詢202不滿足與現(xiàn)有聚類208的預定共同性程 度,則查詢202將創(chuàng)建新的聚類。聚類計算機207隨后可以從數(shù)據(jù)庫210導出話題209,話題209將是數(shù)據(jù)庫210中的聚類的成員。一旦確定了話題209,聚類計算機207隨后將話題 209按照經(jīng)修改的查詢212的形式提供給搜索引擎服務器204。搜索引擎服務器204在搜 索引擎數(shù)據(jù)庫211中進行對經(jīng)修改的查詢212的搜索。搜索引擎數(shù)據(jù)庫211隨后將搜索結 果203提供給搜索引擎服務器204。搜索引擎服務器204隨后經(jīng)由通信網(wǎng)絡205將搜索結 果203提供給客戶機計算機201。圖2只是可以用于本發(fā)明的各實施例的客戶機服務器系 統(tǒng)的一個示例。以上描述的客戶機服務器系統(tǒng)的其他系統(tǒng)或變形也可用于本發(fā)明的各實施 例。查詢的聚類降低了噪聲并幫助在尖峰和噪聲之間進行區(qū)分。根據(jù)時間或文本相關 性來對來自查詢流的輸入查詢進行聚類提供了經(jīng)分組的內容搜索查詢響應,諸如循環(huán)聚類 或季節(jié)性圖庫。將算法用于現(xiàn)有的查詢日志來確定在一時間段內形成的關鍵字聚類。聚類 常常與諸如節(jié)日、體育比賽或獎項等關鍵事件相關聯(lián);然而,聚類可用于季節(jié)性趨勢和非季 節(jié)性趨勢兩者。另外,所執(zhí)行的查詢常常在事件之前、在事件期間、以及在事件之后會隨著 時間改變。通過將現(xiàn)有的查詢日志(歷史日志)與查詢流(當前活動)進行組合,該算法 提供了用戶會感興趣的事件的時間跨度的關聯(lián)。因此,搜索結果頁面將包括常規(guī)算法結果, 以及用戶執(zhí)行的其他相關查詢的其他結果組。分組的內容結果可以根據(jù)尖峰查詢的新鮮程 度(newness)(使用期)和大小進行排序。聚類的大小通常是對時間事件的重要性的一個 好的指示符。帶有單個查詢或少量查詢的聚類常常是垃圾,因為人們使用不同的查詢來搜 索相同的信息。如果一個時間聚類或一組非常相似的聚類按規(guī)則的時間跨度出現(xiàn),則它被 認為是循環(huán)聚類。如果循環(huán)聚類的時間跨度是一年,則該循環(huán)聚類是季節(jié)性的,因此它被稱 為季節(jié)性循環(huán)聚類或季節(jié)性圖庫。將使用諸如奧斯卡 、金球 、或格萊美獎 等獎項的搜索查詢話題來描述分組的 內容搜索查詢響應的一個示例。在事件之前的某幾天或幾周,用戶可能對先前獲獎者、提名 者、或先前獲獎者的圖像和視頻感興趣。因此,除了對于查詢的常規(guī)算法結果之外,還會返 回提名者、圖像和視頻的結果。就在事件發(fā)生之前,所返回的額外結果可以包括為實際事件 所作的準備。類似地,在事件發(fā)生之后,所返回的結果可以包括今年的獲獎者連同來自今年 事件的圖像和視頻。另一示例查詢將是關于母親節(jié)的話題。母親節(jié)之前的大約一個月,查 詢往往是面向諸如禮物想法、買賣、日期和報價等事物的搜索。就在母親節(jié)之前,查詢可以 圍繞最后一刻送貨來進行聚類。在母親節(jié)之后,查詢可以圍繞禮物返回來進行聚類。分組的內容搜索查詢結果將演化成取決于與查詢事件日期有關的時序來關聯(lián)于 并包括其他組。對于本質上是尖峰的查詢,新鮮的數(shù)據(jù)結果常常與用戶意圖更相關。例如, 對夏威夷的典型查詢通??梢試@旅行和度假來進行聚類。然而,如果夏威夷剛發(fā)生火山 噴發(fā),則分組的內容結果仍然會返回典型的關于旅行和度假的結果,但還會返回對火山活 動的最新更新的結果?,F(xiàn)在將參考圖3描述一種用于使用加權平均法來檢測尖峰查詢的計算機實現(xiàn)的 方法。對于查詢流中的每一個唯一的查詢,計算瞬時速度。這被計算為對于特定參數(shù)的即 時查詢請求和最新近查詢請求之間的時間差的倒數(shù)。這在圖3中示出,其中dt=(該查詢 實例的時間-上一次看見該查詢的時間),以及μ =瞬時查詢速度=l/dt。新的或更新的 加權平均速度(V新)被計算為舊的或先前的加權平均速度(YV10)和加權瞬時速度[(I-Y) μ]的組合。 表示應用于速度的權重,其范圍從ι(未賦予權重)到ο(非常重要的加權)。這在圖3中示出,其中Vli= γν10 + (1-γ) μ =新的或更新的加權平均速度。將對于特定 參數(shù)的每一查詢請求的瞬時查詢加速度(α)計算為新的或更新的加權平均速度與舊的或 先前的加權平均速度之差乘以瞬時查詢速度。這在圖3中示出,其中α = (Vli-V10) μ = 瞬時查詢加速度。新的或經(jīng)更新的加權平均加速度(ωΛ)被計算為舊的或先前的加權平 均加速度(β ω舊)和加權瞬時加速度[(1-β) α]的組合。β表示應用于加速度的權重, 其范圍從1(未賦予權重)到0(非常重要的加權)。這在圖3中示出,其中ω-= β ω10 + (1-β) α =新的或經(jīng)更新的加權平均加速度??梢詫⑵渌畔⒓傻揭陨系挠嬎阒衼磉_ 到更精確的模式。利用計算機實現(xiàn)的算法來通過為單個參數(shù)繪制如上計算的加速度和速度的圖來 確定尖峰是否發(fā)生。測量就在加速度增大前的速度;該速度被定義為基礎速度。如果加速 度與速度的比率大于某一預定值,諸如1. 5,則每一出現(xiàn)加速度的瞬間就測量用戶發(fā)出對特 定參數(shù)的查詢的速率(被定義為尖峰加速度)。如果加權平均加速度不小于其尖峰的一個 百分比并且如果加權平均速度大于其基值的一個百分比,則查詢就是尖峰查詢。換言之,就 在加速度出現(xiàn)之前當加權平均速度大于其基礎速度,并且在每一出現(xiàn)加速度的瞬間加權平 均加速度都等于或大于尖峰加速度值的一個百分比時,則出現(xiàn)尖峰。如果對于特定查詢的 加速度是負的,則該查詢正在喪失重要性。使用諸如參考圖1所述的計算系統(tǒng)來處理上述 的計算機實現(xiàn)的算法。對速度或加速度賦予的權重可以不同。隨著對一個因素賦予的權重越來越大,在 某種程度上犧牲了其他因素。作為一個示例,先前的或舊的加權平均速度的第一貢獻可以 隨著瞬時速度的第二貢獻而變化。先前的或舊的加權平均速度和瞬時速度一起通過平衡掉 瞬時尖峰來標識錯誤尖峰。作為另一示例,可以對用于獲得查詢結果的速度賦予比查詢結 果的準確性更高的權重,或者同樣的,可以對準確性賦予比獲得較快的結果更高的權重??梢酝ㄟ^從加權現(xiàn)有查詢速度和加權瞬時查詢速度中確定加權平均查詢速度來 標識流行度不斷提升的合法查詢。加權平均查詢速度和加權現(xiàn)有查詢速度可以根據(jù)所需數(shù) 量的過去的采樣點來修改。惡意攻擊通常由加速度的快速攀升來表征,而合法通信往往具 有較慢的攀升的加速度。另外,惡意攻擊往往源自單個IP地址或用戶,而合法通信往往用 多個單詞或短語來表達查詢。圖4是示出用于檢測尖峰和季節(jié)性查詢的方法的流程圖。在步驟410處接收查 詢流。隨后在步驟420處使用上述的方法、計算和算法作出關于對于特定參數(shù)的查詢流是 否是尖峰的判定。如果確定發(fā)生尖峰,則在步驟430處進行搜索來確定對于該特定話題是 否已經(jīng)存在聚類。搜索不同的索引,諸如歷史索引和新鮮文檔索引。選擇變量來將特定權 重分配到一個或多個索引。例如,市場上的新產(chǎn)品將具有較少的歷史信息。因此,將對歷史 索引分配較低的權重而對新鮮文檔索引分配較高的權重。當檢測到尖峰時,將比在沒有出 現(xiàn)尖峰時更頻繁地更新新鮮索引。類似地,在尖峰期間比在沒有出現(xiàn)尖峰時更頻繁地通過 從因特網(wǎng)收集并分類信息的web爬行器重新爬行當前內容源。在檢測到尖峰時,自動地將 web爬行器更新其現(xiàn)有信息的速率-重新爬行速率-調整為更高的速率。如果發(fā)現(xiàn)現(xiàn)有聚 類匹配該查詢,則在步驟440處將該查詢分配到該聚類。如果在搜索索引之后未發(fā)現(xiàn)適當 的現(xiàn)有聚類,則在步驟450處生成新的聚類。在生成了新的聚類之后,該過程在步驟460處 結束。如果在步驟420處未確定尖峰,則過程也在步驟460處的該點處結束。
圖5是用于示出接收并可能合并聚類的方法的流程圖,該流程圖可以作為當查詢 被分配到新的或現(xiàn)有的聚類的情況下的圖4的延伸來對待。在步驟510處接收查詢聚類。 在步驟520處計算語言模型,其中帶有若干相似時間線的聚類將基于時間分布來使用基于 時間的語言模型,而帶有若干共同項的聚類將使用基于文本的語言模型。在步驟530處, 如果語言模型與其他聚類相似,則在步驟540處將該聚類與相似的現(xiàn)有聚類合并。在步驟 540處合并聚類之后,或者如果在步驟530處不存在要與所接收的聚類合并的相似聚類,則 該過程在步驟550處結束。圖6是示出標識合法搜索查詢尖峰的計算機實現(xiàn)的方法的流程圖。在步驟610處, 從一個或多個用戶輸入設備接收多個搜索查詢請求。在步驟620處,標識所接收的搜索查 詢請求中可能存在的一個或多個尖峰。在步驟630處,作為示例,通過利用以上參考圖3描 述的方法來確定每一所接收的尖峰的加速度速率。在步驟640處,隨后根據(jù)時間或文本相 關性將所標識的尖峰聚類在一起。所標識的尖峰還可以與多個相似的所存儲的搜索查詢結 果聚類在一起。在步驟650處,將所確定的聚類的所標識的尖峰的加速度速率與所存儲的 聚類的相似時間行為進行比較。在步驟660處,當所確定的加速度速率超過第一閾值水平 并且與時間行為的比較低于第二閾值水平時,所標識的尖峰可以被認為是惡意的。例如,惡 意攻擊通常會具有加速度的迅猛增長,因為惡意查詢通常源自單個IP地址或用戶。合法查 詢具有較平緩的加速度本質。另外,惡意攻擊通常不具有先前歷史,并且因此不具有與所存 儲的聚類相關聯(lián)的時間行為。隨后在步驟670處,所接收的搜索查詢請求和結果的非惡意 的聚類尖峰被存儲為一個或多個內容組。這些所存儲的一個或多個內容組可以用于對將來 相關的搜索查詢請求的比較和查詢建議。該一個或多個內容組通過生成將來圖庫的日歷來準備將來聚類,該日歷包含在特 定時間段內具有相似時間線的聚類結果。因此,如上所述,對于南瓜的查詢將與先前存儲的 關于十月份和萬圣節(jié)的季節(jié)性圖庫進行聚類。如果查詢輸入與所存儲的季節(jié)性聚類相似, 并且該查詢輸入的一年中的時間與所存儲的聚類的時間行為匹配,則給出季節(jié)性結果。查 詢建議還可以從諸如所存儲的季節(jié)性圖庫等所存儲的內容組中生成。另外,季節(jié)性尖峰用 于響應其他查詢;從尖峰中分割、提取或挖掘信息。將所標識的尖峰聚類在一起降低了錯誤 尖峰的數(shù)量,提高了檢測流行查詢的分類準確性,并且通過比較跨多個時間段的聚類來檢 測季節(jié)性查詢。圖7是示出產(chǎn)生流行搜索查詢結果的計算機實現(xiàn)的方法的流程圖。在步驟710處, 從用戶輸入設備接收搜索查詢請求。在步驟720處,在包含所接收的搜索查詢請求和其他 傳入搜索查詢請求的查詢流中標識尖峰。在步驟730處,搜索包含在時間上與查詢流中的 尖峰相關的信息和結果的多個歷史索引。在步驟740處,搜索包含來自最近爬行的內容源 的、與查詢流中的尖峰相關的信息和結果的多個新鮮索引。當檢測到尖峰時,更頻繁地刷新 新鮮索引并且更頻繁地爬行內容源。在步驟750處,確定接收查詢流中的尖峰的加速度速 率。在步驟760處,將所確定的加速度速率與相似的所存儲的搜索查詢的時間行為進行比 較。在步驟770處,經(jīng)由分組的內容算法分析來自搜索歷史索引和新鮮索引的結果來確定 是否應該將該搜索查詢請求與現(xiàn)有的搜索查詢結果分組聚類在一起。在步驟780處,當加 速度速率超過第一閾值水平并且與時間行為的比較低于第二閾值水平時,查詢流中的特定 聚類尖峰可以被標識為惡意攻擊。當聚類尖峰低于尖峰加速度速率并且當平均速度在基礎
12速度以上的某一百分比時,可以確定非惡意的聚類尖峰的加速度速率。在步驟785處,將 查詢流的非惡意的聚類尖峰存儲為一個或多個內容組。在步驟790處,根據(jù)所標識的聚類 結果的使用期和大小來對搜索查詢請求的結果排定優(yōu)先級。在步驟795處,將一個或多個 內容組和排定了優(yōu)先級的搜索查詢請求的結果傳遞到用戶輸出設備。季節(jié)性圖庫內容組包 含聚類的季節(jié)性結果的日歷,其中聚類的季節(jié)性結果在特定日歷時間段內具有共同的時間 線。日歷從數(shù)據(jù)存儲子系統(tǒng)中檢索。聚類的季節(jié)性結果的日歷的一個示例是十月份的日歷, 其中對于“南瓜”和“萬圣節(jié)”的多個查詢在該月末被聚類。將這些所存儲的季節(jié)性圖庫與 相似的查詢流請求進行組合來提供查詢建議。圖8是示出標識流行度不斷提升的查詢并對其進行聚類的計算機實現(xiàn)的方法的 流程圖。在步驟810處,從用戶輸入設備接收搜索查詢請求。在步驟815處,在包含搜索查 詢請求的傳入查詢流活動中標識尖峰。在步驟820處,搜索包含在時間上與查詢流活動中 的尖峰相關的信息和結果的多個歷史索引。對歷史索引的這種搜索包括從帶有與搜索查詢 請求相似的特征的先前存儲的聚類內容組中提取信息。在步驟830處,搜索包含來自最近 爬行的內容源的信息和結果的多個新鮮索引。最近爬行的內容源包含先前查詢流活動中的 一個或多個所標識的尖峰的結果。作為對查詢的流行度的反應,不斷地用來自相關的經(jīng)分 類的查詢的信息來更新新鮮索引。一個或多個所標識的尖峰包含與搜索查詢請求的時間或 文本相關性。在步驟840處,分析來自搜索歷史索引和新鮮索引的結果來確定搜索查詢請 求是否應該與現(xiàn)有搜索查詢結果組聚類在一起。在步驟850處,根據(jù)所標識的聚類結果的 使用期和大小來對搜索查詢請求的結果排定優(yōu)先級。在步驟860處,將排定了優(yōu)先級的結 果和任何查詢建議傳遞到用戶輸出設備。還可以用所傳遞的結果來建議時間上相關或相似 的時間線在線廣告,諸如十月份期間萬圣節(jié)服裝的廣告。所描繪的各組件以及未示出的實施例的許多不同的安排都是可能的,而不背離本 發(fā)明的精神和范圍。已帶著說明而非限制的意圖描述了本發(fā)明的各實施例??梢岳斫?,特定的特征和子組合是有用的,并且可以使用而無需參考其他特征和 子組合并且被認為是在權利要求書的范圍之內的。并非需要以所描述的特定次序來執(zhí)行在 各附圖中所列出的所有步驟。
權利要求
1.一種使用具有存儲器、處理器和數(shù)據(jù)存儲子系統(tǒng)的計算系統(tǒng)來標識合法搜索查詢尖 峰的計算機實現(xiàn)的方法,所述計算機實現(xiàn)的方法包括從一個或多個用戶輸入設備接收多個搜索查詢請求; 標識所接收的搜索查詢請求中的一個或多個尖峰; 根據(jù)時間或文本相關性將所標識的尖峰聚類在一起;經(jīng)由所述計算系統(tǒng)的處理器確定接收所述搜索查詢請求中的每一尖峰的加速度速率;將所確定的聚類的所標識的尖峰的加速度速率與所存儲的聚類的相似時間行為進行 比較;當所確定的加速度速率超過第一閾值水平并且與時間行為的比較低于第二閾值水平 時,將所接收的搜索查詢請求的特定聚類尖峰標識為惡意攻擊;以及將所接收的搜索查詢請求和結果的非惡意的聚類尖峰作為一個或多個內容組存儲到 所述計算系統(tǒng)的數(shù)據(jù)存儲子系統(tǒng)中,以供將來相關的搜索查詢請求的比較和查詢建議。
2.如權利要求1所述的計算機實現(xiàn)的方法,其特征在于,標識一個或多個尖峰包括 確定來自對于特定參數(shù)的查詢流的每一查詢請求的瞬時速度,所述瞬時速度被計算為對所述特定參數(shù)的即時查詢請求和最新近查詢請求之間的時間差的倒數(shù);從對于所述特定參數(shù)的先前加權平均速度和加權瞬時速度的組合中計算經(jīng)更新的加 權平均速度;將對所述特定參數(shù)的每一查詢請求的瞬時加速度計算為所述經(jīng)更新的加權平均速度 和所述先前加權平均速度之差除以瞬時查詢請求和最新近查詢請求之間的時間差;以及從對于所述特定參數(shù)的先前加權平均加速度和加權瞬時加速度的組合中確定經(jīng)更新 的加權平均加速度。
3.如權利要求2所述的計算機實現(xiàn)的方法,其特征在于,在加速度出現(xiàn)之前當所述加 權平均速度大于基礎速度,并且在出現(xiàn)加速度的每一瞬間所述加權平均加速度都等于或大 于尖峰加速度值的一個百分比時,出現(xiàn)尖峰。
4.如權利要求2所述的計算機實現(xiàn)的方法,其特征在于,所述先前加權平均速度的第 一貢獻可以隨著所述瞬時速度的第二貢獻而改變。
5.如權利要求2所述的計算機實現(xiàn)的方法,其特征在于,所述先前加權平均速度和所 述瞬時速度通過平均掉瞬時尖峰來標識錯誤尖峰。
6.如權利要求1所述的計算機實現(xiàn)的方法,其特征在于,所述聚類還包括將所標識的 尖峰與多個相似的所存儲的搜索查詢結果聚類在一起。
7.如權利要求1所述的計算機實現(xiàn)的方法,其特征在于,所述聚類產(chǎn)生了減少數(shù)量的 錯誤尖峰、改進了檢測流行查詢的分類準確性、并且通過比較跨多個時間段的聚類來檢測 季節(jié)性查詢。
8.一種使用具有存儲器、處理器和數(shù)據(jù)存儲子系統(tǒng)的計算系統(tǒng)來產(chǎn)生流行搜索查詢結 果的計算機實現(xiàn)的方法,所述計算機實現(xiàn)的方法包括從用戶輸入設備接收搜索查詢請求;在包含所接收的搜索查詢請求和其他傳入搜索查詢請求的查詢流中標識尖峰; 作為搜索多個歷史索引的結果,將所述查詢流中的尖峰與來自所述歷史索引的相關內容在時間上相關;作為搜索多個新鮮索引的結果,將所述查詢流中的尖峰與來自所述新鮮索引的相關內 容在時間上相關,其中所述新鮮索引包含來自最近爬行的內容源的信息和結果; 經(jīng)由所述計算系統(tǒng)的處理器確定接收所述搜索查詢流中的尖峰的加速度速率; 將所確定的加速度速率與相似的所存儲的搜索查詢的時間行為進行比較; 經(jīng)由分組的內容算法分析來自搜索所述歷史索引和所述新鮮索引的結果來確定是否 應該將所述搜索查詢請求與現(xiàn)有的搜索查詢結果組聚類在一起;當加速度速率超過第一閾值水平并且與時間行為的比較低于第二閾值水平時,將所述 查詢流中的特定聚類尖峰標識為惡意攻擊;將所述查詢流的非惡意的聚類尖峰作為一個或多個季節(jié)性圖庫存儲到所述計算系統(tǒng) 的數(shù)據(jù)存儲子系統(tǒng)中;根據(jù)所標識的聚類結果的使用期和大小來對所述搜索查詢請求的結果排定優(yōu)先級;以及將所述一個或多個季節(jié)性圖庫和所述排定了優(yōu)先級的搜索查詢請求的結果傳遞到用 戶輸出設備。
9.如權利要求8所述的計算機實現(xiàn)的方法,其特征在于,所述非惡意的聚類尖峰包括 低于尖峰加速度速率的加速度速率以及在基礎速度之上提高了特定百分比的平均速度。
10.如權利要求8所述的計算機實現(xiàn)的方法,其特征在于,當檢測到尖峰時,更頻繁地 刷新所述新鮮索弓I并且更頻繁地爬行所述內容源。
11.如權利要求8所述的計算機實現(xiàn)的方法,其特征在于,所述一個或多個季節(jié)性圖庫 包括從所述數(shù)據(jù)存儲子系統(tǒng)檢索的聚類的季節(jié)性結果的日歷。
12.如權利要求11所述的計算機實現(xiàn)的方法,其特征在于,將所述一個或多個所存儲 的季節(jié)性圖庫與一個或多個相似的查詢流請求進行組合來向所述用戶輸入設備提供查詢 建議。
13.一種使用具有存儲器、處理器和數(shù)據(jù)存儲子系統(tǒng)的計算系統(tǒng)來標識流行度不斷提 升的查詢并對其進行聚類的計算機實現(xiàn)的方法,所述計算機實現(xiàn)的方法包括從用戶輸入設備接收搜索查詢請求; 在包括所述搜索查詢請求的傳入查詢流活動中標識尖峰;作為搜索多個歷史索引的結果,將所述傳入查詢流活動中的尖峰與來自所述歷史索引 的相關內容在時間上相關;作為搜索多個新鮮索引的結果,將所述傳入查詢流活動中的尖峰與來自所述新鮮索引 的相關內容在時間上相關,其中所述新鮮索引包含來自最近爬行的內容源的信息和結果;分析來自搜索所述歷史索引和所述新鮮索引的結果來確定所述搜索查詢請求是否應 該與現(xiàn)有搜索查詢結果組聚類在一起;根據(jù)所標識的循環(huán)聚類結果的使用期和大小來對所述搜索查詢請求的結果排定優(yōu)先 級;以及將所述排定了優(yōu)先級的搜索查詢請求的結果傳遞到用戶輸出設備。
14.如權利要求13所述的計算機實現(xiàn)的方法,其特征在于,搜索多個歷史索引包括從 帶有與所述搜索查詢請求相似的特征的先前存儲的循環(huán)聚類結果中提取信息。
15.如權利要求13所述的計算機實現(xiàn)的方法,其特征在于,還包括傳遞來自所述分析 的查詢建議。
16.如權利要求13所述的計算機實現(xiàn)的方法,其特征在于,還包括向所述用戶設備建 議在時間上相關的在線廣告。
17.如權利要求13所述的計算機實現(xiàn)的方法,其特征在于,作為對查詢的流行度的反 應,不斷地用來自相關分類查詢的信息來更新所述新鮮索引。
18.如權利要求13所述的計算機實現(xiàn)的方法,其特征在于,還包括當所確定的加速度 速率超過第一閾值水平并且與時間行為的比較低于第二閾值水平時,將所接收的搜索查詢 請求的特定聚類尖峰標識為惡意攻擊。
19.如權利要求13所述的計算機實現(xiàn)的方法,其特征在于,還包括通過從加權現(xiàn)有查 詢速度和新的瞬時查詢速度中確定加權平均查詢速度來標識流行度不斷提升的合法查詢。
20.如權利要求19所述的計算機實現(xiàn)的方法,其特征在于,根據(jù)所需數(shù)量的過去的采 樣點來修改所述加權平均查詢速度和所述加權現(xiàn)有查詢速度中的一個或多個。
全文摘要
本發(fā)明提供了一種檢測尖峰查詢的方法、系統(tǒng)和介質。提供了用于標識流行度不斷提升的查詢并對其進行聚類的方法、系統(tǒng)和介質??梢允褂梦谋净驎r間相關性將所得的聚類查詢與其他所存儲的查詢進行比較。搜索包含來自最近爬行的內容源的信息和結果的新鮮索引來獲得最近查詢活動。還搜索歷史索引來獲得匹配聚類查詢流的、在時間上相關的信息和結果??梢杂嬎慵夥宓募訖嗥骄铀俣葋碓诤戏夥搴筒缓戏夥逯g進行區(qū)分。將合法聚類與其他所存儲的聚類進行組合并作為分組的內容結果呈現(xiàn)給用戶輸出設備。
文檔編號G06F17/30GK102129450SQ20111003089
公開日2011年7月20日 申請日期2011年1月19日 優(yōu)先權日2010年1月20日
發(fā)明者A·P·奧克利, C·A·梅耶斯, D·L·康奈爾, G·P·戈帕爾, G·薩瑞恩, H·E·威廉姆斯, J·K·高亞爾, M·邵庫赫, N·B·沙曼, N·E·克拉斯韋爾, N·阿格拉沃爾, S·阿哈里 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1