在搜索引擎結(jié)果頁(yè)面上聚集web頁(yè)面的制作方法
【專利摘要】提供了用于通過(guò)在經(jīng)聚集的文檔的“新鮮的”壽命外維持相應(yīng)聚集的文檔的標(biāo)識(shí)(ID)號(hào)來(lái)遞送針對(duì)新近的和非新近的事件的經(jīng)聚集的搜索結(jié)果的方法、系統(tǒng)以及媒體。當(dāng)群集根據(jù)相似內(nèi)容被形成時(shí),ID號(hào)和相關(guān)聯(lián)的屬性被分配給所述群集中的每一個(gè)。這提供了用來(lái)跟蹤并且檢索相應(yīng)群集以用于搜索結(jié)果的后續(xù)遞送的機(jī)制。即使在所述文檔不再被認(rèn)為是“新鮮的”之后,所述群集的相應(yīng)ID號(hào)也被維持。這些相似內(nèi)容的群集根據(jù)發(fā)表日期被進(jìn)一步細(xì)分。這為以不同的時(shí)間跨度發(fā)生的相似內(nèi)容的事件提供了單獨(dú)的細(xì)分的群集,其在SERP中連同單獨(dú)的非聚集的搜索結(jié)果一起被遞送。
【專利說(shuō)明】在搜索引擎結(jié)果頁(yè)面上聚集WEB頁(yè)面
【背景技術(shù)】
[0001]數(shù)據(jù)可以被以電子形式存儲(chǔ)以用于以計(jì)算機(jī)化的技術(shù)使用。結(jié)合各種不同的應(yīng)用使用的大量計(jì)算機(jī)化的數(shù)據(jù)對(duì)于如何定位并且組織相關(guān)信息提出了挑戰(zhàn)。聚集指的是將諸如在計(jì)算機(jī)化的數(shù)據(jù)中包括的文檔之類的一組數(shù)據(jù)對(duì)象分類成組以便每個(gè)組包括相似對(duì)象并且屬于其它組的對(duì)象不相似的過(guò)程。
[0002]聚集提供了當(dāng)存在關(guān)于特定話題的大量的信息或新聞時(shí)將新鮮文檔分組在一起的手段。群集的概要或抽象連同到群集內(nèi)的文檔的鏈接和其它相干信息一起被顯示在搜索引擎結(jié)果頁(yè)面(SERP)中。新鮮文檔是關(guān)于新近話題或感興趣主題的文檔。在短時(shí)間段之后,文檔不再被認(rèn)為是新鮮文檔。文檔在它們是新鮮的時(shí)被聚集,并且它們被提供有標(biāo)識(shí)號(hào)。這個(gè)信息與文檔一起保持以便幫助辨別這個(gè)群集和關(guān)于相似話題的新的群集。
[0003]用于聚集對(duì)象的技術(shù)包括但不限于層次聚集方法或分割方法。層次算法通過(guò)要么將較小群集合并成較大群集要么通過(guò)將較大群集分成較小群集來(lái)接連地進(jìn)行。相比之下,分割算法通過(guò)將數(shù)據(jù)集分解成一組不相交的群集立刻確定所有群集。層次聚集算法能夠被進(jìn)一步描述為分裂方法(即,自頂向下)或凝聚方法(即,自底向上)。分裂算法始于整個(gè)集合并且遞歸地將該數(shù)據(jù)集分割成兩個(gè)(或更多個(gè))片,從而形成樹(shù)。凝聚算法從它自己的群集中的每個(gè)對(duì)象開(kāi)始并且迭代地合并群集。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的實(shí)施例被以下權(quán)利要求限定。各種實(shí)施例的高級(jí)綜述被提供來(lái)介紹下面在【具體實(shí)施方式】部分中被進(jìn)一步描述的系統(tǒng)、方法以及媒體的概述。本概述既不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在被用來(lái)孤立地幫助確定所要求保護(hù)的主題的范圍。
[0005]用于遞送針對(duì)新近的和非新近的事件的聚集的搜索結(jié)果的系統(tǒng)、方法以及計(jì)算機(jī)可讀存儲(chǔ)媒體被描述。相應(yīng)群集的標(biāo)識(shí)號(hào)貫穿相應(yīng)文檔的生命或者持續(xù)達(dá)任何其它指定的時(shí)間周期在經(jīng)聚集的文檔的“新鮮的”壽命外被維持。這些長(zhǎng)期群集根據(jù)發(fā)表日期被進(jìn)一步劃分成一個(gè)或多個(gè)群集。結(jié)果,非新鮮文檔繼續(xù)被聚集,但同樣被根據(jù)不同的時(shí)間線按發(fā)表日期劃分成單獨(dú)的相似事件。
【專利附圖】
【附圖說(shuō)明】
[0006]參考附圖,在下面詳細(xì)地描述本發(fā)明的說(shuō)明性實(shí)施例,附圖通過(guò)引用被并入這里,并且其中:
圖1是依據(jù)本發(fā)明的實(shí)施例使用的示范性計(jì)算機(jī)操作系統(tǒng)的示意表示;
圖2是依據(jù)本發(fā)明的實(shí)施例使用的查詢聚集系統(tǒng)的示意表示;
圖3是依據(jù)本發(fā)明的實(shí)施例使用的代表性查詢聚集過(guò)程的流程圖;
圖4是依據(jù)本發(fā)明的實(shí)施例使用的群集和子群集信息的說(shuō)明;
圖5是依據(jù)本發(fā)明的實(shí)施例使用的遞送搜索結(jié)果的計(jì)算機(jī)實(shí)施的方法的流程圖; 圖6是依據(jù)本發(fā)明的實(shí)施例使用的搜索引擎結(jié)果頁(yè)面的說(shuō)明;
圖7是遞送持久性群集的方法的流程圖,指令被存儲(chǔ)在依據(jù)本發(fā)明的實(shí)施例使用的一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)媒體上;以及
圖8是在SERP中提供經(jīng)聚集的非唯一結(jié)果的方法的流程圖,指令被存儲(chǔ)在依據(jù)本發(fā)明的實(shí)施例使用的一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)媒體上。
【具體實(shí)施方式】
[0007]許多新聞故事在初始發(fā)表之后不久(諸如一個(gè)或兩個(gè)星期以后)對(duì)于一般公眾而言便不是有趣的。此外,如果新聞故事仍然是有趣的,則它可能已經(jīng)某種程度上從初始新聞推力(thrust)改變了其焦點(diǎn)。然而,存在其中“舊”新聞故事諸如鑒于相似的新近的新聞故事收回興趣的數(shù)個(gè)實(shí)例。例如,新近的大地震或海嘯被頻繁地與在新近事件之前數(shù)個(gè)星期、月、年發(fā)生的在先的地震或海嘯相比較。因此,維持以前事件的群集達(dá)較長(zhǎng)的時(shí)間段(諸如貫穿組成群集的單獨(dú)的文檔的生命)將是有利的。
[0008]當(dāng)群集根據(jù)相似內(nèi)容被形成時(shí),標(biāo)識(shí)(ID)號(hào)和相關(guān)聯(lián)的屬性被分配給群集中的每一個(gè)。這提供了一種機(jī)制來(lái)跟蹤并且檢索相應(yīng)群集以用于搜索結(jié)果的后續(xù)遞送。即使在文檔不再被認(rèn)為是“新鮮的”之后,群集的相應(yīng)ID號(hào)也被維持。這些相似內(nèi)容的群集根據(jù)發(fā)表日期被進(jìn)一步細(xì)分。這為以不同的時(shí)間跨度發(fā)生的相似內(nèi)容事件提供了單獨(dú)的細(xì)分的群集。作為例子,針對(duì)在中國(guó)在2002、2006以及2010年發(fā)生的三次不同的飛機(jī)事故的搜索結(jié)果將在SERP中連同單獨(dú)的相關(guān)搜索結(jié)果一起作為三個(gè)不同的群集被遞送。
[0009]本發(fā)明的實(shí)施例提供了用于遞送針對(duì)新近的和非新近的事件的聚集的搜索結(jié)果的系統(tǒng)、方法以及計(jì)算機(jī)可讀存儲(chǔ)媒體。這個(gè)具體描述以下權(quán)利要求滿足可適用的法定要求。
[0010]術(shù)語(yǔ)“步驟”、“框”等在本文中可能被用來(lái)暗示被采用方法的不同動(dòng)作,但術(shù)語(yǔ)不應(yīng)該被解釋為隱含任何特定順序,除非單獨(dú)的步驟、框等的順序被明確地描述了。同樣地,術(shù)語(yǔ)“模塊”等在本文中可能被用來(lái)暗示被采用系統(tǒng)的不同構(gòu)件,但術(shù)語(yǔ)不應(yīng)該被解釋為暗含任何特定順序,除非單獨(dú)的模塊等的順序被明確地描述了。
[0011]本發(fā)明的實(shí)施例包括而不限于方法、系統(tǒng)以及在一個(gè)或多個(gè)計(jì)算機(jī)可讀媒體上體現(xiàn)的計(jì)算機(jī)可執(zhí)行指令集。計(jì)算機(jī)可讀媒體包括易失性和非易失性媒體、可拆卸和非可拆卸媒體、以及可由數(shù)據(jù)庫(kù)和各種其它網(wǎng)絡(luò)設(shè)備讀取的媒體。通過(guò)例子和非限制的方式,計(jì)算機(jī)可讀存儲(chǔ)媒體包括用任何方法或技術(shù)實(shí)施以用于存儲(chǔ)信息的媒體。存儲(chǔ)的信息的例子包括計(jì)算機(jī)可用指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊以及其它數(shù)據(jù)表示。媒體例子包括但不限于信息遞送媒體、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦可編程只讀存儲(chǔ)器(EEPROM)、閃速存儲(chǔ)器或其它存儲(chǔ)器技術(shù)、光盤(pán)只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能盤(pán)(DVD)、藍(lán)光盤(pán)、全息媒體或其它光盤(pán)儲(chǔ)存器、磁盒、磁帶、磁盤(pán)儲(chǔ)存器和其它磁存儲(chǔ)設(shè)備。媒體的這些例子能夠被配置成暫時(shí)地、臨時(shí)地或者永久地存儲(chǔ)數(shù)據(jù)。計(jì)算機(jī)可讀媒體包括協(xié)作或互連的計(jì)算機(jī)可讀媒體,其排他地存在于處理系統(tǒng)上或者分布在對(duì)于該處理系統(tǒng)可以是本地的或者遠(yuǎn)離該處理系統(tǒng)的多個(gè)互連的處理系統(tǒng)之中。
[0012]本發(fā)明的實(shí)施例可以在計(jì)算機(jī)代碼或機(jī)器可用指令的一般上下文中被描述,所述計(jì)算機(jī)代碼或機(jī)器可用指令包括被計(jì)算系統(tǒng)或其它機(jī)器執(zhí)行的諸如程序模塊之類的計(jì)算機(jī)可執(zhí)行指令。一般地,包括例行程序、程序、對(duì)象、構(gòu)件、數(shù)據(jù)結(jié)構(gòu)等等的程序模塊指的是執(zhí)行特定任務(wù)或者實(shí)施特定數(shù)據(jù)類型的代碼。本文中所描述的實(shí)施例可以使用各種系統(tǒng)配置而被實(shí)施,所述各種系統(tǒng)配置包括手持式設(shè)備、消費(fèi)電子裝置、通用計(jì)算機(jī)、更專用計(jì)算設(shè)備等。本文中所描述的實(shí)施例還可以使用遠(yuǎn)程處理設(shè)備而被實(shí)施在分布式計(jì)算環(huán)境中,所述遠(yuǎn)程設(shè)備通過(guò)諸如因特網(wǎng)之類的通信網(wǎng)絡(luò)被鏈接。
[0013]在一些實(shí)施例中,遞送一個(gè)或多個(gè)事件的搜索結(jié)果的計(jì)算機(jī)實(shí)施的方法被描述?;陧?yè)面內(nèi)容相似性的多個(gè)文檔被分組以便形成一個(gè)或多個(gè)群集。標(biāo)識(shí)(ID)號(hào)和相應(yīng)的相關(guān)屬性被分配給一個(gè)或多個(gè)群集。在所述多個(gè)文檔不再被認(rèn)為是新鮮文檔之后,群集的所分配的ID號(hào)和相應(yīng)的相關(guān)屬性被維持。所形成的群集根據(jù)發(fā)表日期被細(xì)分成一個(gè)或多個(gè)細(xì)分的群集。
[0014]在其它實(shí)施例中,包含體現(xiàn)在其上的計(jì)算機(jī)可讀指令的一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)媒體被描述,所述計(jì)算機(jī)可讀指令當(dāng)被計(jì)算設(shè)備執(zhí)行時(shí),執(zhí)行在搜索引擎結(jié)果頁(yè)面中遞送持久性群集的方法。文檔根據(jù)接收到的搜索查詢被從數(shù)據(jù)庫(kù)中檢索。所檢索到的文檔中的一些基于內(nèi)容相似性和發(fā)表日期被聚集成一個(gè)或多個(gè)群集。標(biāo)識(shí)(ID)號(hào)被分配給檢索到的文檔的群集中的每一個(gè),其中群集中的每一個(gè)的ID號(hào)貫穿經(jīng)聚集的檢索到的文檔中的每一個(gè)的壽命保持持久性。響應(yīng)于所接收到的搜索查詢,群集在搜索引擎結(jié)果頁(yè)面中連同其它單獨(dú)的結(jié)果一起被遞送到用戶接口。
[0015]在又一些實(shí)施例中,包含體現(xiàn)在其上的計(jì)算機(jī)可讀指令的一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)媒體被描述,所述計(jì)算機(jī)可讀指令當(dāng)被計(jì)算設(shè)備執(zhí)行時(shí),執(zhí)行在搜索引擎結(jié)果頁(yè)面中提供聚集的非唯一結(jié)果的方法。響應(yīng)于接收到的用戶搜索查詢,多個(gè)文檔被檢索。一定數(shù)目的頂部結(jié)果從所檢索到的文檔被選擇。頂部結(jié)果根據(jù)發(fā)表日期或內(nèi)容相似性使用相應(yīng)的一個(gè)或多個(gè)檢索到的群集的一個(gè)或多個(gè)標(biāo)識(shí)(ID)號(hào)被分組。響應(yīng)于所接收到的用戶搜索查詢,搜索結(jié)果被遞送到用戶接口,其中搜索引擎結(jié)果頁(yè)面包括經(jīng)分組的頂部結(jié)果。
[0016]已經(jīng)在本文中簡(jiǎn)要地描述了實(shí)施例的一般綜述,示范性計(jì)算系統(tǒng)在下面被描述。參考圖1,用于實(shí)施本發(fā)明的實(shí)施例的示范性操作環(huán)境被示出并且被一般地指定為計(jì)算設(shè)備100。計(jì)算設(shè)備100只是適合的計(jì)算系統(tǒng)的一個(gè)例子,并且不旨在關(guān)于本發(fā)明的實(shí)施例的用途或功能性的范圍建議任何限制。計(jì)算設(shè)備100也不應(yīng)該被解釋為具有與被說(shuō)明構(gòu)件中的任何一個(gè)或組合相關(guān)的任何依賴或要求。在一個(gè)實(shí)施例中,計(jì)算設(shè)備100是具有處理器、存儲(chǔ)器以及數(shù)據(jù)存儲(chǔ)子系統(tǒng)的常規(guī)計(jì)算機(jī)(例如,個(gè)人計(jì)算機(jī)或膝上型電腦)。本發(fā)明的實(shí)施例同樣適用于多個(gè)互連的計(jì)算設(shè)備,諸如計(jì)算設(shè)備100 (例如,無(wú)線電話、個(gè)人數(shù)字助理或其它手持式設(shè)備)。
[0017]計(jì)算設(shè)備110包括總線110,其直接地或者間接地耦合以下設(shè)備:存儲(chǔ)器112、一個(gè)或多個(gè)處理器114、一個(gè)或多個(gè)呈現(xiàn)構(gòu)件116、輸入/輸出(I/O)端口 118、輸入/輸出構(gòu)件120以及說(shuō)明性電源122??偩€110表示可以為一條或多條總線的東西(諸如地址總線、數(shù)據(jù)總線或其組合)。盡管為了清楚起見(jiàn),圖1的各種框被用線示出,但是刻劃各種構(gòu)件實(shí)際上不是如此清楚的,并且比喻地,線更準(zhǔn)確地說(shuō)將是灰色的且模糊的。例如,一個(gè)人可以將諸如顯示設(shè)備之類的呈現(xiàn)構(gòu)件116認(rèn)為是I/O構(gòu)件120。同樣,處理器114具有存儲(chǔ)器112。本領(lǐng)域的技術(shù)人員應(yīng)理解,這是本領(lǐng)域的本性,并且如先前提到的那樣,圖1的圖僅僅說(shuō)明了能夠結(jié)合本發(fā)明的一個(gè)或多個(gè)實(shí)施例被使用的示范性計(jì)算設(shè)備。在如“工作站”、“服務(wù)器”、“膝上型電腦”、“手持式設(shè)備”等這樣的類之間未做區(qū)分,因?yàn)槿慷急辉O(shè)想在圖1的范圍內(nèi),并且作為“計(jì)算設(shè)備”或“計(jì)算系統(tǒng)”被引用。
[0018]上面關(guān)于計(jì)算設(shè)備100所描述的構(gòu)件還可以被包括在無(wú)線設(shè)備中。如本文中所描述的無(wú)線設(shè)備指的是無(wú)線地通信的無(wú)線電話、手持式設(shè)備、個(gè)人數(shù)字助理(PDA)、黑莓(BlackBerry)?、智能電話、數(shù)字相機(jī)或的其它移動(dòng)設(shè)備(除了膝上型電腦以外)中的任何類型。本領(lǐng)域的技術(shù)人員將領(lǐng)會(huì),無(wú)線設(shè)備還將包括執(zhí)行各種功能的處理器和計(jì)算機(jī)存儲(chǔ)媒體。本文中所描述的實(shí)施例適用于計(jì)算設(shè)備和無(wú)線設(shè)備兩者。在實(shí)施例中,計(jì)算設(shè)備還能夠指的是運(yùn)行這樣的應(yīng)用的設(shè)備,所述應(yīng)用的圖像被無(wú)線設(shè)備中的相機(jī)捕獲。
[0019]上面所描述的計(jì)算系統(tǒng)被配置成與上面一般地描述并且在下文中更詳細(xì)地描述的用于在搜索引擎結(jié)果頁(yè)面中遞送持久性群集的數(shù)個(gè)計(jì)算機(jī)實(shí)施的方法、系統(tǒng)以及媒體一起被使用。
[0020]圖2是依據(jù)本發(fā)明的實(shí)施例的查詢聚集系統(tǒng)200的說(shuō)明。系統(tǒng)200包括數(shù)據(jù)儲(chǔ)存器210,其存儲(chǔ)要在用戶接口(未示出)處被顯示的多個(gè)數(shù)據(jù)項(xiàng)220。這樣的數(shù)據(jù)項(xiàng)220能夠包括能夠在用戶接口處在各種可查看狀態(tài)下出現(xiàn)的文檔、文件、文件夾、圖像、音頻文件、源代碼等等。數(shù)據(jù)項(xiàng)220同樣與各種屬性相關(guān)聯(lián),其諸如描述如項(xiàng)的類型(例如圖像、文檔、電子表格、二進(jìn)制等等)、創(chuàng)建的日期、與項(xiàng)相關(guān)聯(lián)的人、位置、類、用戶定義的屬性等等這樣的方面的元數(shù)據(jù)。聚合器230收集數(shù)據(jù)項(xiàng)220和相關(guān)聯(lián)的屬性并且將項(xiàng)呈現(xiàn)給屬性分析器240,所述屬性分析器240執(zhí)行相應(yīng)項(xiàng)和屬性的分析。例如,這樣的分析能夠包括自動(dòng)地為各種可能的聚集場(chǎng)景確定分?jǐn)?shù)或者為項(xiàng)確定潛在的分組。
[0021]基于通過(guò)分析器240的分析,群集組織器250將新的群集260的優(yōu)化分組呈現(xiàn)給用戶。群集260的優(yōu)化分組便于從數(shù)據(jù)儲(chǔ)存器210中查找并且檢索期望的信息,所述數(shù)據(jù)儲(chǔ)存器210能夠包括本地存儲(chǔ)介質(zhì)、遠(yuǎn)程存儲(chǔ)介質(zhì)或本地儲(chǔ)存器和遠(yuǎn)程儲(chǔ)存器的組合。
[0022]圖3是用于使用諸如上面參考圖2所描述的系統(tǒng)200之類的系統(tǒng)來(lái)聚集搜索結(jié)果的示范性過(guò)程的流程圖。搜索結(jié)果被用文檔檢索系統(tǒng)來(lái)生成。在步驟310中,與其索引關(guān)鍵詞中的每一個(gè)相關(guān)聯(lián)的每個(gè)索引的文檔的類別被記錄。所述類別可以包括文檔在它被搜索和用每個(gè)特定索引關(guān)鍵詞索引時(shí)的所有可能的類別(或最相關(guān)的或最常用的類別)。在步驟320中,處理響應(yīng)于搜索查詢通過(guò)選擇與搜索查詢相關(guān)的一組文檔并且對(duì)其進(jìn)行排名來(lái)生成搜索結(jié)果。作為例子,步驟320能夠通過(guò)使用倒排索引被執(zhí)行。搜索查詢通常包含特定數(shù)目的關(guān)鍵詞,所述關(guān)鍵詞使用諸如上面參考圖1所描述的計(jì)算設(shè)備之類的計(jì)算設(shè)備或計(jì)算機(jī)網(wǎng)絡(luò)從搜索器與搜索請(qǐng)求一起被提交。
[0023]在步驟330中,搜索結(jié)果被分組成特定數(shù)目的文檔群集。作為例子,文檔群集能夠被按關(guān)鍵詞關(guān)聯(lián)聚集類別(KWAC)分組。每個(gè)結(jié)果文檔被放入它的與搜索關(guān)鍵詞中的每一個(gè)相關(guān)聯(lián)的類別中的每一個(gè),并且所有的結(jié)果文檔的類別的聯(lián)合可以被用來(lái)構(gòu)建針對(duì)搜索結(jié)果的最后的文檔群集。群集根據(jù)在每個(gè)群集中包括的文檔的排名和經(jīng)聚集的文檔與對(duì)應(yīng)群集的關(guān)聯(lián)權(quán)重被排名,使得具有較高排名的群集和在群集中的每一個(gè)中具有較高排名的文檔被首先標(biāo)識(shí)。在步驟340中,經(jīng)聚集的搜索結(jié)果被組織以用于顯示并且遞送給用戶。
[0024]圖2中所說(shuō)明的查詢聚集系統(tǒng)和圖3中所說(shuō)明的用于聚集搜索結(jié)果的過(guò)程僅僅是能夠被與本發(fā)明的實(shí)施例一起使用的一個(gè)示范性系統(tǒng)和方法。聚集查詢結(jié)果的數(shù)個(gè)其它系統(tǒng)和方法被設(shè)想在本發(fā)明的范圍內(nèi)。[0025]圖4說(shuō)明了其中多個(gè)文檔被分組成群集的系統(tǒng)和過(guò)程,其能夠使用分別參考圖2和3上面所描述的聚集系統(tǒng)和方法而被實(shí)施。在圖4的頂部,標(biāo)記為a1、a2...an的多個(gè)文檔根據(jù)內(nèi)容被分組以便形成群集a。群集a被用標(biāo)識(shí)號(hào)IDa標(biāo)識(shí)。群集3中的所述多個(gè)文檔然后根據(jù)發(fā)表日期被進(jìn)一步分組或者劃分,以便形成一個(gè)或多個(gè)細(xì)分的群集。
[0026]以下例子被給出來(lái)說(shuō)明形成群集和細(xì)分的群集的用途和優(yōu)點(diǎn)。假設(shè)接收到的用戶查詢包含單詞[royal wedding (皇家婚禮)]。數(shù)個(gè)結(jié)果將被返回,其中大部分結(jié)果將與威廉(William)和凱特(Kate)的新近的2011皇家婚禮有關(guān),但還能夠存在從三十年前發(fā)生的Charles (查爾斯)和Diana(戴安娜)的皇家婚禮返回的結(jié)果。例如,威廉和凱特的皇家婚禮將在事件之后不久已經(jīng)被聚集了,并且傳統(tǒng)上,將保持被聚集達(dá)2-4個(gè)星期的周期或者達(dá)近似一個(gè)月。新近產(chǎn)生的文檔(諸如在最后2-4個(gè)星期內(nèi)或在最后一個(gè)月內(nèi)產(chǎn)生的文檔)被稱為新鮮文檔。使用傳統(tǒng)方法,在文檔不再被認(rèn)為是新鮮文檔之后,相關(guān)聯(lián)的群集停止存在,并且包含針對(duì)兩個(gè)皇家婚禮的那些非新鮮文檔的結(jié)果將作為單獨(dú)的非聚集的結(jié)果被互相交錯(cuò)和呈現(xiàn)。然而,通過(guò)使用依據(jù)本發(fā)明的實(shí)施例的持久性ID號(hào),內(nèi)容相關(guān)的群集(例如[royal wedding]搜索結(jié)果)能夠被維持并且進(jìn)一步劃分成附加的類,諸如發(fā)表日期。持久性群集附加于任何新近形成的群集。在剛剛說(shuō)明的例子中,在[royal wedding]搜索結(jié)果中將很可能存在兩個(gè)細(xì)分的群集一一個(gè)針對(duì)威廉和凱特的皇家婚禮,以及第二個(gè)細(xì)分的群集針對(duì)查爾斯和戴安娜的皇家婚禮。
[0027]圖4進(jìn)一步說(shuō)明了接收到的搜索查詢能夠?qū)е路祷卣f(shuō)明為b1、b2...比的文檔的第二群集,以便形成具有標(biāo)識(shí)號(hào)IDb的群集b。群集b根據(jù)文Sbpb2...bn內(nèi)的相似內(nèi)容被形成。在群集b中包含的文檔然后根據(jù)發(fā)表日期被分組或者劃分以便形成一個(gè)或多個(gè)細(xì)分的群集。
[0028]群集同樣根據(jù)的檢索到的文檔Hipm2...mn的相似內(nèi)容形成,其具有標(biāo)識(shí)號(hào)IDni,所述檢索到的文檔然后根據(jù)發(fā)表日期被劃分成一個(gè)或多個(gè)細(xì)分的群集。取決于所接收到的搜索查詢的內(nèi)容,任何數(shù)目的群集或細(xì)分的群集能夠被形成。圖4同樣說(shuō)明了特定群集可以包含僅一個(gè)細(xì)分的群集,其中經(jīng)聚集的文檔中的全部都和相同的時(shí)間跨度有關(guān),然而其它群集能夠被劃分成各種多個(gè)細(xì)分的群集。
[0029]圖5說(shuō)明了用于遞送一個(gè)或多個(gè)事件的搜索結(jié)果的計(jì)算機(jī)實(shí)施的方法的流程圖。響應(yīng)于接收到的搜索查詢,多個(gè)文檔被檢索。文檔能夠包括新鮮文檔、諸如非新近的文檔之類的非新鮮文檔或兩者的組合。在步驟510中,包含相似或相關(guān)內(nèi)容的那些檢索到的文檔在搜索查詢的時(shí)候被分組成一個(gè)或多個(gè)群集。替代實(shí)施例提供在文檔被索引的時(shí)間發(fā)生的聚集,其獨(dú)立于搜索查詢的時(shí)間。任何數(shù)目的群集能夠被形成,但所檢索到的文檔中的許多可以保持為未被與其它文檔一起聚集的單獨(dú)的文檔。在步驟520中,所形成的群集中的每一個(gè)都分配了標(biāo)識(shí)(ID)號(hào)。每個(gè)ID號(hào)可以具有與其相關(guān)聯(lián)的屬性,這使能實(shí)現(xiàn)對(duì)特定群集在它先前已被形成了之后的跟蹤。
[0030]在步驟530中,所分配的針對(duì)群集的ID號(hào)被維持并且因此,貫穿每個(gè)特定文檔的生命期保持持久性,或者保持持久性達(dá)任何其它指定的時(shí)間周期。在聚集搜索結(jié)果的傳統(tǒng)方法中,聚集典型地僅針對(duì)新鮮文檔被執(zhí)行。因此,在文檔不再被認(rèn)為是在流行的巔峰(即“新鮮的”)之后,群集不再存在。這個(gè)時(shí)間周期能夠變化,但新鮮文檔壽命的例子是約2-4個(gè)星期或近似一個(gè)月。針對(duì)特定群集的ID號(hào)將典型地在“新鮮的”壽命的結(jié)束時(shí)期滿,并且群集將停止存在。然而,通過(guò)依據(jù)本發(fā)明的實(shí)施例來(lái)維持ID號(hào)及其相關(guān)聯(lián)的屬性,群集同樣在“新鮮的”壽命外被維持。本發(fā)明的實(shí)施例維持群集的ID號(hào)達(dá)其文檔的整個(gè)正常壽命。作為僅用于說(shuō)明性目的的例子,考慮在夏威夷群島(Hawaiian Islands)發(fā)生的許多火山爆發(fā)(volcanoes)。示范性查詢可能包括兩個(gè)常見(jiàn)關(guān)鍵詞或短語(yǔ)“夏威夷群島”和“火山爆發(fā)”。使用本發(fā)明的實(shí)施例,相關(guān)的查詢結(jié)果將被進(jìn)一步劃分到每個(gè)事件在其期間發(fā)生的時(shí)間周期。附加的實(shí)施例將貫穿相應(yīng)文檔的壽命維持這些時(shí)間相關(guān)的群集。
[0031]本發(fā)明的實(shí)施例同樣使能實(shí)現(xiàn)目前未被聚集的現(xiàn)有“舊”文檔的持久性聚集。這可能是未實(shí)施先前聚集被或者期滿的群集的結(jié)果。
[0032]在步驟540中,來(lái)自檢索到的文檔的任何先前形成的群集以及新近形成的群集根據(jù)發(fā)表日期被劃分成細(xì)分的群集。這個(gè)細(xì)分允許臨時(shí)相關(guān)的事件的在特定群集上的更細(xì)分組。聚集算法按ID號(hào)并且然后按發(fā)表日期對(duì)文檔進(jìn)行分組。在步驟550中,經(jīng)細(xì)分的群集然后被遞送到用戶接口以便將更加一致的體驗(yàn)提供給用戶并且以便通過(guò)其它單獨(dú)的非聚集的結(jié)果的顯示來(lái)允許更多多樣性。
[0033]圖6說(shuō)明了在搜索引擎結(jié)果頁(yè)面(SERP)的用戶接口上的顯示,其包含兩個(gè)細(xì)分的群集。在所顯示的例子中,包含關(guān)鍵詞China(中國(guó))、plane (飛機(jī))以及crash(事故)的搜索查詢被實(shí)施。因?yàn)樗鶛z索到的文檔包含涵蓋在中國(guó)的兩次不同飛機(jī)事故的多個(gè)文檔,所以經(jīng)返回的結(jié)果包括針對(duì)兩次不同飛機(jī)事故的兩個(gè)細(xì)分的群集,而不是因?yàn)檫@些是“舊”文檔而被組合成僅一個(gè)群集或者根本沒(méi)有群集的相關(guān)文檔中的全部。每個(gè)細(xì)分的群集顯示給出特定細(xì)分的群集的簡(jiǎn)略提要(thumbnail synopsis),到文檔的鏈接被包含在經(jīng)細(xì)分的群集內(nèi)。簡(jiǎn)略提要提供在經(jīng)細(xì)分的群集內(nèi)的內(nèi)容的概要。細(xì)分的群集提要的本發(fā)明的實(shí)施例包含一個(gè)或多個(gè)特征,諸如顯著標(biāo)題、顯著圖像、顯著新聞概要或描繪經(jīng)細(xì)分的群集事件的圖像。經(jīng)細(xì)分的群集提要還可以包含在經(jīng)細(xì)分的群集內(nèi)的文檔的數(shù)目、主機(jī)域或經(jīng)細(xì)分的群集的一個(gè)或多個(gè)顯著特征。
[0034]圖7說(shuō)明了用于在搜索引擎結(jié)果頁(yè)面(SERP)中遞送持久性群集的方法的流程圖,針對(duì)其的計(jì)算機(jī)可讀指令被體現(xiàn)在一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)媒體上。在步驟710中,在搜索查詢的時(shí)侯,多個(gè)文檔響應(yīng)于搜索查詢被從數(shù)據(jù)庫(kù)中檢索。替代實(shí)施例提供在文檔被索引的時(shí)間發(fā)生的聚集,其獨(dú)立于搜索查詢的時(shí)間。在步驟720中,每個(gè)檢索到的文檔的內(nèi)容被分析以便確定所檢索到的文檔中的一些是否應(yīng)該基于內(nèi)容相似性或發(fā)表日期或兩者被聚集。每個(gè)群集將包含針對(duì)每個(gè)檢索到的文檔的所關(guān)聯(lián)的統(tǒng)一資源定位符(URL)。具有相似內(nèi)容的文檔的數(shù)目將變化,其將保證形成群集。文檔的門限數(shù)目能夠被先前建立,所述門限數(shù)目將觸發(fā)群集的形成。在步驟730中,標(biāo)識(shí)(ID)號(hào)被分配給每個(gè)群集。ID號(hào)具有與它相關(guān)聯(lián)的群集屬性以用于該群集的后續(xù)跟蹤和檢索。在步驟740中,所形成的群集和單獨(dú)的非聚集的檢索到的文檔被在SERP中遞送到用戶接口。在步驟750中,每個(gè)已遞送群集的簡(jiǎn)略提要同樣被顯示。每個(gè)群集的簡(jiǎn)略提要將給出群集內(nèi)容的總體概要或視圖。
[0035]圖8說(shuō)明了用于在搜索引擎結(jié)果頁(yè)面(SERP)中提供聚集的非唯一結(jié)果的方法的流程圖,針對(duì)其的計(jì)算機(jī)可讀指令被體現(xiàn)在一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)媒體上。在步驟810中,在搜索查詢的時(shí)候,響應(yīng)于輸入的搜索查詢,文檔被搜索引擎檢索到。替代實(shí)施例提供在文檔被索引的時(shí)間發(fā)生的聚集,其獨(dú)立于搜索查詢的時(shí)間。在步驟820中,一定數(shù)目的頂部結(jié)果被選擇。一定數(shù)目可以是可配置的數(shù),諸如十個(gè)以上的文檔。一定數(shù)目能夠基于諸如系統(tǒng)資源之類的特定考慮事項(xiàng)而變化。在步驟830中,所選頂部結(jié)果通過(guò)跟蹤先前形成的群集的ID號(hào)根據(jù)發(fā)表日期或內(nèi)容相似性而被分組。在步驟840中,所選頂部結(jié)果的檢索到的單獨(dú)的文檔和檢索到的群集的結(jié)果被遞送到用戶接口。結(jié)果還可以包含新近形成的群集。經(jīng)聚集的結(jié)果能夠包含新鮮文檔,以及不再被認(rèn)為是新鮮文檔的文檔。
[0036]按發(fā)表日期形成細(xì)分的群集能夠具有在主要群集內(nèi)形成自然劃分的優(yōu)點(diǎn)。圖6說(shuō)明了這點(diǎn),其中不同的時(shí)間線自然地將[China, plane, crash]搜索查詢結(jié)果分離成兩個(gè)不同的飛機(jī)事故結(jié)果。另一例子能夠針對(duì)特定的事件鏈而發(fā)生,諸如大地震或颶風(fēng)。初始群集可能是實(shí)際破壞,第二群集可能是搜索和救援任務(wù),第三群集可能是臨時(shí)性房屋搭建,第四群集可能是殘余物清除,以及第五群集可能是重建努力。此外,初始群集可以變得非常大,并且能夠被隨后細(xì)分成較小群集。如果以前的新聞文檔貫穿文檔的生命保持被聚集而不是保持完整(intact)僅達(dá)短的時(shí)間段,則新聞研究努力無(wú)疑將被加快(expedited)。
[0037]在不背離本發(fā)明的精神和范圍的情況下,所描繪的各種構(gòu)件的許多不同布置以及未示出的實(shí)施例是可能的。本發(fā)明的實(shí)施例已經(jīng)以說(shuō)明性而不是約束性的目的進(jìn)行了描述。
[0038]應(yīng)理解,特定特征和子組合是實(shí)用的,以及可以在不參考其它特征和子組合的情況下被采用,并且被設(shè)想在權(quán)利要求的范圍內(nèi)。并非在各種圖中列舉的所有步驟需要被以所描述的特定順序執(zhí)行。
【權(quán)利要求】
1.一種使用計(jì)算設(shè)備來(lái)遞送一個(gè)或多個(gè)事件的搜索結(jié)果的計(jì)算機(jī)實(shí)施的方法,所述計(jì)算設(shè)備具有處理器、存儲(chǔ)器以及數(shù)據(jù)存儲(chǔ)子系統(tǒng),所述計(jì)算機(jī)實(shí)施的方法包括: 基于頁(yè)面內(nèi)容相似性對(duì)多個(gè)文檔進(jìn)行分組以便形成一個(gè)或多個(gè)群集; 將標(biāo)識(shí)(ID)號(hào)和一個(gè)或多個(gè)相應(yīng)的相關(guān)屬性分配給所述一個(gè)或多個(gè)群集中的每一個(gè); 在所述多個(gè)文檔不再被認(rèn)為是新鮮文檔之后維持針對(duì)所述一個(gè)或多個(gè)群集中的每一個(gè)的所分配的ID號(hào)和相應(yīng)的相關(guān)屬性;以及 根據(jù)發(fā)表日期將所述一個(gè)或多個(gè)群集中的每一個(gè)細(xì)分成一個(gè)或多個(gè)細(xì)分的群集。
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中對(duì)多個(gè)文檔進(jìn)行分組包括對(duì)多個(gè)新鮮文檔進(jìn)行分組。
3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中對(duì)多個(gè)文檔進(jìn)行分組包括對(duì)多個(gè)非新近事件文檔進(jìn)行分組。
4.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中所分配的ID號(hào)貫穿每個(gè)相應(yīng)文檔的生命的生命期保持持久性。
5.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中所述多個(gè)文檔中的每一個(gè)被認(rèn)為是新鮮文檔達(dá)近一個(gè)月壽命。
6.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,進(jìn)一步包括:響應(yīng)于用戶搜索查詢針對(duì)所述一個(gè)或多個(gè)群集中的一個(gè)按發(fā)表日期將所述一個(gè)或多個(gè)細(xì)分的群集顯示給所述計(jì)算設(shè)備的用戶接口。
7.根據(jù)權(quán)利要求6所述的計(jì)算機(jī)實(shí)施的方法,其中顯示所述一個(gè)或多個(gè)細(xì)分的群集中的每一個(gè)包括顯示以下項(xiàng)中的相應(yīng)的一個(gè)或多個(gè):顯著標(biāo)題、顯著圖像或顯著新聞概要。
8.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中所述一個(gè)或多個(gè)細(xì)分的群集包括根據(jù)所述一個(gè)或多個(gè)細(xì)分的群集的相應(yīng)ID號(hào)的被分組的統(tǒng)一資源定位符(URL)。
9.一種在搜索引擎結(jié)果頁(yè)面中遞送持久性群集的計(jì)算機(jī)實(shí)施的方法,所述計(jì)算機(jī)實(shí)施的方法包括: 根據(jù)接收到的搜索查詢從數(shù)據(jù)庫(kù)中檢索文檔; 基于內(nèi)容相似性和發(fā)表日期將所檢索到的文檔中的一些聚集成一個(gè)或多個(gè)群集; 將標(biāo)識(shí)(ID)號(hào)分配給所檢索到的文檔的群集中的每一個(gè),其中所述群集中的每一個(gè)的ID號(hào)貫穿經(jīng)聚集的檢索到的文檔中的每一個(gè)的壽命保持持久;以及 響應(yīng)于所接收到的搜索查詢?cè)谒阉饕娼Y(jié)果頁(yè)面中與其它單獨(dú)的結(jié)果一起將所述群集中的每一個(gè)遞送到用戶接口。
10.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)實(shí)施的方法,其中所述一個(gè)或多個(gè)群集中的一些包括檢索到的為新鮮文檔的文檔。
11.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)實(shí)施的方法,其中所述一個(gè)或多個(gè)群集中的一些包括檢索到的不為新鮮文檔的文檔。
12.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)實(shí)施的方法,其中所述一個(gè)或多個(gè)群集包括一個(gè)或多個(gè)被分組的統(tǒng)一資源定位符(URL)。
13.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)實(shí)施的方法,進(jìn)一步包括:為所述一個(gè)或多個(gè)群集中的每一個(gè)提供簡(jiǎn)略提要。
14.根據(jù)權(quán)利要求13所述的計(jì)算機(jī)實(shí)施的方法,其中所述簡(jiǎn)略提要包括以下項(xiàng)中的一個(gè)或多個(gè):文檔的數(shù)目、主機(jī)域或針對(duì)所述一個(gè)或多個(gè)群集中的每一個(gè)的一個(gè)或多個(gè)顯著特征?!?br>
【文檔編號(hào)】G06F17/30GK103827852SQ201280038545
【公開(kāi)日】2014年5月28日 申請(qǐng)日期:2012年7月31日 優(yōu)先權(quán)日:2011年8月9日
【發(fā)明者】S.K.帕塔薩拉蒂, J.艾哈邁德, Y.薩拉夫, W.孫 申請(qǐng)人:微軟公司