專利名稱:搜索建議聚類和呈現(xiàn)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及計算機應(yīng)用搜索和所建議的搜索查詢的呈現(xiàn)。
背景技術(shù):
萬維網(wǎng)的用戶熟悉網(wǎng)上用于定位感興趣的內(nèi)容的各種服務(wù)。很多實體提供了搜索引擎,并且搜索能力嵌入到很多網(wǎng)站中。例如,許多網(wǎng)站提供能使用戶搜索到該網(wǎng)站的以及因特網(wǎng)上的網(wǎng)站的內(nèi)容的應(yīng)用程序。搜索引擎通常提供搜索建議工具,該搜索建議工具通過預(yù)測用戶將要鍵入的后面 的字符和詞來幫助用戶更快地完整化他們的查詢。例如,當用戶開始鍵入“sacr…”時,下拉式窗口通常出現(xiàn)在搜索框下,提供常用的完整化結(jié)果以及相關(guān)的建議,諸如“sacramento”、“sacramento airport”和“sacred heart”。用戶則可以簡單地從列表中選擇而無需鍵入完整的搜索查詢。
發(fā)明內(nèi)容
本發(fā)明公開了用于聚類和呈現(xiàn)所建議的搜索查詢(即,搜索建議)的方法和裝置。根據(jù)一個實施例,通過用戶界面的搜索查詢區(qū)獲得文本段,所述文本段是搜索查詢的一部分。獲得建議集合,該建議集合中的每個建議是與所述文本段相關(guān)的或包括所述文本段的所建議的搜索查詢。產(chǎn)生兩個或兩個以上建議群組,所述兩個或兩個以上建議群組中的每一個包括所述建議集合的不同子集。提供所述兩個或兩個以上建議群組,使得所述兩個或兩個以上建議群組中的每一個顯示在所述用戶界面的搜索輔助段的單獨分區(qū)中。根據(jù)一方面,提供與所述兩個或兩個以上建議群組中的每一個相關(guān)的標簽或圖像,使得所述標簽或圖像被顯示在所述用戶界面中,緊靠所述兩個或兩個以上建議群組中的相應(yīng)一個。所述標簽或圖像可以通過使用所述相應(yīng)的建議群組之中的信息來獲得??商娲兀鰳撕灮驁D像可以通過使用所述相應(yīng)的建議群組以外的信息,加上或代替所述相應(yīng)的建議群組之中獲得的信息來獲得。根據(jù)又一方面,當根據(jù)所提交的搜索查詢的一部分確定所述搜索查詢是模糊的時,就可以聚類建議集合。例如,如果建議集合的初步聚類產(chǎn)出實質(zhì)上大小各不相同的建議群組,則搜索查詢可以是模糊的。在另一實施例中,本發(fā)明涉及一種裝置,該裝置包括處理器、存儲器和顯示器。所述處理器和存儲器被配置為執(zhí)行一個或多個以上描述的方法操作。在另一實施例中,本發(fā)明涉及一種上面存儲有計算機程序指令的計算機可讀存儲介質(zhì),所述計算機程序指令布置為執(zhí)行一個或多個以上描述的方法操作。在本發(fā)明的以下說明書及以示例方式圖示了本發(fā)明原理的附圖中,將對本發(fā)明的這些及其他特征和優(yōu)點進行更詳細的呈現(xiàn)。
圖I為示出了實施各種實施例的示例系統(tǒng)的框圖。圖2A為示出了用于呈現(xiàn)搜索查詢建議列表的示例圖形用戶界面的簡圖。圖2B-C為圖形用戶界面,示出了對建議列表執(zhí)行完聚類之后的示例建議群組。
圖3為示出了根據(jù)本發(fā)明的各種實施例的用于聚類和呈現(xiàn)建議集合的示例方法的過程流程圖。圖4為示出了示例建議的簡圖,當用戶鍵入“salsa”到用戶界面的搜索查詢區(qū)中時,該示例建議可被提供給用戶。圖5為示出了可實施各種實施例的示例網(wǎng)絡(luò)環(huán)境的簡圖。圖6示出了可實施各種實施例的示例計算機系統(tǒng)。
具體實施例方式現(xiàn)在,將對本發(fā)明的具體實施例進行詳細描述。這些具體實施例的示例在附圖中示出。雖然將結(jié)合這些具體實施例對本發(fā)明進行描述,但是應(yīng)理解,這并不表示本發(fā)明僅限于這些實施例。相反地,由權(quán)利要求限定的本發(fā)明的精神和范圍內(nèi)的替換、修改和等效內(nèi)容也試圖包括在內(nèi)。在以下描述中,闡述了許多具體細節(jié)以幫助透徹理解本發(fā)明。沒有這些具體細節(jié)中的一些或全部也可以實現(xiàn)本發(fā)明。此外,對公知的過程操作不作詳細的描述,以避免不必要地模糊本發(fā)明。所公開的實施例提供了一種用戶界面,該用戶界面用于響應(yīng)于接收部分搜索查詢而提供搜索建議。更具體地說,每一個搜索建議可以是與該部分搜索查詢相關(guān)或包括(例如,完整化或糾正)該部分搜索查詢的所建議的搜索查詢。因此,術(shù)語“建議”、“搜索建議”、“所建議的搜索查詢”、“查詢完整化結(jié)果”、“所建議的搜索查詢完整化結(jié)果”和“查詢完整化建議”可以互換使用。提供給用戶的搜索建議可以組織為兩個或兩個以上群組,可稱之為聚類(cluster)或分區(qū)(partition)。聚類搜索建議對具有多于一個可能解釋的模糊查詢特別有用。更具體地說,可以根據(jù)已經(jīng)輸入的搜索查詢的一部分的不同解釋來組織搜索查詢。隨著用戶鍵入(例如,增加、修改和/或刪除一個或多個字符),所提供的搜索建議也會變化。同樣地,搜索建議的聚類也會隨著用戶鍵入搜索查詢而動態(tài)地執(zhí)行。因此,隨著用戶鍵入查詢的部分,建議群組的數(shù)量、每一個建議群組中建議的數(shù)量以及建議群組的構(gòu)建方式都會動態(tài)變化。換言之,用戶修改、增加和/或刪除至少部分搜索查詢都會觸發(fā)建議的聚類,以下將對此進行更詳細的描述。近年來,因特網(wǎng)已經(jīng)成為百萬用戶的主要信息來源。這些用戶依賴于因特網(wǎng)來給自己搜索感興趣的信息。用戶搜索信息的一個傳統(tǒng)方式是通過搜索服務(wù)網(wǎng)頁開始搜索查詢。一般地,用戶可以在搜索網(wǎng)頁的輸入框中輸入包括一個或多個搜索項的查詢,然后根據(jù)所輸入的搜索項開始搜索。響應(yīng)于該查詢,網(wǎng)頁搜索引擎通常返回搜索結(jié)果文檔的有序列表。文檔可被定義為用于標識文檔所位于的位置的統(tǒng)一資源定位符(URL)。文檔可以位于特定網(wǎng)站上,也可以位于該網(wǎng)站的特定網(wǎng)頁上。例如,第一 URL可以標識文檔所位于的網(wǎng)頁的位置,而第二 URL可以標識文檔可以位于的網(wǎng)站的位置。圖I示出了可以實施本發(fā)明的各種實施例的示例網(wǎng)絡(luò)段。如圖所示,多個客戶端102a、102b和102c可以通過圖形用戶界面訪問搜索應(yīng)用(例如,通過網(wǎng)絡(luò)104訪問在搜索服務(wù)器106上的搜索應(yīng)用)和/或訪問網(wǎng)絡(luò)服務(wù)(例如,訪問在網(wǎng)絡(luò)服務(wù)器114上的網(wǎng)絡(luò)服務(wù)),以下將對此進行更詳細的描述。網(wǎng)絡(luò)可以采取任意適當?shù)男问?,如廣域網(wǎng)或因特網(wǎng)和/或一個或多個局域網(wǎng)(LAN)。網(wǎng)絡(luò)104可以包括任意適當數(shù)量和類型的裝置,例如,路由器和交換器,用于將搜索或web對象請求從每一個客戶端轉(zhuǎn)發(fā)到搜索或web應(yīng)用并將搜索或網(wǎng)絡(luò)結(jié)果轉(zhuǎn)發(fā)回提出請求的客戶端。本發(fā)明還可以在廣泛的網(wǎng)絡(luò)環(huán)境(以網(wǎng)絡(luò)104表示)中實現(xiàn),包括(例如)基于TCP/IP的網(wǎng)絡(luò)、電信網(wǎng)絡(luò)、無線網(wǎng)絡(luò)等。此外,用于實施本發(fā)明的實施例的計算機程序指令可存儲在任意類型的計算機可讀介質(zhì)中,可以根據(jù)多種計算模型在獨立的計算裝置上執(zhí)行,這些計算模型包括客戶端/服務(wù)器模型、對等模型;或者根據(jù)分布式計算模型執(zhí)行,在該分布式計算模型中,這里描述的各種功能可以在不同的位置上實現(xiàn)或使用。
·
搜索應(yīng)用通常允許用戶(人類或自動實體)搜索通過網(wǎng)絡(luò)104可訪問的并且涉及搜索查詢的信息,該搜索查詢包括一個或多個搜索項。用戶可通過任意方式輸入搜索項。例如,圖形用戶界面可以向客戶端呈現(xiàn)輸入特征(例如,在客戶端的裝置上),所以客戶端可以輸入包括一個或多個搜索項的查詢,下文會對圖形用戶界面進行更詳細的描述。在一個具體的實施方式中,圖形用戶界面呈現(xiàn)輸入框(即,搜索查詢區(qū)),用戶可鍵入包括任意數(shù)量的搜索項或其部分的查詢。具體地,圖形用戶界面可以提供用于接收至少部分搜索查詢的搜索查詢區(qū),以及可提供與搜索查詢相關(guān)聯(lián)的所建議的搜索查詢(即,搜索建議)的另一部分。用戶可以通過圖形用戶界面選擇所建議的搜索查詢之一來提交到搜索引擎。然后通過一個或多個搜索應(yīng)用(例如,與搜索服務(wù)器106和/或網(wǎng)絡(luò)服務(wù)器114相關(guān)聯(lián)的)和/或一個或多個數(shù)據(jù)源執(zhí)行搜索查詢。本發(fā)明的實施例可以采用任意搜索應(yīng)用。這些搜索應(yīng)用可以在任意數(shù)量的服務(wù)器上實施,但是為了清楚起見,圖中僅示出了一個搜索服務(wù)器106。搜索服務(wù)器106(或多個服務(wù)器)可以訪問一個或多個查詢?nèi)罩?10,搜索信息保存在該查詢?nèi)罩局?。例如,查詢?nèi)罩?10可以保存在耦接到搜索服務(wù)器106的一個或多個存儲器中。每次用戶對一個或多個搜索項執(zhí)行搜索時,關(guān)于該搜索的信息可以保存在查詢?nèi)罩?10中。例如,用戶的搜索請求可以包括任意數(shù)量的參數(shù),如用戶或瀏覽器身份和搜索項,這些都可以保存在查詢?nèi)罩?10中。與搜索有關(guān)的額外信息(如時間戳)也可以和搜索請求參數(shù)一起保存在查詢?nèi)罩?10中。當根據(jù)所輸入的搜索項向用戶呈現(xiàn)結(jié)果時,該搜索結(jié)果的參數(shù)也可以保存在查詢?nèi)罩?10中。例如,具體的搜索結(jié)果,如網(wǎng)站、搜索結(jié)果呈現(xiàn)的順序、每一個搜索結(jié)果是贊助搜索結(jié)果還是算法搜索結(jié)果、每一個搜索結(jié)果的所有者(如,網(wǎng)站)、每一個搜索結(jié)果是否是由用戶(如果有的話)選擇(即,點擊)的和/或時間戳,也可以保存在查詢?nèi)罩?10中。在接收到搜索查詢之后,搜索服務(wù)器106可以標識并且呈現(xiàn)與該查詢相關(guān)的適當?shù)木W(wǎng)頁。例如,搜索服務(wù)器106可以標識并呈現(xiàn)多個超文本鏈接(該超文本鏈接標識與搜索查詢有關(guān)的內(nèi)容),以及呈現(xiàn)與多個超文本鏈接相關(guān)聯(lián)的總結(jié)或摘要。
這里公開的實施例可以通過搜索服務(wù)器(或其他服務(wù)器)106和/或客戶端102a、102b和102c實施。例如,各種特征可以通過客戶端102a、102b和102c上的網(wǎng)絡(luò)瀏覽器和/或應(yīng)用來實施。所公開的實施例可以通過軟件和/或硬件來實施。搜索引擎不斷探尋著減少執(zhí)行搜索相關(guān)任務(wù)的用戶工作的方法。這些工作導(dǎo)致了廣泛使用的自動完整化機制,當用戶制定查詢時,該自動完整化機制自動建議搜索查詢的可能的完整化結(jié)果。然而,常規(guī)的自動完整化機制有可能提供讓用戶感到混亂的搜索建議,特別是當完整化結(jié)果的集合是由以交錯方式顯示的查詢的不同解釋構(gòu)成時。 圖2A是示出了示例圖形用戶界面的簡圖,該圖形用戶界面示出了通過常規(guī)的自動完整化機制提供的所建議的搜索查詢??紤]這樣的情況用戶通過鍵入字符序列haifa到與搜索引擎相關(guān)聯(lián)的圖形用戶界面的搜索查詢區(qū)202開始搜索引擎查詢。當用戶在圖形用戶界面的搜索查詢區(qū)202鍵入內(nèi)容時,用戶的輸入可以當作搜索查詢的一部分。該部分搜索查詢可包括一個或多個字符,以及一個或多個詞或其部分。在此示例中,該部分搜索查詢被當作搜索查詢前綴。對于該搜索查詢前綴而言,主搜索引擎呈現(xiàn)的建議集合可包括有序列表,如圖中204所示。根據(jù)過去用戶行為的、諸如點擊行為、查詢頻率或查詢重制的各種因素可以確定由搜索引擎提供的所建議的搜索查詢完整化結(jié)果(即搜索建議)的集合。所公開的實施例可以通過組織根據(jù)主題自動完整化的建議來拓展當前查詢完整化方法。如圖2A所示,查詢完整化建議可對應(yīng)于不完全相同的現(xiàn)實世界中的實體、方面或主題。例如,在位置1、2和5的建議對應(yīng)于流行藝人,而在位置3和6的建議對應(yīng)于城市。此外,與類似或相同方面或主題相關(guān)聯(lián)的查詢建議不會被劃分在同一組群中,因此從局部視角來看,這些建議通常呈現(xiàn)為無序列表。如圖2A所示,當搜索查詢(或其部分)具有不同的可能的含義時,這些建議可涉及已經(jīng)提供的搜索查詢的部分的不同解釋。此外,這些建議通常只根據(jù)流行度來分類,從而導(dǎo)致對應(yīng)于不同解釋的建議以交錯方式被提供。所公開的實施例實現(xiàn)了為所建議的搜索查詢進行分組,從而允許用戶容易地標識包括最相關(guān)搜索建議的搜索查詢?nèi)航M。圖2B-C是示出了示例圖形用戶界面的屏幕截圖,該圖形用戶界面可根據(jù)各種實施例呈現(xiàn)。如圖2B-C所示,所公開的實施例能使所建議的查詢的集合被聚類,并且通過圖形用戶界面呈現(xiàn)。此外,每一個聚類可以通過圖形用戶界面中的標簽或圖像標識,分別如圖2B和2C所示。如圖2B和2C所示,當用戶輸入搜索查詢部分“Haifa”到圖形用戶界面的搜索查詢區(qū)202中時,可以獲得包括搜索查詢部分的建議集合(例如,通過一個或多個搜索查詢?nèi)罩?。建議集合可以通過使用一個或多個聚類方法根據(jù)現(xiàn)實世界中的實體、方面、主題或其他準則被聚類為兩個或兩個以上建議群組。例如,每一個建議群組可呈現(xiàn)在圖形用戶界面的單獨分區(qū)或分段中。此外,標識每一個建議群組的合適的標簽或圖像可被確定并且被與建議群組相關(guān)聯(lián)地提供,以便幫助用戶在相應(yīng)的建議群組之間進行區(qū)分。如圖2B-C所示,標簽或圖像可被與所述兩個或兩個以上建議群組中的每一個相關(guān)聯(lián)地顯示,使得該標簽或圖像被與相應(yīng)的群組相關(guān)聯(lián)地提供。例如,標簽或圖像可以顯示在用戶界面中,緊靠所述兩個或兩個以上建議群組中的相應(yīng)一個。
如圖2B所示,不同的標簽可被與每一個建議群組或圖形用戶界面的對應(yīng)分區(qū)相關(guān)聯(lián)地顯示。例如,可以為顯示在分區(qū)206中的第一建議群組指定一個標簽,即208處顯示的“Haifa (Singer (歌手))”,而為顯示在分區(qū)210中的第二建議群組指定一個標簽,即212處顯示的“Haifa (City (城市))”。同樣地,如圖2C所示,不同的圖像可被與每一個建議群組或圖形用戶界面的分區(qū)相關(guān)聯(lián)地顯示。例如,顯示在分區(qū)214中的第一建議群組可以由216處顯示的圖像來標識,而顯示在分區(qū)218中的第二建議群組可以由220處顯示的圖像來標識。當用戶選擇建議群組之一中的建議之一時,與所選擇的建議相關(guān)聯(lián)的搜索結(jié)果可被獲得和提供。以此方式,所公開的實施例可給用戶搜索過程帶來方便。圖3為示出了根據(jù)各種實施例的執(zhí)行搜索建議聚類的示例方法的過程流程圖。通過用戶界面的搜索查詢區(qū)可以在302處獲得文本段,其中文本段是搜索查詢的一部分。更具體地說,搜索查詢的該部分可以是搜索查詢的第一部分,其可被稱為搜索查詢的“前綴”或“查詢前綴”。例如,查詢前綴可以是制訂搜索查詢時由用戶鍵入的字符序列??商娲兀阉鞑樵兊脑摬糠挚梢栽陬A(yù)期搜索查詢的中間或末端,其可被分別稱為“中綴”或“后綴”??稍?04處獲得建議集合,其中在建議集合中的每一個建議是包括文本段的所建議的搜索查詢。可以通過針對包括用戶輸入文本(例如,查詢前綴)的查詢來搜索搜索查詢數(shù)據(jù)庫,從而獲得建議集合。搜索查詢數(shù)據(jù)庫可以與用戶相關(guān)聯(lián),或者可以是存儲用于多個用戶的數(shù)據(jù)的全局數(shù)據(jù)庫。一般而言,建議是根據(jù)相應(yīng)的搜索查詢的流行度來排序的。在一個實施例中,可以根據(jù)建議集合確定搜索查詢是否是模糊查詢。當之前輸入的搜索查詢的部分有多于一個的可能的解釋時,搜索查詢可以被確定為模糊的。例如,在初步聚類建議集合之后,可根據(jù)每一個建議群組中的建議的數(shù)量確定查詢是模糊的。更具體地說,當建議落入兩個或兩個以上群組中時,則查詢可以確定為是模糊的。然而,如果一個 群組相比于另一個群組存在非常少的建議,這表示查詢不是模糊的。如果搜索查詢是模糊查詢,就可以聚類建議集合,如以下參照方框306和308所述??稍?06處產(chǎn)生兩個或兩個以上建議群組,其中所述兩個或兩個以上建議群組中的每一個包括建議集合的不同子集。更具體地說,可以獲得與建議集合中的每一個建議相關(guān)聯(lián)的一個或多個特征的集合。然后,與建議集合中的每一個建議相關(guān)聯(lián)的一個或多個特征的集合可用于產(chǎn)生兩個或兩個以上建議群組。特征可以從建議和/或使用建議執(zhí)行搜索查詢時所獲得的搜索結(jié)果的至少一部分獲得。例如,特定建議的特征可以包括建議中的一個或多個詞的集合和/或搜索結(jié)果中的一個或多個詞的集合。特定建議的搜索結(jié)果中的詞可包括在一個或多個文檔的標題、摘要和/或統(tǒng)一資源定位符(URL)中發(fā)現(xiàn)的詞。特定建議的特征還可以包括與該建議相關(guān)聯(lián)的點擊數(shù)據(jù)。以下將對用于獲得和使用各種特征的各種機制進行更詳細的描述。在產(chǎn)生建議群組之后,可取的是對建議群組重新分組。例如,當特定建議群組中的建議的數(shù)量明顯小于另一個建議群組中的建議的數(shù)量時,重新分組是可取的。可取的是,確定是否呈現(xiàn)兩個或兩個以上建議群組。例如,可以確定查詢不是模糊的。如果查詢確定為不是模糊的,就可以不提供(例如,顯示)兩個或兩個以上建議群組。當查詢是模糊的時,可在308處提供兩個或兩個以上建議群組,使得所述兩個或兩個以上建議群組中的每一個被顯示在用戶界面的搜索輔助段的單獨分區(qū)中。例如,這些分區(qū)可以在用戶界面的搜索輔助段中按順序呈現(xiàn)。以下將對在搜索輔助段中排序建議群組的多種方法進行更詳細的描述。特定建議群組中的建議可以根據(jù)各種方法進行排序。例如,特定建議群組中的建議可以按作為搜索查詢的建議的執(zhí)行流行度或選擇流行度的順序來顯示。作為搜索查詢的特定建議的流行度可以使用輸入當前搜索查詢的用戶的查詢?nèi)罩緮?shù)據(jù)來確定。可替代地,作為搜索查詢的特定建議的流行度可以使用多個用戶的查詢?nèi)罩緮?shù)據(jù)來確定。此外,可以提供標識所述兩個或兩個以上建議群組中的每一個的標簽或圖像,使得該標簽或圖像被與相應(yīng)的建議群組相關(guān)聯(lián)地顯示。例如,標簽或圖像可被與搜索輔助段的相應(yīng)分區(qū)相關(guān)聯(lián)地顯示。更具體地說,與所述兩個或兩個以上建議群組中的每一個相關(guān)聯(lián)的標簽或圖像可提供在與用戶界面的搜索輔助段的相應(yīng)段中。以下將對用于標識或產(chǎn)生將為特定建議群組呈現(xiàn)的標簽或圖像的各種方法進行更詳細的描述。I.聚類律議
產(chǎn)生兩個或兩個以上建議群組以使得在建議群組之間分配建議集合,這可被定義為一個數(shù)學問題。問題假設(shè)一部分查詢(例如,前綴p)和建議集合(例如有序的建議集合),S ={si, s2,…,sn},我們可以將S劃分為k個不相交的分區(qū)(例如,有序分區(qū)),P= {P1,P2,…,Pk},使得每個Si屬于恰好一個Pj,并且每個Pj中的成員都是主題相關(guān)的(即,指查詢q的單一主題或方面)。在將S劃分之后,我們可以給每個分區(qū)指定不同的標簽L (和/或圖像I),使得L(Pj)或I(Pj)向用戶表示或描述由分區(qū)P(j)中的項共享的主題或方面,而非由S中的剩余元素共享的主題或方面。更具體地說,我們可以標識由分區(qū)P(j)中的成員共享的主題或方面,然后獲得表示所標識的主題或方面的標簽或圖像。我們還可以對分區(qū)P(j)和/或每個分區(qū)P (j)中的建議進行排序,使得集合S的效用對用戶最大化。各種聚類機制可用于根據(jù)查詢的一部分(例如,查詢前綴)將建議集合劃分為兩個或兩個以上建議群組。以下將描述3種不同的聚類機制。在下列描述中,假設(shè)建議集合中的建議所共享的部分查詢是查詢前綴。然而,重要的是,注意共享的查詢的部分可在查詢的不同位置發(fā)生。聚類任務(wù)可以簡化為找出任意兩個正被聚類的元素(如,建議)之間的相似性(或距離)的任務(wù)。以下描述的3種示例聚類機制提供了估計提供用于部分查詢的建議集合中的兩個建議之間的相似性的不同方法。I. I中心詞聚類用戶鍵入搜索查詢時所提供的許多建議是完整化結(jié)果,其中用戶輸入作為前綴。有時候,用戶輸入被當作后綴或中綴。結(jié)果,集合S在詞匯水平上可能已經(jīng)非常相似了??傊?,建議si可以看作si = p U ci,其中p是用戶提供的查詢前綴,ci是添加到特定建議si中的附加上下文(例如,一個或多個字符)。如果用戶已經(jīng)輸入的查詢的部分是查詢前綴,附加上下文ci可以是查詢前綴之后出現(xiàn)的一個或多個字符??商娲?,附加上下文ci可以包括在查詢的部分之前出現(xiàn)的一個或多個字符和/或查詢的部分之后出現(xiàn)的一個或多個字符。已經(jīng)輸入的查詢的部分之前和/或之后的一個或多個字符可以包括一個或多個詞或其部分。圖4為示出了示例建議的簡圖,當用戶鍵入“salsa”到用戶界面的搜索查詢區(qū)時,這些示例建議可提供給用戶。如在此示例中所示,建議已經(jīng)共享了前綴P??捎糜跇俗R建議Si所屬的聚類的術(shù)語最可能在該建議Si的附加上下文中。在一個實施例中,我們可以從每個建議Si中選擇單個術(shù)語,其中該單個術(shù)語是最具代表性的術(shù)語,即,使建議Si最區(qū)分于剩余建議的術(shù)語。然后,可以使用這些術(shù)語對S執(zhí)行聚類。在圖4所示的示例中,區(qū)別性的術(shù)語是“recipes (食譜)”、“dancing(舞蹈)”、“dance (跳舞)”、“music (音樂)”、“singer (歌手)”、“homemade (自制)”、“l(fā)essons (課程)”和“classes (班)”。這些術(shù)語中的每一個都可以稱作相應(yīng)建議si的“中心詞”。可以解析在建議集合S中的每一個建議Si以獲得一個或多個詞的集合。然后,可以對每個建議Si標識一個或多個詞的集合中的“中心詞”(例如,具有代表性的詞)。因此,與建議集合中的每個建議Si相關(guān)聯(lián)的特征的集合可以包括該建議的中心詞??梢允褂糜糜诠烙嬚Z義或主題詞水平的相似度的各種方法來確定建議的中心詞之間的相似度,從而確定建議Si之間的相似度。通常使用的方法包括根據(jù)大語料庫或詞匯資源(如詞匯網(wǎng)絡(luò))中的詞語上下文的方法。例如,使用信息檢索(IR)的點間互信息(PMI)(PMI-IR)是可用于確定兩個詞{wi, wj}之間的相似度的簡單共現(xiàn)技術(shù)。兩個詞{wi, wj}之間的相似度可被定義為兩個詞之間的點間互信息,其中單個詞的幾率P(wi)以及聯(lián)合概·率P(wi,wj)是使用語料庫中的最大出現(xiàn)可能性估計的。特別地,在此情況下兩個詞之間的相似度測量可被定義為
I counts{wi) n counts(wj) | Sim(wi,wj) = ^ounts(wi) counts{wj)]
nn其中,計數(shù)(X)是包含x的文檔的集合,n是語料庫尺寸(例如,搜索結(jié)果的數(shù)量)。兩個建議之間的相似度可以是中心詞之間的相似度。中心詞詵擇由于web查詢的平均長度較短,附加上下文Ci經(jīng)常包括單個術(shù)語。因此,此單個術(shù)語可以用作建議Si的中心詞。然而,存在附加上下文ci包括兩個或兩個以上詞的情況。因此,對于特定建議Si,可以使用用于選擇中心詞的各種方法來從這些詞中選出中心詞。以下描述了幾個示例方法。首詞選擇附加上下文ci中最左邊的詞。例如,當建議為“salsa singer cruz”時,附加上下文為“singer cruz”,首詞為“singer”。尾詞選擇附加上下文ci中最右邊的詞(例如,建議“salsa singer cruz”中的cruz)o頻率對附加上下文ci中的每個詞,計算其術(shù)語頻率(tf)值和逆向文檔頻率(idf)值的積tf .idf,其中可用于計算tf的“文檔”可以包括正被聚類的建議集合S中的所有詞,并且對用戶輸入的所有建議的集合S計算idf
X countw(s)tf (W)= “冬,,~
I g Iidf (w) = log—--
I {方I W 〃}丨
特定建議si的中心詞可以通過選擇具有最高的tf idf值的詞來選擇。I. 2結(jié)果集合聚類為了確定兩個查詢建議之間的相似度,與查詢建議中的每一個相關(guān)聯(lián)的搜索結(jié)果可被利用。對于相應(yīng)查詢建議的排名前N個搜索結(jié)果(例如,文檔)中找出的術(shù)語,建議查詢中的每一個可以使用相應(yīng)的tf idf值來表示。因此,與建議集合中的每一個建議相關(guān)聯(lián)的特征的集合可以包括或者基于相應(yīng)的搜索結(jié)果的集合中的詞的集合。假設(shè)查詢建議Si,我們可以獲得搜索引擎返回的建議Si的前N個文檔的搜索結(jié)果R(Si)的集合。每一個文檔d G R(Si)可包括標題、摘要和統(tǒng)一資源定位符(URL)。摘要可以是示出給用戶的文檔d的一部分,包括查詢中的術(shù)語和術(shù)語周圍的少量上下文。因此,對于排名前N個的搜索結(jié)果中的每一個的標題t(d)、摘要a(d)和/或URL u(d)中的一個或多個詞,確定其tf idf值。
在一個實施例中,每一個文檔組成部分(標題、摘要和/或URL)可以表示為出現(xiàn)在其中的術(shù)語的tf idf矢量,即,每個位置存儲一個詞的tf idf值的矢量??梢葬槍η癗個的文檔中的每一個來確定文檔組成部分的矢量。結(jié)果集合R(S)的文檔組成部分的矢量可以通過對特定建議Si的所有文檔獲得每一個組成部分矢量的形心(例如,平均矢量)來獲得。例如,結(jié)果集合R(Si)的矢量標題(Si)可通過獲得限定結(jié)果集合R(Si)的文檔的排名前N個的標題的矢量標題(d)的形心來獲得。特定建議Si的單個矢量vs可以通過將與該建議Si的結(jié)果集合R(Si)相對應(yīng)的矢量標題⑷、摘要⑷和/或url(d)連接起來而獲得??蓪γ總€建議Si執(zhí)行該過程。諸如余弦相似性函數(shù)的相似性函數(shù)可用于確定兩個不同的形心矢量vs之間的相似性,因此,兩個對應(yīng)的建議Si之間的相似性是它們的點積。Sim (Si, Sj) = Vsi VsjI. 3基于點擊的聚類搜索引擎保持的點擊數(shù)據(jù)可被用于將建議集合S劃分為兩個或兩個以上群組。點擊數(shù)據(jù)可包括關(guān)于用戶所點擊的URL的信息,這些URL來自呈現(xiàn)給一個或多個用戶的搜索結(jié)果。例如,對于多個用戶的特定查詢建議“pineapple salsa”,搜索日志可包括3個不同點擊的URL。URLl:www. allrecipes, com/pineapple-salsa/detail, aspxURL2:www. cooks, com/rec/pineapple salsa, htmlURL3:www. bloRchef. net/pineapple-salsa-recipe/使用特定查詢建議Si的點擊數(shù)據(jù),我們可以將部分搜索查詢(例如,查詢前綴)的每一個建議Si特征化為與該建議相關(guān)聯(lián)的點擊的URL的集合。具有類似用戶點擊行為的建議可被一起分組在相同的群組中。更具體地說,產(chǎn)生對一個或多個相同的URL的點擊的不同查詢可以捕捉類似的用戶意圖。例如,查詢建議“pineapple salsa for fish”可產(chǎn)生對以上URL之一的點擊,從而表明兩個建議是類似的。使用點擊的URL可導(dǎo)致被證明為過于受限的具體表示,因為網(wǎng)站趨向于依據(jù)概念給出網(wǎng)頁。因此,我們可以使用來自點擊數(shù)據(jù)的基礎(chǔ)URL,而不是具體點擊的URL。例如,URLl可以一般化為www. allrecipes, com。因此,可以使用與網(wǎng)站相關(guān)聯(lián)的URL,而不是與具體網(wǎng)頁相關(guān)聯(lián)的URL。此外,諸如www. wikipedia. orR的信息網(wǎng)站或百科全書式網(wǎng)站將會引入非期望的偏差,并且導(dǎo)致不相似的概念放置在相同的聚類中。同樣地,諸如畫.youtube, com的其他網(wǎng)站也可以引入這種偏差。為了解決這個問題,我們將每個建議當作一個文檔,并且計算每個基礎(chǔ)URL的逆文檔頻率,并且當產(chǎn)生表現(xiàn)時,使用其作為權(quán)值,以下將對此進行更詳細的描述??商娲兀覀兛梢愿鶕?jù)他們的逆文檔頻率排除一個或多個URL。更具體地說,逆文檔頻率可以表示建議在查詢?nèi)罩局械某霈F(xiàn)頻率的逆??梢允褂命c擊數(shù)據(jù)表示查詢建議。更具體地說,假設(shè)前綴P和與其相關(guān)聯(lián)的建議集合S,我們可以定義p的 點擊圖。點擊圖可被定義為包括兩類節(jié)點的二分圖建議節(jié)點(s節(jié)點)和基礎(chǔ)URL節(jié)點(u節(jié)點),以及定向邊緣的集合E。建議集合S中的每一個建議可以表示為s節(jié)點。為了產(chǎn)生u節(jié)點,我們可以取與每一個建議相關(guān)聯(lián)的基本URL的集合的并集,并且依據(jù)不同的基本URL產(chǎn)生一個節(jié)點。建議節(jié)點s和URL節(jié)點u之間的邊緣S- >u表示當s提交為查詢時,點擊了 URL U??梢詾槊恳粋€邊緣指定一個權(quán)值,該權(quán)值是當s提交為查詢時URL u被點擊的次數(shù)。使用點擊圖,對于該圖中的每個建議,我們可以產(chǎn)生L2標準化特征矢量,該標準化特征矢量的大小等于圖中URL節(jié)點的數(shù)量,其中矢量中的每個維表示圖中的一個URL。與URL j相關(guān)聯(lián)的維的值可以計算為
f _J^L_J石如果建議s和j之間存在邊緣的話;
VZ./ WJ否則為O。其中U是點擊圖中URL的集合,Wg是在點擊圖中與邊緣S- > j相關(guān)聯(lián)的權(quán)值。為了計算前綴P的兩個建議之間的相似度,我們使用諸如余弦相似度函數(shù)的相似度函數(shù)來產(chǎn)生如下的相似度量
l"l V V=I. 4聚類算法一旦使用以上所述的3種方法之一限定給定查詢前綴的S中的任意一對建議之間的相似度時,就可以將該相似度用作用于聚類的相似度量。然后,可以使用聚類算法對使用相應(yīng)的相似度量的建議來分組,使得相似的建議劃分在一起。更具體地說,一旦排除了兩個不同的建議之間的相似度,就會使用諸如層次聚合聚類方法的無監(jiān)督聚類算法來將建議劃分為兩個或兩個以上聚類。2.標記聚類一旦建議集合S被劃分為兩個或兩個以上群組,不同的標簽或圖像可以指定給每一個建議群組,并且被與相應(yīng)的建議群組相關(guān)聯(lián)地顯示。以此方式,可以提供視覺線索來指示相應(yīng)建議群組的主題。以下會對將標簽或圖像指定給建議群組的各種方法進行詳細的描述。2. I最高頻的津議(MFS)選擇用于查詢建議聚類的標簽(或圖像)的一種方法是選擇聚類中最具代表性的建議。由于聚類中的每個建議都是查詢,選擇最具代表性的建議的一種方法是選擇已被呈現(xiàn)和/或被用戶點擊過的(例如,根據(jù)查詢?nèi)罩?最高頻的建議。更具體地說,MFS指定給特定建議聚類S的標簽是MFS(S) = Si =Si G S,V^e5 Freq(Sj) ^ Freq(Si)其中,F(xiàn)req(X)是查詢?nèi)罩局杏^察到x的次數(shù)。一旦標識出建議群組中最具代表性的建議,就可以獲得并提供(例如,顯示)與具有代表性的建議相關(guān)聯(lián)的標簽和/或圖像。例如,該標簽可以簡單地是具有代表性的建議(例如,“Nursing(護理)”)。作為另一個示例,可提供護士的圖像,而不是標簽“nursing”。2. 2最長公共子序列(LCS)通常,聚類中的建議共享字符序列,而不與其他聚類中的建議共享該字符序列。例 如,用戶提交的部分查詢“us a”可以完整化為“us airways”和“us airways flights”(都在一個聚類中),以及“us army”和“us army jobs”(在不同的聚類中)。可取的是,使用該建議的最長公共子序列(或選擇圖像)作為查詢建議聚類的標簽。建議集合S的LCS可以表示如下LCS(S)=
_2] Ii=Iie Q(S).V0-G^Length(lj) < Length(Ii)其中,Q(S)是任意建議s G S的子序列的集合。例如,LCS方法指定給搜索查詢建議集合的標簽是“nursing home”,而該搜索查詢建議集合包括“nursing home”、“nursinghome compare”和“nursing home costs”。因此,一旦標識出兩個或兩個以上建議的群組所共有的字符序列,就可以提供(例如,顯示)與該建議群組所共有的該字符序列相關(guān)聯(lián)(例如,標識)的標簽或圖像。
_4] 2. 3最高頻的結(jié)果集合(MFRS)MFS和LCS方法都具有的缺點是,他們從屬于聚類的建議中產(chǎn)生用于該聚類的標簽。然而,對于某些建議聚類而言,有意義的標簽是不能單獨從聚類的建議中確定的。在這些情況下,用于聚類的標簽可以使用該聚類以外的資源獲得。例如,對于包括建議“l(fā)osangeles daily news,,、“l(fā)os angeles times”和“l(fā)os angeles times newspaper”的聚類,有用的標簽可以是“l(fā)os angeles newspapers” -與該聚類中的所有建議僅部分重疊的標簽。就執(zhí)行聚類自身而言,我們可以使用每個建議(當其作為提交給搜索引擎的查詢時)的排名靠前的文檔的集合作為該外部知識。更具體地說,每一個搜索查詢建議可以通過搜索引擎執(zhí)行為搜索查詢,以獲得相應(yīng)的文檔集合。通過將特定聚類中的建議集合轉(zhuǎn)換為文檔集合,我們可以使用為標記文檔(而非查詢)開發(fā)的各種方法。標記文檔聚類的一個標準方法是從文檔中獲取詞n-元,并且選擇最高頻的n-元。n-元是n個詞的連續(xù)序列。設(shè)R(S)為建議s的排名靠前的搜索結(jié)果的集合;設(shè)R(S)=U SiesR(Si);設(shè)如((1)為文檔d中包含的詞n-元的集合;并且設(shè)NG(R(S))為建議聚類的所有排名靠前的文檔中的所有n-元的集合,NG(R(S)) =U deK(s)NG(d)。則MFRS方法指定給建議集合S的標簽是MFRS(S) = Ii li G NG(R⑶)仝 CountCli5R(S)).例如,MFRS方法可以將標簽“news”指定給包括建議“l(fā)os angeles daily news”、“l(fā)os angeles times,,和 “l(fā)os angeles times newspaper” 的建議聚類。
根據(jù)一個實施例,對于每一個建議群組,可以獲得與相應(yīng)建議集合相關(guān)聯(lián)的搜索結(jié)果(例如,文檔)的集合,其中每一個搜索結(jié)果包括相應(yīng)的標題、摘要和統(tǒng)一資源定位符(URL)。然后,使用相應(yīng)的搜索結(jié)果的集合,可以標識或產(chǎn)生每一個建議群組的標簽(或圖像)。2. 4最高頻的修改結(jié)果集合(MFRSjt)作為一批用于聚類的實體,搜索建議的獨特之處在于他們具有高詞匯重疊度。在具有長公共子序列的聚類中,我們感興趣的用于標記的元素有時候在不為該聚類的所有元素所共享的那部分建議中被最好表示。因此,可以使用附加標記機制MFRS' MFRS*類似于MFRS,但是為了獲得排名靠前的文檔的集合而執(zhí)行的查詢可以通過僅執(zhí)行在聚類中獨特的部分建議來獲得(而非執(zhí)行他們?nèi)康乃阉鹘ㄗh)。例如,對于包括建議“l(fā)os angelespublic library,,、“l(fā)os angeles police department,,和 “l(fā)os angeles unified schooldistrict”的建議聚類,可以執(zhí)行搜索查詢“public library”和“police department”和“unified school district”。MFRS* 機制可被定義為如下。
設(shè) < 是除去了建議集合S的最長公共子序列的建議Si,<= Si-LCS (S),并且設(shè)S*是從所有建議中除去了最長公共子序列的建議集合S,S* = U iSi*,則MFRS*指定給S的標簽是MFRS* (S) = MFRS (S*).例如,MFRS*方法可以將標簽“services”指定給包括建議“l(fā)os angeles publiclibrary,,、“l(fā)os angeles police department,, 和 “l(fā)os angeles unified schooldistrict”的建議聚類。2. 5組合標記策略如以上所述的一個或多個標記機制可以單獨地或者彼此結(jié)合地使用,以將標簽(或圖像)指定給各種建議群組。建議聚類可以具有不同的特點,因此可通過不同的標記方法獲得益處。因此,選擇并且應(yīng)用的一個或多個標記機制可以根據(jù)他們所應(yīng)用于的系統(tǒng)而變化。此外,選擇并且應(yīng)用的標記機制可根據(jù)聚類的聚類特點而變化??梢詥为毜厥褂脕碜跃垲愔械男畔?例如,建議)來將標簽(或圖像)指定給聚類。例如,可以使用諸如MFS或LCS的機制來指定標簽(或圖像)??商娲?,可以使用該聚類以外的信息(例如,搜索結(jié)果)加上或代替該聚類中的信息來將標簽(或圖像)指定給聚類。例如,可以使用諸如MFRS或MFRS*的機制來指定標簽(或圖像)。在一個實施例中,可以檢查聚類以確定聚類的聚類關(guān)聯(lián)程度。換言之,可以檢查聚類以確定聚類的元素(例如,建議)的相似程度。聚類越緊湊(例如,聚類的元素越相似),就越可能在聚類的成員中找出合適的標簽,而非從外部將其找出。建議集合S的關(guān)聯(lián)程度可以使用聚類S的元素之間的平均距離來測量。當聚類S的關(guān)聯(lián)程度小于閾值量,可以應(yīng)用諸如MFRS或MFRS*的、使用聚類以外的信息的機制,在其他情況下,可以應(yīng)用諸如MFS或LCS的、使用聚類中的信息的機制。3.排序津議聚類所公開的實施例可以應(yīng)用于呈現(xiàn)用于使查詢完整化的建議集合,以減少在建議集合中定位期望的建議的用戶花費。建議集合所分組的方式可以減少用戶花費量。同樣地,建議群組呈現(xiàn)的順序以及特定建議群組中的建議呈現(xiàn)的順序也可以影響用戶花費量,其中,用戶花費是指在所呈現(xiàn)的建議集合中定位所期望的建議。根據(jù)一方面,將要提供兩個或兩個以上建議群組的順序可以在提供用于顯示的兩個或兩個以上建議群組之前確定。然后,可以提供所述兩個或兩個以上建議群組,使得所述兩個或兩個以上建議群組根據(jù)所確定的順序顯示在用戶界面的搜索輔助段的單獨分區(qū)中。成本度量可被應(yīng)用以描述當在建議聚類集合中定位建議時所付出的用戶花費的特征。更具體地說,成本度量可以產(chǎn)生表示從兩個或兩個以上建議的群組中定位建議的預(yù)期成本的數(shù)值。然后,可以應(yīng)用算法來最小化從建議聚類集合中定位建議的預(yù)期成本。通過聚類(和標記)將與用戶已經(jīng)輸入的搜索查詢的一部分相關(guān)聯(lián)地呈現(xiàn)的建議集合,我們能讓用戶在聚類之間跳過,然后在標識相關(guān)的聚類之后,用戶可以在該聚類中細看以定位期望的建議。因此,標識期望的建議的成本可被定義為讀取聚類標簽的時間用戶可通過讀取相應(yīng)的標簽(或圖像)來瀏覽建議的聚類。 在每一個聚類C處,根據(jù)標簽是否捕捉用戶感興趣的領(lǐng)域,用戶可以決定應(yīng)該跳過還是細看該聚類。我們可以將讀取聚類標簽的成本表示為Tlb(C)。細看聚類的時間一旦標識出包含期望的建議s的聚類C,用戶就可以細看聚類C中的建議,直到期望的建議被定位為止。我們可以將細看聚類中的每一個建議的成本表示為 Tsc(S)??紤]這樣的情況用戶已經(jīng)輸入查詢前綴p并且有興趣從聚類Cl、C2.....Cn
的集合中定位建議s,設(shè)Cm為包含建議Si、s2. . .、sj的聚類,使得sk = S。換言之,建議s定位在聚類Cm中的位置k。用戶定位建議s的成本(可表示為T(S))可被定義為
U(CO TJs)。為了簡化,我們可以假設(shè)讀取任意聚類標簽的成本對于所有聚
類都是相同的,即Tlb。同樣地,我們可以假設(shè),無論怎樣的建議,在聚類id中看完建議的成本Tsc都是相同的。聚類m中在位置k處的建議s的T(S)則變成了 T(S) = m-Tlb+k-Tsc。對于輸入了前綴p的用戶,在建議中定位感興趣的建議的預(yù)期成本T(p)可被定義為
Tp(R) = ^T(s)-P(s\pl
V-v其中,P(s|p)表示輸入前綴后用戶傾向于建議s的幾率,Tp是建議s的排名R的函數(shù)。當輸入前綴P時,可以基于觀察用戶的偏好根據(jù)查詢?nèi)罩緛砉烙婸(s|p)。更具體地說,可以標識該用戶(或通常為多個用戶)已經(jīng)提交或選擇的包括前綴P的查詢。然后,可以根據(jù)標識出的查詢來確定已經(jīng)提交或選擇的查詢S的次數(shù)相對于包括前綴S的查詢的總數(shù)。具體地,如果f(p)是一個用戶(或多個用戶)輸入前綴的次數(shù)(例如,一個用戶或多個用戶曾提交包括前綴的查詢的次數(shù)),并且f (S)是建議S曾被作為用戶查詢提交的次數(shù),則P(s I p) =
/(P)注意,I P(SIP),將通常小于1,因為用戶可輸入了不在建議集合中的查詢。我們
V.v
可以假設(shè)對建議集合中不存在的建議感興趣的用戶的成本并不取決于呈現(xiàn)的建議集合的排名。可以使用排名算法對聚類以及聚類中的建議進行排序,以最小化Tp (R)。在一個實施例中,排名算法可以按頻率f(S)的非遞增順序(例如,遞減順序)將聚類中的建議排序。為了對建議聚類排序,可以為每一個聚類S指定總頻率F(C),該總頻率F(C)等于聚類C中所有建議的頻率的總和。因此,排名算法可以按總頻率F(C)的非遞增順序(例如,遞減順序)將建議聚類排序。根據(jù)另一方面,可以對每一個建議群組的建議排序。更具體地說,可以確定兩個或兩個以上建議群組中的每一個中的建議集合的子集將被提供的順序。例如,該順序可指示根據(jù)查詢?nèi)罩镜慕ㄗh的流行度。然后,兩個或兩個以上建議群組中的每一個的建議可以根據(jù)所確定的順序被顯示在用戶界面的搜索輔助段的相應(yīng)分區(qū)中。使用本發(fā)明的實施例,可以通過圖形用戶界面執(zhí)行搜索,同時可以使用同一圖形用戶界面提供搜索建議。所公開的實施例可以實施在任意各種計算上下文中。例如,如圖5所示,設(shè)想了這樣的實施方式,其中用戶通過任意類型的計算機(例如,臺式計算機、筆記本計算機、平板計算機等)1102、媒體計算平臺1103(例如,有線電視和衛(wèi)星電視機頂盒和數(shù)字視頻錄像機)、手持計算裝置(例如,個人數(shù)字助理)1104、蜂窩電話1106或任意類型的計算或通信平臺與多種多樣的網(wǎng)絡(luò)環(huán)境交互。而且根據(jù)各種實施例,根據(jù)本發(fā)明進行的輸入可以使用各種技術(shù)來獲得。例如,可以通過圖形用戶界面從用戶與本地應(yīng)用、網(wǎng)站或基于web的應(yīng)用或服務(wù)的交互來獲得搜索查詢,并且可以使用用于從用戶獲得信息的任意多種已知的機制來完成。然而,應(yīng)當理解的是,從用戶獲得輸入的這些方法僅為示例,搜索查詢還可以通過多種其他方式獲得。根據(jù)所公開的實施例可按照某些集中方式聚類和呈現(xiàn)搜索建議。這在圖5中表示為服務(wù)器1108和數(shù)據(jù)存儲裝置1110,將會理解的是,服務(wù)器和數(shù)據(jù)存儲裝置可對應(yīng)于多個分布式裝置和數(shù)據(jù)存儲裝置。本發(fā)明還可以在各種網(wǎng)絡(luò)環(huán)境(以網(wǎng)絡(luò)1112表示)中實現(xiàn),例如包括基于TCP/IP的網(wǎng)絡(luò)、電信網(wǎng)絡(luò)、無線網(wǎng)絡(luò)等。此外,實施本發(fā)明的實施例的計算機 程序指令可存儲在任意類型的計算機可讀介質(zhì)中,可以根據(jù)包括客戶端/服務(wù)器模型、對等模型在內(nèi)的各種計算模型在獨立的計算裝置上執(zhí)行,或者根據(jù)分布式計算模型執(zhí)行,在該分布式計算模型中,這里描述的各種功能可以在不同的位置上實現(xiàn)或使用。本發(fā)明所公開的技術(shù)可以軟件和/或硬件系統(tǒng)的任意適當組合的方式實施,諸如基于web的服務(wù)器或臺式計算機系統(tǒng)。此外,實施本發(fā)明的各種實施例的系統(tǒng)可以是便攜式裝置,諸如筆記本計算機或蜂窩電話。本發(fā)明的搜索裝置和/或網(wǎng)絡(luò)瀏覽器可以專門構(gòu)造用于所需的目的,或者也可以是由計算機程序和/或存儲在計算機中的數(shù)據(jù)結(jié)構(gòu)選擇性地激活或者重新配置的通用計算機。這里表示的處理不是固有地與任意特定計算機或其他裝置有關(guān)。特別地,可以使用根據(jù)這里的教導(dǎo)寫有程序的各種通用機器,或者構(gòu)造更加專業(yè)的裝置來執(zhí)行所需的方法步驟將會更加方便。不管系統(tǒng)配置,可以使用一種或多種存儲器或存儲模塊,這些存儲器或存儲模塊配置為存儲用于通用目的處理操作和/或這里描述的本發(fā)明的技術(shù)的數(shù)據(jù)及程序指令。例如,程序指令可以控制操作系統(tǒng)和/或一個或多個應(yīng)用程序的操作。一個或多個存儲器也可以配置為存儲用于執(zhí)行所公開的方法的指令、以及查詢?nèi)罩尽撕?、圖像、搜索結(jié)果等。因為這種信息和程序指令可以用于實施這里描述的系統(tǒng)/方法,所以本發(fā)明涉及機器可讀介質(zhì),該機器可讀介質(zhì)包括用于執(zhí)行這里描述的各種操作的程序指令、狀態(tài)信息等。機器可讀介質(zhì)的示例包括(但不限于)諸如硬盤的磁性介質(zhì)、軟盤和磁帶;諸如CD-ROM盤的光學介質(zhì);諸如軟式光盤的磁光介質(zhì);以及專門配置為存儲和執(zhí)行程序指令的硬件裝置,如只讀存儲器裝置(ROM)和隨機存取存儲器(RAM)。程序指令的示例包括機器代碼(諸如通過編譯器生成的)和包含高級代碼的文件,計算機可以使用解釋器執(zhí)行該文件。圖6示出了典型的 計算系統(tǒng),當適當?shù)嘏渲没蛟O(shè)計時可以用作本發(fā)明的系統(tǒng)。計算系統(tǒng)1200包括任意數(shù)量的處理器1202 (也稱作中央處理器或CPU),該處理器耦接至存儲裝置,該存儲裝置包括主存儲器1206 (通常為隨機存取存儲器或RAM)和主存儲器1204 (通常為只讀存儲器或ROM)。CPU 1202可以是各種類型,包括微控制器和微處理器,如可編程裝置(如CPLD和FPGA)和諸如如門陣列ASIC或通用微處理器的非可編程裝置。本領(lǐng)域已知的是,主存儲器1204起著單向傳遞數(shù)據(jù)和指令到CPU的作用,主存儲器1206通常用于以雙向的方式傳遞數(shù)據(jù)和指令到CPU。這些主存儲裝置都可以包括如上所述的任意適當?shù)挠嬎銠C可讀介質(zhì)。大容量存儲裝置1208也雙向耦接至CPU 1202,并且提供額外的數(shù)據(jù)存儲能力,并且可以包括以上所述的任意計算機可讀介質(zhì)。大容量存儲裝置1208可用于存儲程序、數(shù)據(jù)等,并且通常為諸如硬盤的次級存儲介質(zhì)。將會認識到,在適當?shù)那闆r下,保存在大容量存儲裝置1208中的信息可以標準方式納入到作為虛擬內(nèi)存的部分主存儲器1206中。諸如⑶-ROM 1214的特定大容量存儲裝置也可以單向傳遞數(shù)據(jù)到CPU。CPU 1202也可以耦接至接口 1210,該接口連接至一個或多個輸入/輸出裝置,諸如視頻監(jiān)視器、軌跡球、鼠標、鍵盤、麥克風、觸摸式顯示屏、傳感器智能卡閱讀器、磁性或紙帶閱讀機、平板計算機、光筆、語音或手寫識別器或其他公知的輸入裝置,如(當然)其他計算機。最后,CPU 1202可選擇地使用一般如1212所示的外部連接耦接至諸如數(shù)據(jù)庫或計算機或電信網(wǎng)絡(luò)的外部裝置。由于具有這種連接,設(shè)想CPU在執(zhí)行這里描述的方法步驟的過程中可以接收來自網(wǎng)絡(luò)的信息,或可輸出信息到網(wǎng)絡(luò)。雖然前文出于清楚理解的目的在一些細節(jié)方面對本發(fā)明進行了描述,然而應(yīng)清楚的是,可以在所附權(quán)利要求的范圍內(nèi)進行某些改變和修改。因此,本實施例將被認為是示例性的而非限制性的,并且本發(fā)明并不僅限于這里給出的細節(jié),也可在所附權(quán)利要求的范圍和等效內(nèi)容內(nèi)進行修改。
權(quán)利要求
1.一種方法,包括 通過用戶界面的搜索查詢區(qū)獲得文本段,所述文本段是搜索查詢的一部分; 獲得建議集合,所述建議集合中的每個建議是與所述文本段相關(guān)的所建議的搜索查詢; 產(chǎn)生兩個或兩個以上建議群組,所述兩個或兩個以上建議群組中的每一個包括所述建議集合的不同子集;以及 提供所述兩個或兩個以上建議群組,使得所述兩個或兩個以上建議群組中的每一個顯示在所述用戶界面的搜索輔助段的單獨分區(qū)中。
2.如權(quán)利要求I所述的方法,其中提供所述兩個或兩個以上建議群組包括 提供標識所述兩個或兩個以上建議群組中的每一個的標簽或圖像,使得所述標簽或圖像被與所述用戶界面的搜索輔助段的相應(yīng)分區(qū)相關(guān)聯(lián)地顯示。
3.如權(quán)利要求I所述的方法,其中產(chǎn)生所述兩個或兩個以上建議群組包括 獲得與所述建議集合中的每個建議相關(guān)聯(lián)的一個或多個特征的集合;以及 應(yīng)用與所述建議集合中的每個建議相關(guān)聯(lián)的所述一個或多個特征的集合以產(chǎn)生所述兩個或兩個以上建議群組。
4.如權(quán)利要求3所述的方法,進一步包括 解析所述建議集合中的每個建議以獲得用于相應(yīng)建議的一個或多個詞的集合; 其中與所述建議集合中的每個建議相關(guān)聯(lián)的所述一個或多個特征的集合包括在相應(yīng)的一個或多個詞的集合中的具有代表性的詞。
5.如權(quán)利要求3所述的方法,進一步包括 獲得與所述建議集合中的每個建議相關(guān)聯(lián)的搜索結(jié)果的集合,所述搜索結(jié)果的集合中的每個搜索結(jié)果包括相應(yīng)的標題、摘要和統(tǒng)一資源定位符(URL); 其中與所述建議集合中的每個建議相關(guān)聯(lián)的所述一個或多個特征的集合包括或者基于在相應(yīng)的搜索結(jié)果的集合中的詞的集合。
6.如權(quán)利要求5所述的方法,其中相應(yīng)的搜索結(jié)果的集合中的詞的集合包括以下各項中的至少一個所述搜索結(jié)果的集合的至少一部分的標題中的詞、所述搜索結(jié)果的集合的至少一部分的摘要中的詞或所述搜索結(jié)果的集合的至少一部分的URL中的詞。
7.如權(quán)利要求3所述的方法,進一步包括 獲得與所述建議集合中的每個建議相關(guān)聯(lián)的點擊數(shù)據(jù); 其中與所述建議集合中的每個建議相關(guān)聯(lián)的所述一個或多個特征的集合包括所獲得的點擊數(shù)據(jù)。
8.如權(quán)利要求I所述的方法,進一步包括 確定是否要呈現(xiàn)所述兩個或兩個以上建議群組; 其中提供所述兩個或兩個以上建議群組是根據(jù)是否確定了所述兩個或兩個以上建議群組將被呈現(xiàn)來執(zhí)行的。
9.如權(quán)利要求I所述的方法,進一步包括 確定所述兩個或兩個以上建議群組中的每一個中的所述建議集合的子集將被提供的順序; 其中執(zhí)行了提供所述兩個或兩個以上建議群組,使得所述兩個或兩個以上建議群組中的每一個中的所述建議集合的子集根據(jù)所確定的順序被顯示在所述用戶界面的搜索輔助段的相應(yīng)分區(qū)中。
10.如權(quán)利要求I所述的方法,進一步包括 在提供所述兩個或兩個以上建議群組之前確定所述兩個或兩個以上建議群組將被提供的順序; 其中執(zhí)行了提供所述兩個或兩個以上建議群組,使得所述兩個或兩個以上建議群組根據(jù)所確定的順序顯示在所述用戶界面的搜索輔助段的單獨分區(qū)中。
11.如權(quán)利要求10所述的方法,其中確定所述兩個或兩個以上建議群組將被提供的順序包括 應(yīng)用成本度量以產(chǎn)生表示從所述兩個或兩個以上建議群組中定位建議的預(yù)期成本的數(shù)值; 最小化所述從所述兩個或兩個以上建議群組中定位建議的預(yù)期成本;
12.—種方法,包括 通過用戶界面的搜索查詢區(qū)獲得文本段,所述文本段是搜索查詢的一部分; 獲得建議集合,該建議集合中的每個建議是與所述文本段相關(guān)的所建議的搜索查詢; 根據(jù)所述建議集合來確定所述搜索查詢是模糊查詢; 產(chǎn)生兩個或兩個以上建議群組,所述兩個或兩個以上建議群組中的每一個包括所述建議集合的不同子集;以及 提供所述兩個或兩個以上建議群組,使得所述兩個或兩個以上建議群組中的每一個被顯示在所述用戶界面的搜索輔助段的單獨分區(qū)中。
13.如權(quán)利要求12所述的方法,進一步包括 提供標識所述兩個或兩個以上建議群組中的每一個的標簽或圖像,使得所述標簽或圖像被與所述用戶界面的搜索輔助段的相應(yīng)分區(qū)相關(guān)聯(lián)地顯示。
14.如權(quán)利要求12所述的方法,進一步包括 產(chǎn)生兩個或兩個以上建議群組的第一集合,所述兩個或兩個以上建議群組的第一集合中的每一個包括所述建議集合的不同子集; 其中根據(jù)所述建議集合來確定所述搜索查詢是模糊查詢是基于所述兩個或兩個以上建議群組的第一集合中的每一個中的建議數(shù)量來執(zhí)行的。
15.如權(quán)利要求12所述的方法,其中所述兩個或兩個以上建議群組中的每一個對應(yīng)于所述搜索查詢的一部分的不同解釋。
16.—種方法,包括 通過用戶界面的搜索查詢框獲得文本段,所述文本段是搜索查詢的一部分; 獲得建議集合,該建議集合中的每個建議是包括所述文本段的所建議的搜索查詢; 產(chǎn)生兩個或兩個以上建議群組,所述兩個或兩個以上建議群組中的每一個包括所述建議集合的不同子集; 提供所述兩個或兩個以上建議群組,使得所述兩個或兩個以上建議群組中的每一個被顯示在所述用戶界面的搜索輔助段的單獨段中;以及 提供與所述兩個或兩個以上建議群組中的每一個相關(guān)聯(lián)的標簽或圖像,使得所述標簽或圖像緊靠所述兩個或兩個以上建議群組中的相應(yīng)一個被顯示在所述用戶界面中。
17.如權(quán)利要求16所述的方法,其中與所述兩個或兩個以上建議群組中的每一個相關(guān)聯(lián)的所述標簽或圖像是在所述用戶界面的搜索輔助段的相應(yīng)段中提供的。
18.如權(quán)利要求16所述的方法,進一步包括 從所述兩個或兩個以上建議群組中的每一個的建議子集中標識具有代表性的建議;以及 獲得與所述兩個或兩個以上建議群組中的相應(yīng)一個中的具有代表性的建議相關(guān)聯(lián)的具有代表性的標簽或圖像; 其中提供與所述兩個或兩個以上建議群組中的每一個相關(guān)聯(lián)的所述標簽或圖像包括提供與所述兩個或兩個以上建議群組中的相應(yīng)一個中的具有代表性的建議相關(guān)聯(lián)的所述具有代表性的標簽或圖像。
19.如權(quán)利要求18所述的方法,其中所述具有代表性的建議是根據(jù)查詢?nèi)罩驹谒鼋ㄗh子集中出現(xiàn)頻率最高的一個建議。
20.如權(quán)利要求16所述的方法,進一步包括 對于所述兩個或兩個以上建議群組中的每一個,標識所述建議集合的相應(yīng)子集所共有的字符序列; 其中提供與所述兩個或兩個以上建議群組中的每一個相關(guān)聯(lián)的所述標簽或圖像包括提供與所述建議的相應(yīng)子集所共有的字符序列相關(guān)聯(lián)的標簽或圖像。
21.如權(quán)利要求16所述的方法,進一步包括 對于所述兩個或兩個以上建議群組中的每一個,獲得與所述建議集合的相應(yīng)子集相關(guān)聯(lián)的搜索結(jié)果的集合,所述搜索結(jié)果的集合中的每個搜索結(jié)果包括相應(yīng)的標題、摘要和統(tǒng)一資源定位符(URL);以及 使用相應(yīng)的所述搜索結(jié)果的集合來標識所述兩個或兩個以上建議群組中的每一個或產(chǎn)生用于所述兩個或兩個以上建議群組中的每一個的標簽。
22.如權(quán)利要求21所述的方法,其中獲得所述搜索結(jié)果的集合是通過對所述建議集合的相應(yīng)子集中的一個或多個建議執(zhí)行搜索查詢而完成的。
23.如權(quán)利要求21所述的方法,其中獲得所述搜索結(jié)果的集合是通過僅使用所述建議集合的相應(yīng)子集中在所述兩個或兩個以上建議群組中的相應(yīng)一個中獨特的部分建議執(zhí)行搜索查詢而完成的。
24.如權(quán)利要求16所述的方法,進一步包括 對于所述兩個或兩個以上建議群組中的每一個 標識所述兩個或兩個以上建議群組中的一個中的所述建議集合的子集所共享的主題或方面,其中所述主題或方面不被所述建議集合中的其他建議子集所共享;以及 獲得表示所述主題或方面的標簽或圖像,從而使所述標簽或圖像能被與所述兩個或兩個以上建議群組中的相應(yīng)一個相關(guān)聯(lián)地提供。
25.如權(quán)利要求16所述的方法,進一步包括 對于所述兩個或兩個以上建議群組中的每一個 確定所述兩個或兩個以上建議群組之一的關(guān)聯(lián)程度;以及 使用所述兩個或兩個以上建議群組之一以外的信息來根據(jù)所述兩個或兩個以上建議群組之一的關(guān)聯(lián)程度獲得與所述兩個或兩個以上建議群組之一相關(guān)聯(lián)的標簽或圖像。
全文摘要
本發(fā)明公開了用于聚類和呈現(xiàn)搜索建議的方法和裝置。通過用戶界面的搜索查詢區(qū)獲得文本段,所述文本段是搜索查詢的一部分。獲得建議集合,該建議集合中的每個建議是與所述文本段相關(guān)的所建議的搜索查詢。產(chǎn)生兩個或兩個以上建議群組,所述兩個或兩個以上建議群組中的每一個包括所述建議集合的不同子集。提供所述兩個或兩個以上建議群組,使得所述兩個或兩個以上建議群組中的每一個顯示在所述用戶界面的搜索輔助段的單獨分區(qū)中。
文檔編號G06F15/16GK102687138SQ201080059977
公開日2012年9月19日 申請日期2010年12月17日 優(yōu)先權(quán)日2009年12月28日
發(fā)明者吉拉德·米思尼, 埃帕·詹恩 申請人:雅虎公司