本發(fā)明涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,特別是涉及一種搜索關(guān)鍵詞聚類方法及裝置。
背景技術(shù):
網(wǎng)絡(luò)用戶通常會使用網(wǎng)站內(nèi)的站內(nèi)搜索功能來獲取所需信息,用戶在搜索的過程中,會產(chǎn)生很多搜索關(guān)鍵詞。網(wǎng)站站主通常通過對產(chǎn)生的搜索關(guān)鍵詞進(jìn)行聚類獲取有關(guān)所述關(guān)鍵詞聚類的信息,進(jìn)而更好的為用戶服務(wù)。
目前一般采用標(biāo)簽傳播方法對產(chǎn)生的搜索關(guān)鍵詞進(jìn)行聚類,該方案具體為:首先獲取多個(gè)對話產(chǎn)生的搜索關(guān)鍵詞,其中,將用戶從進(jìn)入一個(gè)網(wǎng)站到離開的過程稱為一次對話,在一個(gè)對話當(dāng)中會產(chǎn)生多個(gè)搜索關(guān)鍵詞;其次根據(jù)每個(gè)會話中產(chǎn)生的搜索關(guān)鍵詞創(chuàng)建圖結(jié)構(gòu),該圖結(jié)構(gòu)中每個(gè)搜索關(guān)鍵詞對應(yīng)一個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)中包含有對應(yīng)的權(quán)重屬性和標(biāo)簽,這里的權(quán)重屬性為每個(gè)對話中搜索關(guān)鍵詞的搜索次數(shù),標(biāo)簽?zāi)J(rèn)為該搜索關(guān)鍵詞的名稱;最后遍歷上述圖結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)進(jìn)行標(biāo)簽更改,直至每個(gè)節(jié)點(diǎn)的標(biāo)簽不再改變?yōu)橹?,完成對搜索關(guān)鍵詞的聚類。
雖然采用標(biāo)簽傳播算法執(zhí)行的時(shí)間短,復(fù)雜度低且分類效果好,能夠達(dá)到聚類效果。但在互聯(lián)網(wǎng)大數(shù)據(jù)背景下,每天網(wǎng)站都會產(chǎn)生大量的搜索關(guān)鍵詞,并且標(biāo)簽傳播方法對搜索關(guān)鍵詞進(jìn)行聚類的執(zhí)行時(shí)間是隨著網(wǎng)站內(nèi)搜索關(guān)鍵詞遞增的,因此,理論上使用標(biāo)簽傳播方法對大量的搜索關(guān)鍵詞進(jìn)行聚類是不可行的。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的搜索關(guān)鍵詞聚類方法及裝置,使得標(biāo)簽傳播方法對大量的搜索關(guān)鍵詞聚類可行,同時(shí)縮短了聚類的執(zhí)行時(shí)間,進(jìn)而減小聚類的計(jì)算量。
依據(jù)本發(fā)明一方面,提供了一種搜索關(guān)鍵詞增量聚類方法,包括:
獲取網(wǎng)站新增的搜索關(guān)鍵詞;
判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中是否存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞;
若存在,則根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,采用標(biāo)簽傳播方法將所述歷史聚類結(jié)果與所述新增的搜索關(guān)鍵詞進(jìn)行聚類。
依據(jù)本發(fā)明另一方面,提一種搜索關(guān)鍵詞增量聚類供置,包括:
獲取單元,用于獲取網(wǎng)站新增的搜索關(guān)鍵詞;
判斷單元,用于判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中是否存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞;
第一聚類單元,用于若所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞,則根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,采用標(biāo)簽傳播方法將所述歷史聚類結(jié)果與所述新增的搜索關(guān)鍵詞進(jìn)行聚類。
借由上述技術(shù)方案,本發(fā)明提供的一種搜索關(guān)鍵詞聚類方法及裝置,首先獲取網(wǎng)站新增的搜索關(guān)鍵詞;然后在判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞時(shí),根據(jù)所述關(guān)聯(lián)關(guān)鍵詞采用標(biāo)簽傳播方法將所述歷史聚類結(jié)果與所述新增的搜索關(guān)鍵詞聚類,該種方式通過將述關(guān)聯(lián)關(guān)鍵詞作為所述新增的搜素關(guān)鍵詞與歷史搜索關(guān)鍵詞的紐帶,針對這兩部分搜索關(guān)鍵詞進(jìn)行聚類,與目前對搜索關(guān)鍵詞聚類采用的標(biāo)簽傳播方法相比,大大縮短了聚類計(jì)算量,進(jìn)而縮短了聚類的執(zhí)行時(shí)間。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了本發(fā)明實(shí)施例提供的一種搜索關(guān)鍵詞聚類方法的流程示意 圖;
圖2示出了本發(fā)明實(shí)施例提供的另一種搜索關(guān)鍵詞聚類方法的流程示意圖;
圖3示出了本發(fā)明實(shí)施例提供的一種搜索關(guān)鍵詞聚類裝置的結(jié)構(gòu)示意圖;
圖4示出了本發(fā)明實(shí)施例提供的另一種搜索關(guān)鍵詞聚類裝置的結(jié)構(gòu)示意圖;
圖5示出了本發(fā)明實(shí)施例提供的一個(gè)會話的圖結(jié)構(gòu);
圖6示出了本發(fā)明實(shí)施例提供的另一個(gè)會話的圖結(jié)構(gòu);
圖7示出了本發(fā)明實(shí)施例提供的兩個(gè)會話搜索關(guān)鍵詞組合的圖結(jié)構(gòu);
圖8示出了本發(fā)明實(shí)施例提供的添加標(biāo)簽后的圖結(jié)構(gòu);
圖9示出了本發(fā)明實(shí)施例提供的一會話建立子圖后的初始狀態(tài)結(jié)構(gòu)圖;
圖10示出了本發(fā)明實(shí)施例提供的一會話標(biāo)簽更改后的聚類結(jié)果結(jié)構(gòu)圖;
圖11示出了本發(fā)明實(shí)施例提供的歷史搜索關(guān)鍵詞聚類結(jié)果中的兩個(gè)子聚類結(jié)構(gòu)圖;
圖12示出了本發(fā)明實(shí)施例提供的關(guān)聯(lián)詞分布在歷史聚類結(jié)果中的一個(gè)子聚類的結(jié)構(gòu)圖;
圖13示出了本發(fā)明實(shí)施例提供的關(guān)聯(lián)詞分布在歷史聚類結(jié)果中的多個(gè)子聚類中的結(jié)構(gòu)圖;
圖14示出了本發(fā)明實(shí)施例提供的新增的搜索關(guān)鍵詞與歷史聚類結(jié)果無關(guān)的結(jié)構(gòu)圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明實(shí)施例提供了一種搜索關(guān)鍵詞增量聚類方法,如圖1所示,所述方法包括:
101、獲取網(wǎng)站新增的搜索關(guān)鍵詞。
當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容符合的網(wǎng)站,通常會根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度等顯示網(wǎng)站鏈接,并按順序返回顯示給用戶,上述用戶輸入的關(guān)鍵詞即為搜索關(guān)鍵詞。
其中,每天用戶都會在網(wǎng)站上有新的搜索,隨之網(wǎng)站也會產(chǎn)生許多新增的搜索關(guān)鍵詞,通常用戶這些搜索關(guān)鍵詞進(jìn)入的頁面都是用戶想要的東西,因此這些搜索關(guān)鍵詞對于網(wǎng)站站主是很有價(jià)值的,他們可以根據(jù)用戶的搜索關(guān)鍵詞對用戶進(jìn)行引導(dǎo),進(jìn)而提高用戶體驗(yàn)。
進(jìn)一步地,所述獲取網(wǎng)站新增的搜索關(guān)鍵詞的方法可以通過在網(wǎng)站終端編寫獲取新增搜索關(guān)鍵詞的代碼,通過所述代碼獲取網(wǎng)站新增的搜索關(guān)鍵詞,應(yīng)說明的是,本實(shí)施例對獲取新增的搜索關(guān)鍵詞的方法不做限定,具體可根據(jù)實(shí)際情況進(jìn)行選擇。
102、判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中是否存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞。
其中,所述歷史聚類結(jié)果為該網(wǎng)站對歷史搜索關(guān)鍵詞聚類的結(jié)果,所述歷史聚類結(jié)果當(dāng)中包含有對用戶歷史搜索關(guān)鍵詞的多個(gè)子聚類,每個(gè)子聚類可以用一個(gè)子圖來表示,每個(gè)子圖當(dāng)中包含各個(gè)搜索關(guān)鍵詞的搜索次數(shù)、標(biāo)簽等等。
可理解的是,所述新增的關(guān)鍵詞為新獲取的用戶搜素關(guān)鍵詞,這些新增的搜索關(guān)鍵詞中也有可能為歷史搜索關(guān)鍵詞中未出現(xiàn)的關(guān)鍵詞,也有可能與歷史關(guān)鍵詞相同或有聯(lián)系,舉例來說,當(dāng)用戶在今年的10月在網(wǎng)站上搜索了“國慶”和“閱兵”兩個(gè)關(guān)鍵詞,為網(wǎng)站的新增關(guān)鍵詞,同時(shí)該用戶曾于今年的7月在網(wǎng)站上搜索了“德國”和“閱兵”兩個(gè)關(guān)鍵詞,為網(wǎng)站的歷史搜索關(guān)鍵詞,則關(guān)鍵詞“閱兵”就是與網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中與新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞。這樣在進(jìn)行聚類的過程中就可根據(jù)這些與歷史關(guān)鍵詞相同或有聯(lián)系的關(guān)聯(lián)關(guān)鍵詞,對歷史聚類結(jié) 果和新增的搜索關(guān)鍵詞進(jìn)行聚類,可以達(dá)到縮短聚類時(shí)間的效果。
103、若所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞,則根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,采用標(biāo)簽傳播方法將所述歷史聚類結(jié)果與所述新增的搜索關(guān)鍵詞進(jìn)行聚類。
由于標(biāo)簽傳播方法執(zhí)行時(shí)間短,復(fù)雜度低且分類效果好,是進(jìn)行聚類的一種很好的方法。其中所述標(biāo)簽傳播方法是一種基于圖的半監(jiān)督學(xué)習(xí)方法,其基本思路是用已標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息去預(yù)測未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息。
上述標(biāo)簽傳播方法具體的流程為:首先通過搜索關(guān)鍵詞建立子圖,所述聚類子圖中包含有節(jié)點(diǎn),其中,每個(gè)搜索關(guān)鍵詞對應(yīng)一個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)包含一個(gè)權(quán)重屬性,這里的權(quán)重屬性代表一次會話中搜索關(guān)鍵詞的搜索次數(shù),如圖5和圖6所示,例如一個(gè)會話中包含三個(gè)搜索關(guān)鍵詞,分別為animal、pig和tiger,逗號后面為他們各自的權(quán)重。另一個(gè)會話中也包含三個(gè)搜索關(guān)鍵詞,分別為pig、dog和cat,同樣逗號后面表示他們各自的權(quán)重。圖7表示兩個(gè)會話的搜索關(guān)鍵詞組合,其中搜索關(guān)鍵詞為pig的權(quán)重為兩個(gè)會話中該搜索關(guān)鍵詞的權(quán)重之和;其次為每個(gè)搜索關(guān)鍵詞添加標(biāo)簽,擁有相同標(biāo)簽的節(jié)點(diǎn)屬于同一類,初始狀態(tài)下每個(gè)節(jié)點(diǎn)的標(biāo)簽均為自己的搜索關(guān)鍵詞名稱,圖8為上述關(guān)鍵詞組合后添加標(biāo)簽后的子圖結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)最后一個(gè)名稱即為這個(gè)節(jié)點(diǎn)的標(biāo)簽;最后遍歷每個(gè)節(jié)點(diǎn),更改節(jié)點(diǎn)標(biāo)簽,并且對搜索關(guān)鍵詞進(jìn)行聚類。其中,更改節(jié)點(diǎn)標(biāo)簽的規(guī)則為:根據(jù)統(tǒng)計(jì)與當(dāng)前節(jié)點(diǎn)相連的所有節(jié)點(diǎn)(包括當(dāng)前節(jié)點(diǎn))的標(biāo)簽與權(quán)重,將權(quán)重最大的標(biāo)簽更改為當(dāng)前節(jié)點(diǎn)的標(biāo)簽,舉例來說如圖8所示的子圖結(jié)構(gòu)中與節(jié)點(diǎn)“animal”相連的節(jié)點(diǎn)標(biāo)簽和權(quán)重統(tǒng)計(jì)為pig-3,animal-2,tiger-1,其中pig-3表示節(jié)點(diǎn)“pig”的權(quán)重為3,為權(quán)重最大的節(jié)點(diǎn),所以上述節(jié)點(diǎn)“animal”的標(biāo)簽應(yīng)更改為pig,依次遍歷每個(gè)節(jié)點(diǎn)結(jié)束后,重新進(jìn)行遍歷,直到每個(gè)節(jié)點(diǎn)的標(biāo)簽都不改變?yōu)橹?。舉例來說,圖9為一會話建立子圖后的初始狀態(tài)結(jié)構(gòu)圖,在經(jīng)過標(biāo)簽更改后的聚類結(jié)果如圖10所示,圖10中得到了兩個(gè)聚類“pig”和“pet”。
其中,若存在所述關(guān)聯(lián)關(guān)鍵詞,則根據(jù)所述關(guān)聯(lián)關(guān)鍵詞在所述歷史聚類結(jié)果中子聚類的分布情況,采用上述標(biāo)簽傳播方法對所述歷史聚類結(jié)果 與所述新增的搜索關(guān)鍵詞聚類,得到聚類結(jié)果,其中,所述分布情況為所述關(guān)聯(lián)關(guān)鍵詞分布在所述歷史聚類結(jié)果中的一個(gè)子聚類中或者多個(gè)子聚類中,例如圖11為歷史搜索關(guān)鍵詞聚類結(jié)果中的兩個(gè)子聚類結(jié)構(gòu)圖,圖12為所述關(guān)聯(lián)詞分布在歷史聚類結(jié)果中的一個(gè)子聚類中,其中,搜索關(guān)鍵詞red與圖11中右邊的子聚類相同,為關(guān)聯(lián)關(guān)鍵詞,圖13為所述關(guān)聯(lián)詞分布在歷史聚類結(jié)果中的多個(gè)子聚類中,其中,搜索關(guān)鍵詞red與圖11中右邊的子聚類相同,搜索關(guān)鍵詞pig與圖11中左邊的子聚類相同,這兩個(gè)搜索關(guān)鍵詞均為關(guān)聯(lián)關(guān)鍵詞。
本發(fā)明實(shí)施例提供的一種搜索關(guān)鍵詞聚類方法,首先獲取網(wǎng)站新增的搜索關(guān)鍵詞;然后判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中是否存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞;若所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞,則根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,采用標(biāo)簽傳播方法將所述歷史聚類結(jié)果與所述新增的搜索關(guān)鍵詞聚類,得到聚類結(jié)果;由此,使得通過標(biāo)簽傳播方法對大量的搜索關(guān)鍵詞聚類可行,同時(shí)縮短了聚類的執(zhí)行時(shí)間,進(jìn)而減小聚類的計(jì)算量。
本發(fā)明實(shí)施例提供了另一種搜索關(guān)鍵詞增量聚類方法,如圖2所示,所述方法包括:
201、獲取網(wǎng)站新增的搜索關(guān)鍵詞。
其中,所述新增的搜索關(guān)鍵詞為網(wǎng)站上每天更新的搜索關(guān)鍵詞,隨著時(shí)間的積累,可將網(wǎng)站的搜索關(guān)鍵詞分為歷史搜索關(guān)鍵詞和新增的搜索關(guān)鍵詞,需要說明的是,所述歷史搜索關(guān)鍵詞同樣也是通過每天新增的搜索關(guān)鍵詞與之前歷史搜索關(guān)鍵詞進(jìn)行聚類而得到的。
202、判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中是否存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞,若存在,則執(zhí)行步驟204,若不存在,則執(zhí)行步驟203。
203、采用標(biāo)簽傳播方法對所述新增的搜索關(guān)鍵詞聚類,得到新增搜索關(guān)鍵詞聚類結(jié)果,并將所述新增搜索關(guān)鍵詞聚類結(jié)果添加至所述歷史聚類結(jié)果中。
由于不存在步驟202中所述的關(guān)聯(lián)關(guān)鍵詞,則說明新增的搜索關(guān)鍵詞 與所述歷史搜索關(guān)鍵詞并不關(guān)聯(lián),則可直接將新增搜索關(guān)鍵詞聚類的結(jié)果添加至歷史聚類結(jié)果中,得到新的搜索關(guān)鍵詞聚類結(jié)果。例如,圖10中的搜索關(guān)鍵詞為歷史聚類結(jié)果,圖14為新增的搜索關(guān)鍵詞與歷史聚類結(jié)果無關(guān),則說明不存在所述關(guān)聯(lián)關(guān)鍵詞。
204、確定所述關(guān)聯(lián)關(guān)鍵詞在所述歷史聚類結(jié)果子聚類中的分布情況。
需要說明的是,上述的分布情況為所述關(guān)聯(lián)關(guān)鍵詞分布在所述歷史聚類結(jié)果中的一個(gè)子聚類中或多個(gè)子聚類中,由于所述關(guān)聯(lián)關(guān)鍵詞為新增的搜索關(guān)鍵詞與所述歷史搜索關(guān)鍵詞的共有的搜索關(guān)鍵詞,所以根據(jù)所述關(guān)聯(lián)關(guān)鍵詞分布情況的不同分為步驟205和步驟206兩種情況進(jìn)行聚類。
205、若所述關(guān)聯(lián)關(guān)鍵詞分布和在所述歷史聚類結(jié)果中的一個(gè)子聚類中,則采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞聚類至所述歷史聚類結(jié)果中的所述一個(gè)子聚類中。
其中,所述歷史聚類結(jié)果當(dāng)中有多個(gè)子聚類,每個(gè)子聚類可以用一個(gè)子圖來代表自己的類別,本步驟中的所述關(guān)聯(lián)關(guān)鍵詞分布在所述歷史聚類結(jié)果中的一個(gè)子聚類當(dāng)中,則說明所述關(guān)聯(lián)關(guān)鍵詞與該子聚類中的搜索關(guān)鍵詞有相同的搜索關(guān)鍵詞,根據(jù)相同的搜索關(guān)鍵詞,采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞聚類至所述歷史聚類結(jié)果中的所述一個(gè)子聚類中。
進(jìn)一步地,所述采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞聚類至所述歷史聚類結(jié)果中的所述子聚類中,首先采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞聚類,得到新增搜索關(guān)鍵詞聚類結(jié)果,其中所述新增搜索關(guān)鍵詞聚類結(jié)果當(dāng)中含有所述關(guān)聯(lián)關(guān)鍵詞,根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,將所述新增搜索關(guān)鍵詞詞聚類結(jié)果聚類至所述歷史聚類結(jié)果中的所述子聚類中。
需要說明的是,在聚類的過程中,所述關(guān)聯(lián)關(guān)鍵詞的權(quán)重為新增搜索關(guān)鍵詞聚類結(jié)果中所述關(guān)聯(lián)關(guān)鍵詞權(quán)重與歷史聚類結(jié)果中所述關(guān)聯(lián)關(guān)鍵詞權(quán)重之和。
206、若所述關(guān)聯(lián)關(guān)鍵詞分布在所述歷史聚類結(jié)果中的多個(gè)子聚類中,則采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞與所述歷史聚類結(jié)果中多個(gè)子聚類進(jìn)行聚類。
本步驟中的所述關(guān)聯(lián)關(guān)鍵詞分布在所述歷史聚類結(jié)果中的多個(gè)子聚類 當(dāng)中,則說明所述關(guān)聯(lián)關(guān)鍵詞與該多個(gè)子聚類中的搜索關(guān)鍵詞有相同的搜索關(guān)鍵詞,根據(jù)相同的搜索關(guān)鍵詞,采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞與所述歷史聚類結(jié)果中多個(gè)子聚類進(jìn)行聚類。
進(jìn)一步地,所述采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞與所述歷史聚類結(jié)果中多個(gè)子聚類進(jìn)行聚類,首先采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞聚類,得到新增搜索關(guān)鍵詞聚類結(jié)果,其中所述新增搜索關(guān)鍵詞聚類結(jié)果當(dāng)中含有所述關(guān)聯(lián)關(guān)鍵詞,然后根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,將所述新增搜索關(guān)鍵詞聚類結(jié)果與所述歷史聚類結(jié)果中多個(gè)子聚類進(jìn)行聚類。
需要說明的是,多個(gè)子聚類可以在聚類的過程中可能聚類為一個(gè)更大的子聚類,所述關(guān)聯(lián)關(guān)鍵詞的權(quán)重為新增搜索關(guān)鍵詞聚類結(jié)果中所述關(guān)聯(lián)關(guān)鍵詞權(quán)重與歷史聚類結(jié)果多個(gè)子聚類中所述關(guān)聯(lián)關(guān)鍵詞權(quán)重之和。
本發(fā)明實(shí)施例提供的另一種搜索關(guān)鍵詞聚類方法,首先獲取網(wǎng)站新增的搜索關(guān)鍵詞;然后判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中是否存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞;若所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞,則根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,采用標(biāo)簽傳播方法將所述歷史聚類結(jié)果與所述新增的搜索關(guān)鍵詞聚類,得到聚類結(jié)果;由此,使得通過標(biāo)簽傳播方法對大量的搜索關(guān)鍵詞聚類可行,同時(shí)縮短了聚類的執(zhí)行時(shí)間,進(jìn)而減小聚類的計(jì)算量。
另外,本實(shí)施例使用標(biāo)簽傳播方法在處理搜索關(guān)鍵詞數(shù)據(jù)上做出了有效的篩選,通過獲取新增的搜索關(guān)鍵詞及歷史搜索關(guān)鍵詞數(shù)據(jù),使得標(biāo)簽傳播方法對大量的搜索關(guān)鍵詞聚類可行。
需要說明的是,上述的標(biāo)簽傳播方法在處理大量數(shù)據(jù)的同時(shí),對所處理的數(shù)據(jù)類型不做限制,并不局限于上述方法提到的搜索關(guān)鍵詞數(shù)據(jù),還可以是其他的海量數(shù)據(jù)。
進(jìn)一步地,作為圖1所示方法的具體實(shí)現(xiàn),本發(fā)明實(shí)施例提供一種搜索關(guān)鍵詞聚類裝置,該裝置實(shí)施例與前述方法實(shí)施例對應(yīng),為便于閱讀,本裝置不在對前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部內(nèi)容,如圖3所示,所述裝置包括:獲取單元31、判斷單元32、第一聚類單元33。
所述獲取單元31,用于獲取網(wǎng)站新增的搜索關(guān)鍵詞;
所述判斷單元32,用于判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中是否存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞;
所述第一聚類單元33,用于若所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞,則根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,采用標(biāo)簽傳播方法將所述歷史聚類結(jié)果與所述新增的搜索關(guān)鍵詞進(jìn)行聚類。
本發(fā)明實(shí)施例提供的一種搜索關(guān)鍵詞聚類裝置,首先獲取網(wǎng)站新增的搜索關(guān)鍵詞;然后判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中是否存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞;若所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞,則根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,采用標(biāo)簽傳播方法將所述歷史聚類結(jié)果與所述新增的搜索關(guān)鍵詞聚類,得到聚類結(jié)果;由此,使得通過標(biāo)簽傳播方法對大量的搜索關(guān)鍵詞聚類可行,同時(shí)縮短了聚類的執(zhí)行時(shí)間,進(jìn)而減小聚類的計(jì)算量。
進(jìn)一步地,作為圖2所示方法的具體實(shí)現(xiàn),本發(fā)明實(shí)施例提供另一種搜索關(guān)鍵詞聚類,該裝置實(shí)施例與前述方法實(shí)施例對應(yīng),為便于閱讀,本裝置不在對前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部內(nèi)容,如圖4所示,所述裝置還包括第二聚類單元34;
所述第二聚類單元34,用于若所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中不存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞,則采用標(biāo)簽傳播方法對所述新增的搜索關(guān)鍵詞聚類,得到新增搜索關(guān)鍵詞聚類結(jié)果,并將所述新增搜索關(guān)鍵詞聚類結(jié)果添加至所述歷史聚類結(jié)果中。
所述第一聚類單元具體包括:
確定模塊,用于確定所述關(guān)聯(lián)關(guān)鍵詞在所述歷史聚類結(jié)果子聚類中的分布情況,所述分布情況為所述關(guān)聯(lián)關(guān)鍵詞分布在所述歷史聚類結(jié)果中的一個(gè)子聚類中或多個(gè)子聚類中;
第一聚類模塊,用于若所述關(guān)聯(lián)關(guān)鍵詞分布在所述歷史聚類結(jié)果中的一個(gè)子聚類中,則采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞聚類至所述 歷史聚類結(jié)果中的所述一個(gè)子聚類中;
所述第一聚類模塊,具體用于:
采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞聚類,得到新增搜索關(guān)鍵詞聚類結(jié)果;
將所述新增搜索關(guān)鍵詞詞聚類結(jié)果聚類至所述歷史聚類結(jié)果中的所述子聚類中。
第二聚類模塊,用于若所述關(guān)聯(lián)關(guān)鍵詞分布在所述歷史聚類結(jié)果中的多個(gè)子聚類中,則采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞與所述歷史聚類結(jié)果中多個(gè)子聚類進(jìn)行聚類。
所述第二聚類模塊,具體用于:
采用標(biāo)簽傳播方法將所述新增的搜索關(guān)鍵詞聚類,得到新增搜索關(guān)鍵詞聚類結(jié)果;
根據(jù)所述關(guān)聯(lián)關(guān)鍵詞所在歷史聚類結(jié)果中的多個(gè)子聚類,將所述新增搜索關(guān)鍵詞聚類結(jié)果與所述歷史聚類結(jié)果中的多個(gè)子聚類進(jìn)行聚類。
本發(fā)明實(shí)施例提供的一種搜索關(guān)鍵詞聚類裝置,首先獲取網(wǎng)站新增的搜索關(guān)鍵詞;然后判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中是否存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞;若所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞,則根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,采用標(biāo)簽傳播方法將所述歷史聚類結(jié)果與所述新增的搜索關(guān)鍵詞聚類,得到聚類結(jié)果;由此,使得通過標(biāo)簽傳播方法對大量的搜索關(guān)鍵詞聚類可行,同時(shí)縮短了聚類的執(zhí)行時(shí)間,進(jìn)而減小聚類的計(jì)算量。
其中,本實(shí)施例使用標(biāo)簽傳播方法在處理搜索關(guān)鍵詞數(shù)據(jù)上做出了有效的篩選,通獲取新增的搜索關(guān)鍵詞及歷史搜索關(guān)鍵詞數(shù)據(jù),使得標(biāo)簽傳播方法對大量的搜索關(guān)鍵詞聚類可行。
所述搜索關(guān)鍵詞聚類裝置包括處理器和存儲器,上述獲取單元31、判斷單元32和第一聚類單元33等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實(shí)現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過調(diào)整內(nèi)核參數(shù)來使得標(biāo)簽傳播方法對大量的搜索 關(guān)鍵詞聚類可行,同時(shí)縮短了聚類的執(zhí)行時(shí)間,進(jìn)而減小聚類的計(jì)算量。
存儲器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個(gè)存儲芯片。
本申請還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取網(wǎng)站新增的搜索關(guān)鍵詞;判斷所述網(wǎng)站搜索關(guān)鍵詞的歷史聚類結(jié)果中是否存在與所述新增的搜索關(guān)鍵詞相同的關(guān)聯(lián)關(guān)鍵詞;若存在,則根據(jù)所述關(guān)聯(lián)關(guān)鍵詞,采用標(biāo)簽傳播方法將所述歷史聚類結(jié)果與所述新增的搜索關(guān)鍵詞聚類,得到聚類結(jié)果。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本申請是參照根據(jù)本申請實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī) 實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
存儲器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。存儲器是計(jì)算機(jī)可讀介質(zhì)的示例。
計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、其他類型的隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。
以上僅為本申請的實(shí)施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請的權(quán)利要求范圍之內(nèi)。