聚類方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種聚類方法和裝置,屬于網(wǎng)絡(luò)【技術(shù)領(lǐng)域】。所述方法包括:獲取用戶使用的搜索關(guān)鍵字的至少一個(gè)第一特征;獲取所述搜索關(guān)鍵字的至少一個(gè)第二特征;獲取所述搜索關(guān)鍵字的至少一個(gè)第三特征;根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取至少一個(gè)聚類特征;根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。采用本發(fā)明提供的方案,通過對(duì)多種特征的合并和處理,避免了由于特征過于稀疏而造成的聚類效果差的問題,減少了聚類結(jié)果的噪音,以獲得最佳的聚類結(jié)果。
【專利說明】聚類方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別涉及一種聚類方法和裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)的進(jìn)步,越來越多的網(wǎng)絡(luò)應(yīng)用能夠滿足用戶的各種需求,如搜索、導(dǎo)航等,在服務(wù)器端,為了對(duì)搜索過程中的文本信息進(jìn)行有效地組織、摘要和導(dǎo)航,可根據(jù)搜索過程中所使用的搜索字符串進(jìn)行聚類,以分析使用搜索服務(wù)的用戶的搜索習(xí)慣,便于對(duì)服務(wù)器端的搜索服務(wù)進(jìn)行優(yōu)化。
[0003]通常來說,搜索字符串通常較短,而由于搜索結(jié)果中大多數(shù)網(wǎng)頁(yè)和文章等所包含的內(nèi)容較多,具有豐富的文本信息,如果將搜索字符串作為網(wǎng)頁(yè)或文章的特征,會(huì)使特征數(shù)量巨大、造成特征過于稀疏,導(dǎo)致聚類效果差。
【發(fā)明內(nèi)容】
[0004]為了改善聚類效果、避免特征過于稀疏的情況,本發(fā)明實(shí)施例提供了一種聚類方法和裝置。所述技術(shù)方案如下:
[0005]一種聚類方法,所述方法包括:
[0006]根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征;
[0007]根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取至少一個(gè)聚類特征;
[0008]根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。
[0009]根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,包括:
[0010]獲取用戶使用的搜索關(guān)鍵字的至少一個(gè)第一特征,每個(gè)所述第一特征為根據(jù)所述搜索關(guān)鍵字進(jìn)行搜索時(shí)獲取到的被用戶點(diǎn)擊的搜索結(jié)果鏈接;
[0011]獲取所述搜索關(guān)鍵字的至少一個(gè)第二特征,每個(gè)所述第二特征為所述被用戶點(diǎn)擊的搜索結(jié)果鏈接對(duì)應(yīng)的頁(yè)面標(biāo)題的分詞結(jié)果;
[0012]獲取所述搜索關(guān)鍵字的至少一個(gè)第三特征,每個(gè)所述第三特征為所述搜索關(guān)鍵字的分詞結(jié)果;
[0013]根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取聚類特征,包括:
[0014]按照特征值從大到小的順序,獲取所述至少一個(gè)第一特征中預(yù)設(shè)數(shù)值個(gè)第一特征作為聚類特征;
[0015]和/ 或,
[0016]將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征。
[0017]將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征,包括:[0018]所述至少一個(gè)第二特征與至少一個(gè)第三特征中相同的特征合并為一個(gè)聚類特征,將所述相同的特征的特征值的和值作為合并后的特征的特征值,所述第二特征的特征值為所述第二特征的詞頻,所述第三特征的特征值為所述第三特征的詞頻。
[0019]將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征,包括:
[0020]過濾所述至少一個(gè)第二特征和所述至少一個(gè)第三特征中的預(yù)設(shè)詞。
[0021]將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征,包括:
[0022]按照特征值從大到小的順序,獲取所述至少一個(gè)第二特征和至少一個(gè)第三特征中預(yù)設(shè)數(shù)值個(gè)特征作為聚類特征。
[0023]一種聚類裝置,所述裝置包括:
[0024]特征獲取模塊,用于根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征;
[0025]聚類特征獲取模塊,用于根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取至少一個(gè)聚類特征;
[0026]聚類模塊,用于根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。
[0027]特征獲取模塊用于獲取用戶使用的搜索關(guān)鍵字的至少一個(gè)第一特征,每個(gè)所述第一特征為根據(jù)所述搜索關(guān)鍵字進(jìn)行搜索時(shí)獲取到的被用戶點(diǎn)擊的搜索結(jié)果鏈接;
[0028]所述特征獲取模塊還用于獲取所述搜索關(guān)鍵字的至少一個(gè)第二特征,每個(gè)所述第二特征為所述被用戶點(diǎn)擊的搜索結(jié)果鏈接對(duì)應(yīng)的頁(yè)面標(biāo)題的分詞結(jié)果;
[0029]所述特征獲取模塊還用于獲取所述搜索關(guān)鍵字的至少一個(gè)第三特征,每個(gè)所述第三特征為所述搜索關(guān)鍵字的分詞結(jié)果;
[0030]所述聚類特征獲取模塊用于按照特征值從大到小的順序,獲取所述至少一個(gè)第一特征中預(yù)設(shè)數(shù)值個(gè)第一特征作為聚類特征;
[0031]和/ 或,
[0032]所述聚類特征獲取模塊用于將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征。
[0033]所述聚類特征獲取模塊用于所述至少一個(gè)第二特征與至少一個(gè)第三特征中相同的特征合并為一個(gè)聚類特征,將所述相同的特征的特征值的和值作為合并后的特征的特征值,所述第二特征的特征值為所述第二特征的詞頻,所述第三特征的特征值為所述第三特征的詞頻。
[0034]所述聚類特征獲取模塊用于過濾所述至少一個(gè)第二特征和所述至少一個(gè)第三特征中預(yù)設(shè)詞。
[0035]所述聚類特征獲取模塊用于按照特征值從大到小的順序,獲取所述至少一個(gè)第二特征和至少一個(gè)第三特征中預(yù)設(shè)數(shù)值個(gè)特征作為聚類特征。
[0036]本發(fā)明實(shí)施例提供的一種聚類方法和裝置,通過根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征;根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取至少一個(gè)聚類特征;根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。采用本發(fā)明提供的方案,通過對(duì)多種特征的合并和處理,避免了由于特征過于稀疏而造成的聚類效果差的問題,減少了聚類結(jié)果的噪音,以獲得最佳的聚類結(jié)果?!緦@綀D】
【附圖說明】
[0037]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0038]圖1是本發(fā)明實(shí)施例提供的一種聚類方法的流程圖;
[0039]圖2是本發(fā)明實(shí)施例提供的一種聚類方法的流程圖;
[0040]圖3是本發(fā)明實(shí)施例提供的一種聚類裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0041]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0042]圖1是本發(fā)明實(shí)施例提供的一種聚類方法的流程圖。參見圖1,該實(shí)施例包括:
[0043]101、根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征;
[0044]102、根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取至少一個(gè)聚類特征;
[0045]103、根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。
[0046]可選地,根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,包括:
[0047]獲取用戶使用的搜索關(guān)鍵字的至少一個(gè)第一特征,每個(gè)所述第一特征為根據(jù)所述搜索關(guān)鍵字進(jìn)行搜索時(shí)獲取到的被用戶點(diǎn)擊的搜索結(jié)果鏈接;
[0048]獲取所述搜索關(guān)鍵字的至少一個(gè)第二特征,每個(gè)所述第二特征為所述被用戶點(diǎn)擊的搜索結(jié)果鏈接對(duì)應(yīng)的頁(yè)面標(biāo)題的分詞結(jié)果;
[0049]獲取所述搜索關(guān)鍵字的至少一個(gè)第三特征,每個(gè)所述第三特征為所述搜索關(guān)鍵字的分詞結(jié)果;
[0050]可選地,根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取聚類特征,包括:
[0051]按照特征值從大到小的順序,獲取所述至少一個(gè)第一特征中預(yù)設(shè)數(shù)值個(gè)第一特征作為聚類特征;
[0052]和/ 或,
[0053]將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征。
[0054]可選地,將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征,包括:
[0055]所述至少一個(gè)第二特征與至少一個(gè)第三特征中相同的特征合并為一個(gè)聚類特征,將所述相同的特征的特征值的和值作為合并后的特征的特征值,所述第二特征的特征值為所述第二特征的詞頻,所述第三特征的特征值為所述第三特征的詞頻。
[0056]可選地,將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征,包括:
[0057]過濾所述至少一個(gè)第二特征和所述至少一個(gè)第三特征中預(yù)設(shè)詞。
[0058]可選地,將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征,包括:
[0059]按照特征值從大到小的順序,獲取所述至少一個(gè)第二特征和至少一個(gè)第三特征中預(yù)設(shè)數(shù)值個(gè)特征作為聚類特征。
[0060]本發(fā)明實(shí)施例提供的方法,通過對(duì)多種特征的合并和處理,避免了由于特征過于稀疏而造成的聚類效果差的問題,減少了聚類結(jié)果的噪音,以獲得最佳的聚類結(jié)果。
[0061]圖2是本發(fā)明實(shí)施例提供的一種聚類方法的流程圖。該聚類方法可應(yīng)用于運(yùn)營(yíng)商側(cè)的搜索優(yōu)化過程,其執(zhí)行主體可以是具有聚類功能的服務(wù)器,參見圖2,該實(shí)施例包括:
[0062]201、獲取用戶使用的搜索關(guān)鍵字的至少一個(gè)第一特征,每個(gè)所述第一特征為根據(jù)所述搜索關(guān)鍵字進(jìn)行搜索時(shí)獲取到的被用戶點(diǎn)擊的搜索結(jié)果鏈接;
[0063]優(yōu)選地,該搜索結(jié)果鏈接為URL (Universal Resource Locator,統(tǒng)一資源定位符)。
[0064]在用戶的搜索過程中,每當(dāng)使用搜索關(guān)鍵字進(jìn)行搜索時(shí),均會(huì)得到多個(gè)與該搜索關(guān)鍵字相應(yīng)的搜索結(jié)果,而用戶根據(jù)自身的需求進(jìn)行點(diǎn)擊以便打開鏈接指向頁(yè)面,被用戶點(diǎn)擊的搜索結(jié)果鏈接、點(diǎn)擊時(shí)間等會(huì)記錄在點(diǎn)擊日志中,而服務(wù)器可通過對(duì)點(diǎn)擊日志的分析,獲知用戶對(duì)搜索結(jié)果的點(diǎn)擊情況,從而得到搜索關(guān)鍵字的至少一個(gè)第一特征。
[0065]而對(duì)于搜索關(guān)鍵字的第一特征來說,該第一特征的特征值為該第一特征被點(diǎn)擊的次數(shù),優(yōu)選地,該搜索關(guān)鍵字的第一特征的特征值為該第一特征作為該搜索關(guān)鍵字的搜索結(jié)果時(shí)被點(diǎn)擊的次數(shù)。如,對(duì)于一個(gè)搜索關(guān)鍵字queryl,收集用戶根據(jù)queryl進(jìn)行的搜索的點(diǎn)擊日志,通過點(diǎn)擊日志的分析獲知,urIA有3人點(diǎn)擊,urIB有5人點(diǎn)擊,urIC有I人點(diǎn)擊。則將urlA、urlB、urlC作為queryl的特征,其特征值分別是3、5、I。
[0066]需要說明的是,該步驟201可以是同時(shí)對(duì)多個(gè)搜索關(guān)鍵字的特征的獲取過程,本發(fā)明實(shí)施例中,僅以一個(gè)搜索關(guān)鍵字為例進(jìn)行說明,而在實(shí)際應(yīng)用中,可以是實(shí)時(shí)對(duì)當(dāng)前用戶的搜索過程進(jìn)行分析以獲取特征,也可以是每隔預(yù)設(shè)時(shí)長(zhǎng)對(duì)在預(yù)設(shè)時(shí)長(zhǎng)內(nèi)用戶的搜索過程進(jìn)行分析以獲取特征。
[0067]202、按照特征值從大到小的順序,獲取所述至少一個(gè)第一特征中預(yù)設(shè)數(shù)值個(gè)第一特征作為聚類特征,執(zhí)行步驟206 ;
[0068]對(duì)于第一特征來說,由于用戶點(diǎn)擊比較分散,導(dǎo)致一個(gè)搜索關(guān)鍵字對(duì)應(yīng)的第一特征過多,使得特征過于分散。因此,按照第一特征的特征值從大到小的順序,也即是第一特征的被點(diǎn)擊次數(shù)從高到低,獲取前預(yù)設(shè)數(shù)值個(gè)第一特征作為聚類特征,該預(yù)設(shè)數(shù)值可以為任意整數(shù),其中,該預(yù)設(shè)數(shù)值可以根據(jù)服務(wù)器性能、運(yùn)營(yíng)商需求等進(jìn)行設(shè)置,該預(yù)設(shè)數(shù)值還可以根據(jù)文章長(zhǎng)短以及文章特征豐富程度設(shè)置,當(dāng)文章較長(zhǎng)或特征較多時(shí),預(yù)設(shè)數(shù)值取較大的正整數(shù);當(dāng)文章較短或特征較少時(shí),預(yù)設(shè)數(shù)值取較小的正整數(shù)。
[0069]例如,基于步驟201的示例,對(duì)于一個(gè)搜索關(guān)鍵字queryl, urlA、urlB、urlC為queryl的特征,其特征值分別是3、5、1,而預(yù)設(shè)數(shù)值為2,則根據(jù)特征值大小排序,獲取特征值為5的urlB和特征值為3的urlA作為聚類特征。
[0070]203、獲取所述搜索關(guān)鍵字的至少一個(gè)第二特征,每個(gè)所述第二特征為所述被用戶點(diǎn)擊的搜索結(jié)果鏈接對(duì)應(yīng)的頁(yè)面標(biāo)題的分詞結(jié)果,執(zhí)行步驟205 ;
[0071] 由于一次搜索過程中所產(chǎn)生的搜索結(jié)果較多,或多個(gè)用戶對(duì)同一搜索關(guān)鍵字的搜索中所點(diǎn)擊的鏈接較多,使得第一特征較為稀疏,為了增加特征以及特征的維度,將被用戶點(diǎn)擊的搜索結(jié)果鏈接對(duì)應(yīng)的頁(yè)面標(biāo)題的分詞結(jié)果作為搜索關(guān)鍵字的第二特征。如,比如搜索關(guān)鍵字queryl的特征urlA是對(duì)應(yīng)的頁(yè)面標(biāo)題是“騰訊搜搜_搜搜更懂你”,分詞結(jié)果是“騰訊”、“搜搜”、“搜搜”、“更”、“懂你”。那么,將分詞結(jié)果“騰訊” “搜搜”、“更”、“懂你”分別作為queryl的第二特征,特征值為詞頻,而根據(jù)各個(gè)第二特征在分詞結(jié)果中的詞頻,第二特征“騰訊” “搜搜”、“更”、“懂你”的特征值均為I。
[0072]204、獲取所述搜索關(guān)鍵字的至少一個(gè)第三特征,每個(gè)所述第三特征為所述搜索關(guān)鍵字的分詞結(jié)果,執(zhí)行步驟205 ;
[0073]為了進(jìn)一步增加特征,可將搜索關(guān)鍵字自身的文本信息作為獲取特征的來源,對(duì)搜索關(guān)鍵字進(jìn)行分詞,并將其分詞結(jié)果作為第三特征。如,比如搜索關(guān)鍵字query〗是“智能手機(jī)價(jià)格比較”,那么將query2分詞后的結(jié)果“智能”、“手機(jī)”、“價(jià)格”和“比較”分別作為搜索關(guān)鍵字query〗的第三特征,特征值取詞頻,而根據(jù)各個(gè)第三特征在分詞結(jié)果中的詞頻,第三特征“智能”、“手機(jī)”、“價(jià)格”和“比較”的特征值均為I。
[0074]205、將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并;
[0075]對(duì)于第二特征和第三特征,由于該兩類特征都是文本分詞的結(jié)果,所以,第二特征和第三特征之間會(huì)出現(xiàn)交集,則需要將第二特征和第三特征中相同的特征進(jìn)行合并。具體地,將所述至少一個(gè)第二特征與至少一個(gè)第三特征中相同的特征合并為一個(gè)聚類特征,將所述相同的特征的特征值的和值作為合并后的特征的特征值,所述第二特征的特征值為所述第二特征的詞頻,所述第三特征的特征值為所述第三特征的詞頻。
[0076]優(yōu)選地,在合并過程中,將對(duì)于相同的特征來說,將其對(duì)應(yīng)的第二特征的特征值的M倍與第三特征的特征值求和,其中,M為正整數(shù)。其中,M是不為零的任意正數(shù),在不同的情況下,M取值不同,M可以取1、M可以取大于I的值,M也可以取小于I的正數(shù);如果第二特征和第三特征在文章中的權(quán)重相同時(shí),M取I ;如果要增大第三特征的權(quán)重時(shí),M取大于I的值;如果要增大第二特征的權(quán)重時(shí),M取小于的正數(shù)。在本實(shí)施例中,M可以取3,即將所述第二特征和所述第三特征合并時(shí),將其對(duì)應(yīng)的第二特征的特征值的3倍與第三特征的特征值求和。
[0077]例如,第二特征為“搜搜” “更” “懂你” “互動(dòng)” “百科” “騰訊” “的” “微空間” “微
博”;第三特征為“騰訊” “搜搜”;第二特征和第三特征具有相同的特征“騰訊” “搜搜”,因此,將相同的特征“騰訊”進(jìn)行合并,其特征值分別為第二特征“騰訊”和第三特征“騰訊”的特征值的和,將相同的特征“搜搜”進(jìn)行合并,其特征值分別為第二特征“搜搜”和第三特征“搜搜”的特征值的和。
[0078]進(jìn)一步地,該方法還包括:過濾所述至少一個(gè)第二特征和所述至少一個(gè)第三特征中的預(yù)設(shè)詞。
[0079]由于第二特征和第三特征屬于文本特征,因此第二特征和第三特征中可能包括沒有意義的停止詞和部分副詞,沒有意義的停止詞如“的” “和”等,副詞如“最” “較”等。因此,需要對(duì)預(yù)設(shè)詞進(jìn)行過濾,該預(yù)設(shè)詞可以由管理員或技術(shù)人員進(jìn)行設(shè)置,可以是對(duì)詞性的設(shè)置,如過濾停止詞和副詞,也可以是對(duì)具體詞的設(shè)置,如過濾“最” “的” “較”等詞。[0080]需要說明的是,該過濾可以是在獲取到第二特征和第三特征時(shí),對(duì)第二特征和第三特征分別進(jìn)行,也可以是在第二特征和第三特征合并后進(jìn)行。
[0081]206、按照特征值從大到小的順序,獲取所述至少一個(gè)第二特征和至少一個(gè)第三特征中預(yù)設(shè)數(shù)值個(gè)特征作為聚類特征;
[0082]其中,該預(yù)設(shè)數(shù)值和上述步驟202中的預(yù)設(shè)數(shù)值可以為相同值,也可以為不同值,本發(fā)明實(shí)施例對(duì)此不做限定。如,在給步驟206中,預(yù)設(shè)數(shù)值可以取100,即將按特征值從大到小順序的順序,獲取所述至少一個(gè)第二特征和至少一個(gè)第三特征中前100個(gè)特征,將獲取到的前100個(gè)特征作為聚類特征。
[0083]可選地,該步驟206還可以被以下步驟代替:按照特征值從大到小的順序,獲取至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征中預(yù)設(shè)數(shù)值個(gè)特征作為聚類特征。其中,該步驟中所述的第一特征既可以是已經(jīng)獲取到的預(yù)設(shè)數(shù)值個(gè)第一特征,也可以是獲取到的所有第一特征,本發(fā)明實(shí)施例不做限定。
[0084]本發(fā)明實(shí)施例是以對(duì)第一特征僅取前預(yù)設(shè)數(shù)值個(gè),對(duì)于第二特征和第三特征采取合并的方法為例進(jìn)行說明,而在實(shí)際應(yīng)用中,還可以是僅按照特征值從大到小的順序,獲取所述至少一個(gè)第一特征中預(yù)設(shè)數(shù)值個(gè)第一特征作為聚類特征;或,僅將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征。本發(fā)明實(shí)施例對(duì)其具體組合方式不做限定。
[0085]207、根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。
[0086]本發(fā)明實(shí)施例對(duì)具體使用的聚類算法不做限定,該聚類可以根據(jù)劃分方法、層次方法、基于密度的方法等進(jìn)行。
[0087]本發(fā)明實(shí)施例提供的方法,通過根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征;根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取至少一個(gè)聚類特征;根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。采用本發(fā)明提供的方案,通過對(duì)多種特征的合并和處理,避免了由于特征過于稀疏而造成的聚類效果差的問題,減少了聚類結(jié)果的噪音,獲得最佳的聚類結(jié)果。
[0088]圖3是本發(fā)明實(shí)施例提供了一種聚類裝置結(jié)構(gòu)示意圖。參見圖3,該裝置包括:
[0089]特征獲取模塊301,用于根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征;
[0090]聚類特征獲取模塊302,用于根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取至少一個(gè)聚類特征;
[0091]聚類模塊303,用于根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。
[0092]可選地,特征獲取模塊301用于獲取用戶使用的搜索關(guān)鍵字的至少一個(gè)第一特征,每個(gè)所述第一特征為根據(jù)所述搜索關(guān)鍵字進(jìn)行搜索時(shí)獲取到的被用戶點(diǎn)擊的搜索結(jié)果鏈接;
[0093]在用戶的搜索過程中,每當(dāng)使用搜索關(guān)鍵字進(jìn)行搜索時(shí),均會(huì)得到多個(gè)與該搜索關(guān)鍵字相應(yīng)的搜索結(jié)果,而用戶根據(jù)自身的需求進(jìn)行點(diǎn)擊以便打開鏈接指向頁(yè)面,被用戶點(diǎn)擊的搜索結(jié)果鏈接、點(diǎn)擊時(shí)間等會(huì)記錄在點(diǎn)擊日志中,而服務(wù)器可通過對(duì)點(diǎn)擊日志的分析,獲知用戶對(duì)搜索結(jié)果的點(diǎn)擊情況,從而得到搜索關(guān)鍵字的至少一個(gè)第一特征。
[0094]而對(duì)于搜索關(guān)鍵字的第一特征來說,該第一特征的特征值為該第一特征被點(diǎn)擊的次數(shù),優(yōu)選地,該搜索關(guān)鍵字的第一特征的特征值為該第一特征作為該搜索關(guān)鍵字的搜索結(jié)果時(shí)被點(diǎn)擊的次數(shù)。如,對(duì)于一個(gè)搜索關(guān)鍵字queryl,收集用戶根據(jù)queryl進(jìn)行的搜索的點(diǎn)擊日志,通過點(diǎn)擊日志的分析獲知,urIA有3人點(diǎn)擊,urIB有5人點(diǎn)擊,urIC有I人點(diǎn)擊。則將urlA、urlB、urlC作為queryl的特征,其特征值分別是3、5、I。
[0095]對(duì)于第一特征來說,由于用戶點(diǎn)擊比較分散,導(dǎo)致一個(gè)搜索關(guān)鍵字對(duì)應(yīng)的第一特征過多,使得特征過于分散。因此,按照第一特征的特征值從大到小的順序,也即是第一特征的被點(diǎn)擊次數(shù)從高到低,獲取前預(yù)設(shè)數(shù)值個(gè)第一特征作為聚類特征,該預(yù)設(shè)數(shù)值可以為任意整數(shù),其中,該預(yù)設(shè)數(shù)值可以根據(jù)服務(wù)器性能、運(yùn)營(yíng)商需求等進(jìn)行設(shè)置,該預(yù)設(shè)數(shù)值還可以根據(jù)文章長(zhǎng)短以及文章特征豐富程度設(shè)置,當(dāng)文章較長(zhǎng)或特征較多時(shí),預(yù)設(shè)數(shù)值取較大的正整數(shù);當(dāng)文章較短或特征較少時(shí),預(yù)設(shè)數(shù)值取較小的正整數(shù)。
[0096]所述特征獲取模塊301還用于獲取所述搜索關(guān)鍵字的至少一個(gè)第二特征,每個(gè)所述第二特征為所述被用戶點(diǎn)擊的搜索結(jié)果鏈接對(duì)應(yīng)的頁(yè)面標(biāo)題的分詞結(jié)果;
[0097]由于一次搜索過程中所產(chǎn)生的搜索結(jié)果較多,或多個(gè)用戶對(duì)同一搜索關(guān)鍵字的搜索中所點(diǎn)擊的鏈接較多,使得第一特征較為稀疏,為了增加特征以及特征的維度,將被用戶點(diǎn)擊的搜索結(jié)果鏈接對(duì)應(yīng)的頁(yè)面標(biāo)題的分詞結(jié)果作為搜索關(guān)鍵字的第二特征。 [0098]所述特征獲取模塊301還用于獲取所述搜索關(guān)鍵字的至少一個(gè)第三特征,每個(gè)所述第三特征為所述搜索關(guān)鍵字的分詞結(jié)果;
[0099]為了進(jìn)一步增加特征,可將搜索關(guān)鍵字自身的文本信息作為獲取特征的來源,對(duì)搜索關(guān)鍵字進(jìn)行分詞,并將其分詞結(jié)果作為第三特征。如,比如搜索關(guān)鍵字query〗是“智能手機(jī)價(jià)格比較”,那么將query2分詞后的結(jié)果“智能”、“手機(jī)”、“價(jià)格”和“比較”分別作為搜索關(guān)鍵字query〗的第三特征,特征值取詞頻,而根據(jù)各個(gè)第三特征在分詞結(jié)果中的詞頻,第三特征“智能”、“手機(jī)”、“價(jià)格”和“比較”的特征值均為I。
[0100]可選地,所述聚類特征獲取模塊302用于按照特征值從大到小的順序,獲取所述至少一個(gè)第一特征中預(yù)設(shè)數(shù)值個(gè)第一特征作為聚類特征;
[0101]和/ 或,
[0102]所述聚類特征獲取模塊302用于將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征。
[0103]可選地,所述聚類特征獲取模塊302用于所述至少一個(gè)第二特征與至少一個(gè)第三特征中相同的特征合并為一個(gè)聚類特征,將所述相同的特征的特征值的和值作為合并后的特征的特征值,所述第二特征的特征值為所述第二特征的詞頻,所述第三特征的特征值為所述第三特征的詞頻。
[0104]可選地,所述聚類特征獲取模塊302用于過濾所述至少一個(gè)第二特征和所述至少一個(gè)第三特征中預(yù)設(shè)詞。
[0105]由于第二特征和第三特征屬于文本特征,因此第二特征和第三特征中可能包括沒有意義的停止詞和部分副詞,沒有意義的停止詞如“的” “和”等,副詞如“最” “較”等。因此,需要對(duì)預(yù)設(shè)詞進(jìn)行過濾,該預(yù)設(shè)詞可以由管理員或技術(shù)人員進(jìn)行設(shè)置,可以是對(duì)詞性的設(shè)置,如過濾停止詞和副詞,也可以是對(duì)具體詞的設(shè)置,如過濾“最” “的” “較”等詞。
[0106]需要說明的是,該過濾可以是在獲取到第二特征和第三特征時(shí),對(duì)第二特征和第三特征分別進(jìn)行,也可以是在第二特征和第三特征合并后進(jìn)行。[0107]可選地,所述聚類特征獲取模塊302用于按照特征值從大到小的順序,獲取所述至少一個(gè)第二特征和至少一個(gè)第三特征中預(yù)設(shè)數(shù)值個(gè)特征作為聚類特征。
[0108]本發(fā)明實(shí)施例提供的裝置,通過根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征;根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取至少一個(gè)聚類特征;根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。采用本發(fā)明提供的方案,通過對(duì)多種特征的合并和處理,避免了由于特征過于稀疏而造成的聚類效果差的問題,減少了聚類結(jié)果的噪音,獲得最佳的聚類結(jié)果。
[0109]需要說明的是:上述實(shí)施例提供的聚類裝置在聚類特征選取時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將設(shè)備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的聚類裝置與聚類方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。
[0110]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
[0111]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種聚類方法,其特征在于,所述方法包括: 根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征; 根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取至少一個(gè)聚類特征; 根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,包括: 獲取用戶使用的搜索關(guān)鍵字的至少一個(gè)第一特征,每個(gè)所述第一特征為根據(jù)所述搜索關(guān)鍵字進(jìn)行搜索時(shí)獲取到的被用戶點(diǎn)擊的搜索結(jié)果鏈接; 獲取所述搜索關(guān)鍵字的至少一個(gè)第二特征,每個(gè)所述第二特征為所述被用戶點(diǎn)擊的搜索結(jié)果鏈接對(duì)應(yīng)的頁(yè)面標(biāo)題的分詞結(jié)果; 獲取所述搜索關(guān)鍵字的至少一個(gè)第三特征,每個(gè)所述第三特征為所述搜索關(guān)鍵字的分詞結(jié)果。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征, 獲取聚類特征,包括: 按照特征值從大到小的順序,獲取所述至少一個(gè)第一特征中預(yù)設(shè)數(shù)值個(gè)第一特征作為聚類特征; 和/或, 將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征,包括: 所述至少一個(gè)第二特征與至少一個(gè)第三特征中相同的特征合并為一個(gè)聚類特征,將所述相同的特征的特征值的和值作為合并后的特征的特征值,所述第二特征的特征值為所述第二特征的詞頻,所述第三特征的特征值為所述第三特征的詞頻。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征,包括: 過濾所述至少一個(gè)第二特征和所述至少一個(gè)第三特征中的預(yù)設(shè)詞。
6.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征,包括: 按照特征值從大到小的順序,獲取所述至少一個(gè)第二特征和至少一個(gè)第三特征中預(yù)設(shè)數(shù)值個(gè)特征作為聚類特征。
7.一種聚類裝置,其特征在于,所述裝置包括: 特征獲取模塊,用于根據(jù)用戶的搜索關(guān)鍵字以及根據(jù)所述搜索關(guān)鍵字進(jìn)行的搜索過程,獲取所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征; 聚類特征獲取模塊,用于根據(jù)所述至少一個(gè)第一特征、至少一個(gè)第二特征和至少一個(gè)第三特征,獲取至少一個(gè)聚類特征; 聚類模塊,用于根據(jù)獲取到的至少一個(gè)聚類特征,進(jìn)行聚類。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,特征獲取模塊用于獲取用戶使用的搜索關(guān)鍵字的至少一個(gè)第一特征,每個(gè)所述第一特征為根據(jù)所述搜索關(guān)鍵字進(jìn)行搜索時(shí)獲取到的被用戶點(diǎn)擊的搜索結(jié)果鏈接; 所述特征獲取模塊還用于獲取所述搜索關(guān)鍵字的至少一個(gè)第二特征,每個(gè)所述第二特征為所述被用戶點(diǎn)擊的搜索結(jié)果鏈接對(duì)應(yīng)的頁(yè)面標(biāo)題的分詞結(jié)果; 所述特征獲取模塊還用于獲取所述搜索關(guān)鍵字的至少一個(gè)第三特征,每個(gè)所述第三特征為所述搜索關(guān)鍵字的分詞結(jié)果。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述聚類特征獲取模塊用于按照特征值從大到小的順序,獲取所述至少一個(gè)第一特征中預(yù)設(shè)數(shù)值個(gè)第一特征作為聚類特征; 和/或, 所述聚類特征獲取模塊用于將所述至少一個(gè)第二特征和至少一個(gè)第三特征合并,作為聚類特征。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述聚類特征獲取模塊用于所述至少一個(gè)第二特征與至少一個(gè)第三特征中相同的特征合并為一個(gè)聚類特征,將所述相同的特征的特征值的和值作為合并后的特征的特征值,所述第二特征的特征值為所述第二特征的詞頻,所述第三特征的特征值為所述第三特征的詞頻。
11.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述聚類特征獲取模塊用于過濾所述至少一個(gè)第二特征和所述至少一個(gè)第三特征中預(yù)設(shè)詞。
12.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述聚類特征獲取模塊用于按照特征值從大到小的順序,獲取所述至少一個(gè)第二特征和至少一個(gè)第三特征中預(yù)設(shè)數(shù)值個(gè)特征作為聚類特征。
【文檔編號(hào)】G06F17/30GK103970797SQ201310043564
【公開日】2014年8月6日 申請(qǐng)日期:2013年2月4日 優(yōu)先權(quán)日:2013年2月4日
【發(fā)明者】高健, 陳戈, 楊志峰 申請(qǐng)人:深圳市世紀(jì)光速信息技術(shù)有限公司