一種特征聚類的方法及裝置的制造方法
【專利摘要】本發(fā)明公開(kāi)了一種特征聚類的方法,包括:獲取帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息;對(duì)所述帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù);利用主題模型算法,對(duì)所述模型輸入數(shù)據(jù)進(jìn)行處理,得到所述帳號(hào)信息所包含的各主題的概率,每個(gè)主題的概率對(duì)應(yīng)一個(gè)特征;利用聚類算法對(duì)所述帳號(hào)信息所包含的特征進(jìn)行聚類。本發(fā)明實(shí)施例提供的特征聚類的方法,可以對(duì)帳號(hào)信息以及與該帳號(hào)信息對(duì)應(yīng)的屬性信息,通過(guò)主題概率的方式進(jìn)行聚類,不僅能夠有效避免了漫長(zhǎng)的特征探索過(guò)程,還能有效減少特征維度過(guò)多的問(wèn)題,從而提高了特征聚類的效率。
【專利說(shuō)明】
一種特征聚類的方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種特征聚類的方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,網(wǎng)絡(luò)上應(yīng)用的種類越來(lái)越多,以社交應(yīng)用為例,目前 的社交應(yīng)用不僅能提供用戶間的在線交流,還可以為用戶推送各種類型的內(nèi)容。
[0003] 例如:社交應(yīng)用中可以開(kāi)通各種類型的公眾號(hào),用戶可以通過(guò)關(guān)注自己喜歡的公 眾號(hào)進(jìn)行訂閱,這樣,當(dāng)該公眾號(hào)下有新文章發(fā)表時(shí),就會(huì)將該新文章推送給該用戶,從而 有利于用戶及時(shí)收看到新文章。
[0004] 因?yàn)橐粋€(gè)公眾號(hào)可以被眾多用戶訂閱,一個(gè)用戶也可以訂閱多個(gè)公眾號(hào),因此,為 了更好的分析每個(gè)公眾號(hào)的用戶群體,或者用戶對(duì)公眾號(hào)的傾向性喜好,通常需要對(duì)公眾 號(hào)或者用戶進(jìn)行聚類。
[0005] 現(xiàn)有技術(shù)中的聚類方法通常是對(duì)每個(gè)樣本設(shè)定不同維度的特征,但是不同維度的 特征往往需要相應(yīng)領(lǐng)域的知識(shí)才能完成設(shè)置,而且特征探索是個(gè)很漫長(zhǎng)的過(guò)程,特征可能 會(huì)很多,因此容易導(dǎo)致特征維度災(zāi)難,導(dǎo)致特征聚類效率低下。
【發(fā)明內(nèi)容】
[0006] 為解決現(xiàn)有技術(shù)中通過(guò)不同維度特征設(shè)定的方式進(jìn)行特征聚類,導(dǎo)致特征聚類效 率低下的問(wèn)題,本發(fā)明實(shí)施例提供一種特征聚類的方法,可以對(duì)帳號(hào)信息以及與該帳號(hào)信 息對(duì)應(yīng)的屬性信息,通過(guò)主題概率的方式進(jìn)行聚類,不僅能夠有效避免了漫長(zhǎng)的特征探索 過(guò)程,還能有效減少特征維度過(guò)多的問(wèn)題,從而提高了特征聚類的效率。本發(fā)明實(shí)施例還提 供了相應(yīng)的聚類裝置。
[0007] 本發(fā)明第一方面提供一種特征聚類的方法,包括:
[0008] 獲取帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息;
[0009]對(duì)所述帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸 入數(shù)據(jù);
[0010] 利用主題模型算法,對(duì)所述模型輸入數(shù)據(jù)進(jìn)行處理,得到所述帳號(hào)信息所包含的 各主題的概率,每個(gè)主題的概率對(duì)應(yīng)一個(gè)特征;
[0011] 利用聚類算法對(duì)所述帳號(hào)信息所包含的特征進(jìn)行聚類。
[0012] 本發(fā)明第二方面提供一種特征聚類的裝置,包括:
[0013] 獲取單元,用于獲取帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息;
[0014] 預(yù)處理單元,用于對(duì)所述獲取單元獲取的帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的 屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù);
[0015] 處理單元,用于利用主題模型算法,對(duì)所述預(yù)處理單元得到的模型輸入數(shù)據(jù)進(jìn)行 處理,得到所述帳號(hào)信息所包含的各主題的概率,每個(gè)主題的概率對(duì)應(yīng)一個(gè)特征;
[0016] 聚類單元,用于利用聚類算法對(duì)所述處理單元得到的所述帳號(hào)信息所包含的特征 進(jìn)行聚類。
[0017] 與現(xiàn)有技術(shù)中通過(guò)不同維度特征設(shè)定的方式進(jìn)行特征聚類,導(dǎo)致特征聚類效率低 下相比,本發(fā)明實(shí)施例提供的特征聚類的方法,可以對(duì)帳號(hào)信息以及與該帳號(hào)信息對(duì)應(yīng)的 屬性信息,通過(guò)主題概率的方式進(jìn)行聚類,不僅能夠有效避免了漫長(zhǎng)的特征探索過(guò)程,還能 有效減少特征維度過(guò)多的問(wèn)題,從而提高了特征聚類的效率。
【附圖說(shuō)明】
[0018] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附 圖。
[0019] 圖1是本發(fā)明實(shí)施例中特征聚類的方法的一實(shí)施例示意圖;
[0020]圖2是本發(fā)明實(shí)施例中特征聚類的方法的另一實(shí)施例示意圖;
[0021] 圖3是本發(fā)明實(shí)施例中特征聚類的方法的另一實(shí)施例示意圖;
[0022] 圖4是本發(fā)明實(shí)施例中特征聚類的裝置的一實(shí)施例示意圖;
[0023] 圖5是本發(fā)明實(shí)施例中服務(wù)器的一實(shí)施例示意圖。
【具體實(shí)施方式】
[0024] 本發(fā)明實(shí)施例提供一種特征聚類的方法,可以對(duì)帳號(hào)信息以及與該帳號(hào)信息對(duì)應(yīng) 的屬性信息,通過(guò)主題概率的方式進(jìn)行聚類,不僅能夠有效避免了漫長(zhǎng)的特征探索過(guò)程,還 能有效減少特征維度過(guò)多的問(wèn)題,從而提高了特征聚類的效率。本發(fā)明實(shí)施例還提供了相 應(yīng)的聚類裝置。以下分別進(jìn)行詳細(xì)說(shuō)明。
[0025]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施 例,都屬于本發(fā)明保護(hù)的范圍。
[0026] 為了便于理解本發(fā)明實(shí)施例中的內(nèi)容,下面針對(duì)本發(fā)明實(shí)施例所涉及到的名詞做 下簡(jiǎn)單介紹。
[0027] 帳號(hào)信息:指的是用于表示帳號(hào)的信息,可以包括網(wǎng)絡(luò)虛擬服務(wù)帳號(hào),以及在網(wǎng)絡(luò) 虛擬服務(wù)平臺(tái)中的用戶注冊(cè)帳號(hào)等。
[0028] 網(wǎng)絡(luò)虛擬服務(wù)帳號(hào):指的是在網(wǎng)絡(luò)虛擬服務(wù)平臺(tái)中注冊(cè)的公眾號(hào)。
[0029]用戶注冊(cè)帳號(hào):指的是用戶的社交應(yīng)用的帳號(hào)。
[0030] 帳號(hào)信息對(duì)應(yīng)的屬性信息:指的是與該帳號(hào)信息呈樹(shù)形結(jié)構(gòu)的信息。
[0031] 例如:在本發(fā)明實(shí)施例中,當(dāng)帳號(hào)信息為網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)時(shí),則網(wǎng)絡(luò)虛擬服務(wù)帳 號(hào)對(duì)應(yīng)的屬性信息為訂閱該網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)下的用戶信息,包括,用戶帳號(hào)。
[0032] 當(dāng)帳號(hào)信息為在網(wǎng)絡(luò)虛擬服務(wù)平臺(tái)中的用戶注冊(cè)帳號(hào)時(shí),則用戶注冊(cè)帳號(hào)對(duì)應(yīng)的 屬性信息為該用戶帳號(hào)所關(guān)注的網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)。
[0033] 主題模型算法:(英文全稱Latent Dirichlet Allocation,英文簡(jiǎn)稱"LDA"),主題 模型顧名思義就是對(duì)文字中隱含主題的一種建模方法,主題模型可以用公式
[0034]上述主題模型的公式是以文檔的形式表示的,其中,p(詞語(yǔ)|文檔)表示每篇文檔 中每個(gè)詞語(yǔ)出現(xiàn)的概率,P(詞語(yǔ)I主題)表示每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的概率,P(主題I文 檔)表示的是每篇文檔中各個(gè)主題出現(xiàn)的概率。
[0035] 若用矩陣的形式表示,上述模型公式還可以表示為C=〇*?。
[0036]其中C、〇和?都是矩陣,當(dāng)以文章為例時(shí),其中,C表示每篇文檔中每個(gè)詞語(yǔ)出現(xiàn) 的概率,也就是P(詞語(yǔ)I文檔),〇表示每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的概率P(詞語(yǔ)I主題),?表 示的是每篇文檔中各個(gè)主題出現(xiàn)的概率P(主題I文檔)。
[0037] 主題就是詞匯表上詞語(yǔ)的條件概率分布,每個(gè)主題的概率對(duì)應(yīng)一個(gè)特征,例如:例 如:在一個(gè)場(chǎng)景中,p(筆記本I百度)=0.000001,p(筆記本I聯(lián)想)=0.2,則0.000001對(duì)應(yīng)的 特征為百度,0.2對(duì)應(yīng)的特征為聯(lián)想。
[0038] 特征聚類:就是將相似的特征聚集到一個(gè)類中。
[0039] 聚類過(guò)程可以是首先從n個(gè)數(shù)據(jù)對(duì)象中任意選擇k個(gè)對(duì)象作為初始聚類中心,k小 于n,而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分 配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算該聚類中所有對(duì)象的均值,獲得 新聚類的聚類中心,不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方 差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。
[0040] 其中,k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的 分開(kāi)。
[0041 ]用數(shù)學(xué)方式表示可以為:
[0042] 步驟 1:輸入:k,data[n];
[0043] 步驟2、選擇k個(gè)初始中心點(diǎn),例如c[0] =data[0],…c[k_l] =data[k_l];
[0044] 步驟3、對(duì)于data[0]." .data[n],分別與c[0]…c[k_l]比較,假定與c差值最少,就 標(biāo)記為i;
[0045]步驟4、對(duì)于所有標(biāo)記為i點(diǎn),重新計(jì)算c={所有標(biāo)記為i的data[j]之和}/標(biāo)記為i 的個(gè)數(shù);
[0046]重復(fù)(3) (4),直到所有c值的變化小于給定閾值。
[0047]以上是對(duì)本發(fā)明實(shí)施例所涉及到的相關(guān)名稱的介紹,下面結(jié)合【附圖說(shuō)明】本發(fā)明實(shí) 施例中特征聚類的方法的實(shí)施例。
[0048]需要說(shuō)明的是,實(shí)現(xiàn)本發(fā)明實(shí)施例特征聚類的裝置可以是一個(gè)獨(dú)立的物理機(jī),也 可以是多個(gè)物理機(jī)所組成的物理機(jī)集群,還可以是多個(gè)依靠從物理資源中所劃分出來(lái)的虛 擬機(jī)。服務(wù)器屬于物理機(jī)的一種表現(xiàn)形式。
[0049] 圖1為本發(fā)明實(shí)施例中特征聚類的方法的一實(shí)施例示意圖,
[0050] 如圖1所示,本發(fā)明實(shí)施例所提供的特征聚類的方法的一實(shí)施例包括:
[0051 ] 101、獲取帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息。
[0052] 當(dāng)帳號(hào)信息為網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)時(shí),與所述帳號(hào)信息對(duì)應(yīng)的屬性信息可以為關(guān)注 該網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)的用戶注冊(cè)帳號(hào)。
[0053] 例如:當(dāng)網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)為公眾號(hào)時(shí),與所述帳號(hào)信息對(duì)應(yīng)的屬性信息可以為 訂閱該公眾號(hào)的用戶注冊(cè)帳號(hào),當(dāng)然與所述帳號(hào)信息對(duì)應(yīng)的屬性信息不限于訂閱該公眾號(hào) 的用戶注冊(cè)帳號(hào),還可以包括訂閱用戶數(shù)量,活躍用戶數(shù)量,以及互動(dòng)粉絲數(shù)量等。
[0054] 當(dāng)帳號(hào)信息為在網(wǎng)絡(luò)虛擬服務(wù)平臺(tái)中的用戶注冊(cè)帳號(hào)時(shí),與所述帳號(hào)信息對(duì)應(yīng)的 屬性信息可以為該用戶注冊(cè)帳號(hào)所訂閱的網(wǎng)絡(luò)虛擬服務(wù)帳號(hào),
[0055] 例如:該用戶注冊(cè)帳號(hào)所關(guān)注的公眾號(hào),用戶注冊(cè)帳號(hào)所關(guān)注的公眾號(hào)可以從公 眾號(hào)平臺(tái)上面采集了每個(gè)用戶所訂閱的公眾號(hào)列表中查找。當(dāng)然與所述帳號(hào)信息對(duì)應(yīng)的屬 性信息不限于該用戶所關(guān)注的公眾號(hào),還可以包括用戶給每個(gè)微信公眾號(hào)發(fā)送的上行消息 數(shù)目、支付次數(shù)、查看文章次數(shù)以及點(diǎn)擊菜單次數(shù)等等。
[0056] 102、對(duì)所述帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模 型輸入數(shù)據(jù)。
[0057]預(yù)處理的過(guò)程可以是帳號(hào)信息與屬性信息之間的格式生成,以及數(shù)據(jù)的過(guò)濾。 [0058] 103、利用主題模型算法,對(duì)所述模型輸入數(shù)據(jù)進(jìn)行處理,得到所述帳號(hào)信息所包 含的各主題的概率,每個(gè)主題的概率對(duì)應(yīng)一個(gè)特征。
[0059] 利用主題模型算法,對(duì)所述模型輸入數(shù)據(jù)進(jìn)行處理可以利用公式
或者公式c= 〇*@對(duì)模型輸入數(shù)據(jù)進(jìn)行 處理,得到每個(gè)主題的概率,從而確定每個(gè)主題對(duì)應(yīng)的特征。
[0060] 104、利用聚類算法對(duì)所述帳號(hào)信息所包含的特征進(jìn)行聚類。
[0061] 聚類的過(guò)程可以參閱名詞解釋部分的描述:
[0062] 步驟 1:輸入:k,data[n];
[0063] 步驟2、選擇k個(gè)初始中心點(diǎn),例如c[0] =data[0],…c[k_l] =data[k_l];
[0064] 步驟3、對(duì)于data[0]'" .data[n],分別與c[0]…c[k_l]比較,假定與c差值最少,就 標(biāo)記為i;
[0065]步驟4、對(duì)于所有標(biāo)記為i點(diǎn),重新計(jì)算c={所有標(biāo)記為i的data[j]之和}/標(biāo)記為i 的個(gè)數(shù);
[0066]重復(fù)(3) (4),直到所有c值的變化小于給定閾值。
[0067]用該過(guò)程實(shí)現(xiàn)特征聚類,只是在本發(fā)明實(shí)施例中,輸入的數(shù)據(jù)為帳號(hào)信息。
[0068] 與現(xiàn)有技術(shù)中通過(guò)不同維度特征設(shè)定的方式進(jìn)行特征聚類,導(dǎo)致特征聚類效率低 下相比,本發(fā)明實(shí)施例提供的特征聚類的方法,可以對(duì)帳號(hào)信息以及與該帳號(hào)信息對(duì)應(yīng)的 屬性信息,通過(guò)主題概率的方式進(jìn)行聚類,不僅能夠有效避免了漫長(zhǎng)的特征探索過(guò)程,還能 有效減少特征維度過(guò)多的問(wèn)題,從而提高了特征聚類的效率。
[0069] 可選地,在上述實(shí)施例所描述的內(nèi)容的基礎(chǔ)上,本發(fā)明實(shí)施例所提供的特征聚類 的方法的另一實(shí)施例中,所述帳號(hào)信息為網(wǎng)絡(luò)虛擬服務(wù)帳號(hào),則所述對(duì)所述帳號(hào)信息,以及 與所述帳號(hào)信息對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù),可以包括:
[0070] 對(duì)所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào),以及與所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù) 處理,得到模型輸入數(shù)據(jù)。
[0071] 進(jìn)一步的,所述對(duì)所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào),以及與所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)對(duì)應(yīng)的 屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù),可以包括:
[0072] 生成網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)與訂閱所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)的用戶注冊(cè)帳號(hào)之間的對(duì) 應(yīng)關(guān)系;
[0073] 過(guò)濾掉用戶注冊(cè)帳號(hào)不滿足預(yù)置條件的所述對(duì)應(yīng)關(guān)系。
[0074] 本發(fā)明實(shí)施例中,網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)和用戶注冊(cè)帳號(hào)之間的對(duì)應(yīng)關(guān)系可以通過(guò)關(guān) 系列表的形式來(lái)表不。
[0075] 如表1所示,公眾號(hào)和訂閱該公眾號(hào)的注冊(cè)用戶之間的對(duì)應(yīng)關(guān)系表可以為:
[0078]如表1所示,公眾號(hào)"知產(chǎn)力"與關(guān)注"知產(chǎn)力"的注冊(cè)用戶之間的對(duì)應(yīng)關(guān)系可以用 例如表1的形式來(lái)表示,當(dāng)然表1只是舉例,實(shí)際上,大多數(shù)公眾號(hào)都會(huì)有大量的注冊(cè)用戶關(guān) 注。
[0079]另外,需要說(shuō)明的一點(diǎn)是,本發(fā)明實(shí)施例中的粉絲指的也是注冊(cè)用戶,有的地方使 用了粉絲,有的地方使用了注冊(cè)用戶,只是接合具體的場(chǎng)景做的直白化表述,但不應(yīng)將注冊(cè) 用戶和粉絲做不同理解。
[0080] 下面結(jié)合圖2描述當(dāng)帳號(hào)信息為網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)時(shí),本發(fā)明實(shí)施例所提供的特 征聚類的方法的過(guò)程。
[0081] 如圖2所示,以公眾號(hào)為例,本發(fā)明實(shí)施例所提供的特征聚類的方法的另一實(shí)施例 包括:
[0082] 201、從公眾號(hào)平臺(tái)上采集每個(gè)公眾號(hào),以及每個(gè)公眾號(hào)對(duì)應(yīng)的屬性信息。
[0083] 公眾號(hào)對(duì)應(yīng)的屬性信息包括訂閱每個(gè)公眾號(hào)的用戶注冊(cè)帳號(hào),還包括但不限反應(yīng) 公眾號(hào)規(guī)模的訂閱用戶數(shù)、活躍用戶數(shù)、互動(dòng)用戶數(shù)等數(shù)據(jù)。
[0084] 202、對(duì)每個(gè)公眾號(hào)下的用戶數(shù)據(jù)進(jìn)行預(yù)處理。
[0085]預(yù)處理的過(guò)程包括:生成預(yù)處理數(shù)據(jù)Data,格式可以為:公眾號(hào)\丨對(duì)應(yīng)公眾號(hào)的用 戶注冊(cè)帳號(hào)列表。
[0086] 生成公眾號(hào)的用戶注冊(cè)帳號(hào)列表后,對(duì)列表中的數(shù)據(jù)做過(guò)濾清洗:
[0087] 對(duì)數(shù)據(jù)做過(guò)濾清洗需要從兩方面進(jìn)行,一方面是從公眾號(hào)的角度進(jìn)行過(guò)濾清洗, 另一方面是從用戶的角度進(jìn)行過(guò)濾清洗。
[0088] 從統(tǒng)計(jì)分布的角度上來(lái)說(shuō),一個(gè)數(shù)據(jù)集合中,特別大的數(shù)據(jù)和特別小的數(shù)據(jù)都不 適合統(tǒng)計(jì),所以清洗數(shù)據(jù)需要清洗掉數(shù)據(jù)集合中特別大的數(shù)據(jù)和特別小的數(shù)據(jù),關(guān)于特別 大的數(shù)據(jù)和特別小的數(shù)據(jù)的清洗本發(fā)明實(shí)施例中列舉兩種方案:
[0089] 先介紹從公眾號(hào)的角度進(jìn)行過(guò)濾清洗。
[0090] 從公眾號(hào)的角度進(jìn)行過(guò)濾清洗指的是過(guò)濾掉用戶特別多的公眾號(hào)和用戶特別少 的公眾號(hào)。兩種過(guò)濾方案分別為:
[0091] 第一種為:過(guò)濾清洗掉注冊(cè)用戶數(shù)大于第一閾值U的公眾號(hào),以及過(guò)濾掉注冊(cè)用戶 數(shù)小于第二閾值B的公眾號(hào)。
[0092] 第二種為:統(tǒng)計(jì)公眾號(hào)的注冊(cè)用戶數(shù)分布,過(guò)濾掉95分位(或者其他分位)以上的 公眾號(hào),以及5分為(或者其他分位)以下的公眾號(hào)。分位在統(tǒng)計(jì)學(xué)上指的是數(shù)據(jù)的分布位 置。
[0093] 下面介紹從用戶的角度進(jìn)行過(guò)濾清洗。
[0094] 從用戶的角度進(jìn)行過(guò)濾清洗也是指過(guò)濾掉數(shù)據(jù)集合中訂閱公眾號(hào)特別少的用戶 和過(guò)濾掉訂閱公眾號(hào)特別多的用戶,兩種過(guò)濾方案分別為:
[0095] 第一種為:過(guò)濾掉訂閱公眾號(hào)數(shù)小于某一閾值(例如:5)或是大于一定數(shù)目閾值 (例如:100000)的用戶。
[0096] 第二種為:統(tǒng)計(jì)用戶訂閱公眾號(hào)的分布,過(guò)濾掉95分位(或者其他分位)以上的用 戶,以及5分為(或者其他分位)以下的用戶。
[0097] 203、利用主題模型算法,進(jìn)行主題學(xué)習(xí),得到每個(gè)公眾號(hào)在各主題的概率分布。
[0098]主題學(xué)習(xí)的過(guò)程可以采用支持分布式計(jì)算的主題模型lightLDA或者深度學(xué)習(xí)模 型。
[0099] 204、輸出步驟203中的各公眾號(hào)主題概率分布結(jié)果。
[0100] 各公眾號(hào)主題概率分布結(jié)果輸出后,進(jìn)行人工評(píng)估,通過(guò)不斷調(diào)整模型參數(shù)進(jìn)行 步驟203的優(yōu)化迭代,盡量使得最終結(jié)果達(dá)到理想狀態(tài)。
[0101] 最終數(shù)據(jù)格式為:公眾號(hào)\t主題1:概率值1主題2:概率值2...主題N:概率值N
[0102] 205、對(duì)于步驟204中輸出的公眾號(hào)對(duì)應(yīng)的各個(gè)主題的分布情況,每個(gè)主題對(duì)應(yīng)一 個(gè)特征,然后利用聚類對(duì)公眾號(hào)進(jìn)行特征聚類。
[0103] 以上步驟201-205是結(jié)合公眾號(hào)對(duì)特征聚類的過(guò)程描述,本發(fā)明實(shí)施例中的公眾 號(hào)可以是微信公眾號(hào),也可以是其他社交應(yīng)用中的公眾號(hào)。
[0104] 可選地,在上述實(shí)施例所描述的內(nèi)容的基礎(chǔ)上,本發(fā)明實(shí)施例所提供的特征聚類 的方法的另一實(shí)施例中,所述帳號(hào)信息為在網(wǎng)絡(luò)虛擬服務(wù)平臺(tái)中的用戶注冊(cè)帳號(hào),則所述 對(duì)所述帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù),包 括:
[0105] 對(duì)所述用戶注冊(cè)帳號(hào),以及與所述用戶注冊(cè)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得 到模型輸入數(shù)據(jù)。
[0106] 進(jìn)一步的,所述對(duì)所述用戶注冊(cè)帳號(hào),以及與所述用戶注冊(cè)帳號(hào)對(duì)應(yīng)的屬性信息 進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù),可以包括:
[0107] 生成用戶注冊(cè)帳號(hào)與所述用戶注冊(cè)帳號(hào)所訂閱的網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)之間的對(duì)應(yīng) 關(guān)系;
[0108] 過(guò)濾掉網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)不滿足預(yù)置條件的所述對(duì)應(yīng)關(guān)系。
[0109] 本發(fā)明實(shí)施例中,用戶注冊(cè)帳號(hào)和所訂閱的網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)之間的對(duì)應(yīng)關(guān)系可 以通過(guò)關(guān)系列表的形式來(lái)表示。
[0110]如表2所示,用戶注冊(cè)帳號(hào)和所訂閱的公眾號(hào)之間的對(duì)應(yīng)關(guān)系表可以為:
[0112] 如表2所示,用戶注冊(cè)帳號(hào)13415666333與所訂閱的公眾號(hào)之間的對(duì)應(yīng)關(guān)系可以用 例如表2的形式來(lái)表示,當(dāng)然表2只是舉例,實(shí)際上,該用戶還可能訂閱了更多的公眾號(hào)。
[0113] 在特征聚類時(shí),要關(guān)注每個(gè)公眾號(hào)之間的相似性。
[0114] 下面結(jié)合圖3描述當(dāng)帳號(hào)信息為在網(wǎng)絡(luò)虛擬服務(wù)平臺(tái)中的用戶注冊(cè)帳號(hào)時(shí),本發(fā) 明實(shí)施例所提供的特征聚類的方法的過(guò)程。
[0115] 如圖3所示,本發(fā)明實(shí)施例所提供的特征聚類的方法的另一實(shí)施例包括:
[0116] 301、從公眾號(hào)平臺(tái)上采集每個(gè)用戶所訂閱的公眾號(hào)列表。
[0117] 除了公眾號(hào)列表外,還可以采集每個(gè)注冊(cè)用戶每月訂閱的公眾號(hào)的一些統(tǒng)計(jì)指標(biāo) 信息,其中可以包括用戶給每個(gè)微信公眾號(hào)發(fā)送的上行消息數(shù)目、支付次數(shù)、查看文章次 數(shù)、點(diǎn)擊菜單次數(shù)等等。
[0118] 302、對(duì)每個(gè)用戶注冊(cè)帳號(hào)的數(shù)據(jù)進(jìn)行預(yù)處理。
[0119] 預(yù)處理的過(guò)程包括:生成數(shù)據(jù)Data,格式為:用戶注冊(cè)帳號(hào)\t其訂閱的公眾號(hào)列 表。
[0120] 生成用戶的公眾號(hào)列表后,對(duì)列表中的數(shù)據(jù)做過(guò)濾清洗的過(guò)程可以是:
[0121] 先介紹從公眾號(hào)的角度進(jìn)行過(guò)濾清洗。
[0122] 從公眾號(hào)的角度進(jìn)行過(guò)濾清洗指的是過(guò)濾掉用戶特別多的公眾號(hào)和用戶特別少 的公眾號(hào)。兩種過(guò)濾方案分別為:
[0123] 第一種為:過(guò)濾清洗掉注冊(cè)用戶數(shù)大于第一閾值U的公眾號(hào),以及過(guò)濾掉注冊(cè)用戶 數(shù)小于第二閾值B的公眾號(hào)。
[0124] 第二種為:統(tǒng)計(jì)公眾號(hào)的注冊(cè)用戶數(shù)分布,過(guò)濾掉95分位(或者其他分位)以上的 公眾號(hào),以及5分為(或者其他分位)以下的公眾號(hào)。分位在統(tǒng)計(jì)學(xué)上指的是數(shù)據(jù)的分布位 置。
[0125] 下面介紹從用戶的角度進(jìn)行過(guò)濾清洗。
[0126] 從用戶的角度進(jìn)行過(guò)濾清洗也是指過(guò)濾掉數(shù)據(jù)集合中訂閱公眾號(hào)特別少的用戶 和過(guò)濾掉訂閱公眾號(hào)特別多的用戶,兩種過(guò)濾方案分別為:
[0127] 第一種為:過(guò)濾掉訂閱公眾號(hào)數(shù)小于某一閾值(例如:5)或是大于一定數(shù)目閾值 (例如:100000)的用戶。
[0128] 第二種為:統(tǒng)計(jì)用戶訂閱公眾號(hào)的分布,過(guò)濾掉95分位(或者其他分位)以上的用 戶,以及5分為(或者其他分位)以下的用戶。
[0129] 303、利用主題模型算法,進(jìn)行主題學(xué)習(xí),得到每個(gè)公眾號(hào)在各主題的概率分布。
[0130] 主題學(xué)習(xí)的過(guò)程可以采用支持分布式計(jì)算的主題模型lightLDA或者深度學(xué)習(xí)模 型。
[0131] 304、輸出步驟303中的各公眾號(hào)主題概率分布結(jié)果。
[0132] 在模型效果優(yōu)化的過(guò)程中,除了基于訂閱關(guān)系之外,還會(huì)基于注冊(cè)用戶和公眾號(hào) 的互動(dòng)關(guān)系來(lái)進(jìn)行聚類,互動(dòng)關(guān)系定義為上行消息數(shù)目、支付次數(shù)、查看文章次數(shù)、點(diǎn)擊菜 單次數(shù)等一些指標(biāo)數(shù)目達(dá)到一定數(shù)值。輸出每個(gè)用戶對(duì)應(yīng)的潛在語(yǔ)義主題分布,格式為:注 冊(cè)用戶\t主題1:概率值1主題2:概率值2...主題N:概率值N。
[0133] 305、對(duì)于步驟304中輸出的公眾號(hào)對(duì)應(yīng)的各個(gè)主題的分布情況,每個(gè)主題對(duì)應(yīng)一 個(gè)特征,然后利用聚類對(duì)公眾號(hào)進(jìn)行特征聚類。
[0134] 以上步驟301-305是結(jié)合公眾號(hào)對(duì)特征聚類的過(guò)程描述,本發(fā)明實(shí)施例中的公眾 號(hào)可以是微信公眾號(hào),也可以是其他社交應(yīng)用中的公眾號(hào)。
[0135] 本發(fā)明實(shí)施例所提供的聚類的方法,聚類的過(guò)程中所涉及到的文本數(shù)據(jù)包括但不 限于如昵稱、簡(jiǎn)介、簽名和文章等文本信息構(gòu)造相關(guān)特征數(shù)據(jù)。
[0136] 所使用的主題模型算法包括但不限于如潛在語(yǔ)義模型比如深度學(xué)習(xí)和主題模型 各種變體模型,還可以包括奇異值分解(英文全稱Singular value decomposition,英文簡(jiǎn) 稱"SVD")等各種聚類算法進(jìn)行按照潛在語(yǔ)義信息進(jìn)行識(shí)別。
[0137] 另外,在圖2和圖3所描述的實(shí)施例中,公眾號(hào)和注冊(cè)用戶的關(guān)系的替換,比如但不 限與微信公眾號(hào)和其對(duì)應(yīng)文章的關(guān)系、微信公眾號(hào)文章的轉(zhuǎn)發(fā)關(guān)系、微信公眾號(hào)用戶點(diǎn)擊 的關(guān)系等等。
[0138] 以上,本發(fā)明實(shí)施例所提供的特征聚類的方法,所產(chǎn)生的有益效果可以包括:
[0139] -、可以有效避免了漫長(zhǎng)的特征探索過(guò)程,還能有效減少特征維度過(guò)多的問(wèn)題。
[0140] 二:利用分布式主題模型有效支持了大規(guī)模的聚類需求。
[0141] 三:通過(guò)對(duì)微信公眾號(hào)或者粉絲用戶進(jìn)行聚類,在后續(xù)的挖掘工作中可以使用同 個(gè)主題代理個(gè)體微信公眾號(hào)或用戶數(shù)據(jù),因此有效解決長(zhǎng)尾部分?jǐn)?shù)據(jù)稀疏問(wèn)題。
[0142] 四:微信公眾號(hào)聚類結(jié)果有很多潛在使用的地方,包括相似微信公眾號(hào)推薦、微信 公眾號(hào)文章推薦、微信公眾號(hào)廣告播放等領(lǐng)域。
[0143] 以上是對(duì)特征聚類的方法的描述,下面介紹本發(fā)明實(shí)施例中的特征聚類的裝置 20 〇
[0144] 圖4為本發(fā)明實(shí)施例中特征聚類的裝置20的一實(shí)施例示意圖。
[0145] 參閱圖4,本發(fā)明實(shí)施例所提供的特征聚類的裝置40的一實(shí)施例包括:
[0146] 獲取單元401,用于獲取帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息;
[0147] 預(yù)處理單元402,用于對(duì)所述獲取單元401獲取的帳號(hào)信息,以及與所述帳號(hào)信息 對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù);
[0148] 處理單元403,用于利用主題模型算法,對(duì)所述預(yù)處理單元402得到的模型輸入數(shù) 據(jù)進(jìn)行處理,得到所述帳號(hào)信息所包含的各主題的概率,每個(gè)主題的概率對(duì)應(yīng)一個(gè)特征;
[0149] 聚類單元404,用于利用聚類算法對(duì)所述處理單元403得到的所述帳號(hào)信息所包含 的特征進(jìn)行聚類。
[0150] 本發(fā)明實(shí)施例中,獲取單元401獲取帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信 息;預(yù)處理單元402對(duì)所述獲取單元401獲取的帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性 信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù);處理單元403利用主題模型算法,對(duì)所述預(yù)處理單元 402得到的模型輸入數(shù)據(jù)進(jìn)行處理,得到所述帳號(hào)信息所包含的各主題的概率,每個(gè)主題的 概率對(duì)應(yīng)一個(gè)特征;聚類單元404,用于利用聚類算法對(duì)所述處理單元403得到的所述帳號(hào) 信息所包含的特征進(jìn)行聚類。與現(xiàn)有技術(shù)中通過(guò)不同維度特征設(shè)定的方式進(jìn)行特征聚類, 導(dǎo)致特征聚類效率低下相比,本發(fā)明實(shí)施例提供的特征聚類的裝置,可以對(duì)帳號(hào)信息以及 與該帳號(hào)信息對(duì)應(yīng)的屬性信息,通過(guò)主題概率的方式進(jìn)行聚類,不僅能夠有效避免了漫長(zhǎng) 的特征探索過(guò)程,還能有效減少特征維度過(guò)多的問(wèn)題,從而提高了特征聚類的效率。
[0151] 可選地,在上述特征聚類的裝置40的實(shí)施例的基礎(chǔ)上,本發(fā)明實(shí)施例提供的特征 聚類的裝置40的另一實(shí)施例中,
[0152] 所述預(yù)處理單元,用于當(dāng)所述帳號(hào)信息為網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)時(shí),對(duì)所述網(wǎng)絡(luò)虛擬 服務(wù)帳號(hào),以及與所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù)。
[0153] 進(jìn)一步的,所述預(yù)處理單元用于:
[0154] 生成網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)與訂閱所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)的用戶注冊(cè)帳號(hào)之間的對(duì) 應(yīng)關(guān)系;
[0155] 過(guò)濾掉用戶注冊(cè)帳號(hào)不滿足預(yù)置條件的所述對(duì)應(yīng)關(guān)系。
[0156] 可選地,在上述特征聚類的裝置40的實(shí)施例的基礎(chǔ)上,本發(fā)明實(shí)施例提供的特征 聚類的裝置40的另一實(shí)施例中,
[0157] 所述預(yù)處理單元,用于當(dāng)所述帳號(hào)信息為在網(wǎng)絡(luò)虛擬服務(wù)平臺(tái)中的用戶注冊(cè)帳號(hào) 時(shí),對(duì)所述用戶注冊(cè)帳號(hào),以及與所述用戶注冊(cè)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型 輸入數(shù)據(jù)。
[0158] 進(jìn)一步的,所述預(yù)處理單元用于:
[0159] 生成用戶注冊(cè)帳號(hào)與所述用戶注冊(cè)帳號(hào)所訂閱的網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)之間的對(duì)應(yīng) 關(guān)系;
[0160]過(guò)濾掉網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)不滿足預(yù)置條件的所述對(duì)應(yīng)關(guān)系。
[0161] 以上特征聚類的裝置可以由服務(wù)器來(lái)實(shí)現(xiàn),下面結(jié)合圖5說(shuō)明由服務(wù)器來(lái)實(shí)現(xiàn)上 述特征聚類的裝置實(shí)現(xiàn)聚類的過(guò)程。
[0162] 圖5是本發(fā)明實(shí)施例提供的服務(wù)器50的結(jié)構(gòu)示意圖。所述服務(wù)器50包括處理器 510、存儲(chǔ)器550和收發(fā)器530,存儲(chǔ)器550可以包括只讀存儲(chǔ)器和隨機(jī)存取存儲(chǔ)器,并向處理 器510提供操作指令和數(shù)據(jù)。存儲(chǔ)器550的一部分還可以包括非易失性隨機(jī)存取存儲(chǔ)器 (NVRAM)〇
[0163] 在一些實(shí)施方式中,存儲(chǔ)器550存儲(chǔ)了如下的元素,可執(zhí)行模塊或者數(shù)據(jù)結(jié)構(gòu),或 者他們的子集,或者他們的擴(kuò)展集:
[0164] 在本發(fā)明實(shí)施例中,通過(guò)調(diào)用存儲(chǔ)器550存儲(chǔ)的操作指令(該操作指令可存儲(chǔ)在操 作系統(tǒng)中),
[0165] 獲取帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息;
[0166] 對(duì)所述帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸 入數(shù)據(jù);
[0167] 利用主題模型算法,對(duì)所述模型輸入數(shù)據(jù)進(jìn)行處理,得到所述帳號(hào)信息所包含的 各主題的概率,每個(gè)主題的概率對(duì)應(yīng)一個(gè)特征;
[0168] 利用聚類算法對(duì)所述帳號(hào)信息所包含的特征進(jìn)行聚類。
[0169] 與現(xiàn)有技術(shù)中通過(guò)不同維度特征設(shè)定的方式進(jìn)行特征聚類,導(dǎo)致特征聚類效率低 下相比,本發(fā)明實(shí)施例提供的服務(wù)器,可以對(duì)帳號(hào)信息以及與該帳號(hào)信息對(duì)應(yīng)的屬性信息, 通過(guò)主題概率的方式進(jìn)行聚類,不僅能夠有效避免了漫長(zhǎng)的特征探索過(guò)程,還能有效減少 特征維度過(guò)多的問(wèn)題,從而提高了特征聚類的效率。
[0170] 處理器510控制服務(wù)器50的操作,處理器510還可以稱為CPU(Central Processing Unit,中央處理單元)。存儲(chǔ)器550可以包括只讀存儲(chǔ)器和隨機(jī)存取存儲(chǔ)器,并向處理器510 提供指令和數(shù)據(jù)。存儲(chǔ)器550的一部分還可以包括非易失性隨機(jī)存取存儲(chǔ)器(NVRAM)。具體 的應(yīng)用中服務(wù)器50的各個(gè)組件通過(guò)總線系統(tǒng)520耦合在一起,其中總線系統(tǒng)520除包括數(shù)據(jù) 總線之外,還可以包括電源總線、控制總線和狀態(tài)信號(hào)總線等。但是為了清楚說(shuō)明起見(jiàn),在 圖中將各種總線都標(biāo)為總線系統(tǒng)520。
[0171] 上述本發(fā)明實(shí)施例揭示的方法可以應(yīng)用于處理器510中,或者由處理器510實(shí)現(xiàn)。 處理器510可能是一種集成電路芯片,具有信號(hào)的處理能力。在實(shí)現(xiàn)過(guò)程中,上述方法的各 步驟可以通過(guò)處理器510中的硬件的集成邏輯電路或者軟件形式的指令完成。上述的處理 器510可以是通用處理器、數(shù)字信號(hào)處理器(DSP)、專用集成電路(ASIC)、現(xiàn)成可編程門陣列 (FPGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫?shí)現(xiàn)或 者執(zhí)行本發(fā)明實(shí)施例中的公開(kāi)的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或 者該處理器也可以是任何常規(guī)的處理器等。結(jié)合本發(fā)明實(shí)施例所公開(kāi)的方法的步驟可以直 接體現(xiàn)為硬件譯碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完 成。軟件模塊可以位于隨機(jī)存儲(chǔ)器,閃存、只讀存儲(chǔ)器,可編程只讀存儲(chǔ)器或者電可擦寫可 編程存儲(chǔ)器、寄存器等本領(lǐng)域成熟的存儲(chǔ)介質(zhì)中。該存儲(chǔ)介質(zhì)位于存儲(chǔ)器550,處理器510讀 取存儲(chǔ)器550中的信息,結(jié)合其硬件完成上述方法的步驟。
[0172] 可選地,處理器510用于:
[0173] 當(dāng)所述帳號(hào)信息為在網(wǎng)絡(luò)虛擬服務(wù)平臺(tái)中的用戶注冊(cè)帳號(hào)時(shí),對(duì)所述用戶注冊(cè)帳 號(hào),以及與所述用戶注冊(cè)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù)。
[0174] 進(jìn)一步處理器510用于,
[0175] 生成網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)與訂閱所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)的用戶注冊(cè)帳號(hào)之間的對(duì) 應(yīng)關(guān)系;
[0176] 過(guò)濾掉用戶注冊(cè)帳號(hào)不滿足預(yù)置條件的所述對(duì)應(yīng)關(guān)系。
[0177] 可選地,處理器510用于:
[0178] 當(dāng)所述帳號(hào)信息為在網(wǎng)絡(luò)虛擬服務(wù)平臺(tái)中的用戶注冊(cè)帳號(hào)時(shí),對(duì)所述用戶注冊(cè)帳 號(hào),以及與所述用戶注冊(cè)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù)。
[0179] 進(jìn)一步處理器510用于,
[0180] 生成用戶注冊(cè)帳號(hào)與所述用戶注冊(cè)帳號(hào)所訂閱的網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)之間的對(duì)應(yīng) 關(guān)系;
[0181]過(guò)濾掉網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)不滿足預(yù)置條件的所述對(duì)應(yīng)關(guān)系。
[0182] 以上的服務(wù)器50可以參閱圖1至圖3部分的描述進(jìn)行理解,本處不做過(guò)多贅述
[0183] 本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可 以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ) 介質(zhì)可以包括:R〇M、RAM、磁盤或光盤等。
[0184]以上對(duì)本發(fā)明實(shí)施例所提供的特征聚類的方法以及裝置進(jìn)行了詳細(xì)介紹,本文中 應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助 理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想, 在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本 發(fā)明的限制。
【主權(quán)項(xiàng)】
1. 一種特征聚類的方法,其特征在于,包括: 獲取帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息; 對(duì)所述帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù) 據(jù); 利用主題模型算法,對(duì)所述模型輸入數(shù)據(jù)進(jìn)行處理,得到所述帳號(hào)信息所包含的各主 題的概率,每個(gè)主題的概率對(duì)應(yīng)一個(gè)特征; 利用聚類算法對(duì)所述帳號(hào)信息所包含的特征進(jìn)行聚類。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述帳號(hào)信息為網(wǎng)絡(luò)虛擬服務(wù)帳號(hào),則所 述對(duì)所述帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù), 包括: 對(duì)所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào),以及與所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處 理,得到模型輸入數(shù)據(jù)。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述帳號(hào)信息為在網(wǎng)絡(luò)虛擬服務(wù)平臺(tái)中的 用戶注冊(cè)帳號(hào),則所述對(duì)所述帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理, 得到模型輸入數(shù)據(jù),包括: 對(duì)所述用戶注冊(cè)帳號(hào),以及與所述用戶注冊(cè)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模 型輸入數(shù)據(jù)。4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào),以及與所 述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù),包括: 生成網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)與訂閱所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)的用戶注冊(cè)帳號(hào)之間的對(duì)應(yīng)關(guān) 系; 過(guò)濾掉用戶注冊(cè)帳號(hào)不滿足預(yù)置條件的所述對(duì)應(yīng)關(guān)系。5. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對(duì)所述用戶注冊(cè)帳號(hào),以及與所述用 戶注冊(cè)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù),包括: 生成用戶注冊(cè)帳號(hào)與所述用戶注冊(cè)帳號(hào)所訂閱的網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)之間的對(duì)應(yīng)關(guān)系; 過(guò)濾掉網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)不滿足預(yù)置條件的所述對(duì)應(yīng)關(guān)系。6. -種特征聚類的裝置,其特征在于,包括: 獲取單元,用于獲取帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性信息; 預(yù)處理單元,用于對(duì)所述獲取單元獲取的帳號(hào)信息,以及與所述帳號(hào)信息對(duì)應(yīng)的屬性 信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù); 處理單元,用于利用主題模型算法,對(duì)所述預(yù)處理單元得到的模型輸入數(shù)據(jù)進(jìn)行處理, 得到所述帳號(hào)信息所包含的各主題的概率,每個(gè)主題的概率對(duì)應(yīng)一個(gè)特征; 聚類單元,用于利用聚類算法對(duì)所述處理單元得到的所述帳號(hào)信息所包含的特征進(jìn)行 聚類。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述預(yù)處理單元,用于當(dāng)所述帳號(hào)信息為網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)時(shí),對(duì)所述網(wǎng)絡(luò)虛擬服務(wù) 帳號(hào),以及與所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸入數(shù)據(jù)。8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述預(yù)處理單元,用于當(dāng)所述帳號(hào)信息為在網(wǎng)絡(luò)虛擬服務(wù)平臺(tái)中的用戶注冊(cè)帳號(hào)時(shí), 對(duì)所述用戶注冊(cè)帳號(hào),以及與所述用戶注冊(cè)帳號(hào)對(duì)應(yīng)的屬性信息進(jìn)行預(yù)處理,得到模型輸 入數(shù)據(jù)。9. 根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述預(yù)處理單元用于: 生成網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)與訂閱所述網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)的用戶注冊(cè)帳號(hào)之間的對(duì)應(yīng)關(guān) 系; 過(guò)濾掉用戶注冊(cè)帳號(hào)不滿足預(yù)置條件的所述對(duì)應(yīng)關(guān)系。10. 根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述預(yù)處理單元用于: 生成用戶注冊(cè)帳號(hào)與所述用戶注冊(cè)帳號(hào)所訂閱的網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)之間的對(duì)應(yīng)關(guān)系; 過(guò)濾掉網(wǎng)絡(luò)虛擬服務(wù)帳號(hào)不滿足預(yù)置條件的所述對(duì)應(yīng)關(guān)系。
【文檔編號(hào)】G06F17/30GK106055699SQ201610421683
【公開(kāi)日】2016年10月26日
【申請(qǐng)日】2016年6月15日
【發(fā)明人】陳明星, 陳謙, 萬(wàn)偉
【申請(qǐng)人】騰訊科技(深圳)有限公司