一種熱點(diǎn)事件分類方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘的計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種熱點(diǎn)事件分類方法及 裝置。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)在最近十多年經(jīng)歷了一個(gè)飛速發(fā)展的時(shí)期,并成為超越報(bào)紙、廣播和電視 三大傳統(tǒng)媒體的新媒體。互聯(lián)網(wǎng)的開放性使其成為人們獲取信息的重要渠道,然而互聯(lián)網(wǎng) 每天都會(huì)產(chǎn)生海量的信息數(shù)據(jù),如何從這些海量數(shù)據(jù)中提取有用的關(guān)鍵信息已經(jīng)成為近年 來研究的熱點(diǎn)。
[0003] 網(wǎng)絡(luò)由于其開放性、實(shí)時(shí)性和便捷性而成為新媒體的核心。然而,網(wǎng)絡(luò)用戶量龐 大,每天會(huì)產(chǎn)生數(shù)以億計(jì)的數(shù)據(jù),其中充斥著廣告、炒作等虛假信息,從這些數(shù)據(jù)中發(fā)現(xiàn)熱 點(diǎn)事件,并將熱點(diǎn)事件分類,既能方便人們獲取重要信息,同時(shí)也能幫助政府進(jìn)行輿論監(jiān)控 和突發(fā)事件檢測。
[0004] 而現(xiàn)有技術(shù)中,缺少一種熱點(diǎn)事件分類的方法。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實(shí)施例的目的是提供一種熱點(diǎn)事件分類方法及裝置,實(shí)現(xiàn)對(duì)熱點(diǎn)事件的分 類。
[0006] 為達(dá)到上述目的,本發(fā)明實(shí)施例公開了一種熱點(diǎn)事件分類方法,包括:
[0007] 接收待分類的熱點(diǎn)事件;
[0008] 確定該待分類的熱點(diǎn)事件與每個(gè)聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件的距離;
[0009] 將所述待分類的熱點(diǎn)事件劃分到該距離的最小值對(duì)應(yīng)的聚類中,其中根據(jù)以下方 法,確定每個(gè)聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件:采集每個(gè)熱點(diǎn)事件,并獲取該熱點(diǎn)事件對(duì)應(yīng)的 設(shè)定時(shí)間長度內(nèi)的轉(zhuǎn)發(fā)數(shù)量或評(píng)論數(shù)量;根據(jù)每個(gè)熱點(diǎn)事件對(duì)應(yīng)的設(shè)定時(shí)間長度內(nèi)的轉(zhuǎn)發(fā) 數(shù)量或評(píng)論數(shù)量,對(duì)熱點(diǎn)事件進(jìn)行聚類,將每個(gè)熱點(diǎn)事件劃分到不同的聚類中;在每個(gè)聚類 中,針對(duì)該聚類中包含的每個(gè)熱點(diǎn)事件,確定該聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件。
[0010] 可選的,所述確定該聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件之后,所述方法還包括:
[0011] 針對(duì)每個(gè)聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件,根據(jù)如下公式對(duì)該中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事 件在設(shè)定時(shí)間長度內(nèi)的轉(zhuǎn)發(fā)數(shù)量或評(píng)論數(shù)量進(jìn)行調(diào)整:
[0012]
[0013] 其中,AB(t)為設(shè)定時(shí)間長度內(nèi)調(diào)整后的時(shí)間點(diǎn)t的轉(zhuǎn)發(fā)量,U(n)為該熱點(diǎn)事件 在設(shè)定時(shí)間長度內(nèi)的當(dāng)前時(shí)間點(diǎn)η時(shí),在網(wǎng)絡(luò)中未傳播到的用戶的個(gè)數(shù),ε為采集到的熱 點(diǎn)事件中包含的噪聲所對(duì)應(yīng)的廣告事件和個(gè)人事件的數(shù)量,S(t)根據(jù)以下公式確定:
[0014]
[0015] 其中,nb為該熱點(diǎn)事件在設(shè)定時(shí)間長度內(nèi)傳播到預(yù)設(shè)的意見領(lǐng)袖的時(shí)間點(diǎn);
[0016] G(t)根據(jù)以下公式確定:
[0017] G{t) = a c'";
[0018] 其中,a為該熱點(diǎn)事件在設(shè)定時(shí)間長度內(nèi)的轉(zhuǎn)發(fā)量或者評(píng)論數(shù)量出現(xiàn)第二峰值時(shí) 的幅值,w為該熱點(diǎn)事件在設(shè)定時(shí)間長度內(nèi)從轉(zhuǎn)發(fā)量或者評(píng)論數(shù)量出現(xiàn)第一峰值到第二峰 值的時(shí)間長度,tp為該熱點(diǎn)事件在設(shè)定時(shí)間長度內(nèi)的轉(zhuǎn)發(fā)量或者評(píng)論數(shù)量出現(xiàn)第二峰值的 時(shí)間點(diǎn);
[0019] ?·(τ)根據(jù)以下公式確定:
[0020] f( τ ) = β * τ L5
[0021] 其中β為熱點(diǎn)事件傳播過程中的傳播系數(shù),τ為傳播過程中的每個(gè)時(shí)間點(diǎn)。
[0022] 可選的,所述根據(jù)每個(gè)熱點(diǎn)事件對(duì)應(yīng)的設(shè)定時(shí)間長度內(nèi)的轉(zhuǎn)發(fā)數(shù)量或評(píng)論數(shù)量, 對(duì)熱點(diǎn)事件進(jìn)行聚類,將每個(gè)熱點(diǎn)事件劃分到不同的聚類中之前,所述方法包括:
[0023] 針對(duì)每個(gè)熱點(diǎn)事件,判斷該熱點(diǎn)事件的平均時(shí)間轉(zhuǎn)發(fā)量R和意見領(lǐng)袖占有率D是 否都大于相應(yīng)的平均時(shí)間轉(zhuǎn)發(fā)量閾值、和意見領(lǐng)袖占有率閾值tD;
[0024] 如果否,則刪除該熱點(diǎn)事件,如果是,則進(jìn)行后續(xù)對(duì)該熱點(diǎn)事件進(jìn)行聚類的過程, 其中根據(jù)如下公式確定平均時(shí)間轉(zhuǎn)發(fā)量R和意見領(lǐng)袖占有率D:
[0025]
[0026]
[0027]I為平均時(shí)間轉(zhuǎn)發(fā)量,D為意見領(lǐng)袖占有率,Rt為該熱點(diǎn)事件的總轉(zhuǎn)發(fā)量,T為設(shè) 定的時(shí)間長度,Vb為該熱點(diǎn)事件傳播過程中轉(zhuǎn)發(fā)該熱點(diǎn)事件的意見領(lǐng)袖的個(gè)數(shù),Vt為該熱 點(diǎn)事件傳播過程中轉(zhuǎn)發(fā)該熱點(diǎn)事件的用戶的個(gè)數(shù)。
[0028] 可選的,所述確定該聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件包括:
[0029] 根據(jù)屬于類別(;的所有熱點(diǎn)事件Xi,與中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件μ^勺 距離d(Xdμk)的和為最小,確定該聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件',其中
Xl為屬于類別Ck的所有熱點(diǎn)事件,μk為中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件, g為確定的該聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件。
[0030] 可選的,確定該待分類的熱點(diǎn)事件與每個(gè)聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件的距離包 括:
[0031] 根據(jù)以下公式確定該待分類的熱點(diǎn)事件與每個(gè)聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件的 距離:
[0032]
[0033] 其中,x(t)為該待分類的熱點(diǎn)事件X在該設(shè)定時(shí)間長度內(nèi)每個(gè)時(shí)間點(diǎn)t的轉(zhuǎn)發(fā)數(shù) 量或評(píng)論數(shù)量,C(t)為聚類中心對(duì)應(yīng)的熱點(diǎn)事件C在該設(shè)定時(shí)間長度內(nèi)每個(gè)時(shí)間點(diǎn)t的轉(zhuǎn) 發(fā)數(shù)量或評(píng)論數(shù)量,T為設(shè)定的時(shí)間長度。
[0034] 為達(dá)到上述目的,本發(fā)明實(shí)施例還公開了一種熱點(diǎn)事件分類裝置,包括:
[0035] 接收模塊,用于接收待分類的熱點(diǎn)事件;
[0036] 確定模塊,用于確定該待分類的熱點(diǎn)事件與每個(gè)聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件的 距離;
[0037] 聚類模塊,用于將所述待分類的熱點(diǎn)事件劃分到該距離的最小值對(duì)應(yīng)的聚類中;
[0038] 所述裝置還包括:
[0039] 采集模塊,用于采集每個(gè)熱點(diǎn)事件,并獲取該熱點(diǎn)事件對(duì)應(yīng)的設(shè)定時(shí)間長度內(nèi)的 轉(zhuǎn)發(fā)數(shù)量或評(píng)論數(shù)量;
[0040] 所述聚類模塊,還用于根據(jù)每個(gè)熱點(diǎn)事件對(duì)應(yīng)的設(shè)定時(shí)間長度內(nèi)的轉(zhuǎn)發(fā)數(shù)量或評(píng) 論數(shù)量,對(duì)熱點(diǎn)事件進(jìn)行聚類,將每個(gè)熱點(diǎn)事件劃分到不同的聚類中;在每個(gè)聚類中,針對(duì) 該聚類中包含的每個(gè)熱點(diǎn)事件,確定該聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件。
[0041] 可選的,所述裝置還包括:
[0042] 調(diào)整模塊,用于針對(duì)每個(gè)聚類的中心點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件,根據(jù)如下公式對(duì)該中心 點(diǎn)對(duì)應(yīng)的熱點(diǎn)事件在設(shè)定時(shí)間長度內(nèi)的轉(zhuǎn)發(fā)數(shù)量或評(píng)論數(shù)量進(jìn)行調(diào)整:
[0043]
[0044] 其中,AB(t)為設(shè)定時(shí)間長度內(nèi)調(diào)整后的時(shí)間點(diǎn)t的轉(zhuǎn)發(fā)量,U(n)為該熱點(diǎn)事件 在設(shè)定時(shí)間長度內(nèi)的當(dāng)前時(shí)間點(diǎn)η時(shí),在網(wǎng)絡(luò)中未傳播到的用戶的個(gè)數(shù),ε為為采集到的 熱點(diǎn)事件中包含的噪聲所對(duì)應(yīng)的廣告事件和個(gè)人事件的數(shù)量,S(t)根據(jù)以下公式確定:
[0045]
[0046] 其中,nb為該熱點(diǎn)事件在設(shè)定時(shí)間長度內(nèi)傳播到預(yù)設(shè)的意見領(lǐng)袖的時(shí)間點(diǎn);
[0047] G(t)根據(jù)以下公式確定:
[0048] G{t) = a eu>,
[0049] 其中,a為該熱點(diǎn)事件在設(shè)定時(shí)間長度內(nèi)的轉(zhuǎn)發(fā)量或者評(píng)論數(shù)量出現(xiàn)第二峰值時(shí) 的幅值,w為該熱點(diǎn)事件在設(shè)定時(shí)間長度內(nèi)從轉(zhuǎn)發(fā)量或者評(píng)論數(shù)量出現(xiàn)第一峰值到第二峰 值的時(shí)間長度,tp為該熱點(diǎn)事件在設(shè)定時(shí)間長度內(nèi)的轉(zhuǎn)發(fā)量或者評(píng)論數(shù)量出現(xiàn)第二峰值的 時(shí)間點(diǎn);
[0050] f(τ)根據(jù)以下公式確定:
[0051] f( τ ) = β * τ L5
[0052] 其中β為熱點(diǎn)事件傳播過程中的傳播系數(shù),τ為傳播過程中的每個(gè)時(shí)間點(diǎn)。
[0053] 可選的,所述裝置還包括:
[0054] 過濾模塊,用于針對(duì)每個(gè)熱點(diǎn)事件,判斷該熱點(diǎn)事件的平均時(shí)間轉(zhuǎn)發(fā)量R和意見 領(lǐng)袖占有率D是否大于相應(yīng)的平均時(shí)間轉(zhuǎn)發(fā)量閾值tjP意見領(lǐng)袖占有率閾值tD;如果否, 則刪除該熱點(diǎn)事件,如果是,則將所述熱點(diǎn)事件發(fā)送到所述聚類模塊,其中根據(jù)如下公式確 定平均時(shí)間轉(zhuǎn)發(fā)量R和意見領(lǐng)袖占有率D:
[0057] I為平均時(shí)間轉(zhuǎn)發(fā)量,D為意見領(lǐng)袖占有率,Rt為該熱點(diǎn)事件的總轉(zhuǎn)發(fā)量,T為設(shè) 定的時(shí)間長度,Vb為該熱點(diǎn)事件傳播過程中轉(zhuǎn)發(fā)該熱點(diǎn)事件的意見領(lǐng)袖的個(gè)數(shù),Vt為該熱 點(diǎn)事件傳播過程中轉(zhuǎn)發(fā)該熱點(diǎn)事件的用戶的個(gè)數(shù)。
[0058] 可選的,所述聚類模塊,具體用于根據(jù)屬于類別(;的所有熱點(diǎn)事件Xi,與中心點(diǎn)對(duì) 應(yīng)的熱