一種網(wǎng)絡(luò)輿情事件的熱度分析方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)事件熱度分析領(lǐng)域,具體涉及一種網(wǎng)絡(luò)輿情事件的熱度分析方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 我國正處在一個社會發(fā)展的關(guān)鍵時期,而民意歷來都是反映社會形勢的晴雨表, 因此通過對民意的透視,可以把握社會發(fā)展的關(guān)鍵及社會矛盾。隨著互聯(lián)網(wǎng)的爆發(fā)式發(fā)展, 網(wǎng)絡(luò)成為群眾表達自己心聲和見解的主要渠道,也成為獲取輿情、民意的主要傳播媒介。
[0003] 目前的計算機技術(shù)可實現(xiàn)對網(wǎng)絡(luò)信息的熱點聚類,通過把相似信息的聚類,實現(xiàn) 熱點的呈現(xiàn)。但是現(xiàn)有方式的熱度的體現(xiàn)只能通過相似信息的數(shù)量來衡量,其缺點就是衡 量指標單一,從而導致對熱點的判斷出現(xiàn)偏差。
【發(fā)明內(nèi)容】
[0004] 針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的在于提供一種網(wǎng)絡(luò)輿情事件的熱度分 析方法及系統(tǒng),實現(xiàn)多維度的網(wǎng)絡(luò)輿情事件的熱度分析。
[0005] 為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0006] -種網(wǎng)絡(luò)輿情事件的熱度分析方法,包括以下步驟:
[0007] (1)對所要采集的網(wǎng)站進行數(shù)據(jù)的采集與保存;
[0008] (2)對采集的數(shù)據(jù)進行聚類分析,將采集的數(shù)據(jù)分類成不同的話題事件;
[0009] (3)根據(jù)事件熱點指數(shù)計算模型計算每個話題事件的熱點指數(shù)。
[0010] 一種輿情事件的熱度分析系統(tǒng),包括:
[0011] 數(shù)據(jù)采集模塊,用于對所要采集的網(wǎng)站進行數(shù)據(jù)的采集與保存;
[0012] 聚類分析模塊,對采集的數(shù)據(jù)進行聚類分析,將采集的數(shù)據(jù)分類成不同的話題事 件;
[0013] 熱點指數(shù)計算模塊,根據(jù)事件熱點指數(shù)計算模型計算每個話題事件的熱點指數(shù)。
[0014] 本發(fā)明的有益效果在于:本發(fā)明所述的方法及系統(tǒng),對網(wǎng)絡(luò)輿情和民意數(shù)字化,通 過建立多維度的模型及網(wǎng)站權(quán)重來計算一個話題的熱點指數(shù),可以更準確的衡量一個事件 的熱度情況。
【附圖說明】
[0015] 圖1為本發(fā)明一種網(wǎng)絡(luò)輿情事件的熱度分析系統(tǒng)的結(jié)構(gòu)框圖;
[0016] 圖2為本發(fā)明一種網(wǎng)絡(luò)輿情事件的熱度分析方法的流程圖;
[0017] 圖3為【具體實施方式】中網(wǎng)絡(luò)輿情事件的熱度分析方法的流程示意圖。
【具體實施方式】
[0018] 下面結(jié)合說明書附圖與【具體實施方式】對本發(fā)明做進一步的詳細說明。
[0019] 本發(fā)明的目的在于提供一種可以較準確反映熱點熱度的指數(shù)計算方法及系統(tǒng),通 過多維度的事件熱點指數(shù)計算模型及網(wǎng)站權(quán)重來計算一個話題的熱點指數(shù)。該方法及系統(tǒng) 基于數(shù)據(jù)采集和熱點聚類技術(shù),提供輿情事件的各維度的計算方法和事件熱點指數(shù)的計算 方法。
[0020] 圖1示出了本發(fā)明一種網(wǎng)絡(luò)輿情事件的熱度分析系統(tǒng)的結(jié)構(gòu)框圖,該系統(tǒng)包括了 數(shù)據(jù)采集模塊11、聚類分析模塊12和熱點指數(shù)計算模塊13,其中:
[0021] 數(shù)據(jù)采集模塊11用于對所要采集的網(wǎng)站進行數(shù)據(jù)的采集與保存;
[0022] 聚類分析模塊12對采集的數(shù)據(jù)進行聚類分析,將采集的數(shù)據(jù)分類成不同的話題 事件;
[0023] 熱點指數(shù)計算模塊13根據(jù)事件熱點指數(shù)計算模型計算每個話題事件的熱點指 數(shù)。
[0024] 數(shù)據(jù)采集模塊11在需要采集的網(wǎng)站部署采集軟件,對采集范圍內(nèi)的站點定時的 進行數(shù)據(jù)采集,并對采集到的數(shù)據(jù)進行入庫保存。聚類分析模塊12對數(shù)據(jù)模塊采集到的數(shù) 據(jù)進行熱點聚類,通過聚類軟件對采集的數(shù)據(jù)進行定時的聚類分析,并對同一話題事件的 文章進行合并,之后由熱點指數(shù)計算模塊13根據(jù)事件熱點指數(shù)計算模型計算每個話題事 件的熱點指數(shù)。
[0025] 所述的事件熱點指數(shù)計算模型是根據(jù)事件的多維度參數(shù)和網(wǎng)站權(quán)重建立的計算 事件熱度的模型,所述的多維度參數(shù)包括數(shù)量維度、顯著維度和分布維度。熱點指數(shù)計算模 塊13根據(jù)事件熱點指數(shù)計算模型計算每個話題事件的熱點指數(shù)的具體方式為:
[0026] 事件熱點指數(shù)=(數(shù)量維度值X數(shù)量維度權(quán)重+顯著維度值X顯著維度權(quán)重+ 分布維度值X分布維度權(quán)重)X平均網(wǎng)站權(quán)重;
[0027] 其中,數(shù)量維度值=(信息數(shù)量得分+總點擊數(shù)量得分+總跟帖數(shù)量得分)X數(shù)量 維度權(quán)重;
[0028] 顯著維度值=(網(wǎng)站首頁得分+加精得分+置頂?shù)梅?推薦得分)X顯著維度權(quán) 重;
[0029] 分布維度值=(網(wǎng)站分布數(shù)量得分+網(wǎng)友分布數(shù)量得分)X分布維度權(quán)重;
[0030] 網(wǎng)站平均權(quán)重為事件所包含的所有文章所在網(wǎng)站的網(wǎng)站權(quán)重的均值。
[0031] 圖2和圖3示出了本實施方式中基于圖1中所示系統(tǒng)的一種網(wǎng)絡(luò)輿情事件的熱度 分析方法,該方法包括以下步驟:
[0032] 步驟S21 :對所要采集的網(wǎng)站進行數(shù)據(jù)的采集與保存;
[0033] 根據(jù)需要,部署采集軟件,配置采集的具體網(wǎng)站,對采集范圍內(nèi)的站點進行定時的 數(shù)據(jù)采集,并對采集數(shù)據(jù)進行入庫保存。
[0034] 進行數(shù)據(jù)采集時,所采集的數(shù)據(jù)的基本屬性包括采集的事件的標題、鏈接地址、正 文、所屬網(wǎng)站和所屬頻道等。如果所采集的數(shù)據(jù)為論壇數(shù)據(jù),所采集的數(shù)據(jù)的基本屬性還包 括事件點擊數(shù)量、回帖數(shù)量、是否置為網(wǎng)站首頁、是否加精、是否置頂、是否推薦、以及跟帖 內(nèi)容和跟帖網(wǎng)名等。
[0035] 步驟S22 :對采集的數(shù)據(jù)進行聚類分析,將采集的數(shù)據(jù)分類成不同的話題事件;
[0036] 對步驟S21中所采集到的數(shù)據(jù)進行熱點聚類。本實施方式中通過聚類軟件對采集 的數(shù)據(jù)進行定時的聚類,對同一話題事件的數(shù)據(jù)進行合并,將采集的數(shù)據(jù)分類成不同的話 題事件,并將分類后的數(shù)據(jù)保存。其中,對數(shù)據(jù)進行聚類分析采用現(xiàn)有技術(shù)實現(xiàn)的。
[0037] 對數(shù)據(jù)進行聚類分析后,根據(jù)話題事件的類型,得到話題事件的基本屬性信息。如 對于論壇數(shù)據(jù)聚類,得到屬于同一話題事件的數(shù)量、總點擊數(shù)、總跟帖數(shù)、加精次數(shù)、置頂次 數(shù)及推薦次數(shù)等。由于網(wǎng)絡(luò)事件的時效性較短,在對新的話題事件進行入庫保存時,入庫前 先刪除全部舊的話題數(shù)據(jù)。
[0038] 步驟S23 :根據(jù)事件熱點指數(shù)計算模型計算每個話題事件的熱點指數(shù)。
[0039] 完成數(shù)據(jù)的聚類分析后,根據(jù)事件熱點指數(shù)計算模型計算每個話題事件的熱點指 數(shù)。其中,所述的事件熱點指數(shù)計算模型是根據(jù)事件的多維度參數(shù)和網(wǎng)站權(quán)重建立的計算 事件熱度的模型,所述的多維度參數(shù)包括數(shù)量維度A、顯著維度B和分布維度C,網(wǎng)站權(quán)重根 據(jù)網(wǎng)站的影響力設(shè)置,影響力越大,網(wǎng)站權(quán)重值越大。
[0040] 其中,數(shù)量維度A是反映話題事件的信息數(shù)量、總點擊數(shù)量和總跟帖數(shù)量的參數(shù); 顯著維度B是反映話題事件的信息在論壇或者網(wǎng)站中是否加精、置頂、置為網(wǎng)站首頁或者 推薦的參數(shù);分布參數(shù)C是反映話題事件在