互聯(lián)網(wǎng)數(shù)據(jù)提取系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)采集與分析,特別涉及一種互聯(lián)網(wǎng)數(shù)據(jù)提取系統(tǒng)。
【背景技術】
[0002] 與原有傳統(tǒng)互聯(lián)網(wǎng)形態(tài)相比,當今的互聯(lián)網(wǎng)形態(tài)已經(jīng)發(fā)生了巨變,隨身移動設備 的不斷推新,人們已經(jīng)脫離了老式臺式機的傳統(tǒng)有線上網(wǎng)模式,移動設備的功能層出不窮, 拍照、拍攝視頻已經(jīng)是最基本的功能。人們可以通過移動設備拍攝周圍發(fā)生的事情,并且可 以直接上傳到互聯(lián)網(wǎng)中,其信息的傳播速度迅速之極,如果沒有合理進行監(jiān)測,可能會出現(xiàn) 非法信息,錯誤引導公眾的判斷,導致輿論走向錯誤的方向。在輿情檢測中,數(shù)據(jù)采集功能 尤為重要,所有數(shù)據(jù)在采集后,因為數(shù)據(jù)量極大,需要借助技術手段,在有限的時間內(nèi),分析 出有用的數(shù)據(jù)。然而現(xiàn)有的信息監(jiān)測系統(tǒng)僅應用單一的采集方式,只能滿足某種特定的信 息分析,不能滿足現(xiàn)在互聯(lián)網(wǎng)中多元化信息分析的需求。
【發(fā)明內(nèi)容】
[0003]為解決上述現(xiàn)有技術所存在的問題,本發(fā)明提出了一種互聯(lián)網(wǎng)數(shù)據(jù)提取系統(tǒng),包 括:
[0004]數(shù)據(jù)采集模塊,用于對用戶在互聯(lián)網(wǎng)中發(fā)布的內(nèi)容進行采集;
[0005]數(shù)據(jù)預處理模塊,用于對采集的網(wǎng)絡文本進行預處理,包括根據(jù)用戶等級進行噪 聲過濾、文本分詞、停用詞過濾、權值計算、矢量表示和特征提取;
[0006]話題歸類模塊,用于在預處理后的數(shù)據(jù)中基于話題之間的相似度進行歸類;
[0007]話題頻度計算模塊,用于對歸類之后的話題群,結合網(wǎng)絡屬性信息和用戶等級,計 算話題頻度值。
[0008]優(yōu)選地,所述根據(jù)用戶等級進行噪聲過濾,進一步包括:
[0009]獲取網(wǎng)絡語義數(shù)據(jù)和用戶關聯(lián)數(shù)據(jù),刪除無用信息;
[0010] 計算用戶UL等級值,對計算結果排序,過濾掉等級低于預設值的用戶發(fā)布的語義 數(shù)據(jù),過濾掉開頭含有標志位格式的語義數(shù)據(jù);
[0011] 其中計算用戶UL等級值的過程包括:
[0012] 對N個用戶的舊UL值,賦初值為1 ;根據(jù)以下用戶等級計算公式計算各個用戶的 新UL值:
【主權項】
1. 一種互聯(lián)網(wǎng)數(shù)據(jù)提取系統(tǒng),其特征在于,包括: 數(shù)據(jù)采集模塊,用于對用戶在互聯(lián)網(wǎng)中發(fā)布的內(nèi)容進行采集; 數(shù)據(jù)預處理模塊,用于對采集的網(wǎng)絡文本進行預處理,包括根據(jù)用戶等級進行噪聲過 濾、文本分詞、停用詞過濾、權值計算、矢量表示和特征提取; 話題歸類模塊,用于在預處理后的數(shù)據(jù)中基于話題之間的相似度進行歸類; 話題頻度計算模塊,用于對歸類之后的話題群,結合網(wǎng)絡屬性信息和用戶等級,計算話 題頻度值。
2. 根據(jù)權利要求1所述的系統(tǒng),其特征在于,所述根據(jù)用戶等級進行噪聲過濾,進一步 包括: 獲取網(wǎng)絡語義數(shù)據(jù)和用戶關聯(lián)數(shù)據(jù),刪除無用信息; 計算用戶UL等級值,對計算結果排序,過濾掉等級低于預設值的用戶發(fā)布的語義數(shù) 據(jù),過濾掉開頭含有標志位格式的語義數(shù)據(jù); 其中計算用戶UL等級值的過程包括: 對N個用戶的舊UL值,賦初值為1 ;根據(jù)以下用戶等級計算公式計算各個用戶的新UL值:
其中,UL(u)表示用戶u的等級值;att(u)表示用戶u的關注者集合;Lu為用戶u的活 躍度;d為阻尼系數(shù)預設常量,所述用戶的活躍度與用戶關注者數(shù)量、用戶發(fā)布的頻率、發(fā) 表的數(shù)量有關,并且計算為: Lu= 2Wj ?Aj 其中,A」為活躍度的影響因素值,為^的對應權值; 當各個用戶的舊UL值和新UL值相差大于預定閾值時,將各個用戶的舊UL值賦值為新UL值,再根據(jù)上述用戶等級計算公式計算每一個用戶的新UL值;輸出N個用戶的UL值為 新的UL值。
3. 根據(jù)權利要求2所述的系統(tǒng),其特征在于,所述預處理模塊中,文本分詞、停用詞過 濾、權值計算、矢量表示和特征提取的過程進一步包括: 在噪聲過濾后,對文本做分詞并去停用詞,保留包含關鍵信息的名詞、動詞、形容詞、副 詞作為特征項,文本使用矢量空間模型來表示,在矢量空間模型中給不同的特征項分配不 同的權值,通過特征項的權值反映該特征項對文本文檔的貢獻度和文檔之間的區(qū)分能力, 采用結合語義相似度的正則化逆詞頻函數(shù): ffik=tfikXl〇g(N/mk+0. 01) 其中,tfik為特征詞條Tk在文本Di*的出現(xiàn)次數(shù);N為整個文本的數(shù)量;mk為含有Tk的 文本數(shù)量和與Tk語義相似的特征項出現(xiàn)的文本數(shù)量的平均值的和,mk的計算公式如下:
其中,nk為包含Tk的文本數(shù)量;p」為包含其它文本中與Tk語義相似的特征項的文本數(shù) 量;C為與Tk語義相似的特征項的數(shù)量,當特征詞條之間的語義相似值大于0. 6時,確定其 語義相似; 在矢量空間模型中,2個文本間的相似度表示為:
其中,Dw.分別表示文本D_"和Dn中第j個特征詞條的Wik值。
4.根據(jù)權利要求3所述的系統(tǒng),其特征在于,所述話題歸類模塊進一步配置為: 1) 計算網(wǎng)絡內(nèi)容文本間的相似度值,然后構建文本間相似度的矩陣Mtr; 2) 根據(jù)構造的矩陣Mtr,構建一個相似度集合P,并對其進行升序排序; 3) 初始中心點集I設置為空集,刪除集Del變?yōu)榭占? 4) 從P中選取數(shù)值最大的文本+作為一個中心點,并將其加入到初始中心點集中,即 I=IU{dj},已設置選擇中心點個數(shù)i自動加1 ; 5) 根據(jù)構造的矩陣Mtr,查找文本dj群相關的全部文本,并將這些文本從集合P中全 部刪除,即如果simddj)大于相似度a,則P=P-{ai}且Del=DelU{aj; 6) 當集合P為空且i小于類數(shù)量K時,將Del中所有的文本放入到集合P中并且將Del 置為空,即P=Del,清空Del; 7) 循環(huán)執(zhí)行步驟3)-步驟6),直到滿足終止條件i=K,輸出初始中心點集合I。
【專利摘要】本發(fā)明提供了一種互聯(lián)網(wǎng)數(shù)據(jù)提取系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)采集模塊,用于對用戶在互聯(lián)網(wǎng)中發(fā)布的內(nèi)容進行采集;數(shù)據(jù)預處理模塊,用于對采集的網(wǎng)絡文本進行預處理,包括根據(jù)用戶等級進行噪聲過濾、文本分詞、停用詞過濾、權值計算、矢量表示和特征提取;話題歸類模塊,用于在預處理后的數(shù)據(jù)中基于話題之間的相似度進行歸類;話題頻度計算模塊,用于對歸類之后的話題群,結合網(wǎng)絡屬性信息和用戶等級,計算話題頻度值。本發(fā)明提出了一種互聯(lián)網(wǎng)數(shù)據(jù)提取系統(tǒng),對互聯(lián)網(wǎng)輿情進行多維監(jiān)測,有效采集和分析出敏感信息,提高了查準率和查全率。
【IPC分類】G06F17-30
【公開號】CN104809252
【申請?zhí)枴緾N201510257882
【發(fā)明人】張鵬
【申請人】成都布林特信息技術有限公司
【公開日】2015年7月29日
【申請日】2015年5月20日