互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)采集與分析,特別涉及一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)。
【背景技術(shù)】
[0002] 與原有傳統(tǒng)互聯(lián)網(wǎng)形態(tài)相比,當今的互聯(lián)網(wǎng)形態(tài)已經(jīng)發(fā)生了巨變,隨身移動設備 的不斷推新,人們已經(jīng)脫離了老式臺式機的傳統(tǒng)有線上網(wǎng)模式,移動設備的功能層出不窮, 拍照、拍攝視頻已經(jīng)是最基本的功能。人們可以通過移動設備拍攝周圍發(fā)生的事情,并且可 以直接上傳到互聯(lián)網(wǎng)中,其信息的傳播速度迅速之極,如果沒有合理進行監(jiān)測,可能會出現(xiàn) 非法信息,錯誤引導公眾的判斷,導致輿論走向錯誤的方向。在在輿情檢測中,數(shù)據(jù)采集功 能尤為重要,所有數(shù)據(jù)在采集后,因為數(shù)據(jù)量極大,需要借助技術(shù)手段,在有限的時間內(nèi),分 析出有用的數(shù)據(jù)。然而現(xiàn)有的信息監(jiān)測系統(tǒng)僅應用單一的采集方式,只能滿足某種特定的 信息分析,不能滿足現(xiàn)在互聯(lián)網(wǎng)中多元化信息分析的需求。
【發(fā)明內(nèi)容】
[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),包 括:
[0004] 相關(guān)性計算模塊,用于將隨機選擇的被選待識別文本和剩余的待識別文本分別作 為觀測序列和狀態(tài)序列,計算被選待識別文本和其余待識別文本間的相關(guān)性概率值;
[0005] 分類和識別模塊,用于將狀態(tài)序列中相關(guān)性最高的文本和被選待識別文本合并, 表征為第一類型,同時將相關(guān)性最低的文本作為第二類型;將第一和第二類型作為新的狀 態(tài)序列,將剩余的待識別文本作為新的觀測序列進行迭代,以實現(xiàn)敏感詞匯的識別。
[0006] 優(yōu)選地,所述相關(guān)性計算模塊進一步包括:
[0007] 文本表示模塊,用于將待識別文本表示為矢量空間模型;其中,所有待識別文本表 示為T n= {tpW^tyW^…;ti,wj,特征詞同時出現(xiàn)在待識別文本和詞庫中,計算其權(quán) 重&并為該權(quán)重引入敏感系數(shù)0 i:
【主權(quán)項】
1. 一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),其特征在于,包括: 相關(guān)性計算模塊,用于將隨機選擇的被選待識別文本和剩余的待識別文本分別作為觀 測序列和狀態(tài)序列,計算被選待識別文本和其余待識別文本間的相關(guān)性概率值; 分類和識別模塊,用于將狀態(tài)序列中相關(guān)性最高的文本和被選待識別文本合并,表征 為第一類型,同時將相關(guān)性最低的文本作為第二類型;將第一和第二類型作為新的狀態(tài)序 列,將剩余的待識別文本作為新的觀測序列進行迭代,以實現(xiàn)敏感詞匯的識別。
2. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述相關(guān)性計算模塊進一步包括: 文本表示模塊,用于將待識別文本表示為矢量空間模型;其中,所有待識別文本表示為 Tn={t^w1;t2,w2;…;ti,wj,特征詞心同時出現(xiàn)在待識別文本和詞庫中,計算其權(quán)重wi并為該權(quán)重引入敏感系數(shù)0i:
其中:tfni表示第n個文檔中關(guān)鍵詞ti出現(xiàn)的頻率;K表示總文檔數(shù);ki表示含有關(guān)鍵 詞h的文檔數(shù),并且敏感系數(shù)0i表示為: i=-P(Cm)logP(Cm)+P(tt |Cm)logP(tt |Cm)+P(t?i|Cm)logP(t?i|Cm) 其中:表示屬于第m類敏感詞匯的文本數(shù);P(t」CJ表示屬于第m類敏感詞匯并 包含關(guān)鍵詞h的文本數(shù);P(t'」(;)表示屬于第m類敏感詞匯但不包含關(guān)鍵詞&的文本數(shù)。
3. 根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述相關(guān)性計算模塊進一步用于: 將yi,y2,…,yn作為敏感詞匯類型特征,y={y1,yy…,yJ作為矢量空間模型表示 的一個敏感詞匯的類型;將XpX2,…,待識別文本的特征,X= {Xi,X2,…,xj是用矢 量空間模型表示的一個待識別文本,觀測序列X對應參數(shù)集合A={Ai,…,Aj}的指定 狀態(tài)y的條件概率為:
其中4為特征函數(shù)J 通過訓練得到的特征函數(shù)的權(quán)值;Z(x)為正則化系數(shù),并 且:
4. 根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于,所述分類和識別模塊進一步配置為: 從K個待識別文本中隨機挑出1個作為觀測輸入序列s,剩余的K-1個待識別文本作為K-1個輸出類狀態(tài)列,計算輸入序列中的文檔和輸出序列中文檔之間的概率值,直到識別出 所有敏感詞匯的類型: a) 將得到的K-1個概率值排序,最大概率值所對應的文本與輸入觀測序列中的文本歸 并為一類并記做類Q,同時將最小概率值對應的文本記做類C2; b) 將剩余的K-3個待識別文本作為輸入觀測序列,CdPC2作為輸出類狀態(tài)列,這樣得 到待識別文本隸屬于CdPC2類的兩個概率值; C)對每個待識別文本與輸出類狀態(tài)列的各個概率值求方差并排序; d) 查看最小方差值所對應的文本的所有概率值,若其中最小的概率值小于某一閾值 9,則將其作為一個新的類C3;否則,查看方差值位于第二位的文本,直到找到概率值小于 閾值9的文本,同時將最大方差值所對應的文本歸并到最大概率所對應的類型; e) 重復步驟b)~d),直到所有的文本都被歸類。
【專利摘要】本發(fā)明提供了一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),該系統(tǒng)包括:相關(guān)性計算模塊,用于將隨機選擇的被選待識別文本和剩余的待識別文本分別作為觀測序列和狀態(tài)序列,計算被選待識別文本和其余待識別文本間的相關(guān)性概率值;分類和識別模塊,用于將狀態(tài)序列中相關(guān)性最高的文本和被選待識別文本合并,表征為第一類型,同時將相關(guān)性最低的文本作為第二類型;將第一和第二類型作為新的狀態(tài)序列,將剩余的待識別文本作為新的觀測序列進行迭代,以實現(xiàn)敏感詞匯的識別。本發(fā)明提出了一種信息監(jiān)測分析系統(tǒng),對互聯(lián)網(wǎng)輿情進行多維監(jiān)測,有效采集和分析出敏感信息,提高了查準率和查全率。
【IPC分類】G06F17-30, G06F17-27
【公開號】CN104809253
【申請?zhí)枴緾N201510257964
【發(fā)明人】張鵬
【申請人】成都布林特信息技術(shù)有限公司
【公開日】2015年7月29日
【申請日】2015年5月20日