本發(fā)明涉及一種新聞資訊領(lǐng)域,具體涉及一種快速的新聞文本內(nèi)容情感分析系統(tǒng)及方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)輿情對社會的影響力越來越大。不管是政府網(wǎng)絡(luò)輿情監(jiān)控的需要,還是企業(yè)在進行品牌傳播及品牌公關(guān)的需要,如何在大量的輿情的條件下,快速地分析輿情的情感傾向,以及時地進行決策支持和輿情引導,響應(yīng)快速變化的輿論環(huán)境,是輿情分析中迫切需要解決的問題。以往的情感分析,需要進行復雜的分析,在應(yīng)對大量的輿情條件下,無法做到低延遲處理。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種新聞用戶情感分析系統(tǒng),在面對大量輿情場景下,快速進行情感指數(shù)計算的方法。
本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:
一種快速的新聞文本內(nèi)容情感分析系統(tǒng),包括以下模塊:
新聞抓取模塊:用于從新聞門戶、論壇及微博上抓取新聞文檔,其中包括對文本進行初步去重處理;
新聞文本初步處理模塊:用于對文本進行初步文本特征處理,包括分詞、去停用詞、對否定式短語進行額外標注;
新聞文本情感計算模塊:包括textrank計算、分詞情感計算、對計算值進行歸一化處理、綜合計算得到文檔的情感指數(shù);
數(shù)據(jù)存儲模塊:存儲計算后的結(jié)果。
一種快速的新聞文本內(nèi)容情感分析方法,包括如下步驟:
s01:從互聯(lián)網(wǎng)新聞門戶、論壇及微博爬取新聞,對文本去重;
s02:抽取文本信息,主要是來源、作者、標題、正文等信息;
s03:對標題、正文進行分詞,去掉停用詞;
s04:使用textrank計算每個詞的權(quán)重;
s05:同時根據(jù)情感詞典,得到每個詞的情感傾向及情感強度s;
s06:最后將詞的權(quán)重與詞的情感強度相乘,計算總和,進行歸一化處理,從而得到文檔的情感指數(shù)。
進一步的,所述的驟s04所述的使用textrank計算每個詞的權(quán)重,具體包括
給標題的詞語額外加權(quán),加權(quán)算法為wt=n×wd,其中,wt表示標題分詞,wd表示正文分詞取值范圍是[0,100]),n表示加權(quán)權(quán)重權(quán)重范圍值是多少[2,10];
對分詞進行詞性過濾,只保留名詞性和動詞性分詞;
使用textrank算法計算每個詞的權(quán)重;
對計算結(jié)果進行歸一化處理,歸一化的計算方式為wt=wt/(max(wt)+1)。其中,wt表示有textrank計算的詞權(quán)重,max(wt)表示該文檔中最大的權(quán)重。
更進一步的,所述的步驟s06中根據(jù)分詞計算文檔的情感指數(shù),具體計算方式為
sd=∑(wt×st)×c/n
其中,sd表示文檔的情感指數(shù),wt表示每個分詞的權(quán)重,st表示每個分詞的情感指數(shù)該指數(shù)值范圍是[-100,100],c是一個常數(shù)范圍值是多少[1,5],n表示該文檔內(nèi),單詞的數(shù)量
本發(fā)明的有益效果是:本發(fā)明只需經(jīng)過簡單的文本處理和計算就可以得到相應(yīng)的情感指數(shù)分析結(jié)果,解決了在面對大量輿情條件下的低延遲處理。
附圖說明
圖1為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖;
圖2為本發(fā)明的方法流程圖。
具體實施方式
下面結(jié)合附圖進一步詳細描述本發(fā)明的技術(shù)方案,但本發(fā)明的保護范圍不局限于以下所述。
如圖1所示,
一種快速的新聞文本內(nèi)容情感分析系統(tǒng),包括以下模塊:
新聞抓取模塊:用于從新聞門戶、論壇及微博上抓取新聞文檔,其中包括對文本進行初步去重處理;
新聞文本初步處理模塊:用于對文本進行初步文本特征處理,包括分詞、去停用詞、對否定式短語進行額外標注;
新聞文本情感計算模塊:包括textrank計算、分詞情感計算、對計算值進行歸一化處理、綜合計算得到文檔的情感指數(shù);
數(shù)據(jù)存儲模塊:存儲計算后的結(jié)果。
如圖2所示:
一種快速的新聞文本內(nèi)容情感分析方法,包括如下步驟:
s01:從互聯(lián)網(wǎng)新聞門戶、論壇及微博爬取新聞,對文本去重;
s02:抽取文本信息,主要是來源、作者、標題、正文等信息;
s03:對標題、正文進行分詞,去掉停用詞;
s04:使用textrank計算每個詞的權(quán)重;
s05:同時根據(jù)情感詞典,得到每個詞的情感傾向及情感強度;
s06:最后將詞的權(quán)重與詞的情感強度相乘,計算總和,進行歸一化處理,從而得到文檔的情感指數(shù)。
具體的操作是首先抓取文本,去重處理,抽取文本信息,包括來源、日期、標題、正文、作者等信息,緊接著對標題、正文進行分詞處理,然后從兩方面進行處理;一是使用textrank計算每個詞的權(quán)重,并做歸一化處理,二是通過查字典,獲得每個詞的情感傾向與情感強度s(情感強度s的取值是如何的提高具體數(shù)值范圍)。
所述的驟s04所述的使用textrank計算每個詞的權(quán)重,具體包括
給標題的詞語額外加權(quán),加權(quán)算法為wt=n×wd,其中,wt表示標題分詞,wd表示正文分詞取值范圍是[0,100],n表示加權(quán)權(quán)重權(quán)重范圍值是[2,10];
對分詞進行詞性過濾,只保留名詞性和動詞性分詞;
使用textrank算法計算每個詞的權(quán)重;
對計算結(jié)果進行歸一化處理,歸一化的計算方式為wt=wt/(max(wt)+1)。其中,wt表示有textrank計算的詞權(quán)重,max(wt)表示該文檔中最大的權(quán)重。
所述的步驟s06中根據(jù)分詞計算文檔的情感指數(shù),具體計算方式為
sd=∑(wt×st)×c/n
其中,sd表示文檔的情感指數(shù),wt表示每個分詞的權(quán)重,st表示每個分詞的情感指數(shù)該指數(shù)值范圍是[-100,100],c是一個常數(shù)范圍值是[1,5],n表示該文檔內(nèi),單詞的數(shù)量。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述構(gòu)想范圍內(nèi),通過上述教導或相關(guān)領(lǐng)域的技術(shù)或知識進行改動。而本領(lǐng)域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護范圍內(nèi)。