一種快速的新聞文本內(nèi)容情感分析系統(tǒng)及方法與流程

文檔序號：11545101閱讀：3585來源：國知局

本發(fā)明涉及一種新聞資訊領(lǐng)域，具體涉及一種快速的新聞文本內(nèi)容情感分析系統(tǒng)及方法。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)絡(luò)輿情對社會的影響力越來越大。不管是政府網(wǎng)絡(luò)輿情監(jiān)控的需要，還是企業(yè)在進行品牌傳播及品牌公關(guān)的需要，如何在大量的輿情的條件下，快速地分析輿情的情感傾向，以及時地進行決策支持和輿情引導，響應(yīng)快速變化的輿論環(huán)境，是輿情分析中迫切需要解決的問題。以往的情感分析，需要進行復雜的分析，在應(yīng)對大量的輿情條件下，無法做到低延遲處理。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種新聞用戶情感分析系統(tǒng)，在面對大量輿情場景下，快速進行情感指數(shù)計算的方法。

本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的：

一種快速的新聞文本內(nèi)容情感分析系統(tǒng)，包括以下模塊：

新聞抓取模塊：用于從新聞門戶、論壇及微博上抓取新聞文檔，其中包括對文本進行初步去重處理；

新聞文本初步處理模塊：用于對文本進行初步文本特征處理，包括分詞、去停用詞、對否定式短語進行額外標注；

新聞文本情感計算模塊：包括textrank計算、分詞情感計算、對計算值進行歸一化處理、綜合計算得到文檔的情感指數(shù)；

數(shù)據(jù)存儲模塊：存儲計算后的結(jié)果。

一種快速的新聞文本內(nèi)容情感分析方法，包括如下步驟：

s01：從互聯(lián)網(wǎng)新聞門戶、論壇及微博爬取新聞，對文本去重；

s02：抽取文本信息，主要是來源、作者、標題、正文等信息；

s03：對標題、正文進行分詞，去掉停用詞；

s04：使用textrank計算每個詞的權(quán)重；

s05：同時根據(jù)情感詞典，得到每個詞的情感傾向及情感強度s；

s06：最后將詞的權(quán)重與詞的情感強度相乘，計算總和，進行歸一化處理，從而得到文檔的情感指數(shù)。

進一步的，所述的驟s04所述的使用textrank計算每個詞的權(quán)重，具體包括

給標題的詞語額外加權(quán)，加權(quán)算法為wt=n×wd，其中，wt表示標題分詞，wd表示正文分詞取值范圍是[0,100]），n表示加權(quán)權(quán)重權(quán)重范圍值是多少[2,10]；

對分詞進行詞性過濾，只保留名詞性和動詞性分詞；

使用textrank算法計算每個詞的權(quán)重；

對計算結(jié)果進行歸一化處理，歸一化的計算方式為wt=wt/(max(wt)+1)。其中，wt表示有textrank計算的詞權(quán)重，max(wt)表示該文檔中最大的權(quán)重。

更進一步的，所述的步驟s06中根據(jù)分詞計算文檔的情感指數(shù)，具體計算方式為

sd=∑(wt×st)×c/n

其中，sd表示文檔的情感指數(shù)，wt表示每個分詞的權(quán)重，st表示每個分詞的情感指數(shù)該指數(shù)值范圍是[-100,100]，c是一個常數(shù)范圍值是多少[1,5]，n表示該文檔內(nèi)，單詞的數(shù)量

本發(fā)明的有益效果是：本發(fā)明只需經(jīng)過簡單的文本處理和計算就可以得到相應(yīng)的情感指數(shù)分析結(jié)果，解決了在面對大量輿情條件下的低延遲處理。

附圖說明

圖1為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖；

圖2為本發(fā)明的方法流程圖。

具體實施方式

下面結(jié)合附圖進一步詳細描述本發(fā)明的技術(shù)方案，但本發(fā)明的保護范圍不局限于以下所述。

如圖1所示，

一種快速的新聞文本內(nèi)容情感分析系統(tǒng)，包括以下模塊：

新聞抓取模塊：用于從新聞門戶、論壇及微博上抓取新聞文檔，其中包括對文本進行初步去重處理；

新聞文本初步處理模塊：用于對文本進行初步文本特征處理，包括分詞、去停用詞、對否定式短語進行額外標注；

新聞文本情感計算模塊：包括textrank計算、分詞情感計算、對計算值進行歸一化處理、綜合計算得到文檔的情感指數(shù)；

數(shù)據(jù)存儲模塊：存儲計算后的結(jié)果。

如圖2所示：

一種快速的新聞文本內(nèi)容情感分析方法，包括如下步驟：

s01：從互聯(lián)網(wǎng)新聞門戶、論壇及微博爬取新聞，對文本去重；

s02：抽取文本信息，主要是來源、作者、標題、正文等信息；

s03：對標題、正文進行分詞，去掉停用詞；

s04：使用textrank計算每個詞的權(quán)重；

s05：同時根據(jù)情感詞典，得到每個詞的情感傾向及情感強度；

s06：最后將詞的權(quán)重與詞的情感強度相乘，計算總和，進行歸一化處理，從而得到文檔的情感指數(shù)。

具體的操作是首先抓取文本，去重處理，抽取文本信息，包括來源、日期、標題、正文、作者等信息，緊接著對標題、正文進行分詞處理，然后從兩方面進行處理；一是使用textrank計算每個詞的權(quán)重，并做歸一化處理，二是通過查字典，獲得每個詞的情感傾向與情感強度s（情感強度s的取值是如何的提高具體數(shù)值范圍）。

所述的驟s04所述的使用textrank計算每個詞的權(quán)重，具體包括

給標題的詞語額外加權(quán)，加權(quán)算法為wt=n×wd，其中，wt表示標題分詞，wd表示正文分詞取值范圍是[0,100]，n表示加權(quán)權(quán)重權(quán)重范圍值是[2,10]；

對分詞進行詞性過濾，只保留名詞性和動詞性分詞；

使用textrank算法計算每個詞的權(quán)重；

對計算結(jié)果進行歸一化處理，歸一化的計算方式為wt=wt/(max(wt)+1)。其中，wt表示有textrank計算的詞權(quán)重，max(wt)表示該文檔中最大的權(quán)重。

所述的步驟s06中根據(jù)分詞計算文檔的情感指數(shù)，具體計算方式為

sd=∑(wt×st)×c/n

其中，sd表示文檔的情感指數(shù)，wt表示每個分詞的權(quán)重，st表示每個分詞的情感指數(shù)該指數(shù)值范圍是[-100,100]，c是一個常數(shù)范圍值是[1,5]，n表示該文檔內(nèi)，單詞的數(shù)量。

以上所述僅是本發(fā)明的優(yōu)選實施方式，應(yīng)當理解本發(fā)明并非局限于本文所披露的形式，不應(yīng)看作是對其他實施例的排除，而可用于各種其他組合、修改和環(huán)境，并能夠在本文所述構(gòu)想范圍內(nèi)，通過上述教導或相關(guān)領(lǐng)域的技術(shù)或知識進行改動。而本領(lǐng)域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍，則都應(yīng)在本發(fā)明所附權(quán)利要求的保護范圍內(nèi)。

技術(shù)特征：

技術(shù)總結(jié)
本發(fā)明公開了一種快速的新聞文本內(nèi)容情感分析系統(tǒng)及方法包括以下模塊：新聞抓取模塊：用于從新聞門戶、論壇及微博上抓取新聞文檔，其中包括對文本進行初步去重處理；新聞文本初步處理模塊：用于對文本進行初步文本特征處理，包括分詞、去停用詞、對否定式短語進行額外標注；新聞文本情感計算模塊：包括TextRank計算、分詞情感計算、對計算值進行歸一化處理、綜合計算得到文檔的情感指數(shù)；數(shù)據(jù)存儲模塊：存儲計算后的結(jié)果。本發(fā)明能在面對大量輿情場景下，快速進行情感指數(shù)計算。

技術(shù)研發(fā)人員：余軍;盧品吟;劉盾;張汨
受保護的技術(shù)使用者：成都華棲云科技有限公司
技術(shù)研發(fā)日：2017.05.04
技術(shù)公布日：2017.08.15

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余軍;盧品吟;劉盾;張汨;
技術(shù)所有人：成都華棲云科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本情感分析相關(guān)技術(shù)

python做文本情感分析相關(guān)技術(shù)

細粒度情感文本分析相關(guān)技術(shù)

中文文本情感分析相關(guān)技術(shù)

短文本情感分析相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種快速的新聞文本內(nèi)容情感分析系統(tǒng)及方法與流程