亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種快速的新聞文本內(nèi)容情感分析系統(tǒng)及方法與流程

文檔序號:11545101閱讀:3585來源:國知局
一種快速的新聞文本內(nèi)容情感分析系統(tǒng)及方法與流程

本發(fā)明涉及一種新聞資訊領(lǐng)域,具體涉及一種快速的新聞文本內(nèi)容情感分析系統(tǒng)及方法。



背景技術(shù):

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)輿情對社會的影響力越來越大。不管是政府網(wǎng)絡(luò)輿情監(jiān)控的需要,還是企業(yè)在進行品牌傳播及品牌公關(guān)的需要,如何在大量的輿情的條件下,快速地分析輿情的情感傾向,以及時地進行決策支持和輿情引導,響應(yīng)快速變化的輿論環(huán)境,是輿情分析中迫切需要解決的問題。以往的情感分析,需要進行復雜的分析,在應(yīng)對大量的輿情條件下,無法做到低延遲處理。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種新聞用戶情感分析系統(tǒng),在面對大量輿情場景下,快速進行情感指數(shù)計算的方法。

本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:

一種快速的新聞文本內(nèi)容情感分析系統(tǒng),包括以下模塊:

新聞抓取模塊:用于從新聞門戶、論壇及微博上抓取新聞文檔,其中包括對文本進行初步去重處理;

新聞文本初步處理模塊:用于對文本進行初步文本特征處理,包括分詞、去停用詞、對否定式短語進行額外標注;

新聞文本情感計算模塊:包括textrank計算、分詞情感計算、對計算值進行歸一化處理、綜合計算得到文檔的情感指數(shù);

數(shù)據(jù)存儲模塊:存儲計算后的結(jié)果。

一種快速的新聞文本內(nèi)容情感分析方法,包括如下步驟:

s01:從互聯(lián)網(wǎng)新聞門戶、論壇及微博爬取新聞,對文本去重;

s02:抽取文本信息,主要是來源、作者、標題、正文等信息;

s03:對標題、正文進行分詞,去掉停用詞;

s04:使用textrank計算每個詞的權(quán)重;

s05:同時根據(jù)情感詞典,得到每個詞的情感傾向及情感強度s;

s06:最后將詞的權(quán)重與詞的情感強度相乘,計算總和,進行歸一化處理,從而得到文檔的情感指數(shù)。

進一步的,所述的驟s04所述的使用textrank計算每個詞的權(quán)重,具體包括

給標題的詞語額外加權(quán),加權(quán)算法為wt=n×wd,其中,wt表示標題分詞,wd表示正文分詞取值范圍是[0,100]),n表示加權(quán)權(quán)重權(quán)重范圍值是多少[2,10];

對分詞進行詞性過濾,只保留名詞性和動詞性分詞;

使用textrank算法計算每個詞的權(quán)重;

對計算結(jié)果進行歸一化處理,歸一化的計算方式為wt=wt/(max(wt)+1)。其中,wt表示有textrank計算的詞權(quán)重,max(wt)表示該文檔中最大的權(quán)重。

更進一步的,所述的步驟s06中根據(jù)分詞計算文檔的情感指數(shù),具體計算方式為

sd=∑(wt×st)×c/n

其中,sd表示文檔的情感指數(shù),wt表示每個分詞的權(quán)重,st表示每個分詞的情感指數(shù)該指數(shù)值范圍是[-100,100],c是一個常數(shù)范圍值是多少[1,5],n表示該文檔內(nèi),單詞的數(shù)量

本發(fā)明的有益效果是:本發(fā)明只需經(jīng)過簡單的文本處理和計算就可以得到相應(yīng)的情感指數(shù)分析結(jié)果,解決了在面對大量輿情條件下的低延遲處理。

附圖說明

圖1為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖;

圖2為本發(fā)明的方法流程圖。

具體實施方式

下面結(jié)合附圖進一步詳細描述本發(fā)明的技術(shù)方案,但本發(fā)明的保護范圍不局限于以下所述。

如圖1所示,

一種快速的新聞文本內(nèi)容情感分析系統(tǒng),包括以下模塊:

新聞抓取模塊:用于從新聞門戶、論壇及微博上抓取新聞文檔,其中包括對文本進行初步去重處理;

新聞文本初步處理模塊:用于對文本進行初步文本特征處理,包括分詞、去停用詞、對否定式短語進行額外標注;

新聞文本情感計算模塊:包括textrank計算、分詞情感計算、對計算值進行歸一化處理、綜合計算得到文檔的情感指數(shù);

數(shù)據(jù)存儲模塊:存儲計算后的結(jié)果。

如圖2所示:

一種快速的新聞文本內(nèi)容情感分析方法,包括如下步驟:

s01:從互聯(lián)網(wǎng)新聞門戶、論壇及微博爬取新聞,對文本去重;

s02:抽取文本信息,主要是來源、作者、標題、正文等信息;

s03:對標題、正文進行分詞,去掉停用詞;

s04:使用textrank計算每個詞的權(quán)重;

s05:同時根據(jù)情感詞典,得到每個詞的情感傾向及情感強度;

s06:最后將詞的權(quán)重與詞的情感強度相乘,計算總和,進行歸一化處理,從而得到文檔的情感指數(shù)。

具體的操作是首先抓取文本,去重處理,抽取文本信息,包括來源、日期、標題、正文、作者等信息,緊接著對標題、正文進行分詞處理,然后從兩方面進行處理;一是使用textrank計算每個詞的權(quán)重,并做歸一化處理,二是通過查字典,獲得每個詞的情感傾向與情感強度s(情感強度s的取值是如何的提高具體數(shù)值范圍)。

所述的驟s04所述的使用textrank計算每個詞的權(quán)重,具體包括

給標題的詞語額外加權(quán),加權(quán)算法為wt=n×wd,其中,wt表示標題分詞,wd表示正文分詞取值范圍是[0,100],n表示加權(quán)權(quán)重權(quán)重范圍值是[2,10];

對分詞進行詞性過濾,只保留名詞性和動詞性分詞;

使用textrank算法計算每個詞的權(quán)重;

對計算結(jié)果進行歸一化處理,歸一化的計算方式為wt=wt/(max(wt)+1)。其中,wt表示有textrank計算的詞權(quán)重,max(wt)表示該文檔中最大的權(quán)重。

所述的步驟s06中根據(jù)分詞計算文檔的情感指數(shù),具體計算方式為

sd=∑(wt×st)×c/n

其中,sd表示文檔的情感指數(shù),wt表示每個分詞的權(quán)重,st表示每個分詞的情感指數(shù)該指數(shù)值范圍是[-100,100],c是一個常數(shù)范圍值是[1,5],n表示該文檔內(nèi),單詞的數(shù)量。

以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述構(gòu)想范圍內(nèi),通過上述教導或相關(guān)領(lǐng)域的技術(shù)或知識進行改動。而本領(lǐng)域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護范圍內(nèi)。



技術(shù)特征:

技術(shù)總結(jié)
本發(fā)明公開了一種快速的新聞文本內(nèi)容情感分析系統(tǒng)及方法包括以下模塊:新聞抓取模塊:用于從新聞門戶、論壇及微博上抓取新聞文檔,其中包括對文本進行初步去重處理;新聞文本初步處理模塊:用于對文本進行初步文本特征處理,包括分詞、去停用詞、對否定式短語進行額外標注;新聞文本情感計算模塊:包括TextRank計算、分詞情感計算、對計算值進行歸一化處理、綜合計算得到文檔的情感指數(shù);數(shù)據(jù)存儲模塊:存儲計算后的結(jié)果。本發(fā)明能在面對大量輿情場景下,快速進行情感指數(shù)計算。

技術(shù)研發(fā)人員:余軍;盧品吟;劉盾;張汨
受保護的技術(shù)使用者:成都華棲云科技有限公司
技術(shù)研發(fā)日:2017.05.04
技術(shù)公布日:2017.08.15
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1