本發(fā)明涉及輿情監(jiān)控技術領域,尤其涉及一種輿情監(jiān)控分析方法
背景技術:
國內的網絡輿情研究始于2005年,目前已成為相關學科領域專家的關注熱點,方興未艾。目前的輿情研究多以群體事件、司法事件或政治事件為研究著力點,面向公共輿情為主。
以微博、博客、社交網絡、即時通訊系統(tǒng)為代表的自媒體(We Media)打破信息的控制和壟斷,在網絡上人們自由表達自己的態(tài)度和意見,不再像過去那么容易地無條件接受,相反,不同階層的利益訴求紛紛呈現,不同思想觀點正面碰撞。在這種情況下,建設能夠覆蓋多數據源的輿情監(jiān)測系統(tǒng)十分必要,此類系統(tǒng)可針對新的媒介傳播環(huán)境,進一步溧入研究輿情的熱點研判方法以及自媒體帶來的影響,對輿情研究進行豐富和完善。
技術實現要素:
基于背景技術存在的技術問題,本發(fā)明提出了一種輿情監(jiān)控分析方法
本發(fā)明提出的一種輿情監(jiān)控分析方法,包括以下步驟:
S1、根據主題收集網絡信息;
S2、提取網絡信息關鍵詞,并根據關鍵詞對網絡信息進行歸類獲得多個信息類;
S3、根據關鍵詞為各信息類賦予一個情感傾向值AD;
S4、獲取各信息類中各網絡信息來源網站的信用值,并計算各信息類中信用值之和作為類信權值T;
S5、預設情感評估模型;
S6、將情感傾向值和類信權值代入情感評估模型計算各信息類的情感值E;
S7、將各信息類的情感值相加獲得主題情感值。
優(yōu)選地,步驟S2具體為:提取網絡信息關鍵詞,并將關鍵詞相同的網絡信息進行歸類,獲得多個信息類。
優(yōu)選地,步驟S3具體包括以下步驟:
S31、判斷信息類對應的關鍵詞詞性;
S32、根據關鍵詞中褒義詞個數與貶義詞個數的比值評估情感傾向值AD。
優(yōu)選地,步驟S32具體為:
當褒義詞個數大于貶義詞個數,
當貶義詞個數大于褒義詞個數,
當貶義詞個數等于褒義詞個數,AD=0。
優(yōu)選地,步驟S4中獲取各信息類中各網絡信息來源網站的信用值的方法包括以下步驟:
S41、預設網站信用測評模型;
S42、從待測評網站隨機選取多條真實度已知的信息,并根據真實度為各已知信息賦予真實程度值;
S43、將各已知信息的真實程度值代入網站信用測評模型計算網站信用值T。
優(yōu)選地,網站信用測評模型為:T=(t1+t2L+tn)/n,其中,t1、t2……tn分別為該網站中隨機挑選的n條真實度已確認的信息對應的真實程度值。
優(yōu)選地,n≥3。
優(yōu)選地,n=10。
優(yōu)選地,步驟S5中,情感評估模型為E=AD×T。
本發(fā)明一種輿情監(jiān)控分析方法,對搜尋到的每一條網絡信息提取不少于一個關鍵詞,然后將關鍵詞相同的網絡信息進行歸類,從而獲得多個信息類。如此,通過對網絡信息進行歸類避免了對每一條網絡信息進行分析的繁瑣與冗余工作,通過對信息類的情感傾向分析,即保證了情感評估的可靠性,又提高了工作效率。
本發(fā)明中,引入各網絡信息來源網站的信用值,從而為后續(xù)的輿情判斷增加了一個誠信參量,有利于提高輿情判斷結果的可信程度。
本發(fā)明中,首先計算各信息類的情感值,然后以各信息類的情感值為基礎計算根據預設的主題搜索到的所有網絡信息整體的情感傾向即主題情感值。即通過化繁為簡的方式,使得網絡信息的整體情感傾向的分析明確化、具體化,有利于提高輿情監(jiān)控的可靠性。
附圖說明
圖1為本發(fā)明提出的一種輿情監(jiān)控分析方法流程圖;
圖2為獲取各信息類中各網絡信息來源網站的信用值流程圖;
圖3為本發(fā)明提出的一種輿情監(jiān)控分析系統(tǒng)框圖。
具體實施方式
參照圖1,本發(fā)明提出的一種輿情監(jiān)控分析方法,包括以下步驟。
S1、根據主題收集網絡信息。本步驟中,由工作人員輸入主題,然后由預設網絡爬蟲根據主題在網絡中搜尋信息。本實施方式中,以網絡數據為庫進行主題檢索,有利于保證信息搜尋的全面性。
S2、提取網絡信息關鍵詞,并根據關鍵詞對網絡信息進行歸類獲得多個信息類。本步驟中,具體地,對搜尋到的每一條網絡信息提取不少于一個關鍵詞,然后將關鍵詞相同的網絡信息進行歸類,從而獲得多個信息類。本實施方式中,每一個信息類中包含至少一條網絡信息,為了便于信息類之間的區(qū)別,各信息類以關鍵詞進行標注。
S31、判斷信息類對應的關鍵詞詞性,即判斷關鍵詞為褒義詞還是貶義詞。
S32、根據關鍵詞中褒義詞個數與貶義詞個數的比值評估情感傾向值AD。
具體地,當褒義詞個數大于貶義詞個數,
當貶義詞個數大于褒義詞個數,
當貶義詞個數等于褒義詞個數,AD=0。
本實施方式中,根據關鍵詞為各信息類賦予一個情感傾向值AD,情感傾向值AD可直接反應信息類中包含的網絡信息的情感傾向。如此,通過對網絡信息進行歸類避免了對每一條網絡信息進行分析的繁瑣與冗余工作,通過對信息類的情感傾向分析,即保證了情感評估的可靠性,又提高了工作效率。
S4、獲取各信息類中各網絡信息來源網站的信用值,并計算各信息類中信用值之和作為類信權值T。
本實施方式中,引入各網絡信息來源網站的信用值,從而為后續(xù)的輿情判斷增加了一個誠信參量,有利于提高輿情判斷結果的可信程度。
參照圖2,本實施方式中,獲取各信息類中各網絡信息來源網站的信用值的方法包括以下步驟。
S41、預設網站信用測評模型。本實施方式中,網站信用測評模型為:T=(t1+t2L+tn)/n,其中,t1、t2……tn分別為該網站中隨機挑選的n條真實度已確認的信息對應的真實程度值。
S42、從待測評網站隨機選取多條真實度已知的信息,并根據真實度為各已知信息賦予真實程度值。
S43、將各已知信息的真實程度值代入網站信用測評模型計算網站信用值T。
本實施方式中,結合網站上已知真實度的信息對網站的信用值進行判斷,提高了對各網站信用判斷的掌控力度和靈活性,有利于適應網絡的快速變化。
本實施方式中,n的取值越大,獲得的信用值T可信度越高。具體實施時,可取n≥3,例如,n=10。
S5、預設情感評估模型。本實施方式中,情感評估模型為E=AD×T。
S6、將情感傾向值和類信權值代入情感評估模型計算各信息類的情感值E。
S7、將各信息類的情感值相加獲得主題情感值。
本實施方式中,首先計算各信息類的情感值,然后以各信息類的情感值為基礎計算根據預設的主題搜索到的所有網絡信息整體的情感傾向即主題情感值。即通過化繁為簡的方式,使得網絡信息的整體情感傾向的分析明確化、具體化,有利于提高輿情監(jiān)控的可靠性。
以下結合一種具體地輿情監(jiān)控分析系統(tǒng)對以上方法做進一步說明。
參照圖3,該系統(tǒng)包括:網絡信息收集模塊、網站信用評估模塊、網絡信息整理模塊、信用計算排序模塊、輿情傾向分析模塊和評估結果輸出模塊。
網絡信息收集模塊用于根據預設的主題收集網絡信息。具體地,主題由工作人員手動輸入,或者,網絡信息收集模塊根據工作人員輸入的信息進行簡化提取主題。
網站信用評估模塊,其內部預設有網站信用測評模型,且用于根據網站信用測評模型對各個網站進行評估并賦予信用值。本實施方式中,信用值可根據該網站上發(fā)布的已經進行真實程度確認的信息進行評估。例如,可從該網站隨機選取10條已經確認了真實程度值的信息評估網站信用值,該網站信用值為該10條信息真實程度值得均值。
結合以上實施例,本實施方式中,網站信用測評模型可設置為:T=(t1+t2L+tn)/n,其中,t1、t2……tn分別為該網站中隨機挑選的n條真實度已確認的信息對應的真實程度值。本實施方式中,選取n=10,具體實施時,n取值越大,網站的信用值越具有代表性。故而,為了避免信用值可信度過低,本實施方式中,限定n≥3。
網絡信息整理模塊與網絡信息收集模塊連接。網絡信息整理模塊獲取網絡信息收集模塊收集的網絡信息,并對網絡信息進行關鍵詞提取,然后將關鍵詞相同的網絡信息進行聚類,以獲得不少于一個信息類。本實施方式中,信息類以關鍵詞標注以便區(qū)分。
信用計算排序模塊分別連接網絡信息整理模塊、網絡信息收集模塊和網站信用評估模塊。信用計算排序模塊對各信息類中包含的網絡信息來源網站進行統(tǒng)計,計算各信息類包含的網絡信息來源網站的信用值之和作為該信息類的類信權值,并根據類信權值對各信息類進行排序。
輿情傾向分析模塊分別與網絡信息整理模塊和信用計算排序模塊連接。輿情傾向分析模塊判斷各信息類中各關鍵詞詞性,并根據各關鍵詞詞性計算該信息類情感傾向值。具體地,輿情傾向分析模塊根據信息類對應的關鍵詞中褒義詞與貶義詞的比值計算該信息類情感傾向值。當信息類對應的關鍵詞中褒義詞個數與貶義詞個數的比值大于1,則該信息類的情感傾向值為正數;當信息類對應的關鍵詞中褒義詞個數與貶義詞個數的比值小于1,則該信息類的情感傾向值為負數。
具體實施時,可令情感傾向值AD根據以下原則計算:
當褒義詞個數大于貶義詞個數,
當貶義詞個數大于褒義詞個數,
當貶義詞個數等于褒義詞個數,AD=0。
本實施方式中,輿情傾向分析模塊根據關鍵詞為各信息類賦予一個情感傾向值后,根據預設的情感評估模型結合情感傾向值和類信權值計算各信息類的情感值,并計算信息類情感值之和作為主題情感值。
情感評估模型為:E=AD×T,其中,AD為情感傾向值,T為類信權值。
輿情傾向分析模塊將主題情感值與預設的傾向閾值比較,根據比較結果評估輿情傾向。本實施方式中,傾向閾值為0。當主題情感值大于傾向閾值,則判定輿情傾向褒義;當主題情感值小于傾向閾值,則判定輿情傾向貶義。
評估結果輸出模塊分別連接信用計算排序模塊和輿情分析模塊,其將信用計算排序模塊的排序結果制成評估表,評估表中各信息類根據關鍵詞進行區(qū)別;評估結果輸出模塊輸出評估表和輿情傾向。
以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,根據本發(fā)明的技術方案及其發(fā)明構思加以等同替換或改變,都應涵蓋在本發(fā)明的保護范圍之內。