專利名稱:一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,具體來講,涉及一種基于社會(huì)網(wǎng)絡(luò)的基于社 會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法。
背景技術(shù):
網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)傳播的公眾對(duì)現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較 強(qiáng)影響力、傾向性的言論和觀點(diǎn),主要通過BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等實(shí)現(xiàn)并加以強(qiáng) 化。由于互聯(lián)網(wǎng)具有虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點(diǎn),越來越多的網(wǎng)民樂意 通過這種渠道來表達(dá)觀點(diǎn)、傳播思想。網(wǎng)絡(luò)輿情是一股強(qiáng)大的輿論力量,會(huì)反作用于熱點(diǎn)事 件并對(duì)社會(huì)發(fā)展和事態(tài)進(jìn)程產(chǎn)生一定的影響。如果引導(dǎo)不善,負(fù)面的網(wǎng)絡(luò)輿情將對(duì)社會(huì)公 共安全形成較大威脅。對(duì)相關(guān)政府部門來說,如何準(zhǔn)確的識(shí)別網(wǎng)絡(luò)輿情信息并加于及時(shí)監(jiān) 測(cè)和有效引導(dǎo),對(duì)維護(hù)社會(huì)穩(wěn)定、促進(jìn)國家發(fā)展具有重要的現(xiàn)實(shí)意義,也是構(gòu)建和諧網(wǎng)絡(luò)的 應(yīng)有內(nèi)涵。因此,對(duì)網(wǎng)絡(luò)信息中的輿情信息進(jìn)行及時(shí)準(zhǔn)確的識(shí)別和對(duì)輿情事件緊急程度的 進(jìn)行評(píng)估具有重要的意義,甚至可以被認(rèn)為是網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的核心。社會(huì)網(wǎng)絡(luò)分析是社會(huì)科學(xué)中的一個(gè)獨(dú)特視角,它是建立在如下假設(shè)基礎(chǔ)上的在 互動(dòng)的單位之間存在的關(guān)系非常重要。自從人類學(xué)家Barnes在1954年首次使用“社會(huì)網(wǎng) 絡(luò)”理論來分析挪威某漁村的社會(huì)結(jié)構(gòu)以來,社會(huì)網(wǎng)絡(luò)分析被視為是研究社會(huì)結(jié)構(gòu)的最簡 單明朗、最具有說服力的研究視角之一。社會(huì)網(wǎng)絡(luò)分析在早期社會(huì)研究中僅限于微網(wǎng)研究, 即小群體內(nèi)部結(jié)構(gòu)和人際關(guān)系研究,目前已發(fā)展成大規(guī)模的宏網(wǎng)研究,從而使社會(huì)網(wǎng)絡(luò)分 析成為結(jié)構(gòu)性與概念性較強(qiáng)理論研究的有力工具,并使微觀研究與宏觀研究有機(jī)地結(jié)合起 來。網(wǎng)絡(luò)輿情社會(huì)網(wǎng)絡(luò)是基于某個(gè)網(wǎng)絡(luò)輿情事件相關(guān)文檔集而建立的社會(huì)網(wǎng)絡(luò)模型。 在該社會(huì)網(wǎng)絡(luò)模型中每篇文檔為一個(gè)頂點(diǎn),文檔與文檔之間的相似度達(dá)到一定閾值則在文 檔各自代表的頂點(diǎn)之間連一條邊,權(quán)重為文檔之間的相似度,該社會(huì)網(wǎng)絡(luò)模型為無向有權(quán) 圖。網(wǎng)絡(luò)輿情行為是網(wǎng)絡(luò)輿情事件的復(fù)雜性在網(wǎng)絡(luò)輿情社會(huì)網(wǎng)絡(luò)中的體現(xiàn),通過分析該社 會(huì)網(wǎng)絡(luò)模型各個(gè)網(wǎng)絡(luò)參數(shù)隨時(shí)間的變化及網(wǎng)絡(luò)參數(shù)之間的對(duì)比可度量網(wǎng)絡(luò)輿情行為的變 化。網(wǎng)絡(luò)輿情社會(huì)網(wǎng)絡(luò)分析是研究網(wǎng)絡(luò)輿情的簡單明朗的研究視角之一,為分析網(wǎng)絡(luò)輿情 事件復(fù)雜性提供了有力工具,并使得通過分析網(wǎng)絡(luò)輿情行為來識(shí)別網(wǎng)絡(luò)輿情成為可能。目前已經(jīng)有很多單位針對(duì)輿情監(jiān)控提出了一些不同的解決方案。谷尼國際軟件開發(fā)的Goonie互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)通過對(duì)互聯(lián)網(wǎng)海量信息自動(dòng)獲 取,自動(dòng)聚類,主題檢測(cè),專題聚焦,實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)測(cè)和新聞專題追蹤,形成簡報(bào)、分析報(bào) 告等結(jié)果,為全面掌握輿情動(dòng)態(tài)提供分析依據(jù)。該系統(tǒng)通過內(nèi)容抽取識(shí)別,相似性去重等技 術(shù),可以獲取網(wǎng)絡(luò)中的熱點(diǎn)話題和敏感話題,可以根據(jù)統(tǒng)計(jì)等策略,分析在不同時(shí)間內(nèi)人們 對(duì)不同主題的關(guān)注程度,并預(yù)測(cè)事件的發(fā)展趨勢(shì)。北京拓爾思信息技術(shù)股份有限公司開發(fā)的TRS網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)采用多種技術(shù), 實(shí)現(xiàn)對(duì)輿情信息的精準(zhǔn)和全面采集,同時(shí)綜合運(yùn)用大規(guī)模文檔智能挖掘技術(shù),實(shí)現(xiàn)對(duì)海量輿情信息的準(zhǔn)確、高效分析和管理。北大方正技術(shù)研究院開發(fā)的方正智思網(wǎng)絡(luò)輿情互聯(lián)網(wǎng)信息監(jiān)控分析系統(tǒng)整合互 聯(lián)網(wǎng)搜索技術(shù)及信息智能處理技術(shù)等,通過對(duì)網(wǎng)絡(luò)信息進(jìn)行自動(dòng)抓取,自動(dòng)分類聚類,主題 檢測(cè),專題聚焦等方法,實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)控和新聞專題追蹤等功能。中科點(diǎn)擊開發(fā)的軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)使用強(qiáng)大的采集軟件,對(duì)數(shù)千網(wǎng)站進(jìn)行監(jiān) 控,可以自動(dòng)獲取輿情信息的熱度,并生成報(bào)表,同時(shí)可以獲取熱點(diǎn)主題的瀏覽量,回復(fù)數(shù), 并跟蹤發(fā)帖人,對(duì)輿情信息進(jìn)行管理,標(biāo)注和分類,并根據(jù)重要性對(duì)輿情信息進(jìn)一步篩選和 過濾o通過對(duì)上面幾個(gè)國內(nèi)知名的輿情監(jiān)控系統(tǒng)的分析發(fā)現(xiàn)目前國內(nèi)的輿情監(jiān)控系統(tǒng) 都將重點(diǎn)放在輿情的準(zhǔn)確發(fā)現(xiàn)和分類歸類方面,而對(duì)于如何刻畫某個(gè)輿情事件中的輿情行 為和分析輿情行為的變化并沒有做深入的研究。這些監(jiān)控系統(tǒng)對(duì)于輿情的發(fā)現(xiàn)可能會(huì)有很 好的效果,因此適合給有關(guān)機(jī)構(gòu)提供分析和咨詢,但是由于其側(cè)重于從文字內(nèi)容方面發(fā)現(xiàn) 和分類輿情,不能刻畫某個(gè)輿情事件中的輿情行為和分析輿情行為的變化,如何及時(shí)準(zhǔn)確 地刻畫網(wǎng)絡(luò)輿情行為和分析網(wǎng)絡(luò)輿情行為的變化成為一個(gè)亟待解決的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,提供一種能及時(shí)準(zhǔn)確地了解網(wǎng)絡(luò)輿 論的基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法。為實(shí)現(xiàn)本發(fā)明目的,本發(fā)明的基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,包括以下 步驟(1)、從互聯(lián)網(wǎng)中采集網(wǎng)頁文本并對(duì)其預(yù)處理,得到的文檔存放到網(wǎng)頁信息數(shù)據(jù) 庫;(2)、對(duì)網(wǎng)頁信息數(shù)據(jù)庫中的文檔進(jìn)行聚類;(3)、基于網(wǎng)頁信息數(shù)據(jù)庫中同一類別相關(guān)文檔之間的關(guān)系建立待分析的網(wǎng)絡(luò)輿 情事件社會(huì)網(wǎng)絡(luò);(4)、計(jì)算網(wǎng)絡(luò)輿情事件社會(huì)網(wǎng)絡(luò)參數(shù)隨時(shí)間變化過程的數(shù)據(jù)并繪制網(wǎng)絡(luò)參數(shù)曲 線.線。(5)、從網(wǎng)絡(luò)參數(shù)曲線中切取出網(wǎng)絡(luò)輿情事件的主爆發(fā)周期;(6)、基于網(wǎng)絡(luò)輿情行為特征庫和主爆發(fā)周期的參數(shù)曲線進(jìn)行網(wǎng)絡(luò)輿情識(shí)別和網(wǎng) 絡(luò)輿情事件緊急程度評(píng)估;(7)、輸出結(jié)果;進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟1中,通過網(wǎng)絡(luò)爬蟲從互聯(lián) 網(wǎng)中采集網(wǎng)頁文本;通過信息提取單元對(duì)網(wǎng)頁文本進(jìn)行解析預(yù)處理,獲取的標(biāo)題、正文和發(fā) 布時(shí)間信息組裝成文檔存放到網(wǎng)頁信息數(shù)據(jù)庫。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟2中,所述的對(duì)信息數(shù)據(jù)庫 中的文檔進(jìn)行聚類,具體做法是步驟201計(jì)算文檔之間的相似度,根據(jù)如下公式
其中X,Y為文檔,Xi2,Yi2分別對(duì)應(yīng)的X,Y的特征向量??紤]到每一個(gè)文檔代表的 是一個(gè)類,每個(gè)類可能大小不同,那么它們所代表的權(quán)重也應(yīng)該相應(yīng)做出調(diào)整,調(diào)整的過程 通過步驟202實(shí)現(xiàn)。步驟202計(jì)算文檔之間的吸引力,根據(jù)如下公式 其中F代表文檔之間的吸引力,m、M分別代表參與運(yùn)算的兩個(gè)文檔所代表的類的 總帖子數(shù),r為文檔之間相似度的倒數(shù)。這樣就能夠求出所有文檔與其它的文檔的相似度。為了方便后續(xù)的計(jì)算,采用步 驟203對(duì)結(jié)果進(jìn)行標(biāo)準(zhǔn)化,得到兩點(diǎn)之間的距離R。步驟203首先計(jì)算所有吸引力的均值ave。對(duì)于所有低于ave的吸引力R = 0,所
有高于ave的值利用如下公式進(jìn)行計(jì)算處理 這樣處理之后,能夠保證,所有的距離R的值都為0到1之間,并且吸引力越大,距 離出來的值就越小,文檔就越相似。在得到了兩點(diǎn)之間的距離之后就可以構(gòu)造網(wǎng)絡(luò)了。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟3中,所述的建立待分析的 網(wǎng)絡(luò)輿情事件社會(huì)網(wǎng)絡(luò),具體做法是步驟301在構(gòu)造網(wǎng)絡(luò)之前,首先需要對(duì)文檔按照時(shí)間序列化,為了消除隨機(jī)波動(dòng),
對(duì)每天的文檔進(jìn)行滑動(dòng)平均 其中隊(duì)代表第i天的文檔數(shù)步驟302網(wǎng)絡(luò)中,每一個(gè)節(jié)點(diǎn)代表一個(gè)文檔,如果兩點(diǎn)之間的距離大于0,那么兩 點(diǎn)之存在一條邊(無向邊),并且邊的權(quán)值為兩點(diǎn)之間的距離。遍歷每個(gè)節(jié)點(diǎn)直至完成網(wǎng)絡(luò) 構(gòu)建。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟4中,所述的網(wǎng)絡(luò)參數(shù)指的 是自定義的網(wǎng)絡(luò)參數(shù),定義如下網(wǎng)絡(luò)參數(shù)1 節(jié)點(diǎn)數(shù)量,反應(yīng)當(dāng)前時(shí)間網(wǎng)絡(luò)上新增了多少關(guān)于所分析的事件的帖子。網(wǎng)絡(luò)參數(shù)2 網(wǎng)絡(luò)直徑,反應(yīng)當(dāng)前時(shí)間網(wǎng)絡(luò)上新增帖子所構(gòu)成的網(wǎng)絡(luò)中,兩點(diǎn)之前 最短路徑的最大值。
網(wǎng)絡(luò)參數(shù)3 網(wǎng)絡(luò)密度,反應(yīng)當(dāng)前時(shí)間網(wǎng)絡(luò)上新增帖子所構(gòu)成的網(wǎng)絡(luò)中,實(shí)際存在 的邊與同等節(jié)點(diǎn)數(shù)量的完全圖中的邊的比。網(wǎng)絡(luò)參數(shù)4:簇系數(shù),又稱作聚集系數(shù),它衡量的是隨機(jī)網(wǎng)絡(luò)的集團(tuán)化程度,是隨 機(jī)網(wǎng)絡(luò)的一個(gè)重要參數(shù)。隨機(jī)圖中的結(jié)點(diǎn)的簇系數(shù)以描述的是隨機(jī)網(wǎng)絡(luò)中與該結(jié)點(diǎn)直接相 連的結(jié)點(diǎn)之間的連接關(guān)系,即與該結(jié)點(diǎn)直接相鄰的結(jié)點(diǎn)間實(shí)際存在的邊數(shù)目占最大可能存 在的邊數(shù)的比例。網(wǎng)絡(luò)參數(shù)5 結(jié)構(gòu)熵,熵是系統(tǒng)能量的一種度量,可以表示系統(tǒng)所處的狀態(tài)是否穩(wěn) 定以及其變化的方向,熵越大,系統(tǒng)能量分布越均勻。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟4中,所述的計(jì)算網(wǎng)絡(luò)輿情 事件社會(huì)網(wǎng)絡(luò)參數(shù)隨時(shí)間變化過程的數(shù)據(jù),具體做法是步驟401計(jì)算網(wǎng)絡(luò)密度網(wǎng)絡(luò)密度是當(dāng)前節(jié)點(diǎn)間存在的邊數(shù)于同等數(shù)目節(jié)點(diǎn)的完 全圖中的邊的比值。網(wǎng)絡(luò)密度越大,說明網(wǎng)絡(luò)中內(nèi)容相似的節(jié)點(diǎn)越多。網(wǎng)絡(luò)密度采用以下 公式計(jì)算 其中ND為網(wǎng)絡(luò)密度,n為節(jié)點(diǎn)數(shù),S為實(shí)際的邊數(shù)。步驟402計(jì)算網(wǎng)絡(luò)直徑反應(yīng)當(dāng)前時(shí)間,網(wǎng)絡(luò)上新增帖子所構(gòu)成的網(wǎng)絡(luò)中,兩點(diǎn)之 間最短路徑的最大值。網(wǎng)絡(luò)直徑的實(shí)際意義反應(yīng)的是相關(guān)新聞中內(nèi)容差距最大的兩篇文檔 之間的“距離”。步驟403計(jì)算簇系數(shù)又稱作聚集系數(shù),它衡量的是隨機(jī)網(wǎng)絡(luò)的集團(tuán)化程度,是隨 機(jī)網(wǎng)絡(luò)的一個(gè)重要參數(shù)。隨機(jī)圖中的結(jié)點(diǎn)的簇系數(shù)以描述的是隨機(jī)網(wǎng)絡(luò)中與該結(jié)點(diǎn)直接相 連的結(jié)點(diǎn)之間的連接關(guān)系,即與該結(jié)點(diǎn)直接相鄰的結(jié)點(diǎn)間實(shí)際存在的邊數(shù)目占最大可能存 在的邊數(shù)的比例。簇系數(shù)根據(jù)以下公式進(jìn)行計(jì)算 其中表示節(jié)點(diǎn)的度數(shù),e,表示結(jié)點(diǎn)的鄰結(jié)點(diǎn)之間實(shí)際存在的邊數(shù),隨機(jī)網(wǎng)絡(luò)的 簇系數(shù)C為所有結(jié)點(diǎn)簇系數(shù)的算術(shù)平均值,即 步驟404計(jì)算結(jié)構(gòu)熵熵是系統(tǒng)能量的一種度量,可以表示系統(tǒng)所處的狀態(tài)是否
穩(wěn)定以及其變化的方向,熵越大,系統(tǒng)能量分布越均勻。定義T時(shí)刻傳播網(wǎng)絡(luò)的結(jié)構(gòu)熵為 進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟4中,所述的繪制網(wǎng)絡(luò)參數(shù) 曲線,做法是分別計(jì)算搜集各個(gè)參數(shù)在某個(gè)時(shí)間段內(nèi)的數(shù)據(jù),繪制成相應(yīng)的數(shù)據(jù)曲線。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟5中,所述的從網(wǎng)絡(luò)參數(shù)曲 線中切取出網(wǎng)絡(luò)輿情事件的主爆發(fā)周期,目的是為了區(qū)分出不同的帖子數(shù)爆發(fā)周期,從而對(duì)每一個(gè)周期進(jìn)行單獨(dú)分析,該步驟為圖1中的步驟ST5,具體流程圖為圖2。具體步驟如 下步驟501遍歷原始曲線,保留那些明顯的轉(zhuǎn)折點(diǎn),用直線把這些轉(zhuǎn)折點(diǎn)連起來形 成折線圖;選擇這些轉(zhuǎn)折點(diǎn)的做法是開始和結(jié)尾的點(diǎn)首先被選為關(guān)鍵點(diǎn),然后從一個(gè)關(guān)鍵 點(diǎn)開始,嘗試用直線連接它和它后面的每一個(gè)點(diǎn),直到中間有點(diǎn)與這條直線的距離超過給 定的值d時(shí),那個(gè)超出范圍的點(diǎn)就被認(rèn)為是一個(gè)新的關(guān)鍵點(diǎn)。接下來從這個(gè)新的關(guān)鍵點(diǎn)開 始,重復(fù)上面的過程,直到曲線最后一個(gè)點(diǎn)。步驟502在折線圖上尋找每個(gè)周期開始和結(jié)束的位置,在折線圖上遍歷可以避免 無關(guān)起伏的干擾;步驟5021確認(rèn)周期的開始判斷標(biāo)準(zhǔn)當(dāng)一段直線的斜率超過人為給定的閾值L時(shí)就判定周期開始。步驟5022確認(rèn)周期的結(jié)束判斷標(biāo)準(zhǔn)周期開始后,滿足下列兩個(gè)條件之一就判斷周期結(jié)束條件一.趨勢(shì)的起伏在一個(gè)給定的標(biāo)準(zhǔn)范圍d內(nèi),即選擇轉(zhuǎn)折點(diǎn)時(shí)給定的d,針對(duì) 具體情況可以適當(dāng)調(diào)整,并且這種平穩(wěn)已經(jīng)至少持續(xù)了一個(gè)給定的時(shí)間跨度minT,同時(shí)曲 線的當(dāng)前高度不應(yīng)該高于周期開始時(shí)的2倍;條件二 .周期的長度已經(jīng)超過了給定的最大限度maxT。步驟503根據(jù)步驟5. 22得到的周期的開始和結(jié)束位置切取周期。后續(xù)的分析全是基于該步得到的周期進(jìn)行的分析。如果得到多個(gè)周期,則分析整 個(gè)曲線最大值所在的周期;如果存在多個(gè)最大值差別不大的周期,則使用結(jié)構(gòu)熵判斷主要 爆發(fā)周期。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟6中,所述的網(wǎng)絡(luò)輿情為滿 足如下兩個(gè)條件的網(wǎng)絡(luò)事件條件一.參與討論的新聞或者帖子數(shù)激增。條件二 .參與討論的人發(fā)表的獨(dú)立的觀點(diǎn)。所表現(xiàn)出來的網(wǎng)絡(luò)行為是帖子或者報(bào)道的新聞數(shù)量激增,同時(shí)網(wǎng)絡(luò)密度下降,即 網(wǎng)絡(luò)密度變化與帖子數(shù)量變化負(fù)相關(guān)。如果存在大量的帖子,但是都是通過轉(zhuǎn)載的形式出現(xiàn)的話。那么表現(xiàn)在網(wǎng)絡(luò)密度 的形式,網(wǎng)絡(luò)密度不變或者增加,這種情況明顯不屬于輿情,所以利用帖子數(shù)和網(wǎng)絡(luò)密度兩 個(gè)條件來定義是否是輿情。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟6中,所述的網(wǎng)絡(luò)輿情事件 緊急程度指的是自定義的緊急程度,定義如下紅色輿情是指參與討論的帖子內(nèi)容基本一致,并且負(fù)面意見居多,反政府,反社 會(huì),或者帶有極端煽動(dòng)性,甚至有可能引起更大規(guī)模的反動(dòng)輿論浪潮的輿情。這類輿情危害 性最大,需要立即處理。橙色輿情是指有大量的帖子參與討論的輿情事件,且內(nèi)容差距比較大,并且很有 可能多次爆發(fā)的輿情。這類輿情由于沒有形成統(tǒng)一的負(fù)面意見,所以危害性要小于紅色輿 情。但是由于很可能再次爆發(fā),無法控制有可能向紅色輿情轉(zhuǎn)變,所以需要引導(dǎo),從而將輿論引向正軌。黃色輿情是指有大量帖子參與,但是沒有形成統(tǒng)一負(fù)面意見,有可能再次爆發(fā)輿 情,但是可能性相對(duì)小于橙色輿情。所以危害性要小于橙色輿情,但是依然需要關(guān)注。綠色輿情是指有大量民眾參與,但是形成了統(tǒng)一的正面意見,或者對(duì)事件的討論 進(jìn)入尾聲,很難再度爆發(fā)的輿情。這類輿情危害性很小。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟6中,所述的網(wǎng)絡(luò)輿情行為 特征庫指的是通過大量的網(wǎng)絡(luò)輿情事件觀察和實(shí)驗(yàn)總結(jié)出來的四個(gè)網(wǎng)絡(luò)參數(shù)規(guī)則,這些規(guī) 則可用來對(duì)網(wǎng)絡(luò)輿情事件進(jìn)行分類和識(shí)別,具體參數(shù)規(guī)則內(nèi)容是參數(shù)規(guī)則1.網(wǎng)絡(luò)密度、通過觀察爆發(fā)階段網(wǎng)絡(luò)密度的值來判斷事件的屬性。當(dāng)網(wǎng) 絡(luò)密度范圍為a) 0-0. 2之間稱為廣泛討論事件。對(duì)應(yīng)的實(shí)際情況是,大量的帖子或者新聞,從各 個(gè)不同的角度討論整個(gè)事件,說明時(shí)間引起了廣泛的關(guān)注和討論。b)0. 2-0. 5之間稱為平衡事件。對(duì)應(yīng)實(shí)際情況是對(duì)事件的討論比較集中,雖然存 在各個(gè)不同的版本,但是內(nèi)容上比較一致。c)0. 5以上,稱為內(nèi)容統(tǒng)一事件。對(duì)應(yīng)的實(shí)際情況是對(duì)事件的討論趨于統(tǒng)一。如 果結(jié)合觀點(diǎn)分析,當(dāng)觀點(diǎn)為正時(shí),為綠色輿情事件;當(dāng)觀點(diǎn)為負(fù)時(shí),為紅色輿情事件。參數(shù)規(guī)則2.網(wǎng)絡(luò)直徑、通過觀察爆發(fā)階段網(wǎng)絡(luò)直徑的變化可以判斷出時(shí)間的部 分屬性。網(wǎng)絡(luò)直徑對(duì)應(yīng)的實(shí)際意義是當(dāng)前的左右帖子中,相關(guān)的帖子里內(nèi)容區(qū)別最大兩個(gè) 帖子。在爆發(fā)階段,網(wǎng)絡(luò)直徑有兩種情況a)維持穩(wěn)定對(duì)于維持穩(wěn)定的情況,稱為能量釋放完全事件。也就是說,沒有新的 內(nèi)容出現(xiàn),那么之后,不容易出現(xiàn)再次爆發(fā)的情況。b)發(fā)生波動(dòng)對(duì)于出現(xiàn)波動(dòng)的情況,稱為能量不完全釋放事件。也就是說,繼續(xù)出 現(xiàn)新觀點(diǎn),或者舊觀點(diǎn)的消亡。那么之后容易出現(xiàn)再次爆發(fā)的情況。參數(shù)規(guī)則3.簇系數(shù)、簇系數(shù)反應(yīng)的是“抱團(tuán)”的程度,在爆發(fā)期間,簇系數(shù)的變化 分為兩種情況a)維持穩(wěn)定,說明事件內(nèi)部沒有出現(xiàn)觀點(diǎn)傾向性的變化。b)發(fā)生增長,說明抱團(tuán)程度加劇,證明事件內(nèi)部觀點(diǎn)開始發(fā)生集中。參數(shù)規(guī)則4.結(jié)構(gòu)熵、結(jié)構(gòu)熵反應(yīng)的是度分布的問穩(wěn)定程度。結(jié)構(gòu)熵越高,說明能 量分布越均衡。在多次爆發(fā)的事件中,如果帖子數(shù)量在波峰都差不多,可以利用結(jié)構(gòu)熵來判 斷主爆發(fā)。結(jié)構(gòu)熵最高的波峰,為主爆發(fā)。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟6中,所述的基于網(wǎng)絡(luò)輿情 行為特征庫和主爆發(fā)周期的參數(shù)曲線進(jìn)行網(wǎng)絡(luò)輿情識(shí)別和網(wǎng)絡(luò)輿情事件緊急程度評(píng)估,該 步驟為圖1中的步驟ST6,具體流程圖為圖3,具體做法如下步驟601 考察帖子數(shù)量爆發(fā)時(shí)網(wǎng)絡(luò)密度的變化情況,a)網(wǎng)絡(luò)密度變化趨勢(shì)與帖子數(shù)量變化趨勢(shì)正相關(guān),那么定義為非輿情事件,并且 結(jié)束分析。b)網(wǎng)絡(luò)密度變化趨勢(shì)與帖子數(shù)量變化趨勢(shì)負(fù)相關(guān),那么定義為輿情事件,并且進(jìn) 入步驟602分析。步驟602 結(jié)合網(wǎng)絡(luò)輿情行為特征庫分析網(wǎng)絡(luò)密度;
步驟6021 考察爆發(fā)期網(wǎng)絡(luò)密度的值,a)網(wǎng)絡(luò)密度的值小于0. 2,屬于廣泛討論事件,需要結(jié)合網(wǎng)絡(luò)參數(shù)進(jìn)一步分析。b)網(wǎng)密度值高于0.5,定義為內(nèi)容統(tǒng)一事件,結(jié)合觀點(diǎn)分析,如果觀點(diǎn)分析為負(fù)。 那么定義為紅色輿情事件,如果觀點(diǎn)分析為正,定義為綠色輿情事件。c)網(wǎng)絡(luò)密度介于0. 2-0. 5那么進(jìn)入步驟603分析。步驟6022 當(dāng)判斷該事件為廣泛討論事件的時(shí)候,就根據(jù)爆發(fā)期間網(wǎng)絡(luò)直徑和簇 系數(shù)的變化來區(qū)分輿情的緊急程度。a)網(wǎng)絡(luò)直徑和簇系數(shù)不發(fā)生明顯變化,那么認(rèn)為該事件討論范圍和討論的集群不 再發(fā)生變化,可以理解為事件進(jìn)入到發(fā)展階段的末期,定義為黃色輿情事件。b)網(wǎng)絡(luò)直徑和簇系數(shù)發(fā)生了明顯的變化,可以認(rèn)為事件發(fā)展并沒有進(jìn)入到末期, 仍需要重點(diǎn)關(guān)注,定義為橙色輿情事件。步驟603 首先區(qū)分是否是多次爆發(fā)的輿情,如果是多次爆發(fā)的輿情,利用結(jié)構(gòu)熵 找到主爆發(fā),結(jié)構(gòu)熵最大的一個(gè)爆發(fā)區(qū)間為主爆發(fā)區(qū)間;如果是單次爆發(fā)時(shí)間跳過這一步。 直接進(jìn)入步驟604。步驟604 根據(jù)爆發(fā)期間網(wǎng)絡(luò)直徑和簇系數(shù)的變化來區(qū)分輿情的緊急程度。a)網(wǎng)絡(luò)直徑和簇系數(shù)不發(fā)生明顯變化,認(rèn)為該事件討論范圍和討論的集群不再發(fā) 生變化,可以理解為事件進(jìn)入到發(fā)展階段的末期,不再會(huì)發(fā)生大幅的波動(dòng)或者下一輪的爆 發(fā)。定義為綠色輿情b)網(wǎng)絡(luò)直徑發(fā)生變化,簇系數(shù)沒有發(fā)生明顯變化,認(rèn)為,該時(shí)間的討論范圍在繼續(xù) 變化,那么事件發(fā)展還沒有進(jìn)入末期,之后又可能再次爆發(fā)。定義為黃色輿情。c)網(wǎng)絡(luò)直徑和簇系數(shù)都發(fā)生了明顯的變化,說明事件的討論范圍和觀點(diǎn)集群都在 發(fā)生變化,那么認(rèn)為該事件極有可能再度爆發(fā)。定義為橙色輿情。本發(fā)明提出了一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,首先基于網(wǎng)絡(luò)新聞或 者帖子之間的相似度建立起一個(gè)社會(huì)網(wǎng)絡(luò),然后通過分析社會(huì)網(wǎng)絡(luò)參數(shù)隨時(shí)間的變化,以 及參數(shù)之間的對(duì)比,自動(dòng)的實(shí)現(xiàn)網(wǎng)絡(luò)輿情的識(shí)別和網(wǎng)絡(luò)輿情事件緊急程度的評(píng)估,使得政 府能夠更有效的監(jiān)控和管理網(wǎng)絡(luò)輿論。本發(fā)明通過網(wǎng)絡(luò)輿情行為分析的方式不但可以有效 地發(fā)現(xiàn)網(wǎng)絡(luò)中的輿情信息,還可以對(duì)網(wǎng)絡(luò)輿情事件的緊急程度評(píng)估進(jìn)行有效的評(píng)估,彌補(bǔ) 了以往輿情系統(tǒng)只能從文字內(nèi)容方面分析輿情,而不能做網(wǎng)絡(luò)輿情行為分析的不足。
圖1是本發(fā)明一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法的整體流程圖;圖2是圖1所示的基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法中,步驟ST5切取周期 的流程圖;圖3是圖1所示的基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法中,步驟ST6參數(shù)分析 的流程圖;圖4是具體實(shí)例杭州飆車案例中的節(jié)點(diǎn)趨勢(shì)和網(wǎng)絡(luò)密度趨勢(shì)對(duì)比圖;圖5是具體實(shí)例杭州飆車案例中的網(wǎng)絡(luò)直徑趨勢(shì)圖;圖6是具體實(shí)例杭州飆車案例中的簇系數(shù)趨勢(shì)圖;圖7是具體實(shí)例某某某出訪案例中的節(jié)點(diǎn)趨勢(shì)和網(wǎng)絡(luò)密度趨勢(shì)對(duì)比圖8是具體實(shí)例貴州習(xí)水案例中的節(jié)點(diǎn)趨勢(shì)和網(wǎng)絡(luò)密度趨勢(shì)對(duì)比圖;圖9是具體實(shí)例貴州習(xí)水案例中的網(wǎng)絡(luò)直徑趨勢(shì)圖;圖10是具體實(shí)例貴州習(xí)水案例中的簇系數(shù)趨勢(shì)具體實(shí)施例方式為進(jìn)一步理解本發(fā)明的基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,下面列舉具體實(shí) 例進(jìn)行詳細(xì)說明。首先從互聯(lián)網(wǎng)中通過爬蟲采集網(wǎng)頁文檔并對(duì)其預(yù)處理,然后對(duì)得到的信息文檔進(jìn) 行聚類,聚類結(jié)果包含三個(gè)網(wǎng)絡(luò)事件文檔集杭州飆車案文檔集、某某某出訪文檔集和貴州 習(xí)水案文檔集。分別針對(duì)這三個(gè)網(wǎng)絡(luò)事件進(jìn)行構(gòu)建社會(huì)網(wǎng)絡(luò)、計(jì)算網(wǎng)絡(luò)參數(shù)、繪制參數(shù)曲線、切取 曲線主爆發(fā)周期(斜率閾值為3)等步驟得到各自的節(jié)點(diǎn)趨勢(shì)和網(wǎng)絡(luò)密度趨勢(shì)對(duì)比圖、網(wǎng)絡(luò) 直徑趨勢(shì)圖和簇系數(shù)趨勢(shì)圖,接下來結(jié)合輿情行為特征庫里面的參數(shù)規(guī)則進(jìn)行后續(xù)的網(wǎng)絡(luò) 輿情行為分析。具體實(shí)例1 杭州飆車案事件回顧2009年5月7日在杭州發(fā)生的一起交通事故,在杭州文二西路上,一名走人行橫 道線過馬路的行人被一輛超速行駛跑車撞死,事后,杭州交警部門在新聞發(fā)布會(huì)表示肇事 車輛的時(shí)速在70碼左右,該報(bào)告已經(jīng)宣布立即引起普遍懷疑,70碼一詞迅速在網(wǎng)絡(luò)流傳開 來。最終,警方調(diào)查出該車速在100碼左右。輿情行為分析1)如圖4所示,既杭州飆車案例節(jié)點(diǎn)趨勢(shì)圖和網(wǎng)絡(luò)密度趨勢(shì)圖,容易看出,節(jié)點(diǎn)數(shù) 量在5月7日左右開始爆發(fā),同時(shí)網(wǎng)絡(luò)密度開始下降,因此可以判斷其為輿情事件;2)如圖4所示,既杭州飆車案例網(wǎng)絡(luò)密度趨勢(shì)圖,爆發(fā)期的網(wǎng)絡(luò)密度介于0. 2-0. 5 之間(后期的增長是因?yàn)樘訑?shù)量的減少,所以定性問噪聲),可以判斷事件為值得關(guān)注事 件;3)如圖5所示,既杭州飆車案例網(wǎng)絡(luò)直徑趨勢(shì)圖,根據(jù)網(wǎng)絡(luò)網(wǎng)絡(luò)直徑出現(xiàn)變化,定 性為能量不完全釋放事件;4)如圖6所示,既杭州飆車案案例簇系數(shù)趨勢(shì)圖,根據(jù)簇系數(shù)發(fā)生變化(上漲)說 明事件的觀點(diǎn)集團(tuán)化傾向加深,所以定義為橙色輿情事件。具體實(shí)例2 某某某出訪事件回顧某某某,作為國家領(lǐng)導(dǎo)人,有很多相關(guān)的新聞,但是不能作為輿情存在,網(wǎng)絡(luò)行為 也很好的驗(yàn)證了該觀點(diǎn)。輿情行為分析如圖7所示,既某某某出訪案例中的節(jié)點(diǎn)趨勢(shì)和網(wǎng)絡(luò)趨勢(shì)對(duì)比圖,爆發(fā)點(diǎn)的貼子 數(shù)和網(wǎng)絡(luò)密度保持相同的增長趨勢(shì),故為非輿情事件。具體實(shí)例3 貴州習(xí)水案事件回顧
2007年10月始,犯罪嫌疑人使用暴力脅迫等手段逼迫少女賣淫。該事件與2008 年10月被爆出,由于存在公職人員參與以及定罪問題,引起了社會(huì)的廣泛熱議。輿情行為分析1)如圖8所示,既貴州習(xí)水案例中的節(jié)點(diǎn)趨勢(shì)和網(wǎng)絡(luò)密度趨勢(shì)對(duì)比圖,在帖子數(shù) 量爆發(fā)的時(shí)候,網(wǎng)絡(luò)密度是一個(gè)下降的過程,滿足輿情的定義的條件,該事件可以定性為輿 情事件。2)如圖8所示,由于事件爆發(fā)期,網(wǎng)絡(luò)密度基本低于0. 2,可以定性為廣泛討論事 件。3)如圖9和圖10所示,網(wǎng)絡(luò)直徑和簇系數(shù)在爆發(fā)期基本維持不變,滿足事件發(fā)展 末期的特性,故可以定性為黃色輿情事件。盡管上面對(duì)本發(fā)明說明性的具體實(shí)施方式
進(jìn)行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人 員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于具體實(shí)施方式
的范圍,對(duì)本技術(shù)領(lǐng)域的普通技術(shù) 人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變 化是顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
權(quán)利要求
一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,包括以下步驟(1)、從互聯(lián)網(wǎng)中采集網(wǎng)頁文本并對(duì)其預(yù)處理,得到的文檔存放到網(wǎng)頁信息數(shù)據(jù)庫;(2)、對(duì)網(wǎng)頁信息數(shù)據(jù)庫中的文檔進(jìn)行聚類;(3)、基于網(wǎng)頁信息數(shù)據(jù)庫中同一類別相關(guān)文檔之間的關(guān)系建立待分析的網(wǎng)絡(luò)輿情事件社會(huì)網(wǎng)絡(luò);(4)、計(jì)算網(wǎng)絡(luò)輿情事件社會(huì)網(wǎng)絡(luò)參數(shù)隨時(shí)間變化過程的數(shù)據(jù)并繪制網(wǎng)絡(luò)參數(shù)曲線;(5)、從網(wǎng)絡(luò)參數(shù)曲線中切取出網(wǎng)絡(luò)輿情事件的主爆發(fā)周期;(6)、基于網(wǎng)絡(luò)輿情行為特征庫和主爆發(fā)周期的參數(shù)曲線進(jìn)行網(wǎng)絡(luò)輿情識(shí)別和網(wǎng)絡(luò)輿情事件緊急程度評(píng)估;(7)、輸出結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,其特征在于, 步驟(1)的具體實(shí)現(xiàn)方法為通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中采集網(wǎng)頁文本;通過信息提取單元 對(duì)網(wǎng)頁文本進(jìn)行解析預(yù)處理,獲取的標(biāo)題、正文和發(fā)布時(shí)間信息組裝成文檔存放到網(wǎng)頁信 息數(shù)據(jù)庫。
3.根據(jù)權(quán)利要求1所述的一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,其特征在于, 步驟(4)所述的網(wǎng)絡(luò)參數(shù)指的是自定義的網(wǎng)絡(luò)參數(shù),定義如下網(wǎng)絡(luò)參數(shù)1 節(jié)點(diǎn)數(shù)量,反應(yīng)當(dāng)前時(shí)間網(wǎng)絡(luò)上新增了多少關(guān)于所分析的事件的帖子;網(wǎng)絡(luò)參數(shù)2 網(wǎng)絡(luò)直徑,反應(yīng)當(dāng)前時(shí)間網(wǎng)絡(luò)上新增帖子所構(gòu)成的網(wǎng)絡(luò)中,兩點(diǎn)之前最短 路徑的最大值;網(wǎng)絡(luò)參數(shù)3:網(wǎng)絡(luò)密度,反應(yīng)當(dāng)前時(shí)間網(wǎng)絡(luò)上新增帖子所構(gòu)成的網(wǎng)絡(luò)中,實(shí)際存在的邊 與同等節(jié)點(diǎn)數(shù)量的完全圖中的邊的比;網(wǎng)絡(luò)參數(shù)4:簇系數(shù),又稱作聚集系數(shù),它衡量的是隨機(jī)網(wǎng)絡(luò)的集團(tuán)化程度,是隨機(jī)網(wǎng) 絡(luò)的一個(gè)重要參數(shù),隨機(jī)圖中的結(jié)點(diǎn)的簇系數(shù)以描述的是隨機(jī)網(wǎng)絡(luò)中與該結(jié)點(diǎn)直接相連的 結(jié)點(diǎn)之間的連接關(guān)系,即與該結(jié)點(diǎn)直接相鄰的結(jié)點(diǎn)間實(shí)際存在的邊數(shù)目占最大可能存在的 邊數(shù)的比例;網(wǎng)絡(luò)參數(shù)5 結(jié)構(gòu)熵,熵是系統(tǒng)能量的一種度量,可以表示系統(tǒng)所處的狀態(tài)是否穩(wěn)定以 及其變化的方向,熵越大,系統(tǒng)能量分布越均勻。
4.根據(jù)權(quán)利要求1或3所述的一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,其特征在 于,步驟(4)所述的計(jì)算網(wǎng)絡(luò)輿情事件社會(huì)網(wǎng)絡(luò)參數(shù)隨時(shí)間變化過程的數(shù)據(jù),具體做法是步驟4. 1計(jì)算網(wǎng)絡(luò)密度網(wǎng)絡(luò)密度是當(dāng)前節(jié)點(diǎn)間存在的邊數(shù)于同等數(shù)目節(jié)點(diǎn)的完全圖 中的邊的比值,網(wǎng)絡(luò)密度越大,說明網(wǎng)絡(luò)中內(nèi)容相似的節(jié)點(diǎn)越多,網(wǎng)絡(luò)密度采用以下公式計(jì) 算 其中ND為網(wǎng)絡(luò)密度,n為節(jié)點(diǎn)數(shù),S為實(shí)際的邊數(shù);步驟4. 2計(jì)算網(wǎng)絡(luò)直徑反應(yīng)當(dāng)前時(shí)間,網(wǎng)絡(luò)上新增帖子所構(gòu)成的網(wǎng)絡(luò)中,兩點(diǎn)之間最 短路徑的最大值,網(wǎng)絡(luò)直徑的實(shí)際意義反應(yīng)的是相關(guān)新聞中內(nèi)容差距最大的兩篇文檔之間 的“距離”;步驟4. 3計(jì)算簇系數(shù)又稱作聚集系數(shù),它衡量的是隨機(jī)網(wǎng)絡(luò)的集團(tuán)化程度,是隨機(jī)網(wǎng) 絡(luò)的一個(gè)重要參數(shù),簇系數(shù)根據(jù)以下公式進(jìn)行計(jì)算 其中&表示節(jié)點(diǎn)的度數(shù),e,表示結(jié)點(diǎn)的鄰結(jié)點(diǎn)之間實(shí)際存在的邊數(shù),隨機(jī)網(wǎng)絡(luò)的簇系 數(shù)C為所有結(jié)點(diǎn)簇系數(shù)的算術(shù)平均值,即 步驟4. 4計(jì)算結(jié)構(gòu)熵熵是系統(tǒng)能量的一種度量,可以表示系統(tǒng)所處的狀態(tài)是否穩(wěn)定 以及其變化的方向,熵越大,系統(tǒng)能量分布越均勻,定義T時(shí)刻傳播網(wǎng)絡(luò)的結(jié)構(gòu)熵為
5.根據(jù)權(quán)利要求1所述的一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,其特征在于, 步驟(6)所述的網(wǎng)絡(luò)輿情為滿足如下兩個(gè)條件的網(wǎng)絡(luò)事件1、參與討論的新聞或者帖子數(shù) 激增;2、參與討論的人發(fā)表的獨(dú)立的觀點(diǎn);所表現(xiàn)出來的網(wǎng)絡(luò)行為是帖子或者報(bào)道的新 聞數(shù)量激增,同時(shí)網(wǎng)絡(luò)密度下降,即網(wǎng)絡(luò)密度變化與帖子數(shù)量變化負(fù)相關(guān)。
6.根據(jù)權(quán)利要求1所述的一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,其特征在于, 步驟(6)所述的網(wǎng)絡(luò)輿情事件緊急程度指的是自定義的緊急程度,定義如下紅色輿情是指參與討論的帖子內(nèi)容基本一致,并且負(fù)面意見居多,反政府,反社會(huì),或 者帶有極端煽動(dòng)性,甚至有可能引起更大規(guī)模的反動(dòng)輿論浪潮的輿情,這類輿情危害性最 大,需要立即處理;橙色輿情是指有大量的帖子參與討論的輿情事件,且內(nèi)容差距比較大,并且很有可能 多次爆發(fā)的輿情,這類輿情由于沒有形成統(tǒng)一的負(fù)面意見,所以危害性要小于紅色輿情,但 是由于很可能再次爆發(fā),無法控制有可能向紅色輿情轉(zhuǎn)變,所以需要引導(dǎo),從而將輿論引向 正軌;黃色輿情是指有大量帖子參與,但是沒有形成統(tǒng)一負(fù)面意見,有可能再次爆發(fā)輿情, 但是可能性相對(duì)小于橙色輿情,所以危害性要小于橙色輿情,但是依然需要關(guān)注;綠色輿情是指有大量民眾參與,但是形成了統(tǒng)一的正面意見,或者對(duì)事件的討論進(jìn)入 尾聲,很難再度爆發(fā)的輿情,這類輿情危害性很小。
7.根據(jù)權(quán)利要求1或6所述的一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,其特征在 于,步驟(6)所述的網(wǎng)絡(luò)輿情行為特征庫,指的是通過大量的網(wǎng)絡(luò)輿情事件觀察和實(shí)驗(yàn)總 結(jié)出來的四個(gè)網(wǎng)絡(luò)參數(shù)規(guī)則,這些規(guī)則用來對(duì)網(wǎng)絡(luò)輿情事件進(jìn)行分類和識(shí)別,具體參數(shù)規(guī) 則內(nèi)容是參數(shù)規(guī)則1.網(wǎng)絡(luò)密度、通過觀察爆發(fā)階段網(wǎng)絡(luò)密度的值來判斷事件的屬性,當(dāng)網(wǎng)絡(luò)密 度范圍為a)0-0. 2之間稱為廣泛討論事件,對(duì)應(yīng)的實(shí)際情況是,大量的帖子或者新聞,從各個(gè)不 同的角度討論整個(gè)事件,說明時(shí)間引起了廣泛的關(guān)注和討論,b)0.2-0. 5之間稱為平衡事件,對(duì)應(yīng)實(shí)際情況是對(duì)事件的討論比較集中,雖然存在不同的版本,但是內(nèi)容上比較一致,c) 0. 5以上,稱為內(nèi)容統(tǒng)一事件,對(duì)應(yīng)的實(shí)際情況是對(duì)事件的討論趨于統(tǒng)一,如果結(jié) 合觀點(diǎn)分析,當(dāng)觀點(diǎn)為正時(shí),為綠色輿情事件;當(dāng)觀點(diǎn)為負(fù)時(shí),為紅色輿情事件,參數(shù)規(guī)則2.網(wǎng)絡(luò)直徑、通過觀察爆發(fā)階段網(wǎng)絡(luò)直徑的變化可以判斷出時(shí)間的部分屬 性,網(wǎng)絡(luò)直徑對(duì)應(yīng)的實(shí)際意義是當(dāng)前的左右帖子中,相關(guān)的帖子里內(nèi)容區(qū)別最大兩個(gè)帖 子,在爆發(fā)階段,網(wǎng)絡(luò)直徑有兩種情況a)維持穩(wěn)定對(duì)于維持穩(wěn)定的情況,稱為能量釋放完全事件,也就是說,沒有新的內(nèi)容 出現(xiàn),那么之后,不容易出現(xiàn)再次爆發(fā)的情況,b)發(fā)生波動(dòng)對(duì)于出現(xiàn)波動(dòng)的情況,稱為能量不完全釋放事件,也就是說,繼續(xù)出現(xiàn)新 觀點(diǎn),或者舊觀點(diǎn)的消亡,那么之后容易出現(xiàn)再次爆發(fā)的情況,參數(shù)規(guī)則3.簇系數(shù)、簇系數(shù)反應(yīng)的是“抱團(tuán)”的程度,在爆發(fā)期間,簇系數(shù)的變化分為 兩種情況a)維持穩(wěn)定,說明事件內(nèi)部沒有出現(xiàn)觀點(diǎn)傾向性的變化,b)發(fā)生增長,說明抱團(tuán)程度加劇,證明事件內(nèi)部觀點(diǎn)開始發(fā)生集中,參數(shù)規(guī)則4.結(jié)構(gòu)熵、結(jié)構(gòu)熵反應(yīng)的是度分布的問穩(wěn)定程度,結(jié)構(gòu)熵越高,說明能量分 布越均衡,在多次爆發(fā)的事件中,如果帖子數(shù)量在波峰都差不多,可以利用結(jié)構(gòu)熵來判斷主 爆發(fā),結(jié)構(gòu)熵最高的波峰,為主爆發(fā)。
全文摘要
本發(fā)明公開了一種基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情行為分析方法,首先基于網(wǎng)絡(luò)新聞或者帖子之間的相似度建立起一個(gè)網(wǎng)絡(luò)輿情事件社會(huì)網(wǎng)絡(luò),然后通過分析社會(huì)網(wǎng)絡(luò)參數(shù)隨時(shí)間的變化以及參數(shù)之間的對(duì)比,自動(dòng)的實(shí)現(xiàn)網(wǎng)絡(luò)輿情的識(shí)別和網(wǎng)絡(luò)輿情事件緊急程度的評(píng)估,方便相關(guān)政府部門更有效的監(jiān)控和管理網(wǎng)絡(luò)輿論。本發(fā)明通過網(wǎng)絡(luò)輿情行為分析的方式不但可以有效地發(fā)現(xiàn)網(wǎng)絡(luò)中的輿情信息,還可以對(duì)網(wǎng)絡(luò)輿情事件的緊急程度分級(jí)進(jìn)行有效的評(píng)估,彌補(bǔ)了以往輿情系統(tǒng)只能從文字內(nèi)容方面分析輿情,而不能做網(wǎng)絡(luò)輿情行為分析的不足。
文檔編號(hào)G06F17/30GK101853261SQ20091021630
公開日2010年10月6日 申請(qǐng)日期2009年11月23日 優(yōu)先權(quán)日2009年11月23日
發(fā)明者傅彥, 曾奉堯, 胡家豪, 高輝 申請(qǐng)人:電子科技大學(xué)