本發(fā)明涉及輿情監(jiān)控技術領域,尤其涉及一種輿情收集整理方法。
背景技術:
輿情監(jiān)控,整合互聯(lián)網(wǎng)信息采集技術及信息智能處理技術通過對互聯(lián)網(wǎng)海量信息自動抓取、自動分類聚類、主題檢測、專題聚焦,實現(xiàn)用戶的網(wǎng)絡輿情監(jiān)測和新聞專題追蹤等信息需求,形成簡報、報告、圖表等分析結果,為客戶全面掌握群眾思想動態(tài),做出正確輿論引導,提供分析依據(jù)。
近年來,互聯(lián)網(wǎng)發(fā)展迅速,作為繼電視、廣播、報紙之外的第四媒體,已經(jīng)成為反映社會輿情的一個重要載體。另一方面,由于網(wǎng)絡的開放性和虛擬性,網(wǎng)上輿情已經(jīng)越來越復雜,對現(xiàn)實生活的影響與日俱增,一些重大的網(wǎng)絡輿情事件往往對社會產(chǎn)生較大的影響力。
對政府部門、公眾媒體和大型企業(yè)來說,如何加強對網(wǎng)絡輿情的及時監(jiān)測,以及時采取措施進行有效應對,成為網(wǎng)絡輿情管理的一大難點。
技術實現(xiàn)要素:
基于背景技術存在的技術問題,本發(fā)明提出了一種輿情收集整理方法。
本發(fā)明提出的一種輿情收集整理方法,包括以下步驟:
S1、設置高信網(wǎng)站數(shù)據(jù)庫預存網(wǎng)站地址;
S2、輸入主題,并根據(jù)主題進行網(wǎng)絡信息檢索獲取主題相關信息;
S3、統(tǒng)計主題相關信息的來源網(wǎng)站以及瀏覽量;
S4、提取各主題相關信息的關鍵詞,并根據(jù)關鍵詞對主題相關信息進行聚類,獲得多個信息小類;
S5、對信息小類的關鍵詞進行語義分析,根據(jù)語義相似度對各信息小類進行聚類,獲得多個信息大類,并提取各信息小類關鍵詞中語義相同的部分作為信息大類的名稱;
S6、預設第一閾值和第二閾值;
S7、根據(jù)瀏覽量對各信息大類、信息大類中包含的信息小類以及信息小類中包含的主題相關信息進行排序;
S8、篩選排序位于第一閾值前的信息大類以及各信息大類中排序位于第二閾值前的信息小類繪制成評估報告輸出;
S9、獲取存在于高信網(wǎng)站數(shù)據(jù)庫中的來源網(wǎng)站對應的主題相關信息作為校對目標,根據(jù)校對目標所在信息小類及信息大類對評估報告進行補充。
優(yōu)選地,步驟S4具體為:提取各主題相關信息的關鍵詞,并將關鍵詞相同的主題相關信息進行聚類,獲得多個信息小類。
優(yōu)選地,步驟S5中,預設有相似度閾值,對信息小類的關鍵詞進行語義分析后,將語義相似度大于相似度閾值的信息小類進行聚類,獲得多個信息大類。
優(yōu)選地,評估報告包括信息大類的名稱、各信息小類對應的關鍵詞以及信息小類中的瀏覽量最高的主題相關信息,并包括各信息大類的瀏覽量總值、信息小類的瀏覽量總值、主題相關信息的瀏覽量以及來源網(wǎng)址。
優(yōu)選地,步驟S9具體包括以下分步驟:
S91、判斷評估報告是否遺漏校對目標存在的信息小類;
S92、如果有,則將遺漏的校對目標存在的信息小類作為補充目標;
S93、判斷評估報告是否遺漏補充目標所在的信息大類;
S94、如果沒有,則將補充目標按格式補入到評估報告中對應的信息大類下;
S95、如果有,則將補充目標以及補充補充目標所在信息大類按格式補入到評估報告中。
優(yōu)選地,步驟S9中,對補入的內(nèi)容突出顯示。
本發(fā)明提出的一種輿情收集整理方法,根據(jù)主題進行網(wǎng)絡信息檢索獲取主題相關信息,以網(wǎng)絡大數(shù)據(jù)為信息檢索的來源,有利于保證輿情監(jiān)控的全面性,且基于網(wǎng)絡數(shù)據(jù)的快速更新,還有利于保證輿情掌控的實時性。
本發(fā)明中,根據(jù)關鍵詞對主題相關信息進行聚類,獲得多個信息小類。如此,將零散的主題相關信息轉換成具有一定聚集度的信息小類,避免了以零散的主題相關信息作為信息處理對象的繁瑣性,減少了工作量,提高了信息處理效率。
然后,根據(jù)語義相似度對各信息小類進行聚類,將信息小類歸納為信息大類,進一步提高了信息處理對象的聚集度。且將語義相似度大于相似度閾值的信息小類歸類生成信息大類,使得信息大類中囊括的信息小類表達的主題相關信息相似度高,對信息大類的處理相當于對表達語義相似的主題相關信息進行集中處理,即保證了信息處理的精確性,又保證了信息處理的效率。
本發(fā)明中,高信網(wǎng)站數(shù)據(jù)庫用于存儲發(fā)布信息真實度較高的且知名度較高的網(wǎng)站地址,通過高信網(wǎng)站數(shù)據(jù)庫中的來源網(wǎng)站對評估報告進行復查和補充,使得評估報告更加可信。
附圖說明
圖1為本發(fā)明提出的一種輿情收集整理方法流程圖。
具體實施方式
參照圖1,本發(fā)明提出的一種輿情收集整理方法,包括以下步驟。
S1、設置高信網(wǎng)站數(shù)據(jù)庫預存網(wǎng)站地址。本實施方式中,高信網(wǎng)站數(shù)據(jù)庫用于存儲發(fā)布信息真實度較高的且知名度較高的網(wǎng)站地址。
S2、輸入主題,并根據(jù)主題進行網(wǎng)絡信息檢索獲取主題相關信息。
S3、統(tǒng)計主題相關信息的來源網(wǎng)站以及瀏覽量。本步驟中,對檢索結果進行統(tǒng)計,有利于后續(xù)對檢索結果的調(diào)用和復查。
S4、提取各主題相關信息的關鍵詞,并根據(jù)關鍵詞對主題相關信息進行聚類,獲得多個信息小類。具體地,本步驟中將關鍵詞相同的主題相關信息進行聚類,獲得多個信息小類。
本步驟中,通過關鍵詞進行聚類,將零散的主題相關信息轉換成具有一定聚集度的信息小類,避免了以零散的主題相關信息作為信息處理對象的繁瑣性,減少了工作量,提高了信息處理效率。
S5、對信息小類的關鍵詞進行語義分析,根據(jù)語義相似度對各信息小類進行聚類,獲得多個信息大類,并提取各信息小類關鍵詞中語義相同的部分作為信息大類的名稱。本步驟中,可預設有相似度閾值,對信息小類的關鍵詞進行語義分析后,將語義相似度大于相似度閾值的信息小類進行聚類,獲得多個信息大類。
如此,通過將信息小類歸納為信息大類,進一步提高了信息處理對象的聚集度。且將語義相似度大于相似度閾值的信息小類歸類生成信息大類,使得信息大類中囊括的信息小類表達的主題相關信息相似度高,對信息大類的處理相當于對表達語義相似的主題相關信息進行集中處理,即保證了信息處理的精確性,又保證了信息處理的效率。本實施方式中,相似度閾值可又工作人員根據(jù)實際情況設置。
以下結合一個具體地實施例對步驟S5作出解釋。例如,步驟S4中,根據(jù)獲得地信息小類為A1、A2、A3、A4、A5、A6;根據(jù)A1、A2、A3、A4、A5、A6對應的關鍵詞提取的語義分別為AA1、AA2、AA3、AA4、AA5、AA6;首先,選擇A1為核心信息小類,且AA1與AA2語義相似度大于相似度閾值、AA1與AA3語義相似度大于相似度閾值,則將A1、A2、A3歸類到一個信息大類中。將A1、A2、A3聚類后,從剩余的零散信息A4、A5、A6中選擇A4為核心信息小類,并分別計算AA4與AA5的語義相似度和AA4與AA6的語義相似度,假設AA4與AA5的語義相似度和AA4與AA6的語義相似度均小于相似度閾值,則A4自成一個信息大類。然后計算AA5和AA6語義相似度,如果AA5和AA6語義相似度大于相似度閾值,則將A5、A6納入一個信息大類。至此,信息小類聚類完成。
S6、預設第一閾值和第二閾值。
S7、根據(jù)瀏覽量對各信息大類、信息大類中包含的信息小類以及信息小類中包含的主題相關信息進行排序。
S8、篩選排序位于第一閾值前的信息大類以及各信息大類中排序位于第二閾值前的信息小類繪制成評估報告輸出。本實施方式中,評估報告包括信息大類的名稱、各信息小類對應的關鍵詞以及信息小類中的瀏覽量最高的主題相關信息,并包括各信息大類的瀏覽量總值、信息小類的瀏覽量總值、主題相關信息的瀏覽量以及來源網(wǎng)址。
本實施方式中,評估報告的輸出,使得工作人員可直觀獲知各種輿情傾向,從而將模糊抽象的輿情監(jiān)控工作具象化、實體化,使得輿情監(jiān)控工作完滿完成。
S91、判斷評估報告是否遺漏校對目標存在的信息小類。
S92、如果有,則將遺漏的校對目標存在的信息小類作為補充目標。
S93、判斷評估報告是否遺漏補充目標所在的信息大類。
S94、如果沒有,則將補充目標按格式補入到評估報告中對應的信息大類下。
S95、如果有,則將補充目標以及補充補充目標所在信息大類按格式補入到評估報告中。
步驟S91至S95,通過獲取存在于高信網(wǎng)站數(shù)據(jù)庫中的來源網(wǎng)站對應的主題相關信息作為校對目標,根據(jù)校對目標所在信息小類及信息大類對評估報告進行補充。如此,相當于通過高信網(wǎng)站數(shù)據(jù)庫中的來源網(wǎng)站對評估報告進行復查和補充,使得評估報告更加可信。本實施方式中,在評估報告中對補入的內(nèi)容突出顯示,以便工作人員查閱。
以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),根據(jù)本發(fā)明的技術方案及其發(fā)明構思加以等同替換或改變,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。