本發(fā)明涉及輿情分析技術(shù)領(lǐng)域,尤其涉及一種輿情信息歸類評估系統(tǒng)。
背景技術(shù):
輿情監(jiān)控,整合互聯(lián)網(wǎng)信息采集技術(shù)及信息智能處理技術(shù)通過對互聯(lián)網(wǎng)海量信息自動抓取、自動分類聚類、主題檢測、專題聚焦,實現(xiàn)用戶的網(wǎng)絡(luò)輿情監(jiān)測和新聞專題追蹤等信息需求,形成簡報、報告、圖表等分析結(jié)果,為客戶全面掌握群眾思想動態(tài),做出正確輿論引導(dǎo),提供分析依據(jù)。
“網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)”是征對在一定的社會空間內(nèi),圍繞中介性社會事件的發(fā)生、發(fā)展和變化,民眾對社會管理者產(chǎn)生和持有的社會政治態(tài)度于網(wǎng)絡(luò)上表達出來意愿集合而進行的計算機監(jiān)測的系統(tǒng)統(tǒng)稱。
“網(wǎng)絡(luò)輿情”是較多群眾關(guān)于社會中各種現(xiàn)象、問題所表達的信念、態(tài)度、意見和情緒等等表現(xiàn)的總和。網(wǎng)絡(luò)輿情形成迅速,對社會影響巨大,加強互聯(lián)網(wǎng)信息監(jiān)管的同時,組織力量開展信息匯集整理和分析,對于及時應(yīng)對網(wǎng)絡(luò)突發(fā)的公共事件和全面掌握社情民意很有意義。
技術(shù)實現(xiàn)要素:
基于背景技術(shù)存在的技術(shù)問題,本發(fā)明提出了一種輿情信息歸類評估系統(tǒng)。
本發(fā)明提出的一種輿情信息歸類評估系統(tǒng),包括:
主題信息檢索模塊,用于根據(jù)主題進行網(wǎng)絡(luò)信息檢索,獲取主題相關(guān)信息,并對各主題相關(guān)信息的來源網(wǎng)站和瀏覽量進行統(tǒng)計;
關(guān)鍵詞提取模塊,其與主題信息檢索模塊連接獲取主題相關(guān)信息,并對各主題相關(guān)信息提取關(guān)鍵詞;
第一聚類模塊,其分別與主題信息檢索模塊和關(guān)鍵詞提取模塊連接,其將關(guān)鍵詞相同的主題相關(guān)信息進行聚類,獲得多個信息小類,且各信息小類以關(guān)鍵詞標注;
語義分析模塊,與第一聚類模塊連接,其對各信息小類的關(guān)鍵詞進行語義分析,并將關(guān)鍵詞的語義相似度大于預(yù)設(shè)相似度閾值的信息小類進行聚類,獲得多個信息大類,并提取各信息小類關(guān)鍵詞中語義相同的部分作為信息大類的名稱;
瀏覽量統(tǒng)計模塊,其分別連接主題信息檢索模塊和語義分析模塊,其分別計算各信息小類中包含的主題相關(guān)信息的瀏覽量總值和各信息大類中包含的信息小類的瀏覽量總值;并根據(jù)瀏覽量對各信息大類、信息大類中包含的信息小類以及信息小類中包含的主題相關(guān)信息進行排序;
評估報告輸出模塊,其與瀏覽量統(tǒng)計模塊和主題信息檢索模塊連接;評估報告輸出模塊中設(shè)置有第一閾值和第二閾值;評估報告輸出模塊篩選排序位于第一閾值前的信息大類以及各信息大類中排序位于第二閾值前的信息小類,然后將篩選出的信息大類的名稱、各信息小類的標注關(guān)鍵詞以及信息小類中的瀏覽量最高的主題相關(guān)信息繪制成評估報告輸出,并在評估報告中錄入各信息大類的瀏覽量總值、信息小類的瀏覽量總值、主題相關(guān)信息的瀏覽量以及來源網(wǎng)址。
優(yōu)選地,還包括網(wǎng)站補充模塊,其內(nèi)部預(yù)設(shè)有高信網(wǎng)站數(shù)據(jù)庫,高新網(wǎng)站數(shù)據(jù)庫中存儲有多個網(wǎng)站網(wǎng)址;網(wǎng)站補充模塊分別與主題信息檢索模塊、語義分析模塊和評估報告輸出模連接;網(wǎng)站補充模塊獲取存在于高信網(wǎng)站數(shù)據(jù)庫中的來源網(wǎng)站對應(yīng)的主題相關(guān)信息作為校對目標,并判斷評估報告是否收容所有校對目標所在信息小類,并根據(jù)判斷結(jié)果對評估報告進行補充。
優(yōu)選地,如果有校對目標所在信息小類未納入評估報告,則獲取遺漏的校對目標所在信息小類作為補充對象;如果補充對象所在信息大類存在于生成的評估報告中,則將補充對象補入評估報告中對應(yīng)的信息大類下;如果補充對象所在信息大類未存在于生成的評估報告中,則將補充對象以及補充對象所在信息大類補入評估報告。
優(yōu)選地,評估報告中對于根據(jù)高信網(wǎng)站數(shù)據(jù)庫補入的內(nèi)容突出顯示。
優(yōu)選地,主題信息檢索模塊包括輸入單元和網(wǎng)絡(luò)爬蟲,輸入單元用于輸入主題,網(wǎng)絡(luò)爬蟲與輸入單元連接,其根據(jù)主題進行網(wǎng)絡(luò)檢索獲取主題相關(guān)信息。
優(yōu)選地,語義分析模塊中預(yù)設(shè)的相似度閾值可人工編輯。
本發(fā)明中,主題信息檢索模塊根據(jù)工作人員輸入的主題基于網(wǎng)絡(luò)大數(shù)據(jù)進行主題檢索,有利于保證信息檢索的全面性,避免輿情監(jiān)控中的信息遺漏。且對各主題相關(guān)信息的來源網(wǎng)站和瀏覽量進行統(tǒng)計,有利于后續(xù)對檢索結(jié)果的調(diào)用和復(fù)查。
本發(fā)明中,通過關(guān)鍵詞對主題相關(guān)信息進行聚類獲得多個信息小類,然后根據(jù)信息小類標注的關(guān)鍵詞的語義相似度對信息小類進行聚類獲得多個信息大類,如此,將零散的主題相關(guān)信息的處理轉(zhuǎn)換為信息小類、信息大類的處理,提高了處理對象的聚集度,避免了以零散的主題相關(guān)信息作為信息處理對象的繁瑣性,減少了工作量,提高了信息處理效率。
本發(fā)明中,評估報告輸出模塊中設(shè)置有第一閾值和第二閾值,以便根據(jù)瀏覽量對于信息大類、信息小類進行篩選,刪減了評估報告錄入的內(nèi)容,使得評估報告簡潔明了,便于工作人員查閱。且評估報告中錄入的內(nèi)容為瀏覽量較高的信息,從而,保證了評估報告對于輿情傾向表達的真實性。另外,通過第二閾值整理各信息大類中的信息小類,使得評估報告中對于輿情傾向的表達更加完整、全面。
附圖說明
圖1為本發(fā)明提出的一種輿情信息歸類評估系統(tǒng)框圖。
具體實施方式
參照圖1,本發(fā)明提出的一種輿情信息歸類評估系統(tǒng),包括主題信息檢索模塊、關(guān)鍵詞提取模塊、第一聚類模塊、語義分析模塊、瀏覽量統(tǒng)計模塊、評估報告輸出模塊和網(wǎng)站補充模塊。
主題信息檢索模塊用于根據(jù)主題進行網(wǎng)絡(luò)信息檢索,獲取主題相關(guān)信息,并對各主題相關(guān)信息的來源網(wǎng)站和瀏覽量進行統(tǒng)計。具體地,主題信息檢索模塊包括輸入單元和網(wǎng)絡(luò)爬蟲,輸入單元用于輸入主題,網(wǎng)絡(luò)爬蟲與輸入單元連接,其根據(jù)主題進行網(wǎng)絡(luò)檢索獲取主題相關(guān)信息。
本實施方式中,主題由工作人員通過輸入單元提供,然后通過網(wǎng)絡(luò)爬蟲基于網(wǎng)絡(luò)大數(shù)據(jù)進行主題檢索,有利于保證信息檢索的全面性,避免輿情監(jiān)控中的信息遺漏。且對各主題相關(guān)信息的來源網(wǎng)站和瀏覽量進行統(tǒng)計,有利于后續(xù)對檢索結(jié)果的調(diào)用和復(fù)查。
關(guān)鍵詞提取模塊與主題信息檢索模塊連接獲取主題相關(guān)信息,并對各主題相關(guān)信息提取關(guān)鍵詞。關(guān)鍵詞的提取相當于對各主題相關(guān)信息進行去冗余,提取要義,使得主題相關(guān)信息的表達更加簡潔、明確。
第一聚類模塊分別與主題信息檢索模塊和關(guān)鍵詞提取模塊連接,其將關(guān)鍵詞相同的主題相關(guān)信息進行聚類,獲得多個信息小類,且各信息小類以關(guān)鍵詞標注。如此,通過關(guān)鍵詞進行聚類,將零散的主題相關(guān)信息轉(zhuǎn)換成具有一定聚集度的信息小類,避免了以零散的主題相關(guān)信息作為信息處理對象的繁瑣性,減少了工作量,提高了信息處理效率。各信息小類以關(guān)鍵詞標注,便于信息小類的區(qū)分,且便于對信息小類中歸納的主題相關(guān)信息的表達。
語義分析模塊第一聚類模塊連接,其對各信息小類的關(guān)鍵詞進行語義分析,并將關(guān)鍵詞的語義相似度大于預(yù)設(shè)相似度閾值的信息小類進行聚類,獲得多個信息大類,并提取各信息小類關(guān)鍵詞中語義相同的部分作為信息大類的名稱。如此,通過將信息小類歸納為信息大類,進一步提高了信息處理對象的聚集度,減少了工作量,提高了信息處理效率。
本實施方式中,語義分析模塊中預(yù)設(shè)的相似度閾值可人工編輯,以便工作人員根據(jù)需要于色好相似度閾值,提高語義分析模塊工作的靈活性和適用廣度。
瀏覽量統(tǒng)計模塊分別連接主題信息檢索模塊和語義分析模塊。瀏覽量統(tǒng)計模塊分別計算各信息小類中包含的主題相關(guān)信息的瀏覽量總值和各信息大類中包含的信息小類的瀏覽量總值;并根據(jù)瀏覽量對各信息大類、信息大類中包含的信息小類以及信息小類中包含的主題相關(guān)信息進行排序。如此,可根據(jù)瀏覽量直觀的獲知各信息大類、信息小類表達的輿情傾向。
評估報告輸出模塊與瀏覽量統(tǒng)計模塊和主題信息檢索模塊連接。評估報告輸出模塊中設(shè)置有第一閾值和第二閾值。評估報告輸出模塊篩選排序位于第一閾值前的信息大類以及各信息大類中排序位于第二閾值前的信息小類,然后將篩選出的信息大類的名稱、各信息小類的標注關(guān)鍵詞以及信息小類中的瀏覽量最高的主題相關(guān)信息繪制成評估報告輸出,并在評估報告中錄入各信息大類的瀏覽量總值、信息小類的瀏覽量總值、主題相關(guān)信息的瀏覽量以及來源網(wǎng)址。
本實施方式中,第一閾值和第二閾值的設(shè)置,根據(jù)瀏覽量對于信息大類、信息小類進行篩選,刪減了評估報告錄入的內(nèi)容,使得評估報告簡潔明了,便于工作人員查閱。且本實施方式中,評估報告中錄入的內(nèi)容為瀏覽量較高的信息,從而,保證了評估報告對于輿情傾向表達的真實性。另外,通過第二閾值整理各信息大類中的信息小類,使得評估報告中對于輿情傾向的表達更加完整、全面。
網(wǎng)站補充模塊內(nèi)部預(yù)設(shè)有高信網(wǎng)站數(shù)據(jù)庫,高新網(wǎng)站數(shù)據(jù)庫中存儲有多個網(wǎng)站網(wǎng)址,具體為發(fā)布信息真實度較高的且知名度較高的網(wǎng)站地址。網(wǎng)站補充模塊分別與主題信息檢索模塊、語義分析模塊和評估報告輸出模連接。
網(wǎng)站補充模塊獲取存在于高信網(wǎng)站數(shù)據(jù)庫中的來源網(wǎng)站對應(yīng)的主題相關(guān)信息作為校對目標,并判斷評估報告是否收容所有校對目標所在信息小類,并根據(jù)判斷結(jié)果對評估報告進行補充。具體地,如果有校對目標所在信息小類未納入評估報告,則獲取遺漏的校對目標所在信息小類作為補充對象;如果補充對象所在信息大類存在于生成的評估報告中,則將補充對象補入評估報告中對應(yīng)的信息大類下;如果補充對象所在信息大類未存在于生成的評估報告中,則將補充對象以及補充對象所在信息大類補入評估報告。評估報告中對于根據(jù)高信網(wǎng)站數(shù)據(jù)庫補入的內(nèi)容突出顯示。
如此,相當于通過高信網(wǎng)站數(shù)據(jù)庫中的來源網(wǎng)站對評估報告進行復(fù)查和補充,使得評估報告更加全面可信。
以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。