本發(fā)明涉及社交網絡輿情分析技術領域,具體為一種基于社交網絡平臺的輿情分析方法及系統。
背景技術:
相比于傳統媒體,互聯網因其發(fā)展的迅速和使用的便利性,已逐步成為了反應社情民意最活躍、最快捷和最直接的渠道,對社會產生的影響力也越來越大,近年來也引起了國家相關部門和學術界的研究。在信息的傳播過程中,民眾基于互聯網發(fā)表、轉發(fā)和評論的輿情信息相互作用,相互影響。由于互聯網具有不受時空限制的特性,使得即便是相距甚遠的網民也能有高頻率的交互?;ヂ摼W的開放性也使用戶的行為不受限制,在某些特性環(huán)境的誘導下,網民間的情緒或行為會互相引導,互相感染,最終掀起輿論風暴。
互聯網輿情的發(fā)展往往伴隨著輿情話題的產生和民眾對輿情話題發(fā)表意見這兩種行為。隨著一個輿情話題的產生,到在網絡中傳播,民眾對其的交流與討論有可能將輿情話題意見往逐漸統一的趨勢發(fā)展。與此同時,輿情話題會在短時間內大范圍的擴散和快速的傳播,其中一些負面信息也隨著大范圍傳播,在進行輿情走勢分析時,往往比較關注網民的言論而忽視有對少人持此意見,往往重視解讀文字的內容而忽視網民的社會關系網絡,為此,我們提出了一種基于社交網絡平臺的輿情分析方法及系統投入使用,以解決上述問題。
技術實現要素:
本發(fā)明的目的在于提供一種基于社交網絡平臺的輿情分析方法及系統,以解決上述背景技術中提出的輿情話題會在短時間內大范圍的擴散和快速的傳播的同時其中一些負面信息也隨著大范圍傳播,在進行輿情走勢分析時,往往比較關注網民的言論而忽視有對少人持此意見,往往重視解讀文字的內容而忽視網民的社會關系網絡的問題。
為實現上述目的,本發(fā)明提供如下技術方案:一種基于社交網絡平臺的輿情分析方法,所述該基于社交網絡平臺的輿情分析方法,具體步驟如下:
S1:通過搜索引擎后臺的搜索日志,記錄網民IP地址、搜索時間、搜索詞和被點擊的結果網頁URL地址數據,通過統計分析用戶的搜索詞及搜索頻率,獲得數據集;
S2:對步驟S1中獲取的數據集中的自然語義文本處理為計算機可處理的結構化數據,并過濾掉重復的內容;
S3:經過預處理后的數據實施基于詞向量的聚類分析,采用優(yōu)化后的均值聚類,進行聚類后將每類數據合為一個文檔集合;
S4:依據步驟S3中的文檔集合,抽取其中出現頻率較高的搜索詞和被點擊的結果網頁URL地址數據信息,得到相關熱度的輿情結果。
優(yōu)選的,所述步驟S2中,對數據集的處理方法為:
S21:過濾具有針對性的對話互動信息,盡可能的消除噪聲數據;
S22:將數據集中的內嵌外部鏈接URL中的信息抽取并添加到社交平臺信息中;
S23:去除數據集中的分詞、停用詞和非法字符,初步得到干擾度較少的數據集信息。
一種基于社交網絡平臺的輿情分析系統,所述該基于社交網絡平臺的輿情分析系統包括信息采集層、調度層、輿情分析單元、輿情數據存儲和輿情信息服務。
優(yōu)選的,所述信息采集層對互聯網信息中的論壇、新聞、網頁、博客、貼吧和社區(qū)的信息進行實時的監(jiān)測和采集。
優(yōu)選的,所述調度層實現采集任務的下發(fā)和采集數據的去重,采集的范圍和頻率參數通過采集任務調度進行配置。
優(yōu)選的,所述輿情分析單元對采集的信息內容進行關鍵熱詞、趨勢分析、輿情管理、負面信息、專題檢測、連接分析、熱點發(fā)現、文本聚類和情感分析。
優(yōu)選的,所述輿情數據存儲內置存儲器,在存儲器中可存儲網頁快照和附件存儲。
優(yōu)選的,所述輿情信息服務具有輿情預警和輿情簡報功能,并提供專題服務。
優(yōu)選的,所述輿情預警設定了在指定時間內實例的負面信息達到相應數目的預警等級,具有對預警條件增刪改查功能,并能夠根據預警條件鑒定各實例的預警等級,輿情簡報以簡報的形式呈現每日每周重點輿情,且簡報有多種設計格式供選擇和編輯。
與現有技術相比,本發(fā)明的有益效果是:本發(fā)明能夠準確有效的分析出數據集的熱點話題,減少噪聲數據的采集,不但對部分數據集做出精確分析,而且通過聚類后的文檔集合能夠涵蓋對個數據集的集中分析。
附圖說明
圖1為本發(fā)明原理框圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
請參閱圖1,本發(fā)明提供一種技術方案:一種基于社交網絡平臺的輿情分析方法,所述該基于社交網絡平臺的輿情分析方法,具體步驟如下:
S1:通過搜索引擎后臺的搜索日志,記錄網民IP地址、搜索時間、搜索詞和被點擊的結果網頁URL地址數據,通過統計分析用戶的搜索詞及搜索頻率,獲得數據集;
S2:對步驟S1中獲取的數據集中的自然語義文本處理為計算機可處理的結構化數據,并過濾掉重復的內容,對數據集的處理方法為:
S21:過濾具有針對性的對話互動信息,盡可能的消除噪聲數據;
S22:將數據集中的內嵌外部鏈接URL中的信息抽取并添加到社交平臺信息中;
S23:去除數據集中的分詞、停用詞和非法字符,初步得到干擾度較少的數據集信息;
S3:經過預處理后的數據實施基于詞向量的聚類分析,采用優(yōu)化后的均值聚類,進行聚類后將每類數據合為一個文檔集合;
S4:依據步驟S3中的文檔集合,抽取其中出現頻率較高的搜索詞和被點擊的結果網頁URL地址數據信息,得到相關熱度的輿情結果。
一種基于社交網絡平臺的輿情分析系統,所述該基于社交網絡平臺的輿情分析系統包括信息采集層、調度層、輿情分析單元、輿情數據存儲和輿情信息服務,所述信息采集層對互聯網信息中的論壇、新聞、網頁、博客、貼吧和社區(qū)的信息進行實時的監(jiān)測和采集,所述調度層實現采集任務的下發(fā)和采集數據的去重,采集的范圍和頻率參數通過采集任務調度進行配置,所述輿情分析單元對采集的信息內容進行關鍵熱詞、趨勢分析、輿情管理、負面信息、專題檢測、連接分析、熱點發(fā)現、文本聚類和情感分析,所述輿情數據存儲內置存儲器,在存儲器中可存儲網頁快照和附件存儲,所述輿情信息服務具有輿情預警和輿情簡報功能,并提供專題服務,所述輿情預警設定了在指定時間內實例的負面信息達到相應數目的預警等級,具有對預警條件增刪改查功能,并能夠根據預警條件鑒定各實例的預警等級,輿情簡報以簡報的形式呈現每日每周重點輿情,且簡報有多種設計格式供選擇和編輯。
盡管已經示出和描述了本發(fā)明的實施例,對于本領域的普通技術人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權利要求及其等同物限定。