亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法

文檔序號:10612961閱讀:267來源:國知局
一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法
【專利摘要】本發(fā)明公開了一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法,包括以下步驟:S1、獲取主題,并根據(jù)主題進行網絡檢索獲取主題相關信息;S2、對各主題相關信息進行語義分析,并根據(jù)語義對主題相關信息進行聚類,獲得多個信息類;S3、獲取各信息類中包含的主題相關信息的來源網站的網信值,并計算網信值之和作為信息類的類信權值;S4、獲取類信權值最大的信息類作為最傾向信息類,并選取最傾向信息類中對應的網信值最大的主題相關信息作為最傾向主題信息;S5、輸出最傾向主題信息。本發(fā)明中,對信息類的處理相當于對表達語義相似的主題相關信息進行集中處理,即保證了信息處理的精確性,又保證了信息處理的效率。
【專利說明】
一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法
技術領域
[0001]本發(fā)明涉及輿情監(jiān)控技術領域,尤其涉及一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法。
【背景技術】
[0002]近年來,互聯(lián)網發(fā)展迅速,作為繼電視、廣播、報紙之外的第四媒體,已經成為反映社會輿情的一個重要載體。另一方面,由于網絡的開放性和虛擬性,網上輿情已經越來越復雜,對現(xiàn)實生活的影響與日倶增,一些重大的網絡輿情事件往往對社會產生較大的影響力。
[0003]輿情監(jiān)測的目的,即為準確有效地掌握網絡輿情現(xiàn)狀,加強對網絡輿情的及時監(jiān)測和跟蹤,以便準確快速地發(fā)現(xiàn)互聯(lián)網上的各類輿情,產生輿論導向并積極化解輿論危機,對促進社會和企業(yè)的健康發(fā)展具有重要的現(xiàn)實意義。對政府部門、公眾媒體和大型企業(yè)來說,如何加強對網絡輿情的及時監(jiān)測,以及時采取措施進行有效應對,成為網絡輿情管理的一大難點。

【發(fā)明內容】

[0004]基于【背景技術】存在的技術問題,本發(fā)明提出了一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法。
[0005]本發(fā)明提出的一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法,包括以下步驟:
[0006]S1、獲取主題,并根據(jù)主題進行網絡檢索獲取主題相關信息;
[0007]S2、對各主題相關信息進行語義分析,并根據(jù)語義對主題相關信息進行聚類,獲得多個信息類;
[0008]S3、獲取各信息類中包含的主題相關信息的來源網站的網信值,并計算網信值之和作為信息類的類信權值;
[0009]S4、獲取類信權值最大的信息類作為最傾向信息類,并選取最傾向信息類中對應的網信值最大的主題相關信息作為最傾向主題信息;
[0010]S5、輸出最傾向主題信息。
[0011 ]優(yōu)選地,步驟S2具體為:對各主題相關信息進行語義分析,提取語義,然后計算任意兩條主題相關信息的語義相似度,并將語義相似度大于相似度閾值的主題相關信息歸類生成信息類。
[0012]優(yōu)選地,步驟S2具體包括以下步驟:
[0013]S21、對各主題相關信息進行語義分析,提取語義;
[0014]S22、任選一條主題相關信息作為核心信息,計算核心信息與剩余的各主題相關信息的語義相似度;
[0015]S23、新建一個信息類,將核心信息以及與核心信息語義相似度大于相似度閾值的主題相關信息納入信息類中;
[0016]S24、從未納入信息類的主題相關信息中任選一條主題相關信息作為核心信息,計算核心信息與剩余的各主題相關信息的語義相似度;
[0017]S25、新建一個信息類,將核心信息以及與核心信息語義相似度大于相似度閾值的主題相關信息納入新的信息類中;
[0018]S26、重復步驟S24和步驟S25,直至將所有主題相關信息納入信息類中。
[0019]優(yōu)選地,還包括步驟SA、預設網信數(shù)據(jù)庫,網信數(shù)據(jù)庫中存儲有已知網信值的網站地址及對應的網信值;
[0020]步驟S3具體包括以下步驟:
[0021]S31、依次將各主題相關信息的來源網站網址與網信數(shù)據(jù)庫中存儲的網站地址進行匹配;
[0022]S32、如果來源網站網址存在于網信數(shù)據(jù)庫,則直接調用網信值;
[0023]S33、如果來源網站網址未存在于網信數(shù)據(jù)庫,則根據(jù)來源網站內容計算網信值;
[0024]S34、計算信息類中包含的主題相關信息對應的網信值之和作為信息類的類信權值。
[0025]優(yōu)選地,步驟S33中根據(jù)來源網站內容計算網信值的方法為:從帶測評網站中獲得多條信息,然后對信息真實性進行判斷,并根據(jù)信息中真實信息所占比例評估網信值。
[0026]優(yōu)選地,步驟S5具體為:獲得各信息類中對應的網信值最大的主題相關信息作為類代表信息,然后將信息類的類信權值和類代表信息制成測評報告輸出,并對最傾向主題信息突出顯示。本發(fā)明提出的一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法,通過程序基于網絡大數(shù)據(jù)進行主題檢索,有利于保證信息檢索的全面性,避免輿情監(jiān)控中的信息遺漏。
[0027]本發(fā)明中,對各主題相關信息進行語義分析,并根據(jù)語義對主題相關信息進行聚類,獲得多個信息類,即將零散的主題相關信息根據(jù)語義相似度轉換成一個個信息類。如此,使得對于零散的主題相關信息的分析處理轉換成了信息類的分析處理,簡化了信息處理工作。且通過計算任意兩條主題相關信息的語義相似度,并將語義相似度大于相似度閾值的主題相關信息歸類生成信息類,使得信息類中囊括的主題相關信息相似度高,對信息類的處理相當于對表達語義相似的主題相關信息進行集中處理,即保證了信息處理的精確性,又保證了信息處理的效率。
[0028]本發(fā)明中,類信權值作為信息類的可信度參考標準,其計算過程中參考了信息類中每一條主題相關信息的可信度,且類信權值的獲取對于取值越大的網信值依賴程度越高,從而保證了類信權值的可靠程度。類信權值的引入,使得各信息類的評估更加具象化。
[0029]本發(fā)明中,最傾向主題信息作為輿情監(jiān)控的結果輸出,工作人員通過最傾向主題信息可直觀的獲知該主題的輿情傾向。
【附圖說明】
[0030]圖1為本發(fā)明提出的一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法流程圖;
[0031]圖2為本發(fā)明提出的一種基于網絡大數(shù)據(jù)的輿情監(jiān)控系統(tǒng)框圖。
【具體實施方式】
[0032]參照圖1,本發(fā)明提出的一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法,包括以下步驟。
[0033]S1、獲取主題,并根據(jù)主題進行網絡檢索獲取主題相關信息。本實施方式中,主題由工作人員提供,然后通過程序基于網絡大數(shù)據(jù)進行主題檢索,有利于保證信息檢索的全面性,避免輿情監(jiān)控中的信息遺漏。
[0034]S21、對各主題相關信息進行語義分析,提取語義。
[0035]S22、任選一條主題相關信息作為核心信息,計算核心信息與剩余的各主題相關信息的語義相似度。
[0036]S23、新建一個信息類,將核心信息以及與核心信息語義相似度大于相似度閾值的主題相關信息納入信息類中。
[0037]S24、從未納入信息類的主題相關信息中任選一條主題相關信息作為核心信息,計算核心信息與剩余的各主題相關信息的語義相似度。
[0038]S25、新建一個信息類,將核心信息以及與核心信息語義相似度大于相似度閾值的主題相關信息納入新的信息類中。
[0039]S26、重復步驟S24和步驟S25,直至將所有主題相關信息納入信息類中。
[0040]以下結合一個具體地實施例對步驟S21至S26作出解釋。例如,步驟SI中,根據(jù)主題獲得主題相關信息為Al、A2、A3、A4、A5、A6 ;步驟S21中,根據(jù)Al、A2、A3、A4、A5、A6提取的語義分別為441^42^43^44^45^46;步驟322中選擇41為核心信息,且441與442語義相似度大于相似度閾值、AAl與AA3語義相似度大于相似度閾值,則步驟S23中,將A1、A2、A3歸類到一個信息類中。將A1、A2、A3聚類后,從剩余的零散信息A4、A5、A6中選擇A4為核心信息,并分別計算AA4與AA5的語義相似度和AA4與AA6的語義相似度,假設AA4與AA5的語義相似度和AA4與AA6的語義相似度均小于相似度閾值,則A4自成一個信息類。然后計算AA5和AA6語義相似度,如果AA5和AA6語義相似度大于相似度閾值,則將A5、A6納入一個信息類。至此,主題相關信息聚類完成。
[0041]本實施方式中,通過步驟S21至S26,對各主題相關信息進行語義分析,并根據(jù)語義對主題相關信息進行聚類,獲得多個信息類,即將零散的主題相關信息根據(jù)語義相似度轉換成一個個信息類。如此,使得對于零散的主題相關信息的分析處理轉換成了信息類的分析處理,簡化了信息處理工作。且通過計算任意兩條主題相關信息的語義相似度,并將語義相似度大于相似度閾值的主題相關信息歸類生成信息類,使得信息類中囊括的主題相關信息相似度高,對信息類的處理相當于對表達語義相似的主題相關信息進行集中處理,即保證了信息處理的精確性,又保證了信息處理的效率。
[0042]SA、預設網信數(shù)據(jù)庫,網信數(shù)據(jù)庫中存儲有已知網信值的網站地址及對應的網信值。
[0043]S31、依次將各主題相關信息的來源網站網址與網信數(shù)據(jù)庫中存儲的網站地址進行匹配。
[0044]S32、如果來源網站網址存在于網信數(shù)據(jù)庫,則直接調用網信值。
[0045]S33、如果來源網站網址未存在于網信數(shù)據(jù)庫,則根據(jù)來源網站內容計算網信值。
[0046]本實施方式中,網信數(shù)據(jù)庫的建立,便于網信值的直接調用,有利于節(jié)約處理時間,提高效率。通過步驟S33又可以對網信數(shù)據(jù)庫的存儲限制進行補充,從而,提高網信值獲取的全面性與靈活性,保證后續(xù)處理中網信值的及時提供。
[0047]步驟S33中根據(jù)來源網站內容計算網信值的方法為:從帶測評網站中獲得多條信息,然后對信息真實性進行判斷,并根據(jù)信息中真實信息所占比例評估網信值。即,網信值計算模型為:T =真實信息數(shù)量/篩選信息數(shù)量。其中,篩選信息數(shù)量為從帶測評網站中隨機選取的信息數(shù)量,真實信息數(shù)量為選取的信息數(shù)量中真實信息的數(shù)量,可知,真實信息數(shù)量小于或等于篩選信息數(shù)量。本實施方式中,為了便于真實信息數(shù)量的確認,從帶測評網站中隨機選取信息后,可從已知網信值較高如官網對選取的信息進行檢索,根據(jù)檢索結果對選取的信息進行真實性確認。
[0048]S34、計算信息類中包含的主題相關信息對應的網信值之和作為信息類的類信權值。
[0049]步驟S31至S34,獲取各信息類中包含的主題相關信息的來源網站的網信值,并計算網信值之和作為信息類的類信權值。類信權值作為信息類的可信度參考標準,其計算過程中參考了信息類中每一條主題相關信息的可信度,且類信權值的獲取對于取值越大的網信值依賴程度越高,從而保證了類信權值的可靠程度。類信權值的引入,使得各信息類的評估更加具象化。
[0050]S4、獲取類信權值最大的信息類作為最傾向信息類,并選取最傾向信息類中對應的網信值最大的主題相關信息作為最傾向主題信息。
[0051 ] S5、輸出最傾向主題信息。本步驟具體為:獲得各信息類中對應的網信值最大的主題相關信息作為類代表信息,然后將信息類的類信權值和類代表信息制成測評報告輸出,并對最傾向主題信息突出顯示。
[0052]本實施方式中,最傾向主題信息作為輿情監(jiān)控的結果輸出,工作人員通過最傾向主題信息可直觀的獲知該主題的輿情傾向。
[0053]以下結合一種具體地基于網絡大數(shù)據(jù)的輿情監(jiān)控系統(tǒng)對以上方法做進一步說明。
[0054]參照圖2,該系統(tǒng)包括主題信息檢索模塊、緩存模塊、網信預設模塊、聚類模塊、傾向計算模塊和測評輸出模塊。
[0055]主題信息檢索模塊包括輸入單元和網絡爬蟲。輸入單元用于輸入主題,網絡爬蟲與輸入單元連接,其根據(jù)主題進行網絡檢索獲取主題相關信息。。
[0056]緩存模塊與主題信息檢索模塊連接,其用于存儲網絡爬蟲檢索到的主題相關信息,并對各主題相關信息的來源網站進行關聯(lián)存儲。緩存模塊的設置為主題信息檢索模塊減輕了存儲負擔,有利于保證網絡爬蟲的工作效率。
[0057]本實施方式中,每當主題信息檢索模塊獲得新的主題,緩存模塊清零進行新的數(shù)據(jù)存儲,以避免緩存模塊空間被占用。
[0058]網信預設模塊包括網信數(shù)據(jù)庫和網信評估單元。
[0059]網信評估單元用于根據(jù)網站內容計算該網站的網信值。具體地,網信評估單元從帶測評網站中獲得多條信息,然后對信息真實性進行判斷,并根據(jù)信息中真實信息所占比例評估網?目值。
[0060]網信值計算模型為:T=真實信息數(shù)量/篩選信息數(shù)量。其中,篩選信息數(shù)量為網信評估單元從帶測評網站中隨機選取的信息數(shù)量,真實信息數(shù)量為選取的信息數(shù)量中真實信息的數(shù)量,可知,真實信息數(shù)量小于或等于篩選信息數(shù)量。
[0061]本實施方式中,為了便于真實信息數(shù)量的確認,網信評估單元從帶測評網站中隨機選取信息后,可從已知網信值較高如官網對選取的信息進行檢索,根據(jù)檢索結果對選取的信息進行真實性確認。
[0062]網信數(shù)據(jù)庫用于存儲網站地址及對應的網信值,以便網信值的直接調用。本實施方式中,為了適應網絡的快速變化,對于網信數(shù)據(jù)庫中已經存儲的網站,網信評估單元也根據(jù)預設的周期值進展網信值計算,并根據(jù)新計算的網信值對存儲的網信值進行更新。另外,對于網信數(shù)據(jù)庫中沒有存儲的網站,則根據(jù)網信評估單元的計算結果補充。
[0063]本實施方式中,網信數(shù)據(jù)庫的設置,有利于網信值的直接調用,提高工作效率,節(jié)約臨時計算網信值的時間;網信評估單元的設置,可對網信數(shù)據(jù)庫中的網信值進行更新和補充,提高了網信預設模塊的適應能力,避免了網信數(shù)據(jù)庫的狹隘。
[0064]聚類模塊連接緩存模塊,用于對緩存模塊中的各主題相關信息進行語義分析,并將語義相似度大于預設相似度閾值的主題相關信息進行歸類,獲得多個信息類。如此,通過語義分析,對語義相似的信息進行聚類處理,將零散的信息處理工作轉換為信息類處理工作,通過化零為整,簡化了后續(xù)工作的繁瑣程度。且,通過語義分析,同一信息類中的主題相關信息的語義基本相似,避免了聚類處理可能造成的語義覆蓋問題。
[0065]聚類模塊還連接緩存模塊和網信預設模塊,其獲取各主題相關信息來源網站的網信值并與對應的主題相關信息關聯(lián)存儲。即,聚類模塊中生成信息類后,從緩存模塊中為信息類中各主題相關信息調用來源網站的網信值并關聯(lián)存儲。具體地聚類模塊從緩存模塊調用各主題相關信息的來源網站,然后將各來源網站網址與網信數(shù)據(jù)庫中存儲的網站網址相匹配。如果,主題相關信息的來源網站存儲于網信數(shù)據(jù)庫中,則直接調用對應的網信值與該主題相關信息對應存儲在信息類中;如果主題相關信息的來源網站未存儲于網信數(shù)據(jù)庫中,則通過網信評估單元對該來源網站進行網信值評估,并將評估獲得的網信值與該主題相關信息對應存儲在信息類中,且還該來源網站網址與評估獲得的網信值補充到網信數(shù)據(jù)庫中。
[0066]傾向計算模塊與聚類模塊連接,分別計算各信息類中存儲的網信值之和作為類信權值,并提取類信權值最大的信息類作為最傾向信息類。本實施方式中,類信權值相當于所有發(fā)布同一語義的信息的網站的網信值之和,通過類信權值的對比,可以明確的確定該主題檢索結果中可信度最高的、傳播最廣泛的一種輿情傾向。即,本實施方式中,通過引入類型權值,使得模糊的輿情分析工作明確化、具象化,且分析結果可信度高。
[0067 ]傾向計算模塊在最傾向信息類中通過來源網站網信值對比選擇對應的網信值最大的主題相關信息作為最傾向主題信息。最傾向信息類中收容了語義相似的多條信息,但是這些信息在細節(jié)上或多或少有些差異。本實施方式中,通過引入最傾向主題信息,使得該主題的輿情傾向的表達更加明確,便于工作人員對于輿情進行整理。
[0068]測評輸出模塊與傾向計算模塊連接。測評輸出模塊從傾向計算模塊獲得各信息類中對應的網信值最大的主題相關信息作為類代表信息,然后將信息類的類信權值和類代表信息制成測評報告輸出??梢?,最傾向主題信息即為最傾向信息類的類代表信息。本實施方式中,為了便于測評報告的表達,測評報告中對最傾向信息類和最傾向主題信息突出顯示。此外,測評報告還包括類代表信息來源網站的地址和網信值,以便工作人員進行核查。
[0069]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,根據(jù)本發(fā)明的技術方案及其發(fā)明構思加以等同替換或改變,都應涵蓋在本發(fā)明的保護范圍之內。
【主權項】
1.一種基于網絡大數(shù)據(jù)的輿情監(jiān)控方法,其特征在于,包括以下步驟: 51、獲取主題,并根據(jù)主題進行網絡檢索獲取主題相關信息; 52、對各主題相關信息進行語義分析,并根據(jù)語義對主題相關信息進行聚類,獲得多個信息類; 53、獲取各信息類中包含的主題相關信息的來源網站的網信值,并計算網信值之和作為信息類的類信權值; 54、獲取類信權值最大的信息類作為最傾向信息類,并選取最傾向信息類中對應的網信值最大的主題相關信息作為最傾向主題信息; 55、輸出最傾向主題信息。2.如權利要求1所述的基于網絡大數(shù)據(jù)的輿情監(jiān)控方法,其特征在于,步驟S2具體為:對各主題相關信息進行語義分析,提取語義,然后計算任意兩條主題相關信息的語義相似度,并將語義相似度大于相似度閾值的主題相關信息歸類生成信息類。3.如權利要求2所述的基于網絡大數(shù)據(jù)的輿情監(jiān)控方法,其特征在于,步驟S2具體包括以下步驟: 521、對各主題相關信息進行語義分析,提取語義; 522、任選一條主題相關信息作為核心信息,計算核心信息與剩余的各主題相關信息的語義相似度; 523、新建一個信息類,將核心信息以及與核心信息語義相似度大于相似度閾值的主題相關信息納入信息類中; 524、從未納入信息類的主題相關信息中任選一條主題相關信息作為核心信息,計算核心信息與剩余的各主題相關信息的語義相似度; 525、新建一個信息類,將核心信息以及與核心信息語義相似度大于相似度閾值的主題相關信息納入新的信息類中; 526、重復步驟S24和步驟S25,直至將所有主題相關信息納入信息類中。4.如權利要求1所述的基于網絡大數(shù)據(jù)的輿情監(jiān)控方法,其特征在于,還包括步驟SA、預設網信數(shù)據(jù)庫,網信數(shù)據(jù)庫中存儲有已知網信值的網站地址及對應的網信值; 步驟S3具體包括以下步驟: 531、依次將各主題相關信息的來源網站網址與網信數(shù)據(jù)庫中存儲的網站地址進行匹配; 532、如果來源網站網址存在于網信數(shù)據(jù)庫,則直接調用網信值; 533、如果來源網站網址未存在于網信數(shù)據(jù)庫,則根據(jù)來源網站內容計算網信值; 534、計算信息類中包含的主題相關信息對應的網信值之和作為信息類的類信權值。5.如權利要求4所述的基于網絡大數(shù)據(jù)的輿情監(jiān)控方法,其特征在于,步驟S33中根據(jù)來源網站內容計算網?目值的方法為:從帶測評網站中獲得多條?目息,然后對?目息真實性進行判斷,并根據(jù)信息中真實信息所占比例評估網信值。6.如權利要求1所述的基于網絡大數(shù)據(jù)的輿情監(jiān)控方法,其特征在于,步驟S5具體為:獲得各信息類中對應的網信值最大的主題相關信息作為類代表信息,然后將信息類的類信權值和類代表信息制成測評報告輸出,并對最傾向主題信息突出顯示。
【文檔編號】G06F17/30GK105975642SQ201610562038
【公開日】2016年9月28日
【申請日】2016年7月15日
【發(fā)明人】黨連坤, 石曄
【申請人】合肥指南針電子科技有限責任公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1