一種以矩陣計算為基礎進行輿論信息抽取的方法及系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及網(wǎng)絡輿情領域,尤其涉及一種以矩陣計算為基礎進行輿論信息抽取的方法及系統(tǒng)。
【背景技術】
[0002]隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡媒體已被公認為是繼報紙、廣播、電視之后的“第四媒體”,網(wǎng)絡成為反映社會輿情的主要載體之一。
[0003]網(wǎng)絡輿情是通過互聯(lián)網(wǎng)傳播的,公眾對現(xiàn)實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的情感、態(tài)度、意見、言論或觀點,其主要通過論壇BBS上的發(fā)帖評論及跟貼、博客Blog等實現(xiàn)并加以強化。由于互聯(lián)網(wǎng)具有虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點,越來越多的網(wǎng)民樂意通過這種渠道來表達觀點、傳播思想。
[0004]網(wǎng)絡輿情是一股強大的輿論力量,會反作用于熱點事件并對社會發(fā)展和事態(tài)進程產(chǎn)生一定的影響。由于網(wǎng)絡的開放性,會導致網(wǎng)絡輿情形成迅速,對社會影響巨大。特別是當出現(xiàn)負面的網(wǎng)絡新聞輿情時,若不能及時了解、有效引導,很容易形成輿論危機,嚴重時甚至影響公共安全。對網(wǎng)絡新聞輿論危機的積極化解,對維護社會穩(wěn)定、促進國家發(fā)展具有重要的現(xiàn)實意義,也是創(chuàng)建和諧社會的應有內(nèi)涵。對網(wǎng)絡新聞輿情觀點進行收集具有相當重要的意義,在一個熱點事件的發(fā)展過程中網(wǎng)民觀點起著至關重要的作用,甚至可以被認為是網(wǎng)絡新聞輿情的核心。
[0005]最近,隨著互聯(lián)網(wǎng)技術的迅速發(fā)展,以新聞媒體等為代表的新媒體打破信息的控制和壟斷,在網(wǎng)絡上人們自由表達自己的態(tài)度和意見,不再像過去那么容易地無條件接受,相反,不同階層的利益訴求紛紛呈現(xiàn),不同思想觀點正面碰撞。對相關政府部門來說,如何及時準確的了解網(wǎng)絡新聞輿情,加強對網(wǎng)絡新聞輿論的及時監(jiān)測、有效引導,成為網(wǎng)絡新聞輿情管理的一大難點。在這種情況下,建設能夠覆蓋新聞數(shù)據(jù)源的新聞輿情監(jiān)測系統(tǒng)十分必要,此類系統(tǒng)可針對新的新聞媒介傳播環(huán)境,進一步深入研究新聞輿情的熱點研判方法以及新媒體帶來的影響,對新聞輿情研究進行豐富和完善。
[0006]雖然目前已經(jīng)有很多單位針對網(wǎng)絡新聞輿情監(jiān)控提出了一些不同的解決方案。但是,需要本領域技術人員解決的技術問題是如何提高判斷網(wǎng)絡新聞輿情信息的效率和精確度。因為截至目前,尚未有較為高效、準確的針對新聞媒體數(shù)據(jù)的網(wǎng)絡輿情監(jiān)測系統(tǒng)。
【發(fā)明內(nèi)容】
[0007]針對現(xiàn)有技術的不足,本發(fā)明提出一種以矩陣計算為基礎進行輿論信息抽取的方法及系統(tǒng)。
[0008]本發(fā)明提出一種以矩陣計算為基礎進行輿論信息抽取的方法,包括
[0009]步驟1,抓取互聯(lián)網(wǎng)的網(wǎng)站信息,建立信息源矩陣,其中信息源矩陣包括信息庫類型信息、信息庫信息、站點信息、子站點信息、信息源統(tǒng)計信息、信息庫權限信息、基礎屬性信息、文章字段信息八部分;
[0010]步驟2,建立分詞矩陣、規(guī)則矩陣,分別獲取所述信息源矩陣與所述分詞矩陣與所述規(guī)則矩陣的權重與候選級別,用戶輸入用戶關鍵詞,通過分詞矩陣選擇所述用戶關鍵詞的所屬行業(yè),并根據(jù)所述權重與所述候選級別計算綜合評分,以完成輿情分析。
[0011]所述分詞矩陣將所述用戶關鍵詞可能的所屬行業(yè)作為所述分詞矩陣的元素,所述用戶在輸入所述用戶關鍵詞時,通過選擇所屬行業(yè),縮小檢索范圍,提高效率。
[0012]所述規(guī)則矩陣包括查找網(wǎng)站中最能體現(xiàn)文章內(nèi)容的關鍵詞,進行關鍵詞標注。
[0013]通過以下公式獲取所述權重:
[0014]信息源權重計算公式:q*w*e = r,中,q為信息源類型評分,w為信息源網(wǎng)站重要性分級,e為是否置頂,r為信息源權重;
[0015]分詞權重計算公式:x*y = u,中,X為關鍵詞的行業(yè)特征表達度,y為關鍵詞的敏感度,u為分詞權重;
[0016]規(guī)則權重計算公式:g*h = k,中,g為規(guī)則的行業(yè)特征表達度,h為規(guī)則的情感傾向程度,k為規(guī)則權重。
[0017]計算所述綜合評分的公式為:
[0018]a^bi= M
[0019]其中a為權重,b為候選級別,i為第i個權重,j為第j個候選級別,M為綜合評分。
[0020]本發(fā)明還提出一種以矩陣計算為基礎進行輿論信息抽取的系統(tǒng),包括
[0021]建立信息源矩陣模塊,用于抓取互聯(lián)網(wǎng)的網(wǎng)站信息,建立信息源矩陣,其中信息源矩陣包括信息庫類型信息、信息庫信息、站點信息、子站點信息、信息源統(tǒng)計信息、信息庫權限信息、基礎屬性信息、文章字段信息八部分;
[0022]建立分詞矩陣、規(guī)則矩陣模塊,用于建立分詞矩陣、規(guī)則矩陣,分別獲取所述信息源矩陣與所述分詞矩陣與所述規(guī)則矩陣的權重與候選級別,用戶輸入用戶關鍵詞,通過分詞矩陣選擇所述用戶關鍵詞的所屬行業(yè),并根據(jù)所述權重與所述候選級別計算綜合評分,以完成輿情分析。
[0023]所述分詞矩陣將所述用戶關鍵詞可能的所屬行業(yè)作為所述分詞矩陣的元素,所述用戶在輸入所述用戶關鍵詞時,通過選擇所屬行業(yè),縮小檢索范圍,提高效率。
[0024]所述規(guī)則矩陣包括查找網(wǎng)站中最能體現(xiàn)文章內(nèi)容的關鍵詞,進行關鍵詞標注。
[0025]通過以下公式獲取所述權重:
[0026]信息源權重計算公式:q*w*e = r,中,q為信息源類型評分,w為信息源網(wǎng)站重要性分級,e為是否置頂,r為信息源權重;
[0027]分詞權重計算公式:x*y = U,中,X為關鍵詞的行業(yè)特征表達度,y為關鍵詞的敏感度,u為分詞權重;
[0028]規(guī)則權重計算公式:g*h = k,中,g為規(guī)則的行業(yè)特征表達度,h為規(guī)則的情感傾向程度,k為規(guī)則權重。
[0029]計算所述綜合評分的公式為:
[0030]Bi^bj= M
[0031]其中a為權重,b為候選級別,i為第i個權重,j為第j個候選級別,M為綜合評分。
[0032]由以上發(fā)明可知,本發(fā)明的優(yōu)點在于:
[0033]通過綜合評分排序就能實時精準抓取相關文章,提尚彳丁業(yè)垂直檢索的實時性和準確性;通過對用戶使用習慣的不斷學習,綜合評分排名將會越來越了解使用者的興趣愛好,甚至做到比使用者本人更加了解自己的需求,這樣的推送文章,可以讓使用者只關注他所關注的內(nèi)容,從而提高碎片化時間的利用效率;本發(fā)明無需建立情感詞庫,實時多維度抓取數(shù)據(jù),并且通過建立信息源矩陣、分詞矩陣、規(guī)則矩陣,并將三個矩陣進行關聯(lián)達到動態(tài)平衡,能夠精確查找用戶所要查詢的詞,準確率達到95%以上。
【附圖說明】
[0034]圖1為本發(fā)明總體流程圖;
[0035]圖2為本發(fā)明信息源矩陣實施例圖;
[0036]圖3為本發(fā)明分詞矩陣實施例圖;
[0037]圖4為本發(fā)明規(guī)則矩陣實施例圖。
[0038]其中附圖標記為:
[0039]步驟101/102/103/104。
【具體實施方式】
[0040]本發(fā)明的目的在于提供一種以矩陣計算為基礎進行輿論信息抽取的方法及系統(tǒng),該方法包括以下步驟,如圖1所示:
[0041]步驟101,如圖1所示,抓取互聯(lián)網(wǎng)的網(wǎng)站信息,建立信息源矩陣,其中信息源矩陣包括信息庫類型信息、信息庫信息、站點信息、子站點信息、信息源統(tǒng)計信息、信息庫權限信息、基礎屬性信息、文章字段信息八部分。
[0042]所述信息庫類型信息是對大庫分類的劃分,用以區(qū)分不同的領域(如政務、商務),庫類型由管理員定義、添加,同時可定義該類信息庫數(shù)據(jù)結構、信息源相關屬性以及相關數(shù)據(jù)庫服務器鏈接;
[0043]所述信息庫信息是對同一領域內(nèi)信息源分類的劃分,庫的劃分可以按信息源的級另IJ、大行業(yè)分類等分類方式,由管理員定義、添加,信息源的使用權限按此分類控制;
[0044]所述站點信息是指要抓取的信息源所屬的網(wǎng)站,如:新浪、網(wǎng)易等;
[0045]所述子站點信息是指要抓取的具體列表頁地址。在子站點信息中中增加子站點連接地址后,設置其所屬各級類別,并配置列表頁、最終頁抓取標簽;抓取文章后由信息處理程序根據(jù)文章所屬子站點的屬性為文章自動設置相應屬性;
[0046]所述信息源統(tǒng)計信息中可以實時監(jiān)控各站點、子站點信息抓取情況:已抓取信息條數(shù)、最新抓取時間、抓取狀態(tài)是否正常等,并可按編輯統(tǒng)計相關工作量;
[0047]所述信息庫權限信息可以控制編輯對各個信息庫的操作,只有分配權限的信息庫對編輯才可見并可增、刪、改