本發(fā)明涉及一種針對招商引資領域的互聯網情報抓取和推薦系統(tǒng),屬于互聯網技術領域。
背景技術:
從事招商引資領域的人員依賴信息的獲取來開展招商工作、服務工作和咨詢工作。目前招商信息的來源偏重于線下的活動和客戶拜訪,缺少主動獲取信息的高效手段。因此,利用互聯網網絡爬蟲技術、全文檢索技術和文本挖掘技術來幫助招商人員獲得互聯網的招商信息和資訊很有必要。
網絡爬蟲又被稱為網頁蜘蛛,網絡機器人,是一種按照一定的規(guī)則,自動的抓取萬維網信息的程序或者腳本。網絡爬蟲將互聯網的所有頁面分為五類:已下載未過期、已下載已過期、待下載、可知、不可知。抓取策略可分為廣度優(yōu)先搜索策略、最佳優(yōu)先搜索策略、深度優(yōu)先搜索策略等。
全文檢索是一種將文件中所有文本與檢索項匹配的文字資料檢索方法。全文檢索研究的是對整個文檔信息的表示、存儲、組織和訪問,即根據用戶的查詢要求,從信息數據庫中檢索出相關信息資料。全文檢索的中心環(huán)節(jié)是文件內容表達、信息查詢的獲得以及相關信息的匹配。
文本挖掘是抽取有效、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程。文本挖掘利用智能算法,如神經網絡、基于案例的推理、可能性推理等,并結合文字處理技術,分析大量的非結構化文本源(如文檔、電子表格、客戶電子郵件、問題查詢、網頁等),抽取或標記關鍵字概念、文字間的關系,并按照內容對文檔進行分類,獲取有用的知識和信息。中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。
技術實現要素:
本發(fā)明的目的是為了解決招商引資的服務咨詢方面存在的問題,提出一種針對招商引資領域的互聯網情報抓取和推薦系統(tǒng)。
本發(fā)明的技術方案如下,一種針對招商引資領域的互聯網情報抓取和推薦系統(tǒng),將互聯網的財經輿情、上市公司投資或并購的資訊、各公司ceo公開講話以及社交媒體的跟蹤信息通過網絡爬蟲的方式及時獲取;通過基于人工監(jiān)督和機器學習的推薦算法對網絡的信息進行過濾和推薦,推薦出高質量符合用戶目標范圍的資訊信息;根據審核人的推薦與否以及推薦資訊的閱讀量來自動修正情報推薦分析,從而使未來抓取信息的質量更高,減少人為的干預。
所述系統(tǒng)對媒體網站和社交媒體網站的公司提供的信息進行抓取,抓取的關鍵字比對和招商引資領域相關,用來發(fā)現各種招商項目信號。
所述機器學習的算法如下:
(1)推薦模型的初始算法是判斷資訊是否出現知識庫里的關鍵字以及關鍵字出現的頻率,出現關鍵字頻率高的資訊會被優(yōu)先推薦;
(2)推薦出來的網頁的特征要經過人工篩選,人工篩選的結果將網頁分為正向網頁和負向網頁,同時篩選的結果被不同用戶進行點擊,點擊量反映了網頁的準確性和關聯度;
(3)系統(tǒng)分析網頁的特征值,網頁特征值包括網頁的網站網址、時間、出現頻率最好的關鍵字;
(4)系統(tǒng)將網頁的特征值,與人工篩選的結果以及網頁的查看次數進行關聯,用隨機數建立最初的預測模型,用深度學習的神經網絡加以訓練,最后得出修正的推薦模型。
本發(fā)明是一種針對招商引資領域的互聯網情報抓取和推薦系統(tǒng),包括招商情報采集模塊、招商情報分析模塊、招商情報服務模塊。招商情報采集模塊從各網站采集招商情報后,將數據發(fā)送至招商情報分析模塊;招商情報分析模塊經過情報分析后,發(fā)出情報服務的指令給招商情報服務模塊執(zhí)行;招商情報采集模塊、招商情報分析模塊和招商情報服務模塊的輸出數據存入數據庫中。
所述招商情報采集模塊包括抓取規(guī)則定義子模塊、網絡爬蟲子模塊、統(tǒng)計分析子模塊、人工審核子模塊和規(guī)則設置子模塊。所述抓取規(guī)則子模塊制定情報抓取規(guī)則,網絡爬蟲子模塊根據抓取規(guī)則將互聯網的財經輿情、上市公司投資或并購的資訊、各公司關鍵人公開講話以及社交媒體的跟蹤信息通過網絡爬蟲子模塊及時獲取。
所述招商情報分析模塊包括內容去重子模塊、敏感詞過濾子模塊、情報關鍵詞子模塊、機器學習子模塊和數據規(guī)范子模塊。招商情報分析模塊分析網頁的特征值,網頁的特征值包括網頁的網站網址、時間、出現頻率最好的關鍵字等。
所述招商情報服務模塊包括專題展現子模塊、輿情簡報子模塊、統(tǒng)計分析子模塊、人工審核子模塊和規(guī)則設置子模塊。
與現有技術相比,本發(fā)明的有益效果是:本發(fā)明系統(tǒng)的情報抓取模塊主要聚焦于財經類的輿情并有特定招商關鍵字來過濾這些輿情,使得信息更加精準。本發(fā)明系統(tǒng)返回的信息覆蓋更廣,不僅包括國內主要網絡媒體,也包括各級政府官網、以及國外網站的公司資訊;通過本發(fā)明系統(tǒng)推薦的招商輿情篩選系統(tǒng)具有自我學習能力,能夠根據用戶的選擇和查閱數量,形成新的推薦算法,從而推薦出更加符合用戶需要的情報信息。
附圖說明
圖1為本發(fā)明的結構框圖;
圖2為本實施例采用的通用網絡爬蟲采集程序框圖;
圖3為本實施例采用的神經網絡構成圖。
具體實施方式
本發(fā)明的具體實施方式如圖1所示。
本實施例一種針對招商引資領域的互聯網情報抓取和推薦系統(tǒng),包括招商情報采集模塊、招商情報分析模塊和招商情報服務模塊。以下是對這幾個模塊的功能描述:
情報采集模塊:
所述模塊負責采集招商投資及相關主題的信息,只采集指定相關網站和版塊的網頁。通用網絡爬蟲所返回的結果包含大量用戶不關心的網頁,因此本系統(tǒng)的采集程序適合采用垂直型爬蟲實現。根據給定入口地址,不斷獲取頁面上新的鏈接,進行下載。鏈接分為目標url和非目標url,目標url主要是文章正文的url,目標url除了解析其中的鏈接,還要進行正文、標題、發(fā)表時間等信息的抽取。通用網絡爬蟲采集程序如圖2所示。
采集程序應滿足的要求如下:
(1)采集的主題包括:招商、投資、財經、行業(yè)、企業(yè)、企業(yè)家、科技、高新技術、專利和科技成果、世界500強、國內100強等自定義的主題。
(2)采集相關文章的正文、標題、發(fā)表時間等。
(3)可以按采集網站對采集任務自動靈活調度,也可手動觸發(fā)任務。
(4)靜態(tài)頁面和正文頁面只采集一次,不重復采集。
(5)內容更新的動態(tài)頁面可重復采集。
(6)待采集隊列應做去重處理,避免重復采集。
(7)最新的信息能及時采集。
(8)可靈活設定采集線程數。
(9)可對不同網站設定不同的采集深度。
(10)能根據鏈接組織規(guī)則、頁面結構靈活配置處理規(guī)則。
招商情報分析模塊:
對采集到的正文進行分析,包括以下步驟:輿情識別,文本去重、文本摘要、輿情分類、輿情情感分析、企業(yè)關鍵字標記、可信度分析、計算招商機會指數、計算企業(yè)媒體指數和機器學習。
(1)輿情識別:
通過統(tǒng)計符合規(guī)則的關鍵字個數、權重,判斷是否是包含輿情信息的文章。對于不包含輿情信息的文章,不需要進行進一步的分析處理,也不需要發(fā)布。文章的匹配指數=
(2)文本去重:
從相似度極高的文章中識別出內容基本相同的文章,進行去重處理。并將該文章加入到已有文章的轉載列表。在文本去重的算法中,將文本進行中文分詞,將文本看做是所有詞的詞頻組成的向量,然后對這個向量降維成一個固定位數的簽名,然后比較兩個文本的哈希值,如果哈希值相同,那么就識別為同一篇文章。
(3)文本摘要:
可從正文提取出文章的重要的句子,并形成一篇文章的摘要內容。
(4)輿情分類:
按照文章的主題、不同分類方式和分類規(guī)則,對文章進行分類。主要包括輿情事件分類和行業(yè)分類,設置分類關鍵字及權重,計算文本中各分類關鍵字權重,分類權重大于一定閾值,則將此類文章劃定為此分類。
(5)輿情情感分析:
自動識別文章是正面的、中性的、還是負面的文章。我們整合騰訊文智中文語義平臺進行文本的情感分析。
(6)企業(yè)和關鍵字標記:
標記文本中出現的企業(yè)名稱、簡稱、關鍵字。
(7)可信度分析:
文本去重時,記錄內容相同文章的不同網站來源,統(tǒng)計同一文章在不同網站的轉載數,轉載數越高的文章可信度越高。
(8)計算招商機會指數:
通過匹配“并購”、“計劃在華投資”等關鍵招商信號詞語,依賴匹配的次數和權重來計算招商機會指數。
(9)企業(yè)媒體活躍指數:
定時統(tǒng)計一段時間類有企業(yè)標記的文章數量。
(10)機器學習:
所有匹配的資訊都有審核人進行人工審查,審查的過程就是機器進行數據訓練的過程。將審核人的審核結果以及資訊推薦次數的信息關聯篩選文章的關鍵字,典型的關聯方法如下:
其中e為資訊是否為有用信息的人為判斷結果,1代表有用,-1代表為沒用,b為修正值。把每一次審查的結果都作為訓練數據輸入到機器學習的算法中,利用深度學習神經網絡的算法不斷對關鍵字的權重和b值調整迭代,直到以上公式對95%的信息都能在容錯區(qū)間內成立。
本實施例采用的神經網絡構成如圖3所示。
本實施例將所有的網絡輿情文章通過檢索分類,按照行業(yè)、是否是企業(yè)庫內的企業(yè)、輿情主題、發(fā)生時間以及所有核心時間關鍵字出現的頻率進行分類。將這些文章輸入到以上構建的神經網絡中進行訓練,設置一定數量的隱藏層神經網絡來保證深度學習訓練的準確性,通常設為2×輸入數量+1,學習的規(guī)則定義為bp(backpropagation)算法。通過設置好的神經網絡進行訓練,來調整關鍵字的權重,從而獲得相對準確的文章和情報的關聯關系。隨著訓練用的輿情文章數量越來越多,系統(tǒng)的輿情過濾就會越來越準確,也越來越符合用戶的目標方向。
招商情報服務模塊:
通過專題展現、輿情簡報等向相關用戶推薦可能的項目線索;招商情報服務模塊應包括:
(1)首頁展示:將最新的輿情按照行業(yè)分類、按照招商機會指數排名來展示目前最熱門的咨詢。
(2)領導人輿情:將最新的領導人講話或活動信息,按照其代表的企業(yè)規(guī)模排名來呈現給招商情報部門。
(3)統(tǒng)計報表:對輿情情報的匯總情況進行按行業(yè)、按投資規(guī)模、國別進行統(tǒng)計,方便情報信息管理。
(4)信息簡報:提供每周的輿情簡報內容,方便領導快速找到相關的招商情報。
(5)輿情預警:但重大招商訊號出現的時候,提供短信提醒機制。