本發(fā)明創(chuàng)造涉及輿情監(jiān)控領域,具體涉及一種電網(wǎng)工程物資合同履約誠信輿情監(jiān)控系統(tǒng)。
背景技術:
電網(wǎng)工程物資是整個電網(wǎng)的基礎,而電網(wǎng)工程物資合同賣方的履約情況,而電網(wǎng)工程物資合同賣方的履約情況關系到整個電力系統(tǒng)的物資供應。近年來,隨著國民經(jīng)濟的快速發(fā)展激增了用電量的需求,加大了電網(wǎng)工程項目的建設,因此也產(chǎn)生了大量的電網(wǎng)工程物資合同,傳統(tǒng)的物資合同管理方法通常在簽訂合同后建立專業(yè)的合同管理機構(gòu)和人員進行實時了解和監(jiān)管物資合同的履約情況,這種方法不僅增加了工作人員的工作量,而且不能有效預防物資合同的違約情況。
當今社會網(wǎng)絡輿情的影響越來越大,受人民關注度越來越高的特點,通過對互聯(lián)網(wǎng)輿情信息的獲取和監(jiān)控,便于通過民眾的影響進行電網(wǎng)工程物資合同賣方履約情況的輿情監(jiān)控,進一步實現(xiàn)良好的電網(wǎng)工程物資交易。
技術實現(xiàn)要素:
針對上述問題,本發(fā)明旨在提供一種電網(wǎng)工程物資合同履約誠信輿情監(jiān)控系統(tǒng)。
本發(fā)明創(chuàng)造的目的通過以下技術方案實現(xiàn):
電網(wǎng)工程物資合同賣方履約誠信輿情監(jiān)控系統(tǒng),包括ip確定模塊、輿情信息采集模塊、輿情信息處理模塊、輿情信息管理模塊和移動客戶端模塊;
(1)ip確定模塊:用于確定與電力行業(yè)相關的網(wǎng)頁ip;
(2)輿情信息采集模塊:設定ip確定模塊確定的ip鏈接為種子鏈接,采用主題爬蟲策略從此種子鏈接出發(fā),搜集和電網(wǎng)工程物資合同履約主題相關的網(wǎng)頁;
(3)輿情信息處理模塊:用于提取采集的網(wǎng)頁信息中的正文部分,從所述正文部分的中文分詞結(jié)果中提取具有代表性的網(wǎng)頁特征項并計算相應特征項的權重,從而進行網(wǎng)頁分類;
(4)輿情信息管理模塊:包括數(shù)據(jù)庫單元、用戶登錄單元和信息檢索單元,所述數(shù)據(jù)庫單元用于存儲輿情信息處理模塊確定的主題相關網(wǎng)頁,用戶通過用戶登錄單元輸入密碼登錄輿情信息管理模塊,并可通過信息檢索單元輸入要檢索的關鍵詞進行電網(wǎng)工程物資合同履約情況的信息檢索,信息檢索單元即顯示包含所述關鍵詞的相關網(wǎng)頁;
(5)移動客戶端模塊:為安裝有相關應用的智能手機或平板電腦,用戶可以通過移動客戶端模塊實時訪問輿情信息管理模塊的數(shù)據(jù)庫單元,從而了解電網(wǎng)工程物資合同履約誠信情況。
本發(fā)明創(chuàng)造的有益效果:提出一種電網(wǎng)工程物資合同賣方履約誠信輿情監(jiān)控系統(tǒng),通過對具有較高可信度的新聞網(wǎng)頁以及電力行業(yè)專用的門戶網(wǎng)站的信息的抓取和科學有效的分析,得到了反應“電網(wǎng)工程物資合同履約”的輿情熱點話題,實現(xiàn)了電網(wǎng)工程物資合同賣方履約誠信的有效監(jiān)控。
附圖說明
利用附圖對發(fā)明創(chuàng)造作進一步說明,但附圖中的實施例不構(gòu)成對本發(fā)明創(chuàng)造的任何限制,對于本領域的普通技術人員,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)以下附圖獲得其它的附圖。
圖1是本發(fā)明結(jié)構(gòu)示意圖;
圖2是本發(fā)明輿情信息采集模塊結(jié)構(gòu)示意圖
圖3是本發(fā)明輿情信息處理模塊結(jié)構(gòu)示意圖。
圖4是本發(fā)明輿情信息管理模塊結(jié)構(gòu)示意圖。
附圖標記:
ip確定模塊1、輿情信息采集模塊2;輿情信息處理模塊3;輿情信息管理模塊4;移動客戶端模塊5;主題設置單元21;電力貓接入單元22;輿情信息采集單元23;正文提取單元31;特征項提取單元32;網(wǎng)頁分類單元33;數(shù)據(jù)庫單元41、用戶登錄單元42;信息檢索單元43。
具體實施方式
結(jié)合以下實施例對本發(fā)明作進一步描述。
參見圖1、圖2、圖3和圖4,本實施例的電網(wǎng)工程物資合同賣方履約誠信輿情監(jiān)控系統(tǒng),包括ip確定模塊1、輿情信息采集模塊2、輿情信息處理模塊3、用戶管理模塊4和移動客戶端5;
(1)ip確定模塊1:用于確定與電力行業(yè)相關的網(wǎng)頁ip;
(2)輿情信息采集模塊2:設定所述ip確定模塊1所確定的ip鏈接為種子鏈接,采用主題爬蟲策略從此種子鏈接出發(fā),搜集和電網(wǎng)工程物資合同履約主題相關的網(wǎng)頁;
(3)輿情信息處理模塊3:用于提取采集的網(wǎng)頁信息中的正文部分,從所述正文部分的中文分詞結(jié)果中提取具有代表性的網(wǎng)頁特征項并計算相應特征項的權重,從而進行網(wǎng)頁分類;
(4)輿情信息管理模塊4:包括數(shù)據(jù)庫單元41、用戶登錄單元42和信息檢索單元43,所述數(shù)據(jù)庫單元41用于存儲輿情信息處理模塊3確定的主題相關網(wǎng)頁,用戶通過用戶登錄單元42輸入密碼登錄輿情信息管理模塊4,并可通過信息檢索單元43輸入要檢索的關鍵詞進行電網(wǎng)工程物資合同履約情況的信息檢索,信息檢索單元43即顯示包含所述關鍵詞的相關網(wǎng)頁;
(5)移動客戶端模塊5:為安裝有相關應用的智能手機或平板電腦,用戶可以通過移動客戶端模塊5實時訪問輿情信息管理模塊4的數(shù)據(jù)庫單元41,從而了解電網(wǎng)工程物資合同履約誠信情況。
本優(yōu)選實施例提出一種電網(wǎng)工程物資合同賣方履約誠信輿情監(jiān)控系統(tǒng),通過對互聯(lián)網(wǎng)海量的信息的抓取和科學有效的分析,得到了反應“電網(wǎng)工程物資合同履約”的輿情熱點話題,實現(xiàn)了電網(wǎng)工程物資合同賣方履約誠信的有效監(jiān)控。
優(yōu)選地,所述輿情信息采集模塊2包括主題設置單元21、電力貓接入單元22和輿情信息采集單元23,所述主題設置單元21用于根據(jù)本系統(tǒng)的主題,設置主題初始關鍵詞和主題爬蟲的初始鏈接,所述電力貓接入單元22用于當判斷電腦通過電力貓接入網(wǎng)絡時,即令輿情信息采集單元23采用主題爬蟲策略搜集主題相關的網(wǎng)頁。
本優(yōu)選實施例構(gòu)成了本系統(tǒng)的輿情信息采集模塊,規(guī)定只有在判斷電腦通過電力貓接入網(wǎng)絡時即令輿情信息采集單元進行采集,此時的網(wǎng)絡相對穩(wěn)定,提高了爬蟲的可靠性和效率,此外,避免了系統(tǒng)一直進行網(wǎng)頁爬蟲造成的電腦資源消耗。
優(yōu)選地,所述主題設置單元21采用主題爬蟲策略搜集主題相關的網(wǎng)頁,具體包括:
a.根據(jù)本系統(tǒng)的主題,設置主題初始關鍵詞組g={“電網(wǎng)”、“電力物資”、“履約”、“物資合同”,“違約”},設置關鍵詞的權重分別為qg1、qg2、qg3、qg4和qg5,則主題文檔可以初步表示為wg=(tg1,tg2,tg3,tg4,tg5),其中,tg1、tg2、tg3、tg4、tg5分別代表關鍵詞電網(wǎng)、電力物資、履約、物資合同和違約;
b.設置ip確定模塊1所確定的ip為種子鏈接,主題爬蟲從此種子鏈接出發(fā),搜集主題相關網(wǎng)頁;
c.從輿情處理模塊3確定的各個主題相關網(wǎng)頁中,提取權重較高的前h個特征項加入關鍵詞組g,形成新的關鍵詞組g。
本優(yōu)選實施例在輿情信息采集模塊通過設關鍵詞和權值,可以確定爬蟲的主題,在爬蟲搜索的過程中,在通過添加主題相關網(wǎng)頁中權重較高的特征項作為關鍵詞,實現(xiàn)了最大程度的描述爬蟲的主題范圍。
優(yōu)選地,所述輿情信息處理模塊3包括正文提取單元31、特征項提取單元32和網(wǎng)頁分類單元33,所述正文提取單元31用于根據(jù)電力行業(yè)網(wǎng)站的網(wǎng)頁特點,采用文本分割的方式提取網(wǎng)頁的正文部分,所述特征項提取單元32用于從正文部分的中文分詞結(jié)果中提取具有代表性的特征項并計算所述特征項在文本中的權重,所述網(wǎng)頁分類單元23用于判斷采集得到的網(wǎng)頁是否為主題相關網(wǎng)頁。
優(yōu)選地,所述正文提取單元31用于根據(jù)電力行業(yè)網(wǎng)站的網(wǎng)頁特點,采用文本分割的方式提取網(wǎng)頁的正文部分,具體包括;
a.將采集得到的電力行業(yè)網(wǎng)站的網(wǎng)頁進行濾波處理,去除網(wǎng)頁中的噪聲部分;
b.從網(wǎng)頁源文件中按順序提取文本塊,得到文本塊集合a={a1,a2,……an},對文本塊集合中的每個文本塊的字符數(shù)進行統(tǒng)計,并將統(tǒng)計結(jié)果存入數(shù)組bi對應的位置處,數(shù)組bi={b1,b2,……bn},對數(shù)組bi進行處理,其計算公式為:
式中,bi-1、bi、bi+1分別為文本塊i-1、i、i+1的字符數(shù)總數(shù),α1、α2、α3分別為bi-1、bi、bi+1的權重,且α1、α2、α3>0;
c.定義文本塊分界閾值f1和f2,則f1和f2分別為:
式中,n為文本塊的總數(shù),bi為文本塊i中的字符總數(shù),ρ1和ρ2分別為文本塊中的平均字符數(shù)和f1的權重,ρ1、ρ2>0,且ρ1+ρ2=1,v為數(shù)組bi的分組數(shù);
d.根據(jù)文本塊字符數(shù)與分界閾值之間的關系進行正文部分提取,定義文本塊子集c={bi,bi+1,……,bi+m},其中i+m≤n,且c∈b,則當文本塊子集c滿足{bi,bi+1,……,bi+m}中的值全部大于f1且{bi,bi+1,……,bi+m}中的值大于f2的個數(shù)
本優(yōu)選實施例根據(jù)電力行業(yè)網(wǎng)站的網(wǎng)頁特點,采用文本分割進行網(wǎng)頁正文部分的提取,具有較高的提取精度并且有效減少文本塊的遺漏,提高了本系統(tǒng)的監(jiān)控精度。
優(yōu)選地,所述特征提取單元32用于從正文部分的中文分詞結(jié)果中提取具有代表性的特征項并計算特征項在文本中的權重,具體為:
a.采用一種改進的信息增益計算方法進行特征項的選擇,定義采集得到的網(wǎng)頁中類別為ci(1≤i≤m)的文本有{wi1,wi2,……wie},則改進的信息增益ig(ci,tj)的計算方法為:
式中,u(tj,ci)為ci類文本出現(xiàn)的特征詞tj的次數(shù),p(tj)為特征詞tj出現(xiàn)的概率,則
將計算所得的特征詞的信息增益值按從大到小順序排列,選取前n個特征詞作為文本的特征項;
b.定義文本wi的特征項為{t1,t2,……tn},則對應特征項的權重{wi1,wi2,……win}的計算公式為:
式中,wij表示特征項tj在文本中wi中的權重,而pij表示特征項tj在文本wi中出現(xiàn)的頻率,h表示全部文本集中的文本數(shù)量,sj表示文本集中包含tj的文本數(shù),b表示文本集中文本的數(shù)量,prj表示特征項tj在文本wr中的出現(xiàn)的頻率。
本優(yōu)選實施例提出在信息增益的計算過程中引進了詞頻和集中度這兩個參數(shù),增加了特征項的分類能力,有助于選出較有效的特征項,采用一種改進的權重計算方法,相較于傳統(tǒng)的tfidf計算權重方法,綜合考慮了特征項對不同文本的影響程度大小,加大了文本之間的差異性,因此具有更優(yōu)的分類效果。
優(yōu)選地,所述網(wǎng)頁分類單元33用于判斷采集得到的網(wǎng)頁是否為主題相關網(wǎng)頁,定義采集得到的文檔為采集得到的文檔wi=(ti1,ti2,ti3,……tin),主題文檔為wg=(tg1,tg2,tg3,……tgv),則文檔wi和文檔wg之間的文檔相似性系數(shù)ωig的計算公式為:
…….
式中,ρig為文檔wi和文檔wg之間的文檔相似性系數(shù),sim(ti1,tgl)為特征項ti1和特征項tgl的概念詞語相似度,sim(ti2,tgl)為特征項ti2和特征項tgl的概念詞語相似度,sim(tin,tgl)為特征項tin和特征項tgl的概念詞語相似度,
定義主題閾值為μ,判斷系數(shù)為r,根據(jù)判斷系數(shù)r的大小判斷采集得到的文檔wi是否為與電網(wǎng)工程物資合同履約相關的網(wǎng)頁,具體為:
式中,ρig為文檔wi和文檔wg之間的文檔相似性系數(shù),μ為主題閾值;
當判斷為主題相關網(wǎng)頁時,即將網(wǎng)頁送入數(shù)據(jù)庫單元進行存儲,并將主題相關網(wǎng)頁中包含的鏈接加入主題爬蟲的等待隊列,當判斷為非主題相關網(wǎng)頁時即舍棄。
本優(yōu)選實施例提出一種改進的文檔相似性系數(shù)的計算方法,引進了特征項的權重進行文檔相似性系數(shù)的計算,解決了不同特征項對文檔的影響程度不同而造成的相似度系數(shù)差異較大的問題,此外,通過計算得到采集得到的文檔和樣本文檔之間的文檔相似性系數(shù),按照設定的主題閾值來判斷當前的網(wǎng)頁是否為主題相關網(wǎng)頁,能夠較為有效的進行主題相關網(wǎng)頁的判別。
基于上述實施例,根據(jù)采集得到的不同網(wǎng)頁信息進行了一系列測試,以下是測試得到的評估結(jié)果:
從上述實施例可以觀察到,網(wǎng)頁篩選單元針對采集得到的不同網(wǎng)頁信息進行網(wǎng)頁分類具有較高精度,完全可以滿足電網(wǎng)工程物資合同賣方履約誠信輿情監(jiān)控系統(tǒng)的要求。
最后應當說明的是,以上實施例僅用以說明本發(fā)明的技術方案,而非對本發(fā)明保護范圍的限制,盡管參照較佳實施例對本發(fā)明作了詳細地說明,本領域的普通技術人員應當理解,可以對本發(fā)明的技術方案進行修改或者等同替換,而不脫離本發(fā)明技術方案的實質(zhì)和范圍。