本發(fā)明涉及大數(shù)據(jù)云計(jì)算技術(shù)領(lǐng)域,特別涉及一種基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)。
背景技術(shù):
網(wǎng)絡(luò)輿情是指在互聯(lián)網(wǎng)上流行的對(duì)社會(huì)問(wèn)題不同看法的網(wǎng)絡(luò)輿論,是社會(huì)輿論的一種表現(xiàn)形式,是通過(guò)互聯(lián)網(wǎng)傳播的公眾對(duì)現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問(wèn)題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn)。網(wǎng)絡(luò)輿情其表現(xiàn)方式主要為:新聞評(píng)論、BBS論壇、博客、播客、微博、聚合新聞(RSS)、新聞跟帖及轉(zhuǎn)帖等等。
網(wǎng)絡(luò)輿情表達(dá)快捷、信息多元,方式互動(dòng)。網(wǎng)絡(luò)的開放性和虛擬性,決定了網(wǎng)絡(luò)輿情具有以下特點(diǎn):直接性、隨意性和多元化、突發(fā)性、隱蔽性、偏差性。這也對(duì)網(wǎng)絡(luò)輿情的監(jiān)測(cè)帶來(lái)了難度。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提出一種基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)。
一種基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng),其包括如下單元:
數(shù)據(jù)獲取單元,用于通過(guò)網(wǎng)絡(luò)爬蟲程序爬取互聯(lián)網(wǎng)輿情初始數(shù)據(jù);
分片單元,用于將互聯(lián)網(wǎng)輿情初始數(shù)據(jù)進(jìn)行輸入分片,將各個(gè)輸入分片分配一個(gè)映射任務(wù),輸入分片存儲(chǔ)分片長(zhǎng)度以及記錄數(shù)據(jù)的位置的數(shù)組;
通過(guò)預(yù)先編寫的映射函數(shù)在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上進(jìn)行映射得到中間文件;
計(jì)算單元,用于合并中間文件中的重復(fù)鍵值,以降低映射輸出文件冗余;并對(duì)合并后的鍵值進(jìn)行序列化得到映射緩存文件;自動(dòng)獲取各個(gè)計(jì)算節(jié)點(diǎn)的計(jì)算負(fù)載值,根據(jù)計(jì)算節(jié)點(diǎn)的計(jì)算負(fù)載值將各個(gè)映射緩存文件分配到各個(gè)計(jì)算節(jié)點(diǎn)中;
緩存單元,用于在內(nèi)存中開辟環(huán)形內(nèi)存緩沖區(qū),環(huán)形內(nèi)存緩沖區(qū)用于映射輸出文件輸出;在環(huán)形內(nèi)存緩沖區(qū)中創(chuàng)建配置文件,在配置文件中配置內(nèi)存緩沖區(qū)的內(nèi)存占用閾值;在環(huán)形內(nèi)存緩沖區(qū)中內(nèi)存占用大于或等于占用閾值時(shí),保護(hù)線程暫停將數(shù)據(jù)寫入內(nèi)存,并在內(nèi)存中寫入溢出文件,溢出文件確定寫入磁盤的文件,并將環(huán)形內(nèi)存緩沖區(qū)的文件寫入磁盤直至所有的映射輸出文件輸出完畢;
輸出單元,用于將所有的映射輸出文件并存儲(chǔ)到分布式文件存儲(chǔ)系統(tǒng)上;
建模單元,用于建立網(wǎng)絡(luò)輿情預(yù)測(cè)模型;
預(yù)測(cè)單元,用于從分布式文件存儲(chǔ)系統(tǒng)上讀取映射輸出文件并通過(guò)網(wǎng)絡(luò)輿情預(yù)測(cè)模型進(jìn)行輿情預(yù)測(cè)。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,
所述數(shù)據(jù)獲取單元包括:
通過(guò)網(wǎng)絡(luò)爬蟲程序從自定義抓取列表中取出鏈接地址,獲取網(wǎng)絡(luò)文本;
對(duì)網(wǎng)絡(luò)頁(yè)面進(jìn)行檢測(cè)深度網(wǎng)絡(luò)數(shù)據(jù)源,取出數(shù)據(jù)噪聲,提取正文文本,進(jìn)行主題相關(guān)度判定處理。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,所述分片單元中對(duì)互聯(lián)網(wǎng)輿情初始數(shù)據(jù)進(jìn)行輸入分片包括:
建立關(guān)聯(lián)關(guān)系表,將輸入文件拆分為位置關(guān)系值、活動(dòng)關(guān)系值、結(jié)構(gòu)關(guān)系值、功能關(guān)系值、功能關(guān)系值、行為關(guān)系值以及其他關(guān)系值,并將各個(gè)輸入文件的各個(gè)關(guān)系值的對(duì)應(yīng)關(guān)系寫入關(guān)聯(lián)關(guān)系表中;
將各個(gè)關(guān)系值對(duì)應(yīng)的數(shù)據(jù)劃入輸入分片中。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,所述分片單元中通過(guò)預(yù)先編寫的映射函數(shù)在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上進(jìn)行映射得到中間文件包括:
通過(guò)預(yù)先編寫的映射函數(shù)將輸入分片按照映射任務(wù)進(jìn)行映射,所述映射包括按照預(yù)先設(shè)置的數(shù)據(jù)格式將輸入分片內(nèi)容進(jìn)行列表對(duì)齊,判斷位置關(guān)系值、活動(dòng)關(guān)系值、結(jié)構(gòu)關(guān)系值、功能關(guān)系值、功能關(guān)系值、行為關(guān)系值以及其他關(guān)系值是否存在,如果各個(gè)關(guān)系值存在則直接保留,如果不存在某一項(xiàng)或某幾項(xiàng)關(guān)系值,則缺失的關(guān)系值為空;各個(gè)關(guān)系的排列順序均保持一致。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,
所述輸出單元包括:
從關(guān)聯(lián)關(guān)系表中查詢各個(gè)映射輸出文件對(duì)應(yīng)的所有索引信息,將各個(gè)映射輸出文件的每個(gè)對(duì)應(yīng)一個(gè)段數(shù)據(jù)插入到段列表中;記錄段數(shù)據(jù)的位置關(guān)系值、活動(dòng)關(guān)系值、結(jié)構(gòu)關(guān)系值、功能關(guān)系值、功能關(guān)系值、行為關(guān)系值以及其他關(guān)系值。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,
所述分片單元中對(duì)通過(guò)預(yù)先編寫的映射函數(shù)將輸入分片按照映射任務(wù)進(jìn)行映射還包括根據(jù)關(guān)聯(lián)關(guān)系表判斷輸入分片是否存在邏輯錯(cuò)誤,如存在則丟棄該輸入分片。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,
所述建模單元包括:
將所有的映射輸出文件采用聚類算法進(jìn)行構(gòu)造,形成有序網(wǎng)絡(luò)輿情數(shù)據(jù)信息;
對(duì)有序網(wǎng)絡(luò)輿情數(shù)據(jù)信息進(jìn)行灰色累加,生成累加序列,序列公式如下:
x(1)=[x(1)(1),x(1)(2),...x(1)(n)],其中
通過(guò)統(tǒng)一化方法將生成的累加序列數(shù)據(jù)進(jìn)行縮放,將其變換為[0,1]之間,歸一化的公式為:其中xi,xi’分別表示轉(zhuǎn)換前后的值,min(x)、max(x)分別表示有序網(wǎng)絡(luò)輿情數(shù)據(jù)信息的最大值和最小值;
建立網(wǎng)絡(luò)輿情灰度模型,并對(duì)預(yù)先輸入的樣本進(jìn)行預(yù)測(cè),對(duì)預(yù)測(cè)值進(jìn)行累減還原運(yùn)算得到網(wǎng)絡(luò)輿情預(yù)測(cè)值;
計(jì)算網(wǎng)絡(luò)閾值預(yù)測(cè)值與實(shí)際值的殘差得到殘差訓(xùn)練樣本;
將殘差訓(xùn)練樣本輸入反向傳播神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并用粒子群算法進(jìn)行優(yōu)化得到網(wǎng)絡(luò)輿情預(yù)測(cè)模型。
實(shí)施本發(fā)明提供的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)與現(xiàn)有技術(shù)相比具有以下有益效果:通過(guò)把海量的網(wǎng)絡(luò)輿情數(shù)據(jù)按照預(yù)先設(shè)置的規(guī)則分割成了若干部分,分給多臺(tái)處理器并行處理;然后把各臺(tái)處理器處理后的結(jié)果進(jìn)行匯總操作以得到最終結(jié)果;可以實(shí)現(xiàn)處理大量、非結(jié)構(gòu)化的數(shù)據(jù),提高了數(shù)據(jù)處理類型以及速度。并且通過(guò)反向傳播神經(jīng)網(wǎng)絡(luò)得到網(wǎng)絡(luò)輿情預(yù)測(cè)模型,可以深入挖掘網(wǎng)絡(luò)輿情數(shù)據(jù)之間的變化規(guī)律,能夠有效、精準(zhǔn)地對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)結(jié)構(gòu)框圖。
具體實(shí)施方式
如圖1所示,一種基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng),其包括如下單元:
數(shù)據(jù)獲取單元,用于通過(guò)網(wǎng)絡(luò)爬蟲程序爬取互聯(lián)網(wǎng)輿情初始數(shù)據(jù)。
互聯(lián)網(wǎng)輿情初始數(shù)據(jù)的來(lái)源包括互聯(lián)網(wǎng)網(wǎng)頁(yè)、微博、微信公共號(hào)、論壇等渠道。
分片單元,用于將互聯(lián)網(wǎng)輿情初始數(shù)據(jù)進(jìn)行輸入分片,將各個(gè)輸入分片分配一個(gè)映射任務(wù),輸入分片存儲(chǔ)分片長(zhǎng)度以及記錄數(shù)據(jù)的位置的數(shù)組;
通過(guò)預(yù)先編寫的映射函數(shù)在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上進(jìn)行映射得到中間文件;
計(jì)算單元,用于合并中間文件中的重復(fù)鍵值,以降低映射輸出文件冗余;并對(duì)合并后的鍵值進(jìn)行序列化得到映射緩存文件;自動(dòng)獲取各個(gè)計(jì)算節(jié)點(diǎn)的計(jì)算負(fù)載值,根據(jù)計(jì)算節(jié)點(diǎn)的計(jì)算負(fù)載值將各個(gè)映射緩存文件分配到各個(gè)計(jì)算節(jié)點(diǎn)中;
緩存單元,用于在內(nèi)存中開辟環(huán)形內(nèi)存緩沖區(qū),環(huán)形內(nèi)存緩沖區(qū)用于映射輸出文件輸出;在環(huán)形內(nèi)存緩沖區(qū)中創(chuàng)建配置文件,在配置文件中配置內(nèi)存緩沖區(qū)的內(nèi)存占用閾值;在環(huán)形內(nèi)存緩沖區(qū)中內(nèi)存占用大于或等于占用閾值時(shí),保護(hù)線程暫停將數(shù)據(jù)寫入內(nèi)存,并在內(nèi)存中寫入溢出文件,溢出文件確定寫入磁盤的文件,并將環(huán)形內(nèi)存緩沖區(qū)的文件寫入磁盤直至所有的映射輸出文件輸出完畢;
輸出單元,用于將所有的映射輸出文件并存儲(chǔ)到分布式文件存儲(chǔ)系統(tǒng)上;
建模單元,用于建立網(wǎng)絡(luò)輿情預(yù)測(cè)模型;
預(yù)測(cè)單元,用于從分布式文件存儲(chǔ)系統(tǒng)上讀取映射輸出文件并通過(guò)網(wǎng)絡(luò)輿情預(yù)測(cè)模型進(jìn)行輿情預(yù)測(cè)。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,
所述數(shù)據(jù)獲取單元包括:
通過(guò)網(wǎng)絡(luò)爬蟲程序從自定義抓取列表中取出鏈接地址,獲取網(wǎng)絡(luò)文本;
對(duì)網(wǎng)絡(luò)頁(yè)面進(jìn)行檢測(cè)深度網(wǎng)絡(luò)數(shù)據(jù)源,取出數(shù)據(jù)噪聲,提取正文文本,進(jìn)行主題相關(guān)度判定處理。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,所述分片單元中對(duì)互聯(lián)網(wǎng)輿情初始數(shù)據(jù)進(jìn)行輸入分片包括:
建立關(guān)聯(lián)關(guān)系表,將輸入文件拆分為位置關(guān)系值、活動(dòng)關(guān)系值、結(jié)構(gòu)關(guān)系值、功能關(guān)系值、功能關(guān)系值、行為關(guān)系值以及其他關(guān)系值,并將各個(gè)輸入文件的各個(gè)關(guān)系值的對(duì)應(yīng)關(guān)系寫入關(guān)聯(lián)關(guān)系表中;
將各個(gè)關(guān)系值對(duì)應(yīng)的數(shù)據(jù)劃入輸入分片中。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,所述分片單元中通過(guò)預(yù)先編寫的映射函數(shù)在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上進(jìn)行映射得到中間文件包括:
通過(guò)預(yù)先編寫的映射函數(shù)將輸入分片按照映射任務(wù)進(jìn)行映射,所述映射包括按照預(yù)先設(shè)置的數(shù)據(jù)格式將輸入分片內(nèi)容進(jìn)行列表對(duì)齊,判斷位置關(guān)系值、活動(dòng)關(guān)系值、結(jié)構(gòu)關(guān)系值、功能關(guān)系值、功能關(guān)系值、行為關(guān)系值以及其他關(guān)系值是否存在,如果各個(gè)關(guān)系值存在則直接保留,如果不存在某一項(xiàng)或某幾項(xiàng)關(guān)系值,則缺失的關(guān)系值為空;各個(gè)關(guān)系的排列順序均保持一致。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,
所述輸出單元包括:
從關(guān)聯(lián)關(guān)系表中查詢各個(gè)映射輸出文件對(duì)應(yīng)的所有索引信息,將各個(gè)映射輸出文件的每個(gè)對(duì)應(yīng)一個(gè)段數(shù)據(jù)插入到段列表中;記錄段數(shù)據(jù)的位置關(guān)系值、活動(dòng)關(guān)系值、結(jié)構(gòu)關(guān)系值、功能關(guān)系值、功能關(guān)系值、行為關(guān)系值以及其他關(guān)系值。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,
所述分片單元中對(duì)通過(guò)預(yù)先編寫的映射函數(shù)將輸入分片按照映射任務(wù)進(jìn)行映射還包括根據(jù)關(guān)聯(lián)關(guān)系表判斷輸入分片是否存在邏輯錯(cuò)誤,如存在則丟棄該輸入分片。
在本發(fā)明所述的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)中,
所述建模單元包括:
將所有的映射輸出文件采用聚類算法進(jìn)行構(gòu)造,形成有序網(wǎng)絡(luò)輿情數(shù)據(jù)信息;
對(duì)有序網(wǎng)絡(luò)輿情數(shù)據(jù)信息進(jìn)行灰色累加,生成累加序列,序列公式如下:
x(1)=[x(1)(1),x(1)(2),...x(1)(n)],其中
通過(guò)統(tǒng)一化方法將生成的累加序列數(shù)據(jù)進(jìn)行縮放,將其變換為[0,1]之間,歸一化的公式為:其中xi,xi’分別表示轉(zhuǎn)換前后的值,min(x)、max(x)分別表示有序網(wǎng)絡(luò)輿情數(shù)據(jù)信息的最大值和最小值;
建立網(wǎng)絡(luò)輿情灰度模型,并對(duì)預(yù)先輸入的樣本進(jìn)行預(yù)測(cè),對(duì)預(yù)測(cè)值進(jìn)行累減還原運(yùn)算得到網(wǎng)絡(luò)輿情預(yù)測(cè)值;
計(jì)算網(wǎng)絡(luò)閾值預(yù)測(cè)值與實(shí)際值的殘差得到殘差訓(xùn)練樣本;
將殘差訓(xùn)練樣本輸入反向傳播神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并用粒子群算法進(jìn)行優(yōu)化得到網(wǎng)絡(luò)輿情預(yù)測(cè)模型。
實(shí)施本發(fā)明提供的基于數(shù)據(jù)挖掘技術(shù)的輿情監(jiān)測(cè)系統(tǒng)與現(xiàn)有技術(shù)相比具有以下有益效果:通過(guò)把海量的網(wǎng)絡(luò)輿情數(shù)據(jù)按照預(yù)先設(shè)置的規(guī)則分割成了若干部分,分給多臺(tái)處理器并行處理;然后把各臺(tái)處理器處理后的結(jié)果進(jìn)行匯總操作以得到最終結(jié)果;可以實(shí)現(xiàn)處理大量、非結(jié)構(gòu)化的數(shù)據(jù),提高了數(shù)據(jù)處理類型以及速度。并且通過(guò)反向傳播神經(jīng)網(wǎng)絡(luò)得到網(wǎng)絡(luò)輿情預(yù)測(cè)模型,可以深入挖掘網(wǎng)絡(luò)輿情數(shù)據(jù)之間的變化規(guī)律,能夠有效、精準(zhǔn)地對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)。
可以理解的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),可以根據(jù)本發(fā)明的技術(shù)構(gòu)思做出其它各種相應(yīng)的改變與變形,而所有這些改變與變形都應(yīng)屬于本發(fā)明權(quán)利要求的保護(hù)范圍。