專利名稱:基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于電子信息技術(shù)領(lǐng)域,涉及計(jì)算機(jī)及網(wǎng)絡(luò)產(chǎn)品,是ー種面向行業(yè)及企業(yè)信息化的應(yīng)用系統(tǒng),具體地說(shuō)是ー種基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)。
背景技術(shù):
隨著網(wǎng)絡(luò)在我國(guó)社會(huì)生活中發(fā)揮著日益重要的作用,政府以及有關(guān)企事業(yè)單位也越來(lái)越重視網(wǎng)絡(luò)輿情的監(jiān)測(cè)和預(yù)警,輿情分析與監(jiān)測(cè)成為了具有重大戰(zhàn)略意義和現(xiàn)實(shí)意義的研究領(lǐng)域。由于網(wǎng)上的信息量十分巨大,僅依靠人工的方法難以應(yīng)對(duì)網(wǎng)上海量信息的收集和處理,因此需要依靠信息技術(shù)和相關(guān)學(xué)科專業(yè)知識(shí)建立起自動(dòng)化的網(wǎng)絡(luò)輿情分析系統(tǒng)。由于hternet在全球互連互通,可以從中取得的數(shù)據(jù)量難以計(jì)算,從中獲取有用信息的工作是人工處理根本無(wú)法完成的,因此網(wǎng)絡(luò)輿情監(jiān)測(cè)必然要與數(shù)據(jù)挖掘技術(shù)緊密結(jié)合,使輿情監(jiān)測(cè)實(shí)現(xiàn)自動(dòng)化和智能化?;跀?shù)據(jù)挖掘技術(shù)在輿情監(jiān)測(cè)中的應(yīng)用,如何在 Internet這個(gè)全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)關(guān)鍵輿情信息,尤其是針對(duì)不同輿情監(jiān)測(cè)項(xiàng)目的特點(diǎn)對(duì)其進(jìn)行建摸,以提供精準(zhǔn)化服務(wù),已經(jīng)成為數(shù)據(jù)挖掘技術(shù)研究的熱點(diǎn)。Web數(shù)據(jù)挖掘就是在hternet環(huán)境下進(jìn)行數(shù)據(jù)挖掘的專門技術(shù),它指使用數(shù)據(jù)挖掘技術(shù)在hternet數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個(gè)研究領(lǐng)域,包括數(shù)據(jù)庫(kù)技木、 信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等,各種技術(shù)的有機(jī)融合和綜合應(yīng)用,將推動(dòng)Web數(shù)據(jù)挖掘技術(shù)向更加成熟的方向發(fā)展。隨著分布式處理、并行處理和網(wǎng)格計(jì)算的發(fā)展,將這些技術(shù)進(jìn)行有機(jī)融合和商業(yè)應(yīng)用成為了業(yè)界的熱點(diǎn),云計(jì)算的概念也應(yīng)運(yùn)而生。所謂的云計(jì)算可以被看成是網(wǎng)格計(jì)算和虛擬化技術(shù)的融合即利用網(wǎng)格分布式計(jì)算處理的能力。將IT資源構(gòu)筑成ー個(gè)資源池, 再加上成熟的服務(wù)器虛擬化、存儲(chǔ)虛擬化技木,以便用戶可以實(shí)時(shí)地監(jiān)控和調(diào)配資源。云計(jì)算是ー種基于因特網(wǎng)的超級(jí)計(jì)算模式.在遠(yuǎn)程的數(shù)據(jù)中心里.成千上萬(wàn)臺(tái)電腦和服務(wù)器連接成一片電腦云,用戶通過(guò)電腦、筆記本、手機(jī)等方式接入數(shù)據(jù)中心,按自己的需求進(jìn)行運(yùn)算?!霸朴?jì)算”與傳統(tǒng)以電腦為中心的計(jì)算模式相區(qū)別,它將計(jì)算和數(shù)據(jù)分布在大量的分布式計(jì)算機(jī)上。人們通過(guò)手機(jī)、電腦上網(wǎng)后就能檢索到。目前,許多IT類公司都在進(jìn)行云計(jì)算產(chǎn)品的開發(fā)。從2003年開始,Google連續(xù)幾年在計(jì)算機(jī)系統(tǒng)研究領(lǐng)域的最頂級(jí)會(huì)議與雜志上發(fā)表論文,掲示其內(nèi)部的分布式數(shù)據(jù)處理方法,向外界展示其使用的云計(jì)算核心技木。從其近幾年發(fā)表的論文來(lái)看,Google使用的云計(jì)算基礎(chǔ)架構(gòu)模式包括四個(gè)相互獨(dú)立又緊密結(jié)合在一起的系統(tǒng)。包括Google建立在集群之上的文件系統(tǒng)Google File System,針對(duì)Google應(yīng)用程序的特點(diǎn)提出的Map/Reduce 編程模式,分布式的鎖機(jī)制Chubby以及Google開發(fā)的模型簡(jiǎn)化的大規(guī)模分布式數(shù)據(jù)庫(kù) BigTable。Yahoo公司參與了云計(jì)算平臺(tái)Hadoop的開發(fā),同時(shí)為了測(cè)試與部署Hadoop系統(tǒng).在Yahoo公司內(nèi)部也使用Hadoop軟件,建立了世界上最大的Hadoop集群系統(tǒng),這個(gè)集群系統(tǒng)包含了 1萬(wàn)個(gè)Linux節(jié)點(diǎn)。現(xiàn)在,Yahoo公司的很多應(yīng)用程序都構(gòu)建在云計(jì)算平臺(tái)之上。而上述的最大Hadoop平臺(tái)則用來(lái)計(jì)算網(wǎng)絡(luò)搜索的頁(yè)面連接圖,處理海量的數(shù)據(jù)。硬件公司Dell提供了 DCS (Dell Cloud Computing Solution)解決方案.幫助用戶構(gòu)建云計(jì)算平臺(tái),該解決方案能夠降低數(shù)據(jù)中心的運(yùn)維成本,提升計(jì)算速度、簡(jiǎn)化數(shù)據(jù)中心管理,具有良好的可擴(kuò)展性。目前,將Web數(shù)據(jù)挖掘技術(shù)與云計(jì)算架構(gòu)相結(jié)合的成熟云挖掘技術(shù)還沒(méi)有出現(xiàn), 而現(xiàn)有的相關(guān)輿情監(jiān)測(cè)系統(tǒng)還存在如下問(wèn)題(1)不具備輿情監(jiān)測(cè)需求建模和智能匹配技木,互聯(lián)網(wǎng)信息挖掘的準(zhǔn)確性較低。(2)系統(tǒng)的易用性和個(gè)性化程度不高,用戶使用成本較高。(3)由于系統(tǒng)架構(gòu)的限制導(dǎo)致系統(tǒng)運(yùn)行效率較低。(4)對(duì)輿情監(jiān)測(cè)信息的智能相關(guān)處理、輿情趨勢(shì)分析、輿情自動(dòng)預(yù)警以及輿情熱點(diǎn)發(fā)現(xiàn)和跟蹤能力較弱。
發(fā)明內(nèi)容
為了解決上述技術(shù)問(wèn)題,本發(fā)明提供ー種基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)。本系統(tǒng)實(shí)現(xiàn)的技術(shù)目的主要體現(xiàn)在以下方面(1)實(shí)現(xiàn)對(duì)輿情監(jiān)測(cè)需求進(jìn)行建摸,提出描述輿情監(jiān)測(cè)需求的特征模型,并引入系統(tǒng),通過(guò)特征模型和輿情信息的匹配過(guò)濾算法,以及特征模型的自學(xué)習(xí)更新算法,保證了互聯(lián)網(wǎng)信息挖掘的準(zhǔn)確性。(2)采用軟件即服務(wù)(SaaS)的模式為用戶提供服務(wù),基于互聯(lián)網(wǎng)為用戶提供軟件服務(wù)的軟件應(yīng)用模式是軟件發(fā)展的最新趨勢(shì),用戶可以根據(jù)需求按需訂購(gòu)本系統(tǒng)提供的輿情監(jiān)測(cè)服務(wù),降低了用戶的IT成本。(3)采用基于分布式的云挖掘架構(gòu),將大量在線數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器分布于不同地理位置,作為系統(tǒng)的計(jì)算資源和存儲(chǔ)資源。系統(tǒng)能夠針對(duì)用戶的不同需求,利用云計(jì)算資源調(diào)度服務(wù)動(dòng)態(tài)調(diào)配云計(jì)算架構(gòu)中服務(wù)器資源的有效使用,以提高數(shù)據(jù)挖掘應(yīng)用程序的運(yùn)行效率、滿足用戶的實(shí)際需求。(4)實(shí)現(xiàn)多維度關(guān)聯(lián)的輿情展現(xiàn),本系統(tǒng)基于相似性算法的自動(dòng)聚類技木,自動(dòng)對(duì)每天采集的海量的、無(wú)類別的輿情進(jìn)行歸類,把內(nèi)容相近的文檔歸為一類,并自動(dòng)為該類生成主題詞。(5)實(shí)現(xiàn)基于智能化訓(xùn)練序列模式下的輿情趨勢(shì)分析,通過(guò)輿情關(guān)注熱點(diǎn)的連續(xù)時(shí)間監(jiān)測(cè)數(shù)據(jù)描述輿情變化趨勢(shì)分布,并通過(guò)這種輿情熱點(diǎn)的變化自動(dòng)對(duì)檢測(cè)特征模型進(jìn)行訓(xùn)練和更新,使特征模型能與輿情監(jiān)測(cè)熱點(diǎn)相一致,從而更好的從海量信息中篩選出有價(jià)值的資訊。(6)實(shí)現(xiàn)自動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn),對(duì)重要的熱點(diǎn)新聞信息進(jìn)行分析和追蹤,對(duì)于突發(fā)事件引起的網(wǎng)絡(luò)輿情,可以及時(shí)掌握輿情爆發(fā)點(diǎn)和事態(tài),系統(tǒng)會(huì)根據(jù)新聞文章數(shù)及文章在各大網(wǎng)站和社區(qū)的傳播鏈進(jìn)行自動(dòng)跟蹤統(tǒng)計(jì)。(7)實(shí)現(xiàn)按需自動(dòng)預(yù)警網(wǎng)絡(luò)輿情,對(duì)監(jiān)控的信息類別提供預(yù)警功能。預(yù)警等級(jí)可根據(jù)用戶需求分為高級(jí)、中級(jí)、低級(jí)、安全等級(jí)別。用戶可查看預(yù)警的各類信息,如在預(yù)警總分布圖中可查看到每類信息的預(yù)警文章條數(shù)及百分比。其技術(shù)方案如下
4
ー種基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)主要由以下五個(gè)功能部分構(gòu)成(1)云計(jì)算資源池該部分包含分布于不同地理位置的計(jì)算與存儲(chǔ)資源,由大量在線數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器組成。在云計(jì)算框架下,通過(guò)調(diào)度策略利用虛擬化技術(shù),針對(duì)用戶的不同需求,動(dòng)態(tài)、透明的提供其所需的計(jì)算與存儲(chǔ)資源,并在當(dāng)前用戶和應(yīng)用程序不使用時(shí)將其資源動(dòng)態(tài)回收供給其他用戶,就像發(fā)電廠供電ー樣為用戶輸送廉價(jià)的計(jì)算與存儲(chǔ)資源,讓普通用戶實(shí)現(xiàn)大規(guī)模并行計(jì)算與海量數(shù)據(jù)操作成為可能。(2)系統(tǒng)監(jiān)控與負(fù)載測(cè)量該部分提供對(duì)云計(jì)算框架中計(jì)算與存儲(chǔ)資源的監(jiān)控和測(cè)量。主要監(jiān)控測(cè)量的指標(biāo)有數(shù)據(jù)挖掘服務(wù)器資源負(fù)載狀態(tài),數(shù)據(jù)庫(kù)服務(wù)器資源負(fù)載狀態(tài),數(shù)據(jù)挖掘相關(guān)應(yīng)用程序?qū)τ?jì)算和存儲(chǔ)資源的請(qǐng)求量,以及用戶對(duì)計(jì)算和存儲(chǔ)資源的請(qǐng)求量。(3)云計(jì)算資源調(diào)度服務(wù)該部分用于動(dòng)態(tài)調(diào)配云計(jì)算框架中服務(wù)器資源的有效使用,以提高數(shù)據(jù)挖掘應(yīng)用程序的運(yùn)行效率、滿足用戶的實(shí)際需求。在資源請(qǐng)求量很少的時(shí)候?qū)?huì)把數(shù)據(jù)挖掘應(yīng)用程序的運(yùn)行和對(duì)用戶的響應(yīng)執(zhí)行在很少量的服務(wù)器資源上,而當(dāng)資源請(qǐng)求量增長(zhǎng)時(shí),最先成為系統(tǒng)瓶頸的往往是當(dāng)前數(shù)據(jù)挖掘服務(wù)器資源的計(jì)算能力,這時(shí)云計(jì)算平臺(tái)通過(guò)系統(tǒng)監(jiān)控與負(fù)載測(cè)量部分發(fā)現(xiàn)當(dāng)前計(jì)算資源負(fù)載過(guò)高,自動(dòng)動(dòng)態(tài)從云計(jì)算資源池中請(qǐng)求新的計(jì)算服務(wù)器資源加入到當(dāng)前運(yùn)行環(huán)境,以集群的方式線性增長(zhǎng)當(dāng)前運(yùn)行環(huán)境的計(jì)算能力以滿足數(shù)據(jù)挖掘應(yīng)用程序的資源請(qǐng)求。而當(dāng)數(shù)據(jù)挖掘應(yīng)用程序的資源請(qǐng)求進(jìn)ー步增長(zhǎng)吋,這時(shí)不只運(yùn)行環(huán)境的計(jì)算能力,存儲(chǔ)能力也將成為瓶頸,特別是當(dāng)數(shù)據(jù)挖掘服務(wù)器資源的増加所帯來(lái)的并發(fā)與協(xié)調(diào)執(zhí)行代價(jià)過(guò)高吋,數(shù)據(jù)庫(kù)服務(wù)器資源也將被動(dòng)態(tài)擴(kuò)展以滿足海量的資源請(qǐng)求。而當(dāng)數(shù)據(jù)挖掘應(yīng)用程序資源請(qǐng)求降低吋,則是相反的情況,數(shù)據(jù)挖掘和數(shù)據(jù)庫(kù)服務(wù)器資源將會(huì)逐步被回收回資源池。(4)多平臺(tái)輿情發(fā)布服務(wù)該部分的功能是將數(shù)據(jù)挖掘處理得到的網(wǎng)絡(luò)輿情監(jiān)測(cè)信息以多種不同的發(fā)布方式推送給用戶。主要的推送方式有WEB頁(yè)面瀏覽、WAP頁(yè)面瀏覽、RSS訂閱、Email推送、 MMS/SMS訂閱、移動(dòng)客戶端軟件等。通過(guò)多平臺(tái)輿情發(fā)布服務(wù)將網(wǎng)絡(luò)輿情監(jiān)測(cè)信息進(jìn)行發(fā)布,使輿情推送實(shí)現(xiàn)無(wú)縫銜接和無(wú)縫覆蓋,讓用戶隨時(shí)隨地以各種方式獲取輿情資訊,能最大限度地滿足用戶對(duì)輿情監(jiān)測(cè)的需求。(5)用戶交互界面該部分為用戶提供不同輿情發(fā)布方式的界面接ロ。針對(duì)不同的輿情發(fā)布方式,建立與之對(duì)應(yīng)的用戶界面,該界面提供用戶注冊(cè)與登錄、輿情監(jiān)測(cè)配置與管理以及輿情推送功能,用于用戶進(jìn)行授權(quán)訪問(wèn)、查看最新輿情信息以及對(duì)輿情監(jiān)測(cè)的個(gè)性化配置。數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器原理框圖如圖2所示,采用的技術(shù)主要有以下四個(gè)方面(1)互聯(lián)網(wǎng)資訊收集模塊該技術(shù)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)資訊的收集和存儲(chǔ),它類似于搜索引擎中使用的“網(wǎng)絡(luò)爬蟲”,但與“網(wǎng)絡(luò)爬蟲”又有著明顯的區(qū)別?!熬W(wǎng)絡(luò)爬蟲”是從ー個(gè)或若干初始網(wǎng)頁(yè)地址開始抓取網(wǎng)頁(yè),并不斷從當(dāng)前頁(yè)面上提取所有的鏈接地址進(jìn)行進(jìn)ー步抓取,直到滿足一定停止條件為止,其特點(diǎn)是最大限度的抓取網(wǎng)頁(yè)。而該技術(shù)進(jìn)行的是預(yù)先設(shè)定抓取指令的有限頁(yè)面抓取,只抓取包含用戶輿情監(jiān)測(cè)需求的頁(yè)面,收集數(shù)據(jù)目的在于“精”而不在干“廣”,因此, 每設(shè)定一個(gè)數(shù)據(jù)抓取指令,就相當(dāng)于進(jìn)行了一次特定領(lǐng)域的“垂直捜索”。(2)網(wǎng)頁(yè)內(nèi)容智能提取模塊對(duì)互聯(lián)網(wǎng)信息收集模塊抓取到的網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化處理,使非結(jié)構(gòu)化頁(yè)面內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)能夠進(jìn)行識(shí)別和處理的有語(yǔ)義結(jié)構(gòu)的數(shù)據(jù),并將具有輿情監(jiān)測(cè)價(jià)值的數(shù)據(jù)部分提取出來(lái)。按照目前技術(shù),計(jì)算機(jī)無(wú)法直接識(shí)別和理解網(wǎng)頁(yè)數(shù)據(jù)體現(xiàn)的信息和意義,也就不可能進(jìn)行對(duì)信息的進(jìn)ー步處理。該技術(shù)能夠克服計(jì)算機(jī)對(duì)信息結(jié)構(gòu)識(shí)別的困難,利用屬性標(biāo)記來(lái)幫助計(jì)算機(jī)識(shí)別信息結(jié)構(gòu),一旦完成了這項(xiàng)智能化的工作,就能夠利用計(jì)算機(jī)精確、快速的優(yōu)勢(shì),來(lái)進(jìn)行海量信息的處理工作。(3)輿情監(jiān)測(cè)特征建模模塊該技術(shù)用于收集用戶對(duì)不同輿情監(jiān)測(cè)項(xiàng)目的需求特征,并根據(jù)該特征建立監(jiān)測(cè)項(xiàng)的特征模型,作為為用戶進(jìn)行輿情監(jiān)測(cè)服務(wù)的依據(jù)。系統(tǒng)要進(jìn)行恰當(dāng)?shù)臄?shù)據(jù)挖掘工作,前提是必須能夠了解用戶對(duì)輿情監(jiān)測(cè)的實(shí)際需求,而且這種實(shí)際需求必須要轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別的格式,在本系統(tǒng)中,這種格式化的輿情監(jiān)測(cè)需求稱為輿情監(jiān)測(cè)項(xiàng)特征模型。系統(tǒng)以特征模型為依據(jù),進(jìn)行基于特征模型的數(shù)據(jù)挖掘處理,從而為用戶從海量數(shù)據(jù)中提取出滿足其輿情監(jiān)測(cè)需求的信息。(4)數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)模塊該技術(shù)根據(jù)監(jiān)測(cè)項(xiàng)的特征模型,從由網(wǎng)頁(yè)內(nèi)容智能提取技術(shù)得到的結(jié)構(gòu)化數(shù)據(jù)中為用戶智能篩選出符合其監(jiān)測(cè)需求的有用信息。由于該技術(shù)中涉及的數(shù)據(jù)挖掘處理是以特征模型為依據(jù)進(jìn)行的,而特征模型是用戶實(shí)際監(jiān)測(cè)需求的抽象表示,因此系統(tǒng)為用戶推薦的輿情信息必然是用戶需要的有價(jià)值信息,從而實(shí)現(xiàn)了輿情信息的智能發(fā)現(xiàn)。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果體現(xiàn)在以下六個(gè)方面在基于分布式的云計(jì)算系統(tǒng)架構(gòu)設(shè)計(jì)方面,利用先進(jìn)的云計(jì)算架構(gòu)思想,將大量在線數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器分布于不同地理位置,作為系統(tǒng)的計(jì)算資源和存儲(chǔ)資源。系統(tǒng)能夠針對(duì)用戶的不同需求,利用云計(jì)算資源調(diào)度服務(wù)動(dòng)態(tài)調(diào)配云計(jì)算架構(gòu)中服務(wù)器資源的有效使用,以提高數(shù)據(jù)挖掘應(yīng)用程序的運(yùn)行效率、滿足用戶的實(shí)際需求。云計(jì)算架構(gòu)中設(shè)置的系統(tǒng)監(jiān)控與負(fù)載測(cè)量模塊能夠?qū)?shù)據(jù)挖掘服務(wù)器資源負(fù)載狀態(tài)、數(shù)據(jù)庫(kù)服務(wù)器資源負(fù)載狀態(tài)、數(shù)據(jù)挖掘相關(guān)應(yīng)用程序?qū)τ?jì)算和存儲(chǔ)資源的請(qǐng)求量以及用戶對(duì)計(jì)算和存儲(chǔ)資源的請(qǐng)求量等數(shù)據(jù)指標(biāo)進(jìn)行監(jiān)控和測(cè)量,這些實(shí)時(shí)數(shù)據(jù)是云計(jì)算資源調(diào)度服務(wù)對(duì)系統(tǒng)資源進(jìn)行調(diào)配的依據(jù)。在互聯(lián)網(wǎng)資訊收集技術(shù)和網(wǎng)頁(yè)內(nèi)容智能提取技術(shù)方面,互聯(lián)網(wǎng)資訊收集技術(shù)能夠根據(jù)用戶輿情監(jiān)測(cè)需求利用網(wǎng)頁(yè)抓取技術(shù)抓取全網(wǎng)信息或特定信息源頁(yè)面,并將抓取的頁(yè)面進(jìn)行存儲(chǔ)供后續(xù)處理使用,以實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)資訊的收集和存儲(chǔ)功能,該技術(shù)需要實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上不同性質(zhì)的信息發(fā)布網(wǎng)站頁(yè)面的抓取,包括新聞網(wǎng)站、BBS論壇、博客。網(wǎng)頁(yè)內(nèi)容智能提取技術(shù)實(shí)現(xiàn)將抓取到的網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化處理,使非結(jié)構(gòu)化頁(yè)面內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)能夠進(jìn)行識(shí)別和處理的有語(yǔ)義結(jié)構(gòu)的數(shù)據(jù),并將具有輿情監(jiān)測(cè)價(jià)值的數(shù)據(jù)部分提取出來(lái),一旦完成了這項(xiàng)智能化的工作,就能夠利用計(jì)算機(jī)精確、快速的優(yōu)勢(shì),來(lái)進(jìn)行海量信息的數(shù)據(jù)挖掘處理工作。在輿情監(jiān)測(cè)特征建模技術(shù)方面,系統(tǒng)將用戶的輿情監(jiān)測(cè)需求進(jìn)行抽象和量化,形成計(jì)算機(jī)能夠識(shí)別的監(jiān)測(cè)特征模型。該特征模型由監(jiān)測(cè)信息源序列以及監(jiān)測(cè)特征標(biāo)簽序列組成,作為資訊收集以及進(jìn)行數(shù)據(jù)挖掘的依據(jù),使用戶能夠享受到精準(zhǔn)化的輿情監(jiān)測(cè)服務(wù)。 特征模型可以進(jìn)行更新,通過(guò)主動(dòng)和被動(dòng)兩種方式進(jìn)行主動(dòng)方式是由用戶自主設(shè)置和維護(hù)監(jiān)測(cè)信息源和監(jiān)測(cè)特征標(biāo)簽,從而建立和更新特征模型,其特點(diǎn)是特征模型可以快速建立和更新,適用于監(jiān)測(cè)需求明確的用戶;被動(dòng)方式是無(wú)需用戶主動(dòng)設(shè)置和維護(hù),系統(tǒng)通過(guò)一定的特征訓(xùn)練機(jī)制來(lái)確定和更新監(jiān)測(cè)特征模型,其特點(diǎn)是可以發(fā)現(xiàn)用戶潛在的監(jiān)測(cè)需求, 適用于監(jiān)測(cè)需求不明確的用戶。這兩種更新方式可以綜合使用,首先由用戶通過(guò)主動(dòng)方式設(shè)置初始特征模型,再利用被動(dòng)方式修正和更新特征模型,使特征模型越發(fā)趨近于用戶實(shí)際的監(jiān)測(cè)需求,井能不斷跟蹤用戶監(jiān)測(cè)需求的變化,使特征模型始終與用戶當(dāng)前的監(jiān)測(cè)需求相一致。在基于特征模型的數(shù)據(jù)挖掘分析及展現(xiàn)技術(shù)方面,數(shù)據(jù)挖掘分析技術(shù)根據(jù)監(jiān)測(cè)項(xiàng)的特征模型,利用自主的信息過(guò)濾和篩選機(jī)制從由網(wǎng)頁(yè)內(nèi)容智能提取技術(shù)得到的結(jié)構(gòu)化數(shù)據(jù)中為用戶智能篩選出符合其監(jiān)測(cè)需求的有用信息。由于該技術(shù)中涉及的數(shù)據(jù)挖掘處理是以特征模型為依據(jù)進(jìn)行的,而特征模型是用戶實(shí)際監(jiān)測(cè)需求的抽象表示,因此系統(tǒng)為用戶推薦的輿情信息必然是用戶需要的有價(jià)值信息,從而實(shí)現(xiàn)了輿情信息的智能發(fā)現(xiàn)。這些挖掘得到的有價(jià)值信息可通過(guò)多種分析和展現(xiàn)方式提供給用戶通過(guò)聚類技術(shù)發(fā)現(xiàn)網(wǎng)絡(luò)輿情的關(guān)注熱點(diǎn),通過(guò)輿情熱點(diǎn)在不同重要度網(wǎng)站上的出現(xiàn)頻度提供輿情熱點(diǎn)排行,通過(guò)輿情關(guān)注熱點(diǎn)的連續(xù)時(shí)間監(jiān)測(cè)數(shù)據(jù)描述輿情變化趨勢(shì)分布,通過(guò)輿情變化趨勢(shì)提供輿情預(yù)警, 輿情關(guān)注熱點(diǎn)間的關(guān)聯(lián)度分析等。在基于MaS的用戶服務(wù)提供模式方面,系統(tǒng)利用先進(jìn)的軟件服務(wù)化技木,使用戶不需自己架設(shè)輿情監(jiān)測(cè)硬件系統(tǒng),只需在該項(xiàng)目提供的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)平臺(tái)上按需使用輿情監(jiān)測(cè)服務(wù),就能不受時(shí)間和地域的限制獲得所需的輿情監(jiān)測(cè)信息。在多平臺(tái)輿情發(fā)布模式方面,系統(tǒng)利用多種信息傳輸手段,使用戶盡可能利用最方便的信息獲取平臺(tái)獲得輿情監(jiān)測(cè)信息。主要的發(fā)布方式有WEB頁(yè)面瀏覽、WAP頁(yè)面瀏覽、 RSS訂閱、Email推送、匪S/SMS訂閱、移動(dòng)客戶端軟件等。
圖1系統(tǒng)架構(gòu)圖;圖2輿情監(jiān)測(cè)服務(wù)器原理框圖;圖3輿情監(jiān)測(cè)需求特征模型的建立和更新方法流程圖;圖4輿情信息去重技術(shù)流程圖;圖5云挖掘系統(tǒng)平臺(tái)架構(gòu)圖;圖6 SaaS與元計(jì)算相結(jié)合的服務(wù)模式實(shí)現(xiàn)流程圖;圖7網(wǎng)絡(luò)輿情熱點(diǎn)信息自動(dòng)發(fā)現(xiàn)方法基本流程圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明的技術(shù)方案作進(jìn)ー步詳細(xì)地說(shuō)明。
1)輿情監(jiān)測(cè)需求的特征模型和輿情信息的匹配過(guò)濾技術(shù)輿情監(jiān)測(cè)需求特征模型是從用戶的輿情監(jiān)測(cè)需求中提取出的需求特征及其關(guān)注程度的數(shù)據(jù)記錄集,是對(duì)輿情需求特征的數(shù)據(jù)化模擬。特征模型能夠被計(jì)算機(jī)識(shí)別和處理, 能夠?yàn)椴煌脩籼峁┡c之輿情監(jiān)測(cè)需求相適應(yīng)的精準(zhǔn)化服務(wù)。A.輿情監(jiān)測(cè)需求特征模型的定義設(shè)特征序列I0(S,T) = ([(S15T1), (s2,r2),···,(sn, rn) ], [U15W1), (t2,w2),···, (tm,wm)]},其中(Si,r,)表示一個(gè)信息源単元,Si為監(jiān)測(cè)信息源,r,為該信息源對(duì)應(yīng)的網(wǎng)絡(luò)排名;(ti; Wi)表示一個(gè)監(jiān)測(cè)特征單元,、為特征標(biāo)簽,Wi為其對(duì)應(yīng)的重要度。對(duì)巧和Wi歸一化處理,得到 I (S,T) = ([(S1, X1), (s2,x2),..., (sn, xn) ], [(ti;yi), (t2,y2),.··,(tm, ym)]},其中
權(quán)利要求
1.ー種基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),其特征在干,包括五個(gè)組成部分 云計(jì)算資源池包含分布于不同地理位置的計(jì)算與存儲(chǔ)資源,由數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器組成;系統(tǒng)監(jiān)控與負(fù)載測(cè)量提供對(duì)云計(jì)算框架中計(jì)算與存儲(chǔ)資源的監(jiān)控和測(cè)量;云計(jì)算資源調(diào)度服務(wù)用于動(dòng)態(tài)調(diào)配云計(jì)算框架中服務(wù)器資源的使用;多平臺(tái)輿情發(fā)布服務(wù)將數(shù)據(jù)挖掘處理得到的網(wǎng)絡(luò)輿情監(jiān)測(cè)信息以ー種以上的發(fā)布方式推送給用戶;用戶交互界面為用戶提供不同輿情發(fā)布方式的界面接ロ。針對(duì)不同的輿情發(fā)布方式, 建立與之對(duì)應(yīng)的用戶界面,該界面提供用戶注冊(cè)與登錄、輿情監(jiān)測(cè)配置與管理以及輿情推送功能,用于用戶進(jìn)行授權(quán)訪問(wèn)、查看最新輿情信息以及對(duì)輿情監(jiān)測(cè)的個(gè)性化配置。
2.根據(jù)權(quán)利要求1所述的基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),其特征在干,所述的數(shù)據(jù)挖掘服務(wù)器和數(shù)據(jù)庫(kù)服務(wù)器包括互聯(lián)網(wǎng)資訊收集模塊實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)資訊的收集和存儲(chǔ);網(wǎng)頁(yè)內(nèi)容智能提取模塊對(duì)互聯(lián)網(wǎng)信息收集模塊抓取到的網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化處理,使非結(jié)構(gòu)化頁(yè)面內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)能夠進(jìn)行識(shí)別和處理的有語(yǔ)義結(jié)構(gòu)的數(shù)據(jù),并將具有輿情監(jiān)測(cè)價(jià)值的數(shù)據(jù)部分提取出來(lái);輿情監(jiān)測(cè)特征建模模塊用于收集用戶對(duì)不同輿情監(jiān)測(cè)項(xiàng)目的需求特征,井根據(jù)該特征建立監(jiān)測(cè)項(xiàng)的特征模型,作為為用戶進(jìn)行輿情監(jiān)測(cè)服務(wù)的依據(jù);數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)模塊根據(jù)監(jiān)測(cè)項(xiàng)的特征模型,從由網(wǎng)頁(yè)內(nèi)容智能提取技術(shù)得到的結(jié)構(gòu)化數(shù)據(jù)中為用戶智能篩選出符合其監(jiān)測(cè)需求的有用信息。
3.根據(jù)權(quán)利要求1所述的基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),其特征在干,所述系統(tǒng)監(jiān)控與負(fù)載測(cè)量主要監(jiān)控測(cè)量的指標(biāo)有數(shù)據(jù)挖掘服務(wù)器資源負(fù)載狀態(tài),數(shù)據(jù)庫(kù)服務(wù)器資源負(fù)載狀態(tài),數(shù)據(jù)挖掘相關(guān)應(yīng)用程序?qū)τ?jì)算和存儲(chǔ)資源的請(qǐng)求量,以及用戶對(duì)計(jì)算和存儲(chǔ)資源的請(qǐng)求量。
4.根據(jù)權(quán)利要求1所述的基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),其特征在干,所述多平臺(tái)輿情發(fā)布服務(wù)主要的推送方式有=WEB頁(yè)面瀏覽、WAP頁(yè)面瀏覽、RSS訂閱、Email 推送、MMS/SMS訂閱、移動(dòng)客戶端軟件。
5.根據(jù)權(quán)利要求1所述的基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),其特征在干,所述用戶交互界面針對(duì)不同的輿情發(fā)布方式,建立與之對(duì)應(yīng)的用戶界面,該界面提供用戶注冊(cè)與登錄、輿情監(jiān)測(cè)配置與管理以及輿情推送功能,用于用戶進(jìn)行授權(quán)訪問(wèn)、查看最新輿情信息以及對(duì)輿情監(jiān)測(cè)的個(gè)性化配置。
全文摘要
本發(fā)明公開了一種基于特征模型的云挖掘網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),包括五個(gè)組成部分云計(jì)算資源池、系統(tǒng)監(jiān)控與負(fù)載測(cè)量、云計(jì)算資源調(diào)度服務(wù)、多平臺(tái)輿情發(fā)布服務(wù)、用戶交互界面。針對(duì)不同的輿情發(fā)布方式,建立與之對(duì)應(yīng)的用戶界面,該界面提供用戶注冊(cè)與登錄、輿情監(jiān)測(cè)配置與管理以及輿情推送功能,用于用戶進(jìn)行授權(quán)訪問(wèn)、查看最新輿情信息以及對(duì)輿情監(jiān)測(cè)的個(gè)性化配置。該系統(tǒng)具有運(yùn)行效率高成本低的特點(diǎn),適用于電子信息技術(shù)領(lǐng)域。
文檔編號(hào)G06F17/30GK102546771SQ20111044228
公開日2012年7月4日 申請(qǐng)日期2011年12月27日 優(yōu)先權(quán)日2011年12月27日
發(fā)明者朱大鵬, 杜晨光, 顏濤 申請(qǐng)人:西安博構(gòu)電子信息科技有限公司