專利名稱:論壇網(wǎng)民興趣分析預測系統(tǒng)的制作方法
技術領域:
本發(fā)明是一種網(wǎng)絡虛擬環(huán)境的分析技術,具體涉及一種論壇網(wǎng)民興趣分析預測系統(tǒng),屬 于數(shù)據(jù)挖掘技術領域。
背景技術:
隨著網(wǎng)絡信息化的發(fā)展,出現(xiàn)了大量的網(wǎng)絡虛擬社區(qū),形成了一個網(wǎng)絡虛擬環(huán)境,網(wǎng)絡 論壇就是其中的一種主要形式。在傳統(tǒng)的社會化經(jīng)中,長期已經(jīng)具有一套行之有效的人和群 的管理體系,但是網(wǎng)絡虛擬環(huán)境這是一個新生事物,它不僅僅具有網(wǎng)上自由發(fā)言的特點,還 具有網(wǎng)民匿名性的特點,加大了監(jiān)管的難度。目前,網(wǎng)絡輿情已經(jīng)成為一個不可忽視的方面, 而網(wǎng)絡論壇更能體現(xiàn)出網(wǎng)絡聚眾的特點,和其它網(wǎng)絡應用相比,更能反映網(wǎng)絡輿情態(tài)勢。因 此,對于網(wǎng)站論壇中輿情的主要推動力量一一網(wǎng)民的分析具有重大意義。通過對論壇中網(wǎng)民 興趣的分析,可以準確掌控某一時間段內(nèi)網(wǎng)絡輿情態(tài)勢發(fā)展的主要趨向。
雖然對基于論壇的網(wǎng)民興趣分析具有較好的發(fā)展前景和應用前途,也出現(xiàn)了一些相關的 系統(tǒng),但是,目前在該領域的系統(tǒng)仍無存在著一系列的問題,主要有幾下幾種
1. 單純的網(wǎng)民和發(fā)表文章的關聯(lián)分析,缺乏對網(wǎng)民參與議題、熱點話題、內(nèi)容類別的時
間跨度上的系統(tǒng)分析,使得對個體網(wǎng)民的分析缺乏立體感。
2. 網(wǎng)民在網(wǎng)絡上的活動往往帶有團體的性質(zhì),目前的系統(tǒng)和方法往往忽略了這一點。網(wǎng)
絡輿情基本上都是在網(wǎng)絡團體的帶動下而形成的,個體的網(wǎng)民很難形成一股力量, 因此,需要對網(wǎng)絡人群進行深入的分析。
3. 目前的系統(tǒng)和方法都是對即時的、局部的數(shù)據(jù)進行分析,但是,網(wǎng)民的興趣不是獨立
的,他們往往和大的網(wǎng)絡環(huán)境、網(wǎng)絡發(fā)展過程相關聯(lián)的,目前的系統(tǒng)和方法缺乏一 個網(wǎng)民模型知識庫,用于對網(wǎng)民興趣從總體上進行分析和預測。 由此可見,網(wǎng)絡論壇中網(wǎng)民興趣的分析是非常重要的,對網(wǎng)民興趣的分析在數(shù)據(jù)挖據(jù)上 有著深度的要求,而現(xiàn)有的系統(tǒng)在網(wǎng)民和內(nèi)容關聯(lián)、網(wǎng)民之間關聯(lián)、網(wǎng)民模型知識庫都存在 著缺陷,還無法滿足網(wǎng)民興趣分析的深層次要求。
發(fā)明內(nèi)容
本發(fā)明的目的主要是針對現(xiàn)有基于論壇的網(wǎng)絡虛擬環(huán)境網(wǎng)民興趣分析的系統(tǒng)中存在的缺 陷,提出一種以網(wǎng)民和內(nèi)容關關聯(lián)、網(wǎng)民之間關聯(lián)、網(wǎng)民模型知識庫為技術基礎實現(xiàn)的基于數(shù)據(jù)挖掘的論壇網(wǎng)民興趣分析預測系統(tǒng),它主要通過網(wǎng)民和熱點話題、議題、內(nèi)容分類、傾 向性分析,網(wǎng)民和網(wǎng)民之間關系分析,長期網(wǎng)民模型知識庫的積累等方面,深度挖掘了網(wǎng)民 興趣的起源和發(fā)展,并作出預測,實現(xiàn)論壇網(wǎng)民興趣的深層次分析。
本發(fā)明所述的以網(wǎng)民和內(nèi)容關關聯(lián)、網(wǎng)民之間關聯(lián)、網(wǎng)民模型知識庫為技術基礎實現(xiàn)的 基于數(shù)據(jù)挖掘的論壇網(wǎng)民興趣分析預測系統(tǒng)由數(shù)據(jù)存儲層、智能內(nèi)容分析層、關聯(lián)分析層和 興趣分析層組成。
所述數(shù)據(jù)存儲層在本地系統(tǒng)中負責存放結構化數(shù)據(jù)和非結構化數(shù)據(jù),數(shù)據(jù)的入庫和索引 都是在該層完成。對于結構化數(shù)據(jù),如網(wǎng)民ID、時間等,所述數(shù)據(jù)存儲層將其存^L于通用的 商業(yè)數(shù)據(jù)庫中,這里采用的是oracle;而對于非結構化數(shù)據(jù),主要是文本內(nèi)容,如果存放在 通用的商業(yè)數(shù)據(jù)庫中,隨著數(shù)據(jù)量的增加,索引性能將會急劇降低,因此,我們將其置于自 主開發(fā)的專用的非結構化數(shù)據(jù)存儲庫內(nèi)。每篇文章的結構化數(shù)據(jù)和非結構化數(shù)據(jù)因為存于不 同的數(shù)據(jù)庫內(nèi),而且類型不一樣,因此需要將數(shù)據(jù)統(tǒng)一關聯(lián)起來,我們采用結構化數(shù)據(jù)在通 用商業(yè)數(shù)據(jù)庫內(nèi)的唯一標志ID作為關聯(lián)的依據(jù)。
所述智能內(nèi)容分析層針對非結構化數(shù)據(jù),采用數(shù)據(jù)挖掘的方法,主要包括文本分類、文 本聚類、文本摘要等,進行智能化文本內(nèi)容分析,實現(xiàn)了主題夯類、熱點話題提取和跟蹤、 傾向性分析等功能。
所述文本分類是采用人工和自動化相結合的方式,對既設主題進行類別的識別。分類的 方法有很多種,我們采用了 SUPPORT VECTOR MACHINE (支持向量機)的方法,該方法 建立在對詞的統(tǒng)計基礎之上。其工作流程主要如下第一步,人工提取一部分文章作為訓練 集;第二步,對特征集進行中文分詞,過濾停用詞,提取特征詞,并將特征集內(nèi)的每篇文章 轉(zhuǎn)化為特征詞向量表示;第三步,調(diào)用分類訓練器,對特征集向量進行訓練,得到分類器; 第四步,輸入待分類文本內(nèi)容,根據(jù)訓練集特征詞提取特征,形成特征向量,利用分類器對 其進行分類。
所述熱點話題提取和跟蹤采用文本聚類和分類相結合的方式,具體做法上是對熱點話題 的提取采用文本聚類的方法,而對熱點話題的跟蹤采用文本分類的方法,其工作流程如下 第一步,對指定時間段內(nèi)的文本數(shù)據(jù)進行中文分詞、特征提取,形成向量;第二步,對形成 的向量進行自動化聚類,聚類的算法有很多,我們采用的是基于層次的聚類算法;第三步, 將聚類出的類別作為新的熱點話題;如果需要跟蹤該話題,將新熱點話題內(nèi)的文章作為文本 分類的訓練集,對其進行訓練,得到分類器;第四步,利用得到的分類器,對新輸入的文章 進行分類,將其歸入某個熱點話題,從而實現(xiàn)了對熱點話題的跟蹤。
所述傾向性分析采用人工和自動相結合的方式,首先,我們對通用詞形成了語義庫,在這個語義庫內(nèi),我們對每個詞進行了傾向性的權值分析;其次,輸入文本內(nèi)容,利用語義庫 對文本內(nèi)容中的詞進行語義加權,從而得到文本內(nèi)容的傾向性;再次,介入人工的方式,調(diào) 節(jié)傾向性分析結果。
所述關聯(lián)分析層,根據(jù)所述主題分類和所述熱點話題,依次進行網(wǎng)民與內(nèi)容關聯(lián)、網(wǎng)民 與網(wǎng)民關聯(lián)。所述網(wǎng)民與內(nèi)容關聯(lián)不是指網(wǎng)民和他所發(fā)表文章的關聯(lián),而是利用上述的所述 智能內(nèi)容分析層的輸出結果,對網(wǎng)民和當前的主題分類、熱點話題、言論傾向性進行關聯(lián), 從而可以看出該網(wǎng)民在這段時間內(nèi)的興趣在哪個主題分類、哪個熱點話題,持何種態(tài)度?主 要采用概率統(tǒng)計的方法,統(tǒng)計分析網(wǎng)民在各個方向的關注情況,從而判斷出興趣點。
所述網(wǎng)民與網(wǎng)民關聯(lián),綜合運用所述結構化數(shù)據(jù)、所述智能內(nèi)容分析層的結果數(shù)據(jù)、所 述網(wǎng)民與內(nèi)容關聯(lián)的分析結果數(shù)據(jù),采用數(shù)據(jù)關聯(lián)的方法,分析得出網(wǎng)絡社會結構,包括網(wǎng) 絡社區(qū)、網(wǎng)絡群體、網(wǎng)絡團伙。根據(jù)論壇結構化數(shù)據(jù),包括網(wǎng)站、版面、網(wǎng)民、時間等,分 析出某段時間內(nèi),經(jīng)常活躍于某個網(wǎng)站某個版面某個分類的網(wǎng)民群,我們定義為網(wǎng)絡社區(qū); 在網(wǎng)絡社區(qū)內(nèi),經(jīng)常同時參與某類敏感話題的網(wǎng)民群,我們定義為網(wǎng)絡群體;在網(wǎng)絡群體內(nèi), 經(jīng)常參與統(tǒng)一個議題,即統(tǒng)一個根貼和回帖的群,我們定義為網(wǎng)絡團伙。
所述興趣分析層,依據(jù)所述網(wǎng)民與內(nèi)容關聯(lián)、所述網(wǎng)民與網(wǎng)民關聯(lián)和所述傾向性分析, 進行網(wǎng)民興趣分析預測。所述興趣分析層包括網(wǎng)民模型知識庫模塊,用于對單個網(wǎng)民和網(wǎng) 民群體過去興趣分析的歸納和總結,形成經(jīng)驗模型,并作為機器學習知識供后續(xù)分析;網(wǎng)民 興趣分析模塊,用于根據(jù)所述網(wǎng)民模型知識庫模塊,分析單個網(wǎng)民的興趣和網(wǎng)民群體的興趣 點;網(wǎng)民興趣發(fā)展預測模塊,用于根據(jù)所述網(wǎng)民模型知識庫模塊,預測判斷單個網(wǎng)民和網(wǎng)民 群體的未來興趣發(fā)展。
所述網(wǎng)民模型知識庫模塊是對網(wǎng)民和群過去興趣分析的歸納和總結,形成經(jīng)驗模型,并 作為機器學習知識,以供后續(xù)的分析。網(wǎng)民模型知識庫記錄了網(wǎng)民和群的興趣概率統(tǒng)計分布, 并在一段時間上的發(fā)展變化。
所述網(wǎng)民興趣分析模塊,不僅僅分析了單個網(wǎng)民的興趣,也分析了網(wǎng)絡群的興趣點。主 要采用的方法是根據(jù)網(wǎng)民和內(nèi)容關聯(lián)模塊分析結果,網(wǎng)民和網(wǎng)民關聯(lián)模塊分析結果,結合網(wǎng) 民模型知識庫,綜合考慮網(wǎng)民和群以往的興趣經(jīng)驗,判斷出網(wǎng)民當前興趣分布。
所述網(wǎng)民興趣發(fā)展預測模塊根據(jù)網(wǎng)民和群當前的討論熱點所在,運用網(wǎng)民模型知識庫得 出以往發(fā)展模式,經(jīng)過對比后,對網(wǎng)民和群的今后興趣發(fā)展做出適當?shù)念A測判斷。我們釆用 了馬爾科夫模型,在每個時間點上采用了興趣點的概率分布,#>據(jù)當前興趣點的概率分布, 從而在某種程度上對未來興趣點的發(fā)展做出了預測分析。
本發(fā)明具有實質(zhì)性特點和顯著進步(1)通過對網(wǎng)民和內(nèi)容關聯(lián)的深度挖掘,對網(wǎng)民進行興趣分析;(2)通過對網(wǎng)絡人群的分析,挖掘,得到網(wǎng)民在網(wǎng)絡上所扮演的角色和起到的 作用,從而發(fā)掘出網(wǎng)民的動機;(3)采用網(wǎng)民模型知識庫的方式,積累大量的網(wǎng)民相關信息 的模型,再應用到當前的數(shù)椐分析中,有利于從總體上分析網(wǎng)民的興趣所在,并作出適當預 測。
本發(fā)明提出的以網(wǎng)民和內(nèi)容關關聯(lián)、網(wǎng)民之間關聯(lián)、網(wǎng)民模型知識庫為技術基礎實現(xiàn)的 基于數(shù)據(jù)挖掘的論壇網(wǎng)民興趣分析預測系統(tǒng),充分利用網(wǎng)絡內(nèi)容信息、網(wǎng)民信息、歷史數(shù)據(jù) 信息,有效的解決了對基于論壇的網(wǎng)民興趣分析的深度挖掘需求,適用于網(wǎng)絡輿情分析系統(tǒng) 的實施。
附圖為論壇網(wǎng)民興趣分析預測系統(tǒng)一 實施方式的系統(tǒng)架構圖。
具體實施例方式
下面結合附圖對本發(fā)明的實施方式進行詳細說明。
附圖所示為論壇網(wǎng)民興趣分析預測系統(tǒng)一實施方式的系統(tǒng)架構圖。如圖所示,整個系統(tǒng) 架構分為四個層次第一層是數(shù)據(jù)存儲層,負責管理結構化數(shù)據(jù)和非結構化數(shù)據(jù)的入庫、索 引;第二層是智能內(nèi)容分析層,采用數(shù)據(jù)挖掘的方法對文章內(nèi)容進行文本分類、熱點話題提 取和跟蹤、傾向性分析;第三層是關聯(lián)分析層,包括網(wǎng)民和內(nèi)容關聯(lián)模塊、網(wǎng)民和網(wǎng)民關聯(lián) 模塊,其中網(wǎng)民和內(nèi)容關聯(lián)模塊的分析結果是網(wǎng)民和網(wǎng)民關聯(lián)^莫塊的分析基礎;第四層,也 是最上一層是興趣分析層,包括網(wǎng)民模型知識庫模塊、網(wǎng)民興趣分析模塊、網(wǎng)民興趣發(fā)展預 測模塊,其調(diào)用次序是,網(wǎng)民興趣分析模塊調(diào)用網(wǎng)民模型知識庫模塊,這兩個模塊又是網(wǎng)民 興趣發(fā)展預測模塊的基礎。
在所述智能內(nèi)容分析層,首先將文本數(shù)據(jù)輸入該模塊,內(nèi)容分析模塊調(diào)用中文分詞功能, 對中文文本進行分詞,然后再進入特征選擇,主要有兩項工作,首先去掉停用詞,再計算TFIDF 值,進行特征選擇。文本分類和文本聚類的特征選擇是不一樣的,文本分類直接對訓練文檔 進行特征選擇,而文本聚類將所有的測試文檔看作不同的類別,進行特征選擇,因此,得到 兩個特征選擇結果。特征選擇結束以后,分為兩部分, 一部分是進行文本分類,另一部分是 進行文本聚類。在文本分類這一部分,首先調(diào)用分類訓練功能,經(jīng)過訓練后得到分類的分類 器;其次進行文本分類;最后對分類結果進行傾向性分析,得到每個類別的言"i侖傾向性情況。 在文本聚類這一部分,首先調(diào)用文本聚類功能,自動舉出類別;再次將自動聚出的類別提取 出來,形成新的熱點話題和跟蹤;最后,對熱點話題進行傾向性分析,得出每個熱點話題的言論傾向性。
在所述關聯(lián)分析層,既有網(wǎng)民和內(nèi)容關聯(lián)模塊,又有網(wǎng)民和網(wǎng)民關聯(lián)模塊。首先是網(wǎng)民 和內(nèi)容關聯(lián)模塊,分為三個部分,第一個是文本分類結果和網(wǎng)站版面網(wǎng)民關聯(lián)分析,第二個 是熱點話題分析結果和網(wǎng)站版面網(wǎng)民刮臉分析,第三個是同題目議題與網(wǎng)站版面網(wǎng)民關聯(lián)分
析;其次是網(wǎng)民和網(wǎng)民關聯(lián)^t塊,也分為三個部分,分別對應著上述三個部分,第一個將相 同網(wǎng)站相同版面相同分類的網(wǎng)絡群劃分為網(wǎng)絡社區(qū);第二個將相同網(wǎng)站相同版面相同話題的 網(wǎng)絡群劃分為網(wǎng)絡群體;第三個將相同網(wǎng)站相同版面同題目議題的網(wǎng)絡群劃分為網(wǎng)絡團伙。
在所述興趣分析層,將上述得到的網(wǎng)絡社區(qū)、網(wǎng)絡群體、網(wǎng)絡團伙、個體網(wǎng)民和傾向性 分析結果結合起來,經(jīng)過統(tǒng)計分析,我們可以得到網(wǎng)民和網(wǎng)絡群的興趣分析點;在此基礎上, 再結合網(wǎng)民模型知識庫,分別對網(wǎng)民和網(wǎng)路群的興趣發(fā)展做出預測,包括網(wǎng)絡社區(qū)興趣分析 和發(fā)展預測、網(wǎng)絡群體興趣分析和發(fā)展預測、網(wǎng)絡團伙興趣分析和發(fā)展預測、網(wǎng)民興趣分析 和發(fā)展預測。
從上述實施過程可以看出,本發(fā)明所做的以網(wǎng)民和內(nèi)容關關聯(lián)、網(wǎng)民之間關聯(lián)、網(wǎng)民模 型知識庫為技術基礎實現(xiàn)的基于數(shù)據(jù)挖掘的論壇網(wǎng)民興趣分析預測系統(tǒng),有效的實現(xiàn)了論壇 網(wǎng)民興趣分析的深度挖掘,為網(wǎng)絡輿情分析中的網(wǎng)絡人和群的分析提供了可靠信息。
權利要求
1.一種論壇網(wǎng)民興趣分析預測系統(tǒng),其特征在于包括數(shù)據(jù)存儲層,用于存儲結構化數(shù)據(jù)和非結構化數(shù)據(jù);智能內(nèi)容分析層,用于將所述數(shù)據(jù)存儲層中的數(shù)據(jù)作主題分類、熱點話題的提取和跟蹤、傾向性分析;關聯(lián)分析層,根據(jù)所述主題分類和所述熱點話題,依次進行網(wǎng)民與內(nèi)容關聯(lián)、網(wǎng)民與網(wǎng)民關聯(lián);興趣分析層,依據(jù)所述網(wǎng)民與內(nèi)容關聯(lián)、所述網(wǎng)民與網(wǎng)民關聯(lián)和所述傾向性分析,進行網(wǎng)民興趣分析預測。
2. 根據(jù)權利要求1所述的論壇網(wǎng)民興趣分析預測系統(tǒng),其特征在于所述興趣分析層包括網(wǎng)民模型知識庫模塊,用于對單個網(wǎng)民和網(wǎng)民群體過去興趣分析的歸納和總結,形成經(jīng)驗模型,并作為機器學習知識供后續(xù)分析;網(wǎng)民興趣分析模塊,用于根據(jù)所述網(wǎng)民模型知識庫模塊,分析單個網(wǎng)民的興趣和網(wǎng)民群體的興趣點;網(wǎng)民興趣發(fā)展預測模塊,用于根據(jù)所述網(wǎng)民模型知識庫模塊,預測判斷單個網(wǎng)民和網(wǎng)民群體的未來興趣發(fā)展。
3. 根據(jù)權利要求1或2所述的論壇網(wǎng)民興趣分析預測系統(tǒng),其特征在于所述網(wǎng)民與內(nèi)容關聯(lián)包括文本分類結果和網(wǎng)民關聯(lián)分析、熱點話題分析結果和網(wǎng)站版面網(wǎng)民關聯(lián)分析和同題目議題與網(wǎng)民關聯(lián)分析。
4. 根據(jù)權利要求1或2所述的論壇網(wǎng)民興趣分析預測系統(tǒng),其特征在于所述網(wǎng)民與網(wǎng)民關聯(lián)包括將相同網(wǎng)站相同版面相同分類的網(wǎng)民與網(wǎng)民關聯(lián)、將相同網(wǎng)站相同版面相同話題的網(wǎng)民與網(wǎng)民關聯(lián)和將相同網(wǎng)站相同版面同題目議題的網(wǎng)民與網(wǎng)民關聯(lián)。
5. 根據(jù)權利要求3所述的論壇網(wǎng)民興趣分析預測系統(tǒng),其特征在于所述網(wǎng)民與網(wǎng)民關聯(lián)包括將相同網(wǎng)站相同版面相同分類的網(wǎng)民與網(wǎng)民關聯(lián)、將相同網(wǎng)站相同版面相同話題的網(wǎng)民與網(wǎng)民關聯(lián)和將相同網(wǎng)站相同版面同題目議題的網(wǎng)民與網(wǎng)民關聯(lián)。
6. 根據(jù)權利要求1或2所述的論壇網(wǎng)民興趣分析預測系統(tǒng),其特征在于所述數(shù)據(jù)存儲層為所述結構化數(shù)據(jù)和所述非結構化數(shù)據(jù)建立索引。
7. 根據(jù)權利要求2所述的論壇網(wǎng)民興趣分析預測系統(tǒng),其特征在于所述網(wǎng)民興趣分析模塊采用馬爾科夫模型,在每個時間點上采用興趣點的概率分布,根據(jù)當前興趣點的概率分布,預測判斷未來興趣點的發(fā)展。
全文摘要
一種論壇網(wǎng)民興趣分析預測系統(tǒng),其特征在于包括數(shù)據(jù)存儲層,用于存儲結構化數(shù)據(jù)和非結構化數(shù)據(jù);智能內(nèi)容分析層,用于將所述數(shù)據(jù)存儲層中的數(shù)據(jù)作主題分類、熱點話題的提取和跟蹤、傾向性分析;關聯(lián)分析層,根據(jù)所述主題分類和所述熱點話題,依次進行網(wǎng)民與內(nèi)容關聯(lián)、網(wǎng)民與網(wǎng)民關聯(lián);興趣分析層,依據(jù)所述網(wǎng)民與內(nèi)容關聯(lián)、所述網(wǎng)民與網(wǎng)民關聯(lián)和所述傾向性分析,進行網(wǎng)民興趣分析預測。根據(jù)本系統(tǒng),能夠有效解決對論壇網(wǎng)民興趣分析的深度挖掘需求,適用于網(wǎng)絡輿情分析系統(tǒng)的實施。
文檔編號G06F17/30GK101556582SQ200810035769
公開日2009年10月14日 申請日期2008年4月9日 優(yōu)先權日2008年4月9日
發(fā)明者吳承榮, 張世永, 謝劍鋒 申請人:上海復旦光華信息科技股份有限公司