專利名稱:一種分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng)及其分析方法
技術(shù)領(lǐng)域:
本發(fā)明屬于互聯(lián)網(wǎng)文本處理/數(shù)據(jù)挖掘領(lǐng)域,涉及利用數(shù)據(jù)挖掘相關(guān)技術(shù)分析網(wǎng)絡(luò)中主題文章與針對這些文章提出的眾多評論內(nèi)容之間相關(guān)度等方面。具體包含了利用向量空間模型,概率模型與語言模型進(jìn)行的針對主題文章與評論內(nèi)容相似性分析,以及評論內(nèi)容本身之間相關(guān)性的分析。
背景技術(shù):
Web2. 0時代是一個信息急速增長的時代,網(wǎng)民們能夠自由針對各種網(wǎng)絡(luò)新聞和博客做出各種評論,近幾年這些評論數(shù)據(jù)已經(jīng)達(dá)到了一個海量的規(guī)模。針對這些數(shù)據(jù)現(xiàn)在已經(jīng)有諸多數(shù)據(jù)挖掘方面的研究,如用戶評論提取與情感分析,用戶評論的整合和抽象等。在眾多研究領(lǐng)域中,當(dāng)前有一項研究熱點就是識別評論與主題是否相關(guān),即評論是否屬于垃圾評論,它有助于人們更好的利用評論資源。在目前研究工作中,這種識別一般都僅為定性的識別不相關(guān)則為垃圾評論,反之為非垃圾評論。事實上,垃圾評論與非垃圾評論之前并沒有明顯的分界,故這種定性的識別往往比較模糊。此外,即使同為非垃圾評論,它們的價值也往往不盡相同。目前為止,以上這些不足還沒有被一般研究人員考慮到。當(dāng)前,評論信息研究工作主要集中在利用自然語言處理技術(shù)以及數(shù)據(jù)挖掘技術(shù)提取并總結(jié)用戶評論數(shù)據(jù)中的用戶觀點,即評論中的意見挖掘(正面還是負(fù)面)領(lǐng)域。具體包含在針對某項產(chǎn)品的用戶評論中總結(jié)出該產(chǎn)品的某些功能以及用戶對這些功能的觀點, 識別每個評論中能夠反映用戶觀點的詞句,識別每個評論的包含的用戶感情是積極或是消極等。在研究評論提出者個性以及行為方面,目前也正在起步并取得一定研究成果,與此類似的還有關(guān)于評論內(nèi)容可信度上的研究。但在垃圾評論識別上卻仍然基本上是一片空白,現(xiàn)今已有的少量關(guān)于垃圾評論識別上的研究工作也僅停留在描述垃圾評論分析的各種問題以及已確定的垃圾評論的種類上。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有的互聯(lián)網(wǎng)中缺乏評論信息相關(guān)度分析工具的現(xiàn)狀,提供一種網(wǎng)絡(luò)評論與其主題的相關(guān)度分析系統(tǒng)。為解決上述技術(shù)問題,本發(fā)明的網(wǎng)絡(luò)評論與其主題的相關(guān)度分析系統(tǒng),其特征在于,包括網(wǎng)絡(luò)爬蟲模塊,相關(guān)度分析模塊,網(wǎng)頁展示模塊,所述網(wǎng)絡(luò)爬蟲模塊,用于截取網(wǎng)頁的文本內(nèi)容,生成主題文章與若干相關(guān)評論的數(shù)據(jù)集合,所述數(shù)據(jù)集合供所述相關(guān)度分析模塊分析處理;所述相關(guān)度分析模塊,用于定量計算網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度;所述網(wǎng)頁展示模塊,用于將相關(guān)度分析模塊計算得到的網(wǎng)絡(luò)評論相關(guān)度結(jié)果,以網(wǎng)頁形式輸出展示。所述相關(guān)度分析模塊包括
第一裝置,用于以全部網(wǎng)絡(luò)評論為節(jié)點,生成無向圖;第二裝置,用于計算某個網(wǎng)絡(luò)評論與主題文章之間的相似度;第三裝置,用于計算第二裝置所述網(wǎng)絡(luò)評論與其相鄰節(jié)點指代的網(wǎng)絡(luò)評論的相似度;第四裝置,用于根據(jù)第二裝置計算出的網(wǎng)絡(luò)評論與主題文章之間的相似度,以及第三裝置計算出的網(wǎng)絡(luò)評論與其相鄰節(jié)點指代的網(wǎng)絡(luò)評論的相似度,計算該網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度。所述相關(guān)度分析模塊還包括步進(jìn)裝置,用于選擇下一個未作相關(guān)度計算的網(wǎng)絡(luò)評論,如果不存在未作相關(guān)度計算的網(wǎng)絡(luò)評論,則返回空值;調(diào)用控制裝置,用于將所述步進(jìn)裝置所選擇的網(wǎng)絡(luò)評論作為輸入,并判斷是否輸入為空值,如果非空,則調(diào)用所述第二、第三、第四裝置,計算當(dāng)前網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度;返回到步進(jìn)裝置;如果為空值,則停止。還包括相關(guān)度判斷模塊,用于比較所述相關(guān)度分析模塊計算出的某個網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度與設(shè)定的閾值之間的大??;當(dāng)所述相關(guān)度小于設(shè)定的閾值時,則所述網(wǎng)頁展示模塊顯示該網(wǎng)絡(luò)評論為與主題文章無關(guān)的評論。本發(fā)明同時提出了一種上述分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng)的分析方法,其特征在于,包括以下步驟所述網(wǎng)絡(luò)爬蟲模塊截取網(wǎng)頁的文本內(nèi)容,生成主題文章與若干相關(guān)評論的數(shù)據(jù)集合,所述數(shù)據(jù)集合發(fā)給所述相關(guān)度分析模塊;所述相關(guān)度分析模塊定量計算網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度;所述網(wǎng)頁展示模塊將相關(guān)度分析模塊計算得到的網(wǎng)絡(luò)評論相關(guān)度結(jié)果,以網(wǎng)頁形式輸出展示。所述相關(guān)度分析模塊定量計算網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度,包括以下步驟步驟5-1、計算某個網(wǎng)絡(luò)評論與主題文章之間的相似度;步驟5-2、以全部網(wǎng)絡(luò)評論為節(jié)點,生成無向圖;步驟5-3、計算所述網(wǎng)絡(luò)評論與其相鄰節(jié)點指代的網(wǎng)絡(luò)評論的相似度;步驟5-4、根據(jù)該網(wǎng)絡(luò)評論與主題文章之間的相似度,以及網(wǎng)絡(luò)評論與其相鄰節(jié)點指代的網(wǎng)絡(luò)評論的相似度,計算該網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度。所述相關(guān)度分析模塊定量計算網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度,還包括以下步驟步驟6-1、選擇下一個未作相關(guān)度計算的網(wǎng)絡(luò)評論,如果不存在未作相關(guān)度計算的網(wǎng)絡(luò)評論,則返回空值;步驟6-2、將所述步進(jìn)裝置所選擇的網(wǎng)絡(luò)評論作為輸入,并判斷是否輸入為空值,如果非空,則返回步驟5-2、5-3、5_4 ;然后,返回到步驟6_1 ;如果為空值,則停止。
還包括以下步驟根據(jù)所述相關(guān)度分析模塊計算出的某個網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度,當(dāng)所述相關(guān)度小于設(shè)定的閾值時,則所述網(wǎng)頁展示模塊顯示該網(wǎng)絡(luò)評論為與主題文章無關(guān)的評論。本發(fā)明通過對評論內(nèi)容相關(guān)程度進(jìn)行定量的分析,分析得出一個介于0到1之間的具體相關(guān)度值,數(shù)值越大則相關(guān)程度越大,根據(jù)相關(guān)度值即可分析出評論與該文章之間的親疏關(guān)系。本發(fā)明的一個顯著優(yōu)點為,核心分析部分綜合考慮了評論與主題文章之間的相似性,以及評論之間的相關(guān)性兩個方面內(nèi)容,因此相關(guān)度的分析更加準(zhǔn)確。本發(fā)明的系統(tǒng)基于瀏覽器模式,分析使用方便,界面友好。
下面結(jié)合附圖和具體實施方式
對本發(fā)明的技術(shù)方案作進(jìn)一步具體說明。圖1為本發(fā)明分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng)的結(jié)構(gòu)框圖。圖2為本發(fā)明的評論網(wǎng)絡(luò)節(jié)點圖。
具體實施例方式如圖1所示的系統(tǒng)的結(jié)構(gòu)框圖,本發(fā)明分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng)包括網(wǎng)絡(luò)爬蟲模塊,相關(guān)度分析模塊,網(wǎng)頁展示模塊,所述網(wǎng)絡(luò)爬蟲模塊,用于截取網(wǎng)頁的文本內(nèi)容,生成主題文章與若干相關(guān)評論的數(shù)據(jù)集合,所述數(shù)據(jù)集合供所述相關(guān)度分析模塊分析處理;所述相關(guān)度分析模塊,用于定量計算網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度;本發(fā)明從定量角度分析評論與文章的相關(guān)度,相關(guān)度在這里是一個線性變量,可以是從0到1的線性區(qū)域之間任意的一個數(shù)值。不同的評論內(nèi)容計算得到的相關(guān)度往往會不同數(shù)值越高則該評論內(nèi)容和主題文章的關(guān)聯(lián)性越強(qiáng),越能夠明確代表評論者對于文章主題的觀點和看法;反之,數(shù)值越低則該評論的實際作用價值越小。按照實際需求的不同,當(dāng)相關(guān)度低于某一個設(shè)定閥值時,即可認(rèn)為該評論即為垃圾評論。分析評論內(nèi)容與主題文章相關(guān)度的過程為提取出主題文章A與其對應(yīng)的評論內(nèi)容(評論1,評論2,評論3,…,評論η),計算A與評論1-η的相似度K,計算評論與評論之間相關(guān)度L,綜合K與L按一定權(quán)重累加得出A與所有評論的相關(guān)度Pi (i可為1至η間任意整數(shù))。Pi即為最終得出的相關(guān)度值。按實際需求可給定一個相關(guān)度閥值,任何相關(guān)度如果低于該閥值即可判定為無用評論,Pi越高則反映該評論與主題越相關(guān)。本相關(guān)度分析模塊具有不同與目前所有技術(shù)的特點是不僅將評論文本與主題文章之間的語句相似度作為影響相關(guān)度的因子,同時還將眾多評論文本之間的內(nèi)在關(guān)系也考慮在內(nèi)。其核心思想為一段評論內(nèi)容如果與那些已經(jīng)分析出的與主題文章有高相關(guān)度的評論之間具有較高相似性,則這段評論應(yīng)該也與該主題文章有較高的相關(guān)度,即時這段評論與主題文章的相關(guān)度不高。所述網(wǎng)頁展示模塊,用于將相關(guān)度分析模塊計算得到的網(wǎng)絡(luò)評論相關(guān)度結(jié)果,以網(wǎng)頁形式輸出展示。網(wǎng)頁展示模塊是提供一個面向用戶的接口,主要用于按用戶要求展示處理結(jié)果,包括所有評論內(nèi)容對應(yīng)的相關(guān)度展示,相關(guān)度正逆序排列展示等功能。該模塊將相關(guān)度分析模塊分析處理后之結(jié)果組織成用戶可理解的數(shù)據(jù)結(jié)構(gòu),以網(wǎng)頁的形式展示到用戶界面。本發(fā)明的整體分析方法是按需求利用網(wǎng)絡(luò)爬蟲采集模塊采集針對特定網(wǎng)頁內(nèi)容的主題和評論數(shù)據(jù)集,之后將該數(shù)據(jù)集提交到相關(guān)度分析模塊進(jìn)行相關(guān)度分析,最后將分析結(jié)果傳遞到網(wǎng)頁展示模塊按實際功能需求在網(wǎng)絡(luò)瀏覽器上彈框展示分析結(jié)果。網(wǎng)絡(luò)爬蟲模塊主要基于通用的網(wǎng)絡(luò)爬蟲技術(shù)構(gòu)建,主要包括但不限于站點選擇, 文本內(nèi)容選擇,數(shù)據(jù)抓取,后臺數(shù)據(jù)管理部分。網(wǎng)絡(luò)爬蟲模塊是一個獨立的必要的前置模塊,主要用于用戶瀏覽的網(wǎng)頁的文本內(nèi)容截取,并將這些文本中的主題正文內(nèi)容與評論內(nèi)容按1:N(—段主題正文對應(yīng)多條評論內(nèi)容)的形式抽取出,再組織成一定的數(shù)據(jù)集供后續(xù)分析,如主題XXXXX——評論1 :xxx,評論2 =XXX 評論3 =XXX的形式。相關(guān)度分析模塊為本發(fā)明的核心模塊。該模塊實現(xiàn)自動分析網(wǎng)絡(luò)信息中主題文章與評論信息之間的相關(guān)度,相關(guān)度值越高則反映該評論與主題正文之間越契合,反之則為無關(guān)評論,如廣告信息,占位信息等。該模塊主要分為兩個部分主題-評論分析部分,評論-評論分析部分。其中主題-評論分析部分主要考慮主題正文與評論信息之間相關(guān)度, 判斷標(biāo)準(zhǔn)主要為詞匯相似度,文本重復(fù)率等方面。評論-評論部分主要則主要分析所有評論信息之間相似度的相關(guān)度的計算。綜合兩個部分的分析結(jié)果即可得出最終的相關(guān)度分析結(jié)果。本發(fā)明代表的核心分析模型綜合考慮了以下兩個因素評論與主體文章間相似度,評論之間的內(nèi)在關(guān)系,下面將按順序給出分析計算的實現(xiàn)過程。(1)計算評論與被評論主題之間相似度本發(fā)明采用概率語言模型計算評論與主體文章間相似度,對于任意一個評論R與被評論主題文章A,定義Sim(R|A)為R與A之間的相似度,可從如下公式得到Sim(R,A)| A) = fj 尸( | Α) = Π 尸…I 々例公式(1)
z=lw^R其中P (RIA)代表從R到A的概率,w為R中出現(xiàn)的詞語,c (w, R)代表w在R中出現(xiàn)過的次數(shù),P(wIA)代表w在A中出現(xiàn)的頻度概率。可用最大似然估計法(MLE)計算P (w | A)P(w\A) = PML(w\A) = ^^i
I Λ I其中|A|為A中出現(xiàn)的所有詞語之和。該方法有一定缺陷,主要表現(xiàn)在如果詞語 w沒有顯式出現(xiàn)在A,則P (w IA)直接會取零值。在R與A完全沒有相同詞語的情況下,R與 A的相似度將會被判定為零。出于解決零值問題的考慮,本發(fā)明采用一種改進(jìn)的方法Jelinek-Mercer平滑方法,作為一個典型的線性插值平滑法,計算方法如下P (w I Α) = λ PsJw I A)+ (I-λ )P (w I C)其中P (w I C)為詞語w在語料庫C中出現(xiàn)的概率,λ為平滑系數(shù)。作為優(yōu)選,本發(fā)明取其λ的值為0.2。為避免因評論長度而產(chǎn)生的潛在誤差,本發(fā)明還引入一個長度歸一化方法來規(guī)范原始概率
權(quán)利要求
1.一種分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng),其特征在于,包括網(wǎng)絡(luò)爬蟲模塊,相關(guān)度分析模塊,網(wǎng)頁展示模塊,所述網(wǎng)絡(luò)爬蟲模塊,用于截取網(wǎng)頁的文本內(nèi)容,生成主題文章與若干相關(guān)評論的數(shù)據(jù)集合,所述數(shù)據(jù)集合供所述相關(guān)度分析模塊分析處理;所述相關(guān)度分析模塊,用于定量計算網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度; 所述網(wǎng)頁展示模塊,用于將相關(guān)度分析模塊計算得到的網(wǎng)絡(luò)評論相關(guān)度結(jié)果,以網(wǎng)頁形式輸出展示。
2.根據(jù)權(quán)利要求1所述的分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng),其特征在于,所述相關(guān)度分析模塊包括第一裝置,用于以全部網(wǎng)絡(luò)評論為節(jié)點,生成無向圖; 第二裝置,用于計算某個網(wǎng)絡(luò)評論與主題文章之間的相似度; 第三裝置,用于計算第二裝置所述網(wǎng)絡(luò)評論與其相鄰節(jié)點指代的網(wǎng)絡(luò)評論的相似度; 第四裝置,用于根據(jù)第二裝置計算出的網(wǎng)絡(luò)評論與主題文章之間的相似度,以及第三裝置計算出的網(wǎng)絡(luò)評論與其相鄰節(jié)點指代的網(wǎng)絡(luò)評論的相似度,計算該網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度。
3.根據(jù)權(quán)利要求2所述的分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng),其特征在于,所述相關(guān)度分析模塊還包括步進(jìn)裝置,用于選擇下一個未作相關(guān)度計算的網(wǎng)絡(luò)評論,如果不存在未作相關(guān)度計算的網(wǎng)絡(luò)評論,則返回空值;調(diào)用控制裝置,用于將所述步進(jìn)裝置所選擇的網(wǎng)絡(luò)評論作為輸入,并判斷是否輸入為空值,如果非空,則調(diào)用所述第二、第三、第四裝置,計算當(dāng)前網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度;返回到步進(jìn)裝置; 如果為空值,則停止。
4.根據(jù)權(quán)利要求1或2或3所述的分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng),其特征在于,還包括相關(guān)度判斷模塊,用于比較所述相關(guān)度分析模塊計算出的某個網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度與設(shè)定的閾值之間的大小;當(dāng)所述相關(guān)度小于設(shè)定的閾值時,則所述網(wǎng)頁展示模塊顯示該網(wǎng)絡(luò)評論為與主題文章無關(guān)的評論。
5.一種權(quán)利要求1所述分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng)的分析方法,其特征在于,包括以下步驟所述網(wǎng)絡(luò)爬蟲模塊截取網(wǎng)頁的文本內(nèi)容,生成主題文章與若干相關(guān)評論的數(shù)據(jù)集合, 所述數(shù)據(jù)集合發(fā)給所述相關(guān)度分析模塊;所述相關(guān)度分析模塊定量計算網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度; 所述網(wǎng)頁展示模塊將相關(guān)度分析模塊計算得到的網(wǎng)絡(luò)評論相關(guān)度結(jié)果,以網(wǎng)頁形式輸出展示。
6.根據(jù)權(quán)利要求5所述分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng)的分析方法,其特征在于,所述相關(guān)度分析模塊定量計算網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度,包括以下步驟步驟5-1、計算某個網(wǎng)絡(luò)評論與主題文章之間的相似度; 步驟5-2、以全部網(wǎng)絡(luò)評論為節(jié)點,生成無向圖;步驟5-3、計算所述網(wǎng)絡(luò)評論與其相鄰節(jié)點指代的網(wǎng)絡(luò)評論的相似度; 步驟5-4、根據(jù)該網(wǎng)絡(luò)評論與主題文章之間的相似度,以及網(wǎng)絡(luò)評論與其相鄰節(jié)點指代的網(wǎng)絡(luò)評論的相似度,計算該網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度。
7.根據(jù)權(quán)利要求6所述分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng)的分析方法,其特征在于,所述相關(guān)度分析模塊定量計算網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度,還包括以下步驟步驟6-1、選擇下一個未作相關(guān)度計算的網(wǎng)絡(luò)評論,如果不存在未作相關(guān)度計算的網(wǎng)絡(luò)評論,則返回空值;步驟6-2、將所述步進(jìn)裝置所選擇的網(wǎng)絡(luò)評論作為輸入,并判斷是否輸入為空值, 如果非空,則返回步驟5-2、5-3、5-4 ;然后,返回到步驟6-1 ; 如果為空值,則停止。
8.根據(jù)權(quán)利要求5或6或7所述分析網(wǎng)絡(luò)評論相關(guān)度的系統(tǒng)的分析方法,其特征在于, 還包括以下步驟根據(jù)所述相關(guān)度分析模塊計算出的某個網(wǎng)絡(luò)評論與主題文章之間的相關(guān)度,當(dāng)所述相關(guān)度小于設(shè)定的閾值時,則所述網(wǎng)頁展示模塊顯示該網(wǎng)絡(luò)評論為與主題文章無關(guān)的評論。
全文摘要
本發(fā)明涉及一種分析主題內(nèi)容與其評論內(nèi)容之間關(guān)聯(lián)程度的方法,該方法不僅僅能夠定性的區(qū)分評論內(nèi)容是否為垃圾評論,同時也能對評論內(nèi)容相關(guān)程度進(jìn)行定量的分析,分析得出一個介于0到1之間的具體相關(guān)度值,數(shù)值越大則相關(guān)程度越大,根據(jù)相關(guān)度值即可分析出評論與該文章之間的親疏關(guān)系。本發(fā)明的一個顯著優(yōu)點為,核心分析部分綜合考慮了評論與主題文章之間的相似性,以及評論之間的相關(guān)性兩個方面內(nèi)容,因此相關(guān)度的分析更加準(zhǔn)確。本發(fā)明的系統(tǒng)基于瀏覽器模式,分析使用方便,界面友好。
文檔編號G06F17/30GK102254038SQ20111022961
公開日2011年11月23日 申請日期2011年8月11日 優(yōu)先權(quán)日2011年8月11日
發(fā)明者溫杰, 王君澤, 王超, 胡廣, 黃本雄 申請人:武漢安問科技發(fā)展有限責(zé)任公司