專利名稱:一種基于評(píng)分和中文情感分析的垃圾評(píng)論檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于評(píng)分和中文情感分析的垃圾評(píng)論檢測(cè)系統(tǒng),主要是針對(duì)大部分的電子商務(wù)網(wǎng)站提供給用戶對(duì)于所購(gòu)買的商品發(fā)表自己的評(píng)論,利用評(píng)分機(jī)制結(jié)合中文情感分析,來檢測(cè)哪些評(píng)論是垃圾評(píng)論,進(jìn)而為用戶購(gòu)買商品提供參考意見。屬于自然語言處理,模式識(shí)別,機(jī)器學(xué)習(xí)交叉領(lǐng)域。
背景技術(shù):
垃圾評(píng)論(ReviewSpam)也稱為 Opinion Spam、Fake Review 或者 Bogus Review,發(fā)表此類評(píng)論的用戶稱為Review Spammer、Opinion Spammer或者Fake Reviewer。產(chǎn)品垃圾評(píng)論是由一些用戶蓄意發(fā)表的不切實(shí)際、不真實(shí)的、有欺騙性質(zhì)的評(píng)論,其目的是為了提高或者毀壞某一產(chǎn)品或某一類產(chǎn)品的聲譽(yù),從而誤導(dǎo)潛在消費(fèi)者,使其做出風(fēng)險(xiǎn)性的購(gòu)買決策,或者干擾評(píng)論意見挖掘和情感分析系統(tǒng)的分析結(jié)果,降低精確度。Jindal N等人將產(chǎn)品垃圾評(píng)論分為3類a)欺騙性的評(píng)論,指蓄意提高或毀壞產(chǎn)品聲譽(yù)的不真實(shí)的評(píng)論,過度吹捧產(chǎn)品的評(píng)論稱為Hyper Spam,過度貶低產(chǎn)品的評(píng)論稱為Defaming Spam ; b)不相關(guān)的評(píng)論,指評(píng)論的對(duì)象僅僅是品牌、生產(chǎn)商、銷售商等與產(chǎn)品本身無關(guān)的評(píng)論;c)非評(píng)論信息,如廣告、讀者的問題和回復(fù)等。針對(duì)垃圾評(píng)論檢測(cè),在國(guó)外,Theodoros Lappas從攻擊者的角度來看待這個(gè)問題。在研究中做了這樣的一個(gè)分析,模擬一個(gè)基于真正的評(píng)論語料庫的實(shí)際攻擊,討論不同的攻擊策略,以及各種促成因素,確定攻擊的影響,并做了實(shí)驗(yàn)和分析,了解假評(píng)論的本質(zhì)。Arjun Mukherjee等人研究如何發(fā)現(xiàn)鑒別假評(píng)論小組(一組協(xié)同工作寫假評(píng)論的評(píng)論者)。假評(píng)論者小組更加危險(xiǎn),因?yàn)樗麄兛梢钥刂茖?duì)目標(biāo)產(chǎn)品的所有意見,他們使用頻繁項(xiàng)集挖掘方法找到一組候選團(tuán)體。他們發(fā)現(xiàn)雖然標(biāo)記單個(gè)假評(píng)論和評(píng)論者非常困難,但是,標(biāo)記假評(píng)論家團(tuán)體是多少容易。Bing Liu等人從評(píng)論的評(píng)論角度研究這個(gè)問題。針對(duì)評(píng)論的評(píng)價(jià),從另外一方面看,是讀者對(duì)于評(píng)論,他們遇到的問題和關(guān)心的事物的評(píng)價(jià)。很明顯,評(píng)價(jià)的信息對(duì)于未來的讀者和品牌都是非常有價(jià)值的。作者提出兩種隱含變量模型來同時(shí)建模和提取這些關(guān)鍵信息,結(jié)果也能夠用來準(zhǔn)確分類評(píng)價(jià)。針對(duì)文本情感分析,在國(guó)外,Turney等人提出一種利用無監(jiān)督學(xué)習(xí)方法,即逐點(diǎn)互信息方法(PMI)來對(duì)評(píng)論文檔進(jìn)行情感分類。分類過程中,先提取評(píng)論句中的形容詞或副詞,再分別計(jì)算其與褒義種子詞“excellent”及貶義種子詞“poor”的PMI值,最后將文檔中提取的所有形容詞或副詞短語的極性相加得到整個(gè)評(píng)論的情感傾向。若被提取出的形容詞或副詞短語的平均語義極性是正面的,則該評(píng)論分類為正面評(píng)論,反之為負(fù)面評(píng)論。在Pang等人的研究中,分別利用樸素貝葉斯(NB)、最大熵(ME)和支持向量機(jī)(SVM)三種分類算法來對(duì)整個(gè)文檔進(jìn)行訓(xùn)練和褒貶分類。Hatzivassiloglou等人在他們的研究中,主要分析了主觀型評(píng)論句的判別方法。研究人員分析基于句子情感分類。句子情感分類方法主要是基于情感知識(shí)的方法和基于特征的分類方法。第一種方法主要依賴于一些現(xiàn)有的情感字典或領(lǐng)域字典。第二種方法主要是利用機(jī)器學(xué)習(xí),通過選擇大量有用的特征,從而來完成分類任務(wù)。有兩種方法可以建立情感詞典基于字典的方法和基于語料庫的方法。Turney等人使用了基于語料庫來建立情感詞典的方法。Hu等人和Kim等人建立情感字典基于詞典的方法。總之,以上的幾種有關(guān)垃圾評(píng)論檢測(cè)方法都有不足之處,本發(fā)明提出一種新的情感模式的抽取方法,改善了分類器的性能,提高了分類精度,并將中文情感分析用于垃圾評(píng)論檢測(cè)中,更好的發(fā)現(xiàn)垃圾評(píng)論,幫助用戶做出購(gòu)買決策。
發(fā)明內(nèi)容
技術(shù)問題本發(fā)明涉及一種基于評(píng)分和中文情感分析的垃圾評(píng)論檢測(cè)方法,主要是針對(duì)大部分的電子商務(wù)網(wǎng)站提供給用戶對(duì)于所購(gòu)買的商品發(fā)表自己的評(píng)論,利用評(píng)分機(jī)制結(jié)合中文情感分析,來檢測(cè)哪些評(píng)論是垃圾評(píng)論,進(jìn)而為用戶購(gòu)買商品提供參考意見。本系統(tǒng)提出一種新的情感模式的抽取方法,改善了分類器的性能,提高了分類精度,并將中文情感分析用于垃圾評(píng)論檢測(cè)中,更好的發(fā)現(xiàn)垃圾評(píng)論,幫助用戶做出購(gòu)買決策。技術(shù)方案本發(fā)明的一種基于評(píng)分和中文情感分析的垃圾評(píng)論檢測(cè)方法所包含的步驟為
步驟I)輸入產(chǎn)品評(píng)論信息;步驟2)預(yù)處理產(chǎn)品評(píng)論信息步驟2.1)生成評(píng)論息語料庫;步驟2. 2)提取語料庫的第一條評(píng)論信息;步驟2. 3)判斷評(píng)論信息是否存在語料庫中,如果不存在,轉(zhuǎn)步驟2. 10),否則,轉(zhuǎn)步驟2. 4);步驟2. 4)判斷該條評(píng)論信息是否含廣告信息,如果不含,轉(zhuǎn)步驟2. 6),否則,轉(zhuǎn)步驟2. 5);步驟2. 5)刪除該條評(píng)論信息,轉(zhuǎn)步驟2. 9);步驟2. 6)切分評(píng)論信息;步驟2. 7)獲取評(píng)論信息子句;步驟2. 8)使用分詞軟件,分詞并標(biāo)注詞性;步驟2. 9)提取語料庫的下一條評(píng)論信息,轉(zhuǎn)步驟2. 3);步驟2. 10)輸出產(chǎn)品評(píng)論信息的處理結(jié)果;步驟3)輸入情感詞典;步驟4)輸入句型模式集;步驟5)根據(jù)情感詞典和句型模式集,提取對(duì)象詞,情感詞步驟5.1)輸入一條評(píng)論信息;步驟5. 2)初始化該評(píng)論信息;步驟5. 3)獲取評(píng)論信息的子句集合;步驟5. 4)提取第一條子句;步驟5. 5)判斷子句是否存在于集合中,如果不存在,轉(zhuǎn)步驟5. 13),否則,轉(zhuǎn)步驟5. 6);步驟5. 6)獲取情感詞典;步驟5. 7)判斷該子句是否含情感詞,如果不含,轉(zhuǎn)步驟5. 8),否則,轉(zhuǎn)步驟5. 9);步驟5. 8)保存子句于客觀句集合,轉(zhuǎn)步驟5. 12);步驟5. 9)保存子句于主觀句集合;步驟5. 10)輸入句型模式集;步驟5. 11)根據(jù)句型模式,提取集合:< 對(duì)象詞,情感詞> ;步驟5. 12)獲取下一條子句,轉(zhuǎn)步驟5. 5);步驟5. 13)輸出集合:< 對(duì)象詞,情感詞> ;步驟6)分析評(píng)論信息的情感傾向步驟6.1)輸入一條評(píng)論信息;步驟6. 2)獲取評(píng)論信息的子句集合;步驟6. 3)提取第一條子句;步驟6. 4) 6. 5);判斷子句是否存在于集合中,如果不存在,轉(zhuǎn)步驟6. 13),否則,轉(zhuǎn)步驟步驟6. 5)獲取否定詞集詞典;步驟6. 6)根據(jù)否定詞詞典,判斷該句是否包含否定詞,如果不包含,轉(zhuǎn)步驟6. 8),否則,轉(zhuǎn)步驟6. 7)步驟6. 7)初始化否定詞的傾向值為-1;步驟6. 8)獲取副詞集詞典;步驟6. 9)根據(jù)副詞集詞典,判斷該句是否包含副詞,如果不包含,轉(zhuǎn)步驟6. 11),否則,轉(zhuǎn)步驟6. 10);步驟6. 10)根據(jù)副詞集詞典,獲取副詞的強(qiáng)度等級(jí)值;步驟6. 11) 值; 步驟6. 12)根據(jù)否定詞的傾向值、副詞的強(qiáng)度等級(jí)值、單詞的傾向值,計(jì)算子句傾向獲取下一條子句,轉(zhuǎn)步驟6. 4);`步驟6. 13)計(jì)算該條評(píng)論信息的傾向值;步驟7)根據(jù)評(píng)分和傾向值,獲取結(jié)果信息步驟 .1)輸入一條評(píng)論傾向值;步驟7. 2)獲取該評(píng)論的評(píng)分;步驟7. 3)計(jì)算該產(chǎn)品的平均評(píng)分;步驟7. 4)如果該條評(píng)論傾向值大于零且評(píng)分小于平均評(píng)分,或者該條評(píng)論傾向值小于零且評(píng)分大于平均評(píng)分,轉(zhuǎn)步驟7. 5),否則,轉(zhuǎn)步驟7. 6);步驟7. 5)輸出結(jié)果該評(píng)論為垃圾評(píng)論,轉(zhuǎn)步驟7. 7);步驟7. 6)輸出結(jié)果該評(píng)論為正常評(píng)論,轉(zhuǎn)步驟7. 7);步驟7. 7)結(jié)束垃圾評(píng)論檢測(cè)。 有益效果本發(fā)明對(duì)比已有技術(shù)具有以下創(chuàng)新點(diǎn)
對(duì)獲取的中文評(píng)論信息語料庫,先進(jìn)行預(yù)處理,去除掉一些廣告的噪聲信息,然后對(duì)每一條評(píng)論信息進(jìn)行分詞,切分,根據(jù)一種新的中文情感模型匹配抽取方法,提取出〈主題詞,情感詞〉集合,然后進(jìn)行情感傾向分析,得到每條評(píng)論的情感傾向,最后結(jié)合評(píng)論的評(píng)分和上面的情感傾向值,判斷是否為垃圾評(píng)論,輸出結(jié)果給用戶,做出合理的購(gòu)買決策。
O
2)
3)
本發(fā)明對(duì)比已有技術(shù)具有以下顯著優(yōu)點(diǎn)
中文語料庫先進(jìn)行預(yù)處理,去除噪聲信息;
一種新的中文情感模型匹配抽取方法,提高分類精度;
將評(píng)分和中文情感分析結(jié)合起來檢測(cè)垃圾評(píng)論。
總之,本發(fā)明做到了提高分類的精度,從中文情感分析的角度來識(shí)別垃圾評(píng)論檢
圖1 :基于中文情感傾向分析和用戶評(píng)分的垃圾評(píng)論檢測(cè)系統(tǒng)流程圖2 :預(yù)處理產(chǎn)品評(píng)論信息流程圖3 :生成〈對(duì)象詞,情感詞 > 集合流程圖4 :評(píng)論情感傾向分析流程圖5 :基于評(píng)分和傾向值的垃圾評(píng)論檢測(cè)流程圖。
具體實(shí)施例方式本發(fā)明是一種基于評(píng)分和中文情感分析的垃圾評(píng)論檢測(cè)方法,從開始輸入產(chǎn)品評(píng)論信息到最終輸出評(píng)論檢測(cè)結(jié)果的實(shí)現(xiàn)步驟為
步驟I)由于在中文文本情感分析研究中,目前還沒有公開的語料庫,所以,為了研究方便,我們從亞馬遜網(wǎng)站中選擇某一品牌的照相機(jī)的評(píng)論信息作為語料庫;
步驟2)我們對(duì)獲得的產(chǎn)品評(píng)論信息進(jìn)行預(yù)處理,目的是去除掉噪聲,有利于垃圾評(píng)論的檢測(cè),如圖2所示
步驟2.1)生成評(píng)論信息語料庫,對(duì)語料庫中每一條語句進(jìn)行分析,首先判斷評(píng)論信息是否存在語料庫中,如果不存在,轉(zhuǎn)步驟2. 4),否則,轉(zhuǎn)步驟2. 2);
步驟2. 2)接著,判斷該條評(píng)論信息是否含廣告信息,如果包含廣告信息,刪除該條評(píng)論信息,否則,這條評(píng)論信息是干凈的。經(jīng)過這樣的循環(huán)判斷得到干凈的評(píng)論信息集合;步驟2. 3) 一條評(píng)論中,可能包含很多的子句,如果把分析窗口大小設(shè)為整條評(píng)論,有點(diǎn)浪費(fèi),而且不好分析,因此我們切分評(píng)論信息,將一條評(píng)論切分成若干子句。我們使用的是中科院ICTCLAS軟件,對(duì)每一條評(píng)論子句進(jìn)行分詞并詞性標(biāo)注,中科院計(jì)算所漢語詞性標(biāo)記集(共計(jì)99個(gè))包含名詞,動(dòng)詞,形容詞,區(qū)別詞,狀態(tài)詞,副詞等;
步驟2. 4)提取語料庫的下一條評(píng)論信息,轉(zhuǎn)步驟2.1);
步驟2. 5)得到產(chǎn)品評(píng)論信息的處理結(jié)果;
步驟3) —般有兩種方法可以建立情感詞典,我們基于字典的方法。我們基于知網(wǎng)Hownet的評(píng)論詞典,經(jīng)過整理,得到我們需要的情感詞典,輸入給系統(tǒng);
步驟4)為了能夠提取出對(duì)象詞和情感詞,需要一個(gè)好的句型模型。我根據(jù)現(xiàn)代漢語語法信息詞典,分析得出幾種中文的搭配句型模型;
步驟5)根據(jù)情感詞典和句型模式集,提取對(duì)象詞,情感詞
步驟5.1)首先拿出一條評(píng)論信息;
步驟5. 2)獲取評(píng)論信息的子句集合,接下來分析每一條子句,判斷子句是否存在于集合中,如果不存在,轉(zhuǎn)步驟5. 5),否則,轉(zhuǎn)步驟5. 3);步驟5. 3)根據(jù)情感詞典,判斷該子句是否含情感詞,如果不含,說明它是客觀句,存入一個(gè)客觀句集合。否則,它是主觀句,存入一個(gè)主觀句集合;
步驟5. 4)根據(jù)句型模式進(jìn)行模式匹配,提取出集合〈對(duì)象詞,情感詞> ;
步驟5. 5)取出下一條子句,轉(zhuǎn)步驟5. 2);
步驟5. 6)得到集合〈對(duì)象詞,情感詞〉;
步驟6)分析評(píng)論信息的情感傾向
步驟6.1)首先拿出一條評(píng)論信息;
步驟6. 2)獲取評(píng)論信息的子句集合,接下來分析每一條子句,判斷子句是否存在于集合中,如果不存在,轉(zhuǎn)步驟6. 6),否則,轉(zhuǎn)步驟6. 3);
步驟6. 3)否定詞對(duì)句子的情感傾向起到很關(guān)鍵的作用,根據(jù)Hownet否定詞集詞典,判斷該句是否含否定詞,如果包含否定詞,初始化否定詞的傾向值T(Nword)T(Nword)=-1,其中Nword表示否定詞,否則,將T (Nword)賦值為I ;
步驟6. 4)副詞對(duì)句子的情感程度有影響作用,在分析情感時(shí),也要將副詞考慮進(jìn)去。我根據(jù)Hownet副詞集詞典,判斷該句是否含副詞,如果包含,初始化副詞的傾向值T (ADfford),根據(jù)副詞強(qiáng)度由弱到強(qiáng),選擇1. 2,1. 4,1. 6,2,其中ADWord表示副詞,否則,將T (ADfford)賦值為 I ;
步驟6. 5)接下來,根據(jù)公式T (Sent) =T (Word) *T (Nword) *T (ADword)計(jì)算出子句傾向值;其中Sent表示該子句,Word表示情感詞,Nword表示否定詞,ADword表示副詞;
步驟6. 6)獲取下一條子句,轉(zhuǎn)步驟6. 2);
步驟6. 7)將每條子句的傾向值求和得到這條評(píng)論的傾向值,得到這條評(píng)論傾向值;步驟7)根據(jù)評(píng)分和傾向值,獲得結(jié)果信息
步驟7.1)輸入一條評(píng)論傾向值;
步驟7. 2)獲取該評(píng)論的評(píng)分;
步驟7. 3)計(jì)算該產(chǎn)品的平均評(píng)分平均評(píng)分=總評(píng)分/總條數(shù);
步驟7. 4)如果該條評(píng)論傾向值大于O且評(píng)分小于平均評(píng)分,或者該條評(píng)論傾向值小于O且評(píng)分大于平均評(píng)分為真,轉(zhuǎn)步驟7. 5),否則,轉(zhuǎn)步驟7. 6);
步驟7. 5)輸出結(jié)果該評(píng)論為垃圾評(píng)論,轉(zhuǎn)步驟7. 7);
步驟7. 6)輸出結(jié)果該評(píng)論為正常評(píng)論,轉(zhuǎn)步驟7. 7);
步驟7. 7)結(jié)束垃圾評(píng)論檢測(cè)。
權(quán)利要求
1. 一種基于評(píng)分和中文情感分析的垃圾評(píng)論檢測(cè)方法,其特征在于該方法所包含的步驟為步驟I)輸入產(chǎn)品評(píng)論信息;步驟2)預(yù)處理產(chǎn)品評(píng)論信息步驟2.1)生成評(píng)論息語料庫;步驟2.2)提取語料庫的第一條評(píng)論信息;步驟2.3)判斷評(píng)論信息是否存在語料庫中,如果不存在,轉(zhuǎn)步驟2. 10),否則,轉(zhuǎn)步驟.2. 4);步驟2.4)判斷該條評(píng)論信息是否含廣告信息,如果不含,轉(zhuǎn)步驟2. 6),否則,轉(zhuǎn)步驟.2. 5);步驟2.5)刪除該條評(píng)論信息,轉(zhuǎn)步驟2. 9);步驟2.6)切分評(píng)論信息;步驟2.7)獲取評(píng)論信息子句;步驟2.8)使用分詞軟件,分詞并標(biāo)注詞性;步驟2.9)提取語料庫的下一條評(píng)論信息,轉(zhuǎn)步驟2. 3);步驟2.10)輸出產(chǎn)品評(píng)論信息的處理結(jié)果;步驟3)輸入情感詞典;步驟4)輸入句型模式集;步驟5)根據(jù)情感詞典和句型模式集,提取對(duì)象詞,情感詞步驟5.1)輸入一條評(píng)論信息;步驟5.2)初始化該評(píng)論信息;步驟5.3)獲取評(píng)論信息的子句集合;步驟5.4)提取第一條子句;步驟5.5)判斷子句是否存在于集合中,如果不存在,轉(zhuǎn)步驟5. 13),否則,轉(zhuǎn)步驟.5. 6);步驟5.6)獲取情感詞典;步驟5.7)判斷該子句是否含情感詞,如果不含,轉(zhuǎn)步驟5. 8),否則,轉(zhuǎn)步驟5. 9);步驟5.8)保存子句于客觀句集合,轉(zhuǎn)步驟5. 12);步驟5.9)保存子句于主觀句集合;步驟5.10)輸入句型模式集;步驟5.11)根據(jù)句型模式,提取集合:< 對(duì)象詞,情感詞> ;步驟5.12)獲取下一條子句,轉(zhuǎn)步驟5. 5);步驟5.13)輸出集合:< 對(duì)象詞,情感詞> ;步驟6)分析評(píng)論信息的情感傾向步驟6.1)輸入一條評(píng)論信息;步驟6.2)獲取評(píng)論信息的子句集合;步驟6.3)提取第一條子句;步驟6.4)判斷子句是否存在于集合中,如果不存在,轉(zhuǎn)步驟6. 13),否則,轉(zhuǎn)步驟.6.5);步驟6. 5)獲取否定詞集詞典;步驟6. 6)根據(jù)否定詞詞典,判斷該句是否包含否定詞,如果不包含,轉(zhuǎn)步驟6. 8),否 則,轉(zhuǎn)步驟6. 7);步驟6. 7)初始化否定詞的傾向值為-1 ;步驟6. 8)獲取副詞集詞典;步驟6. 9)根據(jù)副詞集詞典,判斷該句是否包含副詞,如果不包含,轉(zhuǎn)步驟6. 11),否 則,轉(zhuǎn)步驟6. 10);步驟6. 10)根據(jù)副詞集詞典,獲取副詞的強(qiáng)度等級(jí)值;步驟6. 11)根據(jù)否定詞的傾向值、副詞的強(qiáng)度等級(jí)值、單詞的傾向值,計(jì)算子句傾向值;步驟6. 12)獲取下一條子句,轉(zhuǎn)步驟6.4);步驟6. 13)計(jì)算該條評(píng)論信息的傾向值;步驟7)根據(jù)評(píng)分和傾向值,獲取結(jié)果信息步驟7. 1)輸入一條評(píng)論傾向值;步驟7. 2)獲取該評(píng)論的評(píng)分;步驟7. 3)計(jì)算該產(chǎn)品的平均評(píng)分;步驟7. 4)如果該條評(píng)論傾向值大于零且評(píng)分小于平均評(píng)分,或者該條評(píng)論傾向值小 于零且評(píng)分大于平均評(píng)分,轉(zhuǎn)步驟7. 5),否則,轉(zhuǎn)步驟7. 6);步驟7. 5)輸出結(jié)果該評(píng)論為垃圾評(píng)論,轉(zhuǎn)步驟7. 7);步驟7. 6)輸出結(jié)果該評(píng)論為正常評(píng)論,轉(zhuǎn)步驟7. 7);步驟7. 7)結(jié)束垃圾評(píng)論檢測(cè)。
全文摘要
為了更好的發(fā)現(xiàn)垃圾評(píng)論,本發(fā)明提出一種基于評(píng)分和中文情感分析的垃圾評(píng)論檢測(cè)系統(tǒng),主要是針對(duì)大部分的電子商務(wù)網(wǎng)站提供給用戶對(duì)于所購(gòu)買的商品發(fā)表自己的評(píng)論,利用評(píng)分機(jī)制結(jié)合中文情感分析,來檢測(cè)哪些評(píng)論是垃圾評(píng)論,進(jìn)而為用戶購(gòu)買商品提供參考意見。本系統(tǒng)提出一種新的情感模式的抽取方法,改善了分類器的性能,提高了分類精度,并將中文情感分析用于垃圾評(píng)論檢測(cè)中,從一個(gè)新的角度來發(fā)現(xiàn)垃圾評(píng)論,幫助用戶做出購(gòu)買決策。
文檔編號(hào)G06F17/30GK103064971SQ201310002969
公開日2013年4月24日 申請(qǐng)日期2013年1月5日 優(yōu)先權(quán)日2013年1月5日
發(fā)明者張衛(wèi)豐, 徐勝國(guó), 張迎周, 周國(guó)強(qiáng), 王子元, 周國(guó)富, 錢小燕, 許碧歡, 陸柳敏 申請(qǐng)人:南京郵電大學(xué)