本發(fā)明屬于自然語言處理的用戶評論領域,尤其涉及一種基于相似度計算的垃圾評論檢測方法。
背景技術(shù):
::隨著移動互聯(lián)網(wǎng)時代的到來和物聯(lián)網(wǎng)的構(gòu)建日趨完善,網(wǎng)絡購物漸漸成為一種新型重要消費方式,越來越多用戶生成的內(nèi)容(user-generatedcontent)出現(xiàn)在網(wǎng)絡應用中,大多數(shù)消費者會在購物后在電商平臺發(fā)表自己的購物體會和使用心得以及對產(chǎn)品的看法。一方面,據(jù)美國Cone公司2011年的調(diào)查報告,64%的用戶在購買行為之前會參考已有的用戶評論,用戶發(fā)表的評論會對潛在消費者的消費行為產(chǎn)生一定影響而具有商業(yè)價值;另一方面,用戶的評論包含了消費者對產(chǎn)品各方面的評價及喜好程度等大量的信息,這些信息可以幫助企業(yè)更便捷的了解消費者喜好和消費需求、發(fā)現(xiàn)產(chǎn)品質(zhì)量等問題,了解自身商品性能的優(yōu)勢與不足。對于電商服務平臺而言,通過商品評論信息了解消費者最關(guān)注的商品特性,在商品評論系統(tǒng)中引導消費者更全面的評價商品,進而提高評論信息質(zhì)量和網(wǎng)站口碑。因為同種商品消費者更傾向于光顧銷量多、評論人數(shù)多、好評多的店鋪,出于利益目的,商家常會雇傭水軍進行虛假交易然后刷評論數(shù)量或進行滿N字好評返現(xiàn)等活動加之評論的開放性與網(wǎng)民個人素質(zhì)的差異性,使得電商的用戶評論文本質(zhì)量參差不齊。用戶評論文本質(zhì)量的良莠不齊對瀏覽評論的消費者和通過研究評論來獲取產(chǎn)品相關(guān)信息的企業(yè)帶來困擾甚至誤導,同時加大了信息挖掘的成本,降低了自動挖掘工具的準確率。為了減少上述不利影響,本文針對消費者評論文本里參雜了大量無效或虛假的信息,站在產(chǎn)品制造設計者的角度,以發(fā)掘消費者潛在需求促進產(chǎn)品創(chuàng)新為目的,提出了一種基于相似度計算提取高質(zhì)量有用評論的方法。以京東上某款手機的用戶評論為例,本文構(gòu)建產(chǎn)品特征集、運用相似度算法,將一系列無用評論、重復評論進行剔除。并運用決策樹方法處理的結(jié)果與本文方法進行對比,結(jié)果顯示本文所講的方法對用戶評論有更優(yōu)越的篩選能力,在識別精度和準確度上比決策樹方法有顯著提高。技術(shù)實現(xiàn)要素::本發(fā)明的主要目的在于提供一種基于相似度計算的垃圾評論檢測方法,是獲取高質(zhì)量電商平臺用戶評論文本的一種有效方法。一種基于相似度計算的垃圾評論檢測方法,包括下述步驟:步驟1,數(shù)據(jù)獲?。豪镁W(wǎng)絡爬蟲,抓取與指定產(chǎn)品相關(guān)的論壇、電商網(wǎng)頁,然后抽取網(wǎng)頁中的評論數(shù)據(jù),并將評論數(shù)據(jù)保存到數(shù)據(jù)庫中;步驟2,虛假評論檢測:計算評論時間與購買時間的時間的差T,若T<貨物運送時間則該條評論為虛假評論。步驟3,重復評論檢測:對每條評論進行分詞,然后計算評論間的相似度,當評論間的相似度高于閾值,則該評論和其相似的評論即為重復評論;步驟4,數(shù)據(jù)處理:對評論進行句法分析、情感標注、特征詞提取處理,并根據(jù)產(chǎn)品說明書,構(gòu)建產(chǎn)品特征詞典。步驟5,無關(guān)評論檢測:計算每條評論的評論目標是否為目標產(chǎn)品及其特征,檢測出與目標產(chǎn)品無關(guān)的評論。在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟1中,抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁時,計算產(chǎn)品名與網(wǎng)頁標題相似度的公式為:在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟2中,將每條評論進行分詞及詞性分析。在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟2中,計算每條評論的評論時間和客戶購買商品的時間之差T,并將差值T與貨物運送時間進行比較,若T<貨物運送時間,則該條評論為用戶還沒有收到產(chǎn)品并使用就已發(fā)表的虛假評論。在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟3中,計算每條評論與其他評論間的詞形詞序相似度,其計算公式為:詞形相似度:其中句子A的長度為len(A),句子B的長度為len(B),SameWC(A,B)表示句子A,B中相同單詞的個數(shù)。詞序相似度:其中OnceWS(A,B)表示A、B中都出現(xiàn)且只出現(xiàn)一次的單詞集合。Pfirst(A,B)表示OnceWS(A,B)的單詞在A中的位置序號構(gòu)成的向量,Psecond(A,B)表示Pfirst(A,B)中的分量按對應單詞在B中的詞序排列生成的向量,RevOrd(A,B)表示Psecond(A,B)各相鄰分量的逆序數(shù)。句子相似度:Sim(A,B)=λ1×WordSim(A,B)+λ2×OrdSim(A,B)其中λ1,λ2是常數(shù),并且滿足λ1+λ2=1。在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟4中,對已經(jīng)重復檢測過評論進行依存句法分析,標注詞語的句法成分和其支配詞。在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟4中,使用情感詞詞典進行情感詞標注。在情感詞詞典中,詞語的情感傾向包括三類:褒義、貶義、中性,分別用P、N、M表示,對于褒義情感詞和貶義情感詞,情感強度分為1,3,5,7,9五檔,9表示強度最大,1為強度最小,對于中性情感詞,情感強度均為0。在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟4中,情感標注的實現(xiàn)利用了情感詞詞典和程度副詞詞典。在程度副詞詞典中,詞語按照情感強度分為四類,分別為:“極其”、“很”、“較”、“稍”,對應的情感強度值為4,3,2,1。在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟4中,利用CRF模型對產(chǎn)品特征詞進行標注,得到產(chǎn)品特征集,其計算公式如下:式中tk和sk是特征函數(shù),λk和μk分別表示兩個特征函數(shù)的權(quán)重,Z(x)是規(guī)范化因子。在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟4中,對CRF模型標記的產(chǎn)品特征詞和產(chǎn)品說明書里的產(chǎn)品特征進行對比,對特征集進行篩選與修正,構(gòu)建完整準確的產(chǎn)品特征集。在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟5中,計算每條評論的評論目標與產(chǎn)品特征的距離,若一條評論與所有的產(chǎn)品特征的距離都大于給定閾值,則該條評論為無關(guān)評論。在上述的基于相似度計算的垃圾評論檢測方法中,在所述的步驟5中,計算每條評論的評論目標詞與產(chǎn)品特征詞兩個詞語之間的詞林相似度。詞語W的語義編碼為E,即為E(W)=e1,e2,e3,e4,e5,e6,ei代表詞林擴展版詞語編碼中的類別級別。Weight(ei)表示第i級別的類別ei的權(quán)重大小。共有類別C(Ei,Ej)定義為編碼Ei和Ej所擁有的共同部分的類別編碼集合,其共同部分在判定時由大類開始,依次向小類判斷,遇到第一個不同的子類別之前為止,其計算公式如下:附圖說明:圖1是本發(fā)明的流程圖。圖2是本發(fā)明的數(shù)據(jù)獲取流程圖。圖3是本發(fā)明的產(chǎn)品特征詞提取流程圖。圖4是本發(fā)明的依存關(guān)系分析示例圖。圖5是本發(fā)明的特征詞提取的訓練文本示例。具體實施方式:下面結(jié)合具體附圖對本發(fā)明作進一步的說明。本發(fā)明以論壇、電商等網(wǎng)絡平臺上的用戶評論為研究對象,目的是從網(wǎng)絡評論中檢測出垃圾評論,提高評論文本的質(zhì)量,降低自動挖掘工具的成本。基于相似度計算的垃圾評論檢測方法,包括數(shù)據(jù)獲取、虛假評論檢測、重復評論檢測、產(chǎn)品特征詞典構(gòu)建和無關(guān)評論檢測五個步驟,如圖1所示。下面分別對這五個步驟進行詳細的說明。1,數(shù)據(jù)獲?。豪镁W(wǎng)絡爬蟲,抓取與指定產(chǎn)品相關(guān)的論壇、電商網(wǎng)頁,然后抽取網(wǎng)頁中的評論數(shù)據(jù),并將評論數(shù)據(jù)保存到數(shù)據(jù)庫中。數(shù)據(jù)獲取的流程如圖2所示。首先,調(diào)用百度搜索接口搜索指定產(chǎn)品,得到指定頁數(shù)的搜索結(jié)果頁,且每個搜索結(jié)果頁包含13個搜索結(jié)果;然后按照如下步驟處理每個搜索結(jié)果頁:步驟S101:提取第i搜索結(jié)果頁中第j個搜索結(jié)果的標題。步驟S102:計算標題相似度:利用公式(1)計算標題和產(chǎn)品名的相似度,相似度用Sim(標題,產(chǎn)品名)表示,并且0≤Sim(標題,產(chǎn)品名)≤1。如果相似度大于等于0.8,則繼續(xù)下一步,否則,j加1,返回步驟S101。其中,Z是歸一化因子,αk是位置系數(shù),Pk是單次相似度,在公式(1)、(2)、(3)和(4)中,m是“產(chǎn)品名”中包含的文字個數(shù),n是“標題”中包含的文字個數(shù),“標題(k+l-1)”表示標題中的第k+l-1個字,“產(chǎn)品名(l)”表示產(chǎn)品名中的第l個字。步驟S103:提取第i搜索結(jié)果頁中第j個搜索結(jié)果的URL。步驟S104:匹配URL:根據(jù)第j個搜索結(jié)果的URL,判斷該搜索結(jié)果是否為論壇或電商網(wǎng)站,若是,則繼續(xù)下一步,否則,j加1,返回步驟S101。步驟S105:網(wǎng)頁抓取與信息抽取:不同類型的網(wǎng)頁對應的抓取與抽取策略是不同的,所以需要對不同的網(wǎng)站制定不同的抓取與抽取模板,圖2中給出了中關(guān)村、太平洋、天極網(wǎng)、京東、蘇寧、1號店等模板,模板的個數(shù)不限,可以進行擴展。步驟S106:結(jié)束判斷:當?shù)趇搜索結(jié)果頁的全部搜索結(jié)果都處理完后,如果在第i頁中的13個搜索結(jié)果中,滿足標題相似度的搜索結(jié)果個數(shù)大于10,則i+1,j=1,轉(zhuǎn)到S101,繼續(xù)處理下一個搜索結(jié)果頁,否則,數(shù)據(jù)獲取工作結(jié)束。2,虛假評論檢測:此步主要是根據(jù)評論頁面提供的用戶購買時間和評論時間的信息進行計算得到差值T,與運送貨物快遞時間進行比較。若T<貨物運送時間,則說明用戶還沒有使用產(chǎn)品就已經(jīng)發(fā)表了評論,則該條評論為虛假評論。經(jīng)實際查詢快遞公司的貨運時間表,本發(fā)明將T的閾值設為24h,小于24h則為虛假評論。3,對每條評論進行分詞,然后計算評論間的相似度,當評論間的相似度高于閾值,則該評論和其相似的評論即為重復評論。步驟S301:由于漢語在書寫時詞與詞之間不存在空格,計算機無法直接進行詞語的識別,所以,要先進行分詞處理。分詞的作用是將連續(xù)的一段文本分成一個一個的詞語,例如,給定一句話“手機的屏幕很模糊”,對其分詞及詞性標注以后的結(jié)果是:“手機/n的/u屏幕/n很/d模糊/a”,本方法調(diào)用了NLPIR系統(tǒng)作為分詞工具。步驟S302:計算句子的詞形相似度,也就是計算句子與另一句話中相同詞語個數(shù),詞形相似度計算如下:設句子A的長度為len(A),句子B的長度為len(B),SameWC(A,B)表示句子A,B中相同單詞的個數(shù),當一個單詞在A,B中出現(xiàn)的次數(shù)不同時,以出現(xiàn)次數(shù)少的計數(shù),則句子A,B的詞形相似度計算如下:易證0≤WordSim(A,B)≤1步驟S303:詞序相似度計算如下:令OnceWS(A,B)表示A、B中都出現(xiàn)且只出現(xiàn)一次的單詞集合。Pfirst(A,B)表示OnceWS(A,B)的單詞在A中的位置序號構(gòu)成的向量,Psecond(A,B)表示Pfirst(A,B)中的分量按對應單詞在B中的詞序排列生成的向量,RevOrd(A,B)表示Psecond(A,B)各相鄰分量的逆序數(shù),A、B的詞序相似度如下:易證0≤OrdSim(A,B)≤1.步驟S304:句子相似度計算如下:Sim(A,B)=λ1×WordSim(A,B)+λ2×OrdSim(A,B)其中,λ1,λ2是常數(shù),并且滿足λ1+λ2=1,由于詞形相似度起主要作用,所以λ1遠大于λ2。步驟S305:將計算所得句子間相似度與閾值進行比較,若高于閾值則認為該條評論為重復評論。在本發(fā)明的實驗數(shù)據(jù)上,經(jīng)多次實驗進行比較證明閾值取0.8。4:對評論進行句法分析、情感標注、特征詞提取處理,并根據(jù)產(chǎn)品說明書,構(gòu)建產(chǎn)品特征詞典。本發(fā)明提供了從評論數(shù)據(jù)中提取產(chǎn)品特征詞的方法,方法流程圖如圖3所示。首先進行分詞及詞性標注S301、句法分析S401、情感詞標注S402等三步預處理,得到結(jié)構(gòu)化文本401;然后采用均勻采樣方法從文本401中取出500條評論的處理結(jié)果,人工將這500條評論中的所有特征詞標注為“S”,得到訓練集402;然后以訓練集402和特征模板403作為輸入,利用條件隨機場算法訓練出一個表征了特征詞與詞語、詞性、依存關(guān)系、支配詞及支配的情感方向之間統(tǒng)計關(guān)系的條件隨機場模型404;然后利用模型404對文本401進行質(zhì)量特征詞的自動標注,得到結(jié)果集405;最后從結(jié)果集中提取標注為S的詞語,得到質(zhì)量特征詞集406。下面對S401~S404進行詳細說明:步驟S401:依存關(guān)系分析:依存關(guān)系分析的理論基礎是依存語法,該語法認為句子中的述語動詞是支配其他成分的中心,而它本身卻不受其他任何成分的支配,所有的受支配成分都以某種依存關(guān)系從屬于其支配者,依存語法直接描述詞與詞之間的關(guān)系。給定例子“手機/n的/u屏幕/n很/d模糊/a”,依存關(guān)系分析的結(jié)果如圖4所示。在依存關(guān)系分析的結(jié)果中,詞與詞之間直接發(fā)生依存關(guān)系,構(gòu)成一個依存對,其中一個是支配詞,另一個叫從屬詞,依存關(guān)系用一個有向弧表示,叫做依存弧,依存弧的方向為由支配詞指向從屬詞,每個依存弧上有一個標記,叫做關(guān)系類型,表示該依存對中的兩個詞之間存在什么樣的依存關(guān)系。在本例中,屏幕是質(zhì)量特征詞,從圖4中可以看出,“屏幕”的支配詞為“模糊”,“屏幕”與“模糊”之間的依存關(guān)系為“SBV”,即主謂關(guān)系。步驟S402:情感詞標注:經(jīng)過步驟S201、S202,得到了詞語、詞性、依存關(guān)系、支配詞等4項內(nèi)容,對于“手機的屏幕很模糊”這個例子,得到的結(jié)果為圖5中表格的前5列,其中每一行為一條記錄,每條記錄包括詞語、詞性、依存關(guān)系、支配詞等四個字段。情感詞標注的基礎是情感詞典,在情感詞典中,包含常用的情感詞,如“模糊”、“高”、“好”等。情感標注的對象為支配詞,利用情感詞典,標注出支配詞是不是情感詞,是情感詞則標記為“Y”,不是情感詞則標記為“N”。情感標注后得到了如圖5所示的結(jié)果。步驟S403:基于條件隨機場模型的質(zhì)量特征詞提?。夯跅l件隨機場的質(zhì)量特征詞提取由兩部分構(gòu)成:訓練和處理。在訓練階段,首先采用均勻采樣方法從文本401中取出500條評論的處理結(jié)果,人工將這500條評論中的所有質(zhì)量特征詞標注為“S”,得到訓練集402;然后考慮詞語、詞性、依存關(guān)系、支配詞及支配的情感方向等五種因素,制定出特征模板;然后以訓練集402和特征模板403作為輸入,利用條件隨機場算法訓練出一個表征了質(zhì)量特征詞與詞語、詞性、依存關(guān)系、支配詞及支配的情感方向之間統(tǒng)計關(guān)系的條件隨機場模型404;在處理階段,利用已訓練好的模型404對文本401進行質(zhì)量特征詞的自動標注,得到結(jié)果集405,然后從結(jié)果集中提取標注為S的詞語,得到質(zhì)量特征詞集406。其特征詞標記計算公式為:式中tk和sk是特征函數(shù),λk和μk分別表示兩個特征函數(shù)的權(quán)重,Z(x)是規(guī)范化因子。5,計算每條評論的評論目標是否為目標產(chǎn)品及其特征,檢測出與目標產(chǎn)品無關(guān)的評論。無關(guān)評論是為了檢測評論與目標產(chǎn)品及其特征屬性是否相關(guān),是識別無關(guān)評論的關(guān)鍵。評論目標與特征詞距離的計算本質(zhì)上是詞語相似度的計算。步驟S501:基于詞林的詞語相似度計算。詞語相似度的計算方法多種多樣,本文語義相似度算法選擇基于詞林改進版的詞語相似度計算。詞林擴展版共有五級編碼并帶有一位符號位,在符號位中,用“=”代表常見的“同義”關(guān)系,“#”代表詞語之間的相關(guān)關(guān)系,“@”則代表詞語自我封閉的獨立性質(zhì)。在基于詞林進行相似度計算時,每個參與運算的詞語都具有等長的編碼,因此,我們可以直接計算兩個詞語在詞林樹中的分支位置深度,以該深度與整個詞林編碼層級數(shù)量之比作為兩個詞語之間的相似度度量標準。另外,考慮到編碼的不同類別級別對詞語的概括強度并不等同,例如,僅第五級類別編碼不同的詞語之間仍然具有較強的相似性,因此我們又對每一級類別編碼在進行運算時設置不同的權(quán)重,通過權(quán)重的變化來調(diào)整相似度計算結(jié)果的合理取值。表1詞林編碼分類權(quán)重設置類別級別123456(符號位)權(quán)重1.21.21.01.00.80.4對應編號e1e2e3e4e5e6我們定義兩個詞語之間的相似度計算方式如下:設詞語W的語義編碼為E,即為E(W)=e1,e2,e3,e4,e5,e6,ei代表詞林擴展版詞語編碼中的類別級別。Weight(ei)表示第i級別的類別ei的權(quán)重大小。共有類別C(Ei,Ej)定義為編碼Ei和Ej所擁有的共同部分的類別編碼集合,其共同部分在判定時由大類開始,依次向小類判斷,遇到第一個不同的子類別之前為止。兩個詞語之間的相似度計算公式定義為:步驟S502:將計算所得相似度與閾值相比較,大于閾值則為與目標評論相關(guān)的評論,小于閾值為無關(guān)評論。在本發(fā)明所研究的數(shù)據(jù)中,經(jīng)多次試驗進行比較證明閾值取0.8。本發(fā)明能夠從評論文本中剔除重復評論、虛假評論、無關(guān)評論從而得到一個高質(zhì)量評論文本,降低了文本挖掘過程中的噪聲,提高了挖掘準確率,降低了自動挖掘工具的成本。當前第1頁1 2 3