基于相似度計算的垃圾評論檢測方法與流程

文檔序號：12063814閱讀：417來源：國知局

本發(fā)明屬于自然語言處理的用戶評論領域，尤其涉及一種基于相似度計算的垃圾評論檢測方法。
背景技術(shù)：
：：隨著移動互聯(lián)網(wǎng)時代的到來和物聯(lián)網(wǎng)的構(gòu)建日趨完善，網(wǎng)絡購物漸漸成為一種新型重要消費方式，越來越多用戶生成的內(nèi)容(user-generatedcontent)出現(xiàn)在網(wǎng)絡應用中，大多數(shù)消費者會在購物后在電商平臺發(fā)表自己的購物體會和使用心得以及對產(chǎn)品的看法。一方面，據(jù)美國Cone公司2011年的調(diào)查報告，64％的用戶在購買行為之前會參考已有的用戶評論，用戶發(fā)表的評論會對潛在消費者的消費行為產(chǎn)生一定影響而具有商業(yè)價值；另一方面，用戶的評論包含了消費者對產(chǎn)品各方面的評價及喜好程度等大量的信息，這些信息可以幫助企業(yè)更便捷的了解消費者喜好和消費需求、發(fā)現(xiàn)產(chǎn)品質(zhì)量等問題，了解自身商品性能的優(yōu)勢與不足。對于電商服務平臺而言，通過商品評論信息了解消費者最關(guān)注的商品特性，在商品評論系統(tǒng)中引導消費者更全面的評價商品，進而提高評論信息質(zhì)量和網(wǎng)站口碑。因為同種商品消費者更傾向于光顧銷量多、評論人數(shù)多、好評多的店鋪，出于利益目的，商家常會雇傭水軍進行虛假交易然后刷評論數(shù)量或進行滿N字好評返現(xiàn)等活動加之評論的開放性與網(wǎng)民個人素質(zhì)的差異性，使得電商的用戶評論文本質(zhì)量參差不齊。用戶評論文本質(zhì)量的良莠不齊對瀏覽評論的消費者和通過研究評論來獲取產(chǎn)品相關(guān)信息的企業(yè)帶來困擾甚至誤導，同時加大了信息挖掘的成本，降低了自動挖掘工具的準確率。為了減少上述不利影響，本文針對消費者評論文本里參雜了大量無效或虛假的信息，站在產(chǎn)品制造設計者的角度，以發(fā)掘消費者潛在需求促進產(chǎn)品創(chuàng)新為目的，提出了一種基于相似度計算提取高質(zhì)量有用評論的方法。以京東上某款手機的用戶評論為例，本文構(gòu)建產(chǎn)品特征集、運用相似度算法，將一系列無用評論、重復評論進行剔除。并運用決策樹方法處理的結(jié)果與本文方法進行對比，結(jié)果顯示本文所講的方法對用戶評論有更優(yōu)越的篩選能力，在識別精度和準確度上比決策樹方法有顯著提高。技術(shù)實現(xiàn)要素：：本發(fā)明的主要目的在于提供一種基于相似度計算的垃圾評論檢測方法，是獲取高質(zhì)量電商平臺用戶評論文本的一種有效方法。一種基于相似度計算的垃圾評論檢測方法，包括下述步驟：步驟1，數(shù)據(jù)獲?。豪镁W(wǎng)絡爬蟲，抓取與指定產(chǎn)品相關(guān)的論壇、電商網(wǎng)頁，然后抽取網(wǎng)頁中的評論數(shù)據(jù)，并將評論數(shù)據(jù)保存到數(shù)據(jù)庫中；步驟2，虛假評論檢測：計算評論時間與購買時間的時間的差T，若T＜貨物運送時間則該條評論為虛假評論。步驟3，重復評論檢測：對每條評論進行分詞，然后計算評論間的相似度，當評論間的相似度高于閾值，則該評論和其相似的評論即為重復評論；步驟4，數(shù)據(jù)處理：對評論進行句法分析、情感標注、特征詞提取處理，并根據(jù)產(chǎn)品說明書，構(gòu)建產(chǎn)品特征詞典。步驟5，無關(guān)評論檢測：計算每條評論的評論目標是否為目標產(chǎn)品及其特征，檢測出與目標產(chǎn)品無關(guān)的評論。在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟1中，抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁時，計算產(chǎn)品名與網(wǎng)頁標題相似度的公式為：在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟2中，將每條評論進行分詞及詞性分析。在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟2中，計算每條評論的評論時間和客戶購買商品的時間之差T，并將差值T與貨物運送時間進行比較，若T＜貨物運送時間，則該條評論為用戶還沒有收到產(chǎn)品并使用就已發(fā)表的虛假評論。在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟3中，計算每條評論與其他評論間的詞形詞序相似度，其計算公式為：詞形相似度：其中句子A的長度為len(A)，句子B的長度為len(B)，SameWC(A，B)表示句子A，B中相同單詞的個數(shù)。詞序相似度：其中OnceWS(A，B)表示A、B中都出現(xiàn)且只出現(xiàn)一次的單詞集合。Pfirst(A，B)表示OnceWS(A，B)的單詞在A中的位置序號構(gòu)成的向量，Psecond(A，B)表示Pfirst(A，B)中的分量按對應單詞在B中的詞序排列生成的向量，RevOrd(A，B)表示Psecond(A，B)各相鄰分量的逆序數(shù)。句子相似度：Sim(A，B)＝λ1×WordSim(A，B)+λ2×OrdSim(A，B)其中λ1，λ2是常數(shù)，并且滿足λ1+λ2＝1。在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟4中，對已經(jīng)重復檢測過評論進行依存句法分析，標注詞語的句法成分和其支配詞。在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟4中，使用情感詞詞典進行情感詞標注。在情感詞詞典中，詞語的情感傾向包括三類：褒義、貶義、中性，分別用P、N、M表示，對于褒義情感詞和貶義情感詞，情感強度分為1，3，5，7，9五檔，9表示強度最大，1為強度最小，對于中性情感詞，情感強度均為0。在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟4中，情感標注的實現(xiàn)利用了情感詞詞典和程度副詞詞典。在程度副詞詞典中，詞語按照情感強度分為四類，分別為：“極其”、“很”、“較”、“稍”，對應的情感強度值為4，3，2，1。在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟4中，利用CRF模型對產(chǎn)品特征詞進行標注，得到產(chǎn)品特征集，其計算公式如下：式中tk和sk是特征函數(shù)，λk和μk分別表示兩個特征函數(shù)的權(quán)重，Z(x)是規(guī)范化因子。在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟4中，對CRF模型標記的產(chǎn)品特征詞和產(chǎn)品說明書里的產(chǎn)品特征進行對比，對特征集進行篩選與修正，構(gòu)建完整準確的產(chǎn)品特征集。在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟5中，計算每條評論的評論目標與產(chǎn)品特征的距離，若一條評論與所有的產(chǎn)品特征的距離都大于給定閾值，則該條評論為無關(guān)評論。在上述的基于相似度計算的垃圾評論檢測方法中，在所述的步驟5中，計算每條評論的評論目標詞與產(chǎn)品特征詞兩個詞語之間的詞林相似度。詞語W的語義編碼為E，即為E(W)＝e1，e2，e3，e4，e5，e6，ei代表詞林擴展版詞語編碼中的類別級別。Weight(ei)表示第i級別的類別ei的權(quán)重大小。共有類別C(Ei，Ej)定義為編碼Ei和Ej所擁有的共同部分的類別編碼集合，其共同部分在判定時由大類開始，依次向小類判斷，遇到第一個不同的子類別之前為止，其計算公式如下：附圖說明：圖1是本發(fā)明的流程圖。圖2是本發(fā)明的數(shù)據(jù)獲取流程圖。圖3是本發(fā)明的產(chǎn)品特征詞提取流程圖。圖4是本發(fā)明的依存關(guān)系分析示例圖。圖5是本發(fā)明的特征詞提取的訓練文本示例。具體實施方式：下面結(jié)合具體附圖對本發(fā)明作進一步的說明。本發(fā)明以論壇、電商等網(wǎng)絡平臺上的用戶評論為研究對象，目的是從網(wǎng)絡評論中檢測出垃圾評論，提高評論文本的質(zhì)量，降低自動挖掘工具的成本。基于相似度計算的垃圾評論檢測方法，包括數(shù)據(jù)獲取、虛假評論檢測、重復評論檢測、產(chǎn)品特征詞典構(gòu)建和無關(guān)評論檢測五個步驟，如圖1所示。下面分別對這五個步驟進行詳細的說明。1，數(shù)據(jù)獲?。豪镁W(wǎng)絡爬蟲，抓取與指定產(chǎn)品相關(guān)的論壇、電商網(wǎng)頁，然后抽取網(wǎng)頁中的評論數(shù)據(jù)，并將評論數(shù)據(jù)保存到數(shù)據(jù)庫中。數(shù)據(jù)獲取的流程如圖2所示。首先，調(diào)用百度搜索接口搜索指定產(chǎn)品，得到指定頁數(shù)的搜索結(jié)果頁，且每個搜索結(jié)果頁包含13個搜索結(jié)果；然后按照如下步驟處理每個搜索結(jié)果頁：步驟S101：提取第i搜索結(jié)果頁中第j個搜索結(jié)果的標題。步驟S102：計算標題相似度：利用公式(1)計算標題和產(chǎn)品名的相似度，相似度用Sim(標題，產(chǎn)品名)表示，并且0≤Sim(標題，產(chǎn)品名)≤1。如果相似度大于等于0.8，則繼續(xù)下一步，否則，j加1，返回步驟S101。其中，Z是歸一化因子，αk是位置系數(shù)，Pk是單次相似度，在公式(1)、(2)、(3)和(4)中，m是“產(chǎn)品名”中包含的文字個數(shù)，n是“標題”中包含的文字個數(shù)，“標題(k+l-1)”表示標題中的第k+l-1個字，“產(chǎn)品名(l)”表示產(chǎn)品名中的第l個字。步驟S103：提取第i搜索結(jié)果頁中第j個搜索結(jié)果的URL。步驟S104：匹配URL：根據(jù)第j個搜索結(jié)果的URL，判斷該搜索結(jié)果是否為論壇或電商網(wǎng)站，若是，則繼續(xù)下一步，否則，j加1，返回步驟S101。步驟S105：網(wǎng)頁抓取與信息抽取：不同類型的網(wǎng)頁對應的抓取與抽取策略是不同的，所以需要對不同的網(wǎng)站制定不同的抓取與抽取模板，圖2中給出了中關(guān)村、太平洋、天極網(wǎng)、京東、蘇寧、1號店等模板，模板的個數(shù)不限，可以進行擴展。步驟S106：結(jié)束判斷：當?shù)趇搜索結(jié)果頁的全部搜索結(jié)果都處理完后，如果在第i頁中的13個搜索結(jié)果中，滿足標題相似度的搜索結(jié)果個數(shù)大于10，則i+1，j＝1，轉(zhuǎn)到S101，繼續(xù)處理下一個搜索結(jié)果頁，否則，數(shù)據(jù)獲取工作結(jié)束。2，虛假評論檢測：此步主要是根據(jù)評論頁面提供的用戶購買時間和評論時間的信息進行計算得到差值T，與運送貨物快遞時間進行比較。若T＜貨物運送時間，則說明用戶還沒有使用產(chǎn)品就已經(jīng)發(fā)表了評論，則該條評論為虛假評論。經(jīng)實際查詢快遞公司的貨運時間表，本發(fā)明將T的閾值設為24h，小于24h則為虛假評論。3，對每條評論進行分詞，然后計算評論間的相似度，當評論間的相似度高于閾值，則該評論和其相似的評論即為重復評論。步驟S301：由于漢語在書寫時詞與詞之間不存在空格，計算機無法直接進行詞語的識別，所以，要先進行分詞處理。分詞的作用是將連續(xù)的一段文本分成一個一個的詞語，例如，給定一句話“手機的屏幕很模糊”，對其分詞及詞性標注以后的結(jié)果是：“手機/n的/u屏幕/n很/d模糊/a”，本方法調(diào)用了NLPIR系統(tǒng)作為分詞工具。步驟S302：計算句子的詞形相似度，也就是計算句子與另一句話中相同詞語個數(shù)，詞形相似度計算如下：設句子A的長度為len(A)，句子B的長度為len(B)，SameWC(A，B)表示句子A，B中相同單詞的個數(shù)，當一個單詞在A，B中出現(xiàn)的次數(shù)不同時，以出現(xiàn)次數(shù)少的計數(shù)，則句子A，B的詞形相似度計算如下：易證0≤WordSim(A，B)≤1步驟S303：詞序相似度計算如下：令OnceWS(A，B)表示A、B中都出現(xiàn)且只出現(xiàn)一次的單詞集合。Pfirst(A，B)表示OnceWS(A，B)的單詞在A中的位置序號構(gòu)成的向量，Psecond(A，B)表示Pfirst(A，B)中的分量按對應單詞在B中的詞序排列生成的向量，RevOrd(A，B)表示Psecond(A，B)各相鄰分量的逆序數(shù)，A、B的詞序相似度如下：易證0≤OrdSim(A，B)≤1.步驟S304：句子相似度計算如下：Sim(A，B)＝λ1×WordSim(A，B)+λ2×OrdSim(A，B)其中，λ1，λ2是常數(shù)，并且滿足λ1+λ2＝1，由于詞形相似度起主要作用，所以λ1遠大于λ2。步驟S305：將計算所得句子間相似度與閾值進行比較，若高于閾值則認為該條評論為重復評論。在本發(fā)明的實驗數(shù)據(jù)上，經(jīng)多次實驗進行比較證明閾值取0.8。4：對評論進行句法分析、情感標注、特征詞提取處理，并根據(jù)產(chǎn)品說明書，構(gòu)建產(chǎn)品特征詞典。本發(fā)明提供了從評論數(shù)據(jù)中提取產(chǎn)品特征詞的方法，方法流程圖如圖3所示。首先進行分詞及詞性標注S301、句法分析S401、情感詞標注S402等三步預處理，得到結(jié)構(gòu)化文本401；然后采用均勻采樣方法從文本401中取出500條評論的處理結(jié)果，人工將這500條評論中的所有特征詞標注為“S”，得到訓練集402；然后以訓練集402和特征模板403作為輸入，利用條件隨機場算法訓練出一個表征了特征詞與詞語、詞性、依存關(guān)系、支配詞及支配的情感方向之間統(tǒng)計關(guān)系的條件隨機場模型404；然后利用模型404對文本401進行質(zhì)量特征詞的自動標注，得到結(jié)果集405；最后從結(jié)果集中提取標注為S的詞語，得到質(zhì)量特征詞集406。下面對S401～S404進行詳細說明：步驟S401：依存關(guān)系分析：依存關(guān)系分析的理論基礎是依存語法，該語法認為句子中的述語動詞是支配其他成分的中心，而它本身卻不受其他任何成分的支配，所有的受支配成分都以某種依存關(guān)系從屬于其支配者，依存語法直接描述詞與詞之間的關(guān)系。給定例子“手機/n的/u屏幕/n很/d模糊/a”，依存關(guān)系分析的結(jié)果如圖4所示。在依存關(guān)系分析的結(jié)果中，詞與詞之間直接發(fā)生依存關(guān)系，構(gòu)成一個依存對，其中一個是支配詞，另一個叫從屬詞，依存關(guān)系用一個有向弧表示，叫做依存弧，依存弧的方向為由支配詞指向從屬詞，每個依存弧上有一個標記，叫做關(guān)系類型，表示該依存對中的兩個詞之間存在什么樣的依存關(guān)系。在本例中，屏幕是質(zhì)量特征詞，從圖4中可以看出，“屏幕”的支配詞為“模糊”，“屏幕”與“模糊”之間的依存關(guān)系為“SBV”，即主謂關(guān)系。步驟S402：情感詞標注：經(jīng)過步驟S201、S202，得到了詞語、詞性、依存關(guān)系、支配詞等4項內(nèi)容，對于“手機的屏幕很模糊”這個例子，得到的結(jié)果為圖5中表格的前5列，其中每一行為一條記錄，每條記錄包括詞語、詞性、依存關(guān)系、支配詞等四個字段。情感詞標注的基礎是情感詞典，在情感詞典中，包含常用的情感詞，如“模糊”、“高”、“好”等。情感標注的對象為支配詞，利用情感詞典，標注出支配詞是不是情感詞，是情感詞則標記為“Y”，不是情感詞則標記為“N”。情感標注后得到了如圖5所示的結(jié)果。步驟S403：基于條件隨機場模型的質(zhì)量特征詞提?。夯跅l件隨機場的質(zhì)量特征詞提取由兩部分構(gòu)成：訓練和處理。在訓練階段，首先采用均勻采樣方法從文本401中取出500條評論的處理結(jié)果，人工將這500條評論中的所有質(zhì)量特征詞標注為“S”，得到訓練集402；然后考慮詞語、詞性、依存關(guān)系、支配詞及支配的情感方向等五種因素，制定出特征模板；然后以訓練集402和特征模板403作為輸入，利用條件隨機場算法訓練出一個表征了質(zhì)量特征詞與詞語、詞性、依存關(guān)系、支配詞及支配的情感方向之間統(tǒng)計關(guān)系的條件隨機場模型404；在處理階段，利用已訓練好的模型404對文本401進行質(zhì)量特征詞的自動標注，得到結(jié)果集405，然后從結(jié)果集中提取標注為S的詞語，得到質(zhì)量特征詞集406。其特征詞標記計算公式為：式中tk和sk是特征函數(shù)，λk和μk分別表示兩個特征函數(shù)的權(quán)重，Z(x)是規(guī)范化因子。5，計算每條評論的評論目標是否為目標產(chǎn)品及其特征，檢測出與目標產(chǎn)品無關(guān)的評論。無關(guān)評論是為了檢測評論與目標產(chǎn)品及其特征屬性是否相關(guān)，是識別無關(guān)評論的關(guān)鍵。評論目標與特征詞距離的計算本質(zhì)上是詞語相似度的計算。步驟S501：基于詞林的詞語相似度計算。詞語相似度的計算方法多種多樣，本文語義相似度算法選擇基于詞林改進版的詞語相似度計算。詞林擴展版共有五級編碼并帶有一位符號位，在符號位中，用“＝”代表常見的“同義”關(guān)系，“#”代表詞語之間的相關(guān)關(guān)系，“@”則代表詞語自我封閉的獨立性質(zhì)。在基于詞林進行相似度計算時，每個參與運算的詞語都具有等長的編碼，因此，我們可以直接計算兩個詞語在詞林樹中的分支位置深度，以該深度與整個詞林編碼層級數(shù)量之比作為兩個詞語之間的相似度度量標準。另外，考慮到編碼的不同類別級別對詞語的概括強度并不等同，例如，僅第五級類別編碼不同的詞語之間仍然具有較強的相似性，因此我們又對每一級類別編碼在進行運算時設置不同的權(quán)重，通過權(quán)重的變化來調(diào)整相似度計算結(jié)果的合理取值。表1詞林編碼分類權(quán)重設置類別級別123456(符號位)權(quán)重1.21.21.01.00.80.4對應編號e1e2e3e4e5e6我們定義兩個詞語之間的相似度計算方式如下：設詞語W的語義編碼為E，即為E(W)＝e1，e2，e3，e4，e5，e6，ei代表詞林擴展版詞語編碼中的類別級別。Weight(ei)表示第i級別的類別ei的權(quán)重大小。共有類別C(Ei，Ej)定義為編碼Ei和Ej所擁有的共同部分的類別編碼集合，其共同部分在判定時由大類開始，依次向小類判斷，遇到第一個不同的子類別之前為止。兩個詞語之間的相似度計算公式定義為：步驟S502：將計算所得相似度與閾值相比較，大于閾值則為與目標評論相關(guān)的評論，小于閾值為無關(guān)評論。在本發(fā)明所研究的數(shù)據(jù)中，經(jīng)多次試驗進行比較證明閾值取0.8。本發(fā)明能夠從評論文本中剔除重復評論、虛假評論、無關(guān)評論從而得到一個高質(zhì)量評論文本，降低了文本挖掘過程中的噪聲，提高了挖掘準確率，降低了自動挖掘工具的成本。當前第1頁1 2 3

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐新勝;袁俊;林靜;文超
技術(shù)所有人：中國計量大學
我是此專利的發(fā)明人

上一篇：頁面顯示方法及裝置與流程
上一篇：一種數(shù)據(jù)的處理方法和裝置與流程

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

垃圾評論過濾相關(guān)技術(shù)

垃圾評論過濾算法相關(guān)技術(shù)

垃圾處理辦法相關(guān)技術(shù)

垃圾如何處理相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于相似度計算的垃圾評論檢測方法與流程