本發(fā)明涉及到lbsn中一種基于多維屬性挖掘的虛假評論可疑地點(diǎn)的檢測方法。
背景技術(shù):
近年來,隨著移動(dòng)終端定位技術(shù)和移動(dòng)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,基于位置的社交網(wǎng)絡(luò)即lbsn(全稱為location-basedsocialnetworks)平臺(tái)取得了巨大的成功。lbsn通過位置特征將虛擬社交空間和現(xiàn)實(shí)行為空間連接起來,融合了線上關(guān)系與線下行為,用戶可以依賴線上網(wǎng)絡(luò)針對空間地點(diǎn)發(fā)布評論,線下依靠這些評論來探索發(fā)現(xiàn)新的地點(diǎn),并對這些地點(diǎn)進(jìn)行選擇性訪問、消費(fèi)或者服務(wù)。然而,lbsn平臺(tái)上海量的信息中存在各種虛假評論,其多為組織性的虛假評論活動(dòng),這類活動(dòng)通過發(fā)布多條虛假評論以改變地點(diǎn)的口碑,從而影響用戶的訪問決策,為地點(diǎn)商家攫取不法利益,同時(shí)破壞網(wǎng)絡(luò)環(huán)境,嚴(yán)重影響用戶體驗(yàn)與網(wǎng)絡(luò)信譽(yù)。因此,識別與檢測這部分存在虛假評論活動(dòng)的可疑地點(diǎn)具有重要的現(xiàn)實(shí)意義。
當(dāng)前關(guān)于虛假評論活動(dòng)的商家的檢測技術(shù)主要是針對傳統(tǒng)的電子商務(wù)網(wǎng)站,對于lbsn中存在虛假評論活動(dòng)的可疑地點(diǎn)的檢測研究較少,并且沒有研究考慮地點(diǎn)商家之間的競爭性導(dǎo)致的虛假評論活動(dòng)。在現(xiàn)實(shí)lbsn中,地點(diǎn)不僅能夠通過本身整體的評論在時(shí)間、空間、評分、文本等維度表現(xiàn)出的異常檢測是否存在虛假評論活動(dòng),而且通過地點(diǎn)之間的競爭關(guān)系能夠更深入的發(fā)掘惡意競爭導(dǎo)致虛假評論活動(dòng)的可疑地點(diǎn),從而提高存在虛假評論活動(dòng)的可疑地點(diǎn)的檢測準(zhǔn)確率。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是:提供一種可以識別與檢測存在虛假評論活動(dòng)的可疑地點(diǎn)的lbsn中一種基于多維屬性挖掘的虛假評論可疑地點(diǎn)檢測方法。
為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:lbsn中一種基于多維屬性挖掘的虛假評論可疑地點(diǎn)檢測方法,利用lbsn中地點(diǎn)的異常特征信息與地點(diǎn)間的競爭關(guān)系進(jìn)行可疑地點(diǎn)的檢測過程,包括如下步驟:
1)根據(jù)lbsn中已被過濾的評論信息,人工識別虛假評論活動(dòng),標(biāo)注存在虛假評論活動(dòng)的可疑地點(diǎn)以及無虛假評論行為的可信地點(diǎn),并劃分地點(diǎn)的訓(xùn)練集與測試集;同時(shí)標(biāo)注存在惡意競爭活動(dòng)的競爭關(guān)系地點(diǎn)對,與無競爭關(guān)系地點(diǎn)對,并劃分競爭關(guān)系地點(diǎn)對的訓(xùn)練集與測試集。
2)針對存在虛假評論活動(dòng)的地點(diǎn)進(jìn)行分析,基于lbsn的地點(diǎn)評分、時(shí)空屬性和地點(diǎn)評論的文本內(nèi)容提取地點(diǎn)整體評論的異常特征,構(gòu)造地點(diǎn)的異常特征集。
3)針對地點(diǎn)間的競爭性進(jìn)行分析,基于lbsn的多種維度提取兩地點(diǎn)間的惡意競爭關(guān)系的異常特征,構(gòu)造地點(diǎn)間競爭關(guān)系的異常特征集。
4)將步驟2)與步驟3)得到的特征向量采用邏輯斯蒂回歸機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練學(xué)習(xí),獲得每個(gè)地點(diǎn)的可疑程度εl與兩個(gè)地點(diǎn)之間的競爭程度εc。
5)基于lbsn構(gòu)建馬爾科夫隨機(jī)場檢測模型,包含節(jié)點(diǎn)與邊,其中節(jié)點(diǎn)表示地點(diǎn),邊表示地點(diǎn)間競爭關(guān)系。所述節(jié)點(diǎn)包含兩種類別:可疑地點(diǎn)與可信地點(diǎn),在不同類別下設(shè)置節(jié)點(diǎn)屬于各類別的先驗(yàn)概率,通過步驟4)中地點(diǎn)的可疑程度獲得;所述邊包含邊連接的兩節(jié)點(diǎn)在不同類別下的關(guān)聯(lián)程度分布矩陣,關(guān)聯(lián)程度通過步驟4)中兩地點(diǎn)間競爭程度獲得。
6)根據(jù)步驟5)得到的檢測模型,對于節(jié)點(diǎn)vi到節(jié)點(diǎn)vj設(shè)置信息值
7)根據(jù)步驟6)獲得的節(jié)點(diǎn)置信度,最終對地點(diǎn)是否為存在虛假評論活動(dòng)的可疑地點(diǎn)進(jìn)行標(biāo)注。
所述步驟1)的數(shù)據(jù)集中虛假評論活動(dòng)地點(diǎn)標(biāo)注的具體方法為:根據(jù)lbsn網(wǎng)絡(luò)中自動(dòng)過濾的評論信息,選取被過濾評論比例高的部分地點(diǎn),人工標(biāo)注其中的虛假評論,將虛假評論比例高于一定閾值的地點(diǎn)標(biāo)注為存在虛假評論活動(dòng)的可疑地點(diǎn),隨機(jī)選取部分不存在被過濾評論的地點(diǎn)標(biāo)注為可信地點(diǎn)。
所述步驟2)中從不同維度提取數(shù)據(jù)集中任意地點(diǎn)l的整體評論異常特征具體方法包括:從評分差異維度提取地點(diǎn)的總體評分差異性osd(l),從時(shí)間維度提取地點(diǎn)的評論爆發(fā)性mrd(l),從時(shí)空維度提取地點(diǎn)的簽到周期分布差異性d(r||c)從評論文本維度提取地點(diǎn)的內(nèi)容相似性mcs(l)。
所述步驟3)中從不同維度提取數(shù)據(jù)集中存在競爭的兩地點(diǎn)lm,ln間的惡意競爭的異常特征具體方法包括:從評分差異維度提取兩競爭地點(diǎn)共同用戶的評論差異性urd(lm,ln),從時(shí)間維度提取兩競爭地點(diǎn)共同用戶的評論時(shí)間協(xié)同性ati(lm,ln),從評論文本維度提取兩競爭地點(diǎn)共同用戶的內(nèi)容相似性acs(lm,ln)。
所述步驟4)中基于邏輯斯蒂回歸機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練學(xué)習(xí)獲得每個(gè)地點(diǎn)的可疑程度與兩個(gè)地點(diǎn)之間的競爭程度的具體方法分為以下3個(gè)步驟:
a)根據(jù)地點(diǎn)的異常特征集構(gòu)造特征向量
b)根據(jù)地點(diǎn)間的競爭關(guān)系的異常特征集構(gòu)造特征向量
c)根據(jù)地點(diǎn)的異常特征與權(quán)重計(jì)算所有地點(diǎn)的異常程度εl,根據(jù)地點(diǎn)間競爭關(guān)系的異常特征與權(quán)重計(jì)算所有地點(diǎn)間競爭關(guān)系的異常程度εc,計(jì)算異常程度ε的具體方法為:
其中,
所述步驟6)中基于檢測模型將信息值
其中,ψi(σi)為步驟5)中獲得的節(jié)點(diǎn)在類別σi下的先驗(yàn)概率值,ψij(σi,σj)為節(jié)點(diǎn)vi與節(jié)點(diǎn)vj在各自類別σi,σj下的關(guān)聯(lián)程度值,
所述步驟6)中需要計(jì)算每個(gè)節(jié)點(diǎn)vi在類別σi下的置信度
其中,z2是標(biāo)準(zhǔn)化常量,目的是確保
本發(fā)明的有益效果為:本發(fā)明根據(jù)lbsn中地點(diǎn)的評論在評分、時(shí)間、空間和文本維度表現(xiàn)出的異常特征,提取地點(diǎn)的異常特征,基于邏輯斯蒂回歸機(jī)器學(xué)習(xí)方法對地點(diǎn)進(jìn)行分類,有效檢測存在虛假評論活動(dòng)的可疑地點(diǎn);引入地點(diǎn)間的競爭關(guān)系改進(jìn)檢測效果,提取地點(diǎn)間競爭的異常特征;融合地點(diǎn)自身的異常特征與地點(diǎn)間競爭的異常特征,共同作用于存在虛假評論活動(dòng)的可疑地點(diǎn)的檢測,提升檢測性能。具體地講,本發(fā)明具有如下優(yōu)點(diǎn):
1、利用lbsn中地點(diǎn)的評論在評分、時(shí)間、空間、文本維度表現(xiàn)出的異常特征,提取地點(diǎn)的異常特征,基于邏輯斯蒂回歸機(jī)器學(xué)習(xí)方法對地點(diǎn)進(jìn)行分類,有效檢測存在虛假評論活動(dòng)的可疑地點(diǎn);
2、引入地點(diǎn)間的競爭關(guān)系改進(jìn)檢測效果,提取地點(diǎn)間競爭的異常特征,深入挖掘可能存在虛假評論活動(dòng)的地點(diǎn);
3、融合地點(diǎn)自身的異常特征與地點(diǎn)間競爭的異常特征,共同作用于虛假評論活動(dòng)地點(diǎn)的檢測,提升檢測的準(zhǔn)確度。
附圖說明
圖1為本發(fā)明的異常特征提取流程圖。
圖2為本發(fā)明的虛假評論活動(dòng)地點(diǎn)檢測流程圖。
圖3為本發(fā)明的整體系統(tǒng)框架圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等同變換均落于本申請所附權(quán)利要求所限定的范圍。
參見圖1、圖2和圖3所示,本發(fā)明所述的lbsn中一種基于多維屬性挖掘的虛假評論可疑地點(diǎn)檢測方法,包括如下步驟:
步驟1:根據(jù)lbsn網(wǎng)絡(luò)中自動(dòng)過濾的評論信息,選取被過濾評論比例高的部分地點(diǎn),人工標(biāo)注其中的虛假評論,將虛假評論比例高于一定閾值的地點(diǎn)標(biāo)注為存在虛假評論活動(dòng)的可疑地點(diǎn),隨機(jī)選取部分不存在被過濾評論的地點(diǎn)標(biāo)注為可信地點(diǎn)。然后采用隨機(jī)抽取的方法按照4:1的比例將數(shù)據(jù)劃分為兩部分:s、t,其中s作為訓(xùn)練集,t作為測試集;
基于標(biāo)注出的可疑地點(diǎn),選取有共同的訪問評論用戶,間隔距離小于一定閾值并且地點(diǎn)的標(biāo)簽類別相似度大于一定閾值的地點(diǎn)對作為可能存在競爭關(guān)系的地點(diǎn)對候選集,基于人工標(biāo)注的方式標(biāo)注出候選集中存在惡意競爭導(dǎo)致虛假評論活動(dòng)的地點(diǎn)對作為競爭地點(diǎn)對,隨機(jī)選取候選集中無惡意競爭活動(dòng)的地點(diǎn)對作為無競爭地點(diǎn)對。然后采取隨機(jī)抽取的方法同樣按照4:1的比例將數(shù)據(jù)劃分為兩部分:s、t,其中s作為訓(xùn)練集,t作為測試集;
步驟2:針對存在虛假評論活動(dòng)的地點(diǎn)進(jìn)行分析,基于lbsn的評分、時(shí)間、空間、文本等多種維度提取數(shù)據(jù)集中任意地點(diǎn)l的異常特征進(jìn)行量化。
1)從評分差異維度提取地點(diǎn)l的總體評分差異性osd(l):
其中,t表示地點(diǎn)的某一條評論i∈rl的發(fā)布日期時(shí)刻,rl表示地點(diǎn)l的評論集合,ri(t)表示在t時(shí)刻評論i的評分,avgt’<tri(t’)表示t時(shí)刻之前地點(diǎn)l的平均評分,di表示評論ri(t)的評分與評論時(shí)刻前地點(diǎn)l的平均評分avgt’<tri(t’)之間的差異,
2)從時(shí)間維度提取地點(diǎn)l的評論爆發(fā)性mrd(l):
其中,n為一天內(nèi)地點(diǎn)l收到的評論數(shù),avg(n)為地點(diǎn)l在具有評論的天數(shù)內(nèi)的平均每日評論次數(shù),max(n)為地點(diǎn)l最大評論次數(shù),
3)從時(shí)空維度提取地點(diǎn)l的簽到周期分布差異性d(r||c):
其中,k∈{1,2,…,7}表示一周周期內(nèi)的一天,r表示地點(diǎn)l在一周周期內(nèi)評論分布向量,c表示地點(diǎn)l在一周周期內(nèi)簽到分布向量,
4)從評論文本維度提取地點(diǎn)l的內(nèi)容相似性mcs(l):
其中,將地點(diǎn)的所有評論文本作為語料空間,cosine(ri,rj)為對于地點(diǎn)l的任意兩條評論ri,rj基于tf-idf的文本余弦相似性。
5)通過提取的數(shù)據(jù)集中所有地點(diǎn)的特征值構(gòu)造地點(diǎn)的異常特征集
步驟3:針對地點(diǎn)間的競爭性進(jìn)行分析,基于lbsn的多種維度提取數(shù)據(jù)集中任意可能存在競爭的地點(diǎn)對lm,ln競爭的異常特征進(jìn)行量化。
1)從評分差異維度提取兩競爭地點(diǎn)lm,ln共同用戶的評論差異性urd(lm,ln):
urd(lm,ln)=avgi∈b|di|,di=ri(lm)-ri(ln)(5)
其中,地點(diǎn)lm與ln的共同評論用戶集合為u,ri(l)表示用戶i針對地點(diǎn)l的評分,di表示用戶i對于兩個(gè)競爭地點(diǎn)lm、ln的評分差異。
2)從時(shí)間維度提取兩競爭地點(diǎn)lm,ln共同用戶的評論時(shí)間協(xié)同性ati(lm,ln):
ati(lm,ln)=avgi∈b|ti(lm)-ti(ln)|(6)
其中,ti(l)表示用戶i針對地點(diǎn)l的評論時(shí)間,|ti(lm)-ti(ln)|表示用戶i對于兩個(gè)競爭地點(diǎn)lm、ln的評論時(shí)間間隔。
3)從評論文本維度提取兩競爭地點(diǎn)lm,ln共同用戶的內(nèi)容相似性acs(lm,ln):
其中,rb表示共同用戶集合u的針對于競爭地點(diǎn)的評論集合,將其作為語料空間,cosine(ri,rj)為共同用戶針對競爭地點(diǎn)發(fā)布的評論文本ri,rj之間的基于tf-idf的余弦相似性。
4)通過提取的數(shù)據(jù)集中所有可能存在競爭的地點(diǎn)對的特征值構(gòu)造地點(diǎn)間競爭的異常特征集
步驟4:將步驟2與步驟3得到的特征向量采用邏輯斯蒂回歸機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練學(xué)習(xí),獲得每個(gè)地點(diǎn)的可疑程度εl與兩個(gè)地點(diǎn)之間的競爭程度εc??梢沙潭扰c競爭程度的計(jì)算方法相同,以下以可疑程度εl的計(jì)算為例,主要包含以下步驟:
1)對于地點(diǎn)的異常特征集ψl,構(gòu)造該類的特征向量
2)為每一維特征設(shè)置權(quán)重%,對于特征向量
3)基于二項(xiàng)邏輯斯蒂回歸模型構(gòu)造表示地點(diǎn)的異常程度的程度函數(shù):
其中,εle[0,1],εl越接近于1表示地點(diǎn)l的異常程度越高。
4)基于構(gòu)造的地點(diǎn)的訓(xùn)練集采用梯度下降法對函數(shù)參數(shù)進(jìn)行學(xué)習(xí),學(xué)習(xí)得特征權(quán)向量
5)根據(jù)數(shù)據(jù)集中任意地點(diǎn)l的異常特征向量
步驟5:基于lbsn構(gòu)建馬爾科夫隨機(jī)場檢測模型的具體步驟分為以下3步:
1)基于lbsn與馬爾科夫隨機(jī)場構(gòu)建網(wǎng)絡(luò)g(v,e),其中,v是節(jié)點(diǎn)集合,e是地點(diǎn)-地點(diǎn)邊的集合,為步驟1中選取的可能存在競爭關(guān)系的地點(diǎn)對候選集合,表示地點(diǎn)間的競爭關(guān)系。
2)對于節(jié)點(diǎn)vm,設(shè)置
3)對于地點(diǎn)-地點(diǎn)邊e,設(shè)置
步驟6:根據(jù)步驟5得到的檢測模型,計(jì)算每個(gè)地點(diǎn)為存在虛假評論活動(dòng)的可疑地點(diǎn)的概率,具體包含以下步驟:
1)根據(jù)步驟5得到的檢測模型,設(shè)置模型中任意節(jié)點(diǎn)vi到節(jié)點(diǎn)vj信息值
其中,ψi(σi)為步驟5中獲得的節(jié)點(diǎn)在類別σi下的先驗(yàn)概率值,ψij(σi,σj)為節(jié)點(diǎn)vi與節(jié)點(diǎn)vj在各自類別σi,σj下的關(guān)聯(lián)程度值,
2)初始化所有信息值為1。
3)選取部分節(jié)點(diǎn)開始信息值迭代傳播,在此過程中將信息值不斷更新。
4)當(dāng)所有的信息值連續(xù)兩次更新的變化小于一定閾值時(shí),表示所有節(jié)點(diǎn)的類別分布情況達(dá)到穩(wěn)定狀態(tài),停止信息值傳遞。
5)計(jì)算每個(gè)節(jié)點(diǎn)vi在類別σi下的置信度
其中,z2是標(biāo)準(zhǔn)化常量,目的是確保
步驟7:根據(jù)步驟6獲得的任意節(jié)點(diǎn)vi在可疑地點(diǎn)類別σ下的置信度