一種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊方法和裝置制造方法
【專(zhuān)利摘要】一種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊方法和裝置,涉及計(jì)算機(jī)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】。為了更準(zhǔn)確的識(shí)別網(wǎng)絡(luò)活動(dòng)點(diǎn)擊量或者瀏覽數(shù)的異常,檢測(cè)互聯(lián)網(wǎng)網(wǎng)絡(luò)活動(dòng)作弊行為,利用多種監(jiān)測(cè)方案對(duì)單次網(wǎng)絡(luò)活動(dòng)進(jìn)行數(shù)據(jù)收集,獲得多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù);對(duì)所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為,將被判斷為屬于同一個(gè)網(wǎng)絡(luò)行為的所有監(jiān)測(cè)數(shù)據(jù)匯總為該網(wǎng)絡(luò)行為的日志記錄;對(duì)各網(wǎng)絡(luò)行為的所述日志記錄進(jìn)行作弊流量分析,獲得分析結(jié)果。本發(fā)明可以應(yīng)用于互聯(lián)網(wǎng)網(wǎng)絡(luò)活動(dòng)的反作弊監(jiān)測(cè)過(guò)程中,諸如互聯(lián)網(wǎng)廣告投放的反作弊監(jiān)控和網(wǎng)絡(luò)調(diào)研的反作弊監(jiān)測(cè),還可以是其他類(lèi)型網(wǎng)絡(luò)活動(dòng)的反作弊監(jiān)測(cè)。
【專(zhuān)利說(shuō)明】一種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及一種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊方法和裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)廣告投放活動(dòng)中,所有用戶(hù)參與到廣告活動(dòng)中的行為總量,例如總瀏覽數(shù)、總點(diǎn)擊數(shù)等等,是衡量廣告投放效果的基本指標(biāo)。這些指標(biāo)被媒體和廣告主廣泛用于廣告投放活動(dòng)的費(fèi)用結(jié)算。媒體能提供的最大瀏覽量、最大點(diǎn)擊量等指標(biāo)也直接體現(xiàn)了其投放廣告的能力。實(shí)際投放中,部分媒體可能會(huì)采用偽造非真實(shí)流量的方式來(lái)提高廣告主方監(jiān)測(cè)到的曝光數(shù)、點(diǎn)擊數(shù)等指標(biāo),從而達(dá)到從廣告主方獲取額外的收入或是夸大自己的廣告投放能力等目的。另一方面,這些偽造的虛假流量對(duì)于廣告主的利益有著惡劣的影響。例如當(dāng)廣告主和媒體按照廣告的曝光數(shù)來(lái)進(jìn)行結(jié)算時(shí),廣告主就必須為沒(méi)有任何廣告效果的虛假曝光花費(fèi)額外的預(yù)算。
[0003]非真實(shí)的虛假流量可以由多種方式產(chǎn)生。例如:利用病毒/木馬等惡意手段入侵普通互聯(lián)網(wǎng)電腦并控制這些電腦進(jìn)行額外的廣告瀏覽和點(diǎn)擊;利用腳本和軟件模擬正常用戶(hù)訪(fǎng)問(wèn)網(wǎng)站的行為;在網(wǎng)站中插入瀏覽器不可見(jiàn)的隱藏代碼來(lái)憑空產(chǎn)生額外流量等。針對(duì)這些作弊方式,現(xiàn)有的反作弊方法主要通過(guò)監(jiān)測(cè)瀏覽、點(diǎn)擊等網(wǎng)絡(luò)行為發(fā)生時(shí)的上下文信息來(lái)進(jìn)行異常流量的識(shí)別。例如,如果在很短的時(shí)間內(nèi)同一個(gè)IP地址發(fā)生了極頻繁的瀏覽/點(diǎn)擊,遠(yuǎn)遠(yuǎn)超出了正常用戶(hù)的上網(wǎng)頻率,那么就可以判斷這個(gè)IP地址存在作弊嫌疑。又例如,目前一種常見(jiàn)的作弊方式是在價(jià)格較低的廣告位上播放本來(lái)不應(yīng)該在這個(gè)位置上投放的高價(jià)廣告,即通過(guò)將低價(jià)廣告位的曝光偽裝高價(jià)廣告位的曝光獲利。針對(duì)這種作弊方式,反作弊系統(tǒng)通過(guò)監(jiān)測(cè)廣告曝光時(shí)的URL(統(tǒng)一資源定位符,Uniform Resource Locator),并跟投放計(jì)劃中購(gòu)買(mǎi)的廣告位置的資源信息進(jìn)行對(duì)比。
[0004]然而,當(dāng)作弊者獲知一個(gè)特定規(guī)則的反作弊技術(shù)實(shí)現(xiàn)手段后,其可以相應(yīng)地修改作弊方式使得作弊行為難以被識(shí)別。例如,當(dāng)作弊者知道反作弊方法使用URL比對(duì)來(lái)進(jìn)行作弊檢測(cè)時(shí),作弊者可通過(guò)技術(shù)手段將反作弊系統(tǒng)監(jiān)測(cè)到的URL偽裝成正常URL的手法以逃避作弊行為被反作弊系統(tǒng)捕獲。此時(shí),反作弊系統(tǒng)亦需要相應(yīng)地調(diào)整己方的技術(shù)手段才能重新識(shí)別出作弊者。因此,在實(shí)際中反作弊者和作弊者之間存在博弈關(guān)系。目前反作弊系統(tǒng)主要是通過(guò)監(jiān)測(cè)代碼、監(jiān)測(cè)腳本或客戶(hù)端來(lái)收集用戶(hù)上網(wǎng)過(guò)程中的行為數(shù)據(jù),再利用這些數(shù)據(jù)進(jìn)行作弊檢測(cè)。常見(jiàn)的反作弊系統(tǒng)的數(shù)據(jù)獲取方式較為固定,收集到的數(shù)據(jù)較為單一和有限。在持續(xù)使用較長(zhǎng)時(shí)間后,其方法就可能會(huì)被作弊者針對(duì)而導(dǎo)致反作弊能力的下降。
【發(fā)明內(nèi)容】
[0005]為了更準(zhǔn)確的識(shí)別網(wǎng)絡(luò)活動(dòng)點(diǎn)擊量或者瀏覽數(shù)的異常,檢測(cè)互聯(lián)網(wǎng)網(wǎng)絡(luò)活動(dòng)作弊行為,本發(fā)明提出一種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊方法和裝置。
[0006]為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊方法,包括:
[0007]A、利用多種監(jiān)測(cè)方案對(duì)單次網(wǎng)絡(luò)活動(dòng)進(jìn)行數(shù)據(jù)收集,獲得多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù);
[0008]B、對(duì)所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為,將被判斷為屬于同一個(gè)網(wǎng)絡(luò)行為的所有監(jiān)測(cè)數(shù)據(jù)匯總為該網(wǎng)絡(luò)行為的日志記錄;
[0009]C、對(duì)各網(wǎng)絡(luò)行為的所述日志記錄進(jìn)行作弊流量分析,獲得分析結(jié)果。
[0010]進(jìn)一步地,所述多種監(jiān)測(cè)方案包括在網(wǎng)絡(luò)行為發(fā)生的網(wǎng)頁(yè)框架中直接嵌入代碼、在訪(fǎng)問(wèn)頁(yè)面中的Flash動(dòng)畫(huà)或JavaScript腳本中嵌入代碼、在用戶(hù)機(jī)上安裝瀏覽器插件或客戶(hù)端軟件。
[0011]進(jìn)一步地,對(duì)所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為的步驟包括:
[0012]B1、將監(jiān)測(cè)數(shù)據(jù)的字段分為一個(gè)或者多個(gè)精確匹配字段,或者將監(jiān)測(cè)數(shù)據(jù)的字段分為一個(gè)或者多個(gè)精確匹配字段和一個(gè)或者多個(gè)模糊匹配字段;
[0013]B2、將多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)按字段進(jìn)行兩兩比對(duì);
[0014]對(duì)于精確匹配字段進(jìn)行比對(duì)時(shí),當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段有一個(gè)或者多個(gè)不相同時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0015]對(duì)于模糊匹配字段進(jìn)行比對(duì)時(shí),當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述模糊匹配字段有一個(gè)或者多個(gè)差距大于該字段的模糊閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0016]對(duì)于所有精確匹配字段都相同,并且所有模糊匹配字段的差距都小于模糊閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)屬于同一個(gè)網(wǎng)絡(luò)行為。
[0017]或者
[0018]bl、將監(jiān)測(cè)數(shù)據(jù)的字段分為一個(gè)或者多個(gè)精確匹配字段,或者將監(jiān)測(cè)數(shù)據(jù)的字段分為一個(gè)或者多個(gè)精確匹配字段和一個(gè)或者多個(gè)模糊匹配字段;
[0019]b2、將多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行兩兩比對(duì);
[0020]對(duì)于精確匹配字段進(jìn)行比對(duì)時(shí),當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段相同時(shí),則將該字段的匹配度置為1,當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段不相同時(shí),則將該字段的匹配度置為O ;
[0021]對(duì)于模糊匹配字段進(jìn)行比對(duì)時(shí),按照模糊匹配字段的差距將該字段的匹配度置為O到I的數(shù)值;并將所有模糊匹配字段的匹配度相加,獲得總匹配度;
[0022]當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段有一個(gè)或者多個(gè)匹配度為O時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0023]當(dāng)模糊匹配字段總匹配度小于匹配閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0024]當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段匹配度均為1,且模糊匹配字段總匹配度大于匹配閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)屬于同一個(gè)網(wǎng)絡(luò)行為。
[0025]進(jìn)一步地,精確匹配字段包括網(wǎng)絡(luò)行為發(fā)生的用戶(hù)機(jī)的身份標(biāo)識(shí)ID,模糊匹配字段包括統(tǒng)一資源定位符URL、網(wǎng)絡(luò)行為發(fā)生時(shí)間Time,網(wǎng)絡(luò)行為發(fā)送的用戶(hù)機(jī)的協(xié)議地址IP,網(wǎng)絡(luò)行為發(fā)生的用戶(hù)機(jī)的瀏覽器Browser,網(wǎng)絡(luò)行為發(fā)生的用戶(hù)機(jī)的操作系統(tǒng)OS。
[0026]進(jìn)一步地,作弊流量分析包括:監(jiān)測(cè)所述網(wǎng)絡(luò)行為日志記錄中多組監(jiān)測(cè)數(shù)據(jù)中的同一監(jiān)測(cè)參數(shù)的不匹配程度來(lái)識(shí)別偽造的數(shù)據(jù)。
[0027]進(jìn)一步地,步驟C的分析結(jié)果包括所有日志記錄中作弊流量的百分比和作弊流量的數(shù)據(jù)源。
[0028]為了解決上述技術(shù)問(wèn)題,本發(fā)明還提供了一種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊裝置,包括:多個(gè)數(shù)據(jù)采集模塊、匹配模塊和分析模塊,
[0029]所述數(shù)據(jù)采集模塊,用于利用監(jiān)測(cè)方案對(duì)單次網(wǎng)絡(luò)活動(dòng)進(jìn)行數(shù)據(jù)收集,獲得監(jiān)測(cè)數(shù)據(jù);
[0030]所述匹配模塊,用于對(duì)多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為,將被判斷為屬于同一個(gè)網(wǎng)絡(luò)行為的所有監(jiān)測(cè)數(shù)據(jù)匯總為一項(xiàng)日志記錄;
[0031]所述分析模塊,用于對(duì)所述日志記錄進(jìn)行作弊流量分析,獲得分析結(jié)果。
[0032]進(jìn)一步地,所述匹配模塊包括精確匹配模塊、模糊匹配模塊和判斷模塊;
[0033]所述精確匹配模塊,用于對(duì)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的精確匹配字段進(jìn)行比對(duì),并獲得精確比對(duì)結(jié)果;
[0034]所述模糊匹配模塊,用于對(duì)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的模糊匹配字段進(jìn)行比對(duì),并獲得模糊比對(duì)結(jié)果;
[0035]所述判斷模塊,用于根據(jù)精確比對(duì)結(jié)果和模糊比對(duì)結(jié)果,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為。
[0036]進(jìn)一步地,判斷模塊的判斷依據(jù)為:
[0037]當(dāng)有一個(gè)或者多個(gè)精確比對(duì)結(jié)果不相同時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0038]當(dāng)有一個(gè)或者多個(gè)模糊匹配字段的差距大于該字段的模糊閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0039]當(dāng)所有精確匹配字段都相同,并且所有模糊匹配字段的差距都小于模糊閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)屬于同一個(gè)網(wǎng)絡(luò)行為;
[0040]或者,
[0041]當(dāng)有一個(gè)或者多個(gè)精確比對(duì)結(jié)果不相同時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0042]當(dāng)模糊比對(duì)結(jié)果總匹配度小于匹配閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0043]當(dāng)所有精確匹配字段都相同,且模糊比對(duì)結(jié)果總匹配度大于匹配閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)屬于同一個(gè)網(wǎng)絡(luò)行為。
[0044]與現(xiàn)有技術(shù)相比,本發(fā)明通過(guò)對(duì)單次網(wǎng)絡(luò)活動(dòng)同時(shí)進(jìn)行多次數(shù)據(jù)收集,得到多個(gè)獨(dú)立的監(jiān)測(cè)數(shù)據(jù)。并將多個(gè)數(shù)據(jù)源中的獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配和比對(duì),得到單次互聯(lián)網(wǎng)網(wǎng)絡(luò)活動(dòng)的一組日志記錄,并通過(guò)比較這些記錄識(shí)別網(wǎng)絡(luò)活動(dòng)行為的異常,更精確地識(shí)別出涉及作弊的網(wǎng)絡(luò)行為。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0045]圖1為本發(fā)明實(shí)施例的互聯(lián)網(wǎng)監(jiān)測(cè)反作弊裝置的結(jié)構(gòu)示意圖;
[0046]圖2為本發(fā)明實(shí)施例的互聯(lián)網(wǎng)監(jiān)測(cè)反作弊方法的流程圖;
[0047]圖3為本發(fā)明實(shí)施例一的互聯(lián)網(wǎng)監(jiān)測(cè)反作弊過(guò)程的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0048]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下文中將結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說(shuō)明。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互任意組合。
[0049]本發(fā)明實(shí)施例提出了一種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊方法,包括:
[0050]A、利用多種監(jiān)測(cè)方案對(duì)單次網(wǎng)絡(luò)活動(dòng)進(jìn)行數(shù)據(jù)收集,獲得多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù);
[0051]B、對(duì)所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為,將被判斷為屬于同一個(gè)網(wǎng)絡(luò)行為的所有監(jiān)測(cè)數(shù)據(jù)匯總為一項(xiàng)日志記錄;
[0052]C、對(duì)所述日志記錄進(jìn)行作弊流量分析,獲得分析結(jié)果。
[0053]本發(fā)明實(shí)施例提出了一種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊裝置,其特征在于,包括:多個(gè)數(shù)據(jù)采集模塊、匹配模塊和分析模塊,
[0054]所述數(shù)據(jù)采集模塊,用于利用監(jiān)測(cè)方案對(duì)單次網(wǎng)絡(luò)活動(dòng)進(jìn)行數(shù)據(jù)收集,獲得監(jiān)測(cè)數(shù)據(jù);其中多個(gè)數(shù)據(jù)采集模塊的監(jiān)測(cè)方案可以相同,也可以不同;
[0055]所述匹配模塊,用于對(duì)多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為,將被判斷為屬于同一個(gè)網(wǎng)絡(luò)行為的所有監(jiān)測(cè)數(shù)據(jù)匯總為一項(xiàng)日志記錄;
[0056]所述分析模塊,用于對(duì)所述日志記錄進(jìn)行作弊流量分析,獲得分析結(jié)果。
[0057]對(duì)于互聯(lián)網(wǎng)用戶(hù)的每一次網(wǎng)絡(luò)行為(如瀏覽/點(diǎn)擊等),使用多個(gè)數(shù)據(jù)采集模塊來(lái)收集此網(wǎng)絡(luò)行為的信息。目前有多種監(jiān)測(cè)方案可進(jìn)行網(wǎng)絡(luò)行為監(jiān)測(cè),包括在網(wǎng)絡(luò)行為發(fā)生的網(wǎng)頁(yè)框架中嵌入代碼,在訪(fǎng)問(wèn)頁(yè)面中的Flash動(dòng)畫(huà)或Javascript腳本中嵌入代碼,在用戶(hù)機(jī)上安裝瀏覽器插件或客戶(hù)端等。不同的監(jiān)測(cè)方案在權(quán)限和職責(zé)上有所不同,因此不同數(shù)據(jù)采集模塊能收集到的監(jiān)測(cè)數(shù)據(jù)也有所區(qū)別。每一次監(jiān)測(cè)產(chǎn)生一組記錄了當(dāng)次網(wǎng)絡(luò)行為相關(guān)信息的監(jiān)測(cè)數(shù)據(jù),監(jiān)測(cè)數(shù)據(jù)中包含一個(gè)或多個(gè)信息字段,如:統(tǒng)一用戶(hù)機(jī)ID、行為時(shí)間、被訪(fǎng)URL等等。在獲取到了監(jiān)測(cè)數(shù)據(jù)后,將監(jiān)測(cè)數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳輸?shù)椒?wù)器進(jìn)行存儲(chǔ)。
[0058]本發(fā)明可以應(yīng)用于互聯(lián)網(wǎng)網(wǎng)絡(luò)活動(dòng)的反作弊監(jiān)測(cè)過(guò)程中,諸如互聯(lián)網(wǎng)廣告投放的反作弊監(jiān)控和網(wǎng)絡(luò)調(diào)研的反作弊監(jiān)測(cè),還可以是其他類(lèi)型網(wǎng)絡(luò)活動(dòng)的反作弊監(jiān)測(cè)。
[0059]本發(fā)明的反作弊方法和裝置同時(shí)采用多種不同的監(jiān)測(cè)方案進(jìn)行數(shù)據(jù)收集,也可以從其他監(jiān)測(cè)數(shù)據(jù)提供商處獲取更多數(shù)據(jù)。必須指出的是,不同監(jiān)測(cè)方案能獲取到的字段并不完全相同,例如用戶(hù)瀏覽網(wǎng)頁(yè)的URL地址在權(quán)限較低的監(jiān)測(cè)方案中(例如在Flash中嵌入代碼的方案)可能無(wú)法獲取。此外,不同數(shù)據(jù)源的同一字段之間也可能存在區(qū)別。例如:用戶(hù)訪(fǎng)問(wèn)一個(gè)網(wǎng)頁(yè)時(shí),位于網(wǎng)頁(yè)不同位置的不同監(jiān)測(cè)代碼的運(yùn)行時(shí)間可能存在差異,所以在不同的數(shù)據(jù)采集模塊中記錄到的行為時(shí)間也可能會(huì)存在差異。
[0060]通常情況下,數(shù)據(jù)供應(yīng)商需為每個(gè)互聯(lián)網(wǎng)用戶(hù)維護(hù)一個(gè)唯一的用戶(hù)機(jī)ID以識(shí)別出來(lái)自同一個(gè)用戶(hù)的多次不同的網(wǎng)絡(luò)行為。為了識(shí)別出不同供應(yīng)商的數(shù)據(jù)之間的關(guān)聯(lián)性,在多數(shù)據(jù)源反作弊系統(tǒng)中除供應(yīng)商自己的用戶(hù)機(jī)ID外,還需額外為各個(gè)供應(yīng)商提供一個(gè)統(tǒng)一的用戶(hù)機(jī)ID。這個(gè)統(tǒng)一的用戶(hù)機(jī)ID可以通過(guò)讓數(shù)據(jù)供應(yīng)商從Cookie (瀏覽器Cookie或Flash Cookie)中的固定位置讀取用戶(hù)信息來(lái)實(shí)現(xiàn)。為了保證所有的供應(yīng)商獲取到的Cookie ID之間的一致性,統(tǒng)一的Cookie ID由第三方服務(wù)器進(jìn)行統(tǒng)一分配和管理。
[0061]統(tǒng)一的Cookie ID使得不同的數(shù)據(jù)提供商無(wú)需采用同一批服務(wù)器進(jìn)行數(shù)據(jù)存儲(chǔ),各供應(yīng)商可采用獨(dú)立的技術(shù)方案存儲(chǔ)自己的監(jiān)測(cè)數(shù)據(jù)。
[0062]各數(shù)據(jù)采集模塊收集各自的監(jiān)測(cè)數(shù)據(jù)后,將各自存儲(chǔ)的監(jiān)測(cè)數(shù)據(jù)匯總到服務(wù)器進(jìn)行多數(shù)據(jù)源數(shù)據(jù)匯總:
[0063]其中,數(shù)據(jù)采集模塊和匯總服務(wù)器之間可采用多種技術(shù)方案實(shí)現(xiàn)數(shù)據(jù)傳輸。一種方式是每個(gè)數(shù)據(jù)采集模塊收集一定數(shù)量的監(jiān)測(cè)數(shù)據(jù)后,統(tǒng)一通過(guò)互聯(lián)網(wǎng)或其他途徑將監(jiān)測(cè)數(shù)據(jù)傳輸給匯總服務(wù)器;另一種方式是各個(gè)數(shù)據(jù)采集模塊獲取到任何一條監(jiān)測(cè)數(shù)據(jù)時(shí),直接將此條監(jiān)測(cè)數(shù)據(jù)同步推送給匯總服務(wù)器。
[0064]考慮到多個(gè)數(shù)據(jù)源帶來(lái)的巨大數(shù)據(jù)量,匯總服務(wù)器上的數(shù)據(jù)可進(jìn)行分布式存儲(chǔ)以解決海量數(shù)據(jù)存儲(chǔ)問(wèn)題。一種可行的技術(shù)方案是按照監(jiān)測(cè)數(shù)據(jù)時(shí)間來(lái)進(jìn)行分布式存儲(chǔ):將同一時(shí)間段內(nèi)(例如同一天內(nèi))所有數(shù)據(jù)源的監(jiān)測(cè)數(shù)據(jù)傳輸?shù)酵慌_(tái)服務(wù)器上存儲(chǔ);將不同時(shí)間段的監(jiān)測(cè)數(shù)據(jù)傳輸?shù)讲煌姆?wù)器上存儲(chǔ)。
[0065]將同一次網(wǎng)絡(luò)行為在不同的數(shù)據(jù)采集模塊形成的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,盡可能地還原出此次網(wǎng)絡(luò)行為的全部相關(guān)信息??紤]到監(jiān)測(cè)手段的區(qū)別會(huì)導(dǎo)致不同數(shù)據(jù)采集模塊的監(jiān)測(cè)數(shù)據(jù)在同一字段上存在分歧,本發(fā)明的一種實(shí)施方式中將監(jiān)測(cè)數(shù)據(jù)的字段分為了精確匹配字段和模糊匹配字段這兩種,在其他實(shí)施例中精確匹配字段是必需包括的字段,模糊匹配字段是可選的字段,即監(jiān)測(cè)數(shù)據(jù)中一定包括精確匹配字段,不一定包括模糊匹配字段。
[0066]精確匹配字段指的是:對(duì)于一個(gè)字段而言,如果兩條監(jiān)測(cè)數(shù)據(jù)的此字段不一樣,那么認(rèn)為這兩條監(jiān)測(cè)數(shù)據(jù)不是描述的同一網(wǎng)絡(luò)行為。例如統(tǒng)一用戶(hù)機(jī)ID,由于所有的數(shù)據(jù)采集模塊都讀取一個(gè)唯一的統(tǒng)一用戶(hù)機(jī)ID,所以當(dāng)這個(gè)唯一的ID匹配不上時(shí),則可直接認(rèn)為兩條監(jiān)測(cè)數(shù)據(jù)不可能是同一次網(wǎng)絡(luò)行為產(chǎn)生的。除統(tǒng)一用戶(hù)機(jī)ID外,在其他實(shí)施例中精確匹配字段可以為其他的字段。
[0067]模糊匹配字段指的是:對(duì)于一個(gè)字段而言,兩條匹配上的監(jiān)測(cè)數(shù)據(jù)在此字段上可以不完全一致,例如網(wǎng)絡(luò)行為發(fā)生時(shí)間。由于網(wǎng)頁(yè)加載過(guò)程的時(shí)間消耗和網(wǎng)絡(luò)傳輸?shù)难舆t,同一次網(wǎng)絡(luò)行為在不同的數(shù)據(jù)采集模塊中的采集到時(shí)間可能不完全一致。這是因?yàn)椴煌拇a、腳本、客戶(hù)端可能在網(wǎng)頁(yè)從打開(kāi)到加載完畢的過(guò)程中的不同時(shí)間觸發(fā),它們記錄下來(lái)的網(wǎng)絡(luò)行為的時(shí)間并不一定完全一樣。針對(duì)這種情況,在進(jìn)行監(jiān)測(cè)數(shù)據(jù)匹配的時(shí)候,并不要求兩條匹配的監(jiān)測(cè)數(shù)據(jù)中記錄的時(shí)間完全一致,只需要兩個(gè)時(shí)間之間的差距在一定的范圍之內(nèi)即可。除網(wǎng)絡(luò)行為發(fā)生時(shí)間外,在其他實(shí)施例中模糊匹配字段可以為其他的字段。
[0068]對(duì)于精確匹配字段進(jìn)行比對(duì)時(shí),當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段有一個(gè)或者多個(gè)不相同時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0069]對(duì)于模糊匹配字段進(jìn)行比對(duì)時(shí),當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述模糊匹配字段有一個(gè)或者多個(gè)差距大于模糊閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0070]對(duì)于所有精確匹配字段都相同,并且所有模糊匹配字段的差距都小于模糊閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)屬于同一個(gè)網(wǎng)絡(luò)行為。
[0071]或者
[0072]對(duì)于精確匹配字段進(jìn)行比對(duì)時(shí),當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段的相同時(shí),則將該字段的匹配度置為1,當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段的不相同時(shí),則將該字段的匹配度置為O ;
[0073]對(duì)于模糊匹配字段進(jìn)行比對(duì)時(shí),按照模糊匹配字段的差距將該字段的匹配度置為O到I的數(shù)值;并將所有模糊匹配字段的匹配度相加,獲得總匹配度;
[0074]當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段有一個(gè)或者多個(gè)匹配度為O時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;也即只要有任何一個(gè)精確匹配字段為0,則數(shù)據(jù)就會(huì)被判斷為不同網(wǎng)絡(luò)行為。
[0075]當(dāng)模糊匹配字段總匹配度小于匹配閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
[0076]當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段匹配度均為1,且模糊匹配字段總匹配度大于匹配閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)屬于同一個(gè)網(wǎng)絡(luò)行為。
[0077]在實(shí)際應(yīng)用過(guò)程中,由于網(wǎng)絡(luò)原因和特定監(jiān)測(cè)方案的訪(fǎng)問(wèn)權(quán)限等限制,并非所有的數(shù)據(jù)采集模塊都能獲取到網(wǎng)絡(luò)行為的所有相關(guān)信息。在獲取不到相關(guān)信息時(shí),監(jiān)測(cè)數(shù)據(jù)中會(huì)存在部分字段為空的情況。對(duì)于這種字段為空的情況,也可以采用模糊匹配的方式來(lái)處理。
[0078]精確匹配字段包括網(wǎng)絡(luò)行為發(fā)生的用戶(hù)機(jī)的身份標(biāo)識(shí)ID,模糊匹配字段包括統(tǒng)一資源定位符URL、網(wǎng)絡(luò)行為發(fā)生時(shí)間Time,網(wǎng)絡(luò)行為發(fā)送的用戶(hù)機(jī)的協(xié)議地址IP,網(wǎng)絡(luò)行為的用戶(hù)機(jī)的瀏覽器Browser,網(wǎng)絡(luò)行為發(fā)生的用戶(hù)機(jī)的操作系統(tǒng)OS。
[0079]精確匹配字段和模糊匹配字段可有更多參數(shù)和指標(biāo),這里僅僅舉例說(shuō)明。
[0080]對(duì)于多個(gè)不同的字段進(jìn)行匹配度計(jì)算,并用最后的總匹配度來(lái)判斷匹配是否成功。在本實(shí)施例的方案中,采用了如表I所示的字段進(jìn)行匹配:
[0081]表I
[0082]
【權(quán)利要求】
1.一種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊方法,其特征在于,包括: A、利用多種監(jiān)測(cè)方案對(duì)單次網(wǎng)絡(luò)活動(dòng)進(jìn)行數(shù)據(jù)收集,獲得多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù); B、對(duì)所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為,將被判斷為屬于同一個(gè)網(wǎng)絡(luò)行為的所有監(jiān)測(cè)數(shù)據(jù)匯總為該網(wǎng)絡(luò)行為的日志記錄; C、對(duì)各網(wǎng)絡(luò)行為的所述日志記錄進(jìn)行作弊流量分析,獲得分析結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于:所述多種監(jiān)測(cè)方案包括在網(wǎng)絡(luò)行為發(fā)生的網(wǎng)頁(yè)框架中直接嵌入代碼、在訪(fǎng)問(wèn)頁(yè)面中的Flash動(dòng)畫(huà)或JavaScript腳本中嵌入代碼、在用戶(hù)機(jī)上安裝瀏覽器插件或客戶(hù)端軟件。
3.如權(quán)利要求1所述的方法,其特征在于:對(duì)所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為的步驟包括: B1、將監(jiān)測(cè)數(shù)據(jù)的字段分為一個(gè)或者多個(gè)精確匹配字段,或者將監(jiān)測(cè)數(shù)據(jù)的字段分為一個(gè)或者多個(gè)精確匹配字段和一個(gè)或者多個(gè)模糊匹配字段; B2、將多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)按字段進(jìn)行兩兩比對(duì); 對(duì)于精確匹配字段進(jìn)行比對(duì)時(shí),當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段有一個(gè)或者多個(gè)不相同時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為; 對(duì)于模糊匹配字段進(jìn)行比對(duì)時(shí),當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述模糊匹配字段有一個(gè)或者多個(gè)差距大于該字段的模糊閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為;
對(duì)于所有精確匹配字段都相同,并且所有模糊匹配字段的差距都小于模糊閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)屬于同一個(gè)網(wǎng)絡(luò)行為。
4.如權(quán)利要求1所述的方法,其特征在于:對(duì)所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為的步驟包括: bl、將監(jiān)測(cè)數(shù)據(jù)的字段分為一個(gè)或者多個(gè)精確匹配字段,或者將監(jiān)測(cè)數(shù)據(jù)的字段分為一個(gè)或者多個(gè)精確匹配字段和一個(gè)或者多個(gè)模糊匹配字段; b2、將多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行兩兩比對(duì); 對(duì)于精確匹配字段進(jìn)行比對(duì)時(shí),當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段相同時(shí),則將該字段的匹配度置為1,當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段不相同時(shí),則將該字段的匹配度置為O ; 對(duì)于模糊匹配字段進(jìn)行比對(duì)時(shí),按照模糊匹配字段的差距將該字段的匹配度置為O到I的數(shù)值;并將所有模糊匹配字段的匹配度相加,獲得總匹配度; 當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段有一個(gè)或者多個(gè)匹配度為O時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為; 當(dāng)模糊匹配字段總匹配度小于匹配閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為; 當(dāng)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的所述精確匹配字段匹配度均為1,且模糊匹配字段總匹配度大于匹配閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)屬于同一個(gè)網(wǎng)絡(luò)行為。
5.如權(quán)利要求3或4所述的方法,其特征在于:精確匹配字段包括網(wǎng)絡(luò)行為發(fā)生的用戶(hù)機(jī)的身份標(biāo)識(shí)ID,模糊匹配字段包括統(tǒng)一資源定位符URL、網(wǎng)絡(luò)行為發(fā)生時(shí)間Time,網(wǎng)絡(luò)行為發(fā)送的用戶(hù)機(jī)的協(xié)議地址IP,網(wǎng)絡(luò)行為發(fā)生的用戶(hù)機(jī)的瀏覽器Browser,網(wǎng)絡(luò)行為發(fā)生的用戶(hù)機(jī)的操作系統(tǒng)OS。
6.如權(quán)利要求1所述的方法,其特征在于:作弊流量分析包括:監(jiān)測(cè)所述網(wǎng)絡(luò)行為日志記錄中多組監(jiān)測(cè)數(shù)據(jù)中的同一監(jiān)測(cè)參數(shù)的不匹配程度來(lái)識(shí)別偽造的數(shù)據(jù)。
7.如權(quán)利要求1所述的方法,其特征在于:步驟C的分析結(jié)果包括所有日志記錄中作弊流量的百分比和作弊流量的數(shù)據(jù)源。
8.—種互聯(lián)網(wǎng)監(jiān)測(cè)反作弊裝置,其特征在于,包括:多個(gè)數(shù)據(jù)采集模塊、匹配模塊和分析模塊, 所述數(shù)據(jù)采集模塊,用于利用監(jiān)測(cè)方案對(duì)單次網(wǎng)絡(luò)活動(dòng)進(jìn)行數(shù)據(jù)收集,獲得監(jiān)測(cè)數(shù)據(jù); 所述匹配模塊,用于對(duì)多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)進(jìn)行匹配,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為,將被判斷為屬于同一個(gè)網(wǎng)絡(luò)行為的所有監(jiān)測(cè)數(shù)據(jù)匯總為一項(xiàng)日志記錄; 所述分析模塊,用于對(duì)所述日志記錄進(jìn)行作弊流量分析,獲得分析結(jié)果。
9.如權(quán)利要求8所述的裝置,其特征在于:所述匹配模塊包括精確匹配模塊、模糊匹配模塊和判斷模塊; 所述精確匹配模塊,用于對(duì)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的精確匹配字段進(jìn)行比對(duì),并獲得精確比對(duì)結(jié)果; 所述模糊匹配模塊,用于對(duì)兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)的模糊匹配字段進(jìn)行比對(duì),并獲得模糊比對(duì)結(jié)果; 所述判斷模塊,用于根據(jù)精確比對(duì)結(jié)果和模糊比對(duì)結(jié)果,判斷所述多組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)是否屬于同一個(gè)網(wǎng)絡(luò)行為。
10.如權(quán)利要求9所述的裝置,其特征在于:判斷模塊的判斷依據(jù)為: 當(dāng)有一個(gè)或者多個(gè)精確比對(duì)結(jié)果不相同時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為; 當(dāng)有一個(gè)或者多個(gè)模糊匹配字段的差距大于該字段的模糊閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為; 當(dāng)所有精確匹配字段都相同,并且所有模糊匹配字段的差距都小于模糊閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)屬于同一個(gè)網(wǎng)絡(luò)行為; 或者, 當(dāng)有一個(gè)或者多個(gè)精確比對(duì)結(jié)果不相同時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為; 當(dāng)模糊比對(duì)結(jié)果總匹配度小于匹配閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)不屬于同一個(gè)網(wǎng)絡(luò)行為; 當(dāng)所有精確匹配字段都相同,且模糊比對(duì)結(jié)果總匹配度大于匹配閾值時(shí),則判斷所述兩組獨(dú)立的監(jiān)測(cè)數(shù)據(jù)屬于同一個(gè)網(wǎng)絡(luò)行為。
【文檔編號(hào)】G06F17/30GK104050178SQ201310079359
【公開(kāi)日】2014年9月17日 申請(qǐng)日期:2013年3月13日 優(yōu)先權(quán)日:2013年3月13日
【發(fā)明者】歐陽(yáng)佑, 費(fèi)浩峻, 馮是聰, 吳明輝 申請(qǐng)人:北京思博途信息技術(shù)有限公司