網(wǎng)站異常數(shù)據(jù)的識別方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)站異常數(shù)據(jù)的識別方法及裝置。其中,該方法包括:在通過每個網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁之后,獲取每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間;分別對每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成每個網(wǎng)絡(luò)渠道的波動值;對各個網(wǎng)絡(luò)渠道的波動值進行篩選處理,得到產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道。通過本發(fā)明,能夠提高確定發(fā)生異常流量數(shù)據(jù)的網(wǎng)絡(luò)渠道的效率、減少了人力成本且準確性較好。
【專利說明】網(wǎng)站異常數(shù)據(jù)的識別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種網(wǎng)站異常數(shù)據(jù)的識別方法及
裝直。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)民數(shù)量的急劇增加,互聯(lián)網(wǎng)日益成為人們生活中最重要的媒體,互聯(lián)網(wǎng)媒體數(shù)據(jù)的推廣隨之快速發(fā)展。媒體數(shù)據(jù)(例如廣告)的推手越來越重視互聯(lián)網(wǎng)媒體的廣告投放,因為相對于傳統(tǒng)廣告,網(wǎng)絡(luò)廣告具有覆蓋率廣,精準度高,形式多樣化的優(yōu)點,而且可以借助于技術(shù)手段來實現(xiàn)智能化精準營銷,通過對網(wǎng)民數(shù)據(jù)的追蹤、挖掘、分析,可以對受眾群體進行時間、地域、頻次、興趣、人口特征等方面的精準定向。網(wǎng)絡(luò)廣告在發(fā)行傳播上的成本優(yōu)勢。相對于傳統(tǒng)的紙質(zhì)廣告,網(wǎng)絡(luò)廣告在其傳播過程中不需要任何其他材料等造成的成本問題,而且制作也相對方便快捷。同時相比較于電視廣告,網(wǎng)絡(luò)廣告費用將會優(yōu)惠很多,同時效果也很突出。
[0003]互聯(lián)網(wǎng)的先進技術(shù)在給網(wǎng)絡(luò)廣告諸多優(yōu)點的同時,也帶來一些負面影響,點擊作弊便是其中之一,點擊作弊是伴著互聯(lián)網(wǎng)的普及發(fā)展起來的,早期主要表現(xiàn)在通過一些自動運行的程序來“提高”網(wǎng)站的訪問量,現(xiàn)在則是針對一些提供點擊付費的廣告網(wǎng)站,成為“網(wǎng)絡(luò)賺錢”的手段。
[0004]對于廣告主而言,如果某個廣告渠道存在點擊作弊,那就會造成該渠道的表面效果看起來很好,而實際真正有效的用戶點擊很少,如果該渠道是按點擊付費,那就會造成廣告花費的巨大損失。即使不是按點擊付費,而是包天或包月結(jié)算,那這種虛假的營銷效果,從長期來看也是對廣告主營銷費用的浪費。
[0005]目前通常采用人工判斷的方法進行異常流量數(shù)據(jù)的分析,主要依靠的是個人經(jīng)驗和判斷,由于數(shù)據(jù)量大,指標較多,很難快速的發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的異常情況,而且找到了異常數(shù)據(jù),也沒有非常有力的科學(xué)依據(jù)做支撐。
[0006]目前針對相關(guān)技術(shù)的通過人工來確定網(wǎng)絡(luò)渠道發(fā)生異常流量數(shù)據(jù)的方案效率低、準確性差的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0007]針對相關(guān)技術(shù)的通過人工來確定網(wǎng)絡(luò)渠道發(fā)生異常流量數(shù)據(jù)的方案效率低、準確性差的問題,目前尚未提出有效的解決方案,為此,本發(fā)明的主要目的在于提供一種網(wǎng)站異常數(shù)據(jù)的識別方法及裝置,以解決上述問題。
[0008]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)站異常數(shù)據(jù)的識別方法,該方法包括:在通過每個網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁之后,獲取每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間;分別對每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成每個網(wǎng)絡(luò)渠道的波動值;對各個網(wǎng)絡(luò)渠道的波動值進行篩選處理,得到產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道。
[0009]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)站異常數(shù)據(jù)的識別裝置,該裝置包括:獲取模塊,用于在通過每個網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁之后,獲取每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間;處理模塊,用于分別對每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成每個網(wǎng)絡(luò)渠道的波動值;篩選模塊,用于對各個網(wǎng)絡(luò)渠道的波動值進行篩選處理,得到產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道。
[0010]通過本發(fā)明,采用在通過每個網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁之后,獲取每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間;分別對每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成每個網(wǎng)絡(luò)渠道的波動值;對各個網(wǎng)絡(luò)渠道的波動值進行篩選處理,得到產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道,解決了相關(guān)技術(shù)的通過人工來確定網(wǎng)絡(luò)渠道發(fā)生異常流量數(shù)據(jù)的方案效率低、準確性差的問題,進而實現(xiàn)了提高確定發(fā)生異常流量數(shù)據(jù)的網(wǎng)絡(luò)渠道的效率、減少了人力成本且準確性較好的效果。
【專利附圖】
【附圖說明】
[0011]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0012]圖1是根據(jù)本發(fā)明實施例的網(wǎng)站異常數(shù)據(jù)的識別方法的流程示意圖;
[0013]圖2是根據(jù)本發(fā)明實施例的網(wǎng)站異常數(shù)據(jù)的識別方法的詳細流程示意;以及
[0014]圖3是根據(jù)本發(fā)明實施例的網(wǎng)站異常數(shù)據(jù)的識別裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0015]需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。
[0016]實施例一:
[0017]在其最基本的配置中,圖1是根據(jù)本發(fā)明實施例的網(wǎng)站異常數(shù)據(jù)的識別方法的流程示意圖;圖2是根據(jù)本發(fā)明實施例的網(wǎng)站異常數(shù)據(jù)的識別方法的詳細流程示意。如圖1所示,該網(wǎng)站異常數(shù)據(jù)的識別方法包括如下步驟:
[0018]步驟S10,在通過每個網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁之后,獲取每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間。具體的,該步驟中用戶可以選擇某一個網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁,每次訪問當(dāng)前網(wǎng)頁時,系統(tǒng)記錄每次訪問過程中用戶的停留時間,即該網(wǎng)頁打開到關(guān)閉的延續(xù)時間,從而針對一個網(wǎng)絡(luò)渠道會獲取到訪問當(dāng)前網(wǎng)頁的多個訪問停留時間。
[0019]步驟S30,分別對每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成每個網(wǎng)絡(luò)渠道的波動值。
[0020]步驟S50,對各個網(wǎng)絡(luò)渠道的波動值進行篩選處理,得到產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道。
[0021]本申請上述實施例通過對每個網(wǎng)絡(luò)渠道發(fā)生訪問網(wǎng)頁的過程中,記錄的每個網(wǎng)絡(luò)渠道對應(yīng)的所有訪問時間,然后針對每個網(wǎng)絡(luò)渠道進行訪問停留時間的統(tǒng)計計算,根據(jù)計算結(jié)果進行篩選,從而篩選得到發(fā)生了異常數(shù)據(jù)的網(wǎng)絡(luò)渠道,由于從自動化得從數(shù)據(jù)的統(tǒng)計學(xué)特征進行證明,即采用統(tǒng)計學(xué)的標準偏差概念來評估流量數(shù)據(jù)的異常,具有速度快,客觀公正的優(yōu)點,實現(xiàn)了對具有點擊作弊嫌疑的渠道流量進行分析和識別,是一種可以從多角度共同驗證流量數(shù)據(jù)是否異常的方法,避免了靠人工經(jīng)驗判斷異常的片面性。由此可知,解決了相關(guān)技術(shù)的通過人工來確定網(wǎng)絡(luò)渠道發(fā)生異常流量數(shù)據(jù)的方案效率低、準確性差的問題,進而實現(xiàn)了提高確定發(fā)生異常流量數(shù)據(jù)的網(wǎng)絡(luò)渠道的效率、減少了人力成本且準確性較好的效果。
[0022]優(yōu)選地,如圖2所示,本申請上述實施例中,在步驟S30分別對每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成每個網(wǎng)絡(luò)渠道的波動值之前,方法還可以包括如下步驟:
[0023]步驟S201,分別對每個網(wǎng)絡(luò)渠道的流量數(shù)據(jù)進行匯總,獲取每個網(wǎng)絡(luò)渠道的網(wǎng)頁訪問量。
[0024]具體的,由于通過各個網(wǎng)絡(luò)渠道對網(wǎng)站廣告進行推送,推送的效果會不同,為了減少計算量,提高計算效率,上述步驟首先將來自各個媒體的網(wǎng)絡(luò)渠道(以下簡稱Referer)訪問網(wǎng)頁時的流量數(shù)據(jù)進行匯總,即在數(shù)據(jù)庫中對網(wǎng)頁訪問流量的數(shù)據(jù)按網(wǎng)絡(luò)渠道Referer進行求和匯總,計算出各個網(wǎng)絡(luò)渠道Referer的訪問量總數(shù)。
[0025]步驟S202,對每個網(wǎng)絡(luò)渠道的網(wǎng)頁訪問量進行排序。
[0026]步驟S203,對排序后的所有網(wǎng)絡(luò)渠道進行篩選,得到預(yù)定數(shù)目的網(wǎng)絡(luò)渠道。例如,該步驟可以按網(wǎng)頁訪問量從大到小的順序?qū)W(wǎng)絡(luò)渠道進行排序,并將網(wǎng)頁訪問量總數(shù)前10%的Referer篩選出來,形成Referer集合R10。
[0027]步驟S204,將預(yù)定數(shù)目的網(wǎng)絡(luò)渠道保存至臨時數(shù)據(jù)表中,生成需要進行訪問停留時間統(tǒng)計計算的網(wǎng)絡(luò)渠道的集合。該步驟可是實現(xiàn)將步驟S303中RlO中每個網(wǎng)絡(luò)渠道各自對應(yīng)的所有訪問的停留 時間都保存到臨時數(shù)據(jù)表TableTemp中。
[0028]上述步驟S202和步驟S203實現(xiàn)了將每個網(wǎng)絡(luò)渠道的網(wǎng)頁訪問量按照從大到小的順序進行排序,然后選出網(wǎng)頁訪問流量最大的前a°/c^Referer,a的取值范圍可以是1-100,可以根據(jù)網(wǎng)站流量的大小情況自行確定,優(yōu)選的可以設(shè)置a=10,從而得到篩選后的網(wǎng)絡(luò)渠道 Referer 集合 R10。
[0029]正常網(wǎng)民在點擊某個網(wǎng)絡(luò)渠道Referer的網(wǎng)絡(luò)媒體數(shù)據(jù)進入媒體網(wǎng)站后,不同的網(wǎng)民在當(dāng)前媒體網(wǎng)站的停留時間可以各不相同,即網(wǎng)民在媒體主網(wǎng)站停留的時間具有一定的波動性,需要說明的是,如果是點擊作弊的流量,那它在網(wǎng)站停留的時間就幾乎沒有波動性,所以通過波動性的大小就可以判斷流量是否存在異常。另外,此處也可以采用頁面訪問數(shù)作為指標來作為計算的基礎(chǔ)。
[0030]優(yōu)選地,本申請上述實施例中,步驟S30分別對每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成每個網(wǎng)絡(luò)渠道的波動值的步驟包括如下步驟:
[0031]獲取步驟S301:獲取通過第一網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁時的訪問停留時間,得到第一網(wǎng)絡(luò)渠道對應(yīng)的η個訪問停留時間。上述步驟實現(xiàn)了在通過第一網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁之后,記錄每次訪問網(wǎng)頁時的訪問停留時間,獲取第一網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間。
[0032]第一計算步驟S302:根據(jù)第一網(wǎng)絡(luò)渠道對應(yīng)的η個訪問停留時間計算得到第一網(wǎng)
絡(luò)渠道對應(yīng)的第一停留時間平均值氣具體的,該步驟可以針對上述步驟S304的TableTemp中記錄的網(wǎng)絡(luò)渠道集合RlO中的第一個網(wǎng)絡(luò)渠道Referer進行停留時間匯總,計算得到第一個網(wǎng)絡(luò)渠道對應(yīng)的η個訪問停留時間的平均值f。
[0033]第二計算步驟S303:根據(jù)如下公式計算得到第一網(wǎng)絡(luò)渠道對應(yīng)的波動值SD,[0034]
【權(quán)利要求】
1.一種網(wǎng)站異常數(shù)據(jù)的識別方法,其特征在于,包括:在通過每個網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁之后,獲取所述每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間;分別對所述每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成所述每個網(wǎng)絡(luò)渠道的波動值;對各個網(wǎng)絡(luò)渠道的波動值進行篩選處理,得到產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在分別對所述每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成每個網(wǎng)絡(luò)渠道的波動值之前,所述方法還包括:分別對每個網(wǎng)絡(luò)渠道的流量數(shù)據(jù)進行匯總,獲取每個網(wǎng)絡(luò)渠道的網(wǎng)頁訪問量; 對每個網(wǎng)絡(luò)渠道的網(wǎng)頁訪問量進行排序;對排序后的所有網(wǎng)絡(luò)渠道進行篩選,得到預(yù)定數(shù)目的網(wǎng)絡(luò)渠道;將所述預(yù)定數(shù)目的網(wǎng)絡(luò)渠道保存至臨時數(shù)據(jù)表中,生成需要進行訪問停留時間統(tǒng)計計算的網(wǎng)絡(luò)渠道的集合。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,分別對所述每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成所述每個網(wǎng)絡(luò)渠道的波動值的步驟包括:獲取步驟:獲取通過所述第一網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁時的訪問停留時間,得到所述第一網(wǎng)絡(luò)渠道對應(yīng)的η個訪問停留時間;第一計算步驟:根據(jù)所述第一網(wǎng)絡(luò)渠道對應(yīng)的η個訪問停留時間計算得到所述第一網(wǎng)絡(luò)渠道對應(yīng)的停留時間平均值島第二計算步驟:根據(jù)如下公式計算得到所述第一網(wǎng)絡(luò)渠道對應(yīng)的波動值SD,SD=: 一'~其中,所述Xi為所述第一網(wǎng)絡(luò)渠道對應(yīng)的i個訪問停留時間,所述f為所述第一網(wǎng)絡(luò)渠道對應(yīng)的停留時間平均值,I < i < η,η為自然數(shù);循環(huán)步驟,循環(huán)執(zhí)行所述獲取步驟、第一計算步驟和第二計算步驟,得到每個網(wǎng)絡(luò)渠道對應(yīng)的波動值。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述波動值進行篩選處理,得到產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道的步驟包括:對各個網(wǎng)絡(luò)渠道對應(yīng)的波動值進行排序,得到網(wǎng)絡(luò)渠道隊列;按照預(yù)定標準值篩選所述網(wǎng)絡(luò)渠道隊列的波動值,得到所述產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,按照預(yù)定標準值篩選所述網(wǎng)絡(luò)渠道隊列的波動值,得到所述產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道的步驟包括:提取所述網(wǎng)絡(luò)渠道隊列中預(yù)定數(shù)目的網(wǎng)絡(luò)渠道作為所述產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道。
6.一種網(wǎng)站異常數(shù)據(jù)的識別裝置,其特征在于,包括:獲取模塊,用于在通過每個網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁之后,獲取所述每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間;處理模塊,用于分別對所述每個網(wǎng)絡(luò)渠道對應(yīng)的多個訪問停留時間進行統(tǒng)計計算,生成所述每個網(wǎng)絡(luò)渠道的波動值;篩選模塊,用于對各個網(wǎng)絡(luò)渠道的波動值進行篩選處理,得到產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括:匯總模塊,用于分別對每個網(wǎng)絡(luò)渠道的流量數(shù)據(jù)進行匯總,獲取每個網(wǎng)絡(luò)渠道的網(wǎng)頁訪問量;第一排序模塊,用于對每個網(wǎng)絡(luò)渠道的網(wǎng)頁訪問量進行排序;子篩選模塊,用于對排序后的所有網(wǎng)絡(luò)渠道進行篩選,得到預(yù)定數(shù)目的網(wǎng)絡(luò)渠道;保存模塊,用于將所述預(yù)定數(shù)目的網(wǎng)絡(luò)渠道保存至臨時數(shù)據(jù)表中,生成需要進行訪問停留時間統(tǒng)計計算的網(wǎng)絡(luò)渠道的集合。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述處理模塊包括:子獲取模塊,用于獲取通過所述第一網(wǎng)絡(luò)渠道多次訪問網(wǎng)頁時的訪問停留時間,得到所述第一網(wǎng)絡(luò)渠道對應(yīng)的η個訪問停留時間;第一計算模塊,用于根據(jù)所述第一網(wǎng)絡(luò)渠道對應(yīng)的η個訪問停留時間計算得到所述第一網(wǎng)絡(luò)渠道對應(yīng)的停留時間平均值&第二計算模塊,用于根據(jù)如下公式計算得到所述第一網(wǎng)絡(luò)渠道對應(yīng)的波動值SD,
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述篩選模塊包括:第二排序模塊,用于對各個網(wǎng)絡(luò)渠道對應(yīng)的波動值進行排序,得到網(wǎng)絡(luò)渠道隊列;選擇模塊,用于按照預(yù)定標準值篩選所述網(wǎng)絡(luò)渠道隊列的波動值,得到所述產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述選擇模塊包括:提取模塊,用于提取所述網(wǎng)絡(luò)渠道隊列中預(yù)定數(shù)目的網(wǎng)絡(luò)渠道作為所述產(chǎn)生異常數(shù)據(jù)的網(wǎng)絡(luò)渠道。
【文檔編號】G06F17/30GK103605714SQ201310566714
【公開日】2014年2月26日 申請日期:2013年11月14日 優(yōu)先權(quán)日:2013年11月14日
【發(fā)明者】張明波, 余德樂, 王靜芬, 楊韜, 王曉群 申請人:北京國雙科技有限公司