1.一種作弊檢測方法,其特征在于,包括:
對樣本數(shù)據(jù)進行統(tǒng)計,得到各個樣本的指標參數(shù),其中,一個樣本的指標參數(shù)的維度包括:所述一個樣本的總點擊量、點擊人數(shù)、每小時點擊量、樣本點擊地區(qū)和樣本對應(yīng)搜索詞的點擊量;
根據(jù)所述指標參數(shù),生成各個樣本的特征參數(shù),其中,一個樣本的特征參數(shù)的維度包括:點擊量離散系數(shù)、每小時點擊量離散系數(shù)、地域集中度、查詢詞多樣性指數(shù)和人均點擊量;
根據(jù)所述各個樣本的特征參數(shù)建立檢測模型,并根據(jù)所述檢測模型判定待測試的商品數(shù)據(jù)是否異常,所述檢測模型的維度包括所述各個樣本的特征參數(shù)的維度。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述指標參數(shù),生成各個樣本的特征參數(shù),包括:
對于一個樣本:
根據(jù)C=Stdev/Mean獲取所述一個樣本的總點擊量離散系數(shù),其中,Stdev表示所述一個樣本的總點擊量的標準差,Mean表示所述一個樣本的總點擊量的平均數(shù),C表示所述一個樣本的總點擊量離散系數(shù);
根據(jù)C’=Stdev’/Mean’獲取所述一個樣本的指定時段內(nèi)的點擊量離散系數(shù),其中,Stdev’表示所述一個樣本的在指定時段內(nèi)的點擊量的標準差,Mean’表示所述一個樣本的在指定時段內(nèi)的平均數(shù),C’表示所述一個樣本的在指定時段內(nèi)的離散系數(shù);
根據(jù)R=max(ni)/N獲取所述一個樣本的地域集中度,其中,ni表示所述一個樣本的樣本點擊地區(qū)中的單個城市的點擊量,N表示所述一個樣本的樣本點擊地區(qū)中的總點擊量,R表示所述一個樣本的地域集中度;
根據(jù)H=-∑(Pi)(lnPi)獲取所述一個樣本的查詢詞多樣性指數(shù),其中,H表示多樣性指數(shù),Pi表示在所述一個樣本的樣本對應(yīng)搜索詞的點擊量中第i個查詢詞對應(yīng)的點擊量所占比例,當總點擊量為N時,第i個查詢詞對應(yīng)的點擊量為ni,則Pi=ni/N;
根據(jù)P=N/U獲取所述一個樣本的人均點擊量,其中,N表示所述一個樣本的總點擊量,U表示所述一個樣本的點擊人數(shù),P表示人均點擊量;
重復(fù)上述對于所述一個樣本的過程,得到各個樣本的特征參數(shù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述各個樣本的特征參數(shù)建立檢測模型,包括:
建立基礎(chǔ)模型(X,Y),其中,X=(x1,x2,x3,x4,x5),Y=(1,0),x1表示點擊量離散系數(shù),x2表示指定時段內(nèi)的點擊量離散系數(shù),x3表示地域集中度,x4表示查詢詞多樣性指數(shù),x5表示人均點擊量,Y=1表示數(shù)據(jù)異常,Y=0表示數(shù)據(jù)正常
根據(jù)所述各個樣本的特征參數(shù)訓(xùn)練所述基礎(chǔ)模型,得到所述檢測模型。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
當待測試的商品數(shù)據(jù)異常時,提取目標用戶的信息,所述目標用戶包括點擊了出現(xiàn)異常的商品數(shù)據(jù)的用戶;
提取目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù);
根據(jù)所述目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù),檢測作弊用戶的點擊數(shù);
在所述出現(xiàn)異常的商品數(shù)據(jù)中,去除所述作弊用戶的點擊數(shù)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,還包括:所述檢測作弊用戶的點擊數(shù)處于異常范圍,所述異常范圍包括:點擊數(shù)處于大于μ+3σ和小于μ-3σ的用戶;或者,點擊數(shù)處于大于μ-2σ和小于μ+2σ的用戶,其中,μ表示正態(tài)分布的數(shù)學(xué)期望,σ表示正態(tài)分布的標準差。
6.一種作弊檢測裝置,其特征在于,包括:
統(tǒng)計模塊,用于對樣本數(shù)據(jù)進行統(tǒng)計,得到各個樣本的指標參數(shù),其中,一個樣本的指標參數(shù)的維度包括:所述一個樣本的總點擊量、點擊人數(shù)、每小時點擊量、樣本點擊地區(qū)和樣本對應(yīng)搜索詞的點擊量;
特征提取模塊,用于根據(jù)所述指標參數(shù),生成各個樣本的特征參數(shù),其中,一個樣本的特征參數(shù)的維度包括:點擊量離散系數(shù)、每小時點擊量離散系數(shù)、地域集中度、查詢詞多樣性指數(shù)和人均點擊量;
分析模塊,用于根據(jù)所述各個樣本的特征參數(shù)建立檢測模型,并根據(jù)所述檢測模型判定待測試的商品數(shù)據(jù)是否異常,所述檢測模型的維度包括所述各個樣本的特征參數(shù)的維度。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述特征提取模塊,具體用于,對于一個樣本:根據(jù)C=Stdev/Mean獲取所述一個樣本的總點擊量離散系數(shù),其中,Stdev表示所述一個樣本的總點擊量的標準差,Mean表示所述一個樣本的總點擊量的平均數(shù),C表示所述一個樣本的總點擊量離散系數(shù);根據(jù)C’=Stdev’/Mean’獲取所述一個樣本的指定時段內(nèi)的點擊量離散系數(shù),其中,Stdev’表示所述一個樣本的在指定時段內(nèi)的點擊量的標準差,Mean’表示所述一個樣本的在指定時段內(nèi)的平均數(shù),C’表示所述一個樣本的在指定時段內(nèi)的離散系數(shù);根據(jù)R=max(ni)/N獲取所述一個樣本的地域集中度,其中,ni表示所述一個樣本的樣本點擊地區(qū)中的單個城市的點擊量,N表示所述一個樣本的樣本點擊地區(qū)中的總點擊量,R表示所述一個樣本的地域集中度;根據(jù)H=-∑(Pi)(lnPi)獲取所述一個樣本的查詢詞多樣性指數(shù),其中,H表示多樣性指數(shù),Pi表示在所述一個樣本的樣本對應(yīng)搜索詞的點擊量中第i個查詢詞對應(yīng)的點擊量所占比例,當總點擊量為N時,第i個查詢詞對應(yīng)的點擊量為ni,則Pi=ni/N;根據(jù)P=N/U獲取所述一個樣本的人均點擊量,其中,N表示所述一個樣本的總點擊量,U表示所述一個樣本的點擊人數(shù),P表示人均點擊量;
并重復(fù)上述對于所述一個樣本的過程,得到各個樣本的特征參數(shù)。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述分析模塊,具體用于建立基礎(chǔ)模型(X,Y),其中,X=(x1,x2,x3,x4,x5),Y=(1,0),x1表示點擊量離散系數(shù),x2表示指定時段內(nèi)的點擊量離散系數(shù),x3表示地域集中度,x4表示查詢詞多樣性指數(shù),x5表示人均點擊量,Y=1表示數(shù)據(jù)異常,Y=0表示數(shù)據(jù)正常
根據(jù)所述各個樣本的特征參數(shù)訓(xùn)練所述基礎(chǔ)模型,得到所述檢測模型。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括:降權(quán)模塊,所述降權(quán)模塊包括:
用戶提取子模塊,用于當待測試的商品數(shù)據(jù)異常時,提取目標用戶的信息,所述目標用戶包括點擊了出現(xiàn)異常的商品數(shù)據(jù)的用戶;
點擊數(shù)分析子模塊,用于提取目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù);并根據(jù)所述目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù),檢測作弊用戶的點擊數(shù);
篩選子模塊,用于在所述出現(xiàn)異常的商品數(shù)據(jù)中,去除所述作弊用戶的點擊數(shù)。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,還包括:所述檢測作弊用戶的點擊數(shù)處于異常范圍,所述異常范圍包括:點擊數(shù)處于大于μ+3σ和小于μ-3σ的用戶;或者,點擊數(shù)處于大于μ-2σ和小于μ+2σ的用戶,其中,μ表示正態(tài)分布的數(shù)學(xué)期望,σ表示正態(tài)分布的標準差。