亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種作弊檢測方法及裝置與流程

文檔序號:12596891閱讀:325來源:國知局
一種作弊檢測方法及裝置與流程
本發(fā)明涉及電子商務
技術(shù)領(lǐng)域
,尤其涉及一種作弊檢測方法及裝置。
背景技術(shù)
:隨著電子商務技術(shù)的發(fā)展,在線購物平臺已成為消費者在日常生活不可或缺的工具,在線購物平臺也為商家提供了一種快捷方便并且成本低廉的銷售渠道。而搜索引擎作為消費者檢索商品的主要工具,如何在在線購物平臺的搜索引擎上提高商品的曝光機會,是各大購物網(wǎng)站和商家最為關(guān)心的事情。商家為了獲得更高的訪問量,進而獲得更高的經(jīng)濟效益,總是希望將自己店鋪的商品排在搜索結(jié)果靠前的位置。目前已經(jīng)出現(xiàn)不少商家針對搜索引擎的特點,采取欺騙手段提高商品在搜索引擎中的排名,比如:雇傭水軍進行商品評論,通過虛假訂單提高店鋪的交易量等等,即所謂的作弊行為。為了防止商家的作弊行為,很多在線購物平臺采用人工審核的方式確定店鋪中的商品是否是作弊商品。但是由于工資水平的提高,以及商品的種類、數(shù)量的暴增,人工審核的成本很高。并且審查作弊商品已經(jīng)需要占用很多人工成本,對于實行作弊的用戶或是商品的審查,往往處于缺失狀態(tài),基本都是通過其他用戶舉報的方式進行被動處理。技術(shù)實現(xiàn)要素:本發(fā)明的實施例提供一種作弊檢測方法及裝置,能夠降低審核的成本,并進一步提高自動審查的深度。為達到上述目的,本發(fā)明的實施例采用如下技術(shù)方案:第一方面,本發(fā)明的實施例提供一種作弊檢測方法,包括:對樣本數(shù)據(jù)進行統(tǒng)計,得到各個樣本的指標參數(shù),其中,一個樣本的指標參數(shù)的維度包括:所述一個樣本的總點擊量、點擊人數(shù)、每小時點擊量、樣本點擊地區(qū)和樣本對應搜索詞的點擊量;根據(jù)所述指標參數(shù),生成各個樣本的特征參數(shù),其中,一個樣本的特征參數(shù)的維度包括:點擊量離散系數(shù)、每小時點擊量離散系數(shù)、地域集中度、查詢詞多樣性指數(shù)和人均點擊量;根據(jù)所述各個樣本的特征參數(shù)建立檢測模型,并根據(jù)所述檢測模型判定待測試的商品數(shù)據(jù)是否異常,所述檢測模型的維度包括所述各個樣本的特征參數(shù)的維度。結(jié)合第一方面,在第一方面的第一種可能的實現(xiàn)方式中,所述根據(jù)所述指標參數(shù),生成各個樣本的特征參數(shù),包括:對于一個樣本:根據(jù)C=Stdev/Mean獲取所述一個樣本的總點擊量離散系數(shù),其中,Stdev表示所述一個樣本的總點擊量的標準差,Mean表示所述一個樣本的總點擊量的平均數(shù),C表示所述一個樣本的總點擊量離散系數(shù);根據(jù)C’=Stdev’/Mean’獲取所述一個樣本的指定時段內(nèi)的點擊量離散系數(shù),其中,Stdev’表示所述一個樣本的在指定時段內(nèi)的點擊量的標準差,Mean’表示所述一個樣本的在指定時段內(nèi)的平均數(shù),C’表示所述一個樣本的在指定時段內(nèi)的離散系數(shù);根據(jù)R=max(ni)/N獲取所述一個樣本的地域集中度,其中,ni表示所述一個樣本的樣本點擊地區(qū)中的單個城市的點擊量,N表示所述一個樣本的樣本點擊地區(qū)中的總點擊量,R表示所述一個樣本的地域集中度;根據(jù)H=-∑(Pi)(lnPi)獲取所述一個樣本的查詢詞多樣性指數(shù),其中,H表示多樣性指數(shù),Pi表示在所述一個樣本的樣本對應搜索詞的點擊量中第i個查詢詞對應的點擊量所占比例,當總點擊量為N時,第i個查詢詞對應的點擊量為ni,則Pi=ni/N;根據(jù)P=N/U獲取所述一個樣本的人均點擊量,其中,N表示所述一個樣本的總點擊量,U表示所述一個樣本的點擊人數(shù),P表示人均點擊量;重復上述對于所述一個樣本的過程,得到各個樣本的特征參數(shù)。結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述根據(jù)所述各個樣本的特征參數(shù)建立檢測模型,包括:建立基礎模型(X,Y),其中,X=(x1,x2,x3,x4,x5),Y=(1,0),x1表示點擊量離散系數(shù),x2表示指定時段內(nèi)的點擊量離散系數(shù),x3表示地域集中度,x4表示查詢詞多樣性指數(shù),x5表示人均點擊量,Y=1表示數(shù)據(jù)異常,Y=0表示數(shù)據(jù)正常根據(jù)所述各個樣本的特征參數(shù)訓練所述基礎模型,得到所述檢測模型。結(jié)合第一方面,在第一方面的第三種可能的實現(xiàn)方式中,還包括:當待測試的商品數(shù)據(jù)異常時,提取目標用戶的信息,所述目標用戶包括點擊了出現(xiàn)異常的商品數(shù)據(jù)的用戶;提取目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù);根據(jù)所述目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù),檢測作弊用戶的點擊數(shù);在所述出現(xiàn)異常的商品數(shù)據(jù)中,去除所述作弊用戶的點擊數(shù)。結(jié)合第一方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,還包括:所述檢測作弊用戶的點擊數(shù)處于異常范圍,所述異常范圍包括:點擊數(shù)處于大于μ+3σ和小于μ-3σ的用戶;或者,點擊數(shù)處于大于μ-2σ和小于μ+2σ的用戶,其中,μ表示正態(tài)分布的數(shù)學期望,σ表示正態(tài)分布的標準差。第二方面,本發(fā)明的實施例提供一種作弊檢測方法,包括:統(tǒng)計模塊,用于對樣本數(shù)據(jù)進行統(tǒng)計,得到各個樣本的指標參數(shù),其中,一個樣本的指標參數(shù)的維度包括:所述一個樣本的總點擊量、點擊人數(shù)、每小時點擊量、樣本點擊地區(qū)和樣本對應搜索詞的點擊量;特征提取模塊,用于根據(jù)所述指標參數(shù),生成各個樣本的特征參數(shù),其中,一個樣本的特征參數(shù)的維度包括:點擊量離散系數(shù)、每小時點擊量離散系數(shù)、地域集中度、查詢詞多樣性指數(shù)和人均點擊量;分析模塊,用于根據(jù)所述各個樣本的特征參數(shù)建立檢測模型,并根據(jù)所述檢測模型判定待測試的商品數(shù)據(jù)是否異常,所述檢測模型的維度包括所述各個樣本的特征參數(shù)的維度。結(jié)合第二方面,在第二方面的第一種可能的實現(xiàn)方式中,所述特征提取模塊,具體用于,對于一個樣本:根據(jù)C=Stdev/Mean獲取所述一個樣本的總點擊量離散系數(shù),其中,Stdev表示所述一個樣本的總點擊量的標準差,Mean表示所述一個樣本的總點擊量的平均數(shù),C表示所述一個樣本的總點擊量離散系數(shù);根據(jù)C’=Stdev’/Mean’獲取所述一個樣本的指定時段內(nèi)的點擊量離散系數(shù),其中,Stdev’表示所述一個樣本的在指定時段內(nèi)的點擊量的標準差,Mean’表示所述一個樣本的在指定時段內(nèi)的平均數(shù),C’表示所述一個樣本的在指定時段內(nèi)的離散系數(shù);根據(jù)R=max(ni)/N獲取所述一個樣本的地域集中度,其中,ni表示所述一個樣本的樣本點擊地區(qū)中的單個城市的點擊量,N表示所述一個樣本的樣本點擊地區(qū)中的總點擊量,R表示所述一個樣本的地域集中度;根據(jù)H=-∑(Pi)(lnPi)獲取所述一個樣本的查詢詞多樣性指數(shù),其中,H表示多樣性指數(shù),Pi表示在所述一個樣本的樣本對應搜索詞的點擊量中第i個查詢詞對應的點擊量所占比例,當總點擊量為N時,第i個查詢詞對應的點擊量為ni,則Pi=ni/N;根據(jù)P=N/U獲取所述一個樣本的人均點擊量,其中,N表示所述一個樣本的總點擊量,U表示所述一個樣本的點擊人數(shù),P表示人均點擊量;并重復上述對于所述一個樣本的過程,得到各個樣本的特征參數(shù)。結(jié)合第二方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述分析模塊,具體用于建立基礎模型(X,Y),其中,X=(x1,x2,x3,x4,x5),Y=(1,0),x1表示點擊量離散系數(shù),x2表示指定時段內(nèi)的點擊量離散系數(shù),x3表示地域集中度,x4表示查詢詞多樣性指數(shù),x5表示人均點擊量,Y=1表示數(shù)據(jù)異常,Y=0表示數(shù)據(jù)正常根據(jù)所述各個樣本的特征參數(shù)訓練所述基礎模型,得到所述檢測模型。結(jié)合第二方面,在第二方面的第三種可能的實現(xiàn)方式中,還包括:降權(quán)模塊,所述降權(quán)模塊包括:用戶提取子模塊,用于當待測試的商品數(shù)據(jù)異常時,提取目標用戶的信息,所述目標用戶包括點擊了出現(xiàn)異常的商品數(shù)據(jù)的用戶;點擊數(shù)分析子模塊,用于提取目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù);并根據(jù)所述目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù),檢測作弊用戶的點擊數(shù);篩選子模塊,用于在所述出現(xiàn)異常的商品數(shù)據(jù)中,去除所述作弊用戶的點擊數(shù)。結(jié)合第二方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,還包括:所述檢測作弊用戶的點擊數(shù)處于異常范圍,所述異常范圍包括:點擊數(shù)處于大于μ+3σ和小于μ-3σ的用戶;或者,點擊數(shù)處于大于μ-2σ和小于μ+2σ的用戶,其中,μ表示正態(tài)分布的數(shù)學期望,σ表示正態(tài)分布的標準差。本發(fā)明實施例提供的作弊檢測方法及裝置,分析服務器通過對商品數(shù)據(jù)的各個統(tǒng)計指標進行統(tǒng)計計算,并依據(jù)統(tǒng)計指標進行特征提取,再利用所提取的特征建立并訓練檢測模型,根據(jù)訓練的檢測模型判定異常的商品數(shù)據(jù)。還對作弊用戶進行篩選,將對于商品的點擊數(shù)在異常范圍的用戶,從而在篩選作弊商品的同時,還實現(xiàn)了鎖定作弊用戶的。相對于現(xiàn)有技術(shù)中的人工審核作弊行為的方式,本發(fā)明能夠自動檢測并篩選出作弊商品,并且還能夠鎖定實行作弊行為的用戶,從而在降低審核的成本同時,還能進一步提高自動審查的深度,以便于實現(xiàn)更將復雜的自動審查方案。附圖說明為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。圖1為本發(fā)明實施例提供的執(zhí)行設備的結(jié)構(gòu)示意圖;圖2為本發(fā)明實施例提供的作弊檢測方法的流程示意圖;圖3a、圖3b為本發(fā)明實施例提供的作弊檢測裝置的結(jié)構(gòu)示意圖。具體實施方式為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細描述。下文中將詳細描述本發(fā)明的實施方式,所述實施方式的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。本
技術(shù)領(lǐng)域
技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復數(shù)形式。應該進一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應該理解,當我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項的任一單元和全部組合。本
技術(shù)領(lǐng)域
技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學術(shù)語)具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術(shù)語應該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣定義,不會用理想化或過于正式的含義來解釋。本發(fā)明實施例中方法流程,可以由一種承擔數(shù)據(jù)分析功能的服務器執(zhí)行,在本實施例中可稱為分析服務器,例如:如圖1所示為根據(jù)本發(fā)明一個具體實施方式的分析服務器。所述分析服務器包括輸入單元、處理器單元、輸出單元、通信單元、存儲單元、外設單元等組件。這些組件通過一條或多條總線進行通信。本領(lǐng)域技術(shù)人員可以理解,圖中示出的分析服務器的結(jié)構(gòu)并不構(gòu)成對本發(fā)明的限定,它既可以是總線形結(jié)構(gòu),也可以是星型結(jié)構(gòu),還可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。在本發(fā)明實施方式中。輸入單元用于實現(xiàn)操作人員、技術(shù)人員與分析服務器的交互和/或信息輸入到分析服務器中。例如,輸入單元可以接收操作人員、技術(shù)人員輸入的數(shù)字或字符信息,以產(chǎn)生與操作人員、技術(shù)人員設置或功能控制有關(guān)的信號輸入。在本發(fā)明具體實施方式中,輸入單元可以是觸控面板,也可以是其他人機交互界面,還可是其他外部信息擷取裝置。處理器單元為分析服務器的控制中心,利用各種接口和線路連接整個分析服務器的各個部分,通過運行或執(zhí)行存儲在存儲單元內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲單元內(nèi)的數(shù)據(jù),以執(zhí)行分析服務器的各種功能和/或處理數(shù)據(jù)。所述處理器單元可以由集成電路(IntegratedCircuit,簡稱IC)組成,例如可以由單顆封裝的IC所組成,也可以由連接多顆相同功能或不同功能的封裝IC而組成。舉例來說,處理器單元可以僅包括中央處理器(CentralProcessingUnit,簡稱CPU),也可以是GPU、數(shù)字信號處理器(DigitalSignalProcessor,簡稱DSP)、及通信單元中的控制芯片(例如基帶芯片)的組合。在本發(fā)明實施方式中,CPU可以是單運算核心,也可以包括多運算核心。所述通信單元用于建立通信信道,使分析服務器通過所述通信信道以連接至其他的服務器設備,或是通過有線或無線網(wǎng)絡與用戶終端進行通信,比如:分析服務器通過接口接入移動無線網(wǎng)絡,并通過移動無線網(wǎng)絡將廣告內(nèi)容或廣告想分析信息(URL)向用戶終端發(fā)送。在本發(fā)明的不同實施方式中,所述通信單元中的各種通信模塊一般以集成電路芯片(IntegratedCircuitChip)的形式出現(xiàn),并可進行選擇性組合,而不必包括所有通信模塊及對應的天線組。例如,所述通信單元可以僅包括基帶芯片、射頻芯片以及相應的天線以在一個蜂窩通信系統(tǒng)中提供通信功能。經(jīng)由所述通信單元建立的無線通信連接,例如無線局域網(wǎng)接入或WCDMA接入,所述分析服務器可以連接至蜂窩網(wǎng)(CellularNetwork)或因特網(wǎng)(Internet)。在本發(fā)明的一些可選實施方式中,所述通信單元中的通信模塊,例如基帶模塊可以集成到處理器單元中,典型的如高通(Qualcomm)公司提供的APQ+MDM系列平臺。輸出單元包括但不限于影像輸出單元和聲音輸出單元。影像輸出單元用于輸出文字、圖片和/或視頻。所述影像輸出單元可包括顯示面板。存儲單元可用于存儲軟件程序以及模塊,處理單元通過運行存儲在存儲單元的軟件程序以及模塊,從而執(zhí)行分析服務器的各種功能應用以及實現(xiàn)數(shù)據(jù)處理。存儲單元主要包括程序存儲區(qū)和數(shù)據(jù)存儲區(qū),其中,程序存儲區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應用程序,比如用于執(zhí)行本實施例方法流程的數(shù)據(jù)分析程序和降權(quán)模塊等等。存儲單元可以包括易性存儲器,例如非揮發(fā)性動態(tài)隨機存取內(nèi)存(NonvolatileRandomAccessMemory,簡稱NVRAM)、相變化隨機存取內(nèi)存(PhaseChangeRAM,簡稱PRAM)、磁阻式隨機存取內(nèi)存(MagetoresistiveRAM,簡稱MRAM)等,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、電子可擦除可編程只讀存儲器(ElectricallyErasableProgrammableRead-OnlyMemory,簡稱EEPROM)、閃存器件,例如反或閃存(NORflashmemory)或是反及閃存(NANDflashmemory)。電源用于給分析服務器的不同部件進行供電以維持其運行。作為一般性理解,所述電源可以是內(nèi)置的電池,例如常見的鋰離子電池、鎳氫電池等,也包括直接向分析服務器供電的外接電源,例如AC適配器等。在本發(fā)明的一些實施方式中,所述電源還可以作更為廣泛的定義,例如還可以包括電源管理系統(tǒng)、充電系統(tǒng)、電源故障檢測電路、電源轉(zhuǎn)換器或逆變器、電源狀態(tài)指示器(如發(fā)光二極管),以及與分析服務器的電能生成、管理及分布相關(guān)聯(lián)的其他任何組件。本發(fā)明實施例提供一種作弊檢測方法,如圖2所示,包括:101,對樣本數(shù)據(jù)進行統(tǒng)計,得到各個樣本的指標參數(shù)。其中,一個樣本的指標參數(shù)的維度包括:所述一個樣本的總點擊量、點擊人數(shù)、每小時點擊量、樣本點擊地區(qū)和樣本對應搜索詞的點擊量。需要說明的是,本實施例中的樣本數(shù)據(jù)主要指作為樣本的商品數(shù)據(jù),例如:分析服務器在執(zhí)行101之前,可以對商品數(shù)據(jù)進行統(tǒng)計計算,并對臟數(shù)據(jù)進行清洗過濾,其中,臟數(shù)據(jù)指的是數(shù)據(jù)錯誤、無法正常讀取,或者不屬于商品數(shù)據(jù)的數(shù)據(jù)碎片等,以便之后按照統(tǒng)計規(guī)則計算商品的各個指標參數(shù)。并從清洗過濾后的商品數(shù)據(jù)中按照預設的樣本篩選規(guī)則,提取作為樣本數(shù)據(jù)的商品數(shù)據(jù)。102,根據(jù)所述指標參數(shù),生成各個樣本的特征參數(shù)。其中,一個樣本的特征參數(shù)的維度包括:點擊量離散系數(shù)、每小時點擊量離散系數(shù)、地域集中度、查詢詞多樣性指數(shù)和人均點擊量。需要說明的是,本實施例中特征參數(shù)的維度并不僅限于點擊量離散系數(shù)、每小時點擊量離散系數(shù)、地域集中度、查詢詞多樣性指數(shù)和人均點擊量,還可以包括其他參數(shù)。例如:在101中,對樣本數(shù)據(jù)進行統(tǒng)計,除了所述一個樣本的總點擊量、點擊人數(shù)、每小時點擊量、樣本點擊地區(qū)和樣本對應搜索詞的點擊量以外的指標參數(shù)的維度,比如促銷活動類型、市場信息等。在本實施例中101中所得到的一個樣本的指標參數(shù)的維度與特征參數(shù)的維度數(shù)量相同,并且一一對應。103,根據(jù)所述各個樣本的特征參數(shù)建立檢測模型,并根據(jù)所述檢測模型判定待測試的商品數(shù)據(jù)是否異常。其中,所述檢測模型的維度包括所述各個樣本的特征參數(shù)的維度。在本實施例中,當一個商品的商品數(shù)據(jù)出現(xiàn)異常時,也可將該商品稱為作弊商品。具體的,在本實施例中,所述根據(jù)所述指標參數(shù)生成各個樣本的特征參數(shù)的具體方式,可以包括:對于一個樣本:1、根據(jù)C=Stdev/Mean獲取所述一個樣本的總點擊量離散系數(shù)。其中,Stdev表示所述一個樣本的總點擊量的標準差,Mean表示所述一個樣本的總點擊量的平均數(shù),C表示所述一個樣本的總點擊量離散系數(shù)。2、根據(jù)C’=Stdev’/Mean’獲取所述一個樣本的指定時段內(nèi)的點擊量離散系數(shù)。其中,Stdev’表示所述一個樣本的在指定時段內(nèi)的點擊量的標準差,Mean’表示所述一個樣本的在指定時段內(nèi)的平均數(shù),C’表示所述一個樣本的在指定時段內(nèi)的離散系數(shù)。指定時段可以是24小時,也可以是1個小時或是6個小時,本實施例中以指定時段為24小時為例進行說明。3、根據(jù)R=max(ni)/N獲取所述一個樣本的地域集中度。其中,ni表示所述一個樣本的樣本點擊地區(qū)中的單個城市的點擊量,N表示所述一個樣本的樣本點擊地區(qū)中的總點擊量,R表示所述一個樣本的地域集中度。4、根據(jù)H=-∑(Pi)(lnPi)獲取所述一個樣本的查詢詞多樣性指數(shù)。其中,H表示多樣性指數(shù),Pi表示在所述一個樣本的樣本對應搜索詞的點擊量中第i個查詢詞對應的點擊量所占比例,當總點擊量為N時,第i個查詢詞對應的點擊量為ni,則Pi=ni/N。5、根據(jù)P=N/U獲取所述一個樣本的人均點擊量。其中,N表示所述一個樣本的總點擊量,U表示所述一個樣本的點擊人數(shù),P表示人均點擊量。重復上述對于所述一個樣本的過程,得到各個樣本的特征參數(shù)。在本實施例中,所述根據(jù)所述各個樣本的特征參數(shù)建立檢測模型,包括:建立基礎模型(X,Y),其中,X=(x1,x2,x3,x4,x5),Y=(1,0),x1表示點擊量離散系數(shù),x2表示指定時段內(nèi)的點擊量離散系數(shù),x3表示地域集中度,x4表示查詢詞多樣性指數(shù),x5表示人均點擊量,Y=1表示數(shù)據(jù)異常,Y=0表示數(shù)據(jù)正常。根據(jù)所述各個樣本的特征參數(shù)訓練所述基礎模型,得到所述檢測模型。例如:針對商品每天的點擊量,計算每個商品的標準差Stdev和平均值Mean,并入到離散系數(shù)公式C=Stdev/Mean,計算得到每個商品的維度X1。比如:一件商品七天點擊量如表一所示:第1天第2天第3天第4天第5天第6天第7天3925461555526010592711表一其中,七天的均值Mean=1146,標準差Stdev=1168.02939,根據(jù)C=Stdev/Mean,得到C=1.019222857,故X1=1.019222857。計算得到每個商品的維度X2。比如:一件商品在每個小時的點擊量如表二所示0點1點2點3點4點5點6點7點8點9點10點11點1000002271117781412點13點14點15點16點17點18點19點20點21點22點23點2354191633231472724288478945714719表二其中,每小時的平均值Mean=334.75,標準差Stdev=768.188,根據(jù)C=Stdev/Mean得到C=2.294811,即X2=2.294811。計算得到每個商品的維度X3。比如:一件商品的地域點擊量如表三所示0312075002501005710240561…200267643322…表三其中,計算得到max(ni)=2002,N=2715,根據(jù)R=max(ni)/N=0.73738,得到X3=0.73738。計算得到每個商品的維度X4。比如:對于一件商品的查詢詞點擊量如表四所示表四其中,對于一件商品先計算每個詞的多樣性指數(shù)Hi,Hi=Pi/ln(Pi),再在計算商品的查詢詞多樣性H=-∑Hi,得到H=-∑Hi=2.13254,即X4=2.13254。計算得到每個商品的維度X5。先計算每個商品的點擊次數(shù)和點擊人數(shù),再根據(jù)P=N/U得到人均點擊次數(shù)。比如:一件商品的點擊量N=10465和點擊人數(shù)U=8141,計算得到P=1.285468,即X5=1.285468。在檢測模型中得到(X,Y),其中X=(x1,x2,x3,x4,x5),并對參與訓練的樣本數(shù)據(jù)進行標注,其中,可以采用[0,1]的值域,若訓練數(shù)據(jù)被標注為1,則表示該訓練數(shù)據(jù)為作弊數(shù)據(jù),若訓練數(shù)據(jù)被標注為0,則表示該訓練數(shù)據(jù)為非作弊數(shù)據(jù),從而訓練數(shù)據(jù)集即表示成一個M*5維的特征向量和M*1維的特征向量,其中M表示數(shù)據(jù)集中的商品數(shù)據(jù)。在本實施例中,依據(jù)檢測模型判定商品數(shù)據(jù)是否異常,具體實現(xiàn)包括:檢測商品數(shù)據(jù)的特征參數(shù)(x1,x2,x3,x4,x5),當出現(xiàn)x1的值域范圍大于1.5、x2的值域范圍大于1.5、x3的值域范圍大于50%、x4的值域范圍為小于1、x5的值域范圍為大于5時,則判定商品數(shù)據(jù)異常。需要說明的是,值域范圍指的是一個數(shù)值范圍,“值域范圍大于”可以理解為數(shù)值范圍的最小值大于某個值,例如:x1的值域范圍大于1.5,則x1的數(shù)值的分布范圍的最小值大于1.5,“值域范圍小于”可以理解為數(shù)值范圍的最大值小于某個值;值域范圍也可以是一個特征參數(shù)的具體數(shù)值,“值域范圍大于”可以理解為x1的值大于某個值,例如:x1的值域范圍大于1.5,則x1大于1.5,“值域范圍小于”可以理解為特征參數(shù)小于某個值。在本實施例中可以采用邏輯回歸的機器學習方法來訓練檢測模型。例如:通過K折交叉驗證,將原始特征向量分成K份,其中,K-1份做訓練,1份做測試,訓練檢測模型并記錄每次的算法精度。再通過計算K次的均方誤差(MSE)評估模型的精確度,并記錄模型的相應參數(shù),并在每一次訓練過程中調(diào)整參數(shù),得到均方誤差(MSE)及保留參數(shù),并選取均方誤差(MSE)最小的模型作為訓練得到的檢測模型。本發(fā)明實施例提供的作弊檢測方法,分析服務器通過對商品數(shù)據(jù)的各個統(tǒng)計指標進行統(tǒng)計計算,并依據(jù)統(tǒng)計指標進行特征提取,再利用所提取的特征建立并訓練檢測模型,根據(jù)訓練的檢測模型判定異常的商品數(shù)據(jù)。還對作弊用戶進行篩選,將對于商品的點擊數(shù)在異常范圍的用戶,從而在篩選作弊商品的同時,還實現(xiàn)了鎖定作弊用戶的。相對于現(xiàn)有技術(shù)中的人工審核作弊行為的方式,本發(fā)明能夠自動檢測并篩選出作弊商品,并且還能夠鎖定實行作弊行為的用戶,從而在降低審核的成本同時,還能進一步提高自動審查的深度,以便于實現(xiàn)更將復雜的自動審查方案。在本實施例中,還提供一種利用拉依達準則法(3σ法則)在商品總體點擊量計算時,對異常點進行剔除的降權(quán)模塊的實現(xiàn)流程,包括:當待測試的商品數(shù)據(jù)異常時,提取目標用戶的信息,所述目標用戶包括點擊了出現(xiàn)異常的商品數(shù)據(jù)的用戶。提取目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù)。根據(jù)所述目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù),檢測作弊用戶的點擊數(shù)。在所述出現(xiàn)異常的商品數(shù)據(jù)中,去除所述作弊用戶的點擊數(shù)。其中,根據(jù)所述目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù)檢測作弊用戶的具體方案,包括:選取點擊數(shù)處于異常范圍的用戶。其中,所述檢測作弊用戶的點擊數(shù)處于異常范圍,所述異常范圍包括:點擊數(shù)處于大于μ+3σ和小于μ-3σ的用戶。或者,點擊數(shù)處于大于μ-2σ和小于μ+2σ的用戶,其中,μ表示正態(tài)分布的數(shù)學期望,σ表示正態(tài)分布的標準差。在本實施例的實際應用中,針對每個商品的用戶點擊量進行正態(tài)分布檢驗,發(fā)現(xiàn)商品用戶點擊量服從正態(tài)分布,其中異常數(shù)值的判定問題滿足拉依達準則法(3σ法則)。即每個商品的用戶點擊總體分布服從正態(tài)分布,滿足P(|x-μ|>3σ)≤0.003,其中,μ和σ分別是正態(tài)分布的數(shù)學期望和標準差。依據(jù)3σ法則,數(shù)值分布在(μ-2σ,μ+2σ)中的概率為0.9544,數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9974,此時,落在大于μ+3σ或小于μ-3σ區(qū)域的概率是很小的,故可以將大于μ+3σ或小于μ-3σ區(qū)域的數(shù)值作為異常值,或者將大于μ-2σ或小于μ+2σ區(qū)域的數(shù)值作為異常值。在本實施例中,通過訓練好的檢測模型解析作弊行為檢測的,判斷每個商品是否作弊,并記錄作弊商品;再利用降權(quán)模塊剔除出現(xiàn)在作弊商品的作弊用戶的點擊數(shù),實現(xiàn)針對作弊用戶的降權(quán)的效果,從而計算每個商品每個用戶的真實點擊量。本發(fā)明實施例還提供一種作弊檢測裝置,如圖3a所示,包括:統(tǒng)計模塊,用于對樣本數(shù)據(jù)進行統(tǒng)計,得到各個樣本的指標參數(shù),其中,一個樣本的指標參數(shù)的維度包括:所述一個樣本的總點擊量、點擊人數(shù)、每小時點擊量、樣本點擊地區(qū)和樣本對應搜索詞的點擊量。特征提取模塊,用于根據(jù)所述指標參數(shù),生成各個樣本的特征參數(shù),其中,一個樣本的特征參數(shù)的維度包括:點擊量離散系數(shù)、每小時點擊量離散系數(shù)、地域集中度、查詢詞多樣性指數(shù)和人均點擊量。分析模塊,用于根據(jù)所述各個樣本的特征參數(shù)建立檢測模型,并根據(jù)所述檢測模型判定待測試的商品數(shù)據(jù)是否異常,所述檢測模型的維度包括所述各個樣本的特征參數(shù)的維度。在本實施例中,所述特征提取模塊,具體用于,對于一個樣本:根據(jù)C=Stdev/Mean獲取所述一個樣本的總點擊量離散系數(shù),其中,Stdev表示所述一個樣本的總點擊量的標準差,Mean表示所述一個樣本的總點擊量的平均數(shù),C表示所述一個樣本的總點擊量離散系數(shù)。根據(jù)C’=Stdev’/Mean’獲取所述一個樣本的指定時段內(nèi)的點擊量離散系數(shù),其中,Stdev’表示所述一個樣本的在指定時段內(nèi)的點擊量的標準差,Mean’表示所述一個樣本的在指定時段內(nèi)的平均數(shù),C’表示所述一個樣本的在指定時段內(nèi)的離散系數(shù)。根據(jù)R=max(ni)/N獲取所述一個樣本的地域集中度,其中,ni表示所述一個樣本的樣本點擊地區(qū)中的單個城市的點擊量,N表示所述一個樣本的樣本點擊地區(qū)中的總點擊量,R表示所述一個樣本的地域集中度。根據(jù)H=-∑(Pi)(lnPi)獲取所述一個樣本的查詢詞多樣性指數(shù),其中,H表示多樣性指數(shù),Pi表示在所述一個樣本的樣本對應搜索詞的點擊量中第i個查詢詞對應的點擊量所占比例,當總點擊量為N時,第i個查詢詞對應的點擊量為ni,則Pi=ni/N。根據(jù)P=N/U獲取所述一個樣本的人均點擊量,其中,N表示所述一個樣本的總點擊量,U表示所述一個樣本的點擊人數(shù),P表示人均點擊量。并重復上述對于所述一個樣本的過程,得到各個樣本的特征參數(shù)。在本實施例中,所述分析模塊,具體用于建立基礎模型(X,Y),其中,X=(x1,x2,x3,x4,x5),Y=(1,0),x1表示點擊量離散系數(shù),x2表示指定時段內(nèi)的點擊量離散系數(shù),x3表示地域集中度,x4表示查詢詞多樣性指數(shù),x5表示人均點擊量,Y=1表示數(shù)據(jù)異常,Y=0表示數(shù)據(jù)正常根據(jù)所述各個樣本的特征參數(shù)訓練所述基礎模型,得到所述檢測模型。本實施例所提供的作弊檢測裝置,如圖3b所示,還包括降權(quán)模塊,所述降權(quán)模塊包括:用戶提取子模塊,用于當待測試的商品數(shù)據(jù)異常時,提取目標用戶的信息,所述目標用戶包括點擊了出現(xiàn)異常的商品數(shù)據(jù)的用戶。點擊數(shù)分析子模塊,用于提取目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù)。并根據(jù)所述目標用戶針對所述出現(xiàn)異常的商品數(shù)據(jù)的點擊數(shù),檢測作弊用戶的點擊數(shù)。篩選子模塊,用于在所述出現(xiàn)異常的商品數(shù)據(jù)中,去除所述作弊用戶的點擊數(shù)。其中,所述檢測作弊用戶的點擊數(shù)處于異常范圍,所述異常范圍包括:點擊數(shù)處于大于μ+3σ和小于μ-3σ的用戶。或者,點擊數(shù)處于大于μ-2σ和小于μ+2σ的用戶,其中,μ表示正態(tài)分布的數(shù)學期望,σ表示正態(tài)分布的標準差。本發(fā)明實施例提供的作弊檢測裝置,分析服務器通過對商品數(shù)據(jù)的各個統(tǒng)計指標進行統(tǒng)計計算,并依據(jù)統(tǒng)計指標進行特征提取,再利用所提取的特征建立并訓練檢測模型,根據(jù)訓練的檢測模型判定異常的商品數(shù)據(jù)。還對作弊用戶進行篩選,將對于商品的點擊數(shù)在異常范圍的用戶,從而在篩選作弊商品的同時,還實現(xiàn)了鎖定作弊用戶的。相對于現(xiàn)有技術(shù)中的人工審核作弊行為的方式,本發(fā)明能夠自動檢測并篩選出作弊商品,并且還能夠鎖定實行作弊行為的用戶,從而在降低審核的成本同時,還能進一步提高自動審查的深度,以便于實現(xiàn)更將復雜的自動審查方案。本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于設備實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-OnlyMemory,ROM)或隨機存儲記憶體(RandomAccessMemory,RAM)等。以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應該以權(quán)利要求的保護范圍為準。當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1