1.一種基于時間衰減采樣的廣告點擊預(yù)估方法,其特征在于,包括以下步驟:
S1、數(shù)據(jù)清洗
對廣告瀏覽/點擊日志進行數(shù)據(jù)清洗,需要將后臺的數(shù)據(jù)進行分析,將廣告瀏覽/點擊日志按標(biāo)志分為RSET和CSET,RSET為所有瀏覽日志的集合,其每條日志標(biāo)記為0,CSET是所有點擊日志集合,其每條日志標(biāo)記為1;在RSET中遍歷每一條瀏覽日志,若對于一條瀏覽日志Ri,記Ri的點擊時間為UNIX時間戳?xí)r間ti,用戶ID為UIDi,廣告ID為AIDi,設(shè)判別時間間隔閾值為π,如果在CSET中的ti+π范圍內(nèi)有UIDi和AIDi均相同的點擊日志命中,則將該瀏覽日志Ri標(biāo)記為1,如果不命中,則保持Ri的標(biāo)記為0,最后集合RSET為清洗后的廣告點擊數(shù)據(jù)集;
S2、預(yù)處理
對構(gòu)建的廣告點擊數(shù)據(jù)集RSET進行進一步過濾篩選、缺失值填補、異常值檢測,具體如下:
S2.1、過濾篩選及缺失值填補
對廣告點擊數(shù)據(jù)集中不符合值的取值范圍的數(shù)據(jù)進行去除處理,對廣告點擊日志的每個字段進行統(tǒng)計分析,對于一個字段,定義該字段在數(shù)據(jù)集中值為null或者空字符串的記錄為該字段的缺失記錄,數(shù)為n,記數(shù)據(jù)集RSET總記錄數(shù)為N,記閾值則對于超過預(yù)設(shè)閾值K的字段不進行保留,對于比例在K之內(nèi)的字段,將其缺失值賦予一個和該字段其他值都不同的新值,作為正常值使用;另外,對于數(shù)據(jù)中字段值冗余的情況,消除冗余值;
S2.2、異常值檢測
對數(shù)據(jù)集中每一個用戶ID進行總點擊次數(shù)的統(tǒng)計,并進而按總點擊次數(shù)來統(tǒng)計在該點擊次數(shù)下用戶的個數(shù),記總點擊次數(shù)集合為A={α1,α2,...,αi,...,αn},記相應(yīng)的用戶個數(shù)集合為B={β1,β2,...,βi,...,βn},假設(shè)αi和βi服從冪律分布,則logαi和logβi呈線性關(guān)系,將logαi和logβi做散點圖,用直線去擬合,將從某個點開始偏離擬合線的總點擊次數(shù)作為閾值ρ,將總點擊次數(shù)βi大于ρ的用戶作為異常用戶,記正常用戶集合為U,記異常用戶集合為U',將異常用戶集合U'產(chǎn)生的廣告點擊數(shù)據(jù)集合記為SET',將正常用戶集合U產(chǎn)生的廣告點擊數(shù)據(jù)集合記為SET;
S3、時間衰減采樣
從步驟S2的集合SET中選定連續(xù)的m天作為訓(xùn)練集,第m+1天作為測試集,針對訓(xùn)練集,將根據(jù)時間新鮮度計算得到的時間因子作為權(quán)重,分別計算訓(xùn)練集每天的抽樣比例,將每天抽取的樣本進行組合,形成整體的多份抽樣樣本;其中,依據(jù)時間衰減的抽樣,具體過程如下:
選定連續(xù)的m天作為訓(xùn)練集,第m+1天作為測試集后,記m天中的第一天為T1,第m天為Tm,由此形成T1,T2,...,Tt,...,Tm的時間序列數(shù)據(jù);根據(jù)日期新鮮度為采樣引入時間因子,記λt為Tt那天的采樣比例,則λt-1為Tt前一天的采樣比例,λt+1為Tt后一天的采樣比例;所述時間衰減采樣即是λt-1<λt<λt+1的一種采樣方式,其中λt由時間衰減函數(shù)計算所得,得到λt后,若Tt的少數(shù)類數(shù)量為s,則應(yīng)該按照欠采樣抽取出λts的多數(shù)類數(shù)量;
時間衰減采樣有三個參數(shù)m,λ1和λm,這三個參數(shù)由人為指定,m為訓(xùn)練集所包含的日期的天數(shù),λ1為第一天的采樣比例,λm為第m天的采樣比例,其中λ1與λm需要滿足0<λ1<λm,不同的模型能夠根據(jù)實際情況對這三個參數(shù)進行相應(yīng)調(diào)優(yōu);本采樣通過時間衰減函數(shù)來確定采樣比例,時間衰減函數(shù)為λt=at2+b,根據(jù)人為確定的λ1和λm,時間衰減函數(shù)中的參數(shù)a和b通過公式(1)(2)求出:
則,在給定m,λ1和λm下,時間衰減函數(shù)為公式(3):
因此,每一天的采樣比例能夠根據(jù)公式(3)得到;
確定了時間衰減函數(shù),并通過時間衰減函數(shù)為Tt計算出相應(yīng)的采樣比例λt,由此能夠得到訓(xùn)練集的時間衰減采樣比例序列{λ1,λ2,...,λt,...,λm},根據(jù)采樣比例序列{λ1,λ2,...,λt,...,λm}得到訓(xùn)練集的m份采樣數(shù)據(jù):記Tt的少數(shù)類集合為pt,多數(shù)類集合為qt,|qt|為qt包含的記錄總數(shù),然后根據(jù)采樣比例λt從qt中隨機抽取出λt|qt|數(shù)量的集合,記為q′t;記從Tt采樣出的數(shù)據(jù)集為St,則有St=pt∪q′t,記最終的第i(0≤i≤m)份樣本集為Dt,則Dt由公式得到,如此就能夠得到需要的m份采樣數(shù)據(jù){D1,D2,...,Dt,...,Dm};
S4、混合模型構(gòu)建
S4.1、正常用戶建模
根據(jù)步驟S2的集合SET,得到步驟S3構(gòu)建的m份抽樣樣本序列{D1,D2,...,Dt,...,Dm}后,分別為每個樣本集Dt訓(xùn)練邏輯回歸模型Mt,由此得到m個邏輯回歸模型{M1,M2,...,Mt,...,Mm};
S4.2、異常用戶建模
根據(jù)步驟S2的集合SET',確定好和SET一樣的訓(xùn)練集和測試集日期,用所有訓(xùn)練數(shù)據(jù)訓(xùn)練出邏輯回歸模型M';
S4.3、點擊預(yù)測
根據(jù)步驟S2得到的正常用戶集合U,異常用戶集合U',針對每一條用戶瀏覽請求,若其用戶UIDi∈U,記步驟S4.1的邏輯回歸模型Mt的預(yù)測值為εt,使用時間衰減的方式進行廣告點擊概率的融合,將時間因子引進模型權(quán)重的計算中,根據(jù)步驟S3中得到的采樣比例序列{λ1,λ2,...,λt,...,λm}以及邏輯回歸模型{M1,M2,...,Mt,...,Mm},在模型融合時,分別為每個邏輯回歸模型Mt賦予時間衰減的參數(shù),具體地,記采樣比例序列元素之和為將{λ1,λ2,...,λt,...,λm}的每一個元素進行歸一化,記λt歸一化之后的值為λt',則記最終的預(yù)估概率值為E,則若用戶UIDi∈U',則直接用模型M'得到該用戶的廣告點擊概率。