本發(fā)明涉及廣告點(diǎn)擊預(yù)估領(lǐng)域,尤其是指一種基于時(shí)間衰減采樣的廣告點(diǎn)擊預(yù)估方法。
背景技術(shù):
互聯(lián)網(wǎng)在線廣告將廣告投放和實(shí)時(shí)的用戶信息、媒體信息、上下文情景信息相結(jié)合,使得互聯(lián)網(wǎng)在線廣告投放具有技術(shù)導(dǎo)向和計(jì)算導(dǎo)向,廣告可以進(jìn)行精確的受眾定向,每一次廣告決策對(duì)每個(gè)用戶的效果都是可衡量和經(jīng)過精確計(jì)算的。對(duì)于每一個(gè)用戶的廣告請(qǐng)求,在服務(wù)器端都進(jìn)行了用戶與廣告庫(kù)中的廣告的匹配,將最適合的廣告投放給該用戶,以獲得更高的潛在廣告點(diǎn)擊率,得到更多有效點(diǎn)擊,產(chǎn)生更多收益,這種模式通常需要先將用戶進(jìn)行數(shù)字化建模,用一個(gè)正確精準(zhǔn)的模型去刻畫互聯(lián)網(wǎng)用戶的方方面面,然后再用廣告點(diǎn)擊預(yù)估算法去求得模型計(jì)算所需要的權(quán)重。廣告點(diǎn)擊預(yù)估模型的構(gòu)建需要基于過去積累的大量歷史點(diǎn)擊日志,利用用戶歷史點(diǎn)擊日志進(jìn)行大數(shù)據(jù)分析和數(shù)據(jù)挖掘方法,通過構(gòu)建合適的廣告點(diǎn)擊預(yù)估的機(jī)器學(xué)習(xí)模型,進(jìn)行廣告點(diǎn)擊率的預(yù)估,從而進(jìn)行精準(zhǔn)的廣告投放。
在許多機(jī)器學(xué)習(xí)任務(wù)中,可能會(huì)出現(xiàn)目標(biāo)類別分布不平衡現(xiàn)象,例如廣告點(diǎn)擊預(yù)估這種二分類問題中,訓(xùn)練集會(huì)存在某個(gè)類別數(shù)量遠(yuǎn)遠(yuǎn)大于另一個(gè)類別數(shù)量的情況,在這種類別不平衡問題中,如果直接進(jìn)行建模,會(huì)造成結(jié)果偏向數(shù)量大的那一個(gè)類別,為了使得模型學(xué)習(xí)到數(shù)據(jù)的分布,需要解決這種類別不平衡問題。
對(duì)于不平衡的數(shù)據(jù),傳統(tǒng)的學(xué)習(xí)算法無(wú)法很好地發(fā)揮作用,針對(duì)這種問題,有從數(shù)據(jù)方面進(jìn)行改善的解決方法。通過對(duì)原始數(shù)據(jù)進(jìn)行采樣,可以將原本不平衡的數(shù)據(jù)轉(zhuǎn)化為較平衡的數(shù)據(jù),隨機(jī)采樣是一種比較常見的改變數(shù)據(jù)類別分布的采樣方法,隨機(jī)采樣又分為過采樣和欠采樣,過采樣是通過多次有放回的方式,從少數(shù)類中抽取數(shù)據(jù)集,抽取出的數(shù)據(jù)要大于原來(lái)的少數(shù)類數(shù)據(jù),然后再將抽取出的數(shù)據(jù)和原來(lái)的多數(shù)類數(shù)據(jù)結(jié)合,形成完整數(shù)據(jù)集;欠采樣是指從多數(shù)類中隨機(jī)抽取少量的樣本,再和原本的少數(shù)類樣本進(jìn)行結(jié)合,形成完整數(shù)據(jù)集,根據(jù)從多數(shù)類中抽取少量樣本是否放回,欠采樣可以進(jìn)而分為有放回欠采樣和無(wú)放回欠采樣。過采樣和欠采樣都是隨機(jī)的采樣方式,在組成完整數(shù)據(jù)集的過程中,每個(gè)樣本被選擇的機(jī)會(huì)均等,然而在某些情況下,數(shù)據(jù)集的時(shí)間新鮮度是一個(gè)影響訓(xùn)練出的模型的重要因素,應(yīng)該要有某種采樣方式,在隨機(jī)采樣的基礎(chǔ)上,將時(shí)間因素考慮到采樣方法中,從而訓(xùn)練出更加魯棒的模型。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提出了一種基于時(shí)間衰減采樣的廣告點(diǎn)擊預(yù)估方法,將時(shí)間因素融入采樣方法中,此類基于時(shí)間衰減的采樣方法可以延伸到其他跟時(shí)間相關(guān),基于時(shí)間序列的不平衡數(shù)據(jù)中,具有廣泛的應(yīng)用前景。
為實(shí)現(xiàn)上述目的,本發(fā)明所提供的技術(shù)方案為:一種基于時(shí)間衰減采樣的廣告點(diǎn)擊預(yù)估方法,包括以下步驟:
S1、數(shù)據(jù)清洗
對(duì)廣告瀏覽/點(diǎn)擊日志進(jìn)行數(shù)據(jù)清洗,需要將后臺(tái)的數(shù)據(jù)進(jìn)行分析,將廣告瀏覽/點(diǎn)擊日志按標(biāo)志分為RSET和CSET,RSET為所有瀏覽日志的集合,其每條日志標(biāo)記為0,CSET是所有點(diǎn)擊日志集合,其每條日志標(biāo)記為1;在RSET中遍歷每一條瀏覽日志,若對(duì)于一條瀏覽日志Ri,記Ri的點(diǎn)擊時(shí)間為UNIX時(shí)間戳?xí)r間ti,用戶ID為UIDi,廣告ID為AIDi,設(shè)判別時(shí)間間隔閾值為π,如果在CSET中的ti+π范圍內(nèi)有UIDi和AIDi均相同的點(diǎn)擊日志命中,則將該瀏覽日志Ri標(biāo)記為1,如果不命中,則保持Ri的標(biāo)記為0,最后集合RSET為清洗后的廣告點(diǎn)擊數(shù)據(jù)集;
S2、預(yù)處理
對(duì)構(gòu)建的廣告點(diǎn)擊數(shù)據(jù)集RSET進(jìn)行進(jìn)一步過濾篩選、缺失值填補(bǔ)、異常值檢測(cè),具體如下:
S2.1、過濾篩選及缺失值填補(bǔ)
對(duì)廣告點(diǎn)擊數(shù)據(jù)集中不符合值的取值范圍的數(shù)據(jù)進(jìn)行去除處理,對(duì)廣告點(diǎn)擊日志的每個(gè)字段進(jìn)行統(tǒng)計(jì)分析,對(duì)于一個(gè)字段,定義該字段在數(shù)據(jù)集中值為null或者空字符串的記錄為該字段的缺失記錄,數(shù)為n,記數(shù)據(jù)集RSET總記錄數(shù)為N,記閾值則對(duì)于超過預(yù)設(shè)閾值K的字段不進(jìn)行保留,對(duì)于比例在K之內(nèi)的字段,將其缺失值賦予一個(gè)和該字段其他值都不同的新值,作為正常值使用;另外,對(duì)于數(shù)據(jù)中字段值冗余的情況,消除冗余值;
S2.2、異常值檢測(cè)
對(duì)數(shù)據(jù)集中每一個(gè)用戶ID進(jìn)行總點(diǎn)擊次數(shù)的統(tǒng)計(jì),并進(jìn)而按總點(diǎn)擊次數(shù)來(lái)統(tǒng)計(jì)在該點(diǎn)擊次數(shù)下用戶的個(gè)數(shù),記總點(diǎn)擊次數(shù)集合為A={α1,α2,...,αi,...,αn},記相應(yīng)的用戶個(gè)數(shù)集合為B={β1,β2,...,βi,...,βn},假設(shè)αi和βi服從冪律分布,則logαi和logβi呈線性關(guān)系,將logαi和logβi做散點(diǎn)圖,用直線去擬合,將從某個(gè)點(diǎn)開始偏離擬合線的總點(diǎn)擊次數(shù)作為閾值ρ,將總點(diǎn)擊次數(shù)βi大于ρ的用戶作為異常用戶,記正常用戶集合為U,記異常用戶集合為U',將異常用戶集合U'產(chǎn)生的廣告點(diǎn)擊數(shù)據(jù)集合記為SET',將正常用戶集合U產(chǎn)生的廣告點(diǎn)擊數(shù)據(jù)集合記為SET;
S3、時(shí)間衰減采樣
從步驟S2的集合SET中選定連續(xù)的m天作為訓(xùn)練集,第m+1天作為測(cè)試集,針對(duì)訓(xùn)練集,將根據(jù)時(shí)間新鮮度計(jì)算得到的時(shí)間因子作為權(quán)重,分別計(jì)算訓(xùn)練集每天的抽樣比例,將每天抽取的樣本進(jìn)行組合,形成整體的多份抽樣樣本;其中,依據(jù)時(shí)間衰減的抽樣,具體過程如下:
選定連續(xù)的m天作為訓(xùn)練集,第m+1天作為測(cè)試集后,記m天中的第一天為T1,第m天為Tm,由此形成T1,T2,...,Tt,...,Tm的時(shí)間序列數(shù)據(jù);根據(jù)日期新鮮度為采樣引入時(shí)間因子,記λt為Tt那天的采樣比例,則λt-1為Tt前一天的采樣比例,λt+1為Tt后一天的采樣比例;所述時(shí)間衰減采樣即是λt-1<λt<λt+1的一種采樣方式,其中λt由時(shí)間衰減函數(shù)計(jì)算所得,得到λt后,若Tt的少數(shù)類數(shù)量為s,則應(yīng)該按照欠采樣抽取出λts的多數(shù)類數(shù)量;
時(shí)間衰減采樣有三個(gè)參數(shù)m,λ1和λm,這三個(gè)參數(shù)由人為指定,m為訓(xùn)練集所包含的日期的天數(shù),λ1為第一天的采樣比例,λm為第m天的采樣比例,其中λ1與λm需要滿足0<λ1<λm,不同的模型能夠根據(jù)實(shí)際情況對(duì)這三個(gè)參數(shù)進(jìn)行相應(yīng)調(diào)優(yōu);本采樣通過時(shí)間衰減函數(shù)來(lái)確定采樣比例,時(shí)間衰減函數(shù)為λt=at2+b,根據(jù)人為確定的λ1和λm,時(shí)間衰減函數(shù)中的參數(shù)a和b通過公式(1)(2)求出:
則,在給定m,λ1和λm下,時(shí)間衰減函數(shù)為公式(3):
因此,每一天的采樣比例能夠根據(jù)公式(3)得到;
確定了時(shí)間衰減函數(shù),并通過時(shí)間衰減函數(shù)為Tt計(jì)算出相應(yīng)的采樣比例λt,由此能夠得到訓(xùn)練集的時(shí)間衰減采樣比例序列{λ1,λ2,...,λt,...,λm},根據(jù)采樣比例序列{λ1,λ2,...,λt,...,λm}得到訓(xùn)練集的m份采樣數(shù)據(jù):記Tt的少數(shù)類集合為pt,多數(shù)類集合為qt,|qt|為qt包含的記錄總數(shù),然后根據(jù)采樣比例λt從qt中隨機(jī)抽取出λt|qt|數(shù)量的集合,記為q't;記從Tt采樣出的數(shù)據(jù)集為St,則有St=pt∪q't,記最終的第i(0≤i≤m)份樣本集為Dt,則Dt由公式得到,如此就能夠得到需要的m份采樣數(shù)據(jù){D1,D2,...,Dt,...,Dm};
S4、混合模型構(gòu)建
S4.1、正常用戶建模
根據(jù)步驟S2的集合SET,得到步驟S3構(gòu)建的m份抽樣樣本序列{D1,D2,...,Dt,...,Dm}后,分別為每個(gè)樣本集Dt訓(xùn)練邏輯回歸模型Mt,由此得到m個(gè)邏輯回歸模型{M1,M2,...,Mt,...,Mm};
S4.2、異常用戶建模
根據(jù)步驟S2的集合SET',確定好和SET一樣的訓(xùn)練集和測(cè)試集日期,用所有訓(xùn)練數(shù)據(jù)訓(xùn)練出邏輯回歸模型M';
S4.3、點(diǎn)擊預(yù)測(cè)
根據(jù)步驟S2得到的正常用戶集合U,異常用戶集合U',針對(duì)每一條用戶瀏覽請(qǐng)求,若其用戶UIDi∈U,記步驟S4.1的邏輯回歸模型Mt的預(yù)測(cè)值為εt,使用時(shí)間衰減的方式進(jìn)行廣告點(diǎn)擊概率的融合,將時(shí)間因子引進(jìn)模型權(quán)重的計(jì)算中,根據(jù)步驟S3中得到的采樣比例序列{λ1,λ2,...,λt,...,λm}以及邏輯回歸模型{M1,M2,...,Mt,...,Mm},在模型融合時(shí),分別為每個(gè)邏輯回歸模型Mt賦予時(shí)間衰減的參數(shù),具體地,記采樣比例序列元素之和為將{λ1,λ2,...,λt,...,λm}的每一個(gè)元素進(jìn)行歸一化,記λt歸一化之后的值為λ't,則記最終的預(yù)估概率值為E,則若用戶UIDi∈U',則直接用模型M'得到該用戶的廣告點(diǎn)擊概率。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)與有益效果:
1、本發(fā)明利用冪律分布來(lái)模擬廣告點(diǎn)擊行為,并利用冪律分布來(lái)檢測(cè)工業(yè)界廣告點(diǎn)擊數(shù)據(jù)的異常用戶,能夠用一種非常符合用戶行為客觀規(guī)律的方式來(lái)進(jìn)行異常數(shù)據(jù)排除,并且閾值是依據(jù)數(shù)據(jù)而確定的,并不是一層不變的,提供一定的調(diào)節(jié)空間。異常用戶包含潛在的日志數(shù)據(jù)異常以及點(diǎn)擊作弊用戶,利用本方法所述的方式可以很好地將異常數(shù)據(jù)和作弊用戶排除出去,從而為模型構(gòu)建提供較好的數(shù)據(jù)集。
2、本發(fā)明通過在采樣中引入時(shí)間因子,對(duì)時(shí)間序列數(shù)據(jù)的不平衡問題提供了一種采樣并盡量不失時(shí)間新鮮度的方法,通過采樣降低了數(shù)據(jù)不平衡性,并依據(jù)時(shí)間新鮮度提高具有較近時(shí)間的數(shù)據(jù)比例,降低較遠(yuǎn)時(shí)間數(shù)據(jù)的比例。本方法不同于普通的欠采樣、過采樣等隨機(jī)采樣方式,用戶只需要定義簡(jiǎn)單的兩個(gè)參數(shù),便可以由采樣算法依據(jù)時(shí)間衰減函數(shù)自動(dòng)去確定一種緩和下降的采樣比例序列。通過這種方式,采樣比例序列可以由用戶動(dòng)態(tài)調(diào)節(jié),為模型構(gòu)建提供一種調(diào)優(yōu)參數(shù)。
3、本發(fā)明通過將時(shí)間因子引入模型融合的權(quán)重當(dāng)中,為每個(gè)模型設(shè)置不同的融合權(quán)重,并且權(quán)重的設(shè)置與時(shí)間新鮮度相關(guān),融合權(quán)重的序列可由用戶動(dòng)態(tài)調(diào)節(jié)。不同于常規(guī)的平均模型融合法,本方法通過賦予不同模型不同的融合權(quán)重,使得廣告點(diǎn)擊預(yù)估模型對(duì)更近的數(shù)據(jù)有更好的數(shù)據(jù)學(xué)習(xí)能力,更能捕捉到時(shí)間更近的數(shù)據(jù)的特征,從而達(dá)到更好的預(yù)估效果。
附圖說明
圖1為本發(fā)明方法的處理步驟流程圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。
如圖1所示,本實(shí)施例所述的基于時(shí)間衰減采樣的廣告點(diǎn)擊預(yù)估方法,包括以下步驟:
步驟S1、數(shù)據(jù)清洗
對(duì)廣告瀏覽/點(diǎn)擊日志進(jìn)行數(shù)據(jù)清洗,需要將后臺(tái)的數(shù)據(jù)進(jìn)行分析,將廣告瀏覽/點(diǎn)擊日志按標(biāo)志分為RSET和CSET,RSET為所有瀏覽日志的集合,其每條日志標(biāo)記為0,CSET是所有點(diǎn)擊日志集合,其每條日志標(biāo)記為1。在RSET中遍歷每一條瀏覽日志,若對(duì)于一條瀏覽日志Ri,記Ri的點(diǎn)擊時(shí)間為UNIX時(shí)間戳?xí)r間ti,用戶ID為UIDi,廣告ID為AIDi,設(shè)判別時(shí)間間隔閾值為π,如果在CSET中的ti+π范圍內(nèi)有UIDi和AIDi均相同的點(diǎn)擊日志命中,則將該瀏覽日志Ri標(biāo)記為1,如果不命中,則保持Ri的標(biāo)記為0,最后集合RSET為清洗后的廣告點(diǎn)擊數(shù)據(jù)集。
步驟S2、預(yù)處理
對(duì)構(gòu)建的廣告點(diǎn)擊數(shù)據(jù)集RSET進(jìn)行進(jìn)一步過濾篩選、缺失值填補(bǔ)、異常值檢測(cè)等預(yù)處理,具體如下:
步驟S2.1、過濾篩選及缺失值填補(bǔ)
對(duì)廣告點(diǎn)擊數(shù)據(jù)集中明顯不符合值的取值范圍的數(shù)據(jù)進(jìn)行去除處理,對(duì)廣告點(diǎn)擊日志的每個(gè)字段進(jìn)行統(tǒng)計(jì)分析,對(duì)于一個(gè)字段,定義該字段在數(shù)據(jù)集中值為null或者空字符串的記錄為該字段的缺失記錄,數(shù)為n,記數(shù)據(jù)集RSET總記錄數(shù)為N,記閾值則對(duì)于超過一定閾值K的字段不進(jìn)行保留,對(duì)于比例在K之內(nèi)的字段,將其缺失值賦予一個(gè)和該字段其他值都不同的新值,作為正常值使用;另外,對(duì)于數(shù)據(jù)中字段值冗余的情況,消除冗余值。
步驟S2.2、異常值檢測(cè)
對(duì)數(shù)據(jù)集中每一個(gè)用戶ID進(jìn)行總點(diǎn)擊次數(shù)的統(tǒng)計(jì),并進(jìn)而按總點(diǎn)擊次數(shù)來(lái)統(tǒng)計(jì)在該點(diǎn)擊次數(shù)下用戶的個(gè)數(shù),記總點(diǎn)擊次數(shù)集合為A={α1,α2,...,αi,...,αn},記相應(yīng)的用戶個(gè)數(shù)集合為B={β1,β2,...,βi,...,βn},假設(shè)αi和βi服從冪律分布,則logαi和logβi呈線性關(guān)系,將logαi和logβi做散點(diǎn)圖,用直線去擬合,將從某個(gè)點(diǎn)開始明顯偏離擬合線的總點(diǎn)擊次數(shù)作為閾值ρ,將總點(diǎn)擊次數(shù)βi大于ρ的用戶作為異常用戶,記正常用戶集合為U,記異常用戶集合為U',將異常用戶集合U'產(chǎn)生的廣告點(diǎn)擊數(shù)據(jù)集合記為SET',將正常用戶集合U產(chǎn)生的廣告點(diǎn)擊數(shù)據(jù)集合記為SET。
步驟S3、時(shí)間衰減采樣
從步驟S2中的集合SET中選定連續(xù)的m天作為訓(xùn)練集,第m+1天作為測(cè)試集,針對(duì)訓(xùn)練集,將根據(jù)時(shí)間新鮮度計(jì)算得到的時(shí)間因子作為權(quán)重,分別計(jì)算訓(xùn)練集每天的抽樣比例,將每天抽取的樣本進(jìn)行組合,形成整體的多份抽樣樣本。其中,依據(jù)時(shí)間衰減的抽樣,具體過程如下:
選定連續(xù)的m天作為訓(xùn)練集,第m+1天作為測(cè)試集后,記m天中的第一天為T1,第m天為Tm,由此形成T1,T2,...,Tt,...,Tm的時(shí)間序列數(shù)據(jù),根據(jù)日期新鮮度為采樣引入時(shí)間因子,記λt為Tt那天的采樣比例,則λt-1為Tt前一天的采樣比例,λt+1為Tt后一天的采樣比例。所述時(shí)間衰減采樣即是λt-1<λt<λt+1的一種采樣方式,其中λt由時(shí)間衰減函數(shù)計(jì)算所得,具體由下面內(nèi)容闡述,得到λt后,若Tt的少數(shù)類數(shù)量為s,則應(yīng)該按照欠采樣抽取出λts的多數(shù)類數(shù)量。
時(shí)間衰減采樣有三個(gè)參數(shù)m,λ1和λm,這三個(gè)參數(shù)由人為指定,m為訓(xùn)練集所包含的日期的天數(shù),λ1為第一天的采樣比例,λm為第m天的采樣比例,其中λ1與λm需要滿足0<λ1<λm,不同的模型可以根據(jù)實(shí)際情況對(duì)這三個(gè)參數(shù)進(jìn)行相應(yīng)調(diào)優(yōu)。本采樣通過時(shí)間衰減函數(shù)來(lái)確定采樣比例,時(shí)間衰減函數(shù)為λt=at2+b,根據(jù)人為確定的λ1和λm,時(shí)間衰減函數(shù)中的參數(shù)a和b可以通過公式(1)(2)求出:
則,在給定m,λ1和λm下,時(shí)間衰減函數(shù)為公式(3):
因此,每一天的采樣比例可以根據(jù)公式(3)得到。
上面確定了時(shí)間衰減函數(shù),并可以通過時(shí)間衰減函數(shù)為Tt計(jì)算出相應(yīng)的采樣比例λt,由此可以得到訓(xùn)練集的時(shí)間衰減采樣比例序列{λ1,λ2,...,λt,...,λm},根據(jù)采樣比例序列{λ1,λ2,...,λt,...,λm}得到訓(xùn)練集的m份采樣數(shù)據(jù):記Tt的少數(shù)類集合為pt,多數(shù)類集合為qt,|qt|為qt包含的記錄總數(shù),然后根據(jù)采樣比例λt從qt中隨機(jī)抽取出λt|qt|數(shù)量的集合,記為q't;記從Tt采樣出的數(shù)據(jù)集為St,則根據(jù)本采樣算法有St=pt∪q't,記最終的第i(0≤i≤m)份樣本集為Dt,則Dt由公式得到,如此可以得到算法需要的m份采樣數(shù)據(jù){D1,D2,...,Dt,...,Dm}。
步驟S4、混合模型構(gòu)建
步驟S4.1、正常用戶建模
根據(jù)步驟S2的集合SET,得到步驟S3構(gòu)建的m份抽樣樣本序列{D1,D2,...,Dt,...,Dm}后,分別為每個(gè)樣本集Dt訓(xùn)練邏輯回歸模型Mt,由此可以得到m個(gè)邏輯回歸模型{M1,M2,...,Mt,...,Mm}。
步驟S4.2、異常用戶建模
根據(jù)步驟S2的集合SET',確定好和SET一樣的訓(xùn)練集和測(cè)試集日期,用所有訓(xùn)練數(shù)據(jù)訓(xùn)練出邏輯回歸模型M'。
步驟S4.3、點(diǎn)擊預(yù)測(cè)
根據(jù)步驟S2得到的正常用戶集合U,異常用戶集合U',針對(duì)每一條用戶瀏覽請(qǐng)求,若其用戶UIDi∈U,記步驟S4.1的邏輯回歸模型Mt的預(yù)測(cè)值為εt,使用時(shí)間衰減的方式進(jìn)行廣告點(diǎn)擊概率的融合,將時(shí)間因子引進(jìn)模型權(quán)重的計(jì)算中,根據(jù)步驟S3中得到的采樣比例序列{λ1,λ2,...,λt,...,λm}以及邏輯回歸模型{M1,M2,...,Mt,...,Mm},在模型融合時(shí),分別為每個(gè)邏輯回歸模型Mt賦予時(shí)間衰減的參數(shù),具體地,記采樣比例序列元素之和為將{λ1,λ2,...,λt,...,λm}的每一個(gè)元素進(jìn)行歸一化,記λt歸一化之后的值為λ't,則記最終的預(yù)估概率值為E,則若用戶UIDi∈U',則直接用模型M'得到該用戶的廣告點(diǎn)擊概率。
綜上所述,本發(fā)明將時(shí)間因素融入采樣方法中,主體思想是從離測(cè)試集日期近的數(shù)據(jù)中多采樣,離測(cè)試集日期遠(yuǎn)的數(shù)據(jù)中少采樣,采樣量依據(jù)時(shí)間的遠(yuǎn)近呈現(xiàn)一個(gè)漸變的趨勢(shì),通過將采樣數(shù)據(jù)進(jìn)行時(shí)間維度上的劃分,構(gòu)建出適合廣告點(diǎn)擊預(yù)估的訓(xùn)練數(shù)據(jù),再通過多模型融合的方法,為廣告點(diǎn)擊預(yù)估構(gòu)建出更加精準(zhǔn)和有效的模型。此類基于時(shí)間衰減的采樣方法可以延伸到其他跟時(shí)間相關(guān),基于時(shí)間序列的不平衡數(shù)據(jù)中,具有廣泛的應(yīng)用前景,值得推廣。
以上所述實(shí)施例只為本發(fā)明之較佳實(shí)施例,并非以此限制本發(fā)明的實(shí)施范圍,故凡依本發(fā)明之形狀、原理所作的變化,均應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。