一種基于時(shí)間衰減采樣的廣告點(diǎn)擊預(yù)估方法與流程

文檔序號(hào)：12722024閱讀：277來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及廣告點(diǎn)擊預(yù)估領(lǐng)域，尤其是指一種基于時(shí)間衰減采樣的廣告點(diǎn)擊預(yù)估方法。

背景技術(shù)：

互聯(lián)網(wǎng)在線廣告將廣告投放和實(shí)時(shí)的用戶信息、媒體信息、上下文情景信息相結(jié)合，使得互聯(lián)網(wǎng)在線廣告投放具有技術(shù)導(dǎo)向和計(jì)算導(dǎo)向，廣告可以進(jìn)行精確的受眾定向，每一次廣告決策對(duì)每個(gè)用戶的效果都是可衡量和經(jīng)過精確計(jì)算的。對(duì)于每一個(gè)用戶的廣告請(qǐng)求，在服務(wù)器端都進(jìn)行了用戶與廣告庫(kù)中的廣告的匹配，將最適合的廣告投放給該用戶，以獲得更高的潛在廣告點(diǎn)擊率，得到更多有效點(diǎn)擊，產(chǎn)生更多收益，這種模式通常需要先將用戶進(jìn)行數(shù)字化建模，用一個(gè)正確精準(zhǔn)的模型去刻畫互聯(lián)網(wǎng)用戶的方方面面，然后再用廣告點(diǎn)擊預(yù)估算法去求得模型計(jì)算所需要的權(quán)重。廣告點(diǎn)擊預(yù)估模型的構(gòu)建需要基于過去積累的大量歷史點(diǎn)擊日志，利用用戶歷史點(diǎn)擊日志進(jìn)行大數(shù)據(jù)分析和數(shù)據(jù)挖掘方法，通過構(gòu)建合適的廣告點(diǎn)擊預(yù)估的機(jī)器學(xué)習(xí)模型，進(jìn)行廣告點(diǎn)擊率的預(yù)估，從而進(jìn)行精準(zhǔn)的廣告投放。

在許多機(jī)器學(xué)習(xí)任務(wù)中，可能會(huì)出現(xiàn)目標(biāo)類別分布不平衡現(xiàn)象，例如廣告點(diǎn)擊預(yù)估這種二分類問題中，訓(xùn)練集會(huì)存在某個(gè)類別數(shù)量遠(yuǎn)遠(yuǎn)大于另一個(gè)類別數(shù)量的情況，在這種類別不平衡問題中，如果直接進(jìn)行建模，會(huì)造成結(jié)果偏向數(shù)量大的那一個(gè)類別，為了使得模型學(xué)習(xí)到數(shù)據(jù)的分布，需要解決這種類別不平衡問題。

對(duì)于不平衡的數(shù)據(jù)，傳統(tǒng)的學(xué)習(xí)算法無(wú)法很好地發(fā)揮作用，針對(duì)這種問題，有從數(shù)據(jù)方面進(jìn)行改善的解決方法。通過對(duì)原始數(shù)據(jù)進(jìn)行采樣，可以將原本不平衡的數(shù)據(jù)轉(zhuǎn)化為較平衡的數(shù)據(jù)，隨機(jī)采樣是一種比較常見的改變數(shù)據(jù)類別分布的采樣方法，隨機(jī)采樣又分為過采樣和欠采樣，過采樣是通過多次有放回的方式，從少數(shù)類中抽取數(shù)據(jù)集，抽取出的數(shù)據(jù)要大于原來(lái)的少數(shù)類數(shù)據(jù)，然后再將抽取出的數(shù)據(jù)和原來(lái)的多數(shù)類數(shù)據(jù)結(jié)合，形成完整數(shù)據(jù)集；欠采樣是指從多數(shù)類中隨機(jī)抽取少量的樣本，再和原本的少數(shù)類樣本進(jìn)行結(jié)合，形成完整數(shù)據(jù)集，根據(jù)從多數(shù)類中抽取少量樣本是否放回，欠采樣可以進(jìn)而分為有放回欠采樣和無(wú)放回欠采樣。過采樣和欠采樣都是隨機(jī)的采樣方式，在組成完整數(shù)據(jù)集的過程中，每個(gè)樣本被選擇的機(jī)會(huì)均等，然而在某些情況下，數(shù)據(jù)集的時(shí)間新鮮度是一個(gè)影響訓(xùn)練出的模型的重要因素，應(yīng)該要有某種采樣方式，在隨機(jī)采樣的基礎(chǔ)上，將時(shí)間因素考慮到采樣方法中，從而訓(xùn)練出更加魯棒的模型。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提出了一種基于時(shí)間衰減采樣的廣告點(diǎn)擊預(yù)估方法，將時(shí)間因素融入采樣方法中，此類基于時(shí)間衰減的采樣方法可以延伸到其他跟時(shí)間相關(guān)，基于時(shí)間序列的不平衡數(shù)據(jù)中，具有廣泛的應(yīng)用前景。

為實(shí)現(xiàn)上述目的，本發(fā)明所提供的技術(shù)方案為：一種基于時(shí)間衰減采樣的廣告點(diǎn)擊預(yù)估方法，包括以下步驟：

S1、數(shù)據(jù)清洗

對(duì)廣告瀏覽/點(diǎn)擊日志進(jìn)行數(shù)據(jù)清洗，需要將后臺(tái)的數(shù)據(jù)進(jìn)行分析，將廣告瀏覽/點(diǎn)擊日志按標(biāo)志分為RSET和CSET,RSET為所有瀏覽日志的集合，其每條日志標(biāo)記為0，CSET是所有點(diǎn)擊日志集合，其每條日志標(biāo)記為1；在RSET中遍歷每一條瀏覽日志，若對(duì)于一條瀏覽日志R_i，記R_i的點(diǎn)擊時(shí)間為UNIX時(shí)間戳?xí)r間t_i，用戶ID為UID_i，廣告ID為AID_i，設(shè)判別時(shí)間間隔閾值為π，如果在CSET中的t_i+π范圍內(nèi)有UID_i和AID_i均相同的點(diǎn)擊日志命中，則將該瀏覽日志R_i標(biāo)記為1，如果不命中，則保持R_i的標(biāo)記為0，最后集合RSET為清洗后的廣告點(diǎn)擊數(shù)據(jù)集；

S2、預(yù)處理

對(duì)構(gòu)建的廣告點(diǎn)擊數(shù)據(jù)集RSET進(jìn)行進(jìn)一步過濾篩選、缺失值填補(bǔ)、異常值檢測(cè)，具體如下：

S2.1、過濾篩選及缺失值填補(bǔ)

對(duì)廣告點(diǎn)擊數(shù)據(jù)集中不符合值的取值范圍的數(shù)據(jù)進(jìn)行去除處理，對(duì)廣告點(diǎn)擊日志的每個(gè)字段進(jìn)行統(tǒng)計(jì)分析，對(duì)于一個(gè)字段，定義該字段在數(shù)據(jù)集中值為null或者空字符串的記錄為該字段的缺失記錄，數(shù)為n，記數(shù)據(jù)集RSET總記錄數(shù)為N，記閾值則對(duì)于超過預(yù)設(shè)閾值K的字段不進(jìn)行保留，對(duì)于比例在K之內(nèi)的字段，將其缺失值賦予一個(gè)和該字段其他值都不同的新值，作為正常值使用；另外，對(duì)于數(shù)據(jù)中字段值冗余的情況，消除冗余值；

S2.2、異常值檢測(cè)

對(duì)數(shù)據(jù)集中每一個(gè)用戶ID進(jìn)行總點(diǎn)擊次數(shù)的統(tǒng)計(jì)，并進(jìn)而按總點(diǎn)擊次數(shù)來(lái)統(tǒng)計(jì)在該點(diǎn)擊次數(shù)下用戶的個(gè)數(shù)，記總點(diǎn)擊次數(shù)集合為A＝{α₁,α₂,...,α_i,...,α_n}，記相應(yīng)的用戶個(gè)數(shù)集合為B＝{β₁,β₂,...,β_i,...,β_n},假設(shè)α_i和β_i服從冪律分布，則logα_i和logβ_i呈線性關(guān)系，將logα_i和logβ_i做散點(diǎn)圖，用直線去擬合，將從某個(gè)點(diǎn)開始偏離擬合線的總點(diǎn)擊次數(shù)作為閾值ρ，將總點(diǎn)擊次數(shù)β_i大于ρ的用戶作為異常用戶，記正常用戶集合為U，記異常用戶集合為U'，將異常用戶集合U'產(chǎn)生的廣告點(diǎn)擊數(shù)據(jù)集合記為SET'，將正常用戶集合U產(chǎn)生的廣告點(diǎn)擊數(shù)據(jù)集合記為SET；

S3、時(shí)間衰減采樣

從步驟S2的集合SET中選定連續(xù)的m天作為訓(xùn)練集，第m+1天作為測(cè)試集，針對(duì)訓(xùn)練集，將根據(jù)時(shí)間新鮮度計(jì)算得到的時(shí)間因子作為權(quán)重，分別計(jì)算訓(xùn)練集每天的抽樣比例，將每天抽取的樣本進(jìn)行組合，形成整體的多份抽樣樣本；其中，依據(jù)時(shí)間衰減的抽樣，具體過程如下：

選定連續(xù)的m天作為訓(xùn)練集，第m+1天作為測(cè)試集后，記m天中的第一天為T₁，第m天為T_m，由此形成T₁,T₂,...,T_t,...,T_m的時(shí)間序列數(shù)據(jù)；根據(jù)日期新鮮度為采樣引入時(shí)間因子，記λ_t為T_t那天的采樣比例，則λ_t-1為T_t前一天的采樣比例，λ_t+1為T_t后一天的采樣比例；所述時(shí)間衰減采樣即是λ_t-1＜λ_t＜λ_t+1的一種采樣方式，其中λ_t由時(shí)間衰減函數(shù)計(jì)算所得，得到λ_t后，若T_t的少數(shù)類數(shù)量為s，則應(yīng)該按照欠采樣抽取出λ_ts的多數(shù)類數(shù)量；

時(shí)間衰減采樣有三個(gè)參數(shù)m，λ₁和λ_m，這三個(gè)參數(shù)由人為指定，m為訓(xùn)練集所包含的日期的天數(shù)，λ₁為第一天的采樣比例，λ_m為第m天的采樣比例，其中λ₁與λ_m需要滿足0＜λ₁＜λ_m，不同的模型能夠根據(jù)實(shí)際情況對(duì)這三個(gè)參數(shù)進(jìn)行相應(yīng)調(diào)優(yōu)；本采樣通過時(shí)間衰減函數(shù)來(lái)確定采樣比例，時(shí)間衰減函數(shù)為λ_t＝at²+b，根據(jù)人為確定的λ₁和λ_m，時(shí)間衰減函數(shù)中的參數(shù)a和b通過公式(1)(2)求出:

則，在給定m，λ₁和λ_m下，時(shí)間衰減函數(shù)為公式(3)：

因此，每一天的采樣比例能夠根據(jù)公式(3)得到；

確定了時(shí)間衰減函數(shù)，并通過時(shí)間衰減函數(shù)為T_t計(jì)算出相應(yīng)的采樣比例λ_t，由此能夠得到訓(xùn)練集的時(shí)間衰減采樣比例序列{λ₁,λ₂,...,λ_t,...,λ_m}，根據(jù)采樣比例序列{λ₁,λ₂,...,λ_t,...,λ_m}得到訓(xùn)練集的m份采樣數(shù)據(jù)：記T_t的少數(shù)類集合為p_t，多數(shù)類集合為q_t，|q_t|為q_t包含的記錄總數(shù)，然后根據(jù)采樣比例λ_t從q_t中隨機(jī)抽取出λ_t|q_t|數(shù)量的集合，記為q'_t；記從T_t采樣出的數(shù)據(jù)集為S_t，則有S_t＝p_t∪q'_t，記最終的第i(0≤i≤m)份樣本集為D_t，則D_t由公式得到，如此就能夠得到需要的m份采樣數(shù)據(jù){D₁,D₂,...,D_t,...,D_m}；

S4、混合模型構(gòu)建

S4.1、正常用戶建模

根據(jù)步驟S2的集合SET，得到步驟S3構(gòu)建的m份抽樣樣本序列{D₁,D₂,...,D_t,...,D_m}后，分別為每個(gè)樣本集D_t訓(xùn)練邏輯回歸模型M_t，由此得到m個(gè)邏輯回歸模型{M₁,M₂,...,M_t,...,M_m}；

S4.2、異常用戶建模

根據(jù)步驟S2的集合SET'，確定好和SET一樣的訓(xùn)練集和測(cè)試集日期，用所有訓(xùn)練數(shù)據(jù)訓(xùn)練出邏輯回歸模型M'；

S4.3、點(diǎn)擊預(yù)測(cè)

根據(jù)步驟S2得到的正常用戶集合U，異常用戶集合U'，針對(duì)每一條用戶瀏覽請(qǐng)求，若其用戶UID_i∈U，記步驟S4.1的邏輯回歸模型M_t的預(yù)測(cè)值為ε_t，使用時(shí)間衰減的方式進(jìn)行廣告點(diǎn)擊概率的融合，將時(shí)間因子引進(jìn)模型權(quán)重的計(jì)算中，根據(jù)步驟S3中得到的采樣比例序列{λ₁,λ₂,...,λ_t,...,λ_m}以及邏輯回歸模型{M₁,M₂,...,M_t,...,M_m}，在模型融合時(shí)，分別為每個(gè)邏輯回歸模型M_t賦予時(shí)間衰減的參數(shù)，具體地，記采樣比例序列元素之和為將{λ₁,λ₂,...,λ_t,...,λ_m}的每一個(gè)元素進(jìn)行歸一化，記λ_t歸一化之后的值為λ'_t，則記最終的預(yù)估概率值為E，則若用戶UID_i∈U'，則直接用模型M'得到該用戶的廣告點(diǎn)擊概率。

本發(fā)明與現(xiàn)有技術(shù)相比，具有如下優(yōu)點(diǎn)與有益效果：

1、本發(fā)明利用冪律分布來(lái)模擬廣告點(diǎn)擊行為，并利用冪律分布來(lái)檢測(cè)工業(yè)界廣告點(diǎn)擊數(shù)據(jù)的異常用戶，能夠用一種非常符合用戶行為客觀規(guī)律的方式來(lái)進(jìn)行異常數(shù)據(jù)排除，并且閾值是依據(jù)數(shù)據(jù)而確定的，并不是一層不變的，提供一定的調(diào)節(jié)空間。異常用戶包含潛在的日志數(shù)據(jù)異常以及點(diǎn)擊作弊用戶，利用本方法所述的方式可以很好地將異常數(shù)據(jù)和作弊用戶排除出去，從而為模型構(gòu)建提供較好的數(shù)據(jù)集。

2、本發(fā)明通過在采樣中引入時(shí)間因子，對(duì)時(shí)間序列數(shù)據(jù)的不平衡問題提供了一種采樣并盡量不失時(shí)間新鮮度的方法，通過采樣降低了數(shù)據(jù)不平衡性，并依據(jù)時(shí)間新鮮度提高具有較近時(shí)間的數(shù)據(jù)比例，降低較遠(yuǎn)時(shí)間數(shù)據(jù)的比例。本方法不同于普通的欠采樣、過采樣等隨機(jī)采樣方式，用戶只需要定義簡(jiǎn)單的兩個(gè)參數(shù)，便可以由采樣算法依據(jù)時(shí)間衰減函數(shù)自動(dòng)去確定一種緩和下降的采樣比例序列。通過這種方式，采樣比例序列可以由用戶動(dòng)態(tài)調(diào)節(jié)，為模型構(gòu)建提供一種調(diào)優(yōu)參數(shù)。

3、本發(fā)明通過將時(shí)間因子引入模型融合的權(quán)重當(dāng)中，為每個(gè)模型設(shè)置不同的融合權(quán)重，并且權(quán)重的設(shè)置與時(shí)間新鮮度相關(guān)，融合權(quán)重的序列可由用戶動(dòng)態(tài)調(diào)節(jié)。不同于常規(guī)的平均模型融合法，本方法通過賦予不同模型不同的融合權(quán)重，使得廣告點(diǎn)擊預(yù)估模型對(duì)更近的數(shù)據(jù)有更好的數(shù)據(jù)學(xué)習(xí)能力，更能捕捉到時(shí)間更近的數(shù)據(jù)的特征，從而達(dá)到更好的預(yù)估效果。

附圖說明

圖1為本發(fā)明方法的處理步驟流程圖。

具體實(shí)施方式

下面結(jié)合具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。

如圖1所示，本實(shí)施例所述的基于時(shí)間衰減采樣的廣告點(diǎn)擊預(yù)估方法，包括以下步驟：

步驟S1、數(shù)據(jù)清洗

對(duì)廣告瀏覽/點(diǎn)擊日志進(jìn)行數(shù)據(jù)清洗，需要將后臺(tái)的數(shù)據(jù)進(jìn)行分析，將廣告瀏覽/點(diǎn)擊日志按標(biāo)志分為RSET和CSET,RSET為所有瀏覽日志的集合，其每條日志標(biāo)記為0，CSET是所有點(diǎn)擊日志集合，其每條日志標(biāo)記為1。在RSET中遍歷每一條瀏覽日志，若對(duì)于一條瀏覽日志R_i，記R_i的點(diǎn)擊時(shí)間為UNIX時(shí)間戳?xí)r間t_i，用戶ID為UID_i，廣告ID為AID_i，設(shè)判別時(shí)間間隔閾值為π，如果在CSET中的t_i+π范圍內(nèi)有UID_i和AID_i均相同的點(diǎn)擊日志命中，則將該瀏覽日志R_i標(biāo)記為1，如果不命中，則保持R_i的標(biāo)記為0，最后集合RSET為清洗后的廣告點(diǎn)擊數(shù)據(jù)集。

步驟S2、預(yù)處理

對(duì)構(gòu)建的廣告點(diǎn)擊數(shù)據(jù)集RSET進(jìn)行進(jìn)一步過濾篩選、缺失值填補(bǔ)、異常值檢測(cè)等預(yù)處理，具體如下：

步驟S2.1、過濾篩選及缺失值填補(bǔ)

對(duì)廣告點(diǎn)擊數(shù)據(jù)集中明顯不符合值的取值范圍的數(shù)據(jù)進(jìn)行去除處理，對(duì)廣告點(diǎn)擊日志的每個(gè)字段進(jìn)行統(tǒng)計(jì)分析，對(duì)于一個(gè)字段，定義該字段在數(shù)據(jù)集中值為null或者空字符串的記錄為該字段的缺失記錄，數(shù)為n，記數(shù)據(jù)集RSET總記錄數(shù)為N，記閾值則對(duì)于超過一定閾值K的字段不進(jìn)行保留，對(duì)于比例在K之內(nèi)的字段，將其缺失值賦予一個(gè)和該字段其他值都不同的新值，作為正常值使用；另外，對(duì)于數(shù)據(jù)中字段值冗余的情況，消除冗余值。

步驟S2.2、異常值檢測(cè)

對(duì)數(shù)據(jù)集中每一個(gè)用戶ID進(jìn)行總點(diǎn)擊次數(shù)的統(tǒng)計(jì)，并進(jìn)而按總點(diǎn)擊次數(shù)來(lái)統(tǒng)計(jì)在該點(diǎn)擊次數(shù)下用戶的個(gè)數(shù)，記總點(diǎn)擊次數(shù)集合為A＝{α₁,α₂,...,α_i,...,α_n}，記相應(yīng)的用戶個(gè)數(shù)集合為B＝{β₁,β₂,...,β_i,...,β_n},假設(shè)α_i和β_i服從冪律分布，則logα_i和logβ_i呈線性關(guān)系，將logα_i和logβ_i做散點(diǎn)圖，用直線去擬合，將從某個(gè)點(diǎn)開始明顯偏離擬合線的總點(diǎn)擊次數(shù)作為閾值ρ，將總點(diǎn)擊次數(shù)β_i大于ρ的用戶作為異常用戶，記正常用戶集合為U，記異常用戶集合為U'，將異常用戶集合U'產(chǎn)生的廣告點(diǎn)擊數(shù)據(jù)集合記為SET'，將正常用戶集合U產(chǎn)生的廣告點(diǎn)擊數(shù)據(jù)集合記為SET。

步驟S3、時(shí)間衰減采樣

從步驟S2中的集合SET中選定連續(xù)的m天作為訓(xùn)練集，第m+1天作為測(cè)試集，針對(duì)訓(xùn)練集，將根據(jù)時(shí)間新鮮度計(jì)算得到的時(shí)間因子作為權(quán)重，分別計(jì)算訓(xùn)練集每天的抽樣比例，將每天抽取的樣本進(jìn)行組合，形成整體的多份抽樣樣本。其中，依據(jù)時(shí)間衰減的抽樣，具體過程如下：

選定連續(xù)的m天作為訓(xùn)練集，第m+1天作為測(cè)試集后，記m天中的第一天為T₁，第m天為T_m，由此形成T₁,T₂,...,T_t,...,T_m的時(shí)間序列數(shù)據(jù)，根據(jù)日期新鮮度為采樣引入時(shí)間因子，記λ_t為T_t那天的采樣比例，則λ_t-1為T_t前一天的采樣比例，λ_t+1為T_t后一天的采樣比例。所述時(shí)間衰減采樣即是λ_t-1＜λ_t＜λ_t+1的一種采樣方式，其中λ_t由時(shí)間衰減函數(shù)計(jì)算所得，具體由下面內(nèi)容闡述，得到λ_t后，若T_t的少數(shù)類數(shù)量為s，則應(yīng)該按照欠采樣抽取出λ_ts的多數(shù)類數(shù)量。

時(shí)間衰減采樣有三個(gè)參數(shù)m，λ₁和λ_m，這三個(gè)參數(shù)由人為指定，m為訓(xùn)練集所包含的日期的天數(shù)，λ₁為第一天的采樣比例，λ_m為第m天的采樣比例，其中λ₁與λ_m需要滿足0＜λ₁＜λ_m，不同的模型可以根據(jù)實(shí)際情況對(duì)這三個(gè)參數(shù)進(jìn)行相應(yīng)調(diào)優(yōu)。本采樣通過時(shí)間衰減函數(shù)來(lái)確定采樣比例，時(shí)間衰減函數(shù)為λ_t＝at²+b，根據(jù)人為確定的λ₁和λ_m，時(shí)間衰減函數(shù)中的參數(shù)a和b可以通過公式(1)(2)求出:

則，在給定m，λ₁和λ_m下，時(shí)間衰減函數(shù)為公式(3)：

因此，每一天的采樣比例可以根據(jù)公式(3)得到。

上面確定了時(shí)間衰減函數(shù)，并可以通過時(shí)間衰減函數(shù)為T_t計(jì)算出相應(yīng)的采樣比例λ_t，由此可以得到訓(xùn)練集的時(shí)間衰減采樣比例序列{λ₁,λ₂,...,λ_t,...,λ_m}，根據(jù)采樣比例序列{λ₁,λ₂,...,λ_t,...,λ_m}得到訓(xùn)練集的m份采樣數(shù)據(jù)：記T_t的少數(shù)類集合為p_t，多數(shù)類集合為q_t，|q_t|為q_t包含的記錄總數(shù)，然后根據(jù)采樣比例λ_t從q_t中隨機(jī)抽取出λ_t|q_t|數(shù)量的集合，記為q'_t；記從T_t采樣出的數(shù)據(jù)集為S_t，則根據(jù)本采樣算法有S_t＝p_t∪q'_t，記最終的第i(0≤i≤m)份樣本集為D_t，則D_t由公式得到，如此可以得到算法需要的m份采樣數(shù)據(jù){D₁,D₂,...,D_t,...,D_m}。

步驟S4、混合模型構(gòu)建

步驟S4.1、正常用戶建模

根據(jù)步驟S2的集合SET，得到步驟S3構(gòu)建的m份抽樣樣本序列{D₁,D₂,...,D_t,...,D_m}后，分別為每個(gè)樣本集D_t訓(xùn)練邏輯回歸模型M_t，由此可以得到m個(gè)邏輯回歸模型{M₁,M₂,...,M_t,...,M_m}。

步驟S4.2、異常用戶建模

根據(jù)步驟S2的集合SET'，確定好和SET一樣的訓(xùn)練集和測(cè)試集日期，用所有訓(xùn)練數(shù)據(jù)訓(xùn)練出邏輯回歸模型M'。

步驟S4.3、點(diǎn)擊預(yù)測(cè)

綜上所述，本發(fā)明將時(shí)間因素融入采樣方法中，主體思想是從離測(cè)試集日期近的數(shù)據(jù)中多采樣，離測(cè)試集日期遠(yuǎn)的數(shù)據(jù)中少采樣，采樣量依據(jù)時(shí)間的遠(yuǎn)近呈現(xiàn)一個(gè)漸變的趨勢(shì)，通過將采樣數(shù)據(jù)進(jìn)行時(shí)間維度上的劃分，構(gòu)建出適合廣告點(diǎn)擊預(yù)估的訓(xùn)練數(shù)據(jù)，再通過多模型融合的方法，為廣告點(diǎn)擊預(yù)估構(gòu)建出更加精準(zhǔn)和有效的模型。此類基于時(shí)間衰減的采樣方法可以延伸到其他跟時(shí)間相關(guān)，基于時(shí)間序列的不平衡數(shù)據(jù)中，具有廣泛的應(yīng)用前景，值得推廣。

以上所述實(shí)施例只為本發(fā)明之較佳實(shí)施例，并非以此限制本發(fā)明的實(shí)施范圍，故凡依本發(fā)明之形狀、原理所作的變化，均應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董守斌;黃淦;胡金龍;袁華
技術(shù)所有人：華南理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

廣告點(diǎn)擊率預(yù)估相關(guān)技術(shù)

點(diǎn)擊率預(yù)估相關(guān)技術(shù)

點(diǎn)擊率預(yù)估模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于時(shí)間衰減采樣的廣告點(diǎn)擊預(yù)估方法與流程