一種n+廣告投放優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種N+廣告投放優(yōu)化方法。
【背景技術(shù)】
[0002] 在廣告商進(jìn)行廣告投放的活動(dòng)中,有一類N+廣告投放需求,即廣告主要求投放的 目標(biāo)客戶在一段時(shí)間內(nèi)(例如為一周)能夠有效地接觸該廣告至少是N次(通常為3次, 由廣告主根據(jù)自己的需求確定),如果在規(guī)定時(shí)間內(nèi)某已經(jīng)投放了該廣告的目標(biāo)客戶達(dá)不 到該次數(shù)要求,則視為一次無效的廣告投放,如果達(dá)到該次數(shù)要求則視為一次有效的投放。 除了對(duì)接觸廣告次數(shù)有要求外,對(duì)是否滿足這樣的目標(biāo)客戶的量也有一定要求。
[0003] 因此,對(duì)媒體廣告平臺(tái)而言,針對(duì)該類N+廣告投放需求,如何確保對(duì)目標(biāo)客戶投 放出去的廣告的正確率和召回率成為關(guān)鍵問題,高正確率就能確保資源少浪費(fèi),高召回率 則是量的保證,確保收益,在量并不充足的情況下應(yīng)優(yōu)先保證高召回率。
【發(fā)明內(nèi)容】
[0004] 為解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題,本發(fā)明提供一種N+廣告投放優(yōu)化方法, 該方法將對(duì)目標(biāo)客戶瀏覽視頻的標(biāo)記值(即cookie)在未來一段時(shí)間(例如一周)內(nèi)出現(xiàn) N次的概率做一個(gè)預(yù)測(cè)并得到預(yù)測(cè)值,設(shè)定一個(gè)概率閾值threhold,該預(yù)測(cè)值大于等于該 閾值才對(duì)該cookie進(jìn)行廣告投放,小于則不投放。業(yè)內(nèi)對(duì)該廣告投放也稱作播種,不投放 則稱作不播種。該方法能有效降低資源浪費(fèi),并能保證收益。
[0005] 本發(fā)明的N+廣告投放優(yōu)化方法的基本原理是:在線下,首先對(duì)目標(biāo)客戶瀏覽視頻 的標(biāo)記值(即cookie)的特征數(shù)據(jù)進(jìn)行選擇,選擇對(duì)用戶是否再回來具有表征作用而且線 上能夠輕易獲取的特征數(shù)據(jù),然后使用CART分類樹來建立cookie是否再回來預(yù)測(cè)模型,通 過該模型預(yù)測(cè)某cookie用戶一周內(nèi)是否還會(huì)再回來的概率;線上運(yùn)行時(shí),設(shè)定N值,設(shè)定概 率閾值,通過線上獲得該cookie的相應(yīng)特征數(shù)據(jù)預(yù)測(cè)其再回來的概率,計(jì)算該概率的N次 方結(jié)果,該結(jié)果大于等于設(shè)定概率閾值時(shí)投放廣告,否則不投放。
【附圖說明】
[0006] 本發(fā)明將參照附圖來進(jìn)一步詳細(xì)說明,其中:
[0007] 圖1是本發(fā)明方法流程圖;
[0008] 圖2是本發(fā)明方法線上、線下實(shí)現(xiàn)的示意圖。
【具體實(shí)施方式】
[0009] 雖然將參照含有本發(fā)明的較佳實(shí)施例的附圖充分描述本發(fā)明,但在此描述之前應(yīng) 了解本領(lǐng)域的普通技術(shù)人員可修改本文中所描述的發(fā)明,同時(shí)獲得本發(fā)明的技術(shù)效果。因 此,須了解以上的描述對(duì)本領(lǐng)域的普通技術(shù)人員而言為一廣泛的揭示,且其內(nèi)容不在于限 制本發(fā)明所描述的示例性實(shí)施例。
[0010] 本發(fā)明的N+廣告投放優(yōu)化方法中使用CART(ClassificationandRegression Trees)分類樹建立預(yù)測(cè)模型。首先,對(duì)本發(fā)明使用的CART分類樹等背景做一個(gè)介紹。CART 是決策樹的一種,CART算法既可以用于創(chuàng)建分類樹(ClassificationTree),也可以用于創(chuàng) 建回歸樹(RegressionTree),分類樹是預(yù)測(cè)結(jié)果是離散類型值的樹,回歸樹是預(yù)測(cè)結(jié)果為 連續(xù)型值的樹。決策樹算法都屬于有監(jiān)督一類的機(jī)器學(xué)習(xí)算法,所以模型的建立需要經(jīng)過 有標(biāo)簽數(shù)據(jù)的訓(xùn)練過程,模型樹建立過程中,難免會(huì)出現(xiàn)數(shù)據(jù)過度擬合的情況,因此樹剪枝 操作往往是必須的,剪枝包括預(yù)剪枝和后剪枝,預(yù)剪枝是在建樹過程中進(jìn)行的,后剪枝是建 樹完成后進(jìn)行的。CART分類樹的分支節(jié)點(diǎn)存儲(chǔ)分割特征序號(hào)splnd和分割值spVal,葉子 節(jié)點(diǎn)存儲(chǔ)組合值包括:是否再來label,再來概率posProb,不來概率negProb,再來概率大 于不來概率時(shí),是否再來label為1,否則為0。再來概率由落在該葉子節(jié)點(diǎn)的分類標(biāo)簽值 為1的數(shù)量除以該葉子中所有訓(xùn)練數(shù)據(jù)條數(shù)得出。
[0011] 訓(xùn)練、剪枝和測(cè)試數(shù)據(jù)集由cookie對(duì)應(yīng)的特征屬性和表示是否再來的0、1標(biāo)簽值 組成。
[0012] CART預(yù)剪枝:CART分類樹在建立過程中會(huì)進(jìn)行預(yù)剪枝,分為以下三種情況:
[0013] 如果在某個(gè)分支的所有數(shù)據(jù)中,某一類(標(biāo)簽為0或1)的數(shù)據(jù)所在比率大于等于 某個(gè)閾值ratio_threshold時(shí)停止分支,作為葉子。該閾值作為參數(shù)傳入,默認(rèn)為0. 85 ; [0014] 如果在某個(gè)分支的所有數(shù)據(jù)條目數(shù)小于等于某個(gè)閾值num_threshold時(shí)停止分 支,作為葉子。該閾值作為參數(shù)傳入,默認(rèn)為50 ;
[0015] 如果在某個(gè)分支屬性分割后的基尼不純度Gini相較于分割前的基尼不純度并未 降低到一定閾值gini_threshold時(shí),停止分支,作為葉子。該閾值作為參數(shù)傳入,默認(rèn)為 0. 01〇
[0016] CART后剪枝:CART后剪枝是建立好模型分類樹后在新的剪枝數(shù)據(jù)集上進(jìn)行的,在 以下兩種情況中會(huì)進(jìn)行后剪枝:
[0017] 如果某分支的左(或右)子樹不是葉子,而沒有數(shù)據(jù)分到該左(或右)子樹,那么 剪枝,該左(或右)子樹變?yōu)槿~子。葉子存儲(chǔ)的值由兄弟分支的相關(guān)計(jì)算結(jié)果得出,把兄弟 分支暫當(dāng)作葉子計(jì)算其label,如果兄弟分支的label為1,則該葉子存儲(chǔ)的值為[0,0. 001, 0.999],反之,存儲(chǔ)[1,0.999,0.001];
[0018] 如果某分支的左右子樹都是葉子,而計(jì)算出該分支在不分裂時(shí)的錯(cuò)誤率要小于分 裂后的錯(cuò)誤率,那么剪枝,該分支變?yōu)槿~子。計(jì)算所有落在該分支的數(shù)據(jù)中l(wèi)abel為1的記 錄所占比,得出相應(yīng)的值作為該葉子的存儲(chǔ)值。
[0019] 下面,以一周為例說明本發(fā)明的N+廣告投放優(yōu)化方法,并不以此限定。
[0020] 本發(fā)明的N+廣告投放優(yōu)化方法包括:
[0021] 第一步,抽取目標(biāo)客戶瀏覽視頻的標(biāo)記值(即cookie)特征數(shù)據(jù),生成CART分類 樹的訓(xùn)練、剪枝、測(cè)試數(shù)據(jù)。
[0022] 視頻平臺(tái)數(shù)據(jù)系統(tǒng)中通常有兩個(gè)日志表,access表和vvlog表,分別用來記錄視 頻廣告的播放日志和vv日志,這兩個(gè)日志表里有大量有關(guān)視頻、廣告、用戶的相關(guān)屬性信 息,從這些屬性里選擇一部分屬性信息來作為CART分類樹的訓(xùn)練,剪枝和測(cè)試數(shù)據(jù)。選擇 的屬性信息必須在線上也能輕易并快速的獲取,以便做預(yù)測(cè)。
[0023] 生成CART分類樹的訓(xùn)練、剪枝、測(cè)試數(shù)據(jù)的步驟如下:
[0024] 步驟1. 1,以2014. 08. 04的數(shù)據(jù)為例,從access日志表中抽取2014. 08. 04這 一天的cookie數(shù)據(jù),記為:accessCookieAttrs_804,該數(shù)據(jù)集包含以下屬性:cookieO sessionld,視頻分類,是否為長(zhǎng)視頻,視頻時(shí)長(zhǎng),時(shí)間戳,使用cookieOsessionld而不使用 cookie是為了與vvlog中的數(shù)據(jù)--映射。
[0025] 步驟1. 2,從vvlog日志表中抽取2014. 08. 04這一天的cookie數(shù)據(jù),記為: vvCookieAttrs_804,該數(shù)據(jù)集包含以下屬性:cookieOsessionld,是否注冊(cè),vvstep史來 vv,seidcount史來session計(jì)數(shù),sevvstep本次session計(jì)數(shù)。
[0026] 步驟1.3,統(tǒng)計(jì)access日志表中時(shí)間跨度為一周(即2014. 08. 05-2014. 08. 11)的 cookie出現(xiàn)次數(shù),記為:cookieNum_805_811,該數(shù)據(jù)集包含以下屬性:cookie,cookie出現(xiàn) 次數(shù)。
[0027] 步驟1. 4,整合連接上述三個(gè)步驟得到的三個(gè)數(shù)據(jù)集:accessCookieAttrs_804, vvCookieAttrs_804,cookieNum_805_811 (cookieNum_805_806),生成是否再來類屬標(biāo)簽, 得到新的數(shù)據(jù)集,記為:train0ri