本發(fā)明屬于互聯(lián)網(wǎng)領(lǐng)域,涉及一種廣告?zhèn)€性化推送系統(tǒng)及方法。
背景技術(shù):
在互聯(lián)網(wǎng)中,例如,百度,擁有大量的網(wǎng)頁(yè)信息,而主題廣告推廣的對(duì)象不是用戶而是某一類(lèi)型的頁(yè)面。通過(guò)類(lèi)比,每種網(wǎng)頁(yè)類(lèi)型對(duì)應(yīng)于推薦系統(tǒng)中的一個(gè)用戶,而每一個(gè)廣告就對(duì)應(yīng)于推薦系統(tǒng)中的一個(gè)物品。
計(jì)算廣告從前期調(diào)查到策劃、制作、投放、反饋,再到效果測(cè)定的運(yùn)作流程,本質(zhì)上就是一系列算法模型組合演算的過(guò)程。計(jì)算廣告的目的在于通過(guò)算法集合自動(dòng)尋找廣告、廣告環(huán)境與受眾三者之間的最佳匹配。這種自動(dòng)化最佳匹配的實(shí)現(xiàn)是數(shù)據(jù)挖掘、信息檢索、文本分析、情感計(jì)算、機(jī)器學(xué)習(xí)等多種程序算法交互作用的結(jié)果。
eCpm計(jì)算廣告中最為核心的量化指標(biāo)之一,eCpm=ROI(a,u,c)=CTR(a,u,c).Value(a,u,c),上式中CTR為廣告的點(diǎn)擊率、Value為廣告的點(diǎn)擊價(jià)值、a(Ad)為廣告、c(context)為上下文、u(user)為用戶。user由于Value是固定的,實(shí)際影響廣告主收入的核心因素為廣告的點(diǎn)擊率。
可見(jiàn)廣告點(diǎn)擊率(Click-Through Rate Prediction)是互聯(lián)網(wǎng)計(jì)算廣告中的關(guān)鍵環(huán)節(jié),預(yù)估準(zhǔn)確性直接影響公司廣告收入。提供廣告的點(diǎn)擊率能使得廣告主有更好的ROI。點(diǎn)擊率(Click-Through-Rate,CTR)預(yù)估是互聯(lián)網(wǎng)廣告投放的核心問(wèn)題,通過(guò)使用機(jī)器學(xué)習(xí)方法,充分利用廣告系統(tǒng)日志中的數(shù)據(jù)進(jìn)行預(yù)測(cè),計(jì)算出用戶對(duì)候選廣告點(diǎn)擊概率的大小,從中選出被用戶點(diǎn)擊的概率較大的廣告展示給用戶。
從上面Ctr(a,u,c)可以看出,要改善廣告的點(diǎn)擊率,就必須在合適的情景下將廣告推薦給匹配的用戶。
廣告推薦以下幾個(gè)關(guān)鍵技術(shù)因素決定:
1.受眾定向投放技術(shù)。
客戶根據(jù)受眾的人口統(tǒng)計(jì)學(xué)特征和興趣愛(ài)好采買(mǎi)受眾,包括地理位置、年齡、性別、職業(yè)/行業(yè)、收入狀態(tài)、婚姻狀態(tài)、教育程度和興趣愛(ài)好。
2.用戶畫(huà)像。
通過(guò)用戶調(diào)研去了解用戶,根據(jù)他們的目標(biāo)、行為和觀點(diǎn)的差異,將他們區(qū)分為不同的類(lèi)型,然后每種類(lèi)型中抽取出典型特征,賦予名字、照片、一些人口統(tǒng)計(jì)學(xué)要素、場(chǎng)景等描述,就形成了一個(gè)人物原型。
3.CTR預(yù)估。
通過(guò)采集的投放數(shù)據(jù)培訓(xùn)CTR預(yù)估的模型來(lái)預(yù)測(cè)廣告的點(diǎn)擊率。
4.機(jī)器學(xué)習(xí)(machine learning)。
計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。
現(xiàn)有廣告的推薦系統(tǒng)基于CTR預(yù)估模型,其主要包括以下步驟:
1.采集廣告歷史的投放數(shù)據(jù);采集廣告的展示數(shù)據(jù)和點(diǎn)擊數(shù)據(jù);
2.數(shù)據(jù)預(yù)處理,包括:
a)清洗數(shù)據(jù)格式不合法的記錄
b)數(shù)據(jù)轉(zhuǎn)換:通過(guò)廣告的點(diǎn)擊信息,給廣告的展示數(shù)據(jù)增加相應(yīng)的標(biāo)簽click label,如果展示在后續(xù)被點(diǎn)擊,則給此展示click label為1的標(biāo)簽,未產(chǎn)生點(diǎn)擊的展示給與click label為0的標(biāo)簽,數(shù)據(jù)樣式,click label、impresion{user、ad,adslot、device、app}。將轉(zhuǎn)換后的數(shù)據(jù)物化;
c)特征處理:將數(shù)字屬性做歸一化,將類(lèi)別變量做onehotencoding,處理完后,分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系,采用wrapping的方式進(jìn)行特征的選擇,特征選擇可以使用(特征排序);
3.CTR預(yù)測(cè)模型訓(xùn)練,包括:
將經(jīng)過(guò)特征選擇和處理后的數(shù)據(jù)分成培訓(xùn)集和驗(yàn)證集,用培訓(xùn)集訓(xùn)練CTR模型(可以是LR,LibFm等模型)。
4.CTR預(yù)測(cè)驗(yàn)證,包括:
使用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證訓(xùn)練的模型,通過(guò)logloss來(lái)評(píng)估模型的準(zhǔn)確度:
5.CTR預(yù)測(cè)模型上線驗(yàn)證,包括:
a)使用CTR預(yù)測(cè)模型來(lái)預(yù)測(cè)線上的廣告請(qǐng)求,并計(jì)算實(shí)際投放的CTR和預(yù)測(cè)值對(duì)比;
從現(xiàn)有的廣告推薦系統(tǒng)的CTR預(yù)測(cè)模型來(lái)看,無(wú)論采用哪種CTR預(yù)測(cè)的模型,實(shí)際點(diǎn)擊率的預(yù)測(cè)都受到下面數(shù)據(jù)的影響(請(qǐng)求的媒體(media)、請(qǐng)求的用戶、請(qǐng)求的設(shè)備、請(qǐng)求中廣告位位置信息、廣告本身的屬性),可以使用以下條件概率表示:P(click|media,device,adslot,ad,user)。從條件概率來(lái)看影響CTR模型的準(zhǔn)確率在于選擇的特征的準(zhǔn)確性,即在請(qǐng)求中媒體的信息(media)、設(shè)備的信息(device)、廣告位的信息(adslot)、廣告的信息(信息)。通常下media、device、adslot和ad這些屬性的值是準(zhǔn)確和穩(wěn)定的,那個(gè)user就是一個(gè)影響CTR預(yù)測(cè)的關(guān)鍵因素,現(xiàn)有機(jī)制缺少對(duì)用戶進(jìn)行精準(zhǔn)畫(huà)像的機(jī)制和數(shù)據(jù)來(lái)獲取用戶屬性和用戶屬性數(shù)據(jù)準(zhǔn)確度,從而導(dǎo)致CTR預(yù)估的準(zhǔn)確性不高,從而推薦系統(tǒng)不佳。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種廣告?zhèn)€性化推送方法和系統(tǒng),用于解決現(xiàn)有的廣告推薦系統(tǒng)性能不佳的問(wèn)題。
本發(fā)明解決上述技術(shù)問(wèn)題所采取的技術(shù)方案如下:
一種廣告?zhèn)€性化推送方法,具體包括:
步驟1)通過(guò)爬蟲(chóng)獲取第三方外部數(shù)據(jù),并從中統(tǒng)計(jì)出某一用戶的行為數(shù)據(jù);獲取平臺(tái)中對(duì)用戶的廣告的展示、點(diǎn)擊和互動(dòng)數(shù)據(jù)的內(nèi)部數(shù)據(jù);
步驟2)對(duì)以上第三方外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)進(jìn)行預(yù)處理,并將其據(jù)轉(zhuǎn)化為具有準(zhǔn)確用戶信息和標(biāo)簽的數(shù)據(jù)樣本;
步驟3)使用預(yù)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練,并選擇用戶畫(huà)像的具體模型,形成用戶標(biāo)簽庫(kù)并將得到的用戶的信息同步到廣告平臺(tái),由廣告平臺(tái)將其存儲(chǔ)于緩存標(biāo)簽庫(kù)中;
步驟4)采集平臺(tái)中歷史的廣告展示和點(diǎn)擊數(shù)據(jù),形成CTR廣告投放預(yù)測(cè)模型,并將其存儲(chǔ)于CTR預(yù)估模型庫(kù)中;
步驟5)基于所述用戶的信息和所述CTR廣告投放預(yù)測(cè)模型,對(duì)某一用戶進(jìn)行廣告精準(zhǔn)投放。
優(yōu)選的是,步驟1)行為數(shù)據(jù)具體包括:
靜態(tài)數(shù)據(jù),包括:人口屬性、商業(yè)屬性方面數(shù)據(jù),這些數(shù)據(jù)自成標(biāo)簽;
動(dòng)態(tài)信息數(shù)據(jù),包括:用戶不斷變化的行為信息,即:
包括:用戶瀏覽、搜索、評(píng)論轉(zhuǎn)發(fā)、購(gòu)買(mǎi)或like一切用戶在移動(dòng)互聯(lián)網(wǎng)上的行為和用戶行為的接觸點(diǎn),其中,所述接觸點(diǎn)為用戶產(chǎn)生行為的各類(lèi)媒介和app。
優(yōu)選的是,步驟2)種,具體包括:數(shù)據(jù)清洗,清洗數(shù)據(jù)格式不合法的記錄,將轉(zhuǎn)換后的數(shù)據(jù)物化;
將數(shù)字屬性做歸一化,將類(lèi)別變量做獨(dú)熱編碼(onehotencoding);
處理完后,分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系,采用wrapping的方式進(jìn)行特征的選擇。
優(yōu)選的是,步驟3)種,用戶畫(huà)像的具體模型的訓(xùn)練過(guò)程,包括:
根據(jù)用戶行為構(gòu)建模型產(chǎn)出標(biāo)簽、權(quán)重,一個(gè)事件模型包括:
時(shí)間、地點(diǎn)、人物三個(gè)要素,其中,每一次用戶行為本質(zhì)上是一次隨機(jī)事件,可以詳細(xì)描述為:什么用戶,在什么時(shí)間,什么地點(diǎn),做了什么事;
用戶畫(huà)像的數(shù)據(jù)模型,概括為下面的公式:
用戶標(biāo)識(shí)、時(shí)間、行為類(lèi)型+接觸點(diǎn),即某用戶因?yàn)樵谑裁磿r(shí)間、地點(diǎn)、做了什么事,并對(duì)其打上標(biāo)簽;其中,用戶標(biāo)簽的權(quán)重隨時(shí)間的增加而衰減,故定義時(shí)間為衰減因子r,行為類(lèi)型、網(wǎng)址決定了權(quán)重,內(nèi)容決定了標(biāo)簽,進(jìn)一步轉(zhuǎn)換為公式:標(biāo)簽權(quán)重=衰減因子×行為權(quán)重×App子權(quán)重加載使用的模型。
優(yōu)選的是,步驟4)中,具體包括:
采集線上投放的廣告的展示和點(diǎn)擊數(shù)據(jù);數(shù)據(jù)預(yù)處理,清洗數(shù)據(jù)格式不合法的記錄;
數(shù)據(jù)轉(zhuǎn)換步驟,具體包括:
根據(jù)展示請(qǐng)求數(shù)據(jù)中的設(shè)備ID獲取用戶標(biāo)簽庫(kù)中用戶的信息(user),并將user合并到展示數(shù)據(jù)中;
其中,通過(guò)廣告的點(diǎn)擊信息,給廣告的展示數(shù)據(jù)增加相應(yīng)的標(biāo)簽click label:如果展示在后續(xù)被點(diǎn)擊,則給此展示click label為1的標(biāo)簽,未產(chǎn)生點(diǎn)擊的展示給與click label為0的標(biāo)簽,給展示數(shù)據(jù)數(shù)據(jù)樣式,click label、impresion{user、ad,adslot、device、media}。將轉(zhuǎn)換后的數(shù)據(jù)物化。
優(yōu)選的是,還包括:將數(shù)字屬性做歸一化,將類(lèi)別變量做onehotencoding,處理完后,進(jìn)行特征選擇:分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系,采用wrapping的方式進(jìn)行特征的選擇,或者,使用GBDT、random forest來(lái)進(jìn)行特征選擇;
通過(guò)訓(xùn)練數(shù)據(jù)使用以上選定的特征來(lái)進(jìn)行模型的訓(xùn)練,其中,CTR候選模型可以為:LR、LibFM。
優(yōu)選的是,步驟5)中,具體包括:
接收廣告請(qǐng)求,根據(jù)請(qǐng)求中的設(shè)備ID從用戶的標(biāo)簽庫(kù)中獲取到用戶的信息,并提供給廣告定投使用根據(jù)請(qǐng)求中的數(shù)據(jù)匹配廣告定投條件來(lái)過(guò)濾廣告;
將請(qǐng)求數(shù)據(jù)中media信息、device信息、adslot信息、從標(biāo)簽庫(kù)中獲取的用戶信息user和廣告的ad,封裝成CTR預(yù)估模型要求的格式,調(diào)用CTR預(yù)估模型來(lái)獲取候選廣告的點(diǎn)擊率,使用預(yù)測(cè)點(diǎn)擊率和每個(gè)廣告的成本來(lái)獲取ROI,選擇ROI最高的廣告投放。
一種廣告?zhèn)€性化推送系統(tǒng),包括:
數(shù)據(jù)管理平臺(tái),用于通過(guò)爬蟲(chóng)獲取第三方外部數(shù)據(jù),并從中統(tǒng)計(jì)出某一用戶的行為數(shù)據(jù);獲取平臺(tái)中對(duì)用戶的廣告的展示、點(diǎn)擊和互動(dòng)數(shù)據(jù)的內(nèi)部數(shù)據(jù);對(duì)以上第三方外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)進(jìn)行預(yù)處理,并將其據(jù)轉(zhuǎn)化為具有準(zhǔn)確用戶信息和標(biāo)簽的數(shù)據(jù)樣本;使用預(yù)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練,并選擇用戶畫(huà)像的具體模型,并將得到的用戶的信息同步到廣告平臺(tái);
廣告平臺(tái),用于采集平臺(tái)中歷史的廣告展示和點(diǎn)擊數(shù)據(jù),構(gòu)建CTR廣告投放預(yù)測(cè)模型;基于所述用戶的信息和所述CTR廣告投放預(yù)測(cè)模型,對(duì)某一用戶進(jìn)行廣告精準(zhǔn)投放。
優(yōu)選的是,所述用戶的行為數(shù)據(jù)具體包括:
靜態(tài)數(shù)據(jù),包括:人口屬性、商業(yè)屬性方面數(shù)據(jù),這些數(shù)據(jù)自成標(biāo)簽;
動(dòng)態(tài)信息數(shù)據(jù),包括:用戶不斷變化的行為信息,即:
包括:用戶瀏覽、搜索、評(píng)論轉(zhuǎn)發(fā)、購(gòu)買(mǎi)或like一切用戶在移動(dòng)互聯(lián)網(wǎng)上的行為和用戶行為的接觸點(diǎn),其中,所述接觸點(diǎn)為用戶產(chǎn)生行為的各類(lèi)媒介和app。
優(yōu)選的是,所述數(shù)據(jù)管理平臺(tái),進(jìn)一步用于:數(shù)據(jù)清洗,清洗數(shù)據(jù)格式不合法的記錄,將轉(zhuǎn)換后的數(shù)據(jù)物化;
將數(shù)字屬性做歸一化,將類(lèi)別變量做獨(dú)熱編碼(onehotencoding);
處理完后,分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系,采用wrapping的方式進(jìn)行特征的選擇。
本發(fā)明通過(guò)采集更多的用戶數(shù)據(jù)而不僅僅是展示和點(diǎn)擊數(shù)據(jù)來(lái)訓(xùn)練用戶畫(huà)像的模型,改善用戶畫(huà)像的準(zhǔn)確性,能有更豐富的數(shù)據(jù)和精度來(lái)描述用戶,將廣告推薦給最匹配的用戶,可以改善用戶體驗(yàn),從而也提高CTR預(yù)測(cè)模型的準(zhǔn)確度。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫(xiě)的說(shuō)明書(shū)、權(quán)利要求書(shū)、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
附圖說(shuō)明
下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行詳細(xì)的描述,以使得本發(fā)明的上述優(yōu)點(diǎn)更加明確。其中,
圖1是本發(fā)明廣告?zhèn)€性化推送方法的流程示意圖;
圖2是本發(fā)明廣告?zhèn)€性化推送方法的流程示意圖;
圖3是本發(fā)明廣告?zhèn)€性化推送方法的流程示意圖;
圖4是本發(fā)明廣告?zhèn)€性化推送方法的流程示意圖;
圖5是本發(fā)明廣告?zhèn)€性化推送系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
以下將結(jié)合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式,借此對(duì)本發(fā)明如何應(yīng)用技術(shù)手段來(lái)解決技術(shù)問(wèn)題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過(guò)程能充分理解并據(jù)以實(shí)施。需要說(shuō)明的是,只要不構(gòu)成沖突,本發(fā)明中的各個(gè)實(shí)施例以及各實(shí)施例中的各個(gè)特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。
另外,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
CPM:按廣告每千次被展現(xiàn),成為一個(gè)CPM;
CTR:Click-Through Rate Prediction點(diǎn)擊轉(zhuǎn)化率
DMP:Data manage Platform數(shù)據(jù)管理平臺(tái)
ROI:Return Of Investment投資回報(bào)率
GBDT:Gradient Boost Decision Tree隨機(jī)梯度下降樹(shù)
RF:Random Forest隨機(jī)森林
LR:logic regression邏輯回歸算法
LibFm:Factorization Machine Library
AUC:area under curve評(píng)估模型的準(zhǔn)確度,越大模型越優(yōu)
LogLoss:邏輯損失函數(shù),值越小,模型更優(yōu)
實(shí)施例一:
具體來(lái)說(shuō),如圖1所示,從廣告點(diǎn)擊率預(yù)測(cè)模型的訓(xùn)練和使用來(lái)看,要想提高廣告點(diǎn)擊率預(yù)測(cè)的準(zhǔn)確度,就必須將廣告推薦給合適的用戶,這就要求我們對(duì)用戶的畫(huà)像足夠精準(zhǔn),如果要得到更精準(zhǔn)的用戶畫(huà)像,我們必須采集更多的用戶數(shù)據(jù)(不僅僅是展示和點(diǎn)擊數(shù)據(jù))來(lái)訓(xùn)練用戶畫(huà)像的模型,改善用戶畫(huà)像的準(zhǔn)確性,能有更豐富的數(shù)據(jù)和精度來(lái)描述用戶,將廣告推薦給最匹配的用戶,可以改善用戶體驗(yàn),從而也提高CTR預(yù)測(cè)模型的準(zhǔn)確度。
如圖1,一種廣告?zhèn)€性化推送方法,具體包括:
步驟1)通過(guò)爬蟲(chóng)獲取第三方外部數(shù)據(jù),并從中統(tǒng)計(jì)出某一用戶的行為數(shù)據(jù);獲取平臺(tái)中對(duì)用戶的廣告的展示、點(diǎn)擊和互動(dòng)數(shù)據(jù)的內(nèi)部數(shù)據(jù);
步驟2)對(duì)以上第三方外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)進(jìn)行預(yù)處理,并將其據(jù)轉(zhuǎn)化為具有準(zhǔn)確用戶信息和標(biāo)簽的數(shù)據(jù)樣本;
步驟3)使用預(yù)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練,并選擇用戶畫(huà)像的具體模型,形成用戶標(biāo)簽庫(kù)并將得到的用戶的信息同步到廣告平臺(tái),由廣告平臺(tái)將其存儲(chǔ)于緩存標(biāo)簽庫(kù)中;
步驟4)采集平臺(tái)中歷史的廣告展示和點(diǎn)擊數(shù)據(jù),形成CTR廣告投放預(yù)測(cè)模型,并將其存儲(chǔ)于CTR預(yù)估模型庫(kù)中;
步驟5)基于所述用戶的信息和所述CTR廣告投放預(yù)測(cè)模型,對(duì)某一用戶進(jìn)行廣告精準(zhǔn)投放。
本發(fā)明通過(guò)采集更多的用戶數(shù)據(jù)而不僅僅是展示和點(diǎn)擊數(shù)據(jù)來(lái)訓(xùn)練用戶畫(huà)像的模型,改善用戶畫(huà)像的準(zhǔn)確性,能有更豐富的數(shù)據(jù)和精度來(lái)描述用戶,將廣告推薦給最匹配的用戶,可以改善用戶體驗(yàn),從而也提高CTR預(yù)測(cè)模型的準(zhǔn)確度。
實(shí)施例二:
更具體地說(shuō),本發(fā)明的技術(shù)實(shí)現(xiàn)原理,如下:
第一步:用戶畫(huà)像
數(shù)據(jù)采集:在廣告提供中加入用戶在廣告互動(dòng)信息的信息的采集,通過(guò)爬蟲(chóng)程序獲取外部數(shù)據(jù),從而豐富數(shù)據(jù),提高畫(huà)像的準(zhǔn)確率和覆蓋程度
用戶畫(huà)像模型選擇:使用采集的數(shù)據(jù)培訓(xùn)和選擇用戶畫(huà)像的模型
用戶畫(huà)像將用戶畫(huà)像得到的用戶的信息同步到廣告平臺(tái)
第二步:訓(xùn)練CTR預(yù)測(cè)模型,包括:
采集歷史廣告展示和點(diǎn)擊數(shù)據(jù)
數(shù)據(jù)預(yù)處理:將數(shù)據(jù)轉(zhuǎn)化為具有準(zhǔn)確用戶信息和標(biāo)簽的數(shù)據(jù)樣本
模型培訓(xùn)和選擇:使用預(yù)處理后的數(shù)據(jù)培訓(xùn)和選擇CTR預(yù)測(cè)模型
第三步:CTR預(yù)估模型線上驗(yàn)證
使用選定的CTR預(yù)估模型來(lái)投放廣告,并根據(jù)反饋計(jì)算實(shí)際的CTR,比較預(yù)測(cè)的CTR。
其中,優(yōu)選的是,步驟1)行為數(shù)據(jù)具體包括:
靜態(tài)數(shù)據(jù),包括:人口屬性、商業(yè)屬性方面數(shù)據(jù),這些數(shù)據(jù)自成標(biāo)簽;
動(dòng)態(tài)信息數(shù)據(jù),包括:用戶不斷變化的行為信息,即:
包括:用戶瀏覽、搜索、評(píng)論轉(zhuǎn)發(fā)、購(gòu)買(mǎi)或like一切用戶在移動(dòng)互聯(lián)網(wǎng)上的行為和用戶行為的接觸點(diǎn),其中,所述接觸點(diǎn)為用戶產(chǎn)生行為的各類(lèi)媒介和app。
優(yōu)選的是,步驟2)種,具體包括:數(shù)據(jù)清洗,清洗數(shù)據(jù)格式不合法的記錄,將轉(zhuǎn)換后的數(shù)據(jù)物化;
將數(shù)字屬性做歸一化,將類(lèi)別變量做獨(dú)熱編碼(onehotencoding);
處理完后,分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系,采用wrapping的方式進(jìn)行特征的選擇。
優(yōu)選的是,步驟3)種,用戶畫(huà)像的具體模型的訓(xùn)練過(guò)程,包括:
根據(jù)用戶行為構(gòu)建模型產(chǎn)出標(biāo)簽、權(quán)重,一個(gè)事件模型包括:
時(shí)間、地點(diǎn)、人物三個(gè)要素,其中,每一次用戶行為本質(zhì)上是一次隨機(jī)事件,可以詳細(xì)描述為:什么用戶,在什么時(shí)間,什么地點(diǎn),做了什么事;
用戶畫(huà)像的數(shù)據(jù)模型,概括為下面的公式:
用戶標(biāo)識(shí)、時(shí)間、行為類(lèi)型+接觸點(diǎn),即某用戶因?yàn)樵谑裁磿r(shí)間、地點(diǎn)、做了什么事,并對(duì)其打上標(biāo)簽;其中,用戶標(biāo)簽的權(quán)重隨時(shí)間的增加而衰減,故定義時(shí)間為衰減因子r,行為類(lèi)型、網(wǎng)址決定了權(quán)重,內(nèi)容決定了標(biāo)簽,進(jìn)一步轉(zhuǎn)換為公式:標(biāo)簽權(quán)重=衰減因子×行為權(quán)重×App子權(quán)重加載使用的模型。
優(yōu)選的是,步驟4)中,具體包括:
采集線上投放的廣告的展示和點(diǎn)擊數(shù)據(jù);數(shù)據(jù)預(yù)處理,清洗數(shù)據(jù)格式不合法的記錄;
數(shù)據(jù)轉(zhuǎn)換步驟,具體包括:
根據(jù)展示請(qǐng)求數(shù)據(jù)中的設(shè)備ID獲取用戶標(biāo)簽庫(kù)中用戶的信息(user),并將user合并到展示數(shù)據(jù)中;
其中,通過(guò)廣告的點(diǎn)擊信息,給廣告的展示數(shù)據(jù)增加相應(yīng)的標(biāo)簽click label:如果展示在后續(xù)被點(diǎn)擊,則給此展示click label為1的標(biāo)簽,未產(chǎn)生點(diǎn)擊的展示給與click label為0的標(biāo)簽,給展示數(shù)據(jù)數(shù)據(jù)樣式,click label、impresion{user、ad,adslot、device、media}。將轉(zhuǎn)換后的數(shù)據(jù)物化。
優(yōu)選的是,還包括:將數(shù)字屬性做歸一化,將類(lèi)別變量做onehotencoding,處理完后,進(jìn)行特征選擇:分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系,采用wrapping的方式進(jìn)行特征的選擇,或者,使用GBDT、random forest來(lái)進(jìn)行特征選擇;
通過(guò)訓(xùn)練數(shù)據(jù)使用以上選定的特征來(lái)進(jìn)行模型的訓(xùn)練,其中,CTR候選模型可以為:LR、LibFM。
優(yōu)選的是,步驟5)中,具體包括:
接收廣告請(qǐng)求,根據(jù)請(qǐng)求中的設(shè)備ID從用戶的標(biāo)簽庫(kù)中獲取到用戶的信息,并提供給廣告定投使用根據(jù)請(qǐng)求中的數(shù)據(jù)匹配廣告定投條件來(lái)過(guò)濾廣告;
將請(qǐng)求數(shù)據(jù)中media信息、device信息、adslot信息、從標(biāo)簽庫(kù)中獲取的用戶信息user和廣告的ad,封裝成CTR預(yù)估模型要求的格式,調(diào)用CTR預(yù)估模型來(lái)獲取候選廣告的點(diǎn)擊率,使用預(yù)測(cè)點(diǎn)擊率和每個(gè)廣告的成本來(lái)獲取ROI,選擇ROI最高的廣告投放。
實(shí)施例三:
如圖2-4所示,其中,在一個(gè)實(shí)施例中,本發(fā)明先采集歷史的廣告平臺(tái)中用戶的展示、點(diǎn)擊和互動(dòng)數(shù)據(jù),并且通過(guò)爬蟲(chóng)采集外部的用戶行為數(shù)據(jù),通過(guò)數(shù)據(jù)來(lái)進(jìn)行用戶畫(huà)像,然后通過(guò)對(duì)畫(huà)像的用戶數(shù)據(jù)合并到用戶的展示數(shù)據(jù)數(shù)據(jù)中來(lái)訓(xùn)練CTR模型。最后將CTR模型應(yīng)用到廣告投放中。
其中,主要包括以下幾個(gè)主要步驟:
1)DMP用戶畫(huà)像:
1.1.數(shù)據(jù)采集:
在廣告提供中加入用戶在廣告互動(dòng)信息的信息的采集,通過(guò)爬蟲(chóng)程序獲取外部數(shù)據(jù),靜態(tài)信息數(shù)據(jù),用戶相對(duì)穩(wěn)定的信息,如圖所示,主要包括人口屬性、商業(yè)屬性等方面數(shù)據(jù)。這類(lèi)信息,自成標(biāo)簽,如果企業(yè)有真實(shí)信息則無(wú)需過(guò)多建模預(yù)測(cè),更多的是數(shù)據(jù)清洗工作。動(dòng)態(tài)信息數(shù)據(jù);用戶不斷變化的行為信息:比如瀏覽、搜索、評(píng)論轉(zhuǎn)發(fā)、購(gòu)買(mǎi)、like等等一切用戶在移動(dòng)互聯(lián)網(wǎng)上的行為。用戶行為的接觸點(diǎn):用戶產(chǎn)生行為的各類(lèi)媒介和app,比如新聞網(wǎng)站、游戲、視頻等等接觸點(diǎn)
1.2.數(shù)據(jù)預(yù)處理:
1.2.1.清洗數(shù)據(jù)格式不合法的記錄;
1.2.2.數(shù)據(jù)轉(zhuǎn)換:將轉(zhuǎn)換后的數(shù)據(jù)物化;
1.2.3.特征處理:
將數(shù)字屬性做歸一化,將類(lèi)別變量做onehotencoding,處理完后,分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系,采用wrapping的方式進(jìn)行特征的選擇;
1.3.畫(huà)像模型訓(xùn)練:
根據(jù)用戶行為構(gòu)建模型產(chǎn)出標(biāo)簽、權(quán)重,一個(gè)事件模型包括:時(shí)間、地點(diǎn)、人物三個(gè)要素。每一次用戶行為本質(zhì)上是一次隨機(jī)事件,可以詳細(xì)描述為:什么用戶,在什么時(shí)間,什么地點(diǎn),做了什么事。用戶畫(huà)像的數(shù)據(jù)模型,可以概括為下面的公式:用戶標(biāo)識(shí)+時(shí)間+行為類(lèi)型+接觸點(diǎn)(app+內(nèi)容),某用戶因?yàn)樵谑裁磿r(shí)間、地點(diǎn)、做了什么事。所以會(huì)打上**標(biāo)簽。用戶標(biāo)簽的權(quán)重可能隨時(shí)間的增加而衰減,因此定義時(shí)間為衰減因子r,行為類(lèi)型、網(wǎng)址決定了權(quán)重,內(nèi)容決定了標(biāo)簽,進(jìn)一步轉(zhuǎn)換為公式:標(biāo)簽權(quán)重=衰減因子×行為權(quán)重×App子權(quán)重加載使用的模型;
1.4.模型驗(yàn)證:
使用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證模型預(yù)測(cè)的準(zhǔn)確度,選擇精度最好的模型。
1.5.用戶畫(huà)像:
使用用戶畫(huà)像數(shù)據(jù)給用戶畫(huà)像;
2)CRT預(yù)估模型訓(xùn)練:
2.1.采集線上投放的廣告的展示和點(diǎn)擊數(shù)據(jù);
2.2.數(shù)據(jù)預(yù)處理;
2.2.1.清洗數(shù)據(jù)格式不合法的記錄;
2.2.2.數(shù)據(jù)轉(zhuǎn)換;
根據(jù)展示請(qǐng)求數(shù)據(jù)中的設(shè)備ID獲取用戶標(biāo)簽庫(kù)中用戶的信息(user),并將user合并到展示數(shù)據(jù)中。通過(guò)廣告的點(diǎn)擊信息,給廣告的展示數(shù)據(jù)增加相應(yīng)的標(biāo)簽click label:如果展示在后續(xù)被點(diǎn)擊,則給此展示click label為1的標(biāo)簽,未產(chǎn)生點(diǎn)擊的展示給與click label為0的標(biāo)簽,給展示數(shù)據(jù)數(shù)據(jù)樣式,click label、impresion{user、ad,adslot、device、media}。將轉(zhuǎn)換后的數(shù)據(jù)物化;
2.2.3.特征處理;
將數(shù)字屬性做歸一化,將類(lèi)別變量做onehotencoding,處理完后,進(jìn)行特征選擇:分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系,采用wrapping的方式進(jìn)行特征的選擇,也可使用GBDT、random forest來(lái)進(jìn)行特征選擇;
2.3.CTR預(yù)測(cè)的模型培訓(xùn);
通過(guò)訓(xùn)練數(shù)據(jù)使用2.2.3選定的特征來(lái)進(jìn)行模型的訓(xùn)練(CTR候選模型可以為:LR、LibFM);
2.4.CTR預(yù)估模型驗(yàn)證;
使用損失函數(shù)在測(cè)試數(shù)據(jù)來(lái)評(píng)估各個(gè)模型的準(zhǔn)確度(分類(lèi)的損失函數(shù)可以AUC\logLoss),選擇精確度最高的模型作為CTR預(yù)估模型;
2.5.CTR預(yù)估上線驗(yàn)證;
將2.4選擇的模型同步給廣告投放引擎進(jìn)行CTR預(yù)測(cè)使用;
3)線上投放驗(yàn)證,使用CRT預(yù)估模型進(jìn)行廣告投放;
3.1.定投過(guò)濾;
接收廣告請(qǐng)求,根據(jù)請(qǐng)求中的設(shè)備ID從用戶的標(biāo)簽庫(kù)中獲取到用戶的信息,并提供給廣告定投使用根據(jù)請(qǐng)求中的數(shù)據(jù)匹配廣告定投條件來(lái)過(guò)濾廣告;
3.2.CTR預(yù)估;
將請(qǐng)求數(shù)據(jù)中media信息、device信息、adslot信息、從標(biāo)簽庫(kù)中獲取的用戶信息user和廣告的ad,封裝成CTR預(yù)估模型要求的格式,調(diào)用CTR預(yù)估模型來(lái)獲取候選廣告的點(diǎn)擊率,使用預(yù)測(cè)點(diǎn)擊率和每個(gè)廣告的成本來(lái)獲取ROI,選擇ROI最高的廣告投放;
3.3.廣告投放;
將3.2選擇的廣告投放是用戶側(cè);
3.4.模型效果評(píng)估;
計(jì)算使用CTR預(yù)估模型投放的廣告,計(jì)算實(shí)際廣告的CTR。
其中,在另一個(gè)實(shí)施例中,其中,
1)DMP用戶畫(huà)像;
1.1.數(shù)據(jù)采集;
在廣告提供中加入用戶在廣告互動(dòng)信息的信息的采集,通過(guò)爬蟲(chóng)程序獲取外部數(shù)據(jù),包括靜態(tài)信息數(shù)據(jù)和動(dòng)態(tài)信息數(shù)據(jù)(用戶的廣告互動(dòng)行為);
1.2.數(shù)據(jù)預(yù)處理;
1.2.1.清洗數(shù)據(jù)格式不合法的記錄;
1.2.2.數(shù)據(jù)轉(zhuǎn)換:將轉(zhuǎn)換后的數(shù)據(jù)物化;
1.2.3.特征處理;
將數(shù)字屬性做歸一化,將類(lèi)別變量做onehotencoding,處理完后,分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系,采用wrapping的方式進(jìn)行特征的選擇,特征選擇可以使用(特征排序);
1.3.畫(huà)像模型訓(xùn)練;
使用下面的模型來(lái)訓(xùn)練:標(biāo)簽權(quán)重=衰減因子×行為權(quán)重×App權(quán)重;
1.4.模型驗(yàn)證;
使用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證模型預(yù)測(cè)的準(zhǔn)確度;
1.5.用戶畫(huà)像;
使用用戶畫(huà)像數(shù)據(jù)給用戶畫(huà)像,選擇標(biāo)簽權(quán)重>0.8的標(biāo)簽來(lái)給用戶畫(huà)像,將用戶畫(huà)像物化并同步到廣告系統(tǒng);
2)CRT預(yù)估模型訓(xùn)練;
2.1.采集線上投放的廣告的展示和點(diǎn)擊數(shù)據(jù);
2.2.數(shù)據(jù)預(yù)處理;
2.2.1.清洗數(shù)據(jù)格式不合法的記錄;
2.2.2.數(shù)據(jù)轉(zhuǎn)換;
根據(jù)展示請(qǐng)求數(shù)據(jù)中的設(shè)備ID獲取用戶標(biāo)簽庫(kù)中用戶的信息(user),并將user合并到展示數(shù)據(jù)中。通過(guò)廣告的點(diǎn)擊信息,給廣告的展示數(shù)據(jù)增加相應(yīng)的標(biāo)簽click label:如果展示在后續(xù)被點(diǎn)擊,則給此展示click label為1的標(biāo)簽,未產(chǎn)生點(diǎn)擊的展示給與click label為0的標(biāo)簽,給展示數(shù)據(jù)數(shù)據(jù)樣式,click label、impresion{user、ad,adslot、device、media}。將轉(zhuǎn)換后的數(shù)據(jù)物化;
2.2.3.特征處理;
將數(shù)字屬性做歸一化,將類(lèi)別變量做onehotencoding,處理完后,使用GBDT進(jìn)行特征選擇。
2.3.CTR預(yù)測(cè)的模型培訓(xùn);
通過(guò)訓(xùn)練數(shù)據(jù)使用5.2.3使用GBDT特征選擇算法選定的特征來(lái)進(jìn)行對(duì)LibFM模型進(jìn)行訓(xùn)練;
2.4.CTR預(yù)估模型驗(yàn)證;
使用損失函數(shù)在測(cè)試數(shù)據(jù)上來(lái)評(píng)估libFm模型在不同參數(shù)的準(zhǔn)確度(分類(lèi)的損失函數(shù)為logLoss),選擇精確度最高的模型作為CTR預(yù)估模型。
2.5.CTR預(yù)估上線驗(yàn)證;
將2.4選擇的模型同步給廣告投放引擎進(jìn)行CTR預(yù)測(cè)使用;
3)線上投放驗(yàn)證:使用CRT預(yù)估模型進(jìn)行廣告投放,驗(yàn)證實(shí)際點(diǎn)擊率和預(yù)測(cè)值的差別;
3.1.線上投放驗(yàn)證定投過(guò)濾;
接收廣告請(qǐng)求,根據(jù)請(qǐng)求中的設(shè)備ID從用戶的標(biāo)簽庫(kù)中獲取到用戶的信息,并提供給廣告定投使用根據(jù)請(qǐng)求中的數(shù)據(jù)匹配廣告定投條件來(lái)過(guò)濾廣告;
3.2.CTR預(yù)估;
將請(qǐng)求數(shù)據(jù)中media信息、device信息、adslot信息、從標(biāo)簽庫(kù)中獲取的用戶信息user和廣告的ad,封裝成CTR預(yù)估模型要求的格式,調(diào)用CTR預(yù)估模型來(lái)獲取候選廣告的點(diǎn)擊率,使用預(yù)測(cè)點(diǎn)擊率和每個(gè)廣告的成本來(lái)獲取ROI,選擇ROI最高的廣告投放;
3.3.廣告投放;
將3.2選擇的廣告投放是用戶側(cè);
3.4.模型效果評(píng)估;
計(jì)算使用libFm預(yù)估模型投放的廣告,計(jì)算實(shí)際廣告的CTR。
實(shí)施例四:
如圖5所示,一種廣告?zhèn)€性化推送系統(tǒng),包括:
數(shù)據(jù)管理平臺(tái),用于通過(guò)爬蟲(chóng)獲取第三方外部數(shù)據(jù),并從中統(tǒng)計(jì)出某一用戶的行為數(shù)據(jù);獲取平臺(tái)中對(duì)用戶的廣告的展示、點(diǎn)擊和互動(dòng)數(shù)據(jù)的內(nèi)部數(shù)據(jù);對(duì)以上第三方外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)進(jìn)行預(yù)處理,并將其據(jù)轉(zhuǎn)化為具有準(zhǔn)確用戶信息和標(biāo)簽的數(shù)據(jù)樣本;使用預(yù)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練,并選擇用戶畫(huà)像的具體模型,并將得到的用戶的信息同步到廣告平臺(tái);
廣告平臺(tái),用于采集平臺(tái)中歷史的廣告展示和點(diǎn)擊數(shù)據(jù),構(gòu)建CTR廣告投放預(yù)測(cè)模型;基于所述用戶的信息和所述CTR廣告投放預(yù)測(cè)模型,對(duì)某一用戶進(jìn)行廣告精準(zhǔn)投放。
優(yōu)選的是,所述用戶的行為數(shù)據(jù)具體包括:
靜態(tài)數(shù)據(jù),包括:人口屬性、商業(yè)屬性方面數(shù)據(jù),這些數(shù)據(jù)自成標(biāo)簽;
動(dòng)態(tài)信息數(shù)據(jù),包括:用戶不斷變化的行為信息,即:
包括:用戶瀏覽、搜索、評(píng)論轉(zhuǎn)發(fā)、購(gòu)買(mǎi)或like一切用戶在移動(dòng)互聯(lián)網(wǎng)上的行為和用戶行為的接觸點(diǎn),其中,所述接觸點(diǎn)為用戶產(chǎn)生行為的各類(lèi)媒介和app。
優(yōu)選的是,所述數(shù)據(jù)管理平臺(tái),進(jìn)一步用于:數(shù)據(jù)清洗,清洗數(shù)據(jù)格式不合法的記錄,將轉(zhuǎn)換后的數(shù)據(jù)物化;
將數(shù)字屬性做歸一化,將類(lèi)別變量做獨(dú)熱編碼(onehotencoding);
處理完后,分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系,采用wrapping的方式進(jìn)行特征的選擇。
本發(fā)明通過(guò)采集更多的用戶數(shù)據(jù)而不僅僅是展示和點(diǎn)擊數(shù)據(jù)來(lái)訓(xùn)練用戶畫(huà)像的模型,改善用戶畫(huà)像的準(zhǔn)確性,能有更豐富的數(shù)據(jù)和精度來(lái)描述用戶,將廣告推薦給最匹配的用戶,可以改善用戶體驗(yàn),從而也提高CTR預(yù)測(cè)模型的準(zhǔn)確度。
需要說(shuō)明的是,對(duì)于上述方法實(shí)施例而言,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請(qǐng)并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本申請(qǐng),某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本申請(qǐng)所必須的。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。
而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
最后應(yīng)說(shuō)明的是:以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。