一種廣告?zhèn)€性化推送系統(tǒng)及方法與流程

文檔序號(hào)：12551677閱讀：1137來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于互聯(lián)網(wǎng)領(lǐng)域，涉及一種廣告?zhèn)€性化推送系統(tǒng)及方法。

背景技術(shù)：

在互聯(lián)網(wǎng)中，例如，百度，擁有大量的網(wǎng)頁(yè)信息，而主題廣告推廣的對(duì)象不是用戶而是某一類(lèi)型的頁(yè)面。通過(guò)類(lèi)比，每種網(wǎng)頁(yè)類(lèi)型對(duì)應(yīng)于推薦系統(tǒng)中的一個(gè)用戶，而每一個(gè)廣告就對(duì)應(yīng)于推薦系統(tǒng)中的一個(gè)物品。

計(jì)算廣告從前期調(diào)查到策劃、制作、投放、反饋，再到效果測(cè)定的運(yùn)作流程，本質(zhì)上就是一系列算法模型組合演算的過(guò)程。計(jì)算廣告的目的在于通過(guò)算法集合自動(dòng)尋找廣告、廣告環(huán)境與受眾三者之間的最佳匹配。這種自動(dòng)化最佳匹配的實(shí)現(xiàn)是數(shù)據(jù)挖掘、信息檢索、文本分析、情感計(jì)算、機(jī)器學(xué)習(xí)等多種程序算法交互作用的結(jié)果。

eCpm計(jì)算廣告中最為核心的量化指標(biāo)之一,eCpm＝ROI(a,u,c)＝CTR(a,u,c).Value(a,u,c),上式中CTR為廣告的點(diǎn)擊率、Value為廣告的點(diǎn)擊價(jià)值、a(Ad)為廣告、c(context)為上下文、u(user)為用戶。user由于Value是固定的，實(shí)際影響廣告主收入的核心因素為廣告的點(diǎn)擊率。

可見(jiàn)廣告點(diǎn)擊率(Click-Through Rate Prediction)是互聯(lián)網(wǎng)計(jì)算廣告中的關(guān)鍵環(huán)節(jié)，預(yù)估準(zhǔn)確性直接影響公司廣告收入。提供廣告的點(diǎn)擊率能使得廣告主有更好的ROI。點(diǎn)擊率(Click-Through-Rate,CTR)預(yù)估是互聯(lián)網(wǎng)廣告投放的核心問(wèn)題,通過(guò)使用機(jī)器學(xué)習(xí)方法,充分利用廣告系統(tǒng)日志中的數(shù)據(jù)進(jìn)行預(yù)測(cè),計(jì)算出用戶對(duì)候選廣告點(diǎn)擊概率的大小,從中選出被用戶點(diǎn)擊的概率較大的廣告展示給用戶。

從上面Ctr(a,u,c)可以看出，要改善廣告的點(diǎn)擊率，就必須在合適的情景下將廣告推薦給匹配的用戶。

廣告推薦以下幾個(gè)關(guān)鍵技術(shù)因素決定：

1.受眾定向投放技術(shù)。

客戶根據(jù)受眾的人口統(tǒng)計(jì)學(xué)特征和興趣愛(ài)好采買(mǎi)受眾，包括地理位置、年齡、性別、職業(yè)/行業(yè)、收入狀態(tài)、婚姻狀態(tài)、教育程度和興趣愛(ài)好。

2.用戶畫(huà)像。

通過(guò)用戶調(diào)研去了解用戶,根據(jù)他們的目標(biāo)、行為和觀點(diǎn)的差異,將他們區(qū)分為不同的類(lèi)型,然后每種類(lèi)型中抽取出典型特征,賦予名字、照片、一些人口統(tǒng)計(jì)學(xué)要素、場(chǎng)景等描述,就形成了一個(gè)人物原型。

3.CTR預(yù)估。

通過(guò)采集的投放數(shù)據(jù)培訓(xùn)CTR預(yù)估的模型來(lái)預(yù)測(cè)廣告的點(diǎn)擊率。

4.機(jī)器學(xué)習(xí)(machine learning)。

計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為，以獲取新的知識(shí)或技能，重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。

現(xiàn)有廣告的推薦系統(tǒng)基于CTR預(yù)估模型，其主要包括以下步驟：

1.采集廣告歷史的投放數(shù)據(jù)；采集廣告的展示數(shù)據(jù)和點(diǎn)擊數(shù)據(jù)；

2.數(shù)據(jù)預(yù)處理，包括：

a)清洗數(shù)據(jù)格式不合法的記錄

b)數(shù)據(jù)轉(zhuǎn)換：通過(guò)廣告的點(diǎn)擊信息，給廣告的展示數(shù)據(jù)增加相應(yīng)的標(biāo)簽click label，如果展示在后續(xù)被點(diǎn)擊，則給此展示click label為1的標(biāo)簽，未產(chǎn)生點(diǎn)擊的展示給與click label為0的標(biāo)簽，數(shù)據(jù)樣式，click label、impresion{user、ad，adslot、device、app}。將轉(zhuǎn)換后的數(shù)據(jù)物化；

c)特征處理：將數(shù)字屬性做歸一化，將類(lèi)別變量做onehotencoding，處理完后，分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系，采用wrapping的方式進(jìn)行特征的選擇，特征選擇可以使用(特征排序)；

3.CTR預(yù)測(cè)模型訓(xùn)練，包括:

將經(jīng)過(guò)特征選擇和處理后的數(shù)據(jù)分成培訓(xùn)集和驗(yàn)證集，用培訓(xùn)集訓(xùn)練CTR模型(可以是LR，LibFm等模型)。

4.CTR預(yù)測(cè)驗(yàn)證，包括：

使用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證訓(xùn)練的模型，通過(guò)logloss來(lái)評(píng)估模型的準(zhǔn)確度：

5.CTR預(yù)測(cè)模型上線驗(yàn)證，包括：

a)使用CTR預(yù)測(cè)模型來(lái)預(yù)測(cè)線上的廣告請(qǐng)求，并計(jì)算實(shí)際投放的CTR和預(yù)測(cè)值對(duì)比；

從現(xiàn)有的廣告推薦系統(tǒng)的CTR預(yù)測(cè)模型來(lái)看，無(wú)論采用哪種CTR預(yù)測(cè)的模型，實(shí)際點(diǎn)擊率的預(yù)測(cè)都受到下面數(shù)據(jù)的影響(請(qǐng)求的媒體(media)、請(qǐng)求的用戶、請(qǐng)求的設(shè)備、請(qǐng)求中廣告位位置信息、廣告本身的屬性)，可以使用以下條件概率表示：P(click|media,device,adslot,ad,user)。從條件概率來(lái)看影響CTR模型的準(zhǔn)確率在于選擇的特征的準(zhǔn)確性，即在請(qǐng)求中媒體的信息(media)、設(shè)備的信息(device)、廣告位的信息(adslot)、廣告的信息(信息)。通常下media、device、adslot和ad這些屬性的值是準(zhǔn)確和穩(wěn)定的，那個(gè)user就是一個(gè)影響CTR預(yù)測(cè)的關(guān)鍵因素，現(xiàn)有機(jī)制缺少對(duì)用戶進(jìn)行精準(zhǔn)畫(huà)像的機(jī)制和數(shù)據(jù)來(lái)獲取用戶屬性和用戶屬性數(shù)據(jù)準(zhǔn)確度，從而導(dǎo)致CTR預(yù)估的準(zhǔn)確性不高，從而推薦系統(tǒng)不佳。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種廣告?zhèn)€性化推送方法和系統(tǒng)，用于解決現(xiàn)有的廣告推薦系統(tǒng)性能不佳的問(wèn)題。

本發(fā)明解決上述技術(shù)問(wèn)題所采取的技術(shù)方案如下：

一種廣告?zhèn)€性化推送方法，具體包括：

步驟1)通過(guò)爬蟲(chóng)獲取第三方外部數(shù)據(jù)，并從中統(tǒng)計(jì)出某一用戶的行為數(shù)據(jù)；獲取平臺(tái)中對(duì)用戶的廣告的展示、點(diǎn)擊和互動(dòng)數(shù)據(jù)的內(nèi)部數(shù)據(jù)；

步驟2)對(duì)以上第三方外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)進(jìn)行預(yù)處理，并將其據(jù)轉(zhuǎn)化為具有準(zhǔn)確用戶信息和標(biāo)簽的數(shù)據(jù)樣本；

步驟3)使用預(yù)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練，并選擇用戶畫(huà)像的具體模型，形成用戶標(biāo)簽庫(kù)并將得到的用戶的信息同步到廣告平臺(tái)，由廣告平臺(tái)將其存儲(chǔ)于緩存標(biāo)簽庫(kù)中；

步驟4)采集平臺(tái)中歷史的廣告展示和點(diǎn)擊數(shù)據(jù)，形成CTR廣告投放預(yù)測(cè)模型，并將其存儲(chǔ)于CTR預(yù)估模型庫(kù)中；

步驟5)基于所述用戶的信息和所述CTR廣告投放預(yù)測(cè)模型，對(duì)某一用戶進(jìn)行廣告精準(zhǔn)投放。

優(yōu)選的是，步驟1)行為數(shù)據(jù)具體包括：

靜態(tài)數(shù)據(jù)，包括：人口屬性、商業(yè)屬性方面數(shù)據(jù)，這些數(shù)據(jù)自成標(biāo)簽；

動(dòng)態(tài)信息數(shù)據(jù)，包括：用戶不斷變化的行為信息，即：

包括：用戶瀏覽、搜索、評(píng)論轉(zhuǎn)發(fā)、購(gòu)買(mǎi)或like一切用戶在移動(dòng)互聯(lián)網(wǎng)上的行為和用戶行為的接觸點(diǎn)，其中，所述接觸點(diǎn)為用戶產(chǎn)生行為的各類(lèi)媒介和app。

優(yōu)選的是，步驟2)種，具體包括：數(shù)據(jù)清洗，清洗數(shù)據(jù)格式不合法的記錄，將轉(zhuǎn)換后的數(shù)據(jù)物化；

將數(shù)字屬性做歸一化，將類(lèi)別變量做獨(dú)熱編碼(onehotencoding)；

處理完后，分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系，采用wrapping的方式進(jìn)行特征的選擇。

優(yōu)選的是，步驟3)種，用戶畫(huà)像的具體模型的訓(xùn)練過(guò)程，包括：

根據(jù)用戶行為構(gòu)建模型產(chǎn)出標(biāo)簽、權(quán)重，一個(gè)事件模型包括：

時(shí)間、地點(diǎn)、人物三個(gè)要素，其中，每一次用戶行為本質(zhì)上是一次隨機(jī)事件，可以詳細(xì)描述為：什么用戶，在什么時(shí)間，什么地點(diǎn)，做了什么事；

用戶畫(huà)像的數(shù)據(jù)模型，概括為下面的公式：

用戶標(biāo)識(shí)、時(shí)間、行為類(lèi)型+接觸點(diǎn)，即某用戶因?yàn)樵谑裁磿r(shí)間、地點(diǎn)、做了什么事，并對(duì)其打上標(biāo)簽；其中，用戶標(biāo)簽的權(quán)重隨時(shí)間的增加而衰減，故定義時(shí)間為衰減因子r，行為類(lèi)型、網(wǎng)址決定了權(quán)重，內(nèi)容決定了標(biāo)簽，進(jìn)一步轉(zhuǎn)換為公式：標(biāo)簽權(quán)重＝衰減因子×行為權(quán)重×App子權(quán)重加載使用的模型。

優(yōu)選的是，步驟4)中，具體包括：

采集線上投放的廣告的展示和點(diǎn)擊數(shù)據(jù)；數(shù)據(jù)預(yù)處理，清洗數(shù)據(jù)格式不合法的記錄；

數(shù)據(jù)轉(zhuǎn)換步驟，具體包括：

根據(jù)展示請(qǐng)求數(shù)據(jù)中的設(shè)備ID獲取用戶標(biāo)簽庫(kù)中用戶的信息(user)，并將user合并到展示數(shù)據(jù)中；

其中，通過(guò)廣告的點(diǎn)擊信息，給廣告的展示數(shù)據(jù)增加相應(yīng)的標(biāo)簽click label：如果展示在后續(xù)被點(diǎn)擊，則給此展示click label為1的標(biāo)簽，未產(chǎn)生點(diǎn)擊的展示給與click label為0的標(biāo)簽，給展示數(shù)據(jù)數(shù)據(jù)樣式，click label、impresion{user、ad，adslot、device、media}。將轉(zhuǎn)換后的數(shù)據(jù)物化。

優(yōu)選的是，還包括：將數(shù)字屬性做歸一化，將類(lèi)別變量做onehotencoding，處理完后，進(jìn)行特征選擇：分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系，采用wrapping的方式進(jìn)行特征的選擇，或者，使用GBDT、random forest來(lái)進(jìn)行特征選擇；

通過(guò)訓(xùn)練數(shù)據(jù)使用以上選定的特征來(lái)進(jìn)行模型的訓(xùn)練，其中，CTR候選模型可以為：LR、LibFM。

優(yōu)選的是，步驟5)中，具體包括：

接收廣告請(qǐng)求，根據(jù)請(qǐng)求中的設(shè)備ID從用戶的標(biāo)簽庫(kù)中獲取到用戶的信息，并提供給廣告定投使用根據(jù)請(qǐng)求中的數(shù)據(jù)匹配廣告定投條件來(lái)過(guò)濾廣告；

將請(qǐng)求數(shù)據(jù)中media信息、device信息、adslot信息、從標(biāo)簽庫(kù)中獲取的用戶信息user和廣告的ad，封裝成CTR預(yù)估模型要求的格式，調(diào)用CTR預(yù)估模型來(lái)獲取候選廣告的點(diǎn)擊率，使用預(yù)測(cè)點(diǎn)擊率和每個(gè)廣告的成本來(lái)獲取ROI，選擇ROI最高的廣告投放。

一種廣告?zhèn)€性化推送系統(tǒng)，包括：

數(shù)據(jù)管理平臺(tái)，用于通過(guò)爬蟲(chóng)獲取第三方外部數(shù)據(jù)，并從中統(tǒng)計(jì)出某一用戶的行為數(shù)據(jù)；獲取平臺(tái)中對(duì)用戶的廣告的展示、點(diǎn)擊和互動(dòng)數(shù)據(jù)的內(nèi)部數(shù)據(jù)；對(duì)以上第三方外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)進(jìn)行預(yù)處理，并將其據(jù)轉(zhuǎn)化為具有準(zhǔn)確用戶信息和標(biāo)簽的數(shù)據(jù)樣本；使用預(yù)處理后的數(shù)據(jù)進(jìn)行訓(xùn)練，并選擇用戶畫(huà)像的具體模型，并將得到的用戶的信息同步到廣告平臺(tái)；

廣告平臺(tái)，用于采集平臺(tái)中歷史的廣告展示和點(diǎn)擊數(shù)據(jù)，構(gòu)建CTR廣告投放預(yù)測(cè)模型；基于所述用戶的信息和所述CTR廣告投放預(yù)測(cè)模型，對(duì)某一用戶進(jìn)行廣告精準(zhǔn)投放。

優(yōu)選的是，所述用戶的行為數(shù)據(jù)具體包括：

靜態(tài)數(shù)據(jù)，包括：人口屬性、商業(yè)屬性方面數(shù)據(jù)，這些數(shù)據(jù)自成標(biāo)簽；

動(dòng)態(tài)信息數(shù)據(jù)，包括：用戶不斷變化的行為信息，即：

優(yōu)選的是，所述數(shù)據(jù)管理平臺(tái)，進(jìn)一步用于：數(shù)據(jù)清洗，清洗數(shù)據(jù)格式不合法的記錄，將轉(zhuǎn)換后的數(shù)據(jù)物化；

將數(shù)字屬性做歸一化，將類(lèi)別變量做獨(dú)熱編碼(onehotencoding)；

處理完后，分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系，采用wrapping的方式進(jìn)行特征的選擇。

本發(fā)明通過(guò)采集更多的用戶數(shù)據(jù)而不僅僅是展示和點(diǎn)擊數(shù)據(jù)來(lái)訓(xùn)練用戶畫(huà)像的模型，改善用戶畫(huà)像的準(zhǔn)確性，能有更豐富的數(shù)據(jù)和精度來(lái)描述用戶，將廣告推薦給最匹配的用戶，可以改善用戶體驗(yàn)，從而也提高CTR預(yù)測(cè)模型的準(zhǔn)確度。

本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述，并且，部分地從說(shuō)明書(shū)中變得顯而易見(jiàn)，或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫(xiě)的說(shuō)明書(shū)、權(quán)利要求書(shū)、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。

附圖說(shuō)明

下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行詳細(xì)的描述，以使得本發(fā)明的上述優(yōu)點(diǎn)更加明確。其中，

圖1是本發(fā)明廣告?zhèn)€性化推送方法的流程示意圖；

圖2是本發(fā)明廣告?zhèn)€性化推送方法的流程示意圖；

圖3是本發(fā)明廣告?zhèn)€性化推送方法的流程示意圖；

圖4是本發(fā)明廣告?zhèn)€性化推送方法的流程示意圖；

圖5是本發(fā)明廣告?zhèn)€性化推送系統(tǒng)的結(jié)構(gòu)示意圖。

具體實(shí)施方式

以下將結(jié)合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式，借此對(duì)本發(fā)明如何應(yīng)用技術(shù)手段來(lái)解決技術(shù)問(wèn)題，并達(dá)成技術(shù)效果的實(shí)現(xiàn)過(guò)程能充分理解并據(jù)以實(shí)施。需要說(shuō)明的是，只要不構(gòu)成沖突，本發(fā)明中的各個(gè)實(shí)施例以及各實(shí)施例中的各個(gè)特征可以相互結(jié)合，所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。

另外，在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行，并且，雖然在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

CPM：按廣告每千次被展現(xiàn)，成為一個(gè)CPM；

CTR:Click-Through Rate Prediction點(diǎn)擊轉(zhuǎn)化率

DMP：Data manage Platform數(shù)據(jù)管理平臺(tái)

ROI：Return Of Investment投資回報(bào)率

GBDT：Gradient Boost Decision Tree隨機(jī)梯度下降樹(shù)

RF:Random Forest隨機(jī)森林

LR：logic regression邏輯回歸算法

LibFm:Factorization Machine Library

AUC：area under curve評(píng)估模型的準(zhǔn)確度，越大模型越優(yōu)

LogLoss：邏輯損失函數(shù),值越小，模型更優(yōu)

實(shí)施例一：

具體來(lái)說(shuō)，如圖1所示，從廣告點(diǎn)擊率預(yù)測(cè)模型的訓(xùn)練和使用來(lái)看，要想提高廣告點(diǎn)擊率預(yù)測(cè)的準(zhǔn)確度，就必須將廣告推薦給合適的用戶，這就要求我們對(duì)用戶的畫(huà)像足夠精準(zhǔn)，如果要得到更精準(zhǔn)的用戶畫(huà)像，我們必須采集更多的用戶數(shù)據(jù)(不僅僅是展示和點(diǎn)擊數(shù)據(jù))來(lái)訓(xùn)練用戶畫(huà)像的模型，改善用戶畫(huà)像的準(zhǔn)確性，能有更豐富的數(shù)據(jù)和精度來(lái)描述用戶，將廣告推薦給最匹配的用戶，可以改善用戶體驗(yàn)，從而也提高CTR預(yù)測(cè)模型的準(zhǔn)確度。

如圖1，一種廣告?zhèn)€性化推送方法，具體包括：

步驟4)采集平臺(tái)中歷史的廣告展示和點(diǎn)擊數(shù)據(jù)，形成CTR廣告投放預(yù)測(cè)模型，并將其存儲(chǔ)于CTR預(yù)估模型庫(kù)中；

步驟5)基于所述用戶的信息和所述CTR廣告投放預(yù)測(cè)模型，對(duì)某一用戶進(jìn)行廣告精準(zhǔn)投放。

實(shí)施例二：

更具體地說(shuō)，本發(fā)明的技術(shù)實(shí)現(xiàn)原理，如下：

第一步：用戶畫(huà)像

數(shù)據(jù)采集：在廣告提供中加入用戶在廣告互動(dòng)信息的信息的采集，通過(guò)爬蟲(chóng)程序獲取外部數(shù)據(jù)，從而豐富數(shù)據(jù)，提高畫(huà)像的準(zhǔn)確率和覆蓋程度

用戶畫(huà)像模型選擇：使用采集的數(shù)據(jù)培訓(xùn)和選擇用戶畫(huà)像的模型

用戶畫(huà)像將用戶畫(huà)像得到的用戶的信息同步到廣告平臺(tái)

第二步：訓(xùn)練CTR預(yù)測(cè)模型，包括：

采集歷史廣告展示和點(diǎn)擊數(shù)據(jù)

數(shù)據(jù)預(yù)處理：將數(shù)據(jù)轉(zhuǎn)化為具有準(zhǔn)確用戶信息和標(biāo)簽的數(shù)據(jù)樣本

模型培訓(xùn)和選擇：使用預(yù)處理后的數(shù)據(jù)培訓(xùn)和選擇CTR預(yù)測(cè)模型

第三步：CTR預(yù)估模型線上驗(yàn)證

使用選定的CTR預(yù)估模型來(lái)投放廣告，并根據(jù)反饋計(jì)算實(shí)際的CTR，比較預(yù)測(cè)的CTR。

其中，優(yōu)選的是，步驟1)行為數(shù)據(jù)具體包括：

靜態(tài)數(shù)據(jù)，包括：人口屬性、商業(yè)屬性方面數(shù)據(jù)，這些數(shù)據(jù)自成標(biāo)簽；

動(dòng)態(tài)信息數(shù)據(jù)，包括：用戶不斷變化的行為信息，即：

優(yōu)選的是，步驟2)種，具體包括：數(shù)據(jù)清洗，清洗數(shù)據(jù)格式不合法的記錄，將轉(zhuǎn)換后的數(shù)據(jù)物化；

將數(shù)字屬性做歸一化，將類(lèi)別變量做獨(dú)熱編碼(onehotencoding)；

處理完后，分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系，采用wrapping的方式進(jìn)行特征的選擇。

優(yōu)選的是，步驟3)種，用戶畫(huà)像的具體模型的訓(xùn)練過(guò)程，包括：

根據(jù)用戶行為構(gòu)建模型產(chǎn)出標(biāo)簽、權(quán)重，一個(gè)事件模型包括：

用戶畫(huà)像的數(shù)據(jù)模型，概括為下面的公式：

優(yōu)選的是，步驟4)中，具體包括：

采集線上投放的廣告的展示和點(diǎn)擊數(shù)據(jù)；數(shù)據(jù)預(yù)處理，清洗數(shù)據(jù)格式不合法的記錄；

數(shù)據(jù)轉(zhuǎn)換步驟，具體包括：

根據(jù)展示請(qǐng)求數(shù)據(jù)中的設(shè)備ID獲取用戶標(biāo)簽庫(kù)中用戶的信息(user)，并將user合并到展示數(shù)據(jù)中；

通過(guò)訓(xùn)練數(shù)據(jù)使用以上選定的特征來(lái)進(jìn)行模型的訓(xùn)練，其中，CTR候選模型可以為：LR、LibFM。

優(yōu)選的是，步驟5)中，具體包括：

實(shí)施例三：

如圖2-4所示，其中，在一個(gè)實(shí)施例中，本發(fā)明先采集歷史的廣告平臺(tái)中用戶的展示、點(diǎn)擊和互動(dòng)數(shù)據(jù)，并且通過(guò)爬蟲(chóng)采集外部的用戶行為數(shù)據(jù)，通過(guò)數(shù)據(jù)來(lái)進(jìn)行用戶畫(huà)像，然后通過(guò)對(duì)畫(huà)像的用戶數(shù)據(jù)合并到用戶的展示數(shù)據(jù)數(shù)據(jù)中來(lái)訓(xùn)練CTR模型。最后將CTR模型應(yīng)用到廣告投放中。

其中，主要包括以下幾個(gè)主要步驟：

1)DMP用戶畫(huà)像：

1.1.數(shù)據(jù)采集：

在廣告提供中加入用戶在廣告互動(dòng)信息的信息的采集，通過(guò)爬蟲(chóng)程序獲取外部數(shù)據(jù)，靜態(tài)信息數(shù)據(jù)，用戶相對(duì)穩(wěn)定的信息，如圖所示，主要包括人口屬性、商業(yè)屬性等方面數(shù)據(jù)。這類(lèi)信息，自成標(biāo)簽，如果企業(yè)有真實(shí)信息則無(wú)需過(guò)多建模預(yù)測(cè)，更多的是數(shù)據(jù)清洗工作。動(dòng)態(tài)信息數(shù)據(jù)；用戶不斷變化的行為信息：比如瀏覽、搜索、評(píng)論轉(zhuǎn)發(fā)、購(gòu)買(mǎi)、like等等一切用戶在移動(dòng)互聯(lián)網(wǎng)上的行為。用戶行為的接觸點(diǎn)：用戶產(chǎn)生行為的各類(lèi)媒介和app，比如新聞網(wǎng)站、游戲、視頻等等接觸點(diǎn)

1.2.數(shù)據(jù)預(yù)處理：

1.2.1.清洗數(shù)據(jù)格式不合法的記錄；

1.2.2.數(shù)據(jù)轉(zhuǎn)換：將轉(zhuǎn)換后的數(shù)據(jù)物化；

1.2.3.特征處理：

將數(shù)字屬性做歸一化，將類(lèi)別變量做onehotencoding，處理完后，分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系，采用wrapping的方式進(jìn)行特征的選擇；

1.3.畫(huà)像模型訓(xùn)練：

根據(jù)用戶行為構(gòu)建模型產(chǎn)出標(biāo)簽、權(quán)重，一個(gè)事件模型包括：時(shí)間、地點(diǎn)、人物三個(gè)要素。每一次用戶行為本質(zhì)上是一次隨機(jī)事件，可以詳細(xì)描述為：什么用戶，在什么時(shí)間，什么地點(diǎn)，做了什么事。用戶畫(huà)像的數(shù)據(jù)模型，可以概括為下面的公式：用戶標(biāo)識(shí)+時(shí)間+行為類(lèi)型+接觸點(diǎn)(app+內(nèi)容)，某用戶因?yàn)樵谑裁磿r(shí)間、地點(diǎn)、做了什么事。所以會(huì)打上**標(biāo)簽。用戶標(biāo)簽的權(quán)重可能隨時(shí)間的增加而衰減，因此定義時(shí)間為衰減因子r，行為類(lèi)型、網(wǎng)址決定了權(quán)重，內(nèi)容決定了標(biāo)簽，進(jìn)一步轉(zhuǎn)換為公式：標(biāo)簽權(quán)重＝衰減因子×行為權(quán)重×App子權(quán)重加載使用的模型；

1.4.模型驗(yàn)證：

使用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證模型預(yù)測(cè)的準(zhǔn)確度，選擇精度最好的模型。

1.5.用戶畫(huà)像：

使用用戶畫(huà)像數(shù)據(jù)給用戶畫(huà)像；

2)CRT預(yù)估模型訓(xùn)練：

2.1.采集線上投放的廣告的展示和點(diǎn)擊數(shù)據(jù)；

2.2.數(shù)據(jù)預(yù)處理；

2.2.1.清洗數(shù)據(jù)格式不合法的記錄；

2.2.2.數(shù)據(jù)轉(zhuǎn)換；

根據(jù)展示請(qǐng)求數(shù)據(jù)中的設(shè)備ID獲取用戶標(biāo)簽庫(kù)中用戶的信息(user)，并將user合并到展示數(shù)據(jù)中。通過(guò)廣告的點(diǎn)擊信息，給廣告的展示數(shù)據(jù)增加相應(yīng)的標(biāo)簽click label：如果展示在后續(xù)被點(diǎn)擊，則給此展示click label為1的標(biāo)簽，未產(chǎn)生點(diǎn)擊的展示給與click label為0的標(biāo)簽，給展示數(shù)據(jù)數(shù)據(jù)樣式，click label、impresion{user、ad，adslot、device、media}。將轉(zhuǎn)換后的數(shù)據(jù)物化；

2.2.3.特征處理；

將數(shù)字屬性做歸一化，將類(lèi)別變量做onehotencoding，處理完后，進(jìn)行特征選擇：分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系，采用wrapping的方式進(jìn)行特征的選擇，也可使用GBDT、random forest來(lái)進(jìn)行特征選擇；

2.3.CTR預(yù)測(cè)的模型培訓(xùn)；

通過(guò)訓(xùn)練數(shù)據(jù)使用2.2.3選定的特征來(lái)進(jìn)行模型的訓(xùn)練(CTR候選模型可以為：LR、LibFM)；

2.4.CTR預(yù)估模型驗(yàn)證；

使用損失函數(shù)在測(cè)試數(shù)據(jù)來(lái)評(píng)估各個(gè)模型的準(zhǔn)確度(分類(lèi)的損失函數(shù)可以AUC\logLoss)，選擇精確度最高的模型作為CTR預(yù)估模型；

2.5.CTR預(yù)估上線驗(yàn)證；

將2.4選擇的模型同步給廣告投放引擎進(jìn)行CTR預(yù)測(cè)使用；

3)線上投放驗(yàn)證，使用CRT預(yù)估模型進(jìn)行廣告投放；

3.1.定投過(guò)濾；

3.2.CTR預(yù)估；

3.3.廣告投放；

將3.2選擇的廣告投放是用戶側(cè)；

3.4.模型效果評(píng)估；

計(jì)算使用CTR預(yù)估模型投放的廣告，計(jì)算實(shí)際廣告的CTR。

其中，在另一個(gè)實(shí)施例中，其中，

1)DMP用戶畫(huà)像；

1.1.數(shù)據(jù)采集；

在廣告提供中加入用戶在廣告互動(dòng)信息的信息的采集，通過(guò)爬蟲(chóng)程序獲取外部數(shù)據(jù)，包括靜態(tài)信息數(shù)據(jù)和動(dòng)態(tài)信息數(shù)據(jù)(用戶的廣告互動(dòng)行為)；

1.2.數(shù)據(jù)預(yù)處理；

1.2.1.清洗數(shù)據(jù)格式不合法的記錄；

1.2.2.數(shù)據(jù)轉(zhuǎn)換：將轉(zhuǎn)換后的數(shù)據(jù)物化；

1.2.3.特征處理；

將數(shù)字屬性做歸一化，將類(lèi)別變量做onehotencoding，處理完后，分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系，采用wrapping的方式進(jìn)行特征的選擇，特征選擇可以使用(特征排序)；

1.3.畫(huà)像模型訓(xùn)練；

使用下面的模型來(lái)訓(xùn)練：標(biāo)簽權(quán)重＝衰減因子×行為權(quán)重×App權(quán)重；

1.4.模型驗(yàn)證；

使用測(cè)試數(shù)據(jù)來(lái)驗(yàn)證模型預(yù)測(cè)的準(zhǔn)確度；

1.5.用戶畫(huà)像；

使用用戶畫(huà)像數(shù)據(jù)給用戶畫(huà)像，選擇標(biāo)簽權(quán)重>0.8的標(biāo)簽來(lái)給用戶畫(huà)像，將用戶畫(huà)像物化并同步到廣告系統(tǒng)；

2)CRT預(yù)估模型訓(xùn)練；

2.1.采集線上投放的廣告的展示和點(diǎn)擊數(shù)據(jù)；

2.2.數(shù)據(jù)預(yù)處理；

2.2.1.清洗數(shù)據(jù)格式不合法的記錄；

2.2.2.數(shù)據(jù)轉(zhuǎn)換；

2.2.3.特征處理；

將數(shù)字屬性做歸一化，將類(lèi)別變量做onehotencoding，處理完后，使用GBDT進(jìn)行特征選擇。

2.3.CTR預(yù)測(cè)的模型培訓(xùn)；

通過(guò)訓(xùn)練數(shù)據(jù)使用5.2.3使用GBDT特征選擇算法選定的特征來(lái)進(jìn)行對(duì)LibFM模型進(jìn)行訓(xùn)練；

2.4.CTR預(yù)估模型驗(yàn)證；

使用損失函數(shù)在測(cè)試數(shù)據(jù)上來(lái)評(píng)估libFm模型在不同參數(shù)的準(zhǔn)確度(分類(lèi)的損失函數(shù)為logLoss)，選擇精確度最高的模型作為CTR預(yù)估模型。

2.5.CTR預(yù)估上線驗(yàn)證；

將2.4選擇的模型同步給廣告投放引擎進(jìn)行CTR預(yù)測(cè)使用；

3)線上投放驗(yàn)證：使用CRT預(yù)估模型進(jìn)行廣告投放，驗(yàn)證實(shí)際點(diǎn)擊率和預(yù)測(cè)值的差別；

3.1.線上投放驗(yàn)證定投過(guò)濾；

3.2.CTR預(yù)估；

3.3.廣告投放；

將3.2選擇的廣告投放是用戶側(cè)；

3.4.模型效果評(píng)估；

計(jì)算使用libFm預(yù)估模型投放的廣告，計(jì)算實(shí)際廣告的CTR。

實(shí)施例四：

如圖5所示，一種廣告?zhèn)€性化推送系統(tǒng)，包括：

優(yōu)選的是，所述用戶的行為數(shù)據(jù)具體包括：

靜態(tài)數(shù)據(jù)，包括：人口屬性、商業(yè)屬性方面數(shù)據(jù)，這些數(shù)據(jù)自成標(biāo)簽；

動(dòng)態(tài)信息數(shù)據(jù)，包括：用戶不斷變化的行為信息，即：

將數(shù)字屬性做歸一化，將類(lèi)別變量做獨(dú)熱編碼(onehotencoding)；

處理完后，分析點(diǎn)擊標(biāo)簽和展示數(shù)據(jù)各個(gè)屬性的相關(guān)關(guān)系，采用wrapping的方式進(jìn)行特征的選擇。

需要說(shuō)明的是，對(duì)于上述方法實(shí)施例而言，為了簡(jiǎn)單描述，故將其都表述為一系列的動(dòng)作組合，但是本領(lǐng)域技術(shù)人員應(yīng)該知悉，本申請(qǐng)并不受所描述的動(dòng)作順序的限制，因?yàn)橐罁?jù)本申請(qǐng)，某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次，本領(lǐng)域技術(shù)人員也應(yīng)該知悉，說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例，所涉及的動(dòng)作和模塊并不一定是本申請(qǐng)所必須的。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白，本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此，本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。

而且，本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

最后應(yīng)說(shuō)明的是：以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明，對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)，其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改，或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡云志;
技術(shù)所有人：北京掌闊移動(dòng)傳媒科技有限公司;
我是此專(zhuān)利的發(fā)明人

上一篇：一種尾礦庫(kù)安全隱患治理系統(tǒng)的制作方法與工藝
上一篇：一種裝配式工作井結(jié)構(gòu)的制作方法與工藝

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

普通wifi廣告推送系統(tǒng)相關(guān)技術(shù)

wifi廣告推送系統(tǒng)相關(guān)技術(shù)

運(yùn)營(yíng)商廣告推送系統(tǒng)相關(guān)技術(shù)

廣告推送系統(tǒng)相關(guān)技術(shù)

用路由器推送廣告方法相關(guān)技術(shù)

個(gè)性化推送相關(guān)技術(shù)

個(gè)性化推送規(guī)則相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種廣告?zhèn)€性化推送系統(tǒng)及方法與流程