亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于棧式自編碼器的廣告點擊率預(yù)測的方法與流程

文檔序號:11627913閱讀:199來源:國知局

技術(shù)領(lǐng)域:

本發(fā)明涉及互聯(lián)網(wǎng)計算廣告技術(shù)領(lǐng)域,準(zhǔn)確的說是一種基于棧式自編碼器的廣告點擊率預(yù)測方法。



背景技術(shù):

搜索廣告目前已經(jīng)成為互聯(lián)網(wǎng)行業(yè)的主要收入來源之一,也是規(guī)模最大,增長最快的廣告渠道之一。對于參與搜索廣告的廣告商、廣告媒介和用戶三者來說,一方面,廣告商通過支付每次點擊費用(costperclick,cpc)的形式借助廣告媒介投放廣告,廣告媒介的收益則來自于每次點擊費用與廣告點擊率(click-throughrate,ctr)預(yù)測共同影響而得到,即cpc*ctr,廣告點擊率預(yù)測的準(zhǔn)確性與廣告商和廣告媒介的收益息息相關(guān)。另一方面,用戶點擊廣告的概率隨著廣告位的排放順序呈遞減趨勢,對廣告點擊率進行預(yù)測并將預(yù)測結(jié)果高的廣告投放在搜索結(jié)果頁面靠前的位置,能增加用戶的對廣告的點擊率。搜索廣告點擊率預(yù)測結(jié)果的好壞直接關(guān)系到廣告商與廣告媒介的收益,因此,這項研究早已是工業(yè)界的熱點項目之一。

對于廣告點擊率預(yù)測這一問題,傳統(tǒng)方法分別從假設(shè)檢驗,分類,推薦系統(tǒng)等角度進行切入,但這些通過設(shè)計提取特征方案獲得特征和對用戶進行建模的方法,并沒有充分考慮廣告數(shù)據(jù)具有的高維稀疏性、特征之間存在高度非線性關(guān)聯(lián)的特點,致使信息利用不充分。



技術(shù)實現(xiàn)要素:
:

1.鑒于以上現(xiàn)有技術(shù)的缺點,本發(fā)明提供一種廣告點擊率預(yù)測方法,以提高廣告點擊率預(yù)測的準(zhǔn)確性,

其中包括以下步驟:

步驟1:建立廣告-查詢矩陣,分別對廣告和查詢進行k-means聚類;

步驟2:對用戶-查詢-廣告三維張量模型進行張量分解;

步驟3:提取影響廣告點擊率的基本特征;

步驟4:將選取的基本特征作為棧式自編碼器的輸入層,進行訓(xùn)練,獲得高階組合特征;

步驟5:將高階組合特征輸入邏輯回歸模型中,進行訓(xùn)練;

步驟6:模型訓(xùn)練完成,將待預(yù)測數(shù)據(jù)輸入訓(xùn)練好的模型,進行預(yù)測。

2.在一些實施方式中,步驟1包括:

步驟1-1:用實驗數(shù)據(jù)中提供的廣告展示次數(shù)作為廣告ai與查詢qj的權(quán)重,來建立廣告-查詢矩陣

步驟1-2:對該廣告-查詢矩陣采用k-means算法進行聚類;

步驟1-3:初始數(shù)據(jù)中的用戶數(shù)、查詢數(shù)和廣告數(shù)分別用nu,nq和na表示,相同類型對象內(nèi)部聚類后,屬于同一個簇中的對象用同一個id表示,將聚類后的用戶、查詢和廣告的簇數(shù)分別用ku,kq和ka表示。這樣,初始數(shù)據(jù)集中的用戶數(shù)、查詢數(shù)和廣告數(shù)由原來的nu,nq和na分別降維為ku,kq和ka。

其有益效果是,能夠解決廣告數(shù)據(jù)的高維稀疏性對預(yù)測結(jié)果帶來的不良影響。

3.在一些實施方式中,步驟4包括:

步驟1:先將選取好的基本特征輸入自編碼器中進行訓(xùn)練,訓(xùn)練得到的權(quán)重參數(shù)和偏置參數(shù)b作為棧式自編碼器輸入層和第一層的權(quán)重和偏置;

步驟2:將步驟1中訓(xùn)練得到的輸出層,作為自編碼器的輸入層進行訓(xùn)練,得到第一層和第二層的權(quán)重和偏置;

步驟3:以此類推,得到各層間的偏置與權(quán)重,完成對棧式自編碼器的訓(xùn)練。

其有益效果是能夠獲得數(shù)據(jù)的高維組合特征,挖掘出數(shù)據(jù)中的深層非線性聯(lián)系。

附圖說明:

此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,在附圖中

圖1所示為廣告點擊率預(yù)測方法流程圖;

具體實施方式:

本發(fā)明將廣告數(shù)據(jù)中的高維數(shù)據(jù)進行聚類降維和張量分解,再對處理好的數(shù)據(jù)提取特征,提取的特征作為棧式自編碼器的輸入,采用逐層貪婪算法完成對棧式自編碼器的訓(xùn)練,獲得的高階組合特征的用于訓(xùn)練邏輯回歸模型,最后使用auc曲線作為評價指標(biāo)對實驗結(jié)果進行評價。

數(shù)據(jù)降維是解決數(shù)據(jù)稀疏性的一個有效手段。針對廣告數(shù)據(jù)中相同類型對象內(nèi)部之間存在相似性關(guān)系,首先對相似對象進行聚類,獲得初始的聚合數(shù)據(jù);然后,對于不同類型對象之間存在的復(fù)雜關(guān)聯(lián)關(guān)系,采用張量結(jié)構(gòu)對其建模,并運用張量分解法得到近似張量。

本發(fā)明采用基于距離劃分的k-means聚類算法對查詢、廣告和用戶進行聚類。目的是通過聚類使得相似對象聚合到同一簇中,同一簇中的對象相似度盡可能的高,獲得初始的聚合數(shù)據(jù)。用實驗數(shù)據(jù)中提供的廣告展示次數(shù)作為廣告ai與查詢qj的權(quán)重,來建立廣告-查詢矩陣其中na表示廣告數(shù),nq表示查詢數(shù),wij表示<ai,qj>之間的權(quán)重。對該廣告-查詢矩陣采用k-means算法進行聚類。以下為以廣告聚類為例的聚類算法。

輸入:廣告-查詢矩陣wm×n,聚類簇數(shù)k

輸出:k個廣告簇集合

1.對廣告-查詢矩陣wm×n掃描,得到所有的m個廣告和n個查詢,分別記作a={a1,a2,…,am}和q={q1,q2,…,qn};

2.從m個廣告中隨機抽取k個作為最初的聚類中心點,記作t={t1,t2,…,tk};

3.初始化k個聚類集合{p1,p2,…,pk}為空集;

4.計算每個廣告ai與各個聚類中心點tj之間的距離,計算公式如下:

(其中g(shù)ij表示廣告ai與作為聚類中心的廣告tj共同展現(xiàn)的查詢集合,分別是廣告ai與tj的權(quán)重(展示次數(shù)),dis(ai,tj)表示ai與tj的距離);

5.若dis(ai,tj)=max{d(ai,t1),d(ai,t2),...d(ai,tk)},則廣告ai屬于簇pj;

6.計算同一聚類集合中所有廣告的平均權(quán)重值,重新生成聚類中心;

7.如果聚類中心的偏差達到了設(shè)定的閾值,則聚類完成;否則轉(zhuǎn)到步4重新計算。

初始數(shù)據(jù)中的用戶數(shù)、查詢數(shù)和廣告數(shù)分別用nu,nq和na表示,相同類型對象內(nèi)部聚類后,屬于同一個簇中的對象用同一個id表示,將聚類后的用戶、查詢和廣告的簇數(shù)分別用ku,kq和ka表示。這樣,初始數(shù)據(jù)集中的用戶數(shù)、查詢數(shù)和廣告數(shù)由原來的nu,nq和na分別降維為ku,kq和ka。

點擊日志數(shù)據(jù)中的用戶-查詢-廣告之間存在三元關(guān)系。傳統(tǒng)的降維方法(如pca等)不僅破壞了三者之間的內(nèi)在關(guān)系,當(dāng)數(shù)據(jù)維度數(shù)很大時,容易導(dǎo)致維數(shù)災(zāi)難。為此,本發(fā)明用三維張量結(jié)構(gòu)模型表示用戶、查詢和廣告三維數(shù)據(jù),然后利用張量分解法進行降維。張量模式降維充分保留了用戶、查詢和廣告之間的結(jié)構(gòu)信息和內(nèi)在關(guān)聯(lián),由于參數(shù)更少,對于高維數(shù)據(jù)來說,張量模式的降維要比向量模式有更好的約簡效果。然后利用張量分解法中的tucker分解法對數(shù)據(jù)進行降維。

tucker分解的目的是找到一個與原始張量h的近似張量,并且最大程度保留原始的張量信息和結(jié)構(gòu)信息。初始張量h的3個維度數(shù)分別是ku,kq和ka,經(jīng)過降維后的近似張量h’的3個維度數(shù)分別用iu,iq,ia表示。

廣告數(shù)據(jù)的特征之間存在高度非線性關(guān)聯(lián)的特點,而高階多項式函數(shù)可以有效地刻畫高度關(guān)聯(lián)關(guān)系。本發(fā)明利用棧式自編碼器的多層網(wǎng)絡(luò)結(jié)構(gòu)逐層學(xué)習(xí)特征之間的非線性關(guān)聯(lián)。

自編碼器是一個盡可能復(fù)現(xiàn)初始特征的深度學(xué)習(xí)算法,通常被用來學(xué)習(xí)原始數(shù)據(jù)更好的特征表示,由3層網(wǎng)絡(luò)結(jié)構(gòu)組成:底層是輸入層、中間為隱藏層(新的數(shù)據(jù)表示層)以及輸出層。

本發(fā)明利用棧式自編碼器學(xué)習(xí)廣告數(shù)據(jù)中的高階組合特征過程,描述如下:

(1)將提取的初始特征作為模型的輸入,對初始特征做特征非線性變換得到第1隱藏層,即低階組合特征。

(2)將低階組合特征作為新的學(xué)習(xí)的對象,再次經(jīng)過非線性變換得到相對高階的組合特征,此過程重復(fù)下去,直到達到設(shè)定的隱藏層數(shù)為止。

為了更好的學(xué)習(xí)網(wǎng)絡(luò)權(quán)重參數(shù),本發(fā)明采用基于逐層貪婪訓(xùn)練的無監(jiān)督學(xué)習(xí)算法。逐層貪婪學(xué)習(xí)的關(guān)鍵是逐層訓(xùn)練網(wǎng)絡(luò)權(quán)重參數(shù),每次只學(xué)習(xí)相鄰兩層節(jié)點的連接權(quán)重,通過逐層學(xué)習(xí)以獲得全局的棧式自編碼器模型參數(shù)。逐層貪婪方法學(xué)習(xí)棧式自編碼器權(quán)重參數(shù)的過程如下:

(1)由輸入層到第1個隱藏層,通過最小化輸入輸出的重構(gòu)誤差,利用反向傳播算法訓(xùn)練參數(shù),得到輸入數(shù)據(jù)的第1個潛在表示(即第1隱藏層)。

(2)將上一層特征向量作為訓(xùn)練下一層的輸入,采用同樣的方法訓(xùn)練權(quán)重參數(shù),得到數(shù)據(jù)的另一個潛在表示(即第2隱藏層),依次類推。

點擊率預(yù)估問題實質(zhì)上是一個基于概率的二分類問題,本發(fā)明使用邏輯回歸作為點擊預(yù)估模型。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1