本申請涉及廣告投放領域,具體的,涉及一種利用廣告的以往投放數(shù)據建立投放模型,對最優(yōu)閾值篩選的品牌廣告效果優(yōu)化的方法。
背景技術:品牌廣告主在進行廣告投放往往希望投放的廣告達到一定的展現(xiàn)量,以展現(xiàn)他們的產品,在這個基礎上,廣告主希望自己的廣告在一定展現(xiàn)量的前提下能獲取更多的點擊率。要想獲取高的廣告點擊率,除了跟廣告本身品質、吸引度相關之外,還與用戶是個人的需求及喜好相關,而根據用戶需求及喜好向用戶投放其喜好的視頻廣告能夠提高廣告的點擊率。視頻網站是指在完善的技術平臺支持下,讓互聯(lián)網用戶在線流暢發(fā)布、瀏覽和分享視頻作品的網絡媒體。由此,視頻網站沒有像搜索引擎那樣獲取用戶直接需求信息的功能,現(xiàn)階段的廣告點擊率預算模型選擇不當又導致不能準確地向用戶精準地投放視頻廣告。因此,如何向用戶投放更準確的廣告并且提高廣告點擊率,進一步的,如何建立更加優(yōu)化的廣告點擊率預算模型對廣告投放進行預測以向用戶精確地投放廣告成為現(xiàn)有技術亟待解決的問題。
技術實現(xiàn)要素:本發(fā)明的目的在于提出一種廣告投放的預測算法,對視頻網站中被挖掘出來的大量用戶信息,包括用戶基本信息及用戶偏好,進行整合處理,結合廣告素材本身的特點,通過模型預測及驗證最優(yōu)廣告點擊率,再進行廣告投放點擊率優(yōu)化工作,更精準地向用戶投放廣告,提高點擊率。為達此目的,本發(fā)明采用以下技術方案:一種具有最優(yōu)閾值篩選的品牌廣告效果優(yōu)化的方法,包括如下步驟:數(shù)據源清洗及整合步驟S110:獲得四種數(shù)據作為點擊率優(yōu)化模型的數(shù)據源,所述四種數(shù)據包括:用戶信息數(shù)據:指的是用戶在視頻網站內觀看和/或點擊廣告的行為得到的用戶關注行業(yè)偏好信息以及視頻網站偏好信息,素材信息數(shù)據:指的是品牌廣告的素材信息,廣告展示日志信息:指的是廣告展示時記錄下的相關信息,廣告點擊日志信息:用戶點擊廣告時記錄下的相關信息,將上述四種數(shù)據進行數(shù)據的整合與清洗,得到用戶的人口屬性和偏好信息;特征提取及格式化步驟S120:對清洗及整合后的數(shù)據進行特征提取與格式化,將格式化后的數(shù)據按照一定的比例進行分配得到模型訓練數(shù)據和第一驗證數(shù)據;模型訓練及驗證步驟S130:使用模型訓練數(shù)據利用模型算法進行模型訓練得到訓練模型,使用第一驗證數(shù)據在所述訓練模型中進行驗證,選定最優(yōu)點擊率作為預測的第一點擊率,使用在模型訓練數(shù)據之后的廣告投放的所述四種數(shù)據,利用特征提取及格式化步驟的方法得到第二驗證數(shù)據,使用所述第二驗證數(shù)據在所述訓練模型中進行驗證,選定最優(yōu)點擊率作為預測的第二點擊率,將第一點擊率與第二點擊率進行線性比較,最高值作為預測的點擊率閾值;模型測試及投放步驟S140:利用第二驗證數(shù)據之后的廣告投放的所述四種數(shù)據,利用特征提取及格式化步驟的方法得到模型測試數(shù)據,將所述模型測試數(shù)據輸入到所述訓練模型中獲得的點擊率值與所述點擊率閾值比較,大于等于所述點擊率閾值則進行投放,小于點擊率閾值則不投放。優(yōu)選地,在數(shù)據源清洗及整合步驟中,所述將上述四種數(shù)據進行數(shù)據的整合與清洗,包括通過驗證去除不需要的屬性,或者對一些缺失的數(shù)據進行補充,整合。優(yōu)選地,在特征提取及格式化步驟中,所述特征提取進一步包括抽取三方面不同的特征,包括:上下文信息特征,即發(fā)生當前廣告行為時的上下文環(huán)境信息;廣告信息特征,即廣告素材的描述信息;用戶信息特征,即當前用戶的基礎信息與偏好信息。優(yōu)選地,在特征提取及格式化步驟中,所述格式化包括將上述三種特征分兩類不同類別的特征:類別特征與連續(xù)特征,分別進行處理,變成適合算法訓練的數(shù)據格式。優(yōu)選地,在所述模型訓練及驗證步驟中:所述模型算法為邏輯回歸模型算法(LogisticRegression)或梯度增強決策樹算法(GradientBoostingDecisionTree,簡稱GBDT),或者兩者的結合,得到所述訓練模型。本發(fā)明還公開了一種具有最優(yōu)閾值篩選的品牌廣告效果優(yōu)化的裝置,包括如下單元:數(shù)據源清洗及整合單元S210:獲得四種數(shù)據作為點擊率優(yōu)化模型的數(shù)據源,所述四種數(shù)據包括:用戶信息數(shù)據:指的是用戶在視頻網站內觀看和/或點擊廣告的行為得到的用戶關注行業(yè)偏好信息以及視頻網站偏好信息,素材信息數(shù)據:指的是品牌廣告的素材信息,廣告展示日志信息:指的是廣告展示時記錄下的相關信息,廣告點擊日志信息:用戶點擊廣告時記錄下的相關信息,將上述四種數(shù)據進行數(shù)據的整合與清洗,得到用戶的人口屬性和偏好信息;特征提取及格式化單元S220:對清洗及整合后的數(shù)據進行特征提取與格式化,將格式化后的數(shù)據按照一定的比例進行分配得到模型訓練數(shù)據和第一驗證數(shù)據;模型訓練及驗證單元S230:使用模型訓練數(shù)據利用模型算法進行模型訓練得到訓練模型,使用第一驗證數(shù)據在所述訓練模型中進行驗證,選定最優(yōu)點擊率作為預測的第一點擊率,使用在模型訓練數(shù)據之后的廣告投放的所述四種數(shù)據,利用特征提取及格式化單元得到第二驗證數(shù)據,使用所述第二驗證數(shù)據在所述訓練模型中進行驗證,選定最優(yōu)點擊率作為預測的第二點擊率,將第一點擊率與第二點擊率進行線性比較,最高值作為預測的點擊率閾值;模型測試及投放單元S240:利用第二驗證數(shù)據之后的廣告投放的所述四種數(shù)據,利用特征提取及格式化單元得到模型測試數(shù)據,將所述模型測試數(shù)據輸入到所述訓練模型中獲得的點擊率值與所述點擊率閾值比較,大于等于所述點擊率閾值則進行投放,小于點擊率閾值則不投放。優(yōu)選地,在數(shù)據源清洗及整合單元中,所述將上述四種數(shù)據進行數(shù)據的整合與清洗,包括通過驗證去除不需要的屬性,或者對一些缺失的數(shù)據進行補充,整合。優(yōu)選地,在特征提取及格式化單元中,所述特征提取進一步包括抽取三方面不同的特征,包括:上下文信息特征,即發(fā)生當前廣告行為時的上下文環(huán)境信息;廣告信息特征,即廣告素材的描述信息;用戶信息特征,即當前用戶的基礎信息與偏好信息。優(yōu)選地,在特征提取及格式化單元中,所述格式化包括將上述三種特征分兩類不同類別的特征:類別特征與連續(xù)特征,分別進行處理,變成適合算法訓練的數(shù)據格式。優(yōu)選地,在所述模型訓練及驗證單元中:所述模型算法為邏輯回歸模型算法(LogisticRegression)或梯度增強決策樹算法(GradientBoostingDecisionTree,簡稱GBDT),或者兩者的結合,得到所述訓練模型。本發(fā)明充分利用了視頻網站中被挖掘出的大量用戶信息,包括人口基礎信息和偏好,還能夠結合素材本身的行業(yè)描述,對這些數(shù)據整合、清洗;再進行特征抽取與格式化,獲取用于模型訓練的特征;通過得到特征數(shù)據進行模型訓練得到訓練模型,利用不同時間段的驗證數(shù)據通過訓練模型分別得到不同的點擊率,比較優(yōu)選后得到點擊率閾值。利用隨后的測試數(shù)據經過與點擊率閾值的比較進行廣告投放判斷。經過實踐證明,本發(fā)明提高了對新廣告投放的各項指標均有大幅提高,更精準地向用戶投放廣告,提高點擊率。附圖說明圖1是根據本發(fā)明的具體實施例的具有最優(yōu)閾值篩選的品牌廣告效果優(yōu)化的方法的流程圖;圖2是根據本發(fā)明的具體實施例的模型訓練與測試體系的示意圖;圖3是根據本發(fā)明的具體實施例的特征格式化結果的示例圖4是根據本發(fā)明的具體實施例的具有最優(yōu)閾值篩選的品牌廣告效果優(yōu)化的裝置的模塊圖。具體實施方式下面結合附圖和實施例對本發(fā)明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關的部分而非全部結構。參見附圖1,公開了根據本發(fā)明的具有最優(yōu)閾值篩選的品牌廣告效果優(yōu)化的方法的流程圖,包括如下步驟:數(shù)據源清洗及整合步驟S110:獲得四種數(shù)據作為點擊率優(yōu)化模型的數(shù)據源,所述四種數(shù)據包括:用戶信息數(shù)據(UserProfiles):指的是用戶在視頻網站內觀看和/或點擊廣告的行為得到的用戶關注行業(yè)偏好信息以及視頻網站偏好信息,進一步優(yōu)選地,還可以包括用戶性別、年齡等信息;該信息可以位于用戶信息庫中。素材信息數(shù)據:指的是品牌廣告的素材信息,示例性的包括該廣告所處的行業(yè),子行業(yè),品類信息與廣告素材Id,該信息可以位于素材信息數(shù)據庫中。廣告展示日志信息:指的是廣告展示時記錄下的相關信息,示例性的包括時間,設備類型,操作系統(tǒng)和所在投放ID中的一個或多個;其中所述投放ID指的是所在的廣告投放活動的ID。廣告點擊日志信息:用戶點擊廣告時記錄下的相關信息,示例性的包括時間,設備類型,操作系統(tǒng)和所在投放ID中的一個或多個;將上述四種數(shù)據進行數(shù)據的整合與清洗,得到用戶的人口屬性和偏好信息。在一個優(yōu)選的實施例中,上述四種信息以用戶的cookie標識唯一表示,從而能夠在數(shù)據的清洗中通過驗證去除不需要的屬性(或者說去除不合法的cookie),或者對一些缺失的數(shù)據進行補充,整合。例如,cookie中包含有不需要用戶的登錄時間,或者不需要用戶的性別,則能夠在整合的數(shù)據中去除上述的屬性。又例如,在某個cookie中缺少用戶的年齡,在利用其它包含該用戶的cookie中所具有的用戶的年齡進行補充、整合。例如:某用戶如果觀看了某支廣告,并點擊了該廣告,那么廣告展示日志和廣告點擊日志將分別同時記錄下日志,且兩條日志的cookie、會話Id以及廣告位Id是相同的。如果只觀看了而沒有點擊該廣告,則只在廣告展示日志里記錄有日志。對廣告點擊日志和廣告展示日志通過cookie,會話Id,廣告Id進行整合,某個用戶在某次會話中既觀看又點擊了該廣告,則把這條點擊日志記為正樣本。如果用戶在某次會話中只觀看但并無點擊該廣告,則把這條日志記為負樣本。然后,通過日志里的廣告素材Id可以與素材信息庫進行連接整合得到廣告素材的行業(yè)描述信息,最后通過日志里的cookie可以與用戶信息庫里的用戶信息進行連接整合得到該用戶的人口屬性與偏好信息。特征提取及格式化步驟S120:對清洗及整合后的數(shù)據進行特征提取與格式化,將格式化后的數(shù)據按照一定的比例進行分配得到模型訓練數(shù)據和模型驗證數(shù)據;即模型訓練數(shù)據和第一驗證數(shù)據都是相同格式的數(shù)據,僅僅是分配的數(shù)量不同而已。進一步優(yōu)選的,模型訓練數(shù)據和第一驗證數(shù)據的比例為7:3。進一步的,所述特征提取進一步包括抽取三方面不同的特征,包括:上下文信息特征,即發(fā)生當前廣告行為時的上下文環(huán)境信息,例如:時間、地點、廣告位、頻道、子頻道和設備類型;廣告信息特征,即廣告素材的描述信息,例如:廣告行業(yè),子行業(yè)與品類信息;用戶信息特征,即當前用戶的基礎信息與偏好信息,例如:性別、年齡、廣告偏好和頻道偏好。進一步的,所述格式化包括將上述三種特征進行格式化,變成適合算法訓練的數(shù)據格式。這里分兩類特征,類別特征與連續(xù)特征,需要分別進行處理。所述類別特征:指的是具有有限幾種類別的特征,包括設備類型、性別等,需要對它進行離散化編碼,使得算法計算時能夠有效理解。采用普遍的獨熱編碼(One-hotencoding)技術對類別特征進行編碼。所述連續(xù)特征,指的是具有連續(xù)范圍的特征,包括素材時長,視頻時長,某投放的歷史CTR統(tǒng)計值等。連續(xù)特征是否需要進行離散化要根據選擇的算法模型而定。當采用邏輯回歸模型由于要對各維度數(shù)據進行線性組合,所以需要進行離散化處理,而使用樹模型則不需要進行離散化。連續(xù)特征離散化一般采用分段離散的方法,比如廣告素材時長,可以分5s為一段進行One-hotencoding編碼。模型訓練及驗證步驟S130:使用模型訓練數(shù)據利用模型算法進行模型訓練得到訓練模型,使用第一驗證數(shù)據在所述訓練模型中進行驗證,選定最優(yōu)點擊率作為預測的第一點擊率,其中最優(yōu)點擊率可以是最高的點擊率;使用在模型訓練數(shù)據之后的廣告投放的所述四種數(shù)據,利用特征提取及格式化步驟S120的方法得到第二驗證數(shù)據,使用所述第二驗證數(shù)據在所述訓練模型中進行驗證,選定最優(yōu)點擊率作為預測的第二點擊率,其中最優(yōu)點擊率可以是最高的點擊率;將第一點擊率與第二點擊率進行線性比較,最高值作為預測的點擊率閾值。其中最近的廣告投放數(shù)據是在模型訓練數(shù)據之后的廣告投放數(shù)據。相當于用第一天廣告投放的數(shù)據訓練得到模型訓練數(shù)據和第一驗證數(shù)據,利用第二天廣告投放的數(shù)據作為第二份的數(shù)據,以作為第二驗證數(shù)據。將第一驗證數(shù)據在線性預測曲線上的最高點作為第一點擊率,將第二驗證數(shù)據在線性預測曲線上的最高點作為第二點擊率,將第一點擊率與第二點擊率進行線性比較,最高值作為預測的點擊率閾值。因此,本方法在點擊率預測時候采用了時間范圍更為寬廣的廣告投放數(shù)據,使得得到的點擊率閾值更為客觀。模型測試及投放步驟S140:利用第二驗證數(shù)據之后的廣告投放的所述四種數(shù)據,利用特征提取及格式化步驟S120的方法得到模型測試數(shù)據,將所述模型測試數(shù)據輸入到所述訓練模型中獲得的點擊率值與所述點擊率閾值比較,大于等于所述點擊率閾值則進行投放,小于點擊率閾值則不投放。參見圖2,進一步公開了模型訓練與測試體系的示意圖。利用原始數(shù)據根據步驟S110和S120得到第一份格式化數(shù)據,例如第一天的數(shù)據,并將該格式化數(shù)據分為模型訓練數(shù)據和模型驗證數(shù)據;通過模型訓練得到訓練模型,并利用第一驗證數(shù)據進行驗證,從而調整得到第一點擊率。將第一份格式化數(shù)據之后投放廣告得到的數(shù)據,例如第二天的數(shù)據,也利用步驟S110和S120得到第二份格式化數(shù)據,并將該格式化數(shù)據作為第二驗證數(shù)據通過所述測試模型得到第二點擊率;將第一點擊率與第二點擊率比較,進行線性比較,最高值作為預測的點擊率閾值。將第二份格式化數(shù)據之后的廣告投放數(shù)據,例如第三天廣告投放數(shù)據也利用步驟S110和S120得到第三份格式化數(shù)據,并將該格式化數(shù)據作為模型測試數(shù)據通過所述測試模型得到測試點擊率,將測試點擊率與預先設定的點擊率閾值比較,大于等于預先設定的點擊率閾值則進行投放,小于預先設定的點擊率閾值則不投放。這樣,能夠得知是否應當繼續(xù)投放廣告,從而進行了第四天的廣告投放。而在廣告繼續(xù)投放時,也繼續(xù)利用第四天的數(shù)據通過步驟S110和S120得到格式化數(shù)據,并將該格式化數(shù)據作為測試數(shù)據通過測試模型得到點擊率值與預先設定的點擊率閾值比較,從而判斷是否投放數(shù)據。后續(xù)的廣告投放也采用類似的方式,這樣,每天投放的廣告得到的數(shù)據都能為后一天廣告是否投放進行參考,從而實現(xiàn)了廣告投放的動態(tài)判斷。進一步的,在所述模型訓練及驗證步驟S130中:所述模型算法為邏輯回歸模型算法(LogisticRegression)或梯度增強決策樹算法(GradientBoostingDecisionTree,簡稱GBDT),或者兩者的結合,得到所述訓練模型。邏輯回歸模型算法(LogisticRegression):邏輯回歸模型是一個應用十分普遍的模型,它在整個向量空間中計算每一個特征維度的權重,對每一條記錄,都計算這些權重與對應特征值的加權和,再把結果應用一個Logistic函數(shù)得到點擊率預測概率值。GBDT:這是一個樹模型,使用指定N顆樹對數(shù)據進行訓練。最初使用一棵樹對數(shù)據進行訓練,然后逐漸加入新樹對模型進行增強。優(yōu)選的,在實驗中,使用樹數(shù)目N=10,每顆樹深度Depth=4取得了良好的效果。其中,邏輯回歸模型算法(LogisticRegression)的模型構建算法,采用常規(guī)算法,也可參考https://en.wikipedia.org/wiki/Logistic_regression。梯度增強決策樹算法(GradientBoostingDecisionTree,簡稱GBDT)采用常規(guī)算法,也可參考https://en.wikipedia.org/wiki/Decision_tree。實施例1:使用視頻網站里一天的廣告點擊日志,廣告展示日志,廣告素材信息,用戶信息進行數(shù)據整合與清洗后對特征進行抽取與格式化。一共提取35項特征,其中上下文特征包括:時間、城市、設備類型等;廣告素材特征包括:素材行業(yè),子行業(yè),品類;用戶信息特征包括:性別,年齡,廣告偏好,頻道偏好;組合特征包括:時間與設備類型組合,性別與廣告行業(yè)組合等。抽取后的這些特征要經過One-hotencoding編碼進行離散化,因此這35項特征一共映射到5369維特征空間中。每個樣本將表示為5369維的向量和自身是正樣本或負樣本標識的記錄。由于5369維是一個很大的特征空間,而且整個數(shù)據矩陣是非常稀疏的,所以只存儲有值的特征維度。如圖3,第一列是正負樣本的標識,1表示正樣本,0表示負樣本,后面的每列是以維度為key,該維度特征值為value的組合key:value數(shù)據。經過建模后,進行驗證、測試,可以使用精確率,召回率,F(xiàn)值與按該模型投放的新點擊率四項指標來描述模型的好壞。結果如表1所示。表1:訓練模型效果本發(fā)明充分地利用了視頻網站中被挖掘出的大量用戶信息,包括人口基礎信息和偏好,還能夠結合素材本身的行業(yè)描述,對這些數(shù)據整合、清洗;再進行特征抽取與格式化,獲取用于模型訓練的特征;通過得到特征數(shù)據進行邏輯回歸模型訓練得到優(yōu)化模型并驗證的方法。經過實踐證明,本發(fā)明提高了對新廣告投放的各項指標均有大幅提高。參見圖4,本發(fā)明還公開了一種具有最優(yōu)閾值篩選的品牌廣告效果優(yōu)化的裝置,包括如下單元:數(shù)據源清洗及整合單元S210:獲得四種數(shù)據作為點擊率優(yōu)化模型的數(shù)據源,所述四種數(shù)據包括:用戶信息數(shù)據:指的是用戶在視頻網站內觀看和/或點擊廣告的行為得到的用戶關注行業(yè)偏好信息以及視頻網站偏好信息,素材信息數(shù)據:指的是品牌廣告的素材信息,廣告展示日志信息:指的是廣告展示時記錄下的相關信息,廣告點擊日志信息:用戶點擊廣告時記錄下的相關信息,將上述四種數(shù)據進行數(shù)據的整合與清洗,得到用戶的人口屬性和偏好信息;特征提取及格式化單元S220:對清洗及整合后的數(shù)據進行特征提取與格式化,將格式化后的數(shù)據按照一定的比例進行分配得到模型訓練數(shù)據和第一驗證數(shù)據;模型訓練及驗證單元S230:使用模型訓練數(shù)據利用模型算法進行模型訓練得到訓練模型,使用第一驗證數(shù)據在所述訓練模型中進行驗證,選定最優(yōu)點擊率作為預測的第一點擊率,使用在模型訓練數(shù)據之后的廣告投放的所述四種數(shù)據,利用特征提取及格式化單元得到第二驗證數(shù)據,使用所述第二驗證數(shù)據在所述訓練模型中進行驗證,選定最優(yōu)點擊率作為預測的第二點擊率,將第一點擊率與第二點擊率進行線性比較,最高值作為預測的點擊率閾值;模型測試及投放單元S240:利用第二驗證數(shù)據之后的廣告投放的所述四種數(shù)據,利用特征提取及格式化單元S220得到模型測試數(shù)據,將所述模型測試數(shù)據輸入到所述訓練模型中獲得的點擊率值與所述點擊率閾值比較,大于等于所述點擊率閾值則進行投放,小于點擊率閾值則不投放。優(yōu)選地,在數(shù)據源清洗及整合單元S210中,所述將上述四種數(shù)據進行數(shù)據的整合與清洗,包括通過驗證去除不需要的屬性,或者對一些缺失的數(shù)據進行補充,整合。優(yōu)選地,在特征提取及格式化單元S220中,所述特征提取進一步包括抽取三方面不同的特征,包括:上下文信息特征,即發(fā)生當前廣告行為時的上下文環(huán)境信息;廣告信息特征,即廣告素材的描述信息;用戶信息特征,即當前用戶的基礎信息與偏好信息。優(yōu)選地,在特征提取及格式化單元S220中,所述格式化包括將上述三種特征分兩類不同類別的特征:類別特征與連續(xù)特征,分別進行處理,變成適合算法訓練的數(shù)據格式。優(yōu)選地,在所述模型訓練及驗證單元S230中:所述模型算法為邏輯回歸模型算法(LogisticRegression)或梯度增強決策樹算法(GradientBoostingDecisionTree,簡稱GBDT),或者兩者的結合,得到所述訓練模型。顯然,本領域技術人員應該明白,上述的本發(fā)明的各單元或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個計算裝置上,可選地,他們可以用計算機裝置可執(zhí)行的程序代碼來實現(xiàn),從而可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件的結合。以上內容是結合具體的優(yōu)選實施方式對本發(fā)明所作的進一步詳細說明,不能認定本發(fā)明的具體實施方式僅限于此,對于本發(fā)明所屬技術領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干簡單的推演或替換,都應當視為屬于本發(fā)明由所提交的權利要求書確定保護范圍。