本發(fā)明涉及計算機數(shù)據(jù)處理,特別是一種基于深度強化學(xué)習的廣告營銷推薦方法。
背景技術(shù):
1、近年來,廣告推薦系統(tǒng)在個性化營銷領(lǐng)域中得到了廣泛應(yīng)用,尤其是深度學(xué)習與強化學(xué)習的結(jié)合使得廣告推薦的精準性顯著提升。傳統(tǒng)的廣告推薦系統(tǒng)多依賴于靜態(tài)用戶特征與歷史數(shù)據(jù),往往無法有效應(yīng)對用戶行為的快速變化及多樣化需求。然而,隨著用戶行為數(shù)據(jù)、上下文信息及廣告特征的多樣性增加,如何整合這些信息并實現(xiàn)動態(tài)更新成為亟待解決的技術(shù)難題。
2、現(xiàn)有技術(shù)在用戶特征的實時更新和特征融合上存在不足,許多系統(tǒng)無法高效處理多模態(tài)數(shù)據(jù),導(dǎo)致推薦效果不佳。例如,單一的特征提取方法往往無法全面捕捉用戶的興趣變化,而靜態(tài)的用戶畫像則無法適應(yīng)用戶行為的快速變化。
技術(shù)實現(xiàn)思路
1、鑒于上述現(xiàn)有存在的問題,提出了本發(fā)明。
2、因此,本發(fā)明提供了一種基于深度強化學(xué)習的廣告營銷推薦方法解決如何動態(tài)更新用戶畫像和優(yōu)化廣告推薦策略的問題。
3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:
4、第一方面,本發(fā)明實施例提供了一種基于深度強化學(xué)習的廣告營銷推薦方法,其包括,集成用戶行為數(shù)據(jù)、上下文信息和廣告特征,并進行處理,形成多模態(tài)特征向量;
5、對多模態(tài)特征向量進行特征融合,得到融合后的用戶綜合特征向量;
6、根據(jù)用戶綜合特征向量,使用在線學(xué)習算法動態(tài)更新用戶畫像;
7、根據(jù)用戶畫像和上下文信息,設(shè)計基于深度強化學(xué)習的智能體,制定廣告推薦策略;
8、收集用戶與推薦廣告互動時產(chǎn)生的新數(shù)據(jù),并優(yōu)化廣告推薦策略。
9、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案,其中:所述用戶行為數(shù)據(jù)包括點擊記錄、搜索歷史和購買記錄;
10、所述上下文信息包括地理位置、天氣情況和時間戳;
11、所述廣告特征包括廣告的類別、關(guān)鍵詞、圖像和視頻。
12、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案,其中:對用戶行為數(shù)據(jù)、上下文信息和廣告特征進行處理,形成多模態(tài)特征向量,包括如下步驟,
13、對于用戶行為數(shù)據(jù),使用jieba分詞工具進行中文分詞,使用nltk工具進行英文分詞,使用bert模型進行詞嵌入,將分詞后的文本轉(zhuǎn)換成固定長度的文本特征向量;
14、對于廣告特征中的圖像,輸入圖像到resnet-50模型,提取最后一層全連接層之前的特征向量,對提取的特征向量進行歸一化處理,得到標準化的圖像特征向量;
15、對于廣告特征中的視頻,將視頻逐幀輸入3d-cnn模型,提取每幀的特征向量,對每幀的特征向量進行平均池化,得到視頻特征向量;
16、對于上下文信息,使用地理編碼服務(wù)將地理位置轉(zhuǎn)換為經(jīng)緯度坐標,對時間戳數(shù)據(jù)進行標準化處理,轉(zhuǎn)換為一天內(nèi)的小時數(shù),使用獨熱編碼將天氣數(shù)據(jù)進行編碼,表示不同的天氣類型;
17、將文本特征向量、圖像特征向量、視頻特征向量和上下文信息拼接在一起,形成多模態(tài)特征向量,表示為,
18、v=[vtext,vimage,vvideo,t,vweather];
19、其中,v為多模態(tài)特征,vtext為文本特征向量,vimage為圖像特征向量,vvideo為視頻特征向量,t為時間戳,vweather為獨熱編碼表示的天氣類型。
20、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案,其中:對多模態(tài)特征向量進行特征融合,得到融合后的用戶綜合特征向量,包括如下步驟,
21、設(shè)計多層感知器,每個隱藏層使用relu激活函數(shù),最后一層使用線性激活函數(shù),第一層接受多模態(tài)特征向量作為輸入,則隱藏層的計算表達式為,
22、hl=σ(wlhl-1+bl);
23、其中,hl為第l層的輸出向量,wl為第l層的權(quán)重矩陣,hl-1為第l-1層的輸出向量,σ為激活函數(shù),bl為第l層的偏置向量;
24、輸出層輸出融合后的用戶綜合特征向量,表示為,
25、vfina1=wlhl-1+bl;
26、其中,vfinal為用戶綜合特征向量,bl為最后一層的偏置向量,wl為最后一層的權(quán)重矩陣,hl-1為倒數(shù)第二層的輸出向量。
27、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案,其中:根據(jù)用戶綜合特征向量,使用在線學(xué)習算法動態(tài)更新用戶畫像,包括如下步驟,
28、通過用戶注冊時提供的信息和過往行為數(shù)據(jù)生成初始化用戶畫像;
29、根據(jù)用戶綜合特征向量,采用在線梯度下降學(xué)習算法動態(tài)更新用戶畫像,表示為,
30、
31、其中,θt+1為更新后的用戶畫像的參數(shù),θt為當前的用戶畫像的參數(shù),η為學(xué)習率,為損失函數(shù)的梯度,y為目標標簽。
32、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案,其中:根據(jù)用戶畫像和上下文信息,設(shè)計基于深度強化學(xué)習的智能體,包括如下步驟,
33、根據(jù)用戶畫像和上下文信息來定義狀態(tài)空間,設(shè)定動作空間表示智能體選擇推薦的廣告,根據(jù)用戶與推薦廣告的互動結(jié)果來定義獎勵機制,選擇深度q網(wǎng)絡(luò)算法作為深度強化學(xué)習算法框架;
34、智能體使用深度神經(jīng)網(wǎng)絡(luò)估計狀態(tài)-動作對的q值,并根據(jù)貝爾曼方程更新q值,表示為,
35、
36、其中,q(s,a)為在狀態(tài)s下采取動作a的預(yù)期回報,α為更新q值的學(xué)習率,r(s,a)為在狀態(tài)s下采取動作a后立即獲得的獎勵,γ為折扣因子,s為執(zhí)行動作a后的下一個狀態(tài),為在下一個狀態(tài)s下,所有動作a中的最大q值;
37、使用經(jīng)驗回放機制存儲智能體的歷史狀態(tài)、動作、獎勵和下一個狀態(tài),并進行智能體的訓(xùn)練,得到訓(xùn)練后的基于深度強化學(xué)習的智能體。
38、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案,其中:制定廣告推薦策略是指利用設(shè)計的智能體,根據(jù)當前的狀態(tài),選擇具有最大q值的動作作為推薦廣告,根據(jù)q值的不斷更新,生成廣告推薦策略。
39、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案,其中:收集用戶與推薦廣告互動時產(chǎn)生的新數(shù)據(jù),并優(yōu)化廣告推薦策略,包括如下步驟,
40、收集用戶與推薦廣告互動時產(chǎn)生的新數(shù)據(jù),將收集到的數(shù)據(jù)格式化為標準格式,存儲新數(shù)據(jù)到經(jīng)驗回放緩沖區(qū)中,從經(jīng)驗回放緩沖區(qū)中隨機抽取一批數(shù)據(jù)對,使用隨機采樣的數(shù)據(jù)對更新q值,根據(jù)用戶的反饋動態(tài)調(diào)整獎勵結(jié)構(gòu),將新的獎勵結(jié)構(gòu)應(yīng)用于深度強化學(xué)習模型,觀察智能體的學(xué)習過程和推薦效果,根據(jù)監(jiān)測結(jié)果和用戶反饋,不斷調(diào)整和優(yōu)化獎勵結(jié)構(gòu),確保智能體能夠適應(yīng)用戶行為的變化,以此優(yōu)化廣告推薦策略。
41、第二方面,本發(fā)明實施例提供了一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其中:所述計算機程序被處理器執(zhí)行時實現(xiàn)如本發(fā)明第一方面所述的基于深度強化學(xué)習的廣告營銷推薦方法的任一步驟。
42、第三方面,本發(fā)明實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其中:所述計算機程序被處理器執(zhí)行時實現(xiàn)如本發(fā)明第一方面所述的基于深度強化學(xué)習的廣告營銷推薦方法的任一步驟。
43、本發(fā)明有益效果為:多模態(tài)特征向量的構(gòu)建,使得系統(tǒng)能夠綜合考慮用戶的行為數(shù)據(jù)、上下文信息和廣告特征,從而形成更全面的用戶畫像。在線學(xué)習算法的引入,確保了用戶畫像的實時更新,使系統(tǒng)能夠快速響應(yīng)用戶的行為變化,進而優(yōu)化廣告推薦策略。這種動態(tài)調(diào)整機制,有效避免了傳統(tǒng)系統(tǒng)中因靜態(tài)特征導(dǎo)致的推薦滯后問題。此外,結(jié)合深度強化學(xué)習的智能體能夠通過不斷學(xué)習用戶反饋,動態(tài)調(diào)整獎勵結(jié)構(gòu),進一步提升推薦的有效性。