一種基于深度強化學(xué)習的廣告營銷推薦方法與流程

文檔序號：40395405發(fā)布日期：2024-12-20 12:18閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計算機數(shù)據(jù)處理，特別是一種基于深度強化學(xué)習的廣告營銷推薦方法。

背景技術(shù)：

1、近年來，廣告推薦系統(tǒng)在個性化營銷領(lǐng)域中得到了廣泛應(yīng)用，尤其是深度學(xué)習與強化學(xué)習的結(jié)合使得廣告推薦的精準性顯著提升。傳統(tǒng)的廣告推薦系統(tǒng)多依賴于靜態(tài)用戶特征與歷史數(shù)據(jù)，往往無法有效應(yīng)對用戶行為的快速變化及多樣化需求。然而，隨著用戶行為數(shù)據(jù)、上下文信息及廣告特征的多樣性增加，如何整合這些信息并實現(xiàn)動態(tài)更新成為亟待解決的技術(shù)難題。

2、現(xiàn)有技術(shù)在用戶特征的實時更新和特征融合上存在不足，許多系統(tǒng)無法高效處理多模態(tài)數(shù)據(jù)，導(dǎo)致推薦效果不佳。例如，單一的特征提取方法往往無法全面捕捉用戶的興趣變化，而靜態(tài)的用戶畫像則無法適應(yīng)用戶行為的快速變化。

技術(shù)實現(xiàn)思路

1、鑒于上述現(xiàn)有存在的問題，提出了本發(fā)明。

2、因此，本發(fā)明提供了一種基于深度強化學(xué)習的廣告營銷推薦方法解決如何動態(tài)更新用戶畫像和優(yōu)化廣告推薦策略的問題。

3、為解決上述技術(shù)問題，本發(fā)明提供如下技術(shù)方案：

4、第一方面，本發(fā)明實施例提供了一種基于深度強化學(xué)習的廣告營銷推薦方法，其包括，集成用戶行為數(shù)據(jù)、上下文信息和廣告特征，并進行處理，形成多模態(tài)特征向量；

5、對多模態(tài)特征向量進行特征融合，得到融合后的用戶綜合特征向量；

6、根據(jù)用戶綜合特征向量，使用在線學(xué)習算法動態(tài)更新用戶畫像；

7、根據(jù)用戶畫像和上下文信息，設(shè)計基于深度強化學(xué)習的智能體，制定廣告推薦策略；

8、收集用戶與推薦廣告互動時產(chǎn)生的新數(shù)據(jù)，并優(yōu)化廣告推薦策略。

9、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案，其中：所述用戶行為數(shù)據(jù)包括點擊記錄、搜索歷史和購買記錄；

10、所述上下文信息包括地理位置、天氣情況和時間戳；

11、所述廣告特征包括廣告的類別、關(guān)鍵詞、圖像和視頻。

12、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案，其中：對用戶行為數(shù)據(jù)、上下文信息和廣告特征進行處理，形成多模態(tài)特征向量，包括如下步驟，

13、對于用戶行為數(shù)據(jù)，使用jieba分詞工具進行中文分詞，使用nltk工具進行英文分詞，使用bert模型進行詞嵌入，將分詞后的文本轉(zhuǎn)換成固定長度的文本特征向量；

14、對于廣告特征中的圖像，輸入圖像到resnet-50模型，提取最后一層全連接層之前的特征向量，對提取的特征向量進行歸一化處理，得到標準化的圖像特征向量；

15、對于廣告特征中的視頻，將視頻逐幀輸入3d-cnn模型，提取每幀的特征向量，對每幀的特征向量進行平均池化，得到視頻特征向量；

16、對于上下文信息，使用地理編碼服務(wù)將地理位置轉(zhuǎn)換為經(jīng)緯度坐標，對時間戳數(shù)據(jù)進行標準化處理，轉(zhuǎn)換為一天內(nèi)的小時數(shù)，使用獨熱編碼將天氣數(shù)據(jù)進行編碼，表示不同的天氣類型；

17、將文本特征向量、圖像特征向量、視頻特征向量和上下文信息拼接在一起，形成多模態(tài)特征向量，表示為，

18、v＝[vtext，vimage，vvideo，t，vweather]；

19、其中，v為多模態(tài)特征，vtext為文本特征向量，vimage為圖像特征向量，vvideo為視頻特征向量，t為時間戳，vweather為獨熱編碼表示的天氣類型。

20、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案，其中：對多模態(tài)特征向量進行特征融合，得到融合后的用戶綜合特征向量，包括如下步驟，

21、設(shè)計多層感知器，每個隱藏層使用relu激活函數(shù)，最后一層使用線性激活函數(shù)，第一層接受多模態(tài)特征向量作為輸入，則隱藏層的計算表達式為，

22、hl＝σ(wlhl-1+bl)；

23、其中，hl為第l層的輸出向量，wl為第l層的權(quán)重矩陣，hl-1為第l-1層的輸出向量，σ為激活函數(shù)，bl為第l層的偏置向量；

24、輸出層輸出融合后的用戶綜合特征向量，表示為，

25、vfina1＝wlhl-1+bl；

26、其中，vfinal為用戶綜合特征向量，bl為最后一層的偏置向量，wl為最后一層的權(quán)重矩陣，hl-1為倒數(shù)第二層的輸出向量。

27、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案，其中：根據(jù)用戶綜合特征向量，使用在線學(xué)習算法動態(tài)更新用戶畫像，包括如下步驟，

28、通過用戶注冊時提供的信息和過往行為數(shù)據(jù)生成初始化用戶畫像；

29、根據(jù)用戶綜合特征向量，采用在線梯度下降學(xué)習算法動態(tài)更新用戶畫像，表示為，

30、

31、其中，θt+1為更新后的用戶畫像的參數(shù)，θt為當前的用戶畫像的參數(shù)，η為學(xué)習率，為損失函數(shù)的梯度，y為目標標簽。

32、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案，其中：根據(jù)用戶畫像和上下文信息，設(shè)計基于深度強化學(xué)習的智能體，包括如下步驟，

33、根據(jù)用戶畫像和上下文信息來定義狀態(tài)空間，設(shè)定動作空間表示智能體選擇推薦的廣告，根據(jù)用戶與推薦廣告的互動結(jié)果來定義獎勵機制，選擇深度q網(wǎng)絡(luò)算法作為深度強化學(xué)習算法框架；

34、智能體使用深度神經(jīng)網(wǎng)絡(luò)估計狀態(tài)-動作對的q值，并根據(jù)貝爾曼方程更新q值，表示為，

35、

36、其中，q(s，a)為在狀態(tài)s下采取動作a的預(yù)期回報，α為更新q值的學(xué)習率，r(s，a)為在狀態(tài)s下采取動作a后立即獲得的獎勵，γ為折扣因子，s為執(zhí)行動作a后的下一個狀態(tài)，為在下一個狀態(tài)s下，所有動作a中的最大q值；

37、使用經(jīng)驗回放機制存儲智能體的歷史狀態(tài)、動作、獎勵和下一個狀態(tài)，并進行智能體的訓(xùn)練，得到訓(xùn)練后的基于深度強化學(xué)習的智能體。

38、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案，其中：制定廣告推薦策略是指利用設(shè)計的智能體，根據(jù)當前的狀態(tài)，選擇具有最大q值的動作作為推薦廣告，根據(jù)q值的不斷更新，生成廣告推薦策略。

39、作為本發(fā)明所述基于深度強化學(xué)習的廣告營銷推薦方法的一種優(yōu)選方案，其中：收集用戶與推薦廣告互動時產(chǎn)生的新數(shù)據(jù)，并優(yōu)化廣告推薦策略，包括如下步驟，

40、收集用戶與推薦廣告互動時產(chǎn)生的新數(shù)據(jù)，將收集到的數(shù)據(jù)格式化為標準格式，存儲新數(shù)據(jù)到經(jīng)驗回放緩沖區(qū)中，從經(jīng)驗回放緩沖區(qū)中隨機抽取一批數(shù)據(jù)對，使用隨機采樣的數(shù)據(jù)對更新q值，根據(jù)用戶的反饋動態(tài)調(diào)整獎勵結(jié)構(gòu)，將新的獎勵結(jié)構(gòu)應(yīng)用于深度強化學(xué)習模型，觀察智能體的學(xué)習過程和推薦效果，根據(jù)監(jiān)測結(jié)果和用戶反饋，不斷調(diào)整和優(yōu)化獎勵結(jié)構(gòu)，確保智能體能夠適應(yīng)用戶行為的變化，以此優(yōu)化廣告推薦策略。

41、第二方面，本發(fā)明實施例提供了一種計算機設(shè)備，包括存儲器和處理器，所述存儲器存儲有計算機程序，其中：所述計算機程序被處理器執(zhí)行時實現(xiàn)如本發(fā)明第一方面所述的基于深度強化學(xué)習的廣告營銷推薦方法的任一步驟。

42、第三方面，本發(fā)明實施例提供了一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其中：所述計算機程序被處理器執(zhí)行時實現(xiàn)如本發(fā)明第一方面所述的基于深度強化學(xué)習的廣告營銷推薦方法的任一步驟。

43、本發(fā)明有益效果為：多模態(tài)特征向量的構(gòu)建，使得系統(tǒng)能夠綜合考慮用戶的行為數(shù)據(jù)、上下文信息和廣告特征，從而形成更全面的用戶畫像。在線學(xué)習算法的引入，確保了用戶畫像的實時更新，使系統(tǒng)能夠快速響應(yīng)用戶的行為變化，進而優(yōu)化廣告推薦策略。這種動態(tài)調(diào)整機制，有效避免了傳統(tǒng)系統(tǒng)中因靜態(tài)特征導(dǎo)致的推薦滯后問題。此外，結(jié)合深度強化學(xué)習的智能體能夠通過不斷學(xué)習用戶反饋，動態(tài)調(diào)整獎勵結(jié)構(gòu)，進一步提升推薦的有效性。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張峰,高潔,張超,張浩,張宇寧
技術(shù)所有人：北京鴻途信達科技股份有限公司
我是此專利的發(fā)明人

上一篇：一種自動旋轉(zhuǎn)數(shù)碼相框的制作方法
上一篇：一種抗壓結(jié)構(gòu)及EPE包裝墊的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于深度強化學(xué)習的廣告營銷推薦方法與流程