一種用于農(nóng)資電子商務(wù)的基于Q學(xué)習(xí)的多agent主動(dòng)推薦方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種用于農(nóng)資電子商務(wù)的基于Q學(xué)習(xí)的多agent主動(dòng)推薦方法,其特征在于,包括如下步驟:1構(gòu)建多agent主動(dòng)推薦系統(tǒng);2狀態(tài)定義;3初始化;4?Q學(xué)習(xí)計(jì)算與推薦方向選擇;5推薦動(dòng)作執(zhí)行;6狀態(tài)轉(zhuǎn)換;7迭代與更新,直到滿足終止條件為止。本發(fā)明有利于在大規(guī)模數(shù)據(jù)環(huán)境下消減信息過(guò)載帶來(lái)的消費(fèi)盲區(qū),實(shí)現(xiàn)對(duì)海量信息的篩選和快速定位。
【專(zhuān)利說(shuō)明】—種用于農(nóng)資電子商務(wù)的基于Q學(xué)習(xí)的多agent主動(dòng)推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種Q強(qiáng)化學(xué)習(xí)算法的多agent主動(dòng)推薦方法應(yīng)用到農(nóng)資商品電子商務(wù)中,是智能決策在電子商務(wù)中的一種應(yīng)用,屬于人工智能、自動(dòng)控制【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]農(nóng)業(yè)生產(chǎn)資料主要包括化肥、農(nóng)藥、農(nóng)膜、種子、飼料、農(nóng)機(jī)具等幾大類(lèi)商品,是重要的農(nóng)業(yè)生產(chǎn)要素,其中種子、化肥、農(nóng)藥等農(nóng)資作為農(nóng)業(yè)關(guān)鍵生產(chǎn)材料,直接關(guān)系農(nóng)產(chǎn)品的產(chǎn)量與質(zhì)量,對(duì)于保障農(nóng)業(yè)生產(chǎn),增加農(nóng)民收入,維護(hù)國(guó)家糧食安全都有著特別重要的意義。[0003]由于農(nóng)資商品需求具有季節(jié)性強(qiáng);品種、品牌繁多;地域性廣且分散等行業(yè)特殊屬性,目前農(nóng)資經(jīng)營(yíng)流通模式已不能適應(yīng)現(xiàn)代農(nóng)業(yè)生產(chǎn)的要求。又由于農(nóng)資商品與農(nóng)業(yè)種植密切相關(guān),配套性、技術(shù)性強(qiáng),因此,農(nóng)資商品在實(shí)施電子商務(wù)過(guò)程中,必須區(qū)分與普通商品電子商務(wù)的消費(fèi)模式不同,前者是生產(chǎn)型消費(fèi),以農(nóng)業(yè)生產(chǎn)需要驅(qū)動(dòng)消費(fèi),后者是生活型消費(fèi),以個(gè)人生活需求或興趣習(xí)慣驅(qū)動(dòng)消費(fèi)。
[0004]用戶主動(dòng)推薦技術(shù)是應(yīng)對(duì)互聯(lián)網(wǎng)信息過(guò)載的產(chǎn)物。目前常規(guī)電子商務(wù)和資訊類(lèi)網(wǎng)站多數(shù)面向用戶物質(zhì)或精神生活消費(fèi)需求,其推薦依據(jù)用戶之間的興趣、愛(ài)好和習(xí)慣。常見(jiàn)的推薦方法為基于社會(huì)化的推薦和基于協(xié)同過(guò)濾的推薦,均以用戶在社交網(wǎng)絡(luò)中的交互行為及其共同愛(ài)好出發(fā),采用圖或相似度計(jì)算模型實(shí)現(xiàn)用戶主動(dòng)推薦。顯然,這些推薦方法本質(zhì)上由顧客生活消費(fèi)行為而驅(qū)動(dòng),無(wú)法應(yīng)用到以生產(chǎn)需求為驅(qū)動(dòng)的農(nóng)資電子商務(wù)領(lǐng)域的主動(dòng)推薦系統(tǒng)中。同時(shí),在大規(guī)模數(shù)據(jù)集上,為維持用戶以及興趣無(wú)規(guī)則的遷移,這類(lèi)推薦算法會(huì)帶來(lái)巨大存儲(chǔ)和運(yùn)算開(kāi)銷(xiāo),一定程度上影響系統(tǒng)對(duì)用戶的響應(yīng)速度。
【發(fā)明內(nèi)容】
[0005]本發(fā)明為克服現(xiàn)有技術(shù)的不足之處,提出一種用于農(nóng)資電子商務(wù)的基于Q學(xué)習(xí)的多agent主動(dòng)推薦方法,有利于在大規(guī)模數(shù)據(jù)環(huán)境下消減信息過(guò)載帶來(lái)的消費(fèi)盲區(qū),實(shí)現(xiàn)對(duì)海量信息的篩選和快速定位。
[0006]本發(fā)明為解決技術(shù)問(wèn)題采用如下技術(shù)方案:
[0007]本發(fā)明一種用于農(nóng)資電子商務(wù)的基于Q學(xué)習(xí)的多agent主動(dòng)推薦方法的特點(diǎn)包括如下步驟:
[0008]步驟1、構(gòu)建多agent主動(dòng)推薦系統(tǒng)
[0009]將多agent主動(dòng)推薦系統(tǒng)描述為四元組S = (O, H, M, Agt),所述四元組S中,O為用戶集合,所述用戶集合O = 11, 02,...0j ;0i為第i個(gè)用戶出為用戶屬性集合,所述用戶屬性集合H= Ih1, h2,...hj,比為用戶Oi的屬性集合,所述用戶Oi的屬性集合Iii包括用戶個(gè)性化信息和用戶反饋行為信息…為推薦信息全集;Agt為多智能體集合,所述多智能體集合 Agt = {agentl, agent2, agent3, agent4} ;agentl 為認(rèn)知 agent, agent2 為市場(chǎng) agent,agent3 為知識(shí) agent, agent4 為決策 agent ;
[0010]步驟2、狀態(tài)定義
[0011]定義系統(tǒng)狀態(tài)集S={S(I,st, st+1},S0為初始狀態(tài),表示系統(tǒng)初始時(shí)刻對(duì)用戶登陸行為的觀察狀態(tài);st為當(dāng)前狀態(tài),表示系統(tǒng)t時(shí)刻對(duì)用戶登陸行為的觀察狀態(tài);st+1為下一狀態(tài),表示系統(tǒng)在t+Ι時(shí)刻對(duì)用戶登陸行為的觀察狀態(tài);
[0012]步驟3、初始化
[0013]3.1、初始化Q學(xué)習(xí)中的參數(shù),所述參數(shù)包括學(xué)習(xí)率α、獎(jiǎng)懲因子r、時(shí)間衰減因子β、當(dāng)前強(qiáng)化因子Qt、終止時(shí)刻T2、觀察間隔天數(shù)T1 ;
[0014]3.2、所述決策agent通過(guò)與所述認(rèn)知agent進(jìn)行通信獲得用戶Oi在初始狀態(tài)S。下的屬性集合比并存入用戶個(gè)性化信息庫(kù)和用戶行為庫(kù);
[0015]3.3、所述決策agent根據(jù)所述用戶個(gè)性化信息與所述市場(chǎng)agent和知識(shí)agent進(jìn)行通信,從所述推薦信息全集M中提取推薦信息子集a推薦給用戶0i,〃 C= M,并將所述推薦信息子集a存入推薦歷史庫(kù)中;
[0016]3.4所述多agent主動(dòng)推薦系統(tǒng)由初始狀態(tài)Stl轉(zhuǎn)換為當(dāng)前狀態(tài)St ;
[0017]步驟4、Q學(xué)習(xí)計(jì)算與推薦方向選擇
[0018]4.1、所述決策agent通過(guò)與所述認(rèn)知agent進(jìn)行通信獲得用戶Oi在當(dāng)前狀態(tài)St下的屬性集合h并更新所述用戶個(gè)性化信息庫(kù)和用戶行為庫(kù);
[0019]4.2、利用式⑵獲得用戶Oi在當(dāng)前狀態(tài)St下的觀察累計(jì)評(píng)估值P:
[0020]
【權(quán)利要求】
1.一種用于農(nóng)資電子商務(wù)的基于Q學(xué)習(xí)的多agent主動(dòng)推薦方法,其特征在于,包括如下步驟: 步驟1、構(gòu)建多agent主動(dòng)推薦系統(tǒng) 將多agent主動(dòng)推薦系統(tǒng)描述為四元組S= (O,H,M,Agt),所述四元組S中,O為用戶集合,所述用戶集合O= 11, 02,...0j ;0i為第i個(gè)用戶出為用戶屬性集合,所述用戶屬性集合H= Ih1, h2,...hj,比為用戶Oi的屬性集合,所述用戶Oi的屬性集合Iii包括用戶個(gè)性化信息和用戶反饋行為信息…為推薦信息全集;Agt為多智能體集合,所述多智能體集合Agt={agentl, agent2, agent3, agent4} ;agentl 為認(rèn)知 agent, agent2 為市場(chǎng) agent, agent3為知識(shí)agent, agent4為決策agent ; 步驟2、狀態(tài)定義 定義系統(tǒng)狀態(tài)集s={S(l,st, st+1},S0為初始狀態(tài),表示系統(tǒng)初始時(shí)刻對(duì)用戶登陸行為的觀察狀態(tài);st為當(dāng)前狀態(tài),表示系統(tǒng)t時(shí)刻對(duì)用戶登陸行為的觀察狀態(tài);st+1為下一狀態(tài),表示系統(tǒng)在t+Ι時(shí)刻對(duì)用戶登陸行為的觀察狀態(tài); 步驟3、初始化 `3.1、初始化Q學(xué)習(xí)中的參數(shù),所述參數(shù)包括學(xué)習(xí)率α、獎(jiǎng)懲因子r、時(shí)間衰減因子β、當(dāng)前強(qiáng)化因子Qt、終止時(shí)刻T2、觀察間隔天數(shù)T1 ; `3.2、所述決策agent通過(guò)與所述認(rèn)知agent進(jìn)行通信獲得用戶Oi在初始狀態(tài)Sci下的屬性集合比并存入用戶個(gè)性化信息庫(kù)和用戶行為庫(kù); `3.3、所述決策agent根據(jù)所述用戶個(gè)性化信息與所述市場(chǎng)agent和知識(shí)agent進(jìn)行通信,從所述推薦信息全集M中提取推薦信息子集a推薦給用戶0i,acM,并將所述推薦信息子集a存入推薦歷史庫(kù)中; `3.4所述多agent主動(dòng)推薦系統(tǒng)由初始狀態(tài)Stl轉(zhuǎn)換為當(dāng)前狀態(tài)St ; 步驟4、Q學(xué)習(xí)計(jì)算與推薦方向選擇 `4.1、所述決策agent通過(guò)與所述認(rèn)知agent進(jìn)行通信獲得用戶Oi在當(dāng)前狀態(tài)St下的屬性集合h并更新所述用戶個(gè)性化信息庫(kù)和用戶行為庫(kù); `4.2、利用式(2)獲得用戶Oi在當(dāng)前狀態(tài)St下的觀察累計(jì)評(píng)估值P:
【文檔編號(hào)】G06F17/30GK103914560SQ201410153650
【公開(kāi)日】2014年7月9日 申請(qǐng)日期:2014年4月16日 優(yōu)先權(quán)日:2014年4月16日
【發(fā)明者】方薇, 王儒敬, 徐玲玲, 李嬌娥 申請(qǐng)人:中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院