一種結(jié)合馬爾科夫決策過程的動(dòng)作知識(shí)提取方法與流程

文檔序號(hào)：11627851閱讀：683來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域，特別是一種結(jié)合馬爾科夫決策過程的動(dòng)作知識(shí)提取方法。

背景技術(shù)：

在機(jī)器學(xué)習(xí)中，許多模型如支持向量機(jī)、隨機(jī)森林、深層神經(jīng)網(wǎng)絡(luò)已經(jīng)被提出并取得了很大的成功，但是在許多實(shí)際應(yīng)用中，這些模型的可實(shí)施性比較差。

強(qiáng)化學(xué)習(xí)是一類特殊的機(jī)器學(xué)習(xí)，通過與所在環(huán)境的自主交互來學(xué)習(xí)決策策略，使得策略收到的長(zhǎng)期累積獎(jiǎng)賞最大；強(qiáng)化學(xué)習(xí)與其他機(jī)器學(xué)習(xí)方法的區(qū)別在于：不用預(yù)先給出訓(xùn)練數(shù)據(jù)，而是要通過與環(huán)境的交互來產(chǎn)生；在管理科學(xué)領(lǐng)域，知識(shí)提取問題是采用統(tǒng)計(jì)學(xué)的方法來分析用戶的行為并找出特定的規(guī)則；在機(jī)器學(xué)習(xí)領(lǐng)域，知識(shí)提取問題主要是采用模型后續(xù)分析技術(shù)。

這兩類方法的主要缺點(diǎn)是他們是用全部數(shù)據(jù)建立模型來提取知識(shí)，并不是對(duì)單獨(dú)記錄提取其有用的知識(shí)。所以在許多應(yīng)用中，這些模型的可實(shí)施性比較差，因?yàn)檫@些模型僅對(duì)狀態(tài)的一個(gè)屬性值進(jìn)行修改，這就造成了在實(shí)際應(yīng)用中結(jié)果會(huì)出現(xiàn)誤差，不能準(zhǔn)確地給出可行性的建議。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明所解決的技術(shù)問題在于提供一種結(jié)合馬爾科夫決策過程的動(dòng)作知識(shí)提取方法，以解決現(xiàn)有技術(shù)中用全部數(shù)據(jù)建立模型提取知識(shí)和只改變狀態(tài)的一個(gè)屬性值，導(dǎo)致結(jié)果誤差較大的問題；本發(fā)明通過強(qiáng)化學(xué)習(xí)的馬爾科夫決策過程實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的動(dòng)作知識(shí)提取，實(shí)現(xiàn)把機(jī)器學(xué)習(xí)模型的預(yù)測(cè)結(jié)果轉(zhuǎn)化為動(dòng)作知識(shí)的能力。

實(shí)現(xiàn)本發(fā)明目的的技術(shù)解決方案為：

一種結(jié)合馬爾科夫決策過程的動(dòng)作知識(shí)提取方法，包括如下步驟：

步驟1：訓(xùn)練隨機(jī)森林模型h；

步驟2：定義動(dòng)作知識(shí)提取問題ake：針對(duì)隨機(jī)森林模型h，對(duì)屬性進(jìn)行分割，定義屬性變化、動(dòng)作，在此基礎(chǔ)上定義動(dòng)作知識(shí)提取問題ake；

步驟3、用馬爾科夫決策過程求解ake優(yōu)化問題：對(duì)任意輸入數(shù)據(jù)，定義馬爾科夫決策過程mdp，并定義策略，通過策略迭代更新策略，最后求解得到一個(gè)最優(yōu)策略。

本發(fā)明與現(xiàn)有技術(shù)相比，其顯著優(yōu)點(diǎn)：

(1)本發(fā)明提出了一種結(jié)合經(jīng)典強(qiáng)化學(xué)習(xí)方法馬爾科夫決策過程的方法，為當(dāng)前動(dòng)作知識(shí)提取領(lǐng)域提供了一種新的方法。

(2)本發(fā)明提出的動(dòng)作知識(shí)提取技術(shù)有效地改進(jìn)了在有限時(shí)間內(nèi)找到最優(yōu)策略的準(zhǔn)確率；本發(fā)明是基于隨機(jī)森林模型，隨機(jī)森林模型是現(xiàn)有的最好分類模型之一，已被廣泛用于實(shí)際問題中，通過隨機(jī)森林模型的預(yù)處理，可以使得數(shù)據(jù)有序分類，優(yōu)化了在后續(xù)的馬爾科夫決策過程中迭代尋找最優(yōu)策略的時(shí)間。

(3)本發(fā)明中動(dòng)作知識(shí)提取定義的動(dòng)作，能夠改變狀態(tài)的多個(gè)屬性值，在實(shí)際應(yīng)用中，將會(huì)給出準(zhǔn)確的可行性建議。

(4)基于馬爾科夫決策過程中每步狀態(tài)完全可以被觀測(cè)到，迭代尋找最優(yōu)策略的準(zhǔn)確率得以保證；結(jié)合馬爾科夫決策過程不需要使用全部數(shù)據(jù)來建立模型的特點(diǎn)，本發(fā)明能夠針對(duì)某個(gè)單獨(dú)記錄提取其可用的動(dòng)作知識(shí)，可以通過與環(huán)境的交互來自主地了解環(huán)境并得到一個(gè)更好的策略。

下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。

附圖說明

圖1為本發(fā)明方法總體流程圖。

具體實(shí)施方式

本發(fā)明的一種結(jié)合馬爾科夫決策過程的動(dòng)作知識(shí)提取方法，結(jié)合機(jī)器學(xué)習(xí)與強(qiáng)化學(xué)習(xí)，利用馬爾科夫決策過程提取動(dòng)作知識(shí)；具體步驟如下：

步驟1：訓(xùn)練隨機(jī)森林模型h：

給定一個(gè)訓(xùn)練數(shù)據(jù)集，建立一個(gè)隨機(jī)森林模型h；定義訓(xùn)練數(shù)據(jù)集為{x,y}，x為輸入數(shù)據(jù)向量集合，y為輸出類別標(biāo)記集合，通過隨機(jī)采樣和完全分裂建立隨機(jī)森林模型h，隨機(jī)森林模型h的預(yù)測(cè)函數(shù)為

其中，為輸入向量，y∈y，y為隨機(jī)森林模型h在輸入向量為的情況下輸出的預(yù)測(cè)分類，c為期望分類目標(biāo)，d為第d棵決策樹，d為隨機(jī)森林中決策樹的總棵數(shù)，wd為第d棵決策樹的權(quán)重，為第d棵決策樹在輸入的情況下對(duì)應(yīng)的輸出，為指示函數(shù)，表示在輸入數(shù)據(jù)向量為的情況下輸出的預(yù)測(cè)分類為c的概率。

步驟2：定義動(dòng)作知識(shí)提取問題(ake)：針對(duì)隨機(jī)森林模型h，對(duì)屬性進(jìn)行分割，定義屬性變化、動(dòng)作，在此基礎(chǔ)上定義動(dòng)作知識(shí)提取問題(ake)。

2.1對(duì)屬性進(jìn)行分割：給定一個(gè)隨機(jī)森林模型h，每一個(gè)屬性xi(i＝1，…，m)被分割為m個(gè)數(shù)量的區(qū)間。

1)如果屬性xi是分類類型的并且具有n個(gè)分類，則屬性xi自然被分割成n個(gè)區(qū)間，此時(shí)m＝n。

2)如果屬性xi是數(shù)值類型的，隨機(jī)森林模型h中每棵決策樹上的分支結(jié)點(diǎn)為xi＞b，則b即為屬性xi的一個(gè)分割點(diǎn)。如果在所有決策樹中屬性xi有n個(gè)分割點(diǎn)，則屬性xi分割為n+1個(gè)區(qū)間，此時(shí)m＝n+1。

2.2定義屬性變化：給定一個(gè)隨機(jī)森林模型h，一個(gè)屬性變化τ定義為一個(gè)三元組τ＝(xi，p，q)，p和q分別是該屬性xi的兩個(gè)分割區(qū)間。

一個(gè)屬性變化τ在給定的輸入向量上是可執(zhí)行的，當(dāng)且僅當(dāng)該輸入向量的第i個(gè)屬性xi在區(qū)間p中；一個(gè)屬性變化τ即是把輸入向量的屬性xi從區(qū)間p轉(zhuǎn)變到區(qū)間q。

2.3、定義動(dòng)作：

一個(gè)動(dòng)作a定義為一個(gè)屬性變化集，即動(dòng)作a＝{τ1，…，τ|a|}；每個(gè)動(dòng)作a都有一個(gè)立即獎(jiǎng)賞r(α)。

其中，|a|表示動(dòng)作a中屬性變化的個(gè)數(shù)，|a|≥1，即一個(gè)動(dòng)作a至少包含一個(gè)屬性變化τ。

一個(gè)動(dòng)作a在輸入向量上是可執(zhí)行的，當(dāng)且僅當(dāng)其所有屬性變化τ在上是可執(zhí)行的。

2.4、定義動(dòng)作知識(shí)提取問題(ake)為：

subjecttop(y＝c|x^*)＞z

其中，a為可執(zhí)行的動(dòng)作集合，as為需要尋找的最優(yōu)動(dòng)作序列，ai為最優(yōu)動(dòng)作序列as中任意一個(gè)動(dòng)作，r(ai)為動(dòng)作ai的立即獎(jiǎng)賞，f(as)為作用于最優(yōu)動(dòng)作序列as上得到的總獎(jiǎng)賞值，y為隨機(jī)森林模型h在輸入向量為的情況下輸出的預(yù)測(cè)分類，z為一個(gè)常數(shù)閾值，x^*為從初始輸入向量執(zhí)行最優(yōu)動(dòng)作序列as中所有動(dòng)作之后得到的向量結(jié)果。

ake問題是找一個(gè)動(dòng)作序列把輸入向量轉(zhuǎn)變?yōu)橐粋€(gè)具有期望預(yù)測(cè)分類的目標(biāo)向量，同時(shí)保證該動(dòng)作序列的獎(jiǎng)賞總和最大；所以，這是一個(gè)優(yōu)化問題，稱為ake優(yōu)化問題。在ake問題的動(dòng)作定義中，一個(gè)動(dòng)作至少包含一個(gè)屬性變化，這就能夠改變一個(gè)狀態(tài)的多個(gè)屬性值，在實(shí)際應(yīng)用中，將會(huì)給出準(zhǔn)確的可行性建議。

步驟3、用馬爾科夫決策過程求解ake優(yōu)化問題：對(duì)任意輸入數(shù)據(jù)，定義馬爾科夫決策過程(mdp)，并定義策略，通過策略迭代更新策略，最后求解得到一個(gè)最優(yōu)策略。

3.1定義馬爾科夫決策過程為πmdp＝{s，a，t，r}；

定義過程為現(xiàn)有技術(shù)，其中s表示狀態(tài)空間，狀態(tài)用s表示；a表示動(dòng)作空間，動(dòng)作用a表示；t：s×a×s→[0，1]是狀態(tài)轉(zhuǎn)移函數(shù)，表示在一個(gè)狀態(tài)下執(zhí)行一個(gè)動(dòng)作后轉(zhuǎn)移到另一個(gè)狀態(tài)的概率；r：s×a→r是獎(jiǎng)賞函數(shù)，表示發(fā)生狀態(tài)轉(zhuǎn)移時(shí)環(huán)境給出的立即獎(jiǎng)賞。從狀態(tài)s出發(fā)，采取動(dòng)作a∈a(s)，收到環(huán)境反饋的獎(jiǎng)賞r(s，a)，并且以t(s，a，s′)的概率轉(zhuǎn)移到下一時(shí)刻的狀態(tài)s′∈s，其中a(s)表示在狀態(tài)s可采取動(dòng)作的集合。

馬爾科夫決策過程是一個(gè)循環(huán)迭代的過程，直到滿足終止條件為止，結(jié)束之后輸出最優(yōu)策略序列b。

3.2定義策略：

策略π為狀態(tài)到動(dòng)作的映射：s×a→[0，1]，目標(biāo)是找到一個(gè)具有最大累計(jì)獎(jiǎng)賞rπ的最優(yōu)策略π^*：

其中，rπ是策略π下t時(shí)刻執(zhí)行動(dòng)作的累計(jì)獎(jiǎng)賞，γ^t是折扣因子γ的t次方，eπ[·]是策略π下的期望，rt是t時(shí)刻執(zhí)行動(dòng)作的立即獎(jiǎng)賞。

3.3定義值函數(shù)：

獎(jiǎng)賞函數(shù)是對(duì)一個(gè)狀態(tài)(動(dòng)作)的即時(shí)評(píng)價(jià)，值函數(shù)則是從長(zhǎng)遠(yuǎn)角度來考慮一個(gè)狀態(tài)的好壞；這里使用狀態(tài)值函數(shù)v(s)。

給定一個(gè)策略π，狀態(tài)值函數(shù)定義為：

基于最優(yōu)策略π^*，最優(yōu)狀態(tài)值函數(shù)v^*(s)可以定義為：

其中，s0表示初始狀態(tài)，s0＝s表示以狀態(tài)s為初始狀態(tài)，v^π(s)是在策略π下以狀態(tài)s為初始狀態(tài)的狀態(tài)值函數(shù)，v^*(s)是在策略π下以狀態(tài)s為初始狀態(tài)的最優(yōu)狀態(tài)值函數(shù)。

根據(jù)bellman最優(yōu)等式，可有：

其中，rt+1是t+1時(shí)刻執(zhí)行動(dòng)作的立即獎(jiǎng)賞，v^*(st+1)為t+1時(shí)刻狀態(tài)st+1的最優(yōu)狀態(tài)值函數(shù)，s′是下一時(shí)刻的狀態(tài)，t(s，a，s′)是狀態(tài)轉(zhuǎn)移概率，γ是折扣因子，r(s，α)是在狀態(tài)s、動(dòng)作a下的累計(jì)獎(jiǎng)賞，v^*(s′)是下一狀態(tài)s′下最優(yōu)狀態(tài)值函數(shù)。

3.4、根據(jù)策略迭代求解得到一個(gè)最優(yōu)策略：

先隨機(jī)初始化一個(gè)策略πt，計(jì)算這個(gè)策略下狀態(tài)值函數(shù)vt，根據(jù)這些狀態(tài)值函數(shù)得到新的策略πt+1，計(jì)算新策略下每個(gè)狀態(tài)的值函數(shù)vt+1，直到收斂。

計(jì)算一個(gè)策略下每個(gè)狀態(tài)的價(jià)值，被稱為策略評(píng)估；根據(jù)狀態(tài)價(jià)值得到新策略，被稱為策略改進(jìn)。

3.4.1進(jìn)行策略評(píng)估：

根據(jù)bellman等式，一個(gè)狀態(tài)的值函數(shù)和它后續(xù)狀態(tài)的值函數(shù)相關(guān)；因此，用后續(xù)狀態(tài)值函數(shù)v(s′)來更新當(dāng)前狀態(tài)的值函數(shù)v(s)；

策略評(píng)估遍歷所有狀態(tài)，按照下面公式來更新狀態(tài)值函數(shù)：

更新狀態(tài)值函數(shù)之后，將策略πt添加到最優(yōu)策略序列b中；

其中，是策略πt下狀態(tài)s的狀態(tài)值函數(shù)，是策略πt+1下狀態(tài)s′的狀態(tài)值函數(shù)，π(s，a)表示策略為狀態(tài)s、動(dòng)作a。

3.4.2進(jìn)行策略改進(jìn)：

根據(jù)狀態(tài)值函數(shù)得到一個(gè)優(yōu)于舊策略的新策略；對(duì)于一個(gè)狀態(tài)s，讓策略選擇一個(gè)動(dòng)作a，使得當(dāng)前狀態(tài)值函數(shù)r(s，a)+γ∑s′t(s，a，s′)v^π(s′)最大，即

其中，πt+1表示t+1時(shí)刻的策略。

3.4.3根據(jù)策略改進(jìn)的結(jié)果，輸出最優(yōu)策略序列b：判斷策略中的狀態(tài)是否是目標(biāo)狀態(tài)，如果是目標(biāo)狀態(tài)就退出策略迭代并輸出最優(yōu)策略序列b；如果不是目標(biāo)狀態(tài)，則重新進(jìn)行策略評(píng)估，直到滿足狀態(tài)s是目標(biāo)狀態(tài)，并輸出最優(yōu)策略b。

是否為目標(biāo)函數(shù)的判斷條件為：

本發(fā)明提出了一種結(jié)合經(jīng)典強(qiáng)化學(xué)習(xí)方法馬爾科夫決策過程的方法，為當(dāng)前動(dòng)作知識(shí)提取領(lǐng)域提供了一種新的方法。本發(fā)明是基于隨機(jī)森林模型，隨機(jī)森林模型是現(xiàn)有的最好分類模型之一，已被廣泛用于實(shí)際問題中。通過隨機(jī)森林模型的預(yù)處理，可以使得數(shù)據(jù)有序分類，優(yōu)化了在后續(xù)的馬爾科夫決策過程中迭代尋找最優(yōu)策略的時(shí)間，因此本發(fā)明提出的動(dòng)作知識(shí)提取方法有效地改進(jìn)了在有限時(shí)間內(nèi)找到最優(yōu)策略的準(zhǔn)確率。本發(fā)明中動(dòng)作知識(shí)提取定義的動(dòng)作，能夠改變狀態(tài)的多個(gè)屬性值，在實(shí)際應(yīng)用中，將會(huì)給出準(zhǔn)確的可行性建議?；隈R爾科夫決策過程中每步狀態(tài)完全可以被觀測(cè)到，迭代尋找最優(yōu)策略的準(zhǔn)確率得以保證。結(jié)合馬爾科夫決策過程不需要使用全部數(shù)據(jù)來建立模型的特點(diǎn)，本發(fā)明能夠針對(duì)某個(gè)單獨(dú)記錄提取其可用的動(dòng)作知識(shí)，可以通過與環(huán)境的交互來自主地了解環(huán)境并得到一個(gè)更好的策略。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂強(qiáng);李兆榮;李歡
技術(shù)所有人：揚(yáng)州大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

馬爾科夫決策相關(guān)技術(shù)

馬爾科夫決策過程相關(guān)技術(shù)

有限馬爾科夫決策過程相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種結(jié)合馬爾科夫決策過程的動(dòng)作知識(shí)提取方法與流程