本發(fā)明涉及人工智能領(lǐng)域,尤其涉及非完備信息博弈中風(fēng)險(xiǎn)與收益均衡的最少遺憾的評(píng)估方法。
背景技術(shù):
人工智能是計(jì)算機(jī)領(lǐng)域的一個(gè)重要分支,它的中心任務(wù)是研究如何使計(jì)算機(jī)去做原本只能靠人的智力才能完成的工作。機(jī)器博弈作為人工智能的一個(gè)重要研究領(lǐng)域,是檢驗(yàn)人工智能發(fā)展水平的一個(gè)重要手段。在機(jī)器博弈的研究中,非完備信息機(jī)器博弈是該領(lǐng)域研究的難點(diǎn)和重點(diǎn)之一。非完備信息博弈中的博弈方由于無法獲得所有的信息,因而無法準(zhǔn)確預(yù)知對(duì)手會(huì)采取哪些對(duì)策。這和社會(huì)中商業(yè)競(jìng)爭、軍事戰(zhàn)爭等的情形十分類似,它的研究對(duì)于建立現(xiàn)實(shí)社會(huì)的決策支持系統(tǒng)有很強(qiáng)的參考價(jià)值。
技術(shù)實(shí)現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中問題,本發(fā)明提供了非完備信息博弈中風(fēng)險(xiǎn)與收益均衡的最少遺憾的評(píng)估方法,包括如下步驟:
步驟1:針對(duì)每個(gè)信息集,初始化其策略、估值和每個(gè)動(dòng)作的遺憾值;
步驟2:使用當(dāng)前的策略進(jìn)行博弈,直至完成本次博弈;
步驟3:在本次博弈所訪問到的每個(gè)信息集上計(jì)算估值及每個(gè)動(dòng)作的遺憾值;
步驟4:根據(jù)遺憾匹配算法計(jì)算出新的策略;
步驟5:計(jì)算新策略的風(fēng)險(xiǎn)值并綜合考慮收益與風(fēng)險(xiǎn)的關(guān)系,挑選下一輪博弈中要使用的策略;
步驟6:返回步驟2,直至博弈過程終止。
本發(fā)明的有益效果是:
本發(fā)明設(shè)計(jì)了一種利用經(jīng)濟(jì)學(xué)中風(fēng)險(xiǎn)的概念,并研究風(fēng)險(xiǎn)模型的原理,結(jié)合最少遺憾算法,應(yīng)用在非完備信息機(jī)器博弈中。在利用最少遺憾算法收益占優(yōu)策略的同時(shí),兼顧策略的風(fēng)險(xiǎn),達(dá)到更為合理的納什均衡。
附圖說明
圖1是本發(fā)明流程圖;
圖2是非完備信息博弈過程;
圖3是風(fēng)險(xiǎn)模型中I、II型風(fēng)險(xiǎn)損失示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說明。
首先介紹非完備信息博弈的模型及風(fēng)險(xiǎn)模型的基本概念。
非完備信息擴(kuò)展式博弈是一個(gè)六元組<H,H,P,fc,{Li}i=1,2,...,N,{ui}i=1,2,...,N>其中N是代表玩家的有限集;H是有限動(dòng)作序列的集合,空序列及每個(gè)動(dòng)作序列的前綴也是H中的元素。終止序列Z是H中不是任何序列前綴的序列。對(duì)于非終止序列h∈H,A(h)={a:ha∈H}表示在動(dòng)作序列h之后可以執(zhí)行的動(dòng)作的集合。函數(shù)P為非終止序列分配一個(gè)玩家,其中c代表隨機(jī)事件。P(h)代表在序列h后輪到哪個(gè)玩家做動(dòng)作。若P(h)=c,則隨機(jī)事件在決定序列h之后的動(dòng)作。對(duì)于玩家i∈N,表示其信息分割;信息分割的元素稱為信息集,每個(gè)信息集是H的子集,代表若干無法明確區(qū)分的動(dòng)作序列。函數(shù)fc為P(I)=c的信息集提供A(h)中每一個(gè)動(dòng)作a發(fā)生的概率,表示為fc(a|I);對(duì)于玩家i∈N,ui:Z→R是其效用函數(shù),在每個(gè)終止序列上獲得返回值。
玩家i的策略σi是對(duì)每一個(gè)信息集Ii∈Li,σi(Ii):A(Ii)→[0,1]是在動(dòng)作集A(Ii)的概率分布函數(shù)。玩家i的策略空間用∑i表示。一個(gè)策略組包含所有玩家的策略,用σ=(σ1,σ2,...,σN)表示。用σ-i表示除去玩家i,剩余的所有玩家策略組成的策略組。
給定策略組σ(當(dāng)所有玩家根據(jù)策略σ選擇動(dòng)作),定義動(dòng)作序列h發(fā)生的概率為πσ(h)。顯然πσ(h)可以分解為每一個(gè)玩家對(duì)動(dòng)作序列h的發(fā)生所貢獻(xiàn)的乘積,即同理,可定義對(duì)于兩個(gè)不同的動(dòng)作序列h和h',令πσ(h,h')為在策略組σ下,從h到h'的轉(zhuǎn)移概率,若h是h'的前綴,則πσ(h,h')=πσ(h)/πσ(h')否則,πσ(h,h')=0。類似的,可以定義和
圖2中的集合W代表了非完備信息博弈環(huán)境I的所有可能的情況的集合,W中的每個(gè)元素wi都代表了I的一個(gè)可能的完備信息狀態(tài),I的真實(shí)狀態(tài)是W中的某一個(gè)wi。這里引入世界的概念:一個(gè)世界是非完備信息博弈的一個(gè)可能狀態(tài)。W是當(dāng)前博弈狀態(tài)的世界集,S是W的抽樣集,完備信息蒙特卡洛抽樣方法的基本過程是,采用隨機(jī)方法抽樣出W的子集S,對(duì)其中的每個(gè)完備信息世界si進(jìn)行計(jì)算,統(tǒng)計(jì)分析每個(gè)si的最優(yōu)解mi,最后在M中選擇最終的最優(yōu)策略序列。
將機(jī)器博弈問題策略選擇算法中的不確定性歸結(jié)為以下兩類風(fēng)險(xiǎn)損失。
I型風(fēng)險(xiǎn)損失及其計(jì)算方法:
由估值函數(shù)的對(duì)世界估值的不準(zhǔn)確性造成的風(fēng)險(xiǎn)損失稱為I型風(fēng)險(xiǎn)損失。假設(shè)世界w的最優(yōu)策略序列為m,則此時(shí)m的I型風(fēng)險(xiǎn)損失計(jì)算方法如下:
在上式中,代表了估值函數(shù)對(duì)世界w下采取策略序列m的收益估值,代表真實(shí)世界采取策略序列m時(shí)的收益估值。
II型風(fēng)險(xiǎn)損失及計(jì)算方法:
由于對(duì)手最優(yōu)策略判斷的不準(zhǔn)確性造成的風(fēng)險(xiǎn)損失稱為II型風(fēng)險(xiǎn)損失,策略序列m的II型風(fēng)險(xiǎn)損失計(jì)算方法如下:
是估值函數(shù)對(duì)真實(shí)世界I采取策略序列m的收益估值。真實(shí)世界I下博弈雙方的實(shí)際策略序列m’的收益估值。
圖3展示了I、II型風(fēng)險(xiǎn)損失的區(qū)別,估值函數(shù)對(duì)世界w和真實(shí)世界I經(jīng)過策略序列m的預(yù)期收益的估值差為I型風(fēng)險(xiǎn)損失,圖中為LwI,真實(shí)世界I中,策略序列m和實(shí)際策略序列m’的預(yù)期收益差為II型風(fēng)險(xiǎn)損失,圖中為LmII。由此,定義世界w下采用策略序列m的風(fēng)險(xiǎn)損失為
Lwm=LwI+LmII (3)。
本發(fā)明設(shè)計(jì)了一種利用經(jīng)濟(jì)學(xué)中風(fēng)險(xiǎn)的概念,并研究風(fēng)險(xiǎn)模型的原理,結(jié)合最少遺憾算法,應(yīng)用在非完備信息機(jī)器博弈中。在利用最少遺憾算法收益占優(yōu)策略的同時(shí),兼顧策略的風(fēng)險(xiǎn),達(dá)到更為合理的納什均衡。
下面結(jié)合圖1就發(fā)明的各個(gè)步驟做詳細(xì)闡述?;静襟E為:
步驟1:進(jìn)行初始化。對(duì)于玩家i∈N,對(duì)其每個(gè)信息集I∈Li上策略的估值v(I,σ)=0對(duì)每一個(gè)a∈A(I),r(I,a)=0,其策略初始化為δi(I,a)=1/|A(I)|
步驟2:博弈方按照自己的策略輪流進(jìn)行動(dòng)作,直到本次博弈結(jié)束,并記錄各博弈方結(jié)果。
步驟3:在本次博弈所訪問到的每個(gè)信息集上計(jì)算估值及每個(gè)動(dòng)作的遺憾值;
信息集I處的價(jià)值:
在信息集I,不采取動(dòng)作a的遺憾值:
步驟4:由上一步求出的在每個(gè)訪問到的信息集上的估值根據(jù)后悔匹配算法,重新為每個(gè)信息集上的各個(gè)動(dòng)作分配比重,得到新的策略。這樣計(jì)算相比于直接采取后悔程度最大的動(dòng)作,好處在于避免對(duì)手同樣進(jìn)行后悔值的計(jì)算,感知己方的策略。由此得到以收益優(yōu)先的策略。
對(duì)于信息集I,通過遺憾匹配得到下一步的一個(gè)收益優(yōu)先的策略:
步驟5:計(jì)算新策略的風(fēng)險(xiǎn)值并綜合考慮收益與風(fēng)險(xiǎn)的關(guān)系,挑選下一輪博弈中要使用的策略。
下面考慮風(fēng)險(xiǎn)因素對(duì)博弈結(jié)果的影響:
針對(duì)非完備信息機(jī)器博弈的特點(diǎn),提出一個(gè)近似化計(jì)算風(fēng)險(xiǎn)損失的方法,其基本思想是計(jì)算抽樣集S中的預(yù)計(jì)收益的均值,來代替世界集W中I的真實(shí)收益。
假設(shè)博弈者對(duì)當(dāng)前狀態(tài)的世界集為W,元素?cái)?shù)為n,W的抽樣集為S,元素?cái)?shù)為t,M為W的所有合法策略序列集合,元素?cái)?shù)為k。首先給出此時(shí)的平均收益計(jì)算方法:
定義:為抽樣集S的平均收益。計(jì)算方法如下:
基于(7)式,對(duì)于策略序列δ的綜合風(fēng)險(xiǎn)損失近似化計(jì)算方法公式如下:
(8)式中,約等號(hào)所連接處即為使用以及抽樣集S進(jìn)行近似計(jì)算的過程。
基于以上方法,能夠計(jì)算出新策略的風(fēng)險(xiǎn)值。
接下來是如何綜合考慮收益和風(fēng)險(xiǎn)之間的關(guān)系。
假設(shè)有策略A,B。EA和EB分別代表博弈者對(duì)于策略A、B的預(yù)期收益。LA和LB代表策略A和B的風(fēng)險(xiǎn)損失。則策略A、B的優(yōu)劣判斷規(guī)則如下:
1:若策略A、B滿足uA-LA>uB,則A優(yōu)于B,反之,若滿足uB-LB>uA,則B優(yōu)于A。
2:否則,由下式:
如果R>0,則A優(yōu)于B,若R<0,則B優(yōu)于A,若R=0,則AB等優(yōu),系統(tǒng)可做隨機(jī)選擇。
由以上方法,可對(duì)當(dāng)前博弈者的新舊策略進(jìn)行排序,排序最優(yōu)的策略作為當(dāng)前的風(fēng)險(xiǎn)與收益均衡的策略,也即是博弈者的最優(yōu)策略。
步驟6:判斷整個(gè)博弈過程是否終止,若未終止,返回步驟2繼續(xù)執(zhí)行。
以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說明,不能認(rèn)定本發(fā)明的具體實(shí)施只局限于這些說明。對(duì)于本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干簡單推演或替換,都應(yīng)當(dāng)視為屬于本發(fā)明的保護(hù)范圍。