一種不完美信息擴(kuò)展式博弈中計算最佳反應(yīng)策略的方法
【專利摘要】本發(fā)明公開了一種不完美信息擴(kuò)展式博弈中計算最佳反應(yīng)策略的方法,包括如下步驟:(1)初始化策略、所有信息集的虛擬價值和虛擬遺憾值;(2)根據(jù)當(dāng)前策略,與對手進(jìn)行一次博弈,并記錄博弈結(jié)果;(3)對于在本次博弈中每一個被訪問的信息集,根據(jù)博弈結(jié)果計算出該信息集的虛擬價值;(4)根據(jù)步驟(3)所得到的各個信息集的虛擬價值,計算出每個信息集上每一個動作的虛擬遺憾值;(5)在每一個被訪問的信息集上執(zhí)行遺憾值匹配過程,更新該信息集上的策略;(6)返回步驟(2),直至不再有博弈進(jìn)行。本發(fā)明避免了對手策略動態(tài)變化所帶來的誤差,同時也提高了計算效率。
【專利說明】一種不完美信息擴(kuò)展式博弈中計算最佳反應(yīng)策略的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種不完美信息擴(kuò)展式博弈中計算最佳反應(yīng)策略的方法。
【背景技術(shù)】
[0002]博弈論被廣泛應(yīng)用于經(jīng)濟(jì)、政治、安全、游戲等領(lǐng)域中,具有重大的研究和應(yīng)用價值。一類重要的博弈類型是不完美信息擴(kuò)展式博弈(imperfect informationextensive-form game),它在日常生活中也很常見,例如:撲克、麻將等。博弈論研究的核心問題是計算出有效的博弈策略,使局中人(player)在博弈中獲得理想的博弈收益(utility)。這其中包含:(1)納什均衡(Nash equilibrium)策略的計算;(2)最佳反應(yīng)(best response)策略的計算。
[0003]納什均衡是博弈論中的最基本的概念之一,在博弈中使用納什均衡策略能夠保證局中人不被對方利用(exploit)。但它是基于對手絕對理性的假設(shè),而絕大多數(shù)對手都是非理性或有限理性的。針對特定對手,采用最佳反應(yīng)策略往往能使局中人獲得更高的收益。
[0004]目前,在計算最佳反應(yīng)策略這一問題的研究工作中,絕大多數(shù)方法都采用了對手建模(opponent modeling),即:首先通過統(tǒng)計觀察,得出對手的策略模型,然后在該策略模型的基礎(chǔ)上通過優(yōu)化方法得到最佳反應(yīng)策略。然而,這些方法沒有考慮到對手的策略是有可能動態(tài)變化的。在對手的策略不斷變化的情形下,對手建模的方法無法建立準(zhǔn)確的對手策略模型,因此無法在博弈中獲得較高的博弈收益。另外,對手建模方法所耗費的計算量也比較大,在大規(guī)模博弈(即:狀態(tài)空間很大)中無法有效應(yīng)用。
【發(fā)明內(nèi)容】
[0005]發(fā)明目的:針對上述現(xiàn)有技術(shù)存在的問題和不足,本發(fā)明的目的是提供一種不完美信息擴(kuò)展式博弈中計算最佳反應(yīng)策略的方法,針對不完美信息擴(kuò)展式博弈中,對手策略動態(tài)變化的情形,提出從遺憾最小化(regret minimization)的角度來計算最佳反應(yīng)策略,避免對手建模,同時也提高計算速率。
[0006]技術(shù)方案:為實現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為一種不完美信息擴(kuò)展式博弈中計算最佳反應(yīng)策略的方法,包括如下步驟:
(I )初始化局中人
略CT1、所有信息集的虛擬仏值I和虛擬遺憾值巧,其中JV為有限局中人集合;
(2)根據(jù)當(dāng)前策略G,與對手進(jìn)行一次博弈,并記錄博弈結(jié)果;
(3)對于在本次博弈中每一個被訪問的信息集/,根據(jù)目前為止所得到的所有博弈結(jié)果計算出該信息集的虛擬價值^(/);
(4)根據(jù)步驟(3)所得到的虛擬價值Vi(Z),計算出每個信息集J上每一個動作βe我/)的虛擬遺憾值巧(/,?),其中戎/)表示在信息集/上可以執(zhí)行的動作的集合;
(5)在每一個被訪問的信息集上/執(zhí)行遺憾值匹配過程,更新該信息集上的策略;(6)返回步驟(2),直至不再有博弈進(jìn)行。
[0007]進(jìn)一步的,所述步驟(3)中,采用基于統(tǒng)計采樣的方法,從目前所得到的博弈結(jié)果中計算出每個終止信息集的虛擬價值;而非終止信息集的虛擬價值通過其后繼信息集的虛擬價值計算出來。
[0008]進(jìn)一步的,所述步驟(4)中,將信息集?的虛擬價值Vi(Ja)與信息集/的虛擬價值Vi(!)相減,得到動作a的虛擬遺憾值P、{La),其中?表示在信肩隼’執(zhí)行動作α后所到達(dá)的
信息集。
[0009]進(jìn)一步的,所述步驟(5)中,采用遺憾值匹配的方式,計算信肩隼 < 上動作β的執(zhí)行概率0(/3):如果動作^的虛擬遺憾值馬(/,β)越大,表明不執(zhí)行動作β所造成的遺憾也就越大,相應(yīng)地就應(yīng)該更多地提高動作Ω的執(zhí)行概率。
[0010]有益效果:本發(fā)明與現(xiàn)有方法相比,其顯著優(yōu)點是避免了對對手策略模型的建立,能夠?qū)κ植呗缘膭討B(tài)變化做出快速反應(yīng),相對于對手建模方法,本發(fā)明能夠獲得更高的勝率(win rate)和博弈收益(utility),運行速度也大大提高。
【專利附圖】
【附圖說明】
[0011]圖1為本發(fā)明的總體架構(gòu)圖;
圖2為本發(fā)明的流程圖。
【具體實施方式】
[0012]下面結(jié)合附圖和具體實 施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0013]本發(fā)明通過采樣的方法,在每一次博弈后根據(jù)博弈的結(jié)果計算出每個信息集的虛擬價值以及該信息集上每個動作的虛擬遺憾值,然后采用遺憾值匹配的方法更新每個信息集上的策略?;静襟E為:(I)初始化策略、所有信息集的虛擬價值和虛擬遺憾值;(2)根據(jù)當(dāng)前策略,與對手進(jìn)行一次博弈,并記錄博弈結(jié)果;(3)對于在本次博弈中每一個被訪問的信息集,根據(jù)博弈結(jié)果計算出該信息集的虛擬價值;(4)根據(jù)步驟(3)所得到的各個信息集的虛擬價值,計算出每個信息集上每一個動作的虛擬遺憾值;(5)在每一個被訪問的信息集上執(zhí)行遺憾值匹配過程,更新該信息集上的策略;(6)返回步驟(2),直至不再有博弈進(jìn)行。
[0014]不完美信息擴(kuò)展式博弈的形式化定義如下:
定義1.不完美信息擴(kuò)展式博弈是一個六元組
【權(quán)利要求】
1.一種不完美信息擴(kuò)展式博弈中計算最佳反應(yīng)策略的方法,包括如下步驟:(1)初始化局中人ie F的策略CT1、所有信息集的虛擬價值I和虛擬遺憾值 S中力有限局中人集合; (2)根據(jù)當(dāng)前策略巧,與對手進(jìn)行一次博弈,并記錄博弈結(jié)果; (3)對于在本次博弈中每一個被訪問的信息集/,根據(jù)目前為止所得到的所有博弈結(jié)果計算出該信息集的虛擬價值^(/); (4)根據(jù)步驟(3)所得到的虛擬價值Vi(Z),計算出每個信肩集r上每一個動作αe^/)的虛擬遺憾值巧(/,為,其中我/:)表示在信息集/上可以執(zhí)行的動作的集合; (5)在每一個被訪問的信息集上/執(zhí)行遺憾值匹配過程,更新該信息集上的策略; (6)返回步驟(2),直至不再有博弈進(jìn)行。
2.根據(jù)權(quán)利要求1所述一種不完美信息擴(kuò)展式博弈中計算最佳反應(yīng)策略的方法,其特征在于,所述步驟(3)中,采用基于統(tǒng)計采樣的方法,從目前所得到的博弈結(jié)果中計算出每個終止信息集的虛擬價值;而非終止信息集的虛擬價值通過其后繼信息集的虛擬價值計算出來。
3.根據(jù)權(quán)利要求1所述一種不完美信息擴(kuò)展式博弈中計算最佳反應(yīng)策略的方法,其特征在于,所述步驟(4)中,將信息集?的虛擬價值4(74與信息集I的虛擬價值Vi(I)相減,得到動作β的虛擬遺憾值我(/3),其中?表示在信息集/執(zhí)行動作^后所到達(dá)的信息集。
4.根據(jù)權(quán)利要求1所述一種不完美信息擴(kuò)展式博弈中計算最佳反應(yīng)策略的方法,其特征在于,所述步驟(5)中,采用遺`憾值匹配的方式,計算信息集I上動作α的執(zhí)行概率A(La):如果動作^的虛擬遺憾值式(/`,O)越大,表明不執(zhí)行動作β所造成的遺憾也就越大,相應(yīng)地就應(yīng)該更多地提高動作β的執(zhí)行概率。
【文檔編號】G06F17/50GK103559363SQ201310568689
【公開日】2014年2月5日 申請日期:2013年11月15日 優(yōu)先權(quán)日:2013年11月15日
【發(fā)明者】高陽, 胡裕靖, 史穎歡 申請人:南京大學(xué), 江蘇萬維艾斯網(wǎng)絡(luò)智能產(chǎn)業(yè)創(chuàng)新中心有限公司