"f( Θ )《fmi。"的假設(shè)。運(yùn)種置信度和假設(shè)測(cè)試框架被采用是因?yàn)槠錄]有意義來 討論叩r(f ( Θ ) > fmJ "或叩r(f ( Θ ) > fmjD)",因?yàn)?f (目)"和"fmm"都不是隨機(jī)的。
[0067] 假設(shè)"鎊。"表示給出數(shù)據(jù)"D"的安全策略參數(shù)的集合。首先,確定什么分析將可 能被用于考慮可用數(shù)據(jù)"D"(即,部署數(shù)據(jù)210)生成最大。如果, 則算法返回"沒有找到解"。如果"疑f。/。.參0",則W下是被配置為返回新策略參數(shù)的算 法"r € ,其被評(píng)估為"最好的":
[0068]
[006引其中,"瑟從巧)E IT基于提供的數(shù)據(jù)"D"指定"Θ "如何"好"(即,新策略參數(shù))。 典型地,"g"將是"f ( Θ )"的評(píng)估值,但是允許針對(duì)任何"g"進(jìn)行。"g"的另一實(shí)例是類似 于"f"的函數(shù),但是其考慮返回值的變化。注意,即使等式(1)使用"g",但安全保證是堅(jiān)定 的,因?yàn)槠涫褂谜鎸?shí)(未知,并且總是未知)期望返回值"?·(θ)"。
[0070] 最初,描述了考慮一些數(shù)據(jù)叩",并且產(chǎn)生策略參數(shù)的單個(gè)新集合"Θ '",因此從 多個(gè)策略中選擇新策略的批量技術(shù)。運(yùn)種批量方法可W擴(kuò)展到迭代方法,如W下進(jìn)一步描 述的,其進(jìn)行多個(gè)策略改進(jìn),然后自動(dòng)和立即進(jìn)行部署。
[0071] 牛成f ( Θ )的無偏估計(jì)估
[0072] W下技術(shù)利用從使用行為策略"Θ 1"生成的每個(gè)軌跡"τ e D"生成無偏估計(jì)值 "f ( Θ )的f ( Θ,τ,Θ 1)"的能力。重要的采樣被用于如下生成運(yùn)些無偏估計(jì)值:
[0073]
[0074] 注意,在似中沒有出現(xiàn)除W 0,因?yàn)槿绻?31 (st,at,Θ 1) = 0"則在軌跡中不選擇 "a/'。然而,為了實(shí)施將被應(yīng)用的重要采樣,要求對(duì)于所有"S"和"a"來說"31(3,日,Θ),, 為0,其中"η (S,a,θ 1) = 0"。如果不是運(yùn)種情況,則來自"θ 1"的數(shù)據(jù)可W不被用于評(píng)估 "Θ "。直觀地,當(dāng)評(píng)估策略在"S"中執(zhí)行"a"時(shí),如果行為策略在狀態(tài)"S"中從不執(zhí)行動(dòng)作 "曰",則不存在關(guān)于輸出的信息。
[007引對(duì)于每個(gè)Θ 1,/(欲;;,瑪)是通過使用"Θ 1"采樣"τ "然后使用等式似計(jì)算的隨 機(jī)變量。由于重要采樣是無偏的,因此對(duì)于所有"i",
[0076] 技f/紙 r,馬)]^ /(g)
[0077] 因?yàn)樽钚〉目赡芊祷刂禐?且重要權(quán)重是非負(fù)的,所W重要權(quán)重返回值約束到0 W下。然而,當(dāng)"Θ "導(dǎo)致在動(dòng)作不可能在"Θ i" W下的狀態(tài)中可能的動(dòng)作時(shí),重要權(quán)重返 回值可W較大。因此,"/沒八,馬r是約束到0W下的隨機(jī)變量,具有[0:1]間隔中的期望 值,并且就有較大的上限。運(yùn)意味著/提Vi,新)可W具有相對(duì)較長(zhǎng)的尾部,如圖3B的示例性 示圖350所示。
[0078] 曲線352是關(guān)于簡(jiǎn)化且"T = 20"的登山-汽車領(lǐng)域的"/(致的概率密度 函數(shù)(PDF)的經(jīng)驗(yàn)估計(jì)。垂直軸對(duì)應(yīng)于概率密度。稍后在W下討論中描述曲線304。行為 策略參數(shù)"Θ i"產(chǎn)生次優(yōu)策略并且沿著從"Θ i"開始的自然策略梯度選擇評(píng)估策略參數(shù) "Θ "。在該實(shí)例中通過生成100, 000個(gè)軌跡、計(jì)算對(duì)應(yīng)的重要權(quán)重返回值、然后將它們傳輸 至密度函數(shù)來評(píng)估概率密度函數(shù)(PDF)。關(guān)于重要權(quán)重返回值的最緊上限近似為109'4,盡 管最大觀察重要權(quán)重返回值近似為316。采樣平均接近0.2 >10 °'7。注意,水平軸被算法 地縮放,例如十進(jìn)制。
[00巧]集中不等式
[0080] 為了確保安全性,如上所述采用集中不等式126。集中不等式126被用作置信值的 約束,并由此用于提供性能的統(tǒng)計(jì)保證,例如至少對(duì)應(yīng)于限定值的策略的性能測(cè)量的估計(jì) 值。集中不等式126可W采用各種不同的形式,諸如化ernoff-Hoeffding不等式。該不等 式用于計(jì)算每個(gè)策略被約束的每條軌跡上的采樣平均(平均/(氛例如與真實(shí)平均 "f(e)"偏離的不太遠(yuǎn)。
[0081] 每個(gè)集中不等式都在W下表示為應(yīng)用于"η"和獨(dú)立和相同分布的隨機(jī)變量 "Xi,…,X。",其中對(duì)于所有"i"來說"XiG [0,b]"且"Ε技1] = μ"。在運(yùn)些技術(shù)的情況下, 運(yùn)些"Xi"對(duì)應(yīng)于使用相同行為策略和"μ = f ( Θ )"的"η"個(gè)不同軌跡的"/(蘇?·,玲)"。 集中不等式的第一實(shí)例是化e;rnoff-Hoeffding(CH)不等式:
[0082]
[0083] 在第二實(shí)例中,表示Maurer和化ntil的經(jīng)驗(yàn)伯恩斯坦(MPeB)不等式,其用如下 采樣變量替換伯恩斯坦不等式中的真實(shí)(該設(shè)置為未知)變量:
[0084]
[0085] 在第Ξ實(shí)例中,安德森(AM)不等式在W下被示為使用Dvoretzky-Kiefer-Wolfowitz 不等式,其如下通過Massart找到最優(yōu)常數(shù):
[0086]
[0087] 其中,%、Z2,…,Zn"是'%,X2,…,V,的順序統(tǒng)計(jì)且"z〇= 0"。良P,'<Zi"是隨 機(jī)變量"Xl,X2,…,X。"的采樣,它們進(jìn)行排序使得%《Z 2《···Ζ。"且"Zd= 0"。
[0088] 注意,等式(3)僅考慮隨機(jī)變量的采樣平均,而等式(4)考慮采樣平均和采樣變 量。運(yùn)使得等式(4)減少了范圍"b"的英系那個(gè),即,在等式(4)中,范圍除W"n-r',而在 等式(3)中,其除^"\視"。等式(4)僅考慮采樣平均和采樣變量,等式(5)考慮整個(gè)采樣 累計(jì)分布函數(shù)。運(yùn)使得等式(5)僅依賴于最大觀察采樣而不依賴叩"。運(yùn)在一些情況下可 W是顯著的改進(jìn),諸如圖3所示的示例性情況,其中最大觀察采樣近似為316同時(shí)"b"近似 為 1〇9'4。
[0089] 在另一實(shí)例中,上面將MPeB不等式示為擴(kuò)展為與隨機(jī)變量的范圍無關(guān)。運(yùn)導(dǎo)致新 不等式,其將MPeB不等式的期望特性(例如,沒有相同分布的隨機(jī)變量的一般緊密型和適 應(yīng)性)與AM不等式的期望特性(例如不直接依賴于隨機(jī)變量的范圍)進(jìn)行組合。還移除 了確定關(guān)于最大可能重要權(quán)重返回值的緊密上限的需求,運(yùn)可W包括域?qū)S锰匦缘膶I(yè)考 慮。
[0090] MPeB不等式的擴(kuò)展利用兩種方式。第一種方式是移除分布的上尾部降低其期望 值。第二種方式是如果同時(shí)專用于具有相同平均值的隨機(jī)變量則MPeB不等式可W被概括 為處理具有不同范圍的隨機(jī)變量。因此,隨機(jī)變量分布的尾部塌陷,并且在該實(shí)例中標(biāo)準(zhǔn)化 隨機(jī)變量,使得可W應(yīng)用MPeB不等式。然后,MPeB不等式用于生成下限,從中提取原始隨 機(jī)變量的均勻平均值的下限。在W下定理1中提供所得到的集中不等式。
[0091] 用于塌陷分布的尾部然后約束新分布的平均值的方法類似于約束截頂或縮尾均 值估計(jì)量。然而,在截頂均值丟棄一些闊值W上的每個(gè)采樣的情況下,本技術(shù)中的采樣從闊 值上方移動(dòng)到精確位于闊值,運(yùn)類似于計(jì)算縮尾均值,除了闊值不依賴于數(shù)據(jù)。
[009引在定理1中,假設(shè)"X=狂1,…X。)"是獨(dú)立隨機(jī)變量的矢量,其中且所 有"Xi"都具有相同的期望值"μ"。假設(shè)對(duì)于所有"i"來說,"δ >0"并選擇任何"Ci> 0"。然后,具有至少為"1-δ"的概率:
[0093]
[0094] 其中,'%= min找 1,Ci},,。
[0095] 為了應(yīng)用定理1,對(duì)于每個(gè)"ci"(闊值超過其)選擇值,塌陷"Xi"的分布。為了 簡(jiǎn)化該任務(wù),選擇單個(gè)64 c:授遺 >> 并且對(duì)于所有"i"來說設(shè)置"Ci=c"。當(dāng)"C"太大時(shí),其 放松約束,就像大范圍"b" -樣。當(dāng)"C"太小時(shí),其降低"Yi"的真實(shí)期望值,運(yùn)也放松了約 束。因此,最佳"C"平衡了 "Yi"的范圍與"Yi"的真實(shí)平均之間的折中。所提供的隨機(jī)變量 被劃分為兩組"Dpf。"和"DpMt"。"Dpf。"用于估計(jì)最佳標(biāo)量闊值,作為(該等式中的最大函數(shù) 是具有標(biāo)量"C"的等式化)的右側(cè)):
[0096]
[0097] 回憶"Υι= min找1,cj",使得等式(7)中Ξ個(gè)項(xiàng)目的中每一項(xiàng)都依賴于"C"。一 旦從"Dpf。"中形成最佳"C"的估計(jì)值,則使用"DpMt"中的采樣和優(yōu)化"C"值應(yīng)用定理1。在 一個(gè)或多個(gè)實(shí)施方式中,發(fā)現(xiàn)使用"Dpf。"中采樣的1/3和"DpMt"中的剩余2/3在已知真實(shí) 平均值在[1,0]中、"C > 1"的情況下執(zhí)行得很好。當(dāng)一些隨機(jī)變量被相同分布時(shí),可W確 保變量^ 1/^3在"0。,。"且2/3在"0。。,/'中進(jìn)行劃分。在一個(gè)或多個(gè)實(shí)施方式中,運(yùn)種用于 確定多少點(diǎn)包括在Dpf。中的自組方案被改善W針對(duì)每個(gè)隨機(jī)變量選擇不同的"C 1 "。
[009引 圖3B中的曲線354示出了當(dāng)選擇"C"時(shí)的折中。其對(duì)于平均值"f( Θ )"給出95% 的置信下限,對(duì)于值"C"的(垂直軸)通過水平軸來指定。一個(gè)或多個(gè)實(shí)施方式中的最佳 "C"值在102左右。曲線304繼續(xù)在水平軸下方。在運(yùn)種情況下,當(dāng)"c = l094"時(shí),不等式 退化成MPeB不等式,其對(duì)-129703的平均值產(chǎn)生95%的置信下限。
[0099] 使用用于創(chuàng)建圖3B的100000個(gè)采樣,利用1/3、2/3數(shù)據(jù)劃分使用定理1 W及CH、 MpeB和AM不等式計(jì)算平均值的95%置信下限。還得到和測(cè)試塌陷-AM不等式,其是AM不 等式的擴(kuò)展W使用本文描述的方案,其中塌陷"V成為"Yi"且從數(shù)據(jù)的1/3中優(yōu)化"C"值。 在圖4所示圖表400中提供的結(jié)果。類似于通過重要采用所生成的,比較示出了用于長(zhǎng)尾分 布的集中不等式的功率。還示出了 AM不等式不從應(yīng)用于MpeB不等式的塌陷方案中獲益。 0] 確保策略巧索中的安倉(cāng)忡
[0101] 為了確定策略參數(shù)"Θ "對(duì)于給定的提供數(shù)據(jù)"D"是否安全,來自部分4的集中不 等式被應(yīng)用于重要的權(quán)重返回值。為了簡(jiǎn)化,如圖5的實(shí)例500所示,當(dāng)使用"D"中的軌跡 和提供的闊值"C"來估計(jì)"Θ "時(shí),假設(shè)值,Θ,C,δ )"為通過定理1生成的"f ( Θ )"的 置信下限"1-δ ",其中,"η"是"D"中的軌跡的數(shù)量。如圖6的實(shí)例600所示,在算法1中 提供確定"Θ "對(duì)于"D"是否安全的偽碼。 引 化acle鉤巧策略巧索
[0103] 上面描述了確定策略參數(shù)是否安全的技術(shù),然后選擇適當(dāng)?shù)膶?duì)象函數(shù)"g"并且使 用該函數(shù)找到最大化"g"的安全參數(shù)。任何策略脫離評(píng)估技術(shù)可用于"g",諸如對(duì)風(fēng)險(xiǎn)敏感 的"g",