亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

搜索安全測量來部署的制作方法_2

文檔序號:9866063閱讀:來源:國知局
的 性能W及限定裕度),策略服務104利用策略管理模塊122。策略管理模塊122代表生成策 略120和/或計算統(tǒng)計保證W確保策略120對于部署來說是安全的(例如,至少顯示出先 前部署的策略的性能等級)的功能。
[0042] 該功能的實例被示為強化學習模塊124,其被用于部署強化學習技術來保證新策 略的部署將相對于當前使用的策略(即,部署策略)具有改進。強化學習是機器學習的類 型,其中軟件代理被執(zhí)行W在使累計獎勵的一些概念最大化的環(huán)境中采取動作,在運種情 況下使策略120的性能最大化W選擇導致相關商品或服務的用戶交互(例如,點擊)或轉(zhuǎn) 換的廣告118。
[0043] 例如,強化學習模塊124使用強化學習來生成新策略將相對于部署策略顯示出增 加的性能的置信值并由此提供運種增加性能的統(tǒng)計保證。W各種方式生成置信值,諸如通 過內(nèi)容提供器102使用描述先前策略(即,現(xiàn)有或當前策略)的部署的部署數(shù)據(jù)。強化學 習模塊124然后使用新策略來處理該部署數(shù)據(jù)W計算統(tǒng)計保證,如此可W在不具有新策略 的實際部署的情況下進行。W運種方式,內(nèi)容提供器102被保護不受潛在壞策略的部署的 影響,而運種壞策略會通過較低的交互和/或轉(zhuǎn)換而導致降低的收益。
[0044] 作為統(tǒng)計保證的計算的一部分,強化學習模塊124使用置信不等式126,諸如確保 新策略至少顯示出部署策略的量的"安全性"。集中不等式被用于解決統(tǒng)計保證的置信度的 函數(shù)與其預期(即,期望值)的偏離。運用于約束置信值的分布,并由此提高統(tǒng)計保證的精 度。例如,集中不等式可W約束置信值,使得闊值之上的置信值被移動到闊值處,可用于塌 陷分布的尾部等等。W下描述集中不等式和強化學習的進一步討論。
[0045] 如此,W下使用強化學習來支持與用于選擇廣告的策略120的選擇和生成相關聯(lián) 的各種不同功能或其他功能。例如,強化學習和集中不等式被用于通過使用統(tǒng)計保證基于 先前策略的部署數(shù)據(jù)量化新策略的部署中設及的風險的量。在另一實例中,強化學習和集 中不等式用于選擇多個策略(如果具有的話)中的哪些被部署W替代當前策略。在又一實 例中,強化學習和集中不等式被用于通過迭代技術(包括策略的參數(shù)調(diào)整W及使用部署數(shù) 據(jù)計算統(tǒng)計保證)生成新策略。W下描述并在對應附圖中示出運些和其他實例的進一步討 論。
[0046] 盡管W下描述了廣告的選擇,但本文所描述的技術可用于各種不同類型的策略。 其他策略使用的實例包括市場效應系統(tǒng)、新聞推薦系統(tǒng)、患者診斷系統(tǒng)、神經(jīng)義肢控制、自 動藥品管理等中的壽命值優(yōu)化。
[0047] 圖2示出了詳細示出強化學習模塊124的示例性實施方式中的系統(tǒng)200。系統(tǒng)200 被示為包括第一實例202、第二實例204和第Ξ實例206。在第一實例中,部署策略208被 用于選擇廣告118包括內(nèi)容112 (例如,網(wǎng)頁),其如先前所述被傳輸至客戶設備106的用 戶。因此,部署數(shù)據(jù)210被策略管理模塊122收集,其描述內(nèi)容提供器102對部署策略208 的部署。
[0048] 在運種情況下,策略管理模塊112還提出了新策略212用于替換部署策略208。然 后,策略管理模塊122利用強化學習模塊124來確定是否部署新策略212,其包括使用參照 圖1所描述的集中不等式126的使用W增加新策略的可能性能的統(tǒng)計保證的精度。如果新 策略212是"壞的"(例如,具有低于部署策略208的性能分數(shù)),則新策略212的部署例如 由于失去用戶交互、轉(zhuǎn)換和上述其他性能測量而昂貴。
[0049] 為了執(zhí)行運種確定,策略管理器模塊122訪問部署數(shù)據(jù)210,其描述圖1的內(nèi)容提 供器102使用部署測量208。運種訪問用于基于新策略212具有比部署策略208更好的性 能的置信度來預測是否部署新策略212。W運種方式,運種預測在不具有新策略212的實際 部署的情況下進行。
[0050] 在所示實例中,強化學習模塊124包括置信評估模塊214,其表示生成統(tǒng)計保證 216的功能,其實例在W下被描述為算法1和"安全"。通過使用集中不等式,統(tǒng)計保證216 被用于基于被圖1的集中不等式126約束的部署數(shù)據(jù)210使用針對新策略212計算的置信 值量化新策略212的部署的風險。運提高了相對于傳統(tǒng)技術的精度。因此,不同于傳統(tǒng)技 術,統(tǒng)計保證216指示由強化學習模塊124學習的置信值表示的估計是正確的置信量。例 如,給出部署策略208、來自部署策略208的部署的部署數(shù)據(jù)210化及性能等級"fmm",通過 限定估計精度的統(tǒng)計保證216來表示新策略212性能處于至少"fmm"的等級的置信度。
[0051] 如圖3A所示,考慮示圖300。水平軸是"fmm",其是策略的性能。垂直軸是置信度, 并且部署策略208在示圖300中具有性能302。使用從部署策略208的部署收集的部署數(shù) 據(jù)210來評估新策略212,其導致示圖300中繪制的置信值304。置信值304表示性能至少 為水平軸上指定的值的置信度,并由此為該性能的統(tǒng)計保證。在所示實例中,性能為至少 0.08的置信度幾乎為1。性能為至少0.086的置信度接近0。應該注意,運不意味著新策略 212的實際性能不是運么好,而是意味著還不能利用任何實際置信度來保證性能。
[0052] 該實例中的統(tǒng)計保證的置信值304支持強論證來部署新策略212,因為該值表示 新策略212將比部署策略208執(zhí)行得更好的高置信度。在該實例中表示實際部署的新策略 212的性能306也在示圖300中示出??蒞在W下算法1的討論中找到并且在對應附圖中 示出該實例的進一步討論。
[0053] 在第二實例204中,還示出了描述部署策略208的部署的部署數(shù)據(jù)210。在該實例 中,策略改進模塊218用于處理多個策略220 W進行策略選擇222,其具有性能大于部署策 略208的相關統(tǒng)計保證。如前所述,傳統(tǒng)方法不包括生成統(tǒng)計保證的技術,其中一個策略將 相對于另一個顯示出改進。如此,難W使用運些傳統(tǒng)方法來證明新策略的部署,尤其是由于 壞策略的部署會是昂貴的(例如,具有低點擊率)。
[0054] 由策略改進模塊218實施W進行運種選擇的功能被稱為"策略改進算法"并且在 W下還稱為"算法2"。在該實例中,策略改進模塊218捜索一組策略220并且如果選擇被 確定為"安全"則進行策略選擇222。如果策略220的性能好于性能等級(例如,"fmi。")并 且在置信等級內(nèi)(例如,"1-δ "),則選擇是安全的。
[00巧]可通過用戶來限定性能等級(例如Z'fmin")和置信等級(例如,"1-δ ")。例如, 用戶選擇"δ =0.5"且"fmm= 1. 1乘W (部署策略的性能)"意味著W95%的置信度保 證性能的10%改進。因此,如果可W根據(jù)安全的定義保證是安全的,則策略改進模塊218將 在該實例中僅建議新策略。策略改進模塊218可各種方式來進行運種確定,諸如采用 在第一實例202 (例如,W下為算法1)中描述的置信評估模塊214。
[0056] 在第Ξ實例206中,示出了用于安全策略部署的自動系統(tǒng)。在先前實例中,描述了 數(shù)據(jù)用于選擇策略的分布,例如作為其采用現(xiàn)有數(shù)據(jù)并提出單個新策略的"批量"。然而,在 該實例中,描述了上述分布的迭代版本,其功能被示為可用于生成新策略226的策略生成 模塊224。例如,迭代可用于調(diào)整策略的參數(shù),利用置信度的限定等級確定具有調(diào)整的策略 是否將比部署策略208顯示出更好的性能,如果是,則部署新策略226作為替換。因此,策 略生成模塊224被配置為進行一系列改變W生成新策略226,諸如連續(xù)多次應用由策略改 進模塊218所表示的功能,添加記錄本來跟蹤對策略參數(shù)進行的改變。
[0057] 在第二實例204中,針對部署策略208在一時間段(例如,一月)內(nèi)收集部署數(shù)據(jù) 210 W進行新策略220的策略選擇222。在第Ξ實例206中,收集部署數(shù)據(jù)210直到找到新 策略226為止,然后策略管理模塊122使得立即切換到執(zhí)行新策略226,例如來替代部署策 略208??蒞針對多個"新"策略重復該處理W替換部署策略。W運種方式,可W通過容易地 實施新策略26來實現(xiàn)改進的性能,可W在W下實例中的"算法3"和"代達羅斯值aedalus)" 的描述中找到進一步的描述。
[0058] 連施示例
[0059] 用"S"和"A"表示可能狀態(tài)和動作的集合,其中狀態(tài)描述對內(nèi)容(例如,用戶或用 戶訪問的特性)的訪問,W及動作源于使用策略120進行的判定。盡管W下使用馬爾克夫判 定處理(MDP),但通過用觀察結果代替狀態(tài),結果可W直接利用反應策略對P0MDP執(zhí)行。假 設獎勵被約束"rte[rmm,rmJ",并且":fc控M"被用于索引時間,從"t=Γ開始,其中相對 于狀態(tài)具有一些固定分布。表達"(s,a,Θ )"被用于表示當使用策略參數(shù)"gf E ITW''時 狀態(tài)"S"下的動作"a"的可能性(密度或質(zhì)量),其中"ne "是整數(shù),策略參數(shù)空間的維度。
[0060] 假設Μ''是將策略120的策略參數(shù)看作"31 (.,.,Θ )"的期望返回值, 良Ρ,對于任何"Θ "來說,
[0061]
[0062] 其中,"丫 "是指定隨時間的獎勵的折扣的[0, 1]間隔中的參數(shù)。問題可W包括有 限范圍,其中每個軌跡在"Τ"時間步內(nèi)到達終端狀態(tài)。因此,每個軌跡"τ "是狀態(tài)(或觀 察結果)、動作和獎勵的排序集合:"τ={Sl,al,rl,S2,a2,r2,…,Sτ,aτ,rτ}"。為了簡化 分析,不損失普遍性,可W進行返回值"總是在間隔[0,1]中的要求。運可W 通過縮放和轉(zhuǎn)換獎勵來實現(xiàn)。
[0063] 獲取數(shù)據(jù)集合"D",其包括"η"個軌跡,用策略參數(shù)來標記,如下生成它們:
[0064] D = {( Τ i,白 i) :i e (1,. . .,η},τ i 邑enerated using 白 J,
[0065] 其中,"θ/'表示第i個參數(shù)矢量,"θ "不是"θ "的第i個元素。最后,獲取 焉娩E毅。和置信等級"δ e [0,1]"。
[0066] 當利用置信度"1- δ "確定"f ( Θ ) > fmm"時,如果僅提出了新策略參數(shù)"Θ ",則 認為算法是安全的。如果利用置信度"1- δ "確定"f ( Θ ) > fmm"測量參數(shù)"Θ "(與算法 相對)被認為是安全的。注意,說明策略是安全的是關于給出一些數(shù)據(jù)的策略的信任的申 明而不是關于策略本身的申明。此外,注意,確保"Θ "是安全的等效于確保利用顯著等級 "δ "拒絕
當前第2頁1 2 3 4 5 6 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1