亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

搜索安全測(cè)量來部署的制作方法_4

文檔序號(hào):9866063閱讀:來源:國(guó)知局
其喜歡具有較大期望返回值的"Θ "但也具有返回值的較小變化。為了簡(jiǎn)化,W下用 于"g"的權(quán)重重要采樣:
[0104]
[0105] 根據(jù)等式(1)選擇"Θ 是約束優(yōu)化問題的形式,因?yàn)橛糜诘牟蓸臃治?表示不可用。此外,會(huì)員oracle可用,利用其使用算法1來確定"Θ"是否為。 當(dāng)"ne"較小時(shí),使用柵格捜索或?qū)τ诿總€(gè)可能"Θ "的隨機(jī)捜索,該約束優(yōu)化問題被暴力破 解。然而,隨著"ηe"的增長(zhǎng),該技術(shù)變得棘手。
[0106] 為了克服該問題,自然策略梯度算法用于將捜索減少到多個(gè)約束線捜索。直觀地, 代替捜索每一個(gè)W臟*,從期望與策略空間的安全區(qū)域相交的每個(gè)行為策略"Θ "中選擇 單個(gè)方向蒙/X鎊;I,并且執(zhí)行運(yùn)些方向上的捜索。從每個(gè)行為策略中選擇的方向是廣義的自 然策略梯度。盡管不保證廣義自然策略梯度指向安全區(qū)域,但其是合理的方向選擇,因?yàn)樵?方向上的點(diǎn)使得期望返回值更快速地增加。盡管可W使用用于計(jì)算廣義自然策略梯度的任 何算法,但在該實(shí)例中使用具有LSTD的偏置自然評(píng)估決策。通過強(qiáng)力解決約束線捜索問 題。
[0107] 在算法2中提供了用于該算法的偽碼,在圖7中示出了其實(shí)例700,其中如果"A" 為真則指示函數(shù)"Ια"為1,否則為0。 ?!?《策略放講
[0109] 策略改進(jìn)技術(shù)使用上面討論中的批量方法,其被應(yīng)用與現(xiàn)有數(shù)據(jù)集合"D"。然而, 可W通過提取新安全策略參數(shù)來W遞增方式使用技術(shù)。用戶可W在每次迭代時(shí)選擇改變 "fmi。",例如反映至今找到的最好策略或最近提出的策略的性能的估計(jì)。然而,在本文描述 的偽碼中,假設(shè)用戶不改變"fmm "。
[0110] 假設(shè)"Θ。"表示用戶的初始策略參數(shù)。如果"fmm= f(0。)",則可W說明具有提 出的每個(gè)策略將至少與用戶持續(xù)使用初始策略一樣好的高置信度。如果"fmi。"是"f( Θ。)" 的評(píng)估值,則可W說明具有提出的每個(gè)策略將至少與用戶策略的觀察性能一樣好的高置信 度。用戶還可W選擇"fmm"低于"f ( Θ。)",運(yùn)對(duì)算法給出更大的自由度來探索同時(shí)保證性 能不劣化到低于指定等級(jí)。
[0111] 算法保持策略參數(shù)的列表"C",其被確認(rèn)為安全。如參照?qǐng)D2所描述的,當(dāng)生成 新軌跡時(shí),算法使用"C"中的策略參數(shù),其被期望執(zhí)行得最好W生成新策略226。在算法 3中表示用于該在線安全學(xué)習(xí)算法的偽碼,在圖8中示出其實(shí)例800,其也在圖中表示為 Daedalus。關(guān)于W下程序描述運(yùn)些和其他實(shí)例的進(jìn)一步討論。 ?!璢示例忡括序
[0113] W下討論描述了使用先前描述的系統(tǒng)和設(shè)備實(shí)施的技術(shù)。每個(gè)程序的方面都可W W硬件、固件或軟件或它們的組合來實(shí)施。程序被示為框的集合,它們執(zhí)行由一個(gè)或多個(gè)設(shè) 備執(zhí)行的操作并且不是必須限于用于由各個(gè)框執(zhí)行操作所示的順序。在w下討論的部分 中,將參照?qǐng)D1至圖8。
[0114] 圖9示出了描述用于策略改進(jìn)的風(fēng)險(xiǎn)量化的技術(shù)的示例性實(shí)施方式。接收策略, 其被配置用于被內(nèi)容提供器部署W選擇廣告(框902)。在一種情況下,技術(shù)員通過與內(nèi)容 管理器模塊116的交互(諸如通過針對(duì)策略的特性參數(shù)的用戶接口)創(chuàng)建策略。在另一種 情況下,自動(dòng)地創(chuàng)建策略而不使用用戶干設(shè),諸如通過內(nèi)容管理器模塊116自動(dòng)調(diào)整參數(shù) 來創(chuàng)建新策略,其具有顯示出性能測(cè)量的改進(jìn)的潛力,諸如交互(例如Λ點(diǎn)擊")的數(shù)量、轉(zhuǎn) 換率等等。
[0115] 與內(nèi)容提供器的部署策略相反,至少部分地基于接收策略的部署所可能設(shè)及的風(fēng) 險(xiǎn)的量化來控制內(nèi)容提供器接收部署(框904)。如前所述,內(nèi)容提供器102使用策略不是 靜止的,其中策略被頻繁改變,新策略更好利用關(guān)于接收通過使用策略選擇的廣告的用戶 的已知信息。在該實(shí)例中,通過使用統(tǒng)計(jì)保證來控制部署,其中新策略將增加性能的測(cè)量 (例如,交互或轉(zhuǎn)換的壽命值)并且降低新策略將引起性能和對(duì)應(yīng)收益的降低的風(fēng)險(xiǎn)。
[0116] 控制基于通過內(nèi)容提供器對(duì)描述部署策略的部署的部署數(shù)據(jù)應(yīng)用強(qiáng)化學(xué)習(xí)和集 中不等式W估計(jì)所接收策略的性能測(cè)量的值并且通過計(jì)算估計(jì)值的一個(gè)或多個(gè)統(tǒng)計(jì)保證 來量化風(fēng)險(xiǎn)(框906)。控制還包括響應(yīng)于確定一個(gè)或多個(gè)統(tǒng)計(jì)保證表示至少性能測(cè)量的估 計(jì)值至少對(duì)應(yīng)于至少部分地基于內(nèi)容提供器的部署策略的性能測(cè)量的闊值的置信等級(jí),使 得接收策略進(jìn)行部署(框908)。換句話說,當(dāng)基于統(tǒng)計(jì)保證將策略確定為安全時(shí),W上述方 式部署策略。
[0117] 例如,內(nèi)容管理器模塊116管理用于部署策略的部署數(shù)據(jù),然后使用該數(shù)據(jù)作為 用于評(píng)估接收策略的部署的風(fēng)險(xiǎn)的基礎(chǔ),因此在沒有實(shí)際部署新策略的情況下進(jìn)行。在另 一實(shí)例中,如果接收策略已經(jīng)被部署,則策略管理模塊利用來自先前策略的數(shù)據(jù)和從部署 新策略累計(jì)的數(shù)據(jù)。
[0118] 不同于僅估計(jì)策略的性能而不具有關(guān)于估計(jì)精度的任何保證的現(xiàn)有技術(shù),策略管 理模塊122通過使用強(qiáng)化學(xué)習(xí)和集中不等式提供了性能的估計(jì)W及估計(jì)不是過估計(jì)的統(tǒng) 計(jì)保證。目Ρ,策略管理模塊122通過統(tǒng)計(jì)保證提供策略將執(zhí)行得與估計(jì)一樣好的概率并由 此用于量化策略部署中的風(fēng)險(xiǎn)。
[0119] 如關(guān)于定理1和算法1所描述的,策略管理模塊122應(yīng)用的定理1使用描述任何 數(shù)量的先前或當(dāng)前部署的策略的部署的數(shù)據(jù)和闊值等級(jí)fmi。,并產(chǎn)生所接收的策略的真實(shí) 性能至少為fmm,即性能測(cè)量的闊值等級(jí)的概率。
[0120] 對(duì)于算法1,用戶可W指定置信等級(jí)(例如,如上所述的1- δ)和性能測(cè)量的闊值 fmi。。如果可W至少利用設(shè)置的置信等級(jí)(例如,1- δ)進(jìn)行其真實(shí)性能至少為fmi。的保證, 策略被確認(rèn)為安全的。因此,算法1可W使用定理1來確定策略是否是安全的,作為策略管 理模塊122的處理的部分,通過使用強(qiáng)化學(xué)習(xí)和集中不等式,其中將接收策略(例如,寫為 上述Θ )、部署數(shù)據(jù)D W及性能測(cè)量的闊值fmi。和置信等級(jí)(例如,1- S )作為輸入并返回 真或假來表示策略是否安全。
[0121] 因此,在該實(shí)例中,首先使用強(qiáng)化學(xué)習(xí)模塊124和集成不等式126由策略管理模塊 122處理接收策略W量化與其部署相關(guān)聯(lián)的風(fēng)險(xiǎn)。風(fēng)險(xiǎn)的量化及其用于控制策略的部署提 供了顯著的優(yōu)點(diǎn),其中危險(xiǎn)或風(fēng)險(xiǎn)策略可W在部署之前被標(biāo)記。注意,運(yùn)不僅幫助避免壞 (即,表現(xiàn)不佳)策略的部署,運(yùn)提供了生成新策略和選擇技術(shù)的自由度,而不害怕壞策略 的部署,W下描述并在對(duì)應(yīng)附圖中示出進(jìn)一步討論。
[0122] 圖10示出了描述設(shè)及策略捜索的一個(gè)或多個(gè)部署策略的替換控制的示例性實(shí)施 方式中的程序1000??刂评枚鄠€(gè)策略中的至少一個(gè)策略替換用于選擇廣告的內(nèi)容提供器 的一個(gè)或多個(gè)部署策略(框1002)。如上所述,強(qiáng)化學(xué)習(xí)和集中不等式可用于確定部署新策 略是否是安全的。在該實(shí)例中,運(yùn)些技術(shù)被應(yīng)用于從策略中進(jìn)行選擇W確定哪些策略(如 果有的話)將被部署。
[0123] 控制包括捜索多個(gè)策略W定位被確認(rèn)安全替換一個(gè)或多個(gè)部署策略的至少一個(gè) 策略,如果至少一個(gè)策略的性能測(cè)量大于性能的闊值測(cè)量并且在如通過使用強(qiáng)化學(xué)習(xí)和集 中不等式對(duì)一個(gè)或多個(gè)部署策略生成的部署數(shù)據(jù)計(jì)算的一個(gè)或多個(gè)統(tǒng)計(jì)保證所表示的置 信度的限定等級(jí)內(nèi),則至少一個(gè)策略被確認(rèn)為安全(框1004)。例如,策略管理模塊122使 用描述任何數(shù)量的先前或當(dāng)前部署的策略的部署的數(shù)據(jù)W及闊值性能等級(jí)fmi。,并產(chǎn)生所 接收策略的真實(shí)性能至少為fmm,即性能測(cè)量的闊值等級(jí)的概率。在該實(shí)例中,該技術(shù)被應(yīng) 用于多個(gè)策略W確定哪些策略滿足該要求,如果是運(yùn)樣的話,確定哪些策略可能顯示出最 好的性能,例如由交互或轉(zhuǎn)換的數(shù)量所限定的壽命值。
[0124] 響應(yīng)于被確認(rèn)安全替換一個(gè)或多個(gè)其他策略的至少一個(gè)所述策略的定位,使得用 至少一個(gè)所述策略替換一個(gè)或多個(gè)其他策略(框1006)。例如,策略服務(wù)104可W向內(nèi)容提 供器102傳輸指示來從部署策略切換至所選策略。在另一實(shí)例中,作為內(nèi)容提供器102本 身的一部分來實(shí)施該功能。還可W采用技術(shù)來改進(jìn)運(yùn)種選擇的計(jì)算的效率,在W下描述并 在對(duì)應(yīng)附圖中示出其實(shí)例。
[01巧]圖11示出了通過利用策略空間執(zhí)行策略的選擇來替換部署策略W提高效率的示 例性實(shí)施方式的程序1100。選擇多個(gè)策略中的至少一個(gè)策略來替換用于選擇與內(nèi)容一起包 括的廣告的內(nèi)容提供器的一個(gè)或多個(gè)部署策略(框1102)。在該實(shí)例中,通過利用描述策略 的策略空間來執(zhí)行選擇。
[0126] 例如,選擇包括訪問表示多個(gè)策略中的對(duì)應(yīng)策略的多個(gè)高維矢量(框1104)。例 如,多個(gè)高維矢量描述被策略基于請(qǐng)求的特性進(jìn)行廣告選擇W訪問包括廣告的內(nèi)容中所使 用的參數(shù)。
[0127] 在多個(gè)策略的策略空間中計(jì)算期望指向期望安全的區(qū)域的方向,其中所述區(qū)域包 括具有大于性能的闊值測(cè)量且在置信度的限定等級(jí)內(nèi)的性能測(cè)量的策略(框1106)。選擇 多個(gè)策略中的至少一個(gè)策略,其具有對(duì)應(yīng)于該方向的高維矢量并顯示出性能測(cè)量的最高等 級(jí)(框1108)。被期望為指向安全區(qū)域的方向是廣義的自然策略梯度(GeNGA),其是使得性 能W相對(duì)于策略空間中的其他區(qū)域W最快方式增加的策略空間中的方向的估計(jì)值。執(zhí)行被 該方向約束的捜索,使得對(duì)于與方向相對(duì)應(yīng)的高維矢量來執(zhí)行線捜索。運(yùn)些線捜索是低維 度的,并且可W被強(qiáng)力破解,由此提高運(yùn)些策略的定位中的效率。
[0128] 根據(jù)對(duì)應(yīng)于方向的策略,如圖9所述,基于性能測(cè)量和置信等級(jí)從運(yùn)些策略中定 位策略。策略管理模塊122使用強(qiáng)化學(xué)習(xí)和集中不等式來基于性能的闊值測(cè)量和由統(tǒng)計(jì)保 證表示的置信度的限定等級(jí)確定哪些策略對(duì)于部署來說是最安全的。W運(yùn)種方式,策略管 理模塊122自動(dòng)捜索新策略來通過使用安全區(qū)域進(jìn)行部署,因此降低了數(shù)據(jù)處理量,并且 安全區(qū)域中的策略可顯示出比當(dāng)前部署的策略顯著更好的性能等級(jí)。運(yùn)些技術(shù)還可W用于 自動(dòng)地生成新策略而不需要用戶交互,在w下描述并在對(duì)應(yīng)附圖中示出其實(shí)例。
[0129] 圖12示出了迭代地生成新策略并用于替換部署策略的示例性實(shí)施方式的程序 1200??刂评枚鄠€(gè)策略中的至少一個(gè)策略替換用于選擇廣告的內(nèi)容提供器的一個(gè)或多個(gè) 部署策略(框1202)。在該實(shí)例中,替換包括使用迭代技術(shù)生成用于替換部署策略的新策 略。作為該處理的一部分包括統(tǒng)計(jì)保證技術(shù)來確保運(yùn)種部署的安全性。
[0130] 迭代地收集描述一個(gè)或多個(gè)部署策略的部署的部署數(shù)據(jù)(框1204)。如前所述,部 署數(shù)據(jù)210描述部署策略208的部署,其可W包括或不包括描述新策略的部署的數(shù)據(jù)。
[0131] 迭代地調(diào)整一個(gè)或多個(gè)參數(shù)來生成可用于選擇廣告的新策略(框1206)。例如,參
當(dāng)前第4頁1 2 3 4 5 6 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1