搜索安全測(cè)量來部署的制作方法_4

文檔序號(hào)：9866063閱讀：來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>搜索安全測(cè)量來部署的制作方法

其喜歡具有較大期望返回值的"Θ "但也具有返回值的較小變化。為了簡(jiǎn)化，W下用于"g"的權(quán)重重要采樣：
[0104]
[0105] 根據(jù)等式（1)選擇"Θ 是約束優(yōu)化問題的形式，因?yàn)橛糜诘牟蓸臃治?表示不可用。此外，會(huì)員oracle可用，利用其使用算法1來確定"Θ"是否為。當(dāng)"ne"較小時(shí)，使用柵格捜索或?qū)τ诿總€(gè)可能"Θ "的隨機(jī)捜索，該約束優(yōu)化問題被暴力破解。然而，隨著"ηe"的增長(zhǎng)，該技術(shù)變得棘手。
[0106] 為了克服該問題，自然策略梯度算法用于將捜索減少到多個(gè)約束線捜索。直觀地，代替捜索每一個(gè)W臟*，從期望與策略空間的安全區(qū)域相交的每個(gè)行為策略"Θ "中選擇單個(gè)方向蒙/X鎊;I，并且執(zhí)行運(yùn)些方向上的捜索。從每個(gè)行為策略中選擇的方向是廣義的自然策略梯度。盡管不保證廣義自然策略梯度指向安全區(qū)域，但其是合理的方向選擇，因?yàn)樵?方向上的點(diǎn)使得期望返回值更快速地增加。盡管可W使用用于計(jì)算廣義自然策略梯度的任何算法，但在該實(shí)例中使用具有LSTD的偏置自然評(píng)估決策。通過強(qiáng)力解決約束線捜索問題。
[0107] 在算法2中提供了用于該算法的偽碼，在圖7中示出了其實(shí)例700,其中如果"A" 為真則指示函數(shù)"Ια"為1，否則為0。 ?！?《策略放講
[0109] 策略改進(jìn)技術(shù)使用上面討論中的批量方法，其被應(yīng)用與現(xiàn)有數(shù)據(jù)集合"D"。然而，可W通過提取新安全策略參數(shù)來W遞增方式使用技術(shù)。用戶可W在每次迭代時(shí)選擇改變 "fmi。"，例如反映至今找到的最好策略或最近提出的策略的性能的估計(jì)。然而，在本文描述的偽碼中，假設(shè)用戶不改變"fmm "。
[0110] 假設(shè)"Θ。"表示用戶的初始策略參數(shù)。如果"fmm= f(0。)"，則可W說明具有提出的每個(gè)策略將至少與用戶持續(xù)使用初始策略一樣好的高置信度。如果"fmi。"是"f( Θ。）" 的評(píng)估值，則可W說明具有提出的每個(gè)策略將至少與用戶策略的觀察性能一樣好的高置信度。用戶還可W選擇"fmm"低于"f ( Θ。)"，運(yùn)對(duì)算法給出更大的自由度來探索同時(shí)保證性能不劣化到低于指定等級(jí)。
[0111] 算法保持策略參數(shù)的列表"C"，其被確認(rèn)為安全。如參照?qǐng)D2所描述的，當(dāng)生成新軌跡時(shí)，算法使用"C"中的策略參數(shù)，其被期望執(zhí)行得最好W生成新策略226。在算法 3中表示用于該在線安全學(xué)習(xí)算法的偽碼，在圖8中示出其實(shí)例800,其也在圖中表示為 Daedalus。關(guān)于W下程序描述運(yùn)些和其他實(shí)例的進(jìn)一步討論。 ?！璢示例忡括序
[0113] W下討論描述了使用先前描述的系統(tǒng)和設(shè)備實(shí)施的技術(shù)。每個(gè)程序的方面都可W W硬件、固件或軟件或它們的組合來實(shí)施。程序被示為框的集合，它們執(zhí)行由一個(gè)或多個(gè)設(shè) 備執(zhí)行的操作并且不是必須限于用于由各個(gè)框執(zhí)行操作所示的順序。在w下討論的部分中，將參照?qǐng)D1至圖8。
[0114] 圖9示出了描述用于策略改進(jìn)的風(fēng)險(xiǎn)量化的技術(shù)的示例性實(shí)施方式。接收策略，其被配置用于被內(nèi)容提供器部署W選擇廣告（框902)。在一種情況下，技術(shù)員通過與內(nèi)容管理器模塊116的交互（諸如通過針對(duì)策略的特性參數(shù)的用戶接口）創(chuàng)建策略。在另一種情況下，自動(dòng)地創(chuàng)建策略而不使用用戶干設(shè)，諸如通過內(nèi)容管理器模塊116自動(dòng)調(diào)整參數(shù) 來創(chuàng)建新策略，其具有顯示出性能測(cè)量的改進(jìn)的潛力，諸如交互（例如Λ點(diǎn)擊"）的數(shù)量、轉(zhuǎn) 換率等等。
[0115] 與內(nèi)容提供器的部署策略相反，至少部分地基于接收策略的部署所可能設(shè)及的風(fēng) 險(xiǎn)的量化來控制內(nèi)容提供器接收部署（框904)。如前所述，內(nèi)容提供器102使用策略不是靜止的，其中策略被頻繁改變，新策略更好利用關(guān)于接收通過使用策略選擇的廣告的用戶的已知信息。在該實(shí)例中，通過使用統(tǒng)計(jì)保證來控制部署，其中新策略將增加性能的測(cè)量 (例如，交互或轉(zhuǎn)換的壽命值）并且降低新策略將引起性能和對(duì)應(yīng)收益的降低的風(fēng)險(xiǎn)。
[0116] 控制基于通過內(nèi)容提供器對(duì)描述部署策略的部署的部署數(shù)據(jù)應(yīng)用強(qiáng)化學(xué)習(xí)和集中不等式W估計(jì)所接收策略的性能測(cè)量的值并且通過計(jì)算估計(jì)值的一個(gè)或多個(gè)統(tǒng)計(jì)保證來量化風(fēng)險(xiǎn)（框906)。控制還包括響應(yīng)于確定一個(gè)或多個(gè)統(tǒng)計(jì)保證表示至少性能測(cè)量的估計(jì)值至少對(duì)應(yīng)于至少部分地基于內(nèi)容提供器的部署策略的性能測(cè)量的闊值的置信等級(jí)，使得接收策略進(jìn)行部署（框908)。換句話說，當(dāng)基于統(tǒng)計(jì)保證將策略確定為安全時(shí)，W上述方式部署策略。
[0117] 例如，內(nèi)容管理器模塊116管理用于部署策略的部署數(shù)據(jù)，然后使用該數(shù)據(jù)作為用于評(píng)估接收策略的部署的風(fēng)險(xiǎn)的基礎(chǔ)，因此在沒有實(shí)際部署新策略的情況下進(jìn)行。在另一實(shí)例中，如果接收策略已經(jīng)被部署，則策略管理模塊利用來自先前策略的數(shù)據(jù)和從部署新策略累計(jì)的數(shù)據(jù)。
[0118] 不同于僅估計(jì)策略的性能而不具有關(guān)于估計(jì)精度的任何保證的現(xiàn)有技術(shù)，策略管理模塊122通過使用強(qiáng)化學(xué)習(xí)和集中不等式提供了性能的估計(jì)W及估計(jì)不是過估計(jì)的統(tǒng) 計(jì)保證。目Ρ，策略管理模塊122通過統(tǒng)計(jì)保證提供策略將執(zhí)行得與估計(jì)一樣好的概率并由此用于量化策略部署中的風(fēng)險(xiǎn)。
[0119] 如關(guān)于定理1和算法1所描述的，策略管理模塊122應(yīng)用的定理1使用描述任何數(shù)量的先前或當(dāng)前部署的策略的部署的數(shù)據(jù)和闊值等級(jí)fmi。，并產(chǎn)生所接收的策略的真實(shí) 性能至少為fmm，即性能測(cè)量的闊值等級(jí)的概率。
[0120] 對(duì)于算法1，用戶可W指定置信等級(jí)（例如，如上所述的1- δ)和性能測(cè)量的闊值 fmi。。如果可W至少利用設(shè)置的置信等級(jí)（例如，1- δ)進(jìn)行其真實(shí)性能至少為fmi。的保證，策略被確認(rèn)為安全的。因此，算法1可W使用定理1來確定策略是否是安全的，作為策略管理模塊122的處理的部分，通過使用強(qiáng)化學(xué)習(xí)和集中不等式，其中將接收策略（例如，寫為上述Θ )、部署數(shù)據(jù)D W及性能測(cè)量的闊值fmi。和置信等級(jí)（例如，1- S )作為輸入并返回真或假來表示策略是否安全。
[0121] 因此，在該實(shí)例中，首先使用強(qiáng)化學(xué)習(xí)模塊124和集成不等式126由策略管理模塊 122處理接收策略W量化與其部署相關(guān)聯(lián)的風(fēng)險(xiǎn)。風(fēng)險(xiǎn)的量化及其用于控制策略的部署提供了顯著的優(yōu)點(diǎn)，其中危險(xiǎn)或風(fēng)險(xiǎn)策略可W在部署之前被標(biāo)記。注意，運(yùn)不僅幫助避免壞 (即，表現(xiàn)不佳）策略的部署，運(yùn)提供了生成新策略和選擇技術(shù)的自由度，而不害怕壞策略的部署，W下描述并在對(duì)應(yīng)附圖中示出進(jìn)一步討論。
[0122] 圖10示出了描述設(shè)及策略捜索的一個(gè)或多個(gè)部署策略的替換控制的示例性實(shí)施方式中的程序1000?？刂评枚鄠€(gè)策略中的至少一個(gè)策略替換用于選擇廣告的內(nèi)容提供器的一個(gè)或多個(gè)部署策略（框1002)。如上所述，強(qiáng)化學(xué)習(xí)和集中不等式可用于確定部署新策略是否是安全的。在該實(shí)例中，運(yùn)些技術(shù)被應(yīng)用于從策略中進(jìn)行選擇W確定哪些策略（如果有的話）將被部署。
[0123] 控制包括捜索多個(gè)策略W定位被確認(rèn)安全替換一個(gè)或多個(gè)部署策略的至少一個(gè) 策略，如果至少一個(gè)策略的性能測(cè)量大于性能的闊值測(cè)量并且在如通過使用強(qiáng)化學(xué)習(xí)和集中不等式對(duì)一個(gè)或多個(gè)部署策略生成的部署數(shù)據(jù)計(jì)算的一個(gè)或多個(gè)統(tǒng)計(jì)保證所表示的置信度的限定等級(jí)內(nèi)，則至少一個(gè)策略被確認(rèn)為安全（框1004)。例如，策略管理模塊122使用描述任何數(shù)量的先前或當(dāng)前部署的策略的部署的數(shù)據(jù)W及闊值性能等級(jí)fmi。，并產(chǎn)生所接收策略的真實(shí)性能至少為fmm，即性能測(cè)量的闊值等級(jí)的概率。在該實(shí)例中，該技術(shù)被應(yīng) 用于多個(gè)策略W確定哪些策略滿足該要求，如果是運(yùn)樣的話，確定哪些策略可能顯示出最好的性能，例如由交互或轉(zhuǎn)換的數(shù)量所限定的壽命值。
[0124] 響應(yīng)于被確認(rèn)安全替換一個(gè)或多個(gè)其他策略的至少一個(gè)所述策略的定位，使得用至少一個(gè)所述策略替換一個(gè)或多個(gè)其他策略（框1006)。例如，策略服務(wù)104可W向內(nèi)容提供器102傳輸指示來從部署策略切換至所選策略。在另一實(shí)例中，作為內(nèi)容提供器102本身的一部分來實(shí)施該功能。還可W采用技術(shù)來改進(jìn)運(yùn)種選擇的計(jì)算的效率，在W下描述并在對(duì)應(yīng)附圖中示出其實(shí)例。
[01巧]圖11示出了通過利用策略空間執(zhí)行策略的選擇來替換部署策略W提高效率的示例性實(shí)施方式的程序1100。選擇多個(gè)策略中的至少一個(gè)策略來替換用于選擇與內(nèi)容一起包括的廣告的內(nèi)容提供器的一個(gè)或多個(gè)部署策略（框1102)。在該實(shí)例中，通過利用描述策略的策略空間來執(zhí)行選擇。
[0126] 例如，選擇包括訪問表示多個(gè)策略中的對(duì)應(yīng)策略的多個(gè)高維矢量（框1104)。例如，多個(gè)高維矢量描述被策略基于請(qǐng)求的特性進(jìn)行廣告選擇W訪問包括廣告的內(nèi)容中所使用的參數(shù)。
[0127] 在多個(gè)策略的策略空間中計(jì)算期望指向期望安全的區(qū)域的方向，其中所述區(qū)域包括具有大于性能的闊值測(cè)量且在置信度的限定等級(jí)內(nèi)的性能測(cè)量的策略（框1106)。選擇多個(gè)策略中的至少一個(gè)策略，其具有對(duì)應(yīng)于該方向的高維矢量并顯示出性能測(cè)量的最高等級(jí)（框1108)。被期望為指向安全區(qū)域的方向是廣義的自然策略梯度（GeNGA)，其是使得性能W相對(duì)于策略空間中的其他區(qū)域W最快方式增加的策略空間中的方向的估計(jì)值。執(zhí)行被該方向約束的捜索，使得對(duì)于與方向相對(duì)應(yīng)的高維矢量來執(zhí)行線捜索。運(yùn)些線捜索是低維度的，并且可W被強(qiáng)力破解，由此提高運(yùn)些策略的定位中的效率。
[0128] 根據(jù)對(duì)應(yīng)于方向的策略，如圖9所述，基于性能測(cè)量和置信等級(jí)從運(yùn)些策略中定位策略。策略管理模塊122使用強(qiáng)化學(xué)習(xí)和集中不等式來基于性能的闊值測(cè)量和由統(tǒng)計(jì)保證表示的置信度的限定等級(jí)確定哪些策略對(duì)于部署來說是最安全的。W運(yùn)種方式，策略管理模塊122自動(dòng)捜索新策略來通過使用安全區(qū)域進(jìn)行部署，因此降低了數(shù)據(jù)處理量，并且安全區(qū)域中的策略可顯示出比當(dāng)前部署的策略顯著更好的性能等級(jí)。運(yùn)些技術(shù)還可W用于自動(dòng)地生成新策略而不需要用戶交互，在w下描述并在對(duì)應(yīng)附圖中示出其實(shí)例。
[0129] 圖12示出了迭代地生成新策略并用于替換部署策略的示例性實(shí)施方式的程序 1200?？刂评枚鄠€(gè)策略中的至少一個(gè)策略替換用于選擇廣告的內(nèi)容提供器的一個(gè)或多個(gè) 部署策略（框1202)。在該實(shí)例中，替換包括使用迭代技術(shù)生成用于替換部署策略的新策略。作為該處理的一部分包括統(tǒng)計(jì)保證技術(shù)來確保運(yùn)種部署的安全性。
[0130] 迭代地收集描述一個(gè)或多個(gè)部署策略的部署的部署數(shù)據(jù)（框1204)。如前所述，部署數(shù)據(jù)210描述部署策略208的部署，其可W包括或不包括描述新策略的部署的數(shù)據(jù)。
[0131] 迭代地調(diào)整一個(gè)或多個(gè)參數(shù)來生成可用于選擇廣告的新策略（框1206)。例如，參

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第4頁1 2 3 4 5 6

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

搜索安全測(cè)量來部署的制作方法_4