搜索安全測量來部署的制作方法

文檔序號：9866063閱讀：403來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

搜索安全測量來部署的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的各實(shí)施方式總體上設(shè)及計(jì)算機(jī)領(lǐng)域，具體地設(shè)及捜索安全測量來部署。
【背景技術(shù)】
[0002] 用戶經(jīng)由因特網(wǎng)接觸越來越多的各種內(nèi)容（諸如網(wǎng)頁）。一種用于使內(nèi)容提供器提供運(yùn)些內(nèi)容貨幣化的技術(shù)是通過加入廣告。例如，用戶可W訪問包括各種廣告的網(wǎng)頁并且可W選擇（例如，"點(diǎn)擊"）感興趣的廣告來得到關(guān)于該廣告中提到的商品或服務(wù)的附加信息。因此，商品或服務(wù)的提供器可W向內(nèi)容提供器提供報(bào)酬用于包括廣告W及用于潛在消費(fèi)者選擇廣告。
[0003] 可W使用策略W選擇哪些廣告被呈現(xiàn)給特定用戶或用戶組。例如，可W收集描述用戶、用戶與內(nèi)容的交互等的數(shù)據(jù)。然后，該數(shù)據(jù)可被策略用于確定哪些廣告被呈獻(xiàn)給用戶，諸如增加用戶將選擇所包括廣告中的一個(gè)或多個(gè)的可能性。然而，用于選擇策略部署的傳統(tǒng)技術(shù)不具有用于保證新選擇的策略將比當(dāng)前策略執(zhí)行得更加好的機(jī)制。
[0004] 例如，存在被稱為"策略脫離（off-policy)評價(jià)技術(shù)"的用于估計(jì)策略性能的傳統(tǒng)解決方案。然而，運(yùn)些傳統(tǒng)的策略脫離評價(jià)技術(shù)不能W任何方式約束或描述運(yùn)種評價(jià)的精度。例如，運(yùn)些現(xiàn)有技術(shù)不提供新策略實(shí)際上要差于所部署策略的機(jī)會的知識。從而，運(yùn) 些傳統(tǒng)技術(shù)可能潛在地?fù)p失收益W及源于較差表現(xiàn)策略的低效。

【發(fā)明內(nèi)容】

[0005] 描述了風(fēng)險(xiǎn)量化、策略捜索和自動安全策略部署技術(shù)。在一個(gè)或多個(gè)實(shí)施方式中，運(yùn)些技術(shù)用于確定策略的安全性，諸如表示新策略將相對于當(dāng)前部署的策略顯示出增加的性能（例如，交互或轉(zhuǎn)換）測量的置信等級。為了進(jìn)行運(yùn)種確定，使用強(qiáng)化學(xué)習(xí)和集中不等式，其生成和約束關(guān)于策略的性能測量的置信值，因此提供該性能的統(tǒng)計(jì)保證。運(yùn)些技術(shù)可用于量化策略部署中的風(fēng)險(xiǎn)，基于估計(jì)的性能和運(yùn)種估計(jì)中的置信等級（例如，可W包括使用策略空間來減少被處理數(shù)據(jù)的量）選擇用于部署的策略，用于通過交互（其中，策略的參數(shù)被迭代調(diào)整，并且運(yùn)些調(diào)整的效果被評估等等）創(chuàng)建新策略。
[0006] 該
【發(fā)明內(nèi)容】
部分W簡化形式介紹了概念的選擇，在W下【具體實(shí)施方式】部分進(jìn)行進(jìn) 一步的描述。如此，該
【發(fā)明內(nèi)容】
部分不用于表示所要求主題的主要特征，也不用于幫助確定所要求主題的范圍。
【附圖說明】
[0007] 參照附圖描述【具體實(shí)施方式】。在附圖中，參考標(biāo)號最左邊的數(shù)字表示參考標(biāo)號首先出現(xiàn)的附圖。說明書和附圖中的不同實(shí)例中使用相同的參考標(biāo)號可W表示類似或相同的項(xiàng)目。附圖中表示的實(shí)體可W表示一個(gè)或多個(gè)實(shí)體，由此可W在討論中W單個(gè)或多個(gè)實(shí)體形式來互換地進(jìn)行參考。
[0008] 圖1是可用于使用本文描述的技術(shù)的示例性實(shí)施方式的環(huán)境的示圖。
[0009] 圖2示出了詳細(xì)示出強(qiáng)化學(xué)習(xí)模塊的示例性實(shí)施方式的系統(tǒng)。
[0010] 圖3A示出了策略的性能和置信的示圖。
[0011] 圖3B包括提供概率密度函數(shù)的經(jīng)驗(yàn)估計(jì)的曲線。
[0012] 圖4示出了不同的集中不等式函數(shù)的結(jié)果的圖表。
[0013] 圖5示出了確定策略參數(shù)的安全性的實(shí)例。
[0014] 圖6示出了 W下算法1的偽碼的實(shí)例。
[0015] 圖7示出了 W下算法2的偽碼的實(shí)例。
[0016] 圖8示出了 W下算法3的偽碼的實(shí)例。
[0017] 圖9是示出描述用于策略改進(jìn)的風(fēng)險(xiǎn)量化的技術(shù)的示例性實(shí)施方式中的程序的流程圖。
[0018] 圖10是示出描述包括策略捜索的一個(gè)或多個(gè)部署策略的替換控制的示例性實(shí)施方式中的程序的流程圖。
[0019] 圖11是示出通過利用策略空間執(zhí)行選擇策略W替換部署策略來提高效率的示例性實(shí)施方式中的程序的流程圖。
[0020] 圖12是示出迭代生成新策略并用于替換部署策略的示例性實(shí)施方式中的程序的流程圖。
[0021] 圖13示出了執(zhí)行策略改進(jìn)技術(shù)和算法3的結(jié)果。
[002引圖14表示NAC的性能與手動優(yōu)化超參數(shù)進(jìn)行比較的示例性結(jié)果。
[0023] 圖15示出了算法3的應(yīng)用的結(jié)果。
[0024] 圖16示出了包括可W如所描述的和/或參照圖1至圖15使用的實(shí)施為任何類型的計(jì)算設(shè)備的示例性設(shè)備的各個(gè)部件W實(shí)施本文所描述技術(shù)的實(shí)施例的示例性系統(tǒng)。
【具體實(shí)施方式】
[00巧]避述
[0026] 策略被用于確定哪些廣告被選擇用于包括將被發(fā)送給特定用戶的內(nèi)容。例如，用戶可W經(jīng)由網(wǎng)絡(luò)訪問內(nèi)容提供器W獲取內(nèi)容，諸如通過使用瀏覽器來獲取特定網(wǎng)頁。運(yùn)種訪問被內(nèi)容提供器用于識別與運(yùn)種訪問相關(guān)的特性，諸如用戶的特性（例如，人口統(tǒng)計(jì)資料）W及訪問本身的特性（例如，日期、地理位置等）。運(yùn)些特性被內(nèi)容提供器使用策略進(jìn) 行處理W確定哪些廣告將被選擇用于包括在傳輸回用戶的網(wǎng)頁中。因此，策略可用于基于訪問的不同特性選擇不同的廣告用于包括在內(nèi)容中。
[0027] 然而，用戶部署策略的傳統(tǒng)技術(shù)不具有約束或量化新策略是否比當(dāng)前部署的策略執(zhí)行得更好的精度的機(jī)制。為此，運(yùn)些傳統(tǒng)技術(shù)通常迫使用戶進(jìn)行關(guān)于新策略是否具有更好性能的最佳猜測，例如使得增加廣告的選擇數(shù)量，使得增加用戶購買商品或服務(wù)的轉(zhuǎn)換的數(shù)量等等。
[0028] 因此，描述用于部署策略的風(fēng)險(xiǎn)可被量化的技術(shù)，其用于支持各種功能。例如，描述現(xiàn)有策略的部署的數(shù)據(jù)被訪問和處理W確定新策略是否將相對于現(xiàn)有策略顯示出提高的性能。運(yùn)通過計(jì)算表示新策略的性能將至少滿足限定值（例如，其可W基于部署策略的性能）的置信度的置信值來進(jìn)行，因此用作該性能的統(tǒng)計(jì)保證。
[0029] 為了計(jì)算統(tǒng)計(jì)保證，集中不等式被用作W下強(qiáng)化學(xué)習(xí)的一部分。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種類型，其中軟件代理被執(zhí)行w在使累積獎(jiǎng)的一些概念最大化的環(huán)境中采取動作。在該實(shí)例中，獎(jiǎng)勵(lì)是使測量的性能最大化W選擇廣告，諸如增加廣告的選擇數(shù)量（例如，"點(diǎn)擊"）、廣告的轉(zhuǎn)換（例如，導(dǎo)致"購買"）等。
[0030] 集中不等式被用作強(qiáng)度學(xué)習(xí)的一部分W確保安全性，新策略顯示出至少為部署策略的量的性能。例如，集中不等式被用于解決獨(dú)立隨機(jī)變量的函數(shù)與它們的期望值的偏離。因此，集中不等式提供了對運(yùn)些分配的約束并且確保結(jié)果的精度。例如，如下面進(jìn)一步描述的集中不等式可約束值使得闊值W上存在的值被移動到闊值處，可用于塌陷分布的尾部等等。
[0031] W下，首先在算法1中表示集中不等式，其允許關(guān)于策略是否安全用于部署并由此選擇廣告而不降低性能的有效確定。第二，在算法2中表示安全批量強(qiáng)化學(xué)習(xí)算法，其被配置為利用強(qiáng)化學(xué)習(xí)和集中不等式來選擇用于部署的策略。第Ξ，在算法3中表示安全迭代算法，其被配置為使用強(qiáng)化學(xué)習(xí)和集中不等式通過參數(shù)和分析的迭代調(diào)整生成新策略W 確定何時(shí)運(yùn)些調(diào)整可能增加性能。即使算法3確保安全性，但其與通過使用策略空間如W 下進(jìn)一步描述的最先進(jìn)的重度調(diào)整的非安全算法相比具有合理的采樣效率。
[0032] 首先描述可采用本文描述的技術(shù)的示例性環(huán)境。然后，描述可W在示例性環(huán)境W 及其他環(huán)境中執(zhí)行的示例性程序和實(shí)施實(shí)例。從而，示例性程序的執(zhí)行不限于示例性環(huán)境和實(shí)施實(shí)例，并且示例性環(huán)境不限于示例性程序的執(zhí)行。
[0033] 示例忡環(huán)培
[0034] 圖1是可用于采用本文描述的強(qiáng)化學(xué)習(xí)和集中不等式的示例性實(shí)施方式中的環(huán) 境100的示圖。所示環(huán)境100包括內(nèi)容提供器102、策略服務(wù)104和客戶設(shè)備106,它們經(jīng) 由網(wǎng)絡(luò)108相互通信禪合。實(shí)施運(yùn)些實(shí)體的計(jì)算設(shè)備可各種方式進(jìn)行配置。
[0035] 例如，計(jì)算設(shè)備可配置為桌上型計(jì)算機(jī)、膝上型計(jì)算機(jī)、移動該設(shè)備（例如，假設(shè) 諸如平板或移動電話的手持結(jié)構(gòu)）等。因此，計(jì)算設(shè)備包括從全資源設(shè)備（具有重要的存儲器和處理器資源）（例如，個(gè)人計(jì)算機(jī)、游戲控制臺）到低資源設(shè)備（具有有限的存儲器和/或處理資源）（例如，移動設(shè)備）的范圍。此外，盡管示出了單個(gè)計(jì)算設(shè)備，但計(jì)算設(shè)備還代表多個(gè)不同的設(shè)備，諸如被企業(yè)用于"在云上"執(zhí)行操作的多個(gè)服務(wù)器，如內(nèi)容提供器 102和策略范圍104所示并且參照圖16所進(jìn)一步描述的。
[0036] 客戶設(shè)備106被示為包括通信模塊110,其表示經(jīng)由網(wǎng)絡(luò)108訪問內(nèi)容112的功能。通信模塊110例如被配置為瀏覽器、能夠聯(lián)網(wǎng)的應(yīng)用、第Ξ方插件等。如此，通信模塊 110經(jīng)由網(wǎng)絡(luò)108訪問內(nèi)容提供器102的各種不同內(nèi)容112,其被示為存儲在存儲器114中。內(nèi)容112可各種方式進(jìn)行配置，諸如網(wǎng)頁、圖像、音樂、多媒體文件等。
[0037] 內(nèi)容提供器102包括內(nèi)容管理器模塊116,其表示管理內(nèi)容112的提供的功能，從而包括哪些廣告118與內(nèi)容112-起被包括。為了確定哪些廣告118包括內(nèi)容112,內(nèi)容管理器模塊116采用策略120。
[0038] 當(dāng)用戶導(dǎo)航到諸如網(wǎng)頁的內(nèi)容112時(shí)，例如，包含用戶的已知屬性的列表被形成為特征矢量，其中特征矢量的值反映用戶的當(dāng)前狀態(tài)或觀察。例如，特征矢量的值可W描述開始訪問內(nèi)容112的用戶的特性（例如，諸如年齡和性別的人口統(tǒng)計(jì)）和/或如何執(zhí)行訪問，諸如用于執(zhí)行訪問的客戶設(shè)備106或網(wǎng)絡(luò)106的特性、訪問本身的特性（諸如時(shí)間、星期幾）、什么導(dǎo)致訪問（例如，網(wǎng)頁上鏈接的選擇）等。
[0039] 因此，特征矢量被配置為表示用戶的數(shù)量和被觀察的訪問的數(shù)字特征的η維矢量。W下，策略120基于關(guān)于用戶的被觀察當(dāng)前狀態(tài)（例如，通過上述特征矢量表示）的判定來執(zhí)行動作。例如，內(nèi)容管理器模塊116首先觀察用戶的狀態(tài)，然后使用策略120判定將采取何種動作。在所示情況下，可能的動作是哪些廣告118被選擇用于被客戶設(shè)備106顯示。因此，如果存在十個(gè)可能的廣告，則在該實(shí)例中存在十種可能的動作。
[0040] 策略120的性能可W通過各種方式進(jìn)行測量。例如，性能被定義為與廣告118的用戶交互的測量（例如，用戶"點(diǎn)擊"的頻繁程度），因此在W下討論中越高越好。在另一實(shí) 例中，性能被定義為廣告118的轉(zhuǎn)換率，例如在選擇廣告118之后購買商品或服務(wù)，因此在該實(shí)例中也是越高越好。應(yīng)該注意，不同的策略可具有不同的性能。例如，一些策略可導(dǎo)致對廣告的高點(diǎn)擊率，而其他策略不會。隨后，該實(shí)例的目標(biāo)是部署具有最好可能性能的策略 120,即支持最多的交互、轉(zhuǎn)換等等。
[0041] 為了確保安全策略被部署至少顯示性能的限定等級（例如，至少等于部署策略

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5 6

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：P·S·托馬斯;G·西奧查奧斯;M·加瓦姆扎德;
技術(shù)所有人：奧多比公司;
我是此專利的發(fā)明人

上一篇：一種xss漏洞檢測的方法及裝置的制造方法
上一篇：一種應(yīng)用程序安全認(rèn)證的方法及終端的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

搜索安全測量來部署的制作方法