搜索安全測量來部署的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的各實(shí)施方式總體上設(shè)及計(jì)算機(jī)領(lǐng)域,具體地設(shè)及捜索安全測量來部署。
【背景技術(shù)】
[0002] 用戶經(jīng)由因特網(wǎng)接觸越來越多的各種內(nèi)容(諸如網(wǎng)頁)。一種用于使內(nèi)容提供器 提供運(yùn)些內(nèi)容貨幣化的技術(shù)是通過加入廣告。例如,用戶可W訪問包括各種廣告的網(wǎng)頁并 且可W選擇(例如,"點(diǎn)擊")感興趣的廣告來得到關(guān)于該廣告中提到的商品或服務(wù)的附加 信息。因此,商品或服務(wù)的提供器可W向內(nèi)容提供器提供報(bào)酬用于包括廣告W及用于潛在 消費(fèi)者選擇廣告。
[0003] 可W使用策略W選擇哪些廣告被呈現(xiàn)給特定用戶或用戶組。例如,可W收集描述 用戶、用戶與內(nèi)容的交互等的數(shù)據(jù)。然后,該數(shù)據(jù)可被策略用于確定哪些廣告被呈獻(xiàn)給用 戶,諸如增加用戶將選擇所包括廣告中的一個(gè)或多個(gè)的可能性。然而,用于選擇策略部署的 傳統(tǒng)技術(shù)不具有用于保證新選擇的策略將比當(dāng)前策略執(zhí)行得更加好的機(jī)制。
[0004] 例如,存在被稱為"策略脫離(off-policy)評價(jià)技術(shù)"的用于估計(jì)策略性能的傳 統(tǒng)解決方案。然而,運(yùn)些傳統(tǒng)的策略脫離評價(jià)技術(shù)不能W任何方式約束或描述運(yùn)種評價(jià)的 精度。例如,運(yùn)些現(xiàn)有技術(shù)不提供新策略實(shí)際上要差于所部署策略的機(jī)會的知識。從而,運(yùn) 些傳統(tǒng)技術(shù)可能潛在地?fù)p失收益W及源于較差表現(xiàn)策略的低效。
【發(fā)明內(nèi)容】
[0005] 描述了風(fēng)險(xiǎn)量化、策略捜索和自動安全策略部署技術(shù)。在一個(gè)或多個(gè)實(shí)施方式中, 運(yùn)些技術(shù)用于確定策略的安全性,諸如表示新策略將相對于當(dāng)前部署的策略顯示出增加的 性能(例如,交互或轉(zhuǎn)換)測量的置信等級。為了進(jìn)行運(yùn)種確定,使用強(qiáng)化學(xué)習(xí)和集中不等 式,其生成和約束關(guān)于策略的性能測量的置信值,因此提供該性能的統(tǒng)計(jì)保證。運(yùn)些技術(shù)可 用于量化策略部署中的風(fēng)險(xiǎn),基于估計(jì)的性能和運(yùn)種估計(jì)中的置信等級(例如,可W包括 使用策略空間來減少被處理數(shù)據(jù)的量)選擇用于部署的策略,用于通過交互(其中,策略的 參數(shù)被迭代調(diào)整,并且運(yùn)些調(diào)整的效果被評估等等)創(chuàng)建新策略。
[0006] 該
【發(fā)明內(nèi)容】
部分W簡化形式介紹了概念的選擇,在W下【具體實(shí)施方式】部分進(jìn)行進(jìn) 一步的描述。如此,該
【發(fā)明內(nèi)容】
部分不用于表示所要求主題的主要特征,也不用于幫助確定 所要求主題的范圍。
【附圖說明】
[0007] 參照附圖描述【具體實(shí)施方式】。在附圖中,參考標(biāo)號最左邊的數(shù)字表示參考標(biāo)號首 先出現(xiàn)的附圖。說明書和附圖中的不同實(shí)例中使用相同的參考標(biāo)號可W表示類似或相同的 項(xiàng)目。附圖中表示的實(shí)體可W表示一個(gè)或多個(gè)實(shí)體,由此可W在討論中W單個(gè)或多個(gè)實(shí)體 形式來互換地進(jìn)行參考。
[0008] 圖1是可用于使用本文描述的技術(shù)的示例性實(shí)施方式的環(huán)境的示圖。
[0009] 圖2示出了詳細(xì)示出強(qiáng)化學(xué)習(xí)模塊的示例性實(shí)施方式的系統(tǒng)。
[0010] 圖3A示出了策略的性能和置信的示圖。
[0011] 圖3B包括提供概率密度函數(shù)的經(jīng)驗(yàn)估計(jì)的曲線。
[0012] 圖4示出了不同的集中不等式函數(shù)的結(jié)果的圖表。
[0013] 圖5示出了確定策略參數(shù)的安全性的實(shí)例。
[0014] 圖6示出了 W下算法1的偽碼的實(shí)例。
[0015] 圖7示出了 W下算法2的偽碼的實(shí)例。
[0016] 圖8示出了 W下算法3的偽碼的實(shí)例。
[0017] 圖9是示出描述用于策略改進(jìn)的風(fēng)險(xiǎn)量化的技術(shù)的示例性實(shí)施方式中的程序的 流程圖。
[0018] 圖10是示出描述包括策略捜索的一個(gè)或多個(gè)部署策略的替換控制的示例性實(shí)施 方式中的程序的流程圖。
[0019] 圖11是示出通過利用策略空間執(zhí)行選擇策略W替換部署策略來提高效率的示例 性實(shí)施方式中的程序的流程圖。
[0020] 圖12是示出迭代生成新策略并用于替換部署策略的示例性實(shí)施方式中的程序的 流程圖。
[0021] 圖13示出了執(zhí)行策略改進(jìn)技術(shù)和算法3的結(jié)果。
[002引圖14表示NAC的性能與手動優(yōu)化超參數(shù)進(jìn)行比較的示例性結(jié)果。
[0023] 圖15示出了算法3的應(yīng)用的結(jié)果。
[0024] 圖16示出了包括可W如所描述的和/或參照圖1至圖15使用的實(shí)施為任何類型 的計(jì)算設(shè)備的示例性設(shè)備的各個(gè)部件W實(shí)施本文所描述技術(shù)的實(shí)施例的示例性系統(tǒng)。
【具體實(shí)施方式】
[00巧]避述
[0026] 策略被用于確定哪些廣告被選擇用于包括將被發(fā)送給特定用戶的內(nèi)容。例如,用 戶可W經(jīng)由網(wǎng)絡(luò)訪問內(nèi)容提供器W獲取內(nèi)容,諸如通過使用瀏覽器來獲取特定網(wǎng)頁。運(yùn)種 訪問被內(nèi)容提供器用于識別與運(yùn)種訪問相關(guān)的特性,諸如用戶的特性(例如,人口統(tǒng)計(jì)資 料)W及訪問本身的特性(例如,日期、地理位置等)。運(yùn)些特性被內(nèi)容提供器使用策略進(jìn) 行處理W確定哪些廣告將被選擇用于包括在傳輸回用戶的網(wǎng)頁中。因此,策略可用于基于 訪問的不同特性選擇不同的廣告用于包括在內(nèi)容中。
[0027] 然而,用戶部署策略的傳統(tǒng)技術(shù)不具有約束或量化新策略是否比當(dāng)前部署的策略 執(zhí)行得更好的精度的機(jī)制。為此,運(yùn)些傳統(tǒng)技術(shù)通常迫使用戶進(jìn)行關(guān)于新策略是否具有更 好性能的最佳猜測,例如使得增加廣告的選擇數(shù)量,使得增加用戶購買商品或服務(wù)的轉(zhuǎn)換 的數(shù)量等等。
[0028] 因此,描述用于部署策略的風(fēng)險(xiǎn)可被量化的技術(shù),其用于支持各種功能。例如,描 述現(xiàn)有策略的部署的數(shù)據(jù)被訪問和處理W確定新策略是否將相對于現(xiàn)有策略顯示出提高 的性能。運(yùn)通過計(jì)算表示新策略的性能將至少滿足限定值(例如,其可W基于部署策略的 性能)的置信度的置信值來進(jìn)行,因此用作該性能的統(tǒng)計(jì)保證。
[0029] 為了計(jì)算統(tǒng)計(jì)保證,集中不等式被用作W下強(qiáng)化學(xué)習(xí)的一部分。強(qiáng)化學(xué)習(xí)是機(jī)器 學(xué)習(xí)的一種類型,其中軟件代理被執(zhí)行w在使累積獎(jiǎng)的一些概念最大化的環(huán)境中采取動 作。在該實(shí)例中,獎(jiǎng)勵(lì)是使測量的性能最大化W選擇廣告,諸如增加廣告的選擇數(shù)量(例 如,"點(diǎn)擊")、廣告的轉(zhuǎn)換(例如,導(dǎo)致"購買")等。
[0030] 集中不等式被用作強(qiáng)度學(xué)習(xí)的一部分W確保安全性,新策略顯示出至少為部署策 略的量的性能。例如,集中不等式被用于解決獨(dú)立隨機(jī)變量的函數(shù)與它們的期望值的偏離。 因此,集中不等式提供了對運(yùn)些分配的約束并且確保結(jié)果的精度。例如,如下面進(jìn)一步描述 的集中不等式可約束值使得闊值W上存在的值被移動到闊值處,可用于塌陷分布的尾部等 等。
[0031] W下,首先在算法1中表示集中不等式,其允許關(guān)于策略是否安全用于部署并由 此選擇廣告而不降低性能的有效確定。第二,在算法2中表示安全批量強(qiáng)化學(xué)習(xí)算法,其被 配置為利用強(qiáng)化學(xué)習(xí)和集中不等式來選擇用于部署的策略。第Ξ,在算法3中表示安全迭 代算法,其被配置為使用強(qiáng)化學(xué)習(xí)和集中不等式通過參數(shù)和分析的迭代調(diào)整生成新策略W 確定何時(shí)運(yùn)些調(diào)整可能增加性能。即使算法3確保安全性,但其與通過使用策略空間如W 下進(jìn)一步描述的最先進(jìn)的重度調(diào)整的非安全算法相比具有合理的采樣效率。
[0032] 首先描述可采用本文描述的技術(shù)的示例性環(huán)境。然后,描述可W在示例性環(huán)境W 及其他環(huán)境中執(zhí)行的示例性程序和實(shí)施實(shí)例。從而,示例性程序的執(zhí)行不限于示例性環(huán)境 和實(shí)施實(shí)例,并且示例性環(huán)境不限于示例性程序的執(zhí)行。
[0033] 示例忡環(huán)培
[0034] 圖1是可用于采用本文描述的強(qiáng)化學(xué)習(xí)和集中不等式的示例性實(shí)施方式中的環(huán) 境100的示圖。所示環(huán)境100包括內(nèi)容提供器102、策略服務(wù)104和客戶設(shè)備106,它們經(jīng) 由網(wǎng)絡(luò)108相互通信禪合。實(shí)施運(yùn)些實(shí)體的計(jì)算設(shè)備可各種方式進(jìn)行配置。
[0035] 例如,計(jì)算設(shè)備可配置為桌上型計(jì)算機(jī)、膝上型計(jì)算機(jī)、移動該設(shè)備(例如,假設(shè) 諸如平板或移動電話的手持結(jié)構(gòu))等。因此,計(jì)算設(shè)備包括從全資源設(shè)備(具有重要的存 儲器和處理器資源)(例如,個(gè)人計(jì)算機(jī)、游戲控制臺)到低資源設(shè)備(具有有限的存儲器 和/或處理資源)(例如,移動設(shè)備)的范圍。此外,盡管示出了單個(gè)計(jì)算設(shè)備,但計(jì)算設(shè)備 還代表多個(gè)不同的設(shè)備,諸如被企業(yè)用于"在云上"執(zhí)行操作的多個(gè)服務(wù)器,如內(nèi)容提供器 102和策略范圍104所示并且參照圖16所進(jìn)一步描述的。
[0036] 客戶設(shè)備106被示為包括通信模塊110,其表示經(jīng)由網(wǎng)絡(luò)108訪問內(nèi)容112的功 能。通信模塊110例如被配置為瀏覽器、能夠聯(lián)網(wǎng)的應(yīng)用、第Ξ方插件等。如此,通信模塊 110經(jīng)由網(wǎng)絡(luò)108訪問內(nèi)容提供器102的各種不同內(nèi)容112,其被示為存儲在存儲器114中。 內(nèi)容112可各種方式進(jìn)行配置,諸如網(wǎng)頁、圖像、音樂、多媒體文件等。
[0037] 內(nèi)容提供器102包括內(nèi)容管理器模塊116,其表示管理內(nèi)容112的提供的功能,從 而包括哪些廣告118與內(nèi)容112-起被包括。為了確定哪些廣告118包括內(nèi)容112,內(nèi)容管 理器模塊116采用策略120。
[0038] 當(dāng)用戶導(dǎo)航到諸如網(wǎng)頁的內(nèi)容112時(shí),例如,包含用戶的已知屬性的列表被形成 為特征矢量,其中特征矢量的值反映用戶的當(dāng)前狀態(tài)或觀察。例如,特征矢量的值可W描述 開始訪問內(nèi)容112的用戶的特性(例如,諸如年齡和性別的人口統(tǒng)計(jì))和/或如何執(zhí)行訪 問,諸如用于執(zhí)行訪問的客戶設(shè)備106或網(wǎng)絡(luò)106的特性、訪問本身的特性(諸如時(shí)間、星 期幾)、什么導(dǎo)致訪問(例如,網(wǎng)頁上鏈接的選擇)等。
[0039] 因此,特征矢量被配置為表示用戶的數(shù)量和被觀察的訪問的數(shù)字特征的η維矢 量。W下,策略120基于關(guān)于用戶的被觀察當(dāng)前狀態(tài)(例如,通過上述特征矢量表示)的判 定來執(zhí)行動作。例如,內(nèi)容管理器模塊116首先觀察用戶的狀態(tài),然后使用策略120判定將 采取何種動作。在所示情況下,可能的動作是哪些廣告118被選擇用于被客戶設(shè)備106顯 示。因此,如果存在十個(gè)可能的廣告,則在該實(shí)例中存在十種可能的動作。
[0040] 策略120的性能可W通過各種方式進(jìn)行測量。例如,性能被定義為與廣告118的 用戶交互的測量(例如,用戶"點(diǎn)擊"的頻繁程度),因此在W下討論中越高越好。在另一實(shí) 例中,性能被定義為廣告118的轉(zhuǎn)換率,例如在選擇廣告118之后購買商品或服務(wù),因此在 該實(shí)例中也是越高越好。應(yīng)該注意,不同的策略可具有不同的性能。例如,一些策略可導(dǎo)致 對廣告的高點(diǎn)擊率,而其他策略不會。隨后,該實(shí)例的目標(biāo)是部署具有最好可能性能的策略 120,即支持最多的交互、轉(zhuǎn)換等等。
[0041] 為了確保安全策略被部署至少顯示性能的限定等級(例如,至少等于部署策略