背景技術(shù):
機(jī)器學(xué)習(xí)一般包括可以根據(jù)數(shù)據(jù)進(jìn)行學(xué)習(xí)的機(jī)器學(xué)習(xí)算法的構(gòu)造或生成。這些算法用于基于特征來(lái)構(gòu)建用于生成針對(duì)特定目的的分類器的模型。主動(dòng)機(jī)器學(xué)習(xí)是一種“老師”(例如用戶)提供訓(xùn)練樣本來(lái)訓(xùn)練模型的函數(shù)的方法。
歷史上,訓(xùn)練樣本是被標(biāo)記的還是未被標(biāo)記的基于特定的目的。例如,在現(xiàn)有系統(tǒng)中,用于實(shí)現(xiàn)對(duì)關(guān)于棒球的主題的文檔進(jìn)行分類的分類器的訓(xùn)練樣本通常包括被標(biāo)記為與棒球有關(guān)的文檔樣本以及被標(biāo)記為與棒球無(wú)關(guān)的文檔樣本。
其它現(xiàn)有訓(xùn)練樣本是未被標(biāo)記的。例如,未被標(biāo)記的樣本可能與棒球有關(guān)或者可能與棒球無(wú)關(guān)。因此,第三方(例如老師)必須對(duì)現(xiàn)有的未被標(biāo)記的訓(xùn)練樣本進(jìn)行標(biāo)記,使得模型具有有價(jià)值的輸入,通過(guò)該輸入來(lái)學(xué)習(xí)相關(guān)聯(lián)的函數(shù)。
具體地,主動(dòng)學(xué)習(xí)需要相對(duì)高質(zhì)量的被標(biāo)記訓(xùn)練樣本,使得模型能夠充分學(xué)習(xí)期望的函數(shù),以用于將來(lái)對(duì)任意數(shù)量的未被標(biāo)記的輸入文檔進(jìn)行分類。然而,在實(shí)際上無(wú)限數(shù)量的未被標(biāo)記文檔中發(fā)現(xiàn)可用于機(jī)器學(xué)習(xí)算法的高質(zhì)量的被標(biāo)記訓(xùn)練樣本通常是很耗費(fèi)成本的。例如,許多用戶被雇傭來(lái)解釋未被標(biāo)記的文檔,以確定用于機(jī)器學(xué)習(xí)目的的可行性。然而,如果需要對(duì)被現(xiàn)有機(jī)器學(xué)習(xí)算法訓(xùn)練的特定模型進(jìn)行限制,則每個(gè)可能候選用于被標(biāo)記的訓(xùn)練樣本的可行性必須被甚至更仔細(xì)地考慮,并且成本可能超過(guò)期望的目標(biāo)。
技術(shù)實(shí)現(xiàn)要素:
本文討論的技術(shù)通過(guò)利用輔助機(jī)器學(xué)習(xí)模型遞增地特征化目標(biāo)機(jī)器學(xué)習(xí)模型來(lái)便于主動(dòng)機(jī)器學(xué)習(xí)。輔助機(jī)器學(xué)習(xí)模型可以是與目標(biāo)機(jī)器學(xué)習(xí)模型相比具有相對(duì)較大范圍的機(jī)器學(xué)習(xí)模型。
上述技術(shù)方案還可以被實(shí)現(xiàn)為計(jì)算機(jī)控制裝置、計(jì)算機(jī)過(guò)程、計(jì)算系統(tǒng)、或例如計(jì)算機(jī)存儲(chǔ)介質(zhì)的制品。提供該“發(fā)明內(nèi)容”是為了以簡(jiǎn)化形式介紹將在下文在“具體實(shí)施方式”中進(jìn)一步描述的技術(shù)的精華。該發(fā)明內(nèi)容并不旨在標(biāo)識(shí)所要求保護(hù)技術(shù)方案的關(guān)鍵特征或必要特征,該發(fā)明內(nèi)容也不旨在用于限制所要求保護(hù)技術(shù)方案的范圍。術(shù)語(yǔ)“技術(shù)”例如可以指代系統(tǒng)、方法、計(jì)算機(jī)可讀介質(zhì)、計(jì)算機(jī)可執(zhí)行指令、模塊、算法、硬件邏輯(例如,現(xiàn)場(chǎng)可編程門陣列(fpga)、專用集成電路(asic)、專用標(biāo)準(zhǔn)產(chǎn)品(assp)、片上系統(tǒng)(soc)、復(fù)雜可編程邏輯設(shè)備(cpld)),和/或上述上下文和貫穿本文檔允許的技術(shù)。此外,所要求保護(hù)的技術(shù)方案不限于解決在本公開的任何部分中提到的任意或所有缺點(diǎn)的例子。
附圖說(shuō)明
參考附圖描述具體實(shí)施方式。在圖中,附圖標(biāo)記的最左側(cè)數(shù)字標(biāo)識(shí)該附圖標(biāo)記第一次出現(xiàn)的附圖。在不同圖中的相同附圖標(biāo)記表示類似或相同的項(xiàng)目。
圖1是示出了示例性操作環(huán)境和本文描述的技術(shù)提供的若干部件的各方面的圖。
圖2是示出了本文所描述的用于主動(dòng)機(jī)器學(xué)習(xí)的一個(gè)示例性方法的各方面的流程圖。
圖3是示出了本文描述的包括選擇具有多樣性的未被標(biāo)記觀察的用于主動(dòng)機(jī)器學(xué)習(xí)的一個(gè)示例性方法的各方面的流程圖。
圖4是示出了本文描述的包括考慮來(lái)自輔助機(jī)器學(xué)習(xí)模型和目標(biāo)機(jī)器學(xué)習(xí)模型兩者的輸出的用于主動(dòng)機(jī)器學(xué)習(xí)的一個(gè)示例性方法的各方面的流程圖。
圖5示出的圖描繪了本文中所描述的示例性輔助機(jī)器學(xué)習(xí)模型的輸出分?jǐn)?shù)和用于實(shí)現(xiàn)未被標(biāo)記觀察的選擇的多樣性的相關(guān)聯(lián)的子集標(biāo)記集合。
圖6是示出了示例性計(jì)算機(jī)硬件和軟件架構(gòu)的計(jì)算機(jī)架構(gòu)圖。
具體實(shí)施方式
概述
后續(xù)具體實(shí)施方式針對(duì)的是可以由軟件產(chǎn)品或一組軟件產(chǎn)品提供的用于主動(dòng)機(jī)器學(xué)習(xí)的技術(shù)。本文呈現(xiàn)的技術(shù)便于相對(duì)準(zhǔn)確地識(shí)別高質(zhì)量的訓(xùn)練樣本以用于主動(dòng)機(jī)器學(xué)習(xí)算法或者相關(guān)聯(lián)的模型。此外,所述技術(shù)可以提高對(duì)有限容量的模型進(jìn)行訓(xùn)練的效率。此外,所述技術(shù)可以便于針對(duì)有限容量的模型進(jìn)行遞增的特征化,以實(shí)現(xiàn)來(lái)自通過(guò)有限容量模型創(chuàng)建的分類器的準(zhǔn)確和期望的輸出。
如本文使用的,短語(yǔ)“有限容量的模型”及其變型指的是在容量方面有限或受限的機(jī)器學(xué)習(xí)模型。一個(gè)示例性有限容量的模型是具有有限數(shù)量的特征的機(jī)器學(xué)習(xí)模型。然而,所述特征可以包括正特征和負(fù)特征。另一示例性有限容量的模型是尋找的n元語(yǔ)法(例如,在文檔中尋找的詞語(yǔ)或詞語(yǔ)元組)的總數(shù)量有限或受限的機(jī)器學(xué)習(xí)模型。有限容量的模型允許部署尺寸也有限的分類器,以在存儲(chǔ)器效率方面實(shí)現(xiàn)增益。另外,傳輸有限容量的模型和/或尺寸也有限的分類器可以減少移動(dòng)網(wǎng)絡(luò)中的網(wǎng)絡(luò)業(yè)務(wù),例如在將分類器和/或模型傳輸?shù)揭苿?dòng)設(shè)備用于部署時(shí)。
如本文使用的,短語(yǔ)“色盲”及其變型指的是目標(biāo)機(jī)器學(xué)習(xí)模型缺乏區(qū)別單獨(dú)的或不同的觀察的能力,雖然這些不同的觀察在定義方式上不同。例如,在目標(biāo)機(jī)器學(xué)習(xí)模型中訓(xùn)練的分類器可能對(duì)描述鳥籠的網(wǎng)頁(yè)和描述擊球籠的網(wǎng)頁(yè)之間的差別是“色盲的”。然而,相同的分類器可能對(duì)棒球棒的廣告和與有翼球棒的博物館展示有關(guān)的廣告之間的區(qū)別并不是“色盲的”。
如本文使用的,短語(yǔ)“多樣性”及其變型指的是觀察集合在該集合中的個(gè)體觀察之間存在許多差別。例如,多樣化的觀察集合包括跨包含于其中的觀察的許多或所有觀察的多樣性。
如上面簡(jiǎn)單提到的,特征是本文描述的機(jī)器學(xué)習(xí)模型的部件。術(shù)語(yǔ)“特征”及其變型指的是包含于機(jī)器學(xué)習(xí)模型中的數(shù)據(jù)。特征的例子包括詞、短語(yǔ)、n元語(yǔ)法以及詞典編纂的數(shù)據(jù)。另外,如本文使用的,短語(yǔ)“遞增特征化”及其變型具體是指以遞增的方式從目標(biāo)機(jī)器學(xué)習(xí)模型添加或移除特征。相反,傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)通常以非遞增方式添加多個(gè)特征或者操縱機(jī)器學(xué)習(xí)模型。
一般而言,本文描述的用于主動(dòng)機(jī)器學(xué)習(xí)的技術(shù)包括基于第二輔助機(jī)器學(xué)習(xí)模型的主動(dòng)機(jī)器學(xué)習(xí),通過(guò)遞增特征化和/或通過(guò)改善目標(biāo)機(jī)器學(xué)習(xí)模型的容量,來(lái)訓(xùn)練目標(biāo)機(jī)器學(xué)習(xí)模型。輔助機(jī)器學(xué)習(xí)模型可以具有無(wú)限容量,或者與目標(biāo)機(jī)器學(xué)習(xí)模型相比可以具有相對(duì)較大的容量。主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)可以利用輔助機(jī)器學(xué)習(xí)模型的主動(dòng)機(jī)器學(xué)習(xí),來(lái)識(shí)別目標(biāo)機(jī)器學(xué)習(xí)模型的色盲的范圍。之后,在識(shí)別了色盲的范圍之后,可以產(chǎn)生新的高質(zhì)量的被標(biāo)記訓(xùn)練樣本,并將新的高質(zhì)量的被標(biāo)記訓(xùn)練樣本用于確定要從目標(biāo)機(jī)器學(xué)習(xí)模型添加或移除的特征。目標(biāo)機(jī)器學(xué)習(xí)模型的色盲、其范圍和其它屬性將在下文參考附圖更全面地描述。
在輔助機(jī)器學(xué)習(xí)模型的主動(dòng)機(jī)器學(xué)習(xí)中實(shí)現(xiàn)多樣性能夠至少部分地提高本文描述的技術(shù)的效率。例如,主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)可以選擇新的未被標(biāo)記觀察,其跨所有選擇的未被標(biāo)記觀察是多樣性的。以這種方式,主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)可以組裝較高質(zhì)量的訓(xùn)練集合。可以以多種不同方式實(shí)現(xiàn)多樣性,這將在下文參考圖5更全面地描述。
如上文額外簡(jiǎn)單討論的,軟件產(chǎn)品或一組軟件產(chǎn)品可以提供一些或所有本文描述的涉及主動(dòng)機(jī)器學(xué)習(xí)的功能。例如,可以通過(guò)服務(wù)提供商網(wǎng)絡(luò)(例如,利用操作系統(tǒng)和/或應(yīng)用程序)部署網(wǎng)絡(luò)服務(wù)。網(wǎng)絡(luò)服務(wù)可以允許第三方使用本文描述的技術(shù)用于基于具有相對(duì)較大容量的輔助機(jī)器學(xué)習(xí)模型的主動(dòng)機(jī)器學(xué)習(xí)來(lái)訓(xùn)練有限容量的機(jī)器學(xué)習(xí)模型。可以跨一個(gè)或多個(gè)主機(jī)處理器、計(jì)算機(jī)、服務(wù)器、或其它計(jì)算機(jī)硬件來(lái)部署網(wǎng)絡(luò)服務(wù),并可以通過(guò)一個(gè)或多個(gè)網(wǎng)絡(luò)連接提供網(wǎng)絡(luò)服務(wù)。另外,根據(jù)至少一個(gè)例子,涉及被標(biāo)記的訓(xùn)練觀察的尺寸和屬性的知識(shí)可以存儲(chǔ)或保持在服務(wù)提供商網(wǎng)絡(luò)處。因此,如果期望的話,可以在預(yù)先被標(biāo)記的數(shù)據(jù)上構(gòu)建新的分類器,與從頭實(shí)現(xiàn)新分類器相比減少了構(gòu)建成本。
雖然本文描述的技術(shù)方案是在結(jié)合在計(jì)算機(jī)系統(tǒng)上執(zhí)行操作系統(tǒng)和應(yīng)用程序而執(zhí)行的程序模塊的通用上下文中給出的,但是本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到可以組合其它類型的程序模塊執(zhí)行其它例子。一般而言,程序模塊包括例程、程序、部件、數(shù)據(jù)結(jié)構(gòu)、以及執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的其它類型的結(jié)構(gòu)。此外,本領(lǐng)域技術(shù)人員可以理解的是,本文描述的技術(shù)方案可以利用各種計(jì)算機(jī)系統(tǒng)配置來(lái)實(shí)施,包括單處理器或多處理器系統(tǒng)、單核或多核處理器、基于微處理器的或可編程的消費(fèi)電子產(chǎn)品、手持計(jì)算設(shè)備、迷你計(jì)算機(jī)、個(gè)人計(jì)算機(jī)、大型計(jì)算機(jī)、其組合等等。
在后續(xù)詳細(xì)描述中,參考附圖,附圖形成詳細(xì)描述的一部分并且通過(guò)圖示特定例子來(lái)示出。
示例性環(huán)境
圖1示出了包括通過(guò)本文描述的技術(shù)提供的若干部件的示例性操作環(huán)境100的各方面。圖1的環(huán)境100包括一個(gè)或多個(gè)未被標(biāo)記觀察池102,其內(nèi)設(shè)置有多個(gè)未被標(biāo)記觀察104。未被標(biāo)記觀察104可以替代地跨多個(gè)不同的池或者在圖1中未特別示出的其它設(shè)備/部件分散。
在機(jī)器學(xué)習(xí)中,分類是基于訓(xùn)練數(shù)據(jù)集合來(lái)識(shí)別新的觀察屬于種類(例如,子種群、類別等)集合中的哪個(gè)類別的問(wèn)題,訓(xùn)練數(shù)據(jù)集合包含成員種類已知或已被標(biāo)記的觀察。一般而言,未被標(biāo)記的觀察104是成員的特定種類或類別未知的觀察。基于任意期望屬性,類別可以包括任意數(shù)量的類別。例如,類別可以包括“spam消息”、“網(wǎng)頁(yè)”、“棒球文檔”、或任意其它類別。因此,本文提供的描述不應(yīng)限制為特定類別或特定類型的類別,而是應(yīng)該理解為涵蓋任意適當(dāng)類別或觀察分類。
環(huán)境100包括一個(gè)或多個(gè)被標(biāo)記觀察池106,其內(nèi)設(shè)置有多個(gè)被標(biāo)記觀察108。被標(biāo)記觀察108可以替代地以關(guān)于未被標(biāo)記觀察104描述的類似方式跨許多不同的池106或未在圖1特別示出的其它設(shè)備/部件分散。
一般而言,被標(biāo)記觀察是成員的特定種類或類別已知的觀察。被標(biāo)記觀察可以包括與其相關(guān)聯(lián)的尤其調(diào)出相關(guān)聯(lián)的類別的元數(shù)據(jù)、其是否屬于該類別的二進(jìn)制表示(例如,“是/否”標(biāo)簽)和/或其它形式的被標(biāo)記觀察和相關(guān)聯(lián)標(biāo)記的存儲(chǔ)。
環(huán)境100包括主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110,其與未被標(biāo)記觀察池102和被標(biāo)記觀察池106操作地通信??梢栽诰W(wǎng)絡(luò)或其它通信介質(zhì)上發(fā)生這種主動(dòng)通信,所述其它通信介質(zhì)能夠便于在主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110和未被標(biāo)記觀察池102和/或被標(biāo)記觀察池106之間通信和轉(zhuǎn)移信息。
在一些例子中,主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110可以被實(shí)現(xiàn)為一個(gè)或多個(gè)部件,例如在一個(gè)或多個(gè)計(jì)算中在一個(gè)或多個(gè)處理器上執(zhí)行的軟件模塊。在各種例子中,主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110可以被實(shí)現(xiàn)為離散的部件,其具有與其相關(guān)聯(lián)的硬件和軟件用于實(shí)現(xiàn)本文描述的一些或所有功能。另外,其它例子包括主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110在上述服務(wù)提供商網(wǎng)絡(luò)上的虛擬化、被配置為引導(dǎo)處理器實(shí)現(xiàn)主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110的計(jì)算機(jī)可執(zhí)行指令的分布以及其它適當(dāng)?shù)膶?shí)現(xiàn)方式。
主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110可以包括輔助機(jī)器學(xué)習(xí)模型112和目標(biāo)機(jī)器學(xué)習(xí)模型114。與目標(biāo)機(jī)器學(xué)習(xí)模型114相比,輔助機(jī)器學(xué)習(xí)模型112可以包括具有相對(duì)較大的容量的任意期望的模型。在至少一個(gè)例子中,輔助機(jī)器學(xué)習(xí)模型112是詞袋機(jī)器學(xué)習(xí)模型,其使用詞袋中的每個(gè)詞語(yǔ)的出現(xiàn)頻率作為用于訓(xùn)練分類器的特征。在一些例子中,輔助機(jī)器學(xué)習(xí)模型112是語(yǔ)義機(jī)器學(xué)習(xí)模型或類似于詞袋模型的分類器,其能夠具有無(wú)限或基本無(wú)限容量的基本特征。輔助機(jī)器學(xué)習(xí)模型112的其它例子是可能的。目標(biāo)機(jī)器學(xué)習(xí)模型114是如上定義的有限容量的模型。
如圖1所示,被配置為用于訓(xùn)練輔助機(jī)器學(xué)習(xí)模型112以學(xué)習(xí)期望的函數(shù)的主動(dòng)學(xué)習(xí)例程選擇試樣的未被標(biāo)記觀察116。之后,輔助機(jī)器學(xué)習(xí)模型112可以產(chǎn)生供比較部件118、標(biāo)記部件120和特征化部件122解釋的輸出。例如,比較部件118可以將由輔助機(jī)器學(xué)習(xí)模型112產(chǎn)生的分?jǐn)?shù)傳遞給標(biāo)記部件120和特征化部件122。
當(dāng)接收到分?jǐn)?shù)時(shí),標(biāo)記部件120可以基于接收到的分?jǐn)?shù)將試樣的未被標(biāo)記觀察116轉(zhuǎn)換為新的被標(biāo)記觀察124。標(biāo)記部件120然后可以使得新的被標(biāo)記觀察124存儲(chǔ)于被標(biāo)記觀察池106中,以用于訓(xùn)練輔助機(jī)器學(xué)習(xí)模型112。
另外,當(dāng)接收到分?jǐn)?shù)時(shí),特征化部件122可以基于分?jǐn)?shù)來(lái)識(shí)別要從目標(biāo)機(jī)器學(xué)習(xí)模型114添加或移除的可能特征126。容量改善部件128可以處理可能的特征126來(lái)確定要從目標(biāo)機(jī)器學(xué)習(xí)模型114遞增地添加或移除的特征130。
應(yīng)該理解的是,容量改善部件128可以采取任意適當(dāng)形式。根據(jù)至少一個(gè)例子,容量改善部件128包括用戶接口,用于接受從可能的特征126選擇特征130的輸入。根據(jù)其它例子,容量改善部件128可以包括用于從可能的特征126自動(dòng)選擇特征130的方法。
另外,可以以多種不同形式實(shí)現(xiàn)比較部件118、標(biāo)記部件120和特征化部件122。將參考圖2-4更全面地描述比較部件118、標(biāo)記部件120和特征化部件122中的每一個(gè)的特定操作。
根據(jù)至少一個(gè)例子,目標(biāo)機(jī)器學(xué)習(xí)模型114也能夠接收通過(guò)輔助機(jī)器學(xué)習(xí)模型112的主動(dòng)機(jī)器學(xué)習(xí)選擇的試樣的未被標(biāo)記觀察116。之后,目標(biāo)機(jī)器學(xué)習(xí)模型114可以產(chǎn)生表示處理試樣的未被標(biāo)記觀察116的第二分?jǐn)?shù),使得比較部件118能夠比較來(lái)自輔助機(jī)器學(xué)習(xí)模型112的第一分?jǐn)?shù)和來(lái)自目標(biāo)機(jī)器學(xué)習(xí)模型114的第二分?jǐn)?shù),以確定目標(biāo)機(jī)器學(xué)習(xí)模型已經(jīng)產(chǎn)生了假肯定或假陰結(jié)果或錯(cuò)誤的可能性。因此,標(biāo)記部件120和特征化部件122可以考慮所述可能性,以產(chǎn)生更好的可能特征126并生成有質(zhì)量的新的被標(biāo)記觀察124。
示例性過(guò)程
之后,參考圖2-4提供主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110和相關(guān)聯(lián)部件的功能的更詳細(xì)描述。雖然描述為按順序發(fā)生,但是應(yīng)該理解的是,可以并行處理下面描述的個(gè)體方法的任何操作,并且在一些環(huán)境下可以省略一些操作,而不背離本文描述的技術(shù)。
圖2是示出了根據(jù)至少一個(gè)例子的用于主動(dòng)機(jī)器學(xué)習(xí)的一個(gè)示例性方法200的各方面的流程圖。主動(dòng)機(jī)器學(xué)習(xí)的方法200可以包括:在框202處,利用輔助機(jī)器學(xué)習(xí)模型112發(fā)起主動(dòng)學(xué)習(xí)過(guò)程。例如,主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110可以引導(dǎo)輔助機(jī)器學(xué)習(xí)模型112選擇一個(gè)或多個(gè)試樣的未被標(biāo)記觀察116,以用于處理和輸出分?jǐn)?shù)。特征化部件122可以處理該分?jǐn)?shù)。
之后,在框204處,特征化部件122可以基于所述分?jǐn)?shù)改善目標(biāo)機(jī)器學(xué)習(xí)模型的容量。例如,基于來(lái)自輔助機(jī)器學(xué)習(xí)模型112的分?jǐn)?shù),特征化部件122可以確定應(yīng)該從目標(biāo)機(jī)器學(xué)習(xí)模型添加或移除一個(gè)或多個(gè)可能的特征126,例如,最高分?jǐn)?shù)、最低分?jǐn)?shù)、在定義范圍內(nèi)的分?jǐn)?shù)等。一般而言,所述分?jǐn)?shù)表示試樣的未被標(biāo)記觀察是否屬于或不屬于特定類別。因此,如果分?jǐn)?shù)表示未被標(biāo)記觀察屬于一個(gè)類別,則可以從被標(biāo)記觀察(例如,被標(biāo)記觀察132)中提取一個(gè)或多個(gè)可能的特征126,用于訓(xùn)練目標(biāo)機(jī)器學(xué)習(xí)模型以將類似的未被標(biāo)記觀察識(shí)別為屬于該類別。如果分?jǐn)?shù)表示未被標(biāo)記觀察不屬于一個(gè)類別,則可以從被標(biāo)記觀察132中提取一個(gè)或多個(gè)可能的特征126,用于訓(xùn)練目標(biāo)機(jī)器學(xué)習(xí)模型以將類似的未被標(biāo)記觀察識(shí)別為不屬于該類別。基于這些可能的特征126,容量改善部件118可以通過(guò)遞增地添加特征130到目標(biāo)機(jī)器學(xué)習(xí)模型114/從目標(biāo)機(jī)器學(xué)習(xí)模型114移除特征130,來(lái)改善目標(biāo)機(jī)器學(xué)習(xí)模型114的容量。
在改善目標(biāo)機(jī)器學(xué)習(xí)模型114的容量之后,方法200還包括:在框206處,利用被標(biāo)記觀察132重新訓(xùn)練輔助機(jī)器學(xué)習(xí)模型。例如,主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110可以提供新被標(biāo)記的觀察124以及來(lái)自被標(biāo)記觀察池106的一個(gè)或多個(gè)被標(biāo)記觀察132,以保持或修改輔助機(jī)器學(xué)習(xí)模型112。因?yàn)檩o助機(jī)器學(xué)習(xí)模型112的容量不受限,所以重新訓(xùn)練輔助機(jī)器學(xué)習(xí)模型112能夠提高目標(biāo)機(jī)器學(xué)習(xí)模型114的被標(biāo)記訓(xùn)練集合的質(zhì)量,而不影響目標(biāo)機(jī)器學(xué)習(xí)模型114的容量。
如圖2所示,方法200可以迭代框202-206,以遞增地改善目標(biāo)機(jī)器學(xué)習(xí)模型114的容量,并基于新被標(biāo)記的觀察124重新訓(xùn)練輔助機(jī)器學(xué)習(xí)模型112。這種遞增的改善允許將目標(biāo)機(jī)器學(xué)習(xí)模型114的有限容量維持在期望的限制或約束內(nèi)。例如,可能期望的是對(duì)包含于目標(biāo)機(jī)器學(xué)習(xí)模型114內(nèi)的特征的整體數(shù)量維持特定的范圍限制,以產(chǎn)生緊湊的分類器。在該情況下,所述方法200可以基于目標(biāo)機(jī)器學(xué)習(xí)模型114的添加和移除特征的遞增本質(zhì)便于分類器的緊湊性。
輔助機(jī)器學(xué)習(xí)模型112選擇多樣化的試樣的未被標(biāo)記觀察116的集合能夠?qū)е螺^高質(zhì)量的目標(biāo)機(jī)器學(xué)習(xí)模型114和/或在訓(xùn)練目標(biāo)機(jī)器學(xué)習(xí)模型114的效率方面的至少部分增益。例如,多樣化的觀察集合可以包括跨包含于其中的許多觀察或全部觀察的多樣性。
圖3是示出了根據(jù)至少一個(gè)例子包括選擇具有多樣性的未被標(biāo)記觀察的用于主動(dòng)機(jī)器學(xué)習(xí)的一個(gè)示例性方法300的各方面的流程圖。方法300包括:在框302處,輔助機(jī)器學(xué)習(xí)模型112選擇一個(gè)或多個(gè)試樣的未被標(biāo)記觀察116。
輔助機(jī)器學(xué)習(xí)模型112可以選擇一個(gè)或多個(gè)試樣的未被標(biāo)記觀察116,使得被標(biāo)記觀察池106是多樣化的。例如,可以通過(guò)輔助機(jī)器學(xué)習(xí)模型112選擇試樣的未被標(biāo)記觀察116,使得它們跨所有所選的未被標(biāo)記觀察是多樣化的。以這種方式,可以組裝被標(biāo)記觀察108的較高質(zhì)量的訓(xùn)練集合。
輔助機(jī)器學(xué)習(xí)模型112可以以多種方式在選擇試樣的未被標(biāo)記觀察116時(shí)實(shí)現(xiàn)多樣性。根據(jù)一個(gè)例子,輔助機(jī)器學(xué)習(xí)模型112可以實(shí)現(xiàn)一個(gè)或多個(gè)函數(shù),稱作次模函數(shù),用于選擇新的試樣的未被標(biāo)記觀察116。根據(jù)另一例子,輔助機(jī)器學(xué)習(xí)模型112可以確定例如來(lái)自被標(biāo)記觀察132的子集標(biāo)記集合,其中從子集標(biāo)記集合中進(jìn)行選擇提供了對(duì)至少最小級(jí)別的多樣性的保證。將參考圖5更全面地描述用于多樣性的次模函數(shù)和用于確定子集標(biāo)記集合的基于閾值的方法兩者。
返回到圖3,在框304處,標(biāo)記部件120可以將一個(gè)或多個(gè)試樣的未被標(biāo)記觀察116轉(zhuǎn)換為新的被標(biāo)記觀察124。在一些例子中,轉(zhuǎn)換可以包括:標(biāo)記部件120選擇一個(gè)或多個(gè)試樣的未被標(biāo)記觀察116。之后,在框306處,容量改善部件128可以改善目標(biāo)機(jī)器學(xué)習(xí)模型114。在框308處,主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110的輔助機(jī)器學(xué)習(xí)模型112可以經(jīng)歷重新訓(xùn)練。在一些例子中,在框306和308中描述的改善和重新訓(xùn)練本質(zhì)上分別類似于上面參考框204和206描述的改善和重新訓(xùn)練。因此,出于簡(jiǎn)潔的原因,在此省略類似的細(xì)節(jié)。
如圖3所示,方法300可以迭代框302-308以基于在輔助機(jī)器學(xué)習(xí)模型112的重新訓(xùn)練期間獲得的新的被標(biāo)記觀察,來(lái)遞增地改善目標(biāo)機(jī)器學(xué)習(xí)模型114的容量。在該例子中,新被標(biāo)記的觀察可以基于多樣性的未被標(biāo)記觀察集合。因此,對(duì)目標(biāo)機(jī)器學(xué)習(xí)模型114的遞增改善可以基于來(lái)自輔助機(jī)器學(xué)習(xí)模型112的更多樣化的輸出,并且與傳統(tǒng)方法相比能夠應(yīng)用更少的改善操作或迭代。
如上面簡(jiǎn)單描述的,主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110還可以操作以允許目標(biāo)機(jī)器學(xué)習(xí)模型114提供輸出以用于比較,并進(jìn)一步改善其中包含的特征。圖4是示出了根據(jù)至少一個(gè)例子的包括考慮來(lái)自輔助機(jī)器學(xué)習(xí)模型和目標(biāo)機(jī)器學(xué)習(xí)模型的輸出的用于主動(dòng)機(jī)器學(xué)習(xí)的一個(gè)示例性方法400的各方面的流程圖。
方法400包括:在框402處,輔助機(jī)器學(xué)習(xí)模型112選擇試樣的未被標(biāo)記觀察116。特定的未被標(biāo)記觀察可以選自未被標(biāo)記觀察104,例如,因?yàn)椴恢牢幢粯?biāo)記觀察屬于多個(gè)類別中的哪個(gè)類別。
之后,方法400包括:在框404處,利用輔助機(jī)器學(xué)習(xí)模型112向未被標(biāo)記觀察分配第一分?jǐn)?shù)。此外,方法400可以包括:在框406處,利用目標(biāo)機(jī)器學(xué)習(xí)模型114向未被標(biāo)記觀察分配第二分?jǐn)?shù)。
在框408處,比較部件118比較第一分?jǐn)?shù)和第二分?jǐn)?shù),以確定目標(biāo)機(jī)器學(xué)習(xí)模型114返回假肯定或假否定結(jié)果的可能性。在一些例子中,在分別通過(guò)輔助機(jī)器學(xué)習(xí)模型112和目標(biāo)機(jī)器學(xué)習(xí)模型114分配第一分?jǐn)?shù)和第二分?jǐn)?shù)時(shí),比較部件118比較第一分?jǐn)?shù)和第二分?jǐn)?shù)。
一般而言,比較可以包括確定在第一分?jǐn)?shù)和第二分組之間的差的幅度。之后,在幅度為負(fù)時(shí)比較部件118可以確定目標(biāo)機(jī)器學(xué)習(xí)模型114已經(jīng)返回假肯定。另外,在幅度為正時(shí)比較部件118可以確定目標(biāo)機(jī)器學(xué)習(xí)模型114已經(jīng)返回假否定。
應(yīng)該理解的是,通過(guò)識(shí)別假肯定和假否定結(jié)果,目標(biāo)機(jī)器學(xué)習(xí)模型114的色盲范圍變得清楚。例如,可能比較罕見的是輔助機(jī)器學(xué)習(xí)模型112和目標(biāo)機(jī)器學(xué)習(xí)模型114“不一致”并表示假肯定和假否定。在這些實(shí)例中,假肯定或假否定的原因可以提供關(guān)于有限容量的目標(biāo)機(jī)器學(xué)習(xí)模型114的限制或“色盲”的有價(jià)值的信息。該信息可以被保持以由特征化部件122和容量改善部件128使用,以通過(guò)目標(biāo)機(jī)器學(xué)習(xí)模型114的迭代改善實(shí)現(xiàn)更好的精度。
在框410處,至少基于所述可能性,標(biāo)記部件120將未被標(biāo)記觀察116轉(zhuǎn)換為新的被標(biāo)記觀察124。在一些例子中,在比較部件118確定了假肯定或假否定的可能性之后,標(biāo)記部件120執(zhí)行轉(zhuǎn)換。因此,新的被標(biāo)記觀察124可以代表幫助至少部分地縮小目標(biāo)機(jī)器學(xué)習(xí)模型114的色盲的縫隙的樣本。
之后,在框412處,根據(jù)可能的特征126,特征化部件122可以確定要從目標(biāo)機(jī)器學(xué)習(xí)模型114添加或移除的特征130??梢曰诳?08和410的比較裁剪可能的特征126,并因此還可以幫助縮小通過(guò)比較兩個(gè)輸出暴露的色盲的縫隙。在框414處,容量改善部件128隨后可以基于特征130改善目標(biāo)機(jī)器學(xué)習(xí)模型114。
目標(biāo)機(jī)器學(xué)習(xí)模型114的容量的遞增改善可以包括在未被標(biāo)記觀察116的選擇中實(shí)現(xiàn)多樣性以及比較來(lái)自輔助機(jī)器學(xué)習(xí)模型112和目標(biāo)機(jī)器學(xué)習(xí)模型114的輸出,以幫助確定如何校正色盲。應(yīng)該理解的是,上述方法中的每一個(gè)可以以任何水平的粒度被修改為包括這兩個(gè)概念。例如,可以在方法200和400中的一個(gè)或兩個(gè)中實(shí)現(xiàn)來(lái)自方法300的選擇多樣性。類似地,可以在方法200和300中的一個(gè)或兩個(gè)中實(shí)現(xiàn)方法400中的確定輔助機(jī)器學(xué)習(xí)模型112和目標(biāo)機(jī)器學(xué)習(xí)模型114之間的不一致。按照這些方法,將參考圖5描述與在任意上述方法中實(shí)現(xiàn)選擇多樣性相關(guān)的示例性個(gè)體細(xì)節(jié)。
圖5示出的示例性曲線502的圖描繪了根據(jù)至少一個(gè)例子一個(gè)或多個(gè)輔助機(jī)器學(xué)習(xí)模型的輸出分?jǐn)?shù)和用于實(shí)現(xiàn)未被標(biāo)記觀察選擇中的多樣性的相關(guān)聯(lián)的子集標(biāo)記集合504。曲線502表示輔助機(jī)器學(xué)習(xí)模型112基于觀察池(例如,池102和/或106)的輸出。
如圖5所示,曲線502的y軸表示觀察池中的觀察的數(shù)量。例如,與選擇多樣性有關(guān)的觀察池一般被理解為是未被標(biāo)記觀察,例如,未被標(biāo)記觀察104。然而,在一些例子中,選擇包括被標(biāo)記觀察108的多樣化的訓(xùn)練集合也是可應(yīng)用的。曲線502的x軸一般表示從輔助機(jī)器學(xué)習(xí)模型112輸出的分?jǐn)?shù)。例如,所述分?jǐn)?shù)可以是在0和1之間標(biāo)準(zhǔn)化的分?jǐn)?shù)。
如在圖5的例子中進(jìn)一步示出的,當(dāng)觀察的數(shù)量增加時(shí),分?jǐn)?shù)減少。另外,當(dāng)觀察的數(shù)量減少時(shí)(或如果僅做出觀察的多樣化選擇),則分?jǐn)?shù)增加。因此,可以針對(duì)特定的一個(gè)或多個(gè)觀察池識(shí)別未被標(biāo)記觀察的子集標(biāo)記集合。之后,輔助機(jī)器學(xué)習(xí)模型112可以被配置為僅從子集標(biāo)記集合選擇試樣的未被標(biāo)記觀察,以在未被標(biāo)記樣本中增加多樣性。
如上面簡(jiǎn)單提到的,子集標(biāo)記集合可以基于次模函數(shù)或基于閾值的方法的實(shí)現(xiàn)。其它例子也是可能的。
關(guān)于基于閾值的方法,可以選擇閾值506,使得期望的分?jǐn)?shù)是0.5或更大。之后,僅在子集標(biāo)記集合中進(jìn)行采樣,并且均勻地選擇樣本。在(例如,通過(guò)比較部件118)接收到針對(duì)采樣的未被標(biāo)記觀察的實(shí)際分?jǐn)?shù)的反饋之后,可以自動(dòng)校準(zhǔn)閾值以維持預(yù)期的分?jǐn)?shù)0.5或更大。因此,0.5的閾值可以沿著x軸自動(dòng)校準(zhǔn),使得閾值的不同值是可能的。
關(guān)于次模函數(shù)的實(shí)現(xiàn),輔助機(jī)器學(xué)習(xí)模型112被配置為選擇未被標(biāo)記觀察的集合用于后續(xù)標(biāo)記。一般地,給定基于輔助機(jī)器學(xué)習(xí)模型112訓(xùn)練的當(dāng)前分類器,過(guò)濾未被標(biāo)記項(xiàng)目的子集(u_f)。應(yīng)該過(guò)濾子集u_f以包括相等數(shù)量的正負(fù)觀察結(jié)果。在過(guò)濾子集u_f之后,定義兩個(gè)次模函數(shù)。第一次摸函數(shù)用于設(shè)施定位(facilitylocation),并由如下等式1表示:
等式1:f(x)=\sum_{i\inu_f}\max_{j\inx}s_{ij}
在等式1中,s_{ij}是在觀察i和觀察j之間的相似性。第二次模函數(shù)是基于特征的函數(shù),并由如下等式2表示:
等式2:f(x)=\sum_{i\inf}\logm_f(x)
在等式2中,m_f(j)=觀察j中特征f的tf-idf分?jǐn)?shù)。
一輪未被標(biāo)記觀察選擇包括解決下面給出的等式3所表示的優(yōu)化問(wèn)題:
等式3:\max_{x\subsetequ_f,|x|\leqb}f(x\cupl)
在至少一個(gè)例子中,每一輪的未被標(biāo)記觀察選擇都包括解決由等式3表示的優(yōu)化問(wèn)題。在一些例子中,在定義次模函數(shù)時(shí)執(zhí)行至少一輪的未被標(biāo)記觀察選擇。在等式3中,l是被標(biāo)記觀察的集合。因此,如上所述,在本文中已經(jīng)提出了實(shí)現(xiàn)用于選擇未被標(biāo)記觀察的多樣性的至少兩種方式。然而,具有不同方案的額外例子也是可應(yīng)用的。
應(yīng)該理解的是,上述邏輯操作可以實(shí)現(xiàn)為(1)一系列計(jì)算機(jī)實(shí)現(xiàn)的動(dòng)作或在計(jì)算系統(tǒng)上運(yùn)行的程序模塊,和/或(2)計(jì)算系統(tǒng)內(nèi)的互連機(jī)器邏輯電路或電路模塊。實(shí)現(xiàn)方式是取決于計(jì)算系統(tǒng)的性能和其它要求進(jìn)行選擇的問(wèn)題。因此,本文描述的邏輯操作被多樣地稱為狀態(tài)操作、動(dòng)作或模塊。這些操作、動(dòng)作和/或模塊可以被實(shí)現(xiàn)于軟件、固件、專用數(shù)字邏輯、硬件及其任意組合中。還應(yīng)該理解的是,與圖中所示和本文描述相比,可以執(zhí)行更多或更少的操作。這些操作還可以以不同于本文描述的次序來(lái)執(zhí)行。
圖6是示出了能夠執(zhí)行本文描述的用于以上面給出的方式進(jìn)行主動(dòng)機(jī)器學(xué)習(xí)的軟件部件的計(jì)算機(jī)600的示例性計(jì)算機(jī)架構(gòu)。圖6中示出的計(jì)算機(jī)架構(gòu)示出了示例性計(jì)算機(jī)系統(tǒng)配置,并且計(jì)算機(jī)600可以用于執(zhí)行本文給出的被描述為在主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)110上執(zhí)行的部件和/或模塊或者與其通信的任意部件的任意方面。
圖6中示出的計(jì)算機(jī)架構(gòu)包括:處理單元602(例如,中央處理單元“cpu”、圖形處理單元“gpu”、或本文描述的其它處理單元);計(jì)算機(jī)可讀介質(zhì),其可以包括一個(gè)或多個(gè)系統(tǒng)存儲(chǔ)器608,包括隨機(jī)存取存儲(chǔ)器614(“ram”)和只讀存儲(chǔ)器(“rom”)616;以及系統(tǒng)總線604,其將存儲(chǔ)器耦合到處理單元602。包含幫助在計(jì)算機(jī)600內(nèi)的元件之間例如在啟動(dòng)時(shí)轉(zhuǎn)移信息的基本例程的基本輸入/輸出系統(tǒng)存儲(chǔ)于rom616中。計(jì)算機(jī)600還包括大容量存儲(chǔ)設(shè)備610,用于存儲(chǔ)操作系統(tǒng)618、應(yīng)用程序、以及其它程序模塊,將在下文更詳細(xì)地描述。
大容量存儲(chǔ)設(shè)備610通過(guò)連接到總線604上的大容量存儲(chǔ)控制器(未示出)連接到處理單元602。大容量存儲(chǔ)設(shè)備610及其相關(guān)聯(lián)的計(jì)算機(jī)可讀介質(zhì)為計(jì)算機(jī)600提供非易失性存儲(chǔ)。雖然包含于此的計(jì)算機(jī)可讀介質(zhì)的描述涉及大容量存儲(chǔ)設(shè)備,例如,硬盤或cd-rom驅(qū)動(dòng),但是本領(lǐng)域技術(shù)人員應(yīng)該理解的是,計(jì)算機(jī)可讀介質(zhì)可以包括能由計(jì)算機(jī)600訪問(wèn)的任意可用的計(jì)算機(jī)存儲(chǔ)介質(zhì)或通信介質(zhì)。
通信介質(zhì)包括計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、或在已調(diào)數(shù)據(jù)信號(hào)(例如載波)里的其它數(shù)據(jù)。如本文使用的,術(shù)語(yǔ)“已調(diào)數(shù)據(jù)信號(hào)”表示這樣一種信號(hào):其特性中的一個(gè)或多個(gè)以將信息編碼在該信號(hào)中的方式被改變或設(shè)置。通過(guò)示例而非限制,支持通信介質(zhì)的操作的物理部件包括:有線介質(zhì),例如有線網(wǎng)絡(luò)或直連線連接;以及無(wú)線介質(zhì),例如聲、rf、紅外以及其它無(wú)線介質(zhì)。上述任意組合也應(yīng)該包含于計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
通過(guò)示例而非限制,計(jì)算機(jī)存儲(chǔ)介質(zhì)可以包括易失性和非易失性、可移除和不可移除介質(zhì),其實(shí)現(xiàn)于存儲(chǔ)信息(例如,計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù))的任何方法或技術(shù)中。例如,計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于ram、rom、eprom、eeprom、閃存或其它存儲(chǔ)器技術(shù)、cd-rom、數(shù)字通用盤(“dvd”)、hd-dvd、藍(lán)光、或其它光盤存儲(chǔ)、磁帶盒、磁帶、磁盤存儲(chǔ)或其它磁存儲(chǔ)設(shè)備、或者能夠用于存儲(chǔ)期望信息并能夠由計(jì)算機(jī)600訪問(wèn)的任何其它介質(zhì)。如本文使用的,“計(jì)算機(jī)存儲(chǔ)介質(zhì)”并不包括“通信介質(zhì)”。
根據(jù)各種例子,計(jì)算機(jī)600可以在網(wǎng)絡(luò)環(huán)境中利用通過(guò)網(wǎng)絡(luò)(例如,網(wǎng)絡(luò)620)的去往遠(yuǎn)程計(jì)算機(jī)的邏輯連接進(jìn)行操作。計(jì)算機(jī)600可以通過(guò)連接到總線604上的網(wǎng)絡(luò)接口單元606連接到網(wǎng)絡(luò)620。應(yīng)該理解的是,網(wǎng)絡(luò)接口單元606還可以用于連接到其它類型的網(wǎng)絡(luò)和遠(yuǎn)程計(jì)算機(jī)系統(tǒng)。計(jì)算機(jī)600還可以包括輸入/輸出控制器612,用于接收和處理來(lái)自多個(gè)其它設(shè)備的輸入,包括鍵盤、鼠標(biāo)、或電子鐵筆、攝像機(jī)、觸摸接口等。類似地,輸入/輸出控制器可以將輸出提供給顯示屏、打印機(jī)、或其它類型的輸出設(shè)備。
如上簡(jiǎn)述的,多個(gè)程序模塊和數(shù)據(jù)文件可以存儲(chǔ)于計(jì)算機(jī)600的大容量存儲(chǔ)設(shè)備610和ram614中,包括適于控制網(wǎng)絡(luò)臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)或服務(wù)器計(jì)算機(jī)的操作的操作系統(tǒng)618。大容量存儲(chǔ)設(shè)備610和ram614還可以存儲(chǔ)一個(gè)或多個(gè)程序模塊,例如如上所述的輔助機(jī)器學(xué)習(xí)模型112、目標(biāo)機(jī)器學(xué)習(xí)模型114、比較部件118、標(biāo)記部件120、特征化部件122、和/或容量改善部件128。大容量存儲(chǔ)設(shè)備610和ram614還可以存儲(chǔ)其它類型的程序模塊、服務(wù)和數(shù)據(jù)。
應(yīng)該理解的是,本文描述的軟件部件可以在被加載到處理單元602并被執(zhí)行時(shí),將處理單元602和整個(gè)計(jì)算機(jī)架構(gòu)600從通用計(jì)算系統(tǒng)轉(zhuǎn)變?yōu)槎ㄖ茷楸阌诒疚奶岢龅墓δ艿膶S糜?jì)算系統(tǒng)??梢詮娜我鈹?shù)量的可以單獨(dú)地或統(tǒng)一地呈現(xiàn)任何數(shù)量的狀態(tài)的晶體管或其它分立電路元件來(lái)構(gòu)造處理單元602。更具體地,響應(yīng)于包含于本文公開的軟件模塊內(nèi)的可執(zhí)行指令,處理單元602可以作為有限狀態(tài)機(jī)進(jìn)行操作。這些計(jì)算機(jī)可執(zhí)行指令可以通過(guò)指定處理單元602如何在狀態(tài)之間轉(zhuǎn)換而轉(zhuǎn)變處理單元602,由此轉(zhuǎn)變構(gòu)成處理單元602的晶體管或其它分立硬件元件。
對(duì)本文給出的軟件模塊進(jìn)行編碼還可以轉(zhuǎn)變本文給出的計(jì)算機(jī)可讀介質(zhì)的物理結(jié)構(gòu)。在該描述的不同實(shí)現(xiàn)方式中,物理結(jié)構(gòu)的特定轉(zhuǎn)變可以取決于各種因素。這些因素的例子可以包括但不限于:用于實(shí)現(xiàn)計(jì)算機(jī)可讀介質(zhì)的技術(shù),計(jì)算機(jī)可讀介質(zhì)是特征化為主要的還是次要的存儲(chǔ)設(shè)備,等等。例如,如果計(jì)算機(jī)可讀介質(zhì)實(shí)現(xiàn)為基于半導(dǎo)體的存儲(chǔ)器,則可以通過(guò)轉(zhuǎn)變半導(dǎo)體存儲(chǔ)器的物理狀態(tài)而在計(jì)算機(jī)可讀介質(zhì)上編碼本文公開的軟件。例如,軟件可以轉(zhuǎn)變晶體管、電容器或構(gòu)成半導(dǎo)體存儲(chǔ)器的其它分立電路元件的狀態(tài)。軟件還可以轉(zhuǎn)變這些部件的物理狀態(tài),以便在其上存儲(chǔ)數(shù)據(jù)。
作為另一例子,本文描述的計(jì)算機(jī)可讀介質(zhì)可以利用磁或光技術(shù)實(shí)現(xiàn)。在這種實(shí)現(xiàn)方式中,當(dāng)在其中編碼軟件時(shí),本文給出的軟件可以轉(zhuǎn)變磁或光介質(zhì)的物理狀態(tài)。這些轉(zhuǎn)變可以包括改變給定磁介質(zhì)內(nèi)的特定位置的磁特性。這些轉(zhuǎn)變還可以包括改變給定的光介質(zhì)內(nèi)的特定位置的物理特征或特性,以改變這些位置的光特性。物理介質(zhì)的其它轉(zhuǎn)變是可能的,而不背離本描述的范圍和精神,其中僅提供前述例子以便于該描述。
鑒于以上,應(yīng)該理解的是,在計(jì)算機(jī)架構(gòu)600中發(fā)生許多類型的物理轉(zhuǎn)變,以便存儲(chǔ)和執(zhí)行本文提出的軟件部件。還應(yīng)該理解的是,計(jì)算機(jī)架構(gòu)600可以包括其它類型的計(jì)算設(shè)備,包括手持計(jì)算機(jī)、嵌入式計(jì)算機(jī)系統(tǒng)、個(gè)人數(shù)字助理、以及本領(lǐng)域技術(shù)人員已知的其它類型的計(jì)算設(shè)備。也能夠料想到的是,計(jì)算機(jī)架構(gòu)600可能不包括圖6中所示的所有部件,可能包括在圖6中沒有明確示出的其它部件,或者可能利用不同于圖6所示的架構(gòu)。
示例性條目
a:一種方法,包括:通過(guò)主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)發(fā)起主動(dòng)機(jī)器學(xué)習(xí),所述主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)被配置為訓(xùn)練輔助機(jī)器學(xué)習(xí)模型,以產(chǎn)生至少一個(gè)新的被標(biāo)記的觀察;至少基于主動(dòng)機(jī)器學(xué)習(xí)來(lái)改善目標(biāo)機(jī)器學(xué)習(xí)模型,其中目標(biāo)機(jī)器學(xué)習(xí)模型包括有限容量的機(jī)器學(xué)習(xí)模型;以及在改善目標(biāo)機(jī)器學(xué)習(xí)模型的容量之后,利用至少一個(gè)新的被標(biāo)記的觀察來(lái)重新訓(xùn)練輔助機(jī)器學(xué)習(xí)模型。
b:根據(jù)段落a所述的方法,其中,改善包括:改善目標(biāo)機(jī)器學(xué)習(xí)模型的容量。
c:根據(jù)段落a或b所述的方法,其中,輔助機(jī)器學(xué)習(xí)模型包括比目標(biāo)機(jī)器學(xué)習(xí)模型大的容量。
d:根據(jù)段落a-c中任一項(xiàng)所述的方法,其中,所述輔助機(jī)器學(xué)習(xí)模型包括語(yǔ)義機(jī)器學(xué)習(xí)模型。
e:根據(jù)段落d所述的方法,其中,語(yǔ)義機(jī)器學(xué)習(xí)模型包括詞袋機(jī)器學(xué)習(xí)模型。
f:根據(jù)段落a-e所述的方法,其中,發(fā)起主動(dòng)機(jī)器學(xué)習(xí)包括:從未被標(biāo)記的觀察的池中選擇一個(gè)或多個(gè)未被標(biāo)記的觀察。
g:根據(jù)段落f所述的方法,其中,改善容量包括:基于輔助機(jī)器學(xué)習(xí)模型響應(yīng)于處理一個(gè)或多個(gè)未被標(biāo)記的觀察的輸出,從目標(biāo)機(jī)器學(xué)習(xí)模型遞增地添加或移除特征。
h:根據(jù)段落a-g中任一項(xiàng)所述的方法,其中,改善容量包括:至少基于輔助機(jī)器學(xué)習(xí)模型的發(fā)起的主動(dòng)機(jī)器學(xué)習(xí),從目標(biāo)機(jī)器學(xué)習(xí)模型遞增地添加或移除特征。
i:根據(jù)段落a-h中任一項(xiàng)所述的方法,還包括:通過(guò)至少一個(gè)次模函數(shù)在發(fā)起的主動(dòng)機(jī)器學(xué)習(xí)中實(shí)現(xiàn)多樣性。
j:根據(jù)段落a-i中任一項(xiàng)所述的方法,還包括:通過(guò)在未被標(biāo)記觀察池中建立子集標(biāo)記集合來(lái)在發(fā)起的主動(dòng)機(jī)器學(xué)習(xí)中實(shí)現(xiàn)多樣性,所述子集標(biāo)記集合被配置為從所述子集標(biāo)記集合提供多樣化的未被標(biāo)記觀察。
k:根據(jù)段落j所述的方法,還包括:從子集標(biāo)記集合中選擇一個(gè)或多個(gè)未被標(biāo)記的觀察,以供輔助機(jī)器學(xué)習(xí)模型處理。
l:根據(jù)段落a-k中任一項(xiàng)所述的方法,還包括:至少基于輔助機(jī)器學(xué)習(xí)模型和目標(biāo)機(jī)器學(xué)習(xí)模型之間的不一致,來(lái)減少目標(biāo)機(jī)器學(xué)習(xí)模型的色盲。
m:一種計(jì)算機(jī)可讀介質(zhì),包括計(jì)算機(jī)可執(zhí)行指令,用于執(zhí)行段落a-l中任一項(xiàng)所述的方法。
n:一種計(jì)算機(jī),包括:處理單元;以及計(jì)算機(jī)可讀介質(zhì),其包括計(jì)算機(jī)可執(zhí)行指令,用于執(zhí)行段落a-l中任一項(xiàng)所述的方法。
o:一種系統(tǒng),包括:用于處理的單元;用于通過(guò)主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)發(fā)起主動(dòng)機(jī)器學(xué)習(xí)的單元,主動(dòng)機(jī)器學(xué)習(xí)系統(tǒng)被配置為訓(xùn)練輔助機(jī)器學(xué)習(xí)模型,以產(chǎn)生至少一個(gè)新的被標(biāo)記的觀察;用于至少基于主動(dòng)機(jī)器學(xué)習(xí)改善目標(biāo)機(jī)器學(xué)習(xí)模型的單元,其中所述目標(biāo)機(jī)器學(xué)習(xí)模型包括有限容量的機(jī)器學(xué)習(xí)模型;以及用于在改善目標(biāo)機(jī)器學(xué)習(xí)模型的容量之后,利用至少一個(gè)新的被標(biāo)記的觀察重新訓(xùn)練輔助機(jī)器學(xué)習(xí)模型的單元。
p:根據(jù)段落o所述的系統(tǒng),其中,用于改善的單元包括用于改善目標(biāo)機(jī)器學(xué)習(xí)模型的容量的單元。
q:根據(jù)段落o或p所述的系統(tǒng),其中,輔助機(jī)器學(xué)習(xí)模型包括比目標(biāo)機(jī)器學(xué)習(xí)模型大的容量。
r:根據(jù)段落o-q中任一項(xiàng)所述的系統(tǒng),其中,輔助機(jī)器學(xué)習(xí)模型包括語(yǔ)義機(jī)器學(xué)習(xí)模型。
s:根據(jù)段落r所述的系統(tǒng),其中,所述語(yǔ)義機(jī)器學(xué)習(xí)模型包括詞袋機(jī)器學(xué)習(xí)模型。
t:根據(jù)段落o-s中任一項(xiàng)所述的系統(tǒng),其中,用于發(fā)起主動(dòng)機(jī)器學(xué)習(xí)的單元包括:用于從未被標(biāo)記的觀察的池中選擇一個(gè)或多個(gè)未被標(biāo)記的觀察的單元。
u:根據(jù)段落t所述的系統(tǒng),其中,用于改善容量的單元包括:用于基于輔助機(jī)器學(xué)習(xí)模型響應(yīng)于處理一個(gè)或多個(gè)未被標(biāo)記的觀察的輸出,從目標(biāo)機(jī)器學(xué)習(xí)模型遞增地添加或移除特征的單元。
v:根據(jù)段落o-u中任一項(xiàng)所述的系統(tǒng),其中,用于改善容量的單元包括:用于至少基于輔助機(jī)器學(xué)習(xí)模型的發(fā)起的主動(dòng)機(jī)器學(xué)習(xí),從目標(biāo)機(jī)器學(xué)習(xí)模型遞增地添加或移除特征的單元。
w:根據(jù)段落o-v中任一項(xiàng)所述的系統(tǒng),還包括:用于通過(guò)至少一個(gè)次模函數(shù)在發(fā)起的主動(dòng)機(jī)器學(xué)習(xí)中實(shí)現(xiàn)多樣性的單元。
x:根據(jù)段落o-w中任一項(xiàng)所述的系統(tǒng),還包括:用于通過(guò)在未被標(biāo)記觀察池中建立子集標(biāo)記集合來(lái)在發(fā)起的主動(dòng)機(jī)器學(xué)習(xí)中實(shí)現(xiàn)多樣性的單元,所述子集標(biāo)記集合被配置為從所述子集標(biāo)記集合提供多樣化的未被標(biāo)記的觀察。
y:根據(jù)段落x所述的系統(tǒng),還包括:用于從子集標(biāo)記集合中選擇一個(gè)或多個(gè)未被標(biāo)記的觀察以供輔助機(jī)器學(xué)習(xí)模型處理的單元。
z:根據(jù)段落o-y中任一項(xiàng)所述的系統(tǒng),還包括:用于至少基于輔助機(jī)器學(xué)習(xí)模型和目標(biāo)機(jī)器學(xué)習(xí)模型之間的不一致而減少目標(biāo)機(jī)器學(xué)習(xí)模型的色盲的單元。
aa:一種計(jì)算機(jī)可讀介質(zhì),其上具有計(jì)算機(jī)可執(zhí)行指令,當(dāng)被計(jì)算機(jī)執(zhí)行時(shí),所述指令使得計(jì)算機(jī)執(zhí)行包括以下的操作:通過(guò)輔助機(jī)器學(xué)習(xí)模型從未被標(biāo)記的觀察的池中選擇未被標(biāo)記的觀察,其中未被標(biāo)記的觀察屬于多個(gè)類別中的哪個(gè)類別并不是已知的;基于輔助機(jī)器學(xué)習(xí)模型響應(yīng)于未被標(biāo)記的觀察的輸出,將未被標(biāo)記的觀察轉(zhuǎn)換為新的被標(biāo)記的觀察;基于所述轉(zhuǎn)換改善目標(biāo)機(jī)器學(xué)習(xí)模型的容量,其中所述目標(biāo)機(jī)器學(xué)習(xí)模型是有限容量的機(jī)器學(xué)習(xí)模型;以及在改善目標(biāo)機(jī)器學(xué)習(xí)模型的容量之后,利用新的被標(biāo)記的觀察重新訓(xùn)練輔助機(jī)器學(xué)習(xí)模型。
ab:根據(jù)段落aa所述的計(jì)算機(jī)可讀介質(zhì),其中,改善容量包括:基于包含于新的被標(biāo)記的觀察內(nèi)的特征,向目標(biāo)機(jī)器學(xué)習(xí)模型遞增地添加至少一個(gè)特征;以及基于包含于新的被標(biāo)記的觀察內(nèi)的特征,從目標(biāo)機(jī)器學(xué)習(xí)模型遞增地移除至少一個(gè)特征。
ac:根據(jù)段落aa或ab所述的計(jì)算機(jī)可讀介質(zhì),其中,選擇未被標(biāo)記的觀察包括:至少基于至少一個(gè)次模函數(shù)的優(yōu)化來(lái)選擇未被標(biāo)記的觀察。
ad:根據(jù)段落aa-ac中任一項(xiàng)所述的計(jì)算機(jī)可讀介質(zhì),其中,選擇未被標(biāo)記的觀察包括:從未被標(biāo)記的觀察的池中的子集標(biāo)記集合中選擇未被標(biāo)記的觀察,所述子集標(biāo)記集合被配置為提供多樣化的未被標(biāo)記觀察。
ae:根據(jù)段落aa-ad中任一項(xiàng)所述的計(jì)算機(jī)可讀介質(zhì),其中,改善目標(biāo)機(jī)器學(xué)習(xí)模型的容量包括:至少基于輔助機(jī)器學(xué)習(xí)模型和目標(biāo)機(jī)器學(xué)習(xí)模型之間的不一致,減少目標(biāo)機(jī)器學(xué)習(xí)模型的色盲。
af:一種計(jì)算機(jī),包括:處理單元;以及根據(jù)段落aa-ae中任一項(xiàng)所述的計(jì)算機(jī)可讀介質(zhì)。
ag:一種系統(tǒng),包括:輔助機(jī)器學(xué)習(xí)模型,被配置為將第一分?jǐn)?shù)分配給未被標(biāo)記的觀察;目標(biāo)機(jī)器學(xué)習(xí)模型,其被配置為將第二分?jǐn)?shù)分配給未被標(biāo)記的觀察,其中所述目標(biāo)機(jī)器學(xué)習(xí)模型和所述輔助機(jī)器學(xué)習(xí)模型來(lái)自不同的機(jī)器學(xué)習(xí)模型類別,并且其中所述目標(biāo)機(jī)器學(xué)習(xí)模型是有限容量的機(jī)器學(xué)習(xí)模型;比較部件,其被配置為比較所述第一分?jǐn)?shù)和第二分?jǐn)?shù),以確定所述目標(biāo)機(jī)器學(xué)習(xí)模型已經(jīng)返回假肯定或假否定結(jié)果的可能性;以及特征化部件,其被配置為接收所述比較部件的輸出。
ah:根據(jù)段落ag所述的系統(tǒng),其中,被配置為比較第一分?jǐn)?shù)和第二分?jǐn)?shù)的所述比較部件還被配置為執(zhí)行比較,包括:確定在第一分?jǐn)?shù)和第二分?jǐn)?shù)之間的差的幅度;在所述幅度為負(fù)時(shí),確定所述目標(biāo)機(jī)器學(xué)習(xí)模型已經(jīng)返回假肯定;以及在所述幅度為正時(shí),確定所述目標(biāo)機(jī)器學(xué)習(xí)模型已經(jīng)返回假否定。
ai:根據(jù)段落ag或ah所述的系統(tǒng),還包括容量改善部件,其與所述特征化部件可操作地通信,所述容量改善部件被配置為:當(dāng)所述目標(biāo)機(jī)器學(xué)習(xí)模型已經(jīng)返回假肯定時(shí),將目標(biāo)機(jī)器學(xué)習(xí)模型的范圍延伸為包括先前不在目標(biāo)機(jī)器學(xué)習(xí)模型的范圍內(nèi)的新特征。
aj:根據(jù)段落ag-ai中任一項(xiàng)所述的系統(tǒng),還包括容量改善部件,其與所述特征化部件可操作地通信,所述容量改善部件被配置為:當(dāng)所述目標(biāo)機(jī)器學(xué)習(xí)模型已經(jīng)返回假肯定時(shí),將目標(biāo)機(jī)器學(xué)習(xí)模型的范圍縮小為移除先前在目標(biāo)機(jī)器學(xué)習(xí)模型的范圍內(nèi)的特征。結(jié)論
雖然已經(jīng)以特定于結(jié)構(gòu)特征和/或方法動(dòng)作的語(yǔ)言描述了技術(shù)方案,但是應(yīng)該理解的是,在隨附權(quán)利要求中定義的技術(shù)方案不必局限于所描述的特定特征或動(dòng)作。而是,特定的特征和步驟被公開作為實(shí)現(xiàn)權(quán)利要求的示例性形式。
所有上述方法和過(guò)程可以體現(xiàn)在以及完全自動(dòng)的經(jīng)由由一個(gè)或多個(gè)通用計(jì)算機(jī)或處理器執(zhí)行的軟件代碼模塊。代碼模塊可以存儲(chǔ)于任意類型的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)或其它計(jì)算機(jī)存儲(chǔ)設(shè)備。一些或所有方法可以替代地體現(xiàn)在專用計(jì)算機(jī)硬件中。
條件語(yǔ)言例如“能夠”、“可以”、“能”或“可”,除非另有明確指出,否則在上下文中被理解為表示特定的例子包括而其它例子不包括特定的特征、元件和/或步驟。因此,這種條件語(yǔ)言一般不旨在暗示特定的特征、元件和/或步驟以任何方式被要求用于一個(gè)或多個(gè)例子或者一個(gè)或多個(gè)例子必須包括在具有或不具有用戶輸入或提示的情況下用于決定特定的特征、元件和/或步驟是否被包含在任何特定例子中或被執(zhí)行于任意特定例子的邏輯。
諸如短語(yǔ)“x、y或z中的至少一個(gè)”的連接語(yǔ)言除非另有明確陳述,否則將被理解為表示項(xiàng)目、術(shù)語(yǔ)等可以是x、y或x或其組合。
在本文描述的和/或在附圖中描繪的流程圖中的任意例程描述、元件或框應(yīng)該被理解為可能表示包括一個(gè)或多個(gè)可執(zhí)行指令的代碼的模塊、段或一部分,一個(gè)或多個(gè)可執(zhí)行指令用于在例程中實(shí)現(xiàn)特定邏輯功能或元件。替代的例子包含于本文描述的例子的范圍內(nèi),其中取決于所涉及的功能,可以刪除元件或功能、或以不同于圖示或討論的次序執(zhí)行元件或功能(包括本質(zhì)上同步地或以相反的次序),這對(duì)于本領(lǐng)域技術(shù)人員是可以理解的。
應(yīng)該強(qiáng)調(diào)的是,可以對(duì)上述例子進(jìn)行許多變型和修改,其元件可以被理解為處于其它可接受的例子中。所有這種修改和變型旨在被包含于本公開的范圍內(nèi)并由后續(xù)權(quán)利要求保護(hù)。