背景技術(shù):
通常,在文本分類問題中的特征化使用生成大量特征的自動化方式。最常用的是“詞包”或者n-gram包,其中每個特征對應(yīng)于文檔中的具體詞或者n詞短語的存在或者頻率。常規(guī)詞包方式產(chǎn)生具有數(shù)千個到數(shù)百萬個的維度的稀疏特征集合。大特征空間需要更多訓(xùn)練數(shù)據(jù)以減少過度擬合的風(fēng)險(該風(fēng)險使分類器對新數(shù)據(jù)的性能劣化)并且具有減少的可解釋性。由于詞包特征和其它自動地生成的特征沒有運用人類輸入,所以幾乎沒有機(jī)會來結(jié)合用戶的域知識。這造成高標(biāo)注和維護(hù)成本。
技術(shù)實現(xiàn)要素:
這里公開了涉及一種特征構(gòu)思器的實現(xiàn)方式的技術(shù)。特征構(gòu)思器可以有助于對特征的構(gòu)思和修改。可以應(yīng)用創(chuàng)建和/或修改的特征以在機(jī)器學(xué)習(xí)(ml)過程中創(chuàng)建模型。在一些示例中,技術(shù)可以使用分類器。分類器可以接收訓(xùn)練數(shù)據(jù)作為輸入并且輸出錯誤集合。可以基于錯誤集合向教師提供有助于來自教師的輸入的界面。來自教師的輸入可以用來重新訓(xùn)練教師。分類器可以基于從教師的接收的輸入更新錯誤集合。在一些示例中,為了增加錯誤集合對教師的可用性,可以在界面中渲染錯誤的可視概要。錯誤的可視概要在一些實例中可以增加用戶對相對大的樣本錯誤集合進(jìn)行排序的能力。
提供這一發(fā)明內(nèi)容以用簡化形式介紹以下在具體實施方式中被進(jìn)一步描述的技術(shù)的選集。這一發(fā)明內(nèi)容旨在于在確定要求保護(hù)的主題內(nèi)容時用作輔助。術(shù)語“技術(shù)”例如可以指代系統(tǒng)、方法、計算機(jī)可讀介質(zhì)/指令、模塊、算法、硬件邏輯(例如,現(xiàn)場可編程門陣列(fpga)、專用集成電路(asic)、專用標(biāo)準(zhǔn)產(chǎn)品(assp)、片上系統(tǒng)(soc)、復(fù)雜可編程邏輯器件(cpld))和/或如由以上描述的上下文和貫穿本文所允許的技術(shù)。
附圖說明
參照附圖描述具體實施方式。在不同圖中的相同標(biāo)號指示相似或者相同項目。
圖1是描繪了特征構(gòu)思器的示例可以操作于其中的示例環(huán)境的框圖。
圖2是描繪了能夠?qū)嵤┻@里呈現(xiàn)的實施例的各方面的說明性設(shè)備的框圖。
圖3至圖6是描繪了對特征構(gòu)思用戶界面的使用的示圖。
圖7是描繪看示例特征構(gòu)思例程的流程圖。
圖8是圖示了用于生成用于用戶界面(比如圖3至圖6的特征構(gòu)思用戶界面)的錯誤和對比部分的候選詞項的示例過程的流程圖。
具體實施方式
本公開內(nèi)容涉及用于使用特征構(gòu)思器來構(gòu)思或者修改將被應(yīng)用于模型的特征的技術(shù)??梢杂枚喾N方式來實施這里描述的技術(shù)和系統(tǒng)。以下參照下圖來提供示例實現(xiàn)方式??梢越M合這里描述的實現(xiàn)方式、示例和說明。
概述
本公開內(nèi)容涉及用于在機(jī)器學(xué)習(xí)系統(tǒng)中的特征構(gòu)思的技術(shù)。根據(jù)各種示例,機(jī)器學(xué)習(xí)系統(tǒng)利用用戶界面以引起來自教師(或者學(xué)生)的輸入。一些示例利用人類作為教師,而一些示例利用各種計算過程作為教師,并且一些示例利用它們的組合。根據(jù)一些示例,用戶界面被設(shè)計為呈現(xiàn)候選特征以供用戶考慮。
候選特征在機(jī)器學(xué)習(xí)系統(tǒng)對數(shù)據(jù)的訓(xùn)練集合分類時由機(jī)器學(xué)習(xí)系統(tǒng)生成。數(shù)據(jù)的訓(xùn)練集合可以包括但不限于文本數(shù)據(jù)、文檔、視頻數(shù)據(jù)、音頻數(shù)據(jù)、圖解數(shù)據(jù)以及它們的各種組合。經(jīng)由用戶界面向用戶呈現(xiàn)產(chǎn)生自對數(shù)據(jù)的訓(xùn)練集合的分類的一個或者多個錯誤或者與錯誤關(guān)聯(lián)的詞項。在用戶界面中顯示的候選特征可以基于各種標(biāo)準(zhǔn)由機(jī)器學(xué)習(xí)系統(tǒng)選擇。對一個或者多個候選特征的選擇可以由機(jī)器學(xué)習(xí)系統(tǒng)接收。選擇的候選特征由機(jī)器學(xué)習(xí)系統(tǒng)使用作為用于后續(xù)分類操作的輸入。在一些示例中,候選特征選擇的更多迭代和對機(jī)器學(xué)習(xí)系統(tǒng)的重新訓(xùn)練增加機(jī)器學(xué)習(xí)系統(tǒng)在對數(shù)據(jù)的訓(xùn)練集合分類時的準(zhǔn)確度。
一些示例可以向用戶(或者教師)提供輔助以確被應(yīng)用以創(chuàng)建模型的一個或者多個特征。這樣的輔助可以包括對候選特征的標(biāo)識,這些候選特征可以幫助用戶構(gòu)想用于模型的特征。輔助也可以包括顯示信息和提供幫助指導(dǎo)用戶的可選擇控件的用戶界面。這些方面可以造成來自計算機(jī)的更準(zhǔn)確的輸出。示例也可以訓(xùn)練分類器,該分類器以降低計算使用和/或減少網(wǎng)絡(luò)帶寬的使用的方式而被應(yīng)用于模型。
可以用多種方式來施這里描述的技術(shù)和系統(tǒng)。以下參照下圖提供示例實現(xiàn)方式??梢越M合這里描述的實現(xiàn)方式、示例和說明。
示例環(huán)境
圖1是描繪了這里描述的示例可以操作于其中的示例環(huán)境100的框圖。環(huán)境100可以包括用戶設(shè)備102和服務(wù)器計算機(jī)104。用戶設(shè)備102和/或服務(wù)器計算機(jī)104在一些示例是分布式計算架構(gòu)的部分。在一些配置中,用戶設(shè)備102和/或服務(wù)器計算機(jī)104是設(shè)備。雖然不限于任何特定配置,但是設(shè)備可以包括固定設(shè)備、移動設(shè)備或者嵌入式設(shè)備。
固定設(shè)備的示例包括但不限于臺式計算設(shè)備、服務(wù)器計算設(shè)備、專用游戲控制臺等。移動設(shè)備的示例包括但不限于膝上計算機(jī)、筆記本計算機(jī)、超便攜計算機(jī)、上網(wǎng)本計算機(jī)或者計算設(shè)備(比“智能”移動電話、平板設(shè)備、托板設(shè)備、便攜視頻游戲設(shè)備)等。嵌入式設(shè)備的示例包括但不限于具有因特網(wǎng)功能的電視、汽車、電器等。就這一點而言,一般地應(yīng)當(dāng)認(rèn)識到,包括用戶設(shè)備102和服務(wù)器計算機(jī)104的硬件部件僅為說明性并且可以使用其它類型的硬件設(shè)備來實施這里描述的實施例。服務(wù)器計算機(jī)104可以具有經(jīng)由總線110被可操作地連接到計算機(jī)可讀介質(zhì)108的處理單元106。計算機(jī)可讀介質(zhì)108存儲用于實施這里描述的各種技術(shù)的計算機(jī)可執(zhí)行指令。
用戶設(shè)備102經(jīng)由網(wǎng)絡(luò)112與服務(wù)器計算機(jī)104通信。應(yīng)當(dāng)認(rèn)識到,這里描述的技術(shù)不限于要求用戶設(shè)備102經(jīng)由網(wǎng)絡(luò)112與服務(wù)器計算機(jī)104通信,因為可以完全地或者部分地在用戶設(shè)備102上實施這里描述的方面而沒有服務(wù)器計算機(jī)104。
這里描述的技術(shù)不限于用于網(wǎng)絡(luò)112的任何特定類型的聯(lián)網(wǎng)實現(xiàn)方式。例如,網(wǎng)絡(luò)112可以包括公共網(wǎng)絡(luò)(比如因特網(wǎng))、私人網(wǎng)絡(luò)(比如機(jī)構(gòu)和/或個人內(nèi)部網(wǎng))或者公共和網(wǎng)絡(luò)私人網(wǎng)絡(luò)的某個組合。網(wǎng)絡(luò)112也可以包括任何類型的有線網(wǎng)絡(luò)和/或無線網(wǎng)絡(luò),包括但不限于局域網(wǎng)(lan)、廣域網(wǎng)(wan)、衛(wèi)星網(wǎng)絡(luò)、線纜網(wǎng)絡(luò)、wi-fi網(wǎng)絡(luò)、wimax網(wǎng)絡(luò)、移動通信網(wǎng)絡(luò)(例如,3g、4g等等)或者它們的任何組合。網(wǎng)絡(luò)112可以利用通信協(xié)議,包括基于分組和/或基于數(shù)據(jù)報的協(xié)議(比如網(wǎng)際協(xié)議(ip)、傳輸控制協(xié)議(tcp)、用戶數(shù)據(jù)報協(xié)議(udp))或者其它類型的協(xié)議。另外,網(wǎng)絡(luò)112也可以包括有助于網(wǎng)絡(luò)通信和/或形成用于網(wǎng)絡(luò)的硬件基礎(chǔ)的多個設(shè)備,比如交換機(jī)、路由器、網(wǎng)關(guān)、接入點、防火墻、基站、重發(fā)器、主干設(shè)備等。
在一些示例中,網(wǎng)絡(luò)112還可以包括實現(xiàn)連接到無線網(wǎng)絡(luò)的設(shè)備,比如無線接入點(wap)。示例支持通過wap的連通,這些wap通過各種電磁頻率(例如,射頻)來發(fā)送和接收數(shù)據(jù),包括支持電氣和電子工程師協(xié)會(ieee)1302.11標(biāo)準(zhǔn)(例如1302.11g、1302.11n等等)的wap)和其它標(biāo)準(zhǔn)。
在一個實現(xiàn)方式中,服務(wù)器計算機(jī)104執(zhí)行特征構(gòu)思器114。特征構(gòu)思器114可以用來生成和/或修改一個或者多個特征以訓(xùn)練分類器116。分類器116可以接收數(shù)據(jù)的訓(xùn)練集合118作為輸入。數(shù)據(jù)的訓(xùn)練集合118是由分類器116使用的數(shù)據(jù)全集。在一些示例中,數(shù)據(jù)是文本數(shù)據(jù)。在其它示例中,數(shù)據(jù)可以是音頻數(shù)據(jù)或者可視數(shù)據(jù)。當(dāng)前公開的主題內(nèi)容不限于由特征構(gòu)思器114使用的任何特定類型的數(shù)據(jù)??梢栽跀?shù)據(jù)存儲庫120或者遠(yuǎn)程數(shù)據(jù)存儲庫122或者它們的組合中存儲數(shù)據(jù)的訓(xùn)練集合118??梢杂枚喾N方式生成數(shù)據(jù)的訓(xùn)練集合118。在一些示例中,數(shù)據(jù)的訓(xùn)練集合118可以是在遠(yuǎn)程數(shù)據(jù)存儲庫122中存儲的文本數(shù)據(jù)的字典124的部分。在一些示例中,字典124(或者詞典)可以是一起用來形成特征的一組詞或者n-gram。例如,如果創(chuàng)建了包含用于每個詞的一個詞的字典,則字典特征可以與詞包相同。在教師使用特征構(gòu)思來選擇詞或者n-gram時,教師可以將這些詞或者n-gram分組成字典以創(chuàng)建特征。例如,如果特征構(gòu)思建議詞“car”,則教師可以將“car”、“cars”、“automobile”和“automobiles”一起放在“字典”中。所得特征將可以對文檔中的詞“car”的詞項頻率計數(shù),但是也可以對所有其它詞項計數(shù)并且將它們一起求和以代表car“概念”。
向特征構(gòu)思器114充當(dāng)教師的用戶125可以啟動特征構(gòu)思器114以生成將按照各種方式被應(yīng)用于不同數(shù)據(jù)集合的模型126。模型126可以包括各種部件或者輸入(比如分類器116)或者由這些部件或者輸入構(gòu)成。特征構(gòu)思器114可以訪問數(shù)據(jù)存儲庫120或者遠(yuǎn)程數(shù)據(jù)存儲庫122之一或者二者(如適用的那樣)以接收數(shù)據(jù)的訓(xùn)練集合118。在一些示例中,數(shù)據(jù)的訓(xùn)練集合118包括已經(jīng)被解構(gòu)成組成分量的文本數(shù)據(jù)。例如,數(shù)據(jù)的訓(xùn)練集合118可以包括兩個或者更多各詞的短語??梢詫⒍陶Z的部分或者全部解構(gòu)成短語的個別詞而不是短語本身。然而,應(yīng)當(dāng)認(rèn)識到,當(dāng)前公開的主題內(nèi)容不限于解構(gòu)的數(shù)據(jù)的訓(xùn)練集合。在一些示例中,數(shù)據(jù)的訓(xùn)練集合118被標(biāo)注。在一些示例中,標(biāo)注可以包括標(biāo)簽、描述符、類或者適用于數(shù)據(jù)的其它信息。因此,在一些示例中,數(shù)據(jù)的訓(xùn)練集合118可以包括標(biāo)注的文本數(shù)據(jù)。
特征構(gòu)思器114可以引起分類器116分析數(shù)據(jù)的訓(xùn)練集合118的至少部分。由分類器116分析數(shù)據(jù)的訓(xùn)練集合118可能產(chǎn)生一個或者多個錯誤。如這里所用,在分類器116與如何標(biāo)注數(shù)據(jù)的訓(xùn)練集合118的數(shù)據(jù)點不同地對數(shù)據(jù)點分類時生成錯誤。在一些實例中,可以優(yōu)選減少分類器116在分析數(shù)據(jù)的訓(xùn)練集合118的部分時生成的錯誤的數(shù)目。減少錯誤數(shù)目可以增加模型126的有用性和有效性。
特征構(gòu)思器114可以將候選特征生成器128初始化。候選特征生成器128可以分析錯誤并且確定可以糾正錯誤的一個或者多個詞項??梢约m正錯誤的一個或者多個詞項是候選特征。如果候選特征由教師(比如用戶12)5選擇,則可以將候選特征作為輸入應(yīng)用于模型126作為應(yīng)用的特征。候選特征生成器128也可以用來生成對比詞項。在一些示例中,對比詞項是不生成錯誤的詞項。
特征構(gòu)思器114也可以啟動概要生成器130。概要生成器130可以標(biāo)識確定的數(shù)目的待顯示的候選特征或者對比詞項。顯示的候選特征或者對比詞項可以由概要生成器130使用各種標(biāo)準(zhǔn)來選擇。在標(biāo)準(zhǔn)的一個示例中,如果選擇了特定候選特征或者對比詞項作為特征,則可以基于分類器的預(yù)計的準(zhǔn)確度增加來選擇顯示的候選特征或者對比詞項。以下在圖8中描述了使用概要生成器130的示例過程。
如以上簡要地指出的那樣,特征構(gòu)思器114可以用來生成特征。可以將特征應(yīng)用于分類器116作為應(yīng)用的特征以訓(xùn)練分類器116。訓(xùn)練分類器116可以增加使用由分類器116提供的信息的模型126的效率和準(zhǔn)確度。特征構(gòu)思器114可以接收由用戶128提供的選擇作為輸入。特征構(gòu)思器114可以提供信息以在用戶設(shè)備102的顯示器中渲染其示例在圖3至圖6中被描述的特征構(gòu)思用戶界面132。
特征構(gòu)思器114可以將分類器116應(yīng)用于數(shù)據(jù)的訓(xùn)練集合118以生成與在將分類器116應(yīng)用于數(shù)據(jù)的訓(xùn)練集合118時生成的錯誤關(guān)聯(lián)的一個或者多個詞項(候選特征)。特征構(gòu)思器114可以引起在特征構(gòu)思用戶界面132中渲染候選特征。特征構(gòu)思器114可以接收對候選特征中的一個或者多個候選特征的選擇的輸入并且向分類器116輸入選擇的一個或者多個候選特征作為應(yīng)用的特征以重新訓(xùn)練分類器116。下圖用附加細(xì)節(jié)說明了特征構(gòu)思器114的這些和其它方面。
示例架構(gòu)
圖2示出了可以代表用戶設(shè)備102或者服務(wù)器計算機(jī)104的說明性設(shè)備200??梢岳谜f明性設(shè)備200以執(zhí)行這里呈現(xiàn)的軟件部件的任何方面。圖2中所示的說明性設(shè)備200可以包括任何類型的計算設(shè)備,該計算設(shè)備具有可操作以連接到計算機(jī)可讀介質(zhì)203(比如計算機(jī)可讀介質(zhì)108)的中央處理單元(cpu)202,比如處理單元106。計算機(jī)可讀介質(zhì)203可以包括系統(tǒng)存儲器204,系統(tǒng)存儲器204包括隨機(jī)存取存儲器206(ram)和只讀存儲器(rom)208。系統(tǒng)總線210將計算機(jī)可讀介質(zhì)203耦合到cpu202。在rom208中存儲基本輸入/輸出系統(tǒng),該基本輸入/輸出系統(tǒng)包含幫助比如在啟動期間在說明性設(shè)備200內(nèi)的單元之間傳送信息的基本例程。計算機(jī)可讀介質(zhì)203還包括用于存儲計算機(jī)可執(zhí)行指令的海量存儲設(shè)備212,這些計算機(jī)可執(zhí)行指令用于實施包括但不限于特征構(gòu)思器114的一個或者多個應(yīng)用程序。海量存儲設(shè)備212也可以已經(jīng)在其中存儲了用于實施模型126和數(shù)據(jù)存儲庫120的計算機(jī)可執(zhí)行指令??梢栽诎▎翁幚砥骰蛘叨嗵幚砥飨到y(tǒng)、單核或者多核處理器、小型計算機(jī)、大型機(jī)計算機(jī)、個人計算機(jī)、手持計算設(shè)備、基于微處理器、可編程消費者電子裝置、它們的組合等的各種系統(tǒng)配置上實施計算機(jī)可執(zhí)行指令。
海量存儲設(shè)備212可以通過被連接到總線210的海量存儲控制器(未示出)被連接到cpu202。海量存儲設(shè)備212及其關(guān)聯(lián)的計算機(jī)可讀介質(zhì)可以提供用于說明性設(shè)備200的非易失性存儲裝置。雖然這里包含的對計算機(jī)可讀介質(zhì)的描述涉及海量存儲設(shè)備(比如硬盤或者cd-rom驅(qū)動),但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)認(rèn)識到,計算機(jī)可讀介質(zhì)可以包括可以由說明性設(shè)備200訪問的任何可用計算機(jī)存儲介質(zhì)或者通信介質(zhì)。
通信介質(zhì)在調(diào)制的數(shù)據(jù)信號(比如載波)中包括計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者其它數(shù)據(jù)。如這里所用,術(shù)語“調(diào)制的數(shù)據(jù)信號”意味著如下信號,該信號讓它的特性中的一個或者多個特性按照對信號中的信息編碼這樣的方式來設(shè)置或者改變。舉例而言并且沒有限制,實現(xiàn)通信介質(zhì)的操作的物理介質(zhì)包括有線介質(zhì)(比如有線網(wǎng)絡(luò)或者直接有線連接)以及無線介質(zhì)(比如聲、rf、紅外線和其它無線介質(zhì))。也應(yīng)當(dāng)在計算機(jī)可讀介質(zhì)的范圍內(nèi)包括以上介質(zhì)中的任何介質(zhì)的組合。
舉例而言并且沒有限制,計算機(jī)存儲介質(zhì)可以包括在用于存儲信息(比如計算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者其它數(shù)據(jù))的任何方法或者技術(shù)中實施的易失性和非易失性、可拆卸和非可拆卸介質(zhì)。例如,計算機(jī)存儲介質(zhì)包括但不限于ram、rom、eprom、eeprom、閃存或者其它固態(tài)存儲器技術(shù)、cd-rom、數(shù)字萬用盤(dvd)、hd-dvd、藍(lán)光或者其它光學(xué)存儲裝置、磁盒、磁帶、磁盤存儲裝置或者其它磁存儲設(shè)備或者可以用來存儲希望的信息并且可以由說明性設(shè)備200訪問的任何其它介質(zhì)。如這里所用,“計算機(jī)存儲介質(zhì)”沒有包括“通信介質(zhì)”。
根據(jù)各種實施例,說明性設(shè)備200可以使用通過網(wǎng)絡(luò)(比如網(wǎng)絡(luò)112)與遠(yuǎn)程計算機(jī)的邏輯連接來在聯(lián)網(wǎng)環(huán)境中操作。說明性設(shè)備200可以通過被連接到總線210的網(wǎng)絡(luò)接口單元214來連接到網(wǎng)絡(luò)112。應(yīng)當(dāng)認(rèn)識到,也可以利用網(wǎng)絡(luò)接口單元214以連接到其它類型的網(wǎng)絡(luò)計算機(jī)系統(tǒng)和遠(yuǎn)程計算機(jī)系統(tǒng)。說明性設(shè)備200也可以包括用于接收和處理從包括其它設(shè)備(比如鍵盤、鼠標(biāo)、電子觸筆、相機(jī)、觸摸界面等)的多個來源的輸入的輸入/輸出控制器216。相似地,輸入/輸出控制器216可以向顯示屏幕、打印機(jī)或者其它類型的輸出設(shè)備提供輸出。
應(yīng)當(dāng)認(rèn)識到,這里描述的軟件部件可以在被加載到cpu202中并且被執(zhí)行時將cpu202和整個說明性設(shè)備200從通用計算機(jī)系統(tǒng)變換成被定制為有助于這里呈現(xiàn)的功能的專用計算系統(tǒng)。cpu202可以由可以個別地或者共同地呈現(xiàn)任何數(shù)目的狀態(tài)的任何數(shù)目的晶體管或者其它分立電路元件構(gòu)造。更具體地,cpu202可以響應(yīng)于在這里公開的軟件模塊內(nèi)包含的可執(zhí)行指令、作為有限狀態(tài)機(jī)來操作。這些計算機(jī)可執(zhí)行指令可以通過指定cpu202如何在狀態(tài)之間轉(zhuǎn)變來變換cpu202,由此變換構(gòu)成cpu202的晶體管或者其它分立硬件元件。
對這里呈現(xiàn)的軟件模塊編碼也可以變換這里呈現(xiàn)的計算機(jī)可讀介質(zhì)的物理結(jié)構(gòu)。物理結(jié)構(gòu)的具體變換可以在本描述的不同實現(xiàn)方式中依賴于各種因素。這樣的因素的示例可以包括但不限于用來實施計算機(jī)可讀介質(zhì)的技術(shù)、無論計算機(jī)可讀介質(zhì)以主或者次存儲裝置等為特征。例如,如果計算機(jī)可讀介質(zhì)被實施為基于半導(dǎo)體的存儲器,則可以通過變換半導(dǎo)體存儲器的物理狀態(tài)來在計算機(jī)可讀介質(zhì)上對這里公開的軟件編碼。例如,軟件可以變換構(gòu)成半導(dǎo)體存儲器的晶體管、電容器或者其它分立電路元件的狀態(tài)。軟件也可以變換這樣的部件的物理狀態(tài)以便在其上存儲數(shù)據(jù)。
作為另一示例,可以使用磁或者光學(xué)技術(shù)來實施這里公開的計算機(jī)可讀介質(zhì)。在這樣的實現(xiàn)方式中,這里呈現(xiàn)的軟件可以當(dāng)在磁或者光學(xué)介質(zhì)中對軟件編碼時變換介質(zhì)的物理狀態(tài)。這些變換也可以包括變更在給定的磁介質(zhì)內(nèi)的特定位置的磁特性。這些變換也可以包括變更在給定的光學(xué)介質(zhì)內(nèi)的特定位置的物理特征或者特性以改變那些位置的光學(xué)特性。物理介質(zhì)的其它變換是有可能的而沒有脫離本描述的范圍和精神,其中提供前述示例僅有助于這一描述。
按照上文,應(yīng)當(dāng)認(rèn)識到,許多類型的物理變換在說明性設(shè)備200中發(fā)生以便存儲和執(zhí)行這里呈現(xiàn)的軟件部件。也應(yīng)當(dāng)認(rèn)識到,說明性設(shè)備200可以包括其它類型的計算設(shè)備,包括手持計算機(jī)、嵌入式計算機(jī)系統(tǒng)、個人數(shù)字助理和本領(lǐng)域技術(shù)人員已知的其它類型的計算設(shè)備。也設(shè)想了說明性設(shè)備200可以沒有包括圖2中所示的所有部件、可以包括沒有在圖2中明示的其它部件或者可以利用與圖2中所示的架構(gòu)不同的架構(gòu)。
示例用戶界面
圖3、圖4、圖5和圖6圖示了示例用戶界面,這些用戶界面描繪了用于機(jī)器學(xué)習(xí)中的錯誤驅(qū)動的特征構(gòu)思的可視支持的各方面。圖3是可以用來與特征構(gòu)思器114交互以生成和/或修改應(yīng)用的特征的特征構(gòu)思用戶界面330的示圖??梢栽陲@示器(比如用于圖1的用戶設(shè)備102的顯示器)中渲染特征構(gòu)思用戶界面330。特征構(gòu)思用戶界面330可以包括特征化區(qū)域332。特征化區(qū)域332可以包括創(chuàng)建特征區(qū)段334和應(yīng)用的特征區(qū)段336。應(yīng)用的特征區(qū)段336可以包括已經(jīng)被標(biāo)識和選擇以被應(yīng)用于數(shù)據(jù)的訓(xùn)練集合118的一個或者多個特征。
創(chuàng)建特征區(qū)段334可以在創(chuàng)建一個或者多個特征以訓(xùn)練分類器116的過程中由用戶使用。創(chuàng)建特征區(qū)段334可以包括名稱區(qū)域338。在一些示例中,分類器116可以分析先前未分析的數(shù)據(jù)或者分析已經(jīng)標(biāo)識了未被應(yīng)用特征的數(shù)據(jù)。為了向分類器116提供某個輸入(或者指引),可以提供名稱(或者其它文本)。例如,可以希望訓(xùn)練分類器116以對與騎自行車關(guān)聯(lián)的詞項分類。用戶可以向名稱區(qū)域338中輸入詞項以“播種”或者開始分類。然而,應(yīng)當(dāng)理解,當(dāng)前公開的主題內(nèi)容的各種實現(xiàn)方式無需種子詞項或者任何其它詞項以開始對數(shù)據(jù)的訓(xùn)練集合118的分類。
名稱區(qū)域338也可以用來標(biāo)識待創(chuàng)建的特定模型126。例如,用戶可以在名稱區(qū)域338中輸入“bicyclewebpages”并且選擇保存/更新特征342以將輸入的“bicyclewebpages”保存為正被創(chuàng)建或者修改的特定模型126。用戶也可以在詞區(qū)域340中輸入可以有用于分類器116開始或者繼續(xù)它的分類和錯誤標(biāo)識過程的詞項。例如,用戶可以在詞區(qū)域340中輸入詞項,比如“bicycle”、“mountainbike”和“pedal”。用戶125(或者教師)可以選擇保存/更新特征342以引起分類器116分析數(shù)據(jù)的訓(xùn)練集合18并且基于圖4中進(jìn)一步具體所示的在分析中確定的錯誤來生成一個或者多個候選特征。
圖4是描繪了由特征構(gòu)思器114生成的候選特征344的特征構(gòu)思用戶界面330的示圖。在候選特征區(qū)段346中渲染候選特征334。候選特征344可以包括與在分類器116分析數(shù)據(jù)的訓(xùn)練集合118時被確定的錯誤關(guān)聯(lián)的一個或者多個詞項。可以通過各種過程(比如以下在圖8中描述的例程)來生成候選特征344。然而,在一些示例中,候選特征344是與在分類器116對數(shù)據(jù)的訓(xùn)練集合118的指明的部分分類時被確定的錯誤關(guān)聯(lián)的一個或者多個詞項。包括候選特征344的詞項可以是與錯誤關(guān)聯(lián)的詞項。當(dāng)前公開的主題內(nèi)容不限于生成候選特征344的任何特定方式。
在圖4中所示的示例中,特征構(gòu)思器114啟動分類器116。分類器116被指引以對數(shù)據(jù)的訓(xùn)練集合118的至少部分分類。應(yīng)當(dāng)理解,在一些示例中,僅對數(shù)據(jù)的訓(xùn)練集合118的部分分類。
雖然可以存在僅對部分分類的各種原因,但是一個原因可以是數(shù)據(jù)的訓(xùn)練集合118的大小排除相對快速或者可接受的響應(yīng)時間。當(dāng)前公開的主題內(nèi)容不限于數(shù)據(jù)的訓(xùn)練集合118的任何特定樣本大小或者部分。另外,當(dāng)前公開的主題內(nèi)容不限于數(shù)據(jù)的單個訓(xùn)練集合,因為分類器116可以接收數(shù)據(jù)的若干不同訓(xùn)練集合作為輸入。這些和其它變化被認(rèn)為在當(dāng)前公開的主題內(nèi)容的范圍內(nèi)。
回到圖4,在對數(shù)據(jù)的特定訓(xùn)練集合118分類時,候選特征生成器128分析分類器的結(jié)果并且生成用于在候選特征區(qū)段346中渲染的一個或者多個候選特征334。候選特征334是從更大組的候選特征選擇的候選特征的部分。雖然不限于用于選擇一個候選特征勝過另一候選特征的任何特定原因,但是可以存在用于這樣做的各種原因。例如,一些候選特征344如果被選擇為特征則可以糾正比其它候選特征更大數(shù)目的錯誤。在另一示例中,一些候選特征可以比其它候選特征與正被開發(fā)的特定模型更高度地相關(guān)。當(dāng)前公開的主題內(nèi)容不限于用于選擇候選特征344以用于在候選特征區(qū)段346中顯示的任何特定原因。
在一些示例中,可以按照指示排名的方式來渲染候選特征344。候選特征344可以從按照某個標(biāo)準(zhǔn)比在渲染的候選特征344的結(jié)束附近的候選特征更高排名的候選特征開始。例如,候選特征“accessories”可以代表相對顯著的錯誤,而候選特征“account”可以代表相對更小的錯誤。排名可以幫助將用戶的注意力引向更相關(guān)或者有影響的特征(例如,對糾正錯誤的影響大)而又仍然提供用于附加信息的更低排名的特征??梢杂弥甘竞蜻x特征344的排名的方式對它們進(jìn)行排名和顯示。例如,可以比其它更低排名的候選特征344用更大字體渲染或者在列表的頂部渲染具有相對更高排名的候選特征344。當(dāng)前公開的主題內(nèi)容不限于任何特定排名方法或者在用戶界面中表示排名的方式。
在一些示例中,特征構(gòu)思器114也可以引起對比詞項區(qū)段348被渲染。對比詞項區(qū)段348可以包括一個或者多個對比詞項350。雖然不限于任何特定分類,但是對比詞項350可以是被恰當(dāng)?shù)胤诸惖囊粋€或者多個詞項。這些對比詞項350在一些示例中可以是用于用戶確定用于以與候選特征344相似的方式作用來訓(xùn)練分類器116的附加信息源。
可以按照指示對比詞項350的排名的方式來對它們進(jìn)行排名和顯示。例如,可以比其它更低排名的對比詞項350用更大字體渲染或者在列表的頂部渲染具有相對更高排名的對比詞項350。當(dāng)前公開的主題內(nèi)容不限于任何特定排名方法或者在用戶界面中表示排名的方式??梢酝ㄟ^各種過程(比如以下在圖7中描述的例程)來生成對比詞項350。
在一些示例中,除了在各自的不同成員之間進(jìn)行排名或者以別的方式區(qū)分之外,還可以提供關(guān)于候選特征344或者對比詞項350的附加信息。在一個示例中,可以與候選特征344或者對比詞項350中的詞項中的一個或者多個詞項鄰近地渲染頻率指示符352。
可以按照各種方式對文檔(或者其它類型的數(shù)據(jù))分類。在一些實現(xiàn)方式中,可以將文檔分類為肯定或者否定。在一些示例中,肯定文檔是分類器116確定滿足模型126的要求的文檔。在更多示例中,否定文檔是分類器116確定沒有滿足模型126的要求的文檔。頻率指示符352可以包括具有某個長度的頂部欄,該長度指示肯定文檔中的特定詞項的頻率。頻率指示符352也可以包括具有某個長度的更低欄,該長度指示否定文檔中的特定詞項的頻率。高頻詞項、具有更大欄的詞項可以提供更佳廣義化;欄長度大為不同的詞項可以幫助分類器116辨別肯定和否定。
在一些示例中,候選特征344或者對比特征350中的特定抽象可以是可選擇的或者是提供的另一界面,該界面在被選擇時給予關(guān)于對特定欄長度的計算的附加信息。例如,對與描繪的頻率指示符352關(guān)聯(lián)的詞項“shoes”的選擇可以帶出示例網(wǎng)頁,該網(wǎng)頁具有用于選擇的詞的高詞項頻率倒數(shù)文檔頻率(tf-idf)值。在一些示例中,附加信息可以幫助向用戶提供上下文以用于頻率指示符352的特定欄長度的計算。在一些示例中,頻率指示符352的特定欄長度可以用來顯示添加候選特征作為應(yīng)用的特征的所估計的影響。
在一些分類操作中,可以存在與使用分類器116而被確定的錯誤關(guān)聯(lián)的不同錯誤類型。在一些示例中,錯誤的類型可以由二元分類器生成。在一些二元分類器中,錯誤可以被指明為“假肯定”或者“假否定”。假肯定可以是如下錯誤,其中在否定結(jié)果應(yīng)當(dāng)是結(jié)果時檢測到肯定結(jié)果。假否定可以是如下錯誤,其中在肯定結(jié)果應(yīng)當(dāng)是結(jié)果時檢測到否定結(jié)果。
由于肯定文檔的空間可以具有定義的概念,而否定文檔的空間通常地更開放式和多樣,所以這兩個類型的錯誤可能需要不同類型的特征來解決。例如,描述詞項“is”的特征可以不同于描述什么事物“isnot”的特征。聚焦選擇控件354可以包括可以與假肯定對應(yīng)的“錯誤類型a”。聚焦選擇控件354也可以包括可以與假否定對應(yīng)的“錯誤類型b”。用戶可以在兩個不同錯誤類型之間切換。在一些示例中,百分比可以與錯誤類型中的每個錯誤類型關(guān)聯(lián)以在確定聚焦于哪個錯誤類型時指導(dǎo)用戶。例如,百分比可以與分類器116在每個錯誤類型中正確地分類的文檔的百分比關(guān)聯(lián)。
在一些示例中,候選特征344或者對比詞項350中的詞項可以提供用于用戶125向創(chuàng)建特征區(qū)段334添加的詞的建議。在圖4中所示示例中,已經(jīng)在創(chuàng)建特征區(qū)段334中接收了用戶125已經(jīng)向應(yīng)用的特征添加了詞項“bicycle”這樣的輸入。
在一些實例中,用戶可以嘗試創(chuàng)建一詞字典的大集合。盡管這一大集合可以引起對數(shù)據(jù)的訓(xùn)練集合118的改進(jìn),但是大集合可能引起將模型不良地廣義化到數(shù)據(jù)的訓(xùn)練集合118以外的數(shù)據(jù)。因此,在一些示例中,可能希望提示用戶探索語義有關(guān)詞到被渲染在候選特征344或者對比詞項350中的詞??梢越邮諏υ~項的選擇已經(jīng)在候選特征344或者對比詞項350中出現(xiàn)這樣的輸入。
在圖4中所示示例中,已經(jīng)接收了如下輸入,該輸入指示用戶已經(jīng)選擇了候選特征344中的詞項“account”以用于附加探索??梢源_定和在以下在圖5中更具體描述的有關(guān)詞項區(qū)段356中渲染有關(guān)字詞的列表。
圖5是描繪語義有關(guān)詞生成的特征構(gòu)思用戶界面330的示圖。在圖5中,已經(jīng)接收了對候選特征344中的詞項“account”的選擇已經(jīng)出現(xiàn)這樣的輸入。響應(yīng)于接收對詞項的選擇,可以在特征構(gòu)思用戶界面330的有關(guān)詞項區(qū)段356中渲染一個或者多個有關(guān)詞項358。在一些示例中,可以使用在創(chuàng)建新特征區(qū)段334中從用戶125接收的詞項作為輸入以生成在有關(guān)詞項區(qū)段356中被渲染的詞項。
在一些示例中,特征構(gòu)思器114可以生成用于每個詞的矢量,該矢量包括該詞的用于數(shù)據(jù)的訓(xùn)練集合118中的每個文檔的tf-idf值。在矢量之間的余弦距離然后可以用來測量在詞之間的相似度。在一些實例中,可以在特征構(gòu)思用戶界面330的有關(guān)詞項區(qū)段356中渲染具有與選擇的詞的最小余弦距離的某個編號,比如前25。有關(guān)詞項區(qū)段356中的已經(jīng)是特征的詞可以有別于其它詞。在圖5中所示示例中,有關(guān)詞項區(qū)段356中的詞項“bikes”已經(jīng)是特征并且已經(jīng)被突出顯示以減少構(gòu)思多余特征的概率。
候選特征344、對比詞項350或者有關(guān)詞項358中的詞項可以有助于用戶構(gòu)思(或者想出)將被應(yīng)用于模型126的特征。在圖5中所示示例中,用戶已經(jīng)確定了特征a360將是模型126的應(yīng)用的特征。在特征構(gòu)思用戶界面330的應(yīng)用的特征區(qū)段336中渲染特征a360。隨著用戶進(jìn)展,用戶可以添加附加特征作為應(yīng)用的特征,以下在圖6中更具體描述。
圖6是描繪添加特征作為應(yīng)用的特征的特征構(gòu)思用戶界面330的示圖。在圖6中,已經(jīng)用由用戶標(biāo)識的附加特征從圖5更新了應(yīng)用的特征區(qū)段336。附加的應(yīng)用的特征是均在應(yīng)用的特征區(qū)段336中與特征a一起被渲染的特征b和特征n。
在圖6中,已經(jīng)通過選擇保存/更新特征342來重新訓(xùn)練了分類器116。在保存/更新特征342被選擇時,可以在候選特征區(qū)段346中渲染候選特征的新的集合344。在一些示例中,在保存/更新特征342被選擇時,可以在對比詞項區(qū)段348中渲染對比詞項的新的集合350。
在其它可能的使用之中,為了在特征構(gòu)思過程中幫助指導(dǎo)用戶,特征構(gòu)思用戶界面330也可以包括準(zhǔn)確度百分比指示符362。準(zhǔn)確度百分比指示符362可以圖示分類器116的當(dāng)前準(zhǔn)確度??梢允褂酶鞣N技術(shù)來確定分類器116的準(zhǔn)確度。在一些示例中,分類器116的準(zhǔn)確度可以是由分類器116根據(jù)向數(shù)據(jù)的訓(xùn)練集合118應(yīng)用的標(biāo)注而準(zhǔn)確地分類的數(shù)據(jù)的訓(xùn)練集合118的數(shù)據(jù)的百分比。隨著在由分類器116的分類中的錯誤的數(shù)目減少,分類器116準(zhǔn)確度增加。用戶(或者其它實體)可以使用準(zhǔn)確度以確定增加分類器116的準(zhǔn)確度的特征而避免應(yīng)用減少分類器116的準(zhǔn)確度的特征。
示例過程
圖7和圖8是描繪了用于機(jī)器學(xué)習(xí)中的錯誤驅(qū)動的特征構(gòu)思的可視支持的各方面的流程圖。未必按照任何特定順序呈現(xiàn)這里公開的例程的操作,并且按照備選順序執(zhí)行操作中的一些或者所有操作是有可能的并且被設(shè)想。已經(jīng)為了易于描述和圖示而按照示范的順序呈現(xiàn)了操作??梢蕴砑?、省略和/或同時執(zhí)行操作而沒有脫離所附權(quán)利要求的范圍。
可以通過執(zhí)行如這里定義的在計算機(jī)存儲介質(zhì)上包括的計算機(jī)可執(zhí)行指令來執(zhí)行例程的一些或者所有操作和/或基本上等效的操作。如在說明書和權(quán)利要求書中使用的術(shù)語“計算機(jī)可執(zhí)行指令”及其變體這里擴(kuò)展地用來包括例程、應(yīng)用、應(yīng)用模塊、程序模塊、程序、部件、數(shù)據(jù)結(jié)構(gòu)、算法等。
因此,應(yīng)當(dāng)認(rèn)識到,這里描述的邏輯操作被實施為(1)在計算機(jī)系統(tǒng)上運行的計算機(jī)實施的動作或者程序模塊的序列和/或(2)在計算系統(tǒng)內(nèi)的互連的機(jī)器邏輯電路或者電路模塊。實現(xiàn)方式是視計算系統(tǒng)的性能和其它要求而定的選擇事項。因而,這里描述的邏輯操作被不同地稱為狀態(tài)、操作、結(jié)構(gòu)設(shè)備、動作或者模塊??梢栽谲浖?、在固件中、在專用數(shù)字邏輯中和在其任何組合中實施這些操作、結(jié)構(gòu)設(shè)備、動作和模塊。以下將例程的操作描述為至少部分由特征構(gòu)思器114實施。例程700、800的操作和這里描述的其它操作中的一個或者多個操作可以備選地或者附加地至少部分由用戶設(shè)備102或者服務(wù)器計算機(jī)104中的其它被相似地配置的部件實施,即使沒有在各圖中具體地指明這些部件。
圖7描繪了示例特征構(gòu)思例程700。在塊702,特征構(gòu)思器114接收數(shù)據(jù)的訓(xùn)練集合118。在一些示例中,數(shù)據(jù)的訓(xùn)練集合118被標(biāo)注。數(shù)據(jù)的訓(xùn)練集合118可以包括由分類器116使用的文本數(shù)據(jù)全集??梢栽跀?shù)據(jù)存儲庫120或者遠(yuǎn)程數(shù)據(jù)存儲庫122或者它們的組合中存儲數(shù)據(jù)的訓(xùn)練集合118。在一些示例中,數(shù)據(jù)的訓(xùn)練集合118可以是在遠(yuǎn)程數(shù)據(jù)存儲庫122中存儲的文本數(shù)據(jù)的字典124的部分。
在塊704,分類器116生成與數(shù)據(jù)的訓(xùn)練集合118關(guān)聯(lián)的至少一個錯誤。在一些示例中,分類器116可以分析數(shù)據(jù)的訓(xùn)練集合118。分類器116可以對數(shù)據(jù)的訓(xùn)練集合118的一個或者多個詞項分類。在由分類器116提供的對數(shù)據(jù)的訓(xùn)練集合118的一個或者多個詞項的分類與如標(biāo)注的對數(shù)據(jù)的訓(xùn)練集合118的分類之間的不同可以代表錯誤。在一些示例中,可以使用特征來精化(即,訓(xùn)練)分類器116以減少錯誤數(shù)目。
在塊706,候選特征生成器128至少部分基于至少一個錯誤來確定至少一個候選特征。在一些示例中,候選特征可以包括詞項(詞),該詞項(詞)說明、定義或者以別的方式代表由分類器116生成的錯誤。i/o控制器216可以向用戶設(shè)備102提供輸出以引起特征構(gòu)思用戶界面132被顯示??梢园凑仗峁┯脩?28對特征構(gòu)思器114的增加的可用性的方式來顯示一個或者多個候選特征。例如,概要生成器130可以生成候選特征的概要,該概要包括選擇的數(shù)目的候選特征,用于用戶128查看而不是候選特征的完整清單。
在塊708,i/o控制器216引起特征構(gòu)思用戶界面330在用戶界面132中被渲染。特征構(gòu)思用戶界面330可以用來有助于在用戶125與特征構(gòu)思器114之間的交互以生成和/或修改應(yīng)用的特征。
在塊710,特征構(gòu)思器114從用戶接收對至少一個候選特征的選擇并且應(yīng)用候選特征作為應(yīng)用的特征。在一些示例中,由于用戶128可以具有的在機(jī)器學(xué)習(xí)環(huán)境中不容易被編程的大量知識的可能性,用戶128可以被用作信息源。例如,用戶128可以被更佳配備以在兩個相似地分類的頁面而不是分類器116之間散布。
在塊712,特征構(gòu)思器114用選擇的候選特征來重新訓(xùn)練分類器。一旦被選擇,就可以向分類器116應(yīng)用候選特征作為應(yīng)用的特征。分類器116可以讓一個或者多個應(yīng)用的特征作為向分類過程的輸入??梢栽谶x擇候選特征為應(yīng)用的特征時自動地訓(xùn)練分類器116??梢栽诮邮罩匦掠?xùn)練提示時重新訓(xùn)練分類器116。例如,特征構(gòu)思器114可以被配置為等待直至接收將應(yīng)用候選特征集合作為應(yīng)用的特征這樣的輸入。在這些示例中,更低計算使用或者減少的網(wǎng)絡(luò)帶寬使用可以是可達(dá)到的,因為在批量模式(即,在選擇一批候選特征時)而不是個別模式(即,在選擇每個候選特征時)中重新訓(xùn)練分類器。
在塊714,特征構(gòu)思器114確定是否將生成另一候選特征??梢跃哂衅渲写_定對分類器116的訓(xùn)練完成的實例。例如,分類器116的準(zhǔn)確度可以足以應(yīng)用模型126的分類器116。在一些示例中,從用戶125接收指示分類器116的準(zhǔn)確度足夠的輸入。
可以使用各種技術(shù)來確定分類器116的準(zhǔn)確度。在一些示例中,分類器116的準(zhǔn)確度可以是由分類器116根據(jù)向數(shù)據(jù)的訓(xùn)練集合118應(yīng)用的標(biāo)注而準(zhǔn)確地分類的數(shù)據(jù)的訓(xùn)練集合118的數(shù)據(jù)的百分比。隨著在由分類器116的分類中的錯誤的數(shù)目減少,分類器116準(zhǔn)確度增加。如果希望附加候選特征,則例程700可以繼續(xù)操作704并且按照以上描述的方式繼續(xù)。如果不希望附加候選特征,則例程700可以在塊715結(jié)束??梢耘c特征構(gòu)思用戶界面(比如特征構(gòu)思用戶界面132)結(jié)合地使用例程700。
圖8是圖示了用于生成用于用戶界面的錯誤部分和對比部分的候選詞項(比如在圖3至圖6的特征構(gòu)思用戶界面330中渲染的候選特征344或者對比詞項350的示例過程800的流程圖。
在塊802,特征構(gòu)思器114確定在與錯誤或者對比關(guān)聯(lián)的任何文檔中出現(xiàn)的詞的頻率。在一些示例中,可以排除結(jié)束詞和具有三個或者更少字符的詞。雖然不限于任何特定定義,但是結(jié)束詞可以是極為普遍并且在確定錯誤或者對比時幾乎不具有或者沒有價值的詞。
在塊804,特征構(gòu)思器114為在塊702中分析的每個詞計算在錯誤與對比之間的詞的頻率差。
在塊806,候選特征生成器128選擇具有在塊804中計算出的最大正差的詞作為候選特征或者錯誤詞項。在一些示例中,在操作806中選擇的詞的數(shù)目可以限于具體數(shù)目,比如一百。
在塊808,特征構(gòu)思器114選擇具有在塊804中計算出的最大負(fù)差的詞作為對比詞項。在一些示例中,在操作808中選擇的詞的數(shù)目可以限于具體數(shù)目,比如一百。
在塊810,特征構(gòu)思器114為每個候選詞計算和評估如果詞本身用來創(chuàng)建新特征則將獲得的對數(shù)損失(log-loss)的改進(jìn)。
在塊812,特征構(gòu)思器114按照每個候選詞列表的準(zhǔn)確度改進(jìn)分?jǐn)?shù)(對于錯誤和對比二者)來對每個列表排名。
在塊814,特征構(gòu)思器114生成輸出以引起在操作812中確定的某個數(shù)目的最高詞項被選擇和顯示作為候選特征344或者對比詞項350。例程800隨后可以結(jié)束。
示例條款
a.一種特征構(gòu)思的方法,包括:確定標(biāo)注的文本數(shù)據(jù)的訓(xùn)練集合中的多個錯誤;確定用于糾正多個錯誤中的至少一個錯誤的候選特征的集合;接收對將是應(yīng)用的特征的候選特征的集合中的至少一個候選特征的選擇;以及基于應(yīng)用的特征來重新訓(xùn)練分類器。
b.如a段記載的方法,其中確定標(biāo)注的文本數(shù)據(jù)的訓(xùn)練集合中的多個錯誤包括:接收包括多個標(biāo)注的文本數(shù)據(jù)的數(shù)據(jù)的訓(xùn)練集合;以及啟動分類器以檢查標(biāo)注的文本數(shù)據(jù)以確定多個錯誤。
c.如a或者b段記載的方法,還包括將多個標(biāo)注的文本數(shù)據(jù)解構(gòu)成組成成分。
d.如a-c段中的任一段記載的方法,還包括通過確定由分類器正確地標(biāo)識的文本數(shù)據(jù)的百分比來生成錯誤百分比。
e.如a-d段中的任一段記載的方法,還包括:接收對用于進(jìn)一步探索的特征候選的集合中的至少一個特征候選的選擇;以及呈現(xiàn)與對用于進(jìn)一步探索的特征候選的集合中的至少一個特征候選的選擇關(guān)聯(lián)的多個詞或者n-gram。
f.如a-e段中的任一段記載的方法,還包括渲染包括應(yīng)用的特征的特征化區(qū)域。
g.如a-f段中的任一段記載的方法,還包括:基于應(yīng)用的特征來確定標(biāo)注的文本數(shù)據(jù)的訓(xùn)練集合中的更新后的多個錯誤;基于訓(xùn)練集合來顯示更新后的特征候選的集合以糾正更新后的多個錯誤中的至少一個錯誤;接收對將是第二應(yīng)用的特征的特征候選的更新后的集合中的至少一個特征候選的選擇;以及基于第二應(yīng)用的特征來重新訓(xùn)練分類器。
h.如a-g段中的任一段記載的方法,還包括用由用第二應(yīng)用的特征訓(xùn)練的分類器確定的候選特征的第二集合來更新特征化區(qū)域。
i.如a-h段中的任一段記載的方法,還包括與特征候選的集合的至少一個特征候選鄰近地顯示頻率指示符,該頻率指示符指示其中特征候選的集合的至少一個特征候選與錯誤關(guān)聯(lián)的出現(xiàn)頻率和其中特征候選的集合的至少一個特征候選與肯定匹配關(guān)聯(lián)的出現(xiàn)頻率或者添加特征候選的集合的至少一個特征候選作為應(yīng)用的特征的估計出的影響。
j.一種計算機(jī)可讀介質(zhì),包括用于執(zhí)行如a-i段中的任一段記載的方法的計算機(jī)可執(zhí)行指令。
k.一種計算機(jī),包括:處理單元;以及計算機(jī)可讀介質(zhì),包括用于執(zhí)行如a-i段中的任一段記載的方法的計算機(jī)可執(zhí)行指令。
l.一種用于特征構(gòu)思的系統(tǒng),包括:用于處理的裝置;用于確定標(biāo)注的文本數(shù)據(jù)的訓(xùn)練集合中的多個錯誤的裝置;用于確定用于糾正多個錯誤中的至少一個錯誤的候選特征的集合的裝置;用于接收對將是應(yīng)用的特征的候選特征的集合中的至少一個候選特征的選擇的裝置;以及用于基于應(yīng)用的特征來重新訓(xùn)練分類器的裝置。
m.如l段記載的系統(tǒng),其中用于確定標(biāo)注的文本數(shù)據(jù)的訓(xùn)練集合中的多個錯誤的裝置包括:用于接收包括多個標(biāo)注的文本數(shù)據(jù)的數(shù)據(jù)的訓(xùn)練集合的裝置;以及用于啟動分類器以檢查標(biāo)注的文本數(shù)據(jù)以確定多個錯誤的裝置。
n.如l或者m段記載的系統(tǒng),還包括用于將多個標(biāo)注的文本數(shù)據(jù)解構(gòu)成組成成分的裝置。
o.如l-n段中的任一段記載的系統(tǒng),還包括用于通過確定由分類器正確地標(biāo)識的文本數(shù)據(jù)的百分比來生成錯誤百分比的裝置。
p.如l-o段中的任一段記載的系統(tǒng),還包括:用于接收對用于進(jìn)一步探索的特征候選的集合中的至少一個特征候選的選擇的裝置;以及用于呈現(xiàn)與對用于進(jìn)一步探索在特征候選的集合中的至少一個特征候選的選擇關(guān)聯(lián)的多個詞或者n-gram的裝置。
q.如l-p段中的任一段記載的系統(tǒng),還包括用于渲染包括應(yīng)用的特征的特征化區(qū)域的裝置。
r.如l-q段中的任一段記載的系統(tǒng),還包括:用于基于應(yīng)用的特征來確定標(biāo)注的文本數(shù)據(jù)的訓(xùn)練集合中的更新后的多個錯誤的裝置;用于基于訓(xùn)練集合來顯示更新后的特征候選的集合以糾正更新后的多個錯誤中的至少一個錯誤的裝置;用于接收對將是第二應(yīng)用的特征的特征候選的更新后的集合中的至少一個特征候選的選擇的裝置;以及用于基于第二應(yīng)用的特征來重新訓(xùn)練分類器的裝置。
s.如l-r段中的任一段記載的系統(tǒng),還包括用于用由用第二應(yīng)用的特征訓(xùn)練的分類器確定的候選特征的第二集合來更新特征化區(qū)域的裝置。
t.如l-s段中的任一段記載的系統(tǒng),還包括用于與特征候選的集合的至少一個特征候選鄰近地顯示頻率指示符的裝置,該頻率指示符指示其中特征候選的集合的至少一個特征候選與錯誤關(guān)聯(lián)的出現(xiàn)頻率和其中特征候選的集合的至少一個特征候選與肯定匹配關(guān)聯(lián)的出現(xiàn)頻率或者添加特征候選的集合的至少一個特征候選作為應(yīng)用的特征的估計出的影響。
u.一種計算機(jī),包括:處理器;以及與處理器通信的計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)包括在由處理器執(zhí)行時使得處理器執(zhí)行以下操作的計算機(jī)可執(zhí)行指令:啟動特征構(gòu)思器的分類器以確定標(biāo)注的文本數(shù)據(jù)的訓(xùn)練集合中的多個錯誤;啟動特征構(gòu)思器的候選特征生成器以基于訓(xùn)練集合來確定特征候選的集合以糾正多個錯誤中的至少一個錯誤;以及啟動特征構(gòu)思器以接收對將是應(yīng)用的特征的特征候選的集合中的至少一個特征候選的選擇并且基于應(yīng)用的特征來重新訓(xùn)練分類器。
v.如u段記載的計算機(jī),還包括用于以下操作的計算機(jī)可執(zhí)行指令:確定沒有生成錯誤的對比詞項;以及顯示對比詞項。
w.如u或者v段記載的計算機(jī),其中顯示的對比詞項和顯示的特征候選的集合由用于以下操作的計算機(jī)可執(zhí)行指令概括:獲得作為特征候選的集合的潛在成員和作為多個對比詞項的潛在成員而出現(xiàn)的詞的頻率;計算在作為特征候選的集合的潛在成員和作為多個對比詞項的潛在成員的詞的出現(xiàn)之間的頻率差;選擇更經(jīng)常作為錯誤而出現(xiàn)的多個詞作為特征候選;以及選擇更經(jīng)常作為對比而出現(xiàn)的多個詞作為對比詞項。
x.如u-w段中的任一段記載的計算機(jī),還包括用于執(zhí)行以下操作的計算機(jī)可執(zhí)行指令:計算如果選擇的特征候選或者選擇的對比詞項用來創(chuàng)建新特征則將被獲得的改進(jìn)分?jǐn)?shù)。
y.如u-x段中的任一段記載的計算機(jī),其中使用對數(shù)損失技術(shù)來執(zhí)行用于計算改進(jìn)的計算機(jī)可執(zhí)行指令。
z.如u-y段中的任一段記載的計算機(jī),還包括用于按照與特征候選和對比詞項中的每個特征候選和對比詞項關(guān)聯(lián)的改進(jìn)分?jǐn)?shù)來對特征候選和對比詞項排名的計算機(jī)可執(zhí)行指令。
aa.如u-z段中的任一段記載的計算機(jī),還包括用于顯示具有某個改進(jìn)分?jǐn)?shù)的多個特征候選作為特征候選的集合和具有某個改進(jìn)分?jǐn)?shù)的選擇的多個對比詞項作為對比詞項的計算機(jī)可執(zhí)行指令。
ab.一種計算機(jī)可讀介質(zhì),在其上具有在由計算機(jī)執(zhí)行時使得計算機(jī)執(zhí)行以下操作的計算機(jī)可執(zhí)行指令:確定與對數(shù)據(jù)的訓(xùn)練集合分類關(guān)聯(lián)的多個錯誤;確定與多個錯誤中的至少一個錯誤關(guān)聯(lián)的多個候選特征;以及渲染特征構(gòu)思用戶界面,該特征構(gòu)思用戶界面包括:特征化區(qū)域,包括用于接收用于啟動特征構(gòu)思過程的輸入的創(chuàng)建特征區(qū)段和用于顯示當(dāng)前應(yīng)用的特征的應(yīng)用的特征區(qū)段;用于顯示候選特征的特征候選區(qū)段;以及用于顯示對比詞項的對比詞項區(qū)段,這些對比詞項包括被恰當(dāng)?shù)胤诸惖脑~項。
ac.如ab記載的計算機(jī)可讀介質(zhì),其中特征構(gòu)思用戶界面還包括:聚焦選擇控件,其被配置為接收向被顯示在特征構(gòu)思區(qū)段中的候選特征應(yīng)用哪個錯誤類型的輸入。
ad.如ab或者ac記載的計算機(jī)可讀介質(zhì),其中特征構(gòu)思用戶界面還包括與候選特征中的至少一個候選特征或者對比詞項中的至少一個對比詞項鄰近的頻率指示符,該頻率指示符包括具有用于指示候選特征中的至少一個候選特征或者對比詞項中的至少一個對比詞項在肯定文檔中的頻率的某個長度的頂部欄以及具有指示候選特征中的至少一個候選特征或者對比詞項中的至少一個對比詞項在否定文檔中的頻率的某個長度的更低欄。
ae.如ab-ad中的任一段記載的計算機(jī)可讀介質(zhì),其中特征構(gòu)思用戶界面還包括顯示分類器的準(zhǔn)確度的準(zhǔn)確度百分比指示符。
af.一種計算機(jī),包括:處理單元;以及如ab-ae段中的任一段記載的計算機(jī)可讀介質(zhì)。
結(jié)論
雖然已經(jīng)用結(jié)構(gòu)特征和/或方法動作特有的言語描述了主題內(nèi)容,但是將理解,在所附權(quán)利要求中定義的主題內(nèi)容未必限于描述的具體特征或者動作。實際上,具體特征和步驟被公開作為實施權(quán)利要求的示例形式。
可以在由一個或者多個通用計算機(jī)或者處理器執(zhí)行的軟件代碼模塊中體現(xiàn)和完全地經(jīng)由這些軟件代碼模塊自動化所有以上描述的方法和過程??梢栽谌魏晤愋偷挠嬎銠C(jī)可讀存儲介質(zhì)或者其它計算機(jī)存儲設(shè)備中存儲代碼模塊??梢詡溥x地在專門化的計算機(jī)硬件中體現(xiàn)方法中的一些或者所有方法。
條件言語(比如“能夠”、“可能”或者“可以”以及其它條件語言)除非另有具體地明示否則在上下文內(nèi)被理解為呈現(xiàn)某些示例包括某些特征、單元和/或步驟而其它示例沒有包括。因此,這樣的條件言語一般地沒有旨在于暗示某些特征、單元和/或步驟以任何方式對于一個或者多個示例是必需的或者一個或者多個示例必然地包括用于在有或者沒有用戶輸入或者提示時決定在任何特定示例中是否包括或者將執(zhí)行某些特征、單元和/或步驟的邏輯。
連接言語(比如短語“x、y或者z中的至少一個”)除非具體地明示否則將被理解為呈現(xiàn)項目、詞項等可以是x、y或者z或者其組合。
這里描述和/或在附圖中描繪的流程圖中的任何例行描述、單元或者塊應(yīng)當(dāng)被理解為潛在地代表模塊、段或者代碼部分,這些模塊、段或者代碼部分包括用于實施例程中的具體邏輯功能或者單元的一個或者多個可執(zhí)行指令。在這里描述的示例的范圍內(nèi)包括備選實現(xiàn)方式,在這些示例中可以根據(jù)如本領(lǐng)域技術(shù)人員將理解的那樣涉及到的功能、從示出或者討論的實現(xiàn)方式刪除或者不同順序、包括基本上同步或者相反順序執(zhí)行單元或者功能。
應(yīng)當(dāng)強(qiáng)調(diào),可以對以上描述的示例做出許多變化和修改,這些示例的單元將被理解為在其它可接受示例之中。所有這樣的修改和變化旨在于這里被包括在本公開內(nèi)容的范圍內(nèi)并且為所附權(quán)利要求所保護(hù)。