本申請是分案申請,其原申請的國際申請?zhí)枮閜ct/us2007/013484,國際申請日是2007年6月7日,中國國家申請?zhí)枮?00780001197.9,進(jìn)入中國的日期為2008年4月23日,發(fā)明名稱為“用于轉(zhuǎn)導(dǎo)數(shù)據(jù)分類的方法和系統(tǒng)以及使用機(jī)器學(xué)習(xí)方法的數(shù)據(jù)分類方法”。
本發(fā)明主要涉及用于數(shù)據(jù)分類的方法和裝置。具體地,本發(fā)明提供了改進(jìn)的轉(zhuǎn)導(dǎo)機(jī)器學(xué)習(xí)方法。本發(fā)明還涉及使用機(jī)器學(xué)習(xí)方法的新的應(yīng)用。
背景技術(shù):
在信息時(shí)代、以及近期各行各業(yè)(包括,特別是,掃描文件、網(wǎng)上資料、搜索引擎數(shù)據(jù)、文本數(shù)據(jù)、圖像、音頻數(shù)據(jù)文件,等等)電子數(shù)據(jù)的大爆炸,如何處理數(shù)據(jù)已經(jīng)變得非常重要。
剛剛開始探索的一個(gè)領(lǐng)域是非人工數(shù)據(jù)分類。在許多分類方法中,機(jī)器或計(jì)算機(jī)必須依據(jù)人工輸入以及建立的規(guī)則設(shè)置和/或人工建立的訓(xùn)練樣例學(xué)習(xí)。在使用訓(xùn)練樣例的機(jī)器學(xué)習(xí)中,學(xué)習(xí)樣例的數(shù)量通常比所需估算的參數(shù)數(shù)量小,即,滿足由訓(xùn)練樣例所給定的限制條件的解的數(shù)量更大。機(jī)器學(xué)習(xí)的一項(xiàng)挑戰(zhàn)在于去發(fā)現(xiàn)一種不管欠缺限定仍歸納完好的解決方案。因此需要克服這些和/或其它現(xiàn)有技術(shù)的問題。
還進(jìn)一步需要各種類型的機(jī)器學(xué)習(xí)方法的實(shí)際應(yīng)用。
技術(shù)實(shí)現(xiàn)要素:
在一個(gè)基于計(jì)算機(jī)的系統(tǒng)中,根據(jù)本發(fā)明的一個(gè)實(shí)施例,一種用于數(shù)據(jù)分類的方法,包括:接收有標(biāo)記數(shù)據(jù)點(diǎn),每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例;接收無標(biāo)記數(shù)據(jù)點(diǎn);接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子;通過迭代計(jì)算,使用所述至少一個(gè)成本因子,以及所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,使用最大熵判別(med),訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器,其中,對于每一次迭代計(jì)算,調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)的成本因子作為一個(gè)期望標(biāo)記值的函數(shù),并根據(jù)數(shù)據(jù)點(diǎn)組成員概率的估算,調(diào)整一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記的先驗(yàn)概率;將訓(xùn)練的分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、和輸入數(shù)據(jù)點(diǎn)中的至少一個(gè);并將所述分類的數(shù)據(jù)點(diǎn)或其衍生物的類別輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種用于數(shù)據(jù)分類的方法,包括向計(jì)算機(jī)系統(tǒng)提供需要使用的可執(zhí)行程序代碼,并在計(jì)算機(jī)系統(tǒng)上執(zhí)行,所述程序代碼包括多個(gè)指令,用于:訪問存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器的有標(biāo)記數(shù)據(jù)點(diǎn),每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例;從計(jì)算機(jī)存儲(chǔ)器訪問無標(biāo)記的數(shù)據(jù)點(diǎn);從計(jì)算機(jī)存儲(chǔ)器訪問所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子;通過迭代計(jì)算,使用所述至少一個(gè)成本因子,以及存儲(chǔ)的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲(chǔ)的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,訓(xùn)練一個(gè)最大熵判別(med)轉(zhuǎn)導(dǎo)分類器,其中,對于每一次迭代計(jì)算,調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為一個(gè)期望標(biāo)記值的函數(shù),并根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算,調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記的先驗(yàn)概率;將訓(xùn)練的分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、和輸入數(shù)據(jù)點(diǎn)中的至少一個(gè);并將所述分類的數(shù)據(jù)點(diǎn)或其衍生物的類別輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種數(shù)據(jù)處理裝置,包括:至少一個(gè)存儲(chǔ)器,用于存儲(chǔ):(i)有標(biāo)記數(shù)據(jù)點(diǎn),所述每一個(gè)有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例;(ii)無標(biāo)記數(shù)據(jù)點(diǎn);和(iii)所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子;以及一個(gè)轉(zhuǎn)導(dǎo)分類器訓(xùn)練器,以使用所述至少一個(gè)存儲(chǔ)的成本因子,以及存儲(chǔ)的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲(chǔ)的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,使用轉(zhuǎn)導(dǎo)的最大熵判別(med),循環(huán)地訓(xùn)練轉(zhuǎn)導(dǎo)分類器,其中,對于每一次med迭代計(jì)算,調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為一個(gè)期望標(biāo)記值的函數(shù),并根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算,調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記的先驗(yàn)概率;
其中,由轉(zhuǎn)導(dǎo)分類器訓(xùn)練器訓(xùn)練的分類器用于分類無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、以及輸入數(shù)據(jù)點(diǎn)中的至少一個(gè);
其中,所述分類的數(shù)據(jù)點(diǎn)或其衍生物的類別,被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種制品,包括:一個(gè)計(jì)算機(jī)可讀的程序存儲(chǔ)介質(zhì),該介質(zhì)確切地包含有一個(gè)或多個(gè)計(jì)算機(jī)可執(zhí)行的指令程序,以執(zhí)行一種數(shù)據(jù)分類的方法,包括:接收有標(biāo)記數(shù)據(jù)點(diǎn),每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例;接收無標(biāo)記數(shù)據(jù)點(diǎn);接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子;使用所述至少一個(gè)存儲(chǔ)的成本因子,以及存儲(chǔ)的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲(chǔ)的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,利用迭代的最大熵判別(med)計(jì)算,訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器,其中,在每一次med迭代計(jì)算中,調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)的成本因子作為一個(gè)期望標(biāo)記值的函數(shù),并根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算,調(diào)整一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率;將訓(xùn)練的分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、以及輸入數(shù)據(jù)點(diǎn)中的至少一個(gè);并將分類的數(shù)據(jù)點(diǎn)或其衍生物的類別輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
在一個(gè)基于計(jì)算機(jī)的系統(tǒng)中,根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種無標(biāo)記數(shù)據(jù)的分類方法,包括:接收有標(biāo)記數(shù)據(jù)點(diǎn),每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例;接收有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn);接收有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)標(biāo)記概率信息;接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子;根據(jù)所述數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率,確定每一個(gè)有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的期望的標(biāo)記;重復(fù)下面的子步驟,直至數(shù)據(jù)值足夠收斂。
●為每一個(gè)與數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值成比例的無標(biāo)記數(shù)據(jù)點(diǎn)生成一個(gè)調(diào)節(jié)的成本值;
●通過確定判定函數(shù),給定被納入訓(xùn)練和被排除訓(xùn)練的樣例,使用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,訓(xùn)練一個(gè)分類器,根據(jù)它們的期望標(biāo)記,該判定函數(shù)將kl發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布;
●使用所述訓(xùn)練的分類器,確定所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的分類分值;
●將訓(xùn)練的分類器的輸出校準(zhǔn)為組成員概率;
●根據(jù)所述確定的組成員概率,更新所述無標(biāo)記數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率;
●利用所述更新的標(biāo)記先驗(yàn)概率和之前確定的分類分值,使用最大熵判別(med),確定所述標(biāo)記和界限概率分布;
●使用之前確定的標(biāo)記概率分布,計(jì)算新的期望標(biāo)記;和
●通過將之前迭代的所述期望標(biāo)記插入所述新的期望標(biāo)記,為每一個(gè)數(shù)據(jù)點(diǎn)更新期望標(biāo)記。
輸入數(shù)據(jù)點(diǎn)或其衍生物的一個(gè)分類被輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種文件分類方法,包括:接收至少一個(gè)有標(biāo)記的種子文件,其具有標(biāo)記分配的已知置信級別;接收無標(biāo)記文件;接收至少一個(gè)預(yù)設(shè)的成本因子;使用所述至少一個(gè)預(yù)設(shè)的成本因子、所述至少一個(gè)種子文件、以及所述無標(biāo)記文件,通過迭代計(jì)算訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器,其中,對于每一次迭代計(jì)算,調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù);在至少部分迭代之后,為所述無標(biāo)記文件存儲(chǔ)置信分值;以及將具有最高置信分值的無標(biāo)記文件的標(biāo)識(shí)符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種用于分析與法律查詢相關(guān)的文件的方法,包括:接收與法律事件相關(guān)的文件;對所述文件執(zhí)行一種文件分類方法;以及基于其分類,輸出至少部分文件的標(biāo)識(shí)符。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種清理數(shù)據(jù)的方法,包括:接收多個(gè)有標(biāo)記的數(shù)據(jù)項(xiàng);為多個(gè)類別的每一個(gè)選取所述數(shù)據(jù)項(xiàng)的子集;在每一個(gè)子集中,將所述數(shù)據(jù)項(xiàng)的偏差設(shè)置成約為零;將不在所述子集中的數(shù)據(jù)項(xiàng)的偏差設(shè)置成一個(gè)不為約零的預(yù)設(shè)值;使用所述偏差、所述子集中的數(shù)據(jù)項(xiàng)、以及所述不在子集中的數(shù)據(jù)項(xiàng)作為訓(xùn)練樣例,通過迭代計(jì)算訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器;將所述訓(xùn)練的分類器應(yīng)用于所述每一個(gè)有標(biāo)記的數(shù)據(jù)項(xiàng),以分類所述每一個(gè)數(shù)據(jù)項(xiàng);以及將所述輸入數(shù)據(jù)項(xiàng)或其衍生物的分類輸出給一個(gè)用戶、另一系統(tǒng)、另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種用于核對發(fā)票與實(shí)體的關(guān)聯(lián)性的方法,包括:基于與第一個(gè)實(shí)體相關(guān)的發(fā)票格式訓(xùn)練一個(gè)分類器;訪問多張被標(biāo)記為與所述第一實(shí)體和其它實(shí)體中的至少一個(gè)相關(guān)的發(fā)票;使用所述分類器對發(fā)票執(zhí)行一種文件分類方法;以及輸出至少一張發(fā)票的標(biāo)識(shí)符,該發(fā)票具有較高的概率與所述第一個(gè)實(shí)體不相關(guān)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種用于管理病歷的方法,包括:基于醫(yī)療診斷訓(xùn)練一個(gè)分類器;訪問多個(gè)病歷;使用所述分類器對所述病歷執(zhí)行一種文件分類方法;以及輸出至少一個(gè)病歷的標(biāo)識(shí)符,該病歷具有較低的概率與所述醫(yī)療診斷相關(guān)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種用于人臉識(shí)別的方法,包括:接收至少一個(gè)人臉的有標(biāo)記種子圖像,所述種子圖像具有一個(gè)已知的置信級別;接收無標(biāo)記圖像;接收至少一個(gè)預(yù)設(shè)的成本因子;通過迭代計(jì)算,使用所述至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子圖像、以及所述無標(biāo)記的圖像,訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器,其中,對于每一次迭代計(jì)算,調(diào)整所述成本因子作為一個(gè)期望的標(biāo)記值的函數(shù);在至少部分迭代之后,為所述無標(biāo)記種子圖像存儲(chǔ)一個(gè)置信分值;以及將具有最高置信分值的無標(biāo)記圖像的標(biāo)識(shí)符輸出給一個(gè)用戶、另一系統(tǒng)、另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種用于分析現(xiàn)有技術(shù)文件的方法,包括:基于一個(gè)搜索查詢訓(xùn)練一個(gè)分類器;訪問多個(gè)現(xiàn)有技術(shù)文件;使用所述分類器對至少部分所述現(xiàn)有技術(shù)文件執(zhí)行一種文件分類方法;以及基于其分類,輸出至少部分所述現(xiàn)有技術(shù)文件的標(biāo)識(shí)符。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種使專利分類適應(yīng)文件內(nèi)容變動(dòng)的方法,包括:接收至少一個(gè)有標(biāo)記的種子文件;接收無標(biāo)記的文件;使用所述至少一個(gè)種子文件和所述無標(biāo)記文件訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器;使用所述分類器,將具有一個(gè)高于預(yù)設(shè)閾值的置信級別的無標(biāo)記文件歸類到多個(gè)現(xiàn)有的類別;使用所述分類器,將具有一個(gè)低于預(yù)設(shè)閾值的置信級別的無標(biāo)記文件歸類到至少一個(gè)新的類別;使用分類器,將至少部分所述已分類的文件重新歸類到所述現(xiàn)有的類別和所述至少一個(gè)新的類別;以及將所述已分類文件的標(biāo)識(shí)符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種用于將文件與權(quán)利要求匹配的方法,包括:基于一件專利或?qū)@暾埖闹辽僖豁?xiàng)權(quán)利要求訓(xùn)練一個(gè)分類器;訪問多個(gè)文件;使用所述分類器對至少部分所述文件執(zhí)行一種文件分類方法;以及基于其分類,輸出至少部分所述文件的標(biāo)識(shí)符。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種專利或?qū)@暾埖姆诸惙椒?,包括:基于多個(gè)已知屬于一個(gè)特定專利分類的文件訓(xùn)練一個(gè)分類器;接收一件專利或?qū)@暾埖闹辽僖徊糠?;使用所述分類器對所述專利或?qū)@暾埖乃鲋辽僖徊糠謭?zhí)行一種文件分類方法;以及輸出所述專利或?qū)@暾埖姆诸悾渲?,所述文件分類方法是一個(gè)是/否分類方法。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種適應(yīng)文件內(nèi)容變動(dòng)的方法,包括:接收至少一個(gè)有標(biāo)記種子文件;接收無標(biāo)記文件;接收至少一個(gè)預(yù)設(shè)的成本因子;使用所述至少一個(gè)預(yù)設(shè)的成本因子、所述至少一個(gè)種子文件、以及所述無標(biāo)記文件,訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器;使用所述分類器,將具有高于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件歸類到多個(gè)類別;使用所述分類器,將至少部分所述分類的文件重新歸類到多個(gè)類別;以及將所述已分類文件的標(biāo)識(shí)符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種分離文件的方法,包括:接收有標(biāo)記的數(shù)據(jù);接收一組無標(biāo)記文件;基于所述有標(biāo)記的數(shù)據(jù)和無標(biāo)記文件,使用轉(zhuǎn)導(dǎo)改寫概率分類規(guī)則;根據(jù)所述概率分類規(guī)則,更新用于文件分離的權(quán)重;確定所述一組文件中分離的位置;將所述確定的分離位置的指示符輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè);以及給文件打上代碼,該代碼與所述指示符相關(guān)。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種文件搜索的方法,包括:接收一個(gè)搜索查詢;基于所述搜索查詢檢索文件;輸出所述文件;為至少部分所述文件接收用戶鍵入的標(biāo)記,所述標(biāo)記指示所述文件與所述搜索查詢之間的相關(guān)性;基于所述搜索查詢和用戶鍵入的標(biāo)記訓(xùn)練一個(gè)分類器;使用所述分類器對所述文件執(zhí)行一個(gè)文件分類方法,以對所述文件重新分類;以及基于其分類,輸出至少部分所述文件的標(biāo)識(shí)符。
附圖說明
圖1為期望標(biāo)記作為分類分值的一個(gè)函數(shù)的曲線圖,該分類分值通過使用適用于標(biāo)記歸納的med判別學(xué)習(xí)而獲得。
圖2為一組由轉(zhuǎn)導(dǎo)med學(xué)習(xí)獲得的判定函數(shù)的迭代計(jì)算的示意圖。
圖3為一組根據(jù)本發(fā)明一個(gè)實(shí)施例的由改進(jìn)的轉(zhuǎn)導(dǎo)med學(xué)習(xí)獲得的判定函數(shù)的迭代計(jì)算的示意圖。
圖4為根據(jù)本發(fā)明一個(gè)實(shí)施例,使用一個(gè)調(diào)節(jié)的成本因子,一個(gè)用于分類無標(biāo)記數(shù)據(jù)的控制流程圖。
圖5為根據(jù)本發(fā)明一個(gè)實(shí)施例,使用用戶定義的先驗(yàn)概率信息,一個(gè)用于分類無標(biāo)記數(shù)據(jù)的流程控制圖。
圖6為根據(jù)本發(fā)明一個(gè)實(shí)施例,利用調(diào)節(jié)的成本因子和先驗(yàn)概率信息,使用最大熵判別,一個(gè)用于分類無標(biāo)記數(shù)據(jù)的詳細(xì)控制流程圖。
圖7為顯示實(shí)施此處描述的不同實(shí)施例的網(wǎng)絡(luò)結(jié)構(gòu)的網(wǎng)絡(luò)圖。
圖8為一個(gè)有代表性的,與用戶設(shè)備相關(guān)的硬件環(huán)境的系統(tǒng)框圖。
圖9為代表本發(fā)明的一個(gè)實(shí)施例的裝置的框圖。
圖10為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖11為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖12為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖13為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖14為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖15為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖16為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖17為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖18為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖19為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖19為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖20為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖21為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖22為本發(fā)明一個(gè)實(shí)施例的方法,用于一個(gè)第一文件分類系統(tǒng)的控制流程圖。
圖23為本發(fā)明一個(gè)實(shí)施例的方法,用于一個(gè)第二文件分類系統(tǒng)的控制流程圖。
圖24為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖25為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖26為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖27為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖28為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
圖29為由根據(jù)一個(gè)實(shí)施例執(zhí)行的分類過程的流程圖。
具體實(shí)施方式
下列的描述是目前預(yù)期的實(shí)現(xiàn)本發(fā)明的最佳方法,該描述的目的是為了說明本發(fā)明的一般原理,并不意味著限制此處所述的本發(fā)明的內(nèi)容。而且,此處所描述的特定特征可與各種不同可能的組合和排列中的每一個(gè)其它描述的特征相結(jié)合。
除非另在此處特別定義,所有術(shù)語都給予其最廣的可能的解釋,包括從說明書中暗示的意思,和本領(lǐng)域技術(shù)人員理解的意思,以及如字典、論文等所定義的意思。
文本分類
文本數(shù)據(jù)分類的好處和需求已非常巨大,并且已經(jīng)有多種分類方法被使用。下面討論用于文本數(shù)據(jù)的分類方法:
為增加其效用和智能,要求諸如計(jì)算機(jī)之類的機(jī)器能夠分類(或識(shí)別)一個(gè)不斷擴(kuò)大的范圍內(nèi)的對象。例如,計(jì)算機(jī)可使用光學(xué)字符識(shí)別來分類手寫或掃描的數(shù)字和文字,使用圖案識(shí)別來分類圖像,如人臉、指紋、戰(zhàn)斗機(jī)等等,或者使用語音識(shí)別來分類聲音、語音等等。
機(jī)器還被要求能夠分類文本信息對象,例如文本計(jì)算機(jī)文件或文檔。文本分類的應(yīng)用是多樣且重要的。例如,文本分類可用于管理文本信息對象以將其歸入一個(gè)預(yù)定的類別或分類的層次結(jié)構(gòu)。這樣,發(fā)現(xiàn)(或找到)與特定主題有關(guān)的文本信息對象就被簡化了。文本分類可用于將適當(dāng)?shù)奈谋拘畔ο舐酚芍吝m當(dāng)?shù)娜巳夯虻攸c(diǎn)。這樣,信息服務(wù)可將涉及各種主題(如,商務(wù)、體育、股票市場、足球、特定公司、特定足球隊(duì))的文本信息對象路由至具有不同興趣的人群。文本分類可用于過濾文本信息對象,以使個(gè)人免受不需要的文本內(nèi)容(如不需要和未經(jīng)請求的電子郵件,也稱為垃圾電子郵件,或“垃圾”)的侵?jǐn)_。正如從這些示例中可以得知的那樣,文本分類具有多種激動(dòng)人心和重要的應(yīng)用。
基于規(guī)則的分類
在某些實(shí)例中,必須基于某種公認(rèn)的邏輯,利用絕對確定性對文件內(nèi)容進(jìn)行分類。一個(gè)基于規(guī)則的系統(tǒng)可用于實(shí)現(xiàn)此類分類。基本上,基于規(guī)則的系統(tǒng)使用產(chǎn)生式規(guī)則的形式:
if條件,then事實(shí)。
所述條件可以包括文本信息是否包括某些單詞或短語,具有特定的語法,或具有特定的屬性。例如,如果文本內(nèi)容具有單詞“收盤”,短語“納斯達(dá)克”和數(shù)字,則將其分類為“股票市場”文本。
在過去的約10年里,其它類型的分類器已被逐漸地使用。盡管這類分類器不像基于規(guī)則的分類器那樣使用靜態(tài)、預(yù)定的邏輯,但是在許多應(yīng)用中,它們優(yōu)于基于規(guī)則的分類器。這類分類器通常包括一個(gè)學(xué)習(xí)元件和一個(gè)執(zhí)行元件。這類分類器包括神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、以及支持向量機(jī)。盡管每個(gè)這類分類器都已熟知,但為了方便讀者,下面簡要介紹各種分類器。
具有學(xué)習(xí)和執(zhí)行元件的分類器
正如上節(jié)的末尾所提到的那樣,在許多應(yīng)用中,具有學(xué)習(xí)和執(zhí)行元件的分類器優(yōu)于基于規(guī)則的分類器。再次重申,這些分類器可以包括神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)和支持向量機(jī)。
神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)基本上是相同處理元件(也稱為神經(jīng)元)的多層、層次排列。各神經(jīng)元可具有一個(gè)或多個(gè)輸入,但只有一個(gè)輸出。通過一個(gè)系數(shù)對各神經(jīng)元輸入進(jìn)行加權(quán)。神經(jīng)元的輸出通常是其加權(quán)輸入和偏差值之和的一個(gè)函數(shù)。這個(gè)函數(shù),也稱為激活函數(shù),通常是一個(gè)s形函數(shù)。即,該激活函數(shù)可以是s形單調(diào)遞增,且當(dāng)其(多個(gè))輸入分別接近正負(fù)無窮大時(shí),漸進(jìn)逼近固定值(如+1,0,-1)。s形函數(shù)和單個(gè)神經(jīng)的權(quán)重和偏差值確定神經(jīng)元對輸入信號(hào)的響應(yīng)或“興奮性”。
在神經(jīng)元的層次排列中,一層內(nèi)的神經(jīng)元的輸出可分配作為下一層內(nèi)一個(gè)或多個(gè)神經(jīng)元的輸入。典型的神經(jīng)網(wǎng)絡(luò)可包括一個(gè)輸入層和兩(2)個(gè)不同層;即,一個(gè)輸入層,一個(gè)中間神經(jīng)元層,和一個(gè)輸出神經(jīng)元層。請注意,所述輸入層的節(jié)點(diǎn)不是神經(jīng)元。更確切地講,輸入層的節(jié)點(diǎn)僅有一個(gè)輸入,并主要提供未處理的輸入給下一層的輸入。如果,例如神經(jīng)網(wǎng)絡(luò)將被用于識(shí)別在20×15像素陣列中的一個(gè)數(shù)字字符,該輸入層可以具有300個(gè)神經(jīng)元(即輸入的每一個(gè)像素),且輸出陣列可以具有10個(gè)神經(jīng)元(即10個(gè)數(shù)字中的每一個(gè))。
神經(jīng)網(wǎng)絡(luò)的使用一般包括兩(2)個(gè)連續(xù)的步驟。第一,初始化神經(jīng)網(wǎng)絡(luò),并根據(jù)具有已知輸出值(或分類)的已知輸入訓(xùn)練該網(wǎng)絡(luò)。一旦神經(jīng)網(wǎng)絡(luò)被訓(xùn)練,它就能用于分類未知的輸入。通過將神經(jīng)元的權(quán)重和偏差設(shè)置為隨機(jī)值(通常由一個(gè)高斯分布生成),神經(jīng)網(wǎng)絡(luò)可被初始化。然后使用一連串的具有已知輸出(或分類)的輸入,訓(xùn)練該神經(jīng)網(wǎng)絡(luò)。在將訓(xùn)練輸入提供給神經(jīng)網(wǎng)絡(luò)時(shí),調(diào)整(例如根據(jù)已知的反向傳播技術(shù))神經(jīng)權(quán)重和偏差值,以使每一個(gè)單一訓(xùn)練模式的神經(jīng)網(wǎng)絡(luò)的輸出逼近或匹配該已知輸出?;旧希瑱?quán)重空間的梯度下降被用于最小化輸出誤差。這樣,使用連續(xù)訓(xùn)練輸入的學(xué)習(xí),朝著權(quán)重和偏差的局部最優(yōu)解收斂。即,權(quán)重和偏差被調(diào)整至最小誤差。
實(shí)際操作中,通常并不將該系統(tǒng)訓(xùn)練成收斂到最優(yōu)解的某一點(diǎn)。相反,系統(tǒng)將被“過度訓(xùn)練”,致使其對于訓(xùn)練數(shù)據(jù)過于專業(yè),且可能不善于分類與訓(xùn)練集有些不同的輸入。因此,在其訓(xùn)練的不同時(shí)期,在一組驗(yàn)證數(shù)據(jù)上對該系統(tǒng)進(jìn)行試驗(yàn)。當(dāng)系統(tǒng)的性能在驗(yàn)證集上不再改進(jìn)時(shí),訓(xùn)練停止。
一旦訓(xùn)練完成,就可使用該神經(jīng)網(wǎng)絡(luò),根據(jù)在訓(xùn)練期間確定的權(quán)重和偏差,分類未知輸入。如果該神經(jīng)網(wǎng)絡(luò)能有把握地分類未知輸入,某個(gè)輸出層中的神經(jīng)元的一個(gè)輸出將會(huì)遠(yuǎn)高于其它輸出。
貝葉斯網(wǎng)絡(luò)
通常,貝葉斯網(wǎng)絡(luò)使用假設(shè),作為數(shù)據(jù)(如,輸入特征向量)和預(yù)測(如,分類)之間的媒介。對于給定的數(shù)據(jù)(“p(假設(shè)︱數(shù)據(jù))”),每一個(gè)假設(shè)的概率可以被估算。使用假設(shè)的后驗(yàn)概率,從所述假設(shè)獲得預(yù)測,以對每一個(gè)假設(shè)的單個(gè)預(yù)測進(jìn)行加權(quán)。給定數(shù)據(jù)d,預(yù)測x的概率可以表示為:
其中,hi為第i個(gè)假設(shè)。最大化給定d(p(hi︱d))的hi的概率的最大可能性的假設(shè)hi被稱為最大后驗(yàn)假設(shè)(或“hmap”),且可表示為:
p(x︱d)~p(x︱hmap)
使用貝葉斯法則,給定數(shù)據(jù)d,假設(shè)hi的概率可表示為:
數(shù)據(jù)d的概率保持不變。因此,為找到hmap,必須最大化分子。
分子的第一項(xiàng)表示:給定假設(shè)i,可能觀察到該數(shù)據(jù)的概率。分子的第二項(xiàng)表示:分配給所述給定假設(shè)i的先驗(yàn)概率。
貝葉斯網(wǎng)絡(luò)包括變量和變量之間的有向邊,由此定義一個(gè)有向無環(huán)圖(即“dag”)。每一個(gè)變量可假設(shè)為有限數(shù)量的互斥狀態(tài)中的任意值。對于每一個(gè)變量a,其具有母變量b1…bn,有一個(gè)附屬概率表(p(a︱b1…bn)。貝葉斯網(wǎng)絡(luò)的所述結(jié)構(gòu)編碼了所述假設(shè),給定其母變量,每一個(gè)變量有條件地獨(dú)立于其非子變量。
假設(shè)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)已知,且變量可觀察,則只需學(xué)習(xí)條件概率列表集合。直接使用來自一組學(xué)習(xí)樣例的統(tǒng)計(jì),可估算這些列表。如果該結(jié)構(gòu)已知,而某些變量是隱藏的,則學(xué)習(xí)就類似于上述的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。
下面介紹簡單的貝葉斯網(wǎng)絡(luò)的示例。變量“mml”可代表“我的草坪的濕度”(moistureofmylawn),且可以具有狀態(tài)“濕”和“干”。mml變量可具有“下雨”和“我的灑水器打開”母變量,每一個(gè)都具有“是”和“否”狀態(tài)。另一個(gè)變量,“mnl”可代表“我的鄰居的草坪的濕度”,且可以具有狀態(tài)“濕”和“干”。mnl變量可共享“下雨”母變量。在本例中,預(yù)測可以是我的草坪是“濕”還是“干”。該預(yù)測可以基于假設(shè)(i):如果下雨,我的草坪將會(huì)濕的概率(x1)和假設(shè)(ii):如果我的灑水器打開,我的草坪將會(huì)濕的概率(x2)。下過雨的概率或我的灑水器打開的概率可取決于其它變量。例如,如果我的鄰居的草坪是濕的,而他們沒有灑水器,那很可能下過雨了。
如上所述,像神經(jīng)網(wǎng)絡(luò)的例子一樣,可訓(xùn)練貝葉斯網(wǎng)絡(luò)中的條件概率表。其優(yōu)點(diǎn)在于,通過允許提供先驗(yàn)知識(shí),可縮短該學(xué)習(xí)過程。然而不幸的是,條件概率的先驗(yàn)概率常常是未知的,此時(shí)使用統(tǒng)一的先驗(yàn)概率。
本發(fā)明的一個(gè)實(shí)施例可執(zhí)行至少兩(2)個(gè)基本函數(shù)中的一(1)個(gè),即生成分類器的參數(shù),并分類對象,如文本信息對象。
基本上,基于一組訓(xùn)練樣例,為分類器生成參數(shù)??梢詮囊唤M訓(xùn)練樣例生成一組特征向量。該組特征向量的特征可被簡化。將生成的參數(shù)可包括一個(gè)定義的單調(diào)(如s形)函數(shù)和一個(gè)權(quán)重向量。該權(quán)重向量可通過svm訓(xùn)練的方式確定(或通過其它已知的技術(shù))??赏ㄟ^最優(yōu)化方法確定該單調(diào)(如s形)函數(shù)。
文本分類器包括一個(gè)權(quán)重向量和一個(gè)定義的單調(diào)(如,s形)函數(shù)?;旧?,本發(fā)明的文本分類器的輸出可表示為:
其中:
oc=類別c的分類輸出;
wc=與類別c相關(guān)的權(quán)重向量參數(shù);
x=基于未知文本信息對象的(簡化的)特征向量;
a和b是個(gè)單調(diào)(如,s形)函數(shù)的可調(diào)節(jié)參數(shù);
由表達(dá)式(2)計(jì)算輸出比由表達(dá)式(1)計(jì)算輸出快。
根據(jù)被分類對象的形式,分類器可以(i)將文本信息對象轉(zhuǎn)換為特征向量,和(ii)將特征向量簡化為具有較少元素的簡化特征向量。
轉(zhuǎn)導(dǎo)機(jī)器學(xué)習(xí)
在商業(yè)上,現(xiàn)有技術(shù)中當(dāng)前使用的自動(dòng)分類系統(tǒng)是基于規(guī)則或者利用歸納型機(jī)器學(xué)習(xí),即,使用人工標(biāo)記訓(xùn)練樣例。相比于轉(zhuǎn)導(dǎo)方法,兩種方法通常都需要大量人工設(shè)置工作。由基于規(guī)則的系統(tǒng)或歸納型方法提供的解決方案是靜態(tài)解決方案,若沒有人工工作,它就不能適應(yīng)漂移分類概念。
歸納型機(jī)器學(xué)習(xí)用于將屬性或關(guān)系歸因于基于表征(即,基于一個(gè)或少數(shù)的觀察或經(jīng)驗(yàn))的類型;或基于有限的觀察重現(xiàn)模式來制定法則。歸納型機(jī)器學(xué)習(xí)包括從觀察到的訓(xùn)練案例中推理,以建立一般規(guī)則,該規(guī)則接著用于測試實(shí)例。
特殊地,優(yōu)選實(shí)施例使用轉(zhuǎn)導(dǎo)機(jī)器學(xué)習(xí)方法。轉(zhuǎn)導(dǎo)機(jī)器學(xué)習(xí)是一個(gè)有效的方法,可以避免這些缺陷。
轉(zhuǎn)導(dǎo)機(jī)器方法能夠從非常少的一組有標(biāo)記訓(xùn)練樣例中學(xué)習(xí),自動(dòng)適應(yīng)漂移分類概念,并自動(dòng)糾正標(biāo)記的訓(xùn)練樣例。這些優(yōu)勢使得轉(zhuǎn)導(dǎo)機(jī)器學(xué)習(xí)成為一個(gè)有趣且有價(jià)值的方法,適合各種商業(yè)應(yīng)用。
轉(zhuǎn)導(dǎo)在數(shù)據(jù)中學(xué)習(xí)模式。通過不僅從有標(biāo)記數(shù)據(jù)而且從無標(biāo)記數(shù)據(jù)中學(xué)習(xí),轉(zhuǎn)導(dǎo)擴(kuò)展了歸納型學(xué)習(xí)的概念。這使得轉(zhuǎn)導(dǎo)能夠?qū)W習(xí)并非從有標(biāo)記數(shù)據(jù)中捕獲或僅部分從有標(biāo)記數(shù)據(jù)中捕獲的模式。因此,相比基于規(guī)則的系統(tǒng)或基于歸納型學(xué)習(xí)的系統(tǒng),轉(zhuǎn)導(dǎo)能夠適應(yīng)動(dòng)態(tài)變化的環(huán)境。這個(gè)能力使得轉(zhuǎn)導(dǎo)能夠用于文件搜索、數(shù)據(jù)清理、尋址漂移分類概念等等。
下面描述利用支持向量機(jī)(svm)分類以及最大熵判別(med)框架的轉(zhuǎn)導(dǎo)分類的實(shí)施例。
支持向量機(jī)
支持向量機(jī)(svm)是一種文本分類所采用的方法,通過使用正規(guī)化理論的概念對可能的解設(shè)置限制,該方法處理了大量解的問題,以及由此產(chǎn)生的泛化問題。例如,一個(gè)二元svm分類器從所有準(zhǔn)確分隔訓(xùn)練數(shù)據(jù)的超平面中選取最大化界限的超平面作為解。最大界限正規(guī)化在訓(xùn)練數(shù)據(jù)被準(zhǔn)確地分類的限制條件下,滿足了前述在泛化和記憶之間選擇合適權(quán)衡的學(xué)習(xí)問題。對訓(xùn)練數(shù)據(jù)的限制記憶了數(shù)據(jù),而正規(guī)化則保證了合適的泛化。歸納分類從具有已知標(biāo)記的訓(xùn)練樣例中學(xué)習(xí),即,每個(gè)訓(xùn)練樣例的組成員是已知的。當(dāng)歸納分類從已知標(biāo)記中學(xué)習(xí),轉(zhuǎn)導(dǎo)分類從有標(biāo)記以及無標(biāo)記數(shù)據(jù)中確定分類規(guī)則。一個(gè)轉(zhuǎn)導(dǎo)svm分類的示例如表1所示。
轉(zhuǎn)導(dǎo)svm分類的原理
表1
表1顯示了利用支持向量機(jī)的轉(zhuǎn)導(dǎo)分類的原理。解由超平面給出,該超平面針對無標(biāo)記數(shù)據(jù)的所有可能的標(biāo)記分配產(chǎn)生最大界限。所述可能的標(biāo)記分配隨著無標(biāo)記數(shù)據(jù)的數(shù)量呈指數(shù)增長,且對于實(shí)際上可用的方法,表1的算法必須被估算。該估算的例子在t.joachims,transductiveinferencefortextclassificationusingsupportvectormachines,technicalreport,universitactdortmund,lasviii,1999(joachims)中有描述。
表1中對于標(biāo)記分配的均勻分布表示,一個(gè)無標(biāo)記數(shù)據(jù)點(diǎn)具有1/2的概率成為該組的正面樣例和具有1/2的概率成為負(fù)面樣例,即,y=+1(正面樣例)和y=-1(負(fù)面樣例)這兩種可能的標(biāo)記分配機(jī)會(huì)相等,且最終的期望標(biāo)記為0。為0的標(biāo)記期望可由一個(gè)等于1/2的固定的類別先驗(yàn)概率獲得,或由具有均勻先驗(yàn)分布的一個(gè)隨機(jī)變量的類別先驗(yàn)概率(即一個(gè)未知的類別先驗(yàn)概率)獲得。因此,在不等于1/2的已知類別先驗(yàn)概率的應(yīng)用中,通過結(jié)合該附加信息可改進(jìn)該算法。例如,不是使用表1中的標(biāo)記分配的均勻分布,而是根據(jù)類別先驗(yàn)概率,優(yōu)先選擇某些標(biāo)記分配,而不是其它標(biāo)記分配。然而,在較小卻具有較高標(biāo)記分配的界限解與較大但具有較低標(biāo)記分配的界限解之間作出權(quán)衡是困難的。標(biāo)記分配的概率和界限是不同尺度的。
最大熵判別
另一種分類的方法,最大熵判別(med)(參看,如,t.jebara,machinelearningdiscriminativeandgenerative,kluweracademicpublishers)(jebara)沒有碰到與svm相關(guān)的問題,因?yàn)榕卸ê瘮?shù)正規(guī)化項(xiàng)以及標(biāo)記分配正規(guī)化項(xiàng)都是來源于針對解的先驗(yàn)概率分布,因此都在相同的概率尺度上。因而,如果類別先驗(yàn),以及由此的標(biāo)記先驗(yàn)已知時(shí),轉(zhuǎn)導(dǎo)med分類優(yōu)于轉(zhuǎn)導(dǎo)svm分類,因?yàn)樗试S先驗(yàn)標(biāo)記知識(shí)以有原則的方式結(jié)合。
歸納med分類假設(shè)一個(gè)判定函數(shù)參數(shù)的先驗(yàn)分布、一個(gè)偏差項(xiàng)的先驗(yàn)分布,和一個(gè)界限的先驗(yàn)分布。它選擇最接近于先驗(yàn)分布的那個(gè)分布作為這些參數(shù)的最終分布,并產(chǎn)生一個(gè)準(zhǔn)確地分類數(shù)據(jù)點(diǎn)的期望判定函數(shù)。
形式上,例如給定一個(gè)線性分類器,問題表述如下:尋找超平面參數(shù)分布p(θ),偏差分布p(b),數(shù)據(jù)點(diǎn)分類界限p(γ),其聯(lián)合概率分布具有一個(gè)最小的庫爾貝克萊伯勒發(fā)散(kullbackleiblerdivergence)kl賦予結(jié)合的各個(gè)先驗(yàn)分布p0,即
受制于限制條件
其中θxt是分隔超平面權(quán)重向量與第t個(gè)數(shù)據(jù)點(diǎn)的特征向量之間的點(diǎn)積。由于標(biāo)記分配yt為已知且固定,無需二元標(biāo)記分配的先驗(yàn)分布。因此,將歸納med分類泛化為轉(zhuǎn)導(dǎo)med分類的簡便方法,是將二元標(biāo)記分配作為受限于可能的標(biāo)記分配的先驗(yàn)分布參數(shù)來處理。轉(zhuǎn)導(dǎo)med的例子如表2所示。
轉(zhuǎn)導(dǎo)med分類
表2
對于有標(biāo)記數(shù)據(jù),標(biāo)記先驗(yàn)分布是一個(gè)δ函數(shù),因而能有效地確定標(biāo)記為+1或-1。對于無標(biāo)記數(shù)據(jù),假設(shè)一個(gè)標(biāo)記先驗(yàn)概率p0(y),分配給每一個(gè)無標(biāo)記數(shù)據(jù)點(diǎn)一個(gè)y=+1的正標(biāo)記的概率為p0(y),而一個(gè)y=-1的負(fù)標(biāo)記的概率為1-p0(y)。假設(shè)一個(gè)非信息標(biāo)記先驗(yàn)(p0(y)=1/2),產(chǎn)生一個(gè)與上述轉(zhuǎn)導(dǎo)svm分類類似的轉(zhuǎn)導(dǎo)med分類。
如在轉(zhuǎn)導(dǎo)svm分類的情況那樣,上述med算法的實(shí)際可適用的實(shí)施方法必須估算對于全部可能的標(biāo)記分配的搜索。該方法在t.jaakkola,m.meila,andt.jebara,maximumentropydiscrimination,technicalreportaitr-1668,massachusettsinstituteoftechnology,artificialintelligencelaboratory,1999(jaakkola)中有描述,其選擇一個(gè)近似值,將過程分解為兩個(gè)步驟,類似于一個(gè)期望值最大化(em)公式。在該公式中,需要解決兩個(gè)問題。第一步,相當(dāng)于在em算法中的m步驟,當(dāng)根據(jù)當(dāng)前標(biāo)記分配的最佳猜測,準(zhǔn)確地分類所有數(shù)據(jù)點(diǎn)時(shí),類似于界限的最大值。第二步,相當(dāng)于e步驟,使用在m步驟中確定的分類結(jié)果,并為每一個(gè)樣例的組成員估算新的值。我們稱該第二步驟為標(biāo)記歸納。大致的描述如表2所示。
此處引用的jakkola的方法的特殊實(shí)施方法,假設(shè)一個(gè)具有超平面參數(shù)的零平均值和單位方差的高斯函數(shù),一個(gè)具有偏差參數(shù)的零平均值和方差
對于給定超平面參數(shù)的一個(gè)固定概率分布,標(biāo)記歸納步驟決定標(biāo)記概率分布。使用上述的界限和標(biāo)記先驗(yàn),產(chǎn)生如下標(biāo)記歸納步驟的目標(biāo)函數(shù)(參看表2):
其中λt為第t個(gè)訓(xùn)練樣例拉格朗日乘子(lagrangemultiplier),st為在前述m步驟中確定的其分類分值,c為成本因子。訓(xùn)練樣例求和中的前兩項(xiàng)從界限先驗(yàn)分布中獲得,而第三項(xiàng)由標(biāo)記先驗(yàn)分布給定。通過最大化
〈y〉=tanh(λs)(4)
圖1顯示了期望標(biāo)記〈y〉作為一個(gè)分類分值s的函數(shù),其使用成本因子c=5和c=1.5。通過使用成本因子c=5和c=1.5求解公式3,確定用于產(chǎn)生圖1的拉格朗日乘子。由圖1可知,界限之外的無標(biāo)記數(shù)據(jù)點(diǎn),即|s|>1,具有接近于0的期望標(biāo)記〈y〉,接近于界限的數(shù)據(jù)點(diǎn),即|s|≈1,產(chǎn)生最高的絕對期望標(biāo)記值,以及接近于超平面的數(shù)據(jù)點(diǎn),即|s|<∈,產(chǎn)生|<y>|<∈。當(dāng)|s|→∞,<y>→0的非直觀標(biāo)記分配的原因在于所決定的判別方法,該方法只要滿足分類限制,就試圖保持盡可能地接近先驗(yàn)分布。它不是一個(gè)由表2的已知方法所選擇的近似值的人工產(chǎn)物,即一個(gè)算法,該算法徹底地搜索所有可能的標(biāo)記分配,并由此確保找出全局最優(yōu)解,且同樣將接近或等于零的期望標(biāo)記分配給在界限之外的無標(biāo)記數(shù)據(jù)。再次重申,如上所述,那是判別觀點(diǎn)所期望的。在界限之外的數(shù)據(jù)點(diǎn)對于分隔樣例并不重要,因此所有這些數(shù)據(jù)點(diǎn)的單個(gè)概率分布回復(fù)到了它們的先驗(yàn)分布。
jaakkola的轉(zhuǎn)導(dǎo)分類算法的m步驟,在此引用,確定了超平面參數(shù)的概率分布、偏差項(xiàng)、以及在限制的條件下最接近于各自的先驗(yàn)分布的數(shù)據(jù)點(diǎn)的界限,
其中,st為第t個(gè)數(shù)據(jù)點(diǎn)分類分值,<yt>為其期望的標(biāo)記,<γt>為其期望的界限。對于有標(biāo)記數(shù)據(jù),期望的標(biāo)記是固定的,為<y>=+1或<y>=-1。無標(biāo)記數(shù)據(jù)的期望標(biāo)記位于區(qū)間(-1,+1)之內(nèi),且在標(biāo)記歸納步驟中被估算。根據(jù)公式5,由于分類分值由期望標(biāo)記決定,無標(biāo)記數(shù)據(jù)須滿足比有標(biāo)記數(shù)據(jù)更嚴(yán)格的分類限制。此外,給定期望標(biāo)記的關(guān)系式,作為分類分值的一個(gè)函數(shù),參看圖1,接近于分隔超平面的無標(biāo)記數(shù)據(jù)具有最嚴(yán)格的分類限制,因?yàn)樗鼈兊姆种狄约捌谕麡?biāo)記的絕對值|<yt>|小。給定上述先驗(yàn)分布的m步驟的完全目標(biāo)函數(shù)為:
第一項(xiàng)由高斯超平面參數(shù)先驗(yàn)分布獲得,第二項(xiàng)為界限先驗(yàn)正規(guī)化項(xiàng),最后一項(xiàng)為偏差先驗(yàn)正規(guī)化項(xiàng),由具有零平均值和方差
總之,在jaakkola的轉(zhuǎn)導(dǎo)分類算法的m步驟,在此引用,無標(biāo)記數(shù)據(jù)需要比有標(biāo)記數(shù)據(jù)滿足更嚴(yán)格的分類限制,且它們對于解的累積權(quán)重比有標(biāo)記數(shù)據(jù)的限制更少。另外,具有一個(gè)接近于零的期望標(biāo)記的無標(biāo)記數(shù)據(jù),位于當(dāng)前m步驟的界限之內(nèi)的,對解的影響最大。這樣,如圖2所示,通過將該算法應(yīng)用于數(shù)據(jù)集,可以圖解說明公式化e和m步驟的凈效應(yīng)。數(shù)據(jù)集包括兩個(gè)有標(biāo)記樣例,一個(gè)位于x位置-1的負(fù)面樣例(x),和一個(gè)+1的正面樣例(+),以及沿x軸、位于-1與+1之間的六個(gè)無標(biāo)記樣例(o)。叉(x)表示一個(gè)有標(biāo)記負(fù)面樣例,加號(hào)(+)表示一個(gè)有標(biāo)記正面樣例,以及圓圈(o)表示無標(biāo)記數(shù)據(jù)。不同的圖表示分隔的超平面,由m步驟的不同的迭代決定。最終的解由jaakkaola的轉(zhuǎn)導(dǎo)med分類器決定,在此引用,正面有標(biāo)記訓(xùn)練樣例被錯(cuò)誤分類。圖2顯示了m步驟的多次迭代。在m步驟的第一次迭代,未考慮無標(biāo)記數(shù)據(jù),且分隔的超平面位于x=0。一個(gè)具有負(fù)x值的無標(biāo)記數(shù)據(jù)點(diǎn)比任何其它無標(biāo)記數(shù)據(jù)更接近于這個(gè)分隔的超平面。在隨后的標(biāo)記歸納步驟,它將被分配以最小的|<y>|,相應(yīng)地,在下一個(gè)m步驟,它具有最大的權(quán)限將超平面推向正面有標(biāo)記樣例。期望標(biāo)記<y>的特定形狀作為一個(gè)由選定的成本因子(參看圖1)確定的分類分值的函數(shù),與無標(biāo)記數(shù)據(jù)點(diǎn)的特定間隔相結(jié)合產(chǎn)生了橋聯(lián)效應(yīng),在每一個(gè)連續(xù)的m步驟,分隔的超平面越來越靠近正面樣例。直觀地講,m步驟遭受一種近視的困擾,最接近于當(dāng)前分隔超平面的無標(biāo)記數(shù)據(jù)點(diǎn)最能確定該平面的最終位置,而遠(yuǎn)離的數(shù)據(jù)點(diǎn)并不很重要。最終,由于偏差先驗(yàn)項(xiàng)限制了無標(biāo)記數(shù)據(jù)的集體拉動(dòng)少于有標(biāo)記數(shù)據(jù)的集體拉動(dòng),因而分隔超平面移到超出正面標(biāo)記樣例,產(chǎn)生一個(gè)最終的解,圖2中的第15次迭代,其將正面標(biāo)記樣例進(jìn)行了錯(cuò)誤的分類。在圖2中使用了一個(gè)
該算法的不穩(wěn)定性并不僅局限于圖2所示的樣例,當(dāng)應(yīng)用jaakkola方法時(shí),在此引用,還經(jīng)歷了局限于現(xiàn)實(shí)世界數(shù)據(jù)集,包括為本領(lǐng)域技術(shù)人員所熟知的路透社數(shù)據(jù)集。表2中所述的該方法的固有的不穩(wěn)定性為該實(shí)施方式的一個(gè)主要缺陷,且限制了其通用性,盡管jaakkola方法可能在本發(fā)明的某些實(shí)施例中實(shí)施。
本發(fā)明一個(gè)優(yōu)選方法采用使用最大熵判別(med)的框架的轉(zhuǎn)導(dǎo)分類。容易理解,本發(fā)明的不同實(shí)施例,適用于分類,也同樣適用于其它使用轉(zhuǎn)導(dǎo)的med學(xué)習(xí)問題,包括,但不限于,轉(zhuǎn)導(dǎo)med復(fù)原和圖像模式。
通過假設(shè)一個(gè)參數(shù)的先驗(yàn)概率分布,最大熵判別限制并減少可能的解。根據(jù)在期望的解準(zhǔn)確地描述訓(xùn)練數(shù)據(jù)的限制下,最接近于假設(shè)的先驗(yàn)概率分布的概率分布,最終解為所有可能解的期望值。所有解的先驗(yàn)概率分布映射到一個(gè)正規(guī)化項(xiàng),即,選擇了一個(gè)特定的先驗(yàn)分布,就已經(jīng)選擇了一個(gè)特定的正規(guī)化。
由支持向量機(jī)實(shí)施的判別估計(jì)在從少量的樣例的學(xué)習(xí)中是有效的。本發(fā)明實(shí)施例的方法和裝置與支持向量機(jī)一樣都具有該特點(diǎn),并且不會(huì)估算比解決給定的問題所必要的參數(shù)更多的參數(shù),并因此產(chǎn)生一個(gè)稀疏解。與生成模式估算相比,生成模式估算試圖解釋基礎(chǔ)過程,通常需要比判別估算更高的統(tǒng)計(jì)。另一方面,生成模式更加靈活,故可用于各種各樣的問題。另外,生成模式估算能直接包括先驗(yàn)知識(shí)。通過使用最大熵判別,本發(fā)明實(shí)施例的方法和裝置縮短了純判別模式估算(如,支持向量機(jī)學(xué)習(xí))與生成模式估算之間的差距。
如表3中所示的本發(fā)明的實(shí)施例的方法是一個(gè)改進(jìn)的轉(zhuǎn)導(dǎo)med分類算法,其不具有前述在jaakkola(在此引用)的方法中所存在的不穩(wěn)定的問題。區(qū)別包括,但不限于,在本發(fā)明實(shí)施例中,每個(gè)數(shù)據(jù)點(diǎn)都具有其自身的成本因子,與其絕對標(biāo)記期望值|<y>|成比例。另外,根據(jù)估計(jì)組成員概率作為數(shù)據(jù)點(diǎn)到判定函數(shù)的距離的函數(shù),在各m步驟之后,更新每一個(gè)數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率。本發(fā)明實(shí)施例的方法如以下表3所示:
改進(jìn)的轉(zhuǎn)導(dǎo)med分類
表3
通過|<y>|調(diào)節(jié)數(shù)據(jù)點(diǎn)成本因子,緩和了無標(biāo)記數(shù)據(jù)對于超平面上的集體拖動(dòng)的作用比有標(biāo)記數(shù)據(jù)更強(qiáng)的問題,因?yàn)楝F(xiàn)在無標(biāo)記數(shù)據(jù)的成本因子比有標(biāo)記數(shù)據(jù)的成本因子要小,也就是說,各無標(biāo)記數(shù)據(jù)點(diǎn)對于最終解的單獨(dú)作用總是小于有標(biāo)記數(shù)據(jù)點(diǎn)的單獨(dú)作用。然而,倘若無標(biāo)記數(shù)據(jù)的總量遠(yuǎn)大于有標(biāo)記數(shù)據(jù)的數(shù)量,無標(biāo)記數(shù)據(jù)仍然能比有標(biāo)記數(shù)據(jù)更多地影響最終解。另外,利用估算的類別概率,將成本因子調(diào)節(jié)與更新標(biāo)記先驗(yàn)概率結(jié)合,解決了上述橋聯(lián)效應(yīng)的問題。在第一個(gè)m步驟,無標(biāo)記數(shù)據(jù)具有小的成本因子,產(chǎn)生一個(gè)期望標(biāo)記,作為分類分值的函數(shù),其相當(dāng)平坦(見圖1),相應(yīng)地,在某種程度上,所有無標(biāo)記數(shù)據(jù)被允許繼續(xù)拉動(dòng)超平面,雖然僅有較小的權(quán)重。另外,由于標(biāo)記先驗(yàn)概率的更新,遠(yuǎn)離分隔的超平面的無標(biāo)記數(shù)據(jù)沒有被分配一個(gè)接近于0的期望標(biāo)記,但在多次迭代之后,分配一個(gè)接近于y=+1或y=-1的標(biāo)記,并由此逐漸地被看作有標(biāo)記數(shù)據(jù)處理。
在本發(fā)明實(shí)施例的方法的一個(gè)特定實(shí)施中,通過假設(shè)一個(gè)具有判定函數(shù)參數(shù)θ的零平均值和單位方差的一個(gè)高斯先驗(yàn):
判定函數(shù)參數(shù)的先驗(yàn)分布結(jié)合了即將到來的特定分類問題的重要先驗(yàn)知識(shí)。其它對于分類問題比較重要的判定函數(shù)參數(shù)的先驗(yàn)分布例如多項(xiàng)分布,泊松分布、柯西分布(breit-wigner)、麥克斯韋玻耳茲曼分布或玻色-愛因斯坦分布。
判定函數(shù)閾值b的先驗(yàn)分布由具有平均值μb和方差
作為數(shù)據(jù)點(diǎn)的分類界限γi的先驗(yàn)分布
被選定,其中c為成本因子。該先驗(yàn)分布與jaakkola(在此引用)中使用的先驗(yàn)分布不同,jaakkola的表達(dá)式為exp[-c(1-γ)]。優(yōu)選地,式9所給出的表達(dá)式優(yōu)于jaakkola(在此引用)使用的表達(dá)式,因?yàn)榧词钩杀疽蜃有∮?,式9也會(huì)產(chǎn)生一個(gè)正面期望界限,而當(dāng)c<1時(shí),exp[-c(1-γ)]產(chǎn)生一個(gè)負(fù)面期望界限。
給定這些先驗(yàn)分布,可直接確定相應(yīng)的分配函數(shù)z(參看樣例t.m.coverandj.a.thomas,elementsofinformationtheory,johnwiley&sons,inc.)(cover),且目標(biāo)函數(shù)
根據(jù)jaakkola(在此引用),m步驟的目標(biāo)函數(shù)為
以及e步驟的目標(biāo)函數(shù)為
其中st為第t個(gè)數(shù)據(jù)點(diǎn)的分類分值,在前面的m步驟中確定,p0,1(yt)為數(shù)據(jù)點(diǎn)的二元標(biāo)記先驗(yàn)概率。對于有標(biāo)記數(shù)據(jù),標(biāo)記先驗(yàn)初始化為p0,1(yt)=1,而對于無標(biāo)記數(shù)據(jù),標(biāo)記先驗(yàn)初始化為p0,1(yt)=1/2的非信息先驗(yàn),或類別先驗(yàn)概率。
這里命名為m步驟的部分描述了解決m步驟目標(biāo)函數(shù)的算法。同樣地,這里命名為e步驟的部分描述了e步驟算法。
在表3第5行的估算類別概率(estimateclassprobability)步驟,使用了訓(xùn)練的數(shù)據(jù)以確定校準(zhǔn)參數(shù),用于將分類分值變成組成員概率,即類別的概率給定分值p(cs)。用于將分值校準(zhǔn)估算為概率的相關(guān)方法在j.platt,probabilisticoutputsforsupportvectormachinesandcomparisontoregularizedlikelihoodmethods,pages61-74,2000(platt)以及b.zadroznyandc.elkan,transformingclassifierscoresintoaccuratemulti-classprobabilityestimates,2002(zadrozny)中有描述。
特別參看圖3,叉(x)表示一個(gè)有標(biāo)記負(fù)面樣例,加號(hào)(+)表示有標(biāo)記正面樣例,和圓圈(o)表示無標(biāo)記數(shù)據(jù)。不同的曲線表示以m步驟的不同迭代確定的分隔超平面。第20次迭代顯示了由改進(jìn)的轉(zhuǎn)導(dǎo)med分類器決定的最終解。圖3所示為改進(jìn)的轉(zhuǎn)導(dǎo)med分類算法,應(yīng)用于上述的小型數(shù)據(jù)集。使用的參數(shù)為c=10,
特別參看圖4,圖示了一個(gè)控制流程,顯示了本發(fā)明實(shí)施例的分類無標(biāo)記數(shù)據(jù)的方法。方法100在步驟102開始,在步驟104訪問存儲(chǔ)數(shù)據(jù)106。該數(shù)據(jù)存儲(chǔ)在存儲(chǔ)單元且包括有標(biāo)記數(shù)據(jù)、無標(biāo)記數(shù)據(jù)以及至少一個(gè)預(yù)設(shè)的成本因子。數(shù)據(jù)106包括具有分配的標(biāo)記的數(shù)據(jù)點(diǎn)。分配的數(shù)據(jù)點(diǎn)識(shí)別有標(biāo)記數(shù)據(jù)點(diǎn)是否將被納入一個(gè)特定的類別,還是從一個(gè)特定類別被排除。
一旦數(shù)據(jù)在步驟104被訪問,本發(fā)明實(shí)施例的方法在步驟108接著使用數(shù)據(jù)點(diǎn)的標(biāo)記信息,確定該數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率。然后,在步驟110,根據(jù)所述標(biāo)記先驗(yàn)概率,確定該數(shù)據(jù)點(diǎn)的期望標(biāo)記。隨著期望標(biāo)記在步驟110中被計(jì)算,連同有標(biāo)記數(shù)據(jù),無標(biāo)記數(shù)據(jù)和成本因子,步驟112包括通過調(diào)節(jié)成本因子無標(biāo)記數(shù)據(jù)點(diǎn),對轉(zhuǎn)導(dǎo)med分類器進(jìn)行迭代訓(xùn)練。在每一次迭代計(jì)算中,無標(biāo)記數(shù)據(jù)點(diǎn)的成本因子被調(diào)節(jié)。這樣,med分類器從計(jì)算的反復(fù)迭代中學(xué)習(xí)。訓(xùn)練的分類器接著在步驟116訪問輸入數(shù)據(jù)114。然后該訓(xùn)練的分類器在步驟118完成分類輸入數(shù)據(jù)的步驟,并在步驟120終止。
容易理解,106的無標(biāo)記數(shù)據(jù)和輸入數(shù)據(jù)114可以從一個(gè)單一的來源獲得。由此,輸入數(shù)據(jù)/無標(biāo)記數(shù)據(jù)可用于步驟112的迭代過程,該過程隨后在步驟118中用于分類。而且,本發(fā)明實(shí)施例考慮,輸入數(shù)據(jù)114可包括一個(gè)反饋機(jī)構(gòu),以將輸入數(shù)據(jù)提供給在106的存儲(chǔ)數(shù)據(jù),以便112的med分類器可動(dòng)態(tài)地從輸入的新數(shù)據(jù)中學(xué)習(xí)。
特別參看圖5,圖示了一個(gè)控制流程圖,顯示了本發(fā)明實(shí)施例的另一種無標(biāo)記數(shù)據(jù)的分類方法,包括用戶定義的先驗(yàn)概率信息。方法200始于步驟202,在步驟204訪問存儲(chǔ)數(shù)據(jù)206。該數(shù)據(jù)206包括有標(biāo)記數(shù)據(jù)、無標(biāo)記數(shù)據(jù)、一個(gè)預(yù)設(shè)的成本因子、以及由用戶提供的先驗(yàn)概率信息。206的有標(biāo)記數(shù)據(jù)包括具有分配的標(biāo)記的數(shù)據(jù)點(diǎn)。所述分配的標(biāo)記識(shí)別該標(biāo)記的數(shù)據(jù)點(diǎn)是將被納入一個(gè)特定的類別還是從一個(gè)特定類別被排除。
在步驟208,期望的標(biāo)記由206的數(shù)據(jù)計(jì)算。然后,該期望的標(biāo)記在步驟210中連同有標(biāo)記數(shù)據(jù)、無標(biāo)記數(shù)據(jù)和成本因子被一起使用,以引導(dǎo)一個(gè)轉(zhuǎn)導(dǎo)med分類器的迭代訓(xùn)練。210的迭代計(jì)算在每一次計(jì)算中,調(diào)節(jié)無標(biāo)記數(shù)據(jù)的成本因子。計(jì)算繼續(xù),直至分類器被正確地訓(xùn)練。
然后,訓(xùn)練的分類器在步驟214訪問來自輸入數(shù)據(jù)212的輸入數(shù)據(jù)。訓(xùn)練的分類器接下來可以在步驟216完成分類輸入數(shù)據(jù)的步驟。圖4中所述的過程和方法,輸入數(shù)據(jù)和無標(biāo)記數(shù)據(jù)可以從一個(gè)單一的來源獲得,且在206和212都可以進(jìn)入系統(tǒng)。這樣,輸入數(shù)據(jù)212可在210影響訓(xùn)練,以便該過程可隨著連續(xù)的輸入數(shù)據(jù)動(dòng)態(tài)地隨時(shí)間變化。
在圖4和圖5中所示的兩個(gè)方法中,一個(gè)監(jiān)視器可確定系統(tǒng)有沒有達(dá)到收斂。當(dāng)med計(jì)算的每一次迭代之間的超平面的變化降到一個(gè)預(yù)設(shè)的閾值以下,可確定收斂。在本發(fā)明的另一實(shí)施例中,當(dāng)確定的期望標(biāo)記的變化降到一個(gè)預(yù)設(shè)的閾值以下,可確定所述閾值。如果達(dá)到收斂,則迭代訓(xùn)練過程可以停止。
特別參看圖6,顯示了本發(fā)明方法的至少一個(gè)實(shí)施例的迭代訓(xùn)練過程的更加詳細(xì)的控制流程圖。過程300始于步驟302,在步驟304,來自數(shù)據(jù)306的數(shù)據(jù)被訪問,該數(shù)據(jù)可以包括有標(biāo)記數(shù)據(jù)、無標(biāo)記數(shù)據(jù)、至少一個(gè)預(yù)設(shè)的成本因子,以及先驗(yàn)概率信息。306的有標(biāo)記數(shù)據(jù)點(diǎn)包括一個(gè)標(biāo)記,該標(biāo)記識(shí)別所述數(shù)據(jù)點(diǎn)是否是將被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是將被一個(gè)指定類別排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。306的先驗(yàn)概率信息包括有標(biāo)記數(shù)據(jù)集和無標(biāo)記數(shù)據(jù)集的概率信息。
在步驟308,期望標(biāo)記由來自步驟306的先驗(yàn)概率信息的數(shù)據(jù)確定。在步驟310中,每一個(gè)無標(biāo)記數(shù)據(jù)集的成本因子相對于數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值成比例調(diào)節(jié)。然后通過確定一個(gè)判定函數(shù),在步驟312訓(xùn)練一個(gè)med分類器,即根據(jù)有標(biāo)記和無標(biāo)記數(shù)據(jù)的期望標(biāo)記,利用有標(biāo)記和無標(biāo)記數(shù)據(jù)作為訓(xùn)練樣例,最大化在被納入的訓(xùn)練樣例和被排除的訓(xùn)練樣例之間的界限。在步驟314,使用步驟312的訓(xùn)練的分類器確定分類分值。在步驟316,分類分值被校準(zhǔn)為組成員概率。在步驟318,根據(jù)組成員概率更新標(biāo)記先驗(yàn)概率信息。在步驟320執(zhí)行一個(gè)med計(jì)算,以確定標(biāo)記和界限概率分布,其中,前面確定的分類分值在med計(jì)算中使用。結(jié)果,新的期望標(biāo)記在步驟322計(jì)算,并且在步驟324,使用來自步驟322的計(jì)算更新該期望標(biāo)記。在步驟326,該方法確定是否達(dá)到收斂。如果是,該方法在步驟328終止。如果未達(dá)到收斂,則從步驟310開始,完成該方法的另一次迭代。重復(fù)迭代直至達(dá)到收斂,從而實(shí)現(xiàn)med分類器的迭代訓(xùn)練。當(dāng)判定函數(shù)在每一次med迭代計(jì)算之間的變化降到一個(gè)預(yù)設(shè)值以下時(shí),達(dá)到收斂。在本發(fā)明另一個(gè)實(shí)施例中,當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí),達(dá)到收斂。
圖7顯示了根據(jù)一個(gè)實(shí)施例的一個(gè)網(wǎng)絡(luò)體系結(jié)構(gòu)700。如圖所示,提供了多個(gè)遠(yuǎn)程網(wǎng)絡(luò)702,包括第一遠(yuǎn)程網(wǎng)絡(luò)702和第二遠(yuǎn)程網(wǎng)絡(luò)704。網(wǎng)關(guān)707可連接在遠(yuǎn)程網(wǎng)絡(luò)702與鄰近網(wǎng)絡(luò)708之間。在本網(wǎng)絡(luò)體系結(jié)構(gòu)700的環(huán)境下,網(wǎng)絡(luò)704、706的每一個(gè)都可以采用任意形式,包括但并不限于:局域網(wǎng)、廣域網(wǎng),如因特網(wǎng)、公共開關(guān)電話網(wǎng)絡(luò)(pstn)、內(nèi)部電話網(wǎng),等等。
在使用中,網(wǎng)關(guān)707作為從遠(yuǎn)程網(wǎng)絡(luò)702到鄰近網(wǎng)絡(luò)708的入口點(diǎn)。由此,網(wǎng)關(guān)707可用作一個(gè)路由器,能管理一個(gè)到達(dá)網(wǎng)關(guān)707的給定的數(shù)據(jù)包,以及一個(gè)開關(guān),其為給定的數(shù)據(jù)包進(jìn)出網(wǎng)關(guān)707提供實(shí)際的路徑。
進(jìn)一步包括至少一個(gè)與所述鄰近網(wǎng)絡(luò)708連接的數(shù)據(jù)服務(wù)器714,其可以通過網(wǎng)關(guān)707從遠(yuǎn)程網(wǎng)絡(luò)702訪問。需注意的是,數(shù)據(jù)服務(wù)器714可以包括任何類型的計(jì)算機(jī)設(shè)備/組件。與每個(gè)數(shù)據(jù)服務(wù)器714連接的是多個(gè)用戶設(shè)備716。這些用戶設(shè)備716可以包括臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、手提式計(jì)算機(jī)、打印機(jī)或任何其它邏輯設(shè)備。需注意的是,在一個(gè)實(shí)施例中,用戶設(shè)備717也可以直接連接于任意網(wǎng)絡(luò)。
一臺(tái)傳真機(jī)720或一系列傳真機(jī)720可連接于一個(gè)或多個(gè)網(wǎng)絡(luò)704、706、708。
需注意的是,數(shù)據(jù)庫和/或附加組件可以與連接于網(wǎng)絡(luò)704、706、708的任意類型的網(wǎng)絡(luò)元件一起使用或整合在其中。在本描述的環(huán)境下,網(wǎng)絡(luò)元件優(yōu)選為網(wǎng)絡(luò)的任意組件。
根據(jù)一個(gè)實(shí)施例,圖8顯示了一個(gè)與圖7的用戶設(shè)備716有關(guān)的典型硬件環(huán)境。該圖顯示了一個(gè)典型工作站的硬件結(jié)構(gòu),具有一個(gè)中央處理器810,如一個(gè)微處理器,以及多個(gè)通過系統(tǒng)總線812相互連接的其它單元。
圖8所示的工作站包括隨機(jī)存取存儲(chǔ)器(ram)814,只讀存儲(chǔ)器(rom)816,i/o適配器818,用于連接外圍設(shè)備(如與總線812連接的磁盤存儲(chǔ)單元820),用戶接口適配器822,用于將鍵盤824、鼠標(biāo)826、揚(yáng)聲器828、話筒832、和/或其它用戶接口設(shè)備,如觸摸屏和數(shù)碼相機(jī)(圖未示),連接于總線812,通信適配器834,用于將工作站連接于通信網(wǎng)絡(luò)835(如,數(shù)據(jù)處理網(wǎng)絡(luò)),以及顯示適配器836,用于將總線812與顯示設(shè)備838連接。
特別參看圖9,顯示了本發(fā)明一個(gè)實(shí)施例的裝置414。本發(fā)明的一個(gè)實(shí)施例包括用于存儲(chǔ)標(biāo)記數(shù)據(jù)416的存儲(chǔ)設(shè)備814。每一個(gè)標(biāo)記數(shù)據(jù)點(diǎn)416都包括一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。存儲(chǔ)器814還存儲(chǔ)無標(biāo)記數(shù)據(jù)418,先驗(yàn)概率數(shù)據(jù)420和成本因子422。
處理器810訪問來自存儲(chǔ)器814的數(shù)據(jù),并使用轉(zhuǎn)導(dǎo)med計(jì)算訓(xùn)練一個(gè)二元分類器,使其能夠分類無標(biāo)記數(shù)據(jù)。通過使用成本因子以及來自有標(biāo)記和無標(biāo)記數(shù)據(jù)訓(xùn)練樣例,處理器810使用迭代轉(zhuǎn)導(dǎo)計(jì)算,并調(diào)節(jié)該成本因子作為期望標(biāo)記值的一個(gè)函數(shù),從而影響成本因子數(shù)據(jù)422的數(shù)據(jù),該數(shù)據(jù)然后再次輸入處理器810。因此,成本因子422隨著處理器810的med分類的每一次迭代而變化。一旦處理器810充分地訓(xùn)練了一個(gè)med分類器,處理器接著就能指導(dǎo)該分類器將無標(biāo)記數(shù)據(jù)歸類到已分類的數(shù)據(jù)424。
現(xiàn)有技術(shù)的轉(zhuǎn)導(dǎo)svm和med公式造成潛在的標(biāo)記分配呈指數(shù)增長,且近似值須向?qū)嶋H應(yīng)用發(fā)展。在本發(fā)明的另一個(gè)實(shí)施例中,介紹了不同的轉(zhuǎn)導(dǎo)med分類的公式,無需遭受呈指數(shù)增長的可能的標(biāo)記分配,并允許一個(gè)常規(guī)的閉型解(closedformsolution)。對于線性分類器,問題表述如下:找到超平面參數(shù)分布p(θ),偏差分布p(b),數(shù)據(jù)點(diǎn)分類界限p(γ),其結(jié)合的概率分布相比結(jié)合的各自的先驗(yàn)分布p0具有一個(gè)最小化庫樂伯克累積勒發(fā)散(kullbackleiblerdivergence)kl,即
受制于以下有標(biāo)記數(shù)據(jù)的限制
以及受制于以下無標(biāo)記數(shù)據(jù)的限制
其中θxt為分隔的超平面的權(quán)重向量與第t個(gè)數(shù)據(jù)點(diǎn)的特征向量之間的點(diǎn)積。無需標(biāo)記的先驗(yàn)分布。有標(biāo)記數(shù)據(jù)根據(jù)其已知的標(biāo)記被限制在分隔的超平面的右側(cè),而對于無標(biāo)記數(shù)據(jù)的唯一要求是,它們到超平面的距離的平方大于界限。總之,本發(fā)明的實(shí)施例找到了一個(gè)分隔的超平面,它是在最接近于選定的先驗(yàn)概率,準(zhǔn)確地分隔有標(biāo)記數(shù)據(jù),以及在界限之間沒有無標(biāo)記數(shù)據(jù)之間的一個(gè)權(quán)衡。其優(yōu)點(diǎn)在于,無需引入標(biāo)記的先驗(yàn)分布,因而,避免了潛在的標(biāo)記分配指數(shù)增長的問題。
在本發(fā)明另一個(gè)實(shí)施例的特定實(shí)施中,使用用于超平面參數(shù)的公式7、8和9中給定的先驗(yàn)分布、偏差、和界限,得到以下分配函數(shù):
其中下標(biāo)t為有標(biāo)記數(shù)據(jù)的下標(biāo),而t’為無標(biāo)記數(shù)據(jù)的下標(biāo)。
引入符號(hào):
和w=∑tλtγtut-2∑t′λt′γt′ut′,
公式16可改寫為如下:
在積分之后,產(chǎn)生下列分配函數(shù):
即,最終的目標(biāo)函數(shù)為:
如在這里稱為m步驟的段落中論述的已知標(biāo)記的情況那樣,目標(biāo)函數(shù)
除了分類,本發(fā)明采用最大熵判別框架的方法還存在多種應(yīng)用。例如,med可用于解決數(shù)據(jù)的分類??傊?,可用于任何種類的判別函數(shù)和先驗(yàn)分布、復(fù)原和圖像模式(t.jebara,machinelearningdiscriminativeandgenerative,kluweracademicpublishers)(jebara)。
本發(fā)明實(shí)施例的應(yīng)用可以用公式表示成具有已知標(biāo)記的純歸納學(xué)習(xí)問題,以及具有有標(biāo)記和無標(biāo)記訓(xùn)練樣例的轉(zhuǎn)導(dǎo)學(xué)習(xí)問題。在后面的實(shí)施例中,表3中描述的轉(zhuǎn)導(dǎo)med分類算法的改進(jìn)對于普通轉(zhuǎn)導(dǎo)med分類、轉(zhuǎn)導(dǎo)med復(fù)原、圖像模式的轉(zhuǎn)導(dǎo)med學(xué)習(xí)都同樣適用。這樣,對于本公開的目的及其從屬的權(quán)利要求,詞語“分類”可包括復(fù)原或圖像模式。
m步驟
根據(jù)式11,m步驟的目標(biāo)函數(shù)為:
{λt|0≤λt≤c},
其中拉格朗日乘子λt由最大化jm確定。
忽略冗余限制λt<c,上述兩個(gè)問題的拉格朗日算符為:
對于最優(yōu)性必要且充分的kkt條件為:
其中ft為:
在最優(yōu)解中,偏差等于期望偏差
<yt>(-ft-<b>)+δt=0
(25)
通過考慮δtλt=0限制的兩種情況,可總結(jié)出這些公式。第一種情況所有λt=0,以及第二種所有0<λt<c。無需考慮第三種,如s.keerthi,s.shevade,c.bhattacharhyya,andk.murthy,improvementstoplatt’ssmoalgorithmforsvmclassifierdesign,1999(keerthi),中所描述,應(yīng)用于svm算法;在此公式中,勢函數(shù)(potentialfunction)保持λt≠c。
這些情況下某些數(shù)據(jù)點(diǎn)t會(huì)存在干擾,直至達(dá)到最優(yōu)解。即,當(dāng)λt為非零時(shí),ft≠-<b>,或當(dāng)λt為零時(shí),ft<yt><-<b><yt>。不幸的是,沒有最優(yōu)解λt,就無法計(jì)算<b>。對于這個(gè)問題的一個(gè)好的解決方法是借鑒keerthi(再次在此引用)的方法,通過構(gòu)建下列三個(gè)集合:
i0={t:0<λt<c}(28)
i1={t:<yt>>0,λt=0}(29)
i4={t:<yt><0,λt=0}(30)
通過使用這些集合,使用下面的定義,我們可以限定最優(yōu)性條件的最大極限干擾。i0中的元素為干擾,只要它們不等于-<b>,因此,來自i0的最大和最小的ft為成為干擾的候選。當(dāng)ft<-<b>時(shí),i1中的元素為干擾,因此,如果存在的話,來自i1的最小元素為最大極限干擾。最后,當(dāng)ft>-<b>時(shí),在i4中的元素為干擾,其從i4干擾候選中產(chǎn)生最大元素。因此,-<b>受到如下所示的這些集合的“最小”和“最大”值的限制:
由于在最優(yōu)解中,-bup和-blow必須相等的緣故,即-<b>,然后,減小-bup與-blow的差距將會(huì)推動(dòng)訓(xùn)練算法收斂。另外,差距也可以作為一種確定數(shù)值收斂的方法被測定。
如前所述,只有達(dá)到收斂,才能知道b的值=<b>。另一個(gè)實(shí)施例的方法的區(qū)別在于,一次只能優(yōu)化一個(gè)樣例。因此,每隔一次,啟發(fā)式訓(xùn)練將在i0中的樣例與所有樣例之間交替使用。
e步驟
公式12中e步驟的目標(biāo)函數(shù)為
其中st為在之前的m步驟中確定的第t個(gè)數(shù)據(jù)點(diǎn)的分類分值。拉格朗日乘子λt由最大化
忽略冗余限制λt<c,上述兩個(gè)問題的拉格朗日算符為:
對于最優(yōu)性必要且充分的kkt條件為:
由于對樣例進(jìn)行了因式分解,只要忽略樣例,通過優(yōu)化kkt條件對拉格朗日乘子的求解可以完成。
對于有標(biāo)記樣例,期望標(biāo)記<yt>具有p0,1(yt)=1和p0,1(-yt)=0,簡化kkt條件為:
并生成作為有標(biāo)記樣例的拉格朗日乘子的解:
對于無標(biāo)記樣例,公式35不能分解求解,但必須通過使用,如對每個(gè)滿足公式35的無標(biāo)記樣例的拉格朗日乘子進(jìn)行線性搜索,來確定。
下面為多個(gè)非限制的樣例,其可通過上述所例舉的方法、及其推導(dǎo)或變化,以及其它現(xiàn)有技術(shù)已知的方法實(shí)現(xiàn)。每一個(gè)例子包括優(yōu)選的運(yùn)算,結(jié)合可選的運(yùn)算或參數(shù),其可在基本的優(yōu)選方法論中實(shí)施。
在實(shí)施例中,如圖10所示,有標(biāo)記數(shù)據(jù)點(diǎn)在步驟1002被接收,每一個(gè)數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)特定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)特定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。另外,無標(biāo)記數(shù)據(jù)點(diǎn)在步驟1004被接收,同時(shí)接收所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)成本因子。所述數(shù)據(jù)點(diǎn)可以包括任何介質(zhì),如單詞、圖像、聲音等等。有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息也可以被接收。而且,被納入的訓(xùn)練樣例的標(biāo)記可映射為第一個(gè)數(shù)值,如+1等,而被排除的訓(xùn)練樣例可映射為第二個(gè)數(shù)值,如-1等。另外,所述有標(biāo)記數(shù)據(jù)點(diǎn)、無標(biāo)記數(shù)據(jù)點(diǎn)、輸入數(shù)據(jù)點(diǎn)、以及有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)成本因子可存入計(jì)算機(jī)存儲(chǔ)器。
進(jìn)一步,在步驟1006,使用所述至少一個(gè)成本因子,以及有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,通過迭代計(jì)算,一個(gè)轉(zhuǎn)導(dǎo)med分類器被訓(xùn)練。對于每一次迭代計(jì)算,調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為一期望標(biāo)記值,例如一個(gè)數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值等,的函數(shù),并根據(jù)數(shù)據(jù)點(diǎn)組成員概率的估算調(diào)整數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率,由此確保穩(wěn)定性。而且,轉(zhuǎn)導(dǎo)分類器可學(xué)習(xí)使用有標(biāo)記和無標(biāo)記數(shù)據(jù)的先驗(yàn)概率信息,這進(jìn)一步提高了穩(wěn)定性。訓(xùn)練轉(zhuǎn)導(dǎo)分類器的迭代步驟可以重復(fù),直至達(dá)到數(shù)據(jù)值的收斂,例如,當(dāng)轉(zhuǎn)導(dǎo)分類器的判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)、當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí),等等。
此外,在步驟1008,訓(xùn)練的分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、和輸入數(shù)據(jù)點(diǎn)中的至少一種。輸入數(shù)據(jù)點(diǎn)可在分類器被訓(xùn)練之前或之后接收,或根本不接收。而且,根據(jù)它們的期望標(biāo)記,利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為學(xué)習(xí)樣例,可確定判定函數(shù),給定被納入和被逐出的訓(xùn)練樣例,該判定函數(shù)可將kl發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布。換言之,該判定函數(shù)可以使用判定函數(shù)參數(shù)的多項(xiàng)式分布,由最小的kl發(fā)散來確定。
在步驟1010,分類的數(shù)據(jù)點(diǎn)的類別,或其衍生物,被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。系統(tǒng)可以是遠(yuǎn)程的或當(dāng)?shù)氐?。類別的衍生物的例子可以是,但并不限于,分類的數(shù)據(jù)點(diǎn)本身、分類數(shù)據(jù)點(diǎn)的表征或標(biāo)志符、或者主文件/文檔,等等。
在另一個(gè)實(shí)施例中,計(jì)算機(jī)系統(tǒng)使用并執(zhí)行計(jì)算機(jī)可執(zhí)行程序代碼。該程序代碼包括用于訪問存儲(chǔ)于計(jì)算機(jī)存儲(chǔ)器的有標(biāo)記數(shù)據(jù)點(diǎn)的指令,每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是否為被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)指定類別中被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。另外,計(jì)算機(jī)代碼包括用于從計(jì)算機(jī)存儲(chǔ)器訪問無標(biāo)記數(shù)據(jù)點(diǎn)的指令,以及從計(jì)算機(jī)存儲(chǔ)器訪問有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)成本因子的指令。存儲(chǔ)于計(jì)算存儲(chǔ)器的有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息也可以被訪問。而且,被納入的訓(xùn)練樣例的標(biāo)記可映射為第一個(gè)數(shù)值,如+1等,而被排除的訓(xùn)練樣例可映射為第二個(gè)數(shù)值,如-1等。
進(jìn)一步,程序代碼包括這樣的指令,所述指令使用至少一個(gè)存儲(chǔ)的成本因子、以及存儲(chǔ)的有標(biāo)記數(shù)據(jù)點(diǎn)和存儲(chǔ)的無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,通過迭代計(jì)算訓(xùn)練轉(zhuǎn)導(dǎo)分類器。而且,對于每一次迭代計(jì)算,調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為該數(shù)據(jù)點(diǎn)的期望標(biāo)記值,例如數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值,的一個(gè)函數(shù)。而且,對于每一次迭代,先驗(yàn)概率信息可以根據(jù)數(shù)據(jù)點(diǎn)的組成員概率的估算進(jìn)行調(diào)整。訓(xùn)練轉(zhuǎn)導(dǎo)分類器的迭代步驟可被重復(fù),直至數(shù)據(jù)值達(dá)到收斂,例如,當(dāng)轉(zhuǎn)導(dǎo)分類器的判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)、當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí),等等。
另外,程序代碼包括這樣的指令,所述指令用于訓(xùn)練分類器,對無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、和輸入數(shù)據(jù)點(diǎn)中的至少一種進(jìn)行分類,以及用于輸出所述分類的數(shù)據(jù)點(diǎn)的類別或其衍生物的指令,將類別輸出給一個(gè)用戶、另一個(gè)系統(tǒng)、和另一個(gè)過程中的至少一個(gè)。而且,根據(jù)它們的期望標(biāo)記,利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為學(xué)習(xí)樣例,可確定判定函數(shù),給定被納入和被排除的訓(xùn)練樣例,該判定函數(shù)可將kl發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布。
在另一個(gè)實(shí)施例中,數(shù)據(jù)處理裝置包括至少一個(gè)存儲(chǔ)器,用于存儲(chǔ):(i)有標(biāo)記數(shù)據(jù)點(diǎn),每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例;(ii)無標(biāo)記數(shù)據(jù)點(diǎn);和(iii)所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)成本因子。所述存儲(chǔ)器還可以存儲(chǔ)有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息。而且,被納入的訓(xùn)練樣例的標(biāo)記可映射為第一個(gè)數(shù)值,如+1等,而被排除的訓(xùn)練樣例可映射為第二個(gè)數(shù)值,如-1等。
另外,所述數(shù)據(jù)處理裝置包括一個(gè)轉(zhuǎn)導(dǎo)分類訓(xùn)練器,以利用所述至少一個(gè)成本因子,以及所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,使用轉(zhuǎn)導(dǎo)的最大熵判別(med),迭代地訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器。此外,在每一次med迭代計(jì)算,調(diào)整所述無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為該數(shù)據(jù)點(diǎn)的期望標(biāo)記值,例如一個(gè)數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值等,的一個(gè)函數(shù)。而且,在每一次med迭代計(jì)算,先驗(yàn)概率信息可以根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估計(jì)被調(diào)整。該裝置還可以包括一個(gè)用于確定數(shù)據(jù)值收斂的裝置,如,當(dāng)轉(zhuǎn)導(dǎo)分類器計(jì)算的判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)、當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí),等等,以及一旦確定收斂,則終止計(jì)算。
另外,訓(xùn)練的分類器用于分類無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、和輸入數(shù)據(jù)點(diǎn)中的至少一種。而且,根據(jù)它們的期望標(biāo)記,利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為學(xué)習(xí)樣例,可確定判定函數(shù),給定被納入和被排除的訓(xùn)練樣例,該判定函數(shù)可將kl發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布。而且,分類的數(shù)據(jù)點(diǎn)的類別,或其衍生物,輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
在另一個(gè)實(shí)施例中,一個(gè)制品,包括計(jì)算機(jī)可讀的程序存儲(chǔ)介質(zhì),該介質(zhì)確切地包括一個(gè)或多個(gè)計(jì)算機(jī)可執(zhí)行的指令程序,以執(zhí)行數(shù)據(jù)分類的方法。在使用中,接收有標(biāo)記數(shù)據(jù)點(diǎn),每個(gè)有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。另外,接收無標(biāo)記數(shù)據(jù)點(diǎn),以及所述有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)的成本因子。有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)概率信息也可以存入計(jì)算機(jī)存儲(chǔ)器。而且,被納入的訓(xùn)練樣例的標(biāo)記可映射為第一個(gè)數(shù)值,如+1等,而被排除的訓(xùn)練樣例可映射為第二個(gè)數(shù)值,如-1,等。
進(jìn)一步,使用至少一個(gè)存儲(chǔ)的成本因子和存儲(chǔ)的有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,利用迭代的最大熵判別(med)計(jì)算,訓(xùn)練轉(zhuǎn)導(dǎo)分類器。在med計(jì)算的每一次迭代中,調(diào)整無標(biāo)記數(shù)據(jù)點(diǎn)成本因子作為該數(shù)據(jù)點(diǎn)的期望標(biāo)記值,例如一個(gè)數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值等,的一個(gè)函數(shù)。而且,在每一次med迭代計(jì)算,先驗(yàn)概率信息可以根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算被調(diào)整。訓(xùn)練轉(zhuǎn)導(dǎo)分類器的迭代步驟可被重復(fù),直至達(dá)到數(shù)據(jù)值收斂,例如,當(dāng)轉(zhuǎn)導(dǎo)分類器的判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí)、當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí),等等。
另外,從計(jì)算機(jī)存儲(chǔ)器訪問輸入數(shù)據(jù)點(diǎn),訓(xùn)練的分類器用于分類所述無標(biāo)記數(shù)據(jù)點(diǎn)、有標(biāo)記數(shù)據(jù)點(diǎn)、以及輸入數(shù)據(jù)點(diǎn)中的至少一種。而且,根據(jù)它們的期望標(biāo)記,利用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)當(dāng)作學(xué)習(xí)樣例,可確定判定函數(shù),給定被納入和被排除的訓(xùn)練樣例,該判定函數(shù)可將kl發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布。而且,分類的數(shù)據(jù)點(diǎn)的類別,或其衍生物,被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
在另一個(gè)實(shí)施例中,提供了一種用于在一個(gè)基于計(jì)算機(jī)的系統(tǒng)中分類無標(biāo)記數(shù)據(jù)的方法。在使用中,有標(biāo)記數(shù)據(jù)點(diǎn)被接收,每一個(gè)所述有標(biāo)記數(shù)據(jù)點(diǎn)具有至少一個(gè)標(biāo)記,指示該數(shù)據(jù)點(diǎn)是被納入一個(gè)指定類別的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例,還是從一個(gè)指定類別被排除的數(shù)據(jù)點(diǎn)的訓(xùn)練樣例。
另外,有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)被接收,有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的先驗(yàn)標(biāo)記概率信息也被接收。而且,有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)的至少一個(gè)預(yù)設(shè)成本因子也被接收。
而且,每一個(gè)有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的期望標(biāo)記根據(jù)該數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率被確定。重復(fù)下面的子步驟,直至數(shù)據(jù)值足夠收斂。
●為每一個(gè)與數(shù)據(jù)點(diǎn)的期望標(biāo)記的絕對值成比例的無標(biāo)記數(shù)據(jù)點(diǎn)生成一個(gè)調(diào)節(jié)的成本值;
●通過確定判定函數(shù),給定被納入訓(xùn)練和被逐出訓(xùn)練的樣例,使用所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,訓(xùn)練一個(gè)最大熵判別(med)分類器,根據(jù)它們的期望標(biāo)記,該判定函數(shù)將kl發(fā)散最小化為判定函數(shù)參數(shù)的先驗(yàn)概率分布;
●使用所述訓(xùn)練的分類器,確定所述有標(biāo)記和無標(biāo)記數(shù)據(jù)點(diǎn)的分類分值;
●將訓(xùn)練的分類器的輸出校準(zhǔn)為組成員概率;
●根據(jù)所述確定的組成員概率,更新所述無標(biāo)記數(shù)據(jù)點(diǎn)的標(biāo)記先驗(yàn)概率;
●利用所述更新的標(biāo)記先驗(yàn)概率和之前確定的分類分值,使用最大熵判別(med),確定所述標(biāo)記和界限概率分布;
●使用之前確定的標(biāo)記概率分布,計(jì)算新的期望標(biāo)記;和
●通過將之前迭代的所述期望標(biāo)記插入所述新的期望標(biāo)記,為每一個(gè)數(shù)據(jù)點(diǎn)更新期望標(biāo)記。
而且,輸入數(shù)據(jù)點(diǎn)的類別或其衍生物,被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
當(dāng)判定函數(shù)的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí),達(dá)到收斂。此外,當(dāng)確定的期望標(biāo)記值的變化降到一個(gè)預(yù)設(shè)的閾值以下時(shí),也可以達(dá)到發(fā)散。而且,被納入的訓(xùn)練樣例的標(biāo)記可具有任意值,如+1,且被排除的訓(xùn)練樣例可具有任意值,如-1。
在本發(fā)明的一個(gè)實(shí)施例中,一種用于分類文件的方法如圖11所示。在使用中,在步驟1100,接收至少一個(gè)具有已知置信級別的種子文件,并接收無標(biāo)記文件和至少一個(gè)預(yù)設(shè)成本因子。該種子文件和其它項(xiàng)可以從計(jì)算機(jī)存儲(chǔ)器、用戶、網(wǎng)絡(luò)連接等被接收,且可以在一個(gè)來自執(zhí)行該方法的系統(tǒng)的請求后被接收。所述至少一個(gè)種子文件可以具有一個(gè)該文件是否被納入一個(gè)指定類別的指示標(biāo)記,可以含有一個(gè)關(guān)鍵字列表,或具有任何其它有助于分類文件的特征。而且,在步驟1102,通過迭代計(jì)算,使用至少一個(gè)預(yù)設(shè)成本因子、至少一個(gè)種子文件、以及無標(biāo)記文件,訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器,其中,對于每一次迭代計(jì)算,調(diào)整成本因子作為一個(gè)期望標(biāo)記值的函數(shù)。有標(biāo)記和無標(biāo)記文件的數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率也可以被接收,其中,對于每一次迭代計(jì)算,可以根據(jù)數(shù)據(jù)點(diǎn)組成員概率的估計(jì),調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
另外,在至少部分迭代之后,在步驟1104為無標(biāo)記文件存儲(chǔ)置信分值,且在步驟1106,具有最高置信分值的無標(biāo)記文件的標(biāo)識(shí)符被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。該標(biāo)識(shí)符可以是該文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針,等等。而且,置信分值可以在每一次迭代之后存儲(chǔ),其中,在每一次迭代之后,具有最高置信分值的無標(biāo)記文件的標(biāo)識(shí)符被輸出。
本發(fā)明的一個(gè)實(shí)施例能夠查詢將初始文件與其余文件鏈接的模式。查詢的目標(biāo)是一個(gè)這種模式查詢證明為特別有價(jià)值的區(qū)域。例如,在審前法律查詢(pre-triallegaldiscovery)中,針對手頭上訴訟的可能的鏈接,須研究大量的文件。最終目的為了發(fā)現(xiàn)“確鑿的證據(jù)”。在另一個(gè)例子中,對于發(fā)明人、專利審查員,以及專利律師的共同的任務(wù),就是通過對現(xiàn)有技術(shù)的檢索,評估一項(xiàng)技術(shù)的新穎性。特別地,該任務(wù)為搜索所有公布的專利和其它出版物,并在這個(gè)集合中發(fā)現(xiàn)可能與審查新穎性的特定技術(shù)有關(guān)的文件。
查詢的任務(wù)包括在一組數(shù)據(jù)中找到一個(gè)文件或一組文件。給定一個(gè)初始文件或概念,用戶可能想要發(fā)現(xiàn)與該初始文件或概念有關(guān)的文件。然而,初始文件或概念與目標(biāo)文件之間關(guān)系的見解,即,將要查詢的文件,僅在查詢過之后,才能很好地理解。通過學(xué)習(xí)有標(biāo)記和無標(biāo)記文件、概念等,本發(fā)明能學(xué)習(xí)單個(gè)或多個(gè)初始文件與目標(biāo)文件之間的模式和關(guān)系。
在本發(fā)明的另一個(gè)實(shí)施例中,一種用于分析與法律查詢相關(guān)的文件的方法如圖12所示。在使用中,在步驟1200接收與法律事件相關(guān)的文件。這些文件可以包括文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針,等等。另外,在步驟1202,對文件執(zhí)行一種文件分類方法。進(jìn)一步地,在步驟1204,基于其分類輸出至少部分文件的標(biāo)識(shí)符??蛇x地,這些文件之間的鏈接的標(biāo)識(shí)也被輸出。
所述文件識(shí)別方法可以包括任何類型的過程,如一個(gè)轉(zhuǎn)導(dǎo)過程等等。例如,可以使用前述的任何歸納或轉(zhuǎn)導(dǎo)方法。在一個(gè)優(yōu)選的方法中,使用至少一個(gè)預(yù)設(shè)成本因子、至少一個(gè)種子文件、以及與法律事件有關(guān)的文件,通過迭代計(jì)算訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器。對于每一次迭代計(jì)算,成本因子優(yōu)選地調(diào)整作為一個(gè)期望標(biāo)記值的函數(shù),訓(xùn)練的分類器被用于分類接收的文件。該過程還可以包括為有標(biāo)記和無標(biāo)記文件接收一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率,其中,對于每一次迭代計(jì)算,根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算,調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。另外,所述文件分類方法還可以包括一個(gè)或多個(gè)支持向量機(jī)過程和最大熵判別過程。
在另一個(gè)實(shí)施例中,一種分析現(xiàn)有技術(shù)文件的方法如圖13所示。在使用中,在步驟1300,基于一個(gè)搜索查詢訓(xùn)練一個(gè)分類器。在步驟1302,多個(gè)現(xiàn)有技術(shù)文件被訪問。這些現(xiàn)有技術(shù)可以包括在一個(gè)給定日期前,公眾可以任何形式獲得的任何信息。該現(xiàn)有技術(shù)也可以包括在一個(gè)給定日期前,公眾還不能以任何形式獲得的任何信息。例舉的現(xiàn)有技術(shù)文件可以是任意類型的文件,如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、收集的現(xiàn)有技術(shù)、網(wǎng)頁的部分,等等。而且,在步驟1304,使用所述分類器對至少部分所述的現(xiàn)有技術(shù)文件執(zhí)行一種文件分類方法,且在步驟1306,基于其分類,輸出至少部分所述的現(xiàn)有技術(shù)文件的標(biāo)識(shí)符。所述文件分類技術(shù)可以包括一個(gè)或多個(gè)過程,包括一個(gè)支持向量機(jī)過程、一個(gè)最大熵判別過程,或前述的任意歸納或轉(zhuǎn)導(dǎo)方法。也或者,所述文件之間鏈接的表征也可以被輸出。在另一個(gè)實(shí)施例中,至少部分現(xiàn)有技術(shù)文件之間相關(guān)性的分值基于其分類被輸出。
所述搜索查詢可以包括專利公開的至少一部分。例舉的專利公開包括,由發(fā)明人總結(jié)其發(fā)明而產(chǎn)生的公開、臨時(shí)專利申請、非臨時(shí)專利申請、國外專利或?qū)@暾埖鹊取?/p>
在一個(gè)優(yōu)選的方法中,所述搜索查詢包括一件專利或?qū)@暾埖臋?quán)利要求的至少一部分。在另一個(gè)方法中,所述搜索查詢包括一件專利或?qū)@暾埖恼闹辽僖徊糠?。在另一個(gè)方法中,所述搜索查詢包括一件專利或?qū)@暾埖陌l(fā)明概要的至少一部分。
圖27顯示了一種用于將文件與權(quán)利要求匹配的方法。在步驟2700,基于一件專利或?qū)@暾埖闹辽僖豁?xiàng)權(quán)利要求訓(xùn)練一個(gè)分類器。因此,一項(xiàng)或多項(xiàng)權(quán)利要求,或其一部分,可用于訓(xùn)練分類器。在步驟2702,多個(gè)文件被訪問。這些文件可包括現(xiàn)有技術(shù)文件,描述潛在的侵權(quán)或占先使用產(chǎn)品的文件。在步驟2704,使用所述分類器對至少部分文件執(zhí)行一種文件分類方法。在步驟2706,基于其分類,輸出至少部分文件的標(biāo)識(shí)符。至少部分文件的相關(guān)分值也可以基于其分類被輸出。
本發(fā)明的一個(gè)實(shí)施例可用于專利申請的分類。在美國,例如,現(xiàn)如今專利和專利申請使用美國專利分類(uspc)系統(tǒng),根據(jù)其主題被分類。該任務(wù)現(xiàn)在由人工完成,因此成本高且費(fèi)時(shí)。這種人工分類還受到人為錯(cuò)誤的制約。解決這個(gè)任務(wù)的復(fù)雜性在于,可將專利或?qū)@暾埛殖啥鄠€(gè)種類。
根據(jù)一個(gè)實(shí)施例,圖28顯示了一種用于分類專利申請的方法。在步驟2800,基于多個(gè)已知屬于一個(gè)特定專利分類的文件訓(xùn)練一個(gè)分類器。這些文件通??梢允菍@?qū)@暾?或其一部分),但也可以是描述特定專利分類的目標(biāo)主題的概要文件。在步驟2802,一件專利或?qū)@暾埖闹辽僖徊糠直唤邮?。所述部分可以包括:?quán)利要求、發(fā)明概要、摘要、說明書、名稱,等等。在步驟2804,使用所述分類器對所述專利或?qū)@暾埖闹辽僖徊糠謭?zhí)行一種文件分類方法。在步驟2806,所述專利或?qū)@暾埖姆诸惐惠敵?。可選地,用戶可以手動(dòng)地校驗(yàn)部分或全部專利申請的分類。
所述文件分類方法優(yōu)選地為一種是/否分類方法。換句話說,如果文件在正確的類別內(nèi)的概率高于一個(gè)閾值,則判定為是,該文件屬于該類別。如果文件在正確的類別內(nèi)的概率低于一個(gè)閾值,則判定為否,該文件不屬于該類別。
圖29顯示了另一個(gè)用于分類專利申請的方法。在步驟2900,使用一個(gè)分類器對一件專利或?qū)@暾埖闹辽僖徊糠謭?zhí)行一種文件分類方法,該分類器事先基于至少一個(gè)與一個(gè)特定專利分類相關(guān)的文件被訓(xùn)練。同樣的,所述文件分類方法優(yōu)選為一種是/否分類方法。在步驟2902,所述專利或?qū)@暾埖姆诸惐惠敵觥?/p>
在圖28和圖29所示的兩種方法中,可以使用不同的分類器重復(fù)各自的方法,所述分類器事先基于多個(gè)已知屬于一個(gè)不同的專利分類的文件被訓(xùn)練。
正式地,專利的分類應(yīng)當(dāng)基于權(quán)利要求。然而,也希望執(zhí)行匹配介于(任何ip相關(guān)內(nèi)容)和(任何ip相關(guān)內(nèi)容)。作為一個(gè)例子,一種方法使用專利的說明書進(jìn)行訓(xùn)練,并根據(jù)專利申請的權(quán)利要求對專利申請進(jìn)行分類。另一種方法使用說明書和權(quán)利要求進(jìn)行訓(xùn)練,并基于摘要分類。在特別優(yōu)選的方法中,無論專利或申請的哪個(gè)部分被用于訓(xùn)練,在分類時(shí)使用相同類型的內(nèi)容,即如果系統(tǒng)根據(jù)權(quán)利要求進(jìn)行訓(xùn)練,則分類基于權(quán)利要求。
所述文件分類方法可以包括任何類型的過程,例如一個(gè)轉(zhuǎn)導(dǎo)過程等等。例如,可使用上述的任何歸納或轉(zhuǎn)導(dǎo)方法。在一個(gè)優(yōu)選的方法中,所述分類器可以是一個(gè)轉(zhuǎn)導(dǎo)分類器,且所述轉(zhuǎn)導(dǎo)分類器使用至少一個(gè)預(yù)設(shè)成本因子、至少一個(gè)種子文件、和現(xiàn)有技術(shù)文件,通過迭代計(jì)算進(jìn)行訓(xùn)練,其中,對于每一次迭代計(jì)算,調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù),且所述訓(xùn)練的分類器可用于分類所述現(xiàn)有技術(shù)文件。所述種子文件和現(xiàn)有技術(shù)文件的一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率也可以被接收,其中,對于每一次迭代計(jì)算,可以根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算,調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。種子文件可以是任何文件,如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、一組現(xiàn)有技術(shù)、網(wǎng)站、專利公開等。
在一個(gè)方法中,圖14描述了本發(fā)明的一個(gè)實(shí)施例。在步驟1401,一組數(shù)據(jù)被讀取。在該組數(shù)據(jù)內(nèi),和用戶有關(guān)的文件的發(fā)現(xiàn)是需要的。在步驟1402,單個(gè)或多個(gè)初始種子文件被標(biāo)記。所述文件可以是任何種類的文件,例如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、一組現(xiàn)有技術(shù)、網(wǎng)站等等。也可以一串不同的關(guān)鍵字或由用戶提供的文件安排轉(zhuǎn)導(dǎo)過程。在步驟1406,使用有標(biāo)記數(shù)據(jù)和一個(gè)給定集合中的一組無標(biāo)記數(shù)據(jù),訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器。在迭代轉(zhuǎn)導(dǎo)過程中的每一個(gè)標(biāo)記歸納步驟,在標(biāo)記歸納過程中確定的置信分值被存儲(chǔ)。在步驟1408,一旦完成訓(xùn)練,就向用戶顯示在標(biāo)記歸納步驟中獲得高置信分值的文件。這些具有高置信分值的文件代表與用戶查詢目的相關(guān)的文件。該顯示可以按照標(biāo)記歸納步驟的時(shí)間先后順序,從初始種子文件開始,一直到在最后的標(biāo)記歸納步驟中被發(fā)現(xiàn)的最后一組文件。
本發(fā)明的另一實(shí)施例涉及數(shù)據(jù)清理和精確分類,例如與自動(dòng)化的商業(yè)過程相結(jié)合。所述清理和分類方法可以包括任何類型的過程,例如一個(gè)轉(zhuǎn)導(dǎo)過程等。例如,可以使用上述任何轉(zhuǎn)導(dǎo)或歸納方法。在一個(gè)優(yōu)選的方法中,根據(jù)數(shù)據(jù)庫的期望清潔度,進(jìn)入數(shù)據(jù)庫的密鑰被用作與置信級別相關(guān)的標(biāo)記。然后,該標(biāo)記連同相關(guān)的置信級別,即期望標(biāo)記,被用于訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器,該分類器修正所述標(biāo)記(密鑰),以實(shí)現(xiàn)對數(shù)據(jù)庫中數(shù)據(jù)的更為可靠的管理。例如,發(fā)票必須首先根據(jù)開出發(fā)票的公司或個(gè)人被分類,以實(shí)現(xiàn)自動(dòng)數(shù)據(jù)提取,例如確定總金額、訂單編號(hào)、產(chǎn)品數(shù)量、裝運(yùn)地址等等。通常,設(shè)立一個(gè)自動(dòng)分類系統(tǒng)需要訓(xùn)練樣例。然而,由顧客提供的訓(xùn)練樣例常常含有錯(cuò)誤分類的文件或其它干擾,如傳真封頁,為了獲得準(zhǔn)確的分類,在訓(xùn)練所述自動(dòng)分類系統(tǒng)之前,這些文件必須被識(shí)別并移除。在另一個(gè)實(shí)施例中,在病例的領(lǐng)域,有助于檢測由醫(yī)生所寫的報(bào)告與其診斷報(bào)告之間的不一致性。
在另一個(gè)實(shí)施例中,眾所周知,專利局需要經(jīng)歷連續(xù)的重新分類過程,其中,他們(1)評估他們的干擾分類法的一個(gè)現(xiàn)存分支,(2)重建該分類法以均勻地分布過度擁擠的節(jié)點(diǎn),以及(3)將現(xiàn)存的專利重新分類到新的結(jié)構(gòu)。這里的轉(zhuǎn)導(dǎo)學(xué)習(xí)方法為專利局以及他們外包的用來做這項(xiàng)工作的公司所用,以重新評估他們的分類法,并幫助他們(1)為一個(gè)給定的主分類建立新的分類法,(2)重新分類現(xiàn)存的專利。
轉(zhuǎn)導(dǎo)從有標(biāo)記和無標(biāo)記數(shù)據(jù)學(xué)習(xí),由此從有標(biāo)記到無標(biāo)記的轉(zhuǎn)變是流暢的。圖譜的一端是具有完美的現(xiàn)有知識(shí)的有標(biāo)記數(shù)據(jù),如,給定的標(biāo)記無一例外都是正確的。在另一端為沒有給定現(xiàn)有知識(shí)的無標(biāo)記數(shù)據(jù)。帶有某種程度干擾的組編的數(shù)據(jù)組成錯(cuò)誤分類的數(shù)據(jù),并位于圖譜的兩個(gè)極端之間的某處。由數(shù)據(jù)組織給出的標(biāo)記在某種程度上可以肯定地認(rèn)為是正確的,但并不完全。因此,轉(zhuǎn)變可被用于清理現(xiàn)有的數(shù)據(jù)組編,通過在一個(gè)給定的數(shù)據(jù)組織之內(nèi)假設(shè)一個(gè)特定的出錯(cuò)程度,并在標(biāo)記分配的現(xiàn)有知識(shí)中把這些解釋為不確定性。
在一個(gè)實(shí)施例中,一種清理數(shù)據(jù)的方法如圖5所示。在使用中,在步驟1500,多個(gè)有標(biāo)記數(shù)據(jù)項(xiàng)被接收,在步驟1502,為多個(gè)類別中的每一個(gè)類別選取所述數(shù)據(jù)項(xiàng)的子集。另外,在步驟1504,將每一個(gè)子集中的數(shù)據(jù)項(xiàng)的不確定性設(shè)置成約為零,在步驟1506,將不在所述子集中的數(shù)據(jù)項(xiàng)的不確定性設(shè)置成一個(gè)不約為零的預(yù)設(shè)值。進(jìn)一步,在步驟1508,通過迭代計(jì)算,使用所述不確定性、子集中的數(shù)據(jù)項(xiàng)、以及不在子集中的數(shù)據(jù)項(xiàng)作為訓(xùn)練樣例,訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器,并在步驟1510,訓(xùn)練的分類器用于每一個(gè)有標(biāo)記數(shù)據(jù)項(xiàng),以分類每一個(gè)所述數(shù)據(jù)項(xiàng)。而且,輸入數(shù)據(jù)項(xiàng)的分類,或其衍生物,在步驟1512被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。
進(jìn)一步,所述子集可隨機(jī)選取,并可以由用戶選取和校驗(yàn)。至少部分所述數(shù)據(jù)項(xiàng)的標(biāo)記可以基于其分類被改變。而且,在分類后,具有低于一個(gè)預(yù)設(shè)的閾值的置信級別的數(shù)據(jù)項(xiàng)的標(biāo)識(shí)符被輸出給用戶。所述標(biāo)識(shí)符可以是該文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向該文件的指針,等等。
在本發(fā)明的一個(gè)實(shí)施例中,如圖16所示,在步驟1600,啟動(dòng)一個(gè)清理過程的兩個(gè)選項(xiàng)被呈現(xiàn)給用戶。在步驟1602,一個(gè)選項(xiàng)為全自動(dòng)清理,對于每一個(gè)概念或類別,隨機(jī)地選取特定數(shù)量的文件,并假設(shè)它們被正確地組編?;蛘撸诓襟E1604,一定數(shù)量的文件可被打上標(biāo)記,以人工檢查及校驗(yàn)是否每一個(gè)概念或類別的一個(gè)或多個(gè)標(biāo)記分配被準(zhǔn)確地組編。在步驟1606,數(shù)據(jù)中干擾程度的一個(gè)估計(jì)被接收。在步驟1610,使用在步驟1608中的已校驗(yàn)的(人工校驗(yàn)或隨機(jī)選取)數(shù)據(jù)和未校驗(yàn)的數(shù)據(jù),訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器。一旦訓(xùn)練結(jié)束,文件根據(jù)新的標(biāo)記被重新組編。在步驟1612,在標(biāo)記分配中具有低于一個(gè)特定閾值的低置信級別的文件,被顯示給用戶,以用于人工檢查。在步驟1614,根據(jù)轉(zhuǎn)導(dǎo)標(biāo)記分配,在標(biāo)記分配中具有高于一個(gè)特定閾值的置信級別的文件被自動(dòng)校對。
在另一個(gè)實(shí)施例中,一種用于管理病歷的方法如圖17所示。在使用中,在步驟1700,一個(gè)分類器基于醫(yī)療診斷被訓(xùn)練,在步驟1702,多個(gè)病歷被訪問。另外,在步驟1704,使用所述分類器對所述病歷執(zhí)行一種文件分類方法,且具有低概率的與醫(yī)療診斷相關(guān)性的至少一個(gè)病歷的標(biāo)識(shí)符,在步驟1706被輸出。該文件分類方法包括任何類型的過程,如一個(gè)轉(zhuǎn)導(dǎo)過程等,且可以包括上述一個(gè)或多個(gè)任意的歸納或轉(zhuǎn)導(dǎo)方法,包括支持向量機(jī)過程、最大熵判別過程等等。
在一個(gè)實(shí)施例中,所述分類器可以是一個(gè)轉(zhuǎn)導(dǎo)分類器,且所述轉(zhuǎn)導(dǎo)分類器可以通過迭代計(jì)算,使用至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子文件、以及病歷被訓(xùn)練,其中,對于每一次迭代計(jì)算,調(diào)整所述成本因子作為期望標(biāo)記值的一個(gè)函數(shù),且訓(xùn)練的分類器可用于分類所述病歷。種子文件和病歷的數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率也可以被接收,其中,對于每一次迭代計(jì)算,可以根據(jù)數(shù)據(jù)點(diǎn)組成員概率的估算,調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
本發(fā)明的另一實(shí)施例描述了動(dòng)態(tài)、漂移的分類概念。例如,在形式處理申請中,分類文件,使用文件的版面信息和/或內(nèi)容信息對文件進(jìn)行分類,以分類所述文件用于進(jìn)一步的處理。在許多申請中,文件不是固定不變的,而是隨時(shí)間而變化。例如,文件的內(nèi)容和/或版面可能因?yàn)樾碌牧⒎ǘ淖?。轉(zhuǎn)導(dǎo)分類自動(dòng)適應(yīng)這些變化,產(chǎn)生相同或類似的分類準(zhǔn)確性,而不受漂移的分類概念的影響。與基于規(guī)則的系統(tǒng)或歸納分類方法相比,無需人工調(diào)節(jié),不會(huì)由于概念漂移而影響準(zhǔn)確性。這個(gè)方法的一個(gè)例子是發(fā)票處理,其傳統(tǒng)地包括歸納學(xué)習(xí),或使用利用發(fā)票版面的基于規(guī)則的系統(tǒng)。對于這些傳統(tǒng)的系統(tǒng),如果版面發(fā)生變化,則系統(tǒng)必須通過標(biāo)記新的訓(xùn)練數(shù)據(jù)或確定新的規(guī)則來人工重新設(shè)置。然而,轉(zhuǎn)導(dǎo)的使用通過自動(dòng)適應(yīng)發(fā)票版面上的微小變化,使得人工重新設(shè)置變得不再必要。在另一個(gè)實(shí)施例中,轉(zhuǎn)導(dǎo)分類可用于分析客戶投訴,以監(jiān)測這些投訴性質(zhì)的變化。例如,一家公司可自動(dòng)地將產(chǎn)品變化與客戶投訴相鏈接。
轉(zhuǎn)導(dǎo)也可用于新聞文章的分類。例如,有關(guān)戰(zhàn)爭、恐怖襲擊的新聞文章,始于針對2001年9月11日阿富汗戰(zhàn)爭的恐怖份子襲擊,直至有關(guān)伊拉克當(dāng)今局勢的新聞故事,都可以使用轉(zhuǎn)導(dǎo)自動(dòng)識(shí)別。
在另一個(gè)實(shí)施例中,生物分類(α分類學(xué))可以隨時(shí)間而改變,通過進(jìn)化,新的物種產(chǎn)生,而其它物種滅絕。隨著分類概念隨時(shí)間的改變,分類綱要或分類學(xué)的該項(xiàng)和其它規(guī)則是可以動(dòng)態(tài)變化的。
通過使用必須被歸類為無標(biāo)記數(shù)據(jù)的輸入數(shù)據(jù),轉(zhuǎn)導(dǎo)可以識(shí)別漂移分類概念,并由此自動(dòng)地適應(yīng)變化的分類綱要。例如,圖18顯示了本發(fā)明的一個(gè)給定漂移分類概念使用轉(zhuǎn)導(dǎo)的實(shí)施例。文件組di在時(shí)間ti進(jìn)入系統(tǒng),如步驟1802所示。在步驟1804,使用迄今為止積累的有標(biāo)記和無標(biāo)記數(shù)據(jù)訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器ci,在步驟1806,文件組di中的文件被分類。如果使用人工模式,在步驟1808中被確定為具有低于一個(gè)用戶提供的閾值的置信級別的文件,在步驟1810被呈現(xiàn)給用戶以用于人工檢查。如步驟1812所示,在自動(dòng)模式中,一個(gè)具有置信級別的文件觸發(fā)了一個(gè)新的類別的創(chuàng)建,該類別被加入系統(tǒng),然后該文件就被歸于該新的類別。在步驟1820a-b,具有高于上述選定閾值的置信級別的文件被分類到當(dāng)前的類別1至n。在步驟ti之前已經(jīng)被分類到當(dāng)前類別的所有當(dāng)前類別的文件,在步驟1822由分類器ci重新分類,且在步驟1824和1826,所有不再被分類到上述指定類別的文件,被移入新的類別。
在另一個(gè)實(shí)施例中,一種適應(yīng)文件內(nèi)容變動(dòng)的方法如圖19所示。文件內(nèi)容可以包括,但不限于,圖像內(nèi)容、文本內(nèi)容、版面、編號(hào),等等。變動(dòng)的例子可以包括時(shí)間的變化、風(fēng)格的變化(由2個(gè)或更多個(gè)人處理一個(gè)或多個(gè)文件),應(yīng)用過程的變化、版面的變動(dòng),等等。在步驟1900,接收至少一個(gè)有標(biāo)記種子文件、以及無標(biāo)記文件和至少一個(gè)預(yù)設(shè)成本因子。所述文件可以包括,但不局限于,客戶投訴、發(fā)票、表格文件、收據(jù),等等。另外,在步驟1902,使用所述至少一個(gè)預(yù)設(shè)成本因子,至少一個(gè)種子文件,以及無標(biāo)記文件,訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器。而且,在步驟1904,具有大于一個(gè)預(yù)設(shè)的閾值的置信級別的無標(biāo)記文件,使用分類器被分類到多個(gè)類別,且在步驟1906,所述分類的文件的至少一部分,使用分類器被重新分類到多個(gè)類別。進(jìn)一步,在步驟1908,所述分類的文件的標(biāo)識(shí)符被輸出給一個(gè)客戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。所述標(biāo)識(shí)符可以是文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針,等等。而且,產(chǎn)品變化可以與客戶投訴等相鏈接。
另外,具有低于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件可被移入一個(gè)或多個(gè)新的類別。而且,通過迭代計(jì)算,使用至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子文件、以及所述無標(biāo)記文件,可以訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器,其中,對于每一次迭代計(jì)算,調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù),并使用所述訓(xùn)練的分類器分類所述無標(biāo)記文件。而且,所述種子文件和無標(biāo)記文件的數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率可以被接收,其中,對于每一次迭代計(jì)算,根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算,調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
在另一個(gè)實(shí)施例中,一種使專利分類適應(yīng)文件內(nèi)容的變動(dòng)的方法如圖20所示。在步驟2000,接收至少一個(gè)有標(biāo)記種子文件,以及無標(biāo)記文件。所述無標(biāo)記文件可以包括任何類型的文件,如,專利申請、法律文件、信息公開表格、文件修正,等等。種子文件可以包括專利、專利申請等等。在步驟2002,使用所述至少一個(gè)種子文件和無標(biāo)記文件訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器,以及使用所述分類器將具有高于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件分類到多個(gè)現(xiàn)有的類別。所述分類器可以是任何類型的分類器,例如轉(zhuǎn)導(dǎo)分類器等,且所述文件分類方法可以是任何方法,例如支持向量機(jī)方法、最大熵判別方法等等。例如,可使用上述的任何歸納或轉(zhuǎn)導(dǎo)方法。
而且,在步驟2004,使用所述分類器將所述具有低于一個(gè)預(yù)設(shè)閾值的置信級別的無標(biāo)記文件分類到至少一個(gè)新的類別,且在步驟2006,使用所述分類器將至少部分所述分類的文件重新分類到現(xiàn)有的類別以及至少一個(gè)新的類別。進(jìn)一步,在步驟2008,所述分類的文件的標(biāo)識(shí)符被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。而且,可以使用至少一個(gè)預(yù)設(shè)的成本因子、所述搜索查詢、以及所述文件,通過迭代計(jì)算,訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器,其中,對于每一次迭代計(jì)算,調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù),且所述訓(xùn)練的分類器可用于分類所述文件。進(jìn)一步,所述搜索查詢和文件的數(shù)據(jù)點(diǎn)先驗(yàn)概率可以被接收,其中,對于每一次迭代計(jì)算,根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算,調(diào)整所述數(shù)據(jù)點(diǎn)先驗(yàn)概率。
在本發(fā)明的另一個(gè)實(shí)施例中,描述了在文件分離領(lǐng)域的文件漂移。一個(gè)應(yīng)用的例子包括抵押文件的過程。包括一系列不同的借貸文件,例如借貸申請、批準(zhǔn)、請求、數(shù)量等的借貸文件夾被掃描,且在進(jìn)一步處理之前,必須確定在一系列圖像中的不同的文件。使用的文件不是固定不變的,而是可隨時(shí)間變化。例如,在借貸文件夾中,使用的納稅申請表格,可根據(jù)法律法規(guī)的變化而隨時(shí)間變化。
文件分離解決了在一系列圖像中發(fā)現(xiàn)文件或子文件界限的問題。一般產(chǎn)生一系列圖像的例子是數(shù)字掃描儀或多功能外圍設(shè)備(mfp)。如在分類的實(shí)施例中,轉(zhuǎn)導(dǎo)可用于文件分離,以處理文件及其界限隨時(shí)間的漂移問題。靜態(tài)的分離系統(tǒng),如基于規(guī)則的系統(tǒng)或基于歸納學(xué)習(xí)方法的系統(tǒng),不能自動(dòng)地適應(yīng)漂移分離概念。無論何時(shí)發(fā)生漂移,這些靜態(tài)分離系統(tǒng)的表現(xiàn)性能隨時(shí)間而降低。為了保持其初始水平的性能,要么人工調(diào)整規(guī)則(就基于規(guī)則的系統(tǒng)來說),要么人工標(biāo)記新的文件并重新學(xué)習(xí)系統(tǒng)(就歸納學(xué)習(xí)方法來說)。無論哪一種都是費(fèi)時(shí)費(fèi)財(cái)。應(yīng)用轉(zhuǎn)導(dǎo)到文件分離,使得系統(tǒng)得以改進(jìn),其可自動(dòng)適應(yīng)在分離概念中的漂移。
在一個(gè)實(shí)施例中,一種分離文件的方法如圖21所示。在步驟2100,接收有標(biāo)記數(shù)據(jù),且在步驟2102,接收一組無標(biāo)記文件。這些數(shù)據(jù)和文件可以包括合法的查詢文件、官方通知、網(wǎng)頁數(shù)據(jù)、代理律師公函等等。另外,在步驟2104,基于所述有標(biāo)記數(shù)據(jù)和無標(biāo)記文件,使用轉(zhuǎn)導(dǎo),概率性分類規(guī)則被調(diào)整,且在步驟2106中,根據(jù)概率性分類規(guī)則,更新用于文件分離的權(quán)重。而且,在步驟2108中,確定在一組文件中分離的位置,且在步驟2110,確定的在一組文件中分離的位置的指示符被輸出給一個(gè)用戶、另一系統(tǒng)、以及另一過程中的至少一個(gè)。所述指示符可以是文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針,等等。進(jìn)一步,在步驟2112,文件被打上編碼,所述編碼與所述指示符有關(guān)。
圖22顯示了本發(fā)明所使用的用于文件分離的分類方法和設(shè)備的實(shí)施過程。在數(shù)字式掃描之后,使用自動(dòng)文件分離以減少涉及文件分離和識(shí)別的人工工作。通過使用推理算法,將文件分離方法與分類規(guī)則相結(jié)合以自動(dòng)分離多組頁面,使用這里所述的分類方法,以減少來自所有可得到信息的最有可能的分離。本發(fā)明的一個(gè)例子如圖22所示,本發(fā)明的轉(zhuǎn)導(dǎo)med的分類方法被用于文件分離。具體地,文件頁面2200被放入數(shù)字掃描儀2202或mfp,并被轉(zhuǎn)成一組數(shù)字圖像2204。所述文件頁面可以是來自任何類型文件的頁面,如專利局的出版物、取自數(shù)據(jù)庫的數(shù)據(jù)、現(xiàn)有技術(shù)的集合、網(wǎng)站等等。在步驟2206,輸入一組數(shù)字圖像,以動(dòng)態(tài)適應(yīng)使用轉(zhuǎn)導(dǎo)的概率性分類規(guī)則。步驟2206使用一組圖像2204作為無標(biāo)記數(shù)據(jù)和有標(biāo)記數(shù)據(jù)2208。在步驟2210,概率性網(wǎng)絡(luò)中的權(quán)重被更新,并被用于基于動(dòng)態(tài)適應(yīng)分類規(guī)則的自動(dòng)文件分離。輸出步驟2212為自動(dòng)放入分離圖像的動(dòng)態(tài)自適應(yīng),這樣,一組數(shù)字化的頁面2214被隔行掃描成分離器頁面2216的自動(dòng)圖像,在步驟2212,將分離器頁面自動(dòng)插入到圖像序列。在本發(fā)明的一個(gè)實(shí)施例中,軟件生成的分離器頁面2216也可以指示緊隨所述分離器頁面2216的文件的類型。此處描述的系統(tǒng)自動(dòng)地適應(yīng)文件隨時(shí)間而發(fā)生的漂移分離概念,而不必?fù)?dān)心會(huì)像基于規(guī)則的靜態(tài)系統(tǒng)或基于方法的歸納型機(jī)器學(xué)習(xí)那樣出現(xiàn)分離準(zhǔn)確度的降低。在表單處理(formprocessing)申請中,漂移分離或分類概念的一個(gè)常見的例子是,如之前所提到的,文件由于新的法律法規(guī)而產(chǎn)生變化。
另外,如圖22所示的系統(tǒng)可改為如圖23所示的系統(tǒng),其頁面2300放入數(shù)字掃描儀2302或mfp轉(zhuǎn)換為一組數(shù)字圖像2304。該組數(shù)字圖像在步驟2306被輸入,以使用轉(zhuǎn)導(dǎo)動(dòng)態(tài)適應(yīng)概率性分類規(guī)則。步驟2306使用該組圖像2304作為無標(biāo)記數(shù)據(jù)和有標(biāo)記數(shù)據(jù)2308。步驟2310,根據(jù)所采用的動(dòng)態(tài)自適應(yīng)分類規(guī)則,更新用于自動(dòng)文件分離的概率性網(wǎng)絡(luò)中的權(quán)重。在步驟2312,不是如圖18所述的插入分離器頁面圖像,而是步驟2312動(dòng)態(tài)地適應(yīng)自動(dòng)插入分離信息,并用編碼的描述標(biāo)記所述文件圖像。由此,文件頁面圖像可被輸入一個(gè)圖像處理數(shù)據(jù)庫2316,且所述文件可通過軟件標(biāo)識(shí)符訪問。
本發(fā)明的另一個(gè)實(shí)施例可使用轉(zhuǎn)導(dǎo)進(jìn)行人臉識(shí)別。如上所述,使用轉(zhuǎn)導(dǎo)具有諸多優(yōu)勢,例如,僅需相對少量的訓(xùn)練樣例,在訓(xùn)練中使用無標(biāo)記樣例的能力,等等。利用上述優(yōu)勢,轉(zhuǎn)導(dǎo)人臉識(shí)別可用于犯罪偵查。
例如,國土安全部必需保證恐怖份子不得登上商用班機(jī)。機(jī)場篩選過程的一部分可以是在機(jī)場安檢處采集每個(gè)乘客的相片,并嘗試識(shí)別該人。系統(tǒng)初始可以使用少量的樣例進(jìn)行訓(xùn)練,該樣例來自于可得到的可能是恐怖份子的有限的照片。在其它法律執(zhí)法數(shù)據(jù)庫中的、同一恐怖份子的無標(biāo)記照片也可用于訓(xùn)練。因此,轉(zhuǎn)導(dǎo)訓(xùn)練器不僅可以運(yùn)用最初稀疏的數(shù)據(jù)建立功能性人臉識(shí)別系統(tǒng),并且還可以使用其它來源的無標(biāo)記樣例以增強(qiáng)性能。在處理了機(jī)場安檢處采集的照片后,轉(zhuǎn)導(dǎo)系統(tǒng)能夠比歸納系統(tǒng)更為精確地識(shí)別可疑人物。
在另一個(gè)實(shí)施例中,一種用于人臉識(shí)別的方法如圖24所示。在步驟2400,至少一個(gè)人臉的有標(biāo)記種子圖像被接收,該種子圖像具有已知的置信級別。該至少一個(gè)種子圖像可以具有一個(gè)標(biāo)記,指示該圖像是否被納入一個(gè)指定的類別。另外,在步驟2400,無標(biāo)記圖像被接收,如,從警察局、政府機(jī)構(gòu)、失蹤兒童數(shù)據(jù)庫、機(jī)場安全,或任何其它地方,并接收至少一個(gè)預(yù)設(shè)的成本因子。而且,在步驟2402,通過迭代計(jì)算,使用所述至少一個(gè)預(yù)設(shè)的成本因子、至少一個(gè)種子圖像,和無標(biāo)記圖像,訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器,其中,對于每一次迭代計(jì)算,調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù)。在至少多次迭代之后,在步驟2404,為所述無標(biāo)記種子圖像存儲(chǔ)一個(gè)置信分值。
進(jìn)一步,在步驟2406,具有最高置信分值的無標(biāo)記文件的標(biāo)識(shí)符被輸出給一個(gè)用戶、另一系統(tǒng)、和另一過程中的至少一個(gè)。所述標(biāo)識(shí)符可以是該文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針,等等。而且,每一次迭代之后可以存儲(chǔ)置信分值,其中,在每一次迭代之后,輸出具有最高置信分值的無標(biāo)記圖像的標(biāo)識(shí)符。另外,可以接收用于所述有標(biāo)記和無標(biāo)記圖像的數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率,其中,對于每一次迭代計(jì)算,可以根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估計(jì),調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。進(jìn)一步,第三張人臉的無標(biāo)記圖像,如來自上述機(jī)場安全樣例,可被接收,所述第三張無標(biāo)記圖像可與具有最高置信分值的至少部分圖像比較,且如果確信該第三張無標(biāo)記圖像中的人臉與種子圖像中的人臉是相同的,則可以輸出所述第三個(gè)無標(biāo)記圖像的標(biāo)識(shí)符。
本發(fā)明的另一個(gè)實(shí)施例通過提供反饋給文件檢索系統(tǒng),使用戶能夠改進(jìn)他們的搜索結(jié)果。例如,當(dāng)在一個(gè)互聯(lián)網(wǎng)搜索引擎(專利或?qū)@暾埶阉鳟a(chǎn)品等)上執(zhí)行一項(xiàng)搜索時(shí),用戶可以得到大量對應(yīng)于其搜索查詢的結(jié)果。本發(fā)明的一個(gè)實(shí)施例使用戶能夠從搜索引擎瀏覽建議的結(jié)果,并告知搜索引擎一個(gè)或多個(gè)所得結(jié)果的相關(guān)性,如,“接近,但不是我真正想要的”、“絕對不是”等等。當(dāng)用戶提供反饋給搜索引擎時(shí),更好的結(jié)果按照優(yōu)先順序給用戶瀏覽。
在一個(gè)實(shí)施例中,一種用于文件搜索的方法如圖25所示。在步驟2500,接收一個(gè)搜索查詢。該搜索查詢可以是任何類型的查詢,包括區(qū)分大小寫的查詢、布爾查詢、近似匹配查詢、結(jié)構(gòu)化查詢,等等。在步驟2502,獲得基于搜索查詢的文件。另外,在步驟2504,輸出所述文件,且在步驟2506,用于至少部分文件的用戶鍵入的標(biāo)記被接收,該標(biāo)記指示所述文件與搜索查詢之間的相關(guān)性。例如,用戶可以指示從所述查詢返回的一個(gè)特定結(jié)果是相關(guān)還是無關(guān)。而且,在步驟2508,基于所述搜索查詢和用戶鍵入的標(biāo)記,一個(gè)分類器被訓(xùn)練,且在步驟2510,使用所述分類器對所述文件執(zhí)行一種文件分類方法,以重新分類所述文件。進(jìn)一步,在步驟2512,基于其分類,輸出至少部分文件的標(biāo)識(shí)符。所述標(biāo)識(shí)符可以是文件本身的電子副本、其部分、其標(biāo)題、其名稱、指向文件的指針,等等。所述重新分類的文件也可以被輸出,條件是那些具有最高置信度的文件被首先輸出。
所述文件分類方法可以包括任何類型的過程,如,轉(zhuǎn)導(dǎo)過程、支持向量機(jī)過程、最大熵判別過程,等等。可以使用上述任何歸納或轉(zhuǎn)導(dǎo)方法。在一個(gè)優(yōu)選的方法中,所述分類器可以是一個(gè)轉(zhuǎn)導(dǎo)分類器,且通過迭代計(jì)算,使用至少一個(gè)預(yù)設(shè)的成本因子、所述搜索查詢,以及所述文件,可以訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器,其中,對于每一次迭代計(jì)算,調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù),且所述訓(xùn)練的分類器可以用于分類所述文件。另外,用于所述搜索查詢和文件的一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率可以被接收,其中,對于每一次迭代計(jì)算,根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算,可以調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
本發(fā)明的另一個(gè)實(shí)施例可以用于改進(jìn)icr/ocr,以及語音識(shí)別。例如,許多語音識(shí)別程序和系統(tǒng)的實(shí)施例需操作者重復(fù)許多單詞以訓(xùn)練所述系統(tǒng)。本發(fā)明可以首先對一個(gè)用戶的聲音監(jiān)聽一段預(yù)定的時(shí)間,以收集“未分類”的內(nèi)容,如,監(jiān)聽電話談話。結(jié)果是,當(dāng)用戶開始訓(xùn)練該識(shí)別系統(tǒng)時(shí),該系統(tǒng)利用轉(zhuǎn)導(dǎo)學(xué)習(xí),以利用所述監(jiān)聽的語音來協(xié)助構(gòu)建一個(gè)記憶模型。
在另一個(gè)實(shí)施例中,一種用于核對一張發(fā)票與一個(gè)實(shí)體的關(guān)聯(lián)性的方法如圖26所示。在步驟2600,基于與第一實(shí)體相關(guān)的發(fā)票格式訓(xùn)練一個(gè)分類器。該發(fā)票格式可以是指發(fā)票上記號(hào)的實(shí)際布局,或發(fā)票上的特征,如關(guān)鍵詞、發(fā)票號(hào)碼、客戶姓名,等等。另外,在步驟2602,被標(biāo)記作為與所述第一實(shí)體和其它實(shí)體中的至少一個(gè)相聯(lián)系的多張發(fā)票被訪問,且在步驟2604,使用所述分類器對所述發(fā)票執(zhí)行一種文件分類方法。例如,上述的任何歸納或轉(zhuǎn)導(dǎo)方法可以用作一種文件分類方法。例如,所述文件分類方法可以包括一個(gè)轉(zhuǎn)導(dǎo)過程、支持向量機(jī)過程、最大熵判別過程,等等。而且,在步驟2606,輸出至少一張所述發(fā)票的標(biāo)識(shí)符,該發(fā)票具有較高的概率與所述第一實(shí)體不相關(guān)。
進(jìn)一步,所述分類器可以是任何類型的分類器,例如,一個(gè)轉(zhuǎn)導(dǎo)分類器,且通過迭代計(jì)算,使用至少一個(gè)預(yù)定的成本因子、至少一個(gè)種子文件,以及所述發(fā)票,可以訓(xùn)練所述轉(zhuǎn)導(dǎo)分類器,其中,對于每一次迭代計(jì)算,調(diào)整所述成本因子作為一個(gè)期望標(biāo)記值的函數(shù),并使用所述訓(xùn)練的分類器分類所述發(fā)票。而且,用于所述種子文件和發(fā)票的一個(gè)數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率可以被接收,其中,對于每一次迭代計(jì)算,根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算,調(diào)整所述數(shù)據(jù)點(diǎn)標(biāo)記先驗(yàn)概率。
這里說描述的實(shí)施例的一個(gè)優(yōu)點(diǎn)是轉(zhuǎn)導(dǎo)算法的穩(wěn)定性。這個(gè)穩(wěn)定性通過調(diào)節(jié)所述成本因子和調(diào)節(jié)所述標(biāo)記先驗(yàn)概率來實(shí)現(xiàn)。例如,在一個(gè)實(shí)施例中,通過迭代分類,使用至少一個(gè)成本因子、有標(biāo)記數(shù)據(jù)點(diǎn)和無標(biāo)記數(shù)據(jù)點(diǎn)作為訓(xùn)練樣例,訓(xùn)練一個(gè)轉(zhuǎn)導(dǎo)分類器。對于每一次迭代計(jì)算,調(diào)節(jié)所述無標(biāo)記數(shù)據(jù)點(diǎn)的成本因子作為一個(gè)期望的標(biāo)記值的函數(shù)。此外,對于每一次迭代計(jì)算,根據(jù)一個(gè)數(shù)據(jù)點(diǎn)組成員概率的估算調(diào)節(jié)一個(gè)數(shù)據(jù)點(diǎn)先驗(yàn)概率。
工作站可以在一個(gè)操作系統(tǒng)上具有常駐內(nèi)存,該操作系統(tǒng)例如微軟
上述應(yīng)用使用轉(zhuǎn)導(dǎo)學(xué)習(xí)以克服數(shù)據(jù)集非常稀少的問題,該問題困擾著歸納型人臉識(shí)別系統(tǒng)。轉(zhuǎn)導(dǎo)學(xué)習(xí)的這個(gè)方面并不限于此項(xiàng)應(yīng)用,也可以用于解決其它由于數(shù)據(jù)集稀少說引起的機(jī)器學(xué)習(xí)問題。
在此處公開發(fā)明的各種實(shí)施例的范圍和精神之內(nèi),本領(lǐng)域技術(shù)人員可設(shè)計(jì)出不同的變化。而且,以上公開的實(shí)施例的各種特征可單獨(dú)使用,或相互之間的不同組合,且并不局限于以上描述的特定組合。因此,權(quán)利要求的范圍不限于這些描述的實(shí)施例。