信息處理系統(tǒng)和信息處理方法
【專利摘要】本發(fā)明提供一種信息處理系統(tǒng)和信息處理方法。在文獻(xiàn)的機(jī)器學(xué)習(xí)中降低人力成本和設(shè)備成本。信息處理系統(tǒng)在輸入特征類型的情況下,根據(jù)所輸入的特征類型和各教師數(shù)據(jù),生成通過數(shù)值矢量表示與各教師數(shù)據(jù)有關(guān)的特征的各教師數(shù)據(jù)的特征矢量,根據(jù)各教師數(shù)據(jù)的特征矢量生成教師數(shù)據(jù)的圖表,根據(jù)教師數(shù)據(jù)的圖表,選擇用于生成最適于傳播教師數(shù)據(jù)的標(biāo)簽的第1圖表的特征類型,進(jìn)而輸出第1圖表,根據(jù)第1圖表和無標(biāo)簽數(shù)據(jù),選擇應(yīng)該傳播賦予在教師數(shù)據(jù)中的標(biāo)簽的無標(biāo)簽數(shù)據(jù),進(jìn)而,通過在第1圖表中包含選擇出的無標(biāo)簽數(shù)據(jù),生成第2圖表,通過第2圖表,將賦予在教師數(shù)據(jù)中的標(biāo)簽向選擇出的無標(biāo)簽數(shù)據(jù)傳播。
【專利說明】信息處理系統(tǒng)和信息處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理系統(tǒng)。
【背景技術(shù)】
[0002]近年來,很多企業(yè)靈活運(yùn)用被稱為大數(shù)據(jù)的大量的電子數(shù)據(jù)。這是因?yàn)椋捎贏pache Hadoop等的開源軟件的出現(xiàn),使用一般的PC服務(wù)器進(jìn)行分散并列計(jì)算的技術(shù)得到普及。通過這種技術(shù)的普及,在短時(shí)間內(nèi)處理大量數(shù)據(jù)所需要的計(jì)算機(jī)資源等的成本大幅降低。
[0003]作為針對大數(shù)據(jù)的數(shù)據(jù)處理內(nèi)容,具有大量數(shù)值數(shù)據(jù)的累計(jì)處理、以及計(jì)算機(jī)從電子文檔數(shù)據(jù)中自動(dòng)提取用戶有用的模式的處理等。作為使計(jì)算機(jī)執(zhí)行這種原本由人類進(jìn)行的智慧處理的一個(gè)方法,使用機(jī)器學(xué)習(xí)。在機(jī)器學(xué)習(xí)、特別是有教師學(xué)習(xí)中,將人類生成的數(shù)據(jù)作為教師數(shù)據(jù),計(jì)算機(jī)學(xué)習(xí)教師數(shù)據(jù)的模式,從而能夠由計(jì)算機(jī)代替執(zhí)行人類的智
慧處理。
[0004]教師數(shù)據(jù)需要由人類制作,所以,在計(jì)算機(jī)進(jìn)行有教師學(xué)習(xí)的情況下,產(chǎn)生人力成本。特別地,在從專業(yè)文檔中提取信息的情況下,需要通過該領(lǐng)域的專家(領(lǐng)域?qū)<?來制作教師數(shù)據(jù),所以,人力成本特別大。
[0005]例如,為了進(jìn)行從法令文檔中提取信息這樣的智慧處理,在計(jì)算機(jī)進(jìn)行機(jī)器學(xué)習(xí)之前,律師或司法代書人等的法律專家需要生成應(yīng)該提取的信息的例子。并且,為了進(jìn)行從與知識產(chǎn)權(quán)有關(guān)的文檔中提取信息這樣的智慧處理,代理人或企業(yè)的知識產(chǎn)權(quán)負(fù)責(zé)人需要準(zhǔn)備應(yīng)該提取的信息的例子。
[0006]一般地,教師數(shù)據(jù)越多,越能夠提高學(xué)習(xí)結(jié)果。但是,生成教師數(shù)據(jù)需要人力成本,所以,很難準(zhǔn)備大量的教師數(shù)據(jù)。在大量處理大數(shù)據(jù)中包含的多種數(shù)據(jù)的今天,用于生成教師數(shù)據(jù)的人力成本成為應(yīng)用有教師學(xué)習(xí)時(shí)的問題。
[0007]作為與用于生成教師數(shù)據(jù)的人力成本有關(guān)的問題的一個(gè)解決策略,嘗試在學(xué)習(xí)中靈活運(yùn)用沒有教師信息(標(biāo)簽)的數(shù)據(jù)(無標(biāo)簽數(shù)據(jù))。除了教師數(shù)據(jù)以外還在學(xué)習(xí)中使用無標(biāo)簽數(shù)據(jù)的機(jī)器學(xué)習(xí)被稱為半有教師學(xué)習(xí)(例如參照專利文獻(xiàn)I和2)。
[0008]在專利文獻(xiàn)I和2中提出了如下方法:為了從文檔群中提取包含有害單詞的文檔,使用半有教師學(xué)習(xí)。
[0009]在半有教師學(xué)習(xí)中,從計(jì)算效率方面看,非專利文獻(xiàn)I所述的基于圖表的半有教師學(xué)習(xí)特別受到關(guān)注?;趫D表的半有教師學(xué)習(xí)例如應(yīng)用于評判分析、語義曖昧性消除或詞類估計(jì)等。
[0010]并且,提出了如下方法:根據(jù)基于某個(gè)觀點(diǎn)而提取出的少數(shù)單詞,提取基于同樣觀點(diǎn)的其他單詞(例如參照專利文獻(xiàn)3)。
[0011]并且,提出了如下方法:在對針對檢索詢問的文檔的關(guān)聯(lián)度賦予標(biāo)簽的問題中,從賦予了標(biāo)簽的文檔向未賦予標(biāo)簽的文檔傳播關(guān)聯(lián)度(例如參照專利文獻(xiàn)4)。
[0012]這里,機(jī)器學(xué)習(xí)中的圖表意味著如下的數(shù)學(xué)圖表:將一個(gè)數(shù)據(jù)(例如單詞)作為一個(gè)節(jié)點(diǎn),將數(shù)據(jù)間即節(jié)點(diǎn)間的相似度作為節(jié)點(diǎn)間的邊緣的權(quán)重進(jìn)行定量。在該圖表中,相似的數(shù)據(jù)在較大權(quán)重的邊緣連接。因此,通過使用邊緣的權(quán)重來傳播標(biāo)簽信息,能夠?qū)o標(biāo)簽數(shù)據(jù)分配標(biāo)簽。
[0013]例如,以從電子文檔中提取人名信息的處理為例,以下示出標(biāo)簽信息的傳播。在該處理中,利用表情文字將文檔分解為標(biāo)記并判定各標(biāo)記是否是人名,作為二值的識別問題進(jìn)行處理。
[0014]在提取人名信息的處理的例子中,計(jì)算機(jī)將識別對象即標(biāo)記作為節(jié)點(diǎn),計(jì)算各標(biāo)記間的相似度作為邊緣的權(quán)重。并且,根據(jù)詞類或字符串長等的標(biāo)記自身的信息以及與相鄰標(biāo)記之間的共用信息等的信息,計(jì)算標(biāo)記的相似度。具體而言,通過對所述標(biāo)記的信息進(jìn)行數(shù)值矢量化,使用數(shù)值矢量計(jì)算距離,從而求出標(biāo)記的相似度。而且,由此求出包含各標(biāo)記的圖表。
[0015]在使用這樣求出的圖表傳播標(biāo)簽的情況下,相似的上下文中使用的相似的標(biāo)記在更大權(quán)重的邊緣連接,所以,容易分配相同的標(biāo)簽。
[0016]在基于圖表的半有教師學(xué)習(xí)中,圖表的構(gòu)筑方法對學(xué)習(xí)精度造成很大影響。此前,以提高構(gòu)筑圖表的精度和實(shí)現(xiàn)計(jì)算高速化為目的,進(jìn)行了邊緣的修剪(不需要邊緣的刪除)。
[0017]例如,提出了通過k_附近圖表或b_匹配圖表來近似原來圖表的方法(例如參照非專利文獻(xiàn)2)。這里,k-附近圖表、b-匹配圖表分別是僅包含通過k-附近法或b-匹配法生成的相似度的上位k件的邊緣的圖表。
[0018]進(jìn)而,提出了在進(jìn)行邊緣的修剪的情況下不生成邊緣集中的節(jié)點(diǎn)的邊緣生成方法(例如參照非專利文獻(xiàn)3)。
[0019]在這些文獻(xiàn)中,為了生成圖表,需要預(yù)先確定用于對節(jié)點(diǎn)的信息進(jìn)行數(shù)值矢量化的特征(屬性)。而且,該特征需要由領(lǐng)域?qū)<摇⑶沂煜C(jī)器學(xué)習(xí)處理的人來確定。
[0020]并且,在對機(jī)器學(xué)習(xí)的性能進(jìn)行評價(jià)的情況下,可能進(jìn)行實(shí)驗(yàn)結(jié)果的再次驗(yàn)證,所以,多使用已公開的共同的教師數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)。但是,在用戶實(shí)際對要處理的文檔進(jìn)行處理的情況下,無標(biāo)簽數(shù)據(jù)常常成為龐大的量,為了在現(xiàn)實(shí)的時(shí)間內(nèi)進(jìn)行學(xué)習(xí),需要從無標(biāo)簽數(shù)據(jù)中選擇有用的無標(biāo)簽數(shù)據(jù)。
[0021]現(xiàn)有技術(shù)文獻(xiàn)
[0022]專利文獻(xiàn)
[0023]專利文獻(xiàn)1:日本特開2011-039576號公報(bào)
[0024]專利文獻(xiàn)2:日本特開2011-039575號公報(bào)
[0025]專利文獻(xiàn)3:日本特開2010-257406號公報(bào)
[0026]專利文獻(xiàn)4:日本特表2009-528628號公報(bào)
[0027]非專利文獻(xiàn)
[0028]非專利文獻(xiàn) 1:Learning from Labeled and Unlabeled Data with LabelPropagation, Technical Report CMU-CALD-O2-107, 2002 年
[0029]非專利文獻(xiàn)2:半教師h >9語義曖昧性解消Θ t Θ夕'' 9 7 ^八一:M七,信息處理學(xué)會研究報(bào)告,2010年
[0030]非專利文獻(xiàn)3: >、7' f作6々P V 7 7構(gòu)築法f用P亡半教師h ”語義曖昧性解消,信息處理學(xué)會研究報(bào)告,2010年
[0031]非專利文獻(xiàn)4 !Efficient Graph-Based Sem1-Supervised Learning ofStructured Tagging Models, Proceedings of the20IOConference on Empirical Methodsin Natural Language Processing, pp.167-176,2010 年
【發(fā)明內(nèi)容】
[0032]發(fā)明要解決的課題
[0033]在基于圖表的半有教師學(xué)習(xí)中,為了求出最優(yōu)的圖表構(gòu)造,需要具有對象領(lǐng)域(作為處理對象的文檔的內(nèi)容所屬的【技術(shù)領(lǐng)域】)和機(jī)器學(xué)習(xí)雙方的專業(yè)知識的人,人力成本較大。
[0034]以圖表構(gòu)造的優(yōu)化即特征的優(yōu)化為目的,考慮通過對象領(lǐng)域的專業(yè)知識對進(jìn)行機(jī)器學(xué)習(xí)處理后的最終輸出結(jié)果進(jìn)行評價(jià)的方法。但是,在使用該方法的情況下,也需要領(lǐng)域?qū)<业脑u價(jià),需要更多人力成本。具體而言,這是因?yàn)?,為了根?jù)機(jī)器學(xué)習(xí)處理對圖表構(gòu)造進(jìn)行評價(jià),領(lǐng)域?qū)<倚枰ㄟ^手動(dòng)作業(yè)來生成評價(jià)用的教師數(shù)據(jù),人力成本較大。
[0035]進(jìn)而,在圖表構(gòu)造的優(yōu)化中,需要執(zhí)行與圖表構(gòu)造的模式數(shù)成比例增加的次數(shù)的機(jī)器學(xué)習(xí)處理。在反復(fù)進(jìn)行多次機(jī)器學(xué)習(xí)的情況下,需要大量計(jì)算時(shí)間,需要龐大的設(shè)備成本。
[0036]這樣,產(chǎn)生人力成本和計(jì)算機(jī)的設(shè)備成本增加等的問題。
[0037]本發(fā)明的目的在于,提供降低人力成本和計(jì)算機(jī)的設(shè)備成本并對文檔進(jìn)行適當(dāng)?shù)臋C(jī)器學(xué)習(xí)的系統(tǒng)。
`[0038]用于解決課題的手段
[0039]本發(fā)明的代表性的一例如下所示。即,信息處理系統(tǒng)對多個(gè)文獻(xiàn)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),其中,所述信息處理系統(tǒng)具有:初始化部,取得賦予了標(biāo)簽的多個(gè)文獻(xiàn)數(shù)據(jù)即多個(gè)教師數(shù)據(jù)、未賦予所述標(biāo)簽的文獻(xiàn)數(shù)據(jù)即無標(biāo)簽數(shù)據(jù)、以及表示提取與所述各文獻(xiàn)數(shù)據(jù)有關(guān)的特征的方法的多個(gè)特征類型;特征矢量生成部,在輸入所述取得的特征類型中的至少一個(gè)所述特征類型的情況下,根據(jù)所述輸入的特征類型和所述取得的各教師數(shù)據(jù),生成通過數(shù)值矢量表示與所述各教師數(shù)據(jù)有關(guān)的特征的所述各教師數(shù)據(jù)的特征矢量;圖表構(gòu)筑部,根據(jù)由所述特征矢量生成部生成的各教師數(shù)據(jù)的特征矢量,生成所述教師數(shù)據(jù)的圖表;特征選擇部,根據(jù)由所述圖表構(gòu)筑部生成的教師數(shù)據(jù)的圖表,從由所述初始化部取得的特征類型中選擇用于生成最適于傳播所述教師數(shù)據(jù)的標(biāo)簽的第I圖表的特征類型,進(jìn)而,輸出由所述圖表構(gòu)筑部生成的所述第I圖表;數(shù)據(jù)選擇部,根據(jù)所述第I圖表和所述無標(biāo)簽數(shù)據(jù),選擇應(yīng)該傳播賦予在所述教師數(shù)據(jù)中的標(biāo)簽的所述無標(biāo)簽數(shù)據(jù),進(jìn)而,通過在所述第I圖表中包含所述選擇出的無標(biāo)簽數(shù)據(jù),生成第2圖表;以及機(jī)器學(xué)習(xí)部,通過所述第2圖表,將賦予在所述教師數(shù)據(jù)中的標(biāo)簽向所述選擇出的無標(biāo)簽數(shù)據(jù)傳播。
[0040]發(fā)明效果
[0041]根據(jù)本發(fā)明的一個(gè)實(shí)施方式,能夠降低機(jī)器學(xué)習(xí)中的人力成本和設(shè)備成本。
【專利附圖】
【附圖說明】
[0042]圖1是示出本實(shí)施例1的信息提取系統(tǒng)的物理結(jié)構(gòu)的框圖。[0043]圖2是示出本實(shí)施例1的信息提取系統(tǒng)的邏輯結(jié)構(gòu)的框圖。
[0044]圖3A是示出本實(shí)施例1的文獻(xiàn)數(shù)據(jù)庫的說明圖。
[0045]圖3B是示出本實(shí)施例1的標(biāo)簽數(shù)據(jù)庫的說明圖。
[0046]圖3C是示出本實(shí)施例1的特征類型數(shù)據(jù)庫的說明圖。
[0047]圖4是示出本實(shí)施例1的未進(jìn)行特征類型的優(yōu)化和無標(biāo)簽數(shù)據(jù)的選擇的情況下的機(jī)器學(xué)習(xí)的功能框圖。
[0048]圖5是示出本實(shí)施例1的信息提取系統(tǒng)進(jìn)行文獻(xiàn)的機(jī)器學(xué)習(xí)之前的數(shù)據(jù)流的概要的功能框圖。
[0049]圖6A是示出本實(shí)施例1的教師數(shù)據(jù)列表L的說明圖。
[0050]圖6B是示出本實(shí)施例1的無標(biāo)簽數(shù)據(jù)列表U的說明圖。
[0051]圖7是示出本實(shí)施例1的特征選擇部進(jìn)行的處理流程的流程圖。
[0052]圖8A是示出本實(shí)施例1的教師數(shù)據(jù)的特征矢量的說明圖。
[0053]圖SB是示出本實(shí)施例1的無標(biāo)簽數(shù)據(jù)的特征矢量的說明圖。
[0054]圖9A是示出本實(shí)施例1的僅通過不同標(biāo)簽連接得分而計(jì)算出的圖表的評價(jià)值的說明圖。
[0055]圖9B是示出本實(shí)施例1的通過相同標(biāo)簽連接得分和不同標(biāo)簽連接得分而計(jì)算出的圖表的評價(jià)值的說明圖。
[0056]圖10是示出本實(shí)施例1的數(shù)據(jù)選擇部的處理的流程圖。
[0057]圖1lA是示出本實(shí)施例1的圖表g2和無標(biāo)簽數(shù)據(jù)的說明圖。
[0058]圖1lB是示出本實(shí)施例1的在提取距離最大值的數(shù)據(jù)的情況下提取出的無標(biāo)簽數(shù)據(jù)的說明圖。
[0059]圖1lC是示出本實(shí)施例1的未分散的無標(biāo)簽數(shù)據(jù)的說明圖。
[0060]圖12是示出本實(shí)施例5的信息提取系統(tǒng)進(jìn)行文獻(xiàn)的機(jī)器學(xué)習(xí)之前的數(shù)據(jù)流的概要的功能框圖。
[0061]圖13是示出本實(shí)施例5的機(jī)器學(xué)習(xí)的評價(jià)較低的情況下的特征選擇部的處理的流程圖。
[0062]標(biāo)號說明
[0063]110:處理器;120:存儲器;130:本地文件系統(tǒng);140:輸入裝置;150:輸出裝置;160:網(wǎng)絡(luò)器件;170:總線;200:信息提取用計(jì)算機(jī);210:局域網(wǎng)(LAN) ;220:文獻(xiàn)數(shù)據(jù)庫;225:標(biāo)簽數(shù)據(jù)庫;230:特征數(shù)據(jù)庫;290:標(biāo)簽生成用計(jì)算機(jī)。
【具體實(shí)施方式】
[0064]在以下的實(shí)施例中,在言及要素的數(shù)量等的情況下,除了特別指定的情況和原理上明顯確定的情況以外,不限于該確定的數(shù)量,可以是確定的數(shù)量以上,也可以是確定的數(shù)量以下。
[0065]進(jìn)而,在以下的實(shí)施例中可知,除了特別指定的情況和原理上明顯需要的情況以夕卜,其結(jié)構(gòu)要素不是必須的。并且,同樣,在以下的實(shí)施例中,在言及結(jié)構(gòu)要素的形狀和位置關(guān)系時(shí),除了特別明示的情況和認(rèn)為原理上明顯不是那樣的情況以外,實(shí)質(zhì)上包含與該形狀等近似或相似的形狀等。其在上述數(shù)值和范圍中也同樣。[0066]【實(shí)施例1】
[0067]圖1是示出本實(shí)施例1的信息提取系統(tǒng)所具有的計(jì)算機(jī)100的物理結(jié)構(gòu)的框圖。
[0068]本實(shí)施例的信息提取系統(tǒng)所具有的計(jì)算機(jī)100是圖1所示的通用計(jì)算機(jī)。信息提取系統(tǒng)所具有的計(jì)算機(jī)100例如也可以是PC服務(wù)器。
[0069]計(jì)算機(jī)100具有處理器110、存儲器120、本地文件系統(tǒng)130、輸入裝置140、輸出裝置150、網(wǎng)絡(luò)器件160、總線170。處理器110、存儲器120、本地文件系統(tǒng)130、輸入裝置140、輸出裝置150、網(wǎng)絡(luò)器件160通過總線170連接。
[0070]處理器110例如是中央運(yùn)算裝置(Central Processing Unit ;CPU),可以具有多個(gè)核心處理器。存儲器120是用于存儲程序和數(shù)據(jù)的存儲裝置。
[0071]輸入裝置140是鍵盤或鼠標(biāo)等的裝置,是用于受理由用戶輸入的數(shù)據(jù)的裝置。輸出裝置150是顯示器或打印機(jī)等的裝置,是用于對用戶輸出信息的裝置。另外,在經(jīng)由網(wǎng)絡(luò)從遙控器操作計(jì)算機(jī)100的情況下,計(jì)算機(jī)100可以不具有輸入裝置140和輸出裝置150。
[0072]本地文件系統(tǒng)130是能夠由計(jì)算機(jī)100進(jìn)行改寫的存儲裝置。本地文件系統(tǒng)130可以是內(nèi)置于計(jì)算機(jī)100中的存儲裝置,也可以是設(shè)置在計(jì)算機(jī)100的外部并與計(jì)算機(jī)100連接的存儲裝置。本地文件系統(tǒng)130例如是硬盤驅(qū)動(dòng)、固體電路驅(qū)動(dòng)或RAM盤等的存儲裝置。
[0073]網(wǎng)絡(luò)器件160是用于供計(jì)算機(jī)100連接到網(wǎng)絡(luò)的裝置。
[0074]圖2是示出本實(shí)施例1的信息提取系統(tǒng)所具有的各計(jì)算機(jī)的邏輯結(jié)構(gòu)的框圖。
[0075]本實(shí)施例的信息提取系統(tǒng)具有信息提取用計(jì)算機(jī)200和標(biāo)簽生成用計(jì)算機(jī)290。信息提取用計(jì)算機(jī)200和標(biāo)簽生成用計(jì)算機(jī)290分別具有圖1所示的計(jì)算機(jī)100的物理結(jié)構(gòu)。`
[0076]并且,本實(shí)施例的信息提取系統(tǒng)具有文獻(xiàn)數(shù)據(jù)庫220、標(biāo)簽數(shù)據(jù)庫225、特征類型數(shù)據(jù)庫230、局域網(wǎng)(LAN) 210。各計(jì)算機(jī)和各數(shù)據(jù)庫通過LAN210連接。
[0077]作為處理部,信息提取用計(jì)算機(jī)200具有初始化部235、特征矢量生成部237、特征選擇部240、數(shù)據(jù)選擇部255、圖表構(gòu)筑部270、多目的優(yōu)化部275、機(jī)器學(xué)習(xí)部280。
[0078]初始化部235是將文獻(xiàn)等的數(shù)據(jù)轉(zhuǎn)換為用于進(jìn)行機(jī)器學(xué)習(xí)的數(shù)據(jù)的處理部。特征矢量生成部237是生成特征矢量的處理部。
[0079]特征選擇部240是進(jìn)行特征優(yōu)化的處理部。特征選擇部240具有特征評價(jià)部245和特征選擇收斂判定部250。
[0080]數(shù)據(jù)選擇部255是選擇從教師數(shù)據(jù)傳播標(biāo)簽的無標(biāo)簽數(shù)據(jù)的處理部。數(shù)據(jù)選擇部255具有數(shù)據(jù)評價(jià)部260和數(shù)據(jù)選擇收斂判定部265。圖表構(gòu)筑部270是通過求出節(jié)點(diǎn)和邊緣而生成圖表的處理部。多目的優(yōu)化部275是在根據(jù)多個(gè)目的來改變評價(jià)值的情況下選擇用于得到最優(yōu)評價(jià)值的解候選的處理部。機(jī)器學(xué)習(xí)部280是進(jìn)行機(jī)器學(xué)習(xí)的處理部。
[0081]信息提取用計(jì)算機(jī)200的各處理部可以通過程序來實(shí)現(xiàn),也可以通過用于實(shí)現(xiàn)各功能的物理裝置來實(shí)現(xiàn)。以下,假設(shè)信息提取用計(jì)算機(jī)200的各處理部通過程序來實(shí)現(xiàn),通過處理器110在存儲器120中讀出相當(dāng)于各處理部的程序,實(shí)現(xiàn)各處理部的功能。
[0082]并且,信息提取用計(jì)算機(jī)200的各處理部可以通過一個(gè)處理部來實(shí)現(xiàn)多個(gè)處理部的功能。并且,圖2所示的一個(gè)處理部中包含的多個(gè)處理可以通過多個(gè)處理部來實(shí)現(xiàn)。
[0083]標(biāo)簽生成用計(jì)算機(jī)290具有標(biāo)簽生成部295。標(biāo)簽生成部295根據(jù)用戶的指示而生成要存儲在標(biāo)簽數(shù)據(jù)庫225中的數(shù)據(jù)。然后,標(biāo)簽生成部295將所生成的數(shù)據(jù)存儲在標(biāo)簽數(shù)據(jù)庫225中。并且,標(biāo)簽生成部295根據(jù)用戶的指示而從標(biāo)簽數(shù)據(jù)庫225中刪除數(shù)據(jù)。
[0084]因此,在使用預(yù)先確定的標(biāo)簽數(shù)據(jù)庫225的數(shù)據(jù)的情況下,本實(shí)施例的信息提取系統(tǒng)也可以省略標(biāo)簽生成用計(jì)算機(jī)290。
[0085]文獻(xiàn)數(shù)據(jù)庫220是用于存儲作為本實(shí)施例的機(jī)器學(xué)習(xí)的對象的文獻(xiàn)的數(shù)據(jù)的數(shù)據(jù)庫。標(biāo)簽數(shù)據(jù)庫225是用于存儲教師數(shù)據(jù)的數(shù)據(jù)庫。特征類型數(shù)據(jù)庫230是用于存儲表示用于生成圖表的特征的類型的數(shù)據(jù)的數(shù)據(jù)庫。
[0086]另外,信息提取用計(jì)算機(jī)200可以內(nèi)置文獻(xiàn)數(shù)據(jù)庫220、標(biāo)簽數(shù)據(jù)庫225和特征類型數(shù)據(jù)庫230的各數(shù)據(jù)庫、以及標(biāo)簽生成部295。在信息提取用計(jì)算機(jī)200內(nèi)置全部數(shù)據(jù)庫和標(biāo)簽生成部295的情況下,信息提取系統(tǒng)可以省略LAN210。
[0087]圖2所示的信息提取系統(tǒng)所具有的數(shù)據(jù)庫可以使用任意的數(shù)據(jù)存儲庫機(jī)構(gòu)來實(shí)現(xiàn)。并且,最簡單地,信息提取系統(tǒng)所具有的數(shù)據(jù)庫可以作為僅記述文本文件的I行作為I個(gè)記錄的數(shù)據(jù)庫來實(shí)現(xiàn)。并且,信息提取系統(tǒng)所具有的數(shù)據(jù)庫也可以使用相關(guān)數(shù)據(jù)庫、鍵值存儲庫等的數(shù)據(jù)庫管理系統(tǒng)來實(shí)現(xiàn)。
[0088]進(jìn)而,為了得到高速性和短應(yīng)答時(shí)間,連接信息提取用計(jì)算機(jī)200、標(biāo)簽生成用計(jì)算機(jī)290、文獻(xiàn)數(shù)據(jù)庫220、標(biāo)簽數(shù)據(jù)庫225、特征類型數(shù)據(jù)庫230的網(wǎng)絡(luò)(圖2中為LAN210)可以設(shè)置在一個(gè)數(shù)據(jù)中心內(nèi)。
[0089]并且,信息提取系統(tǒng)的各計(jì)算機(jī)和各數(shù)據(jù)庫等的各結(jié)構(gòu)要素也可以設(shè)置在各個(gè)不同的數(shù)據(jù)中心內(nèi)。
[0090]對本實(shí)施例的信息提取系統(tǒng)的起動(dòng)步驟進(jìn)行說明。用戶接通信息提取用計(jì)算機(jī)200的電源,起動(dòng)信息提取用計(jì)算機(jī)200所具有的OS (操作系統(tǒng))。進(jìn)而,用戶接通文獻(xiàn)數(shù)據(jù)庫220、標(biāo)簽數(shù)據(jù)庫225、特征類型數(shù)據(jù)庫230和標(biāo)簽生成用計(jì)算機(jī)290的電源。進(jìn)而,用戶接通LAN210的電源,使信息提取用計(jì)算機(jī)200、文獻(xiàn)數(shù)據(jù)庫220、標(biāo)簽數(shù)據(jù)庫225、特征類型數(shù)據(jù)庫230、標(biāo)簽生成用計(jì)算機(jī)290和LAN210成為相互能夠進(jìn)行通信的狀態(tài)。此后,信息提取系統(tǒng)的各計(jì)算機(jī)和各數(shù)據(jù)庫例如根據(jù)IP地址和主機(jī)名進(jìn)行通信。
[0091]圖3A是示出本實(shí)施例1的文獻(xiàn)數(shù)據(jù)庫220的說明圖。
[0092]文獻(xiàn)數(shù)據(jù)庫220是存儲作為本實(shí)施例的信息提取系統(tǒng)進(jìn)行機(jī)器學(xué)習(xí)的對象的文獻(xiàn)的信息的數(shù)據(jù)庫。
[0093]文獻(xiàn)數(shù)據(jù)庫220保持文獻(xiàn)ID2201和正文2202。文獻(xiàn)ID2201包含唯一表示文獻(xiàn)的標(biāo)識符,用于區(qū)分各文獻(xiàn)的目的。正文2202表示文獻(xiàn)ID2201所示的文獻(xiàn)中包含的字符串。
[0094]圖3B是示出本實(shí)施例1的標(biāo)簽數(shù)據(jù)庫225的說明圖。
[0095]標(biāo)簽數(shù)據(jù)庫225是表示各文獻(xiàn)中確定的標(biāo)簽的數(shù)據(jù)庫。標(biāo)簽數(shù)據(jù)庫225包含標(biāo)簽ID2251、文獻(xiàn) ID2252 和標(biāo)簽 2253。
[0096]標(biāo)簽ID2251包含唯一表示標(biāo)簽的標(biāo)識符。文獻(xiàn)ID2252表示賦予了標(biāo)簽ID2251所示的標(biāo)簽的文獻(xiàn),相當(dāng)于文獻(xiàn)數(shù)據(jù)庫220的文獻(xiàn)ID2201的標(biāo)識符。
[0097]標(biāo)簽2253表示賦予了標(biāo)簽的數(shù)據(jù)出現(xiàn)在文獻(xiàn)的哪個(gè)位置。例如,記錄2254表示在文獻(xiàn)ID2252 “ I ”的文獻(xiàn)中,賦予了 “ I ”這樣的標(biāo)簽的節(jié)點(diǎn)的開始文字位置為“ 10”,結(jié)束文字位置為“14”。而且,記錄2254表示對該文獻(xiàn)ID2252 “I”的文獻(xiàn)中的標(biāo)簽“I”分配標(biāo)簽 ID2251 “I”。[0098]另外,例如在賦予了標(biāo)簽的數(shù)據(jù)是每個(gè)標(biāo)記的情況下,標(biāo)簽數(shù)據(jù)庫225也可以保持通過標(biāo)記數(shù)量來表示開始位置和結(jié)束位置等、基于賦予標(biāo)簽的目的的數(shù)據(jù)。
[0099]圖3C是示出本實(shí)施例1的特征類型數(shù)據(jù)庫230的說明圖。
[0100]特征類型數(shù)據(jù)庫230是表示針對節(jié)點(diǎn)取得的特征的模式的數(shù)據(jù)庫。特征類型數(shù)據(jù)庫230包括特征ID2301和特征名2302。特征ID2301是唯一表示特征模式的標(biāo)識符。
[0101]特征名2302是表示特征模式的字符串。特征名2302表示將文獻(xiàn)數(shù)據(jù)數(shù)值化為特征矢量所使用的方法。
[0102]例如,圖3C所示的特征ID2301 “I”的特征名2302 “token_surface_0”表示取得節(jié)點(diǎn)的字符串本身的字符串作為特征。并且,圖3C所示的特征ID2301 “2”的特征名2302 “ token_surface_l ”表示取得對象的字符串的后一個(gè)字符串作為特征。
[0103]特征類型數(shù)據(jù)庫230中存儲的特征類型是用戶預(yù)先確定的特征類型。
[0104]圖4是示出本實(shí)施例1的未進(jìn)行特征類型的優(yōu)化和無標(biāo)簽數(shù)據(jù)的選擇的情況下的機(jī)器學(xué)習(xí)的功能框圖。
[0105]圖4示出相當(dāng)于圖2所示的處理部的功能塊在實(shí)施例1的處理中輸入輸出的數(shù)據(jù)流。
[0106]首先,標(biāo)簽生成用計(jì)算機(jī)290的標(biāo)簽生成部295將用戶指定的標(biāo)簽存儲在標(biāo)簽數(shù)據(jù)庫225中。另外,在特征類型數(shù)據(jù)庫230中存儲有用戶預(yù)先指定的特征類型。
[0107]初始化部235從特征類型數(shù)據(jù)庫230中取得任意的特征類型f,根據(jù)標(biāo)簽數(shù)據(jù)庫225和文獻(xiàn)數(shù)據(jù)庫220生成教師數(shù)據(jù)列表。并且,初始化部235根據(jù)文獻(xiàn)數(shù)據(jù)庫220生成無標(biāo)簽數(shù)據(jù)列表。初始化部235將包含特征類型f、教師數(shù)據(jù)列表和無標(biāo)簽數(shù)據(jù)列表的數(shù)據(jù)30輸出到圖表構(gòu)筑部270。
[0108]圖表構(gòu)筑部270根據(jù)特征類型f、教師數(shù)據(jù)列表和無標(biāo)簽數(shù)據(jù)列表生成圖表。另外,在生成圖表時(shí),圖表構(gòu)筑部270使特征矢量生成部237根據(jù)教師數(shù)據(jù)列表和無標(biāo)簽數(shù)據(jù)列表生成教師數(shù)據(jù)的特征矢量和無標(biāo)簽數(shù)據(jù)的特征矢量。
[0109]另外,特征矢量是如下的數(shù)值矢量:根據(jù)特征類型f,通過數(shù)值矢量來表現(xiàn)與各數(shù)據(jù)和各數(shù)據(jù)前后的數(shù)據(jù)有關(guān)的信息,從而定量地示出各文獻(xiàn)中包含的數(shù)據(jù)。
[0110]以下示出特征矢量生成部237進(jìn)行的特征矢量的生成處理和圖表構(gòu)筑部270中的圖表的生成處理的例子。在以下的例子中,特征矢量生成部237通過表情文字將文獻(xiàn)中包含的數(shù)據(jù)分割為標(biāo)記,將各標(biāo)記作為節(jié)點(diǎn)而生成特征矢量。
[0111]作為對文獻(xiàn)中包含的標(biāo)記的信息進(jìn)行數(shù)值矢量化的具體例,存在特征矢量生成部237使用信息與數(shù)值矢量的維數(shù)的對應(yīng)表的方法。例如,作為詞類名與數(shù)值矢量的維數(shù)的對應(yīng)表,特征矢量生成部237預(yù)先保持“名詞:1、動(dòng)詞:2、助詞:3、…”,根據(jù)該對應(yīng)表對標(biāo)記的詞類進(jìn)行數(shù)值矢量化。
[0112]具體而言,在所述例子中,在標(biāo)記的詞類為名詞的情況下,特征矢量生成部237生成數(shù)值矢量(1,0,0,…)。并且,在標(biāo)記的詞類為助詞的情況下,特征矢量生成部227生成數(shù)值矢量(0,O, I,…)。特征矢量生成部237對標(biāo)記匹配的對應(yīng)表的要素分配“1”,對標(biāo)記不匹配的要素分配“O”。
[0113]通過同樣的步驟,特征矢量生成部237能夠針對標(biāo)記的表記和原型、活用形式和活用型、以及與辭典項(xiàng)目之間的匹配等生成數(shù)值矢量。[0114]進(jìn)而,通過同樣的步驟,特征矢量生成部237能夠使用與生成數(shù)值矢量的對象的標(biāo)記相鄰的標(biāo)記的信息。具體而言,在特征類型f表示使用對象的標(biāo)記的前一個(gè)標(biāo)記作為特征的情況下,特征矢量生成部237對作為對象的標(biāo)記的前一個(gè)標(biāo)記的詞類信息進(jìn)行數(shù)值矢量化。然后,特征矢量生成部237通過在作為對象的標(biāo)記的數(shù)值矢量中追加作為對象的標(biāo)記的前一個(gè)標(biāo)記的數(shù)值矢量,生成作為對象的標(biāo)記的數(shù)值矢量。
[0115]并且,除了在與信息和數(shù)值矢量的維數(shù)的對應(yīng)表匹配的情況下使數(shù)值矢量的要素的值為“I”的方法以外,作為表示相鄰的兩個(gè)標(biāo)記的共用信息的值,特征矢量生成部237也可以使用自相關(guān)信息量的值、文檔全體中與辭典匹配的次數(shù)等。
[0116]關(guān)于生成特征矢量的對象的標(biāo)記,在生成全部數(shù)值矢量的情況下,特征矢量生成部237按照預(yù)先確定的順序?qū)λ傻臄?shù)值矢量進(jìn)行結(jié)合,生成表示標(biāo)記的一個(gè)特征矢量。這里,數(shù)值矢量的結(jié)合是指,生成具有各矢量的全部要素作為自身要素的矢量,例如,矢量 V (vl, v2, v3)和矢量 w (wl, w2)的結(jié)合 X 為(vl, v2, v3, wl, w2)。
[0117]接著,圖表構(gòu)筑部270例如計(jì)算兩個(gè)標(biāo)記的數(shù)值矢量的距離作為標(biāo)記的相似度。這里,數(shù)值矢量的距離具有歐幾里得距離或余弦距離等,適用于每個(gè)任務(wù)或數(shù)據(jù)的距離不同。
[0118]圖表構(gòu)筑部270針對各標(biāo)記間的邊緣確定基于計(jì)算出的距離的權(quán)重。例如,圖表構(gòu)筑部270可以針對計(jì)算出的距離較小的標(biāo)記間的邊緣確定較小的權(quán)重。圖表構(gòu)筑部270通過確定標(biāo)記間的邊緣的權(quán)重,生成圖表g。在本實(shí)施例中,在通過確定了用戶指定的規(guī)定值以上的權(quán)重的邊緣連接節(jié)點(diǎn)間的情況下,記載為節(jié)點(diǎn)間被連接。
[0119]圖表構(gòu)筑部270將包含圖表g的數(shù)據(jù)31輸入到機(jī)器學(xué)習(xí)部280。機(jī)器學(xué)習(xí)部280在輸入了包含圖表g的數(shù)據(jù)31的情況下,使用圖表g,向在邊緣連接的無標(biāo)簽數(shù)據(jù)傳播教師數(shù)據(jù)的標(biāo)簽。然后,機(jī)器學(xué)習(xí)部280輸出標(biāo)簽傳播的處理結(jié)果作為最終輸出32。
[0120]這里,最終輸出32的形式根據(jù)機(jī)器學(xué)習(xí)部280的算法而不同。例如,在公知的算法即CRF的情況下是CRF的模型參數(shù)。并且,在標(biāo)簽傳播算法的情況下,賦予在無標(biāo)簽數(shù)據(jù)中的標(biāo)簽是最終輸出32。
[0121]下面,對本實(shí)施例的機(jī)器學(xué)習(xí)部280的機(jī)器學(xué)習(xí)算法進(jìn)行簡單說明。
[0122]作為使用圖表的機(jī)器學(xué)習(xí)的代表例,舉出非專利文獻(xiàn)I中提出的標(biāo)簽傳播法。在使用非專利文獻(xiàn)I所記載的標(biāo)簽傳播法的算法中,首先,機(jī)器學(xué)習(xí)部280使N個(gè)教師數(shù)據(jù)和M個(gè)無標(biāo)簽數(shù)據(jù)排列成一維排列D。
[0123]并且,各個(gè)教師數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)對應(yīng)著K個(gè)標(biāo)簽中的任意一方。機(jī)器學(xué)習(xí)部280使與教師數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)對應(yīng)的標(biāo)簽排列成一維排列E。
[0124]接著,機(jī)器學(xué)習(xí)部280計(jì)算概率遷移行列T。行列T的(i,j)要素是排列D的第i個(gè)數(shù)據(jù)與排列E的第j個(gè)數(shù)據(jù)的相似度。接著,機(jī)器學(xué)習(xí)部280計(jì)算行列Y。行列Y的(i,j)要素是排列D的第i個(gè)數(shù)據(jù)取排列E的第j個(gè)標(biāo)簽的概率。
[0125]在計(jì)算出行列T和行列Y后,機(jī)器學(xué)習(xí)部280反復(fù)進(jìn)行下面的步驟Al?步驟A3這三個(gè)步驟,直到行列Y收斂為止。
[0126](步驟Al)計(jì)算行列T與行列Y之積,確定為新的Y
[0127](步驟A2)對新的行列Y的行進(jìn)行標(biāo)準(zhǔn)化
[0128](步驟A3)利用標(biāo)簽信息覆蓋標(biāo)準(zhǔn)化的行列Y的要素中的與教師數(shù)據(jù)對應(yīng)的要素[0129]在所述標(biāo)簽傳播法的算法中,作為機(jī)器學(xué)習(xí)的結(jié)果,輸出賦予在無標(biāo)簽數(shù)據(jù)中的標(biāo)簽或可能賦予在無標(biāo)簽數(shù)據(jù)中的標(biāo)簽以及表示賦予的可能性的概率值。
[0130]關(guān)于標(biāo)簽傳播法的步驟,除了非專利文獻(xiàn)I中舉出的步驟以外,還存在很多變化。
[0131]并且,為了進(jìn)行標(biāo)簽傳播,存在使用圖表作為有教師學(xué)習(xí)的輔助信息的算法。例如,如非專利文獻(xiàn)4那樣舉出如下的算法的例子:在條件隨機(jī)場(Conditional RandomField ;CRF)的學(xué)習(xí)中使用無標(biāo)簽數(shù)據(jù),所以采用圖表構(gòu)造。
[0132]該情況下,機(jī)器學(xué)習(xí)部280對無標(biāo)簽數(shù)據(jù)賦予偽標(biāo)簽,再次學(xué)習(xí)CRF。然后,機(jī)器學(xué)習(xí)部280根據(jù)之前學(xué)習(xí)的CRF的得分和圖表上傳播標(biāo)簽而決定的得分,決定偽標(biāo)簽。
[0133]在該算法的情況下,作為學(xué)習(xí)結(jié)果,機(jī)器學(xué)習(xí)部280得到與通常的CRF相同的CRF的模型參數(shù)。因此,在以后給出任意文檔時(shí),機(jī)器學(xué)習(xí)部280能夠與通常的CRF同樣,利用維特比算法等高速進(jìn)行識別。這樣,雖然是具有與非專利文獻(xiàn)I的標(biāo)簽傳播法不同的特征的算法,但是,在賦予偽標(biāo)簽時(shí)傳播標(biāo)簽信息這點(diǎn)是相同的,能夠與非專利文獻(xiàn)I的標(biāo)簽傳播法同樣地應(yīng)用本發(fā)明。
[0134]另外,如果輸入圖表g,則以下所示的本實(shí)施例的機(jī)器學(xué)習(xí)部280通過標(biāo)簽傳播法的某些變化也能夠進(jìn)行標(biāo)簽傳播。
[0135]用戶(領(lǐng)域?qū)<?對最終輸出32進(jìn)行評價(jià),在評價(jià)結(jié)果較差的情況下,使用標(biāo)簽生成部295追加標(biāo)簽。并且,在評價(jià)結(jié)果較差的情況下,領(lǐng)域?qū)<倚麓_定特征類型f’,將特征類型f’作為特征類型f輸入到初始化部235。
[0136]這里,根據(jù)圖4所示的處理,為了選擇最優(yōu)的特征類型f,本實(shí)施例的信息提取系統(tǒng)需要使機(jī)器學(xué)習(xí)部280反復(fù)進(jìn)行標(biāo)簽傳播處理。
[0137]進(jìn)而,在圖表g中包含有文獻(xiàn)數(shù)據(jù)庫220中包含的所有數(shù)據(jù)。因此,在文獻(xiàn)數(shù)據(jù)庫220中包含的數(shù)據(jù)量較多的情況下,由于計(jì)算數(shù)據(jù)彼此的距離的處理,信息提取用計(jì)算機(jī)200的資源可能緊迫。
[0138]因此,在以下所示的實(shí)施例1的處理中,本實(shí)施例的信息提取系統(tǒng)在基于機(jī)器學(xué)習(xí)部280的處理之前執(zhí)行基于特征選擇部240的特征類型的優(yōu)化。并且,本實(shí)施例的信息提取系統(tǒng)通過數(shù)據(jù)選擇部255適當(dāng)選擇輸入到機(jī)器學(xué)習(xí)部280的圖表中包含的數(shù)據(jù)(無標(biāo)簽數(shù)據(jù))。
[0139]圖5是示出本實(shí)施例1的信息提取系統(tǒng)進(jìn)行文獻(xiàn)的機(jī)器學(xué)習(xí)之前的數(shù)據(jù)流的概要的功能框圖。
[0140]圖5示出相當(dāng)于圖2所示的處理部的功能塊在實(shí)施例1的處理中輸入輸出的數(shù)據(jù)流。
[0141]首先,與圖4所示的標(biāo)簽生成部295相同,標(biāo)簽生成用計(jì)算機(jī)290的標(biāo)簽生成部295將用戶指定的標(biāo)簽存儲在標(biāo)簽數(shù)據(jù)庫225中。
[0142]接著,信息提取用計(jì)算機(jī)200的初始化部235使用文獻(xiàn)數(shù)據(jù)庫220、標(biāo)簽數(shù)據(jù)庫225和特征類型數(shù)據(jù)庫230中存儲的數(shù)據(jù)進(jìn)行初始化處理。具體而言,作為初始化處理,初始化部235根據(jù)文獻(xiàn)數(shù)據(jù)庫220和標(biāo)簽數(shù)據(jù)庫225生成教師數(shù)據(jù)列表L601和無標(biāo)簽數(shù)據(jù)列表U602。并且,作為初始化處理,初始化部235從特征類型數(shù)據(jù)庫230中提取所有的特征類型,生成包含提取出的特征類型的特征類型F。
[0143]另外,特征類型F、無標(biāo)簽數(shù)據(jù)列表U602和教師數(shù)據(jù)列表L601也可以由用戶指定。[0144]圖6A是示出本實(shí)施例1的教師數(shù)據(jù)列表L601的說明圖。
[0145]教師數(shù)據(jù)列表L601是包含教師數(shù)據(jù)的文獻(xiàn)的列表。初始化部235從標(biāo)簽數(shù)據(jù)庫225中提取標(biāo)簽ID2251和文獻(xiàn)ID2252,將提取出的數(shù)據(jù)包含在教師數(shù)據(jù)列表L601中。
[0146]教師數(shù)據(jù)列表L601具有標(biāo)簽ID6011和文獻(xiàn)ID6012。標(biāo)簽ID6011相當(dāng)于標(biāo)簽ID2251,文獻(xiàn)ID6012相當(dāng)于文獻(xiàn)ID2252。
[0147]圖6B是示出本實(shí)施例1的無標(biāo)簽數(shù)據(jù)列表U602的說明圖。
[0148]無標(biāo)簽數(shù)據(jù)列表U602是不包含教師數(shù)據(jù)的文獻(xiàn)的列表。初始化部235從文獻(xiàn)數(shù)據(jù)庫220的文獻(xiàn)ID2201的標(biāo)識符中提取除了標(biāo)簽數(shù)據(jù)庫225的文獻(xiàn)ID2252以外的標(biāo)識符。然后,初始化部235將提取出的標(biāo)識符包含在無標(biāo)簽數(shù)據(jù)列表U602中。
[0149]無標(biāo)簽數(shù)據(jù)列表U602包括ID6021和文獻(xiàn)ID6022。在ID6021中存儲有包含無標(biāo)簽數(shù)據(jù)的文獻(xiàn)在無標(biāo)簽數(shù)據(jù)列表U602中的連續(xù)編號。文獻(xiàn)ID6022包含有包含無標(biāo)簽數(shù)據(jù)的文獻(xiàn)的標(biāo)識符。
[0150]初始化處理的結(jié)果,初始化部235將特征類型F和教師數(shù)據(jù)列表L601作為數(shù)據(jù)300輸入到特征選擇部240。
[0151]特征選擇部240在被輸入數(shù)據(jù)300的情況下,與圖4所示的特征選擇部240相同,使用特征矢量生成部237和圖表構(gòu)筑部270生成與教師數(shù)據(jù)有關(guān)的圖表gl。這里,為了生成圖表gl,特征選擇部240從特征類型F中選擇最優(yōu)的特征類型。然后,特征選擇部240輸出選擇出的特征類型作為特征類型H。
[0152]特征選擇部240將所生成的圖表gl、教師數(shù)據(jù)的特征矢量和特征類型Π作為數(shù)據(jù)310輸入到數(shù)據(jù)選擇部255。并且,初始化部235將無標(biāo)簽數(shù)據(jù)列表U602作為數(shù)據(jù)320輸入到數(shù)據(jù)選擇部255。
[0153]數(shù)據(jù)選擇部255在被輸入數(shù)據(jù)310和數(shù)據(jù)320的情況下,根據(jù)圖表gl、教師數(shù)據(jù)的特征矢量、無標(biāo)簽數(shù)據(jù)的特征矢量,選擇適于傳播標(biāo)簽的無標(biāo)簽數(shù)據(jù)。然后,數(shù)據(jù)選擇部255輸出選擇出的數(shù)據(jù)作為無標(biāo)簽數(shù)據(jù)u2。并且,數(shù)據(jù)選擇部255生成在圖表gl中加上無標(biāo)簽數(shù)據(jù)u2而得到的圖表g2。
[0154]圖表g2是將無標(biāo)簽數(shù)據(jù)u2的數(shù)據(jù)作為節(jié)點(diǎn)而追加到圖表gl中的圖表。圖表g2的初始值為圖表gl。
[0155]數(shù)據(jù)選擇部255將圖表g2、教師數(shù)據(jù)的特征矢量和無標(biāo)簽數(shù)據(jù)u2的特征矢量作為數(shù)據(jù)330輸入到機(jī)器學(xué)習(xí)部280。
[0156]機(jī)器學(xué)習(xí)部280在被輸入數(shù)據(jù)330的情況下,根據(jù)數(shù)據(jù)330進(jìn)行機(jī)器學(xué)習(xí),生成作為機(jī)器學(xué)習(xí)的結(jié)果的最終輸出340。機(jī)器學(xué)習(xí)部280通過與圖4所示的機(jī)器學(xué)習(xí)部280相同的方法對圖表g2進(jìn)行機(jī)器學(xué)習(xí),由此進(jìn)行標(biāo)簽傳播。
[0157]圖7是示出本實(shí)施例1的特征選擇部240進(jìn)行的處理流程的流程圖。
[0158]圖7所示的處理示出在圖2中從初始化部235輸入數(shù)據(jù)300的情況下由特征選擇部240執(zhí)行的處理。
[0159]特征選擇部240從特征類型F中選擇圖表構(gòu)筑中使用的至少一個(gè)特征類型(400)。將步驟400中選擇出的特征類型記載為特征類型fI。步驟400中選擇出的特征類型的數(shù)量為用戶的任意值。
[0160]在步驟400之后,特征選擇部240將特征類型Π和教師數(shù)據(jù)列表L601輸入到特征矢量生成部237。
[0161]特征矢量生成部237根據(jù)所輸入的特征類型H、教師數(shù)據(jù)列表L601、文獻(xiàn)數(shù)據(jù)庫220和標(biāo)簽數(shù)據(jù)庫225生成特征矢量710 (410)。在步驟410中,特征矢量生成部237通過與圖4所示的處理中生成特征矢量的方法相同的方法生成特征矢量。[0162]圖8A是示出本實(shí)施例1的教師數(shù)據(jù)的特征矢量710的說明圖。
[0163]特征矢量710是教師數(shù)據(jù)的特征矢量。特征矢量710的各行表示與一個(gè)教師數(shù)據(jù)有關(guān)的特征矢量。
[0164]在特征矢量710的各行的開頭包含有賦予在教師數(shù)據(jù)中的標(biāo)簽的值。在各行中包含有表示與對象的數(shù)據(jù)有關(guān)的各特征的要素,通過分隔符等的劃分文字對各要素進(jìn)行劃分。
[0165]例如,關(guān)于“1:0.5”這樣表現(xiàn)的要素,“:”左側(cè)的數(shù)值表示特征的維數(shù)“1”,“: ”右側(cè)表示特征的值“0.5”。
[0166]特征的維數(shù)是根據(jù)文獻(xiàn)所記載的內(nèi)容的語法而分配給單詞的數(shù)值,例如,是通過數(shù)值來表現(xiàn)助詞或形容詞等的值。特征的值是文獻(xiàn)中的特征本身的值。例如,在特征的維數(shù)表示形容詞的情況下,特征的值為“高速的”等。
[0167]進(jìn)而,在圖8A中,包含要素“1:0.5”、要素“2:0.8”、要素“5:-0.1”的行表示(0.5、0.8、0、0、-0.I)這樣的特征矢量。
[0168]圖8Β是示出本實(shí)施例1的無標(biāo)簽數(shù)據(jù)的特征矢量700的說明圖。
[0169]在數(shù)據(jù)選擇部255的后述處理中,無標(biāo)簽數(shù)據(jù)列表U602也被轉(zhuǎn)換為特征矢量700。
[0170]特征矢量700是無標(biāo)簽數(shù)據(jù)的特征矢量。特征矢量700的各行表示與一個(gè)無標(biāo)簽數(shù)據(jù)有關(guān)的特征矢量。
[0171]特征矢量700包含與特征矢量710相同的數(shù)值矢量。但是,特征矢量700與特征矢量710的不同之處在于,在特征矢量700的各行中未賦予標(biāo)簽。
[0172]在步驟410中,特征矢量生成部237以使教師數(shù)據(jù)列表L601的I行與特征矢量710的I行對應(yīng)的方式,將特征的維數(shù)和特征的值的組存儲在特征矢量710中。然后,特征矢量生成部237確定具有與教師數(shù)據(jù)列表L601的標(biāo)簽ID6011對應(yīng)的標(biāo)簽ID2251的標(biāo)簽數(shù)據(jù)庫225的行,從確定的行的標(biāo)簽2253中提取標(biāo)簽的值。然后,特征矢量生成部237將提取出的標(biāo)簽的值存儲在特征矢量710的各行的開頭。
[0173]如上所述,特征矢量生成部237根據(jù)特征類型Π和教師數(shù)據(jù)列表L601生成特征矢量710。
[0174]在步驟410之后,圖表構(gòu)筑部270將步驟410中生成的特征矢量710轉(zhuǎn)換為圖表gl (420)。具體而言,由于特征矢量710的各行與節(jié)點(diǎn)對應(yīng),所以,圖表構(gòu)筑部270使用特征矢量計(jì)算各行的距離,對節(jié)點(diǎn)間的邊緣確定基于計(jì)算出的距離的權(quán)重。由此,圖表構(gòu)筑部270將教師數(shù)據(jù)的特征矢量710轉(zhuǎn)換為圖表gl。
[0175]在步驟420之后,特征評價(jià)部245根據(jù)特征評價(jià)函數(shù)計(jì)算圖表gl的評價(jià)值(Scorefflerge) (430)。這里,特征評價(jià)函數(shù)可以針對一個(gè)圖表返回兩個(gè)以上的評價(jià)值。
[0176]特征評價(jià)部245例如使用式I計(jì)算特征評價(jià)函數(shù)中的一個(gè)評價(jià)值即交叉標(biāo)簽錯(cuò)誤(Errdiff)0交叉標(biāo)簽錯(cuò)誤是表示圖表內(nèi)以何種程度包含不同標(biāo)簽的評價(jià)值。
[0177]【數(shù)學(xué)式I】[0178]
【權(quán)利要求】
1.一種信息處理系統(tǒng),對多個(gè)文獻(xiàn)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),其特征在于,所述信息處理系統(tǒng)具有:初始化部,取得賦予了標(biāo)簽的多個(gè)文獻(xiàn)數(shù)據(jù)即多個(gè)教師數(shù)據(jù)、未賦予所述標(biāo)簽的文獻(xiàn)數(shù)據(jù)即無標(biāo)簽數(shù)據(jù)、以及表示提取與所述各文獻(xiàn)數(shù)據(jù)有關(guān)的特征的方法的多個(gè)特征類型;特征矢量生成部,在輸入所述取得的特征類型中的至少一個(gè)所述特征類型的情況下,根據(jù)所述輸入的特征類型和所述取得的各教師數(shù)據(jù),生成通過數(shù)值矢量表示與所述各教師數(shù)據(jù)有關(guān)的特征的所述各教師數(shù)據(jù)的特征矢量; 圖表構(gòu)筑部,根據(jù)由所述特征矢量生成部生成的各教師數(shù)據(jù)的特征矢量,生成所述教師數(shù)據(jù)的圖表; 特征選擇部,根據(jù)由所述圖表構(gòu)筑部生成的教師數(shù)據(jù)的圖表,從由所述初始化部取得的特征類型中選擇用于生成最適于傳播所述教師數(shù)據(jù)的標(biāo)簽的第I圖表的特征類型,進(jìn)而,輸出由所述圖表構(gòu)筑部生成的所述第I圖表; 數(shù)據(jù)選擇部,根據(jù)所述第I圖表和所述無標(biāo)簽數(shù)據(jù),選擇應(yīng)該傳播賦予在所述教師數(shù)據(jù)中的標(biāo)簽的所述無標(biāo)簽數(shù)據(jù),進(jìn)而,通過在所述第I圖表中包含所述選擇出的無標(biāo)簽數(shù)據(jù),生成第2圖表;以及 機(jī)器學(xué)習(xí)部,通過所述第2圖表,將賦予在所述教師數(shù)據(jù)中的標(biāo)簽向所述選擇出的無標(biāo)簽數(shù)據(jù)傳播。
2.如權(quán)利要求1所述的信息處理系統(tǒng),其特征在于, 所述圖表構(gòu)筑部根據(jù)所述生成的各教師數(shù)據(jù)的特征矢量計(jì)算所述各教師數(shù)據(jù)間的距離, 所述圖表構(gòu)筑部通過在所述各教師數(shù)據(jù)間確定基于所述計(jì)算出的各教師數(shù)據(jù)間的距離的權(quán)重,生成所述教師數(shù)據(jù)的圖表, 所述特征選擇部具有: 特征評價(jià)部,對所述生成的教師數(shù)據(jù)的圖表進(jìn)行評價(jià); 特征選擇收斂判定部,在所述特征評價(jià)部對所述教師數(shù)據(jù)的圖表的評價(jià)結(jié)果滿足第I規(guī)定條件的情況下,輸出所述教師數(shù)據(jù)的圖表作為所述第I圖表;以及 特征優(yōu)化部,在所述特征評價(jià)部對所述教師數(shù)據(jù)的圖表的評價(jià)結(jié)果不滿足所述第I規(guī)定條件的情況下,根據(jù)所述教師數(shù)據(jù)的圖表的評價(jià)結(jié)果,從由所述初始化部取得的特征類型中選擇新的所述特征類型,對所述特征矢量生成部輸入所述選擇出的特征類型, 所述特征評價(jià)部使用在賦予了不同的所述標(biāo)簽的所述教師數(shù)據(jù)間確定的權(quán)重越小則對所述教師數(shù)據(jù)的圖表評價(jià)越高、且在賦予了相同的所述標(biāo)簽的所述教師數(shù)據(jù)間確定的權(quán)重越大則對所述教師數(shù)據(jù)的圖表評價(jià)越高的特征評價(jià)函數(shù),對所述教師數(shù)據(jù)的圖表進(jìn)行評價(jià)。
3.如權(quán)利要求1或2所述的信息處理系統(tǒng),其特征在于, 所述特征矢量生成部根據(jù)生成所述第I圖表的所述特征類型和由所述初始化部取得的多個(gè)無標(biāo)簽數(shù)據(jù),生成通過數(shù)值矢量表示與所述各無標(biāo)簽數(shù)據(jù)有關(guān)的特征的所述無標(biāo)簽數(shù)據(jù)的特征矢量, 所述數(shù)據(jù)選擇部具有數(shù)據(jù)評價(jià)部,該數(shù)據(jù)評價(jià)部根據(jù)所述各教師數(shù)據(jù)的特征矢量和所述各無標(biāo)簽數(shù)據(jù)的特征矢量,計(jì)算所述第I圖表中包含的各教師數(shù)據(jù)與所述各無標(biāo)簽數(shù)據(jù)之間的距離的最小值,作為所述第I圖表與所述各無標(biāo)簽數(shù)據(jù)之間的距離, 所述數(shù)據(jù)評價(jià)部保持所述計(jì)算出的第I圖表與各無標(biāo)簽數(shù)據(jù)之間的距離, 所述數(shù)據(jù)評價(jià)部選擇所述保持的第I圖表與各無標(biāo)簽數(shù)據(jù)之間的距離中的最大距離的所述無標(biāo)簽數(shù)據(jù), 所述數(shù)據(jù)評價(jià)部將所述選擇出的無標(biāo)簽數(shù)據(jù)變更為所述第I圖表中包含的文獻(xiàn)數(shù)據(jù),所述數(shù)據(jù)評價(jià)部計(jì)算所述第I圖表中包含的各文獻(xiàn)數(shù)據(jù)與所述各無標(biāo)簽數(shù)據(jù)之間的距離的最小值, 所述數(shù)據(jù)評價(jià)部根據(jù)所述計(jì)算出的各文獻(xiàn)數(shù)據(jù)與各無標(biāo)簽數(shù)據(jù)之間的距離,對所述保持的第I圖表與各無標(biāo)簽數(shù)據(jù)之間的距離進(jìn)行更新。
4.如權(quán)利要求2所述的信息處理系統(tǒng),其特征在于, 所述初始化部通過對賦予了所述標(biāo)簽的多個(gè)文獻(xiàn)數(shù)據(jù)進(jìn)行分割,取得所述教師數(shù)據(jù)和測試數(shù)據(jù), 所述特征評價(jià)部使用所述特征評價(jià)函數(shù)計(jì)算特征評價(jià) 值, 所述特征矢量生成部根據(jù)生成所述第2圖表的所述特征類型和所述取得的測試數(shù)據(jù),生成通過數(shù)值矢量表示與所述測試數(shù)據(jù)有關(guān)的特征的所述測試數(shù)據(jù)的特征矢量, 所述機(jī)器學(xué)習(xí)部在所述選擇出的無標(biāo)簽數(shù)據(jù)的特征矢量中包含所述測試數(shù)據(jù)的特征矢量, 所述機(jī)器學(xué)習(xí)部根據(jù)所述選擇出的無標(biāo)簽數(shù)據(jù)的特征矢量和所述教師數(shù)據(jù)的特征矢量,通過所述第2圖表將賦予在所述教師數(shù)據(jù)中的標(biāo)簽向所述選擇出的無標(biāo)簽數(shù)據(jù)傳播,所述機(jī)器學(xué)習(xí)部通過對向所述選擇出的無標(biāo)簽數(shù)據(jù)中包含的所述測試數(shù)據(jù)傳播的標(biāo)簽和賦予在所述測試數(shù)據(jù)中的標(biāo)簽進(jìn)行比較,計(jì)算機(jī)器學(xué)習(xí)的評價(jià)值, 所述特征評價(jià)部在所述機(jī)器學(xué)習(xí)的評價(jià)值不滿足第2規(guī)定條件的情況下,根據(jù)所述機(jī)器學(xué)習(xí)的評價(jià)值和所述計(jì)算出的特征評價(jià)值求出回歸函數(shù), 所述特征評價(jià)部使用所述求出的回歸函數(shù)和所述特征評價(jià)函數(shù)對所述教師數(shù)據(jù)的圖表進(jìn)行評價(jià)。
5.如權(quán)利要求2所述的信息處理系統(tǒng),其特征在于, 所述信息處理系統(tǒng)還具有從用戶接受指示的輸入裝置, 在從所述用戶經(jīng)由所述輸入裝置指示了第I圖表中包含的無標(biāo)簽數(shù)據(jù)的情況下,所述數(shù)據(jù)選擇部選擇由所述用戶指示的無標(biāo)簽數(shù)據(jù)作為應(yīng)該在所述第I圖表中追加的無標(biāo)簽數(shù)據(jù)。
6.如權(quán)利要求1所述的信息處理系統(tǒng),其特征在于, 所述信息處理系統(tǒng)還具有從用戶接受指示的輸入裝置, 在從所述用戶經(jīng)由所述輸入裝置指示了用于生成最適于傳播所述教師數(shù)據(jù)的標(biāo)簽的圖表的特征類型的情況下,所述特征選擇部選擇由所述用戶指示的特征類型作為用于生成所述第I圖表的特征類型。
7.一種信息處理方法,用于對多個(gè)文獻(xiàn)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的信息處理系統(tǒng),其特征在于, 所述信息處理系統(tǒng)具有處理器和存儲器, 所述方法包括以下步驟:初始化步驟,所述處理器取得賦予了標(biāo)簽的多個(gè)文獻(xiàn)數(shù)據(jù)即多個(gè)教師數(shù)據(jù)、未賦予所述標(biāo)簽的文獻(xiàn)數(shù)據(jù)即無標(biāo)簽數(shù)據(jù)、以及表示提取與所述各文獻(xiàn)數(shù)據(jù)有關(guān)的特征的方法的多個(gè)特征類型;
特征矢量生成步驟,在輸入所述取得的特征類型中的至少一個(gè)所述特征類型的情況下,所述處理器根據(jù)所述輸入的特征類型和所述取得的各教師數(shù)據(jù),生成通過數(shù)值矢量表示與所述各教師數(shù)據(jù)有關(guān)的特征的所述各教師數(shù)據(jù)的特征矢量; 圖表構(gòu)筑步驟,所述處理器根據(jù)由所述特征矢量生成步驟生成的各教師數(shù)據(jù)的特征矢量,生成所述教師數(shù)據(jù)的圖表; 特征選擇步驟,所述處理器根據(jù)由所述圖表構(gòu)筑步驟生成的教師數(shù)據(jù)的圖表,從由所述初始化步驟取得的特征類型中選擇用于生成最適于傳播所述教師數(shù)據(jù)的標(biāo)簽的第I圖表的特征類型,進(jìn)而,輸出由所述圖表構(gòu)筑步驟生成的所述第I圖表; 數(shù)據(jù)選擇步驟,所述處理器根據(jù)所述第I圖表和所述無標(biāo)簽數(shù)據(jù),選擇應(yīng)該傳播賦予在所述教師數(shù)據(jù)中的標(biāo)簽的所述無標(biāo)簽數(shù)據(jù),進(jìn)而,通過在所述第I圖表中包含所述選擇出的無標(biāo)簽數(shù)據(jù),生成第2圖表;以及 機(jī)器學(xué)習(xí)步驟,所述處理器通過所述第2圖表,將賦予在所述教師數(shù)據(jù)中的標(biāo)簽向所述選擇出的無標(biāo)簽數(shù)據(jù)傳播。
8.如權(quán)利要求7所述的信息處理方法,其特征在于, 所述圖表構(gòu)筑步驟包括以下步驟: 所述處理器根據(jù)所述生成的各教師數(shù)據(jù)的特征矢量計(jì)算所述各教師數(shù)據(jù)間的距離的步驟, 所述處理器通過在所述各教師數(shù)據(jù)間確定基于所述計(jì)算出的各教師數(shù)據(jù)間的距離的權(quán)重來生成所述教師數(shù)據(jù)的圖表的步驟, 所述特征選擇步驟包括以下步驟: 特征評價(jià)步驟,所述處理器對所述生成的教師數(shù)據(jù)的圖表進(jìn)行評價(jià); 特征選擇收斂判定步驟,在所述特征評價(jià)步驟對所述教師數(shù)據(jù)的圖表的評價(jià)結(jié)果滿足第I規(guī)定條件的情況下,所述處理器輸出所述教師數(shù)據(jù)的圖表作為所述第I圖表;以及特征優(yōu)化步驟,在所述特征評價(jià)步驟對所述教師數(shù)據(jù)的圖表的評價(jià)結(jié)果不滿足所述第I規(guī)定條件的情況下,所述處理器根據(jù)所述教師數(shù)據(jù)的圖表的評價(jià)結(jié)果,從由所述初始化步驟取得的特征類型中選擇新的所述特征類型,在所述特征矢量生成步驟中輸入所述選擇出的特征類型, 所述特征評價(jià)步驟還包括如下步驟:所述處理器使用在賦予了不同的所述標(biāo)簽的所述教師數(shù)據(jù)間確定的權(quán)重越小則對所述教師數(shù)據(jù)的圖表評價(jià)越高、且在賦予了相同的所述標(biāo)簽的所述教師數(shù)據(jù)間確定的權(quán)重越大則對所述教師數(shù)據(jù)的圖表評價(jià)越高的特征評價(jià)函數(shù),對所述教師數(shù)據(jù)的圖表進(jìn)行評價(jià)。
9.如權(quán)利要求7或8所述的信息處理方法,其特征在于, 所述特征矢量生成步驟包括以下步驟:所述處理器根據(jù)生成所述第I圖表的所述特征類型和由所述初始化步驟取得的無標(biāo)簽數(shù)據(jù),生成通過數(shù)值矢量表示與所述各無標(biāo)簽數(shù)據(jù)有關(guān)的特征的所述無標(biāo)簽數(shù)據(jù)的特征矢量, 所述數(shù)據(jù)選擇步驟具有如下的數(shù)據(jù)評價(jià)步驟:所述處理器根據(jù)所述各教師數(shù)據(jù)的特征矢量和所述各無標(biāo)簽數(shù)據(jù)的特征矢量,計(jì)算所述第I圖表中包含的各教師數(shù)據(jù)與所述各無標(biāo)簽數(shù)據(jù)之間的距離的最小值,作為所述第I圖表與所述各無標(biāo)簽數(shù)據(jù)之間的距離, 所述數(shù)據(jù)評價(jià)步驟包括以下步驟: 所述處理器在所述存儲器中存儲所述計(jì)算出的第I圖表與各無標(biāo)簽數(shù)據(jù)之間的距離的步驟; 所述處理器選擇所述存儲器中存儲的第I圖表與各無標(biāo)簽數(shù)據(jù)之間的距離中的最大距離的所述無標(biāo)簽數(shù)據(jù)的步驟; 所述處理器將所述選擇出的無標(biāo)簽數(shù)據(jù)變更為所述第I圖表中包含的文獻(xiàn)數(shù)據(jù)的步驟; 所述處理器計(jì)算所述第I圖表中包含的各文獻(xiàn)數(shù)據(jù)與所述各無標(biāo)簽數(shù)據(jù)之間的距離的最小值的步驟;以及 所述處理器根據(jù)所述計(jì)算出的各文獻(xiàn)數(shù)據(jù)與各無標(biāo)簽數(shù)據(jù)之間的距離,對所述存儲器中存儲的第I圖表與各無標(biāo)簽數(shù)據(jù)之間的距離進(jìn)行更新的步驟。
10.如權(quán)利要求8所述的信息處理方法,其特征在于, 所述初始化步驟包括以下步驟:所述處理器通過對賦予了所述標(biāo)簽的多個(gè)文獻(xiàn)數(shù)據(jù)進(jìn)行分割,取得所述教師數(shù)據(jù)和測試數(shù)據(jù), 所述特征評價(jià)步驟包括以下步驟:所述處理器使用所述特征評價(jià)函數(shù)計(jì)算特征評價(jià)值,` 所述特征矢量生成步驟包括以下步驟:所述處理器根據(jù)生成所述第2圖表的所述特征類型和所述取得的測試數(shù)據(jù),生成通過數(shù)值矢量表示與所述測試數(shù)據(jù)有關(guān)的特征的所述測試數(shù)據(jù)的特征矢量, 所述機(jī)器學(xué)習(xí)步驟包括以下步驟: 所述處理器在所述選擇出的無標(biāo)簽數(shù)據(jù)的特征矢量中包含所述測試數(shù)據(jù)的特征矢量的步驟; 所述處理器根據(jù)所述選擇出的無標(biāo)簽數(shù)據(jù)的特征矢量和所述教師數(shù)據(jù)的特征矢量,通過所述第2圖表將賦予在所述教師數(shù)據(jù)中的標(biāo)簽向所述選擇出的無標(biāo)簽數(shù)據(jù)傳播的步驟;所述處理器通過對向所述選擇出的無標(biāo)簽數(shù)據(jù)中包含的所述測試數(shù)據(jù)傳播的標(biāo)簽和賦予在所述測試數(shù)據(jù)中的標(biāo)簽進(jìn)行比較,計(jì)算機(jī)器學(xué)習(xí)的評價(jià)值的步驟; 在所述特征評價(jià)步驟中,當(dāng)所述機(jī)器學(xué)習(xí)的評價(jià)值不滿足第2規(guī)定條件的情況下,所述處理器根據(jù)所述機(jī)器學(xué)習(xí)的評價(jià)值和所述計(jì)算出的特征評價(jià)值求出回歸函數(shù)的步驟;以及 所述處理器使用所述求出的回歸函數(shù)和所述特征評價(jià)函數(shù)對所述教師數(shù)據(jù)的圖表進(jìn)行評價(jià)的步驟。
11.如權(quán)利要求8所述的信息處理方法,其特征在于, 所述信息處理系統(tǒng)還具有從用戶接受指示的輸入裝置, 所述數(shù)據(jù)選擇步驟包括如下步驟:在從所述用戶經(jīng)由所述輸入裝置指示了第I圖表中包含的無標(biāo)簽數(shù)據(jù)的情況下,所述處理器選擇由所述用戶指示的無標(biāo)簽數(shù)據(jù)作為應(yīng)該在所述第I圖表中追加的無標(biāo)簽數(shù)據(jù)。
12.如權(quán)利要求7所述的信息處理方法,其特征在于,所述信息處理系統(tǒng)還具有從用戶接受指示的輸入裝置, 所述特征選擇步驟包括如下步驟:在從所述用戶經(jīng)由所述輸入裝置指示了用于生成最適于傳播所述教師數(shù)據(jù)的標(biāo)簽的圖表的特征類型的情況下,所述處理器選擇由所述用戶指示的特征類型作為用于生成所述第I圖表的特征類型。
【文檔編號】G06F17/30GK103678436SQ201310322481
【公開日】2014年3月26日 申請日期:2013年7月29日 優(yōu)先權(quán)日:2012年9月18日
【發(fā)明者】柳瀨利彥, 今一修 申請人:株式會社日立制作所