亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文檔數(shù)據(jù)處理裝置的制作方法

文檔序號:6349735閱讀:133來源:國知局
專利名稱:文檔數(shù)據(jù)處理裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及文檔數(shù)據(jù)處理裝置,涉及例如用于高效管理大量存在的業(yè)務(wù)文檔的文件數(shù)據(jù)的技術(shù)。
背景技術(shù)
對于用于高效處理組織內(nèi)文檔的技術(shù)的要求正在提高。例如,伴隨著日本版SOX 法(金融商品交易法)的施行,企業(yè)營業(yè)活動中憑證的管理需求正在提高。另外,例如企業(yè)內(nèi)的信息、其中尤其是不保存在相關(guān)數(shù)據(jù)庫(非定型)的文檔數(shù)據(jù)正在急劇增加(正產(chǎn)生被稱作信息爆炸的現(xiàn)象)?;谠摲N狀況,希望通過標(biāo)題、生成日、生成人等元數(shù)據(jù)(meta data)來管理和檢索文檔的需求正在提高。例如,對于營業(yè)文檔,如果能夠通過文檔名稱、顧客名稱、生成日、定購編號等業(yè)務(wù)ID進(jìn)行檢索,則進(jìn)行內(nèi)部控制的監(jiān)查時能夠迅速地找出所需文檔。另外,對于設(shè)計文檔,如果能夠通過文檔名稱、生成方部門、生成日、產(chǎn)品代碼等進(jìn)行檢索,則對于有效靈活運(yùn)用技術(shù)信息具有效果。并且,對于索賠、缺陷信息的記錄文檔, 如果能夠通過發(fā)生日、采取對策日、產(chǎn)品名稱、損失金額、部件名稱等進(jìn)行檢索,則對于發(fā)生類似缺陷時的迅速應(yīng)對具有效果。另外,對于業(yè)務(wù)規(guī)定、通告等文檔,如果能夠通過文檔的類別、生成日、實(shí)施期間等進(jìn)行檢索,則對于遵照規(guī)則高效貫徹業(yè)務(wù)具有效果。提出了許多對非定型文檔進(jìn)行解析并自動取得元數(shù)據(jù)的技術(shù)(例如參照專利文獻(xiàn)1至3、非專利文獻(xiàn)1以及幻。這些文獻(xiàn)設(shè)想事先確定作為對象的文檔的種類,詳細(xì)調(diào)查該種類文檔中記述的元數(shù)據(jù)的特征,保持為作為對象的種類的文檔的“模型”(model)。在該基礎(chǔ)上,進(jìn)行文檔中出現(xiàn)的字符串和模型的匹配,推測哪個字符串為模型中的哪個結(jié)構(gòu)要素(哪個字符串為元數(shù)據(jù))。作為特征,使用版式(layout)上的特征(例如“標(biāo)題多為居中”等)、臨近元數(shù)據(jù)記載的字符串的特征(例如“訂購編號多臨近‘訂購編號,這一字符串右側(cè)記載”等)、元數(shù)據(jù)的部分字符串的特征(例如“顧客名稱多起始于‘獨(dú)立行政法人,”)。另外,如專利文獻(xiàn)4至6以及非專利文獻(xiàn)3至8所示,用于自動準(zhǔn)備用于元數(shù)據(jù)取得的模型的解決方案也已經(jīng)展開?,F(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)1 日本特開平11-184894號公報專利文獻(xiàn)2 日本專利第3425834號公報專利文獻(xiàn)3 日本專利第3425408號公報專利文獻(xiàn)4 美國專利7,149,347B1公報專利文獻(xiàn)5 日本特開2000-90117號公報專利文獻(xiàn)6 日本特開平11-328306號公報非專利文獻(xiàn)非專利文獻(xiàn)1 盛山、直井、武部,以商務(wù)文檔為對象的關(guān)鍵字自動提取技術(shù),
4FUJITSU,49,5,pp.404-409(1998-09)非專利文獻(xiàn) 2 :Ishitani,Y.,Document Transoformation System from Papers to XML Data Based on Pivot XML Document Method, Proceedings of the Seventh International Conference on Document Analysis and Recognition(2003)非專利文獻(xiàn) 3 :F. Esposito,D. Malerba, G. Semeraro, S. Ferilli, 0. Altamura, Τ. M. A. Basile,M.Berardi, M. Ceci,N. Di Mauro, “Machine Learning methods for automatically processing historical documents :from paper acquisition to XML transformation”, Proceedings of the First Inernational Workshop on Document Image Analysis for Libraries,2004.非專利文獻(xiàn) 4 :M. Kramer,H. Kaprykowsky, D. Keysers,T. Breuel,“Bibliographic Meta-Data Extraction Using Probabilistic Finite State Transducers,,,Proceedings of International Conference on Document Analysis and Recognition, Vol.2, pp.609-613,2007非專利文獻(xiàn) 5 :D. Besagni, A. Belaid,“Citation Recognition for Scientific Publications in Digital Libraries,,, Proceedings on the First International Workshop on Document Image Analysis for Libraries,2004非專利文獻(xiàn) 6 :F. Parmentier, A. Belaid,“Logical Structure Recognition of Scientific Bibliographic References,,,Proceedings on International Conference on Document Analysis and Recognition,pp.1072—1076,1997非專禾 Ij 文獻(xiàn) 7 :D.Besagni,A.Belaid,N.Benet,“A segmentation method for bibliographic references by contextual tagging of fields,,, Proceedings on Seventh International Conference on Document Analysis and Recognition,vol. 1, pp.384-388,2003非專禾丨J 文獻(xiàn) 8 :M. Imamura, Y. Takayama,Μ. Akiyoshi,and N. Komoda, "An Acquisition Method on Term Knowledge from Operating Manuals for Information Equipments by Using the Structure of Headline Sentences”,IEEJ Trans. EIS, Vol. 128,No. 12,pp.1833-1841(2008)

發(fā)明內(nèi)容
發(fā)明要解決的課題(1)在如專利文獻(xiàn)1至3、非專利文獻(xiàn)1以及2所示的元數(shù)據(jù)自動取得處理中,基于如上所述的動作原理,模型的完善程度對于最終的元數(shù)據(jù)推測精度產(chǎn)生很大影響。但是,在人工準(zhǔn)備模型的情況下,存在如下課題,效率較差。準(zhǔn)備模型時的課題1 根據(jù)文檔的特征來設(shè)定應(yīng)該使用怎樣的版式上(layout)的特征取得怎樣的元數(shù)據(jù)是繁雜的。版式上的特征具有很多種(下劃線、居中、字體字號、頁內(nèi)位置等),與元數(shù)據(jù)種類的組合數(shù)則更多。準(zhǔn)備模型時的課題2:在模型中利用版式上的特征時,有必要考慮到具有怎樣的文檔、元數(shù)據(jù)以何種方式出現(xiàn)、元數(shù)據(jù)以外的字符串以何種方式出現(xiàn)等進(jìn)行細(xì)致的調(diào)整。例如,營業(yè)文檔中,標(biāo)題下多有下劃線。但是,標(biāo)題以外,在金額、商品名稱下多有下劃線。因此,如果使用下劃線的有無作為版式上的特征在模型中記述,則會誤將金額、商品名稱取得作為標(biāo)題。為了避免該種情況,有必要細(xì)致調(diào)整版式上的特征的利用。準(zhǔn)備模型時的課題3 根據(jù)文檔的特征來設(shè)定作為臨近元數(shù)據(jù)記載的字符串的特征而應(yīng)該使用怎樣的特征取得元數(shù)據(jù)是繁雜的。例如,作為右側(cè)與定購編號相鄰的字符串, 除了上述的“訂購編號”之外,還存在“訂購NO: ”、“訂購No: ”、“訂購No. ”“訂購書編號”、“訂貨編號”等表述形式,毫無遺漏地列舉這些表述形式有助于模型的完善程度。準(zhǔn)備模型時的課題4:在利用臨近元數(shù)據(jù)記載的字符串的特征時,有必要考慮到具有怎樣的文檔、元數(shù)據(jù)以何種方式出現(xiàn)、元數(shù)據(jù)以外的字符串以何種方式出現(xiàn)等進(jìn)行細(xì)致的調(diào)整。例如,營業(yè)文檔中,顧客名稱多記載為與“行”左側(cè)相鄰。但是,如果將記載為與 “行”左側(cè)相鄰的字符串作為顧客名稱取得,則會頻繁出現(xiàn)誤將作為轉(zhuǎn)入方記載的銀行名稱的一部分作為顧客名稱取得。準(zhǔn)備模型時的課題5 根據(jù)文檔的特征設(shè)定作為元數(shù)據(jù)的部分字符串的特征應(yīng)該使用怎樣的特征取得元數(shù)據(jù)是繁雜的。例如,日立軟件工程株式會社由于與日立集團(tuán)企業(yè)的交易多,因此使用“日立”作為部分字符串的特征具有效果。像這樣通過針對各組織調(diào)查交易對象的傾向來列舉部分字符串有助于模型的完善程度。準(zhǔn)備模型時的課題6:在利用元數(shù)據(jù)的部分字符串的特征時,有必要考慮到具有怎樣的文檔、元數(shù)據(jù)以何種方式出現(xiàn)、元數(shù)據(jù)以外的字符串以何種方式出現(xiàn)等進(jìn)行細(xì)致的調(diào)整。例如,“公司”這一字符串多包含在顧客名稱中。但是,如果將包含“公司”的字符串作為顧客名稱取得,則會頻繁出現(xiàn)誤將“公司名稱”等字符串作為顧客名稱取得。 (2)專利文獻(xiàn)4至6以及非專利文獻(xiàn)3至8中所示的技術(shù)也各自存在問題點(diǎn),不能適用于準(zhǔn)備用于從非定型的文檔正確取得元數(shù)據(jù)的模型(文檔內(nèi)應(yīng)該關(guān)注的特征)。亦即,非專利文獻(xiàn)3、專利文獻(xiàn)4、5、6敘述了針對“賬單”、“住宅貸款申請”等文檔的每個詳細(xì)的類準(zhǔn)備模型情況下的技術(shù),所處理的文檔的種類有限,沒有設(shè)想一并處理“營業(yè)文檔”、“設(shè)計文檔”等廣范圍文檔,難以稱作通用技術(shù)。另外,針對不同的每個類區(qū)分使用模型是繁雜的,作為高效處理業(yè)務(wù)文檔來運(yùn)用是不現(xiàn)實(shí)的。另外,非專利文獻(xiàn)4、5、6、7設(shè)想了以論文的參考(Reference)部分為對象、將字符串信息作為輸入來處理。因此,不能處理具有二維平面上的擴(kuò)展性的文檔的數(shù)據(jù)。并且,非專利文獻(xiàn)8以操作手冊作為對象,利用索引表述形式。營業(yè)文檔、設(shè)計文檔等一般的業(yè)務(wù)文檔中,有很多沒有記載索引表述形式的文檔,因此不能處理該種文檔。(3)本發(fā)明正是鑒于以上狀況而提出的發(fā)明,提供一種能夠大幅削減準(zhǔn)備用于提取元數(shù)據(jù)的模型的步驟、并且在各組織中自動取得元數(shù)據(jù)的技術(shù)。用于解決課題的手段為了解決上述課題,本發(fā)明所提供的文檔數(shù)據(jù)處理裝置判定處理對象文檔數(shù)據(jù)內(nèi)的處理對象元數(shù)據(jù)所具有的版式特征對于提取處理對象元數(shù)據(jù)方面是否有效,并輸出該判定結(jié)果。更詳細(xì)地,文檔數(shù)據(jù)處理裝置檢查處理對象元數(shù)據(jù)所具有的版式特征是否在處理對象文檔數(shù)據(jù)中元數(shù)據(jù)以外的字符串中出現(xiàn),并基于該檢查結(jié)果判定版式特征對于提取元數(shù)據(jù)方面是否有效。另外,文檔數(shù)據(jù)處理裝置針對被指定了相同元數(shù)據(jù)種類的多個處理對象文檔數(shù)據(jù)算出版式特征僅在元數(shù)據(jù)的字符串中出現(xiàn)的文檔數(shù)(nl)和版式特征僅在元數(shù)據(jù)以外的字符串中出現(xiàn)的文檔數(shù)(π2),輸出文檔數(shù),并且在nl >n2的情況下,提示表示將該版式特征設(shè)定為模型的信息,該模型中該版式特征是為了自動取得該元數(shù)據(jù)而應(yīng)該受到關(guān)注的特征。本發(fā)明所提供的文檔數(shù)據(jù)處理裝置判定處理對象文檔數(shù)據(jù)內(nèi)臨近處理對象元數(shù)據(jù)的字符串特征對于提取處理對象元數(shù)據(jù)方面是否有效,并輸出該判定結(jié)果。更詳細(xì)地,文檔數(shù)據(jù)處理裝置檢查臨近字符串特征是否臨近處理對象元數(shù)據(jù)以外字符串出現(xiàn),并基于該檢查結(jié)果判定臨近字符串特征對于提取處理對象元數(shù)據(jù)方面是否有效。并且,本發(fā)明所提供的文檔數(shù)據(jù)處理裝置判定處理對象文檔數(shù)據(jù)內(nèi)的處理對象元數(shù)據(jù)所含的部分字符串特征對于提取處理對象元數(shù)據(jù)方面是否有效,并輸出該判定結(jié)果。 更詳細(xì)地,文檔數(shù)據(jù)處理裝置檢查部分字符串特征是否包含在處理對象元數(shù)據(jù)以外的字符串中,并基于該檢查結(jié)果判定部分字符串特征對于提取處理對象元數(shù)據(jù)方面是否有效。本發(fā)明進(jìn)一步的特征通過以下用于實(shí)施本發(fā)明的最佳方式以及附圖得以明確。發(fā)明效果根據(jù)本發(fā)明,能夠大幅削減準(zhǔn)備用于提取元數(shù)據(jù)的模型的步驟、并且在各組織中能夠自動取得元數(shù)據(jù)。


圖1是表示本發(fā)明所提供的業(yè)務(wù)文檔處理裝置概略結(jié)構(gòu)的功能框圖。圖2是表示文檔數(shù)據(jù)以及字符串?dāng)?shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)例的圖。圖3是表示元數(shù)據(jù)種類數(shù)據(jù)以及臨近字符串特征數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)例的圖。圖4是用于說明業(yè)務(wù)文檔處理裝置中執(zhí)行的整體處理順序的流程圖。圖5是用于說明通過版式特征利用設(shè)定處理部執(zhí)行的詳細(xì)動作的流程圖。圖6是用于說明通過版式特征利用調(diào)整處理部執(zhí)行的詳細(xì)動作的流程圖。圖7是表示通過版式信息利用調(diào)整處理部顯示的確認(rèn)畫面的圖。圖8是用于說明通過臨近字符串特征利用設(shè)定處理部執(zhí)行的詳細(xì)動作的流程圖。圖9是用于說明通過臨近字符串特征利用調(diào)整處理部執(zhí)行的詳細(xì)動作的流程圖。圖10是表示通過臨近字符串特征利用調(diào)整處理部顯示的確認(rèn)畫面例的圖。圖11是用于說明通過部分字符串特征利用設(shè)定處理部執(zhí)行的詳細(xì)動作的流程圖。圖12是用于說明通過部分字符串特征利用調(diào)整處理部執(zhí)行的詳細(xì)動作的流程圖。圖13是表示通過部分字符串特征利用調(diào)整處理部顯示的確認(rèn)畫面例的圖。
具體實(shí)施例方式本發(fā)明涉及用于準(zhǔn)備從文檔提取元數(shù)據(jù)時所需要的特征(模型)的處理。在本實(shí)施方式中,作為準(zhǔn)備的模型,表示了元數(shù)據(jù)與版式特征的關(guān)系、與臨近字符串的關(guān)系、以及與包含在其中的部分字符串的關(guān)系。以下,參照附圖針對本發(fā)明的實(shí)施方式進(jìn)行說明。但應(yīng)該注意的是,本實(shí)施方式僅僅是用于實(shí)現(xiàn)本發(fā)明的一個例子,并不限定本發(fā)明的技術(shù)范圍。另外,對各圖中共通的結(jié)構(gòu)賦予相同的參照編號。
<業(yè)務(wù)文檔管理裝置的結(jié)構(gòu)>圖1是概略性表示本發(fā)明的實(shí)施方式所提供的業(yè)務(wù)文檔處理裝置的內(nèi)部結(jié)構(gòu)的功能框圖。業(yè)務(wù)文檔處理裝置1具備用于顯示數(shù)據(jù)的顯示裝置100、樣本文檔DB101、用于進(jìn)行針對顯示出的數(shù)據(jù)選擇菜單等操作的鍵盤102、鼠標(biāo)等指示設(shè)備(pointing device) 103, 進(jìn)行必要的運(yùn)算處理、控制處理等的中央處理裝置104、保存中央處理裝置104中的處理所需程序的程序存儲器105、保存中央處理裝置104中的處理所需數(shù)據(jù)的數(shù)據(jù)存儲器106。中央處理裝置104具備設(shè)定為了提取元數(shù)據(jù)而利用的版式特征(例如“下劃線”、 “居中”等)的版式特征利用設(shè)定處理部107、設(shè)定為了提取元數(shù)據(jù)而利用的臨近字符串特征(例如“公啟”、“先生/女士”等)的臨近字符串特征利用設(shè)定處理部108、設(shè)定為了提取元數(shù)據(jù)而利用的部分字符串(例如“股份公司”、“公司”等)的部分字符串特征利用設(shè)定處理部109。在本實(shí)施例的情況下,由計算機(jī)構(gòu)成,版式特征利用設(shè)定處理部107、臨近字符串特征利用設(shè)定處理部108、部分字符串特征利用設(shè)定處理部109均作為計算機(jī)上所執(zhí)行的程序的功能的一部分來實(shí)現(xiàn)。并且,這些程序保存在程序存儲器105中。版式特征利用設(shè)定處理部107具備版式特征利用調(diào)整處理部110,其檢查使用某一版式特征(例如“下劃線”)來用于提取元數(shù)據(jù)(例如“標(biāo)題”)會具有怎樣的優(yōu)先和缺點(diǎn)(對提取元數(shù)據(jù)是否有效),并最終執(zhí)行該版式特征的利用、非利用的調(diào)整處理。臨近字符串特征利用設(shè)定處理部108具備臨近字符串特征利用調(diào)整處理部111,其檢查使用某一臨近字符串特征(例如“公啟”)來用于提取元數(shù)據(jù)(例如“顧客名稱”)會具有怎樣的優(yōu)先和缺點(diǎn)(對提取元數(shù)據(jù)是否有效),并最終執(zhí)行該臨近字符串特征的利用、非利用的調(diào)整處理。并且,部分字符串特征利用設(shè)定處理部109具備部分字符串特征利用調(diào)整處理部112, 其檢查使用某一部分字符串特征(例如“公司”)來用于提取元數(shù)據(jù)(例如“顧客名稱”)會具有怎樣的優(yōu)先和缺點(diǎn)(對提取元數(shù)據(jù)是否有效),并最終執(zhí)行該部分字符串特征的利用、 非利用的調(diào)整處理。數(shù)據(jù)存儲器106具備文檔數(shù)據(jù)保存部113、字符串?dāng)?shù)據(jù)保存部114、元數(shù)據(jù)種類數(shù)據(jù)保存部115以及臨近字符串特征數(shù)據(jù)保存部116。<文檔數(shù)據(jù)以及字符串?dāng)?shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)>圖2是表示數(shù)據(jù)存儲器106中所含文檔數(shù)據(jù)保存部113以及字符串?dāng)?shù)據(jù)保存部 114中保存的文檔數(shù)據(jù)以及字符串?dāng)?shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的圖。文檔數(shù)據(jù)包括文檔ID200、文檔的文件名201、記載內(nèi)容202以及文檔圖像203。記載內(nèi)容202保持為字符串?dāng)?shù)據(jù)結(jié)構(gòu)體的排列形式。另外,文檔圖像203以圖像形式保持文檔的印刷圖像。字符串?dāng)?shù)據(jù)包括字符串ID204、字符串的內(nèi)容205、正解元數(shù)據(jù)指定ID206、相鄰字符串ID207、相鄰單元格字符串ID208以及版式特征209。正解元數(shù)據(jù)指定ID206在用戶指定了希望將其字符串(圖2的例子中為“建議書”)作為元數(shù)據(jù)取得的情況下保持元數(shù)據(jù)種類所對應(yīng)的ID(圖2的例子中為“標(biāo)題”這一元數(shù)據(jù)種類ID),在未進(jìn)行該種指定的情況下保持NULL值。相鄰字符串ID207以雙層排列形式保持相鄰字符串的信息。第一層表示上下左右的方向,第二層在其方向上存在相鄰字符串的情況下保持其ID。由于第二層也為排列形式, 因此能夠?qū)?yīng)在相同方向上具有多個相鄰字符串的情況。在圖2的例子中表示的是,在“建議書”這一字符串的上方相鄰兩個字符串(字符串ID分別為Mr 0002以及Mr 0003),在下方相鄰一個字符串(字符串皿為乂!· 0004),在右方相鄰兩個字符串(字符串ID分別為 Str 0005以及Mr 0006),在左方不存在相鄰字符串。與相鄰字符串ID207相同,相鄰單元格字符串ID208在表中包含對象字符串(例如“建議書”)的情況下以雙層排列形式保持相鄰單元格的信息。第一層表示上下左右的方向,第二層在其方向上相鄰單元格中存在字符串的情況下保持其ID。當(dāng)字符串為在表的外部記載的字符串、在表中記載的字符串中不存在相鄰單元格的字符串、在表中記載的雖有相鄰單元格但其中為空的字符串,如圖2的例子所示,相鄰單元格字符串ID208成為空的排列。版式特征209以將是否具有多種版式特征依次排列的形式保持具有怎樣的版式特征的信息。例如,作為版式特征的例子,設(shè)從左側(cè)起為居中、字體、下劃線、加粗(Bold) 等,則以true (正確)或者false (錯誤)表示是否包含這些特征。<元數(shù)據(jù)種類數(shù)據(jù)以及臨近字符串特征數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)>圖3是表示數(shù)據(jù)存儲器106所含的元數(shù)據(jù)種類數(shù)據(jù)115以及臨近字符串特征數(shù)據(jù) 116的數(shù)據(jù)結(jié)構(gòu)的圖。亦即,在圖3的例子中表示的是,在作為元數(shù)據(jù)提取“標(biāo)題”的情況下, 著眼于302至304的特征則能夠高效提取該元數(shù)據(jù)。并且,圖3的302至304的數(shù)據(jù)相當(dāng)于利用圖2的數(shù)據(jù)通過圖4的處理(步驟401至403的至少某一個處理)生成的結(jié)果(元數(shù)據(jù)提取模型)。元數(shù)據(jù)種類數(shù)據(jù)作為信息包括元數(shù)據(jù)種類ID300、元數(shù)據(jù)種類名稱301、利用版式特征302、利用臨近字符串特征303以及利用部分字符串特征304。利用版式特征302將是否利用多種版式特征以依次排列的形式保持。在圖3的例子中表示的是,關(guān)于元數(shù)據(jù)“標(biāo)題”,將圖2的版式特征209中的“字體”設(shè)定為應(yīng)該利用的版式特征。另外,利用臨近字符串特征303以臨近字符串特征數(shù)據(jù)排列形式保持對用于提取元數(shù)據(jù)有效的臨近字符串的信息。在圖3的例子中表示的是,臨近字符串“公啟”對于提取元數(shù)據(jù)“標(biāo)題”是有效的。另外,臨近字符串特征包括字符串305以及方向指定306。在圖 3中表示的是利用“‘公啟’這一字符串多記載于元數(shù)據(jù)的‘右側(cè)相鄰’ ”這一特征取得元數(shù)據(jù)的例子。利用部分字符串特征304以字符串排列形式保持對用于提取元數(shù)據(jù)有效的部分字符串的信息。在圖3的例子中表示的是,為了提取元數(shù)據(jù)“標(biāo)題”,利用該元數(shù)據(jù)中包含 “表”、“申請書”這樣的字符串是有效的。<元數(shù)據(jù)提取模型生成處理(整體)>接著,針對具有如上結(jié)構(gòu)的本實(shí)施方式的業(yè)務(wù)文檔處理裝置1中進(jìn)行的處理進(jìn)行說明。圖4是概略性表示業(yè)務(wù)文檔處理裝置1中進(jìn)行的元數(shù)據(jù)提取模型生成處理整體流程的流程圖。在圖4中,首先,中央處理裝置104從樣本文檔DBlOl讀入應(yīng)處理文檔,并以文檔數(shù)據(jù)113的形式保持(步驟400)。并且,保存在樣本文檔DBlOl中的文檔如“標(biāo)題”、“顧客名稱”那樣由用戶預(yù)先指定了元數(shù)據(jù)種類。接著,版式特征利用設(shè)定處理部107進(jìn)行設(shè)定版式上的特征的利用的處理(步驟401)。關(guān)于此處的處理,將在圖5中詳細(xì)進(jìn)行說明。另外,臨近字符串特征利用設(shè)定處理部108進(jìn)行設(shè)定臨近記載字符串的特征的利用的處理(步驟40幻。關(guān)于此處的處理,將在圖8中詳細(xì)進(jìn)行說明。而且,部分字符串特征利用設(shè)定處理部109進(jìn)行部分字符串的特征的利用的處理 (步驟40;3)。關(guān)于此處的處理,將在圖11中詳細(xì)進(jìn)行說明。此外,處理401至403為排他性處理,可分別單獨(dú)執(zhí)行,也可組合執(zhí)行。<版式特征利用設(shè)定處理的詳細(xì)>圖5是用于說明圖4的步驟401的詳細(xì)處理的流程圖。首先,版式特征利用設(shè)定處理部107針對標(biāo)題、生成人、生成日等元數(shù)據(jù)種類依次進(jìn)行處理,因此將索引i初始化(步驟 500)。接著,版式特征利用設(shè)定處理部107針對下劃線、居中、字體字號等版式上的特征依次進(jìn)行處理,因此將索引j初始化(步驟501)。然后,版式特征利用設(shè)定處理部107使用版式特征利用調(diào)整處理部110基于第j 個版式上的特征有效的樣本文檔、無效的樣本文檔、效果不明的樣本文檔判斷第j個版式上的特征是否稱得上對取得元數(shù)據(jù)有效,設(shè)定是否利用(步驟50幻。關(guān)于該處理,將在圖6 中詳細(xì)進(jìn)行說明。然后,版式特征利用設(shè)定處理部107使版式上的特征的索引j增加1 (步驟503), 如果還留有版式上的特征,則返回步驟502重新進(jìn)行處理(步驟504)。另外,版式特征利用設(shè)定處理部107使元數(shù)據(jù)種類的索引i增加1 (步驟50 ,如果還留有元數(shù)據(jù)種類,則返回步驟501重新進(jìn)行處理(步驟506)。圖6是用于說明圖5的步驟502的詳細(xì)處理的流程圖。首先,版式特征利用調(diào)整處理部110將用于計數(shù)版式上的特征對于取得元數(shù)據(jù)有效的樣本文檔的計數(shù)器nl、用于計數(shù)無效樣本文檔的計數(shù)器n2、用于計數(shù)效果不明樣本文檔的計數(shù)器n3初始化(步驟600)。 另外,版式特征利用調(diào)整處理部110針對步驟400中讀入的樣本文檔依次進(jìn)行處理,因此將索引k初始化(步驟601)。接著,版式特征利用調(diào)整處理部110在第k個樣本文檔中確認(rèn)包含在文檔數(shù)據(jù)中的記載內(nèi)容202,比較版式特征209的第j個版式上的特征為true的字符串?dāng)?shù)據(jù)與作為正解元數(shù)據(jù)指定ID206具有圖5中第i個元數(shù)據(jù)中元數(shù)據(jù)種類ID300的字符串?dāng)?shù)據(jù)(步驟 602)。在前者的字符串?dāng)?shù)據(jù)與后者的字符串?dāng)?shù)據(jù)完全一致的情況下,意味著使用第j個版式上的特征能夠從第k個樣本文檔中取得第i個元數(shù)據(jù)。因此,使第j個版式上的特征有效的樣本文檔數(shù)nl增加。在前者的字符串?dāng)?shù)據(jù)與后者的字符串?dāng)?shù)據(jù)不同的情況下,意味著使用第j個版式上的特征試圖從第k個樣本文檔中取得第i個元數(shù)據(jù),但是卻取得錯誤的元數(shù)據(jù)。因此,使第j個版式上的特征無效的樣本文檔數(shù)n2增加。上述以外的情況下效果不明,使η3增加。例如,在元數(shù)據(jù)種類數(shù)據(jù)為“標(biāo)題”、版式上的特征為“居中”的情況下,在第 k個文檔內(nèi),檢查由用戶指定為標(biāo)題的字符串是否居中,并且檢查居中的字符串在指定標(biāo)題以外是否存在。指定字符串以外不存在居中字符串時,可知該居中的版式上的特征對于提取元數(shù)據(jù)有效,nl增加。然后,版式特征利用調(diào)整處理部110使樣本文檔的索引k增加1 (步驟60 ,如果還留有樣本文檔,則返回步驟602重新進(jìn)行處理(步驟604)。接著,基于nl、n2、n3的值進(jìn)行圖7所示的畫面顯示(步驟60幻。例如,畫面顯示使用版式特征“居中”時對提取元數(shù)據(jù) (該例子中為“標(biāo)題”)有效的文章多還是具有相反效果的文檔多,并基于此判斷是否應(yīng)將 “居中”用于取得標(biāo)題。圖7是表示版式上的特征的利用設(shè)定結(jié)果顯示畫面(⑶I)的圖。該結(jié)果顯示畫面中顯示的是,針對某一元數(shù)據(jù)種類,是否利用某一版式上的特征是如何設(shè)定的,顯示分別基于圖5的i值、第i個元數(shù)據(jù)種類數(shù)據(jù)的元數(shù)據(jù)種類名稱301、圖6的j值、nl、n2、n3的值計算出的是否利用結(jié)果(700)。其中的是否利用能夠判定在例如nl ^ n2的情況下有效,除此之外的情況下無效等。另外,該結(jié)果顯示畫面中,nl、n2、n3的值作為用于向用戶提供是否利用判定依據(jù)的信息來顯示(701)。并且,該結(jié)果顯示畫面中,配置有顯示是否利用并且接受用戶指定的單選按鈕(radio button) 702。關(guān)于此處由用戶指定為“使用”的版式上的特征,將元數(shù)據(jù)種類數(shù)據(jù)的利用版式特征302的對應(yīng)要素設(shè)定為true,將指定為“不使用” 的版式上的特征設(shè)定為false。<臨近字符串特征利用設(shè)定處理的詳細(xì)>圖8是用于說明圖4的步驟402的詳細(xì)處理的流程圖。首先,臨近字符串特征利用設(shè)定處理部108將元數(shù)據(jù)種類索引i、臨近記載的字符串的候選集合S、以及樣本文檔的索引k初始化(步驟800、步驟801以及步驟802)。接著,臨近字符串特征利用設(shè)定處理部108依次確認(rèn)第k個樣本文檔中記載內(nèi)容 202所含的字符串?dāng)?shù)據(jù)的正解元數(shù)據(jù)指定ID206,如果存在具有第i個元數(shù)據(jù)種類的ID300 的字符串?dāng)?shù)據(jù),則將相鄰字符串ID207、相鄰單元格字符串ID208中保持的字符串ID的字符串?dāng)?shù)據(jù)的字符串205原原本本或者部分字符串作為候選追加到S中(步驟803)。此時,根據(jù)與指定了正解元數(shù)據(jù)的字符串的哪一個方向相鄰,還對臨近字符串特征數(shù)據(jù)的方向指定 306設(shè)定值。然后,臨近字符串特征利用設(shè)定處理部108使樣本文檔的索引k增加1 (步驟 804),如果還留有樣本文檔,則返回步驟803重新進(jìn)行處理(步驟80 。通過至此為止的處理,對于特定的元數(shù)據(jù)種類數(shù)據(jù)(例如“標(biāo)題”),收集到作為候選的所有臨近字符串?dāng)?shù)據(jù)。接著,臨近字符串特征利用設(shè)定處理部108針對候選集合s中所含的字符串,基于臨近包含該字符串的字符串記載的字符串是否為元數(shù)據(jù),判斷候選字符串是否稱得上對取得元數(shù)據(jù)有效,設(shè)定是否利用(步驟806)。亦即,針對特定的元數(shù)據(jù),確認(rèn)候選字符串周邊的字符串僅為該元數(shù)據(jù)的字符串還是也存在完全不同的字符串(逆向確認(rèn))。例如,關(guān)于元數(shù)據(jù)“顧客名稱”,臨近字符“公啟”的周邊僅存在顧客名稱,但是在臨近字符“行”的周邊不一定僅有“顧客名稱”,還可能出現(xiàn)其他的字符串“例如AB⑶銀行”,因此,判斷出“行”對于取得元數(shù)據(jù)非有效。關(guān)于該處理的詳細(xì),將使用圖9進(jìn)行說明。然后,臨近字符串特征利用設(shè)定處理部108使元數(shù)據(jù)種類的索引i增加1 (步驟 807),如果還留有元數(shù)據(jù)種類,則返回步驟802重新進(jìn)行處理(步驟808)。圖9是用于詳細(xì)說明圖8的步驟806的處理的流程圖。首先,臨近字符串特征利用調(diào)整處理部111使候選字符串的索引1、樣本文檔的索引k初始化(步驟900以及901)。接著,臨近字符串特征利用調(diào)整處理部111對于第k個樣本文檔中第1個候選字符串,確認(rèn)在由方向指定306指定的方向上相鄰的臨近字符串(步驟90幻。此處,確認(rèn)第k 個文檔數(shù)據(jù)的記載內(nèi)容202,搜索是否存在包含第1個候選字符串的字符串205。針對該種字符串?dāng)?shù)據(jù),確認(rèn)相鄰字符串ID207、相鄰單元格字符串ID208中保持的字符串ID的字符
11串?dāng)?shù)據(jù)在正解元數(shù)據(jù)指定ID206中是否具有圖8的第i個元數(shù)據(jù)中的元數(shù)據(jù)種類ID300。 在正解元數(shù)據(jù)指定ID206中具有值,并且并非第i個元數(shù)據(jù)的元數(shù)據(jù)種類ID300的情況下, 意味著使用第1個候選字符串試圖從第k個樣本文檔中取得元數(shù)據(jù),但是卻取得錯誤的元數(shù)據(jù)。因此,在該種情況下,臨近字符串特征利用調(diào)整處理部111設(shè)定不使用該第1個候選字符串(步驟90 。在除此之外的情況下,臨近字符串特征利用調(diào)整處理部111使樣本文檔的索引k增加1(步驟904),如果還留有樣本文檔,則返回步驟902重新進(jìn)行處理(步驟 905)。如果針對所有樣本文檔完成了環(huán)處理,則臨近字符串特征利用調(diào)整處理部111設(shè)定使用第1個候選字符串(步驟906)。然后,臨近字符串特征利用調(diào)整處理部111針對第 1個候選字符串的利用進(jìn)行圖10所示的畫面顯示(步驟907)。并且,臨近字符串特征利用調(diào)整處理部111使候選字符串的索引1增加1(步驟908),如果還留有候選字符串,則返回步驟901重新進(jìn)行處理(步驟909)。圖10是表示臨近字符串的特征的利用設(shè)定結(jié)果顯示畫面(⑶I)的圖。該結(jié)果顯示畫面中顯示的是,針對某一元數(shù)據(jù)種類,是否利用某一臨近字符串的特征是如何設(shè)定的, 顯示分別通過圖8的i值、第i個元數(shù)據(jù)種類數(shù)據(jù)的元數(shù)據(jù)種類名稱301、圖9的第1個候選字符串、圖9的步驟903或者步驟906指定的是否利用(1000)。另外,該結(jié)果顯示畫面中,在1001中顯示圖8的步驟803中登記候選字符串時的樣本文檔的文檔圖像203,在圖9 的步驟903中設(shè)定為不利用的情況下在1002中顯示那時的文檔圖像203。另外,圖10的1003中配置有顯示通過圖9的步驟903或者906指定的是否利用并且接受用戶指定的單選按鈕。針對此處由用戶指定為“使用”的臨近字符串的特征,在元數(shù)據(jù)種類數(shù)據(jù)的利用臨近字符串特征303中保持?jǐn)?shù)據(jù)。<部分字符串特征利用設(shè)定處理的詳細(xì)>圖11是用于說明圖4的步驟403的詳細(xì)處理的流程圖。首先,部分字符串特征利用設(shè)定處理部109將元數(shù)據(jù)種類索引i、部分字符串的候選集合S、以及樣本文檔的索引k 初始化(步驟1100、1101以及1102)。接著,部分字符串特征利用設(shè)定處理部109依次確認(rèn)第k個樣本文檔中記載內(nèi)容202所含的字符串?dāng)?shù)據(jù)的正解元數(shù)據(jù)指定ID206,如果存在具有第i個元數(shù)據(jù)種類的 ID300的字符串?dāng)?shù)據(jù),則將字符串205原原本本或者部分字符串作為候選在s中追加(步驟
1103)。例如,對象元數(shù)據(jù)種類為“顧客名稱”、字符串?dāng)?shù)據(jù)為“股份公司ABCD”的情況下,追加“股份公司”、“ABCD”等作為部分字符串候選。接著,部分字符串特征利用設(shè)定處理部109使樣本文檔的索引k增加1(步驟
1104),如果還留有樣本文檔,則返回步驟1103重新進(jìn)行處理(步驟1105)。接著,部分字符串特征利用設(shè)定處理部109針對候選集合s中所含的字符串,基于包含該字符串的字符串是否為元數(shù)據(jù),判斷候選字符串是否稱得上對取得元數(shù)據(jù)有效,設(shè)定是否利用(步驟1106)。關(guān)于該處理,將使用圖12詳細(xì)進(jìn)行說明。然后,部分字符串特征利用設(shè)定處理部109使元數(shù)據(jù)種類的索引i增加1(步驟 1107),如果還留有元數(shù)據(jù)種類,則返回步驟1102重新進(jìn)行處理(步驟1108)。圖12是用于說明圖11的步驟1106的詳細(xì)的流程圖。首先,部分字符串特征利用調(diào)整處理部112使候選字符串的索引1、樣本文檔的索引k初始化(步驟1200以及1201)。
接著,部分字符串特征利用調(diào)整處理部112在第k個樣本文檔中調(diào)查第i個以外的元數(shù)據(jù)中是否存在包含第1個候選字符串的元數(shù)據(jù)(步驟1202)。此處,確認(rèn)第k個文檔數(shù)據(jù)的記載內(nèi)容202,搜索是否存在包含第1個候選字符串的字符串205。針對該種字符串?dāng)?shù)據(jù),確認(rèn)在正解元數(shù)據(jù)指定ID206中是否具有圖11的第i個元數(shù)據(jù)中的元數(shù)據(jù)種類 ID300。在正解元數(shù)據(jù)指定ID206中具有值,并且并非第i個元數(shù)據(jù)種類ID300的情況下, 意味著使用第1個候選字符串試圖從第k個樣本文檔中取得元數(shù)據(jù),但是卻取得錯誤的元數(shù)據(jù)。因此,在該種情況下,設(shè)定不使用第1個候選字符串(步驟1203)。例如,在如上所述的對象元數(shù)據(jù)種類為“顧客名稱”、字符串?dāng)?shù)據(jù)為“股份公司ABCD”的情況下,在存在非顧客名稱但是卻包含“股份公司”這一字符串的元數(shù)據(jù)的情況下判斷為不作為候選字符串使用。在除此之外的情況下,部分字符串特征利用調(diào)整處理部112使樣本文檔的索引k 增加1 (步驟1204),如果還留有樣本文檔,則返回步驟1202重新進(jìn)行處理(步驟1205)。如果針對所有樣本文檔完成了環(huán)處理,則設(shè)定為使用第1個候選字符串(步驟1205)。然后,部分字符串特征利用調(diào)整處理部112針對第1個候選字符串的利用進(jìn)行圖 13所示的畫面顯示(步驟1207),使候選字符串的索引1增加1 (步驟1208),如果還留有候選字符串,則返回步驟1201重新進(jìn)行處理(步驟1209)。圖13是表示部分字符串的特征的利用設(shè)定結(jié)果顯示畫面(GUI)的圖。在圖13的結(jié)果顯示畫面中顯示的是,針對某一個元數(shù)據(jù)種類,是否利用某一個部分字符串的特征是如何設(shè)定的,顯示分別通過圖11的i值、第i個元數(shù)據(jù)種類數(shù)據(jù)的元數(shù)據(jù)種類名稱301、圖 12的第1個候選字符串、圖12的步驟1203或者步驟1206指定的是否利用(1300)。另外,該結(jié)果顯示畫面中,在1301中顯示圖11的步驟1103中登記候選字符串時的樣本文檔的文檔圖像203,在圖12的步驟1203中設(shè)定為不利用的情況下在1302中顯示那時的文檔圖像203。并且,該結(jié)果顯示畫面的1303中配置有顯示通過圖12的步驟1203或者1206指定的是否利用并且接受用戶指定的單選按鈕。針對此處由用戶指定為“使用”的部分字符串的特征,在元數(shù)據(jù)種類數(shù)據(jù)的利用部分字符串特征304中保持?jǐn)?shù)據(jù)?!醋冃卫狄陨厢槍Ρ景l(fā)明的基本實(shí)施方式進(jìn)行了說明,但是也能夠考慮到如下變形例。(1)在本說明書中,對于版式特征209以true或者false的2值排列形式保持的例子進(jìn)行了說明,但是也能夠考慮到以分?jǐn)?shù)數(shù)值保持的情況。例如為如下方式在文檔中居中字符串非常少的情況下,對居中字符串賦予高的分?jǐn)?shù),在文檔中記載的字符串的大半居中的情況下,對居中字符串賦予不太高的分?jǐn)?shù)。另外,還具有例如賦予對應(yīng)于字符串的字體字號的分?jǐn)?shù)的方式。即便是這些進(jìn)行以數(shù)值保持版式上的特征的情況下,本發(fā)明也是有效的。該情況下,可在步驟602中進(jìn)行比較時將記載內(nèi)容202中分?jǐn)?shù)最大的字符串?dāng)?shù)據(jù)作為比較對象。(2)在本說明書中,對于如步驟605那樣通過利用、不利用的2值設(shè)定是否利用版式上的特征的例子進(jìn)行了說明,但是也能夠考慮到以加權(quán)和的形式進(jìn)行設(shè)定的情況。例如為如下方式在取得標(biāo)題時,進(jìn)行利用居中與字體字號的大小比率為2 3(使僅指定了居中的字符串的分?jǐn)?shù)為2、僅指定了字體字號的大小的字符串的分?jǐn)?shù)為3、居中且字體字號也大的字符串的分?jǐn)?shù)為幻等指定。即便在該種方式中本發(fā)明也是有效的。該情況下,可以在選擇了本說明書中敘述的方式中利用的版式上的特征后在變更為各種加權(quán)的同時評價元數(shù)據(jù)取得精度,最終在模型中記述能夠達(dá)成高精度的加權(quán)。(3)在本說明書中,對于臨近字符串特征數(shù)據(jù)中除了字符串本身305之外還保持有方向指定306的例子進(jìn)行了說明,但是也能夠考慮到伴隨進(jìn)行其他的前綴、后綴指定的情況。例如,在顧客名稱記載為與“公啟”這一字符串左側(cè)相鄰的情況下,在“公啟”的前后附加字符的可能性很低。因此,適宜對“公啟”設(shè)定為前綴、后綴的指定均為ON。與此相對,在訂購編號記載為與“訂購編號”這一字符串的右側(cè)相鄰的情況下,具有在“訂購編號”的前后附加字符的可能性,根據(jù)交易對方不同,或者為“貴公司訂購編號”, 或者為“訂購編號(繼續(xù)交易部分)”。該情況下,適宜將前綴、后綴的指定設(shè)定為OFF。即便在可進(jìn)行該種指定的方式中本發(fā)明也是有效的。該情況下,當(dāng)將臨近元數(shù)據(jù)記載的字符串原原本本作為特征利用的情況下使前綴、后綴的指定為0N,當(dāng)將臨近記載的字符串的部分字符串作為特征利用的情況下可以改變前綴、后綴指定。(4)在本說明書中,部分字符串的特征的利用是一并在步驟1103中作為候選字符串登記的,但是也能夠考慮到附加前綴、后綴的指定來進(jìn)行登記。例如,在“獨(dú)立行政法人” 這一字符串包含在顧客名稱中的情況下,在“獨(dú)立行政法人”的前面附加字符的可能性很低,但是在后面附加字符的可能性很高。該情況下,適宜將前綴的指定設(shè)定為0N,將后綴的指定設(shè)定為OFF。即便在可進(jìn)行該種指定的方式中本發(fā)明也是有效的。該情況下,當(dāng)將元數(shù)據(jù)原原本本作為特征利用的情況下使前綴、后綴的指定為0N,當(dāng)將部分字符串作為特征利用的情況下可以改變前綴、后綴指定。(5)在本說明書中,在步驟605的說明部分中,僅根據(jù)nl和n2的大小關(guān)系設(shè)定了是否利用第j個版式上的特征??梢栽诖嘶A(chǔ)上進(jìn)一步添加條件,設(shè)定為利用版式上的特征中、按nl與n2的差從大到小的順序預(yù)先定義的個數(shù)的版式上的特征。由此,能夠準(zhǔn)備通過避免過擬合(over-training)而有重點(diǎn)的模型。(6)在本說明書中,在步驟902中,設(shè)定了僅在臨近存在第i個以外的元數(shù)據(jù)的情況下不利用候選字符串。可以在此基礎(chǔ)上進(jìn)一步添加條件,可以在臨近存在的字符串不是第i個元數(shù)據(jù)的情況下,全部設(shè)定為“不利用候選字符串”。由此,能夠準(zhǔn)備通過可靠地避免非元數(shù)據(jù)字符串的精度(而不是能夠毫無遺漏地取得元數(shù)據(jù)字符串的概率)而有重點(diǎn)的模型。(7)在本說明書中,在步驟1202中,設(shè)定了僅在第i個以外的元數(shù)據(jù)中存在包含第 1個候選字符串的元數(shù)據(jù)的情況下不利用候選字符串。可以在此基礎(chǔ)上進(jìn)一步添加條件,可以在第i個元數(shù)據(jù)以外的字符串包含第1個候選字符串的情況下,全部設(shè)定為“不利用候選字符串”。由此,能夠準(zhǔn)備通過可靠地避免非元數(shù)據(jù)字符串的精度(而不是能夠毫無遺漏地取得元數(shù)據(jù)字符串的概率)而有重點(diǎn)的模型?!纯偨Y(jié)〉在本發(fā)明的實(shí)施方式所提供的業(yè)務(wù)文檔處理裝置中,判定處理對象文檔數(shù)據(jù)內(nèi)的處理對象元數(shù)據(jù)所具有的版式特征、處理對象元數(shù)據(jù)的臨近字符串特征、以及處理對象元數(shù)據(jù)所含的部分字符串特征的至少一個是否對于從文檔數(shù)據(jù)中提取處理對象元數(shù)據(jù)有效, 并輸出該判定結(jié)果。由此,僅指定文檔和其中記載的元數(shù)據(jù)群,就能夠自動設(shè)定元數(shù)據(jù)自動取得中的版式上的特征的利用、臨近元數(shù)據(jù)記載的字符串的特征的利用、元數(shù)據(jù)的部分字符串的特征的利用。更詳細(xì)地,版式特征利用設(shè)定處理部以及版式特征利用調(diào)整部檢查處理對象元數(shù)據(jù)(例如標(biāo)題)所具有的版式特征(例如居中)是否出現(xiàn)在處理對象文檔數(shù)據(jù)中元數(shù)據(jù)以外的字符串中,并基于該檢查結(jié)果判定版式特征對于提取元數(shù)據(jù)方面是否有效。另外,臨近字符串特征利用設(shè)定處理部以及臨近字符串特征利用調(diào)整處理部檢查臨近字符串特征 (例如公啟)是否臨近處理對象元數(shù)據(jù)(例如顧客名稱)以外字符串出現(xiàn),并基于該檢查結(jié)果判定臨近字符串特征對于提取處理對象元數(shù)據(jù)方面是否有效。并且,部分字符串特征利用設(shè)定處理部以及部分字符串特征利用調(diào)整處理部檢查部分字符串特征(例如獨(dú)立行政法人)是否包含在處理對象元數(shù)據(jù)(例如顧客名稱)以外字符串中,并基于該檢查結(jié)果判定部分字符串特征對于提取處理對象元數(shù)據(jù)方面是否有效。由此,能夠自動進(jìn)行考慮到了元數(shù)據(jù)具有何種出現(xiàn)方式、元數(shù)據(jù)以外的字符串具有何種出現(xiàn)方法的細(xì)致的調(diào)整,能夠高效執(zhí)行元數(shù)據(jù)提取,并且這些調(diào)整是基于文檔的特征來進(jìn)行的,因此還能夠迅速進(jìn)行文檔的處理。由此,能夠大幅削減準(zhǔn)備元數(shù)據(jù)提取模型的步驟, 能夠在各組織中利用自動取得元數(shù)據(jù)的技術(shù)。亦即,能夠容易導(dǎo)入使用元數(shù)據(jù)進(jìn)行文檔的管理和檢索的業(yè)務(wù)文檔處理裝置。另外,版式特征利用設(shè)定處理部以及版式特征利用調(diào)整處理部針對被指定了相同元數(shù)據(jù)種類(標(biāo)題)的多個處理對象文檔數(shù)據(jù)算出版式特征僅在元數(shù)據(jù)的字符串中出現(xiàn)的文檔數(shù)(nl)、版式特征僅在元數(shù)據(jù)以外的字符串中出現(xiàn)的文檔數(shù)(π2)、版式特征在元數(shù)據(jù)的字符串以及其以外的字符串雙方中出現(xiàn)的文檔數(shù)(M),顯示各文檔數(shù),并且在nl > n2 的情況下,在顯示部(GUI)中顯示表示將該版式特征設(shè)定為模型的信息,該模型中該版式特征是為了自動取得該元數(shù)據(jù)而應(yīng)該受到關(guān)注的特征。能夠?qū)⒔?jīng)過該種處理的文檔進(jìn)行分類,并將分類結(jié)果提示給用戶,因此有助于用戶判斷是否原原本本使用被提示的基準(zhǔn)。并且,本發(fā)明也能夠通過實(shí)現(xiàn)實(shí)施方式的功能的軟件的程序代碼來實(shí)現(xiàn)。該情況下,向系統(tǒng)或者裝置提供記錄有程序代碼的存儲介質(zhì),該系統(tǒng)或者裝置的計算機(jī)(或者 CPU、MPU)讀出保存在存儲介質(zhì)中的程序代碼。該情況下,從存儲介質(zhì)讀出的程序代碼自身實(shí)現(xiàn)上述實(shí)施方式的功能,該程序代碼自身以及存儲有該程序代碼的存儲介質(zhì)構(gòu)成本發(fā)明。作為用于供給該種程序代碼的存儲介質(zhì),可使用例如軟盤、⑶-ROM、DVD-ROM、硬盤、光盤、光磁盤、CD-R、磁帶、非易失性存儲卡、ROM等。另外,可以基于程序代碼的指示由計算機(jī)上工作中的OS(操作系統(tǒng))等進(jìn)行實(shí)際處理的一部分或者全部,通過該處理來實(shí)現(xiàn)上述實(shí)施方式的功能。并且,可以在從存儲介質(zhì)讀出的程序代碼寫入計算機(jī)上的存儲器后,基于該程序代碼的指示由計算機(jī)的CPU等進(jìn)行實(shí)際的處理的一部分或者全部,通過該處理來實(shí)現(xiàn)上述實(shí)施方式的功能。另外,可以通過經(jīng)由網(wǎng)絡(luò)分發(fā)實(shí)現(xiàn)實(shí)施方式的功能的軟件的程序代碼,將其保存在系統(tǒng)或者裝置的硬盤、存儲器等存儲單元或者CD-RW、CD-R等存儲介質(zhì)中,在使用時由該系統(tǒng)或者裝置的計算機(jī)(或者CPU、MPU)讀出保存在該存儲單元、該存儲介質(zhì)中的程序代碼并執(zhí)行。符號說明100...顯示裝置101...樣本文檔 DB
102···鍵盤103...指示設(shè)備104...中央處理裝置105...程序存儲器106...數(shù)據(jù)存儲器107...版式特征利用設(shè)定處理部108...臨近字符串特征利用設(shè)定處理部109...部分字符串特征利用設(shè)定處理部110...版式特征利用調(diào)整處理部111...臨近字符串特征利用調(diào)整處理部112...部分字符串特征利用調(diào)整處理部113...文檔數(shù)據(jù)保存部114...字符串?dāng)?shù)據(jù)保存部115...元數(shù)據(jù)種類數(shù)據(jù)保存部116...臨近字符串特征數(shù)據(jù)保存部
1權(quán)利要求
1.一種文檔數(shù)據(jù)處理裝置,其使用文檔中的元數(shù)據(jù)來管理文檔,其特征在于,具備 文檔數(shù)據(jù)取得部,其取得文檔中所含元數(shù)據(jù)的種類被指定了的處理對象文檔數(shù)據(jù);版式特征判定處理部,其判定所述處理對象文檔數(shù)據(jù)內(nèi)的處理對象元數(shù)據(jù)所具有的版式特征對于提取所述處理對象元數(shù)據(jù)方面是否有效;以及輸出部,其輸出所述版式特征判定處理部的判定結(jié)果。
2.根據(jù)權(quán)利要求1所述的文檔數(shù)據(jù)處理裝置,其特征在于,所述版式特征判定處理部檢查所述處理對象元數(shù)據(jù)所具有的版式特征是否在所述處理對象文檔數(shù)據(jù)中所述元數(shù)據(jù)以外的字符串中出現(xiàn),并基于該檢查結(jié)果判定所述版式特征對于提取所述元數(shù)據(jù)方面是否有效。
3.根據(jù)權(quán)利要求2所述的文檔數(shù)據(jù)處理裝置,其特征在于, 所述文檔數(shù)據(jù)取得部取得多個文檔數(shù)據(jù)來作為處理對象,所述版式特征判定處理部針對被指定了相同元數(shù)據(jù)種類的多個處理對象文檔數(shù)據(jù)算出所述版式特征僅在所述元數(shù)據(jù)的字符串中出現(xiàn)的文檔數(shù)(nl)和所述版式特征僅在所述元數(shù)據(jù)以外的字符串中出現(xiàn)的文檔數(shù)(n2),所述輸出部輸出所述文檔數(shù),并且在nl > n2的情況下提示表示將該版式特征設(shè)定為模型的信息,該模型中該版式特征是為了自動取得該元數(shù)據(jù)而應(yīng)該受到關(guān)注的特征。
4.一種文檔數(shù)據(jù)處理裝置,其使用文檔中的元數(shù)據(jù)來管理文檔,其特征在于,具備 文檔數(shù)據(jù)取得部,其取得文檔中所含元數(shù)據(jù)的種類被指定了的處理對象文檔數(shù)據(jù);臨近字符串特征判定處理部,其判定所述處理對象文檔數(shù)據(jù)內(nèi)臨近處理對象元數(shù)據(jù)的字符串特征對于提取所述處理對象元數(shù)據(jù)方面是否有效;以及輸出部,其輸出所述臨近字符串特征判定處理部的判定結(jié)果。
5.根據(jù)權(quán)利要求4所述的文檔數(shù)據(jù)處理裝置,其特征在于,所述臨近字符串特征判定處理部檢查所述臨近字符串特征是否臨近所述處理對象元數(shù)據(jù)以外字符串出現(xiàn),并基于該檢查結(jié)果判定所述臨近字符串特征對于提取所述處理對象元數(shù)據(jù)方面是否有效。
6.一種文檔數(shù)據(jù)處理裝置,其使用文檔中的元數(shù)據(jù)來管理文檔,其特征在于,具備 文檔數(shù)據(jù)取得部,其取得文檔中所含元數(shù)據(jù)的種類被指定了的處理對象文檔數(shù)據(jù);部分字符串特征判定處理部,其判定所述處理對象文檔數(shù)據(jù)內(nèi)的處理對象元數(shù)據(jù)所含的部分字符串特征對于提取所述處理對象元數(shù)據(jù)方面是否有效;以及輸出部,其輸出所述部分字符串特征判定處理部的判定結(jié)果。
7.根據(jù)權(quán)利要求6所述的文檔數(shù)據(jù)處理裝置,其特征在于,所述部分字符串特征判定處理部檢查所述部分字符串特征是否包含在所述處理對象元數(shù)據(jù)以外字符串中,并基于該檢查結(jié)果判定所述部分字符串特征對于提取所述處理對象元數(shù)據(jù)方面是否有效。
8.一種文檔數(shù)據(jù)處理裝置,其使用文檔中的元數(shù)據(jù)來管理文檔,其特征在于,具備 文檔數(shù)據(jù)取得部,其取得文檔中所含元數(shù)據(jù)的種類被指定了的處理對象文檔數(shù)據(jù);特征判定處理部,其判定所述處理對象文檔數(shù)據(jù)內(nèi)的處理對象元數(shù)據(jù)所具有的版式特征、臨近所述處理對象元數(shù)據(jù)的字符串特征、以及所述處理對象元數(shù)據(jù)中所含部分字符串特征中至少兩個特征對于提取所述處理對象元數(shù)據(jù)方面是否有效;以及輸出部,其輸出所述特征判定處理部的判定結(jié)果。
9.根據(jù)權(quán)利要求8所述的文檔數(shù)據(jù)處理裝置,其特征在于,所述特征判定處理部檢查所述處理對象元數(shù)據(jù)所具有的版式特征是否在所述處理對象文檔數(shù)據(jù)中所述元數(shù)據(jù)以外的字符串中出現(xiàn),并基于該檢查結(jié)果判定所述版式特征對于提取所述元數(shù)據(jù)方面是否有效。
10.根據(jù)權(quán)利要求8所述的文檔數(shù)據(jù)處理裝置,其特征在于,所述特征判定處理部檢查所述臨近字符串特征是否臨近所述處理對象元數(shù)據(jù)以外字符串出現(xiàn),并基于該檢查結(jié)果判定所述臨近字符串特征對于提取所述處理對象元數(shù)據(jù)方面是否有效。
11.根據(jù)權(quán)利要求8所述的文檔數(shù)據(jù)處理裝置,其特征在于,所述特征判定處理部檢查所述部分字符串特征是否包含在所述處理對象元數(shù)據(jù)以外字符串中,并基于該檢查結(jié)果判定所述部分字符串特征對于提取所述處理對象元數(shù)據(jù)方面是否有效。
全文摘要
提供一種用于大幅削減準(zhǔn)備用于提取元數(shù)據(jù)的模型的步驟、并且在各組織中自動取得元數(shù)據(jù)的技術(shù)。將文檔及其中記載的元數(shù)據(jù)群作為輸入,使用元數(shù)據(jù)和非元數(shù)據(jù)字符串中版式上的特征、臨近字符串、部分字符串的特征,自動設(shè)定元數(shù)據(jù)自動取得中版式上的特征、臨近字符串、部分字符串的利用(參照圖1)。
文檔編號G06F12/00GK102473176SQ20108002823
公開日2012年5月23日 申請日期2010年7月23日 優(yōu)先權(quán)日2009年7月27日
發(fā)明者松本俊子 申請人:株式會社日立解決方案
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1