專利名稱::文檔文件種類識別裝置以及文檔文件種類識別方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種文檔文件種類識別裝置,用于識別通過例如掃描讀取而取得的文檔圖像的種類以及與文檔圖像的種類相對應(yīng)的特征信息。
背景技術(shù):
:在記錄紙張等記錄介質(zhì)上所記錄的文檔文件有多種。多種文檔文件分別被掃描器讀取而成為各文檔圖像。各文檔圖像分別適用根據(jù)各文檔種類而預(yù)定的處理。當(dāng)輸入文檔種類未知的文檔圖像時,文檔處理裝置識別文檔圖像的文檔種類,并根據(jù)識別結(jié)果,對文檔圖像進(jìn)行預(yù)定的處理。自動識別文檔種類的方法是預(yù)先收集多個文檔種類的特征,例如記錄介質(zhì)的大小、字符數(shù)等,并保存在數(shù)據(jù)庫中。當(dāng)輸入文檔種類未知的文檔圖像時,通過該方法,比較輸入的文檔圖像中包括的特征與數(shù)據(jù)庫中保存的文檔種類的特征,并檢索符合的文檔種類。文檔識別方法的技術(shù)公布在例如日本專利特開2001-318941號公報中。
發(fā)明內(nèi)容本發(fā)明涉及一種文檔文件種類識別裝置,其包括提取部,用于提取表示文檔文件中包含的文檔的特征性信息的文檔特征信息;評價部,用于評價所述文檔特征信息提取部所提取的所述文檔特征信息的妥當(dāng)性;以及文檔種類識別部,當(dāng)所述文檔特征信息具有妥當(dāng)性時,所述文檔種類識別部識別與所述文檔特征信息提取部所提取的所述文檔特征信息相對應(yīng)的所述文檔文件的種類。本發(fā)明還涉及一種文檔文件種類識別方法,其包括提取表示文檔文件中包含的文檔的特征性信息的文檔特征信息;評價所提取的所述文檔特征信息的妥當(dāng)性,以及在所述文檔特征信息具有妥當(dāng)性的情況下,識別與所提取的所述文檔特征信息相對應(yīng)的所述文檔文件的種類。本發(fā)明還涉及一種記錄介質(zhì),存儲計算機可讀的文檔文件種類識別程序,包括根據(jù)保存在提取方法保存部中的提取方法信息,從文檔文件中提取表示所述文檔文件中包含的文檔的特征性信息的文檔特征信息,所述提取方法信息記載用于從所述文檔文件中提取所述文檔特征信息的按所述文檔文件的種類而不同的多種方法;根據(jù)特征信息保存部中保存的參照文檔特征信息,評價所提取的所述文檔特征信息的妥當(dāng)性,所述參照文檔特征信息分種類作為應(yīng)從所述文檔文件提取的所述文檔特征信息的參照;以及在所述文檔特征信息具有妥當(dāng)性的情況下,識別與提取的所述文檔特征信息對應(yīng)的所述文檔文件的種類。圖1是表示第一實施方式的文檔文件種類識別裝置的功能塊構(gòu)成圖。圖2是表示通過本裝置識別的A國申請委托書格式的示例圖。圖3是表示通過本裝置識別的來自cc專利事務(wù)所的原稿校閱委托書格式的示例圖。圖4是表示通過本裝置識別的駁回對應(yīng)討論委托書格式的示例圖。圖5是表示用于通過本裝置的提取部提取文檔中的文檔特征信息的提取方法信息的示例圖。圖6是表示本裝置中特征信息保存部中保存的參照文檔特征信息的示意圖。圖7是表示適用了本裝置的文檔(document)系統(tǒng)的構(gòu)成圖。圖8是本裝置的文檔文件種類識別流程圖。圖9是表示一例通過本裝置的提取部提取的文檔特征信息的示例圖。圖10是表示一例本裝置的文檔文件保存部中保存的文檔文件保存信息的示例圖。圖11是示出本裝置的文檔文件種類識別流程的變形例示意圖。具體實施例方式以下,參照實施方式。圖1表示文檔文件種類的識別裝置的功能塊構(gòu)成圖。本裝置包括掃描文件取得部1、文檔種類識別部2、文檔特征信息提取部(以下簡稱提取部)3、文檔特征信息提取方法保存部(以下簡稱提取方法保存部)4、文檔特征信息評價部(以下簡稱評價部)5、文檔特征信息保存部6、文檔文件登記部7、文檔文件保存部8、文檔文件顯示部9。掃描文件取得部1掃描記錄有文檔的記錄介質(zhì),并取得掃描圖像,通過解析掃描圖像取得包括文檔特征信息的文檔文件。記錄有文檔的記錄介質(zhì)包括例如記錄有文檔的記錄紙張。文檔特征信息表示文檔文件中包括的文檔的特征性信息。文檔特征信息是清楚地表示例如文檔的標(biāo)題等文檔內(nèi)容的信息。文檔文件包括字符信息、字符的布局信息。文檔文件例如可包括PDF(portabledocumentformat)文件等。文檔種類識別部2從掃描文件取得部1輸入文檔文件,并識別文檔文件種類。文檔文件種類包括例如專利申請的申請委托書、專利申請的原稿校閱委托書、用于應(yīng)對專利申請的駁回理由的討論委托書(駁回應(yīng)對討論委托書)。根據(jù)各種類,文檔文件的文檔特征信息各不相同。根據(jù)各種類,文檔文件的格式各不相同。根據(jù)文檔文件的各種類,格式分別是規(guī)定格式。文檔文件按種類分別包括各種文檔特征信息。例如申請委托書的文檔特征信息包括例如A國申請委托書、B國申請委托書、C國申請委托書。圖2是例如A國申請委托書Fl格式的一個示例。A國申請委托書Fl第1行寫有“申請委托”、第2行寫有“A國申請委托”。原稿校閱委托書的文檔特征信息包括例如aa專利事務(wù)所、ΙΛ專利事務(wù)所、cc專利事務(wù)所。圖3是來自例如cc專利事務(wù)所的原稿校閱委托書F2的格式的一個示例。原稿校閱委托書F2第1行寫有“年月日”、第2行寫有“...公司敬啟”、第3行寫有“cc專利事務(wù)所”。駁回應(yīng)對討論委托書例如包括有需要授權(quán)、不需要授權(quán)、其他。需要授權(quán)表示需要實現(xiàn)專利申請的授權(quán)。不需要授權(quán)表示不需要考慮專利申請的授權(quán)。圖4是例如駁回應(yīng)對討論委托書F3的格式的一個示例。駁回應(yīng)對討論委托書F3在其中央部記載有需要確認(rèn)(check)的文字,例如需要授權(quán)、不需要授權(quán)、以及其他確認(rèn)項。提取部3通過文檔種類識別部2接收來自掃描文件獲取部1的文檔文件,并提取文檔文件中包括的表示文檔的特征性信息的文檔特征信息。提取部3可對提取方法保存部4進(jìn)行信息讀取。在提取方法保存部4中保存用于從文檔文件中提取文檔特征信息的提取方法信息100。提取方法信息100按文檔文件種類定義多種方法。圖5是提取方法信息100的示例圖。提取方法信息100成對地記錄文檔種類與文檔特征信息的提取方法。提取方法信息100按照作為文檔種類的申請委托書、原稿校閱委托書、駁回應(yīng)對討論委托書分別記錄文檔特征信息的提取方法。對于每一種文檔文件種類例如申請委托書、原稿校閱委托書、駁回應(yīng)對討論委托書,提取方法信息100記錄用于提取文檔特征信息的文檔文件中的位置信息。申請委托書的提取方法例如是“取得第2行的文字”。原稿校閱委托書的提取方法例如是“取得第3行的文字”。駁回應(yīng)對討論委托書的提取方法例如是“取得文檔中央的已經(jīng)被確認(rèn)的語句”。提取部3根據(jù)提取方法保存部4保存的提取方法信息100從文檔文件中提取文檔特征信息。具體地說,提取部3將提取方法保存部4中保存的提取方法信息100中記錄的全部方法應(yīng)用于文檔文件,并提取文檔特征信息。提取部3依次設(shè)定文檔文件是多個種類中的一種,按照這些依次設(shè)定的順序,基于與種類對應(yīng)的方法,從文檔文件中提取文檔特征信息。提取部3依次設(shè)定為例如申請委托書、原稿校閱委托書、駁回應(yīng)對討論委托書,通過與依次設(shè)定的申請委托書、原稿校閱委托書、駁回應(yīng)對討論委托書對應(yīng)的方法,從文檔文件中提取文檔特征信息。評價部5評價通過提取部3提取的文檔特征信息的妥當(dāng)性。評價部5根據(jù)特征信息保存部6中保存的參照文檔特征信息評價通過提取部3提取的文檔特征信息的妥當(dāng)性。評價部5可對特征信息保存部6讀取信息。在特征信息保存部6中,按照多個種類保存參照文檔特征信息101,該參照文檔特征信息101為作為通過提取部3提取的文檔特征信息的參照的文檔特征信息。圖6是在特征信息保存部6中保存的參照文檔特征信息101的示意圖。與例如多個文檔文件種類的每一種對應(yīng)地分別定義參照文檔特征信息101。參照文檔特征信息101成對地定義文檔種類和作為參照的文檔特征信息。作為文檔文件種類,參照文檔特征信息101記錄申請委托書、原稿校閱委托書、駁回應(yīng)對討論委托書。在申請委托書的文檔特征信息中記錄例如A國申請委托書、B國申請委托書、C國申請委托書。在原稿校閱委托書的文檔特征信息中記錄例如aa專利事務(wù)所、ΙΛ專利事務(wù)所、cc專利事務(wù)所。在駁回應(yīng)對討論委托書的文檔特征信息中定義例如有需要授權(quán)、不需要授權(quán)、其他。評價部5將在特征信息保存部6中保存的全部參照文檔特征信息101應(yīng)用于通過提取部3提取的文檔特征信息,并評價文檔特征信息的妥當(dāng)性。如上所述,文檔種類識別部2識別文檔文件種類。在這種情況下,根據(jù)通過評價部5評價的妥當(dāng)性的結(jié)果,若文檔特征信息有妥當(dāng)性,則文檔種類識別部2識別與通過提取部3提取的文檔特征信息對應(yīng)的文檔文件種類。文檔文件登記部7將通過文檔種類識別部2識別的文檔文件種類、文檔文件以及文檔特征信息相關(guān)聯(lián)地保存在文檔文件保存部8中。文檔文件顯示部9將文檔文件保存部中8保存的文檔文件單獨顯示給外部,或者將文檔文件保存部中8保存的文檔文件與文檔特征信息兩者同時顯示給外部。文檔文件顯示部9將文檔文件保存部8中保存的文檔文件和文檔文件相關(guān)聯(lián)的文檔文件名、文檔文件種類或文檔特征信息一起顯示給用戶。圖7是適用了本裝置的文檔系統(tǒng)(documentsystem)10的構(gòu)成圖。文件系統(tǒng)10包括數(shù)字復(fù)合裝置(以下稱為MFP)11。MFP11作為記錄有文檔的記錄介質(zhì)的復(fù)印機、在記錄介質(zhì)上打印從外部發(fā)送來的圖像數(shù)據(jù)的打印機等進(jìn)行動作。MFP11對作為文檔種類的申請委托書、原稿校閱委托書、駁回應(yīng)對討論委托書這三種進(jìn)行處理。MFP11與掃描器12、控制面板13相連接。掃描器12掃描記錄有文檔的記錄介質(zhì)并取得掃描圖像??刂泼姘?3例如接受用戶的操作并設(shè)定MFP11的各種動作。MFP11通過局域網(wǎng)(LAN)14與文件處理服務(wù)器15、文件管理服務(wù)器16、客戶個人電腦(以下稱為客戶PC)17相連接。文件處理服務(wù)器15例如對文檔文件進(jìn)行各種處理。文件管理服務(wù)器16例如管理文檔文件??蛻鬚C17例如是客戶使用的個人電腦。MFP11包括掃描文件獲取部1。文件處理服務(wù)器15包括文檔種類識別部2、提取部3、提取方法保存部4、評價部5、文檔特征信息保存部6。文件管理服務(wù)器16包括文檔文件登記部7、文檔文件保存部8、文檔文件顯示部9??蛻鬚C17包括文檔文件顯示部9??蛻鬚C17具有Web瀏覽器??蛻鬚C17接受用戶的操作,可通過Web瀏覽器訪問由文檔文件顯示部9提供的文檔文件以及與文檔文件相關(guān)聯(lián)的文檔文件種類或文檔特征信息??蛻鬚C17可訪問文檔文件保存部8,可閱覽文檔文件以及與文檔文件相關(guān)聯(lián)的文檔文件種類或文檔特征信息。MFP11、文檔處理服務(wù)器15、文檔管理服務(wù)器16、客戶PC17通過局域網(wǎng)15相連接,可相互進(jìn)行數(shù)據(jù)的發(fā)送和接收。文件處理服務(wù)器15具有程序存儲器15m。程序存儲器15m存儲可在文檔處理服務(wù)器15上安裝的電腦可讀取的文檔文件種類識別程序。文檔文件種類識別程序根據(jù)提取方法保存部4中保存的提取方法信息100,從文檔文件中提取表示文檔文件中包含的文檔的特征性信息的文檔特征信息,根據(jù)特征信息保存部6中保存的參照文檔特征信息101評價提取的文檔特征信息的妥當(dāng)性,若文檔特征信息有妥當(dāng)性,則與提取的文檔特征信息相對應(yīng)的文檔文件種類進(jìn)行識別。提取方法信息100記載用于從文檔文件提取文檔特征信息的基于文檔文件種類的多種方法。參照文檔特征信息101按照多個種類作為用于應(yīng)該從文檔文件提取的文檔特征信息的參照。另外,文檔文件種類識別程序也可以在文檔處理服務(wù)器15或文檔管理服務(wù)器16兩者的一者中或分散至兩者并進(jìn)行存儲。接下來,參照圖8所示的文檔文件種類識別流程圖,對掃描記錄有文檔的記錄介質(zhì),并將掃描文件登記在文檔文件保存部8的處理進(jìn)行說明。掃描器12掃描記錄有文檔的記錄介質(zhì)、例如寫有圖3所示的EF公司敬啟、來自cc專利事務(wù)所的原稿校閱的委托的記錄介質(zhì),并取得掃描圖像(ACTl)。掃描文件取得部1接收掃描器12取得的掃描圖像,解析掃描圖像并通過包括文檔特征信息的文檔文件。具體而言,掃描文件通過部1對掃描圖像實施光學(xué)式字符識別(OCR)處理(ACT2)。掃描文件取得部1實施OCR處理,獲取字符位于掃描圖像中的何處這樣的布局信息,并取得記載了什么這樣的字符信息等。掃描文件取得部1綜合掃描圖像、布局信息、字符信息,并制作成文檔文件。文檔文件的文件格式例如是PDF文件。提取部3為了對文檔特征信息的提取方法的使用次數(shù)進(jìn)行計數(shù)而設(shè)定i=1(ACT3)。提取部3依次設(shè)定文檔文件為多個種類中的一種,按照這些依次設(shè)定的順序,基于與所設(shè)定的該種類相對應(yīng)的方法從文檔文件中提取文檔特征信息。例如提取部3將如圖5所示的提取方法信息100中例如申請委托書設(shè)為第i=1、將原稿校閱委托書設(shè)為第i=2、將駁回應(yīng)對討論委托書設(shè)為第i=3。對于文檔種類未知的文檔文件,提取部3應(yīng)用與提取方法保存部4中保存的所有文檔種類對應(yīng)的提取方法(ACT4-6)。以下說明提取方法。盡管作為對象的文檔文件的文檔種類未知,提取方法暫時設(shè)定其為某一文檔種類,并針對所設(shè)定的文檔種類應(yīng)用提取方法。提取部3將第i=1的申請委托書的提取方法應(yīng)用至文檔文件,并提取文檔特征信息(ACT4)。也就是說,提取部3設(shè)定文檔文件為申請委托書,并應(yīng)用與申請委托書對應(yīng)的提取方法。申請委托書的提取方法如圖5所示,例如為“獲取第2行文字”。提取部3根據(jù)提取方法“獲取第2行文字”,從圖3所示的原稿校閱委托書F2的文檔文件取得第2行文字。提取部3取得“EF公司敬啟”。提取部3判斷是否已將全部的提取方法(i=3)應(yīng)用于圖5所示的原稿校閱委托書F2的文檔文件(ACT5)。其判斷的結(jié)果是已將第i=1的申請委托書的提取方法應(yīng)用于文檔文件,提取部3使i=i+1結(jié)束計數(shù),并再次返回ACT4,將第i=2的原稿校閱委托書的提取方法應(yīng)用于文檔文件,并提取文檔特征信息。也就是說,提取部3設(shè)定文檔文件為原稿校閱委托書,并應(yīng)用與原稿校閱委托書對應(yīng)的提取方法。原稿校閱委托書的提取方法如圖5所示,是例如“獲取第3行文字”。提取部3根據(jù)提取方法“獲取第3行文字”,從圖3所示的原稿校閱委托書F2的文檔文件取得第3行文字。提取部3取得文字列“cc專利事務(wù)所”。提取部3再次判斷是否已將全部的提取方法(i=3)應(yīng)用于圖5所示的原稿校閱委托書F2的文檔文件(ACT5)。其判斷的結(jié)果是已將第i=2的原稿校閱委托書的提取方法應(yīng)用于文檔文件,因此,提取部3使i=i+1結(jié)束計數(shù),并再次返回ACT4,將第i=3的駁回應(yīng)對討論委托書的提取方法應(yīng)用于文檔文件并提取文檔特征信息。也就是說,提取部3設(shè)定文檔文件為駁回應(yīng)對討論委托書,并應(yīng)用與駁回應(yīng)對討論委托書對應(yīng)的提取方法。駁回應(yīng)對討論委托書的提取方法如圖5所示例如是“獲取文檔中央的已經(jīng)被確認(rèn)的文字”。提取部3對如圖3所示的原稿校閱委托書F2的文檔文件實行“獲取文檔中央的已經(jīng)被確認(rèn)的文字”。圖3所示的原稿校閱委托書F2的文檔文件不存在已經(jīng)被確認(rèn)的文字。提取部3獲得表示原稿校閱委托書F2的文檔文件中不存在“文檔中央的已經(jīng)被確認(rèn)的文字”的“無效(null)”的結(jié)果。提取部3再次判斷是否已將全部的提取方法(i=3)應(yīng)用于圖3所示的原稿校閱委托書F2的文檔文件(ACT5)。其判斷的結(jié)果是已將第i=3的駁回應(yīng)對討論委托書的提取方法應(yīng)用于文檔文件,提取部3判斷已將全部的提取方法(i=3)應(yīng)用于圖3所示的原稿校閱委托書F2的文檔文件。圖9是通過提取部3提取的文檔特征信息的一個示例。在設(shè)定文檔文件為申請委托書的情況下,提取了“EF公司敬啟”。在設(shè)定文檔文件為原稿校閱委托書的情況下,提取了文字列“cc專利事務(wù)所”。在設(shè)定文檔文件為駁回應(yīng)對討論委托書的情況下,是“null”。評價部5評價通過提取部3提取的文檔特征信息的妥當(dāng)性。評價部5根據(jù)特征信息保存部6中保存的如圖6所示的參照文檔特征信息101,評價通過提取部3提取的文檔特征信息的妥當(dāng)性(ACT7)。這種情況下,評價部5將特征信息保存部6中保存的全部參照文檔特征信息101應(yīng)用于通過提取部3提取的文檔特征信息,并評價文檔特征信息的妥當(dāng)性。評價部5評價在設(shè)定如圖9所示的原稿校閱委托書F2的文檔文件為申請委托書的情況下獲得的“EF公司敬啟”的字符列是否妥當(dāng)。參照圖6所示的參照文檔特征信息101,申請委托書的文檔特征信息應(yīng)該是A國申請委托、B國申請委托、C國申請委托的三者之一。另一方面,實際取得的文檔特征信息如圖9所示是“EF公司敬啟”,與A國申請委托、B國申請委托、C國申請委托的任一個都不符合。因此,評價部5將設(shè)定原稿校閱委托書F2的文檔文件為申請委托書并提取的“EF公司敬啟”的文檔特征信息評價為不妥當(dāng)。評價部5評價在設(shè)定如圖9所示的原稿校閱委托書F2的文檔文件為原稿校閱委托書的情況下獲得的“cc專利事務(wù)所”的字符列是否妥當(dāng)。參照圖6所示的參照文檔特征信息101,原稿校閱委托書的文檔特征信息應(yīng)該是aa專利事務(wù)所、bb專利事務(wù)所、cc專利事務(wù)所的三者之一。另一方面,實際獲得的文檔特征信息如圖9所示是“cc專利事務(wù)所”,符合aa專利事務(wù)所、bb專利事務(wù)所、cc專利事務(wù)所中的一個。因此,評價部5將設(shè)定原稿校閱委托書F2的文檔文件為原稿校閱委托書而提取的“cc專利事務(wù)所”的文檔特征信息評價為妥當(dāng)。評價部5評價在設(shè)定如圖9所示的原稿校閱委托書F2的文檔文件為駁回應(yīng)對討論委托書的情況下獲得的“null”字符列是否妥當(dāng)。參照如圖6所示參照文檔特征信息101,駁回應(yīng)對討論委托書的文檔特征信息應(yīng)該是需要授權(quán)、不需要授權(quán)、其他這三者之一。另一方面,實際取得的文檔特征信息如圖9所示是“null”,不符合需要授權(quán)、不需要授權(quán)、其他中的任一個。因此,評價部5將設(shè)定原稿校閱委托書F2的文檔文件為駁回應(yīng)對討論委托書而提取的“null”文檔特征信息評價為不妥當(dāng)。其結(jié)果是,評價部5評價在設(shè)定原稿校閱委托書F2的文檔文件為原稿校閱委托書的情況下獲得的“cc專利事務(wù)所”的字符列為妥當(dāng)。文檔種類識別部2接受來自評價部5的評價結(jié)果,并確定原稿校閱委托書F2的文檔文件的文檔種類及文檔特征信息(ACT8)。評價設(shè)定了文檔種類的情況下的文檔特征信息的妥當(dāng)性的結(jié)果是,只有將文檔文件設(shè)定為原稿校閱委托書的情況下,才判斷為妥當(dāng)?shù)摹N臋n種類識別部2確定原稿校閱委托書F2的文檔文件的文檔種類為原稿校閱委托書、文檔特征信息為cc專利事務(wù)所。文檔文件登記部7將文檔種類識別部2識別的文檔文件種類、文檔文件以及文檔特征信息相關(guān)聯(lián)地保存在文檔文件保存部8(ACT9)中。圖10是文檔文件保存部8中保存的文檔文件保存信息102的一例示意圖。文檔文件保存信息102將文檔文件名、文檔種類以及文檔特征信息相關(guān)聯(lián)地進(jìn)行保存。文檔文件顯示部9將在文檔文件保存部8中保存的文檔文件和與文檔文件相關(guān)聯(lián)的文檔文件名、文檔文件種類或文檔特征信息一起顯示給用戶。如上所述,根據(jù)上述實施方式,根據(jù)提取方法信息100從文檔文件中提取文檔文件包含的文檔特征信息,并根據(jù)參照文檔特征信息101評價提取的文檔特征信息的妥當(dāng)性,若文檔特征信息有妥當(dāng)性,則識別對應(yīng)于被提取的文檔特征信息的文檔文件種類。因此,即使取入文檔種類未知的記錄介質(zhì)的文檔文件,也可同時確定文檔文件的文檔種類與文檔特征信息。對于文檔文件的文檔種類與文檔特征信息的的確定,不用經(jīng)過判定文檔文件的文檔種類、其后提取與文檔種類對應(yīng)的特征信息這樣兩個階段的步驟。文檔文件顯示部9可接受用戶的操作,并將文檔文件保存部8中保存的文檔文件名、文檔文件種類、文檔特征信息顯示給用戶。用戶除了知道文檔文件名,還可以知道文檔文件種類、文檔特征信息。上述實施方式可進(jìn)行如下的變形。圖11是圖8所示的文檔文件種類識別流程圖的變形例。對與圖8所示的文檔文件種類識別流程圖的不同之處進(jìn)行說明。提取部3將第i=1的申請委托書的提取方法應(yīng)用于文檔文件,并提取文檔特征信息(ACT4)。評價部5根據(jù)特征信息保存部6中保存的圖6所示的參照文檔特征信息101,評價由提取部3提取的文檔特征信息的妥當(dāng)性(ACT7)。提取部3將全部的提取方法(i=3)應(yīng)用于圖5所示的原稿校閱委托書F2的文檔文件,并判斷是否評價了通過全部的提取方法提取的文檔特征信息的妥當(dāng)性(ACT5)。判斷的結(jié)果是,如果將全部的提取方法(i=3)應(yīng)用于文檔文件、且未評價妥當(dāng)性,則提取部3使i=i+1結(jié)束計數(shù),并再次返回ACT4,將下一個原稿校閱委托書的提取方法應(yīng)用于文檔文件,并提取文檔特征信息。判斷的結(jié)果是,如果將全部的提取方法(i=3)應(yīng)用于文檔文件、且已評價妥當(dāng)性,則文檔種類識別部2接受來自評價部5的評價結(jié)果,并確定原稿校閱委托書F2的文檔文件的文檔種類及文檔特征信息(ACT8)。文檔文件種類不限于例如申請委托書、原稿校閱委托書、駁回應(yīng)對討論委托書,也可應(yīng)用于各種委托書等的識別。申請委托書、原稿校閱委托書、駁回應(yīng)對討論委托書等各種文檔文件中的文檔特征信息不限于圖2所示的A國申請委托書、B國申請委托書、C國申請委托書.....aa專利事務(wù)所、bb專利事務(wù)所等,也可使用文檔文件中其他的特征性信息。文檔文件的文檔特征信息的提取方法也可根據(jù)各種類的各自格式變更文檔文件中的提取位置。文檔文件的格式并不限定于規(guī)定格式。例如,從格式中提取特征信息時,對規(guī)定的語句,將前后的在字符列作為特征信息并提取。因此,可形成不依賴于文檔中的字符的絕對位置的提取方法。也可從非定型格式中提取特征信息。11盡管說明了上述實施方式,但這些實施方式僅僅是通過例子來表達(dá)的,并非有意限制發(fā)明的范圍。實際上,這里所說明的實施方式可以多種其他形式來實現(xiàn)。而且,可以對這里所說明的實施方式做出各種省略、替代與改變,但并不與本發(fā)明的思想有所區(qū)別。附加的聲明及其等價體意在包括那些屬于本發(fā)明的范圍和思想之中的形式或改動。權(quán)利要求1.一種文檔文件種類識別裝置,包括提取部,用于提取表示文檔文件中包含的文檔的特征性信息的文檔特征信息;評價部,用于評價所述提取部所提取的所述文檔特征信息的妥當(dāng)性;以及文檔種類識別部,當(dāng)所述文檔特征信息具有妥當(dāng)性時,所述文檔種類識別部識別與所述提取部所提取的所述文檔特征信息相對應(yīng)的所述文檔文件的種類。2.根據(jù)權(quán)利要求1所述的文檔文件種類識別裝置,其中,所述文檔文件有多個種類,各種類的所述文檔特征信息互不相同,所述文檔文件種類識別裝置還包括用于保存提取方法信息的提取方法保存部,所述提取方法信息記載了用于從所述文檔文件提取所述文檔特征信息的、按所述文檔文件的種類而不同的多種方法,其中,所述提取部根據(jù)所述提取方法保存部中保存的所述提取方法信息,從所述文檔文件中提取所述文檔特征信息。3.根據(jù)權(quán)利要求1所述的文檔文件種類識別裝置,其中,所述文檔文件有多個種類,各種類的所述文檔特征信息互不相同,所述文檔文件種類識別裝置還包括特征信息保存部,對應(yīng)所述多個種類的各個種類,保存應(yīng)被所述提取部提取的所述文檔特征信息的參照文檔特征信息,其中,所述評價部根據(jù)在所述特征信息保存部中保存的所述參照文檔特征信息,評價所述提取部所提取的所述文檔特征信息的妥當(dāng)性。4.根據(jù)權(quán)利要求1所述的文檔文件種類識別裝置,還包括文件取得部,掃描記錄有文檔的記錄介質(zhì)以取得掃描圖像,并解析所述掃描圖像以取得包括所述文檔特征信息的所述文檔文件;文檔文件保存部;文檔文件登記部,將所述文檔種類識別部所識別的所述文檔文件的種類、所述文檔文件、所述文檔特征信息相關(guān)聯(lián)地保存在所述文檔文件保存部;以及文檔文件顯示部,將所述文檔文件保存部中保存的所述文檔文件單獨進(jìn)行顯示,或者將所述文檔文件保存部中保存的所述文檔文件與所述文檔特征信息兩者一起顯示。5.根據(jù)權(quán)利要求2所述的文檔文件種類識別裝置,其中,所述文檔文件有多個種類,各種類的所述文檔特征信息互不相同,所述提取方法信息對每種所述文檔文件的種類記載用于提取所述文檔特征信息的所述文檔文件中的位置信息。6.根據(jù)權(quán)利要求2所述的文檔文件種類識別裝置,其中,所述提取部將所述提取方法保存部中存儲的所述提取方法信息中記載的所有所述方法應(yīng)用于所述文檔文件,并提取所述文檔特征信息。7.根據(jù)權(quán)利要求2所述的文檔文件種類識別裝置,其中,所述提取部依次假設(shè)所述文檔文件是所述多個種類中的一種,按照這些依次假設(shè)的種類的順序,根據(jù)與假設(shè)的所述種類對應(yīng)的所述方法,從所述文檔文件中提取所述文檔特征fn息ο8.根據(jù)權(quán)利要求2所述的文檔文件種類識別裝置,其中,所述評價部將所述特征信息保存部中保存的全部所述參照文檔特征信息應(yīng)用于所述文檔特征信息提取部所提取的所述文檔特征信息,并評價所述文檔特征信息的妥當(dāng)性。9.根據(jù)權(quán)利要求3所述的文檔文件種類識別裝置,其中,所述文檔文件有多個種類,各種類的所述文檔特征信息互不相同,與所述文檔文件的所述多個種類中的每一種相對應(yīng)地分別記載所述參照文檔特征信肩、ο10.根據(jù)權(quán)利要求1所述的文檔文件種類識別裝置,其中,所述文檔文件有多個種類,各種類的所述文檔特征信息互不相同,對于所述多個種類的所述文檔文件中的每一種,多個所述文檔文件的各所述文檔特征信息的格式分別為固定格式。11.一種文檔文件種類識別方法,包括提取表示文檔文件中包含的文檔的特征性信息的文檔特征信息;評價所提取的所述文檔特征信息的妥當(dāng)性;以及在所述文檔特征信息具有妥當(dāng)性的情況下,識別與所提取的所述文檔特征信息相對應(yīng)的所述文檔文件的種類。12.根據(jù)權(quán)利要求11所述的文檔文件種類識別方法,其中,所述文檔文件有多個種類,各種類的所述文檔特征信息互不相同,所述文檔文件種類識別方法還包括將提取方法信息保存至提取方法保存部,所述提取方法信息記載了用于從所述文檔文件提取所述文檔特征信息的、按所述文檔文件的種類而不同的多種方法,在所述文檔文件種類識別方法中,所述文檔特征信息的提取是指根據(jù)所述提取方法保存部中保存的所述提取方法信息,從所述文檔文件中提取所述文檔特征信息。13.根據(jù)權(quán)利要求12所述的文檔文件種類識別方法,其中,所述提取方法信息對每種所述文檔文件的種類記載用于提取所述文檔特征信息的所述文檔文件中的位置信息。14.根據(jù)權(quán)利要求11所述的文檔文件種類識別方法,其中,所述文檔文件有多個種類,各種類的所述文檔特征信息互不相同,所述文檔文件種類識別方法還包括按所述多個種類將應(yīng)被提取的所述文檔特征信息的參照文檔特征信息保存至特征信息保存部,在所述文檔文件種類識別方法中,所述妥當(dāng)性的評價是指根據(jù)所述特征信息保存部中保存的所述參照文檔特征信息,評價提取的所述文檔特征信息。15.根據(jù)權(quán)利要求14所述的文檔文件種類識別方法,其中,與所述多個種類的文檔文件的每一種相對應(yīng)地分別記載所述參照文檔特征信息。16.根據(jù)權(quán)利要求11所述的文檔文件種類識別方法,還包括掃描記錄有文檔的記錄介質(zhì)并取得掃描圖像;解析所述掃描圖像,并取得包括所述文檔特征信息的所述文檔文件;將識別出的所述文檔文件的種類、所述文檔文件和所述文檔特征信息相關(guān)聯(lián)地保存至文檔文件保存部;以及將所述文檔文件保存部中保存的所述文檔文件單獨進(jìn)行顯示,或者將所述文檔文件保存部中保存的所述文檔文件與所述文檔特征信息兩者一起顯示。17.根據(jù)權(quán)利要求12所述的文檔文件種類識別方法,其中,所述文檔特征信息的提取是將所述提取方法保存部中存儲的所述提取方法信息中記載的所有所述方法應(yīng)用于所述文檔文件,并提取所述文檔特征信息。18.根據(jù)權(quán)利要求12所述的文檔文件種類識別方法,其中,所述文檔特征信息的提取是依次假設(shè)所述文檔文件是所述多個種類中的一種,按照這些依次假設(shè)的種類的順序,根據(jù)與假設(shè)的所述種類對應(yīng)的所述方法,從所述文檔文件中提取所述文檔特征信息。19.根據(jù)權(quán)利要求14所述的文檔文件種類識別方法,其中,所述妥當(dāng)性的評價是將所述特征信息保存部中保存的全部所述參照文檔特征信息應(yīng)用于提取的所述文檔特征信息,并評價所述文檔特征信息的妥當(dāng)性。全文摘要本發(fā)明涉及一種文檔文件種類識別裝置以及文檔文件種類識別方法。該文檔文件種類識別裝置包括提取部,用于提取表示文檔文件中包含的文檔的特征性信息的文檔特征信息;評價部,用于評價所述文檔特征信息提取部所提取的所述文檔特征信息的妥當(dāng)性;以及文檔種類識別部,當(dāng)所述文檔特征信息具有妥當(dāng)性時,所述文檔種類識別部識別與所述文檔特征信息提取部所提取的所述文檔特征信息相對應(yīng)的所述文檔文件的種類。文檔編號G06K9/20GK102054171SQ20101029291公開日2011年5月11日申請日期2010年9月20日優(yōu)先權(quán)日2009年10月30日發(fā)明者富沢肇申請人:東芝泰格有限公司,株式會社東芝