專利名稱:文檔處理裝置、文檔處理方法及記錄其程序的存儲介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于對紙件文檔進行數(shù)字化并進行存儲的技術(shù),更加具體地說涉及這樣的對紙件文檔進行數(shù)字化和存儲的技術(shù),其為每篇紙件文檔附加唯一的名稱。
背景技術(shù):
紙件文檔(此后也稱作“文檔”)是用于傳播和記錄信息的重要介質(zhì),但其具有的問題包括需要用于存儲的空間例如檔案庫。此外,當(dāng)將信息記錄在紙件文檔中并進行存儲時,如果日后需要記錄在那些紙件文檔中的信息,則必須在存儲于文檔庫和類似地方的多個紙件文檔中找出記錄有期望信息的紙件文檔。換句話說,從操作效率角度考慮,在紙件文檔中記錄和存儲信息是不理想的。
在這樣的背景下,對紙件文檔進行數(shù)字化和存儲就變得非常普遍。具體地,使用掃描儀或類似裝置讀取與紙件文檔中的圖像相對應(yīng)的圖像、將與每個紙件文檔的圖像相應(yīng)的圖像數(shù)據(jù)(之后稱作“頁面圖像數(shù)據(jù)”)轉(zhuǎn)換成文件并將這些文件存儲在類似硬盤的存儲設(shè)備中已經(jīng)變得非常普遍。
然而,當(dāng)將文件寫入到類似硬盤的設(shè)備時,需要為每個文件附加一個唯一的名稱(此后也稱作“文件名”),該過程一般是如下進行的??筛鶕?jù)用戶預(yù)先指定的信息(例如,使用鍵盤或類似裝置輸入的信息,或者手工輸入的信息)確定文件名,可使用缺省的字符串加序列號例如“Scan1,Scan2,……”或者使用表示掃描日期或時間的字符串來產(chǎn)生文件名。
然而,如果用戶被迫預(yù)先確定文件名,則這將出現(xiàn)這樣的問題當(dāng)對大量紙件文檔成批數(shù)字化時將給用戶帶來非常大的負擔(dān)。另一方面,如果使用序列號、日期等自動產(chǎn)生文件名,則即使在對大量紙件文檔進行數(shù)字化時也將不會出現(xiàn)該問題。然而,因為以這種方式附加的文件名并不表示(例如)與所述文件相對應(yīng)的紙件文檔的內(nèi)容,所以在日后檢索包含所需信息的文件時會發(fā)生需要檢查每個文件的內(nèi)容這樣的極大不便。
發(fā)明內(nèi)容
本發(fā)明就是鑒于上面的情形做出的,并提供了一種這樣的技術(shù),其允許根據(jù)其內(nèi)容為紙件文檔附加名稱,而且在對紙件文檔進行數(shù)字化和保存時不會給用戶帶來負擔(dān)。
為了解決上述問題,本發(fā)明提供了一種文檔處理裝置,包括輸入單元,用于輸入與文檔的頁面的圖像相對應(yīng)的頁面圖像數(shù)據(jù);提取單元,其分析通過輸入單元輸入的頁面圖像數(shù)據(jù),確定與該頁面圖像數(shù)據(jù)相對應(yīng)的文檔中包含的每個項目的內(nèi)容,并提取項目數(shù)據(jù),所述項目數(shù)據(jù)是表示所述內(nèi)容的字符串;產(chǎn)生單元,用于鏈接由提取單元提取的項目數(shù)據(jù)并產(chǎn)生名稱數(shù)據(jù),所述名稱數(shù)據(jù)是表示將被附加于所述文檔上的名稱的字符串;和寫入單元,其將由產(chǎn)生單元產(chǎn)生的名稱數(shù)據(jù)和由輸入單元輸入的頁面圖像數(shù)據(jù)相關(guān)聯(lián)并將名稱數(shù)據(jù)和頁面圖像數(shù)據(jù)寫入存儲器。
根據(jù)該文檔處理裝置,與文檔中的頁面的圖像相對應(yīng)的頁面圖像數(shù)據(jù)和與所述文檔的內(nèi)容相對應(yīng)的名稱數(shù)據(jù)被彼此關(guān)聯(lián)并被寫入到所述存儲裝置。
下面將根據(jù)附圖詳細說明本發(fā)明的實施例,在附圖中圖1為表示根據(jù)本發(fā)明第一實施例的配有文檔處理裝置110的文檔數(shù)字化系統(tǒng)的整體結(jié)構(gòu)的一個示例的方框圖;圖2為表示文檔處理裝置110的硬件結(jié)構(gòu)的一個示例的示圖;圖3為表示通過文檔處理裝置110的控制單元200按照紙件文檔數(shù)字化軟件執(zhí)行的紙件文檔數(shù)字化處理的流程的流程圖;
圖4為表示由文檔處理裝置110提取的項目數(shù)據(jù)和根據(jù)該項目數(shù)據(jù)產(chǎn)生的名稱數(shù)據(jù)之間的關(guān)系的表;圖5為表示通過文檔處理裝置的控制單元200按照第二變型例執(zhí)行的紙件文檔數(shù)字化處理的流程的流程圖;圖6為表示按照第二變型例的文檔處理裝置的非易失性存儲單元220b中的目錄結(jié)構(gòu)的一個示例的視圖;圖7表示存儲在根據(jù)第三變型例的文檔處理裝置的非易失性存儲單元220b中的重要性等級表的一個示例;圖8為表示由根據(jù)第三變型例的文檔處理裝置的控制單元200執(zhí)行的紙件文檔數(shù)字化處理的流程的流程圖;圖9表示存儲在根據(jù)第四變型例的文檔處理裝置的非易失性存儲單元220b中的項目列表的一個示例;圖10為表示由依據(jù)第四變型例的文檔處理裝置的控制單元200執(zhí)行的紙件文檔數(shù)字化處理的流程的流程圖。
具體實施例方式
下面將參照
根據(jù)本發(fā)明的實施例。
A結(jié)構(gòu)圖1為表示根據(jù)本發(fā)明第一實施例的配有文檔處理裝置110的文檔數(shù)字化系統(tǒng)10的結(jié)構(gòu)的一個示例的方框圖。圖1中的圖像讀取裝置120例如是配有ADF(自動文檔進給器)或其它類型的自動紙張進給機構(gòu)的掃描儀裝置,其一次一頁地讀取設(shè)置在ADF中的紙件文檔并將與讀取的圖像相應(yīng)的頁面圖像數(shù)據(jù)通過通信線路130(例如LAN(局域網(wǎng)))傳送給文檔處理裝置110。注意,雖然在本實施例中描述了通信線路130為LAN這樣一種情況,當(dāng)然它也可以包括WAN(廣域網(wǎng))、互聯(lián)網(wǎng),等等。還應(yīng)注意,雖然在本實施例中描述了將文檔處理裝置110和圖像讀取裝置120構(gòu)造為單獨的硬件部件,但它們當(dāng)然也可以構(gòu)造為單個的硬件部件。在這樣一個實施例中,通信線路130為連接單個硬件部件內(nèi)的文檔處理裝置110和圖像讀取裝置120的內(nèi)部總線。
圖1中的文檔處理裝置110用于將從圖像讀取裝置120傳送來的頁面圖像數(shù)據(jù)轉(zhuǎn)換成文件、對文件附加唯一的名稱、并存儲和積累文件,其具有如圖2所示的結(jié)構(gòu)。如圖2所示,文檔處理裝置110包括控制單元200、通信接口單元210、存儲單元220和總線230,所述總線230用于在這些組成部件之間對數(shù)據(jù)的傳送和接收起媒介作用。
控制單元200例如是CPU(中央處理單元),其通過執(zhí)行存儲在下述的存儲單元220中的各種軟件程序來控制文檔處理裝置110的各個單元。通信接口單元210通過通信線路130與圖像讀取裝置120相連接,并通過通信線路130接收從圖像讀取裝置120發(fā)送的頁面圖像數(shù)據(jù)并將它傳送給控制單元200。換句話說,通信接口單元210用作用于輸入從頁面讀取裝置120發(fā)送的頁面圖像數(shù)據(jù)的輸入單元。
如圖2所示,存儲單元220包括易失性存儲單元220a和非易失性存儲單元220b。易失性存儲單元220a例如是RAM(隨機存取存儲器),并被用作控制單元200的工作區(qū)域,所述控制單元按照后文將描述的各種軟件程序進行操作,所述易失性存儲單元220a用作暫時存儲從通信接口單元210傳送來的頁面圖像數(shù)據(jù)的緩沖器。相反,非易失性存儲單元220b例如是硬盤,其將頁面圖像數(shù)據(jù)轉(zhuǎn)換成文件,并存儲和積聚那些文件。注意,在本實施例中描述了輸入給文檔處理裝置110的頁面圖像數(shù)據(jù)被寫入到設(shè)置在文檔處理裝置110中的存儲單元這樣一種情況,但也能夠?qū)㈨撁鎴D像數(shù)據(jù)逐個文檔地轉(zhuǎn)換成文件,并將那些文件寫入到與文檔處理裝置110分立的存儲裝置上。使控制單元200實現(xiàn)根據(jù)本實施例的文檔處理裝置110的指定功能的軟件被存儲在非易失性存儲單元220b中。存儲在非易失性存儲單元220b中的軟件的示例包括使控制單元200能夠?qū)崿F(xiàn)操作系統(tǒng)(“OS”)的OS軟件和紙件文檔數(shù)字化軟件。紙件文檔數(shù)字化軟件為這樣的軟件其根據(jù)頁面圖像數(shù)據(jù)的內(nèi)容產(chǎn)生表示附加給包括與頁面圖像數(shù)據(jù)相應(yīng)的頁面的紙件文檔的名稱的名稱數(shù)據(jù),將該名稱數(shù)據(jù)和該頁面圖像數(shù)據(jù)相關(guān)聯(lián),并使控制單元200將其寫入到非易失性存儲單元200b中。下面說明通過執(zhí)行這些軟件程序提供給控制單元200的功能。
當(dāng)文檔處理裝置110的電源(未示出)開啟時,控制單元200首先從非易失性存儲單元220b讀取OS軟件。當(dāng)根據(jù)OS軟件進行操作并實現(xiàn)OS時,控制單元200被提供了控制文檔處理裝置110的各個單元的功能,從非易失性存儲單元220b讀取其它軟件并執(zhí)行的功能等等。根據(jù)本實施例,只要OS軟件的執(zhí)行完成并且OS被實現(xiàn)時,控制單元200就從非易失性存儲單元220b讀取紙件文檔數(shù)字化軟件并執(zhí)行它。圖3為表示根據(jù)紙件文檔數(shù)字化軟件操作的控制單元200執(zhí)行的紙件文檔數(shù)字化處理的流程的流程圖。如圖3所示,為按照紙件文檔數(shù)字化軟件操作的控制單元200提供了下述三個功能。
第一個功能是用于分析通過通信接口單元210輸入的并存儲在易失性存儲單元220a中的頁面圖像數(shù)據(jù)的內(nèi)容并以字符串的形式提取項目數(shù)據(jù),所述字符串表示與所述頁面圖像數(shù)據(jù)相應(yīng)的頁面中所列舉的每個項目的內(nèi)容。第二個功能是產(chǎn)生功能,用于將通過提取功能提取的項目數(shù)據(jù)鏈接起來并以表示附加給頁面圖像數(shù)據(jù)的名稱的字符串的形式產(chǎn)生名稱數(shù)據(jù)。第三個功能是存儲功能,用于將產(chǎn)生功能產(chǎn)生的名稱數(shù)據(jù)與頁面圖像數(shù)據(jù)相關(guān)聯(lián)并將它們寫入非易失性存儲單元220b來存儲該名稱數(shù)據(jù)和該頁面數(shù)據(jù)。
如上所述,根據(jù)本實施例的文檔處理裝置的硬件機構(gòu)與普通計算機裝置的結(jié)構(gòu)相同,并且控制單元200根據(jù)存儲在非易失性存儲單元220b中的各種軟件程序所進行的操作實現(xiàn)了根據(jù)本發(fā)明的文檔處理裝置的特定功能。因此,雖然在本實施例中描述的是使用軟件模塊實現(xiàn)根據(jù)本發(fā)明的文檔處理裝置的特定功能這樣一種情況,但也可以使用提供這些功能的硬件模塊來構(gòu)造根據(jù)本發(fā)明的文檔處理裝置。具體地,可通過使用實現(xiàn)下述單元的功能的硬件模塊,并如圖3中所示的流程圖所示地聯(lián)合各硬件協(xié)同操作來構(gòu)造根據(jù)本發(fā)明的文檔處理裝置輸入單元,頁面圖像數(shù)據(jù)被從圖像讀取裝置120輸入到所述輸入單元中;提取單元,所述提取單元用于提供提取功能;產(chǎn)生單元,所述產(chǎn)生單元用于提供產(chǎn)生功能;和寫入單元,所述寫入單元使由產(chǎn)生單元產(chǎn)生的名稱數(shù)據(jù)與輸入給輸入單元的頁面圖像數(shù)據(jù)相關(guān)聯(lián)并將其寫入硬盤或其它存儲裝置。
B操作下面將參照
用于說明文檔處理裝置110的特征特性的那些操作。
首先,當(dāng)用戶在圖像讀取裝置120的ADF上放置紙件文檔并執(zhí)行預(yù)定的操作(例如按下設(shè)置在圖像讀取裝置120的操作單元上的開始按扭)時,與紙件文檔中的頁面相對應(yīng)的圖像就被圖像讀取裝置120讀取,并且通過通信線路130將與該頁面的圖像相應(yīng)的頁面圖像數(shù)據(jù)從圖像讀取裝置120發(fā)送給文檔處理裝置110。
當(dāng)通過通信接口單元210輸入了頁面圖像數(shù)據(jù)時,文檔處理裝置110的控制單元200通過以頁面圖像數(shù)據(jù)輸入的順序?qū)⑵鋵懭胍资源鎯卧?20a來存儲該頁面圖像數(shù)據(jù),直到紙件文檔中的所有頁面的頁面圖像數(shù)據(jù)都被輸入。一旦輸入了所有頁面的頁面圖像數(shù)據(jù),控制單元200根據(jù)圖3中所示的流程圖通過產(chǎn)生表示將被附加給紙件文檔的名稱的名稱數(shù)據(jù)、使該名稱數(shù)據(jù)與存儲在易失性存儲單元220a中的頁面圖像數(shù)據(jù)相關(guān)聯(lián)并將其寫入到非易失性存儲單元220b來數(shù)字化所述紙件文檔。下面參照圖3說明由控制單元200執(zhí)行的操作。
圖3為表示由控制單元200執(zhí)行的紙件文檔數(shù)字化處理的流程的流程圖。如圖3所示,控制單元200通過執(zhí)行語言分析、版面分析(layoutanalysis)或類似操作來分析存儲在易失性存儲單元220a中的所有頁面圖像數(shù)據(jù)的內(nèi)容,然后提取表示與頁面圖像數(shù)據(jù)相對應(yīng)的頁面中包含的每個項目的內(nèi)容的項目數(shù)據(jù)(步驟SA1)。下面是對輸入了旅行費用清單的紙件文檔(此后稱作“文檔A”)的一個頁面相應(yīng)的頁面圖像數(shù)據(jù)(此后稱作“頁面圖像數(shù)據(jù)A“)并且提取了圖4A中所示的項目數(shù)據(jù)的情況的說明。
接著,控制單元200將在步驟SA1中提取的項目數(shù)據(jù)鏈接起來并產(chǎn)生表示將附加給文檔A的名稱的名稱數(shù)據(jù)(步驟SA2)。根據(jù)本實施例,因為圖4A中所示的項目數(shù)據(jù)已經(jīng)在步驟SA1中進行了提取,所以對于文檔A,在步驟SA2產(chǎn)生圖4B中所示的名稱數(shù)據(jù)。
然后,控制單元200將頁面圖像數(shù)據(jù)A與在步驟SA2中產(chǎn)生的名稱數(shù)據(jù)相關(guān)聯(lián)并將其寫入非易失性存儲單元220b來存儲數(shù)據(jù)(步驟SA3)。具體地說,控制單元200將頁面圖像數(shù)據(jù)A寫入非易失性存儲單元220b的空閑區(qū)域,與此同時將名稱數(shù)據(jù)與寫入了頁面圖像數(shù)據(jù)A的區(qū)域的開始地址或表示開始地址的數(shù)據(jù)(例如i-節(jié)點號)相關(guān)聯(lián),并將名稱數(shù)據(jù)和開始地址寫入到預(yù)定的管理文件(例如路徑文件或i-節(jié)點表)中,由此存儲該頁面圖像數(shù)據(jù)。注意,雖然在本操作示例中說明了將被數(shù)字化的紙件文檔包括一個頁面的情況,但在將被數(shù)字化的紙件文檔包括多個頁面的情況下,在被數(shù)字化之后,對應(yīng)于多個頁面的頁面圖像數(shù)據(jù)被寫入空閑區(qū)域中也是可能的。
如上所述,利用根據(jù)本實施例的文檔處理裝置110,在用戶沒有執(zhí)行任何特殊操作的情況下,就能使與紙件文檔中的頁面相應(yīng)的頁面圖像數(shù)據(jù)和與紙件文檔的內(nèi)容相應(yīng)的名稱數(shù)據(jù)相關(guān)聯(lián)地存儲起來。根據(jù)本實施例的文檔處理裝置110具有這樣的效果在數(shù)字化和保存紙件文檔時,它能夠?qū)ξ臋n進行數(shù)字化并根據(jù)文檔內(nèi)容對其附加名稱,同時減小用戶的負擔(dān)。
C變型例上面詳細說明了本發(fā)明的一個實施例,但是當(dāng)然能夠如下所述地添加變化。
(C-1)第一變型例上面的實施例描述了在圖像讀取裝置120的ADF中放置單一紙件文檔的情況。然而,也可以在ADF中設(shè)置多個紙件文檔,附加與多個紙件文檔中的每一個的內(nèi)容相應(yīng)的名稱,并對這些文檔進行數(shù)字化。這可通過讓文檔處理裝置110檢測每個紙件文檔之間的邊界并在檢測到邊界之前對存儲在易失性存儲單元220a中的紙件文檔進行數(shù)字化處理(參見圖3)來實現(xiàn)。使文檔處理裝置110檢測文檔邊界的方法的示例包括插入表示文檔之間的文檔邊界的預(yù)定頁(此后稱作“邊界頁”)并根據(jù)那個邊界頁上的圖像來檢測文檔邊界的檢測文檔邊界的方法,以及表示最后頁面的標(biāo)記被附加至每個文檔最后頁面上的空白處并通過檢測與那個標(biāo)記相應(yīng)的圖像來檢測文檔邊界的檢測文檔邊界的方法。
(C-2)第二變型例在上述的實施例中,描述了通過頁面圖像數(shù)據(jù)分析獲得的所有項目數(shù)據(jù)都被鏈接并且產(chǎn)生表示附加給頁面圖像數(shù)據(jù)的名稱的名稱數(shù)據(jù)這樣一種情況。然而,也可以在排除了頁面圖像數(shù)據(jù)分析獲得的項目數(shù)據(jù)中的表示代表與頁面圖像數(shù)據(jù)相應(yīng)的文檔的類型的項目內(nèi)容的項目數(shù)據(jù)(此后稱作“類型數(shù)據(jù)”)之后產(chǎn)生名稱數(shù)據(jù)。這可通過預(yù)先在存儲單元220中存儲類型數(shù)據(jù)、與此同時使控制單元200執(zhí)行如圖5中所示的紙件文檔數(shù)字化處理而不是圖3中所示的紙件文檔數(shù)字化處理來實現(xiàn)。
圖5中所示的紙件文檔數(shù)字化處理與圖3中所示的紙件文檔數(shù)字化處理的不同之處在于在步驟SB1中,將在步驟SA1中提取的項目數(shù)據(jù)中的與類型數(shù)據(jù)相匹配的項目數(shù)據(jù)排除之后才執(zhí)行步驟SA2中的處理并產(chǎn)生名稱數(shù)據(jù)。下面對此進行詳細說明,在圖5的步驟SB1中,控制單元200為在步驟SA1中提取的每個項目數(shù)據(jù)確定它是否與存儲在非易失性存儲單元220b中的類型數(shù)據(jù)相匹配并刪除相匹配的項目數(shù)據(jù)。這使得能夠在排除與類型數(shù)據(jù)相匹配的項目數(shù)據(jù)之后產(chǎn)生名稱數(shù)據(jù)。
在排除與類型數(shù)據(jù)相匹配的項目數(shù)據(jù)之后產(chǎn)生名稱數(shù)據(jù)的原因如下。相同類型的文檔總是包括相同的類型數(shù)據(jù),所以在名稱數(shù)據(jù)中包括這種類型數(shù)據(jù)并不會對辨別特性起作用。此外,這種類型數(shù)據(jù)一般用作文件夾名,用于在根據(jù)類型進行分類和存儲文檔時執(zhí)行相關(guān)的分類,如圖6所示,所以在名稱數(shù)據(jù)中包括這種類型數(shù)據(jù)是多余的。該變型例具有這樣的效果,即其能夠排除對鑒別相同類型的文檔之間的特性不起作用的項目數(shù)據(jù)并產(chǎn)生無冗余的名稱數(shù)據(jù)。
(C-3)第三變型例在上述的實施例中,描述了鏈接由頁面圖像數(shù)據(jù)分析獲得的所有項目數(shù)據(jù)并且產(chǎn)生表示附加給頁面圖像數(shù)據(jù)的名稱的名稱數(shù)據(jù)。然而,因為每個OS一般都預(yù)先提供有關(guān)于可附加給文件的名稱的字符數(shù)量(字節(jié)數(shù))的上限值,所以在通過鏈接項目數(shù)據(jù)產(chǎn)生名稱數(shù)據(jù)時當(dāng)然能夠預(yù)先確定進行鏈接的項目數(shù)據(jù)單元的數(shù)量。更加具體地說,可以確定文檔中的每個項目的重要等級,并且通過按照重要性等級的升序或降序僅僅鏈接預(yù)定數(shù)量的通過頁面圖像數(shù)據(jù)分析所獲得的項目數(shù)據(jù)單元來產(chǎn)生名稱數(shù)據(jù)。這可如下地實現(xiàn)。
首先,將圖7中所示的重要性等級表存儲在文檔處理裝置的非易失性存儲單元220b中。表示文檔中的項目的重要性等級的重要性等級數(shù)據(jù)針對每個項目存儲在重要性等級表中,并且重要性等級數(shù)據(jù)值越高,那個項目就越重要。注意,在本實施例中描述了在非易失性存儲單元220b中預(yù)先存儲一個重要性等級表這樣一種情況,但是當(dāng)然也能夠針對不同類型的文檔存儲不同的重要性等級表。一個原因是對于不同類型的文檔,即使相同項目也可以有不同的重要性等級。
如果使控制單元200執(zhí)行圖8中所示的紙件文檔數(shù)字化處理,而不是圖3中所示的紙件文檔數(shù)字化處理,那么通過僅僅按照重要性等級降序地鏈接頁面圖像數(shù)據(jù)分析所獲得的預(yù)定數(shù)量的項目數(shù)據(jù)單元來產(chǎn)生名稱數(shù)據(jù)。圖8中的流程圖和圖3中的流程圖的不同之處在于提供步驟SC1,用于從在步驟SA1提取的項目數(shù)據(jù)中僅選擇預(yù)定數(shù)量的表示具有高重要性等級的項目內(nèi)容的項目數(shù)據(jù)單元,并且通過在上述的步驟SA2中鏈接在步驟SC1中選擇的項目數(shù)據(jù)來產(chǎn)生名稱數(shù)據(jù)。該過程的更詳細的描述是,在圖7的步驟SC1中,控制單元200查閱存儲在重要性等級表(參見圖7)中的內(nèi)容,對在步驟SA1中提取的每個項目數(shù)據(jù)單元指定與該項目數(shù)據(jù)單元相應(yīng)的項目的重要等級,并按照從最高重要性等級開始的順序僅提取預(yù)定數(shù)量的項目數(shù)據(jù)單元。例如,如果預(yù)定的數(shù)量是3,那么按照從最高重要性開始的順序鏈接三項數(shù)據(jù)單元來產(chǎn)生名稱數(shù)據(jù),所以如果提取了圖4A中所示的項目數(shù)據(jù),那么就產(chǎn)生了圖7B中所示的名稱數(shù)據(jù)。注意本變型例已經(jīng)特意描述了這樣一種情況,其中按照從相應(yīng)項目的最高重要性等級開始的順序僅提取了在步驟SA1中提取的項目數(shù)據(jù)單元中的預(yù)定數(shù)量的項目數(shù)據(jù)單元,但是當(dāng)然也可以按照從相應(yīng)項目的最低重要性等級開始的順序?qū)︻A(yù)定數(shù)量的項目數(shù)據(jù)單元進行提取。如此做使得可通過按照從最低重要性等級開始的順序僅鏈接在上面的步驟SA1中提取的項目數(shù)據(jù)單元中的預(yù)定數(shù)量的項目數(shù)據(jù)單元來產(chǎn)生名稱數(shù)據(jù)。
(C-4)第四變型例在上面的實施例中,描述了未預(yù)先將頁面圖像數(shù)據(jù)存儲在文檔處理裝置110的非易失性存儲單元220b中的情況。然而,當(dāng)然能夠?qū)㈨撁鎴D像數(shù)據(jù)附加地寫入到已經(jīng)寫入頁面圖像數(shù)據(jù)的非易失性存儲單元220b中。然而,在這種情況下,需要確保已經(jīng)存儲在非易失性存儲單元220b中的頁面圖像數(shù)據(jù)的名稱與新存儲的頁面數(shù)據(jù)的名稱不同,這可通過如下地修改上述實施例中所述的文檔處理裝置來實現(xiàn)。
首先,圖9中所示的項目列表與每個頁面圖像數(shù)據(jù)相關(guān)聯(lián)并被存儲在非易失性存儲單元220b中。該項目列表與表示對應(yīng)于該項目列表的頁面圖像數(shù)據(jù)相對應(yīng)的文檔中的項目的數(shù)據(jù)(例如表示那個項目的名稱的字符串下面稱作為“項目識別符”)相對應(yīng)地存儲了這樣的數(shù)據(jù),該數(shù)據(jù)用于表明用以表示由項目識別符指示的項目的內(nèi)容的項目數(shù)據(jù)是否已經(jīng)用于產(chǎn)生名稱數(shù)據(jù),該數(shù)據(jù)例如為值為0或1的標(biāo)記(此后稱之為使用狀態(tài)標(biāo)記)。例如,在圖9所示的項目列表中,其使用狀態(tài)標(biāo)記值為0的項目識別符表明與這些項目標(biāo)識符的內(nèi)容相關(guān)聯(lián)的項目數(shù)據(jù)未被用于產(chǎn)生名稱數(shù)據(jù)。換句話說,通過查閱在項目列表中存儲的內(nèi)容,能夠知道對應(yīng)于與項目列表相關(guān)聯(lián)的頁面圖像數(shù)據(jù)的文檔中的哪些項或這些項的哪些內(nèi)容在頁面圖像數(shù)據(jù)的名稱中有所反映。
圖10為表示由根據(jù)該變型例的文檔處理裝置的控制單元200執(zhí)行的紙件文檔數(shù)字化處理的流程的流程圖。圖10中所示的紙件文檔數(shù)字化處理與圖3中所示的紙件文檔數(shù)字化處理的不同之處在于執(zhí)行了用于判斷在步驟SA2產(chǎn)生的名稱數(shù)據(jù)是否與已經(jīng)存儲在非易失性存儲單元220b中的名稱數(shù)據(jù)相匹配的處理(圖10步驟SD1),以及當(dāng)步驟SD1中的判斷結(jié)果為“是”時執(zhí)行用于重新生成在步驟SA2中產(chǎn)生的名稱數(shù)據(jù)的處理(圖10步驟SD2)。
下面更加詳細地描述該過程。在圖10的步驟SD2中,控制單元200查閱項目列表,該項目列表與在步驟SD1中被判斷為匹配的名稱數(shù)據(jù)相關(guān)聯(lián)地存儲在非易失性存儲單元220b中,并指出還未被用于產(chǎn)生該名稱數(shù)據(jù)的項(此后稱之為“未使用項”)。接著,控制單元200通過只鏈接在步驟SA1提取的項目數(shù)據(jù)中的表示未使用項的內(nèi)容的項目數(shù)據(jù)來重新生成名稱數(shù)據(jù)。這使得即使在頁面圖像數(shù)據(jù)已經(jīng)存儲在非易失性存儲單元220b中的情況下也能夠避免多次附加相同的名稱。注意,在本變型例中,表述了僅使用與未使用項目相對應(yīng)的項目數(shù)據(jù)來重新生成名稱數(shù)據(jù)的情況,但也能夠通過將與未使用項目相應(yīng)的項目數(shù)據(jù)加入到已產(chǎn)生的名稱數(shù)據(jù)中來重新生成名稱數(shù)據(jù),或者通過用與未使用項目相對應(yīng)的部分項目數(shù)據(jù)代替用于產(chǎn)生該名稱數(shù)據(jù)的部分項目數(shù)據(jù)來重新生成名稱數(shù)據(jù)。換句話說,任何事都是可能的,只要使用與未使用項目相應(yīng)的項目數(shù)據(jù)來重新生成名稱數(shù)據(jù)和產(chǎn)生與現(xiàn)有的名稱數(shù)據(jù)不同的名稱數(shù)據(jù)。在本變型例中,已經(jīng)描述了這樣一種情況,其中表示將被附加于新存儲的頁面圖像數(shù)據(jù)的名稱的名稱數(shù)據(jù)被重新生成,但也可以更新存儲在非易失性存儲器220b中的名稱數(shù)據(jù)(即,表示附加于已經(jīng)存儲在非易失性存儲單元220b中的頁面圖像數(shù)據(jù)的名稱的名稱數(shù)據(jù))。
(C-5)第五變型例在上述的實施例中,描述了這樣一種情況,即其中用于使控制單元200實現(xiàn)根據(jù)本發(fā)明的文檔處理裝置的特定功能的軟件被預(yù)先存儲在非易失性存儲單元220b中。然而,當(dāng)然也能夠?qū)⑺鲕浖鎯υ谟嬎銠C可讀的存儲介質(zhì)中,例如CD-ROM(光盤-只讀存儲器)和DVD(數(shù)字萬用盤),并使用該存儲介質(zhì)將所述軟件安裝到普通的計算機裝置中。其具有這樣的效果,即其能夠使普通計算機裝置用作根據(jù)本發(fā)明的文檔處理裝置。
如上所述,本發(fā)明提供了一種文檔處理裝置,包括用于輸入與文檔的頁面的圖像相對應(yīng)的頁面圖像數(shù)據(jù)的輸入單元;提取單元,其分析通過輸入單元輸入的頁面圖像數(shù)據(jù),指明與該頁面圖像數(shù)據(jù)相對應(yīng)的文檔中包含的每個項目的內(nèi)容,并提取項目數(shù)據(jù),所述項目數(shù)據(jù)是表示所述內(nèi)容的字符串;產(chǎn)生單元,用于鏈接由提取單元提取的項目數(shù)據(jù)并產(chǎn)生名稱數(shù)據(jù),所述名稱數(shù)據(jù)是表示將被附加于所述文檔的名稱的字符串;和寫入單元,其將通過產(chǎn)生單元產(chǎn)生的名稱數(shù)據(jù)與通過輸入單元輸入的頁面圖像數(shù)據(jù)相關(guān)聯(lián)并將該名稱數(shù)據(jù)和該頁面圖像數(shù)據(jù)寫入存儲器。
根據(jù)該文檔處理裝置,與文檔中的頁面的圖像相對應(yīng)的頁面圖像數(shù)據(jù)和與所述文檔的內(nèi)容相對應(yīng)的名稱數(shù)據(jù)被彼此關(guān)聯(lián)并被寫入到所述存儲裝置。
根據(jù)本發(fā)明的另一個實施例,所述文檔處理裝置進一步包括存儲類型數(shù)據(jù)的類型數(shù)據(jù)存儲器,所述類型數(shù)據(jù)為表示文檔類型的字符串,并且所述產(chǎn)生單元從由提取單元提取的項目數(shù)據(jù)中排除與存儲在類型數(shù)據(jù)存儲器中的類型數(shù)據(jù)相匹配的項目數(shù)據(jù)來產(chǎn)生名稱數(shù)據(jù)。根據(jù)該實施例,名稱數(shù)據(jù)是在排除類型數(shù)據(jù)之后產(chǎn)生的,所述類型數(shù)據(jù)為在相同類型的文檔中共同列舉的并且是在將這些文檔與其它類型的文檔分類時所使用的項目的項目數(shù)據(jù)。其具有這樣的效果,即其能夠從名稱數(shù)據(jù)中排除在相同類型的文檔中所共同包含的項目的項目數(shù)據(jù),或者換句話說,能夠在排除缺少關(guān)于這些相同類型文檔的差別特性的項目數(shù)據(jù)之后產(chǎn)生名稱數(shù)據(jù)。
根據(jù)另一個實施例,所述文檔處理裝置進一步包括重要數(shù)據(jù)存儲器,其用于存儲表示在文檔中出現(xiàn)的每個項目的重要等級的重要性等級數(shù)據(jù);以及產(chǎn)生單元,所述產(chǎn)生單元根據(jù)存儲在重要性等級數(shù)據(jù)存儲器中的重要性等級數(shù)據(jù)為與項目數(shù)據(jù)對應(yīng)的每個項目指定重要性等級,并通過按照重要性等級升序或降序鏈接預(yù)定數(shù)量的項目數(shù)據(jù)來產(chǎn)生名稱數(shù)據(jù)。根據(jù)本實施例,產(chǎn)生了反映文檔中包含的每個項目的重要性等級的名稱數(shù)據(jù)。其具有這樣的效果,即通過查閱與頁面圖像數(shù)據(jù)相關(guān)存儲的名稱數(shù)據(jù)能夠知道在與頁面圖像數(shù)據(jù)相對應(yīng)的文檔中列舉的內(nèi)容的重要性等級,并且還可以防止增加名稱數(shù)據(jù)的數(shù)據(jù)長度。
根據(jù)另一個實施例,所述文檔處理裝置還包括名稱數(shù)據(jù)存儲器,用于存儲由所述產(chǎn)生單元為所述文檔產(chǎn)生的名稱數(shù)據(jù)和列舉文檔的每個頁面中包含的項目的項目列表,所述名稱數(shù)據(jù)和項目列表與對應(yīng)于文檔頁面的頁面圖像數(shù)據(jù)相關(guān)聯(lián)地存儲;如果根據(jù)由輸入單元輸入的頁面圖像數(shù)據(jù)產(chǎn)生的名稱數(shù)據(jù)與存儲在名稱數(shù)據(jù)存儲器中的其它名稱數(shù)據(jù)相匹配,則所述產(chǎn)生單元根據(jù)與其它名稱數(shù)據(jù)相關(guān)聯(lián)的并被存儲在名稱數(shù)據(jù)存儲器中的項目列表指定表示未使用項目的內(nèi)容的項目數(shù)據(jù),所述未使用項目數(shù)據(jù)為由所述提取單元提取的且在產(chǎn)生其它名稱數(shù)據(jù)時未被使用的項目數(shù)據(jù),并且所述產(chǎn)生單元使用與所述未使用項目相對應(yīng)的項目數(shù)據(jù)重新生成名稱數(shù)據(jù)。該實施例具有這樣的效果,即其能夠確保被存儲的新頁面圖像數(shù)據(jù)所附加的名稱數(shù)據(jù)與附加給其頁面圖像數(shù)據(jù)已經(jīng)存儲在存儲單元中的其它文檔的名稱數(shù)據(jù)不同,或者換句話說,能夠避免附加給文檔的名稱數(shù)據(jù)產(chǎn)生重復(fù)。
根據(jù)另一實施例,所述文檔處理裝置進一步包括名稱數(shù)據(jù)存儲器,用于存儲由所述產(chǎn)生單元為所述文檔產(chǎn)生的名稱數(shù)據(jù)和列舉文檔的每個頁面中包含的項目的項目列表,所述名稱數(shù)據(jù)和項目列表與對應(yīng)于文檔頁面的頁面圖像數(shù)據(jù)相關(guān)聯(lián)地存儲;識別單元,用于識別由產(chǎn)生單元產(chǎn)生的名稱數(shù)據(jù)是否為與存儲在名稱數(shù)據(jù)存儲器中的任何一個名稱數(shù)據(jù)相匹配的重復(fù)名稱數(shù)據(jù);確定單元,用于在名稱數(shù)據(jù)已經(jīng)被識別單元識別為是重復(fù)名稱數(shù)據(jù)的情況下,根據(jù)與所述名稱數(shù)據(jù)相關(guān)聯(lián)地存儲在名稱數(shù)據(jù)存儲器中的項目列表確定未使用項目,所述未使用項目是在產(chǎn)生所述名稱數(shù)據(jù)時未使用的項目。和重寫單元,用于以使用由確定單元確定的未使用項的項目數(shù)據(jù)產(chǎn)生的新名稱數(shù)據(jù)重寫已經(jīng)由識別單元將其識別為是重復(fù)名稱數(shù)據(jù)的名稱數(shù)據(jù)。本實施例也具有這樣的效果,即其能夠沒有失敗地避免在附加給文檔的名稱數(shù)據(jù)中產(chǎn)生重復(fù)。
此外,本發(fā)明還提供了一種文檔處理方法,其包括輸入與文檔的頁面的圖像相對應(yīng)的頁面圖像數(shù)據(jù);分析輸入的頁面圖像數(shù)據(jù);確定與被分析的頁面圖像數(shù)據(jù)相對應(yīng)的文檔中包含的每個項目的內(nèi)容;提取表示所述確定內(nèi)容的字符串的項目數(shù)據(jù);通過鏈接所提取的項目數(shù)據(jù)產(chǎn)生名稱數(shù)據(jù),所述名稱數(shù)據(jù)是表示將被附加于所述文檔的名稱的字符串;和將產(chǎn)生的名稱數(shù)據(jù)與輸入的頁面圖像數(shù)據(jù)彼此相關(guān)聯(lián)地寫入第一存儲器。
根據(jù)另一個實施例,所述文檔處理方法進一步包括存儲類型數(shù)據(jù),所述類型數(shù)據(jù)為表示類型數(shù)據(jù)存儲器中的文檔類型的字符串,并且在產(chǎn)生名稱數(shù)據(jù)時,不使用與存儲在類型數(shù)據(jù)存儲器中的類型數(shù)據(jù)相匹配的項目數(shù)據(jù)。
根據(jù)另一個實施例,所述文檔處理方法進一步包括在重要性等級數(shù)據(jù)存儲器中存儲重要性等級數(shù)據(jù),所述重要性等級數(shù)據(jù)表示文檔中出現(xiàn)的每個項目的重要性等級,并且在產(chǎn)生名稱數(shù)據(jù)時,根據(jù)存儲在重要性等級數(shù)據(jù)存儲器中的重要性等級數(shù)據(jù)確定與項目數(shù)據(jù)對應(yīng)的每個項目的重要性等級,并按照重要性等級升序或降序鏈接預(yù)定數(shù)量的項目數(shù)據(jù)。
根據(jù)另一個實施例,所述文檔處理方法還包括在名稱數(shù)據(jù)存儲器中存儲為所述文檔產(chǎn)生的名稱數(shù)據(jù)和列舉文檔的每個頁面中包含的項目的項目列表,所述名稱數(shù)據(jù)和項目列表與對應(yīng)于文檔頁面的頁面圖像數(shù)據(jù)相關(guān)聯(lián)地存儲;并且如果根據(jù)輸入的頁面圖像數(shù)據(jù)產(chǎn)生的名稱數(shù)據(jù)與存儲在名稱數(shù)據(jù)存儲器中的其它名稱數(shù)據(jù)相匹配,則根據(jù)與其它名稱數(shù)據(jù)相關(guān)聯(lián)的并被存儲在名稱數(shù)據(jù)存儲器中的項目列表確定項目數(shù)據(jù),所述項目數(shù)據(jù)是提取的項目數(shù)據(jù)并且表示在產(chǎn)生其它名稱數(shù)據(jù)時未被使用的項目,并使用與所述未使用項目相對應(yīng)的項目數(shù)據(jù)重新生成名稱數(shù)據(jù)。
根據(jù)另一實施例,所述文檔處理方法進一步包括在名稱數(shù)據(jù)存儲器中存儲為所述文檔產(chǎn)生的名稱數(shù)據(jù)和列舉文檔的每個頁面中包含的項目的項目列表,所述名稱數(shù)據(jù)和項目列表與對應(yīng)于文檔頁面的頁面圖像數(shù)據(jù)相關(guān)聯(lián)地存儲;確定所產(chǎn)生的名稱數(shù)據(jù)是否為與存儲在名稱數(shù)據(jù)存儲器中的任何一個名稱數(shù)據(jù)相匹配的重復(fù)名稱數(shù)據(jù);當(dāng)確定所述名稱數(shù)據(jù)為重復(fù)名稱數(shù)據(jù)時,根據(jù)與所述名稱數(shù)據(jù)相關(guān)聯(lián)地存儲在名稱數(shù)據(jù)存儲器中的項目列表確定未使用項目,這種未使用項目是在產(chǎn)生名稱數(shù)據(jù)時未使用的項目;和用使用被確定為未使用項目的項目數(shù)據(jù)產(chǎn)生的新名稱數(shù)據(jù)重寫已經(jīng)被確定為是重復(fù)名稱數(shù)據(jù)的名稱數(shù)據(jù)。
此外,本發(fā)明還提供一種計算機可讀存儲介質(zhì),用于記錄使計算機執(zhí)行以下功能的程序,所述功能包括當(dāng)輸入了與文檔中的頁面圖像相對應(yīng)的頁面圖像數(shù)據(jù)時,分析所述頁面圖像數(shù)據(jù),確定與頁面圖像數(shù)據(jù)相對應(yīng)的文檔中包含的每個項目的內(nèi)容,提取項目數(shù)據(jù),所述項目數(shù)據(jù)是表示所述內(nèi)容的字符串;鏈接所提取的項目數(shù)據(jù)并產(chǎn)生名稱數(shù)據(jù),所述名稱數(shù)據(jù)為表示將附加于所述文檔的名稱的字符串;和將所產(chǎn)生的名稱數(shù)據(jù)與已經(jīng)輸入的頁面圖像數(shù)據(jù)相關(guān)聯(lián),并將所述名稱數(shù)據(jù)和頁面圖像數(shù)據(jù)寫入存儲器。
對于該計算機可讀存儲介質(zhì),與文檔中的頁面的圖像相對應(yīng)的頁面圖像數(shù)據(jù)和與文檔的內(nèi)容相對應(yīng)的名稱數(shù)據(jù)被彼此相關(guān)地寫入所述存儲裝置。
為了解釋和說明的目的,前面已經(jīng)給出了本發(fā)明的實施例的說明。但這些實施例并不是窮舉的,也不是用于將本發(fā)明限制在所公開的精確形式。很明顯,許多修改和變化對于本領(lǐng)域技術(shù)人員將是顯而易見的。所述各實施例是被選擇說明的,以最好地解釋本發(fā)明的原理及其實際應(yīng)用,以便由此能夠使本領(lǐng)域技術(shù)人員理解本發(fā)明的各個實施例及其各種修改,以適合于特定的預(yù)期應(yīng)用,本發(fā)明的范圍由下述的權(quán)利要求及其等同所限定。
本申請要求于2004年8月19日申請的日本專利申請第2004-239479號的優(yōu)先權(quán),其全部內(nèi)容通過引用而被并入本文中。
權(quán)利要求
1.一種文檔處理裝置,包括輸入單元,用于輸入與文檔的頁面的圖像相對應(yīng)的頁面圖像數(shù)據(jù);提取單元,其分析通過輸入單元輸入的頁面圖像數(shù)據(jù),確定與所述頁面圖像數(shù)據(jù)相對應(yīng)的文檔中包含的每個項目的內(nèi)容,并提取項目數(shù)據(jù),所述項目數(shù)據(jù)是表示所述內(nèi)容的字符串;產(chǎn)生單元,用于鏈接由所述提取單元提取的項目數(shù)據(jù)并產(chǎn)生名稱數(shù)據(jù),所述名稱數(shù)據(jù)是表示將被附加于所述文檔的名稱的字符串;和寫入單元,其將通過產(chǎn)生單元產(chǎn)生的名稱數(shù)據(jù)與通過輸入單元輸入的頁面圖像數(shù)據(jù)相關(guān)聯(lián)并將所述名稱數(shù)據(jù)和頁面圖像數(shù)據(jù)寫入存儲器。
2.根據(jù)權(quán)利要求1所述的文檔處理裝置,進一步包括類型數(shù)據(jù)存儲器,用于存儲類型數(shù)據(jù),所述類型數(shù)據(jù)為表示文檔類型的字符串;其中所述產(chǎn)生單元使用所述提取單元提取的項目數(shù)據(jù)中的與存儲在類型數(shù)據(jù)存儲器中的類型數(shù)據(jù)相匹配的項目數(shù)據(jù)之外的項目數(shù)據(jù)來產(chǎn)生名稱數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的文檔處理裝置,進一步包括重要性等級數(shù)據(jù)存儲器,其用于存儲表示在文檔中出現(xiàn)的每個項目的重要性等級的重要性等級數(shù)據(jù);其中所述產(chǎn)生單元根據(jù)存儲在重要性等級數(shù)據(jù)存儲器中的重要性等級數(shù)據(jù)為與項目數(shù)據(jù)對應(yīng)的每個項目指定重要性等級,并通過按照重要性等級的升序或降序鏈接預(yù)定數(shù)量的項目數(shù)據(jù)來產(chǎn)生名稱數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的文檔處理裝置,還包括名稱數(shù)據(jù)存儲器,用于存儲由所述產(chǎn)生單元為所述文檔產(chǎn)生的名稱數(shù)據(jù)和列舉所述文檔的每個頁面中包含的項目的項目列表,所述名稱數(shù)據(jù)和項目列表與對應(yīng)于文檔的頁面的頁面圖像數(shù)據(jù)相關(guān)聯(lián)地存儲;其中,如果根據(jù)通過輸入單元輸入的頁面圖像數(shù)據(jù)產(chǎn)生的名稱數(shù)據(jù)與存儲在名稱數(shù)據(jù)存儲器中的其它名稱數(shù)據(jù)相匹配,則所述產(chǎn)生單元根據(jù)與其它名稱數(shù)據(jù)相關(guān)聯(lián)的并被存儲在名稱數(shù)據(jù)存儲器中的項目列表確定表示未使用項目的內(nèi)容的項目數(shù)據(jù),所述未使用項目數(shù)據(jù)為由所述提取單元提取的且是在產(chǎn)生其它名稱數(shù)據(jù)時未被使用的項目數(shù)據(jù),并且所述產(chǎn)生單元使用與所述未使用項目相對應(yīng)的項目數(shù)據(jù)重新生成名稱數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的文檔處理裝置,進一步包括名稱數(shù)據(jù)存儲器,用于存儲由所述產(chǎn)生單元為所述文檔產(chǎn)生的名稱數(shù)據(jù)和列舉文檔的每個頁面中包含的項目的項目列表,所述名稱數(shù)據(jù)和項目列表與對應(yīng)于文檔頁面的頁面圖像數(shù)據(jù)相關(guān)聯(lián)地存儲;識別單元,用于識別由產(chǎn)生單元產(chǎn)生的名稱數(shù)據(jù)是否是與存儲在名稱數(shù)據(jù)存儲器中的任何一個名稱數(shù)據(jù)相匹配的重復(fù)名稱數(shù)據(jù);確定單元,用于在名稱數(shù)據(jù)已經(jīng)被所述識別單元識別為是重復(fù)名稱數(shù)據(jù)的情況下,根據(jù)與所述名稱數(shù)據(jù)相關(guān)聯(lián)地存儲在名稱數(shù)據(jù)存儲器中的項目列表確定未使用項目,所述未使用項目是在產(chǎn)生名稱數(shù)據(jù)時未使用的項目;和重寫單元,用于用使用由所述確定單元確定的未使用項目的項目數(shù)據(jù)產(chǎn)生的新的名稱數(shù)據(jù)來重寫已經(jīng)由識別單元將其識別為是重復(fù)名稱數(shù)據(jù)的名稱數(shù)據(jù)。
6.一種文檔處理方法,包括輸入與文檔的頁面的圖像相對應(yīng)的頁面圖像數(shù)據(jù);分析輸入的頁面圖像數(shù)據(jù);確定與所分析的頁面圖像數(shù)據(jù)相對應(yīng)的文檔中包含的每個項目的內(nèi)容;提取項目數(shù)據(jù),所述項目數(shù)據(jù)是表示所確定的內(nèi)容的字符串;通過鏈接所提取的項目數(shù)據(jù)產(chǎn)生名稱數(shù)據(jù),所述名稱數(shù)據(jù)是表示將被附加于所述文檔的名稱的字符串;和將所產(chǎn)生的名稱數(shù)據(jù)與輸入的頁面圖像數(shù)據(jù)彼此相關(guān)聯(lián)地寫入第一存儲器。
7.根據(jù)權(quán)利要求6所述的文檔處理方法,進一步包括存儲類型數(shù)據(jù),所述類型數(shù)據(jù)為表示類型數(shù)據(jù)存儲器中的文檔類型的字符串;其中,在產(chǎn)生所述名稱數(shù)據(jù)時,不使用與存儲在類型數(shù)據(jù)存儲器中的類型數(shù)據(jù)相匹配的項目數(shù)據(jù)。
8.根據(jù)權(quán)利要求6所述的文檔處理方法,進一步包括在重要性等級數(shù)據(jù)存儲器中存儲重要性等級數(shù)據(jù),所述重要性等級數(shù)據(jù)表示文檔中出現(xiàn)的每個項目的重要性等級;其中在產(chǎn)生名稱數(shù)據(jù)時,根據(jù)存儲在重要性等級數(shù)據(jù)存儲器中的重要性等級數(shù)據(jù)確定與項目數(shù)據(jù)對應(yīng)的每個項目的重要性等級,并按照重要性等級的升序或降序鏈接預(yù)定數(shù)量的項目數(shù)據(jù)。
9.根據(jù)權(quán)利要求6所述的文檔處理方法,還包括在名稱數(shù)據(jù)存儲器中存儲為所述文檔產(chǎn)生的名稱數(shù)據(jù)和列舉文檔的每個頁面中包含的項目的項目列表,所述名稱數(shù)據(jù)和項目列表與對應(yīng)于文檔頁面的頁面圖像數(shù)據(jù)相關(guān)聯(lián)地存儲;其中,如果根據(jù)輸入的頁面圖像數(shù)據(jù)產(chǎn)生的名稱數(shù)據(jù)與存儲在名稱數(shù)據(jù)存儲器中的其它名稱數(shù)據(jù)相匹配,則根據(jù)與其它名稱數(shù)據(jù)相關(guān)聯(lián)的并被存儲在名稱數(shù)據(jù)存儲器中的項目列表確定項目數(shù)據(jù),所述項目數(shù)據(jù)是提取的項目數(shù)據(jù)并且表示在產(chǎn)生其它名稱數(shù)據(jù)時未被使用的項目,并且使用與所述未使用項目相對應(yīng)的項目數(shù)據(jù)重新生成所述名稱數(shù)據(jù)。
10.根據(jù)權(quán)利要求6所述的文檔處理方法,進一步包括在名稱數(shù)據(jù)存儲器中存儲為所述文檔產(chǎn)生的名稱數(shù)據(jù)和列舉所述文檔的每個頁面中包含的項目的項目列表,所述名稱數(shù)據(jù)和項目列表與對應(yīng)于文檔頁面的頁面圖像數(shù)據(jù)相關(guān)聯(lián)地存儲;確定所產(chǎn)生的名稱數(shù)據(jù)是否是與存儲在名稱數(shù)據(jù)存儲器中的任何一個名稱數(shù)據(jù)相匹配的重復(fù)名稱數(shù)據(jù);當(dāng)確定所述名稱數(shù)據(jù)為重復(fù)名稱數(shù)據(jù)時,根據(jù)與所述名稱數(shù)據(jù)相關(guān)聯(lián)地存儲在名稱數(shù)據(jù)存儲器中的項目列表確定未使用項目,所述未使用項目是在產(chǎn)生名稱數(shù)據(jù)時未使用的項目;和用使用所確定的未使用項目的項目數(shù)據(jù)產(chǎn)生的新名稱數(shù)據(jù)來重寫已經(jīng)被確定為是重復(fù)名稱數(shù)據(jù)的所述名稱數(shù)據(jù)。
11.一種計算機可讀存儲介質(zhì),用于記錄使計算機執(zhí)行下列功能的程序,所述功能包括當(dāng)輸入與文檔中的頁面的圖像相對應(yīng)的頁面圖像數(shù)據(jù)時,分析所述頁面圖像數(shù)據(jù),確定與所述頁面圖像數(shù)據(jù)相對應(yīng)的文檔中包含的每個項目的內(nèi)容,并提取項目數(shù)據(jù),所述項目數(shù)據(jù)是表示所述內(nèi)容的字符串;鏈接所提取的項目數(shù)據(jù)并產(chǎn)生名稱數(shù)據(jù),所述名稱數(shù)據(jù)為表示將附加于所述文檔的名稱的字符串;和將所產(chǎn)生的名稱數(shù)據(jù)與已經(jīng)輸入的頁面圖像數(shù)據(jù)相關(guān)聯(lián),并將所述名稱數(shù)據(jù)和所述頁面圖像數(shù)據(jù)寫入存儲器。
全文摘要
文檔處理裝置、文檔處理方法及記錄其程序的存儲介質(zhì)。本發(fā)明提供的文檔處理裝置包括輸入單元,用于輸入與文檔的頁面的圖像相對應(yīng)的頁面圖像數(shù)據(jù);提取單元,其分析所述輸入單元輸入的頁面圖像數(shù)據(jù),確定與該頁面圖像數(shù)據(jù)相對應(yīng)的文檔中包含的每個項目的內(nèi)容,并提取項目數(shù)據(jù),所述項目數(shù)據(jù)是表示所述內(nèi)容的字符串;產(chǎn)生單元,用于連接由提取單元提取的項目數(shù)據(jù)并產(chǎn)生名稱數(shù)據(jù),所述名稱數(shù)據(jù)是表示將被附加于所述文檔的名稱的字符串;和寫入單元,其將所述產(chǎn)生單元產(chǎn)生的名稱數(shù)據(jù)與由輸入單元輸入的頁面圖像數(shù)據(jù)相關(guān)聯(lián)并將所述名稱數(shù)據(jù)和頁面圖像數(shù)據(jù)寫入存儲器。
文檔編號G06F17/30GK1738352SQ20051005541
公開日2006年2月22日 申請日期2005年3月17日 優(yōu)先權(quán)日2004年8月19日
發(fā)明者佐藤直子, 田川昌俊, 田宗道弘, 伊藤篤, 田代潔, 增市博, 劉紹明, 石川恭輔 申請人:富士施樂株式會社