專利名稱:數(shù)據(jù)處理裝置及數(shù)據(jù)處理方法
技術領域:
本發(fā)明涉及數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及存儲介質。
背景技術:
日本專利特開第2006-338507號公報討論了一種鏈接多個模塊的處理方法。此夕卜,作為鏈接多個可安裝模塊的處理方法,已知過濾器管道(filter pipeline)系統(tǒng)。在這種過濾器管道系統(tǒng)中,模塊作為過濾器進行處理并通過管道連接。存在用于在過濾器之間傳送數(shù)據(jù)的各種方法,例如,以流格式連續(xù)發(fā)送數(shù)據(jù),或者針對結構化文檔,基于來自后級過濾器的請求發(fā)送被進行解析的部件(文檔接ロ(I/F))。利用傳統(tǒng)的Microsoft 可擴展標記語言(XML)紙張規(guī)范(XPS)過濾器管道,可以基于各過 濾器的輸入和輸出來指定流和文檔。由于對于Microsoft XPS過濾器管道能夠處理的數(shù)據(jù)存在限制,因此可以指定各過濾器的輸入和輸出。由于以XPS格式輸入以及以XPS格式輸出或者以頁面描述語言(PDL)格式輸出,因此存在用于I3DL的通用流I/F以及XPS專用的XPS文檔I/F兩種類型的輸入和輸出。然而,當處理各種類型的文件輸入和輸出時,由于花費時間和精力來準備各專用文檔I/F,因此使用僅準備流的通用方式的輸入和輸出更有效。圖12是例示流格式的數(shù)據(jù)傳送的示意圖。以流格式流動的數(shù)據(jù)從起始以ニ值方式依次被發(fā)送。然而,當僅基于流輸入和輸出進行處理時,存在當針對ー個輸入有多個輸出時如何傳送數(shù)據(jù)以及盡管在過濾器中實體文件已經(jīng)被實體化但當數(shù)據(jù)以流格式被返回時效率低的問題。
發(fā)明內容
本發(fā)明的目的在于提高向處理數(shù)據(jù)的模塊輸入數(shù)據(jù)和從該模塊輸出數(shù)據(jù)的通用性和效率。根據(jù)本發(fā)明的一方面,提供ー種數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置包括輸入單元,其被構造為輸入流格式的數(shù)據(jù);生成単元,其被構造為基于所述輸入單元輸入的流格式的數(shù)據(jù),生成文件;以及輸出単元,其被構造為輸出包括參照所述生成単元生成的文件的參照信息的數(shù)據(jù)。根據(jù)以下參照附圖對示例性實施例的詳細描述,本發(fā)明的其他特征和方面將變得清楚。
被包括在說明書中并構成說明書的一部分的附圖,例示了本發(fā)明的示例性實施例、特征及方面,并與文字描述一起用于說明本發(fā)明的原理。圖I例示了信息處理系統(tǒng)的結構的示例。
圖2例示了信息處理系統(tǒng)的數(shù)據(jù)處理的概況。圖3例示了信息處理裝置的功能結構的示例。圖4例示了過濾器的功能結構的示例。圖5是例示數(shù)據(jù)處理的示例的流程圖。圖6例示了過濾器間的數(shù)據(jù)傳送。圖7例示了配置文件(config file)的示例。圖8例示了作為列表文件的過濾器間的數(shù)據(jù)傳送的示例。 圖9A例示了列表文件的示例。圖9B例示了當輸出多個文件時的列表文件的示例。圖10是例示確定輸出方法的示例的流程圖。圖11例示了列表文件的效果。圖12是例示數(shù)據(jù)以流格式流動的示意圖。圖13例示了利用最終過濾器的數(shù)據(jù)輸出作為列表文件的示例。圖14例示了附加的便攜式文檔格式(HF) (PDF portfolio (PDF文件夾))的處理。圖15是基于配置文件指定過濾器間的數(shù)據(jù)格式是文件還是列表文件的示例。
具體實施例方式以下,將參照附圖詳細說明本發(fā)明的各種示例性實施例、特征及方面。現(xiàn)在將描述本發(fā)明的第一示例性實施例。圖I例示了信息處理系統(tǒng)的結構的示例。中央處理單元I從連接至系統(tǒng)的介質讀取裝置6讀取存存儲有程序和相關數(shù)據(jù)的存儲介質(例如軟盤(FD)、只讀光盤(⑶-ROM)以及集成電路(IC)存儲卡)。然后,中央處理單元I基于從輔助存儲設備3加載到主存儲設備2的系統(tǒng)程序或應用程序,處理從輸入設備4輸入的信息,并將處理后的信息輸出到輸出設備5或打印裝置7。在本示例性實施例中,輸出設備5是諸如顯示器的顯示設備,并且區(qū)別于輸出設備中包括的打印裝置7。輸入設備4被構造成具有鍵盤、指示設備等。輔助存儲設備3可以被構造成具有硬盤或磁光盤,或者可以被構造成它們的組合。此外,這些設備可以經(jīng)由網(wǎng)絡相互連接。在本示例性實施例中,將進行如下說明,即假定信息處理裝置被構造成除打印裝置7之外具有圖I中所示的硬件単元I至8。圖2例示了信息處理系統(tǒng)中的數(shù)據(jù)處理的概況。例如,通過中央處理單元I讀取輔助存儲設備3中存儲的程序和相關數(shù)據(jù),由輸入設備4輸入打印命令,將數(shù)據(jù)發(fā)送至打印裝置7并且執(zhí)行打印。在中央處理單元I執(zhí)行的操作系統(tǒng)(OS)的控制下,應用(應用軟件)運行。圖3例示了信息處理裝置的功能結構的示例。OS 9控制整個信息處理裝置。OS 9通過并行接ロ(Centronics interface)、通用串行總線(USB)或局域網(wǎng)接ロ連接至打印裝置7。應用軟件10運行于OS 9上,并控制打印裝置7。用戶接ロ単元11允許用戶輸入各種打印設置(例如針對打印裝置的設置),井指示打印開始。打印數(shù)據(jù)控制単元12接收由用戶接ロ単元11指定的輸入數(shù)據(jù),并生成打印裝置7能夠處理的數(shù)據(jù)。過濾器控制單元13控制各種過濾器的順序及輸入和輸出。文件格式轉換過濾器14是將Offiee 文檔轉換成例如I3DF的過濾器的示例。布局處理過濾器15也是執(zhí)行諸如N-up、裝訂、海報打印等的布局處理的過濾器的示例。打印數(shù)據(jù)生成過濾器16也是將諸如I3DF的輸入文件轉換成可打印I3DL的過濾器的示例。數(shù)據(jù)發(fā)送/接收單元17是OS的功能部件。數(shù)據(jù)發(fā)送/接收單元17經(jīng)由并行接ロ、USB或局域網(wǎng)連接向打印裝置7發(fā)送數(shù)據(jù)以及從打印裝置7接收數(shù)據(jù)。打印裝置7基于來自所連接的信息處理裝置的指令進行打印處理。上述的多個過濾器是多個模塊的示例。圖4例示了過濾器的功能結構的示例。輸入處理單元4-1接收流格式的前級過濾 器輸出作為輸入數(shù)據(jù)。輸入數(shù)據(jù)可以是文件本身(本體文件(subject file))或者描述至文件被實體化的地址的鏈接信息的列表文件。過濾器處理單元4-2執(zhí)行各過濾器處理。過濾器處理的示例包括文件格式轉換、布局處理及打印數(shù)據(jù)生成。輸出方法確定單兀4-3確定輸出方法,即是輸出列表文件還是本體文件。在輸出方法確定單兀4-3確定輸出列表文件時,列表文件生成單兀4-4生成描述至文件的鏈接信息的列表文件。輸出處理單兀4-5基于輸出方法確定單兀4-3的確定結果,輸出反映過濾器處理單元4-2的結果的輸出數(shù)據(jù)。圖5是例示數(shù)據(jù)處理的示例的流程圖。在步驟11-1中,輸入處理單元4-1從過濾器控制單元13接收數(shù)據(jù)。在步驟11-2中,過濾器處理單元4-2進行各過濾器的處理,例如文件格式轉換及布局轉換。在步驟11-3中,輸出方法確定單元4-3確定輸出列表文件還是本體文件。如果確定輸出列表文件(步驟11-3中為“列表文件(List File)”),則處理進行至步驟11-4。在步驟11-4中,列表文件生成単元4-4生成列表文件。在步驟11-5中,輸出處理單元4-5將所生成的列表文件以流格式輸出。另ー方面,如果輸出方法確定單元
4-3確定輸出本體文件(步驟11-3中為“本體文件(Subiect File) ”),則處理進行至步驟11-6。在步驟11-6中,輸出處理單元4-5將本體文件以流格式輸出。圖6例示了過濾器間的數(shù)據(jù)傳送。過濾器控制單元13控制過濾器順序和數(shù)據(jù)傳送。過濾器控制單元13讀取表示過濾器順序和要處理的數(shù)據(jù)的配置文件,并且控制過濾器順序,從而使得前級過濾器輸出成為后級過濾器輸入。圖7例示了配置文件的示例。以例如XML描述配置文件。在〈Filters〉元素中按照〈Filter〉元素被鏈接的順序描述各〈Filter〉元素。各〈Filter〉元素具有描述輸入和輸出的〈Input〉元素和〈Output〉元素。圖7中所示的配置文件表示按照文件格式轉換過濾器、布局過濾器和打印數(shù)據(jù)處理過濾器的順序進行鏈接。此外,配置文件描述文件格式轉換過濾器的輸入是Office Data并且輸出是H)F,布局過濾器的輸入是PDF并且輸出也是PDF,打印數(shù)據(jù)處理過濾器的輸入是PDF并且輸出是TOL?,F(xiàn)在將描述數(shù)據(jù)串的流。基于圖3所示的用戶接ロ單元11的指定,Office Data被輸入到打印數(shù)據(jù)控制単元12。然后,Office Data被傳送至過濾器控制單元13。過濾器控制單元13將輸入的Office Data以流格式傳送至作為第一過濾器的文件格式轉換過濾器14。文件格式轉換過濾器14將Office Data轉換成HF,并將轉換后的文件以流格式傳送至過濾器控制單元13。過濾器控制單元13連接作為后級過濾器輸入的前級過濾器輸出。因此,PDF文件作為輸入以流格式被傳送至后級的布局處理過濾器15。類似地,在布局處理之后,布局處理過濾器15將PDF文件作為輸出以流格式傳送至過濾器控制單元13。過濾器控制單元13將該PDF文件作為后級的打印數(shù)據(jù)生成過濾器16的輸入文件以流格式進行傳送。打印數(shù)據(jù)生成過濾器16由PDF文件生成PDL文件,并將所生成的PDL文件以流格式傳送至過濾器控制單元13。過濾器控制單元13將該PDL文件作為過濾器組的輸出傳送至打印數(shù)據(jù)控制単元12。然后,打印數(shù)據(jù)控制単元12將該PDL文件經(jīng)由數(shù)據(jù)發(fā)送/接收單元17發(fā)送至打印裝置7。圖8例示了作為列表文件的過濾器間的數(shù)據(jù)傳送的示例。例如,當通過文件格式轉換過濾器14將Office Data轉換成PDF文件吋 ,如果PDF文件被實體化并存儲在硬盤中,則再次以流格式發(fā)送PDL文件不是非常有效率的。通過僅將描述至所存儲的PDF文件的鏈接信息的列表文件以流格式傳送至后級過濾器,能夠有效傳送數(shù)據(jù)。圖9A例示了列表文件的示例。例如以XML描述列表文件。列表文件包括〈Job〉元素、<Doc>元素、〈Page〉元素及〈File〉元素。在〈File〉元素中描述至實體文件的鏈接信
O此外,通過布局處理過濾器能夠由ー個PDF文件生成多個PDF文件。在這種情況下,通過使用像圖9B中所示的列表文件也能夠有效地處理多個文件。圖9B例示了當輸出多個文件時的列表文件的示例。例如,通過在〈Page〉元素中多次描述〈File〉元素能夠表示存在多個文件的事實?,F(xiàn)在,將參照圖10的流程圖來描述用于確定輸出本體文件還是文件列表的方法。圖10是例示確定輸出方法的示例的流程圖。在步驟8-1中,輸入處理單元4-1從過濾器控制單元13接收數(shù)據(jù)。在步驟8_2中,過濾器處理單元4-2進行各過濾器的處理,例如文件格式轉換以及布局轉換。在步驟8-3中,確定作為處理的結果數(shù)據(jù)是否被實體化。如果確定數(shù)據(jù)被實體化(步驟8-3中為是),則在步驟8-4中,列表文件生成単元4-4生成列表文件。然后,在步驟8-5中,輸出處理單元4-5將數(shù)據(jù)作為列表文件以流格式傳送至過濾器控制單元13。另ー方面,如果確定數(shù)據(jù)沒有被實體化(步驟8-3中為否),則在步驟8-6中確定數(shù)據(jù)大小是否超出閾值。如果數(shù)據(jù)大小沒有超出閾值,則在步驟8-7中確定數(shù)據(jù)是否已被分割。如果確定數(shù)據(jù)大小超出閾值(步驟8-6中為是)或者數(shù)據(jù)已被分割(步驟8-7中為是),則處理進行至步驟8-4,并且列表文件生成単元4-4生成列表文件。然后,在步驟8-5中,輸出處理單元4-5將列表文件以流格式傳送至過濾器控制單元13。在其他情況下(即如果在步驟8-7中確定數(shù)據(jù)沒有被分割(步驟8-7中為否)),處理進行至步驟8-8。在步驟8-8中,輸出處理單元4-5將本體文件以流格式傳送至過濾器控制單元13。盡管在圖10描述了基于步驟8-3、8_6和8_7的全部進行確定的示例,但是系統(tǒng)也可以被構造成使得僅基于這些步驟中的一個進行關于將數(shù)據(jù)作為列表文件還是作為本體文件傳送的確定。此外,也可以通過以任意方式組合步驟8-3、8_6和8-7來進行確定。此外,還可以例如通過配置文件從外部指定而不是由輸出方法確定單元4-3內部確定將數(shù)據(jù)作為列表文件還是本體文件進行傳送。圖15是基于配置文件指定過濾器間數(shù)據(jù)格式是本體文件還是列表文件的示例。向文件格式轉換過濾器的輸入是被配置為<InputStream>File</InputStream> 的文件,并且輸出是被配置為〈OutputStream>List〈/OutputStream〉的列表文件。向后級的布局過濾器的輸入是列表文件,并且輸出是被配置為<OutputStream>File</OutputStream)的文件。向最后級的打印數(shù)據(jù)過濾器的輸入是列表文件,并且輸出是被配置為<OutputStream>List〈/OutputStream>的列表文件。由此,通過在配置文件中進行指定,最終生成的PDL即使僅為ー個文件也能夠以列表文件格式輸出。圖11例示了列表文件的效果。在圖11中,將前級過濾器和后級過濾器兩個過濾器的總處理時間進行比較?!皼]有被前級過濾器實體化而以流格式處理的本體文件”的情況用作基準。前級過濾器和后級過濾器二者構成輸入處理、過濾器處理和輸出處理。對于“由前級過濾器形成并以流格式處理的本體文件”,由于基于前級過濾器輸出處理而臨時在硬盤上實體化的本體文件在被讀取之后以流格式流動,因此與基準相比花費更多的時間。后級過濾器的處理時間與基準相同,所以由于前級輸出處理時間的增加導致整個處理時間增加。對于“被前級過濾器實體化的本體文件和以流格式處理的鏈接文件”,由于在前級過濾器處理時間期間生成列表文件,因此該處理比基準稍長。然而,由于不需要從硬盤再讀取,所以處理時間比“由前級過濾器形成并以流格式處理”的情況短。后級過濾器的輸入處
由此,根據(jù)本示例性實施例,能夠處理多個輸出文件。此外,由于能夠有效地進行處理,所以處理時間縮短。甚至在打印機中不用通過打印機驅動器也能夠類似地進行根據(jù)本示例性實施例的處理。更具體地說,可以通過圖3所示的控制器単元19進行相同的處理。此外,經(jīng)由Web服務器或云計算甚至也能夠進行相同的處理?,F(xiàn)在,將描述另ー示例性實施例。圖13例示了光學字符識別(OCR)處理的示例。OCR處理過濾器的輸入是圖像文件。OCR處理過濾器基于OCR處理來提取文本或特定圖像。OCR處理過濾器也執(zhí)行例如將整個輸入圖像轉換成PDF文件的處理。由于生成多個文件,所以OCR處理過濾器的輸出是描述至各文件的鏈接信息的列表文件。當OCR處理過濾器是最后級過濾器吋,列表文件是最后的輸出。現(xiàn)在,將描述又一示例性實施例。圖14例示了包含附件的PDF (PDF文件夾(PDFportfolio))的處理的示例。PDF可以是附加有Office文檔或圖像的格式(被稱作HF文件夾)?,F(xiàn)在,將描述PDF文件夾處理方法。為了處理PDF文件夾,使用事先處理過濾器(preflight processing filter)。事先處理過濾器是預先檢查后級過濾器是否能夠沒有任何問題地進行處理的過濾器。當輸入PDF文件夾時,事先處理過濾器確認附加文件的格式。如果附加文件格式是HF以外的格式,則事先處理過濾器使用例如Office文檔轉換模塊將附加文件轉換成HF。即使在打印數(shù)據(jù)處理過濾器中輸入PDF文件夾,則由于附加文件都是HF,所以能夠進行與針對一般PDF的處理相同的處理??梢葬槍Ω鞲郊拥腜DF生成PDL,或者也可以對PDF進行組合以生成ー個H)L。根據(jù)上述示例性實施例中的各個,能夠使處理數(shù)據(jù)的多個模塊間的數(shù)據(jù)輸入和輸出更通用和有效。雖然參照示例性實施例描述了本發(fā)明,但是應當理解,本發(fā)明并不限于所公開的示例性實施例。應當對所附權利要求的范圍給予最寬的解釋,以使其涵蓋所有這類變型、等同結構及功能。
權利要求
1.ー種數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置包括 輸入單元,其被構造為輸入流格式的數(shù)據(jù); 生成単元,其被構造為基于所述輸入單元輸入的流格式的數(shù)據(jù),生成文件;以及 輸出單元,其被構造為輸出包括參照所述生成単元生成的文件的參照信息的數(shù)據(jù)。
2.根據(jù)權利要求I所述的數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置還包括多個過濾器, 其中,所述多個過濾器中的一個過濾器包括所述輸入?yún)g元、所述生成単元和所述輸出單元。
3.根據(jù)權利要求I所述的數(shù)據(jù)處理裝置,其中,所述生成単元基于所述輸入單元輸入的流格式的數(shù)據(jù),生成多個文件。
4.根據(jù)權利要求3所述的數(shù)據(jù)處理裝置,其中,所述多個文件包括圖像文件和從所述圖像文件中提取的文本文件。
5.根據(jù)權利要求3所述的數(shù)據(jù)處理裝置,其中,由包含附件的文件生成所述多個文件。
6.ー種數(shù)據(jù)處理方法,該數(shù)據(jù)處理方法包括以下步驟 輸入流格式的數(shù)據(jù); 基于所輸入的流格式的數(shù)據(jù),生成文件;以及 輸出包括參照所生成的文件的參照信息的數(shù)據(jù)。
7.根據(jù)權利要求6所述的數(shù)據(jù)處理方法,其中,執(zhí)行該數(shù)據(jù)處理方法的數(shù)據(jù)處理裝置包括多個過濾器,并且 其中,所述多個過濾器中的一個過濾器執(zhí)行所述輸入步驟、所述生成步驟和所述輸出步驟。
8.根據(jù)權利要求6所述的數(shù)據(jù)處理方法,其中,基于所輸入的流格式的數(shù)據(jù)生成多個文件。
9.根據(jù)權利要求8所述的數(shù)據(jù)處理方法,其中,所述多個文件包括圖像文件和從所述圖像文件中提取的文本文件。
10.根據(jù)權利要求8所述的數(shù)據(jù)處理方法,其中,由包含附件的文件生成所述多個文件。
全文摘要
本發(fā)明提供一種數(shù)據(jù)處理裝置及數(shù)據(jù)處理方法。所述數(shù)據(jù)處理裝置輸入流格式的數(shù)據(jù),基于所輸入的流格式的數(shù)據(jù)生成文件,并且輸出包括參照所生成的文件的參照信息的數(shù)據(jù)。
文檔編號G06F3/12GK102693102SQ20121003145
公開日2012年9月26日 申請日期2012年2月9日 優(yōu)先權日2011年2月9日
發(fā)明者大石哲 申請人:佳能株式會社