專利名稱:使用遠(yuǎn)程存儲(chǔ)的模板的表單自動(dòng)化處理的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及表單處理系統(tǒng),尤其涉及使用遠(yuǎn)程存儲(chǔ)的模板來(lái) 自動(dòng)化處理具有未知結(jié)構(gòu)的表單的方法和系統(tǒng)。
背景技術(shù):
很多類型的組織都使用表單來(lái)從客戶獲取數(shù)據(jù),以便提供服務(wù)以 及運(yùn)作其業(yè)務(wù)。通常,這類組織運(yùn)行計(jì)算機(jī)化的數(shù)據(jù)庫(kù)和其他計(jì)算機(jī)化的系統(tǒng),以便存儲(chǔ)或處理表單中傳遞的信息。 一般來(lái)i兌,此類系統(tǒng) 處理數(shù)量龐大的表單,并且將其轉(zhuǎn)換成計(jì)算機(jī)可讀信息。某些應(yīng)用使用的是由客戶填寫和提交的紙質(zhì)表單。例如,國(guó)際商 用機(jī)器公司(Armonk, New York)提供了 一種自動(dòng)從大量紙質(zhì)表單中 獲取數(shù)據(jù)的智能表單處理(IFP)系統(tǒng)。關(guān)于IFP系統(tǒng)的其他細(xì)節(jié)可 以在www2.clearlake.ibm.com/GOV/ifp得到。發(fā)明內(nèi)容由此,根據(jù)本發(fā)明的一個(gè)實(shí)施例,在這里提供了一種用于處理紙 質(zhì)表單的計(jì)算機(jī)實(shí)現(xiàn)方法。該方法包括在具有本地存儲(chǔ)器的計(jì)算機(jī) 系統(tǒng)上接受符合模板的已填寫紙質(zhì)表單,其中該模板并未存儲(chǔ)在本地 存儲(chǔ)器中。使用該計(jì)算機(jī)系統(tǒng),從已填寫紙質(zhì)表單中提取標(biāo)識(shí)信息。 該標(biāo)識(shí)信息表示處于計(jì)算機(jī)系統(tǒng)外部并且存儲(chǔ)有所述模板的遠(yuǎn)程存儲(chǔ) 位置的網(wǎng)絡(luò)地址。響應(yīng)于標(biāo)識(shí)信息,通過(guò)經(jīng)由廣域網(wǎng)(WAN)與遠(yuǎn)程 存儲(chǔ)位置進(jìn)行通信來(lái)檢索該模板。響應(yīng)于檢索到的模板,對(duì)已填寫紙 質(zhì)表單進(jìn)行處理。在一個(gè)實(shí)施例中,計(jì)算機(jī)系統(tǒng)與第一組織相關(guān)聯(lián),并且該遠(yuǎn)程存 儲(chǔ)位置與不同于第一組織的第二組織相關(guān)聯(lián)。在另 一 實(shí)施例中,提取標(biāo)識(shí)信息的步驟包括下列各步驟中的至少一個(gè)對(duì)打印在已填寫表單上的圖形編碼圖像進(jìn)行解碼;和使用光學(xué) 字符識(shí)別(OCR)處理來(lái)識(shí)別文本信息。該圖形編碼圖l象可以包括對(duì) 標(biāo)識(shí)信息進(jìn)行編碼的條形碼圖像。在還一實(shí)施例中,所述提取標(biāo)識(shí)信息的步驟包括除了網(wǎng)絡(luò)地址之 外還提取用于標(biāo)識(shí)模板的標(biāo)識(shí)符的步驟,并且所述檢索模板的步驟包 括在遠(yuǎn)程存儲(chǔ)位置中使用該標(biāo)識(shí)符從存儲(chǔ)在遠(yuǎn)程存儲(chǔ)位置處的多個(gè)模 板中選擇所述模板的步驟。在再一實(shí)施例中,所述模板包括模板信息,并且模板信息的一部 分嵌入在已填寫表單中。在這個(gè)實(shí)施例中,除了從遠(yuǎn)程存儲(chǔ)位置檢索 模板之外,提取標(biāo)識(shí)信息的步驟還包括從已填寫表單中提取模板信息 的所述部分的步驟。在一個(gè)實(shí)施例中,提取標(biāo)識(shí)信息的步驟包括通過(guò)識(shí)別已填寫表 單中與模板的始發(fā)者相關(guān)的信息來(lái)確定遠(yuǎn)程存儲(chǔ)位置的網(wǎng)絡(luò)地址。根據(jù)本發(fā)明的一個(gè)實(shí)施例,還提供了用于處理符合模板的紙質(zhì)表 單的另一種計(jì)算機(jī)實(shí)現(xiàn)方法。該方法包括將模板信息編碼到印制在 紙質(zhì)表單上的計(jì)算機(jī)可讀符號(hào)中,其中該模板信息包括與模板字段相 關(guān)聯(lián)的幾何信息以及與模板字段的期望內(nèi)容相關(guān)聯(lián)的內(nèi)容相關(guān)信息中 的至少一項(xiàng)。符合該模板的已填寫紙質(zhì)表單被接受。從已填寫紙質(zhì)表 單中解碼出計(jì)算機(jī)可讀符號(hào),以便提取模板信息。響應(yīng)于所提取的模 板信息,對(duì)已填寫紙質(zhì)表單進(jìn)行處理。根據(jù)本發(fā)明的另一實(shí)施例,提供了一種計(jì)算機(jī)可讀表單。該表單 包括印制有模板并且印制有計(jì)算機(jī)可讀符號(hào)的頁(yè)面,其中該計(jì)算機(jī)可 讀符號(hào)對(duì)模板信息進(jìn)行編碼,該模板信息包括與模板字段相關(guān)聯(lián)的幾 何信息以及與模板字段的期望內(nèi)容相關(guān)聯(lián)的內(nèi)容相關(guān)信息中的至少一 項(xiàng),由此,當(dāng)接收到紙質(zhì)表單的圖像時(shí),使得計(jì)算機(jī)能夠從符號(hào)中提 取模板信息,并使用該模板信息來(lái)重構(gòu)模板。根據(jù)本發(fā)明的一個(gè)實(shí)施例,還提供了一種用于處理紙質(zhì)表單的設(shè) 備。該設(shè)備包括被配置成接受符合模板的已填寫紙質(zhì)表單的輸入設(shè)備。該設(shè)備還包括被配置成與廣域網(wǎng)(WAN)進(jìn)行通信的網(wǎng)絡(luò)接口,以及 處理器,其中該處理器被配置成從已填寫紙質(zhì)表單中提取標(biāo)識(shí)信息。 該標(biāo)識(shí)信息指示的是處于設(shè)備外部并且存儲(chǔ)有模板的遠(yuǎn)程存儲(chǔ)位置的 網(wǎng)絡(luò)地址,以便響應(yīng)于所述標(biāo)識(shí)信息通過(guò)使用網(wǎng)絡(luò)接口經(jīng)由WAN與 遠(yuǎn)程存儲(chǔ)位置進(jìn)行通信來(lái)檢索模板,以及響應(yīng)于檢索到的模板來(lái)處理 已填寫紙質(zhì)表單。根據(jù)本發(fā)明的另一實(shí)施例,提供了一種用于處理紙質(zhì)表單的系 統(tǒng)。該系統(tǒng)包括一個(gè)或多個(gè)被配置成存儲(chǔ)表單模板的遠(yuǎn)程服務(wù)器,以 及表單處理器,該表單處理器被配置成接受符合模板的已填寫紙質(zhì)表 單,以便從已填寫紙質(zhì)表單中提取標(biāo)識(shí)信息,其中該模板并未存儲(chǔ)在 表單處理器本地。該標(biāo)識(shí)信息表示從一個(gè)或多個(gè)存儲(chǔ)有所述模板的遠(yuǎn) 程服務(wù)器中選出的服務(wù)器的網(wǎng)絡(luò)地址,由此響應(yīng)于標(biāo)識(shí)信息通過(guò)經(jīng)由 廣域網(wǎng)(WAN)與選定服務(wù)器進(jìn)行通信來(lái)檢索模板,以及響應(yīng)于檢索 到的模板來(lái)處理已填寫紙質(zhì)表單。
從以下結(jié)合附圖的實(shí)施例詳述中可以更全面地理解本發(fā)明,在附圖中圖1是示意性地描述根據(jù)本發(fā)明實(shí)施例的紙質(zhì)表單處理系統(tǒng)的框圖;圖2是示意性地描述根據(jù)本發(fā)明實(shí)施例的紙質(zhì)表單處理方法的流 程圖;以及圖3A和3B是用于根據(jù)本發(fā)明實(shí)施例的紙質(zhì)表單處理的條形碼圖像。
具體實(shí)施方式
概述對(duì)用于自動(dòng)化處理紙質(zhì)表單的已知方法和系統(tǒng)來(lái)說(shuō),通常,當(dāng)提 交表單時(shí),這些方法和系統(tǒng)都會(huì)假設(shè)所處理表單的結(jié)構(gòu)或模板是可以在表單處理系統(tǒng)本地得到的。在這些已知的方法和系統(tǒng)中,模板要么 預(yù)先存儲(chǔ)在系統(tǒng)的本地存儲(chǔ)器中,要么與所提交的每一個(gè)表單一起被 提供。但是,在某些應(yīng)用中,在提交表單時(shí),正在被處理的表單的模 板是無(wú)法在系統(tǒng)本地得到的。本發(fā)明的實(shí)施例提供了用于處理紙質(zhì)表單的方法和系統(tǒng),其中該 紙質(zhì)表單的模板被存儲(chǔ)在表單處理系統(tǒng)外部的遠(yuǎn)程存儲(chǔ)位置。舉例來(lái) 說(shuō),該遠(yuǎn)程位置可以包括表單始發(fā)者的網(wǎng)站。在表單中嵌入對(duì)模板進(jìn) 行標(biāo)識(shí)的信息。標(biāo)識(shí)信息通常表示可以找到相應(yīng)模板的遠(yuǎn)程存儲(chǔ)位置 的網(wǎng)絡(luò)地址。當(dāng)提交已填寫紙質(zhì)表單來(lái)進(jìn)行處理時(shí),該系統(tǒng)將會(huì)提取 標(biāo)識(shí)信息,然后對(duì)遠(yuǎn)程存儲(chǔ)的模板進(jìn)行檢索,以便在處理已填寫表單 的過(guò)程中加以使用。與在本地存儲(chǔ)模板的已知方法和系統(tǒng)不同,這里描述的方法和系 統(tǒng)使得能夠處理從不同來(lái)源發(fā)起并且符合種類廣泛的模板的紙質(zhì)表 單,并且其中某些模板有可能隨時(shí)間而改變。此外,如以下將表明的, 通過(guò)使用遠(yuǎn)程存儲(chǔ)的模板,還可以為表單始發(fā)者和接收方提供顯著的 操作靈活性。系統(tǒng)描述圖1是示意性地描述根據(jù)本發(fā)明實(shí)施例的紙質(zhì)表單處理系統(tǒng)20 的框圖。系統(tǒng)20接受手填和/或鍵入的不同格式的已填寫紙質(zhì)表單24。 該系統(tǒng)提取表單中傳達(dá)的信息,然后,可以將該信息存儲(chǔ)在數(shù)據(jù)庫(kù)中, 顯示給用戶,提供給另一應(yīng)用或系統(tǒng),或者采用其他方式加以使用。每一個(gè)紙質(zhì)表單都符合相應(yīng)的預(yù)定義模板26。該模板包含了模板 信息,其中該模板信息通常定義的是表單的布局相關(guān)屬性和內(nèi)容相關(guān) 屬性。舉例來(lái)說(shuō),模板信息可以包括表單字段名稱,以及字段的位置 坐標(biāo)和大小。作為補(bǔ)充或備選,模板信息可以包括每一個(gè)字段中的期 望字符類型、格式或范圍,例如數(shù)字或字母數(shù)字字符、單個(gè)數(shù)字、整 數(shù)或日期格式。在某些實(shí)施例中,模板信息包括與在表單字段中填寫的信息相關(guān)的有效性規(guī)則。例如在發(fā)票表單中,有效性規(guī)則可以規(guī)定在TOTAL (總計(jì))字段中填入的條目應(yīng)該等于在SUBTOTAL (小計(jì))字段中 填入的條目加上8%的州稅。如下所述,表單處理系統(tǒng)經(jīng)常會(huì)使用模 板信息來(lái)提高表單獲取的效率和精度。在某些應(yīng)用中,表單模板可以存儲(chǔ)并且保持在與表單處理系統(tǒng)不 直接關(guān)聯(lián)的遠(yuǎn)程位置,而不是在本地存儲(chǔ)模板。例如,系統(tǒng)20可以包 括發(fā)票處理應(yīng)用,其中某個(gè)組織從多個(gè)供應(yīng)方獲取商品或服務(wù)。這些 供應(yīng)方將紙質(zhì)發(fā)票提供給這個(gè)組織,該組織則對(duì)發(fā)票進(jìn)行處理,以便 支付其費(fèi)用。這個(gè)組織使用了表單處理系統(tǒng)20來(lái)處理其接收到的發(fā) 票。在示例性發(fā)票處理應(yīng)用中,每一個(gè)供應(yīng)方都可以使用不同的發(fā)票 模板。該組織可以接收來(lái)自多個(gè)供應(yīng)方的類型廣泛的不同發(fā)票格式。 某些供應(yīng)方可以使用一種以上的發(fā)票模板。某些供應(yīng)方則有可能是過(guò) 去未從其接收過(guò)發(fā)票的首次供應(yīng)方。發(fā)票模板還有可能在未與接收組 織協(xié)商的情況下被修改??梢岳斫獾氖?,在此類應(yīng)用中,表單處理系統(tǒng)#>難對(duì)從不同來(lái)源 始發(fā)的類型廣泛的動(dòng)態(tài)模板保持本地跟蹤。此外,在某些情況下,較 為理想的是在幾個(gè)表單處理系統(tǒng)中使用特定供應(yīng)方的發(fā)票模板。如下 所示,這些困難可以通過(guò)使用遠(yuǎn)程存儲(chǔ)的模板來(lái)克服。在下文中將會(huì) 進(jìn)一步描述與使用遠(yuǎn)程存儲(chǔ)的模板相關(guān)聯(lián)的附加益處以及操作靈活 性。上述發(fā)票處理應(yīng)用作為示例性應(yīng)用而被選擇,以便論證對(duì)于使用 遠(yuǎn)程存儲(chǔ)的模板來(lái)處理紙質(zhì)表單的需要。這里描述的方法和系統(tǒng)可以 在任何其他合適的表單處理應(yīng)用中使用,例如在針對(duì)手填的彩票表單、 信用卡便條(slip)、旅館收據(jù)以及贏利說(shuō)明等等的處理中使用。通常,對(duì)表單處理系統(tǒng)進(jìn)行訓(xùn)練以識(shí)別和使用可能變化的大量表 -單模板是不切實(shí)際的。某些已知的方法嘗試在沒(méi)有模板幫助的情況下 自動(dòng)識(shí)別表單字段。在例如美國(guó)專利6,886,136和6,640,009以及美國(guó) 專利申請(qǐng)公報(bào)2002/0111961中對(duì)這類方法的實(shí)例進(jìn)行了描述。但是,這些方法通常速度很慢,成本很高并且容易出現(xiàn)差錯(cuò)。下文中描述的 方法和系統(tǒng)則使用了一種不同的用于對(duì)存儲(chǔ)在表單處理系統(tǒng)外部的遠(yuǎn) 程存儲(chǔ)位置(如表單始發(fā)者或第三方的網(wǎng)站)的表單模板進(jìn)行檢索的 方法。系統(tǒng)20包括表單處理器28,該處理器執(zhí)行與接受和處理已填寫 紙質(zhì)表單相關(guān)聯(lián)的功能。表單處理器28包括輸入設(shè)備32,該設(shè)備獲 取已填寫紙質(zhì)表單,并且將其轉(zhuǎn)換成具有適當(dāng)?shù)挠?jì)算機(jī)可識(shí)別圖形格 式的表單圖像。在某些實(shí)施例中,設(shè)備32包括文檔掃描儀或傳真機(jī)。 在其他實(shí)施例中,已填寫紙質(zhì)表單已經(jīng)以圖形電子格式提交到系統(tǒng) 20。在這類實(shí)施例中,設(shè)備32包括用于接受圖形圖像的合適的輸入接 口。系統(tǒng)20還可以包括幾個(gè)不同的輸入設(shè)備32,以使系統(tǒng)能以不同 方式接受表單。輸入設(shè)備32產(chǎn)生的表單圖像由光學(xué)字符識(shí)別(OCR)模塊36 進(jìn)行處理,該模塊將會(huì)提取填寫在每一個(gè)表單中的信息,并且將其轉(zhuǎn) 換成已識(shí)別文本。為此目的,OCR模塊36可以應(yīng)用本領(lǐng)域已知的任 何適當(dāng)?shù)腛CR處理。在某些實(shí)施例中,OCR處理會(huì)在識(shí)別處理過(guò)程 中使用模板信息。在很多情況下,模板信息使OCR模塊能夠提高識(shí) 別處理的精度和速度。例如,該模板信息可以指引OCR模塊只在表 單的某些區(qū)域搜索文本,由此加速轉(zhuǎn)換處理。另舉一例,當(dāng)模板信息 定義了期望字符類型、值范圍和/或有效性規(guī)則時(shí),該信息將允許檢測(cè) 轉(zhuǎn)換差錯(cuò),由此提高識(shí)別精度。在某些實(shí)施例中,特定表單的模板26保存在表單處理器28外部 的遠(yuǎn)程存儲(chǔ)位置,例如表單始發(fā)者的網(wǎng)站44。舉個(gè)例子,保存在網(wǎng)站 44的模板信息可以包含例如使用可擴(kuò)展標(biāo)記語(yǔ)言(XML )定義的表單 字段描述。這類描述通常定義了每一個(gè)字段中的數(shù)據(jù)類型(例如數(shù)字、 字母數(shù)字或布爾值)和允許值范圍。模板信息可以包括每一個(gè)字段在 表單上的位置坐標(biāo)。此外,模板信息還可以采用印制在表單上的所有 字段名稱的準(zhǔn)確格式來(lái)包含這些字段的名稱,以便簡(jiǎn)化OCR模塊對(duì) 其實(shí)施的識(shí)別處理。作為補(bǔ)充或是備選,模板信息可以包括樣本表單的高質(zhì)量掃描圖像,以及樣本表單的電子表示(例如矢量表示)。另 外如上所述,作為補(bǔ)充或備選,模板信息可以包括有效性規(guī)則列表。表單處理器28包括網(wǎng)絡(luò)接口 40。在提交已填寫紙質(zhì)表單進(jìn)行處 理時(shí),處理器28將會(huì)經(jīng)由接口 40與網(wǎng)站44進(jìn)行通信,以便檢索與所 提交的表單相對(duì)應(yīng)的模板26。通常,處理器28和網(wǎng)站44經(jīng)由因特網(wǎng) 之類的廣域網(wǎng)(WAN) 52進(jìn)行通信。一般來(lái)說(shuō),處理器28包含通用計(jì)算機(jī),其中該計(jì)算機(jī)的軟件將 被編程,以便執(zhí)行這里描述的功能。舉例來(lái)說(shuō),該軟件既可以以電子 形式通過(guò)網(wǎng)絡(luò)下載到計(jì)算機(jī),也可以在CD-ROM之類的有形介質(zhì)上 被提供給計(jì)算機(jī)。此外,作為備選,處理器28的某些要素可以使用硬 件或是軟硬件部件的組合來(lái)實(shí)施。通常,系統(tǒng)20可以包括任意數(shù)量的始發(fā)者網(wǎng)站44以及其他遠(yuǎn)程 存儲(chǔ)位置。每一個(gè)網(wǎng)站44都可以保持多個(gè)模板26,并且每一個(gè)模板 都與始發(fā)者發(fā)布的特定類型的表單相對(duì)應(yīng)。在某些實(shí)施例中,網(wǎng)站44可以由第三方或標(biāo)準(zhǔn)化團(tuán)體來(lái)運(yùn)作。 這類網(wǎng)站可以保持若干個(gè)始發(fā)者的模板以及多于一個(gè)的始發(fā)者使用的 標(biāo)準(zhǔn)模板。例如,第三方組織可以提供一種在組織網(wǎng)站上張貼具有不 同表單類型的模板的服務(wù)。該服務(wù)的用戶將被準(zhǔn)許訪問(wèn)這些遠(yuǎn)程存儲(chǔ) 的模板。與使用本地存儲(chǔ)的模板的方法和系統(tǒng)相比,通過(guò)保持遠(yuǎn)程存儲(chǔ)的 表單模板,可以為始發(fā)者和接收組織實(shí)現(xiàn)相當(dāng)高的操作靈活性。處理 器28可以處理類型廣泛的不同表單,其中某些表單類型有可能會(huì)在沒(méi) 有在先訓(xùn)練的情況下隨時(shí)間而發(fā)生變化。始發(fā)者可以在任何時(shí)間對(duì)紙質(zhì)表單和相關(guān)模板進(jìn)行修改,而不用 預(yù)先與接收組織進(jìn)行協(xié)調(diào)。由此,模板很容易就可以保持最新。在某 些情況下,表單始發(fā)者可以修改模板信息,而不修改已處于流通的紙 質(zhì)表單。此外,遠(yuǎn)程存儲(chǔ)模板的應(yīng)用可以逐步引入,例如通過(guò)提供和/或 使用僅僅一部分模板信息來(lái)引入。在某些實(shí)施例中,多個(gè)表單處理系統(tǒng)可以檢索和使用遠(yuǎn)程存儲(chǔ)的特定模板。在某些實(shí)施例中,通過(guò)使用遠(yuǎn)程存儲(chǔ)的模板,可以提供針對(duì)已處 于流通的紙質(zhì)表單的核實(shí)、驗(yàn)證和/或控制措施。舉例來(lái)說(shuō),如果某種 表單類型廢棄,那么可以移除相應(yīng)的模板,或者可以為模板信息添加一個(gè)廢棄指示。在將已填寫的廢棄表單提交給系統(tǒng)20時(shí),當(dāng)處理器 28試圖檢索其模板時(shí),該處理器將被告知該表單已經(jīng)廢棄。舉例來(lái)說(shuō), 這種核實(shí)方法可以用于識(shí)別和拒絕偽造的支票。 表單處理方法描述圖2是示意性描述根據(jù)本發(fā)明實(shí)施例的紙質(zhì)表單處理方法的流程 圖。在表單提交步驟60,該方法以表單處理器28接受已填寫紙質(zhì)表 單24為開始。輸入設(shè)備32將紙質(zhì)表單轉(zhuǎn)換成表單圖像,并且將該圖 像提供給OCR模塊36。在這個(gè)階段,處理器28并不具有與表單始發(fā) 者的標(biāo)識(shí)或是關(guān)聯(lián)于該表單的模板相關(guān)的先驗(yàn)信息。在標(biāo)識(shí)提取步驟62,處理器28分析已填寫表單,并且從該表單 中提取標(biāo)識(shí)信息。該標(biāo)識(shí)信息通常規(guī)定了可以找到表單模板的遠(yuǎn)程存 儲(chǔ)位置的網(wǎng)絡(luò)地址。例如,該標(biāo)識(shí)信息既可以釆用統(tǒng)一資源定位符 (URL)的形式來(lái)規(guī)定地址,也可以采用始發(fā)者網(wǎng)站44或是存儲(chǔ)有 相關(guān)模板的其他服務(wù)器的網(wǎng)際協(xié)議(IP)地址的形式來(lái)規(guī)定地址,還 可以采用本領(lǐng)域已知的其他任何適當(dāng)?shù)男问絹?lái)規(guī)定地址。作為備選,當(dāng)標(biāo)識(shí)信息沒(méi)有規(guī)定此類地址時(shí),處理器28能夠通 過(guò)識(shí)別與表單始發(fā)者相關(guān)的信息來(lái)確定遠(yuǎn)程存儲(chǔ)位置,其中舉例來(lái)說(shuō), 該信息可以是印制在表單上的公司名、標(biāo)志、電話和/或傳真號(hào)碼。根 據(jù)該標(biāo)識(shí),處理器能夠確定模板的遠(yuǎn)程存儲(chǔ)位置的網(wǎng)絡(luò)地址。此外, 該標(biāo)識(shí)信息通常還包括用于標(biāo)識(shí)特定表單模板的模板標(biāo)識(shí)符或代碼。在某些實(shí)施例中,標(biāo)識(shí)信息是以印制在表單上的相互約定的圖形 編碼格式(例如條形碼)來(lái)進(jìn)行編碼的。(在以下的圖3A和3B中示 出了例示性的一維和二維條形碼圖像)。該條形碼可以印制在表單上 的便利位置,在某些情況下被印制在表單的背面。其他已知的編碼方 法同樣也可以用于這個(gè)目的,例如半色調(diào)編碼或磁墨水字符識(shí)別(MICR)。作為備選,標(biāo)識(shí)信息可以作為文本信息并使用約定的公用術(shù)語(yǔ)印 制在表單上,這種術(shù)語(yǔ)使得OCR模塊能夠容易地標(biāo)識(shí)該信息。舉例 來(lái)說(shuō),在表單頂部可以印制 一 行文本,如"URL: www.orginatorname.com, FORM_ID:76543"。 OCR模塊36可以從該 文本行中提取恰當(dāng)?shù)腢RL和模板標(biāo)識(shí)符。 一般來(lái)說(shuō),標(biāo)識(shí)信息既可 以由OCR模塊提取(例如在使用條形碼或文本信息時(shí)),也可以由 輸入設(shè)備提取(例如在使用MICR時(shí))?,F(xiàn)在,在模板檢索步驟64,處理器28將會(huì)使用所提取的標(biāo)識(shí)信 息來(lái)檢索與所提交的表單相對(duì)應(yīng)的模板。處理器28根據(jù)標(biāo)識(shí)信息指示 的地址來(lái)與恰當(dāng)網(wǎng)站44進(jìn)行通信。從該網(wǎng)站中,處理器28將會(huì)檢索 標(biāo)識(shí)信息中指定的模板標(biāo)識(shí)符所標(biāo)識(shí)的模板。然后,在表單處理步驟66,處理器28將會(huì)使用檢索到的模板來(lái) 處理所提交的表單。通常,OCR模塊36使用模板信息來(lái)標(biāo)識(shí)字段坐 標(biāo)。在這些坐標(biāo)上,OCR模塊將會(huì)識(shí)別已填寫表單的文本條目,并且 將其轉(zhuǎn)換成已識(shí)別文本。然后,對(duì)照在檢索到的模板中規(guī)定的字符類 型、值范圍和/或有效性規(guī)則來(lái)核實(shí)這些已識(shí)別文本。作為補(bǔ)充或備選, 處理器28可以將其他任何適當(dāng)?shù)奶幚砉δ軕?yīng)用于所提交的表單。在某些實(shí)施例中,處理器28可以選擇使用僅僅一部分模板信息。在某些情況下,只有一部分模板信息是遠(yuǎn)程存儲(chǔ)于網(wǎng)站44中的。 對(duì)處理器28來(lái)說(shuō),模板信息的其他部分有可能是預(yù)先已知的,或者這 些信息有可能必須根據(jù)表單本身來(lái)確定。非常理想的是,如果部分使 用和/或存儲(chǔ)模板信息,則可以在與其他表單處理方法并行的情況下漸 進(jìn)地引入遠(yuǎn)程存儲(chǔ)的模板。在某些實(shí)施例中,當(dāng)在遠(yuǎn)程位置僅僅存儲(chǔ) 模板信息的 一部分時(shí),可以例如使用條形碼將模板信息的其他部分編 碼和印制在表單上。在某些實(shí)施例中,整個(gè)模板信息全都編碼在印制于表單之上的計(jì) 算機(jī)可讀符號(hào)中。舉例來(lái)說(shuō),該計(jì)算機(jī)可讀符號(hào)可以包括二維條形碼。 在這些實(shí)施例中,處理器28對(duì)計(jì)算機(jī)可讀符號(hào)進(jìn)行解碼以提取模板信息,而不用檢索任何遠(yuǎn)程存儲(chǔ)的信息。該符號(hào)可以印制在表單的正面 或反面的任何便利位置。該模板信息可以包括模板標(biāo)識(shí)符。圖3A和3B是根據(jù)本發(fā)明實(shí)施例的用于表單處理的條形碼圖像。 圖3A顯示的是示例性一維條形碼圖像70。這種一維編碼能夠傳遞大 約15字節(jié)的信息,由此主要用于對(duì)數(shù)字索引進(jìn)行編碼。圖3B示出了依照公知的PDF417標(biāo)準(zhǔn)的示例性二維條形碼圖像 74。這種二維條形碼的大小大約是1平方英寸,并且可以編碼多達(dá)2710 個(gè)字符或字節(jié)的信息。舉例來(lái)說(shuō),如果較為理想的是只在遠(yuǎn)程存儲(chǔ)模 板信息的一部分,并且將模板信息的其他部分內(nèi)置在表單自身當(dāng)中, 那么可以結(jié)合上文中的圖2的方法一起來(lái)使用二維條形碼。舉個(gè)例子,下文中的文本示出了可以編碼在諸如圖像74之類的 二維條形碼圖像之中的模板定義7Vw:IW7V,, 50, ,, 2卯朋iV職風(fēng)風(fēng)必C一^2XDJ^5W C 96, 459,風(fēng)5" 五C/ry爿/卵,W6, 3W, ,贏"96, 7W,風(fēng)5C一五5T^r五j風(fēng)"7,風(fēng)朋7V風(fēng)7367,風(fēng)"47 『2一3及Z)/M及7T一i^XJG5 W, 7579, 273, 『2一F五i)一raiV肌"94, 3 ", / 7 『2一MEZ)/C4及五一W(^諸職20", 房2 ^2一備"/C4i^一柳7V2W, 2琪25/, W^PEiVSJOTVi^JiV—FZ^G J5 96, "70, 2W, 2536 『2—M一^4G^7V卯,2670, M6, 『2_5^_『^riV/^, 2《35, 2", 2"4 『2一5X47I/TORI!PXJG^ 7M, 3。26, 3卯,M卯 『_2一 W 7V卵,3単,,在以上文本中,每一行都定義了表單中的某一個(gè)字段。第一列規(guī)定的是字段名。每一行中的第二個(gè)條目規(guī)定的是字段類型,其中N表 示數(shù)字字段,A表示字母數(shù)字字段,B表示布爾值字段或標(biāo)志。剩余 的四個(gè)條目通過(guò)給出字段兩個(gè)對(duì)角的坐標(biāo)(以毫米為單位)而規(guī)定了字段在表單中的位置。例如,用TaxYear表示的字段是位于由紙質(zhì)表 單上的拐角坐標(biāo)(100, 50)和(300, 100)所限定的矩形之中的數(shù)字 字段。雖然這里描述的實(shí)施例主要通過(guò)檢索遠(yuǎn)程存儲(chǔ)的模板來(lái)解決紙 質(zhì)表單處理的問(wèn)題,但是,這里描述的方法和系統(tǒng)還可以用于處理符合模板的其他類型的紙質(zhì)文檔和對(duì)象。這里描述的方法和系統(tǒng)還可以用于將電子表示的表單(E-form ) 從一種格式或標(biāo)準(zhǔn)轉(zhuǎn)換成另 一種格式或標(biāo)準(zhǔn)。這種轉(zhuǎn)換既可以使用遠(yuǎn) 程存儲(chǔ)的轉(zhuǎn)換模板來(lái)進(jìn)行,也可以使用源和目標(biāo)E-form的遠(yuǎn)程存儲(chǔ) 模板來(lái)進(jìn)行。由此可以預(yù)見(jiàn),上述實(shí)施例是作為示例而被引證的,本發(fā)明并不 局限于上文中具體示出和描述的內(nèi)容。相反,本發(fā)明的范圍不但包含 了上述各種特征的組合和子組合,而且還包含了本領(lǐng)域技術(shù)人員在閱 讀上文的描述時(shí)所能想到并且在現(xiàn)有技術(shù)中并未公開的上述各種特征 的變化和修改。
權(quán)利要求
1. 一種用于處理表單的計(jì)算機(jī)實(shí)現(xiàn)方法,包括以下步驟在具有本地存儲(chǔ)器的計(jì)算機(jī)系統(tǒng)上接受符合模板的表單;使用該計(jì)算機(jī)系統(tǒng)從該表單中提取標(biāo)識(shí)信息,該標(biāo)識(shí)信息指示的 是存儲(chǔ)有模板的遠(yuǎn)程存儲(chǔ)位置相對(duì)于該計(jì)算機(jī)系統(tǒng)的網(wǎng)絡(luò)地址;響應(yīng)于標(biāo)識(shí)信息,通過(guò)與遠(yuǎn)程存儲(chǔ)位置進(jìn)行通信來(lái)檢索模板;以及響應(yīng)于檢索到的模板,對(duì)表單進(jìn)行處理。
2. 根據(jù)權(quán)利要求1所述的方法,其中計(jì)算機(jī)系統(tǒng)與第一組織相 關(guān)聯(lián),并且其中遠(yuǎn)程存儲(chǔ)位置與不同于第 一組織的第二組織相關(guān)聯(lián)。
3. 根據(jù)權(quán)利要求1所述的方法,其中提取標(biāo)識(shí)信息的步驟包括 以下各步驟中的至少一個(gè)對(duì)經(jīng)過(guò)圖形編碼的圖像進(jìn)行解碼;以及 使用光學(xué)字符識(shí)別(OCR)處理來(lái)識(shí)別文本信息。
4. 根據(jù)權(quán)利要求3所述的方法,其中經(jīng)過(guò)圖形編碼的圖像包括 用于對(duì)標(biāo)識(shí)信息進(jìn)行編碼的條形碼圖像。
5. 根據(jù)權(quán)利要求1所述的方法,其中提取標(biāo)識(shí)信息的步驟包括 除了網(wǎng)絡(luò)地址之外,還提取用于標(biāo)識(shí)模板的標(biāo)識(shí)符;并且其中檢索模 板的步驟包括使用該標(biāo)識(shí)符從存儲(chǔ)在遠(yuǎn)程存儲(chǔ)位置處的多個(gè)模板中 選擇遠(yuǎn)程存儲(chǔ)位置中的模板。
6. 根據(jù)權(quán)利要求1所述的方法,其中模板包括模板信息,其中 所述模板信息的 一部分被內(nèi)置在表單中,并且其中提取標(biāo)識(shí)信息的步 驟包括除了從遠(yuǎn)程存儲(chǔ)位置檢索模板之外,還從表單中提取所述模 板信息的所述部分。
7. 根據(jù)權(quán)利要求l所述的方法,其中提取標(biāo)識(shí)信息的步驟包括 通過(guò)識(shí)別表單中與模板始發(fā)者相關(guān)的信息來(lái)確定遠(yuǎn)程存儲(chǔ)位置的網(wǎng)絡(luò) 地址。
8. —種用于處理表單的計(jì)算機(jī)實(shí)現(xiàn)方法,包括將模板信息編碼在與表單相關(guān)聯(lián)的計(jì)算機(jī)可讀符號(hào)中,其中該模 板信息包括與模板字段相關(guān)聯(lián)的幾何信息以及與模板字段內(nèi)容相關(guān)聯(lián)的內(nèi)容相關(guān)信息中的至少一項(xiàng); 接受符合該模板的表單;從表單中解碼出計(jì)算機(jī)可讀符號(hào),以提取模板信息;以及 響應(yīng)于所述提取的模板信息來(lái)處理表單。
9. 根據(jù)權(quán)利要求8所述的方法,其中計(jì)算機(jī)可讀符號(hào)包括條形 碼圖像。
10. 根據(jù)權(quán)利要求8所述的方法,其中模板信息還包括用于標(biāo)識(shí) 模板的標(biāo)識(shí)符。
11. 根據(jù)權(quán)利要求8所述的方法,其中對(duì)模板信息進(jìn)行編碼的步 驟包括將用于指示遠(yuǎn)程存儲(chǔ)位置的網(wǎng)絡(luò)地址的標(biāo)識(shí)信息編碼在計(jì)算 機(jī)可讀符號(hào)中,其中該遠(yuǎn)程存儲(chǔ)位置存儲(chǔ)了所述模板的至少一部分, 并且其中對(duì)表單進(jìn)行處理的步驟包括通過(guò)經(jīng)由廣域網(wǎng)(WAN)與遠(yuǎn) 程存儲(chǔ)位置進(jìn)行通信來(lái)檢索所述模板的所述至少一部分。
12. —種計(jì)算機(jī)可讀表單,包括印制有模板并且印制有計(jì)算機(jī)可 讀符號(hào)的頁(yè)面,該計(jì)算機(jī)可讀符號(hào)對(duì)模板信息進(jìn)行編碼,該模板信息 包括與模板字段相關(guān)聯(lián)的幾何信息以及與模板字段內(nèi)容相關(guān)聯(lián)的內(nèi)容 相關(guān)信息中的至少一項(xiàng),由此,當(dāng)接收到表單的圖像時(shí),使得計(jì)算機(jī) 能夠從符號(hào)中提取模板信息,并使用該模板信息來(lái)重構(gòu)模板。
13. 根據(jù)權(quán)利要求12所述的表單,其中該計(jì)算機(jī)可讀符號(hào)包括 條形碼圖像。
14. 根據(jù)權(quán)利要求12所述的表單,其中計(jì)算機(jī)可讀符號(hào)還對(duì)標(biāo) 識(shí)模板的標(biāo)識(shí)符進(jìn)行編碼。
15. 根據(jù)權(quán)利要求12所述的表單,其中計(jì)算機(jī)可讀符號(hào)還對(duì)用 于指示遠(yuǎn)程存儲(chǔ)位置的網(wǎng)絡(luò)地址的標(biāo)識(shí)信息進(jìn)行編碼,并且所述遠(yuǎn)程 存儲(chǔ)位置存儲(chǔ)有所述模板的至少一部分,由此使得計(jì)算機(jī)能夠從符號(hào) 中提取標(biāo)識(shí)信息并且通過(guò)借助廣域網(wǎng)(WAN)與遠(yuǎn)程存儲(chǔ)位置進(jìn)行通 信來(lái)檢索所述模板的所述至少一部分。
16. —種用于處理表單的設(shè)備,其中該設(shè)備能夠與被配置成接受 表單的輸入設(shè)備以及網(wǎng)絡(luò)接口進(jìn)行協(xié)作,并且該設(shè)備包括處理器,它被配置成從表單中提取標(biāo)識(shí)信息,該標(biāo)識(shí)信息指示的是遠(yuǎn)程存儲(chǔ)位 置的網(wǎng)絡(luò)地址,響應(yīng)于標(biāo)識(shí)信息,通過(guò)使用網(wǎng)絡(luò)接口與遠(yuǎn)程存儲(chǔ)位置進(jìn)行 通信來(lái)檢索模板;以及響應(yīng)于檢索到的模板來(lái)對(duì)表單進(jìn)行處理。
17. 根據(jù)權(quán)利要求16所述的設(shè)備,其中該設(shè)備與第一組織相關(guān) 聯(lián),并且其中遠(yuǎn)程存儲(chǔ)位置與不同于第一組織的第二組織相關(guān)聯(lián)。
18. 根據(jù)權(quán)利要求16所述的設(shè)備,其中該處理器被配置成通過(guò)執(zhí)行下列各項(xiàng)中的至少 一項(xiàng)來(lái)提取標(biāo)識(shí)信息對(duì)與表單相關(guān)聯(lián)的經(jīng)過(guò)圖形編碼的圖像進(jìn)行解碼;以及使用光學(xué)字符識(shí)別(OCR)處理來(lái)識(shí)別文本信息。
19. 根據(jù)權(quán)利要求18所述的設(shè)備,其中經(jīng)過(guò)圖形編碼的圖像包 括用于對(duì)標(biāo)識(shí)信息進(jìn)行編碼的條形碼圖像。
20. 根據(jù)權(quán)利要求16所述的設(shè)備,其中所述處理器被配置成 除了網(wǎng)絡(luò)地址之外,還提取用于標(biāo)識(shí)模板的標(biāo)識(shí)符;以及 通過(guò)使用該標(biāo)識(shí)符從存儲(chǔ)在遠(yuǎn)程存儲(chǔ)位置處的多個(gè)模板中選擇遠(yuǎn)程存儲(chǔ)位置中的模板,來(lái)檢索該模板。
21. 根據(jù)權(quán)利要求16所述的設(shè)備,其中所述模板包括模板信息, 其中所述模板信息的一部分被內(nèi)置在表單中,并且其中該處理器被配 置成除了從遠(yuǎn)程存儲(chǔ)位置檢索模板之外,還從表單中提取所述模板 信息的所述部分。
22. 根據(jù)權(quán)利要求16所述的設(shè)備,其中該處理器被配置成通過(guò) 識(shí)別表單中與模板始發(fā)者相關(guān)的信息來(lái)確定遠(yuǎn)程存儲(chǔ)位置的網(wǎng)絡(luò)地 址。
23. —種用于處理表單的系統(tǒng),包括一個(gè)或多個(gè)遠(yuǎn)程服務(wù)器,它們被配置成存儲(chǔ)表單模板;以及表單處理器,它被配置成接受符合模板的表單;從表單中提取標(biāo)識(shí)信息,該標(biāo)識(shí)信息指示的是一 個(gè)或多個(gè) 遠(yuǎn)程服務(wù)器中的選定服務(wù)器的網(wǎng)絡(luò)地址;響應(yīng)于該標(biāo)識(shí)信息,通過(guò)與選定服務(wù)器進(jìn)行通信來(lái)檢索模板;以及響應(yīng)于檢索到的模板,對(duì)表單進(jìn)行處理。 24. —種計(jì)算機(jī)程序,包括當(dāng)所述程序在計(jì)算機(jī)上運(yùn)行時(shí)適于執(zhí) 行權(quán)利要求1 11中任一權(quán)利要求中的所有步驟的程序代碼裝置。
全文摘要
本發(fā)明涉及使用遠(yuǎn)程存儲(chǔ)的模板的表單自動(dòng)化處理。一種用于處理表單的計(jì)算機(jī)實(shí)現(xiàn)方法,包括在具有本地存儲(chǔ)器的計(jì)算機(jī)系統(tǒng)上接受符合模板的表單,其中該模板并未存儲(chǔ)在本地存儲(chǔ)器中。通過(guò)使用計(jì)算機(jī)系統(tǒng),從表單中提取標(biāo)識(shí)信息,該標(biāo)識(shí)信息指示的是處于計(jì)算機(jī)系統(tǒng)外部并且存儲(chǔ)有所述模板的遠(yuǎn)程存儲(chǔ)位置的網(wǎng)絡(luò)地址。響應(yīng)于標(biāo)識(shí)信息,通過(guò)經(jīng)由廣域網(wǎng)(WAN)與遠(yuǎn)程存儲(chǔ)位置進(jìn)行通信來(lái)檢索該模板。響應(yīng)于檢索到的模板,對(duì)表單進(jìn)行處理。
文檔編號(hào)G06K9/20GK101313299SQ200680043413
公開日2008年11月26日 申請(qǐng)日期2006年12月5日 優(yōu)先權(quán)日2006年1月4日
發(fā)明者A·格瓦, E·卡寧, E·瓦萊奇 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司