專利名稱:圖像識別裝置和識別方法及記錄圖像識別程序的存儲介質(zhì)的制作方法
技術領域:
本發(fā)明涉及圖像識別裝置、圖像識別方法,及記錄圖像識別程序的 存儲介質(zhì)。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的圖像識別裝置對圖像中的字符串與組成邏輯結(jié)構的邏 輯元素之間的對應關系進行識別,其中所述字符串被描述為多個所述邏 輯元素以識別每個邏輯元素。所述圖像識別裝置包括輸出裝置,其用 于在識別或重新識別所述對應關系時,輸出所識別的多個邏輯元素;第 一確定裝置,其用于在從識別出所述輸出裝置輸出的所述識別結(jié)果的用 戶接收到用于確定接收到所述邏輯元素的確定請求的輸入時,所述第一 確定裝置用于確定所述多個邏輯元素中的特定邏輯元素是正確的;第二 確定裝置,其用于確定在所述第一確定裝置確定的所述邏輯元素之前輸 出的并根據(jù)所述用戶進行的確認而定位的所有所述邏輯元素的正確性; 以及重新識別裝置,其用于基于所述第一確定裝置和所述第二確定裝置 確定為正確的每個邏輯元素的確定內(nèi)容,來重新識別仍未被確定為正確 的邏輯元素與所述字符串之間的對應關系。
圖1是用于描述根據(jù)第一實施方式的圖像識別裝置的概況和特征的
圖2是示出根據(jù)第一實施方式的圖像識別裝置的結(jié)構的實施例的框
圖3圖示表格圖4是用于描述識別結(jié)果顯示屏面的圖;圖5A和5B是用于描述邏輯結(jié)構模型存儲部件的圖6是用于描述識別結(jié)果顯示緩沖器的圖7是用于描述糾錯操作的圖8A到8D是用于描述邏輯元素的自動確定的圖9A到9B是用于描述(轉(zhuǎn)換后的)邏輯結(jié)構存儲部件的圖IOA和10B是用于描述糾錯操作的圖11是示出根據(jù)第一實施方式的圖像識別裝置執(zhí)行的處理的實施例 的流程圖12是用于描述另一識別結(jié)果顯示屏面的圖13A和13B是用于描述根據(jù)第二實施方式的圖像識別裝置的概況 和特征的圖14是示出根據(jù)第二實施方式的圖像識別裝置的結(jié)構的實施例的框
圖15A和15B是用于描述識別結(jié)果顯示緩沖器和重新識別結(jié)果緩沖 器的圖16是示出根據(jù)第二實施方式的圖像識別裝置執(zhí)行的處理的實施例 的流程圖17A和17B是用于描述另一識別結(jié)果顯示屏面的圖; 圖18A和18B是用于描述根據(jù)第三實施方式的圖像識別裝置的概況 和特征的圖19A和19B是用于描述識別結(jié)果顯示緩沖器和重新識別結(jié)果緩沖 器的圖20是示出根據(jù)第三實施方式的圖像識別裝置執(zhí)行的處理的實施例 的流程圖21A和21B是用于描述另一識別結(jié)果顯示屏面的圖;以及 圖22是示出執(zhí)行圖像識別程序的計算機的結(jié)構的實施例的框圖。
具體實施例方式
近年來,商業(yè)的計算機化伴隨著對各種類型的計算機化文檔的使用。因此,增加了將紙質(zhì)文檔轉(zhuǎn)換成計算機化文檔的圖像識別技術的重要性。
圖像識別技術包括光學字符讀取器(OCR)或光學字符識別(OCR)。 然而,通過圖像識別技術進行的文檔識別可能在識別結(jié)果中產(chǎn)生錯
誤。在這種情況中,用戶通過從視覺上對輸入的文檔中的字符串與識別
結(jié)果中的字符串進行比較,來糾正識別結(jié)果中的錯誤。
日本特開平No.5-158605公開了一種基于在數(shù)據(jù)輸入裝置中輸入的
數(shù)據(jù)項來限制要輸入的數(shù)據(jù)項的技術,在所述數(shù)據(jù)輸入裝置中,用戶按
順序輸入這些數(shù)據(jù)項。
上面描述的相關領域中的技術具有糾正操作的負荷變得更重的問
題。例如,假設在處理因客戶而不同或者因交易而不同的大量表格的銀
行中執(zhí)行上面的糾正操作,則這種糾正操作可能耗費許多工時并導致增
加的工作負荷。
實現(xiàn)下面描述的本發(fā)明的實施方式以解決上面的問題并減小糾正操 作的負荷。
根據(jù)本發(fā)明實施方式的圖像識別裝置防止未確定的邏輯元素(即仍 未確定為正確的邏輯元素)變得更差。
這里將參照附圖詳細描述本發(fā)明的實施方式?,F(xiàn)在將描述這些實施 方式中使用的主要術語、根據(jù)第一實施方式的圖像識別裝置的概況、根 據(jù)第一實施方式的圖像識別裝置的結(jié)構,以及根據(jù)第一實施方式的圖像 識別裝置中的處理,隨后再描述其他實施方式。
第一實施方式
術語的描述
現(xiàn)在將描述本發(fā)明的實施方式中使用的主要術語。這些實施方式中 使用的"圖像"意指其中字符串被描述為組成特定邏輯結(jié)構的多個邏輯 元素的圖像。例如,"圖像"可以意指表格圖像。假設表格圖像包括其中 輸入"姓名"、"地址"以及"電話號碼"作為用戶信息的項,和其中輸 入"地址"和"電話號碼"作為辦公信息的項,并且假設字符串被表述 在表格圖像中的每個項中。在這種表格圖像中,"邏輯結(jié)構"意指這樣的 結(jié)構,在所述結(jié)構中,"姓名"、"地址"以及"電話號碼"位于"用戶信息"下方,"地址"和"電話號碼"位于"辦公信息"下方,而"用戶信 息"位于和"辦公信息"相同的層次中。"姓名"、"地址"以及"電話號 碼"等對應于組成"邏輯結(jié)構"的"邏輯元素"。換言之,例如,"邏輯 結(jié)構"被設置為由多個項有意或無意形成的結(jié)構,并且當表格圖像的格 式的創(chuàng)建者創(chuàng)建該表格圖像的格式時,所述多個項被設置為"邏輯元素"。 當圖像識別裝置處理該表格圖像時,該表格圖像中由多個項形成的結(jié)構 被處理為"邏輯結(jié)構",而所述多個項被處理為"邏輯元素"。"圖像"并 不限于表格圖像,而可以是任何圖像,例如問巻圖像,只要在字符串被 表述在每個項中即可。
根據(jù)第一實施方式的"圖像識別裝置"識別字符串與邏輯元素之間 的對應關系,以識別這種圖像中的每個邏輯元素。例如,"圖像識別裝置"
通過諸如OCR的圖像識別技術識別表格圖像中描述的每個字符串。此外, "圖像識別裝置"通過使用例如邏輯結(jié)構模型來識別每個字符串被描述 為哪種邏輯元素。例如,"圖像識別裝置"通過使用諸如OCR的圖像識 別技術來識別被手寫為"David Sm他"的字符串"David Sm他",并識別 出字符串"David Smith"被描述為邏輯元素"姓名",以識別表格圖像中 的每個邏輯元素。在下面描述的這些實施方式中,這種識別被適當?shù)胤Q 為"邏輯結(jié)構識別"或"識別邏輯結(jié)構"。
然而,"圖像識別裝置"并不總是正確地識別字符串與邏輯元素之間 的對應關系,而可能獲得錯誤的識別結(jié)果。"圖像識別裝置"可能錯誤地 識別表格圖像的各個邏輯元素。例如,"圖像識別裝置"可能將手寫地址 "111 llth Avenue East, Suite 11, Seattle, WA"錯誤地識別為"777 11th Avenue East, Suite 11, Seattle, WA;",或者"圖像識別裝置"可能將針對 "office (辦公)"地址寫的地址"111 llth Avenue East, Suite 11, Seattle, WA"錯誤地識別為"home (家庭)"地址。在這種情況中,執(zhí)行糾正操 作來糾正識別結(jié)果中的任何錯誤。提供根據(jù)第一實施方式的"圖像識別 裝置"用于減小糾正操作的負荷。
根據(jù)第一實施方式的圖像識別裝置的概況
現(xiàn)在將參照圖1描述根據(jù)第一實施方式的圖像識別裝置的概況。圖1
8是描述根據(jù)第一實施方式的圖像識別裝置的概況的圖。
如上文所述,根據(jù)第一實施方式的圖像識別裝置識別圖像中字符串 與多個邏輯元素之間的對應關系,以識別每個邏輯元素從而減小糾正操 作的負荷,在所述圖像中,字符串被描述為組成特定邏輯結(jié)構的邏輯元 素。
例如,根據(jù)第一實施方式的圖像識別裝置識別圖1中上半部分中示 出的表格圖像內(nèi)的每個邏輯元素。具體的是,該圖像識別裝置識別該表 格圖像中字符串與多個邏輯元素之間的對應關系,在所述表格圖像中, 作為用戶信息的字符串"姓名"、作為辦公信息的字符串"地址"和"電 話號碼",以及作為用戶信息的字符串"地址"和"電話號碼"被描述為 邏輯元素。
如圖1中下半部分中所示,根據(jù)第一實施方式的圖像識別裝置存儲 被表示為圖1中樹結(jié)構的概念的邏輯結(jié)構模型,并且基于該邏輯結(jié)構模 型來識別邏輯結(jié)構。具體的是,圖像識別裝置存儲這樣的邏輯結(jié)構模型, 所述邏輯結(jié)構模型被設置成對應于其中"姓名"、"地址"以及"電話號 碼"位于"用戶信息"下方,"地址"和"電話號碼"位于辦公信息的下 方,而"用戶信息"位于和"辦公信息"相同的層次內(nèi)的結(jié)構。在該邏 輯結(jié)構模型中還可設置位置關系,例如其中在"用戶信息"下方描述"辦 公信息"。
在上面的結(jié)構中,當根據(jù)第一實施方式的圖像識別裝置識別表格圖 像(參照圖1中的(l))的邏輯結(jié)構時,該圖像識別裝置以特定順序(參
照圖1中的(2))將作為識別結(jié)果的多個邏輯元素輸出到輸出單元。例 如,圖像識別裝置按照下面的順序?qū)⒆鳛橛脩粜畔⒅械?姓名"的"David Smith"、作為用戶信息中的"地址"的"llth Avenue East, Suite 11, Seattle, WA"、作為用戶信息中的"電話號碼"的"888-444-5555",作為辦公信 息中的"地址"的"Apple Street,#lll,Seattle,WA",以及作為辦公信息中 的"電話號碼"的"999-666-7777"輸出到輸出單元。如從圖1中上半部 分中示出的表格圖像(應用)的內(nèi)容可見,圖像識別裝置錯誤地顛倒了 用戶信息中的"地址"和"電話號碼"與辦公信息中的"地址"和"電話號碼"。
當圖像識別裝置從確認識別結(jié)果的用戶處接收到用于確定多個邏輯 元素中的特定邏輯元素正確的確定請求的輸入時,圖像識別裝置確定該 特定邏輯元素是正確的(參照圖l中的(3))。例如,當圖像識別裝置從
用戶處接收到確定請求的輸入,從而確定用戶信息中的"地址"不是"llth Avenue East, Suite 11, Seattle, WA"而是"Apple Street, #111, Seattle, WA"
時,圖像識別裝置確定該"地址"正確。
然后,圖像識別裝置確定在確定的特定邏輯元素之前被輸出、并且 根據(jù)用戶的確認(參照圖1中的(4))而定位的所有邏輯元素的正確性。 例如,假設用戶通常在圖1中的(2)示出的輸出中從頂至底順序地逐一 確認這些項。在這種情況中,在確定的邏輯元素(用戶信息中的"地址") 之前被輸出、并且根據(jù)用戶的確認而定位的邏輯元素意指定位在用戶信 息中的"地址"上方的邏輯元素。用戶信息中的"姓名"對應于在確定 的邏輯元素之前輸出的邏輯元素,并且對應于根據(jù)用戶的確認被定位的 邏輯元素。因此,圖像識別裝置還確定用戶信息中的"姓名"是正確的。
根據(jù)第一實施方式,用確定的字符串替換圖像識別裝置中存儲的邏 輯結(jié)構模型中被確定要糾正的邏輯元素,如圖1中的(3)和(4)所示, 并且轉(zhuǎn)換邏輯結(jié)構模型本身。
然后,根據(jù)第一實施方式的圖像識別裝置基于針對要糾正的邏輯元 素的確定內(nèi)容,來重新識別仍未被確定為正確的邏輯元素的邏輯結(jié)構。 因此,通過在圖像識別裝置中以特定順序輸出重新識別結(jié)果來給出圖1 中的(5)。例如,圖像識別裝置基于轉(zhuǎn)換的邏輯結(jié)構模型來識別字符串 與邏輯元素之間的對應關系。具體來說,圖像識別裝置重新識別用戶信 息中的"電話號碼"和辦公信息中的"地址"和"電話號碼",以獲得 "999-666-7777"、 "11th Avenue East, Suite 11, Seattle, WA,"以及 "888-444-5555"作為重新識別的結(jié)果。如從圖1中(2)的輸出和圖1 中(5)的輸出之間的比較所見,(2)中的輸出與(5)中的輸出在用戶 信息內(nèi)的"電話號碼"和辦公信息內(nèi)的"地址"和"電話號碼"方面不 同。換言之,重新識別的結(jié)果中反映出確定的內(nèi)容。
10根據(jù)第一實施方式的圖像識別裝置以上面方式可以減小糾正操作的 負荷。在圖1中示出的實施例中通過圖像識別裝置進行的第一識別的結(jié) 果中,錯誤地識別了用戶信息中除了 "姓名"以外的所有信息,并且需 要用戶糾正或者確定所有被錯誤識別的項。然后,當確定用戶信息中的 "地址"為正確時,根據(jù)第一實施方式的圖像識別裝置確定不僅用戶信 息中的"地址"為正確,而且其中的"姓名"為正確,并且重新識別這 些信息。因此,能夠減少用戶必須按順序確定的項的數(shù)目。此外,例如, 用戶信息中的"地址"和其中的"電話號碼"之間的不一致表明用戶信 息中的"電話號碼"不正確,并且用戶信息中的"地址"和辦公信息中 的"地址"的不一致表明辦公信息不正確。因此,在某些情況中,可以 減少或者甚至消除用戶必須按順序糾正的項的數(shù)目。
如上面所描述的,當用戶確定或糾正特定邏輯元素時,根據(jù)第一實 施方式的圖像識別裝置參考具有固定的確定邏輯元素的邏輯結(jié)構模型, 并立即重新識別邏輯結(jié)構以改善其他未確定邏輯元素的識別結(jié)果。如果 針對未確定邏輯元素的識別結(jié)果的候選數(shù)被減小為1,則能夠確定該邏輯 元素。因此,因為用戶確定或糾正的結(jié)果可以被用來確定其他邏輯元素, 所以能夠減小用戶的糾正操作的負荷。
根據(jù)第一實施方式的圖像識別裝置的結(jié)構
現(xiàn)在將參照圖2到10描述根據(jù)第一實施方式的圖像識別裝置。圖2 是示出根據(jù)第一實施方式的圖像識別裝置的結(jié)構的實施例的框圖。圖3 例示了表格圖像。圖4是用于描述識別結(jié)果顯示屏面的圖。圖5A和5B 是用于描述邏輯結(jié)構模型存儲部件的圖。圖6是用于描述識別結(jié)果顯示 緩沖器的圖。圖7是用于描述糾錯操作的圖。圖8A到8D是用于描述邏 輯元素的自動確定的圖。圖9A到9B是用于描述邏輯結(jié)構模型存儲部件 (轉(zhuǎn)換后)的圖。圖10A和10B是用于描述糾錯操作的圖。
參照圖2,根據(jù)第一實施方式的圖像識別裝置10包括圖像輸入單元 11、用戶操作輸入單元12、顯示單元13、第一存儲單元20、第二存儲單 元25以及控制單元30。
圖像輸入單元11接收表格圖像。具體的是,圖像輸入單元11接收要通過圖像識別裝置IO識別的表格圖像,并將該表格圖像提供給下面描 述的字符串識別器31。例如,可以通過掃描儀實現(xiàn)圖像輸入單元11,或 者可以通過將另一裝置讀取的表格圖像(圖像數(shù)據(jù))預先存儲在存儲器
中并將該表格圖像提供給字符串識別器31的功能來實現(xiàn)圖像輸入單元11。
現(xiàn)在將利用實施例來描述圖像輸入單元11接收到的表格圖像。例如,
圖像輸入單元11接收圖3中示出的表格圖像。圖3中示出的表格圖像具 有這樣的邏輯結(jié)構,其中"姓名"、"地址"以及"電話號碼"被定位于 "用戶信息"的下方,"地址"和"電話號碼"被定位于"辦公信息"的 下方,而"用戶信息"被定位在與"辦公信息"相同的層次內(nèi)。圖3中 示出的表格圖像的邏輯結(jié)構指示這樣的位置關系,其中在"用戶信息" 中的"姓名"下方描述"辦公信息"中的"地址"和"電話號碼",在所 述"用戶信息"下方描述用戶信息中的"地址"和"電話號碼"。圖像識 別裝置IO要識別的圖像并不限于圖3中示出的表格圖像,而可以是任何 圖像,例如其中為多個問題給出答案的問巻圖像,只要字符串被表述在 每個項中即可。圖像識別裝置IO要識別的圖像并不限于其中手寫字符串 的圖像,例如圖3中示出的圖像。
回來參照圖2,用戶操作輸入單元12接收用戶確認圖像識別裝置10 的識別結(jié)果的操作。具體的是,操作輸入單元12接收用于確定多個邏輯 元素中的特定邏輯元素為正確地確定請求的輸入,并且將該確定請求提 供給下面描述的第一邏輯元素確定器34。用戶操作輸入單元12通常由鼠 標和鍵盤實現(xiàn)。
顯示單元13顯示圖像識別裝置10中的識別結(jié)果。具體的是,顯示 單元13顯示由下面描述的識別結(jié)果顯示緩沖器26中存儲的、通過下面 描述的識別結(jié)果輸出器33輸出的識別結(jié)果。顯示單元13通常通過顯示 設備實現(xiàn)。注意,顯示單元13對應于權利要求書中描述的"輸出器"。
現(xiàn)在將利用實施例來描述顯示單元13中顯示的識別結(jié)果。例如,顯 示單元13將圖4中右半部分中示出的屏面顯示為識別結(jié)果顯示屏面。在 圖4中的左半部分中示出要識別的表格圖像,而在圖4中的右半部分中示出識別結(jié)果。在本實施例中,通過比較圖4的左半部分和右半部分, 顯然圖像識別裝置10錯誤地顛倒了用戶信息中的"地址"和"電話號碼" 與辦公信息中的"地址"和"電話號碼"。
返回參照圖2,諸如只讀存儲器(ROM)的第一存儲單元20存儲控 制單元30執(zhí)行的各種處理中使用的數(shù)據(jù)。第一存儲單元20包括作為與 第一實施方式緊密相關的組件的字符識別字典存儲部件21和邏輯結(jié)構模 型存儲部件22。
字符識別字典存儲部件21存儲在通過使用諸如OCR的圖像識別技 術的字符串識別中使用的字典。具體的是,字符識別字典存儲部件21存 儲字符串的識別中使用的字典,并且存儲的字典被用于由下面描述的字 符串識別器31進行的處理。
邏輯結(jié)構模型存儲部件22存儲由圖像識別裝置10用來識別表格圖 像的邏輯結(jié)構的邏輯結(jié)構模型。具體的是,邏輯結(jié)構模型存儲部件22存 儲用于表格圖像中的每個邏輯元素的識別的邏輯結(jié)構模型。存儲的邏輯 結(jié)構模型被用于由下面描述的邏輯結(jié)構識別器32進行的處理。例如,邏 輯結(jié)構模型存儲部件22存儲這樣的邏輯結(jié)構模型,其中的邏輯結(jié)構與邏 輯元素由用戶等使用圖像識別裝置IO預先適當設計并準備。
現(xiàn)在將利用實施例來描述邏輯結(jié)構模型存儲部件22中存儲的邏輯結(jié) 構模型。例如,邏輯結(jié)構模型存儲部件22存儲圖5A和5B中示出的邏 輯結(jié)構模型。實際上,圖5A和5B中示出的邏輯結(jié)構模型在概念上可由 實際上存儲在第一存儲單元20中的如圖5A中示出的樹結(jié)構和如圖5B 中示出的表結(jié)構來表示。
在圖5B中示出的表結(jié)構中,在每行中描述每個邏輯元素的類型。從 左開始按順序描述每個邏輯元素的ID號、邏輯元素的名稱、樹結(jié)構中邏 輯元素的層次、樹結(jié)構中邏輯元素的父節(jié)點的ID號、邏輯元素之間的位 置關系、屬性以及數(shù)據(jù)字符串的內(nèi)容。例如,位置關系指示項"姓"在 右側(cè)具有包括"ID-6"的項"姓名"。在位置關系中描述邏輯元素之間的 相對位置關系。樹結(jié)構中具有實體的項具有"節(jié)點"屬性,而不具有實 體并且為語義相關項的集合的項具有"組"屬性。針對每個節(jié)點描述字符串應該滿足的字符條件。例如,針對"電話號碼"定義包括"數(shù)字串" 和"_"的字符類型。
返回參照圖2,諸如隨機訪問存儲器(RAM)的第二存儲單元25存 儲在由控制單元30執(zhí)行的各種處理中使用的數(shù)據(jù)。如圖2中所示,第二 存儲單元25包括作為與第一實施方式緊密相關的組件的識別結(jié)果顯示緩 沖器26。
識別結(jié)果顯示緩沖器26存儲圖像識別裝置10的識別結(jié)果。具體的 是,識別結(jié)果顯示緩沖器26存儲下面描述的字符串識別器31和邏輯結(jié) 構識別器32的識別結(jié)果。存儲的識別結(jié)果被用于下面描述的識別結(jié)果輸 出器33中的處理,并且被顯示在顯示單元13中。
現(xiàn)在將利用實施例來描述識別結(jié)果顯示緩沖器26中存儲的識別結(jié) 果。例如,識別結(jié)果顯示緩沖器26存儲圖6中示出的識別結(jié)果。在圖6 中示出,根據(jù)對不同類型邏輯元素的字符串的識別而產(chǎn)生的識別結(jié)果(包 括候選識別結(jié)果),和指示每個字符串被描述為哪種邏輯元素的識別結(jié)果 (包括候選識別結(jié)果)。
"用戶信息"中"姓名"中的邏輯元素"姓"被識別為字符串"Smith ", 并且不存在其他候選。"用戶信息"中"姓名"中的邏輯元素"名"被識 別為第一候選字符串"David"和第二候選字符串"Devid"。針對"用戶 信息"中的邏輯元素"地址"識別出第一到第四候選字符串。候選中"777 " 和"111"的識別指示出字符串的識別產(chǎn)生多個候選。候選中"1 lth Avenue East, Suite 11, Seattle, WA"和"Apple Street, #111, Seattle, WA"的識別指 示每個字符串被描述為其邏輯元素的識別產(chǎn)生多個候選。相同的識別操 作也應用于其他邏輯元素。
返回參照圖2,控制單元30控制圖像識別裝置10以執(zhí)行各種處理。 控制單元30包括作為與第一實施方式緊密相關的組件的字符串識別器 31、邏輯結(jié)構識別器32、識別結(jié)果輸出器33、第一邏輯元素確定器34、 第二邏輯元素確定器35、邏輯結(jié)構重新識別控制器36以及邏輯結(jié)構模型 轉(zhuǎn)換器37。識別結(jié)果輸出器33對應于權利要求中描述的"輸出裝置"; 第一邏輯元素確定器34對應于其中描述的"第一確定裝置";第二邏輯
14元素確定器35對應于其中描述的"第二確定裝置";并且邏輯結(jié)構重新 識別控制器36和邏輯結(jié)構模型轉(zhuǎn)換器37對應于其中描述的"重新識別 裝置"。
在控制單元30中,字符串識別器31通過諸如OCR的圖像識別技術 來識別字符串。具體的是,字符串識別器31通過使用存儲在字符識別字 典存儲部件21中的字典來識別字符串的字符串和候選(多個候選)在由 圖像輸入單元11接收到的表格圖像中的位置。識別結(jié)果被用于由邏輯結(jié) 構識別器32進行的處理。
如上面所描述的,在圖6中示出的識別結(jié)果顯示緩沖器的描述中, 例如,表格圖像中字符串"David"的作為第一候選"David"和第二候 選"Devid"的識別由字符串識別器31執(zhí)行。
邏輯結(jié)構識別器32識別每個字符串被描述為哪種邏輯元素。具體的 是,邏輯結(jié)構識別器32參照邏輯結(jié)構模型存儲部件22中存儲的邏輯結(jié) 構模型,以將邏輯結(jié)構模型的內(nèi)容與由字符串識別器31識別的識別結(jié)果 相關聯(lián)。這些識別結(jié)果被存儲在識別結(jié)果顯示緩沖器26中,并且被用于 由識別結(jié)果輸出器33進行的處理。
如上面所述,在圖6中示出的識別結(jié)果顯示緩沖器的描述中,例如, "用戶信息"中邏輯元素"地址"的作為第一到第四候選的"777 llth Avenue East, Suite 11, Seattle, WA"、 "111 llth Avenue East, Suite 11, Seattle, WA"、 "777Apple Street, #111, Seattle, WA",以及"111 Apple Street, # 111 , Seattle, WA"的識別由邏輯結(jié)構識別器32執(zhí)行。
識別結(jié)果輸出器33以特定順序輸出作為識別結(jié)果的多個邏輯元素。 具體的是,當作為存儲在識別結(jié)果顯示緩沖器26中的識別結(jié)果的邏輯元 素被字符串識別器31和邏輯結(jié)構識別器32識別或重新識別時,識別結(jié) 果輸出器33以特定順序在顯示單元13中顯示邏輯元素。
如上面所述,在顯示單元13的描述中,識別結(jié)果輸出器33輸出例 如圖4中示出的識別結(jié)果顯示屏面。根據(jù)第一實施方式的識別結(jié)果輸出 器33垂直排列邏輯元素,來顯示這些邏輯元素。
當接收到用于確定特定邏輯元素為正確的確定請求的輸入時,第一
15邏輯元素確定器34確定多個邏輯元素中的特定邏輯元素為正確。具體的 是,當?shù)谝贿壿嬙卮_定器34接收到用戶通過用戶操作輸入單元12輸 入的確定請求的輸入時,第一邏輯元素確定器34確定接收到的邏輯元素 為正確,并向第二邏輯元素確定器35指示被確定正確的邏輯元素,所述 用戶對通過識別結(jié)果輸出器33顯示在顯示單元13中的且被存儲在識別 結(jié)果顯示緩沖器26中的識別結(jié)果進行確認。
現(xiàn)在將利用實施例來描述第一邏輯元素確定器34進行的確定。例如, 假設圖7中示出的識別結(jié)果顯示屏面通過識別結(jié)果輸出器33顯示在顯示 單元13中。還假設已經(jīng)確認識別結(jié)果的用戶確定"用戶信息"中"地址" 中的字符串"777 llth Avenue East, Suite 11, Seattle, WA"是錯誤項,并且 希望將該項糾正為"111 Apple Street, #111, Seattle, WA"。當用戶使用用戶 操作輸入單元12 (在本實施例中為鼠標)將指針移動到"777 llth Avenue East, Suite 11, Seattle, WA",并右鍵點擊錯誤項(參照圖7中的(l))以 糾正該錯誤項時,隨后的候選字符串"111 llth Avenue East, Suite 11, Seattle, WA"、 "777 Apple Street, #111, Seattle, WA"以及"111 Apple Street, #111, Seattle, WA"顯示在窗口中(參照圖7中的(2))。這些隨后的候選 是存儲在識別結(jié)果顯示緩沖器26中的識別結(jié)果(參照圖6)。
接著,當用戶使用用戶操作輸入單元12 (鼠標)左鍵點擊"lll Apple Street, #111, Seattle, WA"時,"111 Apple Street, #111, Seattle, WA"被輸入 為針對"地址"的字符串(圖7中未示出),并且例如,"確定"圖標改 變?yōu)樵~語"已確定"。
第一邏輯元素確定器34在用戶點擊"確定"圖標以清楚地指令進行 指定項的確定時確定所述指定項為正確,而不是在用戶糾正錯誤項時確 定糾正后的項為正確。
返回參照圖2,第二邏輯元素確定器35確定在特定邏輯元素之前輸 出的所有邏輯元素的正確性。具體的是,當?shù)谝贿壿嬙卮_定器34確定 特定邏輯元素為正確時,第二邏輯元素確定器35確定在該特定邏輯元素 之前輸出并且根據(jù)用戶進行的確認定位的所有邏輯元素的正確性,并向 邏輯結(jié)構重新識別控制器36指示被確定為正確的邏輯元素。假設用戶通常從頂至底按順序逐一確認圖7中示出的識別結(jié)果顯示
屏面中的項。在這種情況中,在確定的邏輯元素(用戶信息中的"地址") 之前被輸出的、并且根據(jù)用戶的確認被定位的邏輯元素指的是定位在用 戶信息中的"地址"上方的邏輯元素。用戶信息中的"姓名"對應于在 確定的邏輯元素之前輸出并根據(jù)用戶的確認被定位的邏輯元素。因此,
第二邏輯元素確定器35還確定用戶信息中的"姓"和"名"正確。換言 之,第二邏輯元素確定器35例如通過對邏輯元素在表(如圖6中示出的) 中被描述在哪行進行計數(shù)以知道行號,來獲取存儲在識別結(jié)果顯示緩沖 器26中的顯示順序,并確定以較早順序(例如具有小行號)顯示的所有 邏輯元素的正確性。
具體的是,第二邏輯元素確定器35將存儲在識別結(jié)果顯示緩沖器26 內(nèi)的識別結(jié)果中由第一邏輯元素確定器34確定的"用戶信息"中的邏輯 元素"地址"確定為"111 Apple Street, #111, Seattle, WA",并且例如,向 第二及其后的候選指派禁用標記,以實際刪除這些候選。然后,第二邏 輯元素確定器35將"用戶信息"中的邏輯元素"姓"確定為"Smith", 并將邏輯元素"名"確定為"David",并且向第二候選"Devid"指派禁 用標記,以實際刪除第二候選。例如圖8A中示出的信息被存儲其中反映 確定的內(nèi)容的識別結(jié)果顯示緩沖器26中(有陰影線的邏輯元素指示已確 定的邏輯元素)。
邏輯結(jié)構重新識別控制器36基于邏輯元素的確定內(nèi)容來控制邏輯結(jié) 構識別器32和邏輯結(jié)構模型轉(zhuǎn)換器37,以重新識別仍未被確定為正確的 邏輯元素的對應關系。具體的是,邏輯結(jié)構重新識別控制器36基于通過 第一邏輯元素確定器34和第二邏輯元素確定器35確定為正確的邏輯元 素的確定內(nèi)容,來控制邏輯結(jié)構識別器32和邏輯結(jié)構模型轉(zhuǎn)換器37,以 促使邏輯結(jié)構識別器32重新識別仍未被確定為正確的邏輯元素與字符串 之間的對應關系。
邏輯結(jié)構模型轉(zhuǎn)換器37轉(zhuǎn)換邏輯結(jié)構模型。具體的是,邏輯結(jié)構模 型轉(zhuǎn)換器37受邏輯結(jié)構重新識別控制器36的控制,并且反映了存儲在 邏輯結(jié)構模型存儲部器34和第二邏輯元素確定器35獲得的確定內(nèi)容。邏輯結(jié)構模型中的反 映指的是將確定內(nèi)容描述在邏輯結(jié)構模型中,以唯一地確定對應的字符 串。
現(xiàn)在將利用實施例來描述通過邏輯結(jié)構模型轉(zhuǎn)換器37轉(zhuǎn)換的邏輯結(jié) 構模型。例如,邏輯結(jié)構模型存儲部件22存儲圖9A中示出的根據(jù)邏輯 結(jié)構模型轉(zhuǎn)換器37的轉(zhuǎn)換而產(chǎn)生的邏輯結(jié)構模型。如從圖5B和圖9A 之間的比較所見,邏輯結(jié)構模型轉(zhuǎn)換器37分別描述了 "用戶信息"中"地 址"、"姓"以及"名"內(nèi)的"111 Apple Street, #111, Seattle, WA"、 "Smith" 以及"David",以唯一地確定對應字符串。創(chuàng)建其中描述了通過邏輯結(jié) 構模型轉(zhuǎn)換器37的轉(zhuǎn)換而獲得的已確定內(nèi)容的邏輯結(jié)構模型。
返回參照邏輯結(jié)構重新識別控制器36的描述,在促使邏輯結(jié)構模型 轉(zhuǎn)換器37轉(zhuǎn)換存儲在邏輯結(jié)構模型存儲部件22中的邏輯結(jié)構模型之后, 邏輯結(jié)構重新識別控制器36控制邏輯結(jié)構識別器32,以執(zhí)行重新識別。 邏輯結(jié)構識別器32參照經(jīng)受轉(zhuǎn)換并存儲在邏輯結(jié)構模型存儲部件22 'Ii 的邏輯結(jié)構模型,并將該邏輯結(jié)構模型的內(nèi)容與字符串識別器31識別出 的識別結(jié)果相關聯(lián)。這些識別結(jié)果同樣被存儲在識別結(jié)果顯示緩沖器26 中,并被用于通過識別結(jié)果輸出器33進行的處理。
具體的是,假設獲得了通過邏輯結(jié)構識別器32進行的識別的結(jié)果 (即,存儲在圖8B中示出的識別結(jié)果顯示緩沖器26中的識別結(jié)果)。換 言之,假設"用戶信息"中"地址"的確定將"用戶信息"中的"電話 號碼"限制為以"999"開始的號碼、將"辦公信息"中的"地址"限制 為包括"llth Avenue East, Suite 11"的地址,并將"辦公信息"中的"電 話號碼"限制為以"888"開始的號碼。
在上面的情況中,識別結(jié)果輸出器33在顯示單元13中顯示圖10A 中示出的識別結(jié)果顯示屏面。在圖10A中示出的識別結(jié)果顯示屏面中, 注意"用戶信息"中"姓名"和"地址"右側(cè)的"確定"圖標被改變?yōu)?詞語"己確定",意思是字符串己被確定。假設己經(jīng)確認了識別結(jié)果的用 戶確定"用戶信息"中"電話號碼"中的"999-666-7777"為錯誤項,并 且此時希望將該項糾正為"999-666-1111"。當用戶使用用戶操作輸入單
18元12 (鼠標)將指針移動到"999-666-7777"上,并右鍵點擊該錯誤項 以糾正該錯誤項時,隨后的候選字符串"999-666-llll"被顯示在窗口中。 接著,當用戶使用用戶操作輸入單元12(鼠標)左鍵點擊"999-666-1111" 時,"999-666-1111"被輸入為針對"電話號碼"的字符串,并且"用戶 信息"中"電話號碼"右側(cè)的"確定"圖標被改變?yōu)樵~語"己確定",如 圖10B中所示出。
此時,第二邏輯元素確定器35將存儲在識別結(jié)果顯示緩沖器26內(nèi) 的識別結(jié)果中的由第一邏輯元素確定器34確定的"用戶信息"中的邏輯 元素"電話號碼"確定為"999-666-1111",并且向第二候選指派禁用標 記,以實際刪除該候選(參照圖8C)。
然后,邏輯結(jié)構重新識別控制器36促使邏輯結(jié)構模型轉(zhuǎn)換器37轉(zhuǎn) 換存儲在邏輯結(jié)構模型存儲部件22中的邏輯結(jié)構模型(參照圖9B),并 控制邏輯結(jié)構識別器32,以執(zhí)行重新識別。然而,在這種情況中,識別 結(jié)果未被改變(參照圖8D),并且識別結(jié)果輸出器33保持圖10B中示出 的識別結(jié)果顯示屏面的顯示。
根據(jù)第一實施方式的圖像識別裝置執(zhí)行的處理
現(xiàn)在將參照圖11描述根據(jù)第一實施方式的圖像識別裝置執(zhí)行的處 理。圖11是示出根據(jù)第一實施方式的圖像識別裝置執(zhí)行的處理的實施例 的流程圖。
參照圖ll,在步驟S101中,圖像識別裝置10中的字符串識別器31 確定是否從圖像輸入單元11接收到表格圖像的輸入。如果接收到表格圖 像的輸入(步驟SIOI中的確定為肯定的),則在步驟S102中,字符串識 別器31識別字符串并將識別結(jié)果提供給邏輯結(jié)構識別器32。
在步驟S103中,邏輯結(jié)構識別器32參照存儲在邏輯結(jié)構模型存儲 部件22中的邏輯結(jié)構模型,并將邏輯結(jié)構模型的內(nèi)容與字符串識別器31 識別的識別結(jié)果相關聯(lián)。邏輯結(jié)構識別器32將識別結(jié)果提供給識別結(jié)果 輸出器33。
在步驟S104處,識別結(jié)果輸出器33以特定順序在顯示單元13中顯 示作為識別結(jié)果的邏輯元素。在步驟S105中,第一邏輯元素確定器34確定是否按下所有項確定 按鈕,例如圖4中示出的識別結(jié)果顯示屏面的右半部分中底部處的"確 定"圖標。如果按下了所有項確定按鈕(步驟S105中的確定為肯定的), 則處理終止。
如果未按下所有項確定按鈕(步驟S105中的確定為否定的),則在 步驟S106中,第一邏輯元素確定器34確定是否執(zhí)行糾錯操作。如果執(zhí) 行糾錯操作(步驟S106中的確定為肯定),則在步驟S107中,第一邏輯 元素確定器34確定針對其執(zhí)行糾錯操作的特定邏輯元素的正確性,并向 第二邏輯元素確定器35指示被確定為正確的邏輯元素。如果糾錯操作未 被執(zhí)行(步驟S106中的確定為否定),則在步驟S108中,第一邏輯元素 確定器34確定是否按下指定項確定按鈕,例如圖4中示出的識別結(jié)果顯 示屏面的右半部分中每個項右側(cè)的"確定"圖標。如果按下指定項確定 按鈕(步驟S108中的確定為肯定),則在步驟S109中,第一邏輯元素確 定器34確定已確定指定項的邏輯元素為正確,并向第二邏輯元素確定器 35指示被確定為正確的邏輯元素。
當特定邏輯元素被第一邏輯元素確定器34確定為正確(步驟107和 109)時,第二邏輯元素確定器35在步驟S110中獲取存儲在識別結(jié)果顯 示緩沖器26中的顯示順序,并獲取已確定項的順序。在歩驟Slll中, 第二邏輯元素確定器35確定在已確定項的邏輯元素之前輸出并且根據(jù)用 戶進行的確認來定位的所有邏輯元素的正確性,并向邏輯結(jié)構重新識別 控制器36指示被確定為正確的邏輯元素。
在步驟S112中,邏輯結(jié)構重新識別控制器36確定是否確定了所有 項,例如,用戶是否按下所有項確定按鈕。如果未確定所有項(步驟S112 中的確定為否定),則邏輯結(jié)構重新識別控制器36促使邏輯結(jié)構模型轉(zhuǎn) 換器37轉(zhuǎn)換邏輯結(jié)構模型存儲部件22中存儲的邏輯結(jié)構模型,然后, 在步驟S113中,邏輯結(jié)構重新識別控制器36控制邏輯結(jié)構識別器32, 以執(zhí)行重新識別。此時,邏輯結(jié)構識別器32參照經(jīng)受轉(zhuǎn)換的邏輯結(jié)構模 型,以將該邏輯結(jié)構模型的內(nèi)容與字符串識別器31識別的識別結(jié)果相關 聯(lián)。然后,處理返回到步驟S104。
20根據(jù)第一實施方式的另一識別結(jié)果顯示屏面
盡管在上面的第一實施方式中描述了圖4中示出的識別結(jié)果顯示屏 面,但是識別結(jié)果顯示屏面并不限于圖4中所示出的識別結(jié)果顯示屏面。 例如,可以采用圖12中示出的識別結(jié)果顯示屏面。如上面所描述的,第 二邏輯元素確定器35確定在特定邏輯元素之前輸出并且根據(jù)用戶進行的 確認來定位的所有邏輯元素的正確性?,F(xiàn)在將進一步描述"在特定邏輯 元素之前根據(jù)用戶進行的確認定位的順序"的含義。
例如,在圖12中的下部中示出的識別結(jié)果顯示屏面中,假設用戶通 常在頂行以從左到右的順序逐一確認該行中的項,直到該行的右端處的 項。當確認了頂行的右端處的最后項時,用戶通常向下到底行,并在該 行以從左到右的順序注逐一確認這些項,直到該行的右端處的項。因為 這里的"確認"并未伴隨有用戶進行的任何操作,所以該確認的順序可 以是任意的。然而,可以根據(jù)畫面的操作模式或設計預先假定確認的順 序。根據(jù)這種觀點,根據(jù)第一實施方式的圖像識別裝置假定"在特定邏 輯元素之前根據(jù)用戶進行的確認定位的順序",并且例如,當識別結(jié)果被 存儲在通過用戶使用圖像識別裝置預先設置的識別結(jié)果顯示緩沖器中 時,設置ID的升序。此外,根據(jù)這種觀點,在用戶確定特定邏輯元素之 后,在該特定邏輯元素之前輸出并且根據(jù)用戶進行的確認定位的所有邏 輯元素可以被認為是己確定。
在圖12中示出的識別結(jié)果顯示屏面中,當已確定邏輯元素為辦公"地 址"時,第二邏輯元素確定器35認為用戶信息中的"姓名"、"地址"以 及"電話號碼"是在該辦公"地址"之前輸出并根據(jù)用戶進行的確認定 位的邏輯元素,并確定這些邏輯元素正確。
如上面所描述的,根據(jù)本發(fā)明的第一實施方式,能夠減小糾正操作 的負荷。具體的是,根據(jù)第一實施方式的圖像識別裝置參照具有通過選 定用戶確定或糾正的邏輯元素的邏輯結(jié)構模型,以改善其他未確定邏輯 元素的識別結(jié)果。如果針對未確定邏輯元素的識別結(jié)果的候選數(shù)被降低 為l,則能夠確定該邏輯元素。因此,由于用戶確定或糾正的結(jié)果可以被 用來確定其他邏輯元素,因此能夠減少用戶進行糾正操作的負荷。
2此外,根據(jù)本發(fā)明的第一實施方式,在確定特定邏輯元素之后,自 動確定位于已確定邏輯元素之前的邏輯元素。因此,能夠自動確定大量 未確定的邏輯元素,由此進一步減小了用戶進行糾正操作的負荷。
此外,本發(fā)明的第一實施方式在識別具有未知格式的表格圖像以記 錄每個項的字符串數(shù)據(jù)時非常有效,并且有助于改善使用表格圖像進行 的數(shù)據(jù)輸入操作的效率。因此,能夠便于在紙質(zhì)表格與計算機化數(shù)據(jù)之 間進行交換,并改善使用紙質(zhì)表格進行操作的效率。
第二實施方式
在本發(fā)明的第一實施方式中描述了,當圖像識別裝置重新識別表格 圖像時,立即在識別結(jié)果顯示屏面中反映重新識別結(jié)果的方法。然而, 替代立即在識別結(jié)果顯示屏面中反映重新識別結(jié)果的方法,可以采用顯 示如下信息的顯示方法,所述信息指示出重新識別結(jié)果與當前在輸出單 元中顯示的識別結(jié)果不同。這種方法被描述為本發(fā)明的第二實施方式。
根據(jù)第二實施方式的圖像識別裝置的概況
現(xiàn)在將參照圖13A和13B描述根據(jù)第二實施方式的圖像識別裝置的 概況和特征。圖13A和13B是描述根據(jù)第二實施方式的圖像識別裝置的 概況的圖。
通過該圖像識別裝置進行的表格圖像的重新識別可以改善未確定邏 輯元素的識別結(jié)果。換言之,從用戶觀點來看, 一個項的糾正會自動糾 正其他項的識別結(jié)果。例如,假設顯示的多個邏輯元素包括一個錯誤項。 在這種情況中,自然考慮通過用戶對一個錯誤項進行糾正而使所有識別 結(jié)果都正確。然而,當在用戶糾正錯誤項之后執(zhí)行重新識別時,正確顯 示的未確定正確項可能被變?yōu)殄e誤項。盡管重新識別通??梢愿纳谱R別 結(jié)果,但是不能否認使正確結(jié)果變壞的可能性。換言之,未確定邏輯元 素的自動改變可能減小針對用戶的可用性。
為了解決上面的問題,如圖13A和13B中所示出的,當在錯誤項被 糾正之后執(zhí)行的重新識別導致針對未確定邏輯元素的第一候選的識別結(jié) 果的改變時,根據(jù)第二實施方式的圖像識別裝置并不簡單地改變該項的 字符串,而是高亮顯示被改變的識別結(jié)果。具體的是,當在用戶信息中的錯誤項"地址"如圖13A中所示出, 從"777 llth Avenue East, Suite 11, Seattle, WA"改變?yōu)?111 Apple Street, #111, Seattle, WA"之后執(zhí)行重新識別,以改變針對用戶信息中"電話號 碼"(所述"電話號碼"為從"888-444-5555"到"999-666-7777"的未確
定邏輯元素)的第一候選的識別結(jié)果時,如圖13B中所示出,圖像識別 裝置高亮顯示被改變的識別結(jié)果,而不是簡單地改變這些項的字符串。 由于使用戶充分關注對高亮顯示項的確認,所以可以期待減小操作負荷。 根據(jù)第二實施方式的圖像識別裝置的結(jié)構
現(xiàn)在將參照圖14描述根據(jù)第二實施方式的圖像識別裝置的結(jié)構。圖 14是示出根據(jù)第二實施方式的圖像識別裝置的結(jié)構的實施例的框圖。
在圖14中示出的框圖中,用粗線環(huán)繞的組件被添加到根據(jù)第--實施 方式的圖像識別裝置的組件中。具體的是,除根據(jù)第一實施方式的圖像 識別裝置中的組件之外,根據(jù)第二實施方式的圖像識別裝置IO還包括控 制單元30中的重新識別結(jié)果緩沖器存儲部件38和第二存儲單元25中的 重新識別結(jié)果緩沖器27。
重新識別結(jié)果緩沖器存儲部件38存儲重新識別結(jié)果緩沖器27中的 重新識別結(jié)果。重新識別結(jié)果緩沖器27是具有與重新識別結(jié)果顯示緩沖 器26類似的結(jié)構的存儲器區(qū)。例如,圖15B中示出的信息被存儲在重新 識別結(jié)果緩沖器27中。
當輸出重新識別的結(jié)果時,識別結(jié)果輸出器33針對每個邏輯元素, 將通過重新識別結(jié)果緩沖器存儲部件38存儲在重新識別結(jié)果緩沖器27 中的重新識別結(jié)果(參照圖15B)與當前在顯示單元13中顯示的識別結(jié) 果(參照圖15A)進行比較。如果存儲在重新識別結(jié)果緩沖器27中的邏 輯元素的重新識別結(jié)果與當前在顯示單元13中顯示的識別結(jié)果不--致, 則識別結(jié)果輸出器33高亮顯示存儲在重新識別結(jié)果緩沖器27中的重新 識別結(jié)果,以指示重新識別的結(jié)果與當前在顯示單元13中顯示的識別結(jié) 果不同。
根據(jù)第二實施方式的圖像識別裝置執(zhí)行的處理
現(xiàn)在將參照圖16描述根據(jù)第二實施方式的圖像識別裝置執(zhí)行的處理。圖16是示出根據(jù)第二實施方式的圖像識別裝置執(zhí)行的處理的實施例
的流程圖。
如從圖11和圖16之間的比較所見,根據(jù)第二實施方式的圖像識別 裝置執(zhí)行的處理與根據(jù)第一實施方式的圖像識別裝置執(zhí)行的處理的不同 之處僅在于增加了步驟S214。
具體的是,在根據(jù)第二實施方式的圖像識別裝置中,在步驟S212中, 邏輯結(jié)構重新識別控制器36確定是否確定了所有項。如果未確定所有項 (步驟S212中的確定為否定),則邏輯結(jié)構重新識別控制器36促使邏輯 結(jié)構模型轉(zhuǎn)換器37轉(zhuǎn)換邏輯結(jié)構模型存儲部件22中存儲的邏輯結(jié)構模 型,然后,在步驟S213中,邏輯結(jié)構重新識別控制器36控制邏輯結(jié)構 識別器32,以執(zhí)行重新識別。在步驟S214中,重新識別結(jié)果緩沖器存儲 部件38將重新識別的結(jié)果存儲在重新識別結(jié)果緩沖器27中。
然后,在步驟S204中,識別結(jié)果輸出器33針對每個邏輯元素,將 存儲在重新識別結(jié)果緩沖器27中的重新識別結(jié)果與存儲在識別結(jié)果顯示 緩沖器26中的識別結(jié)果進行比較。如果存儲在重新識別結(jié)果緩沖器27 中的邏輯元素的重新識別結(jié)果與存儲在識別結(jié)果顯示緩沖器26中的識別 結(jié)果不一致,則識別結(jié)果輸出器33高亮顯示存儲在重新識別結(jié)果緩沖器 27中的重新識別結(jié)果,以指示該重新識別的結(jié)果與當前在顯示單元13中 顯示的識別結(jié)果不同。
根據(jù)第二實施方式的另一識別結(jié)果顯示屏面
盡管上面參照圖13A和13B描述的識別結(jié)果顯示屏面被假設為第二 實施方式中的識別結(jié)果顯示屏面,但是識別結(jié)果顯示屏面并不限于上面 參照圖13A和13B描述的識別結(jié)果顯示屏面。例如,可以采用參照圖17A 和17B描述的識別結(jié)果顯示屏面。具體的是,如圖17A和17B中所示出, 圖像識別裝置反映針對如下字符串的候選中的重新識別結(jié)果,即當即使 在糾正錯誤項之后也在不改變未確定邏輯元素的顯示的情況下選擇未確 定邏輯元素時顯示的所述字符串。
例如,當在用戶信息中的錯誤項"地址"從"777 llth Avenue East, Suite 11, Seattle, WA"改變?yōu)槿鐖D17A中所示出的"111 Apple Street, #111,Seattle, WA"之后執(zhí)行重新識別,以將針對用戶信息中的未確定邏輯元素 "電話號碼"的第一候選的識別結(jié)果從"888-444-5555 "改變?yōu)?"999-666-7777"時,圖像識別裝置并不立即改變用戶信息中"電話號碼" 的輸出。圖像識別裝置保持"888-444-5555"的顯示,并反映針對在選擇 用戶信息中的未確定邏輯元素"電話號碼"時顯示的字符串的候選屮的 重新識別的結(jié)果("999-666-7777")(參照圖17B)。
在這種情況中,即使在執(zhí)行重新識別之后,重新識別的結(jié)果也不被 立即存儲到識別結(jié)果顯示緩沖器26中,并且不顯示在顯示單元13中; 換言之,重新識別的結(jié)果未被呈現(xiàn)給用戶。當用戶選擇一項以糾正該項 的識別結(jié)果時,該項的糾正被指示給識別結(jié)果輸出器33,在所述識別結(jié) 果輸出器33中僅將用戶選擇的項從重新識別結(jié)果緩沖器27復制到識別 結(jié)果顯示緩沖器26。按照上面的方式,僅呈現(xiàn)用戶選擇要進行糾錯的項 的重新識別的結(jié)果。
如上面所述,根據(jù)本發(fā)明的第二實施方式,能夠防止未確定邏輯元 素(未被確定為正確的邏輯元素)變得更差。
第三實施方式
在第二實施方式中描述了一種方法,其中當圖像識別裝置從用戶接 收到用于確定特定邏輯元素的確定請求的輸入時,圖像識別裝置確定在 特定邏輯元素之前輸出的所有邏輯元素為正確的,以執(zhí)行重新識別并將 重新識別的結(jié)果臨時存儲在緩沖器中。然而,"將重新識別的結(jié)果臨時存 儲在緩沖器中"的方法也可應用于其中圖像識別裝置在分別確定邏輯元 素時執(zhí)行重新識別的情況。
換言之,只要使用"將重新識別的結(jié)果臨時存儲在緩沖器中"的方 法就具有如下優(yōu)點減小了用戶進行糾正操作的負荷,并且防止了未確 定邏輯元素變得更差。因此,不論圖像識別裝置是分別確定邏輯元素, 還是自動確定位于特定邏輯元素之前的所有邏輯元素,都可以采用這種 方法。
根據(jù)第三實施方式的圖像識別裝置的概況
現(xiàn)在將參照圖18A和18B以及19A和19B來描述根據(jù)本發(fā)明第三實
25施方式的圖像識別裝置的概況和特征。圖18A和18B是用于描述根據(jù)第 三實施方式的圖像識別裝置的概況和特征的圖。圖19A和19B是用于描 述識別結(jié)果顯示緩沖器和重新識別結(jié)果緩沖器的圖。
例如,根據(jù)第三實施方式的圖像識別裝置在顯示單元13中顯示圖 18A和18B中示出的識別結(jié)果顯示屏面。在圖18A中示出的識別結(jié)果顯 示屏面中,假設已經(jīng)確認識別結(jié)果的用戶確定針對用戶信息中的"地址" 的字符串"777 llth Avenue East, Suite 11, Seattle, WA"為錯誤項,并將該 項糾正為"111 Apple Street, #111, Seattle, WA"。圖18B示出根據(jù)該糾正 產(chǎn)生的識別結(jié)果顯示屏面。注意,"確定"圖標被保持顯示在"用戶信息" 中的"姓名"的右側(cè)并且未被改變?yōu)樵~語"已確定"。
換言之,即使當根據(jù)第三實施方式的圖像識別裝置接收用于確定特 定邏輯元素為正確(用戶信息中的"地址")的確定請求的輸入時,該圖 像識別裝置也并不確定在特定邏輯元素之前根據(jù)通過用戶的確認的定位 順序輸出的邏輯元素(用戶信息中的"姓名")的正確性,而是,該圖像 識別裝置將該邏輯元素作為未確定的邏輯元素來處理。
還要注意,在圖18B中高亮顯示用戶信息中的"電話號碼"和辦公 信息中的"地址"和"電話號碼"。
當用戶信息中的"地址"從"777 llth Avenue East, Suite 11, Seattle, WA"改變?yōu)?111 Apple Street, #111, Seattle, WA"之后,執(zhí)行重新識別時, 根據(jù)第三實施方式的圖像識別裝置并不高亮顯示其識別結(jié)果未被改變的 未確定邏輯元素(用戶信息中的"姓名")。替代的是,根據(jù)第三實施方 式的圖像識別裝置高亮顯示其識別結(jié)果被改變的未確定邏輯元素(用戶 信息中的"電話號碼"和辦公信息中的"地址"和"電話號碼")。
現(xiàn)在將參照圖19A和19B來描述此時的識別結(jié)果顯示緩沖器26和 重新識別結(jié)果緩沖器27。圖19A示出用戶己經(jīng)確定用戶信息中的"地址" 之后,用戶信息中的"地址"被重新識別之前的識別結(jié)果顯示緩沖器26。 在圖19A中示出的識別結(jié)果顯示緩沖器26中,用戶信息中的"姓"和"名" 并未被識別為已確定邏輯元素。圖19B示出用戶已經(jīng)確定用戶信息中的 "地址"并且已經(jīng)執(zhí)行重新識別之后的重新識別結(jié)果緩沖器27。在圖19B
26中示出的重新識別結(jié)果緩沖器27中,僅高亮顯示其第一候選與圖19A中 的識別結(jié)果顯示緩沖器26中的第一候選不同的邏輯元素(僅用戶信息中 的"電話號碼"和辦公信息中的"地址"與"電話號碼")。 根據(jù)第三實施方式的圖像識別裝置執(zhí)行的處理
現(xiàn)在將參照圖20來描述根據(jù)第三實施方式的圖像識別裝置執(zhí)行的處 理。圖20是示出根據(jù)第三實施方式的圖像識別裝置執(zhí)行的處理的實施例 的流程圖。
如從圖16和圖20之間的比較所見,根據(jù)第三實施方式的圖像識別
裝置執(zhí)行的處理與根據(jù)第二實施方式的圖像識別裝置執(zhí)行的處理的不同 之處僅在于,因為不需要第二邏輯元素確定器35,所以刪除了圖16中的 步驟S210和S211。
具體的是,在根據(jù)第三實施方式的圖像識別裝置中,在步驟S305中, 第一邏輯元素確定器34確定是否按下所有項確定按鈕。如果未按下所有 項確定按鈕(步驟S305中的確定為否定),則在步驟S306中,第一邏輯 元素確定器34確定是否執(zhí)行糾錯操作。如果執(zhí)行糾錯操作(步驟S306 中的確定為肯定),則在步驟S307中,第一邏輯元素確定器34確定針對 其執(zhí)行糾錯操作的特定邏輯元素的正確性,并向邏輯結(jié)構重新識別控制 器36指示被確定為正確的邏輯元素。
如果不執(zhí)行糾錯操作(步驟S306中的確定為否定),則在步驟S308 中,第一邏輯元素確定器34確定是否按下指定項確定按鈕。如果按下了 指定項確定按鈕(步驟S308中的確定為肯定),則在步驟S309中,第一 邏輯元素確定器34確定已確定指定項的邏輯元素為正確,并向邏輯結(jié)構 重新識別控制器36指示被確定為正確的邏輯元素。
在步驟S310中,邏輯結(jié)構重新識別控制器36確定是否確定了所有 項。如果未確定所有項(步驟S310中的確定為否定),則邏輯結(jié)構重新 識別控制器36促使邏輯結(jié)構模型轉(zhuǎn)換器37轉(zhuǎn)換邏輯結(jié)構模型存儲部件 22中存儲的邏輯結(jié)構模型,然后,在步驟S311中,邏輯結(jié)構重新識別控 制器36控制邏輯結(jié)構識別器32,以執(zhí)行重新識別。在步驟S312中,重 新識別結(jié)果緩沖器存儲部件38將重新識別的結(jié)果存儲在重新識別結(jié)果緩沖器27中。
然后,在步驟S304中,識別結(jié)果輸出器33針對每個邏輯元素,將 存儲在重新識別結(jié)果緩沖器27中的重新識別結(jié)果與存儲在識別結(jié)果顯示 緩沖器26中的識別結(jié)果進行比較。如果存儲在重新識別結(jié)果緩沖器27 中的邏輯元素的重新識別結(jié)果與存儲在識別結(jié)果顯示緩沖器26中的識別 結(jié)果不一致,則識別結(jié)果輸出器33高亮顯示存儲在重新識別結(jié)果緩沖器 27中的重新識別結(jié)果,以指示該重新識別的結(jié)果與當前在顯示單元13中 顯示的識別結(jié)果不同。
根據(jù)第三實施方式的另一識別結(jié)果顯示屏面
盡管上面參照圖18A和18B描述的識別結(jié)果顯示屏面被假設為第三 實施方式中的識別結(jié)果顯示屏面,但是識別結(jié)果顯示屏面并不限于上面 參照圖18A和18B描述的識別結(jié)果顯示屏面。例如,可以釆用參照圖21A 和21B描述的識別結(jié)果顯示屏面。具體的是,如圖21A和21B中所示, 圖像識別裝置反映如下字符串的候選中的重新識別結(jié)果,即當即使在糾 正錯誤項之后也在不改變未確定邏輯元素的顯示的情況下選擇未確定邏 輯元素時顯示的所述字符串。
還是在這種情況下,如圖21B中所示,注意,"確定"圖標在"用戶 信息"中的"姓名"右側(cè)被保持顯示,并且未被改變?yōu)樵~語"已確定"。
如上面所述,根據(jù)本發(fā)明的第三實施方式,能夠減小糾正操作的負 荷。具體的是,根據(jù)第三實施方式的圖像識別裝置參照具有通過選定用 戶確定或糾正的邏輯元素的邏輯結(jié)構模型,以改善其他未確定邏輯元素 的識別結(jié)果。如果針對未確定邏輯元素的識別結(jié)果的候選數(shù)被降為1,則 能夠確定該邏輯元素。因此,由于用戶確定或糾正的結(jié)果可以被用來確 定其他邏輯元素,所以能夠減少用戶糾正操作的負荷。
此外,本發(fā)明的第三實施方式在識別具有未知格式的表格圖像,以 針對每個項記錄字符串數(shù)據(jù)的情況中非常有效,并且有助于改善使用表 格圖像進行的數(shù)據(jù)輸入操作的效率。因此,能夠便于在紙質(zhì)表格和計算 機化數(shù)據(jù)之間進行交換,并改善使用紙質(zhì)表格進行操作的效率。
此外,根據(jù)本發(fā)明的第三實施方式,能夠防止未確定的邏輯元素(即未被確定為正確的邏輯元素)變得更差。 第四實施方式
可以通過不同于上面描述的實施方式的各種實施方式來實施本發(fā)明。
盡管在上面的實施方式中,圖像識別裝置包括邏輯結(jié)構重新識別控 制器,并控制邏輯結(jié)構識別器,以在促使邏輯結(jié)構模型轉(zhuǎn)換器轉(zhuǎn)換邏輯 結(jié)構模型之后執(zhí)行重新識別,但是本發(fā)明并不限于上面的方法??梢圆?用任何基于已確定邏輯元素的確定內(nèi)容來重新識別未確定邏輯元素的邏 輯結(jié)構的方法。
在上面的實施方式中描述的處理中,可手動執(zhí)行被描述為自動執(zhí)行 的處理的全部或者一部分,并且可自動執(zhí)行被描述為手動執(zhí)行的處理的 全部或者一部分。此外,如果未另作說明,則在上述描述中示出的處理
(圖11、 16以及20)、控制處理、指定的姓名、包括各種數(shù)據(jù)和參數(shù)的 信息以及附圖可以任意變化。
在附圖中示出的裝置中的組件為功能概念,并且可以不必如圖(例 如圖2和圖14)中所示地被物理構建。具體的是,每個裝置的分布和集 成的特定模式并不限于圖中示出的模式。根據(jù)各種負荷和使用,可以將 所有或一些特定模式在功能上或物理上分布或集成在任意單元中。此外, 每個裝置中執(zhí)行的處理和功能的全部或者一部分可以通過每個裝置的中 央處理單元(CPU)和由該CPU分析并執(zhí)行的程序來實現(xiàn),或者可以通 過硬布線邏輯來實現(xiàn)。
上述實施方式中描述的各種處理可以通過執(zhí)行預先準備的程序的計 算機(例如個人計算機或工作站)來實現(xiàn)?,F(xiàn)在將參照圖22來描述執(zhí)行 具有類似于根據(jù)第一實施方式的功能的圖像識別程序的計算機的實施 例。圖22是示出執(zhí)行圖像識別程序的計算機的結(jié)構的實施例的框圖。
參照圖22,圖像識別裝置(計算機)40包括通過總線46相互連接 的高速緩存存儲器41、 RAM 42、硬盤驅(qū)動器(HDD)、 ROM 44以及CPU 45。具有類似于根據(jù)第一實施方式的功能的圖像識別程序被預先存儲在 ROM 44中。具體的是,如圖22中所示出,字符串識別程序44a、邏輯結(jié)構識別程序44b、識別結(jié)果輸出程序44c、第一邏輯元素確定程序44d、 第二邏輯元素確定程序44e、邏輯結(jié)構重新識別控制程序44f以及邏輯結(jié) 構模型轉(zhuǎn)換程序44g被存儲在ROM 44中。
如圖22中所示,CPU 45讀取并執(zhí)行從字符串識別程序44a到邏輯 結(jié)構模型轉(zhuǎn)換程序44g的程序,以執(zhí)行字符串識別處理45a、邏輯結(jié)構識 別處理45b、識別結(jié)果輸出處理45c、第一邏輯元素確定處理45d、第二 邏輯元素確定處理45e、邏輯結(jié)構重新識別控制處理45f以及邏輯結(jié)構模 型轉(zhuǎn)換處理45g。從字符串識別處理45a到邏輯結(jié)構模型轉(zhuǎn)換程序44g的 處理分別對應于如圖2中所示出的字符串識別器31、邏輯結(jié)構識別器32、 識別結(jié)果輸出器33、第一邏輯元素確定器34、第二邏輯元素確定器35、 邏輯結(jié)構重新識別控制器36,以及邏輯結(jié)構模型轉(zhuǎn)換器37。
如圖22中所示,HDD 43包括字符識別字典表43a和邏輯結(jié)構模型 表43b。字符識別字典表43a和邏輯結(jié)構模型表43b分別對應于圖2中示 出的字符識別字典存儲部件21和邏輯結(jié)構模型存儲部件22。如圖22中 所示,RAM42包括識別結(jié)果顯示緩沖器42a。
從字符串識別程序44a到邏輯結(jié)構模型轉(zhuǎn)換程序44g的程序可以不 必存儲在ROM44中。例如,這些程序可以被存儲在計算機40中裝載的
"便攜式物理介質(zhì)"(諸如軟盤(FD)、光盤只讀存儲器(CD-ROMA)、 磁光(MO)盤、數(shù)字化光盤(DVD),或集成電路(IC)卡)、"固定的 物理介質(zhì)"(諸如設置在計算機40內(nèi)部或外部的HDD)、或者通過公共 電路、因特網(wǎng)、局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)連接到計算機40的"另 一計算機(或服務器)"中。在這種情況中,計算機40讀取并執(zhí)行來自
"便攜式物理介質(zhì)"、"固定的物理介質(zhì)"或"另一計算機(或服務器)" 的程序。
本申請基于并要求2007年10月31日遞交的在先日本專利申請 NO.2007-284294的優(yōu)先權,這里通過引用并入該申請的全部內(nèi)容。
權利要求
1、一種圖像識別裝置,所述圖像識別裝置對圖像中的字符串與組成邏輯結(jié)構的多個邏輯元素之間的對應關系進行識別以識別每個邏輯元素,在所述圖像中,所述字符串被描述為所述多個邏輯元素,所述圖像識別裝置包括輸出裝置,其用于在識別或重新識別所述對應關系時,輸出所識別出的多個邏輯元素;第一確定裝置,其用于在從識別出所述輸出裝置輸出的所述識別結(jié)果的用戶接收到用于確定所述邏輯元素的確定請求的輸入時,確定所述多個邏輯元素中的特定邏輯元素的正確性;第二確定裝置,其用于確定在通過所述第一確定裝置確定的所述邏輯元素之前輸出的并根據(jù)所述用戶進行的確認而定位的所有所述邏輯元素的正確性;以及重新識別裝置,其用于基于所述第一確定裝置和所述第二確定裝置確定為正確的每個邏輯元素的確定內(nèi)容,來重新識別仍未被確定為正確的邏輯元素和所述字符串之間的對應關系。
2、 根據(jù)權利要求1所述的圖像識別裝置,所述圖像識別裝置還包括 存儲裝置,其用于存儲由所述重新識別裝置識別的識別結(jié)果, 其中,當所述重新識別裝置輸出所述重新識別結(jié)果時,所述輸出裝置針對每個邏輯元素,將所述存儲裝置存儲的識別結(jié)果與當前顯示的識 別結(jié)果進行比較,并針對其中所述存儲裝置存儲的識別結(jié)果與當前顯示 的識別結(jié)果不一致的邏輯元素,輸出用于指示所述重新識別裝置的重新 識別結(jié)果與當前顯示的識別結(jié)果不一致的信息。
3、 一種圖像識別方法,所述圖像識別方法對圖像中的字符串與組成 邏輯結(jié)構的多個邏輯元素之間的對應關系進行識別以識別每個邏輯元 素,在所述圖像中,所述字符串被描述為所述多個邏輯元素,所述圖像 識別方法包括以下步驟輸出步驟,其在識別或重新識別所述對應關系時,輸出所識別出的多個邏輯元素;第一確定步驟,其在從識別出所述輸出步驟輸出的所述識別結(jié)果的 用戶接收到用于確定所述邏輯元素的確定請求的輸入時,確定所述多個 邏輯元素中的特定邏輯元素為正確的;第二確定步驟,其確定在所述第一確定步驟確定的所述邏輯元素之 前輸出的并根據(jù)所述用戶進行的確認而定位的所有所述邏輯元素的正確 性;以及重新識別步驟,其基于所述第一確定步驟和所述第二確定步驟確定 為正確的每個邏輯元素的確定內(nèi)容,來重新識別仍未被確定為正確的邏 輯元素與所述字符串之間的對應關系。
4、 根據(jù)權利要求3所述的圖像識別方法,所述圖像識別方法還包括以下步驟存儲步驟,其存儲通過所述重新識別步驟識別的識別結(jié)果, 其中,當輸出所述重新識別步驟的重新識別結(jié)果時,所述輸出步驟 針對每個邏輯元素,將所述存儲步驟存儲的識別結(jié)果與當前顯示的識別 結(jié)果進行比較,并針對其中所述存儲步驟存儲的識別結(jié)果與當前顯示的 識別結(jié)果不一致的邏輯元素,輸出用于指示所述重新識別步驟的重新識 別結(jié)果與當前顯示的識別結(jié)果不一致的信息。
5、 一種記錄有圖像識別程序的記錄介質(zhì),所述圖像識別程序使計算 機執(zhí)行對圖像中的字符串與組成邏輯結(jié)構的多個邏輯元素之間的對應關 系進行識別以識別每個邏輯元素的方法,在所述圖像中,所述字符串被 描述為所述多個邏輯元素,所述圖像識別方法包括以步驟當識別或重新識別所述對應關系時,輸出所識別出的多個邏輯元素; 第一確定步驟,其在從識別出所述輸出步驟輸出的識別結(jié)果的用戶接收到用于確定所述邏輯元素的確定請求的輸入時,確定所述多個邏輯元素中的特定邏輯元素的正確性;第二確定步驟,其確定在所述第一確定步驟確定的所述邏輯元素之前輸出的并根據(jù)所述用戶進行的確認而定位的所有所述邏輯元素的正確性;以及重新識別步驟,其基于所述第一確定步驟和所述第二確定步驟確定 為正確的每個邏輯元素的確定內(nèi)容,來重新識別仍未被確定為正確的邏 輯元素與所述字符串之間的對應關系。
6、根據(jù)權利要求5所述的記錄有圖像識別程序的記錄介質(zhì),所述圖像識別程序還包括以下步驟存儲步驟,其存儲所述重新識別步驟識別出的識別結(jié)果, 其中,當輸出所述重新識別步驟的重新識別結(jié)果時,所述輸出步驟 針對每個邏輯元素,將所述存儲步驟存儲的識別結(jié)果與當前顯示的識別 結(jié)果進行比較,并針對所述存儲步驟存儲的識別結(jié)果與當前顯示的識別 結(jié)果不一致的邏輯元素,輸出用于指示所述重新識別步驟的重新識別結(jié) 果與當前顯示的識別結(jié)果不一致的信息。
全文摘要
本發(fā)明提供圖像識別裝置和方法及記錄圖像識別程序的存儲介質(zhì)。圖像識別裝置對其中字符串被描述為邏輯元素的圖像中的字符串與組成邏輯結(jié)構的邏輯元素之間的對應關系進行識別以識別每個邏輯元素。該圖像識別裝置包括輸出裝置,用于在識別或重新識別所述對應關系時,輸出所識別的邏輯元素;第一確定裝置,用于在從用戶接收到用于確定所述邏輯元素的確定請求的輸入時,確定特定邏輯元素為正確;第二確定裝置,用于確定在第一確定裝置確定的所述邏輯元素之前輸出的并根據(jù)用戶的確認而定位的所有邏輯元素的正確性;以及重新識別裝置,用于基于每個邏輯元素的確定內(nèi)容,來重新識別仍未被確定為正確的邏輯元素與字符串之間的對應關系。
文檔編號G06K9/00GK101425132SQ20081017068
公開日2009年5月6日 申請日期2008年10月30日 優(yōu)先權日2007年10月31日
發(fā)明者堀田悅伸, 小澤憲秋, 武部浩明, 深沢克夫, 渡邊起一郎, 田中宏, 皆川明洋, 稻見真樹, 藤井勇作, 藤本克仁 申請人:富士通株式會社