專利名稱:電子文檔生成設(shè)備及電子文檔生成方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及由具有畸變的圖像生成可搜索電子文檔的電子文檔 生成設(shè)備及電子文檔生成方法。
背景技術(shù):
已提出關(guān)于掃描圖像校正的多種常規(guī)方法。日本專利特開第
S60-65668(1958)號公報公開了一種校正書本的裝訂部分中的彎曲畸變的方 法。日本專利特開第2002-77578號公報公開了一種進(jìn)行圖像校正的方法, 該方法利用原稿上下兩端間的距離、攝像設(shè)備與原稿間的距離及攝像設(shè)備 的相對位置,來校正由于拍攝對象表面高度的不均勻而產(chǎn)生的所拍攝圖像 的畸變。
在日本專利特開第H7-93374(1995)號公報公開的技術(shù)中,對文檔圖像 執(zhí)行字符識別處理,并預(yù)先將作為字符識別結(jié)果的測試數(shù)據(jù)與示出文檔圖 像上文本數(shù)據(jù)的相應(yīng)位置的坐標(biāo)信息相關(guān)聯(lián)。此外,在搜索文本時,顯示 包含與所搜索文本相對應(yīng)的部分的文檔圖像頁。另外,在日本專利特開第 H8-63583(1996)號公報公開的技術(shù)中,預(yù)先將作為對文檔圖像執(zhí)行字符識別 處理的結(jié)果的文本數(shù)據(jù),與分辨率降低了的文檔圖像相關(guān)聯(lián),并寄存相關(guān) 聯(lián)后的結(jié)果,從而使生成可搜索的文檔成為可能。
然而,在根據(jù)日本專利特開第S60-65668(1985)號公報與日本專利特開 第2002-77578號公報的圖像校正方法中,在校正之后,由于畸變校正變換 中的估計誤差所產(chǎn)生的校正誤差導(dǎo)致圖像中進(jìn)一步產(chǎn)生畸變,這可能會進(jìn) 一步產(chǎn)生圖像質(zhì)量劣化。也就是說,當(dāng)執(zhí)行畸變校正處理時,估計誤差等 可能會產(chǎn)生進(jìn)一步的畸變。因此,對用戶而言,畸變校正之后的圖像有可 能比校正之前的圖像更難以識別。另一方面,當(dāng)對包含畸變的文檔圖像執(zhí)行字符識別處理時,從文檔圖 像中提取字符的準(zhǔn)確度可能會降低。因此,整個文檔圖像的字符識別準(zhǔn)確 度可能會降低。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個實(shí)施例,提供一種電子文檔生成設(shè)備,該電子文檔 生成設(shè)備具有校正單元,用于校正第一圖像的畸變,以獲得校正圖像; 字符識別單元,用于對包含在所述校正圖像中的多個字符圖像執(zhí)行字符識 別處理,以獲得文本數(shù)據(jù);用于求出所述第一圖像中的各字符行的基線的 單元;用于就所述第一圖像中的各字符圖像,求出該字符圖像相對于所述 基線的相對位置的單元;以及生成單元,用于生成包含有所述文本數(shù)據(jù)及 所述第一圖像的電子文檔,其中該文本數(shù)據(jù)的位置是基于相對于所述基線 的所述相對位置而描述的。
通過下面結(jié)合附圖的對示例性實(shí)施例的說明,本發(fā)明的其他特征將變 得更加清楚。
圖1是示出根據(jù)實(shí)施例1的電子文檔生成設(shè)備的示例的概要的框圖。 圖2是示出根據(jù)實(shí)施例1的電子文檔生成設(shè)備的示例的概要的系統(tǒng)圖。 圖3是示出電子文檔生成處理的實(shí)施例的框圖。 圖4是示出電子文檔生成處理的實(shí)施例的流程圖。 圖5A是示出輸入圖像的示例的一部分的圖。 圖5B是示出輸入圖像的示例的一部分的圖。
圖6A是示出通過旋轉(zhuǎn)輸入圖像而獲得的直立圖像的示例的一部分的圖。
圖6B是示出通過旋轉(zhuǎn)輸入圖像而獲得的直立圖像的示例的一部分的圖。
圖7A是示出通過對直立圖像進(jìn)行畸變校正變換而獲得的畸變校正圖 像的示例的一部分的圖。
5圖7B是示出通過對直立圖像進(jìn)行畸變校正變換而獲得的畸變校正圖 像的示例的一部分的圖。
圖8A是示出畸變校正圖像中的基于測量誤差的畸變的示例的圖。
圖8B是示出畸變校正圖像中的基于測量誤差的畸變的示例的圖。
圖9A是示出畸變校正圖像上的文本區(qū)域的示例的圖。
圖9B是示出畸變校正圖像上的文本區(qū)域的示例的圖。
圖10A是示出從圖9A中所示出的文本區(qū)域中獲得的文本的示例的圖。
圖10B是示出從圖9B中所示出的文本區(qū)域中獲得的文本的示例的圖。
圖11A是示出圖6A中的區(qū)域601的放大圖。
圖11B是示出圖6B中的區(qū)域601的放大圖。
圖12A是示出圖11A中的區(qū)域1106的放大圖。
圖12B是示出圖11B中的區(qū)域1106的放大圖。
圖13A是示出設(shè)定基線及默認(rèn)字符寬度的文本對象的PDF描述的示例 的圖。
圖13B是示出設(shè)定基線及默認(rèn)字符寬度的文本對象的PDF描述的示例 的圖。
圖14A是示出圖13A中的示例的繪制(rendering)的圖。 圖14B是示出圖13B中的示例的繪制的圖。
圖15A是示出對圖13A中各字符設(shè)定字符寬度比的文本對象的PDF描 述的示例的圖。
圖15B是示出對圖13B中各字符設(shè)定字符寬度比的文本對象的PDF描 述的示例的圖。
圖16A是示出圖15A中的示例的繪制的圖。 圖16B是示出圖15B中的示例的繪制的圖。
圖17A是示出對圖15A中的各字符設(shè)定文本高度(rise)的文本對象的 PDF描述的示例的圖。
圖17B是示出對圖15B中的各字符設(shè)定文本高度的文本對象的PDF描 述的示例的圖。
圖18A是示出圖17A中的示例的繪制的圖。圖18B是示出圖17B中的示例的繪制的圖。
圖19A是示出所生成電子文檔的圖像對象的示例的一部分的圖。
圖19B是示出所生成電子文檔的圖像對象的示例的一部分的圖。
圖20A是示出在利用顯示電子文檔的軟件來搜索單詞>廿"的情
況下的輸出的示例的圖。
圖20B是示出在利用顯示電子文檔的軟件來搜索單詞"setting"的情
況下的輸出的示例的圖。
具體實(shí)施例方式
圖1是示出根據(jù)實(shí)施例1的示例電子文檔生成設(shè)備的概要的框圖。
根據(jù)此實(shí)施例,CPU101執(zhí)行存儲在ROM102中的控制程序,以對整 個當(dāng)前設(shè)備進(jìn)行控制。ROM 102中存儲有由CPU 101執(zhí)行的計算機(jī)程序, 以及各種參數(shù)數(shù)據(jù)。計算機(jī)程序可以由CPU 101來執(zhí)行,以操作該設(shè)備(例 如計算機(jī))作為用于執(zhí)行后面要描述的一個或更多個流程圖中示出的各處 理的各種裝置(例如各處理部)。應(yīng)當(dāng)指出的是,在該實(shí)施例中,可以通過 使用計算機(jī)(CPU)由軟件來實(shí)現(xiàn)與(后面所述的)流程圖的各步驟相對應(yīng) 的處理,并且,也可以利用諸如電子電路的硬件來實(shí)現(xiàn)這些處理的部分或 全部。本發(fā)明的電子文檔生成設(shè)備的各實(shí)施例,可以利用通用個人計算機(jī) 來實(shí)現(xiàn),也可以實(shí)現(xiàn)為專用于電子文檔生成的設(shè)備。
在所示的實(shí)施例中,RAM 103中存儲有圖像及各種信息。RAM 103可 以用作CPU的工作區(qū),或者用作數(shù)據(jù)的臨時保存區(qū)域。
外部存儲設(shè)備104可以存儲各種數(shù)據(jù),例如字典。外部存儲設(shè)備104 例如可以包含硬盤、CD-ROM等中的至少一個。具有用于使計算機(jī)實(shí)現(xiàn)根 據(jù)本發(fā)明的多個方面的功能的計算機(jī)可執(zhí)行指令的計算機(jī)程序,例如可以 存儲在計算機(jī)可讀的外部存儲介質(zhì)中,或者可以通過網(wǎng)絡(luò)而提供。顯示器 105例如可以是LCD或CRT。
根據(jù)此實(shí)施例的輸入設(shè)備106,例如可以是用于連接圖像輸入設(shè)備的接 口 (例如用于連接到數(shù)碼相機(jī)或掃描儀的接口),或者可以是圖像輸入設(shè)備 本身(例如數(shù)碼相機(jī))。在一種方案中,為了將根據(jù)本發(fā)明各方面的設(shè)備實(shí)現(xiàn)為數(shù)碼相機(jī)或掃描儀的一部分,可以將本發(fā)明的設(shè)備并入到數(shù)碼相機(jī)或 掃描儀中。
在所示的實(shí)施例中,網(wǎng)絡(luò)接口 (I/F) 107與連接到網(wǎng)絡(luò)的外部設(shè)備(例 如,服務(wù)器、外部存儲設(shè)備、圖像輸入設(shè)備等中的至少一個)進(jìn)行通信, 以讀或?qū)懗绦蚧驍?shù)據(jù)。所述網(wǎng)絡(luò)通常是所謂的"通信網(wǎng)絡(luò)",例如互聯(lián)網(wǎng)、 LAN、 WAN或電話線,即用于數(shù)據(jù)的發(fā)送與接收。顯示器105或輸入設(shè)備 106可以通過網(wǎng)絡(luò)接口 107進(jìn)行連接。
在一種方案中,此種電子文檔生成設(shè)備例如可以在如圖2的示例所示 的系統(tǒng)中實(shí)現(xiàn)。圖2是示出在實(shí)施例1中可以采用的計算機(jī)系統(tǒng)的示例的 圖。計算機(jī)設(shè)備201接收掃描儀202所拍攝的圖像數(shù)據(jù),以執(zhí)行電子文檔 生成的處理。應(yīng)當(dāng)了解的是,根據(jù)本發(fā)明的電子文檔生成設(shè)備的實(shí)施例不 僅局限于此構(gòu)造,也可以被構(gòu)造為例如能夠在其中容裝有掃描儀的設(shè)備(例 如復(fù)合機(jī)(MPF)等)中生成電子文檔。電子文檔可以例如利用數(shù)碼相機(jī) 等所拍攝的圖像來生成。
接下來,圖3示出了表示在執(zhí)行實(shí)施例1的電子文檔生成處理時各處 理部的示例的框圖,以及在各處理部輸入及輸出的數(shù)據(jù)。
根據(jù)如圖3所示的實(shí)施例,圖像旋轉(zhuǎn)部301對整個輸入圖像進(jìn)行旋轉(zhuǎn), 以使得輸入圖像中所包含的字符圖像處于基本上直立的姿勢,由此獲得直 立圖像。這可以通過如下所述的圖4中的步驟S401的處理來實(shí)現(xiàn)。例如, 當(dāng)在執(zhí)行步驟S401之前輸入圖像處于基本上直立的姿勢時,可以跳過步驟 S401。
圖像畸變校正部302對直立圖像進(jìn)行畸變校正變換,由此獲得畸變校 正圖像。這可以通過如下所述的圖4中的步驟S402至步驟S404的處理來 實(shí)現(xiàn)。
字符識別部303對畸變校正圖像執(zhí)行字符識別處理,以獲得字符識別 結(jié)果的文本數(shù)據(jù),以及該文本在畸變校正圖像上的坐標(biāo)。這可以通過如下 所述的圖4中的步驟S405來實(shí)現(xiàn)。坐標(biāo)變換部304將由字符識別部303獲得的字符識別結(jié)果的文本在畸 變校正圖像上的坐標(biāo),變換為在畸變校正之前的直立圖像上的坐標(biāo)。這可 以通過如下所述的圖4中的步驟S406來實(shí)現(xiàn)。
電子文檔生成部305根據(jù)由圖像旋轉(zhuǎn)部301獲得的直立圖像,以及由 字符識別部303獲得的字符識別結(jié)果的文本數(shù)據(jù),生成電子文檔。在這里, 確定位于直立圖像中的各文本區(qū)域中的文本數(shù)據(jù)。這可以通過如下所述的 圖4中的步驟S407至步驟S409來實(shí)現(xiàn)。
文本畸變再現(xiàn)部306根據(jù)由電子文檔生成部305獲得的電子文檔,以 及由坐標(biāo)變換部304獲得的坐標(biāo),求出交疊在該電子文檔上的透明字符的 基線,以調(diào)整字符寬度比及相對位置,從而再現(xiàn)文本的畸變。這可以通過 如下所述的圖4中的步驟S410至步驟S415來實(shí)現(xiàn)。
接下來,圖4中將示出實(shí)施例1中的處理的流程圖的示例。
在步驟S401, CPU101將輸入圖像朝直立姿勢旋轉(zhuǎn),以獲得直立圖像。 圖5A及圖5B各自示出了根據(jù)實(shí)施例1的輸入圖像的示例的一部分。圖5A 是用日文描述的文檔圖像的示例,圖5B是用英文描述的文檔圖像的示例。 由于該輸入圖像的整個圖像(所有字符圖像)大部分是傾斜的,所以在這 種狀態(tài)下不能執(zhí)行字符識別處理。因此,對整個輸入圖像進(jìn)行旋轉(zhuǎn),以使 得除書本裝訂部分中的字符行以外的字符行都處于基本上直立的姿勢。圖 6A及圖6B各自示出了通過旋轉(zhuǎn)并變換圖5A及圖5B各圖中的圖像而獲得 的直立圖像的一部分。應(yīng)當(dāng)指出,可以利用基本上不出現(xiàn)誤差的位圖變換 來進(jìn)行圖像的旋轉(zhuǎn)。旋轉(zhuǎn)角度可以由用戶來指示,也可以自動求出。在自 動求出旋轉(zhuǎn)角度的情況下,例如可以將圖5A及圖5B各自中的圖像劃分為 多個小部分,可以找出各小部分中所含字符行的傾斜角度。在從各小部分 獲得的傾斜角度之中,可以找出出現(xiàn)最頻繁的那個角度,作為整個圖像的 傾斜角度。
由于在步驟S401獲得的直立圖像中,書本裝訂部分中的畸變等保持原 有狀態(tài),因此在步驟S402, CPU 101求出用于上述獲得的直立圖像的畸變 校正變換(例如,在校正時使用的校正公式、系數(shù)、變量等的至少一個)。 畸變校正變換可以旨在校正圖像中的畸變部分,以提供正確姿勢。該畸變校正方法可以是如日本專利特開第S60-65668(1985)號公報或日本專利特開 第2002-77578號公報中所述的方法,或者是其他畸變校正變換方法。不過, 該方法還可以涉及求出逆變換。
在步驟S403, CPU 101根據(jù)以上所獲得的畸變校正變換(例如畸變校 正計算公式等),求出畸變校正逆變換(例如逆變換的計算公式等)。
在步驟S404, CPU 101對在步驟S401獲得的直立圖像(即在畸變校正 之前獲得的圖像),進(jìn)行在步驟S402獲得的畸變校正變換,以獲得畸變校 正圖像(即在畸變校正之后獲得的圖像)。在對圖6A及圖6B的各圖中的圖 像的示例進(jìn)行畸變校正變換的情況下,可以獲得如圖7A及圖7B中示例各 自所示的畸變校正圖像。也就是說,圖7A是用日文描述的文檔的畸變校正 之后的圖像的示例,圖7B是用英文描述的文檔的畸變校正之后的圖像的示 例。由于在對畸變的測量中可能會出現(xiàn)測量誤差,因此,基于測量誤差, 在畸變校正圖像中往往更容易出現(xiàn)畸變。圖8A及圖8B各自示出了可能在 校正之后出現(xiàn)的這種畸變的示例。如圖8A及圖8B各自所示,由于在由于 測量誤差等導(dǎo)致的、校正之后出現(xiàn)的畸變,是相對不自然的畸變,因此, 用戶可能認(rèn)為該畸變是過于不自然的和/或令人迷惑的,以致于圖像可能難 以識別。也就是說,對用戶而言,保留有更自然的畸變(例如在書本的裝 訂部分等處)的直立圖像(例如如圖6A及圖6B各圖中所示),可能比出現(xiàn) 有更不自然的畸變的畸變校正圖像(例如如圖8A及圖8B各圖中所示)更 容易識別。然而,在執(zhí)行字符識別處理時,在保留有更自然的畸變的狀態(tài) 下(如圖6A及圖6B各圖的示例中所示),由于在裝訂部分處字符提取處理 的失敗,整個文檔中的字符識別準(zhǔn)確度可能往往更容易降低。也就是說, 對于字符識別處理而言,在許多情況下,圖7A及圖7B各圖中所示的畸變 校正圖像(相對應(yīng)地,圖8A及圖8B各圖中所示的畸變校正圖像),比保留 有圖6A及圖6B各圖中所示的畸變的直立圖像更適合這種處理。
在步驟S405, CPU 101對畸變校正圖像執(zhí)行字符識別處理,以求出字 符識別結(jié)果的文本,以及在畸變校正圖像上的坐標(biāo)。在圖9A及圖9B的各 圖中示出了如圖7A及圖7B各圖的示例中所示的畸變校正圖像上的文本區(qū) 域701;而圖IOA及圖IOB各自示出了從其中獲得的文本的示例。應(yīng)當(dāng)指
10出,可以使用字符識別技術(shù)來進(jìn)行字符識別處理。以下,將實(shí)施例1中的 畸變校正圖像上的坐標(biāo),設(shè)計成被獲得作為由多個字符圖像構(gòu)造的文本區(qū) 域的位置坐標(biāo),以及各字符圖像的位置坐標(biāo),但不局限于此。
在步驟S406中,CPU 101基于在步驟S403所獲得的畸變校正逆變換 (例如逆變換公式)以及在步驟S405獲得的畸變校正圖像上的坐標(biāo),獲得 與畸變校正之前獲得的圖像相對應(yīng)的直立圖像上的坐標(biāo)。例如,當(dāng)對圖7A 及圖7B各圖的示例中所示的文本區(qū)域701內(nèi)的各頂點(diǎn)的坐標(biāo)進(jìn)行逆變換, 以求出包圍逆變換之后的頂點(diǎn)坐標(biāo)的外切矩形時,可以獲得圖6A及圖6B 各圖的示例中所示的區(qū)域601。另外,當(dāng)對包圍圖9A及圖9B各圖的示例 中所示的字符901的矩形的各頂點(diǎn)坐標(biāo)進(jìn)行逆變換時,獲得包圍逆變換結(jié) 果的頂點(diǎn)坐標(biāo)的矩形,作為如圖6A及圖6B各圖中的示例中所示的字符602 的坐標(biāo)。
在步驟S407, CPU 101生成電子文檔。應(yīng)當(dāng)指出,該電子文檔可以是 如下的一種文檔,在該文檔中,至少存在圖像對象和字符對象,并且二者 在相同坐標(biāo)上交疊,而且還可以將字符對象處理為可搜索且不顯示的字符 對象(例如透明對象)。在根據(jù)實(shí)施例1的一個方案中,生成有PDF文檔。
在步驟S408, CPU 101將直立圖像作為圖像對象定位在電子文檔中。 例如,可以定位如圖6A及圖6B各圖的示例中所示的直立圖像。
在步驟S409, CPU 101確定位于在步驟S406所獲得的各文本區(qū)域的坐 標(biāo)處的文本對象(例如對應(yīng)于字符識別結(jié)果的文本數(shù)據(jù))。例如,在圖6A 及圖6B各圖的示例中,可以確定位于文本區(qū)域601中的文本對象。另外, 可以將位于各文本區(qū)域中的文本數(shù)據(jù),按照作為透明字符交疊在由步驟 S408所定位的圖像對象上以進(jìn)行繪制的方式描述在PDF文檔內(nèi)。
在步驟S410, CPU 101針對在步驟S409的定位中確定的文本對象,求 出各字符行的默認(rèn)基線及默認(rèn)字符寬度。另外,在電子文檔中描述默認(rèn)基 線及默認(rèn)字符寬度的信息。默認(rèn)基線例如可以等于相同行中大多數(shù)字符所 具有的基線。默認(rèn)字符寬度例如可以等于相同行中大多數(shù)字符所具有的字 符寬度。舉例來說,在圖6A及圖6B各圖中所示的區(qū)域601中,如圖11A 及圖IIB各圖中所示,基線可以對應(yīng)于基線1101至基線1104,默認(rèn)字符寬度例如可以對應(yīng)于默認(rèn)字符寬度1105等。圖IIA是用日文描述的文檔的示 例,圖IIB是用英文描述的文檔的示例。在對已在步驟S409確定位置的文 本對象設(shè)定基線1101至基線1104及默認(rèn)字符寬度1105的情況下,文本對 象的PDF描述的一部分可以如圖13A及圖13B各圖的示例中所示。應(yīng)當(dāng)指 出,為了便于進(jìn)行說明,圖13A中的示例是提取并示出文檔描述示例的一 部分的圖,而由"< ... >"標(biāo)記所包圍的部分示出字符代碼。圖13B中的示 例也是提取并示出文檔描述示例的一部分的圖,而由"()"標(biāo)記所包圍的部 分示出字符(即字符代碼)。應(yīng)當(dāng)指出,為了便于進(jìn)行說明,圖13B中的示 例也省略了一部分描述。如果對如圖13A及圖13B各圖的示例中所示的PDF 描述進(jìn)行了繪制,則該繪制的結(jié)果可以如圖14A及圖14B各圖的示例中所 示。在圖14A及圖14B各圖的示例中,所述繪制是利用如圖IIA及圖11B 各圖的示例中所確定的默認(rèn)基線及默認(rèn)字符寬度來進(jìn)行的,各字符行被基 本線性地定位。應(yīng)當(dāng)指出,圖13A及圖14A各圖是用日文描述的文檔的示 例,圖13B及圖14B各自是用英文描述的文檔的示例。
步驟S411示出了以下循環(huán)的結(jié)束,在該循環(huán)中,CPU101針對文本對 象中的各字符重復(fù)執(zhí)行從步驟S412到步驟415的處理。當(dāng)從步驟S412至 步驟S415的所述循環(huán)處理完成時,生成實(shí)施例1的電子文檔。
在步驟S412中,CPU 101求出各字符圖像對象的字符寬度與文本區(qū)域 中的默認(rèn)字符寬度之間的比。在圖12A及圖12B各圖的示例中示出在圖11A 及圖11B各圖的示例中所示的區(qū)域1106的放大圖。舉例來說,在步驟S412, 可以求出字符1201的字符寬度1202與文本對象的默認(rèn)字符寬度1105之間 的比。
在步驟S413, CPU 101對文本對象中的各字符設(shè)定在步驟S412獲得的 字符寬度比。圖15A及圖15B各自示出了如下文本對象的PDF描述的一部 分的示例,在該文本對象中對圖13A及圖13B各圖的示例中所示的文本對 象中的各字符設(shè)定了字符寬度比。另外,在對圖15A及圖15B各圖中的示 例進(jìn)行繪制的情況下,該繪制結(jié)果如圖16A及圖16B各圖的示例中所示。 在示出PDF描述示例的圖15A及圖15B中,對各字符設(shè)定的字符寬度比是在描述符Tj隨后的值。應(yīng)當(dāng)指出,對于寬度等于默認(rèn)字符寬度的字符,省略了字符寬度比的描述。
在步驟S414, CPU 101求出從文本對象的基線到各字符圖像位置坐標(biāo)的相對位置(例如偏移量)。舉例來說,對于在圖12A及圖12B各圖的示例中所示的字符1201,求出相對于在步驟S410所獲得的基線1102的相對位置1203。
在步驟S415, CPU101將在步驟S414求出的相對位置,表示為文本對象中的字符的文本高度。當(dāng)對如圖15A及15B各圖的示例中所示的文本對象的PDF描述示例設(shè)定了文本高度時,該設(shè)定結(jié)果如圖17A及圖17B各圖的示例中所示。在對如圖17A及圖17B各圖的示例中所示的文本對象描述進(jìn)行繪制的情況下,該繪制結(jié)果可以如圖18A及圖18B各圖的示例中所示。應(yīng)當(dāng)指出,在示出PDF描述示例的圖17A及圖17B各圖的示例中,所設(shè)定的文本高度是在描述符Ts之前描述的值。
根據(jù)以上所描述的實(shí)施例而生成的電子文檔,是按以下方式描述的PDF文檔將如圖18A及圖18B各圖的示例中所示的文本對象,與如圖19A及圖19B各圖的示例中所示的圖像對象相交疊,并作為透明字符定位在該圖像對象上。在該生成的文檔中,利用文本高度的描述,將文本對象的各字符的描繪位置作為相對于基線的相對位置進(jìn)行描述。
另外,圖20A示出了在顯示這樣生成的電子文檔的軟件(例如Adobe 公司的Acrobat Reader 等)中搜索日文單詞"七 >廿"情況下的輸出的示例。圖20B示出了在搜索英文單詞"setting"的情況下的輸出的示例。結(jié)果,在實(shí)施例1中,當(dāng)搜索電子文檔時,由于對交疊在直立圖像上的透明字符的字符代碼進(jìn)行搜索,因此,如同對直立圖像的相應(yīng)位置2001進(jìn)行了搜索一樣顯示字符。
如上所述,在當(dāng)前實(shí)施例中,由于利用校正了畸變的圖像來執(zhí)行字符識別,因此有可能提高整個文檔圖像的字符識別率(例如字符識別的準(zhǔn)確度)。另一方面,用于顯示的圖像使用了在畸變校正之前獲得的圖像(例如,只進(jìn)行過幾乎不導(dǎo)致圖像質(zhì)量劣化的旋轉(zhuǎn)的圖像),因此能夠防止顯示可能發(fā)生圖像質(zhì)量劣化的圖像(該圖像可能被認(rèn)為不自然的或令人迷惑的)。另外,在文本搜索中,對應(yīng)于在進(jìn)行畸變校正之前的圖像上的位置被反轉(zhuǎn)顯示,因此該搜索可以被視為如同對該圖像進(jìn)行文本搜索一樣。
另外,當(dāng)按其原狀通過絕對坐標(biāo)來描述圖12A及圖12B各圖的示例中的字符1201的位置時,由于字符1201被置于基線1102與基線1103之間,因此不容易明確字符1201屬于哪個字符行。然而,根據(jù)本實(shí)施例的各方面,由于利用文本高度的描述、以相對于基線的相對位置來描述字符1201的位置,因此字符1201顯然屬于基線1102的字符行。也就是說,屬于圖像上相同行的字符行被構(gòu)造為即使在電子文檔描述中也屬于一個行。因此,此結(jié)構(gòu)可以防止字符屬于不同字符行進(jìn)而在搜索過程中遺漏字符的情況發(fā)生。此外,在復(fù)制或粘貼電子文檔中的文本時,可以保留準(zhǔn)確的新行信息。
另外,盡管實(shí)施例1示出的是PDF文檔生成的示例,可是該發(fā)明的各方面同樣適用于除PDF以外的其他格式電子文檔(例如XPS (XML紙張規(guī)格)文檔)的生成。
此外,在實(shí)施例1中,在步驟S410,可以由各字符在水平方向上的位置坐標(biāo),來求出字符間隔(例如水平方向上的字符間距量),從而描述電子文檔中的字符間隔。該字符間隔可以在各個字符處求出,并進(jìn)行描述。另外,還可以求出平均字符間隔作為默認(rèn)字符間隔,并利用默認(rèn)字符間隔來描述字符。
因此,本發(fā)明的各方面可以提供一種電子文檔,該電子文檔能夠顯示用戶相對容易識別的圖像,同時保持字符識別的準(zhǔn)確度。本發(fā)明的各實(shí)施例可以還顧及到甚至在字符識別結(jié)果以諸如PDF (可移植文檔格式)等格式方式嵌入的情況下進(jìn)行的文本搜索。
根據(jù)本發(fā)明的實(shí)施例,在搜索基于依據(jù)本發(fā)明的方法而生成的電子文檔時,能夠在對未經(jīng)歷畸變校正的圖像上顯示搜索結(jié)果。另外,由于可以利用經(jīng)歷了畸變校正的圖像來執(zhí)行字符識別,因此能夠提高整個文檔圖像的字符識別率(例如字符識別的準(zhǔn)確度)。此外,由于可以使用在畸變校正之前獲得的圖像作為用于顯示的圖像,因此這可以防止對由于畸變校正誤差而出現(xiàn)圖像質(zhì)量劣化的圖像的顯示,否則其可能對于用戶看來是不自然的和/或令人迷惑的。此外,由于可以利用相對于基線的相對位置,來描述
14屬于一字符行的各個文本數(shù)據(jù),因此可以明確各個文本數(shù)據(jù)所屬的字符行,從而提高進(jìn)行搜索或復(fù)制的準(zhǔn)確度。
雖然參照示例性實(shí)施例對本發(fā)明進(jìn)行了描述,然而應(yīng)理解,本發(fā)明并不局限于所公開的示例性實(shí)施例。應(yīng)對所附權(quán)利要求的范圍給予最寬泛的解釋,以涵蓋所有的這種變型、等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種電子文檔生成設(shè)備,該電子文檔生成設(shè)備包括校正單元,用于校正第一圖像的畸變,以獲得校正圖像;字符識別單元,用于對包含在所述校正圖像中的多個字符圖像執(zhí)行字符識別處理,以獲得文本數(shù)據(jù);用于求出所述第一圖像中的各字符行的基線的單元;用于就所述第一圖像中的各字符圖像、求出該字符圖像相對于所述基線的相對位置的單元;以及生成單元,用于生成包含有所述文本數(shù)據(jù)及所述第一圖像的電子文檔,其中,所述文本數(shù)據(jù)的位置是基于相對于所述基線的所述相對位置而描述的。
2. 根據(jù)權(quán)利要求l的電子文檔生成設(shè)備,該電子文檔生成設(shè)備還包括 旋轉(zhuǎn)單元,用于旋轉(zhuǎn)輸入圖像以獲得直立圖像,其中,所述第一圖像是由所述旋轉(zhuǎn)單元所獲得的所述直立圖像。
3. 根據(jù)權(quán)利要求l的電子文檔生成設(shè)備,其中,所述生成單元生成包 含有作為透明字符與所述第一圖像相交疊的所述文本數(shù)據(jù),其中所述文本 數(shù)據(jù)的位置是基于相對于所述基線的所述相對位置而描述的。
4. 根據(jù)權(quán)利要求l的電子文檔生成設(shè)備,其中,所述生成單元通過使 用文本高度的描述,來生成包含有基于相對于所述基線的所述相對位置而 描述的所述文本數(shù)據(jù)的所述電子文檔。
5. 根據(jù)權(quán)利要求1的電子文檔生成設(shè)備,該電子文檔生成設(shè)備還包括 逆變換單元,用于對包含在所述校正圖像中的各字符圖像的位置坐標(biāo)執(zhí)行畸變校正逆變換,以求出所述第一圖像中的各字符圖像的位置坐標(biāo), 其中,相對于所述基線的所述相對位置,是基于由所述逆變換單元求出的 所述第一圖像中的各字符圖像的所述位置坐標(biāo)而求出的。
6. 根據(jù)權(quán)利要求1的電子文檔生成設(shè)備,該電子文檔生成設(shè)備還包括 用于求出所述字符圖像的默認(rèn)字符寬度的單元,以及 用于求出所述第一圖像中的各字符圖像的字符寬度與所述默認(rèn)字符寬度之間的比的單元,其中,所述生成單元基于相對于所述基線的所述相對 位置來描述所述文本數(shù)據(jù)在所述第一圖像上的所述位置,并進(jìn)一步生成包含有利用與所述默認(rèn)字符寬度的所述比來描述所述字符寬度的所述文本數(shù) 據(jù)的所述電子文檔。
7. 根據(jù)權(quán)利要求l的電子文檔生成設(shè)備,其中,由所述生成單元所生成的所述電子文檔是PDF文檔。
8. —種電子文檔生成方法,該電子文檔生成方法包括 校正第一圖像的畸變,以獲得校正圖像;對包含在所述校正圖像中的多個字符圖像執(zhí)行字符識別處理,以獲得 文本數(shù)據(jù);求出所述第一圖像中的各字符行的基線;就所述第一圖像中的各字符圖像,求出該字符圖像相對于所述基線的 相對位置;以及生成包含有所述文本數(shù)據(jù)及所述第一圖像的電子文檔,其中,所述文 本數(shù)據(jù)的位置是基于相對于所述基線的所述相對位置而描述的。
全文摘要
本發(fā)明提供一種電子文檔生成設(shè)備及電子文檔生成方法。該電子文檔生成設(shè)備具有用于校正第一圖像的畸變以獲得校正圖像的校正單元,以及用于對包含在該校正圖像中的多個字符圖像執(zhí)行字符識別處理以獲得文本數(shù)據(jù)的字符識別單元。該電子文檔生成設(shè)備還具有用于求出該第一圖像中的各字符行的基線的單元,以及用于就該第一圖像中的各字符圖像、求出該字符圖像相對于該基線的相對位置的單元。該電子文檔生成設(shè)備還包括用于生成包含有該文本數(shù)據(jù)及該第一圖像的電子文檔的生成單元,其中,該文本數(shù)據(jù)的位置是基于相對于該基線的該相對位置而描述的。
文檔編號H04N1/387GK101515984SQ20091000656
公開日2009年8月26日 申請日期2009年2月19日 優(yōu)先權(quán)日2008年2月19日
發(fā)明者梅田一郎, 田中哲臣 申請人:佳能株式會社