專利名稱:文字圖像抽出裝置及文字圖像抽出方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從排列兩個(gè)或兩個(gè)以上文字的文字列區(qū)域中抽出各文字
的圖像的文字圖^^出裝置及文字圖^M^出方法。
背景技術(shù):
一種利用圖像掃描儀等圖^J^入裝置將文檔轉(zhuǎn)換成圖像,并以電子方 式進(jìn)行存儲(chǔ),且在之后可以檢索的文檔歸檔裝置已得到實(shí)用化。在這樣的 文檔歸檔裝置中,為了之后能夠檢索,需要從文檔圖像中的文字列區(qū)域中 抽出各文字的圖像。
在文字列區(qū)域中,多數(shù)情況下除了文字以外還包含標(biāo)點(diǎn)符號(hào)等,而且 還有多數(shù)情況下包含噪聲部分。標(biāo)點(diǎn)符號(hào)及噪聲部分對(duì)檢索來說是不需要 的。盡管如此,在以往的文檔歸檔裝置中,在從文字列區(qū)域中抽出各文字 的圖像時(shí),不僅抽出包含文字的要素,也抽出包含標(biāo)點(diǎn)符號(hào)的要素及包含 噪聲部分的要素。
發(fā)明內(nèi)容
本發(fā)明的目的在于,提供一種可以從排列兩個(gè)或兩個(gè)以上文字的文字 列區(qū)域中高精度地抽出各文字的圖像的文字圖像抽出方法及文字圖像抽 出裝置。
本發(fā)明是一種文字圖像抽出方法,其特征在于,包括抽出步驟,對(duì) 排列兩個(gè)或兩個(gè)以上文字的文字列區(qū)域,求出由相互連接的兩個(gè)或兩個(gè)以 上像素構(gòu)成的連接成分,并從上述文字列區(qū)域中,抽出由與連接成分外接 的外接圖形劃分的劃分要素;
改變步驟,改變?cè)诔槌霾襟E中抽出的劃分要素,JLjfe抽出步驟中抽出 的劃分要素中,將至少一部分相互重疊的劃分要素進(jìn)行綜合而作為新的劃 分要素,并將剩余的劃分要素按原樣作為新的劃分要素;
選擇步驟,預(yù)先確定基準(zhǔn)大小,且在改變步驟中改變的劃分要素中,
選擇比上逸基準(zhǔn)大小還大的劃分要素。
根據(jù)本發(fā)明,通過抽出步驟,從排列兩個(gè)或兩個(gè)以上文字的文字列區(qū) 域中抽出劃分要素。通過改變步驟,改變?cè)诔槌霾襟E中抽出的劃分要素。 通過選擇步驟,選擇改變步驟中改變的劃分要素的一部分。
在抽出步驟中,對(duì)文字列區(qū)域,求出由相互連接的兩個(gè)或兩個(gè)以上像 素構(gòu)成的連接部分,并抽出由與連接成分外接的外接圖形劃分的劃分要 素。在該劃分要素中,包含文字整體的要素、和包含文字一部分的要素。 另外,在該劃分要素中有包含標(biāo)點(diǎn)符號(hào)的要素。所謂標(biāo)點(diǎn)符號(hào)是指句點(diǎn)類、 括弧類及中點(diǎn)類等描述記號(hào)。進(jìn)而,在該劃分要素中,還有包含不屬于文 字及標(biāo)點(diǎn)符號(hào)任何一方的噪聲部分的要素。
在改變步驟中,將至少一部分相互重疊的劃分要素進(jìn)行綜合并作為新 的劃分要素。由此,可以對(duì)某些文字,將包含該文字的一部分的要素與包 含該文字的另一部分的要素進(jìn)行綜合,而得到包含該文字整體的一個(gè)要 素。另外,可以對(duì)某些文字,將包含該文字一部分的要素與包含該文字整 體的要素進(jìn)行綜合,而得到包含該文字整體的一個(gè)要素。
而且在改變步驟中,將剩余的劃分要素按原樣作為新的劃分要素。由 此,可以防止包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分要素,并不是按所希望 的方式被綜合而變成較大的要素的情況。從而,可以防止在后述的選擇步 驟中意料之外地選擇包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素。
包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素,比包含文字的要素小。 利用這點(diǎn),在選擇步驟中,預(yù)先確定基準(zhǔn)大小,在改變步驟中改變的劃分 要素中,選擇比上述基準(zhǔn)大小還大的劃分要素。由此,可以在改變步驟中 改變的劃分要素中選擇包含文字的要素。換言之,可以從改變步驟中改變 的劃分要素中,將包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素排除。
在這樣的本發(fā)明中,可以從文字列區(qū)域中高精度地抽出包含文字的要
素并作為文字圖像。換言之,可以不會(huì)4m地從文字列區(qū)域中抽出包含標(biāo) 點(diǎn)符號(hào)的要素及包含噪聲部分的要素,而抽出包含文字的要素。
另外,本發(fā)明的特征在于,還包括第二改變步驟,改變上述選擇步 驟中選擇的劃分要素,且預(yù)先確定第一基準(zhǔn)尺寸,并在上述選擇步驟中選 擇的劃分要素中,將與文字的排列方向有關(guān)的尺寸比上述第一基準(zhǔn)尺寸還
小JL^目互在文字的排列方向上相鄰的劃分要素進(jìn)行綜合而作為新的劃分 要素,并將剩余的劃分要素按原樣作為新的劃分要素;
第二選擇步驟,預(yù)先確定笫二基準(zhǔn)尺寸,且在第二改變步驟中改變的 劃分要素中,選擇與文字的排列方向有關(guān)的尺寸比上述第二基準(zhǔn)尺寸還大 的劃分要素。
另外根據(jù)本發(fā)明,通過第二改變步驟,改變選擇步驟中選擇的劃分要 素。通過第二選擇步驟,選擇第二選擇步猓中改變的劃分要素的一部分。
文字列區(qū)域的各文字,有時(shí)大小互不相同。這種情況下,常有包含比 較小的文字的兩個(gè)或兩個(gè)以上要素在文字的排列方向上相鄰的情況。然 而,包含標(biāo)點(diǎn)符號(hào)的要素在文字的排列方向上相鄰的情況較少,而且,包 含噪聲部分的要素在文字的排列方向上相鄰的情況也較少。
利用這點(diǎn),第二改變步驟,預(yù)先確定第一基準(zhǔn)尺寸,且在上述選擇步 驟中選擇的劃分要素中,將與文字的排列方向有關(guān)的尺寸比上述第 一基準(zhǔn) 尺寸還小且相互在文字的排列方向上相鄰的劃分要素進(jìn)行綜合而作為新 的劃分要素。由此,可以將包含比較小的文字的要素進(jìn)行綜合而作為較大 的要素。從而,可以防止包含比較小的文字的要素在后述的第二選擇步驟 中意料之外地被排除的情況。
而且第二改變步驟,將剩余的劃分要素按原樣作為新的劃分要素。由 此,可以防止將包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素并不是按所希 望的方式綜合而變成較大的要素。從而,可以防止將包含標(biāo)點(diǎn)符號(hào)的要素 及包含噪聲部分的要素在后述的笫二選擇步驟中可靠地排除。
在第二選擇步驟中,預(yù)先確定第二基準(zhǔn)尺寸,且在第二改變步驟中改 變的劃分要素中,選擇與文字的排列方向有關(guān)的尺寸比上述第二基準(zhǔn)尺寸 還大的劃分要素。由此,可以在第二改變步猓中改變的劃分要素中,選擇 包含文字的要素。換言之,可以從第二改變步驟中改變的劃分要素中,排 除包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素。
在這樣的本發(fā)明中,可以以更高的精度,從文字列區(qū)域中,抽出包含 文字的要素并作為文字圖像。換言之,在盡可能地防止從文字列區(qū)域中錯(cuò) 誤地抽出包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素的情況的基礎(chǔ)上,可 還以可靠地抽出包含文字的要素。
另外本發(fā)明的特征在于,還包括分割步驟,其中,預(yù)先確定第三基準(zhǔn) 尺寸,且在上述第二選擇步驟中選擇的劃分要素中,將與文字的排列方向 有關(guān)的尺寸比上述第三基準(zhǔn)尺寸還大的劃分要素,基于上述第三基準(zhǔn)尺寸 來進(jìn)行分割。
另外,根據(jù)本發(fā)明,在抽出步驟中抽出劃分要素時(shí),有時(shí)在一個(gè)劃分 要素中包含在文字的排列方向上相鄰的兩個(gè)或兩個(gè)以上文字。另外,在改 變步驟中改變了劃分要素時(shí),進(jìn)而在第二改變步驟中改變了劃分要素時(shí), 有時(shí)在一個(gè)劃分要素中包含在文字的排列方向上相鄰的兩個(gè)或兩個(gè)以上 文字。在此,在分割步驟中,預(yù)先確定第三基準(zhǔn)尺寸,且在第二選擇步驟 中選擇的劃分要素中,將與文字的排列方向有關(guān)尺寸比上述第三基準(zhǔn)尺寸 還大的劃分要素,基于上述第三基準(zhǔn)尺寸進(jìn)行分割。由此,可以防止在一 個(gè)劃分要素中包含兩個(gè)或兩個(gè)以上文字的情況。換言之,可以從文字列區(qū) 域中,按照一個(gè)文字抽出各文字圖像。
另外本發(fā)明是一種文字圖^^出裝置,其特征在于,包括抽出部, 對(duì)排列兩個(gè)或兩個(gè)以上文字的文字列區(qū)域,求出由相互連接的兩個(gè)或兩個(gè) 以上^L素構(gòu)成的連接成分,并從上述文字列區(qū)域中,抽出由與連接成分外 接的外接圖形劃分的劃分要素;
改變部,改變由抽出部抽出的劃分要素,并在由抽出部抽出的劃分要 素中,將至少一部分相互重疊的劃分要素進(jìn)行綜合而作為新的劃分要素, 并將剩余的劃分要素按原樣作為新的劃分要素;
選擇部,預(yù)先確定基準(zhǔn)大小,且在由改變部改變的劃分要素中,選擇 比上述基準(zhǔn)大小還大的劃分要素。
根據(jù)本發(fā)明,通過抽出部,從排列兩個(gè)或兩個(gè)以上文字的文字列區(qū)域 中抽出劃分要素。通過改變部,改變由抽出部抽出的劃分要素。通itit擇 部,選擇由改變部改變的劃分要素的一部分。
抽出部,對(duì)于文字列區(qū)域,求出由相互連接的兩個(gè)或兩個(gè)以上^象素構(gòu) 成的連接部分,并抽出由與連接成分外接的外接圖形劃分的劃分要素。在 該劃分要素中,有包含文字整體的要素和包含文字的一部分的要素。另外, 在該劃分要素中,有包含標(biāo)點(diǎn)符號(hào)的要素。進(jìn)而,在該劃分要素中,還有 包含不屬于文字及標(biāo)點(diǎn)符號(hào)任何一方的噪聲部分的要素。
改變部,將至少 一部分相互重疊的劃分要素進(jìn)行綜合并作為新的劃分 要素。由此,可以對(duì)某些文字,將包含該文字的一部分的要素與包含該文 字的另一部分的要素進(jìn)行綜合,而得到包含該文字整體的一個(gè)要素。另夕卜, 可以對(duì)某些文字,將包含該文字一部分的要素與包含該文字整體的要素進(jìn) 行綜合,而得到包含該文字整體的一個(gè)要素。
而且改變部中,將剩余的劃分要素按原樣作為新的劃分要素。由此, 可以防止將包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分要素,并不是按所希望的 方式進(jìn)行綜合而變成較大的要素。從而,可以防止在后述的選擇部中意料 之外地選擇包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素的情況。
包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素,比包含文字的要素小。 利用這點(diǎn),選擇部,預(yù)先確定基準(zhǔn)大小,在改變部中改變的劃分要素中, 選擇比上述基準(zhǔn)大小還大的劃分要素。由此,可以在改變部中改變的劃分 要素中,選擇包含文字的要素。換言之,可以從由改變部改變的劃分要素 中,排除包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素。
在這樣的本發(fā)明中,可以從文字列區(qū)域中高精度地抽出包含文字的要
素并作為文字圖像。換言之,可以不會(huì)4m地從文字列區(qū)域中抽出包含標(biāo) 點(diǎn)符號(hào)的要素及包含噪聲部分的要素,而抽出包含文字的要素。
本發(fā)明的目的、特點(diǎn)、及優(yōu)點(diǎn),可通過以下的詳細(xì)說明和附圖而變得 更明確。
圖l是表示執(zhí)行本發(fā)明的一實(shí)施方式即文字圖傳"柚出方法的文字圖像 抽出裝置400的構(gòu)成的方框圖。
圖2是用于說明由文字圖4綠出裝置400執(zhí)行的文字圖4綠出方法的 流程圖。
圖3是用于詳細(xì)說明抽出步驟、第一改變步驟、第一選擇步驟及第二 改變步驟的圖。
圖4是用于說明第二選擇步驟的圖。 圖5是用于說明第二選擇步驟的圖。 圖6是用于說明分割步驟的圖。
圖7是簡(jiǎn)要表示文檔圖像處理裝置10的構(gòu)成的方框圖。
圖8是詳細(xì)表示文檔圖像處理裝置10的構(gòu)成的方框圖。 圖9是表示制作字形樣本數(shù)據(jù)庫的處理的說明圖。 圖IO是文字圖像外圍特征的說明圖。 圖11是網(wǎng)格方向特征的說明圖。 圖12是表示制作字形特征辭典的處理的說明圖。 圖13是表示制作索引信息數(shù)據(jù)庫的處理的說明圖。 圖14是用具體例表示制作索引矩陣的處理的說明圖。 圖15是表示文檔圖像例、和索引信息數(shù)據(jù)庫中的該文檔圖像的索引信 息的數(shù)據(jù)配置例的i兌明圖。
圖16是表示檢索部的功能和檢索處理的說明圖。 圖17是表示檢索部中的檢索順序的流程圖。
圖18是表示計(jì)算檢索關(guān)鍵字和索引矩陣之間的相關(guān)度的方法的說明圖。
圖19是用具體例表示檢索關(guān)鍵字和索引矩陣之間的相關(guān)度的計(jì)算的 說明圖。
圖20是表示帶有詞匯解析功能的檢索處理的說明圖。
圖21是表示文檔圖4象管理部中的處理的說明圖。
圖22是用具體例表示調(diào)整已制作的索引矩陣而使第一列的文字列成 為有意義的文字列的處理的"^兌明圖。
圖23是表示文檔圖像表示部中表示的、在文檔圖像DB中儲(chǔ)存的文檔 圖l象的閱覽畫面的i兌明圖。
具體實(shí)施例方式
以下,參考附圖,對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行詳細(xì)說明。
圖l是表示執(zhí)行本發(fā)明的一實(shí)施方式即文字圖像抽出方法的文字圖像 抽出裝置400的構(gòu)成的方框圖。文字圖<|*出裝置400,構(gòu)成將文檔作為 圖像輸入并存儲(chǔ)的文檔圖像處理裝置10的一部分。文字圖像抽出裝置400 用于從排列兩個(gè)或兩個(gè)以上文字的文字列區(qū)域即標(biāo)題區(qū)域中,抽出各文字 的圖像。
在文字列區(qū)域中,兩個(gè)或兩個(gè)以上文字沿文字的寬度方向或文字的高 度方向排列.所謂文字的寬度方向,是指文字的與字的朝向垂直的方向, 所謂文字的高度方向,是指文字的與字的朝向平行的方向。換言之,文字 的排列方向,與文字寬度方向或文字的高度方向一致。進(jìn)而,換言之,文
字呈現(xiàn)橫向書寫或縱向書寫。本實(shí)施方式中,假定橫向書寫的文字來進(jìn)行
說明。文字是從左向右排成一列。文字列區(qū)^A二值圖像。
文字圖^#出裝置400,具有抽出部401,從文字列區(qū)域中抽出劃分 要素;第一改變部402,為改變由抽出部401抽出的劃分要素的改變部; 第一選擇部403,為選擇由第一改變部402改變的劃分要素的一部分的選 捧部;第二改變部404,為改變由第一選擇部403選擇的劃分要素的第二 改變部;第二選擇部405,為選擇由第二改變部404改變的劃分要素的一 部分的第二選擇部;分割部406,分割由第二選擇部鄰5逸摔的劃分要素。
圖2是用于說明由文字圖^#出裝置400執(zhí)行的文字圖出方法的 流程圖。當(dāng)提供文字列區(qū)域時(shí),開始文字圖^^出處理。當(dāng)開始文字圖像 抽出處理時(shí),首先在步驟al中執(zhí)行抽出步驟。在抽出步驟中,通過抽出部 401,從文字列區(qū)域中抽出劃分要素。
在下面的步驟a2中,執(zhí)行作為改變步驟的第一改變步驟。在第一改變 步驟中,通過第一改變部402,改變由抽出部401抽出的劃分要素。在下 面的步驟a3中,執(zhí)行作為選擇步驟的第一選擇步驟。在第一選擇步驟中, 通過第一選擇部403,選擇由第一改變部402改變的劃分要素的一部分。
在下面的步驟a4中,執(zhí)行作為第二個(gè)改變步驟的第二改變步驟。在第 二改變步驟中,通過第二改變部404,改變由第一選擇部403選擇的劃分 要素。在下面的步驟a5中,執(zhí)行作為第二個(gè)選擇步驟的第二選擇步驟。在 第二選擇步驟中,通過第二選擇部405,選擇由第二改變部404改變的劃 分要素的一部分。
在下面的步驟a6中,執(zhí)行分割步驟。在分割步驟中,通過分割部406 分割由第二選擇部405選擇的劃分要素。執(zhí)行分割步驟后,結(jié)束文字圖像 抽出處理。
圖3是用于詳細(xì)說明抽出步驟、第一改變步驟、第一選擇步驟及第 二改變步驟的圖,圖3中(a)表示由抽出步驟抽出的各劃分要素,圖3 中(b)表示由第一改變步驟改變的各劃分要素,圖3中(c)表示由第一 選擇步驟選擇的各劃分要素,圖3中(d)表示由第二改變步驟改變的各 劃分要素。
在抽出步驟中,抽出部401對(duì)文字列區(qū)域410,求出由相互連接的兩
個(gè)或兩個(gè)以上像素構(gòu)成的連接部分411,并將由與連接成分4U外接的外 接圖形412劃分的劃分要素413從上述文字列區(qū)域410中抽出。在抽出步 驟中,如圖3中(a)所示,抽出各劃分要素。
連接成分411,由相互連接的具有同一像素值的像素構(gòu)成。在求出連 接成分411時(shí),關(guān)于連接性,也可以以八連接看待或以四連接看待。在本 實(shí)施方式中,考慮到在文字列區(qū)域410中將文字從左向右排成一列,而從 文字列區(qū)域410的左端向右端求出連接成分411。
外接圖形412是矩形,由與文字的寬度方向Dl平行的兩個(gè)邊416、417 和與文字的高度方向D2平行的兩個(gè)邊418、 419構(gòu)成。劃分要素413是這 樣的外接圖形412的內(nèi)側(cè)的部分。在該劃分要素中,有包含文字整體的要 素和包含文字一部分的要素。另外,在該劃分要素中有包含標(biāo)點(diǎn)符號(hào)的要 素。進(jìn)而,在該劃分要素中,還包含不屬于文字及標(biāo)點(diǎn)符號(hào)的任何一方的 噪聲部分的要素。
所謂標(biāo)點(diǎn)符號(hào)是指句點(diǎn)類、括弧類及中點(diǎn)類等的描述記號(hào)。句點(diǎn)類是 表示句子或文章結(jié)束的符號(hào),例如句號(hào)。括弧類,包含開始括弧類及結(jié)束 括弧類。開始括弧類,是指在文章中,用于包圍某些部分以明確其與其它 部分的區(qū)別的符號(hào)中表示段落開始的符號(hào),例如雙引號(hào)。結(jié)束括弧類是指, 在文章中,用于包圍某些部分以明確其與其它部分的區(qū)別的符號(hào)中的表示 段落結(jié)束的符號(hào),例如,關(guān)雙引號(hào)。結(jié)束括弧類,也包含表示文章中的段 落的符號(hào),例如逗號(hào)。中點(diǎn)類,是用于文章及語句段落的符號(hào),位于文字 寬度的中心,例如冒號(hào)。
在第一改變步驟中,第一改變部402,在由抽出部401抽出的劃分要 素中,將至少一部分相互重疊的劃分要素進(jìn)行綜合并作為新的劃分要素, 將剩余的劃分要素按原樣作為新的劃分要素。在第一改變步驟中,如圖3 (b)所示,得到各劃分要素。
在新的劃分要素中,將使至少 一部分相互重疊的劃分要素綜合后的要 素,利用與上i^目互重疊的劃分要素外接的外接圖形來劃分。該外接圖形 也是矩形,且由與文字的寬度方向平行的兩個(gè)邊和與文字的高度方向平行 的兩個(gè)邊構(gòu)成。
在這樣的第一改變步驟中,將至少一部分相互重疊的劃分要素進(jìn)行綜 合而作為新的劃分要素。由此,對(duì)某些文字,可以將包含該文字的一部分 的要素與包含該文字的其它的一部分的要素進(jìn)行綜合,而得到包含該文字 的整體的一個(gè)要素。另外,對(duì)某些文字,可以將包含該文字的一部分的要 素與包含該文字的整體的要素進(jìn)行綜合,而得到包含該文字的整體的一個(gè) 要素。
例如,對(duì)文字"男"而言,在抽出步驟中,如圖3中(a)所示,抽出兩 個(gè)劃分要素421、 422。 一個(gè)是包含文字的一部分的要素421,另一個(gè)是包 含文字的另一部分的要素422。在第一改變步驟中,將這些兩個(gè)劃分要素 421、 422進(jìn)行綜合,而可得到如圖3中(b)所示的一個(gè)劃分要素423。
另外,例如對(duì)文字"治"而言,在抽出步猓中,如圖3中(a)所示,抽 出三個(gè)劃分要素426、 427、 428。 一個(gè)是包含文字整體的要素426,另一個(gè) 是包含文字的一部分的427,還有一個(gè)是包含文字另一部分的要素428。在 第一改變步驟中,將這些三個(gè)劃分要素426 428進(jìn)行綜合,而可得到如圖 3中(b )所示的一個(gè)劃分要素429。
而且,在第一改變步驟中,將剩余的劃分要素按原樣作為新的劃分要 素。由此,可以防止將包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素,并不 是按所希望的方式進(jìn)行綜合而變成較大的要素的情況,從而,可以防止包 含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素,在后述的第一及第二選擇步驟 中意料之外地被選擇的情況。
在本實(shí)施方式中,將至少一部分在文字的高度方向D2上相互重疊的 劃分要素綜合。換言之,即使在文字的寬度方向Dl上相互重疊,只要在 文字的高度方向D2上不相互重疊,就不能使劃分要素綜合。從而,可以 盡可能地防止對(duì)于包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素,并不是按 所希望的方式進(jìn)行綜合而變成較大的要素的情況。從而,可以盡可能地防 止包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素,在后述的第一及笫二選擇 步驟中意料之外地被選擇的情況。
在第一選擇步驟中,第一選擇部403,預(yù)先確定基準(zhǔn)大小,在由第一 改變部402改變的劃分要素中,選擇比上述基準(zhǔn)大小還大的劃分要素。在 第一選擇步驟中,如圖3 (c)所示,選擇各劃分要素。
包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素,比包含文字的要素小。
利用這點(diǎn),在第一選擇步驟中,在由第一改變部402改變的劃分要素中, 選擇比上述基準(zhǔn)大小還大的劃分要素。由此,可以在由第一改變部402改 變的劃分要素中,選擇包含文字的要素。換言之,可以從由第一改變部402 改變的劃分要素中,將包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素排除。 例如,對(duì)于包含雙引號(hào)的要素431、 432,在第一選擇步驟中排除。
基于文字列區(qū)域的與垂直于文字的排列方向的方向有關(guān)的尺寸,或由 第一改變部402改變的劃分要素的大小,來設(shè)定上述基準(zhǔn)大小。從而,可 以適當(dāng)?shù)?&定上逸基準(zhǔn)大小。由此,可以防止因上逸基準(zhǔn)大小過小,而不 能排除包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素的情況,或因上述基準(zhǔn) 大小過大而甚至將包含文字的要素也排除了的情況。
具體地講,在第一選擇步驟中,作為劃分要素的大小,使用劃分要素 的、與文字的寬度方向Dl有關(guān)的尺寸(以下稱為"寬度尺寸,,)及與文字 的高度方向D2有關(guān)的尺寸(以下稱為"高度尺寸"),作為上逸基準(zhǔn)大小, 使用基準(zhǔn)寬度尺寸及基準(zhǔn)高度尺寸。
根據(jù)文字的不同,有時(shí)也有包含該文字的要素的寬度尺寸及高度尺寸 的任何一方都不滿足基準(zhǔn)尺寸的情況。在此,在第一選擇步驟中,將寬度 尺寸比基準(zhǔn)寬度尺寸還小且高度尺寸比基準(zhǔn)高度尺寸還小的劃分要素排 除,并選擇其以外的劃分要素。由此,可以防止甚至將包含文字的要素也 意料之外地排除的情況。
基于文字列區(qū)域的、與垂直于文字的排列方向的方向有關(guān)的尺寸,在 本實(shí)施方式中,是基于文字列區(qū)域的高度尺寸來設(shè)定基準(zhǔn)寬度尺寸及基準(zhǔn) 高JLA寸。由此,可以與各劃分要素大小偏差無關(guān)地,適當(dāng)?shù)卦O(shè)定基準(zhǔn)寬 度尺寸及基準(zhǔn)高JUC寸。
具體地講,將基準(zhǔn)寬;1A寸及基準(zhǔn)高;1A寸,設(shè)定為以超過0不到1 的規(guī)定比率與文字列區(qū)域的高JLK寸相乘后的值。將基準(zhǔn)寬度尺寸及基準(zhǔn) 高度尺寸,選定為相對(duì)文字列區(qū)域的高度尺寸,例如是50%的值。
基準(zhǔn)寬^A寸及基準(zhǔn)高度尺寸,也可以以其它設(shè)定方法來設(shè)定。例如, 也可以將基準(zhǔn)寬^A寸,設(shè)定為以規(guī)定的比率與各劃分要素的寬度尺寸的 平均值相乘后的值。另外也可以將基準(zhǔn)高度尺寸設(shè)定為以規(guī)定的比率與各 劃分要素的高度尺寸的平均值相乘后的值。200710129605.0
說明書第ll/35頁
在第一選擇步驟中,也可以基于劃分要素的對(duì)角線的尺寸,來判^A 否選擇劃分要素。另外,也可以基于劃分要素的面積,來判定是否選擇劃 分要素。
進(jìn)而在第一選擇步驟中,也可以基于劃分要素的位置信息來判定是否 選擇劃分要素。在這種情況下,劃分要素,與其它劃分要素相比,位于過 上的位置或位于過下的位置,而且,比基準(zhǔn)大小還小,此時(shí),排除該劃分 要素,選擇其以外的劃分要素。另外,在這種情況下,對(duì)于文字的排列方 向兩端的劃分要素,在判定為從其它劃分要素遠(yuǎn)離時(shí),也進(jìn)行排除。
通過執(zhí)行如上的抽出步驟、第一改變步驟及第一選擇步驟,可以從文 字列區(qū)域,將包含文字的要素作為文字圖像高精度地進(jìn)行抽出。換言之,
可以從文字列區(qū)域,不會(huì)4m地抽出包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分 的要素,而抽出包含文字的要素。
在第二改變步驟中,第二改變部404,預(yù)先確定第一基準(zhǔn)尺寸,在由 第一選擇部403選擇的劃分要素中,將與文字的排列方向有關(guān)的尺寸比上 述第一基準(zhǔn)尺寸還小并相互在文字的排列方向上相鄰的劃分要素綜合而
作為新的劃分要素,且將剩余的劃分要素按原樣作為新的劃分要素。在第 二改變步驟中,如圖3 (d)所示,得到各劃分要素。
文字列區(qū)域的各文字,有大小相互不同的情況。在這種情況下,經(jīng)常 有包含比較小的文字的兩個(gè)或兩個(gè)以上要素在文字的排列方向上相鄰的 情況。然而,包含標(biāo)點(diǎn)符號(hào)的要素在文字的排列方向上相鄰的情況較少, 而且包含噪聲部分的要素在文字的排列方向上相鄰的情況較少。
利用這點(diǎn),在第二改變步猓中,將與文字的排列方向有關(guān)的尺寸比上 述第一基準(zhǔn)尺寸還小且相互在文字的排列方向上相鄰的劃分要素綜合作 為新的劃分要素。具體地講,在兩個(gè)相鄰的劃分要素的各自的寬度尺寸, 比上述第一基準(zhǔn)尺寸還小的情況下,將這些劃分要素作為綜合的候補(bǔ)。而 且,在成為綜合的候補(bǔ)的各劃分要素的寬度尺寸與這些劃分要素之間的距 離的合計(jì)值,比以規(guī)定的比率與上述第一基準(zhǔn)尺寸相乘后的值,還小的情 況下,使兩個(gè)相鄰的劃分要素綜合。由此,可以使包含比較小的文字的要 素綜合作為較大的要素。例如,如圖3(c)所示那樣,將包含比較小的文 字的要素441、 442綜合,可以如圖3(d)所示,得到一個(gè)較大的要素443。 從而,可以防止包含比較小的文字的要素,在后述的第二選擇步驟中意料
之外地被排除的情況。
而且在第二改變步驟中,將剩余的劃分要素按原樣作為新的劃分要 素。由此,可以防止將包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素,并不 是按所希望的方式進(jìn)行綜合而變成較大的要素的情況。從而,可以在后述 的第二選擇步驟中可靠地排除包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要 素。
基于由第一選擇部403選擇的劃分要素的大小,來設(shè)定上述第一基準(zhǔn) 尺寸。從而,可適當(dāng)?shù)卦O(shè)定上述第一基準(zhǔn)尺寸。由此,可防止因上述第一 基準(zhǔn)尺寸過小而不對(duì)包含比較小的文字的要素進(jìn)行綜合的情況,或因上述 第 一基準(zhǔn)尺寸過大而甚至將包含比較大的文字的要素也進(jìn)行綜合的情況。
基于各劃分要素的寬度尺寸或各劃分要素的高度尺寸,來設(shè)定上述第 一基準(zhǔn)尺寸。由此,可以與各劃分要素的大小偏差無關(guān)地,適當(dāng)?shù)卦O(shè)定上 述第一基準(zhǔn)尺寸。
具體地講,將上述第一基準(zhǔn)尺寸,設(shè)定為以超過0不到1的規(guī)定比率 與各劃分要素的寬度尺寸的平均值相乘后的值。也可以將上述第 一基準(zhǔn)尺 寸,設(shè)定為以超過0不到1的規(guī)定比率與各劃分要素的高度尺寸的平均值 相乘后的值。也可以將上述第一基準(zhǔn)尺寸,用其它的設(shè)定方法進(jìn)fr沒定。
圖4是用于說明第二選擇步驟的圖,圖4中(a)表示在第二改變步驟 中改變的各劃分要素,圖4中(b)表示在第二選擇步驟中選擇的各劃分 要素。圖5是用于說明第二選擇步驟的圖,圖5中(a)表示在第二改變步 驟中改變的各劃分要素,圖5中(b)表示在第二選擇步驟中選擇的各劃 分要素。
在第二選擇步驟中,第二選擇部405,預(yù)先確定笫二基準(zhǔn)尺寸,并在 由第二改變部404改變的劃分要素中,選擇比上述第二基準(zhǔn)尺寸還大的劃 分要素。在第二選擇步驟中,如圖4中(b)及圖5中(b)所示,選擇各 劃分要素。
在這樣的第二選擇步驟中,在由第二改變部404改變的劃分要素中, 選擇與文字的排列方向有關(guān)的尺寸比上述第二基準(zhǔn)尺寸還大的劃分要素。 由此,可以從由第二改變部404改變的劃分要素中,可靠地排除包含標(biāo)點(diǎn) 符號(hào)的要素及包含噪聲部分的要素。
基于文字列區(qū)域的、與垂直于文字的排列方向的方向有關(guān)的尺寸,或
基于由笫二改變部404改變的劃分要素大小,來設(shè)定上述第二基準(zhǔn)尺寸。 從而,可以適當(dāng)?shù)豬殳定上述第二基準(zhǔn)尺寸。由此,可以防止因上述第二基 準(zhǔn)尺寸過小而不排除包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要素的情況, 或因上述第二基準(zhǔn)尺寸過大而甚至排除了包含文字的要素的情況。
在第二選擇步驟中,排除與文字的排列方向有關(guān)的尺寸比上述第二基 準(zhǔn)尺寸還小的劃分要素,選擇其以外的劃分要素。換言之,即使與垂直于 文字的排列方向的方向有關(guān)的尺寸比上述第二基準(zhǔn)尺寸還大,只要與文字 的排列方向有關(guān)的尺寸比上述第二基準(zhǔn)尺寸還小,則排除該劃分要素。這 樣,在第二選擇步驟中,使選擇條件嚴(yán)格。由此,可以可靠地排除包含標(biāo) 點(diǎn)符號(hào)的要素及包含噪聲部分的要素。
例如,如圖4所示,對(duì)于包含作為噪聲部分的細(xì)線的要素445,在第 二選擇步驟中排除。另外,如圖5所示,對(duì)于包含與其它文字相比非常小 的文字的要素446,也在第二選擇步驟中排除。
基于文字列區(qū)域的、與垂直于文字的排列方向的方向有關(guān)的尺寸,在 本實(shí)施方式中是基于文字列區(qū)域的高度尺寸來設(shè)定上述第二基準(zhǔn)尺寸。由 此,與各劃分要素的大小的偏差無關(guān)地,可適當(dāng)?shù)卦O(shè)定上述第二基準(zhǔn)尺寸。
具體地講,將上述第二基準(zhǔn)尺寸,設(shè)定為以超過0不到1的規(guī)定比率 與文字列區(qū)域的高度尺寸相乘后的值。第二選擇步驟中的規(guī)定比率,也可 以比第一選擇步驟中的規(guī)定比率大。將上述第二基準(zhǔn)尺寸選擇為相對(duì)文字 列區(qū)域的高度尺寸,例如是70%的值。
也可以用其它的設(shè)定方法來設(shè)定上述第二基準(zhǔn)尺寸。例如,將上述第 二基準(zhǔn)尺寸設(shè)定為以規(guī)定的比率與各劃分要素的寬度尺寸的平均值相乘 后的值。另外,也可以將上述第二基準(zhǔn)尺寸設(shè)定為以規(guī)定的比率與各劃分 要素的高度尺寸的平均值相乘后的值。
通過又執(zhí)行如上述的第二改變步驟及第二選擇步驟,可以以更高的精 度,從文字列區(qū)域中,抽出包含文字的要素而作為文字圖像。換言之,不 會(huì)從文字列區(qū)域中錯(cuò)誤地抽出包含標(biāo)點(diǎn)符號(hào)的要素及包含噪聲部分的要 素,而可以可靠地抽出包含文字的要素。
圖6是用于說明分割步驟的圖,圖6中(a)表示第二選擇步驟中選擇
的各劃分要素,圖6中(b)表示分割步驟中分割的各劃分要素。
在分割步驟中,分割部406,預(yù)先確定第三基準(zhǔn)尺寸,并在第二選擇 部405中選擇的劃分要素中,將寬度尺寸比上述第三基準(zhǔn)尺寸還大的劃分 要素,基于上述第三基準(zhǔn)尺寸來進(jìn)行分割。
在抽出步驟抽出了劃分要素后,有時(shí)在文字的排列方向上相鄰的兩個(gè) 或兩個(gè)以上文字被包含在一個(gè)劃分要素中。另外,即使在第一改變步驟中 改變了劃分要素后,進(jìn)而在第二改變步驟中改變了劃分要素后,有時(shí)在文 字的排列方向上相鄰的兩個(gè)或兩個(gè)以上文字被包含在一個(gè)劃分要素中。
在此,在分割步驟中,在由第二選擇部405選擇的劃分要素中,將與 文字的排列方向有關(guān)的尺寸比上述第三基準(zhǔn)尺寸還大有劃分要素,基于上 述第三基準(zhǔn)尺寸來進(jìn)行分割。具體地講,計(jì)算出劃分要素的寬"寸與上 述第三基準(zhǔn)尺寸的比例,基于該比例來決定分割數(shù),以該分割數(shù)對(duì)劃分要 素進(jìn)行等分割。例如,如圖6所示,對(duì)于包含兩個(gè)文字的要素451,分割 成分別包含一個(gè)文字的兩個(gè)要素452、 453。由此,,可以防止在一個(gè)劃分 要素中包含兩個(gè)或兩個(gè)以上文字的情況。換言之,可以從文字列區(qū)域中將 各文字圖4象按照一個(gè)文字進(jìn)行抽出。
基于由第二選擇部405選擇的劃分要素的大小,來設(shè)定上述第三基準(zhǔn) 尺寸。從而,可以適當(dāng)?shù)卦O(shè)定上述第三基準(zhǔn)尺寸。由此,可以防止因上述 第三基準(zhǔn)尺寸過小而將不應(yīng)該分割的劃分要素意料之外地分割,或因上述 第三基準(zhǔn)尺寸過大而未將應(yīng)該分割的劃分要素分割的情況。
基于各劃分要素的寬度尺寸的平均值或各劃分要素的高度尺寸的平 均值,來設(shè)定上述第三基準(zhǔn)尺寸。由此,與各劃分要素的大小的偏差無關(guān) 地,可以適當(dāng)?shù)卦O(shè)定上述第三基準(zhǔn)尺寸。
具體地講,將上述第三基準(zhǔn)尺寸,設(shè)定為以超過O不到1的規(guī)定比率 與各劃分要素的寬度尺寸的平均值相乘后的值。另外,也可以將上述第三 基準(zhǔn)尺寸設(shè)定為以超過O不到1的規(guī)定比率與各劃分要素的高度尺寸的最 大值相乘后的值。也可以用其它的設(shè)定方法來設(shè)定上述第三基準(zhǔn)尺寸。
在上述的實(shí)施方式中,在第一選擇步猓中,基于劃分要素的大小,來 判定是否選擇劃分要素,但是,在本發(fā)明的其它的實(shí)施方式中,在該第一 選擇步驟中,也可以基于劃分要素的位置,來判定是否選擇劃分要素。例
如,也可以排除位于相對(duì)其它的劃分要素遠(yuǎn)離的位置的劃分要素。
另外,在本發(fā)明的另外的其它實(shí)施方式中,也可以省略第二改變步驟 及第二選擇步驟。
圖7是簡(jiǎn)要表示文檔圖像處理裝置10的構(gòu)成的方框圖。文檔圖像處理 裝置10包括處理器4、和儲(chǔ)存用于使處理器4進(jìn)行實(shí)際處理的軟件等的外 部存儲(chǔ)裝置5。
處理器4在實(shí)際中進(jìn)行從文檔圖像中抽出進(jìn)行檢索所需要的標(biāo)題區(qū) 域的文檔圖像特征抽出處理;生成能夠進(jìn)行對(duì)于文檔圖像的檢索的索引信 息的索引信息生成處理;使用了索引信息的檢索處理;使用索引信息來制 作后述的有意義的文檔名,并管理文檔圖像的文檔圖像管理處理等。
處理器4中的實(shí)際的處理,根據(jù)在外部存儲(chǔ)裝置5中儲(chǔ)存的軟件來執(zhí) 行。處理器4例如由通常的計(jì)算機(jī)主體等來構(gòu)成。在本實(shí)施方式中,處理 器4還執(zhí)行制作在索引信息生成處理中使用的后述的字形特征字典15的字 形特征字典制作處理。
外部存儲(chǔ)裝置5,例如可由能夠進(jìn)行高速訪問的硬盤等來構(gòu)成。為了 大量保存文檔圖像,外部存儲(chǔ)裝置5也可以是使用光盤等的大容量設(shè)備的 構(gòu)成。后述的字形特征字典15、索引信息數(shù)據(jù)庫(索引信息DB) 17、文 檔圖像數(shù)據(jù)庫(文檔圖像DB) 19、字形樣本數(shù)據(jù)庫(字形樣本DB) 13 等由外部存儲(chǔ)裝置5構(gòu)成。
文檔圖像處理裝置10與鍵盤1連接,且與顯示裝置3連接。鍵盤1 用于輸入檢索關(guān)鍵詞。另外,鍵盤l還用于在閱覽文檔圖像時(shí)輸入指示。 并且,鍵盤1還用于進(jìn)行后述的候補(bǔ)文字?jǐn)?shù)、相關(guān)值、以及行的相關(guān)度加 權(quán)因數(shù)Q等的設(shè)定值的變更。顯示裝置3輸出并顯示文檔圖像等。在顯示 裝置3中顯示的內(nèi)容中還包含相關(guān)度的信息、以及圖像名稱等信息。
文檔圖像處理裝置10還與圖像掃描儀2或數(shù)碼相機(jī)6連接。圖像掃描 儀2和數(shù)碼相機(jī)6用于取得文檔圖像。文檔圖像的取得不限于通過圖像掃 描儀2和數(shù)碼相機(jī)6,也可以通過進(jìn)行利用網(wǎng)絡(luò)等的通信來取得。另外, 也可以進(jìn)行使用了圖像掃描儀2或數(shù)碼相機(jī)6的檢索關(guān)鍵詞的輸入。
圖8是詳細(xì)表示文檔圖像處理裝置10的構(gòu)成的方框圖。文檔圖像處理
裝置10包括文字?jǐn)?shù)據(jù)庫輸入部(文字DB輸入部)11、文字正規(guī)化處理 部12、字形樣本Dm3、文字圖像特征抽出部(圖像特征抽出部)14、字 形特征字典15、特征匹配部16、索引信息DB17、標(biāo)題區(qū)域初始處理部18、 文檔圖像DB19、文檔圖像特征數(shù)據(jù)庫(文檔圖像特征DB) 20、文檔圖像 輸入部21、檢索部22、詞匯解析部23、關(guān)鍵詞輸入部24、檢索結(jié)果顯示 部25、文檔名制作部51、文檔圖4象DB管理部52、文檔圖l象顯示部53、 指示輸入部54。
其中,由文字DB輸入部ll、字體正規(guī)化處理部12、字形樣本DB13、 文字圖《象特征抽出部14、字形特征字典15構(gòu)成實(shí)施上述的字形特征字典 制作處理的字形特征字典生成部30。
首先,對(duì)構(gòu)成字形特征字典生成部30的上述功能模塊11、 12、 13、 14、 15進(jìn)行說明。
文字DB輸入部11用于輸入為制作字形特征字典15所需的成為基本 的文字?jǐn)?shù)據(jù)庫。如果本裝置是例如中文對(duì)應(yīng)的裝置,則輸入中華人民共和 國(guó)GB2312的全部6763個(gè)文字等。另外,如果本裝置是日語對(duì)應(yīng)的裝置, 則輸入JIS第l標(biāo)準(zhǔn)的約3, 000個(gè)字種等。即,這里所說的文字中包含符 號(hào)。這樣的文字DB輸入部11由處理器4構(gòu)成,且文字?jǐn)?shù)據(jù)庫由記錄媒體、 或通過利用了網(wǎng)絡(luò)的數(shù)據(jù)通信等來供給。
字體正規(guī)化處理部12用于對(duì)由文字DB輸入部11輸入的文字?jǐn)?shù)據(jù)庫 中所包含的^P文字,制作不同字體和字號(hào)的文字圖像。不同字體和字號(hào) 的文字圖傳被儲(chǔ)存在字形樣本DB13中。
圖9表示字體正規(guī)化處理部12制作字形樣本DB13的處理。在字體正 規(guī)化處理部12中,如果本裝置是中文對(duì)應(yīng)的裝置,則具備例如宋體、仿宋 體、黑體、楷體等字形樣本12a。另外,如果本裝置是日語對(duì)應(yīng)的裝置, 則具備MS明朝、MS Gothic…等字形樣本。
字體正規(guī)化處理部12中的變形處理部12b,對(duì)文字?jǐn)?shù)據(jù)庫的文字進(jìn)行 圖像化,并對(duì)文字圖傳進(jìn)行標(biāo)準(zhǔn)化處理。然后,變形處理部12b參照字形 樣本12a,對(duì)標(biāo)準(zhǔn)化處理后的文字圖像實(shí)施變形處理,并進(jìn)一步改變?yōu)椴?同字體和大小的文字圖像。變形處理中,包括例如模糊化處理、擴(kuò)^/縮小 化處理、細(xì)微化處理等。字體基準(zhǔn)部12c將這樣變形處理后的文字圖像作
為基準(zhǔn)文字圖像儲(chǔ)存到字形樣本DB13中。
在字形樣本DB13中,針對(duì)文字?jǐn)?shù)據(jù)庫的所有文字,即^A相同的文 字,也儲(chǔ)存有對(duì)應(yīng)每個(gè)由字體、大小決定的字形的基準(zhǔn)文字圖像。如果舉 例說明,則,即使文字種類都是"中",也存在似目當(dāng)于所決定的字體的數(shù) 量的不同形狀的基準(zhǔn)文字圖像的"中",另外,還儲(chǔ)存有似目當(dāng)于所決定的 大小的數(shù)量的不同大小的基準(zhǔn)文字圖像的"中"。
文字圖像特征抽出部14是抽出文字圖像的特征(圖像特征),并儲(chǔ)存 到字形特征字典15中的部分。在本實(shí)施方式中,文字圖像特征抽出部14 根據(jù)文字圖像夕卜圍特征與網(wǎng)格方向的組合,來抽出文字圖像的特征,并設(shè) 為特征矢量。另外,文字圖像的特征不限于這些,也可以抽出其他特征來 形成特征矢量。
這里,預(yù)先對(duì)文字圖像外圍特征和網(wǎng)格方向特征進(jìn)行說明。圖10是文 字圖像外圍特征的說明圖。所謂文字圖像外圍特征是指從文字圖像的外部 觀察的輪廓的特征。如圖10所示,從文字圖像的外接矩形的4邊進(jìn)行掃描, 并將從白像素變化為黑像素時(shí)的點(diǎn)為止的距離作為特征,取出最初變化的 位置和第二次變化的位置。
例如,在將外接矩形分割成X行Y列的場(chǎng)合下,以行為單位分別從左 方向和右方向掃描圖像,以列為單位分別從上方向和下方向掃描圖像。另 外,圖IO是表示以行為單位從左進(jìn)行掃描的圖。
另外,在圖10中,用實(shí)線箭頭l表示最初從白像素變化為黑像素時(shí)的 點(diǎn)為止的掃描軌跡。虛線箭頭2表示第二次從白像素變化為黑像素時(shí)的點(diǎn) 為止的掃描軌跡。實(shí)線箭頭3表示最終也未能檢測(cè)到從白像素變化為黑像 素的點(diǎn)的情況下的掃描軌跡,在這種沒有變化點(diǎn)的場(chǎng)合下,距離值為0。
另外圖11 (a) (b)是網(wǎng)格方向特征的說明圖。將文字圖像分割成粗 網(wǎng)格,對(duì)各格子區(qū)域內(nèi)的黑像素,向預(yù)先確定的兩個(gè)或兩個(gè)以上方向延伸 觸手。然后,對(duì)在各方向上連接的黑《象素的像素?cái)?shù)進(jìn)行計(jì)數(shù),并將表示該 黑像素按各方向成分的分布狀況的方向影響度,作為識(shí)別函數(shù)采用歐幾里 得距離,并利用與黑像素?cái)?shù)之差相應(yīng)的值,對(duì)距離值進(jìn)行除法運(yùn)算,而計(jì) 算出距離值。
在圖ll(a)中,將文字圖像分割成4x4共16個(gè)格子,且以在X軸方
向上最接近于格子交點(diǎn)的從黑像素變化為白像素的點(diǎn)為中心,向x軸方向
(0° )、 45。方向、Y軸方向(90。)的3個(gè)方向延伸觸手。
在本實(shí)施例中,將文字圖像分割成8x8的4角的網(wǎng)格,并如圖ll(b) 所示,向0° 、 45。 、 90。 、 135° 、 180° 、 225° 、 270。 、 315°這8個(gè) 方向延伸觸手。
另外,作為網(wǎng)格方向的特征的抽出方法,有設(shè)置觸手的延伸方向、延 伸觸手的中心點(diǎn)的方法等各種方法,例如記載在日本專利特開2000-181994 號(hào)公報(bào)等中。
文字圖像特征抽出部14,對(duì)儲(chǔ)存在文字形狀樣本DB13中的所有的基 準(zhǔn)文字圖像進(jìn)行這樣的文字圖像的特征的抽出。然后,文字圖像特征抽出
征字典15中,而生成字形特征字典15。
圖12是表示制作基于文字圖4象特征抽出部14的字形特征字典15的處 理的圖。文字圖像特征抽出部14中的字形標(biāo)準(zhǔn)化部14a從字形樣本DB13 中取出基準(zhǔn)文字圖像,文字圖像特征取出部14b從由字形標(biāo)準(zhǔn)化部14a取 出的基準(zhǔn)文字圖像中取出其特征。然后,特征分類部14c參照字形樣本 DB13 ,對(duì)從*個(gè)基準(zhǔn)文字圖出的特征進(jìn)行分類,并儲(chǔ)存到字形特征 字典15中。
在文字圖像特征取出部14b中,如上述那樣,按每個(gè)單個(gè)文字,求出 基于帶加權(quán)的不同基準(zhǔn)文字圖像的特征的適應(yīng)值,并取得基準(zhǔn)文字圖像的 標(biāo)準(zhǔn)特征。
文字圖像特征取出部14b通it^t不同字體字號(hào)進(jìn)行加權(quán),可制作不同 的字形特征字典。通過融合多字體的圖像特征,且以單個(gè)文字圖像特征為 單位來制作字形特征字典,可滿足多字體/字號(hào)文檔圖像的自動(dòng)檢索和管 理。
下面,說明構(gòu)成實(shí)施文檔圖像特征抽出處理的文檔圖像特征抽出部31 的文檔圖像DB19、文檔圖像特征DB20、標(biāo)題區(qū)域初始處理部18、文字 圖像特征抽出部14。
文檔圖像DB19是在由文檔圖^^T入部21輸入文檔圖像時(shí),對(duì)其附加
用于識(shí)別的文檔ID并進(jìn)行M的數(shù)據(jù)庫。
標(biāo)題區(qū)域初始處理部18是在文檔圖像DB19中M了新的文檔圖像 時(shí),根據(jù)其圖像數(shù)據(jù)來定位并抽出文檔圖像中的標(biāo)題區(qū)域,然后將文字圖 像送到上述的文字圖像特征抽出部14的。
圖15表示對(duì)文檔圖像50以Tl、 T2、 T3這3個(gè)區(qū)域定位為標(biāo)題區(qū)域 的狀態(tài)。根據(jù)該圖15也可以看出,將文檔圖像50中的標(biāo)題部分作為標(biāo)題 區(qū)域T抽出。
由標(biāo)題區(qū)域初始處理部18抽出并送到文字圖《象特征抽出部14的文字 圖像,通常是包含兩個(gè)或兩個(gè)以上文字的文字列的圖像。從而,在以下的 說明中,將由標(biāo)題區(qū)域初始處理部18送來的文字圖像設(shè)為文字列的圖《象。
在本實(shí)施方式中,標(biāo)題區(qū)域初始處理部18利用投影法和連通區(qū)域統(tǒng)計(jì) 分析來進(jìn)行標(biāo)題區(qū)域T的定位和抽出。另夕卜,這樣的標(biāo)題區(qū)域T主要相當(dāng) 于標(biāo)題部分,例如可以采用在日本專利特開平9-319747號(hào)公l艮、日本專利 特開平8-153110等所記栽的方法等各種以往的方法。
由于不是將文檔圖像的全部文字區(qū)域(文本區(qū)域)作為對(duì)象,而是如 上所述僅將標(biāo)題區(qū)域T定位并抽出,所以可減少成為檢索對(duì)象的信息量, 并縮短檢索時(shí)間。
其中,不是對(duì)全部的文本區(qū)域進(jìn)行定位而僅對(duì)標(biāo)題區(qū)域T進(jìn)行定位的 事項(xiàng),對(duì)于檢索而言并不是必須的構(gòu)成要素,也可以對(duì)全文的文本區(qū)域進(jìn) 行定位并抽出。但是,對(duì)于后述的有意義的文檔名的制作而言,M標(biāo)題 區(qū)域T進(jìn)行定位是必須的構(gòu)成要素,
文字圖像特征抽出部14,對(duì)于從標(biāo)題區(qū)域初始處理部18輸入的文字 列的圖像,利用上述的文字圖^^出方法,在抽出各文字圖像的M上, 與字形特征字典15的制作時(shí)同樣,抽出各文字圖像的特征。然后,將抽出 的特征,在文檔圖像特征DB20中^個(gè)文檔圖^ii行儲(chǔ)存。
在文檔圖像特征DB20中,由標(biāo)題區(qū)域初始處理部18抽出的標(biāo)題區(qū)域 T中所包含的文字列的圖像的特征信息,作為構(gòu)成文字列的各文字的各自 的特征(特征矢量)而被儲(chǔ)存。
如圖15所示,對(duì)于1個(gè)文檔圖像50,將在所抽出的全部標(biāo)題區(qū)域T1
T2、 T3…中所包含的文字列的文字圖像的特征,即構(gòu)成文字列的各文字的 文字圖像的特征,與文檔圖像50的文檔ID—同儲(chǔ)存。
下面,說明構(gòu)成實(shí)施索引信息制作處理的索引信息生成部32的文字圖 像特征抽出部14、字形特征字典15、特征匹配部16、索引信息DB17、文 檔圖1象特征DB20。
文字圖像特征抽出部14、字形特征字典15、文檔圖像特征DB20的功 能,與上述的說明相同。
特征匹配部16是從文檔圖像特征DB20中讀出在文檔圖像的標(biāo)題區(qū)域 T中所包含的文字圖像的特征,基于該讀出的特征,參照字形特征字典15, 如后述那樣制作索引矩陣,并生成文檔圖像的索引信息的部分。
這里,對(duì)應(yīng)l個(gè)文檔圖像生成l個(gè)索引信息,并按每個(gè)標(biāo)題區(qū)域T制 作索引信息中所包含的索引矩陣。從而,在l個(gè)文檔圖像內(nèi)存在兩個(gè)或兩 個(gè)以上標(biāo)題區(qū)域T的場(chǎng)合下,在該文檔圖像的索引信息中包含兩個(gè)或兩個(gè) 以上索引矩陣。
圖13表示制作索引信息DB17的處理。如上所述,當(dāng)某個(gè)文檔圖傳教 輸入并被儲(chǔ)存到文檔圖像DB19中時(shí),文字圖像特征取出部14b抽出在各 標(biāo)題區(qū)域T中所包含的文字列的文字圖像的特征,并儲(chǔ)存到文檔圖像特征 DB20中。
特征匹配部16從文檔圖像特征DB20中讀出各標(biāo)題區(qū)域T中所包含 的文字列的圖像的特征,且M個(gè)單個(gè)文字與字形特征字典15內(nèi)的基準(zhǔn)文 字圖傳進(jìn)行匹配,而制作標(biāo)題區(qū)域T各自的索引矩陣。
然后,特征匹配部16將該文檔圖像的其他信息,即文檔ID和文檔圖 像DB19內(nèi)的該當(dāng)?shù)奈臋n圖像的保存位置的信息等包含在這些索引矩陣 中,而作為索引信息儲(chǔ)存到索引信息DB17中。
圖14表示基于特征匹配部16的制作索引矩陣的處理的一例。圖14 是說明針對(duì)圖15中的標(biāo)題區(qū)域T3中所包含的文字列"去神仙居住的地方" 這8個(gè)文字圖像,制作索引矩陣的說明圖。
文字列"去神仙居住的地方"被分割成單個(gè)文字圖像"去""神""仙" "居""住"實(shí)"地""^r"e在"去"..."方"這8個(gè)文字中,按照排列順序附加1 8的編號(hào),即 對(duì)"去"附加l、對(duì)"神,,附加2、…對(duì)"方"附加8。該編號(hào)相當(dāng)于索引 矩陣的行編號(hào)。
對(duì)這樣的所有的8個(gè)文字圖像,實(shí)施如下的處理,即取出針對(duì)被儲(chǔ) 存在圖14中參照符號(hào)A所示的文檔圖像特征DB20中的文字圖像"去" 的特征(Sl),并參照字形特征字典15,按照特;W目近(匹配度高)的順 序,選擇N個(gè)候補(bǔ)文字(S2)。
對(duì)按照匹配度從高到低的順序抽出的N個(gè)候補(bǔ)文字,附加與抽出順序 相應(yīng)的編號(hào),該編號(hào)相當(dāng)于索引矩陣的列編號(hào)。然后,才艮據(jù)該列編號(hào),來 設(shè)定表示檢索關(guān)鍵詞中所包含的各檢索文字與候補(bǔ)文字之間的匹配度的 文字相關(guān)值(相關(guān)值)。
在圖14中,由參照符號(hào)100所表示的表表示文字列"去神仙居住的地 方"的索引矩陣的內(nèi)容。例如,對(duì)于第5個(gè)文字的"住"的文字圖像,在行 編號(hào)為5的行中,從匹配度高的第1列,順序地抽出"任"、"佳"、"住"、 、 "仁"的候補(bǔ)文字。在表100中,例如候補(bǔ)文字"去"的索引矩陣內(nèi)的位 置是[l, l],候補(bǔ)文字"屑"的位置是[4, 2],候補(bǔ)文字"仁"的位置是 [5, N]。
另夕卜,在圖14的表100中,為了有助于理解,對(duì)于與文字列的各文字 對(duì)應(yīng)的候補(bǔ)文字附加O進(jìn)行表示。
對(duì)于這樣的索引矩陣的行數(shù)M,根據(jù)由標(biāo)題區(qū)域初始處理部18作為 標(biāo)題區(qū)域T而抽出的文字列的圖像的文字?jǐn)?shù)來決定。另夕卜,列數(shù)N是根據(jù) 針對(duì)l個(gè)文字所選擇出的候補(bǔ)文字?jǐn)?shù)來決定。從而,根據(jù)本發(fā)明,可通過 改變索引矩陣的維數(shù)(列數(shù)),來靈活地設(shè)定索引矩陣內(nèi)的要素?cái)?shù),即候 補(bǔ)文字?jǐn)?shù)量。因此,在文檔圖像的檢索中,可以進(jìn)行正確且?guī)缀鯚o遺漏的 檢索。
在索引矩陣中,可以與檢索關(guān)鍵詞的輸入方法相應(yīng)地適當(dāng)設(shè)定所選擇 的候補(bǔ)文字的信息賦予方式。例如,如果是由鍵盤l來輸入檢索關(guān)鍵詞的 構(gòu)成,則以文字代碼等信息的形式儲(chǔ)存候補(bǔ)文字,從而能夠?qū)逆I盤輸入 的檢索關(guān)鍵詞進(jìn)行檢索。
另外,如果是采用圖像掃描儀2等以圖像數(shù)據(jù)的形式輸入檢索關(guān)鍵詞
的構(gòu)成,則也可以抽出檢索關(guān)鍵詞的特征(特征矢量),以特征(特征矢 量)信息的形式儲(chǔ)存候補(bǔ)文字,從而能夠?qū)μ卣魇噶勘舜诉M(jìn)行比較。
圖15表示索引信息DB17中的索引信息的數(shù)據(jù)配置例。在存在兩個(gè)或 兩個(gè)以上標(biāo)題區(qū)域T1、 T2、 T3、…、Tn的文檔圖像50的索引信息中, 4h對(duì)兩個(gè)或兩個(gè)以上標(biāo)題區(qū)域Tl、 T2、 T3、、 Tn制作的索引矩陣配置 成線形。在圖15的例中,文檔ID被配置在先頭,接下來配置兩個(gè)或兩個(gè) 以上索引矩陣,最后配置M位置的信息。這里,5xN表示索引矩陣的大 小,表示5行N列的情況。
通過預(yù)先將索引信息進(jìn)行這樣的數(shù)據(jù)配置,可以迅速地定位文檔圖像 DB19內(nèi)的文檔圖像的儲(chǔ)存位置、和文檔圖像中的標(biāo)題區(qū)域T的位置,并 用于檢索結(jié)果的顯示。
另夕卜,也可以根據(jù)實(shí)際要求,在索引信息中妙文檔圖像的其它屬性。
下面,對(duì)實(shí)施使用了索引信息的檢索處理的檢索部22進(jìn)行說明。圖 16是表示檢索部22的功能和檢索處理的說明圖。檢索部22具有索引矩陣 檢索處理部22a、文字相關(guān)值保存部(保存部)22b、相關(guān)度計(jì)算部22c、 顯示順序決定部(順序決定部)22d、以及文檔圖像抽出部22e。
對(duì)于索引矩陣檢索處理部22a,由關(guān)鍵詞輸入部24輸入檢索關(guān)鍵詞。 作為關(guān)鍵詞輸入部24,相當(dāng)于上述的鍵盤1或圖像掃描儀2等。
索引矩陣檢索處理部22a是對(duì)索引信息DB17進(jìn)行檢索,而檢索出包 含所輸入的檢索關(guān)鍵詞的索引矩陣的部分。索引矩陣檢索處理部22a將檢 索關(guān)鍵詞分割成單個(gè)文字,搜索包含各檢索文字的索引矩陣,在包含檢索 文字的場(chǎng)合下,取得該檢索文字在索引矩陣內(nèi)的匹配位置的信息。另外, 關(guān)于索引矩陣的抽出順序例,將在下面采用圖17的流程圖來進(jìn)行說明。
文字相關(guān)值保存部22b是保存由索引矩陣檢索處理部22a取得的匹配 位置的信息、和與該匹配位置的列編號(hào)相應(yīng)的文字相關(guān)值的部分。
相關(guān)度計(jì)算部22c是在索引矩陣檢索處理部22a中完成了對(duì)全部索引 矩陣的檢索時(shí),計(jì)算出所檢索出的索引矩陣與檢索關(guān)鍵詞之間的相關(guān)度的 部分。
相關(guān)度的計(jì)算,是采用被保存在文字相關(guān)值保存部22b中的匹配位置
和文字相關(guān)值的信息,并按照預(yù)先設(shè)定的相關(guān)度計(jì)算方法來進(jìn)行計(jì)算的。
關(guān)于相關(guān)度的計(jì)算,將在下面采用圖18、圖19來進(jìn)行說明。
另外,這里,構(gòu)成為文字相關(guān)值保存部22b保存匹配位置的信息、和 與該匹配位置的列編號(hào)相應(yīng)的文字相關(guān)值,但也可以構(gòu)成為文字相關(guān)值 保存部22b只M匹配位置,相關(guān)度計(jì)算部22c由匹配位置的信息取得文 字相關(guān)值。
顯示順序決定部22d是基于由相關(guān)度計(jì)算部22c計(jì)算出的相關(guān)度的信 息來決定顯示順序的部分。顯示順序決定部22d按如下方式?jīng)Q定顯示順序, 即從包含相關(guān)度高的索引矩陣的文檔圖像開始,依次在檢索結(jié)果顯示部 25中顯示文檔圖像的內(nèi)容。
文檔圖像抽出部22e是,以按照由顯示順序決定部22d所決定的順序 顯示文檔圖像的方式,從文檔圖像DB19中讀出文檔圖像的圖^LIt據(jù),并 輸出到檢索結(jié)果顯示部25來進(jìn)行顯示。
檢索結(jié)果顯示部25按照顯示順序來顯示文檔圖像。也可以采用縮略圖 顯示等的方式。作為檢索結(jié)果顯示部25,相當(dāng)于上述的顯示裝置3等。
這里,說明檢索順序。圖14是表示檢索部22中的檢索順序的流程圖。 當(dāng)輸入了由R個(gè)文字列構(gòu)成的檢索關(guān)鍵詞,并指示進(jìn)行檢索時(shí),索引矩陣 檢索處理部22a首先取出檢索關(guān)鍵詞的第1個(gè)檢索文字(Sll )。
然后,索引矩陣檢索處理部22a對(duì)索引信息DB17內(nèi)的全部索引矩陣 進(jìn)行第1個(gè)檢索文字的檢索(S12)。
在完成了對(duì)全部索引矩陣的檢索時(shí),判斷是否檢索到第1個(gè)檢索文字, 在l個(gè)也沒有檢索到的場(chǎng)合下,轉(zhuǎn)移到S19,在檢索到的場(chǎng)合下^S14。
在S14中,索引矩陣檢索處理部22a將包含第1個(gè)檢索文字的索引矩 陣中的匹配位置和文字相關(guān)值保存到文字相關(guān)值保存部22b中。
接著,索引矩陣檢索處理部22a取出包含有第l個(gè)檢索文字的^的 索引矩陣(S15)。然后,取出作為檢索關(guān)鍵詞的下一個(gè)文字的第2個(gè)檢索 文字,并對(duì)在S15中取出的包含有第1個(gè)檢索文字的索引矩陣進(jìn)行檢索 (S16)。 在完成對(duì)在S15中取出的全部索引矩陣的檢索時(shí),判斷是否檢索到第 2個(gè)檢索文字(S17)。在1個(gè)也沒有檢索到的場(chǎng)合下,與上述同樣地轉(zhuǎn)移 到S19,在檢索到的場(chǎng)合下進(jìn)入S18。
在S18中,索引矩陣檢索處理部22a將包含有第2個(gè)檢索文字的索引 矩陣中的匹配位置和文字相關(guān)值保存到文字相關(guān)值保存部22b中。
接下來,索引矩陣檢索處理部22a再次返回到S16,取出作為檢索關(guān) 鍵詞中的再下一個(gè)文字的第3個(gè)檢索文字,并對(duì)在S15中取出的包含有第 1個(gè)檢索文字的索引矩陣進(jìn)行檢索。
然后,在這里,也在完成檢索時(shí),索引矩陣檢索處理部22a判斷是否 檢索到第3個(gè)檢索文字(S17 ),在1個(gè)也沒有檢索到的場(chǎng)合下,轉(zhuǎn)移到S19, 在檢索到的場(chǎng)合下,再次進(jìn)入S18,進(jìn)行關(guān)于檢索關(guān)鍵詞的再下一個(gè)檢索 文字的檢索。
索引矩陣檢索處理部22a, 一直進(jìn)行這樣的S16 S18的處理,即以在 S15中抽出的包含有第1個(gè)檢索文字的索引矩陣為對(duì)象的、第2個(gè)以后的 各檢索文字的收縮檢索,直到在S17中判斷為1個(gè)也沒有檢索到、或完成 了對(duì)檢索關(guān)鍵詞內(nèi)的4^P檢索文字的檢索為止,然后轉(zhuǎn)移到S19。
在S19中,取出作為檢索關(guān)鍵詞中的下一個(gè)文字的第2個(gè)檢索文字。 然后,判斷檢索文字是否都已被檢索,即,是否完成了對(duì)全部的檢索文字 的檢索(S20),在未完成的場(chǎng)合下,返回到S12。
然后,與上述同樣,索引矩陣檢索處理部22a對(duì)索引信息DB17內(nèi)的 全部索引矩陣進(jìn)行第2個(gè)檢索文字的檢索。在檢索到的場(chǎng)合下,M索引 矩陣的匹配位置和文字相關(guān)值,然后進(jìn)入S15,對(duì)包含有第2個(gè)檢索文字 的全部索引矩陣,針對(duì)檢索關(guān)鍵詞的下一個(gè)文字,即作為第2個(gè)之后的第 3個(gè)以后的各檢索文字,反復(fù)進(jìn)行S16 S18,從而進(jìn)行收縮檢索。
索引矩陣檢索處理部22a,對(duì)第3個(gè)以后的各檢索文字依次進(jìn)行如下 處理,即在S19中進(jìn)行對(duì)一個(gè)檢索文字的如上述的檢索,并取出包含進(jìn) 行檢索的檢索文字的索引矩陣,且用其以后的檢索文字來進(jìn)行收縮檢索。
然后,在由S19取出了檢索關(guān)鍵詞內(nèi)的全部檢索文字,并且由S20判 斷為完成了對(duì)全部檢索文字的檢索的場(chǎng)合下,進(jìn)入S21。
在S21中,相關(guān)度計(jì)算部22c如后述那樣^^據(jù)相關(guān)度基準(zhǔn),來計(jì)算出 檢索關(guān)鍵詞與各索引矩陣的相關(guān)度。
然后,顯示順序決定部22d以從包含相關(guān)度高的索引矩陣的文檔圖像 開始進(jìn)行顯示的方式?jīng)Q定顯示順序,文檔圖出部22e從文檔圖像DB19 中取得文檔圖像的圖像數(shù)據(jù),檢索結(jié)果顯示部25按相關(guān)度高的順序來顯示 文檔圖像(S22)。
接下來,釆用圖18、圖19,對(duì)相關(guān)度計(jì)算部22c中的根據(jù)相關(guān)反基準(zhǔn) 來計(jì)算索引矩陣與檢索關(guān)鍵詞的相關(guān)度計(jì)算方法進(jìn)行說明。
在圖18的參照符號(hào)101的方框中,記栽有檢索條件。而且,在參照符 號(hào)102的方框中,記栽有用于計(jì)算相關(guān)度的某個(gè)假設(shè)的檢索關(guān)鍵詞與索引 矩陣的相對(duì)關(guān)系。在方框101所示的檢索M下,在檢索關(guān)鍵詞與索引矩 陣為如方框102所示的相對(duì)關(guān)系的場(chǎng)合下,可以通過由方框103所示的計(jì) 算式來計(jì)算出檢索關(guān)鍵詞與索引矩陣的相關(guān)度。
首先,對(duì)方框101的檢索M進(jìn)行說明。檢索關(guān)鍵詞的文字?jǐn)?shù)為R個(gè), 第1個(gè)檢索文字為C1、第2個(gè)為C2、…、第R個(gè)為Cr。
成為檢索對(duì)象的索引矩陣為MxN維矩陣。即,作為標(biāo)題區(qū)域T而抽 取出的文字列圖像的文字?jǐn)?shù)為M個(gè),作為文字列的各文字的^^吳補(bǔ)而選擇 出的候補(bǔ)文字?jǐn)?shù)為N個(gè)。
由于作為檢索文字與各候補(bǔ)文字的相關(guān)值的文字相關(guān)值,是相應(yīng)于索 引矩陣的各位置來決定的,所以成為與索引矩陣相同維數(shù)的矩陣。即,文 字相關(guān)值矩陣的權(quán)重為MxN維矩陣。例如,權(quán)重[i] [j]表示位于索引矩陣 中的位置[i, j] ( = Index[i, j])上的候補(bǔ)文字匹配的場(chǎng)合下的文字相關(guān)值。 在本實(shí)施方式中,如果索引矩陣的列編號(hào)[j]相同,則與行編號(hào)[i]無關(guān), 文字相關(guān)值相同。
行的相關(guān)度加權(quán)因數(shù)Q是在索引矩陣中相鄰的2行中檢索文字匹配的 場(chǎng)合下,對(duì)這些2行的文字相關(guān)值附加的加權(quán)。在相鄰的2行中檢索文字 匹配的場(chǎng)合下,包含檢索關(guān)鍵詞的連續(xù)的2個(gè)文字的可能性大。
在將行的相關(guān)度加權(quán)因數(shù)Q設(shè)定得高時(shí),對(duì)于相關(guān)度計(jì)算部22c計(jì)算 出的相關(guān)度的影響度,在連續(xù)匹配的2行的文字相關(guān)值中變大,但是在不
相鄰的各行的文字相關(guān)值中變小。即,通過將行的相關(guān)度加權(quán)因數(shù)Q設(shè)定 得高,接近以詞匯為單位進(jìn)行檢索的結(jié)果,反之,通過將行的相關(guān)度加權(quán) 因數(shù)Q設(shè)定得小,接近以單字為單位進(jìn)行檢索的結(jié)果。
將檢索文字Cl匹配的文字相關(guān)值表示為Wl,將檢索文字C2匹配的 文字相關(guān)值表示為W2,…,將檢索文字Cr匹配的文字相關(guān)值表示為Wr。
接下來,對(duì)方框圖102所示的為了計(jì)算相關(guān)度而假設(shè)的檢索關(guān)鍵詞與 索引矩陣之間的相對(duì)關(guān)系進(jìn)行說明。
檢索關(guān)鍵詞與索引矩陣之間具有全部的檢索文字C1, C2,, Cr與 索引矩陣內(nèi)的任意候補(bǔ)文字相匹配的關(guān)系。將檢索文字Cl, C2,…,Cr 匹配的^f矣補(bǔ)文字在索引矩陣內(nèi)的位置,即匹配位置表示為[Cli, Clj]、 [C2i, C2j〗,…,[Cr" Crj]。
而且,作為進(jìn)一步的相對(duì)關(guān)系,具有方框102所示的式(1)的關(guān)系,
即
C (k+l) i = Cki+l, C (m+l) i = Cmi+l (m>k)
在該式中,k、 m表示構(gòu)成檢索關(guān)鍵詞的各檢索文字的相對(duì)位置。另 外,C (k+l) i表示與檢索關(guān)鍵詞的第k+l個(gè)檢索文字匹配的候補(bǔ)文字的 索引矩陣內(nèi)的行編號(hào),Cki表示與檢索關(guān)鍵詞的第k個(gè)檢索文字匹配的候 補(bǔ)文字的索引矩陣內(nèi)的行編號(hào)。
從而,C (k+l) i = Cki+1表示與檢索關(guān)鍵詞的第k+l個(gè)檢索文字匹 配的候補(bǔ)文字在索引矩陣內(nèi)的行編號(hào),和在與檢索關(guān)鍵詞的第k個(gè)檢索文 字匹配的候補(bǔ)文字在索引矩陣內(nèi)的行編號(hào)上加1的編號(hào)相同。換言之,C (k+l) i = Cki+1表示檢索關(guān)鍵詞的第k+l個(gè)檢索文字和笫k個(gè)檢索文字 具有分別與索引矩陣中的相鄰的2行相匹配的關(guān)系。
C (m+l) i = Cmi+1也同樣,表示檢索關(guān)鍵詞的第m+l個(gè)檢索文字和 第m個(gè)檢索文字具有分別與索引矩陣中的相鄰的2行相匹配的關(guān)系。
在檢索關(guān)鍵詞與索引矩陣具有這樣的相對(duì)關(guān)系的場(chǎng)合下,可以通過方 框103所示的式(2)來計(jì)算出檢索關(guān)鍵詞與索引矩陣的相關(guān)度。
SimDegree = W1+W2+…+W (k-l) + Q * (Wk+W (k+l)) + <formula>formula see original document page 29</formula>在該式中,Wl是第1個(gè)檢索文字Cl匹配的文字相關(guān)值,W2是第2 個(gè)檢索文字C2匹配的文字相關(guān)值,W (k-l)是第(k-l)個(gè)檢索文字C (k-l)匹配的文字相關(guān)值。同樣,W (k)是第k個(gè)檢索文字Ck匹配的 文字相關(guān)值,W (k+l)是第(k+l)個(gè)檢索文字C (k+l)匹配的文字相 關(guān)值。另外,W (m-l)是第(m-l)個(gè)檢索文字C (m-l)匹配的文字相 關(guān)值。同樣,W (m)是第(m)個(gè)檢索文字C (m)匹配的文字相關(guān)值, W (m+l)是第(m+l)個(gè)檢索文字C (m+l)匹配的文字相關(guān)值,另夕卜, 最后的Wr是第r個(gè)的最后的檢索文字Cl匹配的文字相關(guān)值。
這樣,在相關(guān)度的計(jì)算中,構(gòu)成檢索關(guān)鍵詞的全部檢索文字的文字相 關(guān)值W被累加(累計(jì))計(jì)算。
而且,在式(2)中的Q * (Wk+W (k+l))表示由于檢索關(guān)鍵詞 中的第k個(gè)檢索文字Ck和第(k+l)個(gè)檢索文字C (k+l)分別與索引矩 陣中的相鄰的2行相匹配,所以對(duì)文字相關(guān)值Wk和文字相關(guān)值W(k+l) 乘以行的相關(guān)度加權(quán)因數(shù)Q。關(guān)于()* (Wm + W (m+l))也同樣。
另外,檢索關(guān)鍵詞的第k-l個(gè)檢索文字與第k個(gè)檢索文字,由于不具 有與相鄰的2行相匹配的關(guān)系,所以對(duì)W(k-l)和Wk雙方不乘以相關(guān) 度加權(quán)因數(shù)Q。關(guān)于W (m-l)和Wm也同樣。
另外,由于圖18的方框102所示的檢索關(guān)鍵詞與索引矩陣的相對(duì)關(guān)系 中,具有全部的檢索文字C1、 C2、、 Cr與索引矩陣內(nèi)的任意候補(bǔ)文字 相匹配的關(guān)系,所以在式(2)中,將Wl Wr的全部的檢索文字的文字相 關(guān)值累計(jì)計(jì)算。
但是,這只是一例,例如,在雖然具有式(l)的相對(duì)關(guān)系,但檢索文 字Cl和檢索文字Cr不與索引矩陣內(nèi)的任意候補(bǔ)文字相匹配的場(chǎng)合下,計(jì) 算相關(guān)度的計(jì)算式為如下計(jì)算式,相應(yīng)于累積項(xiàng)的減少,當(dāng)然其相關(guān)度會(huì) 降低。
<formula>formula see original document page 29</formula>另外,在具有全部檢索文字C1、 C2、…、Cr與索引矩陣內(nèi)的任意候
補(bǔ)文字相匹配的關(guān)系,并且,具有檢索關(guān)鍵詞的第k+l個(gè)檢索文字和第k
個(gè)檢索文字、以及第k+2個(gè)檢索文字和第k+l個(gè)檢索文字分別與相鄰的2 行相匹配的關(guān)系的場(chǎng)合下,計(jì)算相關(guān)度的計(jì)算式為如下計(jì)算式。
SimDegree = Wl + W2 +…+ W (k曙l)
+ Q * (Wk+W (k+l) +W (k + 2))…+WR
在該場(chǎng)合下,由于檢索關(guān)鍵詞的第k-l個(gè)檢索文字和第k個(gè)檢索文字 不具有與相鄰的2行相匹配的關(guān)系,所以對(duì)W (k-l)和Wk雙方不乘以 相關(guān)度加權(quán)因數(shù)Q。
下面,釆用圖19,對(duì)相關(guān)度計(jì)算的具體例進(jìn)行"i兌明。這里,求出圖14 所示的文字列"去神仙居住的地方"的索引矩陣(參照表100)與檢索關(guān)鍵 詞"神仙"的相關(guān)度。
圖19的方框104表示檢索^4K相關(guān)值矩陣Weight是MxN維,文 字相關(guān)值是Weight[i] = [1, 1畫1/N, l畫2/N,, 1/N] (i-0, 1,…,M-l ), 行的相關(guān)度加權(quán)因數(shù)Q。
檢索關(guān)鍵詞"神仙"分別被分割成第1個(gè)檢索文字"神"和第2個(gè)檢索文 字"仙",對(duì)于這兩個(gè)字,分別在索引矩陣內(nèi)的候補(bǔ)文字中進(jìn)行檢索。
參照?qǐng)D14的表100可看出,檢索文字"神"與索引矩陣中的位置[i、 j] 的[2、 l]相匹配,檢索文字"仙,,與索引矩陣中的[3、 l]相匹配。
從而,如方框105所示,檢索文字"神,,的文字相關(guān)值為1 ,檢索文字"仙,, 的文字相關(guān)值為1。
而且,檢索文字"神"的行編號(hào)為[2],檢索文字"仙"的行編號(hào)為[3], 如圖14的表100所示,這2個(gè)檢索文字分別與索引矩陣中的相鄰的2行相 匹配。
從而,如方框106所示那樣,對(duì)檢索文字"神,,的文字相關(guān)值(l-l/N) 和檢索文字"仙,,的文字相關(guān)值1乘以行的相關(guān)度加權(quán)因數(shù)Q,檢索關(guān)鍵詞 的"神仙"與文字列"去神仙居住的地方,,的索引矩陣之間的相關(guān)度為
SimDegree = Q * ((l-l/N) +1 )。
檢索關(guān)鍵詞與索引矩陣之間的相關(guān)度,通過按照用戶的要求靈活地調(diào)整相關(guān)值矩陣中的加權(quán)(文字相關(guān)值)和行的相關(guān)度加權(quán)因數(shù)Q等的參數(shù), 可以獲得更理想的檢索結(jié)果。
用戶可采用鍵盤1等,相應(yīng)于需要而適當(dāng)設(shè)定相關(guān)值矩陣中的加權(quán)(文 字相關(guān)值)和行的相關(guān)度加權(quán)因數(shù)Q等的M。
而且,基于這樣的圖像特征的索引和匹配方式,可以滿足多種語言的 文檔圖像的索引和檢索。不需要進(jìn)行文字識(shí)別,計(jì)算量少。本發(fā)明不限于 中文,可以應(yīng)用于各種語言的文檔圖像。
最后,對(duì)具備詞匯解析功能(語義分析功能)的檢索處理進(jìn)行說明。 如圖8所示那樣,在本實(shí)施方式的文檔圖像處理裝置10中,在關(guān)鍵詞輸入 部24與檢索部22之間,設(shè)有詞匯解析部23。圖20中表示具備詞匯解析 功能的檢索處理。
詞匯解析部23由詞義分析處理部23a和語義詞典23b構(gòu)成。詞義分 析處理部23a,在從關(guān)^^I輸入部24輸入檢索關(guān)^詞時(shí),參照語義詞典 23b,對(duì)檢索關(guān)鍵詞的詞匯進(jìn)行分析。
例如,在作為檢索關(guān)鍵詞輸入"中日關(guān)系"時(shí),詞義分析處理部23a 作為與"中日關(guān)系"相關(guān)的單詞,將例如"中國(guó)"、"日本"、"關(guān)系"這3 個(gè)輸入到檢索部22。這些"中國(guó)"、"日本"、"關(guān)系"具有或的關(guān)系,檢索 式為"中國(guó)"或"日本"或"關(guān)系"。
將該檢索式"中國(guó)"或"日本"或"關(guān)系"輸入到檢索部22,檢索部 22對(duì)索引信息DB17進(jìn)行檢索,抽出包含"中國(guó)"的文檔圖像、包含"曰 本"的文檔圖像、和包含"關(guān)系"的文檔圖像。
由此,不僅能夠檢索出直接包含所輸入的檢索關(guān)鍵詞的文檔圖像,而 且還能夠檢索出相關(guān)的文檔圖像。
接下來,對(duì)實(shí)施文檔圖像管理處理的文檔圖像管理部57進(jìn)行說明。文 檔圖像管理部57由文字圖像特征抽出部14、字形特征字典15、特征匹配 部16、標(biāo)題區(qū)域初始處理部18、文檔圖像DB19、文檔圖4象特征DB20、 文檔名制作部51、文檔圖像DB管理部52、文檔圖像顯示部53、指示輸 入部54構(gòu)成,下面對(duì)這些進(jìn)行說明。
關(guān)于文字圖像特征抽出部14、字形特征字典15、特征匹配部16、標(biāo)
題區(qū)域初始處理部18、文檔圖像DB19、文檔圖像特征DB20的功能已進(jìn) 行了說明。在此,僅對(duì)為實(shí)施文檔圖像管理處理而進(jìn)一步所需的功能進(jìn)行 適當(dāng)說明,該文檔圖像管理處理中制作有意義的文檔名并對(duì)文檔圖像特征 DB20的文檔圖^ii行管理。
采用圖21說明文檔圖像管理處理。從由圖像掃描儀2及數(shù)字?jǐn)z影裝置 6構(gòu)成的文檔圖^^T入部21,輸入文檔圖像1-N。
對(duì)于所輸入的文檔圖像1 ~N,標(biāo)題區(qū)域初始處理部18對(duì)各文檔圖l象 的內(nèi)容進(jìn)行分析,并抽取出標(biāo)題區(qū)域獲取文字列。接著,雖然未圖示,但 文字圖^象特征抽出部14與上述同樣,將所抽取出的標(biāo)題區(qū)域中包含的文字 列的文字圖像以1個(gè)文字為單位進(jìn)行分割,并抽出各文字圖像的圖像特征。
然后,以這樣抽出的文字圖像的圖像特征為^,由字形特征字典15 及特征匹配部16構(gòu)成的候補(bǔ)文字列生成部55,選擇圖像特征的匹配度高 的文字圖像作為候補(bǔ)文字,并制作成與所抽取出的標(biāo)題區(qū)域中包含的文字 列相應(yīng)的候補(bǔ)文字列,而且如上述那樣采用詞義解析法來調(diào)整構(gòu)成該候補(bǔ) 文字列的各候補(bǔ)文字,并設(shè)為有意義的候補(bǔ)文字列。
更具體地說,候補(bǔ)文字列生成部55,以由文字圖像特征抽出部14抽 出的文字圖像的圖像特征為^ftfe,從字形特征字典15中,以圖像特征的匹 配度從高到低的順序選擇出N個(gè)(N>1的整數(shù))文字圖像作為候補(bǔ)文字, 在上述文字列的文字?jǐn)?shù)為M個(gè)(M>1的整數(shù))的場(chǎng)合下,制作成MxN 維的索引矩陣。這就是上述的特征匹配部16的處理。
接下來,特征匹配部16,基于制作的索引矩陣,來制作將位于該索引 矩陣中的第一列的各行的候補(bǔ)文字按順序排列的候補(bǔ)文字列。然后,對(duì)構(gòu) 成該候補(bǔ)文字列的連續(xù)的各行的候補(bǔ)文字所構(gòu)成的單詞的詞義進(jìn)行解析, 并調(diào)整^ft的第一列的候補(bǔ)文字,從而使候補(bǔ)文字列帶有意義。
圖22是表示調(diào)整所制作的索引矩陣而^:第一列的文字列成為具有意 義的文字列,為此采用詞匯解析法來進(jìn)行調(diào)整的具體例的說明圖。
圖22的上部分所示的調(diào)整前的索引矩陣109,與圖8所示的表100中 示出的索引矩陣相同。在索引信息DB17中是以該狀態(tài)儲(chǔ)存的。由這樣的 索引矩陣109制作成的候補(bǔ)文字列為"去伸仙居任酌地方",不具有意義。
用作有意義的文檔名的候補(bǔ)文字列中,主語、謂語、以及賓語的連接 詞關(guān)系等必須在意義上正確。在此,利用詞匯解析,變換成有意義的候補(bǔ)
文字列。具體地說,對(duì)于兩個(gè)或兩個(gè)以上4m候補(bǔ)文字,^吏用概念詞典, 分析兩個(gè)或兩個(gè)以上錯(cuò)誤候補(bǔ)文字與候補(bǔ)文本的其它單詞之間的意義信 息,而將候補(bǔ)文字列修改為有意義的文字列。
在這種詞匯解析中所采用的語言模型61,只要提供由所有的漢字開始 的活字的統(tǒng)計(jì)數(shù)據(jù)即可。換言之,利用該語言模型61的主要概念,可以在
技術(shù)上確立自動(dòng)搜索系統(tǒng),能夠得到與中文報(bào)紙的稿本有關(guān)的統(tǒng)計(jì)數(shù)據(jù)。
例如,作為實(shí)例,可使用Bi-gram模型(語言模型)。Bi-gram是兩個(gè) 文字、兩個(gè)音節(jié)、或者兩個(gè)單詞的群(group),且作為文本的簡(jiǎn)單統(tǒng)計(jì)分 析的基礎(chǔ)被廣泛使用。以符號(hào)序列來示出的場(chǎng)合下,將各符號(hào)的外觀設(shè)為 獨(dú)立事項(xiàng),并將上述符號(hào)序列的概率如下定義。
并且,在上述功能的分解中,可以使用概率的鏈鎖律。將中文設(shè)為 (N-l)階馬爾可夫鏈(符號(hào)的概率以N-1階符號(hào)的前出為條件)。該語言 模型被稱為N誦gram模型。
確立性的N-gram模型的使用,包含長(zhǎng)期帶來良好結(jié)果的統(tǒng)計(jì)上的自 然語言處理。N-gram通常由采用文本大的整個(gè)文檔(語料庫)中的文字 及單詞的共起而得到的統(tǒng)計(jì)來構(gòu)成,且規(guī)定文字連鎖或單詞連鎖的確立。 N-gram中,與通常直接從語料庫中抽出的場(chǎng)合相比,具有能夠覆蓋非常 大的語言的優(yōu)點(diǎn)。在對(duì)語言模型的應(yīng)用中,由于計(jì)算機(jī)的限制和沒有限制 的語言的特性(文字、單詞無限量地存在),所以將N設(shè)為N-2,且設(shè)為 Bi誦gram模型。
圖22的下部分表示調(diào)整后的索引矩陣110。第2行的第1列的"伸" 作為4^候補(bǔ)文字,被置換成第2列的"神"。同樣,第5行的第1列的"任" 被置換成第3列的"住"。然后,第6行的第1列的"酌",鑒于其前后的 "居住"和"地方"之間的關(guān)聯(lián)性而被認(rèn)為是m候補(bǔ)文字,并被置換成 第2列的"的"。
這樣的索引矩陣110的第1列中包含的候補(bǔ)文字列變?yōu)?去神仙居住 的地方",從而具有意義。并且,特征匹配部16,也可以將這樣的調(diào)整后 的索引矩陣110儲(chǔ)存在索引信息DB17中。
再次,返回到圖21,由候補(bǔ)文字列生成部55如上生成的有意義的候 補(bǔ)文字列被送到文檔名制作部51。
文檔名制作部51,對(duì)所輸入的文檔圖像,制作出包含有由候補(bǔ)文字列 生成部55生成的有意義的候補(bǔ)文字列的文檔名。以下,將包含有該有意義 的候補(bǔ)文字列的文檔名稱為"有意義的文檔名"。
從時(shí)間數(shù)據(jù)等發(fā)生部60向文檔名制作部51,還輸X^示文檔圖像被 輸入的時(shí)間及輸入路徑的數(shù)據(jù)等其它數(shù)據(jù)。文檔名制作部51還可以釆用至 少包含從時(shí)間數(shù)據(jù)等發(fā)生部60輸入的時(shí)間數(shù)據(jù)的其它數(shù)據(jù),來生成文檔 名。
例如,也可以構(gòu)成為將時(shí)間數(shù)據(jù)等其它數(shù)據(jù)之中的時(shí)間數(shù)據(jù)包含在 有意義的文檔名中,且將有意義的文檔名由時(shí)間lt據(jù)和有意義的^^補(bǔ)文字 列來構(gòu)成。
或者,也可以采用時(shí)間數(shù)據(jù)等其它數(shù)據(jù),來對(duì)相同的文檔圖像制作另 外的文檔名。以下,將由時(shí)間數(shù)據(jù)等其它數(shù)據(jù)等構(gòu)成的文檔名稱為原始的 文檔名。
通過這樣構(gòu)成,對(duì)一個(gè)文檔圖4象,可以利用有意義的文檔名、以及由 時(shí)間數(shù)據(jù)等其它數(shù)據(jù)等構(gòu)成的原始的文檔名來進(jìn)行管理。
對(duì)于每一個(gè)文檔圖像生成的有意義的文檔名、以及原始的文檔名,被 送到文檔圖像DB管理部52,且在文檔圖像DB19中,與文檔圖像的圖像 數(shù)據(jù)相對(duì)應(yīng)地進(jìn)行儲(chǔ)存。
文檔圖像DB管理部52,當(dāng)用戶采用由鍵盤l等構(gòu)成的圖8所示的指 示輸入部54,來輸入文檔圖像DB19中所存儲(chǔ)的文檔圖像的閱覽指示等時(shí), 在由顯示裝置3等構(gòu)成的圖8的文檔圖4象顯示部53上,顯示閱覽畫面。
圖23中表示在文檔圖像顯示部53上顯示的、文檔圖像DB19中所儲(chǔ) 存的文檔圖像的閱覽畫面的一個(gè)例子。
圖中,左側(cè)所示畫面201表示所存儲(chǔ)的文檔圖像按原始的文檔名列表 表示的狀態(tài)。在畫面201的上面,示出了各文檔圖像的輸入順序。在紙面 上最靠前的帶有"AR - C262M_20060803_103140"的原始的文檔名的文 檔圖像,是在該畫面中最先被輸入的文檔S像。"20060803"表示輸入的日
期(2006年8月3日),"103140"表示時(shí)間(10點(diǎn)31分40秒)。
在這樣的顯示狀態(tài)下,通過選擇畫面上所顯示的"有意義的文檔名" 的標(biāo)識(shí)符等的操作,閱覽畫面的顯示在圖中將轉(zhuǎn)移到右側(cè)所示的畫面202。 畫面202表示所存儲(chǔ)的文檔圖像按有意義的文檔名列^^示的狀態(tài)。
該畫面202與畫面201對(duì)應(yīng),在此,畫面201的上部所示的、紙面上 最靠前的帶有"定格惠州西湖"的有意義的文檔名的文檔圖〗象,是在該畫 面中最先被輸入的文檔圖像。
這樣,能夠按有意義的文檔名來進(jìn)行閱覽,由此用戶可容易實(shí)施所存 儲(chǔ)的文檔圖像的管理及搜索。此外, 一并制作出原始的文檔名,由此可同 時(shí)看到時(shí)間數(shù)據(jù)等信息與文檔名。
另外,在該文檔圖4象處理裝置中,采用制作成的索引矩陣來制作索引 信息,并用于檢索處理中。因此,標(biāo)題區(qū)域初始處理部18抽出文檔圖像中 包含的兩個(gè)或兩個(gè)以上標(biāo)題區(qū)域T,并制作各自的索引矩陣。然而,如果 僅僅以對(duì)文檔圖像制作有意義的文檔名為目的的話,則沒有必要抽出文檔 圖像中包含的兩個(gè)或兩個(gè)以上標(biāo)題并制作各自的索引矩陣。
換言之,可以構(gòu)成為對(duì)于最能表示出文檔圖像的標(biāo)題區(qū)域中包含的 標(biāo)題的文字列(文字圖像列),制作出索引矩陣,并基于此,使用特征匹 配的文字列,來制作帶有意義的名稱。
作為最能表示出文檔圖像的標(biāo)題區(qū)域,例如可以設(shè)為所抽出的兩個(gè)或 兩個(gè)以上標(biāo)題區(qū)域之中、存在于文檔圖像的最上面一行的區(qū)域。這是因?yàn)?重要的標(biāo)題很多場(chǎng)合下配置在文檔圖像的最上面一行。
此外,也可以將標(biāo)題區(qū)域中包含的文字的大小設(shè)為比某個(gè)閾值大,且 比所抽出的其它標(biāo)題區(qū)域中的文字大。這是因?yàn)橹匾臉?biāo)題很多場(chǎng)合下用 比其它標(biāo)題大的文字大小來記載。
或者,也可以將標(biāo)題區(qū)域中包含的文字的字體(字形)類型,設(shè)為與
所抽出的其它標(biāo)題區(qū)域的文字不同的字體類型。這是因?yàn)橹匾臉?biāo)題很多 場(chǎng)合下用與其它標(biāo)題不同的字體(字形)來記載。此外,也可以附加其他
基準(zhǔn),并且各基準(zhǔn)可以分別采用,也可以組合來采用。
此外,如該文檔圖4象處理裝置那樣,在對(duì)于一個(gè)文檔圖像抽出兩個(gè)或
兩個(gè)以上標(biāo)題區(qū)域,并制作出各自的索引矩陣的構(gòu)成中,通過標(biāo)題區(qū)域的 配置位置、文字大小、或字體,來特定最重要的標(biāo)題區(qū)域的索引矩陣即可。 此外,如果是這種場(chǎng)合,則特別優(yōu)選為,從所抽出的兩個(gè)或兩個(gè)以上標(biāo)題 區(qū)域的索引矩陣中,制作出最頻繁出現(xiàn)的單詞包含在候補(bǔ)文字列中的索引 矩陣。
最后,文檔圖像處理裝置的各方框,特別是字體正規(guī)化處理部12、文 字圖像特征抽出部14、特征匹配部16、標(biāo)題區(qū)域初始處理部18、檢索部 22、詞匯解析部23、文檔名制作部51、文檔圖像DB管理部52等也可以 由硬件邏輯電路構(gòu)成,也可以如下那樣采用CPU由軟件來實(shí)現(xiàn)。
即,文檔圖像處理裝置10具有執(zhí)行用于實(shí)現(xiàn)各功能的控制程序的命令 的CPU (central processing unit)、儲(chǔ)存有上述程序的ROM (read only memory )、展開上述程序的RAM (random access memory )、儲(chǔ)存上述程 序和各種數(shù)據(jù)的存儲(chǔ)器等存儲(chǔ)裝置(記錄媒體)等。而且,本發(fā)明的目的 可通過如下過程來達(dá)到,即將記錄有計(jì)算機(jī)可讀取的、實(shí)現(xiàn)上述的功能 的軟件即文檔圖像處理裝置10的控制程序的程序代碼(執(zhí)行形式程序、中 間代碼程序、源程序)的記錄媒體,提供給上述文檔圖像處理裝置,且由 該計(jì)算機(jī)(或CPU、 MPU)讀出記錄在記錄媒體上的程序代碼并執(zhí)行。
作為上述的記錄媒體,例如可以采用磁帶或盒式磁帶等的磁帶類、包 括軟(注冊(cè)商標(biāo))盤/硬盤等磁盤和CD-ROM/MO/MD/DVD/CD-R等光盤 的盤類、IC卡(包括存儲(chǔ)卡)/光卡等的卡類、或掩模ROM/EPROM /EEPROM/閃存ROM等的半導(dǎo)體存儲(chǔ)器類等。
另夕卜,也可以將文檔圖像處理裝置IO構(gòu)成為能夠與通信網(wǎng)絡(luò)連接,通 過通信網(wǎng)絡(luò)來供給上迷程序代碼。作為該通信網(wǎng)絡(luò),沒有特別的限定,例 如可以利用互聯(lián)網(wǎng)、內(nèi)部網(wǎng)、外聯(lián)網(wǎng)、LAN、 ISDN、 VAN、 CATV通信 網(wǎng)、虛擬專用網(wǎng)(virtual private network)、電話線路網(wǎng)、移動(dòng)體通信網(wǎng)、 衛(wèi)星通信網(wǎng)等。另外,作為構(gòu)成通信網(wǎng)絡(luò)的傳送^^體,沒有特別的限定, 例如既可以利用IEEE1394、 USB、電力線輸送、有線TV線路、電話線、 ADSL線路等的有線,也可以利用IrDA、遠(yuǎn)程控制那樣的紅外線、Bluetooth (注冊(cè)商標(biāo))、802.11無線、HDR、移動(dòng)電話網(wǎng)、衛(wèi)星線路、地面波數(shù)字 網(wǎng)等的無線。另外,本發(fā)明也能夠以上述程序代碼通過電子傳送而具體化 的被疊加在栽波中的計(jì)算機(jī)數(shù)據(jù)信號(hào)的形式來實(shí)現(xiàn)。本發(fā)明在不脫離其精神或主要特征的范圍內(nèi),能夠以其它各種形式實(shí) 施。從而,上述的實(shí)施方式只不過是在所有方面上的一種示例,本發(fā)明的 范圍由本發(fā)明的權(quán)利要求書來表示,不受本^兌明書的任何限定。并且,在 權(quán)利要求書范圍內(nèi)的變形和變更,均屬于本發(fā)明的范圍內(nèi)。
權(quán)利要求
1.一種文字圖像抽出方法,其特征在于,包括抽出步驟,對(duì)排列兩個(gè)或兩個(gè)以上文字的文字列區(qū)域,求出由相互連接的兩個(gè)或兩個(gè)以上像素構(gòu)成的連接成分,并從上述文字列區(qū)域中,抽出由與連接成分外接的外接圖形劃分的劃分要素;改變步驟,改變?cè)诔槌霾襟E中抽出的劃分要素,且在抽出步驟中抽出的劃分要素中,將至少一部分相互重疊的劃分要素進(jìn)行綜合而作為新的劃分要素,并將剩余的劃分要素按原樣作為新的劃分要素;選擇步驟,預(yù)先確定基準(zhǔn)大小,在改變步驟中改變的劃分要素中,選擇比上述基準(zhǔn)大小還大的劃分要素。
2. 如權(quán)利要求l所述的文字圖像抽出方法,其特征在于,還包括 第二改變步驟,改變上述選擇步驟中選擇的劃分要素,且預(yù)先確定第一基準(zhǔn)尺寸,并在上述選擇步驟中選擇的劃分要素中,將與文字的排列方 向有關(guān)的尺寸比上述第一基準(zhǔn)尺寸還小Jbf目互在文字的排列方向上相鄰 的劃分要素進(jìn)行綜合而作為新的劃分要素,并將剩余的劃分要素按原樣作 為新的劃分要素;第二選擇步驟,預(yù)先確定第二基準(zhǔn)尺寸,且在第二改變步驟中改變的 劃分要素中,選擇與文字的排列方向有關(guān)的尺寸比上述第二基準(zhǔn)尺寸還大 的劃分要素。
3. 如權(quán)利要求2所述的文字圖像抽出方法,其特征在于,還包括分割 步驟,該步驟中,預(yù)先確定笫三基準(zhǔn)尺寸,且在上述第二選擇步驟中選擇 的劃分要素中,將與文字的排列方向有關(guān)的尺寸比上述第三基準(zhǔn)尺寸還大 的劃分要素,基于上述第三基準(zhǔn)尺寸來進(jìn)行分割。
4. 一種文字圖^^出裝置,其特征在于,包括抽出部,對(duì)排列兩個(gè)或兩個(gè)以上文字的文字列區(qū)域,求出由相互連接 的兩個(gè)或兩個(gè)以上像素構(gòu)成的連接成分,并從上述文字列區(qū)域中,抽出由 與連接成分外接的外接圖形劃分的劃分要素;改變部,改變由抽出部抽出的劃分要素,并在由抽出部抽出的劃分要 素中,將至少一部分相互重疊的劃分要素進(jìn)行綜合而作為新的劃分要素, 并將剩余的劃分要素按原樣作為新的劃分要素;選擇部,預(yù)先確t基準(zhǔn)大小,且在由改變部改變的劃分要素中,選擇 比上述基準(zhǔn)大小還大的劃分要素。
全文摘要
本發(fā)明提供一種文字圖像抽出方法及文字圖像抽出裝置。在抽出步驟中,通過抽出部(401),對(duì)排列兩個(gè)或兩個(gè)以上文字的文字列區(qū)域,求出由相互連接的兩個(gè)或兩個(gè)以上像素構(gòu)成的連接成分,并從其中抽出由與連接成分外接的外接圖形劃分的劃分要素。在改變步驟中,通過第一改變部(402),在上述抽出的劃分要素中,將至少一部分相互重合的劃分要素進(jìn)行綜合而作為新的劃分要素。在下面的第一選擇步驟中,通過第一選擇部(403),預(yù)先確定基準(zhǔn)大小,在第一改變步驟中改變的劃分要素中,選擇比上述基準(zhǔn)大小還大的劃分要素。之后,可以按該順序執(zhí)行第二改變步驟及第二選擇步驟。由此,可以從排列兩個(gè)或兩個(gè)以上文字的文字列區(qū)域中高精度地抽出各文字的圖像。
文檔編號(hào)G06K9/20GK101354746SQ20071012960
公開日2009年1月28日 申請(qǐng)日期2007年7月23日 優(yōu)先權(quán)日2007年7月23日
發(fā)明者寧 樂, 波 吳, 吳亞棟, 竇建軍, 靖 賈 申請(qǐng)人:夏普株式會(huì)社