亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分析數(shù)字文檔圖像的方法

文檔序號:6364976閱讀:166來源:國知局
專利名稱:分析數(shù)字文檔圖像的方法
技術(shù)領(lǐng)域
本發(fā)明涉及對文檔 的掃描,具體涉及對書籍的掃描。
背景技術(shù)
書籍頁面的掃描圖像通常具有由掃描產(chǎn)生的三種類型的失真。根據(jù)書籍放在掃描表面上時書籍相對于掃描方向的取向以及書脊區(qū)域在該表面上方的高度,這三種類型的失真以不同等級出現(xiàn)。如圖I所示,當書脊在掃描表面上方時,掃描的圖像常常具有陰影,陰影出現(xiàn)在圖像中靠近書脊的地方。另外兩種類型的失真由于同樣的原因而出現(xiàn),但是僅出現(xiàn)在以書脊與掃描儀傳感器條平行的方式對書籍進行掃描時,稱作“平行掃描情況”。在這種情況下,頁面圖像擠向書脊,從而離書脊較近的文本變窄并且難以辨識。除了這種“擠壓”失真以外,靠近書脊的文本還向頁面的中心彎曲。在本說明書中,這種類型的失真稱作“彎曲失真(curvature distortion) ”。上述失真不僅影響受影響區(qū)域中圖像的視覺可讀性,還使自動光學(xué)字符識別(OCR, optical character recognition)方法失靈,所述OCR方法通常用于將掃描的視覺信息變換成相應(yīng)的文本。本發(fā)明涉及數(shù)字文檔分析。當應(yīng)用于掃描的書籍時,這種分析可以用于檢測所掃描的文檔的諸如頁面區(qū)域、頁面取向、文本區(qū)域以及書脊等方面。

發(fā)明內(nèi)容
本發(fā)明提供了一種對數(shù)字化的或掃描的文檔圖像進行分析的方法和設(shè)備。本發(fā)明使用基于塊的處理來創(chuàng)建雙通道特征圖像(two-channel feature image),所述雙通道特征圖像指示文檔圖像背景和前景的特性?;谠撎卣鲌D像來設(shè)計檢測算法,以檢測頁面區(qū)域、頁面取向、文本區(qū)域和書脊。更具體地,使用特征圖像來分割所掃描的書籍的圖像,以映射對應(yīng)于頁面區(qū)域的像素并創(chuàng)建頁面對象。例如,頁面對象用于確定頁面取向和檢測書脊。本發(fā)明可以應(yīng)用于掃描儀和用于數(shù)字文檔圖像處理和操控的圖像軟件,這是因為本發(fā)明的組件可以被用來構(gòu)建各種增強和分割方案。結(jié)合附圖,通過以下描述和權(quán)利要求,本發(fā)明的其他目的和成果將變得清楚,并且可以更全面地理解本發(fā)明。


附圖中,相同的附圖標記表示相同的部分。圖I示出了厚的書籍,該書籍的書脊平行于掃描儀傳感器條;圖2是使用本發(fā)明的圖像捕獲設(shè)備和系統(tǒng)的總體框圖;以及圖3是本發(fā)明的總體方法的流程圖。
具體實施方式
在以下詳細描述中參考了附圖,附圖以說明的方式示出了本發(fā)明的示例實施例。在附圖中,貫穿多幅圖,相同的數(shù)字描述實質(zhì)上相似的部分。這些實施例描述足夠詳細,以至于本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)本發(fā)明??梢允褂闷渌麑嵤├?,在不脫離本發(fā)明的范圍的前提下可以進行結(jié)構(gòu)、邏輯和電學(xué)上的改變。此外還應(yīng)理解,本發(fā)明的各種實施例雖然不同,但并不必須互相排斥。例如,在一個實施例中描述的具體特征、結(jié)構(gòu)或特性可以包含在其他實施例中。因此,以下詳細描述并不旨在限制,本發(fā)明的范圍僅由所附權(quán)利要求及其等價物的整個范圍來限定。一般地,示例實施例涉及從圖像(特別是數(shù)字化或掃描的文檔)中提取特征的方法、設(shè)備和計算機可讀介質(zhì)。然后,這些提取的特征可以用于 分析文檔,以檢測例如頁面區(qū)域、失真或書脊。示例實施例從數(shù)字化或掃描的圖像中提取特征,并對文檔進行分析,以檢測具體特性。然后可以輸出用于指示頁面區(qū)域、失真區(qū)域和書脊區(qū)域的這些特征,以供進一步的圖像分析和校正。盡管不是本發(fā)明的一部分,然而這種校正可以包括強度和扭曲校正(intensity and warp correction)。根據(jù)本發(fā)明的方法可以實現(xiàn)在諸如平臺式掃描儀(flatbed scanner)之類的圖像捕獲設(shè)備中以及包括打印機驅(qū)動器或圖像編輯軟件等的軟件模塊中??梢允褂贸休d或存儲有計算機可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)的非暫時性(non-transitory)計算機可讀介質(zhì)來實現(xiàn)這些方法。這樣的計算機可讀介質(zhì)可以是能夠被通用或?qū)S糜嬎銠C的處理器訪問的任何可用介質(zhì)。例如而非限制性地,這樣的計算機可讀介質(zhì)可以包括RAM、ROM、EEPR0M、CD-ROM或其他光盤存儲裝置、磁盤存儲裝置或其他磁存儲設(shè)備、或者能夠用于承載或存儲計算機可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的程序代碼并且可以被通用或?qū)S糜嬎銠C的處理器訪問的任何其他介質(zhì)。上述示例的組合也應(yīng)當包含在計算機可讀介質(zhì)的范圍之內(nèi)。例如,計算機可執(zhí)行指令包括使通用計算機或?qū)S糜嬎銠C的處理器執(zhí)行特定的功能或功能組的指令和數(shù)據(jù)結(jié)構(gòu)。盡管本文以特定于方法邏輯動作的語言描述了主題內(nèi)容,然而應(yīng)理解所附權(quán)利要求所限定的主題不必限于本文描述的特定動作。而是,本文描述的特定動作被公開為權(quán)利要求的示例實現(xiàn)形式。專用計算機的示例包括圖像處理設(shè)備,如數(shù)字攝像機(數(shù)字攝像機的示例包括但不限于由總部在 Owa, Suwa, Nagano, Japan 的 Seiko Epson Corporation 制造的Epson R-Dl數(shù)字攝像機);數(shù)字攝像放像機(camcorder);投影儀;打印機;掃描儀;復(fù)印機;便攜式照片瀏覽器(Photo viewer)(便攜式照片瀏覽器的示例包括但不限于由SeikoEpson Corporation制造的Epson P-3000或P-5000便攜式照片瀏覽器);或便攜式電影播放器;或它們的某種組合,如打印機/掃描儀/復(fù)印機組合(打印機/掃描儀/復(fù)印機組合的示例包括但不限于由Seiko Epson Corporation制造的Epson Stylus PhotoRX580、RX595 或 RX680,Epson StylusCX4400、CX7400、CX8400 或 CX9400Fax,以及 EpsonAcuLaser CX11NF),打印機/掃描儀組合(打印機/掃描儀組合的示例包括但不限于Epson TM-J9000、TM-J9100、TM-J7000、TM-J7100 和 TM-H6000III,它們?nèi)际怯?SeikoEpson Corporation制造的),或數(shù)字攝像機/攝像放像機組合。圖像處理設(shè)備可以包括特征提取能力,例如從圖像中提取特征,然后使用所提取的特征對圖像進行分析。例如,諸如平臺式掃描儀等具有這種特征提取和分析能力的圖像捕獲設(shè)備可以包括實現(xiàn)示例方法300的一個或多個計算機可讀介質(zhì)。備選地,與圖像捕獲設(shè)備相連的計算機可以包括實現(xiàn)示例方法300的一個或多個計算機可讀介質(zhì)。圖2示出了示例圖像捕獲設(shè)備200的示意圖。示例圖像捕獲設(shè)備200通過中間接口(intervening interface) 202與主計算機250交換數(shù)據(jù)。還可以存儲應(yīng)用程序和圖像捕獲設(shè)備驅(qū)動器,以在主計算機250上訪問。例如,當從應(yīng)用程序接收到圖像獲取命令時,圖像捕獲設(shè)備驅(qū)動器控制命令數(shù)據(jù)向適合圖像捕獲設(shè)備200的格式的轉(zhuǎn)換,并將轉(zhuǎn)換后的命令數(shù)據(jù)發(fā)送至圖像捕獲設(shè)備200。驅(qū)動器還對來自圖像捕獲設(shè)備200的各種信號和數(shù)據(jù)進行接收和解釋,并通過主計算機250向用戶提供必要的信息。當主計算機250發(fā)送了數(shù)據(jù)時,接口 202接收該數(shù)據(jù)并將其存儲在接收緩沖器中,所述接收緩沖器構(gòu)成RAM 204的一部分??梢岳缤ㄟ^尋址將 RAM 204劃分成多個部分,并分配為不同的緩沖器,如,接收緩沖器或發(fā)送緩沖器。圖像捕獲設(shè)備200還可以從一個或多個捕獲機構(gòu)212、閃速EEPROM 210或ROM 208獲得諸如數(shù)字圖像數(shù)據(jù)之類的數(shù)據(jù)。例如,所述一個或多個捕獲機構(gòu)212可以通過掃描諸如書籍之類的源文檔來產(chǎn)生數(shù)字圖像。然后可以將該數(shù)字圖像存儲在RAM 204的接收緩沖器或發(fā)送緩沖器中。例如,處理器206使用ROM 208或閃速EEPROM 210上存儲的計算機可執(zhí)行指令來執(zhí)行特定的功能或功能組,例如本發(fā)明的方法。例如在RAM 204的接收緩沖器中的數(shù)據(jù)是數(shù)字圖像的情況下,處理器206可以對該數(shù)字圖像實現(xiàn)本發(fā)明方法的方法邏輯動作,以提取數(shù)字圖像中的特征并基于所提取的特征來進一步分析圖像。然后,例如在將圖像顯示在顯示器214(例如,IXD顯示器)上、傳送到主計算機250以在打印機262上打印、用投影儀264投影、或存儲在硬盤260上之前,可以對數(shù)字圖像執(zhí)行成像流水線(imaging pipeline)中的進一步處理?,F(xiàn)在將結(jié)合圖3來討論用于提取圖像中的特征并基于所提取的特征來進一步分析圖像的示例方法300。在執(zhí)行方法300之前,可以以輸入圖像作為多種圖像處理操作的目標。輸入圖像可以是灰度圖像、二進制圖像、數(shù)字彩色圖像、或者彩色圖像的數(shù)字化或掃描版本??梢栽趫?zhí)行方法300之前對輸入圖像應(yīng)用多種圖像處理技術(shù)。為了便于理解,以下論述將分為下述部分A.輸入圖像,B.特征圖像形成,C.特征圖像分析和分割,D.頁面區(qū)域、頁面取向和文本區(qū)域檢測,E.書脊檢測,以及F.綜述A.輸入圖像在圖3中,在步驟302,數(shù)字化或掃描的文檔構(gòu)成了數(shù)字圖像X,該數(shù)字圖像x具有K1XK2個像素xfr,s),其中(r, s)表示像素位置= 1,2,... ,K1表示圖像行,S= 1,2,...,K2表示圖像列。本發(fā)明的目的是主要為了所掃描的書籍文檔分析的目的,分析輸入圖像X的內(nèi)容。然而應(yīng)理解,本發(fā)明的框架便于適用于任何類型的掃描文檔,如書籍、信件、支票、收據(jù)、處方等等。
B.特征圖像形成因為掃描儀典型地對掃描區(qū)域的整個表面進行掃描,并且所掃描的文檔在掃描儀表面上的尺寸和位置可能顯著改變,所以本發(fā)明采用特征提取(圖3中的步驟304)來形成特征圖像以供后續(xù)分析。為了對在掃描過程中引入數(shù)字化文檔圖像的各種掃描缺陷和噪聲具有魯棒性,本發(fā)明逐塊地處理輸入圖像。即,選擇由glXg2A像素組成的塊,其中g(shù)l表示塊內(nèi)的圖像行數(shù),&表示塊內(nèi)的圖像列數(shù)。該塊用于提取前景和背景,前景和背景是任何文檔圖像的兩個基本特征。為了允許高速處理,本發(fā)明將圖像X中的每個像素塊變換成特征圖像中的單個像素(步驟306)。因此,在給定輸入圖像大小和塊大小的情況下,特征圖像z由K1A1XKyg2個像素組成,特征圖像z是具有以下像素的雙通道圖像z(m,n) = [f(m,n),b(m,n)],其中 m = 1,2, , K1Zg1, n = 1,2, , K2Zg20 項 f(m,n)和 b(m,n)分別表示矢量像 素(vectorial pixel) z(m,n)的前景分量和背景分量。例如,前景分量和背景分量中的每一個將是8比特值。8比特使得可以實現(xiàn)256個離散值。因此,圖像X中的每個像素塊由具有兩個8比特分量的單個像素z(m,n)來表示。因為大多數(shù)文檔圖像的背景都明顯比前景亮(前景可以包含文本、線條、圖形和圖像),所以可以如下確定特征像素z(m,n)的這兩個分量f(m,n) = min{x(r,s) ; On-Dg1 < r 彡 mg1; (n_l)g2 < s 彡 ng2} (I)b(m,n) = max{x(r,s) ; On-Dg1 < r 彡 mg1; (n_l)g2 < s 彡 ng2} (2)其中min和max分別是最小值運算符和最大值運算符。等式⑴和⑵示出了特征圖像的產(chǎn)生。以特征圖像中最左上方的像素作為示例,該像素在輸入圖像中的對應(yīng)塊是左上方的gX g塊。前景值和背景值分別是該塊內(nèi)的最小強度值和最大強度值,如由以下等式定義的f(ljl) = min{x(r,s) ;0 < r 彡 g”0 < s 彡 g2},以及b(ljl) = max{x(r,s) ;0 < r < g”0 < s < g2}。從以上等式可以看出,本發(fā)明將輸入圖像x劃分成像素值塊,每個塊與一個特征像素z(ni,n) = [f(m,n), b(m,n)]相關(guān)聯(lián)。通過以更小的特征圖像來表示輸入圖像(每個像素塊減小到一個像素),極大地降低了該框架中后續(xù)圖像分析的計算復(fù)雜度。C.特征圖像分析和分割根據(jù)分析目的和預(yù)期應(yīng)用,上述特征提取過程可以用于產(chǎn)生特定尺寸的特征圖像或多于一個的特征圖像。參數(shù)gl和g2允許在處理速度和圖像X的分割級別之間進行權(quán)衡。例如,較大的gl和g2值可以用于在頁面級別上對掃描圖像進行分割,而當分別在段落/頁面列和行/字符級別上對圖像進行分割時中等的和較小的值是有用的。以下描述的任何分割過程都基于特征圖像z的每個像素位置中分量f(m,n)和b(m,n)的評估。值f(m,n)和b(m,n)之間的小差值指示了在與特征圖像中的位置(m,n)相對應(yīng)的像素塊中的背景和前景之間的顯著相似度。例如,這可能發(fā)生在無文本(text-free)圖像區(qū)域,如,掃描區(qū)域中圍繞文檔的文檔邊界和區(qū)域或者具有實線圖形(solid graphics)的區(qū)域。因此,可以如下檢測頁面區(qū)域
權(quán)利要求
1.一種對具有K1XK2個像素Xts)的輸入圖像X進行分析的方法,其中(r,s)表示像素位置,r = 1,2, . . . , K1表示圖像行,S= 1,2, . . . , K2表示圖像列,所述輸入圖像是存儲在存儲器中的數(shù)字化圖像或來自于掃描儀的掃描圖像,所述方法包括 使用處理器通過以下操作來根據(jù)輸入圖像X形成特征圖像z 將輸入圖像X劃分成多個像素塊,每個像素塊的塊大小是glXg2個像素,其中g(shù)l表示像素塊中的圖像行數(shù),g2表示像素塊中的圖像列數(shù), 使輸入圖像X中的每個像素塊與特征圖像z中的單個像素相關(guān)聯(lián),其中特征圖像z由Vg1XVg2個像素構(gòu)成,以及 輸出特征圖像z以進一步分析或存儲在存儲器中。
2.根據(jù)權(quán)利要求I所述的方法,其中,特征圖像z是具有特征像素z(m,n)= [f(m,n),b(m,η)]的雙通道圖像,其中 m = 1,2, · · · , K1Zg1, η = 1,2, , K2/g2, f(m,n)和 b(m,n)分別表示特征像素z(m,n)的前景分量和背景分量。
3.根據(jù)權(quán)利要求2所述的方法,其中,特征像素z(m,n)的前景分量和背景分量分別定義為 f (m, η) = min{x(r,s) ; (m-l)gi < r ^ mg1; (η-1) g2 < s 彡 ng2} b(m,n) = max{x(r,s) ; (m_l)gi < r ^ Iiig1, (n_l)g2 < s 彡 ng2} 其中min和max是最小值運算符和最大值運算符。
4.根據(jù)權(quán)利要求3所述的方法,其中,處理器根據(jù)以下等式來檢測頁面 其中,θ和占是可調(diào)參數(shù),用于評估輸入圖像X中前景和背景之間的相似度,以及標識具有背景分量和前景分量的大貢獻的像素,d(m,n)是尺寸與特征圖像z的尺寸相同的二進制圖d中的像素,值d(m,n) = I表示特征圖像Z中的位置(m,η)與頁面區(qū)域相對應(yīng)。
5.根據(jù)權(quán)利要求3所述的方法,其中,處理器根據(jù)以下等式來檢測頁面 , —Jl, /( /. ) > β (wjl)=|o,其他其中,β是滿足b(m_n)-f(m,n) < Θ并且的分量b(m,n)的平均值,d(m,n)是尺寸與特征圖像z的尺寸相同的二進制圖d中的像素,值d(m,n) = I表示特征圖像中的位置(m,η)與頁面區(qū)域相對應(yīng)。
6.根據(jù)權(quán)利要求4所述的方法,其中,處理器通過將d(m,n)= I的相鄰像素分組,對二進制圖d進行對象分割。
7.根據(jù)權(quán)利要求6所述的方法,其中,處理器將二進制圖d分成N個不相交對象O7 ={(w,w)e<D '£f w_ ) =1}其中,i = 1,2,…,N,每個對象由 Oi 來表征,Oi 是《狀d = 1的像素位置(m,n)的集合,X (|)f是高度為且寬度為⑩f的邊界框。
8.根據(jù)權(quán)利要求7所述的方法,其中,處理器如下去除小對象和具有不規(guī)則長寬比的邊界框的對象如果 或
9.根據(jù)權(quán)利要求7所述的方法,其中,處理器分析對象,以通過將對象的高度與對象的寬度相比較來檢測輸入圖像X的頁面取向。
10.根據(jù)權(quán)利要求7所述的方法,其中,處理器分析對象,以檢測輸入圖像X中的書脊。
11.一種對具有K1XK2個像素Xts)的輸入圖像X進行分析的設(shè)備,其中(r,s)表示像素位置,r = 1,2, . . . , K1表示圖像行,s = 1,2, . . . , K2表示圖像列,所述設(shè)備包括 圖像捕獲單元,用于捕獲輸入圖像X ; 存儲器,用于存儲輸入圖像X ;以及 處理器,用于通過以下操作來根據(jù)輸入圖像X形成特征圖像z 將輸入圖像X劃分成多個像素塊,每個像素塊的塊大小是glXg2個像素,其中g(shù)l表示像素塊中的圖像行數(shù),g2表示像素塊中的圖像列數(shù), 使輸入圖像X中的每個像素塊與特征圖像z中的單個像素相關(guān)聯(lián),其中特征圖像z由Vg1XVg2個像素構(gòu)成,以及 輸出特征圖像z以進一步分析或存儲在存儲器中。
12.根據(jù)權(quán)利要求11所述的設(shè)備,其中,特征圖像z是具有特征像素z(m,n)= [f(m,n),b(m,η)]的雙通道圖像,其中 m = 1,2, · · · , K1Zg1, η = 1,2, , K2/g2, f(m,n)和 b(m,n)分別表示特征像素z(m,n)的前景分量和背景分量。
13.根據(jù)權(quán)利要求12所述的設(shè)備,其中,特征像素z(m,n)的前景分量和背景分量分別定義為 f (m, η) = min{x(r,s) ; (m-l)gi < r ^ mg1; (η-1) g2 < s 彡 ng2} b(m,n) = max{x(r,s) ; (m_l)gi < r ^ Iiig1, (n_l)g2 < s 彡 ng2} 其中min和max是最小值運算符和最大值運算符。
14.根據(jù)權(quán)利要求13所述的設(shè)備,其中,處理器根據(jù)以下等式來檢測頁面
15.根據(jù)權(quán)利要求11所述的設(shè)備,其中,圖像捕獲單元是掃描單元。
16.—個或多個有形計算機可讀介質(zhì),在所述計算機可讀介質(zhì)上具有計算機可讀指令,所述計算機可讀指令在由處理器來執(zhí)行時分析具有K1XK2個像素x(r,s)的輸入圖像X,其中(r, s)表示像素位置,r = 1,2,... ,K1表示圖像行,s = 1,2,... ,K2表示圖像列,所述輸入圖像是存儲在存儲器中的數(shù)字化圖像或來自于掃描儀的掃描圖像,其中 處理器通過以下操作來根據(jù)輸入圖像X形成特征圖像z 將輸入圖像X劃分成多個像素塊,每個像素塊的塊大小是glXg2個像素,其中g(shù)l表示像素塊中的圖像行數(shù),g2表示像素塊中的圖像列數(shù),使輸入圖像X中的每個像素塊與特征圖像Z中的單個像素相關(guān)聯(lián),其中特征圖像z由Vg1XVg2個像素構(gòu)成,以及 輸出特征圖像Z以進一步分析或存儲在存儲器中。
17.根據(jù)權(quán)利要求16所述的一個或多個有形計算機可讀介質(zhì),其中,特征圖像z是具有特征像素 z(m,n) = [f(m,n),b(m,n)]的雙通道圖像,其中 m = 1,2, · · · , K1Zg1, η = 1,2, . . . , K2/g2 f(m,n)和b(m,n)分別表不特征像素z(m,n)的前景分量和背景分量。
18.根據(jù)權(quán)利要求17所述的一個或多個有形計算機可讀介質(zhì),其中,特征像素z(m,n)的前景分量和背景分量分別定義為 f (m, η) = min{x(r,s) ; (m-l)gi < r ^ mg1; (η-1) g2 < s 彡 ng2} b(m,n) = max{x(r,s) ; (m_l)gi < r ^ Iiig1, (n_l)g2 < s 彡 ng2} 其中min和max是最小值運算符和最大值運算符。
19.根據(jù)權(quán)利要求18所述的一個或多個有形計算機可讀介質(zhì),其中,處理器根據(jù)以下等式來檢測頁面
20.根據(jù)權(quán)利要求18所述的一個或多個有形計算機可讀介質(zhì),其中,處理器根據(jù)以下等式來檢測頁面
全文摘要
對輸入圖像進行分析,輸入圖像是存儲在存儲器中的數(shù)字化圖像或來自于掃描儀的掃描圖像。通過以下操作來根據(jù)輸入圖像形成特征圖像將輸入圖像劃分成多個像素塊,使輸入圖像中的每個像素塊與特征圖像中的單個像素相關(guān)聯(lián),以及輸出特征圖像以進一步分析或存儲在存儲器中。示例實施例從文檔圖像中提取并分析特征,以檢測與頁面區(qū)域、失真區(qū)域和書脊區(qū)域相關(guān)聯(lián)的具體特性。可以對所提取的特征進行進一步分析,以在段落、行、詞和字符級別上檢測文檔特性。
文檔編號G06K9/32GK102737240SQ20121003763
公開日2012年10月17日 申請日期2012年2月17日 優(yōu)先權(quán)日2011年3月30日
發(fā)明者拉斯蒂拉夫·盧卡 申請人:精工愛普生株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1