亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

從復(fù)雜背景文檔圖像提取文本的裝置、方法、程序及介質(zhì)的制作方法

文檔序號:82600閱讀:312來源:國知局
專利名稱:從復(fù)雜背景文檔圖像提取文本的裝置、方法、程序及介質(zhì)的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般地涉及圖像處理。更具體地說,本發(fā)明涉及從具有復(fù)雜背景的文檔圖像中提取文本的裝置、從具有復(fù)雜背景的文檔圖像中提取文本的方法、計算機程序及其存儲介質(zhì)。
背景技術(shù)
文本提取對于許多應(yīng)用來說是非常重要的一步,例如光學(xué)字符識別(OCR)、基于文本的視頻檢索、文檔圖像壓縮等等。大多數(shù)當(dāng)前的技術(shù)都針對從具有簡單背景的圖像中提取文本。近年來,從復(fù)雜背景圖像中提取文本的技術(shù)在越來越多的領(lǐng)域變得非常急需,例如復(fù)雜文檔分析、工程圖分析等等。但是,從具有復(fù)雜背景的文檔圖像中提取文本非常困難。雖然已經(jīng)提出了許多方法,但是大部分僅對于簡單圖像或不是特別復(fù)雜的圖像有效。
現(xiàn)有的文本提取方法可以分為兩大類,即基于色彩聚類的方法(Color-clustering based method)和基于邊緣分析的方法。
基于色彩聚類的方法假定文本具有均一的前景顏色。但是,情況并不總是這樣,尤其是對于小字符。例如,文本字符可能用不同的顏色進行印刷,而且圖像也可能是在不均勻的照明條件下捕獲的。對于較小的文字,前景顏色基本上總是不均一的,這是因為與筆劃寬度相比過渡區(qū)域太大。相應(yīng)地,對于整個圖像來說很難獲得恰當(dāng)?shù)娜侄祷撝?,由此幾乎不可能消除所有的具有不均勻顏色的色彩光背景?br> 另一方面,基于邊緣分析的方法假定文本與背景之間的對比度足夠大。但是在具有復(fù)雜背景的圖像中,非文本圖像也可能與背景之間具有很大的對比度,這將導(dǎo)致邊緣檢測處理之后文本邊緣和非文本邊緣彼此接觸相連。由此,常常給邊緣分析帶來困難或?qū)е虏环€(wěn)定的結(jié)果。
例如,日本專利申請公開文本No.JP-A-2000-20714公開了一種圖像處理方法、及其裝置和存儲圖像處理功能的記錄介質(zhì)。
圖10示出了上述日本專利申請公開文本No.JP-A-2000-20714所公開的圖像處理方法的流程圖。
為了獲得即使在背景圖像上也不具有影響識別的噪音的二值圖像,將要進行閾值處理的原始圖像的灰度圖像在步驟S101中輸入,并在步驟S102中存儲。而后,在步驟S103中,關(guān)注特定的像素,并且判斷所述像素是否是一個字符的邊緣或者是否是格線(ruledline)。此后,在步驟S104,確定并存儲被判斷為邊緣的像素在二值圖像上的像素值。在步驟S105對原始圖像上的所有像素重復(fù)這些操作并且在步驟S106找到非邊緣的像素的所有連通區(qū)域(connectioncomponent)。而后,在步驟S107,關(guān)注與某一連通區(qū)域的外圍接觸的并且已經(jīng)具有確定的像素值的像素,并且分別計算黑色像素的數(shù)量和白色像素的數(shù)量。在步驟S108中互相比較黑色和白色像素的數(shù)量,并且當(dāng)黑色像素的數(shù)量更大,則在步驟S110登記整個連通區(qū)域為黑色像素。在另一種情況下,則在S109登記整個連通區(qū)域為白色像素。在步驟S111,為所有連通區(qū)域重復(fù)上述操作,并且最后在步驟S112生成二值圖像,并在步驟S113輸出該二值圖像。
根據(jù)上述方法,能夠從二值化邊緣圖中識別和去除出現(xiàn)在背景中由連通區(qū)域形成的長線條。但是,在二值化之后的邊緣圖中,彼此靠近的文本行(text row)也由可能形成長連通區(qū)域。在這種情況下,根據(jù)上面所述的方法,將文本從靠近的文本行中分離出來并不容易,并且有可能將整個靠近的文本行當(dāng)作背景而被忽略。然而這些文本行卻恰恰是需要的并且不應(yīng)該僅僅是簡單的去除。因此,如果采用現(xiàn)有技術(shù)中上面描述的這些方法對具有復(fù)雜背景的掃描文檔圖像進行二值化和處理,則有可能丟失有用的文本。

發(fā)明內(nèi)容有鑒于此,本發(fā)明的目的是提供一種從具有復(fù)雜背景的文檔圖像中提取文本的裝置、一種從具有復(fù)雜背景的文檔圖像中提取文本的方法、計算機程序及其存儲介質(zhì),以便克服現(xiàn)有技術(shù)中存在的上述缺陷。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供一種從具有復(fù)雜背景的文檔圖像中提取文本的方法,包括步驟第一邊緣提取步驟,用于從所述圖像中提取具有比第一對比度閾值高的對比度的邊緣;搜索步驟,用于從所述提取的邊緣中搜索連通的邊緣;第二邊緣提取步驟,用于在所述搜索的連通邊緣的像素數(shù)大于預(yù)定數(shù)目時,提取具有比第二對比度閾值高的對比度的邊緣;其中所述第二對比度閾值比所述第一對比度閾值大。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供一種從具有復(fù)雜背景的文檔圖像中提取文本的方法,包括步驟調(diào)整步驟,用于調(diào)整對比度閾值;文本區(qū)域確定步驟,用于根據(jù)所述調(diào)整的對比度閾值確定文本區(qū)域;其中所述調(diào)整步驟包括目標區(qū)域確定步驟,用于從目標區(qū)域中提取具有比所述對比度閾值高的對比度的邊緣、從所述提取的邊緣中搜索連通的邊緣、以及確定覆蓋所述搜索的連通邊緣的區(qū)域是否是新的目標區(qū)域;其中所述調(diào)整步驟在所述確定的新目標區(qū)域大于預(yù)定尺寸時加大所述對比度閾值,并且在所述確定的新目標區(qū)域小于或等于所述預(yù)定尺寸時結(jié)束調(diào)整所述對比度閾值;以及其中所述文本區(qū)域確定步驟確定相應(yīng)于調(diào)整已經(jīng)結(jié)束的對比度閾值的目標區(qū)域為文本區(qū)域。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的再一方面,提供一種從具有復(fù)雜背景的文檔圖像中提取文本的裝置,包括第一邊緣提取部件,用于從所述圖像中提取具有比第一對比度閾值高的對比度的邊緣;搜索部件,用于從所述提取的邊緣中搜索連通的邊緣;第二邊緣提取部件,用于在所述搜索的連通邊緣的像素數(shù)大于預(yù)定數(shù)目時,提取具有比第二對比度閾值高的對比度的邊緣;其中所述第二對比度閾值比所述第一對比度閾值大。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的又一方面,提供一種從具有復(fù)雜背景的文檔圖像中提取文本的裝置,包括調(diào)整部件,用于調(diào)整對比度閾值;文本區(qū)域確定部件,用于根據(jù)所述調(diào)整的對比度閾值確定文本區(qū)域;其中所述調(diào)整部件包括目標區(qū)域確定部件,用于從目標區(qū)域中提取具有比所述對比度閾值高的對比度的邊緣、從所述提取的邊緣中搜索連通的邊緣、以及確定覆蓋所述搜索的連通邊緣的區(qū)域是否是新的目標區(qū)域;其中所述調(diào)整部件在所述確定的新目標區(qū)域大于預(yù)定尺寸時加大所述對比度閾值,并且在所述確定的新目標區(qū)域小于或等于所述預(yù)定尺寸時結(jié)束調(diào)整所述對比度閾值;以及其中所述文本區(qū)域確定部件確定相應(yīng)于調(diào)整已經(jīng)結(jié)束的對比度閾值的目標區(qū)域為文本區(qū)域。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明的再一方面,提供一種從具有復(fù)雜背景的文檔圖像中提取文本的裝置,包括邊緣圖計算單元,用于計算文檔圖像的邊緣圖;長背景連通邊緣去除單元,用于將邊緣圖計算單元所計算的邊緣圖中的邊緣分成“正邊緣”和“負邊緣”兩類、搜索由相同類型的邊緣構(gòu)成的連通邊緣、以及去除比預(yù)定閾值長的由相同類型的邊緣構(gòu)成的連通邊緣;邊緣圖重計算單元,用于在由相同類型的邊緣構(gòu)成的長連通邊緣已經(jīng)被長背景連通邊緣去除單元去除的邊緣圖中搜索由兩類邊緣構(gòu)成的連通邊緣、并針對比第二預(yù)定閾值長的由兩類邊緣構(gòu)成的連通邊緣的邊界框重計算局部邊緣圖;文本圖標記單元,用于將連通邊緣劃分為三種類型“正常文本”、“反轉(zhuǎn)文本”和“背景”并生成標記圖,其中將“正常文本”連通邊緣的前景像素標記為“正常文本”,將“反轉(zhuǎn)文本”連通邊緣的前景像素標記為“反轉(zhuǎn)文本”,以及將剩余像素標記為“背景”;以及文本連通邊緣搜索和合并單元,用于搜索文本圖標記單元所生成的標記圖上由具有相同標記的像素形成的連通邊緣并將該連通邊緣形成文本行。
另外,本發(fā)明還提供用于實施上述從具有復(fù)雜背景的文檔圖像中提取文本的方法的計算機程序。
此外,還提供其上記錄有用于實施上述從具有復(fù)雜背景的文檔圖像中提取文本的方法的計算機程序代碼的至少一種計算機可讀記錄介質(zhì)的計算機程序產(chǎn)品。
本發(fā)明的其它目的、特征和優(yōu)點將通過結(jié)合附圖和下面的描述變得更加清楚,在本發(fā)明的整個附圖中,相似的附圖標記表示相同或類似的部分。
包含在本說明書中并作為本說明書的組成部分的附圖示出了本發(fā)明的實施例,并且結(jié)合下面的描述闡述了本發(fā)明的原理。其中圖1是可以用于本發(fā)明的計算機系統(tǒng)的方框圖;圖2示出根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的方法的流程圖;圖3示出邊緣分類和去除長背景邊緣連通區(qū)域的結(jié)果的示例;圖4示出根據(jù)本發(fā)明使用連通區(qū)域尺寸的反饋進行局部邊緣圖重計算的方法的流程圖;圖5示出根據(jù)本發(fā)明通過使用連通區(qū)域尺寸的反饋進行邊緣圖重計算所獲得的去除文本附近的背景干擾的結(jié)果示例;圖6和圖7示出使用本發(fā)明的方法所獲得的文本提取的結(jié)果;圖8示出根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的方法的典型應(yīng)用;圖9示出根據(jù)本發(fā)明的實施例的從具有復(fù)雜背景的文檔圖像中提取文本的裝置的方框圖;以及圖10示出現(xiàn)有技術(shù)中所公開的圖像處理方法的流程圖。
具體實施方式為了更加透徹地理解本發(fā)明,下面的具體描述將給出本發(fā)明的許多具體細節(jié)。然而,本領(lǐng)域的普通技術(shù)人員應(yīng)該知道本發(fā)明并不局限于所給出的具體細節(jié)。
計算機系統(tǒng)示例本發(fā)明的方法能夠在任何一種圖像處理設(shè)備中實施,例如,個人計算機(PC)、筆記本電腦、或者嵌在照相機、視頻攝像機、掃描儀等等中的單片微處理器(SCM)。對于本領(lǐng)域的普通技術(shù)人員來說,能夠非常容易地通過軟件、硬件、和/或固件實現(xiàn)本發(fā)明。還應(yīng)該指出的是,為了實施本發(fā)明的方法的任意一個步驟或者這些步驟的組合、或者組件的任意組合,對于本領(lǐng)域的普通技術(shù)人員來說,顯然可能會需要使用I/O設(shè)備、存儲設(shè)備、諸如CPU的微處理器等等。在下面的描述以及本發(fā)明的方法中將不再重復(fù)提及這些設(shè)備,盡管實際上可能會用到它們。
作為上面提到的圖像處理設(shè)備,圖1中所示的方框圖示出可能會在本發(fā)明中使用的典型計算機系統(tǒng)的一個具體示例。應(yīng)該指出的是,盡管圖1示出了計算機系統(tǒng)的各種組成部件,但是并不試圖表示任何具體的結(jié)構(gòu)或連接這些部件的具體方式,這是由于這些細節(jié)對于本發(fā)明來說并不重要。還應(yīng)該指出的是,具有更少或更多部件的網(wǎng)絡(luò)計算機及其它數(shù)據(jù)處理系統(tǒng),也可以應(yīng)用到本發(fā)明中。
如圖1所示,作為數(shù)據(jù)處理系統(tǒng)形式的計算機系統(tǒng)包括總線101,與微處理器102、ROM 104、易失性RAM 105以及非易失性存儲器106相連接。微處理器102可以是Intel公司的Pentium微處理器,連接到高速緩沖存儲器103,如圖1中的例子所示??偩€101將這些各種部件互連,并且將這些部件高速緩沖存儲器103、ROM 104、易失性RAM 105以及非易失性存儲器106連接到顯示控制器和顯示設(shè)備107、以及諸如輸入/輸出(I/O)設(shè)備的外圍設(shè)備,比如鼠標、鍵盤、調(diào)制解調(diào)器、網(wǎng)絡(luò)接口、打印機,以及其它本領(lǐng)域公知的設(shè)備。通常輸入/輸出設(shè)備109通過輸入/輸出控制器108連接到系統(tǒng)上。易失性RAM 105典型地為動態(tài)RAM(DRAM),需要連續(xù)的電源以便刷新或保持存儲器中的數(shù)據(jù)。非易失性存儲器106典型地為硬盤驅(qū)動器、磁光盤驅(qū)動器、光盤驅(qū)動器、DVD RAM或其它類型的存儲系統(tǒng),能夠在電源從系統(tǒng)中移除后也能保持數(shù)據(jù)。通常,非易失性存儲器也可以是隨機存取存儲器,盡管這不是必須的。雖然圖1示出非易失性存儲器是直接連接到數(shù)據(jù)處理系統(tǒng)的其它部件上的本地設(shè)備,但是應(yīng)該指出的是,本發(fā)明也可以使用遠離系統(tǒng)的非易失性存儲器,例如通過諸如調(diào)制解調(diào)器的網(wǎng)絡(luò)接口或以太網(wǎng)接口連接到數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò)存儲設(shè)備。總線101可以包括各種橋接器、控制器、和/或適配器相互連接的一種或多種總線,這在本技術(shù)領(lǐng)域
中是公知的。在一個實施例中,I/O控制器108包括用于控制USB(通用串行總線)外圍設(shè)備的USB適配器。
從具有復(fù)雜背景的文檔圖像中提取文本的方法及其裝置在根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的方法及其裝置中,邊緣信息用于提取文本以便克服背景邊緣的干擾,并且采用了以下新穎的操作1)根據(jù)邊緣分類去除邊緣圖中由背景對象或非??拷奈谋拘纬傻拈L連通區(qū)域(即,長背景邊緣連通區(qū)域);2)使用邊緣連通區(qū)域尺寸的反饋重計算邊緣圖;3)根據(jù)邊緣連通區(qū)域分類標記文本圖。
這里,連通區(qū)域(connected component)指的是覆蓋相連區(qū)域的區(qū)域,并且邊緣分類指的是將邊緣像素分成正邊緣和負邊緣兩類,這將在下文中進行詳細描述。邊緣圖指的是僅包括對象的邊緣像素的圖像,而邊緣連通區(qū)域尺寸的反饋則可以被認為是一種類型的反饋,使用該反饋可以確定是否需要對邊緣圖進行重計算。
根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的方法一般地包括以下步驟(1)計算邊緣圖;(2)將邊緣分成“正邊緣”和“負邊緣”兩類并搜索由相同類型的邊緣形成的連通區(qū)域(CC),如果由相同類型的邊緣形成的連通區(qū)域長到一定程度,則去除其邊緣像素;(3)搜索由兩種類型的邊緣形成的連通區(qū)域(即,邊緣連通區(qū)域),如果由兩種類型的邊緣形成的連通區(qū)域太大,則重計算其邊界框(bounding box)的局部邊緣圖并再次搜索連通區(qū)域;(4)將連通區(qū)域分成三種類型“正常文本”、“反轉(zhuǎn)文本”和“背景”,并且由此生成標記圖,其中,將“正常文本”連通區(qū)域的前景像素標記為“正常文本”,將“反轉(zhuǎn)文本”連通區(qū)域的前景像素標記為“反轉(zhuǎn)文本”,并且將余下的像素標記為“背景”;(5)在標記圖上搜索由具有相同標記的像素形成的連通區(qū)域(即,文本連通區(qū)域)并將該連通區(qū)域形成文本行。
下面,將參照附圖詳細描述根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的方法和從具有復(fù)雜背景的文檔圖像中提取文本的裝置的具體實施例。圖2示出根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的方法的流程圖。
如圖2所示,在輸入圖像之后,在步驟1中通過對初始圖像執(zhí)行Sobel運算來計算邊緣圖,然后對梯度圖像進行二值化。
之后,在步驟2中,根據(jù)邊緣分類將長背景邊緣連通區(qū)域去除。
在這一步驟中,對邊緣圖進行連通區(qū)域分析。對于從具有復(fù)雜背景的圖像中計算的邊緣圖來說,存在兩種類型的連通區(qū)域可能極大地干擾連通區(qū)域分析處理,即,由長線條的邊緣形成的連通區(qū)域以及由彼此非??拷奈谋具吘壭纬傻南嘤|連通區(qū)域。
上述兩種類型的連通區(qū)域可能出現(xiàn)在由文本邊緣形成的連通區(qū)域的周圍,或者甚至與由文本邊緣形成的連通區(qū)域相接觸,這將嚴重干擾連通區(qū)域分析。因此,非常希望找到一種方法在進行連通區(qū)域分析之前將它們?nèi)コ榇四康?,在本發(fā)明中采用邊緣分類的方法。
根據(jù)本發(fā)明的該邊緣分類方法,將邊緣按照其梯度方向分成“正邊緣”和“負邊緣”兩類。假定P0是當(dāng)前邊緣像素的灰度等級,Pneighbor是其8個相鄰像素的灰度等級,則當(dāng)前邊緣像素的類型按照下式(1)來確定 在進行邊緣分類之后,將分別獨立地搜索正邊緣連通區(qū)域和負邊緣連通區(qū)域。如果這些連通區(qū)域中的任意一個比預(yù)定閾值比如100長,則將其看作背景連通區(qū)域并將其從邊緣圖中去除。在該操作之后,已經(jīng)將屬于長線條的邊緣去除。另外,靠近文本的接觸邊緣也已經(jīng)去除,由此可以將余下的邊緣分離開來。圖3示出邊緣分類和去除長背景邊緣連通區(qū)域的結(jié)果的示例。
從圖3所示的結(jié)果可以看出,根據(jù)本發(fā)明的方法,不僅能夠去除長線條的干擾,而且也能夠去除靠近的文本之間的干擾。
去掉長線條形成的連通區(qū)域比較容易實現(xiàn),并且已經(jīng)提出了多種方法,例如上文中的日本專利申請公開文本No.JP-A-2000-20714所描述的方法。但是,在邊緣圖中,靠近的文字行也會形成一個長的連通區(qū)域。文字行是我們要提取的目標,他們不能被簡單地就去掉了。,在對邊緣分類后,文字的附近區(qū)域會產(chǎn)生兩種邊緣連通區(qū)域,一種是外邊緣連通區(qū)域,一種是內(nèi)邊緣連通區(qū)域,如圖3中所示??梢钥闯鐾膺吘夁B通區(qū)域很長,而內(nèi)邊緣連通區(qū)域相對較短。如果把長的外邊緣連通區(qū)域去掉后,剩下的內(nèi)邊緣連通區(qū)域仍然能形成文字的輪廓,而這些輪廓可用來做后續(xù)的邊緣分析。
在根據(jù)如上所述的步驟2,基于邊緣分類的方法將背景對象和非常靠近的文本形成的長連通區(qū)域從邊緣圖中去除之后,將在步驟3使用連通區(qū)域尺寸的反饋重計算邊緣圖。
在去除長背景邊緣連通區(qū)域之后,再次搜索由兩種類型的邊緣形成的連通區(qū)域(此時不再需要區(qū)分“正邊緣”和“負邊緣”)。
由于假定將基于邊緣的文本提取方法應(yīng)用到尺寸小于60像素的文本,因此可以將大于60像素的連通區(qū)域丟棄(連通區(qū)域尺寸通常根據(jù)連通區(qū)域的邊界框的較短的邊確定)。但是在具有復(fù)雜背景的圖像中,文本的邊緣和背景的邊緣彼此接觸,這有可能形成尺寸大于60像素的連通區(qū)域。由此必須處理這種情形。通過調(diào)整每一個較大連通區(qū)域的邊界框中的邊緣閾值,可以去掉一些具有相對較小對比度的邊緣像素(這些邊緣應(yīng)該屬于背景對象)。針對此處理的流程圖和示例分別示于圖4和圖5中。
圖4示出根據(jù)本發(fā)明使用連通區(qū)域尺寸的反饋進行局部邊緣圖重計算的方法的流程圖。
首先,在步驟S41中,在輸入的邊緣圖中不區(qū)分負邊緣和正邊緣而再次搜索由兩種類型的邊緣形成的連通區(qū)域。
然后,在步驟S42,將連通區(qū)域的像素數(shù)與預(yù)定閾值比如60像素進行比較,以便確定靠近該連通區(qū)域的邊緣圖是否需要重新進行計算。如果該連通區(qū)域的像素數(shù)小于60像素,則處理結(jié)束并返回到圖2中的步驟4,繼續(xù)下面的處理。
另一方面,如果在步驟S42中確定該連通區(qū)域的像素數(shù)不小于所述預(yù)定閾值,則意味著該連通區(qū)域有可能屬于背景并應(yīng)該被丟棄,處理流程前進到步驟S43。
在步驟S43中,將閾值增大預(yù)訂值,比如20,以便重計算局部邊緣圖并去除復(fù)雜背景的干擾。
然后,在步驟S44中,使用新的閾值再次二值化相應(yīng)的梯度塊,并將單個字符從復(fù)雜背景中分離出來。
之后,在步驟S45中判斷是否所有的連通區(qū)域的像素數(shù)都小于60像素。如果是,則處理流程前進到圖2的步驟4,繼續(xù)下面的處理。
否則,如果不是所有的連通區(qū)域的像素數(shù)都小于60像素,則處理流程前進到步驟S46,繼續(xù)搜索像素數(shù)大于60像素的其它連通區(qū)域。然后,處理流程返回到步驟S46并繼續(xù)處理此種像素數(shù)大于60像素的連通區(qū)域。
根據(jù)本發(fā)明通過使用連通區(qū)域尺寸的反饋進行邊緣圖重計算所獲得的去除文本附近的背景干擾的結(jié)果示例示于圖5。在圖5所示的示例中,深黑矩形塊的大連通區(qū)域邊界框的邊緣將需要重新進行計算,而淺顏色的矩形塊是小連通區(qū)域的邊界框并且無需重新計算其邊緣圖。
對于上述的步驟3,也可以使用現(xiàn)有技術(shù)中合適的二值化方法來替代,但對整副圖像而言,通常很難找到一個合適的閾值。通過使用邊緣連通區(qū)域尺寸的反饋,可以把目標定位在連通區(qū)域覆蓋的區(qū)域,在這些區(qū)域里,可以利用區(qū)域的局部信息而不是全局信息來獲得期望的文字。
此外,在局部區(qū)域里背景和文字通常有不同的對比度。不合適的閾值選擇會導(dǎo)致文字和背景的邊緣粘連在一起。而根據(jù)上面描述的步驟通過調(diào)整該區(qū)域的邊緣閾值并重計算邊緣圖,背景對象的邊緣和期望文字的邊緣很容易就分開了。一旦分開,也很容易通過邊緣分析的方法把背景對象扔掉,這比二值化的方法實現(xiàn)起來更簡單。而且,通過對邊緣圖進行重新計算,也可以容易地確定文字是正常還是反轉(zhuǎn),而正確的判斷有利于后續(xù)的文字行合并。
在此步驟執(zhí)行之后,已經(jīng)將大部分屬于背景對象的邊緣像素去除,而將屬于文本的那些邊緣像素留了下來。如此,單個的字符很容易從背景中分離出來,這將極大地幫助準確定位文本。
現(xiàn)在返回到圖2,在步驟3中使用邊緣連通區(qū)域尺寸的反饋重計算局部邊緣圖之后,處理流程前進到步驟4。
在步驟4中,根據(jù)邊緣連通區(qū)域分類標記文本圖。在該步驟中,將在前述步驟中得到的邊緣連通區(qū)域分成“正常文本”、“反轉(zhuǎn)文本”和“背景”三種類型。然后生成標記圖,其中“正常文本”連通區(qū)域的前景像素標記為“正常文本”,“反轉(zhuǎn)文本”連通區(qū)域的前景像素標記為“反轉(zhuǎn)文本”,以及剩余像素標記為“背景”。
由此,在所述標記圖上存在三種類型的像素,“正常文本”、“反轉(zhuǎn)文本”和“背景”。該標記圖將有助于將具有類似屬性(即,“正常文本”和“反轉(zhuǎn)文本”)的字符合并為文本行,并且將非文本區(qū)域丟棄。此外,標記圖將有助于更好地二值化文本行,這將在下一步驟5中得到。
然后,在步驟5中,搜索文本連通區(qū)域并將其合并成行。在標記圖上,搜索由具有相同標記的像素形成的連通區(qū)域(即,文本連通區(qū)域)并將其合并成行。主要基于以下兩點而將文本連通區(qū)域合并成行。第一,標記文本圖不能用作最后的二值化圖像,這是因為可能會丟失一些文本并且還可能存在大量噪聲。通過將文本連通區(qū)域形成為行能夠方便地發(fā)現(xiàn)一些丟失的文本并去除一些噪聲的影響。第二,前面濾波文本邊緣連通區(qū)域的操作并不完全確信,這是因為僅僅使用其自身的特征很難判斷連通區(qū)域是否為文本。但是對于文本行來說則非常容易,因為很容易找到更加有效的特征來區(qū)分文本行。
現(xiàn)有技術(shù)中已經(jīng)公開了多種文本行形成方法,在本發(fā)明中采用其中之一,包括如下所述的步驟。
步驟S51在文本圖像的邊緣圖上查找具有相同標記的連通區(qū)域。
步驟S52合并交叉的連通區(qū)域。
步驟S53將非文本連通區(qū)域丟棄。
步驟S54使用近連通區(qū)域(close connected component)形成行種子,并且合并其它連通區(qū)域為行。
步驟S55使用遠連通區(qū)域(far connected component)形成行種子,并且合并步驟S54所余下的連通區(qū)域為行。
步驟S56使用相同的連通區(qū)域形成行種子,并且合并步驟S55所余下的連通區(qū)域為行。
步驟S57判斷每一個合并的行是否為真正的文本行。
在經(jīng)過上述處理之后,可以從具有復(fù)雜背景的圖像中提取清晰的文本。圖6和圖7示出使用本發(fā)明的文本方法所獲得的文本提取的結(jié)果。
根據(jù)本發(fā)明的文本提取方法主要用于提取具有復(fù)雜背景的圖像中的文本,它可以應(yīng)用到許多領(lǐng)域中,例如OCR(光學(xué)字符識別)中的預(yù)處理、基于文本的視頻檢索、以及文檔圖像壓縮等等。
圖8示出了一種典型應(yīng)用,其中根據(jù)本發(fā)明的基于邊緣的文本提取方法首先用于處理彩色文檔圖像。然后,使用光學(xué)字符識別方法對二值化文本行進行處理,并且輸出識別后的字符。
下面將結(jié)合附圖描述根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的裝置。圖9示出根據(jù)本發(fā)明的一個實施例的從具有復(fù)雜背景的文檔圖像中提取文本的裝置的方框圖。
如圖9所示,根據(jù)本發(fā)明的該實施例的從具有復(fù)雜背景的文檔圖像中提取文本的裝置包括邊緣圖計算單元901、長背景連通區(qū)域去除單元902、邊緣圖重計算單元903、文本圖標記單元904、以及文本連通區(qū)域搜索和合并單元905。
邊緣圖計算單元901計算輸入文檔圖像的邊緣圖,并且將所計算的邊緣圖輸出到長背景連通區(qū)域去除單元902。
長背景連通區(qū)域去除單元902將邊緣圖計算單元901所計算的邊緣圖中的邊緣分成“正邊緣”和“負邊緣”兩類,并且搜索由相同類型的邊緣構(gòu)成的連通區(qū)域(Conneeted Component,CC)。如果由相同類型的邊緣構(gòu)成的連通區(qū)域長到一定程度,則長背景連通區(qū)域去除單元902去除該連通區(qū)域。
邊緣圖重計算單元903在由相同類型的邊緣構(gòu)成的長連通區(qū)域已經(jīng)被長背景連通區(qū)域去除單元902去除的邊緣圖中搜索由兩類邊緣構(gòu)成的連通區(qū)域(即邊緣連通區(qū)域)。如果由兩種類型的邊緣構(gòu)成的連通區(qū)域的尺寸達到一定程度,則邊緣圖重計算單元903重計算其邊界框(bounding box)的局部邊緣圖并再次搜索連通區(qū)域。
在邊緣圖重計算單元903重計算邊緣圖之后,文本圖標記單元904將連通區(qū)域劃分為三種類型“正常文本”、“反轉(zhuǎn)文本”和“背景”并生成標記圖。在文本圖標記單元904生成的標記圖中,將“正常文本”連通區(qū)域的前景像素標記為“正常文本”,將“反轉(zhuǎn)文本”連通區(qū)域的前景像素標記為“反轉(zhuǎn)文本”,以及將剩余像素標記為“背景”。
文本連通區(qū)域搜索和合并單元905搜索文本圖標記單元904所生成的標記圖上由具有相同標記的像素形成的連通區(qū)域(即文本連通區(qū)域),并將該連通區(qū)域形成文本行。
在根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的裝置中包括的上述邊緣圖計算單元901、長背景連通區(qū)域去除單元902、邊緣圖重計算單元903、文本圖標記單元904、以及文本連通區(qū)域搜索和合并單元905所執(zhí)行的詳細處理過程分別與參照圖2所描述的步驟1至5中所描述的相同,由此省略其詳細描述。
另外,本領(lǐng)域的技術(shù)人員應(yīng)該理解,根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的裝置還應(yīng)該包括用于輸入文檔圖像的輸入單元、以及用于輸出根據(jù)本發(fā)明的上述方法和裝置文本被提取后的二值化文本的輸出單元。
顯然,本領(lǐng)域的普通技術(shù)人員還應(yīng)該理解根據(jù)本發(fā)明的其它實施例的從具有復(fù)雜背景的文檔圖像中提取文本的裝置也可以實施為包括第一邊緣提取部件,用于從所述圖像中提取具有比第一對比度閾值高的對比度的邊緣;搜索部件,用于從所述提取的邊緣中搜索連通的邊緣;以及第二邊緣提取部件,用于在所述搜索的連通邊緣的像素數(shù)大于預(yù)定數(shù)目時,提取具有比第二對比度閾值高的對比度的邊緣;其中所述第二對比度閾值比所述第一對比度閾值大。
在根據(jù)本發(fā)明的一個優(yōu)選實施例中,在所述搜索的連通邊緣的像素數(shù)小于或等于所述預(yù)定數(shù)目時,第二邊緣提取部件確定所述搜索的連通邊緣是文本邊緣。
此外,在所述搜索的連通邊緣的像素數(shù)大于所述預(yù)定數(shù)目時,第二邊緣提取部件僅從所述連通邊緣中提取具有比第二對比度閾值高的對比度的邊緣。
在根據(jù)本發(fā)明的另一個優(yōu)選實施例中,在覆蓋所述連通邊緣的區(qū)域的像素數(shù)大于所述預(yù)定數(shù)目時,第二邊緣提取部件從所述區(qū)域中提取具有比第二對比度閾值高的對比度的邊緣。在這種情況下,根據(jù)本發(fā)明該優(yōu)選實施例的從具有復(fù)雜背景的文檔圖像中提取文本的裝置還包括第二連通邊緣搜索部件,用于從所述第二邊緣提取部件所提取的邊緣中搜索連通邊緣;以及第三邊緣提取部件,用于在所述搜索的連通邊緣的像素數(shù)大于所述預(yù)定數(shù)目時,提取具有比第三對比度閾值高的對比度的邊緣;其中所述第三對比度閾值比所述第二對比度閾值大。
根據(jù)本發(fā)明該實施例的從具有復(fù)雜背景的文檔圖像中提取文本的裝置還可以包括邊緣分類部件,用于根據(jù)下式將邊緣分成“正邊緣”和“負邊緣”兩種類型, 其中P0是當(dāng)前邊緣像素的灰度等級,Pneighbor是其N個相鄰像素的灰度等級;以及邊緣去除部件,用于在覆蓋由相同類型的邊緣構(gòu)成的連通邊緣的區(qū)域的像素數(shù)大于預(yù)定閾值的情況下,將覆蓋所述連通邊緣的區(qū)域作為背景去除。
在根據(jù)本發(fā)明的另一優(yōu)選實施例中,從具有復(fù)雜背景的文檔圖像中提取文本的裝置還包括文本圖標記部件,用于從所提取的邊緣中標記出文本,其中將覆蓋連通邊緣的區(qū)域的前景像素標記為“正常文本”,將覆蓋反轉(zhuǎn)連通邊緣的區(qū)域的前景像素標記為“反轉(zhuǎn)文本”,并將剩余像素標記為“背景”。該從具有復(fù)雜背景的文檔圖像中提取文本的裝置還包括搜索由具有相同標記的像素所形成的文本區(qū)域并將其形成文本行的部件。
此外,根據(jù)本發(fā)明的另一優(yōu)選實施例,另一種從具有復(fù)雜背景的文檔圖像中提取文本的裝置包括調(diào)整部件,用于調(diào)整對比度閾值;文本區(qū)域確定部件,用于根據(jù)所述調(diào)整的對比度閾值確定文本區(qū)域;其中所述調(diào)整部件包括目標區(qū)域確定部件,用于從目標區(qū)域中提取具有比所述對比度閾值高的對比度的邊緣、從所述提取的邊緣中搜索連通的邊緣、以及確定覆蓋所述搜索的連通邊緣的區(qū)域是否是新的目標區(qū)域;其中所述調(diào)整部件在所述確定的新目標區(qū)域大于預(yù)定尺寸時加大所述對比度閾值,并且在所述確定的新目標區(qū)域小于或等于所述預(yù)定尺寸時結(jié)束調(diào)整所述對比度閾值;以及其中所述文本區(qū)域確定部件確定相應(yīng)于調(diào)整已經(jīng)結(jié)束的對比度閾值的目標區(qū)域為文本區(qū)域。
具有上述結(jié)構(gòu)的該從具有復(fù)雜背景的文檔圖像中提取文本的裝置還可以包括邊緣分類部件,用于根據(jù)下式將邊緣分成“正邊緣”和“負邊緣”兩種類型, 其中P0是當(dāng)前邊緣像素的灰度等級,Pneighbor是其N個相鄰像素的灰度等級;以及邊緣去除部件,用于在覆蓋由相同類型的邊緣構(gòu)成的連通邊緣的區(qū)域的像素數(shù)大于預(yù)定閾值的情況下,將覆蓋所述連通邊緣的區(qū)域作為背景去除。
另外,具有上述結(jié)構(gòu)的從具有復(fù)雜背景的文檔圖像中提取文本的裝置還可以包括搜索部件,用于不區(qū)分負邊緣和正邊緣而搜索覆蓋由兩種類型的邊緣構(gòu)成的連通邊緣的區(qū)域;局部邊緣重計算部件,用于如果不區(qū)分負邊緣和正邊緣所搜索的覆蓋由兩種類型的邊緣構(gòu)成的連通邊緣的區(qū)域的像素數(shù)大于第二預(yù)定閾值,則重計算其像素數(shù)大于第二預(yù)定閾值的搜索區(qū)域局部邊緣;以及第二去除部件,用于根據(jù)重計算的局部邊緣去除復(fù)雜背景的干擾。
在上述從具有復(fù)雜背景的文檔圖像中提取文本的裝置的一個優(yōu)選實施例中,局部邊緣重計算部件將二值化閾值增加預(yù)訂值,并且通過使用增加后的二值化預(yù)定閾值二值化其像素數(shù)大于第二預(yù)定閾值的搜索區(qū)域周圍的梯度塊。
在具有上述結(jié)構(gòu)的從具有復(fù)雜背景的文檔圖像中提取文本的裝置還可以包括文本圖標記部件,用于從所提取的邊緣中標記出文本,其中將覆蓋連通邊緣的區(qū)域的前景像素標記為“正常文本”,將覆蓋反轉(zhuǎn)連通邊緣的區(qū)域的前景像素標記為“反轉(zhuǎn)文本”,并將剩余像素標記為“背景”。另外,該從具有復(fù)雜背景的文檔圖像中提取文本的裝置還可以包括搜索由具有相同標記的像素所形成的文本區(qū)域并將其形成文本行的部件。
此外,根據(jù)本發(fā)明的另一優(yōu)選實施例的從具有復(fù)雜背景的文檔圖像中提取文本的裝置還可以實施為包括用于根據(jù)邊緣分類將文檔圖像的邊緣圖中由背景對象或非??拷奈谋拘纬傻拈L連通區(qū)域去除的部件;用于使用邊緣連通區(qū)域尺寸的反饋重計算已經(jīng)去除由背景對象或非常靠近的文本形成的長連通區(qū)域的文本圖像的新邊緣圖的部件;以及用于根據(jù)邊緣連通區(qū)域分類標記文本圖的部件。
根據(jù)本發(fā)明一個優(yōu)選實施例的從具有復(fù)雜背景的文檔圖像中提取文本的裝置還包括用于通過對文檔圖像的初始圖像執(zhí)行Sobel運算來計算文檔圖像的邊緣圖的部件。
在本發(fā)明的一個實施例中,上述用于去除長連通區(qū)域的部件根據(jù)下式將邊緣圖中的邊緣分成“正邊緣”和“負邊緣”兩種類型, 其中P0是當(dāng)前邊緣像素的灰度等級,Pneighbor是其N個相鄰像素的灰度等級。如果由相同類型的邊緣構(gòu)成的任何連通區(qū)域大于預(yù)定閾值,則將其背景連通區(qū)域并從邊緣圖中去除。
最好N等于8并且上述預(yù)定閾值等于100。
在本發(fā)明的另一個實施例中,用于重計算新邊緣圖的部件不區(qū)分負邊緣和正邊緣而搜索由兩種類型的邊緣構(gòu)成的連通區(qū)域。如果不區(qū)分負邊緣和正邊緣所搜索的由兩種類型的邊緣構(gòu)成的連通區(qū)域大于第二預(yù)定閾值,則重計算大于第二預(yù)定閾值的所搜索的連通區(qū)域的局部邊緣圖,并且去除重計算的局部邊緣圖上復(fù)雜背景的干擾。優(yōu)選地,第二預(yù)定閾值等于60。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,用于標記文本圖的部件將邊緣連通區(qū)域分成三種類型“正常文本”、“反轉(zhuǎn)文本”和“背景”,并且由此生成標記圖。其中,將“正常文本”連通區(qū)域的前景像素標記為“正常文本”,將“反轉(zhuǎn)文本”連通區(qū)域的前景像素標記為“反轉(zhuǎn)文本”,并且將余下的像素標記為“背景”。
根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的裝置還包括用于在標記圖上搜索由具有相同標記的像素構(gòu)成的文本連通區(qū)域、并將該文本連通區(qū)域形成文本行的部件。
在本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的裝置的一個優(yōu)選實施例中,用于搜索和形成文本連通區(qū)域的部件d1)在文本圖像的邊緣圖上查找具有相同標記的連通區(qū)域;d2)合并交叉的連通區(qū)域;d3)將非文本連通區(qū)域丟棄;d4)使用近連通區(qū)域(close connected component)形成行種子,并且合并其它連通區(qū)域為行;d5)使用遠連通區(qū)域(farconnected component)形成行種子,并且合并余下的連通區(qū)域為行;d6)使用相同的連通區(qū)域形成行種子,并且合并余下的連通區(qū)域為行;以及d7)判斷每一個合并的行是否為真正的文本行。
除了上述根據(jù)本發(fā)明的方法和裝置的具體實施方案之外,還應(yīng)該指出的是,本發(fā)明的目的也能夠通過在與處理裝置通信的任何一種信息處理設(shè)備上運行程序或一系列程序來實現(xiàn)。所述信息處理設(shè)備及處理裝置可以是本領(lǐng)域公知的任何一種通用設(shè)備。
因此,應(yīng)該指出的是,本發(fā)明包括通過將實現(xiàn)前述實施例功能的軟件程序(與各實施例中的所示流程圖相對應(yīng)的程序)直接或遠端提供給一個系統(tǒng)或裝置、并且由該系統(tǒng)或裝置的計算機讀出并執(zhí)行所提供的程序碼來實現(xiàn)本發(fā)明的情況。在該情況下,形式并不限于程序,只要可以提供程序功能即可。
因此,安裝在計算機中以使用計算機實現(xiàn)本發(fā)明的功能處理的程序碼本身實現(xiàn)本發(fā)明。也就是,本發(fā)明包括用于實現(xiàn)本發(fā)明的功能處理的計算機程序本身。
在這種情況下,程序的形式不受到特定的限制,并且可以使用目標碼、由解釋器執(zhí)行的程序、提供給OS的腳本數(shù)據(jù)等,只要它們具有程序功能即可。
可以使用例如軟盤、硬盤、光盤、磁光盤、MO、CD-ROM、CD-R、CD-RW、磁帶、非易失性存儲卡、ROM、DVD(DVD-ROM、DVD-R)等作為用于提供程序的記錄介質(zhì)。
作為另一種程序提供方法,可以在客戶計算機上使用瀏覽器建立與因特網(wǎng)上的給定主頁的連接,并且可以將經(jīng)過壓縮且包括自動安裝功能的本發(fā)明計算機程序本身或文件從該主頁下載到記錄介質(zhì)如硬盤等,從而提供程序。另外,形成本發(fā)明程序的程序碼可以分成多個文件,并且可以從不同主頁下載這些文件。也就是,本發(fā)明還包括使多個用戶下載用于使用計算機實現(xiàn)本發(fā)明的功能處理的程序文件的WWW服務(wù)器。
另外,存儲本發(fā)明加密程序的存儲介質(zhì)如CD-ROM等可以交付給用戶,已清除預(yù)定條件的用戶可以允許通過因特網(wǎng)從網(wǎng)頁下載對程序解密的密鑰信息,并且可以使用該密鑰信息執(zhí)行加密程序以安裝在計算機上,從而實現(xiàn)本發(fā)明。
前述實施例的功能可以不僅通過由計算機執(zhí)行讀出程序碼而且通過根據(jù)該程序指令由運行在計算機上的OS等執(zhí)行的一些或所有實際處理操作來實現(xiàn)。
而且,在從記錄介質(zhì)讀出的程序?qū)懭朐诠δ軘U展板或單元的存儲器中之后,前述實施例的功能可以通過安置在功能擴展板或功能擴展單元中的CPU等所執(zhí)行的一些或所有實際處理來實現(xiàn),其中,功能擴展板或功能擴展單元插入在計算機中或者連接到計算機。
本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計適于特定用途的帶有各種修改的各種實施例。
權(quán)利要求
1.一種從具有復(fù)雜背景的文檔圖像中提取文本的方法,包括步驟第一邊緣提取步驟,用于從所述圖像中提取具有比第一對比度閾值高的對比度的邊緣;搜索步驟,用于從所述提取的邊緣中搜索連通的邊緣;以及第二邊緣提取步驟,用于在所述搜索的連通邊緣的像素數(shù)大于預(yù)定數(shù)目時,提取具有比第二對比度閾值高的對比度的邊緣;其中所述第二對比度閾值比所述第一對比度閾值大。
2.根據(jù)權(quán)利要求
1所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,其中在所述搜索的連通邊緣的像素數(shù)小于或等于所述預(yù)定數(shù)目時,第二邊緣提取步驟確定所述搜索的連通邊緣是文本邊緣。
3.根據(jù)權(quán)利要求
1所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,其中在所述搜索的連通邊緣的像素數(shù)大于所述預(yù)定數(shù)目時,第二邊緣提取步驟僅從所述連通邊緣中提取具有比第二對比度閾值高的對比度的邊緣。
4.根據(jù)權(quán)利要求
1所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,其中在覆蓋所述連通邊緣的區(qū)域的像素數(shù)大于所述預(yù)定數(shù)目時,第二邊緣提取步驟從所述區(qū)域中提取具有比第二對比度閾值高的對比度的邊緣。
5.根據(jù)權(quán)利要求
2所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,還包括步驟第二連通邊緣搜索步驟,用于從所述第二邊緣提取步驟所提取的邊緣中搜索連通邊緣;以及第三邊緣提取步驟,用于在所述搜索的連通邊緣的像素數(shù)大于所述預(yù)定數(shù)目時,提取具有比第三對比度閾值高的對比度的邊緣;其中所述第三對比度閾值比所述第二對比度閾值大。
6.根據(jù)權(quán)利要求
1所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,還包括步驟邊緣分類步驟,用于根據(jù)下式將邊緣分成“正邊緣”和“負邊緣”兩種類型, 其中P0是當(dāng)前邊緣像素的灰度等級,Pneighbor是其N個相鄰像素的灰度等級;以及邊緣去除步驟,用于在覆蓋由相同類型的邊緣構(gòu)成的連通邊緣的區(qū)域的像素數(shù)大于預(yù)定閾值的情況下,將覆蓋所述連通邊緣的區(qū)域作為背景去除。
7.根據(jù)權(quán)利要求
1所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,還包括文本圖標記步驟,用于從所提取的邊緣中標記出文本,其中將覆蓋連通邊緣的區(qū)域的前景像素標記為“正常文本”,將覆蓋反轉(zhuǎn)連通邊緣的區(qū)域的前景像素標記為“反轉(zhuǎn)文本”,并將剩余像素標記為“背景”。
8.根據(jù)權(quán)利要求
7所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,還包括搜索由具有相同標記的像素所形成的文本區(qū)域并將其形成文本行的步驟。
9.一種從具有復(fù)雜背景的文檔圖像中提取文本的方法,包括步驟調(diào)整步驟,用于調(diào)整對比度閾值;文本區(qū)域確定步驟,用于根據(jù)所述調(diào)整的對比度閾值確定文本區(qū)域;其中所述調(diào)整步驟包括目標區(qū)域確定步驟,用于從目標區(qū)域中提取具有比所述對比度閾值高的對比度的邊緣、從所述提取的邊緣中搜索連通的邊緣、以及確定覆蓋所述搜索的連通邊緣的區(qū)域是否是新的目標區(qū)域;其中所述調(diào)整步驟在所述確定的新目標區(qū)域大于預(yù)定尺寸時加大所述對比度閾值,并且在所述確定的新目標區(qū)域小于或等于所述預(yù)定尺寸時結(jié)束調(diào)整所述對比度閾值;以及其中所述文本區(qū)域確定步驟確定相應(yīng)于調(diào)整已經(jīng)結(jié)束的對比度閾值的目標區(qū)域為文本區(qū)域。
10.根據(jù)權(quán)利要求
9所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,還包括步驟邊緣分類步驟,用于根據(jù)下式將邊緣分成“正邊緣”和“負邊緣”兩種類型, 其中P0是當(dāng)前邊緣像素的灰度等級,Pneighbor是其N個相鄰像素的灰度等級;以及邊緣去除步驟,用于在覆蓋由相同類型的邊緣構(gòu)成的連通邊緣的區(qū)域的像素數(shù)大于預(yù)定閾值的情況下,將覆蓋所述連通邊緣的區(qū)域作為背景去除。
11.根據(jù)權(quán)利要求
10所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,還包括步驟不區(qū)分負邊緣和正邊緣而搜索覆蓋由兩種類型的邊緣構(gòu)成的連通邊緣的區(qū)域;如果不區(qū)分負邊緣和正邊緣所搜索的覆蓋由兩種類型的邊緣構(gòu)成的連通邊緣的區(qū)域的像素數(shù)大于第二預(yù)定閾值,則重計算其像素數(shù)大于第二預(yù)定閾值的搜索區(qū)域局部邊緣;以及根據(jù)重計算的局部邊緣去除復(fù)雜背景的干擾。
12.根據(jù)權(quán)利要求
11所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,其中重計算局部邊緣的步驟包括步驟將二值化閾值增加預(yù)訂值;以及通過使用增加后的二值化預(yù)定閾值二值化其像素數(shù)大于第二預(yù)定閾值的搜索區(qū)域周圍的梯度塊。
13.根據(jù)權(quán)利要求
9所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,還包括文本圖標記步驟,用于從所提取的邊緣中標記出文本,其中將覆蓋連通邊緣的區(qū)域的前景像素標記為“正常文本”,將覆蓋反轉(zhuǎn)連通邊緣的區(qū)域的前景像素標記為“反轉(zhuǎn)文本”,并將剩余像素標記為“背景”。
14.根據(jù)權(quán)利要求
13所述的從具有復(fù)雜背景的文檔圖像中提取文本的方法,還包括搜索由具有相同標記的像素所形成的文本區(qū)域并將其形成文本行的步驟。
15.一種從具有復(fù)雜背景的文檔圖像中提取文本的裝置,包括第一邊緣提取部件,用于從所述圖像中提取具有比第一對比度閾值高的對比度的邊緣;搜索部件,用于從所述提取的邊緣中搜索連通的邊緣;以及第二邊緣提取部件,用于在所述搜索的連通邊緣的像素數(shù)大于預(yù)定數(shù)目時,提取具有比第二對比度閾值高的對比度的邊緣;其中所述第二對比度閾值比所述第一對比度閾值大。
16.根據(jù)權(quán)利要求
15所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,其中在所述搜索的連通邊緣的像素數(shù)小于或等于所述預(yù)定數(shù)目時,第二邊緣提取部件確定所述搜索的連通邊緣是文本邊緣。
17.根據(jù)權(quán)利要求
15所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,其中在所述搜索的連通邊緣的像素數(shù)大于所述預(yù)定數(shù)目時,第二邊緣提取部件僅從所述連通邊緣中提取具有比第二對比度閾值高的對比度的邊緣。
18.根據(jù)權(quán)利要求
15所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,其中在覆蓋所述連通邊緣的區(qū)域的像素數(shù)大于所述預(yù)定數(shù)目時,第二邊緣提取部件從所述區(qū)域中提取具有比第二對比度閾值高的對比度的邊緣。
19.根據(jù)權(quán)利要求
16所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,還包括第二連通邊緣搜索部件,用于從所述第二邊緣提取部件所提取的邊緣中搜索連通邊緣;以及第三邊緣提取部件,用于在所述搜索的連通邊緣的像素數(shù)大于所述預(yù)定數(shù)目時,提取具有比第三對比度閾值高的對比度的邊緣;其中所述第三對比度閾值比所述第二對比度閾值大。
20.根據(jù)權(quán)利要求
15所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,還包括邊緣分類部件,用于根據(jù)下式將邊緣分成“正邊緣”和“負邊緣”兩種類型, 其中P0是當(dāng)前邊緣像素的灰度等級,Pneighbor是其N個相鄰像素的灰度等級;以及邊緣去除部件,用于在覆蓋由相同類型的邊緣構(gòu)成的連通邊緣的區(qū)域的像素數(shù)大于預(yù)定閾值的情況下,將覆蓋所述連通邊緣的區(qū)域作為背景去除。
21.根據(jù)權(quán)利要求
15所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,還包括文本圖標記部件,用于從所提取的邊緣中標記出文本,其中將覆蓋連通邊緣的區(qū)域的前景像素標記為“正常文本”,將覆蓋反轉(zhuǎn)連通邊緣的區(qū)域的前景像素標記為“反轉(zhuǎn)文本”,并將剩余像素標記為“背景”。
22.根據(jù)權(quán)利要求
21所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,還包括搜索由具有相同標記的像素所形成的文本區(qū)域并將其形成文本行的部件。
23.一種從具有復(fù)雜背景的文檔圖像中提取文本的裝置,包括調(diào)整部件,用于調(diào)整對比度閾值;文本區(qū)域確定部件,用于根據(jù)所述調(diào)整的對比度閾值確定文本區(qū)域;其中所述調(diào)整部件包括目標區(qū)域確定部件,用于從目標區(qū)域中提取具有比所述對比度閾值高的對比度的邊緣、從所述提取的邊緣中搜索連通的邊緣、以及確定覆蓋所述搜索的連通邊緣的區(qū)域是否是新的目標區(qū)域;其中所述調(diào)整部件在所述確定的新目標區(qū)域大于預(yù)定尺寸時加大所述對比度閾值,并且在所述確定的新目標區(qū)域小于或等于所述預(yù)定尺寸時結(jié)束調(diào)整所述對比度閾值;以及其中所述文本區(qū)域確定部件確定相應(yīng)于調(diào)整已經(jīng)結(jié)束的對比度閾值的目標區(qū)域為文本區(qū)域。
24.根據(jù)權(quán)利要求
23所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,還包括邊緣分類部件,用于根據(jù)下式將邊緣分成“正邊緣”和“負邊緣”兩種類型, 其中P0是當(dāng)前邊緣像素的灰度等級,Pneighbor是其N個相鄰像素的灰度等級;以及邊緣去除部件,用于在覆蓋由相同類型的邊緣構(gòu)成的連通邊緣的區(qū)域的像素數(shù)大于預(yù)定閾值的情況下,將覆蓋所述連通邊緣的區(qū)域作為背景去除。
25.根據(jù)權(quán)利要求
24所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,還包括搜索部件,用于不區(qū)分負邊緣和正邊緣而搜索覆蓋由兩種類型的邊緣構(gòu)成的連通邊緣的區(qū)域;局部邊緣重計算部件,用于如果不區(qū)分負邊緣和正邊緣所搜索的覆蓋由兩種類型的邊緣構(gòu)成的連通邊緣的區(qū)域的像素數(shù)大于第二預(yù)定閾值,則重計算其像素數(shù)大于第二預(yù)定閾值的搜索區(qū)域局部邊緣;以及第二去除部件,用于根據(jù)重計算的局部邊緣去除復(fù)雜背景的干擾。
26.根據(jù)權(quán)利要求
25所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,其中局部邊緣重計算部件將二值化閾值增加預(yù)訂值,并且通過使用增加后的二值化預(yù)定閾值二值化其像素數(shù)大于第二預(yù)定閾值的搜索區(qū)域周圍的梯度塊。
27.根據(jù)權(quán)利要求
23所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,還包括文本圖標記部件,用于從所提取的邊緣中標記出文本,其中將覆蓋連通邊緣的區(qū)域的前景像素標記為“正常文本”,將覆蓋反轉(zhuǎn)連通邊緣的區(qū)域的前景像素標記為“反轉(zhuǎn)文本”,并將剩余像素標記為“背景”。
28.根據(jù)權(quán)利要求
27所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,還包括搜索由具有相同標記的像素所形成的文本區(qū)域并將其形成文本行的部件。
29.一種從具有復(fù)雜背景的文檔圖像中提取文本的裝置,包括邊緣圖計算單元(901),用于計算文檔圖像的邊緣圖;長背景連通邊緣去除單元(902),用于將邊緣圖計算單元(901)所計算的邊緣圖中的邊緣分成“正邊緣”和“負邊緣”兩類、搜索由相同類型的邊緣構(gòu)成的連通邊緣、以及去除比預(yù)定閾值長的由相同類型的邊緣構(gòu)成的連通邊緣;邊緣圖重計算單元(903),用于在由相同類型的邊緣構(gòu)成的長連通邊緣已經(jīng)被長背景連通邊緣去除單元(902)去除的邊緣圖中搜索由兩類邊緣構(gòu)成的連通邊緣、并針對比第二預(yù)定閾值長的由兩類邊緣構(gòu)成的連通邊緣的邊界框重計算局部邊緣圖;文本圖標記單元(904),用于將連通邊緣劃分為三種類型“正常文本”、“反轉(zhuǎn)文本”和“背景”并生成標記圖,其中將“正常文本”連通邊緣的前景像素標記為“正常文本”,將“反轉(zhuǎn)文本”連通邊緣的前景像素標記為“反轉(zhuǎn)文本”,以及將剩余像素標記為“背景”;以及文本連通邊緣搜索和合并單元(905),用于搜索文本圖標記單元(904)所生成的標記圖上由具有相同標記的像素形成的連通邊緣并將該連通邊緣形成文本行。
30.根據(jù)權(quán)利要求
29所述的從具有復(fù)雜背景的文檔圖像中提取文本的裝置,還包括輸入單元,用于輸入文檔圖像;以及輸出單元,用于輸出文本被提取后的二值化文本。
31.一種計算機程序,當(dāng)由計算機執(zhí)行時能夠使計算機執(zhí)行權(quán)利要求
1~8所述的各種動作。
32.一種記錄在至少一種計算機可讀介質(zhì)中的計算機程序產(chǎn)品,包括當(dāng)計算機使用時,使計算機執(zhí)行權(quán)利要求
1~8所述的方法步驟的功能性描述素材。
33.一種計算機程序,當(dāng)由計算機執(zhí)行時能夠使計算機執(zhí)行權(quán)利要求
9~14所述的各種動作。
34.一種記錄在至少一種計算機可讀介質(zhì)中的計算機程序產(chǎn)品,包括當(dāng)計算機使用時,使計算機執(zhí)行權(quán)利要求
9~14所述的方法步驟的功能性描述素材。
專利摘要
本發(fā)明公開一種從具有復(fù)雜背景的文檔圖像中提取文本的裝置、方法、計算機程序及其存儲介質(zhì)。根據(jù)本發(fā)明的從具有復(fù)雜背景的文檔圖像中提取文本的優(yōu)選方法包括步驟第一邊緣提取步驟,用于從所述圖像中提取具有比第一對比度閾值高的對比度的邊緣;搜索步驟,用于從所述提取的邊緣中搜索連通的邊緣;以及第二邊緣提取步驟,用于在所述搜索的連通邊緣的像素數(shù)大于預(yù)定數(shù)目時,提取具有比第二對比度閾值高的對比度的邊緣;其中所述第二對比度閾值比所述第一對比度閾值大。
文檔編號G06K9/32GK1991865SQ200510135744
公開日2007年7月4日 申請日期2005年12月29日
發(fā)明者王艷清, 游亞平, 杜尚鋒 申請人:佳能株式會社導(dǎo)出引文BiBTeX, EndNote, RefMan
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1