專利名稱:面向中文環(huán)境的復(fù)雜場(chǎng)景文本定位方法
技術(shù)領(lǐng)域:
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,涉及圖像文本定位方法,可用于文本自動(dòng)提取與識(shí)別。
背景技術(shù):
自然場(chǎng)景中包含著豐富的文字信息,如商店招牌、道路指示牌和各種警告或提示牌等,如果人們能夠?qū)⑦@些信息提取出來(lái),并做進(jìn)一步處理后將具有很廣闊的應(yīng)用前景。例如可以通過(guò)光學(xué)字符識(shí)別OCR模塊對(duì)文字進(jìn)行識(shí)別,這樣可以實(shí)現(xiàn)對(duì)圖像或視頻的檢索; 或者使用文本-語(yǔ)音轉(zhuǎn)換TTS模塊將文字用聲音的方式恢復(fù)出來(lái),將會(huì)給國(guó)際游客和盲人帶來(lái)很大的方便。在各種不同的需求下,從圖像中對(duì)文本信息進(jìn)行提取就成為了一個(gè)非常具有實(shí)際意義的課題。而文本定位是的文字信息正確提取的前提,是整個(gè)文本信息提取系統(tǒng)的關(guān)鍵部分。所以,研究一種具有高可靠性、高魯棒性的場(chǎng)景文本定位方法具有十分重要的實(shí)際意義。根據(jù)所采用的特征,現(xiàn)有文本定位方法可分為兩類基于區(qū)域的定位方法和基于紋理的定位方法。其中基于區(qū)域的定位方法,可進(jìn)一步分為基于連通域的定位方法和基于邊緣的定位方法。這兩種方法均采用自下而上的方式,首先檢測(cè)出子結(jié)構(gòu),比如連通域或字符邊緣,然后合并這些子結(jié)構(gòu)形成文本區(qū)域?;谶B通域的定位方法定位比較準(zhǔn)確,特別是對(duì)較大的字符,速度也較快,但是當(dāng)文本背景較復(fù)雜時(shí),一些類似文本的物體很難被分類;同時(shí)如何選取合適的閾值進(jìn)行字符連通域的確認(rèn)也是一個(gè)難點(diǎn)?;谶吘墮z測(cè)的定位方法,對(duì)文本背景比較清晰或文本比較密集的圖像具有很好的定位,計(jì)算速度比較快;但是當(dāng)圖像中存在較多強(qiáng)邊緣對(duì)象時(shí),往往會(huì)產(chǎn)生較高的虛警率,準(zhǔn)確率較低?;诩y理的定位方法,認(rèn)為文本是一種特殊的紋理,該方法可以提取不同分辨率圖像中不同尺寸、不同語(yǔ)言和不同字體的文本,具有一定的通用性,但是,它存在計(jì)算量大和定位精度不高的缺點(diǎn)。從上面的分析可知,單獨(dú)采用上述方法中的任意一種,都不能取得滿意的結(jié)果。針對(duì)自然場(chǎng)景的復(fù)雜性,各國(guó)研究者進(jìn)行了各種各樣的嘗試和研究,雖然取得了一定的成果, 但是大多數(shù)方法都是針對(duì)視頻文本或背景復(fù)雜度較低的場(chǎng)景圖像,不能適應(yīng)光照不均勻、 對(duì)比度低和復(fù)雜背景等情況,定位方法的魯棒性較差。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述已有方法的不足,提出了一種面向中文環(huán)境的復(fù)雜場(chǎng)景文本定位方法以實(shí)現(xiàn)在復(fù)雜背景情況下減小定位虛警率,提高定位準(zhǔn)確率的目的。實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是結(jié)合基于邊緣的文本定位方法和基于紋理的文本定位方法的優(yōu)點(diǎn),采用邊緣特征實(shí)現(xiàn)快速有效的文本區(qū)域檢測(cè),對(duì)備選的文本區(qū)域進(jìn)行紋理分析,采用機(jī)器學(xué)習(xí)的方法對(duì)其進(jìn)行驗(yàn)證,其具體步驟包括如下
(1)對(duì)分辨率為1600*1200的原始圖像進(jìn)行下采樣,將其轉(zhuǎn)換為分辨率為400*300 的圖像;(2)對(duì)分辨率為400*300的圖像進(jìn)行彩色邊緣提取,并進(jìn)行灰度化,得到灰度邊緣圖像E;(3)對(duì)灰度邊緣圖像E進(jìn)行自適應(yīng)二值化,得到二值邊緣圖像I 3a)將灰度邊緣圖像E進(jìn)行分塊,塊的大小為10*10 ;3b)采用局部閾值T對(duì)每一分塊進(jìn)行二值化,T的計(jì)算公式為T = k^m+k^s其中,m為灰度邊緣圖像E的全局灰度均值,s為局部灰度方差,Ic1和1 分別為全局均值和局部灰度方差的加權(quán)系數(shù);(4)去除二值邊緣圖像I中長(zhǎng)度大于該圖像寬度一半的直線、長(zhǎng)度小于50的孤立短線和背景中的噪聲點(diǎn),然后對(duì)其進(jìn)行形態(tài)學(xué)處理,將保留下來(lái)的邊緣連接成塊,得到二值圖像C;(5)對(duì)二值圖像C進(jìn)行連通區(qū)域標(biāo)記,得到每個(gè)連通區(qū)域的位置、長(zhǎng)度和寬度信息;然后提取連通域的幾何特征,對(duì)幾何特征建立級(jí)聯(lián)閾值分類器,去除一部分明顯為非字符的連通區(qū)域,得到備選字符連通區(qū)域集合;(6)提取每個(gè)備選字符連通區(qū)域的紋理特征,將其作為BP分類器的輸入,通過(guò)該分類器驗(yàn)證連通區(qū)域是否為字符連通區(qū)域,如果是字符連通區(qū)域則保留下來(lái),否則就去除, 這樣,保留下來(lái)的文字區(qū)域即為定位的文字區(qū)域。為實(shí)現(xiàn)上述目的,本發(fā)明面向中文環(huán)境的復(fù)雜場(chǎng)景文本定位系統(tǒng),包括下采樣模塊,用于對(duì)分辨率為1600*1200的原始圖像進(jìn)行下采樣,將其轉(zhuǎn)換為分辨率為400*300的圖像;邊緣提取模塊,用于對(duì)分辨率為400*300的圖像進(jìn)行彩色邊緣提取,并進(jìn)行灰度化,得到灰度邊緣圖像E ;二值化模塊,用于對(duì)灰度邊緣圖像E進(jìn)行自適應(yīng)二值化,得到二值邊緣圖像,即首先將灰度邊緣圖像E進(jìn)行分塊,塊的大小為10*10,然后采用局部閾值T對(duì)每一分塊進(jìn)行二值化,T的計(jì)算公式為T = k^m+k^s其中,m為灰度邊緣圖像E的全局灰度均值,s為局部灰度方差,Ic1和1 分別為全局均值和局部灰度方差的加權(quán)系數(shù);二值圖像處理模塊,用于去除二值邊緣圖像I中長(zhǎng)度大于該圖像寬度一半的直線、長(zhǎng)度小于50的孤立短線和背景中的噪聲點(diǎn),然后對(duì)其進(jìn)行形態(tài)學(xué)處理,將保留下來(lái)的邊緣連接成塊,得到二值圖像C ;連通分量特征提取及閾值確認(rèn)模塊,用于對(duì)二值圖像C進(jìn)行連通區(qū)域標(biāo)記,得到每個(gè)連通區(qū)域的位置、長(zhǎng)度和寬度信息;然后提取連通域的幾何特征,對(duì)幾何特征建立級(jí)聯(lián)閾值分類器,去除一部分明顯為非字符的連通區(qū)域,得到備選字符連通區(qū)域集合;驗(yàn)證模塊,用于提取每個(gè)備選字符連通區(qū)域的紋理特征,將其作為BP分類器的輸入,通過(guò)該分類器驗(yàn)證連通區(qū)域是否為字符連通區(qū)域,如果是字符連通區(qū)域則保留并作為定位的文字區(qū)域,否則去除。
本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn)(1)本發(fā)明由于將邊緣和紋理特征進(jìn)行了分階段組合,采用邊緣特征實(shí)現(xiàn)了對(duì)所有可能文字區(qū)域的快速檢測(cè);充分利用字符連通分量的各種特征,以及通過(guò)BP網(wǎng)絡(luò)分類器對(duì)備選字符連通分量進(jìn)行驗(yàn)證,不僅提高了在復(fù)雜背景情況下文本定位的準(zhǔn)確率,而且減少了 BP網(wǎng)絡(luò)分類器的負(fù)擔(dān),節(jié)省了時(shí)間開(kāi)銷;(2)本發(fā)明由于考慮圖像的光照不均勻、對(duì)比度較低的因素,對(duì)邊緣灰度圖像采用局部閾值進(jìn)行二值化,保證了在光照較差情況下的文字區(qū)域檢測(cè),增強(qiáng)了本發(fā)明對(duì)光照條件的魯棒性。
圖1為本發(fā)明定位方法的總流程圖;圖2為本發(fā)明中建立級(jí)聯(lián)閾值分類器的子流程圖;圖3為本發(fā)明定位系統(tǒng)的組成框圖;圖4為本發(fā)明實(shí)施方式中使用的測(cè)試原始圖像;圖5為本發(fā)明對(duì)圖4進(jìn)行邊緣提取后的圖像;圖6為本發(fā)明對(duì)圖5進(jìn)行二值化后的圖像;圖7為本發(fā)明對(duì)圖6進(jìn)行連通域分析后的圖像;圖8為本發(fā)明對(duì)圖7經(jīng)過(guò)閾值分類器后的圖像;圖9為本發(fā)明對(duì)圖8經(jīng)過(guò)分類器確認(rèn)后的定位結(jié)果圖。
具體實(shí)施例方式下面將結(jié)合附圖對(duì)本發(fā)明加以詳細(xì)說(shuō)明。本發(fā)明中,其輸入的圖像可以是各種圖像獲取設(shè)備獲取的圖像,例如數(shù)碼相機(jī) DC、帶攝像功能的手機(jī)、帶攝像功能的PDA或者可以是來(lái)自于數(shù)碼攝像機(jī)DV的視頻序列中的一幀等。本發(fā)明方法處理的圖像可以是針對(duì)各種圖像編碼格式,例如JPEG、BMP等。在以下的敘述中,本發(fā)明涉及的參數(shù)學(xué)習(xí)使用的庫(kù)為自建數(shù)據(jù)庫(kù)。由于目前沒(méi)有一個(gè)公開(kāi)的面向中文環(huán)境的場(chǎng)景文本數(shù)據(jù)庫(kù),所以本發(fā)明致力于建立一個(gè)具有5000 10000張圖片的數(shù)據(jù)庫(kù),其中涵蓋了各種類型的復(fù)雜場(chǎng)景文本圖像,圖像中的文字包含中文和英文字符,所以本實(shí)施例是針對(duì)中英文字符進(jìn)行訓(xùn)練得到的參數(shù),但是本發(fā)明方法同樣適合與中文字符具有相似結(jié)構(gòu)的其他各種語(yǔ)言,比如日文,韓文等。下面將參考附圖詳細(xì)介紹本發(fā)明的實(shí)施例。參照?qǐng)D1,本發(fā)明定位方法包括步驟如下步驟1,對(duì)分辨率為1600*1200的原始圖像進(jìn)行下采樣,將其轉(zhuǎn)換為分辨率為 400*300的圖像,如圖4所示。步驟2,文本圖像彩色邊緣提取。通過(guò)有效的文本圖像邊緣提取,能很好的保留文字邊緣,而淡化非文字邊緣,本實(shí)施例中,采用基于文字筆畫(huà)方向的彩色圖像邊緣檢測(cè)算子進(jìn)行邊緣提取,其步驟如下(2a)將任意像素ρ的邊緣值分別在紅色R、綠色G和藍(lán)色B三個(gè)通道中,沿著0、 π /4、π /2和3 π /4的四個(gè)筆畫(huà)方向進(jìn)行計(jì)算,即
F LpR=max {IV-ρ7Ι,P5--Pi I,P4--PoI,P6--P2U
F LpG=max {P3"-ρ7Ι,P5--Pi I,P4--PoI,P6--P2
F LpB=max {P3"-ρ7Ι,P5--Pi I,P4--PoI,P6--P2其中,^^、^;和Epb分別為像素ρ在R、G和B通道中的邊緣值,Pi (i = 0,1,..., 7)表示像素ρ的8鄰域像素,排列方式為從ρ的左上角Ptl開(kāi)始,按照順時(shí)針?lè)较蛞来闻帕校?2b)按照下式計(jì)算像素ρ的灰度邊緣值& Ep = 0. 30EpR+0. 59EpG+0. IIEpb按照上述步驟得到的灰度邊緣圖像如圖5所示。步驟3,對(duì)灰度邊緣圖像的二值化。對(duì)灰度圖像的二值化,關(guān)鍵部分就在于閾值的選取。全局閾值法在圖像和背景灰度相差較明顯時(shí)效果比較突出,但是這種方法往往容易忽略細(xì)節(jié),當(dāng)圖像中存在較多的陰影或者圖像對(duì)比度比較復(fù)雜時(shí)往往很難得到理想的效果。本實(shí)施例中采用局部閾值法,其中Niblack算法是一種比較常用的且簡(jiǎn)單有效的局部動(dòng)態(tài)閾值方法,該方法能有效克服全局閾值法的缺陷,但是,它卻過(guò)分夸大了圖像的細(xì)節(jié),沒(méi)有注意到圖像的整體效果。為了兼顧全局與局部信息,本實(shí)施例將圖像的全局灰度均值和局部鄰域方差進(jìn)行加權(quán)求和得到閾值,其步驟如下(3a)將灰度邊緣圖像進(jìn)行分塊,塊的大小為10*10 ;(3b)采用局部閾值T對(duì)每一分塊進(jìn)行二值化,T的計(jì)算公式為T = k^m+k^s其中,m為灰度邊緣圖像的全局灰度均值,s為局部灰度方差,Ic1和1 分別為全局均值和局部灰度方差的加權(quán)系數(shù);對(duì)灰度邊緣圖像進(jìn)行二值化的結(jié)果如圖6所示。步驟4,對(duì)二值邊緣圖像進(jìn)行處理。在復(fù)雜背景情況下,二值邊緣圖像中通常存在大量的非文本邊緣,諸如水平、垂直直線和孤立噪聲等連通部件,這對(duì)準(zhǔn)確定位文本區(qū)域及后續(xù)處理速度具有較大的影響,本發(fā)明首先去除二值邊緣圖像中長(zhǎng)度大于該圖像寬度一半的直線、長(zhǎng)度小于50的孤立短線及背景噪聲,然后采用形態(tài)學(xué)處理將保留下來(lái)的邊緣連接成塊,如圖7所示,其中紅色矩形框?yàn)闄z測(cè)到的可能文字區(qū)域,藍(lán)色矩形框?yàn)檎嬷?。步驟5,連通域標(biāo)記及確認(rèn)閾值。對(duì)二值圖像采用像素標(biāo)記法先進(jìn)行8連通的區(qū)域分析,得到每個(gè)連通區(qū)域的位置、長(zhǎng)度和寬度信息;然后提取連通域的面積、長(zhǎng)寬比、黑白像素比、邊緣密度和連通域方差 5個(gè)幾何特征,對(duì)幾何特征建立級(jí)聯(lián)閾值分類器,參照?qǐng)D2,其步驟如下(5a)通過(guò)對(duì)200幅場(chǎng)景文本圖片的文字區(qū)域和非文字區(qū)域進(jìn)行分割,建立字符樣本集和非字符樣本集;(5b)對(duì)字符樣本集和非字符樣本集的每個(gè)特征值進(jìn)行統(tǒng)計(jì),獲得可用于區(qū)分字符區(qū)域和非字符區(qū)域的相應(yīng)閾值;根據(jù)所獲得的閾值,采用簡(jiǎn)單的閾值判定規(guī)則構(gòu)建相應(yīng)的閾值分類器,即輸入連通域的特征值在特定的閾值范圍內(nèi),則認(rèn)為是字符連通域,否則就認(rèn)為是非字符連通域;(5c)根據(jù)各個(gè)特征的計(jì)算時(shí)間和排除非字符連通分量的能力,按照連通域的面積、連通域的長(zhǎng)寬比、黑白像素比、邊緣密度和連通域方差的順序?qū)⒏鏖撝捣诸惼饕来芜B接組成級(jí)聯(lián)閾值分類器。采用上述級(jí)聯(lián)閾值分類器后,大量的非文本區(qū)域被去除,如附圖8所示。步驟6,驗(yàn)證備選文本區(qū)域。文字可看作為一種特殊的紋理,對(duì)紋理的提取可采用FFT、DCT、小波變換、和 Gabor濾波器等,其中Gabor濾波器能夠針對(duì)人眼視覺(jué)更加有效的刻畫(huà)紋理信息,所以本實(shí)施例提取每個(gè)備選字符連通區(qū)域的Gabor紋理特征,即將每個(gè)備選字符連通域歸一化為 32 X 32,然后進(jìn)行Gabor濾波,獲得4個(gè)方向和3個(gè)尺度共12個(gè)子圖,對(duì)每幅子圖提取6個(gè)統(tǒng)計(jì)特征作為其紋理特征。將其作為BP分類器的輸入,通過(guò)該分類器驗(yàn)證連通區(qū)域是否為字符連通區(qū)域,如果是字符連通區(qū)域則保留并作為定位的文字區(qū)域,否則去除,定位結(jié)果如圖9所示。參照?qǐng)D3,本發(fā)明的定位系統(tǒng)包括下采樣模塊、邊緣提取模塊、二值化模塊、二值圖像處理模塊、連通分量特征提取及閾值確認(rèn)模塊和驗(yàn)證模塊,其中下采樣模塊,用于對(duì)1600 X 1200的原始圖像進(jìn)行下采樣為400X300的圖像;邊緣提取模塊,用于對(duì)下采樣后的圖像進(jìn)行彩色邊緣提取先將任意像素ρ的邊緣值分別在紅色R、綠色G和藍(lán)色B三個(gè)通道中,沿著O、π /4、π /2和3 π /4的四個(gè)筆畫(huà)方向進(jìn)行計(jì)算,即F LpR=max {IV-ρ7Ι,P5--Pi I,P4--PoI,P6--P2U
F LpG=max {P3"-ρ7Ι,P5--Pi I,P4--PoI,P6--P2
F LpB=max {P3"-ρ7Ι,P5--Pi I,P4--PoI,P6--P2其中,Epe, Epg和Epb分別為像素ρ在R、G和B通道中的邊緣值,Pi (i = 0,1,..., 7)表示像素ρ的8鄰域像素,排列方式為從ρ的左上角Ptl開(kāi)始,按照順時(shí)針?lè)较蛞来闻帕校辉儆?jì)算像素ρ 的灰度邊緣值Ep = 0. 30EpR+0. 59EpG+0. 11EpB。二值化模塊,將灰度邊緣圖像先分為10 X 10小塊,再采用閾值T = k^m+k^s對(duì)二值邊緣圖像進(jìn)行二值化,其中m為圖像的全局均值,s為局部方差,Ic1和1 為加權(quán)系數(shù);二值圖像處理模塊,用于對(duì)二值邊緣圖像進(jìn)行處理,即將背景中長(zhǎng)度大于的該圖像寬度一半的直線、長(zhǎng)度小于50的孤立短線和背景中的噪聲點(diǎn)去除,然后對(duì)其進(jìn)行形態(tài)學(xué)處理,將保留下來(lái)的邊緣連接成塊,形成字符連通集。連通分量特征提取及閾值確認(rèn)模塊,對(duì)二值圖像處理后的二值圖像采用像素標(biāo)記法進(jìn)行八連通的區(qū)域分析,在標(biāo)記各個(gè)連通分量的同時(shí),獲得各連通分量的連通區(qū)域的位置、長(zhǎng)度和寬度信息。本實(shí)施例中把連通域標(biāo)記的所有連通分量稱為字符連通分量集合。 然后采用一個(gè)級(jí)聯(lián)閾值分類器的方法,首先,獲取連通分量的第一個(gè)特征,然后該特征量與閾值相比較判斷是否是字符連通域,如果是,該連通分量被送入下一個(gè)特征獲取器獲取第二個(gè)特征;如果不是,則丟棄,且不計(jì)算后續(xù)特征。如果級(jí)聯(lián)的閾值分類器都判斷連通分量為字符連通分量,則該連通分量就被級(jí)聯(lián)閾值分類器確認(rèn)為字符連通分量。級(jí)聯(lián)的分類器結(jié)構(gòu)有助于提高系統(tǒng)的速度,在提取一個(gè)特征之后,如果其不滿足特定的閾值,則將該連通分量排除,這樣可避免計(jì)算該連通分量級(jí)聯(lián)分類器后面的特征。本實(shí)施例中主要包括的特征有連通區(qū)域的面積、連通區(qū)域的長(zhǎng)寬比、黑白像素比、邊緣密度、連通域方差。以上特征都是在連通域分析時(shí)獲得的,根據(jù)各個(gè)特征的計(jì)算時(shí)間和排除非字符連通分量的能力,排列各個(gè)特征在級(jí)聯(lián)閾值分類器中的先后順序。在本實(shí)施例中其先后順序?yàn)檫B通區(qū)域面積、 連通區(qū)域的長(zhǎng)寬比、黑白像素比、邊緣密度、連通域方差。各個(gè)分類器的閾值確定是通過(guò)對(duì)樣本數(shù)據(jù)庫(kù)中的特征值進(jìn)行統(tǒng)計(jì)得到。通過(guò)這些分類器,可以在測(cè)試庫(kù)上達(dá)到81%的召回率,但是準(zhǔn)確率相對(duì)較低??梢酝ㄟ^(guò)調(diào)整這些閾值來(lái)平衡準(zhǔn)確率和召回率。在經(jīng)過(guò)級(jí)聯(lián)閾值分類器之后,大量的非字符分量被排除,但是仍有一些比較類似字符的非字符連通分量沒(méi)有被排除,所以僅僅使用字符連通分量特征不足以獲得較好的定位效果。
驗(yàn)證模塊,采用3個(gè)尺度4個(gè)方向的Gabor濾波器組,將輸入的大小為32*32的備選文本塊與Gabor函數(shù)進(jìn)行卷積可得不同方向和尺度的子帶,對(duì)每個(gè)子帶提取6個(gè)特征,它們分別是均值、方差、能量、熵、慣量和局部統(tǒng)一性。這樣就可得72個(gè)特征,進(jìn)行歸一化后將其作為BP網(wǎng)絡(luò)的輸入。其中,BP網(wǎng)絡(luò)為包含輸入層、隱含層和輸出層的三層結(jié)構(gòu),輸入層包含72個(gè)輸入神經(jīng)元,隱含層包含M個(gè)神經(jīng)元,輸出層包含1個(gè)神經(jīng)元。在實(shí)施例訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)使用的參數(shù)為學(xué)習(xí)率為0.3,動(dòng)量因子為0.4,訓(xùn)練的正樣本為備選文本區(qū)中的字符連通區(qū)域,負(fù)樣本為樣本庫(kù)中手工獲取的非字符區(qū)域,整個(gè)訓(xùn)練過(guò)程使用的正負(fù)樣本數(shù)均為1000,通過(guò)訓(xùn)練后的分類器對(duì)備選文本區(qū)進(jìn)行確認(rèn),如果是字符區(qū)域則保留并作為定位的文字區(qū)域,否則去除。
權(quán)利要求
1.一種面向中文環(huán)境的復(fù)雜場(chǎng)景文本定位方法,其步驟包括如下(1)對(duì)分辨率為1600*1200的原始圖像進(jìn)行下采樣,將其轉(zhuǎn)換為分辨率為400*300的圖像;(2)對(duì)分辨率為400*300的圖像進(jìn)行彩色邊緣提取,并進(jìn)行灰度化,得到灰度邊緣圖像E ;(3)對(duì)灰度邊緣圖像E進(jìn)行自適應(yīng)二值化,得到二值邊緣圖像I 3a)將灰度邊緣圖像E進(jìn)行分塊,塊的大小為10*10 ;3b)采用局部閾值T對(duì)每一分塊進(jìn)行二值化,T的計(jì)算公式為 T = k^m+k^s其中,m為灰度邊緣圖像E的全局灰度均值,s為局部灰度方差,Ic1和1 分別為全局均值和局部灰度方差的加權(quán)系數(shù);(4)去除二值邊緣圖像中長(zhǎng)度大于該圖像寬度一半的直線、長(zhǎng)度小于50的孤立短線和背景中的噪聲點(diǎn),然后對(duì)其進(jìn)行形態(tài)學(xué)處理,將保留下來(lái)的邊緣連接成塊,得到二值圖像;(5)對(duì)二值圖像C進(jìn)行連通區(qū)域標(biāo)記,得到每個(gè)連通區(qū)域的位置、長(zhǎng)度和寬度信息;然后提取連通域的幾何特征,對(duì)幾何特征建立級(jí)聯(lián)閾值分類器,去除一部分明顯為非字符的連通區(qū)域,得到備選字符連通區(qū)域集合;(6)提取每個(gè)備選字符連通區(qū)域的紋理特征,將其作為BP分類器的輸入,通過(guò)該分類器驗(yàn)證連通區(qū)域是否為字符連通區(qū)域,如果是字符連通區(qū)域則保留并作為定位的文字區(qū)域,否則去除。
2.如權(quán)利要求1所述的方法,其特征在于,步驟(1)所述的將源圖像轉(zhuǎn)換為低分辨率的圖像,是通過(guò)對(duì)原始圖像進(jìn)行下采樣,以減少存儲(chǔ)空間及計(jì)算量;
3.如權(quán)利要求1所述的方法,其特征在于,步驟(2)所述的彩色邊緣提取,采用如下步驟進(jìn)行(1)將任意像素P的邊緣值分別在紅色R、綠色G和藍(lán)色B三個(gè)通道中,沿著0、π/4、 π /2和3 π /4四個(gè)筆畫(huà)方向進(jìn)行計(jì)算,即F LpR=max {IV-ρ7Ι,P5--Pi I,P4--PoI ‘P6--P2UF ijPG=max {P3"-ρ7Ι,P5--Pi I,P4--PoI ‘P6--P21}F LpB=max {P3"-ρ7Ι,P5--Pi I,P4--PoI ‘P6--P21}其中,4Κ、^^Π Epb分別為像素ρ在R、G和B通道中的邊緣值,Pi(i = 0,1,...,7)表示像素P的8鄰域像素,排列方式為從ρ的左上角Ptl開(kāi)始,按照順時(shí)針?lè)较蛞来闻帕校?(2)按照下式可得到像素ρ的灰度邊緣值& Ep = 0. 30EpR+0. 59EpG+0. 11EpB。
4.如權(quán)利要求1所述方法,其特征在于,步驟(5)所述的連通域的幾何特征,包括連通域的面積、連通域的長(zhǎng)寬比、黑白像素比、邊緣密度和連通域方差5種幾何特征。
5.如權(quán)利要求1所述方法,其特征在于,步驟(5)所述的對(duì)幾何特征建立級(jí)聯(lián)閾值分類器,按如下步驟進(jìn)行(5a)通過(guò)對(duì)200幅場(chǎng)景文本圖片的文字區(qū)域和非文字區(qū)域進(jìn)行分割建立字符樣本集和非字符樣本集;(5b)對(duì)字符樣本集和非字符樣本集的每個(gè)特征值進(jìn)行統(tǒng)計(jì),獲得可用于區(qū)分字符區(qū)域和非字符區(qū)域的相應(yīng)閾值;根據(jù)所獲得的閾值,采用簡(jiǎn)單的閾值判定規(guī)則構(gòu)建相應(yīng)的閾值分類器,即輸入連通域的特征值在特定的閾值范圍內(nèi),則認(rèn)為是字符連通域,否則就認(rèn)為是非字符連通域;(5c)根據(jù)各個(gè)特征的計(jì)算時(shí)間和排除非字符連通分量的能力,按照連通域的面積、連通域的長(zhǎng)寬比、黑白像素比、邊緣密度和連通域方差的順序?qū)⒏鏖撝捣诸惼饕来芜B接組成級(jí)聯(lián)閾值分類器。
6.如權(quán)利要求1所述方法,其特征在于,步驟(6)所述的提取每個(gè)備選字符連通區(qū)域的紋理特征,是將每個(gè)備選字符連通域歸一化為32 X 32,然后進(jìn)行Gabor濾波,獲得4個(gè)方向和3個(gè)尺度共12個(gè)子圖,對(duì)每幅子圖提取6個(gè)統(tǒng)計(jì)特征作為其紋理特征。
7.一種面向中文環(huán)境的復(fù)雜場(chǎng)景文本定位系統(tǒng),包括下采樣模塊,用于對(duì)分辨率為1600*1200的原始圖像進(jìn)行下采樣,將其轉(zhuǎn)換為分辨率為400*300的圖像;邊緣提取模塊,用于對(duì)分辨率為400*300的圖像進(jìn)行彩色邊緣提取,并進(jìn)行灰度化,得到灰度邊緣圖像E ;二值化模塊,用于對(duì)灰度邊緣圖像E進(jìn)行自適應(yīng)二值化,得到二值邊緣圖像,即首先將灰度邊緣圖像E進(jìn)行分塊,塊的大小為10*10,然后采用局部閾值T對(duì)每一分塊進(jìn)行二值化, T的計(jì)算公式為T = k^m+k^s其中,m為灰度邊緣圖像E的全局灰度均值,s為局部灰度方差,Ic1和1 分別為全局均值和局部灰度方差的加權(quán)系數(shù);二值圖像處理模塊,用于去除二值邊緣圖像I中長(zhǎng)度大于該圖像寬度一半的直線、長(zhǎng)度小于50的孤立短線和背景中的噪聲點(diǎn),然后對(duì)其進(jìn)行形態(tài)學(xué)處理,將保留下來(lái)的邊緣連接成塊,得到二值圖像C;連通分量特征提取及閾值確認(rèn)模塊,用于對(duì)二值圖像C進(jìn)行連通區(qū)域標(biāo)記,得到每個(gè)連通區(qū)域的位置、長(zhǎng)度和寬度信息;然后提取連通域的幾何特征,對(duì)幾何特征建立級(jí)聯(lián)閾值分類器,去除一部分明顯為非字符的連通區(qū)域,得到備選字符連通區(qū)域集合;驗(yàn)證模塊,用于提取每個(gè)備選字符連通區(qū)域的紋理特征,將其作為BP分類器的輸入, 通過(guò)該分類器驗(yàn)證連通區(qū)域是否為字符連通區(qū)域,如果是字符連通區(qū)域則保留并作為定位的文字區(qū)域,否則去除。
8.如權(quán)利要求7所述系統(tǒng),其特征在于,驗(yàn)證模塊所述的BP分類器,包含輸入層、隱含層和輸出層的3層網(wǎng)絡(luò)結(jié)構(gòu),其中輸入層包含72個(gè)輸入神經(jīng)元,隱含層包含M個(gè)神經(jīng)元, 輸出層包含1個(gè)神經(jīng)元。
全文摘要
本發(fā)明公開(kāi)了一種面向中文環(huán)境的復(fù)雜場(chǎng)景文本定位方法,主要解決現(xiàn)有技術(shù)在復(fù)雜背景下場(chǎng)景文本定位虛警率較高的問(wèn)題。該方法結(jié)合基于邊緣的文本定位方法和基于紋理的文本定位方法的優(yōu)點(diǎn),將邊緣和紋理特征進(jìn)行分階段組合。首先利用邊緣特征進(jìn)行文本區(qū)域的檢測(cè),即對(duì)下采樣后彩色圖像進(jìn)行邊緣提取、二值化處理,采用形態(tài)學(xué)運(yùn)算將字符邊緣連接成塊,對(duì)每個(gè)連通域進(jìn)行特征提取,通過(guò)級(jí)聯(lián)閾值分類器排除大量的非字符連通域,得到備選的字符連通域;然后提取備選字符連通域的紋理特征,通過(guò)BP網(wǎng)絡(luò)分類器進(jìn)一步確認(rèn)是否為字符連通域。本發(fā)明具有在復(fù)雜光照和背景情況下文本定位準(zhǔn)確率高、速度快的優(yōu)點(diǎn),可用于復(fù)雜場(chǎng)景中的文本自動(dòng)提取與識(shí)別。
文檔編號(hào)G06K9/60GK102163284SQ201110088320
公開(kāi)日2011年8月24日 申請(qǐng)日期2011年4月11日 優(yōu)先權(quán)日2011年4月11日
發(fā)明者劉曉佩, 盧朝陽(yáng), 李靜, 汪文芳, 王偉 申請(qǐng)人:西安電子科技大學(xué)