專利名稱:一種復(fù)雜背景圖像文字分割方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理領(lǐng)域中的圖像分割技術(shù),尤其涉及一種復(fù)雜背景圖像文字分割方法。
背景技術(shù):
隨著數(shù)碼相機(jī)、攝像頭、超高速掃描儀等圖像獲取設(shè)備的廣泛應(yīng)用,圖像中信息越來越引起人們的關(guān)注,然而計(jì)算機(jī)理解圖像的內(nèi)容,目前還很困難。嵌入在圖像中的文字,是圖像語義內(nèi)容的一種重要表達(dá)方式。如果能夠自動(dòng)提取和識(shí)別這些文字,就可以讓機(jī)器自動(dòng)理解圖片內(nèi)容并對(duì)圖片進(jìn)行分類,進(jìn)而借助已經(jīng)成熟的文本檢索技術(shù)采用這些文字對(duì)圖片進(jìn)行標(biāo)注和檢索,從而為基于內(nèi)容的圖像和視頻檢索提供一種途徑。然而,嵌入在圖像中的文字通常都帶有復(fù)雜背景,即使文本內(nèi)容在圖像中能被準(zhǔn)確檢測(cè)到,在沒有去除背景 之前,現(xiàn)有的OCR系統(tǒng)難以識(shí)別出字符,因而在提交給OCR系統(tǒng)之前還需要一個(gè)文字分割過程。因此,如何從復(fù)雜背景圖像中分割文本信息,成為以文字為線索來理解和檢索圖像內(nèi)容的一個(gè)關(guān)鍵任務(wù)?,F(xiàn)有的圖像文字分割技術(shù)主要分為以下三類基于閾值的方法、基于聚類的方法和基于統(tǒng)計(jì)模型的方法?;陂撝档姆椒ㄒ话愀鶕?jù)文字塊中前景和背景的亮度分布自適應(yīng)地選取一個(gè)全局閾值或自適應(yīng)局部閾值。在圖像背景比較單一時(shí)該類方法能取得較好的效果;當(dāng)文字具有較復(fù)雜的背景,例如文字的灰度可能介于背景的多個(gè)灰度之間時(shí),閾值法不再適用?;诰垲惖姆椒ㄒ话闶紫燃俣ㄎ淖謮K中所有像素根據(jù)顏色可以分為K類,文字像素對(duì)應(yīng)于其中一類,其余各類均為背景;然后采用經(jīng)典的無監(jiān)督聚類算法對(duì)所有像素進(jìn)行聚類。這類方法可用于復(fù)雜背景的情況。但當(dāng)背景中含有與文字顏色相同或相近的成分時(shí),這些成分會(huì)被誤分入文字類,從而產(chǎn)生大量的殘余背景,影響OCR識(shí)別?;诮y(tǒng)計(jì)模型的方法首先為文字塊內(nèi)所有像素或者文字像素建立概率模型,一般根據(jù)顏色建立高斯混合模型(Gaussian Mixture Model, GMM),所有同色區(qū)域用一個(gè)Gaussian核函數(shù)表示。然后使用EM算法估計(jì)模型參數(shù),最后根據(jù)最大似然準(zhǔn)則確定每個(gè)區(qū)域的類別。由于單純地利用了顏色信息,GMM模型存在著與聚類方法同樣的問題,而且GMM核函數(shù)的個(gè)數(shù)難以確定。上述各種文字分割方法,只利用了圖像底層局部的灰度或彩色信息,沒有考慮到文字的空間或全局上下文信息。因而,對(duì)復(fù)雜背景中的文字分割效果不好。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決上述問題,提供一種復(fù)雜背景圖像文字分割方法,根據(jù)復(fù)雜背景圖像中文字信息的特點(diǎn),融合圖像底層的局部顏色、紋理特征和標(biāo)簽層全局特征,并采用由粗到精兩級(jí)分割的方法,從而提高復(fù)雜背景圖像文字分割的準(zhǔn)確率。該方法對(duì)背景簡(jiǎn)單圖像和背景復(fù)雜圖像均具有較好的分割效果,具有一定的通用性和實(shí)用性。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案一種復(fù)雜背景圖像文字分割方法,主要包括以下步驟進(jìn)行圖像讀??;對(duì)讀取的圖像進(jìn)行文字區(qū)域讀??;對(duì)讀取的文字區(qū)域進(jìn)行底層顏色特征抽取;對(duì)抽取過底層顏色特征的文字區(qū)域進(jìn)行底層紋理特征抽?。粚?duì)抽取出來的文字區(qū)域的底層顏色特征和底層紋理特征進(jìn)行融合得到文字區(qū)域的底層局部特征;對(duì)文字區(qū)域的底層局部特征進(jìn)行粗分類,然后在粗分類的結(jié)果上抽取文字區(qū)域的標(biāo)簽層全局特征;將文字區(qū)域的底層局部特征與文字區(qū)域的標(biāo)簽層全局特征進(jìn)行融合得到文字區(qū)域所有像素的特征向量;對(duì)文字區(qū)域中所有像素特征向量進(jìn)行訓(xùn)練得到第一級(jí)文字分割的分類器;用訓(xùn)練好的分類器對(duì)圖像的特征分類,實(shí)現(xiàn)第一級(jí)文字分割;對(duì)第一級(jí)分割的結(jié)果進(jìn)行連通元標(biāo)定;抽取連通元特征,利用文字連通元與背景連通元的特征差異,進(jìn)行連通元篩選,去除背景連通元,實(shí)現(xiàn)第二級(jí)文字分割;輸出文字分割結(jié)果。一種復(fù)雜背景圖像文字分割方法,具體步驟如下 步驟(I):開始,讀取圖像;步驟(2):將圖像中的文字區(qū)域塊提取出來,并將文字區(qū)域塊保存到相應(yīng)位置;步驟(3):判斷是否所有的文字區(qū)域塊提取完成,如果提取完成則進(jìn)入步驟(4);如果未提取完成返回步驟(2);步驟(4):在RGB顏色空間抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的顏色特征,得到6維底層局部顏色特征;如果所有像素點(diǎn)的顏色特征抽取完畢就進(jìn)入步驟(5);步驟(5):抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的紋理特征首先將文字區(qū)域塊轉(zhuǎn)換為灰度圖像,然后在灰度圖像上抽取Gabor紋理特征,每個(gè)像素點(diǎn)得到6維底層局部紋理特征;步驟(6):將6維顏色特征和6維紋理特征進(jìn)行特征融合,得到12維圖像底層局部特征;步驟(7):提取文字區(qū)域塊的標(biāo)簽層全局特征。將步驟(6)得到的12維圖像底層局部特征送入分類器訓(xùn)練,用訓(xùn)練好的分類器分別對(duì)文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類,得到文字區(qū)域整體的粗略類別標(biāo)簽分布,計(jì)算每個(gè)像素點(diǎn)屬于文字類和背景類的概率密度,然后抽取該像素點(diǎn)3X3鄰域?qū)儆谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征,每個(gè)像素點(diǎn)共得到18維標(biāo)簽層全局特征,如果所有的像素點(diǎn)標(biāo)簽層全局特征抽取完畢就進(jìn)入步驟(8);步驟(8):判斷是否所有像素點(diǎn)特征計(jì)算是否完成,如果完成則進(jìn)入步驟(9);如果未完成則返回步驟(4);步驟(9):將12維圖像底層局部特征和18維標(biāo)簽層全局特征進(jìn)行融合,每個(gè)像素點(diǎn)得到一個(gè)30維特征向量;步驟(10):利用條件隨機(jī)場(chǎng)模型對(duì)文字塊中每個(gè)像素點(diǎn)30維特征向量進(jìn)行訓(xùn)練,得到進(jìn)行第一級(jí)文字分割的分類器;步驟(11):采用步驟(10)得到的分類器對(duì)文字區(qū)域中的像素進(jìn)行分類,將文字區(qū)域塊中的像素分為文字類和背景類,得到二值化的分割圖像,實(shí)現(xiàn)文字區(qū)域的第一級(jí)粗分割;步驟(12):對(duì)二值化的粗分割圖像進(jìn)行連通元標(biāo)定,采用4連通標(biāo)定法;步驟(13):對(duì)步驟(12)標(biāo)定好的每個(gè)連通元,抽取連通元特征,然后采用閾值分類器刪除背景連通元,實(shí)現(xiàn)文字區(qū)域的第二級(jí)分割。本發(fā)明主要利用文字連通元與背景連通元在尺度、顏色方面的特性差異去除背景連通元,得到最終的文字分割結(jié)果;步驟(14):輸出文字分割結(jié)果。所述步驟(4)的顏色特征抽取方法為首先將彩色圖像分解為R、G、B (紅、綠、藍(lán))三個(gè)顏色通道,對(duì)每個(gè)像素點(diǎn)抽取相應(yīng)的R、G、B顏色分量和8鄰域像素R、G、B三個(gè)分量的均值。所述步驟(5)的Gabor紋理特征的抽取方法是
在文字區(qū)域塊的灰度圖像上用一組同一頻率不同方向不同尺度的Gabor濾波器進(jìn)行濾波,然后將濾波后的圖像按照公式=max'j妒/W^1i進(jìn)行合并,其中,i表示
J
尺度,j表示方向,gabor1表示尺度i的合并Gabor濾波圖像,講表示尺度i方向j上
的Gabor濾波圖像,然后在濾波后的合并圖像上抽取相應(yīng)的紋理特征,抽取每個(gè)像素點(diǎn)的3X3鄰域Gabor系數(shù)的均值和方差作為每個(gè)像素點(diǎn)的紋理特征。本發(fā)明采用3個(gè)尺度,在每個(gè)尺度上抽取2維Gabor特征,所以在3個(gè)尺度上共抽取6維Gabor特征。所述步驟(7)中,標(biāo)簽層全局特征的抽取方法為采用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類,得到文字區(qū)域整體的粗略類別標(biāo)簽分布,計(jì)算每個(gè)像素點(diǎn)屬于文字類和背景類的概率密度,然后抽取該像素點(diǎn)3X3鄰域?qū)儆谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征;因此,對(duì)于每個(gè)像素點(diǎn)可得到2X3X3=18維標(biāo)簽層全局特征。所述步驟(10)中,第一級(jí)文字分割中分類器采用的是條件隨機(jī)場(chǎng)模型;所述條件隨機(jī)場(chǎng)模型描述的圖像的類條件概率密度為
P(FIX5X) = Iexp Σ^(^Χ) + ΣΣ^(^^ηΧ)
Z\_ieSteS jeN)ieS JeNi_其中,Vi(YilX)為圖像底層一元?jiǎng)莺瘮?shù),Vij (yi)yj, X)為圖像底層二元?jiǎng)莺瘮?shù),Gij(Yi, Yj, L)為標(biāo)簽層二元?jiǎng)莺瘮?shù)。i, j為圖像的像素點(diǎn)位置,y” Yj分別為圖像像素點(diǎn)位置i,j處的類別標(biāo)簽,X為圖像低層的特征向量,L為標(biāo)簽層的特征向量,Y為圖像的類別標(biāo)簽,S為圖像中所用像素點(diǎn)集合,Ni為像素點(diǎn)i的鄰域像素集合,P (Y |X,L)為圖像的類條件概率密度。分類器訓(xùn)練采用極大似然估計(jì)方法,對(duì)模型中的參數(shù)進(jìn)行估計(jì)⑩=argniax<log
θ I V A-=IJj
ο其中Xk是第k個(gè)訓(xùn)練樣本的底層特征,yk是Xk的類別標(biāo)簽,Ik為第k個(gè)訓(xùn)練樣本的標(biāo)簽層特征,N是訓(xùn)練樣本的數(shù)量,k e (I, 2,……N)。所述步驟(11)中,利用分類器的對(duì)文本進(jìn)行第一級(jí)粗分割步驟是將步驟(9)訓(xùn)練出的模型參數(shù)帶入第一級(jí)分割的分類器中,根據(jù)式K = a^Pix. 7Iv; I x^l),求每個(gè)像
IiG(U5I)
素點(diǎn)的最大邊緣后驗(yàn)概率,式中式中Yi表示像素點(diǎn)位置i處的類別標(biāo)簽,Yi e (0,I),0表示背景類,I表示文字類,X為圖像底層特征,L為圖像標(biāo)簽層全局特征,然后根據(jù)最大邊緣后驗(yàn)概率判斷每個(gè)像素點(diǎn)的屬于文字類還是背景類,最后得到文字區(qū)域塊圖像的第一級(jí)粗分割結(jié)果。所述步驟(13)中,抽取連通元特征,然后采用閾值分類器刪除背景連通元,實(shí)現(xiàn)文字區(qū)域的第二級(jí)分割,所用到的文字連通元與背景連通元在尺度、顏色方面的特性差異特征包括連通元的尺寸、連通元投影、連通元邊界顏色漸變情況。本發(fā)明的有益效果本發(fā)明根據(jù)復(fù)雜背景圖像中文字信息的特點(diǎn),融合圖像底層的局部顏色、紋理特征和標(biāo)簽層全局特征,采用由粗到精兩級(jí)分割的方法,能夠提高復(fù)雜背景圖像中的文字分割的準(zhǔn)確率。該方法對(duì)背景簡(jiǎn)單圖像和背景復(fù)雜圖像均具有較好的分割效果,具有一定的通用性和實(shí)用性。該發(fā)明的成果可直接應(yīng)用于基于內(nèi)容的圖像檢索,圖像分類等領(lǐng)域,具有廣闊的應(yīng)用前景。
圖I是本發(fā)明一種復(fù)雜背景圖像文字分割方法方案流程圖。
具體實(shí)施例方式下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。實(shí)現(xiàn)本發(fā)明的系統(tǒng)結(jié)構(gòu)所需的基本的硬件條件為一臺(tái)主頻為2. 4GHZ,內(nèi)存為IG的計(jì)算機(jī),所需軟件條件為編程環(huán)境為Visual C++6. O。一種復(fù)雜背景圖像文字分割方法,具體步驟如下步驟(I):開始,讀取圖像;步驟(2):將圖像中的文字區(qū)域塊提取出來,并將文字塊保存到相應(yīng)位置;步驟(3):判斷是否所有的文字區(qū)域塊提取完成,如果提取完成則進(jìn)入步驟(4);如果未提取完成返回步驟(2);步驟(4):在RGB顏色空間抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的顏色特征,得到6維底層局部顏色特征;如果所有像素點(diǎn)的顏色特征抽取完畢就進(jìn)入步驟(5);步驟(5):抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的紋理特征,首先將文字區(qū)域塊轉(zhuǎn)換為灰度圖像,然后在灰度圖像上抽取Gabor紋理特征,每個(gè)像素點(diǎn)得到6維底層局部紋理特征;步驟(6):將6維顏色特征和6維紋理特征進(jìn)行融合,得到12維圖像底層局部特征;步驟(7):提取文字區(qū)域塊的標(biāo)簽層全局特征,將12維圖像底層局部特征送入分類器訓(xùn)練,用訓(xùn)練好的分類器分別對(duì)文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類,得到文字區(qū)域整體的粗略類別標(biāo)簽分布,計(jì)算該像素點(diǎn)屬于文字類和背景類的概率密度,然后抽取每個(gè)像素點(diǎn)3X3鄰域?qū)儆谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征,每個(gè)像素點(diǎn)共得到18維標(biāo)簽層全局特征,然后抽取標(biāo)簽層全局特征,每個(gè)像素點(diǎn)共得到18維標(biāo)簽層全局特征,所有的像素點(diǎn)標(biāo)簽層全局特征抽取完畢后進(jìn)入步驟(8);步驟(8):判斷是否所有像素點(diǎn)特征計(jì)算是否完成,如果完成則進(jìn)入步驟(9);如果未完成則返回步驟(4);步驟(9):將12維圖像底層局部特征和18維標(biāo)簽層全局特征進(jìn)行融合,每個(gè)像素點(diǎn)得到一個(gè)30的維特征向量;步驟(10):利用條件隨機(jī)場(chǎng)模型對(duì)文字塊中每個(gè)像素點(diǎn)30維特征向量進(jìn)行訓(xùn)練,得到用于第一級(jí)文字分割的分類器;步驟(11):采用步驟(10)得到的分類器對(duì)文字區(qū)域中的像素進(jìn)行分類,將文字區(qū)域塊中的像素分為文字類和背景類,得到二值化的分割圖像,實(shí)現(xiàn)文字區(qū)域的第一級(jí)粗分割;步驟(12):對(duì)粗分割的二值化圖像進(jìn)行連通元標(biāo)定,采用4連通標(biāo)定法;步驟(13):對(duì)步驟(12)標(biāo)定好的每個(gè)連通元,抽取連通元特征,然后采用閾值分類 器刪除背景連通元,實(shí)現(xiàn)文字區(qū)域的第二級(jí)分割。本發(fā)明主要利用文字連通元與背景連通元在尺度、顏色方面的特性差異去除背景連通元,得到最終的文字分割結(jié)果;步驟(14):輸出文子分表I]結(jié)果。所述步驟(4)的顏色特征抽取方法為首先將圖像分解為R、G、B三個(gè)顏色通道,對(duì)每個(gè)像素點(diǎn)抽取相應(yīng)的R、G、B顏色分量和8鄰域像素R、G、B三個(gè)分量的均值。所述步驟(5)的Gabor紋理特征的抽取方法是在文字區(qū)域塊的灰度圖像上用一組同一頻率不同方向不同尺度的Gabor濾波器進(jìn)行濾波,然后將濾波后的圖像按照公式gabof =進(jìn)行合并其中i表示尺
度,j表示方向,gabor1表示尺度i的合并Gabor濾波圖像,表示尺度i方向j上
的Gabor濾波圖像,然后在濾波后的合并圖像上抽取相應(yīng)的紋理特征,抽取每個(gè)像素點(diǎn)的3X3鄰域Gabor系數(shù)的均值和方差作為每個(gè)像素點(diǎn)的紋理特征。本發(fā)明采用3個(gè)尺度,在每個(gè)尺度上可抽取2維Gabor特征,所以在3各尺度上共抽取6維Gabor特征。步驟(5-1):首先將彩色圖像轉(zhuǎn)換為灰色圖像;步驟(5-2):在灰度圖像上用同一頻率Gabor濾波器分別在8個(gè)方向(O。、30°、45°、60°、90°、120°、135°、150° )和3個(gè)尺度上進(jìn)行濾波(濾波尺度分別為6X6,8X8,10X10);步驟(5-3):對(duì)每個(gè)尺度Gabor濾波后的輸出圖像,采用如下公式獲得合并濾波圖像gabor'' = max | gabor]},其中i表示尺度,j表示方向,gabor1表示尺度i的合并Gabor濾波圖像表示尺度i方向j上的Gabor濾波圖像。步驟(5-4):對(duì)于每幅圖像,在每個(gè)尺度上可獲得一幅合并Gabor濾波圖像。在合并的Gabor濾波圖像上對(duì)每個(gè)像素點(diǎn)的3X3鄰域抽取相應(yīng)的紋理特征。步驟(5-5):在每個(gè)像素點(diǎn)的3X3鄰域抽取Gabor系數(shù)均值和方差作為每個(gè)像素點(diǎn)的紋理特征。在每個(gè)尺度上可抽取2維Gabor特征,所以在3各尺度上共抽取6維Gabor特征。所述步驟(7)中,標(biāo)簽層全局特征的抽取方法為采用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類,得到文字區(qū)域的整體粗略類別標(biāo)簽分布,計(jì)算每個(gè)像素點(diǎn)屬于文字類和背景類的概率密度,然后抽取該像素點(diǎn)3X3鄰域?qū)τ谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征。因此,對(duì)于每個(gè)像素點(diǎn)可得到2X3X3=18維標(biāo)簽層全局特征。步驟(7-1):首先初始化神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn)數(shù)目為圖像底層顏色、紋理特征的數(shù)目,共12維;輸出結(jié)點(diǎn)數(shù)目為該像素屬于文本和非文本的條件概率密度,為2維;隱層節(jié)點(diǎn)數(shù)為15 ;初始化權(quán)值采用-I和+1之間的隨機(jī)數(shù)。步驟(7-2):用訓(xùn)練樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò),求出神經(jīng)網(wǎng)絡(luò)的參數(shù)。步驟(7-3):用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)樣本中的每個(gè)像素點(diǎn)進(jìn)行分類,得到像素點(diǎn)屬 于文字類和背景類的概率密度。步驟(7-4):對(duì)于每個(gè)像素點(diǎn),統(tǒng)計(jì)其3X3鄰域?qū)τ谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征。因此,對(duì)于每個(gè)像素點(diǎn)可得到2X3X3=18維標(biāo)簽層全局特征。所述步驟(10)中,第一級(jí)文字分割中所用的分類器的訓(xùn)練步驟是將30維特征作為輸入的學(xué)習(xí)樣本,則用于第一級(jí)分類的條件隨機(jī)場(chǎng)模型可表示為
權(quán)利要求
1.一種復(fù)雜背景圖像文字分割方法,其特征是,主要包括以下步驟進(jìn)行圖像讀取;對(duì)讀取的圖像進(jìn)行文字區(qū)域讀取;對(duì)讀取的文字區(qū)域進(jìn)行底層顏色特征抽取;對(duì)抽取過底層顏色特征的文字區(qū)域進(jìn)行底層紋理特征抽??;對(duì)抽取出來的文字區(qū)域的底層顏色特征和底層紋理特征進(jìn)行融合得到文字區(qū)域的底層局部特征;對(duì)文字區(qū)域的底層局部特征進(jìn)行粗分類,然后在粗分類的結(jié)果上抽取文字區(qū)域的標(biāo)簽層全局特征;將文字區(qū)域的底層局部特征與文字區(qū)域的標(biāo)簽層全局特征進(jìn)行融合得到文字區(qū)域所有像素的特征向量;對(duì)文字區(qū)域中所有像素特征向量進(jìn)行訓(xùn)練得到用于第一級(jí)文字分割的分類器;用訓(xùn)練好的分類器對(duì)圖像的特征分類,實(shí)現(xiàn)第一級(jí)文字分割;對(duì)第一級(jí)分割的結(jié)果進(jìn)行連通元標(biāo)定;抽取連通元特征,利用文字連通元與背景連通元的特征差異,進(jìn)行連通元篩選,去除背景連通元,實(shí)現(xiàn)第二級(jí)文字分割;輸出文字分割結(jié)果。
2.如權(quán)利要求I所述的一種復(fù)雜背景圖像文字分割方法,其特征是,具體步驟如下 步驟(I):開始,讀取圖像; 步驟(2):將圖像中的文字區(qū)域塊提取出來,并將文字塊保存到相應(yīng)位置; 步驟(3):判斷是否所有的文字區(qū)域塊提取完成,如果提取完成則進(jìn)入步驟(4);如果未提取完成返回步驟(2); 步驟(4):在RGB顏色空間抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的顏色特征,得到6維局部顏色特征;如果所有像素點(diǎn)的顏色特征抽取完畢就進(jìn)入步驟(5); 步驟(5):抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的紋理特征首先將文字塊轉(zhuǎn)換為灰度圖像,然后在灰度圖像上抽取Gabor紋理特征,每個(gè)像素點(diǎn)得到6維紋理特征; 步驟(6):將6維顏色特征和6維紋理特征進(jìn)行特征融合,得到12維圖像底層局部特征; 步驟(7):提取文字區(qū)域塊的標(biāo)簽層全局特征將步驟(6)得到的12維圖像底層局部特征送入分類器訓(xùn)練,用訓(xùn)練好的分類器分別對(duì)文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類,得到文字區(qū)域整體的粗略類別標(biāo)簽分布,計(jì)算每個(gè)像素點(diǎn)屬于文字類和背景類的概率密度,然后抽取每個(gè)像素點(diǎn)3X3鄰域?qū)儆谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征,每個(gè)像素點(diǎn)共得到18維標(biāo)簽層全局特征,如果所有的像素點(diǎn)標(biāo)簽層全局特征抽取完畢就進(jìn)入步驟(8); 步驟(8):判斷是否所有像素點(diǎn)特征計(jì)算是否完成,如果完成則進(jìn)入步驟(9);如果未完成則返回步驟(4); 步驟(9):將12維圖像底層局部特征和18維標(biāo)簽層全局特征進(jìn)行融合,每個(gè)像素點(diǎn)得到一個(gè)30維的特征向量; 步驟(10):利用條件隨機(jī)場(chǎng)模型對(duì)文字塊中每個(gè)像素點(diǎn)30維特征進(jìn)行訓(xùn)練,得到用于第一級(jí)分割的分類器; 步驟(11):采用步驟(10)得到的分類器對(duì)文字區(qū)域中的像素進(jìn)行分類,將文字區(qū)域塊中的像素分為文字類和背景類,得到二值化的分割圖像,實(shí)現(xiàn)文字區(qū)域的第一級(jí)粗分割;步驟(12):對(duì)二值化的粗分割圖像進(jìn)行連通元標(biāo)定,采用4連通標(biāo)定法; 步驟(13):對(duì)步驟(12)標(biāo)定好的每個(gè)連通元,抽取連通元特征,然后采用閾值分類器刪除背景連通元,實(shí)現(xiàn)文字區(qū)域的第二級(jí)分割; 步驟(14):輸出文字分割結(jié)果。
3.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法,其特征是,所述步驟(4)的顏色特征抽取方法為 首先將圖像分解為R、G、B三個(gè)顏色通道,對(duì)每個(gè)像素點(diǎn)抽取相應(yīng)的R、G、B顏色分量和8鄰域像素R、G、B三個(gè)分量的均值。
4.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法,其特征是,所述步驟(5)的Gabor紋理特征的抽取方法是 在文字區(qū)域塊的灰度圖像上用一組同一頻率不同方向不同尺度的Gabor濾波器進(jìn)行濾波,然后將濾波后的圖像按照公式
5.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法,其特征是,所述步驟(7)中,標(biāo)簽層全局特征的抽取方法為采用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類,得到文字區(qū)域整體的粗略類別標(biāo)簽分布,計(jì)算每個(gè)像素點(diǎn)屬于文字類和背景類的概率密度,然后抽取該像素點(diǎn)3X3鄰域?qū)儆谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征。
6.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法,其特征是,所述步驟(10)中,第一級(jí)文字分割的分類器采用的是條件隨機(jī)場(chǎng)模型;所述分類器訓(xùn)練采用極大似然估計(jì)方法,對(duì)模型中的參數(shù)進(jìn)行估計(jì)。
7.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法,其特征是,所述步驟(11)中,利用第一級(jí)文字分割分類器對(duì)文本進(jìn)行粗分割步驟是將步驟(10)訓(xùn)練出的模型參數(shù)帶入第一級(jí)文字分割的分類器中,根據(jù)式
8.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法,其特征是,所述步驟(13)中,抽取連通元特征,然后采用閾值分類器刪除背景連通元,實(shí)現(xiàn)文字區(qū)域的第二級(jí)分割,所用到的文字連通元與背景連通元在尺度、顏色方面的特性差異特征包括連通元的尺寸、連通元投影、連通元邊界顏色漸變情況。
全文摘要
本發(fā)明公開了一種復(fù)雜背景圖像文字分割方法,主要包括以下步驟進(jìn)行圖像讀??;對(duì)讀取的圖像進(jìn)行文字區(qū)域讀??;對(duì)文字區(qū)域抽取底層顏色特征和底層紋理特征;對(duì)抽取出來的底層顏色特征和底層紋理特征進(jìn)行融合得到底層局部特征;抽取文字區(qū)域的標(biāo)簽層全局特征;將文字區(qū)域的底層局部特征與文字區(qū)域的標(biāo)簽層全局特征進(jìn)行融合得到文字區(qū)域所有像素的特征向量;對(duì)文字區(qū)域中所有像素特征向量訓(xùn)練得到第一級(jí)分割的分類器;用訓(xùn)練好的分類器進(jìn)行第一級(jí)文字分割;對(duì)第一級(jí)分割的結(jié)果進(jìn)行連通元標(biāo)定;抽取連通元特征進(jìn)行第文字分割;輸出文字分割結(jié)果。本發(fā)明提高復(fù)雜背景圖像中文字分割的準(zhǔn)確率;具有一定的通用性和實(shí)用性。
文檔編號(hào)G06K9/62GK102968637SQ201210560199
公開日2013年3月13日 申請(qǐng)日期2012年12月20日 優(yōu)先權(quán)日2012年12月20日
發(fā)明者柏猛, 李敏花, 呂英俊 申請(qǐng)人:山東科技大學(xué)