一種復(fù)雜背景圖像文字分割方法

文檔序號(hào)：6384908閱讀：1108來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種復(fù)雜背景圖像文字分割方法
技術(shù)領(lǐng)域：
本發(fā)明涉及圖像處理領(lǐng)域中的圖像分割技術(shù)，尤其涉及一種復(fù)雜背景圖像文字分割方法。
背景技術(shù)：
隨著數(shù)碼相機(jī)、攝像頭、超高速掃描儀等圖像獲取設(shè)備的廣泛應(yīng)用，圖像中信息越來越引起人們的關(guān)注，然而計(jì)算機(jī)理解圖像的內(nèi)容，目前還很困難。嵌入在圖像中的文字，是圖像語義內(nèi)容的一種重要表達(dá)方式。如果能夠自動(dòng)提取和識(shí)別這些文字，就可以讓機(jī)器自動(dòng)理解圖片內(nèi)容并對(duì)圖片進(jìn)行分類，進(jìn)而借助已經(jīng)成熟的文本檢索技術(shù)采用這些文字對(duì)圖片進(jìn)行標(biāo)注和檢索，從而為基于內(nèi)容的圖像和視頻檢索提供一種途徑。然而，嵌入在圖像中的文字通常都帶有復(fù)雜背景，即使文本內(nèi)容在圖像中能被準(zhǔn)確檢測(cè)到，在沒有去除背景之前，現(xiàn)有的OCR系統(tǒng)難以識(shí)別出字符，因而在提交給OCR系統(tǒng)之前還需要一個(gè)文字分割過程。因此，如何從復(fù)雜背景圖像中分割文本信息，成為以文字為線索來理解和檢索圖像內(nèi)容的一個(gè)關(guān)鍵任務(wù)?，F(xiàn)有的圖像文字分割技術(shù)主要分為以下三類基于閾值的方法、基于聚類的方法和基于統(tǒng)計(jì)模型的方法?；陂撝档姆椒ㄒ话愀鶕?jù)文字塊中前景和背景的亮度分布自適應(yīng)地選取一個(gè)全局閾值或自適應(yīng)局部閾值。在圖像背景比較單一時(shí)該類方法能取得較好的效果；當(dāng)文字具有較復(fù)雜的背景，例如文字的灰度可能介于背景的多個(gè)灰度之間時(shí)，閾值法不再適用?；诰垲惖姆椒ㄒ话闶紫燃俣ㄎ淖謮K中所有像素根據(jù)顏色可以分為K類，文字像素對(duì)應(yīng)于其中一類，其余各類均為背景；然后采用經(jīng)典的無監(jiān)督聚類算法對(duì)所有像素進(jìn)行聚類。這類方法可用于復(fù)雜背景的情況。但當(dāng)背景中含有與文字顏色相同或相近的成分時(shí)，這些成分會(huì)被誤分入文字類，從而產(chǎn)生大量的殘余背景，影響OCR識(shí)別?；诮y(tǒng)計(jì)模型的方法首先為文字塊內(nèi)所有像素或者文字像素建立概率模型，一般根據(jù)顏色建立高斯混合模型(Gaussian Mixture Model, GMM),所有同色區(qū)域用一個(gè)Gaussian核函數(shù)表示。然后使用EM算法估計(jì)模型參數(shù)，最后根據(jù)最大似然準(zhǔn)則確定每個(gè)區(qū)域的類別。由于單純地利用了顏色信息，GMM模型存在著與聚類方法同樣的問題，而且GMM核函數(shù)的個(gè)數(shù)難以確定。上述各種文字分割方法，只利用了圖像底層局部的灰度或彩色信息，沒有考慮到文字的空間或全局上下文信息。因而，對(duì)復(fù)雜背景中的文字分割效果不好。

發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決上述問題，提供一種復(fù)雜背景圖像文字分割方法，根據(jù)復(fù)雜背景圖像中文字信息的特點(diǎn)，融合圖像底層的局部顏色、紋理特征和標(biāo)簽層全局特征，并采用由粗到精兩級(jí)分割的方法，從而提高復(fù)雜背景圖像文字分割的準(zhǔn)確率。該方法對(duì)背景簡(jiǎn)單圖像和背景復(fù)雜圖像均具有較好的分割效果，具有一定的通用性和實(shí)用性。
為了實(shí)現(xiàn)上述目的，本發(fā)明采用如下技術(shù)方案一種復(fù)雜背景圖像文字分割方法，主要包括以下步驟進(jìn)行圖像讀??；對(duì)讀取的圖像進(jìn)行文字區(qū)域讀??；對(duì)讀取的文字區(qū)域進(jìn)行底層顏色特征抽取；對(duì)抽取過底層顏色特征的文字區(qū)域進(jìn)行底層紋理特征抽?。粚?duì)抽取出來的文字區(qū)域的底層顏色特征和底層紋理特征進(jìn)行融合得到文字區(qū)域的底層局部特征；對(duì)文字區(qū)域的底層局部特征進(jìn)行粗分類，然后在粗分類的結(jié)果上抽取文字區(qū)域的標(biāo)簽層全局特征；將文字區(qū)域的底層局部特征與文字區(qū)域的標(biāo)簽層全局特征進(jìn)行融合得到文字區(qū)域所有像素的特征向量；對(duì)文字區(qū)域中所有像素特征向量進(jìn)行訓(xùn)練得到第一級(jí)文字分割的分類器；用訓(xùn)練好的分類器對(duì)圖像的特征分類，實(shí)現(xiàn)第一級(jí)文字分割；對(duì)第一級(jí)分割的結(jié)果進(jìn)行連通元標(biāo)定；抽取連通元特征，利用文字連通元與背景連通元的特征差異，進(jìn)行連通元篩選，去除背景連通元，實(shí)現(xiàn)第二級(jí)文字分割；輸出文字分割結(jié)果。一種復(fù)雜背景圖像文字分割方法，具體步驟如下步驟(I):開始，讀取圖像；步驟(2):將圖像中的文字區(qū)域塊提取出來，并將文字區(qū)域塊保存到相應(yīng)位置；步驟(3):判斷是否所有的文字區(qū)域塊提取完成，如果提取完成則進(jìn)入步驟(4);如果未提取完成返回步驟(2);步驟(4):在RGB顏色空間抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的顏色特征，得到6維底層局部顏色特征；如果所有像素點(diǎn)的顏色特征抽取完畢就進(jìn)入步驟(5)；步驟(5):抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的紋理特征首先將文字區(qū)域塊轉(zhuǎn)換為灰度圖像，然后在灰度圖像上抽取Gabor紋理特征，每個(gè)像素點(diǎn)得到6維底層局部紋理特征；步驟(6):將6維顏色特征和6維紋理特征進(jìn)行特征融合，得到12維圖像底層局部特征；步驟(7):提取文字區(qū)域塊的標(biāo)簽層全局特征。將步驟(6)得到的12維圖像底層局部特征送入分類器訓(xùn)練，用訓(xùn)練好的分類器分別對(duì)文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類，得到文字區(qū)域整體的粗略類別標(biāo)簽分布，計(jì)算每個(gè)像素點(diǎn)屬于文字類和背景類的概率密度，然后抽取該像素點(diǎn)3X3鄰域?qū)儆谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征，每個(gè)像素點(diǎn)共得到18維標(biāo)簽層全局特征，如果所有的像素點(diǎn)標(biāo)簽層全局特征抽取完畢就進(jìn)入步驟(8)；步驟(8):判斷是否所有像素點(diǎn)特征計(jì)算是否完成，如果完成則進(jìn)入步驟(9);如果未完成則返回步驟(4);步驟(9):將12維圖像底層局部特征和18維標(biāo)簽層全局特征進(jìn)行融合，每個(gè)像素點(diǎn)得到一個(gè)30維特征向量；步驟(10):利用條件隨機(jī)場(chǎng)模型對(duì)文字塊中每個(gè)像素點(diǎn)30維特征向量進(jìn)行訓(xùn)練，得到進(jìn)行第一級(jí)文字分割的分類器；步驟(11):采用步驟(10)得到的分類器對(duì)文字區(qū)域中的像素進(jìn)行分類，將文字區(qū)域塊中的像素分為文字類和背景類，得到二值化的分割圖像，實(shí)現(xiàn)文字區(qū)域的第一級(jí)粗分割;步驟(12):對(duì)二值化的粗分割圖像進(jìn)行連通元標(biāo)定，采用4連通標(biāo)定法；步驟(13):對(duì)步驟(12)標(biāo)定好的每個(gè)連通元，抽取連通元特征，然后采用閾值分類器刪除背景連通元，實(shí)現(xiàn)文字區(qū)域的第二級(jí)分割。本發(fā)明主要利用文字連通元與背景連通元在尺度、顏色方面的特性差異去除背景連通元，得到最終的文字分割結(jié)果；步驟(14):輸出文字分割結(jié)果。所述步驟(4)的顏色特征抽取方法為首先將彩色圖像分解為R、G、B (紅、綠、藍(lán))三個(gè)顏色通道，對(duì)每個(gè)像素點(diǎn)抽取相應(yīng)的R、G、B顏色分量和8鄰域像素R、G、B三個(gè)分量的均值。所述步驟(5)的Gabor紋理特征的抽取方法是
在文字區(qū)域塊的灰度圖像上用一組同一頻率不同方向不同尺度的Gabor濾波器進(jìn)行濾波，然后將濾波后的圖像按照公式=max'j妒/W^1i進(jìn)行合并，其中，i表示
J
尺度，j表示方向，gabor1表示尺度i的合并Gabor濾波圖像,講表示尺度i方向j上
的Gabor濾波圖像，然后在濾波后的合并圖像上抽取相應(yīng)的紋理特征，抽取每個(gè)像素點(diǎn)的3X3鄰域Gabor系數(shù)的均值和方差作為每個(gè)像素點(diǎn)的紋理特征。本發(fā)明采用3個(gè)尺度，在每個(gè)尺度上抽取2維Gabor特征，所以在3個(gè)尺度上共抽取6維Gabor特征。所述步驟(7)中，標(biāo)簽層全局特征的抽取方法為采用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類，得到文字區(qū)域整體的粗略類別標(biāo)簽分布，計(jì)算每個(gè)像素點(diǎn)屬于文字類和背景類的概率密度，然后抽取該像素點(diǎn)3X3鄰域?qū)儆谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征；因此，對(duì)于每個(gè)像素點(diǎn)可得到2X3X3=18維標(biāo)簽層全局特征。所述步驟(10)中，第一級(jí)文字分割中分類器采用的是條件隨機(jī)場(chǎng)模型；所述條件隨機(jī)場(chǎng)模型描述的圖像的類條件概率密度為
P(FIX5X) = Iexp Σ^(^Χ) + ΣΣ^(^^ηΧ)
Z\_ieSteS jeN)ieS JeNi_其中，Vi(YilX)為圖像底層一元?jiǎng)莺瘮?shù)，Vij (yi)yj, X)為圖像底層二元?jiǎng)莺瘮?shù)，Gij(Yi, Yj, L)為標(biāo)簽層二元?jiǎng)莺瘮?shù)。i, j為圖像的像素點(diǎn)位置，y” Yj分別為圖像像素點(diǎn)位置i，j處的類別標(biāo)簽，X為圖像低層的特征向量，L為標(biāo)簽層的特征向量，Y為圖像的類別標(biāo)簽，S為圖像中所用像素點(diǎn)集合，Ni為像素點(diǎn)i的鄰域像素集合，P (Y |X，L)為圖像的類條件概率密度。分類器訓(xùn)練采用極大似然估計(jì)方法，對(duì)模型中的參數(shù)進(jìn)行估計(jì)⑩=argniax<log
θ I V A-=IJj
ο其中Xk是第k個(gè)訓(xùn)練樣本的底層特征，yk是Xk的類別標(biāo)簽，Ik為第k個(gè)訓(xùn)練樣本的標(biāo)簽層特征，N是訓(xùn)練樣本的數(shù)量，k e (I, 2，……N)。所述步驟(11)中，利用分類器的對(duì)文本進(jìn)行第一級(jí)粗分割步驟是將步驟(9)訓(xùn)練出的模型參數(shù)帶入第一級(jí)分割的分類器中，根據(jù)式K = a^Pix. 7Iv; I x^l)，求每個(gè)像
IiG(U5I)
素點(diǎn)的最大邊緣后驗(yàn)概率，式中式中Yi表示像素點(diǎn)位置i處的類別標(biāo)簽，Yi e (0，I)，0表示背景類，I表示文字類，X為圖像底層特征，L為圖像標(biāo)簽層全局特征，然后根據(jù)最大邊緣后驗(yàn)概率判斷每個(gè)像素點(diǎn)的屬于文字類還是背景類，最后得到文字區(qū)域塊圖像的第一級(jí)粗分割結(jié)果。所述步驟(13)中，抽取連通元特征，然后采用閾值分類器刪除背景連通元，實(shí)現(xiàn)文字區(qū)域的第二級(jí)分割，所用到的文字連通元與背景連通元在尺度、顏色方面的特性差異特征包括連通元的尺寸、連通元投影、連通元邊界顏色漸變情況。本發(fā)明的有益效果本發(fā)明根據(jù)復(fù)雜背景圖像中文字信息的特點(diǎn)，融合圖像底層的局部顏色、紋理特征和標(biāo)簽層全局特征，采用由粗到精兩級(jí)分割的方法，能夠提高復(fù)雜背景圖像中的文字分割的準(zhǔn)確率。該方法對(duì)背景簡(jiǎn)單圖像和背景復(fù)雜圖像均具有較好的分割效果，具有一定的通用性和實(shí)用性。該發(fā)明的成果可直接應(yīng)用于基于內(nèi)容的圖像檢索，圖像分類等領(lǐng)域，具有廣闊的應(yīng)用前景。

圖I是本發(fā)明一種復(fù)雜背景圖像文字分割方法方案流程圖。
具體實(shí)施例方式下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。實(shí)現(xiàn)本發(fā)明的系統(tǒng)結(jié)構(gòu)所需的基本的硬件條件為一臺(tái)主頻為2. 4GHZ,內(nèi)存為IG的計(jì)算機(jī)，所需軟件條件為編程環(huán)境為Visual C++6. O。一種復(fù)雜背景圖像文字分割方法，具體步驟如下步驟(I):開始，讀取圖像；步驟(2):將圖像中的文字區(qū)域塊提取出來，并將文字塊保存到相應(yīng)位置；步驟(3):判斷是否所有的文字區(qū)域塊提取完成，如果提取完成則進(jìn)入步驟(4);如果未提取完成返回步驟(2);步驟(4):在RGB顏色空間抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的顏色特征，得到6維底層局部顏色特征；如果所有像素點(diǎn)的顏色特征抽取完畢就進(jìn)入步驟(5)；步驟(5):抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的紋理特征，首先將文字區(qū)域塊轉(zhuǎn)換為灰度圖像，然后在灰度圖像上抽取Gabor紋理特征，每個(gè)像素點(diǎn)得到6維底層局部紋理特征；步驟(6):將6維顏色特征和6維紋理特征進(jìn)行融合，得到12維圖像底層局部特征；步驟(7):提取文字區(qū)域塊的標(biāo)簽層全局特征，將12維圖像底層局部特征送入分類器訓(xùn)練，用訓(xùn)練好的分類器分別對(duì)文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類，得到文字區(qū)域整體的粗略類別標(biāo)簽分布，計(jì)算該像素點(diǎn)屬于文字類和背景類的概率密度，然后抽取每個(gè)像素點(diǎn)3X3鄰域?qū)儆谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征，每個(gè)像素點(diǎn)共得到18維標(biāo)簽層全局特征，然后抽取標(biāo)簽層全局特征，每個(gè)像素點(diǎn)共得到18維標(biāo)簽層全局特征，所有的像素點(diǎn)標(biāo)簽層全局特征抽取完畢后進(jìn)入步驟(8);步驟(8):判斷是否所有像素點(diǎn)特征計(jì)算是否完成，如果完成則進(jìn)入步驟(9);如果未完成則返回步驟(4);步驟(9):將12維圖像底層局部特征和18維標(biāo)簽層全局特征進(jìn)行融合，每個(gè)像素點(diǎn)得到一個(gè)30的維特征向量；步驟(10):利用條件隨機(jī)場(chǎng)模型對(duì)文字塊中每個(gè)像素點(diǎn)30維特征向量進(jìn)行訓(xùn)練，得到用于第一級(jí)文字分割的分類器；步驟(11):采用步驟(10)得到的分類器對(duì)文字區(qū)域中的像素進(jìn)行分類，將文字區(qū)域塊中的像素分為文字類和背景類，得到二值化的分割圖像，實(shí)現(xiàn)文字區(qū)域的第一級(jí)粗分割;步驟(12):對(duì)粗分割的二值化圖像進(jìn)行連通元標(biāo)定，采用4連通標(biāo)定法；步驟(13):對(duì)步驟(12)標(biāo)定好的每個(gè)連通元，抽取連通元特征，然后采用閾值分類器刪除背景連通元，實(shí)現(xiàn)文字區(qū)域的第二級(jí)分割。本發(fā)明主要利用文字連通元與背景連通元在尺度、顏色方面的特性差異去除背景連通元，得到最終的文字分割結(jié)果；步驟(14):輸出文子分表I]結(jié)果。所述步驟(4)的顏色特征抽取方法為首先將圖像分解為R、G、B三個(gè)顏色通道，對(duì)每個(gè)像素點(diǎn)抽取相應(yīng)的R、G、B顏色分量和8鄰域像素R、G、B三個(gè)分量的均值。所述步驟(5)的Gabor紋理特征的抽取方法是在文字區(qū)域塊的灰度圖像上用一組同一頻率不同方向不同尺度的Gabor濾波器進(jìn)行濾波，然后將濾波后的圖像按照公式gabof =進(jìn)行合并其中i表示尺
度，j表示方向，gabor1表示尺度i的合并Gabor濾波圖像,表示尺度i方向j上
的Gabor濾波圖像，然后在濾波后的合并圖像上抽取相應(yīng)的紋理特征，抽取每個(gè)像素點(diǎn)的3X3鄰域Gabor系數(shù)的均值和方差作為每個(gè)像素點(diǎn)的紋理特征。本發(fā)明采用3個(gè)尺度，在每個(gè)尺度上可抽取2維Gabor特征，所以在3各尺度上共抽取6維Gabor特征。步驟(5-1):首先將彩色圖像轉(zhuǎn)換為灰色圖像；步驟(5-2):在灰度圖像上用同一頻率Gabor濾波器分別在8個(gè)方向(O。、30°、45°、60°、90°、120°、135°、150° )和3個(gè)尺度上進(jìn)行濾波(濾波尺度分別為6X6，8X8,10X10)；步驟(5-3):對(duì)每個(gè)尺度Gabor濾波后的輸出圖像，采用如下公式獲得合并濾波圖像gabor'' = max | gabor]},其中i表示尺度，j表示方向，gabor1表示尺度i的合并Gabor濾波圖像表示尺度i方向j上的Gabor濾波圖像。步驟(5-4):對(duì)于每幅圖像，在每個(gè)尺度上可獲得一幅合并Gabor濾波圖像。在合并的Gabor濾波圖像上對(duì)每個(gè)像素點(diǎn)的3X3鄰域抽取相應(yīng)的紋理特征。步驟(5-5):在每個(gè)像素點(diǎn)的3X3鄰域抽取Gabor系數(shù)均值和方差作為每個(gè)像素點(diǎn)的紋理特征。在每個(gè)尺度上可抽取2維Gabor特征，所以在3各尺度上共抽取6維Gabor特征。所述步驟(7)中，標(biāo)簽層全局特征的抽取方法為采用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類，得到文字區(qū)域的整體粗略類別標(biāo)簽分布，計(jì)算每個(gè)像素點(diǎn)屬于文字類和背景類的概率密度，然后抽取該像素點(diǎn)3X3鄰域?qū)τ谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征。因此，對(duì)于每個(gè)像素點(diǎn)可得到2X3X3=18維標(biāo)簽層全局特征。步驟(7-1):首先初始化神經(jīng)網(wǎng)絡(luò)，神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn)數(shù)目為圖像底層顏色、紋理特征的數(shù)目，共12維；輸出結(jié)點(diǎn)數(shù)目為該像素屬于文本和非文本的條件概率密度，為2維；隱層節(jié)點(diǎn)數(shù)為15 ;初始化權(quán)值采用-I和+1之間的隨機(jī)數(shù)。步驟(7-2):用訓(xùn)練樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò)，求出神經(jīng)網(wǎng)絡(luò)的參數(shù)。步驟(7-3):用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)樣本中的每個(gè)像素點(diǎn)進(jìn)行分類，得到像素點(diǎn)屬于文字類和背景類的概率密度。步驟(7-4):對(duì)于每個(gè)像素點(diǎn)，統(tǒng)計(jì)其3X3鄰域?qū)τ谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征。因此，對(duì)于每個(gè)像素點(diǎn)可得到2X3X3=18維標(biāo)簽層全局特征。所述步驟(10)中，第一級(jí)文字分割中所用的分類器的訓(xùn)練步驟是將30維特征作為輸入的學(xué)習(xí)樣本，則用于第一級(jí)分類的條件隨機(jī)場(chǎng)模型可表示為
權(quán)利要求
1.一種復(fù)雜背景圖像文字分割方法，其特征是，主要包括以下步驟進(jìn)行圖像讀取；對(duì)讀取的圖像進(jìn)行文字區(qū)域讀取；對(duì)讀取的文字區(qū)域進(jìn)行底層顏色特征抽取；對(duì)抽取過底層顏色特征的文字區(qū)域進(jìn)行底層紋理特征抽??；對(duì)抽取出來的文字區(qū)域的底層顏色特征和底層紋理特征進(jìn)行融合得到文字區(qū)域的底層局部特征；對(duì)文字區(qū)域的底層局部特征進(jìn)行粗分類，然后在粗分類的結(jié)果上抽取文字區(qū)域的標(biāo)簽層全局特征；將文字區(qū)域的底層局部特征與文字區(qū)域的標(biāo)簽層全局特征進(jìn)行融合得到文字區(qū)域所有像素的特征向量；對(duì)文字區(qū)域中所有像素特征向量進(jìn)行訓(xùn)練得到用于第一級(jí)文字分割的分類器；用訓(xùn)練好的分類器對(duì)圖像的特征分類，實(shí)現(xiàn)第一級(jí)文字分割；對(duì)第一級(jí)分割的結(jié)果進(jìn)行連通元標(biāo)定；抽取連通元特征，利用文字連通元與背景連通元的特征差異，進(jìn)行連通元篩選，去除背景連通元，實(shí)現(xiàn)第二級(jí)文字分割；輸出文字分割結(jié)果。
2.如權(quán)利要求I所述的一種復(fù)雜背景圖像文字分割方法，其特征是，具體步驟如下步驟(I):開始，讀取圖像；步驟(2):將圖像中的文字區(qū)域塊提取出來，并將文字塊保存到相應(yīng)位置；步驟(3):判斷是否所有的文字區(qū)域塊提取完成，如果提取完成則進(jìn)入步驟(4);如果未提取完成返回步驟(2); 步驟(4):在RGB顏色空間抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的顏色特征，得到6維局部顏色特征；如果所有像素點(diǎn)的顏色特征抽取完畢就進(jìn)入步驟(5)；步驟(5):抽取文字區(qū)域塊中每個(gè)像素點(diǎn)的紋理特征首先將文字塊轉(zhuǎn)換為灰度圖像，然后在灰度圖像上抽取Gabor紋理特征，每個(gè)像素點(diǎn)得到6維紋理特征；步驟(6):將6維顏色特征和6維紋理特征進(jìn)行特征融合，得到12維圖像底層局部特征；步驟(7):提取文字區(qū)域塊的標(biāo)簽層全局特征將步驟(6)得到的12維圖像底層局部特征送入分類器訓(xùn)練，用訓(xùn)練好的分類器分別對(duì)文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類，得到文字區(qū)域整體的粗略類別標(biāo)簽分布，計(jì)算每個(gè)像素點(diǎn)屬于文字類和背景類的概率密度，然后抽取每個(gè)像素點(diǎn)3X3鄰域?qū)儆谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征，每個(gè)像素點(diǎn)共得到18維標(biāo)簽層全局特征，如果所有的像素點(diǎn)標(biāo)簽層全局特征抽取完畢就進(jìn)入步驟(8)；步驟(8):判斷是否所有像素點(diǎn)特征計(jì)算是否完成，如果完成則進(jìn)入步驟(9);如果未完成則返回步驟(4); 步驟(9):將12維圖像底層局部特征和18維標(biāo)簽層全局特征進(jìn)行融合，每個(gè)像素點(diǎn)得到一個(gè)30維的特征向量；步驟(10):利用條件隨機(jī)場(chǎng)模型對(duì)文字塊中每個(gè)像素點(diǎn)30維特征進(jìn)行訓(xùn)練，得到用于第一級(jí)分割的分類器；步驟(11):采用步驟(10)得到的分類器對(duì)文字區(qū)域中的像素進(jìn)行分類，將文字區(qū)域塊中的像素分為文字類和背景類，得到二值化的分割圖像，實(shí)現(xiàn)文字區(qū)域的第一級(jí)粗分割；步驟(12):對(duì)二值化的粗分割圖像進(jìn)行連通元標(biāo)定，采用4連通標(biāo)定法；步驟(13):對(duì)步驟(12)標(biāo)定好的每個(gè)連通元，抽取連通元特征，然后采用閾值分類器刪除背景連通元，實(shí)現(xiàn)文字區(qū)域的第二級(jí)分割；步驟(14):輸出文字分割結(jié)果。
3.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法，其特征是，所述步驟(4)的顏色特征抽取方法為首先將圖像分解為R、G、B三個(gè)顏色通道，對(duì)每個(gè)像素點(diǎn)抽取相應(yīng)的R、G、B顏色分量和8鄰域像素R、G、B三個(gè)分量的均值。
4.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法，其特征是，所述步驟(5)的Gabor紋理特征的抽取方法是在文字區(qū)域塊的灰度圖像上用一組同一頻率不同方向不同尺度的Gabor濾波器進(jìn)行濾波，然后將濾波后的圖像按照公式
5.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法，其特征是，所述步驟(7)中，標(biāo)簽層全局特征的抽取方法為采用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練文字區(qū)域塊中的每個(gè)像素點(diǎn)進(jìn)行分類，得到文字區(qū)域整體的粗略類別標(biāo)簽分布，計(jì)算每個(gè)像素點(diǎn)屬于文字類和背景類的概率密度，然后抽取該像素點(diǎn)3X3鄰域?qū)儆谖淖诸惡捅尘邦惖母怕拭芏茸鳛闃?biāo)簽層全局特征。
6.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法，其特征是，所述步驟(10)中，第一級(jí)文字分割的分類器采用的是條件隨機(jī)場(chǎng)模型；所述分類器訓(xùn)練采用極大似然估計(jì)方法，對(duì)模型中的參數(shù)進(jìn)行估計(jì)。
7.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法，其特征是，所述步驟(11)中，利用第一級(jí)文字分割分類器對(duì)文本進(jìn)行粗分割步驟是將步驟(10)訓(xùn)練出的模型參數(shù)帶入第一級(jí)文字分割的分類器中，根據(jù)式
8.如權(quán)利要求2所述的一種復(fù)雜背景圖像文字分割方法，其特征是，所述步驟(13)中，抽取連通元特征，然后采用閾值分類器刪除背景連通元，實(shí)現(xiàn)文字區(qū)域的第二級(jí)分割，所用到的文字連通元與背景連通元在尺度、顏色方面的特性差異特征包括連通元的尺寸、連通元投影、連通元邊界顏色漸變情況。
全文摘要
本發(fā)明公開了一種復(fù)雜背景圖像文字分割方法，主要包括以下步驟進(jìn)行圖像讀??；對(duì)讀取的圖像進(jìn)行文字區(qū)域讀??；對(duì)文字區(qū)域抽取底層顏色特征和底層紋理特征；對(duì)抽取出來的底層顏色特征和底層紋理特征進(jìn)行融合得到底層局部特征；抽取文字區(qū)域的標(biāo)簽層全局特征；將文字區(qū)域的底層局部特征與文字區(qū)域的標(biāo)簽層全局特征進(jìn)行融合得到文字區(qū)域所有像素的特征向量；對(duì)文字區(qū)域中所有像素特征向量訓(xùn)練得到第一級(jí)分割的分類器；用訓(xùn)練好的分類器進(jìn)行第一級(jí)文字分割；對(duì)第一級(jí)分割的結(jié)果進(jìn)行連通元標(biāo)定；抽取連通元特征進(jìn)行第文字分割；輸出文字分割結(jié)果。本發(fā)明提高復(fù)雜背景圖像中文字分割的準(zhǔn)確率；具有一定的通用性和實(shí)用性。
文檔編號(hào)G06K9/62GK102968637SQ201210560199
公開日2013年3月13日申請(qǐng)日期2012年12月20日優(yōu)先權(quán)日2012年12月20日
發(fā)明者柏猛, 李敏花, 呂英俊申請(qǐng)人:山東科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：柏猛;李敏花;呂英俊
技術(shù)所有人：山東科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

圖像分割復(fù)雜場(chǎng)景相關(guān)技術(shù)

matlab畫復(fù)雜函數(shù)圖像相關(guān)技術(shù)

圖像復(fù)雜度相關(guān)技術(shù)

圖像復(fù)雜度計(jì)算相關(guān)技術(shù)

matlab復(fù)雜函數(shù)圖像相關(guān)技術(shù)

圖像的復(fù)雜度相關(guān)技術(shù)

復(fù)雜函數(shù)圖像相關(guān)技術(shù)

最復(fù)雜的函數(shù)圖像相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種復(fù)雜背景圖像文字分割方法