專利名稱:一種復(fù)雜彩色圖像中文本區(qū)域自動定位方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理技術(shù)與模式識別算法。首先獲取圖像邊緣,然后結(jié)合機器學(xué)習(xí)算法 并利用邊緣的一些特征如角點信息等對邊緣進行篩選以去除非文字邊緣,再結(jié)合形態(tài)學(xué)操作 與霍夫變換形成候選文本區(qū)域并利用一些規(guī)則去除虛假文本區(qū)域以確定最終文本區(qū)域。
背景技術(shù):
圖像往往比文字有更強的表現(xiàn)能力,隨著計算機軟硬件技術(shù)的發(fā)展及網(wǎng)絡(luò)技術(shù)的成熟, 圖像開始成為信息的載體。這些含有大量信息的圖像一方面極大的豐富了多媒體資源,另一 方面也帶來了一些問題和挑戰(zhàn)。與文字不同,圖像更加抽象,其語義更難于計算機理解。面 對海量的圖像資源,圖像的自動檢索、分類和內(nèi)容監(jiān)管成了較難解決的問題。尤其是一些非 法分子利用圖像的特性,將一些垃圾信息嵌入到圖像中以逃避常規(guī)的基于文本內(nèi)容的監(jiān)控系 統(tǒng)的監(jiān)控。快速理解圖像的高級語義是我們面臨的一個巨大挑戰(zhàn)。
幸運的是,許多圖像中均含有大量的文字,這些文字往往可以為圖像語義的理解提供非 常有力的依據(jù)和豐富的信息。提取這些文字信息成為準確理解圖像語義的一條捷徑,文字信 息提取的先決條件是準確定位圖像中的文本區(qū)域。目前,對于文本區(qū)域定位技術(shù)的相關(guān)研究 較多,包括對自然場景中文本區(qū)域定位、汽車牌照中文本區(qū)域定位、視頻幀中文本區(qū)域定位 等。這些文本區(qū)域定位算法大致可以分成以下幾類基于連通區(qū)域的方法、基于紋理特征的 方法、基于文字邊緣的方法以及這些方法的組合算法。
基于連通區(qū)域的文本區(qū)域定位算法基于區(qū)域的方法是利用同一行字符的顏色相似這一 特性來進行定位的。這類方法通常是用顏色聚類或圖像分割的技術(shù)把圖像中的連通區(qū)域分割 出來,再對連通區(qū)域進行大小、寬高比等啟發(fā)性知識的限制以及投影分析等來獲得文本區(qū)域。 在該類算法中,可以將一個字符作為單個連通模塊和其它目標區(qū)分,其效率依賴于分割算法 的效率。另外,該類算法僅適用于高對比和高分辨率的圖像,鄰近模塊的顏色值相近則可能 導(dǎo)致錯誤分割。
基于紋理特征的方法在圖像處理領(lǐng)域中,盡管紋理是一個很重要的圖像特性,并且被 廣泛應(yīng)用于圖像分類、識別、文本區(qū)域定位等領(lǐng)域。但是由于它的變化范圍很寬泛,因而并 沒有統(tǒng)一且精確的定義。 一些學(xué)者認為紋理的標志主要有三要素 一是某種局部的序列性, 在該序列更大的區(qū)域內(nèi)不斷重復(fù);二是序列是由基本部分非隨機排列組成的;三是各部分大致都是均勻的統(tǒng)一體,紋理區(qū)域內(nèi)任何地方都有大致相同的結(jié)構(gòu)尺寸。紋理可以簡單的認為 是在圖像中反復(fù)出現(xiàn)的局部模式和它們的排列規(guī)則。顯然,文本區(qū)域是具有一定的紋理特征 的,例如漢字,它都是由一些筆畫組成,這些筆畫的重復(fù)出現(xiàn)就形成了一些模式。因此,基 于紋理特征的文本定位技術(shù)在文本區(qū)域提取領(lǐng)域中占有一定的分量。但是許多圖像中的文字 大小不一樣,甚至同一幅圖像中不同文字區(qū)域的文字大小也有差別。使得文字區(qū)域所表現(xiàn)出 的紋理特征不一樣,導(dǎo)致基于紋理的文本區(qū)域定位算法的通用性很差。
基于文字邊緣的方法文字與背景的對比通常較大,因此進行邊緣檢測之后,文字邊緣 一般較清晰。典型的基于文字邊緣的文本區(qū)域定位算法一般包含三步第一步是利用邊緣檢 測算子提取出圖像的邊緣;第二步通常利用膨脹等一些簡單的形態(tài)學(xué)方法將相鄰的邊緣線連 通形成連通區(qū)域,第三步則利用一些基于經(jīng)驗的規(guī)則對區(qū)域進行篩選以獲取最終的文字區(qū)域。 顯然,該類算法可能會受到背景影響,如果背景中其它干擾邊緣較多,則容易導(dǎo)致文字區(qū)域 漏檢或者誤檢。
現(xiàn)存的文本區(qū)域定位算法都或多或少的有一些缺點,本發(fā)明結(jié)合機器學(xué)習(xí)算法,最大程 度地去除干擾邊緣,較好的實現(xiàn)了一個在含有干擾的復(fù)雜背景圖像中的文字區(qū)域自動定位方 法及裝置。
發(fā)明內(nèi)容
本專利主要提出一種復(fù)雜圖像中文本區(qū)域的自動定位方法及裝置。該裝置可以準確定位 含有強干擾的、背景復(fù)雜的彩色圖像中的文字區(qū)域。并且,該裝置能夠有效的應(yīng)對文字大小、 方向、顏色的變化,具有較好的魯棒性。
該裝置主要包括五個部分改進的彩色邊緣檢測算子,基于圓形模板的角點信息提取算 法,結(jié)合機器學(xué)習(xí)算法的邊緣篩選算法,候選區(qū)域標定算法和候選文本區(qū)域篩選。
1改進的彩色邊緣檢測算子
邊緣檢測算法的選取至關(guān)重要,文字邊緣是否清晰、完整、以及定位是否精確將直接影 響到文本區(qū)域定位的準確度?;诨叶葓D像的邊緣檢測算子需要對彩色圖像做灰度轉(zhuǎn)換,這 樣可能導(dǎo)致顏色信息丟失,不利于邊緣檢測。為此,選用彩色邊緣檢測算子~~ColorRoberts 進行邊緣檢測。該算子首先利用擴展的Roberts算子將彩色圖像轉(zhuǎn)換至灰度邊緣圖像L,然 后利用log算子作二次邊緣提取以獲得最終的單像素邊緣圖像I2。
復(fù)雜彩色圖像通常含有大量的干擾背景,利用log算子進行二次邊緣提取可能會強化干 擾背景的邊緣,從而影響文本區(qū)域定位。通過對大量復(fù)雜圖像的深入分析后發(fā)現(xiàn),經(jīng)擴展Roberts算子變換后獲得的灰度邊緣圖像中,干擾背景點的灰度值通常較低,而文字邊緣點 的灰度值較高, 一般不低于80。另外,Roberts算子是一種利用局部差分算子尋找邊緣的算 子。利用擴展的Roberts算子獲得彩色圖像的灰度邊緣圖像以后,在邊緣的拐角處,灰度值 通常較低。其它邊緣點的灰度值大約是拐角處邊緣點灰度值的V^倍。
為此,本文首先對灰度邊緣圖像L做閾值分割來去除大量干擾背景的邊緣點和一些非文 字邊緣點,然后利用非極大值抑制來獲取文字邊緣。在非最大值抑制時,需要對邊緣點灰度 值與局部區(qū)域極大值形成近似V^倍關(guān)系的點予以保留以確保不出現(xiàn)邊緣斷裂。
2基于圓形模板的角點信息提取算法
文字邊緣上不同角度大小的角點的分布具有一定的規(guī)律,這些角點信息有助于區(qū)分文字 邊緣與非文字邊緣。為準確定位文字邊緣上的角點并獲取角點處角度的大小,設(shè)計出一種新 的圓形模板。該模板為一個半徑約為5的圓形區(qū)域,提取角點信息時,將邊緣點映射到圓形 模板中,即可通過計算邊緣之間的非邊緣點數(shù)量而獲得夾角的大小。最后通過對角點角度的 非極大值抑制來獲取最終的角點。算法獲取的角點角度均限制在(0, 180)以內(nèi),因為在不 考慮文字方向的情況下,X度與360-X所代表的彎曲程度一致。
3結(jié)合機器學(xué)習(xí)算法的邊緣篩選算法
邊緣檢測之后,獲得了復(fù)雜彩色圖像的邊緣圖,該邊緣圖像中同時含有文字邊緣和背景 邊緣以及一些干擾對象的邊緣。在復(fù)雜彩色圖像中,文字的大小,方向,位置等都在變化, 但是文字邊緣的角點數(shù)量和大小卻不會發(fā)生大的變化。文字邊緣中的角點密度一般較大,角 度值分布也有一定的規(guī)律。將角度大小按每5度分段,180度共分為36段,將每一段的角點 數(shù)量作為一維特征以及總的角點數(shù)作為一維特征共可以獲得37維特征。另外,文字邊緣所占 據(jù)的一個矩形區(qū)域不會特別大,也不會特別小,邊緣密度也通常在一定的范圍之內(nèi)。因此選 取邊緣區(qū)域的長、寬、面積、對角線長度、及它們之間的比例。經(jīng)過篩選,與37維角點特征 一起共獲得47維特征。
利用這47維特征可以有效區(qū)分文字邊緣和非文字邊緣,選用一種機器學(xué)習(xí)算法以訓(xùn)練一 個分類器就可以剔出圖像中大量的非文字邊緣。已證明有效的機器學(xué)習(xí)算法包括支持向量機、 C4. 5決策樹算法。
4候選文本區(qū)域標定算法
經(jīng)過邊緣篩選以后,圖像中剩余文字邊緣以及少量的非文字邊緣。首先對邊緣篩選后的 圖像做兩次膨脹運算,使得相鄰的邊緣連通起來形成較大的連通區(qū)域。然后對連通區(qū)域進行標記,并求去這些連通區(qū)域的輪廓。對輪廓進行霍夫變換求取這些區(qū)域的方向。根據(jù)方向標 定這些連通區(qū)域的最小外接矩形,形成候選文本區(qū)域。 5候選文本區(qū)域篩選
候選區(qū)域中有少量的虛假文本區(qū)域,為精確定位文本區(qū)域,需要對文本區(qū)域進行一些篩 選工作。利用文本區(qū)域的一些特征,去除存在的虛假文本區(qū)域以進一步提高文本區(qū)域的定位 精度。
最后,實施本發(fā)明具有以下有益效果
從以上技術(shù)方案可以看出,本發(fā)明首先就利用改進的彩色邊緣檢測算子在獲取邊緣的同 時去除一部分干擾背景,然后利用魯棒性強的圓形模板獲取文字的角點信息以為邊緣篩選提 供有力依據(jù)。在邊緣篩選時,所選擇的機器學(xué)習(xí)分類算法較多,甚至可以多種組合以提高精 確率。利用霍夫變換獲得文字的大致方向使得文字區(qū)域最接近真實的文字區(qū)域,使得其定位 精度較高。最后,利用規(guī)則對候選文本區(qū)域進行篩選以進一步提高定位準確度。綜上所述, 本發(fā)明提供的方案具有較強的靈活性和較高的實用價值。
圖1為本發(fā)明中整個裝置的具體流程圖2為本發(fā)明中改進的彩色邊緣檢測算法的具體流程圖3為本發(fā)明為提取文字角點而設(shè)計的模板示意圖4為本發(fā)明提取角點信息的流程圖5為本發(fā)明標定候選文本區(qū)域的具體流程圖。
具體實施例方式
為使本發(fā)明的目的、技術(shù)方案、及優(yōu)點更加清楚明白,以下參照附圖對本發(fā)明進一步詳 細說明。
請參閱圖l,該圖為整個裝置的總流程圖,整個裝置主要包含7步 步驟IOI、獲取輸入圖像
所輸入的圖像指我們要進行文本區(qū)域定位的各種圖像,例如含強烈人為干擾的垃圾郵件 圖像等。當(dāng)我們的裝置作為其它系統(tǒng)的一個模塊時,可以通過參數(shù)傳遞的方式獲得輸入圖像。當(dāng)我們的裝置獨立運行時可獲取指定位置的圖像。 步驟102、彩色邊緣檢測
為減少顏色信息的丟失,本裝置使用改進的邊緣檢測算子來提取圖像邊緣。首先使用擴
展的Roberts算子將彩色圖像轉(zhuǎn)換到灰度邊緣圖像中,然后利用自動閾值分割去除灰度邊緣 圖像中的大量干擾背景,再次利用非極大值抑制獲取邊緣。在非極大值抑制時需要保留那些 不是局部極大值,但局部極大值是其灰度值的V^倍的像素點。 步驟103、角點檢測
為精確定位圖像中的角點和準確提取出角點處角度的大小,本裝置采用一個圓形模板來 提取角點信息。圓形模板使得角點檢測算法對文字方向變化不敏感,使得整個裝置的適用性 得到增強。
步驟104、邊緣篩選
文字邊緣與其它背景或物體邊緣有許多不同的特征。尤其是文字邊緣上的角點分布密集, 并且這些角點的角度也有一定的規(guī)律。結(jié)合邊緣的其它特征,如邊緣長度,高度等,選取一 種機器學(xué)習(xí)算法一訓(xùn)練一個智能的分類器。為提高精度,也可以融合多種機器學(xué)習(xí)算法對邊
緣進行分類。這一步的目的是盡量多的去處非文字邊緣。
步驟105、候選區(qū)域標定
經(jīng)過邊緣篩選以后,圖像中包含文字邊緣和少量的非文字邊緣。利用一些形態(tài)學(xué)操作將 這些邊緣連通起來形成一些連通區(qū)域,然后利用一些規(guī)則進行處理可以確定最終的文字區(qū)域。 這些形態(tài)學(xué)操作包括膨脹,區(qū)域標記,輪廓提取。為精確求取連通區(qū)域的最小外接矩形需要 利用霍夫變換求取文字的排列方向。
步驟106、候選區(qū)域篩選
上一步驟中所形成的候選區(qū)域中存在少量的虛假文本區(qū)域,需要對候選文本區(qū)域作進一
步篩選以提高文本區(qū)域定位的正確率。裝置中使用以下規(guī)則對文本區(qū)域進行限制
圖像中的文字需要能便于閱讀,所以,文字不能太小。另外,受制于圖像的大小,文
字不能太大,否則圖像中能嵌入的文字就會變少。因此文字區(qū)域的高度應(yīng)該在大于5
個像素而小于48個像素; *文字區(qū)域一般由多個文字連接而成,本裝置中設(shè)定文字區(qū)域的寬度應(yīng)該大于15個像
素;
文本區(qū)域內(nèi)的邊緣分布較密集,因此邊緣密度較高。因此,文本區(qū)域內(nèi)所包含的邊緣 像素點數(shù)量與區(qū)域內(nèi)總的像素點數(shù)量之比應(yīng)該在0.178到0.88之內(nèi); 另外,圖像中許多小區(qū)域都是由一些較小的噪聲點或干擾線構(gòu)成。而真正的文字區(qū)域 一般大于75個像素點。因此,本裝置將低于75個像素點的文本區(qū)域視為虛假文本區(qū) 域。
步驟107、輸出文本區(qū)域
本裝置既可以輸出各文本區(qū)域矩形的四個坐標,也可以直接標定彩色圖像的文本區(qū)域矩形。
圖2為改進的彩色邊緣檢測算法的流程圖,主要包括三個步驟獲取灰度邊緣圖像,閾 值分割和非極大值抑制。
步驟201、獲取灰度邊緣圖像
本裝置通過擴展的Roberts算子對彩色圖像進行處理以獲取灰度邊緣圖像。己知輸入彩 色圖像I,其中像素點(i, j)的R, G, B彩色分量分別為R (i, j), G (i, j), B (i, j)。 則定義如下彩色梯度算子來將彩色圖像I轉(zhuǎn)換到灰度圖像11:
Ii = ^11(1(1 +n,j + n;i,j) + Eud(i,j + n;i + n,j) (1)
其中式(1)中
Eud(i!, j, ;i2 J2) = V[R(h, j,) — R(h j2)]2 + [G(h, j!) - G(i2》)]2 + [B(h, j 。 — B(i2 j2)]2 (2)
并且在具體實施時,式(1)中一般n取l,獲得的圖像L就是我們需要的灰度邊緣圖像。 步驟202、閾值分割
得到邊緣灰度圖像I,后,對圖像作閾值分割以去除大量的干擾背景。分割閾值選取算法 的描述如下
int ThO=N*0. 12;〃獲得圖像中文字邊緣灰度像素數(shù)int count-0: int Th=80; 〃存放分割閾值 for(int i=255;i>80;i++)
count+=h(i): if(count > Th0)
Th^;〃獲得分割閾值 break;算法中N為灰度圖像L中的像素點總數(shù),h( i )中存放的是L中灰度值為i的像素點 數(shù)量,Th為最后獲得的分割閾值。閾值分割公式如式(3)所示
分割后獲得邊緣圖像12。
步驟203、非極大值抑制
通過步驟202去除灰度圖像L中的大部分干擾背景點以后,采用局部區(qū)域非極大值抑制 以進一步去除非邊緣像素點。 一個點是局部區(qū)域極大值時,對該點予以保留。為防止出現(xiàn)邊 緣斷裂,當(dāng)一個點不是局部區(qū)域極大值,但是局部區(qū)域極大值與該點的灰度值形成近似V^倍 關(guān)系,即該值的L倍小于局部區(qū)域的極大值,該值的T2倍大于局部區(qū)域極大值時,對這些點 予以保留。在實現(xiàn)時,取3X3的窗口作為局部區(qū)域,T,取為1.35, T2取為1.5。
圖3為本裝置為提取角點信息而設(shè)計的圓形模板,該模板以點A為圓心,圍繞點A有四 個圓環(huán),分別為B環(huán)、C環(huán)和D環(huán)。角點信息提取時首先應(yīng)將要求去的點與圓心對起。具體 求取步驟如圖4所示。
圖4為本裝置提取角點信息的流程圖,共包含7個步驟讀取一個像素點、判斷該點是 否為邊緣點、獲取邊緣點在圓形模板內(nèi)的分布圖、判斷該邊緣點是否為可能的角點、計算角 點處近似值角度值、判斷是否處理完畢所有像素點、非極大值抑制。
步驟401、讀取邊緣圖像中的一個像素點 依次讀取圖像中的一個像素點的值。 步驟402、判斷該點是否為邊緣像素點 即判斷該點的像素值是否為255,如果不是則跳至步驟406。 步驟403、獲取邊緣點在圓形模板內(nèi)的分布圖
為了不受鄰近文字邊緣影響,要求圓形模板內(nèi)的所有像素點均與圓心像素點屬于同一個 文字。因此只將與像素點屬于同一個連通區(qū)域的邊緣點加入到圓形模板內(nèi),將邊緣點標記為 "1",非邊緣點標記為"0"。
步驟404、判斷該點是否是為可能的角點
為加快計算速度,該步驟利用一些簡單規(guī)則來去除一些明顯不是角點的邊緣點。以下兩類點肯定不是角點
圓心點周圍8個點都是邊緣點時,該點不是邊緣點;
在圓形模板上,像素點的分布圖中,B環(huán)上出現(xiàn)序列1、 0、 0、 0、 1時該圓心像素點 不是角點;
當(dāng)滿足以下兩個條件之一時直接跳過該點,轉(zhuǎn)到步驟406。 步驟405、計算圓心處的近似角度值
在圓形模板的像素點分布圖中,將由全"0"組成的連通區(qū)域稱為"0"域,將與圓心連 通的"0"域稱為有效"0"域。這樣對有效"0"域內(nèi)各圓環(huán)上標記為"0"的像素點數(shù)量進 行統(tǒng)計就可以求出圓心點處的近似角度值。角度值的具體計算方式如下
Bd(n)= 45x[Nb(n)+l] (4) Cd(n)= 30x[Nc(n)+l] (5) Dd(n)- 22.5x[Nd(n)+l] (6)
Ed(n)= 11.25x[Ne(n)+l] (7)
…、Bd (n) +Cd (n) +Di (n) +Ed (n)
ZAa (n)=- (8)
4
Do(ij)=max(ZAd(n》n= 1,2,3... (9)
f360陽D。(i,j)D。(i,j)2180 D(i,j)H (10) lDo(i,j) D。(i,j)<180
式(4)-(7)中Nb (n), Nc (n), Nd (n), Ne (n)分別代表第n個有效"O"域在B, C, D, E四環(huán)上灰度值為"0"的像素點數(shù)量,Bd (n), Cd (n), Dd (n), Ed (n)分別代表第n個 有效"O"域在B, C, D, E四環(huán)上計算所得到的夾角度數(shù)。式(8)中,ZVd (n)為第n個有效 "0"域上4環(huán)所得角度值的平均值,并以此作為該有效"0"域的近似角度值。利用公式(9) 取圓心點周圍所有有效"0"域所獲得的最大角度值作為該點的近似角度值。許多圖像中,文 字排列方向變化較大,因此角點方向?qū)ξ谋緟^(qū)域定位意義不大。在不考慮角點方向時,X度 和360-X度所代表的彎曲程度相同。所以算法通過式(10)將所有角點角度值D(i, j)都限 定在(0, 180)以內(nèi)。
步驟406、判斷是否處理完圖像中所有的像素點
如果已經(jīng)處理完畢則轉(zhuǎn)向步驟407,否則轉(zhuǎn)向步驟401繼續(xù)處理下一個像素點。 步驟407、非極大值抑制
對局部區(qū)域內(nèi)角度值變化非極大值的點進行抑制來篩選出最終的角點。所選擇的局部區(qū)域為與圖3所示的圓形模板同樣大小的一個圓形區(qū)域。
圖5為本裝置標定候選文本區(qū)域的流程圖,該部分共包含6個步驟輸入邊緣圖像、圖 像膨脹、區(qū)域標記、輪廓提取、霍夫變換、候選文本區(qū)域標定。
步驟501、獲得經(jīng)過邊緣篩選的邊緣圖像
獲得已經(jīng)去除大量非文字邊緣的圖像,便于對圖像做進一步處理。 步驟502、圖像膨脹
選用一條水平線段作為結(jié)構(gòu)元素,進行水平膨脹,使得相鄰的各邊緣連通起來形成連通 區(qū)域。
步驟503、區(qū)域標記
利用區(qū)域標記算法,給每個連通區(qū)域一個標記以便于后面的處理。 步驟504、輪廓提取
提取連通區(qū)域的輪廓,可以降低霍夫變換的處理量。 步驟505、霍夫變換
將區(qū)域的輪廓作為霍夫變換的輸入,這樣可以確定文字的排列方向。 步驟506、候選文本區(qū)域標定
步驟505獲得了文字區(qū)域的排列方向,可以在該方向上做出個連通區(qū)域的最小外接矩形 以標定候選文本區(qū)域。
以上對本發(fā)明實所提供的在復(fù)雜背景的彩色圖像中自動定位文本區(qū)域的方法及系統(tǒng)進行 了詳細介紹,以上說明只是用于幫助理解本發(fā)明的方法及其思想;同時,對于本領(lǐng)域的一般 技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述, 本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1一種復(fù)雜圖像中文本區(qū)域的自動定位方法及裝置。首先獲取圖像邊緣;然后結(jié)合機器學(xué)習(xí)算法并利用邊緣的一些特征如角點信息等對邊緣進行篩選以去除非文字邊緣;再結(jié)合形態(tài)學(xué)操作與霍夫變換形成候選文本區(qū)域;最后利用一些規(guī)則去除虛假文本區(qū)域以實現(xiàn)文本區(qū)域的精確定位。
2.如權(quán)利要求l所述,本裝置使用改進的邊緣檢測算子來提取圖像邊緣。首先使用擴展的Roberts算子將彩色圖像轉(zhuǎn)換到灰度邊緣圖像中;然后利用自動閾值 分割去除灰度邊緣圖像中的大量干擾背景;最后利用非極大值抑制獲取邊緣。
3.本裝置采用一個圓形模板來提取角點信息,該方法可以精確定位圖像中的角點并能 同時計算出角點處角度的近似大小。
4.如權(quán)利要求1所述,利用邊緣的角點信息和其它特征,如邊緣長度、高度等,選取 一種機器學(xué)習(xí)算法以訓(xùn)練一個智能的分類器對邊緣進行篩選來去除非文字邊緣。為提高精 度,也可以融合多種機器學(xué)習(xí)算法對邊緣進行分類。
5.如權(quán)利要求1所述,利用一些形態(tài)學(xué)操作將這些邊緣連通起來形成一些連通區(qū)域, 然后利用一些規(guī)則進行處理可以確定最終的文字區(qū)域。為精確求取連通區(qū)域的最小外接矩 形需要利用霍夫變換求取文字的排列方向。
6.如權(quán)利要求1所述,為進一步去除圖像中存在的虛假文本區(qū)域,本發(fā)明使用一些經(jīng)驗 規(guī)則對文本區(qū)域進行限制,例如文本區(qū)域的寬、高、邊緣密度等。
7.權(quán)利要求3中提取角點信息的步驟包括讀取一個像素點并判斷該點是否為邊緣點; 獲取邊緣點在圓形模板內(nèi)的分布圖;判斷該邊緣點是否為可能的角點;計算角點處近似值 角度值;處理完所有像素點后對候選角點實施非極大值抑制。
8.本裝置既可以輸出各文本區(qū)域矩形的四個坐標,也可以直接標定彩色圖像的文本區(qū) 域矩形。
9.本裝置中標定候選文本區(qū)域的步驟包括輸入邊緣圖像、圖像膨脹以形成連通區(qū)域、 區(qū)域標記、輪廓提取、霍夫變換求取文本區(qū)域傾斜角度、候選文本區(qū)域標定。
全文摘要
本發(fā)明涉及圖像處理技術(shù)和模式識別算法,公開了一種結(jié)合機器學(xué)習(xí)算法的智能的復(fù)雜彩色圖像中文本區(qū)域自動定位的方法與裝置。首先利用一種改進的彩色圖像邊緣檢測算子獲取圖像的邊緣圖;其次利用一種新的基于圓形模板的角點檢測算法定位圖像中的角點并同時獲取角點處張角的大??;再次結(jié)合各條邊緣的角點信息和邊緣的其它特征,用一種機器學(xué)習(xí)算法對邊緣進行篩選以過濾掉大量的非文字邊緣;最后利用一些形態(tài)學(xué)算法對篩選后的圖像進行處理并形成連通區(qū)域,通過霍夫變換獲取文本區(qū)域的傾斜角以獲取文字區(qū)域的準確方向,結(jié)合一些規(guī)則去除虛假文字區(qū)域而最終獲得真實的文字區(qū)域。
文檔編號G06K9/46GK101593277SQ20081004448
公開日2009年12月2日 申請日期2008年5月30日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者萬明成, 周俊怡, 秦志光, 程紅蓉, 肖正宇, 蔚 鄧 申請人:電子科技大學(xué)