專利名稱:一種定位自然場景圖像中文本的方法
技術領域:
本發(fā)明屬于圖像文本分析領域,具體涉及ー種定位自然場景圖像中文本的方法。
背景技術:
以往的定位自然場景圖像中文本的方法大致可以歸為兩類基于文本塊的和基于圖像連通域的?;谖谋緣K的方法使用滑動窗ロ在圖像中捜索可能的文本塊,然后使用機器學習的算法進行文本塊判定。基于圖像連通域的方法首先通過某些方法提取圖像中的連通域,然后將連通域聚合成文本塊,并通過進一歩的檢查或使用機器學習算法進行文本塊的判定。在非專利文獻I中,通過聚合具有相似筆劃寬度的像素點形成連通域,得到的連通域經(jīng)過過濾后聚合成文本。非專利文獻2是ー種基于文本塊的方法,使用了文本塊的水平和垂直梯度變化率的方差特征。非專利文獻3中提到ー種基于連通域的方法。該方法使 用最穩(wěn)定極值區(qū)域作為連通域,連通域聚合成文本塊后提取文本塊的梯度特征,并使用級聯(lián)的分類器對文本塊進行判定。在目前已有的方法中,文本的查全率和查全率較低,處理速度較慢。非專利文獻I :B. Epshtein, E. Ofek, and Y. ffexler. Detecting text innatural scenes with stroke width transform. Computer Vision and PatternRecognition (CVPR),2010 IEEE Conference on,pages 2963-2970,June 2010非專利文獻2:Χ· Chen and A. Yuille. Detecting and reading text in naturalscenes.In Computer Vision and Pattern Recognition,2004. CVPR 2004.Proceedingsof the 2004 IEEE Computer Society Conference on, volume 2, pages 11-366-11-373Vol. 2,june-2 july 2004非專利文獻3:A. Shahab,F(xiàn). Shafait,and A. Dengel. ICDAR 2011 robust readingcompetition challenge 2 !Reading text in scene images. In Document Analysis andRecognition (ICDAR),2011 International Conference on,pages 1491-1496,sept.201
發(fā)明內(nèi)容
針對現(xiàn)有技術存在查全率和查準率低,處理速度慢的缺點,本發(fā)明提出了ー種定位自然場景圖像中文本的方法。本發(fā)明提出的定位自然場景圖像中文本的方法包括圖像連通域提取步驟,提取最穩(wěn)定極值區(qū)域作為圖像連通域;文本塊提取步驟,針對圖像連通域建立無向圖模型并使用并查集提取無向圖的連通域作為文本塊;文本塊判別步驟,提取文本塊特征并使用機器學習算法進行文本塊分類。在文本塊提取步驟,定義無向圖模型的鄰接關系時考慮了連通域的高、寬、中心點、顏色和筆劃寬度特征。在文本塊識別步驟,提取的文本塊特征包括文本塊內(nèi)連通域的筆劃寬度、顏色、飽和度(compactness)、極值區(qū)域穩(wěn)定性和水平垂直兩個方向梯度變化率的方差和筆劃寬度的均值。文本塊判別步驟使用了 AdaBoost學習算法進行文本塊分類。根據(jù)本發(fā)明,能夠快速準確地定位自然場景圖像中的文本,得到的查全率和查準率高于目前報告的方法。
圖I是本發(fā)明中的定位自然場景 圖像中文本的方法的系統(tǒng)流程圖;圖2是本發(fā)明中文本塊提取流程圖;圖3是本發(fā)明中文本塊判別流程圖;圖4是本發(fā)明中像素點的筆劃寬度提取示意圖;圖5是本發(fā)明中基于連通域的文本塊提取算法示意圖;圖6是本發(fā)明中文本塊基于梯度變化率特征的提取示意圖;圖7是本發(fā)明中連通域邊緣像素點導數(shù)計算示意圖。
具體實施例方式以下結合附圖對本發(fā)明的具體實施方式
作詳細說明。圖I是依據(jù)本發(fā)明的的定位自然場景圖像中文本的方法的系統(tǒng)流程圖。
如圖I所示,依據(jù)本發(fā)明的定位自然場景圖像中文本的方法包括圖像連通域提取步驟101、文本塊提取步驟102和文本塊判別步驟103。圖像連通域提取步驟101使用OpenCV的庫函數(shù)提取最穩(wěn)定極值區(qū)域作為圖像連通域。上述庫函數(shù)需要設定一系列參數(shù)控制提取過程,各個參數(shù)的具體設定為delta =7,minArea = 60,maxArea = O. 08 · imageWidthX imageHeight, maxVariation = 0. 25,minDiversity = 0. 5。圖2是文本塊提取步驟102的流程圖,包括針對圖像連通域的無向圖建模的步驟201和基于無向圖連通域的文本塊提取的步驟202。步驟201建立無向圖模型G = (V,E),其中V是頂點集,其元素為步驟101提取的連通域;E是邊集,其元素為由具有鄰接關系的連通域所組成的無序?qū)?。頂點之間的鄰接關系是通過連通域之間的距離確定的。定義連通域u, V之間的距離為d(u, V) = Σ meMdm(u,v)wm,其中M是考慮的特征集合,包括高、寬、中心點、顔色和筆劃寬度,dm(u,v)為連通域特征m下u, V的距離,Wm為分配給特征m的權重。當且僅當d(u,v) < e時,連通域u, v是鄰接的,其中e為閾值。各個特征的權重為wmidth = I. O,Wheight = I. 5,w
centroidX I· ^ ^centroidY
I.り,WCQiQr 2. 5,WstrQke 2. Do步驟201中連通域的高、寬、中心點分別為連通域最小包圍矩形的高、寬、中心點。以下為步驟201中各個特征下連通域的距離計算公式。長
lin !i/hlf it) — In I Ijh I ( r Jl ('I」· maxi //("I. Iii ifilil I Π )寬
n-nli h u ) — fi'nli h i r I
#f “'.丨x ' ,-% . maxi" U n'uiUii r j I
中心點X坐標
權利要求
1.ー種定位自然場景圖像中文本的方法,其特征在于,該方法包括以下步驟 1)圖像連通域提取步驟提取最穩(wěn)定極值區(qū)域作為圖像連通域; 2)文本塊提取步驟針對圖像連通域建立無向圖模型并提取無向圖的連通域作為文本塊; 3)文本塊判別步驟提取文本塊特征并使用機器學習算法進行文本塊分類。
2.根據(jù)權利要求I所述的方法,其特征在于,所述步驟(2)中的針對圖像連通域建立無向圖模型,是使用所述圖像的連通域作為無向圖模型的頂點,根據(jù)圖像連通域之間的距離是否足夠小來確定頂點間的鄰接關系。
3.根據(jù)權利要求2所述的方法,其特征在于,所述連通域之間的距離為連通域之間高、寬、中心點、顏色和筆劃寬度差異的加權和。
4.根據(jù)權利要求3所述的方法,其特征在于,所述連通域的筆劃寬度為連通域內(nèi)部分像素點筆劃寬度的均值。
5.根據(jù)權利要求4所述的方法,其特征在于,所述的像素點的筆劃寬度定義為穿過該像素點并落在連通域內(nèi)的從上到下,從左到右,從左上到右下,從右上到左下的四條線段長度的最小值。
6.根據(jù)權利要求I所述的方法,其特征在于,所述的提取無向圖連通域的文本塊,是使用并查集提取無向圖的連通域作為文本塊。
7.根據(jù)權利要求I所述的方法,其特征在于,所述的提取文本塊特征,其中所述特征包括文本塊內(nèi)連通域的筆劃寬度、顔色、飽和度、極值區(qū)域穩(wěn)定性和水平垂直兩個方向梯度變化率的方差和筆劃寬度的均值。
8.根據(jù)權利要求7所述的方法,其特征在干,所述的連通域的水平方向梯度變化率定義為X導數(shù)非零的邊緣像素點的個數(shù)除以連通域的高度;所述的連通域的垂直方向梯度變化率定義為y導數(shù)非零的外邊緣像素點的個數(shù)除以連通域的高度。
9.根據(jù)權利要求I所述的定位自然場景圖像中文本的方法,其特征在于,所述的使用機器學習算法進行文本塊分類是使用AdaBoost學習算法進行文本塊分類。
全文摘要
本發(fā)明提出了一種定位自然場景圖像中文本的方法,包括圖像連通域提取步驟,提取最穩(wěn)定極值區(qū)域作為圖像連通域;文本塊提取步驟,針對圖像連通域建立無向圖模型并使用并查集提取無向圖的連通域作為文本塊;文本塊判別步驟,提取文本塊特征并使用機器學習算法進行文本塊分類。根據(jù)本發(fā)明,能夠快速準確地定位自然場景圖像中的文本,得到的查全率和查準率高于目前現(xiàn)有技術中的方法。
文檔編號G06K9/20GK102663383SQ20121012713
公開日2012年9月12日 申請日期2012年4月26日 優(yōu)先權日2012年4月26日
發(fā)明者尹緒旺, 殷緒成, 郝紅衛(wèi) 申請人:北京科技大學