專利名稱:基于子網(wǎng)格特征自適應(yīng)加權(quán)的視頻圖像文字識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻圖像文字識(shí)別技術(shù),具體是ー種基于子網(wǎng)格特征自適應(yīng)加權(quán)的視頻圖像文字識(shí)別方法。
背景技術(shù):
近年來,隨著多媒體技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展,數(shù)字視頻的容量正以驚人的速度增長。這樣,從數(shù)字視頻中抓取到的圖像中包含有重要的文字信息,在一定程度上對(duì)圖像主要內(nèi)容進(jìn)行簡練描述和說明,這在基于內(nèi)容的視頻數(shù)據(jù)庫檢索(黃祥林,沈蘭蓀.基于內(nèi)容的圖像檢索技術(shù)研究[J]·電子學(xué)報(bào).2002,30 (7) :1065-1071.)中起到重要的作用。對(duì)于嵌于圖像中的文本信息進(jìn)行檢測與識(shí)別,使用戶能更加快捷和準(zhǔn)確地獲取蘊(yùn)于圖像中的豐富的信息。所以,如何從含有背景的圖像和視頻圖像中快速而準(zhǔn)確地定位和提取文本信息,成為現(xiàn)今國際上熱門的研究課題。視頻圖像色彩變化具有復(fù)雜多變性,針對(duì)這類具有復(fù)雜背景圖像文字的定位算法,目前主要可以分為基于連通域和基于紋理的兩種類型方法?;谶B通域(田破荒,彭天強(qiáng),李弼程.基于文字穿越線和筆畫連通性的視頻文字提取方法[J].電子學(xué)報(bào),2009,37(I) :72-78 ;Michele Merler, JohnR. Render. Semantic Keyword ExtractionVia Adaptive Text Binarization of Unstructured UnsourcedVideo.ImageProcessing. 2009,11. p261_264.)的方法是首先利用顏色或灰度等屬性從圖像中提取出連通域,然后根據(jù)幾何特征來對(duì)它們進(jìn)行鑒別,最后將通過鑒別的連通域合并成文字定位的結(jié)果?;诩y理(Zhong Y, Zhang H, Jain A K. Automatic caption localizationin compressed videos[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence. 2000, 22 (4) P385-392.)的方法是通過考察像素的鄰域,應(yīng)用紋理分析的方法確定出文字區(qū)域。特征選擇在模式識(shí)別領(lǐng)域中有十分廣泛的應(yīng)用,提取方法也是影響識(shí)別率的關(guān)鍵因素。上個(gè)世紀(jì)60年代最初由Casey和Nagy提出的模板匹配方法識(shí)別出了 1000個(gè)印刷體漢字,我國是從70年代末期開始進(jìn)行漢字識(shí)別方面的研究,經(jīng)過這幾十年的努力,已經(jīng)有成熟的光學(xué)字符識(shí)別(OCR, Optical Character Recognition)系統(tǒng)在實(shí)現(xiàn)生活中得到應(yīng)用。然而,現(xiàn)有的OCR系統(tǒng)往往是針對(duì)較為簡單的文檔形式的圖像文字,對(duì)于視頻圖像等較為復(fù)雜的圖像涉及的并不多。目前,對(duì)于中文字符比較常用的表示方法有結(jié)構(gòu)特征和統(tǒng)計(jì)特征。結(jié)構(gòu)模式識(shí)別是以字符的組成結(jié)構(gòu)為出發(fā)點(diǎn)。從字符的結(jié)構(gòu)上來看,漢字是由橫 豎撇捺四個(gè)筆劃和偏旁部首共同組成的。結(jié)構(gòu)模式識(shí)別就是提取出其內(nèi)部所具備的結(jié)構(gòu)特征,優(yōu)點(diǎn)是能夠適應(yīng)字符在字體形式上的變化,對(duì)區(qū)分相似字的能力強(qiáng),缺點(diǎn)是對(duì)特征的描述較為復(fù)雜,使得特征匹配方法有較高的復(fù)雜度。統(tǒng)計(jì)模式識(shí)別是以字符的像素點(diǎn)陣作為ー個(gè)整體,在此之上經(jīng)過大量的統(tǒng)計(jì)獲取到所表示的特征。統(tǒng)計(jì)特征的優(yōu)點(diǎn)是具備較強(qiáng)的抗干擾性,特征匹配與分類的方法簡單,易于實(shí)現(xiàn)。缺點(diǎn)是在于細(xì)分能力較弱,對(duì)于相似字的特征區(qū)分能力差ー些。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有視頻圖像文字識(shí)別中存在的上述技術(shù)問題,本發(fā)明提出一種基于子網(wǎng)格特征自適應(yīng)加權(quán)的視頻圖像文字識(shí)別方法,包括如下步驟獲取文字的ニ值圖像,采用按筆畫密度進(jìn)行的彈性網(wǎng)格方法對(duì)圖像文字進(jìn)行區(qū)域網(wǎng)格劃分,根據(jù)相鄰網(wǎng)格的筆畫結(jié)構(gòu)相關(guān)性進(jìn)行判定,計(jì)算彈性網(wǎng)格特征。具體包括一種基于子網(wǎng)格特征自適應(yīng)加權(quán)的視頻圖像文字識(shí)別方法,在指定圖像中確定文本區(qū)域,可采用邊緣的粗文字區(qū)域定位與精確文字區(qū)域定位;采用文字ニ值化將圖像文字從背景中分割出來;對(duì)圖像文字進(jìn)行分割,將分割出來的圖像文字區(qū)域劃分成一個(gè)以單字字符為主的區(qū)域;根據(jù)字符水平投影處峰值的變化進(jìn)行文本行分割,根據(jù)相鄰文本區(qū)域的位置關(guān)系確定對(duì)相鄰文本區(qū)域進(jìn)行合并;從文本區(qū)域的右上角開始進(jìn)行種子搜索,種子 點(diǎn)匯聚成種子區(qū)域,將被搜索分割開來的種子區(qū)域進(jìn)行組合合并,從而得到構(gòu)成單個(gè)獨(dú)立的字符區(qū)域;在字符區(qū)域內(nèi),對(duì)圖像文字在水平和垂直方向上進(jìn)行筆劃密度投影H(i)和V(j),將大小為MXN的圖像文字劃分出PXQ個(gè)子網(wǎng)格;依據(jù)鄰域子網(wǎng)格共同的偏移方向判斷中心子網(wǎng)格是否受到其鄰域的影響,采用模糊隸屬度函數(shù)確定鄰域子網(wǎng)格的貢獻(xiàn)率。本發(fā)明通過以上方法,使字符特征提取在穩(wěn)定性和健壯性方面得以提高,從而有利于視頻圖像文字的識(shí)別率。本發(fā)明包括視頻圖像的文字提取和識(shí)別。視頻圖像文字提取包括圖像中文字區(qū)域的檢測與定位,對(duì)文字區(qū)域進(jìn)行ニ值化過濾背景圖像,以及圖像文字分割。視頻圖像文字識(shí)別包括圖像文字的動(dòng)態(tài)網(wǎng)格劃分,基于筆畫相關(guān)性網(wǎng)格特征提取。能動(dòng)態(tài)定位文本位置,通過動(dòng)態(tài)網(wǎng)格劃分,方便提取文字特征,提高了文字的識(shí)別率,本方法操作簡單,容易實(shí)現(xiàn)。
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)ー步說明。圖I本發(fā)明識(shí)別方法的流程圖;圖2本發(fā)明橫筆畫子網(wǎng)格相關(guān)性示意圖;圖3本發(fā)明子網(wǎng)格筆畫相關(guān)性示意圖;圖4本發(fā)明鄰域子網(wǎng)格的筆畫貢獻(xiàn)示意圖。
具體實(shí)施例方式以下針對(duì)附圖對(duì)本發(fā)明的實(shí)時(shí)方式進(jìn)行具體描述。本發(fā)明設(shè)計(jì)ー種基于子網(wǎng)格特征自適應(yīng)加權(quán)的視頻圖像文字識(shí)別方法。該方法包括如下步驟。采用Sobel算子提取出圖像的邊緣特征信息,在邊緣特征圖上進(jìn)行文本檢測,清除復(fù)雜圖像中背景信息的邊緣,將檢測到的邊緣信息依次提取出區(qū)域位置,再把位置信息逐步合并,從而構(gòu)成完整的文本區(qū)域,通知字符切分獲取到獨(dú)立單個(gè)字符的區(qū)域信息。然后在對(duì)各個(gè)字符區(qū)域上提取到基于筆畫相關(guān)性的特征,將得到的特征與字庫包含的特征進(jìn)行比較。使用多級(jí)分類的方式,逐級(jí)過濾篩選,最后把最佳匹配值對(duì)應(yīng)的字符作為識(shí)別結(jié)果。I、視頻圖像文字定位
在對(duì)圖像中的文字進(jìn)行識(shí)別之前,首先執(zhí)行圖像文字區(qū)域提取,也就是在指定的圖像中,有效的確定出文本區(qū)域,并將字符圖像與背景圖像分離開,為字符特征提取做準(zhǔn)備。一般說來,在該階段要進(jìn)行的操作主要有兩部分組成文本定位和字符切分。(I)文字區(qū)域定位為了能夠準(zhǔn)確提取出視頻圖像中的文字,首先要區(qū)分識(shí)別圖像中文字部分與所對(duì)應(yīng)的背景部分,準(zhǔn)確找出文字部分,文字區(qū)域定位可以通過執(zhí)行以下方法來完成定位工作可采用邊緣的粗文字區(qū)域定位與精確文字區(qū)域定位。
目前,彩色圖像占據(jù)幾乎所有影視場景,在這種情況下,首先對(duì)圖像進(jìn)行灰度化,并進(jìn)行高斯平滑降噪處理,獲得灰度圖像。粗文字區(qū)域定位可基于邊緣提取,如可采用文獻(xiàn)(李闖,丁曉青,吳佑壽.基于邊緣的字符串定位算法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版).2005,45(10) :1335-1338.;盧海彥,程義民,何兵兵,張玲.基于自適應(yīng)閾值的視頻文本檢測方法[J].計(jì)算機(jī)仿真.2008,25 (9) :204-207,214.)中提到的方法。提取出邊緣圖,依據(jù)其邊緣投影直方圖確定文字區(qū)域。該方法的具體步驟為Stepl,使用Sobel算子提取出灰度圖的邊緣信息。Sobel算子為兩組3X3的矩陣,分別為橫向及縱向,將之與圖像作平面卷積,即可分別得出橫向及縱向的邊緣梯度,然后通過取模計(jì)算求出其近似邊緣強(qiáng)度值;St印2,去除灰度強(qiáng)度小于全局閾值的邊緣曲線。全局閾值的計(jì)算方法如下
M N
_]作⑴
£ MxJV其中,f(i,j)表示像素點(diǎn)的灰度值,M和N表示圖片的寬度和高度。St印3,統(tǒng)計(jì)出像素點(diǎn)周圍窗ロ大小為nXn的區(qū)域內(nèi)水平與垂直邊緣數(shù)量,以及
邊緣強(qiáng)度的平均值和邊緣強(qiáng)度最大值。依據(jù)檢測字體的大小,η的取值最優(yōu)可為13。在每
個(gè)窗口內(nèi),動(dòng)態(tài)的計(jì)算出ー個(gè)局部閾值1\。局部閾值調(diào)用公式計(jì)算得到
^ ハ edgeNum' , x其中,edgeNum表示在窗ロ區(qū)域中的邊緣數(shù)量;area表示當(dāng)前窗ロ的區(qū)域面積,此處為nXn ;maxEdge表示在窗ロ區(qū)域中的最大邊緣強(qiáng)度值;avgEdge表示在窗ロ區(qū)域中的平均邊緣強(qiáng)度值。St印4,計(jì)算水平和垂直方向的邊緣點(diǎn)數(shù)量,一旦該值大于30吋,則刪除該邊緣特征。一般圖像中背景事物比較規(guī)則的幾何圖形,在衍生圖中會(huì)留下出水平或垂直方向的邊緣,通過上述方法刪除相關(guān)的邊緣;Step5,統(tǒng)計(jì)像素點(diǎn)周圍mXm的模板內(nèi)邊緣的加權(quán)平均值,如果當(dāng)前像素小于平均值,則將當(dāng)前像素點(diǎn)置為平均值,此處取Hl= 5。文字一般都是由多筆畫組成,換而言之,就是說文字區(qū)域中的某個(gè)像素點(diǎn)周圍一定會(huì)有較多筆畫邊緣。依據(jù)這ー特征可采用該方法對(duì)邊緣進(jìn)行修復(fù),以減少對(duì)文字的損傷;Step6,對(duì)邊緣曲線進(jìn)行水平和垂直投影確定文字區(qū)域邊界。通過水平投影確定出文字區(qū)域的上邊界和下邊界,通過垂直投影確定出文字區(qū)域的左邊界和右邊界。通過以上步驟完成圖像文字區(qū)域的粗定位。在粗定位中,文本基于邊緣提取的方法,使用全局閾值,去除了灰度圖像中強(qiáng)度較弱的邊緣特征;使用局部閾值,去除了灰度圖像中在指定窗口中的弱邊緣曲線;之后又對(duì)邊緣特征進(jìn)行修復(fù),為精確文字區(qū)域定位提供依據(jù)。為進(jìn)ー步對(duì)文字區(qū)域進(jìn)行準(zhǔn)確定位,可對(duì)經(jīng)過粗定位的文字進(jìn)行精確文字區(qū)域定位。精確文字區(qū)域定位又稱之為文字區(qū)域的驗(yàn)證,就是對(duì)文字區(qū)域進(jìn)行篩選,刪除錯(cuò)誤的文字區(qū)域。首先對(duì)粗定位的文字區(qū)域進(jìn)行ニ值化處理,保留ニ值化后文字區(qū)域的高度與粗定位平均行高比例在O. 5 I. 65范圍之內(nèi)的區(qū)域,同時(shí)從灰度圖中以行為單位把極亮點(diǎn)去除。之后,通過每個(gè)邊緣的外接矩形的合并融合完成文字區(qū)域的精確定位。(2)文字ニ值化文字ニ值化的目的是將圖像文字從背景中分割出來。文獻(xiàn)(葉薌蕓,戚飛虎,吳健淵.文本圖像的快速ニ值化方法[J].紅外與毫米波學(xué)報(bào).1997,16(5) 48-53)對(duì)方法進(jìn)行 了描述。文本使用了以邊緣點(diǎn)的像素灰度值做參考,通過計(jì)算與周圍像素的加權(quán)平均值,完成ニ值化操作。這里的ニ值化閾值是通過利用Sobel邊緣及其附近像素點(diǎn)提取出的。該算法描述如下Stepl,首先獲取圖像中的Sobel邊緣,然后設(shè)定ー個(gè)閾值將Sobel邊緣點(diǎn)進(jìn)行ニ值化,邊緣強(qiáng)度較弱的點(diǎn)將會(huì)去除,較強(qiáng)的點(diǎn)則被保留;Step2,對(duì)于每個(gè)邊緣曲線,以它的外接矩形作為基準(zhǔn)線,向外延伸w行,取得其灰度圖上該矩形內(nèi)部的像素點(diǎn)的灰度平均值avgEdgeVal。取灰度圖上與邊緣曲線對(duì)應(yīng)的所有像素的加權(quán)灰度平均值avgEdgeVal
權(quán)利要求
1.一種基于子網(wǎng)格特征自適應(yīng)加權(quán)的視頻圖像文字識(shí)別方法,其特征在于,在指定圖像中確定圖像文字區(qū)域;采用文字二值化將圖像文字從背景中分割出來;將分割出來的圖像文字區(qū)域劃分成一個(gè)以單字字符為主的區(qū)域;根據(jù)字符水平投影處峰值的變化進(jìn)行文本行分割,根據(jù)相鄰文本區(qū)域的位置關(guān)系確定對(duì)相鄰文本區(qū)域進(jìn)行合并;采用種子代表像素信息,從文本區(qū)域的右上角開始進(jìn)行種子搜索,種子點(diǎn)匯聚成種子區(qū)域,將被搜索分割開的種子區(qū)域進(jìn)行組合合并,構(gòu)成字符區(qū)域;對(duì)圖像文字在水平和垂直方向上進(jìn)行筆劃密度投影H(k)和V(k),將大小為MXN的圖像文字劃分出PXQ個(gè)子網(wǎng)格;依據(jù)鄰域子網(wǎng)格共同的偏移方向判斷中心子網(wǎng)格是否受到其鄰域子網(wǎng)格的影響,采用模糊隸屬度函數(shù)確定鄰域子網(wǎng)格的貢獻(xiàn)率。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,采用邊緣的粗文字區(qū)域定位與精確文字區(qū)域定位確定圖像文字區(qū)域。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,文本行分割具體包括對(duì)視頻圖像中的文本區(qū)域進(jìn)行水平方向投影,得到第i行的投影值,根據(jù)字符水平投影處峰值的變化進(jìn)行文本行分割,水平方向投影值為O的行,則確定該行沒有字符出現(xiàn);水平方向投影值不為O的行,則該行可能有字符出現(xiàn)。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,當(dāng)滿足以下三個(gè)條件之一時(shí),將相鄰文本區(qū)域進(jìn)行合并條件一、若上下相鄰區(qū)域的兩行行高g值和大于unionHeightXO. 7,或左右相鄰區(qū)域有邊界的包含關(guān)系;條件二、對(duì)于相鄰區(qū)域,若左右距離小于相鄰區(qū)域的最大寬度,并且其高度差小于unionHeightXO. 5 ;條件三、如果有區(qū)域存在相交。其中,unionHeight為合并之后的高度。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,對(duì)種子區(qū)域進(jìn)行組合合并具體為將搜索后的種子區(qū)域擴(kuò)展成矩形,對(duì)兩個(gè)種子區(qū)域的矩形有重疊的進(jìn)行合并;對(duì)種子區(qū)域不重疊或不相交的,若相鄰兩字符區(qū)域在合并之后的寬度滿足max (CurRti. Width, curRti+1.Width) < unionRti+1. Width < IineHeightX β時(shí),則這兩區(qū)域合并,形成新的字符區(qū)域定位,否則,將不再進(jìn)行合并,其中,CurRti. Width表示為字符區(qū)域?qū)挾?,unionRti+1. Width表示為合并后字符區(qū)域?qū)挾?,IineHeight表示文本行的高度,β為行常數(shù)。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,計(jì)算子網(wǎng)格內(nèi)每個(gè)像素點(diǎn)的梯度方向和幅值,窗口內(nèi)每個(gè)像素點(diǎn)梯度的幅值利用高斯函數(shù)進(jìn)行加權(quán),在窗口內(nèi)統(tǒng)計(jì)計(jì)算上、下、左、右、左上、左下、右上、右下8個(gè)方向上的圖像梯度方向直方圖,若某個(gè)像素點(diǎn)梯度方向落在8個(gè)方向的其中一個(gè)方向上,則把對(duì)應(yīng)梯度高斯加權(quán)幅值加到所在的方向上。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,計(jì)算子網(wǎng)格質(zhì)心位置,對(duì)于子網(wǎng)格Bk,若子網(wǎng)格Bk質(zhì)心位置臨近水平左指向子網(wǎng)格<,則<為Bk的橫筆畫特征起貢獻(xiàn)作用,若質(zhì)心位置臨近水平右指向子網(wǎng)格<,則<為Bk的橫筆畫特征起貢獻(xiàn)作用;對(duì)于子網(wǎng)格Bk的豎筆畫方向特征,垂直上相鄰子網(wǎng)格#和垂直下相鄰子網(wǎng)格<起貢獻(xiàn)作用;對(duì)于子網(wǎng)格Bk的撇筆畫方向特征,左下相鄰子網(wǎng)格<和右上相鄰子網(wǎng)格<起貢獻(xiàn)作用;對(duì)于子網(wǎng)格Bk的捺筆畫方向特征,左上相鄰子網(wǎng)格 < 和右下相鄰子網(wǎng)格#起貢獻(xiàn)作用。
8.根據(jù)權(quán)利要求I所述的方法,其特征在于,設(shè)定隸屬度函數(shù)為μ{α,3) = exp(-(3"/(;+^)2),其中a表示任意子網(wǎng)格指向指定子網(wǎng)格Bk方向上的梯度幅值,b表示指定子網(wǎng)格Bk指向任意子網(wǎng)格在對(duì)應(yīng)方向上的梯度幅值。
9.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述粗文字區(qū)域定位具體為采用Sobel算子提取出灰度圖像的邊緣;去掉水平和垂直方向的邊緣點(diǎn)數(shù)量大于全局閾值的邊緣曲線,對(duì)邊緣曲線進(jìn)行水平和垂直投影確定文字區(qū)域邊界。
全文摘要
一種基于子網(wǎng)格特征自適應(yīng)加權(quán)的視頻圖像文字識(shí)別方法。針對(duì)現(xiàn)有視頻圖像文字識(shí)別中存在的技術(shù)問題,本發(fā)明給出了一種給合邊緣特征的圖像文字二值化方法;獲取到文字的二值圖像后,采用彈性網(wǎng)格方法對(duì)圖像文字進(jìn)行區(qū)域網(wǎng)格劃分,在計(jì)算其彈性網(wǎng)格特征之前,提出相鄰網(wǎng)格的筆畫結(jié)構(gòu)相關(guān)性的判定。通過結(jié)合以上方法,使字符特征提取在穩(wěn)定性和健壯性方面得以提高,從而有利于視頻圖像文字的識(shí)別率。
文檔編號(hào)G06K9/20GK102663382SQ20121012437
公開日2012年9月12日 申請(qǐng)日期2012年4月25日 優(yōu)先權(quán)日2012年4月25日
發(fā)明者尚鳳軍, 王斌輔, 胡曉冬, 臧李立, 蘇暢 申請(qǐng)人:重慶郵電大學(xué)