本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,具體涉及一種基于多通道極值區(qū)域(er)的自然場景文本檢測方法。
背景技術(shù):
隨著計算機技術(shù)、人工智能等先進(jìn)技術(shù)的迅速發(fā)展,圖像處理技術(shù)向更深層次發(fā)展,人們開始研究如何用計算機系統(tǒng)來模擬人類視覺系統(tǒng),進(jìn)而按照人類視覺認(rèn)知過程來解析和理解外部世界。自然場景中不僅有大量的圖形信息,還存在蘊含豐富內(nèi)涵的文本信息,例如,街道名稱、建筑物門牌號、公共汽車站牌、商店名稱、公告板和廣告牌上的文字等等。這些文本字符對場景視覺信息的表達(dá)具有重要價值,是描述和理解場景內(nèi)容的關(guān)鍵線索。因此將場景圖像中的文字抽取出來,有利于場景圖像的內(nèi)容分析、檢索,可以廣泛應(yīng)用于,視頻檢索與分析、盲人導(dǎo)航、無人駕駛、智能交通等多個領(lǐng)域。
目前,已存在的自然場景文本檢測方法大致可以分為四類:基于連通域的方法、基于邊緣的方法、基于紋理的方法和復(fù)合方法,基于連通域分析的方法是假設(shè)同一區(qū)域的字符具有相似的顏色和亮度,并且與背景區(qū)域的顏色存在較大差異的基礎(chǔ)上,從圖像中提取連通區(qū)域,然后利用幾何約束構(gòu)造啟發(fā)式規(guī)則進(jìn)行連通域分析,將子區(qū)域合并得到最終的文本區(qū)域?;谶吘壧卣鞯姆椒ㄊ抢梦谋緟^(qū)域具有豐富的邊緣信息這一特點進(jìn)行文本區(qū)域檢測,首先采用某種邊緣檢測算子從原圖像中檢測出邊緣,然后通過形態(tài)學(xué)方法將邊緣連接成文本塊,最后利用一些啟發(fā)式規(guī)則進(jìn)行篩選,得到最終的文本區(qū)域。基于紋理的方法把文本區(qū)域看作是一種可與背景區(qū)分開來的特殊的紋理,通常采用gabor變換、小波變換和傅里葉變換等方法檢測圖像中文本區(qū)域的紋理特征。復(fù)合方法通常是多種方法結(jié)合在一起,取長補短,綜合性能,構(gòu)造出新的文本定位框架。
由于自然場景中文本的大小、格式、方向和對齊方式等變化多樣,受字符對比度較低、背景復(fù)雜、低分辨率等條件的制約,使得圖像中文本認(rèn)知是一項極具挑戰(zhàn)性的任務(wù)。由此可見,自然場景中文本檢測技術(shù)具有非常重大的理論意義和實用價值。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于針對現(xiàn)有技術(shù)中自然場景文本的大小、字體、背景等諸多因素導(dǎo)致的檢測難點,提供一種基于多通道極值區(qū)域的自然場景文本檢測方法,該檢測方法利用自然場景中的文本灰度基本穩(wěn)定且與周圍背景存在較大差異這一特點,通過多通道提取極值區(qū)域得到候選的文本區(qū)域,然后通過機器學(xué)習(xí)的方法過濾非文本區(qū)域,進(jìn)而形成文本行并再次用機器學(xué)習(xí)方法進(jìn)行驗證達(dá)到檢測的目的。
為解決上述技術(shù)問題,本發(fā)明公開的一種基于多通道極值區(qū)域的自然場景文本檢測方法,其特征在于,它包括如下步驟:
步驟1:輸入待檢測rgb(紅、綠、藍(lán)三色)圖像;
步驟2:將待檢測rgb圖像轉(zhuǎn)換到hsi(色調(diào)、色飽和度和強度)顏色空間,分別提取hsi顏色空間中待檢測圖像的色調(diào)、飽和度和灰度,并分別對hsi顏色空間中待檢測圖像的色調(diào)、飽和度和灰度取反得到6個單獨通道圖像;
步驟3:對步驟2中的6個單獨通道圖像分別進(jìn)行極值區(qū)域檢測,得到對應(yīng)的多個初步候選文本區(qū)域;
步驟4:將圖像數(shù)據(jù)集的訓(xùn)練集中的每張圖片依次進(jìn)行極值區(qū)域檢測,對每張圖片檢測時,計算當(dāng)前檢測圖片得到的極值區(qū)域的面積,將這些極值區(qū)域的面積與當(dāng)前檢測圖片中的真實文本區(qū)域計算面積重疊率,若檢測得到的極值區(qū)域的面積與當(dāng)前檢測圖片中真實文本區(qū)域的面積重疊率大于面積重疊率閾值,則將這個極值區(qū)域歸為正樣本,否則,將這個極值區(qū)域歸為負(fù)樣本,然后對所有正負(fù)樣本進(jìn)行圖像大小歸一化處理;
步驟5:隨機選取正樣本a個,負(fù)樣本2a個,對每個正樣本和負(fù)樣本分別提取梯度方向直方圖和局部二值模式特征,并根據(jù)提取的梯度方向直方圖和局部二值模式特征構(gòu)建特征向量;
步驟6:將步驟5得到的特征向量構(gòu)建成正負(fù)樣本特征矩陣,并構(gòu)建對應(yīng)的標(biāo)簽集,將帶有標(biāo)簽集的正負(fù)樣本特征矩陣輸入支持向量機(svm,supportvectormachine)進(jìn)行訓(xùn)練,得到一個分類器模型;
步驟7:將步驟3得到不同通道的每個初步候選文本區(qū)域分別提取梯度方向直方圖和局部二值模式特征,并將提取的梯度方向直方圖和局部二值模式特征輸入支持向量機進(jìn)行預(yù)測,保留預(yù)測的文本區(qū)域,濾除預(yù)測的非文本區(qū)域;
步驟8:將不同通道經(jīng)過支持向量機保留下來的文本區(qū)域綜合,確定單個文本區(qū),并去除重復(fù)的文本區(qū)域;
步驟9:對步驟8得到的單個文本區(qū)域進(jìn)行聚合得到初始文本行,主要方法為提取相鄰兩個文本區(qū)域中文本的平均筆畫寬度比rsw,相鄰兩個文本區(qū)域的高度比rh,相鄰兩個文本區(qū)域的質(zhì)心縱坐標(biāo)差cy,相鄰兩個文本區(qū)域的灰度強度差i,相鄰兩個文本區(qū)域的水平間距d,選取滿足rsw∈[1,2.5],rh∈[0,2],i∈[0,30],d∈[0,1.4],cy∈[0,30]的兩兩連通域?qū)⑵渚奂涉?,最后形成一系列文本行,此時得到的初始文本行既包含真文本行也包含上述步驟濾除不完全的非文本區(qū)域而聚合的假的文本行,其中,rsw、rh和i無單位,cy和d單位為像素;
步驟10:對步驟9得到的初始文本行提取梯度方向直方圖和局部二值模式特征輸入到步驟6訓(xùn)練得到的文本行分類器模型中,進(jìn)一步濾除錯誤文本行。
本發(fā)明的有益效果:
本發(fā)明利用場景文本的特點結(jié)合機器學(xué)習(xí)的方法,采用多通道的極值區(qū)域檢測提取候選文本區(qū)域,能夠檢測出更多候選文本,進(jìn)而提升整體召回率,同時,采用啟發(fā)式規(guī)則與機器學(xué)習(xí)相結(jié)合的方法,去除大量重復(fù)區(qū)域,運用經(jīng)典的支持向量機構(gòu)建單個字符文本和文本行的兩個分類器模型,有效的濾除非文本區(qū)域,能夠較好的提升準(zhǔn)確率。本發(fā)明系統(tǒng)簡單方便,通用性高,運用成熟的算法和特征并結(jié)合機器學(xué)習(xí)方法,能達(dá)到較好的檢測效果。
附圖說明
圖1為本發(fā)明所述方法流程示意圖;
圖2為待檢測圖像;
圖3為單字符正負(fù)樣本示意圖;
圖4為局部二值模式特征提取示意圖;
圖5為多通道分別經(jīng)過支持向量機濾除綜合后的示意圖;
圖6為經(jīng)過多通道去重后的示意圖;
圖7為初步形成的文本行示意圖;
圖8為文本行驗證后的示意圖。
具體實施方式
以下結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步的詳細(xì)說明:
本發(fā)明的一種基于多通道極值區(qū)域的自然場景文本檢測方法,如圖1所示,它包括如下步驟:
步驟1:輸入待檢測rgb圖像,如圖2;
步驟2:將待檢測rgb圖像轉(zhuǎn)換到hsi顏色空間,分別提取hsi顏色空間中待檢測圖像的色調(diào)(hue)、飽和度(sat)和灰度(gray),并分別對hsi顏色空間中待檢測圖像的色調(diào)、飽和度和灰度取反得到6個單獨通道圖像;
步驟3:對步驟2中的6個單獨通道圖像分別進(jìn)行極值區(qū)域檢測,得到對應(yīng)的多個初步候選文本區(qū)域;
步驟4:構(gòu)建正負(fù)樣本集,將圖像數(shù)據(jù)集的訓(xùn)練集中的每張圖片依次進(jìn)行極值區(qū)域檢測,對每張圖片檢測時,計算當(dāng)前檢測圖片得到的極值區(qū)域的面積,將這些極值區(qū)域的面積與當(dāng)前檢測圖片中的真實文本區(qū)域計算面積重疊率,若檢測得到的極值區(qū)域的面積與當(dāng)前檢測圖片中真實文本區(qū)域的面積重疊率大于面積重疊率閾值,則將這個極值區(qū)域歸為正樣本,否則,將這個極值區(qū)域歸為負(fù)樣本,然后對所有正負(fù)樣本進(jìn)行圖像大小歸一化處理,如圖3;
步驟5:隨機選取正樣本a個,負(fù)樣本2a個,對每個正樣本和負(fù)樣本分別提取梯度方向直方圖(histogramoforientedgradient)和局部二值模式特征(localbinarypattern),并根據(jù)提取的梯度方向直方圖和局部二值模式特征構(gòu)建特征向量;
步驟6:將步驟5得到的特征向量構(gòu)建成正負(fù)樣本特征矩陣,并構(gòu)建對應(yīng)的標(biāo)簽集,將帶有標(biāo)簽集的正負(fù)樣本特征矩陣輸入支持向量機進(jìn)行訓(xùn)練,得到一個分類器模型;
步驟7:將步驟3得到不同通道的每個初步候選文本區(qū)域分別提取梯度方向直方圖和局部二值模式特征,并將提取的梯度方向直方圖和局部二值模式特征輸入支持向量機進(jìn)行預(yù)測,保留預(yù)測為1的文本區(qū)域,濾除預(yù)測為0的非文本區(qū)域,如圖5;
步驟8:將不同通道經(jīng)過支持向量機保留下來的文本區(qū)域綜合,確定單個文本區(qū),并去除重復(fù)的文本區(qū)域;由于多個通道檢測對于同一區(qū)域的檢測結(jié)果大致一樣,所以可用通過對比每個矩形區(qū)域左上和右下兩個頂點的坐標(biāo),計算兩矩形對應(yīng)坐標(biāo)差,將坐標(biāo)差在[-4,4]內(nèi)的矩形歸為同一類,并計算同一類中每個矩形的面積,選取面積最大者以達(dá)到去除重復(fù)的目的,如圖6;
步驟9:對步驟8得到的單個文本區(qū)域進(jìn)行聚合得到初始文本行,主要方法為提取相鄰兩個文本區(qū)域中文本的平均筆畫寬度比rsw,相鄰兩個文本區(qū)域的高度比rh,相鄰兩個文本區(qū)域的質(zhì)心縱坐標(biāo)差cy,相鄰兩個文本區(qū)域的灰度強度差i,相鄰兩個文本區(qū)域的水平間距d,選取滿足rsw∈[1,2.5],rh∈[0,2],i∈[0,30],d∈[0,1.4],cy∈[0,30的兩兩連通域?qū)⑵渚奂涉?,最后形成一系列文本行,如圖7,此時得到的初始文本行既包含真文本行也包含上述步驟濾除不完全的非文本區(qū)域而聚合的假的文本行,其中,rsw、rh和i無單位,cy和d單位為像素;
步驟10:對步驟9得到的初始文本行提取梯度方向直方圖和局部二值模式特征輸入到步驟6訓(xùn)練得到的文本行分類器模型中,進(jìn)一步濾除錯誤文本行,提升準(zhǔn)確率,如圖8。
計算上述步驟10得到的結(jié)果的準(zhǔn)確率,召回率,f值的防守如下:
準(zhǔn)確率和召回率是信息檢索和數(shù)據(jù)分類中普遍使用的兩個度量值,f值用于評價算法整體性能。準(zhǔn)確率越高,說明得到的結(jié)果中真實的文本越多;召回率越高,說明漏掉的文本越少;f值綜合評價算法性能,越高表示算法性能越好。利用這三個指標(biāo)對算法進(jìn)行評價,通過數(shù)據(jù)集提供的真實矩形和算法輸出的區(qū)域最小外接矩形的匹配程度來計算,兩矩形r1和r2的匹配程度mp,定義為r1和r2重疊區(qū)域的面積除以同時包含r1、r2的最小外接矩形的面積,mp∈[0,1]。單個矩形r與矩形集合r的最佳匹配m(r;r)定義為:
m(r;r)=max{mp(r;r′)|r′∈r}
設(shè)t為圖片中真實文本區(qū)域外接矩形集合,e為算法輸出文本區(qū)域外接矩形集合,|·|表示集合內(nèi)元素的數(shù)量,則準(zhǔn)確率(pre)、召回率(recall)及f值定義如下:
其中,
計算出來的準(zhǔn)確率為76%,召回率為78%,f值為77,表明了本發(fā)明的有效性。
上述技術(shù)方案中,所述相鄰兩個文本區(qū)域中文本的平均筆畫寬度比rsw,相鄰兩個文本區(qū)域的高度比rh,相鄰兩個文本區(qū)域的質(zhì)心縱坐標(biāo)差cy,相鄰兩個文本區(qū)域的灰度強度差i,相鄰兩個文本區(qū)域的水平間距d,計算公式如下:
相鄰兩個文本區(qū)域中文本的平均筆畫寬度比rsw:
其中,swi和swj分別表示連通域中相鄰兩個文本區(qū)域中文本的平均筆畫寬度;
相鄰兩個文本區(qū)域的高度比rh:
其中,hi和hj分別表示連通域中相鄰兩個文本區(qū)域的高度;
相鄰兩個文本區(qū)域的灰度強度差i:
i=abs(ii-ij)
其中,ii和ij分別表示連通域中相鄰兩個文本區(qū)域的灰度強度,abs表示取絕對值;
相鄰兩個文本區(qū)域的質(zhì)心縱坐標(biāo)差cy:
cy=abs(tiy-tjy)
其中,tiy和tjy分別表示連通域中相鄰兩個文本區(qū)域的質(zhì)心坐標(biāo),abs表示取絕對值;
相鄰兩個文本區(qū)域的水平間距d:
其中,cx和cy分別表示連通域中相鄰兩個文本區(qū)域的x軸質(zhì)心坐標(biāo)差和y軸質(zhì)心坐標(biāo)差,wi和wj分別表示連通域中相鄰兩個文本區(qū)域的寬度。
上述技術(shù)方案的步驟5中,隨機選取正樣本a個,負(fù)樣本2a個,對每個正樣本和負(fù)樣本分別提取梯度方向直方圖和局部二值模式特征,并根據(jù)提取的梯度方向直方圖和局部二值模式特征構(gòu)建特征向量的具體方法為:
步驟5.1:梯度方向直方圖特征是一種在計算機視覺和圖像處理中用來進(jìn)行物體檢測的特征描述子,它通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征,計算過程如下:
步驟5.1.1:將待檢測rgb圖像灰度化;
步驟5.1.2:采用gamma校正法對輸入圖像進(jìn)行顏色空間的歸一化,目的是調(diào)節(jié)圖像的對比度,降低圖像局部的陰影和光照變化所造成的影響,同時可以抑制噪音的干擾;
步驟5.1.3:計算待檢測rgb圖像每個像素的梯度(包括大小和方向);主要是為了捕獲輪廓信息,同時進(jìn)一步弱化光照的干擾;
步驟5.1.4:將待檢測rgb圖像劃分成多個8*8像素的圖片單元(cell);
步驟5.1.5:統(tǒng)計每個圖片單元的梯度直方圖,即可形成每個圖片單元的描述(descriptor);
步驟5.1.6:將每四個圖片單元組成一個塊(本文選取2*2個圖片單元/塊),一個塊內(nèi)所有圖片單元的特征描述串聯(lián)起來便得到該塊的方向梯度直方圖特征描述;
步驟5.1.7:將待檢測rgb圖像內(nèi)的所有塊的方向梯度直方圖特征描述串聯(lián)起來就可以得到該圖片的方向梯度直方圖特征向量;
步驟5.2:局部二值模式特征是一種用來描述圖像局部紋理特征的算子,它具有旋轉(zhuǎn)不變性和灰度不變性等顯著的優(yōu)點,計算過程如下:
步驟5.2.1:對待檢測rgb圖像中每個像素點的3x3鄰域,以窗口中心像素為基準(zhǔn),將相鄰的8個像素的灰度值與其進(jìn)行比較,若周圍像素灰度值大于中心像素灰度值,則該像素點的位置被標(biāo)記為1,否則為0,從左上角開始按順時針方向?qū)?個標(biāo)記值級聯(lián),得到8位二進(jìn)制數(shù),將二進(jìn)制數(shù)轉(zhuǎn)化為十進(jìn)制作為中心像素點的局部二值模式值(lbp,localbinarypatterns),如圖4;
步驟5.2.2:統(tǒng)計步驟5.2.1中每個局部二值模式值出現(xiàn)的次數(shù);得到局部二值模式直方圖;
步驟5.2.3:對步驟5.2.2得到的局部二值模式直方圖歸一化得到特征向量,即該圖像的局部二值模式紋理特征向量。
上述技術(shù)方案中,所述步驟5中隨機選取正樣本為2000個,負(fù)樣本4000個。
上述技術(shù)方案中,所述步驟6中標(biāo)簽集為正樣本為1,負(fù)樣本為0。
上述技術(shù)方案中,所述步驟4中,對所有正負(fù)樣本進(jìn)行圖像大小歸一化處理將正負(fù)樣本歸一化為64x64像素大小,如圖3。
本說明書未作詳細(xì)描述的內(nèi)容屬于本領(lǐng)域?qū)I(yè)技術(shù)人員公知的現(xiàn)有技術(shù)。