本發(fā)明涉及圖像處理
技術領域:
:,特別是一種基于深度學習的自然場景多語言文本檢測方法。
背景技術:
::目前,自然場景下的多語言文本檢測方法主要分為MSER方法和非MSER方法。前者主要通過MSER來提取多語言文本中的連通區(qū)域。然而在實際應用中,多語言中的連通區(qū)域與雜亂的背景較難區(qū)分。后者包括SWT和滑動窗口方法,SWT方法較難處理模糊的場景文本,而滑動窗口對傾斜文本需要較多的處理步驟。本技術中使用了一種新型的文本提取方法--可連接的極值區(qū)域(LinkedExtremalRegion,LER)。這種方法可以將多語言文本以非連通區(qū)域的形式提取出來,方便后面的識別處理。之后本方法使用兩階段CNN來區(qū)分文字和背景雜質。本方法能夠檢測自然場景下的多語言文本以及斷裂的文字。技術實現(xiàn)要素:本發(fā)明要解決的技術問題是針對上述現(xiàn)有技術的不足,而提供一種基于深度學習的自然場景多語言文本檢測方法,該基于深度學習的自然場景多語言文本檢測方法能將多語言文本以非連通區(qū)域的形式提取出來,方便后面的識別處理。同時,使用兩階段CNN來區(qū)分文字和背景雜質,因而能夠檢測自然場景下的多語言文本以及斷裂的文字。為解決上述技術問題,本發(fā)明采用的技術方案是:一種基于深度學習的自然場景多語言文本檢測方法,包括如下步驟。步驟1,轉為灰度圖片:輸入待檢測圖片,并將該輸入的待檢測圖片轉化為灰度圖片I。步驟2,構建ER樹:根據(jù)閾值從步驟1轉化后的灰度圖片I上獲取若干張二值圖片,每張二值圖片對應若干個ER,將所有ER通過它們在二值圖片中的包含關系,將其組成一棵樹,稱之為ER樹;該ER樹滿足如下性質:其中,Ri和Rj為ER樹上相連的兩個節(jié)點,且Ri表示父節(jié)點,Rj表示子節(jié)點;p和q都代表二值圖片中像素的坐標。所構建的ER樹中的二值圖片和ER定義解釋如下。1)二值圖片:根據(jù)閾值t從灰度圖片I上獲取得到,該二值圖片由如下公式進行定義:其中,p代表圖片中的像素坐標:I(p)表示灰度圖I上坐標p的像素值;Bt(p)表示二值圖片上坐標p的像素值。2)ER:步驟1中的灰度圖片I具有n個閾值,每個閾值均能獲取一張二值圖片,每張二值圖片對應若干個極值區(qū)域ER;每個ER均擁有一個屬性Level;假定區(qū)域R為閾值t所對應的極值區(qū)域ER,也即區(qū)域R的屬性Level值等于閾值t,則每個ER均需滿足下述公式:其中q和p都代表二值圖片中的像素坐標;boundary(R)表示區(qū)域R的周圍像素;Bt(q)表示二值圖片上坐標q的像素值;Bt(p)表示二值圖片上坐標p的像素值。步驟3,獲取LER:將步驟2構建的ER樹,使用如下所示公式獲取二值圖片上的所有LER;其中,Q代表一個LER,也即為ER樹上若干個極值區(qū)域ER的集合set;Ra代表ER樹上的節(jié)點a;Rb代表ER樹上的節(jié)點b;lv(Ra)表示Ra對應的屬性Level;lv(Rb)表示Rb對應的屬性Level;p△(Ra)代表與Ra相差△個屬性Level的祖先;p△(Rb)代表與Rb相差△個屬性Level的祖先;每個LER中的所有ER的屬性Level均相等,且它們在ER樹上擁有一樣的祖先;另外,上述獲取的每個LER還需滿足如下公式:||centroid(Ra)-centroid(Rb)||2≤r(Ra)+r(Rb)其中r(R)表示區(qū)域R的最小外接圓的半徑,r(Ra)表示區(qū)域Ra的最小外接圓半徑;r(Rb)表示區(qū)域Rb的最小外接圓半徑;centroid(Ra)表示區(qū)域Ra的矩心;centroid(Rb)表示區(qū)域Rb的矩心。步驟4,移除其中重復的LER:當有兩個LER,分別為q和qc;其中qc中的所有極值區(qū)域ER都是q中所有極值區(qū)域ER的孩子,則有如下公式表示兩個LER的相似度:式中,stable(q,qc)表示q和qc的相似度,當stable(q,qc)小于相似度設定值時,則認為兩個LER重復,僅保留一個LER,將另一個重復LER進行移除;然后將保留下來的LER所對應的所有ER截取出來,并全部等比例縮放為一個設定尺寸的二值化圖片,等比例縮放后的二值化圖片稱之為組件。步驟5,區(qū)分文字和背景雜質:使用兩階段的卷積神經網(wǎng)絡CNN來區(qū)分步驟4形成的組件中的文字和背景雜質;兩階段的卷積神經網(wǎng)絡CNN為一個包含兩個CNN的框架,其中第一個CNN用于將背景雜質與類文字符號Symbol區(qū)分開來;第二個CNN用于將類文字符號Symbol細劃分為中文、英文以及標識符Sign,并去除其中的標識符Sign,使含有中文和英文的組件被保留下來。步驟6,種子生長、聚類:將步驟5保留下來的中文和英文組件使用種子生法長Seedgrowing進行回溯尋找被錯誤過濾的組件;然后,將被錯誤過濾的組件通過聚類法形成組件串。步驟7,用隨機森林進行文本識別:使用隨機森林法來判別步驟6中形成的組件串是否為文本,若判別后不是文本則將其進行過濾;若判別后為文本,則將其進行保留;這里被保留下來的組件串以及步驟5中保留下來的含有中文和英文的組件,即為輸出的最終多語言檢測結果。步驟2中,當灰度圖片I為8位深度時,則該8位深度的灰度圖片I具有256個閾值,也即n=256。步驟3中,祖先與ER的屬性Level的差需要小于一個設定值,該設定值為11。所述步驟4中,stable(q,qc)小于相似度設定值,相似度設定值取值為0.3,當stable(q,qc)小于0.3時,則判定為兩個LER重復。步驟4中,二值化圖片在等比例縮放時的設定尺寸32x32。本發(fā)明采用上述方法后,能將多語言文本以非連通區(qū)域的形式提取出來,方便后面的識別處理。同時,使用兩階段CNN來區(qū)分文字和背景雜質,因而能夠檢測自然場景下的多語言文本以及斷裂的文字。另外,與現(xiàn)有技術相比,本技術在自然場景下?lián)碛休^好的魯棒性,對于多語言的復雜環(huán)境下也能較好適用,同時有不低于現(xiàn)有技術的檢測速度。附圖說明圖1顯示了本發(fā)明基于深度學習的自然場景多語言文本檢測方法的流程示意圖。圖2顯示了使用兩個CNN區(qū)分文字和背景雜質的示意圖。具體實施方式下面結合附圖和具體較佳實施方式對本發(fā)明作進一步詳細的說明。如圖1所示,一種基于深度學習的自然場景多語言文本檢測方法,包括如下步驟。步驟1,轉為灰度圖片:輸入待檢測圖片,并將該輸入的待檢測圖片轉化為灰度圖片I。步驟2,構建ER樹:根據(jù)閾值從步驟1轉化后的灰度圖片I上獲取若干張二值圖片,每張二值圖片對應若干個ER,將所有ER通過它們在二值圖片中的包含關系,將其組成一棵樹,稱之為ER樹;該ER樹滿足如下性質:其中,Ri和Rj為ER樹上相連的兩個節(jié)點,且Ri表示父節(jié)點,Rj表示子節(jié)點;p和q都代表二值圖片中像素的坐標。所構建的ER樹中的二值圖片和ER定義解釋如下。1)二值圖片:根據(jù)閾值t從灰度圖片I上獲取得到,該二值圖片由如下公式進行定義:其中,p代表圖片中的像素坐標:I(p)表示灰度圖I上坐標p的像素值;Bt(p)表示二值圖片上坐標p的像素值。2)ER:步驟1中的灰度圖片I具有n個閾值,當灰度圖片I為8位深度時,則該8位深度的灰度圖片I具有256個閾值,也即n=256。每個閾值均能獲取一張二值圖片,每張二值圖片對應一個極值區(qū)域ER;每個ER均擁有一個屬性Level;假定區(qū)域R為閾值t所對應的極值區(qū)域ER,也即區(qū)域R的屬性Level值等于閾值t,則每個ER均需滿足下述公式:其中q和p都代表二值圖片中的像素坐標;boundary(R)表示區(qū)域R的周圍像素;Bt(q)表示二值圖片上坐標q的像素值;Bt(p)表示二值圖片上坐標p的像素值。步驟3,獲取LER:將步驟2構建的ER樹,使用如下所示公式獲取二值圖片上的所有LER;其中,Q代表一個LER,也即為ER樹上若干個極值區(qū)域ER的集合set;Ra代表ER樹上的節(jié)點a;Rb代表ER樹上的節(jié)點b;lv(Ra)表示Ra對應的屬性Level;lv(Rb)表示Rb對應的屬性Level;p△(Ra)代表與Ra相差△個屬性Level的祖先;p△(Rb)代表與Rb相差△個屬性Level的祖先。每個LER中的所有ER的屬性Level相等,且它們在ER樹上擁有一樣的祖先;祖先與ER的屬性Level的差需要小于一個設定值,該設定值優(yōu)選設置為11。另外,上述獲取的每個LER還需滿足如下公式:||centroid(Ra)-centroid(Rb)||2≤r(Ra)+r(Rb)其中r(R)表示區(qū)域R的最小外接圓的半徑,r(Ra)表示區(qū)域Ra的最小外接圓半徑;r(Rb)表示區(qū)域Rb的最小外接圓半徑;centroid(Ra)表示區(qū)域Ra的矩心;centroid(Rb)表示區(qū)域Rb的矩心。步驟4,移除其中重復的LER:當有兩個LER,分別為q和qc;其中qc中的所有極值區(qū)域ER都是q中所有極值區(qū)域ER的孩子,則有如下公式表示兩個LER的相似度:式中,stable(q,qc)表示q和qc的相似度,當stable(q,qc)小于相似度設定值時,則認為兩個LER重復。這里的相似度設定值優(yōu)選取值為0.3,當stable(q,qc)小于0.3時,則判定為兩個LER重復。這時,僅需保留一個LER,將另一個重復LER進行移除。然后將保留下來的LER所對應的所有ER截取出來,并全部等比例縮放為一個設定尺寸的二值化圖片,這里的設定尺寸優(yōu)選為32x32;等比例縮放后的二值化圖片均稱之為組件。步驟5,區(qū)分文字和背景雜質:使用兩階段的卷積神經網(wǎng)絡CNN來區(qū)分步驟4形成的組件中的文字和背景雜質;兩階段的卷積神經網(wǎng)絡CNN為一個包含兩個CNN的框架,其中第一個CNN用于將背景雜質與類文字符號Symbol區(qū)分開來;第二個CNN用于將類文字符號Symbol細劃分為中文、英文以及標識符Sign,并去除其中的標識符Sign,使含有中文和英文的組件被保留下來。步驟6,種子生長、聚類:將步驟5保留下來的中文和英文組件使用種子生法長Seedgrowing進行回溯尋找被錯誤過濾的組件;然后,將被錯誤過濾的組件通過聚類法形成組件串。步驟7,用隨機森林進行文本識別:使用隨機森林法來判別步驟6中形成的組件串是否為文本,若判別后不是文本則將其進行過濾;若判別后為文本,則將其進行保留;這里被保留下來的組件串以及步驟5中保留下來的含有中文和英文的組件,即為輸出的最終多語言檢測結果。以上詳細描述了本發(fā)明的優(yōu)選實施方式,但是,本發(fā)明并不限于上述實施方式中的具體細節(jié),在本發(fā)明的技術構思范圍內,可以對本發(fā)明的技術方案進行多種等同變換,這些等同變換均屬于本發(fā)明的保護范圍。當前第1頁1 2 3 當前第1頁1 2 3