1.一種基于深度學(xué)習(xí)的自然場景多語言文本檢測方法,其特征在于:包括如下步驟:
步驟1,轉(zhuǎn)為灰度圖片:輸入待檢測圖片,并將該輸入的待檢測圖片轉(zhuǎn)化為灰度圖片I;
步驟2,構(gòu)建ER樹:根據(jù)閾值從步驟1轉(zhuǎn)化后的灰度圖片I上獲取若干張二值圖片,每張二值圖片對應(yīng)若干個ER,將所有ER通過它們在二值圖片中的包含關(guān)系,將其組成一棵樹,稱之為ER樹;該ER樹滿足如下性質(zhì):
其中,Ri和Rj為ER樹上相連的兩個節(jié)點,且Ri表示父節(jié)點,Rj表示子節(jié)點;p和q都代表二值圖片中像素的坐標;
所構(gòu)建的ER樹中的二值圖片和ER定義解釋如下:
1)二值圖片:根據(jù)閾值t從灰度圖片I上獲取得到,該二值圖片由如下公式進行定義:
其中,p代表圖片中的像素坐標:I(p)表示灰度圖I上坐標p的像素值;Bt(p)表示二值圖片上坐標p的像素值;
2)ER:步驟1中的灰度圖片I具有n個閾值,每個閾值均能獲取一張二值圖片,每張二值圖片對應(yīng)若干個極值區(qū)域ER;每個ER均擁有一個屬性Level;假定區(qū)域R為閾值t所對應(yīng)的極值區(qū)域ER,也即區(qū)域R的屬性Level值等于閾值t,則每個ER均需滿足下述公式:
其中q和p都代表二值圖片中的像素坐標;boundary(R)表示區(qū)域R的周圍像素;Bt(q)表示二值圖片上坐標q的像素值;Bt(p)表示二值圖片上坐標p的像素值;
步驟3,獲取LER:將步驟2構(gòu)建的ER樹,使用如下所示公式獲取二值圖片上的所有LER;
其中,Q代表一個LER,也即為ER樹上若干個極值區(qū)域ER的集合set;Ra代表ER樹上的節(jié)點a;Rb代表ER樹上的節(jié)點b;lv(Ra)表示Ra對應(yīng)的屬性Level;lv(Rb)表示Rb對應(yīng)的屬性Level;p△(Ra)代表與Ra相差△個屬性Level的祖先;p△(Rb)代表與Rb相差△個屬性Level的祖先;
每個LER中的所有ER的屬性Level均相等,且它們在ER樹上擁有一樣的祖先;
另外,上述獲取的每個LER還需滿足如下公式:
||centroid(Ra)-centroid(Rb)||2≤r(Ra)+r(Rb)
其中r(R)表示區(qū)域R的最小外接圓的半徑,r(Ra)表示區(qū)域Ra的最小外接圓半徑;r(Rb)表示區(qū)域Rb的最小外接圓半徑;centroid(Ra)表示區(qū)域Ra的矩心;centroid(Rb)表示區(qū)域Rb的矩心;
步驟4,移除其中重復(fù)的LER:當有兩個LER,分別為q和qc;其中qc中的所有極值區(qū)域ER都是q中所有極值區(qū)域ER的孩子,則有如下公式表示兩個LER的相似度:
式中,stable(q,qc)表示q和qc的相似度,當stable(q,qc)小于相似度設(shè)定值時,則認為兩個LER重復(fù),僅保留一個LER,將另一個重復(fù)LER進行移除;然后將保留下來的LER所對應(yīng)的所有ER截取出來,并全部等比例縮放為一個設(shè)定尺寸的二值化圖片,等比例縮放后的二值化圖片稱之為組件;
步驟5,區(qū)分文字和背景雜質(zhì):使用兩階段的卷積神經(jīng)網(wǎng)絡(luò)CNN來區(qū)分步驟4形成的組件中的文字和背景雜質(zhì);兩階段的卷積神經(jīng)網(wǎng)絡(luò)CNN為一個包含兩個CNN的框架,其中第一個CNN用于將背景雜質(zhì)與類文字符號Symbol區(qū)分開來;第二個CNN用于將類文字符號Symbol細劃分為中文、英文以及標識符Sign,并去除其中的標識符Sign,使含有中文和英文的組件被保留下來;
步驟6,種子生長、聚類:將步驟5保留下來的中文和英文組件使用種子生法長Seed growing進行回溯尋找被錯誤過濾的組件;然后,將被錯誤過濾的組件通過聚類法形成組件串;
步驟7,用隨機森林進行文本識別:使用隨機森林法來判別步驟6中形成的組件串是否為文本,若判別后不是文本則將其進行過濾;若判別后為文本,則將其進行保留;這里被保留下來的組件串以及步驟5中保留下來的含有中文和英文的組件,即為輸出的最終多語言檢測結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的自然場景多語言文本檢測方法,其特征在于:步驟2中,當灰度圖片I為8位深度時,則該8位深度的灰度圖片I具有256個閾值,也即n=256。
3.根據(jù)權(quán)利要求2所述的基于深度學(xué)習(xí)的自然場景多語言文本檢測方法,其特征在于:步驟3中,祖先與ER的屬性Level的差需要小于一個設(shè)定值,該設(shè)定值為11。
4.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的自然場景多語言文本檢測方法,其特征在于:所述步驟4中,stable(q,qc)小于相似度設(shè)定值,相似度設(shè)定值取值為0.3,當stable(q,qc)小于0.3時,則判定為兩個LER重復(fù)。
5.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的自然場景多語言文本檢測方法,其特征在于:步驟4中,二值化圖片在等比例縮放時的設(shè)定尺寸32x32。