本發(fā)明涉及機器視覺、圖像處理技術領域,具體為一種基于深度學習的無分割字符定位與識別方法。
背景技術:
目前的光學字符識別(opticalcharacterrecognition,ocr)主要采取“字符分割+字符識別”的模式,如:王偉等人的《svm多類分類器在車牌字符識別中的應用》【1】首先對字符進行簡單分割提取后分別利用字符穩(wěn)定的歐拉數(shù)特征和基于fisher判別準則設計svm二叉分類樹對字符進行粗細分類;宋春靜等人(“基于深度信念網(wǎng)絡的集裝箱字符識別方法”)首先對預處理圖像進行水平投影和連通域分析,實現(xiàn)字符分割提取后,利用深度信念網(wǎng)絡模型對字符進行深度學習。鞏玉濱等人《一種數(shù)顯儀表數(shù)字字符識別方法研究》【2】運用行分割、單字分割與規(guī)范化進行數(shù)字字符的準確分割模糊圖像,以網(wǎng)格法與交線特征提取法提取數(shù)顯儀表數(shù)字字符的特征,采用三層bp神經(jīng)網(wǎng)絡進行數(shù)字字符識別。
采用這種識別的模式是由于其輸入圖像往往是使用規(guī)范的印刷體、擁有幾乎無干擾的背景、具有較高的分辨率,因而可以通過傳統(tǒng)的字符分割算法即可提取每個字符區(qū)域。然而當應用到自然場景中時,由于自然場景中的字符具有背景復雜、質量低下、形態(tài)多變等特點,從而使得字符與背景見難以用簡單的人為選擇的特征進行區(qū)分,繼而難以正確分割乃至識別。
現(xiàn)有的字符識別算法雖然在識別上通過引入深度學習網(wǎng)絡的方式提取特征,獲得較好的分類效果,但是在分割上依舊依賴于傳統(tǒng)的人工選取特征分割算法,從而無法兼容較為復雜的自然場景下的字符分割與識別。因此,需要一種能夠自動提取字符具有代表性的特征,讓機器可以像人眼一樣對整幅圖像實現(xiàn)字符定位和分類的字符識別算法。
參考文獻
【1】王偉,馬永強,彭強.svm多類分類器在車牌字符識別中的應用[j].計算機工程與設計,2011,32(9):3166-3169.
【2】鞏玉濱,楊紅娟,張運楚,等.一種數(shù)顯儀表數(shù)字字符識別方法研究[j].山東建筑大學學報,2011,26(2):134-137.
技術實現(xiàn)要素:
本發(fā)明要解決的技術問題是:現(xiàn)有的光學字符識別算法主要采取“字符分割+字符識別”的模式,無法應對自然場景的背景復雜、質量低下、形態(tài)多變等特點,字符與背景間難以用簡單的人為選擇的特征進行區(qū)分,繼而難以正確分割乃至識別。因此現(xiàn)有的光學字符識別算法對于復雜自然場景下的字符不能達到較好的識別效果。
本發(fā)明的技術方案為:一種基于深度學習的無分割字符定位與識別方法,包括如下步驟:
步驟s1:構建深度卷積神經(jīng)網(wǎng)絡,所述多層卷積神經(jīng)網(wǎng)絡包括通用卷積層網(wǎng)絡、候選區(qū)域定位網(wǎng)絡和分類識別網(wǎng)絡,設定多層卷積神經(jīng)網(wǎng)絡的輸入為圖像,輸出為圖像上各字符的類別和在圖像上的位置坐標;
步驟s2:定義候選區(qū)域定位網(wǎng)絡的損失函數(shù),及分類識別網(wǎng)絡的分類損失函數(shù),構建整個網(wǎng)絡整體的目標函數(shù),以實現(xiàn)整個網(wǎng)絡的訓練;
步驟s3:采用標定好的字符類別及位置信息的訓練集對網(wǎng)絡進行訓練,訓練方式采用“遞進-聯(lián)合”的訓練方式,從而得到用于進行字符定位和識別的網(wǎng)絡模型:
3.1)訓練通用卷積層部分,采用從pascalvoc2012的zf模型進行遷移初始化;
3.2)在已訓練好的通用卷積層的基礎上增加候選區(qū)域定位網(wǎng)絡進行訓練,固定通用卷積層網(wǎng)絡參數(shù),采用隨機初始化的方式初始化候選區(qū)域定位網(wǎng)絡參數(shù),根據(jù)步驟s2中定義的候選區(qū)域定位網(wǎng)絡的損失函數(shù)對候選區(qū)域定位網(wǎng)絡參數(shù)進行調整;
3.3)增加分類識別網(wǎng)絡,固定通用卷積層網(wǎng)絡以及候選區(qū)域定位網(wǎng)絡參數(shù),采用隨機初始化的方式初始化分類識別網(wǎng)絡的參數(shù),根據(jù)步驟s2中定義的分類識別網(wǎng)絡損失函數(shù),對分類識別網(wǎng)絡的參數(shù)進行學習和調整;
3.4)根據(jù)步驟s2中定義的全局網(wǎng)絡損失函數(shù),對整個網(wǎng)絡進行端對端的微調,獲得最終的訓練結果;
步驟s4:輸入測試圖像,利用步驟s3中得到的網(wǎng)絡提取圖像中若干字符的可能區(qū)域及分類識別的結果;
步驟s5:對步驟s4中所得到的候選字符識別結果進行非極大值抑制得分閾值判斷,得到最終的檢測結果。
步驟s1中,各網(wǎng)絡具體為:
通用卷積層網(wǎng)絡:輸入圖像為任意尺寸大小,通用卷積層采用5層卷積層結構,層與層之間使用relu激活函數(shù),且前兩層卷積層后加入最大值池化層,通用卷積層網(wǎng)絡用于提取圖像特征圖;
候選區(qū)域定位網(wǎng)絡:采用在特征圖上進行多尺度采樣的方式提取不同尺度物體的特征,對通用卷積層后得到的每一維特征圖使用滑動窗口法,對于每個滑動窗口中心點,提取k種可能的候選窗口,k種可能性包括了a種面積尺度以及b種長寬比,即:k=a*b,繼而將提取的特征分別輸入給窗口回歸層和窗口得分層,分別得到對于該滑動窗口中心點提取的k個候選窗口的位置修正,以及是否屬于前景目標的得分,最終對提取到的所有候選窗口進行非極大值抑制處理,去除重復度較高的區(qū)域,并最終提取得分最高的n個候選窗口作為候選區(qū)域建議進入最終的目標分類;
分類識別網(wǎng)絡:對候選區(qū)域定位網(wǎng)絡所得的候選區(qū)域進行分類判斷,以及進一步的定位位置精修,通過計算候選區(qū)域在特征圖中的位置提取候選區(qū)域的特征圖,將特征圖經(jīng)過兩個全連接層后分別輸入給分類得分層和位置精修層,分別獲得該候選區(qū)域的類別得分以及位置修正。
步驟s2中,候選區(qū)域定位網(wǎng)絡的損失函數(shù)為:
在候選區(qū)域定位網(wǎng)絡中,損失函數(shù)包含窗口得分和窗口回歸兩部分,
窗口得分網(wǎng)絡為一個是否是目標的二值分類器,定義其分類損失函數(shù)為:
其中,pi表示在一次批梯度下降法中第i個候選窗口預測為目標的得分,也即其屬于目標的概率,
窗口回歸網(wǎng)絡為判斷窗口回歸位置是否接近實際標簽,定義其回歸損失函數(shù)為:
其中,ti表示在一次批梯度下降法中第i個候選窗口回歸的位置信息,包括中心點坐標、窗口寬度和窗口高度的相對修正值,
根據(jù)分類損失函數(shù)和回歸損失函數(shù)后,候選區(qū)域定位網(wǎng)絡的損失函數(shù)為:
其中p={pi},t={ti},參數(shù)λ為兩個子損失函數(shù)的權衡參數(shù)。
步驟s2中,分類識別網(wǎng)絡的分類損失函數(shù)為:
分類識別網(wǎng)絡輸出包含候選區(qū)域得分與區(qū)域回歸兩部分,設絡需要構造區(qū)分m類的分類器,則對于每個候選區(qū)域,通過分類識別網(wǎng)絡后均可獲得其對于m+1個類別的概率得分c={c0,c1,...cm+1},以及其位置回歸u,根據(jù)訓練標簽可獲得每個字符實際所屬類別以及區(qū)域位置,分別記為c*和u*,從而分類部分的損失函數(shù)為:
cc*表示求概率;
區(qū)域回歸部分的損失函數(shù)為:
得到分類識別網(wǎng)絡的分類損失函數(shù):
參數(shù)μ為兩個子損失函數(shù)的權衡參數(shù)。
當進行整個網(wǎng)路的端對端訓練時,整個網(wǎng)絡整體的目標函數(shù)為:
其中,lprop為候選區(qū)域定位網(wǎng)絡的損失函數(shù),lrgn為分類識別網(wǎng)絡的分類損失函數(shù),參數(shù)
步驟s5中,對網(wǎng)絡識別結構進行后處理判斷的方式為:
5.1)對每個候選區(qū)域均有m+1個類別得分,選取得分最高者作為該候選區(qū)域的類別;
5.2)對相同類別的候選區(qū)域去重疊:兩兩進行重復度iou值計算,大于0.7時保留得分高者的候選區(qū)域;
5.3)對剩下的候選區(qū)域進行全類別的如步驟5.2)的去重復處理,得到網(wǎng)絡最終的定位與識別結果;
5.4)根據(jù)字符定位結果,按照字符從左至右、從上至下的位置對字符進行排序,以文字形式輸出最終結果至用戶。
本發(fā)明方法與已有的現(xiàn)有技術相比,具有如下顯著效果:
(1)相比于一般方法中分割與識別獨立的模式,本發(fā)明提出針對整幅圖像直接進行字符定位和識別的方式,通過深度學習的有監(jiān)督學習,在網(wǎng)絡中提取圖像特征,完成字符區(qū)域的定位與字符類別的識別,從而達到無需專門進行字符分割預處理的整圖字符識別方法。
(2)本發(fā)明引入候選區(qū)域的概念,并且相比于目前通用的滑動窗口法、selectivesearch等方法,采用深度學習網(wǎng)絡進行字符候選區(qū)域的提取,使用人為標注訓練集的方式進行候選區(qū)域的有監(jiān)督學習,自動提取最具代表性的特征,高效、靈活得提取若干更符合人眼判斷可能的候選區(qū)域,并通過對候選區(qū)域分類的得分提取最終的字符定位與識別結果。
(3)本發(fā)明的候選區(qū)域提取與分類識別共享底層特征提取網(wǎng)絡,減少了網(wǎng)絡的額外開銷,從而達到網(wǎng)絡結構的簡化、訓練集需求的減少、網(wǎng)絡訓練時間降低等優(yōu)勢。
附圖說明
圖1是本發(fā)明一種基于深度學習網(wǎng)絡的無分割字符識別方法的流程圖。
圖2是本發(fā)明方法中使用的整個深度學習神經(jīng)網(wǎng)絡構成圖。
圖3是本發(fā)明方法網(wǎng)絡中通用卷積層網(wǎng)絡的詳細結構。
圖4是本發(fā)明方法網(wǎng)絡中通用候選區(qū)域定位網(wǎng)絡的詳細結構。
圖5是本發(fā)明方法網(wǎng)絡中通用分類識別網(wǎng)絡的詳細結構。
圖6是本發(fā)明方法的實施例示意圖,(a)為卷積特征圖(conv1/conv5),(b)為區(qū)域建議圖(得分前300),(c)為網(wǎng)絡最終的識別結果。
具體實施方式
為了解決目前字符識別應用至自然場景時難以正確分割和識別的問題,本發(fā)明設計了一種基于深度學習的無分割字符定位與識別方法,基于深度學習的方法,提出利用深度學習網(wǎng)絡提取圖像的特征,并據(jù)此進行字符候選區(qū)域的提取及分類,從而實現(xiàn)在網(wǎng)絡中既能實現(xiàn)字符定位,又可完成字符分類。本發(fā)明有效的解決了由于復雜自然場景下字符形態(tài)多變、背景干擾大而難以用傳統(tǒng)分割算法進行字符區(qū)域分割的問題,具有較強的泛化性及抗背景干擾能力。
為進一步了解本發(fā)明的內容,下面結合附圖和實施例對本發(fā)明作詳細描述。
本發(fā)明流程參見圖1,說明如下:
s1、首先構建深度卷積神經(jīng)網(wǎng)絡,本發(fā)明的多層卷積神經(jīng)網(wǎng)絡包括通用卷積層網(wǎng)絡、候選區(qū)域定位網(wǎng)絡和分類識別網(wǎng)絡,其在整個深度神經(jīng)網(wǎng)絡中的組成方式參見圖2,其中conv、proposal、classifier分別代表通用卷積層網(wǎng)絡、候選區(qū)域定位網(wǎng)絡、分類識別網(wǎng)絡。具體解析如下:
通用卷積層網(wǎng)絡:輸入圖像為任意尺寸大小,通用卷積層采用5層卷積層結構,層與層之間使用relu激活函數(shù),且前兩層卷積層后加入最大值池化層。其網(wǎng)絡結構圖如圖3所示,為了便于顯示,以下所有網(wǎng)絡結構圖均假設輸入圖像大小為(800,600),經(jīng)過通用卷積層網(wǎng)絡可提取一系列圖像特征圖,此時由于圖像大小不統(tǒng)一,因而特征圖大小也有差異,將緊跟圖像最后一層的池化層改為如下方式,以使得最終得到特征圖為統(tǒng)一大小:若最終特征圖尺寸要求為{w0,h0},當前特征圖大小為{w,h},則定義對當前特征圖做大小為{w0/w,h0/h}的窗口進行最大值池化處理,本發(fā)明實施例中{w0,h0}={49,36}。
候選區(qū)域定位網(wǎng)絡:網(wǎng)絡結構圖如圖4所示,對于上述得到的每一維特征圖采用滑動窗口法,窗口大小選取為3*3,步長為1,繼而采用relu激活函數(shù),則對每個窗口可提取一個256維的低維特征。該方式利用在高維特征空間滑動窗口法,替代了傳統(tǒng)網(wǎng)絡在網(wǎng)絡輸入前端對原始圖像進行滑動窗口提取圖像塊提取特征的方法,由于高維特征空間特征圖相比于原始圖像大大減小,從而滑動窗口法的運算量也得到減少,加速了網(wǎng)絡的傳輸時間,滿足實際應用中實時性的需求。
在深度學習網(wǎng)絡中,為了解決網(wǎng)絡對于多尺度目標的兼容問題,往往會采用以下兩種方法:一種是使用圖像金字塔,對伸縮到不同尺度的輸入圖像進行特征提?。涣硪环N是采取濾波器金字塔,即對輸入圖像采用不同尺寸的濾波器分別進行卷積操作。這兩種方法由于需要枚舉圖像或者濾波器的尺寸,且對于每種尺寸均需要進行一次整個網(wǎng)絡的完全計算,因此相當費時。為了適應實際應用中對于實時性的需求,本發(fā)明采用在特征圖上進行多尺度采樣的方式提取不同尺度物體的特征,從而只需要單一尺寸的輸入圖像和卷積核計算即可,大大減少了計算量。具體實現(xiàn)方式為:對于每個滑動窗口中心點,提取k種可能的候選窗口,因此對于w*h大小的特征圖,最多可以提取w*h*k個候選窗口。由于候選窗口為無方向矩形,k種可能性包括了a種面積尺度以及b種長寬比,即:k=a*b。在本發(fā)明中k的選取如下:
面積尺度a∈{642,1282}
長寬比b∈{1:1,1:2,2:1}
候選區(qū)域數(shù)量k=2*3=6
選取如上數(shù)值是考慮到通用卷積層網(wǎng)絡輸入圖像的大小,以及實際應用中待檢測字符本身的形狀比例和相對于圖像的大小比例,合理的根據(jù)應用場景的先驗知識選取k的種類,有助于減小k值,從而減少不必要的候選窗口的計算量,進一步加快網(wǎng)絡的傳輸時間。并且,由于在整體網(wǎng)絡分類結果輸出時會再次對目標進行精確的位置修正,因而候選區(qū)域定位網(wǎng)絡的主要功能在于對于目標檢測區(qū)域的大致定位,其目標在于包含待檢測物體,但不要求精確定位其位置,因此此處k的數(shù)量選擇較為簡單,而這也減少了候選區(qū)域定位網(wǎng)絡的時間消耗。
繼而對于提取的256維特征,分別輸入給窗口回歸層和窗口得分層,分別得到對于該滑動窗口中心點提取的k個候選窗口的位置修正以及是否屬于前景目標的得分,該方法可用兩個并行的1*1全連接卷積層實現(xiàn)。窗口回歸層的功能為對于每個候選窗口進行進一步的位置精修,其本質是進行回歸,輸出的是修正后的候選窗口的左上角以及長寬修正值,且對于k個不同的候選窗口構建不同的回歸器,也即k個回歸量不共享權重,從而使得對于每個3*3的窗口也能夠預測不同尺寸的候選區(qū)域。窗口得分層的功能在于對于每個候選窗口進行其是否屬于目標檢測區(qū)域的判斷,其本質是進行分類,輸出的是該候選窗口分別屬于前景和背景的得分。最終對滑動窗口提取到的所有候選窗口進行非極大值抑制處理,去除重復度較高的區(qū)域,并最終提取得分最高的n個候選窗口作為候選區(qū)域建議進入最終的目標分類。
分類識別網(wǎng)絡:分類識別網(wǎng)絡主要完成的工作是對候選區(qū)域定位網(wǎng)絡所得的候選區(qū)域進行分類判斷以及進一步得定位位置精修,其網(wǎng)絡結構圖參見圖5,因此首先需要提取候選區(qū)域的特征。傳統(tǒng)網(wǎng)絡通常采用將候選區(qū)域圖像提取出來后重新輸入給網(wǎng)絡進行特征提取和分類,這將導致網(wǎng)絡對于每個候選區(qū)域需要重新計算,因而重復計算量很大。由于已知了候選區(qū)域的位置,并且整幅圖像的特征圖已在通用卷積層網(wǎng)絡中得到,本發(fā)明通過計算候選區(qū)域在特征圖中的位置即可提取候選區(qū)域的特征圖,從而使得網(wǎng)絡只需計算一次整幅圖像的特征圖即可,且候選區(qū)域定位網(wǎng)絡和分類識別網(wǎng)絡可以共享通用卷積層網(wǎng)絡提取的特征圖,使得整個網(wǎng)絡相比于傳統(tǒng)的圖像分類識別網(wǎng)絡只增加了少量開銷,就可完成定位與分類兩項功能。
將特征圖經(jīng)過兩個全連接層后分別輸入給分類得分層和位置精修層,分別獲得該候選區(qū)域的類別得分以及位置修正。
s2、構造好整個網(wǎng)絡框架后,需要定義候選區(qū)域定位網(wǎng)絡的回歸損失函數(shù),及分類識別網(wǎng)絡的分類損失函數(shù),從而獲得整個網(wǎng)絡整體的目標函數(shù),以實現(xiàn)整個網(wǎng)絡全局端對端的訓練;
在候選區(qū)域定位網(wǎng)絡中,由于網(wǎng)絡的輸出包含窗口得分和窗口回歸,因此損失函數(shù)也包含這兩部分。首先定義正負樣本的概念:在進行有監(jiān)督訓練時,訓練集需要進行人工標注,標注內容包括物體的類別以及物體的位置。對于每個3*3窗口提取的k個候選窗口,定義其與實際人工標注的窗口重疊度大于0.8為正樣本,重疊度小于0.3為負樣本,其余舍棄。重疊度的定義為:
其中,gt為人工標注,cw為候選窗口。iou即為兩者重疊部分的面積與兩者總占用面積的比值,當候選窗口與人工標注完全重疊時,iou為1,當兩者無重疊時,iou為0。
窗口得分網(wǎng)絡本質是一個是否是目標的二值分類器,因而定義其分類損失函數(shù)為:
其中,pi表示在一次批梯度下降法中第i個候選窗口預測為目標的得分,也即其屬于目標的概率,
窗口回歸網(wǎng)絡本質是判斷窗口回歸位置是否接近實際標簽。通常描述一個矩形框需要四個參數(shù):左上角點或中心點x、y軸坐標、窗口寬度、窗口高度。為了兼容各種不同尺寸的候選窗口,以實現(xiàn)歸一化,對于每個3*3窗口,在回歸網(wǎng)絡中采用相對修正值來描述窗口:
其中,{x,xa,x*}分別為預測窗口、候選窗口和人工標簽窗口的中心點橫坐標,同理,{y,ya,y*}分別為這三者的縱坐標、{w,wa,w*}為窗口的寬度、{h,ha,h*}為窗口的高度。
由此可定義窗口回歸網(wǎng)絡的回歸損失函數(shù)為:
其中,ti={tx,ty,tw,th}表示在一次批梯度下降法中第i個候選窗口回歸的位置信息,相應的,
需要注意的是,在訓練時,只有正樣本窗口才有學習回歸調整的必要和意義,因此在損失函數(shù)中引入
(4)式中的r函數(shù)采用如下函數(shù):
已知了分類損失函數(shù)和回歸損失函數(shù)后,候選區(qū)域定位網(wǎng)絡的損失函數(shù)可定義為:
其中p={pi},t={ti},參數(shù)λ為兩個子損失函數(shù)的權衡參數(shù)。
在分類識別網(wǎng)絡中,與候選區(qū)域定位網(wǎng)絡類似的,其輸出也包含候選區(qū)域得分與區(qū)域回歸兩部分。若網(wǎng)絡需要構造區(qū)分m類的分類器,則每個候選區(qū)域通過分類識別網(wǎng)絡后,可得到其是否屬于m類每類類別的得分,以及是否屬于背景的得分,故在softmax分類器共得到m+1個得分數(shù)值,且它們的和為1,因而每個得分值也代表了其是否屬于該類別的概率。由于該部分網(wǎng)絡的輸入是來自于候選區(qū)域定位網(wǎng)絡的候選區(qū)域建議,因而正樣本的定義為與人工實際標注的窗口重疊度大于0.8為正樣本,其所屬類別以及區(qū)域位置分別記為c*和u*,而重疊度小于0.3為負樣本,其類別屬于背景,重疊度不滿足以上要求的樣本不參與損失函數(shù)的計算。
設絡需要構造區(qū)分m類的分類器,則對于每個候選區(qū)域,通過分類識別網(wǎng)絡后均可獲得其對于m+1個類別的概率得分c={c0,c1,...cm+1},以及其位置回歸u,根據(jù)訓練標簽可獲得每個字符實際所屬類別以及區(qū)域位置,分別記為c*和u*,從而分類部分的損失函數(shù)為:
cc*表示求概率;
回歸部分的損失函數(shù)為:
lr_reg(u,u*)=[u*>1]r(u-u*)(8)
同候選區(qū)域定位網(wǎng)絡一樣,[u*>1]作用在于保證只有正樣本才計入回歸損失函數(shù)的計算。
最后分類識別網(wǎng)絡的損失函數(shù)可定義為:
lrgn(c,u)=∑lr_cls(c,c*)+μ∑lr_reg(u,u*)
(9)
當進行整個網(wǎng)路的端對端訓練時,定義整個網(wǎng)絡的誤差函數(shù)為:
其中,參數(shù)
s3、采用人工標定的字符類別及位置信息的訓練集對網(wǎng)絡進行訓練,從而得到用于進行字符定位和識別的網(wǎng)絡模型。
網(wǎng)絡訓練采取標準誤差反向傳播和隨機梯度下降法,其權值衰減量和沖量分別設置為0.0005和0.9。訓練學習速率α初始設置為0.001,每迭代10k次,引入衰減量β以更新學習速率,使得:
α=βα(11)
在訓練中,如果候選窗口來自于同一幅圖像,則它們可以共享前面卷積層的計算結果,減少網(wǎng)絡訓練的計算量,因此在本發(fā)明中,網(wǎng)絡訓練時一次批梯度下降法中,選取來自i幅圖像的r個候選窗口,也即每幅圖像選取r/i個候選窗口。如r選擇為256,i選擇為2,則每幅圖像采樣256/2=128個候選窗口,相比于對從256幅圖像各選擇一個窗口計算可加速128倍。同時,為了防止每幅圖像采集的128個候選窗口中正負樣本比例失調,導致網(wǎng)絡發(fā)生偏差,設置每次采集的128個候選窗口中正負樣本的比例為1:1,且舍棄超出圖像邊界的候選窗口。
由于網(wǎng)絡主要由三部分網(wǎng)絡組成,因而采用一種逐層遞進的訓練方式,具體為:
1)首先訓練通用卷積層部分。由于圖像的底層特征是相似的,因而對于通用卷積層部分采用從pascalvoc2012的zf模型(zeiler與fergus模型)進行遷移初始化。
2)其次在已訓練好的通用卷積層的基礎上增加候選區(qū)域定位網(wǎng)絡進行訓練,固定通用卷積層網(wǎng)絡參數(shù),采用隨機初始化的方式初始化候選區(qū)域定位網(wǎng)絡參數(shù),根據(jù)步驟2中定義的候選區(qū)域定位網(wǎng)絡的損失函數(shù)對候選區(qū)域定位網(wǎng)絡參數(shù)進行調整。
3)繼而再增加分類識別網(wǎng)絡,固定通用卷積層網(wǎng)絡以及候選區(qū)域定位網(wǎng)絡參數(shù),采用隨機初始化的方式初始化分類識別網(wǎng)絡的參數(shù),根據(jù)步驟2中定義的分類識別網(wǎng)絡損失函數(shù),對分類識別網(wǎng)絡的參數(shù)進行學習和調整。
4)最后根據(jù)步驟2)中定義的全局網(wǎng)絡損失函數(shù),對整個網(wǎng)絡進行端對端的微調,獲得最終的訓練結果。
s4、經(jīng)過人工標定的字符類別及位置信息的訓練集對網(wǎng)絡進行學習和訓練后,可獲得一個網(wǎng)絡模型的結果,模型里包含了深度學習網(wǎng)絡中每一層權值的數(shù)值。當運用到實際應用時,只需將采集到的字符圖像輸入給網(wǎng)絡進行前向傳輸,則網(wǎng)絡的輸出即為位置精修后的n個候選區(qū)域及其類別得分。
s5、由于網(wǎng)絡的輸出結果有n個候選區(qū)域,通常n的數(shù)值設置為在滿足網(wǎng)絡傳輸時間的要求下,盡可能大于圖像中實際字符的數(shù)量,以保證可以包含所有的目標字符,因此這n個候選區(qū)域通常具有極大的重復性,需要進行一定的后處理,以獲得最終精確的識別結果。后處理邏輯主要包含以下幾個步驟:
1)對每個候選區(qū)域均有m+1個類別得分,選取得分最高者作為該候選區(qū)域的類別;
2)對相同類別的候選區(qū)域去重疊:兩兩進行重復度iou值計算,大于0.7時保留得分高者的候選區(qū)域。
3)由于字符識別中各字符不會發(fā)生重疊,否則無法進行識別,因而對剩下的候選區(qū)域進行全類別的如步驟2)的去重復處理,得到網(wǎng)絡最終的定位與識別結果。
4)根據(jù)字符定位結果,按照字符從左至右、從上至下的位置對字符進行排序,可以文字形式輸出最終結果至用戶。
本發(fā)明中使用的字符圖像采用130萬像素彩色照相機采集,電腦配置為酷睿i5,英偉達gtx10806g,訓練時間為4小時,測試時間為100ms/張,檢測正確率達99.98%。如圖6為識別實施示意圖。
以上示意性的對本發(fā)明及其實施方式進行了描述,該描述沒有限制性,附圖中所示的也只是本發(fā)明的實施方式之一,實際的結構并不局限于此。所以,如果本領域的普通技術人員受其啟示,在不脫離本發(fā)明創(chuàng)造宗旨的情況下,不經(jīng)創(chuàng)造性的設計出與該技術方案相似的結構方式及實施例,均應屬于本發(fā)明的保護范圍。