亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

對圖片進行文本檢測的方法及裝置的制造方法

文檔序號:9866150閱讀:332來源:國知局
對圖片進行文本檢測的方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明屬于計算機技術領域,尤其涉及對圖片進行文本檢測的方法及裝置。
【背景技術】
[0002]目前,對圖片進行文本檢測的算法主要分為兩類:基于滑動窗口的方法和基于連通區(qū)域的方法?;诨瑒哟翱诘姆椒ㄊ峭ㄟ^一個大小可變的滑動子窗口掃描一張圖片所有可能的位置,來檢測文本信息,其利用一個訓練好的分類器來判別窗口內是否有文本信息;基于連通區(qū)域的方法首先通過一個底層的濾波器快速分割文本和非文本像素,然后把具有相似屬性的文本像素連通起來構成文本成分,筆畫寬度轉化(SWT)算法和最穩(wěn)定極值區(qū)域(MSREs)算法是此類方法的代表。然而,上述方法的分類網(wǎng)絡采用全連接層,丟失了文本區(qū)域的位置信息。

【發(fā)明內容】

[0003]有鑒于此,本發(fā)明實施例提供了對圖片進行文本檢測的方法及裝置,以解決現(xiàn)有技術會丟失文本區(qū)域的位置信息的問題。
[0004]第一方面,提供了一種對圖片進行文本檢測的方法,包括:
[0005]獲取進行文本檢測的圖片;
[0006]將所述圖片輸入全卷積網(wǎng)絡的第一層,在所述第一層中基于文本區(qū)域的序列特征,檢測出所述圖片中的文本區(qū)域;
[0007]將所述文本區(qū)域輸入到所述全卷積網(wǎng)絡的第二層,在所述第二層中基于文本中間線的監(jiān)督分類器,將所述文本區(qū)域分解為獨立的文本行區(qū)域輸出,所述文本中間線的區(qū)域由高斯分布的函數(shù)定義。
[0008]另一方面,提供了一種對圖片進行文本檢測的裝置,包括:
[0009]獲取單元,用于獲取進行文本檢測的圖片;
[0010]第一處理單元,用于將所述圖片輸入全卷積網(wǎng)絡的第一層,在所述第一層中基于文本區(qū)域的序列特征,檢測出所述圖片中的文本區(qū)域;
[0011]第二處理單元,用于將所述文本區(qū)域輸入到所述全卷積網(wǎng)絡的第二層,在所述第二層中基于文本中間線的監(jiān)督分類器,將所述文本區(qū)域分解為獨立的文本行區(qū)域輸出,所述文本中間線的區(qū)域由高斯分布的函數(shù)定義。
[0012]本發(fā)明實施例基于兩層級聯(lián)式的全卷積網(wǎng)絡,對圖片中的文本行進行提取,不僅充分節(jié)省了重疊區(qū)域之間的計算資源,而且利用了文本更高層的序列特征作為監(jiān)督信息,提高了文本檢測算法的魯棒性。
【附圖說明】
[0013]為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0014]圖1是本發(fā)明實施例提供的對圖片進行文本檢測的網(wǎng)絡結構圖;
[0015]圖2是本發(fā)明實施例提供的對圖片進行文本檢測的方法的實現(xiàn)流程圖;
[0016]圖3是本發(fā)明實施例提供的文本中間線的檢測示意圖;
[0017]圖4是本發(fā)明實施例提供的對圖片進行文本檢測的檢測效果示意圖;
[0018]圖5是本發(fā)明實施例提供的對圖片進行文本檢測裝置的結構框圖。
【具體實施方式】
[0019]以下描述中,為了說明而不是為了限定,提出了諸如特定系統(tǒng)結構、技術之類的具體細節(jié),以便透切理解本發(fā)明實施例。然而,本領域的技術人員應當清楚,在沒有這些具體細節(jié)的其它實施例中也可以實現(xiàn)本發(fā)明。在其它情況中,省略對眾所周知的系統(tǒng)、裝置、電路以及方法的詳細說明,以免不必要的細節(jié)妨礙本發(fā)明的描述。
[0020]本發(fā)明實施例基于兩層級聯(lián)式的全卷積網(wǎng)絡,對圖片中的文本行進行提取,不僅充分節(jié)省了重疊區(qū)域之間的計算資源,而且利用了文本更高層的序列特征作為監(jiān)督信息,提高了文本檢測算法的魯棒性。
[0021]圖1示出了本發(fā)明實施例提供的對圖片進行文本檢測的網(wǎng)絡結構,如圖1所示,輸入圖像首先經(jīng)過VGG-16網(wǎng)絡的特征提取層,到達池化層-4,然后將池化層-4的特征圖填充不同大小的邊界,同時用三種不同大小的卷積核進行卷積,將鄭積得到的三種特征圖像進行融合并通過全卷積網(wǎng)絡,將得到的特征上采樣并與池化層-4得到的特征進行融合。參照該網(wǎng)絡結構,接下來通過圖2對本發(fā)明實施例提供的對圖片進行文本檢測的方法的實現(xiàn)流程進行詳細闡述。在本發(fā)明實施例中,采用的卷積網(wǎng)絡是以被廣泛使用的VGG-16N et圖像分類模型為基本框架,結合場景文本的具體特征所改進得到的:
[0022]在S201中,獲取進行文本檢測的圖片。
[0023]在S202中,將所述圖片輸入全卷積網(wǎng)絡的第一層,在所述第一層中基于文本區(qū)域的序列特征,檢測出所述圖片中的文本區(qū)域。
[0024]在本實施例中,用1*1的卷積代替全連接層,使得輸入的圖片可以為任意大小,且能夠保留粗糙的空間位置信息。在該級網(wǎng)絡的檢測中,主要利用了文本區(qū)域的監(jiān)督信息,強調了文本行矩形的序列結構,為了更好地突出這個序列特征,在本發(fā)明實施例中,將文本區(qū)域和非文本區(qū)域的二分類函數(shù)softmax作為誤差函數(shù),這樣將直接輸出一個和原圖同樣大小的熱點圖,簡單地設置一個閾值就可以將粗糙的文本區(qū)域從圖片中分割開來。
[0025]在網(wǎng)絡設計上,本發(fā)明實施例設計了一種針對文本特征的卷積和,并進行了特征整合:由于文本在自然場景中的表現(xiàn)形式一般為矩形序列,因此,設計了3*7、7*3以及3*3的卷積核,以分別針對不同方向的文本區(qū)域的序列特征,解決了在文本檢測中多語言多方向的問題,減少了人為的干預以及啟發(fā)式參數(shù)的設定,省去了復雜的后處理過程。
[0026]同時,為了使不同的卷積和能夠以同樣大小進行融合,在本發(fā)明實施例中,如圖1所示,對特征圖像進行了不同方式的填補(padding),使得輸出的特征圖大小相同。
[0027]此外,為了更加精細地定位文本區(qū)域,提高特征圖像的分辨率,在本發(fā)明實施例中,進行了pool-4和pool-5的特征融合,將pool-5特征上采樣到的和pool-4同樣大小的特征進行逐元素求和,這樣不僅保留了pool-4更為細節(jié)的特征,同時也保留了pool-5的高層語義信息。
[0028]在S203中,將所述文本區(qū)域輸入到所述全卷積網(wǎng)絡的第二層,在所述第二層中基于文本中間線的監(jiān)督分類器,將所述文本區(qū)域分解為獨立的文本行區(qū)域輸出,所述文本中間線的區(qū)域由高斯分布的函數(shù)定義。
[0029]在S102中,第一層網(wǎng)絡的輸出無法精確地分開文本行,得到的文本區(qū)域是由很多文本行連接在一起的,而文本檢測的最終目的是輸出獨立的文本行區(qū)域,因此,為了實現(xiàn)這一目的,在本發(fā)明實施例中,在第二層網(wǎng)絡設計了一種基于文本中間線的監(jiān)督分類器,如圖3所示,文本中間線的區(qū)域是由一個高斯分布的函數(shù)定義的,由區(qū)域的中間逐漸向兩邊遞減,函數(shù)最大值為I,最小值為O,高斯分布的半徑為0.25*H,所述H為文本區(qū)域最小面積文本框的高度。在第二級網(wǎng)絡中,采用的誤差函數(shù)為sigmoid交叉熵。
[0030]由第二層網(wǎng)絡的設計可知,這樣的設計不僅能夠讓文本區(qū)域有重疊的文本行分離,并且可以根據(jù)文本行的高度推算出整個文本框的高度,高效地利用了重疊區(qū)域的計算資源,利用全卷積網(wǎng)絡保留了文本區(qū)域的位置信息。
[0031]進一步地,為了更加準確地找到文本框,本發(fā)明實施例中,在第二層網(wǎng)絡添加了局部的文本區(qū)域約束,即,將文本區(qū)域的局部區(qū)域送入第一層網(wǎng)絡重新進行文本區(qū)域檢測。
[0032]在本發(fā)明實施例中,設計了一種兩步級聯(lián)的由粗糙到細致的神經(jīng)網(wǎng)絡,其第一級網(wǎng)絡用于在整張圖中檢測粗糙的文本區(qū)域,輸出一個像素級別的顯著性圖,以表征某區(qū)域是否為文本區(qū)域的概率;第二級網(wǎng)絡用于精確的定位文本行的位置,并產(chǎn)生兩個顯著性圖:一張基于文本區(qū)域的顯著性圖,一張基于文本中間線的顯著性圖。上述設計利用神經(jīng)網(wǎng)絡直接輸出文本區(qū)域,且無需設計基于字符的分類器,同時解決了多語言多方向的問題。
[0033]圖4示出了本發(fā)明實施例提供的對圖片進行文本檢測的方法的實現(xiàn)示例圖,其中,第一列為輸入圖像,第二列為粗檢測的結果,第三列為根據(jù)粗檢測結果得到的精細局部區(qū)域圖像,第四列為局部中間線的檢測結果,第五列為第二步局部區(qū)域檢測,第六列為得到的文本檢測結果。
[0034]對應于上文所述的對圖片進行文本檢測的方法,圖5示出了本發(fā)明實施例提供的對圖片進行文本檢測的裝置的結構框圖,為了便于說明,
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1