基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種圖像處理技術(shù)領(lǐng)域,具體地說(shuō),涉及的是一種在自然場(chǎng)景圖像中基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的文字檢測(cè)方法及系統(tǒng)。
【背景技術(shù)】
[0002]文本是計(jì)算機(jī)視覺(jué)的許多應(yīng)用中的一項(xiàng)重要特征。圖像中的文本存有很多有用的信息,對(duì)視覺(jué)內(nèi)容理解和獲取至關(guān)重要。文本提取的主要目的是將文本圖像轉(zhuǎn)化為符號(hào)形式,從而利于修改、檢索、利用及傳輸。文本定位是文本提取的一個(gè)重要步驟。
[0003]文本定位是對(duì)圖像中文本位置的精確定位?;跇O值連通域的文本定位方法首先將圖像表示為一個(gè)個(gè)的連通域,然后從結(jié)構(gòu)分析出發(fā),通過(guò)合并方法將文本行標(biāo)示,輸出結(jié)果Ο
[0004]傳統(tǒng)的合并方法在處理一些結(jié)構(gòu)復(fù)雜的漢字時(shí)效果不甚理想。外語(yǔ)如最常見的英語(yǔ)單詞字符之間一般水平排列。對(duì)于中文文字,情況更加復(fù)雜。
[0005]經(jīng)檢索,于慧敏和李天豪申請(qǐng)的公開號(hào)為104794504Α、申請(qǐng)?zhí)枮?01510207913.5的發(fā)明專利申請(qǐng),該發(fā)明公開了一種在自然場(chǎng)景圖像中基于深度學(xué)習(xí)的文字檢測(cè)方法。首先,通過(guò)圖形圖案文字樣本合成訓(xùn)練深度卷積自編碼網(wǎng)絡(luò),然后使用已標(biāo)記的樣本,通過(guò)稀疏字典進(jìn)行分類。之后使用合成的樣本集,建立深度卷積自編碼網(wǎng)絡(luò),并使用分層訓(xùn)練、整體調(diào)優(yōu)的方式學(xué)習(xí)特征模板;然后對(duì)已有的標(biāo)記樣本,使用深度網(wǎng)絡(luò)學(xué)習(xí)得到的特征模板進(jìn)行特征提取;最后把提取的特征上采樣至原圖大小,并以單個(gè)分塊作為識(shí)別的單位,訓(xùn)練稀疏字典以及分類器。在完成訓(xùn)練步驟后,對(duì)待處理的圖像進(jìn)行多分辨率分解,并使用特征模板提取特征,再使用稀疏字典進(jìn)行分類獲取結(jié)果。該發(fā)明使用稀疏字典分類方法在復(fù)雜中文文字的檢測(cè)上效果不佳,原因是此類文字出現(xiàn)概率小,字典中很難找到。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于針對(duì)目前圖像文本定位上的定位不甚理想的情況,提出一種在自然場(chǎng)景圖像中基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法及系統(tǒng),采用基于深度學(xué)習(xí)的文字區(qū)域特征提取和分類的方法,可以克服上述問(wèn)題,提高識(shí)別效果。
[0007]為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:本發(fā)明使用無(wú)監(jiān)督學(xué)習(xí)法訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),而后使用該網(wǎng)絡(luò)對(duì)自然圖像中的各個(gè)候選文字區(qū)域進(jìn)行分類,最后對(duì)分類為文字的區(qū)域進(jìn)行文本行聚合,檢測(cè)得到圖像中的文字區(qū)域。
[0008]本發(fā)明抓住深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)圖像特征超強(qiáng)的提取能力,利用無(wú)監(jiān)督學(xué)習(xí)強(qiáng)大的訓(xùn)練能力,針對(duì)中文字特征訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)文字區(qū)域定位和分割,方法簡(jiǎn)單有效。這種方法針對(duì)文字特征構(gòu)建了深度卷積神經(jīng)網(wǎng)絡(luò)無(wú)監(jiān)督學(xué)習(xí)方法,在文字檢測(cè)方面具有更好的針對(duì)性,因此具有更高的主動(dòng)性和精確性。
[0009]具體的:
[0010]本發(fā)明提供一種基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的文字檢測(cè)的方法,包括以下步驟:
[0011 ]第一步,訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò):
[0012]構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法:以卷積運(yùn)算和離散編碼算法為基礎(chǔ),針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)和中文字的特性,構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)算法;
[0013]建立中文字?jǐn)?shù)據(jù)集:中文字?jǐn)?shù)據(jù)集包括常用字以及常用字體;
[0014]使用無(wú)監(jiān)督學(xué)習(xí)算法和所述中文字?jǐn)?shù)據(jù)集訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò);
[0015]第二步,使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域,并由訓(xùn)練得到的所述深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得到文字區(qū)域;
[0016]第三步,分析文字區(qū)域之間的相關(guān)性,將相關(guān)文字區(qū)域聚合成文本行,并用矩形框?qū)ξ谋拘屑右詷?biāo)定。
[0017]上述第一步中,需要根據(jù)中文字特征構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法,算法具體流程如下:
[0018](1)根據(jù)卷積運(yùn)算和離散編碼算法構(gòu)建目標(biāo)函數(shù),優(yōu)化目標(biāo)為:特征h,字典D和網(wǎng)絡(luò)參數(shù)P ;
[0019]( 2 )固定字典D,使用FI STA (FAST Iterative Shrinkage-ThresholdingAlgorithm)法得到最優(yōu)特征h‘ ;
[0020](3)固定最優(yōu)特征h‘,單次使用隨機(jī)梯度下降法訓(xùn)練字典D;
[0021](4)固定最優(yōu)特征h‘,多次使用隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò)參數(shù)p,直至訓(xùn)練誤差小于預(yù)設(shè)值Θ;
[0022](5)使用最新網(wǎng)絡(luò)參數(shù)p重新計(jì)算特征h;
[0023](6)重復(fù)上述(2)-(5)步驟直至達(dá)到學(xué)習(xí)目標(biāo)。
[0024]上述第一步中,人工建立中文字?jǐn)?shù)據(jù)集,數(shù)據(jù)集具體特征如下:
[0025](1)所用文字為3500個(gè)常用字;
[0026](2)所用字體為15種有代表性的字體;
[0027](3)文字圖像類型為黑底白字和白底黑字兩種;
[0028](4)文字圖像大小為32X32。
[0029]上述第二步中,所述多尺度滑動(dòng)窗算法的提取參數(shù)如下:
[0030](1)最大尺度為1/4圖像大小,最小尺度為20像素;
[0031](2)重疊系數(shù)為0.5滑動(dòng)提??;
[0032](3)提取出的圖像塊長(zhǎng)寬比為1: 1,并統(tǒng)一縮放為32 X 32的圖像塊。
[0033]上述第三步中,利用第二步得到的文字區(qū)域,執(zhí)行基于區(qū)域相關(guān)性的文本行聚合算法,具體相關(guān)性特征和聚合規(guī)則如下:
[0034](1)兩個(gè)文字區(qū)域的高度比值該在0.5和2之間;
[0035](2)兩個(gè)文字區(qū)域外接矩形的中心點(diǎn)y坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最高的高度值的1/2;
[0036](3)兩個(gè)文字區(qū)域的外接矩形的中心點(diǎn)X坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最寬的寬度值的2倍;
[0037](4)單個(gè)文本行至少有三個(gè)或以上的文字區(qū)域。
[0038]本發(fā)明還提供一種用于實(shí)現(xiàn)上述方法的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)系統(tǒng),包括:
[0039]深度卷積神經(jīng)網(wǎng)絡(luò)模塊,該模塊包括構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法子模塊和建立中文字?jǐn)?shù)據(jù)集子模塊,其中:
[0040]構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法子模塊,以卷積運(yùn)算和離散編碼算法為基礎(chǔ),針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)和中文字的特性,構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)算法;
[0041]建立中文字?jǐn)?shù)據(jù)集子模塊,用于建立中文字?jǐn)?shù)據(jù)集,所述中文字?jǐn)?shù)據(jù)集包括常用字以及常用字體;
[0042]構(gòu)建的所述無(wú)監(jiān)督學(xué)習(xí)算法和所述中文字?jǐn)?shù)據(jù)集用于訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò);
[0043]文字區(qū)域提取模塊,使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域,并由訓(xùn)練得到的所述深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得到文字區(qū)域;
[0044]文字區(qū)域聚合模塊,分析文字區(qū)域之間的相關(guān)性,將相關(guān)文字區(qū)域聚合成文本行,并用矩形框?qū)ξ谋拘屑右詷?biāo)定。
[0045]與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
[0046]本發(fā)明利用無(wú)監(jiān)督學(xué)習(xí)法訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),然后多尺度滑動(dòng)窗算法提取候選文字區(qū)域,最后訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型對(duì)候選文字區(qū)域進(jìn)行分類并根據(jù)相關(guān)性進(jìn)行文本行聚合得到文字區(qū)域。傳統(tǒng)的區(qū)域提取方法在處理一些受到干擾的文字時(shí)效果不甚理想,比如最常見的閃光燈下的文字,傳統(tǒng)方法會(huì)將一個(gè)文字的不同部分和背景連成一體,成為混合了背景的多個(gè)區(qū)域。本發(fā)明的深度卷積神經(jīng)網(wǎng)絡(luò)方法可以有效地將存在干擾的文字和背景分成不同的兩類,因此在處理復(fù)雜干擾影響的文字具有更高的準(zhǔn)確性。綜上,本發(fā)明基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的文字檢測(cè)方法相比于傳統(tǒng)的文本檢測(cè)等方法,擁有更高的主動(dòng)性和精確性。
【附圖說(shuō)明】
[0047]通過(guò)閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0048]圖1是本發(fā)明一實(shí)施例的方法流程圖;
[0049]圖2是本發(fā)明一實(shí)施例中的無(wú)監(jiān)督學(xué)習(xí)算法的流程圖;
[0050]圖3是本發(fā)明一實(shí)施例的系統(tǒng)框圖。
【具體實(shí)施方式】
[0051]下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。
[0052]本發(fā)明使用無(wú)監(jiān)督學(xué)習(xí)法訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),而后使用該網(wǎng)絡(luò)對(duì)自然圖像中的各個(gè)候選文字區(qū)域進(jìn)行分類,最后對(duì)分類為文字的區(qū)域進(jìn)行文本行聚合,檢測(cè)得到圖像中的文字區(qū)域。該無(wú)監(jiān)督學(xué)習(xí)方法基于卷積運(yùn)算和離散編碼算法構(gòu)成,針對(duì)文字特性強(qiáng)化了網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)過(guò)程。在無(wú)監(jiān)督學(xué)習(xí)過(guò)程中,使用人工構(gòu)建的文字圖像(訓(xùn)練數(shù)據(jù)集)進(jìn)行訓(xùn)練,擴(kuò)大了訓(xùn)練樣本數(shù),增強(qiáng)了訓(xùn)練的準(zhǔn)確性。使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域,可以保證檢測(cè)出各個(gè)尺度的文字區(qū)域。本發(fā)明以無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的強(qiáng)文字特征提取能力為出發(fā)點(diǎn),針對(duì)中文字特性做了強(qiáng)化訓(xùn)練,因此具有更高的主動(dòng)性和精確性。
[0053]如圖1所示,本實(shí)施例提供一種基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的文字檢測(cè)方法,流程可以分為以下幾個(gè)步驟:
[0054]步驟1:人工構(gòu)建中文字?jǐn)?shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,提供足夠多的訓(xùn)練數(shù)據(jù);
[0055]步驟2:構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法:以卷積運(yùn)算和離散編碼算法為基礎(chǔ),針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)和中文字的特性,構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)算法;
[0056]上述步驟1和2可以順序互換,或者同時(shí)進(jìn)行,步驟1和2都完成后,使用無(wú)監(jiān)督學(xué)習(xí)算法,用構(gòu)建好的數(shù)據(jù)集訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò);
[0057]步驟3:使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域;
[0058]步驟4:使用訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)候選文字區(qū)域進(jìn)行分類;
[0059]步驟5:對(duì)分類得到的文字區(qū)域進(jìn)行相關(guān)性分析,根據(jù)規(guī)則進(jìn)行聚合;
[0060]步驟6:標(biāo)記檢測(cè)出的文本行,檢測(cè)結(jié)束。
[0061]作為一個(gè)優(yōu)選實(shí)施方式,所述步驟1:使用人工合成的方式獲得足夠多的訓(xùn)練圖像,