合成的圖像參數(shù)如下:
[0062](1)圖像大小:32 X 32;
[0063](2)文字集:3500常用字;
[0064](3)文字字體:15種常用字體;
[0065](4)文字大小:24;
[0066](5)文字背景:白底黑字和黑底白字;
[0067]作為一個(gè)優(yōu)選實(shí)施方式,所述步驟2:如圖2所示,需要注意的是,結(jié)合卷積運(yùn)算和離散編碼算法構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法只是無(wú)監(jiān)督學(xué)習(xí)算法的一種可能方式,也可以采取其它方式得到進(jìn)行無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)算法的思路如下:由于在一個(gè)優(yōu)化方程中存在三個(gè)優(yōu)化目標(biāo),因此首先固定一個(gè)優(yōu)化目標(biāo):字典D,使用FISTA法對(duì)特征h進(jìn)行優(yōu)化;然后根據(jù)優(yōu)化得到的最優(yōu)特征h’,使用隨機(jī)梯度下降法對(duì)字典D和網(wǎng)絡(luò)參數(shù)p進(jìn)行優(yōu)化,由于網(wǎng)絡(luò)參數(shù)p的優(yōu)化難度大大高于字典D,因此在優(yōu)化網(wǎng)絡(luò)參數(shù)p是需要引入優(yōu)化目標(biāo),在達(dá)到目標(biāo)之前反復(fù)優(yōu)化;最后使用優(yōu)化結(jié)果更新優(yōu)化目標(biāo)初始值,重復(fù)上述過(guò)程進(jìn)行迭代,直到達(dá)到優(yōu)化目標(biāo)。具體過(guò)程如下:
[0068](1)對(duì)優(yōu)化目標(biāo)進(jìn)行隨機(jī)初始化;
[0069](2)固定字典D,使用FISTA法對(duì)特征h進(jìn)行優(yōu)化,F(xiàn)ISTA法的最大迭代次數(shù)為50;
[0070](3)固定(2)中得到的最優(yōu)特征h’,使用隨機(jī)梯度下降法對(duì)字典D進(jìn)行單次優(yōu)化;
[0071](4)固定(2)中得到的最優(yōu)特征h’,使用隨機(jī)梯度下降法對(duì)網(wǎng)絡(luò)參數(shù)p進(jìn)行多次優(yōu)化,直到誤差值小于預(yù)設(shè)值Θ;
[0072](5)使用優(yōu)化結(jié)果更新優(yōu)化目標(biāo)初始值;
[0073](6)重復(fù)(2)-(5)過(guò)程,直到訓(xùn)練完成。
[0074]作為一個(gè)優(yōu)選實(shí)施方式,所述步驟3:使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域,算法具體參數(shù)如下:
[0075](1)最大尺度為1/4圖像大小,最小尺度為20像素;
[0076](2)最小尺度為20像素;
[0077](3)重疊系數(shù)為0.5滑動(dòng)提??;
[0078](4)圖像塊長(zhǎng)寬比為1:1;
[0079](5)圖像塊大小縮放為32X32。
[0080]所述重疊系數(shù)可以根據(jù)計(jì)算能力調(diào)整,圖像塊大小根據(jù)神經(jīng)網(wǎng)絡(luò)可以調(diào)整。
[0081]作為一個(gè)優(yōu)選實(shí)施方式,所述步驟4:訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)候選文字區(qū)域進(jìn)行分類,將候選文字區(qū)域分成文字區(qū)域和非文字區(qū)域兩類:
[0082]作為一個(gè)優(yōu)選實(shí)施方式,所述步驟5:分析文字區(qū)域之間的相關(guān)性,并根據(jù)一定規(guī)則進(jìn)行聚合。具體相關(guān)性和規(guī)則如下:
[0083]①相關(guān)性:
[0084]1)文字區(qū)域的高度;
[0085]2)文字區(qū)域的水平位置;
[0086]3)文字區(qū)域的垂直位置.
[0087]②文字區(qū)域聚合規(guī)則:
[0088]1)兩個(gè)文字區(qū)域的高度比值該在0.5和2之間;
[0089]2)兩個(gè)文字區(qū)域外接矩形的中心點(diǎn)y坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最高的高度值的1/2;
[0090]3)兩個(gè)文字區(qū)域的外接矩形的中心點(diǎn)X坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最寬的寬度值的2倍;
[0091]4)單個(gè)文本行至少有三個(gè)或以上的文字區(qū)域。
[0092]如圖3所示,本發(fā)明還提供一種用于實(shí)現(xiàn)上述方法的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)系統(tǒng),包括:
[0093]深度卷積神經(jīng)網(wǎng)絡(luò)模塊,該模塊包括構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法子模塊和建立中文字?jǐn)?shù)據(jù)集子模塊,其中:
[0094]構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法子模塊,以卷積運(yùn)算和離散編碼算法為基礎(chǔ),針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)和中文字的特性,構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)算法;
[0095]建立中文字?jǐn)?shù)據(jù)集子模塊,用于建立中文字?jǐn)?shù)據(jù)集,所述中文字?jǐn)?shù)據(jù)集包括常用字以及常用字體;
[0096]構(gòu)建的所述無(wú)監(jiān)督學(xué)習(xí)算法和所述中文字?jǐn)?shù)據(jù)集用于訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò);
[0097]文字區(qū)域提取模塊,使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域,并由訓(xùn)練得到的所述深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得到文字區(qū)域;
[0098]文字區(qū)域聚合模塊,分析文字區(qū)域之間的相關(guān)性,將相關(guān)文字區(qū)域聚合成文本行,并用矩形框?qū)ξ谋拘屑右詷?biāo)定。
[0099]上述各個(gè)模塊中采用與方法各步驟中的技術(shù)特征相對(duì)應(yīng),圖3中:中文字?jǐn)?shù)據(jù)集對(duì)應(yīng)數(shù)據(jù)集建立(步驟1和步驟2),深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)了文字結(jié)構(gòu)檢測(cè)層的深度神經(jīng)網(wǎng)絡(luò)(步驟1和步驟2完成后的訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)),文字區(qū)域提取對(duì)應(yīng)了滑動(dòng)窗提取并用神經(jīng)網(wǎng)絡(luò)分類(步驟3和4),文字區(qū)域聚合對(duì)應(yīng)了文字區(qū)域相關(guān)性分析與聚合(步驟5)。系統(tǒng)中對(duì)各模塊的具體實(shí)現(xiàn)技術(shù)不再贅述,該系統(tǒng)能很好的實(shí)現(xiàn)文字結(jié)構(gòu)檢測(cè)。
[0100]常用的文字區(qū)域分類方法在處理一些受到干擾的文字時(shí)效果不甚理想,比如最常見(jiàn)的閃光燈下的文字,傳統(tǒng)方法會(huì)將一個(gè)文字的不同部分和背景連成一體,成為混合了背景的多個(gè)區(qū)域。本發(fā)明的深度卷積神經(jīng)網(wǎng)絡(luò)方法可以有效地將存在干擾的文字和背景分成不同的兩類,因此在處理復(fù)雜干擾影響的文字具有更高的準(zhǔn)確性,方法簡(jiǎn)單有效,而且對(duì)復(fù)雜背景圖像文字檢測(cè)有非常好的效果。
[0101]以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。
【主權(quán)項(xiàng)】
1.一種基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法,其特征在于包括以下步驟: 第一步,訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò): 構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法:以卷積運(yùn)算和離散編碼算法為基礎(chǔ),針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)和中文字的特性,構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)算法; 建立中文字?jǐn)?shù)據(jù)集:中文字?jǐn)?shù)據(jù)集包括常用字以及常用字體; 使用所述無(wú)監(jiān)督學(xué)習(xí)算法和所述中文字?jǐn)?shù)據(jù)集訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò); 第二步,使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域,并由訓(xùn)練得到的所述深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得到文字區(qū)域; 第三步,分析文字區(qū)域之間的相關(guān)性,將相關(guān)文字區(qū)域聚合成文本行,并用矩形框?qū)ξ谋拘屑右詷?biāo)定。2.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法,其特征在于所述第一步,具體過(guò)程如下: (1)根據(jù)卷積運(yùn)算和離散編碼算法構(gòu)建目標(biāo)函數(shù),優(yōu)化目標(biāo)為:特征h,字典D和網(wǎng)絡(luò)參數(shù)P; (2)固定字典D,使用FISTA法得到最優(yōu)特征h‘; (3)固定最優(yōu)特征h‘,單次使用隨機(jī)梯度下降法訓(xùn)練字典D; (4)固定最優(yōu)特征h‘,多次使用隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò)參數(shù)p,直至訓(xùn)練誤差小于預(yù)設(shè)值Θ; (5)使用最新網(wǎng)絡(luò)參數(shù)p重新計(jì)算特征h; (6)重復(fù)上述(2)-(5)步驟直至達(dá)到學(xué)習(xí)目標(biāo)。3.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法,其特征在于第一步中,建立的中文字?jǐn)?shù)據(jù)集特征如下: 所用文字為3500個(gè)常用字; 所用字體為15種有代表性的字體; 文字圖像類型為黑底白字和白底黑字兩種; 文字圖像大小為32X32。4.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法,其特征在于第二步中,所述多尺度滑動(dòng)窗算法,其提取參數(shù)如下: 最大尺度為1/4圖像大小,最小尺度為20像素; 重疊系數(shù)為0.5滑動(dòng)提??; 提取出的圖像塊長(zhǎng)寬比為1:1,并統(tǒng)一縮放為32 X 32的圖像塊。5.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法,其特征在于第三步中,利用第二步得到的文字區(qū)域,執(zhí)行基于區(qū)域相關(guān)性的文本行聚合算法,具體相關(guān)性特征和聚合規(guī)則如下: (1)兩個(gè)文字區(qū)域的高度比值在0.5和2之間; (2)兩個(gè)文字區(qū)域外接矩形的中心點(diǎn)y坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最高的高度值的1/2; (3)兩個(gè)文字區(qū)域的外接矩形的中心點(diǎn)X坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最寬的寬度值的2倍; (4)單個(gè)文本行至少有三個(gè)或以上的文字區(qū)域; 相關(guān)性為:兩個(gè)文字區(qū)域的高度、兩個(gè)文字區(qū)域外接矩形的中心點(diǎn)y坐標(biāo)差、兩個(gè)文字區(qū)域的外接矩形的中心點(diǎn)X坐標(biāo)差; 聚合規(guī)則為:高度比值該在0.5和2之間、中心點(diǎn)y坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最高的高度值的1 /2、中心點(diǎn)X坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最寬的寬度值的2倍。6.—種用于實(shí)現(xiàn)權(quán)利要求1-5任一項(xiàng)所述方法的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)系統(tǒng),其特征在于包括: 深度卷積神經(jīng)網(wǎng)絡(luò)模塊,該模塊包括構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法子模塊和建立中文字?jǐn)?shù)據(jù)集子模塊,其中: 構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法子模塊,以卷積運(yùn)算和離散編碼算法為基礎(chǔ),針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)和中文字的特性,構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)算法; 建立中文字?jǐn)?shù)據(jù)集子模塊,用于建立中文字?jǐn)?shù)據(jù)集,所述中文字?jǐn)?shù)據(jù)集包括常用字以及常用字體; 構(gòu)建的所述無(wú)監(jiān)督學(xué)習(xí)算法和所述中文字?jǐn)?shù)據(jù)集用于訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò); 文字區(qū)域提取模塊,使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域,并由訓(xùn)練得到的所述深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得到文字區(qū)域; 文字區(qū)域聚合模塊,分析文字區(qū)域之間的相關(guān)性,將相關(guān)文字區(qū)域聚合成文本行,并用矩形框?qū)ξ谋拘屑右詷?biāo)定。
【專利摘要】本發(fā)明公開(kāi)一種基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法及系統(tǒng)。本發(fā)明使用無(wú)監(jiān)督學(xué)習(xí)法訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),而后使用該網(wǎng)絡(luò)對(duì)自然圖像中的各個(gè)候選文字區(qū)域進(jìn)行分類,最后對(duì)分類為文字的區(qū)域進(jìn)行文本行聚合,檢測(cè)得到圖像中的文字區(qū)域。本發(fā)明抓住深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)圖像特征超強(qiáng)的提取能力,利用無(wú)監(jiān)督學(xué)習(xí)強(qiáng)大的訓(xùn)練能力,針對(duì)中文字特征訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)文字區(qū)域定位和分割,方法簡(jiǎn)單有效;針對(duì)文字特征構(gòu)建了深度卷積神經(jīng)網(wǎng)絡(luò)無(wú)監(jiān)督學(xué)習(xí)方法,在文字檢測(cè)方面具有更好的針對(duì)性,因此具有更高的主動(dòng)性和精確性。
【IPC分類】G06K9/00, G06K9/62, G06K9/34
【公開(kāi)號(hào)】CN105469047
【申請(qǐng)?zhí)枴緾N201510819927
【發(fā)明人】周異, 陳凱, 周曲, 任逍航
【申請(qǐng)人】上海交通大學(xué)
【公開(kāi)日】2016年4月6日
【申請(qǐng)日】2015年11月23日