基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法及系統(tǒng)的制作方法_2

文檔序號(hào)：9708740閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法及系統(tǒng)的制作方法

合成的圖像參數(shù)如下:
[0062](1)圖像大小:32 X 32;
[0063](2)文字集:3500常用字；
[0064](3)文字字體:15種常用字體；
[0065](4)文字大小:24;
[0066](5)文字背景:白底黑字和黑底白字；
[0067]作為一個(gè)優(yōu)選實(shí)施方式，所述步驟2:如圖2所示，需要注意的是，結(jié)合卷積運(yùn)算和離散編碼算法構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法只是無(wú)監(jiān)督學(xué)習(xí)算法的一種可能方式，也可以采取其它方式得到進(jìn)行無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)算法的思路如下:由于在一個(gè)優(yōu)化方程中存在三個(gè)優(yōu)化目標(biāo)，因此首先固定一個(gè)優(yōu)化目標(biāo):字典D，使用FISTA法對(duì)特征h進(jìn)行優(yōu)化;然后根據(jù)優(yōu)化得到的最優(yōu)特征h’，使用隨機(jī)梯度下降法對(duì)字典D和網(wǎng)絡(luò)參數(shù)p進(jìn)行優(yōu)化，由于網(wǎng)絡(luò)參數(shù)p的優(yōu)化難度大大高于字典D，因此在優(yōu)化網(wǎng)絡(luò)參數(shù)p是需要引入優(yōu)化目標(biāo)，在達(dá)到目標(biāo)之前反復(fù)優(yōu)化;最后使用優(yōu)化結(jié)果更新優(yōu)化目標(biāo)初始值，重復(fù)上述過(guò)程進(jìn)行迭代，直到達(dá)到優(yōu)化目標(biāo)。具體過(guò)程如下:
[0068](1)對(duì)優(yōu)化目標(biāo)進(jìn)行隨機(jī)初始化；
[0069](2)固定字典D，使用FISTA法對(duì)特征h進(jìn)行優(yōu)化，F(xiàn)ISTA法的最大迭代次數(shù)為50;
[0070](3)固定(2)中得到的最優(yōu)特征h’，使用隨機(jī)梯度下降法對(duì)字典D進(jìn)行單次優(yōu)化；
[0071](4)固定(2)中得到的最優(yōu)特征h’，使用隨機(jī)梯度下降法對(duì)網(wǎng)絡(luò)參數(shù)p進(jìn)行多次優(yōu)化，直到誤差值小于預(yù)設(shè)值Θ;
[0072](5)使用優(yōu)化結(jié)果更新優(yōu)化目標(biāo)初始值；
[0073](6)重復(fù)(2)-(5)過(guò)程，直到訓(xùn)練完成。
[0074]作為一個(gè)優(yōu)選實(shí)施方式，所述步驟3:使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域，算法具體參數(shù)如下:
[0075](1)最大尺度為1/4圖像大小，最小尺度為20像素；
[0076](2)最小尺度為20像素；
[0077](3)重疊系數(shù)為0.5滑動(dòng)提??；
[0078](4)圖像塊長(zhǎng)寬比為1:1;
[0079](5)圖像塊大小縮放為32X32。
[0080]所述重疊系數(shù)可以根據(jù)計(jì)算能力調(diào)整，圖像塊大小根據(jù)神經(jīng)網(wǎng)絡(luò)可以調(diào)整。
[0081]作為一個(gè)優(yōu)選實(shí)施方式，所述步驟4:訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)候選文字區(qū)域進(jìn)行分類，將候選文字區(qū)域分成文字區(qū)域和非文字區(qū)域兩類:
[0082]作為一個(gè)優(yōu)選實(shí)施方式，所述步驟5:分析文字區(qū)域之間的相關(guān)性，并根據(jù)一定規(guī)則進(jìn)行聚合。具體相關(guān)性和規(guī)則如下:
[0083]①相關(guān)性:
[0084]1)文字區(qū)域的高度；
[0085]2)文字區(qū)域的水平位置；
[0086]3)文字區(qū)域的垂直位置.
[0087]②文字區(qū)域聚合規(guī)則:
[0088]1)兩個(gè)文字區(qū)域的高度比值該在0.5和2之間；
[0089]2)兩個(gè)文字區(qū)域外接矩形的中心點(diǎn)y坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最高的高度值的1/2;
[0090]3)兩個(gè)文字區(qū)域的外接矩形的中心點(diǎn)X坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最寬的寬度值的2倍；
[0091]4)單個(gè)文本行至少有三個(gè)或以上的文字區(qū)域。
[0092]如圖3所示，本發(fā)明還提供一種用于實(shí)現(xiàn)上述方法的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)系統(tǒng)，包括:
[0093]深度卷積神經(jīng)網(wǎng)絡(luò)模塊，該模塊包括構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法子模塊和建立中文字?jǐn)?shù)據(jù)集子模塊，其中:
[0094]構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法子模塊，以卷積運(yùn)算和離散編碼算法為基礎(chǔ)，針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)和中文字的特性，構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)算法；
[0095]建立中文字?jǐn)?shù)據(jù)集子模塊，用于建立中文字?jǐn)?shù)據(jù)集，所述中文字?jǐn)?shù)據(jù)集包括常用字以及常用字體；
[0096]構(gòu)建的所述無(wú)監(jiān)督學(xué)習(xí)算法和所述中文字?jǐn)?shù)據(jù)集用于訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)；
[0097]文字區(qū)域提取模塊，使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域，并由訓(xùn)練得到的所述深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類，得到文字區(qū)域；
[0098]文字區(qū)域聚合模塊，分析文字區(qū)域之間的相關(guān)性，將相關(guān)文字區(qū)域聚合成文本行，并用矩形框?qū)ξ谋拘屑右詷?biāo)定。
[0099]上述各個(gè)模塊中采用與方法各步驟中的技術(shù)特征相對(duì)應(yīng)，圖3中:中文字?jǐn)?shù)據(jù)集對(duì)應(yīng)數(shù)據(jù)集建立(步驟1和步驟2)，深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)了文字結(jié)構(gòu)檢測(cè)層的深度神經(jīng)網(wǎng)絡(luò)(步驟1和步驟2完成后的訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò))，文字區(qū)域提取對(duì)應(yīng)了滑動(dòng)窗提取并用神經(jīng)網(wǎng)絡(luò)分類(步驟3和4)，文字區(qū)域聚合對(duì)應(yīng)了文字區(qū)域相關(guān)性分析與聚合(步驟5)。系統(tǒng)中對(duì)各模塊的具體實(shí)現(xiàn)技術(shù)不再贅述，該系統(tǒng)能很好的實(shí)現(xiàn)文字結(jié)構(gòu)檢測(cè)。
[0100]常用的文字區(qū)域分類方法在處理一些受到干擾的文字時(shí)效果不甚理想，比如最常見(jiàn)的閃光燈下的文字，傳統(tǒng)方法會(huì)將一個(gè)文字的不同部分和背景連成一體，成為混合了背景的多個(gè)區(qū)域。本發(fā)明的深度卷積神經(jīng)網(wǎng)絡(luò)方法可以有效地將存在干擾的文字和背景分成不同的兩類，因此在處理復(fù)雜干擾影響的文字具有更高的準(zhǔn)確性，方法簡(jiǎn)單有效，而且對(duì)復(fù)雜背景圖像文字檢測(cè)有非常好的效果。
[0101]以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是，本發(fā)明并不局限于上述特定實(shí)施方式，本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改，這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。
【主權(quán)項(xiàng)】
1.一種基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法，其特征在于包括以下步驟: 第一步，訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò): 構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法:以卷積運(yùn)算和離散編碼算法為基礎(chǔ)，針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)和中文字的特性，構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)算法；建立中文字?jǐn)?shù)據(jù)集:中文字?jǐn)?shù)據(jù)集包括常用字以及常用字體；使用所述無(wú)監(jiān)督學(xué)習(xí)算法和所述中文字?jǐn)?shù)據(jù)集訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)；第二步，使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域，并由訓(xùn)練得到的所述深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類，得到文字區(qū)域；第三步，分析文字區(qū)域之間的相關(guān)性，將相關(guān)文字區(qū)域聚合成文本行，并用矩形框?qū)ξ谋拘屑右詷?biāo)定。2.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法，其特征在于所述第一步，具體過(guò)程如下: (1)根據(jù)卷積運(yùn)算和離散編碼算法構(gòu)建目標(biāo)函數(shù)，優(yōu)化目標(biāo)為:特征h，字典D和網(wǎng)絡(luò)參數(shù)P; (2)固定字典D，使用FISTA法得到最優(yōu)特征h‘； (3)固定最優(yōu)特征h‘，單次使用隨機(jī)梯度下降法訓(xùn)練字典D; (4)固定最優(yōu)特征h‘，多次使用隨機(jī)梯度下降法訓(xùn)練網(wǎng)絡(luò)參數(shù)p，直至訓(xùn)練誤差小于預(yù)設(shè)值Θ; (5)使用最新網(wǎng)絡(luò)參數(shù)p重新計(jì)算特征h; (6)重復(fù)上述(2)-(5)步驟直至達(dá)到學(xué)習(xí)目標(biāo)。3.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法，其特征在于第一步中，建立的中文字?jǐn)?shù)據(jù)集特征如下: 所用文字為3500個(gè)常用字；所用字體為15種有代表性的字體；文字圖像類型為黑底白字和白底黑字兩種；文字圖像大小為32X32。4.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法，其特征在于第二步中，所述多尺度滑動(dòng)窗算法，其提取參數(shù)如下: 最大尺度為1/4圖像大小，最小尺度為20像素；重疊系數(shù)為0.5滑動(dòng)提??；提取出的圖像塊長(zhǎng)寬比為1:1，并統(tǒng)一縮放為32 X 32的圖像塊。5.根據(jù)權(quán)利要求1所述的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法，其特征在于第三步中，利用第二步得到的文字區(qū)域，執(zhí)行基于區(qū)域相關(guān)性的文本行聚合算法，具體相關(guān)性特征和聚合規(guī)則如下: (1)兩個(gè)文字區(qū)域的高度比值在0.5和2之間； (2)兩個(gè)文字區(qū)域外接矩形的中心點(diǎn)y坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最高的高度值的1/2; (3)兩個(gè)文字區(qū)域的外接矩形的中心點(diǎn)X坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最寬的寬度值的2倍； (4)單個(gè)文本行至少有三個(gè)或以上的文字區(qū)域；相關(guān)性為:兩個(gè)文字區(qū)域的高度、兩個(gè)文字區(qū)域外接矩形的中心點(diǎn)y坐標(biāo)差、兩個(gè)文字區(qū)域的外接矩形的中心點(diǎn)X坐標(biāo)差；聚合規(guī)則為:高度比值該在0.5和2之間、中心點(diǎn)y坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最高的高度值的1 /2、中心點(diǎn)X坐標(biāo)差值不大于兩個(gè)文字區(qū)域之間最寬的寬度值的2倍。6.—種用于實(shí)現(xiàn)權(quán)利要求1-5任一項(xiàng)所述方法的基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)系統(tǒng)，其特征在于包括: 深度卷積神經(jīng)網(wǎng)絡(luò)模塊，該模塊包括構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法子模塊和建立中文字?jǐn)?shù)據(jù)集子模塊，其中: 構(gòu)建無(wú)監(jiān)督學(xué)習(xí)算法子模塊，以卷積運(yùn)算和離散編碼算法為基礎(chǔ)，針對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)和中文字的特性，構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督學(xué)習(xí)算法；建立中文字?jǐn)?shù)據(jù)集子模塊，用于建立中文字?jǐn)?shù)據(jù)集，所述中文字?jǐn)?shù)據(jù)集包括常用字以及常用字體；構(gòu)建的所述無(wú)監(jiān)督學(xué)習(xí)算法和所述中文字?jǐn)?shù)據(jù)集用于訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)；文字區(qū)域提取模塊，使用多尺度滑動(dòng)窗算法提取自然圖像中的候選文字區(qū)域，并由訓(xùn)練得到的所述深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類，得到文字區(qū)域；文字區(qū)域聚合模塊，分析文字區(qū)域之間的相關(guān)性，將相關(guān)文字區(qū)域聚合成文本行，并用矩形框?qū)ξ谋拘屑右詷?biāo)定。
【專利摘要】本發(fā)明公開(kāi)一種基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法及系統(tǒng)。本發(fā)明使用無(wú)監(jiān)督學(xué)習(xí)法訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)，而后使用該網(wǎng)絡(luò)對(duì)自然圖像中的各個(gè)候選文字區(qū)域進(jìn)行分類，最后對(duì)分類為文字的區(qū)域進(jìn)行文本行聚合，檢測(cè)得到圖像中的文字區(qū)域。本發(fā)明抓住深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)圖像特征超強(qiáng)的提取能力，利用無(wú)監(jiān)督學(xué)習(xí)強(qiáng)大的訓(xùn)練能力，針對(duì)中文字特征訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)文字區(qū)域定位和分割，方法簡(jiǎn)單有效；針對(duì)文字特征構(gòu)建了深度卷積神經(jīng)網(wǎng)絡(luò)無(wú)監(jiān)督學(xué)習(xí)方法，在文字檢測(cè)方面具有更好的針對(duì)性，因此具有更高的主動(dòng)性和精確性。
【IPC分類】G06K9/00, G06K9/62, G06K9/34
【公開(kāi)號(hào)】CN105469047
【申請(qǐng)?zhí)枴緾N201510819927
【發(fā)明人】周異, 陳凱, 周曲, 任逍航
【申請(qǐng)人】上海交通大學(xué)
【公開(kāi)日】2016年4月6日
【申請(qǐng)日】2015年11月23日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)網(wǎng)絡(luò)的中文檢測(cè)方法及系統(tǒng)的制作方法_2