基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法_2

文檔序號(hào)：8473336閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法

其特征在于，包括w下步驟：步驟1;預(yù)處理；輸入彩色圖像，并將輸入的彩色圖像轉(zhuǎn)為灰度圖，并進(jìn)行多分辨率分解，輸出不同分辨率的圖像；步驟2 ;特征提?。粚?duì)步驟1輸出的每一個(gè)分辨率的圖像，分別通過(guò)深度卷積自編碼網(wǎng) 絡(luò)提取特征圖；其中深度卷積自編碼網(wǎng)絡(luò)是通過(guò)訓(xùn)練獲得；步驟3 ;稀疏編碼求解；把步驟2提取得到的所有特征圖，上采樣至原圖大小。對(duì)該組特征圖進(jìn)行分塊，每一塊分別通過(guò)稀疏字典和線性分類器進(jìn)行分類識(shí)別。步驟4 ;圖形圖案文字定位；對(duì)步驟3輸出的每個(gè)分塊的分類識(shí)別結(jié)果進(jìn)行區(qū)域融合，合成最終的定位結(jié)果。
2. 權(quán)利要求1所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法，其特征在于：步驟 1所述的多分辨率分解，具體步驟是；W灰度圖為初始圖像，使用高斯金字塔對(duì)初始圖像進(jìn) 行下采樣（通過(guò)對(duì)灰度圖進(jìn)行高斯內(nèi)核卷積，并去除偶數(shù)行和偶數(shù)列），獲得第一下采樣圖像；W第一下采樣圖像為初始圖像，使用高斯金字塔對(duì)初始圖像進(jìn)行下采樣，獲得第二下采樣圖像；重復(fù)上述步驟，獲得多個(gè)下采樣圖像，即不同分辨率的圖像。
3. 根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法，其特征在于：步驟2所述的深度卷積自編碼網(wǎng)絡(luò)是由多個(gè)卷積層級(jí)聯(lián)而成，卷積層之間使用下采樣層連接；每一個(gè)分辨率的圖像依次通過(guò)各層計(jì)算后，最后一層卷積層的輸出即為所提取的特征圖，其中卷積層計(jì)算、下采樣層計(jì)算的具體過(guò)程如下：卷積層計(jì)算：設(shè)輸入圖像為X，則經(jīng)過(guò)單個(gè)濾波器的輸出圖像為 hkw，b(X) = 0 (Wk*X+bk) 其中，K為卷積層包含的濾波器數(shù)量，W是濾波器的集合，b是濾波器偏移量的集合，而Wk表示第k個(gè)濾波器，bk表示第k個(gè)濾波器的偏移量，kG[1，時(shí)。*是圖像卷積操作符，0 是非線性激勵(lì)函數(shù)。下采樣層計(jì)算：對(duì)卷積層輸出的每一個(gè)圖像分別使用最大值池化進(jìn)行下采樣。最大化池化是取圖像中每一個(gè)分塊的最大值作為輸出。假設(shè)輸入圖像X大小為nXm，用最大值池化進(jìn)行下采樣后的圖像大小為（n/w)X(m/h)，其中，wXh為池化大小。上述卷積層計(jì)算和下采用計(jì)算中的輸入圖像為；上一層計(jì)算后獲得的圖像，第一個(gè)卷積層的輸入圖像為步驟1獲得的不同分辨率的圖像。
4. 根據(jù)權(quán)利要求3所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法，其特征在于：步驟2所述的深度卷積自編碼網(wǎng)絡(luò)的訓(xùn)練方法是使用訓(xùn)練集進(jìn)行分層訓(xùn)練、整體調(diào)優(yōu)。具體過(guò)程如下：步驟2. 1. 1 ;分層訓(xùn)練；當(dāng)訓(xùn)練第i層參數(shù)時(shí)，要求除第i層參數(shù)外的其余參數(shù)保持不變，同時(shí)W前一層的輸出作為后一層的輸入，從接近輸入端的一層開始依次向輸出層訓(xùn)練。設(shè)第i層的輸入圖像為Xi，則輸出的圖像是 hk=h\b(Xi) = 0 (Wk*Xi+bk) 其中，*是圖像卷積操作符，0是非線性激勵(lì)函數(shù)。通過(guò)K個(gè)濾波器的輸出圖像可重構(gòu)原圖像，即
其中，是Wk旋轉(zhuǎn)180°的重構(gòu)矩陣，*是圖像卷積操作符，C是每個(gè)通道的偏移量。訓(xùn)練目標(biāo)是使重構(gòu)的圖像與輸入圖像盡可能接近，即最小化 E(0)二子片-乂)2 其中，Xi和yi分別是單幅輸入圖像和對(duì)應(yīng)的重構(gòu)圖像。然后使用梯度下降更新網(wǎng)絡(luò)參數(shù)值，
其中，a是學(xué)習(xí)速率。步驟2. 1. 2 ;整體調(diào)優(yōu)：對(duì)網(wǎng)絡(luò)的參數(shù)使用梯度下降法進(jìn)行整體調(diào)優(yōu)。訓(xùn)練集中的每個(gè)訓(xùn)練樣本X經(jīng)深度卷積自編碼器得到輸出y，X下采樣至輸出y的大小為X'，W后一層重構(gòu)的圖像作為前一層的目標(biāo)輸出。每一層均使用步驟2. 1. 1提出的分層訓(xùn)練方式。
5. 根據(jù)權(quán)利要求4所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法，其特征在于：步驟2所述的深度卷積自編碼網(wǎng)絡(luò)的訓(xùn)練集由多個(gè)訓(xùn)練樣本X組成，訓(xùn)練樣本X是通過(guò)合成的方式獲得，具體過(guò)程是：從本地樣本庫(kù)中隨機(jī)選取圖片P，所述圖片P包含有待檢測(cè)元素，所述待檢測(cè)元素包括圖形、圖案、文字；根據(jù)待檢測(cè)元素的使用頻率，生成單個(gè)檢測(cè)元素或多個(gè)檢測(cè)元素組合的圖像Q;對(duì)圖像Q進(jìn)行隨機(jī)的形變，所述形變包括旋轉(zhuǎn)、移動(dòng)、透射變換；將形變后的圖像Q與隨機(jī)選擇的背景進(jìn)行融合。其中形變后的圖像Q與隨機(jī)選擇的背景融合過(guò)程如下：步驟2. 2. 1 ;隨機(jī)背景選取方法如下：選取不包含檢測(cè)元素的圖片，從該圖片中隨機(jī)選取與圖像Q相同大小的窗口，該窗口中的圖像即所選取的背景圖。若該背景圖的灰度均值大于0. 9或標(biāo)準(zhǔn)差小于0. 2,則重新選擇新的圖片。步驟2. 2. 2 ;圖形圖案文字與背景融合方法如下：從均勻線性隨機(jī)數(shù)生成器中取出范圍是0. 3到0. 7的隨機(jī)數(shù)0，則合成的訓(xùn)練樣本X為： X= (1-P)*Xf+|3*Xb 其中，Xb是背景圖、Xf是字符圖像。
6. 根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法，其特征在于：步驟3中所述的稀疏字典和線性分類器是通過(guò)訓(xùn)練獲得，使用的樣本是已有的標(biāo)記樣本，通過(guò)步驟2的特征提取，并把特征圖像上采樣至原圖大小再進(jìn)行切塊獲得。輸入圖像切塊和稀疏字典訓(xùn)練，具體過(guò)程如下：步驟3. 1 ;輸入圖像切塊；對(duì)一張輸入圖像，W及其相應(yīng)的標(biāo)記，W步驟2使用的樣本大小對(duì)圖像進(jìn)行50%的重疊分塊。其中標(biāo)記是指輸入圖像中圖形圖案文字的位置，分別使用單獨(dú)的矩形來(lái)表示。若分塊中圖形圖案文字的像素點(diǎn)數(shù)量大于像素總數(shù)的80%，則該分塊為正樣本；若分塊中圖形圖案文字的像素點(diǎn)數(shù)量小于整塊的像素總數(shù)的20%，則該分塊為負(fù)樣本；否則丟棄該分塊。步驟3. 2 ;稀疏字典訓(xùn)練；稀疏字典的目標(biāo)函數(shù)是
s.t.V/ ||x,-|L<r, 其中，Y是輸入圖像，D是稀疏字典，X是稀疏編碼，E是單位矩陣，H是輸入圖像的標(biāo)記值，A是轉(zhuǎn)換矩陣，T是稀疏性約束，r是線性分類器的權(quán)重，丫和y是調(diào)整權(quán)值。將目標(biāo)函數(shù)重寫為
并通過(guò)KSVD算法求解，得到稀疏字典即分類器參數(shù)< 化r，A，X>。
7.根據(jù)權(quán)利要求6所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法，其特征在于：步驟3中使用稀疏字典和線性分類器進(jìn)行分類識(shí)別的具體過(guò)程為：使用訓(xùn)練得到的稀疏字典，根據(jù)
求得稀疏編碼x>。使用訓(xùn)練得到的線性分類器求得標(biāo)簽 1 =rX*，則所輸入的樣本的分類即為1中元素最大值對(duì)應(yīng)的索引。
【專利摘要】本發(fā)明公開了一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法，首先，通過(guò)圖形圖案文字樣本合成訓(xùn)練深度卷積自編碼網(wǎng)絡(luò)，然后使用已標(biāo)記的樣本，通過(guò)稀疏字典進(jìn)行分類。隨機(jī)從樣本庫(kù)中抽取圖形圖案文字，并進(jìn)行旋轉(zhuǎn)、平移、透射等變換，再與純背景圖進(jìn)行融合；之后使用合成的樣本集，建立深度卷積自編碼網(wǎng)絡(luò)，并使用分層訓(xùn)練、整體調(diào)優(yōu)的方式學(xué)習(xí)特征模板；然后對(duì)已有的標(biāo)記樣本，使用深度網(wǎng)絡(luò)學(xué)習(xí)得到的特征模板進(jìn)行特征提??；最后把提取的特征上采樣至原圖大小，并以單個(gè)分塊作為識(shí)別的單位，訓(xùn)練稀疏字典以及分類器。在完成訓(xùn)練步驟后，對(duì)待處理的圖像進(jìn)行多分辨率分解，并使用特征模板提取特征，再使用稀疏字典進(jìn)行分類獲取結(jié)果。
【IPC分類】G06T7-00, G06K9-66
【公開號(hào)】CN104794504
【申請(qǐng)?zhí)枴緾N201510207913
【發(fā)明人】于慧敏, 李天豪
【申請(qǐng)人】浙江大學(xué)
【公開日】2015年7月22日
【申請(qǐng)日】2015年4月28日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法_2