其特征在于,包括w下步驟: 步驟1;預(yù)處理;輸入彩色圖像,并將輸入的彩色圖像轉(zhuǎn)為灰度圖,并進(jìn)行多分辨率分 解,輸出不同分辨率的圖像; 步驟2 ;特征提?。粚?duì)步驟1輸出的每一個(gè)分辨率的圖像,分別通過(guò)深度卷積自編碼網(wǎng) 絡(luò)提取特征圖;其中深度卷積自編碼網(wǎng)絡(luò)是通過(guò)訓(xùn)練獲得; 步驟3 ;稀疏編碼求解;把步驟2提取得到的所有特征圖,上采樣至原圖大小。對(duì)該組 特征圖進(jìn)行分塊,每一塊分別通過(guò)稀疏字典和線性分類器進(jìn)行分類識(shí)別。 步驟4 ;圖形圖案文字定位;對(duì)步驟3輸出的每個(gè)分塊的分類識(shí)別結(jié)果進(jìn)行區(qū)域融合, 合成最終的定位結(jié)果。
2. 權(quán)利要求1所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法,其特征在于:步驟 1所述的多分辨率分解,具體步驟是;W灰度圖為初始圖像,使用高斯金字塔對(duì)初始圖像進(jìn) 行下采樣(通過(guò)對(duì)灰度圖進(jìn)行高斯內(nèi)核卷積,并去除偶數(shù)行和偶數(shù)列),獲得第一下采樣圖 像;W第一下采樣圖像為初始圖像,使用高斯金字塔對(duì)初始圖像進(jìn)行下采樣,獲得第二下采 樣圖像;重復(fù)上述步驟,獲得多個(gè)下采樣圖像,即不同分辨率的圖像。
3. 根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法,其特征在于: 步驟2所述的深度卷積自編碼網(wǎng)絡(luò)是由多個(gè)卷積層級(jí)聯(lián)而成,卷積層之間使用下采樣層連 接;每一個(gè)分辨率的圖像依次通過(guò)各層計(jì)算后,最后一層卷積層的輸出即為所提取的特征 圖,其中卷積層計(jì)算、下采樣層計(jì)算的具體過(guò)程如下: 卷積層計(jì)算: 設(shè)輸入圖像為X,則經(jīng)過(guò)單個(gè)濾波器的輸出圖像為 hkw,b(X) = 0 (Wk*X+bk) 其中,K為卷積層包含的濾波器數(shù)量,W是濾波器的集合,b是濾波器偏移量的集合,而Wk表示第k個(gè)濾波器,bk表示第k個(gè)濾波器的偏移量,kG[1,時(shí)。*是圖像卷積操作符,0 是非線性激勵(lì)函數(shù)。 下采樣層計(jì)算: 對(duì)卷積層輸出的每一個(gè)圖像分別使用最大值池化進(jìn)行下采樣。最大化池化是取圖像中 每一個(gè)分塊的最大值作為輸出。假設(shè)輸入圖像X大小為nXm,用最大值池化進(jìn)行下采樣后 的圖像大小為(n/w)X(m/h),其中,wXh為池化大小。 上述卷積層計(jì)算和下采用計(jì)算中的輸入圖像為;上一層計(jì)算后獲得的圖像,第一個(gè)卷 積層的輸入圖像為步驟1獲得的不同分辨率的圖像。
4. 根據(jù)權(quán)利要求3所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法,其特征在于: 步驟2所述的深度卷積自編碼網(wǎng)絡(luò)的訓(xùn)練方法是使用訓(xùn)練集進(jìn)行分層訓(xùn)練、整體調(diào)優(yōu)。具 體過(guò)程如下: 步驟2. 1. 1 ;分層訓(xùn)練; 當(dāng)訓(xùn)練第i層參數(shù)時(shí),要求除第i層參數(shù)外的其余參數(shù)保持不變,同時(shí)W前一層的輸出 作為后一層的輸入,從接近輸入端的一層開始依次向輸出層訓(xùn)練。 設(shè)第i層的輸入圖像為Xi,則輸出的圖像是 hk=h\b(Xi) = 0 (Wk*Xi+bk) 其中,*是圖像卷積操作符,0是非線性激勵(lì)函數(shù)。 通過(guò)K個(gè)濾波器的輸出圖像可重構(gòu)原圖像,即
其中,是Wk旋轉(zhuǎn)180°的重構(gòu)矩陣,*是圖像卷積操作符,C是每個(gè)通道的偏移量。 訓(xùn)練目標(biāo)是使重構(gòu)的圖像與輸入圖像盡可能接近,即最小化 E(0)二子片-乂)2 其中,Xi和yi分別是單幅輸入圖像和對(duì)應(yīng)的重構(gòu)圖像。 然后使用梯度下降更新網(wǎng)絡(luò)參數(shù)值,
其中,a是學(xué)習(xí)速率。 步驟2. 1. 2 ;整體調(diào)優(yōu): 對(duì)網(wǎng)絡(luò)的參數(shù)使用梯度下降法進(jìn)行整體調(diào)優(yōu)。訓(xùn)練集中的每個(gè)訓(xùn)練樣本X經(jīng)深度卷積 自編碼器得到輸出y,X下采樣至輸出y的大小為X',W后一層重構(gòu)的圖像作為前一層的 目標(biāo)輸出。每一層均使用步驟2. 1. 1提出的分層訓(xùn)練方式。
5. 根據(jù)權(quán)利要求4所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法,其特征在于: 步驟2所述的深度卷積自編碼網(wǎng)絡(luò)的訓(xùn)練集由多個(gè)訓(xùn)練樣本X組成,訓(xùn)練樣本X是通過(guò)合 成的方式獲得,具體過(guò)程是:從本地樣本庫(kù)中隨機(jī)選取圖片P,所述圖片P包含有待檢測(cè)元 素,所述待檢測(cè)元素包括圖形、圖案、文字;根據(jù)待檢測(cè)元素的使用頻率,生成單個(gè)檢測(cè)元素 或多個(gè)檢測(cè)元素組合的圖像Q;對(duì)圖像Q進(jìn)行隨機(jī)的形變,所述形變包括旋轉(zhuǎn)、移動(dòng)、透射變 換;將形變后的圖像Q與隨機(jī)選擇的背景進(jìn)行融合。其中形變后的圖像Q與隨機(jī)選擇的背 景融合過(guò)程如下: 步驟2. 2. 1 ;隨機(jī)背景選取方法如下: 選取不包含檢測(cè)元素的圖片,從該圖片中隨機(jī)選取與圖像Q相同大小的窗口,該窗口 中的圖像即所選取的背景圖。若該背景圖的灰度均值大于0. 9或標(biāo)準(zhǔn)差小于0. 2,則重新選 擇新的圖片。 步驟2. 2. 2 ;圖形圖案文字與背景融合方法如下: 從均勻線性隨機(jī)數(shù)生成器中取出范圍是0. 3到0. 7的隨機(jī)數(shù)0,則合成的訓(xùn)練樣本X為: X= (1-P)*Xf+|3*Xb 其中,Xb是背景圖、Xf是字符圖像。
6. 根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法,其特征在于: 步驟3中所述的稀疏字典和線性分類器是通過(guò)訓(xùn)練獲得,使用的樣本是已有的標(biāo)記樣本, 通過(guò)步驟2的特征提取,并把特征圖像上采樣至原圖大小再進(jìn)行切塊獲得。輸入圖像切塊 和稀疏字典訓(xùn)練,具體過(guò)程如下: 步驟3. 1 ;輸入圖像切塊; 對(duì)一張輸入圖像,W及其相應(yīng)的標(biāo)記,W步驟2使用的樣本大小對(duì)圖像進(jìn)行50%的重 疊分塊。其中標(biāo)記是指輸入圖像中圖形圖案文字的位置,分別使用單獨(dú)的矩形來(lái)表示。若 分塊中圖形圖案文字的像素點(diǎn)數(shù)量大于像素總數(shù)的80%,則該分塊為正樣本;若分塊中圖 形圖案文字的像素點(diǎn)數(shù)量小于整塊的像素總數(shù)的20%,則該分塊為負(fù)樣本;否則丟棄該分 塊。 步驟3. 2 ;稀疏字典訓(xùn)練; 稀疏字典的目標(biāo)函數(shù)是
s.t.V/ ||x,-|L<r, 其中,Y是輸入圖像,D是稀疏字典,X是稀疏編碼,E是單位矩陣,H是輸入圖像的標(biāo)記 值,A是轉(zhuǎn)換矩陣,T是稀疏性約束,r是線性分類器的權(quán)重,丫和y是調(diào)整權(quán)值。 將目標(biāo)函數(shù)重寫為
并通過(guò)KSVD算法求解,得到稀疏字典即分類器參數(shù)< 化r,A,X>。
7.根據(jù)權(quán)利要求6所述的一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法,其特征在于: 步驟3中使用稀疏字典和線性分類器進(jìn)行分類識(shí)別的具體過(guò)程為:使用訓(xùn)練得到的稀疏字 典,根據(jù)
求得稀疏編碼x>。 使用訓(xùn)練得到的線性分類器求得標(biāo)簽 1 =rX*, 則所輸入的樣本的分類即為1中元素最大值對(duì)應(yīng)的索引。
【專利摘要】本發(fā)明公開了一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法,首先,通過(guò)圖形圖案文字樣本合成訓(xùn)練深度卷積自編碼網(wǎng)絡(luò),然后使用已標(biāo)記的樣本,通過(guò)稀疏字典進(jìn)行分類。隨機(jī)從樣本庫(kù)中抽取圖形圖案文字,并進(jìn)行旋轉(zhuǎn)、平移、透射等變換,再與純背景圖進(jìn)行融合;之后使用合成的樣本集,建立深度卷積自編碼網(wǎng)絡(luò),并使用分層訓(xùn)練、整體調(diào)優(yōu)的方式學(xué)習(xí)特征模板;然后對(duì)已有的標(biāo)記樣本,使用深度網(wǎng)絡(luò)學(xué)習(xí)得到的特征模板進(jìn)行特征提??;最后把提取的特征上采樣至原圖大小,并以單個(gè)分塊作為識(shí)別的單位,訓(xùn)練稀疏字典以及分類器。在完成訓(xùn)練步驟后,對(duì)待處理的圖像進(jìn)行多分辨率分解,并使用特征模板提取特征,再使用稀疏字典進(jìn)行分類獲取結(jié)果。
【IPC分類】G06T7-00, G06K9-66
【公開號(hào)】CN104794504
【申請(qǐng)?zhí)枴緾N201510207913
【發(fā)明人】于慧敏, 李天豪
【申請(qǐng)人】浙江大學(xué)
【公開日】2015年7月22日
【申請(qǐng)日】2015年4月28日