基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種計(jì)算機(jī)視覺技術(shù)領(lǐng)域的圖形圖案文字檢測(cè)算法,具體為一種基于 深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)帶寬的不斷提高,圖像、視頻由于易于理解,符合現(xiàn)代人 快速的生活節(jié)奏,逐漸取代文本成為主要的信息傳播載體。由于微博類網(wǎng)站對(duì)文本長度的 限制,要發(fā)表較豐富的內(nèi)容通常需要圖文結(jié)合的方式,同時(shí),圖片分享類網(wǎng)站的蓬勃發(fā)展, 給圖像檢索和理解領(lǐng)域帶來新的機(jī)遇和挑戰(zhàn)。
[0003] 圖像檢索一般來說有兩種方向,一種是直接基于圖像的特征進(jìn)行匹配,另一種是 先對(duì)圖像進(jìn)行標(biāo)記然后再基于標(biāo)簽進(jìn)行檢索。前者計(jì)算量較大,相對(duì)圖像檢索,文本搜索技 術(shù)相對(duì)成熟,使用標(biāo)簽進(jìn)行檢索可有效利用文本搜索的成熟技術(shù),并可通過預(yù)處理加快檢 索速度。標(biāo)簽的加注可由用戶手工完成,但由于大量圖片是未經(jīng)標(biāo)注,而且用戶標(biāo)注具有隨 意性,并一定能準(zhǔn)確地描述圖像的信息,因此圖像的自動(dòng)標(biāo)記顯得尤為重要。相比于文字, 圖像的冗余信息更多,而且信息不明確,使用圖像中的特定的圖形圖案文字作為標(biāo)簽是有 效的圖像標(biāo)注方案之一。
[0004] 對(duì)于視頻監(jiān)控和基于位置的服務(wù)(LBS)等應(yīng)用,通過識(shí)別圖像中的圖形圖案文 字,如招牌、標(biāo)識(shí)等內(nèi)容,對(duì)定位圖像拍攝地點(diǎn)有重要的參考作用。
[0005] 因此,圖形圖案文字檢測(cè)和識(shí)別作為圖像理解的重要一環(huán),一直受到研宄者的關(guān) 注。自然圖像中的背景復(fù)雜,圖形圖案文字出現(xiàn)的位置隨機(jī),大小隨意,由于拍攝角度不同, 還可能造成傾斜、旋轉(zhuǎn)和透視變換等變化,這是自然圖像中圖形圖案文字檢測(cè)問題的主要 難點(diǎn)。除了問題本身的復(fù)雜性之外,圖形圖案文字檢測(cè)問題可使用的標(biāo)記樣本并不多,標(biāo)記 樣本必須使用人工標(biāo)記,十分費(fèi)時(shí)。由于樣本不足,設(shè)計(jì)算法時(shí)必須要控制參數(shù)的數(shù)量,同 時(shí)在分類器中通常要加入正則項(xiàng),避免過擬合。
[0006] 總的來說,與其他圖像識(shí)別的問題相似,圖形圖案文字檢測(cè)問題的主要可分為特 征提取和分類器訓(xùn)練兩個(gè)部分。針對(duì)特征提取部分,無監(jiān)督學(xué)習(xí)特征在越來越多的圖像 的圖像識(shí)別任務(wù)中嶄露頭角,取得了比人工設(shè)計(jì)的特征更好的效果。Krizhevsky等人于 2012年在〈〈Advances in neural information processing systems〉〉發(fā)表的''Imagenet classification with deep convolutional neural networks"一文,提出建立多層深度 卷積網(wǎng)絡(luò)學(xué)習(xí)具有層級(jí)的特征進(jìn)行識(shí)別任務(wù),并取得優(yōu)異的效果。而在分類器的研宄上,稀 疏表達(dá)被證實(shí)除了可應(yīng)用于圖像去噪和圖像還原上,在圖像識(shí)別領(lǐng)域同樣效果明顯。Jiang 等人于2011年在〈〈Computer Vision and Pattern Recognition〉〉發(fā)表的"Learning a discriminative dictionary for sparse coding via label consistent K_SVD"一問,提 出使用LC-KSVD算法,在稀疏字典的目標(biāo)函數(shù)中加入標(biāo)記的約束,建立統(tǒng)一的稀疏字典和 分類器的模型,對(duì)多分類任務(wù)唯一的稀疏字典進(jìn)行識(shí)別,降低系統(tǒng)復(fù)雜度。
[0007] 為了挖掘自然圖像中表征圖形圖案文字的有效特征,提高分類器的準(zhǔn)確度,以及 圖形圖案文字檢測(cè)系統(tǒng)的適用性,本發(fā)明使用深度卷積自編碼網(wǎng)絡(luò)無監(jiān)督學(xué)習(xí)特征,同時(shí) 使用樣本合成的方式解決由于深度網(wǎng)絡(luò)的參數(shù)較多而造成的過擬合問題,并使用稀疏字典 作為分類器,提高了自然圖像檢測(cè)系統(tǒng)的準(zhǔn)確性和魯棒性。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明為了解決現(xiàn)有技術(shù)中的問題,提出一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè) 方法,利用合成樣本和深度卷積自編碼網(wǎng)絡(luò)無監(jiān)督學(xué)習(xí)提取最能最佳表達(dá)訓(xùn)練樣本的特 征,并結(jié)合稀疏字典進(jìn)行識(shí)別,從而提升現(xiàn)有圖形圖案文字檢測(cè)方法的魯棒性和準(zhǔn)確性。
[0009] 本發(fā)明采用以下技術(shù)方案:一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法,包括以 下步驟:
[0010] 步驟1:預(yù)處理:輸入彩色圖像,并將輸入的彩色圖像轉(zhuǎn)為灰度圖,并進(jìn)行多分辨 率分解,輸出不同分辨率的圖像;
[0011] 步驟2 :特征提?。簩?duì)步驟1輸出的每一個(gè)分辨率的圖像,分別通過深度卷積自編 碼網(wǎng)絡(luò)提取特征圖;其中深度卷積自編碼網(wǎng)絡(luò)是通過訓(xùn)練獲得;
[0012] 步驟3 :稀疏編碼求解:把步驟2提取得到的所有特征圖,上采樣至原圖大小。對(duì) 該組特征圖進(jìn)行分塊,每一塊分別通過稀疏字典和線性分類器進(jìn)行分類識(shí)別。
[0013] 步驟4 :圖形圖案文字定位:對(duì)步驟3輸出的每個(gè)分塊的分類識(shí)別結(jié)果進(jìn)行區(qū)域融 合,合成最終的定位結(jié)果。
[0014] 進(jìn)一步地,步驟1所述的多分辨率分解,具體步驟是:以灰度圖為初始圖像,使用 高斯金字塔對(duì)初始圖像進(jìn)行下采樣(通過對(duì)灰度圖進(jìn)行高斯內(nèi)核卷積,并去除偶數(shù)行和偶 數(shù)列),獲得第一下采樣圖像;以第一下采樣圖像為初始圖像,使用高斯金字塔對(duì)初始圖像 進(jìn)行下采樣,獲得第二下采樣圖像;重復(fù)上述步驟,獲得多個(gè)下采樣圖像,即不同分辨率的 圖像。
[0015] 進(jìn)一步地,步驟2所述的深度卷積自編碼網(wǎng)絡(luò)是由多個(gè)卷積層級(jí)聯(lián)而成,卷積層 之間使用下采樣層連接;每一個(gè)分辨率的圖像依次通過各層計(jì)算后,最后一層卷積層的輸 出即為所提取的特征圖,其中卷積層計(jì)算、下采樣層計(jì)算的具體過程如下:
[0016] 卷積層計(jì)算:
[0017] 設(shè)輸入圖像為X,則經(jīng)過單個(gè)濾波器的輸出圖像為
[0018] h\b(x) = 〇 (Wk*x+bk)
[0019] 其中,K為卷積層包含的濾波器數(shù)量,W是濾波器的集合,b是濾波器偏移量的集 合,而Wk表示第k個(gè)濾波器,bk表示第k個(gè)濾波器的偏移量,ke[1,K]。*是圖像卷積操 作符,?是非線性激勵(lì)函數(shù)。
[0020] 下采樣層計(jì)算:
[0021] 對(duì)卷積層輸出的每一個(gè)圖像分別使用最大值池化進(jìn)行下采樣。最大化池化是取圖 像中每一個(gè)分塊的最大值作為輸出。假設(shè)輸入圖像X大小為nXm,用最大值池化進(jìn)行下采 樣后的圖像大小為(n/w)X(m/h),其中,wXh為池化大小。
[0022] 上述卷積層計(jì)算和下采用計(jì)算中的輸入圖像為:上一層計(jì)算后獲得的圖像,第一 個(gè)卷積層的輸入圖像為步驟1獲得的不同分辨率的圖像。
[0023] 進(jìn)一步地,步驟2所述的深度卷積自編碼網(wǎng)絡(luò)的訓(xùn)練方法是使用訓(xùn)練集進(jìn)行分層 訓(xùn)練、整體調(diào)優(yōu)。具體過程如下:
[0024] 步驟2.L1 :分層訓(xùn)練:
[0025] 當(dāng)訓(xùn)練第i層參數(shù)時(shí),要求除第i層參數(shù)外的其余參數(shù)保持不變,同時(shí)以前一層的 輸出作為后一層的輸入,從接近輸入端的一層開始依次向輸出層訓(xùn)練。
[0026] 設(shè)第i層的輸入圖像為Xi,則輸出的圖像是
[0027] hk=hkff;b(Xi) = 〇 (ffk*Xi+bk)
[0028] 其中,*是圖像卷積操作符,〇是非線性激勵(lì)函數(shù)。
[0029] 通過K個(gè)濾波器的輸出圖像可重構(gòu)原圖像,即
[0030]
【主權(quán)項(xiàng)】
1. 一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法,