基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法

文檔序號(hào)：8473336閱讀：394來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種計(jì)算機(jī)視覺技術(shù)領(lǐng)域的圖形圖案文字檢測(cè)算法，具體為一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)帶寬的不斷提高，圖像、視頻由于易于理解，符合現(xiàn)代人快速的生活節(jié)奏，逐漸取代文本成為主要的信息傳播載體。由于微博類網(wǎng)站對(duì)文本長度的限制，要發(fā)表較豐富的內(nèi)容通常需要圖文結(jié)合的方式，同時(shí)，圖片分享類網(wǎng)站的蓬勃發(fā)展，給圖像檢索和理解領(lǐng)域帶來新的機(jī)遇和挑戰(zhàn)。
[0003] 圖像檢索一般來說有兩種方向，一種是直接基于圖像的特征進(jìn)行匹配，另一種是先對(duì)圖像進(jìn)行標(biāo)記然后再基于標(biāo)簽進(jìn)行檢索。前者計(jì)算量較大，相對(duì)圖像檢索，文本搜索技術(shù)相對(duì)成熟，使用標(biāo)簽進(jìn)行檢索可有效利用文本搜索的成熟技術(shù)，并可通過預(yù)處理加快檢索速度。標(biāo)簽的加注可由用戶手工完成，但由于大量圖片是未經(jīng)標(biāo)注，而且用戶標(biāo)注具有隨意性，并一定能準(zhǔn)確地描述圖像的信息，因此圖像的自動(dòng)標(biāo)記顯得尤為重要。相比于文字，圖像的冗余信息更多，而且信息不明確，使用圖像中的特定的圖形圖案文字作為標(biāo)簽是有效的圖像標(biāo)注方案之一。
[0004] 對(duì)于視頻監(jiān)控和基于位置的服務(wù)（LBS)等應(yīng)用，通過識(shí)別圖像中的圖形圖案文字，如招牌、標(biāo)識(shí)等內(nèi)容，對(duì)定位圖像拍攝地點(diǎn)有重要的參考作用。
[0005] 因此，圖形圖案文字檢測(cè)和識(shí)別作為圖像理解的重要一環(huán)，一直受到研宄者的關(guān) 注。自然圖像中的背景復(fù)雜，圖形圖案文字出現(xiàn)的位置隨機(jī)，大小隨意，由于拍攝角度不同，還可能造成傾斜、旋轉(zhuǎn)和透視變換等變化，這是自然圖像中圖形圖案文字檢測(cè)問題的主要難點(diǎn)。除了問題本身的復(fù)雜性之外，圖形圖案文字檢測(cè)問題可使用的標(biāo)記樣本并不多，標(biāo)記樣本必須使用人工標(biāo)記，十分費(fèi)時(shí)。由于樣本不足，設(shè)計(jì)算法時(shí)必須要控制參數(shù)的數(shù)量，同時(shí)在分類器中通常要加入正則項(xiàng)，避免過擬合。
[0006] 總的來說，與其他圖像識(shí)別的問題相似，圖形圖案文字檢測(cè)問題的主要可分為特征提取和分類器訓(xùn)練兩個(gè)部分。針對(duì)特征提取部分，無監(jiān)督學(xué)習(xí)特征在越來越多的圖像的圖像識(shí)別任務(wù)中嶄露頭角，取得了比人工設(shè)計(jì)的特征更好的效果。Krizhevsky等人于 2012年在〈〈Advances in neural information processing systems〉〉發(fā)表的''Imagenet classification with deep convolutional neural networks"一文，提出建立多層深度卷積網(wǎng)絡(luò)學(xué)習(xí)具有層級(jí)的特征進(jìn)行識(shí)別任務(wù)，并取得優(yōu)異的效果。而在分類器的研宄上，稀疏表達(dá)被證實(shí)除了可應(yīng)用于圖像去噪和圖像還原上，在圖像識(shí)別領(lǐng)域同樣效果明顯。Jiang 等人于2011年在〈〈Computer Vision and Pattern Recognition〉〉發(fā)表的"Learning a discriminative dictionary for sparse coding via label consistent K_SVD"一問，提出使用LC-KSVD算法，在稀疏字典的目標(biāo)函數(shù)中加入標(biāo)記的約束，建立統(tǒng)一的稀疏字典和分類器的模型，對(duì)多分類任務(wù)唯一的稀疏字典進(jìn)行識(shí)別，降低系統(tǒng)復(fù)雜度。
[0007] 為了挖掘自然圖像中表征圖形圖案文字的有效特征，提高分類器的準(zhǔn)確度，以及圖形圖案文字檢測(cè)系統(tǒng)的適用性，本發(fā)明使用深度卷積自編碼網(wǎng)絡(luò)無監(jiān)督學(xué)習(xí)特征，同時(shí) 使用樣本合成的方式解決由于深度網(wǎng)絡(luò)的參數(shù)較多而造成的過擬合問題，并使用稀疏字典作為分類器，提高了自然圖像檢測(cè)系統(tǒng)的準(zhǔn)確性和魯棒性。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明為了解決現(xiàn)有技術(shù)中的問題，提出一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè) 方法，利用合成樣本和深度卷積自編碼網(wǎng)絡(luò)無監(jiān)督學(xué)習(xí)提取最能最佳表達(dá)訓(xùn)練樣本的特征，并結(jié)合稀疏字典進(jìn)行識(shí)別，從而提升現(xiàn)有圖形圖案文字檢測(cè)方法的魯棒性和準(zhǔn)確性。
[0009] 本發(fā)明采用以下技術(shù)方案：一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法，包括以下步驟：
[0010] 步驟1:預(yù)處理：輸入彩色圖像，并將輸入的彩色圖像轉(zhuǎn)為灰度圖，并進(jìn)行多分辨率分解，輸出不同分辨率的圖像；
[0011] 步驟2 :特征提?。簩?duì)步驟1輸出的每一個(gè)分辨率的圖像，分別通過深度卷積自編碼網(wǎng)絡(luò)提取特征圖；其中深度卷積自編碼網(wǎng)絡(luò)是通過訓(xùn)練獲得；
[0012] 步驟3 :稀疏編碼求解：把步驟2提取得到的所有特征圖，上采樣至原圖大小。對(duì) 該組特征圖進(jìn)行分塊，每一塊分別通過稀疏字典和線性分類器進(jìn)行分類識(shí)別。
[0013] 步驟4 :圖形圖案文字定位：對(duì)步驟3輸出的每個(gè)分塊的分類識(shí)別結(jié)果進(jìn)行區(qū)域融合，合成最終的定位結(jié)果。
[0014] 進(jìn)一步地，步驟1所述的多分辨率分解，具體步驟是：以灰度圖為初始圖像，使用高斯金字塔對(duì)初始圖像進(jìn)行下采樣（通過對(duì)灰度圖進(jìn)行高斯內(nèi)核卷積，并去除偶數(shù)行和偶數(shù)列），獲得第一下采樣圖像；以第一下采樣圖像為初始圖像，使用高斯金字塔對(duì)初始圖像進(jìn)行下采樣，獲得第二下采樣圖像；重復(fù)上述步驟，獲得多個(gè)下采樣圖像，即不同分辨率的圖像。
[0015] 進(jìn)一步地，步驟2所述的深度卷積自編碼網(wǎng)絡(luò)是由多個(gè)卷積層級(jí)聯(lián)而成，卷積層之間使用下采樣層連接；每一個(gè)分辨率的圖像依次通過各層計(jì)算后，最后一層卷積層的輸出即為所提取的特征圖，其中卷積層計(jì)算、下采樣層計(jì)算的具體過程如下：
[0016] 卷積層計(jì)算：
[0017] 設(shè)輸入圖像為X，則經(jīng)過單個(gè)濾波器的輸出圖像為
[0018] h\b(x) = 〇 (Wk*x+bk)
[0019] 其中，K為卷積層包含的濾波器數(shù)量，W是濾波器的集合，b是濾波器偏移量的集合，而Wk表示第k個(gè)濾波器，bk表示第k個(gè)濾波器的偏移量，ke[1，K]。*是圖像卷積操作符，?是非線性激勵(lì)函數(shù)。
[0020] 下采樣層計(jì)算：
[0021] 對(duì)卷積層輸出的每一個(gè)圖像分別使用最大值池化進(jìn)行下采樣。最大化池化是取圖像中每一個(gè)分塊的最大值作為輸出。假設(shè)輸入圖像X大小為nXm，用最大值池化進(jìn)行下采樣后的圖像大小為（n/w)X(m/h)，其中，wXh為池化大小。
[0022] 上述卷積層計(jì)算和下采用計(jì)算中的輸入圖像為：上一層計(jì)算后獲得的圖像，第一個(gè)卷積層的輸入圖像為步驟1獲得的不同分辨率的圖像。
[0023] 進(jìn)一步地，步驟2所述的深度卷積自編碼網(wǎng)絡(luò)的訓(xùn)練方法是使用訓(xùn)練集進(jìn)行分層訓(xùn)練、整體調(diào)優(yōu)。具體過程如下：
[0024] 步驟2.L1 :分層訓(xùn)練：
[0025] 當(dāng)訓(xùn)練第i層參數(shù)時(shí)，要求除第i層參數(shù)外的其余參數(shù)保持不變，同時(shí)以前一層的輸出作為后一層的輸入，從接近輸入端的一層開始依次向輸出層訓(xùn)練。
[0026] 設(shè)第i層的輸入圖像為Xi，則輸出的圖像是
[0027] hk=hkff；b(Xi) = 〇 (ffk*Xi+bk)
[0028] 其中，*是圖像卷積操作符，〇是非線性激勵(lì)函數(shù)。
[0029] 通過K個(gè)濾波器的輸出圖像可重構(gòu)原圖像，即
[0030]
【主權(quán)項(xiàng)】
1. 一種基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法，

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于慧敏;李天豪;
技術(shù)所有人：浙江大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于深度學(xué)習(xí)的圖形圖案文字檢測(cè)方法