基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法與流程

文檔序號：11952036閱讀：619來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法與流程

本發(fā)明屬于目標(biāo)檢測
技術(shù)領(lǐng)域：
，尤其是一種基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法。
背景技術(shù)：
：視覺是人類與周圍世界交互所依賴的重要的感官形式。在人類大腦中處理信息有超過80％的部分來自于視覺信息，從而保證我們能夠在日常生活中智能感知世界并做出適當(dāng)?shù)男袨?，尤其是在移動智能設(shè)備快速發(fā)展的今天，越來越多的圖像傳感器分布在我們周圍，被我們自己所使用。人類視覺系統(tǒng)可從復(fù)雜的環(huán)境中檢測到目標(biāo)物體并對其定位，這是人類視覺的基本功能。計算機(jī)的目標(biāo)檢測與識別，旨在利用機(jī)器針對特定的目標(biāo)進(jìn)行檢測與定位，是進(jìn)行目標(biāo)搜索和跟蹤的基礎(chǔ)。目標(biāo)檢測與識別在計算機(jī)視覺中具有重要的研究地位，并受到國內(nèi)外研究者的廣泛關(guān)注。隨著計算機(jī)視覺技術(shù)及硬件技術(shù)的發(fā)展，基于機(jī)器視覺的產(chǎn)品己有較多應(yīng)用，如軍事、航空航天等，特別在較為危險的環(huán)境，如礦井、火災(zāi)、火山中，其應(yīng)用較為突出。AndrewNg也提到圖像和語音是未來發(fā)展的新的方向。因此，目標(biāo)檢測與識別是圖像分析和理解的基礎(chǔ)，深入研究目標(biāo)檢測與識別算法，在學(xué)術(shù)界和工業(yè)界都有著非常重要的意義。然而，對于機(jī)器而言，目標(biāo)檢測和識別還存在較大的問題，如識別的準(zhǔn)確度、實(shí)時性都有待于提高。目標(biāo)檢測算法可以分為兩類基于滑動窗日模型的目標(biāo)檢測和基于廣義霍夫變換的目標(biāo)檢測。滑動窗口模型就是通過使用訓(xùn)練好的模板，在輸入圖像上滑動獲得最大的響應(yīng)，比較簡單有效。而廣義霍夫變換則是通過霍夫投票在對應(yīng)的霍夫圖像上進(jìn)行權(quán)值累加，通過計算局部極值得到目標(biāo)物體的位置。Darmstadt在2005年P(guān)ASCAL競賽中物體檢測類任務(wù)采用了廣義霍夫變換，先對物體進(jìn)行興趣點(diǎn)檢測，建立興趣點(diǎn)直方圖，提取物體的將征向量，通過廣義霍夫投票來推測物體尺度與位置。Dalai和Triggs提出了Hog模型，并在滑動窗口檢測的框架下，使用線性分類器進(jìn)行分類，并獲得了好的效果。但是Dalai的模型是一個全局剛性的模型，需要對整個物體進(jìn)行全局匹配，對物體形變不能很好的匹配。Hog特征是物體檢測領(lǐng)域的使用最廣泛的特征之一。2007年P(guān)edroFelzenszwalb等人提出了形變部件模型，并獲得了當(dāng)年的PASCAL物體檢測的冠軍。形變部件模型由一個根模型和若干個可形變部件組成，并且在支持向量機(jī)中引入隱變量，底層使用了Hog特征。形變部件模型的提出，在物體檢測領(lǐng)域具有里程碑式的意義，當(dāng)今，物體檢測的基本框架大都是基于形變部件模型。Hinton教授在2012年Imagenet競賽上首次使用了深度卷積神經(jīng)網(wǎng)絡(luò)，獲得了前所未有的成功，其方法主要是通過構(gòu)造多層卷積網(wǎng)絡(luò)，采用半監(jiān)督學(xué)習(xí)的方法，機(jī)器自動學(xué)習(xí)特征，并進(jìn)行分類。Hinton教授的成功，吸引了國內(nèi)外大量學(xué)者的關(guān)注。同時，工業(yè)界加入深度學(xué)習(xí)的研究中來。百度、google、facebook紛紛建立深度學(xué)習(xí)實(shí)驗(yàn)室，通過深度學(xué)習(xí)，進(jìn)行圖像識別與分類。但是，雖然深度學(xué)習(xí)獲得了如此大的成功，但是訓(xùn)練時間花銷大、需要數(shù)據(jù)量多、沒有理論支撐等問題依然沒有解決。近年來，為了提高物體檢測的速度，有關(guān)候選物體建議的方法先后被提出并應(yīng)用到物體檢測中來。R.Girshick使用selectivesearch的候選物體框作為物體識別的圖片在PASCALVOC種取得了最好的效果，并具有較快的執(zhí)行速度。國內(nèi)的中科院自動化研究所模式識別實(shí)驗(yàn)室在物體檢測方面同樣取的了非常大的成功。中科院自動化研究所在2010年和2011年獲得了FPASCALVOC物體檢測的冠軍，其基本都是基于形變部件模型的基礎(chǔ)上，在滑動窗口框架下，引入上下文學(xué)習(xí)，取得了當(dāng)時最好的效果。但是特征提取的計算量大、前期處理優(yōu)化的問題還沒有得到解決。技術(shù)實(shí)現(xiàn)要素：本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種設(shè)計合理、準(zhǔn)確度高且計算簡便的基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法。本發(fā)明解決其技術(shù)問題是采取以下技術(shù)方案實(shí)現(xiàn)的：一種基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法，包括以下步驟：步驟1、基于MCG算法對圖像進(jìn)行預(yù)處理，提取出可能存在的目標(biāo)位置的圖像塊；步驟2、基于MTSE算法優(yōu)化已提取出來的圖像塊；步驟3、將得到的圖像塊利用超像素優(yōu)化的方法迭代調(diào)整到caffe框架輸入要求的大?。徊襟E4、利用caffe深度學(xué)習(xí)框架對步驟3得到的圖像塊進(jìn)行特征提取，其中模型的配置利用R-CNN算法完成；對得到的特征利用SVM算法進(jìn)行分類，得到最終結(jié)果。所述步驟1包括以下處理步驟：(1)通過邊緣檢測算法得到圖像的邊緣圖，進(jìn)一步得到圖像的輪廓圖，通過對輪廓圖進(jìn)行一系列處理得到UCM圖；(2)利用UCM圖獲取圖像的超像素點(diǎn)，任意兩個相鄰的區(qū)域之間均有一個不相似度值；(3)對得到的區(qū)域進(jìn)行合并，將N個葉子節(jié)點(diǎn)兩兩合并，最終得到N-1個非葉子節(jié)點(diǎn)，構(gòu)造了一顆完全二叉樹，二叉樹的根部是整個圖像區(qū)域，葉子節(jié)點(diǎn)就是一開始得到的超像素點(diǎn)；(4)通過上述步驟得到結(jié)果集合，提取每個圖像塊2D基本特征，用這些特征組成向量來表示該圖像塊，然后訓(xùn)練隨機(jī)森林回歸器來對這些圖像塊排名，得到最終結(jié)果。所述步驟2包括以下處理步驟：(1)將得到的圖像塊利用超像素擴(kuò)張的方法與目標(biāo)物體邊緣對準(zhǔn)，使得圖像塊包含超像素點(diǎn)的一個子集；(2)定義與超像素相似度比較的參數(shù)該參數(shù)表示在圖像塊b的超像素區(qū)域像素點(diǎn)個數(shù)|s∩b|占超像素區(qū)域s的比重，給定圖像塊b，通過SD(s，b)參數(shù)值來擴(kuò)大圖像塊；(3)定義參數(shù)Sδ(b)為Sin(b)∪{s∈Sθ|SD(s，b)≥δ}，通過計算包含Sδ(b)最小的圖像塊得到新的圖像塊b；(4)組合不同的δ值，得到最終的圖像塊集合。所述步驟3包括以下處理步驟：(1)利用超像素點(diǎn)能夠保存圖像邊緣的特性，對圖像塊進(jìn)行對準(zhǔn)預(yù)處理；(2)給定圖像塊b，計算圖像的超像素點(diǎn)Sθ，并按下式計算參數(shù)Sin和Sst的值：Sin＝{s∈Sθ|SD(s，b)＝1}，Sst＝{s∈Sθ|0＜SD(s，b)＜1}(3)令b(S)表示包含超像素集合的最小圖像塊，O(bi，bj)表示圖像塊bi和bj的相交區(qū)域，通過相交區(qū)域?qū)蟂st排序，使得其元素滿足：O(b(Sin∪{si}),b)≥O(b(Sin∪{sj}),b),Vi<j]]>(4)通過迭代地在圖像塊b(Sin)上增加超像素點(diǎn)，使得圖像塊與原圖像塊不斷接近，從而使得圖像邊緣更好地得到利用，最終得到圖像塊集合；(5)將圖像塊切割成caffe框架要求的輸入大小。所述步驟4包括以下處理步驟：(1)利用R-CNN框架的caffe模型參數(shù)，對步驟3得到的圖像塊進(jìn)行處理，得到特征矩陣；(2)將數(shù)據(jù)庫中的給定的理想情況圖像塊作為正樣本，與正樣本的相交區(qū)域少于50％的作為負(fù)樣本，利用SVM分類器和得到的特征對圖像進(jìn)行分類，得到最終的目標(biāo)檢測器。本發(fā)明的優(yōu)點(diǎn)和積極效果是：本發(fā)明利用深度學(xué)習(xí)框架caffe進(jìn)行特征提取，得到圖像塊的深度特征，能更好地表示物體，提高目標(biāo)檢測的準(zhǔn)確性；同時，為了減少特征提取的計算量，使其更加高效，首先對圖像進(jìn)行預(yù)處理，代替R-CNN框架的selectivesearch算法，使用更加高效的MCG算法，得到的圖像塊的回歸率和準(zhǔn)確度都有所提升，并使用MTSE算法解決定位偏差的問題，進(jìn)一步提高圖像塊包含目標(biāo)物體的概率；為了將得到的圖像塊作為caffe模型的輸入，要將其大小變成固定的，意味著對圖像塊進(jìn)行裁剪，為了使得圖像塊中目標(biāo)物體的邊緣不受到破壞，利用超像素能更好地保存物體邊緣的特性，對圖像塊進(jìn)行超像素對準(zhǔn)處理，提高準(zhǔn)確度；將圖像塊輸入到R-CNN算法的深度學(xué)習(xí)模型中進(jìn)行特征提取，得到了優(yōu)于R-CNN算法的結(jié)果。附圖說明圖1是對PASCALVOC數(shù)據(jù)庫中的部分圖片進(jìn)行處理得到結(jié)果圖；圖2是采用不同算法所獲得的圖像塊準(zhǔn)確度的對比圖。具體實(shí)施方式以下結(jié)合附圖對本發(fā)明實(shí)施例做進(jìn)一步詳述：一種基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法，包括以下步驟：步驟1、采用基于MCG算法將圖像進(jìn)行預(yù)處理，提取出可能存在的目標(biāo)位置的圖像塊。具體包括以下步驟：(1)通過邊緣檢測算法得到圖像的邊緣圖，進(jìn)一步得到圖像的輪廓圖，通過對輪廓圖進(jìn)行一系列處理得到UCM圖。(2)利用UCM圖，獲取圖像的超像素點(diǎn)，也就是一個個連通域，任意兩個相鄰的區(qū)域之間都有一個不相似度值。(3)對上述步驟得到的區(qū)域進(jìn)行合并，將N個葉子節(jié)點(diǎn)兩兩合并，最終得到N-1個非葉子節(jié)點(diǎn)，這樣就構(gòu)造了一顆完全二叉樹，二叉樹的根部是整個圖像區(qū)域，葉子節(jié)點(diǎn)就是一開始得到的超像素點(diǎn)。這樣一張UCM圖可以得到一個分層分割結(jié)果。(4)通過上述步驟得到結(jié)果集合，提取每個圖像塊的面積、周長、邊界強(qiáng)度等2D基本特征，用這些特征組成向量來表示該圖像塊，然后訓(xùn)練隨機(jī)森林回歸器來對這些圖像塊排名，得到最終結(jié)果。本步驟可以降低后面提取圖像塊特征的計算量。步驟2、利用MTSE算法優(yōu)化步驟1提取出來的圖像塊。具體包含以下步驟：(1)將上面得到的圖像塊利用超像素擴(kuò)張的方法與目標(biāo)物體邊緣對準(zhǔn)，使得圖像塊包含超像素點(diǎn)的一個子集。(2)定義與超像素相似度比較的參數(shù)該參數(shù)表示在圖像塊b的超像素區(qū)域像素點(diǎn)個數(shù)|s∩b|占超像素區(qū)域s的比重。給定圖像塊b，通過SD(s，b)參數(shù)值來擴(kuò)大圖像塊。(3)定義參數(shù)Sδ(b)為Sin(b)∪{s∈Sθ|SD(s，b)≥δ}，通過計算包含Sδ(b)最小的圖像塊得到新的圖像塊b。(4)組合不同的δ值，得到最終的圖像塊集合。本步驟可以減少圖像塊的數(shù)量，使定位更加準(zhǔn)確，進(jìn)一步為特征提取做準(zhǔn)備。步驟3、將得到的圖像塊利用超像素優(yōu)化的方法迭代調(diào)整到caffe框架輸入要求的大小。具體包含以下步驟：(1)為了讓圖像切割的過程中使得圖像塊更大程度上保留目標(biāo)物體的邊緣，并滿足caffe深度學(xué)習(xí)框架對輸入大小的要求，利用超像素點(diǎn)能夠保存圖像邊緣的特性，對圖像塊進(jìn)行對準(zhǔn)預(yù)處理。(2)對給定圖像塊b，計算圖像的超像素點(diǎn)Sθ，計算參數(shù)Sin和Sst的值，其中：Sin＝{s∈Sθ|SD(s，b)＝1}，Sst＝{s∈Sθ|0＜SD(s，b)＜1}(3)令b(s)表示包含超像素集合的最小圖像塊，O(bi，bj)表示圖像塊bi和bj的相交區(qū)域，通過相交區(qū)域?qū)蟂st排序，使得其元素滿足：O(b(Sin∪{si}),b)≥O(b(Sin∪{sj}),b),Vi<j]]>(4)通過迭代地在圖像塊b(Sin)上增加超像素點(diǎn)，使得圖像塊與原圖像塊不斷接近，從而使得圖像邊緣更好地得到利用，最終得到圖像塊集合。(5)將圖像塊切割成caffe框架要求的輸入大小。步驟4、利用caffe深度學(xué)習(xí)框架對上述步驟得到的圖像塊進(jìn)行特征提取，其中模型的配置利用R-CNN算法的配置過程完成；對得到的特征利用SVM算法進(jìn)行分類，得到最終結(jié)果。具體方法為：(1)利用R-CNN框架的caffe模型參數(shù)，處理上述步驟得到的圖像塊，得到特征矩陣。(2)將數(shù)據(jù)庫中的給定的理想情況圖像塊作為正樣本，與正樣本的相交區(qū)域少于50％的作為負(fù)樣本，利用SVM分類器和得到的特征對圖像進(jìn)行分類，得到最終的目標(biāo)檢測器。下面按照本發(fā)明的方法進(jìn)行實(shí)驗(yàn)，說明本發(fā)明的實(shí)驗(yàn)效果。測試環(huán)境：MATLAB2013b測試序列：如圖1所示，所選測試序列和其對應(yīng)標(biāo)準(zhǔn)目標(biāo)檢測結(jié)果圖(GroundTruth)來自PASCALVOC數(shù)據(jù)庫(M.Everingham，L.VanGool，C.K.Williams，J.Winn，andA.Zisserman，“Thepascalvisualobjectclasses(voc)challenge，”Internationaljournalofcomputervision，vol.88，no.2，pp.303–338，2007.)其中包含的圖例有20個類別，分別為人類；動物(鳥、貓、牛、狗、馬、羊)；交通工具(飛機(jī)、自行車、船、公共汽車、小轎車、摩托車、火車)；室內(nèi)(瓶子、椅子、餐桌、盆栽植物、沙發(fā)、電視)。都是一些日常中最常見的物體，為的就是能更好的體現(xiàn)算法的實(shí)用性，共包含9963張圖片，有24，640個被標(biāo)記的目標(biāo)物體。測試指標(biāo)：使用了兩種評價指標(biāo)，分別為fideal和mAP，其中fideal＝IoU(yi，y)，其中yi是圖像xi的理想目標(biāo)檢測結(jié)果，此參數(shù)是為了評判對圖像的前期處理得到的圖像塊的準(zhǔn)確度，使用PASCALVOC2007test數(shù)據(jù)庫中的圖片，得到前期處理的不同算法的參數(shù)值，證明本文算法的優(yōu)越性；mAP是目標(biāo)檢測結(jié)果的平均準(zhǔn)確度測量，與理想目標(biāo)檢測結(jié)果進(jìn)行比較并對數(shù)據(jù)庫中所有物體類別進(jìn)行加權(quán)平均計算，對不同算法計算此參數(shù)值，證明本文算法在目標(biāo)檢測領(lǐng)域得到較好的結(jié)果。測試結(jié)果如下：表1、R-CNN方法、SDFV方法以及本發(fā)明的平均測試結(jié)果方法mAPR-CNN58.5SDFV40.5本專利61.9上述SDFV方法是指：R.G.Cinbis，J.Verbeek，andC.Schmid，“Segmentationdrivenobjectdetectionwithfishervectors，”inComputerVision(ICCV)，2013IEEEInternationalConferenceon.IEEE，2013，pp.2968–2975。通過表1給出的PASCALVOC中所有圖像類別測試的平均結(jié)果，可以看出本發(fā)明在mAP上相比其他方法有明顯提高，這說明本發(fā)明所產(chǎn)生的目標(biāo)檢測結(jié)果擁有更高的準(zhǔn)確度。另外，采用不同算法所獲得的ROC曲線如圖2所示，本發(fā)明計算獲得的曲線相比其他算法的曲線更靠近左上，說明本發(fā)明的圖像塊獲取方法比其他算法有更高的回歸率和準(zhǔn)確度，能更好地解決物體定位的偏差問題。需要強(qiáng)調(diào)的是，本發(fā)明所述的實(shí)施例是說明性的，而不是限定性的，因此本發(fā)明包括并不限于具體實(shí)施方式中所述的實(shí)施例，凡是由本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出的其他實(shí)施方式，同樣屬于本發(fā)明保護(hù)的范圍。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙懷瑾;周蕓;王強(qiáng);
技術(shù)所有人：國家新聞出版廣電總局廣播科學(xué)研究院;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法與流程