本發(fā)明屬于目標(biāo)檢測
技術(shù)領(lǐng)域:
,尤其是一種基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法。
背景技術(shù):
:視覺是人類與周圍世界交互所依賴的重要的感官形式。在人類大腦中處理信息有超過80%的部分來自于視覺信息,從而保證我們能夠在日常生活中智能感知世界并做出適當(dāng)?shù)男袨?,尤其是在移動智能設(shè)備快速發(fā)展的今天,越來越多的圖像傳感器分布在我們周圍,被我們自己所使用。人類視覺系統(tǒng)可從復(fù)雜的環(huán)境中檢測到目標(biāo)物體并對其定位,這是人類視覺的基本功能。計算機(jī)的目標(biāo)檢測與識別,旨在利用機(jī)器針對特定的目標(biāo)進(jìn)行檢測與定位,是進(jìn)行目標(biāo)搜索和跟蹤的基礎(chǔ)。目標(biāo)檢測與識別在計算機(jī)視覺中具有重要的研究地位,并受到國內(nèi)外研究者的廣泛關(guān)注。隨著計算機(jī)視覺技術(shù)及硬件技術(shù)的發(fā)展,基于機(jī)器視覺的產(chǎn)品己有較多應(yīng)用,如軍事、航空航天等,特別在較為危險的環(huán)境,如礦井、火災(zāi)、火山中,其應(yīng)用較為突出。AndrewNg也提到圖像和語音是未來發(fā)展的新的方向。因此,目標(biāo)檢測與識別是圖像分析和理解的基礎(chǔ),深入研究目標(biāo)檢測與識別算法,在學(xué)術(shù)界和工業(yè)界都有著非常重要的意義。然而,對于機(jī)器而言,目標(biāo)檢測和識別還存在較大的問題,如識別的準(zhǔn)確度、實(shí)時性都有待于提高。目標(biāo)檢測算法可以分為兩類基于滑動窗日模型的目標(biāo)檢測和基于廣義霍夫變換的目標(biāo)檢測。滑動窗口模型就是通過使用訓(xùn)練好的模板,在輸入圖像上滑動獲得最大的響應(yīng),比較簡單有效。而廣義霍夫變換則是通過霍夫投票在對應(yīng)的霍夫圖像上進(jìn)行權(quán)值累加,通過計算局部極值得到目標(biāo)物體的位置。Darmstadt在2005年P(guān)ASCAL競賽中物體檢測類任務(wù)采用了廣義霍夫變換,先對物體進(jìn)行興趣點(diǎn)檢測,建立興趣點(diǎn)直方圖,提取物體的將征向量,通過廣義霍夫投票來推測物體尺度與位置。Dalai和Triggs提出了Hog模型,并在滑動窗口檢測的框架下,使用線性分類器進(jìn)行分類,并獲得了好的效果。但是Dalai的模型是一個全局剛性的模型,需要對整個物體進(jìn)行全局匹配,對物體形變不能很好的匹配。Hog特征是物體檢測領(lǐng)域的使用最廣泛的特征之一。2007年P(guān)edroFelzenszwalb等人提出了形變部件模型,并獲得了當(dāng)年的PASCAL物體檢測的冠軍。形變部件模型由一個根模型和若干個可形變部件組成,并且在支持向量機(jī)中引入隱變量,底層使用了Hog特征。形變部件模型的提出,在物體檢測領(lǐng)域具有里程碑式的意義,當(dāng)今,物體檢測的基本框架大都是基于形變部件模型。Hinton教授在2012年Imagenet競賽上首次使用了深度卷積神經(jīng)網(wǎng)絡(luò),獲得了前所未有的成功,其方法主要是通過構(gòu)造多層卷積網(wǎng)絡(luò),采用半監(jiān)督學(xué)習(xí)的方法,機(jī)器自動學(xué)習(xí)特征,并進(jìn)行分類。Hinton教授的成功,吸引了國內(nèi)外大量學(xué)者的關(guān)注。同時,工業(yè)界加入深度學(xué)習(xí)的研究中來。百度、google、facebook紛紛建立深度學(xué)習(xí)實(shí)驗(yàn)室,通過深度學(xué)習(xí),進(jìn)行圖像識別與分類。但是,雖然深度學(xué)習(xí)獲得了如此大的成功,但是訓(xùn)練時間花銷大、需要數(shù)據(jù)量多、沒有理論支撐等問題依然沒有解決。近年來,為了提高物體檢測的速度,有關(guān)候選物體建議的方法先后被提出并應(yīng)用到物體檢測中來。R.Girshick使用selectivesearch的候選物體框作為物體識別的圖片在PASCALVOC種取得了最好的效果,并具有較快的執(zhí)行速度。國內(nèi)的中科院自動化研究所模式識別實(shí)驗(yàn)室在物體檢測方面同樣取的了非常大的成功。中科院自動化研究所在2010年和2011年獲得了FPASCALVOC物體檢測的冠軍,其基本都是基于形變部件模型的基礎(chǔ)上,在滑動窗口框架下,引入上下文學(xué)習(xí),取得了當(dāng)時最好的效果。但是特征提取的計算量大、前期處理優(yōu)化的問題還沒有得到解決。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種設(shè)計合理、準(zhǔn)確度高且計算簡便的基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法。本發(fā)明解決其技術(shù)問題是采取以下技術(shù)方案實(shí)現(xiàn)的:一種基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法,包括以下步驟:步驟1、基于MCG算法對圖像進(jìn)行預(yù)處理,提取出可能存在的目標(biāo)位置的圖像塊;步驟2、基于MTSE算法優(yōu)化已提取出來的圖像塊;步驟3、將得到的圖像塊利用超像素優(yōu)化的方法迭代調(diào)整到caffe框架輸入要求的大?。徊襟E4、利用caffe深度學(xué)習(xí)框架對步驟3得到的圖像塊進(jìn)行特征提取,其中模型的配置利用R-CNN算法完成;對得到的特征利用SVM算法進(jìn)行分類,得到最終結(jié)果。所述步驟1包括以下處理步驟:(1)通過邊緣檢測算法得到圖像的邊緣圖,進(jìn)一步得到圖像的輪廓圖,通過對輪廓圖進(jìn)行一系列處理得到UCM圖;(2)利用UCM圖獲取圖像的超像素點(diǎn),任意兩個相鄰的區(qū)域之間均有一個不相似度值;(3)對得到的區(qū)域進(jìn)行合并,將N個葉子節(jié)點(diǎn)兩兩合并,最終得到N-1個非葉子節(jié)點(diǎn),構(gòu)造了一顆完全二叉樹,二叉樹的根部是整個圖像區(qū)域,葉子節(jié)點(diǎn)就是一開始得到的超像素點(diǎn);(4)通過上述步驟得到結(jié)果集合,提取每個圖像塊2D基本特征,用這些特征組成向量來表示該圖像塊,然后訓(xùn)練隨機(jī)森林回歸器來對這些圖像塊排名,得到最終結(jié)果。所述步驟2包括以下處理步驟:(1)將得到的圖像塊利用超像素擴(kuò)張的方法與目標(biāo)物體邊緣對準(zhǔn),使得圖像塊包含超像素點(diǎn)的一個子集;(2)定義與超像素相似度比較的參數(shù)該參數(shù)表示在圖像塊b的超像素區(qū)域像素點(diǎn)個數(shù)|s∩b|占超像素區(qū)域s的比重,給定圖像塊b,通過SD(s,b)參數(shù)值來擴(kuò)大圖像塊;(3)定義參數(shù)Sδ(b)為Sin(b)∪{s∈Sθ|SD(s,b)≥δ},通過計算包含Sδ(b)最小的圖像塊得到新的圖像塊b;(4)組合不同的δ值,得到最終的圖像塊集合。所述步驟3包括以下處理步驟:(1)利用超像素點(diǎn)能夠保存圖像邊緣的特性,對圖像塊進(jìn)行對準(zhǔn)預(yù)處理;(2)給定圖像塊b,計算圖像的超像素點(diǎn)Sθ,并按下式計算參數(shù)Sin和Sst的值:Sin={s∈Sθ|SD(s,b)=1},Sst={s∈Sθ|0<SD(s,b)<1}(3)令b(S)表示包含超像素集合的最小圖像塊,O(bi,bj)表示圖像塊bi和bj的相交區(qū)域,通過相交區(qū)域?qū)蟂st排序,使得其元素滿足:O(b(Sin∪{si}),b)≥O(b(Sin∪{sj}),b),Vi<j]]>(4)通過迭代地在圖像塊b(Sin)上增加超像素點(diǎn),使得圖像塊與原圖像塊不斷接近,從而使得圖像邊緣更好地得到利用,最終得到圖像塊集合;(5)將圖像塊切割成caffe框架要求的輸入大小。所述步驟4包括以下處理步驟:(1)利用R-CNN框架的caffe模型參數(shù),對步驟3得到的圖像塊進(jìn)行處理,得到特征矩陣;(2)將數(shù)據(jù)庫中的給定的理想情況圖像塊作為正樣本,與正樣本的相交區(qū)域少于50%的作為負(fù)樣本,利用SVM分類器和得到的特征對圖像進(jìn)行分類,得到最終的目標(biāo)檢測器。本發(fā)明的優(yōu)點(diǎn)和積極效果是:本發(fā)明利用深度學(xué)習(xí)框架caffe進(jìn)行特征提取,得到圖像塊的深度特征,能更好地表示物體,提高目標(biāo)檢測的準(zhǔn)確性;同時,為了減少特征提取的計算量,使其更加高效,首先對圖像進(jìn)行預(yù)處理,代替R-CNN框架的selectivesearch算法,使用更加高效的MCG算法,得到的圖像塊的回歸率和準(zhǔn)確度都有所提升,并使用MTSE算法解決定位偏差的問題,進(jìn)一步提高圖像塊包含目標(biāo)物體的概率;為了將得到的圖像塊作為caffe模型的輸入,要將其大小變成固定的,意味著對圖像塊進(jìn)行裁剪,為了使得圖像塊中目標(biāo)物體的邊緣不受到破壞,利用超像素能更好地保存物體邊緣的特性,對圖像塊進(jìn)行超像素對準(zhǔn)處理,提高準(zhǔn)確度;將圖像塊輸入到R-CNN算法的深度學(xué)習(xí)模型中進(jìn)行特征提取,得到了優(yōu)于R-CNN算法的結(jié)果。附圖說明圖1是對PASCALVOC數(shù)據(jù)庫中的部分圖片進(jìn)行處理得到結(jié)果圖;圖2是采用不同算法所獲得的圖像塊準(zhǔn)確度的對比圖。具體實(shí)施方式以下結(jié)合附圖對本發(fā)明實(shí)施例做進(jìn)一步詳述:一種基于深度學(xué)習(xí)框架對圖像進(jìn)行特征提取的目標(biāo)檢測方法,包括以下步驟:步驟1、采用基于MCG算法將圖像進(jìn)行預(yù)處理,提取出可能存在的目標(biāo)位置的圖像塊。具體包括以下步驟:(1)通過邊緣檢測算法得到圖像的邊緣圖,進(jìn)一步得到圖像的輪廓圖,通過對輪廓圖進(jìn)行一系列處理得到UCM圖。(2)利用UCM圖,獲取圖像的超像素點(diǎn),也就是一個個連通域,任意兩個相鄰的區(qū)域之間都有一個不相似度值。(3)對上述步驟得到的區(qū)域進(jìn)行合并,將N個葉子節(jié)點(diǎn)兩兩合并,最終得到N-1個非葉子節(jié)點(diǎn),這樣就構(gòu)造了一顆完全二叉樹,二叉樹的根部是整個圖像區(qū)域,葉子節(jié)點(diǎn)就是一開始得到的超像素點(diǎn)。這樣一張UCM圖可以得到一個分層分割結(jié)果。(4)通過上述步驟得到結(jié)果集合,提取每個圖像塊的面積、周長、邊界強(qiáng)度等2D基本特征,用這些特征組成向量來表示該圖像塊,然后訓(xùn)練隨機(jī)森林回歸器來對這些圖像塊排名,得到最終結(jié)果。本步驟可以降低后面提取圖像塊特征的計算量。步驟2、利用MTSE算法優(yōu)化步驟1提取出來的圖像塊。具體包含以下步驟:(1)將上面得到的圖像塊利用超像素擴(kuò)張的方法與目標(biāo)物體邊緣對準(zhǔn),使得圖像塊包含超像素點(diǎn)的一個子集。(2)定義與超像素相似度比較的參數(shù)該參數(shù)表示在圖像塊b的超像素區(qū)域像素點(diǎn)個數(shù)|s∩b|占超像素區(qū)域s的比重。給定圖像塊b,通過SD(s,b)參數(shù)值來擴(kuò)大圖像塊。(3)定義參數(shù)Sδ(b)為Sin(b)∪{s∈Sθ|SD(s,b)≥δ},通過計算包含Sδ(b)最小的圖像塊得到新的圖像塊b。(4)組合不同的δ值,得到最終的圖像塊集合。本步驟可以減少圖像塊的數(shù)量,使定位更加準(zhǔn)確,進(jìn)一步為特征提取做準(zhǔn)備。步驟3、將得到的圖像塊利用超像素優(yōu)化的方法迭代調(diào)整到caffe框架輸入要求的大小。具體包含以下步驟:(1)為了讓圖像切割的過程中使得圖像塊更大程度上保留目標(biāo)物體的邊緣,并滿足caffe深度學(xué)習(xí)框架對輸入大小的要求,利用超像素點(diǎn)能夠保存圖像邊緣的特性,對圖像塊進(jìn)行對準(zhǔn)預(yù)處理。(2)對給定圖像塊b,計算圖像的超像素點(diǎn)Sθ,計算參數(shù)Sin和Sst的值,其中:Sin={s∈Sθ|SD(s,b)=1},Sst={s∈Sθ|0<SD(s,b)<1}(3)令b(s)表示包含超像素集合的最小圖像塊,O(bi,bj)表示圖像塊bi和bj的相交區(qū)域,通過相交區(qū)域?qū)蟂st排序,使得其元素滿足:O(b(Sin∪{si}),b)≥O(b(Sin∪{sj}),b),Vi<j]]>(4)通過迭代地在圖像塊b(Sin)上增加超像素點(diǎn),使得圖像塊與原圖像塊不斷接近,從而使得圖像邊緣更好地得到利用,最終得到圖像塊集合。(5)將圖像塊切割成caffe框架要求的輸入大小。步驟4、利用caffe深度學(xué)習(xí)框架對上述步驟得到的圖像塊進(jìn)行特征提取,其中模型的配置利用R-CNN算法的配置過程完成;對得到的特征利用SVM算法進(jìn)行分類,得到最終結(jié)果。具體方法為:(1)利用R-CNN框架的caffe模型參數(shù),處理上述步驟得到的圖像塊,得到特征矩陣。(2)將數(shù)據(jù)庫中的給定的理想情況圖像塊作為正樣本,與正樣本的相交區(qū)域少于50%的作為負(fù)樣本,利用SVM分類器和得到的特征對圖像進(jìn)行分類,得到最終的目標(biāo)檢測器。下面按照本發(fā)明的方法進(jìn)行實(shí)驗(yàn),說明本發(fā)明的實(shí)驗(yàn)效果。測試環(huán)境:MATLAB2013b測試序列:如圖1所示,所選測試序列和其對應(yīng)標(biāo)準(zhǔn)目標(biāo)檢測結(jié)果圖(GroundTruth)來自PASCALVOC數(shù)據(jù)庫(M.Everingham,L.VanGool,C.K.Williams,J.Winn,andA.Zisserman,“Thepascalvisualobjectclasses(voc)challenge,”Internationaljournalofcomputervision,vol.88,no.2,pp.303–338,2007.)其中包含的圖例有20個類別,分別為人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機(jī)、自行車、船、公共汽車、小轎車、摩托車、火車);室內(nèi)(瓶子、椅子、餐桌、盆栽植物、沙發(fā)、電視)。都是一些日常中最常見的物體,為的就是能更好的體現(xiàn)算法的實(shí)用性,共包含9963張圖片,有24,640個被標(biāo)記的目標(biāo)物體。測試指標(biāo):使用了兩種評價指標(biāo),分別為fideal和mAP,其中fideal=IoU(yi,y),其中yi是圖像xi的理想目標(biāo)檢測結(jié)果,此參數(shù)是為了評判對圖像的前期處理得到的圖像塊的準(zhǔn)確度,使用PASCALVOC2007test數(shù)據(jù)庫中的圖片,得到前期處理的不同算法的參數(shù)值,證明本文算法的優(yōu)越性;mAP是目標(biāo)檢測結(jié)果的平均準(zhǔn)確度測量,與理想目標(biāo)檢測結(jié)果進(jìn)行比較并對數(shù)據(jù)庫中所有物體類別進(jìn)行加權(quán)平均計算,對不同算法計算此參數(shù)值,證明本文算法在目標(biāo)檢測領(lǐng)域得到較好的結(jié)果。測試結(jié)果如下:表1、R-CNN方法、SDFV方法以及本發(fā)明的平均測試結(jié)果方法mAPR-CNN58.5SDFV40.5本專利61.9上述SDFV方法是指:R.G.Cinbis,J.Verbeek,andC.Schmid,“Segmentationdrivenobjectdetectionwithfishervectors,”inComputerVision(ICCV),2013IEEEInternationalConferenceon.IEEE,2013,pp.2968–2975。通過表1給出的PASCALVOC中所有圖像類別測試的平均結(jié)果,可以看出本發(fā)明在mAP上相比其他方法有明顯提高,這說明本發(fā)明所產(chǎn)生的目標(biāo)檢測結(jié)果擁有更高的準(zhǔn)確度。另外,采用不同算法所獲得的ROC曲線如圖2所示,本發(fā)明計算獲得的曲線相比其他算法的曲線更靠近左上,說明本發(fā)明的圖像塊獲取方法比其他算法有更高的回歸率和準(zhǔn)確度,能更好地解決物體定位的偏差問題。需要強(qiáng)調(diào)的是,本發(fā)明所述的實(shí)施例是說明性的,而不是限定性的,因此本發(fā)明包括并不限于具體實(shí)施方式中所述的實(shí)施例,凡是由本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出的其他實(shí)施方式,同樣屬于本發(fā)明保護(hù)的范圍。當(dāng)前第1頁1 2 3