本發(fā)明屬于計算機視覺領(lǐng)域,涉及一種基于語義通道的多特征行人檢測方法,通過初始通道圖片處理、特征提取以及決策森林的分類來實現(xiàn)對行人的高效檢測。可用于車輛輔助駕駛、機器人研究技術(shù)等領(lǐng)域。
背景技術(shù):
近年來,汽車的自動駕駛技術(shù)越來越受到研究者的關(guān)注。作為自動駕駛技術(shù)中的一個重要環(huán)節(jié),行人檢測是利用計算機視覺技術(shù)來判斷圖像或者視頻中是否存在行人。與圖像分類任務(wù)不同的是,行人檢測還需將行人用方框標注出來以表示行人的方位。同時,在智能監(jiān)控和機器人領(lǐng)域,行人檢測也發(fā)揮了重要作用。
行人檢測主要包含三類方法:
決策森林方法。該類方法通常先需要初始通道處理輸入圖片來得到初始通道圖片,接下來提取這些通道圖片中的手工特征,最后將這些特征輸入到?jīng)Q策森林中來判定該特征是否屬于行人。分類器的學(xué)習(xí)權(quán)重相當(dāng)于行人身體的全局模板。該方法有較快的檢測速度,手工特征對于小尺寸的行人有較好的檢測效果。
基于深度學(xué)習(xí)的方法。深度學(xué)習(xí)方法通常需要較大的網(wǎng)絡(luò)架構(gòu),包括卷積層,池化層,全連接層等,能從原始像素中學(xué)習(xí)出不同的特征。該方法無需人工設(shè)計特征,提取出的特征、人體變形部分和分類器通??梢杂脕砺?lián)合優(yōu)化算法效果。
dpm(deformablepartmodel,可變形部分模型)。與決策森林方法不同的是,dpm可以識別行人更復(fù)雜的姿勢和動作,學(xué)習(xí)混合身體每個部分的局部模板來判斷行人是否存在。該方法對于不同動作的行人往往能更好的識別。
現(xiàn)有的行人檢測方法往往存在將背景和垂直物體等錯誤地識別為行人,并且忽視小尺寸的行人、騎行者和遮擋等異常情況。一些算法在取得較高性能的同時會有較多的耗時,或者運行速度較快但取得的效果卻不佳。因此在性能與耗時之間取得一個平衡也是研究者的關(guān)注重點。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是針對現(xiàn)有技術(shù)問題而提供的一種基于語義任務(wù)的多特征行人檢測方法,對現(xiàn)有的行人檢測方法進行改進,來實現(xiàn)在道路環(huán)境下對于行人的高性能檢測。
實現(xiàn)本發(fā)明目的的具體技術(shù)方案是:
一種基于語義通道的多特征行人檢測方法,該方法包括以下具體步驟:
步驟1:訓(xùn)練階段
將caltech行人訓(xùn)練數(shù)據(jù)庫用hog+luv通道和sof算法處理,得到初始通道圖片集合;將這些圖片利用滑動窗口方法提取多尺寸的行人特征圖,在這些特征圖中提取側(cè)面差異和對稱相似度特征;利用這些特征建立決策森林,得到訓(xùn)練完成的快速提升決策森林;
步驟2:測試階段
利用車載攝像頭拍攝的照片作為測試數(shù)據(jù),使用hog+luv通道和sof算法對圖片進行處理后得到輸入通道圖片,使用滑動窗口方法在通道圖片中得到多尺寸的行人特征圖,并提取側(cè)面差異和對稱相似度特征;將這些特征輸入到在訓(xùn)練階段中訓(xùn)練完成的快速提升決策森林中,以此決定特征是否為行人,并在圖片中行人的對應(yīng)位置上標上方框,測試階段結(jié)束。
所述訓(xùn)練階段中,輸入數(shù)據(jù)為caltech行人測試數(shù)據(jù)庫,測試數(shù)據(jù)庫為一段一段的視頻,將這些視頻每3幀取1個樣幀,并且在注釋文件中取得對應(yīng)注釋信息;圖片大小為640*480像素。
所述測試階段中,輸入數(shù)據(jù)為車載攝像頭拍攝的圖片,將圖片大小調(diào)整為640*480像素。
所述使用hog+luv通道和sof算法對圖片進行處理是:對輸入圖片進行hog+luv通道處理,這10個通道包括6個hog(histogramoforientedgradients,梯度直方圖)通道,1個歸一化梯度大小通道,3個luv色彩通道,將10張?zhí)幚砗蟮膱D片形成初始通道圖片集合;并且使用sof(semanticopticalflow)算法處理輸入圖片,得到語義分割圖像,將該語義分割圖像也加入到初始通道圖片集合中。
所述得到多尺寸的行人特征圖是:設(shè)計相應(yīng)的5個低通濾波器和10個高通濾波器;使用2*2像素集合體和4個平滑濾波器獲得5個不同尺寸的通道,利用水平和垂直方向的高通濾波器在每個通道上進行處理得到不同大小的邊緣。
所述提取側(cè)面差異和對稱相似度特征是:規(guī)定碎片a初始大小2*2像素,從a開始提取水平對稱碎片a'以及a和a'之間的碎片b,步長為2像素,利用特征公式分別計算側(cè)面差異特征和對稱相似度特征;接著每次碎片長度和寬度增加1像素長度,重復(fù)上述步驟,直到碎片大小為12*12像素。
所述訓(xùn)練階段,將產(chǎn)生的特征輸入到?jīng)Q策森林中;該決策森林進行5輪的學(xué)習(xí),每一輪樹的數(shù)量為32,128,512,2048,最后到4096;每棵樹的建立過程中都會從龐大的特征中隨機取樣1/32的特征,初始化樣本權(quán)重,這些權(quán)重按照降序排序,并且對每個節(jié)點經(jīng)過貪心極大搜索;每一輪過后,都會加入5000個負例,累積的負例不超過20000個。最終建立完成的快速提升決策森林包含4096棵決策樹。
所述在測試階段,將產(chǎn)生的3種特征輸入到已經(jīng)訓(xùn)練完成的擁有4096棵樹的快速提升決策森林中,判斷特征是否屬于行人;將行人特征映射回到原圖上,在對應(yīng)的行人區(qū)域打上方框。
本發(fā)明有益效果
本發(fā)明解決了在圖像中檢測行人并標注行人的問題。該發(fā)明可用于車輛自動駕駛中,幫助車輛準確識別行人,具有運行速度快,識別準確率高的優(yōu)點,對小尺寸的行人、騎行者和遮擋等異常情況也能較好的處理。
附圖說明
圖1為本發(fā)明流程圖;
圖2為提取多尺度行人特征流程圖;
圖3為訓(xùn)練快速提升決策森林具體流程圖;
圖4為經(jīng)過sof算法處理的效果圖;
圖5為在提取側(cè)面差異和對稱相似度特征碎片取樣的效果圖。
具體實施方式
結(jié)合以下具體實施例和附圖,對本發(fā)明作進一步的詳細說明。實施本發(fā)明的過程、條件、實驗方法等,除以下專門提及的內(nèi)容之外,均為本領(lǐng)域的普遍知識和公知常識,本發(fā)明沒有特別限制內(nèi)容。
參閱圖1,本發(fā)明包括:
步驟1:訓(xùn)練階段
使用hog+luv通道和sof算法處理caltech行人訓(xùn)練數(shù)據(jù)庫,得到初始通道圖片;在通道圖片中提取多尺寸行人特征,接著在這些特征圖中提取側(cè)面差異和對稱相似度特征;利用這些特征建立決策森林,得到快速提升決策森林,訓(xùn)練完成。
步驟2:測試階段
使用hog+luv通道和sof算法對車載攝像頭拍攝的照片進行處理后得到輸入通道圖片,使用滑動窗口方法在通道圖片中得到多尺寸的行人特征圖,并提取側(cè)面差異和對稱相似度特征;將這些特征輸入到已訓(xùn)練完成的快速提升決策森林中,以此判別特征是否為行人,并在原始圖片中行人的對應(yīng)位置上標上方框。
以下結(jié)合各子步驟,詳細闡述本發(fā)明的具體實施過程
訓(xùn)練階段
s11:在訓(xùn)練階段,輸入數(shù)據(jù)為caltech行人數(shù)據(jù)庫,每3幀取1個樣幀,并且取得相應(yīng)注釋。輸入圖片大小為640*480像素。
s12:將輸入圖片經(jīng)過10個hog+luv圖片通道的處理,這10個通道包括6個hog(histogramoforientedgradients,梯度直方圖)通道,1個歸一化梯度大小通道,3個luv色彩通道,將10張?zhí)幚砗蟮膱D片形成初始通道圖片集合。
s13:使用sof(semanticopticalflow)算法處理輸入圖片,得到語義分割的圖片,將該結(jié)果圖片也加入到初始通道圖片集合中。sof算法的過程為:1)預(yù)處理階段,使用deeplab算法將圖片預(yù)分割。網(wǎng)絡(luò)架構(gòu)使用vgg模型,使用隨機梯度下降和緊密連接條件隨機域?qū)δP瓦M行調(diào)整。接著對物體進行匹配并且利用discreteflow算法初始化光流。2)移動建模,對背景和獨立物體的移動進行分層建模。3)構(gòu)成流域,局部層會評估前景和背景像素的流值,最終確定光流域。4)優(yōu)化分割,利用流域重新優(yōu)化圖像的語義分割。
s14:采用滑動窗口方法來提取候選窗口,滑動窗口大小采用如下大?。核介L度為圖片寬度的1/16,垂直長度為圖片高度的1/16。通過將窗口中心固定在80至400行可以減少33%的搜索域,步長為4像素。為了提取5種尺寸的多尺寸行人特征,設(shè)計相應(yīng)的5個低通濾波器和10個高通濾波器。低通濾波器可以捕捉在不同尺寸行人中的特征,高通濾波器可以捕捉不同的結(jié)構(gòu)比如邊緣和中心。使用2*2像素集合體和4個平滑濾波器獲得5個不同尺寸的通道,利用水平和垂直方向的高通濾波器在每個通道上進行處理得到不同大小的邊緣。該過程如圖2所示。
s15:提取側(cè)面差異特征:假設(shè)碎片b可定位于a與a'之間,a'為a的水平對稱碎片。該特征計算形式如下
其中ab為取樣碎片,sa為碎片a的像素和,na為碎片a中的像素個數(shù)。
提取對稱相似度特征中,對稱相似度特征計算如下:
ssf(a,a')=|fa-fa'|
ssf為碎片a與a'的對稱相似度特征。f為最大值池化函數(shù),補丁a中包含三個隨機產(chǎn)生小塊a1,a2,a3并且面積都大于a的1/2,因此在l和v通道上
其他通道求的是最大值,公式如下所示
取樣碎片的距離可以不同,高度相同,兩者大小相同,但不可超過最大方框,方框大小為8*8細胞,一個細胞為2*2像素,縱橫比可以調(diào)整。規(guī)定碎片a初始大小1*1細胞,從a開始提取水平對稱碎片a'以及a和a'之間的碎片b,步長為2像素,利用上述特征公式分別計算側(cè)面差異特征和對稱相似度特征。接著每次碎片長度和寬度增加1細胞長度,重復(fù)上述步驟,直到碎片大小為6*6細胞。
s16:如圖3所示,將s14步驟和s15步驟中產(chǎn)生的3種特征輸入到快速提升決策森林中。該分類器進行5輪的學(xué)習(xí),每一輪樹的數(shù)量為32,128,512,2048,最后到4096。每棵樹的建立過程中都會從龐大的特征中隨機取樣1/32的特征,初始化樣本權(quán)重,這些權(quán)重按照降序排序,并且對每個節(jié)點經(jīng)過貪心極大搜索。每一輪過后,都會加入5000個負例,累積的負例不超過20000個。
在尋找最優(yōu)特征的訓(xùn)練過程中,1)在相對較小的m-分集合中測試每個特征,2)基于先前的錯誤值進行最好到最差的排序。3)對于每個特征,繼續(xù)在逐漸增大的樣本集合中訓(xùn)練,升級錯誤值。如果被證明是不正確的,立即修剪。若訓(xùn)練完成,將其保存為最佳狀態(tài)。4)輸出最佳特征和相應(yīng)的參數(shù)。
在提升階段,1)使用線性搜索決定優(yōu)化標量αt,2)對于給定的錯誤分類和提升時的具體變量來升級樣本權(quán)重。3)若需要更多的提升迭代次數(shù),降序排序樣本權(quán)重,增加迭代次數(shù)t,進行第2步。
測試階段
s21:在測試階段,輸入圖片為車輛前端放置攝像頭拍攝的圖片。輸入圖片大小為640*480像素。
s22:與s12和s13所述相同,將輸入圖片經(jīng)過10個hog+luv圖片通道的處理,形成初始通道圖片集合。使用sof算法處理輸入圖片,得到語義分割的圖片,將該結(jié)果圖片也加入到初始通道圖片集合中。
s23:與s14和s15所述相同,在初始通道圖片中提取多尺寸行人特征、側(cè)面差異特征和對稱相似度特征。
s24:將s23中產(chǎn)生的3種特征輸入到已經(jīng)訓(xùn)練完成的擁有4096棵樹的快速提升決策森林中,判斷特征是否屬于行人。將行人特征映射回到原圖上,在相應(yīng)的行人區(qū)域打上方框。
實施例
本實施例中,輸入圖片為車輛前端放置的攝像頭拍攝的圖片,大小為640*480像素,在內(nèi)存中的形式為640*480的二維矩陣,如下所示。
其中xmnm<=480n<=640表示一個特定位置上的像素。將該圖片分別使用hog+luv通道和sof算法進行處理,得到的初始通道圖片共有11張,大小都為640*480像素。其中,sof算法還需要輸入前一次的處理圖片進行光流的比對。圖為經(jīng)過sof算法處理得到的語義分割圖片。在圖4中,有兩個移動的行人,在背景中包括了山、天空和道路。
在提取多尺寸行人特征中,采用滑動窗口的方法,窗口大小為40*30像素,將窗口中心固定在80至400行,步長為4像素。先使用2*2像素的集合體對窗口中的像素依次進行處理,在使用4個低通濾波器依次進行處理。在各尺寸的通道上使用水平和垂直方向的2個高通濾波器進行處理,得到不同大小的邊緣信息。一共使用了15個濾波器,將每個通道分為2*2像素的塊,并且計算平均值。每張初始圖經(jīng)過多尺寸行人特征提取后變?yōu)?20*240像素的特征圖。
在提取側(cè)面差異特征和對稱相似度特征中,初始碎片大小為2*2像素,最終碎片大小為12*12。每次迭代碎片高度與寬度各增加2像素,步長為2像素。將碎片中心固定在40至200行之間。每一次迭代中,固定碎片a,產(chǎn)生相同大小、高度的碎片a',開始離開碎片a向右滑動。每到達一個新的位置,都計算給定的側(cè)面差異特征和對稱相似度特征。如圖5所示,最左邊的方框為碎片a,中間的方框為具有側(cè)面差異特征的碎片b,最右邊的方框為具有對稱相似度特征的碎片a'。將6種碎片大小的兩種特征分別都制作為二維矩陣形式。
將提取出來的二維矩陣輸入到已經(jīng)訓(xùn)練完成的擁有4096顆樹的快速提升決策森林中。比如輸入特征矩陣為320*240,輸出矩陣大小為320*2,代表320種特征是否為行人特征,0代表不是行人特征,1代表是行人特征。將這些是行人的特征映射回原圖上,在相應(yīng)的區(qū)域上打上方框,表示該區(qū)域有行人的存在。
本發(fā)明的保護內(nèi)容不局限于以上實施例。在不背離發(fā)明構(gòu)思的精神和范圍下,本領(lǐng)域技術(shù)人員能夠想到的變化和優(yōu)點都被包括在本發(fā)明中,并且以所附的權(quán)利要求書為保護范圍。