本發(fā)明屬于計算機視覺領(lǐng)域,具體涉及一種車輛/行人檢測方法及系統(tǒng)。
背景技術(shù):
計算機視覺技術(shù)的發(fā)展,對于智能交通系統(tǒng)起到了很大的幫助,其中車輛及行人檢測技術(shù),更是智能交通監(jiān)控系統(tǒng)的核心技術(shù)。在實際的應(yīng)用中,視頻及圖片是獲取車輛、行人身份信息的重要途徑。通常,視頻、圖片中包含有大量的車輛、行人信息,車輛及行人檢測技術(shù)就是這樣一種從大量信息中篩選出有效信息的計算機視覺技術(shù)。
車輛及行人檢測技術(shù),主要是為了幫助識別監(jiān)控視頻或圖片中的車輛和/或行人,并對其進行身份確認。一般來說,車輛及行人檢測技術(shù)是通過算法獲取車輛、行人的特征數(shù)據(jù),以此作為判斷根據(jù)。智能交通監(jiān)控系統(tǒng)對于所監(jiān)控場景的智能分析,如車輛軌跡、車輛行為、異常檢測等,很大程度上都需要依賴于車輛檢測技術(shù)的結(jié)果。因此,高效、魯棒的車輛檢測方法對于智能交通監(jiān)控系統(tǒng)具有重要的意義。
現(xiàn)有技術(shù)的車輛檢測方法,主要有兩種。具體的,如cn201610601274所公開的車輛識別方法及系統(tǒng),是按照車輛姿態(tài)將多個車輛圖像分為不同的類別,基于每個類別的車輛圖像特征分別訓(xùn)練不同類別的車輛姿態(tài)分類器,進而對待測車輛圖像進行識別。這種方法對車輛圖像姿態(tài)分類過多,需要進行大量的分類器訓(xùn)練,每一個分類訓(xùn)練器只能進行一種特征姿態(tài)的分類活動,其處理的過程過于復(fù)雜。除此之外,其還需要大量的車輛和行人數(shù)據(jù)作為分類基礎(chǔ)。又如cn201310020953所公開的車輛識別方法,其先對視頻圖片進行前景檢測,提取到車輛圖像的特征點后,將這些特征數(shù)據(jù)與預(yù)先紀錄的特征數(shù)據(jù)、顏色進行比對,以確定檢測車輛是否是目標(biāo)車輛。其需要預(yù)先錄入大量特定目標(biāo)的標(biāo)記數(shù)據(jù),對于多數(shù)不確定目標(biāo)的車輛和/或行人識別效果并不明顯。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)的以上缺陷或改進需求,本發(fā)明提供了一種車輛/行人檢測方法及系統(tǒng)。本發(fā)明提供的方法及系統(tǒng),只需要對一個識別器進行訓(xùn)練,只需要少量的訓(xùn)練數(shù)據(jù),就可以實現(xiàn)快速識別待測圖像中的車輛和行人。且該方法及系統(tǒng)不光可以對單一、具體的目標(biāo)進行識別,對多數(shù)不特定目標(biāo)的識別效果也很好。
為實現(xiàn)上述目的,按照本發(fā)明技術(shù)方案的一方面,提供了一種車輛/行人檢測方法,其特征在于,包括以下步驟:
s1提取訓(xùn)練圖像的深度卷積特征圖;
s2獲取訓(xùn)練圖像的目標(biāo)候選區(qū)域;
s3利用訓(xùn)練圖像的深度卷積特征圖,獲取訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征;
s4基于訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征,訓(xùn)練檢測器,得到車輛/行人候選區(qū)域分類模型;
s5利用車輛/行人候選區(qū)域分類模型檢測待檢測車輛/行人圖像獲得車輛和/或行人的類別和/或位置。
本發(fā)明技術(shù)方案提供的車輛、行人檢測方法中,檢測器的行為主要分為兩個部分,識別訓(xùn)練和檢測識別。具體來說,第一步,采用半監(jiān)督深度神經(jīng)網(wǎng)絡(luò)方法對檢測器進行訓(xùn)練,使其具備一定的自我學(xué)習(xí)和識別能力,從而獲得一個車輛、行人候選區(qū)域分類模型。第二步,采用上述車輛、行人候選區(qū)域分類模型對待測車輛、行人圖像進行識別,區(qū)分出其中車輛和/或行人的類別和/或位置信息,并作出相應(yīng)的信息報告。
本發(fā)明技術(shù)方案中,檢測器的識別訓(xùn)練,需要經(jīng)過多個步驟。車輛、行人圖像集中的訓(xùn)練圖像作為檢測器的訓(xùn)練基礎(chǔ),其并不能直接用于對檢測器進行訓(xùn)練,而是需要經(jīng)過一系列圖像處理過程,提取到每張訓(xùn)練圖像中的特征點,并進行計算處理后,才能對檢測器進行訓(xùn)練。具體來說,對于車輛、行人圖像集中的任意訓(xùn)練圖像,第一步需要提取其深度卷積特征圖,一般是采用卷積神經(jīng)網(wǎng)絡(luò)(cnn)完成上述工作。第二步,對于第一步中的圖像使用選擇性搜索算法提取圖像中的目標(biāo)候選區(qū)域,一般來說,這些候選區(qū)域中包含有車輛和/或行人的類別和/或位置信息。圖像經(jīng)過上述處理后,獲得一定數(shù)量的目標(biāo)區(qū)域,本發(fā)明技術(shù)方案中,目標(biāo)區(qū)域數(shù)量優(yōu)選為2000。第三步,利用第一步中獲得的卷積特征圖進行映射,將第二步中獲得的每個目標(biāo)區(qū)域進行池化,獲取每個目標(biāo)候選區(qū)域的roi(regionofintrest)池化特征,最終每個roi會輸出一定數(shù)量的固定尺寸特征圖。最后,對車輛、行人圖像集中的每張訓(xùn)練圖像進行上述處理,獲得每張圖像的數(shù)據(jù)信息,采用半監(jiān)督深度神經(jīng)網(wǎng)絡(luò)的方法,來對檢測器進行訓(xùn)練,以得到車輛/行人候選區(qū)域分類模型。
作為本發(fā)明的一個優(yōu)選技術(shù)方案,步驟s4具體包括:
s41標(biāo)記訓(xùn)練圖像的車輛/行人所在位置和/或類別,其中所述標(biāo)記包括包含位置信息和類別信息的全標(biāo)記以及僅包含類別信息的半標(biāo)記;
s42按照標(biāo)記對訓(xùn)練圖像的目標(biāo)候選區(qū)域進行自動標(biāo)定,獲得圖像標(biāo)簽和圖像目標(biāo)候選區(qū)域標(biāo)簽;
s43提取訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征,利用所述池化特征和標(biāo)簽對檢測器進行訓(xùn)練,得到車輛/行人候選區(qū)域分類模型,所述標(biāo)簽為圖像標(biāo)簽和/或圖像目標(biāo)候選區(qū)域標(biāo)簽。
本發(fā)明技術(shù)方案的車輛、行人檢測方法中,在檢測器實際進行檢測之前,需要經(jīng)過一定的訓(xùn)練,具體來說,就是通過學(xué)習(xí)已有的車輛、行人圖像集中的車輛、行人特征信息,使其具備識別多種車輛特征、多種行人特征的能力。車輛、行人圖像集中的訓(xùn)練圖像在用于訓(xùn)練檢測器之前,需要對其進行處理。首先,需要對訓(xùn)練圖像進行標(biāo)記,具體來說,是按照步驟s2獲取訓(xùn)練圖像的目標(biāo)候選區(qū)域后,對其中的目標(biāo)候選區(qū)域進行標(biāo)記,可以進行標(biāo)記的內(nèi)容包括車輛/行人目標(biāo)框左上角的橫坐標(biāo)和縱坐標(biāo)、目標(biāo)框的寬度和高度、目標(biāo)框里車輛及行人的類別。標(biāo)記的形式有全標(biāo)記和半標(biāo)記兩種形式,全標(biāo)記的標(biāo)記內(nèi)容包括車輛/行人目標(biāo)框左上角的橫坐標(biāo)和縱坐標(biāo)、目標(biāo)框的寬度和高度、目標(biāo)框里車輛及行人的類別;半標(biāo)記的標(biāo)記內(nèi)容僅包括目標(biāo)框里車輛及行人的類別。第二步,根據(jù)全標(biāo)記和半標(biāo)記的內(nèi)容,按照一定規(guī)則對訓(xùn)練圖像的圖像目標(biāo)候選區(qū)域進行自動標(biāo)定,圖像目標(biāo)候選區(qū)域經(jīng)過上述標(biāo)定后獲得該標(biāo)記區(qū)域的圖像標(biāo)簽和圖像候選目標(biāo)區(qū)域標(biāo)簽。其中,半標(biāo)記區(qū)域的圖像圖像候選目標(biāo)區(qū)域標(biāo)簽為缺省狀態(tài)。第三步,訓(xùn)練圖像的池化特征和圖像或者圖像目標(biāo)區(qū)域的標(biāo)簽,是對檢測器進行訓(xùn)練的基礎(chǔ),經(jīng)過多張圖像訓(xùn)練后形成一個車輛/行人候選區(qū)域分類模型。
作為本發(fā)明的一個優(yōu)選技術(shù)方案,步驟s43所述的訓(xùn)練具體包括:
s431對訓(xùn)練圖像的池化特征進行兩次全鏈接,將全鏈接結(jié)果分別通過兩條支路進行處理,其中,第一支路全鏈接到多維向量上,歸一化得到第一概率分布向量;第二支路經(jīng)過全局最大池化后全鏈接到多維向量上,歸一化得到第二概率分布向量;將所述第一概率分布向量和/或第二概率分布向量輸入所述檢測器完成檢測器的正向計算;所述多維向量的維度由車輛/行人的具體類別確定;
s432所述第一支路上利用圖像目標(biāo)候選區(qū)域標(biāo)簽計算訓(xùn)練圖像的損失和梯度,更新檢測參數(shù);所述第二支路利用圖像標(biāo)簽計算訓(xùn)練圖像的損失和梯度,更新檢測參數(shù);完成檢測器的反向計算。
檢測器的訓(xùn)練過程,包括正向訓(xùn)練和反向訓(xùn)練。在檢測器的正向訓(xùn)練過程中,訓(xùn)練圖像的池化特征需要經(jīng)過兩次全鏈接,得到的全鏈接結(jié)果分別通過兩條支路進行處理。在第一支路上,將該全鏈接結(jié)果直接全鏈接到一個多維向量上,進一步利用softmax計算得到第一支路的概率分布向量并錄入檢測器;在第二支路上,將該全鏈接結(jié)果進行全局最大池化后,進一步鏈接到一個多維向量上,最后經(jīng)softmax計算得到第二支路的概率分布向量并錄入檢測器。步驟s431中所述多維向量的維度與圖像標(biāo)簽的維度一致。標(biāo)記過程中,全標(biāo)記和半標(biāo)記都需要標(biāo)記車輛/行人的類別,對于一個具有確定的車輛/行人類別的應(yīng)用場景來說,其圖像標(biāo)簽的維度和圖像候選目標(biāo)區(qū)域標(biāo)簽的維度是確定的。正向傳播完成后,對每幅圖像進行反向傳播計算。第一支路上,對具有圖像候選目標(biāo)區(qū)域標(biāo)簽信息的全標(biāo)記區(qū)域,使用softmax損失函數(shù)計算,進行歸一化處理,得到損失和梯度,并用隨機梯度下降(sgd)的訓(xùn)練方法更新參數(shù);對圖像候選目標(biāo)區(qū)域標(biāo)簽信息缺省的半標(biāo)記區(qū)域,不進行反向計算。第二支路上,對全標(biāo)記圖像和半標(biāo)記圖像,都利用其圖像標(biāo)簽,使用多類別交叉熵損失函數(shù)計算圖像標(biāo)簽的損失和梯度和softmax輸出層的損失和梯度,并用隨機梯度下降(sgd)的訓(xùn)練方法更新參數(shù)。
作為本發(fā)明的一個優(yōu)選技術(shù)方案,步驟s3具體包括,
s31將訓(xùn)練圖像的目標(biāo)候選區(qū)域信息映射到訓(xùn)練圖像的深度卷積特征圖,得到訓(xùn)練圖像的目標(biāo)區(qū)域特征圖;
s32根據(jù)訓(xùn)練圖像的目標(biāo)區(qū)域特征圖,對候選區(qū)域進行最大池化,即可獲得目標(biāo)候選區(qū)域的池化特征。
本發(fā)明技術(shù)方案中,獲取目標(biāo)候選區(qū)域的池化特征分兩步進行。首先,根據(jù)步驟s2提取得到車輛、行人圖像的候選區(qū)域信息后,將每個候選區(qū)域映射到步驟s1中提取的圖像特征圖中,經(jīng)過數(shù)據(jù)處理可以得到一定數(shù)量的不定尺寸roi特征圖。。然后,根據(jù)上述roi區(qū)域的深度卷積特征,進行roi最大池化,輸出一定數(shù)量的固定尺寸特征圖。第二步,根據(jù)上述步驟獲得的roi區(qū)域的深度卷積特征,進行roi最大池化。roi池化層使用最大池化將任何尺寸的roi特征轉(zhuǎn)換成具有固定尺寸的特征圖,該固定尺寸獨立于任何特定尺寸的roi區(qū)域。roi最大池化通過將roi窗口劃分為若干個子窗口網(wǎng)格,然后將每個子窗口中取最大值輸出到到對應(yīng)的網(wǎng)格單元。
作為本發(fā)明的一個優(yōu)選技術(shù)方案,步驟s5具體包括,
s51提取待測車輛和/或行人圖像的深度卷積特征圖;
s52獲取待測車輛和/或行人圖像中的目標(biāo)候選區(qū)域;
s53分別獲取待測車輛和/或行人圖像的每個目標(biāo)候選區(qū)域的池化特征;
s54利用車輛/行人候選區(qū)域分類模型對待測車輛和/或行人圖像的池化特征進行識別分類,以獲得車輛/行人的類別和/或位置信息。
對于待測圖像,在檢測器對其進行檢測之前,需要經(jīng)過與訓(xùn)練圖像類似的處理過程。將經(jīng)過上述處理得到的圖像特征信息輸入檢測器,檢測器利用訓(xùn)練所得的車輛/行人候選區(qū)域分類模型對于待檢信息進行識別。如果待測區(qū)域中有車輛和/或行人,則輸出該車輛和/或行人的類別和/或位置信息。
按照本發(fā)明技術(shù)方案的另一方面,提供一種車輛、行人檢測系統(tǒng),其特征在于,包括,
卷積模塊,用于提取訓(xùn)練圖像的深度卷積特征圖;
區(qū)域選擇模塊,用于獲取訓(xùn)練圖像的目標(biāo)候選區(qū)域;
池化模塊,用于利用訓(xùn)練圖像的深度卷積特征圖,獲取訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征;
訓(xùn)練模塊,用于基于訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征,訓(xùn)練檢測器,以得到車輛/行人候選區(qū)域分類模型;
檢測模塊,用于利用車輛/行人候選區(qū)域分類模型檢測待檢測車輛/行人圖像獲得車輛和/或行人的類別和/或位置。
作為本發(fā)明的一個優(yōu)選技術(shù)方案,訓(xùn)練模塊包括下列單元,
標(biāo)記單元,用于標(biāo)記訓(xùn)練圖像的車輛/行人所在位置和/或類別,其中所述標(biāo)記包括包含位置信息和類別信息的全標(biāo)記以及僅包含類別信息的半標(biāo)記;
標(biāo)定單元,用于按照所述標(biāo)記對訓(xùn)練圖像的目標(biāo)候選區(qū)域進行自動標(biāo)定,以獲得圖像標(biāo)簽和圖像目標(biāo)候選區(qū)域標(biāo)簽;
訓(xùn)練單元,用于提取訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征,利用所述池化特征與所述圖像標(biāo)簽和/或所述圖像目標(biāo)候選區(qū)域?qū)z測器進行訓(xùn)練,以得到車輛/行人候選區(qū)域分類模型。
作為本發(fā)明的一個優(yōu)選技術(shù)方案,訓(xùn)練單元包括下列單元,
正向訓(xùn)練單元,用于對訓(xùn)練圖像的池化特征進行兩次全鏈接,將全鏈接結(jié)果分別通過兩條支路進行處理,其中,第一支路全鏈接到多維向量上,歸一化得到第一概率分布向量;第二支路經(jīng)過全局最大池化后全鏈接到多維向量上,歸一化得到第二概率分布向量;再將所述第一概率分布向量和/或第二概率分布向量輸入所述檢測器,完成檢測器的正向訓(xùn)練,其中所述多維向量的維度由車輛/行人類別確定;
反向訓(xùn)練單元,用于在所述第一支路上利用圖像目標(biāo)候選區(qū)域標(biāo)簽計算訓(xùn)練圖像的損失和梯度,更新檢測器的檢測參數(shù);同時用于在所述第二支路利用圖像標(biāo)簽計算訓(xùn)練圖像的損失和梯度,更新檢測器的檢測參數(shù),以此完成檢測器的反向訓(xùn)練。
作為本發(fā)明的一個優(yōu)選技術(shù)方案,池化模塊包括下列單元,
映射單元,用于將訓(xùn)練圖像的目標(biāo)候選區(qū)域信息映射到訓(xùn)練圖像的深度卷積特征圖,以得到訓(xùn)練圖像的目標(biāo)區(qū)域特征圖;
池化單元,用于根據(jù)訓(xùn)練圖像的目標(biāo)區(qū)域特征圖,對候選區(qū)域進行最大池化,以獲得目標(biāo)候選區(qū)域的池化特征。
作為本發(fā)明的一個優(yōu)選技術(shù)方案,檢測模塊包括下列單元,
卷積單元,用于提取待測車輛和/或行人圖像的深度卷積特征圖;
選擇單元,用于獲取待測車輛和/或行人圖像中的目標(biāo)候選區(qū)域;
池化單元,用于分別獲取待測車輛和/或行人圖像的每個目標(biāo)候選區(qū)域的池化特征;
訓(xùn)練單元,用于利用車輛/行人候選區(qū)域分類模型對待測車輛和/或行人圖像的池化特征進行識別分類,即可獲得車輛/行人的類別和/或位置信息。
總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下有益效果:
1)本發(fā)明技術(shù)方案的車輛、行人檢測方法,采用對訓(xùn)練圖像中的車輛/行人一并進行分類標(biāo)記,訓(xùn)練時并不對車輛或者行人作出單一識別,而是對其進行無差別的逐一識別的方法,因此只需要對一個檢測器進行訓(xùn)練,所得車輛/行人候選區(qū)域分類模型即可用于識別多種類別的車輛和行人。
2)本發(fā)明技術(shù)方案的車輛、行人檢測方法,在訓(xùn)練過程中,只需要對30%的圖像進行全標(biāo)記,即涵蓋了圖像中的車輛/行人類別和/或位置信息。相較于現(xiàn)有技術(shù)的標(biāo)記方法,大大減少了訓(xùn)練檢測器所需要的車輛和行人數(shù)據(jù)量。
3)本發(fā)明技術(shù)方案的車輛、行人檢測系統(tǒng),對于訓(xùn)練圖像的車輛/行人類別信息沒有具體的要求,經(jīng)過訓(xùn)練的檢測器既可以識別一般不特定對象信息,也可以識別特定目標(biāo)的信息,相較于現(xiàn)有技術(shù)可以識別多數(shù)不確定目標(biāo)的車輛和/或行人信息。
附圖說明
圖1是本發(fā)明一個實施例的檢測方法的流程圖;
圖2是圖1的方法中步驟s4的流程圖;
圖3是本發(fā)明一個實施例的檢測系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。下面結(jié)合具體實施方式對本發(fā)明進一步詳細說明。
本發(fā)明的基于半監(jiān)督深度神經(jīng)網(wǎng)絡(luò)的車輛及行人檢測方法,對圖像中的車輛及行人進行檢測和類別識別,并輸出車輛及行人的坐標(biāo)位置和類別型號。
圖1是本發(fā)明一個實施例的檢測方法的流程圖。如圖1所示,本發(fā)明的一個實施例的車輛/行人檢測方法,包括下述步驟:
s1獲取車輛及行人圖像集中圖像的深度卷積特征圖。
本實施例中,其具體步驟為:對車輛及行人圖像集中的每張圖像,使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)獲取該圖像的深度卷積特征。具體地,在開源caffe框架上,利用已用imagenet數(shù)據(jù)預(yù)訓(xùn)練好的模型caffenet計算圖像的深度特征。首先,將寬度w和高度h的圖像,調(diào)整大小為s=min(w,h)的正方形;然后取caffenet的前五層卷積層參數(shù),對每張調(diào)整大小后的正方形圖像進行卷積、relu、池化等逐層計算,得到256張深度卷積特征圖。
s2獲取車輛及行人圖像集中圖像的車輛及行人目標(biāo)候選區(qū)域(proposal)。
本實施例中,其具體步驟為:對車輛及行人圖像集中的每張圖像,使用selectivesearch(選擇性搜索)算法提取圖像中的目標(biāo)候選區(qū)域。具體地,使用該算法提取到若干個可能包含車輛及行人目標(biāo)的矩形框,每個矩形框用(x,y,w,h)的形式來表示,其中x和y分別代表矩形框左上角點的橫坐標(biāo)和縱坐標(biāo),w和h分別代表矩形框的寬度和高度。使用selectivesearch算法給每張圖提取到k個目標(biāo)候選區(qū)域,其中,k為該圖像目標(biāo)區(qū)域,本實施例在優(yōu)選大小約為2000。
s3獲取每張圖像中每個目標(biāo)候選區(qū)域的roi(regionofintrest)池化特征。
本實施例中其具體步驟包括:
s31對于車輛及行人圖像集中的圖像,根據(jù)步驟s2中的提取到該圖像的所有候選區(qū)域信息。對每個候選區(qū)域信息進行映射,映射到步驟s1中提取到圖像特征圖,得到圖像特征圖roi位置。具體地,roi是一個卷積特征圖內(nèi)的一個矩形窗口。每個roi由指定其左上角坐標(biāo)(xr,yr)及其高度和寬度(hr,wr)的四元組(xr,yr,hr,wr)定義。
對于某圖像的候選區(qū)域信息為[(x1,y1,w1,h1),(x2,y2,w2,h2)...(xk,yk,wk,hk)],某候選區(qū)域框的坐標(biāo)(x,y,w,h),變換到圖像特征圖roi的坐標(biāo)(xr,yr,hr,wr)為
s32根據(jù)步驟s31中獲取的roi區(qū)域的深度卷積特征,進行roi最大池化。roi池化層使用最大池化(maxpooling)將任何尺寸的roi特征轉(zhuǎn)換成具有固定尺寸h×w(例如,7×7)的小特征圖,其中h和w是輸出特征圖的高度和寬度,獨立于任何特定尺寸的roi。roi最大池化通過將hr×wr的roi窗口劃分為大約hr/h×wr/w的子窗口的h×w網(wǎng)格,然后將每個子窗口中取最大值輸出到到對應(yīng)的網(wǎng)格單元。因此,每個roi最終輸出為256張尺寸為h*w的固定尺寸特征圖。
s4利用半監(jiān)督深度神經(jīng)網(wǎng)絡(luò)方法,訓(xùn)練車輛及行人候選區(qū)域分類模型。圖2為步驟s4的流程圖。本實施例中其具體包括以下步驟:
s41取訓(xùn)練圖像集中每張圖像的所有車輛及行人所在位置和類別。具體地,在訓(xùn)練圖像集中通過人工標(biāo)注的方法對部分訓(xùn)練圖像的車輛及行人目標(biāo)進行全標(biāo)記,畫取包圍矩形框,并記錄包含車輛及行人目標(biāo)矩形框的坐標(biāo)信息和標(biāo)記車輛及行人目標(biāo)的類別,記錄為(x,y,w,h,c),其中x和y是車輛及行人目標(biāo)框左上角的橫坐標(biāo)和縱坐標(biāo),w和h是目標(biāo)框的寬度和高度,c是目標(biāo)框里車輛及行人的類別,對于用c類車輛及行人類別的應(yīng)用場景,c∈{1,2,3……c}。若某圖像中有j個車輛及行人,則該圖像的標(biāo)記信息為[(x1,y1,w1,h1),(x2,y2,w2,h2)...(xk,yk,wk,hk)]。此外,對剩下部分圖像進行半標(biāo)記,只標(biāo)記記錄車輛及行人目標(biāo)的類別,若圖像中有j個車輛及行人,則該圖像的標(biāo)記信息為[c1,c2,...cj]。具體地,在訓(xùn)練過程中,只對30%的圖像進行全標(biāo)記,即標(biāo)記了車輛及行人包圍框坐標(biāo)信息。
s42對訓(xùn)練圖像集中的圖像候選目標(biāo)區(qū)域進行自動標(biāo)定。本實施例中其具體步驟為:
s421對于全標(biāo)記的圖像,利用步驟2,獲得訓(xùn)練圖像集中圖像的目標(biāo)候選區(qū)信息,并根據(jù)候選區(qū)與車輛及行人目標(biāo)矩形框的重疊度,分別對圖像和圖像的候選區(qū)進行自動標(biāo)定。具體地,用以下規(guī)則進行自動標(biāo)定:
首先,對于圖像標(biāo)記信息[(x1,y1,w1,h1,c1),(x2,y2,w2,h2,c2),...(xj,yj,wj,hj,cj)],該圖像的標(biāo)簽為一個c+1維度的向量l∈r(c+1)×1,其中第0維表示圖像中是否存在背景,第i維表示圖像是否存在類別i,若存在則l[i]=1,否則l[i]=0。即,對于上述的標(biāo)記信息中的ck,k∈{1,...j},l(ck)=1,l(0)=1。
其次,計算圖像的候選區(qū)與標(biāo)記信息中的重疊度,重疊度的表示方法為iou(兩個區(qū)域交集面積與并集的比值)。若某候選區(qū)(xp,yp,wp,hp)與標(biāo)記信息中某車輛/行人區(qū)域(xk,yk,wk,hk,ck),k∈{1,2,...j}的iou大于0.5,則將該候選區(qū)標(biāo)記為
(xp,yp,wp,hp,lp),lp∈r(c+1)×1,
其中圖像某候選區(qū)的標(biāo)簽也為一個c+1維度的向量lp[i]=1ifi=ckelselp[i]=0。
s422對于半標(biāo)記的圖像,利用步驟4.1的標(biāo)記信息[c1,c2,...cj],則該圖像的標(biāo)簽為一個c+1維度的向量l∈r(c+1)×1,其中第0維表示圖像中是否存在背景,第i維表示圖像是否存在類別i,若存在則l[i]=1,否則l[i]=0。即,對于上述的標(biāo)記信息中的ck,k∈{1,...j},l(ck)=1,l(0)=1;在半標(biāo)記圖像中,圖像候選區(qū)的標(biāo)簽為缺省狀態(tài)。
s43對于每個roi區(qū)域,按照如如圖的方式訓(xùn)練進行訓(xùn)練,并最終得到車輛及行人候選區(qū)域分類模型。本實施例中其具體包括:
s431具體地,每次訓(xùn)練過程中,進行一次正向的計算特征,對每張圖像,首先安州步驟3的方式提取roi池化特征,然后經(jīng)過兩次全鏈接以及relu非線性計算,這里的全鏈接計算均得到256個4096維的向量,令兩次全鏈接層的輸出為fc1和fc2。接著,分兩條支路進行,第一條計算roi的區(qū)域類別標(biāo)簽概率分布,首先對fc1全鏈接到一個c+1維的向量上,進一步softmax就算得到概率分布向量;第二條首先對fc2進行全局最大池化,得到1*4096的向量,進一步全鏈接到一個c+1維的向量上,進一步softmax計算得到概率分布向量。
s432在每次訓(xùn)練過程中,進行正向傳播后,對每幅圖像進行反向傳播計算,在s431中的第一條支路上,對缺省的半標(biāo)記圖像不進行反向計算,對全標(biāo)記的圖像利用roi區(qū)域標(biāo)簽lp,使用softmax損失計算損失和梯度,并用sgd(隨機梯度下降)的訓(xùn)練方法更新參數(shù);在s431中的第二條支路上,對半標(biāo)記或全標(biāo)記的圖像都利用圖像的標(biāo)簽l,使用多類別交叉熵損失函數(shù)計算l與其softmax輸出層的損失和梯度,并用sgd(隨機梯度下降)的訓(xùn)練方法更新參數(shù)。
s5利用車輛及行人候選區(qū)域分類模型檢測待檢測車輛及行人圖像中的車輛及行人類別和位置,本實施例中其具體步驟為:
s51按照步驟s1對待檢測車輛及行人圖像提取深度卷積特征圖。
s52按照步驟s2中selectivesearch算法給待檢測車輛及行人圖像提取車輛及行人目標(biāo)候選區(qū)域,并利用s3中的roi映射和roi池化,將深度卷積特征圖上的roi特征表示為一組固定尺寸的特征。
s53按照步驟s4中學(xué)習(xí)到的車輛及行人候選區(qū)域分類器對s52中的roi特征進行識別分類,并判斷是否為車輛及行人以及判斷車輛及行人的類別,作為輸出識別結(jié)果。
s54利用s53中的輸出識別結(jié)果,來確定候選區(qū)域是否為要檢測的目標(biāo)。若是,則輸出該候選區(qū)的坐標(biāo)信息,以及識別的車輛及行人類別。
本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。