一種車輛/行人檢測方法及系統(tǒng)與流程

文檔序號：11387176閱讀：224來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于計算機視覺領(lǐng)域，具體涉及一種車輛/行人檢測方法及系統(tǒng)。

背景技術(shù)：

計算機視覺技術(shù)的發(fā)展，對于智能交通系統(tǒng)起到了很大的幫助，其中車輛及行人檢測技術(shù)，更是智能交通監(jiān)控系統(tǒng)的核心技術(shù)。在實際的應(yīng)用中，視頻及圖片是獲取車輛、行人身份信息的重要途徑。通常，視頻、圖片中包含有大量的車輛、行人信息，車輛及行人檢測技術(shù)就是這樣一種從大量信息中篩選出有效信息的計算機視覺技術(shù)。

車輛及行人檢測技術(shù)，主要是為了幫助識別監(jiān)控視頻或圖片中的車輛和/或行人，并對其進行身份確認。一般來說，車輛及行人檢測技術(shù)是通過算法獲取車輛、行人的特征數(shù)據(jù)，以此作為判斷根據(jù)。智能交通監(jiān)控系統(tǒng)對于所監(jiān)控場景的智能分析，如車輛軌跡、車輛行為、異常檢測等，很大程度上都需要依賴于車輛檢測技術(shù)的結(jié)果。因此，高效、魯棒的車輛檢測方法對于智能交通監(jiān)控系統(tǒng)具有重要的意義。

現(xiàn)有技術(shù)的車輛檢測方法，主要有兩種。具體的，如cn201610601274所公開的車輛識別方法及系統(tǒng)，是按照車輛姿態(tài)將多個車輛圖像分為不同的類別，基于每個類別的車輛圖像特征分別訓(xùn)練不同類別的車輛姿態(tài)分類器，進而對待測車輛圖像進行識別。這種方法對車輛圖像姿態(tài)分類過多，需要進行大量的分類器訓(xùn)練，每一個分類訓(xùn)練器只能進行一種特征姿態(tài)的分類活動，其處理的過程過于復(fù)雜。除此之外，其還需要大量的車輛和行人數(shù)據(jù)作為分類基礎(chǔ)。又如cn201310020953所公開的車輛識別方法，其先對視頻圖片進行前景檢測，提取到車輛圖像的特征點后，將這些特征數(shù)據(jù)與預(yù)先紀錄的特征數(shù)據(jù)、顏色進行比對，以確定檢測車輛是否是目標(biāo)車輛。其需要預(yù)先錄入大量特定目標(biāo)的標(biāo)記數(shù)據(jù)，對于多數(shù)不確定目標(biāo)的車輛和/或行人識別效果并不明顯。

技術(shù)實現(xiàn)要素：

針對現(xiàn)有技術(shù)的以上缺陷或改進需求，本發(fā)明提供了一種車輛/行人檢測方法及系統(tǒng)。本發(fā)明提供的方法及系統(tǒng)，只需要對一個識別器進行訓(xùn)練，只需要少量的訓(xùn)練數(shù)據(jù)，就可以實現(xiàn)快速識別待測圖像中的車輛和行人。且該方法及系統(tǒng)不光可以對單一、具體的目標(biāo)進行識別，對多數(shù)不特定目標(biāo)的識別效果也很好。

為實現(xiàn)上述目的，按照本發(fā)明技術(shù)方案的一方面，提供了一種車輛/行人檢測方法，其特征在于，包括以下步驟：

s1提取訓(xùn)練圖像的深度卷積特征圖；

s2獲取訓(xùn)練圖像的目標(biāo)候選區(qū)域；

s3利用訓(xùn)練圖像的深度卷積特征圖，獲取訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征；

s4基于訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征，訓(xùn)練檢測器，得到車輛/行人候選區(qū)域分類模型；

s5利用車輛/行人候選區(qū)域分類模型檢測待檢測車輛/行人圖像獲得車輛和/或行人的類別和/或位置。

本發(fā)明技術(shù)方案提供的車輛、行人檢測方法中，檢測器的行為主要分為兩個部分，識別訓(xùn)練和檢測識別。具體來說，第一步，采用半監(jiān)督深度神經(jīng)網(wǎng)絡(luò)方法對檢測器進行訓(xùn)練，使其具備一定的自我學(xué)習(xí)和識別能力，從而獲得一個車輛、行人候選區(qū)域分類模型。第二步，采用上述車輛、行人候選區(qū)域分類模型對待測車輛、行人圖像進行識別，區(qū)分出其中車輛和/或行人的類別和/或位置信息，并作出相應(yīng)的信息報告。

本發(fā)明技術(shù)方案中，檢測器的識別訓(xùn)練，需要經(jīng)過多個步驟。車輛、行人圖像集中的訓(xùn)練圖像作為檢測器的訓(xùn)練基礎(chǔ)，其并不能直接用于對檢測器進行訓(xùn)練，而是需要經(jīng)過一系列圖像處理過程，提取到每張訓(xùn)練圖像中的特征點，并進行計算處理后，才能對檢測器進行訓(xùn)練。具體來說，對于車輛、行人圖像集中的任意訓(xùn)練圖像，第一步需要提取其深度卷積特征圖，一般是采用卷積神經(jīng)網(wǎng)絡(luò)(cnn)完成上述工作。第二步，對于第一步中的圖像使用選擇性搜索算法提取圖像中的目標(biāo)候選區(qū)域，一般來說，這些候選區(qū)域中包含有車輛和/或行人的類別和/或位置信息。圖像經(jīng)過上述處理后，獲得一定數(shù)量的目標(biāo)區(qū)域，本發(fā)明技術(shù)方案中，目標(biāo)區(qū)域數(shù)量優(yōu)選為2000。第三步，利用第一步中獲得的卷積特征圖進行映射，將第二步中獲得的每個目標(biāo)區(qū)域進行池化，獲取每個目標(biāo)候選區(qū)域的roi(regionofintrest)池化特征，最終每個roi會輸出一定數(shù)量的固定尺寸特征圖。最后，對車輛、行人圖像集中的每張訓(xùn)練圖像進行上述處理，獲得每張圖像的數(shù)據(jù)信息，采用半監(jiān)督深度神經(jīng)網(wǎng)絡(luò)的方法，來對檢測器進行訓(xùn)練，以得到車輛/行人候選區(qū)域分類模型。

作為本發(fā)明的一個優(yōu)選技術(shù)方案，步驟s4具體包括：

s41標(biāo)記訓(xùn)練圖像的車輛/行人所在位置和/或類別，其中所述標(biāo)記包括包含位置信息和類別信息的全標(biāo)記以及僅包含類別信息的半標(biāo)記；

s42按照標(biāo)記對訓(xùn)練圖像的目標(biāo)候選區(qū)域進行自動標(biāo)定，獲得圖像標(biāo)簽和圖像目標(biāo)候選區(qū)域標(biāo)簽；

s43提取訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征，利用所述池化特征和標(biāo)簽對檢測器進行訓(xùn)練，得到車輛/行人候選區(qū)域分類模型，所述標(biāo)簽為圖像標(biāo)簽和/或圖像目標(biāo)候選區(qū)域標(biāo)簽。

本發(fā)明技術(shù)方案的車輛、行人檢測方法中，在檢測器實際進行檢測之前，需要經(jīng)過一定的訓(xùn)練，具體來說，就是通過學(xué)習(xí)已有的車輛、行人圖像集中的車輛、行人特征信息，使其具備識別多種車輛特征、多種行人特征的能力。車輛、行人圖像集中的訓(xùn)練圖像在用于訓(xùn)練檢測器之前，需要對其進行處理。首先，需要對訓(xùn)練圖像進行標(biāo)記，具體來說，是按照步驟s2獲取訓(xùn)練圖像的目標(biāo)候選區(qū)域后，對其中的目標(biāo)候選區(qū)域進行標(biāo)記，可以進行標(biāo)記的內(nèi)容包括車輛/行人目標(biāo)框左上角的橫坐標(biāo)和縱坐標(biāo)、目標(biāo)框的寬度和高度、目標(biāo)框里車輛及行人的類別。標(biāo)記的形式有全標(biāo)記和半標(biāo)記兩種形式，全標(biāo)記的標(biāo)記內(nèi)容包括車輛/行人目標(biāo)框左上角的橫坐標(biāo)和縱坐標(biāo)、目標(biāo)框的寬度和高度、目標(biāo)框里車輛及行人的類別；半標(biāo)記的標(biāo)記內(nèi)容僅包括目標(biāo)框里車輛及行人的類別。第二步，根據(jù)全標(biāo)記和半標(biāo)記的內(nèi)容，按照一定規(guī)則對訓(xùn)練圖像的圖像目標(biāo)候選區(qū)域進行自動標(biāo)定，圖像目標(biāo)候選區(qū)域經(jīng)過上述標(biāo)定后獲得該標(biāo)記區(qū)域的圖像標(biāo)簽和圖像候選目標(biāo)區(qū)域標(biāo)簽。其中，半標(biāo)記區(qū)域的圖像圖像候選目標(biāo)區(qū)域標(biāo)簽為缺省狀態(tài)。第三步，訓(xùn)練圖像的池化特征和圖像或者圖像目標(biāo)區(qū)域的標(biāo)簽，是對檢測器進行訓(xùn)練的基礎(chǔ)，經(jīng)過多張圖像訓(xùn)練后形成一個車輛/行人候選區(qū)域分類模型。

作為本發(fā)明的一個優(yōu)選技術(shù)方案，步驟s43所述的訓(xùn)練具體包括：

s431對訓(xùn)練圖像的池化特征進行兩次全鏈接，將全鏈接結(jié)果分別通過兩條支路進行處理，其中，第一支路全鏈接到多維向量上，歸一化得到第一概率分布向量；第二支路經(jīng)過全局最大池化后全鏈接到多維向量上，歸一化得到第二概率分布向量；將所述第一概率分布向量和/或第二概率分布向量輸入所述檢測器完成檢測器的正向計算；所述多維向量的維度由車輛/行人的具體類別確定；

s432所述第一支路上利用圖像目標(biāo)候選區(qū)域標(biāo)簽計算訓(xùn)練圖像的損失和梯度，更新檢測參數(shù)；所述第二支路利用圖像標(biāo)簽計算訓(xùn)練圖像的損失和梯度，更新檢測參數(shù)；完成檢測器的反向計算。

檢測器的訓(xùn)練過程，包括正向訓(xùn)練和反向訓(xùn)練。在檢測器的正向訓(xùn)練過程中，訓(xùn)練圖像的池化特征需要經(jīng)過兩次全鏈接，得到的全鏈接結(jié)果分別通過兩條支路進行處理。在第一支路上，將該全鏈接結(jié)果直接全鏈接到一個多維向量上，進一步利用softmax計算得到第一支路的概率分布向量并錄入檢測器；在第二支路上，將該全鏈接結(jié)果進行全局最大池化后，進一步鏈接到一個多維向量上，最后經(jīng)softmax計算得到第二支路的概率分布向量并錄入檢測器。步驟s431中所述多維向量的維度與圖像標(biāo)簽的維度一致。標(biāo)記過程中，全標(biāo)記和半標(biāo)記都需要標(biāo)記車輛/行人的類別，對于一個具有確定的車輛/行人類別的應(yīng)用場景來說，其圖像標(biāo)簽的維度和圖像候選目標(biāo)區(qū)域標(biāo)簽的維度是確定的。正向傳播完成后，對每幅圖像進行反向傳播計算。第一支路上，對具有圖像候選目標(biāo)區(qū)域標(biāo)簽信息的全標(biāo)記區(qū)域，使用softmax損失函數(shù)計算，進行歸一化處理，得到損失和梯度，并用隨機梯度下降(sgd)的訓(xùn)練方法更新參數(shù)；對圖像候選目標(biāo)區(qū)域標(biāo)簽信息缺省的半標(biāo)記區(qū)域，不進行反向計算。第二支路上，對全標(biāo)記圖像和半標(biāo)記圖像，都利用其圖像標(biāo)簽，使用多類別交叉熵損失函數(shù)計算圖像標(biāo)簽的損失和梯度和softmax輸出層的損失和梯度，并用隨機梯度下降(sgd)的訓(xùn)練方法更新參數(shù)。

作為本發(fā)明的一個優(yōu)選技術(shù)方案，步驟s3具體包括，

s31將訓(xùn)練圖像的目標(biāo)候選區(qū)域信息映射到訓(xùn)練圖像的深度卷積特征圖，得到訓(xùn)練圖像的目標(biāo)區(qū)域特征圖；

s32根據(jù)訓(xùn)練圖像的目標(biāo)區(qū)域特征圖，對候選區(qū)域進行最大池化，即可獲得目標(biāo)候選區(qū)域的池化特征。

本發(fā)明技術(shù)方案中，獲取目標(biāo)候選區(qū)域的池化特征分兩步進行。首先，根據(jù)步驟s2提取得到車輛、行人圖像的候選區(qū)域信息后，將每個候選區(qū)域映射到步驟s1中提取的圖像特征圖中，經(jīng)過數(shù)據(jù)處理可以得到一定數(shù)量的不定尺寸roi特征圖。。然后，根據(jù)上述roi區(qū)域的深度卷積特征，進行roi最大池化，輸出一定數(shù)量的固定尺寸特征圖。第二步，根據(jù)上述步驟獲得的roi區(qū)域的深度卷積特征，進行roi最大池化。roi池化層使用最大池化將任何尺寸的roi特征轉(zhuǎn)換成具有固定尺寸的特征圖，該固定尺寸獨立于任何特定尺寸的roi區(qū)域。roi最大池化通過將roi窗口劃分為若干個子窗口網(wǎng)格，然后將每個子窗口中取最大值輸出到到對應(yīng)的網(wǎng)格單元。

作為本發(fā)明的一個優(yōu)選技術(shù)方案，步驟s5具體包括，

s51提取待測車輛和/或行人圖像的深度卷積特征圖；

s52獲取待測車輛和/或行人圖像中的目標(biāo)候選區(qū)域；

s53分別獲取待測車輛和/或行人圖像的每個目標(biāo)候選區(qū)域的池化特征；

s54利用車輛/行人候選區(qū)域分類模型對待測車輛和/或行人圖像的池化特征進行識別分類，以獲得車輛/行人的類別和/或位置信息。

對于待測圖像，在檢測器對其進行檢測之前，需要經(jīng)過與訓(xùn)練圖像類似的處理過程。將經(jīng)過上述處理得到的圖像特征信息輸入檢測器，檢測器利用訓(xùn)練所得的車輛/行人候選區(qū)域分類模型對于待檢信息進行識別。如果待測區(qū)域中有車輛和/或行人，則輸出該車輛和/或行人的類別和/或位置信息。

按照本發(fā)明技術(shù)方案的另一方面，提供一種車輛、行人檢測系統(tǒng)，其特征在于，包括，

卷積模塊，用于提取訓(xùn)練圖像的深度卷積特征圖；

區(qū)域選擇模塊，用于獲取訓(xùn)練圖像的目標(biāo)候選區(qū)域；

池化模塊，用于利用訓(xùn)練圖像的深度卷積特征圖，獲取訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征；

訓(xùn)練模塊，用于基于訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征，訓(xùn)練檢測器，以得到車輛/行人候選區(qū)域分類模型；

檢測模塊，用于利用車輛/行人候選區(qū)域分類模型檢測待檢測車輛/行人圖像獲得車輛和/或行人的類別和/或位置。

作為本發(fā)明的一個優(yōu)選技術(shù)方案，訓(xùn)練模塊包括下列單元，

標(biāo)記單元，用于標(biāo)記訓(xùn)練圖像的車輛/行人所在位置和/或類別，其中所述標(biāo)記包括包含位置信息和類別信息的全標(biāo)記以及僅包含類別信息的半標(biāo)記；

標(biāo)定單元，用于按照所述標(biāo)記對訓(xùn)練圖像的目標(biāo)候選區(qū)域進行自動標(biāo)定，以獲得圖像標(biāo)簽和圖像目標(biāo)候選區(qū)域標(biāo)簽；

訓(xùn)練單元，用于提取訓(xùn)練圖像的目標(biāo)候選區(qū)域的池化特征，利用所述池化特征與所述圖像標(biāo)簽和/或所述圖像目標(biāo)候選區(qū)域?qū)z測器進行訓(xùn)練，以得到車輛/行人候選區(qū)域分類模型。

作為本發(fā)明的一個優(yōu)選技術(shù)方案，訓(xùn)練單元包括下列單元，

正向訓(xùn)練單元，用于對訓(xùn)練圖像的池化特征進行兩次全鏈接，將全鏈接結(jié)果分別通過兩條支路進行處理，其中，第一支路全鏈接到多維向量上，歸一化得到第一概率分布向量；第二支路經(jīng)過全局最大池化后全鏈接到多維向量上，歸一化得到第二概率分布向量；再將所述第一概率分布向量和/或第二概率分布向量輸入所述檢測器，完成檢測器的正向訓(xùn)練，其中所述多維向量的維度由車輛/行人類別確定；

反向訓(xùn)練單元，用于在所述第一支路上利用圖像目標(biāo)候選區(qū)域標(biāo)簽計算訓(xùn)練圖像的損失和梯度，更新檢測器的檢測參數(shù)；同時用于在所述第二支路利用圖像標(biāo)簽計算訓(xùn)練圖像的損失和梯度，更新檢測器的檢測參數(shù)，以此完成檢測器的反向訓(xùn)練。

作為本發(fā)明的一個優(yōu)選技術(shù)方案，池化模塊包括下列單元，

映射單元，用于將訓(xùn)練圖像的目標(biāo)候選區(qū)域信息映射到訓(xùn)練圖像的深度卷積特征圖，以得到訓(xùn)練圖像的目標(biāo)區(qū)域特征圖；

池化單元，用于根據(jù)訓(xùn)練圖像的目標(biāo)區(qū)域特征圖，對候選區(qū)域進行最大池化，以獲得目標(biāo)候選區(qū)域的池化特征。

作為本發(fā)明的一個優(yōu)選技術(shù)方案，檢測模塊包括下列單元，

卷積單元，用于提取待測車輛和/或行人圖像的深度卷積特征圖；

選擇單元，用于獲取待測車輛和/或行人圖像中的目標(biāo)候選區(qū)域；

池化單元，用于分別獲取待測車輛和/或行人圖像的每個目標(biāo)候選區(qū)域的池化特征；

訓(xùn)練單元，用于利用車輛/行人候選區(qū)域分類模型對待測車輛和/或行人圖像的池化特征進行識別分類，即可獲得車輛/行人的類別和/或位置信息。

總體而言，通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比，具有以下有益效果：

1)本發(fā)明技術(shù)方案的車輛、行人檢測方法，采用對訓(xùn)練圖像中的車輛/行人一并進行分類標(biāo)記，訓(xùn)練時并不對車輛或者行人作出單一識別，而是對其進行無差別的逐一識別的方法，因此只需要對一個檢測器進行訓(xùn)練，所得車輛/行人候選區(qū)域分類模型即可用于識別多種類別的車輛和行人。

2)本發(fā)明技術(shù)方案的車輛、行人檢測方法，在訓(xùn)練過程中，只需要對30％的圖像進行全標(biāo)記，即涵蓋了圖像中的車輛/行人類別和/或位置信息。相較于現(xiàn)有技術(shù)的標(biāo)記方法，大大減少了訓(xùn)練檢測器所需要的車輛和行人數(shù)據(jù)量。

3)本發(fā)明技術(shù)方案的車輛、行人檢測系統(tǒng)，對于訓(xùn)練圖像的車輛/行人類別信息沒有具體的要求，經(jīng)過訓(xùn)練的檢測器既可以識別一般不特定對象信息，也可以識別特定目標(biāo)的信息，相較于現(xiàn)有技術(shù)可以識別多數(shù)不確定目標(biāo)的車輛和/或行人信息。

附圖說明

圖1是本發(fā)明一個實施例的檢測方法的流程圖；

圖2是圖1的方法中步驟s4的流程圖；

圖3是本發(fā)明一個實施例的檢測系統(tǒng)的結(jié)構(gòu)示意圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合附圖及實施例，對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。此外，下面所描述的本發(fā)明各個實施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。下面結(jié)合具體實施方式對本發(fā)明進一步詳細說明。

本發(fā)明的基于半監(jiān)督深度神經(jīng)網(wǎng)絡(luò)的車輛及行人檢測方法，對圖像中的車輛及行人進行檢測和類別識別，并輸出車輛及行人的坐標(biāo)位置和類別型號。

圖1是本發(fā)明一個實施例的檢測方法的流程圖。如圖1所示，本發(fā)明的一個實施例的車輛/行人檢測方法，包括下述步驟：

s1獲取車輛及行人圖像集中圖像的深度卷積特征圖。

本實施例中，其具體步驟為：對車輛及行人圖像集中的每張圖像，使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)獲取該圖像的深度卷積特征。具體地，在開源caffe框架上，利用已用imagenet數(shù)據(jù)預(yù)訓(xùn)練好的模型caffenet計算圖像的深度特征。首先，將寬度w和高度h的圖像，調(diào)整大小為s＝min(w,h)的正方形；然后取caffenet的前五層卷積層參數(shù)，對每張調(diào)整大小后的正方形圖像進行卷積、relu、池化等逐層計算，得到256張深度卷積特征圖。

s2獲取車輛及行人圖像集中圖像的車輛及行人目標(biāo)候選區(qū)域(proposal)。

本實施例中，其具體步驟為：對車輛及行人圖像集中的每張圖像，使用selectivesearch(選擇性搜索)算法提取圖像中的目標(biāo)候選區(qū)域。具體地，使用該算法提取到若干個可能包含車輛及行人目標(biāo)的矩形框，每個矩形框用(x,y,w,h)的形式來表示，其中x和y分別代表矩形框左上角點的橫坐標(biāo)和縱坐標(biāo)，w和h分別代表矩形框的寬度和高度。使用selectivesearch算法給每張圖提取到k個目標(biāo)候選區(qū)域，其中，k為該圖像目標(biāo)區(qū)域，本實施例在優(yōu)選大小約為2000。

s3獲取每張圖像中每個目標(biāo)候選區(qū)域的roi(regionofintrest)池化特征。

本實施例中其具體步驟包括：

s31對于車輛及行人圖像集中的圖像，根據(jù)步驟s2中的提取到該圖像的所有候選區(qū)域信息。對每個候選區(qū)域信息進行映射，映射到步驟s1中提取到圖像特征圖，得到圖像特征圖roi位置。具體地，roi是一個卷積特征圖內(nèi)的一個矩形窗口。每個roi由指定其左上角坐標(biāo)(xr，yr)及其高度和寬度(hr，wr)的四元組(xr，yr，hr，wr)定義。

對于某圖像的候選區(qū)域信息為[(x1,y1,w1,h1),(x2,y2,w2,h2)...(xk,yk,wk,hk)]，某候選區(qū)域框的坐標(biāo)(x，y，w，h),變換到圖像特征圖roi的坐標(biāo)(xr，yr，hr，wr)為其中，s為圖像深度卷積特征圖尺寸與圖像尺寸的比值。因此，對于任一候選區(qū)域得到256張不定尺寸的roi特征圖。

s32根據(jù)步驟s31中獲取的roi區(qū)域的深度卷積特征，進行roi最大池化。roi池化層使用最大池化(maxpooling)將任何尺寸的roi特征轉(zhuǎn)換成具有固定尺寸h×w(例如，7×7)的小特征圖，其中h和w是輸出特征圖的高度和寬度，獨立于任何特定尺寸的roi。roi最大池化通過將hr×wr的roi窗口劃分為大約hr/h×wr/w的子窗口的h×w網(wǎng)格，然后將每個子窗口中取最大值輸出到到對應(yīng)的網(wǎng)格單元。因此，每個roi最終輸出為256張尺寸為h*w的固定尺寸特征圖。

s4利用半監(jiān)督深度神經(jīng)網(wǎng)絡(luò)方法，訓(xùn)練車輛及行人候選區(qū)域分類模型。圖2為步驟s4的流程圖。本實施例中其具體包括以下步驟：

s41取訓(xùn)練圖像集中每張圖像的所有車輛及行人所在位置和類別。具體地，在訓(xùn)練圖像集中通過人工標(biāo)注的方法對部分訓(xùn)練圖像的車輛及行人目標(biāo)進行全標(biāo)記，畫取包圍矩形框，并記錄包含車輛及行人目標(biāo)矩形框的坐標(biāo)信息和標(biāo)記車輛及行人目標(biāo)的類別，記錄為(x,y,w,h,c)，其中x和y是車輛及行人目標(biāo)框左上角的橫坐標(biāo)和縱坐標(biāo)，w和h是目標(biāo)框的寬度和高度，c是目標(biāo)框里車輛及行人的類別，對于用c類車輛及行人類別的應(yīng)用場景，c∈{1,2,3……c}。若某圖像中有j個車輛及行人，則該圖像的標(biāo)記信息為[(x1,y1,w1,h1),(x2,y2,w2,h2)...(xk,yk,wk,hk)]。此外，對剩下部分圖像進行半標(biāo)記，只標(biāo)記記錄車輛及行人目標(biāo)的類別，若圖像中有j個車輛及行人，則該圖像的標(biāo)記信息為[c1,c2,...cj]。具體地，在訓(xùn)練過程中，只對30％的圖像進行全標(biāo)記，即標(biāo)記了車輛及行人包圍框坐標(biāo)信息。

s42對訓(xùn)練圖像集中的圖像候選目標(biāo)區(qū)域進行自動標(biāo)定。本實施例中其具體步驟為：

s421對于全標(biāo)記的圖像，利用步驟2，獲得訓(xùn)練圖像集中圖像的目標(biāo)候選區(qū)信息，并根據(jù)候選區(qū)與車輛及行人目標(biāo)矩形框的重疊度，分別對圖像和圖像的候選區(qū)進行自動標(biāo)定。具體地，用以下規(guī)則進行自動標(biāo)定：

首先，對于圖像標(biāo)記信息[(x1,y1,w1,h1,c1),(x2,y2,w2,h2,c2),...(xj,yj,wj,hj,cj)]，該圖像的標(biāo)簽為一個c+1維度的向量l∈r^(c+1)×1，其中第0維表示圖像中是否存在背景，第i維表示圖像是否存在類別i，若存在則l[i]＝1，否則l[i]＝0。即，對于上述的標(biāo)記信息中的ck,k∈{1,...j}，l(ck)＝1，l(0)＝1。

其次，計算圖像的候選區(qū)與標(biāo)記信息中的重疊度，重疊度的表示方法為iou(兩個區(qū)域交集面積與并集的比值)。若某候選區(qū)(xp,yp,wp,hp)與標(biāo)記信息中某車輛/行人區(qū)域(xk,yk,wk,hk,ck),k∈{1,2,...j}的iou大于0.5，則將該候選區(qū)標(biāo)記為

(xp,yp,wp,hp,lp),lp∈r^(c+1)×1，

其中圖像某候選區(qū)的標(biāo)簽也為一個c+1維度的向量lp[i]＝1ifi＝ckelselp[i]＝0。

s422對于半標(biāo)記的圖像，利用步驟4.1的標(biāo)記信息[c1,c2,...cj]，則該圖像的標(biāo)簽為一個c+1維度的向量l∈r^(c+1)×1，其中第0維表示圖像中是否存在背景，第i維表示圖像是否存在類別i，若存在則l[i]＝1，否則l[i]＝0。即，對于上述的標(biāo)記信息中的ck,k∈{1,...j}，l(ck)＝1，l(0)＝1；在半標(biāo)記圖像中，圖像候選區(qū)的標(biāo)簽為缺省狀態(tài)。

s43對于每個roi區(qū)域，按照如如圖的方式訓(xùn)練進行訓(xùn)練，并最終得到車輛及行人候選區(qū)域分類模型。本實施例中其具體包括：

s431具體地，每次訓(xùn)練過程中，進行一次正向的計算特征，對每張圖像，首先安州步驟3的方式提取roi池化特征，然后經(jīng)過兩次全鏈接以及relu非線性計算，這里的全鏈接計算均得到256個4096維的向量，令兩次全鏈接層的輸出為fc1和fc2。接著，分兩條支路進行，第一條計算roi的區(qū)域類別標(biāo)簽概率分布，首先對fc1全鏈接到一個c+1維的向量上，進一步softmax就算得到概率分布向量；第二條首先對fc2進行全局最大池化，得到1*4096的向量，進一步全鏈接到一個c+1維的向量上，進一步softmax計算得到概率分布向量。

s432在每次訓(xùn)練過程中，進行正向傳播后，對每幅圖像進行反向傳播計算，在s431中的第一條支路上，對缺省的半標(biāo)記圖像不進行反向計算，對全標(biāo)記的圖像利用roi區(qū)域標(biāo)簽lp，使用softmax損失計算損失和梯度，并用sgd(隨機梯度下降)的訓(xùn)練方法更新參數(shù)；在s431中的第二條支路上，對半標(biāo)記或全標(biāo)記的圖像都利用圖像的標(biāo)簽l，使用多類別交叉熵損失函數(shù)計算l與其softmax輸出層的損失和梯度，并用sgd(隨機梯度下降)的訓(xùn)練方法更新參數(shù)。

s5利用車輛及行人候選區(qū)域分類模型檢測待檢測車輛及行人圖像中的車輛及行人類別和位置，本實施例中其具體步驟為：

s51按照步驟s1對待檢測車輛及行人圖像提取深度卷積特征圖。

s52按照步驟s2中selectivesearch算法給待檢測車輛及行人圖像提取車輛及行人目標(biāo)候選區(qū)域，并利用s3中的roi映射和roi池化，將深度卷積特征圖上的roi特征表示為一組固定尺寸的特征。

s53按照步驟s4中學(xué)習(xí)到的車輛及行人候選區(qū)域分類器對s52中的roi特征進行識別分類，并判斷是否為車輛及行人以及判斷車輛及行人的類別，作為輸出識別結(jié)果。

s54利用s53中的輸出識別結(jié)果，來確定候選區(qū)域是否為要檢測的目標(biāo)。若是，則輸出該候選區(qū)的坐標(biāo)信息，以及識別的車輛及行人類別。

本領(lǐng)域的技術(shù)人員容易理解，以上所述僅為本發(fā)明的較佳實施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳瑞軍;王興剛;胡濱;段雄
技術(shù)所有人：武漢睿智視訊科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種車輛/行人檢測方法及系統(tǒng)與流程