本技術(shù)涉及計(jì)算機(jī),尤其涉及城市道路場景的目標(biāo)檢測,具體涉及一種目標(biāo)檢測方法、裝置、車輛及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著機(jī)動(dòng)車數(shù)量的不斷增長,道路交通事故不斷發(fā)生,道路交通狀況日趨嚴(yán)重。因此,在車輛上搭建高級(jí)駕駛輔助系統(tǒng)(advanced?driving?assistance?system,adas),對(duì)于保障駕駛員的安全十分重要。adas中尤其重要的是環(huán)境感知模塊,通過搭載的道路場景目標(biāo)檢測算法對(duì)傳感器所獲取的周圍環(huán)境圖片進(jìn)行檢測與分析,是adas進(jìn)行決策的先決條件。同時(shí)由于道路場景中環(huán)境復(fù)雜、目標(biāo)的尺度大小不一致等問題。目標(biāo)檢測算法需要實(shí)時(shí)準(zhǔn)確地獲取道路場景中目標(biāo)的類別及尺寸信息,以便車輛可以識(shí)別到周圍環(huán)境中的行人和車輛等,避免交通事故的發(fā)生。
2、相關(guān)技術(shù)中,將注意力機(jī)制引入卷積神經(jīng)網(wǎng)絡(luò)中,并收集待檢測圖片,對(duì)圖片進(jìn)行標(biāo)注生成目標(biāo)訓(xùn)練集,將目標(biāo)訓(xùn)練集輸入卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,從而將待檢測圖片輸入到訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行檢測,得出檢測結(jié)果。該方法是將注意力機(jī)制引入卷積神經(jīng)網(wǎng)絡(luò)中,調(diào)整卷積神經(jīng)網(wǎng)絡(luò)所提取的特征圖中通道的權(quán)重,以提高目標(biāo)檢測精度,但該方法的注意力機(jī)制僅涉及到對(duì)通道的注意力,對(duì)于待檢測圖像中的遮擋目標(biāo)和較小的目標(biāo)的檢測效果較差。因此,如何提高待檢測圖像中的遮擋目標(biāo)和較小的目標(biāo)的檢測精度是目前亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種目標(biāo)檢測方法、裝置、車輛及存儲(chǔ)介質(zhì),以至少解決相關(guān)技術(shù)中待檢測圖像中的遮擋目標(biāo)和較小的目標(biāo)的檢測效果較差的技術(shù)問題。本技術(shù)的技術(shù)方案如下:
2、根據(jù)本技術(shù)涉及的第一方面,提供一種目標(biāo)檢測方法,該方法包括:獲取待檢測的目標(biāo)圖像;目標(biāo)圖像包括多個(gè)待檢測的目標(biāo)對(duì)象;將目標(biāo)圖像輸入目標(biāo)檢測模型,得到目標(biāo)圖像的檢測結(jié)果;目標(biāo)檢測模型包括通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò);檢測結(jié)果包括多個(gè)邊界框和多個(gè)標(biāo)簽;邊界框用于標(biāo)記多個(gè)目標(biāo)對(duì)象在目標(biāo)圖像中的位置;標(biāo)簽用于表征邊界框的多個(gè)目標(biāo)對(duì)象的類別。
3、根據(jù)上述技術(shù)手段,目標(biāo)檢測模型可以通過通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò),整合目標(biāo)圖像中來自不同層級(jí)的多尺度特征,并強(qiáng)化不同特征之間的互補(bǔ)性,從而提升待目標(biāo)圖像融合后的特征的表達(dá)能力,增強(qiáng)了復(fù)雜道路場景中的密集區(qū)域的目標(biāo)對(duì)象及遠(yuǎn)距離小尺度的目標(biāo)對(duì)象的特征信息,提高了目標(biāo)檢測模型對(duì)于密集區(qū)域的目標(biāo)對(duì)象及遠(yuǎn)距離小尺度的目標(biāo)對(duì)象的檢測精度。
4、在一種可能的實(shí)施方式中,上述方法還包括:獲取訓(xùn)練數(shù)據(jù)集;訓(xùn)練數(shù)據(jù)集包括多個(gè)訓(xùn)練圖像和多個(gè)訓(xùn)練圖像的類別;基于多個(gè)訓(xùn)練圖像的類別,將訓(xùn)練數(shù)據(jù)集進(jìn)行重新劃分,得到多個(gè)訓(xùn)練數(shù)據(jù)集;基于多個(gè)訓(xùn)練數(shù)據(jù)集和目標(biāo)檢測模型的損失,對(duì)目標(biāo)檢測模型進(jìn)行訓(xùn)練。
5、根據(jù)上述技術(shù)手段,可以基于分類后的多個(gè)訓(xùn)練數(shù)據(jù)集和目標(biāo)檢測模型的損失對(duì)目標(biāo)檢測模型進(jìn)行訓(xùn)練,使得目標(biāo)檢測模型可以學(xué)習(xí)不同類別的訓(xùn)練圖像的特征,使得目標(biāo)檢測模型可以更精準(zhǔn)地識(shí)別目標(biāo)圖像中的多個(gè)目標(biāo)對(duì)象,并且提高了目標(biāo)檢測模型對(duì)于新數(shù)據(jù)的泛化能力。
6、在另一種可能的實(shí)施方式中,目標(biāo)檢測模型基于yolo目標(biāo)檢測模型構(gòu)建;yolo目標(biāo)檢測模型包括:特征提取網(wǎng)絡(luò)、通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò)和檢測頭;將目標(biāo)圖像輸入目標(biāo)檢測模型,得到目標(biāo)圖像的檢測結(jié)果,包括:基于特征提取網(wǎng)絡(luò),提取目標(biāo)圖像在不同尺度的特征圖;基于通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò),將目標(biāo)圖像在不同尺度的特征圖進(jìn)行融合,得到目標(biāo)特征圖;基于檢測頭擴(kuò)展目標(biāo)特征圖的通道數(shù),確定目標(biāo)圖像中多個(gè)目標(biāo)對(duì)象的邊界框位置和類別;基于目標(biāo)圖像中多個(gè)目標(biāo)對(duì)象的邊界框位置和類別,確定目標(biāo)圖像的檢測結(jié)果。
7、根據(jù)上述技術(shù)手段,通過特征提取網(wǎng)絡(luò),目標(biāo)檢測模型可以捕捉目標(biāo)圖像在不同尺度上的特征,以便檢測目標(biāo)圖像中的不同大小的目標(biāo)對(duì)象。通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò)使得目標(biāo)檢測模型可以集中于目標(biāo)圖像中最重要的區(qū)域,提高對(duì)小尺寸的目標(biāo)對(duì)象或密集區(qū)域的目標(biāo)對(duì)象的檢測性能,增強(qiáng)了復(fù)雜場景中目標(biāo)檢測模型對(duì)目標(biāo)對(duì)象的識(shí)別能力,從而提高了目標(biāo)檢測模型的檢測精度。
8、在又一種可能的實(shí)施方式中,特征提取網(wǎng)絡(luò)包括第一跨階段局部結(jié)構(gòu)和第二跨階段局部結(jié)構(gòu);基于特征提取網(wǎng)絡(luò),提取目標(biāo)圖像在不同尺度的特征圖,包括:基于第一跨階段局部結(jié)構(gòu),提取目標(biāo)圖像的高級(jí)語義特征;基于第二跨階段局部結(jié)構(gòu),提取目標(biāo)圖像的低級(jí)視覺特征;將高級(jí)語義特征和低級(jí)視覺特征進(jìn)行拼接,得到目標(biāo)圖像在不同尺度的特征圖。
9、根據(jù)上述技術(shù)手段,目標(biāo)圖像的高級(jí)語義特征包含目標(biāo)圖像中的多個(gè)目標(biāo)對(duì)象的類別相關(guān)信息,目標(biāo)圖像的低級(jí)視覺特征中包含了目標(biāo)圖像中的多個(gè)目標(biāo)對(duì)象的邊緣和紋理等細(xì)節(jié)信息,結(jié)合目標(biāo)圖像的高級(jí)語義特征和低級(jí)視覺特征,目標(biāo)檢測模型可以捕捉目標(biāo)圖像從細(xì)節(jié)到全局的多尺度特征,提升了檢測目標(biāo)圖像中的不同尺寸的目標(biāo)對(duì)象的檢測精度。
10、在又一種可能的實(shí)施方式中,基于通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò),將目標(biāo)圖像在不同尺度的特征圖進(jìn)行融合,得到目標(biāo)特征圖,包括:將目標(biāo)圖像在不同尺度的特征圖進(jìn)行融合,得到聚合特征圖;基于通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò),確定聚合特征圖的通道注意力權(quán)重和空間注意力權(quán)重;基于通道注意力權(quán)重和空間注意力權(quán)重,得到目標(biāo)特征圖。
11、根據(jù)上述技術(shù)手段,通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò)可以通過注意力機(jī)制加權(quán)的方式對(duì)目標(biāo)圖像的不同尺度的特征圖進(jìn)行特征融合,更有效地整合來自不同尺度的特征信息,并集中于目標(biāo)圖像中的關(guān)鍵區(qū)域,忽略目標(biāo)圖像中的不重要的通道和空間區(qū)域,避免冗余信息的干擾,提高對(duì)目標(biāo)對(duì)象的檢測精度。
12、在又一種可能的實(shí)施方式中,確定聚合特征圖的通道注意力權(quán)重,包括:確定聚合特征圖的平均池化要素和最大池化要素;基于平均池化要素和最大池化要素,通過共享網(wǎng)絡(luò),確定通道注意力圖;共享網(wǎng)絡(luò)包括自適應(yīng)卷積核大小的一維卷積;基于通道注意力圖,采用激活函數(shù),生成通道注意力權(quán)重。
13、根據(jù)上述技術(shù)手段,通過平均池化和最大池化可以分別捕捉到特征圖中的全局平均信息和最顯著的特征點(diǎn),有助于整合目標(biāo)圖像的多尺度信息,并且通過池化操作,可以降低特征的空間維度,保留重要的特征信息,降低計(jì)算的復(fù)雜度。另外,共享網(wǎng)絡(luò)的自適應(yīng)卷積核大小允許特征融合網(wǎng)絡(luò)根據(jù)輸入的特征圖的內(nèi)容動(dòng)態(tài)調(diào)整卷積核,提高目標(biāo)檢測模型對(duì)不同特征的適應(yīng)性。在目標(biāo)圖像中存在遮擋或重疊目標(biāo)對(duì)象的情況下,可以通過通道注意力權(quán)重提升目標(biāo)檢測模型對(duì)目標(biāo)對(duì)象的定位和分類的精度。
14、在又一種可能的實(shí)施方式中,確定聚合特征圖的空間注意力權(quán)重,包括:將通道注意力權(quán)重與聚合特征圖相乘,得到加權(quán)后的聚合特征圖;按照加權(quán)后的聚合特征圖的高度和寬度對(duì)加權(quán)后的聚合特征圖進(jìn)行全局自適應(yīng)均值池化,得到寬度特征圖和高度特征圖;將寬度特征圖和高度特征圖進(jìn)行拼接和降維處理,得到空間特征圖;基于空間特征圖,采用激活函數(shù),生成空間注意力權(quán)重;空間注意力權(quán)重包括高度注意力權(quán)重和寬度注意力權(quán)重。
15、根據(jù)上述技術(shù)手段,通過高度注意力權(quán)重和寬度注意力權(quán)重,目標(biāo)檢測模型可以整合目標(biāo)圖像的水平和垂直方向上的特征信息,關(guān)注目標(biāo)圖像中的關(guān)鍵空間區(qū)域,有助于目標(biāo)檢測模型更準(zhǔn)確地確定目標(biāo)對(duì)象的邊界框,提高目標(biāo)對(duì)象特別是小尺寸的目標(biāo)對(duì)象或部分遮擋的目標(biāo)對(duì)象的空間定位精度。另外,通過全局池化和降維處理,目標(biāo)檢測模型可以將高維空間特征壓縮成低維,減少計(jì)算量并突出重要特征。
16、根據(jù)本技術(shù)提供的第二方面,提供一種目標(biāo)檢測裝置,該裝置包括:獲取模塊和處理模塊。獲取模塊用于,獲取待檢測的目標(biāo)圖像;目標(biāo)圖像包括多個(gè)待檢測的目標(biāo)對(duì)象;處理模塊用于,將目標(biāo)圖像輸入目標(biāo)檢測模型,得到目標(biāo)圖像的檢測結(jié)果;目標(biāo)檢測模型包括通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò);檢測結(jié)果包括多個(gè)邊界框和多個(gè)標(biāo)簽;邊界框用于標(biāo)記多個(gè)目標(biāo)對(duì)象在目標(biāo)圖像中的位置;標(biāo)簽用于表征邊界框的多個(gè)目標(biāo)對(duì)象的類別。
17、在一種可能的實(shí)施方式中,上述裝置還包括:劃分模塊和訓(xùn)練模塊。獲取模塊,還用于獲取訓(xùn)練數(shù)據(jù)集;訓(xùn)練數(shù)據(jù)集包括多個(gè)訓(xùn)練圖像和多個(gè)訓(xùn)練圖像的類別;劃分模塊,用于基于多個(gè)訓(xùn)練圖像的類別,將訓(xùn)練數(shù)據(jù)集進(jìn)行重新劃分,得到多個(gè)訓(xùn)練數(shù)據(jù)集;訓(xùn)練模塊,用于基于多個(gè)訓(xùn)練數(shù)據(jù)集和目標(biāo)檢測模型的損失,對(duì)目標(biāo)檢測模型進(jìn)行訓(xùn)練。
18、在另一種可能的實(shí)施方式中,目標(biāo)檢測模型基于yolo目標(biāo)檢測模型構(gòu)建;yolo目標(biāo)檢測模型包括:特征提取網(wǎng)絡(luò)、通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò)和檢測頭;處理模塊,具體用于基于特征提取網(wǎng)絡(luò),提取目標(biāo)圖像在不同尺度的特征圖;基于通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò),將目標(biāo)圖像在不同尺度的特征圖進(jìn)行融合,得到目標(biāo)特征圖;基于檢測頭擴(kuò)展目標(biāo)特征圖的通道數(shù),確定目標(biāo)圖像中多個(gè)目標(biāo)對(duì)象的邊界框位置和類別;基于目標(biāo)圖像中多個(gè)目標(biāo)對(duì)象的邊界框位置和類別,確定目標(biāo)圖像的檢測結(jié)果。
19、在又一種可能的實(shí)施方式中,特征提取網(wǎng)絡(luò)包括第一跨階段局部結(jié)構(gòu)和第二跨階段局部結(jié)構(gòu);處理模塊,具體用于基于第一跨階段局部結(jié)構(gòu),提取目標(biāo)圖像的高級(jí)語義特征;基于第二跨階段局部結(jié)構(gòu),提取目標(biāo)圖像的低級(jí)視覺特征;將高級(jí)語義特征和低級(jí)視覺特征進(jìn)行拼接,得到目標(biāo)圖像在不同尺度的特征圖。
20、在又一種可能的實(shí)施方式中,處理模塊,具體用于將目標(biāo)圖像在不同尺度的特征圖進(jìn)行融合,得到聚合特征圖;基于通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò),確定聚合特征圖的通道注意力權(quán)重和空間注意力權(quán)重;基于通道注意力權(quán)重和空間注意力權(quán)重,得到目標(biāo)特征圖。
21、在又一種可能的實(shí)施方式中,處理模塊,具體用于確定聚合特征圖的平均池化要素和最大池化要素;基于平均池化要素和最大池化要素,通過共享網(wǎng)絡(luò),確定通道注意力圖;共享網(wǎng)絡(luò)包括自適應(yīng)卷積核大小的一維卷積;基于通道注意力圖,采用激活函數(shù),生成通道注意力權(quán)重。
22、在又一種可能的實(shí)施方式中,處理模塊,具體用于將通道注意力權(quán)重與聚合特征圖相乘,得到加權(quán)后的聚合特征圖;按照加權(quán)后的聚合特征圖的高度和寬度對(duì)加權(quán)后的聚合特征圖進(jìn)行全局自適應(yīng)均值池化,得到寬度特征圖和高度特征圖;將寬度特征圖和高度特征圖進(jìn)行拼接和降維處理,得到空間特征圖;基于空間特征圖,采用激活函數(shù),生成空間注意力權(quán)重;空間注意力權(quán)重包括高度注意力權(quán)重和寬度注意力權(quán)重。
23、根據(jù)本技術(shù)提供的第三方面,提供一種車輛,包括:處理器;用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;其中,處理器被配置為執(zhí)行指令,以實(shí)現(xiàn)上述第一方面及其任一種可能的實(shí)施方式的方法。
24、根據(jù)本技術(shù)提供的第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令由車輛的處理器執(zhí)行時(shí),使得車輛能夠執(zhí)行上述第一方面中及其任一種可能的實(shí)施方式的方法。
25、根據(jù)本技術(shù)提供的第五方面,提供一種計(jì)算機(jī)程序產(chǎn)品,計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令,當(dāng)計(jì)算機(jī)指令在車輛上運(yùn)行時(shí),使得車輛執(zhí)行上述第一方面及其任一種可能的實(shí)施方式的方法。
26、由此,本技術(shù)的上述技術(shù)特征具有以下有益效果:
27、(1)目標(biāo)檢測模型可以通過通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò),整合目標(biāo)圖像中來自不同層級(jí)的多尺度特征,并強(qiáng)化不同特征之間的互補(bǔ)性,從而提升待目標(biāo)圖像融合后的特征的表達(dá)能力,增強(qiáng)了復(fù)雜道路場景中的密集區(qū)域的目標(biāo)對(duì)象及遠(yuǎn)距離小尺度的目標(biāo)對(duì)象的特征信息,提高了目標(biāo)檢測模型對(duì)于密集區(qū)域的目標(biāo)對(duì)象及遠(yuǎn)距離小尺度的目標(biāo)對(duì)象的檢測精度。
28、(2)可以基于分類后的多個(gè)訓(xùn)練數(shù)據(jù)集和目標(biāo)檢測模型的損失對(duì)目標(biāo)檢測模型進(jìn)行訓(xùn)練,使得目標(biāo)檢測模型可以學(xué)習(xí)不同類別的訓(xùn)練圖像的特征,使得目標(biāo)檢測模型可以更精準(zhǔn)地識(shí)別目標(biāo)圖像中的多個(gè)目標(biāo)對(duì)象,并且提高了目標(biāo)檢測模型對(duì)于新數(shù)據(jù)的泛化能力。
29、(3)通過特征提取網(wǎng)絡(luò),目標(biāo)檢測模型可以捕捉目標(biāo)圖像在不同尺度上的特征,以便檢測目標(biāo)圖像中的不同大小的目標(biāo)對(duì)象。通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò)使得目標(biāo)檢測模型可以集中于目標(biāo)圖像中最重要的區(qū)域,提高對(duì)小尺寸的目標(biāo)對(duì)象或密集區(qū)域的目標(biāo)對(duì)象的檢測性能,增強(qiáng)了復(fù)雜場景中目標(biāo)檢測模型對(duì)目標(biāo)對(duì)象的識(shí)別能力,從而提高了目標(biāo)檢測模型的檢測精度。
30、(4)目標(biāo)圖像的高級(jí)語義特征包含目標(biāo)圖像中的多個(gè)目標(biāo)對(duì)象的類別相關(guān)信息,目標(biāo)圖像的低級(jí)視覺特征中包含了目標(biāo)圖像中的多個(gè)目標(biāo)對(duì)象的邊緣和紋理等細(xì)節(jié)信息,結(jié)合目標(biāo)圖像的高級(jí)語義特征和低級(jí)視覺特征,目標(biāo)檢測模型可以捕捉目標(biāo)圖像從細(xì)節(jié)到全局的多尺度特征,提升了檢測目標(biāo)圖像中的不同尺寸的目標(biāo)對(duì)象的檢測精度。
31、(5)通道融合空間注意力機(jī)制的特征融合網(wǎng)絡(luò)可以通過注意力機(jī)制加權(quán)的方式對(duì)目標(biāo)圖像的不同尺度的特征圖進(jìn)行特征融合,更有效地整合來自不同尺度的特征信息,并集中于目標(biāo)圖像中的關(guān)鍵區(qū)域,忽略目標(biāo)圖像中的不重要的通道和空間區(qū)域,避免冗余信息的干擾,提高對(duì)目標(biāo)對(duì)象的檢測精度。
32、(6)通過平均池化和最大池化可以分別捕捉到特征圖中的全局平均信息和最顯著的特征點(diǎn),有助于整合目標(biāo)圖像的多尺度信息,并且通過池化操作,可以降低特征的空間維度,保留重要的特征信息,降低計(jì)算的復(fù)雜度。另外,共享網(wǎng)絡(luò)的自適應(yīng)卷積核大小允許特征融合網(wǎng)絡(luò)根據(jù)輸入的特征圖的內(nèi)容動(dòng)態(tài)調(diào)整卷積核,提高目標(biāo)檢測模型對(duì)不同特征的適應(yīng)性。在目標(biāo)圖像中存在遮擋或重疊目標(biāo)對(duì)象的情況下,可以通過通道注意力權(quán)重提升目標(biāo)檢測模型對(duì)目標(biāo)對(duì)象的定位和分類的精度。
33、(7)通過高度注意力權(quán)重和寬度注意力權(quán)重,目標(biāo)檢測模型可以整合目標(biāo)圖像的水平和垂直方向上的特征信息,關(guān)注目標(biāo)圖像中的關(guān)鍵空間區(qū)域,有助于目標(biāo)檢測模型更準(zhǔn)確地確定目標(biāo)對(duì)象的邊界框,提高目標(biāo)對(duì)象特別是小尺寸的目標(biāo)對(duì)象或部分遮擋的目標(biāo)對(duì)象的空間定位精度。另外,通過全局池化和降維處理,目標(biāo)檢測模型可以將高維空間特征壓縮成低維,減少計(jì)算量并突出重要特征。
34、需要說明的是,第二方面至第五方面中的任一種實(shí)現(xiàn)方式所帶來的技術(shù)效果可參見第一方面中對(duì)應(yīng)實(shí)現(xiàn)方式所帶來的技術(shù)效果,此處不再贅述。
35、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本技術(shù)。