本申請(qǐng)涉及計(jì)算機(jī)視覺,更具體的說,是涉及一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置。
背景技術(shù):
1、開放詞匯目標(biāo)檢測(cè)技術(shù)目前已在機(jī)器人技術(shù)、自動(dòng)駕駛等領(lǐng)域發(fā)揮越來越重要的作用。例如,在自動(dòng)駕駛場(chǎng)景中,車輛需要能夠識(shí)別各種未知的交通標(biāo)志和障礙物,而不僅僅是訓(xùn)練集中定義的對(duì)象。這種能力對(duì)于提高系統(tǒng)的安全性和適應(yīng)性至關(guān)重要?。隨著人工智能技術(shù)的快速發(fā)展,開放詞匯目標(biāo)檢測(cè)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向。
2、在開放詞匯檢測(cè)領(lǐng)域,目前主要的方案是通過使用預(yù)訓(xùn)練的多模態(tài)模型進(jìn)行圖像文本的對(duì)齊,結(jié)合其他學(xué)習(xí)技術(shù)實(shí)現(xiàn)未知目標(biāo)的挖掘。但上述方案實(shí)現(xiàn)仍然存在諸多問題,如嚴(yán)重依賴預(yù)訓(xùn)練模型的通用識(shí)別能力,過程中無法缺少對(duì)偽標(biāo)簽中噪聲的處理等。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請(qǐng)?zhí)峁┤缦录夹g(shù)方案:
2、一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,包括:
3、獲得訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽;
4、基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽;
5、基于所述偽標(biāo)簽和真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型。
6、一個(gè)可能的實(shí)現(xiàn)中,所述基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽,包括:
7、基于類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)定位出所述訓(xùn)練圖像中所有的目標(biāo),所述目標(biāo)采用目標(biāo)框標(biāo)記;
8、基于圖像編碼器對(duì)所述訓(xùn)練圖像和所述目標(biāo)框進(jìn)行編碼處理,得到編碼目標(biāo)特征;
9、將待檢測(cè)類別的文本輸入文本編碼器,得到文本特征,所述待檢測(cè)類別包括多個(gè)文本類別;
10、對(duì)所述編碼目標(biāo)特征和所述文本特征進(jìn)行相似度匹配,得到所述訓(xùn)練圖像中所有目標(biāo)的偽標(biāo)簽。
11、一個(gè)可能的實(shí)現(xiàn)中,所述對(duì)所述編碼目標(biāo)特征和所述文本特征進(jìn)行相似度匹配,得到所述訓(xùn)練圖像中所有目標(biāo)的偽標(biāo)簽,包括:
12、將與所述編碼目標(biāo)特征相似度最高的文本類別設(shè)置為所述編碼目標(biāo)特征的類別,得到所述編碼目標(biāo)特征對(duì)應(yīng)的目標(biāo)的偽標(biāo)簽。
13、一個(gè)可能的實(shí)現(xiàn)中,所述檢測(cè)器包括骨干網(wǎng)絡(luò)和檢測(cè)頭,所述基于所述偽標(biāo)簽和真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型,包括:
14、采用骨干網(wǎng)絡(luò)對(duì)所述訓(xùn)練圖像進(jìn)行檢測(cè)處理,得到目標(biāo)特征;
15、基于所述目標(biāo)特征和所述文本特征,采用檢測(cè)頭得到預(yù)測(cè)結(jié)果;
16、基于所述預(yù)測(cè)結(jié)果確定監(jiān)督類型損失;
17、基于混淆原型對(duì)比學(xué)習(xí)算法對(duì)所述目標(biāo)特征進(jìn)行無監(jiān)督學(xué)習(xí),得到對(duì)比學(xué)習(xí)損失;
18、基于所述監(jiān)督類型損失和所述對(duì)比學(xué)習(xí)損失確定整體損失;
19、基于所述整體損失調(diào)整所述骨干網(wǎng)絡(luò)和所述檢測(cè)頭的參數(shù);
20、反復(fù)進(jìn)行上述各步驟內(nèi)容,直至所述骨干網(wǎng)絡(luò)和所述檢測(cè)頭達(dá)到收斂條件,得到目標(biāo)檢測(cè)器。
21、一個(gè)可能的實(shí)現(xiàn)中,所述基于所述預(yù)測(cè)結(jié)果確定監(jiān)督類型損失,包括;
22、基于所述預(yù)測(cè)結(jié)果和所述偽標(biāo)簽確定第一監(jiān)督損失,并且基于所述預(yù)測(cè)結(jié)果和所述真實(shí)標(biāo)簽確定第二監(jiān)督損失,所述第一監(jiān)督損失和所述第二監(jiān)督損失組成監(jiān)督類型損失。
23、一個(gè)可能的實(shí)現(xiàn)中,所述檢測(cè)頭包括回歸層和分類頭,所述基于所述目標(biāo)特征和所述文本特征,采用檢測(cè)頭得到預(yù)測(cè)結(jié)果,包括:
24、采用所述回歸層對(duì)所述目標(biāo)特征進(jìn)行處理,得到邊框預(yù)測(cè)結(jié)果;
25、采用所述分類頭的分類層對(duì)所述目標(biāo)框進(jìn)行處理,得到維度與文本特征維度相同的處理目標(biāo)特征;
26、采用所述分類頭將所述處理目標(biāo)特征與所述文本特征進(jìn)行相似度匹配,得到分類預(yù)測(cè)結(jié)果;
27、所述邊框預(yù)測(cè)結(jié)果和所述分類預(yù)測(cè)結(jié)果組成預(yù)測(cè)結(jié)果。
28、一個(gè)可能的實(shí)現(xiàn)中,所述基于混淆原型對(duì)比學(xué)習(xí)算法對(duì)所述目標(biāo)特征進(jìn)行無監(jiān)督學(xué)習(xí),得到對(duì)比學(xué)習(xí)損失,包括:
29、初始化特征池和原型點(diǎn),每個(gè)特征池對(duì)應(yīng)一個(gè)原型點(diǎn);
30、在每次訓(xùn)練過程中,根據(jù)真實(shí)標(biāo)簽和偽標(biāo)簽,將對(duì)應(yīng)的目標(biāo)特征保存進(jìn)對(duì)應(yīng)的特征池中;
31、每進(jìn)行完設(shè)定批次的訓(xùn)練后,更新特征池的原型點(diǎn);
32、訓(xùn)練過程中,針對(duì)每個(gè)目標(biāo)特征,確定其預(yù)測(cè)結(jié)果中置信度最高的n個(gè)類別,n為大于1的正整數(shù),n個(gè)類別中包括對(duì)應(yīng)當(dāng)前目標(biāo)特征的真實(shí)類別,其余n-1個(gè)類別為當(dāng)前目標(biāo)特征的混淆類別;
33、基于所述真實(shí)類別和所述混淆類別對(duì)應(yīng)的特征原型計(jì)算確定對(duì)比學(xué)習(xí)損失。
34、一個(gè)可能的實(shí)現(xiàn)中,所述更新特征池的原型點(diǎn),包括:
35、對(duì)每個(gè)類別的特征池中的所有目標(biāo)特征進(jìn)行聚類處理,得到聚類中心;
36、將所述聚類中心確定為對(duì)應(yīng)特征池最新的原型點(diǎn)。
37、一個(gè)可能的實(shí)現(xiàn)中,所述預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)為凍結(jié)模型。
38、本申請(qǐng)還提供了一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練裝置,包括:
39、數(shù)據(jù)獲得模塊,用于獲得訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽;
40、偽標(biāo)簽確定模塊,用于基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽;
41、模型訓(xùn)練模塊,用于基于所述偽標(biāo)簽和真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型。
42、經(jīng)由上述的技術(shù)方案可知,本申請(qǐng)實(shí)施例公開了一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置,方法包括:獲得訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽;基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽;基于所述偽標(biāo)簽和真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型。上述方案利用預(yù)訓(xùn)練的區(qū)域建議網(wǎng)絡(luò)和圖像-文本多模態(tài)模型生成潛在未知目標(biāo)的偽標(biāo)簽,再通過混淆原型對(duì)比學(xué)習(xí)來緩解偽標(biāo)簽的噪聲對(duì)訓(xùn)練產(chǎn)生的負(fù)面影響,實(shí)現(xiàn)了簡(jiǎn)單高效的開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練。
1.一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽,包括:
3.根據(jù)權(quán)利要求2所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述對(duì)所述編碼目標(biāo)特征和所述文本特征進(jìn)行相似度匹配,得到所述訓(xùn)練圖像中所有目標(biāo)的偽標(biāo)簽,包括:
4.根據(jù)權(quán)利要求2所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述檢測(cè)器包括骨干網(wǎng)絡(luò)和檢測(cè)頭,所述基于所述偽標(biāo)簽和所述真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型,包括:
5.根據(jù)權(quán)利要求4所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述基于所述預(yù)測(cè)結(jié)果確定監(jiān)督類型損失,包括;
6.根據(jù)權(quán)利要求4所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述檢測(cè)頭包括回歸層和分類頭,所述基于所述目標(biāo)特征和所述文本特征,采用檢測(cè)頭得到預(yù)測(cè)結(jié)果,包括:
7.根據(jù)權(quán)利要求4所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述基于混淆原型對(duì)比學(xué)習(xí)算法對(duì)所述目標(biāo)特征進(jìn)行無監(jiān)督學(xué)習(xí),得到對(duì)比學(xué)習(xí)損失,包括:
8.根據(jù)權(quán)利要求7所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述更新特征池的原型點(diǎn),包括:
9.根據(jù)權(quán)利要求1所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)為凍結(jié)模型。
10.一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練裝置,其特征在于,包括: