多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置與流程

文檔序號(hào)：40383748發(fā)布日期：2024-12-20 12:06閱讀：5來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置與流程

本申請(qǐng)涉及計(jì)算機(jī)視覺，更具體的說，是涉及一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置。

背景技術(shù)：

1、開放詞匯目標(biāo)檢測(cè)技術(shù)目前已在機(jī)器人技術(shù)、自動(dòng)駕駛等領(lǐng)域發(fā)揮越來越重要的作用。例如，在自動(dòng)駕駛場(chǎng)景中，車輛需要能夠識(shí)別各種未知的交通標(biāo)志和障礙物，而不僅僅是訓(xùn)練集中定義的對(duì)象。這種能力對(duì)于提高系統(tǒng)的安全性和適應(yīng)性至關(guān)重要?。隨著人工智能技術(shù)的快速發(fā)展，開放詞匯目標(biāo)檢測(cè)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向。

2、在開放詞匯檢測(cè)領(lǐng)域，目前主要的方案是通過使用預(yù)訓(xùn)練的多模態(tài)模型進(jìn)行圖像文本的對(duì)齊，結(jié)合其他學(xué)習(xí)技術(shù)實(shí)現(xiàn)未知目標(biāo)的挖掘。但上述方案實(shí)現(xiàn)仍然存在諸多問題，如嚴(yán)重依賴預(yù)訓(xùn)練模型的通用識(shí)別能力，過程中無法缺少對(duì)偽標(biāo)簽中噪聲的處理等。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本申請(qǐng)?zhí)峁┤缦录夹g(shù)方案：

2、一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法，包括：

3、獲得訓(xùn)練數(shù)據(jù)，所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽；

4、基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽；

5、基于所述偽標(biāo)簽和真實(shí)標(biāo)簽，結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練，得到目標(biāo)檢測(cè)模型。

6、一個(gè)可能的實(shí)現(xiàn)中，所述基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽，包括：

7、基于類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)定位出所述訓(xùn)練圖像中所有的目標(biāo)，所述目標(biāo)采用目標(biāo)框標(biāo)記；

8、基于圖像編碼器對(duì)所述訓(xùn)練圖像和所述目標(biāo)框進(jìn)行編碼處理，得到編碼目標(biāo)特征；

9、將待檢測(cè)類別的文本輸入文本編碼器，得到文本特征，所述待檢測(cè)類別包括多個(gè)文本類別；

10、對(duì)所述編碼目標(biāo)特征和所述文本特征進(jìn)行相似度匹配，得到所述訓(xùn)練圖像中所有目標(biāo)的偽標(biāo)簽。

11、一個(gè)可能的實(shí)現(xiàn)中，所述對(duì)所述編碼目標(biāo)特征和所述文本特征進(jìn)行相似度匹配，得到所述訓(xùn)練圖像中所有目標(biāo)的偽標(biāo)簽，包括：

12、將與所述編碼目標(biāo)特征相似度最高的文本類別設(shè)置為所述編碼目標(biāo)特征的類別，得到所述編碼目標(biāo)特征對(duì)應(yīng)的目標(biāo)的偽標(biāo)簽。

13、一個(gè)可能的實(shí)現(xiàn)中，所述檢測(cè)器包括骨干網(wǎng)絡(luò)和檢測(cè)頭，所述基于所述偽標(biāo)簽和真實(shí)標(biāo)簽，結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練，得到目標(biāo)檢測(cè)模型，包括：

14、采用骨干網(wǎng)絡(luò)對(duì)所述訓(xùn)練圖像進(jìn)行檢測(cè)處理，得到目標(biāo)特征；

15、基于所述目標(biāo)特征和所述文本特征，采用檢測(cè)頭得到預(yù)測(cè)結(jié)果；

16、基于所述預(yù)測(cè)結(jié)果確定監(jiān)督類型損失；

17、基于混淆原型對(duì)比學(xué)習(xí)算法對(duì)所述目標(biāo)特征進(jìn)行無監(jiān)督學(xué)習(xí)，得到對(duì)比學(xué)習(xí)損失；

18、基于所述監(jiān)督類型損失和所述對(duì)比學(xué)習(xí)損失確定整體損失；

19、基于所述整體損失調(diào)整所述骨干網(wǎng)絡(luò)和所述檢測(cè)頭的參數(shù)；

20、反復(fù)進(jìn)行上述各步驟內(nèi)容，直至所述骨干網(wǎng)絡(luò)和所述檢測(cè)頭達(dá)到收斂條件，得到目標(biāo)檢測(cè)器。

21、一個(gè)可能的實(shí)現(xiàn)中，所述基于所述預(yù)測(cè)結(jié)果確定監(jiān)督類型損失，包括；

22、基于所述預(yù)測(cè)結(jié)果和所述偽標(biāo)簽確定第一監(jiān)督損失，并且基于所述預(yù)測(cè)結(jié)果和所述真實(shí)標(biāo)簽確定第二監(jiān)督損失，所述第一監(jiān)督損失和所述第二監(jiān)督損失組成監(jiān)督類型損失。

23、一個(gè)可能的實(shí)現(xiàn)中，所述檢測(cè)頭包括回歸層和分類頭，所述基于所述目標(biāo)特征和所述文本特征，采用檢測(cè)頭得到預(yù)測(cè)結(jié)果，包括：

24、采用所述回歸層對(duì)所述目標(biāo)特征進(jìn)行處理，得到邊框預(yù)測(cè)結(jié)果；

25、采用所述分類頭的分類層對(duì)所述目標(biāo)框進(jìn)行處理，得到維度與文本特征維度相同的處理目標(biāo)特征；

26、采用所述分類頭將所述處理目標(biāo)特征與所述文本特征進(jìn)行相似度匹配，得到分類預(yù)測(cè)結(jié)果；

27、所述邊框預(yù)測(cè)結(jié)果和所述分類預(yù)測(cè)結(jié)果組成預(yù)測(cè)結(jié)果。

28、一個(gè)可能的實(shí)現(xiàn)中，所述基于混淆原型對(duì)比學(xué)習(xí)算法對(duì)所述目標(biāo)特征進(jìn)行無監(jiān)督學(xué)習(xí)，得到對(duì)比學(xué)習(xí)損失，包括：

29、初始化特征池和原型點(diǎn)，每個(gè)特征池對(duì)應(yīng)一個(gè)原型點(diǎn)；

30、在每次訓(xùn)練過程中，根據(jù)真實(shí)標(biāo)簽和偽標(biāo)簽，將對(duì)應(yīng)的目標(biāo)特征保存進(jìn)對(duì)應(yīng)的特征池中；

31、每進(jìn)行完設(shè)定批次的訓(xùn)練后，更新特征池的原型點(diǎn)；

32、訓(xùn)練過程中，針對(duì)每個(gè)目標(biāo)特征，確定其預(yù)測(cè)結(jié)果中置信度最高的n個(gè)類別，n為大于1的正整數(shù)，n個(gè)類別中包括對(duì)應(yīng)當(dāng)前目標(biāo)特征的真實(shí)類別，其余n-1個(gè)類別為當(dāng)前目標(biāo)特征的混淆類別；

33、基于所述真實(shí)類別和所述混淆類別對(duì)應(yīng)的特征原型計(jì)算確定對(duì)比學(xué)習(xí)損失。

34、一個(gè)可能的實(shí)現(xiàn)中，所述更新特征池的原型點(diǎn)，包括：

35、對(duì)每個(gè)類別的特征池中的所有目標(biāo)特征進(jìn)行聚類處理，得到聚類中心；

36、將所述聚類中心確定為對(duì)應(yīng)特征池最新的原型點(diǎn)。

37、一個(gè)可能的實(shí)現(xiàn)中，所述預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)為凍結(jié)模型。

38、本申請(qǐng)還提供了一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練裝置，包括：

39、數(shù)據(jù)獲得模塊，用于獲得訓(xùn)練數(shù)據(jù)，所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽；

40、偽標(biāo)簽確定模塊，用于基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽；

41、模型訓(xùn)練模塊，用于基于所述偽標(biāo)簽和真實(shí)標(biāo)簽，結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練，得到目標(biāo)檢測(cè)模型。

42、經(jīng)由上述的技術(shù)方案可知，本申請(qǐng)實(shí)施例公開了一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置，方法包括：獲得訓(xùn)練數(shù)據(jù)，所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽；基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽；基于所述偽標(biāo)簽和真實(shí)標(biāo)簽，結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練，得到目標(biāo)檢測(cè)模型。上述方案利用預(yù)訓(xùn)練的區(qū)域建議網(wǎng)絡(luò)和圖像-文本多模態(tài)模型生成潛在未知目標(biāo)的偽標(biāo)簽，再通過混淆原型對(duì)比學(xué)習(xí)來緩解偽標(biāo)簽的噪聲對(duì)訓(xùn)練產(chǎn)生的負(fù)面影響，實(shí)現(xiàn)了簡(jiǎn)單高效的開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練。

技術(shù)特征：

1.一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法，其特征在于，所述基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽，包括：

3.根據(jù)權(quán)利要求2所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法，其特征在于，所述對(duì)所述編碼目標(biāo)特征和所述文本特征進(jìn)行相似度匹配，得到所述訓(xùn)練圖像中所有目標(biāo)的偽標(biāo)簽，包括：

4.根據(jù)權(quán)利要求2所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法，其特征在于，所述檢測(cè)器包括骨干網(wǎng)絡(luò)和檢測(cè)頭，所述基于所述偽標(biāo)簽和所述真實(shí)標(biāo)簽，結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練，得到目標(biāo)檢測(cè)模型，包括：

5.根據(jù)權(quán)利要求4所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法，其特征在于，所述基于所述預(yù)測(cè)結(jié)果確定監(jiān)督類型損失，包括；

6.根據(jù)權(quán)利要求4所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法，其特征在于，所述檢測(cè)頭包括回歸層和分類頭，所述基于所述目標(biāo)特征和所述文本特征，采用檢測(cè)頭得到預(yù)測(cè)結(jié)果，包括：

7.根據(jù)權(quán)利要求4所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法，其特征在于，所述基于混淆原型對(duì)比學(xué)習(xí)算法對(duì)所述目標(biāo)特征進(jìn)行無監(jiān)督學(xué)習(xí)，得到對(duì)比學(xué)習(xí)損失，包括：

8.根據(jù)權(quán)利要求7所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法，其特征在于，所述更新特征池的原型點(diǎn)，包括：

9.根據(jù)權(quán)利要求1所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法，其特征在于，所述預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)為凍結(jié)模型。

10.一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練裝置，其特征在于，包括：

技術(shù)總結(jié)
本申請(qǐng)公開了一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置，涉及計(jì)算機(jī)視覺技術(shù)領(lǐng)域，方法包括：獲得訓(xùn)練數(shù)據(jù)，所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽；基于預(yù)訓(xùn)練的圖像?文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽；基于所述偽標(biāo)簽和真實(shí)標(biāo)簽，結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練，得到目標(biāo)檢測(cè)模型。上述方案利用預(yù)訓(xùn)練的區(qū)域建議網(wǎng)絡(luò)和圖像?文本多模態(tài)模型生成潛在未知目標(biāo)的偽標(biāo)簽，再通過混淆原型對(duì)比學(xué)習(xí)來緩解偽標(biāo)簽的噪聲對(duì)訓(xùn)練產(chǎn)生的負(fù)面影響，實(shí)現(xiàn)了簡(jiǎn)單高效的開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練。

技術(shù)研發(fā)人員：蔣樂,程鴻強(qiáng),李國(guó)明,葉曉舟,歐陽曄
受保護(hù)的技術(shù)使用者：亞信科技（中國(guó)）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔣樂,程鴻強(qiáng),李國(guó)明,葉曉舟,歐陽曄
技術(shù)所有人：亞信科技（中國(guó)）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置與流程