亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置與流程

文檔序號(hào):40383748發(fā)布日期:2024-12-20 12:06閱讀:5來源:國(guó)知局
多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置與流程

本申請(qǐng)涉及計(jì)算機(jī)視覺,更具體的說,是涉及一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置。


背景技術(shù):

1、開放詞匯目標(biāo)檢測(cè)技術(shù)目前已在機(jī)器人技術(shù)、自動(dòng)駕駛等領(lǐng)域發(fā)揮越來越重要的作用。例如,在自動(dòng)駕駛場(chǎng)景中,車輛需要能夠識(shí)別各種未知的交通標(biāo)志和障礙物,而不僅僅是訓(xùn)練集中定義的對(duì)象。這種能力對(duì)于提高系統(tǒng)的安全性和適應(yīng)性至關(guān)重要?。隨著人工智能技術(shù)的快速發(fā)展,開放詞匯目標(biāo)檢測(cè)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向。

2、在開放詞匯檢測(cè)領(lǐng)域,目前主要的方案是通過使用預(yù)訓(xùn)練的多模態(tài)模型進(jìn)行圖像文本的對(duì)齊,結(jié)合其他學(xué)習(xí)技術(shù)實(shí)現(xiàn)未知目標(biāo)的挖掘。但上述方案實(shí)現(xiàn)仍然存在諸多問題,如嚴(yán)重依賴預(yù)訓(xùn)練模型的通用識(shí)別能力,過程中無法缺少對(duì)偽標(biāo)簽中噪聲的處理等。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本申請(qǐng)?zhí)峁┤缦录夹g(shù)方案:

2、一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,包括:

3、獲得訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽;

4、基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽;

5、基于所述偽標(biāo)簽和真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型。

6、一個(gè)可能的實(shí)現(xiàn)中,所述基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽,包括:

7、基于類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)定位出所述訓(xùn)練圖像中所有的目標(biāo),所述目標(biāo)采用目標(biāo)框標(biāo)記;

8、基于圖像編碼器對(duì)所述訓(xùn)練圖像和所述目標(biāo)框進(jìn)行編碼處理,得到編碼目標(biāo)特征;

9、將待檢測(cè)類別的文本輸入文本編碼器,得到文本特征,所述待檢測(cè)類別包括多個(gè)文本類別;

10、對(duì)所述編碼目標(biāo)特征和所述文本特征進(jìn)行相似度匹配,得到所述訓(xùn)練圖像中所有目標(biāo)的偽標(biāo)簽。

11、一個(gè)可能的實(shí)現(xiàn)中,所述對(duì)所述編碼目標(biāo)特征和所述文本特征進(jìn)行相似度匹配,得到所述訓(xùn)練圖像中所有目標(biāo)的偽標(biāo)簽,包括:

12、將與所述編碼目標(biāo)特征相似度最高的文本類別設(shè)置為所述編碼目標(biāo)特征的類別,得到所述編碼目標(biāo)特征對(duì)應(yīng)的目標(biāo)的偽標(biāo)簽。

13、一個(gè)可能的實(shí)現(xiàn)中,所述檢測(cè)器包括骨干網(wǎng)絡(luò)和檢測(cè)頭,所述基于所述偽標(biāo)簽和真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型,包括:

14、采用骨干網(wǎng)絡(luò)對(duì)所述訓(xùn)練圖像進(jìn)行檢測(cè)處理,得到目標(biāo)特征;

15、基于所述目標(biāo)特征和所述文本特征,采用檢測(cè)頭得到預(yù)測(cè)結(jié)果;

16、基于所述預(yù)測(cè)結(jié)果確定監(jiān)督類型損失;

17、基于混淆原型對(duì)比學(xué)習(xí)算法對(duì)所述目標(biāo)特征進(jìn)行無監(jiān)督學(xué)習(xí),得到對(duì)比學(xué)習(xí)損失;

18、基于所述監(jiān)督類型損失和所述對(duì)比學(xué)習(xí)損失確定整體損失;

19、基于所述整體損失調(diào)整所述骨干網(wǎng)絡(luò)和所述檢測(cè)頭的參數(shù);

20、反復(fù)進(jìn)行上述各步驟內(nèi)容,直至所述骨干網(wǎng)絡(luò)和所述檢測(cè)頭達(dá)到收斂條件,得到目標(biāo)檢測(cè)器。

21、一個(gè)可能的實(shí)現(xiàn)中,所述基于所述預(yù)測(cè)結(jié)果確定監(jiān)督類型損失,包括;

22、基于所述預(yù)測(cè)結(jié)果和所述偽標(biāo)簽確定第一監(jiān)督損失,并且基于所述預(yù)測(cè)結(jié)果和所述真實(shí)標(biāo)簽確定第二監(jiān)督損失,所述第一監(jiān)督損失和所述第二監(jiān)督損失組成監(jiān)督類型損失。

23、一個(gè)可能的實(shí)現(xiàn)中,所述檢測(cè)頭包括回歸層和分類頭,所述基于所述目標(biāo)特征和所述文本特征,采用檢測(cè)頭得到預(yù)測(cè)結(jié)果,包括:

24、采用所述回歸層對(duì)所述目標(biāo)特征進(jìn)行處理,得到邊框預(yù)測(cè)結(jié)果;

25、采用所述分類頭的分類層對(duì)所述目標(biāo)框進(jìn)行處理,得到維度與文本特征維度相同的處理目標(biāo)特征;

26、采用所述分類頭將所述處理目標(biāo)特征與所述文本特征進(jìn)行相似度匹配,得到分類預(yù)測(cè)結(jié)果;

27、所述邊框預(yù)測(cè)結(jié)果和所述分類預(yù)測(cè)結(jié)果組成預(yù)測(cè)結(jié)果。

28、一個(gè)可能的實(shí)現(xiàn)中,所述基于混淆原型對(duì)比學(xué)習(xí)算法對(duì)所述目標(biāo)特征進(jìn)行無監(jiān)督學(xué)習(xí),得到對(duì)比學(xué)習(xí)損失,包括:

29、初始化特征池和原型點(diǎn),每個(gè)特征池對(duì)應(yīng)一個(gè)原型點(diǎn);

30、在每次訓(xùn)練過程中,根據(jù)真實(shí)標(biāo)簽和偽標(biāo)簽,將對(duì)應(yīng)的目標(biāo)特征保存進(jìn)對(duì)應(yīng)的特征池中;

31、每進(jìn)行完設(shè)定批次的訓(xùn)練后,更新特征池的原型點(diǎn);

32、訓(xùn)練過程中,針對(duì)每個(gè)目標(biāo)特征,確定其預(yù)測(cè)結(jié)果中置信度最高的n個(gè)類別,n為大于1的正整數(shù),n個(gè)類別中包括對(duì)應(yīng)當(dāng)前目標(biāo)特征的真實(shí)類別,其余n-1個(gè)類別為當(dāng)前目標(biāo)特征的混淆類別;

33、基于所述真實(shí)類別和所述混淆類別對(duì)應(yīng)的特征原型計(jì)算確定對(duì)比學(xué)習(xí)損失。

34、一個(gè)可能的實(shí)現(xiàn)中,所述更新特征池的原型點(diǎn),包括:

35、對(duì)每個(gè)類別的特征池中的所有目標(biāo)特征進(jìn)行聚類處理,得到聚類中心;

36、將所述聚類中心確定為對(duì)應(yīng)特征池最新的原型點(diǎn)。

37、一個(gè)可能的實(shí)現(xiàn)中,所述預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)為凍結(jié)模型。

38、本申請(qǐng)還提供了一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練裝置,包括:

39、數(shù)據(jù)獲得模塊,用于獲得訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽;

40、偽標(biāo)簽確定模塊,用于基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽;

41、模型訓(xùn)練模塊,用于基于所述偽標(biāo)簽和真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型。

42、經(jīng)由上述的技術(shù)方案可知,本申請(qǐng)實(shí)施例公開了一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置,方法包括:獲得訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽;基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽;基于所述偽標(biāo)簽和真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型。上述方案利用預(yù)訓(xùn)練的區(qū)域建議網(wǎng)絡(luò)和圖像-文本多模態(tài)模型生成潛在未知目標(biāo)的偽標(biāo)簽,再通過混淆原型對(duì)比學(xué)習(xí)來緩解偽標(biāo)簽的噪聲對(duì)訓(xùn)練產(chǎn)生的負(fù)面影響,實(shí)現(xiàn)了簡(jiǎn)單高效的開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練。



技術(shù)特征:

1.一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述基于預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽,包括:

3.根據(jù)權(quán)利要求2所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述對(duì)所述編碼目標(biāo)特征和所述文本特征進(jìn)行相似度匹配,得到所述訓(xùn)練圖像中所有目標(biāo)的偽標(biāo)簽,包括:

4.根據(jù)權(quán)利要求2所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述檢測(cè)器包括骨干網(wǎng)絡(luò)和檢測(cè)頭,所述基于所述偽標(biāo)簽和所述真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型,包括:

5.根據(jù)權(quán)利要求4所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述基于所述預(yù)測(cè)結(jié)果確定監(jiān)督類型損失,包括;

6.根據(jù)權(quán)利要求4所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述檢測(cè)頭包括回歸層和分類頭,所述基于所述目標(biāo)特征和所述文本特征,采用檢測(cè)頭得到預(yù)測(cè)結(jié)果,包括:

7.根據(jù)權(quán)利要求4所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述基于混淆原型對(duì)比學(xué)習(xí)算法對(duì)所述目標(biāo)特征進(jìn)行無監(jiān)督學(xué)習(xí),得到對(duì)比學(xué)習(xí)損失,包括:

8.根據(jù)權(quán)利要求7所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述更新特征池的原型點(diǎn),包括:

9.根據(jù)權(quán)利要求1所述的多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法,其特征在于,所述預(yù)訓(xùn)練的圖像-文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)為凍結(jié)模型。

10.一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練裝置,其特征在于,包括:


技術(shù)總結(jié)
本申請(qǐng)公開了一種多模態(tài)開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置,涉及計(jì)算機(jī)視覺技術(shù)領(lǐng)域,方法包括:獲得訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練圖像以及對(duì)應(yīng)的真實(shí)標(biāo)簽;基于預(yù)訓(xùn)練的圖像?文本匹配模型以及類別無關(guān)的區(qū)域建議網(wǎng)絡(luò)確定所述訓(xùn)練圖像中待確定目標(biāo)的偽標(biāo)簽;基于所述偽標(biāo)簽和真實(shí)標(biāo)簽,結(jié)合混淆原型對(duì)比學(xué)習(xí)算法對(duì)檢測(cè)器進(jìn)行訓(xùn)練,得到目標(biāo)檢測(cè)模型。上述方案利用預(yù)訓(xùn)練的區(qū)域建議網(wǎng)絡(luò)和圖像?文本多模態(tài)模型生成潛在未知目標(biāo)的偽標(biāo)簽,再通過混淆原型對(duì)比學(xué)習(xí)來緩解偽標(biāo)簽的噪聲對(duì)訓(xùn)練產(chǎn)生的負(fù)面影響,實(shí)現(xiàn)了簡(jiǎn)單高效的開放詞匯目標(biāo)檢測(cè)模型的訓(xùn)練。

技術(shù)研發(fā)人員:蔣樂,程鴻強(qiáng),李國(guó)明,葉曉舟,歐陽曄
受保護(hù)的技術(shù)使用者:亞信科技(中國(guó))有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1