亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

視覺目標跟蹤模型的訓練方法及裝置、跟蹤方法及裝置

文檔序號:40374119發(fā)布日期:2024-12-20 11:56閱讀:5來源:國知局
視覺目標跟蹤模型的訓練方法及裝置、跟蹤方法及裝置

本公開涉及視覺目標跟蹤和人工智能領域,尤其涉及一種視覺目標跟蹤模型的訓練方法及裝置、跟蹤方法及裝置。


背景技術:

1、視覺單目標跟蹤是計算機視覺中的一項基本任務,以視頻中的視覺跟蹤為例,它給定一段視頻中的第一幀圖像和對應的目標包圍框,要求預測后續(xù)幀中的目標包圍框。目標跟蹤在機器視覺、智能監(jiān)控、無人駕駛等領域具有重要應用。

2、在相關技術中,存在雙流架構和單流架構,其中,雙流架構作為一種傳統(tǒng)的跟蹤器架構,具有模板分支和搜索分支兩個分支,分別用于提取模板圖像和搜索圖像的特征,并且根據二者的特征預測搜索圖像中的目標包圍框和置信度。而單流架構作為一種新興的跟蹤器架構,其可以基于transformer架構使用令牌的數據形式,能夠將模板圖像和搜索圖像的令牌進行拼接,一次性處理,通常精度相比雙流結構更高。

3、現有的單流跟蹤器相對于雙流跟蹤器雖然在精度上有優(yōu)勢,但由于每一幀都需要重新計算模板特征,存在一定的計算冗余,限制了推理速度。


技術實現思路

1、本公開提供一種視覺目標跟蹤模型的訓練方法及裝置、跟蹤方法及裝置,以至少解決現有的單流跟蹤器存在一定的計算冗余、限制推理速度的問題。本發(fā)明結合單流結構和雙流架構的優(yōu)點,提出一種具有信使令牌的雙流跟蹤器,同時提高速度和精度。本公開的技術方案如下:

2、根據本公開的第一方面,提供一種視覺目標跟蹤模型的訓練方法,所述視覺目標跟蹤模型包括特征嵌入模塊、信息集成模塊、特征提取模塊、特征融合模塊和預測頭,所述特征提取模塊包括多個層,其中,所述訓練方法包括:獲取多對訓練樣本,其中,每對訓練樣本包括模板樣本圖像、搜索樣本圖像以及樣本標注信息,所述模板樣本圖像中包含需要跟蹤的視覺目標,所述樣本標注信息表征所述視覺目標在所述搜索樣本圖像中的包圍框,其中,所述樣本標注信息包括真實標注信息和蒸餾標注信息;將所述訓練樣本輸入到所述特征嵌入模塊,得到模板圖像特征和搜索圖像特征;利用所述特征提取模塊的各層,對第一特征和第二特征執(zhí)行特征提取操作,得到第一提取結果和第二提取結果,其中,所述第一特征包括所述模板圖像特征和第一信使特征,所述第二特征包括所述搜索圖像特征、第二信使特征、目標令牌和蒸餾令牌,所述第一信使特征和所述第二信使特征均包括可學習的參數,所述第一信使特征和所述第二信使特征相同,所述目標令牌和所述蒸餾令牌均包括可學習參數,其中,對于所述特征提取模塊的相鄰兩層,利用所述信息集成模塊,基于前一層的與所述第一信使特征對應的輸出特征以及與所述第二信使特征對應的輸出特征,確定后一層的與所述第二信使特征對應的輸入特征;利用所述特征融合模塊,對所述第一提取結果和所述第二提取結果進行融合,得到融合結果;利用所述預測頭,基于所述融合結果進行預測,得到預測跟蹤結果,其中,所述預測跟蹤結果表示所述模板樣本圖像中的視覺目標在所述搜索樣本圖像中的包圍框;基于所述預測跟蹤結果、所述真實標注信息和所述蒸餾標注信息得到訓練損失,對所述視覺目標跟蹤模型進行訓練,得到訓練好的視覺目標跟蹤模型。

3、可選地,所述特征提取模塊的每個層的輸入包括第一輸入特征和第二輸入特征,所述特征提取模塊的每個層的輸出包括第一輸出特征和第二輸出特征,所述第一輸出特征包括模板圖像提取特征和第一信使提取特征,所述第二輸出特征包括搜索圖像提取特征和第二信使提取特征,其中,針對所述特征提取模塊的每個層,所述特征提取操作包括:將前一層輸出的第一輸出特征作為當前層的第一輸入特征,輸入到當前層,得到當前層的第一輸出特征;利用所述信息集成模塊,將前一層輸出的第一信使提取特征與前一層輸出的第二信使提取特征集成,得到新的信使提取特征;利用所述新的信使提取特征替換前一層輸出的第二輸出特征中的第二信使提取特征,得到新的第二輸出特征;將所述新的第二輸出特征作為當前層的第二輸入特征,輸入到當前層,得到當前層的第二輸出特征,其中,所述特征提取模塊的第一層的第一輸入特征和第二輸入特征分別為所述第一特征和所述第二特征,所述特征提取模塊的最后一層的第一輸出特征和第二輸出特征分別包括所述第一提取結果和所述第二提取結果。

4、可選地,所述信息集成模塊通過以下方式中的一者得到所述新的信使提取特征:直接將所述第二信使提取特征作為所述新的信使提取特征;將所述第一信使提取特征與所述第二信使提取特征相加,得到所述新的信使提取特征;直接將所述第一信使提取特征作為所述新的信使提取特征。

5、可選地,所述蒸餾標注信息基于預先訓練好的教師模型針對所述訓練樣本預測得到的教師預測結果確定,所述預測跟蹤結果包括與所述目標令牌對應的目標預測結果和與所述蒸餾令牌對應的蒸餾預測結果,其中,通過以下方式對所述視覺目標跟蹤模型進行訓練:通過比較所述目標預測結果和所述真實標注信息,得到第一損失;通過比較所述蒸餾預測結果和所述蒸餾標注信息,得到第二損失;基于所述第一損失和所述第二損失,確定預測損失;利用所述預測損失,調整所述視覺目標跟蹤模型的參數,以對所述視覺目標跟蹤模型進行訓練。

6、可選地,所述真實標注信息包括真實包圍框,所述蒸餾標注信息包括蒸餾包圍框,所述教師預測結果包括教師包圍框,其中,通過以下方式得到所述蒸餾包圍框:基于平滑系數,對所述真實包圍框和所述教師包圍框進行加權后求和,得到所述蒸餾包圍框,其中,所述平滑系數表示所述真實包圍框在所述蒸餾包圍框中所占的比重。

7、可選地,所述視覺目標跟蹤模型還包括全連接層和sigmoid層,其中,通過以下方式確定所述平滑系數:將所述融合結果中與所述目標令牌對應的特征輸入到所述全連接層,得到全連接特征;將所述全連接特征輸入到所述sigmoid層,得到所述平滑系數,其中,所述平滑系數為在[0,1]范圍內的標量。

8、根據本公開的第二方面,提供一種視覺目標跟蹤方法,所述視覺目標跟蹤方法包括:獲取目標模板圖像和目標搜索圖像,其中,所述目標模板圖像包含需要跟蹤的視覺目標;將所述目標模板圖像和所述目標搜索圖像輸入到視覺目標跟蹤模型中,利用所述視覺目標跟蹤模型,預測所述視覺目標在所述目標搜索圖像中的包圍框,其中,所述視覺目標跟蹤模型是根據本公開的實施例所述的視覺目標跟蹤模型的訓練方法訓練得到的。

9、根據本公開的第三方面,提供一種視覺目標跟蹤模型的訓練系統(tǒng),所述視覺目標跟蹤模型包括特征嵌入模塊、信息集成模塊、特征提取模塊、特征融合模塊和預測頭,所述特征提取模塊包括多個層,其中,所述訓練系統(tǒng)包括:樣本獲取單元,被配置為獲取多對訓練樣本,其中,每對訓練樣本包括模板樣本圖像、搜索樣本圖像以及樣本標注信息,所述模板樣本圖像中包含需要跟蹤的視覺目標,所述樣本標注信息表征所述視覺目標在所述搜索樣本圖像中的包圍框,其中,所述樣本標注信息包括真實標注信息和蒸餾標注信息;第一確定單元,被配置為將所述訓練樣本輸入到所述特征嵌入模塊,得到模板圖像特征和搜索圖像特征;第二確定單元,被配置為利用所述特征提取模塊的各層,對第一特征和第二特征執(zhí)行特征提取操作,得到第一提取結果和第二提取結果,其中,所述第一特征包括所述模板圖像特征和第一信使特征,所述第二特征包括所述搜索圖像特征、第二信使特征、目標令牌和蒸餾令牌,所述第一信使特征和所述第二信使特征均為可學習的參數,所述第一信使特征和所述第二信使特征相同,所述目標令牌和所述蒸餾令牌均包括可學習參數,其中,對于所述特征提取模塊的相鄰兩層,利用所述信息集成模塊,基于前一層的與所述第一信使特征對應的輸出特征以及與所述第二信使特征對應的輸出特征,確定后一層的與所述第二信使特征對應的輸入特征;樣本融合單元,被配置為利用所述特征融合模塊,對所述第一提取結果和所述第二提取結果進行融合,得到融合結果;樣本預測單元,被配置為利用所述預測頭,基于所述融合結果進行預測,得到預測跟蹤結果,其中,所述預測跟蹤結果表示所述模板樣本圖像中的視覺目標在所述搜索樣本圖像中的包圍框;訓練單元,被配置為基于所述預測跟蹤結果、所述真實標注信息和所述蒸餾標注信息得到訓練損失,對所述視覺目標跟蹤模型進行訓練,得到訓練好的視覺目標跟蹤模型。

10、根據本公開的第四方面,提供一種視覺目標跟蹤系統(tǒng),所述視覺目標跟蹤系統(tǒng)包括:圖像獲取單元,被配置為獲取目標模板圖像和目標搜索圖像,其中,所述目標模板圖像包含需要跟蹤的視覺目標;視覺預測單元,被配置為將所述目標模板圖像和所述目標搜索圖像輸入到視覺目標跟蹤模型中,利用所述視覺目標跟蹤模型,預測所述視覺目標在所述目標搜索圖像中的包圍框,其中,所述視覺目標跟蹤模型是根據本公開所述的視覺目標跟蹤模型的訓練方法訓練得到的。

11、根據本公開的第五方面,提供一種電子設備,所述電子設備包括:處理器;用于存儲所述處理器可執(zhí)行指令的存儲器,其中,所述處理器可執(zhí)行指令在被所述處理器運行時,促使所述處理器執(zhí)行根據本公開的實施例所述的視覺目標跟蹤模型的訓練方法或視覺目標跟蹤方法。

12、根據本公開的第六方面,提供一種計算機可讀存儲介質,當所述計算機可讀存儲介質中的指令由電子設備的處理器執(zhí)行時,使得所述電子設備能夠執(zhí)行根據本公開的實施例所述的視覺目標跟蹤模型的訓練方法或視覺目標跟蹤方法。

13、根據本公開的第七方面,提供一種計算機程序產品,包括計算機可執(zhí)行指令,所述計算機可執(zhí)行指令被至少一個處理器執(zhí)行時實現根據本公開的實施例所述的視覺目標跟蹤模型的訓練方法或視覺目標跟蹤方法。

14、本公開提供的技術方案至少帶來以下有益效果:

15、采用本公開的方案,可以針對視覺目標跟蹤模型的特征嵌入模塊得到的模板圖像特征和搜索圖像特征,分別引入具有可學習參數的信使特征,使得相應的信使特征可以學習到相應的圖像特征提取分支的信息,在特征提取過程中,引入這樣的信使特征可以提高特征提取的效果,使得模型更準確地捕捉到模板圖像中的視覺信息,從而在保留了對模板圖像和搜索圖像分別進行特征提取的雙分支架構所具有的高推理速度的優(yōu)勢的同時,還能夠提高模型的推理精度。

16、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1