1.一種與音頻信息對齊的長視頻理解增強的方法,其特征在于,具體包括如下步驟:
2.根據(jù)權利要求1所述的一種與音頻信息對齊的長視頻理解增強的方法,其特征在于,還包括,
3.根據(jù)權利要求1所述的一種與音頻信息對齊的長視頻理解增強的方法,其特征在于,步驟s4中,將x作為query,m作為key和value輸入resampler模塊進行交叉注意力處理,形成大小為的特征o,具體包括如下步驟:
4.根據(jù)權利要求3所述的一種與音頻信息對齊的長視頻理解增強的方法,其特征在于,步驟s401中,通過三個線性層wq、wk和wv映射特征x與特征m,形成特征q、特征k和特征v,具體表示如下所示:
5.根據(jù)權利要求3所述的一種與音頻信息對齊的長視頻理解增強的方法,其特征在于,步驟s402中,通過特征q、特征k和特征v進行softmax運算,形成特征o,具體表示如下所示:
6.一種與音頻信息對齊的長視頻理解增強的裝置,其特征在于,具體包括如下模塊:
7.根據(jù)權利要求6所述的一種與音頻信息對齊的長視頻理解增強的裝置,其特征在于,還包括,
8.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1-5任一項所述的一種與音頻信息對齊的長視頻理解增強的方法。
9.一種電子設備,其特征在于,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1-5任一項所述的一種與音頻信息對齊的長視頻理解增強的方法。