一種與音頻信息對齊的長視頻理解增強方法及裝置與流程

文檔序號：40387534發(fā)布日期：2024-12-20 12:10閱讀：來源：國知局

技術特征：

1.一種與音頻信息對齊的長視頻理解增強的方法，其特征在于，具體包括如下步驟：

2.根據(jù)權利要求1所述的一種與音頻信息對齊的長視頻理解增強的方法，其特征在于，還包括，

3.根據(jù)權利要求1所述的一種與音頻信息對齊的長視頻理解增強的方法，其特征在于，步驟s4中，將x作為query，m作為key和value輸入resampler模塊進行交叉注意力處理，形成大小為的特征o，具體包括如下步驟：

4.根據(jù)權利要求3所述的一種與音頻信息對齊的長視頻理解增強的方法，其特征在于，步驟s401中，通過三個線性層wq、wk和wv映射特征x與特征m，形成特征q、特征k和特征v，具體表示如下所示：

5.根據(jù)權利要求3所述的一種與音頻信息對齊的長視頻理解增強的方法，其特征在于，步驟s402中，通過特征q、特征k和特征v進行softmax運算，形成特征o，具體表示如下所示：

6.一種與音頻信息對齊的長視頻理解增強的裝置，其特征在于，具體包括如下模塊：

7.根據(jù)權利要求6所述的一種與音頻信息對齊的長視頻理解增強的裝置，其特征在于，還包括，

8.一種計算機可讀存儲介質(zhì)，其特征在于，所述計算機可讀存儲介質(zhì)存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1-5任一項所述的一種與音頻信息對齊的長視頻理解增強的方法。

9.一種電子設備，其特征在于，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1-5任一項所述的一種與音頻信息對齊的長視頻理解增強的方法。

技術總結
本發(fā)明提供一種與音頻信息對齊的長視頻理解增強方法及裝置，解決了現(xiàn)有技術中存在的對視頻數(shù)據(jù)進行處理時，未考慮視頻中的音頻信息以及大語言模型的訓練和推理的成本大的問題。1）通過交叉注意力模塊，實現(xiàn)了在增強視頻時空特征融合的同時也減小了視頻畫面特征的序列長度，進一步減小了訓練成本；2）通過編碼視頻中的音頻信息并下采樣至視頻畫面特征的序列長度，實現(xiàn)了視頻中音頻模態(tài)與對齊；3）將時間維度對齊的音頻模態(tài)與畫面模態(tài)相加，進行了信息的融合。將音頻模態(tài)經(jīng)過下采樣與間隔選取的視頻畫面模態(tài)長度進行對齊，保留了全部信息。然后與畫面模態(tài)相加，補齊了畫面模態(tài)中因為間隔抽幀而造成的信息缺失問題。

技術研發(fā)人員：李騁遠,劉邦貴
受保護的技術使用者：上海巖芯數(shù)智人工智能科技有限公司
技術研發(fā)日：
技術公布日：2024/12/19

完整全部詳細技術資料下載

當前第2頁1 2

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種與音頻信息對齊的長視頻理解增強方法及裝置與流程