一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)方法及裝置與流程

文檔序號(hào)：40387534發(fā)布日期：2024-12-20 12:10閱讀：16來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及大語言模型，尤其涉及一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)方法及裝置。

背景技術(shù)：

1、現(xiàn)有的視頻理解方案均基于大型視覺-語言模型（lvlm），即將視頻幀的畫面信息編碼后與文本question的編碼特征一起送入大語言模型，并將對(duì)應(yīng)的文本answer作為標(biāo)簽進(jìn)行模型訓(xùn)練，從而使文本空間與視頻特征空間對(duì)齊，進(jìn)而實(shí)現(xiàn)視頻理解任務(wù)。進(jìn)一步地，對(duì)于長視頻理解，現(xiàn)有方案往往盡可能的抽取多幀送入模型，從而盡可能保留視頻的空間和時(shí)間信息。

2、雖然現(xiàn)有技術(shù)方案其實(shí)現(xiàn)較為簡單，但卻存在如下缺點(diǎn)：1）現(xiàn)有方案沒有利用視頻中的音頻信息：即現(xiàn)有方案僅將視頻的畫面信息作為模型的輸入，而忽略了視頻中的音頻信息（如背景音樂、視頻中人說的話），因此，得到的視頻理解模型無法正確理解視頻中的音頻信息，進(jìn)而無法準(zhǔn)確的進(jìn)行視頻理解；2）現(xiàn)有方案對(duì)于長視頻的理解通常是盡可能的抽取多幀以保留長視頻的空間和時(shí)間信息：然而這樣會(huì)大大增加大語言模型的輸入序列長度（視頻token的數(shù)量），從而極大地增加了大語言模型的訓(xùn)練和推理的成本。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)方法及裝置，以解決現(xiàn)有技術(shù)中存在的對(duì)視頻數(shù)據(jù)進(jìn)行處理時(shí)，未考慮視頻中的音頻信息以及大語言模型的訓(xùn)練和推理的成本大的問題。

2、第一個(gè)方面，本發(fā)明提供了一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)方法，具體包括如下步驟：

3、步驟s1、獲取視頻數(shù)據(jù)data1，對(duì)數(shù)據(jù)data1的畫面信息和音頻信息進(jìn)行抽取，形成a幀視頻幀數(shù)據(jù)data2和音頻數(shù)據(jù)data3；

4、步驟s2、從所述數(shù)據(jù)data2中等間隔抽取k幀視頻幀，并對(duì)所述k幀視頻幀通過視頻編碼器進(jìn)行特征編碼，形成大小為的視頻編碼特征m（密集的視頻畫面特征）；

5、步驟s3、從所述數(shù)據(jù)data2中等間隔抽取n幀視頻幀，并對(duì)所述n幀視頻幀通過視頻編碼器進(jìn)行特征編碼，形成大小為的視頻編碼特征x（稀疏的視頻畫面特征）；或

6、從視頻編碼特征m中獲取等間隔抽取n幀視頻幀對(duì)應(yīng)的視頻編碼特征，形成大小為的視頻編碼特征x；

7、步驟s4、將x作為query，m作為key和value輸入resampler模塊進(jìn)行交叉注意力處理，形成大小為的特征o；

8、步驟s5、對(duì)所述音頻數(shù)據(jù)data3進(jìn)行編碼，形成音頻編碼特征y；

9、步驟s6、將所述音頻編碼特征y輸入下采樣模塊，形成大小為的音頻編碼特征p；

10、步驟s7、將所述特征o和所述特征p進(jìn)行特征疊加，形成特征r；或

11、將所述特征o和所述特征p進(jìn)行特征拼接，形成特征r。

12、其中，步驟s2中，所述k幀視頻幀包括起始幀和末尾幀。

13、其中，步驟s3中，所述n幀視頻幀包括起始幀和末尾幀。

14、其中，n、k、k1、n1均為正整數(shù)，k>n；；。

15、其中，b、d均為正整數(shù)；b表示批大?。╞atch_size）；h表示高；w表示寬；d表示維度。

16、優(yōu)選地，一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)方法還包括：

17、步驟s8、將所述特征r、文本prompt-p和文本prompt-p的答案l輸入大語言模型llm，通過損失函數(shù)對(duì)大語言模型進(jìn)行訓(xùn)練，形成訓(xùn)練后的大語言模型llm-new。

18、優(yōu)選地，步驟s1中，對(duì)數(shù)據(jù)data1的畫面信息和音頻信息進(jìn)行抽取采用包括torchvideo實(shí)現(xiàn)。

19、其中，步驟s3中，所述“對(duì)應(yīng)”表示對(duì)于第i幀（i為正整數(shù)）視頻幀，經(jīng)過視頻編碼器編碼后形成的視頻編碼特征。

20、優(yōu)選地，步驟s4中，將x作為query，m作為key和value輸入resampler模塊進(jìn)行交叉注意力處理，形成大小為的特征o，具體包括如下步驟：

21、步驟s401、通過三個(gè)線性層wq、wk和wv映射特征x與特征m，形成特征q、特征k和特征v；

22、步驟s402、通過特征q、特征k和特征v進(jìn)行softmax運(yùn)算，形成特征o。

23、優(yōu)選地，步驟s401中，通過三個(gè)線性層wq、wk和wv映射特征x與特征m，形成特征q、特征k和特征v，具體表示如下所示：

24、q=wqx

25、k=wkm

26、v=wvm

27、優(yōu)選地，步驟s402中，通過特征q、特征k和特征v進(jìn)行softmax運(yùn)算，形成特征o，具體表示如下所示：

28、o=softmax(qkt)v

29、其中，t表示轉(zhuǎn)置。

30、優(yōu)選地，步驟s6中，所述下采樣模塊包括卷積層和池化層。

31、其中，在本技術(shù)中，所述特征疊加表示相同大小的矩陣，每個(gè)矩陣相同位置的元素之間相加，例如，兩個(gè)2×2×1的矩陣a和矩陣b，矩陣a為，矩陣b為，則矩陣a和矩陣b的疊加為2×2×1的矩陣c，矩陣c為；所述特征拼接表示矩陣a和矩陣b之間拼接，形成2×2×2矩陣d；特征和o與特征p進(jìn)行特征疊加，形成大小為b×n1×d的特征r；特征o與特征p進(jìn)行特征拼接，形成大小為的特征r。

32、第二個(gè)方面，本發(fā)明還提供了一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)裝置，具體包括如下模塊：

33、視頻數(shù)據(jù)抽取模塊，用于獲取視頻數(shù)據(jù)data1，對(duì)數(shù)據(jù)data1的畫面信息和音頻信息進(jìn)行抽取，形成a幀視頻幀數(shù)據(jù)data2和音頻數(shù)據(jù)data3；

34、視頻第一編碼模塊，用于從所述數(shù)據(jù)data2中等間隔抽取k幀視頻幀，并對(duì)所述k幀視頻幀通過視頻編碼器進(jìn)行特征編碼，形成大小為的視頻編碼特征m（密集的視頻畫面特征）；

35、視頻第二編碼模塊，用于從所述數(shù)據(jù)data2中等間隔抽取n幀視頻幀，并對(duì)所述n幀視頻幀通過視頻編碼器進(jìn)行特征編碼，形成大小為的視頻編碼特征x（稀疏的視頻畫面特征）；或

36、用于從視頻編碼特征m中獲取等間隔抽取n幀視頻幀對(duì)應(yīng)的視頻編碼特征，形成大小為的視頻編碼特征x；

37、交叉注意力模塊，用于將x作為query，m作為key和value輸入resampler模塊進(jìn)行交叉注意力處理，形成大小為的特征o；

38、音頻編碼模塊，用于對(duì)所述音頻數(shù)據(jù)data3進(jìn)行編碼，形成音頻編碼特征y；

39、音頻特征采樣模塊，用于將所述音頻編碼特征y輸入下采樣模塊，形成大小為的音頻編碼特征p；

40、特征融合模塊，用于將所述特征o和所述特征p進(jìn)行特征疊加，形成特征r；或

41、用于將所述特征o和所述特征p進(jìn)行特征拼接，形成特征r。

42、其中，視頻第一編碼模塊中，所述k幀視頻幀包括起始幀和末尾幀。

43、其中，視頻第二編碼模塊中，所述n幀視頻幀包括起始幀和末尾幀。

44、其中，n、k、k1、n1均為正整數(shù)，k>n；；。

45、其中，b、d均為正整數(shù)；b表示批大?。╞atch_size）；h表示高；w表示寬；d表示維度。

46、優(yōu)選地，一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)裝置還包括：

47、大語言模型訓(xùn)練模塊，用于將所述特征r、文本prompt-p和文本prompt-p的答案l輸入大語言模型llm，通過損失函數(shù)對(duì)大語言模型進(jìn)行訓(xùn)練，形成訓(xùn)練后的大語言模型llm-new。

48、優(yōu)選地，視頻數(shù)據(jù)抽取模塊中，對(duì)數(shù)據(jù)data1的畫面信息和音頻信息進(jìn)行抽取采用包括torchvideo實(shí)現(xiàn)。

49、優(yōu)選地，交叉注意力模塊中，將x作為query，m作為key和value輸入resampler模塊進(jìn)行交叉注意力處理，形成大小為的特征o，具體包括如下子模塊：

50、第一處理子模塊，用于通過三個(gè)線性層wq、wk和wv映射特征x與特征m，形成特征q、特征k和特征v；

51、第二處理子模塊，用于通過特征q、特征k和特征v進(jìn)行softmax運(yùn)算，形成大小為的特征o。

52、優(yōu)選地，第一處理子模塊，用于通過三個(gè)線性層wq、wk和wv映射特征x與特征m，形成特征q、特征k和特征v，具體表示如下所示：

53、q=wqx

54、k=wkm

55、v=wvm

56、優(yōu)選地，第二處理子模塊，用于通過特征q、特征k和特征v進(jìn)行softmax運(yùn)算，形成大小為的特征o，具體表示如下所示：

57、o=softmax(qkt)v

58、優(yōu)選地，音頻特征采樣模塊中，所述下采樣模塊包括卷積層和池化層。

59、第三個(gè)方面，本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本技術(shù)第一方面中任一項(xiàng)所述的一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)方法。

60、第四個(gè)方面，本發(fā)明還提供一種電子設(shè)備，所述電子設(shè)備包括：存儲(chǔ)器，存儲(chǔ)有一計(jì)算機(jī)程序：處理器，與所述存儲(chǔ)器通信相連，調(diào)用所述計(jì)算機(jī)程序時(shí)執(zhí)行本技術(shù)第一方面中任一項(xiàng)所述的一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)方法。

61、本發(fā)明與現(xiàn)有技術(shù)相比較，具有如下顯而易見的突出實(shí)質(zhì)性特點(diǎn)和顯著優(yōu)點(diǎn)：

62、本發(fā)明提供一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)方法及裝置，解決了現(xiàn)有技術(shù)中存在的對(duì)視頻數(shù)據(jù)進(jìn)行處理時(shí)，未考慮視頻中的音頻信息以及大語言模型的訓(xùn)練和推理的成本大的問題。1）通過交叉注意力模塊，將稀疏的視頻畫面特征作為query，密集的視頻畫面特征作為key和value，從而將key、value中包含的豐富的空間特征信息與query中的時(shí)間信息相融合，并得到長度等于音頻信息的特征，在增強(qiáng)視頻時(shí)空特征融合的同時(shí)也減小了視頻畫面特征的序列長度，進(jìn)一步減小了訓(xùn)練成本；2）通過編碼視頻中的音頻信息并下采樣至視頻畫面特征的序列長度，實(shí)現(xiàn)了視頻中音頻模態(tài)與對(duì)齊；3）將時(shí)間維度對(duì)齊的音頻模態(tài)與畫面模態(tài)相加，進(jìn)行了信息的融合。同時(shí)，雖然視頻畫面保留了起始幀和末尾幀，但是仍然是間隔著取的，這就導(dǎo)致即使進(jìn)行了交叉注意力，仍然有部分信息丟失。此時(shí)音頻模態(tài)并未間隔取樣，而是經(jīng)過下采樣來對(duì)齊視頻畫面模態(tài)長度，保留了全部信息。然后與畫面模態(tài)相加，補(bǔ)齊了畫面模態(tài)中因?yàn)殚g隔抽幀而造成的信息缺失問題。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李騁遠(yuǎn),劉邦貴
技術(shù)所有人：上海巖芯數(shù)智人工智能科技有限公司
我是此專利的發(fā)明人

上一篇：一種帶有外側(cè)面清洗設(shè)備的商砼攪拌裝置的制作方法
上一篇：染液提取裝置、血液分析儀的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種與音頻信息對(duì)齊的長視頻理解增強(qiáng)方法及裝置與流程