基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法、裝置及設(shè)備與流程

文檔序號：40450050發(fā)布日期：2024-12-27 09:15閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法、裝置及設(shè)備與流程

本發(fā)明涉及圖像處理，尤其涉及一種基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法、裝置及設(shè)備。

背景技術(shù)：

1、隨著視頻數(shù)據(jù)的爆炸式增長，視頻內(nèi)容分析在現(xiàn)代信息處理和管理中扮演著越來越重要的角色。高效、精準(zhǔn)的視頻內(nèi)容分析不僅能提升用戶體驗，還能為各種應(yīng)用場景提供支持，如視頻推薦系統(tǒng)、內(nèi)容審核、版權(quán)保護(hù)以及廣告投放等。尤其是在數(shù)字媒體廣告投放行業(yè)，我們可以通過自動化的視頻內(nèi)容分析，快速獲取視頻中的關(guān)鍵信息，節(jié)省人力資源，提高信息處理效率，并且有助于更好地理解和利用視頻數(shù)據(jù)。目前，視頻內(nèi)容分析的常見方案主要集中在以下幾個方面：人工標(biāo)注和分類：依賴于人工對視頻內(nèi)容進(jìn)行手動標(biāo)注和分類，盡管其可以達(dá)到很高的精度，但人力成本高昂，且效率偏低；通過顏色直方圖、運動檢測等手段進(jìn)行初步的內(nèi)容識別。這種方法可以快速識別總結(jié)視頻畫面中所出現(xiàn)的所有信息，在處理簡單場景時較為有效，但面對廣告視頻素材、剪輯成片等復(fù)雜、多變的內(nèi)容時，準(zhǔn)確性和魯棒性不足；使用已有大模型算法進(jìn)行內(nèi)容解析，對使用者的學(xué)習(xí)成本較高，需要人工反復(fù)訓(xùn)練提示模型，后續(xù)再手動剔除無用信息，才能得到想要的結(jié)果，往往會占用系統(tǒng)和使用者的大量時間；隨著機(jī)器學(xué)習(xí)和技術(shù)的發(fā)展，不論付出的時間和成本代價，上述方案都可以達(dá)到解析視頻內(nèi)容的目的，但是在通過上述方案實施的過程中，還是無法精準(zhǔn)解決以下問題：無法精準(zhǔn)關(guān)聯(lián)成片和素材的信息：成片與原始素材之間的關(guān)聯(lián)性不強(qiáng)，導(dǎo)致無法精確追蹤素材的使用效果；無法精準(zhǔn)進(jìn)行內(nèi)容拆解：現(xiàn)有技術(shù)在處理數(shù)字媒體廣告視頻多變的內(nèi)容時，準(zhǔn)確性和魯棒性不足，無法準(zhǔn)確拆解視頻含義。

2、現(xiàn)有中國專利cn112004111a公開了一種全域深度學(xué)習(xí)的新聞視頻信息抽提方法，包括：在視頻解碼層，由鏡頭標(biāo)簽?zāi)K通過tsm時空模型對每一個動態(tài)鏡頭進(jìn)行標(biāo)記，生成每一個動態(tài)鏡頭的標(biāo)簽；相似性計算模塊通過bm25算法對所有標(biāo)簽進(jìn)行相似度計算，鏡頭拼接模塊將標(biāo)簽相似的動態(tài)鏡頭拼接成主題視頻；圖像處理模塊獲取主題視頻，對主題視頻中的每一幀圖像采用光流法、灰度直方圖法、lucas–kanade算法和圖像熵計算法進(jìn)行處理，得到關(guān)鍵幀，并發(fā)送給關(guān)鍵幀緩存模塊進(jìn)行緩存；在圖像解析層，知名人物檢測模塊調(diào)取關(guān)鍵幀，利用yolov3模型做目標(biāo)物體檢測和職業(yè)檢測，利用facenet模型辨別知名人物；關(guān)鍵目標(biāo)檢測模塊利用facenet模型對關(guān)鍵幀中的目標(biāo)物體進(jìn)行識別；上述專利雖然也公開了色彩分布識別和人物主體識別，以及將多段鏡頭的視覺內(nèi)容進(jìn)行邏輯串聯(lián)，但仍然無法精準(zhǔn)關(guān)聯(lián)成片和素材的信息：成片與原始素材之間的關(guān)聯(lián)性不強(qiáng)，導(dǎo)致無法精確追蹤素材的使用效果；同時無法精準(zhǔn)進(jìn)行內(nèi)容拆解。

3、為此，如何在精準(zhǔn)關(guān)聯(lián)成片和素材的同時，準(zhǔn)確地對視頻內(nèi)容進(jìn)行識別分析是亟待解決的問題。

技術(shù)實現(xiàn)思路

1、有鑒于此，本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法、裝置及設(shè)備，用以解決現(xiàn)有技術(shù)中無法在精準(zhǔn)關(guān)聯(lián)成片與素材的同時，還準(zhǔn)確地對視頻內(nèi)容進(jìn)行識別分析的問題。

2、本發(fā)明采用的技術(shù)方案是：

3、第一方面，本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法，所述方法包括：

4、s1：獲取待解析的原始視頻素材；

5、s2：對所述原始視頻素材進(jìn)行轉(zhuǎn)碼處理，確定預(yù)設(shè)編碼格式的標(biāo)準(zhǔn)視頻數(shù)據(jù)；

6、s3：利用鏡頭切分技術(shù)，將所述標(biāo)準(zhǔn)視頻數(shù)據(jù)分解為多個視頻片段；

7、s4：利用預(yù)設(shè)的特征處理算法，將包含視頻素材信息的盲水印信息嵌入各視頻片段中的各幀圖像中；

8、s5：對嵌入盲水印信息后的各視頻片段進(jìn)行壓縮處理，確定壓縮視頻數(shù)據(jù)；

9、s6：利用預(yù)設(shè)的特征提取算法，對所述壓縮視頻數(shù)據(jù)進(jìn)行識別和分析，輸出與視頻內(nèi)容相關(guān)的文字信息和目標(biāo)視頻素材信息。

10、優(yōu)選地，所述s3包括：

11、s31：對標(biāo)準(zhǔn)視頻數(shù)據(jù)中的各幀圖像進(jìn)行灰度轉(zhuǎn)換，獲取各幀灰度圖像；

12、s32：利用邊緣檢測算法，對各幀所述灰度圖像進(jìn)行邊緣檢測，輸出邊緣特征信息；

13、s33：依據(jù)相鄰幀灰度圖像對應(yīng)的邊緣特征信息，確定邊緣特征變化差值；

14、s34：依據(jù)所述邊緣特征變化差值和預(yù)設(shè)的變化閾值，確定視頻邊界信息；

15、s35：依據(jù)所述視頻邊界信息，對所述標(biāo)準(zhǔn)視頻數(shù)據(jù)進(jìn)行分解，確定各所述視頻片段。

16、優(yōu)選地，所述s4包括：

17、s41：將待嵌入的視頻素材信息轉(zhuǎn)換為二進(jìn)制格式，確定編碼后的盲水印信息；

18、s42：對各視頻片段中的各幀圖像分別進(jìn)行分解處理，獲取區(qū)域圖像；

19、s43：對區(qū)域圖像進(jìn)行離散余弦變換，將區(qū)域圖像從空間域圖像轉(zhuǎn)換為頻域圖像；

20、s44：對頻域圖像中的高頻分量進(jìn)行調(diào)整，將盲水印信息嵌入所述頻域圖像中；

21、s45：對所述頻域圖像進(jìn)行逆離散余弦變換后重新組合，完成盲水印信息在各視頻片段的嵌入。

22、優(yōu)選地，所述s6包括：

23、s61：對各幀所述壓縮圖像進(jìn)行盲水印信息識別，輸出識別結(jié)果；

24、s62：若識別到所述盲水印信息，則獲取盲水印信息中嵌入的視頻素材信息作為目標(biāo)視頻素材信息；

25、s63：若未識別到所述盲水印信息，則對各幀所述壓縮圖像進(jìn)行特征提取與匹配，依據(jù)匹配結(jié)果，確定所述目標(biāo)視頻素材信息；

26、s64：將各幀壓縮圖像輸入預(yù)訓(xùn)練的特征提取模型中，輸出關(guān)鍵特征信息；

27、s65：將所述關(guān)鍵特征信息輸入多模態(tài)大語言模型中，輸出所述文字信息。優(yōu)選地，所述s61包括：

28、s611：將各幀所述壓縮圖像輸入預(yù)訓(xùn)練的自監(jiān)督視覺變換模型中，輸出編碼特征信息；

29、s612：利用近似最近鄰算法，將所述編碼特征信息與視頻素材數(shù)據(jù)庫中各視頻素材模板的特征模板信息進(jìn)行特征匹配，輸出匹配結(jié)果；

30、s613：依據(jù)所述匹配結(jié)果，將與編碼特征信息匹配上的特征模板信息對應(yīng)的視頻素材模板輸出為所述目標(biāo)視頻素材信息。

31、優(yōu)選地，所述s64包括：

32、s641：對所述壓縮視頻數(shù)據(jù)進(jìn)行解碼處理，獲取音頻數(shù)據(jù)；

33、s642：將壓縮圖像輸入預(yù)訓(xùn)練的人臉識別分類模型中，對識別出的壓縮圖像中的人臉特征進(jìn)行分類和標(biāo)注，確定人員信息；

34、s643：將壓縮圖像輸入預(yù)訓(xùn)練的色彩分析模型中，分析壓縮圖像中的顏色分布，提取主要色彩信息，其中，所述主要色彩信息至少包括在壓縮圖像中檢測到的廣告品牌色調(diào)或在廣告風(fēng)景畫中提取的主色調(diào)；

35、s644：將壓縮圖像輸入目標(biāo)檢測模型，對壓縮圖像中的物體進(jìn)行定位和分類，確定物品信息，其中，所述物品信息至少包括物品類別和物品位置；

36、s645：將所述音頻數(shù)據(jù)輸入預(yù)訓(xùn)練的語音轉(zhuǎn)錄模型中，輸出音頻數(shù)據(jù)中的音頻特征信息；

37、s646：將所述人員信息、色彩信息、物品信息和音頻特征信息分別輸入多模態(tài)大語言模型中，輸出所述關(guān)鍵特征信息。

38、優(yōu)選地，在所述s6之后還包括：

39、獲取待投放廣告的場景類型，其中，所述場景類型包括：引入場景、產(chǎn)品展示場景、用戶體驗場景和問題解決場景；

40、利用預(yù)設(shè)的文本匹配算法，將與視頻片段內(nèi)容相關(guān)的文字信息和預(yù)設(shè)的文本模板進(jìn)行相似度評估，確定與人員信息、色彩信息、物品信息和音頻特征信息分別對應(yīng)的第一相似度、第二相似度、第三相似度和第四相似度；

41、獲取預(yù)設(shè)的權(quán)重修正因子，其中，所述權(quán)重修正因子大于1；

42、獲取第一相似度、第二相似度、第三相似度和第四相似度分別對應(yīng)的各初始權(quán)重，其中，各初始權(quán)重之和等于1；

43、若所述場景類型為引入場景，則利用所述權(quán)重修正因子，對所述第二相似度對應(yīng)的初始權(quán)重和所述第四相似度對應(yīng)的初始權(quán)重進(jìn)行修正處理；

44、若所述場景類型為產(chǎn)品展示場景，則利用所述權(quán)重修正因子，對所述第二相似度對應(yīng)的初始權(quán)重和所述第三相似度對應(yīng)的初始權(quán)重進(jìn)行修正處理；

45、若所述場景類型為用戶體驗場景，則利用所述權(quán)重修正因子，對所述第一相似度對應(yīng)的初始權(quán)重和所述第三相似度對應(yīng)的初始權(quán)重進(jìn)行修正處理；

46、若所述場景類型為問題解決場景，則利用所述權(quán)重修正因子，對所述第一相似度對應(yīng)的初始權(quán)重和、所述第三相似度對應(yīng)的初始權(quán)重和所述第四相似度對應(yīng)的初始權(quán)重進(jìn)行修正處理；

47、依據(jù)修正后的各初始權(quán)重，對第一相似度、第二相似度、第三相似度和第四相似度進(jìn)行加權(quán)求均值處理，確定目標(biāo)相似度；

48、依據(jù)所述目標(biāo)相似度和預(yù)設(shè)的相似度閾值，將目標(biāo)相似度大于相似度閾值的視頻片段合成為視頻集錦。

49、第二方面，本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析裝置，所述裝置包括：

50、視頻素材獲取模塊，用于獲取待解析的原始視頻素材；

51、轉(zhuǎn)碼處理模塊，用于對所述原始視頻素材進(jìn)行轉(zhuǎn)碼處理，確定預(yù)設(shè)編碼格式的標(biāo)準(zhǔn)視頻數(shù)據(jù)；

52、鏡頭切分模塊，用于利用鏡頭切分技術(shù)，將所述標(biāo)準(zhǔn)視頻數(shù)據(jù)分解為多個視頻片段；

53、盲水印嵌入模塊，用于利用預(yù)設(shè)的特征處理算法，將包含視頻素材信息的盲水印信息嵌入各視頻片段中的各幀圖像中；

54、壓縮處理模塊，用于對嵌入盲水印信息后的各視頻片段進(jìn)行壓縮處理，確定壓縮視頻數(shù)據(jù)；

55、特征提取模塊，用于利用預(yù)設(shè)的特征提取算法，對所述壓縮視頻數(shù)據(jù)進(jìn)行識別和分析，輸出與視頻內(nèi)容相關(guān)的文字信息和目標(biāo)視頻素材信息。

56、第三方面，本發(fā)明實施例還提供了一種電子設(shè)備，包括：至少一個處理器、至少一個存儲器以及存儲在存儲器中的計算機(jī)程序指令，當(dāng)計算機(jī)程序指令被處理器執(zhí)行時實現(xiàn)如上述實施方式中第一方面的方法。

57、第四方面，本發(fā)明實施例還提供了一種存儲介質(zhì)，其上存儲有計算機(jī)程序指令，當(dāng)計算機(jī)程序指令被處理器執(zhí)行時實現(xiàn)如上述實施方式中第一方面的方法。

58、綜上所述，本發(fā)明的有益效果如下：

59、本發(fā)明提供的基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法、裝置及設(shè)備，所述方法包括：獲取待解析的原始視頻素材；對所述原始視頻素材進(jìn)行轉(zhuǎn)碼處理，確定預(yù)設(shè)編碼格式的標(biāo)準(zhǔn)視頻數(shù)據(jù)；利用鏡頭切分技術(shù)，將所述標(biāo)準(zhǔn)視頻數(shù)據(jù)分解為多個視頻片段；利用預(yù)設(shè)的特征處理算法，將包含視頻素材信息的盲水印信息嵌入各視頻片段中的各幀圖像中；對嵌入盲水印信息后的各視頻片段進(jìn)行壓縮處理，確定壓縮視頻數(shù)據(jù)；利用預(yù)設(shè)的特征提取算法，對所述壓縮視頻數(shù)據(jù)進(jìn)行識別和分析，輸出與視頻內(nèi)容相關(guān)的文字信息和目標(biāo)視頻素材信息。本發(fā)明通過一系列有序的處理步驟，實現(xiàn)了精準(zhǔn)關(guān)聯(lián)成片與素材，并準(zhǔn)確識別和分析視頻內(nèi)容，首先，通過獲取并轉(zhuǎn)碼原始視頻素材，確保所有數(shù)據(jù)格式統(tǒng)一，隨后利用鏡頭切分技術(shù)，將標(biāo)準(zhǔn)視頻數(shù)據(jù)分解為多個易于管理的片段，嵌入盲水印信息，使得后續(xù)能在成片中精準(zhǔn)識別出各個素材片段，即使經(jīng)過編輯和壓縮處理，最后，通過特征提取算法，對壓縮后的視頻進(jìn)行識別和分析，輸出與視頻內(nèi)容相關(guān)的詳細(xì)文字信息和目標(biāo)視頻素材信息。這種方法不僅提高了視頻素材與成片的匹配精度，確保了每段素材都能被準(zhǔn)確定位和識別，還能高效地提取和總結(jié)視頻內(nèi)容，提供更為詳盡的分析和標(biāo)注，解決了傳統(tǒng)視頻處理和分析中的效率和準(zhǔn)確性問題。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：白海印,牛連歡,梅冬陽
技術(shù)所有人：北京聯(lián)世傳奇網(wǎng)絡(luò)技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：水利施工用挖方設(shè)備的制作方法
上一篇：一種多用途產(chǎn)品對比測試臺的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法、裝置及設(shè)備與流程

基于多模態(tài)數(shù)據(jù)處理的視頻內(nèi)容分析方法、裝置及設(shè)備與流程