視頻集片段檢索的錯(cuò)誤依賴消除方法

文檔序號(hào)：40390435發(fā)布日期：2024-12-20 12:13閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于多模態(tài)數(shù)據(jù)檢索領(lǐng)域，涉及數(shù)據(jù)挖掘技術(shù)，具體涉及一種視頻集片段檢索的錯(cuò)誤依賴消除方法。

背景技術(shù)：

1、如今，隨著線上視頻內(nèi)容的急劇增加，人們對(duì)從大量視頻集中檢索目標(biāo)時(shí)刻的需求不斷增加。人們可以通過語言描述，從大量視頻中快速定位到描述的內(nèi)容所處的視頻及在該視頻中的時(shí)域定位。因此，視頻集片段檢索(vcmr，video?corpus?moment?retrieval)任務(wù)已成為一種流行的研究趨勢。根據(jù)自然語言查詢，vcmr包括兩個(gè)子任務(wù)：視頻檢索和時(shí)刻定位，從大量未經(jīng)剪輯和分割的視頻集中檢索出特定的視頻時(shí)刻。vcmr在最廣泛研究的方法中，兩種模態(tài)的特征—視頻特征和查詢特征被投射到一個(gè)共同的嵌入空間，并進(jìn)行跨模態(tài)特征匹配。根據(jù)對(duì)不同模態(tài)的特征融合早晚，這類工作可以分為早期融合和晚期融合。目前，后期融合策略(late?fusion?strategy)因其相對(duì)于早期融合策略(early?fusionstrategy)不相上下的精度和明顯優(yōu)越的效率而受到更廣泛的研究關(guān)注。在后期融合策略模式下，兩種模態(tài)的特征在映射后分別進(jìn)行優(yōu)化，然后再融合進(jìn)行推斷。

2、盡管現(xiàn)有研究給出看似不錯(cuò)的實(shí)驗(yàn)結(jié)果，但我們認(rèn)為這些結(jié)果并不能真實(shí)反映模型進(jìn)行多模態(tài)語義理解的能力，而是依賴了數(shù)據(jù)集偏置。單視頻片段檢索(vmr)是vcmr的一種子任務(wù)，它僅僅需要從單一視頻中定位描述內(nèi)容所處的時(shí)域位置。最近關(guān)于vmr任務(wù)的研究發(fā)現(xiàn)，許多最先進(jìn)的模型在訓(xùn)練常用數(shù)據(jù)集時(shí)都存在隱含的分布偏置。類似的，我們認(rèn)為vcmr任務(wù)也可能受到各種數(shù)據(jù)集偏置的影響。在大規(guī)模視頻數(shù)據(jù)集中，這種偏置可能源于選擇基準(zhǔn)真值時(shí)刻的過程：位于視頻開頭或結(jié)尾附近的片段更有可能被選為基準(zhǔn)真值。因此模型推理時(shí)，會(huì)產(chǎn)生對(duì)目標(biāo)區(qū)域位置的錯(cuò)誤依賴，即更傾向于從這些區(qū)域生成結(jié)果，進(jìn)而影響模型的推理真實(shí)性。

3、近年來，許多研究工作圍繞vmr任務(wù)中的錯(cuò)誤依賴展開。它們具有一套成熟的方法流程：(1)通過實(shí)驗(yàn)驗(yàn)證錯(cuò)誤依賴對(duì)模型推理產(chǎn)生的影響；(2)提出新的模型設(shè)計(jì)解決這種錯(cuò)誤依賴。然而vmr任務(wù)使用的具體方案無法直接使用于vcmr任務(wù)中，主要原因?yàn)関mr任務(wù)的檢索范圍有限，導(dǎo)致其對(duì)于模型的規(guī)模限制非常寬松。相比較之下，vcmr任務(wù)由于需要對(duì)海量視頻內(nèi)容進(jìn)行檢索，使用了和vmr任務(wù)完全不同的推理路徑，因此vmr的去偏方法無法用于vcmr任務(wù)中。

4、數(shù)據(jù)集和模型去偏是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)常見問題。如，參考文件1(公開號(hào)為cn118312653a的中國發(fā)明專利申請(qǐng)?jiān)?024年7月9日公開的《基于因果流行度去偏的項(xiàng)目推薦方法和系統(tǒng)》)通過融合項(xiàng)目流行度和用戶興趣量化用戶一致性，緩解流行度偏差對(duì)推薦結(jié)果的影響；參考文件2(公開號(hào)為cn118247003a的中國發(fā)明專利申請(qǐng)?jiān)?024年6月25日公開《一種分離興趣和從眾表示的去偏序列推薦方法及系統(tǒng)》)通過將自我監(jiān)督的分離表示學(xué)習(xí)引入到序列推薦中來解決流行偏差；這些技術(shù)方案都聚焦推薦系統(tǒng)領(lǐng)域的模型去偏，然而對(duì)于vcmr任務(wù)中的時(shí)域片段位置偏置，目前缺乏相關(guān)的解決方案。如，參考文件3(g.nanet?al等.,"interventional?video?grounding?with?dual?contrastive?learning,"2021ieee/cvf?conference?on?computer?vision?and?pattern?recognition(cvpr))提出了干預(yù)性視頻錨定的范式來消除選擇偏差，引入一種雙重對(duì)比學(xué)習(xí)方法將文本和視頻進(jìn)行對(duì)齊；參考文件4(yang?x,feng?f,ji?w,et?al.deconfounded?video?moment?retrievalwith?causal?intervention[j].acm,2021.doi:10.1145/3404835.3462823.)使用一種去混淆跨模態(tài)匹配的方法消除時(shí)刻位置的混淆效應(yīng)，以捕捉查詢和視頻內(nèi)容的真正影響；這些技術(shù)方案解決了vmr中的偏置問題，但由于推理路徑不同，不能遷移于vcmr任務(wù)中。如，參考文件5(yoon?s,hong?j?w,yoon?e,etal.selective?query-guided?debiasing?forvideo?corpus?moment?retrieval[c]//european?conference?on?computervision.springer,cham,2022.doi:10.1007/978-3-031-20059-5_11.)試圖解決vcmr任務(wù)中的謂語-賓語組合偏置，但同樣沒有解決vcmr任務(wù)中一種更常見而重大的偏置，即時(shí)域片段位置偏置。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)中未能解決的vcmr數(shù)據(jù)集時(shí)域位置分布的偏置問題，本發(fā)明提供了一種視頻集片段檢索的錯(cuò)誤依賴消除方法，針對(duì)vcmr任務(wù)場景，提供了一種模型對(duì)偏置依賴的評(píng)估系統(tǒng)，驗(yàn)證現(xiàn)有模型存在的對(duì)數(shù)據(jù)集時(shí)域位置分布的錯(cuò)誤依賴，提供了一種緩解和消除模型對(duì)偏置依賴的方法，消除現(xiàn)有vcmr模型對(duì)于數(shù)據(jù)集時(shí)域位置分布的錯(cuò)誤依賴。

2、本發(fā)明提供的一種視頻集片段檢索的錯(cuò)誤依賴消除方法，包括：

3、步驟1，對(duì)vcmr模型當(dāng)前應(yīng)用的視頻數(shù)據(jù)集進(jìn)行重分割，在重分割的數(shù)據(jù)集上通過分布外測試評(píng)估該vcmr模型對(duì)視頻數(shù)據(jù)集中目標(biāo)時(shí)域位置的偏置依賴程度；

4、步驟2，當(dāng)需要緩解和消除vcmr模型的錯(cuò)誤偏執(zhí)依賴時(shí)，通過構(gòu)造結(jié)構(gòu)化歸因模型分析該vcmr模型的推理路徑，通過歸因介入調(diào)整vcmr模型的推理路徑，包括：

5、(1)將初始的混淆視頻特征v0通過兩個(gè)線性層gc和gl拆分成表示內(nèi)容的特征cv和表示位置的特征lv；其中，訓(xùn)練兩個(gè)線性層gc和gl包括：對(duì)位置特征lv設(shè)置一個(gè)不可學(xué)習(xí)的位置編碼p，訓(xùn)練線性層gc使得lv和位置編碼p相近，訓(xùn)練線性層gl使得內(nèi)容特征cv和初始混淆視頻特征接近，訓(xùn)練線性層gc和gl使得內(nèi)容特征cv和位置特征lv盡量遠(yuǎn)離；

6、(2)再使用do操作對(duì)查詢文本和視頻內(nèi)容特征進(jìn)行干預(yù)，重構(gòu)vcmr模型的推理路徑，緩解和消除vcmr模型對(duì)目標(biāo)時(shí)域位置的錯(cuò)誤偏置依賴；

7、其中，設(shè)置do操作的計(jì)算方式如下：

8、

9、重構(gòu)推理流程的計(jì)算方式如下：

10、

11、其中，條件概率p(x|do(q,v))觀察執(zhí)行do操作do(q,v)后vcmr模型的輸出x，x為查詢文本q和視頻v在不同子片段的匹配分?jǐn)?shù)ml，或是查詢文本q和視頻v的匹配分?jǐn)?shù)vr；三個(gè)變量參數(shù)q、v和l分別代表文本特征、視頻內(nèi)容特征、位置特征；f*(q,v,l)表示使用線性方法f*對(duì)組合(q,v,l)計(jì)算分?jǐn)?shù)ml或vr；el(f*(q,v,l))是計(jì)算指定期望位置l下ml或vr的期望；φ*為vr任務(wù)中的max操作或是ml任務(wù)中計(jì)算開始和結(jié)束點(diǎn)分?jǐn)?shù)的一維卷積操作；q*為不同任務(wù)使用的查詢語句文本特征；是重組后的視頻特征，w1是權(quán)重參數(shù)；hc(l)是綜合視頻內(nèi)容信息改良的位置特征；是計(jì)算指定位置l下hc(l)的期望；

12、根據(jù)do操作觀察得到的ml和vr分?jǐn)?shù)計(jì)算出最終的查詢語句-視頻時(shí)域片段匹配得分，經(jīng)最終排序得到任務(wù)輸出結(jié)果。

13、所述的步驟1，通過對(duì)視頻樣本的頻率估計(jì)對(duì)當(dāng)前應(yīng)用的視頻數(shù)據(jù)集進(jìn)行重新拆分，構(gòu)建分布外測試ood-test集，重新分割測試集和訓(xùn)練集；其中，計(jì)算視頻的頻率估計(jì)值時(shí)，需要先計(jì)算目標(biāo)時(shí)序位置的概率密度，確定查詢語句對(duì)應(yīng)的目標(biāo)時(shí)序位置的開始位置和結(jié)束位置在整段視頻中的相對(duì)位置，使用高斯核進(jìn)行核密度估計(jì)，獲得目標(biāo)時(shí)序位置的概率密度；再計(jì)算當(dāng)前數(shù)據(jù)集中每個(gè)視頻q的頻率估計(jì)值sv如下：

14、

15、其中，nq表示視頻中包含的查詢語句-目標(biāo)時(shí)序位置的數(shù)量，其中第i個(gè)目標(biāo)時(shí)序位置的相對(duì)開始位置為相對(duì)結(jié)束位置為為第i個(gè)目標(biāo)時(shí)序位置的概率密度。

16、本發(fā)明與現(xiàn)有技術(shù)相比，具有以下優(yōu)點(diǎn)和積極效果：(1)本發(fā)明方法使用了一種基于ood分割法的方式對(duì)數(shù)據(jù)集進(jìn)行了重分割，能夠?qū)δＰ驮诓煌植嫉臄?shù)據(jù)集上的泛化能力進(jìn)行公平的測試。(2)本發(fā)明方法構(gòu)造了一種基于scm的模型推理路徑圖，對(duì)模型的推理路徑進(jìn)行分析和糾錯(cuò)，并設(shè)計(jì)了一種推理流程，修正了對(duì)數(shù)據(jù)集偏置進(jìn)行錯(cuò)誤依賴的原有推理路徑。(3)本發(fā)明方法提出了一種通過后門調(diào)節(jié)方法實(shí)現(xiàn)了理論中對(duì)于模型推理路徑的具體模型修正方案，使模型不再過度依賴錯(cuò)誤的數(shù)據(jù)集偏置，進(jìn)而顯著提高了模型在不同分布數(shù)據(jù)集上的泛化能力。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張藍(lán)姍,張一碩,闕喜戎,龔向陽,王文東
技術(shù)所有人：北京郵電大學(xué)
我是此專利的發(fā)明人

上一篇：電子設(shè)備及其攝像模組的制作方法
上一篇：一種集成灶上集油盒油污檢測電路的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

視頻集片段檢索的錯(cuò)誤依賴消除方法