本發(fā)明屬于多模態(tài)數(shù)據(jù)檢索領(lǐng)域,涉及數(shù)據(jù)挖掘技術(shù),具體涉及一種視頻集片段檢索的錯(cuò)誤依賴消除方法。
背景技術(shù):
1、如今,隨著線上視頻內(nèi)容的急劇增加,人們對(duì)從大量視頻集中檢索目標(biāo)時(shí)刻的需求不斷增加。人們可以通過語言描述,從大量視頻中快速定位到描述的內(nèi)容所處的視頻及在該視頻中的時(shí)域定位。因此,視頻集片段檢索(vcmr,video?corpus?moment?retrieval)任務(wù)已成為一種流行的研究趨勢。根據(jù)自然語言查詢,vcmr包括兩個(gè)子任務(wù):視頻檢索和時(shí)刻定位,從大量未經(jīng)剪輯和分割的視頻集中檢索出特定的視頻時(shí)刻。vcmr在最廣泛研究的方法中,兩種模態(tài)的特征—視頻特征和查詢特征被投射到一個(gè)共同的嵌入空間,并進(jìn)行跨模態(tài)特征匹配。根據(jù)對(duì)不同模態(tài)的特征融合早晚,這類工作可以分為早期融合和晚期融合。目前,后期融合策略(late?fusion?strategy)因其相對(duì)于早期融合策略(early?fusionstrategy)不相上下的精度和明顯優(yōu)越的效率而受到更廣泛的研究關(guān)注。在后期融合策略模式下,兩種模態(tài)的特征在映射后分別進(jìn)行優(yōu)化,然后再融合進(jìn)行推斷。
2、盡管現(xiàn)有研究給出看似不錯(cuò)的實(shí)驗(yàn)結(jié)果,但我們認(rèn)為這些結(jié)果并不能真實(shí)反映模型進(jìn)行多模態(tài)語義理解的能力,而是依賴了數(shù)據(jù)集偏置。單視頻片段檢索(vmr)是vcmr的一種子任務(wù),它僅僅需要從單一視頻中定位描述內(nèi)容所處的時(shí)域位置。最近關(guān)于vmr任務(wù)的研究發(fā)現(xiàn),許多最先進(jìn)的模型在訓(xùn)練常用數(shù)據(jù)集時(shí)都存在隱含的分布偏置。類似的,我們認(rèn)為vcmr任務(wù)也可能受到各種數(shù)據(jù)集偏置的影響。在大規(guī)模視頻數(shù)據(jù)集中,這種偏置可能源于選擇基準(zhǔn)真值時(shí)刻的過程:位于視頻開頭或結(jié)尾附近的片段更有可能被選為基準(zhǔn)真值。因此模型推理時(shí),會(huì)產(chǎn)生對(duì)目標(biāo)區(qū)域位置的錯(cuò)誤依賴,即更傾向于從這些區(qū)域生成結(jié)果,進(jìn)而影響模型的推理真實(shí)性。
3、近年來,許多研究工作圍繞vmr任務(wù)中的錯(cuò)誤依賴展開。它們具有一套成熟的方法流程:(1)通過實(shí)驗(yàn)驗(yàn)證錯(cuò)誤依賴對(duì)模型推理產(chǎn)生的影響;(2)提出新的模型設(shè)計(jì)解決這種錯(cuò)誤依賴。然而vmr任務(wù)使用的具體方案無法直接使用于vcmr任務(wù)中,主要原因?yàn)関mr任務(wù)的檢索范圍有限,導(dǎo)致其對(duì)于模型的規(guī)模限制非常寬松。相比較之下,vcmr任務(wù)由于需要對(duì)海量視頻內(nèi)容進(jìn)行檢索,使用了和vmr任務(wù)完全不同的推理路徑,因此vmr的去偏方法無法用于vcmr任務(wù)中。
4、數(shù)據(jù)集和模型去偏是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)常見問題。如,參考文件1(公開號(hào)為cn118312653a的中國發(fā)明專利申請(qǐng)?jiān)?024年7月9日公開的《基于因果流行度去偏的項(xiàng)目推薦方法和系統(tǒng)》)通過融合項(xiàng)目流行度和用戶興趣量化用戶一致性,緩解流行度偏差對(duì)推薦結(jié)果的影響;參考文件2(公開號(hào)為cn118247003a的中國發(fā)明專利申請(qǐng)?jiān)?024年6月25日公開《一種分離興趣和從眾表示的去偏序列推薦方法及系統(tǒng)》)通過將自我監(jiān)督的分離表示學(xué)習(xí)引入到序列推薦中來解決流行偏差;這些技術(shù)方案都聚焦推薦系統(tǒng)領(lǐng)域的模型去偏,然而對(duì)于vcmr任務(wù)中的時(shí)域片段位置偏置,目前缺乏相關(guān)的解決方案。如,參考文件3(g.nanet?al等.,"interventional?video?grounding?with?dual?contrastive?learning,"2021ieee/cvf?conference?on?computer?vision?and?pattern?recognition(cvpr))提出了干預(yù)性視頻錨定的范式來消除選擇偏差,引入一種雙重對(duì)比學(xué)習(xí)方法將文本和視頻進(jìn)行對(duì)齊;參考文件4(yang?x,feng?f,ji?w,et?al.deconfounded?video?moment?retrievalwith?causal?intervention[j].acm,2021.doi:10.1145/3404835.3462823.)使用一種去混淆跨模態(tài)匹配的方法消除時(shí)刻位置的混淆效應(yīng),以捕捉查詢和視頻內(nèi)容的真正影響;這些技術(shù)方案解決了vmr中的偏置問題,但由于推理路徑不同,不能遷移于vcmr任務(wù)中。如,參考文件5(yoon?s,hong?j?w,yoon?e,etal.selective?query-guided?debiasing?forvideo?corpus?moment?retrieval[c]//european?conference?on?computervision.springer,cham,2022.doi:10.1007/978-3-031-20059-5_11.)試圖解決vcmr任務(wù)中的謂語-賓語組合偏置,但同樣沒有解決vcmr任務(wù)中一種更常見而重大的偏置,即時(shí)域片段位置偏置。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中未能解決的vcmr數(shù)據(jù)集時(shí)域位置分布的偏置問題,本發(fā)明提供了一種視頻集片段檢索的錯(cuò)誤依賴消除方法,針對(duì)vcmr任務(wù)場景,提供了一種模型對(duì)偏置依賴的評(píng)估系統(tǒng),驗(yàn)證現(xiàn)有模型存在的對(duì)數(shù)據(jù)集時(shí)域位置分布的錯(cuò)誤依賴,提供了一種緩解和消除模型對(duì)偏置依賴的方法,消除現(xiàn)有vcmr模型對(duì)于數(shù)據(jù)集時(shí)域位置分布的錯(cuò)誤依賴。
2、本發(fā)明提供的一種視頻集片段檢索的錯(cuò)誤依賴消除方法,包括:
3、步驟1,對(duì)vcmr模型當(dāng)前應(yīng)用的視頻數(shù)據(jù)集進(jìn)行重分割,在重分割的數(shù)據(jù)集上通過分布外測試評(píng)估該vcmr模型對(duì)視頻數(shù)據(jù)集中目標(biāo)時(shí)域位置的偏置依賴程度;
4、步驟2,當(dāng)需要緩解和消除vcmr模型的錯(cuò)誤偏執(zhí)依賴時(shí),通過構(gòu)造結(jié)構(gòu)化歸因模型分析該vcmr模型的推理路徑,通過歸因介入調(diào)整vcmr模型的推理路徑,包括:
5、(1)將初始的混淆視頻特征v0通過兩個(gè)線性層gc和gl拆分成表示內(nèi)容的特征cv和表示位置的特征lv;其中,訓(xùn)練兩個(gè)線性層gc和gl包括:對(duì)位置特征lv設(shè)置一個(gè)不可學(xué)習(xí)的位置編碼p,訓(xùn)練線性層gc使得lv和位置編碼p相近,訓(xùn)練線性層gl使得內(nèi)容特征cv和初始混淆視頻特征接近,訓(xùn)練線性層gc和gl使得內(nèi)容特征cv和位置特征lv盡量遠(yuǎn)離;
6、(2)再使用do操作對(duì)查詢文本和視頻內(nèi)容特征進(jìn)行干預(yù),重構(gòu)vcmr模型的推理路徑,緩解和消除vcmr模型對(duì)目標(biāo)時(shí)域位置的錯(cuò)誤偏置依賴;
7、其中,設(shè)置do操作的計(jì)算方式如下:
8、
9、重構(gòu)推理流程的計(jì)算方式如下:
10、
11、其中,條件概率p(x|do(q,v))觀察執(zhí)行do操作do(q,v)后vcmr模型的輸出x,x為查詢文本q和視頻v在不同子片段的匹配分?jǐn)?shù)ml,或是查詢文本q和視頻v的匹配分?jǐn)?shù)vr;三個(gè)變量參數(shù)q、v和l分別代表文本特征、視頻內(nèi)容特征、位置特征;f*(q,v,l)表示使用線性方法f*對(duì)組合(q,v,l)計(jì)算分?jǐn)?shù)ml或vr;el(f*(q,v,l))是計(jì)算指定期望位置l下ml或vr的期望;φ*為vr任務(wù)中的max操作或是ml任務(wù)中計(jì)算開始和結(jié)束點(diǎn)分?jǐn)?shù)的一維卷積操作;q*為不同任務(wù)使用的查詢語句文本特征;是重組后的視頻特征,w1是權(quán)重參數(shù);hc(l)是綜合視頻內(nèi)容信息改良的位置特征;是計(jì)算指定位置l下hc(l)的期望;
12、根據(jù)do操作觀察得到的ml和vr分?jǐn)?shù)計(jì)算出最終的查詢語句-視頻時(shí)域片段匹配得分,經(jīng)最終排序得到任務(wù)輸出結(jié)果。
13、所述的步驟1,通過對(duì)視頻樣本的頻率估計(jì)對(duì)當(dāng)前應(yīng)用的視頻數(shù)據(jù)集進(jìn)行重新拆分,構(gòu)建分布外測試ood-test集,重新分割測試集和訓(xùn)練集;其中,計(jì)算視頻的頻率估計(jì)值時(shí),需要先計(jì)算目標(biāo)時(shí)序位置的概率密度,確定查詢語句對(duì)應(yīng)的目標(biāo)時(shí)序位置的開始位置和結(jié)束位置在整段視頻中的相對(duì)位置,使用高斯核進(jìn)行核密度估計(jì),獲得目標(biāo)時(shí)序位置的概率密度;再計(jì)算當(dāng)前數(shù)據(jù)集中每個(gè)視頻q的頻率估計(jì)值sv如下:
14、
15、其中,nq表示視頻中包含的查詢語句-目標(biāo)時(shí)序位置的數(shù)量,其中第i個(gè)目標(biāo)時(shí)序位置的相對(duì)開始位置為相對(duì)結(jié)束位置為為第i個(gè)目標(biāo)時(shí)序位置的概率密度。
16、本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn)和積極效果:(1)本發(fā)明方法使用了一種基于ood分割法的方式對(duì)數(shù)據(jù)集進(jìn)行了重分割,能夠?qū)δP驮诓煌植嫉臄?shù)據(jù)集上的泛化能力進(jìn)行公平的測試。(2)本發(fā)明方法構(gòu)造了一種基于scm的模型推理路徑圖,對(duì)模型的推理路徑進(jìn)行分析和糾錯(cuò),并設(shè)計(jì)了一種推理流程,修正了對(duì)數(shù)據(jù)集偏置進(jìn)行錯(cuò)誤依賴的原有推理路徑。(3)本發(fā)明方法提出了一種通過后門調(diào)節(jié)方法實(shí)現(xiàn)了理論中對(duì)于模型推理路徑的具體模型修正方案,使模型不再過度依賴錯(cuò)誤的數(shù)據(jù)集偏置,進(jìn)而顯著提高了模型在不同分布數(shù)據(jù)集上的泛化能力。