亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本視頻對(duì)相似性評(píng)估模型構(gòu)建方法

文檔序號(hào):40376782發(fā)布日期:2024-12-20 11:59閱讀:4來源:國知局
一種文本視頻對(duì)相似性評(píng)估模型構(gòu)建方法

本發(fā)明涉及信息檢索領(lǐng)域,具體涉及一種文本視頻對(duì)相似性評(píng)估模型構(gòu)建方法。


背景技術(shù):

1、近年來,隨著抖音、youtube、netflix等多媒體平臺(tái)的崛起,用戶對(duì)基于文本查找視頻內(nèi)容準(zhǔn)確性的要求不斷提高。目前,文本-視頻檢索的方法大致有三類:

2、一、基于傳統(tǒng)手工設(shè)計(jì)的模態(tài)檢索

3、基于傳統(tǒng)的文本-視頻多模態(tài)檢索方法,如關(guān)鍵詞匹配,通過視頻元數(shù)據(jù)標(biāo)簽進(jìn)行檢索;特征提取,從視頻和文本中提取如顏色直方圖和tf-idf等低層次特征,通過特征向量相似性進(jìn)行匹配;多模態(tài)融合,使用典型相關(guān)分析等統(tǒng)計(jì)技術(shù),將文本和視頻特征映射到共同表示空間。

4、然而,基于傳統(tǒng)的文本-視頻多模態(tài)檢索方法,依賴人工標(biāo)注,導(dǎo)致標(biāo)簽不全或不準(zhǔn)確會(huì)影響效果,且傳統(tǒng)特征提取難以捕捉復(fù)雜語義信息,固定規(guī)則和特征缺乏靈活性和泛化能力。

5、因此,盡管在簡單和資源受限的場景中有一定實(shí)用性,但在復(fù)雜語義匹配需求下,逐漸被深度學(xué)習(xí)和基于clip的方法取代。

6、二、基于深度學(xué)習(xí)的模態(tài)檢索

7、基于深度學(xué)習(xí)的模態(tài)檢索方法,顯著提升了檢索的效果。這類方法通常采用雙流網(wǎng)絡(luò)架構(gòu)的編碼器,分別對(duì)文本和視頻進(jìn)行特征提取,然后在融合層進(jìn)行匹配。如循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)分別擅長處理序列和空間特征,結(jié)合使用可有效捕捉視頻和文本中的時(shí)間依賴性和空間特征。跨模態(tài)注意力機(jī)制如transformer模型,通過自注意力機(jī)制捕捉視頻和文本的上下文關(guān)系。然而,這些方法需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,并且對(duì)計(jì)算資源要求較高。

8、盡管如此,深度學(xué)習(xí)方法在處理復(fù)雜語義匹配任務(wù)時(shí)表現(xiàn)出色,顯著優(yōu)于傳統(tǒng)方法。

9、三、基于預(yù)訓(xùn)練clip的模態(tài)檢索

10、基于clip的方法在文本-視頻多模態(tài)檢索中取得了顯著進(jìn)展,所述clip模型的英文全稱為contrastive?language-image?pre-training,中文通常翻譯為對(duì)比語言-圖像預(yù)訓(xùn)練模型。clip模型通過對(duì)比學(xué)習(xí),將文本和視頻幀映射到同一高維向量空間,通過在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,clip學(xué)習(xí)到豐富的語義信息,使得文本和視頻內(nèi)容能夠在同一空間中進(jìn)行精確匹配。在文本-視頻檢索中,clip可以直接將文本和視頻幀向量化,并通過計(jì)算向量的余弦相似度進(jìn)行檢索。由于clip在大規(guī)模數(shù)據(jù)集上的預(yù)訓(xùn)練,其特征表達(dá)能力和泛化能力非常強(qiáng),已在多模態(tài)檢索任務(wù)中取得顯著效果。

11、盡管clip在訓(xùn)練時(shí)需要大量計(jì)算資源,但其在實(shí)際應(yīng)用中表現(xiàn)出色,尤其在處理復(fù)雜語義匹配任務(wù)時(shí),效果顯著優(yōu)于傳統(tǒng)方法和其他一些深度學(xué)習(xí)方法。

12、如上所述,當(dāng)前主流的文本-視頻檢索技術(shù),以clip為代表,其進(jìn)一步研究也取得了顯著的進(jìn)展和成果。clip的進(jìn)一步研究工作,大致可分為兩類:一類是增強(qiáng)clip提取文本和視覺特征的表征學(xué)習(xí),另外一類是文本特征與視覺特征的交互對(duì)齊。

13、第一類工作核心在于對(duì)特征的表征學(xué)習(xí),如:em-net采用期望最大化算法緊湊地表示視覺和文本特征,增強(qiáng)了文本與視覺特征的語義表征能力;t-mass使用隨機(jī)文本建模和文本正則化方法提取有效的幀和文本,增強(qiáng)文本和視頻之間的語義相似性。

14、第二類工作的核心在于對(duì)文本特征與視覺特征的交互上,如msia引入一個(gè)多層次語義交互模型,使用自適應(yīng)幀和文本引導(dǎo)注意機(jī)制,減少視頻冗余并增強(qiáng)模態(tài)交互。hbi使用一種新型的多合作博弈論進(jìn)行粗粒度和細(xì)粒度的交互,涉及視覺信息中的動(dòng)作、場景和實(shí)體等信息。

15、綜上,當(dāng)前主流的文本-視頻檢索技術(shù),以clip為代表,并側(cè)重于增強(qiáng)特征表征學(xué)習(xí)和粒度對(duì)齊策略的研究;然而,這些方法常常忽視一個(gè)重要問題:由于文本視覺模態(tài)之間存在顯著的語義差異,在增強(qiáng)表征學(xué)習(xí)和交互對(duì)齊方面存在困難。具體表現(xiàn)而言,圖像具備更豐富的細(xì)節(jié)和內(nèi)容,而人工標(biāo)記的文本信息通常較為簡短,這種語義上的不對(duì)等導(dǎo)致文本特征與視覺特征在內(nèi)容匹配上存在困難。這種核心的差異直接影響到特征增強(qiáng)表征學(xué)習(xí)及后續(xù)的粒度對(duì)齊,使得不同模態(tài)的特征難以在同一空間中精確匹配,從而影響檢索效果。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明所要解決的技術(shù)問題是:提出一種文本視頻對(duì)相似性評(píng)估模型構(gòu)建方法,其能夠降低文本特征與視覺特征在語義上的不對(duì)等所導(dǎo)致的影響,并顯著提升了檢索性能。

2、本發(fā)明解決上述技術(shù)問題采用的技術(shù)方案是:

3、一種文本視頻對(duì)相似性評(píng)估模型構(gòu)建方法,所述文本視頻對(duì)齊模型包括視覺編碼器、文本編碼器和對(duì)齊模型,其中,所述視覺編碼器和文本編碼器為預(yù)訓(xùn)練模型;所述文本視頻對(duì)齊模型的訓(xùn)練,包括:

4、a1、提取原始數(shù)據(jù)集的文本視頻對(duì),所述文本視頻對(duì)包括視頻及其對(duì)應(yīng)的文本;從各文本視頻對(duì)的視頻中獲得圖像序列,所述圖像序列由一組圖像幀構(gòu)成;由采樣獲得的圖像序列同該視頻的對(duì)應(yīng)文本,構(gòu)成該文本視頻對(duì)的訓(xùn)練樣本對(duì);由原始數(shù)據(jù)集的各文本視頻對(duì)的訓(xùn)練樣本對(duì),構(gòu)成訓(xùn)練集;

5、a2、輸入訓(xùn)練樣本對(duì)作為本輪訓(xùn)練的正樣本對(duì);構(gòu)建正樣本對(duì)的負(fù)樣本對(duì),所述負(fù)樣本對(duì)包括文本負(fù)樣本對(duì)和/或視頻負(fù)樣本對(duì),所述文本負(fù)樣本對(duì)為正樣本對(duì)所包含文本與正樣本對(duì)以外其他訓(xùn)練樣本對(duì)所包含圖像序列所構(gòu)成的樣本對(duì),所述視頻負(fù)樣本對(duì)為正樣本對(duì)所包含圖像序列與正樣本對(duì)以外其他訓(xùn)練樣本對(duì)所包含文本所構(gòu)成的樣本對(duì);

6、針對(duì)各樣本對(duì)所包含的圖像序列,分別輸入視覺編碼器,獲得其所包含各圖像幀的視覺特征;針對(duì)各樣本對(duì)所包含的文本,分別輸入文本編碼器,獲得其文本特征;

7、a3、針對(duì)每一個(gè)樣本對(duì),分別將其文本特征和視覺特征,輸入對(duì)齊模型,計(jì)算獲得其粗粒度相似性、中粒度相似性和細(xì)粒度相似性;

8、所述粗粒度相似性,基于輸入文本特征和視覺特征,對(duì)樣本對(duì)的圖像序列與文本,進(jìn)行整體的相似性計(jì)算獲得;

9、所述中粒度相似性,基于輸入文本特征和視覺特征,對(duì)樣本對(duì)的圖像序列所包含圖像幀與文本,進(jìn)行幀級(jí)的相似性計(jì)算獲得;

10、所述細(xì)粒度相似性,基于輸入文本特征和視覺特征,對(duì)圖像序列所包含視覺實(shí)體與文本所包含單詞,進(jìn)行因子級(jí)的相似性計(jì)算獲得;

11、a4、利用正樣本對(duì)及其負(fù)樣本對(duì)的粗粒度相似性、中粒度相似性和細(xì)粒度相似性,計(jì)算其粗粒度的特征對(duì)齊損失、中粒度的特征對(duì)齊損失和細(xì)粒度的特征對(duì)齊損失,并以此計(jì)算獲得本輪訓(xùn)練的總損失;基于總損失,對(duì)對(duì)齊模型的參數(shù)進(jìn)行更新,對(duì)視覺編碼器和文本編碼器的參數(shù)進(jìn)行微調(diào);

12、a5、循環(huán)執(zhí)行步驟a2~a4,直至達(dá)到訓(xùn)練結(jié)束條件,獲得完成訓(xùn)練的對(duì)齊模型。

13、進(jìn)一步的,所述視覺編碼器和文本編碼器,分別為預(yù)訓(xùn)練clip模型的視覺編碼器和文本編碼器;

14、步驟a1中,通過隨機(jī)采樣或平均采樣的方式,從各文本視頻對(duì)的視頻中獲得圖像序列;

15、步驟a2中,輸入至少兩個(gè)訓(xùn)練樣本對(duì),作為本輪訓(xùn)練的正樣本對(duì);所述負(fù)樣本對(duì)包括文本負(fù)樣本對(duì)和視頻負(fù)樣本對(duì);針對(duì)各正樣本對(duì),以其所包含圖像序列同輸入的其他正樣本對(duì)的文本,構(gòu)成該正樣本對(duì)的視頻負(fù)樣本,以其所包含文本同輸入的其他正樣本對(duì)的圖像序列,構(gòu)成該正樣本對(duì)的文本負(fù)樣本對(duì)。

16、進(jìn)一步的,所述對(duì)齊模型還包括特征壓縮模塊;針對(duì)輸入對(duì)齊模型的文本特征和視覺特征,所述對(duì)齊模型,首先,利用特征壓縮模塊,對(duì)輸入的視覺特征進(jìn)行壓縮,然后,再計(jì)算粗粒度相似性、中粒度相似性和細(xì)粒度相似性;所述對(duì)輸入的視覺特征進(jìn)行壓縮,包括:

17、以輸入對(duì)齊模型的視覺特征,作為原始視覺特征vo,計(jì)算獲得其所包含的冗余部分,作為冗余視覺特征vr;按如下公式,去除原始視覺特征vo中的冗余視覺特征vr,獲得壓縮后的視覺特征vc,并將其作為輸入,用于計(jì)算粗粒度相似性、中粒度相似性和細(xì)粒度相似性;

18、vc=vo-vr

19、所述計(jì)算獲得的冗余視覺特征vr,應(yīng)滿足:

20、

21、其中,s(·)表示相似度函數(shù),vo表示輸入對(duì)齊模型的原始視覺特征,t為輸入對(duì)齊模型的文本特征,vr為表示原始視覺特征vo中冗余部分的冗余視覺特征,vc為去除視覺特征vo中冗余部分后的視覺特征;min表示最小化,max表最大化。

22、進(jìn)一步的,定義相似度感知壓縮因子c,并以vr=c或vr=c·ε,計(jì)算獲得冗余視覺特征vr,其中,ε為隨機(jī)因子;所述相似度感知壓縮因子c的計(jì)算,采用如下任一方式:

23、方式一、c=expand(s)

24、方式二、c=expand(exp(γs))

25、方式三、

26、方式四、c=expand(exp(mlp(s)))

27、其中,s=[s1,s2,…,si…,sf],si=s(t,fi),mlp(s)=ln(rule(ln(s)));s(·)表示相似度函數(shù),fi表示圖像序列中第i個(gè)圖像幀的視覺特征,si表示圖像序列中第i個(gè)圖像幀同文本特征t之間的相似度,f為圖像序列所包含圖像幀的數(shù)量;c為相似度感知壓縮因子;mlp為全連接網(wǎng)絡(luò),ln為全連接網(wǎng)絡(luò)中的線性層,rule為rule激活函數(shù),exp為指數(shù)函數(shù),expand表示對(duì)vr的維度進(jìn)行擴(kuò)展,以使其與vo的維度相一致的擴(kuò)展函數(shù)。

28、進(jìn)一步的,所述粗粒度相似性,基于輸入文本特征和視覺特征,對(duì)樣本對(duì)的圖像序列與文本,進(jìn)行整體的相似性計(jì)算獲得,包括:

29、首先,基于樣本對(duì)的圖像序列所包含各圖像幀的視覺特征與其文本特征之間的相似程度,構(gòu)建樣本對(duì)的圖像序列所包含各圖像幀的權(quán)重;然后,采用權(quán)重和的方式,聚合樣本對(duì)所包含各圖像幀的視覺特征,獲得樣本對(duì)的視頻粗粒度表征;之后,計(jì)算樣本對(duì)的視頻粗粒度表征與其文本特征之間的相似性,作為樣本對(duì)的粗粒度相似性;

30、所述中粒度相似性,基于輸入文本特征和視覺特征,對(duì)樣本對(duì)的圖像序列所包含圖像幀與文本,進(jìn)行幀級(jí)的相似性計(jì)算獲得,包括:

31、首先,以樣本對(duì)的文本特征構(gòu)建查詢,以樣本對(duì)的視覺特征構(gòu)建鍵和值,利用交叉注意力機(jī)制,獲得樣本對(duì)的圖像序列所包含各圖像幀的嵌入表征;然后,基于各圖像幀的嵌入表征,獲得樣本對(duì)的視頻中粒度表征;之后,計(jì)算樣本對(duì)的視頻中粒度表征與其文本特征之間的相似性,作為樣本對(duì)的中粒度相似性;

32、所述細(xì)粒度相似性,基于輸入文本特征和視覺特征,對(duì)圖像序列所包含視覺實(shí)體與文本所包含單詞,進(jìn)行因子級(jí)的相似性計(jì)算獲得,包括:

33、首先,將樣本對(duì)的文本特征分解為k個(gè)文本因子,將輸入樣本對(duì)的視頻粗粒度表征分解為k個(gè)視頻因子,并構(gòu)成k個(gè)視頻文本因子對(duì),其中,k為輸入樣本對(duì)的文本所包含單詞的數(shù)量;然后,分別計(jì)算每個(gè)視頻文本因子對(duì)所包含文本因子和視頻因子之間的相似程度;之后,基于各視頻文本因子的文本因子和視頻因子之間的相似程度,獲得樣本對(duì)的細(xì)粒度相似性。

34、進(jìn)一步的,所述視頻粗粒度表征的計(jì)算,包括:

35、首先,按如下公式,基于樣本對(duì)的圖像序列所包含各圖像幀的視覺特征與其文本特征之間的相似程度,構(gòu)建樣本對(duì)的圖像序列所包含各圖像幀的權(quán)重ai:

36、

37、然后,按如下公式,采用權(quán)重和的方式,聚合樣本對(duì)所包含各圖像幀的視覺特征,獲得樣本對(duì)的視頻粗粒度表征vcg:

38、

39、之后,按如下公式,計(jì)算樣本對(duì)的視頻粗粒度表征vcg與其文本特征t之間的相似性,作為樣本對(duì)的粗粒度相似性scg:

40、

41、其中,fi和fj分別表示圖像序列所包含第i個(gè)和第j個(gè)圖像幀的視覺特征,τ為超參數(shù),f表示圖像序列所包含圖像幀的數(shù)量;上標(biāo)t表示矩陣轉(zhuǎn)置,exp為指數(shù)函數(shù),|·|表示求模運(yùn)算。

42、進(jìn)一步的,所述中粒度相似性的計(jì)算中,按如下公式,以樣本對(duì)的文本特征構(gòu)建查詢,以樣本對(duì)的視覺特征構(gòu)建鍵和值,利用交叉注意力機(jī)制,獲得樣本對(duì)的圖像序列所包含各圖像幀的嵌入表征:

43、

44、qt=ln(tt)wq

45、kv=ln(v)wk

46、vv=ln(vc)wv

47、其中,wq、wk和wv分別為構(gòu)建查詢表征qt、鍵表征kv和值表征vv的轉(zhuǎn)換矩陣;dp為kv的特征維度;softmax表示softmax函數(shù),上標(biāo)t表示矩陣轉(zhuǎn)置,ln表示線性層;

48、按如下公式,計(jì)算樣本對(duì)的視頻中粒度表征vmg與其文本特征t之間的相似性,作為樣本對(duì)的中粒度相似性smg:

49、

50、其中,|·|表示求模運(yùn)算;

51、所述中粒度相似性的計(jì)算中,按如下公式,基于各圖像幀的嵌入表征,獲得樣本對(duì)的視頻中粒度表征vmg:

52、vmg=ln(r(v|t))+fc(r(v|t)))t

53、r(v|t)=ln(attention(qt,kv,vv)w1)

54、其中,表示圖像序列所包含各圖像幀的嵌入表征,w1為可學(xué)習(xí)權(quán)重,ln為線性層,fc表示全連接層。

55、進(jìn)一步的,所述細(xì)粒度相似性的計(jì)算,包括:

56、首先,按如下公式,將樣本對(duì)的文本特征分解為k個(gè)文本因子fwk,將輸入樣本對(duì)的視頻粗粒度表征分解為k個(gè)視頻因子fek,并構(gòu)成k個(gè)視頻文本因子對(duì):

57、fwk=wkt

58、fek=wkvcg

59、其中,vcg為視頻粗粒度表征,t為文本特征,wk為第k個(gè)可學(xué)習(xí)的分解因子,下標(biāo)k為序號(hào)且k=1,2,…,k,k為樣本對(duì)的文本所包含單詞的數(shù)量;

60、然后,按如下公式,分別計(jì)算每個(gè)視頻文本因子對(duì)所包含文本因子和視頻因子之間的相似程度;

61、s=(fw)tfe

62、其中,上標(biāo)t表示矩陣轉(zhuǎn)置,fe=[fe1,fe2,…,fek…,fek]為視頻因子矩陣,fw=[fw1,fw2,…,fwk…,fwk]為文本因子矩陣。

63、進(jìn)一步的,所述細(xì)粒度相似性的計(jì)算中,按如下公式,基于各視頻文本因子的文本因子和視頻因子之間的相似程度,獲得樣本對(duì)的細(xì)粒度相似性sfg:

64、sfg=s·g

65、g=mlp(cat[fw,fe])

66、mlp(cat[fw,fe])=ln(rule(ln(cat[fw,fe])))

67、其中,g為相似度置信度,mlp為全連接網(wǎng)絡(luò),ln為全連接網(wǎng)絡(luò)中的線性層,rule為rule激活函數(shù),cat為串聯(lián)函數(shù)。

68、進(jìn)一步的,所述負(fù)樣本對(duì)包括文本負(fù)樣本對(duì)和視頻負(fù)樣本對(duì);

69、按如下公式,計(jì)算文本到視頻的對(duì)齊損失

70、

71、按如下公式,計(jì)算視頻到文本的對(duì)齊損失

72、

73、按如下公式,計(jì)算對(duì)齊損失:

74、

75、其中,m表示視頻負(fù)樣本的數(shù)量加一,加一表示視頻負(fù)樣本所對(duì)應(yīng)的正樣本;n表示文本負(fù)樣本的數(shù)量加一,加一表示文本負(fù)樣本所對(duì)應(yīng)的正樣本;b為本輪訓(xùn)練的正樣本對(duì)的數(shù)量,e表示自然指數(shù),λ為表示縮放因子的超參數(shù),s(·)表示相似度函數(shù);

76、所述總損失為:

77、

78、其中,α和β為權(quán)重超參數(shù),表示粗粒度的特征對(duì)齊損失,其是將視頻粗粒度表征vcg和文本特征t作為輸入,經(jīng)對(duì)齊損失計(jì)算獲得;表示中粒度的特征對(duì)齊損失,其是將視頻中粒度表征vmg和文本特征t作為輸入,經(jīng)對(duì)齊損失計(jì)算獲得;表示細(xì)粒度的特征對(duì)齊損失,其是將視頻因子矩陣fe=[fe1,fe2,…,fek…,fek]和文本因子矩陣fw=[fw1,fw2,…,fwk…,fwk]作為輸入,經(jīng)對(duì)齊損失計(jì)算獲得;fek為第k個(gè)視頻因子,fwk為第k個(gè)文本因子。

79、本發(fā)明的有益效果是:本發(fā)明的模型,首先,對(duì)樣本對(duì)的圖像序列與文本,進(jìn)行整體的相似性計(jì)算獲得;然后,對(duì)樣本對(duì)的圖像序列所包含圖像幀與文本,進(jìn)行幀級(jí)的相似性計(jì)算獲得;之后,對(duì)圖像序列所包含視覺實(shí)體與文本所包含單詞,進(jìn)行因子級(jí)的相似性計(jì)算獲得。因此,在檢索時(shí),能通過多層次的相似度,引入了更多的特征信息,并從多個(gè)粒度對(duì)文本和視頻的相似性進(jìn)行比較,能夠降低文本特征與視覺特征在語義上的不對(duì)等所導(dǎo)致的影響,并顯著提升了檢索性能。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1