本發(fā)明屬于圖像處理與計(jì)算機(jī)視覺,涉及一種基于視覺語言模型和圖卷積的第一人稱行為識(shí)別方法。
背景技術(shù):
1、第一人稱行為識(shí)別是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要研究方向。它旨在通過對(duì)攝像頭拍攝到的第一人稱視角視頻進(jìn)行分析,識(shí)別出其中的行為和活動(dòng)。這種技術(shù)在多個(gè)應(yīng)用場景中具有廣泛的潛力,如智能監(jiān)控、虛擬現(xiàn)實(shí)(vr)、增強(qiáng)現(xiàn)實(shí)(ar)、以及人機(jī)交互等。
2、隨著互聯(lián)網(wǎng)的飛速發(fā)展,從第一人稱視角捕獲的視頻數(shù)據(jù)越來越豐富,這為第一人稱視角下交通行為識(shí)別提供了大量的數(shù)據(jù)基礎(chǔ),然而第一人稱行為識(shí)別仍面臨著一系列挑戰(zhàn)。首先由于攝像頭的視角限制,第一人稱視頻中的動(dòng)作和行為通常呈現(xiàn)出不同的視角和角度,這使得從這些視角中識(shí)別行為變得更加困難。其次在第一人稱視角下,快速或復(fù)雜的動(dòng)作可能會(huì)造成模糊,使得行為識(shí)別更加具有挑戰(zhàn)性。此外,不同的環(huán)境和場景會(huì)影響行為的表現(xiàn),例如,在狹小的空間和寬闊的空間中,行為的呈現(xiàn)方式可能大相徑庭。
3、傳統(tǒng)的行為識(shí)別方法主要依賴于視頻中的動(dòng)作特征和視覺特征。這些方法通?;诰矸e神經(jīng)網(wǎng)絡(luò)(cnn)來提取空間特征,基于遞歸神經(jīng)網(wǎng)絡(luò)(rnn)或長短時(shí)記憶網(wǎng)絡(luò)(lstm)來建模時(shí)間序列。然而,這些方法在處理復(fù)雜動(dòng)作和多樣場景時(shí)存在一定局限性,特別是在第一人稱視角下,傳統(tǒng)的方法可能無法有效捕捉到行為的細(xì)節(jié)。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問題,本發(fā)明提供了一種基于視覺語言模型和圖卷積的第一人稱行為識(shí)別方法,包括以下步驟:
2、s1.獲取圖像組數(shù)據(jù)集及其對(duì)應(yīng)的標(biāo)簽提示詞數(shù)據(jù)集;所述圖像組數(shù)據(jù)集包括多個(gè)圖像組,每一圖像組對(duì)應(yīng)一個(gè)標(biāo)簽提示詞,且每一圖像組包括針對(duì)同一目標(biāo)采集的8幀圖像;
3、s2.將標(biāo)簽提示詞數(shù)據(jù)集輸入預(yù)訓(xùn)練的視覺語言模型clip的文本編輯器,得到文本特征集;將圖像組數(shù)據(jù)集輸入預(yù)訓(xùn)練的視覺語言模型clip的視覺編輯器,得到視覺特征集;
4、s3.基于文本特征集和視覺特征集,采用圖卷積網(wǎng)絡(luò)獲取對(duì)偶融合知識(shí)圖;
5、s4.對(duì)圖像組數(shù)據(jù)集進(jìn)行形狀重塑得到第一重塑數(shù)據(jù)集,將第一重塑數(shù)據(jù)輸入視覺編輯器得到重塑視覺特征;
6、s5.對(duì)重塑視覺特征進(jìn)行形狀重塑得到第二重塑視覺特征,將第二重塑視覺特征輸入時(shí)序融合模型得到時(shí)間視覺特征;
7、s6.將時(shí)間視覺特征與對(duì)偶融合知識(shí)圖融合得到識(shí)別結(jié)果,根據(jù)識(shí)別結(jié)果計(jì)算損失反向傳播訓(xùn)練圖卷積網(wǎng)絡(luò)、時(shí)序融合模型和視覺語言模型clip的視覺編輯器;
8、s7.采用視覺語言模型clip的文本編輯器和視覺編輯器,以及訓(xùn)練完成的圖卷積網(wǎng)絡(luò)、時(shí)序融合模型構(gòu)建第一人稱行為識(shí)別模型;采用第一人稱行為識(shí)別模型進(jìn)行識(shí)別。
9、進(jìn)一步的,步驟s3具體包括:
10、s31.根據(jù)文本特征集表示第c=1,2,…,c類文本特征,c表示類別數(shù);以每一類文本特征為一個(gè)節(jié)點(diǎn),計(jì)算每兩個(gè)節(jié)點(diǎn)間的余弦相似度作為邊,從而構(gòu)建文本知識(shí)子圖gt;
11、s32.采用文本特征集zt與視覺特征集zv進(jìn)行重復(fù)匹配合并得到合并視覺特征集,以合并視覺特征集中每一類合并視覺特征為一個(gè)節(jié)點(diǎn),計(jì)算每兩個(gè)節(jié)點(diǎn)間的余弦相似度作為邊,從而構(gòu)建合并視覺知識(shí)子圖gvt;其中表示第c類視覺特征組;
12、s33.將文本知識(shí)子圖gt和合并視覺知識(shí)子圖gvt送入不同的圖卷積網(wǎng)絡(luò),得到文本知識(shí)圖和視覺知識(shí)圖;將文本知識(shí)圖和視覺知識(shí)圖融合得到對(duì)偶融合知識(shí)圖。
13、進(jìn)一步的,在步驟s32中,文本特征集zt包括c類文本特征,每一類文本特征的大小為1×d;視覺特征集zv包括c類視覺特征組,每一視覺特征組包括m個(gè)視覺特征,每一個(gè)視覺特征的大小為1×d;其中c表示類別數(shù),d表示特征維數(shù),k=c×m,m表示采樣幀數(shù);將每一個(gè)視覺特征組與其對(duì)應(yīng)類別的文本特征合并,最終得到k個(gè)1×d大小的合并視覺特征形成合并視覺特征集。
14、進(jìn)一步的,采用resnet50網(wǎng)絡(luò)作為視覺語言模型clip的骨架網(wǎng)絡(luò)。
15、進(jìn)一步的,圖像組數(shù)據(jù)集形狀為(采樣樣本數(shù),采樣幀數(shù),通道數(shù),寬度,高度);對(duì)圖像組數(shù)據(jù)集進(jìn)行形狀重塑得到第一重塑數(shù)據(jù)集,第一重塑數(shù)據(jù)集形狀為(采樣樣本數(shù)×采樣幀數(shù),通道數(shù),寬度,高度);將第一重塑數(shù)據(jù)輸入視覺編輯器得到重塑視覺特征,重塑視覺特征形狀為(采樣樣本數(shù)×采樣幀數(shù),特征維數(shù));對(duì)重塑視覺特征進(jìn)行形狀重塑得到第二重塑視覺特征,第二重塑視覺特征形狀為(采樣樣本數(shù),采樣幀數(shù),特征維數(shù))。
16、進(jìn)一步的,時(shí)序融合模型包括6個(gè)residualattentionblock,每個(gè)residualattentionblock包括多頭注意力層、層歸一化和多層感知機(jī)。
17、本發(fā)明的有益效果:
18、本發(fā)明提供了一種基于視覺語言模型和圖卷積的第一人稱行為識(shí)別方法,該方法主要從視覺語言模型、知識(shí)圖譜和時(shí)間特征融合三方面進(jìn)行。首先,通過視覺語言模型為動(dòng)作過程中的局部模糊或遮擋提供語義上的補(bǔ)充信息;其次,基于視覺語言模型提取的特征構(gòu)建知識(shí)圖譜,從而對(duì)行為動(dòng)作進(jìn)行更全面的建模;最后采用時(shí)間特征融合將樣本的時(shí)空信息融合,從而捕捉動(dòng)作的動(dòng)態(tài)變化。通過結(jié)合三種技術(shù),本發(fā)明能夠在面對(duì)復(fù)雜和模糊的第一人稱視角視頻時(shí),提供更加準(zhǔn)確和穩(wěn)定的行為識(shí)別結(jié)果。視覺語言模型通過上下文信息補(bǔ)充視覺信息,知識(shí)圖譜通過結(jié)構(gòu)化的特征提升行為理解,時(shí)間特征融合則確保了動(dòng)態(tài)變化下的行為識(shí)別。
1.一種基于視覺語言模型和圖卷積的第一人稱行為識(shí)別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于視覺語言模型和圖卷積的第一人稱行為識(shí)別方法,其特征在于,步驟s3具體包括:
3.根據(jù)權(quán)利要求2所述的一種基于視覺語言模型和圖卷積的第一人稱行為識(shí)別方法,其特征在于,在步驟s32中,文本特征集zt包括c類文本特征,每一類文本特征的大小為1×d;視覺特征集zv包括c類視覺特征組,每一視覺特征組包括m個(gè)視覺特征,每一個(gè)視覺特征的大小為1×d;其中c表示類別數(shù),d表示特征維數(shù),k=c×m,m表示采樣幀數(shù);將每一個(gè)視覺特征組與其對(duì)應(yīng)類別的文本特征合并,最終得到k個(gè)1×d大小的合并視覺特征形成合并視覺特征集。
4.根據(jù)權(quán)利要求1所述的一種基于視覺語言模型和圖卷積的第一人稱行為識(shí)別方法,其特征在于,采用resnet50網(wǎng)絡(luò)作為視覺語言模型clip的骨架網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求1所述的一種基于視覺語言模型和圖卷積的第一人稱行為識(shí)別方法,其特征在于,圖像組數(shù)據(jù)集形狀為(采樣樣本數(shù),采樣幀數(shù),通道數(shù),寬度,高度);對(duì)圖像組數(shù)據(jù)集進(jìn)行形狀重塑得到第一重塑數(shù)據(jù)集,第一重塑數(shù)據(jù)集形狀為(采樣樣本數(shù)×采樣幀數(shù),通道數(shù),寬度,高度);將第一重塑數(shù)據(jù)輸入視覺編輯器得到重塑視覺特征,重塑視覺特征形狀為(采樣樣本數(shù)×采樣幀數(shù),特征維數(shù));對(duì)重塑視覺特征進(jìn)行形狀重塑得到第二重塑視覺特征,第二重塑視覺特征形狀為(采樣樣本數(shù),采樣幀數(shù),特征維數(shù))。
6.根據(jù)權(quán)利要求1所述的一種基于視覺語言模型和圖卷積的第一人稱行為識(shí)別方法,其特征在于,時(shí)序融合模型包括6個(gè)residualattentionblock,每個(gè)residualattentionblock包括多頭注意力層、層歸一化和多層感知機(jī)。