本發(fā)明涉及動作識別,尤其涉及一種基于雙分支的動作識別方法及系統(tǒng)。
背景技術(shù):
1、動作識別是計算機視覺和模式識別領(lǐng)域的重要研究方向,廣泛應(yīng)用于智能監(jiān)控、體育分析、虛擬現(xiàn)實和人機交互等領(lǐng)域。傳統(tǒng)的動作識別方法主要依賴手工設(shè)計的特征,如光流、運動歷史圖像和時空興趣點等。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(cnn)、三維卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)等技術(shù)在動作識別任務(wù)中取得了顯著進展。
2、受faster?r-cnn啟發(fā),許多先進的動作識別方法采用兩階段網(wǎng)絡(luò)架構(gòu),先生成動作建議框,再進行分類。例如,yowo(you?only?watch?once)模型使用2d?cnn提取關(guān)鍵幀的空間特征,同時用3d?cnn提取前幾幀的時空特征,實現(xiàn)了較好的動作識別效果。
3、但是,在現(xiàn)有技術(shù)中,使用兩階段網(wǎng)絡(luò)架構(gòu)進行動作識別時生成跨幀的包含邊界框的動作管道比二維情況要復(fù)雜得多且耗時,分類性能極大地依賴于這些建議框,而檢測到的邊界框可能對于后續(xù)的分類任務(wù)來說并不是最優(yōu)的;且動作建議框僅關(guān)注視頻中人類的特征,忽略了人與背景中某些屬性之間的關(guān)系,而這些背景信息可以為行為預(yù)測提供重要的上下文信息。
4、因此,尋找一種既能夠提高動作識別準確率,又能夠適應(yīng)復(fù)雜場景的識別方法,是本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明提出了一種基于雙分支的動作識別方法及系統(tǒng),其能夠結(jié)合2d分支和3d分支,有效地提取了空間特征和時空特征,并通過特征融合和注意力機制,顯著提高了動作識別的準確性和效率。
2、本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
3、第一方面,本發(fā)明提供了一種基于雙分支的動作識別方法,包括以下步驟:
4、s1、獲取動作視頻,并對動作視頻進行預(yù)處理,得到預(yù)處理后的圖片;
5、s2、使用2d分支和3d分支分別對預(yù)處理后的圖片進行特征提取,得到空間特征和時空特征;其中2d分支包括主干網(wǎng)絡(luò)和fpn,主干網(wǎng)絡(luò)包括c2f-sccloatt模塊,3d分支包括1個第一特征提取層、第一最大池化層和4個第二特征提取層,第二特征提取層包括od_bottleneck模塊;
6、s3、使用通道融合和注意力機制模塊對空間特征和時空特征進行特征融合,得到融合特征;
7、s4、對融合特征進行檢測,得到每個空間位置的動作類別預(yù)測結(jié)果。
8、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述2d分支的網(wǎng)絡(luò)結(jié)構(gòu)為:
9、主干網(wǎng)絡(luò)包括layer_1、layer_2、layer_3、layer_4和layer_5,layer_1包括第一卷積單元、bn單元和silu,layer_2包括第二卷積單元、bn單元、silu和c2f-sccloatt模塊,layer_3包括第三卷積單元、bn單元、silu和c2f-sccloatt模塊,layer_4包括第四卷積單元、bn單元、silu和c2f-sccloatt模塊,layer_5包括第五卷積單元、bn單元、silu和c2f-sccloatt模塊;其中第一卷積單元的通道數(shù)為64、第二卷積單元的通道數(shù)為128、第三卷積單元的通道數(shù)為256,第四卷積單元的通道數(shù)為512,第五卷積單元的通道數(shù)為1024;
10、fpn包括四個部分,第一部分包括上采用層、concat單元和第一c2f模塊,第二部分包括上采用層、concat單元和第二c2f模塊,第三部分包括第六卷積單元、concat單元和第三c2f模塊、第四部分包括第七卷積單元、concat單元、第四c2f模塊和spp_block_csp;其中第六卷積單元的卷積核為3*3,通道數(shù)為256,第七卷積單元的卷積核為3*3,通道數(shù)為512,第一c2f模塊的通道數(shù)為512,第二c2f模塊的通道數(shù)為256,第三c2f模塊的通道數(shù)為512,第四c2f模塊的通道數(shù)為1024。
11、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,在步驟s2中,使用2d分支對預(yù)處理后的圖片進行特征提取,具體包括:
12、使用主干網(wǎng)絡(luò)對預(yù)處理后的圖片進行特征提取,得到第一多尺度特征;
13、使用fpn對第一多尺度特征進行特征融合和增強,得到第二多尺度特征;
14、對第二多尺度特征進行特征處理和轉(zhuǎn)換,得到空間特征,其中空間特征包括fcls和freg。
15、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述c2f-sccloatt模塊包括scconv層和cloatt注意力模塊,其中scconv層包括空間重構(gòu)單元和信道重構(gòu)單元,cloatt注意力模塊包括高頻注意力、低頻注意力和特征融合。
16、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述c2f-sccloatt模塊還包括高效注意力機制,其中高效注意力機制的特征如下:
17、e(q,k,v)=ρq(q)(ρk(k)tv);
18、其中,ρq表示查詢的歸一化函數(shù),ρk表示鍵特征的歸一化函數(shù),q表示查詢向量,k表示鍵向量,t表示對ρk(k)矩陣轉(zhuǎn)置,v表示值向量。
19、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述3d分支的網(wǎng)絡(luò)結(jié)構(gòu)為:
20、所述第一特征提取層包括卷積核為3×3×3、通道數(shù)為64的卷積層、bn層、relu和3×3×3第二最大池化層;
21、所述第一最大池化層為3×1×1;
22、4個第二特征提取層包括layer1、layer2、layer3和layer4,其中l(wèi)ayer1包括3個連續(xù)的od_bottleneck模塊,layer2包括4個連續(xù)的od_bottleneck模塊,layer3包括5個連續(xù)的od_bottleneck模塊和一個添加非局部塊的od_bottleneck,layer4包括3個連續(xù)的od_bottleneck模塊。
23、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述od_bottleneck模塊具體包括:
24、輸入分組,包括一組3*3的第一卷積分支和一組3*3的全維動態(tài)卷積分支;
25、融合單元,其配置為將第一卷積分支的輸出和全維動態(tài)卷積分支的輸出相加;
26、維度恢復(fù)單元包括1*1卷積層,用于將融合單元的輸出恢復(fù)至輸入特征維度,得到第一特征;
27、殘差連接單元,用于將第一特征與輸入相加,得到殘差特征。
28、在以上技術(shù)方案的基礎(chǔ)上,優(yōu)選的,所述全維動態(tài)卷積四種不同的注意力,包括卷積核注意力、空間維度注意力、輸入通道維度注意力和輸出通道注意力,全維動態(tài)卷積的表達式如下:
29、y=(αω1⊙αf1⊙αc1⊙αs1w1+…+αωn⊙αfn⊙αcn⊙αsn⊙wn)×x;
30、其中,αω1表示第一個卷積核w1的注意力標量,αf1表示空間維度注意力的空域維度,αc1表示輸入通道維度注意力的輸入通道維度,αs1表示輸出通道注意力的輸出通道維度,αωn表示第n個卷積核的注意力標量,wn表示第n個卷積核,x表示輸入特征圖,αfn表示第n個卷積核的空間維度注意力的空域維度,αcn表示第n個卷積核的輸入通道維度注意力的輸入通道維,αsn表示第n個卷積核的輸出通道注意力的輸出通道維度。
31、更進一步優(yōu)選的,步驟s3具體包括:
32、s31、將時空特征和空間特征輸入通道融合模塊,根據(jù)通道融合模塊的通道維度對時空特征和空間特征進行融合,得到第一特征圖;
33、s32、對第一特征使用1*1卷積壓縮通道數(shù),并使用3*3卷積提取特征,得到第二特征圖;
34、s33、將第二特征重塑為兩種維度的特征圖,包括特征圖f1和特征圖f2;
35、s34、對特征圖f1和特征圖f2進行逐元素點乘,并通過softmax函數(shù)處理,得到注意力矩陣;
36、s35、將注意力矩陣與特征圖f1進行逐元素點乘,得到第三特征圖,將第三特征圖重塑為第二特征圖大小,得到融合特征。
37、第二方面,本發(fā)明提供了一種基于雙分支的動作識別系統(tǒng),采用如上述所述的動作識別方法,包括:
38、圖片處理模塊,其配置為獲取動作視頻,并對動作視頻進行預(yù)處理,得到預(yù)處理后的圖片;
39、特征提取模塊,其配置為使用2d分支和3d分支分別對預(yù)處理后的圖片進行特征提取,得到空間特征和時空特征;其中2d分支包括主干網(wǎng)絡(luò)和fpn,主干網(wǎng)絡(luò)包括c2f-sccloatt模塊,3d分支包括1個第一特征提取層、第一最大池化層和4個第二特征提取層,第二特征提取層包括od_bottleneck模塊;
40、特征融合模塊,其配置為使用通道融合和注意力機制模塊對空間特征和時空特征進行特征融合,得到融合特征;
41、動作預(yù)測模塊,其配置為對融合特征進行檢測,得到每個空間位置的動作類別預(yù)測結(jié)果。
42、本發(fā)明的動作識別方法相對于現(xiàn)有技術(shù)具有以下有益效果:
43、(1)通過通過結(jié)合2d分支和3d分支,有效地提取了空間特征和時空特征,并通過特征融合和注意力機制,顯著提高了動作識別的準確性和效率,不僅能夠捕捉靜態(tài)圖像中的空間信息,還能有效地處理視頻序列中的時間動態(tài)特征,從而在各種復(fù)雜場景下實現(xiàn)更精準的動作識別;
44、(2)通過引入scconv層和cloatt注意力模塊,利用c2f-sccloatt模塊有效地減少了特征冗余,同時增強了特征表示能力,不僅降低了模型參數(shù)和計算復(fù)雜度,還能夠同時關(guān)注局部細節(jié)和全局信息,從而在保持計算效率的同時,顯著提升了模型的特征提取能力和表達能力,使得模型能夠更好地處理復(fù)雜的動作場景;
45、(3)通過在od_bottleneck模塊引入全維動態(tài)卷積和非局部塊,大大增強了3d分支的特征提取能力,利用全維動態(tài)卷積實現(xiàn)了對特征的自適應(yīng)調(diào)整,非局部塊則有效捕捉了長距離依賴關(guān)系,能夠更好地適應(yīng)不同類型的動作特征,提高了對復(fù)雜動作序列的理解能力;
46、(4)通過特征融合和注意力機制實現(xiàn)了空間特征和時空特征的有效結(jié)合,能夠智能地突出重要特征,抑制無關(guān)信息,從而生成更加精煉和信息豐富的融合特征,提高對動作關(guān)鍵信息的捕捉能力,有效改善了動作識別的準確性和魯棒性。