本發(fā)明涉及深度學(xué)習(xí)、計(jì)算機(jī)視覺領(lǐng)域,尤其涉及一種面向電力現(xiàn)場(chǎng)作業(yè)的人體骨架動(dòng)作識(shí)別方法。
背景技術(shù):
1、電力現(xiàn)場(chǎng)作業(yè)的安全管理直接關(guān)系到全行業(yè)和社會(huì)的穩(wěn)定。電力安全性的保障很大程度上依賴于管理和建設(shè)環(huán)節(jié)。電力現(xiàn)場(chǎng)作業(yè)涉及高風(fēng)險(xiǎn)作業(yè),這些作業(yè)對(duì)人員的安全提出了極高的要求。通過(guò)實(shí)施有效的風(fēng)險(xiǎn)監(jiān)控,可以顯著提高電力現(xiàn)場(chǎng)作業(yè)的安全管理水平,減少潛在的安全隱患,保障施工人員的生命安全和施工現(xiàn)場(chǎng)的整體安全性能?;谌梭w骨架的動(dòng)作識(shí)別依賴于人體姿態(tài)估計(jì)技術(shù),它的基本原理是通過(guò)從視頻或圖像中提取出人體關(guān)鍵點(diǎn)(如頭部、肩膀、手肘、膝蓋等)的空間位置信息,從而構(gòu)建出一個(gè)反映人體姿態(tài)的骨架結(jié)構(gòu)。骨架數(shù)據(jù)具有抽象性高、復(fù)雜性低和魯棒性好的特點(diǎn),不易受背景、尺度、視角、光照等因素的影響,骨架數(shù)據(jù)更加貼合人體動(dòng)作的實(shí)際物理意義,可以更好地表征人體運(yùn)動(dòng)的過(guò)程,提高動(dòng)作識(shí)別的準(zhǔn)確率,從而提高對(duì)于現(xiàn)場(chǎng)作業(yè)人員動(dòng)作風(fēng)險(xiǎn)判斷的準(zhǔn)確性,提高現(xiàn)場(chǎng)作業(yè)的效率和安全管理水平,降低可能發(fā)生的風(fēng)險(xiǎn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提出三維人體姿態(tài)估計(jì)技術(shù)和人體骨架動(dòng)作識(shí)別技術(shù),克服了電力現(xiàn)場(chǎng)作業(yè)環(huán)境下通過(guò)視頻圖像直接進(jìn)行動(dòng)作識(shí)別魯棒性較差、背景復(fù)雜、光照變化的缺陷,提高了動(dòng)作識(shí)別的準(zhǔn)確率,從而提高對(duì)于現(xiàn)場(chǎng)作業(yè)人員動(dòng)作風(fēng)險(xiǎn)判斷的準(zhǔn)確性,提高現(xiàn)場(chǎng)作業(yè)的效率和安全管理水平,降低可能發(fā)生的風(fēng)險(xiǎn)。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下面:向電力現(xiàn)場(chǎng)作業(yè)的人體骨架動(dòng)作識(shí)別方法,包括如下步驟:
3、s1、采集實(shí)際電力現(xiàn)場(chǎng)作業(yè)場(chǎng)景的視頻;
4、s2、對(duì)視頻圖像數(shù)據(jù)進(jìn)行預(yù)處理;
5、s3、搭建三維人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型,將預(yù)處理完成后的數(shù)據(jù)輸入到三維人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型獲取人體的三維骨架關(guān)節(jié)點(diǎn)序列數(shù)據(jù);
6、s4、搭建人體骨架動(dòng)作識(shí)別網(wǎng)絡(luò)模型,將三維骨架關(guān)節(jié)點(diǎn)序列數(shù)據(jù)輸入到人體骨架動(dòng)作識(shí)別網(wǎng)絡(luò)模型中進(jìn)行空間維度和時(shí)間維度的特征提取;
7、s5、將經(jīng)過(guò)空間維度和時(shí)間維度特征提取后的姿態(tài)特征輸入到全連接層解碼,輸出最終的動(dòng)作預(yù)測(cè)結(jié)果。
8、在一些實(shí)施例中,s1中,獲取實(shí)際電力現(xiàn)場(chǎng)作業(yè)場(chǎng)景中工作人員的初始化視頻圖像數(shù)據(jù),其包括設(shè)備操作、檢查、維護(hù)或安裝等交互行為,還會(huì)記錄現(xiàn)場(chǎng)不同的環(huán)境調(diào)教,包括天氣、光照情況、以及周圍的設(shè)施布局等;
9、進(jìn)一步的,s2中,對(duì)實(shí)際電力現(xiàn)場(chǎng)作業(yè)場(chǎng)景中工作人員的初始化視頻圖像數(shù)據(jù)進(jìn)行尺寸一致化處理和數(shù)據(jù)歸一化處理;
10、進(jìn)一步的,s3中,搭建三維人體姿態(tài)估計(jì)網(wǎng)絡(luò)模型,網(wǎng)絡(luò)模型由編碼器和解碼器搭建而成,其中,編碼器主要由一個(gè)切片嵌入模塊和多個(gè)基于自注意力機(jī)制的transformer模塊組成,編碼器模型結(jié)構(gòu)簡(jiǎn)單,大小可擴(kuò)展性強(qiáng),訓(xùn)練范式靈活且效果優(yōu)越,適用于環(huán)境復(fù)雜的電力作業(yè)現(xiàn)場(chǎng)。每個(gè)transformer模塊由一個(gè)多頭自注意力層(mhsa)和前饋網(wǎng)絡(luò)層(ffn)組成。
11、
12、其中,fi表示第i個(gè)transformer層的輸出,表示第i個(gè)transformer層的多頭自注意力層的輸出,fi+1表示第i+1個(gè)transformer層的輸出。解碼器模塊由兩個(gè)反卷積塊組成,每個(gè)塊包含一個(gè)反卷積層,然后是批量歸一化和relu。
13、k=conv1×1(deconv(deconv(fout)))
14、其中,fout表示通過(guò)編碼器模塊后出輸出,k表示估計(jì)的熱圖(每個(gè)骨架關(guān)節(jié)點(diǎn)一個(gè))。進(jìn)一步的,s4中,搭建人體骨架動(dòng)作識(shí)別網(wǎng)絡(luò)模型:基于自注意力機(jī)制的多尺度時(shí)空交叉人體骨架動(dòng)作識(shí)別模型。整個(gè)模型設(shè)計(jì)了一種多尺度時(shí)空交叉transformer架構(gòu),有效捕獲了不同尺度下人體特征的時(shí)間信息和關(guān)節(jié)依賴,此模型還設(shè)計(jì)了一種有效的分支交互方式學(xué)習(xí)時(shí)間通道和空間通道的一致性。整個(gè)模型框架由三個(gè)關(guān)鍵模塊組成:時(shí)間空間編碼模塊、多尺度時(shí)空交叉transformer模塊、多尺度時(shí)空交叉解碼模塊。
15、時(shí)間空間編碼模塊中,對(duì)不同尺度的人體特征進(jìn)行時(shí)間維度和空間維度的編碼和嵌入。我們采用時(shí)間與空間的雙流架構(gòu),對(duì)時(shí)間和空間通道進(jìn)行獨(dú)立的編碼,將這個(gè)新生成的運(yùn)動(dòng)序列映射到兩個(gè)獨(dú)立的嵌入空間中(分別為時(shí)間通道et和空間通道es)。
16、在進(jìn)行時(shí)間編碼時(shí),我們使用一個(gè)獨(dú)立的線性層來(lái)將所有關(guān)節(jié)的數(shù)據(jù)映射到一個(gè)d維的空間中,學(xué)習(xí)時(shí)間線上每個(gè)維度的上下文信息。
17、
18、其中,表示時(shí)間t時(shí)第n個(gè)關(guān)節(jié)的坐標(biāo),權(quán)重和偏置是針對(duì)每個(gè)關(guān)節(jié)n的。時(shí)間通道成功捕捉了參數(shù)隨時(shí)間變化的特性,而空間通道則深入理解了在每個(gè)時(shí)間點(diǎn)內(nèi)骨架參數(shù)之間的潛在依賴關(guān)系,這使得能夠準(zhǔn)確表達(dá)人體的合理姿態(tài)。在空間編碼方面,我們也通過(guò)一個(gè)線性層來(lái)擴(kuò)展序列長(zhǎng)度從t至t+k,并將其映射到一個(gè)d維空間中,以便獲得空間維度上的特征表示es:
19、
20、其中,表示第n個(gè)關(guān)節(jié)在時(shí)間t時(shí)的坐標(biāo),權(quán)重和偏置是針對(duì)每個(gè)時(shí)間t的。隨后,我們使用多尺度時(shí)空交叉transformer模塊,深入捕捉人體動(dòng)態(tài)在不同尺度下的時(shí)空信息,將運(yùn)動(dòng)信息按時(shí)間維度和空間維度進(jìn)行區(qū)分,并分別使用時(shí)間transformer和空間transformer來(lái)獨(dú)立處理時(shí)間序列數(shù)據(jù)和空間關(guān)系。使用時(shí)空交叉注意力機(jī)制同步地捕獲時(shí)間與空間維度上的一致性,加強(qiáng)時(shí)間和空間分支之間的連接。
21、時(shí)間transformer采用了原始transformer模型的“scaled?dot-productattention”機(jī)制,通過(guò)考慮同一關(guān)節(jié)在歷史幀中的信息來(lái)更新每個(gè)關(guān)節(jié)的嵌入。這個(gè)過(guò)程涉及到查詢(query)、鍵(key)和值(value)的概念,其中“值”的表示是所有鍵索引的序列。利用點(diǎn)積注意力機(jī)制,我們將查詢與所有的鍵進(jìn)行比對(duì),以評(píng)估不同關(guān)節(jié)之間的相似度。如果某個(gè)鍵與查詢非常接近(擁有較高的注意力權(quán)重),那么認(rèn)為該鍵對(duì)應(yīng)的值與查詢有著高度的相關(guān)性。位置相似度的計(jì)算方式如下:
22、
23、m為遮罩矩陣。
24、空間transformer采用了與時(shí)間transformer相似的架構(gòu),并實(shí)施了多頭注意力機(jī)制。在這一機(jī)制中,每個(gè)頭部的查詢(q)、鍵(k)以及值(v)均通過(guò)三個(gè)獨(dú)立的可學(xué)習(xí)權(quán)重矩陣進(jìn)行線性變換。與時(shí)間transformer的不同之處在于,空間transformer旨在探索空間關(guān)系,因此在這個(gè)場(chǎng)景下不需要引入遮罩矩陣m來(lái)防止未來(lái)信息的泄露。空間transformer專注于在同一時(shí)間步驟t內(nèi),分析人體各關(guān)節(jié)之間的相互依賴性,目的是在同一幀內(nèi)模擬不同關(guān)節(jié)之間的空間聯(lián)系,覆蓋了該時(shí)間點(diǎn)上所有人體關(guān)節(jié)的信息。
25、我們提出了一種創(chuàng)新的空間與時(shí)間分支之間的交叉注意力互動(dòng)方式。在空間和時(shí)間分支中,引入一個(gè)額外的信息(info)令牌來(lái)促進(jìn)分支間的互動(dòng)。這種互動(dòng)方式不僅包括分支內(nèi)部的消息和補(bǔ)丁令牌的交流,還包括跨分支的信息交換。在空間分支中,信息令牌聚集該分支內(nèi)有關(guān)人體關(guān)節(jié)動(dòng)態(tài)的信息,這一階段被稱作“信息聚合”。信息令牌通過(guò)匯總其所在分支的所有補(bǔ)丁令牌信息,隨后利用自注意力機(jī)制與其他分支的補(bǔ)丁令牌進(jìn)行信息交換。在接收到來(lái)自另一分支的信息后,更新的信息令牌帶著這些信息回到其原始分支通過(guò)下一個(gè)交叉注意力機(jī)制模塊,旨在將從其他分支獲得的知識(shí)融合入自己的時(shí)空表征中,這個(gè)過(guò)程稱為“信息反饋”。在交叉注意力機(jī)制模塊中采納多頭注意力機(jī)制(mhc),這允許從多個(gè)角度對(duì)人體動(dòng)態(tài)信息進(jìn)行投影,并且在每個(gè)模塊之后加入了層標(biāo)準(zhǔn)化(ln)和殘差連接以增強(qiáng)模型性能。交叉注意力機(jī)制模塊的輸出定義如下:
26、
27、
28、為信息令牌,為補(bǔ)丁令牌,fs(·)和gs(·)分別代表進(jìn)行維度對(duì)齊的投影和反投影函數(shù)。zs是空間分支的交叉注意力機(jī)制模塊輸出,而時(shí)間分支采用相同的處理流程。這種互動(dòng)是通過(guò)一連串的k個(gè)交叉注意力機(jī)制模塊實(shí)現(xiàn)的,其中每個(gè)模塊都致力于學(xué)習(xí)空間和時(shí)間分支信息之間的一致性,在交互完成后,利用融合后的特征更新時(shí)空transformer的輸入。
29、多尺度時(shí)空交叉解碼模塊中,來(lái)自各個(gè)尺度的時(shí)空交叉transformer編碼模塊的輸出y1,y2,y3與相應(yīng)尺度的輸入進(jìn)行殘差連接的融合,目的是應(yīng)對(duì)隨著模型深度增加而可能遇到的梯度消散或爆炸問(wèn)題。完成殘差連接后,將所有結(jié)果進(jìn)行匯總。
30、
31、進(jìn)一步的,s5中,將通過(guò)人體骨架動(dòng)作識(shí)別網(wǎng)絡(luò)模塊提取到的姿態(tài)特征輸入到全連接層進(jìn)行解碼,獲取到人體骨架動(dòng)作識(shí)別的預(yù)測(cè)結(jié)果。
32、一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)面向電力現(xiàn)場(chǎng)作業(yè)的人體骨架動(dòng)作識(shí)別方法。
33、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,該計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的面向電力現(xiàn)場(chǎng)作業(yè)的人體骨架動(dòng)作識(shí)別方法。
34、相對(duì)于現(xiàn)有技術(shù),本發(fā)明的優(yōu)點(diǎn)如下:
35、本發(fā)明利用三維人體姿態(tài)估計(jì)技術(shù)和人體骨架動(dòng)作識(shí)別技術(shù),克服了通過(guò)視頻圖像直接進(jìn)行動(dòng)作識(shí)別魯棒性較差、背景復(fù)雜、光照變化的缺陷,提高了動(dòng)作識(shí)別的準(zhǔn)確率,從而提高對(duì)于現(xiàn)場(chǎng)作業(yè)人員動(dòng)作風(fēng)險(xiǎn)判斷的準(zhǔn)確性,提高現(xiàn)場(chǎng)作業(yè)的效率和安全管理水平,降低可能發(fā)生的風(fēng)險(xiǎn)。
36、骨架數(shù)據(jù)具有抽象性高、復(fù)雜性低和魯棒性好的特點(diǎn),不易受背景、尺度、視角、光照等因素的影響;骨架數(shù)據(jù)更加貼合人體動(dòng)作的實(shí)際物理意義,可以更好地表征人體運(yùn)動(dòng)的過(guò)程。骨架的關(guān)節(jié)點(diǎn)與其相鄰節(jié)點(diǎn)之間存在較強(qiáng)的相關(guān)性,因此可以在幀內(nèi)方式從骨骼數(shù)據(jù)中發(fā)現(xiàn)豐富的身體結(jié)構(gòu)信息。上述優(yōu)勢(shì)使得基于骨架的人體動(dòng)作識(shí)別算法具有運(yùn)行速率快、魯棒性好及可擴(kuò)展性強(qiáng)的特點(diǎn)。