本發(fā)明屬于計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域,涉及一種基于結(jié)構(gòu)指導(dǎo)深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法和系統(tǒng)。
背景技術(shù):
人體姿態(tài)估計(jì)是定位出圖像中人體部位關(guān)節(jié)點(diǎn)所在位置的過(guò)程。人體姿態(tài)估計(jì)在計(jì)算機(jī)視覺(jué)領(lǐng)域有著非常重要的作用,是人機(jī)交互,虛擬現(xiàn)實(shí),智能監(jiān)控等應(yīng)用的基礎(chǔ)。由于圖像中人的衣著,形狀,姿態(tài),背景等的多樣性以及存在一些自我遮擋和其他人或物體遮擋的情況,準(zhǔn)確地預(yù)測(cè)出圖像中的人體部位關(guān)節(jié)點(diǎn)非常具有挑戰(zhàn)性。
人體姿態(tài)估計(jì)方法主要有兩種:傳統(tǒng)的基于模型的方法和最近隨著深度學(xué)習(xí)興起的基于卷積神經(jīng)網(wǎng)絡(luò)的方法。傳統(tǒng)的基于模型的方法主要是建立人體模型,然后人工提取特征,并用模型來(lái)建立特征間的聯(lián)系,較為典型的模型有PS模型,主要用樹(shù)結(jié)構(gòu)來(lái)建立人體模型。由于基于人工提取特征的方法的準(zhǔn)確率和魯棒性比較差,難以預(yù)測(cè)復(fù)雜的姿態(tài),所以近年來(lái)人們開(kāi)始使用在計(jì)算機(jī)視覺(jué)許多任務(wù)中都顯示出很好效果的深度學(xué)習(xí)技術(shù)來(lái)進(jìn)行姿態(tài)估計(jì)。
目前,基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)主要是直接通過(guò)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來(lái)回歸出人體的關(guān)節(jié)點(diǎn)位置。具體是輸入圖像,進(jìn)過(guò)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練得到關(guān)節(jié)點(diǎn)熱點(diǎn)圖,然后采用后續(xù)處理在熱點(diǎn)圖中找到最終的關(guān)節(jié)點(diǎn)位置。該方法雖然借助了深度學(xué)習(xí)技術(shù),但是由于沒(méi)有充分利用人體自身的信息,一些復(fù)雜姿態(tài),遮擋以及一些多人的干擾情況都無(wú)法得到解決。為了解決現(xiàn)有技術(shù)中存在的問(wèn)題,需要提出一種新的方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于解決現(xiàn)有技術(shù)存在的問(wèn)題,提供一種基于結(jié)構(gòu)指導(dǎo)深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法和系統(tǒng)。
本發(fā)明一方面提供一種基于結(jié)構(gòu)指導(dǎo)深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法,包括如下步驟:
步驟1:輸入數(shù)據(jù)預(yù)處理;
步驟2:結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè);
步驟3:融合卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè);
步驟4:輸出處理。
進(jìn)一步地,所述步驟1進(jìn)一步具體為:首先將圖片進(jìn)行縮放,使得其較長(zhǎng)一邊的長(zhǎng)度為一個(gè)固定值;其次,將較短一邊進(jìn)行零填充,使得整個(gè)圖片為正方形;然后進(jìn)行隨機(jī)左右翻轉(zhuǎn);接著按一定的角度將圖片進(jìn)行旋轉(zhuǎn)操作。在上述對(duì)圖片操作的同時(shí),需要對(duì)真實(shí)的標(biāo)記關(guān)節(jié)點(diǎn)位置作對(duì)應(yīng)的處理。
進(jìn)一步地,所述步驟2進(jìn)一步具體為:將預(yù)處理后的圖片通過(guò)結(jié)構(gòu)指導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行學(xué)習(xí)和 預(yù)測(cè)。這里結(jié)構(gòu)指導(dǎo)指的是在一般的卷積神經(jīng)網(wǎng)絡(luò)中融入人體骨架的結(jié)構(gòu)信息,來(lái)指導(dǎo)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。一般的人體姿態(tài)估計(jì)的神經(jīng)網(wǎng)絡(luò)的回歸目標(biāo)函數(shù)為:
表示一張由真實(shí)標(biāo)記關(guān)節(jié)點(diǎn)為中心產(chǎn)生的真實(shí)標(biāo)記的熱點(diǎn)圖。作為優(yōu)選,其分布為高斯分布yk代表第k真實(shí)標(biāo)記的關(guān)節(jié)點(diǎn),(xk,yk)是yk在圖像中坐標(biāo)點(diǎn)的值。(i,j)是真實(shí)標(biāo)記的熱點(diǎn)圖中的每個(gè)像素點(diǎn)在圖中的位置。σ1是高斯分布的標(biāo)準(zhǔn)差。
結(jié)構(gòu)指導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)加入了骨架結(jié)構(gòu)信息,這部分的目標(biāo)函數(shù)為:
表示由兩個(gè)相鄰的真實(shí)標(biāo)記關(guān)節(jié)點(diǎn)的連線為中心產(chǎn)生的高斯分布的真實(shí)標(biāo)記熱點(diǎn)圖。pi表示相鄰關(guān)節(jié)點(diǎn)之間的連線,1是這些連線相應(yīng)的序號(hào),這些連線對(duì)應(yīng)于不同的人體模型,作為優(yōu)選,可以采用樹(shù)形結(jié)構(gòu)的人體模型,相應(yīng)的連線即位樹(shù)形結(jié)構(gòu)人體模型的邊;dist((i,j),pl)表示真實(shí)標(biāo)記的熱點(diǎn)圖中的每個(gè)點(diǎn)(i,j)到pl的距離。σ2是該高斯分布的標(biāo)準(zhǔn)差。
用l1表示關(guān)節(jié)點(diǎn)對(duì)應(yīng)的熱點(diǎn)圖的損失函數(shù),用l2表示關(guān)節(jié)點(diǎn)連線對(duì)應(yīng)的熱點(diǎn)圖的損失函數(shù):
其中,X是輸入圖像,y是真實(shí)標(biāo)記的關(guān)節(jié)點(diǎn),p是相鄰真實(shí)標(biāo)記的關(guān)節(jié)點(diǎn)的連線,D是整個(gè)訓(xùn)練數(shù)據(jù)集;(i,j)表示熱點(diǎn)圖中的每個(gè)像素點(diǎn)的坐標(biāo);k和l分別表示y的序號(hào)和p的序號(hào)。Hi,j,k(X,w)表示神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)輸出的相應(yīng)的第k關(guān)節(jié)點(diǎn)的熱點(diǎn)圖,Pi,j,l(X,w)表示神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)輸出的相應(yīng)的第1關(guān)節(jié)點(diǎn)連線的熱點(diǎn)圖,w表示卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)。
結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)的總的損失函數(shù)loss1為:
loss1=l1+l2.
進(jìn)一步地,所述步驟3進(jìn)一步具體為:將結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)的低層級(jí)特征層和高層次特征層進(jìn)行融合,送入另外一支卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)和預(yù)測(cè),低層次特征層包含更多的圖像細(xì)節(jié),高層次特征層則提供預(yù)測(cè)的初步結(jié)果。
結(jié)構(gòu)指導(dǎo)神經(jīng)網(wǎng)絡(luò)引入了人體結(jié)構(gòu)約束信息,提供給融合卷積神經(jīng)網(wǎng)絡(luò)一個(gè)初步結(jié)果,并指導(dǎo)融合卷積網(wǎng)絡(luò)的學(xué)習(xí).融合卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)為損失函數(shù)loss2為:
loss2=l1
整個(gè)神經(jīng)網(wǎng)絡(luò)總的損失函數(shù)losst為:
losst=loss1+λloss2
λ是平衡loss1和loss2的常數(shù)。
進(jìn)一步地,所述步驟4進(jìn)一步具體為:將融合卷積神經(jīng)網(wǎng)絡(luò)的最終輸出的熱點(diǎn)圖進(jìn)行后續(xù)處理,得到最終關(guān)節(jié)點(diǎn)的位置。分別對(duì)每個(gè)關(guān)節(jié)點(diǎn)對(duì)應(yīng)的熱點(diǎn)圖處理,即可得到預(yù)測(cè)出的全部的人體關(guān)節(jié)點(diǎn)的位置。
根據(jù)本發(fā)明的另一方面,提供一種基于結(jié)構(gòu)指導(dǎo)深度學(xué)習(xí)的人體姿態(tài)估計(jì)系統(tǒng),包括如下模塊:
數(shù)據(jù)采集模塊,主要是通過(guò)相機(jī)得到包含有人體的圖片;
計(jì)算機(jī)處理模塊,包括:a.圖像預(yù)處理子模塊,b.結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)子模塊,c.融合卷積神經(jīng)網(wǎng)絡(luò)子模塊,d.定位關(guān)節(jié)點(diǎn)子模塊和e.可視化子模塊。
a.圖像預(yù)處理子模塊:將輸入圖像首先進(jìn)行預(yù)處理,包括縮放,裁剪,零填充,翻轉(zhuǎn)和旋轉(zhuǎn)等操作。需要注意的是,對(duì)于測(cè)試圖片,或者實(shí)際使用時(shí)只需要做縮放,裁剪和零填充以滿足圖片為正方形即可,不需要翻轉(zhuǎn)和旋轉(zhuǎn).
b.結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)子模塊:將預(yù)處理后的圖片送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),通過(guò)在卷積神經(jīng)網(wǎng)絡(luò)中加入人體結(jié)構(gòu)信息,進(jìn)行指導(dǎo)學(xué)習(xí),最終預(yù)測(cè)出人體關(guān)節(jié)點(diǎn)和關(guān)節(jié)點(diǎn)之間連線的熱點(diǎn)圖。
c.融合卷積神經(jīng)網(wǎng)絡(luò)子模塊:將結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)模塊的低層級(jí)特征層和高層次特征層進(jìn)行融合作為輸入,通過(guò)另一支卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),輸出最終的人體關(guān)節(jié)點(diǎn)的熱點(diǎn)圖。
d.定位關(guān)節(jié)點(diǎn)子模塊:通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)輸出的人體關(guān)節(jié)點(diǎn)熱點(diǎn)圖進(jìn)行后續(xù)處理,得到最終的關(guān)節(jié)點(diǎn)標(biāo)。對(duì)每個(gè)關(guān)節(jié)點(diǎn)的熱點(diǎn)圖進(jìn)行處理,最終得到全部的人體關(guān)節(jié)點(diǎn)的位置。
e.可視化子模塊:該模塊主要用在測(cè)試或者實(shí)際應(yīng)用中。神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后,即可用來(lái)測(cè)試和實(shí)用。對(duì)一張輸入圖片,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出人體的各個(gè)關(guān)節(jié)點(diǎn)位置。將關(guān)節(jié)點(diǎn)疊加顯示在輸入圖片上呈現(xiàn)可視化的預(yù)測(cè)結(jié)果。
本發(fā)明將人體的骨架信息融于深度卷積神經(jīng)網(wǎng)絡(luò)中來(lái)指導(dǎo)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),從而可以隱含地學(xué)習(xí)出人體模型,克服了利用神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)帶來(lái)的準(zhǔn)確率低,魯棒性差的缺點(diǎn),提高了關(guān)節(jié)點(diǎn)的預(yù)測(cè)準(zhǔn)確率。由于結(jié)構(gòu)信息的引入,本發(fā)明對(duì)復(fù)雜姿態(tài)以及一些遮擋情況均能有效預(yù)測(cè)出準(zhǔn)確位置。
附圖說(shuō)明
附圖說(shuō)明用于提供對(duì)本發(fā)明技術(shù)方案的進(jìn)一步理解,并構(gòu)成說(shuō)明書的一部分,與本發(fā)明的實(shí)施一起用于解釋本發(fā)明的技術(shù)方案,并不構(gòu)成對(duì)本發(fā)明技術(shù)方案的限制。附圖說(shuō)明如下:
圖1是本發(fā)明方法的流程圖。圖2是本發(fā)明系統(tǒng)的硬件組成圖。
具體實(shí)施方式
以下結(jié)合附圖,對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)的描述:應(yīng)當(dāng)理解,優(yōu)選實(shí)施例僅為了說(shuō)明本發(fā)明, 而不是為了限制本發(fā)明的保護(hù)范圍。
如圖1所示,本發(fā)明基于結(jié)構(gòu)指導(dǎo)深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法,包括如下步驟:
步驟1:輸入數(shù)據(jù)預(yù)處理。
首先將圖片進(jìn)行縮放,使得其較長(zhǎng)一邊的長(zhǎng)度為一個(gè)固定值,優(yōu)選地為256;其次,將較短一邊進(jìn)行零填充,使得整個(gè)圖片為正方形;然后,進(jìn)行隨機(jī)左右翻轉(zhuǎn);接著,按一定的角度將圖片進(jìn)行旋轉(zhuǎn)操作,優(yōu)選地,每10度旋轉(zhuǎn)一次,最大旋轉(zhuǎn)180度。在上述對(duì)圖片操作的同時(shí),需要對(duì)真實(shí)的標(biāo)記關(guān)節(jié)點(diǎn)位置作對(duì)應(yīng)的處理。
步驟2:結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)。
將預(yù)處理后的圖片通過(guò)結(jié)構(gòu)指導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行學(xué)習(xí)和預(yù)測(cè)。作為優(yōu)選,結(jié)構(gòu)指導(dǎo)神經(jīng)網(wǎng)絡(luò)共有14個(gè)卷積層,用Conv1到Conv14表示。優(yōu)選地,其各層參數(shù)設(shè)置具體為:
其中,核表示卷積操作核的大小,步長(zhǎng)表示卷積操作的步長(zhǎng),個(gè)數(shù)表示卷積核的輸出個(gè)數(shù);對(duì)池化層Pooling有類似的含義。Dropout層沒(méi)有這些參數(shù)。k+1表示總的熱點(diǎn)圖數(shù),包括所有k個(gè)關(guān)節(jié)點(diǎn)的和所有1個(gè)關(guān)節(jié)點(diǎn)連線的熱點(diǎn)圖。
這里結(jié)構(gòu)指導(dǎo)指的是在一般的卷積神經(jīng)網(wǎng)絡(luò)中融入人體骨架的結(jié)構(gòu)信息,來(lái)指導(dǎo)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。一般的人體姿態(tài)估計(jì)的神經(jīng)網(wǎng)絡(luò)的回歸目標(biāo)函數(shù)為:
表示一張由真實(shí)標(biāo)記關(guān)節(jié)點(diǎn)為中心產(chǎn)生的真實(shí)標(biāo)記的熱點(diǎn)圖。作為優(yōu)選,其分布為高斯分布yk代表第k真實(shí)標(biāo)記的關(guān)節(jié)點(diǎn),(xk,yk)是yk在圖像中坐標(biāo)點(diǎn)的值。(i,j)是真實(shí)標(biāo)記的熱點(diǎn)圖中的每個(gè)像素點(diǎn)在圖中的位置。σ1是高斯分布的標(biāo)準(zhǔn)差,可由驗(yàn)證集得出合適數(shù)值,作為優(yōu)選可從{1.5,2.5}中選擇。
結(jié)構(gòu)指導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)加入了骨架結(jié)構(gòu)信息,這部分的目標(biāo)函數(shù)為:
表示由兩個(gè)相鄰的真實(shí)標(biāo)記關(guān)節(jié)點(diǎn)的連線為中心產(chǎn)生的高斯分布的真實(shí)標(biāo)記熱點(diǎn)圖。pl表示相鄰關(guān)節(jié)點(diǎn)之間的連線,1是這些連線相應(yīng)的序號(hào),這些連線對(duì)應(yīng)于不同的人體模型,作為優(yōu)選,可以采用樹(shù)形結(jié)構(gòu)的人體模型,相應(yīng)的連線即位樹(shù)形結(jié)構(gòu)人體模型的邊;dist((i,j),pl)表示真實(shí)標(biāo)記的熱點(diǎn)圖中的每個(gè)點(diǎn) (i,j)到pl的距離。σ2是該高斯分布的標(biāo)準(zhǔn)差,可由驗(yàn)證集得出合適的數(shù)值,作為優(yōu)選可從{1.5,2.5}中選擇。
用l1表示關(guān)節(jié)點(diǎn)對(duì)應(yīng)的熱點(diǎn)圖的損失函數(shù),用l2表示關(guān)節(jié)點(diǎn)連線對(duì)應(yīng)的熱點(diǎn)圖的損失函數(shù):
其中,X是輸入圖像,y是真實(shí)標(biāo)記的關(guān)節(jié)點(diǎn),p是相鄰真實(shí)標(biāo)記的關(guān)節(jié)點(diǎn)的連線,D是整個(gè)訓(xùn)練數(shù)據(jù)集;(i,j)表示熱點(diǎn)圖中的每個(gè)像素點(diǎn)的坐標(biāo);k和l分別表示y的序號(hào)和p的序號(hào)。Hi,j,k(X,w)表示神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)輸出的相應(yīng)的第k關(guān)節(jié)點(diǎn)的熱點(diǎn)圖,Pi,j,l(X,w)表示神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)輸出的相應(yīng)的第1關(guān)節(jié)點(diǎn)連線的熱點(diǎn)圖,w表示卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)。
結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)的總的損失函數(shù)loss1為:
loss1=l1+l2
步驟3:融合卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)。
將結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)的低層級(jí)特征層和高層次特征層進(jìn)行融合,送入另外一支卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)和預(yù)測(cè),低層次特征層包含更多的圖像細(xì)節(jié),高層次特征層則提供預(yù)測(cè)的初步結(jié)果。作為優(yōu)選,這里選擇Conv5和Conv13進(jìn)行融合。作為優(yōu)選,融合卷積神經(jīng)網(wǎng)絡(luò)共有6個(gè)卷積層,整個(gè)融合卷積神經(jīng)網(wǎng)絡(luò)的設(shè)置如下表:
其中,k的值為最終的需要預(yù)測(cè)的關(guān)節(jié)點(diǎn)個(gè)數(shù)。
結(jié)構(gòu)指導(dǎo)神經(jīng)網(wǎng)絡(luò)引入了人體結(jié)構(gòu)約束信息,提供給融合卷積神經(jīng)網(wǎng)絡(luò)一個(gè)初步結(jié)果,并指導(dǎo)融合卷積網(wǎng)絡(luò)的學(xué)習(xí)。融合卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)為損失函數(shù)loss2為:
loss2=l1
整個(gè)神經(jīng)網(wǎng)絡(luò)總的損失函數(shù)losst為:
losst=loss1+λloss2
λ是平衡loss1和loss2的常數(shù),可以通過(guò)驗(yàn)證集選出最優(yōu)的值。
步驟4:輸出處理。
將融合卷積神經(jīng)網(wǎng)絡(luò)的最終輸出的熱點(diǎn)圖進(jìn)行后續(xù)處理,得到最終關(guān)節(jié)點(diǎn)的位置。作為優(yōu)選,這里采用一種簡(jiǎn)單的搜索熱點(diǎn)圖中最大值的方法,搜索出的最大值作為最終的預(yù)測(cè)的關(guān)節(jié)點(diǎn)位置。分別對(duì)每個(gè)關(guān) 節(jié)點(diǎn)對(duì)應(yīng)的熱點(diǎn)圖搜索最大值,即可得到預(yù)測(cè)出的全部的人體關(guān)節(jié)點(diǎn)的位置。
如圖2所示。本發(fā)明基于結(jié)構(gòu)指導(dǎo)深度學(xué)習(xí)的人體姿態(tài)估計(jì)系統(tǒng),包括如下模塊:
201數(shù)據(jù)采集模塊,主要是通過(guò)相機(jī)得到包含有人體的圖片;
202計(jì)算機(jī)處理模塊,包括:a.圖像預(yù)處理子模塊,b.結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)子模塊,c.融合卷積神經(jīng)網(wǎng)絡(luò)子模塊,d.定位關(guān)節(jié)點(diǎn)子模塊和e.可視化子模塊。
a.圖像預(yù)處理子模塊:將輸入圖像首先進(jìn)行預(yù)處理,包括縮放,裁剪,零填充,翻轉(zhuǎn)和旋轉(zhuǎn)等操作.需要注意的是,對(duì)于測(cè)試圖片,或者實(shí)際使用時(shí)只需要做縮放,裁剪和零填充以滿足圖片為正方形即可,不需要翻轉(zhuǎn)和旋轉(zhuǎn)。
b.結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)子模塊:將預(yù)處理后的圖片送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),通過(guò)在卷積神經(jīng)網(wǎng)絡(luò)中加入人體結(jié)構(gòu)信息,進(jìn)行指導(dǎo)學(xué)習(xí),最終預(yù)測(cè)出人體關(guān)節(jié)點(diǎn)和關(guān)節(jié)點(diǎn)之間連線的熱點(diǎn)圖。
c.融合卷積神經(jīng)網(wǎng)絡(luò)子模塊:將結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)模塊的低層級(jí)特征層和高層次特征層進(jìn)行融合作為另一支卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過(guò)另一支卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),輸出最終的人體關(guān)節(jié)點(diǎn)的熱點(diǎn)圖。作為優(yōu)選,這里選擇結(jié)構(gòu)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)中的Conv5和Conv13進(jìn)行融合。
d.定位關(guān)節(jié)點(diǎn)子模塊:通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)輸出的人體關(guān)節(jié)點(diǎn)熱點(diǎn)圖進(jìn)行后續(xù)處理,得到最終的關(guān)節(jié)點(diǎn)坐標(biāo)值。作為優(yōu)選,后續(xù)處理可以采用搜索最大值的方法。對(duì)每個(gè)關(guān)節(jié)點(diǎn)的熱點(diǎn)圖進(jìn)行處理,最終得到全部的人體關(guān)節(jié)點(diǎn)的位置。
e.可視化子模塊:對(duì)一張輸入圖片,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出人體的各個(gè)關(guān)節(jié)點(diǎn)位置。將關(guān)節(jié)點(diǎn)疊加顯示在輸入圖片上呈現(xiàn)可視化的預(yù)測(cè)結(jié)果。
本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的系統(tǒng)結(jié)構(gòu)和各個(gè)步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將他們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
雖然本發(fā)明所示出和描述的實(shí)施方式如上,但是所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本發(fā)明所揭露的精神和范圍的前提下,可以在實(shí)施的形式上以及細(xì)節(jié)上做任何的修改與變化,但本發(fā)明的專利保護(hù)范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。