亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的人體姿勢識別方法

文檔序號:9350340閱讀:2833來源:國知局
一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的人體姿勢識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于模式識別與信息處理技術(shù)領(lǐng)域,涉及計算機(jī)視覺方面的行為識別任 務(wù),尤其涉及基于深度卷積神經(jīng)網(wǎng)絡(luò)的人體姿勢估計系統(tǒng)的研究與實現(xiàn)方案。
【背景技術(shù)】
[0002] 人體姿勢估計是指在圖像中定位人體關(guān)節(jié)或人體各部分位置的過程。它是計算機(jī) 視覺中的一個關(guān)鍵問題,是基于圖像的行為識別的基礎(chǔ)技術(shù)。人體姿勢估計可被用于視覺 監(jiān)控系統(tǒng),人體分割,機(jī)器人控制,體感游戲等領(lǐng)域。人體姿勢估計的難點(diǎn)在于:身體關(guān)節(jié)點(diǎn) 小,不易檢測;身體自身遮擋嚴(yán)重,外貌變化大,面內(nèi)和面外旋轉(zhuǎn)(in-planeandout-plane rotations)造成視覺變化大。姿勢估計的主流方法都是基于圖結(jié)構(gòu)模型(PS,Pictorial StructuresModel)的。圖結(jié)構(gòu)模型是一個通用物體結(jié)構(gòu)表達(dá)模型。在圖結(jié)構(gòu)模型下,一個 物體(或人)的結(jié)構(gòu)被表示為一個一元項和一個二元項的和,其中,一元項表示人體單獨(dú)的 一個部分,二元項表示兩個(或多個)部分之間的空間關(guān)系。一元項和二元項的和構(gòu)成一 個能量函數(shù),最小化這個能量函數(shù)可以得到一個最優(yōu)的結(jié)構(gòu)表達(dá)?;趫D結(jié)構(gòu)的人體姿勢 估計方法的流程為:
[0003] 1.人體每個單獨(dú)部分的表示。通常的方法是在人體的特定部分提取圖像特征來訓(xùn) 練可以表示該部分的模板。在訓(xùn)練好模板以后,以重疊的滑動窗口(overlappingsliding windows)去掃描圖片,檢測出許多可能的位置;
[0004] 2.人體各個部分的空間關(guān)系的表示。人體各部分空間約束可以是多方面的,例如, 各個部分同時出現(xiàn)的概率,在同一直線上的概率以及角度關(guān)系,距離約束等等。空間約束構(gòu) 成了圖結(jié)構(gòu)模型的二元項;
[0005] 3.人體姿勢推理。由于人體姿勢復(fù)雜多樣,人體各部分之間存在多種空間約束。 如果對人體各個部分都施加約束,最終會形成一個圖。這個圖的點(diǎn)(node)表示人體的各個 部分(即一元項),邊(edge)表示人體各個部分的約束(即二元項)。優(yōu)化這樣一個問題 會耗費(fèi)大量時間,甚至使問題不可計算。為了高效的推理出人體姿勢,通常會將各個部分之 間的約束簡化為兩個相鄰部分的空間約束,即圖結(jié)構(gòu)簡化為樹形結(jié)構(gòu)。
[0006]傳統(tǒng)方法有兩個局限性。首先,人工設(shè)計的圖像特征具有局限性,例如,有的特征 適合表示具有清晰紋理的物體,有的特征適合表示具有清晰輪廓的物體。設(shè)計一種適合人 體姿勢估計的特征需要大量的經(jīng)驗和研究。除此之外,空間模型也具有局限性。傳統(tǒng)的人體 姿勢估計方法為了計算效率,通常需要假設(shè)人體姿勢構(gòu)成樹形結(jié)構(gòu)。這種假設(shè)顯然會限制 其模型的表達(dá)能力,例如,在有人體存在自身遮擋的情況下,人體姿勢通常并不是樹形的, 而是有環(huán)圖。在樹形結(jié)構(gòu)的假設(shè)下,人體姿勢估計的準(zhǔn)確度和使用范圍都被限制了。
[0007]深度學(xué)習(xí)技術(shù)的逐漸成熟,為人體姿勢估計提供了新的工具?;谏疃葘W(xué)習(xí)的方 法可以分為兩類:一類是利用深度卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)圖像特征,以代替?zhèn)鹘y(tǒng)的人工設(shè)計 的特征;另一類是利用深度卷積神經(jīng)網(wǎng)絡(luò)的非線性映射做非線性推理,以突破樹形結(jié)構(gòu)的 限制。但現(xiàn)有的基于深度學(xué)習(xí)的方法主要有以下缺陷:
[0008] 1.大多數(shù)方法只是簡單地將AlexNet直接應(yīng)用到姿勢估計中。而AlexNet最初是 為圖像分類任務(wù)而設(shè)計的;
[0009] 2.大多數(shù)方法將人體關(guān)節(jié)定位問題闡述為回歸問題,這樣的闡述雖然簡單,但卻 讓深度網(wǎng)絡(luò)的訓(xùn)練變得困難;
[0010] 3?有的方法通過訓(xùn)練基于卷積神經(jīng)網(wǎng)絡(luò)的檢測器(ConvolutionalPart Detector)來檢測人體部分的位置。這種方法具有較好的準(zhǔn)確度,但由于其需要使用滑窗進(jìn) 行檢測,它的效率并不高;
[0011] 為了解決這些問題,本方法為姿勢估計闡述為分類問題,并設(shè)計了一個針對姿勢 估計的深度網(wǎng)絡(luò):ILPN(Independent Losses Pose Net)來進(jìn)行關(guān)節(jié)定位。在FLIC dataset 上的結(jié)果表明,我們的方法取得了當(dāng)前最高的準(zhǔn)確率。在Buffy dataset上的跨數(shù)據(jù)集泛 化能力(cross-dataset generalization)測試取得了具有競爭力的結(jié)果。值得一提的是, 我們的模型訓(xùn)練和測試都是在廉價設(shè)備(Dual-Core CPU+NV GTX750)上進(jìn)行的。

【發(fā)明內(nèi)容】

[0012] 本發(fā)明的目的在于提出一種快速準(zhǔn)確地估計出RGB圖像中人體姿勢的方法,由 此,為基于圖像的行為識別提供良好的基礎(chǔ)。
[0013] 為了克服傳統(tǒng)姿勢估計方法由于人工設(shè)計圖像特征和空間模型導(dǎo)致姿勢估計準(zhǔn) 確度上的不足,本發(fā)明研究了如何在保證姿勢估計速度的前提下,獲得更高的姿勢準(zhǔn)確率。 本發(fā)明設(shè)計了一個名為ILPN(IndependentLossesPoseNet)的模型。該模型具有的獨(dú)立 輸出層和獨(dú)立損失函數(shù)是為人體關(guān)節(jié)定位而設(shè)計的。ILPN由一個輸入層,7個隱含層,2個 獨(dú)立的輸出層組成。其中第1~6個隱含層(convl~conv6)是卷積層(convolutional layer),用于特征提取,第7個隱含層(fc7)是全連接層(fully-connectedlayer)。輸出 層由兩個獨(dú)立的部分組成:fc8_x和fc8_y。其中fc8_x用于預(yù)測關(guān)節(jié)的X坐標(biāo),fc8_y用 于預(yù)測關(guān)節(jié)的y坐標(biāo)。在模型訓(xùn)練時,這兩個輸出都會有一個獨(dú)立的softmax損失函數(shù)來 指導(dǎo)模型的學(xué)習(xí)。
[0014] 一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的人體姿勢識別方法,該方法包括:
[0015] 步驟1:獲得訓(xùn)練圖像并對圖像進(jìn)行預(yù)處理:首先對訓(xùn)練圖像進(jìn)行數(shù)據(jù)擴(kuò)展,再對 擴(kuò)展后的圖像進(jìn)行灰度處理;
[0016] 步驟2:使用步驟1獲得的訓(xùn)練樣本訓(xùn)練人體姿勢的神經(jīng)網(wǎng)絡(luò);
[0017] 步驟2. 1:對圖像依次進(jìn)行卷積處理,Max Pooling處理,局部響應(yīng)歸一化處理,為 神經(jīng)網(wǎng)絡(luò)的第一層;
[0018] 步驟2. 2:對步驟2. 1的結(jié)果依次進(jìn)行卷積處理,局部響應(yīng)歸一化處理,為神經(jīng)網(wǎng) 絡(luò)的第二層;
[0019] 步驟2. 3:對步驟2. 2的結(jié)果依次進(jìn)行4次卷積處理,為神經(jīng)網(wǎng)絡(luò)的第四~六層; 步驟2. 4:將第六層以全連接的方式獲得第七層;
[0020] 步驟2. 5 :將第七層以全連接的方式獲得輸出層:輸出層被分為兩個獨(dú)立的部分, 每個部分都額外與一個獨(dú)立的損失函數(shù)相連接,分別計算模型預(yù)測的X和y坐標(biāo)的誤差,即 在后向傳播時,兩個損失函數(shù)獨(dú)立計算后向傳播的梯度,輸出層兩個獨(dú)立的部分也獨(dú)立計 算后向傳播的梯度;當(dāng)這兩部分的梯度都計算完成后,第七層對這兩部分的梯度求和并計 算自己的梯度;通過計算輸出層兩個獨(dú)立部分的最強(qiáng)響應(yīng)神經(jīng)元,獲得一個人體關(guān)節(jié)的坐 標(biāo)。
[0021] 步驟2. 6 :依次使用訓(xùn)練圖像多次重復(fù)步驟2. 1~步驟2. 6的方法訓(xùn)練神經(jīng)網(wǎng)絡(luò), 直到模型的損失收斂,即損失降到一定程度后不再降低,獲得可準(zhǔn)確定位人體關(guān)節(jié)的神經(jīng) 網(wǎng)絡(luò);
[0022] 步驟2. 7 :通過步驟2. 1~步驟2. 6,對每個關(guān)節(jié)訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)來獲得多 個不同關(guān)節(jié)的坐標(biāo),這些坐標(biāo)最終構(gòu)成一個完整的人體姿勢;
[0023] 步驟3:利用獲得測試圖像,利用步驟2訓(xùn)練得到的人體姿勢估計神經(jīng)網(wǎng)絡(luò)來估計 測試圖像中的人體姿勢;最后,通過查找步驟1中獲得的坐標(biāo)映射表,將統(tǒng)一尺度下的人體 姿勢映射回原圖像尺度下。
[0024] 進(jìn)一步的,所述步驟1中對訓(xùn)練圖像的數(shù)據(jù)擴(kuò)展包括:對圖像RGB通道及其標(biāo)注同 時進(jìn)行多次中心旋轉(zhuǎn),水平平移,水平翻轉(zhuǎn)以及將圖像尺寸伸縮到統(tǒng)一大小。
[0025] 本發(fā)明具有以下優(yōu)點(diǎn):
[0026] 將關(guān)節(jié)定位問題建模為坐標(biāo)分類問題,而不是回歸問題。這極大地降低了模型的 訓(xùn)練難度。因為坐標(biāo)分類問題將模型的輸出約束到圖片坐標(biāo)空間之內(nèi),而回歸問題的輸出 是整個實數(shù)空間。同時,兩個獨(dú)立的輸出層以及獨(dú)立的損失函數(shù)在模型訓(xùn)練是可以避免相 互干擾。模型不會因為fc8_x的錯誤輸出而懲罰fc8_y,反之亦然。最后,因為fc8-x和 fc8_y預(yù)測的是同一個關(guān)節(jié)坐標(biāo)的不同維度,所以他們可以共享該關(guān)節(jié)的視覺特征,即共享 convl~conv6所提取的特征。
[0027] 1.從姿勢估計的準(zhǔn)確度考慮,本發(fā)明利用深度卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力學(xué)習(xí) 對人體姿勢估計有效的圖像特征,避免了人工設(shè)計的圖像特征的局限性;
[0028] 2.從方法的適用范圍考慮,本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)對圖像特征進(jìn)行非線性映射 來獲得人體姿勢,本發(fā)明避免了人工設(shè)計空間模型的局限性;
[0029] 3.從模型訓(xùn)練效率和系統(tǒng)運(yùn)行效率考慮,本發(fā)明的深度卷積神經(jīng)網(wǎng)絡(luò)的輸出層經(jīng) 過特殊設(shè)計,具有易訓(xùn)練,準(zhǔn)確度高的特點(diǎn)。通過合理控制深度卷積神經(jīng)網(wǎng)絡(luò)的規(guī)模。使系 統(tǒng)在運(yùn)行時節(jié)省了空間和時間開銷。
【附圖說明】
[0030]圖1是本發(fā)明所述的系統(tǒng)框架。
[0031] 圖2是本發(fā)明所述的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1