本發(fā)明屬于雷達(dá)目標(biāo)分類與深度學(xué)習(xí)領(lǐng)域,涉及應(yīng)用雷達(dá)進(jìn)行人體動(dòng)作分類的問題。
背景技術(shù):
在人們?cè)谂c外界進(jìn)行交互的過程中,除了通過語音交流,還常常借助肢體語言,即通過動(dòng)作行為傳遞信息。人體動(dòng)作分類在許多領(lǐng)域具有廣泛的應(yīng)用場景,例如智能監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)、體感游戲、醫(yī)療監(jiān)護(hù)等。當(dāng)前對(duì)人體動(dòng)作識(shí)別的研究大多集中于基于視覺的識(shí)別,其核心是通過計(jì)算機(jī)對(duì)傳感器采集的原始圖像或圖像序列數(shù)據(jù)進(jìn)行處理和分析,學(xué)習(xí)并理解其中人的動(dòng)作和動(dòng)作。然而,不同的光照、視角和背景等條件會(huì)使相同的人體動(dòng)作在姿態(tài)和特性上產(chǎn)生差異。此外,還存在人體自遮擋、部分遮擋、人體個(gè)體差異、多人物識(shí)別對(duì)象等問題,這些都是現(xiàn)有的基于視覺方法的人體動(dòng)作分類方案難以突破的瓶頸。
雷達(dá)探測人體有著其他傳感器所不具備的優(yōu)勢:首先是其探測距離遠(yuǎn);其次,雷達(dá)不易受到天氣、光線、溫度等環(huán)境因素的影響;最后,雷達(dá)具備穿透墻壁等障礙物的能力,可對(duì)障礙物后的人員實(shí)施探測。目前,雷達(dá)人體探測在很多應(yīng)用中得到了長足的發(fā)展,如無人機(jī)、無人車環(huán)境感知、醫(yī)療患者監(jiān)護(hù)、火災(zāi)或地震幸存者搜救、巷戰(zhàn)敵情態(tài)勢感知、反恐行動(dòng)中恐怖分子探測等,具有十分廣闊的應(yīng)用前景。
雷達(dá)人體動(dòng)作分類是指使用模式識(shí)別、機(jī)器學(xué)習(xí)等方法,從雷達(dá)信號(hào)中自動(dòng)地分析出人體動(dòng)作?;诶走_(dá)時(shí)頻圖像的人體動(dòng)作識(shí)別是近年發(fā)展起來的新技術(shù),經(jīng)人體運(yùn)動(dòng)調(diào)制后的雷達(dá)回波信號(hào)包含了人體各部分微動(dòng)調(diào)制產(chǎn)生的多普勒頻率,回波通過時(shí)頻變換生成圖像并將之應(yīng)用于人體目標(biāo)的參數(shù)估計(jì)和運(yùn)動(dòng)辨識(shí)中,使得基于雷達(dá)時(shí)頻圖像的人體動(dòng)作分類成為可能。傳統(tǒng)的雷達(dá)人體動(dòng)作分類方法主要依賴于對(duì)時(shí)頻圖像中人體微多普勒特征的人工提取。而作為圖像識(shí)別中應(yīng)用最廣泛的深度學(xué)習(xí)模型,卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)最重要的特點(diǎn)就是能夠自動(dòng)地學(xué)習(xí)圖像中的特征并完成對(duì)圖像的分類識(shí)別?;赾nn的雷達(dá)人體動(dòng)作分類涉及計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、人工智能和雷達(dá)信號(hào)處理等眾多領(lǐng)域的研究,是一個(gè)多學(xué)科交叉融合的研究方向,具有非常重大的學(xué)術(shù)價(jià)值與社會(huì)意義。
[1]胡瓊,秦磊,黃慶明,"基于視覺的人體動(dòng)作識(shí)別綜述,"計(jì)算機(jī)學(xué)報(bào),vol.36,p.2512-2524,2013.
[2]v.c.chen,f.li,s.-s.ho,andh.wechsler,"micro-dopplereffectinradar:phenomenon,model,andsimulationstudy,"ieeetransactionsonaerospaceandelectronicsystems,vol.42,pp.2-21,2006.
[3]s.s.ram,c.christianson,y.kim,andh.ling,"simulationandanalysisofhumanmicro-dopplersinthrough-wallenvironments,"ieeetransactionsongeoscienceandremotesensing,vol.48,pp.2015-2023,2010.
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種基于雷達(dá)仿真圖像的卷積神經(jīng)網(wǎng)絡(luò)人體動(dòng)作分類方法,利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)雷達(dá)圖像中人體動(dòng)作的“端到端”分類,簡化了人工提取圖像特征的復(fù)雜過程,極大地減少了人體動(dòng)作分類的工作量。為使本發(fā)明的技術(shù)方案更加清楚,下面對(duì)本發(fā)明具體實(shí)施方式做進(jìn)一步地描述。
一種基于雷達(dá)仿真圖像的卷積神經(jīng)網(wǎng)絡(luò)人體動(dòng)作分類方法,包括下列的步驟:
1)建立包含多種人體動(dòng)作的時(shí)頻圖像數(shù)據(jù)集:選用mocap數(shù)據(jù)集進(jìn)行雷達(dá)圖像仿真,利用mocap數(shù)據(jù)集中的人體動(dòng)作測量數(shù)據(jù)構(gòu)建人體目標(biāo)運(yùn)動(dòng)學(xué)模型并用于雷達(dá)時(shí)頻圖像仿真,建立基于橢球體的人體動(dòng)作模型,得到人體目標(biāo)雷達(dá)回波,對(duì)回波使用時(shí)頻變換進(jìn)而生成雷達(dá)時(shí)頻圖像,建立包含多種人體動(dòng)作的時(shí)頻圖像數(shù)據(jù)集;
2)雷達(dá)時(shí)頻圖像數(shù)據(jù)增強(qiáng):對(duì)所得到的雷達(dá)時(shí)頻圖像沿時(shí)間軸利用滑窗法截取,以產(chǎn)生足夠多的數(shù)據(jù)用于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,將截取生成的雷達(dá)圖像分為訓(xùn)練集和測試集,完成數(shù)據(jù)集的構(gòu)建。
3)建立卷積神經(jīng)網(wǎng)絡(luò)模型:以手寫體識(shí)別網(wǎng)絡(luò)lenet為基礎(chǔ),在其3個(gè)卷積層、2個(gè)池化層以及2個(gè)全連接層的基礎(chǔ)上,引入修正線性單元relu替換原來的sigmoid激活函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),并增加一個(gè)池化層,減少一個(gè)全連接層,構(gòu)成卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)包含3個(gè)卷積層、3個(gè)最大池化層和1個(gè)全連接層,調(diào)整網(wǎng)絡(luò)的層間結(jié)構(gòu)和層內(nèi)結(jié)構(gòu)及訓(xùn)練參數(shù)以達(dá)到更好的分類效果;
4)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型:利用2)中生成的數(shù)據(jù)集對(duì)3)中網(wǎng)絡(luò)結(jié)構(gòu)的各層權(quán)重進(jìn)行訓(xùn)練,通過隨機(jī)抽取數(shù)據(jù)集中的圖像,分批次將其輸入網(wǎng)絡(luò),通過梯度下降法更新每次迭代后學(xué)習(xí)到的權(quán)重,經(jīng)過多次迭代后網(wǎng)絡(luò)各層權(quán)重得到充分優(yōu)化,最終得到可用于基于雷達(dá)圖像人體動(dòng)作分類的卷積神經(jīng)網(wǎng)絡(luò)模型。
本發(fā)明利用卷積神經(jīng)網(wǎng)絡(luò)的算法,設(shè)計(jì)一種基于仿真雷達(dá)圖像的人體動(dòng)作分類系統(tǒng)。該系統(tǒng)以基于mocap數(shù)據(jù)集生成的仿真雷達(dá)多普勒?qǐng)D像為研究對(duì)象,包括數(shù)據(jù)集的制作、卷積神經(jīng)網(wǎng)絡(luò)模型的建立、訓(xùn)練和測試。本系統(tǒng)利用雷達(dá)信號(hào)的特點(diǎn),可以完成不同環(huán)境、光照強(qiáng)度及天氣情況下的人體動(dòng)作分類任務(wù),且利用卷積神經(jīng)網(wǎng)絡(luò)提高了分類的準(zhǔn)確率實(shí)現(xiàn)更加智能、高效的分類。
附圖說明
圖1本實(shí)驗(yàn)卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖
圖2(a)人體關(guān)節(jié)點(diǎn)圖;(b)基于橢圓體的人體模型圖
圖3(a)mocap數(shù)據(jù)庫中骨骼運(yùn)動(dòng)軌跡;(b)該軌跡相應(yīng)的生成雷達(dá)譜圖
圖4本實(shí)驗(yàn)?zāi)P?a)與lenet分類效果(b)對(duì)比圖
具體實(shí)施方式
為使本發(fā)明的技術(shù)方案更加清楚,下面對(duì)本發(fā)明具體實(shí)施方式做進(jìn)一步地描述。本發(fā)明按以下步驟具體實(shí)現(xiàn):
1.雷達(dá)時(shí)頻圖像數(shù)據(jù)集構(gòu)建
(1)基于mocap數(shù)據(jù)集的雷達(dá)圖像仿真
motioncapture(mocap)數(shù)據(jù)集由cmu的graphicslab實(shí)驗(yàn)室建立,使用vicon動(dòng)作捕捉系統(tǒng)捕捉真實(shí)的動(dòng)作數(shù)據(jù),該系統(tǒng)由12個(gè)mx-40紅外相機(jī)組成,各相機(jī)幀率為120hz,可以記錄被試者身上的41個(gè)標(biāo)記點(diǎn),通過整合不同相機(jī)記錄下的圖像可以得到被試者骨骼的運(yùn)動(dòng)軌跡。該數(shù)據(jù)集包含2605組實(shí)驗(yàn)數(shù)據(jù),本實(shí)驗(yàn)過程中選擇其中七種常見的動(dòng)作用來生成雷達(dá)圖像,這七種動(dòng)作分別為:跑步、行走、跳躍、爬行、匍匐前進(jìn)、站立和拳擊。
接著構(gòu)建基于橢球體的人體動(dòng)作模型,該模型使用31個(gè)關(guān)節(jié)點(diǎn)來對(duì)人體進(jìn)行建模(如圖2(a)所示),每兩個(gè)相鄰關(guān)節(jié)點(diǎn)定義了一個(gè)體節(jié),所有的體節(jié)在雷達(dá)的各掃描角度均為可見的,在此我們忽略不同人體部位的陰影效應(yīng)。每個(gè)體節(jié)近似于一個(gè)長橢球體,如下式所示:
式中,(x0,y0,z0)表示兩個(gè)關(guān)節(jié)點(diǎn)連線中點(diǎn)的坐標(biāo),(a,b,c)是半軸的長度,且b=c。橢球體的體積定義為:
假設(shè)橢球體體積和一個(gè)半軸a的長度已知,則可計(jì)算出b的長度,雷達(dá)目標(biāo)有效截面(rcs)可以利用傳統(tǒng)的橢圓rcs公式計(jì)算得到。通過橢球體模型建立的人體目標(biāo)模型如圖2(b)所示,整個(gè)人體可以看作是由多個(gè)橢圓體組合而成的,各部分的雷達(dá)反射波振幅可以由近似為橢圓形的rcs得到,將各部分的人體回波連續(xù)相加即可得到人體的整體回波,接著使用短時(shí)傅里葉變換將回波轉(zhuǎn)化為雷達(dá)譜圖。圖3顯示的是mocap數(shù)據(jù)庫中的人體骨骼運(yùn)動(dòng)軌跡與生成的相應(yīng)的雷達(dá)譜圖。
(2)基于滑窗法的雷達(dá)圖像數(shù)據(jù)增強(qiáng)
由雷達(dá)圖像數(shù)據(jù)難獲取、生成成本高的而引起的數(shù)據(jù)缺乏的問題可以通過數(shù)據(jù)增強(qiáng)的方法解決。本實(shí)驗(yàn)根據(jù)雷達(dá)圖像的特點(diǎn),采用“滑窗法”的數(shù)據(jù)增強(qiáng)手段,具體方法為:在生成的雷達(dá)圖像上使用固定長度的標(biāo)準(zhǔn)時(shí)間窗,沿時(shí)間軸連續(xù)地截取整個(gè)雷達(dá)譜圖,這樣一張雷達(dá)譜圖可以被截取為多個(gè)可供訓(xùn)練的圖片。通過這種方法,對(duì)于分類任務(wù)中每個(gè)動(dòng)作均可獲得大小為500張圖片的數(shù)據(jù)集,本實(shí)驗(yàn)將每個(gè)動(dòng)作的數(shù)據(jù)集分為兩個(gè)部分,分別為400張訓(xùn)練圖片和100張測試圖片。
2.基于卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作分類模型構(gòu)建
(1)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
通過研究lenet、alexnet、googlenet、vggnet等幾種典型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在本實(shí)驗(yàn)數(shù)據(jù)集上的測試效果,根據(jù)多次實(shí)驗(yàn)及經(jīng)驗(yàn)數(shù)據(jù),選取lenet作為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)并將其識(shí)別結(jié)果作為基準(zhǔn),lenet是用于手寫字體的識(shí)別的一個(gè)經(jīng)典卷積神經(jīng)網(wǎng)絡(luò),其包含3個(gè)卷積層、2個(gè)池化層以及2個(gè)全連接層,特征映射函數(shù)采用sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。在此基礎(chǔ)上,本實(shí)驗(yàn)引入了修正線性單元(relu),增加一個(gè)池化層,減少一個(gè)全連接層,最終提出了適用于本實(shí)驗(yàn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該模型包含3個(gè)卷積層、3個(gè)池化層和1個(gè)全連接層,池化層采用最大值池化的方法,并采用relu作為激活函數(shù)有效降低訓(xùn)練結(jié)果的過擬合的風(fēng)險(xiǎn)。
(2)卷積神經(jīng)網(wǎng)絡(luò)模型優(yōu)化
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括層深、層寬等參數(shù),不同的網(wǎng)絡(luò)結(jié)構(gòu)決定了神經(jīng)網(wǎng)絡(luò)的特征表示情況,進(jìn)而影響識(shí)別效果。對(duì)結(jié)構(gòu)的研究包括層間結(jié)構(gòu)和層內(nèi)結(jié)構(gòu)兩個(gè)部分。層間結(jié)構(gòu)包括層深(網(wǎng)絡(luò)層數(shù))、連接函數(shù)(例如卷積、池化、全連接)等;層內(nèi)結(jié)構(gòu)包括層寬(同層節(jié)點(diǎn)數(shù))、激活函數(shù)等。針對(duì)層間結(jié)構(gòu),本實(shí)驗(yàn)研究了各種不同網(wǎng)絡(luò)結(jié)構(gòu)作用,首先改變網(wǎng)絡(luò)層深,分為兩步,第一步保持全連接層數(shù)量不變,將卷積層的個(gè)數(shù)從2逐步變化至5,第二步保持卷積層個(gè)數(shù)不變,將全連接層個(gè)數(shù)由1逐步變化為5,實(shí)驗(yàn)結(jié)果如表1。根據(jù)實(shí)驗(yàn)結(jié)果,本實(shí)驗(yàn)選擇三層卷積層以及一層全連接層的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。之后改變輸出特征圖的個(gè)數(shù),分別取值為1、3、20、64、128,實(shí)驗(yàn)結(jié)果如表2所示,根據(jù)實(shí)驗(yàn)結(jié)果將每層輸出的特征圖數(shù)量確定為20,以獲得最佳的分類準(zhǔn)確率。
其次改變層內(nèi)結(jié)構(gòu)中的特征圖大小,分別選取大小為3×3、9×9、20×20、48×48、100×100像素的特征圖,通過實(shí)驗(yàn)比較卷積神經(jīng)網(wǎng)絡(luò)模型在生成不同大小的特征圖時(shí)的分類準(zhǔn)確率(如表3所示),可以看出大小為9×9的特征圖能夠幫助模型得到較高的準(zhǔn)確率。
表1
表2
表3
3.雷達(dá)人體動(dòng)作分類卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練
神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程即為模型學(xué)習(xí)各層連接權(quán)重的過程。在本實(shí)驗(yàn)中,首先對(duì)各層權(quán)重進(jìn)行高斯初始化,模型通過梯度下降的方法來調(diào)整各層參數(shù),每次迭代批處理圖片數(shù)目為256,即每次從訓(xùn)練集里隨機(jī)選擇256張雷達(dá)圖片供網(wǎng)絡(luò)訓(xùn)練,模型基礎(chǔ)學(xué)習(xí)率設(shè)定為0.001,在迭代3000次后完成訓(xùn)練過程。本實(shí)驗(yàn)所用計(jì)算機(jī)采用ubuntu系統(tǒng),利用nvidia公司的gtxtitanxgpu和intel公司的e31231-v3cpu進(jìn)行訓(xùn)練,此外本實(shí)驗(yàn)還采用了cudnn進(jìn)行g(shù)pu計(jì)算加速。
4.模型的分類效果測試
測試時(shí),將測試集的雷達(dá)圖像輸入分類模型,啟動(dòng)測試過程,即可查看模型對(duì)雷達(dá)圖像分類效果的好壞。實(shí)驗(yàn)過程中分類結(jié)果如圖4所示,由圖可以看出,本實(shí)驗(yàn)構(gòu)建的基于雷達(dá)的人體動(dòng)作分類模型的分類準(zhǔn)確率明顯優(yōu)于lenet,lenet對(duì)七種動(dòng)作的平均分類準(zhǔn)確率為93.86%,而本實(shí)驗(yàn)中模型的平均分類準(zhǔn)確率可以達(dá)到98.34%,高出lenet約4.5個(gè)百分點(diǎn)。