本發(fā)明涉及智能識別領(lǐng)域,尤其是涉及了一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法。
背景技術(shù):
人體姿態(tài)估計和人臉對齊是現(xiàn)代計算機視覺領(lǐng)域的重要研究重要內(nèi)容之一,在人機交互、虛擬現(xiàn)實、模式識別、智能監(jiān)控系統(tǒng)、人體行為檢測等領(lǐng)域有著廣泛應(yīng)用,例如公共場合中可疑人物的危險動作檢測,在機場、火車等人口流動性強的場所的人臉對齊和識別等,這些對我們的生活的安全有著重要意義。卷積神經(jīng)網(wǎng)絡(luò)(cnn)是人體姿態(tài)估計和人臉對齊的關(guān)鍵技術(shù),如今已取得許多可喜的成果,然而其估計和識別的效果并不理想,精確度和穩(wěn)定性也有待提高。
本發(fā)明提出了一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法,先以量化二進制沙漏網(wǎng)絡(luò)作為基準,再通過增加殘塊的寬度和減少塊中的參數(shù)數(shù)量,刪除1×1卷積和使用3×3濾波器,使用良好的梯度流和具有層次的并行多尺度濾波等多個方面提高系統(tǒng)性能,最后計算損失。本發(fā)明通過使用具有層次的并行多尺度濾波,提高了性能和效率,也提高了精確度和穩(wěn)定性,同時又不會過度增加二進制網(wǎng)絡(luò)的參數(shù);通過增加殘塊寬度,使信息量大大增加。
技術(shù)實現(xiàn)要素:
針對精確度和穩(wěn)定性不高等問題,本發(fā)明的目的在于提供一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法,先以量化二進制沙漏網(wǎng)絡(luò)作為基準,再通過增加殘塊的寬度和減少塊中的參數(shù)數(shù)量,刪除1×1卷積和使用3×3濾波器,使用良好的梯度流和具有層次的并行多尺度濾波等多個方面提高系統(tǒng)性能,最后計算損失。
為解決上述問題,本發(fā)明提供一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法,其主要內(nèi)容包括:
(一)二進制沙漏網(wǎng)絡(luò);
(二)增加殘塊的寬度和減少塊中的參數(shù)數(shù)量;
(三)刪除1×1卷積和使用3×3濾波器;
(四)良好的梯度流和具有層次的并行多尺度濾波;
(五)損失的影響。
其中,所述的二進制沙漏網(wǎng)絡(luò),從原始的沙漏網(wǎng)絡(luò)開始,以類似的方式向前和向后進行量化;二進制通過以下方式實現(xiàn):
其中,i是輸入張量,w代表層的權(quán)值,α是縮放因子;
其中,所述的增加殘塊的寬度和減少塊中的參數(shù)數(shù)量,原始塊由濾波器尺寸為1×1,3×3和1×1的三個卷積層組成,第一層具有限制第二層的寬度(即通道數(shù))的作用,從而大大減少了模塊內(nèi)的參數(shù)數(shù)量;
通過將3×3薄層中的信道數(shù)量從128增加到256,增加殘塊寬度;這樣增加了從一個塊傳遞到另一個塊的信息量。
進一步地,所述的殘塊,殘塊是沙漏網(wǎng)絡(luò)的主要構(gòu)建塊,表示如下:
其中,xl+1和xl為一個塊的輸入和輸出,
進一步地,所述的減少塊中的參數(shù)數(shù)量,通過減少塊中的參數(shù)數(shù)量,匹配原始的參數(shù)數(shù)量;將塊的輸入—輸出通道數(shù)量從256個減少到192個,使第一層中的通道數(shù)量從[256→128,3×3]變成[192→96,3×3],第二層從[128→4,3×3]變成[96→48,3×3],第三層[64→64,3×3]變成[48→48,3×3]。
其中,所述的刪除1×1卷積和使用3×3濾波器,在二進制卷積神經(jīng)網(wǎng)絡(luò)中使用1×1卷積濾波器限制了神經(jīng)網(wǎng)絡(luò)的性能;通過去除1×1卷積,基準性能提高8%以上。
進一步地,所述的使用3×3濾波器,設(shè)計二進制網(wǎng)絡(luò)時,應(yīng)優(yōu)先選擇多尺度濾波器;將輸入分為兩個分支;第一分支的工作原理與原來相同,但具有1×1層,在進入3×3之前,將256個通道投影到64個;第二分支通過首先將輸入通過最大匯集層進行多尺度分析,然后創(chuàng)建兩個分支,一個使用3×3濾波器,另一個使用5×5分解成兩個3×3濾波器;通過連接這兩個子分支的輸出,獲得在原始塊的128個信道中剩余的64個信道;最后,兩個主分支連接128個通道,借助1×1個濾波器的卷積層,再次反向投影到256個通道。
其中,所述的良好的梯度流和具有層次的并行多尺度濾波,二進制網(wǎng)絡(luò)對于衰落梯度的問題更為敏感,在網(wǎng)絡(luò)中的梯度比實際對應(yīng)的梯度要小10倍;因此設(shè)計具有層次的并行多尺度結(jié)構(gòu),允許每個分辨率具有兩個不同的路徑,其中最短的始終為1;模塊內(nèi)部分層結(jié)構(gòu)的存在能有效適應(yīng)較大的濾波器(高達7×7),分解成卷積層3×3過濾器;
良好的梯度流和具有層次的并行多尺度濾波能提高性能,但不會過度增加二進制網(wǎng)絡(luò)的參數(shù)。
進一步地,所述的梯度,可能需要在到達塊的輸出之前穿過兩個層,每個卷積層具有將其連接到輸出的直接路徑,使得在任何給定時間和模塊內(nèi)的所有層中,最短路徑等于1。
其中,所述的損失的影響,使用sigmoid函數(shù)交叉熵像素損失:
其中,
附圖說明
圖1是本發(fā)明一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法的系統(tǒng)框架圖。
圖2是本發(fā)明一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法的沙漏網(wǎng)絡(luò)構(gòu)架。
圖3是本發(fā)明一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法的1×1卷積。
圖4是本發(fā)明一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法的3×3濾波器。
圖5是本發(fā)明一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法的具有良好的梯度流和具有層次的并行多尺度濾波結(jié)構(gòu)。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法的系統(tǒng)框架圖。主要包括二進制沙漏網(wǎng)絡(luò),增加殘塊的寬度和減少塊中的參數(shù)數(shù)量,刪除1×1卷積和使用3×3濾波器,良好的梯度流和具有層次的并行多尺度濾波,損失的影響。
增加殘塊的寬度和減少塊中的參數(shù)數(shù)量,原始塊由濾波器尺寸為1×1,3×3和1×1的三個卷積層組成,第一層具有限制第二層的寬度(即通道數(shù))的作用,從而大大減少了模塊內(nèi)的參數(shù)數(shù)量;
通過將3×3薄層中的信道數(shù)量從128增加到256,增加殘塊寬度;這樣增加了從一個塊傳遞到另一個塊的信息量。
殘塊是沙漏網(wǎng)絡(luò)的主要構(gòu)建塊,表示如下:
其中,xl+1和xl為一個塊的輸入和輸出,
通過減少塊中的參數(shù)數(shù)量,匹配原始的參數(shù)數(shù)量;將塊的輸入—輸出通道數(shù)量從256個減少到192個,使第一層中的通道數(shù)量從[256→128,3×3]變成[192→96,3×3],第二層從[128→4,3×3]變成[96→48,3×3],第三層[64→64,3×3]變成[48→48,3×3]。
損失的影響,使用sigmoid函數(shù)交叉熵像素損失:
其中,
圖2是本發(fā)明一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法的沙漏網(wǎng)絡(luò)構(gòu)架。從原始的沙漏網(wǎng)絡(luò)開始,以類似的方式向前和向后進行量化;二進制通過以下方式實現(xiàn):
其中,i是輸入張量,w代表層的權(quán)值,α是縮放因子;
圖3是本發(fā)明一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法的1×1卷積。在二進制卷積神經(jīng)網(wǎng)絡(luò)中使用1×1卷積濾波器限制了神經(jīng)網(wǎng)絡(luò)的性能;通過去除1×1卷積,基準性能提高8%以上。
圖4是本發(fā)明一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法的3×3濾波器。設(shè)計二進制網(wǎng)絡(luò)時,應(yīng)優(yōu)先選擇多尺度濾波器;將輸入分為兩個分支;第一分支的工作原理與原來相同,但具有1×1層,在進入3×3之前,將256個通道投影到64個;第二分支通過首先將輸入通過最大匯集層進行多尺度分析,然后創(chuàng)建兩個分支,一個使用3×3濾波器,另一個使用5×5分解成兩個3×3濾波器;通過連接這兩個子分支的輸出,獲得在原始塊的128個信道中剩余的64個信道;最后,兩個主分支連接128個通道,借助1×1個濾波器的卷積層,再次反向投影到256個通道。
圖5是本發(fā)明一種基于二進制卷積的人體姿態(tài)估計和人臉對齊的方法的具有良好的梯度流和具有層次的并行多尺度濾波結(jié)構(gòu)。二進制網(wǎng)絡(luò)對于衰落梯度的問題更為敏感,在網(wǎng)絡(luò)中的梯度比實際對應(yīng)的梯度要小10倍;因此設(shè)計具有層次的并行多尺度結(jié)構(gòu),允許每個分辨率具有兩個不同的路徑,其中最短的始終為1;模塊內(nèi)部分層結(jié)構(gòu)的存在能有效適應(yīng)較大的濾波器(高達7×7),分解成卷積層3×3過濾器;
良好的梯度流和具有層次的并行多尺度濾波能提高性能,但不會過度增加二進制網(wǎng)絡(luò)的參數(shù)。
梯度可能需要在到達塊的輸出之前穿過兩個層,每個卷積層具有將其連接到輸出的直接路徑,使得在任何給定時間和模塊內(nèi)的所有層中,最短路徑等于1。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應(yīng)視為本發(fā)明的保護范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。