本發(fā)明涉及人臉檢測技術(shù)領(lǐng)域,具體涉及一種基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法及系統(tǒng)。
背景技術(shù):
進(jìn)入二十一世紀(jì)以來,計(jì)算機(jī)技術(shù)蓬勃發(fā)展,被廣泛的運(yùn)用于各大領(lǐng)域;隨著計(jì)算機(jī)技術(shù)的發(fā)展,人臉檢測技術(shù)應(yīng)運(yùn)而生并且在不斷的迭代、更新中。人臉檢測是指對(duì)于任意圖像集合,采用一定的策略對(duì)其進(jìn)行搜索以確定其中具有人臉的圖像。
人臉檢測是自動(dòng)人臉識(shí)別系統(tǒng)中的一個(gè)關(guān)鍵環(huán)節(jié)。早期的人臉識(shí)別研究主要針對(duì)具有較強(qiáng)約束條件的人臉圖象(如無背景的圖象),往往假設(shè)人臉位置一直或者容易獲得,因此人臉檢測問題并未受到重視。
隨著電子商務(wù)等應(yīng)用的發(fā)展,人臉識(shí)別成為最有潛力的生物身份驗(yàn)證手段,這種應(yīng)用背景要求自動(dòng)人臉識(shí)別系統(tǒng)能夠?qū)σ话銏D象具有一定的識(shí)別能力,由此所面臨的一系列問題使得人臉檢測開始作為一個(gè)獨(dú)立的課題受到研究者的重視。今天,人臉檢測的應(yīng)用背景已經(jīng)遠(yuǎn)遠(yuǎn)超出了人臉識(shí)別系統(tǒng)的范疇,在基于內(nèi)容的檢索、數(shù)字視頻處理、視頻檢測、人臉建模以及人臉跟蹤等方面有著重要的應(yīng)用價(jià)值。
人臉檢測技術(shù)一般采用的搜索策略為決策樹、邏輯回歸、樸素貝葉斯以及三級(jí)卷積神經(jīng)網(wǎng)絡(luò)等算法等,其中基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法/系統(tǒng)憑借檢測速度快,識(shí)別準(zhǔn)確率高而迅速迭代、更新?,F(xiàn)有技術(shù)中的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法:1)通過多級(jí)性能逐級(jí)增強(qiáng)的網(wǎng)絡(luò)進(jìn)行逐級(jí)訓(xùn)練,將前一級(jí)判斷為人臉的候選框傳遞給下一級(jí)作為訓(xùn)練樣本進(jìn)行學(xué)習(xí);2)每一級(jí)中通過人臉的分類和人臉框的回歸網(wǎng)絡(luò)進(jìn)行判決;3)如果分類正確直接將修正過的數(shù)據(jù)全部后饋。
現(xiàn)有技術(shù)的不足之處在于,由于前一級(jí)網(wǎng)絡(luò)性能較差,存在部分人臉無法正確判定,導(dǎo)致傳入下一級(jí)人臉候選框有損失,整體性能差;僅僅通過人臉分類和人臉框的回歸無法達(dá)到網(wǎng)絡(luò)的性能上線,仍有提升空間;數(shù)據(jù)全部后饋,網(wǎng)絡(luò)學(xué)習(xí)的深度不夠,不能挖掘網(wǎng)絡(luò)性能。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法及系統(tǒng),以解決整體性能差;僅通過人臉分類和人臉框進(jìn)行校正,無法達(dá)到網(wǎng)絡(luò)的性能上線;正確分類的部分仍然進(jìn)行回歸校正的問題。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,包括以下步驟:
獲取訓(xùn)練樣本和檢測圖片;所述訓(xùn)練樣本至少包括標(biāo)注有人臉框和人臉特征點(diǎn)的人臉圖片;
將所述訓(xùn)練樣本輸入三級(jí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行逐級(jí)訓(xùn)練,所述訓(xùn)練的過程為:
根據(jù)所述訓(xùn)練樣本和前n級(jí)的訓(xùn)練結(jié)果進(jìn)行預(yù)測后降維,得到對(duì)應(yīng)的二維特征向量,并據(jù)其計(jì)算獲得第一偏移量;
通過所述第一偏移量對(duì)所述二維特征向量進(jìn)行回歸校正,得到對(duì)應(yīng)的訓(xùn)練結(jié)果;
將所述檢測圖片輸入訓(xùn)練后的三級(jí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行逐級(jí)人臉檢測,得到人臉矩形框。
上述基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,所述訓(xùn)練樣本中的人臉圖片還含有圖片分類標(biāo)簽和唯一確定的人臉框。
上述基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,所述二維特征向量的獲得包括以下步驟:
根據(jù)所述訓(xùn)練樣本和前n級(jí)的訓(xùn)練結(jié)果獲得m維特征向量;
通過全卷積層/全連接層對(duì)所述m維特征向量進(jìn)行降維處理,獲得所述二維特征向量。
上述基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,所述三級(jí)網(wǎng)絡(luò)包括第一支路、第二支路和第三支路,所述二級(jí)網(wǎng)絡(luò)包括所述第一支路和所述第二支路,所述第一支路與所述一級(jí)網(wǎng)絡(luò)相同。
上述基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,在三級(jí)網(wǎng)絡(luò)中,m維特征向量的獲得包括以下步驟:
將所述訓(xùn)練樣本和上一級(jí)的訓(xùn)練結(jié)果輸入所述第一支路獲取第一特征向量,將其輸入所述第二支路獲取第二特征向量,將其輸入所述第三支路獲取第三維特征向量;
將所述第一特征向量、第二特征向量以及第三特征向量進(jìn)行拼接,得到m維特征向量。
上述基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,所述第一偏移量的獲取包括以下步驟:
將所述二維特征向量輸入SoftmaxWithLoss層,計(jì)算獲得分類偏移量;
將所述二維特征向量輸入Euclidean Loss層,計(jì)算獲得人臉框偏移量以及所述人臉特征點(diǎn)偏移量。
上述基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,所述分類偏移量的計(jì)算包括以下步驟:
對(duì)所述二維特征向量進(jìn)行定義;定義為Z={z1,z2},其中
通過softmax函數(shù)進(jìn)行分類;分為二類,特殊化為:
通過損失函數(shù)計(jì)算預(yù)測到的所述二維特征向量與所述訓(xùn)練樣本間的差異;
損失函數(shù)為:
其中計(jì)算
修正其中α為系數(shù)。
上述基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,所述人臉矩形框的獲得包括以下步驟:
將所述檢測圖片輸入一級(jí)網(wǎng)絡(luò)對(duì)其進(jìn)行篩選、回歸校正并合并,得到第一人臉候選框;
將所述第一人臉候選框輸入二級(jí)網(wǎng)絡(luò)對(duì)其進(jìn)行篩選、回歸校正并合并,得到第二人臉候選框;
將所述第二人臉候選框輸入三級(jí)網(wǎng)絡(luò)對(duì)其進(jìn)行篩選、回歸校正并合并,得到人臉矩形框。
上述基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,進(jìn)行篩選、回歸校正并合并包括以下步驟:
根據(jù)檢測圖片/第一人臉候選框/第二人臉候選框以及相應(yīng)的人臉概率,篩選出大于設(shè)定概率閾值的人臉候選框;
根據(jù)篩選后得到的人臉候選框計(jì)算獲得第二偏移量,通過所述第二偏移量對(duì)其進(jìn)行回歸校正;
通過非極大值抑制算法對(duì)校正后得到的人臉候選框進(jìn)行合并,得到第一人臉候選框/第二人臉候選框/人臉矩形框。
本發(fā)明提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,具有以下有益效果:
1)在訓(xùn)練過程中,通過增加前n級(jí)的訓(xùn)練結(jié)果作為后一級(jí)的輸入,彌補(bǔ)了訓(xùn)練數(shù)據(jù)的缺失問題,從而提高了人臉檢測的準(zhǔn)確度和召回率,并且提升了整體網(wǎng)絡(luò)的性能;
2)在訓(xùn)練樣本中加入人臉特征點(diǎn),通過人臉特征點(diǎn)使人臉的分類以及人臉矩形框的定位精度得到提高,從而接近于達(dá)到網(wǎng)絡(luò)上線,并且進(jìn)一步提升了人臉檢測的召回率和準(zhǔn)確度;
3)僅通過計(jì)算得到的第一(第二)偏移量中的分類偏移量進(jìn)行圖片分類的回歸校正,如此保證了分類正確的部分不再進(jìn)行回歸校正,從而使人臉檢測的速度得到提高,并達(dá)到進(jìn)一步挖掘網(wǎng)絡(luò)性能的目的。
一種基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測系統(tǒng),包括三級(jí)卷積神經(jīng)網(wǎng)絡(luò),所述三級(jí)卷積神經(jīng)網(wǎng)絡(luò)包括:
獲取單元,用以獲取訓(xùn)練樣本和檢測圖片;所述訓(xùn)練樣本至少包括標(biāo)注有人臉特征點(diǎn)的人臉圖片;
網(wǎng)絡(luò)訓(xùn)練單元,用以將所述訓(xùn)練樣本輸入三級(jí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行逐級(jí)訓(xùn)練;
其包括:特征向量模塊和回歸校正模塊,
所述特征向量模塊,用以根據(jù)所述訓(xùn)練樣本和前n級(jí)的的訓(xùn)練結(jié)果進(jìn)行預(yù)測后降維,得到對(duì)應(yīng)的二維特征向量,并據(jù)其計(jì)算獲得第一偏移量;
所述回歸校正模塊,用以通過所述第一偏移量對(duì)所述二維特征向量進(jìn)行回歸校正,得到對(duì)應(yīng)的訓(xùn)練結(jié)果;
人臉檢測單元,用以將所述檢測圖片輸入訓(xùn)練后的三級(jí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行逐級(jí)人臉檢測,得到人臉矩形框。
本發(fā)明提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測系統(tǒng),具有以下有益效果:
1)通過網(wǎng)絡(luò)訓(xùn)練單元2(或人臉檢測單元3)中的二級(jí)網(wǎng)絡(luò)和三級(jí)網(wǎng)絡(luò)彌補(bǔ)再一級(jí)網(wǎng)絡(luò)性能差的缺陷,使圖片分類的精確性得到提高,從而提升了人臉檢測的召回率和準(zhǔn)確度,并且提升了整體網(wǎng)絡(luò)的性能;
2)在獲取單元1的訓(xùn)練樣本中的人臉圖片上加入人臉特征點(diǎn),通過人臉特征點(diǎn)使人臉的分類以及人臉矩形框的定位精度得到提高,從而接近于達(dá)到網(wǎng)絡(luò)上線,并且進(jìn)一步提升了人臉檢測的召回率和準(zhǔn)確度;
3)僅通過特征向量模塊21和回歸校正模塊22的配合得到的分類偏移量進(jìn)行圖片分類的回歸校正,如此保證了分類正確的部分不需進(jìn)行校正,從而使人臉檢測的速度得到提高,并達(dá)到進(jìn)一步挖掘網(wǎng)絡(luò)性能的目的。
附圖說明
為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法的結(jié)構(gòu)框圖;
圖2為本發(fā)明一優(yōu)選實(shí)施例提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法的流程示意圖;
圖3為本發(fā)明一優(yōu)選實(shí)施例提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法的流程示意圖;
圖4為本發(fā)明一優(yōu)選實(shí)施例提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法的流程示意圖;
圖5為本發(fā)明一優(yōu)選實(shí)施例提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法的流程示意圖;
圖6為本發(fā)明一優(yōu)選實(shí)施例提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法的流程示意圖;
圖7為本發(fā)明一優(yōu)選實(shí)施例提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法的流程示意圖;
圖8為本發(fā)明實(shí)施例提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測系統(tǒng)的結(jié)構(gòu)示意圖;
圖9為本發(fā)明一優(yōu)選實(shí)施例提供的一級(jí)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
圖10為本發(fā)明一優(yōu)選實(shí)施例提供的二級(jí)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
圖11為本發(fā)明一優(yōu)選實(shí)施例提供的三級(jí)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。
附圖標(biāo)記說明:
1、獲取單元;2、網(wǎng)絡(luò)訓(xùn)練單元;21、特征向量模塊;22、回歸校正模塊;3、人臉檢測單元。
具體實(shí)施方式
為了使本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)介紹。
如圖1-7和9-11所示,為本發(fā)明實(shí)施例提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,還包括以下步驟:
S101、獲取訓(xùn)練樣本和檢測圖片;所述訓(xùn)練樣本至少包括標(biāo)注有人臉框和人臉特征點(diǎn)的人臉圖片;
如圖9-11所示,進(jìn)一步的,所述三級(jí)卷積神經(jīng)網(wǎng)絡(luò)包括一級(jí)網(wǎng)絡(luò)、二級(jí)網(wǎng)絡(luò)以及三級(jí)網(wǎng)絡(luò),所述三級(jí)網(wǎng)絡(luò)包括第一支路、第二支路和第三支路,所述二級(jí)網(wǎng)絡(luò)包括所述第一支路和所述第二支路,所述第一支路與所述一級(jí)網(wǎng)絡(luò)相同。第一支路的網(wǎng)絡(luò)結(jié)構(gòu)與一級(jí)網(wǎng)絡(luò)完全相同,便于分辨,圖中以12-net代表一級(jí)網(wǎng)絡(luò),24-net代表二級(jí)網(wǎng)絡(luò),48-net代表三級(jí)網(wǎng)絡(luò);即24-net包括12-net支路和24-net支路,48-net包括12-net支路、24-net支路以及48-net支路,并且12-net、24-net和48-net逐級(jí)相連,如此,能對(duì)訓(xùn)練樣本逐級(jí)挑選,排除沒有人臉的其他圖片,獲得準(zhǔn)確的人臉圖片以及其對(duì)應(yīng)的更為精確的人臉框(確定人臉位置)。
進(jìn)一步的,所述訓(xùn)練樣本中的人臉圖片還含有圖片分類標(biāo)簽。具體的,所述訓(xùn)練樣本為包含有分類標(biāo)簽、唯一確定的人臉框以及標(biāo)注的人臉特征點(diǎn)信息的人臉圖片以及其他圖片;通過分類標(biāo)簽可進(jìn)行圖片分類訓(xùn)練,即將訓(xùn)練樣本分為有標(biāo)簽的人臉圖片集合以及其他圖片集合兩類;通過人臉框可確定人臉在該人臉圖片中的矩形區(qū)域,從而框定該區(qū)域即為確定人臉位置;人臉特征點(diǎn)(landmark點(diǎn))為鼻子、眼鏡、嘴巴、額頭以及人臉輪廓線等突出部位,通過這些部位可以很容易判斷出人臉的不同;由于僅通過人臉框確定人臉位置存在誤差,通過人臉特征點(diǎn)能夠精確定位人臉:通過增大或縮小人臉框,使人臉特征點(diǎn)落在人臉框的范圍之內(nèi),從而提高人臉框的人臉定位精度。檢測圖片為人臉圖片、環(huán)境圖片以及其他任意圖片的集合;待訓(xùn)練完成后,可進(jìn)行檢測圖片的人臉檢測。獲取訓(xùn)練樣本的方式可以為通過調(diào)取現(xiàn)有技術(shù)中的人臉庫,或者通過3D打印等方式得到人臉圖片,并加入分類標(biāo)簽、唯一確定的人臉框、標(biāo)注人臉特征點(diǎn),再將其混合在其他圖片中。
S102、將所述訓(xùn)練樣本輸入三級(jí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行逐級(jí)訓(xùn)練;
逐級(jí)訓(xùn)練是指依次按照一級(jí)網(wǎng)絡(luò)、二級(jí)網(wǎng)絡(luò)、三級(jí)網(wǎng)絡(luò)的順序?qū)θ?jí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,三級(jí)卷積神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)能力,經(jīng)過訓(xùn)練后能夠?qū)W習(xí)圖片分類的方式,并且能夠在圖片中找出相應(yīng)的位置用矩形框框定,甚至可以通過引入人臉特征點(diǎn)對(duì)矩形框的位置進(jìn)一步校正,從而當(dāng)輸入大量各異的圖片時(shí),可以通過訓(xùn)練后的三級(jí)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人臉分類、定位。
在S102步驟中,所述訓(xùn)練還包括以下步驟:
S1021、根據(jù)所述訓(xùn)練樣本和前n級(jí)的訓(xùn)練結(jié)果進(jìn)行預(yù)測后降維,得到對(duì)應(yīng)的二維特征向量,并據(jù)其計(jì)算獲得第一偏移量;
訓(xùn)練結(jié)果是指在三級(jí)卷積神經(jīng)網(wǎng)絡(luò)中每個(gè)級(jí)的網(wǎng)絡(luò)預(yù)測、降維并回歸校正后得到的結(jié)果;當(dāng)訓(xùn)練樣本輸入一級(jí)網(wǎng)絡(luò)時(shí),前n級(jí)的訓(xùn)練結(jié)果為“空”,當(dāng)訓(xùn)練樣本輸入二級(jí)網(wǎng)絡(luò)時(shí),前n級(jí)的訓(xùn)練結(jié)果為“一級(jí)網(wǎng)絡(luò)的訓(xùn)練結(jié)果”,當(dāng)訓(xùn)練樣本輸入三級(jí)網(wǎng)絡(luò)時(shí),上一級(jí)的訓(xùn)練結(jié)果為“一級(jí)網(wǎng)絡(luò)的訓(xùn)練結(jié)果”和“二級(jí)網(wǎng)絡(luò)的訓(xùn)練結(jié)果”;預(yù)測并降維是指訓(xùn)練過程中,對(duì)輸入的訓(xùn)練樣本進(jìn)行分類、人臉位置的預(yù)測,并且將其轉(zhuǎn)換為便于運(yùn)算的二維特征向量;第一偏移量是指訓(xùn)練過程中,預(yù)測并降維后得到的二維特征向量相對(duì)于訓(xùn)練樣本(主要是指預(yù)測值和訓(xùn)練樣本中的分類標(biāo)簽、唯一確定的人臉框以及標(biāo)注的人臉特征點(diǎn)這幾個(gè)方面的差異)的差異,即預(yù)測后與預(yù)測前值之間的差異;優(yōu)選的,通過損失函數(shù)進(jìn)行兩者之間的計(jì)算。通過下一級(jí)網(wǎng)絡(luò)彌補(bǔ)上一級(jí)網(wǎng)絡(luò)(上一級(jí)網(wǎng)絡(luò)的訓(xùn)練結(jié)果和訓(xùn)練樣本均輸入下一級(jí))性能差的缺陷,使圖片分類的精確性得到提高,從而提升了人臉檢測的召回率和準(zhǔn)確度,并且提升了整體網(wǎng)絡(luò)的性能。
在步驟S1021中,所述二維特征向量的獲得包括以下步驟:
S201、根據(jù)所述訓(xùn)練樣本和前n級(jí)的訓(xùn)練結(jié)果獲得m維特征向量;
在全卷積層/全連接層之前為預(yù)測結(jié)構(gòu),通過該結(jié)構(gòu)預(yù)測得到各個(gè)網(wǎng)絡(luò)的m維特征向量,由于一級(jí)網(wǎng)絡(luò)、二級(jí)網(wǎng)絡(luò)、三級(jí)網(wǎng)絡(luò)的結(jié)構(gòu)均不相同,并且輸入其中進(jìn)行訓(xùn)練的圖片也不同,因此得到的m維特征向量也均不相同;二級(jí)網(wǎng)絡(luò)對(duì)一級(jí)網(wǎng)絡(luò)預(yù)測出現(xiàn)的誤差部分進(jìn)行糾正,同上,三級(jí)網(wǎng)絡(luò)糾正二級(jí)網(wǎng)絡(luò);糾正的要點(diǎn)為一級(jí)/二級(jí)網(wǎng)絡(luò)預(yù)測得到的結(jié)果中可能出現(xiàn)未被分類至人臉圖片集合,卻含有標(biāo)簽的圖片或者未含有標(biāo)簽卻被分類至人臉圖片集合的圖片的情況;通過二級(jí)/三級(jí)網(wǎng)絡(luò)可大大降低上述情況的發(fā)生的概率,從而使三級(jí)卷積神經(jīng)網(wǎng)絡(luò)具有自我凈化的能力。
在S201步驟中的三級(jí)網(wǎng)絡(luò)中,m維特征向量的獲得包括以下步驟:
S301、將訓(xùn)練樣本和上一級(jí)的訓(xùn)練結(jié)果輸入第一支路獲取第一特征向量,將其輸入第二支路獲取第二特征向量,將其輸入第三支路獲取第三維特征向量;
S302、將所述第一特征向量、第二特征向量以及第三特征向量進(jìn)行拼接,得到m維特征向量。
各級(jí)網(wǎng)絡(luò)中的預(yù)測結(jié)構(gòu)均具有拼接功能;在三級(jí)網(wǎng)絡(luò)中,各級(jí)支路分別運(yùn)行得到不同的特征向量,各個(gè)特征向量(即第一特征向量、第二特征向量以及第三特征向量)的維度均不相同,將上述特征向量進(jìn)行疊加,得到m維特征向量;在二級(jí)網(wǎng)絡(luò)中,同上的拼接方式,少一支路,因此無第三特征向量;在一級(jí)網(wǎng)絡(luò)中,只有一條支路,因此拼接得到的結(jié)果就是該支路的結(jié)果。為轉(zhuǎn)化為二維特征向量作準(zhǔn)備,以向量的形式表示人臉,使計(jì)算更為方便。具體的,將對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)分別輸入到三個(gè)支路中。第一條支路和和12-net完全一樣,在全卷積之前,可以得到m維(以16維為例)的特征向量,第二個(gè)支路經(jīng)過24-net全連接層之前的層以后可以得到n維(以128維為例)的人臉特征向量。第三個(gè)支路經(jīng)過48-net全連接層之前的層以后可以得到p維(以256維為例)的人臉特征向量,將三個(gè)特征向量進(jìn)行拼接。假設(shè)為12-net的特征向量,為24-net的特征向量。為48-net的特征向量。將三個(gè)向量進(jìn)行拼接可以得到400維((m+n+p)維)將X4經(jīng)過全連接層。
S202、通過全卷積層/全連接層對(duì)所述m維特征向量進(jìn)行降維處理,獲得所述二維特征向量。
在全卷積層之前有進(jìn)行預(yù)測的預(yù)測結(jié)構(gòu),通過預(yù)測結(jié)構(gòu)從所述訓(xùn)練樣本中將該預(yù)測結(jié)構(gòu)默認(rèn)認(rèn)為是人臉圖片集合分為一類,其他圖片集合分為另一類;并且得到該人臉圖片集合的預(yù)測人臉框以及預(yù)測人臉特征點(diǎn),將其轉(zhuǎn)換為m維特征向量的形式予以表示。全卷積層具有將多維特征向量降維至二維的作用,該m維特征向量通過該全卷積層就能得到二維特征向量,便于進(jìn)行預(yù)測值和訓(xùn)練樣本間的偏移量的計(jì)算。
S1022、通過所述第一偏移量對(duì)所述二維特征向量進(jìn)行回歸校正,得到對(duì)應(yīng)的訓(xùn)練結(jié)果;
各級(jí)網(wǎng)絡(luò)中的全卷積/連接層之后具有后饋結(jié)構(gòu),通過該結(jié)構(gòu)對(duì)預(yù)測值進(jìn)行回歸校正;回歸校正是指通過第一偏移量對(duì)預(yù)測到的值進(jìn)行補(bǔ)償,校正分類產(chǎn)生的偏移、人臉框產(chǎn)生的偏移以及人臉特征點(diǎn)產(chǎn)生的偏移,從而使人臉分類、人臉定位更為精確,最終獲得的人臉框也更為精確,將網(wǎng)絡(luò)已經(jīng)分類正確的部分不進(jìn)行分類的回歸校正,進(jìn)一步挖掘網(wǎng)絡(luò)性能,保證了檢測速度。
在S1022步驟中,所述第一偏移量的獲取包括以下步驟:
S401、將所述二維特征向量輸入SoftmaxWithLoss層,計(jì)算獲得分類偏移量;
在獲得二維特征向量后,通過SoftmaxWithLoss層分類偏移量的計(jì)算,將計(jì)算得到的權(quán)重W,偏置項(xiàng)b進(jìn)行后饋,即通過分類偏移量可進(jìn)行分類的回歸校正,提高分類的召回率、準(zhǔn)確度。
在S401步驟中,所述分類偏移量的計(jì)算包括以下步驟:
S501、對(duì)所述二維特征向量進(jìn)行定義;
定義為Z={z1,z2},其中
S502、通過softmax函數(shù)進(jìn)行分類;分為二類,特殊化為:
S503、通過損失函數(shù)計(jì)算預(yù)測到的所述二維特征向量與所述訓(xùn)練樣本間的差異;
損失函數(shù)為:
其中計(jì)算
修正其中α為系數(shù)。
S402、將所述二維特征向量輸入Euclidean Loss層,計(jì)算獲得人臉框偏移量以及所述人臉特征點(diǎn)偏移量。
通過歐式距離和損失函數(shù)的結(jié)合在各級(jí)網(wǎng)絡(luò)均進(jìn)行人臉框偏移量和人臉特征偏移量的回歸校正,從而實(shí)現(xiàn)對(duì)最終獲得的人臉矩形框的校正,保證人臉識(shí)別速度的前提下進(jìn)一步提高人臉識(shí)別率。
S103、將所述檢測圖片輸入所述三級(jí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行逐級(jí)人臉檢測,得到人臉矩形框。
檢測結(jié)果為通過三級(jí)卷積神經(jīng)網(wǎng)絡(luò)中的各級(jí)網(wǎng)絡(luò)對(duì)輸入的檢測圖片進(jìn)行分類,并檢測獲得人臉位置以及人臉特征點(diǎn)的統(tǒng)稱,其為各個(gè)網(wǎng)絡(luò)檢測獲得的人臉候選框;對(duì)應(yīng)三個(gè)網(wǎng)絡(luò),檢測結(jié)果有三個(gè),對(duì)其進(jìn)行篩選、回歸校正并合并后輸入下一級(jí)進(jìn)行檢測,最終可以得到人臉矩形框;人臉矩形框?yàn)橄韧ㄟ^特定程序篩選,再通過人臉特征點(diǎn)偏移量、人臉框偏移量兩者的結(jié)合對(duì)其校正后,再合并相同或相似的人臉框得到的矩形框,其能夠確定上述的人臉位置等信息。
在S103步驟中,所述人臉矩形框的獲得包括以下步驟:
S601、將所述檢測圖片輸入一級(jí)網(wǎng)絡(luò)對(duì)其進(jìn)行篩選、回歸校正并合并,得到第一人臉候選框;
S602、將所述第一人臉候選框輸入二級(jí)網(wǎng)絡(luò)對(duì)其進(jìn)行篩選、回歸校正并合并,得到第二人臉候選框;
S603、將所述第二人臉候選框輸入三級(jí)網(wǎng)絡(luò)對(duì)其進(jìn)行篩選、回歸校正并合并,得到人臉矩形框。
一級(jí)網(wǎng)絡(luò)檢測獲得第一人臉候選框,二級(jí)網(wǎng)絡(luò)檢測獲得第二人臉候選框,三級(jí)網(wǎng)絡(luò)檢測獲得人臉矩形框(上述三個(gè)人臉候選框?qū)?yīng)步驟103中的三個(gè)檢測結(jié)果),對(duì)前兩個(gè)檢測結(jié)果進(jìn)行篩選、回歸校正并合并后分別得到第二人臉候選框以及最終的人臉矩形框;進(jìn)一步的,得到第一人臉候選框后從原圖中截取出來調(diào)整到24*24px大小輸入第二網(wǎng)絡(luò)中進(jìn)行檢測,得到第二人臉候選框后從原圖中截取出來調(diào)整到48*48px大小輸入第三網(wǎng)絡(luò)中進(jìn)行檢測,檢測后再篩選、回歸校正并合并后得到人臉矩形框。逐級(jí)檢測,獲得精確的人臉矩形框(人臉位置),從而進(jìn)一步提高了檢測的召回率和準(zhǔn)確度。
在S103步驟中,進(jìn)行篩選、回歸校正并合并包括以下步驟:
S701、根據(jù)檢測圖片/第一人臉候選框/第二人臉候選框以及相應(yīng)的人臉概率,篩選出大于設(shè)定概率閾值的人臉候選框;
S702、根據(jù)篩選后得到的人臉候選框計(jì)算獲得第二偏移量,通過所述第二偏移量對(duì)其進(jìn)行回歸校正;
S703、通過非極大值抑制算法對(duì)校正后得到的人臉候選框進(jìn)行合并,得到第一人臉候選框/第二人臉候選框/人臉矩形框。
人臉概率是指將檢測圖片中的部分圖片分類為人臉圖片集合后,該人臉圖片集合中的圖片其中包含有人臉的概率;將人臉概率與設(shè)定的概率閾值進(jìn)行比對(duì),若小于該設(shè)定值,則刪除小于該設(shè)定值的人臉候選框,得到篩選后的人臉候選框;通過SoftmaxWithLoss層和Euclidean Loss層進(jìn)行第二偏移量的計(jì)算,所述第二偏移量包括檢測過程中的圖片分類偏移、檢測到的人臉框偏移以及檢測到的人臉特征點(diǎn)偏移,從而通過上述偏移對(duì)篩選后得到的人臉候選框進(jìn)行回歸校正,得到校正后人臉候選框;再通過非極大值抑制算法對(duì)校正后得到的人臉候選框進(jìn)行框合并,非極大值抑制算法是將人臉框按人臉的概率進(jìn)行排序,挑出概率最大的人臉框與其他框計(jì)算重合度,重合度大于一定閾值就將對(duì)應(yīng)的框刪掉,從而達(dá)到合并框的目的,得到第一人臉候選框/第二人臉候選框/人臉矩形框。通過篩選、回歸校正以及框合并使人臉檢測的召回率和準(zhǔn)確度進(jìn)一步提高,并且保證了檢測的速度。
本發(fā)明提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法,具有以下有益效果:
1)在訓(xùn)練過程中,通過增加前n級(jí)的訓(xùn)練結(jié)果作為后一級(jí)的輸入,彌補(bǔ)了訓(xùn)練數(shù)據(jù)的缺失問題,從而提高了人臉檢測的準(zhǔn)確度和召回率,并且提升了整體網(wǎng)絡(luò)的性能;
2)在訓(xùn)練樣本中加入人臉特征點(diǎn),通過人臉特征點(diǎn)使人臉的分類以及人臉矩形框的定位精度得到提高,從而接近于達(dá)到網(wǎng)絡(luò)上線,并且進(jìn)一步提升了人臉檢測的召回率和準(zhǔn)確度;
3)僅通過計(jì)算得到的第一(第二)偏移量中的分類偏移量進(jìn)行圖片分類的回歸校正,如此保證了分類正確的部分不再進(jìn)行回歸校正,從而使人臉檢測的速度得到提高,并達(dá)到進(jìn)一步挖掘網(wǎng)絡(luò)性能的目的。
如圖8所示,本發(fā)明實(shí)施例還提供基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測系統(tǒng),包括三級(jí)卷積神經(jīng)網(wǎng)絡(luò),所述三級(jí)卷積神經(jīng)網(wǎng)絡(luò)包括:
獲取單元1,用以獲取訓(xùn)練樣本和檢測圖片;所述訓(xùn)練樣本至少包括標(biāo)注有人臉特征點(diǎn)的人臉圖片;
網(wǎng)絡(luò)訓(xùn)練單元2,用以將所述訓(xùn)練樣本輸入三級(jí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行逐級(jí)訓(xùn)練;
其包括:特征向量模塊和回歸校正模塊,
所述特征向量模塊21,用以根據(jù)所述訓(xùn)練樣本和前n級(jí)的的訓(xùn)練結(jié)果進(jìn)行預(yù)測后降維,得到對(duì)應(yīng)的二維特征向量,并據(jù)其計(jì)算獲得第一偏移量;
所述回歸校正模塊22,用以通過所述第一偏移量對(duì)所述二維特征向量進(jìn)行回歸校正,得到對(duì)應(yīng)的訓(xùn)練結(jié)果;
人臉檢測單元3,用以將所述檢測圖片輸入訓(xùn)練后的三級(jí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行逐級(jí)人臉檢測,得到人臉矩形框。
本發(fā)明提供的基于三級(jí)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測系統(tǒng),具有以下有益效果:
1)通過網(wǎng)絡(luò)訓(xùn)練單元2(或人臉檢測單元3)中的二級(jí)網(wǎng)絡(luò)和三級(jí)網(wǎng)絡(luò)彌補(bǔ)再一級(jí)網(wǎng)絡(luò)性能差的缺陷,使圖片分類的精確性得到提高,從而提升了人臉檢測的召回率和準(zhǔn)確度,并且提升了整體網(wǎng)絡(luò)的性能;
2)在獲取單元1的訓(xùn)練樣本中的人臉圖片上加入人臉特征點(diǎn),通過人臉特征點(diǎn)使人臉的分類以及人臉矩形框的定位精度得到提高,從而接近于達(dá)到網(wǎng)絡(luò)上線,并且進(jìn)一步提升了人臉檢測的召回率和準(zhǔn)確度;
3)僅通過特征向量模塊21和回歸校正模塊22的配合得到的分類偏移量進(jìn)行圖片分類的回歸校正,如此保證了分類正確的部分不需進(jìn)行校正,從而使人臉檢測的速度得到提高,并達(dá)到進(jìn)一步挖掘網(wǎng)絡(luò)性能的目的。
以上只通過說明的方式描述了本發(fā)明的某些示范性實(shí)施例,毋庸置疑,對(duì)于本領(lǐng)域的普通技術(shù)人員,在不偏離本發(fā)明的精神和范圍的情況下,可以用各種不同的方式對(duì)所描述的實(shí)施例進(jìn)行修正。因此,上述附圖和描述在本質(zhì)上是說明性的,不應(yīng)理解為對(duì)本發(fā)明權(quán)利要求保護(hù)范圍的限制。