本發(fā)明涉及計算機視覺和模式識別領(lǐng)域,具體涉及一種基于相似度保留堆疊自編碼器的人臉姿態(tài)重建與識別方法。
背景技術(shù):
人臉姿態(tài)重建與識別由于其巨大的理論研究空間以及在廣泛的實際應(yīng)用中具有良好的應(yīng)用潛力,成為了目前的一個熱點研究領(lǐng)域?,F(xiàn)實中,人臉在不同環(huán)境中易受姿態(tài)變化的影響,使得基于姿態(tài)變化的人臉識別問題成為了一個研究難點。識別帶有不同姿態(tài)角度變化的非配合主體對于公安刑偵破案、出入口控制、邊界安防等領(lǐng)域發(fā)揮著至關(guān)重要的作用。
在實際應(yīng)用中,如視頻監(jiān)控和圖像采集等場合,由于用戶的非配合,致使采集到的圖像存在不同程度的角度旋轉(zhuǎn),從而導致人臉被部分遮擋以及臉部紋理形變,最后提取到的姿態(tài)特征不能很好和原始正臉圖像的特征相匹配,從而降低了識別率。
為了解決姿態(tài)變化帶來的人臉重建和識別問題,目前現(xiàn)有的技術(shù)主要為2d和3d兩類方法。2d方法中的經(jīng)典方法是運用堆疊步進自編碼器網(wǎng)絡(luò)結(jié)構(gòu)來將較大姿態(tài)的人臉圖像逐步地轉(zhuǎn)換為較小姿態(tài)的圖像,從而完成正臉姿態(tài)的重建。這種方法雖然能夠提取到魯棒性較強的姿態(tài)不變特征,但是其在某種程度上,使得在姿態(tài)重建過程中,人臉的局部紋理信息丟失太多,導致重建后的正臉圖像質(zhì)量下降,從而影響了后續(xù)的識別性能;在3d方法中,則主要是運用基于三維人臉建模的方法來處理姿態(tài)變化帶來的識別性能降低等問題?;?d建模的方法其計算量較大,且在某些情況下,運用3d方法進行姿態(tài)重建后的人臉其識別率沒有得到很大程度上的提升。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足,而提供一種基于相似度保留堆疊自編碼器的人臉姿態(tài)重建與識別方法。這種方法能夠消除人臉圖像的姿態(tài)角度偏轉(zhuǎn)影響、能夠提取到人臉對于多姿態(tài)變化更具魯棒性的特征,且提取到的姿態(tài)特征能和原始正臉圖像的特征相匹配,從而提高識別率。
實現(xiàn)本發(fā)明目的的技術(shù)方案是:
一種基于相似度保留堆疊自編碼器的人臉姿態(tài)重建與識別方法,包括如下步驟:
1)多角度人臉圖像的姿態(tài)角度步進減小:給定多角度姿態(tài)輸入圖像x(1)以及圖像x(1)下一級小姿態(tài)角度圖像
2)目標姿態(tài)特征提取:將步驟1)中第一步進自編碼器的目標姿態(tài)角度圖像
3)構(gòu)建相似度保留自編碼器的總損失函數(shù):步驟1)中的第一步進自編碼器和步驟2)中的第二半自編碼器構(gòu)成一個相似度保留自編碼器,在第一步進自編碼器的損失函數(shù)lpose中加入相似度保留約束項,即對輸入圖像的隱含層特征h1和目標姿態(tài)的隱含層特征
4)堆疊相似度保留自編碼器:步驟3)中得到了第一個相似度保留自編碼器的總損失函數(shù)ltrain,通過最小化損失函數(shù),采用隨機梯度下降法來訓練網(wǎng)絡(luò)參數(shù){w1(1),b1(1)}、{w1(2),b1(2)}和{w1(3),b1(3)},之后將多角度姿態(tài)輸入圖像x(1)通過訓練好的參數(shù){w1(1),b1(1)}得到隱含層特征h1,接著將h1作為第二步進自編碼的輸入,取
5)訓練并微調(diào)網(wǎng)絡(luò):經(jīng)過上述的4個步驟預(yù)訓練過程后,網(wǎng)絡(luò)的參數(shù)有了初始值,以多角度姿態(tài)圖像x(1)作為微調(diào)網(wǎng)絡(luò)的輸入,在最終的輸出端,以正臉姿態(tài)圖像
6)重建與識別:即重建測試圖像的正臉圖片,并提取網(wǎng)絡(luò)最高隱含層特征,最后識別多姿態(tài)人臉圖像,將帶有不同姿態(tài)角度的測試圖像輸入到訓練好的微調(diào)網(wǎng)絡(luò)中,通過連接訓練好的參數(shù),將測試圖像步進映射到多個隱含層中,在輸出端得到重建好的正臉圖像,接著將重建好的正臉圖像和網(wǎng)絡(luò)的最高隱含層特征分別使用線性判別分析法,即lda法進行降維來提取具有判別性的人臉特征,并用最近鄰分類器完成人臉識別。
這種方法通過在步進自編碼器的隱含層中引入相似度保留項,即讓每一個步進自編碼器的隱含層特征和這個自編碼器的目標姿態(tài)特征做相似度約束,使得在姿態(tài)逐層減小的同時,又能夠讓每一個人對應(yīng)的姿態(tài)特征相似,從而使得提取到的隱含層表達對姿態(tài)變化更具魯棒性,則網(wǎng)絡(luò)能夠很好重建人臉圖片的細節(jié)信息,且重建后的正臉圖片整體光滑,噪點少,主觀視覺和客觀結(jié)構(gòu)相似度表現(xiàn)都很好;由于多姿態(tài)角度圖像重建后的正臉圖像獲得了較好的重建質(zhì)量,則將重建后的正臉圖像通過降維提取特征并分類,一定程度上提高了識別率;此外,由于引入相似度保留約束項,使得網(wǎng)絡(luò)的最高隱含層特征含有的冗余信息少,則將最高隱含層特征同樣通過降維特征提取和分類過程,也能很大程度上提高識別率。
這種方法使用步進自編碼器,能夠有效地消除人臉圖像的姿態(tài)角度偏轉(zhuǎn)影響、使用相似度保留項,對隱含層做相似度約束,增強了同一個人對應(yīng)的人臉特征的相似度,使得人臉特征的魯棒性更強,重建圖像整體光滑,噪點少,提取到的姿態(tài)特征能和原始正臉圖像的特征相匹配,從而提高識別率。
附圖說明
圖1為實施例的流程示意圖;
圖2為實施例中相似度保留自編碼器人臉姿態(tài)重建結(jié)構(gòu)圖;
圖3為實施例中相似度保留自編碼器網(wǎng)絡(luò)微調(diào)結(jié)構(gòu)圖。
圖4為實施例的算法識別率性能圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明內(nèi)容作進一步的詳細說明,但不是對本發(fā)明的限定。
實施例:
參照圖1、圖2、圖3、圖4,一種基于相似度保留堆疊自編碼器的人臉姿態(tài)重建與識別方法,包括如下步驟:
1)多角度人臉圖像的姿態(tài)角度步進減?。航o定多角度姿態(tài)輸入圖像x(1)以及圖像x(1)下一級小姿態(tài)角度圖像
(1)如圖1所示,首先給定多姿態(tài)人臉圖像x(1),其包含姿態(tài)角度p1~pk,且pk>pk-1>...>p1>0,與此對稱的角度為-pi(i=1,2...k),以p0表示正臉姿態(tài),所以共2k+1種姿態(tài)。這里設(shè)k=3,則輸入圖像共包含7種姿態(tài)角度,分別為{-45°,-30°,-15°,0°,+15°,+30°,+45°};
(2)將x(1)作為第一步進自編碼器的輸入,經(jīng)編碼函數(shù)f(x)和編碼參數(shù){w1(1),b1(1)}映射到隱含層h1中,接著隱含層特征h1經(jīng)解碼函數(shù)g(h)和解碼參數(shù){w1(2),b1(2)}又映射到了輸出層y(1)中。編解碼過程如下所示,
h1=f(x(1))=s(w1(1)x(1)+b1(1))
y(1)=g(h1)=s(w1(2)h1+b1(2))
式中的s(x)是非線性映射sigmoid激活函數(shù),且
(3)經(jīng)過網(wǎng)絡(luò)的編解碼過程,接下來要通過最小化均方誤差函數(shù)lpose來實現(xiàn)姿態(tài)角度的步進減小,即將較大姿態(tài)角度-pk(-45°)和pk(+45°)圖像分別映射到下一級小姿態(tài)角度-pk-1(-30°)和pk-1(+30°)圖像,其余角度分別映射到本身,則在第一步進自編碼器中期望輸出圖像的角度范圍為-pk-1-pk-1(-30°-+30°),記為
式中,n是訓練樣本個數(shù);
2)目標姿態(tài)特征提取:將步驟1)中第一步進自編碼器的目標姿態(tài)角度圖像
將
式中的函數(shù)f和s同步驟1)中的步進自編碼器函數(shù),分別為編碼函數(shù)和sigmoid激活函數(shù);
3)構(gòu)建相似度保留自編碼器的總損失函數(shù):步驟1)中第一步進自編碼器和步驟2)中的第二半自編碼器構(gòu)成一個相似度保留自編碼器,在第一步進自編碼器的損失函數(shù)lpose中加入相似度保留約束項,即對輸入圖像的隱含層特征h1和目標姿態(tài)的隱含層特征
(1)將目標姿態(tài)特征
式中的n同樣為訓練樣本個數(shù);
(2)分別對隱含層特征h1和
接著引入相對熵(kullback-leiblerdivergence)來限制隱藏單元的激活度,隱含層特征h1和
式中,ρ0是稀疏度參數(shù),是一個接近于0的數(shù),這里取值為0.05,通過施加限制
(3)將步進自編碼器的均方誤差損失函數(shù)lpose,相似度保留約束項lhidden以及隱含層的稀疏性正則項lsparse1與lsparse2合起來構(gòu)成相似度保留自編碼器的總損失函數(shù)ltrain,
ltrain=lpose+αlhidden+β(lsparse1+lsparse2)
式中的α和β是平衡損失函數(shù)中不同項之間的參數(shù),可以分別取值為1,0.001,同時在本實施例中,網(wǎng)絡(luò)中隱含層節(jié)點數(shù)取值為2000;
(4)通過求解總的目標函數(shù)式ltrain的最小值點,并運用共軛梯度(conjugategradients,cg)優(yōu)化算法來學習網(wǎng)絡(luò)參數(shù){w1(i),b1(i)},網(wǎng)絡(luò)參數(shù)的更新公式如下式所示:
上式中,η>0是學習速率;
4)堆疊相似度保留自編碼器:步驟3)中得到了第一個相似度保留自編碼器的總損失函數(shù)ltrain,通過最小化損失函數(shù),采用隨機梯度下降法來訓練網(wǎng)絡(luò)參數(shù){w1(1),b1(1)}、{w1(2),b1(2)}和{w1(3),b1(3)},之后將多角度姿態(tài)輸入圖像x(1)通過訓練好的參數(shù){w1(1),b1(1)}得到隱含層特征h1,接著將h1作為第二步進自編碼的輸入,取
(1)訓練好第一相似度保留自編碼器后,再以多姿態(tài)人臉圖像x(1)作為輸入,計算隱含層特征h1,此時的隱含層h1已經(jīng)完成了小姿態(tài)角度的映射,其包含-pk-1-pk-1(-30°-+30°)姿態(tài)范圍內(nèi)圖像的特征;
(2)接著將h1作為第二步進自編碼器的輸入,按步驟1)中的第(2)步來將h1映射到h2,h2又被映射到輸出層y(2);同時又按照第(3)步來最小化均方誤差函數(shù)lpose,實現(xiàn)將角度-pk-1(-30°)和pk-1(+30°)圖像分別映射到下一級小姿態(tài)角度-pk-2(-15°)和pk-2(+15°)圖像,其余角度分別映射到本身,則在第二步進自編碼器中期望輸出圖像的角度范圍為-pk-2-pk-2(-15°-+15°),記為
(3)將h2作為第三步進自編碼器的輸入,重復(fù)上述步驟,來訓練第三相似度保留自編碼器網(wǎng)絡(luò),使得最后的姿態(tài)角度均為0°;
5)訓練并微調(diào)網(wǎng)絡(luò):經(jīng)過上述的4個步驟預(yù)訓練過程后,網(wǎng)絡(luò)的參數(shù)有了初始值,以多角度姿態(tài)圖像x(1)作為微調(diào)網(wǎng)絡(luò)的輸入,在最終的輸出端,以正臉姿態(tài)圖像
當預(yù)訓練好相似度保留堆疊自編碼器后,網(wǎng)絡(luò)中各層參數(shù){w1(i),b1(i)}有了初始值,在微調(diào)過程中,以各姿態(tài)角度人臉圖像x(1)再次作為微調(diào)網(wǎng)絡(luò)的輸入,通過運用如下公式逐層將輸入圖像映射到各個隱含層中,并在輸出層得到重建后的正臉圖像,
h1=f(x(1))=s(w1(1)x(1)+b1(1))
h2=f(h1)=s(w2(1)h1+b2(1))
h3=f(h2)=s(w3(1)h2+b3(1))
y0=f(h3)=s(w3(2)h3+b3(2))
上述各式中,h1,h2,h3為微調(diào)網(wǎng)絡(luò)的隱含層特征,y0為輸出層表達,其包含的圖像角度均為0°,此時,在微調(diào)網(wǎng)絡(luò)的輸出端,以各姿態(tài)角度人臉圖像x(1)所對應(yīng)的正臉圖像作為網(wǎng)絡(luò)的期望輸出,表示為
接著最小化上式,同樣使用共軛梯度優(yōu)化算法來學習網(wǎng)絡(luò)參數(shù)。經(jīng)過微調(diào)過程,進一步修正網(wǎng)絡(luò)中的參數(shù),使得參數(shù)達到最優(yōu)取值;
6)重建與識別:即重建測試圖像的正臉圖片,并提取網(wǎng)絡(luò)最高隱含層特征,最后識別多姿態(tài)人臉圖像。將帶有不同姿態(tài)角度的測試圖像輸入到訓練好的微調(diào)網(wǎng)絡(luò)中,通過連接訓練好的參數(shù),將測試圖像步進映射到多個隱含層中,在輸出端得到重建好的正臉圖像,接著將正臉圖像和網(wǎng)絡(luò)的最高隱含層特征分別使用線性判別分析法,即lda法進行降維來提取具有判別性的人臉特征,并用最近鄰分類器完成人臉識別,具體地:
(1)經(jīng)過訓練和微調(diào)后,網(wǎng)絡(luò)獲得了最優(yōu)的參數(shù)取值,在測試時,輸入多角度姿態(tài)測試圖像,經(jīng)各層參數(shù)連接將測試圖像映射到隱含層,在網(wǎng)絡(luò)輸出端得到了重建后的正臉圖像;
(2)將重建后的正臉圖片和網(wǎng)絡(luò)中提取的最高隱含層特征h3分別通過線性判別分析法降維來提取具有判別性的人臉特征,然后再通過最近鄰分類器來識別多姿態(tài)人臉圖像;
通過上述的實施例步驟,可以將多姿態(tài)人臉圖像重建為正臉圖像,并能夠提取到網(wǎng)絡(luò)的最高隱含層特征,圖4為分別用相似度保留堆疊自編碼器重建后的正臉圖像和網(wǎng)絡(luò)的最高隱含層特征做識別的結(jié)果圖,從圖中可以看出,用網(wǎng)絡(luò)提取的最高隱含層特征來做多姿態(tài)人臉識別后,其識別率要高于用重建出的正臉圖像做識別的識別結(jié)果;但是用重建后的正臉圖像做識別,其識別率也相對較優(yōu)。