本發(fā)明涉及一種基于深度時(shí)空特征的高精度面部表情識別方法,屬于圖像識別技術(shù)領(lǐng)域。
背景技術(shù):
表情識別一直都是人臉屬性分析領(lǐng)域一個(gè)重要課題,目的是通過計(jì)算機(jī)視覺從人臉關(guān)鍵區(qū)域提取到可以識別表情的信息,并對該信息進(jìn)行分類融合。隨著計(jì)算機(jī)處理能力的顯著提高,該技術(shù)在眾多領(lǐng)域都有越來越廣泛的應(yīng)用。
人們對類似于人和人交流方式的人機(jī)交互的需求日益強(qiáng)烈。計(jì)算機(jī)和機(jī)器人如果能夠像人類那樣具有理解和表達(dá)情感的能力,將從根本上改變?nèi)伺c計(jì)算機(jī)之間的關(guān)系,使計(jì)算機(jī)能夠更好地為人類服務(wù)。表情識別是情感理解的基礎(chǔ),是計(jì)算機(jī)理解人們情感的前提,也是人們探索和理解智能的有效途徑。如果實(shí)現(xiàn)計(jì)算機(jī)對人臉表情的理解與識別將從根本上改變?nèi)伺c計(jì)算機(jī)的關(guān)系,這將對未來人機(jī)交互領(lǐng)域產(chǎn)生重大的意義。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是提供一種基于深度時(shí)空特征的高精度面部表情識別方法,該方法針對單張表情圖像的識別,首先利用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)對公開的數(shù)據(jù)集進(jìn)行訓(xùn)練,提取表情圖像空間分布的特征,然后利用多張無表情的中性臉進(jìn)行加權(quán)求平均,使用表情圖像對已經(jīng)求得的平均表情中性臉做基于梯度的光流運(yùn)算,得到表情圖像的光流特征圖,同樣使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)對該集合進(jìn)行訓(xùn)練,提取表情圖像基于時(shí)序上的特征,然后使用端到端的集成網(wǎng)絡(luò)對二者提取的特征進(jìn)行融合,最后得到精確的分類。最終實(shí)現(xiàn)性能優(yōu)秀的人臉表情識別系統(tǒng)。
本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
本發(fā)明提供一種基于深度時(shí)空特征的高精度面部表情識別方法,該方法的具體步驟如下:
步驟a,構(gòu)建多通道卷積神經(jīng)網(wǎng)絡(luò)mccnn模型;
步驟b,對公開的人臉表情數(shù)據(jù)庫中的圖像集iraw進(jìn)行人臉檢測和配準(zhǔn)處理,獲得配準(zhǔn)后的人臉表情圖像集iface;
步驟c,對步驟b得到的iface中的中性臉圖像進(jìn)行分組,并對每組中的圖像進(jìn)行求和平均,得到相應(yīng)的平均臉圖像集imean;其中,分組的方法為:首先根據(jù)不同膚色進(jìn)行分組,然后在按膚色分組的基礎(chǔ)上根據(jù)不同性別進(jìn)行分組,最后在按性別分組的基礎(chǔ)上根據(jù)不同年齡進(jìn)行分組;
步驟d,利用基于梯度的光流算法求出步驟b得到的iface中的圖像相對于步驟c中得到的imean中對應(yīng)平均臉圖像的x、y方向的光流特征圖像iofx、iofy;
步驟e,利用大規(guī)模目標(biāo)識別圖像數(shù)據(jù)庫對mccnn模型進(jìn)行預(yù)訓(xùn)練,獲得mccnn模型的預(yù)訓(xùn)練參數(shù);
步驟f,利用步驟b中得到的iface以及步驟d中得到的iface對應(yīng)的iofx、iofy,對步驟e中預(yù)訓(xùn)練完成的mccnn模型進(jìn)行遷移學(xué)習(xí);
步驟g,通過步驟f中遷移學(xué)習(xí)完成的mccnn模型進(jìn)行表情識別,最后用測試圖像進(jìn)行測試。
作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟a中構(gòu)建多通道卷積神經(jīng)網(wǎng)絡(luò)mccnn模型為:
a.1,mccnn模型包含三通道輸入、63層網(wǎng)絡(luò)以及一個(gè)輸出,其中,三通道輸入分別用于輸入表情臉圖像、x方向光流特征圖像和y方向光流特征圖像;
a.2,63層網(wǎng)絡(luò)的前60層為分別對應(yīng)三通道輸入的三路獨(dú)立并行的卷積神經(jīng)網(wǎng)絡(luò),每路卷積神經(jīng)網(wǎng)絡(luò)均為20層且網(wǎng)絡(luò)結(jié)構(gòu)完全一致,用于提取三通道輸入的深度時(shí)空特征;第61、62層是全連接層,用于對前級網(wǎng)絡(luò)提取的三通道輸入的深度時(shí)空特征進(jìn)行融合;最后一層為softmax層,用于輸出分類結(jié)果;
a.3,每路卷積神經(jīng)網(wǎng)絡(luò)的前4層分別是7×7核的卷積層、3×3的最大值池化層、1×1核的卷積層以及3×3核的卷積層;后16層由4個(gè)融合卷積模塊組成,每個(gè)融合卷積模塊分別有4層,分別是3×3最大值池化層、并行的4個(gè)卷積層、并行的3個(gè)卷積層以及融合卷積層,其中,并行的4個(gè)卷積層的卷積核分別為1×1、1×1、1×1和3×3,并行的3個(gè)卷積層包含3×3核卷積、5×5核卷積、3×3最大值池化。
作為本發(fā)明的進(jìn)一步技術(shù)方案,a.2中softmax層的輸出結(jié)果分為6類:高興、驚訝、厭惡、憤怒、恐懼、悲傷。
作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟b具體為:首先,利用人臉檢測器,對公開的人臉表情數(shù)據(jù)庫中的圖像集iraw中的所有圖像進(jìn)行人臉檢測,截取人臉區(qū)域;然后,利用人臉關(guān)鍵點(diǎn)進(jìn)行人臉配準(zhǔn)處理,得到配準(zhǔn)后的人臉表情圖像集iface。
作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟c具體為:首先,將iface中的中性臉圖像根據(jù)黃、白、黑三種膚色分為3組;然后,根據(jù)男、女性別將已分3組的圖像進(jìn)一步分為6組;再后,根據(jù)老、中、青、幼四種年齡將已分6組的圖像進(jìn)一步分為24組;最后,分別對24組圖像使用求和平均法,求得每組的平均臉,得到平均臉圖像集imean。
作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟e中利用imagenet數(shù)據(jù)集中1000類圖像,對mccnn模型進(jìn)行目標(biāo)分類訓(xùn)練,獲得mccnn模型的預(yù)訓(xùn)練參數(shù)。
作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟g中用測試圖像進(jìn)行測試具體為:首先,將用于測試的人臉圖像itest進(jìn)行檢測和配準(zhǔn)處理后得到配準(zhǔn)后的圖像itface;然后,利用基于梯度的光流算法求出iface相對于其對應(yīng)平均臉圖像的x、y方向的光流特征圖像itofx、itofy;最后,將將itface、itofx、itofy輸入到步驟f中遷移學(xué)習(xí)完成的mccnn模型,從而得到itest的表情類別。
本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
1)本發(fā)明方法設(shè)計(jì)了一個(gè)多通道的卷積神經(jīng)網(wǎng)絡(luò),分別對圖像空間上的特征和基于時(shí)間變化的特征進(jìn)行的提取,能夠從時(shí)空兩個(gè)維度上提取圖像的信息,另外使用多層神經(jīng)網(wǎng)絡(luò)能夠提升特征的表達(dá),提升整體識別準(zhǔn)確率;
2)使用無表情的平均臉代替中性臉來計(jì)算光流特征圖。同時(shí)采用端到端的訓(xùn)練方式進(jìn)行整體聯(lián)調(diào),這種方式能夠克服現(xiàn)有的全連接神經(jīng)網(wǎng)絡(luò)(nn)在融合分類方面的不足,同時(shí)又繼承了卷積神經(jīng)網(wǎng)絡(luò)在特征提取上的優(yōu)勢,能夠極大的提升系統(tǒng)的整體性能。
附圖說明
圖1是本發(fā)明的整體流程圖。
具體實(shí)施方式
下面結(jié)合附圖以及具體實(shí)施例對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說明:
如圖1所示的本發(fā)明一種基于深度時(shí)空特征的高精度面部表情識別方法的整體流程圖,包括神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練、多通道網(wǎng)絡(luò)的遷移訓(xùn)練和整體聯(lián)調(diào)對多通道特征信息進(jìn)行融合三大步驟。
本發(fā)明一種基于深度時(shí)空特征融合的高精度面部表情識別方法,主要利用了多通道深度神經(jīng)網(wǎng)絡(luò)的對人臉表情圖像的時(shí)空信息進(jìn)行融合,可以實(shí)現(xiàn)對于單張靜態(tài)人臉圖像的高精度表情識別。本發(fā)明有兩個(gè)主要?jiǎng)?chuàng)新點(diǎn):第一個(gè)創(chuàng)新點(diǎn)是設(shè)計(jì)了一種端到端可訓(xùn)練的多通道深度神經(jīng)網(wǎng)絡(luò)模型。該模型在低層利用多個(gè)并聯(lián)的深度神經(jīng)網(wǎng)絡(luò)分別提取人臉表情圖像的深度時(shí)空特征,然后在高層使用全連接層對多通道深度時(shí)空特征數(shù)據(jù)進(jìn)行融合,最高層采用softmax層進(jìn)行識別,得到表情分類。該模型將圖像特征提取和特征融合整合為一個(gè)可以進(jìn)行全局訓(xùn)練的網(wǎng)絡(luò),加深了網(wǎng)絡(luò)規(guī)模,提高了識別性能。第二個(gè)創(chuàng)新點(diǎn)是本發(fā)明使用平均臉來替代中性臉。平均臉可以由大量人臉圖像進(jìn)行加權(quán)平均獲得。這種做法解決了測試時(shí)表情圖像缺少對應(yīng)的中性臉圖像的問題,使得本發(fā)明可以滿足實(shí)際場合的應(yīng)用。綜上所述,本發(fā)明提供了一種新型,魯棒,高精度的人臉表情識別方法,在表情識別領(lǐng)域提供了一種新的思路,具有很高的實(shí)用價(jià)值和發(fā)展前景。
本發(fā)明一種基于深度時(shí)空特征融合的高精度面部表情識別方法,具體步驟如下:
步驟a:設(shè)計(jì)一種多通道卷積神經(jīng)網(wǎng)絡(luò)(multi-channelconvolutionneuralnetwork,mccnn)模型。
mccnn模型的詳細(xì)架構(gòu)如下:
a.1,mccnn模型總共包含三通道輸入,分別接受表情臉圖像、x方向光流特征圖像和y方向光流特征圖像;
a.2,mccnn模型總共包含63層網(wǎng)絡(luò),前60層分別是三路獨(dú)立并行的卷積神經(jīng)網(wǎng)絡(luò),用來提取三通道輸入的深度時(shí)空特征;后面2層是全連接層,用來對前序三通道提取的深度時(shí)空特征進(jìn)行融合;最后一層為softmax層,這一層為6類輸出,分別是高興、驚訝、厭惡、憤怒、恐懼、悲傷6種表情;
a.3,三路獨(dú)立并行的卷積神經(jīng)網(wǎng)絡(luò)分別對應(yīng)三通道輸入,每路均為20層且網(wǎng)絡(luò)結(jié)構(gòu)完全一致,前4層分別是7×7核的卷積層、3×3的最大值池化層、1×1核的卷積層以及3×3核的卷積層,這樣可以將較大的輸入圖像快速降維;剩下16層是由4個(gè)融合卷積模塊組成,每個(gè)融合卷積模塊分別設(shè)計(jì)有4層,分別是3×3最大值池化層,并行的4個(gè)卷積層包含1×1,1×1,1×1,3×3,并行的3個(gè)卷積層包含3×3核卷積,5×5核卷積,3×3最大值池化,最后一層融合前面層的輸出,融合卷積層可以更好的利用不同的卷積核提取到不同的特征。
步驟b:訓(xùn)練步驟a中的mccnn模型,其中,訓(xùn)練集采用stanford(斯坦福大學(xué))發(fā)布的大規(guī)模圖像數(shù)據(jù)集imagenet中的1000類圖像作為訓(xùn)練樣本,對mccnn模型進(jìn)行預(yù)訓(xùn)練,獲得mccnn模型的初始參數(shù)。
步驟c:對公開的人臉表情數(shù)據(jù)庫中的圖像集進(jìn)行處理后,作為對步驟b中預(yù)訓(xùn)練完成的mccnn模型進(jìn)行遷移學(xué)習(xí)的訓(xùn)練樣本。
1,對公開的人臉表情數(shù)據(jù)庫中的圖像集iraw進(jìn)行人臉檢測和配準(zhǔn)處理,獲得配準(zhǔn)后的人臉表情圖像集iface。
本發(fā)明中,首先,利用人臉檢測器,對公開的人臉表情數(shù)據(jù)庫中的圖像集iraw中的所有圖像進(jìn)行人臉檢測,截取人臉區(qū)域;然后,利用人臉關(guān)鍵點(diǎn)進(jìn)行人臉配準(zhǔn)處理,得到配準(zhǔn)后的人臉表情圖像集iface。
2,對步驟b得到的iface中的中性臉圖像進(jìn)行分組,并對每組中的圖像進(jìn)行求和平均,得到相應(yīng)的平均臉圖像集imean;其中,分組的方法為:首先根據(jù)不同膚色進(jìn)行分組,然后在按膚色分組的基礎(chǔ)上根據(jù)不同性別進(jìn)行分組,最后在按性別分組的基礎(chǔ)上根據(jù)不同年齡進(jìn)行分組。
本發(fā)明中,首先將iface中的中性臉圖像根據(jù)黃、白、黑三種膚色分為3組;然后,根據(jù)男、女性別進(jìn)一步分為6組;最后,根據(jù)老、中、青、幼四種年齡最終分為24組。
3,利用基于梯度的光流算法求出步驟b得到的iface中的圖像相對于步驟c中得到的imean中對應(yīng)平均臉圖像的x、y方向的光流特征圖像iofx、iofy。
步驟d:利用前述得到的iface以及其對應(yīng)的iofx、iofy,對預(yù)訓(xùn)練完成的mccnn模型進(jìn)行遷移學(xué)習(xí),使訓(xùn)練后的mccnn模型能有效地?cái)M合面部表情數(shù)據(jù)的概率分布。
步驟e:用測試圖像進(jìn)行測試:將一張用于測試的人臉圖像itest經(jīng)過檢測和配準(zhǔn)處理得到itface,利用基于梯度的光流算法求出相對于其對應(yīng)平均臉圖像的x、y方向的光流特征圖像itofx、itofy,將itface、itofx、itofy輸入到mccnn模型中進(jìn)行前向推導(dǎo),最終得到輸入人臉圖像的表情類別。
以上所述,僅為本發(fā)明中的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。