亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種針對(duì)卡通人物面部表情的識(shí)別方法與流程

文檔序號(hào):11262143閱讀:962來源:國(guó)知局
一種針對(duì)卡通人物面部表情的識(shí)別方法與流程
本發(fā)明涉及圖像識(shí)別和機(jī)器學(xué)習(xí)
技術(shù)領(lǐng)域
,特別涉及一種針對(duì)卡通人物面部表情的識(shí)別方法。
背景技術(shù)
:人臉表情識(shí)別技術(shù)是指從的圖像或者視頻中,提取出特定的表情狀態(tài)。隨著技術(shù)的發(fā)展與人臉表情庫(kù)的豐富,人臉表情識(shí)別技術(shù)也日漸成熟和準(zhǔn)確。人臉表情識(shí)別技術(shù)的關(guān)鍵步驟是表情特征提取,通過大量的已有人臉表情數(shù)據(jù)庫(kù)作為基礎(chǔ),再采用特征提取的方法從數(shù)據(jù)庫(kù)中提取表情特征,最終實(shí)現(xiàn)人臉表情分類。高效穩(wěn)定并具有高準(zhǔn)確率的人臉表情識(shí)別系統(tǒng)在生活和工業(yè)界都具有巨大的實(shí)用價(jià)值??ㄍ▌?dòng)畫技術(shù)的發(fā)展已有百年歷程,尤其近些年卡通動(dòng)畫行業(yè)空前繁榮,各色卡通形象層出不窮。隨著技術(shù)的成熟,動(dòng)畫角色的表情也愈加生動(dòng),而卡通人物的表情基本上是由人臉表情演化而來,同時(shí)具有卡通形象自身的特色。1971年,心理學(xué)家ekman與friesen的研究提出了人類的六種主要情感,每種情感以唯一的表情來反映一種獨(dú)特的心理活動(dòng),分別為憤怒、高興、悲傷、驚訝、厭惡和中性。在當(dāng)代成熟的動(dòng)畫技術(shù)下,卡通人物面部表情基本可以涵蓋真實(shí)人類所擁有所有表情??ㄍㄈ宋锏谋砬樽R(shí)別,是將人臉表情識(shí)別技術(shù)與卡通動(dòng)畫技術(shù)相結(jié)合,是人臉表情識(shí)別技術(shù)在卡通動(dòng)畫產(chǎn)業(yè)的重要應(yīng)用,依靠深度學(xué)習(xí)和特征提取等手段,對(duì)卡通人物的表情進(jìn)行捕捉與檢測(cè),將會(huì)在卡通動(dòng)畫與影視界產(chǎn)生巨大的應(yīng)用價(jià)值。目前針對(duì)人臉表情識(shí)別的研究已經(jīng)有很多,但是在卡通動(dòng)畫人物面部表情方面進(jìn)行專門優(yōu)化和應(yīng)用的技術(shù)并不常見。深度學(xué)習(xí)技術(shù)源于人工神經(jīng)網(wǎng)絡(luò)的研究。一種常見的深度學(xué)習(xí)結(jié)構(gòu)包括含多隱層的多層感知器。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。同機(jī)器學(xué)習(xí)方法一樣,深度學(xué)習(xí)方法也有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之分.不同的學(xué)習(xí)框架下建立的學(xué)習(xí)模型很是不同。例如,卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks,cnns)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,而深度置信網(wǎng)(deepbeliefnets,dbns)就是一種無監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種針對(duì)卡通人物面部表情的識(shí)別方法,可以明顯提升卡通人物表情識(shí)別的準(zhǔn)確率。本發(fā)明的目的通過以下的技術(shù)方案實(shí)現(xiàn):一種針對(duì)卡通人物面部表情的識(shí)別方法,包括以下步驟:訓(xùn)練階段:s1、從卡通人物表情數(shù)據(jù)庫(kù)ferg中提取各個(gè)卡通人物角色表情建立圖庫(kù),并對(duì)圖庫(kù)進(jìn)行分類整合,將卡通人物面部表情分為憤怒、高興、悲傷、驚訝、厭惡和中性六類;s2、對(duì)卡通人物表情圖片進(jìn)行預(yù)處理;s3、將預(yù)處理后的圖片分為測(cè)試樣本和訓(xùn)練樣本兩個(gè)部分,再將訓(xùn)練集與測(cè)試集分別轉(zhuǎn)為lmdb格式;s4、用得到的訓(xùn)練集和測(cè)試集對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;經(jīng)訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)在識(shí)別階段,將數(shù)據(jù)層輸入的lmdb類型的數(shù)據(jù)改為用dim參數(shù)描述的數(shù)據(jù)輸入;將原訓(xùn)練網(wǎng)絡(luò)的輸出層softmaxwithloss改為softmax,輸出由loss改為輸出prob;識(shí)別階段:s5、選取待識(shí)別卡通人物面部表情的圖像;s6、對(duì)該圖像進(jìn)行預(yù)處理;s7、將預(yù)處理后的圖像與經(jīng)訓(xùn)練得到的適用于卡通人物面部表情卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征匹配;s8、通過已經(jīng)訓(xùn)練完成的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)動(dòng)畫卡通人物圖片進(jìn)行識(shí)別,并輸出識(shí)別結(jié)果。優(yōu)選的,對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),學(xué)習(xí)率的初始值設(shè)定為0.0001,采用“step”的策略,每訓(xùn)練4000次,學(xué)習(xí)率減小0.00001,訓(xùn)練網(wǎng)絡(luò)的最大迭代次數(shù)設(shè)置為100000次。優(yōu)選的,深度卷積神經(jīng)網(wǎng)絡(luò)具體結(jié)構(gòu)包括:數(shù)據(jù)層-卷積層1-局部響應(yīng)歸一化層1-池化層1-卷積層2-池化層2-局部響應(yīng)歸一化層2-卷積層3-卷積層4-池化層4-多個(gè)全連接層,在最后一個(gè)全連接層的頂部加上描述網(wǎng)絡(luò)當(dāng)前訓(xùn)練特征的accuracy層和loss層,同時(shí),作為最底層的數(shù)據(jù)層也直接輸出到accuracy和loss層。具體的,對(duì)于所有的卷積層和/或全連接層采用relu作為激活函數(shù)來引入非線性。具體的,深度卷積神經(jīng)網(wǎng)絡(luò)中,選用最大池化和平均池化交替的池化方式。進(jìn)一步的,池化層1采用最大池化,池化層2采用平均池化,池化層4采用最大池化。池化層1池化窗口大小為3,池化步長(zhǎng)選用1。具體的,在全連接層上加上dropout層,對(duì)于神經(jīng)網(wǎng)絡(luò)單元以一定的概率將其暫時(shí)丟棄。具體的,深度卷積神經(jīng)網(wǎng)絡(luò)中包括3個(gè)依次連接的全連接層。具體的,accuracy層:輸出準(zhǔn)確率,每訓(xùn)練100次對(duì)網(wǎng)絡(luò)進(jìn)行一次測(cè)試,以80為測(cè)試迭代數(shù)量;loss層:輸出loss,通過loss的變化趨勢(shì),可以判斷網(wǎng)絡(luò)當(dāng)前訓(xùn)練的狀態(tài)。優(yōu)選的,對(duì)于訓(xùn)練集和測(cè)試集以一定批量大小,將預(yù)處理好的卡通人物面部表情數(shù)據(jù)集提取文件名及標(biāo)簽,以帶標(biāo)簽的數(shù)據(jù)集作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入。優(yōu)選的,步驟s2和步驟s6中對(duì)圖片進(jìn)行預(yù)處理包括:處理得到256*256像素的圖像,并將彩色圖片轉(zhuǎn)化為灰度值在[0,255]的灰白圖像。優(yōu)選的,步驟s3中測(cè)試樣本數(shù)量占整體圖庫(kù)數(shù)量的8%-12%。優(yōu)選的,步驟s5中對(duì)動(dòng)畫卡通人物圖片進(jìn)行識(shí)別之前先進(jìn)行校準(zhǔn)。本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:本發(fā)明結(jié)合了深度學(xué)習(xí)與圖像識(shí)別技術(shù),針對(duì)卡通人物,可以明顯提升表情識(shí)別的準(zhǔn)確率,即便對(duì)于差異巨大的不同卡通角色,圖像分辨率較低的情況下,仍具有較為滿意的表情識(shí)別率,擁有較強(qiáng)的實(shí)用性。本發(fā)明可用于任何多種終端設(shè)備,例如個(gè)人電腦,口袋計(jì)算機(jī),筆記本電腦,智能手機(jī)等。附圖說明圖1是實(shí)施例中卡通人物表情識(shí)別流程圖;圖2是訓(xùn)練模型所采用的卡通人物面部表情數(shù)據(jù)庫(kù)的圖像示例;圖3是識(shí)別所用卷積神經(jīng)網(wǎng)絡(luò)的具體結(jié)構(gòu)圖;圖4是測(cè)試所選用卡通人物面部表情的圖像示例。具體實(shí)施方式下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。一種針對(duì)卡通人物面部表情的識(shí)別方法,如圖1所示,將人臉表情識(shí)別技術(shù)與卡通動(dòng)畫產(chǎn)業(yè)中的動(dòng)畫角色面部表情相結(jié)合,為其量身定做專門的識(shí)別方法,能夠保證一定的穩(wěn)定性和準(zhǔn)確率,該方法適用于各類場(chǎng)合和終端設(shè)備,包括個(gè)人電腦,口袋計(jì)算機(jī),筆記本電腦,智能手機(jī)等。具體的,該方法包括以下步驟:步驟1、從卡通人物表情數(shù)據(jù)庫(kù)ferg中提取各個(gè)卡通人物角色表情建立圖庫(kù),其圖像示例如圖2,并對(duì)圖庫(kù)進(jìn)行分類整合,將卡通人物面部表情分為憤怒、高興、悲傷、驚訝、厭惡和中性六類。步驟2、對(duì)卡通人物表情圖片進(jìn)行預(yù)處理,得到256*256像素的圖像,并將彩色圖片轉(zhuǎn)化為灰度值在[0,255]的灰白圖像。步驟3、將處理后的圖片分為測(cè)試樣本和訓(xùn)練樣本兩個(gè)部分,測(cè)試樣本數(shù)量占整體圖庫(kù)數(shù)量的8%-12%,再將訓(xùn)練集與測(cè)試集分別轉(zhuǎn)為lmdb格式。步驟4、用得到的訓(xùn)練集和測(cè)試集對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)(cnn)進(jìn)行訓(xùn)練,學(xué)習(xí)率的初始值設(shè)定為0.0001,采用“step”的策略,每訓(xùn)練4000次,學(xué)習(xí)率減小0.00001,以更好地適應(yīng)卡通人物面部表情識(shí)別過程,訓(xùn)練網(wǎng)絡(luò)的最大迭代次數(shù)設(shè)置為100000次。所述深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖3所示,具體網(wǎng)絡(luò)結(jié)構(gòu)包括:數(shù)據(jù)層:對(duì)于訓(xùn)練集以32為批量大小,對(duì)測(cè)試集以4為批量大小。將預(yù)處理好的卡通人物面部表情數(shù)據(jù)集提取文件名及標(biāo)簽,以帶標(biāo)簽的數(shù)據(jù)集作為數(shù)據(jù)層的輸入。數(shù)據(jù)層作整個(gè)網(wǎng)絡(luò)的底層。以卷積層1作為數(shù)據(jù)層的頂層,卷積核的大小為11,以4為卷積核步長(zhǎng)。在卷積層1的頂部加上局部響應(yīng)歸一化層(localresponsenormalization,lrn)norm1;所述局部響應(yīng)歸一化層有利于提高網(wǎng)絡(luò)訓(xùn)練性能。對(duì)于卷積層1采用relu作為激活函數(shù)來引入非線性。以池化層1作為局部響應(yīng)歸一化層1的頂層,池化窗口大小為3,采用最大池化的池化方式,池化步長(zhǎng)選用1。池化步長(zhǎng)設(shè)置為最小值雖然會(huì)耗費(fèi)更多的訓(xùn)練時(shí)間與硬件資源,卻能取得最高的訓(xùn)練準(zhǔn)確率精度。在本網(wǎng)絡(luò)中,選用交替的池化方式,即池化層不單單選用最大池化或是平均池化中的一種,而是結(jié)合這兩種池化方式。以卷積層2作為池化層1的頂層,卷積核的大小為7。對(duì)于卷積層2采用relu作為激活函數(shù)來引入非線性。以池化層2作為卷積層2的頂部,采用平均池化作為池化方式,池化窗口大小為3,以2作為池化步長(zhǎng)。在池化層2的頂部加上局部響應(yīng)歸一化層norm2。以卷積層3作為norm2層的頂層,卷積層3的卷積核大小為3。對(duì)于卷積層3采用relu作為激活函數(shù)來引入非線性。以卷積層4作為卷積層3的頂層,卷積層4的卷積核大小為3。以池化層4作為卷積層4的頂層,池化層4的池化方式是最大池化,池化窗口大小為3,以2為池化步長(zhǎng)。以全連接層5(ip5)作為池化層4的頂層,全連接層5的輸出為4096,為了防止由于數(shù)據(jù)過少而造成的過擬合,在所述全連接層上加上dropout層,對(duì)于神經(jīng)網(wǎng)絡(luò)單元以0.5的概率將其暫時(shí)丟棄。以全連接層6(ip6)作為全連接層5(ip5)的頂層,全連接層6的輸出為4096,類似的,同樣在全連接層6上加上dropout層。以全連接層7(ip7)作為全連接層6(ip6)的頂層。全連接層7(ip7)的輸出為6,即將數(shù)據(jù)集輸入分為六類。在最后一個(gè)全連接層的頂部加上描述網(wǎng)絡(luò)當(dāng)前訓(xùn)練特征的accuracy層和loss層。accuracy層:輸出準(zhǔn)確率,每訓(xùn)練100次對(duì)網(wǎng)絡(luò)進(jìn)行一次測(cè)試,以80為測(cè)試迭代數(shù)量。loss層:輸出loss,通過loss的變化趨勢(shì),可以判斷網(wǎng)絡(luò)當(dāng)前訓(xùn)練的狀態(tài)。當(dāng)trainloss和testloss都不斷下降時(shí),說明網(wǎng)絡(luò)仍在認(rèn)真學(xué)習(xí)。同時(shí),作為最底層的數(shù)據(jù)層也直接輸出到accuracy和loss層。通過經(jīng)訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對(duì)具體卡通人物圖像的識(shí)別:將數(shù)據(jù)層輸入的lmdb類型的數(shù)據(jù)改為用4個(gè)dim參數(shù)描述的數(shù)據(jù)輸入。將原訓(xùn)練網(wǎng)絡(luò)的輸出層softmaxwithloss改為softmax,訓(xùn)練時(shí)輸出的是loss,測(cè)試時(shí)改為輸出prob。步驟5、通過已經(jīng)訓(xùn)練完成的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)校準(zhǔn)后的動(dòng)畫卡通人物圖片進(jìn)行識(shí)別,并輸出識(shí)別結(jié)果,結(jié)果以文本格式顯示在屏幕上,只顯示概率最高的五種表情所對(duì)應(yīng)的概率,并由高到低排序;具體的:用戶上傳一張卡通人物的面部表情圖像;任何當(dāng)代常規(guī)動(dòng)畫人物均可使用,該圖像展示了該人物的一種常規(guī)表情(符合模型要求的憤怒、高興、悲傷、驚訝、厭惡和恐懼六種表情之一)。隨機(jī)選擇兩張卡通人物面部表情圖片,具體圖片可參照?qǐng)D4,分別為一個(gè)展示生氣表情的卡通人物和一個(gè)展示開心表情的卡通人物。對(duì)該圖像進(jìn)行預(yù)處理,轉(zhuǎn)化為標(biāo)準(zhǔn)格式圖片,即得到256*256像素的圖像,并將彩色圖片轉(zhuǎn)化為灰度值在[0,255]的灰白圖像,以便之后的識(shí)別工作。通過已訓(xùn)練完成的深度卷積神經(jīng)網(wǎng)絡(luò),對(duì)格式標(biāo)準(zhǔn)化的輸入圖片進(jìn)行識(shí)別;輸出識(shí)別結(jié)果,結(jié)果的呈現(xiàn)格式即前五類表情所占有的概率。所選的兩張圖片均得到了令人滿意的識(shí)別效果,具體識(shí)別結(jié)果可參照下表:表1隨機(jī)選擇兩張卡通人物面部表情圖片的識(shí)別結(jié)果針對(duì)訓(xùn)練所用的ferg圖庫(kù)的六類表情分別測(cè)試的測(cè)試結(jié)果如下表所示:表2針對(duì)訓(xùn)練所用的ferg圖庫(kù)的六類表情分別測(cè)試的測(cè)試結(jié)果憤怒高興悲傷驚訝厭惡中性憤怒0.98070.00140.00060.00010.00290.0143高興0.00000.92060.00680.00010.00040.0722悲傷0.00000.00150.87110.00000.12580.0016驚訝0.00000.00010.05060.93940.00010.0008厭惡0.00020.00210.09580.03960.86150.0008中性0.00020.08560.02150.00110.00930.8806經(jīng)過測(cè)試發(fā)現(xiàn),即使是對(duì)于各種差異較大的人物角色,表情識(shí)別都具有相當(dāng)高的準(zhǔn)確率,具有較強(qiáng)的實(shí)用性。上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1