本發(fā)明涉及多媒體技術(shù)領(lǐng)域,特別是涉及一種情感識(shí)別方法及裝置。
背景技術(shù):
隨著人工智能技術(shù)的迅速發(fā)展,情感識(shí)別能夠通過畫面和聲音判斷人物情緒,讓機(jī)器真正“懂”用戶,這將極大促進(jìn)視頻理解、人機(jī)交互等智能領(lǐng)域的發(fā)展。情感識(shí)別是視頻畫面情感、音頻情感識(shí)別等多個(gè)領(lǐng)域技術(shù)的綜合體。視頻畫面情感識(shí)別利用人工智能的算法,通過視頻畫面中人物表情、動(dòng)作和姿態(tài)等信息識(shí)別出人物情緒。而音頻情感識(shí)別主要根據(jù)人在不同情感下語音信號(hào)的非平穩(wěn)性特征,通過提取語音的音質(zhì)、韻律、頻譜等聲學(xué)特征,來判斷情緒變化。
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(cnn,convolutionalneuralnetworks)能提取出圖像的外觀特征,在圖像識(shí)別領(lǐng)域取得了很好的效果。然而,cnn只能處理單張圖像。因此,先通過cnn提取視頻每幀圖像的外觀特征,再通過遞歸神經(jīng)網(wǎng)絡(luò)(rnn,recurrentneuralnetwork)提取圖像序列的時(shí)間特征,通過視頻的外觀特征和時(shí)間特征識(shí)別視頻的情感。其中,情感類型可以分為憤怒、惡心、害怕、高興、悲傷、驚訝和中立七種基本情感。目前,由于帶有情感標(biāo)注的數(shù)據(jù)量少,rnn情感識(shí)別尤其是某幾類情感(如惡心、驚訝)識(shí)別的準(zhǔn)確度較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的目的在于提供一種情感識(shí)別方法及裝置,以提高視頻情感識(shí)別的準(zhǔn)確度。具體技術(shù)方案如下:
本發(fā)明實(shí)施例公開了一種情感識(shí)別方法,包括:
通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征,得到第一情感結(jié)果;
通過預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別所述待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征,得到第二情感結(jié)果;
在得到所述第一情感結(jié)果及所述第二情感結(jié)果時(shí),對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果進(jìn)行融合計(jì)算,得到所述待識(shí)別視頻的融合結(jié)果;
根據(jù)所述融合結(jié)果中的最大值,通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系,得到所述待識(shí)別視頻的情感類型。
可選的,位于所述通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征,之前,所述方法還包括:
對(duì)所述待識(shí)別視頻進(jìn)行預(yù)處理,得到所述待識(shí)別視頻的幀序列。
可選的,位于所述通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征,之前,所述方法還包括:
通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)fer2013數(shù)據(jù)庫中的具有基本表情的人臉圖像進(jìn)行訓(xùn)練,建立卷積神經(jīng)網(wǎng)絡(luò)模型;
通過遞歸神經(jīng)網(wǎng)絡(luò)對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型的外觀特征進(jìn)行訓(xùn)練,建立遞歸神經(jīng)網(wǎng)絡(luò)模型;
通過三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)afew6.0數(shù)據(jù)庫中的具有基本表情的視頻片段進(jìn)行訓(xùn)練,得到三維卷積神經(jīng)網(wǎng)絡(luò)模型。
可選的,所述對(duì)所述待識(shí)別視頻進(jìn)行預(yù)處理,得到所述待識(shí)別視頻的幀序列的步驟,包括:
對(duì)所述待識(shí)別視頻中的每一幀圖片做仿射變換,得到所述幀序列。
可選的,所述對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果進(jìn)行融合計(jì)算,得到所述待識(shí)別視頻的融合結(jié)果的步驟,包括:
根據(jù)公式:wvideo=a1×wcnn-rnn+(1-a1)×wc3d,
得到融合結(jié)果wvideo,其中,wcnn-rnn為所述第一情感結(jié)果,wc3d為所述第二情感結(jié)果,a1為第一情感結(jié)果參數(shù),1-a1為第二情感結(jié)果參數(shù),a1為大于0且小于1的數(shù)值。
可選的,位于所述對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果進(jìn)行融合計(jì)算,之前,所述方法還包括:
提取所述待識(shí)別視頻的音頻特征,通過支持向量機(jī)模型識(shí)別所述音頻特征,得到音頻情感結(jié)果;
在得到所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果時(shí),對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果進(jìn)行融合計(jì)算,得到所述待識(shí)別視頻的融合結(jié)果。
可選的,所述對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果進(jìn)行融合計(jì)算,得到所述待識(shí)別視頻的融合結(jié)果的步驟,包括:
根據(jù)公式:
wvideo=w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio,得到融合結(jié)果wvideo,
其中,wcnn-rnn為所述第一情感結(jié)果,wc3d為所述第二情感結(jié)果,waudio為所述音頻情感結(jié)果,w1為第一情感結(jié)果參數(shù),w2為第二情感結(jié)果參數(shù),1-w1-w2為音頻情感結(jié)果參數(shù),w1、w2和w1+w2為大于0且小于1的數(shù)值。
本發(fā)明實(shí)施例還公開了一種情感識(shí)別裝置,包括:
第一情感結(jié)果模塊,用于通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征,得到第一情感結(jié)果;
第二情感結(jié)果模塊,用于通過預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別所述待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征,得到第二情感結(jié)果;
融合結(jié)果模塊,用于在得到所述第一情感結(jié)果及所述第二情感結(jié)果時(shí),對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果進(jìn)行融合計(jì)算,得到所述待識(shí)別視頻的融合結(jié)果;
情感類型模塊,用于根據(jù)所述融合結(jié)果中的最大值,通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系,得到所述待識(shí)別視頻的情感類型。
可選的,本發(fā)明實(shí)施例的情感識(shí)別裝置,還包括:
預(yù)處理模塊,用于對(duì)所述待識(shí)別視頻進(jìn)行預(yù)處理,得到所述待識(shí)別視頻的幀序列。
可選的,本發(fā)明實(shí)施例的情感識(shí)別裝置,還包括:
卷積神經(jīng)網(wǎng)絡(luò)模型建立模塊,用于通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)fer2013數(shù)據(jù)庫中的具有基本表情的人臉圖像進(jìn)行訓(xùn)練,建立卷積神經(jīng)網(wǎng)絡(luò)模型;
遞歸神經(jīng)網(wǎng)絡(luò)模型建立模塊,用于通過遞歸神經(jīng)網(wǎng)絡(luò)對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型的外觀特征進(jìn)行訓(xùn)練,建立遞歸神經(jīng)網(wǎng)絡(luò)模型;
三維卷積神經(jīng)網(wǎng)絡(luò)模型建立模塊,用于通過三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)afew6.0數(shù)據(jù)庫中的具有基本表情的視頻片段進(jìn)行訓(xùn)練,得到三維卷積神經(jīng)網(wǎng)絡(luò)模型。
可選的,所述預(yù)處理模塊具體用于對(duì)所述待識(shí)別視頻中的每一幀圖片做仿射變換,得到所述幀序列。
可選的,所述融合結(jié)果模塊具體用于,根據(jù)公式:
wvideo=a1×wcnn-rnn+(1-a1)×wc3d,
得到融合結(jié)果wvideo,其中,wcnn-rnn為所述第一情感結(jié)果,wc3d為所述第二情感結(jié)果,a1為第一情感結(jié)果參數(shù),1-a1為第二情感結(jié)果參數(shù),a1為大于0且小于1的數(shù)值。
可選的,本發(fā)明實(shí)施例的情感識(shí)別裝置,還包括:
音頻情感結(jié)果模塊,用于提取所述待識(shí)別視頻的音頻特征,通過支持向量機(jī)模型識(shí)別所述音頻特征,得到音頻情感結(jié)果;
所述融合結(jié)果模塊還用于,在得到所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果時(shí),對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果進(jìn)行融合計(jì)算,得到所述待識(shí)別視頻的融合結(jié)果。
可選的,融合結(jié)果模塊具體用于,根據(jù)公式:
wvideo=w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio,得到融合結(jié)果wvideo,
其中,wcnn-rnn為所述第一情感結(jié)果,wc3d為所述第二情感結(jié)果,waudio為所述音頻情感結(jié)果,w1為第一情感結(jié)果參數(shù),w2為第二情感結(jié)果參數(shù),1-w1-w2為音頻情感結(jié)果參數(shù),w1、w2和w1+w2為大于0且小于1的數(shù)值。
本發(fā)明實(shí)施例提供的情感識(shí)別方法及裝置,通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征,得到第一情感結(jié)果;通過預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征,得到第二情感結(jié)果;對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算,得到待識(shí)別視頻的融合結(jié)果;根據(jù)融合結(jié)果中的最大值,通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系,得到待識(shí)別視頻的情感類型。本發(fā)明實(shí)施例通過將遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,提高了識(shí)別視頻情感類型的準(zhǔn)確度。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例的情感識(shí)別方法的一種流程圖;
圖2為本發(fā)明實(shí)施例的情感識(shí)別方法的另一種流程圖;
圖3為本發(fā)明實(shí)施例的情感識(shí)別方法的另一種流程圖;
圖4為本發(fā)明實(shí)施例的情感識(shí)別裝置的一種結(jié)構(gòu)圖;
圖5為本發(fā)明實(shí)施例的情感識(shí)別裝置的另一種結(jié)構(gòu)圖;
圖6為本發(fā)明實(shí)施例的情感識(shí)別裝置的另一種結(jié)構(gòu)圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
目前,通過遞歸神經(jīng)網(wǎng)絡(luò)可以識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征,對(duì)視頻的情感類型做出識(shí)別。但是,該方法對(duì)于部分微表情識(shí)別的準(zhǔn)確度比較低。因此,本發(fā)明實(shí)施例公開了一種情感識(shí)別方法及裝置,下面首先對(duì)情感識(shí)別方法進(jìn)行詳細(xì)說明。
參見圖1,圖1為本發(fā)明實(shí)施例的情感識(shí)別方法的一種流程圖,包括以下步驟:
s101,通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征,得到第一情感結(jié)果。
本發(fā)明實(shí)施例中,遞歸神經(jīng)網(wǎng)絡(luò)模型首先通過卷積神經(jīng)網(wǎng)絡(luò)提取視頻的每一幀圖片的外觀特征,其中,外觀特征可以包括:顏色特征、紋理特征、形狀特征、空間關(guān)系特征等。然后將外觀特征作為遞歸神經(jīng)網(wǎng)絡(luò)的輸入,通過遞歸神經(jīng)網(wǎng)絡(luò)提取視頻的幀序列的時(shí)間特征,時(shí)間特征可以包括:幀序列中每一幀圖片的時(shí)間,即幀圖片之間的互連關(guān)系。通過遞歸神經(jīng)網(wǎng)絡(luò)模型,根據(jù)外觀特征和時(shí)間特征,得到第一情感結(jié)果。
其中,遞歸神經(jīng)網(wǎng)絡(luò)模型包括:視頻和情感向量的對(duì)應(yīng)關(guān)系,視頻也就是圖片序列,情感向量為連續(xù)的幾個(gè)數(shù)值,且數(shù)值的和為1。例如,基本情感類型為7種,分別為憤怒、惡心、害怕、高興、悲傷、驚訝和中立。那么,輸出的情感向量為7個(gè)數(shù)值,這7個(gè)數(shù)值分別對(duì)應(yīng)憤怒、惡心、害怕、高興、悲傷、驚訝和中立的概率,當(dāng)然,這7個(gè)數(shù)值的和為1。因此,通過遞歸神經(jīng)網(wǎng)絡(luò)模型可以根據(jù)輸入的視頻得到該視頻對(duì)應(yīng)輸出的情感向量,即,7種情感類型的概率。相應(yīng)地,得到的第一情感結(jié)果即為7種情感類型的概率。
s102,通過預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征,得到第二情感結(jié)果。
與s101相同的是,三維卷積神經(jīng)網(wǎng)絡(luò)模型包括:視頻和情感向量的對(duì)應(yīng)關(guān)系。但是,三維卷積神經(jīng)網(wǎng)絡(luò)可同時(shí)提取視頻的幀序列的外觀特征和時(shí)間特征,因此,三維卷積神經(jīng)網(wǎng)絡(luò)可以捕捉到微表情的細(xì)微變化,從而識(shí)別某些微表情,例如:惡心、驚訝等,進(jìn)而提高情感識(shí)別的準(zhǔn)確度。
s103,在得到第一情感結(jié)果及第二情感結(jié)果時(shí),對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算,得到待識(shí)別視頻的融合結(jié)果。
需要說明的是,通過遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型都可以得到視頻對(duì)應(yīng)的情感類型,由于遞歸神經(jīng)網(wǎng)絡(luò)模型對(duì)高興和憤怒等較明顯的表情具有很好的識(shí)別性能,三維卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)微表情具有很好的識(shí)別性能,可以將兩種模型進(jìn)行互補(bǔ),即,將兩種結(jié)果進(jìn)行融合計(jì)算,得到準(zhǔn)確度更高的待識(shí)別視頻的融合結(jié)果。
s104,根據(jù)融合結(jié)果中的最大值,通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系,得到待識(shí)別視頻的情感類型。
由s101和s102可知,第一情感結(jié)果和第二情感結(jié)果都為情感向量,那么,通過兩種模型的融合,得到的融合結(jié)果也為情感向量。而融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系是預(yù)先建立的,例如,該對(duì)應(yīng)關(guān)系為:融合結(jié)果為情感向量,該情感向量中的7個(gè)數(shù)值依次和憤怒、惡心、害怕、高興、悲傷、驚訝、中立相對(duì)應(yīng),如果融合結(jié)果為:0.1、0.15、0.1、0.1、0.2、0.1、0.25,則表明待識(shí)別視頻的情感類型中憤怒的概率為0.1,惡心的概率為0.15,害怕的概率為0.1、高興的概率為0.1,悲傷的概率為0.2,驚訝的概率為0.1,中立的概率為0.25。顯然,融合結(jié)果中的最大值為0.25,那么,最終得到的待識(shí)別視頻的情感類型為中立。
可見,本發(fā)明實(shí)施例的情感識(shí)別方法,通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型和預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型分別識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征,得到第一情感結(jié)果和第二情感結(jié)果;對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算,得到待識(shí)別視頻的融合結(jié)果;根據(jù)融合結(jié)果中的最大值,通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系,得到待識(shí)別視頻的情感類型。本發(fā)明實(shí)施例通過將遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,并將兩種模型得到的情感結(jié)果融合,提高了識(shí)別視頻情感類型的準(zhǔn)確度。
參見圖2,圖2為本發(fā)明實(shí)施例的情感識(shí)別方法的另一種流程圖,在圖1實(shí)施例的基礎(chǔ)上,還包括:
s201,對(duì)待識(shí)別視頻進(jìn)行預(yù)處理,得到待識(shí)別視頻的幀序列。
需要說明的是,本發(fā)明實(shí)施例識(shí)別的是視頻的情感類型,即,視頻的每一幀圖片中的人臉圖片的情感類型。而對(duì)于給定的視頻,不是每一幀圖片都可以直接提取人臉圖片的外觀特征,需要對(duì)視頻的每一幀圖片進(jìn)行預(yù)處理,即,檢測(cè)人臉圖片中的人臉關(guān)鍵點(diǎn),并根據(jù)人臉關(guān)鍵點(diǎn)做仿射變換,得到待識(shí)別視頻的幀序列,進(jìn)而提取待識(shí)別視頻的幀序列的外觀特征。
參見圖3,圖3為本發(fā)明實(shí)施例的情感識(shí)別方法的另一種流程圖,在圖1實(shí)施例的基礎(chǔ)上,還包括:
s301,通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)fer2013數(shù)據(jù)庫中的具有基本表情的人臉圖像進(jìn)行訓(xùn)練,建立卷積神經(jīng)網(wǎng)絡(luò)模型。
具體的,fer2013數(shù)據(jù)庫為包含七種基本表情的表情數(shù)據(jù)庫。由于fer2013數(shù)據(jù)庫的數(shù)據(jù)量小,因此,需要重新訓(xùn)練一個(gè)深度學(xué)習(xí)模型。即,通過卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練使得fer2013數(shù)據(jù)庫在人臉識(shí)別模型的基礎(chǔ)上做微調(diào),從而建立卷積神經(jīng)網(wǎng)絡(luò)模型。需要解釋的是,人臉識(shí)別模型為與表情無關(guān)的模型,這樣,機(jī)器不需要重新學(xué)習(xí),而可以直接對(duì)情感類型進(jìn)行分類,從而簡(jiǎn)化卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的過程。卷積神經(jīng)網(wǎng)絡(luò)模型包括:圖片和情感向量的對(duì)應(yīng)關(guān)系。
s302,通過遞歸神經(jīng)網(wǎng)絡(luò)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的外觀特征進(jìn)行訓(xùn)練,建立遞歸神經(jīng)網(wǎng)絡(luò)模型。
其中,卷積神經(jīng)網(wǎng)絡(luò)模型每次只能處理單張圖片,即,每次只能提取單張圖片的外觀特征,遞歸神經(jīng)網(wǎng)絡(luò)可以提取圖片序列的時(shí)間特征。那么,將卷積神經(jīng)網(wǎng)絡(luò)模型的外觀特征作為遞歸神經(jīng)網(wǎng)絡(luò)的輸入,與遞歸神經(jīng)網(wǎng)絡(luò)提取的時(shí)間特征相結(jié)合,通過訓(xùn)練,得到遞歸神經(jīng)網(wǎng)絡(luò)模型。遞歸神經(jīng)網(wǎng)絡(luò)模型中包括視頻和情感向量的對(duì)應(yīng)關(guān)系,使得輸入視頻時(shí),得到視頻對(duì)應(yīng)的情感類型。
s303,通過三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)afew6.0數(shù)據(jù)庫中的具有基本表情的視頻片段進(jìn)行訓(xùn)練,得到三維卷積神經(jīng)網(wǎng)絡(luò)模型。
具體的,afew6.0數(shù)據(jù)庫為包括七種基本表情視頻片段的數(shù)據(jù)庫,三維卷積神經(jīng)網(wǎng)絡(luò)可以同時(shí)提取視頻的每一幀圖片的外觀特征和視頻的幀序列的時(shí)間特征,通過三維卷積神經(jīng)網(wǎng)絡(luò)使得afew6.0數(shù)據(jù)庫在視頻識(shí)別模型的基礎(chǔ)上做微調(diào),從而建立三維卷積神經(jīng)網(wǎng)絡(luò)模型。三維卷積神經(jīng)網(wǎng)絡(luò)模型中包括視頻和情感向量的對(duì)應(yīng)關(guān)系,使得輸入視頻時(shí),得到視頻對(duì)應(yīng)的情感類型。
本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,對(duì)待識(shí)別視頻進(jìn)行預(yù)處理,得到待識(shí)別視頻的幀序列的步驟,包括:
對(duì)待識(shí)別視頻中的每一幀圖片做仿射變換,得到幀序列。
更為具體的,仿射變換在幾何上定義為兩個(gè)向量空間之間的一個(gè)仿射變換或者仿射映射,由一個(gè)非奇異的線性變換接上一個(gè)平移變換組成。圖片的仿射變換可以理解為圖片的平移、拉伸和壓縮等等。舉例而言,如果待識(shí)別視頻中的一幀圖片中人臉是傾斜的,可根據(jù)仿射變換將傾斜的人臉變換為平直的人臉,方便后續(xù)提取圖片中人臉的外觀特征。由于仿射變換屬于現(xiàn)有技術(shù),在此不再進(jìn)行詳細(xì)描述。當(dāng)然,其他可以實(shí)現(xiàn)提取圖片中人臉的外觀特征的方式也都是可以的,在此不做限定。
本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算,得到待識(shí)別視頻的融合結(jié)果的步驟,包括:
根據(jù)公式:wvideo=a1×wcnn-rnn+(1-a1)×wc3d,
得到融合結(jié)果wvideo,其中,wcnn-rnn為第一情感結(jié)果,wc3d為第二情感結(jié)果,a1為第一情感結(jié)果參數(shù),1-a1為第二情感結(jié)果參數(shù),a1為大于0且小于1的數(shù)值。
更為具體的,在得到第一情感結(jié)果和第二情感結(jié)果之后,將第一情感結(jié)果和第二情感結(jié)果進(jìn)行融合,得到待識(shí)別視頻的融合結(jié)果。需要說明的是,a1為通過驗(yàn)證得到的數(shù)值。首先,在評(píng)估遞歸神經(jīng)網(wǎng)絡(luò)模型或三維卷積神經(jīng)網(wǎng)絡(luò)模型時(shí),將具有情感類型的視頻樣本作為遞歸神經(jīng)網(wǎng)絡(luò)模型或三維卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,將通過遞歸神經(jīng)網(wǎng)絡(luò)模型或三維卷積神經(jīng)網(wǎng)絡(luò)模型得到的情感類型與已知的情感類型進(jìn)行對(duì)比,通過不斷調(diào)節(jié)遞歸神經(jīng)網(wǎng)絡(luò)模型或三維卷積神經(jīng)網(wǎng)絡(luò)模型內(nèi)部的參數(shù),使得遞歸神經(jīng)網(wǎng)絡(luò)模型或三維卷積神經(jīng)網(wǎng)絡(luò)模型最優(yōu)。然后,在遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合時(shí),將具有情感類型的視頻樣本作為遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,將通過遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型計(jì)算得到的情感類型和已知情感類型進(jìn)行對(duì)比,通過不斷調(diào)節(jié)a1,使得遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型兩種模型結(jié)合之后得到的結(jié)果達(dá)到最優(yōu),即,使得到的結(jié)果與已知結(jié)果最接近。
本發(fā)明實(shí)施例中,結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)模型對(duì)高興、憤怒等表情具有較高識(shí)別性的優(yōu)點(diǎn),以及三維卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)驚訝、惡心等微表情具有較高識(shí)別性的優(yōu)點(diǎn),得到待識(shí)別視頻最終的情感類型。因此,本發(fā)明實(shí)施例的情感識(shí)別方法識(shí)別視頻情感的準(zhǔn)確度更高。
可選的,位于對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算,之前,本發(fā)明實(shí)施例的情感識(shí)別方法還包括:
提取待識(shí)別視頻的音頻特征,通過支持向量機(jī)模型識(shí)別音頻特征,得到音頻情感結(jié)果。
在得到所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果時(shí),對(duì)第一情感結(jié)果、第二情感結(jié)果及音頻情感結(jié)果進(jìn)行融合計(jì)算,得到待識(shí)別視頻的融合結(jié)果。
需要說明的是,通過遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型兩種模型得到的情感類型,僅僅是通過對(duì)視頻中圖片的處理得到的,而視頻除了一幀一幀的圖片之外,還包括聲音。本發(fā)明實(shí)施例中,還可以提取視頻的音頻特征,通過對(duì)音頻的識(shí)別,得到音頻情感結(jié)果。其中,音頻特征包括:語速、振幅和音頻等。支持向量機(jī)模型為有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識(shí)別、分類以及回歸分析。當(dāng)然,該支持向量機(jī)模型也是通過訓(xùn)練得到的。同樣的,得到的音頻情感結(jié)果也為情感向量。
本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,對(duì)第一情感結(jié)果、第二情感結(jié)果及音頻情感結(jié)果進(jìn)行融合計(jì)算,得到待識(shí)別視頻的融合結(jié)果的步驟,包括:
根據(jù)公式:
wvideo=w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio,得到融合結(jié)果wvideo,w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio
其中,wcnn-rnn為第一情感結(jié)果,wc3d為第二情感結(jié)果,waudio為音頻情感結(jié)果,w1為第一情感結(jié)果參數(shù),w2為第二情感結(jié)果參數(shù),1-w1-w2為音頻情感結(jié)果參數(shù),w1、w2和w1+w2為大于0且小于1的數(shù)值。
在得到音頻情感結(jié)果之后,將音頻情感結(jié)果與第一情感結(jié)果、第二情感結(jié)果相融合,得到待識(shí)別視頻的融合結(jié)果。其中,w1和w2的選取方法與上述a1的選取方法相同,在此不再贅述。顯然,將音頻情感結(jié)果與第一情感結(jié)果以及第二情感結(jié)果結(jié)合,遞歸神經(jīng)網(wǎng)絡(luò)模型、三維卷積神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)模型中參數(shù)的訓(xùn)練過程將會(huì)復(fù)雜化,但是得到的情感類型準(zhǔn)確性更高。
相應(yīng)于上述方法實(shí)施例,本發(fā)明實(shí)施例還公開了一種情感識(shí)別裝置,參見圖4,圖4為本發(fā)明實(shí)施例的情感識(shí)別裝置的一種結(jié)構(gòu)圖,包括:
第一情感結(jié)果模塊401,用于通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征,得到第一情感結(jié)果。
第二情感結(jié)果模塊402,用于通過預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征,得到第二情感結(jié)果。
融合結(jié)果模塊403,用于在得到第一情感結(jié)果及第二情感結(jié)果時(shí),對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算,得到待識(shí)別視頻的融合結(jié)果。
情感類型模塊404,用于根據(jù)融合結(jié)果中的最大值,通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系,得到待識(shí)別視頻的情感類型。
可見,本發(fā)明實(shí)施例的情感識(shí)別裝置,通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型和預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型分別識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征,得到第一情感結(jié)果和第二情感結(jié)果;對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算,得到待識(shí)別視頻的融合結(jié)果;根據(jù)融合結(jié)果中的最大值,通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系,得到待識(shí)別視頻的情感類型。本發(fā)明實(shí)施例通過將遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,并將兩種模型得到的情感結(jié)果融合,提高了識(shí)別視頻情感類型的準(zhǔn)確度。
需要說明的是,本發(fā)明實(shí)施例的裝置是應(yīng)用上述情感識(shí)別方法的裝置,則上述情感識(shí)別方法的所有實(shí)施例均適用于該裝置,且均能達(dá)到相同或相似的有益效果。
參見圖5,圖5為本發(fā)明實(shí)施例的情感識(shí)別裝置的另一種結(jié)構(gòu)圖,在圖4實(shí)施例的基礎(chǔ)上,還包括:
預(yù)處理模塊501,用于對(duì)待識(shí)別視頻進(jìn)行預(yù)處理,得到待識(shí)別視頻的幀序列。
參見圖6,圖6為本發(fā)明實(shí)施例的情感識(shí)別裝置的另一種結(jié)構(gòu)圖,在圖4實(shí)施例的基礎(chǔ)上,還包括:
卷積神經(jīng)網(wǎng)絡(luò)模型建立模塊601,用于通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)fer2013數(shù)據(jù)庫中的具有基本表情的人臉圖像進(jìn)行訓(xùn)練,建立卷積神經(jīng)網(wǎng)絡(luò)模型。
遞歸神經(jīng)網(wǎng)絡(luò)模型建立模塊602,用于通過遞歸神經(jīng)網(wǎng)絡(luò)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的外觀特征進(jìn)行訓(xùn)練,建立遞歸神經(jīng)網(wǎng)絡(luò)模型。
三維卷積神經(jīng)網(wǎng)絡(luò)模型建立模塊603,用于通過三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)afew6.0數(shù)據(jù)庫中的具有基本表情的視頻片段進(jìn)行訓(xùn)練,得到三維卷積神經(jīng)網(wǎng)絡(luò)模型。
可選的,本發(fā)明實(shí)施例的情感識(shí)別裝置中,預(yù)處理模塊具體用于對(duì)待識(shí)別視頻中的每一幀圖片做仿射變換,得到幀序列。
可選的,本發(fā)明實(shí)施例的情感識(shí)別裝置中,融合結(jié)果模塊具體用于,根據(jù)公式:wvideo=a1×wcnn-rnn+(1-a1)×wc3d,
得到融合結(jié)果wvideo,其中,wcnn-rnn為第一情感結(jié)果,wc3d為第二情感結(jié)果,a1為第一情感結(jié)果參數(shù),1-a1為第二情感結(jié)果參數(shù),a1為大于0且小于1的數(shù)值。
可選的,本發(fā)明實(shí)施例的情感識(shí)別裝置,還包括:
音頻情感結(jié)果模塊,用于提取待識(shí)別視頻的音頻特征,通過支持向量機(jī)模型識(shí)別音頻特征,得到音頻情感結(jié)果。
融合結(jié)果模塊還用于,對(duì)第一情感結(jié)果、第二情感結(jié)果及音頻情感結(jié)果進(jìn)行融合計(jì)算,得到待識(shí)別視頻的融合結(jié)果。
融合結(jié)果模塊具體用于,根據(jù)公式:
wvideo=w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio,得到融合結(jié)果wvideo,
其中,wcnn-rnn為第一情感結(jié)果,wc3d為第二情感結(jié)果,waudio為音頻情感結(jié)果,w1為第一情感結(jié)果參數(shù),w2為第二情感結(jié)果參數(shù),1-w1-w2為音頻情感結(jié)果參數(shù),w1、w2和w1+w2為大于0且小于1的數(shù)值。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。