一種情感識(shí)別方法及裝置與流程

文檔序號(hào)：11251327閱讀：1871來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及多媒體技術(shù)領(lǐng)域，特別是涉及一種情感識(shí)別方法及裝置。

背景技術(shù)：

隨著人工智能技術(shù)的迅速發(fā)展，情感識(shí)別能夠通過畫面和聲音判斷人物情緒，讓機(jī)器真正“懂”用戶，這將極大促進(jìn)視頻理解、人機(jī)交互等智能領(lǐng)域的發(fā)展。情感識(shí)別是視頻畫面情感、音頻情感識(shí)別等多個(gè)領(lǐng)域技術(shù)的綜合體。視頻畫面情感識(shí)別利用人工智能的算法，通過視頻畫面中人物表情、動(dòng)作和姿態(tài)等信息識(shí)別出人物情緒。而音頻情感識(shí)別主要根據(jù)人在不同情感下語音信號(hào)的非平穩(wěn)性特征，通過提取語音的音質(zhì)、韻律、頻譜等聲學(xué)特征，來判斷情緒變化。

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(cnn，convolutionalneuralnetworks)能提取出圖像的外觀特征，在圖像識(shí)別領(lǐng)域取得了很好的效果。然而，cnn只能處理單張圖像。因此，先通過cnn提取視頻每幀圖像的外觀特征，再通過遞歸神經(jīng)網(wǎng)絡(luò)(rnn，recurrentneuralnetwork)提取圖像序列的時(shí)間特征，通過視頻的外觀特征和時(shí)間特征識(shí)別視頻的情感。其中，情感類型可以分為憤怒、惡心、害怕、高興、悲傷、驚訝和中立七種基本情感。目前，由于帶有情感標(biāo)注的數(shù)據(jù)量少，rnn情感識(shí)別尤其是某幾類情感(如惡心、驚訝)識(shí)別的準(zhǔn)確度較低。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例的目的在于提供一種情感識(shí)別方法及裝置，以提高視頻情感識(shí)別的準(zhǔn)確度。具體技術(shù)方案如下：

本發(fā)明實(shí)施例公開了一種情感識(shí)別方法，包括：

通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征，得到第一情感結(jié)果；

通過預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別所述待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征，得到第二情感結(jié)果；

在得到所述第一情感結(jié)果及所述第二情感結(jié)果時(shí)，對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果進(jìn)行融合計(jì)算，得到所述待識(shí)別視頻的融合結(jié)果；

根據(jù)所述融合結(jié)果中的最大值，通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系，得到所述待識(shí)別視頻的情感類型。

可選的，位于所述通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征，之前，所述方法還包括：

對(duì)所述待識(shí)別視頻進(jìn)行預(yù)處理，得到所述待識(shí)別視頻的幀序列。

通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)fer2013數(shù)據(jù)庫中的具有基本表情的人臉圖像進(jìn)行訓(xùn)練，建立卷積神經(jīng)網(wǎng)絡(luò)模型；

通過遞歸神經(jīng)網(wǎng)絡(luò)對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型的外觀特征進(jìn)行訓(xùn)練，建立遞歸神經(jīng)網(wǎng)絡(luò)模型；

通過三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)afew6.0數(shù)據(jù)庫中的具有基本表情的視頻片段進(jìn)行訓(xùn)練，得到三維卷積神經(jīng)網(wǎng)絡(luò)模型。

可選的，所述對(duì)所述待識(shí)別視頻進(jìn)行預(yù)處理，得到所述待識(shí)別視頻的幀序列的步驟，包括：

對(duì)所述待識(shí)別視頻中的每一幀圖片做仿射變換，得到所述幀序列。

可選的，所述對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果進(jìn)行融合計(jì)算，得到所述待識(shí)別視頻的融合結(jié)果的步驟，包括：

根據(jù)公式：wvideo＝a1×wcnn-rnn+(1-a1)×wc3d，

得到融合結(jié)果wvideo，其中，wcnn-rnn為所述第一情感結(jié)果，wc3d為所述第二情感結(jié)果，a1為第一情感結(jié)果參數(shù)，1-a1為第二情感結(jié)果參數(shù)，a1為大于0且小于1的數(shù)值。

可選的，位于所述對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果進(jìn)行融合計(jì)算，之前，所述方法還包括：

提取所述待識(shí)別視頻的音頻特征，通過支持向量機(jī)模型識(shí)別所述音頻特征，得到音頻情感結(jié)果；

在得到所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果時(shí)，對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果進(jìn)行融合計(jì)算，得到所述待識(shí)別視頻的融合結(jié)果。

可選的，所述對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果進(jìn)行融合計(jì)算，得到所述待識(shí)別視頻的融合結(jié)果的步驟，包括：

根據(jù)公式：

wvideo＝w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio，得到融合結(jié)果wvideo，

其中，wcnn-rnn為所述第一情感結(jié)果，wc3d為所述第二情感結(jié)果，waudio為所述音頻情感結(jié)果，w1為第一情感結(jié)果參數(shù)，w2為第二情感結(jié)果參數(shù)，1-w1-w2為音頻情感結(jié)果參數(shù)，w1、w2和w1+w2為大于0且小于1的數(shù)值。

本發(fā)明實(shí)施例還公開了一種情感識(shí)別裝置，包括：

第一情感結(jié)果模塊，用于通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征，得到第一情感結(jié)果；

第二情感結(jié)果模塊，用于通過預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別所述待識(shí)別視頻的幀序列中人臉的外觀特征和所述幀序列的時(shí)間特征，得到第二情感結(jié)果；

融合結(jié)果模塊，用于在得到所述第一情感結(jié)果及所述第二情感結(jié)果時(shí)，對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果進(jìn)行融合計(jì)算，得到所述待識(shí)別視頻的融合結(jié)果；

情感類型模塊，用于根據(jù)所述融合結(jié)果中的最大值，通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系，得到所述待識(shí)別視頻的情感類型。

可選的，本發(fā)明實(shí)施例的情感識(shí)別裝置，還包括：

預(yù)處理模塊，用于對(duì)所述待識(shí)別視頻進(jìn)行預(yù)處理，得到所述待識(shí)別視頻的幀序列。

可選的，本發(fā)明實(shí)施例的情感識(shí)別裝置，還包括：

卷積神經(jīng)網(wǎng)絡(luò)模型建立模塊，用于通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)fer2013數(shù)據(jù)庫中的具有基本表情的人臉圖像進(jìn)行訓(xùn)練，建立卷積神經(jīng)網(wǎng)絡(luò)模型；

遞歸神經(jīng)網(wǎng)絡(luò)模型建立模塊，用于通過遞歸神經(jīng)網(wǎng)絡(luò)對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)模型的外觀特征進(jìn)行訓(xùn)練，建立遞歸神經(jīng)網(wǎng)絡(luò)模型；

三維卷積神經(jīng)網(wǎng)絡(luò)模型建立模塊，用于通過三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)afew6.0數(shù)據(jù)庫中的具有基本表情的視頻片段進(jìn)行訓(xùn)練，得到三維卷積神經(jīng)網(wǎng)絡(luò)模型。

可選的，所述預(yù)處理模塊具體用于對(duì)所述待識(shí)別視頻中的每一幀圖片做仿射變換，得到所述幀序列。

可選的，所述融合結(jié)果模塊具體用于，根據(jù)公式：

wvideo＝a1×wcnn-rnn+(1-a1)×wc3d，

可選的，本發(fā)明實(shí)施例的情感識(shí)別裝置，還包括：

音頻情感結(jié)果模塊，用于提取所述待識(shí)別視頻的音頻特征，通過支持向量機(jī)模型識(shí)別所述音頻特征，得到音頻情感結(jié)果；

所述融合結(jié)果模塊還用于，在得到所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果時(shí)，對(duì)所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果進(jìn)行融合計(jì)算，得到所述待識(shí)別視頻的融合結(jié)果。

可選的，融合結(jié)果模塊具體用于，根據(jù)公式：

wvideo＝w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio，得到融合結(jié)果wvideo，

本發(fā)明實(shí)施例提供的情感識(shí)別方法及裝置，通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征，得到第一情感結(jié)果；通過預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征，得到第二情感結(jié)果；對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算，得到待識(shí)別視頻的融合結(jié)果；根據(jù)融合結(jié)果中的最大值，通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系，得到待識(shí)別視頻的情感類型。本發(fā)明實(shí)施例通過將遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合，提高了識(shí)別視頻情感類型的準(zhǔn)確度。當(dāng)然，實(shí)施本發(fā)明的任一產(chǎn)品或方法并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例的情感識(shí)別方法的一種流程圖；

圖2為本發(fā)明實(shí)施例的情感識(shí)別方法的另一種流程圖；

圖3為本發(fā)明實(shí)施例的情感識(shí)別方法的另一種流程圖；

圖4為本發(fā)明實(shí)施例的情感識(shí)別裝置的一種結(jié)構(gòu)圖；

圖5為本發(fā)明實(shí)施例的情感識(shí)別裝置的另一種結(jié)構(gòu)圖；

圖6為本發(fā)明實(shí)施例的情感識(shí)別裝置的另一種結(jié)構(gòu)圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

目前，通過遞歸神經(jīng)網(wǎng)絡(luò)可以識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征，對(duì)視頻的情感類型做出識(shí)別。但是，該方法對(duì)于部分微表情識(shí)別的準(zhǔn)確度比較低。因此，本發(fā)明實(shí)施例公開了一種情感識(shí)別方法及裝置，下面首先對(duì)情感識(shí)別方法進(jìn)行詳細(xì)說明。

參見圖1，圖1為本發(fā)明實(shí)施例的情感識(shí)別方法的一種流程圖，包括以下步驟：

s101，通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征，得到第一情感結(jié)果。

本發(fā)明實(shí)施例中，遞歸神經(jīng)網(wǎng)絡(luò)模型首先通過卷積神經(jīng)網(wǎng)絡(luò)提取視頻的每一幀圖片的外觀特征，其中，外觀特征可以包括：顏色特征、紋理特征、形狀特征、空間關(guān)系特征等。然后將外觀特征作為遞歸神經(jīng)網(wǎng)絡(luò)的輸入，通過遞歸神經(jīng)網(wǎng)絡(luò)提取視頻的幀序列的時(shí)間特征，時(shí)間特征可以包括：幀序列中每一幀圖片的時(shí)間，即幀圖片之間的互連關(guān)系。通過遞歸神經(jīng)網(wǎng)絡(luò)模型，根據(jù)外觀特征和時(shí)間特征，得到第一情感結(jié)果。

其中，遞歸神經(jīng)網(wǎng)絡(luò)模型包括：視頻和情感向量的對(duì)應(yīng)關(guān)系，視頻也就是圖片序列，情感向量為連續(xù)的幾個(gè)數(shù)值，且數(shù)值的和為1。例如，基本情感類型為7種，分別為憤怒、惡心、害怕、高興、悲傷、驚訝和中立。那么，輸出的情感向量為7個(gè)數(shù)值，這7個(gè)數(shù)值分別對(duì)應(yīng)憤怒、惡心、害怕、高興、悲傷、驚訝和中立的概率，當(dāng)然，這7個(gè)數(shù)值的和為1。因此，通過遞歸神經(jīng)網(wǎng)絡(luò)模型可以根據(jù)輸入的視頻得到該視頻對(duì)應(yīng)輸出的情感向量，即，7種情感類型的概率。相應(yīng)地，得到的第一情感結(jié)果即為7種情感類型的概率。

s102，通過預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征，得到第二情感結(jié)果。

與s101相同的是，三維卷積神經(jīng)網(wǎng)絡(luò)模型包括：視頻和情感向量的對(duì)應(yīng)關(guān)系。但是，三維卷積神經(jīng)網(wǎng)絡(luò)可同時(shí)提取視頻的幀序列的外觀特征和時(shí)間特征，因此，三維卷積神經(jīng)網(wǎng)絡(luò)可以捕捉到微表情的細(xì)微變化，從而識(shí)別某些微表情，例如：惡心、驚訝等，進(jìn)而提高情感識(shí)別的準(zhǔn)確度。

s103，在得到第一情感結(jié)果及第二情感結(jié)果時(shí)，對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算，得到待識(shí)別視頻的融合結(jié)果。

需要說明的是，通過遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型都可以得到視頻對(duì)應(yīng)的情感類型，由于遞歸神經(jīng)網(wǎng)絡(luò)模型對(duì)高興和憤怒等較明顯的表情具有很好的識(shí)別性能，三維卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)微表情具有很好的識(shí)別性能，可以將兩種模型進(jìn)行互補(bǔ)，即，將兩種結(jié)果進(jìn)行融合計(jì)算，得到準(zhǔn)確度更高的待識(shí)別視頻的融合結(jié)果。

s104，根據(jù)融合結(jié)果中的最大值，通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系，得到待識(shí)別視頻的情感類型。

由s101和s102可知，第一情感結(jié)果和第二情感結(jié)果都為情感向量，那么，通過兩種模型的融合，得到的融合結(jié)果也為情感向量。而融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系是預(yù)先建立的，例如，該對(duì)應(yīng)關(guān)系為：融合結(jié)果為情感向量，該情感向量中的7個(gè)數(shù)值依次和憤怒、惡心、害怕、高興、悲傷、驚訝、中立相對(duì)應(yīng)，如果融合結(jié)果為：0.1、0.15、0.1、0.1、0.2、0.1、0.25，則表明待識(shí)別視頻的情感類型中憤怒的概率為0.1，惡心的概率為0.15，害怕的概率為0.1、高興的概率為0.1，悲傷的概率為0.2，驚訝的概率為0.1，中立的概率為0.25。顯然，融合結(jié)果中的最大值為0.25，那么，最終得到的待識(shí)別視頻的情感類型為中立。

可見，本發(fā)明實(shí)施例的情感識(shí)別方法，通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型和預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型分別識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征，得到第一情感結(jié)果和第二情感結(jié)果；對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算，得到待識(shí)別視頻的融合結(jié)果；根據(jù)融合結(jié)果中的最大值，通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系，得到待識(shí)別視頻的情感類型。本發(fā)明實(shí)施例通過將遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合，并將兩種模型得到的情感結(jié)果融合，提高了識(shí)別視頻情感類型的準(zhǔn)確度。

參見圖2，圖2為本發(fā)明實(shí)施例的情感識(shí)別方法的另一種流程圖，在圖1實(shí)施例的基礎(chǔ)上，還包括：

s201，對(duì)待識(shí)別視頻進(jìn)行預(yù)處理，得到待識(shí)別視頻的幀序列。

需要說明的是，本發(fā)明實(shí)施例識(shí)別的是視頻的情感類型，即，視頻的每一幀圖片中的人臉圖片的情感類型。而對(duì)于給定的視頻，不是每一幀圖片都可以直接提取人臉圖片的外觀特征，需要對(duì)視頻的每一幀圖片進(jìn)行預(yù)處理，即，檢測(cè)人臉圖片中的人臉關(guān)鍵點(diǎn)，并根據(jù)人臉關(guān)鍵點(diǎn)做仿射變換，得到待識(shí)別視頻的幀序列，進(jìn)而提取待識(shí)別視頻的幀序列的外觀特征。

參見圖3，圖3為本發(fā)明實(shí)施例的情感識(shí)別方法的另一種流程圖，在圖1實(shí)施例的基礎(chǔ)上，還包括：

s301，通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)fer2013數(shù)據(jù)庫中的具有基本表情的人臉圖像進(jìn)行訓(xùn)練，建立卷積神經(jīng)網(wǎng)絡(luò)模型。

具體的，fer2013數(shù)據(jù)庫為包含七種基本表情的表情數(shù)據(jù)庫。由于fer2013數(shù)據(jù)庫的數(shù)據(jù)量小，因此，需要重新訓(xùn)練一個(gè)深度學(xué)習(xí)模型。即，通過卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練使得fer2013數(shù)據(jù)庫在人臉識(shí)別模型的基礎(chǔ)上做微調(diào)，從而建立卷積神經(jīng)網(wǎng)絡(luò)模型。需要解釋的是，人臉識(shí)別模型為與表情無關(guān)的模型，這樣，機(jī)器不需要重新學(xué)習(xí)，而可以直接對(duì)情感類型進(jìn)行分類，從而簡(jiǎn)化卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的過程。卷積神經(jīng)網(wǎng)絡(luò)模型包括：圖片和情感向量的對(duì)應(yīng)關(guān)系。

s302，通過遞歸神經(jīng)網(wǎng)絡(luò)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的外觀特征進(jìn)行訓(xùn)練，建立遞歸神經(jīng)網(wǎng)絡(luò)模型。

其中，卷積神經(jīng)網(wǎng)絡(luò)模型每次只能處理單張圖片，即，每次只能提取單張圖片的外觀特征，遞歸神經(jīng)網(wǎng)絡(luò)可以提取圖片序列的時(shí)間特征。那么，將卷積神經(jīng)網(wǎng)絡(luò)模型的外觀特征作為遞歸神經(jīng)網(wǎng)絡(luò)的輸入，與遞歸神經(jīng)網(wǎng)絡(luò)提取的時(shí)間特征相結(jié)合，通過訓(xùn)練，得到遞歸神經(jīng)網(wǎng)絡(luò)模型。遞歸神經(jīng)網(wǎng)絡(luò)模型中包括視頻和情感向量的對(duì)應(yīng)關(guān)系，使得輸入視頻時(shí)，得到視頻對(duì)應(yīng)的情感類型。

s303，通過三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)afew6.0數(shù)據(jù)庫中的具有基本表情的視頻片段進(jìn)行訓(xùn)練，得到三維卷積神經(jīng)網(wǎng)絡(luò)模型。

具體的，afew6.0數(shù)據(jù)庫為包括七種基本表情視頻片段的數(shù)據(jù)庫，三維卷積神經(jīng)網(wǎng)絡(luò)可以同時(shí)提取視頻的每一幀圖片的外觀特征和視頻的幀序列的時(shí)間特征，通過三維卷積神經(jīng)網(wǎng)絡(luò)使得afew6.0數(shù)據(jù)庫在視頻識(shí)別模型的基礎(chǔ)上做微調(diào)，從而建立三維卷積神經(jīng)網(wǎng)絡(luò)模型。三維卷積神經(jīng)網(wǎng)絡(luò)模型中包括視頻和情感向量的對(duì)應(yīng)關(guān)系，使得輸入視頻時(shí)，得到視頻對(duì)應(yīng)的情感類型。

本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中，對(duì)待識(shí)別視頻進(jìn)行預(yù)處理，得到待識(shí)別視頻的幀序列的步驟，包括：

對(duì)待識(shí)別視頻中的每一幀圖片做仿射變換，得到幀序列。

更為具體的，仿射變換在幾何上定義為兩個(gè)向量空間之間的一個(gè)仿射變換或者仿射映射，由一個(gè)非奇異的線性變換接上一個(gè)平移變換組成。圖片的仿射變換可以理解為圖片的平移、拉伸和壓縮等等。舉例而言，如果待識(shí)別視頻中的一幀圖片中人臉是傾斜的，可根據(jù)仿射變換將傾斜的人臉變換為平直的人臉，方便后續(xù)提取圖片中人臉的外觀特征。由于仿射變換屬于現(xiàn)有技術(shù)，在此不再進(jìn)行詳細(xì)描述。當(dāng)然，其他可以實(shí)現(xiàn)提取圖片中人臉的外觀特征的方式也都是可以的，在此不做限定。

本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中，對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算，得到待識(shí)別視頻的融合結(jié)果的步驟，包括：

根據(jù)公式：wvideo＝a1×wcnn-rnn+(1-a1)×wc3d，

得到融合結(jié)果wvideo，其中，wcnn-rnn為第一情感結(jié)果，wc3d為第二情感結(jié)果，a1為第一情感結(jié)果參數(shù)，1-a1為第二情感結(jié)果參數(shù)，a1為大于0且小于1的數(shù)值。

更為具體的，在得到第一情感結(jié)果和第二情感結(jié)果之后，將第一情感結(jié)果和第二情感結(jié)果進(jìn)行融合，得到待識(shí)別視頻的融合結(jié)果。需要說明的是，a1為通過驗(yàn)證得到的數(shù)值。首先，在評(píng)估遞歸神經(jīng)網(wǎng)絡(luò)模型或三維卷積神經(jīng)網(wǎng)絡(luò)模型時(shí)，將具有情感類型的視頻樣本作為遞歸神經(jīng)網(wǎng)絡(luò)模型或三維卷積神經(jīng)網(wǎng)絡(luò)模型的輸入，將通過遞歸神經(jīng)網(wǎng)絡(luò)模型或三維卷積神經(jīng)網(wǎng)絡(luò)模型得到的情感類型與已知的情感類型進(jìn)行對(duì)比，通過不斷調(diào)節(jié)遞歸神經(jīng)網(wǎng)絡(luò)模型或三維卷積神經(jīng)網(wǎng)絡(luò)模型內(nèi)部的參數(shù)，使得遞歸神經(jīng)網(wǎng)絡(luò)模型或三維卷積神經(jīng)網(wǎng)絡(luò)模型最優(yōu)。然后，在遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合時(shí)，將具有情感類型的視頻樣本作為遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型的輸入，將通過遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型計(jì)算得到的情感類型和已知情感類型進(jìn)行對(duì)比，通過不斷調(diào)節(jié)a1，使得遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型兩種模型結(jié)合之后得到的結(jié)果達(dá)到最優(yōu)，即，使得到的結(jié)果與已知結(jié)果最接近。

本發(fā)明實(shí)施例中，結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)模型對(duì)高興、憤怒等表情具有較高識(shí)別性的優(yōu)點(diǎn)，以及三維卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)驚訝、惡心等微表情具有較高識(shí)別性的優(yōu)點(diǎn)，得到待識(shí)別視頻最終的情感類型。因此，本發(fā)明實(shí)施例的情感識(shí)別方法識(shí)別視頻情感的準(zhǔn)確度更高。

可選的，位于對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算，之前，本發(fā)明實(shí)施例的情感識(shí)別方法還包括：

提取待識(shí)別視頻的音頻特征，通過支持向量機(jī)模型識(shí)別音頻特征，得到音頻情感結(jié)果。

在得到所述第一情感結(jié)果、所述第二情感結(jié)果及所述音頻情感結(jié)果時(shí)，對(duì)第一情感結(jié)果、第二情感結(jié)果及音頻情感結(jié)果進(jìn)行融合計(jì)算，得到待識(shí)別視頻的融合結(jié)果。

需要說明的是，通過遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型兩種模型得到的情感類型，僅僅是通過對(duì)視頻中圖片的處理得到的，而視頻除了一幀一幀的圖片之外，還包括聲音。本發(fā)明實(shí)施例中，還可以提取視頻的音頻特征，通過對(duì)音頻的識(shí)別，得到音頻情感結(jié)果。其中，音頻特征包括：語速、振幅和音頻等。支持向量機(jī)模型為有監(jiān)督的學(xué)習(xí)模型，通常用來進(jìn)行模式識(shí)別、分類以及回歸分析。當(dāng)然，該支持向量機(jī)模型也是通過訓(xùn)練得到的。同樣的，得到的音頻情感結(jié)果也為情感向量。

本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中，對(duì)第一情感結(jié)果、第二情感結(jié)果及音頻情感結(jié)果進(jìn)行融合計(jì)算，得到待識(shí)別視頻的融合結(jié)果的步驟，包括：

根據(jù)公式：

wvideo＝w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio，得到融合結(jié)果wvideo，w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio

其中，wcnn-rnn為第一情感結(jié)果，wc3d為第二情感結(jié)果，waudio為音頻情感結(jié)果，w1為第一情感結(jié)果參數(shù)，w2為第二情感結(jié)果參數(shù)，1-w1-w2為音頻情感結(jié)果參數(shù)，w1、w2和w1+w2為大于0且小于1的數(shù)值。

在得到音頻情感結(jié)果之后，將音頻情感結(jié)果與第一情感結(jié)果、第二情感結(jié)果相融合，得到待識(shí)別視頻的融合結(jié)果。其中，w1和w2的選取方法與上述a1的選取方法相同，在此不再贅述。顯然，將音頻情感結(jié)果與第一情感結(jié)果以及第二情感結(jié)果結(jié)合，遞歸神經(jīng)網(wǎng)絡(luò)模型、三維卷積神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)模型中參數(shù)的訓(xùn)練過程將會(huì)復(fù)雜化，但是得到的情感類型準(zhǔn)確性更高。

相應(yīng)于上述方法實(shí)施例，本發(fā)明實(shí)施例還公開了一種情感識(shí)別裝置，參見圖4，圖4為本發(fā)明實(shí)施例的情感識(shí)別裝置的一種結(jié)構(gòu)圖，包括：

第一情感結(jié)果模塊401，用于通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征，得到第一情感結(jié)果。

第二情感結(jié)果模塊402，用于通過預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征，得到第二情感結(jié)果。

融合結(jié)果模塊403，用于在得到第一情感結(jié)果及第二情感結(jié)果時(shí)，對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算，得到待識(shí)別視頻的融合結(jié)果。

情感類型模塊404，用于根據(jù)融合結(jié)果中的最大值，通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系，得到待識(shí)別視頻的情感類型。

可見，本發(fā)明實(shí)施例的情感識(shí)別裝置，通過預(yù)先建立的遞歸神經(jīng)網(wǎng)絡(luò)模型和預(yù)先建立的三維卷積神經(jīng)網(wǎng)絡(luò)模型分別識(shí)別待識(shí)別視頻的幀序列中人臉的外觀特征和幀序列的時(shí)間特征，得到第一情感結(jié)果和第二情感結(jié)果；對(duì)第一情感結(jié)果、第二情感結(jié)果進(jìn)行融合計(jì)算，得到待識(shí)別視頻的融合結(jié)果；根據(jù)融合結(jié)果中的最大值，通過預(yù)先建立的融合結(jié)果和情感類型的對(duì)應(yīng)關(guān)系，得到待識(shí)別視頻的情感類型。本發(fā)明實(shí)施例通過將遞歸神經(jīng)網(wǎng)絡(luò)模型和三維卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合，并將兩種模型得到的情感結(jié)果融合，提高了識(shí)別視頻情感類型的準(zhǔn)確度。

需要說明的是，本發(fā)明實(shí)施例的裝置是應(yīng)用上述情感識(shí)別方法的裝置，則上述情感識(shí)別方法的所有實(shí)施例均適用于該裝置，且均能達(dá)到相同或相似的有益效果。

參見圖5，圖5為本發(fā)明實(shí)施例的情感識(shí)別裝置的另一種結(jié)構(gòu)圖，在圖4實(shí)施例的基礎(chǔ)上，還包括：

預(yù)處理模塊501，用于對(duì)待識(shí)別視頻進(jìn)行預(yù)處理，得到待識(shí)別視頻的幀序列。

參見圖6，圖6為本發(fā)明實(shí)施例的情感識(shí)別裝置的另一種結(jié)構(gòu)圖，在圖4實(shí)施例的基礎(chǔ)上，還包括：

卷積神經(jīng)網(wǎng)絡(luò)模型建立模塊601，用于通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)fer2013數(shù)據(jù)庫中的具有基本表情的人臉圖像進(jìn)行訓(xùn)練，建立卷積神經(jīng)網(wǎng)絡(luò)模型。

遞歸神經(jīng)網(wǎng)絡(luò)模型建立模塊602，用于通過遞歸神經(jīng)網(wǎng)絡(luò)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型的外觀特征進(jìn)行訓(xùn)練，建立遞歸神經(jīng)網(wǎng)絡(luò)模型。

三維卷積神經(jīng)網(wǎng)絡(luò)模型建立模塊603，用于通過三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)afew6.0數(shù)據(jù)庫中的具有基本表情的視頻片段進(jìn)行訓(xùn)練，得到三維卷積神經(jīng)網(wǎng)絡(luò)模型。

可選的，本發(fā)明實(shí)施例的情感識(shí)別裝置中，預(yù)處理模塊具體用于對(duì)待識(shí)別視頻中的每一幀圖片做仿射變換，得到幀序列。

可選的，本發(fā)明實(shí)施例的情感識(shí)別裝置中，融合結(jié)果模塊具體用于，根據(jù)公式：wvideo＝a1×wcnn-rnn+(1-a1)×wc3d，

可選的，本發(fā)明實(shí)施例的情感識(shí)別裝置，還包括：

音頻情感結(jié)果模塊，用于提取待識(shí)別視頻的音頻特征，通過支持向量機(jī)模型識(shí)別音頻特征，得到音頻情感結(jié)果。

融合結(jié)果模塊還用于，對(duì)第一情感結(jié)果、第二情感結(jié)果及音頻情感結(jié)果進(jìn)行融合計(jì)算，得到待識(shí)別視頻的融合結(jié)果。

融合結(jié)果模塊具體用于，根據(jù)公式：

wvideo＝w1×wcnn-rnn+w2×wc3d+(1-w1-w2)×waudio，得到融合結(jié)果wvideo，

需要說明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下，由語句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述，各個(gè)實(shí)施例之間相同相似的部分互相參見即可，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其，對(duì)于系統(tǒng)實(shí)施例而言，由于其基本相似于方法實(shí)施例，所以描述的比較簡(jiǎn)單，相關(guān)之處參見方法實(shí)施例的部分說明即可。

以上所述僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等，均包含在本發(fā)明的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：范音;路香菊;李典
技術(shù)所有人：北京奇藝世紀(jì)科技有限公司
我是此專利的發(fā)明人

上一篇：用于人臉識(shí)別的基于LBP特征的結(jié)構(gòu)型稀疏表示分類方法與流程
上一篇：一種顏值判定方法及裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

情感檢測(cè)裝置相關(guān)技術(shù)

win10usb裝置無法識(shí)別相關(guān)技術(shù)

usb裝置無法識(shí)別相關(guān)技術(shù)

射頻識(shí)別裝置相關(guān)技術(shù)

無線識(shí)別裝置相關(guān)技術(shù)

指紋識(shí)別裝置相關(guān)技術(shù)

鋼管焊縫識(shí)別定位裝置相關(guān)技術(shù)

裝置開停車風(fēng)險(xiǎn)識(shí)別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種情感識(shí)別方法及裝置與流程