亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于遞歸神經(jīng)網(wǎng)絡(luò)的離散情感識別方法

文檔序號:9708758閱讀:730來源:國知局
一種基于遞歸神經(jīng)網(wǎng)絡(luò)的離散情感識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于視頻信號處理領(lǐng)域,具體地涉及一種基于具有長短時記憶模型的遞歸神經(jīng)網(wǎng)絡(luò)的離散情感識別方法,并以此來提高離散情感識別的精度。
【背景技術(shù)】
[0002]近年來,國內(nèi)外研究人員對離散情感識別進(jìn)行了大量的研究工作,提出了許多用于情感識別的有效算法。這些方法從處理策略上可以分為基于靜態(tài)圖像的情感識別和基于動態(tài)視頻的情感識別。在基于視頻的情感識別工作的主要框架為:先提取視頻中每幀圖像的特征,再最大池化這些特征并得到統(tǒng)一長度的情感特征,最后用該特征進(jìn)行情感分類。該框架通過最大池化的方法將長度不等的特征序列統(tǒng)一映射為一個特征向量,進(jìn)而進(jìn)行分類器的訓(xùn)練及最終的預(yù)測。然而,該方法忽略了情感表達(dá)是一個動態(tài)過程,情感表達(dá)中的動態(tài)信息對情感識別有重要作用。僅僅通過最大池化特征序列的方法,完全忽視了情感表達(dá)的動態(tài)ig息,有著很大的ig息損失。

【發(fā)明內(nèi)容】

[0003]為了解決上述技術(shù)問題,本發(fā)明提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)的離散情感識別方法,該方法能夠充分利用情感表達(dá)過程中的動態(tài)信息,從而實(shí)現(xiàn)視頻中參與者情感的精確識別。
[0004]本發(fā)明提出的一種基于遞歸神經(jīng)網(wǎng)絡(luò)的離散情感識別方法,包括以下步驟:
[0005]步驟1,對視頻中的圖像信號進(jìn)行人臉表情特征的提取:
[0006]對視頻中的圖像信號進(jìn)行人臉檢測及跟蹤,得到人臉區(qū)域后,提取人臉關(guān)鍵點(diǎn),作為人臉的形變特征;
[0007]將人臉區(qū)域裁剪并歸一化到統(tǒng)一大小,提取人臉的外觀特征;
[0008]步驟2,對視頻中的音頻信號進(jìn)行音頻特征的提取:
[0009]對視頻中的音頻信號進(jìn)行加窗處理,分割出音頻序列單元;
[0010]在分割出的音頻序列單元上提取音頻特征;
[0011]步驟3,利用具有長短時記憶模型的遞歸神經(jīng)網(wǎng)絡(luò)分別對所述人臉的形變特征、人臉的外觀特征、音頻特征進(jìn)行時序編碼,獲得固定長度的情感表征向量;將所獲得的情感表征向量相串聯(lián),得到視頻數(shù)據(jù)的最終情感表述特征;
[0012]步驟4,基于支持向量機(jī)算法設(shè)計(jì)的支持向量機(jī)分類器,利用步驟3中得到的最終情感表述特征進(jìn)行情感類別預(yù)測。
[0013]優(yōu)選的,所述步驟1中人臉的形變特征的提取方法為:
[0014]對于視頻序列中的第一幀圖像進(jìn)行人臉檢測,得到人臉區(qū)域圖像后對后續(xù)每幀圖像進(jìn)行人臉跟蹤,跟蹤時停止進(jìn)行人臉檢測;在人臉跟蹤過程中,如果人臉跟蹤失敗,則對當(dāng)前幀圖像重新進(jìn)行人臉檢測尋找人臉區(qū)域圖像后繼續(xù)進(jìn)行人臉跟蹤;
[0015]提取每幀人臉區(qū)域圖像對應(yīng)的人臉關(guān)鍵點(diǎn),將得到的人臉關(guān)鍵點(diǎn)作為一組人臉的形變特征,用于描述人臉的形態(tài)及頭部運(yùn)動信息。
[0016]優(yōu)選的,所述步驟1中所述人臉檢測采用Haar特征及AdaBoost分類器進(jìn)行檢測;所述的人臉跟蹤采用均值漂移算法進(jìn)行跟蹤;所述人臉關(guān)鍵點(diǎn)根據(jù)ASM算法進(jìn)行提取。
[0017]優(yōu)選的,所述人臉關(guān)鍵點(diǎn)包括眼球點(diǎn)及眼角點(diǎn)、鼻唇中心點(diǎn)、嘴角點(diǎn)。
[0018]優(yōu)選的,在步驟1中得到人臉關(guān)鍵點(diǎn)后,對每幀人臉區(qū)域圖像的人臉關(guān)鍵點(diǎn)的坐標(biāo)值進(jìn)行歸一化處理,并采用主成分分析法對所述人臉關(guān)鍵點(diǎn)的坐標(biāo)值進(jìn)行降維和白化處理。
[0019]優(yōu)選的,步驟2中提取音頻特征的方法為:在分割出的音頻序列單元上按照固定的幀長及幀移,對視頻中的語音信號按幀提取能量、幅值、MFCC參數(shù)、LSP參數(shù)及梅耳譜參數(shù)作為首頻特征。
[0020]優(yōu)選的,步驟2中,按幀提取音頻特征后,采用主成分分析法對于所述音頻進(jìn)行降維和白化處理。
[0021]優(yōu)選的,步驟3中所述具有長短時記憶模型的遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括:一個具有長短時記憶模型的遞歸層、一個均值池化層、一個邏輯回歸層;其中所述具有長短時記憶模型的遞歸層用于學(xué)習(xí)輸入特征序列之間的時序變化模式,所述均值池化層將所述具有長短時記憶模型的遞歸層對應(yīng)于輸入特征序列的所有輸出取均值,所述邏輯回歸層將均值池化層的輸出作為所輸入特征序列的情感表征向量。
[0022]優(yōu)選的,該方法包括訓(xùn)練階段和預(yù)測階段,兩個階段均包括步驟1至步驟4,區(qū)別在于:
[0023]訓(xùn)練階段:
[0024]在步驟3中采用利用具有長短時記憶模型的遞歸神經(jīng)網(wǎng)絡(luò)分別對所述人臉的形變特征、人臉的外觀特征、音頻特征進(jìn)行處理得到相應(yīng)的情感表征向量的方法,分別訓(xùn)練與上述三個特征對應(yīng)的遞歸神經(jīng)網(wǎng)絡(luò),并保存權(quán)值;
[0025]在步驟4中采用步驟3中得到的最終情感表述特征進(jìn)行情感類別預(yù)測的方法進(jìn)行所述支持向量機(jī)分類器的訓(xùn)練;
[0026]預(yù)測階段:
[0027]在步驟3中采用的具有長短時記憶模型的遞歸神經(jīng)網(wǎng)絡(luò)為訓(xùn)練階段訓(xùn)練好的三個特征對應(yīng)的遞歸神經(jīng)網(wǎng)絡(luò);
[0028]步驟4中采用的支持向量機(jī)分類器為訓(xùn)練階段訓(xùn)練好的支持向量機(jī)分類器。
[0029]優(yōu)選的,所述具有長短時記憶模型的遞歸神經(jīng)網(wǎng)絡(luò)的訓(xùn)練采用最速梯度下降法,其中的損失函數(shù)采用交叉熵?fù)p失函數(shù)。
[0030]本發(fā)明在基于視頻的情感識別中,采用具有長短時記憶模型的遞歸神經(jīng)網(wǎng)絡(luò)對視頻序列數(shù)據(jù)進(jìn)行時序編碼,利用遞歸神經(jīng)網(wǎng)絡(luò)的時序建模能力,通過神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí),學(xué)習(xí)各幀特征之間的相互作用,即長跨度及短跨度相結(jié)合,實(shí)現(xiàn)了序列中不同粒度上的有效建模,融合了情感表達(dá)的動態(tài)特征,從而實(shí)現(xiàn)視頻中參與者情感的精確識別。
【附圖說明】
[0031]圖1是本發(fā)明基于具有長短時記憶模型的遞歸神經(jīng)網(wǎng)絡(luò)的識別方法流程圖;
[0032]圖2是本發(fā)明步驟1的流程示意圖;
[0033]圖3是本發(fā)明步驟2的流程示意圖;
[0034]圖4是本發(fā)明步驟3采用的遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
[0035]圖5是本發(fā)明采用采用的LSTM節(jié)點(diǎn)結(jié)構(gòu)示意圖;
[0036]圖6是本發(fā)明時序展開的網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0037]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。
[0038]需要說明的是,在附圖或說明書描述中,相似或相同的部分都使用相同的圖號。附圖中繪示或描述的實(shí)現(xiàn)方式,為所屬技術(shù)領(lǐng)域中普通技術(shù)人員所知的形式。應(yīng)該指出,所描述的實(shí)例僅僅視為說明的目的,而不是對本發(fā)明的限制。
[0039]如圖1所示,本發(fā)明的基于遞歸神經(jīng)網(wǎng)絡(luò)的離散情感識別方法包括以下步驟:
[0040]步驟1,對視頻中的圖像信號進(jìn)行人臉表情特征的提取,如圖2所示:
[0041]步驟11,對視頻中的圖像信號進(jìn)行人臉檢測及跟蹤,得到人臉區(qū)域后,提取人臉關(guān)鍵點(diǎn),作為人臉的形變特征;
[0042]步驟12,將人臉區(qū)域裁剪并歸一化到統(tǒng)一大小,提取人臉的外觀特征。
[0043]所述步驟11中人臉的形變特征的提取方法為:首先對于視頻序列中的第一幀圖像進(jìn)行人臉檢測,得到人臉區(qū)域圖像后對后續(xù)每幀圖像進(jìn)行人臉跟蹤,跟蹤時停止進(jìn)行人臉檢測;但如果在人臉跟蹤過程中人臉跟蹤失敗,則需要對于當(dāng)前幀圖像重新進(jìn)行人臉檢測尋找人臉區(qū)域圖像后繼續(xù)進(jìn)行人臉跟蹤;在得到每幀圖像的人臉檢測或跟蹤的人臉區(qū)域圖像后,提取得到每幀人臉區(qū)域圖像對應(yīng)的人臉關(guān)鍵點(diǎn),并將得到的人臉關(guān)鍵點(diǎn)作為一組人臉的形變特征,用于描述人臉的形態(tài)及頭部運(yùn)動信息。
[0044]在本發(fā)明實(shí)施例中,采用Haar特征及AdaBoost分類器進(jìn)行人臉檢測;采用均值漂移算法進(jìn)行人臉跟蹤;采用ASM算法提取得到人臉的關(guān)鍵點(diǎn),其中,所述人臉關(guān)鍵點(diǎn)包括眼球點(diǎn)及眼角點(diǎn)、鼻唇中心點(diǎn)、嘴角點(diǎn)三部分。
[0045]在本發(fā)明實(shí)施例中,在所述步驟11得到人臉關(guān)鍵點(diǎn)之后,對每幀人臉區(qū)域圖像的人臉關(guān)鍵點(diǎn)的坐標(biāo)值進(jìn)行歸一化處理,即將每幀人臉區(qū)域圖像的人臉關(guān)鍵點(diǎn)的坐標(biāo)值減去所有人臉關(guān)鍵點(diǎn)的坐標(biāo)均值;之后采用主成分分析法對于所述人臉關(guān)鍵點(diǎn)的坐標(biāo)值進(jìn)行降維,降維之后通過白化處理使所有特征的方差為1.0其中,降維后數(shù)據(jù)的能量保持在降維前數(shù)據(jù)能量的90 %。
[0046]數(shù)據(jù)的白化處理是為了使降維后的所有特征的方差為1.0且特征之間的相關(guān)性較低。具體做法為:求得降維后數(shù)據(jù)的每一維除以各自維度上的標(biāo)準(zhǔn)差,從而使降維后的數(shù)據(jù)的每一維的方差為1。
[0047]在得到人臉的形變特征后,步驟12主要完成人臉區(qū)域圖像的校正,并提取相應(yīng)的人臉的外觀特征。具體地,所述步驟12進(jìn)一步包括以下步驟:
[0048]步驟121,根據(jù)所述人臉關(guān)鍵點(diǎn)中左、右眼睛眼角的關(guān)鍵點(diǎn)進(jìn)行連線,得到眼角連線與水平線之間的夾角,根據(jù)所述夾角對于所述人臉區(qū)域圖像進(jìn)行旋轉(zhuǎn),使所述夾角變?yōu)?度;
[0049]步驟122,對于旋轉(zhuǎn)后的人臉區(qū)域圖像進(jìn)行尺度縮放,使所述眼角連線的長度為Μ個像素,其中,1002M250;
[0050]步驟123,根據(jù)左眼角關(guān)鍵點(diǎn)的位置對于經(jīng)過尺度縮放的人臉區(qū)域圖像進(jìn)行裁剪,以使得到的人臉區(qū)域圖像達(dá)到第一預(yù)定大??;
[0051]在本發(fā)明實(shí)施例中,所述第一預(yù)定大小為2Mx2M,且左眼角關(guān)鍵點(diǎn)的位置為橫縱坐標(biāo)分別為0.8M和0.6M。
[0052]步驟124,對于裁剪得到的人臉區(qū)域圖像進(jìn)行灰度化,并將所述人臉區(qū)域圖像中每個像素的灰度值減去所述人臉區(qū)域圖像的像素灰度值均值,并對于歸一化后的人臉區(qū)域圖像的像素灰度值進(jìn)行主成分分析降維和白化處理,降維后的特征能量保持在降維前特征總能量的80%,將降維后的人臉區(qū)域圖像的所有像素灰度值作為人臉的外觀特征。
[0053]這樣,對于每幀人臉區(qū)域圖像,均能夠得到人臉的形變特征和人臉的外觀特征兩組人臉特征。
[0054]步驟2,對視頻中的音頻信號進(jìn)行音頻特征的提取:對視頻中的音頻信號進(jìn)行加窗處理,分割出音頻序列單元;在分割出的音頻序列單元上提取包括線譜對、基音周期和增益均值的特征參數(shù)的音頻特征。
[0055]如圖3所示,參數(shù)提取步驟的具體實(shí)現(xiàn)方式如下:
[0056]步驟21,對于
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1