本發(fā)明涉及自動(dòng)情感識(shí)別
技術(shù)領(lǐng)域:
,尤其涉及一種基于dis-nv特征的情感識(shí)別方法。
背景技術(shù):
:情感識(shí)別即是識(shí)別對(duì)話中的情感信息,以判別說話人的情感狀態(tài),通過情感的自動(dòng)識(shí)別可以實(shí)現(xiàn)更為良好的人機(jī)交互,如人機(jī)交流、會(huì)話代理等。目前情感識(shí)別通常都是基于一個(gè)類別的處理方法,即認(rèn)為在大腦中存在幾種基本的比較普遍的情感,如包括:高興、悲傷、驚喜、害怕、生氣、厭惡六大類情感,但是說話人情感狀態(tài)通常較為復(fù)雜,單一的情感表情或者有限的離散類別通常難以恰當(dāng)?shù)孛枋鲈搹?fù)雜的情感狀態(tài),一種解決方法即是通過在多維空間中的連續(xù)情感標(biāo)簽(即維度情感)來代替分類的情感,如由一個(gè)由效價(jià)(描述情感的積極和消極程度)和激勵(lì)(描述了情感的激烈程度)組成的兩維的情感空間,在各種連續(xù)情感模型中,描述最豐富的一個(gè)情感模型是一個(gè)四維的情感空間:效價(jià)、激勵(lì)、支配度(在對(duì)話中所表達(dá)的主導(dǎo)程度)以及期望值(描述期望以及意外程度)。為了簡化維度情感識(shí)別的過程,同時(shí)充分利用到已經(jīng)逐漸成熟的基于分類的情感識(shí)別的成果,有從業(yè)者將連續(xù)情感標(biāo)簽量化到有限的離散類中,將連續(xù)的預(yù)測問題轉(zhuǎn)化成一個(gè)二分類識(shí)別問題(積極vs.消極),或者四類的識(shí)別問題等?,F(xiàn)有技術(shù)中,上述各類情感識(shí)別方法所使用的情感模型各不相同,但使用的音頻特征通常都是低級(jí)別描述符(lld),包括如:與能量相關(guān)的特征、基頻特征、共振峰特征、線性預(yù)測系數(shù)以及梅爾倒譜系數(shù)等的聲學(xué)特征,再將統(tǒng)計(jì)函數(shù)應(yīng)用到上述特征以及上述特征的delta系數(shù)上,形成最終的情感特征;目前各種數(shù)據(jù)庫也均是使用上述幾種llds特征,例如avec2012語料庫是使用能量、頻譜、聲音相關(guān)作為lld特征,而iemocap語料庫中使用的lld特征主要包含了能量、頻譜以及與基頻相關(guān)的信息。lld特征的數(shù)量均非常大,基本在1000到2000之間,一方面,針對(duì)大量特征值的情感識(shí)別模型訓(xùn)練,訓(xùn)練難度大、所需訓(xùn)練時(shí)間長,使得識(shí)別效率低;另一方面,特征數(shù)量過多還會(huì)在一定程度上會(huì)帶來大量的信息冗余,特征之間的依賴關(guān)系也難以有效控制,從而影響訓(xùn)練的情感識(shí)別模型的精度。技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的技術(shù)問題就在于:針對(duì)現(xiàn)有技術(shù)存在的技術(shù)問題,本發(fā)明提供一種明能夠充分利用不流利、非語言特性的語音文本實(shí)現(xiàn)情感識(shí)別,且具有實(shí)現(xiàn)方法簡單、識(shí)別效率以及精度高的基于dis-nv特征的情感識(shí)別方法。為解決上述技術(shù)問題,本發(fā)明提出的技術(shù)方案為:一種基于dis-nv特征的情感識(shí)別方法,步驟包括:s1.dis-nv特征集構(gòu)建:選取具有不流利特性的情感詞作為dis特征詞、以及具有非語言特性的發(fā)聲類型作為nv特征類,構(gòu)建得到dis-nv特征集;s2.情感分類模型訓(xùn)練:獲取對(duì)應(yīng)各類情感的訓(xùn)練語音文本,將各所述訓(xùn)練語音文本分別與所述dis-nv特征集進(jìn)行匹配,根據(jù)匹配結(jié)果提取得到對(duì)應(yīng)的dis-nv特征值,并基于雙向時(shí)序信息采用blstm模型進(jìn)行訓(xùn)練,得到blstm(bidirectionallongshorttermmemory,雙向長短期記憶網(wǎng)絡(luò))分類模型;s3.情感識(shí)別:獲取待識(shí)別語音文本,將待識(shí)別語音文本與所述dis-nv特征集進(jìn)行匹配,根據(jù)匹配結(jié)果提取得到對(duì)應(yīng)的dis-nv特征值,并使用所述blstm分類模型進(jìn)行識(shí)別,輸出情感識(shí)別結(jié)果。作為本發(fā)明的進(jìn)一步改進(jìn),所述dis-nv特征值的提取步驟為:獲取待提取語音文本作為當(dāng)前語音文本,依次讀取當(dāng)前語音文本中的每個(gè)詞以及用于標(biāo)記所述nv特征類的標(biāo)記詞,并分別與所述dis-nv特征集中各所述dis特征詞、nv特征類進(jìn)行匹配,若目標(biāo)詞匹配成功,獲取目標(biāo)詞在當(dāng)前語音文本中的持續(xù)時(shí)間,根據(jù)獲取到的持續(xù)時(shí)間計(jì)算得到目標(biāo)詞的dis-nv特征值;否則目標(biāo)詞對(duì)應(yīng)的所述dis-nv特征值為0。作為本發(fā)明的進(jìn)一步改進(jìn):所述進(jìn)行匹配具體預(yù)先構(gòu)建具有字符串匹配功能的匹配模塊,通過調(diào)用所述匹配模塊進(jìn)行匹配。作為本發(fā)明的進(jìn)一步改進(jìn):所述根據(jù)獲取到的持續(xù)時(shí)間具體按照下式計(jì)算得到對(duì)應(yīng)的dis-nv特征值;dd=td/td;其中,dd為目標(biāo)特征詞d所對(duì)應(yīng)的dis-nv特征值,td為目標(biāo)特征詞d對(duì)應(yīng)語音的持續(xù)時(shí)間,td為目標(biāo)特征詞d所在整個(gè)句子的持續(xù)時(shí)間。作為本發(fā)明的進(jìn)一步改進(jìn):所述dis-nv特征值計(jì)算時(shí),具體使用一個(gè)包含指定個(gè)詞的移動(dòng)窗依次移過待提取語音文本,計(jì)算所述目標(biāo)詞d所在的移動(dòng)窗內(nèi)所有詞的持續(xù)時(shí)間之和,并作為所述目標(biāo)詞d所在整個(gè)句子的持續(xù)時(shí)間。作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟s2中得到blstm分類模型后還包括模型調(diào)整步驟,具體步驟為:使用得到的所述blstm情感分類模型計(jì)算預(yù)測情感值,基于預(yù)先確定的模型損失函數(shù)將計(jì)算得到的所述預(yù)測情感值與標(biāo)準(zhǔn)情感值進(jìn)行比較,根據(jù)比較結(jié)果調(diào)整所述blstm情感分類模型,輸出最終的blstm情感分類模型。作為本發(fā)明的進(jìn)一步改進(jìn):所述blstm情感分類模型的模型損失函數(shù)具體采用均方誤差函數(shù),即通過計(jì)算所述預(yù)測情感值與標(biāo)準(zhǔn)情感值之間的均方誤差,根據(jù)誤差結(jié)果調(diào)整所述blstm分類模型。作為本發(fā)明的進(jìn)一步改進(jìn):所述dis特征詞具體包括用于作為插入詞且為不帶有含義的非語言插入類詞、用于作為插入詞且?guī)в泻x的語言插入類詞以及具有重復(fù)使用特性的語言重復(fù)類詞中一種或多種。作為本發(fā)明的進(jìn)一步改進(jìn):所述nv特征類包括呼吸聲和/或笑聲的發(fā)聲類型。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:1)本發(fā)明基于dis-nv特征的情感識(shí)別方法,以具有不流利特性的情感詞作為dis特征詞,以及具有非語言特性的發(fā)聲類型作為nv特征類,基于dis特征詞、nv特征類的dis-nv特征來識(shí)別說話人的情感狀態(tài),能夠充分利用對(duì)話當(dāng)中存在的不流利特性、非語言特性的語音文本,實(shí)現(xiàn)準(zhǔn)確的情感識(shí)別,且使用dis-nv特征能夠大大減少特征量,便于實(shí)現(xiàn)分類模型的訓(xùn)練,所需訓(xùn)練時(shí)間短,因而實(shí)現(xiàn)快速、高效的情感識(shí)別;2)本發(fā)明基于dis-nv特征的情感識(shí)別方法,結(jié)合基于長距離信息的blstm模型訓(xùn)練分類模型,可以同時(shí)在兩個(gè)方向上訓(xùn)練lstm,能夠充分利用情感的時(shí)序信息,增強(qiáng)上下文敏感的序列處理,且blstm模型能夠充分學(xué)習(xí)到dis-nv特征所表示的情感信息,從而更加精確有效地預(yù)測單詞中的情感信息,有效提高情感識(shí)別效果,同時(shí)基于dis-nv特征,blstm分類模型的訓(xùn)練過程簡單、訓(xùn)練效率高;3)本發(fā)明基于dis-nv特征的情感識(shí)別方法,在訓(xùn)練得到blstm分類模型后,進(jìn)一步根據(jù)blstm分類模型與標(biāo)準(zhǔn)情感值之間的誤差調(diào)整模型,能夠進(jìn)一步充分利用dis-nv特征,構(gòu)建得到高精度的分類模型,有效提高分類模型的精度。附圖說明圖1是本實(shí)施例基于dis-nv特征的情感識(shí)別方法的實(shí)現(xiàn)流程示意圖。圖2是本實(shí)施例dis-nv特征值提取的詳細(xì)流程示意圖。圖3是lstm模型的基本結(jié)構(gòu)原理示意圖。圖4是lstm模型中記憶細(xì)胞的結(jié)構(gòu)原理示意圖。圖5是brnn模型的結(jié)構(gòu)原理示意圖。圖6是本實(shí)施例獲取blstm分類模型的實(shí)現(xiàn)流程示意圖。圖7是本實(shí)施例進(jìn)行情感識(shí)別的實(shí)現(xiàn)流程示意圖。具體實(shí)施方式以下結(jié)合說明書附圖和具體優(yōu)選的實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述,但并不因此而限制本發(fā)明的保護(hù)范圍。如圖1所示,本實(shí)施例基于dis-nv特征的情感識(shí)別方法步驟包括:s1.dis-nv特征集構(gòu)建:選取具有不流利特性的情感詞作為dis特征詞、以及具有非語言特性的發(fā)聲類型作為nv特征類,構(gòu)建得到dis-nv特征集。情感可以影響大腦中的神經(jīng)機(jī)制,從而影響情感處理和注意力,因而相比于lld特征,基于知識(shí)的特征能夠獲得更好的預(yù)測性能。本實(shí)施例以具有不流利特性的情感詞作為dis特征詞,以及具有非語言特性的發(fā)聲類型作為nv特征類,基于dis特征詞、nv特征類的dis-nv特征來識(shí)別說話人的情感狀態(tài),能夠充分利用對(duì)話當(dāng)中存在的不流利特性(dis)、非語言特性(nv)的語音文本,實(shí)現(xiàn)準(zhǔn)確的情感識(shí)別,且相比于傳統(tǒng)的lld特征,使用dis-nv特征能夠大大減少特征量,便于實(shí)現(xiàn)分類模型的訓(xùn)練,所需訓(xùn)練時(shí)間短,因而實(shí)現(xiàn)快速、高效的情感識(shí)別。本實(shí)施例具體是基于單詞級(jí)別的情感識(shí)別,即將語音文本中的每一個(gè)單詞都看做一個(gè)數(shù)據(jù)樣本。本實(shí)施例首先構(gòu)建dis-nv特征集,dis-nv特征集包括dis特征詞以及nv特征類,其中dis特征詞具體包括用于作為插入詞且不包含帶有含義詞匯的非語言插入類詞、用于作為插入詞以保持連續(xù)性且包含帶有含義詞匯的語言插入類詞以及具有重復(fù)使用特性的語言重復(fù)類詞三種,具體為:①非語言插入類詞即是一種不包含具體詞匯的插入詞,該類插入單詞并沒有實(shí)際的含義,但是包含有效的情感信息,因而可以利用該特征實(shí)現(xiàn)情感識(shí)別。例如在句子“hmm...idon’tknowhowtodoit.”中的單詞“hmm”,即可作為非語言插入類詞,以及“em”,“eh”,“oh”等均可作為非語言插入類詞。非語言插入類詞具體可根據(jù)實(shí)際需求設(shè)定;②語言插入類詞即是為了保持對(duì)話的連續(xù)性所使用的插入詞,如當(dāng)說話人沒找到恰當(dāng)?shù)卦~描述時(shí)而使用的插入詞,該類詞同樣能夠表征說話人的情感狀態(tài),如“ithoughti'd,youknow,haveachatwithyou”中的“youknow”,即可以作為語言插入類詞,以及“well”,“youknow”,“imean”等均可作為語言類插入詞;③語言重復(fù)類詞是重復(fù)使用的詞,該類詞能夠表征說話人在表達(dá)時(shí)的情感狀態(tài),如說話人會(huì)由于緊張等原因而不自覺地重復(fù)某些詞或某些詞的一部分,例如,在“mamaybeitwillcometrue”中出現(xiàn)的“ma”,即是語言重復(fù)類詞。本實(shí)施例dis-nv特征集還包括填充詞(如:like、isee)、停頓詞(如:err、hmm)等,當(dāng)然dis特征詞也可以根據(jù)實(shí)際需求采用上述非語言插入類詞、語言插入類詞以及語言重復(fù)類詞中任意一種或多種的組合,還可以根據(jù)實(shí)際需求采用其他類日常生活中頻繁使用的單詞作為不流利特性的情感詞以進(jìn)一步提高識(shí)別效果。呼吸聲、笑聲包含了說話人有效的情感信息,本實(shí)施例nv特征類具體包括呼吸聲和笑聲兩種發(fā)聲類型,還可以根據(jù)實(shí)際需求設(shè)定為其中一種,或者考慮其他類型的發(fā)聲類型以進(jìn)一步提高識(shí)別效果。呼吸聲和笑聲可使用語音文本中提供的對(duì)應(yīng)呼吸聲和笑聲的標(biāo)注詞。以avec2012數(shù)據(jù)庫為例,本實(shí)施例上述dis-nv特征集在avec2012數(shù)據(jù)庫中出現(xiàn)的比例如表1所示,其中fp對(duì)應(yīng)為非語言插入類詞,fl對(duì)應(yīng)為語言插入類詞,st為語言重復(fù)類詞,la為笑聲,br為呼吸聲,從表中可以看出,數(shù)據(jù)庫中包含大量的dis-nv特征,基于該dis-nv特征可有效表征情感狀態(tài)。表1:avec2012數(shù)據(jù)庫中dis-nv特征集存在的比例表。本實(shí)施例dis-nv特征僅需5個(gè),相比于lld特征,能夠大大減少特征數(shù)量,從而減小分類模型的訓(xùn)練復(fù)雜度。s2.情感分類模型訓(xùn)練:獲取對(duì)應(yīng)各類情感的訓(xùn)練語音文本,將各訓(xùn)練語音文本分別與dis-nv特征集進(jìn)行匹配,根據(jù)匹配結(jié)果提取得到對(duì)應(yīng)的dis-nv特征值,并基于雙向時(shí)序信息采用blstm模型進(jìn)行訓(xùn)練,得到blstm分類模型。s21.dis-nv特征值提取本實(shí)施例訓(xùn)練語言文本具體來自avec2012數(shù)據(jù)庫,avec2012作為一個(gè)自發(fā)型的語料庫,包含24個(gè)人對(duì)應(yīng)不同情感狀態(tài)(開心、生氣、沮喪等)的大量對(duì)話語音,數(shù)據(jù)庫中還提供有每段對(duì)話對(duì)應(yīng)的情感標(biāo)簽、時(shí)間、文本、音頻等信息,數(shù)據(jù)庫中提供有呼吸聲、笑聲的標(biāo)注詞,當(dāng)然在其他實(shí)施例中還可以采用其他數(shù)據(jù)庫,對(duì)數(shù)據(jù)庫中使用標(biāo)記詞將各具有非語言特性的發(fā)聲類型(如呼吸聲、笑聲等)進(jìn)行標(biāo)記,后續(xù)通過查找數(shù)據(jù)庫中標(biāo)記詞與dis-nv特征集中nv特征類進(jìn)行匹配,得到所存在的nv特征類。本實(shí)施例具體使用avec2012語料庫中單詞級(jí)別的情感標(biāo)簽,avec2012語料庫在激勵(lì)-期望-支配-效價(jià)四維情感空間中進(jìn)行標(biāo)注,通過激勵(lì)維度描述主體的主動(dòng)性,越激烈的情感所對(duì)應(yīng)的值越高;期望維度呈現(xiàn)的是說話人對(duì)該話題是否是可預(yù)料的,可以表達(dá)對(duì)該話題的關(guān)注程度;通過支配維度可以獲取說話人在對(duì)話中的所處的身份信息;效價(jià)維度表達(dá)主體的感受,積極的情感對(duì)應(yīng)著正向的情感值。本實(shí)施例具體基于avec2012數(shù)據(jù)庫,將數(shù)據(jù)庫中訓(xùn)練集和發(fā)展集合并成一個(gè)訓(xùn)練集來訓(xùn)練分類模型。訓(xùn)練過程中,dis-nv特征值的提取步驟為:獲取待提取語音文本作為當(dāng)前語音文本,依次讀取當(dāng)前語音文本中的每個(gè)詞以及用于標(biāo)記nv特征類的標(biāo)記詞,并分別與dis-nv特征集中各dis特征詞、nv特征類進(jìn)行匹配,若目標(biāo)詞匹配成功,獲取目標(biāo)詞在當(dāng)前語音文本中的持續(xù)時(shí)間,根據(jù)獲取到的持續(xù)時(shí)間計(jì)算得到目標(biāo)詞對(duì)應(yīng)的dis-nv特征值;否則目標(biāo)詞對(duì)應(yīng)的dis-nv特征值為0。各語音文本中每個(gè)單詞提取得到對(duì)應(yīng)5個(gè)情感特征值的5個(gè)dis-nv特征。本實(shí)施例中,根據(jù)獲取到的持續(xù)時(shí)間具體按照下式(1)計(jì)算得到對(duì)應(yīng)的dis-nv特征值;dd=td/td(1)其中,dd為目標(biāo)詞d所對(duì)應(yīng)的dis-nv特征值;td為目標(biāo)詞d所對(duì)應(yīng)的dis-nv特征值持續(xù)時(shí)間,具體可根據(jù)單詞對(duì)應(yīng)的起始時(shí)間、結(jié)束時(shí)間計(jì)算得到;td為目標(biāo)詞d所在整個(gè)句子的持續(xù)時(shí)間。本實(shí)施例dis-nv特征集具體使用5個(gè)列表分別存儲(chǔ)與5個(gè)特征相關(guān)的單詞,遍歷與語音對(duì)應(yīng)的文本文檔并與列表中的詞進(jìn)行匹配,如果匹配成功,則使用上述式(1)計(jì)算對(duì)應(yīng)的dis-nv特征值;如果匹配失敗,則對(duì)應(yīng)的dis-nv特征值為0。如圖2所示,本實(shí)施例訓(xùn)練過程中提取dis-nv特征值的詳細(xì)流程為:①開始執(zhí)行dis-nv特征值提取,設(shè)置i=1;②讀取當(dāng)前訓(xùn)練語音文本中的第i個(gè)單詞,將讀取到的單詞i與dis-nv特征集進(jìn)行匹配,查找dis-nv特征集中是否存在與單詞i匹配的單詞,如果是,轉(zhuǎn)入執(zhí)行步驟③,否則將單詞i對(duì)應(yīng)的dis-nv特征值dd為0,轉(zhuǎn)入執(zhí)行步驟④;③計(jì)算單詞i對(duì)應(yīng)的語音的持續(xù)時(shí)間td,以及單詞i所在句子的持續(xù)時(shí)間td,按照公式(1)計(jì)算得到單詞i對(duì)應(yīng)的dis-nv特征值dd;④判斷單詞i是否為當(dāng)前訓(xùn)練語音文本中的最后一個(gè)單詞,如果是,結(jié)束當(dāng)前訓(xùn)練語音文本的提取過程,否則i=i+1,轉(zhuǎn)入執(zhí)行步驟②。由于每個(gè)句子之間的時(shí)間間隔是不確定的,無法直接計(jì)算所在整個(gè)句子的持續(xù)時(shí)間td。本實(shí)施例中,dis-nv特征值計(jì)算時(shí),具體使用一個(gè)包含指定個(gè)詞的移動(dòng)窗依次移過待提取語音文本,將目標(biāo)詞d對(duì)應(yīng)的移動(dòng)窗內(nèi)所有詞的持續(xù)時(shí)間之和作為目標(biāo)詞d所在整個(gè)句子的持續(xù)時(shí)間。由于通常在15個(gè)單詞內(nèi)說話人的情感狀態(tài)幾乎是保持一致的,因而選擇移動(dòng)窗的長度為15個(gè)單詞。在具體應(yīng)用實(shí)施例中,設(shè)定一個(gè)移動(dòng)窗包含15個(gè)單詞,對(duì)應(yīng)表示一個(gè)句子,則一段語音文本中從第一個(gè)單詞到第十五個(gè)單詞的移動(dòng)窗不變,即前15個(gè)單詞有相同的td值,從第十六個(gè)單詞開始,移動(dòng)窗每次移動(dòng)一個(gè)單詞,其中單詞wi所在的句子的持續(xù)時(shí)間td等于w(i-14)到wi之間的所有單詞的時(shí)間和,其中i為單詞在語音文本中的位置。移動(dòng)窗的長度具體可根據(jù)說話人在對(duì)話中每個(gè)句子的平均長度進(jìn)行設(shè)定。本實(shí)施例中,將語音文本分別與dis-nv特征集進(jìn)行匹配時(shí),具體預(yù)先構(gòu)建具有字符串匹配功能的匹配模塊,通過調(diào)用匹配模塊進(jìn)行匹配。匹配模塊具體使用python編寫的字符串匹配算法實(shí)現(xiàn)。為了進(jìn)一步確保所有的結(jié)果的正確性,本實(shí)施例在通過匹配模塊執(zhí)行完匹配后,進(jìn)一步進(jìn)行檢查驗(yàn)證,以消除錯(cuò)誤識(shí)別為dis特征詞的情況,如將“byebye”誤認(rèn)成語言重復(fù),“well”在“itworkswell”中錯(cuò)誤匹配為填充詞等。s21.情感分類模型訓(xùn)練本實(shí)施例中,步驟s2中采用blstm模型對(duì)各訓(xùn)練語音文本提取到的dis-nv特征值進(jìn)行訓(xùn)練,得到blstm情感分類模型。blstm模型是結(jié)合brnn(雙向的rnn模型)與lstm(長短期記憶網(wǎng)絡(luò))模型得到,lstm是一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)包含一個(gè)輸入門、一個(gè)由自連接的記憶細(xì)胞組成的隱藏層和一個(gè)輸出層。如圖3所示,對(duì)于一個(gè)給定的輸入序列x=(x1,...,xt),t表示x輸入的時(shí)間,序列x通過隱藏層得到一個(gè)新的序列h=(h1,...,ht),隱藏層產(chǎn)生的序列h將作為輸出層(通常是一個(gè)激勵(lì)函數(shù))的輸入,由輸出層得到一個(gè)最終的結(jié)果y=(y1,...,yt)。對(duì)于給定的時(shí)刻t,整個(gè)過程的迭代方程如下:(ht,ct)=h(xt,ht-1,ct-1)(2)yt=whyht+by(3)其中t表示當(dāng)前時(shí)刻,t-1表示緊鄰的過去時(shí)刻,h表示隱藏層的輸出,c表示細(xì)胞窗臺(tái),x是輸入,y表示最終的輸出結(jié)果。第一個(gè)函數(shù)表示當(dāng)前的隱藏層的輸出ht和當(dāng)前的細(xì)胞狀態(tài)ct是由當(dāng)前的輸入值x、過去的隱藏層的輸出以及過去的細(xì)胞狀態(tài)共同決定的;在第二個(gè)函數(shù)中,w和b是輸出層的激勵(lì)函數(shù)的參數(shù),分別表示權(quán)重和偏置值。隱藏層的lstm細(xì)胞中每個(gè)細(xì)胞是由3個(gè)門組成,包括輸入門、輸出門和忘記門,lstm記憶細(xì)胞的具體結(jié)構(gòu)如圖4所示,具體按照下列方程式執(zhí)行處理:ft=δ(wxfxt+whfht-1+bf)(4)it=δ(wxixt+whiht-1+bi)(5)ct=ftct-1+ittanh(wxcxt+whcht-1+bc)(6)ot=δ(wxoxt+whoht-1+wcoct-1+bo)(7)ht=ottanh(ct)(8)其中式(4)為一個(gè)sigmoid激勵(lì)函數(shù),通過該函數(shù)可以選擇丟棄一些無用的信息,在圖中對(duì)應(yīng)的sigmoid層即為忘記門;通過式(5)、(6)確定所需更新的數(shù)據(jù)以及所需存儲(chǔ)的數(shù)據(jù)值,在圖中對(duì)應(yīng)的部分即為輸入門;式(7)用于將舊的細(xì)胞狀態(tài)ct-1更新到新的細(xì)胞狀態(tài)ct,對(duì)應(yīng)圖中的輸出門;通過式(8)計(jì)算隱藏層的輸出。由于具有上述特殊的門結(jié)構(gòu),lstm-rnn能夠?qū)⑿畔募?xì)胞中移除或增加新的信息到細(xì)胞中,從而在避免長依賴性問題的同時(shí)充分利用到過去的信息。brnn模型則由兩個(gè)隱藏層分別處理兩個(gè)不同方向的信息,如圖5所示,一個(gè)隱藏層計(jì)算從前往后的結(jié)果,另一個(gè)隱藏層計(jì)算從后往前的結(jié)果,在t時(shí)刻,最終的輸出序列yt是由向前的和向后的共同決定的。對(duì)于某一時(shí)刻t,其迭代過程如下所示:blstm模型結(jié)合了brnn與lstm的優(yōu)勢,可以在兩個(gè)方向有效地利用長距離的上下文信息,在處理離線序列標(biāo)注任務(wù)中非常有效。本實(shí)施例在采用上述dis-nv特征的基礎(chǔ)上,綜合考慮dis-nv特征及blstm模型的特性,使用能夠充分利用序列信息以及適用于離線序列標(biāo)注任務(wù)的blstm模型,對(duì)dis-nv特征進(jìn)行訓(xùn)練以得到情感分類模型。相比于傳統(tǒng)的支持向量機(jī)、隱馬爾科夫模型、條件隨機(jī)域等傳統(tǒng)的模型,本實(shí)施例結(jié)合基于長距離信息的blstm模型訓(xùn)練分類模型,可以同時(shí)在兩個(gè)方向上訓(xùn)練lstm(長短期記憶網(wǎng)絡(luò)),能夠充分利用情感的時(shí)序信息,增強(qiáng)上下文敏感的序列處理,且由于在對(duì)話的中情感是連續(xù)的、相關(guān)聯(lián)的,相鄰單詞之間的情感并非是獨(dú)立的,本實(shí)施例通過blstm的雙向特性能夠充分學(xué)習(xí)到dis-nv特征所表示的情感信息,從而更加精確有效地預(yù)測單詞中的情感信息,有效提高識(shí)別效果,同時(shí)dis-nv的特征數(shù)量少,blstm分類模型的訓(xùn)練過程簡單、訓(xùn)練效率高,能夠充分利用dis-nv特征進(jìn)行訓(xùn)練,構(gòu)建得到高精度的分類模型,實(shí)現(xiàn)高效的情感識(shí)別。blstm模型尤其適用于處理離線序列標(biāo)注任務(wù)本實(shí)施例中,步驟s2中得到情感分類模型后還包括情感分類模型調(diào)整步驟,具體步驟為:使用得到的blstm情感分類模型計(jì)算預(yù)測情感值,基于預(yù)先確定的模型損失函數(shù)將計(jì)算得到的預(yù)測情感值與標(biāo)準(zhǔn)情感值進(jìn)行比較,根據(jù)比較結(jié)果調(diào)整blstm情感分類模型,輸出最終的blstm情感分類模型。本實(shí)施例中,blstm情感分類模型的模型損失函數(shù)具體采用均方誤差,即通過計(jì)算預(yù)測情感值與標(biāo)準(zhǔn)情感值之間的均方誤差,根據(jù)誤差結(jié)果調(diào)整blstm情感分類模型。如圖6所示,本實(shí)施例對(duì)訓(xùn)練數(shù)據(jù)庫進(jìn)行dis-nv特征值提取,由提取到的dis-nv特征值訓(xùn)練blstm分類模型,得到blstm分類模型后,通過blstm分類模型計(jì)算預(yù)測情感值,并計(jì)算與標(biāo)注情感值之間的均方誤差,根據(jù)誤差值調(diào)整blstm分類模型,直至誤差值在預(yù)設(shè)范圍內(nèi)。本實(shí)施例結(jié)合dis-nv特征的特性,通過根據(jù)與標(biāo)準(zhǔn)情感值之間的誤差調(diào)整blstm情感分類模型,能夠進(jìn)一步充分利用dis-nv特征,進(jìn)一步提高分類模型的精度。本實(shí)施例具體使用tensorflow工具來搭建blstm-rnn模型,其中在隱藏層,向前和向后的兩個(gè)方向都設(shè)置16個(gè)lstm記憶細(xì)胞,在隱藏層和輸出層之間添加了一個(gè)dropout層,用來避免網(wǎng)絡(luò)的過擬合問題,丟棄因子設(shè)為0.5,以及用adam算法作為網(wǎng)絡(luò)的優(yōu)化器,學(xué)習(xí)率和動(dòng)量因子分別設(shè)為0.01、0.8。s3.語音情感識(shí)別:獲取待識(shí)別語音文本,將待識(shí)別語音文本與dis-nv特征詞集進(jìn)行匹配,根據(jù)匹配結(jié)果提取得到對(duì)應(yīng)的dis-nv特征值,并使用情感分類模型進(jìn)行識(shí)別,輸出情感識(shí)別結(jié)果。本實(shí)施例中可以直接獲取待識(shí)別語音文本進(jìn)行識(shí)別,也可以獲取待識(shí)別語音,轉(zhuǎn)換為對(duì)應(yīng)的語音文本后進(jìn)行識(shí)別。s31.特征提取本實(shí)施例中,與上述訓(xùn)練語音文本提取dis-nv特征值相同的,待識(shí)別語音文本的dis-nv特征值的提取步驟為:獲取待識(shí)別語音文本作為當(dāng)前語音文本,依次讀取當(dāng)前語音文本中的每個(gè)詞以及用于標(biāo)記nv特征類的標(biāo)記詞,并分別與dis-nv特征集中各dis特征詞、nv特征類進(jìn)行匹配,若目標(biāo)詞或目標(biāo)nv特征標(biāo)記匹配成功,獲取目標(biāo)詞或目標(biāo)nv特征標(biāo)記在當(dāng)前語音文本中的持續(xù)時(shí)間,根據(jù)獲取到的持續(xù)時(shí)間計(jì)算得到目標(biāo)詞或目標(biāo)nv特征標(biāo)記的dis-nv特征值;否則目標(biāo)詞或目標(biāo)nv特征標(biāo)記對(duì)應(yīng)的dis-nv特征值為0。詳細(xì)步驟如上s2以及圖2所示。s32.情感識(shí)別如圖7所示,本實(shí)施例執(zhí)行識(shí)別或測試時(shí),首先對(duì)待識(shí)別語音文本或測試語音文本進(jìn)行dis-nv特征提取,得到對(duì)應(yīng)的dis-nv特征值,其中待識(shí)別語音文本或測試語音文本中每個(gè)單詞得到對(duì)應(yīng)上述5類dis-nv特征(非語言類插入詞、語言類插入詞、語言重復(fù)類詞以及呼吸聲、笑聲)的5個(gè)dis-nv特征值,將提取到的dis-nv特征值輸入值訓(xùn)練好的blstm分類模型中,輸出預(yù)測的情感值,得到情感識(shí)別結(jié)果。為驗(yàn)證本實(shí)施例上述方法的有效性,本實(shí)施例使用avec2012數(shù)據(jù)庫測試集,分別采用傳統(tǒng)的lld+svm方法(采用lld特征、svm分類模型的方法),lld+lstm(采用lld特征、lstm分類模型的方法)以及dis-nv+lstm方法(采用本實(shí)施例上述dis-nv特征、lstm分類模型的方法),以及本實(shí)施例上述方法(采用dis-nv特征、blstm分類模型)進(jìn)行情感識(shí)別測試,其中將連續(xù)的情感標(biāo)注歸一化到[-1,1],每個(gè)維度上的連續(xù)值分別離散化到單個(gè)類別中,其中類別0對(duì)應(yīng)值的范圍為[-1,-0.333],類別1對(duì)應(yīng)值的范圍為(-0.333,0.333),類別2對(duì)應(yīng)值的范圍為[0.333,1]。試驗(yàn)結(jié)果如表2所示,其中各測試結(jié)果為3個(gè)類的加權(quán)f值的結(jié)果,每個(gè)情感維度對(duì)應(yīng)有一個(gè)結(jié)果,平均值列對(duì)應(yīng)為四個(gè)維度的f值得非加權(quán)平均值。表2:各類方法基于avec2012數(shù)據(jù)庫的測試結(jié)果表。特征+分類模型激勵(lì)(%)期望(%)支配(%)效價(jià)(%)平均值lld+svm52.460.867.559.260.0lld+lstm52.460.766.158.159.3dis-nv+lstm54.165.868.360.162.0dis-nv+blstm77.078.071.977.076.0由上述表2可知,相比于傳統(tǒng)的lld+svm方法、lld+lstm方法以及dis-nv+lstm方法,本實(shí)施例結(jié)合dis-nv特征和blstm模型的dis-nv+blstm方法都具有更好的識(shí)別性能,能夠?qū)崿F(xiàn)精度更高的情感識(shí)別,能夠有效提高情感識(shí)別的精確度,在avec2012語料庫上的識(shí)別精度具體能夠達(dá)到76%,與傳統(tǒng)的lstm+dis-nv相結(jié)合的性能相比,能夠提高14%。上述只是本發(fā)明的較佳實(shí)施例,并非對(duì)本發(fā)明作任何形式上的限制。雖然本發(fā)明已以較佳實(shí)施例揭露如上,然而并非用以限定本發(fā)明。因此,凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所做的任何簡單修改、等同變化及修飾,均應(yīng)落在本發(fā)明技術(shù)方案保護(hù)的范圍內(nèi)。當(dāng)前第1頁12