一種基于偽說話人聚類的語音情感特征規(guī)整化方法
【專利摘要】本發(fā)明公開了一種基于偽說話人聚類的語音情感特征規(guī)整化方法,適合應(yīng)用于非特定說話人情感識(shí)別。本發(fā)明首先提取出能夠反映說話人信息的特征空間;接著在此特征空間內(nèi)進(jìn)行模糊聚類,自動(dòng)獲得情感語料中的說話人的身份信息,據(jù)此信息進(jìn)行“偽說話人”分組,每一條樣本按照其相似程度劃分到不同的偽說話人分組中;而后根據(jù)每條樣本的偽說話人組別信息,進(jìn)行情感特征的規(guī)整化;最終在規(guī)整化后的數(shù)據(jù)中加入相應(yīng)組別的模糊隸屬度信息。通過上述處理過程,使得情感特征空間中的樣本分布更加清晰有效,降低了大量說話人帶來的特征差異,增強(qiáng)了說話人魯棒性。
【專利說明】一種基于偽說話人聚類的語音情感特征規(guī)整化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種語音情感識(shí)別方法,特別涉及一種基于偽說話人聚類的語音情感特征規(guī)整化方法。
【背景技術(shù)】
[0002]語音情感識(shí)別技術(shù)的研究正在從以往的實(shí)驗(yàn)室條件轉(zhuǎn)向真實(shí)世界中的實(shí)際應(yīng)用。以往的情感識(shí)別研究往往是依據(jù)表演方式采集的語料庫,其中的情感類別數(shù)量較少,大部分為基本情感類別,說話人的數(shù)量也相對(duì)較少。而在一些實(shí)際應(yīng)用中,需要涉及到大量非特定說話人的情感語音,這就需要情感識(shí)別系統(tǒng)具有非特定說話人的魯棒性。
[0003]以話務(wù)中心的語音數(shù)據(jù)處理為例,在銀行、電信等大型服務(wù)行業(yè)領(lǐng)域,客戶的滿意度是一個(gè)重要的業(yè)務(wù)指標(biāo),因此在話務(wù)中心需要對(duì)客服通話進(jìn)行錄音,以便于分析和考核服務(wù)質(zhì)量。然而對(duì)于大量的情感語音,很難進(jìn)行人工聽辨,通過自動(dòng)識(shí)別的方式則可以快速的對(duì)錄音數(shù)據(jù)進(jìn)行篩選,識(shí)別出客戶的情感信息。在這樣的應(yīng)用中,涉及到大量的非特定說話人,由于情感的個(gè)性化差異較大,會(huì)導(dǎo)致情感特征的復(fù)雜度增加,情感建模的困難加大,因此有必要研究非特定說話人的特征規(guī)整化技術(shù)。
[0004]很多規(guī)整化技術(shù)都可以用于提高一個(gè)識(shí)別系統(tǒng)的性能,在說話人識(shí)別、語種識(shí)別和自動(dòng)語音識(shí)別中有很多的應(yīng)用。在說話人識(shí)別技術(shù)中,倒譜均值減法(CepstralMeanSubtraction, CMS)經(jīng)常用于鎂爾倒譜系數(shù),以降低信道方差。還有些研究者在說話人識(shí)別中考慮了情感因素的影響,并且提出了情感規(guī)整化技術(shù)來提高說話人識(shí)別系統(tǒng)的性能。
[0005]基于性別差異的規(guī)整化也是一類常見的降低說話人之間的特征差異的規(guī)整化技術(shù),近年來不少文獻(xiàn)將性別規(guī)整化用于語音情感識(shí)別系統(tǒng)中,獲得了較好的性能提升效果。
[0006]Sethu等人較早的研究了語音情感識(shí)別系統(tǒng)中的說話人規(guī)整化問題,他們提出的特征規(guī)整化技術(shù)使得識(shí)別率平均提高了百分之六左右。然而他們的實(shí)驗(yàn)中涉及到的說話人數(shù)量較少,僅有七人。Vlasenko等人,在SUSAS情感語音庫和柏林庫上的實(shí)驗(yàn)中應(yīng)用了說話人規(guī)整化技術(shù)(SpeakerNormalization, SN)。SN技術(shù)在柏林庫上獲得了百分之五的識(shí)別率提升。然而在很多實(shí)際場(chǎng)合中,說話人的身份是未知的,這就給SN技術(shù)的應(yīng)用帶來了困難。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的就在于針對(duì)上述現(xiàn)有特征規(guī)整化技術(shù)的缺陷,設(shè)計(jì)一種基于偽說話人聚類的情感特征規(guī)整化方法。本發(fā)明的技術(shù)方案是:
[0008]一種基于偽說話人聚類的語音情感特征規(guī)整化方法,其主要技術(shù)步驟為:
[0009]提取出能夠反映說話人信息的特征空間;在此說話人特征空間內(nèi)進(jìn)行模糊聚類,自動(dòng)獲得情感語料中的說話人的身份信息;據(jù)此信息進(jìn)行“偽說話人”分組,每一條樣本按照其相似程度劃分到不同的偽說話人分組中;根據(jù)每條樣本的偽說話人組別信息,進(jìn)行情感特征的規(guī)整化;在規(guī)整化后的數(shù)據(jù)中加入相應(yīng)組別的模糊隸屬度信息。通過這樣的說話人聚類規(guī)整化處理,情感特征空間中的樣本分布更加清晰有效,降低了大量說話人帶來的特征差異,適合應(yīng)用于非特定說話人情感識(shí)別。
[0010](I)對(duì)說話人敏感的特征空間的提取:
[0011](1-1)從情感語料中提取481個(gè)基本聲學(xué)特征參數(shù),這里構(gòu)造的特征參數(shù),是針對(duì)語音情感識(shí)別的,并不是為說話人識(shí)別設(shè)計(jì)的。在整個(gè)語料上的統(tǒng)計(jì)特征,適合于語音情感識(shí)別。
[0012](1-2)提取的這些特征參數(shù),會(huì)受到說話人因素的影響,說話人數(shù)量的增加,會(huì)使得情感特征中的方差增大。將這些原始的聲學(xué)特征變換到一個(gè)對(duì)說話人敏感的特征空間中,將說話人因素的影響體現(xiàn)出來。通過PCA與LDA變換,使得每個(gè)說話人之間的可區(qū)分度最大化,得到說話人敏感的特征空間。
[0013](2)說話人模糊聚類
[0014](2-1)在得到的對(duì)說話人敏感的特征空間中,情感數(shù)據(jù)樣本的分布反映出其受到說話人因素影響的大小,樣本聚合之處為同樣的說話人的數(shù)據(jù),樣本分離之處代表了不同的說話人的數(shù)據(jù)。同過模糊聚類算法,在特征空間內(nèi)進(jìn)行的情感樣本自動(dòng)聚類,獲得說話人身份信息。通過聚類得到的說話人身份信息有一定的錯(cuò)誤分類存在,是一種“偽說話人聚類”。
[0015](2-2)在完成了說話人的聚類后,將每條語料的聚類組別作為說話人身份的標(biāo)識(shí)號(hào)。
[0016](3)偽說話人情感特征規(guī)整化
[0017](3-1)在原始的481維特征空間中進(jìn)行規(guī)整化處理:
【權(quán)利要求】
1.一種基于偽說話人聚類的語音情感特征規(guī)整化方法,其特征在于包括以下步驟: 步驟1,對(duì)說話人敏感的特征空間的提??; 步驟2,說話人模糊聚類; 步驟3,偽說話人情感特征規(guī)整化。
2.根據(jù)權(quán)利要求1所述的基于偽說話人聚類的語音情感特征規(guī)整化方法,其特征在于,所述步驟I具體包括以下步驟: 步驟1-1,從情感語料中提取481個(gè)基本聲學(xué)特征參數(shù),這里構(gòu)造的特征參數(shù),是針對(duì)語音情感識(shí)別的,并不是為說話人識(shí)別設(shè)計(jì)的。在整個(gè)語料上的統(tǒng)計(jì)特征,適合于語音情感識(shí)別; 步驟1-2,提取的這些特征參數(shù),會(huì)受到說話人因素的影響,說話人數(shù)量的增加,會(huì)使得情感特征中的方差增大。將這些原始的聲學(xué)特征變換到一個(gè)對(duì)說話人敏感的特征空間中,將說話人因素的影響體現(xiàn)出來。通過PCA與LDA變換,使得每個(gè)說話人之間的可區(qū)分度最大化,得到說話人敏感的特征空間。
3.根據(jù)權(quán)利要求1所述的基于偽說話人聚類的語音情感特征規(guī)整化方法,其特征在于,所述步驟2具體包括以下步驟: 步驟2-1,在得到的對(duì)說話人敏感的特征空間中,情感數(shù)據(jù)樣本的分布反映出其受到說話人因素影響的大小,樣本聚合之處為同樣的說話人的數(shù)據(jù),樣本分離之處代表了不同的說話人的數(shù)據(jù)。同過模糊聚類算法,在特征空間內(nèi)進(jìn)行的情感樣本自動(dòng)聚類,獲得說話人身份信息。通過聚類得到的說話人身份信息有一定的錯(cuò)誤分類存在,是一種“偽說話人聚類”; 步驟2-2,在完成了說話人的聚類后,將每條語料的聚類組別作為說話人身份的標(biāo)識(shí)號(hào)。
4.根據(jù)權(quán)利要求1所述的基于偽說話人聚類的語音情感特征規(guī)整化方法,其特征在于,所述步驟3具體包括以下步驟: 步驟3-1,按照下面公式(I)在原始的481維特征空間中進(jìn)行規(guī)整化處理:
【文檔編號(hào)】G10L25/63GK103531198SQ201310534319
【公開日】2014年1月22日 申請(qǐng)日期:2013年11月1日 優(yōu)先權(quán)日:2013年11月1日
【發(fā)明者】黃程韋, 趙力, 魏昕, 王浩, 查誠, 余華 申請(qǐng)人:東南大學(xué)