一種基于偽說話人聚類的語音情感特征規(guī)整化方法

文檔序號(hào)：2826386閱讀：288來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于偽說話人聚類的語音情感特征規(guī)整化方法
【專利摘要】本發(fā)明公開了一種基于偽說話人聚類的語音情感特征規(guī)整化方法，適合應(yīng)用于非特定說話人情感識(shí)別。本發(fā)明首先提取出能夠反映說話人信息的特征空間；接著在此特征空間內(nèi)進(jìn)行模糊聚類，自動(dòng)獲得情感語料中的說話人的身份信息，據(jù)此信息進(jìn)行“偽說話人”分組，每一條樣本按照其相似程度劃分到不同的偽說話人分組中；而后根據(jù)每條樣本的偽說話人組別信息，進(jìn)行情感特征的規(guī)整化；最終在規(guī)整化后的數(shù)據(jù)中加入相應(yīng)組別的模糊隸屬度信息。通過上述處理過程，使得情感特征空間中的樣本分布更加清晰有效，降低了大量說話人帶來的特征差異，增強(qiáng)了說話人魯棒性。
【專利說明】一種基于偽說話人聚類的語音情感特征規(guī)整化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種語音情感識(shí)別方法，特別涉及一種基于偽說話人聚類的語音情感特征規(guī)整化方法。
【背景技術(shù)】
[0002]語音情感識(shí)別技術(shù)的研究正在從以往的實(shí)驗(yàn)室條件轉(zhuǎn)向真實(shí)世界中的實(shí)際應(yīng)用。以往的情感識(shí)別研究往往是依據(jù)表演方式采集的語料庫，其中的情感類別數(shù)量較少，大部分為基本情感類別，說話人的數(shù)量也相對(duì)較少。而在一些實(shí)際應(yīng)用中，需要涉及到大量非特定說話人的情感語音，這就需要情感識(shí)別系統(tǒng)具有非特定說話人的魯棒性。
[0003]以話務(wù)中心的語音數(shù)據(jù)處理為例，在銀行、電信等大型服務(wù)行業(yè)領(lǐng)域，客戶的滿意度是一個(gè)重要的業(yè)務(wù)指標(biāo)，因此在話務(wù)中心需要對(duì)客服通話進(jìn)行錄音，以便于分析和考核服務(wù)質(zhì)量。然而對(duì)于大量的情感語音，很難進(jìn)行人工聽辨，通過自動(dòng)識(shí)別的方式則可以快速的對(duì)錄音數(shù)據(jù)進(jìn)行篩選，識(shí)別出客戶的情感信息。在這樣的應(yīng)用中，涉及到大量的非特定說話人，由于情感的個(gè)性化差異較大，會(huì)導(dǎo)致情感特征的復(fù)雜度增加，情感建模的困難加大，因此有必要研究非特定說話人的特征規(guī)整化技術(shù)。
[0004]很多規(guī)整化技術(shù)都可以用于提高一個(gè)識(shí)別系統(tǒng)的性能，在說話人識(shí)別、語種識(shí)別和自動(dòng)語音識(shí)別中有很多的應(yīng)用。在說話人識(shí)別技術(shù)中，倒譜均值減法(CepstralMeanSubtraction, CMS)經(jīng)常用于鎂爾倒譜系數(shù)，以降低信道方差。還有些研究者在說話人識(shí)別中考慮了情感因素的影響，并且提出了情感規(guī)整化技術(shù)來提高說話人識(shí)別系統(tǒng)的性能。
[0005]基于性別差異的規(guī)整化也是一類常見的降低說話人之間的特征差異的規(guī)整化技術(shù)，近年來不少文獻(xiàn)將性別規(guī)整化用于語音情感識(shí)別系統(tǒng)中，獲得了較好的性能提升效果。
[0006]Sethu等人較早的研究了語音情感識(shí)別系統(tǒng)中的說話人規(guī)整化問題，他們提出的特征規(guī)整化技術(shù)使得識(shí)別率平均提高了百分之六左右。然而他們的實(shí)驗(yàn)中涉及到的說話人數(shù)量較少，僅有七人。Vlasenko等人，在SUSAS情感語音庫和柏林庫上的實(shí)驗(yàn)中應(yīng)用了說話人規(guī)整化技術(shù)(SpeakerNormalization, SN)。SN技術(shù)在柏林庫上獲得了百分之五的識(shí)別率提升。然而在很多實(shí)際場(chǎng)合中，說話人的身份是未知的，這就給SN技術(shù)的應(yīng)用帶來了困難。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的就在于針對(duì)上述現(xiàn)有特征規(guī)整化技術(shù)的缺陷，設(shè)計(jì)一種基于偽說話人聚類的情感特征規(guī)整化方法。本發(fā)明的技術(shù)方案是:
[0008]一種基于偽說話人聚類的語音情感特征規(guī)整化方法，其主要技術(shù)步驟為:
[0009]提取出能夠反映說話人信息的特征空間；在此說話人特征空間內(nèi)進(jìn)行模糊聚類，自動(dòng)獲得情感語料中的說話人的身份信息；據(jù)此信息進(jìn)行“偽說話人”分組，每一條樣本按照其相似程度劃分到不同的偽說話人分組中；根據(jù)每條樣本的偽說話人組別信息，進(jìn)行情感特征的規(guī)整化；在規(guī)整化后的數(shù)據(jù)中加入相應(yīng)組別的模糊隸屬度信息。通過這樣的說話人聚類規(guī)整化處理，情感特征空間中的樣本分布更加清晰有效，降低了大量說話人帶來的特征差異，適合應(yīng)用于非特定說話人情感識(shí)別。
[0010](I)對(duì)說話人敏感的特征空間的提取:
[0011](1-1)從情感語料中提取481個(gè)基本聲學(xué)特征參數(shù)，這里構(gòu)造的特征參數(shù)，是針對(duì)語音情感識(shí)別的，并不是為說話人識(shí)別設(shè)計(jì)的。在整個(gè)語料上的統(tǒng)計(jì)特征，適合于語音情感識(shí)別。
[0012](1-2)提取的這些特征參數(shù)，會(huì)受到說話人因素的影響，說話人數(shù)量的增加，會(huì)使得情感特征中的方差增大。將這些原始的聲學(xué)特征變換到一個(gè)對(duì)說話人敏感的特征空間中，將說話人因素的影響體現(xiàn)出來。通過PCA與LDA變換，使得每個(gè)說話人之間的可區(qū)分度最大化，得到說話人敏感的特征空間。
[0013](2)說話人模糊聚類
[0014](2-1)在得到的對(duì)說話人敏感的特征空間中，情感數(shù)據(jù)樣本的分布反映出其受到說話人因素影響的大小，樣本聚合之處為同樣的說話人的數(shù)據(jù)，樣本分離之處代表了不同的說話人的數(shù)據(jù)。同過模糊聚類算法，在特征空間內(nèi)進(jìn)行的情感樣本自動(dòng)聚類，獲得說話人身份信息。通過聚類得到的說話人身份信息有一定的錯(cuò)誤分類存在，是一種“偽說話人聚類”。
[0015](2-2)在完成了說話人的聚類后，將每條語料的聚類組別作為說話人身份的標(biāo)識(shí)號(hào)。
[0016](3)偽說話人情感特征規(guī)整化
[0017](3-1)在原始的481維特征空間中進(jìn)行規(guī)整化處理:
【權(quán)利要求】
1.一種基于偽說話人聚類的語音情感特征規(guī)整化方法，其特征在于包括以下步驟: 步驟1，對(duì)說話人敏感的特征空間的提??；步驟2，說話人模糊聚類；步驟3，偽說話人情感特征規(guī)整化。
2.根據(jù)權(quán)利要求1所述的基于偽說話人聚類的語音情感特征規(guī)整化方法，其特征在于，所述步驟I具體包括以下步驟: 步驟1-1，從情感語料中提取481個(gè)基本聲學(xué)特征參數(shù)，這里構(gòu)造的特征參數(shù)，是針對(duì)語音情感識(shí)別的，并不是為說話人識(shí)別設(shè)計(jì)的。在整個(gè)語料上的統(tǒng)計(jì)特征，適合于語音情感識(shí)別；步驟1-2，提取的這些特征參數(shù)，會(huì)受到說話人因素的影響，說話人數(shù)量的增加，會(huì)使得情感特征中的方差增大。將這些原始的聲學(xué)特征變換到一個(gè)對(duì)說話人敏感的特征空間中，將說話人因素的影響體現(xiàn)出來。通過PCA與LDA變換，使得每個(gè)說話人之間的可區(qū)分度最大化，得到說話人敏感的特征空間。
3.根據(jù)權(quán)利要求1所述的基于偽說話人聚類的語音情感特征規(guī)整化方法，其特征在于，所述步驟2具體包括以下步驟: 步驟2-1，在得到的對(duì)說話人敏感的特征空間中，情感數(shù)據(jù)樣本的分布反映出其受到說話人因素影響的大小，樣本聚合之處為同樣的說話人的數(shù)據(jù)，樣本分離之處代表了不同的說話人的數(shù)據(jù)。同過模糊聚類算法，在特征空間內(nèi)進(jìn)行的情感樣本自動(dòng)聚類，獲得說話人身份信息。通過聚類得到的說話人身份信息有一定的錯(cuò)誤分類存在，是一種“偽說話人聚類”；步驟2-2，在完成了說話人的聚類后，將每條語料的聚類組別作為說話人身份的標(biāo)識(shí)號(hào)。
4.根據(jù)權(quán)利要求1所述的基于偽說話人聚類的語音情感特征規(guī)整化方法，其特征在于，所述步驟3具體包括以下步驟: 步驟3-1，按照下面公式(I)在原始的481維特征空間中進(jìn)行規(guī)整化處理:
【文檔編號(hào)】G10L25/63GK103531198SQ201310534319
【公開日】2014年1月22日申請(qǐng)日期:2013年11月1日優(yōu)先權(quán)日:2013年11月1日
【發(fā)明者】黃程韋, 趙力, 魏昕, 王浩, 查誠, 余華申請(qǐng)人:東南大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃程韋;趙力;魏昕;王浩;查誠;余華
技術(shù)所有人：東南大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于偽說話人聚類的語音情感特征規(guī)整化方法