專利名稱:一種韻律類和音質(zhì)類參數(shù)相結(jié)合的情感語(yǔ)音轉(zhuǎn)換方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音信號(hào)處理和人工智能領(lǐng)域,主要涉及一種韻律類和音質(zhì)類參數(shù)相結(jié)合的情感語(yǔ)音轉(zhuǎn)換方法。
背景技術(shù):
語(yǔ)音合成是人機(jī)交互中的一個(gè)重要組成部分。現(xiàn)在人們所希望聽到的已不再是有很高可懂度的枯燥的機(jī)器音,而是能夠表達(dá)情感的具有人情味的語(yǔ)音?,F(xiàn)有的語(yǔ)音合成水平,解決的還是從文字到語(yǔ)音合成這個(gè)階段,也就是文語(yǔ)轉(zhuǎn)換(TTS:Text to Speech),語(yǔ)音中的情感信息并不能得到很好的表達(dá)。另外情感語(yǔ)音還可以和其它多媒體技術(shù)結(jié)合,比如將情感語(yǔ)音配以相應(yīng)的面部特征來(lái)表達(dá)情感,使聲音和表情同步,這就是當(dāng)前比較熱門的“視覺語(yǔ)音(visimlspeech) ”技術(shù)。從語(yǔ)音信號(hào)中提取情感特征,分析人的感情與語(yǔ)音信號(hào)的關(guān)聯(lián),將情感特征應(yīng)用于語(yǔ)音合成方面的研究,是國(guó)內(nèi)外該領(lǐng)域中近幾年剛剛興起的研究課題。但是,大量的模型還沒(méi)有得到很好的解決。情感語(yǔ)音合成研究是情感計(jì)算與語(yǔ)音合成這兩個(gè)領(lǐng)域的交叉課題,其中語(yǔ)音合成研究比較悠久,而情感計(jì)算則是相對(duì)年輕的研究領(lǐng)域。PSOLA (Pitch Synchronous Overlap Add)是用于語(yǔ)音合成技術(shù)的一種波形拼接算法。它和早期的波形拼接有原則性的差別該算法在調(diào)整語(yǔ)音單元拼接之前,能夠?qū)ζ唇訂卧M(jìn)行基頻,時(shí)長(zhǎng)和能量的調(diào)整,并且在調(diào)整時(shí)以基音周期而不是傳統(tǒng)的幀長(zhǎng)為單位進(jìn)行波形修改,把基音周期的完整性作為保證波形及頻譜的平滑連續(xù)的基本前提。在情感語(yǔ)音的轉(zhuǎn)換中,PSOLA應(yīng)用還不成熟,而且它只能對(duì)語(yǔ)音信號(hào)的韻律類參數(shù)進(jìn)行修改,不能改變音質(zhì)類參數(shù)。因此提出一種更加高效的轉(zhuǎn)換方法具有很強(qiáng)的現(xiàn)實(shí)意義。
發(fā)明內(nèi)容
本發(fā)明提出了一種同時(shí)更改韻律類參數(shù)和音質(zhì)類參數(shù)的方法完成情感語(yǔ)音的轉(zhuǎn)換。本發(fā)明的主要內(nèi)容為對(duì)情感語(yǔ)音樣本進(jìn)行特征參數(shù)的提取統(tǒng)計(jì),制定轉(zhuǎn)換規(guī)則, 然后根據(jù)規(guī)則更改語(yǔ)音的基頻曲線以及共振峰位置,完成中性語(yǔ)音到四種情感語(yǔ)音(悲傷、憤怒、高興和驚奇)的轉(zhuǎn)換。該方法的具體步驟如下步驟一對(duì)情感語(yǔ)音樣本(包含中性語(yǔ)音以及悲傷、憤怒、高興和驚奇四種情感語(yǔ)音)進(jìn)行特征參數(shù)的提取分析;步驟二 根據(jù)提取的特征參數(shù),制定情感語(yǔ)音轉(zhuǎn)換規(guī)則,定義各項(xiàng)轉(zhuǎn)換參數(shù);步驟三對(duì)待轉(zhuǎn)換的中性語(yǔ)音進(jìn)行特征參數(shù)提取和基音同步標(biāo)注;步驟四通過(guò)步驟二的情感轉(zhuǎn)換規(guī)則設(shè)定修改參數(shù),對(duì)基頻曲線,時(shí)長(zhǎng)和能量進(jìn)行修改,再進(jìn)行基音同步疊加合成語(yǔ)音信號(hào);
步驟五對(duì)步驟四的語(yǔ)音信號(hào)進(jìn)行LPC分析,通過(guò)改變傳遞函數(shù)的極點(diǎn)對(duì)共振峰進(jìn)行更改。其中,在步驟一中,選取的語(yǔ)料為BHUDES (北航情感語(yǔ)音數(shù)據(jù)庫(kù)),提取的特征參數(shù)包括基頻、時(shí)長(zhǎng)和能量以及共振峰。在步驟二中,分別提取中性語(yǔ)音和四種情感語(yǔ)音的基頻,時(shí)長(zhǎng)和能量等特征參數(shù), 經(jīng)過(guò)統(tǒng)計(jì)得出如下的轉(zhuǎn)換規(guī)則
權(quán)利要求
1.本發(fā)明提出了韻律類參數(shù)(基頻、時(shí)長(zhǎng)和能量)和音質(zhì)類參數(shù)(共振峰)相結(jié)合的情感語(yǔ)音轉(zhuǎn)換方法,該方法的具體步驟如下步驟一對(duì)BHUDES情感語(yǔ)音樣本(包含中性語(yǔ)音以及悲傷、憤怒、高興和驚奇四種情感語(yǔ)音)進(jìn)行特征參數(shù)的提取分析;步驟二 根據(jù)提取的特征參數(shù),制定情感語(yǔ)音轉(zhuǎn)換規(guī)則,定義各項(xiàng)轉(zhuǎn)換常數(shù)步驟三對(duì)待轉(zhuǎn)換的中性語(yǔ)音進(jìn)行特征參數(shù)提取和基音同步標(biāo)注;步驟四通過(guò)步驟二的情感轉(zhuǎn)換規(guī)則設(shè)定修改參數(shù),對(duì)基頻曲線,時(shí)長(zhǎng)和能量進(jìn)行修改,再基音同步疊加合成語(yǔ)音信號(hào);步驟五對(duì)步驟四的語(yǔ)音信號(hào)進(jìn)行LPC分析,通過(guò)傳遞函數(shù)的極點(diǎn)對(duì)共振峰進(jìn)行更改。
2.根據(jù)權(quán)利要求1所述方法,所述步驟一的主要特征在于對(duì)中性以及悲傷、憤怒、高興和驚奇四種情感語(yǔ)音的參數(shù)提取。
3.根據(jù)權(quán)利要求1所述方法,所述步驟二的主要特征為分別提取中性語(yǔ)音和四種情感語(yǔ)音的基頻,時(shí)長(zhǎng)和能量等特征參數(shù),經(jīng)過(guò)統(tǒng)計(jì)分析得出轉(zhuǎn)換規(guī)則,并在上面轉(zhuǎn)換規(guī)則的基礎(chǔ)上,定義UP_P0SITI0N(上揚(yáng)位置),D0WN_P0SITI0N(下降位置),MEANfO (整體基頻改變量),DUR_P0SITI0N(延時(shí)位置),DUR_LEN(延時(shí)長(zhǎng)度),ENERGY_SCALE (能量因子)等常數(shù)。
4.根據(jù)權(quán)利要求1所述方法,所述步驟三中的主要特征為首先要對(duì)輸入的語(yǔ)音信號(hào) χ (η)進(jìn)行語(yǔ)音段和靜音段以及清濁音的判決,語(yǔ)音段和靜音段判決采用基于短時(shí)能量和短時(shí)過(guò)零率的雙門限法;清濁判決方法采用預(yù)測(cè)殘差能量^和第一階反射系數(shù)^相結(jié)合的方法,判決條件為 ^r1 > 0. 2&er > threshold,則該幀為濁音,否則為清音;
5.根據(jù)權(quán)利要求1所述方法,所述步驟四中的主要特征為根據(jù)情感轉(zhuǎn)換規(guī)則,建立轉(zhuǎn)換波形與原始波形之間的基音周期的映射關(guān)系,再由此映射關(guān)系確定合成所需要的短時(shí)合成信號(hào)序列,將短時(shí)信號(hào)序列與目標(biāo)基音周期同步排列,并重疊相加得到合成波形。
6.根據(jù)權(quán)利要求5所述方法,其主要特征為對(duì)語(yǔ)音信號(hào)進(jìn)行LPC分析,在本方法中, 分析階數(shù)取12階,對(duì)得到的傳遞函數(shù)的極點(diǎn)進(jìn)行更改,從而改變聲道傳遞函數(shù),進(jìn)而改變共振峰位置。
全文摘要
本發(fā)明提出了韻律類參數(shù)(基頻、時(shí)長(zhǎng)和能量)和音質(zhì)類參數(shù)(共振峰)相結(jié)合的情感語(yǔ)音轉(zhuǎn)換方法。其主要步驟包括步驟一對(duì)BHUDES情感語(yǔ)音樣本(包含中性語(yǔ)音以及悲傷、憤怒、高興和驚奇四種情感語(yǔ)音)進(jìn)行特征參數(shù)的提取分析;步驟二根據(jù)提取的特征參數(shù),制定情感語(yǔ)音轉(zhuǎn)換規(guī)則,定義各項(xiàng)轉(zhuǎn)換常數(shù);步驟三對(duì)待轉(zhuǎn)換的中性語(yǔ)音進(jìn)行特征參數(shù)提取和基音同步標(biāo)注;步驟四通過(guò)步驟二的情感轉(zhuǎn)換規(guī)則設(shè)定各項(xiàng)轉(zhuǎn)換常數(shù),對(duì)基頻曲線,時(shí)長(zhǎng)和能量進(jìn)行修改,再基音同步疊加合成語(yǔ)音信號(hào)。步驟五對(duì)步驟四的語(yǔ)音信號(hào)進(jìn)行LPC分析,通過(guò)傳遞函數(shù)的極點(diǎn)對(duì)共振峰進(jìn)行更改。最終得到富有表現(xiàn)力的情感語(yǔ)音。
文檔編號(hào)G10L13/02GK102184731SQ20111012203
公開日2011年9月14日 申請(qǐng)日期2011年5月12日 優(yōu)先權(quán)日2011年5月12日
發(fā)明者毛峽, 韓林 申請(qǐng)人:北京航空航天大學(xué)