本發(fā)明涉及一種語(yǔ)音轉(zhuǎn)換技術(shù),尤其是一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,屬于語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域。
背景技術(shù):
語(yǔ)音轉(zhuǎn)換是語(yǔ)音信號(hào)處理領(lǐng)域近年來(lái)新興的研究分支,是在語(yǔ)音分析、識(shí)別和合成的研究基礎(chǔ)上進(jìn)行的,同時(shí)在此基礎(chǔ)上發(fā)展起來(lái)的。
語(yǔ)音轉(zhuǎn)換的目標(biāo)是改變?cè)凑f(shuō)話人的語(yǔ)音個(gè)性特征,使之具有目標(biāo)說(shuō)話人的語(yǔ)音個(gè)性特征,也就是使一個(gè)人說(shuō)的語(yǔ)音經(jīng)過(guò)轉(zhuǎn)換后聽起來(lái)像是另一個(gè)人說(shuō)的語(yǔ)音,同時(shí)保留語(yǔ)義。
大多數(shù)的語(yǔ)音轉(zhuǎn)換方法,尤其是基于gmm的語(yǔ)音轉(zhuǎn)換方法,要求用于訓(xùn)練的語(yǔ)料庫(kù)是平行文本的,即源說(shuō)話人和目標(biāo)說(shuō)話人需要發(fā)出語(yǔ)音內(nèi)容、語(yǔ)音時(shí)長(zhǎng)相同的句子,并且發(fā)音節(jié)奏和情緒等盡量一致。然而在語(yǔ)音轉(zhuǎn)換的實(shí)際應(yīng)用中,獲取大量的平行語(yǔ)料殊為不易,甚至無(wú)法滿足,此外訓(xùn)練時(shí)語(yǔ)音特征參數(shù)矢量對(duì)齊的精確度也成為語(yǔ)音轉(zhuǎn)換系統(tǒng)性能的一種制約。無(wú)論從語(yǔ)音轉(zhuǎn)換系統(tǒng)的通用性還是實(shí)用性來(lái)考慮,非平行文本條件下語(yǔ)音轉(zhuǎn)換方法的研究都具有極大的實(shí)際意義和應(yīng)用價(jià)值。
目前非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法主要有兩種,基于語(yǔ)音聚類的方法和基于參數(shù)自適應(yīng)的方法?;谡Z(yǔ)音聚類的方法,是通過(guò)對(duì)語(yǔ)音幀之間距離的度量或者在音素信息的指導(dǎo)下選擇相對(duì)應(yīng)的語(yǔ)音單元進(jìn)行轉(zhuǎn)換,其本質(zhì)是一定條件下將非平行文本轉(zhuǎn)化為平行文本進(jìn)行處理。該方法原理簡(jiǎn)單,但要對(duì)語(yǔ)音文本內(nèi)容進(jìn)行預(yù)提取,預(yù)提取的結(jié)果會(huì)直接影響語(yǔ)音的轉(zhuǎn)換質(zhì)量?;趨?shù)自適應(yīng)的方法,是采用語(yǔ)音識(shí)別中的說(shuō)話人歸一化或自適應(yīng)方法對(duì)轉(zhuǎn)換模型的參數(shù)進(jìn)行處理,其本質(zhì)是使得預(yù)先建立的模型向基于目標(biāo)說(shuō)話人的模型進(jìn)行轉(zhuǎn)化。該方法能合理地利用預(yù)存儲(chǔ)的說(shuō)話人信息,但通常自適應(yīng)過(guò)程會(huì)引起頻譜的平滑,導(dǎo)致轉(zhuǎn)換語(yǔ)音中的說(shuō)話人個(gè)性信息不強(qiáng)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是:提供一種在非平行文本條件下,能夠根據(jù)目標(biāo)說(shuō)話人的不同,而自適應(yīng)地確定gmm混合度的語(yǔ)音轉(zhuǎn)換方法,達(dá)到增強(qiáng)轉(zhuǎn)換語(yǔ)音中說(shuō)話人個(gè)性特征的同時(shí)改善轉(zhuǎn)換語(yǔ)音的質(zhì)量。
本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
本發(fā)明提出一種基于自適應(yīng)高斯聚類的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法,包括訓(xùn)練階段和轉(zhuǎn)換階段,其中所述訓(xùn)練階段包括如下步驟:
步驟1,輸入源說(shuō)話人和目標(biāo)說(shuō)話人的非平行訓(xùn)練語(yǔ)料;
步驟2,使用ahocoder語(yǔ)音分析模型分別提取源說(shuō)話人的非平行訓(xùn)練語(yǔ)料的mfcc特征參數(shù)x、目標(biāo)說(shuō)話人的非平行訓(xùn)練語(yǔ)料的mfcc特征參數(shù)y,以及源語(yǔ)音基頻logf0x和目標(biāo)語(yǔ)音基頻logf0y;
步驟3,對(duì)步驟2中的mfcc特征參數(shù)x、y,進(jìn)行單元挑選和聲道長(zhǎng)度歸一化相結(jié)合的語(yǔ)音特征參數(shù)對(duì)齊和動(dòng)態(tài)時(shí)間規(guī)整,從而將非平行語(yǔ)料轉(zhuǎn)變成平行語(yǔ)料;
步驟4,使用期望最大化em算法進(jìn)行自適應(yīng)混合高斯模型agmm訓(xùn)練,agmm訓(xùn)練結(jié)束,得到后驗(yàn)條件概率矩陣p(x|λ),并保存agmm參數(shù)λ;
步驟5,利用步驟3得到的源語(yǔ)音特征參數(shù)x和目標(biāo)語(yǔ)音特征參數(shù)y,使用步驟4中的后驗(yàn)條件概率矩陣p(x|λ)進(jìn)行雙線性頻率彎折blfw+幅度調(diào)節(jié)as訓(xùn)練,得到頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ),從而構(gòu)建blfw+as轉(zhuǎn)換函數(shù);使用對(duì)數(shù)基頻的均值和方差建立源語(yǔ)音基頻logf0x和目標(biāo)語(yǔ)音基頻logf0y之間的基頻轉(zhuǎn)換函數(shù);
所述轉(zhuǎn)換階段包括如下步驟:
步驟6,輸入待轉(zhuǎn)換的源說(shuō)話人語(yǔ)音;
步驟7,使用ahocoder語(yǔ)音分析模型提取源說(shuō)話人語(yǔ)音的mfcc特征參數(shù)x′和對(duì)數(shù)基頻logf0x′;
步驟8,使用步驟4中agmm訓(xùn)練時(shí)得到的參數(shù)λ,求取后驗(yàn)條件概率矩陣p′(x|λ);
步驟9,使用步驟5中得到的blfw+as轉(zhuǎn)換函數(shù),求得轉(zhuǎn)換后的mfcc特征參數(shù)y′;
步驟10,使用步驟5得到的基頻轉(zhuǎn)換函數(shù)由對(duì)數(shù)基頻logf0x′得到轉(zhuǎn)換后的對(duì)數(shù)基頻logf0y′;
步驟11,使用ahodecoder語(yǔ)音合成模型將轉(zhuǎn)換后的mfcc特征參數(shù)y′和對(duì)數(shù)基頻logf0y′合成得到轉(zhuǎn)換后的語(yǔ)音。
進(jìn)一步的,本發(fā)明所提出的語(yǔ)音轉(zhuǎn)換方法,步驟3具體過(guò)程如下:
3-1)采用雙線性頻率彎折方法對(duì)源語(yǔ)音mfcc特征參數(shù)進(jìn)行聲道長(zhǎng)度歸一化處理;
3-2)對(duì)于給定的n個(gè)源語(yǔ)音mfcc特征參數(shù)矢量{xk},通過(guò)公式(1)來(lái)動(dòng)態(tài)地尋找n個(gè)目標(biāo)語(yǔ)音特征參數(shù)矢量{yk},使得距離耗費(fèi)函數(shù)值c({yk})最??;
c({yk})=c1({yk})+c2({yk})(1)
其中,c1({yk})和c2({yk})分別由下式表示:
其中,d(xk,yk)函數(shù)表示源語(yǔ)音和目標(biāo)語(yǔ)音特征參數(shù)矢量之間的頻譜距離,參數(shù)γ表示在特征參數(shù)幀對(duì)齊的準(zhǔn)確度和幀間連續(xù)性之間的平衡系數(shù),且有0≤γ≤1;c1({yk})表示的是源語(yǔ)音特征參數(shù)矢量和目標(biāo)語(yǔ)音特征參數(shù)矢量之間的頻譜距離耗費(fèi)函數(shù),c2({yk})表示的是經(jīng)單元挑選的目標(biāo)語(yǔ)音特征參數(shù)矢量之間頻譜距離耗費(fèi)函數(shù);
3-3)通過(guò)對(duì)公式(1)進(jìn)行多元線性回歸分析,得到與源語(yǔ)音特征參數(shù)矢量對(duì)齊的目標(biāo)語(yǔ)音特征參數(shù)序列集合
通過(guò)上述步驟,將非平行的mfcc特征參數(shù)x、y轉(zhuǎn)變?yōu)槠叫械恼Z(yǔ)料。
進(jìn)一步的,本發(fā)明所提出的語(yǔ)音轉(zhuǎn)換方法,對(duì)于公式(4)的求解,使用維特比搜索方法來(lái)優(yōu)化算法的執(zhí)行效率。
進(jìn)一步的,本發(fā)明所提出的語(yǔ)音轉(zhuǎn)換方法,步驟4的訓(xùn)練過(guò)程如下:
4-1)設(shè)定agmm初始混合數(shù)m,高斯分量權(quán)重系數(shù)閾值t1,t2,特征參數(shù)矢量之間歐氏距離閾值d和協(xié)方差閾值σ;
4-2)使用k-均值迭代算法得到em訓(xùn)練的初始值;
4-3)使用em算法進(jìn)行迭代訓(xùn)練;將高斯混合模型gmm表示如下:
其中,x為p維的語(yǔ)音特征參數(shù)矢量,p=39;p(wi)表示各高斯分量的權(quán)重系數(shù),且有
其中μi為均值矢量,∑i為協(xié)方差矩陣,λ={p(wi),μi,σi},λ是gmm模型的模型參數(shù),對(duì)λ的估算通過(guò)最大似然估計(jì)法實(shí)現(xiàn),對(duì)于語(yǔ)音特征參數(shù)矢量集合x={xn,n=1,2,...n}有:
此時(shí):
λ=argλmax(p(x|λ))(8)
使用em算法求解公式(8),隨著em計(jì)算過(guò)程中迭代條件滿足p(x|λk)≥p(x|λk-1),
k是迭代的次數(shù),直至模型參數(shù)λ,迭代過(guò)程中高斯分量權(quán)重系數(shù)p(wi)、均值向量μi、協(xié)方差矩陣σi的迭代公式如下:
4-4)若訓(xùn)練得到的模型中某一高斯分量n(p(wi),μi,∑i)權(quán)重系數(shù)小于t1,并且與其最鄰近分量n(p(wj),μj,σi)之間的歐氏距離小于閾值d,則對(duì)其進(jìn)行合并處理:
此時(shí),高斯分量個(gè)數(shù)變?yōu)閙-1,返回步驟4-3)進(jìn)行下一次訓(xùn)練,若滿足合并條件的高斯分量有多個(gè),則選擇最小距離的高斯分量進(jìn)行合并;
4-5)若訓(xùn)練得到的模型中某一高斯分量n(p(wi),μi,∑i)權(quán)重系數(shù)大于t2,并且協(xié)方差矩陣中有至少一維的方差大于σ,則認(rèn)為該高斯分量包含過(guò)量信息,應(yīng)將其分裂處理:
其中e為全1的列向量,n用于調(diào)節(jié)高斯分布,經(jīng)過(guò)分裂后高斯分量個(gè)數(shù)變?yōu)閙+1,如果滿足分裂條件的高斯分量有多個(gè),則選取權(quán)重系數(shù)最大的分量進(jìn)行分裂,返回步驟4-3)進(jìn)行下一次訓(xùn)練;
4-6)agmm訓(xùn)練結(jié)束,得到后驗(yàn)條件概率矩陣p(x|λ),保存λ。
進(jìn)一步的,本發(fā)明所提出的語(yǔ)音轉(zhuǎn)換方法,步驟5中構(gòu)建的blfw+as轉(zhuǎn)換函數(shù),表示如下:
f(x)=wα(x,λ)x+s(x,λ)(15)
其中,m為步驟4中混合高斯模型的高斯分量的個(gè)數(shù),α(x,λ)表示頻率彎折因子,s(x,λ)表示幅度調(diào)節(jié)因子。
進(jìn)一步的,本發(fā)明所提出的語(yǔ)音轉(zhuǎn)換方法,步驟5中建立源語(yǔ)音基音頻率和目標(biāo)語(yǔ)音基音頻率之間的轉(zhuǎn)換關(guān)系:
其中μ,σ2分別表示對(duì)數(shù)基音頻率logf0的均值和方差。
本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
1、本發(fā)明實(shí)現(xiàn)了非平行文本條件下的語(yǔ)音轉(zhuǎn)換,解決了平行語(yǔ)料不易獲取的問題,提高了語(yǔ)音轉(zhuǎn)換系統(tǒng)的通用性和實(shí)用性。
2、本發(fā)明使用agmm和blfw+as相結(jié)合來(lái)實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換系統(tǒng),該系統(tǒng)能夠根據(jù)不同說(shuō)話人的語(yǔ)音特征參數(shù)分布,自適應(yīng)調(diào)節(jié)gmm的分類數(shù),在增強(qiáng)語(yǔ)音個(gè)性相似度的同時(shí)改善了語(yǔ)音質(zhì)量,實(shí)現(xiàn)了高質(zhì)量的語(yǔ)音轉(zhuǎn)換。
附圖說(shuō)明
圖1是本發(fā)明的非平行文本語(yǔ)音轉(zhuǎn)換的示意圖。
圖2是自適應(yīng)高斯混合模型訓(xùn)練流程圖。
圖3是轉(zhuǎn)換后語(yǔ)音的語(yǔ)譜對(duì)比圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說(shuō)明:
本技術(shù)領(lǐng)域技術(shù)人員可以理解的是,除非另外定義,這里使用的所有術(shù)語(yǔ)(包括技術(shù)術(shù)語(yǔ)和科學(xué)術(shù)語(yǔ))具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語(yǔ)應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣定義,不會(huì)用理想化或過(guò)于正式的含義來(lái)解釋。
本發(fā)明所述高質(zhì)量語(yǔ)音轉(zhuǎn)換方法分為兩個(gè)部分:訓(xùn)練部分用于得到語(yǔ)音轉(zhuǎn)換所需的參數(shù)和轉(zhuǎn)換函數(shù),而轉(zhuǎn)換部分用于實(shí)現(xiàn)源說(shuō)話人語(yǔ)音轉(zhuǎn)換為目標(biāo)說(shuō)話人語(yǔ)音。
如圖1,訓(xùn)練部分實(shí)施步驟:
步驟1,輸入源說(shuō)話人和目標(biāo)說(shuō)話人的語(yǔ)音非平行語(yǔ)料,非平行語(yǔ)料取自cmu_us_arctic語(yǔ)料庫(kù),該語(yǔ)料庫(kù)是由卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所建立的,語(yǔ)料庫(kù)中的語(yǔ)音由5男2女錄制,每個(gè)說(shuō)話人錄制了1132段1~6s不等的語(yǔ)音。
步驟2,本發(fā)明使用ahocoder語(yǔ)音分析模型分別提取源說(shuō)話人和目標(biāo)說(shuō)話人的梅爾倒譜系數(shù)(mfcc,mel-frequencycepstralcoefficient)x、y以及對(duì)數(shù)基音頻率參數(shù)logf0x和logf0y。其中ahocoder是西班牙畢爾巴鄂(bilbao)市aholabsignalprocessinglaboratory學(xué)者danielerro團(tuán)隊(duì)構(gòu)建的高性能的語(yǔ)音分析合成工具;
步驟3,對(duì)步驟2中的源和目標(biāo)語(yǔ)音的mfcc參數(shù)x、y進(jìn)行單元挑選(unitselection)和聲道長(zhǎng)度歸一化(vtln,vocaltractlengthno6rmalization)相結(jié)合的語(yǔ)音特征參數(shù)對(duì)齊和動(dòng)態(tài)時(shí)間規(guī)整(dtw,dynamictimewarping)。其中語(yǔ)音特征參數(shù)對(duì)齊具體過(guò)程如下:
3-1)采用雙線性頻率彎折方法對(duì)源語(yǔ)音特征參數(shù)進(jìn)行聲道長(zhǎng)度歸一化處理,使得源語(yǔ)音的共振峰向目標(biāo)語(yǔ)音靠近,從而增加單元挑選目標(biāo)語(yǔ)音特征參數(shù)的精確性。
3-2)對(duì)于給定的n個(gè)源語(yǔ)音特征參數(shù)矢量{xk},可通過(guò)公式(1)來(lái)動(dòng)態(tài)地尋找n個(gè)目標(biāo)語(yǔ)音特征參數(shù)矢量{yk},使得距離耗費(fèi)函數(shù)值c({yk})最小。在單元挑選的過(guò)程中考慮到兩個(gè)因素:一方面是保證對(duì)齊的源語(yǔ)音特征參數(shù)矢量和目標(biāo)語(yǔ)音的特征參數(shù)矢量之間的頻譜距離最小,以增強(qiáng)音素信息的匹配度;另一方面是保證挑選到的目標(biāo)語(yǔ)音特征參數(shù)矢量具有幀連續(xù)性,以使得音素信息更完整。
c({yk})=c1({yk})+c2({yk})(1)
其中,c1({yk})和c2({yk})分別可由下式表示:
其中,d(xk,yk)函數(shù)表示源和目標(biāo)特征參數(shù)矢量之間的頻譜距離,本發(fā)明采用歐氏距離作為距離衡量尺度。參數(shù)γ表示在特征參數(shù)幀對(duì)齊的準(zhǔn)確度和幀間連續(xù)性之間的平衡系數(shù),且有0≤γ≤1。c1({yk})表示的是源語(yǔ)音特征參數(shù)矢量和目標(biāo)語(yǔ)音的特征參數(shù)矢量之間的頻譜距離耗費(fèi)函數(shù),c2({yk})表示的是經(jīng)單元挑選的目標(biāo)語(yǔ)音的特征參數(shù)矢量之間頻譜距離耗費(fèi)函數(shù)。
3-3)通過(guò)對(duì)公式(1)進(jìn)行多元線性回歸分析,可以得到與源語(yǔ)音特征參數(shù)矢量對(duì)齊的特征參數(shù)序列集合
對(duì)于公式(4)的求解,可使用維特比(viterbi)搜索方法來(lái)優(yōu)化算法的執(zhí)行效率。
通過(guò)上述步驟,將非平行的mfcc參數(shù)x、y轉(zhuǎn)變?yōu)槠叫械摹?/p>
步驟4,建立自適應(yīng)混合高斯模型(adaptiongmm,agmm),采用期望最大化(em,expectation-maximization)算法進(jìn)行訓(xùn)練,并使用k-均值迭代方法得到em訓(xùn)練的初始值。通過(guò)訓(xùn)練得到agmm參數(shù)λ,p(x|λ)。
如圖2所示,使用自適應(yīng)聚類算法訓(xùn)練agmm參數(shù),首先需要對(duì)各高斯分量的權(quán)重系數(shù)、均值向量、協(xié)方差矩陣和特征參數(shù)矢量之間的歐氏距離進(jìn)行綜合分析,動(dòng)態(tài)地調(diào)整高斯混合度。其訓(xùn)練過(guò)程如下:
4-1)設(shè)定agmm初始混合數(shù)m,高斯分量權(quán)重系數(shù)閾值t1,t2,特征參數(shù)矢量之間歐氏距離閾值d和協(xié)方差閾值σ。
4-2)使用k-均值迭代算法得到em訓(xùn)練的初始值。
4-3)使用em算法進(jìn)行迭代訓(xùn)練。
傳統(tǒng)的高斯混合模型表示如下:
其中,x為p維的語(yǔ)音特征參數(shù)矢量,本發(fā)明中采用p=39,p(wi)表示各高斯分量的權(quán)重系數(shù),且有
其中μi為均值矢量,∑i為協(xié)方差矩陣,λ={p(wi),μi,σi},是gmm模型的模型參數(shù),對(duì)λ的估算可以通過(guò)最大似然估計(jì)法(ml,maximumlikelihood)實(shí)現(xiàn),最大似然估計(jì)的目的在于使得條件概率p(x|λ)取得最大,對(duì)于語(yǔ)音特征參數(shù)矢量集合x={xn,n=1,2,...n}有:
此時(shí):
λ=argλmax(p(x|λ))(8)
求解公式(8)可使用em算法,隨著em計(jì)算過(guò)程中迭代條件滿足p(x|λk)≥p(x|λk-1),k是迭代的次數(shù),直至模型參數(shù)λ。迭代過(guò)程中高斯分量權(quán)重系數(shù)p(wi)、均值向量μi、協(xié)方差矩陣σi的迭代公式如下:
4-4)若訓(xùn)練得到的模型中某一高斯分量n(p(wi),μi,σi)權(quán)重系數(shù)小于t1,并且與其最鄰近分量n(p(wj),μj,σi)之間的歐氏距離小于閾值d,則認(rèn)為這兩個(gè)分量包含信息較少且成分相似,可對(duì)其進(jìn)行合并處理:
此時(shí),高斯分量個(gè)數(shù)變?yōu)閙-1,返回步驟(3)進(jìn)行下一次訓(xùn)練,若滿足合并條件的高斯分量有多個(gè),則選擇最小距離的高斯分量進(jìn)行合并。
4-5)若訓(xùn)練得到的模型中某一高斯分量n(p(wi),μi,∑i)權(quán)重系數(shù)大于t2,并且協(xié)方差矩陣中有至少一維的方差(協(xié)方差矩陣對(duì)角線上元素即為方差)大于σ,則認(rèn)為該高斯分量包含過(guò)量信息,應(yīng)將其分裂處理:
其中e為全1的列向量,n用于調(diào)節(jié)高斯分布,經(jīng)過(guò)分裂后高斯分量個(gè)數(shù)變?yōu)閙+1,如果滿足分裂條件的高斯分量有多個(gè),則選取權(quán)重系數(shù)最大的分量進(jìn)行分裂,返回步驟(3)進(jìn)行下一次訓(xùn)練。
4-6)agmm訓(xùn)練結(jié)束,得到后驗(yàn)條件概率矩陣p(x|λ),保存λ。
步驟5,利用步驟3中得到的源語(yǔ)音特征參數(shù)x和目標(biāo)語(yǔ)音特征參數(shù)y以及步驟4中得到的后驗(yàn)條件概率矩陣p(x|λ)進(jìn)行訓(xùn)練,得到頻率彎折因子和幅度調(diào)節(jié)因子,從而構(gòu)建雙線性頻率彎折(blfw,bilinearfrequencywarping)和幅度調(diào)節(jié)(as,amplitudescaling)語(yǔ)音轉(zhuǎn)換函數(shù),表示如下:
f(x)=wα(x,λ)x+s(x,λ)(15)
建立源語(yǔ)音基音頻率和目標(biāo)語(yǔ)音基音頻率之間的轉(zhuǎn)換關(guān)系:
其中μ,σ2用于表示對(duì)數(shù)基音頻率logf0的均值和方差。
如圖1,轉(zhuǎn)換部分具體實(shí)施步驟:
步驟6,輸入待轉(zhuǎn)換的源說(shuō)話人語(yǔ)音;
步驟7,使用ahodecoder語(yǔ)音分析模型提取源說(shuō)話人的語(yǔ)音39階mfcc特征參數(shù)x′以及源語(yǔ)音對(duì)數(shù)基音頻率參數(shù)logf0x′;
步驟8,利用步驟4中agmm訓(xùn)練時(shí)得到的λ={p(wi),μi,σi}和步驟7中提取的特征參數(shù)x′,代入公式(5),得到后驗(yàn)條件概率矩陣p′(x|λ);
步驟9,利用步驟5中blfw+as訓(xùn)練得到的頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ)以及步驟8中得到的后驗(yàn)條件概率矩陣p′(x|λ),分別代入公式(15)、(16)、(17)和(18)后,得到轉(zhuǎn)換后語(yǔ)音的mfcc特征參數(shù)y′;
步驟10,利用步驟7中得到的源語(yǔ)音對(duì)數(shù)基音頻率參數(shù)logf0x′,代入公式(19),得到轉(zhuǎn)換后語(yǔ)音的對(duì)數(shù)基音頻率參數(shù)logf0y′;
步驟11,使用ahodecoder語(yǔ)音合成模型將步驟9中的y′和步驟10中的logf0y′作為輸入得到轉(zhuǎn)換后的語(yǔ)音。
進(jìn)一步地,如圖3所示,將本發(fā)明的方法與inca方法得到的轉(zhuǎn)換語(yǔ)音的語(yǔ)譜圖進(jìn)行了對(duì)比,轉(zhuǎn)換方向?yàn)閒1-m2(女聲1-男聲2),進(jìn)一步驗(yàn)證了本發(fā)明所采用的方法相對(duì)于inca方法的頻譜相似度更高的優(yōu)點(diǎn)。其中,inca方法是文獻(xiàn)(errod,morenoa,bonafontea.incaalgorithmfortrainingvoiceconversionsystemsfromnonparallelcorpora[j].ieeetransactionsonaudio,speech,andlanguageprocessing,2010,18(5):944-953.)中提出的。
以上所述僅是本發(fā)明的部分實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。