基于自適應(yīng)高斯聚類的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法與流程

文檔序號(hào)：12307385閱讀：515來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于自適應(yīng)高斯聚類的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法與流程

本發(fā)明涉及一種語(yǔ)音轉(zhuǎn)換技術(shù)，尤其是一種非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，屬于語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域。

背景技術(shù)：

語(yǔ)音轉(zhuǎn)換是語(yǔ)音信號(hào)處理領(lǐng)域近年來(lái)新興的研究分支，是在語(yǔ)音分析、識(shí)別和合成的研究基礎(chǔ)上進(jìn)行的，同時(shí)在此基礎(chǔ)上發(fā)展起來(lái)的。

語(yǔ)音轉(zhuǎn)換的目標(biāo)是改變?cè)凑f(shuō)話人的語(yǔ)音個(gè)性特征，使之具有目標(biāo)說(shuō)話人的語(yǔ)音個(gè)性特征，也就是使一個(gè)人說(shuō)的語(yǔ)音經(jīng)過(guò)轉(zhuǎn)換后聽起來(lái)像是另一個(gè)人說(shuō)的語(yǔ)音，同時(shí)保留語(yǔ)義。

大多數(shù)的語(yǔ)音轉(zhuǎn)換方法，尤其是基于gmm的語(yǔ)音轉(zhuǎn)換方法，要求用于訓(xùn)練的語(yǔ)料庫(kù)是平行文本的，即源說(shuō)話人和目標(biāo)說(shuō)話人需要發(fā)出語(yǔ)音內(nèi)容、語(yǔ)音時(shí)長(zhǎng)相同的句子，并且發(fā)音節(jié)奏和情緒等盡量一致。然而在語(yǔ)音轉(zhuǎn)換的實(shí)際應(yīng)用中，獲取大量的平行語(yǔ)料殊為不易，甚至無(wú)法滿足，此外訓(xùn)練時(shí)語(yǔ)音特征參數(shù)矢量對(duì)齊的精確度也成為語(yǔ)音轉(zhuǎn)換系統(tǒng)性能的一種制約。無(wú)論從語(yǔ)音轉(zhuǎn)換系統(tǒng)的通用性還是實(shí)用性來(lái)考慮，非平行文本條件下語(yǔ)音轉(zhuǎn)換方法的研究都具有極大的實(shí)際意義和應(yīng)用價(jià)值。

目前非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法主要有兩種，基于語(yǔ)音聚類的方法和基于參數(shù)自適應(yīng)的方法?；谡Z(yǔ)音聚類的方法，是通過(guò)對(duì)語(yǔ)音幀之間距離的度量或者在音素信息的指導(dǎo)下選擇相對(duì)應(yīng)的語(yǔ)音單元進(jìn)行轉(zhuǎn)換，其本質(zhì)是一定條件下將非平行文本轉(zhuǎn)化為平行文本進(jìn)行處理。該方法原理簡(jiǎn)單，但要對(duì)語(yǔ)音文本內(nèi)容進(jìn)行預(yù)提取，預(yù)提取的結(jié)果會(huì)直接影響語(yǔ)音的轉(zhuǎn)換質(zhì)量?；趨?shù)自適應(yīng)的方法，是采用語(yǔ)音識(shí)別中的說(shuō)話人歸一化或自適應(yīng)方法對(duì)轉(zhuǎn)換模型的參數(shù)進(jìn)行處理，其本質(zhì)是使得預(yù)先建立的模型向基于目標(biāo)說(shuō)話人的模型進(jìn)行轉(zhuǎn)化。該方法能合理地利用預(yù)存儲(chǔ)的說(shuō)話人信息，但通常自適應(yīng)過(guò)程會(huì)引起頻譜的平滑，導(dǎo)致轉(zhuǎn)換語(yǔ)音中的說(shuō)話人個(gè)性信息不強(qiáng)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明所要解決的技術(shù)問題是：提供一種在非平行文本條件下，能夠根據(jù)目標(biāo)說(shuō)話人的不同，而自適應(yīng)地確定gmm混合度的語(yǔ)音轉(zhuǎn)換方法，達(dá)到增強(qiáng)轉(zhuǎn)換語(yǔ)音中說(shuō)話人個(gè)性特征的同時(shí)改善轉(zhuǎn)換語(yǔ)音的質(zhì)量。

本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案：

本發(fā)明提出一種基于自適應(yīng)高斯聚類的非平行文本條件下的語(yǔ)音轉(zhuǎn)換方法，包括訓(xùn)練階段和轉(zhuǎn)換階段，其中所述訓(xùn)練階段包括如下步驟：

步驟1，輸入源說(shuō)話人和目標(biāo)說(shuō)話人的非平行訓(xùn)練語(yǔ)料；

步驟2，使用ahocoder語(yǔ)音分析模型分別提取源說(shuō)話人的非平行訓(xùn)練語(yǔ)料的mfcc特征參數(shù)x、目標(biāo)說(shuō)話人的非平行訓(xùn)練語(yǔ)料的mfcc特征參數(shù)y，以及源語(yǔ)音基頻logf0x和目標(biāo)語(yǔ)音基頻logf0y；

步驟3，對(duì)步驟2中的mfcc特征參數(shù)x、y，進(jìn)行單元挑選和聲道長(zhǎng)度歸一化相結(jié)合的語(yǔ)音特征參數(shù)對(duì)齊和動(dòng)態(tài)時(shí)間規(guī)整，從而將非平行語(yǔ)料轉(zhuǎn)變成平行語(yǔ)料；

步驟4，使用期望最大化em算法進(jìn)行自適應(yīng)混合高斯模型agmm訓(xùn)練，agmm訓(xùn)練結(jié)束，得到后驗(yàn)條件概率矩陣p(x|λ)，并保存agmm參數(shù)λ；

步驟5，利用步驟3得到的源語(yǔ)音特征參數(shù)x和目標(biāo)語(yǔ)音特征參數(shù)y，使用步驟4中的后驗(yàn)條件概率矩陣p(x|λ)進(jìn)行雙線性頻率彎折blfw+幅度調(diào)節(jié)as訓(xùn)練，得到頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ)，從而構(gòu)建blfw+as轉(zhuǎn)換函數(shù)；使用對(duì)數(shù)基頻的均值和方差建立源語(yǔ)音基頻logf0x和目標(biāo)語(yǔ)音基頻logf0y之間的基頻轉(zhuǎn)換函數(shù)；

所述轉(zhuǎn)換階段包括如下步驟：

步驟6，輸入待轉(zhuǎn)換的源說(shuō)話人語(yǔ)音；

步驟7，使用ahocoder語(yǔ)音分析模型提取源說(shuō)話人語(yǔ)音的mfcc特征參數(shù)x′和對(duì)數(shù)基頻logf0x′；

步驟8，使用步驟4中agmm訓(xùn)練時(shí)得到的參數(shù)λ，求取后驗(yàn)條件概率矩陣p′(x|λ)；

步驟9，使用步驟5中得到的blfw+as轉(zhuǎn)換函數(shù)，求得轉(zhuǎn)換后的mfcc特征參數(shù)y′；

步驟10，使用步驟5得到的基頻轉(zhuǎn)換函數(shù)由對(duì)數(shù)基頻logf0x′得到轉(zhuǎn)換后的對(duì)數(shù)基頻logf0y′；

步驟11，使用ahodecoder語(yǔ)音合成模型將轉(zhuǎn)換后的mfcc特征參數(shù)y′和對(duì)數(shù)基頻logf0y′合成得到轉(zhuǎn)換后的語(yǔ)音。

進(jìn)一步的，本發(fā)明所提出的語(yǔ)音轉(zhuǎn)換方法，步驟3具體過(guò)程如下：

3-1)采用雙線性頻率彎折方法對(duì)源語(yǔ)音mfcc特征參數(shù)進(jìn)行聲道長(zhǎng)度歸一化處理；

3-2)對(duì)于給定的n個(gè)源語(yǔ)音mfcc特征參數(shù)矢量{xk}，通過(guò)公式(1)來(lái)動(dòng)態(tài)地尋找n個(gè)目標(biāo)語(yǔ)音特征參數(shù)矢量{yk}，使得距離耗費(fèi)函數(shù)值c({yk})最??；

c({yk})＝c1({yk})+c2({yk})(1)

其中，c1({yk})和c2({yk})分別由下式表示：

其中，d(xk,yk)函數(shù)表示源語(yǔ)音和目標(biāo)語(yǔ)音特征參數(shù)矢量之間的頻譜距離，參數(shù)γ表示在特征參數(shù)幀對(duì)齊的準(zhǔn)確度和幀間連續(xù)性之間的平衡系數(shù)，且有0≤γ≤1；c1({yk})表示的是源語(yǔ)音特征參數(shù)矢量和目標(biāo)語(yǔ)音特征參數(shù)矢量之間的頻譜距離耗費(fèi)函數(shù)，c2({yk})表示的是經(jīng)單元挑選的目標(biāo)語(yǔ)音特征參數(shù)矢量之間頻譜距離耗費(fèi)函數(shù)；

3-3)通過(guò)對(duì)公式(1)進(jìn)行多元線性回歸分析，得到與源語(yǔ)音特征參數(shù)矢量對(duì)齊的目標(biāo)語(yǔ)音特征參數(shù)序列集合即：

通過(guò)上述步驟，將非平行的mfcc特征參數(shù)x、y轉(zhuǎn)變?yōu)槠叫械恼Z(yǔ)料。

進(jìn)一步的，本發(fā)明所提出的語(yǔ)音轉(zhuǎn)換方法，對(duì)于公式(4)的求解，使用維特比搜索方法來(lái)優(yōu)化算法的執(zhí)行效率。

進(jìn)一步的，本發(fā)明所提出的語(yǔ)音轉(zhuǎn)換方法，步驟4的訓(xùn)練過(guò)程如下：

4-1)設(shè)定agmm初始混合數(shù)m，高斯分量權(quán)重系數(shù)閾值t1,t2，特征參數(shù)矢量之間歐氏距離閾值d和協(xié)方差閾值σ；

4-2)使用k-均值迭代算法得到em訓(xùn)練的初始值；

4-3)使用em算法進(jìn)行迭代訓(xùn)練；將高斯混合模型gmm表示如下：

其中，x為p維的語(yǔ)音特征參數(shù)矢量，p＝39；p(wi)表示各高斯分量的權(quán)重系數(shù)，且有m為高斯分量的個(gè)數(shù)，n(x,μi,σi)表示高斯分量的p維聯(lián)合高斯概率分布，表示如下：

其中μi為均值矢量，∑i為協(xié)方差矩陣，λ＝{p(wi),μi,σi}，λ是gmm模型的模型參數(shù)，對(duì)λ的估算通過(guò)最大似然估計(jì)法實(shí)現(xiàn)，對(duì)于語(yǔ)音特征參數(shù)矢量集合x＝{xn,n＝1,2,...n}有：

此時(shí)：

λ＝argλmax(p(x|λ))(8)

使用em算法求解公式(8)，隨著em計(jì)算過(guò)程中迭代條件滿足p(x|λ^k)≥p(x|λ^k-1)，

k是迭代的次數(shù)，直至模型參數(shù)λ，迭代過(guò)程中高斯分量權(quán)重系數(shù)p(wi)、均值向量μi、協(xié)方差矩陣σi的迭代公式如下：

4-4)若訓(xùn)練得到的模型中某一高斯分量n(p(wi),μi,∑i)權(quán)重系數(shù)小于t1，并且與其最鄰近分量n(p(wj),μj,σi)之間的歐氏距離小于閾值d，則對(duì)其進(jìn)行合并處理：

此時(shí)，高斯分量個(gè)數(shù)變?yōu)閙-1，返回步驟4-3)進(jìn)行下一次訓(xùn)練，若滿足合并條件的高斯分量有多個(gè)，則選擇最小距離的高斯分量進(jìn)行合并；

4-5)若訓(xùn)練得到的模型中某一高斯分量n(p(wi),μi,∑i)權(quán)重系數(shù)大于t2，并且協(xié)方差矩陣中有至少一維的方差大于σ，則認(rèn)為該高斯分量包含過(guò)量信息，應(yīng)將其分裂處理：

其中e為全1的列向量，n用于調(diào)節(jié)高斯分布，經(jīng)過(guò)分裂后高斯分量個(gè)數(shù)變?yōu)閙+1，如果滿足分裂條件的高斯分量有多個(gè)，則選取權(quán)重系數(shù)最大的分量進(jìn)行分裂，返回步驟4-3)進(jìn)行下一次訓(xùn)練；

4-6)agmm訓(xùn)練結(jié)束，得到后驗(yàn)條件概率矩陣p(x|λ)，保存λ。

進(jìn)一步的，本發(fā)明所提出的語(yǔ)音轉(zhuǎn)換方法，步驟5中構(gòu)建的blfw+as轉(zhuǎn)換函數(shù)，表示如下：

f(x)＝wα(x,λ)x+s(x,λ)(15)

其中，m為步驟4中混合高斯模型的高斯分量的個(gè)數(shù)，α(x,λ)表示頻率彎折因子，s(x,λ)表示幅度調(diào)節(jié)因子。

進(jìn)一步的，本發(fā)明所提出的語(yǔ)音轉(zhuǎn)換方法，步驟5中建立源語(yǔ)音基音頻率和目標(biāo)語(yǔ)音基音頻率之間的轉(zhuǎn)換關(guān)系：

其中μ,σ²分別表示對(duì)數(shù)基音頻率logf0的均值和方差。

本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比，具有以下技術(shù)效果：

1、本發(fā)明實(shí)現(xiàn)了非平行文本條件下的語(yǔ)音轉(zhuǎn)換，解決了平行語(yǔ)料不易獲取的問題，提高了語(yǔ)音轉(zhuǎn)換系統(tǒng)的通用性和實(shí)用性。

2、本發(fā)明使用agmm和blfw+as相結(jié)合來(lái)實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換系統(tǒng)，該系統(tǒng)能夠根據(jù)不同說(shuō)話人的語(yǔ)音特征參數(shù)分布，自適應(yīng)調(diào)節(jié)gmm的分類數(shù)，在增強(qiáng)語(yǔ)音個(gè)性相似度的同時(shí)改善了語(yǔ)音質(zhì)量，實(shí)現(xiàn)了高質(zhì)量的語(yǔ)音轉(zhuǎn)換。

附圖說(shuō)明

圖1是本發(fā)明的非平行文本語(yǔ)音轉(zhuǎn)換的示意圖。

圖2是自適應(yīng)高斯混合模型訓(xùn)練流程圖。

圖3是轉(zhuǎn)換后語(yǔ)音的語(yǔ)譜對(duì)比圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說(shuō)明：

本技術(shù)領(lǐng)域技術(shù)人員可以理解的是，除非另外定義，這里使用的所有術(shù)語(yǔ)(包括技術(shù)術(shù)語(yǔ)和科學(xué)術(shù)語(yǔ))具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是，諸如通用字典中定義的那些術(shù)語(yǔ)應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義，并且除非像這里一樣定義，不會(huì)用理想化或過(guò)于正式的含義來(lái)解釋。

本發(fā)明所述高質(zhì)量語(yǔ)音轉(zhuǎn)換方法分為兩個(gè)部分：訓(xùn)練部分用于得到語(yǔ)音轉(zhuǎn)換所需的參數(shù)和轉(zhuǎn)換函數(shù)，而轉(zhuǎn)換部分用于實(shí)現(xiàn)源說(shuō)話人語(yǔ)音轉(zhuǎn)換為目標(biāo)說(shuō)話人語(yǔ)音。

如圖1，訓(xùn)練部分實(shí)施步驟：

步驟1，輸入源說(shuō)話人和目標(biāo)說(shuō)話人的語(yǔ)音非平行語(yǔ)料，非平行語(yǔ)料取自cmu_us_arctic語(yǔ)料庫(kù)，該語(yǔ)料庫(kù)是由卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所建立的，語(yǔ)料庫(kù)中的語(yǔ)音由5男2女錄制，每個(gè)說(shuō)話人錄制了1132段1～6s不等的語(yǔ)音。

步驟2，本發(fā)明使用ahocoder語(yǔ)音分析模型分別提取源說(shuō)話人和目標(biāo)說(shuō)話人的梅爾倒譜系數(shù)(mfcc,mel-frequencycepstralcoefficient)x、y以及對(duì)數(shù)基音頻率參數(shù)logf0x和logf0y。其中ahocoder是西班牙畢爾巴鄂(bilbao)市aholabsignalprocessinglaboratory學(xué)者danielerro團(tuán)隊(duì)構(gòu)建的高性能的語(yǔ)音分析合成工具；

步驟3，對(duì)步驟2中的源和目標(biāo)語(yǔ)音的mfcc參數(shù)x、y進(jìn)行單元挑選(unitselection)和聲道長(zhǎng)度歸一化(vtln,vocaltractlengthno6rmalization)相結(jié)合的語(yǔ)音特征參數(shù)對(duì)齊和動(dòng)態(tài)時(shí)間規(guī)整(dtw,dynamictimewarping)。其中語(yǔ)音特征參數(shù)對(duì)齊具體過(guò)程如下：

3-1)采用雙線性頻率彎折方法對(duì)源語(yǔ)音特征參數(shù)進(jìn)行聲道長(zhǎng)度歸一化處理，使得源語(yǔ)音的共振峰向目標(biāo)語(yǔ)音靠近，從而增加單元挑選目標(biāo)語(yǔ)音特征參數(shù)的精確性。

3-2)對(duì)于給定的n個(gè)源語(yǔ)音特征參數(shù)矢量{xk}，可通過(guò)公式(1)來(lái)動(dòng)態(tài)地尋找n個(gè)目標(biāo)語(yǔ)音特征參數(shù)矢量{yk}，使得距離耗費(fèi)函數(shù)值c({yk})最小。在單元挑選的過(guò)程中考慮到兩個(gè)因素：一方面是保證對(duì)齊的源語(yǔ)音特征參數(shù)矢量和目標(biāo)語(yǔ)音的特征參數(shù)矢量之間的頻譜距離最小，以增強(qiáng)音素信息的匹配度；另一方面是保證挑選到的目標(biāo)語(yǔ)音特征參數(shù)矢量具有幀連續(xù)性，以使得音素信息更完整。

c({yk})＝c1({yk})+c2({yk})(1)

其中，c1({yk})和c2({yk})分別可由下式表示：

其中，d(xk,yk)函數(shù)表示源和目標(biāo)特征參數(shù)矢量之間的頻譜距離，本發(fā)明采用歐氏距離作為距離衡量尺度。參數(shù)γ表示在特征參數(shù)幀對(duì)齊的準(zhǔn)確度和幀間連續(xù)性之間的平衡系數(shù)，且有0≤γ≤1。c1({yk})表示的是源語(yǔ)音特征參數(shù)矢量和目標(biāo)語(yǔ)音的特征參數(shù)矢量之間的頻譜距離耗費(fèi)函數(shù)，c2({yk})表示的是經(jīng)單元挑選的目標(biāo)語(yǔ)音的特征參數(shù)矢量之間頻譜距離耗費(fèi)函數(shù)。

3-3)通過(guò)對(duì)公式(1)進(jìn)行多元線性回歸分析，可以得到與源語(yǔ)音特征參數(shù)矢量對(duì)齊的特征參數(shù)序列集合即：

對(duì)于公式(4)的求解，可使用維特比(viterbi)搜索方法來(lái)優(yōu)化算法的執(zhí)行效率。

通過(guò)上述步驟，將非平行的mfcc參數(shù)x、y轉(zhuǎn)變?yōu)槠叫械摹?/p>

步驟4，建立自適應(yīng)混合高斯模型(adaptiongmm，agmm)，采用期望最大化(em,expectation-maximization)算法進(jìn)行訓(xùn)練，并使用k-均值迭代方法得到em訓(xùn)練的初始值。通過(guò)訓(xùn)練得到agmm參數(shù)λ，p(x|λ)。

如圖2所示，使用自適應(yīng)聚類算法訓(xùn)練agmm參數(shù)，首先需要對(duì)各高斯分量的權(quán)重系數(shù)、均值向量、協(xié)方差矩陣和特征參數(shù)矢量之間的歐氏距離進(jìn)行綜合分析，動(dòng)態(tài)地調(diào)整高斯混合度。其訓(xùn)練過(guò)程如下：

4-1)設(shè)定agmm初始混合數(shù)m，高斯分量權(quán)重系數(shù)閾值t1,t2，特征參數(shù)矢量之間歐氏距離閾值d和協(xié)方差閾值σ。

4-2)使用k-均值迭代算法得到em訓(xùn)練的初始值。

4-3)使用em算法進(jìn)行迭代訓(xùn)練。

傳統(tǒng)的高斯混合模型表示如下：

其中，x為p維的語(yǔ)音特征參數(shù)矢量，本發(fā)明中采用p＝39，p(wi)表示各高斯分量的權(quán)重系數(shù)，且有m為高斯分量的個(gè)數(shù)，n(x,μi,∑i)表示高斯分量的p維聯(lián)合高斯概率分布，表示如下：

其中μi為均值矢量，∑i為協(xié)方差矩陣，λ＝{p(wi),μi,σi}，是gmm模型的模型參數(shù)，對(duì)λ的估算可以通過(guò)最大似然估計(jì)法(ml,maximumlikelihood)實(shí)現(xiàn),最大似然估計(jì)的目的在于使得條件概率p(x|λ)取得最大，對(duì)于語(yǔ)音特征參數(shù)矢量集合x＝{xn,n＝1,2,...n}有：

此時(shí)：

λ＝argλmax(p(x|λ))(8)

求解公式(8)可使用em算法，隨著em計(jì)算過(guò)程中迭代條件滿足p(x|λ^k)≥p(x|λ^k-1)，k是迭代的次數(shù)，直至模型參數(shù)λ。迭代過(guò)程中高斯分量權(quán)重系數(shù)p(wi)、均值向量μi、協(xié)方差矩陣σi的迭代公式如下：

4-4)若訓(xùn)練得到的模型中某一高斯分量n(p(wi),μi,σi)權(quán)重系數(shù)小于t1，并且與其最鄰近分量n(p(wj),μj,σi)之間的歐氏距離小于閾值d，則認(rèn)為這兩個(gè)分量包含信息較少且成分相似，可對(duì)其進(jìn)行合并處理：

此時(shí)，高斯分量個(gè)數(shù)變?yōu)閙-1，返回步驟(3)進(jìn)行下一次訓(xùn)練，若滿足合并條件的高斯分量有多個(gè)，則選擇最小距離的高斯分量進(jìn)行合并。

4-5)若訓(xùn)練得到的模型中某一高斯分量n(p(wi),μi,∑i)權(quán)重系數(shù)大于t2，并且協(xié)方差矩陣中有至少一維的方差(協(xié)方差矩陣對(duì)角線上元素即為方差)大于σ，則認(rèn)為該高斯分量包含過(guò)量信息，應(yīng)將其分裂處理：

其中e為全1的列向量，n用于調(diào)節(jié)高斯分布，經(jīng)過(guò)分裂后高斯分量個(gè)數(shù)變?yōu)閙+1，如果滿足分裂條件的高斯分量有多個(gè)，則選取權(quán)重系數(shù)最大的分量進(jìn)行分裂，返回步驟(3)進(jìn)行下一次訓(xùn)練。

4-6)agmm訓(xùn)練結(jié)束，得到后驗(yàn)條件概率矩陣p(x|λ)，保存λ。

步驟5，利用步驟3中得到的源語(yǔ)音特征參數(shù)x和目標(biāo)語(yǔ)音特征參數(shù)y以及步驟4中得到的后驗(yàn)條件概率矩陣p(x|λ)進(jìn)行訓(xùn)練，得到頻率彎折因子和幅度調(diào)節(jié)因子，從而構(gòu)建雙線性頻率彎折(blfw,bilinearfrequencywarping)和幅度調(diào)節(jié)(as,amplitudescaling)語(yǔ)音轉(zhuǎn)換函數(shù)，表示如下：

f(x)＝wα(x,λ)x+s(x,λ)(15)

建立源語(yǔ)音基音頻率和目標(biāo)語(yǔ)音基音頻率之間的轉(zhuǎn)換關(guān)系：

其中μ,σ²用于表示對(duì)數(shù)基音頻率logf0的均值和方差。

如圖1，轉(zhuǎn)換部分具體實(shí)施步驟：

步驟6，輸入待轉(zhuǎn)換的源說(shuō)話人語(yǔ)音；

步驟7，使用ahodecoder語(yǔ)音分析模型提取源說(shuō)話人的語(yǔ)音39階mfcc特征參數(shù)x′以及源語(yǔ)音對(duì)數(shù)基音頻率參數(shù)logf0x′；

步驟8，利用步驟4中agmm訓(xùn)練時(shí)得到的λ＝{p(wi),μi,σi}和步驟7中提取的特征參數(shù)x′，代入公式(5)，得到后驗(yàn)條件概率矩陣p′(x|λ)；

步驟9，利用步驟5中blfw+as訓(xùn)練得到的頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ)以及步驟8中得到的后驗(yàn)條件概率矩陣p′(x|λ)，分別代入公式(15)、(16)、(17)和(18)后，得到轉(zhuǎn)換后語(yǔ)音的mfcc特征參數(shù)y′；

步驟10，利用步驟7中得到的源語(yǔ)音對(duì)數(shù)基音頻率參數(shù)logf0x′，代入公式(19)，得到轉(zhuǎn)換后語(yǔ)音的對(duì)數(shù)基音頻率參數(shù)logf0y′；

步驟11，使用ahodecoder語(yǔ)音合成模型將步驟9中的y′和步驟10中的logf0y′作為輸入得到轉(zhuǎn)換后的語(yǔ)音。

進(jìn)一步地，如圖3所示，將本發(fā)明的方法與inca方法得到的轉(zhuǎn)換語(yǔ)音的語(yǔ)譜圖進(jìn)行了對(duì)比，轉(zhuǎn)換方向?yàn)閒1-m2(女聲1-男聲2)，進(jìn)一步驗(yàn)證了本發(fā)明所采用的方法相對(duì)于inca方法的頻譜相似度更高的優(yōu)點(diǎn)。其中，inca方法是文獻(xiàn)(errod,morenoa,bonafontea.incaalgorithmfortrainingvoiceconversionsystemsfromnonparallelcorpora[j].ieeetransactionsonaudio,speech,andlanguageprocessing,2010,18(5):944-953.)中提出的。

以上所述僅是本發(fā)明的部分實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2