本發(fā)明涉及語(yǔ)音轉(zhuǎn)換領(lǐng)域,特別涉及一種高質(zhì)量語(yǔ)音轉(zhuǎn)換系統(tǒng)及實(shí)現(xiàn)方法。
背景技術(shù):
語(yǔ)音轉(zhuǎn)換是指改變?cè)凑f(shuō)話(huà)人的語(yǔ)音個(gè)性特征,使之具有目標(biāo)說(shuō)話(huà)人的語(yǔ)音個(gè)性特征,也即使一個(gè)人說(shuō)的語(yǔ)音經(jīng)過(guò)轉(zhuǎn)換后聽(tīng)起來(lái)像是另一個(gè)人說(shuō)的語(yǔ)音,同時(shí)保留語(yǔ)義。通常衡量語(yǔ)音轉(zhuǎn)換的效果有兩個(gè)指標(biāo):相似度(轉(zhuǎn)換后的語(yǔ)音和目標(biāo)說(shuō)話(huà)人語(yǔ)音個(gè)性特征之間的相似度)和清晰度(轉(zhuǎn)換后語(yǔ)音的音質(zhì)效果)。
典型的語(yǔ)音轉(zhuǎn)換方法有:以高斯混合模型(gmm,gaussianmixturemodel)為代表的統(tǒng)計(jì)映射方法,該方法采用最小均方誤差(mmse,minimummeansquarederror)準(zhǔn)則,使得源說(shuō)話(huà)人的語(yǔ)音經(jīng)過(guò)轉(zhuǎn)換后與目標(biāo)語(yǔ)音之間的誤差最小,從而實(shí)現(xiàn)了比較好的語(yǔ)音相似性轉(zhuǎn)換,但轉(zhuǎn)換后的音質(zhì)不夠理想;以頻率彎折(fw,frequencywarping)為代表的基于共振峰映射的語(yǔ)音頻譜轉(zhuǎn)換方法,它利用了人的聲道的生理特性與共振峰參數(shù)的相關(guān)性,取得了良好的音質(zhì)轉(zhuǎn)換效果,但在語(yǔ)音相似度上轉(zhuǎn)換效果差強(qiáng)人意。
在語(yǔ)音轉(zhuǎn)換領(lǐng)域,學(xué)者danielerro將gmm和fw技術(shù)相結(jié)合,實(shí)現(xiàn)了較高語(yǔ)音相似度和較好的音質(zhì)效果的語(yǔ)音轉(zhuǎn)換,然而danielerro在語(yǔ)音轉(zhuǎn)換中采用gmm對(duì)語(yǔ)音特征參數(shù)進(jìn)行固定混合度的軟分類(lèi)訓(xùn)練,限制了語(yǔ)音轉(zhuǎn)換效果提升空間,其原因在于未考慮到不同人的語(yǔ)音特征參數(shù)統(tǒng)計(jì)分布不同,而gmm混合度與特征參數(shù)統(tǒng)計(jì)分布密切相關(guān)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的是提供一種高質(zhì)量語(yǔ)音轉(zhuǎn)換方法,該系統(tǒng)考慮了不同人的語(yǔ)音特征參數(shù)統(tǒng)計(jì)分布的不同,提供一種能夠根據(jù)目標(biāo)說(shuō)話(huà)人的不同,自適應(yīng)的更改gmm訓(xùn)練得到的分類(lèi)情況,實(shí)現(xiàn)了更佳的語(yǔ)音轉(zhuǎn)換。本發(fā)明具有較好的實(shí)用價(jià)值,可用于電影配音、語(yǔ)音翻譯、保密通信等領(lǐng)域。
本發(fā)明采取的技術(shù)方案為訓(xùn)練部分和轉(zhuǎn)換部分,具體如下:
1)、訓(xùn)練部分步驟:
1-1)獲取源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的平行語(yǔ)料庫(kù);
1-2)使用ahocoder語(yǔ)音分析模型提取語(yǔ)音特征參數(shù)和對(duì)數(shù)基頻;
1-3)對(duì)步驟1-2)中的語(yǔ)音特征參數(shù)進(jìn)行vtln和dtw;
1-4)使用em算法進(jìn)行sagmm訓(xùn)練,得到sagmm參數(shù)λ,p(x|λ);
1-5)使用步驟1-4)中的后驗(yàn)條件概率矩陣p(x|λ)進(jìn)行blfw+as訓(xùn)練,得到頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ),從而構(gòu)建blfw+as轉(zhuǎn)換函數(shù);使用對(duì)數(shù)基頻的均值和方差建立源語(yǔ)音基音頻率和目標(biāo)語(yǔ)音基音頻率之間的轉(zhuǎn)換函數(shù);
2)、轉(zhuǎn)換部分步驟:
2-1)輸入待轉(zhuǎn)換的源說(shuō)話(huà)人語(yǔ)音;
2-2)使用ahocoder語(yǔ)音分析模型提取特征參數(shù)和對(duì)數(shù)基頻;
2-3)使用sagmm和訓(xùn)練時(shí)得到的參數(shù)λ,求取后驗(yàn)條件概率矩陣;
2-4)將頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ)代入blfw+as轉(zhuǎn)換函數(shù),求得轉(zhuǎn)換后的特征參數(shù);
2-5)將對(duì)數(shù)基頻代入訓(xùn)練時(shí)得到的基頻轉(zhuǎn)換函數(shù)得到轉(zhuǎn)換后的對(duì)數(shù)基頻;
2-6)使用ahodecoder語(yǔ)音合成模型將轉(zhuǎn)換后的特征參數(shù)和對(duì)數(shù)基頻合成轉(zhuǎn)換后的語(yǔ)音。
其中:訓(xùn)練部分步驟1-4)中所述的高斯分類(lèi)數(shù)是根據(jù)說(shuō)話(huà)人語(yǔ)音特征參數(shù)的具體分布來(lái)決定的。
訓(xùn)練部分步驟1-5)中頻率彎折因子和幅度調(diào)節(jié)因子是根據(jù)sagmm訓(xùn)練得到的后驗(yàn)條件概率矩陣來(lái)訓(xùn)練得到的。
有益效果
1、本發(fā)明使用sagmm和blfw+as相結(jié)合來(lái)實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換系統(tǒng),該系統(tǒng)能夠根據(jù)不同說(shuō)話(huà)人的語(yǔ)音特征參數(shù)分布,自適應(yīng)調(diào)節(jié)gmm的分量數(shù),實(shí)現(xiàn)了高質(zhì)量的語(yǔ)音轉(zhuǎn)換。
2、本發(fā)明實(shí)現(xiàn)了完整的高質(zhì)量語(yǔ)音轉(zhuǎn)換系統(tǒng),因此語(yǔ)音轉(zhuǎn)換的應(yīng)用場(chǎng)景下具有實(shí)用效果。
附圖說(shuō)明
圖1是本發(fā)明的訓(xùn)練部分原理圖;
圖2是本發(fā)明的轉(zhuǎn)換部分原理圖;
圖3是本發(fā)明語(yǔ)音轉(zhuǎn)換效果圖。
具體實(shí)施方式
下面結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
本發(fā)明所述高質(zhì)量語(yǔ)音轉(zhuǎn)換方法分為兩個(gè)部分:訓(xùn)練部分用于得到語(yǔ)音轉(zhuǎn)換所需的參數(shù)和轉(zhuǎn)換函數(shù),而轉(zhuǎn)換部分用于實(shí)現(xiàn)源說(shuō)話(huà)人語(yǔ)音轉(zhuǎn)換為目標(biāo)說(shuō)話(huà)人語(yǔ)音。
1)、如圖1,訓(xùn)練部分實(shí)施步驟:
1-1)獲取源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人語(yǔ)音平行語(yǔ)料庫(kù),平行語(yǔ)料庫(kù)的獲取可采用卡內(nèi)基梅隆大學(xué)的開(kāi)源arctic語(yǔ)料庫(kù)或者自行錄制;
1-2)本發(fā)明使用ahocoder語(yǔ)音分析模型分別提取源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的語(yǔ)音梅爾倒譜系數(shù)(mfcc,mel-frequencycepstralcoefficient)和對(duì)數(shù)基音頻率參數(shù)logf0;
1-3)對(duì)步驟(2)中的源和目標(biāo)語(yǔ)音的mfcc參數(shù)進(jìn)行聲道長(zhǎng)度歸一化(vtln,vocaltractlengthnormalization)和動(dòng)態(tài)時(shí)間規(guī)整(dtw,dynamictimewarping);
1-4)建立sagmm模型,采用期望最大化(em,expectation-maximization)算法進(jìn)行訓(xùn)練,并使用k-均值迭代方法得到em訓(xùn)練的初始值。傳統(tǒng)的高斯混合模型表示如下:
其中,x為p維的語(yǔ)音特征參數(shù)矢量,本發(fā)明中采用p=39,p(wi)表示各高斯分量的權(quán)重系數(shù),且有
其中μi為均值矢量,∑i為協(xié)方差矩陣,λ={p(wi),μi,σi},是gmm模型的模型參數(shù),對(duì)λ的估算可以通過(guò)最大似然估計(jì)法(ml,maximumlikelihood)實(shí)現(xiàn),最大似然估計(jì)的目的在于使得條件概率p(x|λ)取得最大,對(duì)于語(yǔ)音特征參數(shù)矢量集合x(chóng)={xn,n=1,2,...n}有:
此時(shí):
λ=argλmax(p(x|λ))(4)
求解公式(4)可使用em算法,隨著em計(jì)算過(guò)程中迭代條件滿(mǎn)足p(x|λk)≥p(x|λk-1),k是迭代的次數(shù),直至模型參數(shù)λ。迭代過(guò)程中高斯分量權(quán)重系數(shù)p(wi)、均值向量μi、協(xié)方差矩陣σi的迭代公式如下:
在sagmm訓(xùn)練中,首先需要對(duì)各高斯分量的權(quán)重系數(shù)、均值向量、協(xié)方差矩陣和特征參數(shù)矢量之間的歐式距離進(jìn)行綜合分析,動(dòng)態(tài)的調(diào)整高斯混合度。其訓(xùn)練過(guò)程如下:
1.設(shè)定sagmm初始混合數(shù)m,高斯分量權(quán)重系數(shù)閾值t1,t2,特征參數(shù)矢量之間歐式距離閾值d和協(xié)方差閾值σ。
2.使用k-均值算法初始化sagmm。
3.使用em算法進(jìn)行迭代訓(xùn)練。
4.若訓(xùn)練得到的模型中某一高斯分量n(p(wi);μi;σi)權(quán)重系數(shù)小于t1,并且與其最鄰近分量n(p(wj),μj,σi)之間的歐式距離小于閾值d,則認(rèn)為這兩個(gè)分量包含信息較少且成分相似,可對(duì)其進(jìn)行合并處理:
此時(shí),高斯分量個(gè)數(shù)變?yōu)閙-1,返回步驟3進(jìn)行下一次訓(xùn)練,若滿(mǎn)足合并條件的高斯分量有多個(gè),則選擇最小距離的高斯分量進(jìn)行合并。
5.若訓(xùn)練得到的模型中某一高斯分量(p(wi),μi,∑i)權(quán)重系數(shù)大于t2,并且協(xié)方差矩陣中有至少一維的方差(協(xié)方差矩陣對(duì)角線(xiàn)上元素即為方差)大于σ,則認(rèn)為該高斯分量包含過(guò)量信息,應(yīng)將其分裂處理:
其中e為全1的列向量,n用于調(diào)節(jié)高斯分布,經(jīng)過(guò)分裂后高斯分量個(gè)數(shù)變?yōu)閙+1,如果滿(mǎn)足分裂條件的高斯分量有多個(gè),則選取權(quán)重系數(shù)最大的分量進(jìn)行分裂,返回步驟3.進(jìn)行下一次訓(xùn)練。
6.sagmm訓(xùn)練結(jié)束,得到后驗(yàn)條件概率矩陣p(x|λ),保存λ。
1-5)利用步驟(3)中得到的源語(yǔ)音特征參數(shù)x和目標(biāo)語(yǔ)音特征參數(shù)y以及步驟(4)中得到的后驗(yàn)條件概率矩陣p(x|λ)進(jìn)行訓(xùn)練,得到頻率彎折因子和幅度調(diào)節(jié)因子,從而構(gòu)建雙線(xiàn)性頻率彎折(blfw,bilinearfrequencywarping)和幅度調(diào)節(jié)(as,amplitudescaling)語(yǔ)音轉(zhuǎn)換函數(shù),表示如下:
f(x)=wα(x,λ)+s(x,λ)(11)
1-6)建立源語(yǔ)音基音頻率和目標(biāo)語(yǔ)音基音頻率之間的轉(zhuǎn)換關(guān)系:
其中μ,σ2用于表示對(duì)數(shù)基音頻率logf0的均值和方差。
1-7)通過(guò)以上步驟,我們建立了源和目標(biāo)語(yǔ)音特征參數(shù)之間的轉(zhuǎn)換關(guān)系---公式(11),源語(yǔ)音和目標(biāo)語(yǔ)音對(duì)數(shù)基音頻率之間的轉(zhuǎn)換關(guān)系---公式(15)。
2)、如圖2轉(zhuǎn)換部分具體實(shí)施步驟:
2-1)輸入待轉(zhuǎn)換的源說(shuō)話(huà)人語(yǔ)音;
2-2)使用ahodecoder語(yǔ)音分析模型提取源說(shuō)話(huà)人的語(yǔ)音39階mfcc特征參數(shù)x以及源語(yǔ)音對(duì)數(shù)基音頻率參數(shù)logf0x;
2-3)利用sagmm訓(xùn)練時(shí)得到的λ={p(wi),μi,σi}和步驟(2)中提取的特征參數(shù)x,代入公式(1),得到后驗(yàn)條件概率矩陣p(x|λ);
2-4)利用blfw+as訓(xùn)練時(shí)得到的頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ)以及步驟(3)中得到的后驗(yàn)條件概率矩陣p(x|λ),分別代入公式(11)、(12)、(13)和(14)后,得到轉(zhuǎn)換后語(yǔ)音的mfcc特征參數(shù)y;
2-5)利用步驟(2)中得到的源語(yǔ)音對(duì)數(shù)基音頻率參數(shù)logf0x,代入公式(15),得到轉(zhuǎn)換后語(yǔ)音的對(duì)數(shù)基音頻率參數(shù)logf0y;
2-6)使用ahodecoder語(yǔ)音合成模型將步驟(4)中的y和步驟(5)中的logf0y作為輸入得到轉(zhuǎn)換后的語(yǔ)音,如圖3。
以上所述,只是本發(fā)明為進(jìn)行詳細(xì)、示范性的說(shuō)明而呈現(xiàn)的較佳實(shí)例,本領(lǐng)域技術(shù)人員根據(jù)上述具體實(shí)例,通過(guò)各種等同替換所得到的技術(shù)方案,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍及其等同范圍之內(nèi)。