亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種語(yǔ)音轉(zhuǎn)換方法與流程

文檔序號(hào):11521431閱讀:1394來(lái)源:國(guó)知局
一種語(yǔ)音轉(zhuǎn)換方法與流程

本發(fā)明涉及語(yǔ)音轉(zhuǎn)換領(lǐng)域,特別涉及一種高質(zhì)量語(yǔ)音轉(zhuǎn)換系統(tǒng)及實(shí)現(xiàn)方法。



背景技術(shù):

語(yǔ)音轉(zhuǎn)換是指改變?cè)凑f(shuō)話(huà)人的語(yǔ)音個(gè)性特征,使之具有目標(biāo)說(shuō)話(huà)人的語(yǔ)音個(gè)性特征,也即使一個(gè)人說(shuō)的語(yǔ)音經(jīng)過(guò)轉(zhuǎn)換后聽(tīng)起來(lái)像是另一個(gè)人說(shuō)的語(yǔ)音,同時(shí)保留語(yǔ)義。通常衡量語(yǔ)音轉(zhuǎn)換的效果有兩個(gè)指標(biāo):相似度(轉(zhuǎn)換后的語(yǔ)音和目標(biāo)說(shuō)話(huà)人語(yǔ)音個(gè)性特征之間的相似度)和清晰度(轉(zhuǎn)換后語(yǔ)音的音質(zhì)效果)。

典型的語(yǔ)音轉(zhuǎn)換方法有:以高斯混合模型(gmm,gaussianmixturemodel)為代表的統(tǒng)計(jì)映射方法,該方法采用最小均方誤差(mmse,minimummeansquarederror)準(zhǔn)則,使得源說(shuō)話(huà)人的語(yǔ)音經(jīng)過(guò)轉(zhuǎn)換后與目標(biāo)語(yǔ)音之間的誤差最小,從而實(shí)現(xiàn)了比較好的語(yǔ)音相似性轉(zhuǎn)換,但轉(zhuǎn)換后的音質(zhì)不夠理想;以頻率彎折(fw,frequencywarping)為代表的基于共振峰映射的語(yǔ)音頻譜轉(zhuǎn)換方法,它利用了人的聲道的生理特性與共振峰參數(shù)的相關(guān)性,取得了良好的音質(zhì)轉(zhuǎn)換效果,但在語(yǔ)音相似度上轉(zhuǎn)換效果差強(qiáng)人意。

在語(yǔ)音轉(zhuǎn)換領(lǐng)域,學(xué)者danielerro將gmm和fw技術(shù)相結(jié)合,實(shí)現(xiàn)了較高語(yǔ)音相似度和較好的音質(zhì)效果的語(yǔ)音轉(zhuǎn)換,然而danielerro在語(yǔ)音轉(zhuǎn)換中采用gmm對(duì)語(yǔ)音特征參數(shù)進(jìn)行固定混合度的軟分類(lèi)訓(xùn)練,限制了語(yǔ)音轉(zhuǎn)換效果提升空間,其原因在于未考慮到不同人的語(yǔ)音特征參數(shù)統(tǒng)計(jì)分布不同,而gmm混合度與特征參數(shù)統(tǒng)計(jì)分布密切相關(guān)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明目的是提供一種高質(zhì)量語(yǔ)音轉(zhuǎn)換方法,該系統(tǒng)考慮了不同人的語(yǔ)音特征參數(shù)統(tǒng)計(jì)分布的不同,提供一種能夠根據(jù)目標(biāo)說(shuō)話(huà)人的不同,自適應(yīng)的更改gmm訓(xùn)練得到的分類(lèi)情況,實(shí)現(xiàn)了更佳的語(yǔ)音轉(zhuǎn)換。本發(fā)明具有較好的實(shí)用價(jià)值,可用于電影配音、語(yǔ)音翻譯、保密通信等領(lǐng)域。

本發(fā)明采取的技術(shù)方案為訓(xùn)練部分和轉(zhuǎn)換部分,具體如下:

1)、訓(xùn)練部分步驟:

1-1)獲取源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的平行語(yǔ)料庫(kù);

1-2)使用ahocoder語(yǔ)音分析模型提取語(yǔ)音特征參數(shù)和對(duì)數(shù)基頻;

1-3)對(duì)步驟1-2)中的語(yǔ)音特征參數(shù)進(jìn)行vtln和dtw;

1-4)使用em算法進(jìn)行sagmm訓(xùn)練,得到sagmm參數(shù)λ,p(x|λ);

1-5)使用步驟1-4)中的后驗(yàn)條件概率矩陣p(x|λ)進(jìn)行blfw+as訓(xùn)練,得到頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ),從而構(gòu)建blfw+as轉(zhuǎn)換函數(shù);使用對(duì)數(shù)基頻的均值和方差建立源語(yǔ)音基音頻率和目標(biāo)語(yǔ)音基音頻率之間的轉(zhuǎn)換函數(shù);

2)、轉(zhuǎn)換部分步驟:

2-1)輸入待轉(zhuǎn)換的源說(shuō)話(huà)人語(yǔ)音;

2-2)使用ahocoder語(yǔ)音分析模型提取特征參數(shù)和對(duì)數(shù)基頻;

2-3)使用sagmm和訓(xùn)練時(shí)得到的參數(shù)λ,求取后驗(yàn)條件概率矩陣;

2-4)將頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ)代入blfw+as轉(zhuǎn)換函數(shù),求得轉(zhuǎn)換后的特征參數(shù);

2-5)將對(duì)數(shù)基頻代入訓(xùn)練時(shí)得到的基頻轉(zhuǎn)換函數(shù)得到轉(zhuǎn)換后的對(duì)數(shù)基頻;

2-6)使用ahodecoder語(yǔ)音合成模型將轉(zhuǎn)換后的特征參數(shù)和對(duì)數(shù)基頻合成轉(zhuǎn)換后的語(yǔ)音。

其中:訓(xùn)練部分步驟1-4)中所述的高斯分類(lèi)數(shù)是根據(jù)說(shuō)話(huà)人語(yǔ)音特征參數(shù)的具體分布來(lái)決定的。

訓(xùn)練部分步驟1-5)中頻率彎折因子和幅度調(diào)節(jié)因子是根據(jù)sagmm訓(xùn)練得到的后驗(yàn)條件概率矩陣來(lái)訓(xùn)練得到的。

有益效果

1、本發(fā)明使用sagmm和blfw+as相結(jié)合來(lái)實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換系統(tǒng),該系統(tǒng)能夠根據(jù)不同說(shuō)話(huà)人的語(yǔ)音特征參數(shù)分布,自適應(yīng)調(diào)節(jié)gmm的分量數(shù),實(shí)現(xiàn)了高質(zhì)量的語(yǔ)音轉(zhuǎn)換。

2、本發(fā)明實(shí)現(xiàn)了完整的高質(zhì)量語(yǔ)音轉(zhuǎn)換系統(tǒng),因此語(yǔ)音轉(zhuǎn)換的應(yīng)用場(chǎng)景下具有實(shí)用效果。

附圖說(shuō)明

圖1是本發(fā)明的訓(xùn)練部分原理圖;

圖2是本發(fā)明的轉(zhuǎn)換部分原理圖;

圖3是本發(fā)明語(yǔ)音轉(zhuǎn)換效果圖。

具體實(shí)施方式

下面結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。

本發(fā)明所述高質(zhì)量語(yǔ)音轉(zhuǎn)換方法分為兩個(gè)部分:訓(xùn)練部分用于得到語(yǔ)音轉(zhuǎn)換所需的參數(shù)和轉(zhuǎn)換函數(shù),而轉(zhuǎn)換部分用于實(shí)現(xiàn)源說(shuō)話(huà)人語(yǔ)音轉(zhuǎn)換為目標(biāo)說(shuō)話(huà)人語(yǔ)音。

1)、如圖1,訓(xùn)練部分實(shí)施步驟:

1-1)獲取源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人語(yǔ)音平行語(yǔ)料庫(kù),平行語(yǔ)料庫(kù)的獲取可采用卡內(nèi)基梅隆大學(xué)的開(kāi)源arctic語(yǔ)料庫(kù)或者自行錄制;

1-2)本發(fā)明使用ahocoder語(yǔ)音分析模型分別提取源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的語(yǔ)音梅爾倒譜系數(shù)(mfcc,mel-frequencycepstralcoefficient)和對(duì)數(shù)基音頻率參數(shù)logf0;

1-3)對(duì)步驟(2)中的源和目標(biāo)語(yǔ)音的mfcc參數(shù)進(jìn)行聲道長(zhǎng)度歸一化(vtln,vocaltractlengthnormalization)和動(dòng)態(tài)時(shí)間規(guī)整(dtw,dynamictimewarping);

1-4)建立sagmm模型,采用期望最大化(em,expectation-maximization)算法進(jìn)行訓(xùn)練,并使用k-均值迭代方法得到em訓(xùn)練的初始值。傳統(tǒng)的高斯混合模型表示如下:

其中,x為p維的語(yǔ)音特征參數(shù)矢量,本發(fā)明中采用p=39,p(wi)表示各高斯分量的權(quán)重系數(shù),且有m為高斯分量的個(gè)數(shù),n(x;μi;∑i)表示高斯分量的p維聯(lián)合高斯概率分布,表示如下:

其中μi為均值矢量,∑i為協(xié)方差矩陣,λ={p(wi),μi,σi},是gmm模型的模型參數(shù),對(duì)λ的估算可以通過(guò)最大似然估計(jì)法(ml,maximumlikelihood)實(shí)現(xiàn),最大似然估計(jì)的目的在于使得條件概率p(x|λ)取得最大,對(duì)于語(yǔ)音特征參數(shù)矢量集合x(chóng)={xn,n=1,2,...n}有:

此時(shí):

λ=argλmax(p(x|λ))(4)

求解公式(4)可使用em算法,隨著em計(jì)算過(guò)程中迭代條件滿(mǎn)足p(x|λk)≥p(x|λk-1),k是迭代的次數(shù),直至模型參數(shù)λ。迭代過(guò)程中高斯分量權(quán)重系數(shù)p(wi)、均值向量μi、協(xié)方差矩陣σi的迭代公式如下:

在sagmm訓(xùn)練中,首先需要對(duì)各高斯分量的權(quán)重系數(shù)、均值向量、協(xié)方差矩陣和特征參數(shù)矢量之間的歐式距離進(jìn)行綜合分析,動(dòng)態(tài)的調(diào)整高斯混合度。其訓(xùn)練過(guò)程如下:

1.設(shè)定sagmm初始混合數(shù)m,高斯分量權(quán)重系數(shù)閾值t1,t2,特征參數(shù)矢量之間歐式距離閾值d和協(xié)方差閾值σ。

2.使用k-均值算法初始化sagmm。

3.使用em算法進(jìn)行迭代訓(xùn)練。

4.若訓(xùn)練得到的模型中某一高斯分量n(p(wi);μi;σi)權(quán)重系數(shù)小于t1,并且與其最鄰近分量n(p(wj),μj,σi)之間的歐式距離小于閾值d,則認(rèn)為這兩個(gè)分量包含信息較少且成分相似,可對(duì)其進(jìn)行合并處理:

此時(shí),高斯分量個(gè)數(shù)變?yōu)閙-1,返回步驟3進(jìn)行下一次訓(xùn)練,若滿(mǎn)足合并條件的高斯分量有多個(gè),則選擇最小距離的高斯分量進(jìn)行合并。

5.若訓(xùn)練得到的模型中某一高斯分量(p(wi),μi,∑i)權(quán)重系數(shù)大于t2,并且協(xié)方差矩陣中有至少一維的方差(協(xié)方差矩陣對(duì)角線(xiàn)上元素即為方差)大于σ,則認(rèn)為該高斯分量包含過(guò)量信息,應(yīng)將其分裂處理:

其中e為全1的列向量,n用于調(diào)節(jié)高斯分布,經(jīng)過(guò)分裂后高斯分量個(gè)數(shù)變?yōu)閙+1,如果滿(mǎn)足分裂條件的高斯分量有多個(gè),則選取權(quán)重系數(shù)最大的分量進(jìn)行分裂,返回步驟3.進(jìn)行下一次訓(xùn)練。

6.sagmm訓(xùn)練結(jié)束,得到后驗(yàn)條件概率矩陣p(x|λ),保存λ。

1-5)利用步驟(3)中得到的源語(yǔ)音特征參數(shù)x和目標(biāo)語(yǔ)音特征參數(shù)y以及步驟(4)中得到的后驗(yàn)條件概率矩陣p(x|λ)進(jìn)行訓(xùn)練,得到頻率彎折因子和幅度調(diào)節(jié)因子,從而構(gòu)建雙線(xiàn)性頻率彎折(blfw,bilinearfrequencywarping)和幅度調(diào)節(jié)(as,amplitudescaling)語(yǔ)音轉(zhuǎn)換函數(shù),表示如下:

f(x)=wα(x,λ)+s(x,λ)(11)

1-6)建立源語(yǔ)音基音頻率和目標(biāo)語(yǔ)音基音頻率之間的轉(zhuǎn)換關(guān)系:

其中μ,σ2用于表示對(duì)數(shù)基音頻率logf0的均值和方差。

1-7)通過(guò)以上步驟,我們建立了源和目標(biāo)語(yǔ)音特征參數(shù)之間的轉(zhuǎn)換關(guān)系---公式(11),源語(yǔ)音和目標(biāo)語(yǔ)音對(duì)數(shù)基音頻率之間的轉(zhuǎn)換關(guān)系---公式(15)。

2)、如圖2轉(zhuǎn)換部分具體實(shí)施步驟:

2-1)輸入待轉(zhuǎn)換的源說(shuō)話(huà)人語(yǔ)音;

2-2)使用ahodecoder語(yǔ)音分析模型提取源說(shuō)話(huà)人的語(yǔ)音39階mfcc特征參數(shù)x以及源語(yǔ)音對(duì)數(shù)基音頻率參數(shù)logf0x;

2-3)利用sagmm訓(xùn)練時(shí)得到的λ={p(wi),μi,σi}和步驟(2)中提取的特征參數(shù)x,代入公式(1),得到后驗(yàn)條件概率矩陣p(x|λ);

2-4)利用blfw+as訓(xùn)練時(shí)得到的頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ)以及步驟(3)中得到的后驗(yàn)條件概率矩陣p(x|λ),分別代入公式(11)、(12)、(13)和(14)后,得到轉(zhuǎn)換后語(yǔ)音的mfcc特征參數(shù)y;

2-5)利用步驟(2)中得到的源語(yǔ)音對(duì)數(shù)基音頻率參數(shù)logf0x,代入公式(15),得到轉(zhuǎn)換后語(yǔ)音的對(duì)數(shù)基音頻率參數(shù)logf0y;

2-6)使用ahodecoder語(yǔ)音合成模型將步驟(4)中的y和步驟(5)中的logf0y作為輸入得到轉(zhuǎn)換后的語(yǔ)音,如圖3。

以上所述,只是本發(fā)明為進(jìn)行詳細(xì)、示范性的說(shuō)明而呈現(xiàn)的較佳實(shí)例,本領(lǐng)域技術(shù)人員根據(jù)上述具體實(shí)例,通過(guò)各種等同替換所得到的技術(shù)方案,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍及其等同范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1