一種語(yǔ)音轉(zhuǎn)換方法與流程

文檔序號(hào)：11521431閱讀：1394來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語(yǔ)音轉(zhuǎn)換領(lǐng)域，特別涉及一種高質(zhì)量語(yǔ)音轉(zhuǎn)換系統(tǒng)及實(shí)現(xiàn)方法。

背景技術(shù)：

語(yǔ)音轉(zhuǎn)換是指改變?cè)凑f(shuō)話(huà)人的語(yǔ)音個(gè)性特征，使之具有目標(biāo)說(shuō)話(huà)人的語(yǔ)音個(gè)性特征，也即使一個(gè)人說(shuō)的語(yǔ)音經(jīng)過(guò)轉(zhuǎn)換后聽(tīng)起來(lái)像是另一個(gè)人說(shuō)的語(yǔ)音，同時(shí)保留語(yǔ)義。通常衡量語(yǔ)音轉(zhuǎn)換的效果有兩個(gè)指標(biāo)：相似度(轉(zhuǎn)換后的語(yǔ)音和目標(biāo)說(shuō)話(huà)人語(yǔ)音個(gè)性特征之間的相似度)和清晰度(轉(zhuǎn)換后語(yǔ)音的音質(zhì)效果)。

典型的語(yǔ)音轉(zhuǎn)換方法有：以高斯混合模型(gmm,gaussianmixturemodel)為代表的統(tǒng)計(jì)映射方法，該方法采用最小均方誤差(mmse,minimummeansquarederror)準(zhǔn)則，使得源說(shuō)話(huà)人的語(yǔ)音經(jīng)過(guò)轉(zhuǎn)換后與目標(biāo)語(yǔ)音之間的誤差最小，從而實(shí)現(xiàn)了比較好的語(yǔ)音相似性轉(zhuǎn)換，但轉(zhuǎn)換后的音質(zhì)不夠理想；以頻率彎折(fw,frequencywarping)為代表的基于共振峰映射的語(yǔ)音頻譜轉(zhuǎn)換方法，它利用了人的聲道的生理特性與共振峰參數(shù)的相關(guān)性，取得了良好的音質(zhì)轉(zhuǎn)換效果，但在語(yǔ)音相似度上轉(zhuǎn)換效果差強(qiáng)人意。

在語(yǔ)音轉(zhuǎn)換領(lǐng)域，學(xué)者danielerro將gmm和fw技術(shù)相結(jié)合，實(shí)現(xiàn)了較高語(yǔ)音相似度和較好的音質(zhì)效果的語(yǔ)音轉(zhuǎn)換，然而danielerro在語(yǔ)音轉(zhuǎn)換中采用gmm對(duì)語(yǔ)音特征參數(shù)進(jìn)行固定混合度的軟分類(lèi)訓(xùn)練，限制了語(yǔ)音轉(zhuǎn)換效果提升空間，其原因在于未考慮到不同人的語(yǔ)音特征參數(shù)統(tǒng)計(jì)分布不同，而gmm混合度與特征參數(shù)統(tǒng)計(jì)分布密切相關(guān)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明目的是提供一種高質(zhì)量語(yǔ)音轉(zhuǎn)換方法，該系統(tǒng)考慮了不同人的語(yǔ)音特征參數(shù)統(tǒng)計(jì)分布的不同，提供一種能夠根據(jù)目標(biāo)說(shuō)話(huà)人的不同，自適應(yīng)的更改gmm訓(xùn)練得到的分類(lèi)情況，實(shí)現(xiàn)了更佳的語(yǔ)音轉(zhuǎn)換。本發(fā)明具有較好的實(shí)用價(jià)值，可用于電影配音、語(yǔ)音翻譯、保密通信等領(lǐng)域。

本發(fā)明采取的技術(shù)方案為訓(xùn)練部分和轉(zhuǎn)換部分，具體如下：

1)、訓(xùn)練部分步驟：

1-1)獲取源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的平行語(yǔ)料庫(kù)；

1-2)使用ahocoder語(yǔ)音分析模型提取語(yǔ)音特征參數(shù)和對(duì)數(shù)基頻；

1-3)對(duì)步驟1-2)中的語(yǔ)音特征參數(shù)進(jìn)行vtln和dtw；

1-4)使用em算法進(jìn)行sagmm訓(xùn)練，得到sagmm參數(shù)λ，p(x|λ)；

1-5)使用步驟1-4)中的后驗(yàn)條件概率矩陣p(x|λ)進(jìn)行blfw+as訓(xùn)練，得到頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ)，從而構(gòu)建blfw+as轉(zhuǎn)換函數(shù)；使用對(duì)數(shù)基頻的均值和方差建立源語(yǔ)音基音頻率和目標(biāo)語(yǔ)音基音頻率之間的轉(zhuǎn)換函數(shù)；

2)、轉(zhuǎn)換部分步驟：

2-1)輸入待轉(zhuǎn)換的源說(shuō)話(huà)人語(yǔ)音；

2-2)使用ahocoder語(yǔ)音分析模型提取特征參數(shù)和對(duì)數(shù)基頻；

2-3)使用sagmm和訓(xùn)練時(shí)得到的參數(shù)λ，求取后驗(yàn)條件概率矩陣；

2-4)將頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ)代入blfw+as轉(zhuǎn)換函數(shù)，求得轉(zhuǎn)換后的特征參數(shù)；

2-5)將對(duì)數(shù)基頻代入訓(xùn)練時(shí)得到的基頻轉(zhuǎn)換函數(shù)得到轉(zhuǎn)換后的對(duì)數(shù)基頻；

2-6)使用ahodecoder語(yǔ)音合成模型將轉(zhuǎn)換后的特征參數(shù)和對(duì)數(shù)基頻合成轉(zhuǎn)換后的語(yǔ)音。

其中：訓(xùn)練部分步驟1-4)中所述的高斯分類(lèi)數(shù)是根據(jù)說(shuō)話(huà)人語(yǔ)音特征參數(shù)的具體分布來(lái)決定的。

訓(xùn)練部分步驟1-5)中頻率彎折因子和幅度調(diào)節(jié)因子是根據(jù)sagmm訓(xùn)練得到的后驗(yàn)條件概率矩陣來(lái)訓(xùn)練得到的。

有益效果

1、本發(fā)明使用sagmm和blfw+as相結(jié)合來(lái)實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換系統(tǒng)，該系統(tǒng)能夠根據(jù)不同說(shuō)話(huà)人的語(yǔ)音特征參數(shù)分布，自適應(yīng)調(diào)節(jié)gmm的分量數(shù)，實(shí)現(xiàn)了高質(zhì)量的語(yǔ)音轉(zhuǎn)換。

2、本發(fā)明實(shí)現(xiàn)了完整的高質(zhì)量語(yǔ)音轉(zhuǎn)換系統(tǒng)，因此語(yǔ)音轉(zhuǎn)換的應(yīng)用場(chǎng)景下具有實(shí)用效果。

附圖說(shuō)明

圖1是本發(fā)明的訓(xùn)練部分原理圖；

圖2是本發(fā)明的轉(zhuǎn)換部分原理圖；

圖3是本發(fā)明語(yǔ)音轉(zhuǎn)換效果圖。

具體實(shí)施方式

下面結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。

本發(fā)明所述高質(zhì)量語(yǔ)音轉(zhuǎn)換方法分為兩個(gè)部分：訓(xùn)練部分用于得到語(yǔ)音轉(zhuǎn)換所需的參數(shù)和轉(zhuǎn)換函數(shù)，而轉(zhuǎn)換部分用于實(shí)現(xiàn)源說(shuō)話(huà)人語(yǔ)音轉(zhuǎn)換為目標(biāo)說(shuō)話(huà)人語(yǔ)音。

1)、如圖1，訓(xùn)練部分實(shí)施步驟：

1-1)獲取源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人語(yǔ)音平行語(yǔ)料庫(kù)，平行語(yǔ)料庫(kù)的獲取可采用卡內(nèi)基梅隆大學(xué)的開(kāi)源arctic語(yǔ)料庫(kù)或者自行錄制；

1-2)本發(fā)明使用ahocoder語(yǔ)音分析模型分別提取源說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的語(yǔ)音梅爾倒譜系數(shù)(mfcc,mel-frequencycepstralcoefficient)和對(duì)數(shù)基音頻率參數(shù)logf0；

1-3)對(duì)步驟(2)中的源和目標(biāo)語(yǔ)音的mfcc參數(shù)進(jìn)行聲道長(zhǎng)度歸一化(vtln,vocaltractlengthnormalization)和動(dòng)態(tài)時(shí)間規(guī)整(dtw,dynamictimewarping)；

1-4)建立sagmm模型，采用期望最大化(em,expectation-maximization)算法進(jìn)行訓(xùn)練，并使用k-均值迭代方法得到em訓(xùn)練的初始值。傳統(tǒng)的高斯混合模型表示如下：

其中，x為p維的語(yǔ)音特征參數(shù)矢量，本發(fā)明中采用p＝39，p(wi)表示各高斯分量的權(quán)重系數(shù)，且有m為高斯分量的個(gè)數(shù)，n(x；μi；∑i)表示高斯分量的p維聯(lián)合高斯概率分布，表示如下：

其中μi為均值矢量，∑i為協(xié)方差矩陣，λ＝{p(wi),μi,σi}，是gmm模型的模型參數(shù)，對(duì)λ的估算可以通過(guò)最大似然估計(jì)法(ml,maximumlikelihood)實(shí)現(xiàn),最大似然估計(jì)的目的在于使得條件概率p(x|λ)取得最大，對(duì)于語(yǔ)音特征參數(shù)矢量集合x(chóng)＝{xn,n＝1,2,...n}有：

此時(shí)：

λ＝argλmax(p(x|λ))(4)

求解公式(4)可使用em算法，隨著em計(jì)算過(guò)程中迭代條件滿(mǎn)足p(x|λ^k)≥p(x|λ^k-1)，k是迭代的次數(shù)，直至模型參數(shù)λ。迭代過(guò)程中高斯分量權(quán)重系數(shù)p(wi)、均值向量μi、協(xié)方差矩陣σi的迭代公式如下：

在sagmm訓(xùn)練中，首先需要對(duì)各高斯分量的權(quán)重系數(shù)、均值向量、協(xié)方差矩陣和特征參數(shù)矢量之間的歐式距離進(jìn)行綜合分析，動(dòng)態(tài)的調(diào)整高斯混合度。其訓(xùn)練過(guò)程如下：

1.設(shè)定sagmm初始混合數(shù)m,高斯分量權(quán)重系數(shù)閾值t1,t2，特征參數(shù)矢量之間歐式距離閾值d和協(xié)方差閾值σ。

2.使用k-均值算法初始化sagmm。

3.使用em算法進(jìn)行迭代訓(xùn)練。

4.若訓(xùn)練得到的模型中某一高斯分量n(p(wi)；μi；σi)權(quán)重系數(shù)小于t1，并且與其最鄰近分量n(p(wj),μj,σi)之間的歐式距離小于閾值d，則認(rèn)為這兩個(gè)分量包含信息較少且成分相似，可對(duì)其進(jìn)行合并處理：

此時(shí)，高斯分量個(gè)數(shù)變?yōu)閙-1，返回步驟3進(jìn)行下一次訓(xùn)練，若滿(mǎn)足合并條件的高斯分量有多個(gè)，則選擇最小距離的高斯分量進(jìn)行合并。

5.若訓(xùn)練得到的模型中某一高斯分量(p(wi),μi,∑i)權(quán)重系數(shù)大于t2，并且協(xié)方差矩陣中有至少一維的方差(協(xié)方差矩陣對(duì)角線(xiàn)上元素即為方差)大于σ，則認(rèn)為該高斯分量包含過(guò)量信息，應(yīng)將其分裂處理：

其中e為全1的列向量，n用于調(diào)節(jié)高斯分布，經(jīng)過(guò)分裂后高斯分量個(gè)數(shù)變?yōu)閙+1，如果滿(mǎn)足分裂條件的高斯分量有多個(gè)，則選取權(quán)重系數(shù)最大的分量進(jìn)行分裂，返回步驟3.進(jìn)行下一次訓(xùn)練。

6.sagmm訓(xùn)練結(jié)束，得到后驗(yàn)條件概率矩陣p(x|λ)，保存λ。

1-5)利用步驟(3)中得到的源語(yǔ)音特征參數(shù)x和目標(biāo)語(yǔ)音特征參數(shù)y以及步驟(4)中得到的后驗(yàn)條件概率矩陣p(x|λ)進(jìn)行訓(xùn)練，得到頻率彎折因子和幅度調(diào)節(jié)因子，從而構(gòu)建雙線(xiàn)性頻率彎折(blfw,bilinearfrequencywarping)和幅度調(diào)節(jié)(as,amplitudescaling)語(yǔ)音轉(zhuǎn)換函數(shù)，表示如下：

f(x)＝wα(x,λ)+s(x,λ)(11)

1-6)建立源語(yǔ)音基音頻率和目標(biāo)語(yǔ)音基音頻率之間的轉(zhuǎn)換關(guān)系：

其中μ,σ²用于表示對(duì)數(shù)基音頻率logf0的均值和方差。

1-7)通過(guò)以上步驟，我們建立了源和目標(biāo)語(yǔ)音特征參數(shù)之間的轉(zhuǎn)換關(guān)系---公式(11)，源語(yǔ)音和目標(biāo)語(yǔ)音對(duì)數(shù)基音頻率之間的轉(zhuǎn)換關(guān)系---公式(15)。

2)、如圖2轉(zhuǎn)換部分具體實(shí)施步驟：

2-1)輸入待轉(zhuǎn)換的源說(shuō)話(huà)人語(yǔ)音；

2-2)使用ahodecoder語(yǔ)音分析模型提取源說(shuō)話(huà)人的語(yǔ)音39階mfcc特征參數(shù)x以及源語(yǔ)音對(duì)數(shù)基音頻率參數(shù)logf0x；

2-3)利用sagmm訓(xùn)練時(shí)得到的λ＝{p(wi),μi,σi}和步驟(2)中提取的特征參數(shù)x，代入公式(1)，得到后驗(yàn)條件概率矩陣p(x|λ)；

2-4)利用blfw+as訓(xùn)練時(shí)得到的頻率彎折因子α(x,λ)和幅度調(diào)節(jié)因子s(x,λ)以及步驟(3)中得到的后驗(yàn)條件概率矩陣p(x|λ)，分別代入公式(11)、(12)、(13)和(14)后，得到轉(zhuǎn)換后語(yǔ)音的mfcc特征參數(shù)y；

2-5)利用步驟(2)中得到的源語(yǔ)音對(duì)數(shù)基音頻率參數(shù)logf0x，代入公式(15)，得到轉(zhuǎn)換后語(yǔ)音的對(duì)數(shù)基音頻率參數(shù)logf0y；

2-6)使用ahodecoder語(yǔ)音合成模型將步驟(4)中的y和步驟(5)中的logf0y作為輸入得到轉(zhuǎn)換后的語(yǔ)音，如圖3。

以上所述，只是本發(fā)明為進(jìn)行詳細(xì)、示范性的說(shuō)明而呈現(xiàn)的較佳實(shí)例，本領(lǐng)域技術(shù)人員根據(jù)上述具體實(shí)例，通過(guò)各種等同替換所得到的技術(shù)方案，均應(yīng)包含在本發(fā)明的權(quán)利要求范圍及其等同范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李燕萍;呂中良;崔立梅
技術(shù)所有人：南京郵電大學(xué)
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音轉(zhuǎn)換文字軟件相關(guān)技術(shù)

語(yǔ)音轉(zhuǎn)文字轉(zhuǎn)換器相關(guān)技術(shù)

文字轉(zhuǎn)換語(yǔ)音相關(guān)技術(shù)

語(yǔ)音轉(zhuǎn)換成文字相關(guān)技術(shù)

如何將語(yǔ)音轉(zhuǎn)換成文字相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種語(yǔ)音轉(zhuǎn)換方法與流程