基于高斯過(guò)程輸出后濾波的語(yǔ)音轉(zhuǎn)換方法與流程

文檔序號(hào)：12476035閱讀：274來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語(yǔ)音轉(zhuǎn)換技術(shù)，屬于語(yǔ)音識(shí)別與合成領(lǐng)域，特別是一種基于高斯過(guò)程輸出后濾波的語(yǔ)音轉(zhuǎn)換方法。

背景技術(shù)：

語(yǔ)音轉(zhuǎn)換技術(shù)是語(yǔ)音信號(hào)處理領(lǐng)域近年來(lái)新興的研究分支，涵蓋了語(yǔ)音識(shí)別和語(yǔ)音合成等領(lǐng)域的內(nèi)容，擬在保持語(yǔ)義內(nèi)容不變的情況下，通過(guò)改變一個(gè)特定說(shuō)話人(被稱為源說(shuō)話人)的話音個(gè)性特征，使他(或她)說(shuō)的話被聽(tīng)者認(rèn)為是另一個(gè)特定說(shuō)話人(被稱為目標(biāo)說(shuō)話人)說(shuō)的話。語(yǔ)音轉(zhuǎn)換的主要任務(wù)包括提取代表說(shuō)話人個(gè)性的特征參數(shù)并進(jìn)行數(shù)學(xué)變換，然后將變換后的參數(shù)重構(gòu)成語(yǔ)音。在這過(guò)程中，既要保持重構(gòu)語(yǔ)音的聽(tīng)覺(jué)質(zhì)量，又要兼顧轉(zhuǎn)換后的個(gè)性特征是否準(zhǔn)確。

經(jīng)過(guò)多年的發(fā)展，語(yǔ)音轉(zhuǎn)換領(lǐng)域已經(jīng)涌現(xiàn)出一些高效實(shí)用的算法，其中以高斯混合模型為代表的統(tǒng)計(jì)轉(zhuǎn)換方法目前已儼然成為了該領(lǐng)域公認(rèn)的標(biāo)準(zhǔn)。但是這類算法亦存在某些弊端，例如：由于高斯混合模型自身模型參數(shù)的原因，使得轉(zhuǎn)換后的譜參數(shù)過(guò)于平滑，導(dǎo)致不能準(zhǔn)確地得到目標(biāo)預(yù)測(cè)參數(shù)值，從而不能達(dá)到準(zhǔn)確的轉(zhuǎn)換效果。

針對(duì)上述問(wèn)題，目前已存在一些應(yīng)對(duì)方案。例如，基于最大后驗(yàn)概率的GMM轉(zhuǎn)換算法，考慮采用最大后驗(yàn)概率自適應(yīng)地構(gòu)造轉(zhuǎn)換函數(shù)，來(lái)解決轉(zhuǎn)換后譜參數(shù)過(guò)平滑的問(wèn)題；基于最大似然估計(jì)的GMM轉(zhuǎn)換算法，考慮通過(guò)引入全局方差的概念解決過(guò)平滑問(wèn)題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明要解決的技術(shù)問(wèn)題為：通過(guò)高斯過(guò)程對(duì)源與目標(biāo)參數(shù)進(jìn)行訓(xùn)練得到映射函數(shù)關(guān)系，再對(duì)高斯過(guò)程預(yù)測(cè)輸出值進(jìn)一步聯(lián)合優(yōu)化，得到較為準(zhǔn)確的目標(biāo)預(yù)測(cè)輸出值，實(shí)現(xiàn)高質(zhì)量語(yǔ)音轉(zhuǎn)換。

本發(fā)明采取的技術(shù)方案具體為：基于高斯過(guò)程輸出后濾波的語(yǔ)音轉(zhuǎn)換方法，包括以下步驟：

(1)采用語(yǔ)音分析模型對(duì)原始語(yǔ)音進(jìn)行分析，得到原始語(yǔ)音的參數(shù)；

(2)從上述分析得到的參數(shù)中提取與音素相關(guān)的特征參數(shù)集合；

(3)對(duì)原始語(yǔ)音和目標(biāo)語(yǔ)音的特征參數(shù)集合進(jìn)行參數(shù)對(duì)齊操作；

(4)將對(duì)齊的特征參數(shù)集合利用高斯過(guò)程進(jìn)行訓(xùn)練得到原始語(yǔ)音與目標(biāo)語(yǔ)音的映射關(guān)系；

(5)輸入待轉(zhuǎn)換源語(yǔ)音的特征參數(shù)，通過(guò)步驟(4)得到的映射關(guān)系得到目標(biāo)語(yǔ)音的特征參數(shù)預(yù)測(cè)值；

(6)利用高斯過(guò)程對(duì)目標(biāo)語(yǔ)音的特征參數(shù)預(yù)測(cè)值進(jìn)行最大似然估計(jì)，并計(jì)算目標(biāo)語(yǔ)音特征參數(shù)預(yù)測(cè)值的方差的高斯分布；

(7)對(duì)最大似然估計(jì)結(jié)果和方差的高斯分布結(jié)果進(jìn)行聯(lián)合最優(yōu)化，得到最佳目標(biāo)語(yǔ)音特征參數(shù)預(yù)測(cè)值，最后用語(yǔ)音合成模型合成目標(biāo)語(yǔ)音。

本發(fā)明中，步驟(1)～(4)為訓(xùn)練階段，步驟(5)～(7)為轉(zhuǎn)換階段。高斯過(guò)程是一個(gè)隨機(jī)過(guò)程，可以完全由兩個(gè)統(tǒng)計(jì)參數(shù)確定，結(jié)構(gòu)簡(jiǎn)單，通過(guò)高斯過(guò)程得到源與目標(biāo)參數(shù)的映射關(guān)系，進(jìn)而可實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換?；诟咚惯^(guò)程的進(jìn)行語(yǔ)音轉(zhuǎn)換，一方面，高斯過(guò)程的非參數(shù)特性減少了模型參數(shù)的自由度，另一方面高斯過(guò)程具有較好的非線性映射能力，從而可以緩解過(guò)擬合的問(wèn)題，避免轉(zhuǎn)換后的譜參數(shù)過(guò)于平滑。

具體的，本發(fā)明步驟(1)中，采用語(yǔ)音分析模型對(duì)原始語(yǔ)音進(jìn)行的分析包括：

1.1對(duì)原始語(yǔ)音進(jìn)行固定時(shí)長(zhǎng)的分幀，用自相關(guān)法對(duì)其基音頻率進(jìn)行估計(jì)；

1.2在濁音信號(hào)部分設(shè)置一個(gè)最大濁音頻率分量，用來(lái)劃分諧波成分和隨機(jī)成分的主能量區(qū)域；再利用最小二乘算法估計(jì)得到離散的諧波幅度值和相位值。

語(yǔ)音分析模型為現(xiàn)有技術(shù)，其可將語(yǔ)音信號(hào)模擬為可用于轉(zhuǎn)換的特征參數(shù)，本發(fā)明可采用諧波隨機(jī)模型，該模型將語(yǔ)音信號(hào)模擬為大量基頻諧波正弦信號(hào)和噪聲分量，對(duì)基頻諧波正弦信號(hào)作進(jìn)一步分析，得到適用于轉(zhuǎn)換的語(yǔ)音信號(hào)特征參數(shù)。

自相關(guān)法為現(xiàn)有算法，是語(yǔ)音信號(hào)基音頻率提取算法中較為經(jīng)典且具有代表性的方法。

步驟(2)中，從步驟(1)中得到的參數(shù)包括原始語(yǔ)音的離散的諧波幅度值和相位值，從上述離散的諧波幅度值中提取與音素有關(guān)，即適用于語(yǔ)音轉(zhuǎn)換任務(wù)的特征參數(shù)集合，包括步驟：

2.1對(duì)離散的諧波幅度值求取平方值；

2.2根據(jù)功率譜密度函數(shù)和自相關(guān)函數(shù)的一一對(duì)應(yīng)關(guān)系，得到關(guān)于線性預(yù)測(cè)系數(shù)的托普里茨矩陣方程，求解該矩陣方程得到線性預(yù)測(cè)系數(shù)；

2.3將線性預(yù)測(cè)系數(shù)轉(zhuǎn)換為目標(biāo)倒譜系數(shù)，并求得原始語(yǔ)音的基音頻率；

2.4得到包含原始語(yǔ)音倒譜系數(shù)和基因頻率參數(shù)的特征參數(shù)集合。

步驟(3)中，對(duì)原始語(yǔ)音和目標(biāo)語(yǔ)音的特征參數(shù)集合進(jìn)行參數(shù)對(duì)齊操作的對(duì)其準(zhǔn)則為：對(duì)于兩個(gè)不等長(zhǎng)的特征參數(shù)序列，利用動(dòng)態(tài)規(guī)劃的思想將其中一者的時(shí)間軸非線性的映射到另一者的時(shí)間軸上，從而實(shí)現(xiàn)一一對(duì)應(yīng)的匹配關(guān)系；在特征參數(shù)集合的對(duì)齊過(guò)程中，通過(guò)迭代優(yōu)化一個(gè)預(yù)設(shè)的累積失真函數(shù)，并限制搜索區(qū)域，最終獲得時(shí)間規(guī)整函數(shù)。

搜索區(qū)域是根據(jù)第i幀源語(yǔ)音信號(hào)矢量和第j幀目標(biāo)語(yǔ)音信號(hào)矢量之間的距離測(cè)度，規(guī)定的一個(gè)平行四邊形作為限制條件；時(shí)間規(guī)整函數(shù)是關(guān)于源與目標(biāo)語(yǔ)音幀特征矢量之間距離測(cè)度最小的規(guī)整函數(shù)，以保證語(yǔ)音之間存在最大的聲學(xué)相似特性。

步驟(4)中所述得到原始語(yǔ)音與目標(biāo)語(yǔ)音特征參數(shù)映射關(guān)系的方法包括以下步驟：

4.4從步驟(2)得到的特征參數(shù)矩陣中提取原語(yǔ)音參數(shù)矩陣中的所有參數(shù)將其作為輸入，目標(biāo)參數(shù)矩陣中的其中一維數(shù)值作為輸出，通過(guò)高斯過(guò)程訓(xùn)練兩者之間的映射關(guān)系；

源與目標(biāo)的參數(shù)類型及數(shù)量皆相同，目標(biāo)參數(shù)矩陣與源語(yǔ)音參數(shù)矩陣求解過(guò)程一致。各維參數(shù)是目標(biāo)語(yǔ)音各幀特征參數(shù)中所有同一維組成的數(shù)據(jù)(即相同維不同幀所組成的數(shù)據(jù))。

4.2依次選擇目標(biāo)參數(shù)矩陣中的其他各維數(shù)值作為輸出，得到原始語(yǔ)音參數(shù)矩陣中參數(shù)與目標(biāo)語(yǔ)音參數(shù)矩陣中各維數(shù)值之間的映射關(guān)系。

步驟(5)中，對(duì)于待轉(zhuǎn)換源語(yǔ)音，處理過(guò)程包括步驟：

5.1對(duì)待轉(zhuǎn)換源語(yǔ)音依次按步驟(1)、(2)、(3)進(jìn)行分析處理，得到待轉(zhuǎn)換源語(yǔ)音的特征參數(shù)；

5.2利用步驟(4)得到的映射關(guān)系，將步驟5.1得到的待轉(zhuǎn)換源語(yǔ)音的特征參數(shù)，映射為目標(biāo)語(yǔ)音的特征參數(shù)，即得到目標(biāo)語(yǔ)音的特征參數(shù)預(yù)測(cè)值，進(jìn)一步得到相應(yīng)的特征參數(shù)矩陣。

步驟(6)包括如下步驟：

6.1利用高斯過(guò)程對(duì)步驟5.2所得目標(biāo)語(yǔ)音特征參數(shù)矩陣中的各維特征參數(shù)進(jìn)行最大似然估計(jì)；

6.2計(jì)算步驟6.1所得的目標(biāo)語(yǔ)音各維特征參數(shù)的方差，并求取其方差的高斯分布。

步驟(7)包括如下步驟：

7.1構(gòu)建步驟6.1所得最大似然估計(jì)值和步驟6.2所得方差的高斯分布的聯(lián)合函數(shù)，并對(duì)該聯(lián)合函數(shù)進(jìn)行最優(yōu)化，實(shí)現(xiàn)對(duì)高斯過(guò)程預(yù)測(cè)輸出的后濾波，得到最佳目標(biāo)預(yù)測(cè)值，重構(gòu)目標(biāo)語(yǔ)音的特征參數(shù)矩陣；

7.2基于上述重構(gòu)的特征參數(shù)矩陣和目標(biāo)語(yǔ)音的基音頻率，利用語(yǔ)音合成模型轉(zhuǎn)換為目標(biāo)語(yǔ)音。

有益效果：

本發(fā)明充分考慮了造成轉(zhuǎn)換后譜參數(shù)過(guò)于平滑問(wèn)題的原因，結(jié)合高斯過(guò)程對(duì)轉(zhuǎn)換后的預(yù)測(cè)譜參數(shù)輸出值進(jìn)行進(jìn)一步聯(lián)合優(yōu)化，實(shí)現(xiàn)了高斯過(guò)程輸出的后濾波，可達(dá)到高質(zhì)量的語(yǔ)音轉(zhuǎn)換效果。

附圖說(shuō)明

圖1所示為本發(fā)明使用高斯過(guò)程的映射關(guān)系示意圖；

圖2所示為本發(fā)明的訓(xùn)練階段流程示意圖；

圖3所示為本發(fā)明轉(zhuǎn)換階段流程示意圖。

具體實(shí)施方式

以下結(jié)合附圖和具體實(shí)施例進(jìn)一步描述。

參考圖1，本發(fā)明基于高斯過(guò)程輸出后濾波的高質(zhì)量語(yǔ)音轉(zhuǎn)換方法，針對(duì)源和目標(biāo)的平行數(shù)據(jù)，利用高斯過(guò)程建立源與目標(biāo)之間的映射關(guān)系，通過(guò)該映射關(guān)系得到目標(biāo)預(yù)測(cè)輸出值，利用高斯過(guò)程對(duì)該輸出值進(jìn)行最大似然估計(jì)，并建立輸出值的方差的高斯分布。對(duì)最大似然估計(jì)和方差的高斯分布進(jìn)行聯(lián)合最優(yōu)化，得到目標(biāo)參數(shù)值完成對(duì)高斯過(guò)程輸出的后濾波，實(shí)現(xiàn)高質(zhì)量的語(yǔ)音轉(zhuǎn)換效果；具體包括如下步驟：

(1)采用語(yǔ)音分析模型對(duì)原始語(yǔ)音進(jìn)行分析，得到原始語(yǔ)音的參數(shù)；

(2)從分析得到的參數(shù)中提取與音素相關(guān)的特征參數(shù)集合；

(3)對(duì)原始語(yǔ)音和目標(biāo)語(yǔ)音的特征參數(shù)集合進(jìn)行參數(shù)對(duì)齊操作；

(4)將對(duì)齊的特征參數(shù)集合利用高斯過(guò)程進(jìn)行訓(xùn)練得到原始語(yǔ)音與目標(biāo)語(yǔ)音的映射關(guān)系；

(5)輸入待轉(zhuǎn)換源語(yǔ)音的特征參數(shù)，通過(guò)步驟(4)得到的映射關(guān)系得到目標(biāo)語(yǔ)音的特征參數(shù)預(yù)測(cè)值；

上述步驟中，步驟(1)～(4)為訓(xùn)練步驟，步驟(5)～(7)為轉(zhuǎn)換步驟。高斯過(guò)程是一個(gè)隨機(jī)過(guò)程，可以完全由兩個(gè)統(tǒng)計(jì)參數(shù)確定，結(jié)構(gòu)簡(jiǎn)單，通過(guò)高斯過(guò)程得到源與目標(biāo)參數(shù)的映射關(guān)系，可以有效解決高斯混合模型造成的過(guò)擬合問(wèn)題，另外對(duì)高斯過(guò)程預(yù)測(cè)輸出進(jìn)行進(jìn)一步聯(lián)合優(yōu)化可有效解決過(guò)平滑問(wèn)題。

本發(fā)明的提出是針對(duì)高斯混合模型在語(yǔ)音轉(zhuǎn)換中存在的問(wèn)題，有兩個(gè)關(guān)鍵點(diǎn)：一是通過(guò)高斯過(guò)程訓(xùn)練源參數(shù)與目標(biāo)參數(shù)各維數(shù)之間的映射關(guān)系，二是對(duì)高斯過(guò)程輸出的目標(biāo)預(yù)測(cè)值進(jìn)行進(jìn)一步分析，求其最大似然估計(jì)和方差的高斯分布，建立兩者之間的聯(lián)合函數(shù)并進(jìn)行聯(lián)合最優(yōu)化，實(shí)現(xiàn)高斯過(guò)程輸出的后濾波，得到更為準(zhǔn)確的預(yù)測(cè)輸出值，實(shí)現(xiàn)高質(zhì)量語(yǔ)音轉(zhuǎn)換。

再次參考圖1，其中N是用于訓(xùn)練的特征參數(shù)的幀數(shù)，D為特征參數(shù)的維數(shù)。又設(shè)X，X’分別表示訓(xùn)練時(shí)的兩個(gè)不同輸入，X_*表示轉(zhuǎn)換階段的輸入，y表示輸出，則高斯過(guò)程可以完全由均值和協(xié)方差兩個(gè)統(tǒng)計(jì)參數(shù)確定，即

y～GP(m(x),κ(X,X′)) (1)

其中為協(xié)方差函數(shù)，m(x)為均值函數(shù)，由于m(x)和κ(X,X′)中含有未知超參數(shù)σ和l，因此使用前需要對(duì)高斯過(guò)程進(jìn)行訓(xùn)練，通過(guò)最大邊緣相似度得到超參數(shù)σ和l，高斯過(guò)程訓(xùn)練完成后即可通過(guò)訓(xùn)練數(shù)據(jù)和測(cè)試輸入進(jìn)行預(yù)測(cè)得到測(cè)試輸出，假設(shè)高斯過(guò)程預(yù)測(cè)輸出值為y_*，測(cè)試輸出y_*的后驗(yàn)概率分布為P(y_*|X,y,X_*)，即：

得：

v[y_*]＝κ(X_*,X_*)-κ(X_*,X)κ(X,X)^-1κ(X,X_*) (4)

其中，式(2)中的符號(hào)Ψ表示高斯分布函數(shù)，式(3)中表示高斯分布均值，式(4)中v[y_*]表示高斯分布方差。

本發(fā)明的創(chuàng)新之處在于：對(duì)高斯過(guò)程的預(yù)測(cè)輸出值進(jìn)行后濾波，以解決預(yù)測(cè)輸出參數(shù)過(guò)平滑問(wèn)題，具體為：

通過(guò)上式得到高斯分布的預(yù)測(cè)輸出值，計(jì)算其最大似然估計(jì)和方差的高斯分布，并進(jìn)行聯(lián)合最優(yōu)化，得到目標(biāo)參數(shù)值完成對(duì)高斯過(guò)程輸出的后濾波，實(shí)現(xiàn)高質(zhì)量的語(yǔ)音轉(zhuǎn)換效果；具體包括如下步驟：

高斯過(guò)程預(yù)測(cè)輸出值y_*的最大似然估計(jì)函數(shù)為P(y_*)，預(yù)測(cè)輸出值y_*的方差為v(y_*)，其高斯分布為P(v(y_*))，其聯(lián)合對(duì)數(shù)似然函數(shù)為

其中w為測(cè)試幀數(shù)，是常數(shù)。求得聯(lián)合對(duì)數(shù)似然函數(shù)的最大值

即得到目標(biāo)預(yù)測(cè)值。

本發(fā)明進(jìn)行語(yǔ)音轉(zhuǎn)換的具體流程為，

如圖2所示為訓(xùn)練階段流程：

①通過(guò)語(yǔ)音分析模型的分析，獲得訓(xùn)練階段源與目標(biāo)特征參數(shù)序列；

②將源和目標(biāo)的特征參數(shù)集合通過(guò)動(dòng)態(tài)時(shí)間規(guī)整算法進(jìn)行對(duì)齊，使得對(duì)齊后的參數(shù)集合符合平行數(shù)據(jù)的要求；

③利用高斯過(guò)程對(duì)源與目標(biāo)的特征參數(shù)進(jìn)行訓(xùn)練，得到兩者之間的映射關(guān)系；

如圖3為轉(zhuǎn)換階段流程：

①通過(guò)語(yǔ)音分析模型的分析，獲得轉(zhuǎn)換階段源特征參數(shù)序列；

②在給定特征參數(shù)序列以及訓(xùn)練得到的映射關(guān)系的基礎(chǔ)上，預(yù)測(cè)轉(zhuǎn)換語(yǔ)音的特征參數(shù)；

③對(duì)得到的轉(zhuǎn)換語(yǔ)音特征參數(shù)利用公式(5)和(6)進(jìn)行聯(lián)合優(yōu)化，進(jìn)一步輸出準(zhǔn)確預(yù)測(cè)值，并合成轉(zhuǎn)換語(yǔ)音。

實(shí)施例

在訓(xùn)練階段：

①源和目標(biāo)人的語(yǔ)音通過(guò)諧波加隨機(jī)模型進(jìn)行分解，得到基音頻率軌跡和諧波聲道譜參數(shù)的幅度值和相位值。具體細(xì)節(jié)描述如下:

a.對(duì)語(yǔ)音信號(hào)進(jìn)行分幀，幀長(zhǎng)30ms，幀重疊間隔15ms。

b.在每幀中，用自相關(guān)法估計(jì)基頻，若該幀為清音幀，則設(shè)置基頻等于零。

c.對(duì)于濁音幀(即基頻不為零的幀)，假設(shè)其語(yǔ)音信號(hào)可以由一系列的正弦波疊加而成：

式中L為正弦波的個(gè)數(shù)，n為一幀語(yǔ)音中包含的樣點(diǎn)數(shù)，{C_l}為正弦波的復(fù)幅度。令s_h表示s_h(n)在一幀內(nèi)的樣點(diǎn)所組成的矢量，則(7)式可以改寫(xiě)成：

其中，矩陣B由公式(7)中改寫(xiě)而成，ω₀為基音頻率，列數(shù)表示一幀內(nèi)一個(gè)采樣點(diǎn)所組成的矢量，行數(shù)表示一幀內(nèi)總采樣點(diǎn)數(shù)，x表示語(yǔ)音信號(hào)疊加時(shí)的幅度值。C^*_L的上標(biāo)“*”表示共軛的意思。

通過(guò)最小二乘算法可以確定以上的{C_l}：

其中s(n)是真實(shí)語(yǔ)音信號(hào)，w(n)是窗函數(shù)，一般取漢明窗。ε表示誤差。將窗函數(shù)也改寫(xiě)成矩陣形式W：

則最優(yōu)的x可以這樣得到：

式中，x_opt表示語(yǔ)音信號(hào)疊加時(shí)幅度的最優(yōu)值，上標(biāo)H表示共軛復(fù)轉(zhuǎn)置，由于(B^HW^HW)是一個(gè)托普里茨矩陣(Toeplitz Matrix)，因此可以用萊文森-杜賓(Levinson-Dubin)快速算法對(duì)其進(jìn)行求解，s為真實(shí)語(yǔ)音信號(hào)s(n)在一幀的范圍內(nèi)的樣點(diǎn)所組成的矢量。

d.得到了{(lán)C_l}，則諧波幅度A和相位值如下：

②由于原始諧波加噪聲模型參數(shù)維數(shù)較高，不便于后續(xù)計(jì)算，因此必須對(duì)其進(jìn)行降維。由于基頻軌跡是一維參數(shù)，因此，降維的主要對(duì)象是聲道幅度譜參數(shù)和相位參數(shù)。同時(shí)，降維的目標(biāo)是將聲道參數(shù)轉(zhuǎn)化為經(jīng)典的線性預(yù)測(cè)參數(shù)，進(jìn)而產(chǎn)生適用于語(yǔ)音轉(zhuǎn)換系統(tǒng)的倒譜系數(shù)。求解步驟如下：

a.分別求取離散的M個(gè)幅度值A(chǔ)_m的平方，并將其認(rèn)為是離散功率譜的采樣值P(ω_m)。

b.根據(jù)帕斯卡定律，功率譜密度函數(shù)和自相關(guān)函數(shù)是一對(duì)傅立葉變換對(duì)，則采用自相關(guān)函數(shù)表示其關(guān)系即為：式(13)即為關(guān)于線性預(yù)測(cè)系數(shù)的托普里茨矩陣方程，我們可以通過(guò)求解以下矩陣方程得到對(duì)線性預(yù)測(cè)參數(shù)系數(shù)的初步估值：

其中a₁,a₂,…,a_p是p階線性預(yù)測(cè)參數(shù)系數(shù)，R₀～R_P分別表示為前p個(gè)整數(shù)離散點(diǎn)上的自相關(guān)函數(shù)值。

c.通過(guò)線性預(yù)測(cè)分析得到的合成濾波器的系統(tǒng)函數(shù)為H(z)，其沖激相應(yīng)為h(n)：

其中{a_i}為線性預(yù)測(cè)系數(shù)，p為線性預(yù)測(cè)系數(shù)(LPC)的階數(shù)，z表示數(shù)學(xué)中z變換的自變量。

下面求h(n)的倒譜首先根據(jù)同態(tài)處理法得到：

因?yàn)镠(z)是最小相位的，即在單位圓內(nèi)是解析的，所以可以展開(kāi)成級(jí)數(shù)形式，即：

也就是說(shuō)的逆變換是存在的，設(shè)將式(16)兩邊同時(shí)對(duì)z^-1求導(dǎo)：

得到：

令式(18)等號(hào)兩邊z的各次冪前系數(shù)分別相等，得到和a_i之間的遞推關(guān)系：

按式(19)～(21)可直接從預(yù)測(cè)系數(shù){a_i}求得倒譜系數(shù)

③通過(guò)步驟②得到的源和目標(biāo)的倒譜系數(shù)參數(shù)，用動(dòng)態(tài)時(shí)間規(guī)整算法進(jìn)行對(duì)齊。所謂的“對(duì)齊”是指：使得對(duì)應(yīng)的源和目標(biāo)的倒譜系數(shù)在設(shè)定的失真準(zhǔn)則上具有最小的失真距離。這樣做的目的是：使得源和目標(biāo)的特征序列在參數(shù)的層面上關(guān)聯(lián)，便于后續(xù)統(tǒng)計(jì)模型學(xué)習(xí)其中的映射規(guī)律。動(dòng)態(tài)時(shí)間規(guī)整算法步驟簡(jiǎn)要概述如下：

對(duì)于同一個(gè)語(yǔ)句的發(fā)音，假定源說(shuō)話人的聲學(xué)個(gè)性特征參數(shù)序列為而目標(biāo)說(shuō)話人的特征參數(shù)序列為且N_x≠N_y。設(shè)定源說(shuō)話人的特征參數(shù)序列為參考模板，則動(dòng)態(tài)時(shí)間規(guī)整算法就是要尋找時(shí)間規(guī)整函數(shù)使得目標(biāo)特征序列的時(shí)間軸n_y非線性地映射到源特征參數(shù)序列的時(shí)間軸n_x，從而使得總的累積失真量最小，在數(shù)學(xué)上累積失真函數(shù)可以表示為：

其中表示第n_y幀的目標(biāo)說(shuō)話人特征參數(shù)和第幀源說(shuō)話人特征參數(shù)之間的某種測(cè)度距離。

時(shí)間規(guī)整函數(shù)是關(guān)于源與目標(biāo)語(yǔ)音幀特征矢量之間距離測(cè)度最小的規(guī)整函數(shù)，以保證語(yǔ)音之間存在最大的聲學(xué)相似特性。在動(dòng)態(tài)時(shí)間規(guī)整的規(guī)整過(guò)程中，規(guī)整函數(shù)是要滿足以下的約束條件的，有邊界條件和連續(xù)性條件分別為：

動(dòng)態(tài)時(shí)間規(guī)整是一種最優(yōu)化算法，它把一個(gè)N階段決策過(guò)程化為N個(gè)單階段的決策過(guò)程，也就是轉(zhuǎn)化為逐一做出決策的N個(gè)子問(wèn)題，以便簡(jiǎn)化計(jì)算。動(dòng)態(tài)時(shí)間規(guī)整的過(guò)程一般是從最后一個(gè)階段開(kāi)始進(jìn)行，也即它是一個(gè)逆序過(guò)程，其遞推過(guò)程可以表示為：

其中，g(n_y,n_x)是為了n_y,n_x的取值滿足時(shí)間規(guī)整函數(shù)的約束條件，D函數(shù)表示累計(jì)失真函數(shù)，d函數(shù)表示點(diǎn)與點(diǎn)之間的失真函數(shù)。

④訓(xùn)練高斯過(guò)程求其超參數(shù)：高斯過(guò)程可完全由二階統(tǒng)計(jì)量確定，即均值和方差，假設(shè)均值函數(shù)為m(x)，方差函數(shù)為κ(X,X′)，高斯過(guò)程可表示為：

y～GP(m(x),κ(X,X′)) (26)

其中我們假設(shè)均值m(x)為0，方差κ(X,X′)為：

上式中包含未知超參數(shù)σ和l，因此通過(guò)訓(xùn)練數(shù)據(jù)對(duì)其高斯過(guò)程進(jìn)行訓(xùn)練，計(jì)算σ和l的值。

將動(dòng)態(tài)時(shí)間規(guī)整對(duì)齊后的源和目標(biāo)特征參數(shù)作為高斯過(guò)程訓(xùn)練數(shù)據(jù)，得到兩者之間的映射關(guān)系。

在轉(zhuǎn)換階段：

①待轉(zhuǎn)換的源語(yǔ)音用諧波隨機(jī)模型進(jìn)行分析，得到基音頻率軌跡和諧波聲道譜參數(shù)的幅度值和相位值，該過(guò)程和訓(xùn)練階段中的第一步相同。

②和訓(xùn)練階段一樣，將諧波加噪聲模型參數(shù)轉(zhuǎn)換為倒譜系數(shù)參數(shù)。

③利用訓(xùn)練階段得到的映射關(guān)系將源語(yǔ)音倒譜系數(shù)和基音頻率映射為轉(zhuǎn)換語(yǔ)音的倒譜系數(shù)和基音頻率。

④對(duì)得到的轉(zhuǎn)換語(yǔ)音特征參數(shù)利用公式(5)和(6)進(jìn)行聯(lián)合優(yōu)化，實(shí)現(xiàn)對(duì)高斯過(guò)程輸出的后濾波，以便進(jìn)一步輸出更為準(zhǔn)確的預(yù)測(cè)值。

⑤將轉(zhuǎn)換后的倒譜系數(shù)參數(shù)反變換為諧波加隨機(jī)模型系數(shù)，然后和映射后的基頻軌跡一起合成轉(zhuǎn)換后的語(yǔ)音，詳細(xì)步驟如下：

a.將獲得的用正弦模型的定義合成第k幀的語(yǔ)音，即：

b.為了減少幀間交替時(shí)產(chǎn)生的誤差，采用疊接相加法合成整個(gè)語(yǔ)音，即對(duì)于任意相鄰的兩幀，有：

其中N表示一幀語(yǔ)音中包含的樣點(diǎn)數(shù)，m代表樣點(diǎn)數(shù)。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出：對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐寧;鮑靜益;姚瀟;湯一彬;蔣愛(ài)民;劉小峰
技術(shù)所有人：河海大學(xué)常州校區(qū)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音信號(hào)濾波處理相關(guān)技術(shù)

變頻器輸出濾波器相關(guān)技術(shù)

輸出濾波器相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于高斯過(guò)程輸出后濾波的語(yǔ)音轉(zhuǎn)換方法與流程