本發(fā)明涉及語(yǔ)音轉(zhuǎn)換技術(shù),屬于語(yǔ)音識(shí)別與合成領(lǐng)域,特別是一種基于高斯過(guò)程輸出后濾波的語(yǔ)音轉(zhuǎn)換方法。
背景技術(shù):
語(yǔ)音轉(zhuǎn)換技術(shù)是語(yǔ)音信號(hào)處理領(lǐng)域近年來(lái)新興的研究分支,涵蓋了語(yǔ)音識(shí)別和語(yǔ)音合成等領(lǐng)域的內(nèi)容,擬在保持語(yǔ)義內(nèi)容不變的情況下,通過(guò)改變一個(gè)特定說(shuō)話人(被稱為源說(shuō)話人)的話音個(gè)性特征,使他(或她)說(shuō)的話被聽(tīng)者認(rèn)為是另一個(gè)特定說(shuō)話人(被稱為目標(biāo)說(shuō)話人)說(shuō)的話。語(yǔ)音轉(zhuǎn)換的主要任務(wù)包括提取代表說(shuō)話人個(gè)性的特征參數(shù)并進(jìn)行數(shù)學(xué)變換,然后將變換后的參數(shù)重構(gòu)成語(yǔ)音。在這過(guò)程中,既要保持重構(gòu)語(yǔ)音的聽(tīng)覺(jué)質(zhì)量,又要兼顧轉(zhuǎn)換后的個(gè)性特征是否準(zhǔn)確。
經(jīng)過(guò)多年的發(fā)展,語(yǔ)音轉(zhuǎn)換領(lǐng)域已經(jīng)涌現(xiàn)出一些高效實(shí)用的算法,其中以高斯混合模型為代表的統(tǒng)計(jì)轉(zhuǎn)換方法目前已儼然成為了該領(lǐng)域公認(rèn)的標(biāo)準(zhǔn)。但是這類算法亦存在某些弊端,例如:由于高斯混合模型自身模型參數(shù)的原因,使得轉(zhuǎn)換后的譜參數(shù)過(guò)于平滑,導(dǎo)致不能準(zhǔn)確地得到目標(biāo)預(yù)測(cè)參數(shù)值,從而不能達(dá)到準(zhǔn)確的轉(zhuǎn)換效果。
針對(duì)上述問(wèn)題,目前已存在一些應(yīng)對(duì)方案。例如,基于最大后驗(yàn)概率的GMM轉(zhuǎn)換算法,考慮采用最大后驗(yàn)概率自適應(yīng)地構(gòu)造轉(zhuǎn)換函數(shù),來(lái)解決轉(zhuǎn)換后譜參數(shù)過(guò)平滑的問(wèn)題;基于最大似然估計(jì)的GMM轉(zhuǎn)換算法,考慮通過(guò)引入全局方差的概念解決過(guò)平滑問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問(wèn)題為:通過(guò)高斯過(guò)程對(duì)源與目標(biāo)參數(shù)進(jìn)行訓(xùn)練得到映射函數(shù)關(guān)系,再對(duì)高斯過(guò)程預(yù)測(cè)輸出值進(jìn)一步聯(lián)合優(yōu)化,得到較為準(zhǔn)確的目標(biāo)預(yù)測(cè)輸出值,實(shí)現(xiàn)高質(zhì)量語(yǔ)音轉(zhuǎn)換。
本發(fā)明采取的技術(shù)方案具體為:基于高斯過(guò)程輸出后濾波的語(yǔ)音轉(zhuǎn)換方法,包括以下步驟:
(1)采用語(yǔ)音分析模型對(duì)原始語(yǔ)音進(jìn)行分析,得到原始語(yǔ)音的參數(shù);
(2)從上述分析得到的參數(shù)中提取與音素相關(guān)的特征參數(shù)集合;
(3)對(duì)原始語(yǔ)音和目標(biāo)語(yǔ)音的特征參數(shù)集合進(jìn)行參數(shù)對(duì)齊操作;
(4)將對(duì)齊的特征參數(shù)集合利用高斯過(guò)程進(jìn)行訓(xùn)練得到原始語(yǔ)音與目標(biāo)語(yǔ)音的映射關(guān)系;
(5)輸入待轉(zhuǎn)換源語(yǔ)音的特征參數(shù),通過(guò)步驟(4)得到的映射關(guān)系得到目標(biāo)語(yǔ)音的特征參數(shù)預(yù)測(cè)值;
(6)利用高斯過(guò)程對(duì)目標(biāo)語(yǔ)音的特征參數(shù)預(yù)測(cè)值進(jìn)行最大似然估計(jì),并計(jì)算目標(biāo)語(yǔ)音特征參數(shù)預(yù)測(cè)值的方差的高斯分布;
(7)對(duì)最大似然估計(jì)結(jié)果和方差的高斯分布結(jié)果進(jìn)行聯(lián)合最優(yōu)化,得到最佳目標(biāo)語(yǔ)音特征參數(shù)預(yù)測(cè)值,最后用語(yǔ)音合成模型合成目標(biāo)語(yǔ)音。
本發(fā)明中,步驟(1)~(4)為訓(xùn)練階段,步驟(5)~(7)為轉(zhuǎn)換階段。高斯過(guò)程是一個(gè)隨機(jī)過(guò)程,可以完全由兩個(gè)統(tǒng)計(jì)參數(shù)確定,結(jié)構(gòu)簡(jiǎn)單,通過(guò)高斯過(guò)程得到源與目標(biāo)參數(shù)的映射關(guān)系,進(jìn)而可實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換?;诟咚惯^(guò)程的進(jìn)行語(yǔ)音轉(zhuǎn)換,一方面,高斯過(guò)程的非參數(shù)特性減少了模型參數(shù)的自由度,另一方面高斯過(guò)程具有較好的非線性映射能力,從而可以緩解過(guò)擬合的問(wèn)題,避免轉(zhuǎn)換后的譜參數(shù)過(guò)于平滑。
具體的,本發(fā)明步驟(1)中,采用語(yǔ)音分析模型對(duì)原始語(yǔ)音進(jìn)行的分析包括:
1.1對(duì)原始語(yǔ)音進(jìn)行固定時(shí)長(zhǎng)的分幀,用自相關(guān)法對(duì)其基音頻率進(jìn)行估計(jì);
1.2在濁音信號(hào)部分設(shè)置一個(gè)最大濁音頻率分量,用來(lái)劃分諧波成分和隨機(jī)成分的主能量區(qū)域;再利用最小二乘算法估計(jì)得到離散的諧波幅度值和相位值。
語(yǔ)音分析模型為現(xiàn)有技術(shù),其可將語(yǔ)音信號(hào)模擬為可用于轉(zhuǎn)換的特征參數(shù),本發(fā)明可采用諧波隨機(jī)模型,該模型將語(yǔ)音信號(hào)模擬為大量基頻諧波正弦信號(hào)和噪聲分量,對(duì)基頻諧波正弦信號(hào)作進(jìn)一步分析,得到適用于轉(zhuǎn)換的語(yǔ)音信號(hào)特征參數(shù)。
自相關(guān)法為現(xiàn)有算法,是語(yǔ)音信號(hào)基音頻率提取算法中較為經(jīng)典且具有代表性的方法。
步驟(2)中,從步驟(1)中得到的參數(shù)包括原始語(yǔ)音的離散的諧波幅度值和相位值,從上述離散的諧波幅度值中提取與音素有關(guān),即適用于語(yǔ)音轉(zhuǎn)換任務(wù)的特征參數(shù)集合,包括步驟:
2.1對(duì)離散的諧波幅度值求取平方值;
2.2根據(jù)功率譜密度函數(shù)和自相關(guān)函數(shù)的一一對(duì)應(yīng)關(guān)系,得到關(guān)于線性預(yù)測(cè)系數(shù)的托普里茨矩陣方程,求解該矩陣方程得到線性預(yù)測(cè)系數(shù);
2.3將線性預(yù)測(cè)系數(shù)轉(zhuǎn)換為目標(biāo)倒譜系數(shù),并求得原始語(yǔ)音的基音頻率;
2.4得到包含原始語(yǔ)音倒譜系數(shù)和基因頻率參數(shù)的特征參數(shù)集合。
步驟(3)中,對(duì)原始語(yǔ)音和目標(biāo)語(yǔ)音的特征參數(shù)集合進(jìn)行參數(shù)對(duì)齊操作的對(duì)其準(zhǔn)則為:對(duì)于兩個(gè)不等長(zhǎng)的特征參數(shù)序列,利用動(dòng)態(tài)規(guī)劃的思想將其中一者的時(shí)間軸非線性的映射到另一者的時(shí)間軸上,從而實(shí)現(xiàn)一一對(duì)應(yīng)的匹配關(guān)系;在特征參數(shù)集合的對(duì)齊過(guò)程中,通過(guò)迭代優(yōu)化一個(gè)預(yù)設(shè)的累積失真函數(shù),并限制搜索區(qū)域,最終獲得時(shí)間規(guī)整函數(shù)。
搜索區(qū)域是根據(jù)第i幀源語(yǔ)音信號(hào)矢量和第j幀目標(biāo)語(yǔ)音信號(hào)矢量之間的距離測(cè)度,規(guī)定的一個(gè)平行四邊形作為限制條件;時(shí)間規(guī)整函數(shù)是關(guān)于源與目標(biāo)語(yǔ)音幀特征矢量之間距離測(cè)度最小的規(guī)整函數(shù),以保證語(yǔ)音之間存在最大的聲學(xué)相似特性。
步驟(4)中所述得到原始語(yǔ)音與目標(biāo)語(yǔ)音特征參數(shù)映射關(guān)系的方法包括以下步驟:
4.4從步驟(2)得到的特征參數(shù)矩陣中提取原語(yǔ)音參數(shù)矩陣中的所有參數(shù)將其作為輸入,目標(biāo)參數(shù)矩陣中的其中一維數(shù)值作為輸出,通過(guò)高斯過(guò)程訓(xùn)練兩者之間的映射關(guān)系;
源與目標(biāo)的參數(shù)類型及數(shù)量皆相同,目標(biāo)參數(shù)矩陣與源語(yǔ)音參數(shù)矩陣求解過(guò)程一致。各維參數(shù)是目標(biāo)語(yǔ)音各幀特征參數(shù)中所有同一維組成的數(shù)據(jù)(即相同維不同幀所組成的數(shù)據(jù))。
4.2依次選擇目標(biāo)參數(shù)矩陣中的其他各維數(shù)值作為輸出,得到原始語(yǔ)音參數(shù)矩陣中參數(shù)與目標(biāo)語(yǔ)音參數(shù)矩陣中各維數(shù)值之間的映射關(guān)系。
步驟(5)中,對(duì)于待轉(zhuǎn)換源語(yǔ)音,處理過(guò)程包括步驟:
5.1對(duì)待轉(zhuǎn)換源語(yǔ)音依次按步驟(1)、(2)、(3)進(jìn)行分析處理,得到待轉(zhuǎn)換源語(yǔ)音的特征參數(shù);
5.2利用步驟(4)得到的映射關(guān)系,將步驟5.1得到的待轉(zhuǎn)換源語(yǔ)音的特征參數(shù),映射為目標(biāo)語(yǔ)音的特征參數(shù),即得到目標(biāo)語(yǔ)音的特征參數(shù)預(yù)測(cè)值,進(jìn)一步得到相應(yīng)的特征參數(shù)矩陣。
步驟(6)包括如下步驟:
6.1利用高斯過(guò)程對(duì)步驟5.2所得目標(biāo)語(yǔ)音特征參數(shù)矩陣中的各維特征參數(shù)進(jìn)行最大似然估計(jì);
6.2計(jì)算步驟6.1所得的目標(biāo)語(yǔ)音各維特征參數(shù)的方差,并求取其方差的高斯分布。
步驟(7)包括如下步驟:
7.1構(gòu)建步驟6.1所得最大似然估計(jì)值和步驟6.2所得方差的高斯分布的聯(lián)合函數(shù),并對(duì)該聯(lián)合函數(shù)進(jìn)行最優(yōu)化,實(shí)現(xiàn)對(duì)高斯過(guò)程預(yù)測(cè)輸出的后濾波,得到最佳目標(biāo)預(yù)測(cè)值,重構(gòu)目標(biāo)語(yǔ)音的特征參數(shù)矩陣;
7.2基于上述重構(gòu)的特征參數(shù)矩陣和目標(biāo)語(yǔ)音的基音頻率,利用語(yǔ)音合成模型轉(zhuǎn)換為目標(biāo)語(yǔ)音。
有益效果:
本發(fā)明充分考慮了造成轉(zhuǎn)換后譜參數(shù)過(guò)于平滑問(wèn)題的原因,結(jié)合高斯過(guò)程對(duì)轉(zhuǎn)換后的預(yù)測(cè)譜參數(shù)輸出值進(jìn)行進(jìn)一步聯(lián)合優(yōu)化,實(shí)現(xiàn)了高斯過(guò)程輸出的后濾波,可達(dá)到高質(zhì)量的語(yǔ)音轉(zhuǎn)換效果。
附圖說(shuō)明
圖1所示為本發(fā)明使用高斯過(guò)程的映射關(guān)系示意圖;
圖2所示為本發(fā)明的訓(xùn)練階段流程示意圖;
圖3所示為本發(fā)明轉(zhuǎn)換階段流程示意圖。
具體實(shí)施方式
以下結(jié)合附圖和具體實(shí)施例進(jìn)一步描述。
參考圖1,本發(fā)明基于高斯過(guò)程輸出后濾波的高質(zhì)量語(yǔ)音轉(zhuǎn)換方法,針對(duì)源和目標(biāo)的平行數(shù)據(jù),利用高斯過(guò)程建立源與目標(biāo)之間的映射關(guān)系,通過(guò)該映射關(guān)系得到目標(biāo)預(yù)測(cè)輸出值,利用高斯過(guò)程對(duì)該輸出值進(jìn)行最大似然估計(jì),并建立輸出值的方差的高斯分布。對(duì)最大似然估計(jì)和方差的高斯分布進(jìn)行聯(lián)合最優(yōu)化,得到目標(biāo)參數(shù)值完成對(duì)高斯過(guò)程輸出的后濾波,實(shí)現(xiàn)高質(zhì)量的語(yǔ)音轉(zhuǎn)換效果;具體包括如下步驟:
(1)采用語(yǔ)音分析模型對(duì)原始語(yǔ)音進(jìn)行分析,得到原始語(yǔ)音的參數(shù);
(2)從分析得到的參數(shù)中提取與音素相關(guān)的特征參數(shù)集合;
(3)對(duì)原始語(yǔ)音和目標(biāo)語(yǔ)音的特征參數(shù)集合進(jìn)行參數(shù)對(duì)齊操作;
(4)將對(duì)齊的特征參數(shù)集合利用高斯過(guò)程進(jìn)行訓(xùn)練得到原始語(yǔ)音與目標(biāo)語(yǔ)音的映射關(guān)系;
(5)輸入待轉(zhuǎn)換源語(yǔ)音的特征參數(shù),通過(guò)步驟(4)得到的映射關(guān)系得到目標(biāo)語(yǔ)音的特征參數(shù)預(yù)測(cè)值;
(6)利用高斯過(guò)程對(duì)目標(biāo)語(yǔ)音的特征參數(shù)預(yù)測(cè)值進(jìn)行最大似然估計(jì),并計(jì)算目標(biāo)語(yǔ)音特征參數(shù)預(yù)測(cè)值的方差的高斯分布;
(7)對(duì)最大似然估計(jì)結(jié)果和方差的高斯分布結(jié)果進(jìn)行聯(lián)合最優(yōu)化,得到最佳目標(biāo)語(yǔ)音特征參數(shù)預(yù)測(cè)值,最后用語(yǔ)音合成模型合成目標(biāo)語(yǔ)音。
上述步驟中,步驟(1)~(4)為訓(xùn)練步驟,步驟(5)~(7)為轉(zhuǎn)換步驟。高斯過(guò)程是一個(gè)隨機(jī)過(guò)程,可以完全由兩個(gè)統(tǒng)計(jì)參數(shù)確定,結(jié)構(gòu)簡(jiǎn)單,通過(guò)高斯過(guò)程得到源與目標(biāo)參數(shù)的映射關(guān)系,可以有效解決高斯混合模型造成的過(guò)擬合問(wèn)題,另外對(duì)高斯過(guò)程預(yù)測(cè)輸出進(jìn)行進(jìn)一步聯(lián)合優(yōu)化可有效解決過(guò)平滑問(wèn)題。
本發(fā)明的提出是針對(duì)高斯混合模型在語(yǔ)音轉(zhuǎn)換中存在的問(wèn)題,有兩個(gè)關(guān)鍵點(diǎn):一是通過(guò)高斯過(guò)程訓(xùn)練源參數(shù)與目標(biāo)參數(shù)各維數(shù)之間的映射關(guān)系,二是對(duì)高斯過(guò)程輸出的目標(biāo)預(yù)測(cè)值進(jìn)行進(jìn)一步分析,求其最大似然估計(jì)和方差的高斯分布,建立兩者之間的聯(lián)合函數(shù)并進(jìn)行聯(lián)合最優(yōu)化,實(shí)現(xiàn)高斯過(guò)程輸出的后濾波,得到更為準(zhǔn)確的預(yù)測(cè)輸出值,實(shí)現(xiàn)高質(zhì)量語(yǔ)音轉(zhuǎn)換。
再次參考圖1,其中N是用于訓(xùn)練的特征參數(shù)的幀數(shù),D為特征參數(shù)的維數(shù)。又設(shè)X,X’分別表示訓(xùn)練時(shí)的兩個(gè)不同輸入,X*表示轉(zhuǎn)換階段的輸入,y表示輸出,則高斯過(guò)程可以完全由均值和協(xié)方差兩個(gè)統(tǒng)計(jì)參數(shù)確定,即
y~GP(m(x),κ(X,X′)) (1)
其中為協(xié)方差函數(shù),m(x)為均值函數(shù),由于m(x)和κ(X,X′)中含有未知超參數(shù)σ和l,因此使用前需要對(duì)高斯過(guò)程進(jìn)行訓(xùn)練,通過(guò)最大邊緣相似度得到超參數(shù)σ和l,高斯過(guò)程訓(xùn)練完成后即可通過(guò)訓(xùn)練數(shù)據(jù)和測(cè)試輸入進(jìn)行預(yù)測(cè)得到測(cè)試輸出,假設(shè)高斯過(guò)程預(yù)測(cè)輸出值為y*,測(cè)試輸出y*的后驗(yàn)概率分布為P(y*|X,y,X*),即:
得:
v[y*]=κ(X*,X*)-κ(X*,X)κ(X,X)-1κ(X,X*) (4)
其中,式(2)中的符號(hào)Ψ表示高斯分布函數(shù),式(3)中表示高斯分布均值,式(4)中v[y*]表示高斯分布方差。
本發(fā)明的創(chuàng)新之處在于:對(duì)高斯過(guò)程的預(yù)測(cè)輸出值進(jìn)行后濾波,以解決預(yù)測(cè)輸出參數(shù)過(guò)平滑問(wèn)題,具體為:
通過(guò)上式得到高斯分布的預(yù)測(cè)輸出值,計(jì)算其最大似然估計(jì)和方差的高斯分布,并進(jìn)行聯(lián)合最優(yōu)化,得到目標(biāo)參數(shù)值完成對(duì)高斯過(guò)程輸出的后濾波,實(shí)現(xiàn)高質(zhì)量的語(yǔ)音轉(zhuǎn)換效果;具體包括如下步驟:
高斯過(guò)程預(yù)測(cè)輸出值y*的最大似然估計(jì)函數(shù)為P(y*),預(yù)測(cè)輸出值y*的方差為v(y*),其高斯分布為P(v(y*)),其聯(lián)合對(duì)數(shù)似然函數(shù)為
其中w為測(cè)試幀數(shù),是常數(shù)。求得聯(lián)合對(duì)數(shù)似然函數(shù)的最大值
即得到目標(biāo)預(yù)測(cè)值。
本發(fā)明進(jìn)行語(yǔ)音轉(zhuǎn)換的具體流程為,
如圖2所示為訓(xùn)練階段流程:
①通過(guò)語(yǔ)音分析模型的分析,獲得訓(xùn)練階段源與目標(biāo)特征參數(shù)序列;
②將源和目標(biāo)的特征參數(shù)集合通過(guò)動(dòng)態(tài)時(shí)間規(guī)整算法進(jìn)行對(duì)齊,使得對(duì)齊后的參數(shù)集合符合平行數(shù)據(jù)的要求;
③利用高斯過(guò)程對(duì)源與目標(biāo)的特征參數(shù)進(jìn)行訓(xùn)練,得到兩者之間的映射關(guān)系;
如圖3為轉(zhuǎn)換階段流程:
①通過(guò)語(yǔ)音分析模型的分析,獲得轉(zhuǎn)換階段源特征參數(shù)序列;
②在給定特征參數(shù)序列以及訓(xùn)練得到的映射關(guān)系的基礎(chǔ)上,預(yù)測(cè)轉(zhuǎn)換語(yǔ)音的特征參數(shù);
③對(duì)得到的轉(zhuǎn)換語(yǔ)音特征參數(shù)利用公式(5)和(6)進(jìn)行聯(lián)合優(yōu)化,進(jìn)一步輸出準(zhǔn)確預(yù)測(cè)值,并合成轉(zhuǎn)換語(yǔ)音。
實(shí)施例
在訓(xùn)練階段:
①源和目標(biāo)人的語(yǔ)音通過(guò)諧波加隨機(jī)模型進(jìn)行分解,得到基音頻率軌跡和諧波聲道譜參數(shù)的幅度值和相位值。具體細(xì)節(jié)描述如下:
a.對(duì)語(yǔ)音信號(hào)進(jìn)行分幀,幀長(zhǎng)30ms,幀重疊間隔15ms。
b.在每幀中,用自相關(guān)法估計(jì)基頻,若該幀為清音幀,則設(shè)置基頻等于零。
c.對(duì)于濁音幀(即基頻不為零的幀),假設(shè)其語(yǔ)音信號(hào)可以由一系列的正弦波疊加而成:
式中L為正弦波的個(gè)數(shù),n為一幀語(yǔ)音中包含的樣點(diǎn)數(shù),{Cl}為正弦波的復(fù)幅度。令sh表示sh(n)在一幀內(nèi)的樣點(diǎn)所組成的矢量,則(7)式可以改寫(xiě)成:
其中,矩陣B由公式(7)中改寫(xiě)而成,ω0為基音頻率,列數(shù)表示一幀內(nèi)一個(gè)采樣點(diǎn)所組成的矢量,行數(shù)表示一幀內(nèi)總采樣點(diǎn)數(shù),x表示語(yǔ)音信號(hào)疊加時(shí)的幅度值。C*L的上標(biāo)“*”表示共軛的意思。
通過(guò)最小二乘算法可以確定以上的{Cl}:
其中s(n)是真實(shí)語(yǔ)音信號(hào),w(n)是窗函數(shù),一般取漢明窗。ε表示誤差。將窗函數(shù)也改寫(xiě)成矩陣形式W:
則最優(yōu)的x可以這樣得到:
式中,xopt表示語(yǔ)音信號(hào)疊加時(shí)幅度的最優(yōu)值,上標(biāo)H表示共軛復(fù)轉(zhuǎn)置,由于(BHWHW)是一個(gè)托普里茨矩陣(Toeplitz Matrix),因此可以用萊文森-杜賓(Levinson-Dubin)快速算法對(duì)其進(jìn)行求解,s為真實(shí)語(yǔ)音信號(hào)s(n)在一幀的范圍內(nèi)的樣點(diǎn)所組成的矢量。
d.得到了{(lán)Cl},則諧波幅度A和相位值如下:
②由于原始諧波加噪聲模型參數(shù)維數(shù)較高,不便于后續(xù)計(jì)算,因此必須對(duì)其進(jìn)行降維。由于基頻軌跡是一維參數(shù),因此,降維的主要對(duì)象是聲道幅度譜參數(shù)和相位參數(shù)。同時(shí),降維的目標(biāo)是將聲道參數(shù)轉(zhuǎn)化為經(jīng)典的線性預(yù)測(cè)參數(shù),進(jìn)而產(chǎn)生適用于語(yǔ)音轉(zhuǎn)換系統(tǒng)的倒譜系數(shù)。求解步驟如下:
a.分別求取離散的M個(gè)幅度值A(chǔ)m的平方,并將其認(rèn)為是離散功率譜的采樣值P(ωm)。
b.根據(jù)帕斯卡定律,功率譜密度函數(shù)和自相關(guān)函數(shù)是一對(duì)傅立葉變換對(duì),則采用自相關(guān)函數(shù)表示其關(guān)系即為:式(13)即為關(guān)于線性預(yù)測(cè)系數(shù)的托普里茨矩陣方程,我們可以通過(guò)求解以下矩陣方程得到對(duì)線性預(yù)測(cè)參數(shù)系數(shù)的初步估值:
其中a1,a2,…,ap是p階線性預(yù)測(cè)參數(shù)系數(shù),R0~RP分別表示為前p個(gè)整數(shù)離散點(diǎn)上的自相關(guān)函數(shù)值。
c.通過(guò)線性預(yù)測(cè)分析得到的合成濾波器的系統(tǒng)函數(shù)為H(z),其沖激相應(yīng)為h(n):
其中{ai}為線性預(yù)測(cè)系數(shù),p為線性預(yù)測(cè)系數(shù)(LPC)的階數(shù),z表示數(shù)學(xué)中z變換的自變量。
下面求h(n)的倒譜首先根據(jù)同態(tài)處理法得到:
因?yàn)镠(z)是最小相位的,即在單位圓內(nèi)是解析的,所以可以展開(kāi)成級(jí)數(shù)形式,即:
也就是說(shuō)的逆變換是存在的,設(shè)將式(16)兩邊同時(shí)對(duì)z-1求導(dǎo):
得到:
令式(18)等號(hào)兩邊z的各次冪前系數(shù)分別相等,得到和ai之間的遞推關(guān)系:
按式(19)~(21)可直接從預(yù)測(cè)系數(shù){ai}求得倒譜系數(shù)
③通過(guò)步驟②得到的源和目標(biāo)的倒譜系數(shù)參數(shù),用動(dòng)態(tài)時(shí)間規(guī)整算法進(jìn)行對(duì)齊。所謂的“對(duì)齊”是指:使得對(duì)應(yīng)的源和目標(biāo)的倒譜系數(shù)在設(shè)定的失真準(zhǔn)則上具有最小的失真距離。這樣做的目的是:使得源和目標(biāo)的特征序列在參數(shù)的層面上關(guān)聯(lián),便于后續(xù)統(tǒng)計(jì)模型學(xué)習(xí)其中的映射規(guī)律。動(dòng)態(tài)時(shí)間規(guī)整算法步驟簡(jiǎn)要概述如下:
對(duì)于同一個(gè)語(yǔ)句的發(fā)音,假定源說(shuō)話人的聲學(xué)個(gè)性特征參數(shù)序列為而目標(biāo)說(shuō)話人的特征參數(shù)序列為且Nx≠Ny。設(shè)定源說(shuō)話人的特征參數(shù)序列為參考模板,則動(dòng)態(tài)時(shí)間規(guī)整算法就是要尋找時(shí)間規(guī)整函數(shù)使得目標(biāo)特征序列的時(shí)間軸ny非線性地映射到源特征參數(shù)序列的時(shí)間軸nx,從而使得總的累積失真量最小,在數(shù)學(xué)上累積失真函數(shù)可以表示為:
其中表示第ny幀的目標(biāo)說(shuō)話人特征參數(shù)和第幀源說(shuō)話人特征參數(shù)之間的某種測(cè)度距離。
時(shí)間規(guī)整函數(shù)是關(guān)于源與目標(biāo)語(yǔ)音幀特征矢量之間距離測(cè)度最小的規(guī)整函數(shù),以保證語(yǔ)音之間存在最大的聲學(xué)相似特性。在動(dòng)態(tài)時(shí)間規(guī)整的規(guī)整過(guò)程中,規(guī)整函數(shù)是要滿足以下的約束條件的,有邊界條件和連續(xù)性條件分別為:
動(dòng)態(tài)時(shí)間規(guī)整是一種最優(yōu)化算法,它把一個(gè)N階段決策過(guò)程化為N個(gè)單階段的決策過(guò)程,也就是轉(zhuǎn)化為逐一做出決策的N個(gè)子問(wèn)題,以便簡(jiǎn)化計(jì)算。動(dòng)態(tài)時(shí)間規(guī)整的過(guò)程一般是從最后一個(gè)階段開(kāi)始進(jìn)行,也即它是一個(gè)逆序過(guò)程,其遞推過(guò)程可以表示為:
其中,g(ny,nx)是為了ny,nx的取值滿足時(shí)間規(guī)整函數(shù)的約束條件,D函數(shù)表示累計(jì)失真函數(shù),d函數(shù)表示點(diǎn)與點(diǎn)之間的失真函數(shù)。
④訓(xùn)練高斯過(guò)程求其超參數(shù):高斯過(guò)程可完全由二階統(tǒng)計(jì)量確定,即均值和方差,假設(shè)均值函數(shù)為m(x),方差函數(shù)為κ(X,X′),高斯過(guò)程可表示為:
y~GP(m(x),κ(X,X′)) (26)
其中我們假設(shè)均值m(x)為0,方差κ(X,X′)為:
上式中包含未知超參數(shù)σ和l,因此通過(guò)訓(xùn)練數(shù)據(jù)對(duì)其高斯過(guò)程進(jìn)行訓(xùn)練,計(jì)算σ和l的值。
將動(dòng)態(tài)時(shí)間規(guī)整對(duì)齊后的源和目標(biāo)特征參數(shù)作為高斯過(guò)程訓(xùn)練數(shù)據(jù),得到兩者之間的映射關(guān)系。
在轉(zhuǎn)換階段:
①待轉(zhuǎn)換的源語(yǔ)音用諧波隨機(jī)模型進(jìn)行分析,得到基音頻率軌跡和諧波聲道譜參數(shù)的幅度值和相位值,該過(guò)程和訓(xùn)練階段中的第一步相同。
②和訓(xùn)練階段一樣,將諧波加噪聲模型參數(shù)轉(zhuǎn)換為倒譜系數(shù)參數(shù)。
③利用訓(xùn)練階段得到的映射關(guān)系將源語(yǔ)音倒譜系數(shù)和基音頻率映射為轉(zhuǎn)換語(yǔ)音的倒譜系數(shù)和基音頻率。
④對(duì)得到的轉(zhuǎn)換語(yǔ)音特征參數(shù)利用公式(5)和(6)進(jìn)行聯(lián)合優(yōu)化,實(shí)現(xiàn)對(duì)高斯過(guò)程輸出的后濾波,以便進(jìn)一步輸出更為準(zhǔn)確的預(yù)測(cè)值。
⑤將轉(zhuǎn)換后的倒譜系數(shù)參數(shù)反變換為諧波加隨機(jī)模型系數(shù),然后和映射后的基頻軌跡一起合成轉(zhuǎn)換后的語(yǔ)音,詳細(xì)步驟如下:
a.將獲得的用正弦模型的定義合成第k幀的語(yǔ)音,即:
b.為了減少幀間交替時(shí)產(chǎn)生的誤差,采用疊接相加法合成整個(gè)語(yǔ)音,即對(duì)于任意相鄰的兩幀,有:
其中N表示一幀語(yǔ)音中包含的樣點(diǎn)數(shù),m代表樣點(diǎn)數(shù)。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。