一種語音轉(zhuǎn)換方法

文檔序號(hào)：9454205閱讀：524來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語音轉(zhuǎn)換方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音轉(zhuǎn)換技術(shù)，特別是一種結(jié)合語音識(shí)別和語音合成技術(shù)的語音轉(zhuǎn)換方法。
【背景技術(shù)】
[0002] 語音轉(zhuǎn)換技術(shù)是語音信號(hào)處理領(lǐng)域近年來新興的研究分支，涵蓋了語音識(shí)別和語音合成等領(lǐng)域的內(nèi)容，擬在保持語義內(nèi)容不變的情況下，通過改變一個(gè)特定說話人（被稱為源說話人）的話音個(gè)性特征，使他（或她）說的話被聽者認(rèn)為是另一個(gè)特定說話人（被稱為目標(biāo)說話人）說的話。語音轉(zhuǎn)換的主要任務(wù)包括提取代表說話人個(gè)性的特征參數(shù)并進(jìn)行數(shù)學(xué)變換，然后將變換后的參數(shù)重構(gòu)成語音。在這過程中，既要保持重構(gòu)語音的聽覺質(zhì)量，又要兼顧轉(zhuǎn)換后的個(gè)性特征是否準(zhǔn)確。
[0003] 經(jīng)過多年的發(fā)展，語音轉(zhuǎn)換領(lǐng)域已經(jīng)涌現(xiàn)出一些高效實(shí)用的算法，其中以高斯混合模型為代表的統(tǒng)計(jì)轉(zhuǎn)換方法目前已儼然成為了該領(lǐng)域公認(rèn)的標(biāo)準(zhǔn)。但是這類算法亦存在某些弊端，例如：高斯混合模型作為映射函數(shù)時(shí)考慮全局變量，通過迭代訓(xùn)練數(shù)據(jù)，導(dǎo)致計(jì) 算量增大，不適用于資源有限的設(shè)備，如嵌入式系統(tǒng)或移動(dòng)設(shè)備。
[0004] 針對(duì)上述問題，目前已存在一些應(yīng)對(duì)方案。例如，基于混合碼書映射的轉(zhuǎn)換方法，根據(jù)不同的訓(xùn)練數(shù)據(jù)量狀況建立不同的碼書映射關(guān)系，在訓(xùn)練數(shù)據(jù)量充足的情況下，源與目標(biāo)碼書之間采用一對(duì)一映射關(guān)系以節(jié)省訓(xùn)練時(shí)間；在訓(xùn)練數(shù)據(jù)量匱乏的情況下，建立一對(duì)多碼書映射關(guān)系提高轉(zhuǎn)換精確度。一定程度上解決了其他算法耗時(shí)長(zhǎng)，不適用于內(nèi)存較小的設(shè)備的缺陷。

【發(fā)明內(nèi)容】

[0005] 針對(duì)現(xiàn)有技術(shù)中存在的問題，本發(fā)明提供了一種充分結(jié)合嵌入式系統(tǒng)、移動(dòng)設(shè)備等自身資源有限的特點(diǎn)，提出一種高效，耗時(shí)短，計(jì)算簡(jiǎn)單，能耗小，適用于內(nèi)存較小的設(shè)備的語音轉(zhuǎn)換方法。
[0006] 本發(fā)明的目的通過以下技術(shù)方案實(shí)現(xiàn)。
[0007] 一種語音轉(zhuǎn)換方法，包括如下步驟：
[0008] 1)采用語音分析模型對(duì)原始語音信號(hào)進(jìn)行分析；
[0009] 2)固定Mel頻率，作為采樣頻率對(duì)分析得到的STRAIGHT譜進(jìn)行采樣；
[0010] 3)從采樣得到的頻譜中計(jì)算出標(biāo)準(zhǔn)差作為高斯混合模型的帶寬；
[0011] 4)通過混合高斯模型對(duì)STRAIGHT譜作近似處理，得到特征參數(shù)，即高斯混合模型的權(quán)重；
[0012] 5)將得到的特征參數(shù)進(jìn)行數(shù)學(xué)統(tǒng)計(jì)計(jì)算條件分布函數(shù)建立條件分布直方圖得到映射函數(shù)；
[0013]6)將訓(xùn)練好的條件分布函數(shù)作為映射函數(shù)，基于特征參數(shù)映射方法的映射任意的語音信號(hào)參數(shù)。
[0014] 進(jìn)一步的，所述步驟1)中的語音分析模型的工作過程包括如下步驟：
[0015] al)利用STRAIGHT模型對(duì)語音信號(hào)進(jìn)行STRAIGHT譜分析。
[0016] 3、根據(jù)權(quán)利要求1所述的一種語音轉(zhuǎn)換方法，其特征在于：所述步驟2)包括采固定Mel頻率，對(duì)STRAIGHT譜進(jìn)行采樣的過程如下：
[0017] bl)采用Mel濾波器組的中心頻率作為固定Mel頻率；
[0018] b2)將該Mel頻率作為采樣頻率對(duì)STRAIGHT譜進(jìn)行采樣得到Mel頻率對(duì)數(shù)譜；
[0019] b3)該Mel頻率對(duì)數(shù)譜也作為混合高斯的均值用于步驟4)處理過程。
[0020] 進(jìn)一步的，所述步驟3)中實(shí)現(xiàn)對(duì)混合高斯的標(biāo)準(zhǔn)差計(jì)算，采用自適應(yīng)調(diào)整標(biāo)準(zhǔn)差的方法實(shí)現(xiàn)。
[0021] 進(jìn)一步的，所述步驟4)中的特征參數(shù)提取方法包括如下步驟：
[0022] cl)利用均值、方差和幅度對(duì)混合高斯進(jìn)行加權(quán)求和；
[0023] c2)利用加權(quán)混合高斯函數(shù)對(duì)STRAIGHT譜進(jìn)行近似處理，得到特征參數(shù)權(quán)重。
[0024] 進(jìn)一步的，所述步驟5)中的特征參數(shù)映射方法包括如下步驟：
[0025] dl)將步驟c2)得到的權(quán)重進(jìn)行數(shù)學(xué)統(tǒng)計(jì)，計(jì)算源語音和目標(biāo)語音特征參數(shù)的聯(lián) 合分布；
[0026] d2)在已知源與目標(biāo)語音聯(lián)合分布的情況下，計(jì)算已知目標(biāo)語音條件下的條件分布函數(shù)。
[0027] d3)根據(jù)步驟d2)得到的條件分布函數(shù)，繪制條件分布直方圖，得到映射函數(shù)。
[0028] 進(jìn)一步的，所述步驟6)中的特征參數(shù)轉(zhuǎn)換方法包括如下步驟：
[0029]el)利用步驟dl)得到的特征參數(shù)通過條件分布函數(shù)，轉(zhuǎn)換語音的特征參數(shù)；
[0030] e 2)對(duì)步驟d2)得到的轉(zhuǎn)換語音特征參數(shù)進(jìn)行語音重構(gòu)，得到轉(zhuǎn)換語音。
[0031] 相比于現(xiàn)有技術(shù)，本發(fā)明的優(yōu)點(diǎn)在于：本發(fā)明提供的基于經(jīng)驗(yàn)條件分布的資源有限情形的語音轉(zhuǎn)換方法，采用一種數(shù)據(jù)驅(qū)動(dòng)的非參數(shù)映射方法，通過建立條件直方圖，近似估計(jì)目標(biāo)語音的條件分布，實(shí)現(xiàn)語音轉(zhuǎn)換，充分結(jié)合嵌入式系統(tǒng)、移動(dòng)設(shè)備等自身資源有限的特點(diǎn)，提出一種高效，耗時(shí)短，計(jì)算簡(jiǎn)單，能耗小的語音轉(zhuǎn)換方法。
【附圖說明】
[0032] 圖1為本發(fā)明涉及的系統(tǒng)訓(xùn)練框圖；
[0033] 圖2為本發(fā)明涉及的系統(tǒng)轉(zhuǎn)換框圖。
【具體實(shí)施方式】
[0034] 下面結(jié)合說明書附圖和具體的實(shí)施例，對(duì)本發(fā)明作詳細(xì)描述。
[0035] 本發(fā)明通過STRAIGHT模型提取語音信號(hào)的STRAIGHT譜，通過混合高斯模型對(duì) STRAIGHT譜進(jìn)行近似處理，得到特征參數(shù)權(quán)重，利用特征參數(shù)建立源和目標(biāo)語音之間的條件分布函數(shù)，轉(zhuǎn)換時(shí)，利用條件分布函數(shù)及源語音特征參數(shù)，實(shí)現(xiàn)語音轉(zhuǎn)換。具體包括如下步驟：
[0036] (1)采用語音分析模型對(duì)原始語音信號(hào)進(jìn)行分析；
[0037] (2)固定Mel頻率，作為采樣頻率對(duì)分析得到的STRAIGHT譜進(jìn)行采樣；
[0038] (3)從采樣得到的頻譜中計(jì)算出標(biāo)準(zhǔn)差作為高斯混合模型的帶寬；
[0039] (4)通過混合高斯模型對(duì)STRAIGHT譜作近似處理，得到特征參數(shù)，即STRAIGHT譜經(jīng)高斯混合模型處理后的權(quán)重；
[0040] (5)將得到的特征參數(shù)進(jìn)行數(shù)學(xué)統(tǒng)計(jì)計(jì)算條件分布函數(shù)建立條件分布直方圖得到映射函數(shù)；
[0041] (6)將訓(xùn)練好的條件分布函數(shù)作為映射函數(shù)，基于特征參數(shù)映射方法的映射任意的語音信號(hào)參數(shù)；
[0042] 上述步驟中，步驟（1)~（5)為訓(xùn)練步驟，步驟（6)為轉(zhuǎn)換步驟；所述條件分布函數(shù)是一種數(shù)據(jù)驅(qū)動(dòng)的非參數(shù)分布函數(shù)。通過對(duì)源與目標(biāo)語音的分析，將其STRAIGHT譜經(jīng)過高斯混合后得到的權(quán)重作為特征參數(shù)，建立源與目標(biāo)語音的聯(lián)合分布函數(shù)，進(jìn)而在已知目標(biāo)語音條件下得到條件分布。
[0043] 本案是針對(duì)現(xiàn)有模型在語音轉(zhuǎn)換中存在的問題，提出一種新的解決方案，本案有兩個(gè)關(guān)鍵點(diǎn)：一是利用混合高斯模型對(duì)語音信號(hào)STRAIGHT譜進(jìn)行近似處理，得到數(shù)據(jù)驅(qū)動(dòng) 的非參數(shù)特征；二是對(duì)得到的數(shù)據(jù)進(jìn)行數(shù)學(xué)統(tǒng)計(jì)計(jì)算聯(lián)合概率分布，進(jìn)而得到目標(biāo)語音條件下的條件分布。
[0044] 本發(fā)明的創(chuàng)新之處在于：映射函數(shù)采用非語音特征參數(shù)的數(shù)據(jù)，建立源與目標(biāo)語音的條件分布作為轉(zhuǎn)換規(guī)則，計(jì)算量小，適用于資源有限的設(shè)備，具體的操作步驟如下：
[0045] 給定{Xq，Yq}，q= 1,2, ???，〇,其中Q表示音類總數(shù)，={；%，???,…，和 I= }表示在第q個(gè)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2