傳遞 關(guān)系的轉(zhuǎn)換模型參數(shù)訓(xùn)練流程圖,包括以下步驟:
[0123] 步驟501,獲取轉(zhuǎn)換模型參數(shù)訓(xùn)練數(shù)據(jù)。
[0124] 不同于源發(fā)音人和目標(biāo)發(fā)音人的模型參數(shù)訓(xùn)練時(shí)訓(xùn)練數(shù)據(jù)的獲取情況,在訓(xùn)練源 發(fā)音人和目標(biāo)發(fā)音人之間的參數(shù)傳遞關(guān)系模型參數(shù)時(shí),訓(xùn)練數(shù)據(jù)可以從頻譜包絡(luò)中使用相 應(yīng)的RBM模型提取得到。
[0125] 由圖4所示可知,在本發(fā)明實(shí)施例中,將源發(fā)音人和目標(biāo)發(fā)音人頻譜包絡(luò)之間的 轉(zhuǎn)換關(guān)系轉(zhuǎn)化為其對(duì)應(yīng)模型的隱變量之間的轉(zhuǎn)換關(guān)系來間接地建模,該模型用于模擬隱性 的映射關(guān)系,其隱變量是假想的,并沒有原始的訓(xùn)練數(shù)據(jù)。所述隱變量可以根據(jù)原始的頻譜 包絡(luò)(即源發(fā)音人和目標(biāo)發(fā)音人的頻譜包絡(luò))及訓(xùn)練得到的源發(fā)音人和目標(biāo)發(fā)音人相關(guān)模 型中采樣得到。
[0126] 比如,給定源發(fā)音人的一幀頻譜包絡(luò)X,可以從下式描述的概率分布中以隨機(jī)采樣 的方式得到對(duì)應(yīng)的隱變量hx:
[0127]
[0128] 其中,g(x) =lAl+ex),所述采樣可以以均值采樣的形式進(jìn)行,即
[0129] 采用同樣的方式,可以得到目標(biāo)發(fā)音人對(duì)應(yīng)的隱變量hy。
[0130] 這樣,得到源發(fā)音人對(duì)應(yīng)的隱變量hx和目標(biāo)發(fā)音人對(duì)應(yīng)的隱變量hy,并將其作為 所述轉(zhuǎn)換模型的訓(xùn)練數(shù)據(jù)。
[0131] 步驟502,基于所述轉(zhuǎn)換模型參數(shù)訓(xùn)練數(shù)據(jù)訓(xùn)練轉(zhuǎn)換模型參數(shù)。
[0132] 針對(duì)圖4所示的BBAM模型,模型參數(shù)為0h= {Wh}。在本發(fā)明實(shí)施例中,可以采 用梯度下降算法來訓(xùn)練更新該模型參數(shù),具體訓(xùn)練過程如下:
[0133] (1)采用高斯隨機(jī)數(shù)初始化模型參數(shù)%°。
[0134] (2)計(jì)算參數(shù)Wh的梯度冰;,:
[0135]
[0136] 其中,Ed[ ?]表示在數(shù)據(jù)分布上計(jì)算的期望,可以通過訓(xùn)練樣本即轉(zhuǎn)換模型參數(shù)訓(xùn) 練數(shù)據(jù)計(jì)算得到,即GPA1 ] K。
[0137] E"[ ?]表示在真實(shí)分布上計(jì)算的期望,可以通過Gibbs采樣算法從訓(xùn)練樣本即轉(zhuǎn) 換模型參數(shù)訓(xùn)練數(shù)據(jù)中采樣得到,具體采樣過程如下:
[0138] 首先,根據(jù)轉(zhuǎn)換模型參數(shù)訓(xùn)練數(shù)據(jù),得到初始樣本 然后,給定A y°, 從條件概率=11 <) = + \ )中進(jìn)行采樣,得到樣本/< ;給定4,從條件 概率/中進(jìn)行采樣,得到樣本&使用%和%近似計(jì)算
[0139] (3)利用計(jì)算得到的梯度力匕更新模型參數(shù),即:
[0140] 朽+%4%,其中,a為更新的步長。
[0141] (4)判斷是否結(jié)束訓(xùn)練;如果是,則執(zhí)行步驟(5);否則轉(zhuǎn)入步驟(2)。
[0142] 其中訓(xùn)練結(jié)束的條件可以根據(jù)應(yīng)用需要預(yù)先設(shè)置,比如可以是迭代次數(shù)超過設(shè)定 的次數(shù)閾值,或者是模型參數(shù)更新似然值增長幅度超過設(shè)定的幅度閾值等。
[0143] (5)結(jié)束。
[0144] 基于上述構(gòu)建的頻譜包絡(luò)變換模型對(duì)從源發(fā)音人的語音信號(hào)中提取的頻譜包絡(luò) 特征進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)換后的頻譜包絡(luò)特征,具體流程如圖6所示,包括以下步驟:
[0145] 步驟601,對(duì)從源發(fā)音人的語音信號(hào)中提取的頻譜包絡(luò)特征,計(jì)算其輸出的條件概 率分布。
[0146] 為了簡化計(jì)算,提高運(yùn)算效率,在實(shí)際應(yīng)用中,可以將所述條件概率分布近似為一 個(gè)單高斯分布,即:
[0147]
[0148] 該分布完全由目標(biāo)發(fā)音人模型確定,其中:
[0149] xt為輸入的頻譜包絡(luò),yt為輸出的頻譜包絡(luò);
[0153] 在本發(fā)明實(shí)施例中,對(duì)任意的輸入,輸出的條件單高斯分布共享相同的方差,即所 有目標(biāo)頻譜包絡(luò)訓(xùn)練數(shù)據(jù)的對(duì)角方差。
[0154] 步驟602,根據(jù)所述條件概率分布確定轉(zhuǎn)換后的頻譜包絡(luò)特征。
[0155] 具體地,可以使用最大似然準(zhǔn)則從步驟601中得到的條件概率分布中得到轉(zhuǎn)換的 單幀序列,即:
[0156]
[0157] 然后可以求解得到轉(zhuǎn)換的頻譜包絡(luò)。
[0158] 然后再根據(jù)上下相關(guān)的頻譜包絡(luò)特征爲(wèi)=[J^T,,)dT]T,獲取靜態(tài)頻譜包絡(luò) Yi)T,作為轉(zhuǎn)換后的頻譜包絡(luò)特征。
[0159] 本發(fā)明實(shí)施例實(shí)現(xiàn)聲音轉(zhuǎn)換的方法,基于頻譜包絡(luò)變換模型將源發(fā)音人語音信號(hào) 的頻譜包絡(luò)特征變換為目標(biāo)發(fā)音人的頻譜包絡(luò)特征,然后,基于變換后的頻譜包絡(luò)特征及 基頻特征生成目標(biāo)發(fā)音人的語音信號(hào)。由于頻譜包絡(luò)特征是從高維頻譜包絡(luò)中提取出來 的,是語音信號(hào)最直接、準(zhǔn)確的表示,因此可以大大提高頻譜包絡(luò)變換的有效性和準(zhǔn)確性, 進(jìn)而提高聲音轉(zhuǎn)換的效果。
[0160] 相應(yīng)地,本發(fā)明實(shí)施例還提供一種實(shí)現(xiàn)聲音轉(zhuǎn)換的系統(tǒng),如圖7所示,是該系統(tǒng)的 一種結(jié)構(gòu)示意圖。
[0161] 在該實(shí)施例中,所述系統(tǒng)包括:
[0162] 語音信號(hào)獲取模塊701,用于獲取源發(fā)音人的語音信號(hào);
[0163] 特征提取模塊702,用于提取所述語音信號(hào)的頻譜包絡(luò)特征和基頻特征;
[0164] 頻譜包絡(luò)特征轉(zhuǎn)換模塊703,用于根據(jù)預(yù)先構(gòu)建的頻譜包絡(luò)變換模型對(duì)所述頻譜 包絡(luò)特征進(jìn)行轉(zhuǎn)換,得到轉(zhuǎn)換后的頻譜包絡(luò)特征;
[0165] 語音生成模塊704,用于根據(jù)轉(zhuǎn)換后的頻譜包絡(luò)特征和轉(zhuǎn)換后的基頻特征生成目 標(biāo)發(fā)音人的語音信號(hào)。
[0166] 上述特征提取模塊702可以采用現(xiàn)有的頻譜包絡(luò)提取方法,比如,對(duì)語音信號(hào)加 平滑窗做FFT變換等。特別地,在本發(fā)明實(shí)施例中,對(duì)于每幀語音幀,可以提取其上下多幀 頻譜包絡(luò)特征作為當(dāng)前語音幀的頻譜包絡(luò)特征。
[0167] 上述頻譜包絡(luò)特征轉(zhuǎn)換模塊703需要利用預(yù)先構(gòu)建的頻譜包絡(luò)變換模型對(duì)所述 頻譜包絡(luò)特征進(jìn)行轉(zhuǎn)換,為此,在本發(fā)明實(shí)施例的系統(tǒng)中,還可進(jìn)一步包括:頻譜包絡(luò)變換 模型構(gòu)建模塊(未圖示),圖8示出了該頻譜包絡(luò)變換模型構(gòu)建模塊的結(jié)構(gòu)示意圖。
[0168] 所述頻譜包絡(luò)變換模型構(gòu)建模塊包括:
[0169] 訓(xùn)練語音數(shù)據(jù)獲取單元801,用于獲取訓(xùn)練語音數(shù)據(jù),所述訓(xùn)練語音數(shù)據(jù)包括源發(fā) 音人語音數(shù)據(jù)及目標(biāo)發(fā)音人語音數(shù)據(jù);
[0170] 特征提取單元802,用于提取所述訓(xùn)練語音數(shù)據(jù)的頻譜包絡(luò)特征;
[0171] 對(duì)應(yīng)關(guān)系確定單元803,用于確定源發(fā)音人的頻譜包絡(luò)特征與目標(biāo)發(fā)音人的頻譜 包絡(luò)特征的對(duì)應(yīng)關(guān)系;
[0172] 拓?fù)浣Y(jié)構(gòu)確定單元804,用于確定源發(fā)音人和目標(biāo)發(fā)音人的頻譜包絡(luò)變換模型拓 撲結(jié)構(gòu);
[0173] 參數(shù)訓(xùn)練單元805,用于根據(jù)所述對(duì)應(yīng)關(guān)系訓(xùn)練所述源發(fā)音人和目標(biāo)發(fā)音人的頻 譜包絡(luò)變換模型參數(shù)。
[0174] 需要說明的是,在本發(fā)明實(shí)施例中,上述特征提取單元802需要分別提取對(duì)應(yīng)相 同文本的源發(fā)音人語音和目標(biāo)發(fā)音人語音的頻譜包絡(luò)特征。
[0175] 由于相同語料不同發(fā)音人的語音時(shí)長可能并不一致,因此在上述特征提取單元 802得到源發(fā)音人語音和目標(biāo)發(fā)音人語音的頻譜包絡(luò)特征后,相應(yīng)地,上述對(duì)應(yīng)關(guān)系確定單 元803需要對(duì)不同時(shí)長的特征對(duì)進(jìn)行對(duì)齊,得到一一對(duì)應(yīng)的頻譜包絡(luò)特征對(duì)。具體地,上述 對(duì)應(yīng)關(guān)系確定單元803可以選取頻譜包絡(luò)特征中的任意一種特征進(jìn)行動(dòng)態(tài)規(guī)劃對(duì)齊,比如 MCEP特征等。相應(yīng)地,上述對(duì)應(yīng)關(guān)系確定單元803的一種具體結(jié)構(gòu)可以包括:第一提取單 元、對(duì)齊單元和第一確定單元,其中:
[0176] 所述第一提取單元用于以語音幀為單位,提取所述訓(xùn)練語音信號(hào)的美爾倒譜特征 序列;
[0177] 所述對(duì)齊單元用于將源發(fā)音人的美爾倒譜特征序列與目標(biāo)發(fā)音人的美爾倒譜特 征序列對(duì)齊;
[0178] 所述第一確定單元用于根據(jù)所述源發(fā)音人的美爾倒譜特征序列與目標(biāo)發(fā)音人的 美爾倒譜特征序列的對(duì)應(yīng)關(guān)系,確定源發(fā)音人的頻譜包絡(luò)特征與目標(biāo)發(fā)音人的頻譜包絡(luò)特 征的對(duì)應(yīng)關(guān)系。
[0179] 前面提到,在本發(fā)明實(shí)施例中,可以分別采用RBM模型模擬源發(fā)明人和目標(biāo)發(fā)音 人頻譜包絡(luò)分布特點(diǎn),利用BBAM模型模擬源發(fā)音人和目標(biāo)發(fā)音人之間的參數(shù)傳遞關(guān)系。然 后,將上述三個(gè)模型,即第一RBM模型、BBAM模型、第二RBM模型進(jìn)行拼接,得到源發(fā)音人和 目標(biāo)發(fā)音人的頻譜包絡(luò)變換模型拓?fù)浣Y(jié)構(gòu)。
[0180] 相應(yīng)地,上述拓?fù)浣Y(jié)構(gòu)確定單元804可以包括以下各單元:
[0181] 源發(fā)音人模型單元,用于利用第一RBM模型模擬源發(fā)音人頻譜包絡(luò)分布特點(diǎn),并 將其作為源發(fā)音人模型;
[0182]目標(biāo)發(fā)音人模型單元,用于利用第二RBM模型模擬目標(biāo)發(fā)音人頻譜包絡(luò)分布特 點(diǎn),并將其作為目標(biāo)發(fā)音人模型;
[0183] 轉(zhuǎn)換模型單元,用于利用BBAM模型模擬源發(fā)音人和目標(biāo)發(fā)音人之間的參數(shù)傳遞 關(guān)系,并將其作為轉(zhuǎn)換模型;
[0184] 拼接單元,用于拼接所述源發(fā)音人模型、轉(zhuǎn)換模型、以及目標(biāo)發(fā)音人模型,得到源 發(fā)音人和目標(biāo)發(fā)音人的頻譜包絡(luò)變換模型拓?fù)浣Y(jié)構(gòu)。
[0185] 相應(yīng)地,上述參數(shù)訓(xùn)練單元805可以包括以下各單元:
[0186] 獲取頻譜包絡(luò)訓(xùn)練數(shù)據(jù)單元,用于獲取訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括源發(fā)音人頻 譜包絡(luò)數(shù)據(jù)和目標(biāo)發(fā)音人頻譜包絡(luò)數(shù)據(jù);
[0187] 第一訓(xùn)練單元,用于根據(jù)所述源發(fā)音人頻譜包絡(luò)數(shù)據(jù)訓(xùn)練源發(fā)音人模型參數(shù);
[0188] 第二訓(xùn)練單元,用于根據(jù)所述目標(biāo)發(fā)音人頻譜包絡(luò)數(shù)據(jù)訓(xùn)練目標(biāo)發(fā)音人模型參 數(shù);
當(dāng)前第3頁
1 
2 
3 
4