需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一 些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0071] 圖1是本發(fā)明實施例實現(xiàn)聲音轉(zhuǎn)換的方法的流程圖;
[0072] 圖2是本發(fā)明實施例中構(gòu)建頻譜包絡(luò)變換模型的流程圖;
[0073] 圖3是本發(fā)明實施例中RBM模型結(jié)構(gòu)示意圖;
[0074]圖4是本發(fā)明實施例中源發(fā)音人和目標(biāo)發(fā)音人的頻譜包絡(luò)變換模型拓?fù)浣Y(jié)構(gòu)及 參數(shù)訓(xùn)練過程示意圖;
[0075] 圖5是本發(fā)明實施例中用于模擬源發(fā)音人和目標(biāo)發(fā)音人之間的參數(shù)傳遞關(guān)系的 轉(zhuǎn)換模型參數(shù)訓(xùn)練流程圖;
[0076]圖6是本發(fā)明實施例中基于頻譜包絡(luò)變換模型獲得轉(zhuǎn)換后的頻譜包絡(luò)特征的流 程圖;
[0077] 圖7是本發(fā)明實施例實現(xiàn)聲音轉(zhuǎn)換的系統(tǒng)的結(jié)構(gòu)示意圖;
[0078]圖8是本發(fā)明實施例中頻譜包絡(luò)變換模型構(gòu)建模塊的結(jié)構(gòu)示意圖。
【具體實施方式】
[0079] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實施例的方案,下面結(jié)合附圖和實施 方式對本發(fā)明實施例作進(jìn)一步的詳細(xì)說明。
[0080] 由于傳統(tǒng)的基于頻譜變換的聲音轉(zhuǎn)換系統(tǒng)主要采用GMM模型模擬源發(fā)音人和目 標(biāo)發(fā)音人的聯(lián)合頻譜特征空間的概率分布,采取的是低維頻譜特征,在從頻譜中提取低維 的特征過程中丟失了很多的頻譜細(xì)節(jié)信息,直接影響了轉(zhuǎn)換語音的音質(zhì)。而且,GMM模型存 在過平滑效應(yīng),導(dǎo)致了合成語音中的過平滑效應(yīng)。為此,本發(fā)明實施例提供一種實現(xiàn)聲音轉(zhuǎn) 換的方法及系統(tǒng),基于頻譜包絡(luò)變換模型將源發(fā)音人語音信號的頻譜包絡(luò)特征變換為目標(biāo) 發(fā)音人的頻譜包絡(luò)特征,然后,基于變換后的頻譜包絡(luò)特征及基頻特征生成目標(biāo)發(fā)音人的 語音信號。由于頻譜包絡(luò)特征是從高維頻譜包絡(luò)中提取出來的,是語音信號最直接、準(zhǔn)確的 表示,因此可以大大提高頻譜包絡(luò)變換的有效性和準(zhǔn)確性,進(jìn)而提高聲音轉(zhuǎn)換的效果。
[0081] 如圖1所示,是本發(fā)明實施例實現(xiàn)聲音轉(zhuǎn)換的方法的流程圖,包括以下步驟:
[0082] 步驟101,獲取源發(fā)音人的語音信號。
[0083] 步驟102,提取所述語音信號的頻譜包絡(luò)特征和基頻特征。
[0084] 在具體應(yīng)用中,可以采用現(xiàn)有的頻譜包絡(luò)提取方法,比如,對語音信號加平滑窗做 FFT變換等。特別地,在本發(fā)明實施例中,對于每幀語音幀,可以提取其上下多幀頻譜包絡(luò)特 征作為當(dāng)前語音幀的頻譜包絡(luò)特征,比如,以連續(xù)的三幀頻譜包絡(luò)為例,當(dāng)前語音幀的頻譜 包絡(luò)特征為:
[0085]
[0086] 步驟103,根據(jù)預(yù)先構(gòu)建的頻譜包絡(luò)變換模型對所述頻譜包絡(luò)特征進(jìn)行轉(zhuǎn)換,得到 轉(zhuǎn)換后的頻譜包絡(luò)特征。
[0087] 步驟104,根據(jù)轉(zhuǎn)換后的頻譜包絡(luò)特征和轉(zhuǎn)換后的基頻特征生成目標(biāo)發(fā)音人的語 音信號。
[0088] 需要說明的是,在進(jìn)行語音合成時,所述基頻特征也需要進(jìn)行一定的轉(zhuǎn)換,具體轉(zhuǎn) 換方式可以采用現(xiàn)有的一些轉(zhuǎn)換方式,比如,均值方差規(guī)整法等,對此本發(fā)明實施例不做限 定。
[0089] 不同于傳統(tǒng)的聲音轉(zhuǎn)換系統(tǒng)中的基于GMM模型的聯(lián)合概率分布,在本發(fā)明實施例 中,基于頻譜包絡(luò)變換模型實現(xiàn)對源發(fā)音人語音信號頻譜包絡(luò)的變換,以提高變換后的頻 譜包絡(luò)的準(zhǔn)確性。
[0090] 下面對本發(fā)明實施例中構(gòu)建頻譜包絡(luò)變換模型的具體過程進(jìn)行詳細(xì)說明。
[0091] 如圖2所示,是本發(fā)明實施例中構(gòu)建頻譜包絡(luò)變換模型的流程圖,包括以下步驟:
[0092] 步驟201,獲取訓(xùn)練語音數(shù)據(jù),所述訓(xùn)練語音數(shù)據(jù)包括源發(fā)音人語音數(shù)據(jù)及目標(biāo)發(fā) 音人語音數(shù)據(jù)。
[0093] 步驟202,提取所述訓(xùn)練語音數(shù)據(jù)的頻譜包絡(luò)特征。
[0094] 具體地,需要分別提取對應(yīng)相同文本的源發(fā)音人語音和目標(biāo)發(fā)音人語音的頻譜包 絡(luò)特征。
[0095] 步驟203,確定源發(fā)音人的頻譜包絡(luò)特征與目標(biāo)發(fā)音人的頻譜包絡(luò)特征的對應(yīng)關(guān) 系。
[0096] 由于相同語料不同發(fā)音人的語音時長可能并不一致,因此在得到源發(fā)音人語音和 目標(biāo)發(fā)音人語音的頻譜包絡(luò)特征后,需要對不同時長的特征對進(jìn)行對齊,得到一一對應(yīng)的 頻譜包絡(luò)特征對。
[0097] 考慮到頻譜包絡(luò)特征的維數(shù)太高,計算復(fù)雜度過高,此外頻譜包絡(luò)太過精細(xì),其距 離并不能反映真實頻譜的差異性。為此,在本發(fā)明實施例中,可以選取頻譜包絡(luò)特征中的任 意一種特征進(jìn)行動態(tài)規(guī)劃對齊,下面以MCEP (Mel C印strum,美爾倒譜)特征為例說明獲取 頻譜包絡(luò)對應(yīng)關(guān)系的詳細(xì)過程。
[0098] 首先,提取語音信號的美爾倒譜特征,具體可由美爾域?qū)?shù)功率譜經(jīng)過逆FFT變 換得到;然后,對于每幀語音幀,按照其MCEP特征對齊源發(fā)音人和目標(biāo)發(fā)音人的MCEP特征 序列,由于頻譜包絡(luò)與MCEP是一一對應(yīng)的,根據(jù)MCEP特征序列的對應(yīng)關(guān)系,即可得到頻譜 包絡(luò)序列的對應(yīng)關(guān)系。
[0099] 步驟204,確定源發(fā)音人和目標(biāo)發(fā)音人的頻譜包絡(luò)變換模型拓?fù)浣Y(jié)構(gòu)。
[0100] 在本發(fā)明實施例中,可以分別米用RBM(Restricted Boltzmann Machine,受限波 爾茲曼機(jī))模型模擬源發(fā)明人和目標(biāo)發(fā)音人頻譜包絡(luò)分布特點,為了描述方便,將其分別 稱為第一 RBM模型(也可稱為源發(fā)明人模型)和第二RBM模型(也可稱為目標(biāo)發(fā)音人模 型)。RBM也可以被視為一個無向圖模型,如圖3所示,其中,v為可視層,用于表示觀測數(shù) 據(jù),h為隱含層,W為兩層之間的連接權(quán)重。
[0101] 建立 BBAM(Bernoulli Bidirectional Associative Memory,伯努利雙向聯(lián)想記 憶器)模型,所述BBAM模型用于模擬源發(fā)音人和目標(biāo)發(fā)音人之間的參數(shù)傳遞關(guān)系。
[0102] 然后,將上述三個模型,即第一 RBM模型、BBAM模型、第二RBM模型進(jìn)行拼接,得到 源發(fā)音人和目標(biāo)發(fā)音人的頻譜包絡(luò)變換模型拓?fù)浣Y(jié)構(gòu),如圖4所示。
[0103] 其中,第一 RBM模型為源發(fā)音人的模型拓?fù)?,包含頻譜包絡(luò)變量x和隱變量hx,第 二RBM模型為目標(biāo)發(fā)音人的模型拓?fù)?,包含頻譜包絡(luò)變量y和隱變量h y,Wx為x和hx之間 的連接權(quán)重,Wy為y和h y之間的連接權(quán)重,Wh為hx和hy之間的連接權(quán)重。
[0104] 在該拼接模型中,通過源發(fā)音人的RBM模型可以得到源發(fā)音人頻譜包絡(luò)的隱變量 表示,通過目標(biāo)發(fā)音人的RBM模型可以得到目標(biāo)發(fā)音人頻譜包絡(luò)的隱變量表示,然后使用 BBAM建立起兩個發(fā)音人隱變量的聯(lián)合分布,從而建立起兩個發(fā)音人頻譜包絡(luò)之間的轉(zhuǎn)換關(guān) 系。
[0105] 需要說明的是,在實際應(yīng)用中,也可以用更深層次的網(wǎng)絡(luò)替代上述RBM模型及 BBAM模型,如圖3中兩個RBM可以換成兩個更深層的隨機(jī)神經(jīng)網(wǎng)絡(luò),如DBN(Deep Belief Network,深度置信網(wǎng)絡(luò))或DBM (Deep Boltzmann Machie,深層波爾茲曼機(jī)),DBN和DBM可 以由多個RBM級聯(lián)得到,以形成更深層次的網(wǎng)絡(luò))。
[0106] 步驟205,根據(jù)所述對應(yīng)關(guān)系訓(xùn)練所述源發(fā)音人和目標(biāo)發(fā)音人的頻譜包絡(luò)變換模 型參數(shù)。
[0107] 在參數(shù)訓(xùn)練過程中,首先需要分別獨立訓(xùn)練源發(fā)音人及目標(biāo)發(fā)音人的模型參數(shù)。 下面以源發(fā)音人模型參數(shù)訓(xùn)練為例進(jìn)行詳細(xì)說明。
[0108] 如圖4所示,對于源發(fā)音人模型拓?fù)洌l譜包絡(luò)變量x和一個隱變量h x。在 本發(fā)明實施例中,可以采用一個全局模型模擬源發(fā)音人聲學(xué)空間中的頻譜包絡(luò)參數(shù)概率分 布,其描述的概率分布為:
[0109]
[0110] 其中:
*為配分函數(shù),
[0111]
為該模型的一個能量函數(shù),
[0112] 2x為訓(xùn)練數(shù)據(jù)的對角協(xié)方差矩陣。
[0113] 源發(fā)音人的模型參數(shù)為A = W., A.A.丨。其中wx為x與hx之間的連接權(quán)重,bx、\ 分別為x層和hx層的偏置。
[0114] 模型的訓(xùn)練準(zhǔn)則是使模型達(dá)到一個穩(wěn)態(tài),也就是能量達(dá)到最低,對應(yīng)到概率模型 上就是似然值最大化。RBM的模型參數(shù)可以通過⑶(ContrastiveDivergence,最小對比散 度)算法來高效地訓(xùn)練得到。此外,DBN和DBM的模型參數(shù)則可以使用多個RBM級聯(lián)得到, 訓(xùn)練過程以無監(jiān)督的形式進(jìn)行。
[0115] 目標(biāo)發(fā)音人的模型參數(shù)訓(xùn)練過程與上述類似,訓(xùn)練一個描述目標(biāo)發(fā)音人的頻譜包 絡(luò)參數(shù)概率分布。訓(xùn)練得到的目標(biāo)發(fā)音人的模型參數(shù)為& = 。
[0116] 在得到源發(fā)音人的模型參數(shù)及目標(biāo)發(fā)音人的模型參數(shù)后,需要訓(xùn)練源發(fā)音人和目 標(biāo)發(fā)音人之間的參數(shù)傳遞關(guān)系模型參數(shù)。在本發(fā)明實施例中,可以采用有監(jiān)督訓(xùn)練方法來 獲取源發(fā)音人和目標(biāo)發(fā)音人頻譜包絡(luò)之間的映射關(guān)系。如圖4中所示,利用BBAM來對兩個 發(fā)音人相關(guān)模型的隱變量的聯(lián)合分布進(jìn)行建模,從而得到兩個發(fā)音人頻譜包絡(luò)之間的映射 關(guān)系。
[0117] 圖4中BBAM描述的概率分布為:
[0118]
[0119] 其中
為配分函數(shù);
[0120]
為該模型的能量函數(shù)。
[0121] 模型的參數(shù)為0 h = {ffh}。
[0122] 如圖5所示,是本發(fā)明實施例中用于模擬源發(fā)音人和目標(biāo)發(fā)音人之間的參數(shù)