一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)的制作方法_2

文檔序號(hào)：9305371閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)的制作方法

圖說(shuō)明】
[0057] 為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，還可以根據(jù)這些附圖獲得其他的附圖。
[0058] 圖1是本發(fā)明實(shí)施例實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法的流程圖；
[0059] 圖2是本發(fā)明實(shí)施例中根據(jù)初始語(yǔ)音合成模型和增強(qiáng)模型合成語(yǔ)音的一種流程圖；
[0060] 圖3是本發(fā)明實(shí)施例中根據(jù)初始語(yǔ)音合成模型和增強(qiáng)模型合成語(yǔ)音的另一種流程圖；
[0061] 圖4是本發(fā)明實(shí)施例實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的系統(tǒng)的結(jié)構(gòu)示意圖；
[0062] 圖5是本發(fā)明實(shí)施例中參數(shù)生成模塊的一種具體實(shí)現(xiàn)結(jié)構(gòu)示意圖；
[0063] 圖6是本發(fā)明實(shí)施例中參數(shù)生成模塊的另一種具體實(shí)現(xiàn)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0064] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例的方案，下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說(shuō)明。
[0065] 由于不同發(fā)音人的聲學(xué)特性存在細(xì)節(jié)差異，且對(duì)于同一個(gè)發(fā)音人，其在發(fā)不同音時(shí)，聲學(xué)特性也存在細(xì)節(jié)差異。而現(xiàn)有的合成語(yǔ)音增強(qiáng)方法基于人的聽(tīng)感特性等經(jīng)驗(yàn)知識(shí) 對(duì)生成頻譜參數(shù)或合成語(yǔ)音進(jìn)行后濾波處理，沒(méi)有關(guān)注發(fā)音人聲學(xué)參數(shù)的細(xì)節(jié)特性，只能使得增強(qiáng)后的合成語(yǔ)音在總體上符合人的聽(tīng)感，不能獲得理想的增強(qiáng)效果。為此，本發(fā)明實(shí) 施例針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題，提供一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)，基于統(tǒng)計(jì)的方法構(gòu)建用于模擬傳統(tǒng)語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系的增強(qiáng)模型，然后利用該增強(qiáng)模型及傳統(tǒng)語(yǔ)音合成模型生成對(duì)應(yīng)待合成文本的合成語(yǔ)音參數(shù)，進(jìn)而利用所述合成語(yǔ)音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。
[0066] 如圖1所示，是本發(fā)明實(shí)施例實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法的流程圖，包括以下步驟：[0067] 步驟101，基于訓(xùn)練數(shù)據(jù)構(gòu)建初始語(yǔ)音合成模型，所述訓(xùn)練數(shù)據(jù)包括文本數(shù)據(jù)及與所述文本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)。
[0068] 所述初始語(yǔ)音合成模型可以使用傳統(tǒng)的參數(shù)合成方法進(jìn)行構(gòu)建，其包括：各基本合成單元對(duì)應(yīng)的二叉決策樹(shù)、頻譜模型、基頻模型、時(shí)長(zhǎng)模型等。比如，可以采用基于HMM的參數(shù)合成方法，對(duì)于頻譜模型，采用GMM(GaussianMixtureMode,高斯混合模型）來(lái)模擬葉節(jié)點(diǎn)的頻譜分布，其高斯數(shù)通?？梢詤⒖加?xùn)練數(shù)據(jù)規(guī)模確定為正整數(shù)，比如選擇高斯數(shù)為 1〇
[0069] 步驟102,建立增強(qiáng)模型，所述增強(qiáng)模型用于模擬所述初始語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系。
[0070] 由于增強(qiáng)模型的設(shè)置和優(yōu)化對(duì)合成語(yǔ)音增強(qiáng)效果有著重要的影響，因此，在本發(fā) 明實(shí)施例中，采用基于數(shù)據(jù)驅(qū)動(dòng)的增強(qiáng)模型設(shè)置方式，以自然聲學(xué)參數(shù)作為指導(dǎo)，真實(shí)體現(xiàn) 不同發(fā)音人、以及同一發(fā)音人發(fā)不同音時(shí)聲學(xué)參數(shù)的細(xì)節(jié)特征，進(jìn)而提高合成語(yǔ)音增強(qiáng)的效果。
[0071] 增強(qiáng)模型的構(gòu)建過(guò)程如下：
[0072] (1)根據(jù)初始語(yǔ)音合成模型生成所有訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù)；
[0073] (2)提取所有訓(xùn)練數(shù)據(jù)的自然語(yǔ)音參數(shù)；
[0074] (3)確定增強(qiáng)模型的拓?fù)浣Y(jié)構(gòu)；
[0075] (4)將對(duì)應(yīng)所述訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù)和自然語(yǔ)音參數(shù)的數(shù)據(jù)對(duì)作為訓(xùn)練集合，根據(jù)所述拓?fù)浣Y(jié)構(gòu)進(jìn)行參數(shù)訓(xùn)練，得到增強(qiáng)模型。
[0076] 需要說(shuō)明的是，在實(shí)際應(yīng)用中，可以分別構(gòu)建針對(duì)頻譜特性和/或基頻特性的增強(qiáng)模型。比如，針對(duì)頻譜特性的增強(qiáng)模型，具體的構(gòu)建過(guò)程如下：
[0077] (1)根據(jù)初始語(yǔ)音合成模型中的頻譜模型生成所有訓(xùn)練數(shù)據(jù)的合成頻譜參數(shù)。
[0078] 根據(jù)所述頻譜模型、以及強(qiáng)制對(duì)齊結(jié)果，可確定訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的頻譜模型序列。具體地，對(duì)于單個(gè)基本語(yǔ)音單元，根據(jù)強(qiáng)制對(duì)齊時(shí)長(zhǎng)信息將選定的頻譜模型進(jìn)行多次拷貝，獲取該基本語(yǔ)音單元的頻譜特征系列模型。
[0079] 統(tǒng)計(jì)訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的頻譜模型序列的似然度總和，計(jì)算如下：
[0080]
(::1)
[0081] 其中W是計(jì)算動(dòng)態(tài)參數(shù)的窗函數(shù)矩陣，Cs為待生成的頻譜參數(shù)，Ms和Us分別為頻譜模型的均值和協(xié)方差矩陣。顯然頻譜模型的似然度總和是目標(biāo)頻譜特征矢量的函數(shù)。
[0082] (2)提取所有訓(xùn)練數(shù)據(jù)的自然頻譜參數(shù)。
[0083] (3)確定頻譜增強(qiáng)模型的拓?fù)浣Y(jié)構(gòu)。
[0084] 頻譜增強(qiáng)模型用于模擬傳統(tǒng)語(yǔ)音合成模型生成的頻譜參數(shù)與自然頻譜參數(shù)的映射關(guān)系，在本發(fā)明實(shí)施例中，可以采用線性函數(shù)的映射模型，也可以采用GMM模型或DNN模型等數(shù)學(xué)統(tǒng)計(jì)模型。一般來(lái)說(shuō)，模型越精細(xì)則在數(shù)據(jù)充分的情況下其模擬效果越好。
[0085] (4)根據(jù)所述拓?fù)浣Y(jié)構(gòu)對(duì)頻譜增強(qiáng)模型進(jìn)行參數(shù)訓(xùn)練，獲取優(yōu)化的頻譜增強(qiáng)模型，即建立合成頻譜參數(shù)xt與自然頻譜參數(shù)yt的條件分布p(yt|xt)。
[0086] 針對(duì)基頻特性的增強(qiáng)模型的構(gòu)建過(guò)程與上述類似，在此不再詳細(xì)描述。
[0087] 步驟103,在接收到待合成文本后，根據(jù)所述初始語(yǔ)音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成文本的合成語(yǔ)音參數(shù)。
[0088] 基于上述增強(qiáng)模型，在實(shí)際應(yīng)用中，可以采用多種方式對(duì)初始語(yǔ)音合成模型或合成語(yǔ)音參數(shù)進(jìn)行增強(qiáng)，均可以得到很好的增強(qiáng)效果，具體實(shí)現(xiàn)過(guò)程將在后面詳細(xì)描述。
[0089] 步驟104,利用所述合成語(yǔ)音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。
[0090] 本發(fā)明實(shí)施例提供的實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法，基于統(tǒng)計(jì)的方法構(gòu)建用于模擬傳統(tǒng)語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系的增強(qiáng)模型，然后利用該增強(qiáng)模型及傳統(tǒng)語(yǔ)音合成模型生成對(duì)應(yīng)待合成文本的合成語(yǔ)音參數(shù)，進(jìn)而利用所述合成語(yǔ) 音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。由于所述增強(qiáng)模型是以自然聲學(xué)參數(shù)作為指導(dǎo)，因此可以對(duì)不同發(fā)音人、以及同一發(fā)音人發(fā)不同音時(shí)聲學(xué)參數(shù)的細(xì)節(jié)特征有較強(qiáng)的把握，可以抓住特定發(fā)音人的特性，使合成語(yǔ)音增強(qiáng)的效果更好。而且，本發(fā)明實(shí)施例的方案在實(shí)際合成任務(wù)中不會(huì)增加運(yùn)算量，有利于產(chǎn)品的實(shí)時(shí)化。
[0091] 需要說(shuō)明的是，在實(shí)際應(yīng)用中，根據(jù)初始語(yǔ)音合成模型和增強(qiáng)模型生成合成語(yǔ)音參數(shù)的方式有多種。比如，可以利用相應(yīng)的增強(qiáng)模型對(duì)初始語(yǔ)音合成模型中的頻譜模型和/ 或基頻模型進(jìn)行增強(qiáng)處理，利用增強(qiáng)處理后的頻譜模型和/或基頻模型生成對(duì)應(yīng)待合成文本的頻譜參數(shù)和/或基頻參數(shù)，由初始語(yǔ)音合成模型生成其它語(yǔ)音合成參數(shù)，然后利用這些語(yǔ)音合成參數(shù)生成連續(xù)語(yǔ)音信號(hào)。再比如，還可以先利用初始語(yǔ)音合成模型生成對(duì)應(yīng)待合成文本的語(yǔ)音合成參數(shù)（包括時(shí)長(zhǎng)參數(shù)、頻譜參數(shù)、基頻參數(shù)），然后再利用相應(yīng)的增強(qiáng) 模型對(duì)其中的一些語(yǔ)音合成參數(shù)（包括頻譜參數(shù)和/或基頻參數(shù)）進(jìn)行增強(qiáng)處理，最后利用這些增強(qiáng)后的語(yǔ)音合成參數(shù)及另外一些未增強(qiáng)處理的語(yǔ)音合成參數(shù)（主要是時(shí)長(zhǎng)參數(shù)）生成連續(xù)語(yǔ)音信號(hào)。
[0092] 下面分別舉例詳細(xì)說(shuō)明本發(fā)明實(shí)施例中根據(jù)初始語(yǔ)音合成模型和增強(qiáng)模型生成合成語(yǔ)音參數(shù)的過(guò)程。
[0093] 如圖2所示，是本發(fā)明實(shí)施例中根據(jù)初始語(yǔ)音合成模型和增強(qiáng)模型生成合成語(yǔ)音參數(shù)的一種流程圖，包括以下步驟：
[0094] 步驟201，利用初始語(yǔ)音合成模型生成對(duì)應(yīng)待合成文本的時(shí)長(zhǎng)參數(shù)和基頻參數(shù)。
[0095] 步驟202,根據(jù)增強(qiáng)模型對(duì)初始語(yǔ)音合成模型中的頻譜模型進(jìn)行增強(qiáng)處理，得到增強(qiáng)的頻譜模型。
[0096] 首先，從初始的頻譜模型中獲取模型參數(shù)，比如基于GMM的頻譜模型的，記為xt ; 然后利用預(yù)先訓(xùn)練好的增強(qiáng)模型，對(duì)模型參數(shù)xt進(jìn)行增強(qiáng)處理，即根據(jù)P(ytIxt)，求得增強(qiáng) 后的模型參數(shù)yt;最后用增強(qiáng)后的模型參數(shù)yt替換頻譜模型的模型參數(shù)，得到新的頻譜模型，此模型即為增強(qiáng)后的頻譜模型。
[0097] 步驟203,利用增強(qiáng)的頻譜模型生成對(duì)應(yīng)所述待合成文本的頻譜參數(shù)。
[0098] 步驟204,利用對(duì)應(yīng)所述待合成文本的時(shí)長(zhǎng)參數(shù)、基頻參數(shù)、以及頻譜參數(shù)生成連續(xù)語(yǔ)音信號(hào)。
[0099] 需要說(shuō)明的是，在實(shí)際應(yīng)用中，可以分別生成針對(duì)頻譜特性的增強(qiáng)模型及針對(duì)基頻特性的增強(qiáng)模型，因此，可以單獨(dú)采用針對(duì)頻譜特性的增強(qiáng)模型對(duì)初始語(yǔ)音合成模型中的頻譜模型進(jìn)行增強(qiáng)處理，或者單獨(dú)采用針對(duì)基頻特性的增強(qiáng)模型對(duì)初始語(yǔ)音合成模型中的基頻模型進(jìn)行增強(qiáng)處理，也可以綜合采用上述兩種針對(duì)不同特性的增強(qiáng)模型分別對(duì)初始語(yǔ)音合成模型中的頻譜模型和基頻模型進(jìn)行增強(qiáng)處理。相應(yīng)地，利用增強(qiáng)后的頻譜模型和/ 或基頻模型得到對(duì)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

科大訊飛語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

錄音員語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

語(yǔ)音合成叫賣系統(tǒng)相關(guān)技術(shù)

在線語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

百度語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

文字轉(zhuǎn)語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)的制作方法_2