圖說(shuō)明】
[0057] 為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所 需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明中記載的一 些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,還可以根據(jù)這些附圖獲得其他的附圖。
[0058] 圖1是本發(fā)明實(shí)施例實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法的流程圖;
[0059] 圖2是本發(fā)明實(shí)施例中根據(jù)初始語(yǔ)音合成模型和增強(qiáng)模型合成語(yǔ)音的一種流程 圖;
[0060] 圖3是本發(fā)明實(shí)施例中根據(jù)初始語(yǔ)音合成模型和增強(qiáng)模型合成語(yǔ)音的另一種流 程圖;
[0061] 圖4是本發(fā)明實(shí)施例實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的系統(tǒng)的結(jié)構(gòu)示意圖;
[0062] 圖5是本發(fā)明實(shí)施例中參數(shù)生成模塊的一種具體實(shí)現(xiàn)結(jié)構(gòu)示意圖;
[0063] 圖6是本發(fā)明實(shí)施例中參數(shù)生成模塊的另一種具體實(shí)現(xiàn)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0064] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施 方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說(shuō)明。
[0065] 由于不同發(fā)音人的聲學(xué)特性存在細(xì)節(jié)差異,且對(duì)于同一個(gè)發(fā)音人,其在發(fā)不同音 時(shí),聲學(xué)特性也存在細(xì)節(jié)差異。而現(xiàn)有的合成語(yǔ)音增強(qiáng)方法基于人的聽(tīng)感特性等經(jīng)驗(yàn)知識(shí) 對(duì)生成頻譜參數(shù)或合成語(yǔ)音進(jìn)行后濾波處理,沒(méi)有關(guān)注發(fā)音人聲學(xué)參數(shù)的細(xì)節(jié)特性,只能 使得增強(qiáng)后的合成語(yǔ)音在總體上符合人的聽(tīng)感,不能獲得理想的增強(qiáng)效果。為此,本發(fā)明實(shí) 施例針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題,提供一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng),基于統(tǒng)計(jì)的方 法構(gòu)建用于模擬傳統(tǒng)語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系的增 強(qiáng)模型,然后利用該增強(qiáng)模型及傳統(tǒng)語(yǔ)音合成模型生成對(duì)應(yīng)待合成文本的合成語(yǔ)音參數(shù), 進(jìn)而利用所述合成語(yǔ)音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。
[0066] 如圖1所示,是本發(fā)明實(shí)施例實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法的流程圖,包括以下步驟:[0067] 步驟101,基于訓(xùn)練數(shù)據(jù)構(gòu)建初始語(yǔ)音合成模型,所述訓(xùn)練數(shù)據(jù)包括文本數(shù)據(jù)及與 所述文本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)。
[0068] 所述初始語(yǔ)音合成模型可以使用傳統(tǒng)的參數(shù)合成方法進(jìn)行構(gòu)建,其包括:各基本 合成單元對(duì)應(yīng)的二叉決策樹(shù)、頻譜模型、基頻模型、時(shí)長(zhǎng)模型等。比如,可以采用基于HMM的 參數(shù)合成方法,對(duì)于頻譜模型,采用GMM(GaussianMixtureMode,高斯混合模型)來(lái)模擬葉 節(jié)點(diǎn)的頻譜分布,其高斯數(shù)通??梢詤⒖加?xùn)練數(shù)據(jù)規(guī)模確定為正整數(shù),比如選擇高斯數(shù)為 1〇
[0069] 步驟102,建立增強(qiáng)模型,所述增強(qiáng)模型用于模擬所述初始語(yǔ)音合成模型生成的合 成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系。
[0070] 由于增強(qiáng)模型的設(shè)置和優(yōu)化對(duì)合成語(yǔ)音增強(qiáng)效果有著重要的影響,因此,在本發(fā) 明實(shí)施例中,采用基于數(shù)據(jù)驅(qū)動(dòng)的增強(qiáng)模型設(shè)置方式,以自然聲學(xué)參數(shù)作為指導(dǎo),真實(shí)體現(xiàn) 不同發(fā)音人、以及同一發(fā)音人發(fā)不同音時(shí)聲學(xué)參數(shù)的細(xì)節(jié)特征,進(jìn)而提高合成語(yǔ)音增強(qiáng)的 效果。
[0071] 增強(qiáng)模型的構(gòu)建過(guò)程如下:
[0072] (1)根據(jù)初始語(yǔ)音合成模型生成所有訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù);
[0073] (2)提取所有訓(xùn)練數(shù)據(jù)的自然語(yǔ)音參數(shù);
[0074] (3)確定增強(qiáng)模型的拓?fù)浣Y(jié)構(gòu);
[0075] (4)將對(duì)應(yīng)所述訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù)和自然語(yǔ)音參數(shù)的數(shù)據(jù)對(duì)作為訓(xùn)練集 合,根據(jù)所述拓?fù)浣Y(jié)構(gòu)進(jìn)行參數(shù)訓(xùn)練,得到增強(qiáng)模型。
[0076] 需要說(shuō)明的是,在實(shí)際應(yīng)用中,可以分別構(gòu)建針對(duì)頻譜特性和/或基頻特性的增 強(qiáng)模型。比如,針對(duì)頻譜特性的增強(qiáng)模型,具體的構(gòu)建過(guò)程如下:
[0077] (1)根據(jù)初始語(yǔ)音合成模型中的頻譜模型生成所有訓(xùn)練數(shù)據(jù)的合成頻譜參數(shù)。
[0078] 根據(jù)所述頻譜模型、以及強(qiáng)制對(duì)齊結(jié)果,可確定訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的頻譜模型序列。具 體地,對(duì)于單個(gè)基本語(yǔ)音單元,根據(jù)強(qiáng)制對(duì)齊時(shí)長(zhǎng)信息將選定的頻譜模型進(jìn)行多次拷貝,獲 取該基本語(yǔ)音單元的頻譜特征系列模型。
[0079] 統(tǒng)計(jì)訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的頻譜模型序列的似然度總和,計(jì)算如下:
[0080]
(::1)
[0081] 其中W是計(jì)算動(dòng)態(tài)參數(shù)的窗函數(shù)矩陣,Cs為待生成的頻譜參數(shù),Ms和Us分別為頻 譜模型的均值和協(xié)方差矩陣。顯然頻譜模型的似然度總和是目標(biāo)頻譜特征矢量的函數(shù)。
[0082] (2)提取所有訓(xùn)練數(shù)據(jù)的自然頻譜參數(shù)。
[0083] (3)確定頻譜增強(qiáng)模型的拓?fù)浣Y(jié)構(gòu)。
[0084] 頻譜增強(qiáng)模型用于模擬傳統(tǒng)語(yǔ)音合成模型生成的頻譜參數(shù)與自然頻譜參數(shù)的映 射關(guān)系,在本發(fā)明實(shí)施例中,可以采用線性函數(shù)的映射模型,也可以采用GMM模型或DNN模 型等數(shù)學(xué)統(tǒng)計(jì)模型。一般來(lái)說(shuō),模型越精細(xì)則在數(shù)據(jù)充分的情況下其模擬效果越好。
[0085] (4)根據(jù)所述拓?fù)浣Y(jié)構(gòu)對(duì)頻譜增強(qiáng)模型進(jìn)行參數(shù)訓(xùn)練,獲取優(yōu)化的頻譜增強(qiáng)模型, 即建立合成頻譜參數(shù)xt與自然頻譜參數(shù)yt的條件分布p(yt|xt)。
[0086] 針對(duì)基頻特性的增強(qiáng)模型的構(gòu)建過(guò)程與上述類似,在此不再詳細(xì)描述。
[0087] 步驟103,在接收到待合成文本后,根據(jù)所述初始語(yǔ)音合成模型和所述增強(qiáng)模型生 成對(duì)應(yīng)所述待合成文本的合成語(yǔ)音參數(shù)。
[0088] 基于上述增強(qiáng)模型,在實(shí)際應(yīng)用中,可以采用多種方式對(duì)初始語(yǔ)音合成模型或合 成語(yǔ)音參數(shù)進(jìn)行增強(qiáng),均可以得到很好的增強(qiáng)效果,具體實(shí)現(xiàn)過(guò)程將在后面詳細(xì)描述。
[0089] 步驟104,利用所述合成語(yǔ)音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。
[0090] 本發(fā)明實(shí)施例提供的實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法,基于統(tǒng)計(jì)的方法構(gòu)建用于模擬傳 統(tǒng)語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系的增強(qiáng)模型,然后利用該 增強(qiáng)模型及傳統(tǒng)語(yǔ)音合成模型生成對(duì)應(yīng)待合成文本的合成語(yǔ)音參數(shù),進(jìn)而利用所述合成語(yǔ) 音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。由于所述增強(qiáng)模型是以自然聲學(xué)參數(shù)作為指導(dǎo),因此可以對(duì)不 同發(fā)音人、以及同一發(fā)音人發(fā)不同音時(shí)聲學(xué)參數(shù)的細(xì)節(jié)特征有較強(qiáng)的把握,可以抓住特定 發(fā)音人的特性,使合成語(yǔ)音增強(qiáng)的效果更好。而且,本發(fā)明實(shí)施例的方案在實(shí)際合成任務(wù)中 不會(huì)增加運(yùn)算量,有利于產(chǎn)品的實(shí)時(shí)化。
[0091] 需要說(shuō)明的是,在實(shí)際應(yīng)用中,根據(jù)初始語(yǔ)音合成模型和增強(qiáng)模型生成合成語(yǔ)音 參數(shù)的方式有多種。比如,可以利用相應(yīng)的增強(qiáng)模型對(duì)初始語(yǔ)音合成模型中的頻譜模型和/ 或基頻模型進(jìn)行增強(qiáng)處理,利用增強(qiáng)處理后的頻譜模型和/或基頻模型生成對(duì)應(yīng)待合成文 本的頻譜參數(shù)和/或基頻參數(shù),由初始語(yǔ)音合成模型生成其它語(yǔ)音合成參數(shù),然后利用這 些語(yǔ)音合成參數(shù)生成連續(xù)語(yǔ)音信號(hào)。再比如,還可以先利用初始語(yǔ)音合成模型生成對(duì)應(yīng)待 合成文本的語(yǔ)音合成參數(shù)(包括時(shí)長(zhǎng)參數(shù)、頻譜參數(shù)、基頻參數(shù)),然后再利用相應(yīng)的增強(qiáng) 模型對(duì)其中的一些語(yǔ)音合成參數(shù)(包括頻譜參數(shù)和/或基頻參數(shù))進(jìn)行增強(qiáng)處理,最后利 用這些增強(qiáng)后的語(yǔ)音合成參數(shù)及另外一些未增強(qiáng)處理的語(yǔ)音合成參數(shù)(主要是時(shí)長(zhǎng)參數(shù)) 生成連續(xù)語(yǔ)音信號(hào)。
[0092] 下面分別舉例詳細(xì)說(shuō)明本發(fā)明實(shí)施例中根據(jù)初始語(yǔ)音合成模型和增強(qiáng)模型生成 合成語(yǔ)音參數(shù)的過(guò)程。
[0093] 如圖2所示,是本發(fā)明實(shí)施例中根據(jù)初始語(yǔ)音合成模型和增強(qiáng)模型生成合成語(yǔ)音 參數(shù)的一種流程圖,包括以下步驟:
[0094] 步驟201,利用初始語(yǔ)音合成模型生成對(duì)應(yīng)待合成文本的時(shí)長(zhǎng)參數(shù)和基頻參數(shù)。
[0095] 步驟202,根據(jù)增強(qiáng)模型對(duì)初始語(yǔ)音合成模型中的頻譜模型進(jìn)行增強(qiáng)處理,得到增 強(qiáng)的頻譜模型。
[0096] 首先,從初始的頻譜模型中獲取模型參數(shù),比如基于GMM的頻譜模型的,記為xt ; 然后利用預(yù)先訓(xùn)練好的增強(qiáng)模型,對(duì)模型參數(shù)xt進(jìn)行增強(qiáng)處理,即根據(jù)P(ytIxt),求得增強(qiáng) 后的模型參數(shù)yt;最后用增強(qiáng)后的模型參數(shù)yt替換頻譜模型的模型參數(shù),得到新的頻譜模 型,此模型即為增強(qiáng)后的頻譜模型。
[0097] 步驟203,利用增強(qiáng)的頻譜模型生成對(duì)應(yīng)所述待合成文本的頻譜參數(shù)。
[0098] 步驟204,利用對(duì)應(yīng)所述待合成文本的時(shí)長(zhǎng)參數(shù)、基頻參數(shù)、以及頻譜參數(shù)生成連 續(xù)語(yǔ)音信號(hào)。
[0099] 需要說(shuō)明的是,在實(shí)際應(yīng)用中,可以分別生成針對(duì)頻譜特性的增強(qiáng)模型及針對(duì)基 頻特性的增強(qiáng)模型,因此,可以單獨(dú)采用針對(duì)頻譜特性的增強(qiáng)模型對(duì)初始語(yǔ)音合成模型中 的頻譜模型進(jìn)行增強(qiáng)處理,或者單獨(dú)采用針對(duì)基頻特性的增強(qiáng)模型對(duì)初始語(yǔ)音合成模型中 的基頻模型進(jìn)行增強(qiáng)處理,也可以綜合采用上述兩種針對(duì)不同特性的增強(qiáng)模型分別對(duì)初始 語(yǔ)音合成模型中的頻譜模型和基頻模型進(jìn)行增強(qiáng)處理。相應(yīng)地,利用增強(qiáng)后的頻譜模型和/ 或基頻模型得到對(duì)