[0140] 參數(shù)增強(qiáng)單元602,用于利用增強(qiáng)模型對(duì)所述頻譜參數(shù)和/或基頻參數(shù)進(jìn)行增強(qiáng) 處理,得到增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù),并將所述增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù) 作為合成語音時(shí)對(duì)應(yīng)所述待合成文本的頻譜參數(shù)和/或基頻參數(shù)。
[0141 ] 與圖5所示框圖結(jié)構(gòu)不同的是,在該實(shí)施例中,先由初始語音參數(shù)生成單元601利 用初始語音合成模型生成對(duì)應(yīng)待合成文本的基頻參數(shù)、頻譜參數(shù)、以及時(shí)長(zhǎng)參數(shù),然后再由 參數(shù)增強(qiáng)單元602利用相應(yīng)的增強(qiáng)模型對(duì)其中的頻譜參數(shù)進(jìn)行增強(qiáng)處理,從而使增強(qiáng)后的 語音合成參數(shù)更好地體現(xiàn)不同發(fā)音人、以及同一發(fā)音人發(fā)不同音時(shí)的聲學(xué)特性上的細(xì)節(jié)差 異。圖4中的合成模塊405將這些增強(qiáng)處理后的語音合成參數(shù)與通過傳統(tǒng)語音合成模型得 到的其它語音合成參數(shù)結(jié)合在一起,通過合成器合成出語音。
[0142] 利用本發(fā)明實(shí)施例實(shí)現(xiàn)合成語音增強(qiáng)的系統(tǒng),通過統(tǒng)計(jì)方式獲取不同發(fā)音人、以 及同一發(fā)音人發(fā)不同音時(shí)聲學(xué)參數(shù)的細(xì)節(jié)特征,進(jìn)而利用這些細(xì)節(jié)特征對(duì)合成語音進(jìn)行增 強(qiáng)處理,從而可以得到更好的增強(qiáng)效果。
[0143] 本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部 分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí) 施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例 的部分說明即可。以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明 的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是 物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要 選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出 創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0144] 以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行 了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及設(shè)備;同時(shí),對(duì)于本領(lǐng)域的 一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所 述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【主權(quán)項(xiàng)】
1. 一種實(shí)現(xiàn)合成語音增強(qiáng)的方法,其特征在于,包括: 基于訓(xùn)練數(shù)據(jù)構(gòu)建初始語音合成模型,所述訓(xùn)練數(shù)據(jù)包括文本數(shù)據(jù)及與所述文本數(shù)據(jù) 對(duì)應(yīng)的語音數(shù)據(jù); 建立增強(qiáng)模型,所述增強(qiáng)模型用于模擬所述初始語音合成模型生成的合成語音參數(shù)與 自然語音參數(shù)的映射關(guān)系; 在接收到待合成文本后,根據(jù)所述初始語音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待 合成文本的合成語音參數(shù); 利用所述合成語音參數(shù)生成連續(xù)語音信號(hào)。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述建立增強(qiáng)模型包括: 根據(jù)所述初始語音合成模型生成所有訓(xùn)練數(shù)據(jù)的合成語音參數(shù); 提取所有訓(xùn)練數(shù)據(jù)的自然語音參數(shù); 確定增強(qiáng)模型的拓?fù)浣Y(jié)構(gòu); 將對(duì)應(yīng)所述訓(xùn)練數(shù)據(jù)的合成語音參數(shù)和自然語音參數(shù)的數(shù)據(jù)對(duì)作為訓(xùn)練集合,根據(jù)所 述拓?fù)浣Y(jié)構(gòu)進(jìn)行參數(shù)訓(xùn)練,得到增強(qiáng)模型。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述增強(qiáng)模型為:線性函數(shù)的映射模型、 或者GMM模型、或者DNN模型。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述初始語音合成模型生成的合成語音 參數(shù)與自然語音參數(shù)的映射關(guān)系為所述初始語音合成模型生成的合成語音參數(shù)與自然語 音參數(shù)的條件分布。5. 根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,所述初始語音合成模型包括: 時(shí)長(zhǎng)模型、頻譜模型、基頻模型; 所述根據(jù)所述初始語音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成文本的合成語 音參數(shù)包括: 根據(jù)所述增強(qiáng)模型對(duì)所述初始語音合成模型中的頻譜模型和/或基頻模型進(jìn)行增強(qiáng) 處理,得到增強(qiáng)的頻譜模型和/或基頻模型; 利用所述增強(qiáng)的頻譜模型和/或基頻模型生成對(duì)應(yīng)所述待合成文本的頻譜參數(shù)和/或 基頻參數(shù); 利用所述初始語音合成模型生成對(duì)應(yīng)所述待合成文本的除頻譜模型和/或基頻模型 之外的其它語音參數(shù)。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述增強(qiáng)模型對(duì)所述初始語音 合成模型中的頻譜模型和/或基頻模型進(jìn)行增強(qiáng)處理,得到增強(qiáng)的頻譜模型和/或基頻模 型包括: 從所述初始語音合成模型中獲取頻譜模型和/或基頻模型的模型參數(shù); 利用所述增強(qiáng)模型對(duì)所述模型參數(shù)進(jìn)行增強(qiáng)處理,得到增強(qiáng)后的模型參數(shù); 將增強(qiáng)后的模型參數(shù)替代對(duì)應(yīng)的頻譜模型和/或基頻模型的模型參數(shù),得到增強(qiáng)的頻 譜模型和/或基頻模型。7. 根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,所述初始語音合成模型包括: 時(shí)長(zhǎng)模型、頻譜模型、基頻模型; 所述根據(jù)所述初始語音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成文本的合成語 音參數(shù)包括: 利用所述初始語音合成模型分別生成對(duì)應(yīng)所述待合成文本的時(shí)長(zhǎng)參數(shù)、頻譜參數(shù)和基 頻參數(shù); 利用增強(qiáng)模型對(duì)所述頻譜參數(shù)和/或基頻參數(shù)進(jìn)行增強(qiáng)處理,得到增強(qiáng)后的頻譜參數(shù) 和/或基頻參數(shù),并將所述增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù)作為合成語音時(shí)對(duì)應(yīng)所述待 合成文本的頻譜參數(shù)和/或基頻參數(shù)。8. -種實(shí)現(xiàn)合成語音增強(qiáng)的系統(tǒng),其特征在于,包括: 初始模型建立模塊,用于基于訓(xùn)練數(shù)據(jù)構(gòu)建初始語音合成模型,所述訓(xùn)練數(shù)據(jù)包括文 本數(shù)據(jù)及與所述文本數(shù)據(jù)對(duì)應(yīng)的語音數(shù)據(jù); 增強(qiáng)模型建立模塊,用于建立增強(qiáng)模型,所述增強(qiáng)模型用于模擬所述初始語音合成模 型生成的合成語音參數(shù)與自然語音參數(shù)的映射關(guān)系; 接收模塊,用于接收待合成文本; 參數(shù)生成模塊,用于根據(jù)所述初始語音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成 文本的合成語音參數(shù); 合成模塊,用于利用所述合成語音參數(shù)生成連續(xù)語音信號(hào)。9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述增強(qiáng)模型建立模塊包括: 合成語音參數(shù)生成單元,用于根據(jù)所述初始語音合成模型生成所有訓(xùn)練數(shù)據(jù)的合成語 音參數(shù); 自然語音參數(shù)提取單元,用于提取所有訓(xùn)練數(shù)據(jù)的自然語音參數(shù); 拓?fù)浣Y(jié)構(gòu)確定單元,用于確定增強(qiáng)模型的拓?fù)浣Y(jié)構(gòu); 訓(xùn)練單元,用于將對(duì)應(yīng)所述訓(xùn)練數(shù)據(jù)的合成語音參數(shù)和自然語音參數(shù)的數(shù)據(jù)對(duì)作為訓(xùn) 練集合,根據(jù)所述拓?fù)浣Y(jié)構(gòu)進(jìn)行參數(shù)訓(xùn)練,得到增強(qiáng)模型。10. 根據(jù)權(quán)利要求8或9所述的系統(tǒng),其特征在于,所述初始語音合成模型包括:時(shí)長(zhǎng) 模型、頻譜模型、基頻模型;所述參數(shù)生成模塊包括: 模型增強(qiáng)單元,用于根據(jù)所述增強(qiáng)模型對(duì)所述初始語音合成模型中的頻譜模型和/或 基頻模型進(jìn)行增強(qiáng)處理,得到增強(qiáng)的頻譜模型和/或基頻模型; 增強(qiáng)語音參數(shù)生成單元,用于利用所述增強(qiáng)的頻譜模型和/或基頻模型生成對(duì)應(yīng)所述 待合成文本的頻譜參數(shù)和/或基頻參數(shù); 初始語音參數(shù)生成單元,用于利用所述初始語音合成模型生成對(duì)應(yīng)所述待合成文本的 除頻譜模型和/或基頻模型之外的其它語音參數(shù)。11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述模型增強(qiáng)單元包括: 模型參數(shù)獲取單元,用于從所述初始語音合成模型中獲取頻譜模型和/或基頻模型的 模型參數(shù); 模型參數(shù)增強(qiáng)單元,用于利用所述增強(qiáng)模型對(duì)所述模型參數(shù)進(jìn)行增強(qiáng)處理,得到增強(qiáng) 后的模型參數(shù); 增強(qiáng)模型生成單元,用于將增強(qiáng)后的模型參數(shù)替代對(duì)應(yīng)的頻譜模型和/或基頻模型的 模型參數(shù),得到增強(qiáng)的頻譜模型和/或基頻模型。12. 根據(jù)權(quán)利要求8或9所述的系統(tǒng),其特征在于,所述初始語音合成模型包括:時(shí)長(zhǎng) 模型、頻譜模型、基頻模型; 所述參數(shù)生成模塊包括: 初始語音參數(shù)生成單元,用于利用所述初始語音合成模型分別生成對(duì)應(yīng)所述待合成文 本的時(shí)長(zhǎng)參數(shù)、頻譜參數(shù)和基頻參數(shù); 參數(shù)增強(qiáng)單元,用于利用所述增強(qiáng)模型對(duì)所述頻譜參數(shù)和/或基頻參數(shù)進(jìn)行增強(qiáng)處 理,得到增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù),并將所述增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù)作 為合成語音時(shí)對(duì)應(yīng)所述待合成文本的頻譜參數(shù)和/或基頻參數(shù)。
【專利摘要】本發(fā)明涉及語音合成技術(shù)領(lǐng)域,公開了一種實(shí)現(xiàn)合成語音增強(qiáng)的方法及系統(tǒng),該方法包括:基于訓(xùn)練數(shù)據(jù)構(gòu)建初始語音合成模型,所述訓(xùn)練數(shù)據(jù)包括文本數(shù)據(jù)及與所述文本數(shù)據(jù)對(duì)應(yīng)的語音數(shù)據(jù);建立增強(qiáng)模型,所述增強(qiáng)模型用于模擬所述初始語音合成模型生成的合成語音參數(shù)與自然語音參數(shù)的映射關(guān)系;在接收到待合成文本后,根據(jù)所述初始語音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成文本的合成語音參數(shù);利用所述合成語音參數(shù)生成連續(xù)語音信號(hào)。利用本發(fā)明,可以有效提高合成語音的增強(qiáng)效果。
【IPC分類】G10L21/02, G10L15/06
【公開號(hào)】CN105023574
【申請(qǐng)?zhí)枴緾N201410182886
【發(fā)明人】孫見青, 陳凌輝, 凌震華, 江源, 胡國(guó)平, 胡郁, 劉慶峰
【申請(qǐng)人】安徽科大訊飛信息科技股份有限公司
【公開日】2015年11月4日
【申請(qǐng)日】2014年4月30日