專利名稱:一種語音合成方法和語音合成系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音信號(hào)處理及語音合成技術(shù)領(lǐng)域,尤其是涉及一種語音合成方法和語音合成系統(tǒng)。
背景技術(shù):
目前,在文本受限領(lǐng)域(如銀行的電話客服系統(tǒng),機(jī)場(chǎng)航班播報(bào)等)中,合成文本往往具有相對(duì)固定模式,合成文本通常由固定不變成分(即固定成分文本)及可變參數(shù)成分(即可變成分文本)構(gòu)成。對(duì)此在現(xiàn)有技術(shù)中,系統(tǒng)可以將固定成分文本通過預(yù)先錄制自然語音的方式獲取部分語音片斷,對(duì)可變成分文本執(zhí)行語音合成得到另一語音片斷,并將所述兩段語音片斷信號(hào)拼接獲取到最后的連續(xù)語音信號(hào)。這樣的方法雖然實(shí)現(xiàn)簡(jiǎn)單且保持了自然語音部分的自然流暢性,然而在實(shí)際應(yīng)用中依然存在以下問題自然語音段和基于文本合成的語音段之間的銜接自然度難以保證;另外,由于獲取方式的不同,自然語音的語音段和基于文本合成的語音段在音質(zhì)上也難以保持一致。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了 一種語音合成方法和語音合成系統(tǒng),用于提高語音的合成音質(zhì)和自然度。有鑒于此,本發(fā)明第一方面提供一種語音合成方法,可包括獲取合成文本;將所述合成文本劃分為固定成分文本和可變成分文本;對(duì)所述固定成分文本進(jìn)行分析,確定所述固定成分文本中各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列;以及對(duì)所述可變成分文本進(jìn)行分析,確定所述可變成分文本中各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到所述可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列;根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列及可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列,確定所述合成文本的合成基頻參數(shù)序列;以及根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列及可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列,確定所述合成文本的合成頻譜參數(shù)序列;根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列、所述可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列、所述合成基頻參數(shù)序列和所述合成頻譜參數(shù)序列,生成連續(xù)語音信號(hào)。在某些實(shí)施方式中,所述將所述合成文本劃分為固定成分文本和可變成分文本具體包括采用前后向最大分詞算法對(duì)所述合成文本進(jìn)行字詞劃分并得到分詞或分詞組合;將所述分詞或分詞組合與預(yù)置模板庫(kù)中的韻律詞標(biāo)注信息進(jìn)行比較,若所述分詞或分詞組合與所述韻律詞標(biāo)注信息一致,則確定出所述分詞或分詞組合為固定成分文本,若否,則確定出所述分詞或分詞組合為可變成分文本。在某些實(shí)施方式中,所述對(duì)所述固定成分文本進(jìn)行分析,確定所述固定成分文本中各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列,包括從所述預(yù)置模板庫(kù)中獲取所述固定成分文本對(duì)應(yīng)自然語音段中各基本語音單元的時(shí)長(zhǎng)參數(shù)Ti ;從所述預(yù)置模板庫(kù)中獲取所述固定成分文本對(duì)應(yīng)自然語音段中各基本語音單元所對(duì)應(yīng)的基本合成單元序列的合成時(shí)長(zhǎng)參數(shù)模型序列{/ )};基于公式
權(quán)利要求
1.一種語音合成方法,其特征在于,包括 獲取合成文本; 將所述合成文本劃分為固定成分文本和可變成分文本; 對(duì)所述固定成分文本進(jìn)行分析,確定所述固定成分文本中各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列;以及 對(duì)所述可變成分文本進(jìn)行分析,確定所述可變成分文本中各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到所述可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列; 根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列及可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列,確定所述合成文本的合成基頻參數(shù)序列;以及 根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列及可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列,確定所述合成文本的合成頻譜參數(shù)序列; 根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列、所述可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列、所述合成基頻參數(shù)序列和所述合成頻譜參數(shù)序列,生成連續(xù)語音信號(hào)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述合成文本劃分為固定成分文本和可變成分文本具體包括 采用前后向最大分詞算法對(duì)所述合成文本進(jìn)行字詞劃分并得到分詞或分詞組合; 將所述分詞或分詞組合與預(yù)置模板庫(kù)中的韻律詞標(biāo)注信息進(jìn)行比較,若所述分詞或分詞組合與所述韻律詞標(biāo)注信息一致,則確定出所述分詞或分詞組合為固定成分文本,若否,則確定出所述分詞或分詞組合為可變成分文本。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述固定成分文本進(jìn)行分析,確定所述固定成分文本中各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列,包括 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本對(duì)應(yīng)自然語音段中各基本語音單元的時(shí)長(zhǎng)參數(shù)Ti ; 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本對(duì)應(yīng)自然語音段中各基本語音單元所對(duì)應(yīng)的基本合成單元序列的合成時(shí)長(zhǎng)參數(shù)模型序列&(<)}; 基于公式
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述對(duì)所述可變成分文本進(jìn)行分析,確定所述可變成分文本的各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到所述可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列,包括 從所述預(yù)置模板庫(kù)中獲取所述可變成分文本對(duì)應(yīng)自然語音段中各基本語音單元所對(duì)應(yīng)的基本合成單元序列的合成時(shí)長(zhǎng)參數(shù)模型序列)};基于公式
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列及可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列,確定所述合成文本的合成基頻參數(shù)序列,包括 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本及可變成分文本的基本語音單元的各基本合成單元的基頻模型_p(c/); 對(duì)所述各基本合成單元的基頻模型#(./ ).根據(jù)其所對(duì)應(yīng)合成時(shí)長(zhǎng)參數(shù)&重復(fù)相應(yīng)次數(shù),獲取所述基本合成單元的基頻模型序列; 根據(jù)合成文本的基本語音單元序列,拼接各基本語音單元對(duì)應(yīng)的所述基本合成單元的基頻t吳型序列,獲取所述合成文本的基頻t吳型序列; 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本所對(duì)應(yīng)的自然語音段的基頻參數(shù)序列Ygf; 基于公式
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列及可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列,確定所述合成文本的合成頻譜參數(shù)序列,包括 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本及可變成分文本的基本語音單元的各基本合成單元的頻譜模型Mc/); 對(duì)所述各基本合成單元的頻譜模型根據(jù)其所對(duì)應(yīng)合成時(shí)長(zhǎng)參數(shù)g重復(fù)相應(yīng)次數(shù),獲取所述基本合成單元的頻譜模型序列; 根據(jù)合成文本的基本語音單元序列,拼接各基本語音單元對(duì)應(yīng)的所述基本合成單元的頻譜模型序列,獲取所述合成文本的頻譜模型序列; 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本所對(duì)應(yīng)的自然語音段的頻譜參數(shù)序列Ygs; 基于公式
7.—種語音合成系統(tǒng),其特征在于,包括 獲取模塊,用于獲取合成文本; 文本劃分模塊,用于將所述合成文本劃分為固定成分文本和可變成分文本; 時(shí)長(zhǎng)參數(shù)獲取模塊,用于對(duì)所述固定成分文本進(jìn)行分析,確定所述固定成分文本中各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列;以及對(duì)所述可變成分文本進(jìn)行分析,確定所述可變成分文本中各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到所述可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列; 基頻參數(shù)獲取模塊,用于根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列及可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列,確定所述合成文本的合成基頻參數(shù)序列; 頻譜參數(shù)獲取模塊,用于根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列及可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列,確定所述合成文本的合成頻譜參數(shù)序列; 語音信號(hào)生成模塊,用于根據(jù)所述固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列、所述可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列、所述合成基頻參數(shù)序列和所述合成頻譜參數(shù)序列,生成連續(xù)語音信號(hào)。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述文本劃分模塊,具體用于采用前后向最大分詞算法對(duì)所述合成文本進(jìn)行字詞劃分并得到分詞或分詞組合;將所述分詞或分詞組合與預(yù)置模板庫(kù)中的韻律詞標(biāo)注信息進(jìn)行比較,若所述分詞或分詞組合與所述韻律詞標(biāo)注信息一致,則確定出所述分詞或分詞組合為固定成分文本,若否,則確定出所述分詞或分詞組合為可變成分文本。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述時(shí)長(zhǎng)參數(shù)獲取模塊具體用于 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本對(duì)應(yīng)自然語音段中各基本語音單元的時(shí)長(zhǎng)參數(shù)Ti ; 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本對(duì)應(yīng)自然語音段中各基本語音單元所對(duì)應(yīng)的基本合成單元序列的合成時(shí)長(zhǎng)參數(shù)模型序列IMi//)}; 基于公式
10.根據(jù)權(quán)利要求8或9所述的系統(tǒng),其特征在于,所述時(shí)長(zhǎng)參數(shù)獲取模塊還用于 從所述預(yù)置模板庫(kù)中獲取所述可變成分文本對(duì)應(yīng)自然語音段中各基本語音單元所對(duì)應(yīng)的基本合成單元序列的合成時(shí)長(zhǎng)參數(shù)模型序列{MO};基于公式K
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述基頻參數(shù)獲取模塊具體用于 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本及可變成分文本的基本語音單元的各基本合成單元的基頻模型); 對(duì)所述各基本合成單元的基頻模型卜根據(jù)其所對(duì)應(yīng)合成時(shí)長(zhǎng)參數(shù)i重復(fù)相應(yīng)次數(shù),獲取所述基本合成單元的基頻模型序列; 根據(jù)合成文本的基本語音單元序列,拼接各基本語音單元對(duì)應(yīng)的所述基本合成單元的基頻t吳型序列,獲取所述合成文本的基頻t吳型序列; 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本所對(duì)應(yīng)的自然語音段的基頻參數(shù)序列Ygf; 基于公式
12.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述頻譜參數(shù)獲取模塊具體用于 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本及可變成分文本的基本語音單元的各基本合成單元的頻譜模型>y(c/); 對(duì)所述各基本合成單元的頻譜模型根據(jù)其所對(duì)應(yīng)合成時(shí)長(zhǎng)參數(shù)g重復(fù)相應(yīng)次數(shù),獲取所述基本合成單元的頻譜模型序列;根據(jù)合成文本的基本語音單元序列,拼接各基本語音單元對(duì)應(yīng)的所述基本合成單元的頻譜模型序列,獲取所述合成文本的頻譜模型序列; 從所述預(yù)置模板庫(kù)中獲取所述固定成分文本所對(duì)應(yīng)的自然語音段的頻譜參數(shù)序列Ygs; 基于公式
全文摘要
本發(fā)明的實(shí)施例公開了一種語音合成方法和語音合成系統(tǒng),用于提高語音的合成音質(zhì)和自然度。該方法包括將獲取的合成文本劃分為固定成分文本和可變成分文本;對(duì)固定成分文本進(jìn)行分析,確定固定成分文本中各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到固定成分文本的合成時(shí)長(zhǎng)參數(shù)序列;對(duì)可變成分文本進(jìn)行分析,確定可變成分文本中各基本合成單元的合成時(shí)長(zhǎng)參數(shù),得到可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列;根據(jù)固定成分文本及可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列,確定合成文本的合成基頻參數(shù)序列及確定合成文本的合成頻譜參數(shù)序列;根據(jù)固定成分文本及可變成分文本的合成時(shí)長(zhǎng)參數(shù)序列、合成基頻參數(shù)序列和合成頻譜參數(shù)序列,生成連續(xù)語音信號(hào)。
文檔編號(hào)G10L13/06GK103065619SQ201210575160
公開日2013年4月24日 申請(qǐng)日期2012年12月26日 優(yōu)先權(quán)日2012年12月26日
發(fā)明者孫見青, 凌震華, 何婷婷, 胡國(guó)平, 胡郁, 劉慶峰 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司