一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)的制作方法

文檔序號(hào)：9305371閱讀：442來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語(yǔ)音合成技術(shù)領(lǐng)域，具體涉及一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)。
【背景技術(shù)】
[0002] 實(shí)現(xiàn)人機(jī)之間人性化、智能化的有效交互，構(gòu)建高效自然的人機(jī)交流環(huán)境，已經(jīng)成為當(dāng)前信息技術(shù)應(yīng)用和發(fā)展的迫切需求。作為語(yǔ)音技術(shù)中實(shí)用的一項(xiàng)重要技術(shù)，語(yǔ)音合成技術(shù)或稱文語(yǔ)轉(zhuǎn)換技術(shù)（Text-To-Speech，TTS)，將文字信息轉(zhuǎn)化為自然的語(yǔ)音信號(hào)，實(shí)現(xiàn) 文本的實(shí)時(shí)轉(zhuǎn)換，改變了傳統(tǒng)通過(guò)錄音回放實(shí)現(xiàn)機(jī)器開(kāi)口說(shuō)話的繁瑣操作，節(jié)省了系統(tǒng)存儲(chǔ)空間，在信息交互日益增多的當(dāng)今，特別是在信息內(nèi)容需要經(jīng)常變動(dòng)的動(dòng)態(tài)查詢應(yīng)用領(lǐng) 域發(fā)揮了越來(lái)越重要的作用。
[0003] 基于參數(shù)合成的語(yǔ)音合成系統(tǒng)由于具有較好的魯棒性和推廣性得到了廣泛的應(yīng) 用，然而該方法具有較強(qiáng)的平滑作用，合成的語(yǔ)音平淡且音質(zhì)容易受損，在合成自然度方面表現(xiàn)不夠理想，實(shí)際應(yīng)用中存在一定的提升空間。如何提高合成語(yǔ)音的自然度是合成系統(tǒng) 實(shí)用化的重要保障。
[0004] 為此，現(xiàn)有技術(shù)中主要采用合成語(yǔ)音增強(qiáng)的方法來(lái)提高合成語(yǔ)音的自然度，其主要技術(shù)可以歸納為：基于人的聽(tīng)感特性等經(jīng)驗(yàn)知識(shí)對(duì)生成頻譜參數(shù)或合成語(yǔ)音進(jìn)行后濾波處理，比如對(duì)合成語(yǔ)音的共振峰進(jìn)行增強(qiáng)處理、加強(qiáng)生成頻譜參數(shù)的動(dòng)態(tài)特性，從而改善合成語(yǔ)音的音質(zhì)。
[0005] 實(shí)際上，不同發(fā)音人的聲學(xué)特性存在細(xì)節(jié)差異，且對(duì)于同一個(gè)發(fā)音人，其在發(fā)不同音時(shí)，聲學(xué)特性也存在細(xì)節(jié)差異。而基于經(jīng)驗(yàn)知識(shí)的合成語(yǔ)音增強(qiáng)方法，只能使得增強(qiáng)后的合成語(yǔ)音在總體上符合人的聽(tīng)感，其增強(qiáng)效果并不理想。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)，以提高合成語(yǔ)音的增強(qiáng) 效果。
[0007] 為此，本發(fā)明實(shí)施例提供如下技術(shù)方案：
[0008] -種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法，包括：
[0009] 基于訓(xùn)練數(shù)據(jù)構(gòu)建初始語(yǔ)音合成模型，所述訓(xùn)練數(shù)據(jù)包括文本數(shù)據(jù)及與所述文本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)；
[0010] 建立增強(qiáng)模型，所述增強(qiáng)模型用于模擬所述初始語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系；
[0011] 在接收到待合成文本后，根據(jù)所述初始語(yǔ)音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成文本的合成語(yǔ)音參數(shù)；
[0012] 利用所述合成語(yǔ)音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。
[0013] 優(yōu)選地，所述建立增強(qiáng)模型包括：
[0014] 根據(jù)所述初始語(yǔ)音合成模型生成所有訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù)；
[0015] 提取所有訓(xùn)練數(shù)據(jù)的自然語(yǔ)音參數(shù)；
[0016] 確定增強(qiáng)模型的拓?fù)浣Y(jié)構(gòu)；
[0017] 將對(duì)應(yīng)所述訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù)和自然語(yǔ)音參數(shù)的數(shù)據(jù)對(duì)作為訓(xùn)練集合，根據(jù)所述拓?fù)浣Y(jié)構(gòu)進(jìn)行參數(shù)訓(xùn)練，得到增強(qiáng)模型。
[0018] 優(yōu)選地，所述增強(qiáng)模型為：線性函數(shù)的映射模型、或者GMM模型、或者DNN模型。
[0019] 優(yōu)選地，所述初始語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系為所述初始語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的條件分布。
[0020] 優(yōu)選地，所述初始語(yǔ)音合成模型包括：時(shí)長(zhǎng)模型、頻譜模型、基頻模型；
[0021] 所述根據(jù)所述初始語(yǔ)音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成文本的合成語(yǔ)音參數(shù)包括：
[0022] 根據(jù)所述增強(qiáng)模型對(duì)所述初始語(yǔ)音合成模型中的頻譜模型和/或基頻模型進(jìn)行增強(qiáng)處理，得到增強(qiáng)的頻譜模型和/或基頻模型；
[0023] 利用所述增強(qiáng)的頻譜模型和/或基頻模型生成對(duì)應(yīng)所述待合成文本的頻譜參數(shù) 和/或基頻參數(shù)；
[0024] 利用所述初始語(yǔ)音合成模型生成對(duì)應(yīng)所述待合成文本的除頻譜模型和/或基頻模型之外的其它語(yǔ)音參數(shù)。
[0025] 優(yōu)選地，所述根據(jù)所述增強(qiáng)模型對(duì)所述初始語(yǔ)音合成模型中的頻譜模型和/或基頻模型進(jìn)行增強(qiáng)處理，得到增強(qiáng)的頻譜模型和/或基頻模型包括：
[0026] 從所述初始語(yǔ)音合成模型中獲取頻譜模型和/或基頻模型的模型參數(shù)；
[0027] 利用所述增強(qiáng)模型對(duì)所述模型參數(shù)進(jìn)行增強(qiáng)處理，得到增強(qiáng)后的模型參數(shù)；
[0028] 將增強(qiáng)后的模型參數(shù)替代對(duì)應(yīng)的頻譜模型和/或基頻模型的模型參數(shù)，得到增強(qiáng) 的頻譜模型和/或基頻模型。
[0029] 優(yōu)選地，所述初始語(yǔ)音合成模型包括：時(shí)長(zhǎng)模型、頻譜模型、基頻模型；
[0030] 所述根據(jù)所述初始語(yǔ)音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成文本的合成語(yǔ)音參數(shù)包括：
[0031] 利用所述初始語(yǔ)音合成模型分別生成對(duì)應(yīng)所述待合成文本的時(shí)長(zhǎng)參數(shù)、頻譜參數(shù) 和基頻參數(shù)；
[0032] 利用增強(qiáng)模型對(duì)所述頻譜參數(shù)和/或基頻參數(shù)進(jìn)行增強(qiáng)處理，得到增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù)，并將所述增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù)作為合成語(yǔ)音時(shí)對(duì)應(yīng)所述待合成文本的頻譜參數(shù)和/或基頻參數(shù)。
[0033] -種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的系統(tǒng)，包括：
[0034] 初始模型建立模塊，用于基于訓(xùn)練數(shù)據(jù)構(gòu)建初始語(yǔ)音合成模型，所述訓(xùn)練數(shù)據(jù)包括文本數(shù)據(jù)及與所述文本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)；
[0035] 增強(qiáng)模型建立模塊，用于建立增強(qiáng)模型，所述增強(qiáng)模型用于模擬所述初始語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系；
[0036] 接收模塊，用于接收待合成文本；
[0037] 參數(shù)生成模塊，用于根據(jù)所述初始語(yǔ)音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成文本的合成語(yǔ)音參數(shù)；
[0038] 合成模塊，用于利用所述合成語(yǔ)音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。
[0039] 優(yōu)選地，所述增強(qiáng)模型建立模塊包括：
[0040] 合成語(yǔ)音參數(shù)生成單元，用于根據(jù)所述初始語(yǔ)音合成模型生成所有訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù)；
[0041] 自然語(yǔ)音參數(shù)提取單元，用于提取所有訓(xùn)練數(shù)據(jù)的自然語(yǔ)音參數(shù)；
[0042] 拓?fù)浣Y(jié)構(gòu)確定單元，用于確定增強(qiáng)模型的拓?fù)浣Y(jié)構(gòu)；
[0043] 訓(xùn)練單元，用于將對(duì)應(yīng)所述訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù)和自然語(yǔ)音參數(shù)的數(shù)據(jù)對(duì)作為訓(xùn)練集合，根據(jù)所述拓?fù)浣Y(jié)構(gòu)進(jìn)行參數(shù)訓(xùn)練，得到增強(qiáng)模型。
[0044] 優(yōu)選地，所述初始語(yǔ)音合成模型包括：時(shí)長(zhǎng)模型、頻譜模型、基頻模型；所述參數(shù) 生成模塊包括：
[0045] 模型增強(qiáng)單元，用于根據(jù)所述增強(qiáng)模型對(duì)所述初始語(yǔ)音合成模型中的頻譜模型和 /或基頻模型進(jìn)行增強(qiáng)處理，得到增強(qiáng)的頻譜模型和/或基頻模型；
[0046] 增強(qiáng)語(yǔ)音參數(shù)生成單元，用于利用所述增強(qiáng)的頻譜模型和/或基頻模型生成對(duì)應(yīng) 所述待合成文本的頻譜參數(shù)和/或基頻參數(shù)；
[0047] 初始語(yǔ)音參數(shù)生成單元，用于利用所述初始語(yǔ)音合成模型生成對(duì)應(yīng)所述待合成文本的除頻譜模型和/或基頻模型之外的其它語(yǔ)音參數(shù)。
[0048] 優(yōu)選地，所述模型增強(qiáng)單元包括：
[0049] 模型參數(shù)獲取單元，用于從所述初始語(yǔ)音合成模型中獲取頻譜模型和/或基頻模型的模型參數(shù)；
[0050] 模型參數(shù)增強(qiáng)單元，用于利用所述增強(qiáng)模型對(duì)所述模型參數(shù)進(jìn)行增強(qiáng)處理，得到增強(qiáng)后的模型參數(shù)；
[0051] 增強(qiáng)模型生成單元，用于將增強(qiáng)后的模型參數(shù)替代對(duì)應(yīng)的頻譜模型和/或基頻模型的模型參數(shù)，得到增強(qiáng)的頻譜模型和/或基頻模型。
[0052] 優(yōu)選地，所述初始語(yǔ)音合成模型包括：時(shí)長(zhǎng)模型、頻譜模型、基頻模型；
[0053] 所述參數(shù)生成模塊包括：
[0054] 初始語(yǔ)音參數(shù)生成單元，用于利用所述初始語(yǔ)音合成模型分別生成對(duì)應(yīng)所述待合成文本的時(shí)長(zhǎng)參數(shù)、頻譜參數(shù)和基頻參數(shù)；
[0055] 參數(shù)增強(qiáng)單元，用于利用所述增強(qiáng)模型對(duì)所述頻譜參數(shù)和/或基頻參數(shù)進(jìn)行增強(qiáng) 處理，得到增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù)，并將所述增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù) 作為合成語(yǔ)音時(shí)對(duì)應(yīng)所述待合成文本的頻譜參數(shù)和/或基頻參數(shù)。
[0056] 本發(fā)明實(shí)施例提供的實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)，基于統(tǒng)計(jì)的方法構(gòu)建用于模擬傳統(tǒng)語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系的增強(qiáng)模型，然后利用該增強(qiáng)模型及傳統(tǒng)語(yǔ)音合成模型生成對(duì)應(yīng)待合成文本的合成語(yǔ)音參數(shù)，進(jìn)而利用所述合成語(yǔ)音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。本發(fā)明實(shí)施例的方案以自然聲學(xué)參數(shù)作為指導(dǎo)，因此可以對(duì)不同發(fā)音人、以及同一發(fā)音人發(fā)不同音時(shí)聲學(xué)參數(shù)的細(xì)節(jié)特征有較強(qiáng)的把握，可以抓住特定發(fā)音人的特性，使合成語(yǔ)音增強(qiáng)的效果更好。
【附

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4