亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)的制作方法

文檔序號(hào):9305371閱讀:442來(lái)源:國(guó)知局
一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語(yǔ)音合成技術(shù)領(lǐng)域,具體涉及一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng)。
【背景技術(shù)】
[0002] 實(shí)現(xiàn)人機(jī)之間人性化、智能化的有效交互,構(gòu)建高效自然的人機(jī)交流環(huán)境,已經(jīng)成 為當(dāng)前信息技術(shù)應(yīng)用和發(fā)展的迫切需求。作為語(yǔ)音技術(shù)中實(shí)用的一項(xiàng)重要技術(shù),語(yǔ)音合成 技術(shù)或稱文語(yǔ)轉(zhuǎn)換技術(shù)(Text-To-Speech,TTS),將文字信息轉(zhuǎn)化為自然的語(yǔ)音信號(hào),實(shí)現(xiàn) 文本的實(shí)時(shí)轉(zhuǎn)換,改變了傳統(tǒng)通過(guò)錄音回放實(shí)現(xiàn)機(jī)器開(kāi)口說(shuō)話的繁瑣操作,節(jié)省了系統(tǒng)存 儲(chǔ)空間,在信息交互日益增多的當(dāng)今,特別是在信息內(nèi)容需要經(jīng)常變動(dòng)的動(dòng)態(tài)查詢應(yīng)用領(lǐng) 域發(fā)揮了越來(lái)越重要的作用。
[0003] 基于參數(shù)合成的語(yǔ)音合成系統(tǒng)由于具有較好的魯棒性和推廣性得到了廣泛的應(yīng) 用,然而該方法具有較強(qiáng)的平滑作用,合成的語(yǔ)音平淡且音質(zhì)容易受損,在合成自然度方面 表現(xiàn)不夠理想,實(shí)際應(yīng)用中存在一定的提升空間。如何提高合成語(yǔ)音的自然度是合成系統(tǒng) 實(shí)用化的重要保障。
[0004] 為此,現(xiàn)有技術(shù)中主要采用合成語(yǔ)音增強(qiáng)的方法來(lái)提高合成語(yǔ)音的自然度,其主 要技術(shù)可以歸納為:基于人的聽(tīng)感特性等經(jīng)驗(yàn)知識(shí)對(duì)生成頻譜參數(shù)或合成語(yǔ)音進(jìn)行后濾波 處理,比如對(duì)合成語(yǔ)音的共振峰進(jìn)行增強(qiáng)處理、加強(qiáng)生成頻譜參數(shù)的動(dòng)態(tài)特性,從而改善合 成語(yǔ)音的音質(zhì)。
[0005] 實(shí)際上,不同發(fā)音人的聲學(xué)特性存在細(xì)節(jié)差異,且對(duì)于同一個(gè)發(fā)音人,其在發(fā)不同 音時(shí),聲學(xué)特性也存在細(xì)節(jié)差異。而基于經(jīng)驗(yàn)知識(shí)的合成語(yǔ)音增強(qiáng)方法,只能使得增強(qiáng)后的 合成語(yǔ)音在總體上符合人的聽(tīng)感,其增強(qiáng)效果并不理想。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng),以提高合成語(yǔ)音的增強(qiáng) 效果。
[0007] 為此,本發(fā)明實(shí)施例提供如下技術(shù)方案:
[0008] -種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法,包括:
[0009] 基于訓(xùn)練數(shù)據(jù)構(gòu)建初始語(yǔ)音合成模型,所述訓(xùn)練數(shù)據(jù)包括文本數(shù)據(jù)及與所述文本 數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音數(shù)據(jù);
[0010] 建立增強(qiáng)模型,所述增強(qiáng)模型用于模擬所述初始語(yǔ)音合成模型生成的合成語(yǔ)音參 數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系;
[0011] 在接收到待合成文本后,根據(jù)所述初始語(yǔ)音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所 述待合成文本的合成語(yǔ)音參數(shù);
[0012] 利用所述合成語(yǔ)音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。
[0013] 優(yōu)選地,所述建立增強(qiáng)模型包括:
[0014] 根據(jù)所述初始語(yǔ)音合成模型生成所有訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù);
[0015] 提取所有訓(xùn)練數(shù)據(jù)的自然語(yǔ)音參數(shù);
[0016] 確定增強(qiáng)模型的拓?fù)浣Y(jié)構(gòu);
[0017] 將對(duì)應(yīng)所述訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù)和自然語(yǔ)音參數(shù)的數(shù)據(jù)對(duì)作為訓(xùn)練集合,根 據(jù)所述拓?fù)浣Y(jié)構(gòu)進(jìn)行參數(shù)訓(xùn)練,得到增強(qiáng)模型。
[0018] 優(yōu)選地,所述增強(qiáng)模型為:線性函數(shù)的映射模型、或者GMM模型、或者DNN模型。
[0019] 優(yōu)選地,所述初始語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系 為所述初始語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的條件分布。
[0020] 優(yōu)選地,所述初始語(yǔ)音合成模型包括:時(shí)長(zhǎng)模型、頻譜模型、基頻模型;
[0021] 所述根據(jù)所述初始語(yǔ)音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成文本的合 成語(yǔ)音參數(shù)包括:
[0022] 根據(jù)所述增強(qiáng)模型對(duì)所述初始語(yǔ)音合成模型中的頻譜模型和/或基頻模型進(jìn)行 增強(qiáng)處理,得到增強(qiáng)的頻譜模型和/或基頻模型;
[0023] 利用所述增強(qiáng)的頻譜模型和/或基頻模型生成對(duì)應(yīng)所述待合成文本的頻譜參數(shù) 和/或基頻參數(shù);
[0024] 利用所述初始語(yǔ)音合成模型生成對(duì)應(yīng)所述待合成文本的除頻譜模型和/或基頻 模型之外的其它語(yǔ)音參數(shù)。
[0025] 優(yōu)選地,所述根據(jù)所述增強(qiáng)模型對(duì)所述初始語(yǔ)音合成模型中的頻譜模型和/或基 頻模型進(jìn)行增強(qiáng)處理,得到增強(qiáng)的頻譜模型和/或基頻模型包括:
[0026] 從所述初始語(yǔ)音合成模型中獲取頻譜模型和/或基頻模型的模型參數(shù);
[0027] 利用所述增強(qiáng)模型對(duì)所述模型參數(shù)進(jìn)行增強(qiáng)處理,得到增強(qiáng)后的模型參數(shù);
[0028] 將增強(qiáng)后的模型參數(shù)替代對(duì)應(yīng)的頻譜模型和/或基頻模型的模型參數(shù),得到增強(qiáng) 的頻譜模型和/或基頻模型。
[0029] 優(yōu)選地,所述初始語(yǔ)音合成模型包括:時(shí)長(zhǎng)模型、頻譜模型、基頻模型;
[0030] 所述根據(jù)所述初始語(yǔ)音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待合成文本的合 成語(yǔ)音參數(shù)包括:
[0031] 利用所述初始語(yǔ)音合成模型分別生成對(duì)應(yīng)所述待合成文本的時(shí)長(zhǎng)參數(shù)、頻譜參數(shù) 和基頻參數(shù);
[0032] 利用增強(qiáng)模型對(duì)所述頻譜參數(shù)和/或基頻參數(shù)進(jìn)行增強(qiáng)處理,得到增強(qiáng)后的頻譜 參數(shù)和/或基頻參數(shù),并將所述增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù)作為合成語(yǔ)音時(shí)對(duì)應(yīng)所 述待合成文本的頻譜參數(shù)和/或基頻參數(shù)。
[0033] -種實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的系統(tǒng),包括:
[0034] 初始模型建立模塊,用于基于訓(xùn)練數(shù)據(jù)構(gòu)建初始語(yǔ)音合成模型,所述訓(xùn)練數(shù)據(jù)包 括文本數(shù)據(jù)及與所述文本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音數(shù)據(jù);
[0035] 增強(qiáng)模型建立模塊,用于建立增強(qiáng)模型,所述增強(qiáng)模型用于模擬所述初始語(yǔ)音合 成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系;
[0036] 接收模塊,用于接收待合成文本;
[0037] 參數(shù)生成模塊,用于根據(jù)所述初始語(yǔ)音合成模型和所述增強(qiáng)模型生成對(duì)應(yīng)所述待 合成文本的合成語(yǔ)音參數(shù);
[0038] 合成模塊,用于利用所述合成語(yǔ)音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。
[0039] 優(yōu)選地,所述增強(qiáng)模型建立模塊包括:
[0040] 合成語(yǔ)音參數(shù)生成單元,用于根據(jù)所述初始語(yǔ)音合成模型生成所有訓(xùn)練數(shù)據(jù)的合 成語(yǔ)音參數(shù);
[0041] 自然語(yǔ)音參數(shù)提取單元,用于提取所有訓(xùn)練數(shù)據(jù)的自然語(yǔ)音參數(shù);
[0042] 拓?fù)浣Y(jié)構(gòu)確定單元,用于確定增強(qiáng)模型的拓?fù)浣Y(jié)構(gòu);
[0043] 訓(xùn)練單元,用于將對(duì)應(yīng)所述訓(xùn)練數(shù)據(jù)的合成語(yǔ)音參數(shù)和自然語(yǔ)音參數(shù)的數(shù)據(jù)對(duì)作 為訓(xùn)練集合,根據(jù)所述拓?fù)浣Y(jié)構(gòu)進(jìn)行參數(shù)訓(xùn)練,得到增強(qiáng)模型。
[0044] 優(yōu)選地,所述初始語(yǔ)音合成模型包括:時(shí)長(zhǎng)模型、頻譜模型、基頻模型;所述參數(shù) 生成模塊包括:
[0045] 模型增強(qiáng)單元,用于根據(jù)所述增強(qiáng)模型對(duì)所述初始語(yǔ)音合成模型中的頻譜模型和 /或基頻模型進(jìn)行增強(qiáng)處理,得到增強(qiáng)的頻譜模型和/或基頻模型;
[0046] 增強(qiáng)語(yǔ)音參數(shù)生成單元,用于利用所述增強(qiáng)的頻譜模型和/或基頻模型生成對(duì)應(yīng) 所述待合成文本的頻譜參數(shù)和/或基頻參數(shù);
[0047] 初始語(yǔ)音參數(shù)生成單元,用于利用所述初始語(yǔ)音合成模型生成對(duì)應(yīng)所述待合成文 本的除頻譜模型和/或基頻模型之外的其它語(yǔ)音參數(shù)。
[0048] 優(yōu)選地,所述模型增強(qiáng)單元包括:
[0049] 模型參數(shù)獲取單元,用于從所述初始語(yǔ)音合成模型中獲取頻譜模型和/或基頻模 型的模型參數(shù);
[0050] 模型參數(shù)增強(qiáng)單元,用于利用所述增強(qiáng)模型對(duì)所述模型參數(shù)進(jìn)行增強(qiáng)處理,得到 增強(qiáng)后的模型參數(shù);
[0051] 增強(qiáng)模型生成單元,用于將增強(qiáng)后的模型參數(shù)替代對(duì)應(yīng)的頻譜模型和/或基頻模 型的模型參數(shù),得到增強(qiáng)的頻譜模型和/或基頻模型。
[0052] 優(yōu)選地,所述初始語(yǔ)音合成模型包括:時(shí)長(zhǎng)模型、頻譜模型、基頻模型;
[0053] 所述參數(shù)生成模塊包括:
[0054] 初始語(yǔ)音參數(shù)生成單元,用于利用所述初始語(yǔ)音合成模型分別生成對(duì)應(yīng)所述待合 成文本的時(shí)長(zhǎng)參數(shù)、頻譜參數(shù)和基頻參數(shù);
[0055] 參數(shù)增強(qiáng)單元,用于利用所述增強(qiáng)模型對(duì)所述頻譜參數(shù)和/或基頻參數(shù)進(jìn)行增強(qiáng) 處理,得到增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù),并將所述增強(qiáng)后的頻譜參數(shù)和/或基頻參數(shù) 作為合成語(yǔ)音時(shí)對(duì)應(yīng)所述待合成文本的頻譜參數(shù)和/或基頻參數(shù)。
[0056] 本發(fā)明實(shí)施例提供的實(shí)現(xiàn)合成語(yǔ)音增強(qiáng)的方法及系統(tǒng),基于統(tǒng)計(jì)的方法構(gòu)建用于 模擬傳統(tǒng)語(yǔ)音合成模型生成的合成語(yǔ)音參數(shù)與自然語(yǔ)音參數(shù)的映射關(guān)系的增強(qiáng)模型,然后 利用該增強(qiáng)模型及傳統(tǒng)語(yǔ)音合成模型生成對(duì)應(yīng)待合成文本的合成語(yǔ)音參數(shù),進(jìn)而利用所述 合成語(yǔ)音參數(shù)生成連續(xù)語(yǔ)音信號(hào)。本發(fā)明實(shí)施例的方案以自然聲學(xué)參數(shù)作為指導(dǎo),因此可 以對(duì)不同發(fā)音人、以及同一發(fā)音人發(fā)不同音時(shí)聲學(xué)參數(shù)的細(xì)節(jié)特征有較強(qiáng)的把握,可以抓 住特定發(fā)音人的特性,使合成語(yǔ)音增強(qiáng)的效果更好。
【附
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1