語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì)與流程

文檔序號：40441281發(fā)布日期：2024-12-24 15:15閱讀：16來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì)與流程

本發(fā)明屬于語音合成，尤其涉及語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì)。

背景技術(shù)：

1、相關(guān)技術(shù)中，之前尚未有投機(jī)解碼策略在語音生成領(lǐng)域的應(yīng)用，較相關(guān)的是如下自回歸語音生成模型的推理加速方式：（1）運(yùn)用低比特率聲學(xué)編碼，縮短離散語音序列，加速推理；（2）運(yùn)用聲學(xué)bpe（byte-pair?encoding，字節(jié)對編碼技術(shù)），縮短離散語音序列，加速推理；（3）vall-e?2（vall-e的基礎(chǔ)上進(jìn)行采樣策略改進(jìn)以及用合并編碼訓(xùn)練降低訓(xùn)練時離散語音編碼比特率的優(yōu)化方案，其中，vall-e是一種結(jié)合自回歸和非自回歸離散語音語言模型的語音生成架構(gòu)）中直接運(yùn)用合并離散語音編碼的方法，加速推理。其中，低比特率聲學(xué)編碼為應(yīng)用新型技術(shù)將語音壓縮至更低比特率的離散表征內(nèi)，致使等長的語音可以有更短的離散序列表征，從而在自回歸推理時減少推理步驟，達(dá)到加速效果；聲學(xué)bpe和vall-e?2中均為將原離散編碼先合并為新的編碼形式，自回歸推理新編碼，再通過簡單的解碼步驟還原為原編碼，這樣也減少了自回歸推理步驟。

2、發(fā)明人發(fā)現(xiàn)，這些技術(shù)改變了訓(xùn)練策略，對模型本身有較大的改動，可能影響語音合成的質(zhì)量以及增加不穩(wěn)定性。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例提供一種語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì)，用于至少解決上述技術(shù)問題之一。

2、第一方面，本發(fā)明實(shí)施例提供一種語音合成系統(tǒng)的改進(jìn)方法，用于vall-e模型，包括：在所述vall-e模型的基礎(chǔ)上，結(jié)合高級投機(jī)解碼策略和寬容機(jī)制，運(yùn)用多個預(yù)測頭預(yù)測更多的標(biāo)記，其中，所述高級投機(jī)解碼策略包括基于自回歸transformer模型的有效無損投機(jī)解碼方法；以及通過驗(yàn)證機(jī)制保證推理采樣與所述vall-e模型一致。

3、第二方面，本發(fā)明實(shí)施例還提供一種計算機(jī)程序產(chǎn)品，所述計算機(jī)程序產(chǎn)品包括存儲在非易失性計算機(jī)可讀存儲介質(zhì)上的計算機(jī)程序，所述計算機(jī)程序包括程序指令，當(dāng)所述程序指令被計算機(jī)執(zhí)行時，使所述計算機(jī)執(zhí)行本發(fā)明任一實(shí)施例的語音合成系統(tǒng)的改進(jìn)系統(tǒng)的訓(xùn)練方法的步驟。

4、第三方面，本發(fā)明實(shí)施例還提供一種電子設(shè)備，其包括：至少一個處理器，以及與所述至少一個處理器通信連接的存儲器，其中，所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行第一方面所述方法的步驟。

5、第四方面，本發(fā)明實(shí)施例還提供一種存儲介質(zhì)，其上存儲有計算機(jī)程序，其特征在于，所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)第一方面所述方法的步驟。

6、本申請實(shí)施例在總體上完整的保留了原有的vall-e模型，結(jié)合“medusa”投機(jī)采樣以及寬容機(jī)制，運(yùn)用更多個預(yù)測頭預(yù)測更多的token，再通過驗(yàn)證機(jī)制保證推理采樣與原模型一致。這樣可以保證原有的模型性能，并通過多頭預(yù)測更遠(yuǎn)的token實(shí)現(xiàn)一種類束搜索的效果，優(yōu)化了模型的穩(wěn)定性和生成效果?！皩捜荨睓C(jī)制的提出，使更多預(yù)測頭的結(jié)果可以被接受，顯著增強(qiáng)了加速效果，同時提升了語音生成性能。

技術(shù)特征：

1.一種語音合成系統(tǒng)的改進(jìn)方法，用于vall-e模型，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述高級投機(jī)解碼策略包括：

3.根據(jù)權(quán)利要求1所述的方法，其中，所述包括：

4.根據(jù)權(quán)利要求1所述的方法，其中，所述寬容機(jī)制包括：當(dāng)寬容度為2時，自回歸頭在核采樣過程中進(jìn)行兩次多項(xiàng)式采樣。

5.根據(jù)權(quán)利要求1所述的方法，其中，所述通過驗(yàn)證機(jī)制保證推理采樣與所述vall-e模型一致包括：

6.一種電子設(shè)備，其包括：至少一個處理器，以及與所述至少一個處理器通信連接的存儲器，其中，所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行權(quán)利要求1-5中任一項(xiàng)所述方法的步驟。

7.一種存儲介質(zhì)，其上存儲有計算機(jī)程序，其特征在于，所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-5中任一項(xiàng)所述方法的步驟。

技術(shù)總結(jié)
本申請實(shí)施例公開語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì)，其中，方法用于VALL?E模型，包括：在所述VALL?E模型的基礎(chǔ)上，結(jié)合高級投機(jī)解碼策略和寬容機(jī)制，運(yùn)用多個預(yù)測頭預(yù)測更多的標(biāo)記，其中，所述高級投機(jī)解碼策略包括基于自回歸Transformer模型的有效無損投機(jī)解碼方法；通過驗(yàn)證機(jī)制保證推理采樣與所述VALL?E模型一致。本申請實(shí)施例在總體上完整的保留了原有的VALL?E模型，結(jié)合投機(jī)采樣以及寬容機(jī)制，運(yùn)用更多預(yù)測頭預(yù)測更多token，再通過驗(yàn)證機(jī)制保證推理采樣與原模型一致。這樣可以保證原有的模型性能，并通過多頭預(yù)測更遠(yuǎn)的token，優(yōu)化了模型的穩(wěn)定性和生成效果?！皩捜荨睓C(jī)制的提出，使更多預(yù)測頭的結(jié)果被接受，顯著增強(qiáng)了加速效果，同時提升了語音生成性能。

技術(shù)研發(fā)人員：俞凱,李波含,王翰坤,張思拓,郭奕瑋
受保護(hù)的技術(shù)使用者：思必馳科技股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：俞凱,李波含,王翰坤,張思拓,郭奕瑋
技術(shù)所有人：思必馳科技股份有限公司
我是此專利的發(fā)明人

上一篇：一種便攜式文物保護(hù)輔助規(guī)劃設(shè)備的制作方法
上一篇：一種襯里壓力容器用卸料裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì)與流程

語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì)與流程