亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì)與流程

文檔序號:40441281發(fā)布日期:2024-12-24 15:15閱讀:16來源:國知局
語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì)與流程

本發(fā)明屬于語音合成,尤其涉及語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì)。


背景技術(shù):

1、相關(guān)技術(shù)中,之前尚未有投機(jī)解碼策略在語音生成領(lǐng)域的應(yīng)用,較相關(guān)的是如下自回歸語音生成模型的推理加速方式:(1)運(yùn)用低比特率聲學(xué)編碼,縮短離散語音序列,加速推理;(2)運(yùn)用聲學(xué)bpe(byte-pair?encoding,字節(jié)對編碼技術(shù)),縮短離散語音序列,加速推理;(3)vall-e?2(vall-e的基礎(chǔ)上進(jìn)行采樣策略改進(jìn)以及用合并編碼訓(xùn)練降低訓(xùn)練時離散語音編碼比特率的優(yōu)化方案,其中,vall-e是一種結(jié)合自回歸和非自回歸離散語音語言模型的語音生成架構(gòu))中直接運(yùn)用合并離散語音編碼的方法,加速推理。其中,低比特率聲學(xué)編碼為應(yīng)用新型技術(shù)將語音壓縮至更低比特率的離散表征內(nèi),致使等長的語音可以有更短的離散序列表征,從而在自回歸推理時減少推理步驟,達(dá)到加速效果;聲學(xué)bpe和vall-e?2中均為將原離散編碼先合并為新的編碼形式,自回歸推理新編碼,再通過簡單的解碼步驟還原為原編碼,這樣也減少了自回歸推理步驟。

2、發(fā)明人發(fā)現(xiàn),這些技術(shù)改變了訓(xùn)練策略,對模型本身有較大的改動,可能影響語音合成的質(zhì)量以及增加不穩(wěn)定性。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例提供一種語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì),用于至少解決上述技術(shù)問題之一。

2、第一方面,本發(fā)明實(shí)施例提供一種語音合成系統(tǒng)的改進(jìn)方法,用于vall-e模型,包括:在所述vall-e模型的基礎(chǔ)上,結(jié)合高級投機(jī)解碼策略和寬容機(jī)制,運(yùn)用多個預(yù)測頭預(yù)測更多的標(biāo)記,其中,所述高級投機(jī)解碼策略包括基于自回歸transformer模型的有效無損投機(jī)解碼方法;以及通過驗(yàn)證機(jī)制保證推理采樣與所述vall-e模型一致。

3、第二方面,本發(fā)明實(shí)施例還提供一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括存儲在非易失性計算機(jī)可讀存儲介質(zhì)上的計算機(jī)程序,所述計算機(jī)程序包括程序指令,當(dāng)所述程序指令被計算機(jī)執(zhí)行時,使所述計算機(jī)執(zhí)行本發(fā)明任一實(shí)施例的語音合成系統(tǒng)的改進(jìn)系統(tǒng)的訓(xùn)練方法的步驟。

4、第三方面,本發(fā)明實(shí)施例還提供一種電子設(shè)備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行第一方面所述方法的步驟。

5、第四方面,本發(fā)明實(shí)施例還提供一種存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)第一方面所述方法的步驟。

6、本申請實(shí)施例在總體上完整的保留了原有的vall-e模型,結(jié)合“medusa”投機(jī)采樣以及寬容機(jī)制,運(yùn)用更多個預(yù)測頭預(yù)測更多的token,再通過驗(yàn)證機(jī)制保證推理采樣與原模型一致。這樣可以保證原有的模型性能,并通過多頭預(yù)測更遠(yuǎn)的token實(shí)現(xiàn)一種類束搜索的效果,優(yōu)化了模型的穩(wěn)定性和生成效果?!皩捜荨睓C(jī)制的提出,使更多預(yù)測頭的結(jié)果可以被接受,顯著增強(qiáng)了加速效果,同時提升了語音生成性能。



技術(shù)特征:

1.一種語音合成系統(tǒng)的改進(jìn)方法,用于vall-e模型,包括:

2.根據(jù)權(quán)利要求1所述的方法,其中,所述高級投機(jī)解碼策略包括:

3.根據(jù)權(quán)利要求1所述的方法,其中,所述包括:

4.根據(jù)權(quán)利要求1所述的方法,其中,所述寬容機(jī)制包括:當(dāng)寬容度為2時,自回歸頭在核采樣過程中進(jìn)行兩次多項(xiàng)式采樣。

5.根據(jù)權(quán)利要求1所述的方法,其中,所述通過驗(yàn)證機(jī)制保證推理采樣與所述vall-e模型一致包括:

6.一種電子設(shè)備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行權(quán)利要求1-5中任一項(xiàng)所述方法的步驟。

7.一種存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1-5中任一項(xiàng)所述方法的步驟。


技術(shù)總結(jié)
本申請實(shí)施例公開語音合成系統(tǒng)的改進(jìn)方法、電子設(shè)備和存儲介質(zhì),其中,方法用于VALL?E模型,包括:在所述VALL?E模型的基礎(chǔ)上,結(jié)合高級投機(jī)解碼策略和寬容機(jī)制,運(yùn)用多個預(yù)測頭預(yù)測更多的標(biāo)記,其中,所述高級投機(jī)解碼策略包括基于自回歸Transformer模型的有效無損投機(jī)解碼方法;通過驗(yàn)證機(jī)制保證推理采樣與所述VALL?E模型一致。本申請實(shí)施例在總體上完整的保留了原有的VALL?E模型,結(jié)合投機(jī)采樣以及寬容機(jī)制,運(yùn)用更多預(yù)測頭預(yù)測更多token,再通過驗(yàn)證機(jī)制保證推理采樣與原模型一致。這樣可以保證原有的模型性能,并通過多頭預(yù)測更遠(yuǎn)的token,優(yōu)化了模型的穩(wěn)定性和生成效果?!皩捜荨睓C(jī)制的提出,使更多預(yù)測頭的結(jié)果被接受,顯著增強(qiáng)了加速效果,同時提升了語音生成性能。

技術(shù)研發(fā)人員:俞凱,李波含,王翰坤,張思拓,郭奕瑋
受保護(hù)的技術(shù)使用者:思必馳科技股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1