基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法、裝置、電子設(shè)備及介質(zhì)與流程

文檔序號(hào)：40382263發(fā)布日期：2024-12-20 12:04閱讀：17來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法、裝置、電子設(shè)備及介質(zhì)與流程

本技術(shù)涉及數(shù)據(jù)處理，尤其涉及一種基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法、裝置、電子設(shè)備及介質(zhì)。

背景技術(shù)：

1、語(yǔ)音生成模型的發(fā)展歷史悠久，目前的語(yǔ)音生成模型通過(guò)在時(shí)域上對(duì)語(yǔ)音波形進(jìn)行自回歸建模，使用擴(kuò)張卷積來(lái)擴(kuò)大感受野，從而捕獲長(zhǎng)距離的依賴關(guān)系。然而，隨著技術(shù)的進(jìn)步，現(xiàn)有的基于轉(zhuǎn)置卷積進(jìn)行上采樣的模型也暴露出了一些缺點(diǎn)。

2、當(dāng)前的基于轉(zhuǎn)置卷積進(jìn)行上采樣的模型會(huì)造成信號(hào)混疊，混疊是在信號(hào)采樣和重構(gòu)過(guò)程中常見(jiàn)的問(wèn)題，會(huì)引起誤差和失真?；殳B的主要原因是信號(hào)抽樣頻率不足以滿足奈奎斯特-香農(nóng)采樣定理，即抽樣頻率應(yīng)至少是信號(hào)最高頻率的兩倍。如果抽樣頻率低于這個(gè)臨界值，就會(huì)出現(xiàn)頻率混疊?；殳B會(huì)導(dǎo)致高頻成分錯(cuò)誤地映射到低頻區(qū)域，從而引起信號(hào)失真。這種現(xiàn)象在語(yǔ)音生成中會(huì)導(dǎo)致音質(zhì)下降，吐字不清，嚴(yán)重影響語(yǔ)音的自然度和可懂度。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例的主要目的在于提出一種基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法、裝置、電子設(shè)備及介質(zhì)，能夠避免出現(xiàn)信號(hào)混疊，提高生成語(yǔ)音的音質(zhì)。

2、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第一方面提出了一種基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法，所述網(wǎng)絡(luò)模型包括多個(gè)卷積塊；所述方法包括：

3、獲取待處理語(yǔ)音信號(hào)；

4、對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀操作，得到多個(gè)語(yǔ)音幀；

5、對(duì)于每個(gè)所述語(yǔ)音幀，通過(guò)網(wǎng)絡(luò)模型對(duì)所述語(yǔ)音幀進(jìn)行特征提取，得到譜特征，并確定所述譜特征對(duì)應(yīng)的特征維度；

6、將所述譜特征輸入所述卷積塊，以使所述卷積塊基于所述特征維度對(duì)所述譜特征進(jìn)行特征變換，輸出短時(shí)傅里葉變換系數(shù)；

7、對(duì)所述短時(shí)傅里葉變換系數(shù)進(jìn)行逆傅里葉變換，得到目標(biāo)語(yǔ)音波形。

8、在一些實(shí)施例中，所述將所述譜特征輸入所述卷積塊，以使所述卷積塊基于所述特征維度對(duì)所述譜特征進(jìn)行特征變換，輸出短時(shí)傅里葉變換系數(shù)，包括：

9、將所述譜特征輸入所述卷積塊，以使所述卷積塊基于所述特征維度對(duì)所述譜特征進(jìn)行特征變換，輸出卷積特征；

10、通過(guò)預(yù)設(shè)的卷積層對(duì)所述卷積特征進(jìn)行特征分割，輸出幅度譜和相位譜；

11、根據(jù)所述幅度譜和所述相位譜生成短時(shí)傅里葉變換系數(shù)。

12、在一些實(shí)施例中，所述卷積塊包括分離卷積層、卷積層和聚合卷積層；所述將所述譜特征輸入所述卷積塊，以使所述卷積塊基于所述特征維度對(duì)所述譜特征進(jìn)行特征變換，輸出卷積特征，包括：

13、將所述譜特征輸入所述卷積塊，以通過(guò)所述分離卷積層對(duì)所述卷積特征進(jìn)行分離卷積操作，得到第一特征圖；

14、通過(guò)所述卷積層對(duì)所述第一特征圖進(jìn)行特征捕捉操作，得到第二特征圖；

15、通過(guò)所述聚合卷積層對(duì)所述第一特征圖和所述第二特征圖進(jìn)行特征聚合，輸出與所述特征維度相同的卷積特征。

16、在一些實(shí)施例中，所述對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀操作，得到多個(gè)語(yǔ)音幀，包括：

17、按照預(yù)設(shè)的幀長(zhǎng)以及預(yù)設(shè)的幀移對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀操作，得到多個(gè)分割語(yǔ)音幀；

18、對(duì)于每個(gè)所述分割語(yǔ)音幀，通過(guò)預(yù)設(shè)的窗函數(shù)對(duì)所述分割語(yǔ)音幀的幀邊界進(jìn)行加窗操作，得到多個(gè)語(yǔ)音幀。

19、在一些實(shí)施例中，所述通過(guò)網(wǎng)絡(luò)模型對(duì)所述語(yǔ)音幀進(jìn)行特征提取，得到譜特征，包括：

20、對(duì)于每個(gè)所述語(yǔ)音幀，通過(guò)網(wǎng)絡(luò)模型對(duì)所述語(yǔ)音幀進(jìn)行傅里葉變換，得到頻譜表示；

21、對(duì)所有所述頻譜表示進(jìn)行組合，得到頻譜圖；

22、對(duì)所述頻譜圖進(jìn)行系數(shù)提取，得到梅爾頻率倒譜系數(shù)；

23、對(duì)所述頻譜圖進(jìn)行能量提取，得到頻譜能量；

24、根據(jù)所述頻譜圖對(duì)所述頻譜表示進(jìn)行加權(quán)平均操作，得到頻譜質(zhì)心；

25、根據(jù)所述梅爾頻率倒譜系數(shù)、所述頻譜能量以及所述頻譜質(zhì)心得到譜特征。

26、在一些實(shí)施例中，所述對(duì)所述短時(shí)傅里葉變換系數(shù)進(jìn)行逆傅里葉變換，得到目標(biāo)語(yǔ)音波形,包括：

27、對(duì)于每一個(gè)所述語(yǔ)音幀的短時(shí)傅里葉變換系數(shù)，通過(guò)逆短時(shí)傅里葉變換對(duì)所述短時(shí)傅里葉變換系數(shù)進(jìn)行波形恢復(fù)，得到信號(hào)片段；

28、對(duì)所有所述信號(hào)片段進(jìn)行疊加，得到目標(biāo)語(yǔ)音波形。

29、在一些實(shí)施例中，在對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀操作，得到多個(gè)語(yǔ)音幀之前，所述方法還包括：

30、對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行去噪操作，并對(duì)去噪操作后的待處理語(yǔ)音信號(hào)進(jìn)行語(yǔ)音增強(qiáng)；

31、對(duì)語(yǔ)音增強(qiáng)后的待處理語(yǔ)音信號(hào)進(jìn)行歸一化處理。

32、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第二方面提出了一種基于網(wǎng)絡(luò)模型的語(yǔ)音生成裝置，所述網(wǎng)絡(luò)模型包括多個(gè)卷積塊；所述裝置包括：

33、信號(hào)獲取模塊，用于獲取待處理語(yǔ)音信號(hào)；

34、信號(hào)分幀模塊，用于對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀操作，得到多個(gè)語(yǔ)音幀；

35、特征提取模塊，用于對(duì)于每個(gè)所述語(yǔ)音幀，通過(guò)網(wǎng)絡(luò)模型對(duì)所述語(yǔ)音幀進(jìn)行特征提取，得到譜特征，并確定所述譜特征對(duì)應(yīng)的特征維度；

36、特征變換模塊，用于將所述譜特征輸入所述卷積塊，以使所述卷積塊基于所述特征維度對(duì)所述譜特征進(jìn)行特征變換，輸出短時(shí)傅里葉變換系數(shù)；

37、逆傅里葉變換模塊，用于對(duì)所述短時(shí)傅里葉變換系數(shù)進(jìn)行逆傅里葉變換，得到目標(biāo)語(yǔ)音波形。

38、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備，一種電子設(shè)備，所述電子設(shè)備包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如第一方面所述的基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法。

39、為實(shí)現(xiàn)上述目的，本技術(shù)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法。

40、本技術(shù)提出的基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),首先，獲取待處理語(yǔ)音信號(hào)，由于待處理語(yǔ)音信號(hào)是非平穩(wěn)的，本技術(shù)實(shí)施例會(huì)對(duì)待處理語(yǔ)音信號(hào)進(jìn)行分幀操作，得到多個(gè)語(yǔ)音幀，能夠?qū)⑦B續(xù)信號(hào)處理分割為多個(gè)獨(dú)立幀，提高后續(xù)頻譜分析的準(zhǔn)確性，對(duì)于每個(gè)語(yǔ)音幀，通過(guò)網(wǎng)絡(luò)模型對(duì)語(yǔ)音幀進(jìn)行特征提取，從而能夠確定語(yǔ)音幀在不同時(shí)間點(diǎn)和頻率上的能量分布，得到譜特征，能夠捕捉語(yǔ)音的動(dòng)態(tài)變化和節(jié)奏信息，并確定譜特征對(duì)應(yīng)的特征維度，之后，將譜特征輸入卷積塊，以使卷積塊基于特征維度對(duì)譜特征進(jìn)行特征變換，從而確保每個(gè)輸入卷積塊的譜特征的特征維度與輸出的維度保持一致，進(jìn)一步保證輸入譜特征的時(shí)間分辨率，輸出短時(shí)傅里葉變換系數(shù)，從而能夠得到待處理語(yǔ)音信號(hào)在不同頻率下的強(qiáng)度和能量分布，同時(shí)能夠得到待處理語(yǔ)音信號(hào)中各個(gè)頻率分量的相位信息，最后，對(duì)短時(shí)傅里葉變換系數(shù)進(jìn)行逆傅里葉變換，得到目標(biāo)語(yǔ)音波形，從而避免信號(hào)混疊導(dǎo)致的語(yǔ)音吐字不清，提高生成語(yǔ)音的音質(zhì)。本技術(shù)實(shí)施例不在時(shí)間維度上做變換，通過(guò)計(jì)算輸入特征的短時(shí)傅里葉變換系數(shù)來(lái)恢復(fù)波形，減少了當(dāng)前波形處理過(guò)程中大量的上采樣計(jì)算，也降低了整個(gè)模型的參數(shù)。并且避免了上采樣過(guò)程中可能會(huì)出現(xiàn)的混疊現(xiàn)象。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：石巖,馬駿,王少軍
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：一種家居綠化裝置的制作方法
上一篇：一種新型孔網(wǎng)鋼帶復(fù)合管生產(chǎn)用熱熔封口設(shè)備的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法、裝置、電子設(shè)備及介質(zhì)與流程

基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法、裝置、電子設(shè)備及介質(zhì)與流程