本技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法、裝置、電子設(shè)備及介質(zhì)。
背景技術(shù):
1、語(yǔ)音生成模型的發(fā)展歷史悠久,目前的語(yǔ)音生成模型通過(guò)在時(shí)域上對(duì)語(yǔ)音波形進(jìn)行自回歸建模,使用擴(kuò)張卷積來(lái)擴(kuò)大感受野,從而捕獲長(zhǎng)距離的依賴關(guān)系。然而,隨著技術(shù)的進(jìn)步,現(xiàn)有的基于轉(zhuǎn)置卷積進(jìn)行上采樣的模型也暴露出了一些缺點(diǎn)。
2、當(dāng)前的基于轉(zhuǎn)置卷積進(jìn)行上采樣的模型會(huì)造成信號(hào)混疊,混疊是在信號(hào)采樣和重構(gòu)過(guò)程中常見(jiàn)的問(wèn)題,會(huì)引起誤差和失真?;殳B的主要原因是信號(hào)抽樣頻率不足以滿足奈奎斯特-香農(nóng)采樣定理,即抽樣頻率應(yīng)至少是信號(hào)最高頻率的兩倍。如果抽樣頻率低于這個(gè)臨界值,就會(huì)出現(xiàn)頻率混疊?;殳B會(huì)導(dǎo)致高頻成分錯(cuò)誤地映射到低頻區(qū)域,從而引起信號(hào)失真。這種現(xiàn)象在語(yǔ)音生成中會(huì)導(dǎo)致音質(zhì)下降,吐字不清,嚴(yán)重影響語(yǔ)音的自然度和可懂度。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的主要目的在于提出一種基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法、裝置、電子設(shè)備及介質(zhì),能夠避免出現(xiàn)信號(hào)混疊,提高生成語(yǔ)音的音質(zhì)。
2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第一方面提出了一種基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法,所述網(wǎng)絡(luò)模型包括多個(gè)卷積塊;所述方法包括:
3、獲取待處理語(yǔ)音信號(hào);
4、對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀操作,得到多個(gè)語(yǔ)音幀;
5、對(duì)于每個(gè)所述語(yǔ)音幀,通過(guò)網(wǎng)絡(luò)模型對(duì)所述語(yǔ)音幀進(jìn)行特征提取,得到譜特征,并確定所述譜特征對(duì)應(yīng)的特征維度;
6、將所述譜特征輸入所述卷積塊,以使所述卷積塊基于所述特征維度對(duì)所述譜特征進(jìn)行特征變換,輸出短時(shí)傅里葉變換系數(shù);
7、對(duì)所述短時(shí)傅里葉變換系數(shù)進(jìn)行逆傅里葉變換,得到目標(biāo)語(yǔ)音波形。
8、在一些實(shí)施例中,所述將所述譜特征輸入所述卷積塊,以使所述卷積塊基于所述特征維度對(duì)所述譜特征進(jìn)行特征變換,輸出短時(shí)傅里葉變換系數(shù),包括:
9、將所述譜特征輸入所述卷積塊,以使所述卷積塊基于所述特征維度對(duì)所述譜特征進(jìn)行特征變換,輸出卷積特征;
10、通過(guò)預(yù)設(shè)的卷積層對(duì)所述卷積特征進(jìn)行特征分割,輸出幅度譜和相位譜;
11、根據(jù)所述幅度譜和所述相位譜生成短時(shí)傅里葉變換系數(shù)。
12、在一些實(shí)施例中,所述卷積塊包括分離卷積層、卷積層和聚合卷積層;所述將所述譜特征輸入所述卷積塊,以使所述卷積塊基于所述特征維度對(duì)所述譜特征進(jìn)行特征變換,輸出卷積特征,包括:
13、將所述譜特征輸入所述卷積塊,以通過(guò)所述分離卷積層對(duì)所述卷積特征進(jìn)行分離卷積操作,得到第一特征圖;
14、通過(guò)所述卷積層對(duì)所述第一特征圖進(jìn)行特征捕捉操作,得到第二特征圖;
15、通過(guò)所述聚合卷積層對(duì)所述第一特征圖和所述第二特征圖進(jìn)行特征聚合,輸出與所述特征維度相同的卷積特征。
16、在一些實(shí)施例中,所述對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀操作,得到多個(gè)語(yǔ)音幀,包括:
17、按照預(yù)設(shè)的幀長(zhǎng)以及預(yù)設(shè)的幀移對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀操作,得到多個(gè)分割語(yǔ)音幀;
18、對(duì)于每個(gè)所述分割語(yǔ)音幀,通過(guò)預(yù)設(shè)的窗函數(shù)對(duì)所述分割語(yǔ)音幀的幀邊界進(jìn)行加窗操作,得到多個(gè)語(yǔ)音幀。
19、在一些實(shí)施例中,所述通過(guò)網(wǎng)絡(luò)模型對(duì)所述語(yǔ)音幀進(jìn)行特征提取,得到譜特征,包括:
20、對(duì)于每個(gè)所述語(yǔ)音幀,通過(guò)網(wǎng)絡(luò)模型對(duì)所述語(yǔ)音幀進(jìn)行傅里葉變換,得到頻譜表示;
21、對(duì)所有所述頻譜表示進(jìn)行組合,得到頻譜圖;
22、對(duì)所述頻譜圖進(jìn)行系數(shù)提取,得到梅爾頻率倒譜系數(shù);
23、對(duì)所述頻譜圖進(jìn)行能量提取,得到頻譜能量;
24、根據(jù)所述頻譜圖對(duì)所述頻譜表示進(jìn)行加權(quán)平均操作,得到頻譜質(zhì)心;
25、根據(jù)所述梅爾頻率倒譜系數(shù)、所述頻譜能量以及所述頻譜質(zhì)心得到譜特征。
26、在一些實(shí)施例中,所述對(duì)所述短時(shí)傅里葉變換系數(shù)進(jìn)行逆傅里葉變換,得到目標(biāo)語(yǔ)音波形,包括:
27、對(duì)于每一個(gè)所述語(yǔ)音幀的短時(shí)傅里葉變換系數(shù),通過(guò)逆短時(shí)傅里葉變換對(duì)所述短時(shí)傅里葉變換系數(shù)進(jìn)行波形恢復(fù),得到信號(hào)片段;
28、對(duì)所有所述信號(hào)片段進(jìn)行疊加,得到目標(biāo)語(yǔ)音波形。
29、在一些實(shí)施例中,在對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀操作,得到多個(gè)語(yǔ)音幀之前,所述方法還包括:
30、對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行去噪操作,并對(duì)去噪操作后的待處理語(yǔ)音信號(hào)進(jìn)行語(yǔ)音增強(qiáng);
31、對(duì)語(yǔ)音增強(qiáng)后的待處理語(yǔ)音信號(hào)進(jìn)行歸一化處理。
32、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第二方面提出了一種基于網(wǎng)絡(luò)模型的語(yǔ)音生成裝置,所述網(wǎng)絡(luò)模型包括多個(gè)卷積塊;所述裝置包括:
33、信號(hào)獲取模塊,用于獲取待處理語(yǔ)音信號(hào);
34、信號(hào)分幀模塊,用于對(duì)所述待處理語(yǔ)音信號(hào)進(jìn)行分幀操作,得到多個(gè)語(yǔ)音幀;
35、特征提取模塊,用于對(duì)于每個(gè)所述語(yǔ)音幀,通過(guò)網(wǎng)絡(luò)模型對(duì)所述語(yǔ)音幀進(jìn)行特征提取,得到譜特征,并確定所述譜特征對(duì)應(yīng)的特征維度;
36、特征變換模塊,用于將所述譜特征輸入所述卷積塊,以使所述卷積塊基于所述特征維度對(duì)所述譜特征進(jìn)行特征變換,輸出短時(shí)傅里葉變換系數(shù);
37、逆傅里葉變換模塊,用于對(duì)所述短時(shí)傅里葉變換系數(shù)進(jìn)行逆傅里葉變換,得到目標(biāo)語(yǔ)音波形。
38、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備,一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如第一方面所述的基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法。
39、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法。
40、本技術(shù)提出的基于網(wǎng)絡(luò)模型的語(yǔ)音生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),首先,獲取待處理語(yǔ)音信號(hào),由于待處理語(yǔ)音信號(hào)是非平穩(wěn)的,本技術(shù)實(shí)施例會(huì)對(duì)待處理語(yǔ)音信號(hào)進(jìn)行分幀操作,得到多個(gè)語(yǔ)音幀,能夠?qū)⑦B續(xù)信號(hào)處理分割為多個(gè)獨(dú)立幀,提高后續(xù)頻譜分析的準(zhǔn)確性,對(duì)于每個(gè)語(yǔ)音幀,通過(guò)網(wǎng)絡(luò)模型對(duì)語(yǔ)音幀進(jìn)行特征提取,從而能夠確定語(yǔ)音幀在不同時(shí)間點(diǎn)和頻率上的能量分布,得到譜特征,能夠捕捉語(yǔ)音的動(dòng)態(tài)變化和節(jié)奏信息,并確定譜特征對(duì)應(yīng)的特征維度,之后,將譜特征輸入卷積塊,以使卷積塊基于特征維度對(duì)譜特征進(jìn)行特征變換,從而確保每個(gè)輸入卷積塊的譜特征的特征維度與輸出的維度保持一致,進(jìn)一步保證輸入譜特征的時(shí)間分辨率,輸出短時(shí)傅里葉變換系數(shù),從而能夠得到待處理語(yǔ)音信號(hào)在不同頻率下的強(qiáng)度和能量分布,同時(shí)能夠得到待處理語(yǔ)音信號(hào)中各個(gè)頻率分量的相位信息,最后,對(duì)短時(shí)傅里葉變換系數(shù)進(jìn)行逆傅里葉變換,得到目標(biāo)語(yǔ)音波形,從而避免信號(hào)混疊導(dǎo)致的語(yǔ)音吐字不清,提高生成語(yǔ)音的音質(zhì)。本技術(shù)實(shí)施例不在時(shí)間維度上做變換,通過(guò)計(jì)算輸入特征的短時(shí)傅里葉變換系數(shù)來(lái)恢復(fù)波形,減少了當(dāng)前波形處理過(guò)程中大量的上采樣計(jì)算,也降低了整個(gè)模型的參數(shù)。并且避免了上采樣過(guò)程中可能會(huì)出現(xiàn)的混疊現(xiàn)象。