一種面向DAS系統(tǒng)的高質(zhì)量音頻生成方法

文檔序號(hào)：40405388發(fā)布日期：2024-12-20 12:29閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>一種面向DAS系統(tǒng)的高質(zhì)量音頻生成方法

技術(shù)特征：

1.一種面向das系統(tǒng)的高質(zhì)量音頻生成方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法，其特征在于，所述s1中，預(yù)處理及特征提取通過(guò)如下子步驟實(shí)現(xiàn)：

3.根據(jù)權(quán)利要求1所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法，其特征在于，所述生成網(wǎng)絡(luò)包括：音高插值模塊、模板生成模塊、下采樣模塊、梅爾頻譜卷積模塊、上采樣模塊、leakyrelu激活函數(shù)、tanh激活函數(shù)；

4.根據(jù)權(quán)利要求1所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法，其特征在于，所述多周期判別器包括：頻譜轉(zhuǎn)化模塊、卷積層、leakyrelu激活函數(shù)；所述頻譜轉(zhuǎn)換模塊用于通過(guò)短時(shí)傅里葉變換將時(shí)間域信號(hào)轉(zhuǎn)換為頻域信號(hào)；所述卷積層包括5個(gè)3×3卷積層，并在每個(gè)卷積層后使用leakyrelu激活函數(shù)，其中初始卷積層用于將輸入的頻譜圖從單通道擴(kuò)展到32通道，保持特征圖的空間維度；中間三個(gè)卷積層用于逐層將特征圖的通道數(shù)保持在32，以逐步減小特征圖的高度，逐層提取更深層次的特征；最后一個(gè)卷積層將輸出的通道數(shù)減少到1，以整合特征；

5.根據(jù)權(quán)利要求1所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法，其特征在于，所述s4中，以d2為訓(xùn)練集訓(xùn)練生成網(wǎng)絡(luò)，具體通過(guò)如下子步驟實(shí)現(xiàn)：

6.根據(jù)權(quán)利要求4所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法，其特征在于，所述s4中，使用判別網(wǎng)絡(luò)對(duì)生成網(wǎng)絡(luò)的生成信號(hào)進(jìn)行判斷，具體如下：

7.根據(jù)權(quán)利要求1所述的面向das系統(tǒng)的高質(zhì)量音頻生成方法，其特征在于，所述s4中，使用損失函數(shù)，對(duì)生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)進(jìn)行優(yōu)化，判斷損失函數(shù)是否小于設(shè)定閾值，若是，則結(jié)束訓(xùn)練，執(zhí)行s5；反之則重復(fù)訓(xùn)練；

8.一種面向das系統(tǒng)的高質(zhì)量音頻生成系統(tǒng)，其特征在于，包括：數(shù)據(jù)采集模塊、預(yù)處理和特征提取模塊、生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)、訓(xùn)練模塊、轉(zhuǎn)換模塊；

9.根據(jù)權(quán)利要求8所述的面向das系統(tǒng)的高質(zhì)量音頻生成系統(tǒng)，其特征在于，所述下采樣模塊包括三個(gè)7×7下采樣卷積層，按順序其膨脹率分別為1、3、5；每個(gè)下采樣卷積層后使用leakyrelu激活函數(shù)；所述梅爾頻譜卷積模塊包括一個(gè)帶權(quán)重歸一化的一維7×7卷積層，填充為3，其輸入的梅爾頻譜特征圖的長(zhǎng)度與輸出的卷積后的梅爾頻譜特征圖的長(zhǎng)度一致；

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種面向DAS系統(tǒng)的高質(zhì)量音頻生成方法，對(duì)低質(zhì)量、高質(zhì)量音頻數(shù)據(jù)進(jìn)行預(yù)處理及特征提取，分別得到集合多個(gè)短時(shí)間幀的音高特征?梅爾頻譜特征數(shù)據(jù)對(duì)的數(shù)據(jù)集D1和D2；構(gòu)建包括多通道輸入的生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的高質(zhì)量音頻生成模型；用D2訓(xùn)練生成網(wǎng)絡(luò)以學(xué)習(xí)高質(zhì)量音頻的先驗(yàn)分布；判別網(wǎng)絡(luò)對(duì)生成網(wǎng)絡(luò)的生成信號(hào)進(jìn)行判斷，若損失函數(shù)小于設(shè)定閾值，則結(jié)束訓(xùn)練，反之則優(yōu)化生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)，重復(fù)訓(xùn)練；再用D1和D2訓(xùn)練高質(zhì)量音頻生成模型；對(duì)待處理的低質(zhì)量音頻進(jìn)行預(yù)處理和特征提取后，輸入訓(xùn)練好的高質(zhì)量音頻生成模型，得到高質(zhì)量音頻。本發(fā)明提高了音頻信號(hào)的空間分辨率和一致性，能夠更精確地進(jìn)行高質(zhì)量音頻的生成。

技術(shù)研發(fā)人員：王憲保,劉豪,鄭雅馀,鐘恩燁,左順文,左亞潔,程寶杭
受保護(hù)的技術(shù)使用者：浙江工業(yè)大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向DAS系統(tǒng)的高質(zhì)量音頻生成方法