本發(fā)明涉及音頻合成和分析、分布式光纖聲學(xué)傳感領(lǐng)域,尤其涉及一種面向das系統(tǒng)的高質(zhì)量音頻生成方法。
背景技術(shù):
1、分布式聲學(xué)傳感(distributed?acoustic?sensing,以下簡(jiǎn)稱(chēng)das)系統(tǒng)在近年來(lái)得到了廣泛應(yīng)用,通過(guò)在不同位置分布多個(gè)聲學(xué)傳感器,das系統(tǒng)能夠?qū)Νh(huán)境聲音進(jìn)行全面監(jiān)測(cè)。然而,das系統(tǒng)采集到的音頻數(shù)據(jù)質(zhì)量參差不齊,通常受到環(huán)境噪聲、傳感器質(zhì)量和安裝位置等因素的影響,導(dǎo)致音頻信號(hào)存在大量噪聲和失真。這種低質(zhì)量的音頻數(shù)據(jù)在后續(xù)處理和應(yīng)用中面臨諸多挑戰(zhàn),尤其是在需要高質(zhì)量音頻輸入的場(chǎng)景中,其表現(xiàn)尤為不理想。高質(zhì)量音頻意味著音頻中的信號(hào)強(qiáng)度大于噪聲強(qiáng)度且失真度較低,聽(tīng)覺(jué)上感受良好。
2、傳統(tǒng)的音頻處理方法依賴(lài)于大量的人工干預(yù)和復(fù)雜的預(yù)處理步驟,包括降噪、信號(hào)增強(qiáng)和特征提取等,這些方法不僅耗時(shí)費(fèi)力,而且難以保證處理效果的一致性。尤其是在面對(duì)低質(zhì)量音頻數(shù)據(jù)時(shí),這些傳統(tǒng)方法的局限性更加明顯,無(wú)法有效提升音頻的整體質(zhì)量。另一方面,現(xiàn)有的一些機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法在音頻處理領(lǐng)域取得了一定進(jìn)展,但這些方法通常需要大量高質(zhì)量的音頻數(shù)據(jù)進(jìn)行訓(xùn)練,從數(shù)據(jù)中學(xué)習(xí)到清晰和準(zhǔn)確的音頻特征,在音頻處理領(lǐng)域,收集大量高質(zhì)量的音頻數(shù)據(jù)是一個(gè)耗時(shí)且成本高昂的過(guò)程,且這些方法對(duì)于低質(zhì)量音頻數(shù)據(jù)的處理效果仍有待提高。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出一種面向das系統(tǒng)的高質(zhì)量音頻生成方法。
2、具體技術(shù)方案如下:
3、一種面向das系統(tǒng)的高質(zhì)量音頻生成方法,包括以下步驟:
4、s1:針對(duì)das系統(tǒng)的多個(gè)光纖點(diǎn)進(jìn)行數(shù)據(jù)采集和處理得到低質(zhì)量音頻數(shù)據(jù),對(duì)其進(jìn)行預(yù)處理及特征提取,得到多個(gè)短時(shí)間幀的音高特征-梅爾頻譜特征數(shù)據(jù)對(duì),集合得到數(shù)據(jù)集d1;
5、s2:獲取高質(zhì)量音頻數(shù)據(jù),采用s1的方法對(duì)其進(jìn)行預(yù)處理及特征提取,得到數(shù)據(jù)集d2;
6、s3:根據(jù)d2提取出的聲音特征,構(gòu)建高質(zhì)量音頻生成模型,高質(zhì)量音頻生成模型包括多通道輸入的生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò);所述生成網(wǎng)絡(luò)根據(jù)線(xiàn)性插值函數(shù)和音高特征-梅爾頻譜特征數(shù)據(jù)對(duì)得到與梅爾頻譜特征長(zhǎng)度匹配的音高特征,基于此生成多通道的信號(hào)模板后,進(jìn)行下采樣和上采樣,其中第一層上采樣卷積層的輸入為下采樣模塊的輸出與卷積后的梅爾頻譜特征的拼接結(jié)果,后續(xù)上采樣卷積層的輸入為上一層下采樣卷積層的輸出和上采樣卷積層的輸出的拼接結(jié)果;所述判別網(wǎng)絡(luò)包括用于捕捉音頻信號(hào)的周期性特征的多周期判別器,以及用于在不同頻率上分析音頻信號(hào)細(xì)節(jié)的多分辨率判別器;
7、s4:以d2為訓(xùn)練集訓(xùn)練生成網(wǎng)絡(luò),學(xué)習(xí)高質(zhì)量音頻的先驗(yàn)分布;判別網(wǎng)絡(luò)對(duì)生成網(wǎng)絡(luò)的生成信號(hào)進(jìn)行判斷,并根據(jù)判斷結(jié)果計(jì)算損失函數(shù),對(duì)生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)進(jìn)行優(yōu)化;判斷損失函數(shù)是否小于設(shè)定閾值,若否,則重復(fù)訓(xùn)練過(guò)程;反之,則執(zhí)行s5;
8、s5:以數(shù)據(jù)集d1和d2為訓(xùn)練集,采用s4的方法對(duì)生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,最終得到訓(xùn)練好的高質(zhì)量音頻生成模型;
9、s6:將待處理的低質(zhì)量音頻進(jìn)行預(yù)處理和特征提取后,輸入訓(xùn)練好的高質(zhì)量音頻生成模型,得到高質(zhì)量音頻。
10、進(jìn)一步地,所述s1中,預(yù)處理及特征提取通過(guò)如下子步驟實(shí)現(xiàn):
11、s1.1:對(duì)音頻信號(hào)進(jìn)行幅度標(biāo)準(zhǔn)化,使其具有統(tǒng)一的音量水平;對(duì)音頻信號(hào)進(jìn)行均值歸一化,得到歸一化后的音頻信號(hào)xnorm(n);
12、使用滑動(dòng)窗口法將xnorm(n)分割成多個(gè)短時(shí)間幀,其中,第m個(gè)短時(shí)間幀信號(hào)以xn(m)表示;
13、s1.2:采用改進(jìn)的音高提取算法提取各短時(shí)間幀中音頻信號(hào)的音高特征f0;改進(jìn)的音高提取算法包括語(yǔ)音端點(diǎn)檢測(cè)和高頻信號(hào)增強(qiáng),具體如下:
14、s1.2.1、語(yǔ)音端點(diǎn)檢測(cè):計(jì)算輸入的短時(shí)間幀信號(hào)的短時(shí)能量和零交叉率,再根據(jù)設(shè)定的閾值判斷該短時(shí)間幀信號(hào)是否為音頻信號(hào);
15、第m個(gè)短時(shí)間幀信號(hào)的短時(shí)能量e(m)的表達(dá)式如下:
16、;
17、式中,r表示重疊率,表示第m個(gè)短時(shí)間幀的樣本點(diǎn),n表示第m個(gè)短時(shí)間幀的幀長(zhǎng)度;
18、短時(shí)能量的閾值表達(dá)式為:
19、;
20、式中,ρ是小于1的比例系數(shù),由人為設(shè)定;
21、第m個(gè)短時(shí)間幀信號(hào)的零交叉率z(m)的表達(dá)式如下:
22、;
23、式中,sgn(?)表示符號(hào)函數(shù),如果輸入值為正,則輸出sgn(?)為1;如果輸入值為零或負(fù),則輸出sgn(?)為0;
24、零交叉率的閾值z(mì)threshold由人為設(shè)定;
25、短時(shí)能量的閾值和零交叉率的閾值進(jìn)行端點(diǎn)檢測(cè),若vad(m)為1,則判定第m幀短時(shí)間幀信號(hào)為音頻信號(hào),若vad(m)為0,則判定第m幀短時(shí)間幀信號(hào)為非音頻信號(hào),并將該短時(shí)間幀信號(hào)舍去;端點(diǎn)檢測(cè)的判斷表達(dá)式如下:
26、;
27、s1.2.2、高頻信號(hào)增強(qiáng):對(duì)于通過(guò)語(yǔ)音端點(diǎn)檢測(cè)的音頻信號(hào),使用預(yù)加重濾波器強(qiáng)調(diào)高頻部分,再進(jìn)行自相關(guān)計(jì)算,檢測(cè)信號(hào)中的周期性;根據(jù)自相關(guān)函數(shù)的最大值對(duì)應(yīng)的最佳周期,計(jì)算音高特征f0,表達(dá)式如下:
28、;
29、;
30、;
31、式中,xpe表示預(yù)加重后的音頻信號(hào),α表示預(yù)加重系數(shù);r(τ)表示自相關(guān)函數(shù),τ表示時(shí)間延遲,τbest表示自相關(guān)函數(shù)最大時(shí)對(duì)應(yīng)的最佳周期;
32、s1.3、使用梅爾頻譜表示音高特征f0:對(duì)s1.2.2處理后的音頻信號(hào)進(jìn)行短時(shí)傅里葉變換,并將頻譜映射到梅爾尺度上,得到梅爾頻譜特征,表達(dá)式如下:
33、;
34、;
35、式中,x(f,t)表示在頻率f和時(shí)間t下的短時(shí)傅里葉變換結(jié)果,w[?]表示窗函數(shù),n0表示窗函數(shù)起始位置,表示短時(shí)傅里葉變換的復(fù)指數(shù)項(xiàng);fmel表示梅爾頻譜特征;
36、每個(gè)短時(shí)間幀得到一組f0和梅爾頻譜特征fmel,所有短時(shí)間幀的音高特征-梅爾頻譜特征數(shù)據(jù)對(duì)的集合為數(shù)據(jù)集d1。
37、進(jìn)一步地,所述生成網(wǎng)絡(luò)包括:音高插值模塊、模板生成模塊、下采樣模塊、梅爾頻譜卷積模塊、上采樣模塊、leakyrelu激活函數(shù)、tanh激活函數(shù);
38、所述音高插值模塊的輸入為音高特征-梅爾頻譜特征數(shù)據(jù)對(duì),通過(guò)線(xiàn)性插值函數(shù),基于音高特征f0的時(shí)間索引和f0特征值,在梅爾頻譜圖的時(shí)間索引上進(jìn)行插值,得到與梅爾頻譜特征長(zhǎng)度匹配的音高特征,表達(dá)式如下:
39、;
40、式中,ti為原始音高特征的時(shí)間索引,f0(ti)為時(shí)間索引ti處的f0特征值,tmel為梅爾頻譜圖的時(shí)間索引;
41、所述模板生成模塊用于根據(jù)與梅爾頻譜特征長(zhǎng)度匹配的音高特征生成一個(gè)多通道的信號(hào)模板,表達(dá)式如下:
42、;
43、;
44、式中,ta(t)表示第a通道的信號(hào)模板,a(t)表示振幅,表示第a通道的相位;表示多通道信號(hào)模板的集合,c為通道數(shù),a=1,2,…,c;
45、所述下采樣模塊包括三個(gè)7×7下采樣卷積層,按順序其膨脹率分別為1、3、5;每個(gè)下采樣卷積層后使用leakyrelu激活函數(shù);
46、所述梅爾頻譜卷積模塊包括一個(gè)帶權(quán)重歸一化的一維7×7卷積層,填充為3,其輸入的梅爾頻譜特征的長(zhǎng)度與輸出的卷積后的梅爾頻譜特征的長(zhǎng)度一致;
47、所述上采樣模塊包括一個(gè)膨脹率為1的3×3上采樣卷積層,一個(gè)膨脹率為3的7×7上采樣卷積層,一個(gè)膨脹率為5的11×11上采樣卷積層,并在每個(gè)上采樣卷積層后使用leakyrelu激活函數(shù);第一層上采樣卷積層的輸入為下采樣模塊的輸出與卷積后的梅爾頻譜特征的拼接結(jié)果;
48、相同層的下采樣卷積層和上采樣卷積層通過(guò)拼接層跳越連接,所述拼接層用于將兩個(gè)輸入在通道維度上拼接;拼接層的兩個(gè)輸入分別為對(duì)應(yīng)層數(shù)的下采樣卷積層的輸出、對(duì)應(yīng)層數(shù)的上采樣卷積層的輸出,本層拼接層的輸出作為下一層上采樣卷積層的輸入。
49、進(jìn)一步地,所述多周期判別器包括:頻譜轉(zhuǎn)化模塊、卷積層、leakyrelu激活函數(shù);所述頻譜轉(zhuǎn)換模塊用于通過(guò)短時(shí)傅里葉變換將時(shí)間域信號(hào)轉(zhuǎn)換為頻域信號(hào);所述卷積層包括5個(gè)3×3卷積層,并在每個(gè)卷積層后使用leakyrelu激活函數(shù),其中初始卷積層用于將輸入的頻譜圖從單通道擴(kuò)展到32通道,保持特征圖的空間維度;中間三個(gè)卷積層用于逐層將特征圖的通道數(shù)保持在32,以逐步減小特征圖的高度,逐層提取更深層次的特征;最后一個(gè)卷積層將輸出的通道數(shù)減少到1,以整合特征;
50、所述多分辨率判別器包括:周期處理模塊、卷積層、leakyrelu激活函數(shù);所述周期處理模塊用于根據(jù)周期列表中的周期,使時(shí)間長(zhǎng)度能被設(shè)定的周期整除,以避免信息丟失;此過(guò)程包括反射填充以調(diào)整長(zhǎng)度,并將一維信號(hào)轉(zhuǎn)換為二維格式;卷積層包括5個(gè)5×5卷積層,并在每個(gè)卷積層后使用leakyrelu激活函數(shù),其中初始卷積層,將輸入信號(hào)從單通道擴(kuò)展到64通道,保持特征圖的空間維度;中間三個(gè)卷積層用于逐層將特征圖的通道數(shù)提升到128、256和512,以提取深層次的特征信息;最后一個(gè)卷積層將輸出通道數(shù)減少到1,以整合特征。
51、進(jìn)一步地,所述s4中,以d2為訓(xùn)練集訓(xùn)練生成網(wǎng)絡(luò),具體通過(guò)如下子步驟實(shí)現(xiàn):
52、s4.1.1:根據(jù)d2中的音高特征f0,確定f0的時(shí)間索引,并得到與梅爾頻譜特征長(zhǎng)度匹配的音高特征;使用模板生成模塊,根據(jù)梅爾頻譜特征長(zhǎng)度匹配的音高特征生成一個(gè)多通道的信號(hào)模板;
53、s4.1.2:將多通道的信號(hào)模板進(jìn)行下采樣,每次下采樣后,信號(hào)的長(zhǎng)度減半;
54、s4.1.3:對(duì)梅爾頻譜特征進(jìn)行卷積,將s4.1.2、得到的下采樣后的特征與卷積后的梅爾頻譜特征進(jìn)行拼接,得到拼接后的特征c;
55、s4.1.4:對(duì)特征c進(jìn)行上采樣,在第一層上采樣時(shí),將特征c與第一層上采樣的特征進(jìn)行拼接,作為下一層上采樣的輸入;之后的上采樣階段,將本層上采樣的特征與對(duì)應(yīng)層數(shù)的下采樣的特征進(jìn)行拼接,作為下一層上采樣的輸入;在最后一次上采樣并完成拼接后,使用tanh作為非線(xiàn)性激活函數(shù),將輸出值限制在(-1,1)范圍內(nèi)。
56、進(jìn)一步地,所述s4中,使用判別網(wǎng)絡(luò)對(duì)生成網(wǎng)絡(luò)的生成信號(hào)進(jìn)行判斷,具體如下:
57、多通道的判別網(wǎng)絡(luò)用于同時(shí)處理多個(gè)光纖點(diǎn)的音頻數(shù)據(jù),其輸入原始信號(hào)為:
58、;
59、式中,表示第c個(gè)通道經(jīng)過(guò)生成網(wǎng)絡(luò)的輸出;
60、將生成的音頻信號(hào)和真實(shí)的高質(zhì)量音頻信號(hào)分別輸入到多分辨率判別器中,進(jìn)行判別和特征提取,首先將兩種多通道輸入數(shù)據(jù)分別轉(zhuǎn)換為頻譜圖,然后通過(guò)三個(gè)卷積層和leakyrelu激活函數(shù),最后通過(guò)一個(gè)卷積層并展平輸出;并且根據(jù)設(shè)定的分辨率數(shù)組進(jìn)行重復(fù),針對(duì)不同的分辨率重復(fù)執(zhí)行;表達(dá)式如下:
61、;
62、;
63、;
64、式中,dγ表示多分辨率判別器的第γ個(gè)卷積層,cin_3表示多分辨率判別器的第γ個(gè)卷積層的輸入通道數(shù),cout_3表示多分辨率判別器的第γ個(gè)卷積層的輸出通道數(shù),kγ_3表示多分辨率判別器的第γ個(gè)卷積層卷積核的大小,sγ_3表示多分辨率判別器的第γ個(gè)卷積層的卷積步長(zhǎng);ymrd為多分辨率判別器最后的輸出,根據(jù)ymrd中的第二維度判斷信號(hào)的真實(shí)性,若第二維度中的值為0,則信號(hào)為假,為1,則信號(hào)為真;
65、同時(shí),將生成的音頻信號(hào)和真實(shí)的高質(zhì)量音頻信號(hào)分別輸入到多周期判別器中,進(jìn)行判別和特征提取,輸入數(shù)據(jù)首先根據(jù)判別器的周期性進(jìn)行處理,其中包括對(duì)輸入數(shù)據(jù)進(jìn)行填充以確保其長(zhǎng)度符合周期性;若輸入長(zhǎng)度不是周期peroid的整數(shù)倍,則通過(guò)反射填充計(jì)算所需的填充量npad,表達(dá)式如下:
66、;
67、填充后,輸入數(shù)據(jù)重新排列為二維形式,表達(dá)式如下:
68、;
69、式中,view為調(diào)整維度的函數(shù),x表示填充后的輸入數(shù)據(jù);
70、接著,輸入數(shù)據(jù)通過(guò)三個(gè)卷積層和leakyrelu激活函數(shù)進(jìn)行處理,其表達(dá)式如下:
71、;
72、;
73、式中,dp表示多周期判別器的第p個(gè)卷積層,cin表示多周期判別器的輸入通道數(shù),cout表示多周期判別器的輸出通道數(shù),kp表示多周期判別器的第p個(gè)卷積層卷積核的大小,sp表示多周期判別器的第p個(gè)卷積層的卷積步長(zhǎng);根據(jù)ympd中的第二維度判斷信號(hào)的真實(shí)性,若第二維度中的值為0,則信號(hào)為假,為1,則信號(hào)為真;
74、此過(guò)程由設(shè)定的周期數(shù)組進(jìn)行控制,該過(guò)程重復(fù)執(zhí)行m次,m為周期數(shù)組中的元素個(gè)數(shù);每個(gè)周期的多周期判別器用于捕獲與該周期相對(duì)應(yīng)的時(shí)間序列特征,從而允許網(wǎng)絡(luò)在多個(gè)時(shí)間尺度上分析輸入信號(hào)。
75、進(jìn)一步地,所述s4中,使用損失函數(shù),對(duì)生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)進(jìn)行優(yōu)化,判斷損失函數(shù)是否小于設(shè)定閾值,若是,則結(jié)束訓(xùn)練,執(zhí)行s5;反之則重復(fù)訓(xùn)練;
76、生成網(wǎng)絡(luò)的損失函數(shù)表達(dá)式如下:
77、;
78、式中,w為梅爾頻譜圖損失的權(quán)重,w大于1;lmel為基于梅爾頻譜圖的損失,lenv為基于包絡(luò)的損失;
79、基于梅爾頻譜圖的損失lmel為:
80、;
81、;
82、式中,表示高質(zhì)量音頻信號(hào)的梅爾頻譜圖的第個(gè)尺度的梅爾變換,表示生成網(wǎng)絡(luò)輸出的梅爾頻譜圖的第個(gè)尺度的梅爾變換;為第個(gè)尺度的梅爾頻譜損失,表示平滑l1損失函數(shù);
83、基于包絡(luò)的損失lenv為:
84、;
85、;
86、;
87、式中,y為高質(zhì)量音頻信號(hào),為生成網(wǎng)絡(luò)輸出的信號(hào),e(y)為y的包絡(luò),為的包絡(luò),e(-y)為y的負(fù)信號(hào)的包絡(luò),e(-)為的負(fù)信號(hào)的包絡(luò);表示最大池化函數(shù),表示l1損失函數(shù),計(jì)算兩個(gè)信號(hào)包絡(luò)之間的絕對(duì)差值之和;
88、判別網(wǎng)絡(luò)的損失函數(shù)ldiscriminator將基于多周期判別器的損失lmpd和基于多分辨率判別器lmrd的損失相結(jié)合,表達(dá)式如下:
89、;
90、;
91、;
92、式中,為多周期判別器對(duì)高質(zhì)量音頻信號(hào)的評(píng)分,為多周期判別器對(duì)生成信號(hào)的評(píng)分,為多分辨率判別器對(duì)高質(zhì)量音頻信號(hào)的評(píng)分,為多分辨率判別器對(duì)生成信號(hào)的評(píng)分;m為高質(zhì)量音頻信號(hào)的樣本數(shù)量,yj為第j個(gè)高質(zhì)量音頻信號(hào)的樣本,為第j個(gè)生成信號(hào)。
93、一種面向das系統(tǒng)的高質(zhì)量音頻生成系統(tǒng),包括:數(shù)據(jù)采集模塊、預(yù)處理和特征提取模塊、生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)、訓(xùn)練模塊、轉(zhuǎn)換模塊;
94、所述數(shù)據(jù)采集模塊用于針對(duì)das系統(tǒng)的多個(gè)光纖點(diǎn)數(shù)據(jù)進(jìn)行數(shù)據(jù)采集和處理得到低質(zhì)量音頻數(shù)據(jù),以及獲取高質(zhì)量音頻數(shù)據(jù);
95、所述預(yù)處理和特征提取模塊用于對(duì)低質(zhì)量音頻數(shù)據(jù)進(jìn)行幅度標(biāo)準(zhǔn)化、歸一化、分割為多個(gè)短時(shí)間幀后,再根據(jù)音高提取算法得到每個(gè)短時(shí)間幀的音高特征-梅爾頻譜特征數(shù)據(jù)對(duì),集合得到數(shù)據(jù)集d1;以及對(duì)高質(zhì)量音頻數(shù)據(jù)進(jìn)行相同的操作,得到數(shù)據(jù)集d2;
96、所述生成網(wǎng)絡(luò)包括:音高插值模塊、模板生成模塊、下采樣模塊、梅爾頻譜卷積模塊、上采樣模塊、leakyrelu激活函數(shù)、tanh激活函數(shù);所述音高插值模塊的輸入為音高特征-梅爾頻譜特征數(shù)據(jù)對(duì),通過(guò)線(xiàn)性插值函數(shù),基于音高特征f0的時(shí)間索引和f0特征值,在梅爾頻譜圖的時(shí)間索引上進(jìn)行插值,得到與梅爾頻譜特征長(zhǎng)度匹配的音高特征;所述模板生成模塊用于根據(jù)與梅爾頻譜特征長(zhǎng)度匹配的音高特征生成一個(gè)多通道的信號(hào)模板;所述梅爾頻譜卷積模塊用于對(duì)梅爾頻譜特征進(jìn)行卷積;
97、所述下采樣模塊和上采樣模塊遵循u-net網(wǎng)絡(luò)架構(gòu),下采樣模塊包括多層下采樣卷積層,上采樣模塊包括多層上采樣卷積層;第一層上采樣卷積層的輸入為下采樣模塊的輸出與卷積后的梅爾頻譜特征的拼接結(jié)果,后續(xù)上采樣卷積層的輸入為上一層下采樣卷積層的輸出和上采樣卷積層的輸出的拼接結(jié)果;
98、所述判別網(wǎng)絡(luò)包括用于捕捉音頻信號(hào)的周期性特征的多周期判別器,以及用于在不同頻率上分析音頻信號(hào)細(xì)節(jié)的多分辨率判別器;所述多周期判別器包括:頻譜轉(zhuǎn)化模塊、卷積層、leakyrelu激活函數(shù);所述頻譜轉(zhuǎn)換模塊用于通過(guò)短時(shí)傅里葉變換將時(shí)間域信號(hào)轉(zhuǎn)換為頻域信號(hào);所述卷積層包括5個(gè)3×3卷積層,并在每個(gè)卷積層后使用leakyrelu激活函數(shù),其中初始卷積層用于將輸入的頻譜圖從單通道擴(kuò)展到32通道,保持特征圖的空間維度;中間三個(gè)卷積層用于逐層將特征圖的通道數(shù)保持在32,以逐步減小特征圖的高度,逐層提取更深層次的特征;最后一個(gè)卷積層將輸出的通道數(shù)減少到1,以整合特征;
99、所述多分辨率判別器包括:周期處理模塊、卷積層、leakyrelu激活函數(shù);所述周期處理模塊用于根據(jù)周期列表中的周期,使時(shí)間長(zhǎng)度能被設(shè)定的周期整除,以避免信息丟失;此過(guò)程包括反射填充以調(diào)整長(zhǎng)度,并將一維信號(hào)轉(zhuǎn)換為二維格式;卷積層包括5個(gè)5×5卷積層,并在每個(gè)卷積層后使用leakyrelu激活函數(shù),其中初始卷積層,將輸入信號(hào)從單通道擴(kuò)展到64通道,保持特征圖的空間維度;中間三個(gè)卷積層用于逐層將特征圖的通道數(shù)提升到128、256和512,以提取深層次的特征信息;最后一個(gè)卷積層將輸出通道數(shù)減少到1,以整合特征;
100、所述訓(xùn)練模塊用于分階段訓(xùn)練生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò),第一階段以d2為訓(xùn)練集進(jìn)行訓(xùn)練,第二階段以d1和d2為訓(xùn)練集進(jìn)行聯(lián)合訓(xùn)練,輸出訓(xùn)練好的高質(zhì)量音頻生成模型至轉(zhuǎn)換模塊;
101、所述轉(zhuǎn)換模塊中訓(xùn)練好的高質(zhì)量音頻生成模型的輸入為由數(shù)據(jù)采集模塊采集、預(yù)處理和特征提取模塊處理后的低質(zhì)量音頻數(shù)據(jù),輸出為高質(zhì)量音頻數(shù)據(jù)。
102、進(jìn)一步地,所述下采樣模塊包括三個(gè)7×7下采樣卷積層,按順序其膨脹率分別為1、3、5;每個(gè)下采樣卷積層后使用leakyrelu激活函數(shù);所述梅爾頻譜卷積模塊包括一個(gè)帶權(quán)重歸一化的一維7×7卷積層,填充為3,其輸入的梅爾頻譜特征圖的長(zhǎng)度與輸出的卷積后的梅爾頻譜特征圖的長(zhǎng)度一致;
103、所述上采樣模塊包括一個(gè)膨脹率為1的3×3上采樣卷積層,一個(gè)膨脹率為3的7×7上采樣卷積層,一個(gè)膨脹率為5的11×11上采樣卷積層,并在每個(gè)上采樣卷積層后使用leakyrelu激活函數(shù);第一層上采樣卷積層的輸入為下采樣模塊的輸出與卷積后的梅爾頻譜特征的拼接結(jié)果;相同層的下采樣卷積層和上采樣卷積層通過(guò)拼接層跳越連接,所述拼接層用于將兩個(gè)輸入在通道維度上拼接;拼接層的兩個(gè)輸入分別為對(duì)應(yīng)層數(shù)的下采樣卷積層的輸出、對(duì)應(yīng)層數(shù)的上采樣卷積層的輸出,本層拼接層的輸出作為下一層上采樣卷積層的輸入。
104、本發(fā)明的有益效果是:
105、(1)本發(fā)明提出的面向das的高質(zhì)量音頻生成方法,可以將das輸出的包含嘈雜聲、悶音、炸音的低質(zhì)量音頻轉(zhuǎn)換為音質(zhì)更高的高質(zhì)量音頻,這一過(guò)程顯著提升了音頻的清晰度和細(xì)節(jié)表現(xiàn),使得處理后的音頻適用于高要求的應(yīng)用場(chǎng)景。
106、(2)本發(fā)明提出的多通道輸入和多通道判別方法,通過(guò)同時(shí)處理多個(gè)光纖點(diǎn)的音頻數(shù)據(jù),充分利用空間信息,提高了音頻信號(hào)的空間分辨率和一致性。多通道的判別網(wǎng)絡(luò)能夠更好地捕捉不同光纖點(diǎn)的音頻特征,增強(qiáng)音頻生成的準(zhǔn)確性和真實(shí)感。
107、(3)本發(fā)明提出的音高提取方法,可以更有效地獲得音頻信號(hào)的關(guān)鍵特征。這些特征輸入網(wǎng)絡(luò)后,能夠更精確地進(jìn)行高質(zhì)量音頻的生成,確保音頻信號(hào)的真實(shí)感和清晰度。
108、(4)本發(fā)明采用多周期判別器和多分辨率判別器相結(jié)合,從不同的時(shí)間尺度和頻率分辨率上對(duì)音頻信號(hào)進(jìn)行判別和優(yōu)化。多周期判別器專(zhuān)注于捕捉音頻信號(hào)的周期性特征,而多分辨率判別器則能夠在不同頻率上分析音頻信號(hào)的細(xì)節(jié)。這種多層次的判別方法顯著增強(qiáng)了音頻生成的質(zhì)量和細(xì)節(jié),使得生成的高質(zhì)量音頻在各種應(yīng)用場(chǎng)景中都能表現(xiàn)出色。