亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于三陣元微型麥克風(fēng)陣列的聲源方位識別方法

文檔序號:40437292發(fā)布日期:2024-12-24 15:11閱讀:13來源:國知局
一種基于三陣元微型麥克風(fēng)陣列的聲源方位識別方法

本發(fā)明屬于聲源定位,具體是一種基于三陣元微型麥克風(fēng)陣列的聲源方位識別方法。


背景技術(shù):

1、聲源定位在現(xiàn)代通信和傳感系統(tǒng)中起著至關(guān)重要的作用,如導(dǎo)航、人機交互、救援行動、智能監(jiān)控等。在實際應(yīng)用中,聲源定位通常被簡化為doa到達方向估計。傳統(tǒng)的聲源方位估計方法包括:第一種基于到達時間差tdoa的聲源doa估計方法,如相位變換的廣義互相關(guān)gcc-phat;第二種波束形成方法,如相位變換的可控響應(yīng)功率srp-phat;第三種高分辨率譜估計技術(shù),如多重信號分類music和通過旋轉(zhuǎn)不變技術(shù)估計信號參數(shù)esprit。然而,在室內(nèi)環(huán)境中,混響的存在可能會導(dǎo)致這些傳統(tǒng)方法的性能顯著下降。為了解決這個問題,一種可行的方法是利用更大的陣列和擴展的麥克風(fēng)數(shù)量,因為更大的陣列意味著更高的空間多樣性。然而,在一些實際應(yīng)用中,如移動便攜設(shè)備和有限的車輛空間中,麥克風(fēng)的數(shù)量可能受到限制,需要優(yōu)先選擇較小的陣列配置,這對傳統(tǒng)的聲源方向估計方法提出了挑戰(zhàn)。

2、同時,基于聲強的聲源估計方法通過同時測量聲壓和粒子速度,可以估計出與聲源方位估計有關(guān)的聲強,這對于精確估計doa非常有利。其核心是利用兩個相鄰麥克風(fēng)的壓力測量值的有限差分來近似壓力梯度,并將其構(gòu)造為一個一階差分麥克風(fēng)陣列dma。由于一階dma陣列本身的小尺寸特性,它為小尺寸陣列下的聲源方位估計提供了一個很好的解決方案。目前已有對基礎(chǔ)的差分麥克風(fēng)小尺寸陣列與基于聲強的聲源方位估計的相關(guān)研究與專利發(fā)明,但整體而言其獲得的聲強特征的復(fù)雜程度較高,缺乏一定的輕量化與實時性的考慮。

3、近年來,數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)技術(shù)在聲源定位方面顯示出巨大潛力,其能夠?qū)W習(xí)聲學(xué)特征中包含的信息與聲源位置之間的非線性關(guān)系,從而提高聲源定位的精度和魯棒性。故,將基于差分麥克風(fēng)聲強特征的聲源方位估計與深度學(xué)習(xí)技術(shù)相結(jié)合,有利于推動混響環(huán)境下小尺寸麥克風(fēng)陣列聲源定位的發(fā)展,也是目前人工智能等領(lǐng)域的熱門方向。


技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)的缺點,本發(fā)明提供了一種基于三陣元微型麥克風(fēng)陣列的聲源方位識別方法,將三陣元微型陣列接收的信號轉(zhuǎn)化為彩色rgb聲強語譜圖制作數(shù)據(jù)集,并設(shè)計專用的輕量級神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練和測試聲源估計的有效性。

2、本發(fā)明的技術(shù)方案是:

3、步驟1)設(shè)計具有三個麥克風(fēng)單元的麥克風(fēng)陣列,并對接收信號進行聲強預(yù)處理;

4、步驟2)提取信號的聲強信息換成設(shè)計的彩色聲強語譜圖,用于聲源方位估計;

5、步驟3)將水平面以固定間隔分為72個類別,對于每個類別制作聲強語譜圖數(shù)據(jù)集;

6、步驟4)構(gòu)建輕量級神經(jīng)網(wǎng)絡(luò);

7、步驟5)?將聲強語譜圖數(shù)據(jù)集饋送至神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練與測試,評估聲源定位性能。

8、進一步地,步驟1)具體為:

9、101)構(gòu)建三陣元的麥克風(fēng)陣列,其陣列結(jié)構(gòu)為等腰直角三角形,三個麥克風(fēng)單元1、2、3號記作m1、m2、m3,分別位于該三角形的三個頂點,麥克風(fēng)2號位于三角形直角頂點,麥克風(fēng)1號與麥克風(fēng)2號的距離記作陣列直徑,陣列直徑為4cm;

10、102)復(fù)用直角頂點麥克風(fēng)2號,通過麥克風(fēng)1號和2號所在方向h軸構(gòu)成一組差分麥克風(fēng)陣列,通過麥克風(fēng)3號和2號所在方向r軸構(gòu)成一組差分麥克風(fēng)陣列,得到兩個正交的麥克風(fēng)組;

11、103)進行信號預(yù)處理求得聲源信息相關(guān)的聲壓、振速:

12、?(1)

13、?(2)

14、(1)式中表示麥克風(fēng)1號與麥克風(fēng)2號所在h軸方向上每個時頻點的振速分量,(2)式中表示麥克風(fēng)3號與麥克風(fēng)2號所在r軸方向上每個時頻點的振速分量,為i號麥克風(fēng)處聲壓的短時傅里葉變化,i=1,2,3,?表示時頻點,表示虛數(shù),表示空氣密度,表示陣列尺寸為4cm;

15、104)通過聲壓與振速求得每個時頻點上的聲強分量:

16、?(3)

17、?(4)

18、(3)式中為上麥克風(fēng)2號坐標處聲強在h軸方向上每個時頻點的分量,(4)式中為上麥克風(fēng)2號坐標處聲強在r軸方向上每個時頻點的分量,表示復(fù)數(shù)實部;

19、105)對得到的聲強分量進行預(yù)處理,進行歸一化并將聲強數(shù)值映射至[0,255]范圍:

20、?(5)

21、?(6)

22、(5)式中表示h軸聲強分量歸一化處理分量,(6)式中?表示h軸聲強分量歸一化處理分量;

23、(7)

24、(8)

25、(7)式中表示h軸聲強分量的聲強灰度圖,(8)式中表示r軸聲強分量的灰度圖分量,其用于rgb聲強語譜圖的圖層構(gòu)建。

26、進一步地,步驟2)具體為:

27、201)將歸一化并映射至[0,255]數(shù)值范圍內(nèi)的聲強分量與放置于rgb彩色圖像通道上的green通道和blue通道中,簡稱g通道和b通道,組合成為rgb聲強語譜圖;

28、202)進一步,為提高rgb聲強語譜圖在混響噪聲環(huán)境下的聲源定位穩(wěn)定性,設(shè)計了小值掩蔽層,?引入了二進制掩蔽函數(shù)來細化可靠t-f點的選擇:

29、?(9)

30、(9)式中為二進制掩蔽函數(shù),表示*軸的聲強分量,表示聲強分量在短時傅里葉變換后m×n大小的數(shù)值矩陣所有時頻點的聲強的求和的平均值;

31、203)將二進制掩蔽引入到聲強灰度圖,掩蔽后的聲強語譜圖表示為:

32、?(10)

33、(10)式中表示h軸的掩蔽聲強灰度圖;

34、204)在rgb聲強語譜圖的基礎(chǔ)上,選擇h軸的掩蔽聲強灰度圖,將其放置在rgb聲強語譜圖的red通道,簡稱r通道,生成rgb掩蔽聲強語譜圖。

35、進一步地,步驟3)具體為:

36、301)將360度的水平面分為間隔5度的72個角度類別,作為聲源方位估計的定位角度類別,選取語音數(shù)據(jù)集共計300條1秒長度的語音,并使用rir?generator軟件對原始純凈語音生成每個角度的房間沖激響應(yīng)后的陣列信號,配置模擬的rir沖擊響應(yīng)的參數(shù),控制信噪比snr在5db至30db范圍,控制混響時間rt60在0.2s至1.0s范圍內(nèi),房間大小控制在7×6×3(m);為了豐富數(shù)據(jù)集提高方位估計泛用性,對于每一次rir房間沖擊響應(yīng),snr與rt60在基礎(chǔ)范圍內(nèi)隨機浮動,房間尺寸在基礎(chǔ)尺寸上有±1m的隨機變化,聲源位置在1m、2m、3m中隨機;

37、302)對模擬的陣列信號,生成72個聲源方位角度對應(yīng)的rgb聲強語譜圖與rgb掩蔽聲強語譜圖;

38、303)完成數(shù)據(jù)集制作,總共兩種語譜圖數(shù)據(jù)集,一種為rgb聲強語譜圖,另一種為rgb掩蔽聲強語譜圖,針對每一種譜圖均制作成具有72個角度類別的聲源定位數(shù)據(jù)集;最終得到300個語音×3個聲源距離×72個角度類別×2種語譜圖,總計129,600張圖片作為數(shù)據(jù)集。

39、進一步地,步驟4)具體為:

40、401)設(shè)計基于repvit的網(wǎng)絡(luò)特征提取層,增強不同分辨率下神經(jīng)網(wǎng)絡(luò)對局部特征的提取能力,同時引入repvit的metaformer結(jié)構(gòu)保持高效的局部特征提取的同時捕獲全局信息;

41、402)將帶有repvit結(jié)構(gòu)的下采樣層,融合mobilevit網(wǎng)絡(luò)模塊的輸入,形成新的輕量級神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模塊,記作repmobilevit模塊;

42、403)參照圖6,通過串聯(lián)repvit和repmobilevit模塊,配置模塊數(shù)量與結(jié)構(gòu),組合成設(shè)計的輕量級網(wǎng)絡(luò)repmobilevit網(wǎng)絡(luò);具體而言,參照圖7展示了完整網(wǎng)絡(luò)的詳細子模塊,分別為:(a)repvit塊,包含一個dw卷積、se模塊以及1×1卷積;(b)repvit下采樣塊,包含一個repvit塊核心、步長為2的下采樣dw卷積、1×1卷積以及ffn模塊,其中b表示輸入特征的batch的大小,c1表示的是輸入通道數(shù),h1表示的是輸入特征的高度,w1表示輸入特征的寬度;(c)mobilevit-v3模塊,包含由dw卷積構(gòu)成的局部表示塊、由transformer構(gòu)成的全局表示塊以及特征融合模塊,其中l(wèi)表示transformer塊的個數(shù),h、w表示特征塊的尺寸均為2,cin表示輸入特征的通道數(shù),cout表示輸出特征的通道數(shù),h表示輸入特征的高度,w表示輸入特征的寬度;使用圖7中的三個子模塊進行神經(jīng)網(wǎng)絡(luò)設(shè)計,以實現(xiàn)圖6所示的完整神經(jīng)網(wǎng)絡(luò),其主要核心模塊由5個layer層實現(xiàn):layer1包含一個repvit模塊;layer2包含一個repvit下采樣塊和兩個repvit塊;layer3包含一個repvit下采樣塊和一個mobilevit-v3模塊;layer4包含一個repvit下采樣塊和一個mobilevit-v3塊;layer5包含一個repvit下采樣塊和一個mobilevit-v3塊。最后,網(wǎng)絡(luò)通過一個1×1卷積、global?pool全局池化層以及一個linear全連接層完成神經(jīng)網(wǎng)絡(luò)的輸出logits。

43、進一步地,步驟5)具體為:

44、501)將rgb聲強語譜圖數(shù)據(jù)集與rgb掩蔽聲強語譜圖分別進行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,將數(shù)據(jù)集按照8:2分為訓(xùn)練集與測試集;

45、502)采用pytorch作為深度學(xué)習(xí)框架進行repmobilevit模型的搭建和訓(xùn)練,具體設(shè)備及配置如下:python?3.8和pytorch?1.10.1?+?cuda11.3;實驗基礎(chǔ)架構(gòu)為cpu:?inteli5-13490f;gpu:?nvidia?geforce?rtx?3060?ti;此外,采用label?smoothing?losscross-entropy?loss函數(shù)和adamw優(yōu)化器對模型參數(shù)進行更新;采用余弦退火學(xué)習(xí)率調(diào)度器,初始學(xué)習(xí)率為0.0125;

46、503)將訓(xùn)練集數(shù)據(jù)集以及其類別標簽送入神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,訓(xùn)練200輪次,取最優(yōu)的訓(xùn)練結(jié)果的權(quán)重文件best.pt,作為最終的用于測試的權(quán)重;

47、504)使用best.pt對測試集進行測試驗證,進行相應(yīng)的指標對比;計算平均絕對誤差、準確率和φ度-準確率來評估所提出方法的性能:

48、?(11)

49、(11)式中表示聲源的實際角度,表示神經(jīng)網(wǎng)絡(luò)輸出的估計角度,表示角度估計的次數(shù);

50、?(12)

51、(12)式中表示總計的聲源方位評估次數(shù),是總計的聲源方位評估正確的次數(shù);φ度-準確率表示doa測試誤差在φ度以內(nèi)時的準確率;

52、505)使用repmobilevit模型,分別測試rgb聲強語譜圖、rgb掩蔽聲強語譜圖的性能,分別評估模擬環(huán)境下不同混響、不同信噪比下的性能表現(xiàn);

53、506)進一步使用顯示麥克風(fēng)陣列及其配套設(shè)備,以麥克風(fēng)陣列為中心水平面分為間隔30度的12個角度類別,錄制真實環(huán)境語音信號,評估真實環(huán)境下的聲源方位估計性能。

54、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:

55、(1)本發(fā)明是一種基于三陣元微型麥克風(fēng)陣列的聲源方位識別方法,本方法通過提取了關(guān)于聲源估計相關(guān)的聲強信息,設(shè)計rgb聲強語譜圖與rgb掩蔽聲強語譜圖;較先前的研究與專利,將該領(lǐng)域四陣元麥克風(fēng)陣列的麥克風(fēng)數(shù)量減少到了3只,同時減少了聲強特征的復(fù)雜程度與通道數(shù)量,極大提高了方法模型的可實踐性;

56、(2)本發(fā)明構(gòu)建了全新的輕量級神經(jīng)網(wǎng)絡(luò)repmobilevit,提供了一個高效、輕量的解決方案,從網(wǎng)絡(luò)設(shè)計與優(yōu)化的層面提高了深度學(xué)習(xí)聲源方位估計方法的及時性與輕量性;

57、(3)本發(fā)明相較先前的深度學(xué)習(xí)分類方法的聲源方位估計、聲強聲源定位,將分辨率進一步提升到了5度分辨度,即360度平面實現(xiàn)72個角度類別,可以實現(xiàn)高混響的室內(nèi)實現(xiàn)聲源方位估計。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1