本發(fā)明涉及動物聲音的自動識別,特別是一種基于小波包分解和聲譜圖特征的動物聲音識別方法。
背景技術:
:生態(tài)環(huán)境中的動物聲音包含了豐富的信息,通過動物聲音的識別,可以對其生活習性和分布做一定的了解和分析,從而達到對其監(jiān)控和保護的目的。近年來,動物聲音識別受到越來越多的關注。動物聲音識別一般以聲譜圖、時間序列、Mel頻率倒譜系數(shù)(MelFrequencyCepstrumCoefficient,MFCC)、聲音庫索引以及小波包分解為基礎,通過支持向量機(SupportVectorMachine,SVM)、深度神經(jīng)網(wǎng)絡(DeepNeuralNetwork,DNN)、高斯混合模型(GaussianMixtureModel,GMM)等分類器進行分類識別。比較典型的方法包括:基于聲譜圖相關系數(shù)(SpectrogramCorrelation)的動物聲音識別,對平滑處理的聲譜圖使用邊緣檢測(EdgeDetection)提取特征進行露脊鯨(RightWhale)叫聲檢測,基于時間序列特征的動物聲音識別,Mel頻率倒譜系數(shù)結(jié)合SVM的鳥類聲音分類。此外,還有借助于經(jīng)典的基于文本(Text-based)數(shù)據(jù)庫查詢方法,采用基于索引(Index-based)的動物聲音檢索。近期,Potamitis等提出在連續(xù)和真實的現(xiàn)場錄音中,識別特定的鳥類聲音。Sharma和Kaul提出基于兩階段的監(jiān)督學習方法來檢測城市中的尖叫和哭泣聲音。對于低信噪比情況下聲音信號的分析、分類和識別,目前已有一定的研究。低信噪比聲音識別常用的特征有:基于時間與頻率相結(jié)合的特征和基于時頻分析的聲譜圖及其相關的特征。關于時間與頻率相結(jié)合的特征,主要有時間、頻率特征,小波域特征,Gabor字典匹配追蹤(MatchingPursuit,MP)算法提取的特征等,此外,正交匹配追蹤(OrthogonalMatchingPursuit,OMP)算法是在MP的基礎上改進的,其收斂效果比MP好。近期的研究還包括,利用耳蝸圖(CochleagramImage,CI)提取圖像的紋理特征用于聲音事件監(jiān)督;小波包(WaveletPackets)過濾的低信噪比聲音事件識別;利用匹配追蹤算法從Gabor字典中選擇重要的原子,用主成分分析(PCA)和線性判別分析(LDA)確定聲音事件的特征,最后采用SVM分類器進行分類識別。這些方法對于低信噪比聲音事件的識別都取得明顯效果。關于聲譜圖及其相關的特征,Dennis等提出基于聲譜圖進行偽著色(PseudoColoration,PC)并提取相關圖像特征的聲音事件識別方法。尤其,Dennis等提出的子帶功率分布(SubbandPowerDistribution,SPD)特征,在譜圖中將可靠的聲音事件與噪聲分開并去除不可靠區(qū)域,最后用最近鄰居分類器(k-nearestneighbor,kNN)對特征進行識別。這種方法能在信噪比低至0dB時,也可以識別相關的聲音事件。通過對聲譜圖提取灰度共生矩陣(GrayLevelCo-occurrenceMatrix,GLCM)特征,并結(jié)合隨機森林分類器識別鳥類聲音。技術實現(xiàn)要素:本發(fā)明的目的在于提供一種基于小波包分解和聲譜圖特征的動物聲音識別方法,以克服現(xiàn)有技術中存在的缺陷。為實現(xiàn)上述目的,本發(fā)明的技術方案是:一種基于小波包分解和聲譜圖特征的動物聲音識別方法,按照如下步驟實現(xiàn):步驟S1:采集聲音樣本,獲取訓練樣本以及測試樣本;步驟S2:對所述訓練樣本以及所述測試樣本進行聲音增強;步驟S3:將增強后聲音信號進行Bark尺度的小波包分解;步驟S4:重構(gòu)小波包分解系數(shù),并把重構(gòu)后的信號通過短時傅里葉變換生成重構(gòu)信號頻譜;步驟S5:將所述重構(gòu)信號頻譜進行主成分分析,提取投影特征,獲取各個Bark頻率群的BWCSP;步驟S6:采用隨機森林識別各個Bark頻率群的BWCSP。在本發(fā)明一實施例,在所述步驟S2中,所述聲音增強采用短時譜估計法。在本發(fā)明一實施例,在所述步驟S3中,所述Bark尺度的小波包分解采用db2基函數(shù),用以模擬Bark頻率群。在本發(fā)明一實施例,在所述步驟S5中,還包括如下步驟:步驟S51:計算規(guī)范化的頻譜矩陣X;對小波包分解系數(shù)進行重構(gòu),并把重構(gòu)的信號進行短時傅里葉變換,得到重構(gòu)信號頻譜S(t,f);其中,t代表幀索引,t=0,1,···,M-1,f代表頻率索引,f=0,1,···,N-1;將S第t幀轉(zhuǎn)化為規(guī)范化的幀:X=[S1,...,St,...,SM]T,X∈RM×N;步驟S52:對頻譜矩陣X進行特征值分解;C=XTX,C=UΛUT,也即其中,特征值從大到小遞減:λ1≥λ2≥…≥λN;步驟S53:確定前K個特征值;特征值λp,p=1,2,…,N,代表了特征向量所攜帶的信息量,特征值越大說明對應的特征向量所攜帶的信息量越大;取前K個特征值對應的特征向量以近似地構(gòu)造出C,即:C≈λ1u1u′1+λ2u2u′2+…+λKuKu′K,K<<N,其中,通過如下方式確定K值:通過計算前K個特征值之和占全部特征值之和的比重來衡量;步驟S54:計算頻譜投影;選取矩陣U中前K個成分,組成特征向量UK=(μ1,μ2,...,μK),UK∈RN×K;計算頻譜投影,即投影矩陣:XK=XUK;其中,XK即為當前小波包分解系數(shù)重構(gòu)的頻譜投影特征。在本發(fā)明一實施例,在所述步驟S6中,通過所述訓練樣本構(gòu)建隨機森林按照如下步驟實現(xiàn):步驟S611:通過自助重采樣算法,從訓練樣本第i個結(jié)點的BWCSP特征集中自助重采樣,生成新的s個訓練樣本集,其中,Q代表第i個節(jié)點的BWCSP特征集采樣的樣本數(shù)目;步驟S612:該s個訓練樣本集:按照決策樹的構(gòu)建方法生長成s顆決策樹,并組合在一起形成第i個森林,且由該s棵決策樹構(gòu)造出第i個隨機森林與第i個結(jié)點的BWCSP特征集相對應。在本發(fā)明一實施例,在所述步驟S6中,通過所述隨機森林識別所述測試樣本按照如下步驟實現(xiàn):步驟S621:將所述測試樣本中各個Bark頻率群生成的BWCSP特征Xk分別置于相應的隨機森林中,且放置在相應隨機森林的s棵決策樹的根節(jié)點;步驟S622:根據(jù)決策樹判別規(guī)則,向下傳遞直到?jīng)Q策樹的葉子節(jié)點,葉子節(jié)點對應的類標簽即為該棵決策樹對特征Xk所屬類別所做的投票。相較于現(xiàn)有技術,本發(fā)明具有以下有益效果:本發(fā)明所提出的一種基于小波包分解和聲譜圖特征的動物聲音識別方法,采用短時譜估計聲音增強算法,一定程度上抑制了背景聲音的影響;Bark尺度的小波包分解是基于人耳基底膜的工作原理,背景聲音對于不同Bark頻率群的影響是不一樣的,因此結(jié)合各個Bark頻率群的特征信息作為決策依據(jù),一定程度上能夠提高識別率;采用多隨機森林決策的方法有效地消除了背景聲音對部分Bark頻率群特征的影響。針對自然環(huán)境中動物聲音識別的問題,實現(xiàn)了在10dB以上信噪比環(huán)境下,在未對聲音信號進行增強處理的情況下,對于動物聲音識別有較好的效果。而短時譜估計聲音增強結(jié)合BWCSP特征與隨機森林的方法,不論是低信噪比還是高信噪比聲音環(huán)境,對各種環(huán)境中的動物聲音檢測都有較好的效果。附圖說明圖1為本發(fā)明一實施例中基于BWCSP特征結(jié)合隨機森林的動物聲音識別的整體架構(gòu)。圖2為本發(fā)明一實施例中Bark尺度小波包分解結(jié)構(gòu)圖3為本發(fā)明一實施例中隨機森林的基本過程圖4為本發(fā)明一實施例中參數(shù)K對識別率影響圖5(a)為本發(fā)明一實施例中流水噪聲環(huán)境下不同增強處理方法得到的識別效果。圖5(b)為本發(fā)明一實施例中風聲噪聲環(huán)境下不同增強處理方法得到的識別效果。圖5(c)為本發(fā)明一實施例中公路噪聲環(huán)境下不同增強處理方法得到的識別效果。圖5(d)為本發(fā)明一實施例中說話噪聲環(huán)境下不同增強處理方法得到的識別效果。圖6(a)為本發(fā)明一實施例中流水噪聲環(huán)境下不同信噪比的識別率。圖6(b)為本發(fā)明一實施例中風聲噪聲環(huán)境下不同信噪比的識別率。圖6(c)為本發(fā)明一實施例中公路噪聲環(huán)境下不同信噪比的識別率。圖6(d)為本發(fā)明一實施例中說話噪聲環(huán)境下不同信噪比的識別率。圖7(a)為本發(fā)明一實施例中未經(jīng)聲音增強情況下,翠鳥的各個Bark頻率群的能量分布。圖7(b)為本發(fā)明一實施例中經(jīng)短時譜估計法聲音增強,翠鳥的各個Bark頻率群的能量分布。圖8(a)為本發(fā)明一實施例中鵜鶘聲在-5dB風聲下的頻譜。圖8(b)為本發(fā)明一實施例中黃喉地鶯聲在-5dB風聲下的頻譜。圖8(c)為本發(fā)明一實施例中綿羊聲在-5dB風聲下的頻譜。具體實施方式下面結(jié)合附圖,對本發(fā)明的技術方案進行具體說明。本發(fā)明提出了一種Bark尺度的小波包分解系數(shù)重構(gòu)投影(BWCSP)結(jié)合隨機森林的動物聲音識別方法。Bark尺度小波包分解是基于模擬人耳基底膜的工作原理,構(gòu)造人耳Bark域頻率感知特性的小波包分解結(jié)構(gòu)。聲音信號經(jīng)過小波包分解,然后根據(jù)相應的小波包分解系數(shù)重構(gòu)的頻譜,得到頻譜的投影特征,即BWCSP特征。最后,采用隨機森林對BWCSP特征進行訓練和識別。進一步的,建立動物聲音識別架構(gòu)。如圖1所示,為基于BWCSP特征結(jié)合隨機森林的動物聲音識別的整體架構(gòu)。具體流程包括:首先,對動物聲音進行聲音增強;然后將增強后聲音信號進行Bark尺度的小波包分解并重構(gòu)分解系數(shù),把這些重構(gòu)通過短時傅里葉變換(Short-TimeFourierTransform,STFT)生成重構(gòu)信號頻譜;并對頻譜進行主成分分析,提取投影特征,即各個Bark頻率群的BWCSP;最后使用隨機森林識別各個Bark頻率群的BWCSP。進一步的,小波包分析對信號的低頻和高頻部分同時進行分解,具有更強的頻帶劃分能力。Bark是一種模擬人耳聽覺感知特性的非線性頻率尺度。人耳的Bark域在20Hz-16kHz的頻率范圍內(nèi)分為24個Bark頻率群。Bark域頻率z和赫茲(Herz)域頻率f的轉(zhuǎn)換關系為其中,Bark頻率群的帶寬在500Hz以下時增加速度恒定,約100Hz增加一個帶寬;在500-1220Hz帶寬呈線性增加;1220Hz以上,帶寬呈指數(shù)增加。根據(jù)小波包分析的特性,可以用小波包分析來逼近人耳的Bark譜。對于8kHz采樣、頻率在4kHz以下的大部分的動物聲音事件,用常規(guī)方法模擬1—17號Bark,可以得到如圖2所示,每個子帶的中心頻率相差約為1Bark的小波包分解結(jié)構(gòu)。對動物聲音識別的第一步,并將按這個分解結(jié)構(gòu),對聲音信號進行小波包分解。并把這個小波包分解的17組系數(shù)用于下一步的投影特征提取。進一步的,在本實施例中,BWCSP特征,即為Bark尺度的小波包分解系數(shù)重構(gòu)的頻譜投影(Barkscalewaveletpacketdecompositioncoefficientreconstructedspectralprojection,BWCSP)特征。這些分解系數(shù)重構(gòu)的頻譜投影,即對頻譜主成分分析的過程如下。1)計算規(guī)范化的頻譜矩陣X。對小波包分解系數(shù)進行重構(gòu),并把重構(gòu)的信號進行短時傅里葉變換,得到重構(gòu)信號的頻譜S(t,f)。其中,t代表幀索引,t=0,1,…,M-1,f代表頻率索引,f=0,1,…,N-1。在本實施例中,M代表聲音信號一共分成多少幀,N代表每個幀經(jīng)過短時傅里葉變換后的頻點數(shù),一般默認為N=512。將S第t幀轉(zhuǎn)化為規(guī)范化的幀:X=[S1,...,St,...,SM]T,X∈RM×N。(3)2)對頻譜矩陣X進行特征值分解。C=XTX,C=UΛUT,即其中,特征值從大到小遞減λ1≥λ2≥…≥λN。3)前K個特征值的確定。特征值λp,p=1,2,…,N,代表了特征向量所攜帶的信息量,特征值越大說明對應的特征向量所攜帶的信息量越大。取前K個特征值對應的特征向量可以近似地構(gòu)造出C,即C≈λ1u1u′1+λ2u2u′2+…+λKuKu′K,K<<N,(5)其中,K值的確定可以通過計算前K個特征值之和占全部特征值之和的比重來衡量。4)計算頻譜投影。選取矩陣U中前K個成分,組成特征向量UK=(μ1,μ2,...,μK),UK∈RN×K。計算頻譜投影,即投影矩陣XK=XUK(7)XK即為當前小波包分解系數(shù)重構(gòu)的頻譜投影特征。在本實施例中,對樣本聲音進行如圖2所示的Bark尺度的小波包分解,并得到為17個分解系數(shù)重構(gòu)的頻譜投影,即BWCSP特征,將作為隨機森林訓練與識別的特征。進一步的,將各個小波包結(jié)點分解生成的BWCSP特征結(jié)合隨機森林分類器,對動物聲音樣本進行訓練和識別。隨機森林是一種利用多棵決策樹分類器來對數(shù)據(jù)進行判別的集成分類器算法,并且其輸出結(jié)果是由決策樹輸出的類標簽的數(shù)量而定。其過程如圖3所示,通過自助重采樣(Bootstrap)技術,從訓練樣本第i(i=1,2,…,17)個結(jié)點的BWCSP特征集中自助重采樣,生成新的s個訓練樣本集,其中,Q代表第i個節(jié)點的BWCSP特征集采樣的樣本數(shù)目。然后這s個訓練樣本集,按照決策樹的構(gòu)建方法生長成s顆決策樹,并組合在一起形成第i個森林。由這s棵決策樹構(gòu)造出第i個隨機森林與第i個結(jié)點的BWCSP特征集相對應。由于聲音信號通過Bark尺度小波包分解生成了17個不同的BWCSP特征集,每個BWCSP特征集都要生成一個隨機森林,因此一共生成17個隨機森林。隨機森林對測試樣本的識別過程如下。首先,把測試樣本各個Bark頻率群生成的BWCSP特征Xk分別放在相應的隨機森林中,且放置在相應隨機森林的s棵決策樹的根節(jié)點。根據(jù)決策樹判別規(guī)則向下傳遞直到?jīng)Q策樹的葉子節(jié)點,葉子節(jié)點對應的類標簽就是這棵決策樹對特征Xk所屬類別所做的投票。根據(jù)17個子頻帶生成的隨機森林中每棵決策樹的投票結(jié)果,統(tǒng)計17個隨機森林中所有投票總和,其中獲得投票數(shù)最多的類標簽就是測試樣本對應類標簽l。為了讓本領域技術人員進一步了解該方法,下面結(jié)合具體實施例進行說明。A:確定聲音樣本集。在本實施例中,實驗采用40種動物叫聲,來自Freesound聲音數(shù)據(jù)庫且都是純凈不帶任何噪聲的。40種動物聲音有兩大類,即鳥類和哺乳動物,各類別的具體構(gòu)成如表1所示。對聲音文件統(tǒng)一處理,將其都轉(zhuǎn)換成:采樣率為8kHz,量化精度為16bits,單聲道,且長度為2s左右wav格式的聲音片段。實驗用到的4種環(huán)境聲音,為錄音棒以8kHz的采樣頻率和16bits的量化精度錄制的真實背景聲音,分別為流水聲、風聲、公路噪聲和嘈雜的說話聲。實驗對所有的聲音樣本歸一化處理并采用Hamming窗進行分幀。表1B:確定實驗參數(shù)設置1)幀在STFT過程中,每幀幀長為32ms,幀移為幀長一半。2)特征小波包分解采用db2基函數(shù),頻譜投影參數(shù)K通過實驗確定。在對比實驗中,聲譜圖投影特征的投影參數(shù)K取5;MFCC采用24階三角濾波器組,提取12維離散余弦變換系數(shù);冪歸一化倒譜系數(shù)(PowerNormalizedCepstrumCoefficients,PNCC),采用32階的Gammatone濾波器,提取12維離散余弦變換系數(shù)。3)隨機森林分類器其主要參數(shù)有兩個,一個是決策樹中非葉節(jié)點分裂時預選特征成分的數(shù)量m,另一個是隨機森林中決策樹的個數(shù)k。綜合考慮本實施例實驗樣本數(shù)量和實驗結(jié)果,設定k=500,m=5。利用隨機森林進行3次識別,然后取均值作為最終結(jié)果。C:在本實施例中,為了檢驗本發(fā)明提出方法的性能,進行四個方面的實驗。第一,通過純凈聲音的BWCSP結(jié)合隨機森林訓練和測試,確定BWCSP參數(shù)K。第二,使用維納濾波、多頻帶譜減法和短時譜估計法對聲音進行增強處理,然后提取BWCSP特征,分別進行隨機森林的識別率測試,并選出最有效的聲音增強算法。第三,在無背景聲音和不同環(huán)境不同信噪比條件下,提取BWCSP特征,并與聲譜圖投影特征、PNCC特征和MFCC特征進行隨機森林測試比較。第四,把短時譜估計聲音增強結(jié)合BWCSP特征與隨機森林的方法,與其它最新的方法進行比較。下面對上述各個檢驗實驗進行具體說明。C1:對于BWCSP中K的選取。在本實施例中,在沒有背景聲音的條件下確定BWCSP特征中K的選取,K代表投影矩陣XK中選取的前K個特征向量。如圖4所示,當K≤5時,隨著K的增加,測試樣本的識別率迅速增加,當K≥5時,隨著K的增加,測試樣本的識別率并無明顯提升。出于計算代價和性能表現(xiàn)的權(quán)衡,在下面實驗中,取K=5。C2:聲音信號增強在本實施例中,對純凈的訓練聲音樣本也都分別進行維納濾波、多頻帶譜減法和短時譜估計法的增強處理。對測試樣本,在分別添加信噪比為-10dB、-5dB、0dB、5dB、10dB和15dB的四種環(huán)境聲后,再進行相應的三種增強方法處理。這種把訓練和測試樣本都進行同樣增強處理的目的,可以一定程度地消除聲音增強處理帶來的誤差。實驗結(jié)果如圖5(a)~圖5(d)所示,在不同環(huán)境不同信噪比下,不做聲音增強處理的識別率,整體上低于3種聲音增強處理的識別率。說明三種聲音增強算法一定程度上都能消除背景聲音的影響,尤其,在低于0dB的情況下,特別是低于-5dB,三種聲音增強算法消除噪聲的作用最為明顯。隨著信噪比的增加,背景聲音對動物聲音的識別率影響降低。從圖5(a)~圖5(d)可以看出,嘈雜說話聲環(huán)境和流水聲環(huán)境在-5dB以上信噪比時、風聲環(huán)境在5dB及以上信噪比時,維納濾波的識別率逐漸低于不增強處理時的識別率。多頻帶譜減法和短時譜估計法,對4種環(huán)境各種信噪比下,則都保持較高的識別率。在上述4種環(huán)境聲中,聲音增強算法對風聲環(huán)境下的聲音信號增強效果最為明顯(縱坐標-識別率從0開始)。特別是在-10dB的情況下,識別率由不增強處理幾乎不能正確識別的情況下,經(jīng)過短時譜估計法把識別率提升50%左右。在不同環(huán)境聲不同信噪比的條件下,短時譜估計法有最佳的識別性能,因此在之后的實驗中采用短時譜估計增強方法對聲音信號進行加強。C3:BWCSP性能實驗首先,無噪聲環(huán)境的條件下實驗,結(jié)果如表2所示,BWCSP特征、聲譜圖投影特征、PNCC特征和MFCC特征對動物聲音的識別率都很高。而且,本實施例中所提出的BWCSP特征保持微弱的優(yōu)勢。表2方法BWCSP聲譜圖投影特征PNCCMFCC識別率(%)94.4594.3293.5091.63其次,在不同噪聲環(huán)境不同信噪比條件下的四種特征的平均識別率實驗結(jié)果如表3所示。利用流水聲、風聲、公路聲和嘈雜說話聲,模擬真實的噪聲環(huán)境。分別選取信噪比為-10dB、-5dB、0dB、5dB、10dB、15dB和四種噪聲環(huán)境進行混合,測試四種不同特征提取方法的平均識別率。從表3中可以觀察到,在不同環(huán)境不同信噪比條件下,BWCSP特征的平均識別率比聲譜圖投影特征、PNCC特征和MFCC特征分別高出9.66%、17.15%和50.52%,這說明BWCSP特征的識別性能和抗噪性能都優(yōu)于其他三種特征。BWCSP特征的識別性能整體優(yōu)于聲譜圖投影特征,說明BWCSP特征對于聲譜圖投影特征有一定的改善。相對于傳統(tǒng)的PNCC特征和MFCC特征,BWCSP特征的識別性能有較大的領先。表3如圖6(a)~圖6(d)表示四種特征,在四種噪聲環(huán)境下,不同信噪比的識別率。從圖中可以看出,不同的背景聲音,對識別性能的影響不同。風聲和公路聲對識別性能影響較大,流水聲和嘈雜說話聲的影響較小。在信噪比小于0dB時,BWCSP特征的識別率明顯高于其他三種特征,這說明BWCSP特征在低信噪比的情況下識別性能優(yōu)于其他三種特征。當信噪比大于0dB時,聲譜圖投影特征和BWCSP特征的識別率較為接近,都能保持較高的識別率。無論是低信噪比還是高信噪比的條件下,MFCC特征的識別性能都遠低于BWCSP特征。PNCC特征的識別性能隨著信噪比的增加而不斷提高,但是識別性能都低于BWCSP特征。將本實施例中采用的方法將與以下三種最新的方法進行比較,如表4所示:(1)MP-SVM:對聲音信號采用MP算法分解并從Gabor字典中選擇最匹配的原子,由這些原子線性組合近似構(gòu)造聲音信號。這些原子組成尺度-頻率圖,并用PCA和LDA從該圖中提取聲音事件的特征,采用SVM分類器進行識別。(2)PC-SVM:首先聲音信號轉(zhuǎn)化為聲譜圖,然后對聲譜圖偽著色成三種顏色圖像,接著對三種顏色圖像分塊并求解每個分塊的統(tǒng)計特征,這些統(tǒng)計特征組成聲音特征,最后采用SVM分類器進行識別。(3)SPD-KNN:計算gammatone頻譜圖各個頻率子帶的能量分布,即SPD。并利用噪聲估計的方法區(qū)分噪聲與聲音事件,提取SPD的圖像特征并用kNN分類器對特征進行識別。表4方法純凈20dB10dB0dB-10dB平均本文方法94.4591.3889.5081.8161.7583.78MP-SVM86.3180.7256.4829.4814.5853.51PC-SVM91.4288.7887.5478.6442.2477.72SPD-KNN97.3294.5694.2678.2145.3281.93從表4中可以看出,本發(fā)明采用的方法在低信噪比情況下的識別率,與其他三種方法相比有較大的提高。較佳的,在-10dB的情況下,依然能夠保持平均60%以上的識別率。為了讓本領域技術人員了解本發(fā)明所提出方法的效果,下面背景聲音對動物聲音的影響以及動物及背景聲音與重構(gòu)頻譜投影進行說明。為了分析背景聲音對動物聲音在各個Bark頻率群的影響,本實施例中還給出純凈的翠鳥聲音和加入信噪比為-10dB背景聲音后各個Bark頻率群的能量分布。從圖7(a)以及圖7(b)中可以看出各個Bark頻率群的能量的變化以及背景聲音對翠鳥聲音在各個Bark頻率群的影響。圖7(a)和(b)是翠鳥聲音經(jīng)過聲音增強前后的各個Bark頻率群的能量分布。從圖中可以看出背景聲音對Bark頻率群1-4,即低頻部分的影響比較大,對于高頻部分的影響相對比較小。經(jīng)過短時譜估計法聲音增強后,可以消除大部分背景聲音的影響,但影響依然存在。本發(fā)明結(jié)合經(jīng)過Bark尺度小波包結(jié)構(gòu),把聲音信號分解成17個投影特征。這樣,可以有效地平衡背景聲音對部分Bark頻率群的影響,有利于識別率的提高。對于動物及背景聲音與重構(gòu)頻譜投影,結(jié)合上述方法進行說明。1)Bark尺度的小波包分解的本質(zhì)Bark尺度的小波包分解的本質(zhì),就是把聲音信號按人類聽覺敏感程度,對聲音信號進行頻帶劃分,再進行不同尺度的小波分析。動物聲音,即便在各種環(huán)境中,受到不同信噪比的背景聲音的干擾,只要人類聽覺能感知到,就意味著它存在不同于背景聲音的Bark頻率群。而本實施例中提出的Bark尺度的小波包分解系數(shù)重構(gòu)頻譜投影,就是分離出這些相關頻率群頻譜的關鍵成分。這些Bark頻率群的頻譜,必然為每一種動物聲音的特色或獨有。用這些頻譜的投影,進行隨機森林的投票,必定是高分。而與那些與背影聲音同頻率群的成分,雖然在投票中難獲高分,但多個頻率群共同投票后,仍然能保持較高的得分優(yōu)勢。2)錯誤檢測分析與改進如下表5為加入-5dB風聲噪聲測試樣本錯分情況,給出加入-5dB風聲后,16類容易出現(xiàn)錯誤檢測的情況(另外24類基本上能夠正確識別,限于空間,表5中未列出)。從表5可以看出,在-5dB風聲下,第10類的測試樣本全部被錯誤檢測,其中有9個測試樣本錯分到第19類中;第24,28,38,394類測試樣本也都全部被錯誤檢測成第19類。同時,也發(fā)現(xiàn)大部分被錯誤檢測的樣本,都被檢測成第19類。表5觀察圖8(a)10類-鵜鶘、(b)19類-黃喉地鶯和(c)38類-綿羊聲音分別在-5dB風聲下的聲譜圖,可以發(fā)現(xiàn)它們的相似之處。其中,低頻部分,即0-800Hz部分相似度較高,三張聲譜圖在0.5s之后,高低頻部分都很相近。也就是說,這三張頻譜圖,高低頻部分有80%左右是相近的。這就可能造成大部分Bark頻率群頻譜投影的相近或相等,從而造成了測試樣本的錯誤檢測。進一步觀察到,在加入風聲噪聲的情況下,大部分錯分的樣本被錯分到第19類;在加入嘈雜說話聲時則大部分的樣本被錯分到第2類;在加入公路噪聲時則大部分的樣本被錯分到第39類。這說明測試樣本錯分的原因和加入噪聲的類型有關。但是,它們作為不同的動物的聲音,自然環(huán)境下,能被人類聽覺感知到,必然有區(qū)別于背景聲音的成分存在,即有不同于背景聲音的Bark頻率群存在。因此,根據(jù)本發(fā)明所提出的方法的原理,這種差別可以通過小波包分解結(jié)構(gòu)及隨機森林投票策略的適當調(diào)整來識別。進而,本發(fā)明所提出的方法可以在各種背景聲音中,識別各種不同信噪比的動物聲音。3)更深層次的識別對于非平穩(wěn)的背景及動物聲音,如在特定的背景聲音環(huán)境下,各種動物聲音混在一起,時強時弱等情況,有可能影響隨機森林投票結(jié)果。對于這種情況,可以考慮幀一級的隨機森林投票。如,聲音信號按32ms分幀,只要動物聲音不是在32ms內(nèi)同時發(fā)生,依然可以通過隨機森林投票確定每一幀可能的動物聲音,并進一步來判斷出可能的多種的動物聲。這種情況下,這種方法甚至可以識別出人類很難識別的非平穩(wěn)及混合的各種動物聲音。因此,本發(fā)明所提出的方法能解決自然條件下,低信噪比動物聲音識別的問題。以上是本發(fā)明的較佳實施例,凡依本發(fā)明技術方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術方案的范圍時,均屬于本發(fā)明的保護范圍。當前第1頁1 2 3