基于聲譜圖雙特征的動(dòng)物聲音識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種基于聲譜圖雙特征的動(dòng)物聲音識別方法。
【背景技術(shù)】
[0002] 生態(tài)環(huán)境與我們的生活密切相關(guān),生態(tài)環(huán)境下的動(dòng)物叫聲包含豐富的信息。通過 對動(dòng)物聲音的識別,可W對其生活習(xí)性和分布做一定的了解與分析,從而可W有效地對其 進(jìn)行監(jiān)控和保護(hù)。近年來,動(dòng)物聲音識別受到越來越多的關(guān)注。
[0003] 動(dòng)物聲音識別,一般W聲譜圖、時(shí)間序列、Me1頻率倒譜系數(shù)(Me1化equency CepstrumCoefficient,MFCC)、聲音庫索引W及小波包分解為基礎(chǔ),通過支持向量機(jī) (SuppodVectorMachine,SVM)等分類識別。比較典型方法包括,基于聲譜圖相關(guān) 系數(shù)(SpectrogramCorrelation)識別動(dòng)物聲音,對平滑處理的聲譜圖使用邊緣檢測 ('edge'detector)提取特征進(jìn)行露脊嫁化i曲tWhale)叫聲檢測,基于時(shí)間序列特征的動(dòng) 物聲音識別,Mel頻率倒譜系數(shù)結(jié)合支持向量機(jī)的鳥類聲音分類等。此外,也借助于經(jīng)典的 基于文本(Text-based)數(shù)據(jù)庫查詢方法,采用基于索引(index-based)的動(dòng)物聲音檢索, W及基于上下文變量(contextvari油les)的動(dòng)物聲音檢索。近期,Exadakt^os等通過 聲音識別確定動(dòng)物的狀態(tài),用于畜牧業(yè)生產(chǎn)優(yōu)化。Potamitis等提出在連續(xù)和真實(shí)的現(xiàn)場錄 音中,識別特定的鳥類聲音。我們也在最近的工作中,提出經(jīng)過自適應(yīng)能量檢測(AED)后, 基于Mel尺度的小波包分解子帶倒譜系數(shù)(MWSCC)特征和MFCC,結(jié)合支持向量機(jī)(SVM)的 鳥聲檢測方法。
[0004] 由于真實(shí)環(huán)境中存在各種各樣的噪聲,因此對動(dòng)物聲音的識別帶來一定的挑戰(zhàn)。 尤其,實(shí)時(shí)獲取的聲音信號,當(dāng)信噪比很低時(shí),對動(dòng)物聲音的識別尤為困難。對于低信噪比 情況下,聲音信號的分析、分類和識別,目前已有一定的研究。對于低信噪比聲音識別的特 征,常見的有基于時(shí)間與頻率相結(jié)合的特征和基于聲譜圖及其相關(guān)的特征。
[0005] 關(guān)于時(shí)間與頻率相結(jié)合的特征,主要有時(shí)間、頻率特征,小波域特征,G油or字典匹 配追蹤算法提取的特征等。近期的研究還包括,小波包(Wavelet化ckets)過濾的低信噪 比聲音事件識別,基于高通濾波的MFCC擴(kuò)展特征的聲音事件識別,基于多個(gè)交叉超級帖的 隨機(jī)回歸森林的聲音事件識別和檢測。其中,利用匹配追蹤算法從G油or字典中選擇重要 的原子,用主成分分析(PCA)和線性判別分析(LDA)確定聲音事件的特征,最后采用SVM分 類器進(jìn)行分類識別,對于低信噪比聲音事件的識別效果明顯。
[0006] 關(guān)于聲譜圖及其相關(guān)的特征,主要是聲音信號經(jīng)過短時(shí)傅里葉變換(Shod-Time FourierTransform,STFT)得到聲譜圖,借助圖像特征,一些圖像識別的方法可W用于低 信噪比聲音識別。如,化unarsal等提出利用聲譜圖模式匹配結(jié)合前饋神經(jīng)網(wǎng)絡(luò)和k近 鄰化-NN)的環(huán)境聲音分類方法。我們也對聲譜圖提取灰度共生矩陣特征,并結(jié)合隨機(jī) 森林分類器識別鳥類聲音。在非平穩(wěn)的噪聲環(huán)境中,Duan等提出基于非負(fù)聲譜圖分解 (non-negativespectrogramdecomposition)的聲音增強(qiáng)算法。Dennis等提出基于聲 譜圖特征的聲音事件識別方法。Czarnecki和Moszyfiski使用集中攝譜(Concentrated Spectrograph)的方法進(jìn)行聲音信號的時(shí)頻分析。Dennis等提出局部聲譜圖特征(Local SpectrogramFea1:ures)使用廣義的霍夫變換(GeneralisedHou曲Transform)投票 系統(tǒng)識別重疊的聲音事件。McLou曲lin等提出譜圖基于圖像的前端特征(Spectrogram Image-basedRrontE;ndFea1:ures)使用SVM和深度神經(jīng)網(wǎng)絡(luò)分離器值eepNeural Network)分類器分類聲音事件。尤其,Dennis等提出的子帶功率分布(sub-bandpower distribution,SPD)特征,在譜圖中將可靠的聲音事件與噪聲分開,并用最近鄰居分類器 (kNN)對特征進(jìn)行識別。該種方法能在信噪比低至0地時(shí),也可能識別相關(guān)的聲音事件。然 而,對于不同的聲音環(huán)境,對于各種低信噪比聲音信號,整體識別精度依然很低。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于提供一種基于聲譜圖雙特征的動(dòng)物聲音識別方法,改善不同聲 音環(huán)境下各種低信噪比動(dòng)物聲音的識別率。
[0008] 為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案;一種基于聲譜圖雙特征的動(dòng)物聲音 識別方法,其特征在于包括W下步驟:
[0009] 步驟S1 ;建立一聲音樣本庫,用W預(yù)存聲音樣本;
[0010] 步驟S2 ;采集待識別的聲音信號;
[0011] 步驟S3 ;將所述預(yù)存聲音樣本及待識別的聲音信號轉(zhuǎn)化成聲譜圖;
[0012] 步驟S4 ;將所述聲譜圖進(jìn)行規(guī)范化,并對所述規(guī)范化后的聲譜圖進(jìn)行特征值分解 和投影,將其轉(zhuǎn)化得到一投影特征Xk;
[0013] 步驟S5 ;將所述聲譜圖轉(zhuǎn)化成等價(jià)LBP值矩陣U,統(tǒng)計(jì)每一個(gè)等價(jià)LBP值對應(yīng)的像 素與周圍像素灰度值的方差,形成一特征向量LBPV;
[0014] 步驟S6 ;將所述投影特征Xk和特征向量LBPV結(jié)合,形成雙層特征XK+LBPV;
[0015] 步驟S7 所述聲音樣本庫中預(yù)存聲音樣本對應(yīng)的雙層特征集為訓(xùn)練樣本集,W 待識別的聲音信號對應(yīng)的雙層特征為輸入樣本,通過隨機(jī)森林的訓(xùn)練,得出待識別的聲音 信號于聲音樣本庫中對應(yīng)的類別并輸出結(jié)果。
[0016] 進(jìn)一步的,所述步驟S3轉(zhuǎn)化過程具體內(nèi)容如下:
[0017] 對所述預(yù)存的聲音樣本或采集的聲音信號進(jìn)行STFT,得到其幅度譜S(t,f),其 中,t為帖索引,f為頻率索引,對應(yīng)的幅度譜S(t,f)的值轉(zhuǎn)化為灰度級所構(gòu)成的二維圖像 即為所述聲譜圖。
[0018] 進(jìn)一步的,所述步驟S4的具體內(nèi)容如下:
[0019] 將所述幅度譜S(t,f)第t帖的數(shù)據(jù)視為一個(gè)向量馬=口化0),…,、S'化~'-〇]/,所 述向量g包含N個(gè)頻率數(shù)據(jù),進(jìn)一步,將所述向量g轉(zhuǎn)化為規(guī)范化的log尺度向量St:
[0022] 所述規(guī)范化的log尺度向量St表示規(guī)范化的log尺度的第t個(gè)帖的數(shù)據(jù);
[0023] 假設(shè)所述幅度譜S(t,f)共有M個(gè)帖,將所述M個(gè)帖的向量表示為一聲譜圖矩陣X =時(shí),…,S。…SJT,XGrmxw,由于特征分解的對象為方陣,因此,計(jì)算c=扔得到矩陣X的協(xié)方差矩陣CGRWXW,按W下公式利用特征值分解對所述協(xié)方差矩陣C降維:
[0024]C=UA護(hù) (3)
[00巧] / \ / 'X
(4)
[002引 C=入lUiUi' + 入 2+…+ 入N%U'N妨
[0027] C> 入lUiU/+ 入gUgUg'+…+ 入機(jī)%',K< <N (6)
[002引其中,矩陣UGR胃包含矩陣C的所有特征向量y1,…,Uw,A是對角矩陣,其對 角線上的元素是特征值A(chǔ)?!?,Aw,所述特征值…,入W代表對應(yīng)特征向量的權(quán)重,而且 入AAW,再通過W下公式計(jì)算前K個(gè)特征值的貢獻(xiàn)比重riK來衡量前K個(gè)特征 向量在表示聲音中的重要性:
[0029] (7)
[0030] 矩陣U攜帶了聲音的主要信息,選取前K個(gè)特征向量組成基本向量矩陣UkGRWxk, 所述投影特征Xk是對所述聲譜圖矩陣X在所述基本向量矩陣UkGRWXK上進(jìn)行投影;
[00引]Xk=XUk做
[0032] 其中XkGRMxk。
[0033] 進(jìn)一步的,所述步驟S5的具體內(nèi)容如下:
[0034] 紋理T是Wg。像素為中屯、,在半徑為R的環(huán)形鄰域上的P個(gè)像素點(diǎn)的聯(lián)合分布T:
[0035] Tt (s(g〇-ge),S(gj-gc), ???,s(gp-i-gc))巧)
[003引其中,g。表示所述環(huán)形領(lǐng)域的中屯、像素的像素值,gi(i= 0, 1,…,P-1)表示環(huán)形 鄰域上的P個(gè)像素點(diǎn)的灰度值,S為符號函數(shù):
[0037]
(10)
[0038] 根據(jù)所述聯(lián)合分布T按特定方向排序構(gòu)成的0/1序列結(jié)合LBP算子計(jì)算其二進(jìn)制 模式,形成LBP值,即LBPp,c;
[003引
(11)
[0040] 環(huán)形領(lǐng)域上具有P個(gè)像素點(diǎn),LBP產(chǎn)生2P種二進(jìn)制模式,即2P個(gè)不同的LBP值;
[0041] 提出一等價(jià)模式,所述等價(jià)模式對應(yīng)的循環(huán)二進(jìn)制從0到1或從1到0最多有兩 次跳變,U值表示所述等價(jià)模式中跳變的次數(shù),并用U值判定等價(jià)模式:
[0042]
[0043]所有滿足U《2的模式都稱為等價(jià)模式,所述等價(jià)模式的值稱為等價(jià)LBP值,用 l',B巧];恩衰示;
[0044]
[0045] 其中,所述LBP值左公的上標(biāo)u2表示LBP對應(yīng)的U值最大是2,所述等價(jià)模式 把模式的數(shù)量從2P減少為P(P-1)+2,除所述等價(jià)模式W外的模式都?xì)w為第P(P-1)+3類;
[0046] 對一MXN的聲譜圖提取其等價(jià)LBP,每個(gè)像素點(diǎn)(m,n)都得到一等價(jià)LBP值,該些 等價(jià)LBP值組成一等價(jià)LBP圖,所述等價(jià)LBP圖即為等價(jià)LBP值矩陣U,統(tǒng)計(jì)所述等價(jià)LBP 圖中每個(gè)數(shù)字出現(xiàn)的頻率,得到所述聲譜圖的紋理特征向量,但對于相同等價(jià)LBP值的等 價(jià)LBP圖,其紋理可能不同,統(tǒng)計(jì)每一個(gè)等價(jià)LBP值對應(yīng)的像素與周圍像素灰度值的方差, 形成一特征向量LBPV,特征向量LBPV的第k個(gè)成分LBPV(k)表示為;
[005。 其中,整數(shù)k的范圍為kG[1,P(P-l)+3],w(m,n,k)表示聲譜圖中像素(m,n)對 應(yīng)于LBPV第k個(gè)成分的等價(jià)LBP值的權(quán)值,LBPV(k)是把聲譜圖中所有像素對應(yīng)于第k個(gè) 成分的等價(jià)LBP值的權(quán)值進(jìn)行累加,根據(jù)公式(14),得到的LBPV化),LBPV(2),LBPV化),… ,LBPV(P(P-1) +3),最終形成一個(gè)大小為P(P-1) +3的特征向量LBPV。
[0052] 進(jìn)一步的,所述步驟S7的具體內(nèi)容如下:
[0053]將所述聲音樣本模塊中預(yù)存的聲音樣本對應(yīng)的雙層特征集為訓(xùn)練樣本集 W= (乃+ 相+ …,At+ 巧,從所述訓(xùn)練樣本集中自助重采樣,生成S棵決 策樹,并形成一隨機(jī)森林;
[0054] 將所述測試聲音模塊采集的聲音信號對應(yīng)的雙層特征LSPr為輸入樣本,置 于所述隨機(jī)森林中S棵決策樹的根節(jié)點(diǎn)處,按照決策樹的分類規(guī)則向下傳遞,直到到達(dá)某 一個(gè)葉節(jié)點(diǎn)處,該個(gè)葉節(jié)點(diǎn)對應(yīng)類標(biāo)便是該棵決策樹對所述雙層特征左APF所屬類 別1所做的投票,所述隨機(jī)森林的S棵決策樹均對所述雙層特征式+心BPr的類別1進(jìn)行 投