本發(fā)明涉及的是一種模式識(shí)別方法,具體地說(shuō)是一種水下聲音信號(hào)的特征提取和多目標(biāo)分類識(shí)別方法。
背景技術(shù):
聲音信號(hào)是在水下能進(jìn)行遠(yuǎn)距離傳輸?shù)闹饕芰啃问剑晠纫彩亲顬橛行У乃绿綔y(cè)手段。水下聲音信號(hào)的分類識(shí)別水聲信號(hào)研究的重點(diǎn),而在水聲識(shí)別的發(fā)展過(guò)程中經(jīng)歷了最傳統(tǒng)的聲吶員到水下目標(biāo)的自動(dòng)識(shí)別的發(fā)展。對(duì)水下聲音信號(hào)的研究最早起步于西方發(fā)達(dá)國(guó)。盡管我國(guó)在水下聲音識(shí)別領(lǐng)域起步較晚,但是在科研工作者的努力之下也取得了一些突破。主要是通過(guò)時(shí)頻轉(zhuǎn)換獲取原始信號(hào)的統(tǒng)計(jì)特性來(lái)進(jìn)行分析。具體有功率譜、線譜、小波變換、希爾伯特黃變換等方法。除此之外還有應(yīng)用到分型與混沌、高階譜等角度的方法。在目標(biāo)識(shí)別領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)已經(jīng)比較多的完成最終的分類任務(wù)?,F(xiàn)有的水下多目標(biāo)聲音識(shí)別的特征提取還是較多的采用物理分析的方法來(lái)獲取特征,這種人工提取的特征雖然有嚴(yán)謹(jǐn)?shù)睦碚撘罁?jù),但是在實(shí)際的應(yīng)用當(dāng)中已經(jīng)達(dá)到了瓶頸,從2012年開(kāi)始的深度學(xué)習(xí)熱潮,在更深的網(wǎng)絡(luò)結(jié)構(gòu)和計(jì)算機(jī)計(jì)算能力的大幅提升下取得了很大的進(jìn)步,尤其是在圖像識(shí)別和語(yǔ)音識(shí)別領(lǐng)域取得的成果已經(jīng)全面超越傳統(tǒng)方法。
目前在水下多目標(biāo)識(shí)別領(lǐng)域的研究都是基于傳統(tǒng)的方法,利用深度學(xué)習(xí)也主要集中于語(yǔ)音識(shí)別領(lǐng)域,還沒(méi)有利用深度卷積網(wǎng)絡(luò)進(jìn)行聲信號(hào)的目標(biāo)識(shí)別的相關(guān)文獻(xiàn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種能夠提高識(shí)別準(zhǔn)確率的一維深度卷積網(wǎng)絡(luò)的水下多目標(biāo)識(shí)別方法。
本發(fā)明的目的是這樣實(shí)現(xiàn)的:
對(duì)水聲信號(hào)的預(yù)加重、交疊分幀聲音信號(hào)長(zhǎng)度選擇、輸入卷積網(wǎng)絡(luò)提取特征、調(diào)整選擇網(wǎng)絡(luò)參數(shù)、極限學(xué)習(xí)機(jī)進(jìn)行分類識(shí)別,所述預(yù)加重是采用6dB/倍頻的一階數(shù)字濾波器增強(qiáng)高頻部分使信號(hào)頻譜平坦;所述交疊分幀聲音信號(hào)長(zhǎng)度選擇是選用窗函數(shù)對(duì)信號(hào)進(jìn)行截取,獲得時(shí)長(zhǎng)為170ms的信號(hào)作為卷積神經(jīng)網(wǎng)絡(luò)的最佳輸入幀長(zhǎng);所述輸入卷積網(wǎng)絡(luò)提取特征是采用一維深度卷積網(wǎng)絡(luò)對(duì)聲音信號(hào)進(jìn)行特征提取;所述調(diào)整選擇網(wǎng)絡(luò)參數(shù)是使用訓(xùn)練樣本集對(duì)卷積網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)得到能獲取最佳特征的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù);所述極限學(xué)習(xí)機(jī)進(jìn)行分類識(shí)別為選擇極限學(xué)習(xí)機(jī)對(duì)卷積網(wǎng)絡(luò)的輸出特征進(jìn)行分類識(shí)別。
本發(fā)明還可以包括:
1、所述選用窗函數(shù)對(duì)信號(hào)進(jìn)行截取是用窗函數(shù)w(n)乘以原始信號(hào)s(n),得到幀信號(hào)sw(n)=s(n)*w(n),窗函數(shù)選擇旁瓣衰減較少的漢明窗。
2、所述采用一維深度卷積網(wǎng)絡(luò)對(duì)聲音信號(hào)進(jìn)行特征提取是使用三層卷積加兩層池化的深度卷積網(wǎng)絡(luò)對(duì)原始語(yǔ)音信號(hào)進(jìn)行逐層特征提取。
3、所述網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)包括卷積核大小、卷積步長(zhǎng)、池化核大小、池化步長(zhǎng)、激活函數(shù)、學(xué)習(xí)率、沖量大小。
4、所述選擇極限學(xué)習(xí)機(jī)對(duì)卷積網(wǎng)絡(luò)的輸出特征進(jìn)行分類識(shí)別包括:將由深度遞歸網(wǎng)絡(luò)逐層提取的特征圖全連接到極限學(xué)習(xí)機(jī)分類器上,選用一個(gè)無(wú)限可微的激活函數(shù),隨機(jī)設(shè)置輸入層權(quán)重和隱含層偏置,僅訓(xùn)練輸出層權(quán)值。
受啟發(fā)于深度學(xué)習(xí)的方法,本發(fā)明提出了一種使用一維深度卷積網(wǎng)絡(luò)對(duì)原始聲音信號(hào)進(jìn)行自動(dòng)特征提取來(lái)取代傳統(tǒng)的物理方法、并用極限學(xué)習(xí)機(jī)來(lái)進(jìn)行對(duì)特征的分類識(shí)別的方法。本發(fā)明從深度學(xué)習(xí)借鑒靈感,利用深度學(xué)習(xí)強(qiáng)大的表征能力自動(dòng)提取聲音信號(hào)的特征作為分類識(shí)別的依據(jù),提高水下多目標(biāo)聲信號(hào)的識(shí)別準(zhǔn)確率。
本發(fā)明利用深度學(xué)習(xí)的方法,設(shè)計(jì)了一維深度卷積網(wǎng)絡(luò)對(duì)原始水下聲音信號(hào)進(jìn)行特征提取,網(wǎng)絡(luò)能夠自動(dòng)提取出有效的特征信息,取代了依靠物理分析進(jìn)行的人工特征提取特征,使得獲取的特征能夠盡量多的包含有用的特征信息,避免了在進(jìn)行物理分析時(shí)損失部分信息,從而提高識(shí)別準(zhǔn)確率。
本發(fā)明的一維深度卷積神經(jīng)網(wǎng)絡(luò)的聲音信號(hào)特征自動(dòng)提取方法,主要包括包括:預(yù)加重、交疊分幀聲音信號(hào)長(zhǎng)度選擇、輸入卷積網(wǎng)絡(luò)提取特征、調(diào)整選擇網(wǎng)絡(luò)參數(shù)、極限學(xué)習(xí)機(jī)進(jìn)行分類識(shí)別。采用6dB/倍頻的一階數(shù)字濾波器增強(qiáng)高頻部分使信號(hào)頻譜平坦;選用窗函數(shù)對(duì)信號(hào)進(jìn)行截取,獲得時(shí)長(zhǎng)為170ms的信號(hào)作為卷積神經(jīng)網(wǎng)絡(luò)的最佳輸入幀長(zhǎng);選擇最佳的卷積網(wǎng)絡(luò)結(jié)構(gòu),卷積核大小,卷積步長(zhǎng),池化核大小,池化步長(zhǎng),激活函數(shù),學(xué)習(xí)率,沖量大小進(jìn)行特征提??;選擇極限學(xué)習(xí)機(jī)對(duì)卷積網(wǎng)絡(luò)的輸出特征進(jìn)行分類識(shí)別。本發(fā)明的主要特點(diǎn)體現(xiàn)在:
1、采用6dB/倍頻的一階數(shù)字濾波器增強(qiáng)高頻部分,是基于水聲信號(hào)中能量損耗的存在,使得水聲信號(hào)能量在高頻處要明顯小于低頻處和中頻處的能量,大部分能量集中在低頻區(qū)域,不適合作統(tǒng)一的分析與處理,所以需要對(duì)聲音信號(hào)進(jìn)行高頻增強(qiáng)。研究發(fā)現(xiàn)能量損耗有這樣的規(guī)律:信號(hào)的頻率每提高兩倍,信號(hào)的功率譜幅值下降約6分貝。所以采用用6dB/倍頻程來(lái)增強(qiáng)高頻部分使信號(hào)頻譜能夠變得平坦,便于頻譜分析。
2、交疊分幀是基于聲音信號(hào)的短時(shí)平穩(wěn)特性,采用固定幀長(zhǎng)和幀移將原始信號(hào)截取為一段段的短時(shí)聲音信號(hào)。使用一個(gè)有限長(zhǎng)度的窗函數(shù)對(duì)聲音信號(hào)進(jìn)行截取,就是用窗函數(shù)w(n)乘以原始信號(hào)s(n),得到幀信號(hào)sw(n)=s(n)*w(n)。窗函數(shù)選擇旁瓣衰減較少的漢明窗。
3、采用一維深度卷積網(wǎng)絡(luò)對(duì)聲音信號(hào)進(jìn)行特征提取,是基于計(jì)算速度和存儲(chǔ)能力的提升,使用三層卷積加兩層池化的深度卷積網(wǎng)絡(luò)對(duì)原始語(yǔ)音信號(hào)進(jìn)行逐層特征提取。替代傳統(tǒng)人工轉(zhuǎn)換提取出代表聲音特征參數(shù)(如美爾倒譜系數(shù)(MFCC)、希爾伯特黃變換(HHT))。避免在信號(hào)進(jìn)行時(shí)頻轉(zhuǎn)換或相應(yīng)變換時(shí),損失信號(hào)本身的特征信息。使用訓(xùn)練樣本集對(duì)卷積網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)得到能獲取最佳特征的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),包括卷積核大小,卷積步長(zhǎng),池化核大小,池化步長(zhǎng),激活函數(shù),學(xué)習(xí)率,沖量大小。訓(xùn)練后得到最終的特征圖表示。
4、選擇極限學(xué)習(xí)機(jī)對(duì)卷積網(wǎng)絡(luò)的輸出特征進(jìn)行分類識(shí)別,將由深度遞歸網(wǎng)絡(luò)逐層提取的特征圖全連接到極限學(xué)習(xí)機(jī)分類器上。選用一個(gè)無(wú)限可微的的激活函數(shù),隨機(jī)設(shè)置輸入層權(quán)重和隱含層偏置,僅訓(xùn)練輸出層權(quán)值。能夠快速的完成網(wǎng)絡(luò)訓(xùn)練,并獲取更好的泛化能力。最終完成對(duì)水下聲音信號(hào)的分類識(shí)別,提高識(shí)別準(zhǔn)確率。
本發(fā)明的特點(diǎn)在于:利用深度學(xué)習(xí)中的深度卷積網(wǎng)絡(luò)(CNN)對(duì)聲音信號(hào)進(jìn)行特征提取,替代傳統(tǒng)的人工提取特征,自動(dòng)提取的聲音特征包含有更為豐富的識(shí)別信息。利用極限學(xué)習(xí)機(jī)(ELM)對(duì)卷積網(wǎng)絡(luò)自動(dòng)提取的特征進(jìn)行分類識(shí)別,能有效找出不同于傳統(tǒng)人工分析的特征,提高了水下聲音信號(hào)的識(shí)別率。
附圖說(shuō)明
圖1一維卷積網(wǎng)絡(luò)水下聲音信號(hào)分類識(shí)別方法的模塊組成。
圖2三類民船原始聲音信號(hào)。
圖3(a)-圖3(c)聲音信號(hào)的分幀加窗:其中圖3(a)為聲音信號(hào)分幀示意圖;圖3(b)為漢明窗函數(shù)圖;圖3(c)構(gòu)建卷積網(wǎng)絡(luò)的輸入特征圖。
圖4(a)-圖4(b)特征提取及識(shí)別的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì):其中圖4(a)為特征提取和分類識(shí)別的總體框架圖;圖4(b)為深度卷積神經(jīng)網(wǎng)絡(luò)的特征提取結(jié)構(gòu)圖。
圖5(a)-圖5(b)的表1.1-1.2是不同幀長(zhǎng)的聲音信號(hào)作為卷積網(wǎng)絡(luò)的輸入后的識(shí)別效果:其中圖5(a)的表1.1為不同幀長(zhǎng)的識(shí)別率(訓(xùn)練樣本);圖5(b)的表1.2為不同幀長(zhǎng)的識(shí)別率(測(cè)試樣本)。
圖6(a)-圖6(c)為最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)以及訓(xùn)練過(guò)程涉及到的參數(shù)表:其中圖6(a)的表2.1為卷積網(wǎng)絡(luò)結(jié)構(gòu);圖6(b)的表2.2為網(wǎng)絡(luò)訓(xùn)練參數(shù)取值;圖6(c)的表2.3為不同池化方式的對(duì)比。
圖7的表3不同特征的分類效果比較。
圖8(a)-圖8(b)為不同的分類器的的識(shí)別效果對(duì)比表:其中圖5(a)的表4.1為不同分類器性能比較(MFCC特征);圖5(b)的表4.2為不同分類器性能比較(卷積網(wǎng)絡(luò)特征)。
具體實(shí)施方式
下面結(jié)合舉例對(duì)本發(fā)明做詳細(xì)描述。
本發(fā)明實(shí)驗(yàn)環(huán)境為64位win7操作系統(tǒng),64GB內(nèi)存24核CPU,NVIDIA公司的K40GPU。軟件工具為MATLAB 2015,VS 2013,CUDA 6.5。在特征提取過(guò)程中,在MATLAB上配置神經(jīng)網(wǎng)絡(luò)各層參數(shù),配置后用C++編寫的網(wǎng)絡(luò)訓(xùn)練,網(wǎng)絡(luò)前向傳播等文件編譯成MATLAB可執(zhí)行文件,實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練,采用訓(xùn)練好的卷積網(wǎng)絡(luò)對(duì)聲音信號(hào)進(jìn)行特征提取,輸入分類器分類識(shí)別。實(shí)驗(yàn)過(guò)程中使用CUDA進(jìn)行GPU并行加速運(yùn)算。
1、聲音信號(hào)的預(yù)加重
采集到的數(shù)據(jù)集為實(shí)測(cè)民船數(shù)據(jù)集,在該數(shù)據(jù)集中總共有小艇、大船、渤海輪渡三類不同型號(hào)的民船,數(shù)據(jù)集中聲音信號(hào)的采樣頻率均為12800Hz。小艇聲音信號(hào)的采集時(shí)間約為18分鐘,大船的信號(hào)采集時(shí)間約為19分鐘,渤海輪渡的信號(hào)采集時(shí)間約為25分鐘。在實(shí)驗(yàn)中每類的百分之八十的樣本用作訓(xùn)練集,剩余的百分之二十作為測(cè)試集。
在水聲信號(hào)中由于能量損耗的存在,使得水聲信號(hào)能量在高頻處要明顯小于低頻處和中頻處的能量,大部分能量集中在低頻區(qū)域,不適合做統(tǒng)一的分析與處理,所以需要對(duì)聲音信號(hào)進(jìn)行高頻增強(qiáng)。能量損耗具有如下的規(guī)律:當(dāng)聲音信號(hào)的頻率每提高兩倍,信號(hào)功率譜的幅值下降約6分貝。所以預(yù)加重也應(yīng)該采用6dB/倍頻程來(lái)增強(qiáng)高頻部分??梢圆捎镁哂?分貝/倍頻程的數(shù)字濾波器實(shí)現(xiàn)信號(hào)的預(yù)加重,預(yù)加重濾波器通常為一階的,其形式如下式所示:
H(z)=1-μz-1 (1-1)
式中,μ稱之為預(yù)加重系數(shù),其值約為1,實(shí)際應(yīng)用中通常取0.94~0.97之間的值。將此系統(tǒng)函數(shù)轉(zhuǎn)化為輸入和輸出之間的差分方程關(guān)系,如下式所示:
y(n)=x(n)-μx(n-1) (1-2)
對(duì)輸入的聲音信號(hào)都進(jìn)行這樣的操作,就實(shí)現(xiàn)了信號(hào)預(yù)加重的目的。經(jīng)過(guò)預(yù)加重分析處理之后的信號(hào),需進(jìn)行去加重操作,即加上-6分貝/倍頻程的頻率特性將信號(hào)還原成原來(lái)的特性。
2、聲音信號(hào)的分幀加窗
聲音信號(hào)具有短時(shí)平穩(wěn)特性。因此,可以在聲音信號(hào)的短時(shí)處理過(guò)程中引入平穩(wěn)信號(hào)的處理方法與理論,每個(gè)短時(shí)的聲音片段被稱作一個(gè)分析幀。將原始聲音信號(hào)截為一段一段的短時(shí)聲音信號(hào)即為分幀。語(yǔ)音信號(hào)分幀采用交疊分段的方法。如圖3(a)所示,通常情況下幀長(zhǎng)為20~30ms,后一幀和前一幀之間的距離稱之為幀移,為了使幀和幀之間能夠平滑過(guò)渡,幀移和幀長(zhǎng)的比值通常選擇0~1/2。
通常我們使用一個(gè)有限長(zhǎng)度的窗函數(shù)對(duì)聲音信號(hào)進(jìn)行截取,窗函數(shù)窗寬之外的采樣點(diǎn)被置為零用于獲取當(dāng)前語(yǔ)音幀。也就是用一個(gè)窗函數(shù)w(n)來(lái)乘上s(n),從而形成加窗聲音信號(hào)sw(n)=s(n)*w(n)。最常用的的窗函數(shù)有漢明(hamming)窗,即
在分幀的的過(guò)程中涉及到幀長(zhǎng)的問(wèn)題,如果幀長(zhǎng)選擇太小每幀中包含的分類信息太少,無(wú)法自動(dòng)提取有用的分類特征;如果幀長(zhǎng)選擇太大,在特征提取過(guò)程中需要的網(wǎng)絡(luò)層的個(gè)數(shù)將會(huì)大大增加,必然會(huì)導(dǎo)致計(jì)算量的進(jìn)一步增大。因此選擇合適的幀長(zhǎng)作為深度卷積網(wǎng)絡(luò)的輸入顯得尤為重要。通過(guò)大量的實(shí)驗(yàn),不斷嘗試得到了一個(gè)合適的幀長(zhǎng)。圖5(a)的表1.1、圖5(b)的表1.2列出了不同幀長(zhǎng)的聲音信號(hào)作為卷積網(wǎng)絡(luò)的輸入,通過(guò)深度卷積進(jìn)行特征提取后的特征用于極限學(xué)習(xí)機(jī)(ELM)進(jìn)行分類識(shí)別的識(shí)別效果。
3、利用一維卷積網(wǎng)絡(luò)進(jìn)行聲音信號(hào)的特征提取
傳統(tǒng)的特征提取方法,比如希爾伯特黃變換,美爾頻率倒譜系數(shù)(MFCC)以及小波變換等,其時(shí)域波形進(jìn)行進(jìn)行相應(yīng)變換時(shí),會(huì)損失信號(hào)本身的一些信息。鑒于深度學(xué)習(xí)在語(yǔ)音識(shí)別領(lǐng)域取得的成績(jī),本發(fā)明提出一種新的特征提取方法用于艦船聲音信號(hào)識(shí)別。網(wǎng)絡(luò)的總體框架如圖4(a)所示。對(duì)原始語(yǔ)音信號(hào)直接分幀處理,分幀后的語(yǔ)音信號(hào)作為卷積網(wǎng)絡(luò)的輸入,利用深度卷積網(wǎng)絡(luò)對(duì)艦船聲音信號(hào)進(jìn)行逐層特征提取,卷積網(wǎng)絡(luò)的每層的輸出都可以看作是對(duì)原始語(yǔ)音信號(hào)的一種深層次表示,將網(wǎng)絡(luò)前一層的輸出作為后一層網(wǎng)絡(luò)的輸入,不斷進(jìn)行提取最后得到聲音信號(hào)的高級(jí)特征。
如圖4(b)所示,在特征提取過(guò)程中輸入層為采用交疊分幀后的原始語(yǔ)音信號(hào)波形(也稱之為輸入特征圖)。不同于全連接神經(jīng)網(wǎng)絡(luò),下層的神經(jīng)元與上層的每一個(gè)神經(jīng)元都連接,卷積神經(jīng)網(wǎng)絡(luò)中下層中的神經(jīng)元只是將上層中的一小部分近鄰的神經(jīng)元作為輸入,也就是所謂的局部感受野。在卷積層,采用一個(gè)通過(guò)反向傳播算法得到的卷積核對(duì)于上層的輸入特征圖進(jìn)行遍歷,可以得到一張對(duì)應(yīng)的輸出特征圖,這個(gè)輸出特征圖是對(duì)上層輸入的另外一種表示方法,相當(dāng)于對(duì)上層輸入進(jìn)行一次自適應(yīng)的特征學(xué)習(xí)。采用多個(gè)不同的卷積核對(duì)上層特征圖進(jìn)行卷積運(yùn)算得到多個(gè)不同的特征圖,這些特征圖是輸入特征圖不同類型的特征表示。卷積層后緊接著的池化層,池化層降低了特征圖的分辨率,同時(shí)也降低了網(wǎng)絡(luò)輸出對(duì)于位移和變形的敏感程度,減少運(yùn)算復(fù)雜度。多次卷積池化后通過(guò)一個(gè)全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)最終的分類。因?yàn)楸景l(fā)明采用卷積網(wǎng)絡(luò)進(jìn)行特征提取而不是分類識(shí)別,所以在網(wǎng)絡(luò)訓(xùn)練完成后將前8層提出來(lái)作為特征提取器,最后一層(輸出層)移除。為了方便實(shí)現(xiàn),全連接過(guò)程相當(dāng)于采用一個(gè)1*1的卷積核對(duì)上層所有特征圖進(jìn)行卷積求和,特征圖的個(gè)數(shù)相當(dāng)于全連接網(wǎng)絡(luò)中當(dāng)前層神經(jīng)元的個(gè)數(shù)。
獲得了最佳的輸入幀長(zhǎng)后,在卷積網(wǎng)絡(luò)中還有大量的參數(shù)需要學(xué)習(xí),卷積核的大小、卷積的步長(zhǎng)、池化核的大小、池化步長(zhǎng)的選擇等問(wèn)題。通過(guò)大量的實(shí)驗(yàn)驗(yàn)證得到:在聲音信號(hào)的特征提取過(guò)程中,卷積核的大小選擇尤為重要,網(wǎng)絡(luò)的第一個(gè)卷積層卷積核的大小選擇204,步長(zhǎng)可以選擇為25效果最佳。在其他卷積層中,卷積核大小選擇12左右即可。池化核的大小通常選擇2,且不存在重疊(即池化核的大小等于步長(zhǎng))。網(wǎng)絡(luò)采用誤差反向傳播算法進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中采用批樣本處理(每200個(gè)樣本進(jìn)行一次權(quán)值更新)。訓(xùn)練步長(zhǎng)選擇為0.02,沖量大小為0.09。最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)以及訓(xùn)練過(guò)程涉及到的參數(shù)見(jiàn)圖6(a)的表2.1、圖6(b)的2.2。
在池化過(guò)程中有兩種常見(jiàn)的池化方式:均值池化以及最大值池化。本發(fā)明將這兩種不同的池化方式進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表圖6(c)的2.3所示。通過(guò)表上可以看出:在池化過(guò)程中選擇不同的池化方式對(duì)提取的特征有較大影響。兩個(gè)池化層全采用均值池化的性能最差,在池化過(guò)程中采用均值池化和最大值池化相結(jié)合效果較為理想,而且在池化過(guò)程中,網(wǎng)絡(luò)最后一個(gè)池化層采用均值池化的效果要優(yōu)于最大值池化。
將傳統(tǒng)的“手動(dòng)特征”和本發(fā)明所使用的深度卷積網(wǎng)絡(luò)自動(dòng)提取的特征進(jìn)行對(duì)比。在實(shí)驗(yàn)中選擇的分類器都為極限學(xué)習(xí)機(jī)分類器,但極限學(xué)習(xí)機(jī)隱藏層神經(jīng)元的個(gè)數(shù)以及激活函數(shù)不同。實(shí)驗(yàn)結(jié)果如圖7的表3所示:
通過(guò)表所示可知:在MFCC作為極限學(xué)習(xí)機(jī)分類器的特征中,選擇Sigmoid函數(shù)作為激活函數(shù),隱含層神經(jīng)元的個(gè)數(shù)只需40個(gè)就可以達(dá)到一個(gè)較好的識(shí)別性能。在激活函數(shù)的選擇問(wèn)題上,傳統(tǒng)特征中ELM隱含層激活函數(shù)選擇sigmoid函數(shù)性能較好,而通過(guò)深度卷積網(wǎng)絡(luò)提取的特征,ELM隱層神經(jīng)元的激活函數(shù)選擇反正切函數(shù)較好。對(duì)于希爾伯特黃變換提取的特征而言,在隱藏層神經(jīng)元個(gè)數(shù)達(dá)到60個(gè)時(shí)性能較好,相比MFCC特征在隱層神經(jīng)元個(gè)數(shù)增加了20個(gè),極限學(xué)習(xí)機(jī)訓(xùn)練時(shí)間會(huì)有所增加,因此從整體上來(lái)看MFFC特征要優(yōu)于希爾伯特黃變換提取的特征。對(duì)于深度學(xué)習(xí)提取到的特征而言,其識(shí)別率明顯的要高于傳統(tǒng)特征提取獲得的特征,而且在激活函數(shù)的上,ELM隱藏層神經(jīng)元激活函數(shù)選擇反正切函數(shù)的識(shí)別率要明顯高于sigmoid函數(shù),且隱藏層神經(jīng)元的個(gè)數(shù)為40時(shí)性能最優(yōu)。
總結(jié)可得:
1、通過(guò)深度學(xué)習(xí)對(duì)原始語(yǔ)音信號(hào)進(jìn)行特征提取得到的特征是有效的,采用ELM算法可以實(shí)現(xiàn)對(duì)于民船聲音信號(hào)的分離,且在測(cè)試集上識(shí)別率可以達(dá)到93.04%。
2、對(duì)比于傳統(tǒng)的MFCC特征和希爾伯特黃變換得到的特征,深度學(xué)習(xí)得到的特征更易于分類,在識(shí)別率上本發(fā)明采用的特征比傳統(tǒng)特征的是比率要高5%~10%。這主要是因?yàn)閭鹘y(tǒng)的特征是“手動(dòng)”生成的特征,沒(méi)有充分考慮到信號(hào)的內(nèi)在聯(lián)系,而深度學(xué)習(xí)實(shí)現(xiàn)“自動(dòng)”特征的提取。
4、極限學(xué)習(xí)機(jī)(ELM)進(jìn)行多目標(biāo)分類
完成最終的分類識(shí)別任務(wù),除了要有便于分類的特征之外,分類器的選擇是系統(tǒng)的至關(guān)重要的另一部分,分類器的好壞將直接影響最終系統(tǒng)的性能。隨著模式識(shí)別技術(shù)的快速發(fā)展,各種各樣的分類技術(shù)層出不窮,主要的分類器有基于距離度量的分類器、基于概率統(tǒng)計(jì)的分類器、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等。這些常見(jiàn)算法中各自都有各自的優(yōu)點(diǎn),但是在實(shí)際的應(yīng)用中也因?yàn)槿蝿?wù)不同而有不同的表現(xiàn)。
在分類器階段主要對(duì)比了本發(fā)明所使用的極限學(xué)習(xí)機(jī)與傳統(tǒng)的分類支持向量機(jī)、最近鄰分類器之間的性能差異(主要包含識(shí)別率,分類時(shí)間,訓(xùn)練時(shí)間等)。在本發(fā)明中采用的特征為深度卷積網(wǎng)絡(luò)自動(dòng)提取的特征以及傳統(tǒng)的MFCC特征,在每類船的特征中選擇五分之一作為測(cè)試樣本,剩余的樣本用于網(wǎng)絡(luò)的訓(xùn)練。實(shí)驗(yàn)數(shù)據(jù)如圖8(a)的表4.1、圖8(b)的4.2所示:實(shí)驗(yàn)中,極限學(xué)習(xí)機(jī)隱藏層神經(jīng)元的個(gè)數(shù)均為40個(gè),訓(xùn)練時(shí)間和測(cè)試時(shí)間都是指單個(gè)樣本的平均時(shí)間。從表中可以看出采用極限學(xué)習(xí)機(jī)算法對(duì)于民船聲音信號(hào)分類是可行的,可以實(shí)現(xiàn)對(duì)于特征空間的劃分。對(duì)于深度學(xué)習(xí)得到的特征ELM分類器性能更優(yōu),在測(cè)試集上達(dá)到93.04%的識(shí)別率。