本發(fā)明屬于聲音信號(hào)識(shí)別
技術(shù)領(lǐng)域:
,尤其涉及一種基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法。
背景技術(shù):
:近年來(lái)自然環(huán)境聲音的識(shí)別取得了廣泛的關(guān)注,自然環(huán)境中充滿了多種聲音,如車輛行駛中的發(fā)動(dòng)機(jī)聲和汽車?yán)嚷?,建筑工地上的施工聲音,人的說(shuō)話聲,鳥蟲鳴叫聲,風(fēng)雨聲等。自然環(huán)境聲音的識(shí)別是機(jī)器監(jiān)控的一個(gè)重要部分,對(duì)建設(shè)智慧城市和發(fā)展智能家居也有重要的作用。目前的自然環(huán)境聲音識(shí)別技術(shù),在特征提取方面使用的技術(shù)大多借鑒于語(yǔ)音識(shí)別算法,包括:線性預(yù)測(cè)倒譜系數(shù)(LPCC)、梅爾頻率倒譜系數(shù)(MFCC)、過(guò)零率(ZCR)等。但此類特征用于語(yǔ)音信號(hào)的識(shí)別,是以語(yǔ)音的短時(shí)平穩(wěn)性為基礎(chǔ)的,自然環(huán)境中的聲音卻并非都具有短時(shí)平穩(wěn)性。同時(shí),由于聲音信號(hào)在傳播中的的衰減效應(yīng),單一的時(shí)域特征如LPCC、ZCR或者單一的頻域特征如MFCC,都不能夠準(zhǔn)確的描述不同距離下的自然環(huán)境聲音信號(hào)。因此,語(yǔ)音識(shí)別的特征提取方法,在對(duì)自然環(huán)境聲音的識(shí)別方面并不能完全適用。技術(shù)實(shí)現(xiàn)要素:針對(duì)目前存在如以上所述的技術(shù)問(wèn)題,本發(fā)明提供了一種基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法。針對(duì)不同聲音信號(hào)如發(fā)動(dòng)機(jī)聲、汽車?yán)嚷暋⒔ㄖ┕ぢ?、說(shuō)話聲等,根據(jù)其能量隨時(shí)間變化程度的區(qū)別和頻譜能量分布上的區(qū)別,對(duì)各類自然環(huán)境中的聲音進(jìn)行識(shí)別,判斷目標(biāo)聲音所屬的類別。為了實(shí)現(xiàn)上述目的,本發(fā)明采用技術(shù)方案包括如下步驟:步驟1、采集各類自然環(huán)境聲音,建立聲音樣本庫(kù);步驟2、聲音樣本信號(hào)的加窗分幀處理;步驟3、提取所有幀信號(hào)在時(shí)域上的統(tǒng)計(jì)特征:平均幀能量變化系數(shù)、能量沖擊型幀信號(hào)占比、平均能量脈沖寬度、脈沖寬度離散程度、平均脈沖間隔寬度、間隔寬度離散程度和脈沖個(gè)數(shù),以及在頻譜分布上的特征:頻帶能量分量占比、頻帶幀能量分布離散程度和總頻帶幀能量分布離散程度,組成特征向量;步驟4、標(biāo)記特征向量所屬聲音來(lái)源的種類,建立樣本特征庫(kù);步驟5、利用支持向量機(jī)訓(xùn)練特征向量,建立訓(xùn)練模型;步驟6,提取目標(biāo)聲音的特征向量;步驟7、利用支持向量機(jī)對(duì)目標(biāo)聲音的特征向量進(jìn)行匹配分類;步驟8、提供識(shí)別結(jié)果。所述步驟1的建立聲音樣本庫(kù):將聲音采集裝置放置在戶外施工現(xiàn)場(chǎng),按照不同的距離采集自然環(huán)境聲音,并給聲音標(biāo)定其所屬自然環(huán)境聲音的種類后作為聲音樣本庫(kù)。自然環(huán)境聲音包括:發(fā)動(dòng)機(jī)聲、汽車?yán)嚷暋⒔ㄖ┕ぢ?、說(shuō)話聲和現(xiàn)場(chǎng)風(fēng)噪聲。所述步驟2的聲音樣本信號(hào)的加窗分幀處理:首先對(duì)聲音進(jìn)行濾波處理,使用高通濾波器濾除50Hz以下的低頻干擾信號(hào);再將聲音分為一秒鐘每段,對(duì)每一段聲音加Hamming窗做分幀處理,每幀選取256個(gè)采樣點(diǎn),為了保持幀信號(hào)間的連續(xù)性,幀移選取為128個(gè)采樣點(diǎn)。所述步驟3的所有幀信號(hào)在時(shí)域上的統(tǒng)計(jì)特征提取過(guò)程如下:3-1.設(shè)fs為采樣頻率,每秒的連續(xù)聲音信號(hào)s(t)經(jīng)過(guò)采樣后離散化為s[n],設(shè)對(duì)每秒信號(hào)進(jìn)行分幀處理的幀長(zhǎng)為N,幀移為總幀數(shù)為NF。則第i幀信號(hào)si(n)的短時(shí)幀能量計(jì)算公式為:Ei=Σn=0N-1si2(n)]]>3-2.對(duì)所有幀能量中位值以下的幀能量取平均值,記為Emed-ave,則:Emed-ave={1NlowerΣlEl|El<Emedian}]]>其中Emedian為所有幀能量的中位值,而Nlower為能量在中位值以下的幀的個(gè)數(shù),El表示中位值以下的幀能量。3-3.對(duì)信號(hào)s[n]做傅里葉變換,得到頻譜分布信息,短時(shí)傅里葉變換的公式為:Si(k)=Σn=0N-1si(n)e-j2nπNk,k=0,...N-1]]>其中,Si(k)是第i幀信號(hào)si(n)的STFT。3-4.根據(jù)不同種類的自然環(huán)境聲音在每幀時(shí)域能量和頻譜分布上的特點(diǎn),取其統(tǒng)計(jì)值作為每段聲音的特征。每幀信號(hào)時(shí)域能量幀能量變化系數(shù)公式表示為它反映的是幀信號(hào)的能量沖擊程度。為使各類自然環(huán)境聲音之間具有區(qū)別性,濾除低于幀能量平均值的幀后,取所有幀信號(hào)的平均幀能量變化系數(shù)作為特征I,即其中,為所有幀能量的平均值,mean(·)為對(duì)集合中的元素求平均值。3-5.根據(jù)不同聲音信號(hào)的特點(diǎn),設(shè)定一個(gè)幀能量沖擊系數(shù)的閾值T,將信號(hào)分為能量沖擊型幀信號(hào)和非沖擊型幀信號(hào),濾除低于幀能量平均值的幀后,統(tǒng)計(jì)一段自然環(huán)境聲音的沖擊型能量幀信號(hào)所占比例,作為特征II,即crad({Ei|EiEmed-ave>T})crad({Ei|Ei>Eave})]]>其中,Eave表示所有幀能量的平均值,crad(·)表示求集合中元素的個(gè)數(shù)。由于不同的聲音信號(hào)能量波形具有不同的脈沖特性,利用平均幀能量截取信號(hào)的能量波形,即高于平均能量的幀用平均能量替代,截取后的幀能量公式為:ETr,i=EaveifEi≥EaveEiifEi<Eave]]>3-6.對(duì)將被截?cái)嗟母鲙男蛱?hào)存入一個(gè)向量a,a中的數(shù)值是遞增的,即a(k)<a(k+1)。計(jì)算da(k)=a(k+1)-a(k),k=1,…,K-1,其中,K是被截?cái)嗟膸目倐€(gè)數(shù)。根據(jù)定義,將da表示為其中,為li維向量,表示有l(wèi)i個(gè)1,而Δi>1是截?cái)嗄芰繋牟贿B續(xù)點(diǎn),i=1,…I是1-vector的數(shù)量,即這段信號(hào)的脈沖數(shù)量。因此脈沖的寬度脈沖之間的間隔寬度3-7.計(jì)算所有脈沖的寬度均值作為特征III,即mean(TERda);計(jì)算所有脈沖之間的間隔寬度的平均值作為特征IV,即mean(IoPda);計(jì)算所有脈沖的寬度變異系數(shù)作為特征V,即計(jì)算所有脈沖間隔寬度的變異系數(shù)作為特征VI,即計(jì)算所有脈沖的個(gè)數(shù)作為特征VII,即I。由于不同聲音信號(hào)的頻譜分布不同,其能量集中在不同的頻帶上,因此將每幀信號(hào)按照頻率劃分為三個(gè)頻帶,分別記為[k1,k2]、[k3,k4]、[k5,k6],整段信號(hào)s(n)在第k頻帶的能量公式為:Ek1,k2=Σi=1NFΣk=k1k2Efre(i)(k)]]>其中,為短時(shí)傅里葉變換后,第i幀信號(hào)在第k頻帶的能量分量。信號(hào)s(n)在所有頻帶的總能量為:Eall=Σi=1NFΣk=1N2Efre(i)(k)]]>因此能夠計(jì)算第一個(gè)頻帶的能量占總頻帶比重,作為一段聲音信號(hào)的特征VIII,即計(jì)算第二個(gè)頻帶能量占總能量的比重作為特征IX,即計(jì)算第三個(gè)頻帶能量占總能量的比重作為特征X,即由于不同聲音信號(hào)頻譜特性,一段聲音信號(hào)中,如說(shuō)話聲,建筑施工聲的幀能量之間有高低間隔的情況出現(xiàn),而發(fā)動(dòng)機(jī)的幀能量近似平均,即不同聲音信號(hào)幀能量的離散程度不同,且在不同頻帶有區(qū)別。因此,為了反映各類聲音的在不同幀信號(hào)之間的各頻帶和總能量上分布的離散程度,計(jì)算總頻帶所有幀能量的變異系數(shù)作為特征XI,即計(jì)算第一個(gè)頻帶所有幀能量的變異系數(shù)作為特征XII,即計(jì)算第二個(gè)頻帶所有幀能量的變異系數(shù)作為特征XIII,即計(jì)算第三個(gè)頻帶所有幀能量的變異系數(shù)作為特征XIV,即將以上14個(gè)特征組成一個(gè)14維向量,作為一段聲音信號(hào)的特征向量。步驟4的建立樣本特征庫(kù):從聲音樣本庫(kù)中提取每一類自然環(huán)境聲音樣本的特征,并給每類聲音的特征標(biāo)定其所屬種類。所述步驟5的建立訓(xùn)練模型:是利用支持向量機(jī)對(duì)樣本特征庫(kù)進(jìn)行訓(xùn)練,得到訓(xùn)練模型。所述步驟6的提取目標(biāo)聲音特征向量:目標(biāo)聲音的特征提取和使用和樣本聲音特征提取完全相同的過(guò)程。所述步驟7的匹配分類:利用支持向量機(jī)對(duì)目標(biāo)聲音的特征向量與訓(xùn)練模型進(jìn)行模式匹配,給出判斷結(jié)果。本發(fā)明的有益效果如下:本發(fā)明的基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法,由聲音的特性入手,在短時(shí)幀分析的基礎(chǔ)上,提取幀信號(hào)在時(shí)域和頻譜上的特征,彌補(bǔ)了傳統(tǒng)的聲音LPCC和MFCC特征提取方法在時(shí)頻結(jié)合方面的不足,滿足自然環(huán)境聲音的識(shí)別要求。利用本發(fā)明的基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法能夠提高識(shí)別效果。附圖說(shuō)明圖1為本發(fā)明方法流程圖;圖2為本發(fā)明方法中的特征提取流程圖;具體實(shí)施方式下面結(jié)合的具體實(shí)施方式對(duì)本發(fā)明作詳細(xì)說(shuō)明,以下描述僅作為示范和解釋,并不對(duì)本發(fā)明作任何形式上的限制。如圖1和2所示,基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音(如:發(fā)動(dòng)機(jī)聲,汽車?yán)嚷?,建筑施工聲,說(shuō)話聲)識(shí)別方法具體實(shí)施方式的步驟如下:步驟1、將采樣頻率為fs的聲音采集裝置放置在距離聲源點(diǎn)不同距離處,多次采集每類自然環(huán)境的聲音,標(biāo)定聲音所屬類型后作為聲音樣本庫(kù)。步驟2、將聲音樣本進(jìn)行預(yù)處理,通過(guò)高通濾波器,濾除50Hz以下的低頻干擾信號(hào),再將聲音分幀為分為一秒鐘每段,并對(duì)每段信號(hào)加Hamming窗做分幀處理,每幀選取256個(gè)采樣點(diǎn),幀移選取為128個(gè)采樣點(diǎn)。步驟3、組成樣本特征向量步驟,分析每幀信號(hào)在時(shí)域及頻譜上的特性,選取分析結(jié)果的統(tǒng)計(jì)值作為特征組成特征向量,具體分步操作如下:(1)每秒的連續(xù)聲音信號(hào)s(t)經(jīng)過(guò)采樣后離散化為s[n],對(duì)每秒信號(hào)進(jìn)行分幀處理的幀長(zhǎng)為N,幀移為總幀數(shù)為NF。第i幀信號(hào)si(n)的短時(shí)幀能量為對(duì)所有幀能量中位值以下的幀能量取平均值,記為Emed-ave,則其中Emedian為所有幀能量的中位值,而Nlower為能量在中位值以下的幀的個(gè)數(shù),El表示中位值以下的幀能量。對(duì)信號(hào)做短時(shí)傅里葉變換:其中,Si(k)是第i幀信號(hào)si(n)的STFT,得到信號(hào)頻譜分布信息。(2)計(jì)算每幀的能量變化系數(shù):統(tǒng)計(jì)一段聲音內(nèi)的幀能量沖擊程度的平均值:作為特征I;(3)選取能量大于Emed-ave的所有幀信號(hào),幀能量變化系數(shù)的閾值以設(shè)定4.1為例,將選取的幀信號(hào)分為能量沖擊型幀和非能量沖擊型幀,統(tǒng)計(jì)一段聲音中能量沖擊型幀信號(hào)所占的比例:作為特征量II;(4)取所有幀能量的平均值Eave,用Eave截取幀能量波形,得到截取的幀能量:將被截?cái)嗟母鲙男蛱?hào)存入一個(gè)向量a,計(jì)算da(k)=a(k+1)-a(k),k=1,…,K-1,其中,K是被截?cái)嗟膸目倐€(gè)數(shù)。將da表示為這種形式:其中,為li維向量,表示有l(wèi)i個(gè)1,而Δi>1是截?cái)嗄芰繋牟贿B續(xù)點(diǎn),i=1,…I是1-vector的數(shù)量,即這段信號(hào)的脈沖數(shù)量。因此截取脈沖的寬度截取脈沖之間的間隔寬度計(jì)算所有脈沖的寬度均值:作為特征III;計(jì)算所有脈沖之間的間隔寬度的平均值作為特征IV;計(jì)算所有脈沖寬度的變異系數(shù):作為特征V;計(jì)算所有脈沖間隔寬度的變異系數(shù):作為特征VI;計(jì)算所有脈沖的個(gè)數(shù):I,作為特征VII。(5)計(jì)算短時(shí)傅里葉變換后,第i幀信號(hào)在第k頻帶的能量分量:信號(hào)s(n)在所有頻帶的總能量:將信號(hào)劃分為[k1,k2]、[k3,k4]、[k5,k6]三個(gè)頻帶,計(jì)算整段信號(hào)s(n)在第k頻帶的能量:計(jì)算第一個(gè)頻帶的能量占總頻帶比重:作為一段自然環(huán)境聲音信號(hào)的特征VIII;計(jì)算第二個(gè)頻帶能量占總能量的比重:作為特征IX;計(jì)算第三個(gè)頻帶能量占總能量的比重作為特征X。計(jì)算總頻帶所有幀能量的變異系數(shù):作為特征XI;計(jì)算第一個(gè)頻帶所有幀能量的變異系數(shù):作為特征XII;計(jì)算第二個(gè)頻帶所有幀能量的變異系數(shù):作為特征XIII;計(jì)算第三個(gè)頻帶所有幀能量的變異系數(shù):作為特征XIV。將以上14個(gè)特征組成14維向量,作為一段聲音信號(hào)的特征向量。步驟4、提取所有類型聲音的特征向量,標(biāo)定所屬種類,建立樣本聲音的特征向量庫(kù);步驟5、利用支持向量機(jī)對(duì)樣本特征庫(kù)進(jìn)行分類訓(xùn)練,建立訓(xùn)練模型;步驟6、使用與樣本聲音同樣的采集裝置采集目標(biāo)聲音,按照與聲音樣本同樣的步驟提取目標(biāo)聲音的特征向量;步驟7、利用支持向量機(jī)將目標(biāo)聲音的特征向量與已建立的訓(xùn)練模型做匹配,提供分類結(jié)果;步驟8、目標(biāo)聲音識(shí)別結(jié)果步驟,根據(jù)支持向量機(jī)提供的分類結(jié)果判斷目標(biāo)聲音所屬的來(lái)源種類。當(dāng)前第1頁(yè)1 2 3