基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法與流程

文檔序號(hào)：12368723閱讀：1758來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法與流程

本發(fā)明屬于聲音信號(hào)識(shí)別
技術(shù)領(lǐng)域：
，尤其涉及一種基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法。
背景技術(shù)：
：近年來(lái)自然環(huán)境聲音的識(shí)別取得了廣泛的關(guān)注，自然環(huán)境中充滿了多種聲音，如車輛行駛中的發(fā)動(dòng)機(jī)聲和汽車?yán)嚷?，建筑工地上的施工聲音，人的說(shuō)話聲，鳥蟲鳴叫聲，風(fēng)雨聲等。自然環(huán)境聲音的識(shí)別是機(jī)器監(jiān)控的一個(gè)重要部分，對(duì)建設(shè)智慧城市和發(fā)展智能家居也有重要的作用。目前的自然環(huán)境聲音識(shí)別技術(shù)，在特征提取方面使用的技術(shù)大多借鑒于語(yǔ)音識(shí)別算法，包括：線性預(yù)測(cè)倒譜系數(shù)(LPCC)、梅爾頻率倒譜系數(shù)(MFCC)、過(guò)零率(ZCR)等。但此類特征用于語(yǔ)音信號(hào)的識(shí)別，是以語(yǔ)音的短時(shí)平穩(wěn)性為基礎(chǔ)的，自然環(huán)境中的聲音卻并非都具有短時(shí)平穩(wěn)性。同時(shí)，由于聲音信號(hào)在傳播中的的衰減效應(yīng)，單一的時(shí)域特征如LPCC、ZCR或者單一的頻域特征如MFCC，都不能夠準(zhǔn)確的描述不同距離下的自然環(huán)境聲音信號(hào)。因此，語(yǔ)音識(shí)別的特征提取方法，在對(duì)自然環(huán)境聲音的識(shí)別方面并不能完全適用。技術(shù)實(shí)現(xiàn)要素：針對(duì)目前存在如以上所述的技術(shù)問(wèn)題，本發(fā)明提供了一種基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法。針對(duì)不同聲音信號(hào)如發(fā)動(dòng)機(jī)聲、汽車?yán)嚷暋⒔ㄖ┕ぢ?、說(shuō)話聲等，根據(jù)其能量隨時(shí)間變化程度的區(qū)別和頻譜能量分布上的區(qū)別，對(duì)各類自然環(huán)境中的聲音進(jìn)行識(shí)別，判斷目標(biāo)聲音所屬的類別。為了實(shí)現(xiàn)上述目的，本發(fā)明采用技術(shù)方案包括如下步驟：步驟1、采集各類自然環(huán)境聲音，建立聲音樣本庫(kù)；步驟2、聲音樣本信號(hào)的加窗分幀處理；步驟3、提取所有幀信號(hào)在時(shí)域上的統(tǒng)計(jì)特征：平均幀能量變化系數(shù)、能量沖擊型幀信號(hào)占比、平均能量脈沖寬度、脈沖寬度離散程度、平均脈沖間隔寬度、間隔寬度離散程度和脈沖個(gè)數(shù)，以及在頻譜分布上的特征：頻帶能量分量占比、頻帶幀能量分布離散程度和總頻帶幀能量分布離散程度，組成特征向量；步驟4、標(biāo)記特征向量所屬聲音來(lái)源的種類，建立樣本特征庫(kù)；步驟5、利用支持向量機(jī)訓(xùn)練特征向量，建立訓(xùn)練模型；步驟6，提取目標(biāo)聲音的特征向量；步驟7、利用支持向量機(jī)對(duì)目標(biāo)聲音的特征向量進(jìn)行匹配分類；步驟8、提供識(shí)別結(jié)果。所述步驟1的建立聲音樣本庫(kù)：將聲音采集裝置放置在戶外施工現(xiàn)場(chǎng)，按照不同的距離采集自然環(huán)境聲音，并給聲音標(biāo)定其所屬自然環(huán)境聲音的種類后作為聲音樣本庫(kù)。自然環(huán)境聲音包括：發(fā)動(dòng)機(jī)聲、汽車?yán)嚷暋⒔ㄖ┕ぢ?、說(shuō)話聲和現(xiàn)場(chǎng)風(fēng)噪聲。所述步驟2的聲音樣本信號(hào)的加窗分幀處理：首先對(duì)聲音進(jìn)行濾波處理，使用高通濾波器濾除50Hz以下的低頻干擾信號(hào)；再將聲音分為一秒鐘每段，對(duì)每一段聲音加Hamming窗做分幀處理，每幀選取256個(gè)采樣點(diǎn)，為了保持幀信號(hào)間的連續(xù)性，幀移選取為128個(gè)采樣點(diǎn)。所述步驟3的所有幀信號(hào)在時(shí)域上的統(tǒng)計(jì)特征提取過(guò)程如下：3-1.設(shè)fs為采樣頻率，每秒的連續(xù)聲音信號(hào)s(t)經(jīng)過(guò)采樣后離散化為s[n]，設(shè)對(duì)每秒信號(hào)進(jìn)行分幀處理的幀長(zhǎng)為N，幀移為總幀數(shù)為NF。則第i幀信號(hào)si(n)的短時(shí)幀能量計(jì)算公式為：Ei=Σn=0N-1si2(n)]]>3-2.對(duì)所有幀能量中位值以下的幀能量取平均值，記為Emed-ave，則：Emed-ave={1NlowerΣlEl|El<Emedian}]]>其中Emedian為所有幀能量的中位值，而Nlower為能量在中位值以下的幀的個(gè)數(shù)，El表示中位值以下的幀能量。3-3.對(duì)信號(hào)s[n]做傅里葉變換，得到頻譜分布信息，短時(shí)傅里葉變換的公式為：Si(k)=Σn=0N-1si(n)e-j2nπNk,k=0,...N-1]]>其中，Si(k)是第i幀信號(hào)si(n)的STFT。3-4.根據(jù)不同種類的自然環(huán)境聲音在每幀時(shí)域能量和頻譜分布上的特點(diǎn)，取其統(tǒng)計(jì)值作為每段聲音的特征。每幀信號(hào)時(shí)域能量幀能量變化系數(shù)公式表示為它反映的是幀信號(hào)的能量沖擊程度。為使各類自然環(huán)境聲音之間具有區(qū)別性，濾除低于幀能量平均值的幀后，取所有幀信號(hào)的平均幀能量變化系數(shù)作為特征I，即其中，為所有幀能量的平均值，mean(·)為對(duì)集合中的元素求平均值。3-5.根據(jù)不同聲音信號(hào)的特點(diǎn)，設(shè)定一個(gè)幀能量沖擊系數(shù)的閾值T，將信號(hào)分為能量沖擊型幀信號(hào)和非沖擊型幀信號(hào)，濾除低于幀能量平均值的幀后，統(tǒng)計(jì)一段自然環(huán)境聲音的沖擊型能量幀信號(hào)所占比例，作為特征II，即crad({Ei|EiEmed-ave>T})crad({Ei|Ei>Eave})]]>其中，Eave表示所有幀能量的平均值，crad(·)表示求集合中元素的個(gè)數(shù)。由于不同的聲音信號(hào)能量波形具有不同的脈沖特性，利用平均幀能量截取信號(hào)的能量波形，即高于平均能量的幀用平均能量替代，截取后的幀能量公式為：ETr,i=EaveifEi≥EaveEiifEi<Eave]]>3-6.對(duì)將被截?cái)嗟母鲙男蛱?hào)存入一個(gè)向量a，a中的數(shù)值是遞增的，即a(k)<a(k+1)。計(jì)算da(k)＝a(k+1)-a(k),k＝1,…,K-1，其中，K是被截?cái)嗟膸目倐€(gè)數(shù)。根據(jù)定義，將da表示為其中，為li維向量，表示有l(wèi)i個(gè)1，而Δi>1是截?cái)嗄芰繋牟贿B續(xù)點(diǎn)，i＝1,…I是1-vector的數(shù)量，即這段信號(hào)的脈沖數(shù)量。因此脈沖的寬度脈沖之間的間隔寬度3-7.計(jì)算所有脈沖的寬度均值作為特征III，即mean(TERda)；計(jì)算所有脈沖之間的間隔寬度的平均值作為特征IV，即mean(IoPda)；計(jì)算所有脈沖的寬度變異系數(shù)作為特征V，即計(jì)算所有脈沖間隔寬度的變異系數(shù)作為特征VI，即計(jì)算所有脈沖的個(gè)數(shù)作為特征VII，即I。由于不同聲音信號(hào)的頻譜分布不同，其能量集中在不同的頻帶上，因此將每幀信號(hào)按照頻率劃分為三個(gè)頻帶，分別記為[k1,k2]、[k3,k4]、[k5,k6]，整段信號(hào)s(n)在第k頻帶的能量公式為：Ek1,k2=Σi=1NFΣk=k1k2Efre(i)(k)]]>其中，為短時(shí)傅里葉變換后，第i幀信號(hào)在第k頻帶的能量分量。信號(hào)s(n)在所有頻帶的總能量為：Eall=Σi=1NFΣk=1N2Efre(i)(k)]]>因此能夠計(jì)算第一個(gè)頻帶的能量占總頻帶比重，作為一段聲音信號(hào)的特征VIII，即計(jì)算第二個(gè)頻帶能量占總能量的比重作為特征IX，即計(jì)算第三個(gè)頻帶能量占總能量的比重作為特征X，即由于不同聲音信號(hào)頻譜特性，一段聲音信號(hào)中，如說(shuō)話聲，建筑施工聲的幀能量之間有高低間隔的情況出現(xiàn)，而發(fā)動(dòng)機(jī)的幀能量近似平均，即不同聲音信號(hào)幀能量的離散程度不同，且在不同頻帶有區(qū)別。因此，為了反映各類聲音的在不同幀信號(hào)之間的各頻帶和總能量上分布的離散程度，計(jì)算總頻帶所有幀能量的變異系數(shù)作為特征XI，即計(jì)算第一個(gè)頻帶所有幀能量的變異系數(shù)作為特征XII，即計(jì)算第二個(gè)頻帶所有幀能量的變異系數(shù)作為特征XIII，即計(jì)算第三個(gè)頻帶所有幀能量的變異系數(shù)作為特征XIV，即將以上14個(gè)特征組成一個(gè)14維向量，作為一段聲音信號(hào)的特征向量。步驟4的建立樣本特征庫(kù)：從聲音樣本庫(kù)中提取每一類自然環(huán)境聲音樣本的特征，并給每類聲音的特征標(biāo)定其所屬種類。所述步驟5的建立訓(xùn)練模型：是利用支持向量機(jī)對(duì)樣本特征庫(kù)進(jìn)行訓(xùn)練，得到訓(xùn)練模型。所述步驟6的提取目標(biāo)聲音特征向量：目標(biāo)聲音的特征提取和使用和樣本聲音特征提取完全相同的過(guò)程。所述步驟7的匹配分類：利用支持向量機(jī)對(duì)目標(biāo)聲音的特征向量與訓(xùn)練模型進(jìn)行模式匹配，給出判斷結(jié)果。本發(fā)明的有益效果如下：本發(fā)明的基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法，由聲音的特性入手，在短時(shí)幀分析的基礎(chǔ)上，提取幀信號(hào)在時(shí)域和頻譜上的特征，彌補(bǔ)了傳統(tǒng)的聲音LPCC和MFCC特征提取方法在時(shí)頻結(jié)合方面的不足，滿足自然環(huán)境聲音的識(shí)別要求。利用本發(fā)明的基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法能夠提高識(shí)別效果。附圖說(shuō)明圖1為本發(fā)明方法流程圖；圖2為本發(fā)明方法中的特征提取流程圖；具體實(shí)施方式下面結(jié)合的具體實(shí)施方式對(duì)本發(fā)明作詳細(xì)說(shuō)明，以下描述僅作為示范和解釋，并不對(duì)本發(fā)明作任何形式上的限制。如圖1和2所示，基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音(如：發(fā)動(dòng)機(jī)聲，汽車?yán)嚷?，建筑施工聲，說(shuō)話聲)識(shí)別方法具體實(shí)施方式的步驟如下：步驟1、將采樣頻率為fs的聲音采集裝置放置在距離聲源點(diǎn)不同距離處，多次采集每類自然環(huán)境的聲音，標(biāo)定聲音所屬類型后作為聲音樣本庫(kù)。步驟2、將聲音樣本進(jìn)行預(yù)處理，通過(guò)高通濾波器，濾除50Hz以下的低頻干擾信號(hào)，再將聲音分幀為分為一秒鐘每段，并對(duì)每段信號(hào)加Hamming窗做分幀處理，每幀選取256個(gè)采樣點(diǎn)，幀移選取為128個(gè)采樣點(diǎn)。步驟3、組成樣本特征向量步驟，分析每幀信號(hào)在時(shí)域及頻譜上的特性，選取分析結(jié)果的統(tǒng)計(jì)值作為特征組成特征向量，具體分步操作如下：(1)每秒的連續(xù)聲音信號(hào)s(t)經(jīng)過(guò)采樣后離散化為s[n]，對(duì)每秒信號(hào)進(jìn)行分幀處理的幀長(zhǎng)為N，幀移為總幀數(shù)為NF。第i幀信號(hào)si(n)的短時(shí)幀能量為對(duì)所有幀能量中位值以下的幀能量取平均值，記為Emed-ave，則其中Emedian為所有幀能量的中位值，而Nlower為能量在中位值以下的幀的個(gè)數(shù)，El表示中位值以下的幀能量。對(duì)信號(hào)做短時(shí)傅里葉變換：其中，Si(k)是第i幀信號(hào)si(n)的STFT，得到信號(hào)頻譜分布信息。(2)計(jì)算每幀的能量變化系數(shù)：統(tǒng)計(jì)一段聲音內(nèi)的幀能量沖擊程度的平均值：作為特征I；(3)選取能量大于Emed-ave的所有幀信號(hào)，幀能量變化系數(shù)的閾值以設(shè)定4.1為例，將選取的幀信號(hào)分為能量沖擊型幀和非能量沖擊型幀，統(tǒng)計(jì)一段聲音中能量沖擊型幀信號(hào)所占的比例：作為特征量II；(4)取所有幀能量的平均值Eave，用Eave截取幀能量波形，得到截取的幀能量：將被截?cái)嗟母鲙男蛱?hào)存入一個(gè)向量a，計(jì)算da(k)＝a(k+1)-a(k),k＝1,…,K-1，其中，K是被截?cái)嗟膸目倐€(gè)數(shù)。將da表示為這種形式：其中，為li維向量，表示有l(wèi)i個(gè)1，而Δi>1是截?cái)嗄芰繋牟贿B續(xù)點(diǎn)，i＝1,…I是1-vector的數(shù)量，即這段信號(hào)的脈沖數(shù)量。因此截取脈沖的寬度截取脈沖之間的間隔寬度計(jì)算所有脈沖的寬度均值：作為特征III；計(jì)算所有脈沖之間的間隔寬度的平均值作為特征IV；計(jì)算所有脈沖寬度的變異系數(shù)：作為特征V；計(jì)算所有脈沖間隔寬度的變異系數(shù)：作為特征VI；計(jì)算所有脈沖的個(gè)數(shù)：I，作為特征VII。(5)計(jì)算短時(shí)傅里葉變換后，第i幀信號(hào)在第k頻帶的能量分量：信號(hào)s(n)在所有頻帶的總能量：將信號(hào)劃分為[k1,k2]、[k3,k4]、[k5,k6]三個(gè)頻帶，計(jì)算整段信號(hào)s(n)在第k頻帶的能量：計(jì)算第一個(gè)頻帶的能量占總頻帶比重：作為一段自然環(huán)境聲音信號(hào)的特征VIII；計(jì)算第二個(gè)頻帶能量占總能量的比重：作為特征IX；計(jì)算第三個(gè)頻帶能量占總能量的比重作為特征X。計(jì)算總頻帶所有幀能量的變異系數(shù)：作為特征XI；計(jì)算第一個(gè)頻帶所有幀能量的變異系數(shù)：作為特征XII；計(jì)算第二個(gè)頻帶所有幀能量的變異系數(shù)：作為特征XIII；計(jì)算第三個(gè)頻帶所有幀能量的變異系數(shù)：作為特征XIV。將以上14個(gè)特征組成14維向量，作為一段聲音信號(hào)的特征向量。步驟4、提取所有類型聲音的特征向量，標(biāo)定所屬種類，建立樣本聲音的特征向量庫(kù)；步驟5、利用支持向量機(jī)對(duì)樣本特征庫(kù)進(jìn)行分類訓(xùn)練，建立訓(xùn)練模型；步驟6、使用與樣本聲音同樣的采集裝置采集目標(biāo)聲音，按照與聲音樣本同樣的步驟提取目標(biāo)聲音的特征向量；步驟7、利用支持向量機(jī)將目標(biāo)聲音的特征向量與已建立的訓(xùn)練模型做匹配，提供分類結(jié)果；步驟8、目標(biāo)聲音識(shí)別結(jié)果步驟，根據(jù)支持向量機(jī)提供的分類結(jié)果判斷目標(biāo)聲音所屬的來(lái)源種類。當(dāng)前第1頁(yè)1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曹九穩(wěn);徐茹;王建中;王天磊;曾煥強(qiáng);
技術(shù)所有人：杭州電子科技大學(xué);
我是此專利的發(fā)明人

上一篇：手持式工具的制作方法與工藝
上一篇：一種應(yīng)用于語(yǔ)種識(shí)別的鑒別性特征提取方法與流程

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

matlab頻域特征值提取相關(guān)技術(shù)

頻域特征提取相關(guān)技術(shù)

自然環(huán)境特征相關(guān)技術(shù)

頻域特征相關(guān)技術(shù)

時(shí)頻域特征相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于時(shí)頻域統(tǒng)計(jì)特征提取的自然環(huán)境聲音識(shí)別方法與流程