一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法

文檔序號(hào)：8300079閱讀：731來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于音頻識(shí)別領(lǐng)域，具體地說(shuō)是一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的高速發(fā)展，涌現(xiàn)大量的音頻、視頻和圖像信息。但是音頻信息的研究速度遠(yuǎn)遠(yuǎn)比不上視頻和圖像的研究，而且對(duì)大量音頻信息的識(shí)別工作，單靠人工標(biāo)注是一件龐大而又繁瑣的工程，因此，實(shí)現(xiàn)對(duì)音頻信號(hào)的自動(dòng)識(shí)別，是音頻領(lǐng)域的研究重點(diǎn)。
[0003] 目前存在的音頻信號(hào)的自動(dòng)識(shí)別方法主要通過(guò)提取特征和選擇分類器兩大步驟進(jìn)行，其中研究提取音頻信號(hào)的聲音特征為傳統(tǒng)常用的音頻識(shí)別方法。然而對(duì)大量未知復(fù) 雜的音頻數(shù)據(jù)，若不先對(duì)音頻進(jìn)行細(xì)化分類，針對(duì)不同類型的音頻數(shù)據(jù)采取不同的處理過(guò) 程，傳統(tǒng)的音頻識(shí)別方法存在明顯不足。尤其是原始音頻具有極其復(fù)雜的表示方式，缺少語(yǔ) 義背景內(nèi)容和結(jié)構(gòu)化的組織，在間斷、多源和噪聲干擾等復(fù)雜的環(huán)境下如何選擇能夠準(zhǔn)確表示此類音頻的特征信息，并且運(yùn)用何種識(shí)別方法將未知音頻正確分類識(shí)別是音頻識(shí)別的重要研究問(wèn)題。
[0004] 近年來(lái)，隨著人類聽(tīng)覺(jué)神經(jīng)科學(xué)認(rèn)識(shí)的逐漸深入，越來(lái)越多的研究者將注意力放在基于聲譜圖的時(shí)頻模型上。研究結(jié)果認(rèn)為：聲譜圖中的時(shí)頻結(jié)構(gòu)反映了信號(hào)時(shí)域和空域結(jié)構(gòu)，可W形成聲學(xué)感知的稀疏基函數(shù)。該與大腦聽(tīng)覺(jué)感知系統(tǒng)有效去除冗余，利用較少的神經(jīng)元表達(dá)更多的外界聲音信息的思想一致。德國(guó)奧登堡大學(xué)的Kleinschmi化提出適合自動(dòng)音頻識(shí)別的新特征：聲譜圖中的局部時(shí)頻結(jié)構(gòu)特征。研究者認(rèn)為該特征與聽(tīng)覺(jué)神經(jīng)元的時(shí)頻感受野特性相似，具有有效表達(dá)如共振峰的聲學(xué)參數(shù)、較少加性噪聲的影響和很好的泛化性。但是，該局部時(shí)頻結(jié)構(gòu)是通過(guò)研究者在聲譜圖中人工選取的，針對(duì)多聲源和加性噪聲存在的聲譜圖中，如何讓計(jì)算機(jī)自動(dòng)有效提取分離出主要聲源的局部時(shí)頻結(jié)構(gòu)仍待解決。麻省理工學(xué)院的Schutte利用boosting分類器通過(guò)聲譜圖的局部時(shí)頻結(jié)構(gòu)識(shí)別音頻。然而boosting分類器太過(guò)依賴人為設(shè)定和調(diào)節(jié)闊值，通過(guò)該方法對(duì)識(shí)別復(fù)雜環(huán)境下未知音頻類型的音頻數(shù)據(jù)來(lái)說(shuō)并不實(shí)用。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明是為了克服現(xiàn)有技術(shù)存在的不足之處，提供一種可靠、自動(dòng)化、快速且強(qiáng)大的基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法，W期能有效表征復(fù)雜環(huán)境下未知音頻類型的特征信息，同時(shí)能夠?qū)崿F(xiàn)快速自動(dòng)的音頻識(shí)別。
[0006] 本發(fā)明為解決技術(shù)問(wèn)題采用如下技術(shù)方案；
[0007] 本發(fā)明一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法的特點(diǎn)是如下步驟進(jìn)行：
[000引步驟1、獲取像素為MXN的n種不同聲源的聲譜圖，每種聲譜圖獲取m幅，從而獲得mXn幅聲譜圖D = {di, d2,…，中，…，dmxnl ;di表示第i幅聲譜圖；i e [I'mXn];
[0009] 對(duì)所述mXn幅聲譜圖D分別進(jìn)行特征提取，獲得基本特征集合；所述基本特征集合包括：RGBY色度特征集合C =咕，C2,…，。，…，Cmx。}、方向特征集合0 = {〇1，〇2,…，0?！?，〇mXn)和亮度特征集合I = 屯表示第i幅聲譜圖di的RGBY色度特征；0康示第i幅聲譜圖d i的方向特征；I康示第i幅聲譜圖d i的亮度特征；
[0010] 步驟2、根據(jù)所述基本特征集合利用GBVS算法對(duì)所述第i幅聲譜圖di進(jìn)行顯著性提取，獲得第i幅顯著性圖Si;根據(jù)所述第i幅顯著性圖S i利用主圖分離方法提取所述第 i幅聲譜圖中的主圖SMi，所述第i幅主圖SMi是由R基色圖R(SMi)、G基色圖G(SMi)和B 基色圖B (SMi)構(gòu)成的像素為1 X 1的S維基色圖；從而獲得mXn幅聲譜圖D的主圖集合SM =怯Ml, SM2,…，SM?！?，SMmxnl ;1 < M，1 < N ;
[0011] 步驟3、利用式（1)提取所述第i幅主圖SMi的層次對(duì)比圖SMRi，從而獲得mXn幅聲譜圖D的層次對(duì)比圖集合SMR =怯MR。SMR2,…，SMR。…，SMRmx。}:
[0012]
【主權(quán)項(xiàng)】
1.一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法，其特征是如下步驟進(jìn)行：步驟1、獲取像素為MXN的n種不同聲源的聲譜圖，每種聲譜圖獲取m幅，從而獲得mXn幅聲譜圖D= {屯，d2,…，屯，…，dmXn}表示第i幅聲譜圖；iG[l，mXn]; 對(duì)所述mXn幅聲譜圖D分別進(jìn)行特征提取，獲得基本特征集合；所述基本特征集合包括：RGBY色度特征集合C=IA，C2，…，Q，…，CmXn}、方向特征集合0 =IA，02，…，〇i，… ，〇mXJ和亮度特征集合I=仏，、，…，Ii，…，ImXJ 表示第i幅聲譜圖d^RGBY色度特征；〇i表示第i幅聲譜圖di的方向特征；Ii表示第i幅聲譜圖di的亮度特征；步驟2、根據(jù)所述基本特征集合利用GBVS算法對(duì)所述第i幅聲譜圖屯進(jìn)行顯著性提取，獲得第i幅顯著性圖Si;根據(jù)所述第i幅顯著性圖Sjlj用主圖分離方法提取所述第i幅聲譜圖屯的主圖SMi，所述第i幅主圖SMi是由R基色圖R(SMJ、G基色圖G(SMi)和B基色圖B(SMi)構(gòu)成的像素為1X1的三維基色圖；從而獲得mXn幅聲譜圖D的主圖集合SM= {SM"SM2，…，SM" …，SMmXn} ;1 <M，1 <N; 步驟3、利用式（1)提取所述第i幅主圖SMi的層次對(duì)比圖SMRp從而獲得mXn幅聲譜圖D的層次對(duì)比圖集合SMR=ISMR,.SMR。.….
SMR,.….SMFL」：步驟4、利用式（2)獲得所述第i幅層次對(duì)比圖SMRi的PCA特征圖SMRPi，從而獲得mXn幅聲譜圖D的PCA特征圖集合SMRP= {SMRPi，SMRP2，…，SMRPi，…，SMRPmXn}: SMRPi=(dimj(Aj))TSMRi (2) 式（2)中，化表示所述第i幅層次對(duì)比圖SMRd^協(xié)方差矩陣，dim^Ai)表示所述協(xié)方差矩陣A的前j個(gè)特征向量所組成的矩陣；并有：
式（3)中，@表示第i幅層次對(duì)比圖SMRi中第a個(gè)像素值；aG[1，1]; 以所述第i幅層次對(duì)比圖SMRi和第i幅PCA特征圖SMRPi作為特征描述集表征所述第i幅聲譜圖屯的聲源，從而獲得所述mXn幅聲譜圖D中n類聲源的所有特征描述集表征，所述n類聲源中的每類聲源均包含m個(gè)特征描述集；步驟5、建立n種不同聲源的GCNN聲源模型；步驟5. 1、在深度卷積神經(jīng)網(wǎng)絡(luò)CNN中增加內(nèi)部輸入層，從而形成所述改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)GCNN: 所述深度卷積神經(jīng)網(wǎng)絡(luò)CNN包含外部輸入層、p個(gè)卷積層IA，C2，…，Cp}、p個(gè)降采樣層 {Si,S2，…，Sp}以及全連接softmax分類層；所述p個(gè)卷積層{Ci,C2，…，Cp}中的每個(gè)卷積層與p個(gè)降采樣層{SpS2，…，Sp}中的每個(gè)降采樣層為互相交錯(cuò)設(shè)置，所述外部輸入層連接第1個(gè)卷積層C1;第p個(gè)降采樣層Sp連接所述全連接softmax分類層；在所述第1個(gè)卷積層q與第1個(gè)降采樣層Si之間設(shè)置所述內(nèi)部輸入層，從而構(gòu)成所述改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)GCNN; 步驟5. 2、以所述層次對(duì)比圖集合SMR={SMRpSMR2，…，SMRi，…，SMRmXn}作為所述外部輸入層的輸入；以所述PCA特征圖集合SMRP={SMRPpSMRP2，…，SMRPi，…，SMRPmXn}作為所述內(nèi)部輸入層的輸入；通過(guò)所述改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)GCNN進(jìn)行訓(xùn)練和建模，從而獲得n種不同聲源的GCNN聲源模型；步驟6、利用所述n種不同聲源的GCNN聲源模型識(shí)別待測(cè)試聲譜圖d'的聲源：步驟6. 1、對(duì)所述待測(cè)試聲譜圖d'按照步驟2-步驟4依次進(jìn)行處理，獲得所述待測(cè)試聲譜圖d'的層次對(duì)比圖SMRd，和PCA特征圖SMRPd，；步驟6. 2、以所述待測(cè)試聲譜圖d'的層次對(duì)比圖SMRd，作為所述外部輸入層的輸入圖像；以所述待測(cè)試聲譜圖d'的PCA特征圖SMRPd，作為所述內(nèi)部輸入層的輸入圖像；從而利用所述n種不同聲源的GCNN聲源模型識(shí)別所述待測(cè)試聲譜圖d'所屬的聲源。
2.根據(jù)權(quán)利要求1所述的基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法，其特征是，所述步驟2中的主圖分離方法是按如下步驟進(jìn)行：步驟2. 1、假設(shè)所述第i幅顯著性圖Si中包含Q個(gè)注意焦點(diǎn)，將所述Q個(gè)注意焦點(diǎn)進(jìn)行降序排序獲得注意焦點(diǎn)集合FOA={FOApFOA2，…，F(xiàn)OAq，…，F(xiàn)OAQ} ;FOAq表示第q個(gè)注意焦點(diǎn)；獲取所述注意焦點(diǎn)集合F0A中每個(gè)注意焦點(diǎn)在所述第i幅顯著性圖Si中各自的位置 L= {Li，L2，…，Lq，…，LJ;Lq表示所述第q個(gè)注意焦點(diǎn)FOA^所述第i幅顯著性圖Si中的位置；1彡q彡Q; 步驟2. 2、初始化q= 1 ; 步驟2. 3、利用所述第q個(gè)注意焦點(diǎn)F0Aq在顯著性圖中的位置Lq，獲得所述第q個(gè)注意焦點(diǎn)？(^(1在所述第i幅聲譜圖di中所對(duì)應(yīng)的位置Lq' ；步驟2. 4、提取所述對(duì)應(yīng)的位置Lq'的色度特征，所述色度特征包括：紅色特征Rq、綠色特征Gq、藍(lán)色特征Bq和黃色特征Yq; 步驟2. 5、判斷所述紅色特征&是否滿足在所述色度特征中為最大值，且所述色特征Gq、藍(lán)色特征Bq和黃色特征Yq均為0 ;若滿足，則執(zhí)行步驟2. 6,否則，判斷q=Q是否成立；若成立，則表示所述第i幅顯著性圖Si中沒(méi)有有效聲源；否則，將q+1的值賦給q，并返回步驟2. 3執(zhí)行；步驟2. 6、從與所述第i幅顯著性圖Si所對(duì)應(yīng)的第i幅聲譜圖di中分離出以1X1為邊長(zhǎng)，并以對(duì)應(yīng)的位置Lq'為中心的正方框，判斷所述正方框是否超出所述第i幅聲譜圖屯的邊界，若超出，則以所述超出的邊界作為所述正方框的邊，形成新的1X1的矩形框，以所述新的1X1的矩形框作為所述第i幅聲譜圖屯的主圖SMi;否則，以所述正方框作為所述第i幅聲譜圖屯的主圖SMp
【專利摘要】發(fā)明公開(kāi)了一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法，其特征是如下步驟進(jìn)行：1獲取不同聲源的聲譜圖并進(jìn)行特征提取，獲得基本特征集合；2、利用GBVS算法獲得顯著性圖，再利用主圖分離方法提取主圖；3、提取層次對(duì)比圖；4、獲得PCA特征圖；5建立不同聲源的GCNN聲源模型；6、利用GCNN聲源模型識(shí)別待測(cè)試聲譜圖的聲源。本發(fā)明能有效表征復(fù)雜環(huán)境下未知音頻類型的特征信息，同時(shí)能夠?qū)崿F(xiàn)快速自動(dòng)的音頻識(shí)別。
【IPC分類】G10L25-03, G10L25-48
【公開(kāi)號(hào)】CN104616664
【申請(qǐng)?zhí)枴緾N201510054228
【發(fā)明人】陳雁翔, 弓彥婷, 任洪梅, 王猛
【申請(qǐng)人】合肥工業(yè)大學(xué)
【公開(kāi)日】2015年5月13日
【申請(qǐng)日】2015年2月2日

完整全部詳細(xì)技術(shù)資料下載