一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于音頻識(shí)別領(lǐng)域,具體地說(shuō)是一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方 法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的高速發(fā)展,涌現(xiàn)大量的音頻、視頻和圖像信息。但是音頻信息的研究 速度遠(yuǎn)遠(yuǎn)比不上視頻和圖像的研究,而且對(duì)大量音頻信息的識(shí)別工作,單靠人工標(biāo)注是一 件龐大而又繁瑣的工程,因此,實(shí)現(xiàn)對(duì)音頻信號(hào)的自動(dòng)識(shí)別,是音頻領(lǐng)域的研究重點(diǎn)。
[0003] 目前存在的音頻信號(hào)的自動(dòng)識(shí)別方法主要通過(guò)提取特征和選擇分類器兩大步驟 進(jìn)行,其中研究提取音頻信號(hào)的聲音特征為傳統(tǒng)常用的音頻識(shí)別方法。然而對(duì)大量未知復(fù) 雜的音頻數(shù)據(jù),若不先對(duì)音頻進(jìn)行細(xì)化分類,針對(duì)不同類型的音頻數(shù)據(jù)采取不同的處理過(guò) 程,傳統(tǒng)的音頻識(shí)別方法存在明顯不足。尤其是原始音頻具有極其復(fù)雜的表示方式,缺少語(yǔ) 義背景內(nèi)容和結(jié)構(gòu)化的組織,在間斷、多源和噪聲干擾等復(fù)雜的環(huán)境下如何選擇能夠準(zhǔn)確 表示此類音頻的特征信息,并且運(yùn)用何種識(shí)別方法將未知音頻正確分類識(shí)別是音頻識(shí)別的 重要研究問(wèn)題。
[0004] 近年來(lái),隨著人類聽(tīng)覺(jué)神經(jīng)科學(xué)認(rèn)識(shí)的逐漸深入,越來(lái)越多的研究者將注意力放 在基于聲譜圖的時(shí)頻模型上。研究結(jié)果認(rèn)為:聲譜圖中的時(shí)頻結(jié)構(gòu)反映了信號(hào)時(shí)域和空域 結(jié)構(gòu),可W形成聲學(xué)感知的稀疏基函數(shù)。該與大腦聽(tīng)覺(jué)感知系統(tǒng)有效去除冗余,利用較少的 神經(jīng)元表達(dá)更多的外界聲音信息的思想一致。德國(guó)奧登堡大學(xué)的Kleinschmi化提出適合 自動(dòng)音頻識(shí)別的新特征:聲譜圖中的局部時(shí)頻結(jié)構(gòu)特征。研究者認(rèn)為該特征與聽(tīng)覺(jué)神經(jīng)元 的時(shí)頻感受野特性相似,具有有效表達(dá)如共振峰的聲學(xué)參數(shù)、較少加性噪聲的影響和很好 的泛化性。但是,該局部時(shí)頻結(jié)構(gòu)是通過(guò)研究者在聲譜圖中人工選取的,針對(duì)多聲源和加性 噪聲存在的聲譜圖中,如何讓計(jì)算機(jī)自動(dòng)有效提取分離出主要聲源的局部時(shí)頻結(jié)構(gòu)仍待解 決。麻省理工學(xué)院的Schutte利用boosting分類器通過(guò)聲譜圖的局部時(shí)頻結(jié)構(gòu)識(shí)別音頻。 然而boosting分類器太過(guò)依賴人為設(shè)定和調(diào)節(jié)闊值,通過(guò)該方法對(duì)識(shí)別復(fù)雜環(huán)境下未知 音頻類型的音頻數(shù)據(jù)來(lái)說(shuō)并不實(shí)用。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明是為了克服現(xiàn)有技術(shù)存在的不足之處,提供一種可靠、自動(dòng)化、快速且強(qiáng)大 的基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法,W期能有效表征復(fù)雜環(huán)境下未知音頻類型的特 征信息,同時(shí)能夠?qū)崿F(xiàn)快速自動(dòng)的音頻識(shí)別。
[0006] 本發(fā)明為解決技術(shù)問(wèn)題采用如下技術(shù)方案;
[0007] 本發(fā)明一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法的特點(diǎn)是如下步驟進(jìn)行:
[000引步驟1、獲取像素為MXN的n種不同聲源的聲譜圖,每種聲譜圖獲取m幅,從而獲 得mXn幅聲譜圖D = {di, d2,…,中,…,dmxnl ;di表示第i幅聲譜圖;i e [I'mXn];
[0009] 對(duì)所述mXn幅聲譜圖D分別進(jìn)行特征提取,獲得基本特征集合;所述基本特征集 合包括:RGBY色度特征集合C =咕,C2,…,。,…,Cmx。}、方向特征集合0 = {〇1,〇2,…,0?!?,〇mXn)和亮度特征集合I = 屯表示第i幅聲譜圖di的RGBY色度 特征;0康示第i幅聲譜圖d i的方向特征;I康示第i幅聲譜圖d i的亮度特征;
[0010] 步驟2、根據(jù)所述基本特征集合利用GBVS算法對(duì)所述第i幅聲譜圖di進(jìn)行顯著性 提取,獲得第i幅顯著性圖Si;根據(jù)所述第i幅顯著性圖S i利用主圖分離方法提取所述第 i幅聲譜圖中的主圖SMi,所述第i幅主圖SMi是由R基色圖R(SMi)、G基色圖G(SMi)和B 基色圖B (SMi)構(gòu)成的像素為1 X 1的S維基色圖;從而獲得mXn幅聲譜圖D的主圖集合SM =怯Ml, SM2,…,SM?!?,SMmxnl ;1 < M,1 < N ;
[0011] 步驟3、利用式(1)提取所述第i幅主圖SMi的層次對(duì)比圖SMRi,從而獲得mXn幅 聲譜圖D的層次對(duì)比圖集合SMR =怯MR。SMR2,…,SMR。…,SMRmx。}:
[0012]
【主權(quán)項(xiàng)】
1.一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法,其特征是如下步驟進(jìn)行: 步驟1、獲取像素為MXN的n種不同聲源的聲譜圖,每種聲譜圖獲取m幅,從而獲得mXn幅聲譜圖D= {屯,d2,…,屯,…,dmXn}表示第i幅聲譜圖;iG[l,mXn]; 對(duì)所述mXn幅聲譜圖D分別進(jìn)行特征提取,獲得基本特征集合;所述基本特征集合 包括:RGBY色度特征集合C=IA,C2,…,Q,…,CmXn}、方向特征集合0 =IA,02,…,〇i,… ,〇mXJ和亮度特征集合I=仏,、,…,Ii,…,ImXJ 表示第i幅聲譜圖d^RGBY色度 特征;〇i表示第i幅聲譜圖di的方向特征;Ii表示第i幅聲譜圖di的亮度特征; 步驟2、根據(jù)所述基本特征集合利用GBVS算法對(duì)所述第i幅聲譜圖屯進(jìn)行顯著性提 取,獲得第i幅顯著性圖Si;根據(jù)所述第i幅顯著性圖Sjlj用主圖分離方法提取所述第i幅 聲譜圖屯的主圖SMi,所述第i幅主圖SMi是由R基色圖R(SMJ、G基色圖G(SMi)和B基色 圖B(SMi)構(gòu)成的像素為1X1的三維基色圖;從而獲得mXn幅聲譜圖D的主圖集合SM= {SM"SM2,…,SM" …,SMmXn} ;1 <M,1 <N; 步驟3、利用式(1)提取所述第i幅主圖SMi的層次對(duì)比圖SMRp從而獲得mXn幅聲譜 圖D的層次對(duì)比圖集合SMR=ISMR,.SMR。.….
SMR,.….SMFL」: 步驟4、利用式(2)獲得所述第i幅層次對(duì)比圖SMRi的PCA特征圖SMRPi,從而獲得mXn幅聲譜圖D的PCA特征圖集合SMRP= {SMRPi,SMRP2,…,SMRPi,…,SMRPmXn}: SMRPi=(dimj(Aj))TSMRi (2) 式(2)中,化表示所述第i幅層次對(duì)比圖SMRd^協(xié)方差矩陣,dim^Ai)表示所述協(xié)方 差矩陣A的前j個(gè)特征向量所組成的矩陣;并有:
式(3)中,@表示第i幅層次對(duì)比圖SMRi中第a個(gè)像素值;aG[1,1]; 以所述第i幅層次對(duì)比圖SMRi和第i幅PCA特征圖SMRPi作為特征描述集表征所述第i幅聲譜圖屯的聲源,從而獲得所述mXn幅聲譜圖D中n類聲源的所有特征描述集表征, 所述n類聲源中的每類聲源均包含m個(gè)特征描述集; 步驟5、建立n種不同聲源的GCNN聲源模型; 步驟5. 1、在深度卷積神經(jīng)網(wǎng)絡(luò)CNN中增加內(nèi)部輸入層,從而形成所述改進(jìn)的深度卷積 神經(jīng)網(wǎng)絡(luò)GCNN: 所述深度卷積神經(jīng)網(wǎng)絡(luò)CNN包含外部輸入層、p個(gè)卷積層IA,C2,…,Cp}、p個(gè)降采樣層 {Si,S2,…,Sp}以及全連接softmax分類層;所述p個(gè)卷積層{Ci,C2,…,Cp}中的每個(gè)卷積 層與p個(gè)降采樣層{SpS2,…,Sp}中的每個(gè)降采樣層為互相交錯(cuò)設(shè)置,所述外部輸入層連接 第1個(gè)卷積層C1;第p個(gè)降采樣層Sp連接所述全連接softmax分類層; 在所述第1個(gè)卷積層q與第1個(gè)降采樣層Si之間設(shè)置所述內(nèi)部輸入層,從而構(gòu)成所述 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)GCNN; 步驟5. 2、以所述層次對(duì)比圖集合SMR={SMRpSMR2,…,SMRi,…,SMRmXn}作為所述外 部輸入層的輸入;以所述PCA特征圖集合SMRP={SMRPpSMRP2,…,SMRPi,…,SMRPmXn}作 為所述內(nèi)部輸入層的輸入;通過(guò)所述改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)GCNN進(jìn)行訓(xùn)練和建模,從而 獲得n種不同聲源的GCNN聲源模型; 步驟6、利用所述n種不同聲源的GCNN聲源模型識(shí)別待測(cè)試聲譜圖d'的聲源: 步驟6. 1、對(duì)所述待測(cè)試聲譜圖d'按照步驟2-步驟4依次進(jìn)行處理,獲得所述待測(cè)試 聲譜圖d'的層次對(duì)比圖SMRd,和PCA特征圖SMRPd,; 步驟6. 2、以所述待測(cè)試聲譜圖d'的層次對(duì)比圖SMRd,作為所述外部輸入層的輸入圖 像;以所述待測(cè)試聲譜圖d'的PCA特征圖SMRPd,作為所述內(nèi)部輸入層的輸入圖像;從而利 用所述n種不同聲源的GCNN聲源模型識(shí)別所述待測(cè)試聲譜圖d'所屬的聲源。
2.根據(jù)權(quán)利要求1所述的基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法,其特征是,所述步 驟2中的主圖分離方法是按如下步驟進(jìn)行: 步驟2. 1、假設(shè)所述第i幅顯著性圖Si中包含Q個(gè)注意焦點(diǎn),將所述Q個(gè)注意焦點(diǎn)進(jìn)行 降序排序獲得注意焦點(diǎn)集合FOA={FOApFOA2,…,F(xiàn)OAq,…,F(xiàn)OAQ} ;FOAq表示第q個(gè)注意 焦點(diǎn);獲取所述注意焦點(diǎn)集合F0A中每個(gè)注意焦點(diǎn)在所述第i幅顯著性圖Si中各自的位置 L= {Li,L2,…,Lq,…,LJ;Lq表示所述第q個(gè)注意焦點(diǎn)FOA^所述第i幅顯著性圖Si中的 位置;1彡q彡Q; 步驟2. 2、初始化q= 1 ; 步驟2. 3、利用所述第q個(gè)注意焦點(diǎn)F0Aq在顯著性圖中的位置Lq,獲得所述第q個(gè)注意 焦點(diǎn)?(^(1在所述第i幅聲譜圖di中所對(duì)應(yīng)的位置Lq' ; 步驟2. 4、提取所述對(duì)應(yīng)的位置Lq'的色度特征,所述色度特征包括:紅色特征Rq、綠色 特征Gq、藍(lán)色特征Bq和黃色特征Yq; 步驟2. 5、判斷所述紅色特征&是否滿足在所述色度特征中為最大值,且所述色特征Gq、藍(lán)色特征Bq和黃色特征Yq均為0 ;若滿足,則執(zhí)行步驟2. 6,否則,判斷q=Q是否成立; 若成立,則表示所述第i幅顯著性圖Si中沒(méi)有有效聲源;否則,將q+1的值賦給q,并返回步 驟2. 3執(zhí)行; 步驟2. 6、從與所述第i幅顯著性圖Si所對(duì)應(yīng)的第i幅聲譜圖di中分離出以1X1為 邊長(zhǎng),并以對(duì)應(yīng)的位置Lq'為中心的正方框,判斷所述正方框是否超出所述第i幅聲譜圖屯 的邊界,若超出,則以所述超出的邊界作為所述正方框的邊,形成新的1X1的矩形框,以所 述新的1X1的矩形框作為所述第i幅聲譜圖屯的主圖SMi;否則,以所述正方框作為所述 第i幅聲譜圖屯的主圖SMp
【專利摘要】發(fā)明公開(kāi)了一種基于聲譜圖顯著性檢測(cè)的音頻識(shí)別方法,其特征是如下步驟進(jìn)行:1獲取不同聲源的聲譜圖并進(jìn)行特征提取,獲得基本特征集合;2、利用GBVS算法獲得顯著性圖,再利用主圖分離方法提取主圖;3、提取層次對(duì)比圖;4、獲得PCA特征圖;5建立不同聲源的GCNN聲源模型;6、利用GCNN聲源模型識(shí)別待測(cè)試聲譜圖的聲源。本發(fā)明能有效表征復(fù)雜環(huán)境下未知音頻類型的特征信息,同時(shí)能夠?qū)崿F(xiàn)快速自動(dòng)的音頻識(shí)別。
【IPC分類】G10L25-03, G10L25-48
【公開(kāi)號(hào)】CN104616664
【申請(qǐng)?zhí)枴緾N201510054228
【發(fā)明人】陳雁翔, 弓彥婷, 任洪梅, 王猛
【申請(qǐng)人】合肥工業(yè)大學(xué)
【公開(kāi)日】2015年5月13日
【申請(qǐng)日】2015年2月2日