專利名稱:對規(guī)律性鼓點節(jié)奏的音樂進行樂紋特征提取及表示方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種針對具有規(guī)律性鼓點節(jié)奏的音樂(尤其是古典音樂)內(nèi)容的樂紋特征提取及表示方法,屬于音樂語音信號特征提取及處理技術(shù)領(lǐng)域。
背景技術(shù):
目前在CBMR (Content-based Music Retrieve,基于內(nèi)容的音樂指紋檢索),是CBID (content-based audio identification,基于內(nèi)容的音頻標識)或者說 AFP (Audiofingerprinting,指紋提取)在搜索技術(shù)領(lǐng)域中的一個以音樂信號為主要特征的特殊應(yīng)用。CBMR包括兩大主要內(nèi)容音樂指紋(樂紋)提取和樂紋檢索中的匹配算法。在樂紋提取算法方面,到現(xiàn)在為止,國內(nèi)外已有很多聲紋算法的研究成果。廣泛采用的方法是從經(jīng)過短時-傅里葉變換以后的頻譜圖里面選擇一些特征,并對這些特征序列進行建模,建模后的模型提取參數(shù)作為該片段的樂紋。在早期的工作中,主要有使用語音信號處理領(lǐng)域的LPC (Linear PredictionCoeff icients,線性預(yù)測系數(shù)),和使用 MFCC (Mel-Frequency Cepstral Coeff icients,梅爾倒譜系數(shù))特征來表征音樂信號。二者都是將聲音信號變換到倒譜域上,MFCC方法比LPC相比具有較好優(yōu)勢。由于當前研究的“聲紋”檢索技術(shù)主要是針對泛聲音類,比如語音段落、歌曲、音樂歌曲等,因此采用的手段都比較通用及廣泛,在魯棒性上性能較差。而對于全球越來越高的保護知識產(chǎn)權(quán)的古典音樂來說,并不具有一般性。古典音樂的旋律優(yōu)美,鼓點較為規(guī)律(t匕如鋼琴、古箏等鍵擊類音樂),如何對此類具有規(guī)律性鼓點節(jié)奏的音樂進行“聲紋”的檢索尚未見有解決方案。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于針對以具有規(guī)律性鼓點節(jié)奏的音樂(古典音樂)為內(nèi)容的音樂的樂紋參數(shù)的快速提取及可視化表示。對保證人耳能敏感到的頻點進行保留和處理,對古典音樂的鼓點特征進行提取小節(jié)和節(jié)拍偏移矩陣,對古典音樂數(shù)據(jù)的子帶能量進行交織做差判決,最終生成“樂紋”特征文件,得到正版音樂唯一的樂紋特征參數(shù)表示。本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案一種對規(guī)律性鼓點節(jié)奏的音樂進行樂紋特征提取及表示方法,包括對原始音樂的預(yù)處理過程、二維樂紋圖像生成過程、音樂節(jié)奏起點位置提取過程、樂紋特征文件生成過程;具體步驟如下A、預(yù)處理過程如下步驟Al、采用重疊系數(shù)為31/32的平移窗模式對原始音樂文件進行樣值序列分幀,得到若干基于時間序列的數(shù)據(jù)幀;步驟A2、對于Al得到數(shù)據(jù)幀進行預(yù)加重處理,過濾背景噪聲和信道白噪聲;步驟A3、采用濾波器過濾數(shù)據(jù)中由于錄音設(shè)備帶來的白噪聲以及部門短時高頻干擾噪聲,得到連續(xù)的數(shù)據(jù)幀;步驟A4,對連續(xù)的數(shù)據(jù)幀進行加載漢寧窗操作,將其轉(zhuǎn)換為時域信號;步驟A5、將步驟A4得到的時域信號采用FFT變換變成頻域離散信號,即頻域矩陣{H(i,j)},并將該頻域矩陣{H(i, j)}采用Db格式矩陣E(k)=101og1Q(IH(i,j) |2)換算成相應(yīng)頻點能量矩陣{E(i,j)};其中,H(i,j)為在時間連續(xù)i幀坐標下、j頻率時短時幀的信號幅度,E(i, j)表示坐標(i, j)對應(yīng)的頻點能量,k代表時間連續(xù)巾貞數(shù),1、j、k均為自然數(shù);B、二維樂紋圖像生成過程如下:步驟B1、對步驟A5產(chǎn)生的頻點能量矩陣{E(i,j)},采用Bark曲線表進行非線性的Bark子帶分離;步驟B2、對各個子帶進行人耳感知門限的過濾,保留人類聽覺系統(tǒng)能迅速敏感到的能量點; 步驟B3曲線的非線性值,以連續(xù)子帶的各頻點索引作為子帶分離的劃分邊界,進行子帶能量求和,得到一個連續(xù)矩陣{J(m,n)},其中me (2, 32), n e (I,-).然后對相鄰塊之間進行交織塊處理,采用三值法輸出判決結(jié)果,得到一個由三值{ - 1,0,1}組成的矩陣,即樂紋特征值;步驟B4、對輸出的樂紋特征值進行可視化圖像展示,即對所述三值{ - 1,0,1}分別使用RGB色進行繪制;C、音樂節(jié)奏起點位置提取過程,具體包括:步驟Cl、通過對步驟A獲取的能量矩陣,進行連續(xù)幀能量估計,通過對過零率以及平均幀能量門限的判決,判斷靜默音和背景噪聲,獲得起點幀的位置偏移的集合{T(k)},k為范圍從I到所獲得的全部起點總數(shù);步驟C2、限定頻點索引范圍,在起點序列內(nèi)對頻點差值進行計算,對局部功率最小值進行過濾;對過濾后的起點序列,計算相鄰T(k)之間的距離,記為{D(k)}序列;步驟C3、對{D (k)}序列進行K-Means聚類計算,獲取其最大子集{Dm(p)},其中P表示從I到該子集的最大總數(shù),Dm是D (k)序列最大子集的標識;步驟C4、提取{Dm(k)}的對應(yīng)時間位置,作為最終有效節(jié)奏起點的偏移數(shù)據(jù);D、樂紋特征文件生成過程,具體為:將步驟B以及步驟C的最終結(jié)果合成一個文件,將步驟C的結(jié)果作為該文件的頭部,步驟B的結(jié)果作為該文件的數(shù)據(jù)體,則最后生成一種可以唯一標示該首音樂的可視化樂紋數(shù)據(jù)文件。本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:1、采用非線性Bark子帶分離法,避免了傳統(tǒng)的均勻分割子帶的簡單化處理、充分考慮到人耳聽覺曲線對古典音樂內(nèi)容的不同感受,通過對聽覺敏感度門限的過濾,將不影響聽覺效果的音樂內(nèi)容部分進行了過濾,保留了對感知內(nèi)容的有效性;2、采用“三值法”來描述可視化的樂紋文件,比傳統(tǒng)的黑白法有更好的展示性、同時避免了黑白二值法在噪聲干擾下造成的微小波動引起的指紋文件的變化,因此此種方法具有更好的“魯棒性”。3、采用了聚類算法獲得了節(jié)奏起點的最大子集,此種方法比很多理論算法具有更好的實現(xiàn)效果,它有效地過濾偽點子集,同時雖然也過濾掉一些有效點,但從概率上保證了有效節(jié)奏起點的存在。4、最終生成的樂紋特征文件,具有彩色的圖形化表示,同時頭文件中的節(jié)奏起點的位置信息,可以在樂紋檢索時迅速建立檢索起始位置,并將對整個音樂文件特征文件的比對縮簡成了只對節(jié)奏起點位置片段進行比對的過程。
圖1是本發(fā)明的功能實現(xiàn)框圖。圖2是原始⑶音樂預(yù)處理流程圖。圖3是二維樂紋圖像生成過程圖。圖4是絕對聽聞Bark曲線圖。圖5是采用“三值法”對相鄰塊之間進行交織塊處理輸出判決結(jié)果的示意圖。圖6是由三值{ — 1,0,1}組成的32行的矩陣示意圖。圖7是音樂樂紋的可視化圖像示意圖。圖8是音樂起點位置提取方法流程圖。圖9是處理前的峰峰功率點與過濾后的峰峰功率點示意圖。圖10是可視化樂紋數(shù)據(jù)文件格式圖。
具體實施例方式
下面結(jié)合附圖對本發(fā)明的技術(shù)方案做進一步的詳細說明:如圖1所示,本發(fā)明提出一種基于具有規(guī)律性鼓點節(jié)奏的音樂內(nèi)容的樂紋特征提取及表示方法,主要包括:原始⑶音樂預(yù)處理、二維樂紋圖像生成方法、音樂起點位置提取方法、樂紋特征文件表示方法。其中,二維樂紋圖像生成方法包括:對樣點序列的非線性Bark子帶分離過程,對子帶進行感知門限過濾,子帶能量求和,矩陣交織塊處理,樂紋特征表示,二維彩色樂紋圖像顯示等過程。音樂起點位置提取方法包括:對音樂中的節(jié)奏重音提取,消除偽重音樣點,通過聚類算法獲取有效節(jié)奏起點數(shù)據(jù),并通過記錄起點偏移位置,最終與二維樂紋圖像文件合成一個具有唯一標識指定音樂的樂紋特征文件。以古典音樂為例,本發(fā)明主要的方法具體實現(xiàn)步驟如下:A、預(yù)處理,是對原始古典音樂文件進行讀取和進行樂紋提取前的準備措施。如圖2所示,具體包括以下一些步驟:Al、分幀,取每16384個樣點為一幀,同時重疊系數(shù)為31/32,即相鄰兩幀只有512個樣值是不同的。A2、引入預(yù)加重過程,通過信道H(Z)=1-Cif來過濾背景噪聲和信道白噪聲,其中經(jīng)驗系數(shù)a e (0.9375,I),z為Z變換因子。A3、本方法采用的RASTA濾波器,RASTA濾波器是一個時間序列IIR型帶通濾波器,
過濾部分短時高頻干擾噪聲;信道特性為:
權(quán)利要求
1.一種對規(guī)律性鼓點節(jié)奏的音樂進行樂紋特征提取及表示方法,其特征在于:包括對原始音樂的預(yù)處理過程、二維樂紋圖像生成過程、音樂節(jié)奏起點位置提取過程、樂紋特征文件生成過程;具體步驟如下: A、預(yù)處理過程如下: 步驟Al、采用重疊系數(shù)為31/32的平移窗模式對原始音樂文件進行樣值序列分幀,得到若干基于時間序列的數(shù)據(jù)幀; 步驟A2、對于Al得到數(shù)據(jù)幀進行預(yù)加重處理,過濾背景噪聲和信道白噪聲; 步驟A3、采用濾波器過濾數(shù)據(jù)中由于錄音設(shè)備帶來的白噪聲以及部門短時高頻干擾噪聲,得到連續(xù)的數(shù)據(jù)幀; 步驟A4,對連續(xù)的數(shù)據(jù)幀進行加載漢寧窗操作,將其轉(zhuǎn)換為時域信號; 步驟A5、將步驟A4得到的時域信號采用FFT變換變成頻域離散信號,即頻域矩陣{H(i,j)},并將該頻域矩陣{H(i, j)}采用Db格式矩陣E(k)=101og1Q(IH(i,j) |2)換算成相應(yīng)頻點能量矩陣{E(i,j)};其中,H(i,j)為在時間連續(xù)i幀坐標下、j頻率時短時幀的信號幅度,E(i, j)表示坐標(i, j)對應(yīng)的頻點能量,k代表時間連續(xù)巾貞數(shù),1、j、k均為自然數(shù); B、二維樂紋圖像生成過程如下: 步驟B1、對步驟A5產(chǎn)生的頻點能量矩陣{E(i,j)},采用Bark曲線表進行非線性的Bark子帶分離; 步驟B2、對各個子帶進行人耳感知門限的過濾,保留人類聽覺系統(tǒng)能迅速敏感到的能量點; 步驟B3、對應(yīng)Bark曲線的非線性值,以連續(xù)子帶的各頻點索引作為子帶分離的劃分邊界,進行子帶能量求和,得到一個連續(xù)矩陣{J(m,n)},其中me (2, 32), n e (I,-);然后對相鄰塊之間進行交織塊處理,采用三值法輸出判決結(jié)果,得到一個由三值{ - 1,0,1}組成的矩陣,即樂紋特征值; 步驟B4、對輸出的樂紋特征值進行可視化圖像展示,即對所述三值{ - 1,0,1}分別使用RGB色進行繪制; C、音樂節(jié)奏起點位置提取過程,具體包括: 步驟Cl、通過對步驟A獲取的能量矩陣,進行連續(xù)幀能量估計,通過對過零率以及平均幀能量門限的判決,判斷靜默音和背景噪聲,獲得起點幀的位置偏移的集合{T(k)},k為范圍從I到所獲得的全部起點總數(shù); 步驟C2、限定頻點索引范圍,在起點序列內(nèi)對頻點差值進行計算,對局部功率最小值進行過濾;對過濾后的起點序列,計算相鄰T(k)之間的距離,記為{D(k)}序列; 步驟C3、對{D(k)}序列進行K-Means聚類計算,獲取其最大子集{Dm(p)},其中p表示從I到該子集的最大總數(shù),Dm是D (k)序列最大子集的標識; 步驟C4、提取{Dm(p)}的對應(yīng)時間位置,作為最終有效節(jié)奏起點的偏移數(shù)據(jù); D、樂紋特征文件生成過程,具體為: 將步驟B以及步驟C的最終結(jié)果合成一個文件,將步驟C的結(jié)果作為該文件的頭部,步驟B的結(jié)果作為該文件的數(shù)據(jù)體, 則最后生成一種可以唯一標示該首音樂的可視化樂紋數(shù)據(jù)文件。
全文摘要
本發(fā)明公開了一種對規(guī)律性鼓點節(jié)奏的音樂進行樂紋特征提取及表示方法。針對具有規(guī)律性鼓點節(jié)奏的音樂進行音樂小節(jié)的參數(shù)提取和估計并生成小節(jié)位置偏移矩陣,對音樂內(nèi)容中提取符合人體感知的必備參數(shù),通過非線性的Bark子帶分離,獲得各子帶的能量參數(shù)矩陣,矩陣內(nèi)部以塊形式進行交織做差,最終判決輸出為二維樂紋圖像,將小節(jié)位置偏移矩陣與二維樂紋圖像生成一個獨立的可表示的特定的“樂紋”文件。本發(fā)明主要針對鼓點較為清晰的古典音樂(正版)提取其特定“樂紋”,作為音樂自身的獨立“指紋”,同時也可以提取翻版古典音樂(盜版、盜錄、翻錄)的樂紋信息,并進行比對,最終通過誤差判決是否為正版音樂。
文檔編號G10L15/02GK103077706SQ20131002766
公開日2013年5月1日 申請日期2013年1月24日 優(yōu)先權(quán)日2013年1月24日
發(fā)明者林曉勇, 蔣玲慧, 張躍, 趙靜, 穆祥女 申請人:南京郵電大學(xué)