專利名稱:去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號處理,具體講涉及去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類 方法。
背景技術(shù):
當今數(shù)字化與網(wǎng)絡(luò)時代化,數(shù)據(jù)存儲技術(shù)和多媒體壓縮技術(shù)如JPEG、MPEG等技術(shù) 的快速發(fā)展,導(dǎo)致數(shù)字多媒體數(shù)據(jù)的存儲量增加,也導(dǎo)致互聯(lián)網(wǎng)上音頻數(shù)據(jù)的增加。目前, 圖像、音頻和視頻等多媒體內(nèi)容已成為互聯(lián)網(wǎng)信息高速公路上所傳送數(shù)據(jù)的主要部分,而 音樂又是音頻的主要部分,隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的人能夠更加方便、快捷、經(jīng)濟地 接觸到數(shù)字音樂,人們面臨的問題不再是缺少媒體內(nèi)容,而是如何在浩如煙海的多媒體世 界中找到自己所需要的信息。音樂流派是人類創(chuàng)造的用于區(qū)分和描述音樂,然而由于歷史 和文化等原因音樂流派沒有嚴格的定義與界限,每一種音樂流派的特征都是由其成員的特 征決定的,這些特征又是由樂器,節(jié)奏和音樂的和聲決定的。目前音樂流派的分類是靠人工 完成的,當面對網(wǎng)絡(luò)上海量的音樂時,人工分類不足以完成如此巨大的工作量,這時需要借 助計算機、人工智能等以取代人工分類,實現(xiàn)音樂流派的自動分類。目前,在現(xiàn)有的基于音樂內(nèi)容的專利中,大多是基于音樂內(nèi)容的音樂檢索。2009年 4月1日公布的、公開號為CN101398825、名稱為用于快速音樂分類和檢索的方法和設(shè)備的 中國發(fā)明專利申請公布說明書提供了一種基于內(nèi)容的音樂分類方法,該專利提取短時音樂 特征,即MFCC和音質(zhì)特征,采用基于支持向量機(SVM)進行分類。近年來,基于最小一范數(shù)稀疏映射已經(jīng)成功應(yīng)用于模式識別與分類,在醫(yī)學(xué)領(lǐng)域 癌癥與腫瘤的分類、人臉識別、衛(wèi)星圖像分類、說話人識別和種子分類方面取得了較好的分 類效果。目前未發(fā)現(xiàn)基于最小一范數(shù)稀疏映射用于音樂流派有監(jiān)督自動分類的報道。
發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的不足,提供一種能夠提高音樂流派自動分類準確率,方便音樂 音頻數(shù)據(jù)庫內(nèi)容組織和檢索,也可用于其它基于內(nèi)容音樂信息檢索,提高檢索性能的基于 最小一范數(shù)稀疏映射的音樂流派有監(jiān)督自動分類方法及系統(tǒng),本發(fā)明采用的技術(shù)方案是, 一種去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法,包括下列步驟a建立有監(jiān)督訓(xùn)練數(shù)據(jù)庫;b對訓(xùn)練音樂樣本提取短時音樂特征和節(jié)奏特征,短時音樂特征即MFCC和音色特 征;c對提取的特征數(shù)據(jù)采用PCA(主分量分析)技術(shù)去噪和降維;d將特征矩陣按流派類別分塊,則A = [A1, A2, ...,Ak]為特征矩陣,K為音樂流派 種類的個數(shù),y為測試樣本,求出方程y = Ax的最小一范數(shù)解。e 確定 y 的種類為 argmirii I Iy-ASi(X)iI |2,i = 1,2,· · ·,k,δ (x)的非零值為第i類。所述的建立有監(jiān)督訓(xùn)練數(shù)據(jù)庫是通過相關(guān)渠道建立包括η種音樂流派的音樂文 件夾,可以通過互聯(lián)網(wǎng)下載或者專輯中獲得,其中每一種音樂流派的數(shù)據(jù)庫要盡可能包含 不同的歌手,不同的專輯。所述在步驟b之前包括以下步驟對輸入的音樂文件截取兩個30秒的片段;對截 取每個30秒的片段,選取1秒為一個文本窗的長度,且文本窗與文本窗之間無重疊;對一個 文本窗內(nèi)選取512點為一個分析窗的長度,分析窗的幀移為256個樣本點;對一個分析窗 w的數(shù)據(jù)預(yù)加重、加窗、分幀;預(yù)加重包括讓輸入的音樂文件通過濾波器,預(yù)加重濾波器一 般是一階的,形式如H(Z) = l-uz—1,u的典型值在0.94 0.97之間;所加窗的窗函數(shù)類型 為漢明窗(hamming);取幀長為512個樣本點,幀移為256個樣本點;提取美爾頻率倒譜系 數(shù)(MFCC)特征需要設(shè)置相關(guān)參數(shù)的值,設(shè)置的參數(shù)包括MFCC的通道為M,幀長為512個 樣本點,幀移為256個樣本點,取前5維MFCC。所述的對訓(xùn)練音樂樣本提取音色和節(jié)奏特征是用時域、頻域和小波域的 方法提取特征,其中時域特征樣本信號在時間域上通過零的次數(shù)和在一個文本 窗內(nèi)低于平均能量的幀的比率;頻域特征spectral-power,spectral-rolloff, spectral-centroid, spectral-fulx, spectral-spread, spectral-skewness, spectral-kurtosis, spectral-brightness, spectral-entropy, spectral-irrgularity, spectral-low-energy, spectral-flatness 及 MFCC,小波域特征beat histogram、 DffCH(Daubechiesffavelet Coefficients Histogram);其中首先定義,xk = abs (fft (χ)),下面公式中所涉及N為一個分析窗內(nèi)的樣本點的個 數(shù),即512點。Spectral-power 數(shù)學(xué)定義如下s=101g(xk)spectral-rolloff 是衡量頻譜波形的一種方式,數(shù)學(xué)公式定義如下
權(quán)利要求
1.一種基于去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法,其特征是,包括下列步驟a建立有監(jiān)督訓(xùn)練數(shù)據(jù)庫;b對訓(xùn)練音樂樣本提取短時音樂特征和節(jié)奏特征,短時音樂特征即MFCC和音色特征; c對提取的特征數(shù)據(jù)采用PCA(主分量分析)技術(shù)去噪和降維; d將特征矩陣按流派類別分塊,則A = [A1, A2,...,Ak]為特征矩陣,K為音樂流派種類 的個數(shù),y為測試樣本,求出方程y = Ax的最小一范數(shù)解。e 確定 y 的種類為 arg Hiini | Iy-ASi(X)iI 12,i = 1,2,. . .,k,δ (χ)的非零值為第 i類。
2.如權(quán)利要求1所述的方法,其特征是,所述的建立有監(jiān)督訓(xùn)練數(shù)據(jù)庫是通過相關(guān)渠 道建立包括η種音樂流派的音樂文件夾,可以通過互聯(lián)網(wǎng)下載或者專輯中獲得,其中每一 種音樂流派的數(shù)據(jù)庫要盡可能包含不同的歌手,不同的專輯。
3.如權(quán)利要求1所述的方法,其特征是,在步驟b之前包括以下步驟對輸入的音樂文 件截取兩個30秒的片段;對截取每個30秒的片段,選取1秒為一個文本窗的長度,且文本 窗與文本窗之間無重疊;對一個文本窗內(nèi)選取512點為一個分析窗的長度,分析窗的幀移 為256個樣本點;對一個分析窗w的數(shù)據(jù)預(yù)加重、加窗、分幀;預(yù)加重包括讓輸入的音樂文 件通過濾波器,預(yù)加重濾波器一般是一階的,形式如H(Z) = l-uz—1,u的典型值在0.94 0.97之間;所加窗的窗函數(shù)類型為漢明窗(hamming);取幀長為512個樣本點,幀移為256 個樣本點;提取MFCC特征需要設(shè)置相關(guān)參數(shù)的值,設(shè)置的參數(shù)包括MFCC的通道為M,幀 長為512個樣本點,幀移為256個樣本點,取前5維MFCC。
4.如權(quán)利要求1所述的方法,其特征是,所述的對訓(xùn)練音樂樣本提取音色和節(jié)奏 特征是用時域、頻域和小波域的方法提取特征,其中時域特征zero-crossing-rate 禾口 Low-energy ;步頁域特征spectral_power, spectral-rolloff, spectral-centroid, spectral-fulx, spectral-spread, spectral-skewness, spectral-kurtosis, spectral-brightness , spectral-entropy, spectral-irrgularity, spectral-low-energy, spectral-flatness 及 MFCC。小波域特征beat histogram、DWCH, 其中首先定義,xk = abs(fft(x)),下面公式中所涉及N為一個分析窗內(nèi)的樣本點的個數(shù), 即512點。Spectral-power 數(shù)學(xué)定義如下 s = 101g(xk)spectral-rolloff 是衡量頻譜波形的一種方式,數(shù)學(xué)公式定義如下RNR = [RlYjMtIn] = 0.85 * J^M^n]}n=\n=\spectral-centroid 定義為頻譜能量的一階矩,數(shù)學(xué)定義公式如下NHmfi)spectral - centroid - -YjPiJi)i=0spectral-fulx 表征兩個相鄰的幀頻譜的連續(xù)變化情況,數(shù)學(xué)定義,
5.如權(quán)利要求1所述的方法,其特征是,所述的PCA去噪和降維并去相關(guān)是降低特征的 個數(shù),同時實現(xiàn)了消除噪聲的作用。
6.如權(quán)利要求1所述的方法,其特征是,所述的用稀疏矩陣對數(shù)據(jù)實現(xiàn)自動分類是求 出y = Ax的解即通過梯度下降法求出,從而實現(xiàn)分類。
7.如權(quán)利要求1所述的方法,其特征是,步驟b還包括對短時音樂特征求平均值和標 準偏差組成特征矩陣;步驟c所述的方法包括求取特征矩陣的協(xié)方差矩陣;求出協(xié)方差矩 陣的全部特征值,并選取大于0. 00001的特征值實現(xiàn)降維和去噪。
全文摘要
本發(fā)明涉及音頻信號處理。為提供一種能夠提高音樂流派自動分類準確率,方便音樂音頻數(shù)據(jù)庫內(nèi)容組織和檢索,也可用于其它基于內(nèi)容音樂信息檢索,提高檢索性能的基于最小一范數(shù)稀疏映射的音樂流派有監(jiān)督自動分類方法及系統(tǒng),本發(fā)明采用的技術(shù)方案是,基于去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法,包括下列步驟a建立有監(jiān)督訓(xùn)練數(shù)據(jù)庫;b對訓(xùn)練音樂樣本提取短時音樂特征和節(jié)奏特征,短時音樂特征即MFCC和音色特征;c對提取的特征數(shù)據(jù)采用PCA(主分量分析)技術(shù)去噪和降維;d將特征矩陣按流派類別分塊;e確定y的種類為argmini||y-Aδi(x)i||2,i=1,2,...,k,δ(x)的非零值為第i類。本發(fā)明主要應(yīng)用于音頻信號處理。
文檔編號G06F17/30GK102129456SQ20111005648
公開日2011年7月20日 申請日期2011年3月9日 優(yōu)先權(quán)日2011年3月9日
發(fā)明者關(guān)欣, 徐星, 李鏘 申請人:天津大學(xué)