去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法

文檔序號：6653923閱讀：436來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻信號處理，具體講涉及去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法。
背景技術(shù)：
當今數(shù)字化與網(wǎng)絡(luò)時代化，數(shù)據(jù)存儲技術(shù)和多媒體壓縮技術(shù)如JPEG、MPEG等技術(shù) 的快速發(fā)展，導(dǎo)致數(shù)字多媒體數(shù)據(jù)的存儲量增加，也導(dǎo)致互聯(lián)網(wǎng)上音頻數(shù)據(jù)的增加。目前，圖像、音頻和視頻等多媒體內(nèi)容已成為互聯(lián)網(wǎng)信息高速公路上所傳送數(shù)據(jù)的主要部分，而音樂又是音頻的主要部分，隨著互聯(lián)網(wǎng)的發(fā)展，越來越多的人能夠更加方便、快捷、經(jīng)濟地接觸到數(shù)字音樂，人們面臨的問題不再是缺少媒體內(nèi)容，而是如何在浩如煙海的多媒體世界中找到自己所需要的信息。音樂流派是人類創(chuàng)造的用于區(qū)分和描述音樂，然而由于歷史和文化等原因音樂流派沒有嚴格的定義與界限，每一種音樂流派的特征都是由其成員的特征決定的，這些特征又是由樂器，節(jié)奏和音樂的和聲決定的。目前音樂流派的分類是靠人工完成的，當面對網(wǎng)絡(luò)上海量的音樂時，人工分類不足以完成如此巨大的工作量，這時需要借助計算機、人工智能等以取代人工分類，實現(xiàn)音樂流派的自動分類。目前，在現(xiàn)有的基于音樂內(nèi)容的專利中，大多是基于音樂內(nèi)容的音樂檢索。2009年 4月1日公布的、公開號為CN101398825、名稱為用于快速音樂分類和檢索的方法和設(shè)備的中國發(fā)明專利申請公布說明書提供了一種基于內(nèi)容的音樂分類方法，該專利提取短時音樂特征，即MFCC和音質(zhì)特征，采用基于支持向量機(SVM)進行分類。近年來，基于最小一范數(shù)稀疏映射已經(jīng)成功應(yīng)用于模式識別與分類，在醫(yī)學(xué)領(lǐng)域癌癥與腫瘤的分類、人臉識別、衛(wèi)星圖像分類、說話人識別和種子分類方面取得了較好的分類效果。目前未發(fā)現(xiàn)基于最小一范數(shù)稀疏映射用于音樂流派有監(jiān)督自動分類的報道。

發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的不足，提供一種能夠提高音樂流派自動分類準確率，方便音樂音頻數(shù)據(jù)庫內(nèi)容組織和檢索，也可用于其它基于內(nèi)容音樂信息檢索，提高檢索性能的基于最小一范數(shù)稀疏映射的音樂流派有監(jiān)督自動分類方法及系統(tǒng)，本發(fā)明采用的技術(shù)方案是，一種去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法，包括下列步驟a建立有監(jiān)督訓(xùn)練數(shù)據(jù)庫；b對訓(xùn)練音樂樣本提取短時音樂特征和節(jié)奏特征，短時音樂特征即MFCC和音色特征；c對提取的特征數(shù)據(jù)采用PCA(主分量分析)技術(shù)去噪和降維；d將特征矩陣按流派類別分塊，則A = [A1, A2, ...，Ak]為特征矩陣，K為音樂流派種類的個數(shù)，y為測試樣本，求出方程y = Ax的最小一范數(shù)解。e 確定 y 的種類為 argmirii I Iy-ASi(X)iI |2，i = 1，2，· · ·，k，δ (x)的非零值為第i類。所述的建立有監(jiān)督訓(xùn)練數(shù)據(jù)庫是通過相關(guān)渠道建立包括η種音樂流派的音樂文件夾，可以通過互聯(lián)網(wǎng)下載或者專輯中獲得，其中每一種音樂流派的數(shù)據(jù)庫要盡可能包含不同的歌手，不同的專輯。所述在步驟b之前包括以下步驟對輸入的音樂文件截取兩個30秒的片段；對截取每個30秒的片段，選取1秒為一個文本窗的長度，且文本窗與文本窗之間無重疊；對一個文本窗內(nèi)選取512點為一個分析窗的長度，分析窗的幀移為256個樣本點；對一個分析窗 w的數(shù)據(jù)預(yù)加重、加窗、分幀；預(yù)加重包括讓輸入的音樂文件通過濾波器，預(yù)加重濾波器一般是一階的，形式如H(Z) = l-uz—1，u的典型值在0.94 0.97之間；所加窗的窗函數(shù)類型為漢明窗(hamming)；取幀長為512個樣本點，幀移為256個樣本點；提取美爾頻率倒譜系數(shù)(MFCC)特征需要設(shè)置相關(guān)參數(shù)的值，設(shè)置的參數(shù)包括MFCC的通道為M，幀長為512個樣本點，幀移為256個樣本點，取前5維MFCC。所述的對訓(xùn)練音樂樣本提取音色和節(jié)奏特征是用時域、頻域和小波域的方法提取特征，其中時域特征樣本信號在時間域上通過零的次數(shù)和在一個文本窗內(nèi)低于平均能量的幀的比率；頻域特征spectral-power，spectral-rolloff, spectral-centroid, spectral-fulx, spectral-spread, spectral-skewness, spectral-kurtosis, spectral-brightness, spectral-entropy, spectral-irrgularity, spectral-low-energy, spectral-flatness 及 MFCC,小波域特征beat histogram、 DffCH(Daubechiesffavelet Coefficients Histogram)；其中首先定義，xk = abs (fft (χ))，下面公式中所涉及N為一個分析窗內(nèi)的樣本點的個數(shù)，即512點。Spectral-power 數(shù)學(xué)定義如下s=101g(xk)spectral-rolloff 是衡量頻譜波形的一種方式，數(shù)學(xué)公式定義如下

權(quán)利要求
1.一種基于去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法，其特征是，包括下列步驟a建立有監(jiān)督訓(xùn)練數(shù)據(jù)庫；b對訓(xùn)練音樂樣本提取短時音樂特征和節(jié)奏特征，短時音樂特征即MFCC和音色特征； c對提取的特征數(shù)據(jù)采用PCA(主分量分析)技術(shù)去噪和降維； d將特征矩陣按流派類別分塊，則A = [A1, A2,...，Ak]為特征矩陣，K為音樂流派種類的個數(shù)，y為測試樣本，求出方程y = Ax的最小一范數(shù)解。e 確定 y 的種類為 arg Hiini | Iy-ASi(X)iI 12，i = 1，2，. . .，k，δ (χ)的非零值為第 i類。
2.如權(quán)利要求1所述的方法，其特征是，所述的建立有監(jiān)督訓(xùn)練數(shù)據(jù)庫是通過相關(guān)渠道建立包括η種音樂流派的音樂文件夾，可以通過互聯(lián)網(wǎng)下載或者專輯中獲得，其中每一種音樂流派的數(shù)據(jù)庫要盡可能包含不同的歌手，不同的專輯。
3.如權(quán)利要求1所述的方法，其特征是，在步驟b之前包括以下步驟對輸入的音樂文件截取兩個30秒的片段；對截取每個30秒的片段，選取1秒為一個文本窗的長度，且文本窗與文本窗之間無重疊；對一個文本窗內(nèi)選取512點為一個分析窗的長度，分析窗的幀移為256個樣本點；對一個分析窗w的數(shù)據(jù)預(yù)加重、加窗、分幀；預(yù)加重包括讓輸入的音樂文件通過濾波器，預(yù)加重濾波器一般是一階的，形式如H(Z) = l-uz—1，u的典型值在0.94 0.97之間；所加窗的窗函數(shù)類型為漢明窗(hamming)；取幀長為512個樣本點，幀移為256 個樣本點；提取MFCC特征需要設(shè)置相關(guān)參數(shù)的值，設(shè)置的參數(shù)包括MFCC的通道為M，幀長為512個樣本點，幀移為256個樣本點，取前5維MFCC。
4.如權(quán)利要求1所述的方法，其特征是，所述的對訓(xùn)練音樂樣本提取音色和節(jié)奏特征是用時域、頻域和小波域的方法提取特征，其中時域特征zero-crossing-rate 禾口 Low-energy ；步頁域特征spectral_power， spectral-rolloff， spectral-centroid， spectral-fulx, spectral-spread, spectral-skewness, spectral-kurtosis, spectral-brightness , spectral-entropy, spectral-irrgularity, spectral-low-energy, spectral-flatness 及 MFCC。小波域特征beat histogram、DWCH，其中首先定義，xk = abs(fft(x))，下面公式中所涉及N為一個分析窗內(nèi)的樣本點的個數(shù)，即512點。Spectral-power 數(shù)學(xué)定義如下 s = 101g(xk)spectral-rolloff 是衡量頻譜波形的一種方式，數(shù)學(xué)公式定義如下RNR = [RlYjMtIn] = 0.85 * J^M^n]}n=\n=\spectral-centroid 定義為頻譜能量的一階矩，數(shù)學(xué)定義公式如下NHmfi)spectral - centroid - -YjPiJi)i=0spectral-fulx 表征兩個相鄰的幀頻譜的連續(xù)變化情況，數(shù)學(xué)定義，
5.如權(quán)利要求1所述的方法，其特征是，所述的PCA去噪和降維并去相關(guān)是降低特征的個數(shù)，同時實現(xiàn)了消除噪聲的作用。
6.如權(quán)利要求1所述的方法，其特征是，所述的用稀疏矩陣對數(shù)據(jù)實現(xiàn)自動分類是求出y = Ax的解即通過梯度下降法求出，從而實現(xiàn)分類。
7.如權(quán)利要求1所述的方法，其特征是，步驟b還包括對短時音樂特征求平均值和標準偏差組成特征矩陣；步驟c所述的方法包括求取特征矩陣的協(xié)方差矩陣；求出協(xié)方差矩陣的全部特征值，并選取大于0. 00001的特征值實現(xiàn)降維和去噪。
全文摘要
本發(fā)明涉及音頻信號處理。為提供一種能夠提高音樂流派自動分類準確率，方便音樂音頻數(shù)據(jù)庫內(nèi)容組織和檢索，也可用于其它基于內(nèi)容音樂信息檢索，提高檢索性能的基于最小一范數(shù)稀疏映射的音樂流派有監(jiān)督自動分類方法及系統(tǒng)，本發(fā)明采用的技術(shù)方案是，基于去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法，包括下列步驟a建立有監(jiān)督訓(xùn)練數(shù)據(jù)庫；b對訓(xùn)練音樂樣本提取短時音樂特征和節(jié)奏特征，短時音樂特征即MFCC和音色特征；c對提取的特征數(shù)據(jù)采用PCA(主分量分析)技術(shù)去噪和降維；d將特征矩陣按流派類別分塊；e確定y的種類為argmini||y-Aδi(x)i||2，i＝1，2，...，k，δ(x)的非零值為第i類。本發(fā)明主要應(yīng)用于音頻信號處理。
文檔編號G06F17/30GK102129456SQ20111005648
公開日2011年7月20日申請日期2011年3月9日優(yōu)先權(quán)日2011年3月9日
發(fā)明者關(guān)欣, 徐星, 李鏘申請人:天津大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：關(guān)欣;徐星;李鏘
技術(shù)所有人：天津大學(xué)
我是此專利的發(fā)明人

上一篇：一種沉水植物恢復(fù)判別模型及其應(yīng)用的制作方法
上一篇：漢字表征碼、編碼方法與鍵盤的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

去相關(guān)稀疏映射音樂流派有監(jiān)督自動分類方法