專利名稱:一種基于異質性準則的mp3音頻屬性離散化方法
技術領域:
本發(fā)明涉及一種基于異質性準則的MP3音頻屬性離散化方法,主要是針對MP3音頻屬性特征進行基于異質性準則的離散化處理,旨在保證精確度的同時能夠簡化最終的離散點集合的方法。
背景技術:
屬性離散化技術首先把數(shù)據(jù)集合中的連續(xù)屬性值劃分成若干等價類,然后在保證各個等價類內數(shù)據(jù)一致性的前提下,用不同的符號或整數(shù)值代表每個等價類,并把這些等價類作為單一的離散數(shù)據(jù)進行處理,從而達到離散化的目的。簡單的說,連續(xù)屬性的離散化過程就是用一些特定的符號或整數(shù)值對屬性空間進行劃分的過程。隨著海量數(shù)據(jù)的快速發(fā)展,如何從雜亂無章有干擾的龐大數(shù)據(jù)庫中挖掘有用的知識,已經(jīng)成為人類對智能信息處理能力的挑戰(zhàn)。對于某些數(shù)據(jù)挖掘方法而言,它們在進行算法設計時通常都是針對離散型的數(shù)據(jù)集,如決策樹、粗糙集、關聯(lián)規(guī)則等,特別是已成為粗糙集理論的主要問題之一,也是影響粗糙集理論應用的瓶頸之一。然而,在實際應用中,屬性更多的是呈現(xiàn)連續(xù)或混合的狀態(tài),而不是單一的離散型數(shù)據(jù),為了能夠從這些含有連續(xù)屬性的數(shù)據(jù)庫中取得好的數(shù)據(jù)樣本,得到簡潔且有效的規(guī)則,挖掘出更多的有效信息,需要對連續(xù)屬性進行數(shù)據(jù)預處理的離散化。本發(fā)明所提出的離散化方法解決了 MP3壓縮域中連續(xù)屬性離散化的問題,對每一維屬性所選擇出來的離散點會各不相同,是由樣本屬性本身以及樣本類別決定的。該方法比傳統(tǒng)的離散化方法中的“一概而論”式選擇斷點的方法的更加合理,能夠保留各屬性更多的特性??蛇M一步應用于MP3音頻的語音識別和分類檢索系統(tǒng)中。
發(fā)明內容
本發(fā)明的目的在于針對已有技術中存在的缺陷,提供一種基于異質性準則的MP3 音頻屬性離散化方法,通過提取基于M3CT域音頻的主要特征,并選取基于拐點的候選斷點,實現(xiàn)對MP3音頻屬性離散化處理問題。為達到上述目的,本發(fā)明的構思是先從MP3音頻數(shù)據(jù)中提取MDCT系數(shù),然后基于 JfflCT域提取音頻的主要特征,作為訓練樣本的屬性集,得到15維的特征屬性輸入集合, 并根據(jù)拐點的性質得到連續(xù)屬性的斷點集合,最后通過基于異質性準則的離散化方法得到離散結果。根據(jù)上述發(fā)明構思,本發(fā)明采用的技術方案進一步完善為首先從MP3音頻數(shù)據(jù)中提取MDCT系數(shù),再分析MDCT系數(shù)的特性,根據(jù)MDCT系數(shù)的特性提取音頻的主要特征(其中包括均方根RMS、譜中心距SC、邊帶能量比率BER、梅爾倒譜系數(shù)MFCC (12維)),作為訓練樣本的屬性集,得到15維的特征屬性輸入集合,然后根據(jù)拐點的性質得到連續(xù)屬性的斷點集合,最后通過基于異質性準則的離散化方法得到離散結果。該方法具體包括如下步驟
1)、MP3音頻特征的預處理包括對MP3幀頭進行解碼、邊信息獲取、獲取主數(shù)據(jù)和縮放因子、哈夫曼解碼和反量化四個部分;
2)、基于MDCT系數(shù)的音頻特征提取從反量化后的MP3幀中找出每一幀兩個粒度的 MDCT系數(shù),對兩個顆粒的MDCT系數(shù)按頻率點求平均,構建每幀音頻的MDCT譜系數(shù),然后提取均方根RMS、譜中心距SC、邊帶能量比率BER、梅爾倒譜系數(shù)MFCC(12維);
3)、候選斷點的選擇從連續(xù)屬性的包絡性質出發(fā),將基于此包絡的拐點作為屬性離散化的初始候選斷點,保留在不同斷點區(qū)間屬性變化的重要信息,提高離散化方法的適應性;
4)、設計異質量計算基于類的條件概率向量
權利要求
1.一種基于異質性準則的MP3音頻屬性離散化方法,其特征在于具體操作步驟如下1)、MP3音頻特征的預處理包括對MP3幀頭進行解碼、邊信息獲取、獲取主數(shù)據(jù)和縮放因子、哈夫曼解碼和反量化;2)、基于MDCT系數(shù)的音頻特征提取從反量化后的MP3幀中找出每一幀兩個粒度的 MDCT系數(shù),對兩個顆粒的MDCT系數(shù)按頻率點求平均,構建每幀音頻的MDCT譜系數(shù),然后提取均方根RMS、譜中心距SC、邊帶能量比率BER、梅爾倒譜系數(shù)MFCC ;3)、候選斷點的選擇從連續(xù)屬性的包絡性質出發(fā),將基于此包絡的拐點作為屬性離散化的初始候選斷點,保留在不同斷點區(qū)間屬性變化的重要信息,提高離散化方法的適應性;4)、設計異質量計算基于類的條件概率向量 Pw = ip },ι4!、,…,P^,…H ,并將向量D與中間概率向量石之間的距離稱為向量『的異質量我;^),以拜〗與重心概率向量S之間的距離即異質量作為衡量離散化優(yōu)劣的方法;5)、異質性準則下的離散化算法根據(jù)步驟3)中的候選斷點的的算法對屬性集中每一維屬性進行處理,并根據(jù)步驟4)中計算得到的異質量對處理后的屬性集進行離散化。
2.根據(jù)權利要求1所述的基于異質性準則的MP3音頻屬性離散化方法,其特征在于所述步驟1)中的進行MP3音頻特征的預處理具體步驟如下(1)、同步數(shù)據(jù)流和幀頭信息的獲取;(2)、從解碼得到的幀頭信息中獲取邊信息;(3)、提取MP3主數(shù)據(jù)和縮放因子;(4)、對MP3主數(shù)據(jù)流進行哈夫曼解碼和反量化。
3.根據(jù)權利要求1所述的基于異質性準則的MP3音頻屬性離散化方法,其特征在于所述步驟2)中的基于MDCT系數(shù)的音頻特征提取具體步驟如下(1)、構建每幀音頻的MDCT系數(shù);(2)、提取基于MDCT系數(shù)的均方根RMS、譜中心距SC、邊帶能量比率BER、梅爾倒譜系數(shù) MFCC0
4.根據(jù)權利要求1所述的基于異質性準則的MP3音頻屬性離散化方法,其特征在于 所述步驟3)中候選斷點的選擇具體步驟如下(1)、初始化音頻特征屬性集;O)、依次選取音頻特征屬性集中的四個順序點形成的三個向量CD),并計算兩組交叉向量的曲率;(3)、根據(jù)曲率方向的變化判斷拐點是否存在;G)、循環(huán)操作,對其他條件屬性,重復執(zhí)行乂印1_乂印3的流程以得到每一維屬性的候選斷點集合。
5.根據(jù)權利要求1所述的基于異質性準則的MP3音頻屬性離散化方法,其特征在于所述步驟4)設計異質量具體步驟如下(1)、根據(jù)歐氏距離計算不同音頻種類之間的異質量; O)、根據(jù)選擇的異質量計算不同音頻種類之間的異質性。
6.根據(jù)權利要求1所述的基于異質性準則的MP3音頻屬性離散化方法,其特征在于所述步驟5)異質性準則下的離散化算法具體步驟如下 (1)、對每一維屬性集初始化斷點集合; O)、根據(jù)初始化的斷點集合初始化離散方案; (3)、向離散方案中添加候選斷點; G)、根據(jù)是否驗證所有候選斷點更新離散方案;(5)、循環(huán)步驟(3)和⑷操作,直到驗證完所有的初始斷點集合,結束循環(huán);(6)、得到當前屬性的離散點,然后對其他條件屬性,重復執(zhí)行步驟(1)到步驟( 的流程以得到每一維屬性的離散點。
全文摘要
本發(fā)明涉及一種基于異質性準則的MP3音頻屬性離散化方法。本方法直接對MP3音頻進行離散化處理。首先對MP3音頻特征進行預處理,然后獲得每幀音頻的MDCT譜系數(shù),基于MDCT域提取音頻的主要特征(其中包括邊帶能量比率BER、均方根RMS、譜中心距SC、梅爾倒譜系數(shù)MFCC(12維)),作為訓練樣本的屬性集,得到15維的特征屬性輸入集合,最后通過基于異質性準則的離散化方法得到離散結果,實驗結果表明采用本發(fā)明的離散化方法能夠方便對壓縮域音頻屬性特征優(yōu)化的后續(xù)處理,為建立實用快速的音頻多分類及檢索系統(tǒng)打下基礎。
文檔編號G06F17/30GK102270210SQ201010612259
公開日2011年12月7日 申請日期2010年12月30日 優(yōu)先權日2010年12月30日
發(fā)明者萬旺根, 余小清, 劉軍偉, 張靜, 楊薇 申請人:上海大學