亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng)及其方法

文檔序號:6563728閱讀:246來源:國知局

專利名稱::應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng)及其方法
技術(shù)領(lǐng)域
:本發(fā)明涉及一種分類音頻的系統(tǒng)及其方法,特別是涉及一種應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng)及其方法。
背景技術(shù)
:數(shù)字信息時代中,音頻數(shù)據(jù)的處理已變成現(xiàn)代計算機應(yīng)用極重要的一部分。一個典型的多媒體數(shù)據(jù)庫通常儲存數(shù)以百萬計的音頻段(AudioClips),包括環(huán)境聲響、機器噪音、動物叫聲、音樂、語音,及其他非語音的語調(diào)等各種音頻類別。因此,自動分類不同音頻類別的大量音頻也就成為重要的研究議題,尤其是針對分類音頻中的音樂及非音樂,因為具有多方面的加值應(yīng)用,因此更受到關(guān)注。例如,一個音樂節(jié)目或一場演唱會的音頻文件可能同時包含非音樂(如語音)和音樂穿插的片段,為了能不受打擾地享用喜愛的音樂,可以利用自動分類技術(shù)將喜愛的音樂從音頻中分離出來并另外搜集儲存。一般來說,音頻分類的方法有二步驟首先,將所述音頻利用特征抽取技術(shù)分為一小型的參數(shù)集合;接著,將分類演算法,例如從簡單的歐幾里得距離方法(EuclideanDistanceMethods)至細致的統(tǒng)計技術(shù),運作于這些參數(shù)上。要得到良好的分類品質(zhì),必須取得適當(dāng)?shù)囊纛l特征,且準(zhǔn)確地將每一種特征的集合對應(yīng)于它所應(yīng)該對應(yīng)的音頻類別里。因此,為達到良好的分類精準(zhǔn)度,并從音頻中更準(zhǔn)確地分類出音樂及非音樂,有必要尋求正確可靠的音頻分類方法。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種可以準(zhǔn)確地分類音頻中的音樂與非音樂的方法。于是,本發(fā)明應(yīng)用數(shù)字音頻特征集分類音頻的方法是包含下列步驟(a)將該音頻譯碼為一無編碼音頻。(b)將該無編碼音頻區(qū)分為多個音頻片段,并以一數(shù)字音頻特征集將每一音頻片段進行特征抽取。每一音頻片段各具有多個幀,且針對每一音頻片段,形成一特征向量的過程,包括計算該音頻片段中所有幀的過零次數(shù)的一變異數(shù)、計算該音頻片段中所有幀的過零次數(shù)的一第三階扭矩、計算該音頻片段中所有幀的過零次數(shù)的一平均值,再分別計算出所述幀中過零次數(shù)大于以及小于等于該平均值的幀數(shù)、計算該音頻片段中所有幀的歸一化能量的一標(biāo)準(zhǔn)差、取出該音頻片段中所有幀的歸一化能量的最小值、計算該音頻片段中所有幀的歸一化能量中最大值及最小值的差值、將該音頻片段中所有幀由時間域轉(zhuǎn)換為頻率域后,計算所有幀的其中四頻段的對數(shù)能量的一平均值、計算所有幀的其中四頻段的對數(shù)能量的一標(biāo)準(zhǔn)差,及分別計算除第一個幀外的每一幀與其前一相鄰幀的歸一化能量差。(c)若其中一音頻片段特征抽取的結(jié)果符合一所欲搜集的音頻類別,則將該其中一音頻片段分類為一特征音頻片段。(d)將連續(xù)出現(xiàn)的所述特征音頻片段組合為一目標(biāo)音頻。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,在該(b)步驟中,每一音頻片段的長度為1至2秒。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,在該(b)步驟中,每一音頻片段的所述幀為150個。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,在該(b)步驟中,每一幀的一采樣數(shù)為512,且每一幀的采樣頻率為48KHz。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,在該(b)步驟中,該歸一化能量=(所述采樣的平方總和/65535的平方)/512。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,在該(b)步驟中,每一幀以長度為所述每一幀的一采樣數(shù)的漢明窗相乘,再將所述幀進行快速傅立葉轉(zhuǎn)換,以將時間域轉(zhuǎn)換為頻率域。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,在(c)步驟中,是以一支援向量機進行分類。本發(fā)明的另一目的在于提供一種應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng)。于是,該應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng)包含一譯碼模塊、一數(shù)字特征轉(zhuǎn)換模塊、一數(shù)字特征分類模塊,及一完整音頻確認模塊。該譯碼模塊用以將音頻譯碼為一無編碼音頻。該數(shù)字特征轉(zhuǎn)換模塊用以將該譯碼模塊產(chǎn)生的無編碼音頻區(qū)分為多個音頻片段,并包括一用以將每一音頻片段進行特征抽取的數(shù)字音頻特征集,每一音頻片段各具有多個幀,且針對每一音頻片段,形成一特征向量的過程包括計算該音頻片段中所有幀的過零次數(shù)的一變異數(shù)、計算該音頻片段中所有幀的過零次數(shù)的一第三階扭矩、計算該音頻片段中所有幀的過零次數(shù)的一平均值,再分別計算出所述幀中過零次數(shù)大于以及小于等于該平均值的幀數(shù)、計算該音頻片段中所有幀的歸一化能量的一標(biāo)準(zhǔn)差、取出該音頻片段中所有幀的歸一化能量的最小值、計算該音頻片段中所有幀的歸一化能量中最大值及最小值的差值、將該音頻片段中所有幀由時間域轉(zhuǎn)換為頻率域后,計算所有幀中之其中四頻段的對數(shù)能量的一平均值、計算所有幀中之其中四頻段的對數(shù)能量的一標(biāo)準(zhǔn)差,及分別計算除第一個幀外的每一幀與其前一相鄰幀的歸一化能量差。該數(shù)字特征分類模塊的作用為若其中一音頻片段特征抽取的結(jié)杲符合一所欲搜集的音頻類別,則該數(shù)字特征分類模塊用以將該其中一音頻片段分類為一特征音頻片段。該完整音頻確認模塊用以將連續(xù)出現(xiàn)的所述特征音頻片段組合成一目標(biāo)音頻。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),每一音頻片段的長度為1至2秒。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),每一音頻片段的所述幀為150個。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),每一幀的一采樣數(shù)為512,且每一幀的采樣頻率為48KHz。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),該歸一化能量=(所述采樣的平方總和/65535的平方)/512。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),每一幀以長度為所述每一幀的一采樣數(shù)的漢明窗相乘,再將所述幀進行快速傅立葉轉(zhuǎn)換,以將時間域轉(zhuǎn)換為頻率域。本發(fā)明所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),該數(shù)字特征分類模塊包括一支援向量機。本發(fā)明的功效在于,自動從大量播送音頻的公開音頻源中搜集所喜愛類型的音頻,如音樂,收聽者不需費時費心地錄音,便可以擁有一首首完整的音樂。圖l是一方塊圖,說明本發(fā)明的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng)的4交佳實施例;圖2是一流程圖,說明本較佳實施例的實施過程。具體實施例方式下面結(jié)合附圖及實施例對本發(fā)明進行詳細說明。參閱圖1,本發(fā)明一種應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng)的較佳實施例包含一譯碼模塊ll、一數(shù)字特征轉(zhuǎn)換模塊12、一數(shù)字特征分類模塊13,及一完整音頻確認模塊14。該譯碼模塊ll用以將一音頻譯碼為一無編碼音頻。數(shù)字音頻為了節(jié)省儲存空間,通常都會壓縮成某種特定格式的音頻檔,常見的如asx、asf、mp3或wmv等音頻才各式,為了后續(xù)處理,在本較佳實施例中,各種不同音頻格式的音頻,皆譯碼為一脈沖碼調(diào)制(PulseCodeModulation,PCM)音頻。該數(shù)字特征轉(zhuǎn)換模塊12用以將該譯碼模塊11產(chǎn)生的無編碼音頻區(qū)分為多個音頻片段(Chunk),在本較佳實施例中,每一音頻片段的時間為1.6秒,每一音頻片段各具有150個幀(Frame),每一幀的采樣數(shù)(Sample)為512,采樣頻率為48KHz。上述的音頻片段時間、幀數(shù)、采樣數(shù)及采樣頻率只為本較佳實施例所揭示的參考值,實際應(yīng)用并不限定于此。該數(shù)字特征轉(zhuǎn)換模塊12包括一具有九個特征(Fl~F9)運算式的數(shù)字音頻特征集121。該數(shù)字特征轉(zhuǎn)換模塊12利用該數(shù)字音頻特征集121針對每一音頻片段計算后,使每一音頻片段形成一具有十五個維度的特征向量。本說明書中稍后將配合圖2詳述該特征向量的九個特征。該數(shù)字特征分類模塊13的作用為,若其中一音頻片段特征抽取的結(jié)果符合一所欲搜集的音頻類別,在本較佳實施例中該音頻類別為音樂,則該數(shù)字特征分類模塊13用以將該其中一音頻片段分類為一特征音頻片段。該數(shù)字特征分類模塊13包括一執(zhí)行分類用的支援向量機(SupportVectorMachine)131,該支援向量機131預(yù)先以多份真實音頻樣本進行訓(xùn)練,以使該支援向量機131根據(jù)由每一音頻片段所形成的特征向量分辨出該音頻片段是否為音樂。特別要說明的是,音樂包括器樂、歌曲與繞舌歌(RAP)等類型,器樂是只有樂器的聲音,歌曲是有人聲及音樂伴奏,繞舌歌則是另一種形式的人聲及音樂伴奏。此外,不屬于音樂的則稱為非音樂,包括人的講話聲加上背景音樂,及人的講話聲,前者通常是廣告或是主持人的講話,后者通常是新聞播報。為確保辨認該特征音頻片段的準(zhǔn)確性,在本較佳實施例中,該完整音頻確認模塊14以該其中一音頻片段為中心,往前取五個音頻片段并往后取五個音頻片段為一窗格(Window)。若在該窗格中的十一個音頻片段中超過半數(shù)為特征音頻片段,則將該窗格中心的音頻片段分類為該特征音頻片段。接著,完整音頻確認模塊14將所述連續(xù)出現(xiàn)的特征音頻片段組合成一目標(biāo)音頻。接著,該完整音頻確認模塊14若判斷該目標(biāo)音頻長于一預(yù)定時間,在本較佳實施例中為100秒,則將該目標(biāo)音頻儲存,其目的在于排除太短的音樂片段,如廣播節(jié)目中常出現(xiàn)的片頭音樂、片尾音樂及串場音樂。參閱圖l、圖2,該較佳實施例的應(yīng)用數(shù)字音頻特征集分類音頻的方法是包含下列步驟。首先,如步驟21所示,將該音頻譯碼為無編碼音頻。接著,如步驟22所示,該步驟22包括所述子步驟220229,該子步驟220將該無編碼音頻區(qū)分為所述音頻片段,每一音頻片段的長度可為1至2秒,且較佳是1.6秒,且每一音頻片段各具有150幀,每一幀的采樣數(shù)為512,采樣頻率為48KHz。本發(fā)明的特征在于,以數(shù)字音頻特征集121的九個特征運算式分別針對每一音頻片段執(zhí)行所述子步驟221229以進行特征抽取,使每一音頻片段形成一具有十五個維度的特征向量。需特別說明的是,所述子步驟221~229執(zhí)行的過程并無順序關(guān)系,可不依下述的次序進行,也可同時進行。所述子步驟221229如下如子步驟221所示,第一特征(Fl)運算式用以計算一過零次數(shù)變異數(shù)(ZeroCrossingRateVariance)。首先,計算該音頻片段中每一幀的過零次數(shù);接著,統(tǒng)計150個幀的變異數(shù),再除以512的平方,以歸一化(Normalize)至(-1,1)間。如子步驟222所示,第二特征(F2)運算式用以計算一過零次數(shù)的第三階扭矩(Third-OrderMoment)。首先,計算該音頻片段中每一幀的過零次數(shù);接著,統(tǒng)計150個幀的第三階扭矩,再除以512的立方,以歸一化至(-l,l)間。如子步驟223所示,第三特征(F3)運算式用以計算一過零次數(shù)分布。首先,計算該音頻片段中150個幀的過零次數(shù)的一平均值;接著,分別計算出所述幀中過零次數(shù)大于以及小于等于該平均值的二幀數(shù);接著,將過零次數(shù)大于該平均值的幀數(shù)減去過零次數(shù)小于等于該平均值的幀數(shù),再除以150,以歸一化至(-1,1)間。如子步驟224所示,第四特征(F4)運算式用以計算一歸一化能量標(biāo)準(zhǔn)差。首先,計算該音頻片段中150個幀的歸一化能量,該歸一化能量等于所述采樣的平方總和除以65535的平方再除以512;接著,取該歸一化能量的標(biāo)準(zhǔn)差。如子步驟225所示,第五特征(F5)運算式用以計算一歸一化能量最小值,也就是取出該音頻片段中150個幀的歸一化能量的最小值。該歸一化能量與該第四特征運算式所述的歸一化能量相同。如子步驟226所示,第六特征(F6)運算式用以計算一歸一化能量的差值。首先,分別計算該音頻片段中150幀的歸一化能量中的最大值及最小值;然后,計算最大值和最小值的差值。該歸一化能量與該第四特征運算式所述的歸一化能量相同。如子步驟227所示,第七特征(F7)運算式用以計算四頻段(Subband)的對數(shù)負^量(LogEnergy)平均值。首先,將該音頻片段中所有幀以長度為512的漢明窗(Hamming-Window)相乘;接著,將所述幀進行快速傅立葉轉(zhuǎn)換(FastFourierTransformation),以將時間域轉(zhuǎn)換為頻率域;接著,耳又0至255的快速傅立葉系數(shù);接著,先取絕對值,再加l,再取對數(shù);接著,以每個點除以256個點的和進行歸一化;最后,取出其中四頻段的對數(shù)能量。第一頻段為第1至25系數(shù)的和、第二頻段為第26至50系數(shù)的和、第三頻段為第51至75系數(shù)的和、第四頻段為第76至100系數(shù)的和。于是,該第七特征運算式的最后結(jié)果為150個幀的第一至四頻段的平均值。如子步驟228所示,第八特征(F8)運算式用以計算四頻段的對數(shù)能量標(biāo)準(zhǔn)差。首先,以第七特征運算式所示的步驟,取得四頻段的對數(shù)能量,接著計算四頻段對數(shù)能量的一標(biāo)準(zhǔn)差。如子步驟229所示,第九特征(F9)運算式用以計算一歸一化能量的幀差(FrameDifference)。首先,將每一幀中的第2至150個幀的歸一化能量減去第1至149個幀的歸一化能量,得到149個幀差;接著,將149的幀差的平方和除以149。接著,如步驟23所示,若其中一音頻片段特征抽取的結(jié)果符合一所欲搜集的音頻類別,則將該其中一音頻片段分類為一特征音頻片段。該數(shù)字特征分類模塊13包括一執(zhí)行分類用的支援向量機131,該支援向量機131預(yù)先以多份真實音頻樣本進行訓(xùn)練,以使該支援向量機131根據(jù)每一音頻片段的特征向量分辨出該片段是否為所欲搜集的音頻類別。然后,如步驟24所示,為確保辨認該特征音頻片段的準(zhǔn)確性,在本較佳實施例中,該完整音頻確認模塊14以該其中一音頻片段為中心,往前取五個音頻片段并往后取五個音頻片段為該窗格。若在該窗格中的十一個音頻片段中超過半數(shù)為特征音頻片段,則將該窗格中心的音頻片段分類為該特征音頻片段。繼而,將所述連續(xù)出現(xiàn)的特征音頻片段組合為目標(biāo)音頻,同時,判斷該目標(biāo)音頻若長于預(yù)定時間,在本較佳實施例中為IOO秒,則將該目標(biāo)音頻儲存,其目的在于排除太短的音樂片段,如廣播節(jié)目中常出現(xiàn)的片頭音樂、片尾音樂及串場音樂。參閱表l所示的測試結(jié)果,一測試音頻所包含的音頻片段中,包括38個器樂類型、222個歌曲類型、119個繞舌歌類型、191個講話加上背景音樂類型,及463個講話類型。以采用F1、F2、F3及F4為組合的數(shù)字音頻特征集為例,其可正確分辨出12個器樂類型、144個歌曲類型、96個繞舌歌類型、135個講話加上背景音樂類型,及448個講話類型,音樂判斷正確率為0.66,而非音樂判斷正確率為0.89。在多種測試組合中,以本發(fā)明所采用的F1、F2、F3、F4、F5、F6、F7、F8及F9為組合的數(shù)字音頻特征集為最佳,其可正確分辨出27個器樂類型、152個歌曲類型、108個繞舌歌類型、168個講話加上背景音樂類型,及454個講話類型,音樂判斷正確率為0.76,而非音樂判斷正確率為0.95。<table>complextableseeoriginaldocumentpage13</column></row><table>綜上所述,利用該數(shù)字特征轉(zhuǎn)換模塊12的數(shù)字音頻特征集121取得音頻中每一音頻片段的特征向量,可使數(shù)字特征分類模塊13的支援向量機131準(zhǔn)確地判斷音頻中的音樂及非音樂,配合該完整音頻確認模塊14后,音樂判斷正確率達79%,且非音樂判斷正確率達95%以上(如表l所示),確實達到其優(yōu)點。以上所述僅為本發(fā)明較佳實施例,然其并非用以限定本發(fā)明的范圍,任何熟悉本項技術(shù)的人員,在不脫離本發(fā)明的精神和范圍內(nèi),可在此基礎(chǔ)上做進一步的改進和變化,因此本發(fā)明的保護范圍當(dāng)以本申請的權(quán)利要求書所界定的范圍為準(zhǔn)。權(quán)利要求1.一種應(yīng)用數(shù)字音頻特征集分類音頻的方法,其特征在于,包含下列步驟步驟一將該音頻譯碼為一無編碼音頻;步驟二將該無編碼音頻區(qū)分為多個音頻片段,并以一數(shù)字音頻特征集將每一音頻片段進行特征抽取,每一音頻片段各具有多個幀,且針對每一音頻片段,形成一特征向量的過程包括計算該音頻片段中所有幀的過零次數(shù)的一變異數(shù)、計算該音頻片段中所有幀的過零次數(shù)的一第三階扭矩、計算該音頻片段中所有幀的過零次數(shù)的一平均值,再分別計算出所述幀中過零次數(shù)大于以及小于等于該平均值的幀數(shù)、計算該音頻片段中所有幀的歸一化能量的一標(biāo)準(zhǔn)差、取出該音頻片段中所有幀的歸一化能量的最小值、計算該音頻片段中所有幀的歸一化能量中最大值及最小值的差值、將該音頻片段中所有幀由時間域轉(zhuǎn)換為頻率域后,計算所有幀的其中四頻段的對數(shù)能量的一平均值、計算所有幀的其中四頻段的對數(shù)能量的一標(biāo)準(zhǔn)差,及分別計算除第一個幀外的每一幀與其前一相鄰幀的歸一化能量差;步驟三若其中一音頻片段特征抽取的結(jié)果符合一所欲搜集的音頻類別,則將該其中一音頻片段分類為一特征音頻片段;及步驟四將連續(xù)出現(xiàn)的所述特征音頻片段組合為一目標(biāo)音頻。2.根據(jù)權(quán)利要求l所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,其特征在于,在該步驟二中,每一音頻片段的長度為1至2秒。3.根據(jù)權(quán)利要求2所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,其特征在于,在該步驟二中,每一音頻片段的所述幀為150個。4.根據(jù)權(quán)利要求3所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,其特征在于,在該步驟二中,每一幀的一采樣數(shù)為512,且每一幀的采樣頻率為48KHz。5.根據(jù)權(quán)利要求l所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,其特征在于,在該步驟二中,該歸一化能量等于所述采樣的平方總和除以65535的平方再除以512。6.根據(jù)權(quán)利要求l所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,其特征在于,在該步驟二中,每一幀以長度為所述每一幀的一采樣數(shù)的漢明窗相乘,再將所述幀進行快速傅立葉轉(zhuǎn)換,以將時間域轉(zhuǎn)換為頻率域。7.根據(jù)權(quán)利要求l所述的應(yīng)用數(shù)字音頻特征集分類音頻的方法,其特征在于,在步驟三中,是以一支援向量機進行分類。8.—種應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),包含一"^碼;漠塊,將音頻^澤碼為一無編碼音頻;一數(shù)字特征分類模塊,若其中一音頻片段特征抽取的結(jié)果符合一所欲搜集的音頻類別,則該數(shù)字特征分類模塊用以將該其中一音頻片段分類為一特征音頻片段;一完整音頻確認模塊,用以將連續(xù)出現(xiàn)的所述特征音頻片段組合成一目標(biāo)音頻;其特征在于,該應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng)還包含一數(shù)字特征轉(zhuǎn)換模塊,用以將該譯碼模塊產(chǎn)生的無編碼音頻區(qū)分為多個音頻片段,并包括一用以將每一音頻片段進行特征抽取的數(shù)字音頻特征集,每一音頻片段各具有多個幀,且針對每一音頻片段,形成一特征向量的過程包括計算該音頻片段中所有幀的過零次數(shù)的一變異數(shù)、計算該音頻片段中所有幀的過零次數(shù)的一第三階扭矩、計算該音頻片段中所有幀的過零次數(shù)的一平均值,再分別計算出所述幀中過零次數(shù)大于以及小于等于該平均值的幀數(shù)、計算該音頻片段中所有幀的歸一化能量的一標(biāo)準(zhǔn)差、取出該音頻片段中所有幀的歸一化能量的最小值、計算該音頻片段中所有幀的歸一化能量中最大值及最小值的差值、將該音頻片段中所有幀由時間域轉(zhuǎn)換為頻率域后,計算所有幀的其中四頻段的對數(shù)能量的一平均值、計算所有幀的其中四頻段的對數(shù)能量的一標(biāo)準(zhǔn)差,及分別計算除第一個幀外的每一幀與其前一相鄰幀的歸一化能量差。9.根據(jù)權(quán)利要求8所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),其特征在于,每一音頻片段的長度為l至2秒。10.根據(jù)權(quán)利要求9所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),其特征在于,每一音頻片段的所述幀為150個。11.根據(jù)權(quán)利要求10所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),其特征在于,每一幀的一采樣數(shù)為512,且每一幀的采樣頻率為48KHz。12.根據(jù)權(quán)利要求8所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),其特征在于,該歸一化能量等于所述采樣的平方總和除以65535的平方再除以512。13.根據(jù)權(quán)利要求8所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),其特征在于,每一幀以長度為所述每一幀的一采樣數(shù)的漢明窗相乘,再將所述幀進行快速傅立葉轉(zhuǎn)換,以將時間域轉(zhuǎn)換為頻率域。14.根據(jù)權(quán)利要求8所述的應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng),其特征在于,該數(shù)字特征分類模塊包括一支援向量機。全文摘要本發(fā)明提供一種應(yīng)用數(shù)字音頻特征集分類音頻的系統(tǒng)及其方法,該方法包含下列步驟。首先,將該音頻譯碼為一無編碼音頻。接著,將該無編碼音頻區(qū)分為多個音頻片段,并以一包括九組特征運算式的數(shù)字音頻特征集將每一音頻片段進行特征抽取,該九組特征運算式分別用以計算過零次數(shù)變異數(shù)、過零次數(shù)的第三階扭矩、過零次數(shù)分布、歸一化能量標(biāo)準(zhǔn)差、歸一化能量最小值、歸一化能量的差值、四頻段的對數(shù)能量平均值、四頻段的對數(shù)能量標(biāo)準(zhǔn)差以及歸一化能量的幀差,而可達到分類音頻的目的。本發(fā)明自動從大量播送音頻的公開音頻源中搜集所喜愛類型的音頻,如音樂,收聽者不需費時費心地錄音,便可以擁有一首首完整的音樂。文檔編號G06F17/30GK101196888SQ200610162129公開日2008年6月11日申請日期2006年12月5日優(yōu)先權(quán)日2006年12月5日發(fā)明者彬丁,林宗慶,王建興,王舜正,麥文偉申請人:云義科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1