基于再次分類的音頻分類裝置及其實(shí)現(xiàn)方法

文檔序號(hào)：2831175閱讀：427來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：：基于再次分類的音頻分類裝置及其實(shí)現(xiàn)方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及在音頻編碼前區(qū)分音頻信號(hào)是語(yǔ)音還是音樂的裝置及其實(shí)現(xiàn)方法，更具體地，涉及基于再次分類的音頻分類裝置及其實(shí)現(xiàn)方法。
背景技術(shù)：
：語(yǔ)音和音樂是兩類最主要的音頻數(shù)據(jù)，語(yǔ)音和音樂的分類是提取音頻結(jié)構(gòu)和內(nèi)容語(yǔ)義的重要手段之一。原始音頻數(shù)據(jù)除了含有采樣率、量化精度、編碼方法等有限的注冊(cè)信息外，本身僅僅是一種非語(yǔ)義符號(hào)表示和非結(jié)構(gòu)化的二進(jìn)制碼流，缺乏內(nèi)容語(yǔ)義的描述和結(jié)構(gòu)化的組織。如何提取音頻中的結(jié)構(gòu)化信息和內(nèi)容語(yǔ)義，使得無序的音頻數(shù)據(jù)變得有序，是基于內(nèi)容的音頻檢索技術(shù)能否得以實(shí)用的關(guān)鍵所在。利用與特征無關(guān)的文件名、文件類型、采樣率等進(jìn)行的對(duì)音頻文件分類或檢索并不是真正的基于內(nèi)容的音頻分類或檢索?；趦?nèi)容的音頻分類是指提取音頻段的特征參數(shù)進(jìn)行分類，這些特征參數(shù)可以是響度、亮度、基音、音色等知覺特征。傳統(tǒng)的音頻分類技術(shù)主要應(yīng)用于語(yǔ)音識(shí)別和檢索上，需要分類的類別也不局限于語(yǔ)音和音樂，對(duì)分類的準(zhǔn)確性要求很高，復(fù)雜度較大，上述的分類方法都是基于較長(zhǎng)音頻片段的，即對(duì)一段較長(zhǎng)的音樂或語(yǔ)音進(jìn)行判決?！N音頻分類的現(xiàn)有技術(shù)(參見Jiang，Hao，Lin，Tony，Zhang，Hong—jiang.Videosegmentationwiththesupportofaudiosegmentationandclassification.In-ProceedingsoftheIEEEInternationalConferenceonMultimediaandExpo(ICME2000)，Vol3.NY:IEEE，2000.15071510.)采用基于簡(jiǎn)單決策樹的語(yǔ)音/音樂多步層次分類，即每一步根據(jù)一種或者幾種音頻特征及其閾值判定音頻所屬的類別。上述分類方法存在以下缺點(diǎn)(l)只能刻畫音頻的均值和方差等靜態(tài)統(tǒng)計(jì)特性，而音頻信號(hào)特征通常具有時(shí)間統(tǒng)計(jì)特性，例如，在音樂中一般都存在能夠揭示主題的韻律或者鼓點(diǎn)；而在語(yǔ)音中，清音和濁音往往交替出現(xiàn)，這些特征都與時(shí)間相關(guān)。(2)決策規(guī)則和搜索順序并不一定是最優(yōu)的。(3)上層的決策錯(cuò)誤會(huì)累積到下一層而形成"雪球"效應(yīng)。另一禾中音頻分類的現(xiàn)有技術(shù)(參見Rabiner，L.，Juang，B_H.FundamentalsofSpeechRecognition.Prentice-HallInternational,Inc.，1993.)基于隱馬爾可夫模型(HMM)的分類法，該模型在本質(zhì)上是一種雙隨機(jī)過程的有限狀態(tài)自動(dòng)機(jī)，具有刻畫信號(hào)的時(shí)間隨機(jī)統(tǒng)計(jì)特性的能力。上述分類方法的不足之處是事先要對(duì)分類器進(jìn)行大量數(shù)據(jù)的訓(xùn)練，整個(gè)過程計(jì)算量較大，并且不易于硬件實(shí)現(xiàn)。此外，現(xiàn)有技術(shù)中實(shí)際并未公開基于再次分類的音頻分類的裝置及其實(shí)現(xiàn)方法。在本發(fā)明中還引用了現(xiàn)有技術(shù)中的MFCC系數(shù)與訓(xùn)練模板的概念，現(xiàn)簡(jiǎn)單介紹如下(l)MFCC系數(shù)，即基于Mel域的倒譜系數(shù)，它一般采用三角濾波器組對(duì)傅里葉變換能量系數(shù)濾波，并對(duì)其頻域進(jìn)行Mel比例變換，以更符合人類的聽覺特性。當(dāng)提取MFCC系數(shù)時(shí)，首先在時(shí)域?qū)σ纛l信號(hào)進(jìn)行分幀，4096(或者為2048，1024等)個(gè)采樣點(diǎn)為一幀，每次幀移50%，即2048個(gè)樣點(diǎn)。每次對(duì)一幀音頻信號(hào)提取14維的MFCC系數(shù)，其中三角濾波器的個(gè)數(shù)優(yōu)選為26。以14維的MFCC系數(shù)矢量作為音頻分類的特征參數(shù)進(jìn)行分類。(2)訓(xùn)練模板是選取一定數(shù)量的典型音樂片斷和典型語(yǔ)音片斷，片斷的長(zhǎng)度均為2秒，然后對(duì)整條音頻片斷提取MFCC參數(shù)，并取該片斷中所有幀的MFCC系數(shù)的均值。最后將所有音頻片斷的MFCC參數(shù)取平均值，得到音樂模板和語(yǔ)音模板。
發(fā)明內(nèi)容為了解決上述問題以及其它問題，本發(fā)明特給出了以下的技術(shù)方案。本發(fā)明的一個(gè)實(shí)施例提供一種音頻分類方法，其在音頻編碼前對(duì)音頻信號(hào)進(jìn)行分類，該音頻分類方法包括初次分類和再次分類，其特征在于，再次分類包括對(duì)初次分類結(jié)果進(jìn)行平滑。優(yōu)選地，初次分類以幀為單位進(jìn)行。優(yōu)選地，對(duì)初次分類結(jié)果進(jìn)行平滑包括在對(duì)當(dāng)前幀進(jìn)行再次分類時(shí)，當(dāng)出現(xiàn)轉(zhuǎn)換情況時(shí)，則將當(dāng)前幀及其后緩存的一定數(shù)量幀的初次分類結(jié)果進(jìn)行求和計(jì)算與判斷如果滿足切換條件則發(fā)生切換；否則，以上一幀的再次分類結(jié)果作為所述當(dāng)前幀的再次分類結(jié)果。進(jìn)一步地，再次分類使用預(yù)先設(shè)定的閾值。具體來說，該閾值包括再次分類中初始值的閾值、從語(yǔ)音切換為音樂的閾值、和從音樂切換為語(yǔ)音的閾值。本發(fā)明的另一個(gè)實(shí)施例提供一種音頻分類裝置，其被設(shè)置在音頻編碼器前端用于對(duì)音頻信號(hào)分類，該音頻分類裝置包括初次分類器和再次分類器，其特征在于，再次分類器包括對(duì)初次分類結(jié)果進(jìn)行平滑處理的平滑模塊。優(yōu)選地，初次分類器中的數(shù)據(jù)以幀為單位進(jìn)行分類。優(yōu)選地，平滑模塊包括緩存模塊和判斷模塊。緩存模塊在當(dāng)前幀出現(xiàn)轉(zhuǎn)換情況時(shí)，對(duì)所述當(dāng)前幀的初次分類結(jié)果及其后緩存的一定數(shù)量幀的初次分類結(jié)果進(jìn)行求和計(jì)算。判斷模塊用于判斷是否進(jìn)行切換如果滿足切換條件則進(jìn)行切換；否則，以上一幀的再次分類結(jié)果作為所述當(dāng)前幀的再次分類結(jié)果。進(jìn)一步地，再次分類器使用預(yù)先設(shè)定的閾值。具體來說，該閾值包括再次分類中初始值的閾值、從語(yǔ)音切換為音樂的閾值、和從音樂切換為語(yǔ)音的閾值。此外，再次分類初始值的閾值范圍優(yōu)選是8-16。從語(yǔ)音切換為音樂的閾值范圍可以是0-8，從音樂切換為語(yǔ)音的閾值范圍可以是9-16。基于上述技術(shù)方案，剔除了音頻類型切換過快時(shí)導(dǎo)致的偶爾的誤判，同時(shí)也減少了運(yùn)算復(fù)雜度，從而實(shí)現(xiàn)了正確并且簡(jiǎn)單區(qū)分音樂和語(yǔ)音，從而使得編碼后的音頻質(zhì)量達(dá)到更優(yōu)的效果。圖1是流程圖，示出了再次分類中判斷初始值的步驟；圖2是流程圖，示出了除判斷初始值以外的、再次分類中判斷切換的步驟；以及圖3是方框圖，示出了根據(jù)本發(fā)明的音頻分類裝置在音頻編碼系統(tǒng)中的位置。具體實(shí)施例方式通過借助附圖在下文中將描述本發(fā)明的優(yōu)選實(shí)施例。在以下描述中，將不詳細(xì)描述已成為現(xiàn)有技術(shù)的功能或結(jié)構(gòu)，因?yàn)椴槐匾募?xì)節(jié)將導(dǎo)致本發(fā)明的介紹含混不清。如圖1和2所示，本發(fā)明的一個(gè)實(shí)施例提供了一種音頻分類方法，其在對(duì)音頻信號(hào)進(jìn)行壓縮編碼前對(duì)音頻信號(hào)進(jìn)行分類。具體地，通過將待編碼的音頻信號(hào)判決為語(yǔ)音和音樂，使得在進(jìn)行音頻編碼時(shí)，可根據(jù)上述分類結(jié)果來指導(dǎo)感覺音頻編碼器的參數(shù)自適應(yīng)調(diào)整，使編碼后的音頻質(zhì)量達(dá)到更優(yōu)。所述的感覺音頻編碼器可以是任何現(xiàn)有技術(shù)音頻編碼器，例如中國(guó)國(guó)家標(biāo)準(zhǔn)GB/T17975.3-2002《信息技術(shù)運(yùn)動(dòng)圖像及其伴音信號(hào)的通用編碼第3部分音頻》中規(guī)定的MPEG編碼器、中國(guó)行業(yè)標(biāo)準(zhǔn)SJ/T11368-2006《多聲道數(shù)字音頻編解碼技術(shù)規(guī)范》中規(guī)定的DRA編碼器等，本發(fā)明并不對(duì)此加以限定。下面結(jié)合附圖，詳細(xì)描述根據(jù)本發(fā)明的音頻分類方法根據(jù)本發(fā)明的音頻分類方法可分為兩大步驟，即初次分類和再次分類。在展開說明前，首先定義兩個(gè)本發(fā)明中用到的術(shù)語(yǔ)術(shù)語(yǔ)"音頻類型的轉(zhuǎn)換"(簡(jiǎn)稱"轉(zhuǎn)換")是指當(dāng)前幀的初次分類結(jié)果與上一幀的再次分類結(jié)果不一致的情況，即可能發(fā)生音頻類型的轉(zhuǎn)換；術(shù)語(yǔ)"音頻類型的切換"(簡(jiǎn)稱"切換")是指經(jīng)過再次分類平滑后，判斷允許從語(yǔ)音切換到音樂，或者判斷允許從音樂切換到語(yǔ)音的情況。首先簡(jiǎn)要描述初次分類方法，其可針對(duì)每一幀數(shù)據(jù)給出判決結(jié)果，具體步驟如下(1)將待測(cè)的音頻片斷劃分幀，取1024個(gè)采樣點(diǎn)的整數(shù)倍為一幀，即可以為1024個(gè)、204S個(gè)、或4096個(gè)，優(yōu)選為4096個(gè)，該幀長(zhǎng)的選擇要與后續(xù)音頻編碼器的幀長(zhǎng)選擇一致，并且還要與訓(xùn)練模板(對(duì)于本發(fā)明，僅包括音樂模板和語(yǔ)音模板)時(shí)選取的幀長(zhǎng)相同。(2)對(duì)每一幀提取MFCC系數(shù)，提取方式也與訓(xùn)練模板時(shí)相同。(3)根據(jù)每一幀提取的MFCC系數(shù)矢量及現(xiàn)有的音樂模板和語(yǔ)音模板，分別計(jì)算每一幀MFCC系數(shù)到音樂模板的歐氏距離(disSpeech)和到語(yǔ)音模板的歐氏距離(disMusic)。(4)當(dāng)disSpeech>disMusic時(shí)，將該幀判決為音樂，初次分類標(biāo)志位flagClass設(shè)為0;當(dāng)disSpeech<disMusic時(shí)，將該幀判決為語(yǔ)音，初次分類標(biāo)志位flagClass設(shè)為1。通過上述四個(gè)步驟逐幀地完成了對(duì)音頻數(shù)據(jù)的初次分類，并輸出了初次分類標(biāo)志位flagClass作為本幀是語(yǔ)音還是音樂的標(biāo)識(shí)。示意性地選擇一段合適長(zhǎng)度(如48幀)的音頻，經(jīng)過上述步驟，得到對(duì)每一幀的初次分類判決結(jié)果，如表1所示。其中，O代表音樂，1代表語(yǔ)音。表1初次分類結(jié)果表幀索引flagClass幀索引flagClass幀索引flagClass1017033120181341<table>tableseeoriginaldocumentpage6</column></row><table>下文結(jié)合表l，示例性地對(duì)根據(jù)本發(fā)明實(shí)施例的再次分類方法進(jìn)行描述。在本文實(shí)施例中，再次分類優(yōu)選地選取緩存幀數(shù)為16:這表示當(dāng)發(fā)生轉(zhuǎn)換時(shí)，以發(fā)生轉(zhuǎn)換的幀位置為起點(diǎn)，向后再緩沖15幀。但在實(shí)際使用時(shí)，可以根據(jù)延時(shí)、切換頻度等指標(biāo)來設(shè)置緩存幀數(shù)為其它數(shù)值，如8、24、32等。根據(jù)不同的幀索引，本發(fā)明的再次分類方法包含兩種情況(A)本段音頻數(shù)據(jù)中第l幀到第緩存幀數(shù)個(gè)幀(例如第16幀)的再次分類結(jié)果(本發(fā)明中簡(jiǎn)稱為"判斷初始值")，其統(tǒng)一以標(biāo)志位flagClaSSfinalinit來表示，即這16幀共用一個(gè)再次分類結(jié)果。其中，flagClassfinalinit=O，代表音樂；flagClassfinalinit=l，代表語(yǔ)音。(B)其它幀的再次分類結(jié)果，以flagClassfinal來表示，每幀各有一個(gè)flagClassfinal值，并且flagClassfinal=O，代表音樂;flagClassfinal=l，代表語(yǔ)音。下面分別結(jié)合圖1和圖2對(duì)這兩種再次分類的情況加以描述。如圖1所示，"判斷初始值"具體包括下述步驟(1)在步驟10中，將所選音頻片段的前16幀初次分類判決結(jié)果flagClass相加，得至ljnN咖Flag:16wM/mF/tfg=Zc/鵬F/ag,.其中，flagClass表示第i幀的初次判斷結(jié)果。(2)接下來在步驟11，判斷nN咖Flag和閾值TO之間的大小關(guān)系。如果nN咖Flag小于T0，則轉(zhuǎn)到步驟IIA，輸出判決結(jié)果flagClasSfinalinit=0;否則轉(zhuǎn)到步驟IIB，輸出判決結(jié)果flagClasSfinalinit=1。其中閾值T0的范圍優(yōu)選為8-16。如圖2所示，對(duì)于其它幀的再次分類方法包含如下步驟(D首先在步驟20中，讀入某段音頻中各幀的初次分類結(jié)果flagClass和上一幀的再次分類結(jié)果flagClassfinalpMV。(2)在步驟21，判斷上一幀被最終判斷為語(yǔ)音(flagClassfinalprev=1)還是音樂(flagClassfinalprev=0)。(3)對(duì)于上一幀被判定為音樂的情況，轉(zhuǎn)到以步驟22開始的分支(3A)步驟22首先判斷當(dāng)前幀的初次分類結(jié)果是否等于上一幀的再次分類結(jié)果如等于，則表示未發(fā)生轉(zhuǎn)換，直接在步驟22A判斷當(dāng)前幀不切換，結(jié)束本次的再次分類處理；否則表示發(fā)生轉(zhuǎn)換(以nLocTrans表示發(fā)生轉(zhuǎn)換的幀的幀索引)，此時(shí)轉(zhuǎn)到步驟22B，計(jì)算第nLocTrans幀的初次分類結(jié)果及其后15幀的初次分類結(jié)果之和15襲附尸/"g=Z何C7咖獻(xiàn)哪+,其中，flagClass表示第i幀的初次判斷結(jié)果。(3B)然后在步驟24，比較nN咖Flag和閾值Tl。如果nN咖Flag小于Tl，則轉(zhuǎn)到步驟24A，輸出對(duì)當(dāng)前幀的判決結(jié)果flagClassfinal=0;否則轉(zhuǎn)到步驟24B，輸出對(duì)當(dāng)前幀的判決結(jié)果flagClassfinal=1。其中閾值T1的范圍優(yōu)選為9-16，更優(yōu)選地為10_14，進(jìn)一步優(yōu)選為12。(4)對(duì)于上一幀被判定為語(yǔ)音的情況，轉(zhuǎn)到以步驟23開始的分支(4A)步驟23首先判斷當(dāng)前幀的初次分類結(jié)果是否等于上一幀的再次分類結(jié)果如等于，則表示未發(fā)生轉(zhuǎn)換，直接在步驟23A判斷當(dāng)前幀不切換，結(jié)束本次的再次分類處理；否則表示發(fā)生轉(zhuǎn)換(以nLocTrans表示發(fā)生轉(zhuǎn)換的幀所在的幀索引)，此時(shí)轉(zhuǎn)到步驟23B，計(jì)算第nLocTrans幀的初次分類結(jié)果及其后15幀的初次分類結(jié)果之和15函m尸/"g=S麵C/a^緒咖+,其中，flagClass表示第i幀的初次判斷結(jié)果。(4B)然后在步驟25，比較nN咖Flag和閾值T2。如果nN咖Flag小于T2，則轉(zhuǎn)到步驟25A，輸出對(duì)當(dāng)前幀的判決結(jié)果flagClassfinal=0;否則，轉(zhuǎn)到步驟25B，輸出對(duì)當(dāng)前幀7的判決結(jié)果flagClassfinal=1。其中閾值T2的范圍優(yōu)選為0_8，更優(yōu)選地為4_8，進(jìn)一步優(yōu)選為8。更詳細(xì)地，結(jié)合表1的具體數(shù)據(jù)來說明本發(fā)明應(yīng)用的一個(gè)實(shí)例。首先進(jìn)行"判斷初始值"的計(jì)算利用步驟10中給出的方法來計(jì)算前16幀的flagClass的總和，得出nN咖Flag=4。經(jīng)過步驟11的判斷(TO優(yōu)選取8)，nN咖Flag<TO=8。因此進(jìn)入步驟11A，flagClaSSfinalinit=0，即第一個(gè)小段共16幀音頻均被判斷為音樂。從第17幀開始，采用圖2所示的流程進(jìn)行其它幀的再次分類對(duì)于第17幀，flagClassfinalp，=O，進(jìn)入以步驟22開始的分支。并且第17幀的flagClass=0=flagClassfinalprev，在步驟22中判斷出未發(fā)生轉(zhuǎn)換，進(jìn)而轉(zhuǎn)到步驟22A，輸出最終的、對(duì)第17幀的再次分類結(jié)果flagClassfinal=0(不切換)。對(duì)于第18幀，flagClassfinalprev=O，進(jìn)入步驟22開始的分支。并且第18幀的flagClass=1#flagClassfinalprev,在步驟22中判斷出發(fā)生了轉(zhuǎn)換，進(jìn)而轉(zhuǎn)到步驟22B，將第18幀33幀的flagClass值相加得到nNumFlag=13。進(jìn)一步地，在步驟24中判斷出nNumFlag>Tl(Tl優(yōu)選取值為12)，此時(shí)進(jìn)入步驟24B，輸出對(duì)當(dāng)前幀(第18幀)的判決結(jié)果flagClassfinal=1(發(fā)生切換)。對(duì)第19幀，flagClassfinalprev=l，進(jìn)入步驟23開始的分支。并且第19幀的flagClass=0#flagClassfinalprev，在步驟23中判斷出發(fā)生了轉(zhuǎn)換，進(jìn)而轉(zhuǎn)到步驟23B，將第19幀34幀的flagClass值相加得到nNumFlag=13。進(jìn)一步地，在步驟25中判斷出nNumFlag>T2(T2優(yōu)選取值為8)，此時(shí)進(jìn)入步驟25B，輸出對(duì)當(dāng)前幀(第19幀)的判決結(jié)果flagClassfinal=1(不進(jìn)行切換)。以此類推，可獲得以下各幀的再次分類結(jié)果flagClassfinal。綜上可知，根據(jù)本發(fā)明的再次分類算法通常需要緩沖16幀。同時(shí)，本發(fā)明還提供了一種音頻分類裝置31。音頻分類裝置31被設(shè)置在音頻編碼器32的前端，用于指導(dǎo)音頻編碼器32的工作方式，如圖3所示。音頻分類裝置31包括初次分類器和再次分類器(均未示出)。初次分類器中的數(shù)據(jù)是以幀為單位，再次分類器則包括對(duì)初次分類結(jié)果進(jìn)行平滑處理的平滑模塊。進(jìn)一步地，再次分類器在判決過程中使用預(yù)先設(shè)定的閾值。具體地，上述閾值包括"判斷初始值"中使用的閾值TO(或者稱之為再次分類中初始值的閾值)、從語(yǔ)音切換為音樂的閾值T2、從音樂切換為語(yǔ)音的閾值T2。T0、T1和T2的優(yōu)選范圍或取值同上。更進(jìn)一步地，平滑模塊包括緩存模塊和判斷模塊，緩存模塊可以緩沖一定數(shù)量的幀。實(shí)際使用時(shí)，可以根據(jù)延時(shí)、切換頻度等指標(biāo)來設(shè)置緩存幀的數(shù)量。初次分類器包括(1)分幀裝置，其用于對(duì)待測(cè)的音頻片斷劃分幀取1024個(gè)采樣點(diǎn)的整數(shù)倍為一幀，該幀長(zhǎng)的選擇要與后續(xù)音頻編碼器的幀長(zhǎng)選擇一致，并且還要與訓(xùn)練模板時(shí)選取的幀長(zhǎng)相同；(2)MFCC系數(shù)提取裝置，用于針對(duì)每一幀提取MFCC系數(shù)；(3)距離計(jì)算裝置，用于根據(jù)每一幀提取的MFCC系數(shù)矢量及現(xiàn)有的音樂模板和語(yǔ)音模板，分別計(jì)算每一幀MFCC系數(shù)到音樂模板的歐氏距離(disSpeech)和到語(yǔ)音模板的歐氏距離(disMusic)。(4)初次分類裝置，用于根據(jù)disSpeech和disMusic的大小關(guān)系來判定本幀的數(shù)據(jù)類型當(dāng)disSpeech>disMusic時(shí)，當(dāng)前幀被判決為音樂，初次分類標(biāo)志位flagClass設(shè)為0;否則，當(dāng)前幀被判決為語(yǔ)音，初次分類標(biāo)志位flagClass設(shè)為1。再次分類器包括兩種工作模式，S卩"判斷初始值"的工作模式和計(jì)算其它幀再次分類結(jié)果的工作模式。下面對(duì)這兩種模式進(jìn)行簡(jiǎn)要說明。再次分類器的平滑模塊包括緩存模塊和判斷模塊，其在"判斷初始值"的工作模式下如下分工(1)緩存模塊，用于將所選音頻片段的前16幀初次分類判決結(jié)果flagClass相加，得至ljnN咖Flag;(2)判斷模塊，用于判斷nN咖Flag和閾值TO之間的大小關(guān)系。如果nN咖Flag小于TO，則輸出判決結(jié)果flagClassfinal=0;否則輸出判決結(jié)果flagClassfinal=1。上述緩存模塊和判斷模塊在"計(jì)算其它幀再次分類結(jié)果"的工作模式下如下分工(1)緩存模塊，用于(1A)讀入某段音頻中各幀的初次分類結(jié)果flagClass和上一幀的再次分類結(jié)果flagClassfinalprev;(IB)在當(dāng)前幀出現(xiàn)轉(zhuǎn)換時(shí)(根據(jù)判斷模塊在2A中的判斷結(jié)果)，對(duì)當(dāng)前幀及其后一定數(shù)量幀的初次判斷結(jié)果求和。(2)判斷模塊，用于(2A)根據(jù)1A中讀入的數(shù)據(jù)，判斷上一幀再次分類結(jié)果及是否發(fā)生轉(zhuǎn)換；(2B)當(dāng)發(fā)生轉(zhuǎn)換時(shí)，進(jìn)一步判斷是否發(fā)生切換。其中，根據(jù)(2A)的判斷結(jié)果，在(2B)中可能讀入不同的預(yù)定閾值。雖然結(jié)合目前被認(rèn)為是最實(shí)際和最優(yōu)的實(shí)施例描述了本發(fā)明，但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解本發(fā)明不限于所公開的實(shí)施例，相反，本發(fā)明旨在覆蓋所附權(quán)利要求的精神和范疇之內(nèi)包括的各種各樣的修改和等價(jià)結(jié)構(gòu)。本領(lǐng)域技術(shù)人員能夠理解的是可如示于特定實(shí)施例地將多種變形和/或改進(jìn)使用到本發(fā)明，而這并不脫離以寬廣方式描述的本發(fā)明精神或范圍。因此，本文的實(shí)施例被認(rèn)為在各個(gè)方面是描述性的而非限定性的。9權(quán)利要求一種音頻分類方法，其在音頻編碼前對(duì)音頻信號(hào)進(jìn)行分類，所述音頻分類方法包括初次分類和再次分類，其特征在于，所述再次分類包括對(duì)初次分類結(jié)果進(jìn)行平滑。2.如權(quán)利要求1所述的方法，其特征在于，所述初次分類以幀為單位進(jìn)行分類。3.如權(quán)利要求1或2所述的方法，其特征在于，所述再次分類包括使用預(yù)先設(shè)定的閾值。4.如權(quán)利要求3所述的方法，其特征在于，所述對(duì)初次分類結(jié)果進(jìn)行平滑包括在對(duì)當(dāng)前幀進(jìn)行再次分類時(shí)，當(dāng)出現(xiàn)轉(zhuǎn)換情況時(shí)，則連同所述當(dāng)前幀及其之后緩存的、一定數(shù)量幀的初次分類結(jié)果進(jìn)行求和計(jì)算，并根據(jù)求和結(jié)果進(jìn)行如下判斷如果滿足切換條件則發(fā)生切換；否則，以上一幀的再次分類結(jié)果作為所述當(dāng)前幀的再次分類結(jié)果。5.如權(quán)利要求3所述的方法，其特征在于，所述閾值包括再次分類中初始值的閾值、從語(yǔ)音切換為音樂的閾值、和從音樂切換為語(yǔ)音的閾值。6.如權(quán)利要求5所述的方法，其特征在于，所述再次分類中初始值的閾值范圍是為8-16。7.如權(quán)利要求5所述的方法，其特征在于，所述從語(yǔ)音切換為音樂的閾值范圍是0-8。8.如權(quán)利要求5所述的方法，其特征在于，所述從音樂切換為語(yǔ)音的閾值范圍是9-16。9.一種音頻分類裝置，其被設(shè)置在音頻編碼器前端用于對(duì)音頻信號(hào)分類，所述音頻分類裝置包括初次分類器和再次分類器，其特征在于，所述再次分類器包括對(duì)初次分類結(jié)果進(jìn)行平滑處理的平滑模塊。10.如權(quán)利要求9所述的裝置，其特征在于，所述初次分類器中的數(shù)據(jù)以幀為單位進(jìn)行分類。11.如權(quán)利要求9所述的裝置，其特征在于所述再次分類器使用了預(yù)先設(shè)定的閾值。12.如權(quán)利要求9所述的裝置，其特征在于，所述平滑模塊包括緩存模塊，其在當(dāng)前幀出現(xiàn)轉(zhuǎn)換情況時(shí)，對(duì)所述當(dāng)前幀及其后的一定數(shù)量幀的初次分類結(jié)果進(jìn)行求和計(jì)算；判斷模塊，其用于根據(jù)求和結(jié)果進(jìn)行如下判斷如果滿足切換條件則進(jìn)行切換；否則，以上一幀的再次分類結(jié)果作為所述當(dāng)前幀的再次分類結(jié)果。13.如權(quán)利要求11所述的裝置，其特征在于，所述閾值包括再次分類器中初始值的閾值、從語(yǔ)音切換為音樂的閾值、和從音樂切換為語(yǔ)音的閾值。14.如權(quán)利要求13所述的裝置，其特征在于，所述再次分類器中初始值的閾值范圍是8-11。15.如權(quán)利要求13所述的裝置，其特征在于，所述從語(yǔ)音切換為音樂的閾值范圍是0-8。16.如權(quán)利要求13所述的裝置，其特征在于，所述從音樂切換為語(yǔ)音的閾值范圍是9-16。全文摘要本發(fā)明涉及一種音頻分類方法，其在音頻編碼前對(duì)音頻信號(hào)進(jìn)行分類，該音頻分類方法包括初次分類和再次分類，其特征在于，再次分類包括對(duì)初次分類結(jié)果進(jìn)行平滑。另外，本發(fā)明還公開了一種音頻分類裝置，其被設(shè)置在音頻編碼器前端用于對(duì)音頻信號(hào)分類，該音頻分類裝置包括初次分類器和再次分類器，其特征在于，再次分類器包括對(duì)初次分類結(jié)果進(jìn)行平滑處理的平滑模塊。使用根據(jù)本發(fā)明的方法及裝置，能從音頻信號(hào)中正確區(qū)分出音樂和語(yǔ)音。由于再次分類包括對(duì)初次分類結(jié)果進(jìn)行平滑，因此剔除了音頻類型切換過快時(shí)導(dǎo)致的偶爾的誤判，同時(shí)也減少了運(yùn)算復(fù)雜度，從而實(shí)現(xiàn)了正確并且簡(jiǎn)單區(qū)分音樂和語(yǔ)音。文檔編號(hào)G10L11/00GK101751920SQ200810240339公開日2010年6月23日申請(qǐng)日期2008年12月19日優(yōu)先權(quán)日2008年12月19日發(fā)明者張培,閆建新申請(qǐng)人:數(shù)維科技(北京)有限公司

完整全部詳細(xì)技術(shù)資料下載