專利名稱::基于再次分類的音頻分類裝置及其實(shí)現(xiàn)方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及在音頻編碼前區(qū)分音頻信號(hào)是語(yǔ)音還是音樂的裝置及其實(shí)現(xiàn)方法,更具體地,涉及基于再次分類的音頻分類裝置及其實(shí)現(xiàn)方法。
背景技術(shù):
:語(yǔ)音和音樂是兩類最主要的音頻數(shù)據(jù),語(yǔ)音和音樂的分類是提取音頻結(jié)構(gòu)和內(nèi)容語(yǔ)義的重要手段之一。原始音頻數(shù)據(jù)除了含有采樣率、量化精度、編碼方法等有限的注冊(cè)信息外,本身僅僅是一種非語(yǔ)義符號(hào)表示和非結(jié)構(gòu)化的二進(jìn)制碼流,缺乏內(nèi)容語(yǔ)義的描述和結(jié)構(gòu)化的組織。如何提取音頻中的結(jié)構(gòu)化信息和內(nèi)容語(yǔ)義,使得無序的音頻數(shù)據(jù)變得有序,是基于內(nèi)容的音頻檢索技術(shù)能否得以實(shí)用的關(guān)鍵所在。利用與特征無關(guān)的文件名、文件類型、采樣率等進(jìn)行的對(duì)音頻文件分類或檢索并不是真正的基于內(nèi)容的音頻分類或檢索?;趦?nèi)容的音頻分類是指提取音頻段的特征參數(shù)進(jìn)行分類,這些特征參數(shù)可以是響度、亮度、基音、音色等知覺特征。傳統(tǒng)的音頻分類技術(shù)主要應(yīng)用于語(yǔ)音識(shí)別和檢索上,需要分類的類別也不局限于語(yǔ)音和音樂,對(duì)分類的準(zhǔn)確性要求很高,復(fù)雜度較大,上述的分類方法都是基于較長(zhǎng)音頻片段的,即對(duì)一段較長(zhǎng)的音樂或語(yǔ)音進(jìn)行判決?!N音頻分類的現(xiàn)有技術(shù)(參見Jiang,Hao,Lin,Tony,Zhang,Hong—jiang.Videosegmentationwiththesupportofaudiosegmentationandclassification.In-ProceedingsoftheIEEEInternationalConferenceonMultimediaandExpo(ICME2000),Vol3.NY:IEEE,2000.15071510.)采用基于簡(jiǎn)單決策樹的語(yǔ)音/音樂多步層次分類,即每一步根據(jù)一種或者幾種音頻特征及其閾值判定音頻所屬的類別。上述分類方法存在以下缺點(diǎn)(l)只能刻畫音頻的均值和方差等靜態(tài)統(tǒng)計(jì)特性,而音頻信號(hào)特征通常具有時(shí)間統(tǒng)計(jì)特性,例如,在音樂中一般都存在能夠揭示主題的韻律或者鼓點(diǎn);而在語(yǔ)音中,清音和濁音往往交替出現(xiàn),這些特征都與時(shí)間相關(guān)。(2)決策規(guī)則和搜索順序并不一定是最優(yōu)的。(3)上層的決策錯(cuò)誤會(huì)累積到下一層而形成"雪球"效應(yīng)。另一禾中音頻分類的現(xiàn)有技術(shù)(參見Rabiner,L.,Juang,B_H.FundamentalsofSpeechRecognition.Prentice-HallInternational,Inc.,1993.)基于隱馬爾可夫模型(HMM)的分類法,該模型在本質(zhì)上是一種雙隨機(jī)過程的有限狀態(tài)自動(dòng)機(jī),具有刻畫信號(hào)的時(shí)間隨機(jī)統(tǒng)計(jì)特性的能力。上述分類方法的不足之處是事先要對(duì)分類器進(jìn)行大量數(shù)據(jù)的訓(xùn)練,整個(gè)過程計(jì)算量較大,并且不易于硬件實(shí)現(xiàn)。此外,現(xiàn)有技術(shù)中實(shí)際并未公開基于再次分類的音頻分類的裝置及其實(shí)現(xiàn)方法。在本發(fā)明中還引用了現(xiàn)有技術(shù)中的MFCC系數(shù)與訓(xùn)練模板的概念,現(xiàn)簡(jiǎn)單介紹如下(l)MFCC系數(shù),即基于Mel域的倒譜系數(shù),它一般采用三角濾波器組對(duì)傅里葉變換能量系數(shù)濾波,并對(duì)其頻域進(jìn)行Mel比例變換,以更符合人類的聽覺特性。當(dāng)提取MFCC系數(shù)時(shí),首先在時(shí)域?qū)σ纛l信號(hào)進(jìn)行分幀,4096(或者為2048,1024等)個(gè)采樣點(diǎn)為一幀,每次幀移50%,即2048個(gè)樣點(diǎn)。每次對(duì)一幀音頻信號(hào)提取14維的MFCC系數(shù),其中三角濾波器的個(gè)數(shù)優(yōu)選為26。以14維的MFCC系數(shù)矢量作為音頻分類的特征參數(shù)進(jìn)行分類。(2)訓(xùn)練模板是選取一定數(shù)量的典型音樂片斷和典型語(yǔ)音片斷,片斷的長(zhǎng)度均為2秒,然后對(duì)整條音頻片斷提取MFCC參數(shù),并取該片斷中所有幀的MFCC系數(shù)的均值。最后將所有音頻片斷的MFCC參數(shù)取平均值,得到音樂模板和語(yǔ)音模板。
發(fā)明內(nèi)容為了解決上述問題以及其它問題,本發(fā)明特給出了以下的技術(shù)方案。本發(fā)明的一個(gè)實(shí)施例提供一種音頻分類方法,其在音頻編碼前對(duì)音頻信號(hào)進(jìn)行分類,該音頻分類方法包括初次分類和再次分類,其特征在于,再次分類包括對(duì)初次分類結(jié)果進(jìn)行平滑。優(yōu)選地,初次分類以幀為單位進(jìn)行。優(yōu)選地,對(duì)初次分類結(jié)果進(jìn)行平滑包括在對(duì)當(dāng)前幀進(jìn)行再次分類時(shí),當(dāng)出現(xiàn)轉(zhuǎn)換情況時(shí),則將當(dāng)前幀及其后緩存的一定數(shù)量幀的初次分類結(jié)果進(jìn)行求和計(jì)算與判斷如果滿足切換條件則發(fā)生切換;否則,以上一幀的再次分類結(jié)果作為所述當(dāng)前幀的再次分類結(jié)果。進(jìn)一步地,再次分類使用預(yù)先設(shè)定的閾值。具體來說,該閾值包括再次分類中初始值的閾值、從語(yǔ)音切換為音樂的閾值、和從音樂切換為語(yǔ)音的閾值。本發(fā)明的另一個(gè)實(shí)施例提供一種音頻分類裝置,其被設(shè)置在音頻編碼器前端用于對(duì)音頻信號(hào)分類,該音頻分類裝置包括初次分類器和再次分類器,其特征在于,再次分類器包括對(duì)初次分類結(jié)果進(jìn)行平滑處理的平滑模塊。優(yōu)選地,初次分類器中的數(shù)據(jù)以幀為單位進(jìn)行分類。優(yōu)選地,平滑模塊包括緩存模塊和判斷模塊。緩存模塊在當(dāng)前幀出現(xiàn)轉(zhuǎn)換情況時(shí),對(duì)所述當(dāng)前幀的初次分類結(jié)果及其后緩存的一定數(shù)量幀的初次分類結(jié)果進(jìn)行求和計(jì)算。判斷模塊用于判斷是否進(jìn)行切換如果滿足切換條件則進(jìn)行切換;否則,以上一幀的再次分類結(jié)果作為所述當(dāng)前幀的再次分類結(jié)果。進(jìn)一步地,再次分類器使用預(yù)先設(shè)定的閾值。具體來說,該閾值包括再次分類中初始值的閾值、從語(yǔ)音切換為音樂的閾值、和從音樂切換為語(yǔ)音的閾值。此外,再次分類初始值的閾值范圍優(yōu)選是8-16。從語(yǔ)音切換為音樂的閾值范圍可以是0-8,從音樂切換為語(yǔ)音的閾值范圍可以是9-16。基于上述技術(shù)方案,剔除了音頻類型切換過快時(shí)導(dǎo)致的偶爾的誤判,同時(shí)也減少了運(yùn)算復(fù)雜度,從而實(shí)現(xiàn)了正確并且簡(jiǎn)單區(qū)分音樂和語(yǔ)音,從而使得編碼后的音頻質(zhì)量達(dá)到更優(yōu)的效果。圖1是流程圖,示出了再次分類中判斷初始值的步驟;圖2是流程圖,示出了除判斷初始值以外的、再次分類中判斷切換的步驟;以及圖3是方框圖,示出了根據(jù)本發(fā)明的音頻分類裝置在音頻編碼系統(tǒng)中的位置。具體實(shí)施例方式通過借助附圖在下文中將描述本發(fā)明的優(yōu)選實(shí)施例。在以下描述中,將不詳細(xì)描述已成為現(xiàn)有技術(shù)的功能或結(jié)構(gòu),因?yàn)椴槐匾募?xì)節(jié)將導(dǎo)致本發(fā)明的介紹含混不清。如圖1和2所示,本發(fā)明的一個(gè)實(shí)施例提供了一種音頻分類方法,其在對(duì)音頻信號(hào)進(jìn)行壓縮編碼前對(duì)音頻信號(hào)進(jìn)行分類。具體地,通過將待編碼的音頻信號(hào)判決為語(yǔ)音和音樂,使得在進(jìn)行音頻編碼時(shí),可根據(jù)上述分類結(jié)果來指導(dǎo)感覺音頻編碼器的參數(shù)自適應(yīng)調(diào)整,使編碼后的音頻質(zhì)量達(dá)到更優(yōu)。所述的感覺音頻編碼器可以是任何現(xiàn)有技術(shù)音頻編碼器,例如中國(guó)國(guó)家標(biāo)準(zhǔn)GB/T17975.3-2002《信息技術(shù)運(yùn)動(dòng)圖像及其伴音信號(hào)的通用編碼第3部分音頻》中規(guī)定的MPEG編碼器、中國(guó)行業(yè)標(biāo)準(zhǔn)SJ/T11368-2006《多聲道數(shù)字音頻編解碼技術(shù)規(guī)范》中規(guī)定的DRA編碼器等,本發(fā)明并不對(duì)此加以限定。下面結(jié)合附圖,詳細(xì)描述根據(jù)本發(fā)明的音頻分類方法根據(jù)本發(fā)明的音頻分類方法可分為兩大步驟,即初次分類和再次分類。在展開說明前,首先定義兩個(gè)本發(fā)明中用到的術(shù)語(yǔ)術(shù)語(yǔ)"音頻類型的轉(zhuǎn)換"(簡(jiǎn)稱"轉(zhuǎn)換")是指當(dāng)前幀的初次分類結(jié)果與上一幀的再次分類結(jié)果不一致的情況,即可能發(fā)生音頻類型的轉(zhuǎn)換;術(shù)語(yǔ)"音頻類型的切換"(簡(jiǎn)稱"切換")是指經(jīng)過再次分類平滑后,判斷允許從語(yǔ)音切換到音樂,或者判斷允許從音樂切換到語(yǔ)音的情況。首先簡(jiǎn)要描述初次分類方法,其可針對(duì)每一幀數(shù)據(jù)給出判決結(jié)果,具體步驟如下(1)將待測(cè)的音頻片斷劃分幀,取1024個(gè)采樣點(diǎn)的整數(shù)倍為一幀,即可以為1024個(gè)、204S個(gè)、或4096個(gè),優(yōu)選為4096個(gè),該幀長(zhǎng)的選擇要與后續(xù)音頻編碼器的幀長(zhǎng)選擇一致,并且還要與訓(xùn)練模板(對(duì)于本發(fā)明,僅包括音樂模板和語(yǔ)音模板)時(shí)選取的幀長(zhǎng)相同。(2)對(duì)每一幀提取MFCC系數(shù),提取方式也與訓(xùn)練模板時(shí)相同。(3)根據(jù)每一幀提取的MFCC系數(shù)矢量及現(xiàn)有的音樂模板和語(yǔ)音模板,分別計(jì)算每一幀MFCC系數(shù)到音樂模板的歐氏距離(disSpeech)和到語(yǔ)音模板的歐氏距離(disMusic)。(4)當(dāng)disSpeech>disMusic時(shí),將該幀判決為音樂,初次分類標(biāo)志位flagClass設(shè)為0;當(dāng)disSpeech<disMusic時(shí),將該幀判決為語(yǔ)音,初次分類標(biāo)志位flagClass設(shè)為1。通過上述四個(gè)步驟逐幀地完成了對(duì)音頻數(shù)據(jù)的初次分類,并輸出了初次分類標(biāo)志位flagClass作為本幀是語(yǔ)音還是音樂的標(biāo)識(shí)。示意性地選擇一段合適長(zhǎng)度(如48幀)的音頻,經(jīng)過上述步驟,得到對(duì)每一幀的初次分類判決結(jié)果,如表1所示。其中,O代表音樂,1代表語(yǔ)音。表1初次分類結(jié)果表幀索引flagClass幀索引flagClass幀索引flagClass1017033120181341<table>tableseeoriginaldocumentpage6</column></row><table>下文結(jié)合表l,示例性地對(duì)根據(jù)本發(fā)明實(shí)施例的再次分類方法進(jìn)行描述。在本文實(shí)施例中,再次分類優(yōu)選地選取緩存幀數(shù)為16:這表示當(dāng)發(fā)生轉(zhuǎn)換時(shí),以發(fā)生轉(zhuǎn)換的幀位置為起點(diǎn),向后再緩沖15幀。但在實(shí)際使用時(shí),可以根據(jù)延時(shí)、切換頻度等指標(biāo)來設(shè)置緩存幀數(shù)為其它數(shù)值,如8、24、32等。根據(jù)不同的幀索引,本發(fā)明的再次分類方法包含兩種情況(A)本段音頻數(shù)據(jù)中第l幀到第緩存幀數(shù)個(gè)幀(例如第16幀)的再次分類結(jié)果(本發(fā)明中簡(jiǎn)稱為"判斷初始值"),其統(tǒng)一以標(biāo)志位flagClaSSfinalinit來表示,即這16幀共用一個(gè)再次分類結(jié)果。其中,flagClassfinalinit=O,代表音樂;flagClassfinalinit=l,代表語(yǔ)音。(B)其它幀的再次分類結(jié)果,以flagClassfinal來表示,每幀各有一個(gè)flagClassfinal值,并且flagClassfinal=O,代表音樂;flagClassfinal=l,代表語(yǔ)音。下面分別結(jié)合圖1和圖2對(duì)這兩種再次分類的情況加以描述。如圖1所示,"判斷初始值"具體包括下述步驟(1)在步驟10中,將所選音頻片段的前16幀初次分類判決結(jié)果flagClass相加,得至ljnN咖Flag:16wM/mF/tfg=Zc/鵬F/ag,.其中,flagClass表示第i幀的初次判斷結(jié)果。(2)接下來在步驟11,判斷nN咖Flag和閾值TO之間的大小關(guān)系。如果nN咖Flag小于T0,則轉(zhuǎn)到步驟IIA,輸出判決結(jié)果flagClasSfinalinit=0;否則轉(zhuǎn)到步驟IIB,輸出判決結(jié)果flagClasSfinalinit=1。其中閾值T0的范圍優(yōu)選為8-16。如圖2所示,對(duì)于其它幀的再次分類方法包含如下步驟(D首先在步驟20中,讀入某段音頻中各幀的初次分類結(jié)果flagClass和上一幀的再次分類結(jié)果flagClassfinalpMV。(2)在步驟21,判斷上一幀被最終判斷為語(yǔ)音(flagClassfinalprev=1)還是音樂(flagClassfinalprev=0)。(3)對(duì)于上一幀被判定為音樂的情況,轉(zhuǎn)到以步驟22開始的分支(3A)步驟22首先判斷當(dāng)前幀的初次分類結(jié)果是否等于上一幀的再次分類結(jié)果如等于,則表示未發(fā)生轉(zhuǎn)換,直接在步驟22A判斷當(dāng)前幀不切換,結(jié)束本次的再次分類處理;否則表示發(fā)生轉(zhuǎn)換(以nLocTrans表示發(fā)生轉(zhuǎn)換的幀的幀索引),此時(shí)轉(zhuǎn)到步驟22B,計(jì)算第nLocTrans幀的初次分類結(jié)果及其后15幀的初次分類結(jié)果之和15襲附尸/"g=Z何C7咖獻(xiàn)哪+,其中,flagClass表示第i幀的初次判斷結(jié)果。(3B)然后在步驟24,比較nN咖Flag和閾值Tl。如果nN咖Flag小于Tl,則轉(zhuǎn)到步驟24A,輸出對(duì)當(dāng)前幀的判決結(jié)果flagClassfinal=0;否則轉(zhuǎn)到步驟24B,輸出對(duì)當(dāng)前幀的判決結(jié)果flagClassfinal=1。其中閾值T1的范圍優(yōu)選為9-16,更優(yōu)選地為10_14,進(jìn)一步優(yōu)選為12。(4)對(duì)于上一幀被判定為語(yǔ)音的情況,轉(zhuǎn)到以步驟23開始的分支(4A)步驟23首先判斷當(dāng)前幀的初次分類結(jié)果是否等于上一幀的再次分類結(jié)果如等于,則表示未發(fā)生轉(zhuǎn)換,直接在步驟23A判斷當(dāng)前幀不切換,結(jié)束本次的再次分類處理;否則表示發(fā)生轉(zhuǎn)換(以nLocTrans表示發(fā)生轉(zhuǎn)換的幀所在的幀索引),此時(shí)轉(zhuǎn)到步驟23B,計(jì)算第nLocTrans幀的初次分類結(jié)果及其后15幀的初次分類結(jié)果之和15函m尸/"g=S麵C/a^緒咖+,其中,flagClass表示第i幀的初次判斷結(jié)果。(4B)然后在步驟25,比較nN咖Flag和閾值T2。如果nN咖Flag小于T2,則轉(zhuǎn)到步驟25A,輸出對(duì)當(dāng)前幀的判決結(jié)果flagClassfinal=0;否則,轉(zhuǎn)到步驟25B,輸出對(duì)當(dāng)前幀7的判決結(jié)果flagClassfinal=1。其中閾值T2的范圍優(yōu)選為0_8,更優(yōu)選地為4_8,進(jìn)一步優(yōu)選為8。更詳細(xì)地,結(jié)合表1的具體數(shù)據(jù)來說明本發(fā)明應(yīng)用的一個(gè)實(shí)例。首先進(jìn)行"判斷初始值"的計(jì)算利用步驟10中給出的方法來計(jì)算前16幀的flagClass的總和,得出nN咖Flag=4。經(jīng)過步驟11的判斷(TO優(yōu)選取8),nN咖Flag<TO=8。因此進(jìn)入步驟11A,flagClaSSfinalinit=0,即第一個(gè)小段共16幀音頻均被判斷為音樂。從第17幀開始,采用圖2所示的流程進(jìn)行其它幀的再次分類對(duì)于第17幀,flagClassfinalp,=O,進(jìn)入以步驟22開始的分支。并且第17幀的flagClass=0=flagClassfinalprev,在步驟22中判斷出未發(fā)生轉(zhuǎn)換,進(jìn)而轉(zhuǎn)到步驟22A,輸出最終的、對(duì)第17幀的再次分類結(jié)果flagClassfinal=0(不切換)。對(duì)于第18幀,flagClassfinalprev=O,進(jìn)入步驟22開始的分支。并且第18幀的flagClass=1#flagClassfinalprev,在步驟22中判斷出發(fā)生了轉(zhuǎn)換,進(jìn)而轉(zhuǎn)到步驟22B,將第18幀33幀的flagClass值相加得到nNumFlag=13。進(jìn)一步地,在步驟24中判斷出nNumFlag>Tl(Tl優(yōu)選取值為12),此時(shí)進(jìn)入步驟24B,輸出對(duì)當(dāng)前幀(第18幀)的判決結(jié)果flagClassfinal=1(發(fā)生切換)。對(duì)第19幀,flagClassfinalprev=l,進(jìn)入步驟23開始的分支。并且第19幀的flagClass=0#flagClassfinalprev,在步驟23中判斷出發(fā)生了轉(zhuǎn)換,進(jìn)而轉(zhuǎn)到步驟23B,將第19幀34幀的flagClass值相加得到nNumFlag=13。進(jìn)一步地,在步驟25中判斷出nNumFlag>T2(T2優(yōu)選取值為8),此時(shí)進(jìn)入步驟25B,輸出對(duì)當(dāng)前幀(第19幀)的判決結(jié)果flagClassfinal=1(不進(jìn)行切換)。以此類推,可獲得以下各幀的再次分類結(jié)果flagClassfinal。綜上可知,根據(jù)本發(fā)明的再次分類算法通常需要緩沖16幀。同時(shí),本發(fā)明還提供了一種音頻分類裝置31。音頻分類裝置31被設(shè)置在音頻編碼器32的前端,用于指導(dǎo)音頻編碼器32的工作方式,如圖3所示。音頻分類裝置31包括初次分類器和再次分類器(均未示出)。初次分類器中的數(shù)據(jù)是以幀為單位,再次分類器則包括對(duì)初次分類結(jié)果進(jìn)行平滑處理的平滑模塊。進(jìn)一步地,再次分類器在判決過程中使用預(yù)先設(shè)定的閾值。具體地,上述閾值包括"判斷初始值"中使用的閾值TO(或者稱之為再次分類中初始值的閾值)、從語(yǔ)音切換為音樂的閾值T2、從音樂切換為語(yǔ)音的閾值T2。T0、T1和T2的優(yōu)選范圍或取值同上。更進(jìn)一步地,平滑模塊包括緩存模塊和判斷模塊,緩存模塊可以緩沖一定數(shù)量的幀。實(shí)際使用時(shí),可以根據(jù)延時(shí)、切換頻度等指標(biāo)來設(shè)置緩存幀的數(shù)量。初次分類器包括(1)分幀裝置,其用于對(duì)待測(cè)的音頻片斷劃分幀取1024個(gè)采樣點(diǎn)的整數(shù)倍為一幀,該幀長(zhǎng)的選擇要與后續(xù)音頻編碼器的幀長(zhǎng)選擇一致,并且還要與訓(xùn)練模板時(shí)選取的幀長(zhǎng)相同;(2)MFCC系數(shù)提取裝置,用于針對(duì)每一幀提取MFCC系數(shù);(3)距離計(jì)算裝置,用于根據(jù)每一幀提取的MFCC系數(shù)矢量及現(xiàn)有的音樂模板和語(yǔ)音模板,分別計(jì)算每一幀MFCC系數(shù)到音樂模板的歐氏距離(disSpeech)和到語(yǔ)音模板的歐氏距離(disMusic)。(4)初次分類裝置,用于根據(jù)disSpeech和disMusic的大小關(guān)系來判定本幀的數(shù)據(jù)類型當(dāng)disSpeech>disMusic時(shí),當(dāng)前幀被判決為音樂,初次分類標(biāo)志位flagClass設(shè)為0;否則,當(dāng)前幀被判決為語(yǔ)音,初次分類標(biāo)志位flagClass設(shè)為1。再次分類器包括兩種工作模式,S卩"判斷初始值"的工作模式和計(jì)算其它幀再次分類結(jié)果的工作模式。下面對(duì)這兩種模式進(jìn)行簡(jiǎn)要說明。再次分類器的平滑模塊包括緩存模塊和判斷模塊,其在"判斷初始值"的工作模式下如下分工(1)緩存模塊,用于將所選音頻片段的前16幀初次分類判決結(jié)果flagClass相加,得至ljnN咖Flag;(2)判斷模塊,用于判斷nN咖Flag和閾值TO之間的大小關(guān)系。如果nN咖Flag小于TO,則輸出判決結(jié)果flagClassfinal=0;否則輸出判決結(jié)果flagClassfinal=1。上述緩存模塊和判斷模塊在"計(jì)算其它幀再次分類結(jié)果"的工作模式下如下分工(1)緩存模塊,用于(1A)讀入某段音頻中各幀的初次分類結(jié)果flagClass和上一幀的再次分類結(jié)果flagClassfinalprev;(IB)在當(dāng)前幀出現(xiàn)轉(zhuǎn)換時(shí)(根據(jù)判斷模塊在2A中的判斷結(jié)果),對(duì)當(dāng)前幀及其后一定數(shù)量幀的初次判斷結(jié)果求和。(2)判斷模塊,用于(2A)根據(jù)1A中讀入的數(shù)據(jù),判斷上一幀再次分類結(jié)果及是否發(fā)生轉(zhuǎn)換;(2B)當(dāng)發(fā)生轉(zhuǎn)換時(shí),進(jìn)一步判斷是否發(fā)生切換。其中,根據(jù)(2A)的判斷結(jié)果,在(2B)中可能讀入不同的預(yù)定閾值。雖然結(jié)合目前被認(rèn)為是最實(shí)際和最優(yōu)的實(shí)施例描述了本發(fā)明,但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解本發(fā)明不限于所公開的實(shí)施例,相反,本發(fā)明旨在覆蓋所附權(quán)利要求的精神和范疇之內(nèi)包括的各種各樣的修改和等價(jià)結(jié)構(gòu)。本領(lǐng)域技術(shù)人員能夠理解的是可如示于特定實(shí)施例地將多種變形和/或改進(jìn)使用到本發(fā)明,而這并不脫離以寬廣方式描述的本發(fā)明精神或范圍。因此,本文的實(shí)施例被認(rèn)為在各個(gè)方面是描述性的而非限定性的。9權(quán)利要求一種音頻分類方法,其在音頻編碼前對(duì)音頻信號(hào)進(jìn)行分類,所述音頻分類方法包括初次分類和再次分類,其特征在于,所述再次分類包括對(duì)初次分類結(jié)果進(jìn)行平滑。2.如權(quán)利要求1所述的方法,其特征在于,所述初次分類以幀為單位進(jìn)行分類。3.如權(quán)利要求1或2所述的方法,其特征在于,所述再次分類包括使用預(yù)先設(shè)定的閾值。4.如權(quán)利要求3所述的方法,其特征在于,所述對(duì)初次分類結(jié)果進(jìn)行平滑包括在對(duì)當(dāng)前幀進(jìn)行再次分類時(shí),當(dāng)出現(xiàn)轉(zhuǎn)換情況時(shí),則連同所述當(dāng)前幀及其之后緩存的、一定數(shù)量幀的初次分類結(jié)果進(jìn)行求和計(jì)算,并根據(jù)求和結(jié)果進(jìn)行如下判斷如果滿足切換條件則發(fā)生切換;否則,以上一幀的再次分類結(jié)果作為所述當(dāng)前幀的再次分類結(jié)果。5.如權(quán)利要求3所述的方法,其特征在于,所述閾值包括再次分類中初始值的閾值、從語(yǔ)音切換為音樂的閾值、和從音樂切換為語(yǔ)音的閾值。6.如權(quán)利要求5所述的方法,其特征在于,所述再次分類中初始值的閾值范圍是為8-16。7.如權(quán)利要求5所述的方法,其特征在于,所述從語(yǔ)音切換為音樂的閾值范圍是0-8。8.如權(quán)利要求5所述的方法,其特征在于,所述從音樂切換為語(yǔ)音的閾值范圍是9-16。9.一種音頻分類裝置,其被設(shè)置在音頻編碼器前端用于對(duì)音頻信號(hào)分類,所述音頻分類裝置包括初次分類器和再次分類器,其特征在于,所述再次分類器包括對(duì)初次分類結(jié)果進(jìn)行平滑處理的平滑模塊。10.如權(quán)利要求9所述的裝置,其特征在于,所述初次分類器中的數(shù)據(jù)以幀為單位進(jìn)行分類。11.如權(quán)利要求9所述的裝置,其特征在于所述再次分類器使用了預(yù)先設(shè)定的閾值。12.如權(quán)利要求9所述的裝置,其特征在于,所述平滑模塊包括緩存模塊,其在當(dāng)前幀出現(xiàn)轉(zhuǎn)換情況時(shí),對(duì)所述當(dāng)前幀及其后的一定數(shù)量幀的初次分類結(jié)果進(jìn)行求和計(jì)算;判斷模塊,其用于根據(jù)求和結(jié)果進(jìn)行如下判斷如果滿足切換條件則進(jìn)行切換;否則,以上一幀的再次分類結(jié)果作為所述當(dāng)前幀的再次分類結(jié)果。13.如權(quán)利要求11所述的裝置,其特征在于,所述閾值包括再次分類器中初始值的閾值、從語(yǔ)音切換為音樂的閾值、和從音樂切換為語(yǔ)音的閾值。14.如權(quán)利要求13所述的裝置,其特征在于,所述再次分類器中初始值的閾值范圍是8-11。15.如權(quán)利要求13所述的裝置,其特征在于,所述從語(yǔ)音切換為音樂的閾值范圍是0-8。16.如權(quán)利要求13所述的裝置,其特征在于,所述從音樂切換為語(yǔ)音的閾值范圍是9-16。全文摘要本發(fā)明涉及一種音頻分類方法,其在音頻編碼前對(duì)音頻信號(hào)進(jìn)行分類,該音頻分類方法包括初次分類和再次分類,其特征在于,再次分類包括對(duì)初次分類結(jié)果進(jìn)行平滑。另外,本發(fā)明還公開了一種音頻分類裝置,其被設(shè)置在音頻編碼器前端用于對(duì)音頻信號(hào)分類,該音頻分類裝置包括初次分類器和再次分類器,其特征在于,再次分類器包括對(duì)初次分類結(jié)果進(jìn)行平滑處理的平滑模塊。使用根據(jù)本發(fā)明的方法及裝置,能從音頻信號(hào)中正確區(qū)分出音樂和語(yǔ)音。由于再次分類包括對(duì)初次分類結(jié)果進(jìn)行平滑,因此剔除了音頻類型切換過快時(shí)導(dǎo)致的偶爾的誤判,同時(shí)也減少了運(yùn)算復(fù)雜度,從而實(shí)現(xiàn)了正確并且簡(jiǎn)單區(qū)分音樂和語(yǔ)音。文檔編號(hào)G10L11/00GK101751920SQ200810240339公開日2010年6月23日申請(qǐng)日期2008年12月19日優(yōu)先權(quán)日2008年12月19日發(fā)明者張培,閆建新申請(qǐng)人:數(shù)維科技(北京)有限公司