專利名稱::音頻數(shù)據(jù)分析裝置和方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及音頻數(shù)據(jù)分析裝置和方法,具體來說,本發(fā)明涉及一種使用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置和方法。
背景技術(shù):
:當(dāng)前,大量體育比賽涌入觀眾的視野。越來越多的體育視頻沖擊,使得人們對體育視頻的有效檢索和管理的要求也越來越迫切。就足球比賽來說,整場比賽時間大約為2小時,而且,有時候會在深夜進行實況直播。然而,在整個比賽時間內(nèi),足球迷們真正關(guān)心的內(nèi)容和想看的部分通常只占據(jù)節(jié)目的很小一部分。在這種情況下,^求迷們期望有一種有效的內(nèi)容分析和4企索系統(tǒng)。利用這種^支術(shù),體育迷們不僅能夠有選擇地觀看比賽,而且能夠節(jié)省大量時間。足球比賽的內(nèi)容分析是基于內(nèi)容的多媒體檢索的一個應(yīng)用之一。其中,基于視頻分析的研究主要集中在提取顏色、紋理、場景、4竟頭和運動等3見覺特;f正,進而分析實現(xiàn)多4某體/人無結(jié)構(gòu)到結(jié)構(gòu)化的過程。而對于音頻的分析,通常采用音頻切分和分類的方法來進行分析,這種方法可以分為兩個主要類別。一是用來4全測強調(diào)部分、新主題的開始,或者對音頻內(nèi)容進行分析總結(jié)和檢測;二是對一定音頻內(nèi)容或者類別進4亍分類和識別。才艮據(jù)特征空間的不同,可以分為時域和頻域兩類。根據(jù)是否使用感知模型,音頻特征可以分為物理和感知兩類。7雖然從視頻角度來分析精度較高,但算法復(fù)雜,處理時間過長。而>^人音頻角度分析,一方面可以利用音頻分類進行音頻分割,再利用不同類別音頻組合來判斷出現(xiàn)事件的概率;另一方面可以利用語音的內(nèi)容信息進行檢索提高事件檢出的概率。近來,對用于精彩內(nèi)容檢測的音頻分類及切分的研究由于其潛在的應(yīng)用而越來越引起關(guān)注。就音頻類型定義方面而言,非專利文獻1將足J求比賽音頻流切分成比賽、廣告和演播室這幾種類型,以此來結(jié)構(gòu)化視頻內(nèi)容。然而,這三種類型的區(qū)分無法真正滿足7見眾的需求。非專利文獻2i殳計了一種基于決策樹的層次化分類方法,其中,音頻流被分成五類噪聲、解說員語音、哨聲、歡呼聲和帶背景噪聲的語音。然而,音頻流的背景環(huán)境是非常復(fù)雜的,很少有不帶背景噪聲的語音。對于精彩內(nèi)容的檢測來說,區(qū)分帶噪聲和不帶噪聲的語音并沒有實際意義。非專利文獻3從三個方面分析了體育比賽音頻、視頻和紋理。在該系統(tǒng)中,音頻流凈皮分成三類解i兌員5敫動的解i兌聲、擊^求聲和標(biāo)志性聲音(歡呼聲、鼓掌聲),用來檢索三類視頻,即,會議視頻、電影及廣4番新聞和體育3見頻。該方法對于具體的體育比賽(例如,足球比賽)來說效果不好,這是因為擊球聲和鼓掌聲不是非常明顯,在比賽期間過于平穩(wěn)。非專利文獻4致力于基于體育比賽的索引及檢索。定義了四種音頻類型解說員的語音、觀眾的語音、與球有關(guān)的聲音和背景噪聲。由于解說員的語音通過占據(jù)大部分的比賽時間,因此這種分類方法可能對于結(jié)構(gòu)化切分比較有效,但對于精彩內(nèi)容的檢測效果不好。就音頻特征選4爭方面而言,非專利文獻5才是取clip-level和shot-level兩個層面的聲音特征。其中,每一段的長度固定為1秒鐘。使用的聲學(xué)特征有10維l維音量特征,l維能量,4維子帶能量,4維謙通量。精度可以達到94.9%(37/39),召回率為90.2%(37/41),8但僅完成了對進球的檢測。非專利文獻l中,結(jié)合足J^^見頻的特點,采用基于HMM音頻自動分類模型將足球視頻的音頻分為比賽、廣告和演播室三類音頻,實現(xiàn)足球視頻的切分。采用了26維音頻特征短時平均能量、過零率、12維MFCC和12維AMFCC。在從三場比賽中選取的三小段比賽中進行切分,切分分類平均精度為88%,分割點偏差在0~5個片斷的百分比^f義占70%以上。非專利文獻6同時利用音頻和^L頻特;f正對體育比賽進^f亍場景分類,在音頻方面,主要是利用能量特征來進行比較,如果能量大于預(yù)定的第一個闊值,則認(rèn)為該場景重要性為最高;利用兩個連續(xù)場運動行為(motionactivity)的差值大于預(yù)定的第二個閥值,則i人為該場景重要性為次高;而能量和差值均小于預(yù)定門限的話,則認(rèn)為該場景重要性最低。進而,根據(jù)重要性級別對體育場景進行分類。如上所述,可以看到,為了獲得高效的足^t比賽精彩內(nèi)容的枱r測,應(yīng)定義合理的音頻類型。而且,所采用的音頻特4正參凄t也應(yīng)該更好地表征與精彩內(nèi)容相關(guān)的音頻類型的特性。非專利文獻1:JianyunChen,YunhaoLi,etc""Automaticaudioclassificationandsegmentationforsoccervideostructuring",JournalofNationalUniversityofDefenseTechnology,Vol.26(6),2004,pp.49-53。非專利文獻2:JunqingYu,YuqiangCui,etc.,"Audiofeatureextractionandautomaticclassificationinsoccergames",JournalofHuazhongUniversityofScienceandTechnology(NatureScienceEdition),Vol.10,2007。非專利文獻3:ZiyouXiong,XiangSeanZhou,QiTian,YongRui,HuangmTS,"Semanticretrievalofvideo-reviewofresearchonvideoretrievalinmeetings,moviesandbroadcastnews,andsports",IEEESignalProcessingMagazine,Vol.23(2),March2006,pp.18-27。非專利文獻4:A.Kokaram,N.Rea,R.Dahyot,M.Tekalp,P.Bouthemy,P.Gros,andI.Sezan,"Browsingsportsvideo:trendsinsports-relatedindexingandretrievalwork",IEEESignalProcessingMagazine,Vol.23(2),March2006,pp.47-58。非專利文獻5:Shu-ChingChen,Mei-lingShyu,MinChen,ChengcuiZhang,"Adecisiontree-basedmultimodaldataminingframeworkforsoccergoaldetection",2004IEEEInternationalConferenceonMultimediaandExpo,Vol.1,June2004,pp.265-268。與—專矛J文獻6:MasamSugano,HiromasaYanagihara,YasuyukiHakajima,"Classificationapparatusforsportsvideosandmethodthereof,,U.S.PatentApplicationPublication,No.:US2005/0195331Al,Pub.Date:S印.8,2005。
發(fā)明內(nèi)容鑒于以上技術(shù)問題,本發(fā)明提供了一種用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置及方法,其采用34維特征參數(shù)作為表征音頻數(shù)據(jù)的特征,并且,利用兩級均值濾波處理對分類結(jié)果進行后處理。根據(jù)本發(fā)明第一方面的用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置,包括輸入單元,用于輸入音頻流;預(yù)處理單元,用于對音頻流進行預(yù)處理,得到音頻流的每一幀的特征參數(shù);分類單元,按照特征參數(shù)分析每一幀所屬的類別;以及后處理單元,對分類單元的分類結(jié)果進行后處理,得到最終的分段結(jié)果,其中,所述特征參數(shù)包括短時平均能量、子帶能量、過零率、Mel頻域倒語系數(shù)、△Mel頻域倒-潛系#t、^脊通量和基音頻率。在上述訓(xùn)練系統(tǒng)中,預(yù)處理單元包4舌特征提取部,對音頻流進行分幀和加窗,并提取經(jīng)過分幀和加窗得到的每一幀的特征參數(shù)。優(yōu)選地,在上述訓(xùn)練系統(tǒng)中,預(yù)處理單元還包括切分部,通過檢測低能量聲音和過零率,將音頻流粗略切分成多段,其中,特4正#是取部對經(jīng)過粗略切分得到的多萃爻音頻流進4于分幀和加窗,并提取每一幀的凈爭4i參凄t。在上述訓(xùn)練系統(tǒng)中,后處理單元包4舌第一后處理部,用5幀的窗長對哨聲進行均值濾波;第二后處理部,用25幀的窗長對除哨聲之外的聲音類別進行均值濾波;以及合并部,對音頻流中連續(xù)相鄰?fù)悇e的幀進行合并,得到最終的分段結(jié)果。在上述訓(xùn)練系統(tǒng)中,分類單元包括計算部,計算特征參數(shù)對每種類型音頻的概率,并根據(jù)預(yù)定的樣板判斷概率最大的所在類別是該幀所屬的類別。優(yōu)選地,在上述訓(xùn)練系統(tǒng)中,所豐#入音頻流包4舌體育比賽的音頻數(shù)據(jù),該音頻數(shù)據(jù)包括主音頻數(shù)據(jù)和副音頻數(shù)據(jù),其中,主音頻數(shù)據(jù)包括裁判哨聲、觀眾歡呼聲、解說員激動的解說聲和音樂,以及,副音頻數(shù)據(jù)包括靜音、環(huán)境噪音;其中,所述類別至少包括裁判哨聲、觀眾歡呼聲、解說員激動的解說聲和音樂。優(yōu)選地,在上述訓(xùn)練系統(tǒng)中,音樂包括廣告音樂、純音樂;裁判哨聲包括裁判員在出現(xiàn)犯規(guī)、進球、比賽開始、中場休息和比賽結(jié)束時吹的哨聲;觀眾歡呼聲包括出現(xiàn)精彩鏡頭時觀眾的響應(yīng);以ii及,解說員激動的解說聲包括當(dāng)出現(xiàn)精彩鏡頭時解說員的激動解說。才艮據(jù)本發(fā)明第二方面的用SVM方法對音頻數(shù)據(jù)進行分析的分析方法,包括輸入步驟,用于輸入音頻流;預(yù)處理步驟,用于對音頻流進行預(yù)處理,得到音頻流的每一幀的特征參數(shù);分類步驟,按照特征參數(shù)分析每一幀所屬的類別;以及后處理步驟,對分類步驟的分類結(jié)果進行后處理,得到最終的分段結(jié)果,其中,特征參數(shù)包括短時平均能量、子帶能量、過零率、Mel頻域倒譜系數(shù)、AMd頻域倒i普系凄t、i瞽通量和基音頻率。在上述訓(xùn)練方法中,預(yù)處理步驟包括特征提取步驟,對音頻流進行分幀和加窗,并提取經(jīng)過分幀和加窗得到的每一幀的特征參數(shù)。優(yōu)選地,在上述訓(xùn)練方法中,預(yù)處理步驟還包括切分步驟,通過4全測4氐能量聲音和過零率,將音頻流粗略切分成多IS:,其中,特征才是取步驟對經(jīng)過粗略切分得到的多^:音頻流進4亍分幀和加窗,并才是取每一幀的特4i參凄t。在上述訓(xùn)練方法中,后處理步驟包括第一后處理步驟,用5幀的窗長對哨聲進行均值濾波;第二后處理步驟,用25幀的窗長對除所述哨聲之外的聲音類別進行均值濾波;以及合并步驟,對音頻流中連續(xù)相鄰?fù)悇e的幀進行合并,得到最終的分段結(jié)果。在上述訓(xùn)練方法中,分類步驟包括計算步驟,計算特征參數(shù)對每種類型音頻的概率,并根據(jù)預(yù)定的樣板判斷概率最大的所在類別是該幀所屬的類別。優(yōu)選地,在上述訓(xùn)練方法中,所|#入音頻流包4舌體育比賽的音頻凄史據(jù),所述音頻凄t據(jù)包括主音頻凄t據(jù)和副音頻凄t據(jù),其中,主音頻數(shù)據(jù)包括裁判哨聲、觀眾歡呼聲、解說員激動的解說聲和音樂,以及,副音頻數(shù)據(jù)包括靜音、環(huán)境噪音;其中,所述類別至少包括裁判哨聲、觀眾歡呼聲、解說員激動的解說聲和音樂。優(yōu)選地,在上述訓(xùn)練方法中,音樂包括廣告音樂、純音樂;裁判哨聲包括裁判員在出現(xiàn)犯規(guī)、進球、比賽開始、中場休息和比賽結(jié)束時吹的哨聲;觀眾歡呼聲包括當(dāng)出現(xiàn)精彩鏡頭時觀眾的響應(yīng);以及,解說員激動的解說聲包括當(dāng)出現(xiàn)精彩鏡頭時解說員的激動解說。根據(jù)本發(fā)明的分析裝置及方法,實現(xiàn)了精彩內(nèi)容的快速檢索,能夠節(jié)省觀眾的時間,滿足體育迷的觀看需求。附圖用來^是供對本發(fā)明的進一步理解,并且構(gòu)成^i明書的一部分,與本發(fā)明的實施例"T起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中圖1A和圖1B是說明L范數(shù)譜通量的范數(shù)因子選擇的示意圖2是本發(fā)明的第一實施例的分析裝置200的結(jié)構(gòu)沖匡圖3是圖2中的預(yù)處理單元204的結(jié)構(gòu)^f匡圖4是包4舌切分部402和特征提取部404的預(yù)處理單元204的結(jié)構(gòu)框圖5是示出切分處理和分幀處理的示意圖;圖6是分類單元206的結(jié)構(gòu)框圖7是后處理單元208的結(jié)構(gòu)沖匡圖;以及圖8是本發(fā)明的第二實施例的分析方法的流程圖。具體實施例方式以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。下面,以足球比賽為例,首先描述用在本發(fā)明的分析裝置和方法中的分類器。在本發(fā)明的第一實施例中,針對足球比賽的特點,定義了五種音頻類型,包括裁判哨聲、觀眾歡呼聲、解說員激動的解說聲、音樂及其他,用來檢測足球比賽中的精彩內(nèi)容,例如進球得分和任意球等。所選擇的這五種類型有助于更好地分析與上述精彩內(nèi)容相關(guān)的音頻流,其中,裁判哨聲、觀眾歡呼聲和解說員;k動的解說聲是用來查找進球得分和任意球的線索。由于在實況轉(zhuǎn)播足球比賽中場休息的廣告時段中會有大量的音樂,因此,應(yīng)將這些廣告部分去除,從而縮短待分析的內(nèi)容。除此之外,足球比賽音頻流中存在很多其他的音頻現(xiàn)象,例如復(fù)雜的背景噪聲、多種類型的聲音重疊、靜音、解說員的正常解說等等,它們通常會占據(jù)待分析音頻流中的大量空間,對于上述兩類精彩內(nèi)容的檢測并沒有貢獻。因此,加入了"其他"這一音頻類型來更好;也描述音頻流。具體來說,音樂包括廣告音樂、純音樂;裁判哨聲包括裁判員在出現(xiàn)犯規(guī)、進球、比賽開始、中場休息和比賽結(jié)束時吹的哨聲;觀眾歡呼聲包括當(dāng)出現(xiàn)精彩鏡頭時觀眾的響應(yīng);解說員激動的解說聲包括當(dāng)出現(xiàn)精彩鏡頭時解說員的激動解說;其他類型的音頻it據(jù)包括靜音、環(huán)境噪音、解說員正常的解說和其他樂器發(fā)出的聲響。為了獲得對于這五種音頻類型的高質(zhì)量的分類器,首先手動選出針對各種音頻類型的訓(xùn)練數(shù)據(jù)。由于在足球比賽的音頻流中,背景噪聲非常復(fù)雜,因此,音頻類型可通過比較各種類型的音頻成分的音量由占主導(dǎo)地位的音頻成分來確定。經(jīng)過訓(xùn)練數(shù)據(jù)選擇后,獲得70分鐘的訓(xùn)練數(shù)據(jù)。因為裁判哨聲的長度相對較短,通常在0.25秒到0.6秒的范圍內(nèi)變化,因此,分析窗長纟皮設(shè)定為200ms,幀移為60ms,以確保最短的哨聲也能夠被分成至少兩幀進行分析。具體來說,對訓(xùn)練數(shù)據(jù)進行分幀和加窗,使得幀長為200ms,幀移為60ms,然后對每幀數(shù)據(jù)提取34維特征參數(shù)。下面對上述特征參數(shù)進行詳細i兌明?!鳯-范數(shù)譜通量(L-normSpectralFlux)譜通量是由音頻數(shù)據(jù)測得的頻譜序列中各個頻帶之間的能量改變的量度。通常,鐠通量被定義為連續(xù)譜幀之間的歐氏距離(Euclideandistance)。其由式(1)表示如下=-Xt("-l)L=(;-義("—(i)其中,^(")表示第n幀《")第k個鐠單元(spectralbin)的值;hp是單元數(shù)相對于范數(shù)的序列;'是連續(xù)幀之間的第k個譜單元的差,P是范數(shù)因子。為了設(shè)定合適的參數(shù)p,針對如圖1A中的包括預(yù)先定義的五種音頻類型的短音頻凄t據(jù)計算具有5個不同值的i普通量。在圖IB中,該音頻數(shù)據(jù)具有7段,從左至右依次是哨聲、純音樂、帶語音的音樂、激動的解i兌聲、歡呼聲、靜音和解it聲。由圖1A可以看出,當(dāng)參凄tp為l時,"i普通量中無法明確i也表示出頻i普的改變。當(dāng)參ttp^皮i殳為2或3時,在一種音頻類型的中間的有些i普通量值會發(fā)生劇烈振動。而當(dāng)參數(shù)被設(shè)為4或5時,譜通量的值能夠較好地表示出變4匕邊界。在本實施例中,參凄tp被沒為4?!?豆時平均能量(Short-timeMeanEnergy)短時平均能量指的是在一個短時音頻窗口內(nèi)采樣點信號所聚集的平均能量。假定每個短時幀大小為N,^")為用Nyquist頻率采樣后的離散音頻信號。對于第m個短時幀,短時平均能量可以使用下面的式(2)計算&二yw")]2w"、"……(2)▲過零率(ZeroCrossingRate,ZCR)過零率指在一個時間段內(nèi),采樣信號值由正到負(fù)和由負(fù)到正變4匕的次凄t,定義3。下1AM2^(3)過零率可以用來確定清音i吾聲(unvoicedspeech)。通常,清音信號能量比較低,過零率卻很高。因此,通過綜合過零率和音量特16征,可以防止一部分能量小的清音語聲被錯誤分類為靜音。過零率對于語音和音樂兩種不同音頻信號有^艮好的區(qū)分性?!纛l率(Pitch)基音頻率是語音、音樂分析和合成的一個重要參數(shù)。通常只有濁音才有明確的基音頻率(音調(diào))。但是,仍然可以用基音頻率來表示任何聲波的基本頻率。要從音頻信號中準(zhǔn)確可靠地提取基頻特征并不容易。根據(jù)準(zhǔn)確度和復(fù)雜度的不同要求,可以使用不同的基頻估計方法,包4舌自回歸4莫型(auto-regressivemodel)、平均量差函數(shù)(averagemagnitudedifferencefunction)、最大后驗概率方法等。本文采用的中央削波自相關(guān)法自相關(guān)方法?!鳰el步貞i或傳Ji普系凄史(Mel-FrequencyCepstralCoefficients,MFCC)前面所述的各種音頻特征主要是描述信號的時域特性,此外還有一些特征是描述信號頻域特性的,其中使用最廣泛的就是MFCC。MFCC最初是在語音識別研究中提出的,與LPC(線性預(yù)測系數(shù))相比,MFCC更符合人耳的聽覺特征,在有信道噪聲和頻譜失真的情況下,能產(chǎn)生更高的識別精度。通常要對幀內(nèi)信號進行預(yù)加重以提升高頻,對信號加窗以避免短時語音,殳邊纟彖的影響。預(yù)加重的定義式如下面的式(4)所示&=51,-ayw0.9《cr《1.0卩4)參數(shù)a通常取0.97。加窗的定義如下面的式(5)所示:《",一)......(5)其中w為窗函凄t,漢明(Hamming)窗函凄史是4交常用的一個,如下面的式(6)所示w(f)=0.54—0.46cos(~^~4,0《!SiV-1H……(6)然后對處理后的采樣信號進行快速傅里葉變換,得到這個音頻幀在每個頻率上的大小。如果音頻信號的采才羊率為16kHz,那么由采樣定理知,音頻幀的最大頻率為8kHz。也就是"i兌音頻幀在0到8kHz的頻帶上具有能量。為了表達人耳的感知特性,需要把一般頻率上的能量映射到更加符合人類聽覺的Mel頻:潛上,如下面的式(7)所示Me/(/)=2595log,。(1+1£)Mel濾波是通過一組三角濾波器實現(xiàn)的,它們在Mel頻鐠上是等間隔的。為了更加有效地表示,還需要對能量系數(shù)取對數(shù)值,并進4亍離散余弦變才灸(DiscreteCosineTransform,DCT),最后4尋到的系數(shù)就是MFCC特征。再加上1維能量共13維?!鳤MFCC(共13維)《=^^^-w...…(8)其中,^是差分階數(shù),本實施例中取值為2,^6[1,0],c是上面求出的MFCC系凄t,t是當(dāng)前幀。18▲子帶能量(Sub-bandEnergy)在從OHz到19500Hz范圍內(nèi),存在25個關(guān)4定頻帶。由于本實施例中分析的音頻以每秒16kHz的采樣率進行采樣,因此,在整個頻帶范圍內(nèi)有大約22個關(guān)考建頻帶。考慮到人耳的知覺特性,并且哨聲的頻譜分布在3700Hz以上,因此在本實施例中,將整個頻帶分成4個子帶。具體來i兌,這4個子帶的頻率范圍為0~510Hz,510Hz~1480Hz,1480Hz~3700Hz和3700Hz~8000Hz。各個子帶的能量按照下面的式(9)進行計算^……(9)五限其中,z'是第i個子帶的能量,z7/和仏分別是第i個子帶的上沿和下沿,K^是信號^)的FFT。在獲得了每一幀的音頻特征參數(shù)之后,使用SVM(SupportVectorMachine,支持向量才幾)方法來訓(xùn)練得到上述五種類型的音頻的分類器,其中,SVM方法采用的核函數(shù)是徑向基核函數(shù)(RadialBasisFunction,RBF)。具體來說,在進行模型訓(xùn)練之前,將得自所選數(shù)據(jù)的特征定標(biāo)(scale)為[-l,l]。然后,選擇RBF內(nèi)核將這些特征映射到較高維數(shù)空間中。其參數(shù)(C,"在回歸后被設(shè)為(8.0,2.0)。從而,得到了針對以上五種音頻類型的高質(zhì)量的分類器。在獲得了該分類器之后,即可利用該分類器進行音頻流數(shù)據(jù)的分析,包括音頻分類和分段。下面,描述根據(jù)本發(fā)明的實施例的分析裝置和分析方法。圖2是本發(fā)明第一實施例的用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置200的結(jié)構(gòu)框圖,如圖2所示,該分析裝置200包括輸入單元202,用于lt入音頻流;預(yù)處理單元204,用于對音頻流進行預(yù)處理,得到音頻流的每一幀的特征參數(shù);分類單元206,按照特征參數(shù)分析每一幀所屬的類別;以及后處理單元208,對分類單元206的分類結(jié)果進行后處理,得到最終的分段結(jié)果,其中,所述特征參^t包括短時平均能量、子帶能量、過零率、Mel頻域倒i普系凄t、AMel頻i或倒i普系凄史、^普通量和基音頻率。圖3是上述預(yù)處理單元204的結(jié)構(gòu)沖匡圖,如圖3所示,預(yù)處理單元204包括特征提取部302,對輸入的音頻流進行分幀和加窗,使得幀長為200ms,幀移為60ms,然后對經(jīng)過分幀和加窗得到的每幀數(shù)據(jù)提取34維特征參數(shù)。即,每一幀的幀長與訓(xùn)練過程中相同,特征參數(shù)提取方法也與訓(xùn)練過程相同。具體來說,對于給出的體育比賽,首先提取出音頻流,并以每秒16kHz進行采樣。然后,對音頻流進行分幀,并以漢明窗函數(shù)(HammingWindow)進4亍加窗。每一幀的幀長與訓(xùn)練過禾呈中相同。使用與訓(xùn)練過程中相同的特征參數(shù)提取方法,提取出每一幀的相應(yīng)的特征參數(shù),包括短時平均能量、過零率、子帶能量、基音頻率、鐠通量、MFCC和AMFCC—共34維特征參數(shù)。一般而言,由于整場足球比賽的長度為大約2小時,因此,首先應(yīng)該檢測出粗略的邊界,以進行結(jié)構(gòu)化切分。為了加快粗略切分的速度,僅考慮低能量聲音或者靜音。因此,選擇低能量聲音和過零率來4全測整個音頻流的分界點。該處理在時域中進行,并且,針對這兩個參凄t分別i殳定了兩個閾^直。經(jīng)過處理之后,音頻流將^皮切分成多段,各段的長度彼此之間各不相同。在各個音頻片段中,提取出每一幀的34維特征參數(shù),并與訓(xùn)練過程一樣被定標(biāo)為[-l,l]。圖4示出了包括有通過檢測《氐能量聲音和過零率來將音頻流4且略切分成多^殳的切分部402的預(yù)處理單元204的結(jié)構(gòu),其中,切分部402通過才企測〗氐能量聲音和過零率,將音頻流4:H略切分成多^:,然后,特征提取部404對經(jīng)過粗略切分得到的多段音頻流進行分幀和加窗,并提取每一幀的特征參數(shù)。圖5示出了切分部402對音頻流進行切分處理以及特征提取部404進行分幀處理的示意圖。圖6是分類單元206的結(jié)構(gòu)沖匡圖,包括計算部602,計算特征參數(shù)對每種類型音頻的概率,并根據(jù)訓(xùn)練獲得的預(yù)定樣板判斷概率最大的所在類別是該幀所屬的類別。在得到了分類結(jié)果之后,由于分析窗長僅為200ms,而且得到的分類結(jié)果對于進一步的分析來i兌太過瑣石爭,因此,優(yōu)選對得到的分類結(jié)果進行平滑和合并以進行良好的分段。在本發(fā)明的實施例中,采用了基于兩級均值濾波處理的后處理過程。其原因在于哨聲遠遠短于其他四種類型的音頻。如果只采用一種窗長的濾波處理,將發(fā)生兩種不利情況若窗長設(shè)定得4艮短,以確保不錯失哨聲的才僉測,那么其他類型的音頻將被切分成非常細小的片段;若窗長較長,有些較短的哨聲將被平滑掉,從而被錯誤地歸入其他的音頻類型。因此,哨聲和其他四種音頻類型應(yīng)當(dāng)分開來檢測,從而,在本發(fā)明的實施例中,提出了兩級均值濾波的后處理單元。圖7是后處理單元208的結(jié)構(gòu)框圖,在該后處理單元208中,第一后處理部702利用5幀的窗長對哨聲進行均值濾波;第二后處理部704利用25幀的窗長對除哨聲之外的聲音類別進4亍均值濾波;以及合并部706對音頻流中連續(xù)相鄰?fù)悇e的幀進行合并,得到最終的分段結(jié)果。21在經(jīng)過分類及后處理之后,整個音頻流:帔切分成多,殳,每一,史都具有一種音頻類型。圖8是本發(fā)明第二實施例的分析方法的流程圖,包括以下步驟輸入步驟S802,用于輸入音頻流;預(yù)處理步驟S804,用于對音頻流進行預(yù)處理,得到音頻流的每一幀的特4正參凄t;分類步驟S806,按照特征參數(shù)分析每一幀所屬的類別;以及后處理步驟S808,對分類步驟S806的分類結(jié)果進行后處理,得到最終的分段結(jié)果,其中,所述特征參數(shù)包括短時平均能量、子帶能量、過零率、Md頻域倒i普系凄t、AMel頻i或倒^普系凄t、i普通量和基音頻率。在圖8的流程圖中的預(yù)處理步驟S804中,包括特征提取步驟,對音頻流進行分幀和加窗,并提取經(jīng)過分幀和加窗得到的每一幀的特征參數(shù)。另外,預(yù)處理步驟S804還可包括切分步驟,通過檢測低能量聲音和過零率,將音頻流粗略切分成多段,然后,對經(jīng)過粗略切分得到的多,殳音頻流進行分幀和加窗,并提取每一幀的特征參數(shù)。在圖8的流程圖中的分類步驟S806中,包括計算步驟,計算特征參數(shù)對每種類型音頻的概率,并根據(jù)預(yù)定的樣板判斷概率最大的所在類別是該幀所屬的類別。此外,在圖8的流程圖中的后處理步駛AS808中,包括第一后處理步驟,用5幀的窗長對哨聲進行均值濾波;第二后處理步驟,用25幀的窗長對除哨聲之外的聲音類別進行均值濾波;以及合并步驟,對音頻流中連續(xù)相鄰?fù)悇e的幀進行合并,得到最終的分段結(jié)果。22利用本發(fā)明,對9個半場足球比賽進行了測試,其中總共有18個進J求得分和20個^f壬意^求。測試結(jié)果示于表1。表l:精彩事件;險測結(jié)果<table>tableseeoriginaldocumentpage23</column></row><table>其中,H表示"命中";HR表示命中率,衡量的是被正確檢測出的事件所占百分比;PR表示正確率,指相對于所有檢出的事件來i兌正確纟會測事4牛的百分比。由該表可知,只利用視頻信息時,進球得分和任意球的命中率分別為88.9%和90%。而結(jié)合了音頻分類結(jié)果后,進球得分和任意球的命中率分別升至94.4%和95%。同時,進^求得分的準(zhǔn)確率從90%升至95%,任意球則從64.3%升至67.9%。因此,音頻分類顯著改善了精彩事件的^r測。在上述實施例中,本發(fā)明利用音頻數(shù)據(jù)對足球比賽進行分析,由于賽事中場休息、比賽開始之前或比賽結(jié)束以后會有廣告或者音樂等音頻,因此,本發(fā)明將足球比賽的音頻內(nèi)容分為五類音樂、裁判哨聲、觀眾歡呼聲、解說員激動的解說聲和其他類。結(jié)合分析音頻的特性,在音頻分析過程中,為每幀提取了34維音頻特征進4亍SVM^t型訓(xùn)練。在后處理過程中,首先采用中值濾波的方法進行平滑,接著再進行二級后處理第一級是用小窗長(5幀)對哨聲進行均值濾波;第二級是用大窗長(25幀)對其他類別進行均值濾波。得到91.8%的分類正確性,最終得到分段后的結(jié)果。從而實現(xiàn)了精彩內(nèi)容的快速檢索,節(jié)省了觀眾的時間,滿足了體育迷的觀看需求。應(yīng)該注意的是,以上所述僅為本發(fā)明應(yīng)用在足球比賽音頻分析的一個實施例,其特4正分析、分類和后處理都可以應(yīng)用于其他類別體育比賽音頻的分析。由于不同體育比賽的語音流中包含的聲學(xué)信號有各自的一些特點,在向其他體育類別進行擴展時,僅需要才艮據(jù)其音頻特征對該類體育音頻的類別進行重新定義,按照定義標(biāo)定訓(xùn)練語料,訓(xùn)練相應(yīng)的分類器,其對應(yīng)的特征分析、分類及后處理不變。以上所述〗又為本發(fā)明的優(yōu)選實施例,并不用以限制本發(fā)明。本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況變形,^f旦這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的4又利要求的保護范圍。權(quán)利要求1.一種用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置,其特征在于,包括輸入單元,用于輸入音頻流;預(yù)處理單元,用于對所述音頻流進行預(yù)處理,得到所述音頻流的每一幀的特征參數(shù);分類單元,按照所述特征參數(shù)分析所述每一幀所屬的類別;以及后處理單元,對所述分類單元的分類結(jié)果進行后處理,得到最終的分段結(jié)果,其中,所述特征參數(shù)包括短時平均能量;子帶能量;過零率;Mel頻域倒譜系數(shù);ΔMel頻域倒譜系數(shù);譜通量;和基音頻率。2.根據(jù)權(quán)利要求1所述的分析裝置,其特征在于,所述預(yù)處理單元包括特征提取部,對所述音頻流進行分幀和加窗,并提取經(jīng)過分幀和加窗得到的每一幀的所述特征參數(shù)。3.根據(jù)權(quán)利要求2所述的分析裝置,其特征在于,所述預(yù)處理單元還包括切分部,通過4企測4氐能量聲音和過零率,將所述音頻流粗略切分成多段,其中所述特4正提取部對經(jīng)過4丑略切分得到的所述多,殳音頻流進4亍分幀和加窗,并4是取每一幀的所述特4i參數(shù)。4.根據(jù)權(quán)利要求1所述的分析裝置,其特征在于,所述后處理單元包括第一后處理部,用5幀的窗長對哨聲進行均值濾波;第二后處理部,用25幀的窗長只于除所述哨聲之外的聲音類別進4亍均4直濾波;以及合并部,對所述音頻流中連續(xù)相鄰?fù)悇e的幀進行合并,得到最終的分^:結(jié)果。5.根據(jù)權(quán)利要求1所述的分析裝置,其特征在于,所述分類單元包括計算部,計算所述特征參數(shù)對每種類型音頻的概率,并根據(jù)預(yù)定的樣板判斷概率最大的所在類別是該幀所屬的類別。6.根據(jù)權(quán)利要求5所述的分類裝置,其特征在于所述輸入音頻流包括體育比賽的音頻lt據(jù),所述音頻H據(jù)包括主音頻數(shù)據(jù)和副音頻數(shù)據(jù),其中所述主音頻數(shù)據(jù)包括裁判哨聲、觀眾歡呼聲、解i兌員激動的解"i兌聲和音樂,以及所述副音頻凄t據(jù)包括靜音、環(huán)境p喿音;其中,所述類別至少包括裁判哨聲、觀眾歡呼聲、解說員激動的解"^兌聲和音樂。7.根據(jù)權(quán)利要求6所述的分類裝置,其特征在于所述音樂包括廣告音樂、純音樂;所述裁判哨聲包括裁判員在出現(xiàn)犯規(guī)、進球、比賽開始、中場〗木息和比賽結(jié)束時吹的哨聲;所述觀眾歡呼聲包括出現(xiàn)精彩鏡頭時觀眾的響應(yīng);以及所述解說員激動的解說聲包括當(dāng)出現(xiàn)精彩鏡頭時解說員的激動解說。8.—種用SVM方法對音頻凄t據(jù)進4于分4斤的分神斤方法,其特4正在于,包括豐俞入步驟,用于^r入音頻流;預(yù)處理步驟,用于對所述音頻流進行預(yù)處理,得到所述音頻流的每一幀的特征參數(shù);分類步驟,按照所述特征參數(shù)分析所述每一幀所屬的類另U;以及后處理步驟,對所述分類步驟的分類結(jié)果進行后處理,得到最終的分段結(jié)果,其中,所述特征參數(shù)包括短時平均能量;子帶能量;過零率;Mel頻i或倒-潛系凄史;AMel頻i或倒_潛系#t;語通量;和基音頻率。9.根據(jù)權(quán)利要求8所述的分析方法,其特征在于,所述預(yù)處理步驟包括特;正提取步^:,對所述音頻流進4于分幀和加窗,并提取經(jīng)過分幀和加窗得到的每一幀的所述特^正參凄t。10.根據(jù)權(quán)利要求9所述的分析方法,其特征在于,所述預(yù)處理步驟還包括切分步驟,通過檢測低能量聲音和過零率,將所述音頻流粗略切分成多段,其中所述特征提取步驟對經(jīng)過粗略切分得到的所述多^殳音頻流進行分幀和加窗,并提取每一幀的所述特征參數(shù)。11.根據(jù)權(quán)利要求8所述的分析方法,其特征在于,所述后處理步驟包括第一后處理步驟,用5幀的窗長對哨聲進行均值濾波;第二后處理步驟,用25幀的窗長對除所述哨聲之外的聲音類別進行均值濾波;以及合并步驟,對所述音頻流中連續(xù)相鄰?fù)悇e的幀進行合并,得到最終的分段結(jié)果。12.根據(jù)權(quán)利要求8所述的分析方法,其特征在于,所述分類步驟包括計算步驟,計算所述特征參數(shù)對每種類型音頻的概率,并根據(jù)預(yù)定的樣板判斷概率最大的所在類別是該幀所屬的類另'J。13.才艮據(jù)4又利要求12所述的分類方法,其特征在于所述輸入音頻流包括體育比賽的音頻據(jù),所述音頻凄史據(jù)包4舌主音頻凄t據(jù)和副音頻凝:據(jù),其中所述主音頻數(shù)據(jù)包括裁判哨聲、觀眾歡呼聲、解說員激動的解i兌聲和音樂,以及所述副音頻凄t據(jù)包括靜音、環(huán)境p朵音;其中,所述類別至少包括裁判哨聲、7見眾歡呼聲、解i兌員激動的解說聲和音樂。14.根據(jù)權(quán)利要求13所述的分類方法,其特征在于所述音樂包:^舌廣告音樂、純音樂;所述裁判哨聲包括裁判員在出現(xiàn)犯規(guī)、進球、比賽開始、中場休息和比賽結(jié)束時吹的哨聲;所述觀眾歡呼聲包括當(dāng)出現(xiàn)精彩鏡頭時觀眾的響應(yīng);以及所述解說員激動的解說聲包括當(dāng)出現(xiàn)精彩鏡頭時解說員的激動解說。全文摘要本發(fā)明提供了一種用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置,其特征在于,包括輸入單元,用于輸入音頻流;預(yù)處理單元,用于對所述音頻流進行預(yù)處理,得到所述音頻流的每一幀的特征參數(shù);分類單元,按照所述特征參數(shù)分析所述每一幀所屬的類別;以及后處理單元,對所述分類單元的分類結(jié)果進行后處理,得到最終的分段結(jié)果,其中,所述特征參數(shù)包括短時平均能量、子帶能量、過零率、Mel頻域倒譜系數(shù)、ΔMel頻域倒譜系數(shù)、譜通量和基音頻率。根據(jù)本發(fā)明,實現(xiàn)了精彩內(nèi)容的快速檢索,能夠節(jié)省觀眾的時間,滿足觀眾的觀看需求。文檔編號G06F17/30GK101685446SQ20081016140公開日2010年3月31日申請日期2008年9月25日優(yōu)先權(quán)日2008年9月25日發(fā)明者昆劉,吳偉國申請人:索尼(中國)有限公司