音頻數(shù)據(jù)分析裝置和方法

文檔序號：6466885閱讀：549來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：音頻數(shù)據(jù)分析裝置和方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及音頻數(shù)據(jù)分析裝置和方法，具體來說，本發(fā)明涉及一種使用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置和方法。
背景技術(shù)：
：當(dāng)前，大量體育比賽涌入觀眾的視野。越來越多的體育視頻沖擊，使得人們對體育視頻的有效檢索和管理的要求也越來越迫切。就足球比賽來說，整場比賽時間大約為2小時，而且，有時候會在深夜進行實況直播。然而，在整個比賽時間內(nèi)，足球迷們真正關(guān)心的內(nèi)容和想看的部分通常只占據(jù)節(jié)目的很小一部分。在這種情況下，^求迷們期望有一種有效的內(nèi)容分析和4企索系統(tǒng)。利用這種^支術(shù)，體育迷們不僅能夠有選擇地觀看比賽，而且能夠節(jié)省大量時間。足球比賽的內(nèi)容分析是基于內(nèi)容的多媒體檢索的一個應(yīng)用之一。其中，基于視頻分析的研究主要集中在提取顏色、紋理、場景、4竟頭和運動等3見覺特;f正，進而分析實現(xiàn)多4某體/人無結(jié)構(gòu)到結(jié)構(gòu)化的過程。而對于音頻的分析，通常采用音頻切分和分類的方法來進行分析，這種方法可以分為兩個主要類別。一是用來4全測強調(diào)部分、新主題的開始，或者對音頻內(nèi)容進行分析總結(jié)和檢測；二是對一定音頻內(nèi)容或者類別進4亍分類和識別。才艮據(jù)特征空間的不同，可以分為時域和頻域兩類。根據(jù)是否使用感知模型，音頻特征可以分為物理和感知兩類。7雖然從視頻角度來分析精度較高，但算法復(fù)雜，處理時間過長。而>^人音頻角度分析，一方面可以利用音頻分類進行音頻分割，再利用不同類別音頻組合來判斷出現(xiàn)事件的概率；另一方面可以利用語音的內(nèi)容信息進行檢索提高事件檢出的概率。近來，對用于精彩內(nèi)容檢測的音頻分類及切分的研究由于其潛在的應(yīng)用而越來越引起關(guān)注。就音頻類型定義方面而言，非專利文獻1將足J求比賽音頻流切分成比賽、廣告和演播室這幾種類型，以此來結(jié)構(gòu)化視頻內(nèi)容。然而，這三種類型的區(qū)分無法真正滿足7見眾的需求。非專利文獻2i殳計了一種基于決策樹的層次化分類方法，其中，音頻流被分成五類噪聲、解說員語音、哨聲、歡呼聲和帶背景噪聲的語音。然而，音頻流的背景環(huán)境是非常復(fù)雜的，很少有不帶背景噪聲的語音。對于精彩內(nèi)容的檢測來說，區(qū)分帶噪聲和不帶噪聲的語音并沒有實際意義。非專利文獻3從三個方面分析了體育比賽音頻、視頻和紋理。在該系統(tǒng)中，音頻流凈皮分成三類解i兌員5敫動的解i兌聲、擊^求聲和標(biāo)志性聲音(歡呼聲、鼓掌聲)，用來檢索三類視頻，即，會議視頻、電影及廣4番新聞和體育3見頻。該方法對于具體的體育比賽(例如，足球比賽)來說效果不好，這是因為擊球聲和鼓掌聲不是非常明顯，在比賽期間過于平穩(wěn)。非專利文獻4致力于基于體育比賽的索引及檢索。定義了四種音頻類型解說員的語音、觀眾的語音、與球有關(guān)的聲音和背景噪聲。由于解說員的語音通過占據(jù)大部分的比賽時間，因此這種分類方法可能對于結(jié)構(gòu)化切分比較有效，但對于精彩內(nèi)容的檢測效果不好。就音頻特征選4爭方面而言，非專利文獻5才是取clip-level和shot-level兩個層面的聲音特征。其中，每一段的長度固定為1秒鐘。使用的聲學(xué)特征有10維l維音量特征，l維能量，4維子帶能量，4維謙通量。精度可以達到94.9%(37/39)，召回率為90.2%(37/41),8但僅完成了對進球的檢測。非專利文獻l中，結(jié)合足J^^見頻的特點，采用基于HMM音頻自動分類模型將足球視頻的音頻分為比賽、廣告和演播室三類音頻，實現(xiàn)足球視頻的切分。采用了26維音頻特征短時平均能量、過零率、12維MFCC和12維AMFCC。在從三場比賽中選取的三小段比賽中進行切分，切分分類平均精度為88%,分割點偏差在0~5個片斷的百分比^f義占70%以上。非專利文獻6同時利用音頻和^L頻特;f正對體育比賽進^f亍場景分類，在音頻方面，主要是利用能量特征來進行比較，如果能量大于預(yù)定的第一個闊值，則認(rèn)為該場景重要性為最高；利用兩個連續(xù)場運動行為(motionactivity)的差值大于預(yù)定的第二個閥值，則i人為該場景重要性為次高；而能量和差值均小于預(yù)定門限的話，則認(rèn)為該場景重要性最低。進而，根據(jù)重要性級別對體育場景進行分類。如上所述，可以看到，為了獲得高效的足^t比賽精彩內(nèi)容的枱r測，應(yīng)定義合理的音頻類型。而且，所采用的音頻特4正參凄t也應(yīng)該更好地表征與精彩內(nèi)容相關(guān)的音頻類型的特性。非專利文獻1:JianyunChen,YunhaoLi,etc""Automaticaudioclassificationandsegmentationforsoccervideostructuring",JournalofNationalUniversityofDefenseTechnology,Vol.26(6)，2004,pp.49-53。非專利文獻2:JunqingYu，YuqiangCui，etc.，"Audiofeatureextractionandautomaticclassificationinsoccergames",JournalofHuazhongUniversityofScienceandTechnology(NatureScienceEdition),Vol.10,2007。非專利文獻3:ZiyouXiong,XiangSeanZhou,QiTian，YongRui，HuangmTS，"Semanticretrievalofvideo-reviewofresearchonvideoretrievalinmeetings,moviesandbroadcastnews,andsports",IEEESignalProcessingMagazine,Vol.23(2)，March2006,pp.18-27。非專利文獻4:A.Kokaram，N.Rea，R.Dahyot,M.Tekalp,P.Bouthemy，P.Gros，andI.Sezan,"Browsingsportsvideo:trendsinsports-relatedindexingandretrievalwork",IEEESignalProcessingMagazine,Vol.23(2),March2006，pp.47-58。非專利文獻5:Shu-ChingChen,Mei-lingShyu，MinChen,ChengcuiZhang,"Adecisiontree-basedmultimodaldataminingframeworkforsoccergoaldetection",2004IEEEInternationalConferenceonMultimediaandExpo,Vol.1,June2004，pp.265-268。與—專矛J文獻6:MasamSugano，HiromasaYanagihara，YasuyukiHakajima，"Classificationapparatusforsportsvideosandmethodthereof，，U.S.PatentApplicationPublication,No.:US2005/0195331Al,Pub.Date:S印.8，2005。
發(fā)明內(nèi)容鑒于以上技術(shù)問題，本發(fā)明提供了一種用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置及方法，其采用34維特征參數(shù)作為表征音頻數(shù)據(jù)的特征，并且，利用兩級均值濾波處理對分類結(jié)果進行后處理。根據(jù)本發(fā)明第一方面的用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置，包括輸入單元，用于輸入音頻流；預(yù)處理單元，用于對音頻流進行預(yù)處理，得到音頻流的每一幀的特征參數(shù)；分類單元，按照特征參數(shù)分析每一幀所屬的類別；以及后處理單元，對分類單元的分類結(jié)果進行后處理，得到最終的分段結(jié)果，其中，所述特征參數(shù)包括短時平均能量、子帶能量、過零率、Mel頻域倒語系數(shù)、△Mel頻域倒-潛系#t、^脊通量和基音頻率。在上述訓(xùn)練系統(tǒng)中，預(yù)處理單元包4舌特征提取部，對音頻流進行分幀和加窗，并提取經(jīng)過分幀和加窗得到的每一幀的特征參數(shù)。優(yōu)選地，在上述訓(xùn)練系統(tǒng)中，預(yù)處理單元還包括切分部，通過檢測低能量聲音和過零率，將音頻流粗略切分成多段，其中，特4正#是取部對經(jīng)過粗略切分得到的多萃爻音頻流進4于分幀和加窗，并提取每一幀的凈爭4i參凄t。在上述訓(xùn)練系統(tǒng)中，后處理單元包4舌第一后處理部，用5幀的窗長對哨聲進行均值濾波；第二后處理部，用25幀的窗長對除哨聲之外的聲音類別進行均值濾波；以及合并部，對音頻流中連續(xù)相鄰?fù)悇e的幀進行合并，得到最終的分段結(jié)果。在上述訓(xùn)練系統(tǒng)中，分類單元包括計算部，計算特征參數(shù)對每種類型音頻的概率，并根據(jù)預(yù)定的樣板判斷概率最大的所在類別是該幀所屬的類別。優(yōu)選地，在上述訓(xùn)練系統(tǒng)中，所豐#入音頻流包4舌體育比賽的音頻數(shù)據(jù)，該音頻數(shù)據(jù)包括主音頻數(shù)據(jù)和副音頻數(shù)據(jù)，其中，主音頻數(shù)據(jù)包括裁判哨聲、觀眾歡呼聲、解說員激動的解說聲和音樂，以及，副音頻數(shù)據(jù)包括靜音、環(huán)境噪音；其中，所述類別至少包括裁判哨聲、觀眾歡呼聲、解說員激動的解說聲和音樂。優(yōu)選地，在上述訓(xùn)練系統(tǒng)中，音樂包括廣告音樂、純音樂；裁判哨聲包括裁判員在出現(xiàn)犯規(guī)、進球、比賽開始、中場休息和比賽結(jié)束時吹的哨聲；觀眾歡呼聲包括出現(xiàn)精彩鏡頭時觀眾的響應(yīng)；以ii及，解說員激動的解說聲包括當(dāng)出現(xiàn)精彩鏡頭時解說員的激動解說。才艮據(jù)本發(fā)明第二方面的用SVM方法對音頻數(shù)據(jù)進行分析的分析方法，包括輸入步驟，用于輸入音頻流；預(yù)處理步驟，用于對音頻流進行預(yù)處理，得到音頻流的每一幀的特征參數(shù)；分類步驟，按照特征參數(shù)分析每一幀所屬的類別；以及后處理步驟，對分類步驟的分類結(jié)果進行后處理，得到最終的分段結(jié)果，其中，特征參數(shù)包括短時平均能量、子帶能量、過零率、Mel頻域倒譜系數(shù)、AMd頻域倒i普系凄t、i瞽通量和基音頻率。在上述訓(xùn)練方法中，預(yù)處理步驟包括特征提取步驟，對音頻流進行分幀和加窗，并提取經(jīng)過分幀和加窗得到的每一幀的特征參數(shù)。優(yōu)選地，在上述訓(xùn)練方法中，預(yù)處理步驟還包括切分步驟，通過4全測4氐能量聲音和過零率，將音頻流粗略切分成多IS:,其中，特征才是取步驟對經(jīng)過粗略切分得到的多^:音頻流進4亍分幀和加窗，并才是取每一幀的特4i參凄t。在上述訓(xùn)練方法中，后處理步驟包括第一后處理步驟，用5幀的窗長對哨聲進行均值濾波；第二后處理步驟，用25幀的窗長對除所述哨聲之外的聲音類別進行均值濾波；以及合并步驟，對音頻流中連續(xù)相鄰?fù)悇e的幀進行合并，得到最終的分段結(jié)果。在上述訓(xùn)練方法中，分類步驟包括計算步驟，計算特征參數(shù)對每種類型音頻的概率，并根據(jù)預(yù)定的樣板判斷概率最大的所在類別是該幀所屬的類別。優(yōu)選地，在上述訓(xùn)練方法中，所|#入音頻流包4舌體育比賽的音頻凄史據(jù)，所述音頻凄t據(jù)包括主音頻凄t據(jù)和副音頻凄t據(jù)，其中，主音頻數(shù)據(jù)包括裁判哨聲、觀眾歡呼聲、解說員激動的解說聲和音樂，以及，副音頻數(shù)據(jù)包括靜音、環(huán)境噪音；其中，所述類別至少包括裁判哨聲、觀眾歡呼聲、解說員激動的解說聲和音樂。優(yōu)選地，在上述訓(xùn)練方法中，音樂包括廣告音樂、純音樂；裁判哨聲包括裁判員在出現(xiàn)犯規(guī)、進球、比賽開始、中場休息和比賽結(jié)束時吹的哨聲；觀眾歡呼聲包括當(dāng)出現(xiàn)精彩鏡頭時觀眾的響應(yīng)；以及，解說員激動的解說聲包括當(dāng)出現(xiàn)精彩鏡頭時解說員的激動解說。根據(jù)本發(fā)明的分析裝置及方法，實現(xiàn)了精彩內(nèi)容的快速檢索，能夠節(jié)省觀眾的時間，滿足體育迷的觀看需求。附圖用來^是供對本發(fā)明的進一步理解，并且構(gòu)成^i明書的一部分，與本發(fā)明的實施例"T起用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的限制。在附圖中圖1A和圖1B是說明L范數(shù)譜通量的范數(shù)因子選擇的示意圖2是本發(fā)明的第一實施例的分析裝置200的結(jié)構(gòu)沖匡圖3是圖2中的預(yù)處理單元204的結(jié)構(gòu)^f匡圖4是包4舌切分部402和特征提取部404的預(yù)處理單元204的結(jié)構(gòu)框圖5是示出切分處理和分幀處理的示意圖；圖6是分類單元206的結(jié)構(gòu)框圖7是后處理單元208的結(jié)構(gòu)沖匡圖；以及圖8是本發(fā)明的第二實施例的分析方法的流程圖。具體實施例方式以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行說明，應(yīng)當(dāng)理解，此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明，并不用于限定本發(fā)明。下面，以足球比賽為例，首先描述用在本發(fā)明的分析裝置和方法中的分類器。在本發(fā)明的第一實施例中，針對足球比賽的特點，定義了五種音頻類型，包括裁判哨聲、觀眾歡呼聲、解說員激動的解說聲、音樂及其他，用來檢測足球比賽中的精彩內(nèi)容，例如進球得分和任意球等。所選擇的這五種類型有助于更好地分析與上述精彩內(nèi)容相關(guān)的音頻流，其中，裁判哨聲、觀眾歡呼聲和解說員;k動的解說聲是用來查找進球得分和任意球的線索。由于在實況轉(zhuǎn)播足球比賽中場休息的廣告時段中會有大量的音樂，因此，應(yīng)將這些廣告部分去除，從而縮短待分析的內(nèi)容。除此之外，足球比賽音頻流中存在很多其他的音頻現(xiàn)象，例如復(fù)雜的背景噪聲、多種類型的聲音重疊、靜音、解說員的正常解說等等，它們通常會占據(jù)待分析音頻流中的大量空間，對于上述兩類精彩內(nèi)容的檢測并沒有貢獻。因此，加入了"其他"這一音頻類型來更好;也描述音頻流。具體來說，音樂包括廣告音樂、純音樂；裁判哨聲包括裁判員在出現(xiàn)犯規(guī)、進球、比賽開始、中場休息和比賽結(jié)束時吹的哨聲；觀眾歡呼聲包括當(dāng)出現(xiàn)精彩鏡頭時觀眾的響應(yīng)；解說員激動的解說聲包括當(dāng)出現(xiàn)精彩鏡頭時解說員的激動解說；其他類型的音頻it據(jù)包括靜音、環(huán)境噪音、解說員正常的解說和其他樂器發(fā)出的聲響。為了獲得對于這五種音頻類型的高質(zhì)量的分類器，首先手動選出針對各種音頻類型的訓(xùn)練數(shù)據(jù)。由于在足球比賽的音頻流中，背景噪聲非常復(fù)雜，因此，音頻類型可通過比較各種類型的音頻成分的音量由占主導(dǎo)地位的音頻成分來確定。經(jīng)過訓(xùn)練數(shù)據(jù)選擇后，獲得70分鐘的訓(xùn)練數(shù)據(jù)。因為裁判哨聲的長度相對較短，通常在0.25秒到0.6秒的范圍內(nèi)變化，因此，分析窗長纟皮設(shè)定為200ms，幀移為60ms,以確保最短的哨聲也能夠被分成至少兩幀進行分析。具體來說，對訓(xùn)練數(shù)據(jù)進行分幀和加窗，使得幀長為200ms，幀移為60ms，然后對每幀數(shù)據(jù)提取34維特征參數(shù)。下面對上述特征參數(shù)進行詳細i兌明?！鳯-范數(shù)譜通量(L-normSpectralFlux)譜通量是由音頻數(shù)據(jù)測得的頻譜序列中各個頻帶之間的能量改變的量度。通常，鐠通量被定義為連續(xù)譜幀之間的歐氏距離(Euclideandistance)。其由式(1)表示如下=-Xt("-l)L=(;-義("—(i)其中，^(")表示第n幀《")第k個鐠單元(spectralbin)的值；hp是單元數(shù)相對于范數(shù)的序列；'是連續(xù)幀之間的第k個譜單元的差，P是范數(shù)因子。為了設(shè)定合適的參數(shù)p,針對如圖1A中的包括預(yù)先定義的五種音頻類型的短音頻凄t據(jù)計算具有5個不同值的i普通量。在圖IB中，該音頻數(shù)據(jù)具有7段，從左至右依次是哨聲、純音樂、帶語音的音樂、激動的解i兌聲、歡呼聲、靜音和解it聲。由圖1A可以看出，當(dāng)參凄tp為l時，"i普通量中無法明確i也表示出頻i普的改變。當(dāng)參ttp^皮i殳為2或3時，在一種音頻類型的中間的有些i普通量值會發(fā)生劇烈振動。而當(dāng)參數(shù)被設(shè)為4或5時，譜通量的值能夠較好地表示出變4匕邊界。在本實施例中，參凄tp被沒為4?！?豆時平均能量(Short-timeMeanEnergy)短時平均能量指的是在一個短時音頻窗口內(nèi)采樣點信號所聚集的平均能量。假定每個短時幀大小為N,^")為用Nyquist頻率采樣后的離散音頻信號。對于第m個短時幀，短時平均能量可以使用下面的式(2)計算&二yw")]2w"、"……(2)▲過零率(ZeroCrossingRate，ZCR)過零率指在一個時間段內(nèi)，采樣信號值由正到負(fù)和由負(fù)到正變4匕的次凄t，定義3。下1AM2^(3)過零率可以用來確定清音i吾聲(unvoicedspeech)。通常，清音信號能量比較低，過零率卻很高。因此，通過綜合過零率和音量特16征，可以防止一部分能量小的清音語聲被錯誤分類為靜音。過零率對于語音和音樂兩種不同音頻信號有^艮好的區(qū)分性?！纛l率(Pitch)基音頻率是語音、音樂分析和合成的一個重要參數(shù)。通常只有濁音才有明確的基音頻率(音調(diào))。但是，仍然可以用基音頻率來表示任何聲波的基本頻率。要從音頻信號中準(zhǔn)確可靠地提取基頻特征并不容易。根據(jù)準(zhǔn)確度和復(fù)雜度的不同要求，可以使用不同的基頻估計方法，包4舌自回歸4莫型(auto-regressivemodel)、平均量差函數(shù)(averagemagnitudedifferencefunction)、最大后驗概率方法等。本文采用的中央削波自相關(guān)法自相關(guān)方法?！鳰el步貞i或傳Ji普系凄史(Mel-FrequencyCepstralCoefficients,MFCC)前面所述的各種音頻特征主要是描述信號的時域特性，此外還有一些特征是描述信號頻域特性的，其中使用最廣泛的就是MFCC。MFCC最初是在語音識別研究中提出的，與LPC(線性預(yù)測系數(shù))相比，MFCC更符合人耳的聽覺特征，在有信道噪聲和頻譜失真的情況下，能產(chǎn)生更高的識別精度。通常要對幀內(nèi)信號進行預(yù)加重以提升高頻，對信號加窗以避免短時語音,殳邊纟彖的影響。預(yù)加重的定義式如下面的式(4)所示&=51,-ayw0.9《cr《1.0卩4)參數(shù)a通常取0.97。加窗的定義如下面的式(5)所示:《",一)......(5)其中w為窗函凄t，漢明(Hamming)窗函凄史是4交常用的一個，如下面的式(6)所示w(f)=0.54—0.46cos(~^~4,0《!SiV-1H……(6)然后對處理后的采樣信號進行快速傅里葉變換，得到這個音頻幀在每個頻率上的大小。如果音頻信號的采才羊率為16kHz,那么由采樣定理知，音頻幀的最大頻率為8kHz。也就是"i兌音頻幀在0到8kHz的頻帶上具有能量。為了表達人耳的感知特性，需要把一般頻率上的能量映射到更加符合人類聽覺的Mel頻:潛上，如下面的式(7)所示Me/(/)=2595log,。(1+1￡)Mel濾波是通過一組三角濾波器實現(xiàn)的，它們在Mel頻鐠上是等間隔的。為了更加有效地表示，還需要對能量系數(shù)取對數(shù)值，并進4亍離散余弦變才灸(DiscreteCosineTransform,DCT)，最后4尋到的系數(shù)就是MFCC特征。再加上1維能量共13維?！鳤MFCC(共13維)《=^^^-w...…(8)其中，^是差分階數(shù)，本實施例中取值為2，^6[1，0],c是上面求出的MFCC系凄t,t是當(dāng)前幀。18▲子帶能量(Sub-bandEnergy)在從OHz到19500Hz范圍內(nèi)，存在25個關(guān)4定頻帶。由于本實施例中分析的音頻以每秒16kHz的采樣率進行采樣，因此，在整個頻帶范圍內(nèi)有大約22個關(guān)考建頻帶。考慮到人耳的知覺特性，并且哨聲的頻譜分布在3700Hz以上，因此在本實施例中，將整個頻帶分成4個子帶。具體來i兌，這4個子帶的頻率范圍為0~510Hz,510Hz~1480Hz,1480Hz~3700Hz和3700Hz~8000Hz。各個子帶的能量按照下面的式(9)進行計算^……(9)五限其中，z'是第i個子帶的能量，z7/和仏分別是第i個子帶的上沿和下沿，K^是信號^)的FFT。在獲得了每一幀的音頻特征參數(shù)之后，使用SVM(SupportVectorMachine,支持向量才幾)方法來訓(xùn)練得到上述五種類型的音頻的分類器，其中，SVM方法采用的核函數(shù)是徑向基核函數(shù)(RadialBasisFunction,RBF)。具體來說，在進行模型訓(xùn)練之前，將得自所選數(shù)據(jù)的特征定標(biāo)(scale)為[-l,l]。然后，選擇RBF內(nèi)核將這些特征映射到較高維數(shù)空間中。其參數(shù)(C，"在回歸后被設(shè)為(8.0，2.0)。從而，得到了針對以上五種音頻類型的高質(zhì)量的分類器。在獲得了該分類器之后，即可利用該分類器進行音頻流數(shù)據(jù)的分析，包括音頻分類和分段。下面，描述根據(jù)本發(fā)明的實施例的分析裝置和分析方法。圖2是本發(fā)明第一實施例的用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置200的結(jié)構(gòu)框圖，如圖2所示，該分析裝置200包括輸入單元202,用于lt入音頻流；預(yù)處理單元204,用于對音頻流進行預(yù)處理，得到音頻流的每一幀的特征參數(shù)；分類單元206，按照特征參數(shù)分析每一幀所屬的類別；以及后處理單元208,對分類單元206的分類結(jié)果進行后處理，得到最終的分段結(jié)果，其中，所述特征參^t包括短時平均能量、子帶能量、過零率、Mel頻域倒i普系凄t、AMel頻i或倒i普系凄史、^普通量和基音頻率。圖3是上述預(yù)處理單元204的結(jié)構(gòu)沖匡圖，如圖3所示，預(yù)處理單元204包括特征提取部302,對輸入的音頻流進行分幀和加窗，使得幀長為200ms，幀移為60ms,然后對經(jīng)過分幀和加窗得到的每幀數(shù)據(jù)提取34維特征參數(shù)。即，每一幀的幀長與訓(xùn)練過程中相同，特征參數(shù)提取方法也與訓(xùn)練過程相同。具體來說，對于給出的體育比賽，首先提取出音頻流，并以每秒16kHz進行采樣。然后，對音頻流進行分幀，并以漢明窗函數(shù)(HammingWindow)進4亍加窗。每一幀的幀長與訓(xùn)練過禾呈中相同。使用與訓(xùn)練過程中相同的特征參數(shù)提取方法，提取出每一幀的相應(yīng)的特征參數(shù)，包括短時平均能量、過零率、子帶能量、基音頻率、鐠通量、MFCC和AMFCC—共34維特征參數(shù)。一般而言，由于整場足球比賽的長度為大約2小時，因此，首先應(yīng)該檢測出粗略的邊界，以進行結(jié)構(gòu)化切分。為了加快粗略切分的速度，僅考慮低能量聲音或者靜音。因此，選擇低能量聲音和過零率來4全測整個音頻流的分界點。該處理在時域中進行，并且，針對這兩個參凄t分別i殳定了兩個閾^直。經(jīng)過處理之后，音頻流將^皮切分成多段，各段的長度彼此之間各不相同。在各個音頻片段中，提取出每一幀的34維特征參數(shù)，并與訓(xùn)練過程一樣被定標(biāo)為[-l，l]。圖4示出了包括有通過檢測《氐能量聲音和過零率來將音頻流4且略切分成多^殳的切分部402的預(yù)處理單元204的結(jié)構(gòu)，其中，切分部402通過才企測〗氐能量聲音和過零率，將音頻流4:H略切分成多^:,然后，特征提取部404對經(jīng)過粗略切分得到的多段音頻流進行分幀和加窗，并提取每一幀的特征參數(shù)。圖5示出了切分部402對音頻流進行切分處理以及特征提取部404進行分幀處理的示意圖。圖6是分類單元206的結(jié)構(gòu)沖匡圖，包括計算部602，計算特征參數(shù)對每種類型音頻的概率，并根據(jù)訓(xùn)練獲得的預(yù)定樣板判斷概率最大的所在類別是該幀所屬的類別。在得到了分類結(jié)果之后，由于分析窗長僅為200ms，而且得到的分類結(jié)果對于進一步的分析來i兌太過瑣石爭，因此，優(yōu)選對得到的分類結(jié)果進行平滑和合并以進行良好的分段。在本發(fā)明的實施例中，采用了基于兩級均值濾波處理的后處理過程。其原因在于哨聲遠遠短于其他四種類型的音頻。如果只采用一種窗長的濾波處理，將發(fā)生兩種不利情況若窗長設(shè)定得4艮短，以確保不錯失哨聲的才僉測，那么其他類型的音頻將被切分成非常細小的片段；若窗長較長，有些較短的哨聲將被平滑掉，從而被錯誤地歸入其他的音頻類型。因此，哨聲和其他四種音頻類型應(yīng)當(dāng)分開來檢測，從而，在本發(fā)明的實施例中，提出了兩級均值濾波的后處理單元。圖7是后處理單元208的結(jié)構(gòu)框圖，在該后處理單元208中，第一后處理部702利用5幀的窗長對哨聲進行均值濾波；第二后處理部704利用25幀的窗長對除哨聲之外的聲音類別進4亍均值濾波；以及合并部706對音頻流中連續(xù)相鄰?fù)悇e的幀進行合并，得到最終的分段結(jié)果。21在經(jīng)過分類及后處理之后，整個音頻流:帔切分成多,殳，每一,史都具有一種音頻類型。圖8是本發(fā)明第二實施例的分析方法的流程圖，包括以下步驟輸入步驟S802，用于輸入音頻流；預(yù)處理步驟S804,用于對音頻流進行預(yù)處理，得到音頻流的每一幀的特4正參凄t;分類步驟S806,按照特征參數(shù)分析每一幀所屬的類別；以及后處理步驟S808，對分類步驟S806的分類結(jié)果進行后處理，得到最終的分段結(jié)果，其中，所述特征參數(shù)包括短時平均能量、子帶能量、過零率、Md頻域倒i普系凄t、AMel頻i或倒^普系凄t、i普通量和基音頻率。在圖8的流程圖中的預(yù)處理步驟S804中，包括特征提取步驟，對音頻流進行分幀和加窗，并提取經(jīng)過分幀和加窗得到的每一幀的特征參數(shù)。另外，預(yù)處理步驟S804還可包括切分步驟，通過檢測低能量聲音和過零率，將音頻流粗略切分成多段，然后，對經(jīng)過粗略切分得到的多,殳音頻流進行分幀和加窗，并提取每一幀的特征參數(shù)。在圖8的流程圖中的分類步驟S806中，包括計算步驟，計算特征參數(shù)對每種類型音頻的概率，并根據(jù)預(yù)定的樣板判斷概率最大的所在類別是該幀所屬的類別。此外，在圖8的流程圖中的后處理步駛AS808中，包括第一后處理步驟，用5幀的窗長對哨聲進行均值濾波；第二后處理步驟，用25幀的窗長對除哨聲之外的聲音類別進行均值濾波；以及合并步驟，對音頻流中連續(xù)相鄰?fù)悇e的幀進行合并，得到最終的分段結(jié)果。22利用本發(fā)明，對9個半場足球比賽進行了測試，其中總共有18個進J求得分和20個^f壬意^求。測試結(jié)果示于表1。表l:精彩事件;險測結(jié)果<table>tableseeoriginaldocumentpage23</column></row><table>其中，H表示"命中"；HR表示命中率，衡量的是被正確檢測出的事件所占百分比；PR表示正確率，指相對于所有檢出的事件來i兌正確纟會測事4牛的百分比。由該表可知，只利用視頻信息時，進球得分和任意球的命中率分別為88.9%和90%。而結(jié)合了音頻分類結(jié)果后，進球得分和任意球的命中率分別升至94.4%和95%。同時，進^求得分的準(zhǔn)確率從90%升至95%,任意球則從64.3%升至67.9%。因此，音頻分類顯著改善了精彩事件的^r測。在上述實施例中，本發(fā)明利用音頻數(shù)據(jù)對足球比賽進行分析，由于賽事中場休息、比賽開始之前或比賽結(jié)束以后會有廣告或者音樂等音頻，因此，本發(fā)明將足球比賽的音頻內(nèi)容分為五類音樂、裁判哨聲、觀眾歡呼聲、解說員激動的解說聲和其他類。結(jié)合分析音頻的特性，在音頻分析過程中，為每幀提取了34維音頻特征進4亍SVM^t型訓(xùn)練。在后處理過程中，首先采用中值濾波的方法進行平滑，接著再進行二級后處理第一級是用小窗長(5幀)對哨聲進行均值濾波；第二級是用大窗長(25幀)對其他類別進行均值濾波。得到91.8%的分類正確性，最終得到分段后的結(jié)果。從而實現(xiàn)了精彩內(nèi)容的快速檢索，節(jié)省了觀眾的時間，滿足了體育迷的觀看需求。應(yīng)該注意的是，以上所述僅為本發(fā)明應(yīng)用在足球比賽音頻分析的一個實施例，其特4正分析、分類和后處理都可以應(yīng)用于其他類別體育比賽音頻的分析。由于不同體育比賽的語音流中包含的聲學(xué)信號有各自的一些特點，在向其他體育類別進行擴展時，僅需要才艮據(jù)其音頻特征對該類體育音頻的類別進行重新定義，按照定義標(biāo)定訓(xùn)練語料，訓(xùn)練相應(yīng)的分類器，其對應(yīng)的特征分析、分類及后處理不變。以上所述〗又為本發(fā)明的優(yōu)選實施例，并不用以限制本發(fā)明。本發(fā)明還可有其他多種實施例，在不背離本發(fā)明精神及其實質(zhì)的情況變形，^f旦這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的4又利要求的保護范圍。權(quán)利要求1.一種用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置，其特征在于，包括輸入單元，用于輸入音頻流；預(yù)處理單元，用于對所述音頻流進行預(yù)處理，得到所述音頻流的每一幀的特征參數(shù)；分類單元，按照所述特征參數(shù)分析所述每一幀所屬的類別；以及后處理單元，對所述分類單元的分類結(jié)果進行后處理，得到最終的分段結(jié)果，其中，所述特征參數(shù)包括短時平均能量；子帶能量；過零率；Mel頻域倒譜系數(shù)；ΔMel頻域倒譜系數(shù)；譜通量；和基音頻率。2.根據(jù)權(quán)利要求1所述的分析裝置，其特征在于，所述預(yù)處理單元包括特征提取部，對所述音頻流進行分幀和加窗，并提取經(jīng)過分幀和加窗得到的每一幀的所述特征參數(shù)。3.根據(jù)權(quán)利要求2所述的分析裝置，其特征在于，所述預(yù)處理單元還包括切分部，通過4企測4氐能量聲音和過零率，將所述音頻流粗略切分成多段，其中所述特4正提取部對經(jīng)過4丑略切分得到的所述多,殳音頻流進4亍分幀和加窗，并4是取每一幀的所述特4i參數(shù)。4.根據(jù)權(quán)利要求1所述的分析裝置，其特征在于，所述后處理單元包括第一后處理部，用5幀的窗長對哨聲進行均值濾波；第二后處理部，用25幀的窗長只于除所述哨聲之外的聲音類別進4亍均4直濾波；以及合并部，對所述音頻流中連續(xù)相鄰?fù)悇e的幀進行合并，得到最終的分^:結(jié)果。5.根據(jù)權(quán)利要求1所述的分析裝置，其特征在于，所述分類單元包括計算部，計算所述特征參數(shù)對每種類型音頻的概率，并根據(jù)預(yù)定的樣板判斷概率最大的所在類別是該幀所屬的類別。6.根據(jù)權(quán)利要求5所述的分類裝置，其特征在于所述輸入音頻流包括體育比賽的音頻lt據(jù)，所述音頻H據(jù)包括主音頻數(shù)據(jù)和副音頻數(shù)據(jù)，其中所述主音頻數(shù)據(jù)包括裁判哨聲、觀眾歡呼聲、解i兌員激動的解"i兌聲和音樂，以及所述副音頻凄t據(jù)包括靜音、環(huán)境p喿音；其中，所述類別至少包括裁判哨聲、觀眾歡呼聲、解說員激動的解"^兌聲和音樂。7.根據(jù)權(quán)利要求6所述的分類裝置，其特征在于所述音樂包括廣告音樂、純音樂；所述裁判哨聲包括裁判員在出現(xiàn)犯規(guī)、進球、比賽開始、中場〗木息和比賽結(jié)束時吹的哨聲；所述觀眾歡呼聲包括出現(xiàn)精彩鏡頭時觀眾的響應(yīng)；以及所述解說員激動的解說聲包括當(dāng)出現(xiàn)精彩鏡頭時解說員的激動解說。8.—種用SVM方法對音頻凄t據(jù)進4于分4斤的分神斤方法，其特4正在于，包括豐俞入步驟，用于^r入音頻流；預(yù)處理步驟，用于對所述音頻流進行預(yù)處理，得到所述音頻流的每一幀的特征參數(shù)；分類步驟，按照所述特征參數(shù)分析所述每一幀所屬的類另U;以及后處理步驟，對所述分類步驟的分類結(jié)果進行后處理，得到最終的分段結(jié)果，其中，所述特征參數(shù)包括短時平均能量；子帶能量；過零率；Mel頻i或倒-潛系凄史；AMel頻i或倒_潛系#t;語通量；和基音頻率。9.根據(jù)權(quán)利要求8所述的分析方法，其特征在于，所述預(yù)處理步驟包括特;正提取步^:，對所述音頻流進4于分幀和加窗，并提取經(jīng)過分幀和加窗得到的每一幀的所述特^正參凄t。10.根據(jù)權(quán)利要求9所述的分析方法，其特征在于，所述預(yù)處理步驟還包括切分步驟，通過檢測低能量聲音和過零率，將所述音頻流粗略切分成多段，其中所述特征提取步驟對經(jīng)過粗略切分得到的所述多^殳音頻流進行分幀和加窗，并提取每一幀的所述特征參數(shù)。11.根據(jù)權(quán)利要求8所述的分析方法，其特征在于，所述后處理步驟包括第一后處理步驟，用5幀的窗長對哨聲進行均值濾波；第二后處理步驟，用25幀的窗長對除所述哨聲之外的聲音類別進行均值濾波；以及合并步驟，對所述音頻流中連續(xù)相鄰?fù)悇e的幀進行合并，得到最終的分段結(jié)果。12.根據(jù)權(quán)利要求8所述的分析方法，其特征在于，所述分類步驟包括計算步驟，計算所述特征參數(shù)對每種類型音頻的概率，并根據(jù)預(yù)定的樣板判斷概率最大的所在類別是該幀所屬的類另'J。13.才艮據(jù)4又利要求12所述的分類方法，其特征在于所述輸入音頻流包括體育比賽的音頻據(jù)，所述音頻凄史據(jù)包4舌主音頻凄t據(jù)和副音頻凝:據(jù)，其中所述主音頻數(shù)據(jù)包括裁判哨聲、觀眾歡呼聲、解說員激動的解i兌聲和音樂，以及所述副音頻凄t據(jù)包括靜音、環(huán)境p朵音；其中，所述類別至少包括裁判哨聲、7見眾歡呼聲、解i兌員激動的解說聲和音樂。14.根據(jù)權(quán)利要求13所述的分類方法，其特征在于所述音樂包:^舌廣告音樂、純音樂；所述裁判哨聲包括裁判員在出現(xiàn)犯規(guī)、進球、比賽開始、中場休息和比賽結(jié)束時吹的哨聲；所述觀眾歡呼聲包括當(dāng)出現(xiàn)精彩鏡頭時觀眾的響應(yīng)；以及所述解說員激動的解說聲包括當(dāng)出現(xiàn)精彩鏡頭時解說員的激動解說。全文摘要本發(fā)明提供了一種用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置，其特征在于，包括輸入單元，用于輸入音頻流；預(yù)處理單元，用于對所述音頻流進行預(yù)處理，得到所述音頻流的每一幀的特征參數(shù)；分類單元，按照所述特征參數(shù)分析所述每一幀所屬的類別；以及后處理單元，對所述分類單元的分類結(jié)果進行后處理，得到最終的分段結(jié)果，其中，所述特征參數(shù)包括短時平均能量、子帶能量、過零率、Mel頻域倒譜系數(shù)、ΔMel頻域倒譜系數(shù)、譜通量和基音頻率。根據(jù)本發(fā)明，實現(xiàn)了精彩內(nèi)容的快速檢索，能夠節(jié)省觀眾的時間，滿足觀眾的觀看需求。文檔編號G06F17/30GK101685446SQ20081016140公開日2010年3月31日申請日期2008年9月25日優(yōu)先權(quán)日2008年9月25日發(fā)明者昆劉,吳偉國申請人:索尼(中國)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉昆;吳偉國
技術(shù)所有人：索尼（中國）有限公司
我是此專利的發(fā)明人

上一篇：應(yīng)用路徑信息改進結(jié)構(gòu)化文檔的翻譯的方法和系統(tǒng)的制作方法
上一篇：記憶裝置及其操作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

音頻數(shù)據(jù)分析相關(guān)技術(shù)

重新裝載音頻裝置相關(guān)技術(shù)

不停重新裝載音頻裝置相關(guān)技術(shù)

重新加載音頻裝置相關(guān)技術(shù)

音頻裝置相關(guān)技術(shù)

音頻遙控裝置相關(guān)技術(shù)

數(shù)據(jù)分析方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音頻數(shù)據(jù)分析裝置和方法