專利名稱:音頻事件檢測(cè)方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻事件檢測(cè)方法和裝置,特別涉及基于長(zhǎng)時(shí)特征的音頻事件檢測(cè)方法和裝置。
背景技術(shù):
當(dāng)今世界正處在信息爆炸的時(shí)代,信息正在以指數(shù)級(jí)的速度增長(zhǎng)。多媒體技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,使得對(duì)海量多媒體數(shù)據(jù)進(jìn)行自動(dòng)分析處理的必要性大大提高。然而,視頻分析運(yùn)算量大,消耗資源較多,因此多媒體數(shù)據(jù)的音頻分析有著更大的優(yōu)勢(shì)。一般來說,諸如體育比賽之類的視頻時(shí)間比較長(zhǎng),而往往廣大體育愛好者真正關(guān)心的內(nèi)容通常只占居整個(gè)內(nèi)容的很小一部分。如果需要從中找到自己關(guān)注的內(nèi)容,往往需要用戶從頭至尾遍歷一遍之后才能找到所需內(nèi)容,這樣既費(fèi)時(shí)又費(fèi)力。另一方面,越來越多的體育視頻,使得人們對(duì)體育視頻的有效檢索和管理的要求也越來越迫切。因此,如果能夠有這樣一個(gè)體育內(nèi)容檢索系統(tǒng),可以幫助用戶檢索一些真正關(guān)心的內(nèi)容,就可以大大節(jié)約時(shí)間。特別地,對(duì)體育節(jié)目的自動(dòng)音頻分析,近年來受到越來越多研究者的青睞。針對(duì)體育比賽來說,通過對(duì)喝彩聲、鼓掌聲、歡呼聲、笑聲之類的音頻事件的提取,來在體育比賽視頻中提取精彩場(chǎng)景,使得用戶能夠更便捷的找到自己感興趣的片段。對(duì)音頻事件的提取有以下幾個(gè)難點(diǎn)首先,在體育比賽中,音頻事件往往不是孤立出現(xiàn),而是同時(shí)伴隨著主持人的講話聲以及其他聲音,這就使得對(duì)音頻事件的建模產(chǎn)生一定困難;其次,在體育比賽中,音頻事件的頻譜特點(diǎn)往往和環(huán)境噪聲非常相似,導(dǎo)致在檢索過程中產(chǎn)生較多的虛警,從而精度偏低。Hermansky, H.在文 章"Perceptual linear predictive (PLP) analysis of speech,,(Journal of the Acoustical Society of America,87 :1738,1990)中,通過兩個(gè)階段進(jìn)行處理。在第一階段,對(duì)有人工標(biāo)注的多媒體數(shù)據(jù)利用語義標(biāo)簽進(jìn)行相關(guān)音頻尋找,而在第二階段,基于語義標(biāo)簽的音頻查詢結(jié)果在線訓(xùn)練該類音樂特征,并利用于音頻內(nèi)容的查詢。從以上文獻(xiàn)可以看出,現(xiàn)有技術(shù)僅對(duì)某一兩種體育比賽內(nèi)容的特定內(nèi)容進(jìn)行分析和檢測(cè),這些技術(shù)針對(duì)性強(qiáng),不能很好的擴(kuò)展到其他類別的提取比賽的內(nèi)容檢測(cè)中去。而隨著體育比賽種類的日益增加,消費(fèi)者越來越不可能有足夠的時(shí)間將整場(chǎng)比賽從頭至尾的觀看一邊了,因此,如何能夠提供一套自動(dòng)的體育比賽的內(nèi)容檢測(cè)系統(tǒng),從而幫助用戶快速方便的檢測(cè)出自己關(guān)注的內(nèi)容是目前廣大體育愛好者們迫切關(guān)注的問題。由于目前圖像分析技術(shù)對(duì)于僅止于場(chǎng)景分析,對(duì)于圖像內(nèi)容的理解沒有很好的研究,因此,本發(fā)明側(cè)重于采用語音信號(hào)處理技術(shù),對(duì)體育比賽內(nèi)容進(jìn)行理解和分析,幫助體育愛好者們提取一些感興趣的事件和信息,比如類別進(jìn)行檢測(cè)比賽,檢測(cè)精彩事件,檢測(cè)關(guān)鍵人名和隊(duì)名等,檢測(cè)比賽不同場(chǎng)次的開始和結(jié)束時(shí)間點(diǎn)等等。
發(fā)明內(nèi)容
有鑒于此,發(fā)明公開了一種魯棒的高性能的音頻事件檢測(cè)方法和裝置,其中的音頻事件包括鼓掌聲、歡呼聲、笑聲。該方法考慮到了時(shí)域上特征的連續(xù)性,結(jié)合了基于段的長(zhǎng)時(shí)特征進(jìn)行檢測(cè),使得檢測(cè)的性能得到大幅度的提升。根據(jù)本發(fā)明的一方面,本發(fā)明提供基于長(zhǎng)時(shí)特性的音頻事件檢測(cè)方法,所述方法包括如下步驟將輸入音頻流分成一系列的小段;對(duì)每個(gè)段提取短時(shí)和長(zhǎng)時(shí)特征;并且根據(jù)所提取的短時(shí)和長(zhǎng)時(shí)特征,得到關(guān)于音頻流的分類結(jié)果。根據(jù)本發(fā)明的該方面,所述音頻事件檢測(cè)方法還包括步驟經(jīng)過平滑處理得到事件檢測(cè)結(jié)果。 根據(jù)本發(fā)明的該方面,在所述音頻事件檢測(cè)方法中,在提取短時(shí)和長(zhǎng)時(shí)特征之后, 采用降維算法對(duì)MSV (Mean Super Vector)特征矢量進(jìn)行降維,以去除特征的冗余信息。根據(jù)本發(fā)明的該方面,在所述音頻事件檢測(cè)方法中,所述短時(shí)和長(zhǎng)時(shí)特征是基于段和基于幀之一的。根據(jù)本發(fā)明的該方面,在所述音頻事件檢測(cè)方法中,所述分類結(jié)果通過支持向量機(jī)分類器來進(jìn)行。根據(jù)本發(fā)明的該方面,在所述音頻事件檢測(cè)方法中,基于幀的短時(shí)特征至少包括以下特征之一 PLP、LPCC, LFCC, Pitch、短時(shí)能量、子帶能量分布、亮度和帶寬。根據(jù)本發(fā)明的該方面,在所述音頻事件檢測(cè)方法中,基于段的長(zhǎng)時(shí)特征至少包括以下特征之一譜通量、長(zhǎng)時(shí)平均譜和LPC熵。根據(jù)本發(fā)明的該方面,在所述音頻事件檢測(cè)方法中,在平滑處理中所使用的平滑規(guī)則如下(l)if{s(n) == 1 and s(n+l) ! = 1 and s (n+2) == ljthens (n+1) = 1(2)if {s(n) == 1 and s(n_l) ! = 1 and s(n+l) ! = ljthens (η) = s(n-l)根據(jù)本發(fā)明的另一方面,本發(fā)明提供基于長(zhǎng)時(shí)特性的音頻事件檢測(cè)裝置,所述裝置包括音頻流分段部分,用于將輸入音頻流分成一系列的小段;特征提取部分,用于對(duì)每個(gè)段提取短時(shí)和長(zhǎng)時(shí)特征;并且分類部分,用于根據(jù)所提取的短時(shí)和長(zhǎng)時(shí)特征,得到關(guān)于音頻流的分類結(jié)果。根據(jù)本發(fā)明的再一方面,本發(fā)明提供用于在計(jì)算機(jī)上實(shí)現(xiàn)基于長(zhǎng)時(shí)特性的音頻事件檢測(cè)方法的計(jì)算機(jī)產(chǎn)品,所述方法包括如下步驟將輸入音頻流分成一系列的小段;對(duì)每個(gè)段提取短時(shí)和長(zhǎng)時(shí)特征;并且根據(jù)所提取的短時(shí)和長(zhǎng)時(shí)特征,得到關(guān)于音頻流的分類結(jié)果。總之,本發(fā)明通過將音頻流分成一系列的小段,采用對(duì)該段特征矢量求均值(得到MSV,Mean Super Vector)并進(jìn)行降維的方法對(duì)每個(gè)段提取短時(shí)和長(zhǎng)時(shí)特征,利用 SVM(支持向量機(jī)分類器)得到最終的分類結(jié)果,并且經(jīng)過平滑得到最終的事件檢測(cè)結(jié)果。 實(shí)驗(yàn)結(jié)果顯示,在一般電視節(jié)目中,事件檢測(cè)的結(jié)果可以達(dá)到86 %的F值。
本發(fā)明的上述目的、有益技術(shù)效果等可以通過結(jié)合以下附圖的描述變得更清楚, 在這些附圖中,
圖1示出了根據(jù)本發(fā)明的實(shí)施例的、基于長(zhǎng)時(shí)特征的音頻事件檢測(cè)方法的一個(gè)實(shí)例的流程圖;圖2是示出LFCC和LFCC中使用濾波器組的實(shí)例的曲線圖,其中圖2A是圖示用于 LFCC的多尺度濾波器組的一個(gè)實(shí)例的曲線圖,而圖2B是圖示用于LFCC的線性濾波器組的一個(gè)實(shí)例的曲線圖;圖3示出了根據(jù)本發(fā)明的實(shí)施例的、基于長(zhǎng)時(shí)特征的音頻事件檢測(cè)方法的另一個(gè)實(shí)例的流程圖;圖4示出了根據(jù)本發(fā)明的實(shí)施例的、基于長(zhǎng)時(shí)特征的音頻事件檢測(cè)裝置的一個(gè)實(shí)例的方塊圖;圖5是示出根據(jù)本發(fā)明的特征提取部分的詳細(xì)結(jié)構(gòu)的方塊圖;圖6示出了基于長(zhǎng)時(shí)特征的音頻事件檢測(cè)裝置的另一個(gè)實(shí)例的流程圖;圖7是示出了采用LDA,PCA, ICA三種不同降維算法的降維結(jié)果的圖表;以及圖8是示出了用LDA將PLP、LPCC、LFCC以及它們各自的一階、二階差分進(jìn)行降維后的特征檢測(cè)性能以及降維后的特征+其他段特征的檢測(cè)性能的圖表。
具體實(shí)施例方式下面參考附圖詳細(xì)描述本發(fā)明的、基于長(zhǎng)時(shí)特征的音頻事件檢測(cè)方法和裝置。圖1示出了根據(jù)本發(fā)明的實(shí)施例的、基于長(zhǎng)時(shí)特征的音頻事件檢測(cè)方法的一個(gè)實(shí)例的流程圖。參考圖1,基于長(zhǎng)時(shí)特征的音頻事件檢測(cè)方法包括音頻流分段步驟S110,在該步驟SllO中,將要處理的音頻流分成一系列的小段,以便于提取每個(gè)段的短時(shí)和長(zhǎng)時(shí)特征。這里,為了對(duì)輸入語音信號(hào)進(jìn)行分段,可以采用滑動(dòng)窗將語音信號(hào)分成一系列的語音窗,每個(gè)語音窗對(duì)應(yīng)于一個(gè)小段。從而達(dá)到分段的目的?;陂L(zhǎng)時(shí)特征的音頻事件檢測(cè)方法還包括音頻流長(zhǎng)時(shí)特征提取步驟S120,在步驟 S120中,對(duì)每個(gè)段提取短時(shí)和長(zhǎng)時(shí)特征。根據(jù)本發(fā)明的一個(gè)實(shí)施例,對(duì)于每個(gè)子段,可以對(duì)其每個(gè)段特征矢量提取出基于幀和基于段的兩種特征,即,幀特征和段特征。這里,基于幀的特征(幀特征)可以包括PLP (Perceptual Linear Predictive Coefficients,知覺線性預(yù)測(cè)系數(shù))、LPCC (Linear Predictive Cepstrum Coefficients, 線性預(yù)測(cè)倒譜系數(shù))、LFCC (Linear Frequency cepstral coefficients)、Pitch、短時(shí)能量 (Short-time energy, STE)、子帶能量分布(Sub-band energy distribution, SBED)、亮度和帶寬(Brightness and bandwidth,BR和BW),也可以是這些特征的一部分。而基于段的特征(段特征)可以包括譜通量(Spectrum Flux, SF)、長(zhǎng)時(shí)平均譜(long-term average spectrum, LTAS)和LPC熵(LPC entropy),或者是這些特征的一部分。具體來說,PLP特征從等響曲線、強(qiáng)度能量定理、臨界頻譜分析等三個(gè)聽覺心理方面來進(jìn)行語音分析的技術(shù),具體算法參考Hynek Hermansky perceptual Linear Predictive (PLP) analysis of speech, J. Acoust. Soc. Am. 87 (4), April 1990。LPCC是基于聲道的特征參數(shù),而LFCC是考慮到人耳聽覺特性的參數(shù)特征,具體計(jì)算方法參考余建潮、 張瑞林基于LFCC和LPCC的說話人識(shí)別,計(jì)算機(jī)工程與設(shè)計(jì),2009,30 (5)。LFCC和LFCC的差異是LFCC中考慮到人耳的感知特性,需要把一般頻率上的能量映射到更加符合人類聽覺的Mel頻譜上,而LFCC不是映射到Mel頻譜上,而是在一般頻域上將頻率用一系列線性三角窗進(jìn)行處理。圖2是示出LFCC和LFCC中使用濾波器組的實(shí)例的曲線圖,其中圖2A是圖示用于 LFCC的多尺度濾波器組的ー個(gè)實(shí)例的曲線圖,而圖2B是圖示用于LFCC的線性濾波器組的 一個(gè)實(shí)例的曲線圖。圖2中橫坐標(biāo)表示頻率,縱坐標(biāo)表示三角濾波器的幅值。Pitch是語 音、音樂分析和合成的ー個(gè)重要參數(shù)。通常只有濁音才有明確的音調(diào)。但是,我們?nèi)匀豢?以用基音頻率來表示任何聲波的基本頻率。要從音頻信號(hào)中準(zhǔn)確可靠的提取基頻特征并 不容易。根據(jù)準(zhǔn)確度和復(fù)雜度的不同要求,可以使用不同的基頻估計(jì)方法,包括自回歸模型 (auto-regressive model),平均星差函敘、average magnitude difference function),最 大后驗(yàn)概率方法等。本文采用的自相關(guān)方法。利用公式(1)提取1維的短時(shí)能量,該短時(shí)能量描述了ー幀總共的頻譜能量。
權(quán)利要求
1.一種基于長(zhǎng)時(shí)特性的音頻事件檢測(cè)方法,所述方法包括如下步驟將輸入音頻流分成一系列的小段;對(duì)每個(gè)段提取短時(shí)和長(zhǎng)時(shí)特征;并且根據(jù)所提取的短時(shí)和長(zhǎng)時(shí)特征,得到關(guān)于音頻流的分類結(jié)果。
2.如權(quán)利要求1所述的音頻事件檢測(cè)方法,還包括步驟經(jīng)過平滑處理得到事件檢測(cè)結(jié)果。
3.如權(quán)利要求1所述的音頻事件檢測(cè)方法,其中,在提取短時(shí)和長(zhǎng)時(shí)特征之后,采用降維算法對(duì)MSV(Mean Super Vector)特征矢量進(jìn)行降維,以去除特征的冗余信息。
4.如權(quán)利要求1所述的音頻事件檢測(cè)方法,其中,所述短時(shí)和長(zhǎng)時(shí)特征是基于段和基于幀之一的。
5.如權(quán)利要求1所述的音頻事件檢測(cè)方法,其中,所述分類結(jié)果通過支持向量機(jī)分類器來進(jìn)行。
6.如權(quán)利要求4所述的音頻事件檢測(cè)方法,其中,基于幀的短時(shí)特征至少包括以下特征之一 PLP、LPCC、LFCC、Pitch、短時(shí)能量、子帶能量分布、亮度和帶寬。
7.如權(quán)利要求4所述的音頻事件檢測(cè)方法,其中,基于段的長(zhǎng)時(shí)特征至少包括以下特征之一譜通量、長(zhǎng)時(shí)平均譜和LPC熵。
8.如權(quán)利要求2所述的音頻事件檢測(cè)方法,其中,在平滑處理中所使用的平滑規(guī)則如下(1)if{s(n)== 1 and s(n+l) ! = 1 and s (n+2) == ljthens (n+1) = 1(2)if{s(n) == 1 and s(n-l) ! = 1 and s(n+l) ! = ljthens (η) = s(n-l)
9.一種基于長(zhǎng)時(shí)特性的音頻事件檢測(cè)裝置,所述裝置包括音頻流分段部分,用于將輸入音頻流分成一系列的小段;特征提取部分,用于對(duì)每個(gè)段提取短時(shí)和長(zhǎng)時(shí)特征;并且分類部分,用于根據(jù)所提取的短時(shí)和長(zhǎng)時(shí)特征,得到關(guān)于音頻流的分類結(jié)果。
10.如權(quán)利要求9所述的音頻事件檢測(cè)裝置,還包括平滑部分,用于經(jīng)過平滑處理得到事件檢測(cè)結(jié)果。
11.如權(quán)利要求9所述的音頻事件檢測(cè)裝置,其中,在提取短時(shí)和長(zhǎng)時(shí)特征之后,采用降維算法對(duì)MSV特征矢量進(jìn)行降維,以去除特征的冗余信息。
12.如權(quán)利要求9所述的音頻事件檢測(cè)裝置,其中,所述短時(shí)和長(zhǎng)時(shí)特征是基于段和基于幀之一的。
13.如權(quán)利要求9所述的音頻事件檢測(cè)裝置,其中,所述分類結(jié)果通過支持向量機(jī)分類器來進(jìn)行。
14.如權(quán)利要求12所述的音頻事件檢測(cè)裝置,其中,基于幀的短時(shí)特征至少包括以下特征之一 PLP、LPCC、LFCC、Pitch、短時(shí)能量、子帶能量分布、亮度和帶寬。
15.如權(quán)利要求12所述的音頻事件檢測(cè)裝置,其中,基于段的長(zhǎng)時(shí)特征至少包括以下特征之一譜通量、長(zhǎng)時(shí)平均譜和LPC熵。
16.如權(quán)利要求10所述的音頻事件檢測(cè)裝置,其中,平滑部分的平滑處理中所使用的平滑規(guī)則如下(l)if{s(n) == 1 and s(n+l) ! = 1 and s (n+2) == ljthens (n+1) = 1(2)if{s(n) == 1 and s(n-l) ! = 1 and s(n+l) ! = ljthens (η) = s(n-l)
17. 一種用于在計(jì)算機(jī)上實(shí)現(xiàn)基于長(zhǎng)時(shí)特性的音頻事件檢測(cè)方法的計(jì)算機(jī)產(chǎn)品,所述方法包括如下步驟將輸入音頻流分成一系列的小段; 對(duì)每個(gè)段提取短時(shí)和長(zhǎng)時(shí)特征;并且根據(jù)所提取的短時(shí)和長(zhǎng)時(shí)特征,得到關(guān)于音頻流的分類結(jié)果。
全文摘要
基于長(zhǎng)時(shí)特性的音頻事件檢測(cè)裝置和方法。所述方法包括如下步驟將輸入音頻流分成一系列的小段;對(duì)每個(gè)段提取短時(shí)和長(zhǎng)時(shí)特征;并且根據(jù)所提取的短時(shí)和長(zhǎng)時(shí)特征,得到關(guān)于音頻流的分類結(jié)果。
文檔編號(hào)G10L11/00GK102486920SQ201010590438
公開日2012年6月6日 申請(qǐng)日期2010年12月6日 優(yōu)先權(quán)日2010年12月6日
發(fā)明者劉昆, 盧鯉, 吳偉國(guó), 趙慶衛(wèi) 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所, 索尼公司