一種識別音頻中人聲的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種識別音頻中人聲的方法及裝置,所述方法包括:對音頻數(shù)據(jù)進行分幀處理;使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征,所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度;根據(jù)所述音頻特征形成P+3階特征向量;使用支持向量機(SVM)算法對所述特征向量進行訓(xùn)練得到相應(yīng)的支持向量機;根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲。本發(fā)明可以實現(xiàn)音頻中人聲的高精度高置信度的識別,為歌曲內(nèi)容分析提供基礎(chǔ)性服務(wù),從而進一步的實現(xiàn)歌詞同步、歌曲分類、歌曲推薦等功能。
【專利說明】一種識別音頻中人聲的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及多媒體信息領(lǐng)域,具體涉及音頻信號分析領(lǐng)域,尤其涉及一種識別音頻中人聲的方法及裝置。
【背景技術(shù)】
[0002]隨著多媒體技術(shù)不斷的發(fā)展,音視頻信息在人們的工作、文體和娛樂生活中的作用越來越重。例如,互聯(lián)網(wǎng)上各大音樂網(wǎng)站對歌曲進行分類或者推薦歌曲,使每個用戶能盡快的搜索到歌曲或者給用戶推薦好的歌曲。
[0003]當前各大音樂網(wǎng)站其歌曲分類及推薦等工作多是基于文本分析和用戶行為協(xié)同濾波,尚未見有深入到音頻內(nèi)容分析技術(shù)的應(yīng)用。音頻內(nèi)容分析技術(shù)根據(jù)提取的音頻特征對音頻進行分類,使用戶能更準確地檢索到所需的音頻,還能實現(xiàn)對實時音頻數(shù)據(jù)的檢索。歌曲音頻中一般包括伴奏部分和人聲部分,能準確檢測出音頻中人聲部分的位置是音頻內(nèi)容分析領(lǐng)域內(nèi)一項基礎(chǔ)性工作,但卻難度大、有挑戰(zhàn)性。現(xiàn)有技術(shù)有一些歌曲中人聲檢測的研究,但精度不高,且準確率較低。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種識別音頻中人聲的方法及裝置,通過提取有效的音頻特征即短時過零率、P階LPC預(yù)測系數(shù)以及LPC預(yù)測殘差幅度譜得偏度和峰度形成特征向量,并使用機器學習的方式來識別音頻中人聲,解決人聲識別研究中精度低準確率低的問題,實現(xiàn)音頻中人聲的高精度高置信度的識別。
[0005]第一方面,本發(fā)明實施例提供了一種識別音頻中人聲的方法,所述方法包括:
[0006]對音頻數(shù)據(jù)進行分幀處理;
[0007]使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征,所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度;
[0008]根據(jù)所述音頻特征形成P+3階特征向量;
[0009]使用支持向量機(SVM)算法對所述特征向量進行訓(xùn)練得到相應(yīng)的支持向量機;
[0010]根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲。
[0011]第二方面,本發(fā)明實施例還提供一種識別音頻中人聲的裝置,其特征在于,所述裝置包括:分幀處理模塊、音頻特征提取模塊、特征向量模塊、支持向量機訓(xùn)練模塊和識別模塊,
[0012]其中,分幀處理模塊,用于對音頻數(shù)據(jù)進行分幀處理;
[0013]音頻特征提取模塊,用于使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征,所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度;
[0014]特征向量模塊,用于根據(jù)所述音頻特征形成P+3階特征向量;[0015]支持向量機訓(xùn)練模塊,用于使用支持向量機(SVM)算法對所述特征向量進行訓(xùn)練得到相應(yīng)的支持向量機;
[0016]識別模塊,用于根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲。
[0017]本發(fā)明通過提取有效的音頻特征即短時過零率、P階LPC預(yù)測系數(shù)以及LPC預(yù)測殘差幅度譜得偏度和峰度形成特征向量,并使用機器學習的方式來識別音頻中人聲,實現(xiàn)音頻中人聲的高精度高置信度的識別,為歌曲內(nèi)容分析提供基礎(chǔ)性服務(wù),從而進一步的實現(xiàn)歌詞同步、歌曲分類、歌曲推薦等功能。
【專利附圖】
【附圖說明】
[0018]圖1是本發(fā)明第一實施例中的識別音頻中人聲的方法的流程圖。
[0019]圖2是本發(fā)明第一實施例中的步驟101的細分流程圖。
[0020]圖3是本發(fā)明第一實施例中的步驟IO 2的細分流程圖。
[0021]圖4是本發(fā)明第二實施例中的識別音頻中人聲的裝置的結(jié)構(gòu)圖。
【具體實施方式】
[0022]下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0023]在圖1中示出了本發(fā)明的第一實施例。
[0024]圖1是本發(fā)明第一實施例中的識別音頻中人聲的方法,該實現(xiàn)流程100詳述如下:
[0025]在步驟101中,對音頻數(shù)據(jù)進行分幀處理。
[0026]步驟101 (如圖2所示)具體包括:
[0027]步驟1011、檢測音頻是否為雙聲道或多聲道。
[0028]在本實施例中,輸入的音頻可以為單聲道、雙聲道或多聲道,如果檢測到音頻是雙聲道或多聲道,可以提取音頻的左聲道或者將所有聲道融合到一起再進行分幀處理;如果檢測到音頻是單聲道,則直接對音頻采樣數(shù)據(jù)序列按照預(yù)設(shè)幀長進行分幀處理。
[0029]步驟1012、當音頻是雙聲道或多聲道時,融合所有聲道為一個聲道提取音頻數(shù)據(jù)。
[0030]步驟1013、將所述音頻數(shù)據(jù)中的音頻采樣數(shù)據(jù)序列按照預(yù)設(shè)幀長進行分幀處理,將所述音頻采樣數(shù)據(jù)序列劃分為一個音頻數(shù)據(jù)幀序列。
[0031]在本實施例中,將音頻數(shù)據(jù)中的音頻采樣數(shù)據(jù)序列按照預(yù)設(shè)的幀長進行分幀處理。由于音頻信號從整體來看其特性及表征其本質(zhì)特征的參數(shù)均是隨時間而變化的,所以不能用處理平穩(wěn)信號的數(shù)字信號處理技術(shù)進行分析處理。雖然音頻信號具有時變特性,但是在一個短時間范圍內(nèi)(一般認為在10?30ms的短時間內(nèi)),其特性基本保持不變即相對穩(wěn)定,因而可以將其看做一個準穩(wěn)態(tài)過程,即進行“短時分析”,將音頻信號分成一幀一幀的來分析其特征參數(shù)。
[0032]在步驟102中,使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征,所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度。[0033]步驟102 (如圖3所示)具體包括:
[0034]步驟1021、分別對每一幀音頻數(shù)據(jù)提取該幀音頻數(shù)據(jù)的短時過零率,所述短時過零率是在該幀中的音頻信號穿過零電平的次數(shù)。
[0035]在本實施例中,短時過零率表示一幀音頻中音頻信號穿過零電平的次數(shù)。它可以區(qū)分清音和濁音,因為音頻信號中的高頻段過零率較高,低頻段過零率較低。短時過零率根據(jù)以下公式計算:
【權(quán)利要求】
1.一種識別音頻中人聲的方法,其特征在于,所述方法包括: 對音頻數(shù)據(jù)進行分幀處理; 使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征,所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度; 根據(jù)所述音頻特征形成P+3階特征向量; 使用支持向量機(SVM)算法對所述特征向量進行訓(xùn)練得到相應(yīng)的支持向量機; 根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲。
2.根據(jù)權(quán)利要求1所述的識別音頻中人聲的方法,其特征在于,所述對音頻數(shù)據(jù)進行分中貞處理包括: 檢測音頻是否為雙聲道或多聲道; 當音頻是雙聲道或多聲道時,融合所有聲道為一個聲道提取音頻數(shù)據(jù); 將所述音頻數(shù)據(jù)中的音頻采樣數(shù)據(jù)序列按照預(yù)設(shè)幀長進行分幀處理,將所述音頻采樣數(shù)據(jù)序列劃分為一個音頻數(shù)據(jù)幀序列。
3.根據(jù)權(quán)利要求1所述的識別音頻中人聲的方法,其特征在于,所述階數(shù)P為10。
4.根據(jù)權(quán)利要求1所述的識別音頻中人聲的方法,其特征在于,所述使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征包括: 分別對每一幀音頻數(shù)據(jù)提取該幀音頻數(shù)據(jù)的短時過零率,所述短時過零率是在該幀中的音頻信號穿過零電平的次數(shù); 分別對每一幀音頻數(shù)據(jù)進行線性預(yù)測編碼(LPC)分析得到相應(yīng)的P階LPC預(yù)測系數(shù)a和LPC預(yù)測殘差; 分別對每一幀音頻數(shù)據(jù)對應(yīng)的所述LPC預(yù)測殘差進行快速傅里葉變換得到相應(yīng)的LPC預(yù)測殘差幅度譜,計算所述LPC預(yù)測殘差幅度譜的偏度和峰度。
5.根據(jù)權(quán)利要求4所述的識別音頻中人聲的方法,其特征在于,所述短時過零率根據(jù)以下公式計算:
6.根據(jù)權(quán)利要求4所述的識別音頻中人聲的方法,其特征在于,所述LPC預(yù)測殘差幅度譜的偏度和峰度根據(jù)以下公式計算:
7.根據(jù)權(quán)利要求1所述的識別音頻中人聲的方法,其特征在于,所述根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲包括: 將所述支持向量機與預(yù)設(shè)支持向量機進行比較; 當所述支持向量機與預(yù)設(shè)支持向量機相同時,判斷所述每一幀音頻數(shù)據(jù)中含有人聲。
8.一種識別音頻中人聲的裝置,其特征在于,所述裝置包括:分幀處理模塊、音頻特征提取模塊、特征向量模塊、支持向量機訓(xùn)練模塊和識別模塊; 其中,分幀處理模塊用于對音頻數(shù)據(jù)進行分幀處理; 音頻特征提取模塊用于使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征,所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度; 特征向量模塊用于根據(jù)所述音頻特征形成P+3階特征向量; 支持向量機訓(xùn)練模塊用于使用支持向量機(SVM)算法對所述特征向量進行訓(xùn)練得到相應(yīng)的支持向量機; 識別模塊用于根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲。
9.根據(jù)權(quán)利要求8所述的識別音頻中人聲的裝置,其特征在于,所述分幀處理模塊包括音頻檢測單元、聲道音頻數(shù)據(jù)提取單元和分幀處理單元; 其中,音頻檢測單元用于檢測音頻是否為雙聲道或多聲道; 聲道音頻數(shù)據(jù)提取單元用于當音頻是雙聲道或多聲道時,融合所有聲道為一個聲道提取音頻數(shù)據(jù); 分幀處理單元用于將所述音頻數(shù)據(jù)中的音頻采樣數(shù)據(jù)序列按照預(yù)設(shè)幀長進行分幀處理,將所述音頻采樣數(shù)據(jù)序列劃分為一個音頻數(shù)據(jù)幀序列。
10.根據(jù)權(quán)利要求8所述的識別音頻中人聲的裝置,其特征在于,所述階數(shù)P為10。
11.根據(jù)權(quán)利要求8所述的識別音頻中人聲的裝置,其特征在于,所述音頻特征提取模塊包括短時過零率提取單元、線性預(yù)測編碼(LPC)單元和LPC預(yù)測殘差幅度譜分析單元; 其中,短時過零率提取單元用于分別對每一幀音頻數(shù)據(jù)提取該幀音頻數(shù)據(jù)的短時過零率,所述短時過零率是在該幀中的音頻信號穿過零電平的次數(shù); 線性預(yù)測編碼(LPC)單元用于分別對每一幀音頻數(shù)據(jù)進行線性預(yù)測編碼(LPC)分析得到相應(yīng)的P階LPC預(yù)測系數(shù)a和LPC預(yù)測殘差; LPC預(yù)測殘差幅度譜分析單元用于分別對每一幀音頻數(shù)據(jù)對應(yīng)的所述LPC預(yù)測殘差進行快速傅里葉變換得到相應(yīng)的LPC預(yù)測殘差幅度譜,計算所述LPC預(yù)測殘差幅度譜的偏度和峰度。
12.根據(jù)權(quán)利要求11所述的識別音頻中人聲的裝置,其特征在于,所述短時過零率根據(jù)以下公式計算:
13.根據(jù)權(quán)利要求11所述的識別音頻中人聲的裝置,其特征在于,所述LPC預(yù)測殘差幅度譜的偏度和峰度根據(jù)以下公式計算:
14.根據(jù)權(quán)利要求8所述的識別音頻中人聲的裝置,其特征在于,所述識別人聲模塊包括比較單元和識別單元; 其中,比較單元用于將每一幀音頻的所述支持向量機與預(yù)設(shè)支持向量機比較; 識別單元用于當所述支持向量機與預(yù)設(shè)支持向量機相同時,判斷所述每一幀音頻數(shù)據(jù)中含有人聲。
【文檔編號】G10L17/02GK103489445SQ201310429920
【公開日】2014年1月1日 申請日期:2013年9月18日 優(yōu)先權(quán)日:2013年9月18日
【發(fā)明者】田彪 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司