一種識別音頻中人聲的方法及裝置制造方法

文檔序號：2826254閱讀：3682來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學設(shè)備的制造及制作,分析技術(shù)

一種識別音頻中人聲的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種識別音頻中人聲的方法及裝置，所述方法包括：對音頻數(shù)據(jù)進行分幀處理；使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征，所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度；根據(jù)所述音頻特征形成P+3階特征向量；使用支持向量機(SVM)算法對所述特征向量進行訓(xùn)練得到相應(yīng)的支持向量機；根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲。本發(fā)明可以實現(xiàn)音頻中人聲的高精度高置信度的識別，為歌曲內(nèi)容分析提供基礎(chǔ)性服務(wù)，從而進一步的實現(xiàn)歌詞同步、歌曲分類、歌曲推薦等功能。
【專利說明】一種識別音頻中人聲的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及多媒體信息領(lǐng)域，具體涉及音頻信號分析領(lǐng)域，尤其涉及一種識別音頻中人聲的方法及裝置。
【背景技術(shù)】
[0002]隨著多媒體技術(shù)不斷的發(fā)展，音視頻信息在人們的工作、文體和娛樂生活中的作用越來越重。例如，互聯(lián)網(wǎng)上各大音樂網(wǎng)站對歌曲進行分類或者推薦歌曲，使每個用戶能盡快的搜索到歌曲或者給用戶推薦好的歌曲。
[0003]當前各大音樂網(wǎng)站其歌曲分類及推薦等工作多是基于文本分析和用戶行為協(xié)同濾波，尚未見有深入到音頻內(nèi)容分析技術(shù)的應(yīng)用。音頻內(nèi)容分析技術(shù)根據(jù)提取的音頻特征對音頻進行分類，使用戶能更準確地檢索到所需的音頻，還能實現(xiàn)對實時音頻數(shù)據(jù)的檢索。歌曲音頻中一般包括伴奏部分和人聲部分，能準確檢測出音頻中人聲部分的位置是音頻內(nèi)容分析領(lǐng)域內(nèi)一項基礎(chǔ)性工作，但卻難度大、有挑戰(zhàn)性。現(xiàn)有技術(shù)有一些歌曲中人聲檢測的研究，但精度不高，且準確率較低。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于提供一種識別音頻中人聲的方法及裝置，通過提取有效的音頻特征即短時過零率、P階LPC預(yù)測系數(shù)以及LPC預(yù)測殘差幅度譜得偏度和峰度形成特征向量，并使用機器學習的方式來識別音頻中人聲，解決人聲識別研究中精度低準確率低的問題，實現(xiàn)音頻中人聲的高精度高置信度的識別。
[0005]第一方面，本發(fā)明實施例提供了一種識別音頻中人聲的方法，所述方法包括:
[0006]對音頻數(shù)據(jù)進行分幀處理；
[0007]使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征，所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度；
[0008]根據(jù)所述音頻特征形成P+3階特征向量；
[0009]使用支持向量機(SVM)算法對所述特征向量進行訓(xùn)練得到相應(yīng)的支持向量機；
[0010]根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲。
[0011]第二方面，本發(fā)明實施例還提供一種識別音頻中人聲的裝置，其特征在于，所述裝置包括:分幀處理模塊、音頻特征提取模塊、特征向量模塊、支持向量機訓(xùn)練模塊和識別模塊，
[0012]其中，分幀處理模塊，用于對音頻數(shù)據(jù)進行分幀處理；
[0013]音頻特征提取模塊，用于使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征，所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度；
[0014]特征向量模塊，用于根據(jù)所述音頻特征形成P+3階特征向量；[0015]支持向量機訓(xùn)練模塊，用于使用支持向量機(SVM)算法對所述特征向量進行訓(xùn)練得到相應(yīng)的支持向量機；
[0016]識別模塊，用于根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲。
[0017]本發(fā)明通過提取有效的音頻特征即短時過零率、P階LPC預(yù)測系數(shù)以及LPC預(yù)測殘差幅度譜得偏度和峰度形成特征向量，并使用機器學習的方式來識別音頻中人聲，實現(xiàn)音頻中人聲的高精度高置信度的識別，為歌曲內(nèi)容分析提供基礎(chǔ)性服務(wù)，從而進一步的實現(xiàn)歌詞同步、歌曲分類、歌曲推薦等功能。
【專利附圖】

【附圖說明】
[0018]圖1是本發(fā)明第一實施例中的識別音頻中人聲的方法的流程圖。
[0019]圖2是本發(fā)明第一實施例中的步驟101的細分流程圖。
[0020]圖3是本發(fā)明第一實施例中的步驟IO 2的細分流程圖。
[0021]圖4是本發(fā)明第二實施例中的識別音頻中人聲的裝置的結(jié)構(gòu)圖。
【具體實施方式】
[0022]下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明?？梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋本發(fā)明，而非對本發(fā)明的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0023]在圖1中示出了本發(fā)明的第一實施例。
[0024]圖1是本發(fā)明第一實施例中的識別音頻中人聲的方法，該實現(xiàn)流程100詳述如下:
[0025]在步驟101中，對音頻數(shù)據(jù)進行分幀處理。
[0026]步驟101 (如圖2所示)具體包括:
[0027]步驟1011、檢測音頻是否為雙聲道或多聲道。
[0028]在本實施例中，輸入的音頻可以為單聲道、雙聲道或多聲道，如果檢測到音頻是雙聲道或多聲道，可以提取音頻的左聲道或者將所有聲道融合到一起再進行分幀處理；如果檢測到音頻是單聲道，則直接對音頻采樣數(shù)據(jù)序列按照預(yù)設(shè)幀長進行分幀處理。
[0029]步驟1012、當音頻是雙聲道或多聲道時，融合所有聲道為一個聲道提取音頻數(shù)據(jù)。
[0030]步驟1013、將所述音頻數(shù)據(jù)中的音頻采樣數(shù)據(jù)序列按照預(yù)設(shè)幀長進行分幀處理，將所述音頻采樣數(shù)據(jù)序列劃分為一個音頻數(shù)據(jù)幀序列。
[0031]在本實施例中，將音頻數(shù)據(jù)中的音頻采樣數(shù)據(jù)序列按照預(yù)設(shè)的幀長進行分幀處理。由于音頻信號從整體來看其特性及表征其本質(zhì)特征的參數(shù)均是隨時間而變化的，所以不能用處理平穩(wěn)信號的數(shù)字信號處理技術(shù)進行分析處理。雖然音頻信號具有時變特性，但是在一個短時間范圍內(nèi)(一般認為在10?30ms的短時間內(nèi))，其特性基本保持不變即相對穩(wěn)定，因而可以將其看做一個準穩(wěn)態(tài)過程，即進行“短時分析”，將音頻信號分成一幀一幀的來分析其特征參數(shù)。
[0032]在步驟102中，使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征，所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度。[0033]步驟102 (如圖3所示)具體包括:
[0034]步驟1021、分別對每一幀音頻數(shù)據(jù)提取該幀音頻數(shù)據(jù)的短時過零率，所述短時過零率是在該幀中的音頻信號穿過零電平的次數(shù)。
[0035]在本實施例中，短時過零率表示一幀音頻中音頻信號穿過零電平的次數(shù)。它可以區(qū)分清音和濁音，因為音頻信號中的高頻段過零率較高，低頻段過零率較低。短時過零率根據(jù)以下公式計算:
【權(quán)利要求】
1.一種識別音頻中人聲的方法，其特征在于，所述方法包括: 對音頻數(shù)據(jù)進行分幀處理；使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征，所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度；根據(jù)所述音頻特征形成P+3階特征向量；使用支持向量機(SVM)算法對所述特征向量進行訓(xùn)練得到相應(yīng)的支持向量機；根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲。
2.根據(jù)權(quán)利要求1所述的識別音頻中人聲的方法，其特征在于，所述對音頻數(shù)據(jù)進行分中貞處理包括: 檢測音頻是否為雙聲道或多聲道；當音頻是雙聲道或多聲道時，融合所有聲道為一個聲道提取音頻數(shù)據(jù)；將所述音頻數(shù)據(jù)中的音頻采樣數(shù)據(jù)序列按照預(yù)設(shè)幀長進行分幀處理，將所述音頻采樣數(shù)據(jù)序列劃分為一個音頻數(shù)據(jù)幀序列。
3.根據(jù)權(quán)利要求1所述的識別音頻中人聲的方法，其特征在于，所述階數(shù)P為10。
4.根據(jù)權(quán)利要求1所述的識別音頻中人聲的方法，其特征在于，所述使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征包括: 分別對每一幀音頻數(shù)據(jù)提取該幀音頻數(shù)據(jù)的短時過零率，所述短時過零率是在該幀中的音頻信號穿過零電平的次數(shù)；分別對每一幀音頻數(shù)據(jù)進行線性預(yù)測編碼(LPC)分析得到相應(yīng)的P階LPC預(yù)測系數(shù)a和LPC預(yù)測殘差；分別對每一幀音頻數(shù)據(jù)對應(yīng)的所述LPC預(yù)測殘差進行快速傅里葉變換得到相應(yīng)的LPC預(yù)測殘差幅度譜，計算所述LPC預(yù)測殘差幅度譜的偏度和峰度。
5.根據(jù)權(quán)利要求4所述的識別音頻中人聲的方法，其特征在于，所述短時過零率根據(jù)以下公式計算:
6.根據(jù)權(quán)利要求4所述的識別音頻中人聲的方法，其特征在于，所述LPC預(yù)測殘差幅度譜的偏度和峰度根據(jù)以下公式計算:

7.根據(jù)權(quán)利要求1所述的識別音頻中人聲的方法，其特征在于，所述根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲包括: 將所述支持向量機與預(yù)設(shè)支持向量機進行比較；當所述支持向量機與預(yù)設(shè)支持向量機相同時，判斷所述每一幀音頻數(shù)據(jù)中含有人聲。
8.一種識別音頻中人聲的裝置，其特征在于，所述裝置包括:分幀處理模塊、音頻特征提取模塊、特征向量模塊、支持向量機訓(xùn)練模塊和識別模塊；其中，分幀處理模塊用于對音頻數(shù)據(jù)進行分幀處理；音頻特征提取模塊用于使用階數(shù)為P的線性預(yù)測編碼(LPC)分析分幀處理后的每一幀音頻數(shù)據(jù)并提取音頻特征，所述音頻特征包括短時過零率、P階LPC預(yù)測系數(shù)和LPC預(yù)測殘差幅度譜的偏度和峰度；特征向量模塊用于根據(jù)所述音頻特征形成P+3階特征向量；支持向量機訓(xùn)練模塊用于使用支持向量機(SVM)算法對所述特征向量進行訓(xùn)練得到相應(yīng)的支持向量機；識別模塊用于根據(jù)所述支持向量機識別所述每一幀音頻數(shù)據(jù)中是否含有人聲。
9.根據(jù)權(quán)利要求8所述的識別音頻中人聲的裝置，其特征在于，所述分幀處理模塊包括音頻檢測單元、聲道音頻數(shù)據(jù)提取單元和分幀處理單元；其中，音頻檢測單元用于檢測音頻是否為雙聲道或多聲道；聲道音頻數(shù)據(jù)提取單元用于當音頻是雙聲道或多聲道時，融合所有聲道為一個聲道提取音頻數(shù)據(jù)；分幀處理單元用于將所述音頻數(shù)據(jù)中的音頻采樣數(shù)據(jù)序列按照預(yù)設(shè)幀長進行分幀處理，將所述音頻采樣數(shù)據(jù)序列劃分為一個音頻數(shù)據(jù)幀序列。
10.根據(jù)權(quán)利要求8所述的識別音頻中人聲的裝置，其特征在于，所述階數(shù)P為10。
11.根據(jù)權(quán)利要求8所述的識別音頻中人聲的裝置，其特征在于，所述音頻特征提取模塊包括短時過零率提取單元、線性預(yù)測編碼(LPC)單元和LPC預(yù)測殘差幅度譜分析單元；其中，短時過零率提取單元用于分別對每一幀音頻數(shù)據(jù)提取該幀音頻數(shù)據(jù)的短時過零率，所述短時過零率是在該幀中的音頻信號穿過零電平的次數(shù)；線性預(yù)測編碼(LPC)單元用于分別對每一幀音頻數(shù)據(jù)進行線性預(yù)測編碼(LPC)分析得到相應(yīng)的P階LPC預(yù)測系數(shù)a和LPC預(yù)測殘差； LPC預(yù)測殘差幅度譜分析單元用于分別對每一幀音頻數(shù)據(jù)對應(yīng)的所述LPC預(yù)測殘差進行快速傅里葉變換得到相應(yīng)的LPC預(yù)測殘差幅度譜，計算所述LPC預(yù)測殘差幅度譜的偏度和峰度。
12.根據(jù)權(quán)利要求11所述的識別音頻中人聲的裝置，其特征在于，所述短時過零率根據(jù)以下公式計算:
13.根據(jù)權(quán)利要求11所述的識別音頻中人聲的裝置，其特征在于，所述LPC預(yù)測殘差幅度譜的偏度和峰度根據(jù)以下公式計算:
14.根據(jù)權(quán)利要求8所述的識別音頻中人聲的裝置，其特征在于，所述識別人聲模塊包括比較單元和識別單元；其中，比較單元用于將每一幀音頻的所述支持向量機與預(yù)設(shè)支持向量機比較；識別單元用于當所述支持向量機與預(yù)設(shè)支持向量機相同時，判斷所述每一幀音頻數(shù)據(jù)中含有人聲。
【文檔編號】G10L17/02GK103489445SQ201310429920
【公開日】2014年1月1日申請日期:2013年9月18日優(yōu)先權(quán)日:2013年9月18日
【發(fā)明者】田彪申請人:百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：田彪
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司
我是此專利的發(fā)明人

上一篇：音頻解碼器中幀差錯隱藏的譜代替方法及系統(tǒng)的制作方法
上一篇：民族樂器合成竹共振板的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種識別音頻中人聲的方法及裝置制造方法