專(zhuān)利名稱(chēng):語(yǔ)音/音樂(lè)識(shí)別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種語(yǔ)音/音樂(lè)識(shí)別方法及裝置。
背景技術(shù):
在數(shù)字音頻編碼技術(shù)發(fā)展過(guò)程中,由于語(yǔ)音和音樂(lè)各自具有不同的編碼特點(diǎn),因而在對(duì)語(yǔ)音和音樂(lè)進(jìn)行編碼時(shí),通常需要采用適合其自身特點(diǎn)的編碼技術(shù)。比如用于語(yǔ)音的編碼技術(shù)有GSM和CELPC等,用于音樂(lè)的編碼技術(shù)有MP3,AAC等。近些年,現(xiàn)有技術(shù)提出一種語(yǔ)音音樂(lè)聯(lián)合編碼技術(shù),利用該技術(shù)在同時(shí)對(duì)語(yǔ)音和音樂(lè)進(jìn)行編碼時(shí),首先需要對(duì)輸入的音頻信號(hào)進(jìn)行識(shí)別,即識(shí)別出當(dāng)前音頻信號(hào)為語(yǔ)音內(nèi)容還是音樂(lè)內(nèi)容,然后對(duì)語(yǔ)音內(nèi)容和音樂(lè)內(nèi)容分別使用不同的編碼方式。因而,能否正確地對(duì)語(yǔ)音和音樂(lè)進(jìn)行識(shí)別將直接影響到音頻編碼的效果。現(xiàn)有技術(shù)提供一種語(yǔ)音/音樂(lè)識(shí)別技術(shù),利用語(yǔ)音和音樂(lè)在某些特征參數(shù)上的區(qū)別對(duì)音頻信號(hào)進(jìn)行識(shí)別。具體實(shí)現(xiàn)過(guò)程如下預(yù)先將輸入的音頻信號(hào)劃分為40ms長(zhǎng)的幀, 幀與幀之間有20ms的重疊。通過(guò)特征參數(shù)提取器對(duì)輸入的當(dāng)前幀進(jìn)行特征參數(shù)的提取。該特征參數(shù)包括若干短時(shí)特征參數(shù)和長(zhǎng)時(shí)特征參數(shù)。其中,短時(shí)特征參數(shù)如過(guò)零率等,可以從單一幀片段中提取;長(zhǎng)時(shí)特征參數(shù)如4Hz調(diào)制能量,則必須在多個(gè)連續(xù)的幀片段中才能提取。接著,特征參數(shù)提取器將提取出的特征參數(shù)集輸出給特征參數(shù)選擇器。由于過(guò)多的特征參數(shù)有時(shí)會(huì)降低分類(lèi)的準(zhǔn)確度,因而特征參數(shù)選擇器會(huì)對(duì)輸入的特征參數(shù)進(jìn)行處理,例如會(huì)去掉一些特征參數(shù)。之后,經(jīng)過(guò)特征參數(shù)選擇器處理后的特征參數(shù)集將輸出到分類(lèi)器。該分類(lèi)器可以采用不同的分類(lèi)算法來(lái)識(shí)別出當(dāng)前幀的編碼模式,比如采用高斯分類(lèi)器、k鄰近算法、神經(jīng)網(wǎng)絡(luò)等分類(lèi)算法。這些算法最初可以通過(guò)使用一些樣本訓(xùn)練,學(xué)習(xí)根據(jù)特征參數(shù)集進(jìn)行分類(lèi)的規(guī)則。之后依據(jù)訓(xùn)練得到的分類(lèi)規(guī)則對(duì)輸入的特征參數(shù)集進(jìn)行分類(lèi),從而識(shí)別出當(dāng)前幀的編碼模式為語(yǔ)音還是音樂(lè)。為了防止上述分類(lèi)器對(duì)個(gè)別幀的誤識(shí)別,編碼器不直接根據(jù)分類(lèi)器識(shí)別出的結(jié)果進(jìn)行編碼,而是由編碼模式選擇器作進(jìn)一步的判斷。判斷過(guò)程如下首先,判斷當(dāng)前幀是否為靜音片段,如果是靜音片段就直接采用上一幀的編碼模式;否則,進(jìn)一步作如下判斷如果上述分類(lèi)器得出的當(dāng)前幀的編碼模式和上一幀的編碼模式不同,則將過(guò)去若干幀的編碼模式信息進(jìn)行平均,如果得出的平均值超過(guò)預(yù)設(shè)門(mén)限值,則切換編碼模式,即采用分類(lèi)器得出的當(dāng)前幀的編碼模式,否則繼續(xù)使用上一幀的編碼模式。然而,發(fā)明人發(fā)現(xiàn)如果輸入的音頻信號(hào)為含有打擊樂(lè)器聲的音樂(lè),在采用現(xiàn)有的語(yǔ)音/音樂(lè)識(shí)別技術(shù)對(duì)輸入的音頻信號(hào)進(jìn)行識(shí)別時(shí),通常會(huì)將該含有打擊樂(lè)器聲的音樂(lè)誤判為語(yǔ)音,采用現(xiàn)有的語(yǔ)音/音樂(lè)識(shí)別技術(shù)對(duì)含有打擊樂(lè)器聲的音樂(lè)的識(shí)別準(zhǔn)確率較低。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種語(yǔ)音/音樂(lè)識(shí)別方法及裝置,提高對(duì)音樂(lè)的識(shí)別準(zhǔn)確率。本發(fā)明實(shí)施例提供一種語(yǔ)音/音樂(lè)識(shí)別方法,包括在上一幀音頻信號(hào)的編碼模式為音樂(lè)模式時(shí),判斷當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量是否滿(mǎn)足打擊樂(lè)條件;在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量滿(mǎn)足打擊樂(lè)條件時(shí),確定當(dāng)前幀的編碼模式為音樂(lè)模式。本發(fā)明實(shí)施例還提供一種語(yǔ)音/音樂(lè)識(shí)別裝置,包括判斷單元,用于在上一幀音頻信號(hào)的編碼模式為音樂(lè)模式時(shí),判斷當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量是否滿(mǎn)足打擊樂(lè)條件;第一確定單元,用于在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量滿(mǎn)足打擊樂(lè)條件時(shí),確定當(dāng)前幀的編碼模式為音樂(lè)模式。由上述技術(shù)方案所描述的本發(fā)明實(shí)施例,在上一幀音頻信號(hào)的編碼模式為音樂(lè)模式時(shí),對(duì)當(dāng)前幀音頻信號(hào)進(jìn)行是否包含打擊樂(lè)的檢測(cè),如果在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量滿(mǎn)足打擊樂(lè)條件時(shí),說(shuō)明此時(shí)當(dāng)前幀為含有打擊與的音樂(lè),那么確定當(dāng)前幀的編碼模式為音樂(lè)模式。無(wú)論所述當(dāng)前幀音頻信號(hào)的分類(lèi)結(jié)果如何,均采用音樂(lè)模式對(duì)當(dāng)前幀進(jìn)行編碼,從而減少了對(duì)含有打擊樂(lè)的音樂(lè)信號(hào)的誤判,與現(xiàn)有技術(shù)容易將含有打擊樂(lè)的音樂(lè)信號(hào)誤判為語(yǔ)音相比,本發(fā)明實(shí)施例可以提高對(duì)含有打擊樂(lè)的音樂(lè)識(shí)別的準(zhǔn)確率。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種語(yǔ)音/音樂(lè)識(shí)別方法的流程圖;圖2為本發(fā)明實(shí)施例提供的另一種語(yǔ)音/音樂(lè)識(shí)別方法的流程圖;圖3為本發(fā)明實(shí)施例提供的一種根據(jù)所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果確定所述當(dāng)前幀的編碼模式的方法的流程圖;圖4為本發(fā)明實(shí)施例提供的一段含有打擊音樂(lè)的音頻信號(hào)的波形示意圖;圖5為本發(fā)明實(shí)施例對(duì)當(dāng)前幀進(jìn)行分類(lèi)時(shí)采用的決策樹(shù)模型示意圖;圖6為本發(fā)明實(shí)施例提供一種語(yǔ)音/音樂(lè)識(shí)別裝置的結(jié)構(gòu)圖;圖7為本發(fā)明實(shí)施例提供另一種語(yǔ)音/音樂(lè)識(shí)別裝置的結(jié)構(gòu)圖;圖8為本發(fā)明實(shí)施例提供又一種語(yǔ)音/音樂(lè)識(shí)別裝置的結(jié)構(gòu)圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示的本發(fā)明實(shí)施例提供一種語(yǔ)音/音樂(lè)識(shí)別方法,該方法包括如下步驟101、在上一幀音頻信號(hào)的編碼模式為音樂(lè)模式時(shí),判斷當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量是否滿(mǎn)足打擊樂(lè)條件;102、在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量滿(mǎn)足打擊樂(lè)條件時(shí),確定當(dāng)前幀的編碼模式為音樂(lè)模式。本發(fā)明實(shí)施例提供的語(yǔ)音/音樂(lè)識(shí)別方法,在上一幀音頻信號(hào)的編碼模式為音樂(lè)模式時(shí),對(duì)當(dāng)前幀音頻信號(hào)進(jìn)行是否包含打擊樂(lè)的檢測(cè),如果在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量滿(mǎn)足打擊樂(lè)條件時(shí),確定當(dāng)前幀的編碼模式為音樂(lè)模式。如果當(dāng)前幀音頻信號(hào)為音樂(lè)信號(hào),則無(wú)論所述當(dāng)前幀音頻信號(hào)的分類(lèi)結(jié)果如何,均采用音樂(lè)模式對(duì)當(dāng)前幀進(jìn)行編碼,從而減少了對(duì)含有打擊樂(lè)的音樂(lè)信號(hào)的誤判,與現(xiàn)有技術(shù)容易將含有打擊樂(lè)的音樂(lè)信號(hào)誤判為語(yǔ)音相比,本發(fā)明實(shí)施例可以提高對(duì)含有打擊樂(lè)的音樂(lè)識(shí)別的準(zhǔn)確率。進(jìn)一步地,為了更清楚、完整地描述本發(fā)明實(shí)施例提供的一種語(yǔ)音/音樂(lè)識(shí)別方法,下面詳細(xì)介紹對(duì)一段音頻信號(hào)的完整識(shí)別過(guò)程,如圖2所示,具體包括如下步驟當(dāng)一段音頻信號(hào)輸入時(shí),該音頻信號(hào)會(huì)被劃分為若干音頻信號(hào)幀,本發(fā)明實(shí)施例提供的語(yǔ)音/音樂(lè)識(shí)別方法需要對(duì)每一幀進(jìn)行語(yǔ)音/音樂(lè)識(shí)別。201、從當(dāng)前幀提取出指定參數(shù),并利用所述指定參數(shù)計(jì)算出所述當(dāng)前幀的特征參數(shù)集。對(duì)于每一幀音頻信號(hào)均需要進(jìn)行特征參數(shù)集的提取。具體地,所述提取出的指定參數(shù)包括幀能量、譜傾斜、頻率中心、譜通量、子帶譜通量和子帶能量比。這些指定參數(shù)需要根據(jù)相應(yīng)的公式計(jì)算得出,具體如下幀能量的計(jì)算公式為= 。其中,Vi是當(dāng)前幀內(nèi)第i個(gè)采樣點(diǎn)的幅值,1為
/=1
一幀的長(zhǎng)度。一般,語(yǔ)音中濁音的音量大於清音的音量,而清音的音量又大于噪音的音量。 提取幀能量主要用于判斷靜音和音頻能量波動(dòng)。
權(quán)利要求
1.一種語(yǔ)音/音樂(lè)識(shí)別方法,其特征在于,包括在上一幀音頻信號(hào)的編碼模式為音樂(lè)模式時(shí),判斷當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量是否滿(mǎn)足打擊樂(lè)條件;在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量滿(mǎn)足打擊樂(lè)條件時(shí),確定當(dāng)前幀的編碼模式為音樂(lè)模式。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音/音樂(lè)識(shí)別方法,其特征在于,還包括從當(dāng)前幀提取出指定參數(shù),并利用所述指定參數(shù)計(jì)算出所述當(dāng)前幀的特征參數(shù)集;根據(jù)所述特征參數(shù)集獲取所述當(dāng)前幀的分類(lèi)結(jié)果,所述分類(lèi)結(jié)果為語(yǔ)音或者音樂(lè)。
3.根據(jù)權(quán)利要求2所述的語(yǔ)音/音樂(lè)識(shí)別方法,其特征在于,所述指定參數(shù)包括幀能量、譜傾斜、頻率中心、譜通量、子帶譜通量和子帶能量比;所述當(dāng)前幀的特征參數(shù)集包括譜傾斜的變化率、頻率中心的變化率、譜通量的變化率、子帶譜通量的變化率、譜通量的變化率的動(dòng)態(tài)平均值、子帶譜通量的變化率的動(dòng)態(tài)平均值和子帶能量比的動(dòng)態(tài)平均值。
4.根據(jù)權(quán)利要求2所述的語(yǔ)音/音樂(lè)識(shí)別方法,其特征在于,還包括在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量不滿(mǎn)足打擊樂(lè)條件時(shí),根據(jù)所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果確定所述當(dāng)前幀的編碼模式。
5.根據(jù)權(quán)利要求4所述的語(yǔ)音/音樂(lè)識(shí)別方法,其特征在于,所述在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量滿(mǎn)足打擊樂(lè)條件時(shí)具體為在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率大于第一預(yù)設(shè)門(mén)限值,并且所述當(dāng)前幀的幀能量大于所述指定個(gè)數(shù)幀的幀能量的平均值的預(yù)設(shè)倍數(shù)時(shí);所述在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量不滿(mǎn)足打擊樂(lè)條件時(shí)具體為在所述當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率不大于第一預(yù)設(shè)門(mén)限值時(shí),或者在所述當(dāng)前幀的幀能量不大于所述指定個(gè)數(shù)幀的幀能量的平均值的預(yù)設(shè)倍數(shù)時(shí)。
6.根據(jù)權(quán)利要求4所述的語(yǔ)音/音樂(lè)識(shí)別方法,其特征在于,所述根據(jù)所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果確定所述當(dāng)前幀的編碼模式包括分別計(jì)算所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果對(duì)應(yīng)數(shù)值的平均值和特定變換次數(shù);在所述平均值小于預(yù)設(shè)音樂(lè)門(mén)限值時(shí),設(shè)置所述當(dāng)前幀的臨時(shí)標(biāo)記為音樂(lè);在所述平均值大于預(yù)設(shè)語(yǔ)音門(mén)限值時(shí),設(shè)置所述當(dāng)前幀的臨時(shí)標(biāo)記為語(yǔ)音;如果所述當(dāng)前幀的臨時(shí)標(biāo)記所表示的編碼模式與所述當(dāng)前幀的上一幀的編碼模式相同時(shí),確定所述當(dāng)前幀的編碼模式采用上一幀的編碼模式;如果所述當(dāng)前幀的臨時(shí)標(biāo)記所表示的編碼模式與所述當(dāng)前幀的上一幀的編碼模式不相同時(shí),則判斷所述特定變換次數(shù)是否大于第二預(yù)設(shè)門(mén)限值;在所述特定變換次數(shù)大于第二預(yù)設(shè)門(mén)限值時(shí),確定所述當(dāng)前幀的編碼模式采用上一幀的編碼模式,在所述特定變換次數(shù)不大于第二預(yù)設(shè)門(mén)限值時(shí),確定所述當(dāng)前幀的編碼模式采用所述當(dāng)前幀的臨時(shí)標(biāo)記所表示的編碼模式。
7.根據(jù)權(quán)利要求6所述的語(yǔ)音/音樂(lè)識(shí)別方法,其特征在于,分別計(jì)算所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果的平均值和特定變換次數(shù)包括根據(jù)叉=ξX'計(jì)算所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果的平均值,其中,所述Xi m表示第i幀的分類(lèi)結(jié)果的數(shù)值,m表示指定個(gè)數(shù);m根據(jù)/=Zk-I1I計(jì)算所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果的特定變換次數(shù), /=2其中所述&表示第i幀的分類(lèi)結(jié)果的數(shù)值,m表示指定個(gè)數(shù)。
8.一種語(yǔ)音/音樂(lè)識(shí)別裝置,其特征在于,包括判斷單元,用于在上一幀音頻信號(hào)的編碼模式為音樂(lè)模式時(shí),判斷當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量是否滿(mǎn)足打擊樂(lè)條件;第一確定單元,用于在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量滿(mǎn)足打擊樂(lè)條件時(shí),確定當(dāng)前幀的編碼模式為音樂(lè)模式。
9.根據(jù)權(quán)利要求8所述的語(yǔ)音/音樂(lè)識(shí)別裝置,其特征在于,還包括提取單元,用于從當(dāng)前幀提取出指定參數(shù),并利用所述指定參數(shù)計(jì)算出所述當(dāng)前幀的特征參數(shù)集;分類(lèi)單元,用于根據(jù)所述特征參數(shù)集獲取所述當(dāng)前幀的分類(lèi)結(jié)果,所述分類(lèi)結(jié)果為語(yǔ)首或者首樂(lè)。
10.根據(jù)權(quán)利要求8所述的語(yǔ)音/音樂(lè)識(shí)別裝置,其特征在于,還包括第二確定單元,用于在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量不滿(mǎn)足打擊樂(lè)條件時(shí),根據(jù)所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果確定所述當(dāng)前幀的編碼模式。
11.根據(jù)權(quán)利要求8或10所述的語(yǔ)音/音樂(lè)識(shí)別裝置,其特征在于,所述第一確定單元具體用于在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率大于第一預(yù)設(shè)門(mén)限值,并且所述當(dāng)前幀的幀能量大于所述指定個(gè)數(shù)幀的幀能量的平均值的預(yù)設(shè)倍數(shù)時(shí),確定當(dāng)前幀的編碼模式為音樂(lè)模式;所述第二確定單元具體用于在所述當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率不大于第一預(yù)設(shè)門(mén)限值時(shí),或者在所述當(dāng)前幀的幀能量不大于所述指定個(gè)數(shù)幀的幀能量的平均值的預(yù)設(shè)倍數(shù)時(shí),根據(jù)所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果確定所述當(dāng)前幀的編碼模式。
12.根據(jù)權(quán)利要求10所述的語(yǔ)音/音樂(lè)識(shí)別裝置,其特征在于,所述第二確定單元包括計(jì)算模塊,用于分別計(jì)算所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果對(duì)應(yīng)數(shù)值的平均值和特定變換次數(shù);設(shè)置模塊,用于在所述平均值小于預(yù)設(shè)音樂(lè)門(mén)限值時(shí),設(shè)置所述當(dāng)前幀的臨時(shí)標(biāo)記為H爾;所述設(shè)置模塊還用于在所述平均值大于預(yù)設(shè)語(yǔ)音門(mén)限值時(shí),設(shè)置所述當(dāng)前幀的臨時(shí)標(biāo)記為語(yǔ)音;第一確定模塊,用于如果所述當(dāng)前幀的臨時(shí)標(biāo)記所表示的編碼模式與所述當(dāng)前幀的上一幀的編碼模式相同時(shí),確定所述當(dāng)前幀的編碼模式采用上一幀的編碼模式;判斷模塊,用于如果所述當(dāng)前幀的臨時(shí)標(biāo)記所表示的編碼模式與所述當(dāng)前幀的上一幀的編碼模式不相同時(shí),則判斷所述特定變換次數(shù)是否大于第二預(yù)設(shè)門(mén)限值;第二確定模塊,用于在所述特定變換次數(shù)大于第二預(yù)設(shè)門(mén)限值時(shí),確定所述當(dāng)前幀的編碼模式采用上一幀的編碼模式,在所述特定變換次數(shù)不大于第二預(yù)設(shè)門(mén)限值時(shí),確定所述當(dāng)前幀的編碼模式采用所述當(dāng)前幀的臨時(shí)標(biāo)記所表示的編碼模式。
13.根據(jù)權(quán)利要求12所述的語(yǔ)音/音樂(lè)識(shí)別裝置,其特征在于,所述第二確定單元中的m計(jì)算模塊具體用于根據(jù)γ 計(jì)算所述當(dāng)前幀之前的指定個(gè)數(shù)幀的分類(lèi)結(jié)果的平均值,m其中,所述Xi表示第i幀的分類(lèi)結(jié)果的數(shù)值,m表示指定個(gè)數(shù);m所述第二確定單元中的計(jì)算模塊具體還用于根據(jù)/^ΣΙ^-^^Ι計(jì)算所述當(dāng)前幀之前/=2的指定個(gè)數(shù)幀的分類(lèi)結(jié)果的特定變換次數(shù),其中所述Xi表示第i幀的分類(lèi)結(jié)果的數(shù)值,m表示指定個(gè)數(shù)。
全文摘要
本發(fā)明實(shí)施例公開(kāi)一種語(yǔ)音/音樂(lè)識(shí)別方法及裝置,涉及音頻技術(shù)領(lǐng)域,可以提高對(duì)音樂(lè)的識(shí)別準(zhǔn)確率。包括在上一幀音頻信號(hào)的編碼模式為音樂(lè)模式時(shí),判斷當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量是否滿(mǎn)足打擊樂(lè)條件;在當(dāng)前幀之前的指定個(gè)數(shù)幀的幀能量的變化率和所述當(dāng)前幀的幀能量滿(mǎn)足打擊樂(lè)條件時(shí),確定當(dāng)前幀的編碼模式為音樂(lè)模式。本發(fā)明實(shí)施例主要應(yīng)用于對(duì)音頻進(jìn)行語(yǔ)音/音樂(lè)識(shí)別的過(guò)程中,可以提高對(duì)音樂(lè)的識(shí)別準(zhǔn)確率。
文檔編號(hào)G10L19/00GK102446504SQ201010299618
公開(kāi)日2012年5月9日 申請(qǐng)日期2010年10月8日 優(yōu)先權(quán)日2010年10月8日
發(fā)明者劉佩林, 劉紫赟, 應(yīng)忍冬, 蔣三新 申請(qǐng)人:華為技術(shù)有限公司