亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種音頻信號分類方法和裝置制造方法

文檔序號:2826121閱讀:373來源:國知局
一種音頻信號分類方法和裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種音頻信號分類方法和裝置,用于對輸入的音頻信號進行分類,該方法包括:根據(jù)當前音頻幀的聲音活動性,確定是否獲得當前音頻幀的頻譜波動并存儲于頻譜波動存儲器中,其中,所述頻譜波動表示音頻信號的頻譜的能量波動;根據(jù)音頻幀是否為敲擊音樂或歷史音頻幀的活動性,更新頻譜波動存儲器中存儲的頻譜波動;根據(jù)頻譜波動存儲器中存儲的頻譜波動的部分或全部有效數(shù)據(jù)的統(tǒng)計量,將所述當前音頻幀分類為語音幀或者音樂幀。
【專利說明】一種音頻信號分類方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字信號處理【技術(shù)領(lǐng)域】,尤其是一種音頻信號分類方法和裝置。

【背景技術(shù)】
[0002] 為了降低視頻信號存儲或者傳輸過程中占用的資源,音頻信號在發(fā)送端進行壓縮 處理后傳輸?shù)浇邮斩耍邮斩送ㄟ^解壓縮處理恢復(fù)音頻信號。
[0003] 在音頻處理應(yīng)用中,音頻信號分類是一種應(yīng)用廣泛而重要的技術(shù)。例如,在音頻編 解碼應(yīng)用中,目前比較流行的編解碼器是一種混合編解碼。這種編解碼器通常包含了一個 基于語音產(chǎn)生模型的編碼器(如CELP)和一個基于變換的編碼器(如基于MDCT的編碼器)。 在中低碼率下,基于語音產(chǎn)生模型的編碼器可以獲得較好的語音編碼質(zhì)量,但對音樂的編 碼質(zhì)量比較差,而基于變換的編碼器能夠獲得較好的音樂編碼質(zhì)量,對語音的編碼質(zhì)量又 比較差。因此,混合編解碼器通過對語音信號采用基于語音產(chǎn)生模型的編碼器進行編碼,對 音樂信號采用基于變換的編碼器進行編碼,從而獲得整體最佳的編碼效果。這里,一個核心 的技術(shù)就是音頻信號分類,或具體到這個應(yīng)用,就是編碼模式選擇。
[0004] 混合編解碼器需要獲得準確的信號類型信息,才能獲得最優(yōu)的編碼模式選擇。這 里的音頻信號分類器也可以被大致認為是一種語音/音樂分類器。語音識別率和音樂識別 率是衡量語音/音樂分類器性能的重要指標。尤其對于音樂信號,由于其信號特征的多樣/ 復(fù)雜性,對音樂信號的識別通常較語音困難。此外,識別延時也是非常重要的指標之一。由 于語音/音樂特征在短時上的模糊性,通常需要在一段相對長的時間區(qū)間內(nèi)才能夠較準確 的識別出語音/音樂來。一般來說,在同一類信號中段時,識別延時越長,識別越準確。但 在兩類信號的過渡段時,識別延時越長,識別準確率反而降低。這在輸入是混合信號(如有 背景音樂的語音)的情況下尤為嚴重。因此,同時兼具高識別率和低識別延時是一個高性能 語音/音樂識別器的必要屬性。此外,分類的穩(wěn)定性也是影響到混合編碼器編碼質(zhì)量的重 要屬性。一般來說,混合編碼器在不同類型編碼器之間切換時會產(chǎn)生質(zhì)量下降。如果分類 器在同一類信號中發(fā)生頻繁的類型切換,對編碼質(zhì)量的影響是比較大的,這就要求分類器 的輸出分類結(jié)果要準確而平滑。另外,在一些應(yīng)用中,如通信系統(tǒng)中的分類算法,也要求其 計算復(fù)雜度和存儲開銷要盡可能的低,以滿足商業(yè)需求。
[0005] ITU-T標準G. 720. 1包含有一個語音/音樂分類器。這個分類器以一個主參數(shù),頻 譜波動方差Var_fluX,做為信號分類的主要依據(jù),并結(jié)合兩個不同的頻譜峰度參數(shù)pl,p2, 做為輔助依據(jù)。根據(jù)var_f lux對輸入信號的分類,是通過在一個FIFO的var_f lux buffer 中,根據(jù)var_fluX的局部統(tǒng)計量來完成的。具體過程概述如下。首先對每一輸入音頻幀提 取頻譜波動flux,并緩存在一個第一buffer中,這里的flux是在包括當前輸入巾貞在內(nèi)的最 新的4幀中計算的,也可以有其它的計算方法。然后,計算包括當前輸入幀在內(nèi)的N個最新 中貞的flux的方差,得到當前輸入巾貞的var_flux,并緩存在第二buffer中。然后,統(tǒng)計第二 buffer中包括當前輸入巾貞在內(nèi)的M個最新巾貞的var_flux中大于第一門限值的巾貞的個數(shù)K。 如果K與M的比值大于一個第二門限值,則判斷當前輸入幀為語音幀,否則為音樂幀。輔助 參數(shù)pl,p2主要用于對分類的修正,也是對每一輸入音頻幀計算的。當pi和/或p2大于 某第三門限和/或第四門限時,則直接判斷當前輸入音頻幀為音樂幀。
[0006] 這個語音/音樂分類器的缺點一方面對音樂的絕對識別率仍然有待提高,另一方 面,由于該分類器的目標應(yīng)用沒有針對混合信號的應(yīng)用場景,所以對混合信號的識別性能 也還有一定的提升空間。
[0007] 現(xiàn)有的語音/音樂分類器有很多都是基于模式識別原理設(shè)計的。這類分類器通常 都是對輸入音頻幀提取多個特征參數(shù)(十幾到幾十不等),并將這些參數(shù)饋入一個或者基于 高斯混合模型,或者基于神經(jīng)網(wǎng)絡(luò),或者基于其它經(jīng)典分類方法的分類器來進行分類的。
[0008] 這類分類器雖然有較高的理論基礎(chǔ),但通常具有較高的計算或存儲復(fù)雜度,實現(xiàn) 成本較高。


【發(fā)明內(nèi)容】

[0009] 本發(fā)明實施例的目的在于提供一種音頻信號分類方法和裝置,在保證混合音頻信 號分類識別率的情況下,降低信號分類的復(fù)雜度。
[0010] 第一方面,提供了一種音頻信號分類方法,包括:
[0011] 根據(jù)當前音頻幀的聲音活動性,確定是否獲得當前音頻幀的頻譜波動并存儲于頻 譜波動存儲器中,其中,所述頻譜波動表示音頻信號的頻譜的能量波動;
[0012] 根據(jù)音頻幀是否為敲擊音樂或歷史音頻幀的活動性,更新頻譜波動存儲器中存儲 的頻譜波動;
[0013] 根據(jù)頻譜波動存儲器中存儲的頻譜波動的部分或全部有效數(shù)據(jù)的統(tǒng)計量,將所述 當前音頻幀分類為語音幀或者音樂幀。
[0014] 在第一種可能的實現(xiàn)方式中,根據(jù)當前音頻幀的聲音活動性,確定是否獲得當前 音頻幀的頻譜波動并存儲于頻譜波動存儲器中包括:
[0015] 若當前音頻幀為活動幀,則將當前音頻幀的頻譜波動存儲于頻譜波動存儲器中。
[0016] 在第二種可能的實現(xiàn)方式中,根據(jù)當前音頻幀的聲音活動性,確定是否獲得當前 音頻幀的頻譜波動并存儲于頻譜波動存儲器中包括:
[0017] 若當前音頻幀為活動幀,且當前音頻幀不屬于能量沖擊,則將當前音頻幀的頻譜 波動存儲于頻譜波動存儲器中。
[0018] 在第三種可能的實現(xiàn)方式中,根據(jù)當前音頻幀的聲音活動性,確定是否獲得當前 音頻幀的頻譜波動并存儲于頻譜波動存儲器中包括:
[0019] 若當前音頻幀為活動幀,且包含當前音頻幀與其歷史幀在內(nèi)的多個連續(xù)幀都不屬 于能量沖擊,則將音頻幀的頻譜波動存儲于頻譜波動存儲器中。
[0020] 結(jié)合第一方面或第一方面的第一種可能的實現(xiàn)方式或第一方面的第二種可能的 實現(xiàn)方式或第一方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,根據(jù)所述當 前音頻幀是否為敲擊音樂,更新頻譜波動存儲器中存儲的頻譜波動包括:
[0021] 若當前音頻幀屬于敲擊音樂,則修改頻譜波動存儲器中已存儲的頻譜波動的值。
[0022] 結(jié)合第一方面或第一方面的第一種可能的實現(xiàn)方式或第一方面的第二種可能的 實現(xiàn)方式或第一方面的第三種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中,根據(jù)所述歷 史音頻幀的活動性,更新頻譜波動存儲器中存儲的頻譜波動包括:
[0023] 如果確定當前音頻幀的頻譜波動存儲于頻譜波動存儲器中,且前一幀音頻幀為非 活動幀,則將頻譜波動存儲器中已存儲的除當前音頻幀的頻譜波動之外的其他頻譜波動的 數(shù)據(jù)修改為無效數(shù)據(jù);
[0024] 如果確定當前音頻幀的頻譜波動存儲于頻譜波動存儲器中,且當前音頻幀之前連 續(xù)三幀歷史幀不全都為活動幀,則將當前音頻幀的頻譜波動修正為第一值;
[0025] 如果確定當前音頻幀的頻譜波動存儲于頻譜波動存儲器中,且歷史分類結(jié)果為音 樂信號且當前音頻幀的頻譜波動大于第二值,則將當前音頻幀的頻譜波動修正為第二值, 其中,第二值大于第一值。
[0026] 結(jié)合第一方面或第一方面的第一種可能的實現(xiàn)方式或第一方面的第二種可能的 實現(xiàn)方式或第一方面的第三種可能的實現(xiàn)方式或第一方面的第四種可能的實現(xiàn)方式或第 一方面的第五種可能的實現(xiàn)方式,在第六種可能的實現(xiàn)方式中,根據(jù)頻譜波動存儲器中存 儲的頻譜波動的部分或全部有效數(shù)據(jù)的統(tǒng)計量,將所述當前音頻幀分類為語音幀或者音樂 中貞包括:
[0027] 獲得頻譜波動存儲器中存儲的頻譜波動的部分或全部有效數(shù)據(jù)的均值;
[0028] 當所獲得的頻譜波動的有效數(shù)據(jù)的均值滿足音樂分類條件時,將所述當前音頻幀 分類為音樂幀;否則將所述當前音頻幀分類為語音幀。
[0029] 結(jié)合第一方面或第一方面的第一種可能的實現(xiàn)方式或第一方面的第二種可能的 實現(xiàn)方式或第一方面的第三種可能的實現(xiàn)方式或第一方面的第四種可能的實現(xiàn)方式或第 一方面的第五種可能的實現(xiàn)方式,在第七種可能的實現(xiàn)方式中,該音頻信號分類方法還包 括:
[0030] 獲得當前音頻幀的頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測殘差能量傾斜度;其 中,頻譜高頻帶峰度表示當前音頻幀的頻譜在高頻帶上的峰度或能量銳度;頻譜相關(guān)度表 示當前音頻幀的信號諧波結(jié)構(gòu)在相鄰幀間的穩(wěn)定度;線性預(yù)測殘差能量傾斜度表示音頻信 號的線性預(yù)測殘差能量隨線性預(yù)測階數(shù)的升高而變化的程度;
[0031] 根據(jù)所述當前音頻幀的聲音活動性,確定是否將所述頻譜高頻帶峰度、頻譜相關(guān) 度和線性預(yù)測殘差能量傾斜度存儲于存儲器中;
[0032] 其中,所述根據(jù)頻譜波動存儲器中存儲的頻譜波動的部分或全部數(shù)據(jù)的統(tǒng)計量, 對所述音頻幀進行分類包括:
[0033] 分別獲得存儲的頻譜波動有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù)的均值,頻 譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差;
[0034] 當下列條件之一滿足時,將所述當前音頻幀分類為音樂幀,否則將所述當前音頻 幀分類為語音幀:所述頻譜波動有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶峰度有效 數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值;或者線性 預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差小于第四閾值。
[0035] 第二方面,提供了一種音頻信號的分類裝置,用于對輸入的音頻信號進行分類,包 括:
[0036] 存儲確認單元,用于根據(jù)所述當前音頻幀的聲音活動性,確定是否獲得并存儲當 前音頻幀的頻譜波動,其中,所述頻譜波動表示音頻信號的頻譜的能量波動;
[0037] 存儲器,用于在存儲確認單元輸出需要存儲的結(jié)果時存儲所述頻譜波動;
[0038] 更新單元,用于根據(jù)語音幀是否為敲擊音樂或歷史音頻幀的活動性,更新存儲器 中存儲的頻譜波動;
[0039] 分類單元,用于根據(jù)存儲器中存儲的頻譜波動的部分或全部有效數(shù)據(jù)的統(tǒng)計量, 將所述當前音頻幀分類為語音幀或者音樂幀。
[0040] 在第一種可能的實現(xiàn)方式中,所述存儲確認單元具體用于:確認當前音頻幀為活 動幀時,輸出需要存儲當前音頻幀的頻譜波動的結(jié)果。
[0041] 在第二種可能的實現(xiàn)方式中,所述存儲確認單元具體用于:確認當前音頻幀為活 動幀,且當前音頻幀不屬于能量沖擊時,輸出需要存儲當前音頻幀的頻譜波動的結(jié)果。
[0042] 在第三種可能的實現(xiàn)方式中,所述存儲確認單元具體用于:確認當前音頻幀為活 動幀,且包含當前音頻幀與其歷史幀在內(nèi)的多個連續(xù)幀都不屬于能量沖擊時,輸出需要存 儲當前音頻幀的頻譜波動的結(jié)果。
[0043] 結(jié)合第二方面或第二方面的第一種可能的實現(xiàn)方式或第二方面的第二種可能的 實現(xiàn)方式或第二方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述更新單 元具體用于若當前音頻幀屬于敲擊音樂,則修改頻譜波動存儲器中已存儲的頻譜波動的 值。
[0044] 結(jié)合第二方面或第二方面的第一種可能的實現(xiàn)方式或第二方面的第二種可能的 實現(xiàn)方式或第二方面的第三種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中,所述更新單 元具體用于:如果當前音頻幀為活動幀,且前一幀音頻幀為非活動幀時,則將存儲器中已存 儲的除當前音頻幀的頻譜波動之外的其他頻譜波動的數(shù)據(jù)修改為無效數(shù)據(jù);或
[0045] 如果當前音頻幀為活動幀,且當前音頻幀之前連續(xù)三幀不全都為活動幀時,則將 當前音頻幀的頻譜波動修正為第一值;或
[0046] 如果當前音頻幀為活動幀,且歷史分類結(jié)果為音樂信號且當前音頻幀的頻譜波動 大于第二值,則將當前音頻幀的頻譜波動修正為第二值,其中,第二值大于第一值。
[0047] 結(jié)合第二方面或第二方面的第一種可能的實現(xiàn)方式或第二方面的第二種可能的 實現(xiàn)方式或第二方面的第三種可能的實現(xiàn)方式或第二方面的第四種可能的實現(xiàn)方式或第 二方面的第五種可能的實現(xiàn)方式,在第六種可能的實現(xiàn)方式中,所述分類單元包括:
[0048] 計算單元,用于獲得存儲器中存儲的頻譜波動的部分或全部有效數(shù)據(jù)的均值;
[0049] 判斷單元,用于將所述頻譜波動的有效數(shù)據(jù)的均值與音樂分類條件做比較,當所 述頻譜波動的有效數(shù)據(jù)的均值滿足音樂分類條件時,將所述當前音頻幀分類為音樂幀;否 則將所述當前音頻幀分類為語音幀。
[0050] 結(jié)合第二方面或第二方面的第一種可能的實現(xiàn)方式或第二方面的第二種可能的 實現(xiàn)方式或第二方面的第三種可能的實現(xiàn)方式或第二方面的第四種可能的實現(xiàn)方式或第 二方面的第五種可能的實現(xiàn)方式,在第七種可能的實現(xiàn)方式中,該音頻信號分類裝置還包 括:
[0051] 參數(shù)獲得單元,用于獲得當前音頻幀的頻譜高頻帶峰度、頻譜相關(guān)度、濁音度參數(shù) 和線性預(yù)測殘差能量傾斜度;其中,頻譜高頻帶峰度表示當前音頻幀的頻譜在高頻帶上的 峰度或能量銳度;頻譜相關(guān)度表示當前音頻幀的信號諧波結(jié)構(gòu)在相鄰幀間的穩(wěn)定度;濁音 度參數(shù)表示當前音頻幀與一個基音周期之前的信號的時域相關(guān)度;線性預(yù)測殘差能量傾斜 度表示音頻信號的線性預(yù)測殘差能量隨線性預(yù)測階數(shù)的升高而變化的程度;
[0052] 所述存儲確認單元還用于,根據(jù)所述當前音頻幀的聲音活動性,確定是否將所述 頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測殘差能量傾斜度存儲于存儲器中;
[0053] 所述存儲單元還用于,當存儲確認單元輸出需要存儲的結(jié)果時存儲所述頻譜高頻 帶峰度、頻譜相關(guān)度和線性預(yù)測殘差能量傾斜度;
[0054] 所述分類單元具體用于,分別獲得存儲的頻譜波動、頻譜高頻帶峰度、頻譜相關(guān)度 和線性預(yù)測殘差能量傾斜度中有效數(shù)據(jù)的統(tǒng)計量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計量將所述音頻 幀分類為語音幀或者音樂幀。
[0055] 結(jié)合第二方面的第七種可能的實現(xiàn)方式,在第八種可能的實現(xiàn)方式中,所述分類 單元包括:
[0056] 計算單元,用于分別獲得存儲的頻譜波動有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效 數(shù)據(jù)的均值,頻譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差;
[0057] 判斷單元,用于當下列條件之一滿足時,將所述當前音頻幀分類為音樂幀,否則將 所述當前音頻幀分類為語音幀:所述頻譜波動有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高 頻帶峰度有效數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾 值;或者線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差小于第四閾值。
[0058] 第三方面,提供了一種音頻信號分類方法,包括:
[0059] 將輸入音頻信號進行分巾貞處理;
[0060] 獲得當前音頻幀的線性預(yù)測殘差能量傾斜度;所述線性預(yù)測殘差能量傾斜度表示 音頻信號的線性預(yù)測殘差能量隨線性預(yù)測階數(shù)的升高而變化的程度;
[0061] 將線性預(yù)測殘差能量傾斜度存儲到存儲器中;
[0062] 根據(jù)存儲器中預(yù)測殘差能量傾斜度部分數(shù)據(jù)的統(tǒng)計量,對所述音頻幀進行分類。
[0063] 在第一種可能的實現(xiàn)方式中,將線性預(yù)測殘差能量傾斜度存儲到存儲器中之前還 包括:
[0064] 根據(jù)所述當前音頻幀的聲音活動性,確定是否將所述線性預(yù)測殘差能量傾斜度存 儲于存儲器中;并在確定需要存儲時將將所述線性預(yù)測殘差能量傾斜度存儲于存儲器中。 [0065] 結(jié)合第三方面的或第三方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式 中,預(yù)測殘差能量傾斜度部分數(shù)據(jù)的統(tǒng)計量為預(yù)測殘差能量傾斜度部分數(shù)據(jù)的方差;所述 根據(jù)存儲器中預(yù)測殘差能量傾斜度部分數(shù)據(jù)的統(tǒng)計量,對所述音頻幀進行分類包括:
[0066] 將預(yù)測殘差能量傾斜度部分數(shù)據(jù)的方差與音樂分類閾值相比較,當所述預(yù)測殘差 能量傾斜度部分數(shù)據(jù)的方差小于音樂分類閾值時,將所述當前音頻幀分類為音樂幀;否則 將所述當前音頻幀分類為語音幀。
[0067] 結(jié)合第三方面的或第三方面的第一種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式 中,該音頻信號分類方法還包括:
[0068] 獲得當前音頻幀的頻譜波動、頻譜高頻帶峰度和頻譜相關(guān)度,并存儲于對應(yīng)的存 儲器中;
[0069] 其中,所述根據(jù)存儲器中預(yù)測殘差能量傾斜度部分數(shù)據(jù)的統(tǒng)計量,對所述音頻幀 進行分類包括:
[0070] 分別獲得存儲的頻譜波動、頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測殘差能量傾 斜度中有效數(shù)據(jù)的統(tǒng)計量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計量將所述音頻幀分類為語音幀或者音 樂幀;所述有效數(shù)據(jù)的統(tǒng)計量指對存儲器中存儲的有效數(shù)據(jù)運算操作后獲得的數(shù)據(jù)值。
[0071] 結(jié)合第三方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,分別獲得 存儲的頻譜波動、頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測殘差能量傾斜度中有效數(shù)據(jù)的 統(tǒng)計量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計量將所述音頻幀分類為語音幀或者音樂幀包括:
[0072] 分別獲得存儲的頻譜波動有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù)的均值,頻 譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差;
[0073] 當下列條件之一滿足時,將所述當前音頻幀分類為音樂幀,否則將所述當前音頻 幀分類為語音幀:所述頻譜波動有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶峰度有效 數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值;或者線性 預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差小于第四閾值。
[0074] 結(jié)合第三方面的或第三方面的第一種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式 中,該音頻信號分類方法還包括:
[0075] 獲得當前音頻幀的頻譜音調(diào)個數(shù)和頻譜音調(diào)個數(shù)在低頻帶上的比率,并存儲于對 應(yīng)的存儲器;
[0076] 其中,所述根據(jù)存儲器中預(yù)測殘差能量傾斜度部分數(shù)據(jù)的統(tǒng)計量,對所述音頻幀 進行分類包括:
[0077] 分別獲得存儲的線性預(yù)測殘差能量傾斜度的統(tǒng)計量、頻譜音調(diào)個數(shù)的統(tǒng)計量;
[0078] 根據(jù)所述線性預(yù)測殘差能量傾斜度的統(tǒng)計量、頻譜音調(diào)個數(shù)的統(tǒng)計量和頻譜音調(diào) 個數(shù)在低頻帶上的比率,將所述音頻幀分類為語音幀或者音樂幀;所述統(tǒng)計量指對存儲器 中存儲的數(shù)據(jù)運算操作后獲得的數(shù)據(jù)值。
[0079] 結(jié)合第三方面的第五種可能的實現(xiàn)方式,在第六種可能的實現(xiàn)方式中,分別獲得 存儲的線性預(yù)測殘差能量傾斜度的統(tǒng)計量、頻譜音調(diào)個數(shù)的統(tǒng)計量包括:
[0080] 獲得存儲的線性預(yù)測殘差能量傾斜度的方差;
[0081] 獲得存儲的頻譜音調(diào)個數(shù)的均值;
[0082] 根據(jù)所述線性預(yù)測殘差能量傾斜度的統(tǒng)計量、頻譜音調(diào)個數(shù)的統(tǒng)計量和頻譜音調(diào) 個數(shù)在低頻帶上的比率,將所述音頻幀分類為語音幀或者音樂幀包括:
[0083]當當前音頻幀為活動幀,且滿足下列條件之一,則將所述當前音頻幀分類為音樂 幀,否則將所述當前音頻幀分類為語音幀:
[0084] 線性預(yù)測殘差能量傾斜度的方差小于第五閾值;或
[0085] 頻譜音調(diào)個數(shù)的均值大于第六閾值;或
[0086] 頻譜音調(diào)個數(shù)在低頻帶上的比率小于第七閾值。
[0087] 結(jié)合第三方面或第三方面的第一種可能的實現(xiàn)方式或第三方面的第二種可能的 實現(xiàn)方式或第三方面的第三種可能的實現(xiàn)方式或第三方面的第四種可能的實現(xiàn)方式或第 三方面的第五種可能的實現(xiàn)方式或第三方面的第六種可能的實現(xiàn)方式,在第七種可能的實 現(xiàn)方式中,獲得當前音頻幀的線性預(yù)測殘差能量傾斜度包括:
[0088] 根據(jù)下列公式計算當前音頻幀的線性預(yù)測殘差能量傾斜度:

【權(quán)利要求】
1. 一種音頻信號分類方法,其特征在于,包括: 根據(jù)當前音頻幀的聲音活動性,確定是否獲得當前音頻幀的頻譜波動并存儲于頻譜波 動存儲器中,其中,所述頻譜波動表示音頻信號的頻譜的能量波動; 根據(jù)音頻幀是否為敲擊音樂或歷史音頻幀的活動性,更新頻譜波動存儲器中存儲的頻 譜波動; 根據(jù)頻譜波動存儲器中存儲的頻譜波動的部分或全部有效數(shù)據(jù)的統(tǒng)計量,將所述當前 音頻幀分類為語音幀或者音樂幀。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)當前音頻幀的聲音活動性,確定是否 獲得當前音頻幀的頻譜波動并存儲于頻譜波動存儲器中包括: 若當前音頻幀為活動幀,則將當前音頻幀的頻譜波動存儲于頻譜波動存儲器中。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)當前音頻幀的聲音活動性,確定是否 獲得當前音頻幀的頻譜波動并存儲于頻譜波動存儲器中包括: 若當前音頻幀為活動幀,且當前音頻幀不屬于能量沖擊,則將當前音頻幀的頻譜波動 存儲于頻譜波動存儲器中。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)當前音頻幀的聲音活動性,確定是否 獲得當前音頻幀的頻譜波動并存儲于頻譜波動存儲器中包括: 若當前音頻幀為活動幀,且包含當前音頻幀與其歷史幀在內(nèi)的多個連續(xù)幀都不屬于能 量沖擊,則將音頻幀的頻譜波動存儲于頻譜波動存儲器中。
5. 根據(jù)權(quán)利要求1至4所述的任一方法,其特征在于,根據(jù)所述當前音頻幀是否為敲擊 音樂,更新頻譜波動存儲器中存儲的頻譜波動包括: 若當前音頻幀屬于敲擊音樂,則修改頻譜波動存儲器中已存儲的頻譜波動的值。
6. 根據(jù)權(quán)利要求1至4所述的任一方法,其特征在于,根據(jù)所述歷史音頻幀的活動性, 更新頻譜波動存儲器中存儲的頻譜波動包括: 如果確定當前音頻幀的頻譜波動存儲于頻譜波動存儲器中,且前一幀音頻幀為非活動 幀,則將頻譜波動存儲器中已存儲的除當前音頻幀的頻譜波動之外的其他頻譜波動的數(shù)據(jù) 修改為無效數(shù)據(jù); 如果確定當前音頻幀的頻譜波動存儲于頻譜波動存儲器中,且當前音頻幀之前連續(xù)三 幀歷史幀不全都為活動幀,則將當前音頻幀的頻譜波動修正為第一值; 如果確定當前音頻幀的頻譜波動存儲于頻譜波動存儲器中,且歷史分類結(jié)果為音樂信 號且當前音頻幀的頻譜波動大于第二值,則將當前音頻幀的頻譜波動修正為第二值,其中, 第二值大于第一值。
7. 根據(jù)權(quán)利要求1-6所述的任一方法,其特征在于,根據(jù)頻譜波動存儲器中存儲的頻 譜波動的部分或全部有效數(shù)據(jù)的統(tǒng)計量,將所述當前音頻巾貞分類為語音巾貞或者音樂巾貞包 括: 獲得頻譜波動存儲器中存儲的頻譜波動的部分或全部有效數(shù)據(jù)的均值; 當所獲得的頻譜波動的有效數(shù)據(jù)的均值滿足音樂分類條件時,將所述當前音頻幀分類 為音樂幀;否則將所述當前音頻幀分類為語音幀。
8. 根據(jù)權(quán)利要求1-6所述的方法,其特征在于,還包括: 獲得當前音頻幀的頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測殘差能量傾斜度;其中,頻 譜高頻帶峰度表示當前音頻幀的頻譜在高頻帶上的峰度或能量銳度;頻譜相關(guān)度表示當前 音頻幀的信號諧波結(jié)構(gòu)在相鄰幀間的穩(wěn)定度;線性預(yù)測殘差能量傾斜度表示音頻信號的線 性預(yù)測殘差能量隨線性預(yù)測階數(shù)的升高而變化的程度; 根據(jù)所述當前音頻幀的聲音活動性,確定是否將所述頻譜高頻帶峰度、頻譜相關(guān)度和 線性預(yù)測殘差能量傾斜度存儲于存儲器中; 其中,所述根據(jù)頻譜波動存儲器中存儲的頻譜波動的部分或全部數(shù)據(jù)的統(tǒng)計量,對所 述音頻幀進行分類包括: 分別獲得存儲的頻譜波動有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù)的均值,頻譜相 關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差; 當下列條件之一滿足時,將所述當前音頻幀分類為音樂幀,否則將所述當前音頻幀分 類為語音幀:所述頻譜波動有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶峰度有效數(shù)據(jù) 的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值;或者線性預(yù)測 殘差能量傾斜度有效數(shù)據(jù)的方差小于第四閾值。
9. 一種音頻信號的分類裝置,用于對輸入的音頻信號進行分類,其特征在于,包括:存儲確認單元,用于根據(jù)所述當前音頻幀的聲音活動性,確定是否獲得并存儲當前音 頻幀的頻譜波動,其中,所述頻譜波動表示音頻信號的頻譜的能量波動; 存儲器,用于在存儲確認單元輸出需要存儲的結(jié)果時存儲所述頻譜波動; 更新單元,用于根據(jù)語音幀是否為敲擊音樂或歷史音頻幀的活動性,更新存儲器中存 儲的頻譜波動; 分類單元,用于根據(jù)存儲器中存儲的頻譜波動的部分或全部有效數(shù)據(jù)的統(tǒng)計量,將所 述當前音頻幀分類為語音幀或者音樂幀。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述存儲確認單元具體用于:確認當前 音頻幀為活動幀時,輸出需要存儲當前音頻幀的頻譜波動的結(jié)果。
11. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述存儲確認單元具體用于:確認當前 音頻幀為活動幀,且當前音頻幀不屬于能量沖擊時,輸出需要存儲當前音頻幀的頻譜波動 的結(jié)果。
12. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述存儲確認單元具體用于:確認當前 音頻幀為活動幀,且包含當前音頻幀與其歷史幀在內(nèi)的多個連續(xù)幀都不屬于能量沖擊時, 輸出需要存儲當前音頻幀的頻譜波動的結(jié)果。
13. 根據(jù)權(quán)利要求9-12所述的任一裝置,其特征在于,所述更新單元具體用于若當前 音頻幀屬于敲擊音樂,則修改頻譜波動存儲器中已存儲的頻譜波動的值。
14. 根據(jù)權(quán)利要求9-12所述的任一裝置,其特征在于,所述更新單元具體用于:如果當 前音頻幀為活動幀,且前一幀音頻幀為非活動幀時,則將存儲器中已存儲的除當前音頻幀 的頻譜波動之外的其他頻譜波動的數(shù)據(jù)修改為無效數(shù)據(jù);或 如果當前音頻幀為活動幀,且當前音頻幀之前連續(xù)三幀不全都為活動幀時,則將當前 音頻幀的頻譜波動修正為第一值;或 如果當前音頻幀為活動幀,且歷史分類結(jié)果為音樂信號且當前音頻幀的頻譜波動大于 第二值,則將當前音頻幀的頻譜波動修正為第二值,其中,第二值大于第一值。
15. 根據(jù)權(quán)利要求9-14所述的任一裝置,其特征在于,所述分類單元包括: 計算單元,用于獲得存儲器中存儲的頻譜波動的部分或全部有效數(shù)據(jù)的均值; 判斷單元,用于將所述頻譜波動的有效數(shù)據(jù)的均值與音樂分類條件做比較,當所述頻 譜波動的有效數(shù)據(jù)的均值滿足音樂分類條件時,將所述當前音頻幀分類為音樂幀;否則將 所述當前音頻幀分類為語音幀。
16. 根據(jù)權(quán)利要求9-14所述的任一裝置,其特征在于,還包括: 參數(shù)獲得單元,用于獲得當前音頻幀的頻譜高頻帶峰度、頻譜相關(guān)度、濁音度參數(shù)和線 性預(yù)測殘差能量傾斜度;其中,頻譜高頻帶峰度表示當前音頻幀的頻譜在高頻帶上的峰度 或能量銳度;頻譜相關(guān)度表示當前音頻幀的信號諧波結(jié)構(gòu)在相鄰幀間的穩(wěn)定度;濁音度參 數(shù)表示當前音頻幀與一個基音周期之前的信號的時域相關(guān)度;線性預(yù)測殘差能量傾斜度表 示音頻信號的線性預(yù)測殘差能量隨線性預(yù)測階數(shù)的升高而變化的程度; 所述存儲確認單元還用于,根據(jù)所述當前音頻幀的聲音活動性,確定是否將所述頻譜 高頻帶峰度、頻譜相關(guān)度和線性預(yù)測殘差能量傾斜度存儲于存儲器中; 所述存儲單元還用于,當存儲確認單元輸出需要存儲的結(jié)果時存儲所述頻譜高頻帶峰 度、頻譜相關(guān)度和線性預(yù)測殘差能量傾斜度; 所述分類單元具體用于,分別獲得存儲的頻譜波動、頻譜高頻帶峰度、頻譜相關(guān)度和線 性預(yù)測殘差能量傾斜度中有效數(shù)據(jù)的統(tǒng)計量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計量將所述音頻幀分 類為語音巾貞或者音樂中貞。
17. 根據(jù)權(quán)利要求16所述的任一裝置,其特征在于,所述分類單元包括: 計算單元,用于分別獲得存儲的頻譜波動有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù) 的均值,頻譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差; 判斷單元,用于當下列條件之一滿足時,將所述當前音頻幀分類為音樂幀,否則將所述 當前音頻幀分類為語音幀:所述頻譜波動有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶 峰度有效數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值; 或者線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差小于第四閾值。
18. -種音頻信號分類方法,其特征在于,包括: 將輸入音頻信號進行分幀處理; 獲得當前音頻幀的線性預(yù)測殘差能量傾斜度;所述線性預(yù)測殘差能量傾斜度表示音頻 信號的線性預(yù)測殘差能量隨線性預(yù)測階數(shù)的升高而變化的程度; 將線性預(yù)測殘差能量傾斜度存儲到存儲器中; 根據(jù)存儲器中預(yù)測殘差能量傾斜度部分數(shù)據(jù)的統(tǒng)計量,對所述音頻幀進行分類。
19. 根據(jù)權(quán)利要求18所述的方法,其特征在于,將線性預(yù)測殘差能量傾斜度存儲到存 儲器中之前還包括: 根據(jù)所述當前音頻幀的聲音活動性,確定是否將所述線性預(yù)測殘差能量傾斜度存儲于 存儲器中;并在確定需要存儲時將將所述線性預(yù)測殘差能量傾斜度存儲于存儲器中。
20. 根據(jù)權(quán)利要求18或19所述的方法,其特征在于,預(yù)測殘差能量傾斜度部分數(shù)據(jù)的 統(tǒng)計量為預(yù)測殘差能量傾斜度部分數(shù)據(jù)的方差;所述根據(jù)存儲器中預(yù)測殘差能量傾斜度部 分數(shù)據(jù)的統(tǒng)計量,對所述音頻幀進行分類包括: 將預(yù)測殘差能量傾斜度部分數(shù)據(jù)的方差與音樂分類閾值相比較,當所述預(yù)測殘差能量 傾斜度部分數(shù)據(jù)的方差小于音樂分類閾值時,將所述當前音頻幀分類為音樂幀;否則將所 述當前音頻幀分類為語音幀。
21. 根據(jù)權(quán)利要求18或19所述的方法,其特征在于,還包括: 獲得當前音頻幀的頻譜波動、頻譜高頻帶峰度和頻譜相關(guān)度,并存儲于對應(yīng)的存儲器 中; 其中,所述根據(jù)存儲器中預(yù)測殘差能量傾斜度部分數(shù)據(jù)的統(tǒng)計量,對所述音頻幀進行 分類包括: 分別獲得存儲的頻譜波動、頻譜高頻帶峰度、頻譜相關(guān)度和線性預(yù)測殘差能量傾斜度 中有效數(shù)據(jù)的統(tǒng)計量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計量將所述音頻幀分類為語音幀或者音樂 幀;所述有效數(shù)據(jù)的統(tǒng)計量指對存儲器中存儲的有效數(shù)據(jù)運算操作后獲得的數(shù)據(jù)值。
22. 根據(jù)權(quán)利要求21所述的方法,其特征在于,分別獲得存儲的頻譜波動、頻譜高頻帶 峰度、頻譜相關(guān)度和線性預(yù)測殘差能量傾斜度中有效數(shù)據(jù)的統(tǒng)計量,根據(jù)所述有效數(shù)據(jù)的 統(tǒng)計量將所述音頻幀分類為語音幀或者音樂幀包括: 分別獲得存儲的頻譜波動有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù)的均值,頻譜相 關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差; 當下列條件之一滿足時,將所述當前音頻幀分類為音樂幀,否則將所述當前音頻幀分 類為語音幀:所述頻譜波動有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶峰度有效數(shù)據(jù) 的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值;或者線性預(yù)測 殘差能量傾斜度有效數(shù)據(jù)的方差小于第四閾值。
23. 根據(jù)權(quán)利要求18或19所述的方法,其特征在于,還包括: 獲得當前音頻幀的頻譜音調(diào)個數(shù)和頻譜音調(diào)個數(shù)在低頻帶上的比率,并存儲于對應(yīng)的 存儲器; 其中,所述根據(jù)存儲器中預(yù)測殘差能量傾斜度部分數(shù)據(jù)的統(tǒng)計量,對所述音頻幀進行 分類包括: 分別獲得存儲的線性預(yù)測殘差能量傾斜度的統(tǒng)計量、頻譜音調(diào)個數(shù)的統(tǒng)計量; 根據(jù)所述線性預(yù)測殘差能量傾斜度的統(tǒng)計量、頻譜音調(diào)個數(shù)的統(tǒng)計量和頻譜音調(diào)個數(shù) 在低頻帶上的比率,將所述音頻幀分類為語音幀或者音樂幀;所述統(tǒng)計量指對存儲器中存 儲的數(shù)據(jù)運算操作后獲得的數(shù)據(jù)值。
24. 根據(jù)權(quán)利要求23所述的方法,其特征在于,分別獲得存儲的線性預(yù)測殘差能量傾 斜度的統(tǒng)計量、頻譜音調(diào)個數(shù)的統(tǒng)計量包括: 獲得存儲的線性預(yù)測殘差能量傾斜度的方差; 獲得存儲的頻譜音調(diào)個數(shù)的均值; 根據(jù)所述線性預(yù)測殘差能量傾斜度的統(tǒng)計量、頻譜音調(diào)個數(shù)的統(tǒng)計量和頻譜音調(diào)個數(shù) 在低頻帶上的比率,將所述音頻幀分類為語音幀或者音樂幀包括: 當當前音頻幀為活動幀,且滿足下列條件之一,則將所述當前音頻幀分類為音樂幀,否 則將所述當前音頻幀分類為語音幀: 線性預(yù)測殘差能量傾斜度的方差小于第五閾值;或 頻譜音調(diào)個數(shù)的均值大于第六閾值;或 頻譜音調(diào)個數(shù)在低頻帶上的比率小于第七閾值。
25. 根據(jù)權(quán)利要求18-24所述的任一方法,其特征在于,獲得當前音頻幀的線性預(yù)測殘 差能量傾斜度包括: 根據(jù)下列公式計算當前音頻幀的線性預(yù)測殘差能量傾斜度:
其中,epsP (i)表示當前音頻幀第i階線性預(yù)測的預(yù)測殘差能量;n為正整數(shù),表示線性 預(yù)測的階數(shù),其小于等于線性預(yù)測的最大階數(shù)。
26. 根據(jù)權(quán)利要求23-24所述的任一方法,其特征在于,獲得當前音頻幀的頻譜音調(diào)個 數(shù)和頻譜音調(diào)個數(shù)在低頻帶上的比率包括: 統(tǒng)計當前音頻幀在〇?8kHz頻帶上頻點峰值大于預(yù)定值的頻點數(shù)量作為頻譜音調(diào)個 數(shù); 計算當前音頻巾貞在〇?4kHz頻帶上頻點峰值大于預(yù)定值的頻點數(shù)量與0?8kHz頻帶 上頻點峰值大于預(yù)定值的頻點數(shù)量的比值,作為頻譜音調(diào)個數(shù)在低頻帶上的比率。
27. -種信號分類裝置,用于對輸入的音頻信號進行分類,其特征在于,包括: 分幀單元,用于對輸入音頻信號進行分幀處理; 參數(shù)獲得單元,用于獲得當前音頻幀的線性預(yù)測殘差能量傾斜度;所述線性預(yù)測殘差 能量傾斜度表示音頻信號的線性預(yù)測殘差能量隨線性預(yù)測階數(shù)的升高而變化的程度; 存儲單元,用于存儲線性預(yù)測殘差能量傾斜度; 分類單元,用于根據(jù)存儲器中預(yù)測殘差能量傾斜度部分數(shù)據(jù)的統(tǒng)計量,對所述音頻幀 進行分類。
28. 根據(jù)權(quán)利要求27所述的裝置,其特征在于,還包括: 存儲確認單元,用于根據(jù)所述當前音頻幀的聲音活動性,確定是否將所述線性預(yù)測殘 差能量傾斜度存儲于存儲器中; 所述存儲單元具體用于,當存儲確認單元確認需要確定需要存儲時將將所述線性預(yù)測 殘差能量傾斜度存儲于存儲器中。
29. 根據(jù)權(quán)利要求27或28所述的裝置,其特征在于, 預(yù)測殘差能量傾斜度部分數(shù)據(jù)的統(tǒng)計量為預(yù)測殘差能量傾斜度部分數(shù)據(jù)的方差; 所述分類單元具體用于將預(yù)測殘差能量傾斜度部分數(shù)據(jù)的方差與音樂分類閾值相比 較,當所述預(yù)測殘差能量傾斜度部分數(shù)據(jù)的方差小于音樂分類閾值時,將所述當前音頻幀 分類為音樂幀;否則將所述當前音頻幀分類為語音幀。
30. 根據(jù)權(quán)利要求27或28所述的裝置,其特征在于,參數(shù)獲得單元還用于:獲得當前 音頻幀的頻譜波動、頻譜高頻帶峰度和頻譜相關(guān)度,并存儲于對應(yīng)的存儲器中; 所述分類單元具體用于:分別獲得存儲的頻譜波動、頻譜高頻帶峰度、頻譜相關(guān)度和線 性預(yù)測殘差能量傾斜度中有效數(shù)據(jù)的統(tǒng)計量,根據(jù)所述有效數(shù)據(jù)的統(tǒng)計量將所述音頻幀分 類為語音幀或者音樂幀;所述有效數(shù)據(jù)的統(tǒng)計量指對存儲器中存儲的有效數(shù)據(jù)運算操作后 獲得的數(shù)據(jù)值。
31. 根據(jù)權(quán)利要求30所述的裝置,其特征在于,所述分類單元包括: 計算單元,用于分別獲得存儲的頻譜波動有效數(shù)據(jù)的均值,頻譜高頻帶峰度有效數(shù)據(jù) 的均值,頻譜相關(guān)度有效數(shù)據(jù)的均值和線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差; 判斷單元,用于當下列條件之一滿足時,將所述當前音頻幀分類為音樂幀,否則將所述 當前音頻幀分類為語音幀:所述頻譜波動有效數(shù)據(jù)的均值小于第一閾值;或者頻譜高頻帶 峰度有效數(shù)據(jù)的均值大于第二閾值;或者所述頻譜相關(guān)度有效數(shù)據(jù)的均值大于第三閾值; 或者線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差小于第四閾值。
32. 根據(jù)權(quán)利要求27或28所述的裝置,其特征在于,所述參數(shù)獲得單元還用于:獲得 當前音頻幀的頻譜音調(diào)個數(shù)和頻譜音調(diào)個數(shù)在低頻帶上的比率,并存儲于存儲器; 所述分類單元具體用于:分別獲得存儲的線性預(yù)測殘差能量傾斜度的統(tǒng)計量、頻譜音 調(diào)個數(shù)的統(tǒng)計量;根據(jù)所述線性預(yù)測殘差能量傾斜度的統(tǒng)計量、頻譜音調(diào)個數(shù)的統(tǒng)計量和 頻譜音調(diào)個數(shù)在低頻帶上的比率,將所述音頻幀分類為語音幀或者音樂幀;所述有效數(shù)據(jù) 的統(tǒng)計量指對存儲器中存儲的數(shù)據(jù)運算操作后獲得的數(shù)據(jù)值。
33. 根據(jù)權(quán)利要求32所述的裝置,其特征在于,所述分類單元包括: 計算單元,用于獲得線性預(yù)測殘差能量傾斜度有效數(shù)據(jù)的方差和存儲的頻譜音調(diào)個數(shù) 的均值; 判斷單元,用于當當前音頻幀為活動幀,且滿足下列條件之一,則將所述當前音頻幀分 類為音樂幀,否則將所述當前音頻幀分類為語音幀:線性預(yù)測殘差能量傾斜度的方差小于 第五閾值;或頻譜音調(diào)個數(shù)的均值大于第六閾值;或頻譜音調(diào)個數(shù)在低頻帶上的比率小于 第七閾值。
34. 根據(jù)權(quán)利要求27-33所述的任一裝置,其特征在于,所述參數(shù)獲得單元根據(jù)下列公 式計算當前音頻幀的線性預(yù)測殘差能量傾斜度:
其中,epsP (i)表示當前音頻幀第i階線性預(yù)測的預(yù)測殘差能量;n為正整數(shù),表示線性 預(yù)測的階數(shù),其小于等于線性預(yù)測的最大階數(shù)。
35. 根據(jù)權(quán)利要求32-33所述的任一裝置,其特征在于,所述參數(shù)獲得單元用于統(tǒng)計當 前音頻幀在0?8kHz頻帶上頻點峰值大于預(yù)定值的頻點數(shù)量作為頻譜音調(diào)個數(shù);所述參數(shù) 獲得單元用于計算當前音頻幀在0?4kHz頻帶上頻點峰值大于預(yù)定值的頻點數(shù)量與0? 8kHz頻帶上頻點峰值大于預(yù)定值的頻點數(shù)量的比值,作為頻譜音調(diào)個數(shù)在低頻帶上的比 率。
【文檔編號】G10L25/51GK104347067SQ201310339218
【公開日】2015年2月11日 申請日期:2013年8月6日 優(yōu)先權(quán)日:2013年8月6日
【發(fā)明者】王喆 申請人:華為技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1