數(shù)字音頻變速處理方法及其設(shè)備的制作方法

文檔序號：2830164閱讀：448來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：數(shù)字音頻變速處理方法及其設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻信號處理技術(shù)，特別涉及音頻信號處理技術(shù)中的音頻變速處理。
背景技術(shù)：
在各種多媒體應(yīng)用中，錄制好的數(shù)字音頻的重放速度調(diào)整具有廣泛的需求。比如降低語音重放的音速，可以有助于有聽力或理解力障礙的人群以及外語初學(xué)者提高聽音的可懂度；而提高音速，則可幫助聽者節(jié)省從錄音中獲取信息的時(shí)間。此外，對音樂重放音速的調(diào)整還可以改變音樂的節(jié)奏，獲得獨(dú)特的效果；對于視頻中的伴音，音頻重放的音速調(diào) 整，可以使得視頻在加快或放慢回放速度的同時(shí)，使觀眾可以聽到同步的，沒有發(fā)生畸變的伴音。但是，直接對音頻進(jìn)行播放速度調(diào)整而不做任何處理，會因?yàn)槁曇糁蓄l率成分的線性遷徙而帶來音調(diào)和音色的變化。比如說，在降低音速時(shí)，聲音會變低沉，語音則變現(xiàn)為如沉睡中發(fā)出的鼻音；在提高音速時(shí)，聲音會變得尖銳，語音則表現(xiàn)為如幼童快速講話。因此，為了保證音頻僅僅發(fā)生了音速變化，而音調(diào)和音色均不發(fā)生變換，沒有明顯畸變，需要對數(shù)字音頻進(jìn)行處理。目前，大都采用基于重疊相加技術(shù)的算法或者基于時(shí)頻變換和頻譜處理的算法進(jìn)行音頻的變速處理。關(guān)于音頻變速處理的技術(shù)也可參見專利號為“5952596” 的美國專利。然而，本發(fā)明的發(fā)明人發(fā)現(xiàn)，在基于重疊相加(overlap add)技術(shù)實(shí)現(xiàn)的算法中，需要通過檢測波形的相似程度(waveform similarity)來確定重疊窗的時(shí)延，這類方法只能處理具有明顯基音周期的語音，它使用時(shí)域或頻域的互相關(guān)檢測技術(shù)取得相似波形的時(shí) 延，以此作為重疊窗的時(shí)延，因此計(jì)算消耗較大且處理音質(zhì)一般；而基于時(shí)頻變換和頻譜處理的算法可以處理包括語音和音樂的通用音頻(general audio)，它對原始數(shù)字音頻進(jìn)行重采樣以變換采樣率，然后將改變了采樣率的數(shù)字音頻轉(zhuǎn)換到頻域獲得音頻的頻譜，隨后對頻譜進(jìn)行頻譜搬移(frequency shift)，將處理后的頻譜變換回時(shí)域，這個(gè)算法一般使用可完美重構(gòu)的短時(shí)傅里葉變換(short time Fourier transform)實(shí)現(xiàn)，為能獲得較高的處理音質(zhì)，短時(shí)傅里葉變換需要一次處理較長的音頻，這類方法雖然能獲得比較好的處理音質(zhì)，但是它的計(jì)算量和存儲量較大，在手持和移動設(shè)備上，因?yàn)橛?jì)算能力和功耗的約束，該算法幾乎無法實(shí)現(xiàn)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種數(shù)字音頻變速處理方法及其設(shè)備，對通用數(shù)字音頻的變速處理可以以更低的計(jì)算量實(shí)現(xiàn)，并且得到較高的處理音質(zhì)。為解決上述技術(shù)問題，本發(fā)明的實(shí)施方式提供了一種數(shù)字音頻變速處理方法，包含以下步驟A將待進(jìn)行音頻變速處理的音頻信號數(shù)據(jù)填充到緩沖區(qū)，直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ；
B將所述緩沖區(qū)中待處理的音頻信號數(shù)據(jù)通過以下方式進(jìn)行加窗處理，得到輸出
信號Xout 如果所述音頻變速處理為加快速度的處理，則將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)I左端對齊后逐點(diǎn)乘上I得到&，將所述緩沖區(qū)中長度為Lp 的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)Wk右端對齊后逐點(diǎn)乘上Wk得到&，將得到的^和& 相加，得到Lw個(gè)所述輸出信號x。ut ；如果所述音頻變速處理為放慢速度的處理，則將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)I右端對齊后逐點(diǎn)乘上I得到^，將所述緩沖區(qū)中長度為Lp 的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)Wk左端對齊后逐點(diǎn)乘上Wk得到&，將得到的^和& 相加，得到Lw個(gè)所述輸出信號x。ut ；C將已完成加窗處理的Ld個(gè)信號移出緩沖區(qū)，在緩沖區(qū)尾部繼續(xù)填充待處理的音頻信號數(shù)據(jù)，直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ；重復(fù)執(zhí)行所述步驟B和步驟C，直至完成所有的音頻信號數(shù)據(jù)的音頻變速處理；其中，所述I為具有幅度衰減特性的窗函數(shù)，所述Wk為具有幅度增加特性的窗函數(shù)，Wk各有Lw個(gè)點(diǎn)的數(shù)據(jù)，所對應(yīng)的點(diǎn)相加等于1或近似于1。本發(fā)明的實(shí)施方式還提供了一種數(shù)字音頻變速處理設(shè)備，包含填充模塊，用于將待進(jìn)行音頻變速處理的音頻信號數(shù)據(jù)填充到緩沖區(qū)，直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ；加窗處理模塊，用于將所述緩沖區(qū)中待處理的音頻信號數(shù)據(jù)進(jìn)行加窗處理，得到輸出信號x。ut ；所述加窗處理模塊在所述音頻變速處理為加快速度的處理時(shí)，將所述緩沖區(qū) 中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)\左端對齊后逐點(diǎn)乘上\得到&，將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)^右端對齊后逐點(diǎn)乘上Wk得到 Xr,將得到的^和&相加，得到Lw個(gè)所述輸出信號X。ut ；在所述音頻變速處理為放慢速度的處理時(shí)，將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lff的窗函數(shù)I右端對齊后逐點(diǎn)乘上I得到^，將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)Wk左端對齊后逐點(diǎn)乘上Wk得到χκ，將得到的&和&相加，得到Lw個(gè)所述輸出信號x。ut ；移位模塊，用于將已完成加窗處理的Ld個(gè)信號移出緩沖區(qū)，并指示所述填充模塊在緩沖區(qū)尾部繼續(xù)填充待處理的音頻信號數(shù)據(jù)，直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ；當(dāng)所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp時(shí)，觸發(fā)所述加窗處理模塊的處理；當(dāng)所述加窗處理模塊得到Lw個(gè)所述輸出信號x。ut時(shí)，觸發(fā)所述移位模塊的處理，直至完成所有的音頻信號數(shù)據(jù)的音頻變速處理；其中，所述I為具有幅度衰減特性的窗函數(shù)，所述Wk為具有幅度增加特性的窗函數(shù)，Wk各有Lw個(gè)點(diǎn)的數(shù)據(jù)，所對應(yīng)的點(diǎn)相加等于1或近似于1。本發(fā)明實(shí)施方式與現(xiàn)有技術(shù)相比，主要區(qū)別及其效果在于使用具有幅度衰減、增加特性的一對完美重構(gòu)窗函數(shù)I和Wk，按不同的時(shí)延作用于原始數(shù)字音頻獲得一對加窗數(shù)據(jù)，利用加窗數(shù)據(jù)重構(gòu)音頻波形，獲得變速處理后的音頻。由于不需要對音頻的基音周期和相關(guān)性進(jìn)行檢測，也不需要進(jìn)行時(shí)頻變換，因此計(jì)算量極低。而且，由于利用了音頻信號自身波形的壓縮和引入來實(shí)現(xiàn)播放內(nèi)容的時(shí)間增減，不對音頻波形本身做改動，因此能更多地保持原有音質(zhì)。進(jìn)一步地，在對緩沖區(qū)中待處理的音頻信號數(shù)據(jù)進(jìn)行加窗處理時(shí)，W^和Wk為所對應(yīng)的點(diǎn)相加等于1的初始重構(gòu)窗函數(shù)；或者，W^和Wk為根據(jù)音頻信號數(shù)據(jù)的回聲類型所選擇的不同權(quán)值分布的重構(gòu)窗函數(shù)；不同權(quán)值分布的重構(gòu)窗函數(shù)分別單獨(dú)生成，或者通過對初始重構(gòu)窗的變換得到。由于音頻壓縮(加快速度)是將時(shí)間被壓縮掉的音頻信息平滑地分散在處理后的縮短的音頻數(shù)據(jù)上；而音頻擴(kuò)展(放慢速度)則是通過引入過去和未來 (相對參照數(shù)據(jù)時(shí)間上較新)的音頻信息進(jìn)行平滑地交迭，獲得更長的音頻數(shù)據(jù)。這種交迭的過程都會把能量較大的信號引入或擴(kuò)散到原來能量很小的部分，造成過回聲(回聲在信號發(fā)生后)和預(yù)回聲(回聲在信號發(fā)生前)，因此在進(jìn)行加窗處理時(shí)，可以進(jìn)一步地根據(jù)回聲類型所選擇適合的重構(gòu)窗函數(shù)，以進(jìn)一步保證變速后的音頻質(zhì)量。進(jìn)一步地，音頻信號數(shù)據(jù)的回聲類型根據(jù)音頻信號數(shù)據(jù)的塊能量或塊絕對值與預(yù) 設(shè)門限的判斷結(jié)果獲取。由于如果過去的信號大于現(xiàn)在的信號，容易發(fā)生過回聲；如果過去的信號小于現(xiàn)在的信號，容易發(fā)生預(yù)回聲。因此以音頻信號的塊能量(或塊絕對值)作為回聲類型判斷的依據(jù)，可有效保證判斷結(jié)果的準(zhǔn)確性。進(jìn)一步地，初始重構(gòu)窗Wl和Wk如下
權(quán)利要求
1.一種數(shù)字音頻變速處理方法，其特征在于，包含以下步驟A將待進(jìn)行音頻變速處理的音頻信號數(shù)據(jù)填充到緩沖區(qū)，直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ；B將所述緩沖區(qū)中待處理的音頻信號數(shù)據(jù)通過以下方式進(jìn)行加窗處理，得到輸出信號Xout :如果所述音頻變速處理為加快速度的處理，則將所述緩沖區(qū)中長度為Lp的音頻信號數(shù) 據(jù)與長度為Lw的窗函數(shù)I左端對齊后逐點(diǎn)乘上I得到&，將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)^右端對齊后逐點(diǎn)乘上Wk得到&，將得到的^和&相加，得到Lw個(gè)所述輸出信號x。ut;如果所述音頻變速處理為放慢速度的處理，則將所述緩沖區(qū)中長度為Lp的音頻信號數(shù) 據(jù)與長度為Lw的窗函數(shù)I右端對齊后逐點(diǎn)乘上I得到^，將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)^左端對齊后逐點(diǎn)乘上Wk得到&，將得到的^和&相加，得到Lw個(gè)所述輸出信號x。ut;C將已完成加窗處理的Ld個(gè)信號移出緩沖區(qū)，在緩沖區(qū)尾部繼續(xù)填充待處理的音頻信號數(shù)據(jù)，直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ；重復(fù)執(zhí)行所述步驟B和步驟C，直至完成所有的音頻信號數(shù)據(jù)的音頻變速處理；其中，所述I為具有幅度衰減特性的窗函數(shù)，所述Wk為具有幅度增加特性的窗函數(shù)，W^ 和Wk各有Lw個(gè)點(diǎn)的數(shù)據(jù)，所對應(yīng)的點(diǎn)相加等于1或近似于1。
2.根據(jù)權(quán)利要求1所述的數(shù)字音頻變速處理方法，其特征在于，在對所述緩沖區(qū)中待處理的音頻信號數(shù)據(jù)進(jìn)行加窗處理時(shí)，所述I和^為所對應(yīng)的點(diǎn)相加等于1的初始重構(gòu)窗函數(shù)；或者，所述\和Wk為根據(jù)音頻信號數(shù)據(jù)的回聲類型所選擇的不同權(quán)值分布的重構(gòu)窗函數(shù)；所述不同權(quán)值分布的重構(gòu)窗函數(shù)分別單獨(dú)生成，或者通過對所述初始重構(gòu)窗的變換得到。
3.根據(jù)權(quán)利要求2所述的數(shù)字音頻變速處理方法，其特征在于，所述音頻信號數(shù)據(jù)的回聲類型根據(jù)所述音頻信號數(shù)據(jù)的塊能量或塊絕對值與預(yù)設(shè)門限的判斷結(jié)果獲取。
4.根據(jù)權(quán)利要求2所述的數(shù)字音頻變速處理方法，其特征在于，所述通過對初始重構(gòu) 窗的變換，得到不同權(quán)值分布的重構(gòu)窗函數(shù)的方式如下對所述初始重構(gòu)窗進(jìn)行整數(shù)比例地抽值，取得變換窗型的緩變部分，而兩端的不變部分則分別用0或1進(jìn)行填充，直至達(dá)到所述初始重構(gòu)窗的原始長度。
5.根據(jù)權(quán)利要求2所述的數(shù)字音頻變速處理方法，其特征在于，所述初始重構(gòu)窗I和 We如下W ⑷ J(2"Lw"2A: = l，2,...，Lw/2{l-(2(Lw+l-)t)/Lw)72 Kw/2 + l,.",LwWl(k) = l-ffE(k), k = 1,2,…，Lff
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的數(shù)字音頻變速處理方法，其特征在于，所述Lw 為預(yù)先設(shè)定的值，根據(jù)所述Lw和播放速率r得到所述Ld和Lp的值。
7.一種數(shù)字音頻變速處理設(shè)備，其特征在于，包含填充模塊，用于將待進(jìn)行音頻變速處理的音頻信號數(shù)據(jù)填充到緩沖區(qū)，直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ；加窗處理模塊，用于將所述緩沖區(qū)中待處理的音頻信號數(shù)據(jù)進(jìn)行加窗處理，得到輸出信號x。ut ；所述加窗處理模塊在所述音頻變速處理為加快速度的處理時(shí)，將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)\左端對齊后逐點(diǎn)乘上\得到&，將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)Wk右端對齊后逐點(diǎn)乘上Wk得到χκ，將得到的^和^相加，得到Lw個(gè)所述輸出信號x。ut ；在所述音頻變速處理為放慢速度的處理時(shí)，將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)I右端對齊后逐點(diǎn) 乘上I得到^，將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)Wk左端對齊后逐點(diǎn)乘上Wk得到χκ，將得到的&和&相加，得到Lw個(gè)所述輸出信號x。ut ；移位模塊，用于將已完成加窗處理的Ld個(gè)信號移出緩沖區(qū)，并指示所述填充模塊在緩沖區(qū)尾部繼續(xù)填充待處理的音頻信號數(shù)據(jù)，直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ；當(dāng)所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp時(shí)，觸發(fā)所述加窗處理模塊的處理；當(dāng)所述加窗處理模塊得到Lw個(gè)所述輸出信號x。ut時(shí)，觸發(fā)所述移位模塊的處理，直至完成所有的音頻信號數(shù)據(jù)的音頻變速處理；其中，所述I為具有幅度衰減特性的窗函數(shù)，所述Wk為具有幅度增加特性的窗函數(shù)，W^ 和Wk各有Lw個(gè)點(diǎn)的數(shù)據(jù)，所對應(yīng)的點(diǎn)相加等于1或近似于1。
8.根據(jù)權(quán)利要求7所述的數(shù)字音頻變速處理設(shè)備，其特征在于，所述用于進(jìn)行加窗處理的窗函數(shù)I和Wk為所對應(yīng)的點(diǎn)相加等于1的初始重構(gòu)窗函數(shù)；或者，所述用于進(jìn)行加窗處理的窗函數(shù)\和Wk為根據(jù)音頻信號數(shù)據(jù)的回聲類型所選擇的不同權(quán)值分布的重構(gòu)窗函數(shù)；所述不同權(quán)值分布的重構(gòu)窗函數(shù)分別單獨(dú)生成，或者通過對所述初始重構(gòu)窗的變換得到。
9.根據(jù)權(quán)利要求8所述的數(shù)字音頻變速處理設(shè)備，其特征在于，還包含窗函數(shù)選擇模塊，用于根據(jù)所述音頻信號數(shù)據(jù)的塊能量或塊絕對值與預(yù)設(shè)門限的判斷結(jié)果獲取所述音頻信號數(shù)據(jù)的回聲類型，并將獲取的回聲類型輸出給所述加窗處理模塊。
10.根據(jù)權(quán)利要求8所述的數(shù)字音頻變速處理設(shè)備，其特征在于，所述通過對初始重構(gòu) 窗的變換，得到不同權(quán)值分布的重構(gòu)窗函數(shù)的方式如下對所述初始重構(gòu)窗進(jìn)行整數(shù)比例地抽值，取得變換窗型的緩變部分，而兩端的不變部分則分別用0或1進(jìn)行填充，直至達(dá)到所述初始重構(gòu)窗的原始長度。
11.根據(jù)權(quán)利要求8所述的數(shù)字音頻變速處理設(shè)備，其特征在于，所述初始重構(gòu)窗I和 We如下
12.根據(jù)權(quán)利要求7至11中任一項(xiàng)所述的數(shù)字音頻變速處理設(shè)備，其特征在于，所述Lw 為預(yù)先設(shè)定的值，根據(jù)所述Lw和播放速率r得到所述Ld和Lp的值。
全文摘要
本發(fā)明涉及音頻信號處理技術(shù)，公開了一種數(shù)字音頻變速處理方法及其設(shè)備。本發(fā)明中，使用具有幅度衰減、增加特性的一對完美重構(gòu)窗函數(shù)WL和WR，按不同的時(shí)延作用于原始數(shù)字音頻獲得一對加窗數(shù)據(jù)，利用加窗數(shù)據(jù)重構(gòu)音頻波形，獲得變速處理后的音頻。由于不需要對音頻的基音周期和相關(guān)性進(jìn)行檢測，也不需要進(jìn)行時(shí)頻變換，因此計(jì)算量極低。而且，利用了音頻信號自身波形的壓縮和引入來實(shí)現(xiàn)播放內(nèi)容的時(shí)間增減，不對音頻波形本身做改動，因此能更多地保持原有音質(zhì)。
文檔編號G10H7/12GK102117613SQ20091020216
公開日2011年7月6日申請日期2009年12月31日優(yōu)先權(quán)日2009年12月31日
發(fā)明者吳晟, 張本好, 徐晶明, 李曇, 林福輝, 董樹景申請人:展訊通信(上海)有限公司

完整全部詳細(xì)技術(shù)資料下載