專利名稱:數(shù)字音頻變速處理方法及其設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號處理技術(shù),特別涉及音頻信號處理技術(shù)中的音頻變速處理。
背景技術(shù):
在各種多媒體應(yīng)用中,錄制好的數(shù)字音頻的重放速度調(diào)整具有廣泛的需求。比如 降低語音重放的音速,可以有助于有聽力或理解力障礙的人群以及外語初學(xué)者提高聽音的 可懂度;而提高音速,則可幫助聽者節(jié)省從錄音中獲取信息的時(shí)間。此外,對音樂重放音速 的調(diào)整還可以改變音樂的節(jié)奏,獲得獨(dú)特的效果;對于視頻中的伴音,音頻重放的音速調(diào) 整,可以使得視頻在加快或放慢回放速度的同時(shí),使觀眾可以聽到同步的,沒有發(fā)生畸變的 伴音。但是,直接對音頻進(jìn)行播放速度調(diào)整而不做任何處理,會因?yàn)槁曇糁蓄l率成分的 線性遷徙而帶來音調(diào)和音色的變化。比如說,在降低音速時(shí),聲音會變低沉,語音則變現(xiàn)為 如沉睡中發(fā)出的鼻音;在提高音速時(shí),聲音會變得尖銳,語音則表現(xiàn)為如幼童快速講話。因 此,為了保證音頻僅僅發(fā)生了音速變化,而音調(diào)和音色均不發(fā)生變換,沒有明顯畸變,需要 對數(shù)字音頻進(jìn)行處理。目前,大都采用基于重疊相加技術(shù)的算法或者基于時(shí)頻變換和頻譜 處理的算法進(jìn)行音頻的變速處理。關(guān)于音頻變速處理的技術(shù)也可參見專利號為“5952596” 的美國專利。然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),在基于重疊相加(overlap add)技術(shù)實(shí)現(xiàn)的算法中, 需要通過檢測波形的相似程度(waveform similarity)來確定重疊窗的時(shí)延,這類方法只 能處理具有明顯基音周期的語音,它使用時(shí)域或頻域的互相關(guān)檢測技術(shù)取得相似波形的時(shí) 延,以此作為重疊窗的時(shí)延,因此計(jì)算消耗較大且處理音質(zhì)一般;而基于時(shí)頻變換和頻譜處 理的算法可以處理包括語音和音樂的通用音頻(general audio),它對原始數(shù)字音頻進(jìn)行 重采樣以變換采樣率,然后將改變了采樣率的數(shù)字音頻轉(zhuǎn)換到頻域獲得音頻的頻譜,隨后 對頻譜進(jìn)行頻譜搬移(frequency shift),將處理后的頻譜變換回時(shí)域,這個(gè)算法一般使用 可完美重構(gòu)的短時(shí)傅里葉變換(short time Fourier transform)實(shí)現(xiàn),為能獲得較高的處 理音質(zhì),短時(shí)傅里葉變換需要一次處理較長的音頻,這類方法雖然能獲得比較好的處理音 質(zhì),但是它的計(jì)算量和存儲量較大,在手持和移動設(shè)備上,因?yàn)橛?jì)算能力和功耗的約束,該 算法幾乎無法實(shí)現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種數(shù)字音頻變速處理方法及其設(shè)備,對通用數(shù)字音頻的 變速處理可以以更低的計(jì)算量實(shí)現(xiàn),并且得到較高的處理音質(zhì)。為解決上述技術(shù)問題,本發(fā)明的實(shí)施方式提供了一種數(shù)字音頻變速處理方法,包 含以下步驟A將待進(jìn)行音頻變速處理的音頻信號數(shù)據(jù)填充到緩沖區(qū),直至所述緩沖區(qū)的已填 充長度達(dá)到數(shù)據(jù)處理長度Lp ;
B將所述緩沖區(qū)中待處理的音頻信號數(shù)據(jù)通過以下方式進(jìn)行加窗處理,得到輸出
信號Xout 如果所述音頻變速處理為加快速度的處理,則將所述緩沖區(qū)中長度為Lp的音頻信 號數(shù)據(jù)與長度為Lw的窗函數(shù)I左端對齊后逐點(diǎn)乘上I得到&,將所述緩沖區(qū)中長度為Lp 的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)Wk右端對齊后逐點(diǎn)乘上Wk得到&,將得到的^和& 相加,得到Lw個(gè)所述輸出信號x。ut ;如果所述音頻變速處理為放慢速度的處理,則將所述緩沖區(qū)中長度為Lp的音頻信 號數(shù)據(jù)與長度為Lw的窗函數(shù)I右端對齊后逐點(diǎn)乘上I得到^,將所述緩沖區(qū)中長度為Lp 的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)Wk左端對齊后逐點(diǎn)乘上Wk得到&,將得到的^和& 相加,得到Lw個(gè)所述輸出信號x。ut ;C將已完成加窗處理的Ld個(gè)信號移出緩沖區(qū),在緩沖區(qū)尾部繼續(xù)填充待處理的音 頻信號數(shù)據(jù),直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ;重復(fù)執(zhí)行所述步驟B和步驟C,直至完成所有的音頻信號數(shù)據(jù)的音頻變速處理;其中,所述I為具有幅度衰減特性的窗函數(shù),所述Wk為具有幅度增加特性的窗函 數(shù),Wk各有Lw個(gè)點(diǎn)的數(shù)據(jù),所對應(yīng)的點(diǎn)相加等于1或近似于1。本發(fā)明的實(shí)施方式還提供了一種數(shù)字音頻變速處理設(shè)備,包含填充模塊,用于將待進(jìn)行音頻變速處理的音頻信號數(shù)據(jù)填充到緩沖區(qū),直至所述 緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ;加窗處理模塊,用于將所述緩沖區(qū)中待處理的音頻信號數(shù)據(jù)進(jìn)行加窗處理,得到 輸出信號x。ut ;所述加窗處理模塊在所述音頻變速處理為加快速度的處理時(shí),將所述緩沖區(qū) 中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)\左端對齊后逐點(diǎn)乘上\得到&,將所 述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)^右端對齊后逐點(diǎn)乘上Wk得到 Xr,將得到的^和&相加,得到Lw個(gè)所述輸出信號X。ut ;在所述音頻變速處理為放慢速度的 處理時(shí),將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lff的窗函數(shù)I右端對齊后逐 點(diǎn)乘上I得到^,將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)Wk左端 對齊后逐點(diǎn)乘上Wk得到χκ,將得到的&和&相加,得到Lw個(gè)所述輸出信號x。ut ;移位模塊,用于將已完成加窗處理的Ld個(gè)信號移出緩沖區(qū),并指示所述填充模塊 在緩沖區(qū)尾部繼續(xù)填充待處理的音頻信號數(shù)據(jù),直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處 理長度Lp ;當(dāng)所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp時(shí),觸發(fā)所述加窗處理模塊的處 理;當(dāng)所述加窗處理模塊得到Lw個(gè)所述輸出信號x。ut時(shí),觸發(fā)所述移位模塊的處理,直至完 成所有的音頻信號數(shù)據(jù)的音頻變速處理;其中,所述I為具有幅度衰減特性的窗函數(shù),所述Wk為具有幅度增加特性的窗函 數(shù),Wk各有Lw個(gè)點(diǎn)的數(shù)據(jù),所對應(yīng)的點(diǎn)相加等于1或近似于1。本發(fā)明實(shí)施方式與現(xiàn)有技術(shù)相比,主要區(qū)別及其效果在于使用具有幅度衰減、增加特性的一對完美重構(gòu)窗函數(shù)I和Wk,按不同的時(shí)延作用 于原始數(shù)字音頻獲得一對加窗數(shù)據(jù),利用加窗數(shù)據(jù)重構(gòu)音頻波形,獲得變速處理后的音頻。 由于不需要對音頻的基音周期和相關(guān)性進(jìn)行檢測,也不需要進(jìn)行時(shí)頻變換,因此計(jì)算量極 低。而且,由于利用了音頻信號自身波形的壓縮和引入來實(shí)現(xiàn)播放內(nèi)容的時(shí)間增減,不對音頻波形本身做改動,因此能更多地保持原有音質(zhì)。進(jìn)一步地,在對緩沖區(qū)中待處理的音頻信號數(shù)據(jù)進(jìn)行加窗處理時(shí),W^和Wk為所對 應(yīng)的點(diǎn)相加等于1的初始重構(gòu)窗函數(shù);或者,W^和Wk為根據(jù)音頻信號數(shù)據(jù)的回聲類型所選 擇的不同權(quán)值分布的重構(gòu)窗函數(shù);不同權(quán)值分布的重構(gòu)窗函數(shù)分別單獨(dú)生成,或者通過對 初始重構(gòu)窗的變換得到。由于音頻壓縮(加快速度)是將時(shí)間被壓縮掉的音頻信息平滑 地分散在處理后的縮短的音頻數(shù)據(jù)上;而音頻擴(kuò)展(放慢速度)則是通過引入過去和未來 (相對參照數(shù)據(jù)時(shí)間上較新)的音頻信息進(jìn)行平滑地交迭,獲得更長的音頻數(shù)據(jù)。這種交迭 的過程都會把能量較大的信號引入或擴(kuò)散到原來能量很小的部分,造成過回聲(回聲在信 號發(fā)生后)和預(yù)回聲(回聲在信號發(fā)生前),因此在進(jìn)行加窗處理時(shí),可以進(jìn)一步地根據(jù)回 聲類型所選擇適合的重構(gòu)窗函數(shù),以進(jìn)一步保證變速后的音頻質(zhì)量。進(jìn)一步地,音頻信號數(shù)據(jù)的回聲類型根據(jù)音頻信號數(shù)據(jù)的塊能量或塊絕對值與預(yù) 設(shè)門限的判斷結(jié)果獲取。由于如果過去的信號大于現(xiàn)在的信號,容易發(fā)生過回聲;如果過去 的信號小于現(xiàn)在的信號,容易發(fā)生預(yù)回聲。因此以音頻信號的塊能量(或塊絕對值)作為 回聲類型判斷的依據(jù),可有效保證判斷結(jié)果的準(zhǔn)確性。進(jìn)一步地,初始重構(gòu)窗Wl和Wk如下
權(quán)利要求
1.一種數(shù)字音頻變速處理方法,其特征在于,包含以下步驟A將待進(jìn)行音頻變速處理的音頻信號數(shù)據(jù)填充到緩沖區(qū),直至所述緩沖區(qū)的已填充長 度達(dá)到數(shù)據(jù)處理長度Lp ;B將所述緩沖區(qū)中待處理的音頻信號數(shù)據(jù)通過以下方式進(jìn)行加窗處理,得到輸出信號Xout :如果所述音頻變速處理為加快速度的處理,則將所述緩沖區(qū)中長度為Lp的音頻信號數(shù) 據(jù)與長度為Lw的窗函數(shù)I左端對齊后逐點(diǎn)乘上I得到&,將所述緩沖區(qū)中長度為Lp的音 頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)^右端對齊后逐點(diǎn)乘上Wk得到&,將得到的^和&相加, 得到Lw個(gè)所述輸出信號x。ut;如果所述音頻變速處理為放慢速度的處理,則將所述緩沖區(qū)中長度為Lp的音頻信號數(shù) 據(jù)與長度為Lw的窗函數(shù)I右端對齊后逐點(diǎn)乘上I得到^,將所述緩沖區(qū)中長度為Lp的音 頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)^左端對齊后逐點(diǎn)乘上Wk得到&,將得到的^和&相加, 得到Lw個(gè)所述輸出信號x。ut;C將已完成加窗處理的Ld個(gè)信號移出緩沖區(qū),在緩沖區(qū)尾部繼續(xù)填充待處理的音頻信 號數(shù)據(jù),直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ;重復(fù)執(zhí)行所述步驟B和步驟C,直至完成所有的音頻信號數(shù)據(jù)的音頻變速處理;其中,所述I為具有幅度衰減特性的窗函數(shù),所述Wk為具有幅度增加特性的窗函數(shù),W^ 和Wk各有Lw個(gè)點(diǎn)的數(shù)據(jù),所對應(yīng)的點(diǎn)相加等于1或近似于1。
2.根據(jù)權(quán)利要求1所述的數(shù)字音頻變速處理方法,其特征在于,在對所述緩沖區(qū)中待 處理的音頻信號數(shù)據(jù)進(jìn)行加窗處理時(shí),所述I和^為所對應(yīng)的點(diǎn)相加等于1的初始重構(gòu)窗 函數(shù);或者,所述\和Wk為根據(jù)音頻信號數(shù)據(jù)的回聲類型所選擇的不同權(quán)值分布的重構(gòu)窗 函數(shù);所述不同權(quán)值分布的重構(gòu)窗函數(shù)分別單獨(dú)生成,或者通過對所述初始重構(gòu)窗的變換 得到。
3.根據(jù)權(quán)利要求2所述的數(shù)字音頻變速處理方法,其特征在于,所述音頻信號數(shù)據(jù)的 回聲類型根據(jù)所述音頻信號數(shù)據(jù)的塊能量或塊絕對值與預(yù)設(shè)門限的判斷結(jié)果獲取。
4.根據(jù)權(quán)利要求2所述的數(shù)字音頻變速處理方法,其特征在于,所述通過對初始重構(gòu) 窗的變換,得到不同權(quán)值分布的重構(gòu)窗函數(shù)的方式如下對所述初始重構(gòu)窗進(jìn)行整數(shù)比例地抽值,取得變換窗型的緩變部分,而兩端的不變部 分則分別用0或1進(jìn)行填充,直至達(dá)到所述初始重構(gòu)窗的原始長度。
5.根據(jù)權(quán)利要求2所述的數(shù)字音頻變速處理方法,其特征在于,所述初始重構(gòu)窗I和 We如下W ⑷ J(2"Lw"2A: = l,2,...,Lw/2{l-(2(Lw+l-)t)/Lw)72 Kw/2 + l,.",LwWl(k) = l-ffE(k), k = 1,2,…,Lff
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的數(shù)字音頻變速處理方法,其特征在于,所述Lw 為預(yù)先設(shè)定的值,根據(jù)所述Lw和播放速率r得到所述Ld和Lp的值。
7.一種數(shù)字音頻變速處理設(shè)備,其特征在于,包含填充模塊,用于將待進(jìn)行音頻變速處理的音頻信號數(shù)據(jù)填充到緩沖區(qū),直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp ;加窗處理模塊,用于將所述緩沖區(qū)中待處理的音頻信號數(shù)據(jù)進(jìn)行加窗處理,得到輸出 信號x。ut ;所述加窗處理模塊在所述音頻變速處理為加快速度的處理時(shí),將所述緩沖區(qū)中長 度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)\左端對齊后逐點(diǎn)乘上\得到&,將所述緩 沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)Wk右端對齊后逐點(diǎn)乘上Wk得到χκ, 將得到的^和^相加,得到Lw個(gè)所述輸出信號x。ut ;在所述音頻變速處理為放慢速度的處 理時(shí),將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)I右端對齊后逐點(diǎn) 乘上I得到^,將所述緩沖區(qū)中長度為Lp的音頻信號數(shù)據(jù)與長度為Lw的窗函數(shù)Wk左端對 齊后逐點(diǎn)乘上Wk得到χκ,將得到的&和&相加,得到Lw個(gè)所述輸出信號x。ut ;移位模塊,用于將已完成加窗處理的Ld個(gè)信號移出緩沖區(qū),并指示所述填充模塊在緩 沖區(qū)尾部繼續(xù)填充待處理的音頻信號數(shù)據(jù),直至所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長 度Lp ;當(dāng)所述緩沖區(qū)的已填充長度達(dá)到數(shù)據(jù)處理長度Lp時(shí),觸發(fā)所述加窗處理模塊的處理; 當(dāng)所述加窗處理模塊得到Lw個(gè)所述輸出信號x。ut時(shí),觸發(fā)所述移位模塊的處理,直至完成所 有的音頻信號數(shù)據(jù)的音頻變速處理;其中,所述I為具有幅度衰減特性的窗函數(shù),所述Wk為具有幅度增加特性的窗函數(shù),W^ 和Wk各有Lw個(gè)點(diǎn)的數(shù)據(jù),所對應(yīng)的點(diǎn)相加等于1或近似于1。
8.根據(jù)權(quán)利要求7所述的數(shù)字音頻變速處理設(shè)備,其特征在于,所述用于進(jìn)行加窗處 理的窗函數(shù)I和Wk為所對應(yīng)的點(diǎn)相加等于1的初始重構(gòu)窗函數(shù);或者,所述用于進(jìn)行加窗處理的窗函數(shù)\和Wk為根據(jù)音頻信號數(shù)據(jù)的回聲類型所選擇的不 同權(quán)值分布的重構(gòu)窗函數(shù);所述不同權(quán)值分布的重構(gòu)窗函數(shù)分別單獨(dú)生成,或者通過對所 述初始重構(gòu)窗的變換得到。
9.根據(jù)權(quán)利要求8所述的數(shù)字音頻變速處理設(shè)備,其特征在于,還包含窗函數(shù)選擇模 塊,用于根據(jù)所述音頻信號數(shù)據(jù)的塊能量或塊絕對值與預(yù)設(shè)門限的判斷結(jié)果獲取所述音頻 信號數(shù)據(jù)的回聲類型,并將獲取的回聲類型輸出給所述加窗處理模塊。
10.根據(jù)權(quán)利要求8所述的數(shù)字音頻變速處理設(shè)備,其特征在于,所述通過對初始重構(gòu) 窗的變換,得到不同權(quán)值分布的重構(gòu)窗函數(shù)的方式如下對所述初始重構(gòu)窗進(jìn)行整數(shù)比例地抽值,取得變換窗型的緩變部分,而兩端的不變部 分則分別用0或1進(jìn)行填充,直至達(dá)到所述初始重構(gòu)窗的原始長度。
11.根據(jù)權(quán)利要求8所述的數(shù)字音頻變速處理設(shè)備,其特征在于,所述初始重構(gòu)窗I和 We如下
12.根據(jù)權(quán)利要求7至11中任一項(xiàng)所述的數(shù)字音頻變速處理設(shè)備,其特征在于,所述Lw 為預(yù)先設(shè)定的值,根據(jù)所述Lw和播放速率r得到所述Ld和Lp的值。
全文摘要
本發(fā)明涉及音頻信號處理技術(shù),公開了一種數(shù)字音頻變速處理方法及其設(shè)備。本發(fā)明中,使用具有幅度衰減、增加特性的一對完美重構(gòu)窗函數(shù)WL和WR,按不同的時(shí)延作用于原始數(shù)字音頻獲得一對加窗數(shù)據(jù),利用加窗數(shù)據(jù)重構(gòu)音頻波形,獲得變速處理后的音頻。由于不需要對音頻的基音周期和相關(guān)性進(jìn)行檢測,也不需要進(jìn)行時(shí)頻變換,因此計(jì)算量極低。而且,利用了音頻信號自身波形的壓縮和引入來實(shí)現(xiàn)播放內(nèi)容的時(shí)間增減,不對音頻波形本身做改動,因此能更多地保持原有音質(zhì)。
文檔編號G10H7/12GK102117613SQ20091020216
公開日2011年7月6日 申請日期2009年12月31日 優(yōu)先權(quán)日2009年12月31日
發(fā)明者吳晟, 張本好, 徐晶明, 李曇, 林福輝, 董樹景 申請人:展訊通信(上海)有限公司