專利名稱:音頻信號保真變速處理方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及一種對音頻信號進(jìn)行變速處理的方法,尤其涉及一種保真變速處理音頻信號的方法,包括保真變慢處理和保真變快處理方法。
普通的錄音信號放音系統(tǒng)(如錄音機(jī))一般用標(biāo)準(zhǔn)的速度進(jìn)行放音,輸出正常速度的語音。但在日常工作學(xué)習(xí)中,有時希望能改變放出的語音速度,如加快或減慢,尤其是減慢語速,這對于學(xué)習(xí)外語者有很大的幫助。在改變放音速度方面,傳統(tǒng)通常通過改變放音機(jī)的走帶速度來實現(xiàn)。這種方法的缺點(diǎn)是顯然的,即走帶速度改變,會導(dǎo)致放音磁頭輸出的信號頻率改變,雖然能改變放音速度,但也相應(yīng)地改變了聲音的頻率,導(dǎo)致音調(diào)、音色變化,語音效果變差,嚴(yán)重時會產(chǎn)生無法辨清語音內(nèi)容。
本發(fā)明的目的在于提供一種音頻信號保真變速處理方法,該處理方法能使處理后的音頻信號在保持原來音頻信號相對強(qiáng)弱、頻率、音調(diào)、音色等特征不變的情況下,使表達(dá)該信號內(nèi)容的速度放慢或加快。
眾所周知,任何的發(fā)聲行為,都有振動過程,即必須有作用力使物體產(chǎn)生振動,從而產(chǎn)生聲波,這個作用力是間歇的,而非連續(xù)的。被振動的物體在前一作用力消除之后,后一作用力到來之前,在物體剛性的作用下產(chǎn)生回復(fù)到原狀態(tài)的運(yùn)動,這樣便產(chǎn)生了振動。音頻信號就是這種機(jī)械振動的電表現(xiàn),其波形與機(jī)械振動相對應(yīng),所以在十分小的時間間歇內(nèi),它應(yīng)該可被看作是由微小的阻尼振動波所組成的。這些微小的,具有實際含義的一段阻尼振動波被稱為音元。根據(jù)本發(fā)明人試驗觀察,音元長度通常短于20毫秒。
根據(jù)上面的分析,本發(fā)明提出了一種音頻信號保真變速處理方法,它包括下列步驟將數(shù)字音頻信號進(jìn)行切割分成小段;在部分或全部小段后插入至少一段信息單元,以延長音頻信號。
上面提供的音頻信號保真變速處理方法為一種保真變慢處理方法,本發(fā)明的音頻信號保真變速處理方法還包括保真變快處理方法,該方法包括下列步驟將數(shù)字音頻信號進(jìn)行切割分成小段;間隔地將部分小段刪除,將未刪除的小段緊縮連接,以縮短音頻信號。
在這里所進(jìn)行的切割分段,可以以時間間隔為基本切割單位,或者以音頻信號中的零點(diǎn)數(shù)或極值點(diǎn)數(shù)為基本切割單位,也可以以音元個數(shù)為基本切割單位。其中,尤以以音元個數(shù)為基本切割單位為最佳。
在以時間間隔為基本切割單位時,其時間間隔長度為0.1-70毫秒,其中尤以1-20毫秒為最佳。
在以音頻信號中的零點(diǎn)數(shù)或極值點(diǎn)數(shù)為基本切割單位時,其零點(diǎn)或極值點(diǎn)數(shù)取2-82個,其中尤以4-24個為最佳。
在以音元個數(shù)為基本切割單位時,其音元個數(shù)取1-10個,其中尤以1-2個為最佳。
在這里所插入的信息單元具有被插入小段音頻信號的基本特征,其時間長度一般小于100毫秒。可以是插入點(diǎn)前一小段信號、經(jīng)衰減的插入點(diǎn)前一小段信號或時間長度小于50毫秒的空白信號。在對同一音頻信號進(jìn)行插入的過程中,可以插入上述信息單元中的一種,也可以是上述任意兩種,或三種。
從上面可以看出,本發(fā)明通過插入信息單元來增加音頻信號的長度,或者刪除某些信號小段來縮短音頻信號長度,因此,在重放經(jīng)如此處理后的音頻信號時并不改變信號頻率,能保持原來的音調(diào)和音色,所以本發(fā)明的處理方法屬于保真變速處理方法。這種處理技術(shù),不僅可應(yīng)用于語言學(xué)習(xí),而且在語音合成,語音識別,頻譜分析,樂譜記錄,音樂學(xué)習(xí)以及音樂器材和音響制品中的性能鑒定等方面有著廣泛的應(yīng)用前景。
下面將結(jié)合附圖來詳細(xì)描述本發(fā)明的實施例,本發(fā)明的其它目的和優(yōu)點(diǎn)將通過下面的描述表現(xiàn)出來。
圖1是一段音頻信號示意圖;圖2是阻尼振動波的波形;圖3是音頻信號切割點(diǎn)的示意圖;圖4是本發(fā)明實施例3的音元分割方法的流程圖;圖5是本發(fā)明實施例4的音元分割方法的流程圖;圖6是本發(fā)明實施例5的音元分割方法的流程圖;圖7是本發(fā)明實施例6的音元分割方法的流程圖;圖8是一段阻尼振動波及其阻尼振動包絡(luò)線示意圖;圖9A和B是本發(fā)明實施例7的音元分割方法的流程圖;圖10是本發(fā)明實施例8的音元分割方法的流程圖;圖11是本發(fā)明實施例9的音元分割方法的流程圖;圖12是阻尼振動包絡(luò)線修正前、后的曲線圖;圖13是本發(fā)明實施例11的刪除性狀相近似的小段的方法的流程圖;圖14是本發(fā)明實施例12的刪除性狀相近似的小段的方法的流程圖;圖15是實現(xiàn)本發(fā)明的音頻信號保真變速處理方法的計算機(jī)系統(tǒng)的方框圖。
在描述本發(fā)明的實施例之前,先敘述前面提到的音元。
如前面所述,本發(fā)明認(rèn)為任何音頻信號都是由音元連接構(gòu)成的。圖1示出了一段音頻信號,在這段音頻信號中包含了三個音元。從前面對音元的描述中可知音元是一作用力作用于物體時,物體因阻尼振動所產(chǎn)生的聲音單元。根據(jù)阻尼振動理論,阻尼振動波是逐漸收斂的,即在一個阻尼振動波中,后一極值(峰值和谷值)的絕對值總小于前一極值的絕對值(如圖2所示)。在同一個音元中,各極值總體上是收斂的,可以用阻尼振動包絡(luò)線方程來描述。
根據(jù)上面的分析,本發(fā)明認(rèn)為(發(fā)現(xiàn)),音元是音頻信號的基本單元,它包含了聲音的最基本信息,其長度一般不超過20毫秒。不同的音頻信號有不同的音元組成,音元與音元之間的差異與信號內(nèi)容有關(guān)。性狀相同或相近似的音元重復(fù)次數(shù)愈多,則表達(dá)同一內(nèi)容的聲音在時間上持續(xù)得愈長。本發(fā)明就是基于這一認(rèn)識而完成的。在傳統(tǒng)的各種音頻信號變速處理方法中,并不增加或減少聲音信息,而是通過如改變放音速度等手段在更長或更短的時間內(nèi)重放出所有原來的信息,因此,改變了單位時間內(nèi)重放出的信息量,當(dāng)這一改變超過了一定程度時,就造成了嚴(yán)重的失真。而本發(fā)明是通過在原音頻信號中增加或減少聲音信息來保持單位時間內(nèi)重放出的信息量不變,從而能保真地進(jìn)行變速處理。
實施例1為了在音頻信號中加入或刪除一定量的聲音信息,應(yīng)考慮的問題是在什么地方插入或刪除聲音信息,插入或刪除怎樣的信息。
音頻信號保真變速處理包括兩個方面音頻信號保真變慢處理和變快處理。先討論音頻信號保真變慢處理方法。首先將音頻信號切割成小段,每小段的長度應(yīng)在2-20毫秒之間。在部分或所有小段后插入一段信息單元。在確定了插入聲音信息的位置后,需進(jìn)一步確定插入多少聲音信息。這應(yīng)根據(jù)用戶所要求的變速的程度來決定,例如需要將聲音延長1/2,即原來正常放1分鐘的內(nèi)容,現(xiàn)在要放1.5分鐘。這就需要在原來的音頻信號中插入1/2倍的聲音信息,可以由如下幾種插入方法1.在每個切割點(diǎn)插入一段長度等于切割點(diǎn)前一小段的1/2的信息單元;2.在每隔一個切割點(diǎn)插入一段長度等于切割點(diǎn)前一小段的信息單元。
前一種插入方法屬于在全部小段后插入一段信息單元,而后一種插入方法屬于在部分小段后插入一段信息單元,是均勻地插入的,當(dāng)然也可以非均勻地插入。
再舉一例,如需要將聲音(音頻信號)延長1倍,即原來正常放1分鐘的內(nèi)容,現(xiàn)在要放2分鐘,這需要在原來的音頻信號中插入1倍的聲音信息,可以用如下幾種插入方法1.在每個切割點(diǎn)插入一段長度等于切割點(diǎn)前一小段的信息單元;2.在每個切割點(diǎn)插入一段長度小于100毫秒的信息單元,插入的信息單元的總長度等于需插入的音頻信號長度,在本例中為1分鐘;3.在每隔一個切割點(diǎn)插入兩段長度小于100毫秒的信息單元,插入的信息單元的總長度等于需插入的音頻信號長度,在這里為1分鐘。
當(dāng)需要將聲音延長更多倍時,在切割點(diǎn)后插入的信息單元的個數(shù)將相應(yīng)增多。
上面所插入的信息單元可以是如下幾種1.空白信號;2.插入點(diǎn)前一小段信號;3.經(jīng)衰減的插入點(diǎn)前一小段信號。
由于,如眼睛有視覺殘留一樣,人的耳朵也有聽覺殘留現(xiàn)象,因此在小段之后插入一段或數(shù)段小于50毫秒的空白信號是可行,但不宜插入過多。另外,上述三種信息單元可以單獨(dú)使用,也可以兩兩組合使用或者全部一起混合使用。
現(xiàn)在來討論音頻信號保真變快處理方法。切割方法與音頻信號保真變慢處理方法相同,將音頻信號切割成小段,每小段的長度在1-70毫秒之間?,F(xiàn)在假設(shè)需要將音頻信號縮短1/4,可以用如下方法進(jìn)行縮短,即每隔四個切割點(diǎn)刪除一個小段,這是一種均勻間隔地刪除小段的方法,也可以不均勻地進(jìn)行刪除,如隔3個切割點(diǎn)刪除一個小段,然后再隔5個切割點(diǎn)刪除一個小段,但總體來說,刪除的小段總數(shù)應(yīng)等于總的音頻信號的1/4。在刪除了小段之后,將未刪除的小段信號緊縮連接起來。
在本實施例中,切割小段的時間間隔取1-20毫秒,這是一種較佳的情況。一般,切割成的小段的長度可以在0.1-70毫秒內(nèi)任意選取。在同一次切割中,切割成的小段長度可以一致,也可以不一致,只要小段的長度在0.1-70毫秒內(nèi)即可。
在本實施例中所處理的信號都是數(shù)字信號,如果處理前音頻信號為模擬的,則應(yīng)先進(jìn)行模/數(shù)轉(zhuǎn)換。
實施例2在實施例1中,是以時間長度為標(biāo)準(zhǔn)進(jìn)行切割的,其切割點(diǎn)可能落在信號的任意位置上。如圖3所示,切割點(diǎn)可能落在A、B、C、或D點(diǎn)上,顯然,當(dāng)切割點(diǎn)位于A、B或C點(diǎn)上時,插入了信息單元或刪除了一些小段之后并不能保證使前后兩小段之間光滑地進(jìn)行連接,會產(chǎn)生一段突變,該段突變會使聲音變差。但如果能使切割點(diǎn)都位于零點(diǎn)(即圖3中的D點(diǎn))時,則能使前后小段之間光滑連接,從而降低失真,因此在本實施例中,以音頻信號中的零點(diǎn)或極值點(diǎn)數(shù)為切割的基本單位,在音頻信號的零點(diǎn)將音頻信號分割成小段,每個小段的長度在0.1-70毫秒之間或者包含2-82個零點(diǎn)或極值點(diǎn),較佳的取值范圍是每個小段的長度在1-20毫秒之間,或者每個小段包含4-24個零點(diǎn)或極值點(diǎn)。分割之后的插入和刪除方法與實施例1相同,這里不再重復(fù)。
實施例3在本說明書的前面,我們已經(jīng)說過,音元是音頻信號的基本單元,在實施例1和2中,雖然將音頻信號分割成了長度在0.1-70毫秒的小段,但這些小段的切割點(diǎn)往往將音元分割開,可能在一定程度上破壞了音元的完整性。
在本實施例中,以音元作為基本切割單位進(jìn)行切割分段,分成的每個小段包含有1-10個音元,其中尤以包含1-2個為較佳。
如上所述,音元是一作用力作用于物體時,物體因阻尼振動所產(chǎn)生的聲音單元,因此,音元的第一個峰值(極值)通常是最大的,我們把它稱為最大極值點(diǎn)。在以音元為單位進(jìn)行分割時,如果將切割點(diǎn)取在最大極值點(diǎn)前一個零點(diǎn),就能保證切割點(diǎn)不會將音元分割開,從而切割出完整的音元。
最大極值點(diǎn)可以通過把音元內(nèi)的各極值點(diǎn)進(jìn)行比較來確定。即可通過比較所有極值點(diǎn)的絕對值大小來確定,也可以通過單邊極值點(diǎn)的比較來確定。所謂單邊極值比較是指音元中正的極值(峰值)與正的極值之間的比較或指音元中負(fù)的極值(峰谷)的絕對值與負(fù)的極值的絕對值之間的比較。這兩種比較方法可以同時使用,也可以選其一種使用。考慮到實際尋找音元時的便利等原因,本實施例采用單邊極值比較中的正極值比較法來尋找最大極值。
根據(jù)阻尼振動的特性,用如下方法進(jìn)行音元分割。
如圖4所示,流程從100開始,并且設(shè)置小段包含的音元個數(shù)(S),通常,將一個小段中包含的音元個數(shù)設(shè)置成1-10,較佳的個數(shù)為1-2個。在步驟101,將計數(shù)器X置零,然后進(jìn)入102,取兩相鄰零點(diǎn)之間的各正樣值進(jìn)行比較;在步驟103,將在102中比較得到的其中一個最大值定為極值。然后取下一組兩相鄰零點(diǎn)之間的各正樣值進(jìn)行比較(104)。在步驟105,將其中一個最大值定為極值。進(jìn)入106,將最近得到的兩個極值作比較,如果在107,后一極值(即在105中得到的極值)不大于前一極值,說明后一極值與前一極值屬于同一音元,流程返回到步驟104,取下一組兩相鄰零點(diǎn)之間的各正樣值進(jìn)行比較,在步驟105,將其中一個最大值定為極值。再次進(jìn)入106,把最近得到的兩個極值進(jìn)行比較,在107,如果后一極值仍不大于前一極值,步驟仍返回104;如果后一極值大于前一極值,則說明一個新的音元開始,且該極值為后一音元的最大極值A(chǔ)0(108);進(jìn)入109,計數(shù)器加1(X=X+1),然后比較X和S(110),如果X<>S,則流程返回104,否則流程進(jìn)入111,將該最大極值的前一個零點(diǎn)作為切割點(diǎn),然后在112,用與在實施例1或2中所述的插入信息單元或刪除小段相同的方法,根據(jù)實際需要,延長或縮短音頻信號。此后,步驟再次返回101,進(jìn)行下一切割點(diǎn)的尋找。
從上可以看出,本實施例中切割出的小段均包含一個或數(shù)個完整的音元,不會出現(xiàn)切割點(diǎn)在音元中的情況,用這種方法切割,然后進(jìn)行插入或刪除處理,效果將優(yōu)于實施例1和2。
買施例4實施例3考慮的是一種較理想的狀態(tài),沒有把噪聲等因素考慮進(jìn)去。然而,在噪聲等因素的影響下,有時會出現(xiàn)在同一個音元中,極值并非嚴(yán)格逐漸遞減的情況。
圖5示出了本實施例進(jìn)行音元分割的方法,它考慮了噪聲等因素。圖5所示的方法基本上與圖4相同,區(qū)別在于,圖5的方法在圖4的方法中增加了步驟107A,該步驟在圖4的107之后,即在107判別出后一極值大于前一級值時,進(jìn)入107A,把最近得到的兩個極值進(jìn)行比較,如果后一極值大于前一極值一預(yù)定量時,步驟才進(jìn)入108,確定后一極值為后一音元的最大極值,否則,步驟返回104。這里的預(yù)定量可以根據(jù)音頻信號中噪聲等因素來確定,一般取前一極值的20%至40%,即當(dāng)后一極值與前一極值之差大于前一極值的20%至40%時,才認(rèn)為后一極值為最大極值。較佳的預(yù)定量為前一極值的30%。
本實施例與實施例3相比的優(yōu)點(diǎn)在于可以消除噪聲等因素對音元分割的影響。
實施例5本實施例是在實施例3基礎(chǔ)上的變化。如圖6所示,圖6所示的分割方法基本上與圖4相同,其區(qū)別在于,圖6的方法在圖4的方法中增加了一個步驟108A,該步驟108A在圖4的107之后,即當(dāng)在107判別出后一極值大于前一極值時,進(jìn)入108A,再把后一極值與前一極值所屬于的音元中的最大極值A(chǔ)0比較,如果后一極值大于最大極值A(chǔ)0的60%,則進(jìn)入108,確定后一極值為后一音元的最大極值,否則步驟返回104。如果在程序剛開始時,尚未確定了最大極值,則把程序開始時所得到的第一個極值作為最大極值進(jìn)行比較。
本實施例與實施例3相比的優(yōu)點(diǎn)在于考慮了噪聲等因素對音元分割的影響,使切割更準(zhǔn)確。
實施例6本實施例是在實施例4和5的基礎(chǔ)上的改進(jìn)。如圖7所示,圖7的方法與圖5的方法的區(qū)別在于,在圖5的107A后,加入了步驟107B-107I。即在圖5的107A中不滿足判別條件時,流程進(jìn)入107B,再把后一極值(為敘述方便,設(shè)為M1)與前一極值所屬于的音元中的最大極值A(chǔ)0進(jìn)行比較,如果M1大于A0的60%,則進(jìn)入108,否則,進(jìn)入107C。在107C,比較下一組相鄰兩零點(diǎn)之間的正樣值。在107D確定出107C中的最大值為極值(M2)。然后,流程進(jìn)入107E比較M1和M2的大小。如果M1<M2,則進(jìn)入108,否則進(jìn)入107F。在107F,比較再下一組相鄰兩零點(diǎn)之間的各正樣值大小。在107G確定出107F中的最大值為極值M3。然后流程進(jìn)入107H,比較M1和M3的大小。如果M1<M3,則流程進(jìn)入108,否則進(jìn)入107I,確定后一極值M1為最大極值,并直接進(jìn)入109,以下步驟與圖5相同。
本實施例可以將形狀比較復(fù)雜的音元分割出來。
實施例7在實施例3到6中,敘述的切割方法屬于極值比較法,即通過比較各極值來尋找最大極值,從而確定切割點(diǎn)。
前面已經(jīng)揭示,每個音元實際上是一段阻尼振動波,其包絡(luò)線符合阻尼振動包絡(luò)線方程Y(t)=A0e-βt(如圖8所示),其中A0為最大極值,β為阻尼系數(shù)。阻尼振動波的所有極值點(diǎn)均符合該方程。本實施例即根據(jù)這一原理,用阻尼振動包絡(luò)線方程法來尋找音元的最大極值。即,將音元中的極值點(diǎn)代入方程,根據(jù)是否滿足判別條件來尋找音元。所代入的極值點(diǎn)可以是包含有正極值點(diǎn)和負(fù)極值的絕對值的所有極值點(diǎn),也可以是單邊極值點(diǎn),即只用正的極值(峰)或只用負(fù)的極值的絕對值(峰谷)。這二者可以同時使用,也可以擇其一種使用。本實施例出于便利等原因的考慮,選用單邊極值點(diǎn)中的正極值代入阻尼振動包絡(luò)線方程。
圖9A和B示出了本實施例所述方法的流程圖。流程從200開始,并且設(shè)置小段包含的音元個數(shù)(S),通常,將一個小段中包含的音元個數(shù)設(shè)置成1-10個,較佳的個數(shù)為1-2個。在步驟201,取音頻信號起始一段時間(一般取一個音元的長度,20毫秒以內(nèi))的各正樣值進(jìn)行比較;將比較得到的其中一個最大值定為最大極值A(chǔ)0。然后進(jìn)入202,將計數(shù)器X置零。然后,將該最大極值A(chǔ)0對應(yīng)的時間t置為0(203)。流程進(jìn)入204,取下一組兩相鄰零點(diǎn)之間的各正樣值進(jìn)行比較。在205,將其中一個最大值定為極值m。然后將極值m、最大極值A(chǔ)0和極值m所對應(yīng)的時間tm代入方程Y(t)=A0e-βt(206),成為m=A0e-βtm]]>,求出阻尼系數(shù)β(207)。求出β后,即可確定當(dāng)前音元的阻尼振動包絡(luò)線方程(208)。然后,取再下一組兩相鄰零點(diǎn)之間的各正樣值進(jìn)行比較(209),在210將其中一個最大值定為極值n,并在211,確定該極值所對應(yīng)的時間tn。將tn代入方程Y(t)=A0e-βt,即可求出Y(tn)(212)。流程進(jìn)入213,比較極值n和Y(tn),如果n<=Y(jié)(tn),則說明該極值n仍屬于最大極值A(chǔ)0所表征的音元,流程返回209,尋找下一個極值。如果n>Y(tn),則在214確定該極值n為下一音元的最大極值A(chǔ)0,在215,計數(shù)器X加1(X=X+1),然后比較X和S(216),如果X<>S,則流程返回203,否則,流程進(jìn)217,把該最大極值A(chǔ)0的前一個零點(diǎn)作為切割點(diǎn),然后在218,用如在實施例1或2中所述的插入信息單元或刪除小段相同的方法,根據(jù)實際需要,延長或縮短音頻信號。此后流程返回到202,進(jìn)行下一切割點(diǎn)的尋找。
實施例8實施例7中所考慮的是一種較理想的狀態(tài),沒有考慮噪聲等因素。然而,在噪聲等的影響下,在時會出現(xiàn)在同一音元中極值并非嚴(yán)格按阻尼振動包絡(luò)線方程遞減的情況。
圖10示出了本實施例考慮了噪聲等因素后進(jìn)行音元分割的方法。圖10所示的方法基本上與圖9相同,其區(qū)別在于,對阻尼振動包絡(luò)線的幅值增加了一個修正系數(shù),即如圖10所示,在步驟208’,確定當(dāng)前音元的阻尼振動包絡(luò)線方程為Y(t)=kA0e-βt,其中k為幅值修正系數(shù)。這一修正系數(shù)k一般取1.2-1.4,較佳值為1.3。另一種修正阻尼振動包絡(luò)線幅值的方法是在方程中增加一個幅值修正量,即在步驟208’中確定當(dāng)前音元的阻尼振動包絡(luò)線方程為Y(t)=(A0+C)e-βt,其中C為幅值修正量。這一修正量C應(yīng)根據(jù)音頻信號中噪聲等的情況確定。
本實施例與實施例7相比的優(yōu)點(diǎn)在于可以消除噪聲等對音元分割的影響。
實施例9本實施例敘述另一種考慮了噪聲等因素后進(jìn)行音元分割的方法。圖11示出了該方法的流程圖,該方法與圖9所示的方法基本上相同,其區(qū)別在于,對阻尼振動包絡(luò)線的阻尼系數(shù)增加了一個修正量,即如圖11所示,在步驟208”,確定當(dāng)前音元的阻尼振動包絡(luò)線方程為Y(t)=A0e-(β+D)t,其中D為阻尼系數(shù)修正值,使包絡(luò)線的收斂程度減緩,其效果如圖12所示,關(guān)于修正量D,應(yīng)根據(jù)音頻信號中噪聲等因素影響程度而確定。
同樣,本實施例與實施例7相比的優(yōu)點(diǎn)也在于可以消除噪聲等對音元分割的影響。
實施例10本實施例是實施例8和9的結(jié)合。即在確定阻尼振動包絡(luò)線方程時,同時增加包絡(luò)線的幅度修正量(或修正系數(shù))和阻尼系數(shù)修正量。即把包絡(luò)線方程確定為Y(t)=(A0+C)e-(β+D)t或Y(t)=kA0e-(β+D)t。其中,C為幅度修正量,D為阻尼系數(shù)修正量,k為幅度修正系數(shù)。
實施例11本實施例主要涉及音頻信號保真變快處理方法。首先是對音頻信號進(jìn)行切割,可以采用如實施例3-10所述的以音元為基本切割單位來實現(xiàn),本實施例主要討論如何刪除小段,以縮短音頻信號。在實施例1中描述了一種間隔方式部分刪除小段的方法。在本實施例中對刪除增加了一個條件,即刪除那些性狀相近似的小段,具體方法如圖13所示。
流程從300開始,首先在301,取出兩相鄰音元的最大極值,然后在302,比較該兩相鄰音元的最大極值,若兩音元的最大極值的差值ΔA大于一預(yù)定量E(303),則說明該兩音元的性狀不相近似;流程進(jìn)入304,取下一音元的最大極值,再返回到302;若ΔA<=E,則流程進(jìn)入305,比較兩相鄰音元中的極值數(shù)量或音元長度,若兩相鄰音元中的極值數(shù)量之差ΔN大于一預(yù)定量F,或者兩相鄰音元的長度之差ΔT大于一預(yù)定量G(306),則說明該兩音元的性狀不相近似,流程進(jìn)入304,去比較下兩相鄰音元;若,ΔN<=F,并且ΔT<=G,則,說明兩相鄰音元性狀相近似。在307,刪除后一音元,然后再返回301。
在本實施例中,預(yù)定量E一般定為兩相鄰音元中前一音元的最大極值的5%-20%;也可以是后一音元最大極值的5%-20%。預(yù)定量F為兩相鄰音元中前一音元的極值數(shù)量的5%-20%,也可以是后一音元極值數(shù)量的5%-20%。預(yù)定量G為兩相鄰音元中前一音元的長度5%-20%,也可以是后一音元長度的5%-20%。
顯然,由于在本實施例中僅刪除了那些性狀相似的小段(音元),所以重放用本實施例的刪除方法處理得到的經(jīng)縮短的音頻信號的效果更好。
實施例12本實施例主要涉及音頻信號保真變快處理方法。它是對實施例11的進(jìn)一步改進(jìn)。圖14示出了本實施例的方法。它與實施例11(圖13)的區(qū)別在于,在301’,取出兩相鄰音元的最大極值和極值;在304’取出下一音元的最大極值和極值;在306和307之間插入306A和306B。即在306,當(dāng)ΔN<=F或ΔT<=G時,流程進(jìn)入306A,比較兩相鄰音元對應(yīng)的極值,在306B,若兩相鄰音元對應(yīng)的極值之差均大于一預(yù)定量時,則說明兩相鄰音元不相近似,流程返回304,否則進(jìn)入到307。該預(yù)定量一般定為兩個作比較的極值之一的5%-20%。
本實施例的效果優(yōu)于實施例11。
上面詳細(xì)描述了本發(fā)明的音頻信號保真變速處理方法。實現(xiàn)這種方法,可以使用計算機(jī)技術(shù)。目前計算機(jī)技術(shù)已發(fā)展到相當(dāng)程度,對于計算機(jī)領(lǐng)域的普通技術(shù)人員來說,用計算機(jī)實現(xiàn)上述方法不是難事。下面僅簡單地描述一種實現(xiàn)上述方法的計算機(jī)結(jié)構(gòu)。
圖15是一種實現(xiàn)本發(fā)明的音頻信號保真變速處理方法的計算機(jī)系統(tǒng)的方框圖。如圖15所示,該計算機(jī)系統(tǒng)包括中央處理器CPU、程序存儲器PRAM、數(shù)據(jù)存儲器DRAM等。音頻信號如果是模擬信號(如從磁帶錄音機(jī)輸出的),則先輸入至衰減器1,然后經(jīng)A/D轉(zhuǎn)換器2轉(zhuǎn)換成數(shù)字信號后,由CPU通過總線BUS存儲到數(shù)據(jù)存儲器DRAM中,并對這些數(shù)據(jù)用如上的方法進(jìn)行處理。如果音頻信號為數(shù)字信號(如從CD機(jī)輸出的),則可通過串/并行接口3直接送到數(shù)據(jù)總線BUS上,由CPU將其存入數(shù)據(jù)存儲器DRAM中,并對其進(jìn)行處理。程序存儲器PRAM存儲著實現(xiàn)本發(fā)明方法的程序,CPU從程序存儲器PRAM中調(diào)取程序運(yùn)行。CPU將已處理的數(shù)據(jù)經(jīng)并/串行接口4記錄到硬磁盤或激光唱片等以數(shù)字形式記錄的介質(zhì)上,或經(jīng)D/A轉(zhuǎn)換器5轉(zhuǎn)換成模擬信號后記錄在磁帶等以模擬形式記錄的介質(zhì)上。
權(quán)利要求
1.一種音頻信號保真變速處理方法,其特征在于,包含下列步驟將數(shù)字音頻信號進(jìn)行切割分成小段;在部分或全部小段后插入至少一段信息單元,以延長音頻信號。
2.一種音頻信號保真變速處理方法,其特征在于,包含下列步驟將數(shù)字音頻信號進(jìn)行切割分成小段;間隔地將部分小段刪除,將未刪除的小段緊縮連接,以縮短音頻信號。
3.如權(quán)利要求1或2所述的音頻信號保真變速處理方法,其特征在于,所述分成小段是以時間間隔為基本切割單位,切割成的小段長度為0.1-70毫秒。
4.如權(quán)利要求1或2所述的音頻信號保真變速處理方法,其特征在于,所述分成小段是以音頻信號中的零點(diǎn)數(shù)或極點(diǎn)數(shù)為基本切割單位,切割成的小段包含2-82個零點(diǎn)或極值點(diǎn)。
5.如權(quán)利要求1或2所述的音頻信號保真變速處理方法,其特征在于,所述分割分成小段是以音頻信號中的音元個數(shù)為基本分割單位,切割成的小段包含1-10個音元。
6.如權(quán)利要求1所述的音頻信號保真變速處理方法,其特征在于,所述信息單元為插入點(diǎn)前一小段音頻信號、經(jīng)衰減的插入點(diǎn)前一小段音頻信號和/或小于50毫秒的空白信號。
7.如權(quán)利要求5所述的音頻信號保真變速處理方法,其特征在于,所述以音元個數(shù)為基本切割單位的分段方法包含(a1)確定所述小段包含的音元的個數(shù);(a2)在相鄰的兩個零點(diǎn)之間將各樣值進(jìn)行比較,將其中一個絕對值最大的樣值定為極值;(a3)將相鄰兩極值進(jìn)行比較,當(dāng)比較結(jié)果為前一極值大于后一極值時,取下一零點(diǎn),并回到步驟(a2);否則把后一極值定為最大極值;(a4)計算音元個數(shù),如果該小段中包含的音元個數(shù)等于在步驟(a1)中確定的個數(shù)時,將該最大極值前的第一個零點(diǎn)作為切割點(diǎn),重新開始計數(shù)再回到步驟(a2);否則,計數(shù)器加一取下一零點(diǎn),返回步驟(a2)。
8.如權(quán)利要求7所述的音頻信號保真變速處理方法,其特征在于,在比較兩極值的步驟(a3)時,當(dāng)比較結(jié)果為后一極值大于前一極值一預(yù)定值時,把后一極值定為最大極值。
9.如權(quán)利要求8所述的音頻信號保真變速處理方法,其特征在于,所述預(yù)定量為前一極值的20%至40%。
10.如權(quán)利要求7所述的音頻信號保真變速處理方法,其特征在于,在步驟(a3)中,判別出后一極值大于前一極值時,把后一極值與前一極值所屬于的音元中的最大極值作比較,如果后一極值大于前所述最大極值的60%,則確定后一極值為最大極值,否則回到步驟(a2)。
11.如權(quán)利要求5所述的音頻信號保真變速處理方法,其特征在于,所述以音元個數(shù)為基本切割單位的分段方法包含(b1)確定所述小段包含的音元的個數(shù);取音頻信號起始一段時間的各樣值絕對值進(jìn)行比較,將其中的一個最大樣值定為最大極值A(chǔ)0;(b2)置時間t為零;(b3)取下一組兩相鄰零點(diǎn)之間的各樣值絕對值進(jìn)行比較,將其中一個最大的樣值定為極值m;(b4)根據(jù)所述最大極值A(chǔ)0,極值m及該極值所對應(yīng)的時間tm求出阻尼振動包絡(luò)線方程中的阻尼系數(shù);并確定以所述最大極值表征的阻尼振動包絡(luò)線方程Y(t)=A0e-βt,其中A0為所述最大極值,β為阻尼系數(shù);(b5)取下一組兩相鄰零點(diǎn)之間的各樣值絕對值進(jìn)行比較,將其中一個最大的樣值定為極值n,并將該極值對應(yīng)的時間tn代入所述阻尼振動包絡(luò)線方程,求出該時間上的包絡(luò)線值Y(tn);(b6)比較所述極值n和所述包絡(luò)線值Y(tn);如果Y(tn)≥n,則返回步驟(b3);否則確定該極值n為下一音元的最大極值A(chǔ)0;(b7)計算音元個數(shù),如果該小段中包含的音元個數(shù)等于在步驟(b1)中確定的個數(shù)時,將該最大極值前的第一個零點(diǎn)作為切割點(diǎn),重新開始計數(shù),回到步驟(b2);否則,計數(shù)器加一,流程返回到步驟(b2)。
12.如權(quán)利要求11所述的音頻信號保真變速處理方法,其特征在于,在步驟(b4)中,把所述包絡(luò)線方程確定為Y(t)=kA0e-βt,其中k為幅值修正系數(shù),其值在1.2-1.4之間。
13.如權(quán)利要求11所述的音頻信號保真變速處理方法,其特征在于,在步驟(b4)中,把所述包絡(luò)線方程確定為Y(t)=(A0+C)e-βt,其中C為幅值修正量。
14.如權(quán)利要求11所述的音頻信號保真變速處理方法,其特征在于,在步驟(b4)中,把所述包絡(luò)線方程確定為Y(t)=A0e-(β+D)t,其中D為阻尼系數(shù)修正量。
15.如權(quán)利要求11所述的音頻信號保真變速處理方法,其特征在于,在步驟(b4)中,把所述包絡(luò)線方程確定為Y(t)=A0e-(β+D)t,其中k為幅值修正系數(shù),1.2≤k≤1.4;D為阻尼系數(shù)修正量。
16.如權(quán)利要求11所述的音頻信號保真變速處理方法,其特征在于,在步驟(b4)中,把所述包絡(luò)線方程確定為Y(t)=(A0+C)e-(β+D)t,其中C為幅值修正量,D為阻尼系數(shù)修正量。
17.如權(quán)利要求1所述的音頻信號保真變速處理方法,其特征在于,均勻間隔地在部分小段后插入至少一段信息單元。
18.如權(quán)利要求2所述的音頻信號保真變速處理方法,其特征在于,均勻間隔地將部分小段刪除。
19.如權(quán)利要求1或2所述的音頻信號保真變速處理方法,其特征在于,在進(jìn)行切割分成小段之前將輸入的音頻信號進(jìn)行模/數(shù)轉(zhuǎn)換。
20.如權(quán)利要求1或2所述的音頻信號保真變速處理方法,其特征在于,還包括下列步驟將經(jīng)延長或縮短的音頻信號進(jìn)行數(shù)/模轉(zhuǎn)換;將經(jīng)數(shù)/模轉(zhuǎn)換后的模擬信號記錄在記錄介質(zhì)上。
21.如權(quán)利要求2所述的音頻信號保真變速處理方法,其特征在于,在刪除步驟中,刪除性狀相近似的小段。
22.如權(quán)利要求21所述的音頻信號保真變速處理方法,其特征在于,所述刪除性狀相近似的小段包括下列步驟將兩相鄰音元的最大極值進(jìn)行比較,若兩音元最大極值的差值大于第一預(yù)定量,則判定該兩相鄰音元不相近似,否則,比較兩相鄰音元的極值數(shù)量或兩相鄰音元的長度,若兩相鄰音元的極值數(shù)量之差大于第二預(yù)定量或兩相鄰音元的長度之差大于第三預(yù)定量時,則判定該兩相鄰音元不相近似;否則,刪除后一音元,并將被刪除的音元的前后音元作緊縮連接。
23.如權(quán)利要求22所述的音頻信號保真變速處理方法,其特征在于,所述刪除性狀相近似的小段的步驟在比較了兩相鄰音元的極值數(shù)量或兩相鄰音元的長度之后加入下列步驟比較兩相鄰音元之間相對應(yīng)的極值,若兩相鄰音元之間相對應(yīng)的極值均小于第四預(yù)定量,則判定該兩相鄰音元相近似,刪除后一音元。
24.如權(quán)利要求22所述的音頻信號保真變速處理方法,其特征在于,所述第一預(yù)定量為所述前一音元中最大極值或所述后一音元中的最大極值的5%-20%,所述第二預(yù)定量為所述前一音元中的極值數(shù)量或所述后一音元中的極值數(shù)量的5%-20%,所述第三預(yù)定量為所述前一音元的長度或所述后一音元的長度的5%-20%。
25.如權(quán)利要求23所述的音頻信號保真變速處理方法,其特征在于,所述第四預(yù)定量為所述兩個相比較的極值之一的5%-20%。
全文摘要
本發(fā)明涉及一種音頻信號保真變速處理方法,包括保真慢放處理和保真快放處理方法。傳統(tǒng)的改變放音速度的技術(shù),通常通過改變放音機(jī)的走帶速度來實現(xiàn),其缺點(diǎn)是會導(dǎo)致音調(diào)音色變化。本發(fā)明提供一種保真變速處理方法,它包括將數(shù)字音頻信號進(jìn)行切割分段;在部分或全部小段后插入至少一段信息單元,以延長音頻信號,或者,間隔地將部分小段刪除,將未刪除的小段緊縮連接,以縮短音頻信號。
文檔編號G10H7/02GK1145519SQ9511591
公開日1997年3月19日 申請日期1995年9月1日 優(yōu)先權(quán)日1995年9月1日
發(fā)明者蘇勇 申請人:蘇勇