專利名稱:用于操縱包括暫態(tài)事件的音頻信號(hào)的裝置、方法和計(jì)算機(jī)程序的制作方法
用于操縱包括暫態(tài)事件的音頻信號(hào)的裝置、方法和計(jì)算機(jī)
程序
背景技術(shù):
根據(jù)本發(fā)明的實(shí)施例涉及用于操縱包括暫態(tài)事件的音頻信號(hào)的裝置、方法和計(jì)算機(jī)程序。在下文中,描述依據(jù)本發(fā)明的實(shí)施例可應(yīng)用的典型的應(yīng)用情景。在現(xiàn)行的音頻信號(hào)處理系統(tǒng)中,音頻信號(hào)通常使用數(shù)字技術(shù)來(lái)處理。例如特定信號(hào)部分,諸如暫態(tài)部分,對(duì)數(shù)字信號(hào)處理有特殊要求。暫態(tài)事件(或“暫態(tài)”)是信號(hào)中的事件,在該事件期間,整個(gè)頻帶或某一頻率范圍內(nèi)信號(hào)的能量快速變化,即,其能量快速增加或快速降低。特定暫態(tài)(暫態(tài)事件)的特征可在頻譜中的信號(hào)能量分布中得出。典型地,暫態(tài)事件期間音頻信號(hào)的能量在整個(gè)頻率范圍內(nèi)分布,而在非暫態(tài)信號(hào)部分中,能量在正常情況下集中在音頻信號(hào)的低頻部分或集中在一個(gè)或多個(gè)特定頻帶中。這意味著非暫態(tài)信號(hào)部分出(也稱為穩(wěn)態(tài)或“音調(diào)”信號(hào)部分)具有非平坦頻譜。此外,暫態(tài)信號(hào)部分的頻譜典型的是混沌的且“不可預(yù)測(cè)的”(例如,當(dāng)在知曉暫態(tài)信號(hào)部分之前的信號(hào)部分的頻譜時(shí))。換言之,信號(hào)的能量包括在相對(duì)較少的頻譜線或頻譜帶中,它們被強(qiáng)烈加重而超越音頻信號(hào)的噪聲基準(zhǔn)。但是在暫態(tài)部分中,音頻信號(hào)的能量將在許多不同的頻帶內(nèi)分布且尤其將在高頻部分中分布,以致音頻信號(hào)的暫態(tài)部分的頻譜相對(duì)較平坦且通常將比音頻信號(hào)的音調(diào)部分的頻譜平坦。然而,應(yīng)指出的是,存在有具有平坦頻譜的其他類型的信號(hào),例如,像不表示暫態(tài)的類噪聲信號(hào)。然而,盡管類噪聲信號(hào)的頻譜段具有不相關(guān)或弱相關(guān)的相位值,但是存在暫態(tài)的情況下頻譜段通常存在有非常顯著的相位相關(guān)性。典型地,暫態(tài)事件是音頻信號(hào)的時(shí)域表示中的強(qiáng)烈變化,其意味著在執(zhí)行傅立葉分解時(shí)信號(hào)將包括許多高頻分量。許多高次諧波的重要特征是高次諧波的相位具有極其特定的相互關(guān)系,以致所有這些諧波的迭加將使信號(hào)能量產(chǎn)生快速變化(當(dāng)在時(shí)域中考慮時(shí))。換言之,暫態(tài)事件附近的頻譜存在有強(qiáng)相關(guān)性。所有諧波中的特定相位情況還可被稱為“垂直相干性”。此“垂直相干性”與信號(hào)的時(shí)間/頻率譜圖表示有關(guān),其中水平方向與信號(hào)在時(shí)間上演進(jìn)相對(duì)應(yīng),垂直維度描述在頻率上短時(shí)間頻譜中對(duì)頻譜分量的頻率的依賴性。例如,若變化在大時(shí)域范圍內(nèi)執(zhí)行,例如,通過(guò)量化,則所述變化將影響整個(gè)塊。因?yàn)闀簯B(tài)的特征在于能量的短期增加,所以當(dāng)塊變化時(shí),此能量可能將在該塊所表示的整個(gè)區(qū)域內(nèi)被涂抹開。當(dāng)信號(hào)的再現(xiàn)速度變化而音高維持不變時(shí),或當(dāng)信號(hào)被轉(zhuǎn)換而原始再現(xiàn)持續(xù)時(shí)間維持不變時(shí),問(wèn)題變得尤為明顯。使用相位語(yǔ)音編碼器或諸如(P)SOLA的方法(參見關(guān)于此問(wèn)題的參考文獻(xiàn)[Al]至[A4]),上述兩種情況均可被實(shí)現(xiàn)。后者通過(guò)再現(xiàn)以時(shí)間延展因數(shù)加速的經(jīng)延展信號(hào)來(lái)實(shí)現(xiàn)。在時(shí)間離散信號(hào)表示下,這與維持采樣頻率的同時(shí)以延展因數(shù)來(lái)下采樣信號(hào)相對(duì)應(yīng)。諸如相位語(yǔ)音編碼器等時(shí)間延展方法實(shí)際上僅適于穩(wěn)態(tài)或準(zhǔn)穩(wěn)態(tài)信號(hào),因?yàn)闀簯B(tài)通過(guò)分散在時(shí)間上“被涂抹開”。相位語(yǔ)音編碼器削弱了信號(hào)的所謂垂直相干特性(與時(shí)間/頻率譜圖表示有關(guān))。音頻信號(hào)的時(shí)間延展在娛樂(lè)及藝術(shù)中均起重要作用。常用的算法基于交疊和相加 (OLA)技術(shù),諸如相位語(yǔ)音編碼器(PV)、同步交疊相加(SOLA)、音高同步交疊相加(PSOLA), 以及波形相似性交疊相加(WSOLA)。盡管這些算法能夠改變音頻信號(hào)的重放速度同時(shí)保留它們的原始音高,但是暫態(tài)未被保留完好。使用OLA在時(shí)間上延展音頻信號(hào)而不改變其音高需要分別處理暫態(tài)及持續(xù)信號(hào)部分,以避免暫態(tài)分散[Bi]和時(shí)常伴隨WSOLA及SOLA發(fā)生的時(shí)域混迭。延展諸如定音管發(fā)出的絕對(duì)音調(diào)信號(hào)與諸如響板發(fā)出的打擊式信號(hào)的組合,這一任務(wù)提出了挑戰(zhàn)。下面將參照一些常規(guī)方法以提供本發(fā)明的背景。一些現(xiàn)行的方法較強(qiáng)地延展暫態(tài)周圍的時(shí)間以在暫態(tài)持續(xù)時(shí)間內(nèi)不執(zhí)行時(shí)間延展或只執(zhí)行很小的時(shí)間延展(例如參見參考文獻(xiàn)[5]至[8])。以下文章及專利描述了時(shí)間和/或音高操縱[Al]、[A2]、[A3]、[A4]、[A5]、[A6]、 [A7]、[A8]。在[B2]中,提出了一種方法,在時(shí)間延展版本中大致保留信號(hào)的包絡(luò)及其頻譜特性。該方法希望時(shí)間擴(kuò)張打擊事件的衰減慢于原始事件。若干廣為人知的方法允許有區(qū)別地處理暫態(tài)及穩(wěn)態(tài)信號(hào)分量,例如,將信號(hào)建模為正弦波、暫態(tài)及噪聲的總和(S+T+N) [B4、B5]。為了在時(shí)間縮放修改之后保留暫態(tài),分離地延展所有三部分。此技術(shù)能夠完美地保留音頻信號(hào)的暫態(tài)分量。但是,所產(chǎn)生的聲音時(shí)常感覺不自然。其他方法改變時(shí)間延展的量且在暫態(tài)時(shí)間期間將其設(shè)定成1或在暫態(tài)事件下鎖定相位[B3、B6、B7]。文獻(xiàn)[B8]給出了利用PV如何在時(shí)間及頻率延展中保留暫態(tài)。在此方法中,在信號(hào)被延展之前從該信號(hào)中截除(cut out)暫態(tài)。暫態(tài)部分的移除使信號(hào)內(nèi)產(chǎn)生間隙,所述間隙通過(guò)PV過(guò)程被延展。在延展之后,暫態(tài)被重新加入該信號(hào)中,并具有在適合經(jīng)延展的間隙的周邊。鑒于上述內(nèi)容,需要一種操縱包括暫態(tài)事件的音頻信號(hào)的構(gòu)思,其提供具有改進(jìn)的感知質(zhì)量的輸出信號(hào)。
發(fā)明內(nèi)容
依據(jù)本發(fā)明的實(shí)施例建立了用于操縱包括暫態(tài)事件的音頻信號(hào)的裝置。該裝置包括暫態(tài)信號(hào)替換器,被配置成以適應(yīng)于音頻信號(hào)的一個(gè)或多個(gè)非暫態(tài)信號(hào)部分的信號(hào)能量特性或適應(yīng)于暫態(tài)信號(hào)部分的信號(hào)能量特性的替換信號(hào)部分,來(lái)替換該音頻信號(hào)的包括暫態(tài)事件的暫態(tài)信號(hào)部分,以獲得暫態(tài)減少音頻信號(hào)。該裝置進(jìn)一步包括信號(hào)處理器,該處理器被配置成處理暫態(tài)減少音頻信號(hào)來(lái)獲得暫態(tài)減少音頻信號(hào)的經(jīng)處理版本。該裝置還包括暫態(tài)信號(hào)重新插入器,被配置成將該暫態(tài)減少音頻信號(hào)的經(jīng)處理版本與以原始或經(jīng)處理形式表示暫態(tài)信號(hào)部分的暫態(tài)內(nèi)容的暫態(tài)信號(hào)相組合。上述實(shí)施例系基于以下研究結(jié)果若暫態(tài)信號(hào)部分由替換信號(hào)部分替換,其中替換信號(hào)部分的信號(hào)能量適應(yīng)于原始音頻信號(hào)的信號(hào)能量特性,則信號(hào)處理器提供具有改進(jìn)質(zhì)量的輸出信號(hào),同時(shí)減少或消除暫態(tài)事件。該構(gòu)思避免了簡(jiǎn)單地從音頻信號(hào)中消除暫態(tài)信號(hào)部分而導(dǎo)致的輸入信號(hào)處理器的信號(hào)的能量的較大階躍式變化,且還可避免或至少減小暫態(tài)對(duì)該信號(hào)處理器的有害影響。因此,通過(guò)移除或減少音頻信號(hào)中的暫態(tài)事件(以獲得暫態(tài)減少音頻信號(hào)),且通過(guò)限制與輸入音頻信號(hào)相比時(shí)該暫態(tài)減少音頻信號(hào)的能量變化,信號(hào)處理器接收適當(dāng)?shù)妮斎胄盘?hào),使得其輸出信號(hào)近似不具有暫態(tài)事件的所需輸出信號(hào)。在較佳實(shí)施例中,暫態(tài)信號(hào)替換器被配置成提供替換信號(hào)部分(或暫態(tài)減少信號(hào)部分),使得與暫態(tài)信號(hào)部分相比,該替換信號(hào)部分表示具有平滑時(shí)間演進(jìn)的時(shí)間信號(hào),且使得在該替換信號(hào)部分的能量與該暫態(tài)信號(hào)部分之前或該暫態(tài)信號(hào)部分之后的音頻信號(hào)非暫態(tài)信號(hào)部分的能量之間的偏差小于預(yù)定閾值。以此方式,可以實(shí)現(xiàn)替換信號(hào)部分滿足兩個(gè)條件,即所謂的“暫態(tài)條件”及所謂的“能量條件”。暫態(tài)條件指示由時(shí)域中的階躍或波峰表示的暫態(tài)事件在替換信號(hào)部分內(nèi)的強(qiáng)度(或階躍高度或波峰高度)上受限制。能量條件進(jìn)一步指示(該替換信號(hào)部分的)暫態(tài)減少音頻信號(hào)應(yīng)具有能譜分布的平滑時(shí)間演進(jìn)。 通常,能譜分布的時(shí)間演進(jìn)中的不連續(xù)性導(dǎo)致可聽見的偽像的產(chǎn)生。因此,通過(guò)限制能譜分布的這些時(shí)間不連續(xù)性,可避免可聽見的偽像,偽像可能由僅從輸入音頻信號(hào)中刪除(而不替換)暫態(tài)信號(hào)部分而產(chǎn)生。在較佳實(shí)施例中,暫態(tài)信號(hào)替換器被配置成外插暫態(tài)信號(hào)部分之前的一個(gè)或多個(gè)信號(hào)部分的振幅值,來(lái)獲得替換信號(hào)部分的振幅值。暫態(tài)信號(hào)替換器還被配置成外插暫態(tài)信號(hào)部分之前的一個(gè)或多個(gè)信號(hào)部分的相位值,來(lái)獲得替換信號(hào)部分的相位值。使用此方法,可獲得暫態(tài)減少音頻信號(hào)的平滑振幅演進(jìn)。而且,該暫態(tài)減少音頻信號(hào)的不同頻譜分量的相位(通過(guò)外插)得到良好地控制,使得由暫態(tài)信號(hào)部分期間的特定相位值(與非暫態(tài)信號(hào)部分的相位值不同)特征化的暫態(tài)事件被抑制。換言之,通過(guò)外插來(lái)強(qiáng)加相位值,所產(chǎn)生的相位值與特征化暫態(tài)的相位值不同。外插還提供以下優(yōu)勢(shì)為執(zhí)行外插,知曉暫態(tài)信號(hào)部分之前的音頻信號(hào)部分就足夠了。但是, 自然可能進(jìn)一步應(yīng)用一些輔助信息,例如外插參數(shù),來(lái)執(zhí)行外插。在另一較佳實(shí)施例中,暫態(tài)信號(hào)重新插入器(150)被配置成使該暫態(tài)減少音頻信號(hào)的經(jīng)處理版本與以原始或經(jīng)處理形式表示暫態(tài)信號(hào)部分的暫態(tài)內(nèi)容的暫態(tài)信號(hào)交叉衰落(cross-fade)。在此情況下,該暫態(tài)減少信號(hào)的經(jīng)處理版本可能是輸入音頻信號(hào)的時(shí)間延展版本。因此,可將暫態(tài)平滑地重新插入到輸入音頻信號(hào)的延展版本中。換言之,在暫態(tài)減少音頻信號(hào)的(時(shí)間)延展之后,將(經(jīng)處理或未經(jīng)處理形式的)暫態(tài)重新加入到信號(hào)中,并具有適合延展間隙的周邊。在另一較佳實(shí)施例中,暫態(tài)信號(hào)替換器被配置成在暫態(tài)信號(hào)部分之前的信號(hào)部分的振幅值與暫態(tài)信號(hào)部分之后的信號(hào)部分的振幅值之間進(jìn)行內(nèi)插,以獲得替換信號(hào)部分的一個(gè)或多個(gè)振幅值。此外,暫態(tài)信號(hào)替換器被配置成在暫態(tài)信號(hào)部分之前的信號(hào)部分的相位值與暫態(tài)信號(hào)部分之后的信號(hào)部分的相位值之間進(jìn)行內(nèi)插,以獲得替換信號(hào)部分的一個(gè)或多個(gè)相位值。通過(guò)執(zhí)行內(nèi)插,可以獲得振幅值及相位值兩者的尤其平滑的時(shí)間演進(jìn)。相位的內(nèi)插通常還使得暫態(tài)事件的減少或消除,因?yàn)闀簯B(tài)通常在直接接近暫態(tài)處包括極其特定的相位分布,該相位分布通常與遠(yuǎn)離暫態(tài)的某一間距處的相位分布不同。在較佳實(shí)施例中,暫態(tài)信號(hào)替換器被配置成施加加權(quán)噪聲(例如,適應(yīng)于音頻信號(hào)的一個(gè)或多個(gè)非暫態(tài)信號(hào)部分的信號(hào)能量特性或適應(yīng)于暫態(tài)信號(hào)部分的信號(hào)能量特性的類噪聲信號(hào)頻譜)來(lái)獲得替換信號(hào)部分的振幅值,且施加加權(quán)噪聲來(lái)獲得替換信號(hào)部分的相位值。通過(guò)施加加權(quán)噪聲,可以在保持對(duì)能量的影響足夠小的同時(shí)進(jìn)一步減少暫態(tài)。在較佳實(shí)施例中,暫態(tài)信號(hào)替換器被配置成將暫態(tài)信號(hào)部分的非暫態(tài)分量與外插或內(nèi)插值相組合,來(lái)獲得替換信號(hào)部分。已發(fā)現(xiàn)的是暫態(tài)減少音頻信號(hào)(及使用信號(hào)處理器而獲得的其經(jīng)處理版本)的質(zhì)量可得到改進(jìn),若暫態(tài)信號(hào)部分的非暫態(tài)分量被維持。例如,暫態(tài)信號(hào)部分的音調(diào)分量?jī)H可對(duì)暫態(tài)產(chǎn)生有限的影響(因?yàn)闀r(shí)間暫態(tài)通常由在頻率范圍內(nèi)具有特定相位分布的寬頻信號(hào)引起)。因此,暫態(tài)信號(hào)部分的音調(diào)非暫態(tài)分量可能攜帶有珍貴信息,其實(shí)際上可有利于期望的信號(hào)處理器輸出信號(hào)的產(chǎn)生。因此,通過(guò)保持這些信號(hào)部分-同時(shí)減少暫態(tài)-可有利于改良經(jīng)處理的音頻信號(hào)。在本發(fā)明的實(shí)施例中,暫態(tài)信號(hào)替換器被配置成獲得依據(jù)暫態(tài)信號(hào)部分的長(zhǎng)度而定的可變長(zhǎng)度的替換信號(hào)部分。已發(fā)現(xiàn)的是音頻信號(hào)質(zhì)量有時(shí)可通過(guò)使替換信號(hào)部分的長(zhǎng)度適應(yīng)于暫態(tài)信號(hào)部分的可變長(zhǎng)度來(lái)改進(jìn)。例如,在某些信號(hào)中,暫態(tài)信號(hào)部分的持續(xù)時(shí)間可能非常短。在此情況下,可通過(guò)僅替換輸入音頻信號(hào)的相對(duì)較短部分來(lái)獲得優(yōu)化處理的音頻信號(hào)。因此,可以保持盡可能多的原始輸入音頻信號(hào)的(非暫態(tài))信息。此外,通過(guò)保持替換信號(hào)部分較短(依據(jù)暫態(tài)信號(hào)部分的長(zhǎng)度),在很多情況下可避免后續(xù)替換信號(hào)部分的交疊。因此,在大多數(shù)情況下,可以實(shí)現(xiàn)在兩個(gè)后續(xù)替換信號(hào)部分之間有原始非暫態(tài)信號(hào)部分。因此,能足夠精確地產(chǎn)生經(jīng)處理的音頻信號(hào),并保持盡可能多的原始輸入音頻信號(hào)的(非暫態(tài))信息。在較佳實(shí)施例中,信號(hào)處理器被配置成處理暫態(tài)減少音頻信號(hào),使得該暫態(tài)減少音頻信號(hào)的經(jīng)處理版本的給定時(shí)間信號(hào)部分依據(jù)該暫態(tài)減少音頻信號(hào)的多個(gè)時(shí)間上非交疊時(shí)間信號(hào)部分而定。換言之,較佳的是在產(chǎn)生暫態(tài)減少音頻信號(hào)的經(jīng)處理版本的信號(hào)部分時(shí)該信號(hào)處理器包括時(shí)間存儲(chǔ)器。使用存儲(chǔ)器的信號(hào)處理允許對(duì)暫態(tài)減少音頻信號(hào)進(jìn)行逐塊處理,或允許對(duì)暫態(tài)減少音頻信號(hào)進(jìn)行時(shí)間濾波(例如HR濾波,或UR濾波)。還發(fā)現(xiàn),替換暫態(tài)信號(hào)部分的本發(fā)明構(gòu)思非常適于與此信號(hào)處理器協(xié)同工作。盡管暫態(tài)通常會(huì)對(duì)所描述的執(zhí)行逐塊處理或具有時(shí)間存儲(chǔ)器的信號(hào)處理器產(chǎn)生明顯的負(fù)面影響,但是本發(fā)明的替換信號(hào)部分使暫態(tài)的該有害影響減小。盡管暫態(tài)通常會(huì)對(duì)信號(hào)處理器所提供的多個(gè)信號(hào)部分產(chǎn)生影響-延伸超出暫態(tài)信號(hào)部分的時(shí)間限度-但是本發(fā)明構(gòu)思減小或甚至消除暫態(tài)的有害影響。通過(guò)保持暫態(tài)減少信號(hào)能量的平滑時(shí)間演進(jìn),可以使任何劣化都足夠平滑。例如,(信號(hào)處理器的逐塊處理的)塊(例如,除了原始非暫態(tài)信號(hào)部分之外還)包括替換信號(hào)部分,該塊未嚴(yán)重劣化,因?yàn)樘鎿Q信號(hào)部分的能量適應(yīng)于該塊的其余部分。因此, 從整體來(lái)看,塊僅受暫態(tài)事件消除或減少的輕微影響。而且,由于替換信號(hào)部分的使用,使會(huì)受暫態(tài)事件且還受暫態(tài)信號(hào)部分的(例如,以強(qiáng)制歸零形式的)完全移除的負(fù)面影響的時(shí)間濾波幾乎不受暫態(tài)移除(或減少)的影響。在較佳實(shí)施例中,信號(hào)處理器被配置成執(zhí)行對(duì)暫態(tài)減少音頻信號(hào)的基于時(shí)間塊的處理來(lái)獲得該暫態(tài)減少音頻信號(hào)的經(jīng)處理版本。暫態(tài)信號(hào)替換器還被配置成利用比時(shí)間塊的持續(xù)時(shí)間精細(xì)的時(shí)間分辨率,來(lái)調(diào)整要由替換信號(hào)部分替換的信號(hào)部分的持續(xù)時(shí)間,或以持續(xù)時(shí)間小于該時(shí)間塊的持續(xù)時(shí)間的替換信號(hào)部分來(lái)替換持續(xù)時(shí)間小于該時(shí)間塊的持續(xù)時(shí)間的暫態(tài)信號(hào)部分。因此,本文所提出的替換允許對(duì)音頻信號(hào)進(jìn)行低失真處理,即使被移除的暫態(tài)部分的長(zhǎng)度與時(shí)間塊的長(zhǎng)度不同。
在較佳實(shí)施例中,信號(hào)處理器被配置成以頻率相關(guān)方式來(lái)處理暫態(tài)減少音頻信號(hào),使得該處理將暫態(tài)劣化頻率相關(guān)相位偏移引入到暫態(tài)減少音頻信號(hào)中。但是,甚至此暫態(tài)劣化信號(hào)處理也不會(huì)對(duì)經(jīng)處理的音頻信號(hào)產(chǎn)生明顯的有害影響,因?yàn)橥ǔEc暫態(tài)減少音頻信號(hào)的處理相分離地處理暫態(tài)。因此,盡管暫態(tài)劣化信號(hào)處理算法可應(yīng)用于信號(hào)處理器, 但是使用對(duì)暫態(tài)的分別處理且在該處理的稍后階段使用暫態(tài)的重新插入,可以保持暫態(tài)的質(zhì)量。在較佳實(shí)施例中,暫態(tài)信號(hào)替換器包括暫態(tài)檢測(cè)器,其中該暫態(tài)檢測(cè)器被配置成提供時(shí)變檢測(cè)閾值以用于音頻信號(hào)中的暫態(tài)檢測(cè),使得該檢測(cè)閾值以可調(diào)整平滑時(shí)間常數(shù)遵循音頻信號(hào)包絡(luò)。該暫態(tài)檢測(cè)器被配置成響應(yīng)于暫態(tài)的檢測(cè)及/或依據(jù)音頻信號(hào)的時(shí)間演進(jìn),來(lái)改變?cè)撈交瑫r(shí)間常數(shù)。通過(guò)使用此暫態(tài)檢測(cè)器,可以檢測(cè)不同強(qiáng)度的暫態(tài),即使暫態(tài)在時(shí)間上間隔很緊密。例如,本發(fā)明構(gòu)思允許對(duì)弱暫態(tài)進(jìn)行檢測(cè),即使該弱暫態(tài)緊緊跟隨先前的較強(qiáng)暫態(tài)。因此,針對(duì)暫態(tài)替換的暫態(tài)檢測(cè)可以可靠且精確的方式來(lái)執(zhí)行。在較佳實(shí)施例中,該裝置包括暫態(tài)處理器,被配置成接收表示暫態(tài)信號(hào)部分的暫態(tài)內(nèi)容的暫態(tài)信息。在此情況下,暫態(tài)處理器可被配置成基于暫態(tài)信息獲得經(jīng)處理的暫態(tài)信號(hào),在該經(jīng)處理的暫態(tài)信號(hào)中音調(diào)分量減少。暫態(tài)信號(hào)重新插入器可被配置成將暫態(tài)減少音頻信號(hào)的經(jīng)處理版本與暫態(tài)處理器所提供的經(jīng)處理的暫態(tài)信號(hào)相組合。因此,可以執(zhí)行暫態(tài)減少音頻信號(hào)及輸入音頻信號(hào)的暫態(tài)分量(由暫態(tài)信息來(lái)表示)的分離的處理,使得不同信號(hào)部分的隨后的組合得到恰當(dāng)?shù)目傒敵鲂盘?hào)。暫態(tài)信號(hào)部分中的已經(jīng)“主”信號(hào)處理器處理的這些信號(hào)分量(例如,音調(diào)信號(hào)分量)不需要包括在暫態(tài)的分別處理中。因此,可以恰當(dāng)?shù)毓蚕頃簯B(tài)信號(hào)部分的音頻分量的處理。依據(jù)本發(fā)明的其他實(shí)施例建立了用于操縱包括暫態(tài)事件的音頻信號(hào)的方法及計(jì)算機(jī)程序。
下面參照附圖描述依據(jù)本發(fā)明的實(shí)施例,附圖中圖1示出了依據(jù)本發(fā)明實(shí)施例的用于操縱包括暫態(tài)事件的音頻信號(hào)的裝置的方塊示意圖;圖2示出了依據(jù)本發(fā)明實(shí)施例的暫態(tài)信號(hào)替換器的方塊示意圖;圖3a_3c示出了依據(jù)本發(fā)明實(shí)施例的信號(hào)處理器的方塊示意圖;圖4示出了依據(jù)本發(fā)明實(shí)施例的暫態(tài)信號(hào)重新插入器的方塊示意圖;圖fe示出了圖1的信號(hào)處理器中使用的語(yǔ)音編碼器的實(shí)現(xiàn)方式的概覽;圖恥示出了圖1的信號(hào)處理器的部分(分析)的實(shí)現(xiàn)方式;圖5c說(shuō)明圖1的信號(hào)處理器的其他部分(延展);圖6說(shuō)明圖1的信號(hào)處理器中使用的相位語(yǔ)音編碼器的變換實(shí)現(xiàn)方式;圖7示出了相位語(yǔ)音編碼算法的操作示意圖,其中合成跳距與分析跳距不同,例如,以因子2相差;圖8示出了音頻信號(hào)的振幅的時(shí)間演進(jìn)的圖形表示;圖9示出了圖1裝置中的信號(hào)處理的時(shí)序的圖形表示;圖10示出了可能在依據(jù)圖1的裝置中出現(xiàn)的信號(hào)的圖形表示;
圖11示出了可能在依據(jù)圖1的裝置中出現(xiàn)的信號(hào)的另一圖形表示;圖12示出了依據(jù)本發(fā)明實(shí)施例的用于操縱音頻信號(hào)的方法的流程圖;圖13示出了依據(jù)本發(fā)明的實(shí)施例的暫態(tài)移除及內(nèi)插的圖形表示;圖14示出了依據(jù)本發(fā)明實(shí)施例的時(shí)間延展及暫態(tài)重新插入的圖形表示;圖15示出了在利用相位語(yǔ)音編碼器的時(shí)間延展應(yīng)用中本發(fā)明的暫態(tài)處理的不同步驟中出現(xiàn)的信號(hào)波形的圖形表示;以及圖16示出了在時(shí)間延展的不同步驟出現(xiàn)的信號(hào)的圖形表示。
具體實(shí)施例方式在下文中,將描述依據(jù)本發(fā)明的一些實(shí)施例。用于操縱包括暫態(tài)事件的音頻信號(hào)的裝置的第一實(shí)施例將參見圖1,圖1示出了第一實(shí)施例的概覽,還可參見圖2、3a至3c、4、 fe、5b、5c、6及7來(lái)描述,這些圖示出了第一實(shí)施例的組件及相位語(yǔ)音編碼器的操作(圖7) 的細(xì)節(jié)。暫態(tài)信號(hào)在第圖8中示出,且其處理在圖9至11中說(shuō)明。圖12示出了相對(duì)應(yīng)的方法的流程圖。隨后,參見圖13至17,描述用于操縱包括暫態(tài)事件的音頻信號(hào)的裝置的第二實(shí)施例的操作。依據(jù)圖1的實(shí)施例依據(jù)本發(fā)明的實(shí)施例,圖1示出了用于操縱包括暫態(tài)事件的音頻信號(hào)的裝置的方塊示意圖。在圖1中所示出的該裝置整體由100表示。裝置100被配置成接收包括暫態(tài)事件的音頻信號(hào)110被配置成在其基礎(chǔ)上提供具有未經(jīng)處理的“自然”或合成暫態(tài)的經(jīng)處理的音頻信號(hào)120。裝置100包括暫態(tài)信號(hào)替換器130,該暫態(tài)信號(hào)替換器130被配置成用適應(yīng)于該音頻信號(hào)的一個(gè)或多個(gè)非暫態(tài)信號(hào)部分的信號(hào)能量特性或適應(yīng)于該暫態(tài)信號(hào)部分的信號(hào)能量特性的替換信號(hào)部分,來(lái)替換包括音頻信號(hào)110的暫態(tài)事件的暫態(tài)信號(hào)部分, 以獲得暫態(tài)減少音頻信號(hào)132??蛇x地,替換信號(hào)部分的相位特性可適應(yīng)于音頻信號(hào)的一個(gè)或多個(gè)非暫態(tài)信號(hào)部分的相位特性。裝置100進(jìn)一步包括信號(hào)處理器140,該信號(hào)處理器140被配置成處理暫態(tài)減少音頻信號(hào)132來(lái)獲得該暫態(tài)減少音頻信號(hào)的經(jīng)處理版本142。 裝置100進(jìn)一步包括暫態(tài)信號(hào)重新插入器150,該暫態(tài)信號(hào)重新插入器150被配置成將暫態(tài)減少音頻信號(hào)的經(jīng)處理版本142與暫態(tài)信號(hào)152相組合,以獲得具有未經(jīng)處理的“自然”或合成暫態(tài)的經(jīng)處理的音頻信號(hào)120。該暫態(tài)信號(hào)152可以以原始或經(jīng)處理的形式來(lái)表示暫態(tài)信號(hào)部分的暫態(tài)內(nèi)容,該暫態(tài)信號(hào)部分已被暫態(tài)信號(hào)替換器130替換為替換信號(hào)部分。暫態(tài)信號(hào)替換器130可進(jìn)一步可選地提供暫態(tài)信息134,該暫態(tài)信息134表示(在暫態(tài)減少音頻信號(hào)132中由替換信號(hào)部分所替換的)暫態(tài)信號(hào)部分的暫態(tài)內(nèi)容。因此,暫態(tài)信息134可用來(lái)“保存”音頻信號(hào)110的暫態(tài)內(nèi)容,暫態(tài)內(nèi)容在暫態(tài)減少音頻信號(hào)132中被減少或甚至完全被抑制。暫態(tài)信息134可被直接轉(zhuǎn)送至?xí)簯B(tài)信號(hào)重新插入器150以作為暫態(tài)信號(hào)152。但是,裝置100可進(jìn)一步包括可選的暫態(tài)處理器160,暫態(tài)處理器160被配置成處理暫態(tài)信息134,來(lái)從中導(dǎo)出暫態(tài)信號(hào)152。例如,暫態(tài)處理器160可被配置成執(zhí)行暫態(tài)頻率轉(zhuǎn)換、暫態(tài)頻率偏移、或暫態(tài)合成。裝置100可進(jìn)一步可選地包括信號(hào)調(diào)節(jié)器170,該信號(hào)調(diào)節(jié)器170被配置成調(diào)節(jié)經(jīng)處理的音頻信號(hào)120,來(lái)獲得用于再現(xiàn)的經(jīng)調(diào)節(jié)的音頻信號(hào)。
關(guān)于裝置100的功能,大體上來(lái)說(shuō)該裝置100允許分離地處理音頻信號(hào)110的非暫態(tài)音頻內(nèi)容(由暫態(tài)減少音頻信號(hào)132來(lái)表示)及音頻信號(hào)110的暫態(tài)音頻內(nèi)容(由暫態(tài)信息134來(lái)表示)。暫態(tài)事件在暫態(tài)減少音頻信號(hào)132中被減少或甚至被抑制,使得信號(hào)處理器140可執(zhí)行會(huì)使暫態(tài)事件劣化和/或會(huì)受暫態(tài)事件的有害影響的信號(hào)處理。但是,通過(guò)以能量適應(yīng)的替換信號(hào)部分來(lái)替換暫態(tài)信號(hào)部分,暫態(tài)信號(hào)替換器130用來(lái)避免聽得見的偽像,若簡(jiǎn)單地將暫態(tài)信號(hào)部分設(shè)定成零,則所述聽得見的偽像會(huì)由信號(hào)處理器140引入。恰當(dāng)?shù)穆犛X效果還可通過(guò)使用暫態(tài)信號(hào)重新插入器150重新插入暫態(tài)來(lái)獲得。當(dāng)然,若簡(jiǎn)單消除暫態(tài)事件,則聽覺效果通常會(huì)嚴(yán)重劣化?;诖嗽?,暫態(tài)被重新插入到經(jīng)處理的音頻信號(hào)142中。重新插入的暫態(tài)可與由暫態(tài)信號(hào)替換器130從音頻信號(hào)110中移除的暫態(tài)相同??蛇x擇地,對(duì)被移除的(或經(jīng)替換的)暫態(tài)的處理例如可以以頻率轉(zhuǎn)換或頻率偏移的形式來(lái)執(zhí)行。但是,在某些實(shí)施例中,重新插入的暫態(tài)甚至可被合成產(chǎn)生,例如在描述要被重新插入的暫態(tài)的時(shí)間及強(qiáng)度的暫態(tài)參數(shù)的基礎(chǔ)上。晳杰信號(hào)替換器細(xì)節(jié)在下文中,參見圖2,描述暫態(tài)信號(hào)替換器130的功能,其中圖2示出了暫態(tài)信號(hào)替換器130的實(shí)施例的方塊示意圖。暫態(tài)信號(hào)替換器130接收音頻信號(hào)110且在其基礎(chǔ)上提供暫態(tài)減少音頻信號(hào)132。為了達(dá)到此目的,暫態(tài)信號(hào)替換器130例如可包括暫態(tài)檢測(cè)器130a,暫態(tài)檢測(cè)器 130a被配置成檢測(cè)暫態(tài)且提供關(guān)于暫態(tài)的時(shí)序的信息。例如,暫態(tài)檢測(cè)器130a可提供信息130b,該信息130b描述暫態(tài)信號(hào)部分的開始時(shí)間及結(jié)束時(shí)間。關(guān)于暫態(tài)檢測(cè)的不同構(gòu)思是所屬領(lǐng)域中常規(guī)的,此處將省略詳細(xì)描述。但是,在某些情況下,暫態(tài)檢測(cè)器130a可被配置成區(qū)分不同長(zhǎng)度的暫態(tài),使得識(shí)別出的暫態(tài)信號(hào)部分的長(zhǎng)度可依據(jù)實(shí)際的信號(hào)形狀而變化。可選擇地,暫態(tài)信號(hào)替換器可包括輔助信息提取器130c,例如,如果描述暫態(tài)的時(shí)序的輔助信息與音頻信號(hào)110相關(guān)聯(lián)。在此情況下,暫態(tài)檢測(cè)器130a自然可被省略。輔助信息提取器130c可進(jìn)一步可選地被配置成在與音頻信號(hào)110相關(guān)聯(lián)的輔助信息基礎(chǔ)上,提供一個(gè)或多個(gè)內(nèi)插參數(shù)、外插參數(shù)和/或替換參數(shù)。暫態(tài)替換器130進(jìn)一步包括暫態(tài)部分替換器130d,例如,暫態(tài)部分內(nèi)插器或暫態(tài)部分外插器。暫態(tài)部分替換器130d被配置成接收音頻信號(hào)110和(由暫態(tài)檢測(cè)器130a或輔助信息提取器130c提供的)暫態(tài)時(shí)間信息 130b,且以替換信號(hào)部分來(lái)替換音頻信號(hào)110的暫態(tài)部分。在下文中,將描述關(guān)于檢測(cè)及替換(或移除)暫態(tài)的細(xì)節(jié)。尤其是將詳細(xì)討論暫態(tài)移除的不同方法。暫態(tài)(例如樂(lè)器的起音點(diǎn)(onset)或打擊式信號(hào))大體上可描述為一短時(shí)間隔, 在此間隔期間,信號(hào)以不可預(yù)測(cè)的方式快速發(fā)展。例如,可通過(guò)評(píng)估音頻信號(hào)110的時(shí)域表示來(lái)檢測(cè)暫態(tài)(使用暫態(tài)檢測(cè)器130a)。若音頻信號(hào)110的時(shí)域表示超過(guò)閾值(可以是時(shí)變的),則可指示暫態(tài)事件的存在。包括該暫態(tài)事件的時(shí)間區(qū)域可被視為暫態(tài)信號(hào)部分,且可通過(guò)暫態(tài)時(shí)間信息130b來(lái)描述。因?yàn)檫@些信號(hào)部分(即暫態(tài),或信號(hào)以不可預(yù)測(cè)的方式快速發(fā)展的時(shí)間間隔,)理想地不在時(shí)間上延展,在時(shí)間延展(可通過(guò)信號(hào)處理器140來(lái)執(zhí)行)之前從信號(hào)中移除“暫態(tài)時(shí)間段”是有利的。抑制可在被視為“非穩(wěn)態(tài)”的整個(gè)時(shí)間段期間發(fā)生。對(duì)于打擊樂(lè)器而言,此時(shí)間段大部分由整個(gè)聲音事件(例如單一的腳踏鈸(HiHat)擊打)組成。對(duì)于樂(lè)器的起音點(diǎn),所謂的ADSR(起音衰減延持釋音)包絡(luò)可用來(lái)說(shuō)明暫態(tài)時(shí)間段。圖8示出了信號(hào)振幅的時(shí)間演進(jìn)的圖形表示800。橫座標(biāo)810描述時(shí)間,且縱座標(biāo)812描述振幅。曲線814描述該振幅的時(shí)間演進(jìn)。從圖8可以看出,該振幅的時(shí)間演進(jìn)包括起音間隔、衰減間隔、延持間隔及釋音間隔。例如,起音間隔及衰減間隔可被視為“暫態(tài)區(qū)域”或暫態(tài)信號(hào)部分。但是,已發(fā)現(xiàn)的是對(duì)于進(jìn)一步的信號(hào)處理(例如,在信號(hào)處理器140中)而言,由暫態(tài)抑制引起的音頻信號(hào)中的間隙應(yīng)被填充,使得在聽到經(jīng)處理的信號(hào)(=合成信號(hào))(例如,使用信號(hào)處理器140處理)時(shí),聽上去感覺是不具有破裂性暫停及振幅調(diào)制的連續(xù)的暫態(tài)自由信號(hào)。對(duì)于本文所描述的應(yīng)用的特定情況而言,較佳的是抑制合成信號(hào)中(例如,提供給信號(hào)處理器140的信號(hào)132中,或從而在由信號(hào)處理器140提供的信號(hào)142中)的原始信號(hào)(例如,信號(hào)110)的所有暫態(tài)部分,而音調(diào)部分及非暫態(tài)噪聲分量繼續(xù)存在。關(guān)于此方面,已經(jīng)存在有各種方法來(lái)解決,但是其目標(biāo)絕不是得到高質(zhì)量暫態(tài)調(diào)整(或暫態(tài)清除)信號(hào)。關(guān)于此問(wèn)題,可參照刊物,例如[Edler]。關(guān)于暫態(tài)檢測(cè)方法的效率及分解為各種分量,例如“暫態(tài)+噪聲”,下述結(jié)論可分別從專業(yè)刊物[Bello]及[Daudet]中得出,所述刊物極好地概覽了常見的方法這些方法無(wú)一明顯優(yōu)于其他方法;選擇應(yīng)由各自的應(yīng)用及可用的計(jì)算能力來(lái)控制。由此可見對(duì)特定的檢測(cè)及分解方法的選擇可顯著地影響本發(fā)明的方法的結(jié)果。對(duì)于本領(lǐng)域技術(shù)人員,可以容易應(yīng)用任何各種已知的方法以提供可能的最佳條件給各自的應(yīng)用情景。暫態(tài)部分替換的構(gòu)思某些應(yīng)用情景關(guān)于產(chǎn)生信號(hào)部分,所述信號(hào)部分不需要通過(guò)用參考信號(hào)來(lái)驗(yàn)證以評(píng)估為“對(duì)”或“錯(cuò)”,而僅以它們總體良好的聲音為基礎(chǔ)來(lái)評(píng)估。此意味著依據(jù)本發(fā)明的實(shí)施例不限于分離所述部分且不限于省略暫態(tài)分量,而是可自身產(chǎn)生具有特定特性的合成信號(hào)。因此,合成信號(hào)產(chǎn)生(例如,由暫態(tài)信號(hào)替換器130d產(chǎn)生暫態(tài)減少信132)可以是暫態(tài)時(shí)間段期間信號(hào)分解和信號(hào)產(chǎn)生(從假定信號(hào)的內(nèi)插和/或外插的意義上說(shuō))的組合。原始信號(hào)的非暫態(tài)分量可與內(nèi)插/外插的分量混合,或可將其替換。在依據(jù)本發(fā)明的些實(shí)施例中,外插可以等同于使用過(guò)去值的合成信號(hào)產(chǎn)生。因此, 外插能夠?qū)崟r(shí)地執(zhí)行。相反,在一些實(shí)施例中,內(nèi)插可等同于使用先前值和后續(xù)值的合成信號(hào)產(chǎn)生。因此,在某些情況下,內(nèi)插可能需要預(yù)測(cè)(look-ahead)。為了總結(jié)上述內(nèi)容,不同的構(gòu)思可應(yīng)用到暫態(tài)部分替換器130d以獲得暫態(tài)減少音頻信號(hào)132。例如,暫態(tài)部分替換器130d可配置為從音頻信號(hào)110中減少暫態(tài)分量,來(lái)獲得暫態(tài)減少音頻信號(hào)。在此情況下,暫態(tài)部分替換器130d可配置為確保在代替暫態(tài)信號(hào)部分的替換信號(hào)部分中保持足夠的能量。例如,可從音頻信號(hào)110中移除包括暫態(tài)相位特性的頻率分量,而其他不包括暫態(tài)相位特性的頻率分量(例如音調(diào)頻率分量)可從暫態(tài)信號(hào)部分獲取到替換信號(hào)部分中。因此,可確保替換信號(hào)部分包括足夠的信號(hào)能量,該信號(hào)能量不是嚴(yán)重偏離先前及后續(xù)信號(hào)部分的信號(hào)能量。備選地,暫態(tài)部分替換器130d可配置為通過(guò)破壞暫態(tài)信號(hào)部分中的暫態(tài)成形相位關(guān)系來(lái)獲得替換信號(hào)部分。例如,暫態(tài)部分替換器可配置為使暫態(tài)信號(hào)部分的不同頻率分量的相位隨機(jī)化或(確定性地)對(duì)其進(jìn)行調(diào)整。因此,以此方式獲得的替換信號(hào)部分可包括與暫態(tài)信號(hào)部分(至少近似)相同的能量(因?yàn)轭l率分量的相位修改不會(huì)改變能量)。 但是,替換信號(hào)部分所描述的時(shí)間信號(hào)的暫態(tài)成形時(shí)間演進(jìn)可能消失,因?yàn)闀簯B(tài)時(shí)間演進(jìn)是基于不同頻率分量的特定相位關(guān)系的,而該特定相位關(guān)系已被破壞。但是,可選擇地,暫態(tài)部分替換器130d可根據(jù)暫態(tài)信號(hào)部分之前的非暫態(tài)信號(hào)部分進(jìn)行內(nèi)插,例如,內(nèi)插不同頻帶中能量的時(shí)間演進(jìn)。因此,替換信號(hào)部分的內(nèi)容可僅基于暫態(tài)信號(hào)部分之前的非暫態(tài)信號(hào)部分的內(nèi)容的外插。因此,暫態(tài)信號(hào)部分的內(nèi)容可被完全忽略。但是,可選擇地,使用暫態(tài)部分替換器130d通過(guò)在暫態(tài)信號(hào)部分之前的非暫態(tài)信號(hào)部分的內(nèi)容與暫態(tài)信號(hào)部分之后的非暫態(tài)信號(hào)部分的內(nèi)容之間進(jìn)行內(nèi)插,可獲得替換信號(hào)部分的內(nèi)容。暫態(tài)信號(hào)部分的內(nèi)容可同樣被完全忽略。內(nèi)插例如在時(shí)頻域中執(zhí)行。但是,可選擇地,上述方法的組合可用于獲得替換信號(hào)部分的內(nèi)容。例如,暫態(tài)信號(hào)部分的非暫態(tài)內(nèi)容(例如通過(guò)移除暫態(tài)內(nèi)容或通過(guò)破壞暫態(tài)成形相位關(guān)系而提取的)可與通過(guò)內(nèi)插或外插一個(gè)或多個(gè)暫態(tài)信號(hào)部分而獲得的音頻信號(hào)內(nèi)容相組合。作為另一范例,暫態(tài)信號(hào)部分中的暫態(tài)成形相位關(guān)系可被破壞且暫態(tài)信號(hào)部分的能量可被調(diào)整,以適應(yīng)于相鄰的非暫態(tài)信號(hào)部分的能量。鑒于以上內(nèi)容,可以說(shuō)替換信號(hào)部分僅在非暫態(tài)信號(hào)部分(例如,在該暫態(tài)信號(hào)部分之前和/或在該暫態(tài)部分之后)的基礎(chǔ)上合成(而不使用暫態(tài)信號(hào)部分的內(nèi)容),或僅在暫態(tài)信號(hào)部分的基礎(chǔ)上合成,或在一個(gè)或多個(gè)非暫態(tài)信號(hào)部分及暫態(tài)信號(hào)部分的組合的基礎(chǔ)上合成。在下文中,描述關(guān)于暫態(tài)減少音頻信號(hào)132的產(chǎn)生的其他構(gòu)思,其方面可應(yīng)用于本文描述的任何實(shí)施例中。關(guān)于檢測(cè)及替代過(guò)程,可參見WO 2007/118533,其全部?jī)?nèi)容在此并入本文以為參考資料。WO 2007/118533 Al描述用于周圍區(qū)域信號(hào)的產(chǎn)生的裝置和方法。該文獻(xiàn)描述暫態(tài)檢測(cè)器,該暫態(tài)檢測(cè)器被提供以檢測(cè)暫態(tài)時(shí)間段。在WO 2007/118533 Al中描述的暫態(tài)檢測(cè)器可例如用于實(shí)施(或替換)本文描述的暫態(tài)檢測(cè)器130a。該公開進(jìn)一步描述合成信號(hào)產(chǎn)生器,其產(chǎn)生滿足暫態(tài)條件及連續(xù)條件的合成信號(hào)。例如在WO 2007/118533 Al中描述的合成產(chǎn)生器可用于實(shí)施暫態(tài)部分替換器130d,或甚至可代替暫態(tài)部分替換器130d。因此,在WO 2007/118533 Al中描述的關(guān)于合成信號(hào)產(chǎn)生的構(gòu)思可用于本發(fā)明的一些實(shí)施例中的暫態(tài)減少音頻信號(hào)132的產(chǎn)生。關(guān)于晳杰減小、咅步耐言號(hào)的產(chǎn)牛的 他^!周、-擴(kuò)展這里描述的應(yīng)用中(在維持良好的聽覺效果的同時(shí)處理包括暫態(tài)的信號(hào)),產(chǎn)生的信號(hào)的高音頻質(zhì)量實(shí)質(zhì)上比在WO 2007/118533的應(yīng)用(周圍信號(hào)產(chǎn)生)中更加關(guān)鍵,WO 2007/118533中描述的方法通過(guò)一些步驟被擴(kuò)展,以改進(jìn)音頻信號(hào)質(zhì)量。
例如,除了振幅外插之外,依據(jù)本發(fā)明的實(shí)施例還可包括外插或內(nèi)插相位值,以獲得具有改進(jìn)質(zhì)量且沒(méi)有暫態(tài)部分的合成信號(hào)。例如,使用線性預(yù)測(cè)或線性預(yù)測(cè)編碼(LPC)來(lái)執(zhí)行外插或內(nèi)插,或線性地和/或以樣條或類似物+加權(quán)噪聲,來(lái)執(zhí)行外插或內(nèi)插。在一些實(shí)施例中,上述暫態(tài)減少音頻信號(hào)132的產(chǎn)生在與相位語(yǔ)音編碼器組合使用時(shí)可能尤其有利,該相位語(yǔ)音編碼器可以是信號(hào)處理器140的一部分,或可構(gòu)成信號(hào)處理器140。在一些實(shí)施例中,利用相位語(yǔ)音編碼器的性質(zhì),該性質(zhì)通常被視為一大問(wèn)題[8], 這在于在暫態(tài)期間不存在與先前幀的可預(yù)測(cè)的關(guān)系。在一些實(shí)施例中,正是利用這一事實(shí)來(lái)抑制暫態(tài),因?yàn)橥ㄟ^(guò)迫使與先前段(bin)建立關(guān)系來(lái)抹除暫態(tài)。換言之,對(duì)描述替換信號(hào)部分(例如,呈復(fù)數(shù)形式)的不同時(shí)間-頻率分段的不同系數(shù)的相位進(jìn)行調(diào)整,例如,通過(guò)從(先前的非暫態(tài)信號(hào)部分的)先前時(shí)間-頻率分段開始進(jìn)行外插,或在先前的非暫態(tài)信號(hào)部分的相對(duì)應(yīng)的時(shí)間-頻率分段與隨后的非暫態(tài)信號(hào)部分的相對(duì)應(yīng)的時(shí)間-頻率分段之間進(jìn)行內(nèi)插。在刊物[Maher]中,描述了可比較的內(nèi)插方法。在[Maher]中呈現(xiàn)的該方法不能實(shí)時(shí)地執(zhí)行,因?yàn)檫€需要跟隨在信號(hào)間隙后之的部分。除此之外,[Maher]僅描述對(duì)音頻信號(hào)中的“峰”的處理(相比之下,依據(jù)本發(fā)明的一些實(shí)施例處理所有頻率線),且噪聲分量也未被明確處理。換言之,在一些實(shí)施例中,在[Maher]中描述的關(guān)于音頻信號(hào)中的間隙的橋接的構(gòu)思可與本申請(qǐng)一起應(yīng)用,以在原始輸入音頻信號(hào)110基礎(chǔ)上獲得暫態(tài)減少音頻信號(hào)132。被識(shí)別為暫態(tài)信號(hào)部分的一部分可使用[Maher]中描述的方法來(lái)替換,而不是橋接音頻信號(hào)的“丟失”部分。但是,可針對(duì)每個(gè)頻率分段獨(dú)立執(zhí)行內(nèi)插/外插??蛇x地,可 (例如,分離地)內(nèi)插振幅和相位。暫態(tài)檢測(cè)器130a在下文中,描述關(guān)于暫態(tài)檢測(cè)器130a —些細(xì)節(jié)。但是,應(yīng)指出的是,可以使用暫態(tài)檢測(cè)器130a的許多不同的實(shí)現(xiàn)方式,使得下述細(xì)節(jié)應(yīng)被視為有利實(shí)現(xiàn)方式的范例。在一些實(shí)施例中,自適應(yīng)閾值優(yōu)選地用于識(shí)別暫態(tài)時(shí)間段。通常,自適應(yīng)閾值是檢測(cè)函數(shù)的平滑版本,檢測(cè)函數(shù)可引起大波動(dòng)且進(jìn)而不能檢測(cè)到大波峰附近的小波峰。詳情可參照刊物 [Bello]。例如,通過(guò)依據(jù)當(dāng)前檢測(cè)到的狀況(暫態(tài)區(qū)/非暫態(tài)區(qū))且依據(jù)檢測(cè)函數(shù)的發(fā)展 (例如,起音、衰減),進(jìn)行平滑常數(shù)的適當(dāng)適配,來(lái)解決該問(wèn)題,。下面給出關(guān)于上文所提到的方面的一些參考文獻(xiàn)[Edler]、[Bello]、[Goodwin]、 [ffalther]、 [Maher]、 [Daudet]。暫態(tài)部分提取器130e除了上述功能之外,暫態(tài)信號(hào)替換器130可進(jìn)一步包括暫態(tài)部分提取器130e,該暫態(tài)部分提取器130e可配置為接收音頻信號(hào)110 (或至少其暫態(tài)信號(hào)部分),且提供暫態(tài)信息134。暫態(tài)部分提取器130e可配置為提供任何可能形式的暫態(tài)信息134,例如暫態(tài)信號(hào)部分時(shí)間信號(hào)的形式,暫態(tài)信號(hào)部分時(shí)間頻率域表示的形式,或暫態(tài)參數(shù)(例如,暫態(tài)時(shí)間信息和/或暫態(tài)強(qiáng)度信息和/或暫態(tài)陡度信息和/或任何其他恰當(dāng)?shù)臅簯B(tài)信息)的形式。特別地,暫態(tài)部分提取器130e可配置為僅針對(duì)從音頻信號(hào)110中移除的信號(hào)部分來(lái)提供暫態(tài)信息134,以獲得暫態(tài)減少音頻信號(hào)132,從而保持?jǐn)?shù)據(jù)速率較小。信號(hào)處理器140的備選實(shí)現(xiàn)方式-概覽在下文中,將描述信號(hào)處理器140的實(shí)現(xiàn)方式的不同基本構(gòu)思。圖3a說(shuō)明圖1的信號(hào)處理器140的較佳實(shí)現(xiàn)方式。此實(shí)現(xiàn)方式包括頻率選擇性分析器310及隨后連接的頻率選擇性處理裝置312,該頻率選擇性處理裝置312被實(shí)施為,使得其對(duì)原始音頻信號(hào)的 “垂直相干性”產(chǎn)生負(fù)面影響。此頻率選擇性處理的范例是信號(hào)在時(shí)間上的延展或信號(hào)在時(shí)間上的縮短,其中此延展或縮短動(dòng)作以頻率選擇性方式應(yīng)用,使得例如該處理動(dòng)作將相位偏移引入經(jīng)處理的音頻信號(hào)中,對(duì)于不同的頻帶所述相位偏移是不同的。例如相位偏移可被引入,使得暫態(tài)被劣化。圖3a所示的信號(hào)處理器140可進(jìn)一步可選地包括頻率組合器 314,該頻率組合器314被配置成將由頻率選擇性處理312提供的經(jīng)處理的音頻信號(hào)的不同的頻率分量組合成單一信號(hào)(例如,時(shí)域信號(hào))??蓪簯B(tài)減少音頻信號(hào)132分為多個(gè)頻率分量(例如,復(fù)值頻譜系數(shù))的頻率選擇性分析器310、以及可配置為在不同頻帶的多個(gè)復(fù)值頻譜系數(shù)基礎(chǔ)上獲得經(jīng)處理的音頻信號(hào)142的時(shí)域表示的頻率組合器314均可被配置為執(zhí)行逐塊處理。例如,頻率選擇性分析器310可處理(例如,窗口化的)音頻信號(hào)132采樣塊,以獲得表示該音頻信號(hào)采樣塊的音頻內(nèi)容的一組復(fù)值頻譜系數(shù)。相似地,可選的頻率組合器314可接收一組復(fù)值系數(shù)(例如,分別針對(duì)多個(gè)頻帶中的每一個(gè)頻帶),且在其基礎(chǔ)上提供包括多個(gè)時(shí)域采樣的有限時(shí)間間隔范圍內(nèi)的時(shí)域表示。另一較佳信號(hào)處理在圖北中相位語(yǔ)音編碼器處理上下文中說(shuō)明。一般說(shuō)來(lái),相位語(yǔ)音編碼器包括子帶/變換分析器320、隨后連接的處理器322、以及隨后的子帶/變換組合器324,處理器322用于執(zhí)行對(duì)分析器320提供的多個(gè)輸出信號(hào)的頻率選擇性處理,該子帶/變換組合器3M將處理器322所處理的信號(hào)組合,以在輸出3 處最終獲得時(shí)域中的經(jīng)處理的信號(hào)142。此外,時(shí)域中的經(jīng)處理的信號(hào)142對(duì)于低通濾波信號(hào)而言是全帶寬信號(hào),只要經(jīng)處理的信號(hào)142的帶寬大于由項(xiàng)目322及3M之間的單一分支表示的帶寬,這是因?yàn)樽訋?變換組合器3M執(zhí)行頻率選擇性信號(hào)的組合。關(guān)于相位語(yǔ)音編碼器的進(jìn)一步的細(xì)節(jié)將在下文結(jié)合圖fe、5b、5c及6討論。圖3c示出了信號(hào)處理器140的另一可能實(shí)現(xiàn)方式??梢钥闯?,在一些實(shí)施例中, 甚至可在時(shí)域中處理暫態(tài)減少音頻信號(hào)132。通常,時(shí)域處理330可包括存儲(chǔ)器,使得信號(hào) 132中的暫態(tài)對(duì)經(jīng)處理的音頻信號(hào)142產(chǎn)生長(zhǎng)期影響。在某些情況下,暫態(tài)減少音頻信號(hào) 132會(huì)在經(jīng)處理的音頻信號(hào)142中引起暫態(tài)響應(yīng),該暫態(tài)響應(yīng)明顯比暫態(tài)持續(xù)時(shí)間(或暫態(tài)信號(hào)部分的持續(xù)時(shí)間)長(zhǎng)(例如,延長(zhǎng)了 1倍,或甚至延長(zhǎng)了 4倍,或甚至延長(zhǎng)了 9倍)。 在此情況下,例如通過(guò)產(chǎn)生可聽見的回音,音頻信號(hào)132中的暫態(tài)會(huì)以不希望的方式將經(jīng)處理的音頻信號(hào)142顯著劣化。而且,暫態(tài)信號(hào)部分的完全刪除也會(huì)對(duì)經(jīng)處理的音頻信號(hào) 142產(chǎn)生長(zhǎng)期影響,因?yàn)闀簯B(tài)信號(hào)部分的完全刪除本身導(dǎo)致暫態(tài)產(chǎn)生。吾咅編碼器言號(hào)處理器的實(shí)現(xiàn),方式-^M^ffl^^Tf^在下文中,參見圖5及6,說(shuō)明語(yǔ)音編碼器的較佳實(shí)施例,其可用于信號(hào)處理器140 的實(shí)現(xiàn)或可以是信號(hào)處理器140的一部分。圖fe示出了相位語(yǔ)音編碼器的濾波器組實(shí)現(xiàn)方式,其中輸入音頻信號(hào)(例如,暫態(tài)減少音頻信號(hào)13 在輸入500處饋入,經(jīng)處理的音頻信號(hào)(例如,經(jīng)處理的音頻信號(hào)14 在輸出510處獲得。特別地,圖fe所說(shuō)明的示意性濾波器組的每一通道包括帶通濾波器501及下游的振蕩器502。來(lái)自每個(gè)通道的所有振蕩器的輸出信號(hào)被組合器組合,以在輸出510處獲得輸出信號(hào),該組合器例如作為加法器實(shí)現(xiàn)且在503處被標(biāo)示。每一濾波器501被實(shí)施為使得其一方面提供振幅信號(hào)而另一方面提供頻率信號(hào)。該振幅信號(hào)及該頻率信號(hào)是說(shuō)明了濾波器501中振幅隨時(shí)間的發(fā)展的時(shí)間信號(hào), 而該頻率信號(hào)表示濾波器501所濾波的信號(hào)的頻率的發(fā)展。濾波器501的示意性設(shè)置在圖恥中說(shuō)明。圖fe的每一濾波器501可如圖恥中所示那樣設(shè)置,但是,其中只有供給兩個(gè)輸入混合器551以及加法器552的頻率^對(duì)于每個(gè)通道是不同的?;旌掀鬏敵鲂盘?hào)均經(jīng)低通濾波器553低通濾波,其中低通信號(hào)是不同,因?yàn)樗鼈冇上辔幌嗖?0°的局部振蕩器信號(hào)產(chǎn)生。上部低通濾波器553提供正交信號(hào)554,而下部濾波器553提供同相信號(hào)555。此二信號(hào)即I和Q,被供給坐標(biāo)變換器556,該坐標(biāo)變換器556依據(jù)矩形表示產(chǎn)生幅度相位表示。圖fe的幅度信號(hào)或振幅信號(hào)隨著時(shí)間分別在輸出557處輸出。相位信號(hào)提供給相位展開器558。在該元件558的輸出處,不再有始終在0 與360°之間的相位值存在,而是出現(xiàn)線性增加的相位值。此“展開的”相位值提供給相位 /頻率轉(zhuǎn)換器559,該相位/頻率轉(zhuǎn)換器559例如可作為簡(jiǎn)單的相位差形成器來(lái)實(shí)現(xiàn),其從在當(dāng)前時(shí)間點(diǎn)處的相位中減去先前時(shí)間點(diǎn)處的相位,以獲得當(dāng)前時(shí)間點(diǎn)的頻率值。該頻率值與濾波通道i的恒定頻率值相加,以在輸出560處獲得時(shí)變頻率值。在輸出560處的頻率值具有直流分量=f”以及交流分量=濾波通道中的信號(hào)的當(dāng)前頻率偏離平均頻率& 的頻率偏差。因此,如圖如及恥中所說(shuō)明的,相位語(yǔ)音編碼器實(shí)現(xiàn)了頻譜信息與時(shí)間信息的分離。頻譜信息在特殊通道中或在頻率fi中,頻率fi提供每一通道的頻率的直流部分,而時(shí)間信息相應(yīng)地包括于隨時(shí)間而變的頻率偏差或幅度中。圖5c示出了可在圖fe中以虛線所標(biāo)出的語(yǔ)音編碼器的位置處在語(yǔ)音編碼器中執(zhí)行的操縱。對(duì)于時(shí)間縮放,例如,每一通道中的振幅信號(hào)A(t)或每一信號(hào)中信號(hào)f(t)的頻率可分別被抽取或內(nèi)插。因?yàn)閷?duì)本發(fā)明有用,所以為了達(dá)到轉(zhuǎn)換的目的,內(nèi)插(即信號(hào)A(t)及 f(t)的時(shí)間延伸或擴(kuò)展)被執(zhí)行以獲得擴(kuò)展信號(hào)A’ (t)及f’(t),其中該內(nèi)插由擴(kuò)展因數(shù)來(lái)控制。通過(guò)相位變量的內(nèi)插,即在由加法器552加上恒定頻率之前的值的內(nèi)插,圖fe中每一單獨(dú)振蕩器502的頻率不改變。但是,總體音頻信號(hào)的時(shí)間變化變慢,即慢了一半。結(jié)果得到時(shí)間上擴(kuò)展的具有原始音高(即具有其諧波的原始基波)的音調(diào)。對(duì)于頻率轉(zhuǎn)換,可使用下面的構(gòu)想。通過(guò)執(zhí)行圖5c中說(shuō)明的信號(hào)處理,其中此處理在圖fe中的每個(gè)濾波頻帶通道中執(zhí)行,且通過(guò)在抽取器中對(duì)產(chǎn)生的時(shí)間信號(hào)進(jìn)行抽取, 音頻信號(hào)可收縮回到其原始持續(xù)時(shí)間而同時(shí)所有頻率加倍。這得到因數(shù)為2的音高轉(zhuǎn)換, 但是,其中獲得的音頻信號(hào)具有與原始音頻信號(hào)相同的長(zhǎng)度,即相同數(shù)目的采樣。吾咅編碼器言號(hào)處理器的實(shí)現(xiàn),方式-轉(zhuǎn)換實(shí)現(xiàn)方式作為圖fe中說(shuō)明的濾波器組實(shí)現(xiàn)方式的替代方案,相位語(yǔ)音編碼器的轉(zhuǎn)換實(shí)現(xiàn)方式還可如圖6所述那樣來(lái)使用。此處,音頻信號(hào)132饋入FFT (快速傅立葉變換)處理器中,或更一般地,饋入短時(shí)傅立葉變換處理器600中,作為時(shí)間采樣序列。FFT處理器600在圖6中示意性地實(shí)施為對(duì)音頻信號(hào)執(zhí)行時(shí)間加窗,以便接著通過(guò)FFT來(lái)計(jì)算頻譜的幅度和相位,其中此計(jì)算針對(duì)與音頻信號(hào)的嚴(yán)重交疊的多個(gè)塊有關(guān)的連續(xù)頻譜來(lái)執(zhí)行。在極端情況下,針對(duì)每個(gè)新音頻信號(hào)采樣,可以計(jì)算新頻譜,其中還可例如僅針對(duì)每第二十個(gè)新采樣來(lái)計(jì)算新頻譜。兩頻譜之間的采樣中的該距離a較佳地由控制器602給定。控制器602進(jìn)一步實(shí)施以向IFFT (快速傅立葉逆變換)處理器604提供輸入(feed),該IFFT處理器604實(shí)施為以交疊操作來(lái)操作。特別地,IFFT處理器604被實(shí)施使得其通過(guò)基于修改的頻譜的幅度及相位,來(lái)每頻譜執(zhí)行一個(gè)IFFT,來(lái)執(zhí)行短時(shí)傅立葉逆變換,以便接著執(zhí)行交疊相加操作,從中獲得產(chǎn)生的時(shí)間信號(hào)。該交疊相加操作消除了分析窗的影響。時(shí)間信號(hào)的擴(kuò)展通過(guò)兩頻譜(當(dāng)這兩個(gè)頻譜經(jīng)IFFT處理器604處理時(shí))之間的距離b大于在FFT頻譜產(chǎn)生中的所述頻譜之間的距離a來(lái)實(shí)現(xiàn)?;鞠敕ㄊ呛?jiǎn)單地通過(guò)與分析FFT相比,使逆FFT間隔較遠(yuǎn),來(lái)擴(kuò)展音頻信號(hào)。因此,合成音頻信號(hào)中的時(shí)間變化比原始音頻信號(hào)中的時(shí)間變化慢。但是在沒(méi)有塊606中的相位重新縮放的情況下,上述會(huì)導(dǎo)致偽像。例如,在考慮其中連續(xù)的相位值以45°來(lái)實(shí)現(xiàn)的單個(gè)頻率分段時(shí),這意味著該濾波器組中的信號(hào)在相位上以周期的1/8這種速率增加,即每時(shí)間間隔增加45°,此處的時(shí)間間隔是連續(xù)的FFT之間的時(shí)間間隔。若現(xiàn)在逆FFT彼此間隔更遠(yuǎn),則這意味著45°相位增加在更長(zhǎng)時(shí)間間隔上發(fā)生。這意味著由于相位偏移,在隨后的交疊相加過(guò)程中發(fā)生失配,導(dǎo)致了不希望的信號(hào)消除。為了消除此偽像,以與音頻信號(hào)用于在時(shí)間上擴(kuò)展音頻信號(hào)的因數(shù)完全相同的因數(shù),來(lái)重新縮放相位。每個(gè)FFT頻譜值的相位因此以因數(shù)b/a增加,從而失配消除。盡管在圖5c說(shuō)明的實(shí)施例中通過(guò)振幅內(nèi)插/頻率控制信號(hào),針對(duì)圖如濾波器組實(shí)現(xiàn)方式中的一個(gè)信號(hào)振蕩器,來(lái)實(shí)現(xiàn)擴(kuò)展,然而圖6中的擴(kuò)展通過(guò)兩IFFT頻譜之間距離大于兩FFT頻譜之間距離來(lái)實(shí)現(xiàn),即b大于a,但是其中為了防止偽像,依據(jù)b/a來(lái)執(zhí)行相位重新縮放。關(guān)于相位語(yǔ)音編碼器的詳細(xì)說(shuō)明,請(qǐng)參照下列文獻(xiàn)Mark Dolson 所著的"The phase Vocoder :A tutorial,,,Computer Music Journal,第 10 卷,第 4 期,第 14—27 頁(yè),1986 年,或 L. Laroche 及 M. Dolson 所著的 “New phase Vocoder techniques for pitch-shifting, harmonizing and other exotic effects", Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics,紐普茲,紐約,1999 年 10 月 17-20 日,第 91 至 94 頁(yè);A. Robel 所著的"New approached to transient processing interphase vocoder,,,Proceeding of the 6th international conference on digital audio effects (DAFx-03),倫敦,英 H, 2003 年 9 月 8-11 日,第 DAFx-I 至 DAFx-6 頁(yè);Me Iler Puckette 所著的“Phase-locked Vocoder,,Proceedings 1995, IEEE ASSP, Conference on applications of signal processing to audio and acoustics,或美國(guó)專利申請(qǐng)?zhí)?6,549,884。在下文中,基于變換的相位語(yǔ)音編碼器的功能的范例將參見圖7來(lái)簡(jiǎn)要描述。圖7 示出了利用合成跳距的相位語(yǔ)音編碼算法操作的示意圖,例如,該合成跳距(hop size)與分析跳距不同,相差1倍。相位語(yǔ)音編碼(PV)算法用于修改信號(hào)的持續(xù)時(shí)間而不改變其音高[B9]。其將信號(hào)分成所謂的顆粒(grain),所述顆粒表示通常具有數(shù)十毫秒范圍內(nèi)的長(zhǎng)度的信號(hào)加窗截除部分(windowed cutout) 0所述顆粒在交疊相加(OLA)過(guò)程中被重新排列,在此過(guò)程中, 合成跳距與分析跳距不同。為了延展信號(hào),例如,將其延展到2倍,合成跳距是分析跳距的兩倍。圖7示出了該算法。暫態(tài)信號(hào)重新插入器在下文中,圖1所示的暫態(tài)信號(hào)重新插入器150的較佳實(shí)現(xiàn)方式將參見圖4來(lái)描述。暫態(tài)信號(hào)重新插入器150包括作為重要元件的信號(hào)組合器150a。信號(hào)組合器150a 被配置成接收經(jīng)處理的音頻信號(hào)142及暫態(tài)信號(hào)152,且在其基礎(chǔ)上提供經(jīng)處理的音頻信號(hào)120。信號(hào)組合器150a例如可配置為執(zhí)行用暫態(tài)信號(hào)152的一部分對(duì)經(jīng)處理的音頻信號(hào)142的一部分的硬切換式替換。但是,在較佳實(shí)施例中,信號(hào)組合器150a可配置為在經(jīng)處理的音頻信號(hào)142與暫態(tài)信號(hào)152之間形成交叉衰落,使得在經(jīng)處理的音頻信號(hào)120內(nèi)信號(hào)142、152之間有平滑過(guò)渡。但是,暫態(tài)信號(hào)重新插入器150可配置為確定最優(yōu)插入系數(shù)。例如,暫態(tài)信號(hào)重新插入器150可包括用于計(jì)算暫態(tài)重新插入部分的長(zhǎng)度的計(jì)算器150b。該暫態(tài)重新插入部分的長(zhǎng)度的計(jì)算例如可能是重要的,如果(例如通過(guò)暫態(tài)檢測(cè)器130a確定的)經(jīng)替換的暫態(tài)部分的長(zhǎng)度是依據(jù)信號(hào)特性而可變的。在經(jīng)處理的音頻信號(hào)142與原始輸入音頻信號(hào)110 相比時(shí)包括不同的長(zhǎng)度(或每秒包括不同采樣數(shù)目,或不同總采樣數(shù))的情況下,計(jì)算器 150b可考慮延展因數(shù)或壓縮因數(shù)以確定暫態(tài)重新插入部分的長(zhǎng)度。參見圖10及11,在下文提供長(zhǎng)度變化的詳細(xì)討論。暫態(tài)信號(hào)重新插入器150可進(jìn)一步包括用于計(jì)算重新插入位置的計(jì)算器150c。在某些情況下,重新插入位置的計(jì)算可將經(jīng)處理的音頻信號(hào)142的延展或壓縮考慮在內(nèi)。在某些情況下,較佳地是經(jīng)處理的音頻信號(hào)120中的非暫態(tài)信號(hào)內(nèi)容與暫態(tài)信號(hào)內(nèi)容之間的關(guān)系(例如,時(shí)間關(guān)系)至少與原始輸入音頻信號(hào)110中的該非暫態(tài)音頻內(nèi)容與該暫態(tài)音頻內(nèi)容的時(shí)間關(guān)系大致相同。但是,除了預(yù)先計(jì)算適當(dāng)?shù)臅簯B(tài)信號(hào)重新插入位置之外,還可以執(zhí)行該重新插入位置的微調(diào)。例如,用于計(jì)算重新插入位置的計(jì)算器150c可配置為讀取經(jīng)處理的音頻信號(hào)142及暫態(tài)信號(hào)152,且在比較經(jīng)處理的音頻信號(hào)142與暫態(tài)信號(hào)152的基礎(chǔ)上確定重新插入時(shí)間點(diǎn)。關(guān)于重新插入位置的可能計(jì)算的細(xì)節(jié)將參見圖10及11中說(shuō)明的范例在下文中描述??赡艿臅r(shí)序關(guān)系在下文中,關(guān)于可能的時(shí)序關(guān)系的細(xì)節(jié)將參見圖9來(lái)描述。圖9示出了對(duì)原始輸入音頻信號(hào)110的不同塊的處理的圖形表示。第一圖形表示910描述原始輸入音頻信號(hào) 110的時(shí)間演進(jìn),其中橫座標(biāo)912表示時(shí)間。輸入音頻信號(hào)110包括暫態(tài)信號(hào)部分920,其長(zhǎng)度可變。作為時(shí)序參考,信號(hào)處理器140的處理間隔或處理塊92h、922b、922c在圖形表示910中被示出??梢钥闯觯瑫簯B(tài)信號(hào)部分920的持續(xù)時(shí)間可能小于所述處理間隔922a、 922b、922c的持續(xù)時(shí)間。但是在某些情況下,暫態(tài)信號(hào)部分的持續(xù)時(shí)間甚至可能大于處理間隔的持續(xù)時(shí)間,或延伸越過(guò)僅一個(gè)處理間隔。在某些情況下,處理間隔92h、922b、922c還可能是時(shí)間交疊的。圖形表示930表示暫態(tài)減少音頻信號(hào)132,該暫態(tài)減少音頻信號(hào)132可通過(guò)暫態(tài)信號(hào)替換器130執(zhí)行的暫態(tài)替換來(lái)獲得??梢钥闯?,暫態(tài)信號(hào)部分920經(jīng)被替換信號(hào)部分替換。圖形表示950描述經(jīng)處理的音頻信號(hào)142,例如通過(guò)使用對(duì)暫態(tài)減少音頻信號(hào)132 的逐塊處理,來(lái)獲得經(jīng)處理的音頻信號(hào)142。例如該處理可使用相位語(yǔ)音編碼器和下采樣來(lái)執(zhí)行。在該處理中,可選的可以對(duì)塊加窗,所述塊還可選的是交疊的。另一圖形表示970表示經(jīng)處理的音頻信號(hào)120,其中暫態(tài)(或其修改版本)已被暫態(tài)信號(hào)重新插入器150重新插入。重要的是要指出,暫態(tài)信號(hào)部分920可能會(huì)對(duì)整個(gè)塊1”產(chǎn)生影響,如果在逐塊處理中已考慮到暫態(tài)信號(hào)部分920,這是因?yàn)闀簯B(tài)能量在這種逐塊處理中通常會(huì)在整個(gè)塊上散開。因此,若在該逐塊處理中要考慮暫態(tài)信號(hào)部分,則該塊的總能量將可能由于暫態(tài)能量而出錯(cuò)。而且,暫態(tài)通常會(huì)展開(即增寬),如果暫態(tài)受該逐塊處理的影響。相反,對(duì)暫態(tài)的分別處理允許將暫態(tài)的影響限制在經(jīng)處理的音頻信號(hào)120的與暫態(tài)相關(guān)聯(lián)的時(shí)間間隔1” 中。暫態(tài)信號(hào)部分朝向信號(hào)處理器140中的逐塊信號(hào)處理的整個(gè)塊的擴(kuò)展可被避免。相反, 經(jīng)處理的音頻信號(hào)120中的暫態(tài)信號(hào)部分的持續(xù)時(shí)間可通過(guò)暫態(tài)處理器160所執(zhí)行的暫態(tài)處理來(lái)確定??蛇x擇地,若需要,可以在暫態(tài)信號(hào)部分920的原始持續(xù)時(shí)間內(nèi)將暫態(tài)信號(hào)部分920插入到經(jīng)處理的音頻信號(hào)142中。因此,信號(hào)處理器140中不想要的暫態(tài)能量的擴(kuò)展可被避免。咅頻信號(hào)的時(shí)間擴(kuò)展從上述說(shuō)明中可以看出,用于操縱包括暫態(tài)事件的音頻信號(hào)的本發(fā)明構(gòu)想可應(yīng)用到許多不同的應(yīng)用中。例如,該構(gòu)想可應(yīng)用到其中暫態(tài)將通過(guò)信號(hào)處理來(lái)劣化且其中仍然想要維持暫態(tài)的任何音頻信號(hào)處理中。例如,許多類型的非線性音頻信號(hào)處理由于暫態(tài)的存在會(huì)產(chǎn)生被嚴(yán)重劣化的結(jié)果。除此之外,某些類型的時(shí)間濾波由于暫態(tài)的存在而會(huì)受到嚴(yán)重影響。而且,音頻信號(hào)的任何逐塊處理通常都將由于暫態(tài)的存在而劣化,因?yàn)闀簯B(tài)的能量將被涂抹在整個(gè)處理塊上,從而致使可聽見的偽像。然而,音頻信號(hào)的時(shí)間延展可被視為用于操縱包括暫態(tài)事件的音頻信號(hào)的本發(fā)明構(gòu)想的尤其重要的應(yīng)用。由于此原因,關(guān)于此應(yīng)用的細(xì)節(jié)將在下文中描述。在下文中,關(guān)于音頻信號(hào)的時(shí)間延展的常規(guī)構(gòu)想的一些缺點(diǎn)將被描述以有利于對(duì)本發(fā)明構(gòu)想的優(yōu)點(diǎn)的理解。由相位語(yǔ)音編碼器對(duì)音頻信號(hào)進(jìn)行的時(shí)間延展包括通過(guò)分散來(lái) “涂抹開”暫態(tài)信號(hào)部分,因?yàn)樾盘?hào)的(從不同頻帶分量之間的特定相位關(guān)系的意義上說(shuō)) 所謂垂直相干性被削弱。與所謂的交疊相加(OLA)方法一起執(zhí)行的方法可能產(chǎn)生暫態(tài)聲音事件的破壞性預(yù)回音及延遲回音。在暫態(tài)環(huán)境中進(jìn)行較顯著的時(shí)間延展時(shí),這些問(wèn)題確實(shí)可能遇到。但是若發(fā)生轉(zhuǎn)換,轉(zhuǎn)換因數(shù)在暫態(tài)環(huán)境中將不再恒定,即疊加的(可能是音調(diào)的)信號(hào)分量的音高將改變且將感知為是破壞性的。若暫態(tài)被截除且若將產(chǎn)生的間隙延展,則此后必須填充非常大的間隙。若暫態(tài)彼此緊隨,則大間隙可能交疊。在下文中,將描述一種用于信號(hào)變換的新方法。此處所呈現(xiàn)的該方法解決了上述提到的問(wèn)題。依據(jù)此方法的一方面,從要被操縱的信號(hào)(例如,原始輸入音頻信號(hào)110)中,內(nèi)插或外插包括暫態(tài)的加窗部分。若對(duì)于應(yīng)用來(lái)說(shuō)時(shí)間是關(guān)鍵的,即若延遲要被避免,則可較佳地選擇外插。若未來(lái)被稱為所謂的預(yù)測(cè),且若延遲不是太重要,則內(nèi)插是較佳的。在一些實(shí)施例中,該方法基本上可由下列步驟組成,且將在圖10及11圖中示出。1.暫態(tài)的辨識(shí);2.暫態(tài)長(zhǎng)度的確定;3.暫態(tài)保存;4.外插和/或內(nèi)插;
5.實(shí)際方法的應(yīng)用,例如相位語(yǔ)音編碼器;6.所保存的暫態(tài)的重新插入;以及7.可能的(可選的)重新采樣(用于采樣速率的修改)。當(dāng)執(zhí)行上述序列時(shí),暫態(tài)的持續(xù)時(shí)間在下采樣時(shí)被縮短。若這不是希望的,則可以調(diào)制暫態(tài),使得其在頻移鍵控之后、重新插入之前逐漸變?yōu)樘幱谒诖念l帶內(nèi)(步驟6及 7互換)。在下文中,一些細(xì)節(jié)將參見圖10來(lái)描述。圖10示出了不同信號(hào)的圖形表示,這些信號(hào)可出現(xiàn)在依據(jù)圖1的裝置100的實(shí)施例中。圖10表示的全部?jī)?nèi)容由1000來(lái)表示。信號(hào)表示1010描述原始輸入音頻信號(hào)110的時(shí)間演進(jìn)。可以看出,輸入音頻信號(hào)110包括暫態(tài)信號(hào)部分1012,該暫態(tài)信號(hào)部分1012的可變寬度(或持續(xù)時(shí)間)可通過(guò)暫態(tài)檢測(cè)器130a 以信號(hào)適應(yīng)的方式來(lái)確定。暫態(tài)信號(hào)部分1012可由暫態(tài)信號(hào)替換器130移除,且可被替換信號(hào)部分替換。因此,可獲得在信號(hào)表示1020中所示出的暫態(tài)減少音頻信號(hào)132。替換信號(hào)部分在參考數(shù)字1022處示出,其替換暫態(tài)信號(hào)部分1012。暫態(tài)減少音頻信號(hào)132可以逐塊方式來(lái)處理,其中不同的處理窗(確定逐塊處理的粒度,且還可以“顆?!眮?lái)表示)在信號(hào)表示1030中示出。例如,對(duì)于每一塊(或“顆粒”)而言,可獲得一組頻譜系數(shù),以形成暫態(tài)減少音頻信號(hào)132的時(shí)頻域表示。相位語(yǔ)音編碼處理可在暫態(tài)減少音頻信號(hào)132的時(shí)頻域表示內(nèi)應(yīng)用,由此獲得持續(xù)時(shí)間增加的信號(hào)。為了達(dá)到此目的,可獲得經(jīng)內(nèi)插的時(shí)頻域系數(shù)。所述時(shí)頻域系數(shù)可接著用于構(gòu)建時(shí)域信號(hào),與原始輸入音頻信號(hào)相比,該時(shí)域信號(hào)的持續(xù)時(shí)間延長(zhǎng),同時(shí)音高維持不變。換言之,信號(hào)周期的數(shù)目增加。通過(guò)相位語(yǔ)音編碼操作獲得的信號(hào)在信號(hào)表示1040中示出。從圖形表示1040可以看出所謂的“截除暫態(tài)區(qū)域”(其中替換信號(hào)部分已被插入以替換暫態(tài)信號(hào)部分)相對(duì)于原始輸入音頻信號(hào)110中的暫態(tài)信號(hào)部分的時(shí)間位置被時(shí)移了(當(dāng)參照輸入音頻信號(hào)的開始而考慮時(shí))。隨后,先前已被替換的暫態(tài)信號(hào)部分被重新插入,例如,通過(guò)暫態(tài)信號(hào)重新插入器 150。例如,暫態(tài)信號(hào)152所描述的暫態(tài)信號(hào)部分可交叉衰落而進(jìn)入到暫態(tài)減少音頻信號(hào)的經(jīng)處理的版本142中。暫態(tài)重新插入的結(jié)果在圖形表示1050中示出。在隨后的下采樣中,可減少經(jīng)處理的音頻信號(hào)120的持續(xù)時(shí)間。該下采樣例如可通過(guò)信號(hào)調(diào)節(jié)器170來(lái)執(zhí)行。該下采樣例如可包括時(shí)間尺度的變化。可選擇地,可減少多個(gè)采樣點(diǎn)。因此,與相位語(yǔ)音編碼器所提供的信號(hào)相比,經(jīng)下采樣的信號(hào)的持續(xù)時(shí)間減少。 同時(shí),與相位語(yǔ)音編碼器所提供的信號(hào)相比,可通過(guò)下采樣維持多個(gè)周期。因此,與相位語(yǔ)音編碼器所提供的信號(hào)(在信號(hào)表示1040中示出)相比,在信號(hào)表示1050中示出的經(jīng)下采樣的信號(hào)的音高可增加。圖11示出了另一信號(hào)表示,其表示在圖1裝置100的另一實(shí)施例中出現(xiàn)的信號(hào)。 該處理與參見圖10所解釋的處理相似,此處僅描述處理順序中的差別,且相同的信號(hào)表示及信號(hào)特性將由圖10及11中相同的參考數(shù)字表示。在信號(hào)表示1100所表示的信號(hào)處理中,下采樣在暫態(tài)信號(hào)重新插入之前執(zhí)行。因此,信號(hào)表示1150示出了不具有插入的暫態(tài)信號(hào)部分的經(jīng)下采樣的信號(hào)。但是,使用暫態(tài)頻率偏移操作1160來(lái)頻移暫態(tài)信號(hào)部分,該操作1160可由暫態(tài)處理器160執(zhí)行。頻率偏移的暫態(tài)信號(hào)(相對(duì)于經(jīng)暫態(tài)信號(hào)替換器130替換的暫態(tài)信號(hào)部分的頻率偏移)可由暫態(tài)信號(hào)重新插入器150重新插入到經(jīng)下采樣處理的音頻信號(hào)142中。暫態(tài)重新插入的結(jié)果在信號(hào)表示1170中示出。晳杰信號(hào)部分的配適在下文中,將描述如何使用暫態(tài)信號(hào)插入器150將暫態(tài)信號(hào)152與經(jīng)處理的音頻信號(hào)142組合。例如,暫態(tài)信號(hào)插入器150可配置為從經(jīng)處理的音頻信號(hào)142中截除暫態(tài)區(qū)域,暫態(tài)信號(hào)152要被插入經(jīng)處理的音頻信號(hào)142中。這里可以考慮的是,暫態(tài)信號(hào)152 的邊界部分可能在時(shí)間上會(huì)與截除的暫態(tài)區(qū)域的邊界部分交疊。在此交疊的邊界部分中, 經(jīng)處理的音頻信號(hào)142與暫態(tài)信號(hào)152之間可能發(fā)生交叉衰落。暫態(tài)信號(hào)152還可以相對(duì)于經(jīng)處理的音頻信號(hào)142被時(shí)移,使得被覆蓋的暫態(tài)區(qū)域的邊界部分的波形與暫態(tài)信號(hào) 152的邊界部分的波形十分一致。精確的配適可通過(guò)計(jì)算產(chǎn)生的凹口的邊緣與暫態(tài)部分的邊緣的交叉相關(guān)的最大值來(lái)執(zhí)行(其中該凹口可能是由于從經(jīng)處理的音頻信號(hào)142中截除暫態(tài)區(qū)域而引起的)。 以此方式,暫態(tài)的主觀音頻質(zhì)量不再會(huì)由于分散及回音效應(yīng)而被削弱。為達(dá)到選擇適當(dāng)?shù)慕爻糠值哪康?,?duì)暫態(tài)位置的精確確定可以執(zhí)行,例如,通過(guò)在合適的時(shí)間段上使用能量的浮動(dòng)重心計(jì)算來(lái)確定。依據(jù)最大交叉相關(guān)的暫態(tài)的最優(yōu)配適可能需要在原始位置上的時(shí)間上略微偏移。 但是,由于存在時(shí)間前掩蔽以及尤其是后掩蔽效應(yīng),重新插入的暫態(tài)的位置不需要與原始位置精確匹配。由于掩蔽罩作用期間較長(zhǎng),在此上下文中優(yōu)選正時(shí)間方向上的暫態(tài)的偏移。 通過(guò)插入原始信號(hào)部分,采樣速率的變化致使音色的變化,或音高的變化。但是,這大體上通過(guò)心理聲學(xué)掩蔽機(jī)制來(lái)由暫態(tài)掩蔽。暫態(tài)處理若暫態(tài)在重新插入之前與截除之后相比具有較少音調(diào),例如,因?yàn)槠鋬H將被加入到經(jīng)處理的信號(hào)上,則相對(duì)應(yīng)的窗口化的暫態(tài)部分將須以合適的方式來(lái)處理。在這種情況下,可實(shí)施反向(LPC)濾波。可選擇的方式將在下列內(nèi)容中簡(jiǎn)要地描述1.確定(例如由暫態(tài)信息134所描述的暫態(tài)信號(hào)部分的)短時(shí)傅立葉變換 (STFT),以獲得頻譜;2.確定(例如該暫態(tài)信號(hào)部分的頻譜的)倒頻譜;3.高通濾波該倒頻譜(第一系數(shù)被設(shè)定成0),以獲得頻譜的高通濾波;4.將(例如該暫態(tài)信號(hào)部分的)頻譜除以(例如該暫態(tài)信號(hào)部分的)經(jīng)濾波的頻譜,以獲得平滑化的頻譜;及5.逆變換(例如該平滑化的頻譜)至?xí)r域(例如,以獲得經(jīng)處理的暫態(tài)信號(hào)152)。產(chǎn)生的信號(hào)展示出(至少大致)與輸出信號(hào)相同的頻譜包絡(luò),但是已丟失了音調(diào)部分。方法依據(jù)本發(fā)明的實(shí)施例包括用于操縱包括暫態(tài)事件的音頻信號(hào)的方法。圖12示出了該方法1200的流程圖。方法1200包括步驟1210,以適應(yīng)于音頻信號(hào)的一個(gè)或多個(gè)非暫態(tài)信號(hào)部分的信號(hào)能量特性或適應(yīng)于暫態(tài)信號(hào)部分的信號(hào)能量特性的替換信號(hào)部分,來(lái)替換包括音頻信號(hào)的暫態(tài)事件的暫態(tài)信號(hào)部分,以獲得暫態(tài)減少音頻信號(hào)。
方法1200進(jìn)一步包括步驟1220,處理暫態(tài)減少音頻信號(hào),以獲得該暫態(tài)減少音頻信號(hào)的經(jīng)處理版本。方法1200進(jìn)一步包括步驟1230,將暫態(tài)減少音頻信號(hào)的經(jīng)處理版本與以原始或經(jīng)處理的形式表示該暫態(tài)信號(hào)部分的暫態(tài)內(nèi)容的暫態(tài)信號(hào)相組合。方法1200可通過(guò)本文所描述的同樣關(guān)于上述本發(fā)明的裝置的任何特征或功能來(lái)補(bǔ)充。換言之,盡管一些方面已在裝置的上下文中被描述,但顯然這些方面還表示相對(duì)應(yīng)的方法的說(shuō)明,其中模塊或裝置與方法步驟或方法步驟的特征相對(duì)應(yīng)。類似地,方法步驟的上下文中所描述的方面還表示相對(duì)應(yīng)裝置的相對(duì)應(yīng)模塊或項(xiàng)目或特征的說(shuō)明。計(jì)算機(jī)稈序依據(jù)某些實(shí)施要求,本發(fā)明的實(shí)施例可以硬件或軟件來(lái)實(shí)施。該實(shí)施可使用數(shù)字存儲(chǔ)介質(zhì)來(lái)執(zhí)行,例如軟盤、DVD、藍(lán)光碟、CD、ROM、PROM、EPROM、EEPROM或FLASH存儲(chǔ)器,該數(shù)字存儲(chǔ)介質(zhì)上儲(chǔ)存有電子可讀控制信號(hào)且與(或能夠與)可編程計(jì)算機(jī)系統(tǒng)協(xié)作使得相應(yīng)方法被執(zhí)行。因此,數(shù)字存儲(chǔ)介質(zhì)可以是計(jì)算機(jī)可讀的。依據(jù)本發(fā)明的一些實(shí)施例包括具有電子可讀控制信號(hào)的數(shù)據(jù)載體,其能夠與可編程計(jì)算機(jī)系統(tǒng)協(xié)作,使得本文所描述的方法之一被執(zhí)行。一般說(shuō)來(lái),本發(fā)明的實(shí)施例可作為具有程序代碼的計(jì)算機(jī)程序產(chǎn)品來(lái)實(shí)施,當(dāng)該計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí),該程序代碼可操作地用于執(zhí)行所述方法之一。該程序代碼例如可被儲(chǔ)存在機(jī)器可讀載體上。其他實(shí)施例包括用于執(zhí)行本文所描述的所述方法之一的儲(chǔ)存在機(jī)器可讀載體上的計(jì)算機(jī)程序。換言之,本發(fā)明方法的實(shí)施例進(jìn)而是具有程序代碼的計(jì)算機(jī)程序,當(dāng)該計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí),該程序代碼用于執(zhí)行本文所描述的所述方法之一。本發(fā)明所述方法的另一實(shí)施例進(jìn)而是數(shù)據(jù)載體(或數(shù)字存儲(chǔ)介質(zhì),或計(jì)算機(jī)可讀介質(zhì)),其包括記錄于其上用于執(zhí)行本文所描述的所述方法之一的計(jì)算機(jī)程序。本發(fā)明方法的另一實(shí)施例進(jìn)而是表示用于執(zhí)行本文所描述的所述方法之一的計(jì)算機(jī)程序的數(shù)據(jù)流或信號(hào)序列。該數(shù)據(jù)流或信號(hào)序列例如可配置為經(jīng)由數(shù)據(jù)通信連接,例如經(jīng)由互聯(lián)網(wǎng)來(lái)傳送。另一實(shí)施例包括處理裝置,例如,被配置成或適于執(zhí)行本文所描述的所述方法之一的計(jì)算機(jī)或可編程邏輯器件。另一實(shí)施例包括計(jì)算機(jī),其上安裝有用于執(zhí)行本文所描述的方法之一的計(jì)算機(jī)程序。在一些實(shí)施例中,可編程邏輯器件(例如,現(xiàn)場(chǎng)可編程門陣列)可用于執(zhí)行本文所描述的方法的某些功能或所有功能。在一些實(shí)施例中,現(xiàn)場(chǎng)可編程門陣列可與微處理器協(xié)作以執(zhí)行本文所描述的方法之一。一般說(shuō)來(lái),所述方法較佳地通過(guò)任何硬件裝置來(lái)執(zhí)行。Mrk總結(jié)上述內(nèi)容,依據(jù)本發(fā)明的實(shí)施例包括處理不需或不能通過(guò)實(shí)際處理例程(例如,使用信號(hào)處理器)來(lái)處理的聲音事件的新方法。在一些實(shí)施例中,本發(fā)明的方法實(shí)質(zhì)上包括對(duì)包含要被單獨(dú)處理的聲音事件的信號(hào)部分進(jìn)行外插或內(nèi)插。在該處理之后,單獨(dú)處理后的暫態(tài)部分被再次加入。這種處理不限于時(shí)間或頻率延展,而是當(dāng)信號(hào)的實(shí)際處理對(duì)暫態(tài)信號(hào)部分不利(或受暫態(tài)信號(hào)部分負(fù)面影響)時(shí),這種處理一般可在信號(hào)處理中使用。在下文中,描述新方法的一些優(yōu)勢(shì),所述優(yōu)勢(shì)可在實(shí)施例的一些中獲得。利用該新方法,有效防止了在使用時(shí)間延展及變換方法處理暫態(tài)期間可能產(chǎn)生的偽像(諸如分散、 預(yù)回音及延遲回音)。避免了疊加的(可能是音調(diào)的)信號(hào)部分的質(zhì)量的可能削弱。依據(jù)本發(fā)明的實(shí)施例可應(yīng)用于不同應(yīng)用領(lǐng)域中。該方法例如適于其中音頻信號(hào)的再現(xiàn)速度或它們的音高需改變的任何音頻應(yīng)用。綜上,已描述了用于單獨(dú)處理音頻信號(hào)中的聲音事件以避免偽像的裝置及方法。實(shí)施例2將參見圖13-16在下文中描述本發(fā)明的另一實(shí)施例。首先,討論關(guān)于暫態(tài)檢測(cè)的細(xì)節(jié)。隨后,將參見圖13及14解釋暫態(tài)處理。將參見圖15討論該暫態(tài)處理的結(jié)果。將參見圖16解釋該暫態(tài)處理的額外改進(jìn)。除此之外,將給出該實(shí)施例的性能演進(jìn),且得出一些結(jié)論。實(shí)施例2-晳杰檢測(cè)為了實(shí)施本發(fā)明的構(gòu)想,重要的是檢測(cè)暫態(tài)的存在以允許替換暫態(tài)及單獨(dú)處理暫態(tài)。除了當(dāng)前的時(shí)間延展應(yīng)用之外,范圍廣泛的信號(hào)處理方法需要了解關(guān)于音頻信號(hào)的暫態(tài)內(nèi)容。主要的范例是塊長(zhǎng)度判定(B.Edler所著的“Coding of audio signals with over-lapping block transform and adaptive window functions(in German),"Frequenz,第43卷,第9期,第252-256頁(yè),1989年9月)或變換音頻編解碼中的暫態(tài)信號(hào)及穩(wěn)態(tài)的分離編碼(Oliver Niemeyer及Bernd Edler所著的“Detection and extraction of transients for audio coding, AES 120th Convention,巴黎,法國(guó),2006 年),暫態(tài)分量的修改(Μ. M. Goodwin 及 C. Avendano 所著的 “Frequency—domain algorithms for audio signal enhancement based on transient modifiation,,,, Journal of the Audio Engineering Society.,第 54 卷,第 827-840 頁(yè),2006 年。)及音頻信號(hào)分段(P. Brossier, J. P. Bello,及 M. D. Plumbley 所著的"Real-time temporal segmentation of note objects in music signals,,,,ICMC,邁阿密,美國(guó),2004 年)。 許多應(yīng)用是檢測(cè)暫態(tài)的方法。最普遍的是,通過(guò)計(jì)算檢測(cè)函數(shù)來(lái)執(zhí)行檢測(cè)(J.P.Bello、 L. Daudet> S. AbdalIah> C. Duxbury> Μ. Davies, R Μ. B. Sandler PA ^ ^ "A tutorial on onset detection in music signals,”, Speech and Audio Processing, IEEE Transactions on,第13卷,第5期,第1035-1047頁(yè),2005年9月),即局部最大值與暫態(tài)的出現(xiàn)一致的函數(shù)。各種提出的方法通過(guò)研究子帶信號(hào)的(加權(quán))幅度或能量包絡(luò)、寬帶信號(hào)、其導(dǎo)數(shù)或其相對(duì)差函數(shù),得出檢測(cè)函數(shù)(例如,參見參考文獻(xiàn)(A. Klapuri所著的 "Sound onset detection by applying psychoacoustic knowledge,,,,ICAS SP,1999年) 及(P. Masri 及A. Bateman所著的“Improved modelling of attack transients in music analysis-resynthesis,,,,I CMC, 1996 # )。)其他方法計(jì)算所測(cè)量的相位與預(yù)測(cè)相位之間的偏差(例如,參見C.Duxbury、 Μ. Davies,及 Μ. Sandler 所著的 “Separation of transient information in musical audio using multiresolution analysis techniques,,,,DAFX,2001 年),子帶信號(hào)的相位及幅度的組合檢驗(yàn)(參見 C. Duxbury、M. Sandler,及 Μ. Davies 所著的“A hybrid approach to musical note onset detection,”,DAFX,2002年),或自適應(yīng)線性預(yù)測(cè)器所產(chǎn)生的誤差(例如,參見 W-C. Lee 及 C-C. J. Kuo, "Musical onset detection based on adaptive linear prediction,扣1^,2006年)。通過(guò)波峰選取,暫態(tài)的存在及其在時(shí)間上的位置作為二元決策而獲得,或連續(xù)檢測(cè)函數(shù)被應(yīng)用于控制修改單元的動(dòng)作(例如,參見參考文獻(xiàn)Μ. M. Goodwin 及 C. Avendano 所著的"Frequency-domain algorithms for audio signal enhancement based on transient modifiation, ”,Journal of the Audio Engineering Society.,第 M 卷,第 827-840 頁(yè),2006 年)。利用二元決策,由于檢測(cè)階段中的錯(cuò)誤分類而造成的錯(cuò)誤分派可能會(huì)在某些應(yīng)用中導(dǎo)致嚴(yán)重的減損。對(duì)于目前的算法而言,誤否定(即錯(cuò)失暫態(tài))會(huì)比誤肯定(即檢測(cè)出不存在的暫態(tài))糟糕。第一種情況會(huì)導(dǎo)致被涂抹開的暫態(tài)分量,而后者僅產(chǎn)生多余的內(nèi)插 (若內(nèi)插適當(dāng)?shù)貓?zhí)行)。短時(shí)傅立葉變換塊的綜合加權(quán)絕對(duì)值用于暫態(tài)區(qū)域的檢測(cè)。此函數(shù)示出了起音暫態(tài)期間的顯著的升高且還能夠指示打擊式信號(hào)及相關(guān)聯(lián)的混響的衰減。關(guān)于平滑檢測(cè)函數(shù)的波峰選取,使用基于以下所描述的百分位計(jì)算的自適應(yīng)閾值來(lái)實(shí)現(xiàn),例如,參考文獻(xiàn) J. P. Bello、L. Daudet> S. AbdalIah> C. Duxbury> Μ. Davies,及 Μ. B. Sandler 所著的"A tutorial on onset detection in music signals,,,, Speech and Audio Processing, IEEE Transactions on,第 13 卷,第 5 期,第 1035-1047 頁(yè),2005 年 9 月。總結(jié)上述內(nèi)容,關(guān)于暫態(tài)檢測(cè)的不同構(gòu)想是領(lǐng)域中已知的且可應(yīng)用于本發(fā)明的裝置中。例如,上述關(guān)于暫態(tài)檢測(cè)的構(gòu)想可在暫態(tài)信號(hào)替換器130的暫態(tài)檢測(cè)器130a中使用。實(shí)施例2-暫態(tài)處理在下文中,將參見圖13及14來(lái)描述暫態(tài)處理。圖13示出了暫態(tài)移除及內(nèi)插的圖形表示。圖14示出了時(shí)間延展及暫態(tài)重新插入的圖形表示。因此,圖13及14中的所述示意表示說(shuō)明所呈現(xiàn)的算法的處理步驟序列。圖13的第一行1310示出了包括暫態(tài)事件1312的原始信號(hào)(即音頻信號(hào)110)。 響應(yīng)于(或通過(guò))對(duì)該暫態(tài)1312的檢測(cè),(例如通過(guò)暫態(tài)檢測(cè)器130a)界定暫態(tài)區(qū)域(例如從暫態(tài)區(qū)域開始位置1314延伸至?xí)簯B(tài)區(qū)域結(jié)束位置1316),其隨后被從信號(hào)中扣減。換言之,首先,將暫態(tài)檢測(cè)出且對(duì)其加窗。其次,從該信號(hào)中扣減暫態(tài)。在參考文獻(xiàn)[B20]中示出了其中暫態(tài)被扣減的信號(hào)。存儲(chǔ)暫態(tài)本身,以備稍后使用。直到這一步驟,該算法與參考文獻(xiàn)[B8]中所描述的相同,盡管此處所使用的截除窗口是矩形的(點(diǎn)狀粗線)。為了存儲(chǔ)暫態(tài),在前和在后加上了幾毫秒的保護(hù)間隔,并且將窗口錐形化(細(xì)實(shí)線),以界定用于將儲(chǔ)存的暫態(tài)平滑地重新插入到時(shí)間刪除無(wú)暫態(tài)信號(hào)中的交叉衰落區(qū)域。隨后,應(yīng)用依據(jù)本實(shí)施例的發(fā)明性算法的最重要的特征-內(nèi)插以填充間隙。換言之,最后,產(chǎn)生的間隙透過(guò)內(nèi)插來(lái)填充。內(nèi)插的結(jié)果可在圖13的底行中參考數(shù)字1330處看出。因?yàn)樵趦?nèi)插之后信號(hào)通常為準(zhǔn)穩(wěn)態(tài),所以現(xiàn)在信號(hào)可延展而不引入惱人的偽像。此延展的結(jié)果在圖14的第一行中參考數(shù)字1410處示出。移位后的位置處的暫態(tài)區(qū)被識(shí)別且為先前儲(chǔ)存的窗口化暫態(tài)的重新插入做準(zhǔn)備。因此,錐形化的窗口(已用于暫態(tài)的提取及/ 或儲(chǔ)存,且通過(guò)圖形表示中的細(xì)實(shí)線于參考數(shù)字1310處示出)被反轉(zhuǎn)且施加于該信號(hào),以允許暫態(tài)重新加入。此處理的結(jié)果在參考數(shù)字1420中示出了。最后,儲(chǔ)存的暫態(tài)加入到經(jīng)延伸的信號(hào)中,此在圖形表示中參考數(shù)字1430處可以看出??偨Y(jié)上述內(nèi)容,暫態(tài)移除和由暫態(tài)移除引起的間隙的內(nèi)插在圖13中示出。首先, 暫態(tài)被檢測(cè)出且被加窗。然后,從信號(hào)中扣減暫態(tài)。最后,通過(guò)內(nèi)插來(lái)填充產(chǎn)生的間隙。圖 14示出了緊隨暫態(tài)移除及內(nèi)插之后的時(shí)間延展及暫態(tài)重新插入。首先,將準(zhǔn)穩(wěn)態(tài)信號(hào)延展, 例如,使用本文所描述的語(yǔ)音編碼器。隨后,通過(guò)與圖14中用于儲(chǔ)存暫態(tài)的窗口的反轉(zhuǎn)窗口相乘,來(lái)為該經(jīng)時(shí)間延展的信號(hào)中的暫態(tài)的位置作準(zhǔn)備。最后,暫態(tài)被重新加入到該信號(hào)中。換言之,最后,將儲(chǔ)存的暫態(tài)加入到經(jīng)延展的信號(hào)中。實(shí)施例2-晳杰處理結(jié)果在下文中,將參見圖15來(lái)討論本發(fā)明的暫態(tài)處理的一些結(jié)果。圖15示出了利用相位語(yǔ)音編碼器的時(shí)間延展應(yīng)用中的該發(fā)明的暫態(tài)處理步驟的圖形表示。第一行包括未經(jīng)延展的信號(hào),而第二行包括經(jīng)延伸的口(port)。應(yīng)注意在第一行及第二行的圖形表示中所使用的時(shí)間跨距不同。圖15繪示了在響板混合定音管的基礎(chǔ)上不同算法步驟的結(jié)果。圖1 中描述具有檢測(cè)到的暫態(tài)區(qū)域的指示的原始輸入信號(hào)的波形圖。圖1 示出了截除的暫態(tài)區(qū)域,截除的暫態(tài)區(qū)域(在隨后的步驟中)被內(nèi)插以產(chǎn)生圖15c中所示的無(wú)暫態(tài)穩(wěn)態(tài)信號(hào)。圖15d包含了包括交叉衰落保護(hù)間隔的暫態(tài)區(qū)域,而圖1 示出了經(jīng)內(nèi)插的(且通常經(jīng)時(shí)間延展的)信號(hào),該信號(hào)在時(shí)間刪除暫態(tài)位置處受到反向交叉衰落窗口的阻尼。作為完成部分,圖15f示出了時(shí)間延展算法的最終輸出。因此,圖1 表示音頻信號(hào)110。圖Me表示暫態(tài)減少音頻信號(hào)132。圖15d表示暫態(tài)信號(hào)152。圖15f表示經(jīng)處理的音頻信號(hào)120。實(shí)施例2-暫態(tài)處理改進(jìn)已發(fā)現(xiàn)關(guān)于截除暫態(tài)區(qū)域的內(nèi)插的不同構(gòu)想在某些情況下是重要的。例如,若暫態(tài)之前的信號(hào)與暫態(tài)之后的信號(hào)相當(dāng)不同,則在暫態(tài)區(qū)域上的內(nèi)插是困難的。在此情況下, 在暫態(tài)事件期間所牽涉的信號(hào)在某些情況下幾乎不能被預(yù)測(cè)。圖16說(shuō)明此情況,該情況通過(guò)舉例的方式使用分別對(duì)兩部分中的僅一個(gè)的可能的評(píng)估來(lái)簡(jiǎn)化。算法(例如用于執(zhí)行內(nèi)插以填充間隙的算法)必須決定(用于填充間隙的內(nèi)插信號(hào)的)所包括的音高。這也應(yīng)用于更加復(fù)雜的寬帶信號(hào)??朔藛?wèn)題的可能的解決方案在于彼此之間具有交叉衰落的向前預(yù)測(cè)及向后預(yù)測(cè)。因此,當(dāng)計(jì)算用于填充間隙的內(nèi)插信號(hào)時(shí),可應(yīng)用這樣彼此之間具有交叉衰落的向前預(yù)測(cè)及向后預(yù)測(cè)。此問(wèn)題在圖16中說(shuō)明,并提出依據(jù)本發(fā)明的一方面的解決方案。圖16示出了若信號(hào)在暫態(tài)期間顯著地變化,則暫態(tài)的內(nèi)插(即對(duì)由暫態(tài)移除所引起的間隙的內(nèi)插)是困難的。在內(nèi)插范圍(即移除暫態(tài)所引起的間隙)期間存在無(wú)限多種的音高輪廓。圖16a以時(shí)間頻率表示的形式示出了包括暫態(tài)事件的信號(hào)的圖形表示。暫態(tài)范圍,即已作為暫態(tài)時(shí)間間隔而被識(shí)別的時(shí)間間隔,由1610表示。圖16b示出了用于獲得輸入音頻信號(hào)的時(shí)間部分的不同可能性的圖形表示,在此時(shí)間部分期間,暫態(tài)已經(jīng)被檢測(cè)出且被移除??梢钥闯觯?若在時(shí)間上在暫態(tài)于期間從輸入音頻信號(hào)中被移除的時(shí)間間隔1620之前有第一音高,及在時(shí)間上在該時(shí)間間隔1620之后有第二音高,則必須確定用于填充移除該暫態(tài)時(shí)間間隔 1620而留下的間隙的音高演進(jìn)??梢钥闯觯?,可以(在時(shí)間方向上)對(duì)時(shí)間間隔1620 之前的音高進(jìn)行前向外插,以獲得該時(shí)間間隔1620期間的音高(參見虛線1630)??蛇x擇地,可以(在時(shí)間方向上)對(duì)在時(shí)間間隔1620之后呈現(xiàn)的音高進(jìn)行后向外插,以獲得時(shí)間間隔1620期間的音高(參見虛線1632)??蛇x擇地,可以在時(shí)間間隔1620期間在時(shí)間間隔1620之前呈現(xiàn)的音高與時(shí)間間隔1620之后呈現(xiàn)的音高之間進(jìn)行內(nèi)插(參見虛線1634)。 自然地,獲得時(shí)間間隔1620(由暫態(tài)移除所引起的間隙)期間的音高演進(jìn)的不同方案是可能的。暫態(tài)信號(hào)重新插入之后最終獲得的經(jīng)處理的信號(hào)的影響在圖16c中示出了??梢钥闯?,重新插入的暫態(tài)信號(hào)部分(反映暫態(tài)信號(hào)部分的原始或經(jīng)處理的暫態(tài)內(nèi)容)在時(shí)間上可能短于經(jīng)處理的(例如經(jīng)時(shí)間延展的)音頻信號(hào)142,該音頻信號(hào)142是已被處理而不具有暫態(tài)內(nèi)容。因此,對(duì)用于填充由音頻信號(hào)132中的暫態(tài)移除所引起的間隙的構(gòu)想的選擇實(shí)際上可能對(duì)經(jīng)處理的音頻信號(hào)120產(chǎn)生可聽得見的影響,甚至在暫態(tài)重新插入之后, 例如若(由暫態(tài)信號(hào)152所描述的)重新插入的暫態(tài)部分短于經(jīng)處理的音頻信號(hào)142中的間隙填充處理的結(jié)果??蓞⒁娭匦虏迦氲臅簯B(tài)之前的時(shí)間間隔140及重新插入的暫態(tài)之后的時(shí)間間隔142??偨Y(jié)上述內(nèi)容,參見圖16已示出的是若信號(hào)在暫態(tài)期間顯著地變化,則暫態(tài)區(qū)域的內(nèi)插需要一些考慮。在內(nèi)插范圍期間存在無(wú)限多種的音高輪廓。圖16a示出了包括暫態(tài)事件的信號(hào)。圖16b示出了以虛線來(lái)標(biāo)示的內(nèi)插暫態(tài)范圍的不同可能性。圖16c示出了經(jīng)延展的信號(hào)。因?yàn)榻?jīng)延展的內(nèi)插區(qū)延伸超出暫態(tài)部分,所以內(nèi)插的信號(hào)可聽見且可導(dǎo)致感知偽像。實(shí)施例2-件能評(píng)估為了獲得對(duì)所提出方法的感知性能的一些了解,進(jìn)行非正式的收聽。選定的信號(hào)包括具有暫態(tài)及穩(wěn)態(tài)信號(hào)特性的項(xiàng)目以評(píng)估針對(duì)暫態(tài)信號(hào)的新方案的益處,同時(shí)確保穩(wěn)態(tài)信號(hào)不劣化。與現(xiàn)有軟件時(shí)間延展算法相比較,此非正式的測(cè)試示出了對(duì)于前文所提到的定音管與響板的組合而言優(yōu)勢(shì)明顯。結(jié)果示出了當(dāng)焦點(diǎn)落在暫態(tài)信號(hào)上時(shí),基于PV的時(shí)間延展算法優(yōu)于WSOLA。利用新方法來(lái)延展現(xiàn)實(shí)世界的信號(hào)有時(shí)也優(yōu)于以其他方法。Mrk總結(jié)上述內(nèi)容,描述了新暫態(tài)處理方案,其可有利地用于時(shí)間延展算法。在不影響各自對(duì)方的情況下改變音頻信號(hào)的速度或音高,這時(shí)常用于音樂(lè)制作及創(chuàng)造性再現(xiàn),諸如重新混合。其還可用于達(dá)到其他目的,諸如帶寬擴(kuò)展及速度增強(qiáng)。盡管可在不有損質(zhì)量的情況下延展穩(wěn)態(tài)信號(hào),但是當(dāng)使用常規(guī)的算法時(shí),暫態(tài)時(shí)常在延展之后不能被完好保留。本發(fā)明展示用于時(shí)間延展算法中的暫態(tài)處理方法。暫態(tài)區(qū)由穩(wěn)態(tài)信號(hào)來(lái)替換。因此被移除的暫態(tài)被保存且在時(shí)間延展之后被重新插入到時(shí)間擴(kuò)張穩(wěn)態(tài)音頻信號(hào)中。延展諸如定音管發(fā)出的絕對(duì)音調(diào)信號(hào)及諸如響板發(fā)出的打擊式信號(hào)的組合,這項(xiàng)任務(wù)提出了挑戰(zhàn)。盡管某些常規(guī)的方法在經(jīng)時(shí)間延展版本中大致保留了信號(hào)的包絡(luò)以及其頻譜特性,且希望時(shí)間擴(kuò)張打擊事件衰減慢過(guò)原始事件,但是本發(fā)明遵循相反的假定對(duì)于音樂(lè)信號(hào)的時(shí)間縮放而言,目標(biāo)是保留暫態(tài)事件的包絡(luò)。因此,依據(jù)本發(fā)明的一些實(shí)施例僅延展被維持的分量以實(shí)現(xiàn)聽起來(lái)像是以不同的情緒來(lái)演奏相同樂(lè)器的效果(例如,參見參考文獻(xiàn)[B3])。為了實(shí)現(xiàn)此效果,依據(jù)本發(fā)明,分離地處理暫態(tài)及穩(wěn)態(tài)信號(hào)分量。依據(jù)本發(fā)明的實(shí)施例基于出版物[B8]中所描述的構(gòu)想,其中已說(shuō)明了如何利用語(yǔ)音編碼器在時(shí)間上及頻率延展上保留暫態(tài)。在此方法中,在信號(hào)延展之前從該信號(hào)中截除暫態(tài)。暫態(tài)部分的截除導(dǎo)致信號(hào)內(nèi)出現(xiàn)間隙,所述間隙通過(guò)相位語(yǔ)音編碼處理被延展。在延展之后,暫態(tài)被重新加入到該信號(hào)中,具有適合于經(jīng)延展的間隙的周邊。但是,已發(fā)現(xiàn)該解決方案對(duì)于許多信號(hào)而言包括了一些優(yōu)勢(shì)。但是還發(fā)現(xiàn)通過(guò)截除暫態(tài),新的偽像出現(xiàn)了, 因?yàn)殚g隙將新的非穩(wěn)態(tài)部分引入到信號(hào)中,尤其是在引入的間隙的邊界處。這些非穩(wěn)態(tài)例如可在圖15b中看到。本文描述的本發(fā)明方法的實(shí)施例具有超越例如在刊物[B3]、[B6]、[B7]中所描述的技術(shù)的優(yōu)勢(shì),因?yàn)樗鼈兡軌驅(qū)崿F(xiàn)時(shí)間延展,而不必在暫態(tài)的周邊改變延展因數(shù)。本發(fā)明方法與例如參考文獻(xiàn)[B8]及[B5]中描述的方法具有共性。本發(fā)明方案將信號(hào)分為暫態(tài)部分及無(wú)暫態(tài)準(zhǔn)穩(wěn)態(tài)信號(hào)。與[B8]中描述的方法相反,由截除暫態(tài)而產(chǎn)生的間隙由穩(wěn)態(tài)信號(hào)替換。利用內(nèi)插方法來(lái)估計(jì)貫穿間隙的圍繞間隙時(shí)間段的信號(hào)的持續(xù)。那么產(chǎn)生的準(zhǔn)穩(wěn)態(tài)部分非常適合時(shí)間延展算法。由于此信號(hào)現(xiàn)在(即內(nèi)插或外插之后)不再包括暫態(tài)及間隙, 所以可防止經(jīng)延伸的暫態(tài)及經(jīng)延伸的間隙的偽像。延展執(zhí)行之后,暫態(tài)替換內(nèi)插信號(hào)的多個(gè)部分。該技術(shù)依賴于暫態(tài)的準(zhǔn)確檢測(cè)及穩(wěn)態(tài)部分的感知上正確的內(nèi)插。但是,如上所述, 除了內(nèi)插以外,其他填充技術(shù)也可使用。為了更好地總結(jié)上述內(nèi)容,在上述某些實(shí)施例中,目的是延展諸如定音管加響板發(fā)出的絕對(duì)音調(diào)信號(hào)和暫態(tài)信號(hào)的組合,而不產(chǎn)生任何感知偽像。已示出了本發(fā)明對(duì)實(shí)現(xiàn)此目的的方式而言有顯著地提高。本發(fā)明的重要方面之一在于對(duì)暫態(tài)事件的正確識(shí)別,尤其是暫態(tài)事件的精確的起音點(diǎn),且更困難的是暫態(tài)事件的衰減及其相關(guān)聯(lián)的混響。因?yàn)闀簯B(tài)事件的衰減和混響覆蓋有信號(hào)的穩(wěn)態(tài)部分,這些部分需要仔細(xì)處理以避免重新加入到信號(hào)的經(jīng)延伸部分中之后出現(xiàn)可感知的波動(dòng)?!┦章犝呲呄蛴谄没祉懪c維持的信號(hào)部分一起被延展的版本。此偏好與實(shí)際目的相矛盾,實(shí)際目的是將暫態(tài)及相關(guān)聯(lián)的聲音作為一體來(lái)考慮。因此,在某些情況下,需要更多了解收聽者的偏好。但是,依據(jù)本發(fā)明的觀念及原則性方法已針對(duì)特殊情況證明了它們的價(jià)值及應(yīng)用。然而,所希望的是本發(fā)明的應(yīng)用范圍甚至可擴(kuò)展。由于其結(jié)構(gòu),本發(fā)明的算法可輕易地適應(yīng)用于暫態(tài)部分的操縱,例如,相較于穩(wěn)態(tài)信號(hào)部分改變它們的級(jí)別。本發(fā)明方法的另一可能的應(yīng)用是任意地衰減或增強(qiáng)暫態(tài),以便重放。這可用于改變諸如鼓等發(fā)出的暫態(tài)事件的響度或甚至完全移除它們,這是因?yàn)閷⑿盘?hào)分離為暫態(tài)和穩(wěn)態(tài)部分是該算法所固有的。上述實(shí)施例僅是說(shuō)明本發(fā)明的原則。應(yīng)理解的是在此描述的所述布置及所述細(xì)節(jié)的修改及變化對(duì)于本領(lǐng)域技術(shù)人員而言是顯而易見的。因此,旨在僅受獨(dú)立權(quán)利要求的范圍的限制而不受通過(guò)本文的實(shí)施例的說(shuō)明及解釋的方式所呈現(xiàn)的特定細(xì)節(jié)的限制。參考文獻(xiàn)[Al]J. L. Flanagan and R. Μ. Golden, "The Bell System Technical Journal, November 1966,,,pages 1394 to 1509 ;[A2]United States Patent 6,549,884, Laroche, J. & Dolson,M."Phase-vocoder pitch-shifting,,;[A3]Jean Laroche and Mark Dolson,"New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing and Other Exotic Effects,,,by Proc.[A4] Zolzer5U :"DAFX !Digital Audio Effects”,Wiley & Sons,Edition :1(26 February 2002),pages 201-298;[A5] Laroche L.,Dolson M. ” Improved phase vocoder timescale modification of audio,,,IEEE Trans. Speech and Audio Processing,vol. 7, no. 3, pp.323-332 ;[A6] Emmanuel Ravel 1 i , Mark Sandler and Juan P. Bello "Fast implementation for non-linear time-scaling of stereo audio”, Proc.of the 8thlnt.Conference on Digital Audio Effects(DAFx’ 05), Madrid, Spain, September 20-22,2005 ;[A7]Duxbury, C.,Μ. Davies, and Μ· Sandler (2001,December) ,Separation of transient information in musical audio using multiresoIution analysis techniques,,· In -Proceedings of the COST G_6 Conference on Digital Audio Effects (DAFX-Ol),Limerick,Ireland ;[A8] Robel A. :“A NEW APPROACH TO TRANSIENT PROCESSING IN THE PHASE VOCODER,,,Proc. Of the 6th Int. Conference on Digital Audio Effects (DAFx-03), London,UK, September8_ll,2003.[Bi]T. Karrer, E.Lee, and J.Borchers, "Phavorit :A phase vocoder for real-time interactive time-stretching,” in Proceedings of the ICMC 2006 International Computer Music Conference, New Orleans, USA, November 2006, pp. 708-715.[B2]T. F. Quatieri, R. B. Dunn, R. J. McAulay, and T. E. Hanna, "Time-scale modifications of complex acoustic signals in noise,,,Technical report, Massachusetts Institute of Technology, February 1994.[B3]C. Duxbury, M. Davies,and M.B. Sandler,“Improved time-scaling of musical audio using phase locking at transients,,? in 112thAES Convention, Munich,2002,Audio Engineering Society.[B4]S. Levine and Julius 0. Smith III,“A sines+transients+noise audio representation for data compression and time/pitchscale modifications,,,1998·[B5] T. S. Verma and T. H. Y. Meng,“Time scale modification using a sines+transients+noise signal model,,,in DAFX98, Barcelona, Spain, 1998.[B6]A. R0bel, “ A new approach to transient processing in the phase vocoder,,,in 6th Conference on Digital Audio Effects (DAFx-03),London,2003, pp. 344-349.[B7]A. R0bel, “ “ Transient detection and preservation in the phase vocoder,,,in Int. Computer Music Conference (ICMC 03),Singapore,2003,pp. 247-250·[B8]F. Nagel,S. Disch,and N. Rettelbach,"A phase vocoder driven bandwidthextension method with novel transient handling for audio codecs,,,in 126th AES Convention, Munich,2009.[B9]M. Dolson, "The phase vocoder :A tutorial,,,Computer Music Journal, vol. 10,no. 4,pp. 14-27,1986.[B10]B.Edler,"Coding of audio signals with over-lapping block transform and adaptive window functions (in german),“ Frequenz, vol. 43,no.9,pp. 252-256, Sept. 1989.[Bi1]Oliver Niemeyer and Bernd Edler,"Detection and extraction of transients for audio coding,,,in AES 120th Convention, Paris, France, 2006.[B12]M. M. Goodwin and C. Avendano,“Frequency-domain algorithms for audio signal enhancement based on transient modifiation,,,Journal of the Audio Engineering Society.,vol. 54,pp.827-840,2006.[B13]P. Brossier, J. P. Bello, and M. D. Plumbley, "Real-time temporal segmentation of note ob-jects in music signals,”in ICMC, Miami, USA,2004.[B14] J. P. Bello,L. Daudet,S. Abdallah,C. Duxbury,M. Davies,and M. B. Sandler, "A tutorial on onset detection in music signals,,,Speech and Audio Processing, IEEE Transactions on,vol. 13,no. 5,pp. 1035-1047,Sept. 2005.[B 15]A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge,” in ICASSP,1999.[B16]P. Masri and A. Bateman,“Improved modelling of attack transients in music analysis-resynthesis,“ in I CMC,1996.[B17] C. Duxbury, M. Davies,and M. Sandler,"Separation of transient information in musical audio using multiresolution analysis techniques,,,in DAFX ,2001.[B18]C. Duxbury, M. Sandler, and M. Davies, "A hybrid approach to musical note onset detection,,,in DAFX, 2002.[B19] W-C. Lee and C-C. J. Kuo, "Musical onset detection based on adaptive linear prediction,,,in ICME, 2006.[Edler]0. Niemeyer and B. Edler,"Detection and extraction of transients for audio coding,,,presented at the AES 120th Convention,Paris,F(xiàn)rance,2006 ;[Bello] J. P. Bello et al. , "A Tutorial on Onset Detection in Music Signals,,,IEEE Transactions on Speech and Audio Processing,Vol. 13,No. 5, September 2005 ;[Goodwin]Μ. Goodwin, C. Avendano, “Enhancement of Audio Signals Using Transient Detection and Modification,,,presented at the AES 117thConvention, USA,October 2004 ;[WaIther]Walther et al.,“Using Transient Suppression in Blind Multi-channel Upmix Algorithms,,,presented at the AES 122th Convention,Austria, May 2007 ;
[Maher]R. C. Maher,"A Method for Extrapolation of Missing Digital Audio Data,,,JAES, Vol. 42,No. 5,May 1994 ;[Daudet] L. Daudet, "A review on techniques for the extraction of transients in musical signals,,,book series Lecture Notes in Computer Science, Springer Berlin/Heidelberg, Volume 3902/2006, Book Computer Music Modeling and Retrieval,pp.219—232.
權(quán)利要求
1.一種用于操縱包括暫態(tài)事件的音頻信號(hào)(110)的裝置(100),該裝置(100)包括暫態(tài)信號(hào)替換器(130),被配置成用替換信號(hào)部分來(lái)替換音頻信號(hào)的包括暫態(tài)事件的暫態(tài)信號(hào)部分,以獲得暫態(tài)減少音頻信號(hào)(132),該替換信號(hào)部分適應(yīng)于音頻信號(hào)的一個(gè)或多個(gè)非暫態(tài)信號(hào)部分的信號(hào)能量特性,或適應(yīng)于暫態(tài)信號(hào)部分的信號(hào)能量特性;信號(hào)處理器(140),被配置成處理暫態(tài)減少音頻信號(hào)(13 來(lái)獲得暫態(tài)減少音頻信號(hào)的經(jīng)處理(14 ;以及暫態(tài)信號(hào)重新插入器(150),被配置成將暫態(tài)減少音頻信號(hào)(13 的經(jīng)處理版本(142) 與以原始或經(jīng)處理形式表示暫態(tài)信號(hào)部分的暫態(tài)內(nèi)容的暫態(tài)信號(hào)(15 相組合。
2.如權(quán)利要求1所述的裝置(100),其中暫態(tài)信號(hào)替換器(130)被配置成提供替換信號(hào)部分,使得替換信號(hào)部分表示與暫態(tài)信號(hào)部分相比時(shí)具有平滑化時(shí)間演進(jìn)的時(shí)間信號(hào), 使得替換信號(hào)部分的能量與暫態(tài)信號(hào)部分之前或暫態(tài)信號(hào)部分之后的音頻信號(hào)(110)非暫態(tài)信號(hào)部分的能量之間的偏差小于預(yù)定的閾值。
3.如權(quán)利要求1或2所述的裝置(100),其中暫態(tài)信號(hào)替換器(130)被配置成對(duì)暫態(tài)信號(hào)部分之前的一個(gè)或多個(gè)信號(hào)部分的振幅值進(jìn)行外插,來(lái)獲得替換信號(hào)部分的振幅值, 以及,其中暫態(tài)信號(hào)替換器(130)被配置成對(duì)暫態(tài)信號(hào)部分之前的一個(gè)或多個(gè)信號(hào)部分的相位值進(jìn)行外插,來(lái)獲得替換信號(hào)部分的相位值。
4.如權(quán)利要求1或2所述的裝置(100),其中暫態(tài)信號(hào)替換器(130)被配置成在暫態(tài)信號(hào)部分之前的信號(hào)部分的振幅值與暫態(tài)信號(hào)部分之后的信號(hào)部分的振幅值之間進(jìn)行內(nèi)插, 來(lái)獲得替換信號(hào)部分的一個(gè)或多個(gè)振幅值,以及其中暫態(tài)信號(hào)替換器(130)被配置成在暫態(tài)信號(hào)部分之前的信號(hào)部分的相位值與暫態(tài)信號(hào)部分之后的信號(hào)部分的相位值之間進(jìn)行內(nèi)插,來(lái)獲得替換信號(hào)部分的一個(gè)或多個(gè)相位值。
5.如權(quán)利要求3或4所述的裝置(100),其中暫態(tài)信號(hào)替換器(130)被配置成施加加權(quán)噪聲,來(lái)獲得替換信號(hào)部分的所述振幅值,或被配置成施加加權(quán)噪聲,來(lái)獲得替換信號(hào)部分的所述相位值。
6.如權(quán)利要求3至5之一所述的裝置(100),其中暫態(tài)信號(hào)替換器(130)被配置成將暫態(tài)信號(hào)部分的非暫態(tài)分量與外插或內(nèi)插的值相組合,來(lái)獲得替換信號(hào)部分。
7.如權(quán)利要求1至6之一所述的裝置(100),其中該信號(hào)替換器(130)被配置成獲得具有依據(jù)當(dāng)前暫態(tài)信號(hào)部分的長(zhǎng)度而定的可變長(zhǎng)度的替換信號(hào)部分。
8.如權(quán)利要求1至7之一所述的裝置(100),其中信號(hào)處理器(140)被配置成處理暫態(tài)減少音頻信號(hào)(132),使得該暫態(tài)減少音頻信號(hào)的所述經(jīng)處理版本(14 的給定時(shí)間信號(hào)部分依據(jù)該暫態(tài)減少音頻信號(hào)(132)的多個(gè)時(shí)移時(shí)間信號(hào)部分而定。
9.如權(quán)利要求1至8之一所述的裝置(100),其中信號(hào)處理器(140)被配置成執(zhí)行暫態(tài)減少音頻信號(hào)(13 的基于時(shí)間塊的處理,來(lái)獲得該暫態(tài)減少音頻信號(hào)的所述經(jīng)處理版本(142);以及其中暫態(tài)信號(hào)替換器(130)被配置成利用比時(shí)間塊的持續(xù)時(shí)間精細(xì)的時(shí)間分辨率,來(lái)調(diào)整要被替換信號(hào)部分替換的暫態(tài)信號(hào)部分的持續(xù)時(shí)間,或以持續(xù)時(shí)間比所述時(shí)間塊的持續(xù)時(shí)間短的替換信號(hào)部分,來(lái)替換持續(xù)時(shí)間比所述時(shí)間塊的持續(xù)時(shí)間短的暫態(tài)信號(hào)部分。
10.如權(quán)利要求1至9之一所述的裝置(100),其中信號(hào)處理器(140)被配置成以頻率相關(guān)方式來(lái)處理暫態(tài)減少音頻信號(hào)(132),使得該處理將暫態(tài)劣化頻率相關(guān)相位偏移引入到暫態(tài)減少音頻信號(hào)(132)中。
11.如權(quán)利要求1至10之一所述的裝置(100),其中暫態(tài)信號(hào)替換器(130)包括暫態(tài)檢測(cè)器(130a),其中該暫態(tài)檢測(cè)器(130a)被配置成提供時(shí)變檢測(cè)閾值以用于檢測(cè)音頻信號(hào) (110)中的暫態(tài),使得該檢測(cè)閾值遵循通過(guò)可調(diào)整平滑時(shí)間常數(shù)來(lái)遵循音頻信號(hào)的包絡(luò),以及其中該暫態(tài)檢測(cè)器被配置成響應(yīng)于對(duì)暫態(tài)的檢測(cè)和/或依據(jù)音頻信號(hào)的時(shí)間演進(jìn),來(lái)改變所述平滑時(shí)間常數(shù)。
12.如權(quán)利要求1至11之一所述的裝置(100),其中該裝置(100)包括暫態(tài)處理器 (160),該暫態(tài)處理器(160)被配置成接收暫態(tài)信息(134),并基于該暫態(tài)信息(134)獲得經(jīng)處理的暫態(tài)信號(hào)(152),在該經(jīng)處理的暫態(tài)信號(hào)中音調(diào)分量減少,以及其中暫態(tài)信號(hào)重新插入器(150)被配置成將暫態(tài)減少音頻信號(hào)(13 的所述經(jīng)處理版本(14 與暫態(tài)處理器(160)所提供的所述經(jīng)處理的暫態(tài)信號(hào)(15 相組合。
13.如權(quán)利要求1至12之一所述的裝置(100),其中暫態(tài)信號(hào)替換器(130)包括暫態(tài)檢測(cè)器(130a,130c),該暫態(tài)檢測(cè)器被配置成基于對(duì)音頻信號(hào)(110)的監(jiān)視或基于伴隨該音頻信號(hào)的輔助信息,檢測(cè)該音頻信號(hào)(110)的暫態(tài)信號(hào)部分,以及被配置成確定暫態(tài)信號(hào)部分的長(zhǎng)度;其中暫態(tài)信號(hào)替換器(130)被配置成考慮暫態(tài)檢測(cè)器(130a,130c)所確定的暫態(tài)信號(hào)部分的長(zhǎng)度;其中暫態(tài)信號(hào)替換器(130)被配置成在時(shí)頻域中,外插與暫態(tài)信號(hào)部分之前的音頻信號(hào)(110)非暫態(tài)信號(hào)部分相關(guān)聯(lián)的復(fù)值時(shí)頻域系數(shù),來(lái)獲得替換信號(hào)部分的時(shí)頻域系數(shù), 或者其中暫態(tài)信號(hào)替換器(130)被配置成在時(shí)頻域中,在與暫態(tài)信號(hào)部分之前的音頻信號(hào) (110)非暫態(tài)信號(hào)部分相關(guān)聯(lián)的復(fù)值時(shí)頻域系數(shù)以及與暫態(tài)信號(hào)部分之后的音頻信號(hào)非暫態(tài)信號(hào)部分相關(guān)聯(lián)的復(fù)值時(shí)頻域系數(shù)之間進(jìn)行內(nèi)插,來(lái)獲得替換信號(hào)部分的時(shí)頻域系數(shù);其中信號(hào)處理器(140)被配置成通過(guò)時(shí)間延展或時(shí)間壓縮來(lái)執(zhí)行暫態(tài)劣化音頻信號(hào)處理,使得信號(hào)處理器(140)所提供的經(jīng)處理的信號(hào)(14 包括比音頻信號(hào)處理器所接收的未經(jīng)處理的信號(hào)(132)的持續(xù)時(shí)間長(zhǎng)或短的持續(xù)時(shí)間;以及其中該裝置(100)被配置成適配暫態(tài)信號(hào)重新插入器(150)所獲得的信號(hào)的時(shí)間縮放或采樣速率,使得至少由暫態(tài)信號(hào)重新插入器(150)獲得的信號(hào)的非暫態(tài)分量相比于輸入暫態(tài)信號(hào)替換器(150)的音頻信號(hào)(110)而言是頻率轉(zhuǎn)換的。
14.如權(quán)利要求1至13之一所述的裝置(100),其中暫態(tài)信號(hào)重新插入器(150)被配置成使暫態(tài)減少音頻信號(hào)(13 的經(jīng)處理版本(14 與以原始或經(jīng)處理形式表示暫態(tài)信號(hào)部分的暫態(tài)內(nèi)容的暫態(tài)信號(hào)(15 交叉衰落。
15.一種用于操縱包括暫態(tài)事件的音頻信號(hào)的方法(1200),該方法包括以適應(yīng)于音頻信號(hào)的一個(gè)或多個(gè)非暫態(tài)信號(hào)部分的信號(hào)能量特性或適應(yīng)于暫態(tài)信號(hào)部分的信號(hào)能量特性的替換信號(hào)部分,來(lái)替換(1210)音頻信號(hào)的包括暫態(tài)事件的暫態(tài)信號(hào)部分,以獲得暫態(tài)減少音頻信號(hào);處理(1220)暫態(tài)減少音頻信號(hào),以獲得該暫態(tài)減少音頻信號(hào)的經(jīng)處理版本;以及將暫態(tài)減少音頻信號(hào)的經(jīng)處理版本與以原始或經(jīng)處理形式表示暫態(tài)信號(hào)部分的暫態(tài)內(nèi)容的暫態(tài)信號(hào)相組合(1230)。
16. 一種計(jì)算機(jī)程序,在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行如權(quán)利要求15所述的方法。
全文摘要
用于操縱包括暫態(tài)事件的音頻信號(hào)(110)的裝置(100),該裝置(100)包括暫態(tài)信號(hào)替換器(130),被配置成用替換信號(hào)部分來(lái)替換音頻信號(hào)的包括暫態(tài)事件的暫態(tài)信號(hào)部分,以獲得暫態(tài)減少音頻信號(hào)(132),該替換信號(hào)部分適應(yīng)于音頻信號(hào)的一個(gè)或多個(gè)非暫態(tài)信號(hào)部分的信號(hào)能量特性,或適應(yīng)于暫態(tài)信號(hào)部分的信號(hào)能量特性。該裝置還包括信號(hào)處理器(140),被配置成處理暫態(tài)減少音頻信號(hào)(132)來(lái)獲得暫態(tài)減少音頻信號(hào)的經(jīng)處理(142)。該裝置還包括暫態(tài)信號(hào)重新插入器(150),被配置成將暫態(tài)減少音頻信號(hào)(132)的經(jīng)處理版本(142)與以原始或經(jīng)處理形式表示暫態(tài)信號(hào)部分的暫態(tài)內(nèi)容的暫態(tài)信號(hào)相組合。
文檔編號(hào)G10L19/02GK102341847SQ201080009914
公開日2012年2月1日 申請(qǐng)日期2010年1月5日 優(yōu)先權(quán)日2009年1月30日
發(fā)明者哈拉爾德·波普, 安德烈亞斯·沃爾瑟, 弗雷德里克·納格爾, 熱雷米·勒康特, 紀(jì)堯姆·??怂? 蒂洛·維嘉 申請(qǐng)人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì)