專利名稱:操縱具有瞬變事件的音頻信號的方法和設備的制作方法
技術領域:
本發(fā)明涉及音頻信號處理,具體涉及在向包含瞬變事件的信號應用音頻效果的情況下的音頻信號操縱。
背景技術:
已知操縱音頻信號使得改變再現(xiàn)速度,同時保持音高(pitch)不變。針對這樣的過程的已知方法是利用相位聲碼器(vocoder)或方法來實現(xiàn)的,如(音高同步的)疊加·(overIap-add)、(P) SOLA,如在 J. L. Flanagan 和 R. M. Golden, The Bell System TechnicalJournal, November 1966, pp. 1349 to 1590 ;美國專利 6549884 Laroche, J. &Dolson,M. Phase-vocoder pitch-shifting ;Jean Laroche 和 Mark Dolson, New Phase-VocoderTechniques for Pitch-Shifting, Harmonizing And Other Exotic Effects,,,Proc. 1999IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, NewPaltz,New York,Oct. 17-20,1999 ;以及Z0lze.r,U DAFX Digital Audio Effects ;ffiley &Sons !Edition I (February 26,2002) ;pp. 201-298 中所描述的。此外,可以使用這樣的方法(即,相位聲碼器或⑵SOLA)對音頻信號進行轉換(transposition),其中這種轉換的具體問題是轉換后的音頻信號與轉換之前的原始音頻信號具有相同的再現(xiàn)/重放長度,而音高發(fā)生改變。這是通過加速再現(xiàn)拉伸信號(stretched signal)而得到的,其中執(zhí)行加速再現(xiàn)的加速因子依賴于在時間上拉伸原始音頻信號的拉伸因子。在采用時間離散的信號表示時,該過程對應于利用等于拉伸因子的因子對拉伸信號的下采樣(down-sampling)或對拉伸信號的抽取(decimation),其中采樣頻率保持不變。在這樣的音頻信號操縱方面的具體挑戰(zhàn)是瞬變事件。瞬變事件是在整個頻帶中或特定頻率范圍內(nèi)信號的能量快速改變(即,快速增大或快速減小)的信號中的事件。具體瞬變(瞬變事件)的特有特征(characteristic feature)是信號能量在頻譜中的分布。典型地,在瞬變事件期間音頻信號的能量分布在整個頻率上,而在非瞬變信號部分中,能量通常集中在音頻信號的低頻部分或特定頻帶中。這意味著,還稱作穩(wěn)定或音調(diào)(tonal)信號部分的非瞬變信號部分具有非平坦的(non-flat)頻譜。換言之,信號的能量包含在很少數(shù)目的譜線/譜帶中,這些譜線/譜帶明顯高于音頻信號的噪聲基底(noise floor)。然而在瞬變部分,音頻信號的能量將分布在許多不同頻帶上,具體地,將分布在高頻部分,使得音頻信號的瞬變部分的頻譜會比較平坦,并且在任何事件下都會比音頻信號的音調(diào)部分的頻譜更為平坦。典型地,瞬變事件是時間上的強烈變化,這意味著當執(zhí)行傅里葉分解時信號將包括高次諧波(higher harmonic)。這些高次諧波的重要特征是,這些高次諧波的相位有非常特殊的相互關系,使得所有這些正弦波的疊加(superposition)將導致信號能量的快速改變。換言之,在頻譜上存在強相關(strong correlation)。所有諧波之間的具體相位情況還可以稱作“垂直相干性(vertical coherence)”。該“垂直相干性”與信號的時間/頻率譜圖表示有關,在所述信號的時間/頻率譜圖表示中,水平方向對應于信號在時間上的演進,垂直尺度在頻率上描述了一個短時譜中譜分量的頻率(轉換頻率點(transform frequency bins))的相互依賴。為了時間拉伸或縮短音頻信號而執(zhí)行的典型處理步驟使得這種垂直相干性被破壞,這意味著當例如由相位聲碼器或任何其他方法對瞬變執(zhí)行時間拉伸或縮短操作時,瞬變隨時間而“模糊(smear) ”,所述相位聲碼器或任何其他方法執(zhí)行基于頻率的處理,向音頻信號引入隨不同頻率系數(shù)而不同的相移。當音頻信號處理方法破壞了瞬變的垂直相干性時,受操縱(manipulated)信號將會在穩(wěn)定或非瞬變部分非常類似于原始信號,而在受操縱信號中瞬變部分將會質(zhì)·量降低。對瞬變的垂直相干性進行不受控制的操縱導致了瞬變的時間分散(temporaldispersion),這是因為許多諧波分量對瞬變事件做貢獻,并且以不受控制的方式來改變所有這些分量的相位,不可避免地導致了這樣的偽像(artifact)。然而,瞬變部分對于音頻信號的動態(tài)而言(如音樂信號或語言信號,其中在特定時刻能量的突然改變表示對受控信號的質(zhì)量的大量主觀用戶印象)是尤為重要的。換言之,典型地,音頻信號中的瞬變事件是語音信號的非常明顯的“重要事件”,其對主觀質(zhì)量印象有超比例(over-proportional)的影響。受操縱的瞬變將使收聽者聽到失真的、回響的并且不自然的聲音,在所述受操作瞬變中,垂直相關性被信號處理操作所破壞或相對于原始信號的瞬變部分而變差。一些當前方法將瞬變周圍的時間拉伸到更高的程度,以便隨后在瞬變的持續(xù)時間期間不執(zhí)行或僅執(zhí)行小(minor)的時間拉伸。這樣的現(xiàn)有技術參考和專利描述了時間和/或音高操縱的方法。現(xiàn)有技術參考是Laroche L. , Dolson Μ. Improved phase vocodertimescale modification of audio”,IEEE trans. Speech and Audio Processing,vol.7, no. 3, pp. 323-332 ;Emmanuel Ravelli, Mark Sandler 和 Juan P. Bello Fastimplementation for non-linear time-scaling of stereo audio ;Proc.of the 8th Int.Conference on Digital Audio Effects(DAFxj 05), Madrid, Spain, September 20-22,2005 ;Duxbury, C. M. Davies 和 M. Sandler(2001, December) Separation of transientinformation in musical audio using multiresolution analysis techniques.Inproceedings of the COST G_6 Conference on Digital Audio Effects (DAFX-01),Limerick, Ireland ;以及 R0bel, A. =ANEffAPPROACH TO TRANSIENT PROCESSING IN THEPHASE VOCODER ;Proc. of the6th Int.Conference on Digital Audio Effect(DAFx-03),London, UK,September 8-11,2003。在相位聲碼器對音頻信號進行時間拉伸期間,時間分散使瞬變信號部分變得“模糊”,這是因為削弱了所謂的信號垂直相干性。使用所謂的疊加方法的方法,如(P)SOLA,可以產(chǎn)生瞬變聲音事件的干擾前回聲(pre-echo)和后回聲(post-echo)。通過瞬變環(huán)境中增大的時間拉伸,可以實際上解決這些問題;然而,如果要出現(xiàn)轉換,則在瞬變環(huán)境下轉換因子將不再是恒定的,即,所疊加的(可能是音調(diào))信號分量的音高將改變并且將作為干擾而被感知。
發(fā)明內(nèi)容
本發(fā)明的目的是為音頻信號操縱提供一種更高質(zhì)量的構思。利用根據(jù)權利要求I所述的操縱音頻信號的設備、根據(jù)權利要求12所述的產(chǎn)生音頻信號的設備、根據(jù)權利要求13所述的操縱音頻信號的方法、根據(jù)權利要求14所述的產(chǎn)生音頻信號的方法、根據(jù)權利要求15所述的具有瞬變部分和輔助信息的音頻信號、或者根據(jù)權利要求16所述的計算機程序,實現(xiàn)了該目的。為了解決在對瞬變部分的非受控處理中出現(xiàn)的質(zhì)量問題,本發(fā)明保證根本不會以有害的方式對瞬變部分進行處理,即,在處理之前去除瞬變部分并且在處理之后將其重新插入,或處理過瞬變部分,但是將其從處理過的信號中去除并替換成未處理過的瞬變事件。優(yōu)選地,插入處理過的信號中的瞬變部分是原始信號中相應瞬變部分的副本,使得受操縱信號由不包含瞬變事件的處理過的部分以及包含瞬變事件的未處理過的或不同·地處理過的部分組成。例如,可以對原始瞬變進行抽取或任何類型的加權或參數(shù)化處理。然而,可選地,可以將瞬變部分替換成合成地產(chǎn)生的瞬變部分,以這樣的方式來合成所述合成地產(chǎn)生的瞬變部分,使得合成的瞬變部分在某些瞬變參數(shù)(如,在特定時刻的能量變化量,或描述瞬變事件特征的任何其它量度)方面類似于原始瞬變部分。因此,甚至可以對原始音頻信號中的瞬變部分特征化,可以在處理之前去除該瞬變,或將處理過的瞬變替換成合成瞬變,所述合成瞬變是根據(jù)瞬變參數(shù)信息而合成地產(chǎn)生的。然而,出于效率原因,優(yōu)選的是在操縱之前復制原始音頻信號的一部分,以及將該副本插入處理過的音頻信號中,這是因為該過程保證了處理過的信號中的瞬變部分與原始信號的瞬變相同。該過程將確保與處理之前的原始信號相比,在處理過的信號中保持了瞬變對聲音信號感知的特殊的高影響。因此,用于操縱音頻信號的任何類型的音頻信號處理都不會降低關于瞬變的主觀或客觀質(zhì)量。在優(yōu)選實施例中,本申請?zhí)峁┝艘环N新方法,在這樣的處理的架構內(nèi),對瞬變聲音事件進行感知性良好的處理,否則將由于信號的分散而產(chǎn)生時間上的“模糊”。該優(yōu)選方法主要包括在信號操縱之前去除瞬變聲音事件,以執(zhí)行時間拉伸;隨后考慮到該拉伸,以精確的方式將未處理的瞬變信號部分添加到修改后的(拉伸后的)信號中。
隨后參考
了本發(fā)明的優(yōu)選實施例,附圖中圖I示出了本發(fā)明的用于操縱具有瞬變的音頻信號的設備或方法的優(yōu)選實施例;圖2示出了圖I的瞬變信號去除器的優(yōu)選實現(xiàn);圖3a示出了圖I的信號處理器的優(yōu)選實現(xiàn);圖3b示出了實現(xiàn)圖I的信號處理器的另外優(yōu)選實施例;圖4示出了圖I的信號插入器的優(yōu)選實現(xiàn);圖5a示出了在圖I的信號處理器中使用的聲碼器的實現(xiàn)的概圖;圖5b示出了圖I的信號處理器的一部分(分析)的實現(xiàn);圖5c示出了圖I的信號處理器的其他部分(拉伸);圖5d示出了圖I的信號處理器的其他部分(合成);
圖6示出了在圖I的信號處理器中使用的相位聲碼器的變換實現(xiàn);圖7a示出了帶寬擴展處理方案的編碼器側;圖7b示出了帶寬擴展方案的解碼器側;圖8a不出了具有瞬變事件的首頻輸入/[目號的能量表不;圖8b示出了具有加窗瞬變(windowed transient)的圖8a的信號;圖8c示出了拉伸之前沒有瞬變部分的信號;圖8d示出了拉伸之后圖8c的信號;以及圖Se示出了在插入了原始信號的相應部分之后的受操縱信號?!D9示出了用于針對音頻信號產(chǎn)生輔助信息的設備。
具體實施例方式圖I示出了操縱具有瞬變事件的音頻信號的優(yōu)選設備。優(yōu)選地,該設備包括瞬變信號去除器100,瞬變信號去除器100具有用于具有瞬變事件的音頻信號的輸入101。瞬變信號去除器的輸出102與信號處理器110連接。信號處理器輸出111與信號插入器120連接。信號插入器輸出121可以與諸如信號調(diào)節(jié)器(conditioner) 130之類的其他設備連接,其中在所述信號插入器輸出121上具有未處理的“自然的”或合成的瞬變的被操縱音頻信號是可用的,所述信號調(diào)節(jié)器130可以執(zhí)行受操縱信號的任何其他處理,如為了帶寬擴展的目的而需要的下采樣/抽取,如結合圖7a和7b所討論的。然而,如果按原樣使用在信號插入器120的輸出處得到的受操縱音頻信號,即,被存儲以進行進一步處理、被傳輸至接收機、或被傳輸至數(shù)字/模擬轉換器,其中所述數(shù)字/模擬轉換器最后與擴音器設備連接以最終產(chǎn)生表示受操縱音頻信號的聲音信號,則根本不能使用信號調(diào)節(jié)器130。在帶寬擴展的情況下,線121上的信號可以已經(jīng)是高頻段信號。那么,信號處理器已經(jīng)根據(jù)輸入的低頻段信號產(chǎn)生了高頻段信號,而且從音頻信號101提取的低頻段瞬變部分將會被置于高頻段的頻率范圍中,優(yōu)選地,這是通過不干擾垂直相干性的信號處理來實現(xiàn)的,如抽取。在信號插入器之前執(zhí)行這種抽取,以便將所抽取的瞬變部分插入塊110的輸出處的高頻段信號中。在該實施例中,信號調(diào)節(jié)器將執(zhí)行高頻段信號的任何其他處理,如包絡整形、噪聲添加、反向濾波、或添加諧波等等,如在MPEG4頻帶復制(spectral bandreplication)中進行的。優(yōu)選地,信號插入器120經(jīng)由線123接收來自去除器100的輔助信息,以便根據(jù)將要插入111中的未處理信號來選擇正確的部分。在實現(xiàn)具有設備100、110、120、130的實施例時,可以得到如結合圖8a至圖8e所討論的信號序列。然而,不一定要在信號處理器110中執(zhí)行信號處理操作之前去除瞬變部分。在該實施例中,不需要瞬變信號去除器100,信號插入器120確定要從輸出111上的處理信號中切除的信號部分,以及將該切除信號替換成如線121示意性所示的原始信號或如線141示意性所示的合成信號,其中該合成信號是可以從瞬變信號發(fā)生器140中產(chǎn)生的。為了能夠產(chǎn)生合適的瞬變,將信號插入器120配置為向瞬變信號發(fā)生器傳送瞬變描述參數(shù)。從而,如項目141所示的塊140與120之間的連接被示為雙向連接。如果在用于操縱的設備中提供特定的瞬變檢測器,那么可以從該瞬變檢測器(圖I中未示出)向瞬變信號發(fā)生器140提供與瞬變有關的信息??梢詫⑺沧冃盘柊l(fā)生器實現(xiàn)為具有可以直接使用的瞬變采樣或具有可以使用瞬變參數(shù)來加權的預先存儲的瞬變采樣,以實際產(chǎn)生/合成將由信號插入器120所使用的瞬變。在一個實施例中,瞬變信號去除器100用于從音頻信號中去除第一時間部分,以得到瞬變減小的音頻信號,其中所述第一時間部分包括瞬變事件。此外,優(yōu)選地信號處理器用于處理瞬變減小的音頻信號,其中包括瞬變事件的第一時間部分被去除,或用于處理包括瞬變事件的音頻信號,以得到線111上的處理后的音
頻信號。優(yōu)選地,信號插入器120用于在第一時間部分被去除的信號位置,或在瞬變事件位于音頻信號中的信號位置,將第二時間部分插入處理后的音頻信號中,其中第二時間部·分包括不受由信號處理器110執(zhí)行的處理所影響的瞬變事件,從而得到輸出121處的已操
縱音頻信號。圖2示出了瞬變信號去除器100的優(yōu)選實施例。在音頻信號不包含與瞬變有關的任何輔助信息/元信息(meta information)的一個實施例中,瞬變信號去除器100包括瞬變檢測器103、淡出(fade-out)/淡入(fade-in)計算器104以及第一部分去除器105。在利用如隨后將參考圖9來討論的編碼設備采集音頻信號中附到音頻信號的與瞬變有關的信息的可選實施例中,瞬變信號去除器100包括輔助信息提取器106,所述輔助信息提取器106提取如線107所示附到音頻信號的輔助信息。如線107所示,可以將與瞬變時間有關的信息提供給淡出/淡入計算器104。然而當音頻信號包括如元信息時,不僅瞬變時間,(即出現(xiàn)瞬變事件的精確時間),而且要從音頻信號排除的部分的開始/停止時間,(即音頻信號“第一部分”的開始時間和停止時間),都是不需要的,而且也不需要淡出/淡入計算器104,可以如線108所示將開始/停止時間信息直接轉發(fā)給第一部分去除器105。線108示出了選項,而且虛線所示的所有其他線也是可選的。在圖2中,優(yōu)選地淡出/淡入計算器104輸出輔助信息109。該輔助信息109與第一部分的開始/停止時間不同,這是因為考慮了圖I的處理器110中的處理特性。此外,優(yōu)選地將輸入音頻信號饋送至去除器105。優(yōu)選地,淡出/淡入計算器104提供第一部分的開始/停止時間。這些時間根據(jù)瞬變時間計算而得,這樣第一部分去除器105不僅去除瞬變事件,還去除瞬變事件周圍的一些采樣。此外,優(yōu)選的是,不僅利用時域矩形窗切除瞬變部分,還利用淡出部分和淡入部分執(zhí)行提取。為了執(zhí)行淡出或/淡入部分,可以應用相對于矩形濾波器而言具有平滑過渡(smoother transition)的任何種類的窗,如上升余弦窗,使得這種提取的頻率響應不如應用矩形窗時那樣成問題,盡管這也是選項。這種時域加窗操作輸出加窗操作的殘余(remainder),即,不具有加窗部分(windowed portion)的音頻信號。在這種情況下可以使用任何瞬變抑制方法,包括在去除瞬變之后留下瞬變減小的或優(yōu)選地完全非瞬變的殘留信號(residual signal)的瞬變抑制方法。與完全去除瞬變部分相比,其中在特定時間部分上將音頻信號設置為0,瞬變抑制在以下情況下是有利的由于這種被設為O的部分對于音頻信號而言非常不自然,使得對音頻信號的進一步處理會受到被設為O的部分的影響。自然地,如結合圖9所討論的,可以在編碼器側應用由瞬變檢測器103和淡出/淡入計算器104執(zhí)行的所有計算,只要將這些計算的結果,如瞬變時間和/或第一部分的開始/停止時間,傳輸至信號操縱器,作為與音頻信號一起或與音頻信號分開的輔助信息或元信息,例如在要經(jīng)由單獨傳輸通道來傳輸?shù)膯为氁纛l元數(shù)據(jù)信號內(nèi)。圖3a示出了圖I的信號處理器110的優(yōu)選實現(xiàn)。該實現(xiàn)包括頻率選擇分析器112以及后續(xù)連接的頻率選擇處理設備113。實現(xiàn)頻率選擇處理設備113,使得所述頻率選擇處理設備113對原始音頻信號的垂直相干性起到負面影響(negative influence)。該處理的示例是,在時間上拉伸信號,或在時間上縮短信號,其中以頻率選擇的方式來應用這種拉伸或縮短,使得例如該處理向處理后的音頻信號引入了隨不同頻帶而不同的相移。在相位聲碼器處理的情況下,在圖3B中示出了一種優(yōu)選的處理方式。通常,相位聲碼器包括子帶/變換分析器114 ;隨后連接的處理器115,用于對項目114所提供的多個輸出信號執(zhí)行頻率選擇性處理;以及隨后的子帶/變換組合器116,所述子帶/變換組合器116將由項目115處理的信號相組合以最終在輸出117處得到時域中的處理后的信號,由于子帶/變換組合器116執(zhí)行對頻率選擇性信號的組合,使得只要處理后的信號117的·帶寬大于由項目115與116之間的單個分支所表示的帶寬,那么時域中的該處理后的信號就同樣是全帶寬信號或低通濾波后的信號。隨后結合圖5A、5B、5C和6來討論相位聲碼器的其他細節(jié)。隨后,在圖4中討論并描述了圖I的信號插入器120的優(yōu)選實現(xiàn)。優(yōu)選地,信號插入器包括用于計算第二時間部分的長度的計算器122。在圖I的信號處理器110進行信號處理之前已經(jīng)去除了瞬變部分的實施例中,為了能夠計算第二時間部分的長度,需要所去除的第一部分的長度以及時間拉伸因子(或時間縮短因子),以便在項目122中計算第二時間部分的長度。如結合圖I和2所討論的,可以從外部來輸入這些數(shù)據(jù)項目。例如,通過將第一部分的長度乘以拉伸因子來計算第二時間部分的長度。將第二時間部分的長度轉發(fā)給計算器123,以計算音頻信號中的第二時間部分的第一邊界和第二邊界。具體地,可以將計算器133實現(xiàn)為在不具有在輸出124處供應的瞬變事件的處理后的音頻信號與具有瞬變事件的音頻信號之間執(zhí)行互相關處理,所述具有瞬變事件的音頻信號提供如在輸入125處供應的第二部分。優(yōu)選地,計算器123受另外的控制輸入126的控制,使得與稍后將討論的瞬變事件的負移位相比,第二時間部分內(nèi)瞬變事件的正移位是優(yōu)選的。將第二時間部分的第一邊界和第二邊界提供給提取器127。優(yōu)選地,提取器127切除該部分,即,從輸入125處提供的原始音頻信號中切除第二時間部分。因為使用隨后的交叉衰減器(cross-fader) 128,所以使用矩形濾波器進行切除。在交叉衰減器128中,通過對開始部分將權重從O增大到1,和/或在結束部分中將權重從I減小到0,對第二時間部分的開始部分以及第二時間部分的停止部分進行加權,使得在該交叉衰減區(qū)域內(nèi),處理后的信號的結束部分與所提取的信號的開始部分在相加時產(chǎn)生有用的信號。在提取之后,針對第二時間部分的結束以及處理后的音頻信號的開始,在交叉衰減器128中執(zhí)行類似的處理。交叉衰減保證了不出現(xiàn)時域偽像,否則當不具有瞬變部分的已處理音頻信號的邊界未與第二時間部分邊界完美地匹配在一起時,所述時域偽像將作為滴答聲偽像(clickingartifact)被感知。隨后,參考圖5a、5b、5c和6來說明在相位聲碼器的情況下信號處理器110的優(yōu)選實現(xiàn)。在下文中,參考圖5和6說明了根據(jù)本發(fā)明的聲碼器的優(yōu)選實現(xiàn)。圖5a示出了相位聲碼器的濾波器組實現(xiàn),其中在輸入500處饋入音頻信號,在輸出510處得到音頻信號。具體地,圖5a所示的示意性濾波器組中的每個通道包括帶通濾波器501和下游(downstream)振蕩器502。利用組合器將來自每個通道的所有振蕩器的輸出信號相組合,例如,將所述組合器實現(xiàn)為加法器并且由503表示,以得到輸出信號。實現(xiàn)每個濾波器501,使得濾波器501 —方面提供幅度信號,另一方面提供頻率信號。幅度信號和頻率信號是時間信號,說明了濾波器501中的幅度隨時間的演進,頻率信號表示由濾波器501濾波的信號的頻率的演進。在圖5b中示出了濾波器501的示意性設置。可以如圖5b所示來設置圖5a的每個濾波器,然而其中僅供應至兩個輸入混頻器(mixer) 551和加法器552的頻率fi隨通道的不同而不同。由低通553對混頻器輸出信號進行低通濾波,其中,這些低通信號與在本地振蕩器頻率(L0頻率)所產(chǎn)生的情況下不同,它們是90°異相(out of phase)的。上·面的低通濾波器553提供正交信號554,而下面的濾波器553提供同相信號555。將這兩個信號(即,I和Q)供應至坐標變換器556,所述坐標變換器556根據(jù)矩形表示產(chǎn)生量值(magnitude)相位表不。在輸出557處隨時間分別輸出圖5a的量值信號或幅度信號。將相位信號供應至相位展開器(unwrapper) 558。在元件558的輸出處,不再存在總是位于O至360°之間的相位值,而是出現(xiàn)線性增大的相位值。將這種“展開的”相位值供應至相位/頻率轉換器559,例如可以將所述相位/頻率轉換器559實現(xiàn)為簡單的相位差形成器,所述相位差形成器從當前時間點的相位減去先前時間點的相位以得到當前時間點的頻率值。將該頻率值加上濾波器通道i的恒定頻率值fi,以在輸出560處得到時變頻率值。輸出560處的頻率值具有直流分量=fi和交流分量=濾波器通道中信號的當前頻率偏離平均頻率fi的頻率偏差(frequency deviation)。因此,如圖5a和5b所示,相位聲碼器實現(xiàn)了譜信息與時間信息的分離。分別地,譜信息在特定通道中或在為每個通道提供頻率的直流部分的頻率fi中,而時間信息分別包含在隨時間變化的頻率偏差或量值中。圖5c示出了根據(jù)本發(fā)明的、針對帶寬增大而執(zhí)行的操縱,具體是在聲碼器中,以及在圖5a中以虛線繪制的所示電路位置處執(zhí)行的操縱。例如,對于時間縮放,可以對每個通道中的幅度信號A(t)或每個信號中的信號頻率f(t)進行抽取或插值。出于轉換的目的,由于其對本發(fā)明是有用的,因而執(zhí)行插值,即信號A (t)和f (t)的時間擴展或延展(temporal extension or spreading),以得到延展信號A’ (t)和f’(t),其中在帶寬擴展情況下該插值受延展因子的控制。通過相位變量(variation)的插值,即,加法器552加上恒定頻率之前的值,圖5a中每個獨立振蕩器502的頻率不變。然而,總體音頻信號的時間變化減慢,即,以因子2減慢。得到的結果是具有原始音高(即原始基波(fundamental wave)以及其諧波)的時間延展音調(diào)。通過執(zhí)行如圖5c所示的信號處理,其中在圖5a的每個濾波器頻段通道中執(zhí)行這樣的處理,以及通過然后在抽取器中對得到的時間信號進行抽取,音頻信號縮回(shrinkback)其原始持續(xù)時間,而所有頻率同時加倍。這使得由因子2進行音高轉換,然而其中得到了與原始音頻信號具有相同長度(即,相同數(shù)目的采樣)的音頻信號。
作為對圖5a所示的濾波器組實現(xiàn)的備選,還可以如圖6所示來使用相位聲碼器的變換實現(xiàn)。這里,將音頻信號100饋送至FFT處理器,或更普遍地饋送至短時傅里葉變換(Short-Time-Fourier-Transform)處理器600,作為時間米樣的序列。圖6中不意性地實現(xiàn)了 FFT處理器600,以對音頻信號執(zhí)行時間加窗(time window),從而隨后通過FFT計算譜的量值和相位,其中針對與強交疊的音頻信號塊有關的連續(xù)譜來執(zhí)行該計算。在極端情況下,可以對于每個新的音頻信號采樣來計算新的譜,其中還可以例如僅針對每20個新的采樣來計算新的譜。優(yōu)選地,這種兩個譜之間的采樣的距離a是由控制器602給出的??刂破?02還用于供給IFFT處理器604,所述IFFT處理器604用于執(zhí)行交疊操作。具體地,將IFFFT處理器604實現(xiàn)為通過根據(jù)修改后的譜的量值和相位為每個譜執(zhí)行一個IFFT來執(zhí)行逆短時傅里葉變換,以便然后執(zhí)行疊加操作,其中根據(jù)所述疊加操作得到結果時間信號。疊加操作消除了分析加窗的影響。在利用IFFT處理器604來處理兩個譜時,利用這兩個譜之間的距離b來實現(xiàn)時間信號的延展,所述距離b大于在產(chǎn)生FFT譜時譜之間的距離a?;舅枷胧牵帽确治鯢FT相隔更遠的逆FFT來延展音頻信號。因此,與原始音頻信號相比,合成音頻信號的時間變化·出現(xiàn)得更為緩慢。然而,在塊606中沒有相位重縮放的情況下,這將導致偽像。例如,在考慮單個頻率點時,其中針對該頻率點以45°間隔實現(xiàn)連續(xù)相位值,這意味著該濾波器組內(nèi)的信號在相位上以1/8周期的速率增大,S卩,每個時間間隔增大45°,這里所述時間間隔是連續(xù)FFT之間的時間間隔。如果現(xiàn)在使逆FFT彼此相隔更遠,則這意味著跨越更長的時間間隔出現(xiàn)45°相位增大。這意味著,由于相移,后續(xù)疊加過程中出現(xiàn)失配,導致了不期望的信號抵消(cancellation)。為了消除這種偽像,以實際上相同的因子來重縮放相位,其中利用該因子對音頻信號進行時間延展。從而每個FFT譜值的相位以因子b/a而增大,使得消除這種失配。在圖5c所示實施例中,針對圖5a的濾波器組實現(xiàn)中的一個信號振蕩器,通過幅度/頻率控制信號的插值來實現(xiàn)延展,而利用兩個IFFT之間的距離大于兩個FFT譜之間的距離來實現(xiàn)圖6中的擴展,即,b大于a,然而,其中為了防止偽像,根據(jù)b/a來執(zhí)行相位重縮放。關于相位聲碼器的詳細描述,參考以下文獻“The phase Vocoder A tutorial”,Mark Dolson, Computer Music Journal,vol. 10, no. 4,pp. 14-27,1986,或“New phase Vocoder techniques for pitch-shifting,harmonizing and other exotic effects,,,L. Laroche und M. Dolson, Proceedings 1999IEEE Workshop on applications of signal processing to audio and acoustics,New Paltz, New York, October 17-20,1999, pages 91 to 94 ;“New approached totransient processing interphase vocoder”, A. Robel, Proceeding of the 6thinternational conference on digital audio effects(DAFx-03), London,UK,September8-11,2003, pages DAFx-I to DAFx-6 ;“Phase_locked Vocoder”, Meller Puckette,Proceedings1995, IEEE ASSP, Conference on applications of signal processing toaudio and acoustics,或美國專利申請?zhí)?6,549,884.可選地,其他信號延展方法是可用的,例如,“音高同步疊加”方法。音高同步疊加(簡稱PSOLA)是一種合成方法,在該方法中語言信號的記錄位于數(shù)據(jù)庫中。只要這些信號是周期信號,就為其提供與基頻(音高)有關的信息并且標記每個周期的開始。在合成中,利用窗函數(shù)以特定的環(huán)境來切除這些周期,并將它們添加到要合成的信號中合適的位置根據(jù)所期望的基頻是高于還是低于數(shù)據(jù)庫條目的基頻,相應地比原始更密集或更稀疏地組合它們。為了調(diào)整可聽的持續(xù)時間,該周期可以被省略或雙倍輸出。該方法還稱作TD-PS0LA,其中TD代表時域,并強調(diào)方法在時域中操作。另外的發(fā)展是多頻段再合成疊加(multiband resynthesis overlap add)方法,簡稱MBROLA。這里通過預處理使數(shù)據(jù)庫中的片段達到統(tǒng)一的基頻,并將諧波的相位位置歸一化(normalize)。這樣,在從一個片段到另一片段的瞬變的合成中,產(chǎn)生更少的感知性干擾,并且所實現(xiàn)的語言質(zhì)量更高。在另外的備選方案中,在延展之前已經(jīng)對音頻信號進行帶通濾波,使得延展和抽取后的信號已經(jīng)包含期望的部分,并且可以省略隨后的帶通濾波。這樣,設置帶通濾波器,使得帶通濾波器的輸出信號中仍然包含可能在帶寬擴展之后已經(jīng)濾除的音頻信號部分。從而帶通濾波器包含了在延展和抽取之后的音頻信號中并未包含的頻率范圍。具有該頻率范圍的信號是形成合成高頻信號的所需信號?!?br>
如圖I所示的信號操縱器還可以額外包括信號調(diào)節(jié)器130,用于對線121上具有未處理的“自然的”或合成的瞬變的音頻信號進行進一步處理。該信號調(diào)節(jié)器可以是帶寬擴展應用中的信號抽取器,所述信號抽取器在其輸出處產(chǎn)生高頻段信號,然后通過使用要與HFR(高頻重建)數(shù)據(jù)流一起傳輸?shù)母哳l(HF)參數(shù)來進一步調(diào)節(jié)(adapt)所述高頻段信號,以使其非常類似原始高頻段信號的特性。圖7a和7b示出了帶寬擴展方案,有利地,該方案可以使用圖7b的帶寬擴展編碼器720內(nèi)的信號調(diào)節(jié)器的輸出信號。將音頻信號饋送至輸入700處的低通/高通組合中。低通/高通組合一方面包括低通(LP),產(chǎn)生音頻信號700的低通濾波版本,如圖7a中的703所示。采用音頻編碼器704對該低通濾波后的音頻信號進行編碼。例如,音頻編碼器是MP3編碼器(MPEG1層3)或AAC編碼器,還稱作MP4編碼器,如在MPEG4標準中描述的。在編碼器704中可以使用提供頻段受限音頻信號703的透明(transparent)表示或有利地為感知性透明表示的備選音頻編碼器,以分別產(chǎn)生完全編碼的或感知性編碼的、(優(yōu)選為感知性透明編碼的音頻信號705。濾波器702的高通部分(表示為“HP”)在輸出706處輸出音頻信號的上頻段(upper band)。將音頻信號的高通部分,即,也表示為HF部分的上頻段或HF頻段,供應至用于計算不同參數(shù)的參數(shù)計算器707。例如,這些參數(shù)是在相對粗糙分辨率下上頻段706的譜包絡,例如,分別針對每個心理聲學(psychoacoustic)頻率組或針對Bark尺度(scale)上每個Bark頻段的尺度因子的表示。參數(shù)計算器707可以計算的另外的參數(shù)是上頻段中的噪聲基底,其每頻段能量可以優(yōu)選地與該頻段中包絡的能量有關。參數(shù)計算器707可以計算的其他參數(shù)包括針對上頻段的每個局部(partial)頻段的音調(diào)測量(tonality measure),其指示譜能量如何在頻段中分布,即,譜能量是否相對均勻地分布在頻段中(其中,那么該頻段中存在非音調(diào)信號),或該頻段中的能量是否相對強烈地集中在頻段中的特定位置(其中,那么相反,該頻段存在音調(diào)信號)。其他參數(shù)包括對上頻段中在其高度和其頻率方面相對強烈地突出的峰值的顯式(explicitly)編碼,在未對上頻段中顯著的正弦部分進行這種顯式編碼的重建中,帶寬擴展構思只會非?;镜鼗蚋静换謴拖嗤男盘?。在任何情況下,參數(shù)計算器707用于僅產(chǎn)生針對上頻段的參數(shù)708,其中,可以對所述參數(shù)708執(zhí)行類似的熵減小步驟,因為還可以在音頻編碼器704中針對量化的頻譜值來執(zhí)行這些步驟,例如差分編碼、預測或霍夫曼編碼等。然后將參數(shù)表示708和音頻信號705供應至用于提供輸出輔助數(shù)據(jù)流710的數(shù)據(jù)流格式器709,典型地,所述輸出輔助數(shù)據(jù)流710是具有特定格式的比特流,如在MPEG4標準中標準化的格式。因為尤其適于本發(fā)明,所以以下參考圖7b對解碼器側進行說明。數(shù)據(jù)流710進入數(shù)據(jù)流解釋器(interpreterKll,所述數(shù)據(jù)流解釋器711用于將與帶寬擴展有關的參數(shù)部分708與音頻信號部分705分開。利用參數(shù)解碼器712對參數(shù)部分708進行解碼,以得到解碼后的參數(shù)713。與此并行地,利用音頻解碼器714對音頻信號部分705進行解碼,以得到音頻信號。根據(jù)該實現(xiàn),可以經(jīng)由第一輸出715輸出音頻信號100。在輸出715處,然后可以·得到具有小帶寬從而具有低質(zhì)量的音頻信號。然而,為了提高質(zhì)量,執(zhí)行本發(fā)明的帶寬擴展720,以分別在輸出側得到具有擴展或高帶寬從而具有高質(zhì)量的音頻信號712。根據(jù)W098/57436已知,在編碼器側對音頻信號執(zhí)行頻段限制,并利用高質(zhì)量的音頻編碼器僅對音頻信號的低頻段進行編碼。然而,僅非常粗糙地(即,利用再現(xiàn)上頻段的譜包絡的一組參數(shù))描述上頻段的特征。然后,在解碼器側合成上頻段。為此,提出諧波轉換,其中,將解碼后的音頻信號的下頻段供應至濾波器組。下頻段的濾波器組通道與上頻段的濾波器組通道連接,或“拼湊(patch) ”下頻段的濾波器組通道,對每個拼湊的帶通信號進行包絡調(diào)節(jié)。這里屬于特定分析濾波器組的合成濾波器組接收下頻段中的音頻信號的帶通信號,并接收下頻段的包絡調(diào)節(jié)后的帶通信號,該信號在上頻段中諧波地(harmonically)被拼湊。合成濾波器組的輸出信號是在其帶寬方面被擴展的音頻信號,以很低的數(shù)據(jù)速率從編碼器側向解碼器側傳輸該音頻信號。具體地,濾波器組領域中的濾波器組計算以及拼湊可能變得需要很大的計算量。這里所提出的方法解決了所提出的問題。與現(xiàn)有方法相比,本方法的新穎之處在于,從要操縱的信號中去除包含瞬變的加窗部分,以及還從原始信號中額外選擇出第二加窗部分(通常與第一部分不同),其中還可以將所述第二加窗部分重新插入受操縱信號中,以便在瞬變的環(huán)境下盡可能多地保留時間包絡。選擇所述第二部分,使得該第二部分會精確適合被時間拉伸操作所改變的凹處(recess)。通過計算所得到的凹處的邊沿與原始瞬變部分的邊沿的最大互相關,來執(zhí)行所述精確適合。因此,瞬變的主觀音頻質(zhì)量不再被分散(dispersion)或回聲效應削弱。為了選擇合適部分,例如,可以通過在合適的時間段上進行能量的移動質(zhì)心(moving centroid)計算,來精確地確定瞬變的位置。第一部分的大小與時間拉伸因子一起確定了第二部分的所需大小。優(yōu)選地,將選擇該大小,使得第二部分容納多于一個的瞬變,只有在彼此緊鄰的瞬變之間的時間間隔低于人類感知獨立時間事件的閾值的情況下,所述第二部分才會用于重新插入。根據(jù)最大互相關對瞬變的最優(yōu)適合可能需要相對于該瞬變原始位置的微小時間偏移。然而,由于存在時間前掩蔽(pre-masking)效應以及特別是后掩蔽(post-masking)效應,重新插入的瞬變的位置不需要與原始位置精確匹配。由于后掩蔽動作的擴展周期,所以瞬變在正時間方向上的移位是優(yōu)選的。通過插入原始信號部分,在隨后的抽取步驟改變采樣速率的情況下,其音色(timbre)或音高將發(fā)生改變。然而這通常被瞬變自身通過心理聲學時間掩蔽機制所掩蔽。具體地,如果出現(xiàn)以整數(shù)因子進行的拉伸,則音色只會發(fā)生微小改變,因為在瞬變環(huán)境外部只會占用每第η個(η =拉伸因子)諧波。使用新的方法,有效防止了在通過時間拉伸和轉換方法處理瞬變的過程中產(chǎn)生的偽像(分散、前回聲和后回聲)。避免了對疊加的(可能是音調(diào))信號部分的質(zhì)量的潛在削尋層。本方法適于其中音頻信號的再現(xiàn)速度或它們的音高將發(fā)生改變的任何音頻應用。隨后,將根據(jù)圖8a至Se來討論優(yōu)選實施例。圖8a示出了音頻信號的表示,然而與直向前(straight forward)時域音頻采樣序列不同,圖8a示出了能量包絡表示,所述能·量包絡表示例如是通過對時域采樣圖例中的每個音頻采樣求平方而得到的。具體地,圖8a示出了具有瞬變事件801的音頻信號800,其中瞬變事件的特征在于能量隨時間的急劇增大或減小。自然地,瞬變還可以是當能量保持在特定高度時,該能量的急劇升高;或當能量在下降之前已經(jīng)在特定高度保持了特定時間時,該能量的急劇降低。例如,瞬變的具體形式是,掌聲或由打擊工具產(chǎn)生的任何其他音調(diào)。此外,瞬變是工具的快速擊打,其開始大聲播放音調(diào),即,在特定閾值級別以上特定閾值時間以下將聲音能量提供到特定頻帶中或多個頻帶中。自然地,其他能量波動,如圖8a中的音頻信號800的能量波動802未被檢測為瞬變。瞬變檢測器是現(xiàn)有技術中已知的,并且在文獻中被廣泛描述,其依賴于許多不同的算法,所述算法可以包括頻率選擇性處理,以及將頻率選擇性處理的結果與閾值相比較,以及隨后確定是否存在瞬變。圖8b示出了加窗瞬變。從利用所示窗形狀加權的信號中減去實線限定的區(qū)域。在處理之后,再次添加由虛線標記的區(qū)域。具體地,必須從音頻信號800中切除在特定瞬變時間803出現(xiàn)的瞬變。穩(wěn)妥起見,不僅要從原始信號中切除瞬變,還要切除一些相鄰/鄰近采樣。從而,確定第一時間部分804,其中第一時間部分從開始時刻805延伸至停止時刻806。通常,選擇第一時間部分804,使得瞬變時間803包含在第一時間部分804內(nèi)。圖Sc示出了拉伸之前沒有瞬變的信號。從緩慢衰落(slowly-decaying)的邊沿807和808可以看出,不僅通過矩形濾波器/加窗器(windower)來切除第一時間部分,還執(zhí)行加窗以使音頻信號具有緩慢衰落的邊沿或側邊(flank)。重要的是,圖8c示出了圖I的線102上的音頻信號,S卩,在瞬變信號去除之后的音頻信號。緩慢衰落/升高的側邊807、808提供了由圖4的交叉衰減器128使用的淡入或淡出區(qū)域。圖8d示出了圖Sc的信號,然而是以拉伸后的狀態(tài)示出的,即,在信號處理器110進行處理之后。因此,圖8d中的信號是圖I的線111上的信號。由于拉伸操作使得第一部分804變得更長。因此,圖8d的第一部分804被拉伸到了第二時間部分809,所述第二時間部分809具有第二時間部分起始時刻810和第二時間部分停止時刻811。通過拉伸信號,還拉伸了側邊807、808,從而拉伸了側邊807’、808’的時間長度。如圖4的計算器122所執(zhí)行的,當對第二時間部分的長度進行計算時,說明了該拉伸。如圖8b中的虛線所示,一旦確定了第二時間部分的長度,就從圖8a所示的原始音頻信號中切除與第二時間部分的長度相對應的部分。這樣,第二時間部分809進入了圖Se。如所述的,第二時間部分的起始時刻812(即,原始音頻信號中第二時間部分809的第一邊界)與第二時間部分的停止時刻813(即,原始音頻信號中第二時間部分的第二邊界)不必須相對于瞬變事件時間803、803’而對稱以使瞬變801精確位于與其在原始引號中相同的時刻上。相反,圖8b的時刻812、813可以有微小變化,使得原始信號中這些邊界上的信號形狀之間的互相關結果盡可能地與拉伸后的信號中相應的部分相類似。從而,可以將瞬變803的實際位置移出第二時間部分的中央,直到如圖Se中由參考數(shù)字803’所指示的特定程度為止,參考數(shù)字803’指示相對于第二時間部分的特定時間,其偏離了相對于圖Sb中的第二時間部分的對應時間803。如結合圖4所述,瞬變相對于時間803向時間803’的正位移是優(yōu)選的,這歸因于比前掩蔽效應更為顯著(pronounced)的后掩蔽效應。圖8e還示出了交迭(crossover)/過渡區(qū)域813a、813b,在所述交迭/過渡區(qū)域813a、813b中,交叉衰減器128提供不具有瞬變的拉伸信號與包括瞬變的原始信號副本之間的交叉衰減器。如圖4所示,用于計算第二時間部分122的長度的計算器被配置為接收第一時間部分的長度以及拉伸因子??蛇x地,計算器122還可以接收與鄰近瞬變包含在同一個第一時間部分中的容許性(allowability)有關的信息。因此,根據(jù)該容許性,計算器可以獨立·地確定第一時間部分804的長度,然后根據(jù)拉伸/縮短因子來計算第二時間部分809的長度。如以上所述,信號插入器的功能在于,該信號插入器從原始信號中去除針對圖Se的間隙(gap)的合適區(qū)域(其在拉伸后的信號內(nèi)被擴大),并使用互相關計算使該合適區(qū)域(即,第二時間部分)適合處理過的信號以確定時刻812和813,以及優(yōu)選地還在交叉衰減區(qū)域813a和813b中執(zhí)行交叉衰減操作。圖9示出了用于產(chǎn)生音頻信號的輔助信息的設備,當在編碼器側執(zhí)行瞬變檢測,并且計算出關于該瞬變檢測的輔助信息并將其傳輸至然后將表示解碼器側的信號操縱器時,該設備可以用在本發(fā)明的情況下。這樣,應用與圖2中的瞬變檢測器103相類似的瞬變檢測器來分析包含瞬變事件的音頻信號。瞬變檢測器計算瞬變時間,即,圖I中的時間803,并且將該瞬變時間轉發(fā)至元數(shù)據(jù)計算器104’,可以將所述元數(shù)據(jù)計算器104’構造為類似于圖2中的淡出/淡入計算器104’。通常,元數(shù)據(jù)計算器104’可以計算要轉發(fā)至信號輸出接口 900的元數(shù)據(jù),其中該元數(shù)據(jù)可以包括針對瞬變?nèi)コ倪吔?,即,針對第一時間部分的邊界,即,圖8b中的邊界805和806,或如圖8b中812、813所示的針對瞬變插入(第二時間部分)的邊界,或瞬變事件時刻803或甚至803’。即使在后一種情況下,信號操縱器將能夠根據(jù)瞬變事件時刻803來確定所有所需數(shù)據(jù),即,第一時間部分數(shù)據(jù)、第二時間部分數(shù)據(jù)
坐寸ο將如項目104’所產(chǎn)生的元數(shù)據(jù)轉發(fā)至信號輸出接口,使得信號輸出接口產(chǎn)生信號,即,用于傳輸或存儲的輸出信號。輸出信號可以僅包括元數(shù)據(jù)或可以包括元數(shù)據(jù)和音頻信號,其中,在后一種情況下,元數(shù)據(jù)將表示音頻信號的輔助信息。這樣,可以經(jīng)由線901將音頻信號轉發(fā)至信號輸出接口 900。可以將信號輸出接口 900所產(chǎn)生的輸出信號存儲在任何類型的存儲介質(zhì)上,或經(jīng)由任何種類的傳輸通道傳輸至信號操縱器或需要瞬變信息的任何其他設備。將注意的是,盡管以方框圖的形式描述了本發(fā)明,其中方框表示實際的或邏輯的硬件組件,然而還可以通過計算機實現(xiàn)的方法來實現(xiàn)本發(fā)明。在后一種情況下,方框表示相應的方法步驟,其中這些步驟代表由相應的邏輯或物理硬件模塊所執(zhí)行的功能。所述實施例僅僅是為了說明本發(fā)明的原理。應理解,對這里所述的布置和細節(jié)的修改和改變對于本領域技術人員而言顯而易見的。因此,意圖在于,僅受限于所附權利要求的范圍,而不受限于這里以對實施例的描述和解釋的方式而表現(xiàn)的特定細節(jié)。取決于本發(fā)明方法的特定實現(xiàn)要求,可以采用硬件或軟件的形式來實現(xiàn)本發(fā)明的方法。可以使用數(shù)字存儲介質(zhì)來執(zhí)行所述實現(xiàn),所述數(shù)字存儲介質(zhì)具體可以是磁盤、存儲有電可讀控制信號的DVD或CD,它們與可編程計算機系統(tǒng)協(xié)作以執(zhí)行本發(fā)明的方法。通常,因而可以將本發(fā)明實現(xiàn)為計算機程序產(chǎn)品,具有存儲在機器可讀載體上的程序代碼,用于當計算機程序產(chǎn)品在計算機上運行時執(zhí)行本發(fā)明的方法。換言之,本發(fā)明的方法從而是具有程序代碼的計算機程序,所述程序代碼用于當所述計算機程序在計算機上運行時執(zhí)行本發(fā)明的方法中至少一個方法。本發(fā)明的元數(shù)據(jù)信號可以存儲在任何機器可讀的存儲介質(zhì)上,如數(shù)字存儲介質(zhì)?!?br>
權利要求
1.一種用于操縱具有瞬變事件(801)的音頻信號的設備,包括 信號處理器(110),用于處理瞬變減小的音頻信號,或用于處理包括瞬變事件(803)的音頻信號,以得到處理后的音頻信號,在所述瞬變減小的音頻信號中,包括瞬變事件(801)的第一時間部分(804)被去除了 ; 信號插入器(120),用于在信號位置處將第二時間部分(809)插入處理后的音頻信號中,所述信號位置是第一部分被去除的信號位置或瞬變事件在處理后的音頻信號中所處的信號位置,其中第二時間部分(809)包括不受信號處理器(110)執(zhí)行的處理的影響的瞬變事件(801),以得到受操縱的音頻信號, 其中,所述信號插入器(120)被配置為 確定(122)要從具有瞬變事件的音頻信號復制的第二時間部分(809)的時間長度, 通過找到最大互相關計算來確定(123)第二時間部分的起始時刻或第二時間部分的停止時刻,使得第二時間部分的邊界盡可能地與處理后的音頻信號的相應邊界相匹配, 其中,受操縱音頻信號中瞬變事件的時間位置(803’ )與音頻信號中瞬變事件的時間位置(803) —致,或與音頻信號中瞬變事件的時間位置(803)偏離小于心理聲學可承受程度的時間差,所述心理聲學可承受程度由瞬變事件的前掩蔽或后掩蔽來確定。
2.根據(jù)權利要求I所述的設備,還包括瞬變信號去除器(100),用于從音頻信號中去除第一時間部分(804),以得到瞬變減小的音頻信號,所述第一時間部分(804)包括瞬變事件(801)。
3.根據(jù)權利要求I或2所述的設備,其中,所述信號處理器(110)被配置為以基于頻率的方式(112,113)來處理瞬變減小的音頻信號,使得該處理向瞬變減小的音頻信號中引入隨不同的譜分量而有所不同的相移。
4.根據(jù)權利要求1-3中任意一項所述的設備,其中,所述信號插入器(120)被配置為通過復制至少第一時間部分(804)來產(chǎn)生第二時間部分,使得第二時間部分至少包括來自具有瞬變事件的音頻信號的第一時間部分的副本。
5.根據(jù)前述權利要求中任意一項所述的設備,其中,所述信號處理器包括聲碼器、相位聲碼器、或(P) SOLA處理器。
6.根據(jù)前述權利要求中任意一項所述的設備,還包括信號調(diào)節(jié)器(130),用于通過對受操縱音頻信號的時間離散版本進行抽取或插值來調(diào)節(jié)所述受操縱音頻信號。
7.根據(jù)前述權利要求中任意一項所述的設備,還包括瞬變檢測器(103),用于檢測音頻信號中的瞬變事件,或 還包括輔助信息提取器(106),用于提取并解釋與音頻信號相關聯(lián)的輔助信息,所述輔助信息指示瞬變事件的時間位置(803),或指示第一時間部分或第二時間部分的起始時刻或停止時刻。
8.一種操縱具有瞬變事件(801)的音頻信號的方法,包括 處理(110)瞬變減小的音頻信號,或處理包括瞬變事件(803)的音頻信號,以得到處理后的音頻信號,在所述瞬變減小的音頻信號中,包括瞬變事件(801)的第一時間部分(804)被去除了 ; 在信號位置處將第二時間部分(809)插入(120)處理后的音頻信號中,所述信號位置是第一部分被去除的信號位置,或瞬變事件在處理后的音頻信號中所處的信號位置,其中第二時間部分(809)包括不受所述處理影響的瞬變事件(801),以得到受操縱的音頻信號, 其中,所述插入步驟(120)包括 確定(122)要從具有瞬變事件的音頻信號復制的第二時間部分(809)的時間長度,通過找到最大互相關計算來確定(123)第二時間部分的起始時刻或第二時間部分的停止時刻,使得第二時間部分的邊界盡可能地與處理后的音頻信號的相應邊界相匹配, 其中,受操縱音頻信號中瞬變事件的時間位置(803’ )與音頻信號中瞬變事件的時間位置(803) —致,或與音頻信號中瞬變事件的時間位置(803)偏離小于心理聲學可承受程度的時間差,所述心理聲學可承受程度由瞬變事件的前掩蔽或后掩蔽來確定。
9.一種具有程序代碼的計算機程序,當所述計算機程序運行在計算機上時,所述程序代碼執(zhí)行根據(jù)權利要求8所述的方法。
全文摘要
一種信號操縱器,用于操縱具有瞬變事件的音頻信號,可以包括瞬變?nèi)コ?100)、信號處理器(110)以及信號插入器(120),所述信號插入器(120)用于在信號位置將時間部分插入處理后的音頻信號中,使得受操縱音頻信號包括不受所述處理影響的瞬變事件,其中所述信號位置是在所述瞬變?nèi)コ鬟M行處理之前去除瞬變事件的信號位置,從而瞬變事件的垂直相干性保持不變,而在信號處理器(110)中執(zhí)行的任何處理都不會破壞瞬變的垂直相干性。
文檔編號G10L21/04GK102789785SQ201210262760
公開日2012年11月21日 申請日期2009年2月17日 優(yōu)先權日2008年3月10日
發(fā)明者尼古拉斯·里特爾博謝, 弗雷德里克·納格爾, 紀堯姆·??怂? 薩沙·迪施, 馬庫斯·馬特拉斯 申請人:弗勞恩霍夫應用研究促進協(xié)會