專利名稱:音頻信號(hào)的自適應(yīng)主體-環(huán)境分解的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號(hào)處理技術(shù)。更具體地,本發(fā)明涉及用于將音頻信號(hào)分解成主 體組分和環(huán)境組分的方法。
背景技術(shù):
主體-環(huán)境分解算法將混響(以及擴(kuò)散的,不聚焦的源)從立體聲或者多 聲道音頻信號(hào)的主相干源分離。這有益于音頻增強(qiáng)(諸如增加或減少樂曲的“鮮明 感(liveliness)”),上混(upmix)(例如,其中環(huán)境信息被用來產(chǎn)生合成環(huán)繞聲信號(hào) (synthetic surround signals)),以及空間音頻編碼(其中對(duì)于主體信號(hào)內(nèi)容和環(huán)境信號(hào) 內(nèi)容需要不同的方法)。目前的方法通過把實(shí)值乘數(shù)應(yīng)用到原始聲道信號(hào)來確定每個(gè)音頻聲道的環(huán)境組 分,使得產(chǎn)生的每個(gè)聲道的主體組分和環(huán)境組分同相。遺憾的是,這些技術(shù)在音頻重現(xiàn)中有 時(shí)會(huì)導(dǎo)致假象。這些假象包括主體組分進(jìn)入環(huán)境組分的“泄露”等。需要改進(jìn)的主體-環(huán) 境分解技術(shù)。
發(fā)明內(nèi)容
本發(fā)明描述了如下技術(shù)該技術(shù)可用于避免如相干源進(jìn)入估計(jì)的環(huán)境組分的“泄 露”這樣的假象。本發(fā)明提供了用于將立體聲音頻信號(hào)或者多聲道音頻信號(hào)分解成主體組 分和環(huán)境組分的方法。還描述了用于增強(qiáng)分解的后處理方法。本發(fā)明提供了用于把立體聲音頻信號(hào)分成主體組分和環(huán)境組分的方法。根據(jù)一些 實(shí)施例,執(zhí)行了向量空間主體_環(huán)境分解。得到了主體組分和環(huán)境組分,使得主體組分和環(huán) 境組分的和等于原始信號(hào)并且組分之間滿足不同的預(yù)期的正交條件。在優(yōu)選的實(shí)施例中, 輸入音頻信號(hào)被過濾成子帶;這些子帶信號(hào)然后被作為向量處理并且利用向量空間方法被分解成主體組分和環(huán)境組分。這些實(shí)施例的優(yōu)勢(shì)是與先前描述的方法相比,要求更少的算 法參數(shù)的調(diào)諧。當(dāng)前發(fā)明的實(shí)施例可以在時(shí)域音頻信號(hào)上直接操作。然而,在優(yōu)選的實(shí)施例中,進(jìn) 入的立體聲音頻信號(hào)首先被從時(shí)域表示變換為頻域表示或者子帶表示。用來變換到頻域 的一種方法,一般稱為短時(shí)傅里葉變換(STFT),立體聲信號(hào)的每個(gè)聲道被窗口框起來以產(chǎn) 生聲音的幀或段,并且在窗口信號(hào)幀上執(zhí)行傅里葉變換以產(chǎn)生每一幀中信號(hào)內(nèi)容的頻域表 示。窗函數(shù)從集中于全部時(shí)域信號(hào)的當(dāng)前處理中撤出而針對(duì)時(shí)域信號(hào)的短時(shí)區(qū)間。幀以固 定的偏移量(稱為間隔(hop size))隔開。間隔確定了幀之間的交疊。STFT的應(yīng)用產(chǎn)生經(jīng) 變換的信號(hào)在多個(gè)頻率點(diǎn)或子帶上的分配。對(duì)每個(gè)信號(hào)窗口或幀,每個(gè)點(diǎn)包含該幀中的聲 道信號(hào)的幅度和相位值;分析每個(gè)具體點(diǎn)的時(shí)間序列(對(duì)應(yīng)于先前的信號(hào)窗口的序列),以 將針對(duì)當(dāng)前時(shí)間的各個(gè)點(diǎn)的信號(hào)內(nèi)容分離成主體組分和環(huán)境組分。這種主體組分和環(huán)境組 分的比例分配基于向量空間操作。逆變換被應(yīng)用于主體和環(huán)境信號(hào)內(nèi)容以產(chǎn)生各個(gè)主體和 環(huán)境時(shí)域信號(hào)。在一些實(shí)施例中,各個(gè)聲道信號(hào)被分解成主體組分和環(huán)境組分以滿足經(jīng)選擇的正 交約束。音頻信號(hào)和信號(hào)組分被作為向量處理以使能向量和矩陣數(shù)學(xué)的應(yīng)用以及便于說明 不同實(shí)施例的操作的圖示的使用。根據(jù)不同的實(shí)施例,主要成分分析(PCA),其可以等同地被稱為“主成分分析”(其 中“成分”是單數(shù)),提供了新的封閉形式解以使得不要求迭代而得到主體組分和環(huán)境組分。 優(yōu)選地通過首先確定聲道信號(hào)的相關(guān)矩陣的主要特征值,然后將對(duì)應(yīng)的特征向量標(biāo)識(shí)為主 方向來建立主體組分的主方向。該主方向向量被認(rèn)為是右聲道和左聲道向量的重量平均 值。主體組分被認(rèn)為是到主方向向量上的正交投影,并且環(huán)境組成被認(rèn)為是相應(yīng)的投影殘 差。得到的主體組分是完全相關(guān)的(在信號(hào)空間中共線)。得到的環(huán)境組分也是共線的但 跨聲道不正交。本發(fā)明的一個(gè)方面提供了用于處理多聲道音頻信號(hào)以確定信號(hào)的主體組分和環(huán) 境組分的方法。該方法包括將多聲道音頻信號(hào)的每個(gè)聲道變換為相應(yīng)的子帶向量,其中所 述向量包括在相應(yīng)子帶中的聲道信號(hào)行為的時(shí)間序列或歷程;確定每個(gè)子帶的主體組分單 位向量;通過作聲道子帶向量到主體組分單位向量上的投影圖,確定每個(gè)子帶中每個(gè)音頻 聲道的主體組分向量;將每個(gè)頻率子帶中的每個(gè)聲道的環(huán)境組分向量確定為投影殘差;以 及調(diào)整主體向量和環(huán)境向量之間的差額以產(chǎn)生修正的主體組分和環(huán)境組分。本發(fā)明的另一方面提供了一種用于處理多聲道音頻信號(hào)以確定所述信號(hào)的主體 組分和環(huán)境組分的方法。該方法包括將多聲道音頻信號(hào)的每個(gè)聲道變換為相應(yīng)的子帶 向量,其中所述向量包括在相應(yīng)子帶中的聲道信號(hào)行為的時(shí)間序列或歷程;在形成由相應(yīng) 的聲道子帶向量界定的信號(hào)子空間的正交基之后,確定每個(gè)子帶中每個(gè)聲道的環(huán)境單位向 量;確定每個(gè)子帶的主體組分單位向量;以及利用相應(yīng)的環(huán)境單位向量和主體單位向量分 解每個(gè)聲道的子帶向量。下面將參考附圖描述本發(fā)明的這些和其他特征和優(yōu)勢(shì)。
圖1是根據(jù)本發(fā)明的不同實(shí)施例用于主體-環(huán)境分解和后處理的方法的流程圖。
圖2是描述了根據(jù)本發(fā)明的一個(gè)實(shí)施例利用主成分分析的音頻信號(hào)到主體組分 和環(huán)境組分的分解的圖示。圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例用于多聲道音頻信號(hào)的主體-環(huán)境分解的方法的 流程圖。圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例用于雙聲道音頻的主體-環(huán)境分解的方法的流程 圖。圖5是描述了根據(jù)本發(fā)明的一個(gè)實(shí)施例向量空間分解的圖示。圖6是描述了根據(jù)本發(fā)明的一個(gè)實(shí)施例利用信號(hào)自適應(yīng)正交環(huán)境基音頻信號(hào)以 及由主成分分析得到的主體單位向量,音頻信號(hào)到主體組分和環(huán)境組分的分解的圖示。
具體實(shí)施例方式將詳細(xì)介紹本發(fā)明的優(yōu)選實(shí)施例。在附圖中說明了優(yōu)選實(shí)施例的示例。雖然將結(jié) 合這些優(yōu)選實(shí)施例描述本發(fā)明,但將理解,不希望將本發(fā)明限制于這些優(yōu)選實(shí)施例。相反, 希望覆蓋可能包含在如所附的權(quán)利要求所界定的本發(fā)明的精神和范圍內(nèi)的替代,修改和等 同物。在下面的描述中,闡述了很多具體細(xì)節(jié),以提供對(duì)本發(fā)明的深入理解??赡茉跊]有一 些或所有這些具體細(xì)節(jié)的情況下實(shí)踐本發(fā)明。在其他情況下,為避免不必要的模糊本發(fā)明, 未詳細(xì)描述眾所周知的機(jī)制。這里應(yīng)該注意,在所有不同的附圖中類似的編碼指代類似的部件。這里說明和描 述的不同的附圖用來說明本發(fā)明的不同的特征。在此意義上,特定的特征在一個(gè)附圖而不 是另一個(gè)附圖中描述,除了另外指明或者結(jié)構(gòu)本質(zhì)上禁止特征的結(jié)合的情況,可以理解那 些特征可能適應(yīng)于被包含在其他附圖所表現(xiàn)的實(shí)施例中,如同他們?cè)谀切└綀D中被完全說 明一樣。除非另外指明,附圖不必要測(cè)量。附圖中提供的任何尺寸不希望限制本發(fā)明的范 圍而僅是說明性的。本發(fā)明提供了改進(jìn)的立體聲音頻信號(hào)或者多聲道信號(hào)的主體-環(huán)境分集。提出的 方法提供了比先前傳統(tǒng)的方法更有效的主體_環(huán)境分解??梢杂煤芏喾绞绞褂帽景l(fā)明來處理音頻信號(hào)。目標(biāo)是將混合的音樂,例如雙通道 (立體聲)信號(hào),分成主體組分和環(huán)境組分。環(huán)境組分是指代表諸如混響和掌聲之類的錄音 環(huán)境的自然背景音效。主體組分是指離散的,相干的源;例如,歌聲可能構(gòu)成主體信號(hào)。音頻信號(hào)的主體-環(huán)境分解有益于雙聲道到多聲道的上混 (stereo-to-multichannel upmix)。立體聲揚(yáng)聲器再現(xiàn)格式包括左前方揚(yáng)聲器和右前方揚(yáng) 聲器,然而標(biāo)準(zhǔn)多聲道格式還包括正前方以及多個(gè)周圍和后方的聲道;雙聲道到多聲道的 上混是指如下任何處理通過該處理,用于多聲道再現(xiàn)的這些額外的聲道的信號(hào)內(nèi)容從輸 入的立體聲信號(hào)產(chǎn)生。一般地,環(huán)境組分被用在雙聲道到多聲道的上混中以合成環(huán)繞聲信 號(hào),該環(huán)繞聲信號(hào)將為聽眾產(chǎn)生增加的包絡(luò)感(sense of envelopment) 0主體組分一般用 來產(chǎn)生中央聲道(center-channel)內(nèi)容以穩(wěn)定正面音頻形象(frontal audio image)并 擴(kuò)大聆聽甜蜜點(diǎn)(listening sweet spot)。中央聲道合成的一種方法是識(shí)別僅中央對(duì)稱的 (center-panned)(即,兩個(gè)輸入聲道中等重并且意圖使其聽起來像源自兩個(gè)揚(yáng)聲器之間, 如同典型的音樂曲目中的歌聲)在原來的左聲道和右聲道的信號(hào)內(nèi)容,以從左聲道和右聲 道提取內(nèi)容,然后將其重定向到中央聲道;這種方法被稱為中央聲道提取(center-channel
6extraction) 0另一種方法是識(shí)別針對(duì)所有兩個(gè)輸入聲道中的內(nèi)容的平移方向(panning direction),并且基于內(nèi)容的平移方向改變內(nèi)容的路線以使其由最近的揚(yáng)聲器對(duì)渲染在 原立體聲中向左平移的內(nèi)容在多聲道裝置中使用左前方和正前方的揚(yáng)聲器渲染;原來向右 平移的內(nèi)容在多聲道裝置中使用右前方和正前方的揚(yáng)聲器渲染(以及原向中央平移的內(nèi) 容使用中央揚(yáng)聲器渲染);這種方法被稱為成對(duì)平移(pairwise panning) 0提供了向量主體_環(huán)境分解模型作為框架以得到改進(jìn)的主體_環(huán)境信號(hào)分解。 相比于以前的方法本發(fā)明的優(yōu)點(diǎn)產(chǎn)生于信號(hào)模型的單位向量的選擇(例如,如下所示 (3)_(4))。本發(fā)明的實(shí)施例提供了針對(duì)單位向量的更有力的選擇。單位向量更適合于輸入 信號(hào)的特征。本發(fā)明的第一實(shí)施例,即修正的PCA主體_環(huán)境分解,提供了比以前的方法所描述 的分解更適合于輸入信號(hào)特征的分解。該方法通過利用下面描述的基于相關(guān)的淡入淡出 (crossfade),產(chǎn)生了與PCA相比適于不相關(guān)或弱相關(guān)輸入信號(hào)的改進(jìn)的分解。本發(fā)明的第二實(shí)施例,S卩“正交環(huán)境基展開”(“orthogonal ambience basis expansion")方法,從輸入信號(hào)自適應(yīng)地得到正交基,使得聲道間的環(huán)境組分一直是正交 的。結(jié)合由PCA得到的主體單位向量使用該基,以得到每個(gè)聲道信號(hào)的主體-環(huán)境分解。該 方法保留了適于高相關(guān)性信號(hào)的PCA方法的特性,同時(shí)改進(jìn)了適于弱相關(guān)信號(hào)的性能。本發(fā)明的實(shí)施例提供了改進(jìn)的性能,例如,與先前的方法相比,主體組分進(jìn)入估算 環(huán)境的更少泄露。雖然不需要,但優(yōu)選的實(shí)施例包括頻域/子帶(subband)實(shí)現(xiàn)方式。在 優(yōu)選實(shí)施例中,利用自相關(guān)和互相關(guān)/內(nèi)積計(jì)算來計(jì)算分解。
數(shù)學(xué)基礎(chǔ)
以下方程定義了在下面的分析方法中使用的參數(shù)之間的關(guān)系
XM y
L A i
rt.L
fRR — ^ R A
R
(自相關(guān)) (自相關(guān)) rLE(t) = Xruj(t-l) + (l-X)XL(t)%(t)(滑動(dòng)相關(guān),其中 Xi(t)是向量 在時(shí)間 t處的新樣本)
.LR
RR
\
(相關(guān)系數(shù))
'ff… V rm J
X
上的投影
i. x
R
\
V
r,
X
在上的投影
J
a ^ L
當(dāng)信號(hào)被變換時(shí)(例如,用STFT),存在組分\ [k,m]或者每個(gè)變換系數(shù)k和時(shí)間
系數(shù)m ;在STFT的情況下,系數(shù)m指示應(yīng)用傅里葉變換的窗口的時(shí)間位置。對(duì)于每個(gè)給出
7的k,變換被作為時(shí)間上的向量處理,即,在給出的k處和m值的范圍內(nèi)的& [k,m]的樣本被 連接成向量表示。原則上,任何信號(hào)分解或者時(shí)頻變換都可以用來產(chǎn)生這些子帶向量。優(yōu) 選地時(shí)頻表示被用于子帶向量。然而,本發(fā)明的范圍不限于此??梢允褂闷渌问降男盘?hào) 表示,包括但不限于信號(hào)的時(shí)域表示。向量長度是設(shè)計(jì)參數(shù)向量可以是瞬時(shí)值(標(biāo)量), 在這種情況下,向量幅度對(duì)應(yīng)于樣本的絕對(duì)值;或者,向量可以具有靜態(tài)或動(dòng)態(tài)長度。替代 地,向量和向量統(tǒng)計(jì)量可以由遞歸形成,在這種情況下,信號(hào)作為向量的處理在方法中不明 顯這種情況下,信號(hào)向量不是明顯地由連續(xù)樣本的連接集合而成;而是(對(duì)于每個(gè)子帶中 的每個(gè)聲道)僅需要當(dāng)前的輸入樣本(結(jié)合遞歸計(jì)算關(guān)系)來計(jì)算當(dāng)前的輸出樣本。相關(guān) 領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到在沒有信號(hào)向量的明確形式的情況下本發(fā)明的一些實(shí)施例可以 用這種方式實(shí)現(xiàn);這些實(shí)現(xiàn)在本發(fā)明的范圍之內(nèi),其中向量空間方法被暗示性地使用。應(yīng)該 注意,遞歸形式,如在上面的滑動(dòng)相關(guān)中,有益于高效地內(nèi)積計(jì)算(例如計(jì)算相關(guān)性所需 要的內(nèi)積計(jì)算),還有益于使能不要求信號(hào)向量的明確形式的實(shí)現(xiàn)方式。此外,應(yīng)該注意,信 號(hào)空間的正交向量等同于不相關(guān)的對(duì)應(yīng)的時(shí)間序列。圖1是描述了根據(jù)本發(fā)明的一些實(shí)施例基于向量空間方法的主體-環(huán)境分解的流 程圖。處理開始于步驟101,其中接收了多聲道音頻信號(hào)。在步驟103,將每個(gè)聲道信號(hào)轉(zhuǎn)換 為時(shí)頻表示,在優(yōu)選的實(shí)施例中使用STFT。雖然STFT是優(yōu)選的,但本發(fā)明不限于這一方面。 即,其他時(shí)頻變換和表示的使用包括在本發(fā)明的范圍內(nèi)。在步驟105中,通過將子帶聲道信 號(hào)的連續(xù)樣本連接成向量,對(duì)于時(shí)域表示的每個(gè)聲道和每個(gè)頻帶(frequency band)形成聲 道信號(hào)向量。這樣,聲道信號(hào)向量代表時(shí)頻表示的頻帶或子帶內(nèi)的聲道信號(hào)在時(shí)間上的演 變。在步驟107中,利用諸如主成分分析或者相關(guān)的修改(例如,修正的PCA主體-環(huán)境分 解;正交環(huán)境基展開)之類的向量空間方法,確定針對(duì)每個(gè)聲道向量的主體組分向量。在步 驟109中,每個(gè)聲道向量的環(huán)境組分向量被確定為聲道向量和主體組分向量之間的差,使 得主體組分向量(在步驟107中所確定的)與環(huán)境組分向量(在步驟109中所確定的)的 和等于原始的信號(hào)向量。數(shù)學(xué)上,該分解可表示為
權(quán)利要求
一種用于處理多聲道音頻信號(hào)以確定所述信號(hào)的主體組分和環(huán)境組分的方法,該方法包括將所述多聲道音頻信號(hào)的每個(gè)聲道變換為相應(yīng)的子帶向量,其中所述向量包括在相應(yīng)子帶中的聲道信號(hào)行為的時(shí)間序列或歷程;確定每個(gè)子帶的主體組分單位向量;通過作所述聲道子帶向量到所述主體組分單位向量上的投影圖,確定每個(gè)子帶中每個(gè)音頻聲道的主體組分向量;將每個(gè)頻率子帶中的每個(gè)聲道的環(huán)境組分向量確定為投影殘差;以及調(diào)整所述主體向量和環(huán)境向量之間的差額以產(chǎn)生修正的主體組分和環(huán)境組分。
2.如權(quán)利要求1所述的方法,其中所述每個(gè)子帶的主體組分單位向量通過對(duì)所述相應(yīng) 的子帶聲道向量的主成分分析來確定。
3.如權(quán)利要求1所述的方法,其中所述差額根據(jù)對(duì)所述主體組分的優(yōu)勢(shì)的計(jì)量來調(diào)iF. ο
4.如權(quán)利要求3所述的方法,其中所述差額被調(diào)整以使得當(dāng)所述主體組分的優(yōu)勢(shì)的計(jì) 量接近0時(shí),所述主體組分和環(huán)境組分被修正以符合如下估計(jì)信號(hào)完全是環(huán)境的。
5.如權(quán)利要求3所述的方法,其中所述主體組分的優(yōu)勢(shì)的計(jì)量對(duì)應(yīng)于所述聲道子帶向 量之間的相關(guān)系數(shù)。
6.如權(quán)利要求1所述的方法,其中所述差額被調(diào)整以獲得關(guān)于重建的音頻信號(hào)的預(yù)期 效果。
7.如權(quán)利要求6所述的方法,其中所述差額被調(diào)整以相對(duì)于所述主體組分削弱所述環(huán) 境組分。
8.如權(quán)利要求6所述的方法,其中所述差額被調(diào)整以相對(duì)于所述主體組分放大所述環(huán) 境組分。
9.如權(quán)利要求1所述的方法,其中所述主體向量和環(huán)境向量之間的所述差額通過將每 個(gè)聲道的所述主體組分的一部分重新分配給所述環(huán)境組分而被調(diào)整。
10.如權(quán)利要求1所述的方法,其中所述多聲道音頻信號(hào)是雙聲道音頻信號(hào)。
11.一種用于處理多聲道音頻信號(hào)以確定所述信號(hào)的主體組分和環(huán)境組分的方法,該 方法包括將所述多聲道音頻信號(hào)的每個(gè)聲道變換為相應(yīng)的子帶向量,其中所述向量包括在相應(yīng) 子帶中的聲道信號(hào)行為的時(shí)間序列或歷程;在形成由所述相應(yīng)的聲道子帶向量界定的信號(hào)子空間的正交基之后,確定每個(gè)子帶中 每個(gè)聲道的環(huán)境單位向量;確定每個(gè)子帶的主體組分單位向量;以及利用相應(yīng)的環(huán)境單位向量和主體單位向量分解每個(gè)聲道的所述子帶向量。
12.如權(quán)利要求11所述的方法,其中每個(gè)子帶的所述主體組分單位向量是通過對(duì)相應(yīng) 的子帶聲道向量的主成分分析來確定的。
13.如權(quán)利要求11所述的方法,其中所述由所述聲道子帶向量界定的信號(hào)子空間的正 交基至少部分是通過所述聲道子帶向量的Gram-Schmidt正交化得到的。
14.如權(quán)利要求11所述的方法,其中在所述聲道子帶向量不相關(guān)的情況下,所述由所述聲道子帶向量界定的信號(hào)子空間的正交基被配置為對(duì)應(yīng)于由所述聲道子帶向量界定的 單位向量。
15.如權(quán)利要求11所述的方法,其中所述差額被調(diào)整以獲得關(guān)于重建的音頻信號(hào)的預(yù) 期效果。
16.如權(quán)利要求15所述的方法,其中所述差額被調(diào)整以相對(duì)于所述主體組分削弱所述 環(huán)境組分。
17.如權(quán)利要求15所述的方法,其中所述差額被調(diào)整以相對(duì)于所述主體組分放大所述 環(huán)境組分。
18.如權(quán)利要求11所述的方法,其中所述多聲道音頻信號(hào)是雙聲道音頻信號(hào)。
全文摘要
通過將信號(hào)變換為對(duì)應(yīng)于子帶信號(hào)的向量以及采用矩陣和向量操作來將左聲道向量和右聲道向量分解成環(huán)境和主體組分,來處理立體聲信號(hào)以確定主體組分和環(huán)境組分。主成分分析被用來確定主體組分單位向量,并且環(huán)境組分根據(jù)基于相關(guān)的淡入淡出或者正交基的獲取來確定。
文檔編號(hào)H03M7/30GK101981811SQ200980111808
公開日2011年2月23日 申請(qǐng)日期2009年3月31日 優(yōu)先權(quán)日2008年3月31日
發(fā)明者邁克爾·M·古德溫 申請(qǐng)人:創(chuàng)新科技有限公司