本文中公開的實(shí)施例總體上涉及音頻內(nèi)容處理,并且更具體地,涉及用于利用基于迭代加權(quán)的成分分析確定的源方向來分離音頻源的方法和系統(tǒng)。
背景技術(shù):
:具有多聲道格式的音頻內(nèi)容(諸如立體聲、環(huán)繞5.1、環(huán)繞7.1等)是通過在工作室混合不同的音頻信號來創(chuàng)建、或者通過在實(shí)際環(huán)境中同步地錄制聲學(xué)信號來生成?;旌弦纛l信號或內(nèi)容可以包括若干不同的音頻源。音頻源分離是用于標(biāo)識個(gè)體音頻源和元數(shù)據(jù)的一種任務(wù),元數(shù)據(jù)諸如音頻源的方向、速度、尺寸等。如本文中所使用的,術(shù)語“音頻源”或“源”指的是在音頻內(nèi)容中存在一定時(shí)間期間的個(gè)體音頻元素。例如,音頻源可以是人、動(dòng)物或聲場中的任何其他聲源。所標(biāo)識的音頻源和元數(shù)據(jù)可以適于在許多隨后的音頻處理任務(wù)中使用。音頻處理任務(wù)的一些示例可以包括空間音頻編碼、重混音/重創(chuàng)作、3D聲音分析和合成、和/或出于各種目的(例如,自動(dòng)語音識別)的信號增強(qiáng)/噪聲抑制。因此,通過成功的音頻源分離可以實(shí)現(xiàn)提升的廣泛用途和更好的性能?;旌弦纛l內(nèi)容通常被建模為以各個(gè)系數(shù)被平移(pan)到多個(gè)聲道的一個(gè)或多個(gè)音頻源的混合。音頻源的平移系數(shù)可以表示該源在混合音頻內(nèi)容跨越的空間中的平移方向(也被稱為源方向)。在分離音頻源(混合音頻內(nèi)容已知)以便標(biāo)識其中的音頻源的任務(wù)期間,首先可以估計(jì)源方向以及源方向的數(shù)目(其等于要被分離的音頻源的數(shù)目)。在常規(guī)的解決方案中,源方向的數(shù)目通過經(jīng)驗(yàn)來預(yù)先配置,并且 通過基于源方向的預(yù)定數(shù)目的隨機(jī)初始化和迭代更新來估計(jì)相應(yīng)的音頻源。然而,如果源方向是隨機(jī)地初始化,這需要大量的工作、諸如迭代更新,以便獲得源方向的合理值。此外,由于源方向的確定受制于源方向的預(yù)定數(shù)目,該數(shù)目可能不同于在混合音頻內(nèi)容中實(shí)際包含的音頻源的數(shù)目,因此在常規(guī)的解決方案中獲得較低的音頻源分離的性能。技術(shù)實(shí)現(xiàn)要素:一般地,本文中公開的示例實(shí)施例提出了一種分離音頻內(nèi)容中的音頻源的方法和系統(tǒng)。在一個(gè)方面,本文中公開的示例實(shí)施例提供了一種分離音頻內(nèi)容中的音頻源的方法。該音頻內(nèi)容包括多個(gè)聲道。該方法包括從音頻內(nèi)容的多個(gè)時(shí)頻塊中獲得多個(gè)數(shù)據(jù)樣本。該方法還包括在多次迭代中分析數(shù)據(jù)樣本以生成多個(gè)成分,其中這些成分中的每個(gè)成分指示具有數(shù)據(jù)樣本的方差的方向,并且其中在多次迭代的每次迭代中,利用權(quán)值來加權(quán)數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本,該權(quán)值基于多個(gè)成分中所選擇的成分。該方法進(jìn)一步包括基于所選擇的成分來確定音頻內(nèi)容的源方向,以供從音頻內(nèi)容中分離音頻源。這方面的實(shí)施例還包括相應(yīng)的計(jì)算機(jī)程序產(chǎn)品。在另一個(gè)方面,本文中公開的示例實(shí)施例提供了一種分離音頻內(nèi)容中的音頻源的系統(tǒng)。該音頻內(nèi)容包括多個(gè)聲道。該系統(tǒng)包括數(shù)據(jù)樣本獲取單元,被配置為從音頻內(nèi)容的多個(gè)時(shí)頻塊中獲得多個(gè)數(shù)據(jù)樣本。該系統(tǒng)還包括成分分析單元,被配置為在多次迭代中分析數(shù)據(jù)樣本以生成多個(gè)成分,其中這些成分中的每個(gè)成分指示具有數(shù)據(jù)樣本的方差的方向,并且其中在多次迭代的每次迭代中,利用權(quán)值來加權(quán)數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本,該權(quán)值基于多個(gè)成分中所選擇的成分。該系統(tǒng)進(jìn)一步包括源方向確定單元,被配置為基于所選擇的成分來確定音頻內(nèi)容的源方向,以供從音頻內(nèi)容中分離音頻源。通過下文描述將會(huì)理解,根據(jù)本文中公開的示例實(shí)施例,對從輸 入音頻內(nèi)容獲得的數(shù)據(jù)樣本執(zhí)行迭代加權(quán)的成分分析,并且在每次迭代中更新用于數(shù)據(jù)樣本的權(quán)值。由成分分析生成的成分之一在多次迭代之后可以被移動(dòng)至實(shí)際的源方向。這個(gè)成分的方向因此可以被確定為源方向。迭代加權(quán)的成分分析可以有效地檢測出輸入的音頻內(nèi)容中的主要源方向并且適于任何的多維音頻內(nèi)容。本文中公開的示例實(shí)施例所帶來的其他益處將通過下文描述而清楚。附圖說明通過參考附圖閱讀下文的詳細(xì)描述,本文中公開的示例實(shí)施例的上述以及其他目的、特征和優(yōu)點(diǎn)將變得易于理解。在附圖中,以示例而非限制性的方式示出了本文中公開的若干實(shí)施例,其中:圖1示出了根據(jù)本文中公開的一個(gè)示例實(shí)施例的立體聲音頻信號的散布圖的示意圖;圖2示出了根據(jù)本文中公開的一個(gè)示例實(shí)施例的分離音頻內(nèi)容中的音頻源的方法的流程圖;圖3示出了根據(jù)本文中公開的另一個(gè)示例實(shí)施例的立體聲音頻信號的散布圖的示意圖;圖4示出了根據(jù)本文中公開的一個(gè)示例實(shí)施例的用于確定音頻內(nèi)容的源方向的過程的流程圖;圖5示出了根據(jù)本文中公開的一個(gè)示例實(shí)施例的用于確定音頻內(nèi)容的多個(gè)源方向的過程的流程圖;圖6示出了根據(jù)本文中公開的一個(gè)示例實(shí)施例的源方向與數(shù)據(jù)樣本的方向之間的相關(guān)度的分布的示意圖;圖7示出了根據(jù)本文中公開的一個(gè)示例實(shí)施例的用于從多個(gè)檢測的源方向中確定確認(rèn)源方向的過程的流程圖;圖8示出了根據(jù)本文中公開的一個(gè)示例實(shí)施例的分離音頻內(nèi)容中的音頻源的系統(tǒng)的框圖;以及圖9示出了適于實(shí)現(xiàn)本文中公開的示例實(shí)施例的示例計(jì)算機(jī)系統(tǒng)的框圖。在各個(gè)附圖中,相同或?qū)?yīng)的標(biāo)號表示相同或?qū)?yīng)的部分。具體實(shí)施方式下面將參考附圖中示出的若干示例實(shí)施例來描述本文中所公開的示例實(shí)施例的原理。應(yīng)當(dāng)理解,描述這些實(shí)施例僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本文中所公開的示例實(shí)施例,而并非以任何方式限制本文中所公開的主題的范圍。如以上所提及的,期望從音頻內(nèi)容中確定源方向以便對該音頻內(nèi)容執(zhí)行源分離。所確定的源方向的數(shù)量也可以在源分離中被利用。通常源分離問題可以由如下混合模型來表示:xi(t)=Σj=0Naijsj(t)+bi(t),i=1,2,...,M---(1)]]>其中xi(t)表示在時(shí)間幀t處的混合音頻內(nèi)容的聲道i中觀察到的音頻信號,sj(t)表示未知的源信號j,aij表示從源信號sj(t)到混合音頻信號xi(t)的平移系數(shù),bi(t)表示不具有明確方向的非相關(guān)分量,諸如噪聲和環(huán)境音,N表示底層源信號的數(shù)目,并且M表示在音頻內(nèi)容中觀察到的信號的數(shù)目并且通常對應(yīng)于音頻內(nèi)容中的聲道的數(shù)量。N大于或等于1,并且M大于或等于2。以向量格式來寫的話,公式(1)變?yōu)椋篨(t)=A·S(t)+b(t)(2)其中X(t)表示在時(shí)間幀t處的具有M個(gè)觀察信號的混合音頻內(nèi)容,S(t)表示在音頻內(nèi)容中混合的N個(gè)未知的源信號,并且A表示包含平移系數(shù)的M乘N的平移矩陣。矩陣A中的每一列,例如[a1j,a2j,...,aMj]T,指的是源信號sj(t)在由觀察到的信號所跨越的空間中的源方向。根據(jù)上述混合模型,為了音頻內(nèi)容中分離音頻源,可以首先構(gòu)建平移矩陣A。也就是說,可以估計(jì)矩陣A中的一個(gè)或多個(gè)源方向以及源方向的數(shù)目M。源方向估計(jì)通常基于稀疏性假設(shè),其假設(shè)存在足夠多的音頻內(nèi)容 的如下時(shí)頻塊:在這些時(shí)頻塊中僅存在一個(gè)活躍的或主導(dǎo)的音頻源。這個(gè)假設(shè)在大多數(shù)情況下可以被滿足。因此,僅具有一個(gè)主導(dǎo)源的這些時(shí)頻塊可以被用于表示該音頻源的源方向(或者平移方向),因?yàn)椴粫?huì)有太多噪聲干擾該方向估計(jì)。如果從跨越多個(gè)聲道的每個(gè)時(shí)頻塊獲得多維的數(shù)據(jù)樣本,并且所有數(shù)據(jù)樣本被描繪在多維空間中,其中每個(gè)維度表示一個(gè)觀察到的信號(例如,一個(gè)聲道),在主導(dǎo)的源方向周圍將被分配有一定數(shù)量的數(shù)據(jù)樣本。通過分析這個(gè)散布圖,可以確定出主導(dǎo)的源方向以及主導(dǎo)的源的數(shù)目。圖1描繪了包含兩個(gè)稀疏源的立體聲音頻信號的示例散布圖。該音頻信號被劃分成幀,并且計(jì)算每個(gè)幀的幅度譜以通過例如共軛正交鏡像濾波器組(CQMF)來獲得多個(gè)數(shù)據(jù)樣本。在這個(gè)情況中,每個(gè)數(shù)據(jù)樣本是二維的,表示在特定頻率帶和特定幀處信號x1(左聲道)和信號x2(右聲道)的幅度。注意到,在圖1中,每個(gè)數(shù)據(jù)樣本的幅度被歸一化到0至1的范圍中??梢郧宄乜闯觯嬖趦蓚€(gè)主導(dǎo)的源方向,在圖1中由d1和d2標(biāo)示。期望從多維空間中確定主導(dǎo)的源方向。一種簡單的方法是搜索多維空間以在該空間中找到與主導(dǎo)的音頻源相對應(yīng)的可能的方向。然而,這個(gè)方法可能僅對于立體聲信號有用,因?yàn)樵谝恍┣闆r下其搜索空間較小。例如,在圖1中,源方向可以被表示為與水平軸的角度,其可以是0到π/2的范圍(在散布圖中使用原始頻譜而不是幅度譜的情況下,角度可以從到π)。因此,把這個(gè)范圍劃分為若干間隙(例如,100個(gè))將實(shí)現(xiàn)主導(dǎo)的源方向估計(jì)的高分辨度。換而言之,最多僅需要搜索100個(gè)方向就可以找到主導(dǎo)的源方向。然而,對于包括更高數(shù)目的聲道的音頻信號(例如,5.1環(huán)繞信號、7.1環(huán)繞信號等),搜索空間將顯著地增加至108和1012,這對于搜索方法而言是非常具有挑戰(zhàn)的。本文中公開的示例實(shí)施例提出了一種適于從具有任何數(shù)目的聲道的音頻信號中有效地估計(jì)出主導(dǎo)的源方向的解決方案,聲道的數(shù)目包括但不限于立體聲、5.1環(huán)繞信號、7.1環(huán)繞信號等?;诠烙?jì)的源 方向和所估計(jì)的源方向的數(shù)目,可以基于以上討論的混合模型來從音頻內(nèi)容中分離音頻源?,F(xiàn)在參照圖2,其描繪了根據(jù)本文中公開的一個(gè)示例實(shí)施例的分離音頻內(nèi)容中的音頻源的方法200的流程圖。在步驟201,從音頻內(nèi)容的多個(gè)時(shí)頻塊中獲得多個(gè)數(shù)據(jù)樣本。要被處理的音頻內(nèi)容具有基于多個(gè)聲道的格式。例如,音頻內(nèi)容可以遵循立體聲、環(huán)繞5.1、環(huán)繞7.1等。音頻內(nèi)容包括來自相應(yīng)聲道的多個(gè)單聲道信號。在一些實(shí)施例中,音頻內(nèi)容可以被表示為頻域信號。備選地,音頻內(nèi)容可以被輸入為時(shí)域信號。在輸入是時(shí)域音頻信號的這些實(shí)施例中,可能需要執(zhí)行一些預(yù)處理以獲得對應(yīng)的頻域信號。在本文中公開的實(shí)施例的源方向估計(jì)基于稀疏性假設(shè)。就此而言,音頻內(nèi)容可以被處理以獲得音頻內(nèi)容的時(shí)頻塊中的數(shù)據(jù)樣本。在一些實(shí)施例中,當(dāng)輸入的多聲道音頻內(nèi)容具有時(shí)域表示時(shí),可以使用時(shí)頻變換將音頻內(nèi)容劃分成多個(gè)塊,時(shí)頻變換諸如共軛正交鏡像濾波器組(CQMF)、快速傅里葉變換(FFT)等。在一些實(shí)施例中,每個(gè)塊通常包括多個(gè)樣本(例如,64個(gè)樣本、128個(gè)樣本、256個(gè)樣本等)。此外,音頻內(nèi)容的全頻率范圍可以被劃分成多個(gè)頻率子帶(例如,77),每個(gè)頻率子帶占據(jù)預(yù)定義的頻率范圍。因此,可以在多個(gè)頻率子帶和多個(gè)采樣時(shí)序中獲得一定數(shù)目的數(shù)據(jù)樣本。每個(gè)數(shù)據(jù)樣本可以表示在音頻內(nèi)容的每個(gè)時(shí)頻塊上的音頻信號。在本文中公開的一些實(shí)施例中,每個(gè)數(shù)據(jù)樣本是多維的,表示在特定頻率帶和特定幀處該音頻信號的相應(yīng)聲道的幅度。數(shù)據(jù)樣本可以被描繪在多維空間中,每個(gè)維度對應(yīng)于音頻內(nèi)容的一個(gè)聲道。注意到,可以使用當(dāng)前存在的或未來開發(fā)的任何音頻采樣方法來從音頻內(nèi)容中獲得多個(gè)數(shù)據(jù)樣本。本文中公開的主題的范圍在此方面不受限制。在步驟202,在多次迭代中分析數(shù)據(jù)樣本以生成多個(gè)成分。根據(jù)本文中公開的實(shí)施例,對獲得的數(shù)據(jù)樣本執(zhí)行成分分析以在 統(tǒng)計(jì)上估計(jì)源方向。在本文中公開的一個(gè)示例實(shí)施例中,采用主成分分析(principalcomponentanalysis,PCA)法,以通過方差或協(xié)方差分析來提取多維數(shù)據(jù)樣本集合的多個(gè)主成分。第一主成分表示該集合的最高方差的方向,而第二主成分表示第二高的方差的方向,其與第一主成分是正交的。這可以被自然地?cái)U(kuò)展至獲得相應(yīng)數(shù)目的主成分,這些主成分一起跨越覆蓋所期望的方差量的成分空間。PCA可以被認(rèn)為是將M維橢圓體擬合至M維數(shù)據(jù)樣本的集合,其中該橢圓體的每個(gè)軸表示一個(gè)主成分。如果該橢圓體的軸較小,那么沿著該軸的方差較小。如果該橢圓體的軸較大,那么沿著該軸的方差也較大。成分分析被用于以統(tǒng)計(jì)方式來分析音頻內(nèi)容的數(shù)據(jù)樣本,以便標(biāo)識出于具有對應(yīng)的方差的方向。所生成的多個(gè)成分可以在方差或協(xié)方差的方面中被用于表示數(shù)據(jù)樣本。在一個(gè)實(shí)施例中,成分的數(shù)量可以對應(yīng)于音頻內(nèi)容的聲道的數(shù)量。在一些實(shí)施例中,PCA分析通常包括兩個(gè)步驟。首先,可以計(jì)算數(shù)據(jù)樣本的協(xié)方差矩陣。協(xié)方差矩陣在一個(gè)示例中可以被表示為:C=(X-X‾)(X-X‾)T---(3)]]>其中C表示協(xié)方差矩陣,X表示由所有數(shù)據(jù)樣本形成的矩陣,并且表示所有數(shù)據(jù)樣本的均值。矩陣X可以被寫為X=[x1,x2,...,xM]T,其中M表示輸入音頻內(nèi)容的聲道數(shù)目(也對應(yīng)于在音頻內(nèi)容中觀察到的信號的數(shù)目)。矩陣X的每一行,例如xj,是K維的向量,其中K是從音頻內(nèi)容的觀察信號xj獲得的數(shù)目樣本的數(shù)目。因此,矩陣X是M乘K的矩陣。在一些實(shí)施例中,可以從公式(3)中省略均值矩陣,并且協(xié)方差矩陣可以被簡單地表示為C=XXT。在PCA分析的第二步驟,可以確定所計(jì)算的協(xié)方差矩陣的特征向量和特征值,以獲得主成分。特征向量V=[v1,v2,...,vM]可以被解釋為主成分的方向,并且特征值可以Λ=[λ1,λ2,...,λM]指示相應(yīng)方向的強(qiáng)度(也對應(yīng)于方差),其中λ1≥λ2K≥λM。通常v1和λ1分別表示第一主成 分的方向和該方向的強(qiáng)度(或方差),并且v2和λ2分別表示第二主成分的方向和該方向的強(qiáng)度(或方差),以此類推。一個(gè)成分的強(qiáng)度或方差的幅度可以與對應(yīng)的特征值成正比。一般而言,對輸入音頻內(nèi)容的原始數(shù)據(jù)樣本直接應(yīng)用PCA并不適于源方向估計(jì)。仍然采用圖1中的立體聲信號的數(shù)據(jù)樣本為例。通過對數(shù)據(jù)樣本應(yīng)用PCA,如圖3所示,第一主成分的方向PCA1最可能位于方向d1和d2之間的某個(gè)位置。這是因?yàn)楦鶕?jù)PCA分析,第一主成分應(yīng)當(dāng)指示所有數(shù)據(jù)樣本的最強(qiáng)強(qiáng)度。第二主成分的方向PCA2與第一主成分正交,其也不是所期望的源方向。鑒于以上,本文中提出了一種迭代加權(quán)的成分分析,而不是對數(shù)據(jù)樣本直接地應(yīng)用成分分析。利用迭代加權(quán)的成分分析,在多次迭代之后,從多個(gè)生成的主成分中選擇的成分(通常是第一主成分)可以逐步地收斂至一個(gè)主導(dǎo)的源方向。根據(jù)本文中公開的實(shí)施例,在多次迭代的每次迭代中,利用權(quán)值來加權(quán)數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本。該權(quán)值(在下文中被稱為調(diào)整權(quán)值)基于在每次迭代中生成的所選擇的成分來確定,并且被用于調(diào)整該數(shù)據(jù)樣本的幅度(或強(qiáng)度)。在一些實(shí)施例中,在每輪迭代中,接近于所選擇的成分的數(shù)據(jù)樣本用較高的權(quán)值來進(jìn)行加權(quán),而其他數(shù)據(jù)樣本用較小的權(quán)值來加權(quán)。也就是說,被應(yīng)用到每個(gè)數(shù)據(jù)樣本的調(diào)整權(quán)值可以指示該數(shù)據(jù)樣本的方向與第一主成分的方向的鄰近度(也被稱為相關(guān)度)。在下一輪迭代中,對經(jīng)加權(quán)的數(shù)據(jù)樣本執(zhí)行成分分析,并且第一主成分可以移動(dòng)至一個(gè)不同的方向,該方向可能更接近實(shí)際的源方向。參照圖3,期望將一個(gè)主成分的方向(例如,PCA1)移動(dòng)至一個(gè)主導(dǎo)音頻源的方向(例如,d1)。根據(jù)本文中所提出的解決方案,可以首先將較高的權(quán)值應(yīng)用至與PCA1接近的數(shù)據(jù)樣本,并且較小的權(quán)值可以被應(yīng)用至其他數(shù)據(jù)樣本。然后,在下一輪迭代中,對經(jīng)加權(quán)的數(shù)據(jù)樣本重新應(yīng)用PCA分析。在這個(gè)示例中,重新生成的主成分的方向PCA1可以朝向方向d1旋轉(zhuǎn)。在若干輪的迭代之后,PCA1可以 收斂至d1,因而可以獲得源方向。在執(zhí)行PCA的一些實(shí)施例中,所選擇的成分可以是第一主成分,其指示在每次迭代中具有數(shù)據(jù)樣本的最大方差的方向。通常如果在第一次迭代中選擇第一主成分,由于加權(quán)過程,在隨后的迭代中這個(gè)成分也可以是指示具有最大強(qiáng)度(方差)的方向的成分。在一些其他實(shí)施例中,還可以從生成的多個(gè)成分中選擇其他成分用作權(quán)值確定的基礎(chǔ)。使用具有較高方差的成分、諸如第一主成分,在一些使用情況中可以減少收斂的時(shí)間。注意到在成分分析之后生成的成分的強(qiáng)度通常以降序順序排列。例如,表示成分的強(qiáng)度的特征值以降序順序被排列為Λ=[λ1,λ2,...,λM],其中λ1≥λ2K≥λM。所選擇的成分可以是與特征值序列中的相同順序的強(qiáng)度相對應(yīng)的成分,盡管該成分的方向和強(qiáng)度的值在每次迭代后會(huì)改變。例如,在PCA分析的多次迭代中的每次迭代,總是選擇第一主成分(具有特征值λ1)用作更新調(diào)整權(quán)值的基礎(chǔ)。迭代加權(quán)的PCA的過程和權(quán)值的確定將在以下詳細(xì)描述。應(yīng)當(dāng)注意的是,本文中公開的示例實(shí)施例不旨在于限制如何執(zhí)行成分分析,可以使用許多其他方法來生成能夠良好地表示數(shù)據(jù)樣本的多個(gè)成分。在許多情況中,由于在成分(例如,所選擇的成分)的左側(cè)/右側(cè)處的數(shù)據(jù)不對稱性,迭代重加權(quán)過程通常可以使得重新生成的成分在若干次迭代之后逐步地收斂至一個(gè)實(shí)際的主導(dǎo)源方向。在所選擇的成分兩側(cè)的數(shù)據(jù)樣本嚴(yán)格對稱的情況中,在對數(shù)據(jù)樣本進(jìn)行加權(quán)之后所選擇的成分可能維持不變。在這種情況下,在一些實(shí)施例中,可以在多次迭代的一次迭代中向所選擇的成分增加預(yù)定的偏移值,以便使得該成分保持朝向?qū)嶋H的源方向移動(dòng)。將認(rèn)識到,偏移值可以被設(shè)置為任何隨機(jī)的較小增量,以便打破數(shù)據(jù)樣本的對稱性。參考回圖2,方法200然后行進(jìn)至步驟203。在步驟203,基于所選擇的成分來確定音頻內(nèi)容的源方向,以供從音頻內(nèi)容中分離音頻源。如關(guān)于步驟202所討論的,在多次迭代之后,所選擇的成分的方向可以逐步地收斂至音頻內(nèi)容中的主導(dǎo)的音頻源的實(shí)際方向。相較于在第一次迭代中生成的所選擇的成分的方向,該方向?qū)τ谝纛l源分離而言是更可靠的,因?yàn)樵谌舾奢哖CA分析之后(數(shù)據(jù)樣本在每次迭代中被加權(quán))該方向變得越來越接近實(shí)際源方向。因此,在一些實(shí)施例中,音頻內(nèi)容的一個(gè)源方向被確定為由所選擇的成分指示的方向。在一些實(shí)施例中,所選擇的成分的幅度(或強(qiáng)度)也可以被確定為源方向的幅度(或強(qiáng)度)。所確定的源方向可以被用于構(gòu)建平移矩陣A,以便根據(jù)公式(1)和(2)中表示的混合模型來提取音頻源。注意到,當(dāng)根據(jù)以上討論的迭代加權(quán)過程獲得一個(gè)源方向時(shí),在平移矩陣中包含的其他源方向可以通過其他方法來估計(jì)或者可以被初始化為隨機(jī)值。在這種情況下,源方向的數(shù)目可以被預(yù)先確定。本文中公開的主題的范圍在此方面不受限制。在本文中公開的一些進(jìn)一步的實(shí)施例中,以上討論的迭代加權(quán)過程可以被迭代地執(zhí)行以獲得用于音頻源分離的多個(gè)源方向。在每次迭代中,沿著先前獲得的源方向的數(shù)據(jù)樣本可以被掩蔽或者抑制,以便減少它們對下一個(gè)源方向的估計(jì)的影響。對多個(gè)源方向的確定將在以下被詳細(xì)描述。所提出的迭代加權(quán)的方向估計(jì)可以不僅適于立體聲信號,而且也適于包括更高數(shù)目的聲道的信號,諸如5.1環(huán)繞信號、7.1環(huán)繞信號等。對包括不同數(shù)目的聲道的音頻信號進(jìn)行方向估計(jì)的差別在于PCA分析被應(yīng)用到具有不同維度數(shù)目的協(xié)方差矩陣,這引起較小計(jì)算開銷增加。例如,對于具有左聲道和右聲道的立體聲信號,PCA被應(yīng)用到對應(yīng)的2乘2的協(xié)方差矩陣。而對于具有6個(gè)聲道的5.1環(huán)繞信號,差別在于PCA被應(yīng)用至對應(yīng)的6乘6的協(xié)方差矩陣(如果在一些實(shí)際實(shí)施方式中低頻增強(qiáng)(LEF)聲道被丟棄,則是5乘5的協(xié)方差矩陣)。圖4描繪了根據(jù)本文中公開的一個(gè)示例實(shí)施例的用于確定音頻內(nèi)容的源方向的過程400的流程圖。具體地,用于確定源方向的過程400 基于如上所討論的迭代加權(quán)方法200。過程400可以被認(rèn)為是方法200中的步驟202和203的一個(gè)具體實(shí)施方式。如所示出的,過程400開始于步驟401,其中利用調(diào)整權(quán)值來加權(quán)每個(gè)數(shù)據(jù)樣本。在過程400的每次迭代中,要被加權(quán)的數(shù)據(jù)樣本是從輸入的音頻內(nèi)容獲得的數(shù)據(jù)樣本。在第一次迭代中,由于并未執(zhí)行成分分析,并且尚未生成成分,在一個(gè)實(shí)施例中,所有數(shù)據(jù)樣本的調(diào)整權(quán)值可以被初始地設(shè)置為1。在本文中討論的一些進(jìn)一步的實(shí)施例中,每個(gè)數(shù)據(jù)樣本的調(diào)整權(quán)值可以基于該數(shù)據(jù)樣本的強(qiáng)度(在一些示例中是幅度或響度)而被初始化。這是因?yàn)榫哂懈邚?qiáng)度的數(shù)據(jù)樣本的方向更易區(qū)分,而接近多維空間中的坐標(biāo)系的圓點(diǎn)的數(shù)據(jù)樣本更易于受到噪聲干擾并且對于方向估計(jì)而言可能不可靠。在一些實(shí)施例中,每個(gè)數(shù)據(jù)樣本的調(diào)整權(quán)值可以與該數(shù)據(jù)樣本的強(qiáng)度正相關(guān)。也就是說,數(shù)據(jù)樣本的強(qiáng)度越高,調(diào)整權(quán)值越大。在一個(gè)示例中,數(shù)據(jù)樣本p的調(diào)整權(quán)值可以被如下地初始化:wp=c|p|α1---(4)]]>其中wp表示數(shù)據(jù)樣本p的調(diào)整權(quán)值,|p|表示數(shù)據(jù)樣本p的強(qiáng)度,α1表示標(biāo)度因數(shù)(scalingfactor),并且c表示用于避免或減少異常數(shù)據(jù)樣本的影響的歸一化系數(shù)。標(biāo)度因數(shù)通常小于1。注意到,存在許多其他方法來基于數(shù)據(jù)樣本的強(qiáng)度而初始化調(diào)整權(quán)值,并且本文中公開的主題的范圍在此方面不受限制。在過程400的第一次迭代中,可以利用相應(yīng)的初始化的調(diào)整權(quán)值來加權(quán)原始的數(shù)據(jù)樣本。在后續(xù)的迭代中,可以利用相應(yīng)的更新后的調(diào)整權(quán)值來加權(quán)原始的數(shù)據(jù)樣本,這將在以下被描述。在步驟402,在每次迭代中分析經(jīng)加權(quán)的數(shù)據(jù)樣本以生成多個(gè)成分。在一個(gè)實(shí)施例中,可以對經(jīng)加權(quán)的數(shù)據(jù)樣本應(yīng)用PCA分析法以生成多個(gè)主成分。在一個(gè)示例中,在PCA分析期間計(jì)算的協(xié)方差矩 陣可以被表示為如下:C=(X-X‾)WWT(X-X‾)T---(5)]]>其中W表示所有數(shù)據(jù)樣本的調(diào)整權(quán)值矩陣,包含為相應(yīng)數(shù)據(jù)樣本確定的權(quán)值。如以上所提及的,一個(gè)成分指示具有經(jīng)加權(quán)的數(shù)據(jù)樣本的方差的方向。在PCA分析之后生成的第一主成分指示具有經(jīng)加權(quán)的數(shù)據(jù)樣本的最大方差的方向,并且每個(gè)主成分彼此正交。在步驟403,確定是否達(dá)到收斂條件。如果達(dá)到收斂條件(步驟403處的“是”),迭代過程400行進(jìn)至步驟405。如果未達(dá)到收斂條件(步驟403處的“否”),過程400行進(jìn)至步驟404。在本文中公開的一些實(shí)施例中,收斂條件基于所生成的多個(gè)成分與經(jīng)加權(quán)的數(shù)據(jù)樣本的相關(guān)度。在這些實(shí)施例中,可以確定生成的多個(gè)成分中的每個(gè)成分與經(jīng)加權(quán)的數(shù)據(jù)樣本之間的相關(guān)度,并且將基于其來更新調(diào)整權(quán)值的所選擇的成分的相關(guān)度與其他成分的相關(guān)度進(jìn)行比較。在給定成分的強(qiáng)度和經(jīng)加權(quán)的數(shù)據(jù)樣本均歸一化的情況中,相關(guān)度可以基于由該成分所指示的方向與經(jīng)加權(quán)的數(shù)據(jù)樣本的相應(yīng)方向之間的差異角度來確定。較小的差異角度意味著數(shù)據(jù)樣本接近給定成分,并且該數(shù)據(jù)樣本與該給定成分之間的相關(guān)度較高。也就是說,該相關(guān)度與差異角度成反比。在一個(gè)示例中,給定成分與所有數(shù)據(jù)樣本的相關(guān)度可以被計(jì)算為該給定成分與各個(gè)數(shù)據(jù)樣本之間的差異角度的余弦值之和。對于所生成的多個(gè)成分中的每個(gè)成分,均可以計(jì)算對應(yīng)的相關(guān)度。當(dāng)所選擇的成分的相關(guān)度與其他成分的相關(guān)度之間存在較大差異(例如,大于閾值),這意味著原始數(shù)據(jù)樣本已經(jīng)被適當(dāng)?shù)丶訖?quán)以使得所選擇的成分被旋轉(zhuǎn)至接近實(shí)際的主導(dǎo)源方向。在這種情況下,迭代過程400收斂。在本文中公開的一些實(shí)施例中,如果在當(dāng)前迭代中生成的多個(gè)成分相較于在先前迭代中生成的成分而言基本上維持不變,則確定迭代 過程400可能收斂。在本文中公開的一些其他實(shí)施例中,收斂條件可以基于預(yù)定數(shù)目的迭代,例如3、5、10等。如果執(zhí)行了預(yù)定數(shù)目的迭代,則收斂條件滿足并且過程400行進(jìn)至步驟405。注意到,迭代過程400可以基于任何其他收斂條件而收斂,并且本文中公開的主題的范圍在此方面不受限制。如果在步驟403達(dá)到收斂條件,過程400行進(jìn)至步驟405,其中基于所選擇的成分來確定音頻內(nèi)容的源方向。該步驟對應(yīng)于方法200中的步驟203,為了簡潔性在此省略描述。在步驟405之后,過程400結(jié)束。如果迭代過程400在步驟403未收斂,過程400行進(jìn)至步驟404。在步驟404,基于在當(dāng)前迭代中在步驟402處生成的多個(gè)成分中所選擇的成分,更新每個(gè)數(shù)據(jù)樣本的調(diào)整權(quán)值。在一個(gè)示例中,當(dāng)對數(shù)據(jù)樣本執(zhí)行PCA分析時(shí),所選擇的成分可以是第一主成分。在其他示例中,所選擇的成分可以是所生成的成分中的任何成分。在下一次迭代的步驟401處的加權(quán)中使用經(jīng)更新的調(diào)整權(quán)值。在本文中公開的一些實(shí)施例中,可以基于每個(gè)數(shù)據(jù)樣本的方向與由所選擇的成分指示的方向之間的相關(guān)度,確定用于該數(shù)據(jù)樣本的調(diào)整權(quán)值。如以上所提及的,相關(guān)度可以基于兩個(gè)方向之間的差異角度來確定。較大的相關(guān)度可以指示該數(shù)據(jù)樣本接近所選擇的成分,并且因而可以對該數(shù)據(jù)樣本應(yīng)用較高的調(diào)整權(quán)值。換而言之,調(diào)整權(quán)值與該相關(guān)度正相關(guān)。在一個(gè)實(shí)施例中,可以利用指數(shù)函數(shù)來計(jì)算數(shù)據(jù)樣本的調(diào)整權(quán)值,其可以被表示為如下:wp(i+1)=e-α2(1-|p·v(i)||p||v(i)|)2---(6)]]>其中表示在第(i+1)次迭代中數(shù)據(jù)樣本p的調(diào)整權(quán)值,并且i大 于或等于1。v(i)表示在第i次迭代中生成的所選擇的成分,例如,當(dāng)執(zhí)行PCA分析時(shí)是第一主成分。表示數(shù)據(jù)樣本p與所選擇的成分v(i)之間的相關(guān)度,其中|p·v(i)|表示該樣本與該成分的內(nèi)積。當(dāng)示數(shù)據(jù)樣本p和所選擇的成分v(i)均被歸一化時(shí),|p·v(i)|表示該數(shù)據(jù)樣本與該選擇的成分之間的差異角度的余弦值。在公式(6)中,α2表示標(biāo)度因數(shù),其通常是正的。將理解的是,公式(6)被給出用于解釋說明,并且存在許多其他方法來基于相關(guān)度確定調(diào)整權(quán)值,只要調(diào)整權(quán)值與相關(guān)度是正相關(guān)即可。在一些進(jìn)一步的實(shí)施例中,可以基于每個(gè)數(shù)據(jù)樣本的強(qiáng)度,在每次迭代中進(jìn)一步更新該數(shù)據(jù)樣本的調(diào)整權(quán)值。也就是說,用于每個(gè)數(shù)據(jù)樣本的調(diào)整權(quán)值可以不僅僅如在步驟401處所討論的那樣基于強(qiáng)度被初始化,還可以在步驟404處基于該強(qiáng)度進(jìn)行更新。在一個(gè)示例中,調(diào)整權(quán)值可以被更新為基于相關(guān)度計(jì)算的權(quán)值與基于強(qiáng)度計(jì)算的權(quán)值的組合。將理解的是,在過程400的多次迭代中的任一次迭代,給定數(shù)據(jù)樣本的調(diào)整權(quán)值可以基于它與所選擇的成分的相關(guān)度、它的強(qiáng)度或者前述的組合來確定。本文中公開的主題的范圍在此方面不受限制。注意到,在每次迭代中,經(jīng)更新的調(diào)整權(quán)值在步驟401處被應(yīng)用至輸入音頻內(nèi)容的原始數(shù)據(jù)樣本。通過迭代地更新相應(yīng)數(shù)據(jù)樣本的調(diào)整權(quán)值,接近于所選擇的成分的數(shù)據(jù)樣本可以用較高的調(diào)整權(quán)值進(jìn)行加權(quán),并且其他數(shù)據(jù)樣本可以用較低的調(diào)整權(quán)值來進(jìn)行加權(quán)。因此,所選擇的成分可以被旋轉(zhuǎn)至數(shù)據(jù)樣本之中的實(shí)際源方向。根據(jù)過程400,可以基于所選擇的成分從數(shù)據(jù)樣本中確定一個(gè)源方向。以圖3為例。假設(shè)第一主成分是被用作更新調(diào)整權(quán)值的基礎(chǔ)的所選擇的成分?;诮?jīng)迭代地加權(quán)的數(shù)據(jù)樣本,第一主成分的方向PCA1朝向方向d1移動(dòng)。在迭代過程400收斂之后,第一主成分的方向PCA1可以被認(rèn)為是輸入音頻內(nèi)容的一個(gè)源方向。在許多使用情況中,音頻內(nèi)容中可能包含多于一個(gè)的音頻源,并且期望估計(jì)所有音頻源的源方向以用于后續(xù)源分離。在一些實(shí)施例中,過程400可以被迭代地執(zhí)行多次以便在各個(gè)迭代中獲得源方向。在本文中公開的一些實(shí)施例中,在下一輪的源方向估計(jì)之前,可以利用權(quán)值(下文中被稱為掩蔽權(quán)值)來掩蔽或抑制在先前獲得的源方向周圍的每個(gè)數(shù)據(jù)樣本,以便減少它們對下一輪源方向的估計(jì)的影響,否則可能估計(jì)出相同或相似的源方向。原因在于根據(jù)音頻信號的稀疏性假設(shè),時(shí)頻塊中的每個(gè)數(shù)據(jù)樣本通常屬于一個(gè)主導(dǎo)的音頻源(其對應(yīng)于一個(gè)源方向)。如果一個(gè)數(shù)據(jù)樣本被確定為與一個(gè)源方向相關(guān),那么它可能不與其他源方向相關(guān)并且因此可以不用于估計(jì)其他源方向。在本文中公開的一些實(shí)施例中,可以基于每個(gè)數(shù)據(jù)樣本與先前獲得的源方向之間的相關(guān)度,確定該數(shù)據(jù)樣本的掩蔽權(quán)值。在一個(gè)實(shí)施例中,掩蔽權(quán)值可以與該相關(guān)度負(fù)相關(guān)。就此而言,相關(guān)度越高,掩蔽權(quán)值將被設(shè)置為越小的值。如此,對應(yīng)的數(shù)據(jù)樣本可以被抑制或掩蔽,并且在下一輪的源方向估計(jì)中可以從剩余數(shù)據(jù)樣本中估計(jì)出另一個(gè)源方向。仍然以圖3作為示例。假設(shè)在第一輪的迭代加權(quán)源方向估計(jì)之后,第一主方向PCA1的方向收斂至方向d1,并且被認(rèn)為是輸入音頻內(nèi)容的源方向。為了估計(jì)另一個(gè)源方向,沿著方向d1的數(shù)據(jù)樣本可以被抑制或者有時(shí)被完全地掩蔽。然后,在下一輪的源方向估計(jì)中,通過對剩余的數(shù)據(jù)樣本重新應(yīng)用如以上所討論的迭代加權(quán)的成分分析(例如,PCA分析),重新生成的第一主成分的方向可能將方向d2指示為音頻內(nèi)容的第二源方向。圖5描繪了根據(jù)本文中公開的一個(gè)示例實(shí)施例的用于確定音頻內(nèi)容的多個(gè)源方向的過程500的流程圖。過程500可以是迭代過程,在每次迭代中可以估計(jì)出一個(gè)源方向。如所示出的,過程500開始于步驟501,其中利用掩蔽權(quán)值來加權(quán)數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本。在過程500的每次迭代中,在該步驟 中要被加權(quán)的數(shù)據(jù)樣本是從輸入的音頻內(nèi)容獲得的數(shù)據(jù)樣本。在第一次迭代中,由于先前并未獲得源方向,在一個(gè)實(shí)施例中,每個(gè)數(shù)據(jù)樣本的掩蔽權(quán)值可以被初始地設(shè)置為1。也就是說,從音頻內(nèi)容獲得的所有數(shù)據(jù)樣本未被掩蔽或抑制。在后續(xù)的迭代中,每個(gè)數(shù)據(jù)樣本的掩蔽權(quán)值將被更新,這將在以下被描述。經(jīng)更新的掩蔽權(quán)值將在后續(xù)迭代中被用于對從音頻內(nèi)容獲得的數(shù)據(jù)樣本進(jìn)行加權(quán)。在步驟502,執(zhí)行迭代加權(quán)過程以基于經(jīng)加權(quán)的數(shù)據(jù)樣本來確定源方向。迭代加權(quán)過程可以是如參照圖4描述的用于確定音頻內(nèi)容的源方向的過程400。注意的是,在迭代加權(quán)過程的加權(quán)步驟中,例如在步驟401中,調(diào)整權(quán)值被應(yīng)用至由掩蔽權(quán)值加權(quán)后的數(shù)據(jù)樣本。在執(zhí)行迭代加權(quán)過程之后,例如,在過程400結(jié)束之后,可以基于由相應(yīng)掩蔽權(quán)值加權(quán)后的數(shù)據(jù)樣本確定源方向。過程500行進(jìn)至步驟503,其中確定是否達(dá)到收斂條件。如果達(dá)到收斂條件(步驟503處的“是”),迭代過程500結(jié)束。如果未達(dá)到收斂條件(步驟503處的“否”),過程500行進(jìn)至步驟504。在本文中公開的一些實(shí)施例中,迭代條件可以基于在步驟501的加權(quán)之后的剩余數(shù)據(jù)樣本的強(qiáng)度(或方差)。如果用于下一輪的方向估計(jì)的剩余數(shù)據(jù)樣本的強(qiáng)度之和較小(例如,小于閾值),那么迭代過程500收斂。在本文中公開的一些實(shí)施例中,收斂條件可以基于針對數(shù)據(jù)樣本確定的掩蔽權(quán)值。如果所有或大多數(shù)掩蔽權(quán)值較小(例如,小于閾值),那么迭代過程500收斂。在本文中公開的一些其他實(shí)施例中,收斂條件可以基于預(yù)定數(shù)目的迭代,例如3、5、10等。在一些情況下,音頻源的數(shù)目可以被預(yù)先配置。由于音頻源的數(shù)目對應(yīng)于平移矩陣中的源方向的數(shù)目,在這些情況下,過程500中的迭代數(shù)目可以被設(shè)置為預(yù)先配置的音頻源的數(shù)目,在每次迭代中獲得一個(gè)源方向。當(dāng)執(zhí)行了預(yù)先配置的數(shù)目的迭代,收斂條件滿足并且過程500結(jié)束。注意到,迭代過程500可以基于任何其他收斂條件而收斂,并且本文中公開的主題的范圍在此方面不受限制。如果在步驟503達(dá)到收斂條件,過程500結(jié)束并且獲得多個(gè)源方向用于在輸入音頻內(nèi)容中的后續(xù)源分離。如果在步驟503未達(dá)到收斂條件,過程500行進(jìn)至步驟504。在步驟504,基于在步驟502獲得的源方向來更新每個(gè)數(shù)據(jù)樣本的掩蔽權(quán)值。經(jīng)更新的掩蔽權(quán)值被用于在下一次迭代中在步驟501處的加權(quán)。在本文中公開的一些實(shí)施例中,可以基于每個(gè)數(shù)據(jù)樣本的方向與所獲得的源方向之間的相關(guān)度來更新該數(shù)據(jù)樣本的掩蔽權(quán)值。數(shù)據(jù)樣本的方向與源方向之間的相關(guān)度可以以如以上關(guān)于數(shù)據(jù)樣本的方向與成分指示的方向之間的相關(guān)度所討論的那樣類似的方式來進(jìn)行估計(jì)。在一個(gè)實(shí)施例中,該相關(guān)度可以基于數(shù)據(jù)樣本的方向與源方向之間的差異角度。例如,數(shù)據(jù)樣本p與源方向d之間的相關(guān)度可以被表示為其中|p·d|表示該樣本與源方向的內(nèi)積。當(dāng)數(shù)據(jù)樣本p與源方向d的幅度均被歸一化時(shí),|p·d|表示數(shù)據(jù)樣本與源方向之間的差異角度的余弦值。在本文中公開的一些實(shí)施例中,如果給定的數(shù)據(jù)樣本與所獲得的源方向之間的相關(guān)度較高,這意味著該數(shù)據(jù)樣本可能屬于該源方向中的音頻源,因此對應(yīng)的掩蔽權(quán)值可以被設(shè)置為從0到1中的較低值,以便使得這個(gè)數(shù)據(jù)樣本從下一輪源方向估計(jì)中被掩蔽。否則,掩蔽權(quán)值可以被確定為從0到1中的較高值。在本文中公開的一些實(shí)施例中,可以基于針對每個(gè)數(shù)據(jù)樣本的相關(guān)度與預(yù)定閾值的差異來確定該數(shù)據(jù)樣本的掩蔽權(quán)值。在一個(gè)實(shí)施例中,基于該相關(guān)度與該閾值的比較結(jié)果,掩蔽權(quán)值可以被設(shè)置為二元值,例如可以被設(shè)置為0或1。在這個(gè)實(shí)施例中,當(dāng)基于計(jì)算的相關(guān)度確定出數(shù)據(jù)樣本位于在當(dāng)前迭代中獲得的源方向周圍,可以利用掩蔽權(quán)值0來完全掩蔽這個(gè)數(shù)據(jù)樣本。否則,通過 應(yīng)用掩蔽權(quán)值1來將數(shù)據(jù)樣本維持用于下一次迭代。二元值的掩蔽權(quán)值可以被如下地確定:wpmask=0r≥r01r<r0---(7)]]>其中表示數(shù)據(jù)樣本p的掩蔽權(quán)值;r表示數(shù)據(jù)樣本p的方向與所獲得的源方向d之間的相關(guān)度,其在一個(gè)示例中可以被確定為并且r0表示針對相關(guān)度的預(yù)定閾值。根據(jù)公式(7),如果給定的數(shù)據(jù)樣本的相關(guān)度高于或等于該閾值,這意味著這個(gè)數(shù)據(jù)樣本與已經(jīng)確定的源方向高度相關(guān),那么可以對該數(shù)據(jù)樣本應(yīng)用掩蔽權(quán)值0以便完全掩蔽該樣本。如果給定的數(shù)據(jù)樣本的相關(guān)度低于該閾值,那么可以通過應(yīng)用掩蔽權(quán)值1來將這個(gè)數(shù)據(jù)樣本維持不變。在另一個(gè)實(shí)施例中,掩蔽權(quán)值可以被設(shè)置為范圍從0到1的連續(xù)值。在一個(gè)示例中,可以通過相關(guān)度的S型函數(shù)(sigmoid函數(shù))來確定連續(xù)的掩蔽權(quán)值,其可以被表示為如下:wpmask=11+eβ(r-r0)---(8)]]>其中表示數(shù)據(jù)樣本p的掩蔽權(quán)值;r表示數(shù)據(jù)樣本p的方向與所獲得的源方向d之間的相關(guān)度,其在一個(gè)示例中可以被確定為r0表示針對相關(guān)度的預(yù)定閾值;并且因數(shù)β定義了S型函數(shù)的形狀,其通??梢允钦摹8鶕?jù)公式(8)中的S型函數(shù),可以看出,如果給定的數(shù)據(jù)樣本的相關(guān)度高于或等于該閾值,那么對應(yīng)的掩蔽權(quán)值可以被計(jì)算為例如從0到1中較低值。在這種情況下,數(shù)據(jù)樣本被嚴(yán)重地掩蔽。如果給定的數(shù)據(jù)樣本的相關(guān)度低于該閾值,那么對應(yīng)的掩蔽權(quán)值可以被計(jì)算為例如從0到1中較高的值。在這種情況下,數(shù)據(jù)樣本被輕微地掩蔽。應(yīng)當(dāng)注意的是,存在除了S型函數(shù)之外的許多其他函數(shù)用于設(shè)置 連續(xù)的掩蔽權(quán)值,并且本文中公開的主題的范圍在此方面不受限制。例如,基于相關(guān)度的線性函數(shù)可以被用于將數(shù)據(jù)樣本的掩蔽權(quán)值設(shè)置為從0到1中的連續(xù)值。從以上可以看出,當(dāng)確定所有數(shù)據(jù)樣本的掩蔽權(quán)值時(shí),閾值r0可以被設(shè)置為這樣的值,該值使得沿著先前確定的音頻源的方向上的數(shù)據(jù)樣本可以被完全地掩蔽,而來自其他音頻源的數(shù)據(jù)樣本不被抑制。在一個(gè)示例中,基于對先前獲得的源方向與相應(yīng)的數(shù)據(jù)樣本的方向之間的相關(guān)度的分析,閾值r0可以被設(shè)置為固定值。在本文中公開的一些實(shí)施例中,可以基于先前確定的源方向與各個(gè)數(shù)據(jù)樣本的方向之間的相關(guān)度的分布來確定閾值r0。圖6描繪了根據(jù)本文中公開的一個(gè)示例實(shí)施例的源方向與數(shù)據(jù)樣本的方向之間的相關(guān)度的分布的示意圖。在圖6中所考慮的數(shù)據(jù)樣本可以是在圖1和圖3中描繪的那些。如所看出的,圖6中示出的曲線(a)中存在兩個(gè)不同的波峰61和62,分別對應(yīng)于兩個(gè)音頻源。接近于相關(guān)度r=1的波峰61表示沿著已經(jīng)檢測到的源方向d1的數(shù)據(jù)樣本,并且另一個(gè)波峰62表示尚未被檢測的源方向d2中的另一個(gè)源。將理解的是,如果音頻內(nèi)容中包含多于兩個(gè)的音頻源,則該分布中將存在多于兩個(gè)的波峰。在本文中公開的一些實(shí)施例中,可以通過相關(guān)度分布中最右側(cè)的兩個(gè)波峰(一個(gè)對應(yīng)于已檢測的源方向,并且另一個(gè)對應(yīng)于最靠近所檢測的這個(gè)源方向的源方向)來確定閾值r0。例如,閾值r0可以被設(shè)置為兩個(gè)波峰的相關(guān)度之間的隨機(jī)值。將理解的是,可以通過該分布中的其他不同波峰來確定該閾值,并且本文中公開的主題的范圍在此方面不受限制。在本文中公開的一些其他實(shí)施例中,由具有最高相關(guān)度的兩個(gè)波峰(例如,接近于r=1的這些波峰)中的每個(gè)波峰可以被擬合為高斯模型,分別由w1G(x|μ1,σ1)和w2G(x|μ2,σ2)表示。μi和σi是這兩個(gè)高斯模型的均值和標(biāo)準(zhǔn)差,并且w1和w2是對應(yīng)的先驗(yàn)知識(直觀地是兩個(gè)波峰的高度)。在一個(gè)實(shí)施例中,基于貝葉斯(Bayesian)理 論,r0可以被選擇為給出最小誤差率的點(diǎn)。例如,可以通過以下公式解出r0:w1G(x|μ1,σ1)=w2G(x|μ2,σ2)(9)在一個(gè)示例中,r0可以被計(jì)算為0.91。如圖6所示,曲線(b)描繪了用于確定二元值的掩蔽權(quán)值的函數(shù)。在這個(gè)示例中,當(dāng)數(shù)據(jù)樣本的相關(guān)度與先前獲得的源方向之間的相關(guān)度大于或等于閾值0.91時(shí),掩蔽權(quán)值被設(shè)置為0。否則,掩蔽閾值被設(shè)置為1。圖6中示出的曲線(c)描繪了用于確定連續(xù)的掩蔽權(quán)值的函數(shù)。在這個(gè)示例中,掩蔽權(quán)值在從0到1的范圍中是連續(xù)的。當(dāng)相關(guān)度大于或等于閾值0.91時(shí),掩蔽權(quán)值被設(shè)置為相對高的值。否則,掩蔽閾值可以被設(shè)置為較低的值。以上描述了對掩蔽權(quán)值的確定。將理解的是,在過程500中要被執(zhí)行的多次迭代中的每次迭代,可以將數(shù)據(jù)樣本的掩蔽權(quán)值可以基于公式(7)被更新為二元制、或者可以基于公式(8)被更新為連續(xù)值。本文中公開的主題的范圍在此方面不受限制。注意到,在過程500的每次迭代中,經(jīng)更新的掩蔽權(quán)值在步驟501處被應(yīng)用至輸入音頻內(nèi)容的原始數(shù)據(jù)樣本。在過程500的每次迭代中,在步驟502獲得一個(gè)源方向。當(dāng)過程500收斂時(shí),可以從音頻內(nèi)容中檢測出多個(gè)源方向。在本文中公開的一些實(shí)施例中,可以基于多個(gè)檢測到的源方向以及源方向的數(shù)量來執(zhí)行音頻源分離。檢測到的源方向的數(shù)量可以指示要被分離的音頻源的數(shù)量?;诠?1)和(2)中示出的混合模型,檢測到的源方向可以被用于構(gòu)建平移矩陣A,每個(gè)源方向?qū)?yīng)于該矩陣中的一列。源方向可以是M維向量,其中M表示在輸入音頻內(nèi)容中觀察到的單聲道信號的數(shù)量。假設(shè)從音頻內(nèi)容中檢測出N個(gè)源方向。平移矩陣A然后可以被構(gòu)建為M乘N的平移矩陣。利用構(gòu)建的平移矩陣A,可以通過許多方法來合理地估計(jì)出未知的源信號S(t)。在一個(gè)示例實(shí)施例中,可以通過直接地對平移矩陣A求逆來估計(jì)源信號S(t),例如根據(jù)S(t)=A-1X(t)。在這個(gè)實(shí)施例中,通過音頻內(nèi)容的直達(dá)和環(huán)境分解,已經(jīng)移除了非相關(guān)分量。在另一個(gè)示例實(shí)施例中,如果平移矩陣A是不可逆的或者如果音頻內(nèi)容X(t)仍然包含一些噪聲/環(huán)境分量,可以通過最小化||X(t)-AS(t)||2來估計(jì)源信號S(t)。在又一個(gè)示例實(shí)施例中,平移矩陣A可以被用于初始化用于音頻源分離的頻譜參數(shù)或空間參數(shù),并且可以通過例如非負(fù)矩陣分解(NMF)來重新改進(jìn)平移矩陣A以及估計(jì)音頻源信號。將理解的是,檢測到的源方向以及源方向的數(shù)量可以被用于協(xié)助輸入音頻內(nèi)容的音頻源分離?;跈z測到的源方向,可以采用當(dāng)前已知的或未來開發(fā)的任何方法用于音頻源分離。本文中公開的主題的范圍在此方面不受限制。在多個(gè)檢測到的源方向之中,一些源方向可能對應(yīng)于同一個(gè)音頻源,盡管采用了以上描述的掩蔽權(quán)值來避免這個(gè)問題。在本文中公開的一些實(shí)施例中,指向同一個(gè)音頻源的冗余源方向可以被丟棄。如果比較對應(yīng)于同一個(gè)源的方向的角度的話,它們可能仍然具有一些差別。這在復(fù)雜的實(shí)際音頻信號中是可能發(fā)生的。例如,當(dāng)一個(gè)源正在移動(dòng)(這意味著這個(gè)源的源方向不是靜止的)時(shí)、或者當(dāng)該源受到噪聲或其他信號的嚴(yán)重干擾時(shí)(這意味著沿著實(shí)際源方向的數(shù)據(jù)樣本的包絡(luò)較大),針對同一個(gè)源可能檢測出兩個(gè)或多個(gè)方向。通過分析這些方向之間的相關(guān)度或者角度而將它們進(jìn)行合并可能并不有效,因?yàn)橄嚓P(guān)度或角度的閾值難以調(diào)諧。在一些情況下,相比針對同一個(gè)源檢測到的多個(gè)方向,一些個(gè)體音頻源可能彼此更加靠近。在本文中公開的一些進(jìn)一步實(shí)施例中,應(yīng)用了音頻內(nèi)容的增量式預(yù)先下混音(pre-demixing)來修剪獲得的源方向,以便丟棄冗余源方向。音頻內(nèi)容的預(yù)先下混音涉及從音頻內(nèi)容中分離音頻源,這與以上描述的那些類似。在這些實(shí)施例中,除了丟棄的源方向之外的所獲得的源方向可以被確認(rèn)用于隨后處理中的實(shí)際源分離。具體地,由于在音頻內(nèi)容中可能總是存在至少一個(gè)音頻源,首先可以從檢測到的源方向中選擇至少一個(gè)源方向作為確認(rèn)源方向。確認(rèn)源方向可以不被丟棄并且可以用于實(shí)際的源分離。將通過音頻內(nèi)容的預(yù)先下混音,執(zhí)行若干次迭代來檢測其余的源方向中的任一源方向是冗余源方向或者是確認(rèn)源方向。在本文中公開的一些實(shí)施例中,對于除了確認(rèn)源方向之外的其余源方向中的一個(gè)給定的源方向,基于確認(rèn)源方向和該給定源方向來預(yù)先下混音音頻內(nèi)容,以便從音頻內(nèi)容中分離音頻源。這里的音頻源分離基于由確認(rèn)源方向和給定源方向構(gòu)建的平移矩陣,這類似于以上討論的音頻源分離的處理。在通過預(yù)先下混音來分離音頻源之后,可以確定所分離的音頻源之間的相似度,用以評估在給定源方向被用于音頻源分離時(shí)是否獲得重復(fù)的音頻源。如果確定引入了重復(fù)的音頻源,那么該給定源方向可能是冗余源方向并且因而可以被丟棄。否則,給定源方向可以被確定為是確認(rèn)源方向。對于檢測到的源方向中的任一其他源方向,可以迭代地執(zhí)行相同的過程。在一個(gè)實(shí)施例中,如果檢測到的源方向在先前的迭代中被確定為是確認(rèn)源方向,這個(gè)確認(rèn)源方向可以連同先前確定的確認(rèn)源方向一起用于下一次迭代中的音頻內(nèi)容的預(yù)先下混音。也就是說,可以存在一個(gè)確認(rèn)方向池,該確認(rèn)方向池被初始化為具有從多個(gè)檢測到的源方向中選擇出的一個(gè)源方向。被驗(yàn)證為是確認(rèn)源方向的任何源方向可以被添加到這個(gè)池中。否則,該源方向可以被丟棄。在所有檢測的源方向被驗(yàn)證之后,維持在確認(rèn)方向池中的源方向可以被用于音頻內(nèi)容的后續(xù)源分離。圖7描繪了根據(jù)本文中公開的一個(gè)示例實(shí)施例的用于從多個(gè)檢測的源方向中確定確認(rèn)源方向的過程700的流程圖。如所示出的,過程700開始于步驟701,其中將確認(rèn)方向池初始化為具有從檢測到的源方向中選擇出的源方向。在一個(gè)示例實(shí)施例中,可以隨機(jī)地選擇初始化的源方向。在另一個(gè)示例實(shí)施例中,可以基于檢測到的源方向的強(qiáng)度來選擇初始化的源 方向。例如,可以選擇在檢測到的源方向中具有最高強(qiáng)度的源方向。在又一個(gè)示例實(shí)施例中,可以選擇具有與數(shù)據(jù)樣本之間的最高相關(guān)度的源方向。本文中公開的主題的范圍在此方面不受限制。在步驟702,從剩余源方向中選擇候選源方向。剩余源方向是除了被包含在確認(rèn)方向池中的源方向以及被丟棄的源方向之外的檢測到的源方向。在一個(gè)示例實(shí)施例中,可以從剩余源方向中隨機(jī)地選擇候選源方向。在另一個(gè)示例實(shí)施例中,可以將剩余源方向中與最高強(qiáng)度對應(yīng)的源方向選擇作為候選源方向。在又一個(gè)示例實(shí)施例中,可以從剩余源方向中選擇具有與數(shù)據(jù)樣本之間的最高相關(guān)度的源方向作為候選源方向。本文中公開的主題的范圍在此方面不受限制。在步驟703,基于確認(rèn)方向池中的源方向和候選源方向來預(yù)先下混音音頻內(nèi)容,以從音頻內(nèi)容中分離音頻源。確認(rèn)源方向以及候選源方向被用于構(gòu)建平移矩陣,以供音頻內(nèi)容的預(yù)先下混音。如以上所描述的,可以基于構(gòu)建的平移矩陣來執(zhí)行源分離。在步驟704,確定候選源方向是否是冗余源方向。這個(gè)步驟的確定基于步驟703的預(yù)先下混音結(jié)果。在一個(gè)實(shí)施例中,可以確定分離的音頻源之間的相似度,并且將該相似度用于評估在候選源方向被添加到平移矩陣中用于源分離時(shí)是否獲得相同的音頻源。如果分離的源之間的相似度高于閾值,或者比在過程700的先前迭代中確定的相似度高得多,這意味著相同的音頻源被引入并且因此該候選源方向是冗余源方向??梢圆捎萌魏萎?dāng)前存在的或未來開發(fā)的方法用于確定音頻源信號的相似度,并且本文中公開的主題的范圍在此方面不受限制。例如,可以估計(jì)分離的音頻源之間的頻譜相似度。附加地或備選地,為了判斷候選源方向是否被確認(rèn)為能夠用于源分離,可以確定在預(yù)先下混音之后獲得的分離的音頻源的能量。如果這些能量中的一個(gè)或一些能量是異常的,候選源方向可能是冗余源方向。否則,候選源方向可以被添加至確認(rèn)方向池。附加地或備選地,當(dāng)候選源方向被添加到平移矩陣中時(shí),如果平移矩陣的逆矩陣、例如矩陣A-1在音頻內(nèi)容的預(yù)先下混音期間變成病態(tài)(ill-conditioned),候選源方向可能是冗余源方向。逆矩陣的病態(tài)可能使得分離的源方向的能量或者逆平移矩陣的條目值變?yōu)楫惓?。就此而言,候選源方向可能不被確定為是用于候選音頻源分離的確認(rèn)源方向。如果候選源方向被確定為冗余源方向(步驟704處的“是”),過程700行進(jìn)至步驟706。在步驟706,丟棄候選源方向。過程700然后繼續(xù)行進(jìn)至步驟707。如果候選源方向不被確定為冗余源方向(步驟704處的“否”),過程700行進(jìn)至步驟705。在步驟705,將候選源方向添加到確認(rèn)方向池中,作為確認(rèn)源方向。過程700然后繼續(xù)行進(jìn)至步驟707。在步驟707,確定所有檢測的源方向是否被驗(yàn)證。如果所有檢測的源方向中的每個(gè)源方向被確定為確認(rèn)源方向或被丟棄,則過程700結(jié)束。否則,過程700返回步驟702,直至所有檢測的源方向被驗(yàn)證。在過程700被執(zhí)行之后,包含在確認(rèn)方向池中源方向可以被用于音頻內(nèi)容的音頻源分離。要被分離的音頻源的數(shù)量可以由此基于確認(rèn)源方向的數(shù)量來確定。圖8描繪了根據(jù)本文中公開的一個(gè)示例實(shí)施例的分離音頻內(nèi)容中的音頻源的系統(tǒng)800的框圖。該音頻內(nèi)容包括多個(gè)聲道。系統(tǒng)800包括數(shù)據(jù)樣本獲取單元801,被配置為從音頻內(nèi)容的多個(gè)時(shí)頻塊中獲得多個(gè)數(shù)據(jù)樣本。系統(tǒng)800還包括成分分析單元802,被配置為在多次迭代中分析數(shù)據(jù)樣本以生成多個(gè)成分,其中這些成分中的每個(gè)成分指示具有數(shù)據(jù)樣本的方差的方向,并且其中在多次迭代的每次迭代中,利用權(quán)值來加權(quán)數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本,該權(quán)值基于多個(gè)成分中所選擇的成分。系統(tǒng)800進(jìn)一步包括源方向確定單元803,被配置為基于所選擇的成分來確定音頻內(nèi)容的源方向,以供從音頻內(nèi)容中分離音頻源。在本文中公開的一些實(shí)施例中,在多次迭代的每次迭代中,所選 擇的成分可以指示具有數(shù)據(jù)樣本的最高方差的方向。在本文中公開的一些實(shí)施例中,成分分析單元802可以被配置為,針對多次迭代中的每次迭代:對數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本進(jìn)行加權(quán);分析經(jīng)加權(quán)的數(shù)據(jù)樣本以生成多個(gè)成分;以及基于多個(gè)成分中的所選擇的成分,確定在下一次迭代的加權(quán)中用于數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本的權(quán)值。在本文中公開的一些實(shí)施例中,成分分析單元802可以被配置為基于數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本的方向與由所選擇的成分指示的方向之間的相關(guān)度,確定用于該數(shù)據(jù)樣本的權(quán)值。該權(quán)值與相關(guān)度正相關(guān)。在本文中公開的一些實(shí)施例中,成分分析單元802可以被配置為基于數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本的強(qiáng)度,確定用于該數(shù)據(jù)樣本的權(quán)值。該權(quán)值與強(qiáng)度正相關(guān)。在本文中公開的一些實(shí)施例中,系統(tǒng)800可以進(jìn)一步包括成分調(diào)整單元,被配置為在多次迭代的一次迭代中將所選擇的成分調(diào)整預(yù)定的偏移值。在本文中公開的一些實(shí)施例中,上述權(quán)值是第一權(quán)值并且上述多次迭代是第一多次迭代。在這些實(shí)施例中,系統(tǒng)800可以進(jìn)一步包括迭代執(zhí)行單元,被配置為在第二多次迭代中執(zhí)行第一多次迭代和確定以獲得用于從音頻內(nèi)容中分離音頻源的多個(gè)源方向。在第二多次迭代的每次迭代中,利用第二權(quán)值來加權(quán)數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本,第二權(quán)值基于獲得的源方向而被確定。在本文中公開的一些實(shí)施例中,迭代執(zhí)行單元可以被配置為針對第二多次迭代中的每次迭代:利用第二權(quán)值對數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本進(jìn)行加權(quán);基于經(jīng)加權(quán)的數(shù)據(jù)樣本來執(zhí)行第一多次迭代和確定,以獲得源方向;以及基于源方向,確定在第二多次迭代的下一次迭代的加權(quán)中用于數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本的第二權(quán)值。在本文中公開的一些實(shí)施例中,迭代執(zhí)行單元可以被配置為:基于數(shù)據(jù)樣本中的每個(gè)數(shù)據(jù)樣本的方向和源方向的相關(guān)度與預(yù)定閾值 之間的差異,確定用于該數(shù)據(jù)樣本的第二權(quán)值。第二權(quán)值與相關(guān)度負(fù)相關(guān)。在本文中公開的一些實(shí)施例中,該閾值可以基于數(shù)據(jù)樣本的方向與源方向之間的相關(guān)度的分布而被確定。在本文中公開的一些實(shí)施例中,系統(tǒng)800可以進(jìn)一步包括源方向修剪單元,被配置為通過基于所獲得的源方向預(yù)先下混音音頻內(nèi)容來修剪所獲得的源方向,以丟棄冗余源方向。在本文中公開的一些實(shí)施例中,源方向修剪單元可以被配置為從源方向中選擇源方向作為確認(rèn)源方向;以及針對剩余的源方向中的給定源方向:基于確認(rèn)源方向和給定源方向來預(yù)先下混音音頻內(nèi)容,以從音頻內(nèi)容中分離音頻源,確定所分離的音頻源之間的相似度,基于相似度確定給定源方向是冗余源方向或者是確認(rèn)源方向,以及響應(yīng)于確定給定源方向是冗余源方向而丟棄給定源方向。為清晰起見,在圖8中沒有描繪出系統(tǒng)800的某些另外的部件。然而,應(yīng)當(dāng)理解,上文參考圖2和4-7所描述的各個(gè)特征同樣適用于系統(tǒng)800。而且,系統(tǒng)800中的各部件可以是硬件模塊,也可以是軟件單元模塊等等。例如,在某些示例實(shí)施例中,系統(tǒng)800可以部分或者全部利用軟件和/或固件來實(shí)現(xiàn),例如被實(shí)現(xiàn)為包含在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品。備選地或附加地,系統(tǒng)800可以部分或者全部基于硬件來實(shí)現(xiàn),例如被實(shí)現(xiàn)為集成電路(IC)、專用集成電路(ASIC)、片上系統(tǒng)(SOC)、現(xiàn)場可編程門陣列(FPGA)等。本文中公開的主題的范圍在此方面不受限制。圖9描繪了適于用來實(shí)現(xiàn)本文中所公開的示例實(shí)施例的示例計(jì)算機(jī)系統(tǒng)900的示意性框圖。如所描繪的,計(jì)算機(jī)系統(tǒng)900包括中央處理單元(CPU)901,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(ROM)902中的程序或者從存儲(chǔ)部分908加載到隨機(jī)訪問存儲(chǔ)器(RAM)903中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。如所需要的,在RAM903中,還存儲(chǔ)有CPU901執(zhí)行各種過程等需要的數(shù)據(jù)。CPU901、ROM902以及RAM903通過總線904彼此相連。輸入/輸出(I/O)接口905也 連接至總線904。以下部件連接至I/O接口905:包括鍵盤、鼠標(biāo)等的輸入部分906;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚(yáng)聲器等的輸出部分907;包括硬盤等的存儲(chǔ)部分908;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分909。通信部分909經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器910也根據(jù)需要連接至I/O接口905??刹鹦督橘|(zhì)911,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng)器910上,以便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分908。特別地,根據(jù)本文中所公開的示例實(shí)施例,上文參考圖2、4、5、和7描述的方法或過程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,本文中所公開的示例實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括有形地包含在機(jī)器可讀介質(zhì)上的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包含用于執(zhí)行方法200或過程400、500或700所描述的過程的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過通信部分909從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)911被安裝。一般而言,本文中所公開的各種示例實(shí)施例可以在硬件或?qū)S秒娐?、軟件、邏輯,或其任何組合中實(shí)施。某些方面可以在硬件中實(shí)施,而其他方面可以在可以由控制器、微處理器或其他計(jì)算設(shè)備執(zhí)行的固件或軟件中實(shí)施。當(dāng)本文中所公開的示例實(shí)施例的各方面被圖示或描述為框圖、流程圖或使用某些其他圖形表示時(shí),將理解此處描述的方框、裝置、系統(tǒng)、技術(shù)或方法可以作為非限制性的示例在硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其他計(jì)算設(shè)備,或前述的某些組合中實(shí)施。而且,流程圖中的各框可以被看作是方法步驟,和/或計(jì)算機(jī)程序代碼的操作生成的操作,和/或理解為執(zhí)行相關(guān)功能的多個(gè)耦合的邏輯電路元件。例如,本文中所公開的實(shí)施例包括計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括有形地實(shí)現(xiàn)在機(jī)器可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含被配置為實(shí)現(xiàn)上文描述方法的程序代碼。在公開的上下文內(nèi),機(jī)器可讀介質(zhì)可以是包含或存儲(chǔ)用于或有關(guān)于指令執(zhí)行系統(tǒng)、裝置或設(shè)備的程序的任何有形介質(zhì)。機(jī)器可讀介質(zhì)可以是機(jī)器可讀信號介質(zhì)或機(jī)器可讀存儲(chǔ)介質(zhì)。機(jī)器可讀介質(zhì)可以包括但不限于電子的、磁的、光學(xué)的、電磁的、紅外的或半導(dǎo)體系統(tǒng)、裝置或設(shè)備,或其任意合適的組合。機(jī)器可讀存儲(chǔ)介質(zhì)的更詳細(xì)示例將包括帶有一根或多根導(dǎo)線的電氣連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存儲(chǔ)存取器(RAM)、只讀存儲(chǔ)器(ROM)、可擦除可編程只讀存儲(chǔ)器(EPROM或閃存)、便攜式壓縮盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)設(shè)備、磁存儲(chǔ)設(shè)備,或前述的任意合適的組合。用于實(shí)現(xiàn)本文中所公開的方法的計(jì)算機(jī)程序代碼可以用一種或多種編程語言編寫。這些計(jì)算機(jī)程序代碼可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其他可編程的數(shù)據(jù)處理裝置的處理器,使得程序代碼在被計(jì)算機(jī)或其他可編程的數(shù)據(jù)處理裝置執(zhí)行的時(shí)候,引起在流程圖和/或框圖中規(guī)定的功能/操作被實(shí)施。程序代碼可以完全在計(jì)算機(jī)上、部分在計(jì)算機(jī)上、作為獨(dú)立的軟件包、部分在計(jì)算機(jī)上且部分在遠(yuǎn)程計(jì)算機(jī)上或完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。程序代碼可以被分布在被特定編程的設(shè)備,這些設(shè)備通常在本文中可以被稱為“模塊”。這些模塊的軟件分組部分可以以任何具體計(jì)算機(jī)語言來編寫并且可以是單片集成代碼庫的一部分,或者可以被開發(fā)成多個(gè)離散代碼部分,諸如通常以面向?qū)ο蟮挠?jì)算機(jī)語言來開發(fā)。此外,模塊可以跨多個(gè)計(jì)算機(jī)平臺、服務(wù)器、終端、移動(dòng)設(shè)備等來分布。給定的模塊甚至可以被實(shí)施為使得所描述的功能由單個(gè)處理器和/或計(jì)算機(jī)硬件平臺來執(zhí)行。如本申請中所使用的,術(shù)語“電路裝置”指的是以下的所有:(a)僅硬件電路實(shí)現(xiàn)方式(諸如僅模擬電路裝置和/或僅數(shù)字電路裝置的實(shí)現(xiàn)方式)以及(b)與電路和軟件(和/或固件)的組合,諸如(如果可用的話):(i)與處理器的組合或(ii)處理器/軟件(包括數(shù)字信號處理器)、軟件和存儲(chǔ)器的部分,這些部分一起工作以使得裝置(諸如移動(dòng)電話或服務(wù)器)執(zhí)行各種功能,以及(c)電路,諸如微處理 器或微處理器的一部分,其需要軟件或固件用于操作,即使軟件或固件不是物理存在的。此外,本領(lǐng)域技術(shù)人員已知的是,通信媒介通常體現(xiàn)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或模塊化數(shù)據(jù)信號中的其他數(shù)據(jù),該數(shù)據(jù)信號諸如載波或其他傳輸機(jī)制,并且通信媒介包括任何信息傳送媒介。另外,盡管操作以特定順序被描繪,但這并不應(yīng)該理解為要求此類操作以示出的特定順序或以相繼順序完成,或者執(zhí)行所有圖示的操作以獲取期望結(jié)果。在某些情況下,多任務(wù)和并行處理會(huì)是有益的。同樣地,盡管上述討論包含了某些特定的實(shí)施細(xì)節(jié),但這并不應(yīng)解釋為限制本文中公開的主題或權(quán)利要求的范圍,而應(yīng)解釋為對可以針對特定實(shí)施例的特征的描述。本說明書中在分開的實(shí)施例的上下文中描述的某些特征也可以整合實(shí)施在單個(gè)實(shí)施例中。相反地,在單個(gè)實(shí)施例的上下文中描述的各種特征也可以分離地在多個(gè)實(shí)施例或在任意合適的子組合中實(shí)施。針對本文中所公開的前述示例實(shí)施例的各種修改、改變將在連同附圖查看前述描述時(shí)對相關(guān)
技術(shù)領(lǐng)域:
的技術(shù)人員變得明顯。任何及所有修改將仍落入非限制的和本文中所公開的示例實(shí)施例范圍。此外,前述說明書和附圖存在啟發(fā)的益處,涉及本文中所公開的這些實(shí)施例的
技術(shù)領(lǐng)域:
的技術(shù)人員將會(huì)想到此處闡明的其他實(shí)施例。由此,本主題可以通過在此描述的任何形式來實(shí)現(xiàn)。例如,以下的枚舉示例實(shí)施例(EEE)描述了本文中公開的主題的某些方面的某些結(jié)構(gòu)、特征和功能。EEE1.一種估計(jì)多聲道音頻內(nèi)容中的源方向和源數(shù)目的方法,包括:·在多次迭代中對音頻內(nèi)容的數(shù)據(jù)樣本應(yīng)用迭代加權(quán)的PCA分析,以便檢測第一源方向;·對數(shù)據(jù)樣本應(yīng)用相應(yīng)的掩蔽權(quán)值并且在多次迭代中對經(jīng)加權(quán)的數(shù)據(jù)樣本應(yīng)用迭代加權(quán)的PCA分析,以便檢測更多的源方向;以及·預(yù)先下混音音頻內(nèi)容以修剪檢測到的源方向并且據(jù)此估計(jì)源數(shù)目。EEE2.根據(jù)EEE1的方法,迭代加權(quán)的PCA分析包括以下步驟:·步驟1:在多維空間中表示數(shù)據(jù)樣本,并且對數(shù)據(jù)樣本應(yīng)用PCA分析或加權(quán)的PCA分析以找到第一主成分的方向;·步驟2:更新每個(gè)數(shù)據(jù)樣本的權(quán)值,并且利用相應(yīng)的經(jīng)更新的權(quán)值來對數(shù)據(jù)樣本進(jìn)行加權(quán);·步驟3:對經(jīng)加權(quán)的數(shù)據(jù)樣本重新應(yīng)用PCA分析以找對對應(yīng)的主成分;以及·步驟4:多次重復(fù)執(zhí)行步驟2和3直至達(dá)到收斂。EEE3.根據(jù)EEE2的方法,每個(gè)數(shù)據(jù)樣本的權(quán)值正相關(guān)于該數(shù)據(jù)樣本與在先前迭代中檢測到的第一主成分之間的相關(guān)度。EEE4.根據(jù)EEE2或3的方法,每個(gè)數(shù)據(jù)樣本的權(quán)值另外地基于該數(shù)據(jù)樣本的幅度或能量。EEE5.根據(jù)EEE2的方法,以隨機(jī)的較小增量向量來調(diào)整檢測到的主成分。EEE6.根據(jù)EEE1的方法,每個(gè)數(shù)據(jù)樣本的掩蔽權(quán)值負(fù)相關(guān)于該數(shù)據(jù)樣本與檢測到的源方向之間的相關(guān)度,并且基于根據(jù)該源方向與這些數(shù)據(jù)樣本之間的相關(guān)度的統(tǒng)計(jì)分布計(jì)算得到的閾值來確定掩蔽權(quán)值。EEE7.根據(jù)EEE6的方法,基于將相關(guān)度分布中最接近于相關(guān)度r=1的(例如,在最右側(cè)的)兩個(gè)峰值,通過將兩個(gè)峰值中的每個(gè)峰值擬合為具有峰值的高度作為先驗(yàn)知識的高斯模型并且針對最小誤差率來求解公式(9),來確定該閾值。EEE8.根據(jù)EEE1的方法,修剪檢測到的源方向包括:·步驟a:用檢測到的源方向中最顯著的源方向(例如,基于它們的強(qiáng)度)來初始化確認(rèn)方向池;·步驟b:在剩余的源方向中選擇候選源方向(通常是其中最顯著的源方向)并且將所選擇的源方向添加到確認(rèn)方向池;·步驟c:通過使用確認(rèn)方向池中的源方向來對音頻內(nèi)容執(zhí)行預(yù)先下混音操作,以便從音頻內(nèi)容中提取出相應(yīng)的音頻源;·步驟d:驗(yàn)證提取出的音頻源是否是相同的或者它們的能量是否是異常的;·步驟e:如果步驟d處為是,則從確認(rèn)方向池中移除候選源方向;否則,將候選源方向維持在確認(rèn)方向池中;以及·步驟f:重復(fù)步驟b至e,直至所有檢測到的源方向被驗(yàn)證。將會(huì)理解,本法明的實(shí)施例不限于公開的特定實(shí)施例,并且修改和其他實(shí)施例都應(yīng)包含于所附的權(quán)利要求范圍內(nèi)。盡管此處使用了特定的術(shù)語,但是它們僅在通用和描述的意義上使用,而并不用于限制目的。當(dāng)前第1頁1 2 3