分離音頻源的制作方法
【專利摘要】本文公開的示例實(shí)施例涉及音頻內(nèi)容中的源分離。公開了一種用于從音頻內(nèi)容分離源的方法,該音頻內(nèi)容是基于多個(gè)聲道的多聲道格式。該方法包括對音頻內(nèi)容在多個(gè)聲道的每個(gè)聲道上執(zhí)行成分分析以生成多個(gè)成分,多個(gè)成分中的每個(gè)成分包括在全頻帶上的多個(gè)時(shí)頻塊,利用多個(gè)成分中的至少一個(gè)時(shí)頻塊生成至少一個(gè)支配源,并且基于支配源通過估計(jì)空間參數(shù)和頻譜參數(shù)將源從音頻內(nèi)容分離。還公開了相應(yīng)的系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。
【專利說明】
分離音頻源
技術(shù)領(lǐng)域
[0001] 本文公開的示例實(shí)施例通常設(shè)及音頻內(nèi)容處理,更具體地,設(shè)及用于從多聲道格 式的音頻內(nèi)容分離源的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 傳統(tǒng)上,多聲道格式(例如5. 1、7.1等)的音頻內(nèi)容通過在工作室中混合不同音 頻信號而創(chuàng)建,或者通過在真實(shí)環(huán)境中同時(shí)記錄聲信號而生成?;旌系囊纛l信號或內(nèi)容可 W包括若干個(gè)不同的源。源分離是識別每個(gè)源的信息W便于例如通過單聲道信號W及包括 空間信息、頻譜信息等的元數(shù)據(jù)重建音頻內(nèi)容的任務(wù)。
[0003] 當(dāng)使用一個(gè)或多個(gè)麥克風(fēng)錄制聽覺場景時(shí),有利的是取決于聲音源的信息被分 離,使得其適于被用于各種后續(xù)音頻處理任務(wù)。一些示例可W包括用于各種目的(例如,自 動(dòng)語音識別)的空間音頻編碼、重混/重構(gòu)、3D聲音分析W及合成、信號增強(qiáng)/噪聲抑制。 因此,可W通過成功的源分離實(shí)現(xiàn)改進(jìn)的通用性和更好的性能。當(dāng)沒有包含在采集過程中 的源的先驗(yàn)信息可用時(shí)(例如,錄制設(shè)備的屬性、空間的聲特性等),分離過程可W被稱為 盲源分離度SS)。
[0004] 常規(guī)地,用于諸如高斯混合模型(GMM)和非負(fù)矩陣分解(NM巧之類的源分離的一 些統(tǒng)計(jì)模型已經(jīng)被廣泛地應(yīng)用W便于實(shí)現(xiàn)源分離。然而,運(yùn)些算法(例如,GMM或NMF模 型)僅收斂到目標(biāo)函數(shù)的駐點(diǎn)。相應(yīng)地,運(yùn)些算法對于參數(shù)初始化在W下方面敏感:(1)最 終結(jié)果強(qiáng)烈取決于參數(shù)初始化;(2)匯聚速度取決于參數(shù)初始化而明顯變化;W及(3)算法 不能識別實(shí)際數(shù)量的源信號,所W它們通常需要注入源數(shù)量、頻譜庫等先驗(yàn)信息。在常規(guī)的 系統(tǒng)中,原始的源信息被用于指導(dǎo)(oracle)初始化,其對于多數(shù)真實(shí)世界的應(yīng)用而言并不 實(shí)際,因?yàn)檫\(yùn)種信息通常并不可用。而且,在一些應(yīng)用中,可能需要訓(xùn)練數(shù)據(jù)。然而,由于從 訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的源模型趨于在真實(shí)情形中較差地執(zhí)行,運(yùn)增大了實(shí)際中的困難。運(yùn)是由 于模型與在混音中的源的實(shí)際屬性之間通常存在不匹配。
[0005] 有鑒于此,本領(lǐng)域需要用于從音頻內(nèi)容分離源但不需要獲知任何先驗(yàn)信息的方 案。
【發(fā)明內(nèi)容】
[0006] 為了解決前述和其它潛在的問題,本文公開的示例實(shí)施例提出了用于從音頻內(nèi)容 分離源的方法和系統(tǒng)。
[0007] 在一個(gè)方面,本文公開的示例實(shí)施例提供了一種用于從音頻內(nèi)容分離源的方法, 該音頻內(nèi)容是基于多個(gè)聲道的多聲道格式。該方法包括對音頻內(nèi)容在多個(gè)聲道中的每個(gè)聲 道上執(zhí)行成分(component)分析W生成多個(gè)成分。多個(gè)成分中的每個(gè)成分包括在全頻帶上 的多個(gè)時(shí)頻塊(tile),利用多個(gè)成分中的至少一個(gè)時(shí)頻塊生成至少一個(gè)支配源,并且基于 支配源通過估計(jì)空間參數(shù)和頻譜參數(shù)將源從音頻內(nèi)容分離。關(guān)于該方面的實(shí)施例進(jìn)一步包 括相應(yīng)的計(jì)算機(jī)程序產(chǎn)品。
[0008] 在另一個(gè)方面,本文公開的示例實(shí)施例提供了一種用于從音頻內(nèi)容分離源的系 統(tǒng),該音頻內(nèi)容是基于多個(gè)聲道的多聲道格式。該系統(tǒng)包括成分分析單元,其被配置為對音 頻內(nèi)容在多個(gè)聲道中的每個(gè)聲道上執(zhí)行成分分析W生成多個(gè)成分。多個(gè)成分中的每個(gè)成分 包括在全頻帶上的多個(gè)時(shí)頻塊,源生成單元,其被配置為利用多個(gè)成分中的至少一個(gè)時(shí)頻 塊生成至少一個(gè)支配源,W及源分離單元,其被配置為基于支配源通過估計(jì)空間參數(shù)和頻 譜參數(shù)將源從音頻內(nèi)容分離。
[0009] 通過下面的描述,將理解的是依據(jù)本文公開的示例實(shí)施例,可W從音頻源中被分 離出一個(gè)或多個(gè)支配源。從音頻內(nèi)容分離的源是有利的,因?yàn)檫\(yùn)種分離并不需要源或音頻 內(nèi)容的先驗(yàn)信息(例如,分離純粹基于盲源分離)。具有諸如空間信息之類的元數(shù)據(jù)的重建 的源可W被任何回放系統(tǒng)精確地播放,而不論換能器的數(shù)目(例如,立體聲系統(tǒng)、5. 1、7. 1 系統(tǒng)等)。此外,具有元數(shù)據(jù)的重建的源易于在后處理階段被操縱及改進(jìn),并且作為結(jié)果,在 幾乎所有的聲學(xué)系統(tǒng)(甚至是耳機(jī))中音頻內(nèi)容的表現(xiàn)可W被適配為準(zhǔn)確的,因而也是身 臨其境的。本文公開的示例實(shí)施例所實(shí)現(xiàn)的其它優(yōu)點(diǎn)將通過W下描述而變得顯而易見。
【附圖說明】
[0010] 通過參照附圖的W下詳細(xì)描述,本文公開的示例實(shí)施例的上述和其它目的、特征 和優(yōu)點(diǎn)將變得更容易理解。在附圖中,本文公開的示例實(shí)施例將W示例W及非限制性的方 式進(jìn)行說明,其中:
[0011] 圖1圖示了根據(jù)示例實(shí)施例的用于從音頻內(nèi)容分離源的方法的流程圖;
[0012] 圖2圖示了根據(jù)示例實(shí)施例的在整個(gè)成分上的時(shí)頻塊的聚類的示例;
[0013] 圖3圖示了根據(jù)另一示例實(shí)施例的用于從音頻內(nèi)容分離源的方法的流程圖;
[0014] 圖4圖示了根據(jù)示例實(shí)施例的用于在空間中表示源的GUI的示圖;
[0015] 圖5圖示了根據(jù)示例實(shí)施例的用于從音頻內(nèi)容分離源的系統(tǒng);W及
[0016] 圖6圖示了適于實(shí)施本文公開的示例實(shí)施例的示例計(jì)算機(jī)系統(tǒng)的框圖。
[0017] 在全部附圖中,相同或相應(yīng)的附圖標(biāo)記指代相同或相應(yīng)的部分。
【具體實(shí)施方式】
[0018] 現(xiàn)在將參照附圖中所示的各種示例實(shí)施例對本文公開的示例實(shí)施例的原理進(jìn)行 說明。應(yīng)當(dāng)理解,運(yùn)些實(shí)施例的描述僅僅是使本領(lǐng)域技術(shù)人員能夠更好地理解并進(jìn)一步實(shí) 施本文公開的示例實(shí)施例,而不意在W任何方式對范圍進(jìn)行限制。
[0019] 本文公開的示例實(shí)施例假設(shè)作為輸入的音頻內(nèi)容是例如為5. 1、7. 1或立體聲等 多聲道格式的。換言之,針對音頻內(nèi)容提供至少兩個(gè)聲道。多聲道音頻內(nèi)容可W被處理為 具有諸如源的空間信息之類的元數(shù)據(jù)的多個(gè)單聲道音頻內(nèi)容。與從原始音頻內(nèi)容分離源的 需要諸如源的數(shù)量、頻譜信息之類的先驗(yàn)信息的常規(guī)方式不同,本文公開的示例實(shí)施例旨 在實(shí)現(xiàn)不具有任何先驗(yàn)信息的源分離,例如,盲源分離度SS)。在空間音頻采集的情況下的 盲源分離由W下組成:將多聲道混音信號分解成源信號并表示關(guān)于源的空間位置和混音參 數(shù)的信息。
[0020] 為了實(shí)現(xiàn)盲源分離,本文公開的示例實(shí)施例提出了用于從音頻內(nèi)容分離源的方法 和系統(tǒng)。音頻內(nèi)容包括多聲道格式的源。實(shí)施例將會(huì)在W下給出。
[0021] 本文公開的示例實(shí)施例包括具有I個(gè)聲道輸入的音頻內(nèi)容,并且音頻內(nèi)容可W被 表達(dá)為Xi(t),i = 1,…,I,t = 1,…T。音頻可W在其短時(shí)傅里葉變換(STFT)域被處理,使 得Xf,n= [Xi,fn,…,Xi,fn]T,其中 f = 1,…,F(xiàn) 是頻段(frequen巧 bin)指數(shù),并且 η = 1,…,N 是時(shí)間帖指數(shù)。音頻內(nèi)容的混音模型可W被表示為W下的矩陣形式: 陽02引 Xfn=CfnSfn+bfn (D 陽〇2;3] 其中Sfn= [S i,fn,…,S.j,fn,…,Sj,fn]T表示指示J個(gè)源的STFT的頻譜參數(shù),Cfn = 表示可W是取決于頻率的和時(shí)變的空間參數(shù),并且bh=比表示附加 的噪聲。
[0024] 等式(1)解釋了音頻內(nèi)容可W被諸如頻譜參數(shù)和空間參數(shù)之類的參數(shù)W及一些 噪聲描述。
[00巧]首先參照圖1,其示出了根據(jù)本發(fā)明的示例實(shí)施例的用于從音頻內(nèi)容分離源的方 法100的流程圖。
[00%] 在本文公開的一個(gè)示例實(shí)施例中,在步驟S101,在音頻內(nèi)容上執(zhí)行成分分析。應(yīng)當(dāng) 留意的是,可W使用若干個(gè)成分分析方法來執(zhí)行步驟S101,僅通過示例的方式,運(yùn)種方法可 W包括但不限于主成分分析(PCA)、獨(dú)立成分分析(ICA)、B格式分析等。
[0027] 在本文公開的一個(gè)示例實(shí)施例中,PCA方法被采用,其在W下被詳細(xì)說明。主成分 分析(PCA)使得原始坐標(biāo)系能夠被旋轉(zhuǎn),使得新的坐標(biāo)系的軸線指向數(shù)據(jù)的差異度最高的 方向。新變量的軸線被稱為主成分并且被差異度排序:第一成分表示數(shù)據(jù)的差異度最高的 方向,而第二成分的方向表示與第一成分正交的剩余差異度最高。運(yùn)可W自然地被延伸而 獲得所需數(shù)量的成分,其一起跨越覆蓋期待數(shù)量的差異度的成分空間。因?yàn)槌煞置枋鱿鄬?于原始坐標(biāo)系的特定方向,每個(gè)成分多少都取決于每個(gè)原始變量:每個(gè)成分都是所有原始 變量的線性組合。PCA使用正交變換來將多聲道音頻內(nèi)容或可能關(guān)聯(lián)的變量的信號轉(zhuǎn)換為 線性不相關(guān)聯(lián)的信號的一組值作為主成分。
[0028] 然而,應(yīng)當(dāng)注意的是,本文公開的示例實(shí)施例并不旨在限制如何執(zhí)行成分分析,許 多如W上所列的其它方法也可W被用來生成良好區(qū)分變量的多個(gè)成分。例如,通過假設(shè)子 成分是非高斯信號并且它們彼此之間統(tǒng)計(jì)上獨(dú)立,獨(dú)立成分分析可W被用來將信號分離為 附加的子成分。在該假設(shè)下,由多種方式執(zhí)行ICA來估計(jì)Cf。的逆值(G J并且隨后通過Sf。 =Gf"Xf。獲得獨(dú)立成分。
[0029] 對于通常的成分分析,輸入音頻內(nèi)容具有I個(gè)聲道,并且假設(shè)最主要的成分包含 最多J個(gè)最支配的源,其被稀疏地分布在整個(gè)F頻譜或頻段(例如,在每個(gè)頻段中僅存在一 個(gè)源)。根據(jù)本文公開的示例實(shí)施例,在每聲道中的每個(gè)時(shí)頻燈巧塊的模型可W被定義為 環(huán)境信號、J個(gè)最支配的源中的一個(gè)(或沒有)W及剩余較不支配的源之和,其中依照源的 空間感知位置Cf。對源進(jìn)行加權(quán)。
[0030] 圖2圖示了根據(jù)示例實(shí)施例的在整個(gè)成分上的時(shí)頻塊的聚類的示例。圖2的水平 軸線表示離散示出的時(shí)間帖,并且垂直軸線表示頻率指數(shù)。對于一個(gè)聲道的每個(gè)時(shí)間帖, 在步驟S101執(zhí)行成分分析之后生成一些成分。例如,在圖2中,示出了包括Ξ個(gè)成分的時(shí) 間帖210 (n-1),并且每個(gè)成分包括若干TF塊,每個(gè)TF塊表示頻率范圍。相似地,在時(shí)間帖 210 (n-1)的右邊示出了包括Ξ個(gè)成分的時(shí)間帖220 (η)。
[0031] 回到由圖1圖示的流程圖,在步驟S102,在每個(gè)成分中利用TF塊中的一些TF塊生 成多個(gè)支配源。一些步驟可W被用來執(zhí)行步驟S102。在本文公開的一個(gè)示例實(shí)施例中,步 驟S102的第一子步驟可W包括計(jì)算特征值和特征向量。
[0032] 為了生成支配源,可能需要用于成分分析特征向量?;赪上描述的PCA模型,對 于每個(gè)頻帶f = 1,一iF,例如通過計(jì)算多個(gè)聲道之間的關(guān)聯(lián)來計(jì)算相對于音頻內(nèi)容的協(xié)方 差矩陣。產(chǎn)生的1*1協(xié)方差矩陣可W被合適的時(shí)間常數(shù)平滑化。隨后執(zhí)行特征向量分解W 獲得特征值入1,扣〉^2,扣>''^1,扣。在得到特征值之后,特征向量¥1,扣,¥2,扣,''',¥1,扣可^基 于特征值分解被生成(在該說明書中,每個(gè)特征向量被標(biāo)示為I維行向量),其中第一特征 向量Vi,f。設(shè)及最支配的源。
[0033] 特征向量表示在相應(yīng)的成分中TF塊的空間信息(例如,方向)。因此,具有特征 向量足夠接近(例如,在距離或角度方面的預(yù)定義闊值W內(nèi))的TF塊可W被假設(shè)為屬于相 同的源。那些具有相近方向的TF塊可W被聚類W用于對每個(gè)源構(gòu)建頻譜庫。首先,特征 向量的旋轉(zhuǎn)模糊性(ambiguity)可W通過將每個(gè)特征向量的第一項(xiàng)賦予正值被移除,例如 Vk(l) er。隨后,可W應(yīng)用聚類和合并過程。聚類過程可W估計(jì)J個(gè)簇,并且合并過程可 W合并彼此足夠接近的多個(gè)簇為一個(gè)簇(運(yùn)可W通過簇的質(zhì)屯、之間的距離或角度測量,使 得差異小于預(yù)確定的闊值為"足夠接近"),使得簇的數(shù)量,特別是支配源的數(shù)目,在合并過 程之后將會(huì)是最多J個(gè)。此外,在每個(gè)簇中的TF塊可W被用來構(gòu)建每個(gè)相應(yīng)的源的頻譜庫。 在特定實(shí)施例中,可W應(yīng)用K平均聚類方法W便于產(chǎn)生每個(gè)源的更準(zhǔn)確的空間估計(jì)。在源 構(gòu)建之后,源的數(shù)目可W被確定,并且運(yùn)些源可W被視為支配源。
[0034] 現(xiàn)在聚類過程的具體闡述將在W下參考如圖2所示的示例而給出。出于簡易的目 的,僅在圖2中示出Ξ個(gè)成分W及兩個(gè)(潛在的)源。在通過例如使用PCA方法旋轉(zhuǎn)坐標(biāo) 系之后,第一成分vi,f。的TF塊的特征向量可W被分析及聚類為兩個(gè)群組,其中白色TF塊屬 于源1,并且黑色TF塊屬于源2。為了估計(jì)第一成分,可W獲得從TF塊的特征向量到初始 簇中屯、(例如,作為參考方向)的差異(距離或角度),其中初始簇中屯、可W在旋轉(zhuǎn)的坐標(biāo) 系中被指派有預(yù)定義值。隨后,應(yīng)用諸如K平均之類的迭代精細(xì)化方法W將F個(gè)TF塊分割 為J個(gè)簇,在其中每個(gè)觀察屬于具有最接近的平均值的簇。每個(gè)群組的簇質(zhì)屯、可W在處理 第一成分之后獲得。
[0035] 第二成分的聚類可W隨后使用針對第一成分估計(jì)的質(zhì)屯、被執(zhí)行。一些約束可W被 設(shè)定為使得在相同頻段中的不同成分的塊始終屬于不同的源。運(yùn)還可W被它們的余弦距離 反映,因?yàn)樗鼈內(nèi)缭赑CA方法中定義的是彼此正交的。
[0036] 而且,可W將一些過程應(yīng)用W減弱環(huán)境噪聲。首先,如果塊W高于某闊值的差異 從所有的質(zhì)屯、偏離,可W將該塊排除,因?yàn)檫\(yùn)表示該塊可能屬于背景噪聲,如在圖2中W 點(diǎn)線框標(biāo)記的那些塊。第二,聚類可W僅在最支配的成分(例如,最高的2或3個(gè)成分) 上被執(zhí)行,或在環(huán)境和直達(dá)分離之后在加權(quán)的支配成分上被執(zhí)行。通過執(zhí)行環(huán)境和直達(dá) 分離,加權(quán)增益可W被估計(jì)為混音信號中的方向比率。該過程的細(xì)節(jié)被描述在申請?zhí)枮?201410357288. 8、名稱為"分解音頻信號"的中國專利申請中,通過引用其整體被并入本文。 在下文中,加權(quán)增益被表示為gi, f。,其表示屬于直達(dá)信號而不是環(huán)境信號的第i個(gè)成分的TF 塊的部分。
[0037] 在本文公開的示例實(shí)施例中,為了在時(shí)間上跟蹤每個(gè)支配源,如圖2所示,在之前 的帖(例如,在圖2中的時(shí)間帖(n-1))估計(jì)的質(zhì)屯、可W被計(jì)算為用于現(xiàn)在的帖(例如,在 圖2中的時(shí)間帖(η))中的TF塊的聚類的初始質(zhì)屯、。在本文公開的一個(gè)示例實(shí)施例中,之 前的帖的移動(dòng)平均可W被計(jì)算為用于現(xiàn)在的帖的初始質(zhì)屯、。
[0038] 在一個(gè)示例實(shí)施例中,加權(quán)的K平均聚類方法可W被用來獲得對于每個(gè)支配源的 更加準(zhǔn)確的簇質(zhì)屯、估計(jì)。更多的權(quán)重可W被指派給具有更高能量的TF塊W用于估計(jì)質(zhì)屯、。 同時(shí),更多的權(quán)重可W被指派給具有更高部分(Wgk,f。反映)屬于源的TF塊。因此,加權(quán) 的K平均中的加權(quán)增益gk,f。Wk,f??蒞被確定為gk,f。和歸一化的特征值的乘積,如:
[0039]
(2)
[0040] 在支配源在步驟S102被生成之后,在步驟S103,空間參數(shù)和頻譜參數(shù)在步驟S103 基于支配源被估計(jì)W用于源分離。
[0041] 當(dāng)執(zhí)行如上所述的聚類過程時(shí),特征向量的質(zhì)屯、可W被估計(jì)。每個(gè)源j可W被指 派有具有特征向量,或加權(quán)的特征向量{gk,f?!k,f。} ,的一簇TF塊。每個(gè)簇是總塊集 合的非平凡的分割。因此,每個(gè)源的頻譜參數(shù)的STFT聾,/η可W被重建為塊的總和,如:
[0042]
巧
[0043] 每個(gè)源的空間元數(shù)據(jù)可W通過使用其特征向量的相應(yīng)的質(zhì)屯、被估計(jì),其被表示 為{瑪^。再歸一化可W通過賦予{17。山的弗羅貝尼烏斯范數(shù)(化obenius norm)而被應(yīng)用, 并相應(yīng)地縮放苗/η。該歸一化步驟可W被用來排除瑣碎的縮放不確定性(trivial scale indeterminacy)。作為結(jié)果空間參數(shù)C可W被估計(jì)為:
[0044]
(4)
[0045] 圖3圖示了根據(jù)本發(fā)明的另一示例實(shí)施例的用于從音頻內(nèi)容分離源的方法的流 程圖。步驟S301至S303可W對應(yīng)于參考圖1在W上描述的步驟S101至S103,因而對于步 驟S101至S103具體的闡述將不被重復(fù)。雖然一旦獲得空間參數(shù)和頻譜參數(shù)源就可W被分 離并且音頻內(nèi)容可W被重建,存在一些附加的方法被用來對運(yùn)些參數(shù)進(jìn)行精細(xì)化。
[0046] 在步驟S304,頻譜參數(shù)和空間參數(shù)可W使用一些統(tǒng)計(jì)方法被精細(xì)化,運(yùn)些統(tǒng)計(jì)方 法諸如高斯混合模型(GMM)和非負(fù)矩陣分解(NMF) W便于實(shí)現(xiàn)盲源分離度SS)的更佳結(jié) 果。
[0047] 在GMM方法中,每個(gè)源可W首先被表示為由有限集合的特征頻譜形狀驅(qū)動(dòng)的隨機(jī) 變量的實(shí)現(xiàn),例如本地功率頻譜密度(PSD)。每個(gè)本地PSD描述了一些特定的聲音場景。在 GMM形式體系下,針對第j個(gè)音頻源的模型Λ ,可W由對應(yīng)于K個(gè)本地PSD
k = 1, 2, ...,:Κ的κ個(gè)狀態(tài)組成。由于建模針對每個(gè)源執(zhí)行,出于簡化的目的,指數(shù)j將在下文 中被省略。
[0048] 在一個(gè)示例實(shí)施例中,第j個(gè)源的STFT可W被視為具有零均值和對焦協(xié)方差矩 陣
]的隨機(jī)高斯復(fù)向量。GMM通常被描述在Simon Arberet、Alexey Ozerov、Remi GribonavaUrederic Bimbot 于 2009 年 ICA 發(fā)表的"Blind Spectral-GMM Estimation for Underdetermined Instantaneous Audio Source Separation"中,通過弓| 用其整體被并入本文。 W例 GMM隨后可W被參數(shù)化為Λ = {Uk,S Λ,其中Uk> 0是滿足Σ化=1的每個(gè)高 斯密度的權(quán)重??偣玻趈個(gè)源的STFT的GMM可能性分布函數(shù)可W被寫為:
[0050]
(5)
[005U 其中P表示可能性分布函數(shù)(PDF), N(s ; μ,Σ)表示具有平均向量μ和對焦協(xié)方 差矩陣Σ的復(fù)高斯隨機(jī)向量S的PDF,因而
[0052] 對于每個(gè)源j的GMM參數(shù)Λ ,通常使用一組訓(xùn)練數(shù)據(jù)被各自學(xué)會(huì)。在該特定實(shí)施 例中,使用了從等式(3)中的混音估計(jì)的弓,/狩。GMM參數(shù)基于優(yōu)化最大可能性(ML)準(zhǔn)則被 學(xué)會(huì): 柳5引
巧
[0054] 在一個(gè)示例實(shí)施例中,ML準(zhǔn)則的優(yōu)化可W利用期望最大化(EM)算法而獲得。 陽化5] 因此,源的頻譜611可^3
獲得。源分離可W利用自適應(yīng)維納濾波 而執(zhí)行:
[0056]
I (7)
[0057] 其中K表示混音狀態(tài):嚴(yán)=作為所有源狀態(tài)k,e {1,2,···,K}的組合, 并且丫 K,。表示在帖η的狀態(tài)可能性,滿足Σ K 丫 1<,。= 1和:
[0060] 因此維納濾波G^f可W由下式給出: W61] GK,f= Σ 1 (10) 陽06引其中A是混音矩陣并且其已經(jīng)被在等式(4)中得出的C初始化。
[006引在等式(7)中,計(jì)算所有K混音狀態(tài)作為所有源狀態(tài)的組合具有復(fù)雜度0(0。為 了減小復(fù)雜度為與源數(shù)量0(κ -J)呈線性,每個(gè)源在時(shí)間η的最可能狀態(tài)可W被下式估 計(jì):
[0064]
(11) W65] 其中馬,/〇表示由等式(3)計(jì)算的基于PCA的源估計(jì)。因此,混音狀態(tài)可W被簡化 為f = [%巧=1而不是所有可能狀態(tài)的組合。
[0066] 在本文公開的一個(gè)示例實(shí)施例中,在NMF方法中,利用NMF模型{Wj,Hj}源j的功 率譜圖可W被建模,使得|5,|2>1品。該基于^^的模型可^很好地適用于復(fù)調(diào),因?yàn)槠?基本上將源取為具有典型的頻譜特征的基本分量之和。
[0067] 期望最大化(EM)算法可W被應(yīng)用W迭代地估計(jì)源參數(shù){W,,H,}和混音參數(shù)Af。。在 常規(guī)方法中,運(yùn)些參數(shù)利用隨機(jī)數(shù)據(jù)被初始化,據(jù)稱該算法可W非常緩慢并且其依賴于初 始值收斂到本地最大值。
[0068] 在一個(gè)示例實(shí)施例中,用于EM估計(jì)的參數(shù)利用在W下步驟中預(yù)學(xué)會(huì)的源來被計(jì) 算。 陽069] 初始化步驟:
[0070] 1.基于等式(3)中重建的每個(gè)源的頻譜參數(shù)的STFT 計(jì)算源的協(xié)方差矩陣: W川
^巧 陽〇7引 2.通過哀\/^1的對角元素確定源的功率譜圖: 柳7引
(。)
[0074] 3.基于NMF模型,氧州壘說蝴(陽5,抑瑪加]),初始化每個(gè)源j的NMF模型 的非負(fù)矩陣:
[0077] 4.經(jīng)由等式(4)通過C初始化混音矩陣Af。。 陽07引 5.通過使得Σ i|Aii,J2= 1歸一化混音和能譜參數(shù)Af。、并相應(yīng)地縮放 (W,,H,}。該步驟排除了瑣碎的縮放不確定性。
[0079] 6.隨后去迭代EM估計(jì),其中W下描述了一個(gè)迭代過程。
[0080] 預(yù)期(一個(gè)步驟):
[0081] 1.精細(xì)化源的功率能譜
[0082] 2.根據(jù)W下估計(jì)逆混音矩陣Gf,。:
[0083]
[0084] 要注意的是,在欠定條件I)下可W應(yīng)用等式(16),并且在超定條件(J<I)下 可W應(yīng)用等式(17),因?yàn)楣烙?jì)的協(xié)方差矩陣(
)在J<I時(shí)可能不是 可逆的。
[00財(cái) 3.根據(jù)W下計(jì)算音頻源的協(xié)方差矩陣W及互協(xié)方差矩陣巧;
[00蝴 4.經(jīng)由等式(蝴更新源的功率能譜^八。最大化(一個(gè)步驟):
[0089] 1.根據(jù)W下更新混音參數(shù)Af。:
[0090]
(20、
[0091] 2.經(jīng)由等式(14)和(15)更新能譜參數(shù)。 陽〇巧 3.通過使得Σ i|Ai,,J2= 1再歸一化參數(shù)Af。、并且相
[0093] 應(yīng)地縮放{W,,Η,}。該步驟排除了瑣碎的縮放不確定性。
[0094] 與為混音參數(shù)和頻譜參數(shù)隨機(jī)地指派所選值的常規(guī)ΕΜ迭代過程相比,本文公開 的示例實(shí)施例為W上所述的混音參數(shù)和頻譜參數(shù)中的至少一個(gè)計(jì)算初始值,通過ΕΜ迭代 過程對運(yùn)些參數(shù)進(jìn)行精細(xì)化從而在速度和準(zhǔn)確度方面改進(jìn)了性能。本文公開的示例實(shí)施例 允許統(tǒng)計(jì)方法來避免較寬類的音頻內(nèi)容(例如,音樂、電影聲效等)的缺乏典型訓(xùn)練數(shù)據(jù)的 問題。其還允許??诨茨P蜑榻o定混音中的給定源的特定屬性(例如,在電影中采用的 特殊聲效或特定樂器或樂器的組合)。本文公開的示例實(shí)施例也不被目標(biāo)數(shù)據(jù)中的諸如麥 克風(fēng)類型、空間聲學(xué)特性、聲道失真等特定特性所影響。而且,可W實(shí)現(xiàn)更快的收斂速度,并 且計(jì)算復(fù)雜度可W被控制。
[0095] 在通過如W上所述的諸如GMM和NMF之類的方法對空間參數(shù)和頻譜參數(shù)進(jìn)行精細(xì) 化,音頻內(nèi)容的源可W基于空間參數(shù)和頻譜參數(shù)在圖3中所示的步驟S305經(jīng)由維納濾波被 重建。所重建的(支配)源扔/η 及它們W A反映的相應(yīng)的位置一起將會(huì)被用于用戶輔 助源提取,如W下所述。
[0096] 在步驟S306,所重建的源可W通過圖形用戶界面(GUI)被表示。換言之,所重建 的源交化化和它們相應(yīng)的位置(W A反映)可W通過GUI向用戶顯示。示例GUI可W在圖4 中被示出,其中用戶能夠觀察到(支配)源的空間位置,通過點(diǎn)擊它們而收聽它們的聲音, 選擇意在被提取的一個(gè)或多個(gè)目標(biāo)源,并且標(biāo)記開始和結(jié)束時(shí)間。例如,如圖4所示,3D空 間可W被多個(gè)揚(yáng)聲器的位置所限定。然而,應(yīng)當(dāng)理解的是,諸如7. 1.4環(huán)繞系統(tǒng)之類的一些 系統(tǒng)能夠構(gòu)建3D空間,而諸如5. 1環(huán)繞系統(tǒng)之類的一些其它系統(tǒng)僅能夠構(gòu)建2D空間。對 于后者的情況,可W通過GUI在3D空間的底面顯示音頻源,運(yùn)表示沒有關(guān)于高度的信息被 提供。
[0097] 參照圖4,重建的源401在另一重建的源402的左邊被示出,并且用戶可W點(diǎn)擊重 建的源401和402中的任意一個(gè)來收聽它W進(jìn)一步處理音頻內(nèi)容。如圖4所示,重建的源 401和402中的每一個(gè)被仿真為具有由若干具有不同深度的圓表示的空間位置。較深的圓 (即著色較重的圓)可w表示源的較高的強(qiáng)度,其可w被理解為更接近源的空間位置。另一 方面,較淺的圓(即著色較輕的圓)可W表示源的較低的強(qiáng)度,其可W被理解為遠(yuǎn)離源的空 間位置。圖4僅示出了源分離的仿真的示例時(shí)刻,并且重建的源的分布可W隨時(shí)間而變化。 附加地,空間信息可W被不同的顏色所顯示。例如,較低頻率的源可W被指派為藍(lán)色色調(diào), 而較高頻率的源可W被指派為紅色色調(diào)。
[0098] 通過GUI的源選擇的輸出結(jié)果作為"預(yù)期源快照"可W被參考,其包括W下關(guān)于預(yù) 期源的信息中的至少一個(gè):(1)頻譜結(jié)構(gòu),(2)空間位置,W及(3)激活時(shí)間(源的開始及停 止時(shí)間)。作為結(jié)果,源分離方法可W應(yīng)用有明確的結(jié)構(gòu)/位置/時(shí)間限制。預(yù)期源在精細(xì) 化過程期間被加強(qiáng)。運(yùn)可W是在收斂性能和速度方面比起使用混亂初始化的標(biāo)準(zhǔn)NMF/GMM 方法而言的顯著增強(qiáng)。
[0099] 具有本文公開的示例實(shí)施例中包含的GUI,其允許按需求提取特定源,意味著預(yù)期 源和它們相應(yīng)的位置可W通過GUI被表示,使得用戶能夠在進(jìn)一步的分離和精細(xì)化迭代被 應(yīng)用之前通過它們的聲音和/或位置選擇預(yù)期源。
[0100] 具有W上所述的新穎BSS框架,在混音音頻中的潛在的源可W通過使用本發(fā)明中 說明的成分分析被學(xué)會(huì)。因?yàn)殛P(guān)于潛在源的信息基于每個(gè)簇被估計(jì),空間和頻譜信息可W 被獲得,因?yàn)閷τ谥T如GMM和NMF方法之類的統(tǒng)計(jì)模型而言不需要訓(xùn)練數(shù)據(jù)或先驗(yàn)信息。換 言之,本發(fā)明比起需要訓(xùn)練數(shù)據(jù)的常規(guī)BSS方法而言是有利的,因?yàn)槠淅萌し椒ǘ?需要預(yù)先訓(xùn)練參數(shù)并且因而不需要訓(xùn)練數(shù)據(jù)。 陽101] 圖5圖示了根據(jù)本發(fā)明的示例實(shí)施例的用于從音頻內(nèi)容分離源的系統(tǒng)500。如 圖所示,系統(tǒng)500包括成分分析單元501,被配置為對所述音頻內(nèi)容在所述多個(gè)聲道的每 個(gè)聲道上執(zhí)行成分分析W生成多個(gè)成分,所述多個(gè)成分中的每個(gè)成分包括在全頻帶上的時(shí) 頻塊;成分分析單元501從輸入接收多聲道格式的音頻內(nèi)容。系統(tǒng)500還包括源生成單元 502,其被配置為利用多個(gè)成分中的至少一個(gè)時(shí)間頻率片生成至少一個(gè)支配源,W及源分離 單元503,其被配置為基于支配源通過估計(jì)空間參數(shù)和頻譜參數(shù)將源從音頻內(nèi)容分離。 [0102] 在一些示例實(shí)施例中,源生成單元502可W包括聚類單元,其被配置為將多個(gè)方 向聚類為至少一個(gè)群組,每個(gè)群組包括多個(gè)時(shí)頻塊,該多個(gè)方向從多個(gè)成分中產(chǎn)生;W及跟 蹤單元,其被配置為通過在時(shí)間上跟蹤群組生成支配源。在本文公開的示例實(shí)施例中,聚類 單元可W被配置為將所有的成分中與初始值的差異在預(yù)定義的聚類闊值W內(nèi)的方向聚類 為群組。進(jìn)一步在本文公開的示例實(shí)施例中,聚類單元可W包括質(zhì)屯、估計(jì)單元,其被配置為 基于所述多個(gè)時(shí)頻塊的直達(dá)性和所述多個(gè)時(shí)頻塊的能量級之一W及所述初始值估計(jì)所述 群組的質(zhì)屯、。在本文公開的一些示例實(shí)施例中,跟蹤單元可W包括至少W下中的一個(gè):前質(zhì) 屯、指派單元,其被配置為將前一時(shí)間帖的估計(jì)的質(zhì)屯、指派為現(xiàn)在的時(shí)間帖的初始值;W及 移動(dòng)平均質(zhì)屯、指派單元,其被配置為將之前的時(shí)間帖中估計(jì)的移動(dòng)平均質(zhì)屯、指派為用于現(xiàn) 在的時(shí)間帖的初始值。 陽103] 在一些其它示例實(shí)施例中,源分離單元503可W包括質(zhì)屯、估計(jì)單元,其被配置為 估計(jì)支配源的方向的質(zhì)屯、;空間源分離單元,其被配置為基于質(zhì)屯、在多個(gè)成分中的每個(gè)成 分內(nèi)估計(jì)時(shí)頻塊的空間參數(shù);W及頻譜源分離單元,其被配置為基于質(zhì)屯、在多個(gè)成分中的 每個(gè)成分內(nèi)估計(jì)時(shí)頻塊的頻譜參數(shù)。在本文公開的一些示例實(shí)施例中,源分離單元503可 W包括:高斯混合模型參數(shù)計(jì)算單元,其被配置為基于頻譜參數(shù)計(jì)算高斯混合模型參數(shù); w及狀態(tài)估計(jì)單元,其被配置為根據(jù)高絲混合模型參數(shù)、空間參數(shù)w及頻譜參數(shù)在每個(gè)時(shí) 間帖估計(jì)每個(gè)源的最可能狀態(tài)。而且,源分離單元503可W包括:初始化單元,其被配置為 執(zhí)行混音參數(shù)和能譜參數(shù)的初始化過程;W及參數(shù)更新單元,其被配置為通過EM迭代過程 更新能譜參數(shù)和混音參數(shù)。在本文公開的又一些示例實(shí)施例中,初始化單元可W包括至少 是W下中的一個(gè):混音參數(shù)初始化單元,其被配置為基于空間參數(shù)初始化混音參數(shù);W及 能譜參數(shù)計(jì)算單元,其被配置為基于頻譜參數(shù)計(jì)算能譜參數(shù)。
[0104] 在一些示例實(shí)施例中,該系統(tǒng)可W包括源重建單元,其被配置為基于支配源的頻 譜參數(shù)和空間參數(shù)重建音頻內(nèi)容的源;W及源表示單元,其被配置為通過圖形用戶界面表 示所重建的源。
[01化]為了清楚起見,系統(tǒng)500的一些可選部件在圖5中并未示出。然而應(yīng)當(dāng)理解的是, 如上述參照圖1至4所描述的特征均適用于系統(tǒng)500。此外,系統(tǒng)500的部件可W是硬件 模塊或軟件單元模塊。例如,在一些實(shí)施例中,系統(tǒng)500可W部分地或完全地W軟件/或 固件實(shí)現(xiàn),例如實(shí)現(xiàn)為收錄在計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品??商娲鼗蚋郊拥兀?系統(tǒng)500可W部分地或完全地基于硬件實(shí)現(xiàn),例如作為集成電路(1C)、應(yīng)用專用集成電路 (ASIC)、片上系統(tǒng)(S0C)、現(xiàn)場可編程口陣列(FPGA)等。本發(fā)明的范圍并不局限于該方面。 陽106] 圖6示出了適于實(shí)施本文公開的示例實(shí)施例的示例計(jì)算機(jī)系統(tǒng)600的框圖。如 圖所示,計(jì)算機(jī)系統(tǒng)600包括中央處理單元(CPU)601,其能夠根據(jù)存儲(chǔ)在只讀存儲(chǔ)器 (ROM) 602中的程序或從存儲(chǔ)區(qū)608加載到隨機(jī)存取存儲(chǔ)器(RAM) 603的程序而執(zhí)行各種處 理。在RAM 603中,當(dāng)CPU 601執(zhí)行各種處理等等時(shí),還根據(jù)所需存儲(chǔ)有所需的數(shù)據(jù)。CPU 60UR0M 602和RAM 603經(jīng)由總線604彼此相連。輸入/輸出(I/O)接口 605也連接到總 線 604。 陽107] W下部件連接至I/O接口 605 :包括鍵盤、鼠標(biāo)等的輸入部分606 ;包括諸如陰極 射線管(CRT)、液晶顯示器化CD)等W及揚(yáng)聲器等的輸出部分607 ;包括硬盤等的存儲(chǔ)部分 608 ; W及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng) 由諸如因特網(wǎng)之類的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器610也根據(jù)需要連接至I/O接口 605???拆卸介質(zhì)611,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等,根據(jù)需要安裝在驅(qū)動(dòng)器610上,使 得從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分608。
[0108] 特別地,根據(jù)本文公開的示例實(shí)施例,上文參考圖1至圖4描述的過程可W被實(shí)現(xiàn) 為計(jì)算機(jī)軟件程序。例如,本文公開的示例實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括有形地 包含在機(jī)器可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含用于執(zhí)行方法100和/或300的 程序代碼。在運(yùn)樣的實(shí)施例中,該計(jì)算機(jī)程序可W通過通信部分609從網(wǎng)絡(luò)上被下載和安 裝,和/或從可拆卸介質(zhì)611被安裝。
[0109] 一般而言,本文公開的各種示例實(shí)施例可W在硬件或?qū)S秒娐?、軟件、邏輯、或?任何組合中實(shí)施。某些方面可W在硬件中實(shí)施,而其它方面可W在可由控制器、微處理器或 其它計(jì)算設(shè)備執(zhí)行的固件或軟件中實(shí)施。當(dāng)本文公開的示例實(shí)施例的各方面被圖示或描述 為框圖、流程圖或使用某些其它圖形表示時(shí),將理解此處描述的方框、裝置、系統(tǒng)、技術(shù)或方 法可W作為非限制性的示例在硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其 它計(jì)算設(shè)備,或其某些組合中實(shí)施。
[0110] 而且,流程圖中的各框可W被看作是方法步驟,和/或計(jì)算機(jī)程序代碼的操作生 成的操作,和/或理解為執(zhí)行相關(guān)功能的多個(gè)禪合的邏輯電路元件。例如,本文公開的示例 實(shí)施例包括計(jì)算機(jī)程序產(chǎn)品,其包括有形地實(shí)現(xiàn)在機(jī)器可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算 機(jī)程序包含被配置為執(zhí)行上文描述方法的程序代碼。 陽111] 在本公開的上下文中,機(jī)器可讀介質(zhì)可W是包含或存儲(chǔ)用于或有關(guān)于指令執(zhí)行系 統(tǒng)、裝置或設(shè)備的程序的任何有形介質(zhì)。機(jī)器可讀介質(zhì)可W是機(jī)器可讀信號介質(zhì)或機(jī)器可 讀存儲(chǔ)介質(zhì)。機(jī)器可讀介質(zhì)可W包括但不限于電子的、磁的、光學(xué)的、電磁的、紅外的或半 導(dǎo)體系統(tǒng)、裝置或設(shè)備,或其任意合適的組合。機(jī)器可讀存儲(chǔ)介質(zhì)的更詳細(xì)示例包括帶有 一根或多個(gè)導(dǎo)線的電氣連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存儲(chǔ)存儲(chǔ)器(RAM)、只讀存儲(chǔ)器 (ROM)、可擦除可編程只讀存儲(chǔ)器巧PROM或閃存)、光存儲(chǔ)設(shè)備、磁存儲(chǔ)設(shè)備,或其任意合適 的組合。
[0112] 用于執(zhí)行本發(fā)明的方法的計(jì)算機(jī)程序代碼可W用一種或多種編程語言編寫。運(yùn)些 計(jì)算機(jī)程序代碼可W提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程的數(shù)據(jù)處理裝置的處理 器,使得程序代碼在被計(jì)算機(jī)或其它可編程的數(shù)據(jù)處理裝置執(zhí)行的時(shí)候,引起在流程圖和/ 或框圖中規(guī)定的功能/操作被實(shí)施。程序代碼可W完全在計(jì)算機(jī)上、部分在計(jì)算機(jī)上、作為 獨(dú)立的軟件包、部分在計(jì)算機(jī)上且部分在遠(yuǎn)程計(jì)算機(jī)上或完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上或 在一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)或服務(wù)器之間分布而執(zhí)行。
[0113] 另外,盡管操作W特定順序被描繪,但運(yùn)并不應(yīng)該被理解為要求此類操作W示出 的特定順序或W相繼順序完成,或者執(zhí)行所有圖示的操作W獲取期望結(jié)果。在某些情況下, 多任務(wù)或并行處理可能是有利的。同樣地,盡管上述討論包含了某些特定的實(shí)施細(xì)節(jié),但運(yùn) 并不應(yīng)解釋為限制任何發(fā)明或權(quán)利要求的范圍,而應(yīng)解釋為對可W針對特定發(fā)明的特定實(shí) 施例的描述。本說明書中在分開的實(shí)施例的上下文中描述的某些特征也可W整合實(shí)施在單 個(gè)實(shí)施例中。相反地,在單個(gè)實(shí)施例的上下文中描述的各種特征也可W分離地在多個(gè)實(shí)施 例火災(zāi)任意合適的子組合中實(shí)施。
[0114] 針對前述本發(fā)明的示例實(shí)施例的各種修改、改變將在連同附圖查看前述描述時(shí)對 相關(guān)技術(shù)領(lǐng)域的技術(shù)人員變得明顯。任何及所有修改將仍落入非限制的和本發(fā)明的示例實(shí) 施例范圍。此外,前述說明書和附圖存在啟發(fā)的益處,設(shè)及運(yùn)些實(shí)施例的技術(shù)領(lǐng)域的技術(shù)人 員將會(huì)想到此處闡明的其它示例實(shí)施例。
[0115] 相應(yīng)地,本文公開的示例實(shí)施例可W被體現(xiàn)為本文描述的任意形式。例如,W下列 舉的示例實(shí)施例巧?。┟枋隽吮景l(fā)明的一些方面的一些結(jié)構(gòu)、特征和功能。
[0116] E邸1. 一種用于從混音信號分離源的方法,混音信號由多個(gè)聲道(至少兩個(gè)不同 的聲道)組成,包括:
[0117] ?獲得一組彼此弱關(guān)聯(lián)/不關(guān)聯(lián)(或弱依賴/不依賴)的成分,該組成分基于多個(gè) 音頻信號而生成;
[0118] ?通過利用成分的時(shí)頻塊的子組的空間一致性,利用成分的運(yùn)些時(shí)頻塊的子組構(gòu) 建一組最支配的方向源;
[0119] ?基于構(gòu)建的最支配的方向源估計(jì)源參數(shù),其中源參數(shù)包括空間參數(shù)(混音矩陣) W及源頻譜參數(shù),??诨丛谀繕?biāo)混音中的統(tǒng)計(jì)特征,使得運(yùn)些參數(shù)導(dǎo)致包括至少錄制和 編碼可變性的可變性;
[0120] ?初始化用于源分離迭代的源模型,W加速收斂速度,從而保持迭代由于任何混亂 的初始值收斂到本地最大值,和/或強(qiáng)制特定的收斂目標(biāo)。
[0121] E邸2.根據(jù)邸E 1的方法,其中確定該組最支配的方向源包括: 陽122] ?估計(jì)該組成分的TF塊的空間參數(shù);
[0123] ?將具有空間參數(shù)的TF塊聚類,合并非常接近的簇; 陽124] ?沿時(shí)間跟蹤每個(gè)簇;
[01巧]?再歸一化空間參數(shù)和頻譜參數(shù),并用簇構(gòu)建最支配的方向源。 陽126] E邸3.根據(jù)邸E 2的方法,其中在呢個(gè)成分中估計(jì)TF塊的空間參數(shù)包括至少W下 中的一個(gè):
[0127] ?計(jì)算多個(gè)音頻信號的協(xié)方差矩陣的特征值分解(對于基于PCA的方法),并指派 每個(gè)PCA成分的TF塊的特征向量作為它們的空間參數(shù),并排除旋轉(zhuǎn)不確定性;
[0128] ?估計(jì)逆混音參數(shù)(對于基于ICA的方法)為每個(gè)ICA成分的空間參數(shù),并排除旋 轉(zhuǎn)不確定性。 陽129] E邸4.根據(jù)邸E 2的方法,其中將具有空間參數(shù)的TF塊聚類包括:
[0130] ?對于最支配的成分,計(jì)算TF塊與它們的空間參數(shù)的距離,聚類塊并估計(jì)簇質(zhì)屯、; 陽131] ?執(zhí)行W下步驟一些迭代:對于較不支配的成分,聚類塊與之前估計(jì)的質(zhì)屯、,并且 可W增加限制使得不同成分的TF塊始終屬于不同的簇。 陽132] E邸5.根據(jù)邸E 4的方法,其中迭代被至少W下中的一個(gè)執(zhí)行: 陽133] ?最支配的成分;
[0134] ?加權(quán)的成分應(yīng)用有直達(dá)和環(huán)境分離產(chǎn)生的增益。
[0135] E邸6.根據(jù)邸E 2的方法,其中聚類具有空間參數(shù)的TF塊進(jìn)一步包括: 陽136] ?使用加權(quán)的K平均聚類方法,其中加權(quán)因子由TF塊的能量和直達(dá)和環(huán)境分離產(chǎn) 生的方向增益估計(jì)共同確定。 陽137] E邸7.根據(jù)邸E 2的方法,其中沿時(shí)間跟蹤每個(gè)簇包括至少W下中的一個(gè): 陽13引?采用在前一帖估計(jì)的質(zhì)屯、作為現(xiàn)在聚類的初始質(zhì)屯、;
[0139] ?采用在之前的帖估計(jì)的質(zhì)屯、的移動(dòng)平均作為現(xiàn)在聚類的初始質(zhì)屯、。
[0140] E邸8.根據(jù)邸E 1的方法,其中利用成分的時(shí)頻塊的子組構(gòu)建該組最支配的方向 源包括: 陽141] ?為每個(gè)源指派沿著它們(加權(quán)的)空間參數(shù)的TF塊的一個(gè)簇,運(yùn)是所有塊的非 瑣碎分割; 陽142] ?估計(jì)源的空間參數(shù)為其相應(yīng)的簇質(zhì)屯、; 陽143] ?通過應(yīng)用其相應(yīng)的空間參數(shù)到多個(gè)音頻信號的能譜而恢復(fù)源能譜。
[0144] 根據(jù)邸E 1的方法,其中基于構(gòu)建的最支配的方向源估計(jì)源參數(shù)包括W下中的至 少一個(gè):
[0145] ?基于優(yōu)化最大可能性(ML)準(zhǔn)則,使用恢復(fù)的源能譜W計(jì)算GMM參數(shù); 陽146] ?糊涂呀優(yōu)化另一 ML準(zhǔn)則,在每個(gè)時(shí)間帖處估計(jì)每個(gè)源的最可能狀態(tài)W通過減少 可能的GMM狀態(tài)的數(shù)目而加速計(jì)算。 陽147] E邸10.根據(jù)邸E 1的方法,其中基于構(gòu)建的最支配的方向源估計(jì)源參數(shù)包括W 下中的至少一個(gè):
[0148] ?對于預(yù)期步驟的第一迭代,使用恢復(fù)的源能譜計(jì)算協(xié)方差矩陣,因而源的功率譜 圖包括矩陣的對角元素;
[0149] ?刀御天元最大化步驟的第一迭代,使用NMF建模源的功率譜圖,初始化每個(gè)源的 非負(fù)矩陣,并且實(shí)用加權(quán)的特征向量初始化混音矩陣;
[0150] ?歸一化源參數(shù)W排除縮放不確定性; 陽15U ?對于基于NMF的BSS利用W上初始化的模型參數(shù)繼續(xù)下一 EM迭代。 陽152] E邸11.根據(jù)邸E 1的方法,其中為源分離迭代初始化源模型W強(qiáng)制特定的收斂 目標(biāo)包括W下中的至少一個(gè): 陽153] ?通過圖形用戶界面(GUI)表示每個(gè)源的重建的聲音和位置(由混音參數(shù)反映);
[0154] ?在用戶選擇一個(gè)活多個(gè)目標(biāo)源和/或標(biāo)記它們的激活時(shí)間之后通過GUI創(chuàng)建預(yù) 期源快照;
[0K5] ?應(yīng)用獲知的源分離迭代W基于預(yù)期源快照進(jìn)一步精細(xì)化具有有明確的結(jié)構(gòu)/位 置/時(shí)間限制的至少一個(gè)的目標(biāo)源。
[0156] 應(yīng)該理解的是,本文公開的示例實(shí)施例并不限于所公開的具體實(shí)施例,并且修改 和其他實(shí)施例旨在被包括在所附權(quán)利要求的范圍之內(nèi)。盡管本文使用了特定術(shù)語,它們被 用于通用的和描述性的意義而不是用于限制的目的。
【主權(quán)項(xiàng)】
1. 一種從音頻內(nèi)容分離源的方法,所述音頻內(nèi)容是基于多個(gè)聲道的多聲道格式,所述 方法包括: 對所述音頻內(nèi)容在所述多個(gè)聲道的每個(gè)聲道上執(zhí)行成分分析以生成多個(gè)成分,所述多 個(gè)成分中的每個(gè)成分包括在全頻帶上的時(shí)頻塊; 利用所述多個(gè)成分中的至少一個(gè)所述時(shí)頻塊生成至少一個(gè)支配源;以及 通過基于所述支配源估計(jì)空間參數(shù)和頻譜參數(shù),從所述音頻內(nèi)容分離所述源。2. 根據(jù)權(quán)利要求1所述的方法,其中生成至少一個(gè)支配源包括: 將多個(gè)方向聚類為至少一個(gè)群組,每個(gè)群組包括多個(gè)時(shí)頻塊,所述多個(gè)方向從所述多 個(gè)成分中生成;以及 通過在時(shí)間上跟蹤所述群組生成所述支配源。3. 根據(jù)權(quán)利要求2所述的方法,其中將所述方向聚類為至少一個(gè)群組包括: 將所有的所述成分中與初始值的差異在預(yù)定義的聚類閾值以內(nèi)的所述方向聚類為所 述群組。4. 根據(jù)權(quán)利要求3所述的方法,其中將所述方向聚類為至少一個(gè)群組包括: 基于所述多個(gè)時(shí)頻塊的直達(dá)性和所述多個(gè)時(shí)頻塊的能量級中的至少一個(gè)以及所述初 始值估計(jì)所述群組的質(zhì)心。5. 根據(jù)權(quán)利要求4所述的方法,其中通過在時(shí)間上跟蹤所述群組生成所述支配源包括 以下項(xiàng)中的至少一項(xiàng): 將前一時(shí)間幀的估計(jì)的質(zhì)心指派作為現(xiàn)在時(shí)間幀的所述初始值;以及 將之前的時(shí)間幀中估計(jì)的移動(dòng)平均質(zhì)心指派作為現(xiàn)在時(shí)間幀的所述初始值。6. 根據(jù)權(quán)利要求1所述的方法,其中通過估計(jì)空間參數(shù)和頻譜參數(shù)從所述音頻內(nèi)容分 離所述源包括: 針對所述支配源估計(jì)所述方向的質(zhì)心; 基于所述質(zhì)心在所述多個(gè)成分中的每個(gè)成分內(nèi)估計(jì)所述時(shí)頻塊的所述空間參數(shù);以及 基于所述質(zhì)心在所述多個(gè)成分中的每個(gè)成分內(nèi)估計(jì)所述時(shí)頻塊的所述頻譜參數(shù)。7. 根據(jù)權(quán)利要求6所述的方法,其中通過估計(jì)空間參數(shù)和頻譜參數(shù)從所述音頻內(nèi)容分 離所述源進(jìn)一步包括: 基于所述頻譜參數(shù)計(jì)算高斯混合模型參數(shù);以及 基于所述高斯模型參數(shù)、所述空間參數(shù)以及所述頻譜參數(shù)在每個(gè)時(shí)間幀針對所述源中 的每個(gè)源估計(jì)最可能狀態(tài)。8. 根據(jù)權(quán)利要求6所述的方法,其中通過估計(jì)空間參數(shù)和頻譜參數(shù)從所述音頻內(nèi)容分 離所述源進(jìn)一步包括: 執(zhí)行混音參數(shù)和能譜參數(shù)的初始化過程;以及 通過EM迭代過程更新所述能譜參數(shù)和所述混音參數(shù)。9. 根據(jù)權(quán)利要求8所述的方法,其中執(zhí)行所述初始化過程包括以下項(xiàng)中的至少一項(xiàng): 基于所述空間參數(shù)初始化混音參數(shù);以及 基于所述頻譜參數(shù)計(jì)算能譜參數(shù)。10. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述方法進(jìn)一步包括: 基于所述支配源的所述頻譜參數(shù)和所述空間參數(shù)重建所述音頻內(nèi)容的源;以及 通過圖形用戶界面表示所重建的源。11. 一種從音頻內(nèi)容分離源的系統(tǒng),所述音頻內(nèi)容是基于多個(gè)聲道的多聲道格式,所述 系統(tǒng)包括: 成分分析單元,被配置為對所述音頻內(nèi)容在所述多個(gè)聲道的每個(gè)聲道上執(zhí)行成分分析 以生成多個(gè)成分,所述多個(gè)成分中的每個(gè)成分包括在全頻帶上的時(shí)頻塊; 源生成單元,被配置為利用所述多個(gè)成分中的至少一個(gè)所述時(shí)頻塊生成至少一個(gè)支配 源;以及 源分離單元,被配置為通過基于所述支配源估計(jì)空間參數(shù)和頻譜參數(shù),從所述音頻內(nèi) 容分離所述源。12. 根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述源生成單元包括: 聚類單元,被配置為將多個(gè)方向聚類為至少一個(gè)群組,每個(gè)群組包括多個(gè)時(shí)頻塊,所述 多個(gè)方向從所述多個(gè)成分中生成;以及 跟蹤單元,被配置為通過在時(shí)間上跟蹤所述群組生成所述支配源。13. 根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述聚類單元被配置為將所有的所述成分中與 初始值的差異在預(yù)定義的聚類閾值以內(nèi)的所述方向聚類為所述群組。14. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述聚類單元進(jìn)一步包括: 質(zhì)心估計(jì)單元,被配置為基于所述多個(gè)時(shí)頻塊的直達(dá)性和所述多個(gè)時(shí)頻塊的能量級中 的至少一個(gè)以及所述初始值估計(jì)所述群組的質(zhì)心。15. 根據(jù)權(quán)利要求14所述的系統(tǒng),其中所述跟蹤單元包括以下項(xiàng)中的至少一項(xiàng): 前質(zhì)心指派單元,被配置為將前一時(shí)間幀的估計(jì)的質(zhì)心指派作為現(xiàn)在時(shí)間幀的所述初 始值;以及 移動(dòng)平均質(zhì)心指派單元,被配置為將之前的時(shí)間幀中估計(jì)的移動(dòng)平均質(zhì)心指派作為現(xiàn) 在時(shí)間幀的所述初始值。16. 根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述源分離單元包括: 質(zhì)心估計(jì)單元,被配置為針對所述支配源估計(jì)所述方向的質(zhì)心; 空間源分離單元,被配置為基于所述質(zhì)心在所述多個(gè)成分中的每個(gè)成分內(nèi)估計(jì)所述時(shí) 頻塊的所述空間參數(shù);以及 頻譜源分離單元,被配置為基于所述質(zhì)心在所述多個(gè)成分中的每個(gè)成分內(nèi)估計(jì)所述時(shí) 頻塊的所述頻譜參數(shù)。17. 根據(jù)權(quán)利要求16所述的系統(tǒng),其中所述源分離單元進(jìn)一步包括: 高斯混合模型參數(shù)計(jì)算單元,被配置為基于所述頻譜參數(shù)計(jì)算高斯混合模型參數(shù);以 及 狀態(tài)估計(jì)單元,被配置為基于所述高斯模型參數(shù)、所述空間參數(shù)以及所述頻譜參數(shù)在 每個(gè)時(shí)間幀針對所述源中的每個(gè)源估計(jì)最可能狀態(tài)。18. 根據(jù)權(quán)利要求16所述的系統(tǒng),其中所述源分離單元進(jìn)一步包括: 初始化單元,被配置為執(zhí)行混音參數(shù)和能譜參數(shù)的初始化過程;以及 參數(shù)更新單元,被配置為通過EM迭代過程更新所述能譜參數(shù)和所述混音參數(shù)。19. 根據(jù)權(quán)利要求18所述的系統(tǒng),其中所述初始化單元包括以下項(xiàng)中的至少一項(xiàng): 混音參數(shù)初始化單元,被配置為基于所述空間參數(shù)初始化混音參數(shù);以及 能譜參數(shù)計(jì)算單元,被配置為基于所述頻譜參數(shù)計(jì)算能譜參數(shù)。20. 根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述系統(tǒng)進(jìn)一步包括: 源重建單元,被配置為基于所述支配源的所述頻譜參數(shù)和所述空間參數(shù)重建所述音頻 內(nèi)容的源;以及 源表示單元,被配置為通過圖形用戶界面表示所重建的源。21. -種用于從音頻內(nèi)容分離源的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品被有形地存 儲(chǔ)在非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)上并且包括計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令在被執(zhí) 行時(shí)使得機(jī)器執(zhí)行根據(jù)權(quán)利要求1至10中任一項(xiàng)所述的方法的步驟。
【文檔編號】G10L21/0272GK105989852SQ201510085195
【公開日】2016年10月5日
【申請日】2015年2月16日
【發(fā)明人】王珺
【申請人】杜比實(shí)驗(yàn)室特許公司