亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

動(dòng)態(tài)音頻源分離的方法和系統(tǒng)與流程

文檔序號(hào):12142446閱讀:271來(lái)源:國(guó)知局
動(dòng)態(tài)音頻源分離的方法和系統(tǒng)與流程

本發(fā)明涉及音頻源分離的方法和系統(tǒng)。具體地,該方法和系統(tǒng)針對(duì)音頻源分離利用基于組合的文本和示例的方法。本發(fā)明還涉及適用于這種方法或系統(tǒng)的計(jì)算機(jī)可讀介質(zhì)。



背景技術(shù):

音頻源分離涉及將音頻混合分解為其組成聲源。這提供了在音頻/語(yǔ)音增強(qiáng)、后期制作、3D音頻等中寬泛的應(yīng)用范圍。尤其,盲源分離(BSS)假定在不具有關(guān)于源、混合、和/或生成混合的混合過(guò)程的情況下執(zhí)行音頻源分離。另一方面,消息源分離(ISS)允許利用來(lái)自一些輔助信息的指導(dǎo)來(lái)執(zhí)行音頻源分離。

大多數(shù)用于監(jiān)督式音頻源分離的現(xiàn)有方法是基于示例的方法。這些方法的先決條件是事先獲得一些類似于目標(biāo)音頻源的音頻樣本,這通常比較繁瑣且并非總是可能的。當(dāng)音頻樣本事先是不可用的時(shí),替代地,可以使用簡(jiǎn)單文本查詢來(lái)搜索音頻文件。該用于音頻源分離的基于文本查詢的方法對(duì)于用戶更為容易并且更為有效,因?yàn)橛脩魞H需要例如聽音頻混合并提供描述他們想要分離的內(nèi)容的文字。然而,盡管在[XII]中描述了基于本文查詢的方法,但是目前為止還沒(méi)有任何能夠有效地處理噪聲或非代表性取回示例的實(shí)際解決方案。

對(duì)于基于示例的音頻源分離,單頻道源分離是欠定的問(wèn)題,并因此是在最具挑戰(zhàn)的問(wèn)題之中。若干算法提議考慮預(yù)先學(xué)習(xí)單個(gè)聲源的頻譜特性,以便將它們從音頻混合中分離。為了實(shí)現(xiàn)該目的,需要獲得初期訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)并指示單個(gè)目標(biāo)源的頻譜特性?;诜秦?fù)矩陣分解(NMF)[I,II,III]或其被稱為概率性潛在分量分析(PLCA)[IV,V]的概率性公式來(lái)提出監(jiān)督式算法的類別。然而,當(dāng)訓(xùn)練數(shù)據(jù)不可用或不足以代表音頻源時(shí),上述方法在不具有關(guān)于源的補(bǔ)充信息的情況下變得不再適用。例如,補(bǔ)充信息包括模仿混合中的“哼(hummed)”的聲音[V],或者相應(yīng)的音頻混合的文本轉(zhuǎn)錄[VI]。

最近已經(jīng)提出了基于NMF的針對(duì)音頻源分離的用戶指導(dǎo)方法[VII],借此整體的音頻源分離過(guò)程可能包括若干交互式分離步驟。這些方法允許終端用戶手動(dòng)地注釋關(guān)于每個(gè)聲源的活動(dòng)性的信息。代替上述所提到的訓(xùn)練數(shù)據(jù),使用該注釋的信息來(lái)指導(dǎo)源分離過(guò)程。此外,用戶能夠通過(guò)在分離過(guò)程期間注釋中間分離結(jié)果的頻譜圖顯示來(lái)核查分離結(jié)果并糾正其錯(cuò)誤。

然而,對(duì)于上述用戶指導(dǎo)方法和交互式方法,需要用戶具有一些關(guān)于音頻源頻譜圖和音頻信號(hào)處理的基本知識(shí),以便手動(dòng)地指定音頻源的特性,從而與分離過(guò)程進(jìn)行交互。換句話說(shuō),可選擇的交互和音頻源分離的干擾對(duì)于終端用戶并非容易和實(shí)用。此外,注釋過(guò)程即使對(duì)于專業(yè)操作員也是很耗時(shí)的。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是提出一種改進(jìn)的用于音頻源分離的解決方案,具體在于簡(jiǎn)化用戶交互,以便沒(méi)有經(jīng)驗(yàn)的中斷用戶可以容易地執(zhí)行源分離任務(wù)。

根據(jù)本發(fā)明的第一方面,一種音頻源分離的方法包括:接收音頻混合和與音頻混合相關(guān)聯(lián)的至少一個(gè)文本查詢;通過(guò)將文本查詢和與輔助音頻數(shù)據(jù)庫(kù)相關(guān)聯(lián)的語(yǔ)義信息進(jìn)行匹配從輔助音頻數(shù)據(jù)庫(kù)中取回至少一個(gè)音頻樣本;評(píng)估從輔助音頻數(shù)據(jù)庫(kù)中取回的音頻樣本;以及使用取回的音頻樣本將音頻混合分離成多個(gè)音頻源。在本發(fā)明的一個(gè)實(shí)施例中,評(píng)估音頻樣本和分離音頻混合是通過(guò)對(duì)音頻混合和音頻樣本應(yīng)用非負(fù)矩陣分解(NMF)來(lái)被共同執(zhí)行的。

因此,被配置為實(shí)現(xiàn)音頻源分離的方法的系統(tǒng),包括:接收單元,被配置為接收音頻混合和與音頻混合相關(guān)聯(lián)的至少一個(gè)文本查詢;以及處理器,被配置為通過(guò)將文本查詢和與輔助音頻數(shù)據(jù)庫(kù)相關(guān)聯(lián)的語(yǔ)義信息進(jìn)行匹配從輔助音頻數(shù)據(jù)庫(kù)中取回至少一個(gè)音頻樣本,從而評(píng)估從輔助音頻數(shù)據(jù)庫(kù)中取回的音頻樣本,以及使用該音頻樣本將音頻混合分離成多個(gè)音頻源。

此外,一種存儲(chǔ)有用于音頻混合的音頻源分離的指令的計(jì)算機(jī)可讀介質(zhì),當(dāng)指令由計(jì)算機(jī)執(zhí)行時(shí),使得計(jì)算機(jī):接收音頻混合和與音頻混合相關(guān)聯(lián)的至少一個(gè)文本查詢;通過(guò)將文本查詢和與輔助音頻數(shù)據(jù)庫(kù)相關(guān)聯(lián)的語(yǔ)義信息進(jìn)行匹配從輔助音頻數(shù)據(jù)庫(kù)中取回至少一個(gè)音頻樣本;評(píng)估從輔助音頻數(shù)據(jù)庫(kù)中取回的音頻樣本;以及使用音頻樣本將音頻混合分離成多個(gè)音頻源。

本發(fā)明的音頻源分離的方法簡(jiǎn)化過(guò)程并改進(jìn)源分離的結(jié)果。通過(guò)結(jié)合本文和樣本的方法,允許終端用戶通過(guò)簡(jiǎn)單地提供描述混合中的聲音的文本查詢或口語(yǔ)音頻很容易地與執(zhí)行音頻源分離的系統(tǒng)進(jìn)行交互。在后一種情況中,語(yǔ)音到文本接口被用來(lái)將口語(yǔ)音頻查詢轉(zhuǎn)換為文本查詢。評(píng)估最初取回的音頻樣本通過(guò)提供更好的訓(xùn)練源樣本來(lái)改進(jìn)后續(xù)的音頻源分離。在本發(fā)明的一個(gè)實(shí)施例中,源樣本的評(píng)估和音頻混合的源分離是被共同執(zhí)行的,音頻源分離的整個(gè)過(guò)程變得更為有效。

附圖說(shuō)明

為了更好地理解本發(fā)明,現(xiàn)在參考附圖來(lái)更詳細(xì)地解釋下面的描述。應(yīng)當(dāng)理解的是,本發(fā)明不限于公開的示例性實(shí)施例,并且在不脫離由所附的權(quán)利要求所定義的本發(fā)明的范圍的情況下,指定的特征還可以被適當(dāng)?shù)睾喜⒑?或修改。

圖1是示出了根據(jù)本發(fā)明的音頻源分離方法的優(yōu)選實(shí)施例的流程圖。

圖2是示出了根據(jù)本發(fā)明的源分離階段的一個(gè)實(shí)施例的流程圖。

圖3是示出了NMF分解的示例性圖示。

圖4是示出了根據(jù)本發(fā)明的方法的另一優(yōu)選實(shí)施例的流程圖。

圖5是示出了在迭代過(guò)程期間權(quán)衡參數(shù)λ在NMF應(yīng)用的優(yōu)化函數(shù)公式中適應(yīng)性地改變的一個(gè)實(shí)施例的圖示。

圖6是示出了用于本發(fā)明的NMF應(yīng)用的組稀疏懲罰方法的效果的示例性圖示。

圖7是示出了用于本發(fā)明的NMF應(yīng)用的結(jié)合組稀疏懲罰方法和行稀疏懲罰方法的效果的示例性圖示。

圖8是示出了根據(jù)本發(fā)明的實(shí)現(xiàn)音頻源分離的方法的系統(tǒng)的示意圖。

具體實(shí)施方式

參考圖1,根據(jù)本發(fā)明的音頻源分離的方法的一個(gè)優(yōu)選實(shí)施例,包括:接收10音頻混合和與音頻混合相關(guān)聯(lián)的至少一個(gè)文本查詢;通過(guò)將文本查詢和與輔助音頻數(shù)據(jù)庫(kù)相關(guān)聯(lián)的語(yǔ)義信息進(jìn)行匹配從輔助音頻數(shù)據(jù)庫(kù)中取回11至少一個(gè)音頻樣本;評(píng)估12從輔助音頻數(shù)據(jù)庫(kù)中取回的音頻樣本;以及使用該音頻樣本將音頻混合分離13成多個(gè)音頻源。音頻源分離的方法可以在系統(tǒng)中和/或由處理器、服務(wù)器、或任意合適的設(shè)備執(zhí)行。

文本查詢可以由用戶通過(guò)用戶輸入設(shè)備等(例如,打字設(shè)備或遠(yuǎn)程控制)來(lái)提供。用戶聽取音頻混合,區(qū)分音頻混合中的音頻源,然后任意地提供文本查詢。替代地,文本查詢可以由執(zhí)行語(yǔ)音轉(zhuǎn)文字或類似的技術(shù)的設(shè)備直接提供。文本查詢優(yōu)選地描述了包括在音頻混合中的音頻源(例如,犬吠、鳥鳴等)和/或諸如語(yǔ)音內(nèi)容之類的音頻混合的文本內(nèi)容。此外,其他指定的參數(shù)(例如,采樣率、信道數(shù)、音頻文件類型(wav、mp3等))也可以被包括在文本查詢中以及與文本查詢相結(jié)合,每個(gè)文本查詢涉及單個(gè)或若干個(gè)音頻源。當(dāng)然,文本查詢的長(zhǎng)度、形式、和/或其他特性并不限于此,并且對(duì)于不同的需求是靈活變化的。

文本查詢隨后被用于從輔助數(shù)據(jù)庫(kù)中音頻取回11音頻樣本。輔助音頻數(shù)據(jù)庫(kù)是與一些語(yǔ)義信息相關(guān)聯(lián)的數(shù)據(jù)庫(kù),該語(yǔ)義信息優(yōu)選地標(biāo)識(shí)了數(shù)據(jù)庫(kù)的音頻數(shù)據(jù)的內(nèi)容。當(dāng)然,語(yǔ)義信息可能具有適用于源分離的任意形式,例如,標(biāo)簽、文件名稱、相應(yīng)的網(wǎng)頁(yè)等。優(yōu)選地,輔助數(shù)據(jù)庫(kù)是公共的并且容易訪問(wèn)的數(shù)據(jù)庫(kù)(例如,公開的搜索引擎,如Google和Find sounds)。在該情況中,取回的音頻樣本可以被本地下載用于進(jìn)一步處理和/或URL的列表可以由輔助數(shù)據(jù)庫(kù)提供。替代地,輔助數(shù)據(jù)庫(kù)還可以是針對(duì)音頻源分離所預(yù)備的、本地的或任意類型的數(shù)據(jù)庫(kù)。

由于存在至少與輔助數(shù)據(jù)庫(kù)相關(guān)聯(lián)的一些語(yǔ)義信息,所以通過(guò)將接收的文本查詢與輔助數(shù)據(jù)庫(kù)的語(yǔ)義信息相匹配來(lái)執(zhí)行音頻樣本的取回。換句話說(shuō),音頻樣本的音頻取回可以基于任意已知的基于文本的音頻取回技術(shù)來(lái)執(zhí)行。

評(píng)估12取回的音頻樣本可以基于本地服務(wù)器或輔助數(shù)據(jù)庫(kù)的供應(yīng)商的各種標(biāo)準(zhǔn)來(lái)執(zhí)行。因此,隨后可以使用每個(gè)取回的音頻樣本或只是它們的子集根據(jù)音頻樣本的評(píng)估結(jié)果來(lái)執(zhí)行音頻混合的分離13??梢酝ㄟ^(guò)包括不同算法的若干方法來(lái)實(shí)現(xiàn)音頻樣本的評(píng)估12。

在本發(fā)明的一個(gè)實(shí)施例中,取回11和評(píng)估12音頻樣本是由輔助數(shù)據(jù)庫(kù)的供應(yīng)商執(zhí)行的。輔助數(shù)據(jù)庫(kù)(例如,互聯(lián)網(wǎng)搜索引擎)提供音頻樣本的列表,這些音頻樣本根據(jù)它們與所提供的本文查詢的匹配被排序。音頻樣本的順序可選擇地從最佳匹配開始到最差匹配排列。任意地,某一數(shù)量的最佳匹配被用于后續(xù)的音頻分離。例如,用戶可以決定使用排在前三的音頻樣本并排除剩余的音頻樣本。此外,用戶可以基于匹配度對(duì)每個(gè)樣本分配不同的權(quán)重。

在本發(fā)明的一個(gè)實(shí)施例中,音頻樣本根據(jù)它們與所接收到的音頻混合的相關(guān)性被排序。音頻樣本暫時(shí)與音頻混合交叉關(guān)聯(lián),并且總結(jié)輸出以獲得單個(gè)音頻樣本的得分。例如,越高的得分可以表示音頻樣本與音頻混合越匹配。類似地,音頻樣本的子集可以被選擇用于后續(xù)的音頻源分離。

在本發(fā)明的另一實(shí)施例中,音頻樣本根據(jù)音頻特征相似度被排序,這可以提供音頻樣本和音頻混合之間更為穩(wěn)定的匹配。首先,音頻特征(例如,頻譜矩心、美爾倒譜系數(shù)(MFCC)、頻譜傳播、頻譜帶能量等)被分別從取回的音頻樣本和音頻混合中提取?;谒崛〉奶卣?,音頻樣本和音頻混合的特征向量被分別計(jì)算,并且與標(biāo)準(zhǔn)化交叉相關(guān)比較。在該情況中,音頻樣本和音頻混合根據(jù)導(dǎo)出的特征向量而不是其原始信號(hào)被具體地比較和匹配。替代特征向量,表示音頻樣本和音頻混合的詞袋可以被提取,隨后使用相關(guān)性、余弦相似性、或其他距離度量在音頻樣本和混合之間進(jìn)行比較。

當(dāng)然,其他替代的方法還可以被用來(lái)評(píng)估12從輔助數(shù)據(jù)庫(kù)中取回的音頻樣本。此外,在評(píng)估12音頻樣本之后,可以通過(guò)將更多的權(quán)重給予排序較高的音頻樣本來(lái)可選地應(yīng)用加權(quán)的非負(fù)矩陣分解[VIII,IX]。

圖2示出了根據(jù)本發(fā)明的方法的源分離階段的一個(gè)優(yōu)選實(shí)施例。應(yīng)該注意的是,在以下說(shuō)明書中,為了簡(jiǎn)單起見,基于NMF模型的方法作為示例被描述。動(dòng)態(tài)(on-the-fiy)源分離方法和系統(tǒng)也可以使用其他頻譜模型,例如,概率性潛在分量分析(PLCA)[IV,V]或高斯混合模型(GMM)等。

首先,評(píng)估的音頻樣本經(jīng)由短時(shí)傅里葉變換(STFT)被變換至?xí)r頻表示,并且使用音頻樣本的STFT系數(shù)(稱為頻譜圖、矩陣)的幅度或均方根幅度。該矩陣通過(guò)非負(fù)矩陣分解(NMF)算法被分解,以獲得描述音頻源的頻譜特性的頻譜模型矩陣(W)、以及時(shí)間激活矩陣(H)。頻譜矩陣W被學(xué)習(xí)并且被用來(lái)指導(dǎo)音頻混合的頻譜圖的分解,該音頻混合的頻譜圖也是經(jīng)由STFT轉(zhuǎn)換獲得的。通過(guò)對(duì)音頻混合的頻譜圖應(yīng)用NMF,頻譜矩陣的部分或者所有的列由從音頻示例中預(yù)先學(xué)習(xí)的音頻所固定,音頻源的評(píng)估的STFT系數(shù)通過(guò)眾所周知的維納過(guò)濾獲得。最終,反STFT(ISTFT)被應(yīng)用來(lái)獲得源的時(shí)域估計(jì),使得源可以被保存為例如波形文件。

本發(fā)明的方法的優(yōu)選實(shí)施例實(shí)現(xiàn)NMF模型。傳統(tǒng)的NMF的公式可以被定義為其中V是維度為F×N的非負(fù)矩陣。NMF的目的是將矩陣V近似為維度分別是F×K和K×N的兩個(gè)簡(jiǎn)單非負(fù)矩陣W和H的乘積,當(dāng)矩陣V近似由W·H重構(gòu)時(shí)誤差最小??梢允褂酶鞣N成本函數(shù)來(lái)測(cè)量近似的誤差。

應(yīng)用NMF的公式,即,在本發(fā)明的實(shí)施例中,V表示音頻混合的非負(fù)頻譜圖矩陣,該音頻混合的非負(fù)頻譜圖矩陣是輸入混合信號(hào)的時(shí)頻表示。W和H分別表示頻譜源的頻譜原子和它們相應(yīng)的激活。F表示全部的頻點(diǎn),N是時(shí)間幀的數(shù)量,并且K表示NMF分量的數(shù)量,NMF分量是描述音頻源的頻譜特性的頻譜基礎(chǔ)。換句話說(shuō),NMF可以通過(guò)將矩陣W的不同列(和矩陣H的相應(yīng)行)與不同的聲源相關(guān)聯(lián)來(lái)分離單信道音頻混合。圖3示出了分解的示例。

因此目的是為了通過(guò)解決以下最優(yōu)化的問(wèn)題來(lái)使得近似誤差最小化:

其中

其中,d(.|.)是散度,f(頻率點(diǎn)指數(shù))和n(時(shí)間幀指數(shù))指示第f行第n列中的元素。可能的示例性散度包括Itakura-Saito散度[III]。

可選地,頻譜基礎(chǔ)矩陣W可以被保持固定或者可以被更新。如果取回的音頻樣本相對(duì)較好,則優(yōu)選固定所學(xué)習(xí)的W用于進(jìn)一步的音頻源分離。另一方面,更新的W是靈活的,并且關(guān)于輸入音頻混合收斂到更好的近似。替代地,另一選擇是首先在第一參數(shù)更新迭代期間固定矩陣W,隨后在稍后的迭代中調(diào)整和更新W,這會(huì)更好地適應(yīng)音頻混合中音頻源的頻譜特性。

圖4示出了根據(jù)本發(fā)明的音頻源分離的方法的另一優(yōu)選實(shí)施例。在該實(shí)施例中,評(píng)估12音頻樣本和分離12音頻混合被共同執(zhí)行。換句話說(shuō),評(píng)估并沒(méi)有在音頻源分離之前被執(zhí)行,并且所有取回的音頻樣本被提供為對(duì)音頻源分離階段的輸入。

通常,通過(guò)使用大型頻譜圖樣字典對(duì)音頻混合應(yīng)用非負(fù)矩陣分解來(lái)共同執(zhí)行評(píng)估音頻樣本和分離音頻混合,頻譜圖樣字典是通過(guò)結(jié)合從不同的源的音頻示例學(xué)習(xí)的頻譜圖樣矩陣所構(gòu)建的。更具體地,作為兩個(gè)源的示例,頻譜圖樣的矩陣首先被構(gòu)建為W=[W11,...,W1P,W21,...,W2Q],其中P和Q分別是針對(duì)源1和2的取回的示例數(shù)量,W1p(p=1,..,P)和W1q(q=1,..,Q)分別是由NMF分別從源1(由p索引)和源2(由q索引)的每個(gè)示例中學(xué)習(xí)的頻譜圖樣的矩陣。時(shí)間激活的矩陣H是以同樣的方式構(gòu)建的,但是所有的條目首先是被隨機(jī)初始化,然后經(jīng)由優(yōu)化過(guò)程被更新。在本發(fā)明的該實(shí)施例中,對(duì)矩陣H實(shí)施組稀疏的懲罰功能在全球優(yōu)化開銷中有所體現(xiàn),使得允許僅選擇從示例學(xué)習(xí)的最為合適的頻譜圖樣來(lái)指導(dǎo)混合的NMF分解。該策略在圖6中針對(duì)兩個(gè)源的示例情況作出解釋,針對(duì)每個(gè)源的兩個(gè)示例:W11和W12是針對(duì)第一個(gè)源從兩個(gè)示例中學(xué)習(xí)的頻譜圖樣,類似地W21和W22是針對(duì)第二個(gè)源的。矩陣H由塊H11,H12,H21,和H22組成,這些塊是對(duì)應(yīng)于頻譜圖樣的激活。在優(yōu)化后,H12和H22的條目是零,意味著每個(gè)源僅有一個(gè)取回的示例(由1索引)已經(jīng)自動(dòng)被選為指導(dǎo)分離過(guò)程。

為了在音頻源分離中直接整合實(shí)現(xiàn)NMF模型的音頻樣本的評(píng)估,在NMF成本函數(shù)中引入對(duì)激活矩陣H和Ψ(H)的稀疏懲罰:

其中D(V|WH)被定義為如上,λ是對(duì)稀疏約束的貢獻(xiàn)進(jìn)行加權(quán)的權(quán)衡參數(shù)。

可選地并優(yōu)選地,成本函數(shù)公式中的權(quán)衡參數(shù)λ可以是自適應(yīng)的λ=f(i),其中f是函數(shù),i是參數(shù)更新過(guò)程中的迭代次數(shù)。想法是首先具有高λ,以給予稀疏懲罰更多的權(quán)重,并因此選擇基底音頻樣本,隨后逐漸地降低λ以更好地符合第一項(xiàng),即,散度D(V|WH),來(lái)得到更好的近似。該策略中線性適應(yīng)權(quán)衡參數(shù)λ的示例在圖5中示出。

在[II],描述了通過(guò)乘法更新來(lái)優(yōu)化上述成本函數(shù)的迭代算法的更為詳細(xì)的推導(dǎo)和解釋。

通過(guò)選擇不同的稀疏懲罰,實(shí)現(xiàn)了若干優(yōu)化方案,這是以利用音頻樣本的頻譜特性來(lái)指導(dǎo)分離過(guò)程的不同方式為基礎(chǔ)的。如下文中給出了推薦的稀疏懲罰,可以導(dǎo)出相應(yīng)參數(shù)估計(jì)的相應(yīng)更新規(guī)則。

在一個(gè)實(shí)施例中,稀疏懲罰被定義為:

其中,G表示組的數(shù)量,與所使用的音頻樣本的數(shù)量相對(duì)應(yīng),Hg是與第g個(gè)源(第g組)相對(duì)應(yīng)的激活矩陣H的部分。Ψ(x)可以由不同的函數(shù)定義,例如在[I,II]中所示。一個(gè)示例是Ψ(x)=log(x),該示例是為了簡(jiǎn)便起見在該實(shí)施例中使用。當(dāng)然,也可以使用不同的函數(shù)Ψ。

該組稀疏方法允許有效地執(zhí)行對(duì)從輔助數(shù)據(jù)庫(kù)中取回的相關(guān)訓(xùn)練源樣本的評(píng)估和選擇,其中,一個(gè)組表示一個(gè)訓(xùn)練音頻樣本。作為[I]的改進(jìn),假設(shè)僅有一個(gè)源的好的模型被獲得,則在該實(shí)施例中,所有音頻源的更多模型通常被學(xué)習(xí)和實(shí)現(xiàn)。如圖6所示,激活矩陣H被強(qiáng)制幾乎不包括與較高排序的音頻樣本相對(duì)應(yīng)的激活的塊。

在一個(gè)實(shí)施例中,系數(shù)懲罰被定義為:

其中hg是激活矩陣的第g行。該行稀疏方法允許較高的靈活性,并且甚至從不同的音頻樣本中選擇最好的頻譜原子。

在一個(gè)實(shí)施例中,應(yīng)用了成對(duì)的組稀疏方法,其中稀疏懲罰被定義為:

定義該組為訓(xùn)練音頻樣本對(duì)(每一個(gè)訓(xùn)練音頻樣本來(lái)自一個(gè)音頻源),以避免這樣的情況:稀疏懲罰保持來(lái)自僅一個(gè)源的僅一個(gè)激活組。該方法可以在每個(gè)音頻源中保持至少一個(gè)激活組。

在另一實(shí)施例中,類似地,該方法基于成對(duì)的行稀疏,其中稀疏懲罰被定義為:

優(yōu)選地,在又一實(shí)施例中,應(yīng)用結(jié)合組稀疏和行稀疏懲罰的方法。針對(duì)該混合方法的成本函數(shù)被定義為:

其中,∝和β是確定每個(gè)懲罰的貢獻(xiàn)的權(quán)重。該方法可以在圖7中可見,其中,該算法可以在不同的源中選擇好的頻譜圖樣。

在本發(fā)明的另一實(shí)施例中,所考慮的頻譜模式可以與空間模型[X]相結(jié)合,以便在多信道音頻混合中執(zhí)行動(dòng)態(tài)源分離。對(duì)于多信道情況所考慮的框架的擴(kuò)展是簡(jiǎn)單的,并且在[XI]中被描述。

圖8示意性地示出了根據(jù)本發(fā)明的配置為執(zhí)行音頻源分離的方法的系統(tǒng)20的優(yōu)選實(shí)施例。系統(tǒng)20包括接收單元21和處理器22,接收單元21被配置為接收10音頻混合和與音頻混合相關(guān)聯(lián)的至少一個(gè)文本查詢;處理器22被配置為通過(guò)將文本查詢和與輔助音頻數(shù)據(jù)庫(kù)23相關(guān)聯(lián)的語(yǔ)義信息進(jìn)行匹配從輔助音頻數(shù)據(jù)庫(kù)23中取回11至少一個(gè)音頻樣本,從而評(píng)估12從輔助音頻數(shù)據(jù)庫(kù)23中取回的音頻樣本,以及使用該音頻樣本將音頻混合分離13成多個(gè)音頻源。

優(yōu)選地,處理器22評(píng)估12音頻樣本和分離13音頻混合是共同進(jìn)行的。更優(yōu)選地,處理器22通過(guò)對(duì)接收的音頻混合應(yīng)用NMF來(lái)分離13音頻混合。

參考文獻(xiàn)

[I]D.L.Sun and G.J.Mysore.“Universal Speech Models for Speaker Independent Single Channel Source Separation,(非特定人單信道源分離的通用語(yǔ)音模式)”IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),May 2013(2013年5月).

[II]A.Lefevre,F.Bach,and C.Fevotte.“Itakura-Saito Non-negative Matrix Factorization with Group Sparsity,(利用組稀疏的Itakura-Saito非負(fù)矩陣分解)”.ICASSP2011.

[III]C.Fevotte,N.Bertin,and J.Durrieu.“Non-negative Matrix Factorization with the Itakura-Saito divergence.With Application to Music Analysis,(利用Itakura-Saito散度的非負(fù)分解與對(duì)音樂(lè)分析的應(yīng)用)”.Neural Computation Vol.21No.3.March 2009(2009年3月).

[IV]P.Smaragdis,B.Raj,and M.Shashanka,“Supervised and semi-supervised separation of sounds from single-channel mixtures,(聲音與單信道混合的監(jiān)督式分離和半監(jiān)督式分離)”in Proc.Int.Conf.on Independent Component Analysis and Signal Separation(ICA),2007,pp.414–421.

[V]P.Smaragdis and G.J.Mysore,“Separation by humming:User-guided sound extraction from monophonic mixtures,(通過(guò)哼唱分離:用戶指導(dǎo)的從單聲道混合中的聲音提取)”inProc.IEEE Workshop on Applications of Signal Processing toAudio and Acoustics(WASPAA),2009,pp.69–72.

[VI]L.L.Magoarou,A.Ozerov,and N.Q.K.Duong,“Text-informed audio source separation using nonnegative matrix partial co-factorization,(使用非負(fù)矩陣部分共同分解的文本通知音頻源分離)”in Proc.Int.Workshop on Machine Learning for Signal Processing(MLSP),2013.

[VII]N.Q.K.Duong,A.Ozerov,L.Chevallier,and J.Sirot,“An interactive audio source separation framework based on nonnegative matrix factorization,(基于非負(fù)矩陣分解的交互式音頻源分離框架)”Proc.ICASSP 2014

[VIII]N.Q.K.Duong,A.Ozerov,and L.Chevallier“Method of audio source separation and corresponding apparatus,(音頻源分離的方法和相應(yīng)的裝置)”European Patent Application No.13305759.6

[IX]N.Q.K.Duong,A.Ozerov,and L.Chevallier,“Temporal annotation based audio sourceseparation using weighted nonnegative matrix factorization(使用加權(quán)的非負(fù)矩陣分解的基于暫時(shí)注釋的音頻源分離)”,Proc.IEEE ICCE-Berlin,submitted,2014.

[X]N.Q.K.Duong,E.Vincent and R.Gribonval,“Under-determined reverberant audio source separation using a full-rank spatial covariance model,(使用滿秩空間協(xié)方差模型的欠定回響音頻源分離)”IEEE Transactions on Audio,Speech and Language Processing,Special Issue on Processing Reverberant Speech,Vol.18,No.7,pp.1830-1840,Sep.2010

[XI]S Arberet,A.Ozerov,N.Q.K Duong,E.Vincent,R Gribonval,F.Bimbot and P Vandergheynst,“Nonnegative matrix factorization and spatial covariance model for under-determined reverberant audio source separation,(欠定的回響音頻源分離的非負(fù)矩陣分解和空間協(xié)方差模型)”Proc.International Conference on Information Science,Signal Processing and their Applications(ISSPA.IEEE),2010。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1