用于生成音頻內(nèi)容的方法和裝置與流程

文檔序號(hào)：12142443閱讀：356來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開(kāi)總體涉及用于生成音頻內(nèi)容的方法和裝置。

背景技術(shù)：

例如，存在以光盤(pán)(CD)、磁帶、可從互聯(lián)網(wǎng)下載的音頻數(shù)據(jù)文件的形式，還有以例如存儲(chǔ)在數(shù)字視頻磁盤(pán)等上的視頻的聲軌的形式等的許多可用的傳統(tǒng)音頻內(nèi)容。

通常，例如，針對(duì)單聲道或者立體聲設(shè)置，傳統(tǒng)音頻內(nèi)容已從原始音頻源信號(hào)混合而無(wú)需從用于產(chǎn)生音頻內(nèi)容的原始音頻源中保持原始音頻源信號(hào)。

然而，存在期望再混合或者上混合音頻內(nèi)容的情況或者應(yīng)用。例如，在將在比提供的音頻內(nèi)容具有更多可用音頻信道的設(shè)備上播放音頻內(nèi)容的情況，例如，要在立體聲設(shè)備上播放單聲道音頻內(nèi)容、要在具有六個(gè)音頻信道的環(huán)繞聲設(shè)備上播放立體聲音頻內(nèi)容等。在其他情況下，將修正所感知的音頻源的空間位置或者將修正所感知的音頻源的響度。

雖然普遍存在用于再混合音頻內(nèi)容的技術(shù)，但是，通常期望改進(jìn)用于再混合音頻內(nèi)容的方法和裝置。

技術(shù)實(shí)現(xiàn)要素：

根據(jù)第一方面，本公開(kāi)提供了如下方法，包括：接收表示混合音頻源的輸入音頻內(nèi)容；分離混合音頻源，從而獲得分離的音頻源信號(hào)和殘留信號(hào)；以及通過(guò)混合分離的音頻源信號(hào)和殘留信號(hào)，生成輸出音頻內(nèi)容。

根據(jù)第二方面，本公開(kāi)提供了如下裝置，包括：音頻輸入，配置為接收表示混合音頻源的輸入音頻內(nèi)容；源分離器，配置為分離混合音頻源，從而獲得分離的音頻源信號(hào)和殘留信號(hào)；以及音頻輸出發(fā)生器，配置為通過(guò)混合分離的音頻源信號(hào)和殘留信號(hào)，生成輸出音頻內(nèi)容。

在獨(dú)立權(quán)利要求、以下描述以及附圖中闡述了另外的方面。

附圖說(shuō)明

通過(guò)關(guān)于附圖的實(shí)例的方式解釋實(shí)施方式，其中：

圖1總體示出了音頻內(nèi)容的再混合；

圖2示意性地示出了用于再混合音頻內(nèi)容的裝置；以及

圖3是用于再混合音頻內(nèi)容的方法的流程圖。

具體實(shí)施方式

在參考圖2和圖3詳細(xì)描述實(shí)施方式之前，作出總體解釋。

如從一開(kāi)始提到的，例如，存在以光盤(pán)(CD)、磁帶、可從互聯(lián)網(wǎng)下載的音頻數(shù)據(jù)文件的形式，還有以例如存儲(chǔ)在數(shù)字視頻磁盤(pán)等上的視頻的聲軌的形式等的許多可用的傳統(tǒng)音頻內(nèi)容，例如，針對(duì)單聲道或者立體聲設(shè)置，傳統(tǒng)音頻內(nèi)容已混合而無(wú)需從用于產(chǎn)生音頻內(nèi)容的原始音頻源中保持原始音頻源信號(hào)。

如上所述，存在期望再混合或者上混合音頻內(nèi)容的情況或者應(yīng)用。例如：

·通過(guò)相應(yīng)的上混合，例如單聲道->立體聲、立體聲->5.1環(huán)繞聲等，產(chǎn)生比原始音頻內(nèi)容更高的空間環(huán)繞聲；

·通過(guò)再混合(例如立體聲->立體聲)改變所感知的音頻源的空間位置；

·通過(guò)再混合(例如立體聲->立體聲)改變所感知的音頻源的響度；

或其任何組合等。

目前，由于不同音頻源的波重疊并且互相干涉，將混合的音頻內(nèi)容解混合(demixing)是困難的任務(wù)。在沒(méi)有每一個(gè)音頻源的聲波的原始信息的情況下，幾乎不可能針對(duì)音頻源中的每一個(gè)提取混合音頻源的原始波。

通常，存在用于分離源的技術(shù)，但是通常，通過(guò)(再)混合利用這種技術(shù)分離的音頻源而產(chǎn)生的音頻內(nèi)容的質(zhì)量差。

在一些實(shí)施方式中，用于再混合、上混合和/或下混合音頻內(nèi)容中的混合音頻源的方法包括：接收表示混合音頻源的輸入音頻內(nèi)容；分離混合音頻源，從而獲得分離的音頻源信號(hào)和殘留信號(hào)；并且例如，基于空間信息、基于抑制音頻源(例如樂(lè)器)和/或基于增加/減小音頻源(例如樂(lè)器)的振幅，通過(guò)混合分離的音頻源信號(hào)和殘留信號(hào)生成輸出音頻內(nèi)容。

在下文中，術(shù)語(yǔ)再混合、上混合以及下混合可以指基于分離的音頻源信號(hào)生成輸出音頻內(nèi)容的整個(gè)處理，其中分離的音頻源信號(hào)來(lái)源于混合的輸入音頻內(nèi)容，而術(shù)語(yǔ)“混合”可以指混合分離的音頻源信號(hào)。因此，“混合”分離的音頻源信號(hào)可以導(dǎo)致“再混合”、“上混合”或者“下混合”輸入音頻內(nèi)容的混合音頻源。

在下文中，出于圖示的目的，方法還將參考圖1解釋。

輸入音頻內(nèi)容可以包括多個(gè)(一個(gè)、兩個(gè)及以上)音頻信號(hào)，其中，每一個(gè)音頻信號(hào)對(duì)應(yīng)于一個(gè)信道。例如，圖1示出具有第一信道輸入音頻信號(hào)1a和第二信道輸入音頻信號(hào)1b的立體聲輸入音頻內(nèi)容1，而本公開(kāi)不限于輸入音頻內(nèi)容具有兩個(gè)音頻信道，而是輸入音頻內(nèi)容可以包括任意數(shù)量的信道。在下文中，輸入音頻內(nèi)容的音頻信道的數(shù)量也稱為“M_in”。因此，針對(duì)圖1的實(shí)例，輸入音頻內(nèi)容1具有兩個(gè)信道，M_in＝2。

輸入音頻內(nèi)容可以是任意類型。其可以是以模擬信號(hào)、數(shù)字信號(hào)的形式，其可以來(lái)源于光盤(pán)、數(shù)字視頻磁盤(pán)等，其可以是數(shù)據(jù)文件，諸如波文件、mp3文件等，并且本公開(kāi)不限于輸入音頻內(nèi)容的具體格式。

如圖1中還示出，輸入音頻內(nèi)容表示多個(gè)混合音頻源，其中輸入音頻內(nèi)容1包括音頻源1、2、…、K，其中，K是整數(shù)并且表示音頻源的數(shù)量。

音頻源可以是產(chǎn)生聲波的任何實(shí)體，例如樂(lè)器、語(yǔ)音、歌聲(vocals)、(例如來(lái)源于合成器的)人工生成聲音等。音頻源由輸入音頻內(nèi)容(例如，通過(guò)其相應(yīng)的記錄的聲波)表示。對(duì)于具有超過(guò)一個(gè)音頻信道的輸入音頻內(nèi)容，諸如立體聲輸入音頻內(nèi)容或者環(huán)繞聲輸入音頻內(nèi)容，音頻源的空間信息也可以包括在輸入音頻內(nèi)容內(nèi)或者通過(guò)輸入音頻內(nèi)容表示，例如通過(guò)包括在表示相應(yīng)音頻信道的不同的音頻信號(hào)內(nèi)的每一個(gè)音頻源的不同聲波表示。

輸入音頻內(nèi)容表示或者包括混合音頻源，這意味著聲音信息并不是分離地可用于輸入音頻內(nèi)容的所有音頻源，而是例如，針對(duì)不同音頻源的聲音信息至少部分地重疊或者混合。

在圖1的圖片中，這意味著K個(gè)音頻源混合并且音頻信號(hào)1a和音頻信號(hào)1b中的每一個(gè)可以包括K個(gè)音頻源的混合，即K個(gè)音頻源中的每一個(gè)的聲波的混合。

混合音頻源(圖1中1、…、K)分離(也稱為“解混合”)為分離的音頻源信號(hào)，其中，例如，針對(duì)混合音頻源中的每一個(gè)音頻源生成分離的音頻源信號(hào)。例如，由于混合音頻源并且缺乏針對(duì)混合音頻源中的每一個(gè)音頻源的聲音信息，音頻源信號(hào)的分離是不完美的，因此，除了分離的音頻源信號(hào)之外生成殘留信號(hào)。

如本文中使用的術(shù)語(yǔ)“信號(hào)”不限于任何具體格式，并且其可以是模擬信號(hào)、數(shù)字信號(hào)或存儲(chǔ)在數(shù)據(jù)文件中的信號(hào)或任何其他格式。

殘留信號(hào)可以表示輸入音頻內(nèi)容與所有分離的音頻源信號(hào)的和之間的差值。

這在圖1中同樣可視，在圖1的具體實(shí)例中，其中輸入音頻內(nèi)容1的K個(gè)源分離為多個(gè)分離的音頻源信號(hào)1、…、L，其中，分離的音頻源信號(hào)1、…、L的全體由參考標(biāo)號(hào)2表示并且第一個(gè)分離的音頻源信號(hào)1由參考標(biāo)號(hào)2a表示、第二個(gè)分離的音頻源信號(hào)2由參考標(biāo)號(hào)2b表示，以及第L個(gè)分離的音頻源信號(hào)L由參考標(biāo)號(hào)2d表示。如所提到的，輸入音頻內(nèi)容的分離是不完美的，并且因此，除了L個(gè)分離的音頻源信號(hào)之外，生成在圖1中由參考標(biāo)號(hào)3表示的殘留信號(hào)r(n)。

源的數(shù)量K和分離的音頻源信號(hào)的數(shù)量L可以不同。例如，這可以是當(dāng)僅提取一個(gè)音頻源信號(hào)，而(所有)其他源由殘留信號(hào)表示時(shí)的情況。針對(duì)L小于K的情況的另一實(shí)例是其中提取的音頻源信號(hào)表示源組。例如，源組可以表示包括相同類型的樂(lè)器(例如小提琴組)的組。在這種情況下，可能不可能和/或不期望針對(duì)音頻源組的個(gè)體(例如小提琴組中的單個(gè)小提琴)提取音頻源信號(hào)，但是可能足以分離表示源組的一個(gè)音頻源信號(hào)。例如，在源組(例如，如果是小提琴組)位于一個(gè)空間位置的情況下，這對(duì)于輸入音頻內(nèi)容會(huì)是有用的。

可以基于己知的盲源分離(也稱為“BSS”)或者能夠分離音頻源的其他技術(shù)，執(zhí)行將輸入音頻內(nèi)容分離為分離的音頻源信號(hào)。盲源分離允許在沒(méi)有關(guān)于(音頻)源信號(hào)或者混合處理的信息的幫助下，從混合的(音頻)信號(hào)分離(音頻)源信號(hào)。盡管一些實(shí)施方式使用盲源分離用于生成分離的音頻源信號(hào)，但是本公開(kāi)不限于其中沒(méi)有另外的信息用于分離音頻源信號(hào)的實(shí)施方式，而是在一些實(shí)施方式中，另外的信息用于生成分離的音頻源信號(hào)。例如，這種另外的信息可以是關(guān)于混合處理的信息、關(guān)于輸入音頻內(nèi)容中包括的音頻源的類型的信息、關(guān)于輸入音頻內(nèi)容中包括的音頻源的空間位置的信息等。

在(盲)源分離中，搜索在概率意義或者信息論意義上最小相關(guān)或者最大獨(dú)立的源信號(hào)，或者基于音頻源信號(hào)上的非負(fù)矩陣分解結(jié)構(gòu)約束可以找到源信號(hào)。例如，己知的用于執(zhí)行(盲)源分離的方法基于主成分分析、奇異值分解、獨(dú)立分量分析、非負(fù)矩陣分解等。

基于分離的音頻源信號(hào)和殘留信號(hào)，基于空間信息、抑制音頻源(例如樂(lè)器)以及減小/增加音頻源(例如樂(lè)器)的振幅中的至少一個(gè)，通過(guò)混合分離的音頻源信號(hào)和殘留信號(hào)生成輸出音頻內(nèi)容。

在圖1中示例性示出輸出音頻內(nèi)容并且輸出音頻內(nèi)容由參考標(biāo)號(hào)4表示。輸出音頻內(nèi)容表示基于分離的音頻源信號(hào)和殘留信號(hào)的音頻源1、2、…、K。如圖1所示，輸出音頻內(nèi)容可以包括多個(gè)音頻信道信號(hào)，其中輸出音頻內(nèi)容4包括五個(gè)音頻輸出信道信號(hào)4a至4d。在下文中，輸出音頻內(nèi)容中包括的音頻信道的數(shù)量也稱為“M_out”，并且因此，在圖1的示例性情況下，M_out＝5。

在圖1的實(shí)例中，輸入音頻內(nèi)容1的音頻信道的數(shù)量M_in＝2小于輸出音頻內(nèi)容4的音頻信道的數(shù)量M_out＝5，因此，從立體聲輸入音頻內(nèi)容1上混合至5.1環(huán)繞聲輸出音頻內(nèi)容4。

通常，在輸入音頻內(nèi)容的音頻信道的數(shù)量M_in等于輸出音頻內(nèi)容的音頻信道的數(shù)量M_out(即M_in＝M_out)的情況下混合分離的音頻源信號(hào)的處理可以稱為“再混合”，而在輸入音頻內(nèi)容的音頻信道的數(shù)量M_in小于輸出音頻內(nèi)容的音頻信道的數(shù)量M_out(即M_in<M_out)的情況下混合分離的音頻源信號(hào)的處理可以稱為“上混合”，并且在輸入音頻內(nèi)容的音頻信道的數(shù)量M_in大于輸出音頻內(nèi)容的音頻信道的數(shù)量M_out(即M_in>M_out)的情況下混合分離的音頻源信號(hào)的處理可以稱為“下混合”。本公開(kāi)不限于音頻信道的具體數(shù)量；各種再混合、上混合以及下混合可以實(shí)現(xiàn)。

如所提到的，基于空間信息(圖1和圖2中，也稱為“SI”)生成輸出音頻內(nèi)容。例如，空間信息可以包括由分離的音頻源信號(hào)表示的相應(yīng)音頻源的位置信息。位置信息可以指收聽(tīng)音頻內(nèi)容的虛擬用戶的位置。本領(lǐng)域內(nèi)這種虛擬用戶的位置也稱為“最佳聽(tīng)音位置”。在一些實(shí)施方式中，空間信息也可以從輸入音頻內(nèi)容推導(dǎo)。例如，輸入音頻內(nèi)容中包括的平移信息可以用作空間信息。此外，在一些實(shí)施方式中，用戶可以經(jīng)由界面例如圖形用戶界面選擇位置信息。然后例如，用戶可以在具體位置放置音頻源(例如，在左前方位置放置小提琴等)。

例如，作為技術(shù)人員通常己知的，第一音頻源可以位于這種最佳聽(tīng)音位置的前方，第二音頻源可以位于左角落，第三音頻源位于右角落等。因此，在一些實(shí)施方式中，生成輸出音頻內(nèi)容包括將空間位置分配至分離的音頻源信號(hào)中的每一個(gè)，使得當(dāng)在最佳聽(tīng)音位置收聽(tīng)輸出音頻內(nèi)容時(shí)，在所分配的空間位置處感知相應(yīng)的音頻源。

為了基于空間信息生成輸出音頻內(nèi)容，可以實(shí)現(xiàn)任何己知的空間渲染方法，例如，矢量基振幅平移(“VBAP”)、波場(chǎng)合成、高保真度立體聲響復(fù)制(ambisonics)等。

同樣如上所示，在一些實(shí)施方式中，輸入音頻內(nèi)容包括多個(gè)輸入音頻信號(hào)(例如圖1中，M_in＝2的音頻信號(hào)1a和音頻信號(hào)1b)，每一個(gè)輸入音頻信號(hào)表示一個(gè)音頻信道。生成輸出音頻內(nèi)容可以包括混合分離的音頻源信號(hào)(例如圖1中，分離的音頻源信號(hào)2a至2d)，使得輸出音頻內(nèi)容包括多個(gè)輸出音頻信號(hào)，每一個(gè)輸出音頻信號(hào)表示一個(gè)音頻信道(諸如圖1中，輸出音頻信號(hào)4a至4d)，其中，輸出音頻信號(hào)的數(shù)量M_out大于或等于輸入音頻信號(hào)的數(shù)量M_in。輸出音頻信號(hào)的數(shù)量M_out也可以低于輸入音頻信號(hào)的數(shù)量M_in。

如以下將更加詳細(xì)解釋，在一些實(shí)施方式中，調(diào)節(jié)分離的音頻源信號(hào)中的每一個(gè)的振幅，從而最小化殘留信號(hào)的能量或者振幅。

在一些實(shí)施方式中，生成輸出音頻內(nèi)容包括將空間位置分配至殘留信號(hào)，使得，例如，輸出音頻內(nèi)容包括關(guān)于最佳聽(tīng)音位置在預(yù)定空間位置處的混合殘留信號(hào)。例如，空間位置可以是虛擬房間的中心或者任何其他位置。在一些實(shí)施方式中，殘留信號(hào)也可以視為又一個(gè)分離的音頻源信號(hào)。

在一些實(shí)施方式中，生成輸出音頻內(nèi)容包括，基于分離的音頻源信號(hào)的數(shù)量將殘留信號(hào)劃分為多個(gè)分頻殘留信號(hào)并且將分頻殘留信號(hào)分別添加至分離的音頻源信號(hào)。因此，殘留信號(hào)可以均等地分布至分離的音頻源信號(hào)。

例如，在分離的源信號(hào)數(shù)量為L(zhǎng)的情況下，權(quán)重可以計(jì)算為

從而獲得數(shù)量為L(zhǎng)的分頻殘留信號(hào)r₁(n)、r₂(n)、…、r_L(n)，每一個(gè)信號(hào)具有權(quán)重因子

因此，在這個(gè)實(shí)施方式中，分頻殘留信號(hào)具有相同的權(quán)重。

由于殘留信號(hào)分布至所有分離的音頻源信號(hào)，在利用距最佳聽(tīng)音位置有不同距離的揚(yáng)聲器播放輸出音頻內(nèi)容的情況下，殘留信號(hào)的時(shí)間延遲將不明顯。在這種實(shí)施方式中，殘留信號(hào)以時(shí)間變量方式由所有分離的音頻源信號(hào)共享。

在一些實(shí)施方式中，分頻殘留信號(hào)中的每一個(gè)具有可變權(quán)重，例如時(shí)間依賴。在一些實(shí)施方式中，分頻殘留信號(hào)中的每一個(gè)具有一個(gè)可變權(quán)重，其中，不同的分頻殘留信號(hào)的權(quán)重彼此不同。

可變權(quán)重中的每一個(gè)可以取決于如下中的至少一個(gè)：相關(guān)的分離的音頻源信號(hào)的當(dāng)前內(nèi)容，相關(guān)的分離的音頻信號(hào)的先前內(nèi)容以及相關(guān)的分離的音頻信號(hào)的未來(lái)內(nèi)容。

每一個(gè)可變權(quán)重與要添加相應(yīng)的分頻殘留信號(hào)的相應(yīng)的分離的音頻源信號(hào)相關(guān)聯(lián)。例如，分離的音頻源信號(hào)可以以時(shí)間幀或者任何其他時(shí)間依賴塊劃分。因此，分離的音頻源信號(hào)的當(dāng)前內(nèi)容可以是分離的音頻源信號(hào)的當(dāng)前時(shí)間幀的內(nèi)容，分離的音頻源信號(hào)的先前內(nèi)容可以是分離的音頻源信號(hào)的一個(gè)或多個(gè)先前時(shí)間幀的內(nèi)容(時(shí)間幀不需要彼此連續(xù))，并且分離的音頻源信號(hào)的未來(lái)內(nèi)容可以是在分離的音頻源信號(hào)的當(dāng)前幀之后的一個(gè)或多個(gè)未來(lái)時(shí)間幀的內(nèi)容(時(shí)間幀不需要彼此連續(xù))。

在可變權(quán)重取決于相關(guān)的分離的音頻信號(hào)的未來(lái)內(nèi)容的實(shí)施方式中，可以以非實(shí)時(shí)方式進(jìn)行生成輸出音頻內(nèi)容，并且例如，分離的音頻源信號(hào)存儲(chǔ)在用于處理的存儲(chǔ)器中。

此外，可變權(quán)重也可以以模擬方式取決于殘留信號(hào)的當(dāng)前內(nèi)容、殘留信號(hào)的先前內(nèi)容以及殘留信號(hào)的未來(lái)內(nèi)容中的至少一個(gè)。

可以對(duì)可變權(quán)重和/或加權(quán)的分頻殘留信號(hào)進(jìn)行低通濾波以避免由于時(shí)變權(quán)重而造成的明顯的失真。

因此，在一些實(shí)施方式中，能夠添加更多殘留信號(hào)至其最可能屬于的相應(yīng)的分離的音頻源信號(hào)。

例如，可變權(quán)重可以與相關(guān)的分離的音頻源信號(hào)的能量(例如振幅)成比例。因此，能量(或者振幅)隨相關(guān)的分離的音頻源信號(hào)的能量(例如振幅)相應(yīng)地變化，即相關(guān)的分離的音頻源信號(hào)“越強(qiáng)”，相關(guān)的可變權(quán)重就越大。換言之，殘留信號(hào)基本上屬于具有最高能量的分離的音頻源信號(hào)。

可變權(quán)重還可取決于殘留信號(hào)與相關(guān)的分離的音頻源信號(hào)之間的相關(guān)性。例如，可變權(quán)重可以取決于當(dāng)前時(shí)間幀的殘留信號(hào)與先前時(shí)間幀或未來(lái)時(shí)間幀的相關(guān)的分離的音頻源信號(hào)之間的相關(guān)性?？勺儥?quán)重可以與通過(guò)當(dāng)前時(shí)間幀的殘留信號(hào)與先前時(shí)間幀或未來(lái)時(shí)間幀的相關(guān)的分離的音頻源信號(hào)之間的相關(guān)而獲得的平均相關(guān)值或者最大相關(guān)值成比例。在計(jì)算與相關(guān)的分離的音頻源信號(hào)的未來(lái)時(shí)間幀的相關(guān)性的情況下，例如，計(jì)算可以基于存儲(chǔ)的殘留信號(hào)和音頻源信號(hào)以非實(shí)時(shí)方式執(zhí)行。

在其他實(shí)施方式中，還可以實(shí)時(shí)地執(zhí)行(可變)權(quán)重的計(jì)算。

參考圖1，現(xiàn)在針對(duì)具體的數(shù)學(xué)辦法解釋以上描述的方法，而本公開(kāi)不限于這個(gè)具體辦法。

如所提到的，輸入音頻內(nèi)容(1，圖1)可以分離為或者解混合為數(shù)量為“L”的分離的音頻源在下文中也稱為從原始輸入音頻內(nèi)容中“分離”，其中“M”表示分離s₁(n)的音頻信道的數(shù)量并且n表示離散時(shí)間。通常，分離s₁(n)的音頻信道的數(shù)量M將等于輸入音頻內(nèi)容x(n)的音頻信道的數(shù)量M_in。當(dāng)音頻信道的數(shù)量大于一時(shí)分離s₁(n)和輸入音頻內(nèi)容x(n)是矢量。

如所討論的，可以利用任何合適的源分離方法完成將輸入音頻內(nèi)容1分離為L(zhǎng)個(gè)分離的音頻源信號(hào)2a至2d，并且其可以利用任意種分離法則完成。

出于清晰和簡(jiǎn)單而不限制本公開(kāi)于這方面的目的，在下文中假設(shè)樂(lè)器作為音頻源完成分離(其中，歌聲視為樂(lè)器)，使得例如，s₁(n)可以是吉他、s₂(n)可以是鍵盤(pán)等。

接下來(lái)，如果需要的話，即在M_in和/或M大于一的情況下，輸入音頻內(nèi)容還有分離的音頻源信號(hào)可以通過(guò)任何己知技術(shù)轉(zhuǎn)換為單信道格式即單聲道。在一些實(shí)施方式中，通常，輸入音頻內(nèi)容和分離的音頻源信號(hào)轉(zhuǎn)換為單聲道格式用于進(jìn)一步處理。

因此，矢量“分離的音頻源”s₁(n)和“輸入音頻內(nèi)容”x(n)轉(zhuǎn)換為標(biāo)量：

因此，例如，獲得如圖1所示的L個(gè)分離的音頻源信號(hào)2a至2d。

接下來(lái)，同樣如以上提到的，調(diào)節(jié)分離的音頻源信號(hào)s₁(n)(現(xiàn)在是單聲道格式)中的每一個(gè)的平均振幅以最小化殘留信號(hào)的能量。在一些實(shí)施方式中，這通過(guò)解以下最小平方問(wèn)題完成：

為了取消不同的分離s_l(n)之間的時(shí)間延遲，在一些實(shí)施方式中可以估計(jì)時(shí)移使得

最小化。

因此，可以通過(guò)從單聲道型輸入音頻信號(hào)x(n)中減去所有的L個(gè)分離的音頻源信號(hào)s_l(n)(l＝1、…、L)計(jì)算殘留信號(hào)r(n)，其中，分離的音頻源信號(hào)中的每一個(gè)利用與其相關(guān)的調(diào)節(jié)的平均振幅加權(quán)：

然后，例如，通過(guò)將其添加至調(diào)幅的分離的音頻源信號(hào)或者如上所述的任何其他方法，殘留信號(hào)r(n)可以結(jié)合(混合)到輸出音頻內(nèi)容中。

這同樣在圖1中示出，其中殘留信號(hào)r(n)和調(diào)幅的分離的音頻源信號(hào)基于空間信息“SI”利用己知的空間渲染方法混合，以便生成針對(duì)每一個(gè)音頻信道包含多個(gè)M_out音頻信號(hào)4a至4d的輸出音頻內(nèi)容4，其中，輸出音頻內(nèi)容4中的每一個(gè)音頻信號(hào)4a至4d包括如上所述混合的分離的音頻源信號(hào)2a至2d。因此，輸出音頻內(nèi)容4表示輸入音頻內(nèi)容1的K個(gè)音頻源。

在一些實(shí)施方式中，裝置包括配置為執(zhí)行本文中所描述的方法(具體如上所述)的一個(gè)或多個(gè)處理器。

在一些實(shí)施方式中，配置為執(zhí)行本文中所描述的方法(具體如上所述)的裝置，包括：音頻輸入，配置為接收表示混合音頻源的輸入音頻內(nèi)容；源分離器，配置為分離混合音頻源，從而獲得分離的音頻源信號(hào)和殘留信號(hào)；以及音頻輸出發(fā)生器，配置為基于空間信息通過(guò)混合分離的音頻源信號(hào)和殘留信號(hào)生成輸出音頻內(nèi)容。

在一些實(shí)施方式中，同樣如上所述，輸入音頻內(nèi)容包括多個(gè)輸入音頻信號(hào)，每一個(gè)輸入音頻信號(hào)表示一個(gè)音頻信道，并且其中，音頻輸出發(fā)生器進(jìn)一步配置為混合分離的音頻源信號(hào)使得輸出音頻內(nèi)容包括多個(gè)輸出音頻信號(hào)，每一個(gè)輸出音頻信號(hào)表示一個(gè)音頻信道，其中，輸出音頻信號(hào)的數(shù)量大于或等于輸入音頻信號(hào)的數(shù)量。

如上所述，裝置可以進(jìn)一步包括配置為調(diào)節(jié)分離的音頻源信號(hào)的振幅調(diào)節(jié)器，從而最小化殘留信號(hào)的振幅。

如上所述，在一些實(shí)施方式中，音頻輸出發(fā)生器進(jìn)一步配置為將空間位置分配至分離的音頻源信號(hào)和/或殘留信號(hào)中的每一個(gè)。

如上所述，音頻輸出發(fā)生器可以進(jìn)一步配置為基于分離的音頻源信號(hào)的數(shù)量將殘留信號(hào)劃分為多個(gè)分頻殘留信號(hào)，并且將分頻殘留信號(hào)分別添加至分離的音頻源信號(hào)。

在一些實(shí)施方式中，如上所述，分頻殘留信號(hào)具有相同的權(quán)重和/或它們具有可變權(quán)重。

如上所述，可變權(quán)重和/或殘留信號(hào)可以取決于如下中的至少一個(gè)：相關(guān)的分離的音頻信號(hào)的當(dāng)前內(nèi)容、相關(guān)的分離的音頻信號(hào)的先前內(nèi)容以及相關(guān)的分離的音頻信號(hào)的未來(lái)內(nèi)容，并且可變權(quán)重可以與相關(guān)的分離的音頻源信號(hào)的能量成比例，和/或與殘留信號(hào)及相關(guān)的分離的音頻源信號(hào)之間的相關(guān)性成比例。

裝置可以是環(huán)繞聲系統(tǒng)、音頻播放器、音頻視頻接收器、電視、計(jì)算機(jī)、便攜式設(shè)備(智能手機(jī)、膝上型電腦等)、游戲機(jī)等。

輸出音頻內(nèi)容可以是任何格式，即模擬/數(shù)字信號(hào)、數(shù)據(jù)文件等，并且其可以包括任何類型的音頻信道格式，諸如單聲道、立體聲、3.1、5.1、6.1、7.1、7.2環(huán)繞聲等。

在一些實(shí)施方式中，通過(guò)使用殘留信號(hào)，即使在分離為分離的音頻源信號(hào)導(dǎo)致聲音品質(zhì)劣化的情況下，與沒(méi)有殘留信號(hào)相比，輸出音頻內(nèi)容包含更少的偽影和/或至少被收聽(tīng)者所感知的更少的偽影。

此外，在一些實(shí)施方式中，不需要另外的關(guān)于混合處理和/或輸入音頻內(nèi)容的源的信息。

返回至圖2，示出了以5.1環(huán)繞聲系統(tǒng)形式的裝置10，其在下文中稱為“聲音系統(tǒng)10”。

聲音系統(tǒng)10具有用于接收輸入音頻信號(hào)5的輸入11。在本實(shí)例中，輸入音頻信號(hào)是立體聲格式并且具有左信道輸入音頻信號(hào)5a和右信道輸入音頻信號(hào)5b，5a和5b各自包括示例性的四個(gè)源1至4，源是純用于圖示目的的歌聲源1、吉他源2、貝斯源3以及鼓源4。

輸入11實(shí)現(xiàn)為立體聲束帶插頭(cinch plug)輸入，并且例如，其從光盤(pán)播放器(未示出)接收輸入音頻內(nèi)容5。

輸入音頻內(nèi)容5的兩個(gè)輸入音頻信號(hào)5a和5b饋入到聲音系統(tǒng)10的源分離器12中，源分離器12執(zhí)行如以上討論的源分離。

源分離器12針對(duì)輸入音頻內(nèi)容的四個(gè)源中的每一個(gè)生成作為輸出的四個(gè)分離的音頻源信號(hào)6，即用針對(duì)歌聲的第一分離的音頻源信號(hào)6a、針對(duì)吉他的第二分離的音頻源信號(hào)6b、針對(duì)貝斯的第三分離的音頻源信號(hào)6c以及針對(duì)鼓的第四分離的音頻源信號(hào)6d。

如上所述，兩個(gè)輸入音頻源信號(hào)5a和5b還有分離的音頻源信號(hào)6饋入到聲音系統(tǒng)10的單聲道轉(zhuǎn)換器13中，單聲道轉(zhuǎn)換器13將兩個(gè)輸入音頻源信號(hào)5a和5b還有分離的音頻源信號(hào)6轉(zhuǎn)換為單信道(單聲道)格式。

為了將兩個(gè)輸入音頻源信號(hào)5a和5b饋送至單聲道轉(zhuǎn)換器13，輸入11耦接至單聲道轉(zhuǎn)換器，而本公開(kāi)不限于這方面。例如，兩個(gè)輸入音頻源信號(hào)5a和5b還可以通過(guò)源分離器12饋入至單聲道轉(zhuǎn)換器13。

如上所述，單聲道型分離的音頻源信號(hào)饋入到聲音系統(tǒng)10的振幅調(diào)節(jié)器14中，振幅調(diào)節(jié)器14調(diào)節(jié)并且平均分離的音頻源信號(hào)的振幅。另外，如上所述，振幅調(diào)節(jié)器14取消分離的音頻源信號(hào)之間的任何時(shí)移。

如上所述，振幅調(diào)節(jié)器14還從單聲道型輸入音頻信號(hào)中減去所有的調(diào)幅的分離的音頻源信號(hào)，計(jì)算殘留信號(hào)7。

從而獲得的殘留信號(hào)7饋入到輸出音頻內(nèi)容發(fā)生器16的分頻器16中，并且調(diào)幅的分離的音頻源信號(hào)饋入到輸出音頻內(nèi)容發(fā)生器16的混合器18中。

分頻器16將殘留信號(hào)7劃分為對(duì)應(yīng)于分離的源信號(hào)的數(shù)量的多個(gè)分頻殘留信號(hào)，在本情況下該數(shù)量是四。

分頻殘留信號(hào)饋入到輸出音頻內(nèi)容發(fā)生器16的權(quán)重單元17中，權(quán)重單元17針對(duì)分頻殘留信號(hào)計(jì)算權(quán)重并且將權(quán)重添加至分頻殘留信號(hào)。

在本實(shí)施方式中，權(quán)重單元17根據(jù)以上描述的公式即計(jì)算權(quán)重，當(dāng)L＝4時(shí)在本情況下權(quán)重結(jié)果是1/2。當(dāng)然，在其他實(shí)施方式中，權(quán)重單元17和輸出音頻內(nèi)容發(fā)生器16可以分別適配為執(zhí)行用于計(jì)算權(quán)重(諸如以上討論的可變權(quán)重)的任何其他的方法。

如上所述，由此得到的權(quán)重分頻殘留信號(hào)也饋入混合器18中，混合器18基于空間信息SI并且基于己知的空間渲染方法，混合調(diào)幅的分離的音頻源信號(hào)和權(quán)重分頻殘留信號(hào)。

空間信息SI包括表示四個(gè)源歌聲、吉他、貝斯以及鼓的四個(gè)分離的音頻源信號(hào)中的每一個(gè)的空間位置。如所討論的，在其他實(shí)施方式中，空間信息SI還可以包括殘留信號(hào)的空間位置，例如，如以上討論的在殘留信號(hào)視為另一個(gè)源的情況下。

因此，輸出音頻內(nèi)容發(fā)生器16生成輸出音頻內(nèi)容8，輸出音頻內(nèi)容8經(jīng)由聲音系統(tǒng)10的輸出19輸出。

輸出音頻內(nèi)容8是以5.1環(huán)繞聲格式并且其具有五個(gè)音頻信道信號(hào)8a至8d，每一個(gè)音頻信道信號(hào)包括混合的源歌聲、吉他、貝斯以及鼓，音頻信道信號(hào)可以從輸出19饋入至相應(yīng)的揚(yáng)聲器(未示出)。

應(yīng)當(dāng)注意，將聲音系統(tǒng)10劃分為單元11至單元19僅用于圖示的目的并且本公開(kāi)不限于具體單元中的功能的具體劃分。例如，聲音系統(tǒng)10可以至少部分通過(guò)相應(yīng)的編程處理器、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)等實(shí)現(xiàn)。

用于生成輸出音頻內(nèi)容的方法30，例如，其可以通過(guò)以上討論的聲音系統(tǒng)10執(zhí)行，在下文中并參考圖3描述該方法。該方法也可以實(shí)現(xiàn)為當(dāng)在計(jì)算機(jī)和/或處理器上執(zhí)行時(shí)促使計(jì)算機(jī)和/或處理器執(zhí)行該方法的計(jì)算機(jī)程序。在一些實(shí)施方式中，還設(shè)置在其中存儲(chǔ)計(jì)算機(jī)程序產(chǎn)品的非瞬時(shí)性計(jì)算機(jī)可讀記錄介質(zhì)，當(dāng)通過(guò)處理器(諸如以上描述的處理器)執(zhí)行時(shí)，計(jì)算機(jī)程序產(chǎn)品促使執(zhí)行所描述的方法。

在31處，接收包括輸入音頻信號(hào)的輸入音頻內(nèi)容，諸如如上所述的輸入音頻內(nèi)容1或5。

如上所述，在32處，輸入音頻內(nèi)容中包括的混合音頻源分離為分離的音頻源信號(hào)。

如上所述，在33處，輸入音頻信號(hào)和分離的音頻源信號(hào)轉(zhuǎn)換為單信道格式即單聲道。

如上所述，在34處調(diào)節(jié)分離的音頻源信號(hào)的振幅，并且在35處通過(guò)從單聲道型輸入音頻信號(hào)中減去調(diào)幅的分離的音頻源信號(hào)的和，計(jì)算最終殘留信號(hào)。

如上所述，在36處最終殘留信號(hào)基于分離的音頻源信號(hào)的數(shù)量劃分為分頻殘留信號(hào)，并且在37處計(jì)算分頻殘留信號(hào)的權(quán)重。

如上所述，在38處，空間位置分配至分離的音頻源信號(hào)。

在39處基于權(quán)重分頻殘留信號(hào)、調(diào)幅的分離的音頻源信號(hào)以及空間信息，生成輸出音頻內(nèi)容諸如輸出音頻內(nèi)容4或輸出音頻內(nèi)容8(分別在圖1和圖2中)。

在一些實(shí)施方式中，如本文中所描述的方法也實(shí)現(xiàn)為當(dāng)在計(jì)算機(jī)和/或處理器上執(zhí)行時(shí)促使計(jì)算機(jī)和/或處理器執(zhí)行該方法的計(jì)算機(jī)程序。在一些實(shí)施方式中，還設(shè)置在其中存儲(chǔ)計(jì)算機(jī)程序產(chǎn)品的非瞬時(shí)性計(jì)算機(jī)可讀記錄介質(zhì)，當(dāng)通過(guò)處理器(諸如以上描述的處理器)執(zhí)行時(shí)，計(jì)算機(jī)程序產(chǎn)品促使執(zhí)行本文中所描述的方法。

如果不另外陳述，例如，本說(shuō)明書(shū)中描述的以及所附權(quán)利要求中要求保護(hù)的所有單元和實(shí)體可以在芯片上實(shí)現(xiàn)為集成電路邏輯，并且如果不另外陳述，由這樣的單元和實(shí)體提供的功能性可以通過(guò)軟件實(shí)現(xiàn)。

迄今為止，以上描述的本公開(kāi)的實(shí)施方式至少部分使用軟件控制的數(shù)據(jù)處理裝置實(shí)現(xiàn)，將認(rèn)識(shí)到，設(shè)置這種軟件控制的計(jì)算機(jī)程序以及提供這種計(jì)算機(jī)程序的傳輸、存儲(chǔ)或者其他介質(zhì)設(shè)想為本公開(kāi)的方面。

應(yīng)當(dāng)注意，本技術(shù)也可以如以下描述配置。

(1)一種方法，包括：

接收表示混合音頻源的輸入音頻內(nèi)容；

分離混合音頻源，從而獲得分離的音頻源信號(hào)和殘留信號(hào)；以及

通過(guò)混合分離的音頻源信號(hào)和殘留信號(hào)，生成輸出音頻內(nèi)容。

(2)根據(jù)(1)的方法，其中，基于空間信息執(zhí)行輸出音頻內(nèi)容的生成。

(3)根據(jù)(1)或(2)的方法，其中，輸入音頻內(nèi)容包括多個(gè)輸入音頻信號(hào)，每一個(gè)輸入音頻信號(hào)表示一個(gè)音頻信道，并且其中，生成輸出音頻內(nèi)容包括混合分離的音頻源信號(hào)使得輸出音頻內(nèi)容包括多個(gè)輸出音頻信號(hào)，每一個(gè)輸出音頻信號(hào)表示一個(gè)音頻信道，其中，輸出音頻信號(hào)的數(shù)量大于或等于輸入音頻信號(hào)的數(shù)量。

(4)根據(jù)(1)至(3)中任一項(xiàng)的方法，進(jìn)一步包括調(diào)節(jié)分離的音頻源信號(hào)的振幅，從而最小化殘留信號(hào)的振幅。

(5)根據(jù)(1)至(4)中任一項(xiàng)的方法，其中，生成輸出音頻內(nèi)容包括將空間位置分配至分離的音頻源信號(hào)中的每一個(gè)。

(6)根據(jù)(1)至(5)中任一項(xiàng)的方法，其中，生成輸出音頻內(nèi)容包括將空間位置分配至殘留信號(hào)。

(7)根據(jù)(1)至(6)中任一項(xiàng)的方法，其中，生成輸出音頻內(nèi)容包括基于分離的音頻源信號(hào)的數(shù)量將殘留信號(hào)劃分為多個(gè)分頻殘留信號(hào)，并且將分頻殘留信號(hào)分別添加至分離的音頻源信號(hào)。

(8)根據(jù)(7)的方法，其中，分頻殘留信號(hào)具有相同的權(quán)重。

(9)根據(jù)(7)的方法，其中，分頻殘留信號(hào)具有可變權(quán)重。

(10)根據(jù)(9)的方法，其中，可變權(quán)重取決于如下中的至少一個(gè)：相關(guān)的分離的音頻源信號(hào)的當(dāng)前內(nèi)容、相關(guān)的分離的音頻源信號(hào)的先前內(nèi)容以及相關(guān)的分離的音頻源信號(hào)的未來(lái)內(nèi)容。

(11)根據(jù)(9)或(10)的方法，其中，可變權(quán)重與相關(guān)的分離的音頻源信號(hào)的能量成比例。

(12)一種裝置，包括：

音頻輸入，配置為接收表示混合音頻源的輸入音頻內(nèi)容；

源分離器，配置為分離混合音頻源，從而獲得分離的音頻源信號(hào)和殘留信號(hào)；以及

音頻輸出發(fā)生器，配置為通過(guò)混合分離的音頻源信號(hào)和殘留信號(hào)生成輸出音頻內(nèi)容。

(13)根據(jù)(12)的裝置，其中，音頻輸出發(fā)生器配置為基于空間信息，通過(guò)混合分離的音頻源信號(hào)和殘留信號(hào)生成輸出音頻內(nèi)容。

(14)根據(jù)(12)或(13)的裝置，其中，輸入音頻內(nèi)容包括多個(gè)輸入音頻信號(hào)，每一個(gè)輸入音頻信號(hào)表示一個(gè)音頻信道，并且其中，音頻輸出發(fā)生器進(jìn)一步配置為混合分離的音頻源信號(hào)使得輸出音頻內(nèi)容包括多個(gè)輸出音頻信號(hào)，每一個(gè)輸出音頻信號(hào)表示一個(gè)音頻信道，其中，輸出音頻信號(hào)的數(shù)量大于或等于輸入音頻信號(hào)的數(shù)量。

(15)根據(jù)(12)至(14)中任一項(xiàng)的裝置，進(jìn)一步包括配置為調(diào)節(jié)分離的音頻源信號(hào)的振幅調(diào)節(jié)器，從而最小化殘留信號(hào)的振幅。

(16)根據(jù)(12)至(15)中任一項(xiàng)的裝置，其中，音頻輸出發(fā)生器進(jìn)一步配置為將空間位置分配至分離的音頻源信號(hào)中的每一個(gè)。

(17)根據(jù)(12)至(16)中任一項(xiàng)的裝置，其中，音頻輸出發(fā)生器進(jìn)一步配置為將空間位置分配至殘留信號(hào)。

(18)根據(jù)(12)至(17)中任一項(xiàng)的裝置，其中，音頻輸出發(fā)生器進(jìn)一步配置為基于分離的音頻源信號(hào)的數(shù)量將殘留信號(hào)劃分為多個(gè)分頻殘留信號(hào)，并且將分頻殘留信號(hào)分別添加至分離的音頻源信號(hào)。

(19)根據(jù)(18)的裝置，其中，分頻殘留信號(hào)具有相同的權(quán)重。

(20)根據(jù)(18)的裝置，其中，分頻殘留信號(hào)具有可變權(quán)重。

(21)根據(jù)(20)的裝置，其中，可變權(quán)重取決于如下中的至少一個(gè)：相關(guān)的分離的音頻源信號(hào)的當(dāng)前內(nèi)容、相關(guān)的分離的音頻源信號(hào)的先前內(nèi)容以及相關(guān)的分離的音頻源信號(hào)的未來(lái)內(nèi)容。

(22)根據(jù)(20)或(21)的裝置，其中，可變權(quán)重與相關(guān)的分離的音頻源信號(hào)的能量成比例。

(23)包括程序代碼的計(jì)算機(jī)程序，當(dāng)在計(jì)算機(jī)上執(zhí)行時(shí)促使計(jì)算機(jī)執(zhí)行根據(jù)(1)至(11)中任一項(xiàng)的方法。

(24)在其中存儲(chǔ)計(jì)算機(jī)程序產(chǎn)品的非瞬時(shí)性計(jì)算機(jī)可讀記錄介質(zhì)，當(dāng)通過(guò)處理器執(zhí)行時(shí)，計(jì)算機(jī)程序產(chǎn)品促使執(zhí)行根據(jù)(1)至(11)中任一項(xiàng)的方法。

(25)包括至少一個(gè)處理器的裝置，處理器配置為執(zhí)行根據(jù)(1)至(11)中任一項(xiàng)的方法。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3