亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

從音頻內(nèi)容基于投影提取音頻對(duì)象的制作方法

文檔序號(hào):11456665閱讀:253來(lái)源:國(guó)知局
從音頻內(nèi)容基于投影提取音頻對(duì)象的制造方法與工藝

相關(guān)申請(qǐng)的交叉引用

本申請(qǐng)要求于2014年12月22日提交的中國(guó)優(yōu)先權(quán)申請(qǐng)no.201410814937.9和于2015年1月27日提交的美國(guó)臨時(shí)專利申請(qǐng)no.62/108,254的優(yōu)先權(quán),這兩個(gè)申請(qǐng)通過(guò)引用被整體結(jié)合于此。

本文公開(kāi)的示例實(shí)施例總體涉及一種音頻內(nèi)容處理,并且更具體地,涉及一種用于從音頻內(nèi)容中提取音頻對(duì)象的方法和系統(tǒng)。



背景技術(shù):

傳統(tǒng)上,音頻內(nèi)容以基于聲道的格式來(lái)創(chuàng)建和存儲(chǔ)。在基于聲道的格式中,音頻內(nèi)容一般由聲道為媒介而被表示、存儲(chǔ)、傳遞并且分布。如這里所用,術(shù)語(yǔ)“音頻聲道”或者“聲道”指一般具有預(yù)定義物理位置的音頻內(nèi)容。例如,立體聲、環(huán)繞5.1、環(huán)繞7.1等都是用于該音頻內(nèi)容的基于聲道的格式。每個(gè)聲道對(duì)應(yīng)于固定位置的物理?yè)P(yáng)聲器。當(dāng)多聲道內(nèi)容被回放時(shí),多個(gè)揚(yáng)聲器創(chuàng)建圍繞聽(tīng)眾的實(shí)時(shí)和沉浸式聲場(chǎng)。近來(lái),若干傳統(tǒng)的多聲道系統(tǒng)已經(jīng)被擴(kuò)展為支持新格式,該新格式包括聲道和音頻對(duì)象二者。如這里所用,術(shù)語(yǔ)“音頻對(duì)象”或“對(duì)象”指在聲場(chǎng)中存在定義的持續(xù)時(shí)間的個(gè)體音頻元素。例如,音頻對(duì)象可以表示對(duì)話、槍聲、雷聲等。這些對(duì)象一般由混音器用來(lái)創(chuàng)建它們所期望的音效。每個(gè)對(duì)象在聲場(chǎng)中有其位置。例如,對(duì)話通常位于前方中央,而雷聲一般從頭頂發(fā)出。人們對(duì)對(duì)象的位置的感知是播放同一對(duì)象的音頻信號(hào)的多個(gè)揚(yáng)聲器的對(duì)決(firing)結(jié)果。例如,當(dāng)對(duì)象由左前方的揚(yáng)聲器和右前方的揚(yáng)聲器以相似能量級(jí)播放時(shí),人們將感知到來(lái)自前方中央的幻象(phantom)。

如上所述,當(dāng)以基于聲道的格式創(chuàng)建內(nèi)容時(shí),通常意味著感知體驗(yàn)由混音器針對(duì)特定的回放設(shè)置來(lái)優(yōu)化。然而,當(dāng)由不同的回放設(shè)置播放時(shí),其收聽(tīng)體驗(yàn)可能由于回放設(shè)置之間的失配而劣化。劣化的示例是對(duì)象的位置可能被改變。因而,基于聲道的格式不足以適配各種揚(yáng)聲器回放配置。低效率的另一方面存在于雙聲道渲染中,其中基于聲道的格式僅能夠使用有限數(shù)目的特定于揚(yáng)聲器位置的頭部關(guān)聯(lián)傳遞函數(shù)(hrtf);而對(duì)于其他位置,使用hrtf的插值,這劣化了雙聲道收聽(tīng)體驗(yàn)。

解決這一問(wèn)題的潛在方法是從基于聲道的表示中恢復(fù)原始的源(或者對(duì)象),包括它們的位置和單聲道干凈的波形,并繼而使用位置作為元數(shù)據(jù)來(lái)引導(dǎo)揚(yáng)聲器回放設(shè)備的平移(panning)算法,以實(shí)時(shí)重新渲染該對(duì)象并且創(chuàng)建與原始聲音圖像類似的聲音圖像。對(duì)于雙聲道渲染設(shè)置(代替使用有限數(shù)目的hrtf的是),位置可以被用來(lái)選擇最為合適的hrtf以進(jìn)一步增強(qiáng)收聽(tīng)體驗(yàn)。

然而,處于基于聲道的表示中的對(duì)象——該對(duì)象將用元數(shù)據(jù)來(lái)渲染——并不總是干凈的。其可能同時(shí)混合有一些聲道內(nèi)的其他對(duì)象。例如,為了實(shí)現(xiàn)藝術(shù)家意圖,混音器可能將兩個(gè)對(duì)象同時(shí)放在收聽(tīng)者前方,一個(gè)對(duì)象表現(xiàn)為在中央和左前方之間,而另一個(gè)對(duì)象在中央和右前方之間的某一位置。這能使得中央前方聲道包含兩個(gè)對(duì)象。如果不使用源分離技術(shù),則這兩個(gè)對(duì)象將被視為一個(gè)對(duì)象,這將使得它們的位置估計(jì)不正確。

因此,為了得到干凈的對(duì)象并且估計(jì)它的位置,需要源分離技術(shù)來(lái)將對(duì)象從其多聲道混合中分離以產(chǎn)生干凈的多聲道或單聲道表示。在上述示例中,例如期望單個(gè)多聲道輸入被源分離部件分割成兩個(gè)多聲道或單聲道輸出,每個(gè)僅包含一個(gè)干凈的對(duì)象。



技術(shù)實(shí)現(xiàn)要素:

為了解決前述和其他潛在問(wèn)題,本文公開(kāi)的示例實(shí)施例提出用于從音頻內(nèi)容提取音頻對(duì)象的方法和系統(tǒng)。

在一個(gè)方面中,示例實(shí)施例提供一種用于從音頻內(nèi)容中提取音頻對(duì)象的方法,所述音頻內(nèi)容由多個(gè)聲道的音頻信號(hào)表示。該方法包括標(biāo)識(shí)第一投影空間集合,所述第一投影空間集合包括用于所述多個(gè)聲道中的第一聲道的第一子集和用于所述多個(gè)聲道中的第二聲道的第二子集。該方法進(jìn)一步包括確定所述第一聲道和所述第二道之間的第一相關(guān)性集合,所述第一相關(guān)性集合中的每個(gè)相關(guān)性對(duì)應(yīng)于所述第一投影空間子集中的一個(gè)投影空間和所述第二投影空間子集中的一個(gè)投影空間。該方法還包括至少部分地基于所述第一相關(guān)性集合中的第一相關(guān)性和來(lái)自所述第一子集的對(duì)應(yīng)于所述第一相關(guān)性的投影空間來(lái)從所述第一聲道的音頻信號(hào)中提取音頻對(duì)象,所述第一相關(guān)性大于第一預(yù)定義閾值。實(shí)施例就此而言進(jìn)一步包括對(duì)應(yīng)的計(jì)算機(jī)程序產(chǎn)品。

在另一方面,示例實(shí)施例提供用于從音頻內(nèi)容中提取音頻對(duì)象的系統(tǒng),所述音頻內(nèi)容由多個(gè)聲道的音頻信號(hào)表示,所述系統(tǒng)包括:標(biāo)識(shí)單元,被配置為標(biāo)識(shí)第一投影空間集合,所述第一投影空間集合包括用于所述多個(gè)聲道中的第一聲道的第一子集和用于所述多個(gè)聲道中的第二聲道的第二子集。該系統(tǒng)進(jìn)一步包括確定單元,被配置為確定所述第一聲道和所述第二聲道之間的第一相關(guān)性集合,所述第一相關(guān)性集合中的每個(gè)相關(guān)性對(duì)應(yīng)于所述第一投影空間子集中的一個(gè)投影空間和所述第二投影空間子集中的一個(gè)投影空間。該系統(tǒng)還包括提取單元,被配置為至少部分地基于所述第一相關(guān)性集合中的第一相關(guān)性和來(lái)自所述第一子集的對(duì)應(yīng)于所述第一相關(guān)性的投影空間來(lái)從所述第一聲道的音頻信號(hào)中提取音頻對(duì)象,所述第一相關(guān)性大于第一預(yù)定義閾值。

通過(guò)下文描述,將理解根據(jù)本文公開(kāi)的示例實(shí)施例,音頻對(duì)象能夠從基于多聲道的音頻內(nèi)容的音頻信號(hào)中的每個(gè)音頻信號(hào)中被分離。以此方式,音頻內(nèi)容輸入有可能適配于各種回放配置而不劣化收聽(tīng)體驗(yàn)。由示例實(shí)施例獲得的其他優(yōu)點(diǎn)將通過(guò)以下描述而變得清楚。

附圖說(shuō)明

通過(guò)參考附圖的以下詳細(xì)描述,示例實(shí)施例的上述和其他目標(biāo)、特點(diǎn)和優(yōu)點(diǎn)將變得更可理解。在附圖中,若干示例實(shí)施例將以示例和非限制性的方式來(lái)闡述,其中:

圖1圖示了基于多個(gè)聲道的格式的音頻信號(hào)片段的示例;

圖2圖示了根據(jù)示例實(shí)施例的從音頻內(nèi)容提取音頻對(duì)象的方法的流程圖;

圖3圖示了根據(jù)示例實(shí)施例的從音頻內(nèi)容提取音頻對(duì)象的系統(tǒng)300的框圖;并且

圖4圖示了適合用于實(shí)現(xiàn)示例實(shí)施例的示例計(jì)算機(jī)系統(tǒng)的框圖。

貫穿附圖,相同或?qū)?yīng)的附圖標(biāo)記指代相同或?qū)?yīng)的部分。

具體實(shí)施方式

現(xiàn)在將參考附圖中所圖示的各種示例實(shí)施例來(lái)描述示例實(shí)施例的原理。應(yīng)當(dāng)理解,對(duì)這些實(shí)施例的描述僅用于使得本領(lǐng)域技術(shù)人員更好地理解并進(jìn)一步實(shí)現(xiàn)示例實(shí)施例,而不是旨在以任何方式限制本文公開(kāi)的示例實(shí)施例的范圍。還應(yīng)當(dāng)理解術(shù)語(yǔ)“第一”、“第二”等被用于指示不同的對(duì)象,而不是表明針對(duì)該對(duì)象的順序的任何限制。

如上所述,傳統(tǒng)的基于聲道的音頻內(nèi)容不足以適配各種回放設(shè)置。具體而言,當(dāng)回放設(shè)置與混音器的配置失配時(shí),由回放設(shè)置所表示的收聽(tīng)體驗(yàn)將被劣化。此外,用回放設(shè)置來(lái)表示該音頻內(nèi)容同時(shí)保留藝術(shù)家意圖也對(duì)對(duì)象分離技術(shù)帶來(lái)挑戰(zhàn)。

因此,期待從基于聲道的音頻內(nèi)容盡可能干凈地提取音頻對(duì)象。圖1圖示了基于多個(gè)聲道的格式的音頻信號(hào)的片段的示例。如圖1所示,音頻信號(hào)100的片段在時(shí)域和頻域中表示。在由水平軸表示的時(shí)域中,音頻信號(hào)100的片段可以包含沿時(shí)間軸t的若干幀。

一幀例如可以是從tl到t2的時(shí)間長(zhǎng)度。為了便于后續(xù)在對(duì)象提取中的計(jì)算和處理,一幀音頻信號(hào)可以沿時(shí)間軸被進(jìn)一步劃分成(在圖1中由虛線示出)多個(gè)部分。另一方面,在由垂直軸表示的頻域中,音頻信號(hào)100的片段表示全頻帶信號(hào),為了便于后續(xù)在對(duì)象提取中的計(jì)算和處理,該全頻帶信號(hào)也同樣能夠沿著頻域被劃分成多個(gè)子帶。許多可用的頻譜轉(zhuǎn)換技術(shù)可以被應(yīng)用于子帶劃分中,諸如快速傅里葉變換(fft)或復(fù)雜正交鏡像濾波器(cqmf)??紤]到人類聽(tīng)覺(jué)系統(tǒng)的特點(diǎn),在頻域中的劃分可能不是均勻的,而是在低頻部分更為精細(xì),而在高頻部分更為粗略。如圖1所示,音頻信號(hào)100與多個(gè)聲道——例如,聲道c1至c5——相關(guān)。換而言之,輸入音頻信號(hào)100包括多個(gè)音頻信號(hào)成分,該多個(gè)音頻信號(hào)成分中的每個(gè)音頻信號(hào)成分對(duì)應(yīng)于聲道c1至c5之一。因此,本文中的音頻內(nèi)容可以是基于多個(gè)聲道的全頻帶音頻信號(hào)片段或子帶音頻信號(hào)片段。片段可以是但不限于一幀、一幀的一部分、兩幀或更多。在一些示例實(shí)施例中,音頻內(nèi)容可以包括通過(guò)在頻域和時(shí)域中的至少一個(gè)中劃分全頻帶音頻信號(hào)幀而獲得的一個(gè)或多個(gè)音頻塊。根據(jù)示例實(shí)施例,如果期望對(duì)一個(gè)音頻塊(例如,塊b1)執(zhí)行對(duì)象提取,則其上方的相鄰m個(gè)塊和下方的相鄰m個(gè)塊也通常納入考慮。在一些示例實(shí)施例中,m可以被設(shè)置為1。在這點(diǎn)上,塊b0至b2被一起納入考慮并且它們的整體構(gòu)成將要處理的音頻內(nèi)容,該塊b0至b2中的每一個(gè)基于聲道c1至c5。

圖2圖示根據(jù)示例實(shí)施例的用于從音頻內(nèi)容中提取音頻對(duì)象的方法200的流程圖。如上所示,音頻內(nèi)容由多個(gè)聲道的音頻信號(hào)所表示。

如所示出的,在步驟s201標(biāo)識(shí)出第一投影空間集合,該第一投影空間集合包括用于該多個(gè)聲道中的第一聲道的第一子集和用于該多個(gè)聲道中的第二聲道的第二子集。在一些示例實(shí)施例中,第一聲道和第二聲道可以是該多個(gè)聲道中的任意聲道;而在其他示例實(shí)施例中,它們可以基于一些標(biāo)準(zhǔn)進(jìn)行選擇,這將在后文中示出。

目前所知,聲道的音頻信號(hào)可以被投影到多個(gè)空間來(lái)獲得相應(yīng)分量。為了便于說(shuō)明并且并非出于限制,假定針對(duì)音頻內(nèi)容的第一聲道和第二聲道的音頻信號(hào)表示分別生成矩陣x∈rd×n和y∈rk×n,其中d和k表示包含在各音頻信號(hào)中的沿頻率軸的子帶劃分的數(shù)目(通常d=k),并且n表示在音頻信號(hào)中沿時(shí)間軸劃分的部分的數(shù)目。也就是說(shuō),x和y表示分別來(lái)自第一聲道和第二聲道的音頻內(nèi)容的音頻信號(hào)。則投影向量ωx和ωy可以用來(lái)將x和y投影到各投影空間,其中ωx∈rd且ωy∈rk。換而言之,可以表示針對(duì)x和y投影在各投影空間中的分量,其中分別是ωx和ωy的轉(zhuǎn)置。此外,對(duì)于多個(gè)ωx,存在使用每個(gè)ωx來(lái)投影x所獲得的對(duì)應(yīng)多個(gè)空間。為了容易區(qū)分并且并不作為限制,這些多個(gè)空間的集合被稱為步驟s201中的用于第一聲道的第一子集。類似地,對(duì)于多個(gè)ωy,存在使用每個(gè)ωy來(lái)投影y所獲得的對(duì)應(yīng)多個(gè)空間。為了容易區(qū)分并且并不作為限制,這些多個(gè)空間的集合被稱為步驟s201中的用于第二聲道的第二子集。在一些示例中,第一子集和第二子集的合集構(gòu)成了第一投影空間集合。

應(yīng)當(dāng)注意到的是,盡管第一投影空間集合一般包括用于第一聲道和第二聲道的多個(gè)投影空間,其也可以僅包括一個(gè)空間。在這種情況下,用于x的投影空間和用于y的投影空間是同一投影空間。示例實(shí)施例的范圍在這點(diǎn)上不受限制。

方法繼而前進(jìn)到步驟s202,其中確定該第一聲道和該第二聲道之間的第一相關(guān)性集合,并且該第一相關(guān)性集合中的每個(gè)相關(guān)性對(duì)應(yīng)于所述第一投影空間子集中的一個(gè)投影空間和所述第二投影空間子集中的一個(gè)投影空間。

在包括第一投影空間子集和第二投影空間子集的第一投影空間集合被標(biāo)識(shí)出之后,可以基于一些標(biāo)準(zhǔn)而分別從第一投影空間子集和第二投影空間子集中選擇一對(duì)投影空間,以有助于對(duì)象提取。根據(jù)示例實(shí)施例,具體而言,假定x和y二者中存在共同的對(duì)象、但被其他源或噪聲所污染,期望找到用于x和y的相應(yīng)投影空間,其中更易于從x或y中分離出共同的對(duì)象。

根據(jù)示例實(shí)施例,針對(duì)每對(duì)投影空間來(lái)計(jì)算相關(guān)性,由此形成了相關(guān)性集合(即,步驟s202的第一相關(guān)性集合),其中該對(duì)投影空間中的一個(gè)投影空間選自第一子集,而該對(duì)投影空間中的另一投影空間選自第二子集。例如,x和y之間關(guān)于ωx和ωy的相關(guān)性ρ可以如下計(jì)算:

其中,ωx和ωy的含義與前文所述保持相同,ωx∈rd且ωy∈rk。

繼續(xù)參考圖2,在步驟s203,至少部分地基于該第一相關(guān)性集合中的第一相關(guān)性和來(lái)自所述第一子集的對(duì)應(yīng)于該第一相關(guān)性的投影空間來(lái)從該第一聲道的音頻信號(hào)中提取音頻對(duì)象,其中該第一相關(guān)性大于第一預(yù)定義閾值。

根據(jù)示例實(shí)施例,第一預(yù)定義閾值可以根據(jù)需要在任何時(shí)間被設(shè)置和調(diào)整。在示例實(shí)施例中,第一預(yù)定義閾值可以被設(shè)置為僅小于第一相關(guān)性集合中的最大相關(guān)性而大于其他相關(guān)性。在這一情況下,步驟s203的目標(biāo)是找出最大的ρ,從而進(jìn)一步標(biāo)識(shí)出ωx和ωy以用于對(duì)象提取。因此,在步驟s203中旨在:

使得

其中,xt、yt、分別是x、y、ωx、ωy的轉(zhuǎn)置。

如果yyt非奇異,則可以示出ωx可以通過(guò)求解以下優(yōu)化問(wèn)題來(lái)獲得:

使得

換而言之,上述公式嘗試找到對(duì)應(yīng)于以下廣義的特征值問(wèn)題的頂部特征值的特征向量:

xyt(yyt)-1yxtωx=ηxxtωx(4)

其中,η表示對(duì)應(yīng)于特征向量ωx的特征值。

如上所述,根據(jù)一些示例實(shí)施例,可能存在多個(gè)通常處于正交約束下的投影向量ωx和ωy,則這些多個(gè)投影向量可以通過(guò)求解以下優(yōu)化問(wèn)題來(lái)同時(shí)被計(jì)算:

使得

其中wx∈rd×l表示投影矩陣,l表示投影向量的數(shù)目,并且i表示單位矩陣。

總而言之,對(duì)于第一聲道和第二聲道的音頻輸入,確定wx、wy和它們之間對(duì)應(yīng)的相關(guān)性r以便為對(duì)象提取作準(zhǔn)備,其中并且表示列向量,其可以被用作投影空間的基。r表示僅在其對(duì)角線具有非零元素(即,ρ)的相關(guān)性方陣。對(duì)于r中的第i個(gè)非零對(duì)角線元素ρi,其度量之間的相似度得分。應(yīng)當(dāng)注意到,表示n維向量,其中n是音頻信號(hào)的片段內(nèi)的部分的數(shù)目。因此,這一度量反映了基于音頻塊的音頻內(nèi)容的相似度。如上所述,通過(guò)將x和y投影到它們各自的投影空間(在該空間中x和y的分量示出其之間的高相關(guān)性),可以觀察到x和y之間的較高相似度,并且因此可以提取x和y之間的共同對(duì)象。

例如,對(duì)于第i個(gè)投影空間,可以經(jīng)由以下公式從x恢復(fù)對(duì)象

繼而,針對(duì)包含l個(gè)投影向量(對(duì)應(yīng)于來(lái)自第一子集的l個(gè)投影空間)的wx,可以按照如下備選公式來(lái)計(jì)算x*:

x*=fx(8)

其中引入h來(lái)表示在其對(duì)角線具有非零元素、而其對(duì)角線之外的所有元素均為零的對(duì)角線加權(quán)矩陣。h的引入有利于區(qū)分投影向量對(duì)于恢復(fù)x*的貢獻(xiàn)。具體而言,對(duì)于特定的一對(duì)投影空間,x和y越相似,h將越高。因此,可以從該特定的一對(duì)投影空間中分別提取更多的x和y。

根據(jù)本文公開(kāi)的示例實(shí)施例,一種用于確定h的對(duì)角線值的潛在的方法是根據(jù)相關(guān)性矩陣r來(lái)設(shè)置它們。如上所述,r的對(duì)角線元素反映被映射到由w(例如,wx或wy)的列向量構(gòu)建的投影空間的一對(duì)聲道之間的相似度。因此,更高的相似度得分指示相同的對(duì)象存在、并且能夠從這些空間被恢復(fù)的更高可能性。因此,從具有高相似度得分的那些空間中提取“更多”對(duì)象是合理的,也就是說(shuō),h可以通過(guò)r的適當(dāng)函數(shù)來(lái)表現(xiàn),即:

h=f(r)(9)

其中,函數(shù)f可以是任何其值不隨輸入值的增加而減少的函數(shù)。例如,h可以是歸一化的r,其中對(duì)角線元素的總和等于1。

如上所述,第一聲道和第二聲道可以是該多個(gè)聲道中的任意聲道。也就是說(shuō),盡管在步驟s203中從第一聲道的音頻信號(hào)提取對(duì)象被示出為關(guān)于第二聲道來(lái)執(zhí)行,但其實(shí)質(zhì)上可以相對(duì)于來(lái)自該多個(gè)聲道的任何聲道來(lái)執(zhí)行。此外,盡管在步驟s203中描述為針對(duì)第一聲道的音頻信號(hào)提取音頻對(duì)象,但類似的操作也可以應(yīng)用于第二聲道以便也針對(duì)第二聲道的音頻信號(hào)執(zhí)行對(duì)象提取。也就是說(shuō),針對(duì)第二聲道的音頻信號(hào)的對(duì)象提取可以關(guān)于第一聲道來(lái)執(zhí)行,或者關(guān)于來(lái)自該多個(gè)聲道的任何其他聲道來(lái)執(zhí)行,出于簡(jiǎn)要的目的不在此詳述。示例實(shí)施例的范圍在這點(diǎn)上不受限制。

備選地,在一些示例實(shí)施例中,第一聲道和第二聲道可以基于一些標(biāo)準(zhǔn)來(lái)選擇。例如,這兩個(gè)聲道可以從一個(gè)聲道群組中選擇,該聲道群組通過(guò)基于多個(gè)聲道之間的相關(guān)性將該多個(gè)聲道聚類而獲得。在一些示例實(shí)施例中,本文中的該多個(gè)聲道中的一對(duì)聲道之間的相關(guān)性指該對(duì)聲道之間的總體相關(guān)性。例如,該多個(gè)聲道中的該對(duì)聲道之間的這一相關(guān)性可以通過(guò)如下步驟來(lái)獲得:

首先,標(biāo)識(shí)出用于該對(duì)聲道的第二投影空間集合,該第二投影空間集合包括用于該對(duì)聲道中的一個(gè)聲道的第三子集和用于該對(duì)聲道中的另一聲道的第四子集。作為示例,這一步驟可以以類似于步驟s201的方式來(lái)實(shí)現(xiàn)并且在此不再詳述。應(yīng)當(dāng)注意,第二投影空間集合可以不同于第一投影空間集合,但在某些情況下它們也可以相同。

然后,確定該對(duì)聲道之間的第二相關(guān)性集合,其中該第二相關(guān)性集合中的每個(gè)相關(guān)性對(duì)應(yīng)于該第三投影空間子集中的一個(gè)投影空間和該第四投影空間子集中的一個(gè)投影空間。同樣,這一步驟可以以類似于步驟s202的方式來(lái)實(shí)現(xiàn)。例如,對(duì)于分別從該對(duì)聲道中的每一個(gè)聲道的音頻信號(hào)生成的矩陣x和y,公式(1)被用于計(jì)算第二相關(guān)性集合中的每個(gè)相關(guān)性。此外,第一相關(guān)性集合和第二相關(guān)性集合對(duì)于不同對(duì)聲道而言一般不同。

接下來(lái),選擇該第二相關(guān)性集合中的一個(gè)相關(guān)性作為該對(duì)聲道之間的所述相關(guān)性,其中所選擇的相關(guān)性大于第二預(yù)定義閾值。這一選擇步驟可以以類似于步驟s203中對(duì)第一相關(guān)性的選擇的方式來(lái)實(shí)現(xiàn)并且不在此詳述。例如,其可以經(jīng)由公式(2)-(5)來(lái)實(shí)現(xiàn)。第二預(yù)定義閾值也可以根據(jù)需要在任何時(shí)間被設(shè)置和調(diào)整。在示例實(shí)施例中,第二預(yù)定義閾值可以被設(shè)置為僅小于第二相關(guān)性集合中的最大相關(guān)性而大于其他相關(guān)性。在這一情況下,這一步驟將第二相關(guān)性集合中的最大相關(guān)性選擇作為該對(duì)聲道之間的相關(guān)性。

在計(jì)算該多個(gè)聲道的相關(guān)性之后,根據(jù)一些示例實(shí)施例,相互之間具有大于預(yù)定義閾值的相關(guān)性的聲道能夠被聚類成一個(gè)群組。該預(yù)定義閾值可以被解讀為各聚類之間所允許的最小相對(duì)相似度得分,并且可以在一段時(shí)間內(nèi)被設(shè)置為一個(gè)恒定值。因而,被聚類到一個(gè)群組的聲道示出高的組內(nèi)相似度;而被聚類成不同群組的聲道示出低組間相似度。因此,來(lái)自一個(gè)群組的聲道的音頻信號(hào)通常具有共同的對(duì)象,并且該共同對(duì)象的相關(guān)分量(即,步驟s203中的音頻對(duì)象)可以經(jīng)由步驟s201-s203針對(duì)每個(gè)聲道而被提取,從而生成多聲道對(duì)象,這將在后文詳細(xì)闡述。在一些示例實(shí)施例中,聲道群組的數(shù)目在聚類過(guò)程結(jié)束時(shí)自動(dòng)地確定。應(yīng)當(dāng)注意,如果該多個(gè)聲道中的各聲道彼此相似,或者該多個(gè)聲道中的每對(duì)聲道之間的相關(guān)性均大于預(yù)定義閾值,則可以將該多個(gè)聲道視為單個(gè)群組。

根據(jù)一些示例實(shí)現(xiàn),基于該多個(gè)聲道的相關(guān)性來(lái)聚類該多個(gè)聲道可以通過(guò)以下步驟來(lái)實(shí)現(xiàn):

·初始化(initialization):設(shè)置預(yù)定義閾值,計(jì)算按對(duì)相似度矩陣s,其中條目sij代表第i個(gè)聲道和第j個(gè)聲道之間的相似度,并且將每個(gè)聲道初始化為一個(gè)聚類,即c1,...,ct,其中,t表示聲道的數(shù)目。

·循環(huán)(loop):

о通過(guò)將每個(gè)聚類內(nèi)的聲道的按對(duì)相似度得分求平均來(lái)針對(duì)每個(gè)聚類計(jì)算聚類內(nèi)相似度得分,也就是說(shuō),其中nm表示第m個(gè)聚類的配對(duì)的數(shù)目。

о通過(guò)將分別存在于它們各自的聚類中的聲道的按對(duì)相似度得分求平均來(lái)針對(duì)每對(duì)聚類計(jì)算絕對(duì)聚類間相似度得分,即其中nmn表示第m個(gè)和第n個(gè)聚類之間配對(duì)的數(shù)目。

о通過(guò)將該絕對(duì)聚類間得分除以兩個(gè)聚類內(nèi)相似度得分的均值來(lái)針對(duì)每對(duì)聚類計(jì)算相對(duì)聚類間相似度得分,即,

о找出具有最大相對(duì)聚類間相似度得分的一對(duì)聚類。如果該最大得分小于預(yù)定義閾值,則結(jié)束該循環(huán);否則,將這兩個(gè)聚類合并成一個(gè)聚類。

·結(jié)束(end)

根據(jù)一些示例實(shí)施例,在第一聲道屬于包括三個(gè)或更多聲道的群組的情況下,存在多個(gè)用于第二聲道的候選。假設(shè)標(biāo)識(shí)出包括q個(gè)聲道[i1,...,ii-1,ii,ii+1,...,iq]的聲道群組。對(duì)于第ii個(gè)聲道,存在用于第ii個(gè)聲道的音頻對(duì)象提取的q-1個(gè)候選w,也就是說(shuō),因此,需要用于從這些候選中選擇w的標(biāo)準(zhǔn)。

如上所述,在一些示例實(shí)施例中,第二聲道可以是其中的任意聲道或隨機(jī)聲道。或者,在一些其他示例實(shí)施例中,從聲道群組中選擇第二聲道可以被執(zhí)行以使得第二聲道的音頻信號(hào)具有聲道群組中的最大能量。換而言之,可以將最具支配性的聲道選擇作為第二聲道。因此,對(duì)于第一聲道的對(duì)象提取,以及對(duì)于該群組內(nèi)的其他聲道的對(duì)象提取都可以關(guān)于第二聲道(即,最具支配性的聲道)來(lái)執(zhí)行。

如上所述,針對(duì)第二聲道的音頻信號(hào)的對(duì)象提取可以關(guān)于第一聲道,或者關(guān)于來(lái)自該多個(gè)聲道的任何其他聲道來(lái)執(zhí)行。作為備選,根據(jù)一些示例實(shí)施例并且不作為限制,在第二聲道具有聲道群組中的最大能量的情況下,有可能選擇一個(gè)參考聲道,而不是簡(jiǎn)單地選擇第一聲道來(lái)用于第二聲道的音頻信號(hào)的對(duì)象提取。例如,與第二聲道的相關(guān)性大于第三預(yù)定義閾值的聲道可以被選擇作為參考聲道。第三預(yù)定義閾值可以根據(jù)需要在任何時(shí)間被設(shè)置和調(diào)整。在示例實(shí)施例中,第三預(yù)定義閾值可以被設(shè)置為僅小于聲道群組中的最大相關(guān)性而大于其他相關(guān)性。在這一情況下,與第二聲道最為相關(guān)的聲道被選擇作為參考聲道。并且方法200的步驟s201至s203可以被應(yīng)用于第二聲道和參考聲道以用于第二聲道的音頻信號(hào)的音頻對(duì)象提取。

在一些示例實(shí)施例中,如果選擇第一聲道以使得第一聲道和第二聲道之間的相關(guān)性大于第三預(yù)定義閾值,則在這一情況下第一聲道就是參考聲道。因此,可以至少部分地基于在方法200的步驟s203中獲得的第一相關(guān)性和該第二子集中對(duì)應(yīng)于該第一相關(guān)性的投影空間來(lái)從第二聲道的音頻信號(hào)中提取音頻對(duì)象。

如上關(guān)于圖2所圖示的,可以在各種投影空間中針對(duì)每個(gè)聲道提取音頻對(duì)象。因此,在一些示例中,可以基于從來(lái)自一個(gè)聲道群組的聲道的音頻信號(hào)中提取的音頻對(duì)象來(lái)生成多聲道對(duì)象。根據(jù)一些另外的實(shí)施方式,引入“軟選通(soft-gating)”過(guò)程來(lái)驗(yàn)證和調(diào)整對(duì)象提取是有益的。

具體而言,引入“軟選通”過(guò)程來(lái)減少在一些情況下對(duì)一類對(duì)象的回放偏離了對(duì)原始表示的忠實(shí)性的風(fēng)險(xiǎn)。為了進(jìn)行“軟選通”過(guò)程,例如可以如下確定增益向量gb:

首先,至少部分地基于從第一聲道和第二聲道的音頻信號(hào)中提取的音頻對(duì)象來(lái)生成多聲道對(duì)象。根據(jù)示例實(shí)施例,一般地,多聲道對(duì)象可以基于從來(lái)自一個(gè)聲道群組的聲道的音頻信號(hào)提取的音頻對(duì)象來(lái)生成。

第二,所生成的多聲道對(duì)象可以使用本領(lǐng)域任何已知的方法來(lái)被混縮(down-mix)成單聲道表示(mono-representation)。接下來(lái)確定提取的對(duì)象的原始多聲道表示和該單聲道表示之間的混縮相似度。例如,混縮相似度可以如下計(jì)算:

其中,xi(b,t)是第i個(gè)聲道的表示,mi(b,t)是混縮單聲道表示,xi(b,t)*是xi(b,t)的共軛,是復(fù)數(shù)的絕對(duì)值,并且re()運(yùn)算意味著實(shí)部。b和t分別代表子帶索引和時(shí)間部分索引,即,頻域和時(shí)域中的相應(yīng)索引。單聲道表示和原始聲道表示之間的總體混縮相似度得分可以經(jīng)由如下計(jì)算:

或者備選地經(jīng)由如下來(lái)計(jì)算:

由混縮相似度sb控制的增益值gb,即可以如下表示:

應(yīng)當(dāng)理解,函數(shù)f(x)是x的單調(diào)增函數(shù)。f的定義的一個(gè)示例可以寫成如下公式:

通過(guò)將a的值設(shè)置為負(fù),f(x)變?yōu)閤的單調(diào)增函數(shù)。

根據(jù)一些示例實(shí)施例,所計(jì)算的增益值可以被應(yīng)用到公式(6)或(7)作為影響對(duì)x的對(duì)象提取的權(quán)重。也就是說(shuō),在步驟s203中從第一聲道的音頻信號(hào)中提取音頻對(duì)象的過(guò)程中,以及從第一聲道所屬的聲道群組中的任何其他聲道的音頻提取音頻對(duì)象的過(guò)程中,經(jīng)由公式(10)-(12)計(jì)算的混縮相似度也是除第一相關(guān)性或?qū)?yīng)的投影空間之外還要被考慮的因子。換而言之,在步驟s203從第一聲道的音頻信號(hào)中提取音頻對(duì)象還包括基于混縮相似度來(lái)提取該音頻對(duì)象。因此,公式(6)可以變形為:

公式(7)可以變形為:

并且公式(8)可以變形為:

x*=f'x(17)

根據(jù)示例實(shí)施例,除由混縮相似度sb控制的增益值之外或取而代之,增益向量gb還可以由以下步驟確定:在至少部分地基于從第一聲道的音頻信號(hào)和第二聲道的音頻信號(hào)中提取的音頻對(duì)象生成多聲道對(duì)象之后,所生成的多聲道對(duì)象被混縮成單聲道表示。繼而,該單聲道表示可以至少部分地基于相關(guān)的元數(shù)據(jù)(諸如估計(jì)的位置)來(lái)預(yù)渲染以生成“新的”(即,不同于原始多聲道對(duì)象的)多聲道音頻信號(hào)表示。隨后,確定所提取的對(duì)象的原始多聲道表示和預(yù)渲染的單聲道表示(即,新的多聲道音頻信號(hào)表示)之間在能量分布方面的預(yù)渲染相似度。

在一些示例實(shí)現(xiàn)中,這一預(yù)渲染相似度有可能由原始多聲道對(duì)象的能量分布和從該單聲道對(duì)象的預(yù)渲染所得到的能量分布之間的失配來(lái)反映。也就是說(shuō),失配越大,預(yù)渲染相似度越小。因此,可以將測(cè)量該失配的適當(dāng)度量設(shè)計(jì)如下:

或者備選地設(shè)計(jì)為:

其中分別代表傳統(tǒng)內(nèi)容的歸一化能量分布以及通過(guò)使用渲染器而從單聲道對(duì)象連同所估計(jì)的元數(shù)據(jù)預(yù)渲染所得到的能量分布,并且b和i分別代表子帶索引和聲道索引,即,在頻域和聲道域內(nèi)的相應(yīng)索引。應(yīng)當(dāng)注意,用渲染器預(yù)渲染的聲道配置與傳統(tǒng)內(nèi)容的聲道配置相同。例如,對(duì)于環(huán)繞5.1傳統(tǒng)內(nèi)容,預(yù)渲染的聲道配置也應(yīng)當(dāng)是環(huán)繞5.1。歸一化能量分布可以經(jīng)由以下公式來(lái)計(jì)算。

其中,代表用于第i個(gè)聲道的第b個(gè)子帶能量。

因此,由db控制的增益值gb(即,)能夠表示為:

其中,f(db)是db的單調(diào)減函數(shù)。

在一些示例實(shí)施例中,這一增益值也可以被應(yīng)用于公式(6)或(7)作為影響對(duì)x的對(duì)象提取的權(quán)重。也就是說(shuō),在步驟s203從第一聲道的音頻信號(hào)提取音頻對(duì)象的過(guò)程中(以及從第一聲道所屬的聲道群組的任何其他聲道的音頻中提取音頻對(duì)象的過(guò)程中),反映預(yù)渲染相似度且經(jīng)由公式(18)-(19)計(jì)算的該失配也是除第一相關(guān)性或?qū)?yīng)的投影空間之外還需要考慮的因子;或者除第一相關(guān)性、對(duì)應(yīng)的投影空間和混縮相似度之外還需要考慮的因子。也就是說(shuō),在步驟s203從第一聲道的音頻信號(hào)提取音頻對(duì)象還包括基于預(yù)渲染相似度來(lái)提取音頻對(duì)象。則公式(6)可以變形為:

公式(7)變形為:

并且公式(8)變形為

x*=f”x(26)

分別與混縮相似度和預(yù)渲染相似度相關(guān)聯(lián)的增益向量中至少一個(gè)的引入可以驗(yàn)證所提取的對(duì)象的回放是否偏離對(duì)原始表示的忠實(shí)性,以及所提取對(duì)象的回放是否保留了藝術(shù)家意圖。該偏離(如果有的話)至少可以指示例如在單聲道表示和原始多聲道表示之間存在音色失配。因此,所變形的公式(15)、(17)、(22)、(23)和(26)可以通過(guò)引入因子來(lái)減少偏離。

圖3示出了根據(jù)一個(gè)示例實(shí)施例的從音頻內(nèi)容提取音頻對(duì)象的系統(tǒng)300的框圖。本文中音頻內(nèi)容由多個(gè)聲道的音頻信號(hào)表示。如上所述,系統(tǒng)300包括標(biāo)識(shí)單元301,被配置為標(biāo)識(shí)第一投影空間集合,所述第一投影空間集合包括用于所述多個(gè)聲道中的第一聲道的第一子集和用于所述多個(gè)聲道中的第二聲道的第二子集。系統(tǒng)300還包括確定單元302,被配置為確定所述第一聲道和所述第二聲道之間的第一相關(guān)性集合,所述第一相關(guān)性集合中的每個(gè)相關(guān)性對(duì)應(yīng)于所述第一投影空間子集中的一個(gè)投影空間和所述第二投影空間子集中的一個(gè)投影空間。系統(tǒng)300也包括提取單元303,被配置為至少部分地基于所述第一相關(guān)性集合中的第一相關(guān)性和來(lái)自所述第一子集的對(duì)應(yīng)于所述第一相關(guān)性的投影空間來(lái)從所述第一聲道的音頻信號(hào)中提取音頻對(duì)象,所述第一相關(guān)性大于第一預(yù)定義閾值。

在一些實(shí)施例中,系統(tǒng)300可以進(jìn)一步包括:選擇單元,被配置為從一個(gè)聲道群組中選擇所述第一聲道和所述第二聲道,所述聲道群組通過(guò)基于所述多個(gè)聲道的相關(guān)性來(lái)對(duì)所述多個(gè)聲道進(jìn)行聚類而獲得。

在一些實(shí)施例中,所述多個(gè)聲道中的一對(duì)聲道之間的相關(guān)性通過(guò)如下來(lái)獲得:標(biāo)識(shí)第二投影空間集合,所述第二投影空間集合包括用于所述一對(duì)聲道中的一個(gè)聲道的第三子集和用于所述一對(duì)聲道中的另一聲道的第四子集;確定所述一對(duì)聲道之間的第二相關(guān)性集合,所述第二相關(guān)性集合中的每個(gè)相關(guān)性對(duì)應(yīng)于所述第三投影空間子集中的一個(gè)投影空間和所述第三投影空間子集中的一個(gè)投影空間;以及選擇所述第二相關(guān)性集合中的一個(gè)相關(guān)性作為所述一對(duì)聲道之間的所述相關(guān)性,選擇的所述相關(guān)性大于第二預(yù)定義閾值。

在一些實(shí)施例中,從所述聲道群組中選擇所述第一聲道和所述第二聲道包括:從所述聲道群組中選擇所述第二聲道,使得所述第二聲道的所述音頻信號(hào)具有在所述聲道群組中的最大能量。

在一些實(shí)施例中,從所述聲道群組中選擇所述第一聲道和所述第二聲道進(jìn)一步包括:從所述聲道群組中選擇所述第一聲道,使得所述第一聲道和所述第二聲道之間的所述相關(guān)性大于第三預(yù)定義閾值;以及至少部分地基于所述第一相關(guān)性和來(lái)自所述第二子集的對(duì)應(yīng)于所述第一相關(guān)性的所述投影空間而從所述第二聲道的音頻信號(hào)中提取音頻對(duì)象。

在一些實(shí)施例中,系統(tǒng)300進(jìn)一步包括:生成單元,被配置為至少部分地基于從所述第一聲道的音頻信號(hào)和所述第二聲道的音頻信號(hào)中提取的所述音頻對(duì)象來(lái)生成多聲道對(duì)象;混縮單元,被配置為將生成的所述多聲道對(duì)象混縮成單聲道表示;以及相似度確定單元,被配置為確定提取的所述對(duì)象的原始多聲道表示和所述單聲道表示之間的混縮相似度,其中,從所述第一聲道的所述音頻信號(hào)中提取所述音頻對(duì)象包括進(jìn)一步基于所述混縮相似度來(lái)提取所述音頻對(duì)象。

在一些備選實(shí)施例中,系統(tǒng)300可以進(jìn)一步包括:生成單元,被配置為至少部分地基于從所述第一聲道的音頻信號(hào)和所述第二聲道的音頻信號(hào)中提取的所述音頻對(duì)象來(lái)生成多聲道對(duì)象;混縮單元,被配置為將生成的所述多聲道對(duì)象混縮成單聲道表示;預(yù)渲染單元,被配置為至少部分地基于估計(jì)的位置來(lái)預(yù)渲染所述單聲道表示;以及相似度確定單元,被配置為確定提取的所述對(duì)象的原始多聲道表示和預(yù)渲染的所述單聲道表示之間在能量分布方面的預(yù)渲染相似度,其中,從所述第一聲道的所述音頻信號(hào)中提取所述音頻對(duì)象包括進(jìn)一步基于所述預(yù)渲染相似度來(lái)提取所述音頻對(duì)象。

在一些實(shí)施例中,所述音頻內(nèi)容可以包括通過(guò)在頻域和時(shí)域中的至少一個(gè)中劃分全頻帶音頻信號(hào)幀來(lái)獲得的一個(gè)或多個(gè)音頻塊。

為了清楚的目的,系統(tǒng)300的一些可選部件并未在圖3中示出。然而,應(yīng)當(dāng)理解參照?qǐng)D1-2所描述的特點(diǎn)都適用于系統(tǒng)300。此外,系統(tǒng)300的部件可以是硬件模塊或軟件單元模塊。例如,在某些實(shí)施例中,系統(tǒng)300可以部分或者全部地作為軟件和/或固件來(lái)實(shí)現(xiàn),例如被實(shí)現(xiàn)為包含在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品。備選地或附加地,系統(tǒng)300可以部分或者全部地基于硬件來(lái)實(shí)現(xiàn),例如被實(shí)現(xiàn)為集成電路(ic)、專用集成電路(asic)、片上系統(tǒng)(soc)、現(xiàn)場(chǎng)可編程門陣列(fpga)等。示例實(shí)施例的范圍在此方面不受限制。

圖4示出了適于用來(lái)實(shí)現(xiàn)示例實(shí)施例的示例計(jì)算機(jī)系統(tǒng)400的框圖。如圖4所示,計(jì)算機(jī)系統(tǒng)400包括中央處理單元(cpu)401,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(rom)402中的程序或者從存儲(chǔ)單元408加載到隨機(jī)訪問(wèn)存儲(chǔ)器(ram)403中的程序而執(zhí)行各種處理。在ram403中,還根據(jù)需要存儲(chǔ)有cpu401執(zhí)行各種處理等時(shí)所需的數(shù)據(jù)。cpu401、rom402以及ram403通過(guò)總線404彼此相連。輸入/輸出(i/o)接口405也連接至總線404。

以下部件連接至i/o接口405:包括鍵盤、鼠標(biāo)等的輸入單元406;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出單元407;包括硬盤等的存儲(chǔ)單元408;以及包括諸如lan卡的網(wǎng)絡(luò)接口卡、調(diào)制解調(diào)器等的通信單元409。通信單元409經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器410也根據(jù)需要連接至i/o接口405??刹鹦督橘|(zhì)411,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng)器410上,以便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)單元408。

特別地,根據(jù)示例實(shí)施例,上文參考圖2描述的過(guò)程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,示例實(shí)施例的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括有形地包含在機(jī)器可讀介質(zhì)上的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包含用于執(zhí)行方法200的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過(guò)通信單元409從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)411被安裝。

一般而言,各種示例實(shí)施例可以在硬件或?qū)S秒娐贰④浖?、邏輯,或其任何組合中實(shí)施。某些方面可以在硬件中實(shí)施,而其他方面可以在可以由控制器、微處理器或其他計(jì)算設(shè)備執(zhí)行的軟件或固件中實(shí)施。當(dāng)示例實(shí)施例的各方面被圖示或描述為框圖、流程圖或使用某些其他圖形表示時(shí),將理解此處描述的方框、裝置、系統(tǒng)、技術(shù)或方法可以作為非限制性的示例在硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其他計(jì)算設(shè)備,或其某些組合中實(shí)施。

而且,流程圖中所示的各種框可以被看作是方法步驟,和/或計(jì)算機(jī)程序代碼的操作生成的操作,和/或被構(gòu)造為執(zhí)行相關(guān)功能的多個(gè)耦合的邏輯電路元件。例如,實(shí)施例包括計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括有形地實(shí)現(xiàn)在機(jī)器可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含被配置為實(shí)現(xiàn)上文描述方法的程序代碼。

在公開(kāi)的上下文內(nèi),機(jī)器可讀介質(zhì)可以是包含或存儲(chǔ)用于或有關(guān)于指令執(zhí)行系統(tǒng)、裝置或設(shè)備的程序的任何有形介質(zhì)。機(jī)器可讀介質(zhì)可以是機(jī)器可讀信號(hào)介質(zhì)或機(jī)器可讀存儲(chǔ)介質(zhì)。機(jī)器可讀介質(zhì)可以包括但不限于電子的、磁的、光學(xué)的、電磁的、紅外的或半導(dǎo)體系統(tǒng)、裝置或設(shè)備,或其任意合適的組合。機(jī)器可讀存儲(chǔ)介質(zhì)的更詳細(xì)示例包括帶有一根或多根線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存儲(chǔ)存取器(ram)、只讀存儲(chǔ)器(rom)、可擦除可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式光盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)設(shè)備、磁存儲(chǔ)設(shè)備,或其任意合適的組合。

用于實(shí)現(xiàn)本文公開(kāi)的示例實(shí)施例的方法的計(jì)算機(jī)程序代碼可以用一種或多種編程語(yǔ)言的任何組合編寫。這些計(jì)算機(jī)程序代碼可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其他可編程的數(shù)據(jù)處理裝置的處理器,使得程序代碼在被計(jì)算機(jī)或其他可編程的數(shù)據(jù)處理裝置的處理器執(zhí)行的時(shí)候,引起在流程圖和/或框圖中規(guī)定的功能/操作被實(shí)施。程序代碼可以完全在計(jì)算機(jī)上、部分在計(jì)算機(jī)上、作為獨(dú)立的軟件包、部分在計(jì)算機(jī)上且部分在遠(yuǎn)程計(jì)算機(jī)上或完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。

另外,盡管操作以特定順序被描繪,但這并不應(yīng)該理解為要求此類操作以示出的特定順序或以相繼順序完成,或者執(zhí)行所有圖示的操作以獲取期望結(jié)果。在某些情況下,多任務(wù)和并行處理會(huì)是有益的。同樣地,盡管上述討論包含了某些特定的實(shí)施細(xì)節(jié),但這并不應(yīng)解釋為限制任何實(shí)施例或權(quán)利要求的范圍,而應(yīng)解釋為對(duì)可以針對(duì)特定實(shí)施例的特征的描述。本說(shuō)明書中在分開(kāi)的實(shí)施例的上下文中描述的某些特征也可以整合實(shí)施在單個(gè)實(shí)施例中。相反地,在單個(gè)實(shí)施例的上下文中描述的各種特征也可以分離地在多個(gè)實(shí)施例或在任意合適的子組合中實(shí)施。

針對(duì)前述本文公開(kāi)的示例實(shí)施例的各種修改、改變將在連同附圖查看前述描述時(shí)對(duì)相關(guān)技術(shù)領(lǐng)域的技術(shù)人員變得清楚。任何及所有修改將仍落入非限制的和本文公開(kāi)的示例實(shí)施例的范圍。此外,前述說(shuō)明書和附圖存在啟發(fā)的益處,涉及這些實(shí)施例的技術(shù)領(lǐng)域的技術(shù)人員將會(huì)想到此處闡明的其他實(shí)施例。

示例實(shí)施例可以通過(guò)在此描述的任何形式來(lái)實(shí)現(xiàn)。例如,以下的枚舉示例實(shí)施例(eee)描述了示例實(shí)施例的某些方面的某些結(jié)構(gòu)、特征和功能。

eee1.一種用于從音頻內(nèi)容提取音頻對(duì)象的方法,該音頻內(nèi)容為基于多個(gè)聲道的格式,該方法包括:

通過(guò)從投影空間中導(dǎo)出的濾波器矩陣來(lái)提取對(duì)象;以及

可選地軟選通以將附加的增益應(yīng)用到所提取的對(duì)象或?yàn)V波器矩陣以保留藝術(shù)家意圖。

eee2.根據(jù)eee1的方法,其中對(duì)于要執(zhí)行對(duì)象提取的每個(gè)音頻塊,

針對(duì)每個(gè)聲道輸入生成投影向量,并且每對(duì)聲道之間的最大相關(guān)性(相似度得分)通過(guò)將它們投影到投影空間來(lái)計(jì)算;

基于對(duì)應(yīng)的相關(guān)性(相似度得分)來(lái)對(duì)聲道分組;

對(duì)于群組內(nèi)的每個(gè)聲道,針對(duì)每個(gè)音頻塊導(dǎo)出濾波器矩陣;及

通過(guò)將每個(gè)聲道的輸入音頻信號(hào)乘以其自身的濾波器矩陣來(lái)恢復(fù)對(duì)象;

其中該音頻塊通過(guò)在頻域和時(shí)域中的至少一個(gè)中劃分全頻帶音頻信號(hào)幀而獲得。

eee3.根據(jù)eee2的方法,其中該投影向量集合通過(guò)使用當(dāng)前音頻塊和相鄰音頻塊,基于塊來(lái)形成。

eee4.根據(jù)eee3的方法,其中生成濾波器矩陣f包括選擇w和h,其中對(duì)h的選擇可以經(jīng)由公式(9)來(lái)進(jìn)行;并且

對(duì)w的選擇包括標(biāo)識(shí)出群組內(nèi)的第二聲道。

eee5.根據(jù)eee4的方法,其中對(duì)第二聲道的標(biāo)識(shí)基于聲道能量,例如,選擇群組中具有最大能量的聲道。

eee6.根據(jù)eee4的方法,其中針對(duì)第一聲道對(duì)w的選擇是關(guān)于第二聲道來(lái)選擇投影向量集合。

eee7.根據(jù)eee4的方法,其中針對(duì)第二聲道對(duì)w的選擇是關(guān)于在該群組中示出與該第二聲道具有最大相似度的聲道來(lái)選擇投影向量集合。

eee8.根據(jù)eee1的方法,其中該軟選通步驟包括針對(duì)每個(gè)音頻塊生成增益向量;并且該增益向量以按塊方式乘以音頻信號(hào)輸入來(lái)產(chǎn)生輸出。

eee9.根據(jù)eee8的方法,其中該增益向量被計(jì)算為分別生成自預(yù)混縮操作和預(yù)渲染操作的兩個(gè)子增益向量的乘積,即公式(22)。

eee10.根據(jù)eee9的方法,其中來(lái)自預(yù)混縮操作的該子增益向量可以通過(guò)公式(10)~(13)來(lái)計(jì)算。

eee11.根據(jù)eee9的方法,其中來(lái)自預(yù)渲染操作的該子增益向量可以通過(guò)公式(17)~(20)來(lái)計(jì)算。

eee12.一種用于從音頻內(nèi)容提取音頻對(duì)象的系統(tǒng),該音頻內(nèi)容為基于多個(gè)聲道的格式,該系統(tǒng)包括被配置為執(zhí)行eee1至11中任意方法的單元。

eee13.一種用于從音頻內(nèi)容提取音頻對(duì)象的計(jì)算機(jī)程序產(chǎn)品,計(jì)算機(jī)程序產(chǎn)品有形地存儲(chǔ)在非瞬態(tài)計(jì)算機(jī)可讀介質(zhì)上并且包括機(jī)器可執(zhí)行指令,該機(jī)器可執(zhí)行指令在執(zhí)行時(shí)使得該機(jī)器執(zhí)行eee1至11中任意方法的步驟。

將會(huì)理解,本文公開(kāi)的示例實(shí)施例不限于公開(kāi)的特定實(shí)施例,并且修改和其他實(shí)施例都應(yīng)包含于所附的權(quán)利要求范圍內(nèi)。盡管此處使用了特定的術(shù)語(yǔ),但是它們僅在通用和描述的意義上使用,而并不用于限制目的。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1