使用音頻對(duì)象的時(shí)間變化的音頻對(duì)象聚類(lèi)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及音頻對(duì)象聚類(lèi),更具體地,涉及用于在音頻對(duì)象聚類(lèi)中使用音 頻對(duì)象的時(shí)間變化的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 傳統(tǒng)上,音頻內(nèi)容W基于聲道(channel based)的格式被創(chuàng)建和存儲(chǔ)。在此使用 的術(shù)語(yǔ)"音頻聲道"或"聲道"是指通常具有預(yù)定義物理位置的音頻內(nèi)容。例如,立體聲、環(huán) 繞5. 1、環(huán)繞7. 1等都是用于音頻內(nèi)容的基于聲道的格式。近來(lái),很多傳統(tǒng)的多聲道系統(tǒng)已 經(jīng)被擴(kuò)展為支持一種新型格式,該種格式包括聲道和音頻對(duì)象二者。在此使用的術(shù)語(yǔ)"音 頻對(duì)象"或簡(jiǎn)稱(chēng)"對(duì)象"是指在聲場(chǎng)中存在特定持續(xù)時(shí)間的個(gè)體音頻元素。一個(gè)音頻對(duì)象 可W是動(dòng)態(tài)的也可W是靜態(tài)的。例如,音頻對(duì)象可W是人、動(dòng)物或者能夠充當(dāng)聲源的任何 其他元素。音頻對(duì)象和聲道可W被分開(kāi)發(fā)送,繼而由重現(xiàn)系統(tǒng)動(dòng)態(tài)使用W便基于回放設(shè)備 的配置來(lái)自適應(yīng)地重建創(chuàng)作意圖。作為示例,在稱(chēng)為"自適應(yīng)音頻內(nèi)容"(adaptive audio content)的格式中,可W存在一個(gè)或多個(gè)音頻對(duì)象W及一個(gè)或多個(gè)"靜態(tài)環(huán)境聲"(audio bed),靜態(tài)環(huán)境聲是將W預(yù)定義的、固定的位置進(jìn)行重現(xiàn)的聲道。
[0003] 通過(guò)創(chuàng)建更具沉浸感的聲場(chǎng)W及精準(zhǔn)地控制離散的音頻對(duì)象(無(wú)需考慮回放設(shè) 備的特定配置),基于對(duì)象的音頻內(nèi)容相對(duì)于傳統(tǒng)基于聲道的音頻內(nèi)容而言代表著顯著的 進(jìn)步。例如,在電影的音軌中可W包含多個(gè)不同聲音元素,W對(duì)應(yīng)于屏幕上畫(huà)面、對(duì)話(huà)、噪聲 和音效,該些音效從畫(huà)面上的不同位置發(fā)出,并且與背景音樂(lè)和環(huán)境音效結(jié)合W創(chuàng)建整體 的聽(tīng)覺(jué)體驗(yàn)。
[0004] 然而,基于對(duì)象的音頻內(nèi)容中的大量音頻信號(hào)(靜態(tài)環(huán)境聲和音頻對(duì)象)給音頻 內(nèi)容的編碼和分發(fā)帶來(lái)了新的挑戰(zhàn)。將會(huì)理解,在很多情況下,諸如在經(jīng)由藍(lán)光光碟、廣播 (藍(lán)線(xiàn)、衛(wèi)星和陸地廣播)、移動(dòng)網(wǎng)絡(luò)、互聯(lián)網(wǎng)機(jī)頂盒(0TT)或者因特網(wǎng)的分發(fā)中,用于傳輸 和處理所有靜態(tài)環(huán)境聲、音頻對(duì)象和相關(guān)信息的帶寬和/或其他資源可能是有限的。盡管 可W使用音頻編碼和壓縮技術(shù)來(lái)減小待處理信息的量,但是該些技術(shù)在某些情況下是不適 用的,特別是對(duì)于復(fù)雜的場(chǎng)景W及帶寬非常有限的網(wǎng)絡(luò)(諸如,移動(dòng)網(wǎng)絡(luò))。而且,音頻編 碼/壓縮技術(shù)只能夠通過(guò)考慮單聲道或者聲道配對(duì)內(nèi)的兀余來(lái)降低比特率。對(duì)于基于對(duì)象 的音頻內(nèi)容,很多空間兀余并未被納入考慮,諸如音頻對(duì)象之間的空間位置重疊和空間掩 蔽效應(yīng)(maskeffect)。
[0005]為了利用空間兀余性來(lái)進(jìn)一步降低資源需求,已經(jīng)提供向音頻對(duì)象應(yīng)用聚類(lèi) (clustering)過(guò)程,使得得到的每個(gè)類(lèi)能夠代表一個(gè)或多個(gè)音頻對(duì)象。通常,一個(gè)類(lèi)可W包 含/合并彼此足夠接近的多個(gè)音頻對(duì)象(靜態(tài)環(huán)境聲可W作為具有預(yù)定義位置的音頻對(duì) 象而被處理)。一般而言,在音頻對(duì)象聚類(lèi)中,需要考慮若干基本的標(biāo)準(zhǔn)。例如,應(yīng)當(dāng)準(zhǔn)確地 表征和建模原始內(nèi)容的空間特性,W便保持總體空間感。另外,在聚類(lèi)過(guò)程中應(yīng)當(dāng)避免聽(tīng)覺(jué) 瑕疵或者對(duì)后續(xù)處理的任何問(wèn)題/挑戰(zhàn)。然而,在空間對(duì)象聚類(lèi)的已知嘗試中,聚類(lèi)通常是 在每個(gè)峽的基礎(chǔ)上執(zhí)行的。例如,聚類(lèi)中也(centroid)是針對(duì)每個(gè)峽而獨(dú)立確定的,沒(méi)有 考慮音頻對(duì)象隨時(shí)間的變化。因此,聚類(lèi)過(guò)程的峽間穩(wěn)定性相對(duì)較低,該很可能在呈現(xiàn)音頻 對(duì)象類(lèi)時(shí)引起聽(tīng)覺(jué)瑕疵。
[0006] 有鑒于此,本領(lǐng)域中需要一種支持更加穩(wěn)定的音頻對(duì)象聚類(lèi)的技術(shù)方案。
【發(fā)明內(nèi)容】
[0007] 為了解決上述問(wèn)題,本發(fā)明提出一種用于音頻對(duì)象聚類(lèi)的方法和系統(tǒng)。
[0008] 在一個(gè)方面,本發(fā)明的實(shí)施例提供一種用于在音頻對(duì)象聚類(lèi)中使用音頻對(duì)象的時(shí) 間變化的方法。所述方法包括:獲取與所述音頻對(duì)象相關(guān)聯(lián)的音軌的至少一個(gè)片段,所述至 少一個(gè)片段包含所述音頻對(duì)象;基于所述音頻對(duì)象的至少一個(gè)屬性,估計(jì)所述音頻對(duì)象在 所述至少一個(gè)片段的持續(xù)時(shí)間上的變化;W及至少部分地基于估計(jì)的所述變化,調(diào)整所述 音頻對(duì)象在所述音頻對(duì)象聚類(lèi)中對(duì)聚類(lèi)中也的確定的貢獻(xiàn)。在方面的實(shí)施例還包括對(duì)應(yīng)的 計(jì)算機(jī)程序產(chǎn)品。
[0009] 在另一方面,本發(fā)明的實(shí)施例提供一種用于在音頻對(duì)象聚類(lèi)中使用音頻對(duì)象的時(shí) 間變化的系統(tǒng)。所述系統(tǒng)包括:片段獲取單元,被配置為獲取與所述音頻對(duì)象相關(guān)聯(lián)的音軌 的至少一個(gè)片段,所述至少一個(gè)片段包含所述音頻對(duì)象;變化估計(jì)單元,被配置為基于所述 音頻對(duì)象的至少一個(gè)屬性,估計(jì)所述音頻對(duì)象在所述至少一個(gè)片段的持續(xù)時(shí)間上的變化; W及懲罰單元,被配置為至少部分地基于估計(jì)的所述變化,調(diào)整所述音頻對(duì)象在所述音頻 對(duì)象聚類(lèi)中對(duì)聚類(lèi)中也的確定的貢獻(xiàn)。
[0010] 通過(guò)下文描述將會(huì)理解,根據(jù)本發(fā)明的實(shí)施例,音頻對(duì)象的時(shí)間變化可W被估計(jì) 并且在對(duì)音頻對(duì)象進(jìn)行聚類(lèi)時(shí)被納入考慮。例如,通過(guò)主要依賴(lài)于那些具有較小時(shí)間變化 的音頻對(duì)象來(lái)確定聚類(lèi)中也,能夠有效地改善峽之間的對(duì)象向類(lèi)的分配穩(wěn)定性。也即,可W W-種更加穩(wěn)定和一致的方式選擇聚類(lèi)中也。由此,可W在處理后的音頻信號(hào)中避免聽(tīng)覺(jué) 上的瑕疵。
【附圖說(shuō)明】
[0011] 通過(guò)參考附圖閱讀下文的詳細(xì)描述,本發(fā)明實(shí)施例的上述W及其他目的、特征和 優(yōu)點(diǎn)將變得易于理解。在附圖中,W示例而非限制性的方式示出了本發(fā)明的若干實(shí)施例,其 中:
[0012] 圖1示出了已知的音頻對(duì)象聚類(lèi)過(guò)程中的不穩(wěn)定問(wèn)題的示意圖;
[0013] 圖2示出了根據(jù)本發(fā)明的示例實(shí)施例的用于在音頻對(duì)象聚類(lèi)中使用音頻對(duì)象的 時(shí)間變化的方法的流程圖;
[0014] 圖3示出了根據(jù)本發(fā)明的示例實(shí)施例的用于在音頻對(duì)象聚類(lèi)中使用音頻對(duì)象的 時(shí)間變化的系統(tǒng)的框圖;W及
[0015] 圖4示出了適于實(shí)現(xiàn)本發(fā)明的示例實(shí)施例的計(jì)算機(jī)系統(tǒng)的框圖。
[0016] 在各個(gè)附圖中,相同或?qū)?yīng)的標(biāo)號(hào)表7]^相同或?qū)?yīng)的部分。
【具體實(shí)施方式】
[0017] 下面將參考附圖中示出的若干示例實(shí)施例來(lái)描述本發(fā)明的原理。應(yīng)當(dāng)理解,描述 該些實(shí)施例僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本發(fā)明,而并非W任何 方式限制本發(fā)明的范圍。
[0018] 如上所述,在已知的音頻對(duì)象聚類(lèi)方案中,對(duì)象向類(lèi)的分配有時(shí)是不穩(wěn)定的。在此 所說(shuō)的穩(wěn)定的分配是指:音頻對(duì)象(至少對(duì)于那些靜態(tài)的對(duì)象而言)被一致地分配給具有 相同位置的聚類(lèi)中也。對(duì)于具有固定位置的音頻對(duì)象,對(duì)象向類(lèi)的分配通常是由所選擇的 聚類(lèi)中也的位置確定的。如果中也的位置相對(duì)穩(wěn)定,則對(duì)象向類(lèi)的分配也將會(huì)比較穩(wěn)定。相 反,如果聚類(lèi)中也頻繁地或者快速地從一個(gè)位置向另一個(gè)位置移動(dòng)甚至跳躍,則峽之間的 對(duì)象向類(lèi)的分配穩(wěn)定性很可能降低,由此引入一些聽(tīng)覺(jué)上的瑕疵。
[0019] 圖1示出了在已知的音頻聚類(lèi)過(guò)程中的不穩(wěn)定性的一個(gè)示例。在所示的示例中, 將使用兩個(gè)類(lèi)來(lái)表示空間100中的H個(gè)音頻對(duì)象101、102和103,其中音頻對(duì)象101在空間 100的左前方,音頻對(duì)象102在空間的右前方,并且音頻對(duì)象103在空間100的前方中部。 在該種情況下,每個(gè)音頻對(duì)象與重要性(importance)的值相關(guān)聯(lián),其指明各音頻對(duì)象在音 頻內(nèi)容中的感知重要性。假設(shè)音頻對(duì)象101和103的重要性值分別是1和1. 5,音頻對(duì)象 102的重要性值在0. 5到1. 3之間變化?;诟兄獦?biāo)準(zhǔn),音頻對(duì)象103將總是被選作一個(gè)中 也,另一中也則在音頻對(duì)象101與102之間切換。該樣,音頻對(duì)象101將在W位置(〇,〇,〇) 和化5,0,0)為中也的類(lèi)之間切換。由此,音頻對(duì)象101的感知位置將在空間100的左前 部和中前部之間跳躍,該將在處理后的音頻信號(hào)中引起聽(tīng)覺(jué)上的瑕疵。
[0020] 為了穩(wěn)定對(duì)象向類(lèi)的分配,根據(jù)本發(fā)明的示例實(shí)施例,在確定聚類(lèi)中也時(shí)將估計(jì) 各音頻對(duì)象的時(shí)間變化。根據(jù)本發(fā)明的示例實(shí)施例,時(shí)間變化可W基于音頻對(duì)象的一個(gè)或 多個(gè)相關(guān)屬性來(lái)估計(jì)。繼而,例如,與那些具有較大時(shí)間變化的音頻對(duì)象相比,在峽之間的 時(shí)間變化較小的音頻對(duì)象可W被賦予被選為聚類(lèi)中也的更高概率。通過(guò)懲罰時(shí)間變化,根 據(jù)本發(fā)明的示例實(shí)施例,可更加穩(wěn)定和一致的方式來(lái)選擇聚類(lèi)中也。相應(yīng)地,對(duì)象向類(lèi) 的分配W及峽間的穩(wěn)定性都會(huì)得到改善。
[0021] 現(xiàn)在參考圖2,其示出了根據(jù)本發(fā)明的示例實(shí)施例的用于在音頻對(duì)象聚類(lèi)中使用 音頻對(duì)象的時(shí)間變化的方法200的流程圖。
[0022] 如圖所示,在步驟S201,獲得與音頻對(duì)象相關(guān)聯(lián)的音軌(audiotrack)的至少一 個(gè)片段(segment),使得獲得的片段包含所處理的音頻對(duì)象。如已知的,一個(gè)音軌可W包含 一個(gè)或多個(gè)音頻對(duì)象。為了準(zhǔn)確地估計(jì)每個(gè)音頻對(duì)象的時(shí)間變化,在某些示例實(shí)施例中,可 W將音軌分為多個(gè)片段,每個(gè)片段由一個(gè)或多個(gè)峽(化ame)組成。在理想情況中,所得的每 個(gè)片段包含一個(gè)單獨(dú)的音頻對(duì)象,但該不是必須的。
[0023] 在某些示例實(shí)施例中,可W基于音頻對(duì)象的特征的一致性來(lái)對(duì)音軌進(jìn)行分段。在 該些實(shí)施例中,假設(shè);在多數(shù)情況下,一個(gè)完整音頻對(duì)象的特征(例如,頻譜)是一致的,而 不同音頻對(duì)象的特征彼此不同。相應(yīng)地,可W應(yīng)用基于特征一致性的分段來(lái)將音軌劃分為 不同的片段,使得每個(gè)片段包含一個(gè)單獨(dú)的音頻對(duì)象。作為示