元數(shù)據(jù)保留的音頻對象聚類的制作方法

文檔序號：10536387閱讀：241來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

元數(shù)據(jù)保留的音頻對象聚類的制作方法
【專利摘要】本發(fā)明的實施例涉及音頻對象聚類。公開了一種用于元數(shù)據(jù)保留的音頻對象聚類的方法。該方法包括基于與多個音頻對象相關(guān)聯(lián)的元數(shù)據(jù)中的待保留信息，將多個音頻對象分類到多個類別中。該方法還包括將預(yù)定數(shù)目的簇指派給類別，以及根據(jù)指派來將這些類別中的每個類別中的音頻對象分配到簇中的至少一個簇。還公開了相應(yīng)的系統(tǒng)和計算機程序產(chǎn)品。
【專利說明】
元數(shù)據(jù)保留的音頻對象聚類
技術(shù)領(lǐng)域
[0001] 本發(fā)明總體上涉及音頻內(nèi)容處理，更具體地，涉及允許元數(shù)據(jù)被保留的音頻對象聚類的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 基于對象的音頻的出現(xiàn)顯著地增加了音頻數(shù)據(jù)量以及在高端回放系統(tǒng)內(nèi)渲染該數(shù)據(jù)的復(fù)雜度。例如，影院聲軌可以包括許多不同的聲音元素，這些聲音元素對應(yīng)于屏幕上的圖像、對白、噪聲和音效，該音效源自屏幕上的不同位置，并且這些聲軌還與背景音樂和環(huán)境效果相結(jié)合以創(chuàng)建整體的聽覺體驗。精確回放要求聲音應(yīng)該以如下方式再現(xiàn)：該方式就聲源位置、強度、運動和深度而言盡可能接近地對應(yīng)于屏幕上所顯示的內(nèi)容。基于對象的音頻表現(xiàn)出在傳統(tǒng)的基于通道的音頻系統(tǒng)上的顯著改進(jìn)，該基于通道的音頻系統(tǒng)以揚聲器饋送（speaker feeds)的形式發(fā)送音頻內(nèi)容至收聽環(huán)境中的單個揚聲器，并且因此就特定音頻對象的空間回放而言是相對受限的。
[0003] 數(shù)字影院的引入和三維（"3D"）內(nèi)容的發(fā)展創(chuàng)建了新的聲音標(biāo)準(zhǔn)，諸如音頻的多個通道的結(jié)合以允許內(nèi)容創(chuàng)建者的更大的創(chuàng)造力和聽眾的更加包裹的和逼真的聽覺體驗。在作為用于分配空間音頻的手段的傳統(tǒng)的揚聲器饋送和基于通道的音頻以外進(jìn)行擴展是至關(guān)重要的，并且基于模型的音頻描述已經(jīng)成為關(guān)注的熱點，該基于模型的音頻描述允許聽者用音頻來選擇期望的回放配置，該音頻被渲染以特別用于他們的所選配置。聲音的空間表現(xiàn)利用音頻對象，該音頻對象是具有明顯的源位置（例如3D坐標(biāo)）、明顯的源寬度和其他參數(shù)的關(guān)聯(lián)的參數(shù)源描述的音頻信號。進(jìn)一步的改進(jìn)包括已經(jīng)開發(fā)出下一代空間音頻 (也稱為"自適應(yīng)音頻"）格式，其包括連同音頻對象的位置元數(shù)據(jù)在內(nèi)的音頻對象和傳統(tǒng) 的基于通道的揚聲器饋送（音頻底層）的混合。
[0004] 如本文中所使用的，術(shù)語"音頻對象"指的是在聲場中存在一定時間期間的個體音頻元素。術(shù)語"音頻底層"或"底層"指的是要在預(yù)定義和固定揚聲器位置中被重現(xiàn)的音頻聲道。
[0005] 在一些聲軌中，可能有若干（例如，7個、9個或11個）包含音頻的底層通道（bed channels)。此外，基于創(chuàng)作系統(tǒng)的能力，可能有幾十個或者甚至幾百個單個音頻對象，這些單個音頻對象在渲染期間組合以創(chuàng)建空間上多樣化和身臨其境的音頻體驗。在其他分配和傳輸系統(tǒng)中，可能有足夠大的可用帶寬用于使用少量或者無音頻壓縮來傳輸所有音頻底層和對象。然而，在一些情況，如藍(lán)光光盤、廣播（電纜、衛(wèi)星和陸地的）、移動（3G和4G)以及過頂（over-the-top) (0TT或互聯(lián)網(wǎng)）分配下，可能在用于數(shù)字地傳輸在創(chuàng)作的時候所創(chuàng) 建的所有底層和對象信息的可用帶寬上有顯著的限制。雖然音頻編碼方法（有損的或無損的）可以應(yīng)用到音頻以減少所需的帶寬，但是音頻編碼可能不足以減少需要用來特別是在非常有限的網(wǎng)絡(luò)諸如移動3G和4G網(wǎng)絡(luò)上傳輸音頻的帶寬。
[0006] -些現(xiàn)有方法已經(jīng)被開發(fā)用于通過聚類的手段將輸入對象的數(shù)量減少至較小的輸出對象集合。一般而言，在一些聚類過程中，元數(shù)據(jù)、諸如尺寸、區(qū)域掩蔽（zone mask)和抓?。╯nap)應(yīng)當(dāng)被預(yù)先渲染至內(nèi)部聲道結(jié)構(gòu)。音頻對象的聚類僅集合音頻對象的空間位置，并且輸出對象僅包含空間元數(shù)據(jù)。這類輸出對象對于一些重現(xiàn)系統(tǒng)可能無法良好工作，因為元數(shù)據(jù)的損失可能違背了所期望的創(chuàng)造意圖（artistic intent)。
[0007] 在【背景技術(shù)】章節(jié)中所討論的主題不應(yīng)當(dāng)僅僅因為它公開在【背景技術(shù)】章節(jié)而被假定為是現(xiàn)有技術(shù)。類似地，在【背景技術(shù)】章節(jié)中提及的問題或者與【背景技術(shù)】章節(jié)的主題相關(guān) 聯(lián)的問題不應(yīng)當(dāng)被假定為在現(xiàn)有技術(shù)中預(yù)先已知?！颈尘凹夹g(shù)】中的主題僅給出了不同的方法，這些方法本身也可以是發(fā)明。

【發(fā)明內(nèi)容】

[0008] 為了解決上述問題，示例實施例提出一種用于元數(shù)據(jù)保留的音頻對象聚類的方法和系統(tǒng)。
[0009] 在一個方面，示例實施例提供一種用于元數(shù)據(jù)保留的音頻對象聚類的方法。該方法包括基于與多個音頻對象相關(guān)聯(lián)的元數(shù)據(jù)中的待保留信息，將多個音頻對象分類到多個類別中。該方法還包括將預(yù)定數(shù)目的簇指派給類別，以及根據(jù)指派來將這些類別中的每個類別中的音頻對象分配到簇中的至少一個簇。這方面的實施例還包括相應(yīng)的計算機程序產(chǎn) 品。
[0010] 在另一方面，示例實施例提供一種用于元數(shù)據(jù)保留的音頻對象聚類的系統(tǒng)。該系統(tǒng)包括音頻對象分類單元，被配置為基于與多個音頻對象相關(guān)聯(lián)的元數(shù)據(jù)中的待保留信息，將多個音頻對象分類到多個類別中。該系統(tǒng)還包括簇指派單元，被配置為將預(yù)定數(shù)目的簇指派給類別，以及音頻對象分配單元，被配置為根據(jù)指派將類別中的每個類別中的音頻對象分配到簇中的至少一個簇。
[0011] 通過下文描述將會理解，根據(jù)本發(fā)明的實施例，輸入音頻對象基于它們的元數(shù)據(jù) 中待保留的信息而被分類至對應(yīng)的類別，從而不同的待保留元數(shù)據(jù)或者待保留元數(shù)據(jù)的特定組合與不同的類別相關(guān)聯(lián)。在聚類之后，對于一個類別中的音頻對象，較不可能與關(guān)聯(lián)于不同元數(shù)據(jù)的音頻對象進(jìn)行混合。就此而言，音頻對象的元數(shù)據(jù)在聚類后能夠被保留。本發(fā)明的實施例所帶來的其他益處將通過下文描述而清楚。
【附圖說明】
[0012] 通過參考附圖閱讀下文的詳細(xì)描述，本發(fā)明實施例的上述以及其他目的、特征和優(yōu)點將變得易于理解。在附圖中，以示例而非限制性的方式示出了本發(fā)明的若干實施例，其中：
[0013] 圖1示出了根據(jù)本發(fā)明的一個示例實施例的用于元數(shù)據(jù)保留的音頻對象聚類的方法的流程圖；
[0014] 圖2示出了根據(jù)本發(fā)明的一個示例實施例的用于音頻對象聚類過程的示意圖；
[0015] 圖3示出了根據(jù)本發(fā)明的一個示例實施例的用于元數(shù)據(jù)保留的音頻對象聚類的系統(tǒng)的框圖；以及
[0016] 圖4示出了適于實現(xiàn)本發(fā)明的示例實施例的計算機系統(tǒng)的框圖。
[0017] 在各個附圖中，相同或?qū)?yīng)的標(biāo)號表相同或?qū)?yīng)的部分。
【具體實施方式】
[0018] 下面將參考附圖中示出的若干示例實施例來描述本發(fā)明的原理。應(yīng)當(dāng)理解，描述這些實施例僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實現(xiàn)本發(fā)明，而并非以任何方式限制本發(fā)明的范圍。
[0019] 如以上所提及的，由于編碼/解碼速率以及傳輸帶寬的限制，用于生成自適應(yīng)音頻內(nèi)容的音頻對象的數(shù)量應(yīng)當(dāng)通過聚類的手段來減少。除了描述音頻對象的空間位置的元數(shù)據(jù)之外，音頻對象通常具有描述其屬性的其他元數(shù)據(jù)，這些屬性諸如尺寸、區(qū)域掩蔽、抓取、和內(nèi)容類型等，每個屬性描述了關(guān)于該音頻對象在被渲染時應(yīng)當(dāng)被如何處理的創(chuàng)造意圖。然而，在一些現(xiàn)有方法中，在音頻對象被聚類之后，僅位置元數(shù)據(jù)得以保留。盡管其他元數(shù)據(jù)可以被預(yù)先渲染到內(nèi)部聲道架構(gòu)，諸如在7. 1. 2或7. 1. 4系統(tǒng)中，這種方法并非對所有系統(tǒng)均能良好工作。特別是當(dāng)音頻對象被向下混合至例如5. 1或7. 1系統(tǒng)時，在渲染時可能會違背音頻對象的創(chuàng)作意圖。
[0020] 以元數(shù)據(jù)"區(qū)域掩蔽"為例，其具有多個模式并且每個模式定義一個音頻對象不應(yīng)當(dāng)被渲染的區(qū)域。一個模式的區(qū)域掩蔽是"無側(cè)邊（no sides)"，描述了在渲染音頻對象時側(cè)邊揚聲器應(yīng)當(dāng)被掩蔽。通過利用傳統(tǒng)的聚類方法，如果在空間位置z = 1的音頻對象以元數(shù)據(jù)"無側(cè)邊"被渲染至5. 1系統(tǒng)中，在5. 1渲染中側(cè)邊揚聲器可能被激活，因頂部 (ceiling)揚聲器處的聲音會被折疊到側(cè)邊。這違背了原始的創(chuàng)作意圖。為了解決這個問題，元數(shù)據(jù)"區(qū)域掩蔽"在聚類過程中應(yīng)當(dāng)被保留，以使得其在音頻渲染器處能夠被正確地處理。
[0021] 在另一個示例中，可能期望在聚類之后對話對象與其他對象分離，這可以具有針對后續(xù)音頻對象處理的許多益處。例如，在諸如對話增強的后續(xù)音頻處理中，分離的對話對象簇可以通過簡單地應(yīng)用一個或增益來增強。否則，如果對話對象與其他對象在一個簇中被混合，可能難以分離出該對話對象。在對話替換的應(yīng)用中，每種語言的對話可能要彼此完全分離。出于這些目的，在聚類過程中，對話對象應(yīng)當(dāng)被保留并且被分配至單獨的特定簇中。
[0022] 進(jìn)一步地，音頻對象可以與描述其渲染模式的元數(shù)據(jù)相關(guān)聯(lián)，當(dāng)在耳機渲染器中被處理中，渲染模式例如被渲染為完全左/完全右（left total/right total，Lt/Rt)或者被渲染為具有頭部關(guān)聯(lián)傳遞函數(shù)（head related transfer function, HRTF)的雙聲道。也期望這些渲染模式在聚類之后被保留，以便生成良好的渲染結(jié)果。
[0023] 因此，為了實現(xiàn)更好的音頻體驗，期望在音頻對象聚類中保留元數(shù)據(jù)。本發(fā)明的實施例提出了一種用于元數(shù)據(jù)保留的音頻對象聚類的方法和系統(tǒng)。
[0024] 首先參照圖1，其描述了根據(jù)本發(fā)明的示例實施例的用于元數(shù)據(jù)保留的音頻對象聚類的方法1〇〇。
[0025] 在S101，基于與多個音頻對象相關(guān)聯(lián)的元數(shù)據(jù)中的待保留信息，將多個音頻對象分類到多個類別中。音頻對象被提供為輸入，并且可以具有數(shù)十、數(shù)百、或者有時數(shù)千個的輸入音頻對象。
[0026] 如本文中所使用的，與每個音頻對象相關(guān)聯(lián)的元數(shù)據(jù)中的待保留信息可以指示在該音頻對象被渲染時的處理意圖。該信息可以描述音頻對象在被渲染時應(yīng)當(dāng)被如何處理。在一些實施例中，該信息可以包括以下各項中的至少一項或多項：音頻對象的尺寸信息、區(qū) 域掩蔽信息、抓取信息、內(nèi)容類型、和渲染模式。尺寸信息可以用于指示音頻對象占據(jù)的空間區(qū)域或音量。區(qū)域掩蔽信息指示區(qū)域掩蔽的模式，該模式定義了音頻對象不應(yīng)當(dāng)被渲染到的區(qū)域。例如，區(qū)域掩蔽信息可以指示"無側(cè)邊"模式、"僅環(huán)繞"模式、"僅前端"模式等。抓取信息指示音頻對象是否應(yīng)當(dāng)被直接平移（pan)至最近的揚聲器。
[0027] 應(yīng)當(dāng)注意到，僅描述了元數(shù)據(jù)中的待保留信息的一些示例，并且根據(jù)用戶或音頻工程師的偏好，被保留在元數(shù)據(jù)中的其他信息（這樣的非限制示例包括空間位置、空間寬度等）在音頻對象分類中也可以被保留。在一些實施例中，與音頻對象相關(guān)聯(lián)的元數(shù)據(jù)中的所有信息可以被考慮。
[0028] 類別的數(shù)目可以取決于音頻對象的元數(shù)據(jù)中的信息并且可以大于或等于1。在一個實施例中，沒有待保留信息的音頻對象可以被分類到一個類別中，并且具有不同待保留信息的音頻對象分類到不同類別。也就是說，取決于不同待保留信息，對應(yīng)的音頻對象被分類至不同的類別。備選地，類別可以代表元數(shù)據(jù)中的不同待保留信息的特定組合。不具有感興趣的信息的所有其他音頻對象可以被包含在一個類別中，在一些情況中可以被包含在多個類別中。本發(fā)明的范圍在此方面不受限制。
[0029] 這些類別可以通過人工指派、自動指派或者兩者的組合來給定。例如，用戶或音頻工程師可以通過不同的標(biāo)志來標(biāo)記與不同類型的元數(shù)據(jù)相關(guān)聯(lián)的音頻對象，并且然后這些被標(biāo)記的音頻對象可以根據(jù)他們的標(biāo)志來分類至不同的類別。對于另一個示例，元數(shù)據(jù)中的待保留信息可以被自動地識別。用戶或音頻工程師還可以預(yù)先配置他們的偏好或期望，諸如分類對話對象、分離不同的對話語言、和/或分類不同的區(qū)域掩蔽模式。根據(jù)預(yù)先配置，音頻對象可以被分類至不同的類別。
[0030] 假設(shè)具有0個音頻對象。在分類過程中，音頻對象的元數(shù)據(jù)中的待保留信息可以根據(jù)以下來獲?。海?)通過用戶輸入提供的元數(shù)據(jù)的標(biāo)簽，諸如區(qū)域掩蔽的標(biāo)簽、或抓取的標(biāo)簽、或音頻類型的標(biāo)簽、或語言的標(biāo)簽，和/或（2)元數(shù)據(jù)的自動標(biāo)識/標(biāo)注，諸如但不限于，對內(nèi)容類型的識別?？赡艿念悇e的數(shù)目N可以根據(jù)所獲取的信息來確定，每個類別由待保留信息的特定組合來組成。在分類之后，每個音頻對象可以具有相關(guān)聯(lián)的分類標(biāo)識n。。
[0031] 參照圖2,圖示了音頻對象聚類的示意圖。如圖2所示，基于元數(shù)據(jù)中的待保留信息，多個輸入音頻對象被分類至五個類別，類別〇至4。這些類別的一個示例可以被如下給出：
[0032] ?類別0 :沒有待保留信息的所有音頻對象；
[0033] ?類別1 :音樂對象，沒有區(qū)域掩蔽；
[0034] ?類別2 :聲效對象，具有區(qū)域掩蔽"僅環(huán)繞"；
[0035] ?類別3 :英語對話對象；以及
[0036] ?類別4 :西班牙語對話對象，具有區(qū)域掩蔽"僅前端"。
[0037] 輸入音頻對象可以包括一個或多個幀。一個幀是音頻內(nèi)容的處理單元，一個幀的持續(xù)時間可以變化并且可以取決于音頻處理系統(tǒng)的配置。因為待分類的音頻對象可能針對時間上的不同幀而變化并且它們的元數(shù)據(jù)也可能變化，類別的數(shù)目值也可以隨著時間而變化。代表不同類型的待保留信息的類別可以由用戶預(yù)先定義或者被默認(rèn)，并且在一個或多個幀中的輸入音頻對象然后可以基于該信息二被分類至預(yù)定的類別。在后續(xù)處理中，具有分類的音頻對象的類別可以被考慮并且不具有音頻對象的那些類別可以被忽略。例如，在圖2中，當(dāng)不存在沒有待保留信息的音頻對象時，對應(yīng)的類別0可以被省略。能夠想到的是，被分類在每個類別中的音頻對象的數(shù)目可以隨著時間而變化。
[0038] 在S102,預(yù)定數(shù)目的簇被指派給類別。該預(yù)定數(shù)目可以大于1并且可以取決于音頻處理系統(tǒng)的傳輸帶寬和編碼/解碼速率。在傳輸帶寬（和/或編碼速率，和/或解碼速率）與輸出音頻對象的錯誤準(zhǔn)則之間可以存在權(quán)衡。例如，預(yù)定數(shù)目可以是11或16。也可以確定其他數(shù)值，諸如5、7、或20,并且本發(fā)明的范圍在此方面不受限制。
[0039] 在一些實施例中，預(yù)定數(shù)目在同一處理系統(tǒng)中可能不變。在一些其他實施例中，預(yù) 定數(shù)目可以針對要被處理的不同音頻文件而變化。
[0040] 在本發(fā)明的實施例中，首先在S101處根據(jù)元數(shù)據(jù)將音頻對象分類到類別中，從而每個類別可以代表不同的待保留信息或不同待保留信息的特定組合。然而，在這些類別中的音頻對象可以在后續(xù)處理中被聚類?？赡苡泻芏喾椒▉韺⒖傤A(yù)定數(shù)目的簇指派/分配給這些類別。在一些示例實施例中，由于簇的總數(shù)目是預(yù)定且固定的，在聚類音頻對象之前可能要確定被指派給每個類別的簇的數(shù)目?，F(xiàn)在討論一些示例實施例。
[0041] 在一個實施例中，簇指派可以取決于多個音頻對象的重要度。具體地，首先可以基于每個音頻對象相對于其他音頻對象的重要度，從多個音頻對象中確定預(yù)定數(shù)目的音頻對象，并且然后可以確定所述預(yù)定數(shù)目的音頻對象在所述類別之間的分布。因而預(yù)定數(shù)目的簇根據(jù)該分部而被指派至這些類別。
[0042] 每個音頻對象的重要度可以與以下各項中的一項或多項有關(guān)：音頻對象的內(nèi)容類型、相對響度（partial loudness)水平、和能量水平。具有高重要度的音頻對象可以表示該音頻對象例如因為它的相對響度或能量水平而在輸入音頻對象之中在感知上是顯著的。在一些使用情況中，一個或多個內(nèi)容類型可以被認(rèn)為是重要的，并且因而高重要度被給定至相應(yīng)的音頻對象。例如，較大的重要度可以被指派給對話對象。應(yīng)當(dāng)注意到，存在許多其他方式來確定或定義每個音頻對象的重要度。例如，一些音頻對象的重要水平可以由用戶來指定。本發(fā)明的范圍在此方面不受限制。
[0043] 假設(shè)預(yù)定的總的簇數(shù)目是M。在第一步，輸入音頻對象之中最重要的最多M個音頻對象被選擇。因為在S101中所有輸入音頻對象被分類至對應(yīng)的類別，在第二步中，可以確定M個最重要的音頻對象在類別之間的分布?；贛個音頻對象在一個類別中分布有多少個，可以向該類別指派相當(dāng)數(shù)目的簇。
[0044] 例如，參照圖2,從多個輸入音頻對象（被圖示為圓圈201和202的集合）中確定 11個最重要的音頻對象（被圖示為圓圈201)。在將所有輸入音頻對象分類至五個類別（類別〇至4)之后，從圖2可以看出，四個最重要的音頻對象被分類至類別0,三個最重要的音頻對象被分類至類別1，一個最重要的音頻對象被分類至類別2,兩個最重要的音頻對象被分類至類別3,并且一個最重要的音頻對象被分類至類別4。因此，4個簇、3個簇、1個簇、2 個簇和1個簇分別被指派給類別〇至4,如圖2所示。
[0045] 應(yīng)當(dāng)注意到，以上根據(jù)本發(fā)明的示例實施例描述的重要性準(zhǔn)則的示例可以不是那么嚴(yán)格。也就是說，不必要選擇最重要的音頻對象。在一些實施例中，可以配置重要度閾值。在其重要度大于該閾值的這些音頻對象之中，可以隨機選擇預(yù)定數(shù)目的音頻對象。
[0046] 除了重要度準(zhǔn)則之外，簇指派可以基于類別的整體空間失真。也就是說，基于減少或者甚至最小化類別的整體空間失真來將預(yù)定數(shù)目的簇指派至這些類別。
[0047] 在一個實施例中，類別的整體空間失真可以包括類別的個體空間失真的加權(quán)和。對應(yīng)的類別的權(quán)重可以代表該類別的重要度或者與該類別相關(guān)聯(lián)的待保留信息的重要度。例如，具有較高重要度的類別可以具有較高的權(quán)重。在另一個實施例中，類別的整體空間失真可以包括類別的個體空間失真之中的最大空間失真。應(yīng)當(dāng)認(rèn)識到，不必要僅選擇最大值，并且在一些實施例中，這些類別之中的其他空間失真，諸如第二個最大的空間失真、或第三個最大的空間失真等可以被認(rèn)為是整體空間失真。
[0048] 每個類別的空間失真可以有被包括在該類別中的音頻對象的失真水平來表示，并且每個音頻對象的失真水平可以通過它的原始空間位置與它在被聚類之后的位置之間的距離來衡量。一般而言，音頻對象的經(jīng)聚類后的位置取決于它被分配至的（多個）簇的空間位置。在這種情況下，每個類別的空間失真與該類別中的每個音頻對象的原始空間位置以及（多個）簇的空間位置相關(guān)聯(lián)。音頻對象的原始空間位置可以被包含在音頻對象的元數(shù)據(jù)中并且例如包括三個笛卡爾坐標(biāo)（或者類似地，例如包括極坐標(biāo)、圓柱和球坐標(biāo)、齊次坐標(biāo)、線坐標(biāo)等）。在一個實施例中，為了計算每個類別的空間失真，可以基于（多個）簇的空間位置來確定該類別中的每個音頻對象的重構(gòu)空間位置。然而，每個類別的空間失真可以基于該類別中的每個音頻對象的原始空間位置與該音頻對象的重構(gòu)空間位置之間的距離來計算。音頻對象的重構(gòu)空間位置是由一個或多個對應(yīng)空間簇表示的音頻對象的空間位置。確定重構(gòu)空間位置的一個示例方法將在以下進(jìn)行描述。
[0049] 為了獲得整體空間失真，首先可以關(guān)于不同的簇數(shù)目計算每個類別的空間失真。有許多方法來確定音頻對象的類別的空間失真。在以下給出一種方法作為示例。應(yīng)當(dāng)注意到，可以應(yīng)用其他現(xiàn)有的方法來測量音頻對象的空間失真（并且因此計算類別的空間失真）。
[0050] 假設(shè)對于類別n，存在Mn個簇心（centroid)，表示為具有空間位置 {^M,R， 2"..，^I，M"}W{Cn(l)，Cn(2)，...，C n(Mn)：UdiS(〇n(i)，{Cn(l)，C n(2)，...，Cn(Mn)}) 可以表示在將音頻對象〇"(1)聚類至Mn個簇心時該音頻對象的空間失真（在該情況下假設(shè) 一個類別中的音頻對象僅被分配至與該類別相關(guān)聯(lián)的簇中）。類別n的空間失真可以被表示為：
[0051] zuofxwxKGXC；⑵，(1) /=1
[0052] 其中0n表示在類別n中的音頻對象的數(shù)目，并且on(i)表示在類別n中的第i個音頻對象。在一個實施例中，C n(m)可以是該類別中具有第m個最大的重要度的音頻對象的空間位置，并且Cn(m)的空間位置可以是該音頻對象的空間位置?？臻g失真dis( 〇n(i)， |Cn(l)，Cn(2)，? ? ?，Cn(Mn)})可以由每個音頻對象〇n(i)的空間位置;^.與該音頻對象在被聚類至1個簇時的重構(gòu)空間位置之間的距離（或者距離的平方）來確定。
[0053] 獲取每個類別的空間失真之后，在一個實施例中，如以上所提及的，這些類別的整體空間失真可以被確定為個體空間失真的加權(quán)和。例如，整體空間失真可以被如下確定：
[0054] Cost = Y(a"Dn(Mn、) (2) n=0
[0055] 其中N表示類別的總數(shù)目。每個類別的增益an可以是預(yù)定的并且可以表示對應(yīng) 的類別的重要度或者與該類別相關(guān)聯(lián)的元數(shù)據(jù)中的待保留信息的重要度。
[0056] 在另一個實施例中，類別的整體空間失真可以被確定為類別的個體空間失真之間的最大空間失真。例如，整體空間失真可以被如下地確定：
[0057] Cost = max (a〇D〇 (M〇), a1d1 (Mj), . . . , anDn (Mn)) (3)
[0058] 通過該方式，被指派給每個類別的簇的數(shù)目Mn可以基于減少或最小化整體空間失真度量來確定，并且具有約束條件也就是說，指派的簇的整體數(shù)目等于預(yù)定數(shù) n~0 目M。
[0059] 輸入音頻對象通常是以一個幀的音頻信號為單位。歸因于音頻信號的典型的動態(tài) 特性，并且假定音頻對象數(shù)目在每個類別中變化，被指派給每個類別的簇的數(shù)目通常可以隨著時間而變化。由于每個類別的改變的簇的數(shù)目可能導(dǎo)致一些不穩(wěn)定問題，以成本度量在利用考慮了簇數(shù)目一致性的修改的空間失真。因此，成本度量可以被定義為時間函數(shù)。具體地，每個類別的空間失真進(jìn)一步基于在當(dāng)前幀中被指派給類別的簇的數(shù)目與在先前的幀中被指派給類別的簇的數(shù)目之間的差異。就此而言，公式（2)中的整體空間失真可以被修改為如下：
[0060] Cost = j^{aJ{Dn(Mn\Mn,Mn O) (4) n=0
[0061] 公式（3)中的整體空間失真可以被修改為如下：
[0062] Cost = max(a^f^D。(M〇)，M〇, M〇' ), ajf (D^Mj), Mj, M/ )，???，a/(Dn(M")，M"，M"'）） (5)
[0063] 在公式⑷和（5)中，Mn表示在當(dāng)前幀中類別n的簇數(shù)目，Mn'表示在先前的幀中類別n的簇數(shù)目，并且f(D n(Mn)，Mn，Mn')表示經(jīng)修改的整體空間失真。
[0064] 如果被指派給一個類別的簇數(shù)目在當(dāng)前幀中改變了，相較于先前的空間失真，經(jīng) 修改的空間失真可以被增加，以防止簇數(shù)目的改變。在一個實施例中，以被如下地確定：
[0065] f (Dn (Mn)，Mn，Mn' ) = Dn (Mn) + 3 | Mn-Mn' | (6)
[0066] 其中^表示具有正數(shù)值的參數(shù)。根據(jù)經(jīng)修改的空間失真，存在對于每個類別的簇數(shù)目改變的懲罰。因此，由簇數(shù)目的變換所引入的空間不穩(wěn)定性可以被緩和。
[0067] 由于類別的簇數(shù)目的減少比簇數(shù)目的增加更可能引入空間不穩(wěn)定性，在另一個實施例中，f (Dn(Mn)，Mn，Mn'可以如下地確定：「D"(MJ ifMn >M'
[0068] = j n " n (7) nJ n nf \Dn{Mn)*P2 \iMn<Mn'
[0069] 其中表示具有大于1的值的參數(shù)。在這個實施例中，對減少簇數(shù)目具有較大的懲罰，特別是當(dāng)具有降低的簇數(shù)目的類別的空間失真較大時。因此，由降低的簇數(shù)目引入的空間不穩(wěn)定性可以被減少。
[0070] 在以上描述中，關(guān)于基于減少整體空間失真的族指派，在為每個類別確定最有數(shù) 目的簇時可能涉及大量的計算工作。為了有效地確定每個類別的簇數(shù)目，在一個實施例中，提出了迭代過程。也就是說，通過在簇指派過程的每次迭代中最大化成本減少，來估計每個類別的最優(yōu)簇數(shù)目，從而類別的整體空間失真可以被迭代地減少或者甚至最小化。
[0071] 通過從1迭代至預(yù)定簇數(shù)目M，在每次迭代中，一個或多個簇被指派給最需要它們的類別。將Cost (m-1)和Cost (m)表示為在第（m-1)次迭代和第m次迭代中的整體空間失真。在第m次迭代中，一個或多個新的簇可以被指派給最能夠減少整體空間失真的類別n' 因此，f可以通過增大或最大化整體空間失真的減少來確定，其可以被表示為以下：
[0072] n * = xn.di^{Cost{m -1) - Cost(m)} (8)
[0073] 迭代過程可以基于在當(dāng)前迭代中一個類別的空間失真與在先前迭代中該類別的空間失真之間的差異，或者在先前迭代中一個類別的空間失真的量。
[0074] 對于通過類別的所有空間失真的加權(quán)和來獲得的整體空間失真，迭代過程可以基于在當(dāng)前迭代中一個類別的空間失真與在先前迭代中該類別的空間失真之間的差異。在每次迭代中，至少一個簇可以被指派給如下的類別，該類別如果被指派有該至少一個簇則其在當(dāng)前迭代中的空間失真變得足夠低于它在先前的迭代中的空間失真（根據(jù)第一預(yù)定水平）。在一個實施例中，至少一個簇可以被指派給在被指派有該至少一個簇的情況下具有空間失真最大程度被減少的類別。例如，在該實施例中，f可以被如下地確定：
[0075] n* = max{D"* ) - Dn, (M"t +1)} (9)
[0076] 其中表示在第（m-l)次迭代之后類別f的簇的數(shù)目和空間失真。+ 1表示在如果在第m次迭代中一個新的簇被指派/添加給類別f的話在該迭代中類別f的簇的數(shù)目，并且+1)表示在第m次迭代中類別f的空間失真。應(yīng)當(dāng) 注意到，在每次迭代中，多于一個的新簇可以被指派，并且類別f可以被類似地確定。
[0077] 對于被確定為所有類別之中的最大空間失真的整體空間失真，迭代過程可以基于在先前迭代中一個類別的空間失真的量。在每次迭代中，至少一個簇可以被指派給在先前迭代中具有高于第二預(yù)定水平的空間失真的類別。在一個實施例中，至少一個簇可以被指派給在先前迭代中具有最大空間失真的類別。例如，在該實施例中，f可以被如下地確定：
[0078] n* = max{D"*(M"*m_1)} (10)
[0079] 由于在先前迭代中具有最大空間失真的類別（如果在當(dāng)前迭代中被指派有一個或多個簇）在當(dāng)前迭代中可以減少它的空間失真，由所有類別之中的最大空間失真確定的整體空間失真在當(dāng)前迭代中也可以被減少。
[0080] 注意到，在公式（9)和（10)中提供的確定可以在一個迭代過程中被聯(lián)合地使用。例如，在一個迭代中，公式（9)可以被用于在該迭代中指派（多個）新的簇。在另一個迭代中，公式（10)可以被用于指派其他（多個）新的簇。
[0081] 以上已經(jīng)描述了兩種簇指派方式，一個是基于音頻對象的重要度，另一個基于減少整體空間失真。附加地或備選地，用戶輸入也可以用于指導(dǎo)簇指派。因為用戶可能在不同的使用情況下對于不同的內(nèi)容具有不同的要求，因此可以很大地提高聚類過程的靈活性。在一些實施例中，簇指派可以進(jìn)一步基于以下各項中的一項或多項：針對要被指派給每個類別的簇的數(shù)目的第一閾值，針對每個類別的空間失真的第二閾值，以及每個類別相對于其它類別的重要度。
[0082] 第一閾值可以針對要被指派給每個類別的簇的數(shù)目而預(yù)定義。第一閾值可以是每個類別的預(yù)定的最小簇數(shù)目或最大簇數(shù)目。例如，用戶可以指定一個簇應(yīng)大哥具有某個最小簇數(shù)目。在這種情況下，在指派期間，至少指定數(shù)目的簇應(yīng)當(dāng)被指派給該類別。在最大閾值被設(shè)置的情況中，最多指定數(shù)目的簇可以被指派給該類別。第二閾值可以被設(shè)置為確保一個類別的空間失真要被減少至合理水平。每個類別的重要度可以由用戶指定，或者可以基于被分類至該類別中的音頻對象的重要度來確定。
[0083] 在一些情況下，可能在簇指派完成之后，一個類別的空間失真仍然較高。為了解決這個問題，在一些實施例中，基于一個類別的空間失真，將該類別中的至少一個音頻對象重分類至另一個類別。在一個示例實施例中，如果這些類別中的一個類別的空間失真高于預(yù) 定閾值，該類別中的一些音頻對象可以被重分類至另一個類別，直至該空間失真小于（或等于）該閾值。在一些示例中，音頻對象可以被重分類至包含元數(shù)據(jù)中沒有待保留信息的音頻對象的類別，諸如圖2中的類別0。在簇指派是基于以迭代過程來最小化整體空間失真的實施例中，對象重分類也可以是一個迭代的過程，在該迭代的過程中，在每次迭代中具有最大空間失真dis (〇n (i)，{Cn (1)，Cn (2)，. . .，Cn (Mn)})的音頻對象可以被重分類，直至該類別的空間失真準(zhǔn)則被滿足。
[0084] 歸因于音頻信號典型的動態(tài)特性，音頻對象的重要度或空間位置（并且因此是空間失真）隨著時間而改變。因此，簇指派可以是時間變化的，并且因而被指派給每個類別的簇的數(shù)目可以隨著時間而改變。就此而言，與簇m相關(guān)聯(lián)的類別標(biāo)識可以隨著時間而改變。具體地，簇m在第一幀期間可以代表某種語言（例如，西班牙語），而在第二幀中該簇可以改變類別標(biāo)識并且因此改變語言（例如，英語）。這與舊有的基于信道的系統(tǒng)相反，在舊有的系統(tǒng)中，語言與某個聲道靜態(tài)耦合，而不是動態(tài)地改變。
[0085] 在S102處的簇指派在以上被描述。
[0086] 參考回圖1，在S103,根據(jù)該指派，在類別的每個類別中的音頻對象被分配至簇中的至少一個簇。
[0087] 在以下描述中，提供了兩種方法用于在音頻對象在S101處被分類至類別中并且簇在S102處被指派之后聚類音頻對象。
[0088] 在一個方法中，基于減少與這些類別相關(guān)聯(lián)的失真成本，將每個類別中的音頻對象分配到被指派給這些類別中的一個或多個類別的簇中的至少一個簇。也就是說，由于被指派給每個類別的簇的數(shù)目是有限的，跨簇和跨類別的一些泄露是允許的，以便于減少失真成本并且避免復(fù)雜音頻內(nèi)容的人為噪音（artifact)。這種方法可以被稱為模糊類別聚類。在該模糊類別聚類方法中，音頻對象以某個增益被軟劃分至不同類別中的不同簇并且具有對應(yīng)的成本。在聚類過程中，期望關(guān)于整體空間失真以及將一個類別中的對象分配至不同類別的簇的不利或失配，失真成本是最小的。因此，在簇預(yù)算和音頻內(nèi)容的復(fù)雜度之間存在權(quán)衡。模糊類別聚類方法可以適合于具有諸如區(qū)域掩蔽和抓取之類的元數(shù)據(jù)的音頻對象，因為對于這些音頻對象，不用于其他元數(shù)據(jù)嚴(yán)格分離。模糊類別聚類方法可以以以下闡述的方法來描述。
[0089] 在模糊類別聚類方法中，被指派給每個類別的簇的數(shù)目可以在S102處基于音頻對象的重要度或者基于最小化整體空間失真來確定。對于基于重要度的簇指派，可能存在一些類別不被指派有任何簇。在這些情況中，模糊類別聚類方法可以在聚類音頻對象的時候被應(yīng)用，因為對象可以被軟聚類至其他類別的一個或多個簇。應(yīng)當(dāng)注意到，在簇指派步驟中應(yīng)用的方法和在音頻對象聚類步驟中應(yīng)用的方法之間可以沒有必然相關(guān)性。
[0090] 在模糊類別聚類方法中，失真成本可以被表示為與以下各項中的一項或多項相關(guān) 聯(lián)的成本函數(shù)：（1)每個音頻對象的原始空間位置(2)每個音頻對象被分類到的類別的標(biāo)識I，（3)每個簇的空間位置，或者更具體地，音頻對象將被分配到的（多個）簇的空間位置，以及（4)與每個簇相關(guān)聯(lián)的類別的標(biāo)識rv在一個示例中，簇的經(jīng)聚類的音頻對象可以通過將所有輸入音頻對象以增益分布在其中來確定，其可以被表示為： o-O
[0091] ym='Zg〇：mx0 (11) 0=1
[0092] 其中0表示輸入音頻對象的數(shù)目，表示第m個簇的經(jīng)聚類的音頻對象，x。表示第〇個輸入音頻對象，并且增益g。^可以被表示為g。,^ F(P。，n。，pm，nm)。例如，如圖2所示，在類別1中的音頻對象可以以相應(yīng)的增益被聚類至所有11個簇中，而無論這些簇被指派給哪些類別。
[0093] 在一些實施例中，g。,^增益可以通過最小化與;^、n。、和中的一項或多項相關(guān)聯(lián)的成本函數(shù)來確定。成本函數(shù)可以基于每個音頻對象的原始空間位置^與該音頻對象被分配至的簇的空間位置；^。如以上討論的，可以被確定為在第m個類別內(nèi)具有最大重要度的音頻對象的空間位置。例如，期望A與；^之間的距離盡可能的小。備選地或附加地，成本函數(shù)還可以關(guān)聯(lián)于每個音頻對象被分類到的類別的標(biāo)識n。與一個簇被指派到的每個類別的標(biāo)識rvt間的失配。一般而言，期望音頻對象在同一個類別內(nèi)被聚類，因而成本可以較小。
[0094] 在一些實施例中，成本函數(shù)可以被表示為使用;^、n。、和化的二階多項式的累積貢獻(xiàn)，并且可以從成本函數(shù)中確定出全局最小值作為增益詳細(xì)討論在以下闡述的方式中被提供。
[0095] 成本函數(shù)通常關(guān)于某個附加的準(zhǔn)則而被最小化。在分配音頻對象時，一個準(zhǔn)則是維持輸入音頻對象的總幅度或能量，例如，
[0096] V〇e〇2(^0；m) =1 (12) m=l
[0097] 其中ct可以是1和2之間的值。對于音頻對象〇,對應(yīng)于所有M個簇的增益g。,^ 可以服從以上等式。
[0098] 在以下，可以討論成本函數(shù)E。通過最小化成本函數(shù)，可以確定增益g。#
[0099] 如以上所提及的，成本函數(shù)可以和A與之間的距離相關(guān)聯(lián)，其可以被視為成本函數(shù)的第一項E D，并且可以被確定為：
[moo] ED=zlls2〇,m pm~p〇 (13) m
[0101] 成本函數(shù)還可以和n。與之間的失配相關(guān)聯(lián)，其可以被視為成本函數(shù)的第二項 Ec。E e可以表示跨不同類別內(nèi)的簇聚類音頻對象的成本，并且可以被確定為：
[0102] = ^S2〇,m(nm ' ~ W〇) (14) m
[0103] 其中nj = n?？梢员淮_定為： - 「0， if n= n
[0104] 5 = L m 。（15) ll ifnm^ n0V 7
[0105] 如以上所提及的，當(dāng)最小化成本函數(shù)時，一個準(zhǔn)則是維持輸入音頻對象的加和幅度或能量。因此，成本函數(shù)還可以與能量的增加或損失相關(guān)聯(lián)，也就是說，具體音頻對象的增益和于+1的偏差。該偏差可以被視為成本函數(shù)的第三項E N，其可以被確定為：
[0106] 〇,m^2 (16) m
[0107] 另外，成本函數(shù)可以基于每個音頻對象的空間位置A與該音頻對象的重構(gòu)空間位置A '之間的距離。重構(gòu)空間位置A '可以根據(jù)音頻對象以增益1"聚類到的簇的空間位置來確定/^。例如，;V可以被如下地確定：
[0108] P〇' = ^jS〇,mPm (17) m
[0109] 云。與之間的距離可以被認(rèn)為是成本函數(shù)的第四項EP，并且可以被表示為：
(18)
[0111] 根據(jù)第一、第二、第三和第四項，成本函數(shù)可以被表示為這些項的加權(quán)和，并且可以被表示為：
[0112] E = wDED+wcEc+wNE N+wPEP (19)
[0113] 其中權(quán)重wD，we，wjP wP可以表示不同項在成本函數(shù)中的重要度。
[0114] 基于成本函數(shù)中的四個項，可以確定增益g。, "。計算g。, "的一個示例在以下被給出。應(yīng)當(dāng)指導(dǎo)，其他計算方法也是可能的。
[0115] 對于M個簇，第〇個對象的增益g。,^可以被寫成一個向量：
[0116] g0 = (20) _S〇,M _
[0117] M個簇的空間失真可以被寫成一個矩陣： Pi
[0118] PM= ; (21) .Pm.
[0119] 音頻對象的原始空間位置的矩陣也可以被構(gòu)建為： Po
[0120] P〇 = i (22) .Po.
[0121] 表示音頻對象的原始空間位置與重構(gòu)空間位置之間的距離的第一項ED可以被重新表示為： 2 T
[0122] ED=Y^lm pm-p〇 ^g〇Ks〇 (23) m
[0123] 其中AD表示具有對角元素A =$ _;2的對角矩陣。 mm Jr m o
[0124] 表示音頻對象的n。與n "之間的失配的第二項E e可以被重新表示為：
[0125] Ec = {nm\ = n0) = g0 Ac g〇 (24) m
[0126] 其中Ac表示具有對角元素X m= (nm! = n。）的對角矩陣。
[0127] 表示音頻對象的增益和與+1的偏差的第三項EN可以被重新表示為： / \2 j-
[0128] En= ^-2ix,MS〇 + S〇 iN,MS〇 (25) V rn J
[0129] 其中JN,M表示具有維度（N，M)的全一矩陣。
[0130] 表示音頻對象的原始空間位置與重構(gòu)空間位置之間的距離的第四項EP可以被重新表示為：
[0131] 2 T7 7'2廣7' T \ 疒 T T _ -^1 -^1 -^ 1 -V EP= TjS〇,mPm-T^〇,^P〇 ^ So^M-go^O = So^M-So^O go^M-So^O (26) mm \ J\ J
[0132] 通過將以上公式（23)-(26)組合在一起，成本函數(shù)可以被表示為：
[0133] E^g〇Al0 + B~lo + C (27)
[0134] 其中
[0135] d = wp (PMPM - PMP0 - P0PM + P0P0) + WqAd + wcAc (28)
[0136] B = -2wnJ1jM (29)
[0137] C = wN (30)
[0138] 如以上所討論的，期望獲得成本函數(shù)的最小值，其可以通過以下來確定：
(31)
[0140] 給定：
[0141] [A + AT)g0+BT (32)
[0142] 最后，向量可以被確定為：
[0143] 1〇=-[A + AtY bt (33)
[0144] 通過計算以上公式，可以確定第〇個音頻對象在M個簇之中的增益。
[0145] 第〇個音頻對象可以以所確定的增益將向量&聚類至M個簇中?？梢哉J(rèn)識到，取決于所確定的增益向量，音頻對象可以被聚類到它被分類到的一個類別中的一個簇，或者被聚類到不同類別的一個簇中，或者音頻對象可以被聚類到它被分類到的一個類別中的多個簇，或者被聚類到多個不同類別的多個簇中。
[0146] 當(dāng)增益向量^被確定時，通過公式（17)可以獲得音頻對象的重構(gòu)空間位置。就此而言，確定增益的過程還可以被應(yīng)用如以上所描述的基于最小化整體空間失真的簇指派中，以便確定重構(gòu)空間位置并且因此確定每個類別的空間失真。
[0147] 應(yīng)當(dāng)注意，二階多項式被用作確定成本函數(shù)的最小值的示例。在其他示例實施例中，許多其他指數(shù)值，例如1、1. 5、3等，也可以被使用。
[0148] 以上描述了用于音頻對象聚類的模糊類別聚類方法。在另一個方法中，基于減少與每個類別相關(guān)聯(lián)的空間失真成本，可以將該類別中的音頻對象分配至被指派給該類別的簇中的至少一個簇。也就是說，不允許跨類別的泄露。音頻對象聚類在每個類別內(nèi)被執(zhí)行并且音頻對象不可以被分組至被指派給另一個類別的簇。這個方法可以被稱為硬類別聚類方法。在該方法被應(yīng)用的一些實施例中，音頻對象可以被分配至與該音頻對象對應(yīng)的類別被指派的簇中的多于一個簇中。在進(jìn)一步的實施例中，在音頻對象聚類時不允許跨簇的泄露，并且一個音頻對象僅被分配至對應(yīng)的類別所指派的一個簇中。
[0149] 硬類別聚類方法可以適合于一些具體的應(yīng)用，諸如對話替換或?qū)υ捲鰪?，這些應(yīng) 用要求音頻對象（對話對象）彼此分離。
[0150] 在硬類別聚類方法中，由于一個類別中的音頻對象不可以被聚類至其他類別的一個或多個簇中，因而期望在先前的簇指派時，每個類別被指派有至少一個簇。因此，在一些實施例中，以上所描述的通過最小化整體窘境失真的簇指派可能更適合。在其他實施例中，在應(yīng)用應(yīng)類別聚類時，基于重要性的簇指派也可以被使用。如以上所描述的，在簇指派中可以使用一些附加的條件來保證每個類別被指派有至少一個簇。例如，可以采用簇的最小閾值或者每個類別的空間失真的最小閾值。
[0151 ] 在一個或多個示例實施例中，在一個類別內(nèi)，音頻對象可以被分配至僅一個簇或者被分配至多個簇，因為該類別代表同一類待保留信息。例如，如圖2所示，類別1中的音頻對象可以被聚類至簇4、5和6中的一個或多個。在音頻對象被聚類至一個類別內(nèi)的多個簇的場景中，可以確定對應(yīng)的增益以減少或甚至最小化與該類別相關(guān)聯(lián)的失真成本，其可以類似于關(guān)于模糊類別聚類方法所描述的那些。區(qū)別在于確定是在一個類別內(nèi)執(zhí)行的。在一些實施例中，可以允許每個輸入音頻對象僅僅被聚類至它的類別所指派有的一個簇。
[0152] 以上描述了兩種用于音頻聚類的方法。應(yīng)當(dāng)注意，這兩種方法可以單獨地被利用或者結(jié)合在一起被利用。例如，在S101的音頻對象分類和S102的簇指派之后，對于這些類別中的某些類別，模糊類別聚類方法可以被用于聚類它們的音頻對象，并且對于剩余的類另IJ，可以應(yīng)用硬類別聚類方法。也就是說，在一些類別內(nèi)允許跨類別的一些泄露，而對于其他類別則不允許跨類別的泄露。
[0153] 在輸入音頻對象被分配至這些簇之后，對于每個簇，音頻對象可以被組合以獲得經(jīng)聚類的音頻對象，并且每個簇的音頻對象的元數(shù)據(jù)可以被組合以獲得經(jīng)聚類的音頻對象的元數(shù)據(jù)。經(jīng)聚類的音頻對象可以是在該簇中的所有音頻對象利用對應(yīng)增益的加權(quán)和。經(jīng) 聚類的音頻對象的元數(shù)據(jù)在一些示例中可以是該類別所表示的對應(yīng)元數(shù)據(jù)，或者在另外的示例中可以是該簇或其類別內(nèi)的任何音頻對象的對應(yīng)元數(shù)據(jù)或者是最重要的音頻對象的對應(yīng)元數(shù)據(jù)。
[0154] 由于在音頻對象聚類之前所有輸入音頻對象基于它們元數(shù)據(jù)中的待保留信息而被分類至對應(yīng)的類別，不同的待保留元數(shù)據(jù)或待保留元數(shù)據(jù)的特定組合與不同的類別相關(guān) 聯(lián)。在聚類之后，對于一個類別內(nèi)的音頻對象，較不可能將它與關(guān)聯(lián)于不同元數(shù)據(jù)的音頻對象進(jìn)行混合。就此而言，音頻對象的元數(shù)據(jù)在聚類之后被保留。此外，在簇指派和音頻對象分配過程中，考慮了空間失真或失真成本。
[0155] 圖3描繪了根據(jù)本發(fā)明的一個示例實施例的用于元數(shù)據(jù)保留的音頻對象聚類的系統(tǒng)300的架構(gòu)。如圖3所描繪的，系統(tǒng)300包括音頻對象分類單元301，被配置為基于與多個音頻對象相關(guān)聯(lián)的元數(shù)據(jù)中的待保留信息，將多個音頻對象分類到第一數(shù)目的多個類別中。系統(tǒng)300還包括簇指派單元302,被配置為將預(yù)定數(shù)目的簇指派給類別，以及音頻對象分配單元303,被配置為根據(jù)指派將類別中的每個類別中的音頻對象分配到簇中的至少一個簇。
[0156] 在一些實施例中，該信息可以包括以下各項中的至少一項或多項：音頻對象的尺寸信息、區(qū)域掩蔽信息、抓取信息、內(nèi)容類型、和渲染模式。
[0157] 在一些實施例中，音頻對象分類單元301可以進(jìn)一步被配置為將沒有待保留信息的音頻對象分類到一個類別中，以及將具有不同待保留信息的音頻對象分類到不同類別。
[0158] 在一些實施例中，簇指派單元302可以進(jìn)一步包括：基于重要度的確定單元，被配置為基于每個音頻對象相對于其他音頻對象的重要度，從多個音頻對象中確定預(yù)定數(shù)目的音頻對象；以及分布確定單元，被配置為確定預(yù)定數(shù)目的音頻對象在類別之間的分布。在這些實施例中，簇指派單元302可以進(jìn)一步被配置為根據(jù)分布將預(yù)定數(shù)目的簇指派給類別。
[0159] 在一些實施例中，簇指派單元302可以進(jìn)一步被配置為基于減少類別的整體空間失真來將預(yù)定數(shù)目的簇指派給類別。
[0160] 在一些實施例中，類別的整體空間失真可以包括類別的個體空間失真之中的最大空間失真、或者類別的個體空間失真的加權(quán)和，并且每個類別的空間失真可以與類別中的每個音頻對象的原始空間位置以及簇中的至少一個簇的空間位置相關(guān)聯(lián)。
[0161] 在一些實施例中，可以基于至少一個簇的空間位置確定每個音頻對象的重構(gòu)空間位置，并且可以基于每個類別中的每個音頻對象的原始空間位置與音頻對象的重構(gòu)空間位置之間的距離來確定類別的空間失真。
[0162] 在一些實施例中，多個音頻對象處于音頻信號的一個幀中，并且每個類別的空間失真可以進(jìn)一步基于在當(dāng)前幀中被指派給類別的簇的數(shù)目與在先前的幀中被指派給類別的簇的數(shù)目之間的差異。
[0163] 在一些實施例中，簇指派單元302可以進(jìn)一步被配置為基于以下各項中的至少一項，迭代地減少類別的整體空間失真：在先前迭代中一個類別的空間失真的量，或者在當(dāng)前迭代中一個類別的空間失真與在先前迭代中類別的空間失真之間的差異。
[0164] 在一些實施例中，簇指派單元302可以進(jìn)一步被配置為基于以下各項中的至少一項來將預(yù)定數(shù)目的簇指派給類別：針對要被指派給每個類別的簇的數(shù)目的第一閾值，針對與每個類別的空間失真的第二閾值，以及每個類別相對于其它類別的重要度。
[0165] 在一些實施例中，系統(tǒng)300可以進(jìn)一步包括音頻對象重分類單元，被配置為基于一個類別的空間失真，將類別中的至少一個音頻對象重分類至另一個類別。
[0166] 在一些實施例中，音頻對象分配單元303可以進(jìn)一步被配置為：基于減少與每個類別相關(guān)聯(lián)的失真成本，來將每個類別中的音頻對象分配至被指派給類別的簇中的至少一個簇。
[0167] 在一些實施例中，音頻對象分配單元303可以進(jìn)一步被配置為：基于減少與類別相關(guān)聯(lián)的失真成本，將每個類別中的音頻對象分配到被指派給類別中的一個或多個類別的簇中的至少一個簇。
[0168] 在一些實施例中，失真成本與以下各項中的一項或多項相關(guān)聯(lián)：每個音頻對象的原始空間位置、至少一個簇的空間位置、每個音頻對象被分類到的類別的標(biāo)識、和至少一個簇被指派到的每個類別的標(biāo)識。
[0169] 在一些實施例中，失真成本基于以下各項中的一項或多項來確定：每個音頻對象的原始空間位置與至少一個簇的空間位置之間的距離，每個音頻對象的原始空間位置與音頻對象的重構(gòu)空間位置之間的距離，重構(gòu)空間位置基于至少一個簇的空間位置而確定，以及每個音頻對象被分類到的類別的標(biāo)識與至少一個簇被指派到的每個類別的標(biāo)識之間的失配。
[0170] 在一些實施例中，系統(tǒng)300可以進(jìn)一步包括：音頻對象組合單元，被配置為組合每個簇中的音頻對象以獲得聚類后的音頻對象，以及元數(shù)據(jù)組合單元，被配置為組合每個簇中的音頻對象的元數(shù)據(jù)以獲得聚類后的音頻對象的元數(shù)據(jù)。
[0171] 為清晰起見，在圖3中沒有描繪出系統(tǒng)300的某些另外的部件。然而，應(yīng)當(dāng)理解，上文參考圖1所描述的各個特征同樣適用于系統(tǒng)300。而且，系統(tǒng)300中的各部件可以是硬件模塊，也可以是軟件單元模塊等等。例如，在某些實施例中，系統(tǒng)300可以部分或者全部利用軟件和/或固件來實現(xiàn)，例如被實現(xiàn)為包含在計算機可讀介質(zhì)上的計算機程序產(chǎn)品。備選地或附加地，系統(tǒng)300可以部分或者全部基于硬件來實現(xiàn)，例如被實現(xiàn)為集成電路（1C)、專用集成電路（ASIC)、片上系統(tǒng)（S0C)、現(xiàn)場可編程門陣列（FPGA)等。本發(fā)明的范圍在此方面不受限制。
[0172] 下面參考圖4,其示出了適于用來實現(xiàn)本發(fā)明實施例的計算機系統(tǒng)400的示意性框圖。如圖4所示，計算機系統(tǒng)400包括中央處理單元（CPU)401，其可以根據(jù)存儲在只讀存儲器（ROM)402中的程序或者從存儲部分408加載到隨機訪問存儲器（RAM)403中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚?。如所需要的，在RAM 403中，還存儲有CPU 401執(zhí)行各種過程等的數(shù)據(jù)。CPU 401、R0M 402以及RAM 403通過總線404彼此相連。輸入/輸出（I/O)接口 405也連接至總線404。
[0173] 以下部件連接至I/O接口 405 :包括鍵盤、鼠標(biāo)等的輸入部分406 ;包括諸如陰極射線管（CRT)、液晶顯示器（LCD)等以及揚聲器等的輸出部分407 ;包括硬盤等的存儲部分 408 ;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分409。通信部分409經(jīng) 由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器410也根據(jù)需要連接至I/O接口 405?？刹鹦?介質(zhì)411，諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等，根據(jù)需要安裝在驅(qū)動器410上，以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分408。
[0174] 特別地，根據(jù)本發(fā)明的實施例，上文參考圖1描述的過程可以被實現(xiàn)為計算機軟件程序。例如，本發(fā)明的實施例包括一種計算機程序產(chǎn)品，其包括有形地包含在機器可讀介質(zhì)上的計算機程序，所述計算機程序包含用于執(zhí)行方法100的程序代碼。在這樣的實施例中，該計算機程序可以通過通信部分409從網(wǎng)絡(luò)上被下載和安裝，和/或從可拆卸介質(zhì)411 被安裝。
[0175] 一般而言，本發(fā)明的各種示例實施例可以在硬件或?qū)Ｓ秒娐?、軟件、邏輯，或其?何組合中實施。某些方面可以在硬件中實施，而其他方面可以在可以由控制器、微處理器或其他計算設(shè)備執(zhí)行的固件或軟件中實施。當(dāng)本發(fā)明的實施例的各方面被圖示或描述為框圖、流程圖或使用某些其他圖形表示時，將理解此處描述的方框、裝置、系統(tǒng)、技術(shù)或方法可以作為非限制性的示例在硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其他計算設(shè)備，或其某些組合中實施。
[0176] 而且，流程圖中的各框可以被看作是方法步驟，和/或計算機程序代碼的操作生成的操作，和/或理解為執(zhí)行相關(guān)功能的多個耦合的邏輯電路元件。例如，本發(fā)明的實施例包括計算機程序產(chǎn)品，該計算機程序產(chǎn)品包括有形地實現(xiàn)在機器可讀介質(zhì)上的計算機程序，該計算機程序包含被配置為實現(xiàn)上文描述方法的程序代碼。
[0177] 在公開的上下文內(nèi)，機器可讀介質(zhì)可以是包含或存儲用于或有關(guān)于指令執(zhí)行系統(tǒng)、裝置或設(shè)備的程序的任何有形介質(zhì)。機器可讀介質(zhì)可以是機器可讀信號介質(zhì)或機器可讀存儲介質(zhì)。機器可讀介質(zhì)可以包括但不限于電子的、磁的、光學(xué)的、電磁的、紅外的或半導(dǎo)體系統(tǒng)、裝置或設(shè)備，或其任意合適的組合。機器可讀存儲介質(zhì)的更詳細(xì)示例包括帶有一根或多根導(dǎo)線的電氣連接、便攜式計算機磁盤、硬盤、隨機存儲存取器（RAM)、只讀存儲器 (ROM)、可擦除可編程只讀存儲器（EPROM或閃存）、光存儲設(shè)備、磁存儲設(shè)備，或其任意合適的組合。
[0178] 用于實現(xiàn)本發(fā)明的方法的計算機程序代碼可以用一種或多種編程語言編寫。這些計算機程序代碼可以提供給通用計算機、專用計算機或其他可編程的數(shù)據(jù)處理裝置的處理器，使得程序代碼在被計算機或其他可編程的數(shù)據(jù)處理裝置執(zhí)行的時候，引起在流程圖和/ 或框圖中規(guī)定的功能/操作被實施。程序代碼可以完全在計算機上、部分在計算機上、作為獨立的軟件包、部分在計算機上且部分在遠(yuǎn)程計算機上或完全在遠(yuǎn)程計算機或服務(wù)器上執(zhí) 行。程序代碼可以被分布在被特定編程的設(shè)備，這些設(shè)備通常在本文中可以被稱為"模塊"。這些模塊的軟件分組部分可以以任何具體計算機語言來編寫并且可以是單片集成代碼庫的一部分，或者可以被開發(fā)成多個離散代碼部分，諸如通常以面向?qū)ο蟮挠嬎銠C語言來開發(fā)。此外，模塊可以跨多個計算機平臺、服務(wù)器、終端、移動設(shè)備等來分布。給定的模塊甚至可以被實施為使得所描述的功能有單個處理器和/或計算機硬件平臺來執(zhí)行。
[0179] 如本申請中所使用的，屬于"電路裝置"指的是以下的所有：(a)僅硬件電路實現(xiàn) 方式（諸如僅模擬電路裝置和/或僅數(shù)字電路裝置的實現(xiàn)方式）以及（b)與電路和軟件 (和/或固件）的組合，諸如（可用的）：（i)與處理器的組合或（ii)處理器/軟件（包括數(shù)字信號處理器）、軟件、和存儲器的一部分，這些部分一起工作以使得裝置（諸如移動電話或服務(wù)器）執(zhí)行各種功能，以及（c)電路，諸如微處理器或微處理器的一部分，其需要軟件或固件用于操作，即使軟件或固件不是物理存在的。此外，本領(lǐng)域技術(shù)人員已知的是，通信媒介通常體現(xiàn)計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或模塊化數(shù)據(jù)信號中的其他數(shù)據(jù)，該數(shù)據(jù)信號諸如載波或其他傳輸機制，并且通信媒介包括任何信息傳送媒介。
[0180] 另外，盡管操作以特定順序被描繪，但這并不應(yīng)該理解為要求此類操作以示出的特定順序或以相繼順序完成，或者執(zhí)行所有圖示的操作以獲取期望結(jié)果。在某些情況下，多任務(wù)或并行處理會是有益的。同樣地，盡管上述討論包含了某些特定的實施細(xì)節(jié)，但這并不應(yīng)解釋為限制任何發(fā)明或權(quán)利要求的范圍，而應(yīng)解釋為對可以針對特定發(fā)明的特定實施例的描述。本說明書中在分開的實施例的上下文中描述的某些特征也可以整合實施在單個實施例中。相反地，在單個實施例的上下文中描述的各種特征也可以分離地在多個實施例或在任意合適的子組合中實施。
[0181] 針對前述本發(fā)明的示例實施例的各種修改、改變將在連同附圖查看前述描述時對相關(guān)技術(shù)領(lǐng)域的技術(shù)人員變得明顯。任何及所有修改將仍落入非限制的和本發(fā)明的示例實施例范圍。此外，前述說明書和附圖存在啟發(fā)的益處，涉及本發(fā)明的這些實施例的技術(shù)領(lǐng)域的技術(shù)人員將會想到此處闡明的本發(fā)明的其他實施例。
[0182] 由此，本發(fā)明可以通過在此描述的任何形式來實現(xiàn)。例如，以下的枚舉示例實施例 (EEE)描述了本發(fā)明的某些方面的某些結(jié)構(gòu)、特征和功能。
[0183] EEE 1. -種用于在音頻對象聚類中保留對象元數(shù)據(jù)的方法，包括：將音頻對象分配至類別中，每個類別代表一個或多個需要保留的元數(shù)據(jù)的特定組合，并且通過聚類過程來針對每個類別生成多個簇，聚類過程遵從整體（最大）數(shù)目的可用簇以及整體誤差準(zhǔn)則，并且該方法進(jìn)一步包括：模糊對象類別分離或硬對象類別分離。
[0184] EEE 2.根據(jù)EEE 1的方法，其中模糊對象類別分離方法包括：例如通過選擇最重要的對象來確定輸出簇心；并且通過最小化成本函數(shù)來輸出簇信號，該成本函數(shù)聯(lián)合考慮： (1)每個對象的位置元數(shù)據(jù)(2)每個對象的類別標(biāo)識I，（3)每個簇的位置元數(shù)據(jù) 以及⑷與每個簇相關(guān)聯(lián)的類別標(biāo)識rv
[0185] EEE 3.根據(jù)EEE 2的方法，其中成本函數(shù)考慮對象類別標(biāo)識n。與簇類別標(biāo)識之間的失配。
[0186] EEE 4.根據(jù)EEE 1的方法，其中硬對象類別分離包括：通過最小化整體空間失真來為每個類別確定最優(yōu)的簇數(shù)目；并且在每個簇內(nèi)聚類對象，該聚類過程針對每個類別單獨地執(zhí)行。
[0187] EEE 5.根據(jù)EEE 4的方法，其中整體空間失真包括：在每個類別中測量原始對象位置和聚類后的位置之間的差異的空間位置，每個類別的重要度，以及每個類別的簇數(shù)目改變。
[0188] EEE 6.根據(jù)EEE 4的方法，為每個類別確定最優(yōu)的簇數(shù)目的過程是迭代過程，并且在每次迭代中一個簇被添加或指派至最需要它的類別。
[0189] EEE 7.根據(jù)EEE 4的方法，為每個類別確定最優(yōu)簇數(shù)目的過程是進(jìn)一步包括對象重分配，以便避免一個類別中的大的空間失真。
[0190] 將會理解，本法明的實施例不限于公開的特定實施例，并且修改和其他實施例都應(yīng)包含于所附的權(quán)利要求范圍內(nèi)。盡管此處使用了特定的術(shù)語，但是它們僅在通用和描述的意義上使用，而并不用于限制目的。
【主權(quán)項】
1. 一種用于元數(shù)據(jù)保留的音頻對象聚類的方法，包括：基于與多個音頻對象相關(guān)聯(lián)的元數(shù)據(jù)中的待保留信息，將所述多個音頻對象分類到多個類別中；將預(yù)定數(shù)目的簇指派給所述類別；以及根據(jù)所述指派，將所述類別中的每個類別中的音頻對象分配到所述簇中的至少一個簇。2. 根據(jù)權(quán)利要求1所述的方法，其中所述信息包括以下各項中的至少一項或多項：音頻對象的尺寸信息、區(qū)域掩蔽信息、抓取信息、內(nèi)容類型、和渲染模式。3. 根據(jù)權(quán)利要求1所述的方法，其中基于與多個音頻對象相關(guān)聯(lián)的元數(shù)據(jù)中的待保留信息，將所述多個音頻對象分類到多個類別中包括：將沒有待保留信息的音頻對象分類到一個類別中；以及將具有不同待保留信息的音頻對象分類到不同類別。4. 根據(jù)權(quán)利要求1所述的方法，其中將預(yù)定數(shù)目的簇指派給所述類別包括：基于每個音頻對象相對于其他音頻對象的重要度，從所述多個音頻對象中確定所述預(yù) 定數(shù)目的音頻對象；確定所述預(yù)定數(shù)目的音頻對象在所述類別之間的分布；以及根據(jù)所述分布，將所述預(yù)定數(shù)目的簇指派給所述類別。5. 根據(jù)權(quán)利要求1所述的方法，其中將預(yù)定數(shù)目的簇指派給所述類別包括：基于減少所述類別的整體空間失真來將所述預(yù)定數(shù)目的簇指派給所述類別。6. 根據(jù)權(quán)利要求5所述的方法，其中所述類別的整體空間失真包括所述類別的個體空間失真之中的最大空間失真、或者所述類別的個體空間失真的加權(quán)和，并且其中每個類別的空間失真與所述類別中的每個音頻對象的原始空間位置以及所述簇中的至少一個簇的空間位置相關(guān)聯(lián)。7. 根據(jù)權(quán)利要求6所述的方法，其中基于所述至少一個簇的空間位置確定每個音頻對象的重構(gòu)空間位置，并且基于每個類別中的每個音頻對象的原始空間位置與所述音頻對象的重構(gòu)空間位置之間的距離來確定所述類別的空間失真。8. 根據(jù)權(quán)利要求6所述的方法，其中所述多個音頻對象處于音頻信號的一個幀中，并且每個類別的空間失真進(jìn)一步基于在當(dāng)前幀中被指派給所述類別的簇的數(shù)目與在先前的幀中被指派給所述類別的簇的數(shù)目之間的差異。9. 根據(jù)權(quán)利要求5所述的方法，其中基于減少所述類別的整體空間失真來將所述預(yù)定數(shù)目的簇指派給所述類別包括：基于以下各項中的至少一項，迭代地減少所述類別的整體空間失真：在先前迭代中一個類別的空間失真的量，以及在當(dāng)前迭代中一個類別的空間失真與在先前迭代中所述類別的空間失真之間的差異。10. 根據(jù)權(quán)利要求4至9中任一項所述的方法，其中將預(yù)定數(shù)目的簇指派給所述類別進(jìn) 一步基于以下各項中的一項或多項：針對要被指派給每個類別的簇的數(shù)目的第一閾值，針對每個類別的空間失真的第二閾值，以及每個類別相對于其它類別的重要度。11. 根據(jù)權(quán)利要求1所述的方法，進(jìn)一步包括：基于一個類別的空間失真，將所述類別中的至少一個音頻對象重分類至另一個類別。12. 根據(jù)權(quán)利要求1所述的方法，其中根據(jù)所述指派將所述類別中的每個類別中的音頻對象分配到所述簇中的至少一個簇包括：基于減少與每個類別相關(guān)聯(lián)的失真成本，來將所述類別中的音頻對象分配至被指派給所述類別的簇中的至少一個簇。13. 根據(jù)權(quán)利要求1所述的方法，其中根據(jù)所述指派將所述類別中的每個類別中的音頻對象分配到所述簇中的至少一個簇包括：基于減少與所述類別相關(guān)聯(lián)的失真成本，將每個類別中的音頻對象分配到被指派給所述類別中的一個或多個類別的簇中的至少一個簇。14. 根據(jù)權(quán)利要求12或13所述的方法，其中所述失真成本與以下各項中的一項或多項相關(guān)聯(lián)：每個音頻對象的原始空間位置、所述至少一個簇的空間位置、每個音頻對象被分類到的類別的標(biāo)識、和所述至少一個簇被指派到的每個類別的標(biāo)識。15. 根據(jù)權(quán)利要求14所述的方法，其中所述失真成本基于以下各項中的一項或多項來確定：每個音頻對象的原始空間位置與所述至少一個簇的空間位置之間的距離，每個音頻對象的原始空間位置與所述音頻對象的重構(gòu)空間位置之間的距離，所述重構(gòu) 空間位置基于所述至少一個簇的空間位置而確定，以及每個音頻對象被分類到的類別的標(biāo)識與所述至少一個簇被指派到的每個類別的標(biāo)識之間的失配。16. 根據(jù)權(quán)利要求1所述的方法，進(jìn)一步包括：組合每個簇中的音頻對象以獲得聚類后的音頻對象；以及組合每個簇中的音頻對象的元數(shù)據(jù)以獲得所述聚類后的音頻對象的元數(shù)據(jù)。17. -種用于元數(shù)據(jù)保留的音頻對象聚類的系統(tǒng)，包括：音頻對象分類單元，被配置為基于與多個音頻對象相關(guān)聯(lián)的元數(shù)據(jù)中的待保留信息，將所述多個音頻對象分類到多個類別中；簇指派單元，被配置為將預(yù)定數(shù)目的簇指派給所述類別；以及音頻對象分配單元，被配置為根據(jù)所述指派將所述類別中的每個類別中的音頻對象分配到所述簇中的至少一個簇。18. 根據(jù)權(quán)利要求17所述的系統(tǒng)，其中所述信息包括以下各項中的至少一項或多項：音頻對象的尺寸信息、區(qū)域掩蔽信息、抓取信息、內(nèi)容類型、和渲染模式。19. 根據(jù)權(quán)利要求17所述的系統(tǒng)，其中所述音頻對象分類單元進(jìn)一步被配置為將沒有待保留信息的音頻對象分類到一個類別中，以及將具有不同待保留信息的音頻對象分類到不同類別。20. 根據(jù)權(quán)利要求17所述的系統(tǒng)，其中所述簇指派單元進(jìn)一步包括：基于重要度的確定單元，被配置為基于每個音頻對象相對于其他音頻對象的重要度，從所述多個音頻對象中確定所述預(yù)定數(shù)目的音頻對象；以及分布確定單元，被配置為確定所述預(yù)定數(shù)目的音頻對象在所述類別之間的分布，其中所述簇指派單元進(jìn)一步被配置為根據(jù)所述分布將所述預(yù)定數(shù)目的簇指派給所述類別。21. 根據(jù)權(quán)利要求17所述的系統(tǒng)，其中所述簇指派單元進(jìn)一步被配置為基于減少所述類別的整體空間失真來將所述預(yù)定數(shù)目的簇指派給所述類別。22. 根據(jù)權(quán)利要求21所述的系統(tǒng)，其中所述類別的整體空間失真包括所述類別的個體空間失真之中的最大空間失真、或者所述類別的個體空間失真的加權(quán)和，并且其中每個類別的空間失真與所述類別中的每個音頻對象的原始空間位置以及所述簇中的至少一個簇的空間位置相關(guān)聯(lián)。23. 根據(jù)權(quán)利要求22所述的系統(tǒng)，其中基于所述至少一個簇的空間位置確定每個音頻對象的重構(gòu)空間位置，并且基于每個類別中的每個音頻對象的原始空間位置與所述音頻對象的重構(gòu)空間位置之間的距離來確定所述類別的空間失真。24. 根據(jù)權(quán)利要求22所述的系統(tǒng)，其中所述多個音頻對象處于音頻信號的一個幀中，并且每個類別的空間失真進(jìn)一步基于在當(dāng)前幀中被指派給所述類別的簇的數(shù)目與在先前的幀中被指派給所述類別的簇的數(shù)目之間的差異。25. 根據(jù)權(quán)利要求21所述的系統(tǒng)，其中所述簇指派單元進(jìn)一步被配置為基于以下各項中的至少一項，迭代地減少所述類別的整體空間失真：在先前迭代中一個類別的空間失真的量，以及在當(dāng)前迭代中一個類別的空間失真與在先前迭代中所述類別的空間失真之間的差異。26. 根據(jù)權(quán)利要求20至25中任一項所述的系統(tǒng)，其中所述簇指派單元進(jìn)一步被配置為基于以下各項中的一項或多項來將所述預(yù)定數(shù)目的簇指派給所述類別：針對要被指派給每個類別的簇的數(shù)目的第一閾值，針對與每個類別的空間失真的第二閾值，以及每個類別相對于其它類別的重要度。27. 根據(jù)權(quán)利要求17所述的系統(tǒng)，進(jìn)一步包括：音頻對象重分類單元，被配置為基于一個類別的空間失真，將所述類別中的至少一個音頻對象重分類至另一個類別。28. 根據(jù)權(quán)利要求17所述的系統(tǒng)，其中所述音頻對象分配單元進(jìn)一步被配置為：基于減少與每個類別相關(guān)聯(lián)的失真成本，來將所述類別中的音頻對象分配至被指派給所述類別的簇中的至少一個簇。29. 根據(jù)權(quán)利要求17所述的系統(tǒng)，其中所述音頻對象分配單元進(jìn)一步被配置為：基于減少與所述類別相關(guān)聯(lián)的失真成本，將每個類別中的音頻對象分配到被指派給所述類別中的一個或多個類別的簇中的至少一個簇。30. 根據(jù)權(quán)利要求28或29所述的系統(tǒng)，其中所述失真成本與以下各項中的一項或多項相關(guān)聯(lián)：每個音頻對象的原始空間位置、所述至少一個簇的空間位置、每個音頻對象被分類到的類別的標(biāo)識、和所述至少一個簇被指派到的每個類別的標(biāo)識。31. 根據(jù)權(quán)利要求30所述的系統(tǒng)，其中所述失真成本基于以下各項中的一項或多項來確定：每個音頻對象的原始空間位置與所述至少一個簇的空間位置之間的距離，每個音頻對象的原始空間位置與所述音頻對象的重構(gòu)空間位置之間的距離，所述重構(gòu) 空間位置基于所述至少一個簇的空間位置而確定，以及每個音頻對象被分類到的類別的標(biāo)識與所述至少一個簇被指派到的每個類別的標(biāo)識之間的失配。32. 根據(jù)權(quán)利要求17所述的系統(tǒng)，進(jìn)一步包括：音頻對象組合單元，被配置為組合每個簇中的音頻對象以獲得聚類后的音頻對象；以及元數(shù)據(jù)組合單元，被配置為組合每個簇中的音頻對象的元數(shù)據(jù)以獲得所述聚類后的音頻對象的元數(shù)據(jù)。33. -種計算機程序產(chǎn)品，包括被有形地包括在機器可讀介質(zhì)上的計算機程序，所述計算機程序包含程序代碼，用于執(zhí)行根據(jù)權(quán)利要求1至16中任一項所述的方法。
【文檔編號】G10L15/07GK105895086SQ201410765578
【公開日】2016年8月24日
【申請日】2014年12月11日
【發(fā)明人】D·J·布里巴爾特, 陳連武, 蘆烈, N·R·齊英戈斯
【申請人】杜比實驗室特許公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：D·J·布里巴爾特;陳連武;蘆烈;N·R·齊英戈斯;
技術(shù)所有人：杜比實驗室特許公司;
我是此專利的發(fā)明人

上一篇：一種語音識別方法及裝置的制造方法
上一篇：一種多媒體轉(zhuǎn)寫方法和系統(tǒng)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

元數(shù)據(jù)保留的音頻對象聚類的制作方法