。
[0079] 在某些示例實(shí)施例中,所述懲罰單元303可被配置為;至少部分地基于估計(jì)的所 述變化,調(diào)整所述音頻對(duì)象在所述音頻對(duì)象聚類中被選擇作為所述聚類中也的概率;或者 至少部分地基于估計(jì)的所述變化,調(diào)整所述音頻對(duì)象在所述音頻對(duì)象聚類中對(duì)所述聚類中 也的更新的貢獻(xiàn)。
[0080] 在某些示例實(shí)施例中,系統(tǒng)300可W進(jìn)一步包括比較單元(未示出),被配置為將 估計(jì)的所述變化與預(yù)定義變化闊值進(jìn)行比較。在該些實(shí)施例中,所述懲罰單元303可W包 括硬懲罰單元(未示出),其被配置為至少部分地基于所述比較單元做出的估計(jì)的所述變 化大于所述預(yù)定義變化闊值該一確定,在所述音頻對(duì)象聚類中從所述聚類中也的所述確定 中排除所述音頻對(duì)象。在某些示例實(shí)施例中,對(duì)所述音頻對(duì)象的所述排除還基于一組約束, 所述一組約束包括W下至少一個(gè):如果所述音頻對(duì)象的預(yù)定義鄰域內(nèi)的至少一個(gè)音頻對(duì)象 未從所述聚類中也的所述確定中被排除,則所述音頻對(duì)象可被排除;W及如果所述音頻對(duì) 象在所述至少一個(gè)片段的先前峽中已經(jīng)從所述聚類中也的所述確定中被排除,則所述音頻 對(duì)象可被排除。
[0081] 在某些示例實(shí)施例中,所述音頻對(duì)象的所述貢獻(xiàn)至少部分地基于對(duì)所述音頻對(duì)象 的感知重要性的估計(jì)而確定。在該些實(shí)施例中,所述懲罰單元303可W包括軟懲罰單元(未 示出),被配置為基于估計(jì)的所述變化來修改所述音頻對(duì)象的所述感知重要性。
[0082] 在某些示例實(shí)施例中,系統(tǒng)300還可W包括;場(chǎng)景復(fù)雜性確定單元(未示出),被 配置為確定與所述音頻對(duì)象相關(guān)聯(lián)的場(chǎng)景的復(fù)雜性。在該些實(shí)施例中,所述懲罰單元303 可被配置為基于所述音頻對(duì)象的估計(jì)的所述變化W及確定的所述場(chǎng)景的所述復(fù)雜性,來調(diào) 整所述音頻對(duì)象的所述貢獻(xiàn)。特別地,在某些示例實(shí)施例中,所述場(chǎng)景復(fù)雜性確定單元可被 配置為基于W下至少一個(gè)來確定所述場(chǎng)景的所述復(fù)雜性:所述場(chǎng)景中的音頻對(duì)象的數(shù)目; 輸出類的數(shù)目;W及所述場(chǎng)景中的音頻對(duì)象的分類。
[0083] 應(yīng)當(dāng)注意,為清晰起見,在圖3中沒有示出系統(tǒng)300的某些可選單元。然而應(yīng)當(dāng)理 解,上文參考圖2所描述的特征均適用于系統(tǒng)300。而且,系統(tǒng)300中的各單元可W是硬件 模塊,也可W是軟件模塊。例如,在某些實(shí)施例中,系統(tǒng)300可W部分或者全部地利用軟件 和/或固件來實(shí)現(xiàn),例如被實(shí)現(xiàn)為包含在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品。備選地或 附加地,系統(tǒng)300可W部分或者全部地基于硬件來實(shí)現(xiàn),例如被實(shí)現(xiàn)為集成電路(1C)、專用 集成電路(ASIC)、片上系統(tǒng)(SOC)、現(xiàn)場(chǎng)可編程口陣列(FPGA)等。本發(fā)明的范圍在此方面 不雙限制。
[0084] 下面參考圖4,其示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施例的計(jì)算機(jī)系統(tǒng)400的示意性 框圖。如圖4所示,計(jì)算機(jī)系統(tǒng)400包括中央處理單元(CPU)401,其可W根據(jù)存儲(chǔ)在只讀 存儲(chǔ)器(ROM) 402中的程序或者從存儲(chǔ)單元408加載到隨機(jī)訪問存儲(chǔ)器(RAM) 403中的程序 而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在RAM403中,還存儲(chǔ)有設(shè)備400操作所需的各種程序和數(shù) 據(jù)。CPU40UR0M402W及RAM403通過總線404彼此相連。輸入/輸出(I/ 0)接口 405也 連接至總線404。
[0085]W下部件連接至I/ 0接口 405;包括鍵盤、鼠標(biāo)等的輸入單元406;包括諸如陰極 射線管(CRT)、液晶顯示器(LCD)等W及揚(yáng)聲器等的輸出單元407;包括硬盤等的存儲(chǔ)單元 408 ;W及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信單元409。通信單元409經(jīng) 由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器410也根據(jù)需要連接至I/ 0接口 405??刹?卸介質(zhì)411,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng)器410上,W 便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)單元408。
[0086] 特別地,根據(jù)本發(fā)明的實(shí)施例,上文參考圖2描述的過程可W被實(shí)現(xiàn)為計(jì)算機(jī)軟 件程序。例如,本發(fā)明的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括有形地包含在機(jī)器可讀介 質(zhì)上的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包含用于執(zhí)行方法200的程序代碼。在該樣的實(shí)施例 中,該計(jì)算機(jī)程序可W通過通信單元409從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)411 被安裝。
[0087] 一般而言,本發(fā)明的各種示例實(shí)施例可W在硬件或?qū)S秒娐?、軟件、邏輯,或其?何組合中實(shí)施。某些方面可W在硬件中實(shí)施,而其他方面可W在可W由控制器、微處理器或 其他計(jì)算設(shè)備執(zhí)行的固件或軟件中實(shí)施。當(dāng)本發(fā)明的實(shí)施例的各方面被圖示或描述為框 圖、流程圖或使用某些其他圖形表示時(shí),將理解此處描述的方框、裝置、系統(tǒng)、技術(shù)或方法可 W作為非限制性的示例在硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其他計(jì) 算設(shè)備,或其某些組合中實(shí)施。
[0088] 而且,流程圖中的各框可W被看作是方法步驟,和/或計(jì)算機(jī)程序代碼的操作生 成的操作,和/或理解為執(zhí)行相關(guān)功能的多個(gè)禪合的邏輯電路元件。例如,本發(fā)明的實(shí)施 例包括計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括有形地實(shí)現(xiàn)在機(jī)器可讀介質(zhì)上的計(jì)算機(jī)程 序,該計(jì)算機(jī)程序包含被配置為實(shí)現(xiàn)上文描述方法的程序代碼。
[0089] 在公開的上下文內(nèi),機(jī)器可讀介質(zhì)可W是包含或存儲(chǔ)用于或有關(guān)于指令執(zhí)行系 統(tǒng)、裝置或設(shè)備的程序的任何有形介質(zhì)。機(jī)器可讀介質(zhì)可W是機(jī)器可讀信號(hào)介質(zhì)或機(jī)器可 讀存儲(chǔ)介質(zhì)。機(jī)器可讀介質(zhì)可W包括但不限于電子的、磁的、光學(xué)的、電磁的、紅外的或半 導(dǎo)體系統(tǒng)、裝置或設(shè)備,或其任意合適的組合。機(jī)器可讀存儲(chǔ)介質(zhì)的更詳細(xì)示例包括帶有 一根或多根導(dǎo)線的電氣連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存儲(chǔ)存取器(RAM)、只讀存儲(chǔ)器 (ROM)、可擦除可編程只讀存儲(chǔ)器巧PROM或閃存)、光存儲(chǔ)設(shè)備、磁存儲(chǔ)設(shè)備,或其任意合適 的組合。
[0090]用于實(shí)現(xiàn)本發(fā)明的方法的計(jì)算機(jī)程序代碼可W用一種或多種編程語言編寫。該 些計(jì)算機(jī)程序代碼可W提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其他可編程的數(shù)據(jù)處理裝置的處 理器,使得程序代碼在被計(jì)算機(jī)或其他可編程的數(shù)據(jù)處理裝置執(zhí)行的時(shí)候,引起在流程圖 和/或框圖中規(guī)定的功能/操作被實(shí)施。程序代碼可w完全在計(jì)算機(jī)上、部分在計(jì)算機(jī)上、 作為獨(dú)立的軟件包、部分在計(jì)算機(jī)上且部分在遠(yuǎn)程計(jì)算機(jī)上或完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器 上執(zhí)行。
[0091] 另外,盡管操作W特定順序被描繪,但該并不應(yīng)該理解為要求此類操作W示出的 特定順序或W相繼順序完成,或者執(zhí)行所有圖示的操作W獲取期望結(jié)果。在某些情況下,多 任務(wù)或并行處理會(huì)是有益的。同樣地,盡管上述討論包含了某些特定的實(shí)施細(xì)節(jié),但該并不 應(yīng)解釋為限制任何發(fā)明或權(quán)利要求的范圍,而應(yīng)解釋為對(duì)可W針對(duì)特定發(fā)明的特定實(shí)施例 的描述。本說明書中在分開的實(shí)施例的上下文中描述的某些特征也可W整合實(shí)施在單個(gè)實(shí) 施例中。相反地,在單個(gè)實(shí)施例的上下文中描述的各種特征也可W分離地在多個(gè)實(shí)施例或 在任意合適的子組合中實(shí)施。
[0092] 針對(duì)前述本發(fā)明的示例實(shí)施例的各種修改、改變將在連同附圖查看前述描述時(shí)對(duì) 相關(guān)技術(shù)領(lǐng)域的技術(shù)人員變得明顯。任何及所有修改將仍落入非限制的和本發(fā)明的示例實(shí) 施例范圍。此外,前述說明書和附圖存在啟發(fā)的益處,涉及本發(fā)明的該些實(shí)施例的技術(shù)領(lǐng)域 的技術(shù)人員將會(huì)想到此處闡明的本發(fā)明的其他實(shí)施例。
[0093] 由此,本發(fā)明可W通過在此描述的任何形式來實(shí)現(xiàn)。例如,W下的枚舉示例實(shí)施例 (邸巧描述了本發(fā)明的某些方面的某些結(jié)構(gòu)、特征和功能。
[0094] E邸1. 一種處理基于對(duì)象的音頻數(shù)據(jù)的方法,包括;基于對(duì)象音頻數(shù)據(jù)和相關(guān)聯(lián) 的元數(shù)據(jù)確定一個(gè)或多個(gè)音頻對(duì)象的時(shí)間變化;W及通過懲罰確定的時(shí)間變化將音頻對(duì)象 結(jié)合到音頻類中,W穩(wěn)定音頻對(duì)象聚類中的對(duì)象向類的分配。
[0095] E邸2.根據(jù)邸E1所述的方法,其中所述音頻對(duì)象軌道被分割為片段f對(duì)象。
[0096] E邸3.根據(jù)邸E2所述的方法,其中所述分段包括W下之一:預(yù)定義窗口分段;基于 響度的分段;W及基于特征一致性的分段。
[0097] E邸4.根據(jù)邸E1所述的方法,其中所述時(shí)間變化基于W下至少一個(gè);響度的間斷 性,W及空間速度。
[009引 E邸5.根據(jù)邸E4所述的方法,其中所述時(shí)間變化還基于能量的間斷性或者感知重 要性的間斷性,感知重要性包括局部響度和音頻類型中的至少一個(gè)。
[0099] E邸6.根據(jù)邸E4所述的方法,其中響度的間斷性基于響度動(dòng)態(tài)范圍和響度躍遷頻 率來計(jì)算。
[0100] E邸7.根據(jù)邸E4所述的方法,其中空間速度基于對(duì)象的元數(shù)據(jù)而被估計(jì)。
[0101] EEE8.根據(jù)EEE1所述的方法,其中懲罰時(shí)間變化包括將對(duì)象排除在聚類中也選擇 之外,或者修改重要性估計(jì)。
[0102] EEE9.根據(jù)EEE8所述的方法,其中具有大時(shí)間變化的對(duì)象通過結(jié)合W下約束中的 至少一個(gè)而被排除;被排除對(duì)象附近的至少一個(gè)保留對(duì)象;在先前峽中被選作聚類中也的 對(duì)象不可排除。
[0103] 邸E10.根據(jù)邸E8所述的方法,其中修改的對(duì)象重要性隨時(shí)間變化的遞增而單調(diào) 遞減。
[0104] 邸E11.根據(jù)邸E1或者邸E8所述的方法,其中對(duì)時(shí)間變化的懲罰由將