例,在某些示例實(shí)施例中,可 W在音軌內(nèi)選擇一個(gè)或多個(gè)時(shí)間戳。對(duì)于每個(gè)時(shí)間戳t,通過比較特征在該時(shí)間戳t之前和 之后兩個(gè)時(shí)間窗中的值,來衡量給定特征的一致性。如果測(cè)量的特征一致性低于預(yù)定闊值, 則在該時(shí)間戳處檢測(cè)到潛在的邊界。用于衡量?jī)蓚€(gè)時(shí)間窗之間的特征一致性的度量可W 包括但不限于;相對(duì)賭(KuHback Leibler Divergence, KLD)、貝葉斯信息準(zhǔn)則炬ayesian In化rmation hiterion)W及諸如歐拉距離、余弦距離、馬氏距離等多個(gè)簡(jiǎn)單的度量。
[0024]附加地或備選地,在某些示例實(shí)施例中,可W基于音頻對(duì)象的一個(gè)或多個(gè)感知屬 性(perceptualpropedy)來實(shí)現(xiàn)對(duì)音軌的分段。在此使用的術(shù)語"感知屬性"是指能夠 表明音頻對(duì)象的感知水平的屬性。感知屬性的示例可W包括但不限于:音頻對(duì)象的響度 (lOiKlness)、能量、感知重要性,等等。在此使用的術(shù)語"感知重要性"被用來衡量音頻對(duì)象 在呈現(xiàn)音頻內(nèi)容時(shí)對(duì)于聲學(xué)感知的重要程度。例如,在某些實(shí)施例中,用于量化音頻對(duì)象的 感知重要性的度量可W包括但不限于局部響度和/或語義(音頻類型)。局部響度是在考 慮音頻場(chǎng)景中的其他音頻對(duì)象的空間掩蔽效應(yīng)的情況下感知到的響度度量。語義可W被用 于指示音頻對(duì)象的音頻內(nèi)容類型(諸如,對(duì)話、音樂等)。感知重要性也可W通過其他任何 適當(dāng)?shù)姆绞酱_定。例如,它可由用戶指定和/或在與音頻內(nèi)容相關(guān)聯(lián)的元數(shù)據(jù)中被預(yù)定義。
[0025] 僅出于說明之目的,下面將描述響度W作為感知屬性的示例。在包含音頻對(duì)象的 音軌中,已經(jīng)注意到:音頻對(duì)象通常是稀疏的。換言之,在兩個(gè)音頻對(duì)象之間通常存在間 隙/靜默。因此,在某些示例實(shí)施例中,可W檢測(cè)靜默,繼而基于檢測(cè)到的靜默將音軌劃分 為片段。為此,可W計(jì)算音軌中的每個(gè)峽的響度。繼而對(duì)于每個(gè)峽,所計(jì)算的響度與一個(gè)闊 值進(jìn)行比較W做出靜默或非靜默的決策。在某些示例實(shí)施例中,可W對(duì)獲得的靜默/非靜 默結(jié)果應(yīng)用平滑過程。例如,如果一個(gè)非靜默峽的先前峽和后續(xù)峽都是靜默的,則可W將該 非靜默峽平滑為靜默峽。接下來,可W將連續(xù)的非靜默峽分組到一起,W形成包含相應(yīng)音頻 對(duì)象的一個(gè)或多個(gè)片段。
[0026] 備選地或附加地,可W基于一個(gè)或多個(gè)預(yù)定義的時(shí)間窗對(duì)音軌進(jìn)行分段。一個(gè)預(yù) 定義的時(shí)間窗具有特定的長(zhǎng)度(例如,1砂)?;陬A(yù)定義時(shí)間窗的分段可W提供粗略的結(jié) 果,例如,一個(gè)長(zhǎng)音頻對(duì)象可能被分割為多個(gè)片段,或者獲得的片段可能包含不同的音頻對(duì) 象,但該仍然能夠?yàn)闀r(shí)間變化估計(jì)提供某些有價(jià)值的信息。另一個(gè)益處在于,該只需要應(yīng)用 較短的前向(100k-址ead)窗口,而不必引入任何其他的計(jì)算。
[0027] 應(yīng)當(dāng)注意,上面所描述的示例實(shí)施例僅僅出于說明目的,并非限制本發(fā)明的范圍。 根據(jù)本發(fā)明的示例實(shí)施例,可W利用各種分段技術(shù)將音軌劃分為包含相應(yīng)音頻對(duì)象的片 段,不論該些技術(shù)是目前已知的還是將來開發(fā)的。而且,取決于不同的應(yīng)用和需求,該些分 段方法可W任意組合使用。此外,在某些備選實(shí)施例中,包含音頻對(duì)象的片段可W由終端用 戶來提供或指定,無需依賴于自動(dòng)的分段過程。
[0028] 方法200繼而進(jìn)行到步驟S202,在此基于音頻對(duì)象的至少一個(gè)屬性,估計(jì)該音頻 對(duì)象在所獲得的音頻片段的持續(xù)時(shí)間上的變化。
[0029] 根據(jù)本發(fā)明的示例實(shí)施例,可W使用音頻對(duì)象的各種屬性來估計(jì)該時(shí)間變化。例 女口,在某些示例實(shí)施例中,可W基于音頻對(duì)象的一個(gè)或多個(gè)感知屬性來估計(jì)時(shí)間變化。如上 所述,感知屬性可W包括響度、能量、感知重要性或者能夠指示音頻對(duì)象的感知水平的任何 其他屬性。根據(jù)本發(fā)明的示例實(shí)施例,可W通過估計(jì)音頻對(duì)象的感知屬性在相關(guān)聯(lián)片段的 持續(xù)時(shí)間上的間斷性或不連續(xù)性(discontinuity),來估計(jì)該音頻對(duì)象的時(shí)間變化。
[0030] 作為示例,在某些實(shí)施例中,可W估計(jì)音頻對(duì)象的響度的間斷性,它指示響度在隨 時(shí)間的變化程度。如已知的,響度可W充當(dāng)重要的標(biāo)準(zhǔn)來衡量感知重要性,而感知重要性是 聚類中也選擇的基礎(chǔ)。具有較大響度間斷性的音頻對(duì)象可能會(huì)導(dǎo)致聚類中也的切換。換言 么此時(shí),選擇的中也可能從一個(gè)位置跳轉(zhuǎn)到另一個(gè)位置,該可能降低對(duì)象向類的分配穩(wěn)定 性。應(yīng)當(dāng)注意,在本發(fā)明的上下文中,響度包括全帶(化11-band)響度,也包括局部響度(其 將音頻對(duì)象之間的掩蔽效應(yīng)納入考慮)。
[0031] 可W使用一個(gè)或多個(gè)可測(cè)量的度量來表征音頻對(duì)象的響度的間斷性。例如,在某 些實(shí)施例中,可W計(jì)算響度的動(dòng)態(tài)范圍。響度的動(dòng)態(tài)范圍指示響度在片段的持續(xù)時(shí)間內(nèi)的 最大值與最小值之間的改變幅度。在某些實(shí)施例中,響度的動(dòng)態(tài)范圍可W如下計(jì)算:
[0032]
[003引其中1。"和imi。分別表示響度在音頻片段的持續(xù)時(shí)間內(nèi)的最大值和最小值。
[0034] 附加地或備選地,在某些示例實(shí)施例中,響度的間斷性估計(jì)可W包括估計(jì)感知屬 性在片段持續(xù)時(shí)間上的躍遷頻率(transition化equency)。躍遷頻率(表示為f)指示響 度值在單位時(shí)間(例如,1砂)內(nèi)從峰到谷或者從谷到峰的躍遷的次數(shù)。在某些示例實(shí)施例 中,可W將響度大于的峽視為峰,而將響度低于的峽 視為谷,其中a表示一個(gè)預(yù)定義的參數(shù),其在某些實(shí)施例中可被設(shè)置為a=0.1。假設(shè)T表 示在單位時(shí)間內(nèi)響度在峰谷之間的躍遷次數(shù),躍遷頻率f(其值在0到1之間)可W通過一 個(gè)雙曲函數(shù)(sigmoid化nction)如下計(jì)算:
[00巧]
[0036] 其中af和bf表示雙曲函數(shù)的預(yù)定義參數(shù)。
[0037] 根據(jù)本發(fā)明的示例性實(shí)施例,諸如動(dòng)態(tài)范圍和躍遷頻率之類的度量可W單獨(dú)使 用,也可W結(jié)合使用。例如,在某些實(shí)施例中,響度的動(dòng)態(tài)范圍r和躍遷頻率f的值可被直 接用作對(duì)響度間斷性的估計(jì)值。備選地,在某些實(shí)施例中,該些度量可W相互結(jié)合。例如, 可W如下該樣基于動(dòng)態(tài)范圍r和躍遷頻率f來計(jì)算音頻對(duì)象的響度間斷性:
[0038]d=Fj(r,f)
[0039] 其中Fd表示關(guān)于動(dòng)態(tài)范圍r和躍遷頻率f的單調(diào)遞增函數(shù)。作為另一示例,在某 些實(shí)施例中,響度間斷性可W簡(jiǎn)單地計(jì)算為動(dòng)態(tài)范圍r和躍遷頻率f的乘積:
[0040]Fd(r,f)=r*f
[0041] 應(yīng)當(dāng)注意,除動(dòng)態(tài)范圍和躍遷頻率之外或者作為替代,可W估計(jì)其他度量來表征 響度的間斷性。例如,在某些實(shí)施例中,可W估計(jì)響度在片段持續(xù)時(shí)間上的高階統(tǒng)計(jì)量(例 如標(biāo)準(zhǔn)差)。而且,應(yīng)當(dāng)注意,上文描述的對(duì)間斷性的估計(jì)同樣適用于音頻對(duì)象的任何其他 感知屬性,諸如能量和感知重要性。
[0042] 根據(jù)本發(fā)明的示例性實(shí)施例,對(duì)音頻對(duì)象的時(shí)間變化的估計(jì)還可W包括;估計(jì)音 頻對(duì)象在相關(guān)聯(lián)音頻片段的持續(xù)時(shí)間上的空間速度。將會(huì)理解,空間速度可W指示音頻對(duì) 象在空間中的移動(dòng)速率,其中音頻對(duì)象的移動(dòng)可W是連續(xù)的移動(dòng),也可W是不連續(xù)的躍變。 一般而言,從峽間穩(wěn)定性的角度考慮,在音頻對(duì)象聚類中選擇具有較低空間速度的那些音 頻對(duì)象作為聚類中也將是有益的。
[0043] 特別地,已知的是;在基于對(duì)象的音頻內(nèi)容中,一個(gè)音頻對(duì)象在每個(gè)時(shí)間戳的空間 位置可在元數(shù)據(jù)中被描述。因此,在某些實(shí)施例中,可W基于元數(shù)據(jù)描述的空間信息來計(jì)算 音頻對(duì)象的空間速度。例如,假設(shè)[Pl,P2,'''Pj分別是音頻對(duì)象在時(shí)間戳'''tj處 的空間位置。音頻對(duì)象的空間速度可W計(jì)算如下:
[0044]
[0045] 其中N表示音頻片段內(nèi)的時(shí)間戳的數(shù)目。在某些示例實(shí)施例中,可W使用雙曲函 數(shù)將空間速度的值規(guī)則化為在[0,1]之間變化的值,例如:
[0046]
[0047] 其中ay和by表示雙曲函數(shù)的預(yù)定義參數(shù)。
[004引根據(jù)本發(fā)明的示例性實(shí)施例,時(shí)間變化的不同類型的度量諸如感知屬性的間斷性 和空間速度之類的可W獨(dú)立地被用于控制音頻對(duì)象聚類。備選地,在某些其他實(shí)施例中,不 同的時(shí)間變化度量可W結(jié)合,W表示音頻對(duì)象在相關(guān)聯(lián)片段的持續(xù)時(shí)間內(nèi)的總體變化。在 某些示例實(shí)施例中,音頻對(duì)象的總體時(shí)間變化可W是不同變化度量的線性加權(quán)和:
[0049]
[0050] 其中K表示時(shí)間變化度量的類型數(shù)目,Vk表示第k個(gè)變化度量,ak表示對(duì)應(yīng)的權(quán) 重。特別地,作為示例,音頻對(duì)象的感知屬性間斷性d和空間速度V可W通過W下方式結(jié) 合:
[0051] Vaii= ai*d+a2*v
[0052] 在某些實(shí)施例中,權(quán)重a1和a2均可設(shè)置為0. 5。其他任何適當(dāng)?shù)闹狄彩强尚械摹?br>[0053] 繼續(xù)參考圖2,在步驟S203,至少部分地基于在步驟S202獲得時(shí)間變化來調(diào)整音 頻對(duì)象聚類過程,從而對(duì)音頻對(duì)象做出"懲罰"。更具體地,根據(jù)本發(fā)明的示例實(shí)施例,估計(jì) 出的時(shí)間變化可被用來調(diào)整相關(guān)聯(lián)的音頻對(duì)象對(duì)于聚類過程中的聚類中也確定的貢獻(xiàn)。
[0054] 例如,可W使用估計(jì)出的時(shí)間變化來調(diào)整音頻對(duì)象被在音頻對(duì)象聚類中被選擇為 聚類中也的概率。在某些示例實(shí)施例中,可W使用"硬懲罰",該意味著具有較大時(shí)間變化的 音頻對(duì)象被選擇為聚類中也的可能將被直接排除。在該樣的實(shí)施例中,將步驟S202處估計(jì) 的變化與預(yù)定義的變化闊值進(jìn)行比較。如果確定估計(jì)的