專利名稱:用以將信號的不同段分類的方法與鑒別器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于對包括至少第一類型及第二類型的段在內(nèi)的信號的不同段 進(jìn)行分類的辦法。本發(fā)明的實(shí)施例涉及音頻編碼領(lǐng)域,特別涉及當(dāng)編碼音頻信號時(shí)對語音 /音樂的鑒別。
背景技術(shù):
本領(lǐng)域已知諸如MP3或AAC的頻域編碼方案。這些頻域編碼器基于時(shí)域/頻域變 換、隨后的量化階段以及編碼階段,在量化階段中,使用來自于心理聲學(xué)模塊的信息控制量 化誤差;在編碼階段中,使用碼表對已量化的頻譜系數(shù)及相對應(yīng)的邊帶信息進(jìn)行熵編碼。另一方面,如3GPP TS沈.290所述,具有極為適合用于語音處理的編碼器,例如 AMR-WB+。這樣的語音編碼方案執(zhí)行時(shí)域信號的線性預(yù)測濾波。這樣的LP濾波從對所輸入 的時(shí)域信號的線性預(yù)測分析而獲得。然后,對所得到的LP濾波系數(shù)進(jìn)行編碼且傳輸作為邊 帶信息。該方法被稱為線性預(yù)測編碼(LPC)。在濾波器的輸出,使用ACELP編碼器的合成分 析階段,或者備選地,使用變換編碼器對也被稱為激勵信號的預(yù)測殘余信號或預(yù)測誤差信 號進(jìn)行編碼,該變換編碼器使用有重迭的傅立葉變換。使用閉環(huán)或開環(huán)算法來進(jìn)行ACELP 編碼與變換編碼的激勵編碼(也被稱為TCX編碼)之間的判決。頻域音頻編碼方案(例如,組合了 AAC編碼方案及頻譜帶寬復(fù)制技術(shù)的高效率AAC 編碼方案)也可被組合到在術(shù)語“MPEG環(huán)繞”之下為人所知的的聯(lián)合立體聲或多通道編碼 工具。頻域編碼方案的優(yōu)點(diǎn)在于針對音樂信號,其在低比特率處顯示出高質(zhì)量。但問題在 于語音信號在低比特率處的質(zhì)量。另一方面,語音編碼器諸如AMR-WB+也具有高頻加強(qiáng)級及立體聲功能。語音編碼 方案即使在低比特率處也對語音信號顯示高質(zhì)量,但對于低比特率處的音樂信號則顯示質(zhì) 量不佳。有鑒于前述可利用的編碼方案,其中的一些比較適合編碼語音,而其它方案比較 適合用于編碼音樂。要被編碼的音頻信號的自動分段及分類在多種多媒體應(yīng)用中是重要的 工具,可用來針對音頻信號中出現(xiàn)的每一種不同類別選擇適當(dāng)?shù)姆椒?。?yīng)用的總體性能極 大地取決于該音頻信號分類的可靠性。事實(shí)上,錯誤分類可能產(chǎn)生不適當(dāng)?shù)倪x擇以及對隨 后過程的不適當(dāng)微調(diào)。圖6顯示取決于對音頻信號的鑒別,用于對語音及音樂進(jìn)行適當(dāng)編碼的公知編碼 器設(shè)計(jì)。該編碼器設(shè)計(jì)包括語音編碼分支100,語音編碼分支100包括適當(dāng)?shù)恼Z音編碼器 102,例如 AMR-WB+語音編碼器,如 “Extended Adaptive Multi-Rate-ffideband (AMR-ffB+) codec", 3GPP TS 26. 290 V6. 3. 0,2005-06,技術(shù)規(guī)范所述。此外,編碼器設(shè)計(jì)包括音樂編碼 分支104,音樂編碼分支104包括音樂編碼器106,例如,在運(yùn)動圖像及伴隨音頻的通用編碼 中描述的AAC音樂編碼器高級音頻編碼。國際標(biāo)準(zhǔn)13818-7,IS0/IEC JTC1/S(^9/WG11運(yùn) 動圖像專家組1997年。編碼器102及106的輸出被連接至復(fù)用器108的輸入。編碼器102及106的輸入能夠選擇性地連接至攜帶輸入音頻信號的輸入線110。通過開關(guān)控制器114控制并由圖6 示意性地示出的開關(guān)112,將輸入音頻信號選擇性地施加到語音編碼器102或音樂編碼器 106。此外,編碼器設(shè)計(jì)包括語音/音樂鑒別器116,在其輸入處也接收輸入音頻信號,以及 輸出控制信號到開關(guān)控制器114。開關(guān)控制器114還在線118上輸出模式指示器信號,該模 式指示器信號被輸入到復(fù)用器108的第二輸入,使得模式指示器信號可連同已編碼信號一 起發(fā)送。模式指示器信號可只有一個(gè)比特,將與該模式指示器比特相關(guān)聯(lián)的數(shù)據(jù)塊指示為 語音編碼或?yàn)橐魳肪幋a,因此例如在解碼器處無需再做鑒別。反之,基于連同已編碼數(shù)據(jù)遞 送至該解碼器側(cè)的模式指示器比特,可基于模式指示器產(chǎn)生適當(dāng)?shù)那袚Q信號,用于將所接 收的已編碼的數(shù)據(jù)路由至適當(dāng)?shù)恼Z音解碼器或音樂解碼器。圖6是用來對施加至線110的語音信號及音樂信號進(jìn)行數(shù)字編碼的傳統(tǒng)編碼器設(shè) 計(jì)。通常語音編碼器用于語音較佳,而音頻編碼器用于音樂較佳。通過使用根據(jù)輸入信號 的本質(zhì)由一個(gè)編碼器切換至另一個(gè)編碼器的多編碼器系統(tǒng),可設(shè)計(jì)出統(tǒng)一的編碼方案。此 處一項(xiàng)重要問題是設(shè)計(jì)出可驅(qū)動該切換組件的極為適當(dāng)?shù)妮斎胄盘柗诸惼?。該分類器為圖 6所示的語音/音樂鑒別器116。通常音頻信號的可靠分類引入高延遲;而另一方面,延遲 是實(shí)時(shí)應(yīng)用的一項(xiàng)重要因素。通常期望語音/音樂鑒別器所引入的總算法延遲夠低,以允許將被切換的編碼器 用于實(shí)時(shí)應(yīng)用。圖7示意了如圖6所示編碼器設(shè)計(jì)中所經(jīng)歷的延遲。假設(shè)要以16kHz的抽樣率基 于IOM個(gè)抽樣的幀對施加于輸入線110的信號進(jìn)行編碼,使得語音/音樂鑒別可針對每個(gè) 幀提供判決,亦即針對每64毫秒提供判決。例如以WO 2008/071353A2所述的方式來影響 兩個(gè)編碼器間的過渡,語音/音樂鑒別器不會顯著增加被切換解碼器的算法延遲,不考慮 語音/音樂鑒別器所需延遲,該算法延遲共有1600個(gè)抽樣。此外,期望對決定進(jìn)行AAC塊 切換的同一個(gè)幀提供語音/音樂判決。該情況顯示于圖7,圖7示意了具有2048個(gè)抽樣長 度的AAC長塊120(亦即,長塊120包括兩個(gè)IOM個(gè)抽樣的幀),一個(gè)IOM個(gè)抽樣的幀的 AAC短塊122,及一個(gè)IOM個(gè)抽樣幀的AMR-WB+超幀1M。在圖7中,在分別具有有IOM個(gè)抽樣的幀1 及1 上進(jìn)行AAC塊切換判決及語 音/音樂判決,該兩項(xiàng)判決覆蓋了相同時(shí)間段。在此特定位置進(jìn)行該兩項(xiàng)判決,以使得編碼 能夠在由一個(gè)模式適當(dāng)?shù)刈兂闪硪粋€(gè)模式的時(shí)間過渡窗使用。結(jié)果,通過兩項(xiàng)判決引入了 至少512+64個(gè)抽樣的延遲。必須將該延遲與通過50%重迭所產(chǎn)生的IOM個(gè)抽樣的延遲相 加,形成AAC MDCT,獲得至少1600個(gè)抽樣的延遲。在常規(guī)的AAC中,只存在塊切換,并且延 遲恰為1600個(gè)抽樣。當(dāng)在幀126內(nèi)檢測到過渡時(shí),需要將該延遲用于由長塊至短塊時(shí)的切 換。這樣的變換長度的切換為避免前回波假信號所需。圖7中已解碼的幀130表示在任何 情況下(長塊或短塊)可在解碼器側(cè)重建的第一個(gè)完整幀。在使用AAC作為音樂編碼器的已切換的編碼器中,來自于判決階段的切換判決應(yīng) 避免將過多額外的延遲增加到原先的AAC延遲。額外的延遲來自于先行(Iookahead)幀 132,該幀為判決階段的信號分析所需。以例如16kHz的抽樣率,AAC延遲為100毫秒,而常 規(guī)的語音/音樂鑒別器使用約500毫秒的先行,這將導(dǎo)致具有600毫秒延遲的已切換的編 碼結(jié)構(gòu)。從而總延遲將變成原先AAC延遲的6倍。上述常規(guī)辦法是不利的,因?yàn)獒槍σ纛l信道的可靠分類來說,引入了高的非期望的延遲,因而需要有新穎辦法可用于鑒別包括不同類型段的信號,其中,通過該鑒別器所引 入的額外算法延遲夠低,以使得已切換的編碼器也可用于實(shí)時(shí)應(yīng)用。J. Wang等人的"Real-time speech/music classification with a hierarchical oblique decision tree”(ICASSP 2008,IEEE聲學(xué)國際會議,語音及信號處理2008年,2008 年3月31日至2008年4月4日)描述了一種用于使用相同數(shù)目的幀所獲得的短期特征及 長期特征進(jìn)行語音/音樂分類的辦法。這樣的短期特征及長期特征被用來分類信號,但只 使用出短期特征有限的性質(zhì),例如并未使用出分類反應(yīng)性,但該反應(yīng)性針對大部分音頻編 碼應(yīng)用扮演著重要角色。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種對不同類型的信號段做鑒別同時(shí)維持通過該鑒別所 弓I入的任何延遲極低的改良式辦法。本目的可通過根據(jù)權(quán)利要求1所述的方法以及根據(jù)權(quán)利要求14所述的鑒別器達(dá) 成。本發(fā)明的一個(gè)實(shí)施例提供一種用于分類信號的不同段的方法,該信號包括至少第 一類型及第二類型的段,該方法包括基于從所述信號提取的至少一個(gè)短期特征,對所述信號進(jìn)行短期分類,并遞送短 期分類結(jié)果;基于從所述信號提取的至少一個(gè)短期特征和至少一個(gè)長期特征,對所述信號進(jìn)行 長期分類,并遞送長期分類結(jié)果;以及將所述短期分類結(jié)果和所述長期分類結(jié)果進(jìn)行組合,以提供對所述信號的段屬于 第一類型或第二類型進(jìn)行指示的輸出信號。本發(fā)明的另一個(gè)實(shí)施例提供一種鑒別器,包括短期分類器,被配置為接收信號,并基于從所述信號提取的至少一個(gè)短期特征提 供所述信號的短期分類結(jié)果,所述信號包括至少第一類型及第二類型的段;長期分類器,被配置為接收信號,并基于從所述信號提取的至少一個(gè)短期特征和 至少一個(gè)長期特征提供所述信號的長期分類結(jié)果;及;判決電路,被配置為將所述短期分類結(jié)果(15 及長期分類結(jié)果進(jìn)行組合,以提 供對所述信號的段屬于第一類型還是第二類型進(jìn)行指示的輸出信號。本發(fā)明的實(shí)施例提供基于該短期分析結(jié)果與該長期分析結(jié)果比較的該輸出信號。本發(fā)明的實(shí)施例與將音頻信號的不同的非重迭的短時(shí)間段分類為語音或非語音 或其它類別的方法有關(guān)。該辦法基于特征的提取及對兩個(gè)不同分析窗口長度的統(tǒng)計(jì)學(xué)分 析。第一個(gè)窗口為長窗口,主要看過去。第一個(gè)窗口用來獲得針對該信號的分類的可靠但 延遲的判決線索。第二窗口的長度短,主要考慮當(dāng)前時(shí)間所處理的段或被稱為當(dāng)前段。第 二窗口用來獲得即時(shí)判決線索。優(yōu)選使用遲滯判決對該兩個(gè)判決線索進(jìn)行最佳組合,該遲 滯判決獲得來自于該延遲線索的記憶信息以及來自于該瞬時(shí)線索的瞬時(shí)信息。本發(fā)明的實(shí)施例使用短期特征用于短期分類器及長期分類器二者,讓兩種分類器 使用同一種特征的不同統(tǒng)計(jì)學(xué)。短期分類器將只提取瞬時(shí)信息,原因在于其只能存取一個(gè) 特征集合。例如可使用該等特征的平均值。另一方面,長期分類器由于考慮數(shù)個(gè)幀故可存取若干特征集合。結(jié)果長期分類器經(jīng)由使用比短期分類器更多個(gè)幀的統(tǒng)計(jì)學(xué),因而可使用該 信號的更多特性。舉例言之,長期分類器可使用隨著時(shí)間的經(jīng)過該特征的變化或該特征的 演化。如此,長期分類器比短期分類器可使用更多個(gè)特征,但引入了延遲或拖延。但長期特 征盡管引入延遲或拖延,將造成長期分類更魯棒更可靠。于若干實(shí)施例中,短期分類器及長 期分類器考慮相同短期特征,可一次運(yùn)算且由兩個(gè)分類器使用。如此,于這樣的實(shí)施例中, 長期分類器可直接由短期分類器接收短期特征。通過此該新穎辦法允許獲得強(qiáng)勁但引入低度延遲的一種分類。除了公知辦法外, 本發(fā)明的實(shí)施例限制由語音/音樂判決所引入的延遲,同時(shí)保有可靠的判決。于本發(fā)明的 一個(gè)實(shí)施例中,將先行限于1 個(gè)抽樣,其導(dǎo)致的總延遲只有108毫秒。
下面將參考
本發(fā)明的實(shí)施例,附圖中圖1是根據(jù)本發(fā)明的實(shí)施例,一種語音/音樂鑒別器的方框圖;圖2示意了由圖1的鑒別器的長期分類器及短期分類器所使用的分析窗口 ;圖3示意了在圖1的鑒別器中使用的遲滯判決(hysteresis decision);圖4是包括根據(jù)本發(fā)明的實(shí)施例,包括鑒別器的示例性編碼方案的方框圖;圖5是與該圖4的編碼方案相對應(yīng)的解碼方案的方框圖;圖6示出了用于依據(jù)音頻信號的鑒別而分開編碼語音及音樂的一種公知編碼器 設(shè)計(jì);及圖7示意了于圖6所示編碼器設(shè)計(jì)中經(jīng)歷的延遲。
具體實(shí)施例方式圖1是根據(jù)本發(fā)明的實(shí)施例的一種語音/音樂鑒別器116的方框圖。語音/音樂 鑒別器116包括在其輸入處接收輸入信號的短期分類器150,該輸入信號例如包括語音段 及音樂段的音頻信號。短期分類器150在輸出線152上輸出短期分類結(jié)果,即時(shí)判決線索。 鑒別器116還包括長期分類器154,其接收輸入信號并且在輸出線156上輸出長期分類結(jié) 果,延遲判決線索。此外,提供遲滯判決電路158,以下面將要更詳細(xì)地描述的方式,遲滯判 決電路158將來自于短期分類器150及長期分類器154的輸出信號進(jìn)行合并,以產(chǎn)生語音 /音樂判決信號,該語音/音樂判決信號可在線160上輸出,并且可被用來以上面關(guān)于圖6 描述的方式控制對輸入信號的段的其它處理,即,可以使用語音/音樂判決信號160來對已 被分類到語音編碼器或音頻編碼器的輸入信號段進(jìn)行路由。從而,依照本發(fā)明的實(shí)施例,關(guān)于經(jīng)由輸入線110施加到各個(gè)分類器的輸入信號, 對兩個(gè)不同分類器150及IM進(jìn)行并行使用。這兩個(gè)分類器被稱為長期分類器IM及短期 分類器150,其中,通過分析在分析窗口上運(yùn)算的各項(xiàng)特征的統(tǒng)計(jì)學(xué),可區(qū)別這兩個(gè)分類器。 這兩個(gè)分類器遞送被稱為即時(shí)判決線索(IDC)及延遲判決線索(DDC)的輸出信號152及 156?;谀康脑谟诓蹲脚c輸入信號的本質(zhì)有關(guān)的瞬時(shí)信息的短期特征,短期分類器150產(chǎn) 生IDC。該短期特征涉及可快速且隨時(shí)改變的信號的短期屬性。結(jié)果,預(yù)期短期特征是反應(yīng) 性的并且不會將長期延遲引入整個(gè)鑒別過程。例如,由于語音被視為5毫秒至20毫秒持續(xù) 時(shí)間的準(zhǔn)穩(wěn)態(tài)(quasi-stationary),以16kHz取樣的信號,可每16毫秒的幀對短期特征進(jìn)行運(yùn)算。長期分類器1 基于由于長期觀察信號所產(chǎn)生的特征(長期特征)來產(chǎn)生DDC,因 而允許實(shí)現(xiàn)更可靠的分類。圖2示意了由圖1所示的長期分類器IM及短期分類器150所使用的分析窗口。 假設(shè)在抽樣率16kHz處,幀為IOM個(gè)抽樣,長期分類器窗口 162的長度為4*10對+1觀個(gè)抽 樣,亦即長期分類器窗口 162跨四個(gè)音頻信號幀,并且長期分類器IM需要額外的1 個(gè)抽 樣用于進(jìn)行其分析。這樣的額外延遲也被稱為“先行”,在圖2中以參考符號164進(jìn)行指示。 圖2還示出了 10M+U8個(gè)抽樣的短期分類器窗口 166,即,跨一個(gè)音頻信號幀并且需要額外 延遲來分析當(dāng)前段。以1 來指示該當(dāng)前段,作為需要進(jìn)行語音/音樂判決的段。圖2指示的長期分類器窗口夠長,以可獲得語音的4-Hz能量調(diào)制特性。4-Hz 能量調(diào)制是傳統(tǒng)上在魯棒語音/音樂鑒別器中使用的語音的相關(guān)及鑒別特性,例如,由 Scheirer E.及Slaney M在"Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator"(ICASSP' 97,Munich, 1997)中所使用的。4_Hz 能量調(diào)制是 僅可以通過長時(shí)間段地觀察信號而提取的特征提取。通過語音/音樂鑒別器所引入的額外 延遲等于1 個(gè)抽樣的先行164,分類器150及巧4中的每一個(gè)需要該額外延遲來進(jìn)行各自 的分析,例如感知線性預(yù)測分析,如 H. Hermansky ^"Perceptive linear prediction (pip) analysis of speech,, (Journal of the Acoustical Society of America, vol.87, no. 4,pp. 1738-1752,1990)中以及 H. Hermansky 等人在 “Perceptually based linear predictive analysis of speech”(ICASSP 5. 509-512,1985)中所描述的。因此,當(dāng)將前 述實(shí)施例的鑒別器用于如圖6所示的編碼器設(shè)計(jì)中時(shí),切換的編碼器102及106的總延遲 將為1600+1 個(gè)抽樣,等于108毫秒,該延遲足夠低以用于實(shí)時(shí)應(yīng)用。現(xiàn)在參考圖3,圖3描述了用于獲得語音/音樂判決信號160的鑒別器116的分類 器150及巧4的輸出信號152與156的組合。根據(jù)本發(fā)明的實(shí)施例,通過使用遲滯判決來組 合延遲判決線索DDC及即時(shí)判決線索IDC。遲滯判決廣泛用于后處理判決以對其進(jìn)行穩(wěn)定。 圖3示意二態(tài)(two-state)遲滯判決為DDC及IDC的函數(shù),以確定語音/音樂判決信號是否 應(yīng)該將輸入信號的當(dāng)前所處理的段指示為語音段或音樂段。在圖3中可見特性遲滯周期, 分類器150及154對IDC及DDC進(jìn)行規(guī)度化(normalized),以使其數(shù)值為_1至1,其中,_1 表示似然度完全是類音樂(music-like)的,及1表示似然度完全是類語音(speech-like) 的。判決基于函數(shù)F (IDC,DDC)的值,示例下面將描述其示例。在圖3中,F(xiàn)l (DDC,IDC) 指示了 F(IDC,DDC)從音樂態(tài)至語音態(tài)應(yīng)跨過的閾值。F2(DDC,IDC)指示了 F(IDC,DDC)從 語音態(tài)至音樂態(tài)應(yīng)跨過的閾值。然后,可基于如下偽碼對具有索引η的當(dāng)前段或當(dāng)前幀的 最終判決D (η)進(jìn)行計(jì)算% Hysteresis Decision Pseudo CodeIf (D(n-l) == music)If (F (IDC, DDC) < Fl (DDC, IDC))D(n) == musicElseD(n) == speechElse
If (F (IDC, DDC) > F2 (DDC, IDC))D (n) == speechElseD (η) == music% End Hysteresis Decision Pseudo Code根據(jù)本發(fā)明的實(shí)施例,函數(shù)F(IDC,DDC)及前述閾值設(shè)置如下F(IDC, DDC) = IDCFl (IDC, DDC) = 0. 4-0. 4*DDCF2 (IDC, DDC) = _0· 4-0. 4*DDC備選地,可做下列定義F(IDC,DDC) = (2*IDC+DDC)/3Fl (IDC, DDC) = _0· 75*DDCF2 (IDC, DDC) = _0· 75*DDC當(dāng)使用后一種定義時(shí),遲滯周期變成零,只基于唯一的自適應(yīng)閾值做判決。本發(fā)明并非限于前文所述的遲滯判決。后文將描述用于對分析結(jié)果進(jìn)行組合以獲 得輸出信號的其它實(shí)施例。通過以使用DDC和IDC特性的方式來獲得閾值,可使用簡單的閾值判決來替代遲 滯判決。由于DDC來自于對該信號的長期觀察,故DDC被視為更可靠的鑒別線索。然而,部 分基于對信號的過去觀察來運(yùn)算DDC。常規(guī)的分類器只將DDC值與閾值0比較,當(dāng)DDC大于 0時(shí)將段分類為類語音,否則即分類為類音樂,這樣的分類器將有延遲的判決。在本發(fā)明的 一個(gè)實(shí)施例中,發(fā)明人經(jīng)由使用IDC來自適應(yīng)閾值判決,使得該判決更具有反應(yīng)性。出于此 目的,閾值可基于下述偽碼自適應(yīng)% Pseudo code of adaptive thresholdingIf (DDC > -0. 5*IDC)D(n) == speech.ElseD(n) == music% End of adaptive thresholding在另一個(gè)實(shí)施例中,可以使用DDC來使得IDC更可靠。IDC已知具有反應(yīng)性,但不 如DDC可靠。此外,觀察過去段與當(dāng)前段間的DDC的演化,可給出另一指示,指示圖2的幀 166如何影響在段162上計(jì)算的DDC。符號DDC (η)被用于DDC的當(dāng)前值,而DDC(η_1)用于 過去值。使用數(shù)值DDC (η)及DDC (η-1),通過使用判決樹可以使得IDC更可靠,描述如下% Pseudo code of decision treeIf (IDC > 0 && DDC (n) > 0)D(n) = speechElse if (IDC < 0 && DDC (n) < 0)D(n) = musicElse if (IDC > 0 && DDC (n)-DDC (n_l) >0)D(n) = speech
Else if (IDC < 0 && DDC (η)-DDC (η—1) < 0)D (η) = musicElse if (DDC > 0)D (η) = speechElseD (η) = music% End of decision tree在上述判決樹中,如果兩個(gè)線索顯示出相同的似然度,則直接進(jìn)行判決。如果兩個(gè) 線索給出相矛盾的指示,則考慮DDC的演化。若差值DDC (n)-DDC (n-1)為正,則假設(shè)當(dāng)前段 為類語音。否則可假設(shè)當(dāng)前段為類音樂。若此新指示的方向與IDC相同,則進(jìn)行最終判決。 若兩項(xiàng)嘗試都不能給出明確的判決,則通過只考慮延遲的線索DDC進(jìn)行判決,因?yàn)椴荒茏C 實(shí)IDC的可靠度。下面將更詳細(xì)地描述根據(jù)本發(fā)明的實(shí)施例的各個(gè)分類器150及154。首先轉(zhuǎn)向長期分類器154,注意到對于從每個(gè)256個(gè)抽樣的子幀提取特征集合 是相同的。第一特征是感知線性預(yù)測聲譜系數(shù)(PLPCC),由H. Hermansky在“Perceptive linear prediction(pip)analysis of speech" (Journal of the Acoustical Society of America, vol. 87, no. 4, pp. 1738-1752,1990)中以及 H. Hermansky 中在"Perceptually based linear predictive analysis of speech"(ICASSP 5. 509-512,1985)進(jìn)行了描述。 通過使用人類聽覺感官估算,PLPCC可有效用于揚(yáng)聲器分類。此項(xiàng)特征可用于鑒別語音及 音樂,并確實(shí)允許通過關(guān)注隨著時(shí)間的特征變化,來區(qū)別語音的特性共振峰及語音的音節(jié) 4-Hz調(diào)制。然而為了更加魯棒,將PLPCC與可捕捉音高信息的另一項(xiàng)特征組合,音高信息是 語音的另一項(xiàng)重要特性,在編碼上具有關(guān)鍵重要性。事實(shí)上,語音編碼依靠于假設(shè)輸入信號 為偽單周期信號。語音編碼方案可有效用于這樣的信號。另一方面,語音的音高特性對音 樂編碼器的編碼效率有很大傷害。語音的天然顫音產(chǎn)生平滑的音高延遲波動,造成音樂編 碼器的頻率表示不能極大地緊壓能量,而這是獲得高編碼效率所需要的。可確定下列音高特征聲門脈沖能量比本特征是對聲門脈沖與LPC殘余信號之間的能量比進(jìn)行計(jì)算。通過使用檢峰 (pick-peaking)算法從LPC殘余信號中提取聲門脈沖。通常,有聲段的LPC殘余顯示出來 自于聲門振動的大的類脈沖結(jié)構(gòu)。在有聲段期間,該項(xiàng)特征為高。長期增益預(yù)測這是在長期預(yù)測期間通常在語音編碼器中運(yùn)算的增益(請參見“Extended Adaptive Multi-Rate-ffideband(AMR-ffB+)codec" (3GPP TS 26.290 V6. 3. 0,2005-06, Technical Specification)).本特征測量該信號的周期性,并且基于音高延遲估算。音高延遲波動本特征確定當(dāng)與最近的子幀比較時(shí),當(dāng)前音高延遲估算的差。對于有聲語音,本特 征應(yīng)該低但不是零,并且是平滑演化的。一旦長期分類器已經(jīng)提取了所要求的特征集合,對這些所提取的特征使用統(tǒng)計(jì)分類器。首先通過在語音訓(xùn)練集合和音樂訓(xùn)練集合上提取特征來訓(xùn)練該分類器。在這兩個(gè)訓(xùn) 練集合上,將所提取的特征規(guī)度化為平均值為0且方差為1。對各個(gè)訓(xùn)練集合,已提取的且 已規(guī)度化的特征被聚集在長期分類器窗口內(nèi),并使用五個(gè)高斯模型(5GaUSSian)來通過高 斯混合模型(GMM)進(jìn)行模型化。在訓(xùn)練序列結(jié)束時(shí),獲得及保存規(guī)度化參數(shù)集合和兩個(gè)GMM 參數(shù)集合。對每個(gè)要分類的幀,首先對特征進(jìn)行提取并使用規(guī)度化參數(shù)來規(guī)度化。分別使用 語音類別的GMM及音樂類別的GMM,對所提取的且已規(guī)度化的特征運(yùn)算針對語音的最大似 然度(llcLspeech)及針對音樂的最大似然度(lldjmisic)。延遲判決線索DDC隨后計(jì)算如 下DDC = (lid—speech-lid—music)/(abs(lid—music)+abs (lid—speech))DDC以-1至1為邊界,并且當(dāng)語音的最大似然度高于音樂的最大似然度(lld_ speech > lid—music)時(shí),DDC 為正。短期分類器用作短期特征PLPCC。除了在長期分類器中之外,僅在窗口 1 分析該 特征。使用五個(gè)高斯模型以通過高斯混合模型(GMM)在該短時(shí)間內(nèi)進(jìn)行對該特征的統(tǒng)計(jì)。 訓(xùn)練兩個(gè)模型,一個(gè)用于音樂,另一個(gè)用于語音。值得注意的是,這兩個(gè)模型與針對長期分 類器所獲得的模型不同。對各個(gè)要分類的幀,首先提取PLPCC,使用語音類別的GMM及音樂 類別的GMM分別運(yùn)算語音的最大似然度(llcLspeech)及音樂的最大似然度(lldjmisic)。 然后如下計(jì)算即時(shí)判決線索IDC IDC = (lld_speech_lld_music)/(abs(lld_music)+abs(lld_speech))IDC 以-1 至 1 為界。從而,基于特征“感知線性預(yù)測聲譜系數(shù)(PLPCC) ”,短期分類器150產(chǎn)生該信號的 短期分類結(jié)果;以及基于相同特征“感知線性預(yù)測聲譜數(shù)(PLPCC)”和前述的額外特征(例 如,音高特征),長期分類器1 產(chǎn)生該信號的長期分類結(jié)果。此外,長期分類器由于接入較 長的觀察窗口,因此可使用共享特征(亦即,PLPCC)的不同特性。從而,當(dāng)將短期結(jié)果與長 期結(jié)果進(jìn)行組合時(shí),對于分類,充分考慮到了短期特征,即,對短期特征的性質(zhì)進(jìn)行了充分 使用。以下將更詳細(xì)地描述各個(gè)分類器150及154的又一個(gè)示例。根據(jù)本示例,通過短期分類器分析的短期特征主要與前述感知線性預(yù)測聲譜數(shù) (PLPCC)相對應(yīng)。PLPCC廣泛用于語音及揚(yáng)聲器辨識及MFCC (參見上文)。保留PLPCC,因 為PLPCC享有線性預(yù)測(LP)的大部分功能,LP被用于大部分近代語音編碼器且已經(jīng)于已 切換的音頻編碼器中實(shí)現(xiàn)。和LP—樣,PLPCC可提取語音的共振峰結(jié)構(gòu),然而考慮到感官, PLPCC與揚(yáng)聲器更為獨(dú)立,并從而與語言信息更具有相關(guān)性。對16kHz取樣的輸入信號使用 16 個(gè)階數(shù)(order)。除了 PLPCC外,將調(diào)聲強(qiáng)度作為短期特征。調(diào)聲強(qiáng)度本身并未被考慮為實(shí)際上用 于鑒別,而是在特征維度方面關(guān)于PLPCC有利。調(diào)聲強(qiáng)度允許在特征維度中至少帶入與 語音的有聲發(fā)音及無聲發(fā)音分別相對應(yīng)的兩個(gè)簇集?;谑褂貌煌瑓?shù)做考績計(jì)算,該 參數(shù)包括零交叉計(jì)數(shù)器(zc)、頻譜傾斜(tilt)、音高穩(wěn)定性(ps)、及音高的規(guī)度化相關(guān)性 (nc)。四項(xiàng)參數(shù)皆被規(guī)度化為0至1,0與典型的無聲信號相對應(yīng),1與典型的有聲信號相對 應(yīng)。于本實(shí)施例中,由VMR-WB語音編碼器所使用的語音分類標(biāo)準(zhǔn)激發(fā)調(diào)聲強(qiáng)度,該標(biāo)準(zhǔn)述于 Milan Jelinek及 Redwan Salami 的"Wideband speech coding advances in vmr-wb standard", (IEEE Trans, on Audio, Speech and Language Processing, vol. 15, no. 4, pp. 1167-1179, May 2007)?;谝宰韵嚓P(guān)為基礎(chǔ)所演化的音高追蹤器。針對幀索引k,調(diào) 聲強(qiáng)度u(k)具有下述形式 1v(k) = -(2*nc(k)+2*ps(k)+tilt(k)+zc (k))
短期特征的鑒別能力通過高斯混合模型(GMMQ作為分類器來評估。應(yīng)用了兩個(gè) GMM,一個(gè)GMM用于語音類別,另一個(gè)GMM用于音樂類別。改變混合物數(shù)目來評估對性能的影 響。表1顯示針對不同數(shù)目混合物的精確度。對四個(gè)連續(xù)幀的每個(gè)段運(yùn)算判決??傃舆t等 于64毫秒,其對已切換的音頻編碼為適合。可觀察到性能隨著混合物數(shù)目而增加。I-GMMs 與5-GMMs間的間隙特別重要,可通過下述事實(shí)描述,語音的共振峰表現(xiàn)太復(fù)雜而無法只通 過一個(gè)高斯來定義。表1 短期特征分類準(zhǔn)確度,以%表示
I-GMMs5-GMMs10-G麗s20-GMMs語音95. 3396. 5297. 0297. 60~w*. ΓΓ* 曰爾92. 1791. 9791. 6191. 77平均93. 7594. 2594. 3194. 68現(xiàn)在描述長期分類器154,發(fā)現(xiàn)許多研究工作者例如M. J. Carey等人,「語音及音 樂鑒別的特征比較”,聲學(xué)、語音及信號處理,第12期149至152頁,1999年三月,考慮統(tǒng)計(jì) 特征的變因比特征本身更具有鑒別力。至于粗略的一般規(guī)則,考慮音樂更穩(wěn)定具有更低變 因。相反地,語音更容易通過其顯著4-Hz能量調(diào)制來區(qū)別,原因在于語音信號周期性介于 有聲段與無聲段間改變。此外連續(xù)不同的音素讓語音特征較不恒定。于本實(shí)施例中,考慮 兩個(gè)長期特征,一個(gè)特征基于變因運(yùn)算,而另一個(gè)特征基于語音的音高輪廓的先驗(yàn)知識。長 期特征自適應(yīng)于低延遲SMD (語音/音樂鑒別)。PLPCC的移動的變因包括在覆蓋數(shù)個(gè)窗口的重迭分析窗口針對每一個(gè)PLPCC集 合來運(yùn)算變因,以強(qiáng)調(diào)最末的窗口。為了限制所引入的潛在延遲,分析窗口為非對稱性,只 考慮當(dāng)前窗口及過去的歷史。于第一步驟中,如下所述在最末的N個(gè)幀上運(yùn)算PLPCC的移 動的平均Hia111 (k)mam(k) = ^PLPCm (k-i)-w(i)
i=0此處PLPm(k)是在來自于第k個(gè)幀的總共m個(gè)系數(shù)的第m個(gè)聲譜系數(shù)。隨后將移 動的方差mvm (k)定義為
N-Irnvm(k) = ^(PLPCm(k — i)-mam(k))2. w(i)
i=0此處w為長度N的窗口,于本實(shí)施例中具有定義如下的斜坡斜率
1權(quán)利要求
1.一種用于對信號的不同段進(jìn)行分類的方法,所述信號包括至少第一類型及第二類型 的段,該方法包括基于從所述信號提取的至少一個(gè)短期特征,對所述信號進(jìn)行短期分類(150),并遞送短 期分類結(jié)果(152);基于從所述信號提取的至少一個(gè)短期特征和至少一個(gè)長期特征,對所述信號進(jìn)行長期 分類(1 ),并遞送長期分類結(jié)果(156);以及將所述短期分類結(jié)果(15 和所述長期分類結(jié)果(156)進(jìn)行組合(158),以提供對所述 信號的段屬于第一類型或第二類型進(jìn)行指示的輸出信號(160)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述組合步驟包括基于對所述短期分類結(jié)果 (152)與長期分類結(jié)果(156)的比較來提供所述輸出信號。
3.根據(jù)權(quán)利要求1或2所述的方法,其中通過分析要被分類的信號的當(dāng)前段獲得所述至少一個(gè)短期特征; 通過分析所述信號的所述當(dāng)前段及所述信號的一個(gè)或多個(gè)先前段獲得所述至少一個(gè) 長期特征;及所述輸出信號(160)指示所述當(dāng)前段屬于第一類型還是第二類型。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其中通過分析第一長度的分析窗口(168)和第一分析方法獲得所述至少一個(gè)短期特征;及 通過分析第二長度的分析窗口(16 和第二分析方法獲得所述至少一個(gè)長期特征,所 述第一長度比所述第二長度短,以及所述第一分析方法與所述第二分析方法不同。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述第一長度橫跨所述信號的當(dāng)前段,所述第二 長度橫跨所述信號的所述當(dāng)前段及所述信號的一個(gè)或多個(gè)先前段,以及所述第一長度與所 述第二長度包括覆蓋分析周期的額外周期(164)。
6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法,其中,將所述短期分類結(jié)果(15 與所述 長期分類結(jié)果(156)進(jìn)行組合(158)包括基于組合結(jié)果的遲滯判決,所述組合結(jié)果包括各 自都通過預(yù)定的加權(quán)因子加權(quán)的短期分類結(jié)果(15 和長期分類結(jié)果(156)。
7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其中,所述信號是數(shù)字信號,以及所述信 號的段包括以特定抽樣率獲得的預(yù)定數(shù)目抽樣。
8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法,其中 所述信號包括語音段和音樂段;所述至少一個(gè)短期特征包括PLPCC參數(shù);以及 所述至少一個(gè)長期特征包括音高特性信息。
9.根據(jù)權(quán)利要求1至8中任一項(xiàng)所述的方法,其中,用于短期分類的短期特征與用于長 期分類的短期特征相同或不同。
10.一種用于對包括至少第一類型及第二類型的段的信號進(jìn)行處理的方法,所述方法 包括根據(jù)權(quán)利要求1至9中任一項(xiàng)所述的方法對所述信號的段進(jìn)行分類(116); 取決于所述分類步驟(116)提供的輸出信號(160),依照第一過程或第二過程處(102、 206 ;106,208)所述段;及 輸出已處理的段。
11.根據(jù)權(quán)利要求10所述的方法,其中 所述信號包括語音段及音樂段;當(dāng)所述輸出信號(160)指示所述段為語音段時(shí),通過語音編碼器(10 處理所述段;及 當(dāng)所述輸出信號(160)指示所述段為音樂段時(shí),通過音樂編碼器(106)處理所述段。
12.根據(jù)權(quán)利要求11所述的方法,還包括將所述已編碼段與來自于所述輸出信號(160)的指示所述段類型的信息進(jìn)行組合 (108)。
13.一種計(jì)算機(jī)程序,用于當(dāng)在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行根據(jù)權(quán)利要求1至12中任一項(xiàng)所 述的方法。
14.一種鑒別器,包括短期分類器(150),被配置為接收信號,并基于從所述信號提取的至少一個(gè)短期特征 提供所述信號的短期分類結(jié)果(152),所述信號包括至少第一類型及第二類型的段;長期分類器(1 ),被配置為接收信號,并基于從所述信號提取的至少一個(gè)短期特征 和至少一個(gè)長期特征提供所述信號的長期分類結(jié)果(156);及判決電路(158),被配置為將所述短期分類結(jié)果(152)及長期分類結(jié)果(156)進(jìn)行組 合,以提供對所述信號的段屬于第一類型還是第二類型進(jìn)行指示的輸出信號(160)。
15.根據(jù)權(quán)利要求14所述的鑒別器,其中,所述判決電路(158)被配置為基于對所述 短期分類結(jié)果(15 與長期分類結(jié)果(16 的比較提供所述輸出信號。
16.根據(jù)權(quán)利要求14或15所述的鑒別器,其中,所述信號包括語音段及音樂段,所述輸 出信號(160)指示信號的段屬于語音段還是音樂段。
17.一種信號處理設(shè)備,包括輸入(110),被配置為接收要被處理的信號,其中,所述信號包括至少第一類型和第 二類型的段;第一處理級(102 ;206),被配置為處理第一類型的段; 第二處理級(104 ;208),被配置為處理第二類型的段;根據(jù)權(quán)利要求14至16中任一項(xiàng)所述的鑒別器(116 ;204),耦接至所述輸入;以及 切換裝置(112 ;202),耦接在所述輸入與所述第一處理級和所述第二處理級之間,被 配置為取決于來自于所述鑒別器(116)的輸出信號(160),將來自于所述輸入(110)的信 號施加至所述第一處理級及第二處理級中的一個(gè)。
18.一種音頻編碼器,包括根據(jù)權(quán)利要求17所述的信號處理設(shè)備,其中,所述信號是包括語音段及音樂段的音頻信號,以及所述第一處理級包括語音編碼器(102),所述第二處理級包括音樂編碼器(106)。
全文摘要
為了將包括至少第一類型及第二類型段例如音頻段及語音段的信號的不同段分類,該信號系基于提取自該信號的至少一個(gè)短期特征做短期分類(150)及遞送短期分類結(jié)果(152)。該信號也基于提取自該信號的至少一個(gè)短期特征及至少一個(gè)長期特征做長期分類(154)及遞送長期分類結(jié)果(156)。該短期分類結(jié)果(152)及長期分類結(jié)果(156)組合(158)而提供輸出信號(160),指示該信號的段是屬于第一類型還是屬于第二類型。
文檔編號G10L11/00GK102089803SQ200980127195
公開日2011年6月8日 申請日期2009年6月16日 優(yōu)先權(quán)日2008年7月11日
發(fā)明者于爾根·赫勒, 尼古拉斯·里特爾博謝, 延斯·希斯費(fèi)爾德, 弗雷德里克·納格爾, 斯特凡·拜爾, 斯特凡·瓦希尼克, 橫谷義一, 熱雷米·勒康特, 紀(jì)堯姆·福克斯 申請人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會