專利名稱:對音頻信號進行歌曲檢測的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號處理。更具體地,本發(fā)明的實施例涉及對音頻信號進行歌曲檢測的方法和設(shè)備。
背景技術(shù):
在許多音頻應(yīng)用中,音頻信號被記錄下來。例如在移動電話、平板計算機或其它便攜設(shè)備的調(diào)頻(FM)錄音應(yīng)用中,能夠響應(yīng)用戶對錄音按鈕的操作或基于預(yù)訂來記錄FM節(jié)目。所記錄的音頻信號可包含歌曲(song)、話音(speech)(包含話音疊加音樂(speech-over-music))、噪聲、靜音等等。用戶可能希望僅保存所記錄的音頻信號中的單獨的歌曲。 已經(jīng)提出了根據(jù)音頻信號中音頻分段(segment)的重復(fù)出現(xiàn)來從音頻信號中檢測歌曲的方案,其中假定重復(fù)的長音頻分段是歌曲,而話音很少多次重復(fù)。在來自PopCatcher AB, Hastholmsvagen 28, 5tr, 131 40 Nacka, SWEDEN 的 PopCatcher 因特網(wǎng)廣播錄音機應(yīng)用(Internet Radio Recorder Application)中能夠看到這種方案的示例性實現(xiàn),這里通過弓I用將其合并進來以用于各種目的。本章節(jié)中描述的方案是能夠采用的方案,但不一定是先前已經(jīng)構(gòu)思或采用的方案。因此,除非另外指出,不應(yīng)僅因為被包含在本章節(jié)中就假定本章節(jié)描述的任何方案適合作為現(xiàn)有技術(shù)。類似地,根據(jù)本章節(jié)而關(guān)于一個或更多個方案發(fā)現(xiàn)的問題不應(yīng)被假定為任何現(xiàn)有技術(shù)中已經(jīng)認識到的問題,除非另外指出。
發(fā)明內(nèi)容
根據(jù)本發(fā)明一個實施例,提供了一種對音頻信號進行歌曲檢測的方法。音頻信號的片段被分類為包括音樂的類別。音樂片段的類邊界被檢測為候選邊界。導(dǎo)出包含由候選邊界限定的一個或更多個非交疊部分的至少一個組合。每個部分滿足下列條件1)包含長于預(yù)定最小歌曲時長的至少一個音樂分段,以作為候選歌曲,2)短于預(yù)定最大歌曲時長,3)開始和結(jié)束于音樂片段,以及4)每個部分中音樂片段的比例大于預(yù)定最小比例。根據(jù)本發(fā)明另一個實施例,提供了一種對音頻信號進行歌曲檢測的設(shè)備。設(shè)備包含分類單元、邊界檢測器和歌曲搜索器。分類單元把音頻信號的片段分類為包括音樂的類另IJ。邊界檢測器檢測音樂片段的類邊界以作為候選邊界。歌曲搜索器導(dǎo)出包含由候選邊界限定的一個或更多個非交疊部分的至少一個組合。每個部分滿足下列條件1)包含長于預(yù)定最小歌曲時長的至少一個音樂分段,以作為候選歌曲,2)短于預(yù)定最大歌曲時長,3)開始和結(jié)束于音樂片段,以及4)每個部分中音樂片段的比例大于預(yù)定最小比例。下面參考附圖詳細描述本發(fā)明的進一步特性和優(yōu)點,以及本發(fā)明各個實施例的結(jié)構(gòu)和操作。應(yīng)當(dāng)注意,本發(fā)明不限于這里描述的具體實施例。在這里出現(xiàn)這樣的實施例只是出于說明的目的。相關(guān)領(lǐng)域技術(shù)人員根據(jù)這里包含的指導(dǎo)會想到其它實施例。
在附圖中通過例子圖解本發(fā)明,但這些例子不對本發(fā)明產(chǎn)生限制,圖中用類似的附圖標記表示類似的元件,其中圖I是圖示根據(jù)本發(fā)明一個實施例的用于對音頻信號進行歌曲檢測的示例設(shè)備的框圖;圖2A是圖示候選邊界的檢測的示意圖;圖2B示出在I小時音頻信號上計算的K-L散度(KLD,Kullback-LeiblerDivergence)序列的示例;圖3是圖示計算內(nèi)容一致性距離的示例方法的示意圖;圖4是圖示分類結(jié)果和候選邊界的示例的示意圖;圖5是圖示根據(jù)本發(fā)明一個實施例的對音頻信號進行歌曲檢測的示例方法的流程圖;圖6是圖示根據(jù)本發(fā)明一個實施例的用于對音頻信號進行歌曲檢測的示例設(shè)備的框圖;圖7是圖示對數(shù)似然差A(yù)BIC(t)和貝葉斯信息準則(BIC,Bayesian InformationCriteria)窗口之間的關(guān)系的示意圖;圖8是圖示根據(jù)本發(fā)明一個實施例的對音頻信號進行歌曲檢測的示例方法的流程圖;而圖9是圖示用于實現(xiàn)本發(fā)明的各個方面的示例性系統(tǒng)的框圖。
具體實施例方式下面參考附圖描述本發(fā)明實施例。應(yīng)當(dāng)注意,出于清楚的目的,在附圖和描述中省略了有關(guān)所屬技術(shù)領(lǐng)域的技術(shù)人員知道但是與本發(fā)明無關(guān)的部分和過程的表示和說明。本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明的各方面可以被實施為系統(tǒng)(例如,在線數(shù)字媒體商店、云計算服務(wù)、流媒體服務(wù)、電信網(wǎng)絡(luò)等等)、裝置(例如,蜂窩電話、便攜媒體播放器、個人計算機、電視機頂盒或數(shù)字視頻錄像機、或任何媒體播放器)、方法或計算機程序產(chǎn)品。因此,本發(fā)明可以具體實現(xiàn)為以下形式,即,可以是完全硬件實施例、完全軟件實施例(包括固件、駐留軟件、微代碼等)、或組合軟件部分與硬件部分的實施例,本文可以一般稱為"電路"、"模塊"或"系統(tǒng)"。此外,本發(fā)明的各個方面可以采取體現(xiàn)為一或多個計算機可讀介質(zhì)的計算機程序產(chǎn)品的形式,該計算機可讀介質(zhì)上面體現(xiàn)有計算機可讀程序代碼。可以使用一個或多個計算機可讀介質(zhì)的任何組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是一但不限于一電的、磁的、光的、電磁的、紅外線的、或半導(dǎo)體的系統(tǒng)、設(shè)備或裝置、或前述各項的任何適當(dāng)?shù)慕M合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括以下有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲裝置、磁存儲裝置、或前述各項的任何適當(dāng)?shù)慕M合。在本文語境中,計算機可讀存儲介質(zhì)可以是任何含有或存儲供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相聯(lián)系的程序的有形介質(zhì)。計算機可讀信號介質(zhì)可以包括例如在基帶中或作為載波的一部分傳播的其中帶有計算機可讀程序代碼的數(shù)據(jù)信號。這樣的傳播信號可以采取任何適當(dāng)?shù)男问?,包括但不限于電磁的、光的或其任何適當(dāng)?shù)慕M合。計算機可讀信號介質(zhì)可以是不同于計算機可讀存儲介質(zhì)的、能夠傳達、傳播或傳輸供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相聯(lián)系的程序的任何一種計算機可讀介質(zhì)。體現(xiàn)在計算機可讀介質(zhì)中的程序代碼可以采用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于無線、有線、光纜、射頻等等、或上述各項的任何適當(dāng)?shù)慕M合。 用于執(zhí)行本發(fā)明各方面的操作的計算機程序代碼可以以一種或多種程序設(shè)計語言的任何組合來編寫,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言,諸如Java、Smalltalk、C++之類,還包括常規(guī)的過程式程序設(shè)計語言,諸如"C"程序設(shè)計語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶的計算機上執(zhí)行、部分地在用戶的計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶的計算機上并且部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務(wù)器上執(zhí)行。在后一種情形中,遠程計算機可以通過任何種類的網(wǎng)絡(luò),包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN),連接到用戶的計算機,或者,可以(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng))連接到外部計算機。以下參照按照本發(fā)明實施例的方法、設(shè)備(系統(tǒng))和計算機程序產(chǎn)品的流程圖和/或框圖來描述本發(fā)明的各個方面。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理設(shè)備的處理器以生產(chǎn)出一種機器,使得通過計算機或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令產(chǎn)生用于實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。也可以把這些計算機程序指令存儲在能夠指引計算機或其它可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀介質(zhì)中,使得存儲在計算機可讀介質(zhì)中的指令產(chǎn)生一個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令的制造品。也可以把計算機程序指令加載到計算機或其它可編程數(shù)據(jù)處理設(shè)備上,導(dǎo)致在計算機或其它可編程數(shù)據(jù)處理設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的過程,使得在計算機或其它可編程設(shè)備上執(zhí)行的指令提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。根據(jù)候詵邊界檢測歌曲圖I是圖示根據(jù)本發(fā)明一個實施例的用于對音頻信號進行歌曲檢測的示例設(shè)備100的框圖。如圖I所示,設(shè)備100包含分類單元101、邊界檢測器102和歌曲搜索器103。要由設(shè)備100處理的音頻信號110包含多個連續(xù)片段(clip)。每個片段包含多個連續(xù)幀。片段的長度和幀的長度取決于對片段進行分類的分類模型的要求。分類分類單元101把音頻信號110的片段分類為包括音樂的類別。在本說明書的語境中,術(shù)語"音樂"包含具有樂器聲音的歌曲和沒有樂器聲音的歌曲。
可以根據(jù)針對要識別的類別(例如,音樂)的訓(xùn)練樣本集來訓(xùn)練分類模型??梢圆捎酶鞣N用于對象分類的模型。例如,分類模型可以基于adaBoost、支持向量機、隱馬爾科夫模型(Hidden Markov Model)或高斯混合模型。在分類模型中可以采用各種用于表征要識別的類別的音頻信號之間的差異的特征。例如,每個幀的特征(也稱作幀級特征)可包括音色相關(guān)特征和色度特征中的至少之一。音色相關(guān)特征可被用于區(qū)分不同類型的聲音產(chǎn)生,例如音樂、話音等等。例如,音色相關(guān)特征可以包括過零率、短時能量、子帶譜分布、譜通量和梅爾頻率倒譜系數(shù)(Mel-frequencyCesptral Coefficient)中的至少之一。色度特征可以被用來表示音頻信號的旋律信息。例如,色度特征通常被定義為12維向量,其中每個維對應(yīng)于半音類的強度(一個八度程中有12個半音)。在分類單元101的示例性實現(xiàn)中,分類單元101可以計算每個片段中的幀的幀級特征,以及根據(jù)片段的幀級特征導(dǎo)出用于表征幀級特征的變化的特征(也稱作片段級特征)。片段級特征可以被用來獲取不同聲音的節(jié)奏特性,特別是區(qū)分話音和音樂。例如,片段的片段級特征可以包括片段的幀級特征的均值和標準差,和/或節(jié)奏特征。片段的節(jié)奏 特征可以被用來獲取片段的幀級特征中的規(guī)則重現(xiàn)或模式。例如,節(jié)奏特征包括節(jié)奏強度、節(jié)奏規(guī)則程度、節(jié)奏清晰度和2維(2D)子帶調(diào)制中的至少之一。可以基于相應(yīng)的片段級特征來對每個片段進行分類。計算特征的功能可以實現(xiàn)在分類單元101中,也可以實現(xiàn)在分立的特征提取器(圖I中未圖解)中。在某些情況下,音頻信號110中記錄的歌曲信號可包含由于短時干擾或其它因素引起的噪聲。在分類單元101的一個進一步的實施例中,分類單元101識別的類別可進一步包括噪聲。分類單元101可以進一步把與兩個音樂片段相接并且長度小于一個閾值的任何噪聲分段再分類為音樂??梢愿鶕?jù)有關(guān)樣本歌曲錄音中噪聲長度的統(tǒng)計數(shù)據(jù)來獲得該閾值。通過這種方式,錯誤記錄為噪聲的真實歌曲信號能夠被校正為音樂類別。在某些情況下,歌曲中的片段可能被錯誤地分類為非音樂類別。這樣的片段通常呈現(xiàn)為長音樂分段中的突然變化。在分類單元101的一個進一步的實施例中,分類單元101可以進一步計算每個片段的類別的置信度。分類單元101可以包括具有不同平滑窗口的第一中值濾波器和一個或更多個第二中值濾波器。第一中值濾波器從音頻信號的開始到結(jié)束對片段進行平滑。對于每個當(dāng)前片段,如果該片段的置信度低于一個閾值并且該片段的類別不同于以該片段為中心的平滑窗口內(nèi)各片段的類別的中值,則該片段的類別被更新為該中值。該閾值被用來確定置信度是否能夠指示正確的分類。該閾值能夠預(yù)先設(shè)置,或能夠通過用樣本集測試分類器來學(xué)習(xí)。具有不同平滑窗口的第二中值濾波器接著對各片段進行平滑。通過這種方式,這種錯誤分類的片段能夠被再分類為音樂。檢測候詵邊界A-根據(jù)分類講行檢測由于每個歌曲能夠表現(xiàn)為一個或更多個連續(xù)音樂片段組成的分段(在下文中也稱作音樂分段),音頻信號110中的片段的類別信息可揭示出一種關(guān)于音頻信號110中包含的真實歌曲的信息。具體地,根據(jù)片段的類別信息,可以從音頻信號110中找到每個音樂分段,并且音樂分段可被視作對相應(yīng)真實歌曲的估計。
邊界檢測器102檢測音樂片段的類邊界(音樂片段和非音樂片段之間),以作為候選邊界120。通過這種方式,能夠檢測出可被估計為真實歌曲的音樂分段。B-根據(jù)特征相異度進行檢測此外,在例如連續(xù)播放的情況下,兩個或更多個連續(xù)歌曲也可以表現(xiàn)為一個音樂分段(例如,音樂混合或采樣)。在這樣的情況下,根據(jù)類別信息確定的音樂分段本身不總是足以發(fā)現(xiàn)歌曲的真實邊界。利用下述事實可以改進這種估計對于屬于不同歌曲的兩個分段,不同分段中的信號特征可表現(xiàn)出某些不同的特性(即,較低的一致性(consistency) / 較高的相異度(dissimilarity))。在邊界檢測器102的一個進一步的實施例中,如果關(guān)于音頻信號110中任何音樂分段內(nèi)的位置布置的兩個窗口之間的特征相異度高于閾值THD,則邊界檢測器102也可以將該位置檢測為候選邊界120。可以根據(jù)有關(guān)利用包含連續(xù)歌曲的樣本信號 計算的特征相異度的統(tǒng)計數(shù)據(jù)來確定閾值THd。通過這種方式,可以檢測出分隔連續(xù)歌曲的候選邊界。為區(qū)分根據(jù)分類檢測的候選邊界和根據(jù)特征相異度檢測的候選邊界,根據(jù)分類檢測的候選邊界被稱作第一類型的候選邊界,而根據(jù)特征相異度檢測的候選邊界被稱作第二類型的候選邊界。圖2A是圖示第二類型的候選邊界的示例性檢測的示意圖。如圖2A所示,對于音樂分段內(nèi)的每個位置t,左窗口位于緊接在位置t左側(cè)的位置,右窗口位于緊接在位置t右側(cè)的位置??梢杂嬎闾崛∽宰蟠翱诘膸奶卣骱吞崛∽杂掖翱诘膸g的特征相異度??蛇x地,左和右窗口能夠位于相對位置t離開一個間隔余量的位置處。在邊界檢測器102中能夠采用各種評估兩個窗口的特征之間的特征相異度的方法。例如,兩個窗口之間的特征相異度可以被計算為K-L散度(KLD)。在一個示例中,可以通過下式將特征相異度Dskui計算為對稱KLDDskld = —tr[{Ct -Cr){Crx ~ C11)] ++ CrxXul -HrXul -ur)T](I),其中C1和(;分別是提取自左窗口和右窗口的幀的特征的協(xié)方差矩陣,U1和w是相應(yīng)均值,tr[X]是矩陣X的對角線元素的和。各種提取自幀的特征可以被用于計算特征相異度。計算特征的功能可以被包含在邊界檢測器102中,也可以實現(xiàn)在分立的特征提取器(圖I中未圖解)中。在一個示例中,用于計算特征相異度的特征可以是結(jié)合分類單元101描述的幀級特征。圖2B示出了在I小時音頻信號上計算的KLD序列的示例,其中小圓圈指示真實歌曲邊界??梢钥闯龈骶嚯x有一些噪聲。在真實歌曲邊界處距離不總是大的,而在歌曲內(nèi)也存在許多大的距離??梢园验撝礣Hd確定為保證多數(shù)或所有局部峰值KLD高于閾值THd。因此,更多由于連續(xù)歌曲而錯過的真實歌曲邊界能夠被檢測為候選邊界以供進一步調(diào)查。在一個示例中,閾值THd被確定為自適應(yīng)閾值thseg ( α )thseg ( α ) = mean+ α · std (2)其中mean和std分別是計算的特征相異度的均值和標準差,α是調(diào)節(jié)參數(shù),通常在從O到大約3的范圍內(nèi)(例如,等于I. 2)。C-根據(jù)內(nèi)容一致件講行驗證在音頻信號110中,候選邊界可能是真實歌曲的邊界。通過調(diào)查寬范圍(如果與候選邊界檢測器中用于計算特征相異度的窗口相比較的話)的圍繞候選邊界的分段,可以判斷候選邊界是不是真實歌曲的邊界。內(nèi)容一致性(content coherence)(距離)充當(dāng)進一步判斷候選邊界是否真實歌曲的起始/結(jié)束邊界的度量。如果內(nèi)容一致性(距離)大(小),則圍繞分段的內(nèi)容相似,因而候選邊界不是真實歌曲的起始/結(jié)束邊界;否則,如果內(nèi)容一致性(距離)小(大),則邊界是真實的。在邊界檢測器102的一個進一步的實施例中,對于候選邊界中的每個邊界t,邊界檢測器102計算圍繞邊界t的兩個窗口(例如,一分鐘長)之間的至少一個內(nèi)容一致性距離。如果針對一個邊界計算不止一個內(nèi)容一致性距離,則用于計算內(nèi)容一致性距離的特征至少部分地互不相同??梢圆捎酶鞣N計算兩個內(nèi)容之間的一致性距離的方法。圖3是圖示計算內(nèi)容一致性距離的示例方法的示意圖。如圖3所示,左窗口和右窗口被分成小的分段,根據(jù)各個對的左窗口中分段Si和右窗口中相應(yīng)分段Sj之間的距離(例如,KLD)來導(dǎo)出內(nèi)容一致性距離?!?br>
可以采用各種特征來計算內(nèi)容一致性距離。例如,用于計算內(nèi)容一致性距離的特征可以包括色度特征、音色相關(guān)特征和節(jié)奏相關(guān)特征中的至少之一。在一個進一步的例子中,可以通過音樂速度估計、節(jié)拍/小節(jié)檢測和節(jié)奏模式抽取中的至少之一來獲得節(jié)奏相關(guān)特征。對于候選邊界中的每個邊界t,邊界檢測器102根據(jù)至少一個相應(yīng)內(nèi)容一致性距離計算邊界t是歌曲的真實邊界的可能性(例如,置信度)。可以采用各種方法來計算可能性。例如,可以采用S形函數(shù)(sigmoid function)來計算可能性。再例如,可以根據(jù)內(nèi)容一致性距離Dedl將可能性conf計算為
VH Dcoh > Thubconf = < VM Dcoh e [Thlb,Thub)(3)
VL Dcoh < Thlb其中Thlb和Thub分別是下限閾值和上限閾值,VH(例如,I)是表示邊界t是真實邊界的值,VM(例如,0)是表示邊界t是假邊界的值,VM(例如,0. 5)是表示邊界t仍不確定(既不是真實的,也不是假的)的值。如果根據(jù)不同特征計算出多個內(nèi)容一致性距離,可以通過各種方式來組合它們。例如,如果所有內(nèi)容一致性距離均大于相應(yīng)上限閾值,或更加寬松地,如果內(nèi)容一致性距離中的任何一個大于相應(yīng)上限閾值,則可以將可能性設(shè)置為VH。另一個概率性的方式是根據(jù)訓(xùn)練集建立表示這些距離的聯(lián)合分布模型的模型。如果可能性指示邊界t是假邊界,則邊界檢測器102可以進行下列處理。如果邊界t在音樂分段內(nèi),則邊界檢測器102可以在僅包含邊界t并且由兩個候選邊界限定的音樂分段具有小于預(yù)定最大歌曲時長的長度的情況下移除邊界t。如果由邊界t和另一個候選邊界限定的話音分段具有小于閾值的長度,則邊界檢測器102可以將這兩個候選邊界識別為要移除的。可以根據(jù)有關(guān)兩個歌曲之間的話音分段的統(tǒng)計數(shù)據(jù)來獲得該閾值。邊界檢測器102可以移除所有要移除的候選邊界,或者,邊界檢測器102可以把一個或更多個對的限定音樂分段的兩個要移除的候選邊界改變?yōu)榈诙愋偷暮蜻x邊界,并且移除其余的要移除的候選邊界。
在邊界檢測器102的一個進一步的實施例中,在可能性既不指示邊界t是真實邊界也不指示邊界t是假邊界的情況下,如果邊界t是第二類型的邊界(即,在音樂分段內(nèi)),則邊界檢測器102可以用預(yù)先訓(xùn)練的歌曲時長模型計算在邊界t處彼此相接的時長I1和I2的兩個音樂分段是兩個真實歌曲的概率P(Htl),并且用預(yù)先訓(xùn)練的歌曲時長模型計算通過合并這兩個音樂分段而獲得的音樂分段是真實歌曲的概率P(H1)。如果不滿足下列條件,則邊界檢測器102移除邊界t
權(quán)利要求
1.一種對音頻信號進行歌曲檢測的方法,包括 把音頻信號的片段分類為包括音樂的類別; 檢測音樂片段的類邊界以作為候選邊界;以及 導(dǎo)出包含由所述候選邊界限定的一個或更多個非交疊部分的至少一個組合,其中每個所述部分滿足下列條件 1)包含長于預(yù)定最小歌曲時長的至少一個音樂分段,以作為候選歌曲, 2)短于預(yù)定最大歌曲時長, 3)開始和結(jié)束于音樂片段,以及 4)每個所述部分中所述音樂片段的比例大于預(yù)定最小比例。
2.如權(quán)利要求I所述的方法,其中所述類邊界被檢測為第一類型,并且所述檢測還包括 檢測每個音樂分段內(nèi)的每個位置以作為第二類型的候選邊界,其中在關(guān)于所述位置布置的兩個第一窗口之間的內(nèi)容相異度高于第一閾值的情況下,檢測到所述位置。
3.如權(quán)利要求2所述的方法,其中所述類別還包括話音,并且所述檢測還包括 在音頻信號中搜索兩個重復(fù)部分[t1; t2]和[t1+l,t2+l],其中I短于所述預(yù)定最大歌曲時長; 如果部分[t1; t2+l]中的一個所述候選邊界在音樂分段內(nèi),則移除所述候選邊界; 如果由兩個所述候選邊界限定的部分[t1; t2+l]中的話音分段具有小于第二閾值的長度,則將這兩個候選邊界識別為要移除的;以及 移除所有所述要移除的候選邊界,或者,把一個或更多個對的限定音樂分段的兩個要移除的候選邊界改變?yōu)榈诙愋停⑶乙瞥溆嗟囊瞥暮蜻x邊界。
4.如權(quán)利要求2所述的方法,其中所述檢測還包括 計算圍繞每個所述候選邊界、長于所述第一窗口的兩個第二窗口之間的至少一個內(nèi)容一致性距離,其中用于計算所述至少一個內(nèi)容一致性距離的特征至少部分地互不相同; 對于每個所述候選邊界,根據(jù)所述至少一個相應(yīng)內(nèi)容一致性距離計算所述候選邊界是歌曲的真實邊界的第一可能性;以及 如果所述第一可能性指示所述候選邊界是假邊界, 如果所述候選邊界在音樂分段內(nèi),則在僅包含所述候選邊界并且由兩個候選邊界限定的音樂分段具有小于所述預(yù)定最大歌曲時長的長度的情況下移除所述候選邊界; 如果由所述候選邊界和另一個候選邊界限定的話音分段具有小于第三閾值的長度,則將這兩個候選邊界識別為要移除的;以及 移除所有所述要移除的候選邊界,或者,把一個或更多個對的限定音樂分段的兩個要移除的候選邊界改變?yōu)榈诙愋?,并且移除其余的要移除的候選邊界。
5.如權(quán)利要求I或2所述的方法,其中通過下述操作導(dǎo)出所述至少一個組合中的每個 把由兩個連續(xù)候選邊界A和t2限定并且長于所述預(yù)定最小歌曲時長的每個音樂分段檢測為所述候選歌曲;以及 通過把所述候選歌曲[t1; t2]或其擴展包含為部分來形成所述組合,其中通過下述操作中的至少之一來獲得每個擴展沿左方向把所述候選歌曲[t1; t2]的邊界&延伸到音樂分段Lt1-I1, tri2]的候選邊界Vl1 ;以及 沿右方向把所述候選歌曲[t1; t2]的邊界&延伸到音樂分段[t2+l3,t2+l4]的候選邊界 t2+l4。
6.如權(quán)利要求I或2或5所述的方法,還包括 用基于歌曲時長、歌曲間間隔和歌曲概率中至少之一訓(xùn)練的評估模型來評估所述至少一個組合的、分隔各部分的所有間隔代表真實歌曲劃分的第二可能性;以及 選擇所述至少一個組合中具有最高第二可能性的組合。
7.如權(quán)利要求6所述的方法,其中所述第二可能性被計算為用于分隔相應(yīng)組合中一個或更多個部分的所有間隔[e,s]的置信度P([e,s])的平均值或乘積,其中如果一個間隔[e, s]分隔兩個相鄰部分[S1, e]和[s, e2],則置信度P([e, s])被計算為 P([e,邛=Pdur (ΙΛ, e])Pdur ([5, e2 ])a Pfs (|>, 5])P_g ([^1, e])Psong ([s, ]),以及 如果相應(yīng)組合中僅存在一個部分[1,7],則置信度?([6,8])被計算為P([e, s]) = Pdur ([X,y])Psong([X,y]), 其中PdurO是預(yù)先訓(xùn)練的歌曲時長模型,PnsO是預(yù)先訓(xùn)練的非歌曲時長模型,其是作為伽瑪(Gamma)分布來估計的,Psmg0是指示一個部分是真實歌曲的概率的歌曲概率模型,α和β是處理不同概率分布的不同尺度的平滑系數(shù)。
8.如權(quán)利要求6所述的方法,其中所述分類還包括計算每個所述片段中的幀的幀級特征,并且 其中所述選擇還包括 對于所選擇的組合的所述至少一個部分的每個邊界,根據(jù)基于貝葉斯信息準則(BIC)的方法,針對以所述邊界為中心的BIC窗口中的每個幀位置t,計算對數(shù)似然差A(yù)BIC(t);以及 把所述邊界調(diào)整到對應(yīng)于峰值A(chǔ)BIC(t)的幀位置t。
9.如權(quán)利要求6所述的方法,其中所述分類還包括計算每個所述片段中的幀的幀級特征,并且 其中所述選擇還包括 對于所選擇的組合中的所述至少一個部分的每個邊界,針對以所述邊界為中心的BIC窗口中的每個幀位置t計算一個值Ι ΔΒΙ。(t |b) = ABIC(t) .Pst(|t_b|),其中ABIC(t)是根據(jù)基于貝葉斯信息準則(BIC)的方法計算的對數(shù)似然差,PstO是根據(jù)零均值高斯分布的偏移時長模型;以及 把所述邊界調(diào)整到對應(yīng)于最高峰值R,BK(t)的幀位置t。
10.如權(quán)利要求I所述的方法,其中所述至少一個組合包含不止一個組合,并且 其中所述導(dǎo)出還包括將所述組合分為不同的組,其中每個組中的每個組合包含相同的候選歌曲,并且所述組合中的每個部分與相同組的其它組合中的一個部分包含相同的候選歌曲,并且 其中對于屬于不同組的每兩個組合,這兩個組合之一中的至少一個部分不與這兩個組合中另一個內(nèi)的每個部分包含相同的候選歌曲。
11.一種對音頻信號進行歌曲檢測的設(shè)備,包括分類單元,其把音頻信號的片段分類為包括音樂的類別; 邊界檢測器,其檢測音樂片段的類邊界以作為候選邊界;以及歌曲搜索器,其導(dǎo)出包含由所述候選邊界限定的一個或更多個非交疊部分的至少一個組合,其中每個所述部分滿足下列條件 1)包含長于預(yù)定最小歌曲時長的至少一個音樂分段,以作為候選歌曲, 2)短于預(yù)定最大歌曲時長, 3)開始和結(jié)束于音樂片段,以及 4)每個所述部分中所述音樂片段的比例大于預(yù)定最小比例。
12.如權(quán)利要求11所述的設(shè)備,其中所述類邊界被檢測為第一類型,并且所述邊界檢測器進一步被配置成 檢測每個音樂分段內(nèi)的每個位置以作為第二類型的候選邊界,其中在關(guān)于所述位置布置的兩個第一窗口之間的內(nèi)容相異度高于第一閾值的情況下,檢測到所述位置。
13.如權(quán)利要求12所述的設(shè)備,其中所述類別還包括話音,并且所述邊界檢測器進一步被配置成 在音頻信號中搜索兩個重復(fù)部分[t1; t2]和[t1+l,t2+l],其中I短于所述預(yù)定最大歌曲時長; 如果部分[t1; t2+l]中的一個所述候選邊界在音樂分段內(nèi),則移除所述候選邊界; 如果由兩個所述候選邊界限定的部分[t1; t2+l]中的話音分段具有小于第二閾值的長度,則將這兩個候選邊界識別為要移除的;以及 移除所有所述要移除的候選邊界,或者,把一個或更多個對的限定音樂分段的兩個要移除的候選邊界改變?yōu)榈诙愋停⑶乙瞥溆嗟囊瞥暮蜻x邊界。
14.如權(quán)利要求13所述的設(shè)備,其中所述邊界檢測器進一步被配置成 計算圍繞每個所述候選邊界、長于所述第一窗口的兩個第二窗口之間的至少一個內(nèi)容一致性距離,其中用于計算所述至少一個內(nèi)容一致性距離的特征至少部分地互不相同; 對于每個所述候選邊界,根據(jù)所述至少一個相應(yīng)內(nèi)容一致性距離計算所述候選邊界是歌曲的真實邊界的第一可能性;以及 如果所述第一可能性指示所述候選邊界是假邊界, 如果所述候選邊界在音樂分段內(nèi),則在僅包含所述候選邊界并且由兩個候選邊界限定的音樂分段具有小于所述預(yù)定最大歌曲時長的長度的情況下移除所述候選邊界; 如果由所述候選邊界和另一個候選邊界限定的話音分段具有小于第三閾值的長度,則將這兩個候選邊界識別為要移除的;以及 移除所有所述要移除的候選邊界,或者,把一個或更多個對的限定音樂分段的兩個要移除的候選邊界改變?yōu)榈诙愋?,并且移除其余的要移除的候選邊界。
15.如權(quán)利要求11或12所述的設(shè)備,其中通過下述操作導(dǎo)出所述至少一個組合中的每個 把由兩個連續(xù)候選邊界A和t2限定并且長于所述預(yù)定最小歌曲時長的每個音樂分段檢測為所述候選歌曲;以及 通過把所述候選歌曲[t1; t2]或其擴展包含為部分來形成所述組合,其中通過下述操作中的至少之一來獲得每個擴展沿左方向把所述候選歌曲[t1; t2]的邊界&延伸到音樂分段Lt1-I1, tri2]的候選邊界Vl1 ;以及 沿右方向把所述候選歌曲[t1; t2]的邊界&延伸到音樂分段[t2+l3,t2+l4]的候選邊界 t2+l4。
16.如權(quán)利要求11或12或15所述的設(shè)備,還包括 歌曲評估器,其用基于歌曲時長、歌曲間間隔和歌曲概率中至少之一訓(xùn)練的評估模型來評估所述至少一個組合的、分隔各部分的所有間隔代表真實歌曲劃分的第二可能性;以及 選擇器,其選擇所述至少一個組合中具有最高第二可能性的組合。
17.如權(quán)利要求16所述的設(shè)備,其中所述第二可能性被計算為用于分隔相應(yīng)組合中一個或更多部分的所有間隔[e,s]的置信度P([e,s])的平均值或乘積,其中如果一個間隔[e, s]分隔兩個相鄰部分[S1, e]和[s, e2],則置信度P([e, s])被計算為 PiVe, 5]) = Pdur ([^1, e])Pdur ([5, e2 ])a ([e, s])Psong ([^1, e])Psong ([s, e2 ]),以及 如果相應(yīng)組合中僅存在一個部分[1,7],則置信度?([6,8])被計算為P([e, s]) = Pdur ([X,y])Psong([X,y]), 其中PdurO是預(yù)先訓(xùn)練的歌曲時長模型,PnsO是預(yù)先訓(xùn)練的非歌曲時長模型,其是作為伽瑪(Gamma)分布來估計的,Psmg0是指示一個部分是真實歌曲的概率的歌曲概率模型,α和β是處理不同概率分布的不同尺度的平滑系數(shù)。
18.如權(quán)利要求16所述的設(shè)備,其中所述分類單元進一步被配置成計算每個所述片段中的幀的幀級特征,并且 其中所述選擇器進一步被配置成 對于所選擇的組合的所述至少一個部分的每個邊界,根據(jù)基于貝葉斯信息準則(BIC)的方法,針對以所述邊界為中心的BIC窗口中的每個幀位置t,計算對數(shù)似然差A(yù)BIC(t);以及 把所述邊界調(diào)整到對應(yīng)于峰值A(chǔ)BIC(t)的幀位置t。
19.如權(quán)利要求16所述的設(shè)備,其中所述分類單元進一步被配置成計算每個所述片段中的幀的幀級特征,并且 其中所述選擇器進一步被配置成 對于所選擇的組合中的所述至少一個部分的每個邊界,針對以所述邊界為中心的BIC窗口中的每個幀位置t計算一個值Ι ΔΒΙ。(t |b) = ABIC(t) .Pst(|t_b|),其中ABIC(t)是根據(jù)基于貝葉斯信息準則(BIC)的方法計算的對數(shù)似然差,PstO是根據(jù)零均值高斯分布的偏移時長模型;以及 把所述邊界調(diào)整到對應(yīng)于最高峰值R,BK(t)的幀位置t。
20.如權(quán)利要求11所述的設(shè)備,其中所述至少一個組合包含不止一個組合,并且 其中所述歌曲搜索器進一步被配置成將所述組合分為不同的組,其中每個組中的每個組合包含相同的候選歌曲,并且所述組合中的每個部分與相同組的其它組合中的一個部分包含相同的候選歌曲,并且 其中對于屬于不同組的每兩個組合,這兩個組合之一中的至少一個部分不與這兩個組合中另一個內(nèi)的每個部分包含相同的候選歌曲。
全文摘要
描述了對音頻信號進行歌曲檢測的方法和設(shè)備。音頻信號的片段被分類為包括音樂的類別。音樂片段的類邊界被檢測為第一類型的候選邊界。導(dǎo)出包含非交疊部分的組合。每個部分滿足下列條件1)包含長于預(yù)定最小歌曲時長的至少一個音樂分段,2)短于預(yù)定最大歌曲時長,3)開始和結(jié)束于音樂片段,以及4)每個部分中音樂片段的比例大于預(yù)定最小比例。通過這種方式,能夠獲得音頻信號中各種可能的歌曲劃分以供檢查。
文檔編號G10L15/04GK102956230SQ201110243070
公開日2013年3月6日 申請日期2011年8月19日 優(yōu)先權(quán)日2011年8月19日
發(fā)明者蘆烈, 克勞斯·鮑爾 申請人:杜比實驗室特許公司