專利名稱:音頻信號(hào)分類方法和系統(tǒng)的制作方法
發(fā)明領(lǐng)域本發(fā)明總體涉及一種識(shí)別音頻輸入信號(hào)、尤其是音樂軌道的系統(tǒng)和方法,本發(fā)明還涉及一種用于分類音頻輸入信號(hào)、尤其是音樂軌道的音頻處理設(shè)備。
發(fā)明背景作為廣播技術(shù)、傳輸帶寬和互聯(lián)網(wǎng)發(fā)展的結(jié)果,并且由于消費(fèi)存儲(chǔ)設(shè)備的不斷提高的容量,如今的消費(fèi)者可以使用數(shù)量快速增大的多媒體內(nèi)容。超過10,000個(gè)軌道的音樂集合也不例外。隨著多媒體內(nèi)容數(shù)量的所述增大,帶來了對(duì)內(nèi)容自動(dòng)過濾、處理和存儲(chǔ)的需要。從這種大音樂數(shù)據(jù)庫中組織和選擇音樂是非常困難的并且很消耗時(shí)間。該問題可以部分地通過包含元數(shù)據(jù)來解決,所述元數(shù)據(jù)可以被理解成以某種方式附著在實(shí)際音頻數(shù)據(jù)文件上的附加信息標(biāo)簽。元數(shù)據(jù)有時(shí)由服務(wù)提供商提供,但是為了可以使用這些服務(wù),消費(fèi)者通常需要在線連接到該服務(wù)提供商,該服務(wù)提供商多半會(huì)對(duì)消費(fèi)者所取回的數(shù)據(jù)收費(fèi)。因此,從外部服務(wù)提供商取回元數(shù)據(jù)對(duì)于消費(fèi)者來說并不總是具有吸引力的。
當(dāng)前的自動(dòng)音頻分類技術(shù)主要依賴于從音頻中提取的相關(guān)特征,可以基于這些相關(guān)特征進(jìn)行分析。例如,WO01/20483 A2描述了一種在數(shù)據(jù)庫中搜索與第一段音樂相似的第二段音樂的方法。這里,該數(shù)據(jù)庫由歌曲集合組成,每首歌曲與某種具有參數(shù)形式的元數(shù)據(jù)相關(guān)聯(lián)。參數(shù)在第一段音樂中被識(shí)別并且被分析,以便在數(shù)據(jù)庫中定位一組匹配的參數(shù)。該方法被限于定位與第一段音樂相似的第二段音樂,因此對(duì)那些不太希望聽到完全相同的歌曲的用戶來說僅僅具有非常有限的興趣。
最近的研究顯示,人們的音樂偏好與當(dāng)他們?cè)?0到20歲時(shí)流行的音樂相符。這就表示許多人偏好來自特定年代(例如80年代)的音樂。找到來自特定時(shí)期的歌曲或者找到聽起來像是來自那個(gè)年代的歌曲是很困難的。并不是集合中的所有歌曲都可以有表明歌曲的發(fā)行日期的元數(shù)據(jù),這尤其是因?yàn)樵獢?shù)據(jù)的使用是最近剛發(fā)展起來的,因此較老的集合將不具有該元數(shù)據(jù)。
發(fā)明目的和概要因此,本發(fā)明的一個(gè)目的是提供一種方法和系統(tǒng),其可以用來簡(jiǎn)單地識(shí)別音頻片段的發(fā)行日期,而不需要使用元數(shù)據(jù)。
為此,本發(fā)明提供一種根據(jù)音頻輸入信號(hào)的發(fā)行日期來分類音頻輸入信號(hào)的方法,該方法包括以下步驟提取音頻輸入信號(hào)的至少一個(gè)特征;基于該至少一個(gè)特征為輸入音頻信號(hào)導(dǎo)出特征矢量;以及確定該輸入音頻信號(hào)的特征矢量落入多個(gè)類別當(dāng)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。這里的“音頻輸入信號(hào)”是可以來自音頻數(shù)據(jù)文件、音樂軌道、聲軌、MP3音樂文件等等的信號(hào)。該音頻輸入信號(hào)也可以是(例如來自麥克風(fēng)的)模擬信號(hào),其優(yōu)選地(但并不是必須)被轉(zhuǎn)換成數(shù)字形式以便進(jìn)行進(jìn)一步的數(shù)字信號(hào)處理。音頻信號(hào)的一個(gè)短的選段對(duì)于使用本發(fā)明的方法來估計(jì)其發(fā)行日期就足夠了。
根據(jù)上述方法的用于分類音頻輸入信號(hào)的發(fā)行日期的適當(dāng)系統(tǒng)包括以下裝置用于提取音頻輸入信號(hào)的至少一個(gè)特征的特征提取單元;用于基于該至少一個(gè)特征為輸入音頻信號(hào)導(dǎo)出特征矢量的導(dǎo)出單元;以及概率確定單元,其用于確定該輸入音頻信號(hào)的特征矢量落入多個(gè)類別當(dāng)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。
所述方法和系統(tǒng)因此提供了一種自動(dòng)估計(jì)音頻輸入信號(hào)的發(fā)行日期的簡(jiǎn)單方式。由此,“發(fā)行日期”一詞意圖表示特定的歷年,其也可以表示一個(gè)時(shí)期,諸如“70年代早期”或“1998年前后”,或者表示任何其他時(shí)間點(diǎn)(例如特定的日期)。例如,發(fā)行日期可以是發(fā)行年,其被定義為一年,在其之前和之后可能有一段持續(xù)時(shí)間,從而定義了一定程度的不確定性,該音頻信號(hào)很有可能在這之間發(fā)行。對(duì)于特定的音頻信號(hào),包含(framing)所識(shí)別的發(fā)行時(shí)期的時(shí)間跨距的總長(zhǎng)度可以被解釋為精確度的度量,即可以確定該音頻信號(hào)的日期的精確度。因此,包含所識(shí)別的年份的相對(duì)較短的時(shí)間跨距將表示該相應(yīng)的音頻信號(hào)可以被確信地假設(shè)為來自所識(shí)別的發(fā)行時(shí)期,而較長(zhǎng)的時(shí)間跨距將允許所提出的音頻信號(hào)的產(chǎn)生日期具有一定程度的不確定性。
通過本發(fā)明的適當(dāng)應(yīng)用,甚至可以在實(shí)際發(fā)行日期和感覺的發(fā)行日期之間做出區(qū)分。實(shí)際的發(fā)行日期就是該特定歌曲被發(fā)行的真實(shí)年份,而感覺的發(fā)行日期則是大多數(shù)聽眾在聽到該歌曲時(shí)所聯(lián)想到的年份。實(shí)際的發(fā)行日期信息對(duì)于翻唱版本和原唱版本是不同的,可以基于所提取的特征正確地估計(jì)出實(shí)際的發(fā)行日期信息。如果翻唱版本非常類似于原唱版本(也就是說翻唱版本在流派特征、風(fēng)格等方面與原唱版本沒有顯著不同)但是很久以后才被發(fā)行,那么如果期望的話,該翻唱版本可以用感覺的發(fā)行日期來分類。
獨(dú)立權(quán)利要求
和以下的描述公開了本發(fā)明的特別有利的實(shí)施例和特征。
所述“特征”是音頻輸入信號(hào)的描述性特征,諸如信號(hào)帶寬、信號(hào)能量、頻譜跌落頻率、頻譜質(zhì)心等等。在提取所述特征之前,所述音頻信號(hào)通常被轉(zhuǎn)換成數(shù)字形式。然后,例如可以從音頻樣本的重疊幀計(jì)算所述特征。對(duì)所提取的特征執(zhí)行進(jìn)一步的處理,比如計(jì)算功率譜、歸一化該功率譜以及計(jì)算在多個(gè)不同能量帶上的能量,以便給出多個(gè)附加特征。最后,從整個(gè)特征組中產(chǎn)生一個(gè)特征選集,以便給出對(duì)應(yīng)于該音頻輸入信號(hào)的特征矢量。
因此,從所述輸入音頻信號(hào)中導(dǎo)出的該特征矢量可以被用于分類音頻信號(hào)。為此,對(duì)該特征矢量執(zhí)行分析,以便確定該特征矢量落入多個(gè)可能類別當(dāng)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。所述類別可以由點(diǎn)簇來圖形地表示,每個(gè)點(diǎn)由一個(gè)特征矢量表示。所述點(diǎn)簇可以被理解成被安排在n維特征空間中,其中n對(duì)應(yīng)于被用來計(jì)算每個(gè)特征矢量的特征的數(shù)量。每個(gè)簇是基于之前為來自一個(gè)音頻信號(hào)集合的各音頻信號(hào)計(jì)算的特征矢量而建立的,該音頻信號(hào)集合代表關(guān)于某個(gè)發(fā)行日期的音頻信號(hào)分類。為了確保分類的高成功率,該音頻信號(hào)集合優(yōu)選地包括分布在所有期望的發(fā)行日期類別上的足夠大數(shù)量的音頻信號(hào)。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,代表特定發(fā)行日期信息的類別(或者其相應(yīng)的簇)可以用從先前計(jì)算的與該發(fā)行日期信息相關(guān)聯(lián)的特征矢量集合中導(dǎo)出的模型來描述。這種模型可以例如是高斯多變量模型,其中的每個(gè)類別具有其自身的均值矢量及其自身的協(xié)方差矩陣。為了確保最佳可能的分類結(jié)果,該模型空間的維數(shù)被保持得盡可能低,同時(shí)選擇給出在所得到的模型的各類別和各簇之間的最佳可能區(qū)分的特征。已知的特征分級(jí)(ranking)和維數(shù)縮減的方法可以被應(yīng)用來產(chǎn)生最佳的特征組以供使用。該特征組被用來基于音頻信號(hào)的集合而建立所述類別模型,并且隨后被用來利用該模型為將被分類的任何輸入音頻信號(hào)計(jì)算特征矢量。
多種已知的方法可用于計(jì)算音頻輸入信號(hào)的特征矢量落入特定類別(即對(duì)特征矢量進(jìn)行分類)的概率。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中采用了判別分析的方法。利用該分析方法,基于每個(gè)類別的平均值和協(xié)方差矩陣,可以使用例如Bayes規(guī)則對(duì)特征矢量進(jìn)行分類以便確定特定類別包含該特征矢量的概率,并且采用先前為每個(gè)類別計(jì)算的概率密度。如果所述協(xié)方差矩陣在各類別上不同,那么所述判別函數(shù)就是二次的,從而所述判決邊界在特征空間中形成二次曲面。該方法在這種情況下被稱為二次判別分析。如果所述方差矩陣在各類別上是恒定的,那么所述判決邊界在特征空間中形成線性曲面,并且該分析方法被稱作線性判別分析。
使用這些分析方法,就可以“定位”特征矢量在特征空間中的位置,這樣可以確定與其最緊密相關(guān)的類別。如果該特征矢量明顯地趨向位于與特定發(fā)行日期相關(guān)聯(lián)的特定類別的中心,則可以假設(shè)相關(guān)聯(lián)的音頻輸入信號(hào)在相應(yīng)的日期(諸如“1970”)被發(fā)行。但是,如果該特征矢量更趨向位于該簇的邊緣或邊界,那么包含該發(fā)行日期的時(shí)間跨距就反映了不精確性。例如,對(duì)應(yīng)于音頻輸入信號(hào)的發(fā)行日期或發(fā)行年份可以分別被報(bào)告為“1970±2”。
特征的選擇對(duì)于分類方法的成功可能具有很大的影響。因此,在本發(fā)明的一個(gè)特別優(yōu)選的實(shí)施例中,被用于分類音頻輸入信號(hào)的特征矢量包括音頻輸入信號(hào)的聽覺濾波器時(shí)間包絡(luò)調(diào)制特征和/或心理聲學(xué)特征。
聽覺濾波器時(shí)間包絡(luò)(AFTE)調(diào)制特征可以通過使用多個(gè)特定類型的濾波器(其被稱作伽馬音調(diào)濾波器,其頻譜形狀類似于人類聽覺系統(tǒng)的頻率分辨率)對(duì)輸入音頻信號(hào)進(jìn)行濾波而獲得。對(duì)濾波后的信號(hào)執(zhí)行進(jìn)一步的處理,以便給出一組AFTE特征。該AFTE特征組的一個(gè)有力的屬性在于,其允許標(biāo)識(shí)波形頻譜和包絡(luò)頻譜的那些包含相關(guān)信息的部分,以用于分類的目的。使用標(biāo)準(zhǔn)高斯框架來進(jìn)行分類,結(jié)果顯示,所述特征的時(shí)間行為對(duì)于自動(dòng)音頻分類來說是很重要的。此外,如果基于來自聽覺感覺的模型的特征而不是基于標(biāo)準(zhǔn)特征,那么平均而言分類更好。
心理聲學(xué)特征是基于對(duì)粗糙度、銳度、響度等等的感覺。粗糙度是對(duì)在大約20-150Hz的范圍內(nèi)的時(shí)間包絡(luò)調(diào)制的感覺,并且對(duì)于70Hz附近的調(diào)制表現(xiàn)出最大值。響度是對(duì)強(qiáng)度的感覺,銳度是與高頻能量的頻譜密度和相對(duì)強(qiáng)度相關(guān)的感覺。這些特征在發(fā)行年份分類中尤為有用,因?yàn)橐呀?jīng)觀察到對(duì)應(yīng)于記錄和混合設(shè)備的發(fā)展,音樂生產(chǎn)的某些質(zhì)量多年來發(fā)生了改變,并且這些質(zhì)量部分地由心理聲學(xué)特征反映。例如,音樂的響度多年來穩(wěn)定地提高,從而在確定音樂片段的起源日期時(shí),使用響度可以產(chǎn)生良好的效果。
這就允許這里所描述的系統(tǒng)被用于實(shí)際的和所感覺的發(fā)行日期分類。如上所述,音樂片段可以被感覺為源自特定時(shí)間,即便其產(chǎn)生和發(fā)行時(shí)間是在很久之后??梢允褂蒙鲜龇椒▉碜R(shí)別實(shí)際的發(fā)行日期。
優(yōu)選地,通過反復(fù)地調(diào)節(jié)一些特征(諸如響度等等)并且執(zhí)行分類處理,也可以容易地識(shí)別感覺的發(fā)行日期。所述調(diào)節(jié)可以涉及對(duì)于各特征適配加權(quán)系數(shù)或者某種類似程序。例如,如果從響度等導(dǎo)出的特征被調(diào)節(jié)成反應(yīng)70年代的典型水平,那么即使Abba樂曲的翻唱版本或者意欲拷貝Abba風(fēng)格的音樂片段是在90年代發(fā)行的,也仍然可以被正確地識(shí)別為70年代。另一方面,本發(fā)明可以識(shí)別表現(xiàn)出過去流派的典型特征的音樂片段的正確發(fā)行日期,即使它是在很久以后發(fā)行的。
本發(fā)明可以用于多種音頻處理應(yīng)用。例如,在一個(gè)優(yōu)選實(shí)施例中,如上所述的用于估計(jì)音頻輸入信號(hào)的發(fā)行年份的分類系統(tǒng)可以被合并到一個(gè)音頻處理設(shè)備中,該音頻處理設(shè)備用于根據(jù)特定發(fā)行年份-日期來選擇音頻樣本。該音頻處理設(shè)備可以包括用于根據(jù)發(fā)行日期從數(shù)據(jù)庫中選擇一個(gè)或多個(gè)音樂數(shù)據(jù)文件的音樂查詢系統(tǒng)。該音頻處理設(shè)備可以解釋用戶輸入,以便在估計(jì)發(fā)行日期之前確定將要對(duì)于從音樂數(shù)據(jù)文件中提取的音頻信號(hào)的特征所執(zhí)行的任何處理步驟。例如,該設(shè)備的用戶可以輸入?yún)?shù),所述參數(shù)指定應(yīng)當(dāng)基于其實(shí)際發(fā)行日期來選擇音樂片段,還是基于感覺的發(fā)行日期來選擇音樂片段。按照這種方式,用戶可以容易地建立來自一個(gè)或多個(gè)流派、來自特定的十年或時(shí)間跨距的音樂的集合,或者他可以更愿意指定特定類型的音樂,諸如60年代類型的搖滾樂,而不管其實(shí)際的發(fā)行年份。一旦對(duì)于特定的音樂片段進(jìn)行了估計(jì)之后,該音頻處理設(shè)備可以在本地或外部數(shù)據(jù)庫中存儲(chǔ)所述實(shí)際的和/或感覺的發(fā)行日期信息,以備將來使用。
所述音頻處理設(shè)備的另一個(gè)實(shí)施例包括自動(dòng)DJ設(shè)備,其用于根據(jù)所期望的序列從音樂數(shù)據(jù)庫中選擇音樂片段。這種自動(dòng)DJ設(shè)備可以是錄音室、電臺(tái)或電視臺(tái)、迪斯科舞廳等場(chǎng)所中的專業(yè)設(shè)備,或者可以被合并入PC、家庭娛樂設(shè)備、PDA、移動(dòng)電話等等。該自動(dòng)DJ設(shè)備可以包括用于播放所選擇的音樂片段的音頻輸出端,或者其可以連接到單獨(dú)的播放音樂的裝置。該自動(dòng)DJ設(shè)備的特征在于其可以具有連接到遠(yuǎn)程音樂數(shù)據(jù)庫(例如在因特網(wǎng)中)或者本地音樂數(shù)據(jù)庫(例如家庭娛樂設(shè)備中的MP3文件列表)的裝置。用戶可以指定例如60年代風(fēng)格的搖滾樂,其后是一個(gè)不同的流派(諸如70年代風(fēng)格的迪斯科)。該自動(dòng)DJ設(shè)備在實(shí)際的和感覺的發(fā)行日期信息的音樂數(shù)據(jù)庫中搜索指定流派的音樂,并且按照所期望的順序來編輯所述音樂片段的列表。
根據(jù)本發(fā)明的分類系統(tǒng)可以被非常經(jīng)濟(jì)地實(shí)現(xiàn)為計(jì)算機(jī)程序。用于確定音樂輸入信號(hào)的模糊度的度量的所有組件(例如濾波器組、諧振器濾波器組、能量相加單元、分級(jí)單元、節(jié)奏方案編輯器等等)可以被實(shí)現(xiàn)為計(jì)算機(jī)程序模塊的形式。任何所需要的軟件或算法可以在硬件設(shè)備的處理器上進(jìn)行編碼,從而現(xiàn)有的硬件設(shè)備可以被適配成從本發(fā)明的特征中獲益。替換地,用于確定音樂輸入信號(hào)的模糊度的度量的組件同樣可以至少部分地利用硬件模塊來實(shí)現(xiàn),從而本發(fā)明可以被應(yīng)用于數(shù)字和/或模擬音樂輸入信號(hào)。
在本發(fā)明的一個(gè)實(shí)施例中,所述音樂數(shù)據(jù)庫可以處于與先前利用上述方法編輯的相關(guān)發(fā)行日期信息列表分開的存儲(chǔ)設(shè)備中,或者二者可以都被存儲(chǔ)在相同的設(shè)備上,例如被存儲(chǔ)在個(gè)人計(jì)算機(jī)、CD或DVD等上。該音樂數(shù)據(jù)庫可以被存儲(chǔ)在一個(gè)位置上,或者可以分布在幾個(gè)設(shè)備上,例如分布在音樂CD集合中。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述音樂數(shù)據(jù)庫和對(duì)應(yīng)于該音樂數(shù)據(jù)庫的各單元的發(fā)行日期信息以這樣的方式被存儲(chǔ)只需要最小的努力就能夠首先取回對(duì)應(yīng)于特定音樂片段的發(fā)行日期信息。
本發(fā)明的其他目的和特征將通過參考附圖以及下面的詳細(xì)說明而變得更加清楚。但是,應(yīng)當(dāng)理解,附圖僅僅用于說明而不是限制本發(fā)明。
附圖簡(jiǎn)述圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于確定音樂片段的發(fā)行年份的系統(tǒng)的示意框圖。
圖2是在二維特征矢量空間中的多個(gè)類別的圖形表示。
實(shí)施例描述在圖1中,音頻輸入信號(hào)1(在本例中是來自音樂數(shù)據(jù)文件、音樂軌道、MP3文件等等的數(shù)字音樂輸入信號(hào)1)被輸入到分類系統(tǒng)4。
在特征提取單元5中,從音頻輸入信號(hào)樣本的10個(gè)743ms的幀中提取特征2。所述樣本優(yōu)選地是從趨向于軌道或音樂數(shù)據(jù)文件的中間的位置處獲得的,這是因?yàn)橐魳奋壍赖拈_頭和結(jié)尾聽起來常常與主體部分有所不同。
在接下來的導(dǎo)出單元6中,為輸入音頻信號(hào)1的10個(gè)幀當(dāng)中的每一個(gè)的特征2計(jì)算一個(gè)特征矢量3。
然后在概率確定單元7中對(duì)每個(gè)特征矢量3進(jìn)行分類處理,其中執(zhí)行分析步驟以便確定特征矢量3落入多個(gè)可能類別中的一個(gè)特定類別之內(nèi)的概率。
因此,分類系統(tǒng)4可以訪問包含所述分類處理所需的信息的數(shù)據(jù)庫9。通過例如讓兩個(gè)收聽者聽大量歌曲然后根據(jù)預(yù)定義的類別列表(C1,C2,...,Cn)獨(dú)立地對(duì)它們進(jìn)行分類來建立和訓(xùn)練數(shù)據(jù)庫9,每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息,諸如“1966-1970”、“1970-1974”等等。每個(gè)歌曲或軌道將用一個(gè)分?jǐn)?shù)進(jìn)行評(píng)級(jí),該分?jǐn)?shù)表示該歌曲或軌道與其類別(C1,C2,...,Cn)的對(duì)應(yīng)程度。從這些歌曲中識(shí)別出一個(gè)精簡(jiǎn)集合,該精簡(jiǎn)集合包括滿足以下標(biāo)準(zhǔn)的所有軌道●由兩個(gè)收聽者識(shí)別的類別(C1,C2,...,Cn)對(duì)于該軌道是相同的;●每個(gè)軌道的評(píng)級(jí)或分?jǐn)?shù)大于預(yù)定義的最小值;●來自每個(gè)藝術(shù)家或唱片的最大軌道數(shù)量是2。
以類似于計(jì)算輸入信號(hào)的特征矢量的方式為所述精簡(jiǎn)集合的每一個(gè)軌道計(jì)算特征矢量。使用這些特征矢量以及由用戶提供的分類信息,可以構(gòu)建一個(gè)代表所述類別(C1,C2,...,Cn)的模型。該信息被存儲(chǔ)在數(shù)據(jù)庫9中,以便在所述分類處理中使用。在導(dǎo)出用于訓(xùn)練數(shù)據(jù)庫的特征矢量的過程中所涉及的處理步驟與之后用于從輸入音頻信號(hào)1中導(dǎo)出特征矢量以便進(jìn)行分類的處理步驟相同。
在完成所述分類處理之后,分類系統(tǒng)4以適當(dāng)?shù)姆绞綀?bào)告結(jié)果8,比如輸出到顯示器,這沒有在圖中顯示。所述輸出可以是“軌道ABC發(fā)行年份1990±2”的形式,其表示被標(biāo)識(shí)為“ABC”的軌道最有可能是在1990年發(fā)行的,但是必須考慮2年的不確定性因素。
圖2顯示了由二維特征矢量空間中的簇表示的多個(gè)類別(C1,C2)的圖形表示。通常來說,特征矢量的數(shù)量和矢量空間的維數(shù)將高很多,但是這很難在二維空間表示中顯示。因此,為了簡(jiǎn)明起見,該圖被限制到由兩個(gè)特征f1和f2建立的二維特征空間。
為了說明的目的,假設(shè)分類系統(tǒng)4被用來分類2個(gè)音樂軌道“X”和“Y”。進(jìn)一步假設(shè)分類系統(tǒng)4可以分類到兩個(gè)類別1或2的其中之一,其中類別C1表示70年代早期(“1970-1974”)的音樂,而C2表示70年代后期(“1975-1979”)的音樂。如上所述,計(jì)算音樂軌道“X”和“Y”的特征矢量Fx、Fy,概率導(dǎo)出單元7現(xiàn)在繼續(xù)定位這兩個(gè)特征矢量Fx、Fy所最可能屬于的類別。因?yàn)镕x明顯位于類別C1內(nèi),因此該概率確定單元可以確信地得出這樣的結(jié)論音樂軌道“X”源自由類別C1表示的時(shí)間跨距的中間,于是報(bào)告“1972±1”作為該音樂軌道的分類結(jié)果。另一方面,F(xiàn)y位于類別C1和C2之間,但是比起C2更接近于C1。因此,概率確定單元7得出這樣的結(jié)論已經(jīng)為之計(jì)算出這些特征矢量的該音樂軌道源自這些類別之間的某個(gè)時(shí)間,于是報(bào)告估計(jì)的發(fā)行年份“1974±4”,這表示該軌道最有可能在1974年前后發(fā)行,但是估計(jì)可能在1974年的最多4年前或4年后發(fā)行。該不確定性是特征矢量Fx、Fy與類別C1、C2的質(zhì)心之間的距離的一個(gè)度量。
當(dāng)對(duì)為輸入信號(hào)1計(jì)算的特征矢量3進(jìn)行分類時(shí),概率確定單元7在某些情況下可以得出這樣的結(jié)論如果一些特征2被修改,則可以獲得更好的分類結(jié)果。利用適當(dāng)?shù)男盘?hào)10,概率確定單元7把必要的修改通知給特征提取單元5。在執(zhí)行所述修改之后,特征提取單元5把最新計(jì)算的特征2轉(zhuǎn)發(fā)到導(dǎo)出單元6,從而可以使用新的特征矢量3再次執(zhí)行所述分類處理??梢灾貜?fù)該迭代處理,直到概率確定單元7得出結(jié)果8是令人滿意的結(jié)論。
雖然已經(jīng)以優(yōu)選實(shí)施例及其變型的形式描述了本發(fā)明,但是應(yīng)當(dāng)理解,可以在不偏離本發(fā)明范圍的情況下做出許多附加的修改和變化。例如,可以使用所述方法來確定任何音頻(比如無線電廣播、電影聲軌等等)的時(shí)間。此外,本發(fā)明不限于使用上述的分析方法,而是可以采用任何適當(dāng)?shù)姆治龇椒ā?br>為了清楚起見,還應(yīng)當(dāng)理解,在本申請(qǐng)中使用的“一個(gè)”并不排除多個(gè),“包括”一詞并不排除其他步驟或元件?!皢卧笨梢园ǘ鄠€(gè)塊或設(shè)備,除非其被明確地描述為單個(gè)實(shí)體。
權(quán)利要求
1.一種分類音頻輸入信號(hào)(1)的方法,該方法包括以下步驟-提取該音頻輸入信號(hào)(1)的至少一個(gè)特征(2);-基于該至少一個(gè)所提取的特征(2)為該輸入音頻信號(hào)(1)導(dǎo)出特征矢量(3);-確定該輸入音頻信號(hào)(1)的特征矢量(3)落入多個(gè)類別(C1,C2,....,Cn)當(dāng)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。
2.根據(jù)權(quán)利要求
1的方法,其中,表示特定發(fā)行日期信息的類別(C1,C2,...,Cn)是基于先前為來自音頻信號(hào)集合中的各音頻信號(hào)計(jì)算的各特征矢量而定義的,所述特征矢量與該發(fā)行日期信息相關(guān)聯(lián)。
3.根據(jù)權(quán)利要求
2的方法,其中,表示特定發(fā)行日期信息的類別(C1,C2,...,Cn)是由從先前計(jì)算的與該發(fā)行日期信息相關(guān)聯(lián)的特征矢量的集合中導(dǎo)出的模型來描述的。
4.根據(jù)之前任何一個(gè)權(quán)利要求
的方法,其中,確定所述輸入音頻信號(hào)(1)的所述特征矢量(3)落入特定類別(C1,C2,...,Cn)之內(nèi)的概率包括對(duì)于該特征矢量(3)執(zhí)行判別分析的步驟。
5.根據(jù)權(quán)利要求
1的方法,其中,所述特征矢量(3)包括-所述音頻輸入信號(hào)(1)的心理聲學(xué)特征(2);以及/或者-描述該音頻輸入信號(hào)(1)的時(shí)間包絡(luò)的聽覺模型表示的特征(2)。
6.根據(jù)權(quán)利要求
1和權(quán)利要求
2的方法,其中,提取特征(2)包括計(jì)算每個(gè)特征(2)的功率譜,歸一化該功率譜,以及計(jì)算在多個(gè)不同能量帶上的能量。
7.根據(jù)之前任何一個(gè)權(quán)利要求
的方法,其中,所述輸入音頻信號(hào)(1)的所述特征(2)在所述分類處理期間被反復(fù)調(diào)節(jié),以便獲得對(duì)應(yīng)于該輸入音頻信號(hào)(1)的最佳分類的特征矢量(3)。
8.一種用于分類音頻輸入信號(hào)(1)的系統(tǒng)(4),所述分類系統(tǒng)包括以下裝置-特征提取單元(5),其用于提取該音頻輸入信號(hào)(1)的至少一個(gè)特征(2);-導(dǎo)出單元(6),其用于基于該至少一個(gè)所提取的特征(2)為該輸入音頻信號(hào)(1)導(dǎo)出特征矢量(3);-概率確定單元(7),其用于確定該輸入音頻信號(hào)(1)的該特征矢量(3)落入多個(gè)類別(C1,C2,...,Cn)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。
9.一種用于根據(jù)特定發(fā)行日期選擇音頻項(xiàng)目的音頻處理設(shè)備,其包括根據(jù)權(quán)利要求
8的分類系統(tǒng)。
10.一種根據(jù)權(quán)利要求
9的音頻處理設(shè)備,其包括自動(dòng)DJ設(shè)備以用于根據(jù)用戶定義的發(fā)行日期信息的序列從音樂數(shù)據(jù)庫中選擇音樂片段,從而實(shí)現(xiàn)根據(jù)實(shí)際的或感覺的發(fā)行日期的音樂分組。
11.一種可直接加載到可編程音頻處理設(shè)備的存儲(chǔ)器中的計(jì)算機(jī)程序產(chǎn)品,其包括各軟件代碼部分,當(dāng)所述程序在該音頻處理設(shè)備上運(yùn)行時(shí),所述軟件代碼部分用于執(zhí)行根據(jù)權(quán)利要求
1到7的方法的步驟。
專利摘要
本發(fā)明描述了一種分類音頻輸入信號(hào)(1)的方法,該方法包括以下步驟提取該音頻輸入信號(hào)(1)的至少一個(gè)特征(2);基于該至少一個(gè)所提取的特征(2)為該輸入音頻信號(hào)(1)導(dǎo)出特征矢量(3);以及確定該輸入音頻信號(hào)(1)的該特征矢量(3)落入多個(gè)類別(C1,C2,...,Cn)中的任何一個(gè)之內(nèi)的概率,其中每個(gè)類別對(duì)應(yīng)于特定的發(fā)行日期信息。
文檔編號(hào)G10L25/48GK1998044SQ200580013638
公開日2007年7月11日 申請(qǐng)日期2005年4月21日
發(fā)明者D·布里巴特, M·麥克金尼 申請(qǐng)人:皇家飛利浦電子股份有限公司導(dǎo)出引文BiBTeX, EndNote, RefMan