專利名稱:音頻處理裝置和方法以及程序的制作方法
技術(shù)領(lǐng)域:
本公開涉及音頻處理裝置和方法以及程序,更具體地,涉及能夠高精度地從由樂曲形成的音頻信號提取符尾(hook)的音頻處理裝置和方法以及程序。
背景技術(shù):
近來,如移動電話所代表的,無處不在的聯(lián)網(wǎng)的時代已經(jīng)到來,其中可以隨時隨地接入互聯(lián)網(wǎng),個人享受方式和生活方式已多樣化。其中,如果將目光轉(zhuǎn)向由樂曲等形成的音樂,直到最近,通常使用將購買的音樂專輯致密盤(CD)導(dǎo)入磁帶或者迷你盤(MD)并且在諸如地鐵或街道的戶外使用音頻播放器收聽音樂的方式。然而,近來,由于已引入包括諸如閃速存儲器的大容量存儲介質(zhì)的音頻播放器,因此通常使用導(dǎo)入和觀看大容量存儲介質(zhì)中的數(shù)千首(或數(shù)萬首)樂曲的方式。具有網(wǎng)絡(luò)功能并且包括音頻播放器的移動裝置即便在戶外仍可以接入互聯(lián)網(wǎng)以便收聽或購買音樂。通過這種方式,可以隨意地保持并且在戶外隨意地傳輸大量的樂曲。然而,有必要在沒有來自難以衡量的大量的樂曲的壓力的情況下容易地搜索期望的樂曲。就是說,當(dāng)選擇樂曲時,用戶收聽樂曲的開頭,并且通過選擇歌曲標(biāo)題或藝術(shù)家, 確定用戶是否將收聽該樂曲。然而,由于大部分樂曲的開頭是伴奏,因此難于確定其是否是期望的樂曲。如果存在大量的樂曲,則用戶可能遇到他們不能辨別的樂曲,并且可能喪失在期望時間收聽期望樂曲的機(jī)會。作為用于解決該問題的方法,存在一種通過再現(xiàn)作為樂曲的高潮部分的“符尾”部分來增強(qiáng)可搜索性的方法。由于“符尾”是樂曲的高潮部分,因此符尾給用戶強(qiáng)烈的印象。 因而,通過當(dāng)選擇樂曲時高精度地檢測符尾并且再現(xiàn)符尾,可以增強(qiáng)樂曲的可搜索性。如音樂排行榜電視節(jié)目中的那樣,依次再現(xiàn)符尾變?yōu)橐环N音樂享受方法。作為檢測符尾的方法,提出了一種通過自相關(guān)來計算相似性以提取符尾的方法 (參見日本專利第4243682號)。作為通過將注意力集中在音頻信號水平來檢測音頻變化點(diǎn)并且提取符尾的方法, 提出了一種根據(jù)包括作為特征值的均方根等的評估函數(shù)的最大值檢測音頻變化點(diǎn)并且提取符尾的方法(參見日本專利第3886372號)。提出了一種使用音頻信號水平作為特征值的方法,即通過區(qū)分變化量的閾值或該水平來檢測音頻變化點(diǎn),并且從時間分布的相似區(qū)間或者音頻變化點(diǎn)的間隔的組合提取符尾的方法(參見日本未審專利申請公布第2008-262043號)。
發(fā)明內(nèi)容
然而,日本專利第4243682號的方法基于如下前提“符尾”具有樂曲中最高的出現(xiàn)頻率,并且被重復(fù)地再現(xiàn)。該方法基于樂曲的性質(zhì)而有效,但是,依賴于樂曲,重復(fù)最多的部分可能不是“符尾”。就是說,存在如下樂曲,其中重復(fù)最多的部分是旋律A。此外,用于提取特征值或者計算相似性的處理負(fù)擔(dān)是大的。
日本專利第3886372號和日本未審專利申請公布第2008-262043號的方法基于樂曲的如下性質(zhì)“符尾”的音頻信號水平大于“旋律A”或“間奏”的音頻信號水平,但是處理結(jié)構(gòu)比日本專利第4243682號的方法簡單,由此增加了處理速度。然而,盡管實(shí)際樂曲的時間音頻信號水平具有劇烈的起伏,并且曲調(diào)或節(jié)奏(每分鐘的拍數(shù);BPM)取決于樂曲,但是日本專利第3886372號和日本未審專利申請公布第 2008-262043號沒有應(yīng)對這些問題。音頻變化點(diǎn)被過度地檢測,或者錯誤地檢測突然大的音頻信號水平而非符尾,使得符尾易于被錯誤檢測。如果特征值計算的粒度被設(shè)定為粗略的 (如果設(shè)定了長的處理時間長度),則減小了時間音頻信號水平的起伏,但是時間分辨率劣化。因而,有必要適當(dāng)?shù)卣{(diào)整處理時間長度。此外,有必要考慮突然大的音頻信號的處理。期望基于音頻信號準(zhǔn)確地檢測音頻變化點(diǎn)并且高精度地高速提取符尾地點(diǎn)。根據(jù)本公開的一個實(shí)施例,提供了一種音頻處理裝置,包括音頻信號獲取單元, 被配置為獲取樂曲的音頻信號;特征值提取單元,被配置為以時間序列從音頻信號獲取單元獲取的音頻信號中提取預(yù)定類型的特征值;變化點(diǎn)檢測單元,被配置為檢測其中特征值提取單元以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);符尾分析單元, 被配置為基于特征值提取單元以邊界為變化點(diǎn)檢測單元檢測到的變化點(diǎn)的塊為單位提取的特征值,分析音頻信號的符尾地點(diǎn);以及符尾信息輸出單元,被配置為輸出符尾分析單元分析的符尾地點(diǎn)作為符尾信息。特征值的類型可以包括立體聲和信號的均方根、立體聲差信號的均方根、立體聲和信號的幅度的平方和以及立體聲差信號的幅度的平方和中的任何一個或者它們的組合。變化點(diǎn)檢測單元可以包括平滑單元,被配置為使時間序列的特征值平滑;變化量計算單元,被配置為計算變化量;變化點(diǎn)確定單元,被配置為重新確定變化量是否為變化點(diǎn);變化點(diǎn)檢測控制單元,被配置為控制變化量的計算地點(diǎn)并且如果檢測到變化點(diǎn),則記錄變化點(diǎn)的位置;以及變化點(diǎn)統(tǒng)合單元,被配置為統(tǒng)合多個變化點(diǎn)。變化點(diǎn)檢測單元可以進(jìn)一步包括歸一化單元,其被配置為使時間序列的特征值歸一化。變化點(diǎn)檢測單元可以包括變化點(diǎn)重新檢測單元,該變化點(diǎn)重新檢測單元被配置為執(zhí)行如下兩個處理中的任何一個或兩者如果通過比較變化點(diǎn)的數(shù)目和預(yù)定閾值,變化點(diǎn)的數(shù)目大于預(yù)定閾值,則改變預(yù)定閾值以便減少變化點(diǎn)的數(shù)目;以及通過平滑單元使時間序列的特征值重新平滑并且重新確定變化量是否為變化點(diǎn)。變化點(diǎn)檢測單元可以包括變化點(diǎn)重新檢測單元,該變化點(diǎn)重新檢測單元被配置為如果存在大于預(yù)定時間且沒有變化點(diǎn)的時段,則改變預(yù)定閾值以便增加變化點(diǎn)的數(shù)目并且重新確定變化量是否為變化點(diǎn)。平滑單元可以通過預(yù)定時段中的運(yùn)動平均使時間序列的特征值平滑。平滑單元可以通過在基于預(yù)先獲得的節(jié)奏的預(yù)定時段中的運(yùn)動平均來使時間序列的特征值平滑。變化點(diǎn)檢測單元可以包括變化點(diǎn)調(diào)整單元,該變化點(diǎn)調(diào)整單元被配置為統(tǒng)合變化點(diǎn)中的多個相鄰變化點(diǎn)。變化點(diǎn)檢測單元可以包括變化點(diǎn)調(diào)整單元,該變化點(diǎn)調(diào)整單元被配置為將變化點(diǎn)中的兩個相鄰變化點(diǎn)統(tǒng)合到中間點(diǎn)。
符尾分析單元可以包括塊分割單元,被配置為在以變化點(diǎn)為邊界的塊中進(jìn)行分割;符尾塊檢測單元,被配置為以塊為單位獲得特征值的平均值并且將其中特征值的平均值最大的塊檢測為符尾塊;符尾塊控制單元,被配置為基于如下約束來控制分析對象的塊的位置塊與符尾塊檢測單元檢測到的符尾塊接續(xù);符尾塊分析單元,被配置為對分析對象的塊進(jìn)行分析;以及符尾塊確定單元,被配置為基于符尾塊分析單元的分析結(jié)果確定分析對象的塊是否為符尾塊。如果其中特征值的平均值最大的塊小于預(yù)定時段,則符尾塊檢測單元可以將通過使塊單位的特征值的平均值的計算范圍擴(kuò)寬到比塊長的預(yù)定長度而獲得的特征值的平均值設(shè)定為特征值的平均值。符尾塊分析單元可以對分析對象的塊進(jìn)行分析,并且獲得分析對象的塊中的特征值的平均值并將其設(shè)定為分析結(jié)果,并且符尾塊確定單元可以基于符尾塊檢測單元檢測到的符尾塊中的特征值的平均值和音頻信號獲取單元獲取的樂曲的整個音頻信號的特征值的平均值之間的差,計算預(yù)定閾值,并且通過將分析對象的塊的特征值的平均值和樂曲的整個音頻信號的特征值的平均值之間的差與閾值比較來確定分析對象的塊是否為符尾塊。符尾塊分析單元可以包括符尾塊校正單元,該符尾塊校正單元被配置為如果通過符尾塊確定單元確定分析對象的塊不是符尾塊,則將預(yù)定閾值校正為是小的,重新對分析對象的塊進(jìn)行分析并且確定分析對象的塊是否為符尾塊。符尾塊分析單元可以包括符尾塊校正單元,該符尾塊校正單元被配置為如果通過符尾塊確定單元確定分析對象的塊不是符尾塊,則將分析對象的塊的樣本數(shù)目校正為是減少的,重新對分析對象的塊進(jìn)行分析并且確定分析對象的塊是否為符尾塊。可以進(jìn)一步包括符尾信息統(tǒng)合單元,其被配置為通過多個預(yù)定類型的特征值統(tǒng)合符尾信息。音頻信號獲取單元可以輸出所獲取的樂曲的音頻信號的MDCT系數(shù)。根據(jù)本公開的另一實(shí)施例,提供了一種音頻處理裝置的音頻處理方法,該音頻處理裝置包括音頻信號獲取單元,被配置為獲取樂曲的音頻信號;特征值提取單元,被配置為以時間序列從音頻信號獲取單元獲取的音頻信號中提取預(yù)定類型的特征值;變化點(diǎn)檢測單元,被配置為檢測其中特征值提取單元以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);符尾分析單元,被配置為基于特征值提取單元將以變化點(diǎn)檢測單元檢測到的變化點(diǎn)為邊界的塊為單位提取的特征值,分析音頻信號的符尾地點(diǎn);以及符尾信息輸出單元,被配置為輸出符尾分析單元分析的符尾地點(diǎn)作為符尾信息,該音頻處理方法包括在音頻信號獲取單元中,獲取樂曲的音頻信號;在特征值提取單元中,從通過以時間序列獲取音頻信號而獲取的音頻信號中提取預(yù)定類型的特征值;在變化點(diǎn)檢測單元中,檢測其中通過提取特征值而以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);在符尾分析單元中,基于通過將以通過檢測變化點(diǎn)而檢測到的變化點(diǎn)為邊界的塊為單位中提取特征值而提取的特征值,分析音頻信號的符尾地點(diǎn);以及在符尾信息輸出單元中,輸出通過分析符尾地點(diǎn)而分析的符尾地點(diǎn)作為符尾信息。根據(jù)本公開的又一實(shí)施例,提供了一種在計算機(jī)上執(zhí)行如下處理的程序,該計算機(jī)用于控制音頻處理裝置的音頻處理方法,該音頻處理裝置包括音頻信號獲取單元,被配置為獲取樂曲的音頻信號;特征值提取單元,被配置為以時間序列從音頻信號獲取單元獲取的音頻信號中提取預(yù)定類型的特征值;變化點(diǎn)檢測單元,被配置為檢測其中特征值提取單元以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);符尾分析單元,被配置為基于特征值提取單元以邊界為變化點(diǎn)檢測單元檢測到的變化點(diǎn)的塊為單位提取的特征值,分析音頻信號的符尾地點(diǎn);以及符尾信息輸出單元,被配置為輸出符尾分析單元分析的符尾地點(diǎn)作為符尾信息,該處理包括在音頻信號獲取單元中,獲取樂曲的音頻信號;在特征值提取單元中,從通過以時間序列獲取音頻信號而獲取的音頻信號中提取預(yù)定類型的特征值;在變化點(diǎn)檢測單元中,檢測其中通過提取特征值而以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);在符尾分析單元中,基于通過以邊界為通過檢測變化點(diǎn)而檢測到的變化點(diǎn)的塊為單位提取特征值而提取的特征值,分析音頻信號的符尾地點(diǎn);以及在符尾信息輸出單元中,輸出通過分析符尾地點(diǎn)而分析的符尾地點(diǎn)作為符尾信息。在本公開的實(shí)施例中,獲取樂曲的音頻信號,以時間序列從獲取的音頻信號中提取預(yù)定類型的特征值,檢測其中以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn),基于以邊界為檢測到的變化點(diǎn)的塊為單位提取的特征值,分析音頻信號的符尾地點(diǎn), 并且輸出分析的符尾地點(diǎn)作為符尾信息。本公開的實(shí)施例的音頻處理裝置可以是獨(dú)立的裝置或者執(zhí)行音頻處理的塊。根據(jù)本公開的實(shí)施例,可以高精度地從包括輸入樂曲的音頻信號中提取符尾。
圖1是示出根據(jù)本公開的實(shí)施例的音樂分析設(shè)備的配置示例的框圖。圖2是示出圖1的變化點(diǎn)檢測單元的配置示例的示圖。圖3是示出圖1的符尾分析單元的配置示例的示圖。圖4是圖示音樂分析處理的流程圖。圖5是圖示變化點(diǎn)檢測處理的流程圖。圖6是圖示變化點(diǎn)檢測處理的示圖。圖7是圖示變化點(diǎn)檢測處理的示圖。圖8是圖示變化點(diǎn)的統(tǒng)合的示圖。圖9是示出平滑不足的情況下的波形示例的示圖。圖10是圖示符尾分析處理的流程圖。圖11是圖示符尾分析處理的示圖。圖12是圖示符尾分析處理的示圖。圖13是圖示通用個人計算機(jī)的配置示例的示圖。
具體實(shí)施例方式根據(jù)本公開的一個實(shí)施例,提供了一種音頻處理裝置,包括音頻信號獲取單元, 被配置為獲取樂曲的音頻信號;特征值提取單元,被配置為以時間序列從音頻信號獲取單元獲取的音頻信號中提取預(yù)定類型的特征值;變化點(diǎn)檢測單元,被配置為檢測其中特征值提取單元以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);符尾分析單元, 被配置為基于特征值提取單元在以邊界為變化點(diǎn)檢測單元檢測到的變化點(diǎn)為邊界的塊為單位中提取的特征值,分析音頻信號的符尾地點(diǎn);以及符尾信息輸出單元,被配置為輸出符尾分析單元分析的符尾地點(diǎn)作為符尾信息。根據(jù)本公開的另一實(shí)施例,提供了一種音頻處理裝置的音頻處理方法,該音頻處理裝置包括音頻信號獲取單元,被配置為獲取樂曲的音頻信號;特征值提取單元,被配置為以時間序列從音頻信號獲取單元獲取的音頻信號中提取預(yù)定類型的特征值;變化點(diǎn)檢測單元,被配置為檢測其中特征值提取單元以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);符尾分析單元,被配置為基于特征值提取單元將以變化點(diǎn)檢測單元檢測到的變化點(diǎn)為邊界的塊為單位提取的特征值,分析音頻信號的符尾地點(diǎn);以及符尾信息輸出單元,被配置為輸出符尾分析單元分析的符尾地點(diǎn)作為符尾信息,該音頻處理方法包括在音頻信號獲取單元中,獲取樂曲的音頻信號;在特征值提取單元中,從通過以時間序列獲取音頻信號而獲取的音頻信號中提取預(yù)定類型的特征值;在變化點(diǎn)檢測單元中,檢測其中通過提取特征值而以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);在符尾分析單元中,基于通過將以通過檢測變化點(diǎn)而檢測到的變化點(diǎn)為邊界的塊為單位中提取特征值而提取的特征值,分析音頻信號的符尾地點(diǎn);以及在符尾信息輸出單元中,輸出通過分析符尾地點(diǎn)而分析的符尾地點(diǎn)作為符尾信息。音樂分析設(shè)備的配置示例圖1示出了根據(jù)本公開的實(shí)施例的音樂分析設(shè)備的硬件的配置示例。圖1的音樂分析設(shè)備11接收和獲取包括樂曲的音頻信號的輸入,提取和分析特征值,從樂曲中提取所謂的符尾,并且輸出符尾作為符尾信息。這里,符尾是樂曲的高潮部分或者給收聽者強(qiáng)烈印象的部分,并且是如下部分當(dāng)收聽者聽到樂曲的該部分時,收聽者極有可能感知該部分屬于哪個音樂,盡管收聽者不記得歌曲標(biāo)題、藝術(shù)家等。音樂分析設(shè)備11包括獲取單元31、特征值提取單元32、變化點(diǎn)檢測單元33、變化點(diǎn)統(tǒng)合單元34、符尾分析單元35、符尾統(tǒng)合單元36和符尾信息輸出單元37。獲取單元31獲取包括輸入樂曲(音頻內(nèi)容)的音頻信號。獲取單元31接收具有脈沖編碼調(diào)制(PCM)格式的音頻信號并且將其提供給特征值提取單元32。由于獲取單元具有用于將音頻信號轉(zhuǎn)化為PCM格式的功能,因此獲取單元31接收具有與PCM格式不同的格式的音頻信號并且按照需要將該音頻信號轉(zhuǎn)化為PCM格式。音頻信號的與PCM格式不同的格式可以是例如,諸如運(yùn)動圖片專家組音頻層3 (MP; )的壓縮格式。在該情況下,獲取單元 31可以按照需要執(zhí)行與壓縮格式對應(yīng)的解碼處理并且向特征值提取單元32提供作為解碼處理中的音頻信號的格式的修正離散余弦變換(MDCT)系數(shù)等。由于包括樂曲的音頻信號通常具有諸如MP3的壓縮格式以便于高效地應(yīng)對存儲器,因此優(yōu)選的是,處理時間長度(幀長度)因用于存儲音頻信號的緩沖器的尺寸限制而是固定的。這里,盡管幀長度是固定的(10 個樣本/通道),但是幀長度可以自由設(shè)定并且不限于此。盡管包括樂曲的音頻信號的采樣頻率或者信道的數(shù)目沒有限制,但是作為代表性示例,在音頻致密盤(⑶)中采樣頻率通常是44100Hz并且通道的數(shù)目被設(shè)定為2個通道。特征值提取單元32以時間序列從獲取單元31提供的具有PCM格式的音頻信號中提取預(yù)定類型的特征值并且將時間序列特征值提供給變化點(diǎn)檢測單元33作為時間序列特征值。這里描述的特征值包括例如,過零率、頻譜質(zhì)心、頻譜變化量、梅爾頻率倒譜系數(shù)等。 過零率指的是音樂分析或語音識別中常用的作為特征值的時間軸信號中的正/負(fù)符號變化次數(shù)的比率。頻譜質(zhì)心指的是作為特征值的頻譜的中心位置。頻譜變化量指的是作為特征值的頻譜的變化量。梅爾頻率倒譜系數(shù)指的是通過使用梅爾標(biāo)度壓縮頻譜并且相對于作為其對數(shù)的梅爾頻譜執(zhí)行傅立葉變換而獲得的系數(shù)。特征值提取單元32可以以時間序列提取任何一個上述特征值作為預(yù)定特征值或者以時間序列提取多個特征值的組合作為預(yù)定特征值。在下面的描述中,為了便于描述,特征值提取單元32以時間序列提取音頻信號水平作為預(yù)定特征值。特征值的類型可以是任意的并且不限于上述特征值?,F(xiàn)在,將描述音頻信號水平。通常,符尾具有其音頻信號水平大于與符尾不同的被稱為旋律A的初始旋律部分、間奏等的音頻信號水平的音樂性質(zhì)。因此,由下式1表述的立體聲和信號M(n)被視為用作特征值。符尾是樂曲的高潮部分。此外,在符尾中,由于較之旋律A或間奏,聲音的數(shù)量(樂器聲音、伴唱等)多并且聲音在寬的范圍中定位,因此由下式2表述的立體聲差信號S (η)也被視為用作特征值。式1M (n) = (L (η) +R (η) )/2式2S (η) = (L (η)-R (η) )/2其中L(n)表示左通道的音頻信號水平,R(η)表示右通道的音頻信號水平,并且η 表示樣本編號。作為計算相對于立體聲和信號M(η)和立體聲差信號S (η)中的每個的音頻信號水平的方法,存在幅度的均方根(冊幻或平方和。這里,將描述使用均方根(冊幻作為特征值的示例。均方根RMS(N)由下式3表述。式權(quán)利要求
1.一種音頻處理裝置,包括音頻信號獲取單元,被配置為獲取樂曲的音頻信號;特征值提取單元,被配置為以時間序列從所述音頻信號獲取單元獲取的音頻信號中提取預(yù)定類型的特征值;變化點(diǎn)檢測單元,被配置為檢測其中所述特征值提取單元以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);符尾分析單元,被配置為基于所述特征值提取單元以邊界為所述變化點(diǎn)檢測單元檢測到的變化點(diǎn)的塊為單位提取的特征值,分析所述音頻信號的符尾地點(diǎn);以及符尾信息輸出單元,被配置為輸出所述符尾分析單元分析的符尾地點(diǎn)作為符尾信息。
2.根據(jù)權(quán)利要求1所述的音頻處理裝置,其中所述的特征值的類型包括立體聲和信號的均方根、立體聲差信號的均方根、立體聲和信號的幅度的平方和以及立體聲差信號的幅度的平方和中的任何一個或者它們的組合。
3.根據(jù)權(quán)利要求1所述的音頻處理裝置,其中所述變化點(diǎn)檢測單元包括 平滑單元,被配置為使所述時間序列的特征值平滑;變化量計算單元,被配置為計算所述變化量; 變化點(diǎn)確定單元,被配置為確定所述變化量是否為所述變化點(diǎn); 變化點(diǎn)檢測控制單元,被配置為控制所述變化量的計算地點(diǎn)并且如果檢測到變化點(diǎn), 則記錄所述變化點(diǎn)的位置;以及變化點(diǎn)統(tǒng)合單元,被配置為統(tǒng)合多個變化點(diǎn)。
4.根據(jù)權(quán)利要求3所述的音頻處理裝置,其中所述變化點(diǎn)檢測單元進(jìn)一步包括歸一化單元,其被配置為使所述時間序列的特征值歸一化。
5.根據(jù)權(quán)利要求3所述的音頻處理裝置,其中所述變化點(diǎn)檢測單元包括變化點(diǎn)重新檢測單元,所述變化點(diǎn)重新檢測單元被配置為執(zhí)行如下兩個處理中的任何一個或兩者如果通過比較變化點(diǎn)的數(shù)目和所述預(yù)定閾值,變化點(diǎn)的數(shù)目大于所述預(yù)定閾值,則改變所述預(yù)定閾值以便減少變化點(diǎn)的數(shù)目;以及通過所述平滑單元使所述時間序列的特征值重新平滑并且重新確定所述變化量是否為所述變化點(diǎn)。
6.根據(jù)權(quán)利要求3所述的音頻處理裝置,其中所述變化點(diǎn)檢測單元包括變化點(diǎn)重新檢測單元,所述變化點(diǎn)重新檢測單元被配置為如果存在大于預(yù)定時間且沒有變化點(diǎn)的時段, 則改變所述預(yù)定閾值以便增加變化點(diǎn)的數(shù)目并且重新確定所述變化量是否為所述變化點(diǎn)。
7.根據(jù)權(quán)利要求3所述的音頻處理裝置,其中所述平滑單元通過預(yù)定時段中的運(yùn)動平均使所述時間序列的特征值平滑。
8.根據(jù)權(quán)利要求7所述的音頻處理裝置,其中所述平滑單元通過在基于預(yù)先獲得的節(jié)奏的預(yù)定時段中的運(yùn)動平均來使所述時間序列的特征值平滑。
9.根據(jù)權(quán)利要求3所述的音頻處理裝置,其中所述變化點(diǎn)檢測單元包括變化點(diǎn)調(diào)整單元,所述變化點(diǎn)調(diào)整單元被配置為統(tǒng)合所述變化點(diǎn)中的多個相鄰變化點(diǎn)。
10.根據(jù)權(quán)利要求9所述的音頻處理裝置,其中所述變化點(diǎn)檢測單元包括變化點(diǎn)調(diào)整單元,所述變化點(diǎn)調(diào)整單元被配置為將所述變化點(diǎn)中的兩個相鄰變化點(diǎn)統(tǒng)合到中間點(diǎn)。
11.根據(jù)權(quán)利要求1所述的音頻處理裝置,其中所述符尾分析單元包括 塊分割單元,被配置為在以所述變化點(diǎn)為邊界的塊中進(jìn)行分割;符尾塊檢測單元,被配置為以塊為單位獲得所述特征值的平均值并且將其中所述特征值的平均值最大的塊檢測為符尾塊;符尾塊控制單元,被配置為基于如下約束來控制分析對象的塊的位置塊與所述符尾塊檢測單元檢測到的符尾塊接續(xù);符尾塊分析單元,被配置為分析所述分析對象的塊;以及符尾塊確定單元,被配置為基于所述符尾塊分析單元的分析結(jié)果確定所述分析對象的塊是否為符尾塊。
12.根據(jù)權(quán)利要求11所述的音頻處理裝置,其中,如果其中所述特征值的平均值最大的塊小于預(yù)定時段,則所述符尾塊檢測單元將通過使所述塊單位的特征值的平均值的計算范圍擴(kuò)寬到比所述塊長的預(yù)定長度而獲得的特征值的平均值設(shè)定為所述特征值的平均值。
13.根據(jù)權(quán)利要求11所述的音頻處理裝置,其中所述符尾塊分析單元分析所述分析對象的塊,并且獲得所述分析對象的塊中的特征值的平均值并將其設(shè)定為分析結(jié)果,以及其中所述符尾塊確定單元基于所述符尾塊檢測單元檢測到的符尾塊中的特征值的平均值和所述音頻信號獲取單元獲取的樂曲的整個音頻信號的特征值的平均值之間的差,計算預(yù)定閾值,并且通過將所述分析對象的塊的特征值的平均值和樂曲的整個音頻信號的特征值的平均值之間的差與所述閾值比較來確定所述分析對象的塊是否為符尾塊。
14.根據(jù)權(quán)利要求13所述的音頻處理裝置,其中所述符尾塊分析單元包括符尾塊校正單元,所述符尾塊校正單元被配置為如果通過所述符尾塊確定單元確定所述分析對象的塊不是符尾塊,則將所述預(yù)定閾值校正為是小的,重新分析所述分析對象的塊并且確定所述分析對象的塊是否為符尾塊。
15.根據(jù)權(quán)利要求13所述的音頻處理裝置,其中所述符尾塊分析單元包括符尾塊校正單元,所述符尾塊校正單元被配置為如果通過所述符尾塊確定單元確定所述分析對象的塊不是符尾塊,則將所述分析對象的塊的樣本數(shù)目校正為是減少的,重新分析所述分析對象的塊并且確定所述分析對象的塊是否為符尾塊。
16.根據(jù)權(quán)利要求11所述的音頻處理裝置,進(jìn)一步包括符尾信息統(tǒng)合單元,被配置為通過多個預(yù)定類型的特征值統(tǒng)合符尾信息。
17.根據(jù)權(quán)利要求1所述的音頻處理裝置,其中所述音頻信號獲取單元輸出所獲取的樂曲的音頻信號的修正離散余弦變換MDCT系數(shù)。
18.一種音頻處理裝置的音頻處理方法,所述音頻處理裝置包括 音頻信號獲取單元,被配置為獲取樂曲的音頻信號;特征值提取單元,被配置為以時間序列從所述音頻信號獲取單元獲取的音頻信號中提取預(yù)定類型的特征值;變化點(diǎn)檢測單元,被配置為檢測其中所述特征值提取單元以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);符尾分析單元,被配置為基于所述特征值提取單元以邊界為所述變化點(diǎn)檢測單元檢測到的變化點(diǎn)的塊為單位提取的特征值,分析所述音頻信號的符尾地點(diǎn);以及符尾信息輸出單元,被配置為輸出所述符尾分析單元分析的符尾地點(diǎn)作為符尾信息, 所述音頻處理方法包括在所述音頻信號獲取單元中,獲取樂曲的音頻信號;在所述特征值提取單元中,從通過以時間序列獲取所述音頻信號而獲取的音頻信號中提取所述預(yù)定類型的特征值;在所述變化點(diǎn)檢測單元中,檢測其中通過提取所述特征值而以時間序列提取的特征值的變化量變?yōu)榇笥谒鲱A(yù)定閾值的變化點(diǎn);在所述符尾分析單元中,基于通過以邊界為通過檢測變化點(diǎn)而檢測到的變化點(diǎn)的塊為單位提取特征值而提取的特征值,分析所述音頻信號的符尾地點(diǎn);以及在所述符尾信息輸出單元中,輸出通過分析所述符尾地點(diǎn)而分析的符尾地點(diǎn)作為符尾 fn息ο
19. 一種在計算機(jī)上執(zhí)行如下處理的程序,所述計算機(jī)用于控制音頻處理裝置的音頻處理方法,所述音頻處理裝置包括音頻信號獲取單元,被配置為獲取樂曲的音頻信號;特征值提取單元,被配置為以時間序列從所述音頻信號獲取單元獲取的音頻信號中提取預(yù)定類型的特征值;變化點(diǎn)檢測單元,被配置為檢測其中所述特征值提取單元以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);符尾分析單元,被配置為基于所述特征值提取單元以邊界為所述變化點(diǎn)檢測單元檢測到的變化點(diǎn)的塊為單位提取的特征值,分析所述音頻信號的符尾地點(diǎn);以及符尾信息輸出單元,被配置為輸出所述符尾分析單元分析的符尾地點(diǎn)作為符尾信息, 所述處理包括在所述音頻信號獲取單元中,獲取樂曲的音頻信號;在所述特征值提取單元中,從通過以時間序列獲取所述音頻信號而獲取的音頻信號中提取所述預(yù)定類型的特征值;在所述變化點(diǎn)檢測單元中,檢測其中通過提取所述特征值而以時間序列提取的特征值的變化量變?yōu)榇笥谒鲱A(yù)定閾值的變化點(diǎn);在所述符尾分析單元中,基于通過以邊界為通過檢測變化點(diǎn)而檢測到的變化點(diǎn)的塊為單位提取特征值而提取的特征值,分析所述音頻信號的符尾地點(diǎn);以及在所述符尾信息輸出單元中,輸出通過分析所述符尾地點(diǎn)而分析的符尾地點(diǎn)作為符尾 fn息ο
全文摘要
本公開涉及音頻處理裝置和方法以及程序。該音頻處理裝置包括音頻信號獲取單元,其獲取樂曲的音頻信號;特征值提取單元,其以時間序列從音頻信號獲取單元獲取的音頻信號中提取預(yù)定類型的特征值;變化點(diǎn)檢測單元,其檢測其中特征值提取單元以時間序列提取的特征值的變化量變?yōu)榇笥陬A(yù)定閾值的變化點(diǎn);符尾分析單元,其基于特征值提取單元以邊界為變化點(diǎn)檢測單元檢測到的變化點(diǎn)的塊為單位提取的特征值,分析音頻信號的符尾地點(diǎn);以及符尾信息輸出單元,其輸出符尾分析單元分析的符尾地點(diǎn)作為符尾信息。
文檔編號G10L11/00GK102456342SQ20111031777
公開日2012年5月16日 申請日期2011年10月11日 優(yōu)先權(quán)日2010年10月18日
發(fā)明者井上晃, 內(nèi)野學(xué), 高橋秀介 申請人:索尼公司