專利名稱:從音頻文件提取節(jié)拍的方法和設備的制作方法
技術領域:
本發(fā)明涉及一種從音頻文件提取節(jié)拍的方法和設備,尤其涉及一種基于音頻文件的情緒參數對從MDCT (修正離散余弦變換)域的音頻數據提取的 節(jié)拍進行選纟奪的方法和設備。
背景技術:
近來,隨著數字技術的發(fā)展,出現(xiàn)各種管理和播放音頻文件的方式。為 了更加靈活地使用音頻文件,人們越來越關注于音頻文件信息的提取。節(jié)拍(tempo )作為指示音頻文件的拍速的信息,是描述音頻文件的重要屬性之一。 對于音樂文件而言,節(jié)拍主要涉及由打擊樂器產生的固定頻率的拍子。在音 頻文件中,不同時間會出現(xiàn)多個不同頻率的拍子。具有實際意義的節(jié)拍信息 是指 一段音頻文件中的主要節(jié)拍,在這里稱為音頻文件的節(jié)拍。傳統(tǒng)的節(jié)拍提取方法通常從頻域的音頻數據提取各個拍速,并采用跟蹤 拍子的方式從提取的各個拍速之中選擇作為該音頻文件的節(jié)拍的拍速。如第 US2007/0022867A1號美國專利申請所描述的,拍子跟蹤系統(tǒng)包括拍子提取 設備,用于通過檢測頻譜幅度的較大變化來定位拍子的位置;自相關函數(ACF)計算設備,用于從所述拍子的位置計算ACF;以及跟蹤設備,用于 經由跟蹤裝置從峰值位置估計BPM。此外,公開的第US2006/0060067A1號 美國專利還包括沖擊起始點信號檢測單元和節(jié)拍估計單元。通過在多個子將多個子帶的沖擊起始點信號求和,形成對其進行ACF的一曲線。然后,將 ACF的極大值峰值定位為節(jié)拍。將BPM估計為最大公約數(其同時作為主 峰)。同樣,公開號為US2002/0148347A1的美國專利也按照類似方式工作。 然而,當今的多數音頻文件均經過壓縮編碼處理,為了進行節(jié)拍提取而將解 碼后的原始音頻數據轉換為頻域數據將占用大量的處理資源,并消耗過多的 處理時間,這對于很多在硬件上受到限制的應用設備而言是無法實現(xiàn)的。此 外,采用跟蹤拍子的方式來確定音頻文件節(jié)拍的方式無法考慮人對于音頻文 件的主觀感受,使得確定的結果與人的主觀感受存在偏差。因此,需要一種能夠結合音頻壓縮編碼技術,在處理時間和精度方面均 有較大提高,同時兼顧人的主觀感受的音頻文件節(jié)拍提取方法和設備。同時,盡管在第7050980號美國專利中公開了一種沖擊起始點信號檢測方法,其中, 從壓縮域的音樂數據檢測沖擊起始點信號,但是其沒有以適當的方式估計 BPM,而在本說明書描述的是不同的沖擊起始點信號檢測方法及其設備。發(fā)明內容本發(fā)明的目的在于提供一種利用數字信號處理技術直接從音頻文件的 MDCT音頻數據提取節(jié)拍的方法和設備。根據本發(fā)明的一方面,提供一種從音頻文件的MDCT音頻數據提取節(jié)拍 的方法,包括以下步驟(1 )將MDCT音頻數據劃分為多個子帶,檢測每個 子帶中的沖擊起始點信號;(2)計算每個子帶中沖擊起始點信號的周期;(3) 從周期沖擊起始點信號估計出諧波節(jié)拍組;以及(4)從所述諧波節(jié)拍組中選 擇所述音頻文件的節(jié)拍。根據本發(fā)明的另一方面,提供一種從音頻文件的MDCT音頻數據提取節(jié) 拍的設備,包括沖擊起始點信號檢測器,用于將MDCT音頻數據劃分為多個 子帶,檢測每個子帶中的沖擊起始點信號;拍速計算器,用于計算各個子帶 中沖擊起始點信號的周期;諧波節(jié)拍組估計器,用于從周期性沖擊起始點信 號估計出諧波節(jié)拍組;主諧波節(jié)拍組確定器,用于從所述諧波節(jié)拍組中確定 主諧波節(jié)拍組;以及節(jié)拍選擇器,用于從主諧波節(jié)拍組中選擇所述音頻文件 的節(jié)拍。
通過下面結合附圖進行的對實施例的描述,本發(fā)明的上述和/或其他目的和優(yōu)點將會變得更加清楚,其中圖1是示出根據本發(fā)明實施例的節(jié)拍提取設備的框圖;圖2是示出根據本發(fā)明實施例的節(jié)拍提取方法的流程圖;圖3是示出根據本發(fā)明實施例的節(jié)拍提取設備中的沖擊起始點信號檢測器的操作的流程圖;圖4是示出根據本發(fā)明實施例的節(jié)拍提取設備的拍速計算器的操作的流 程圖;產生的BPM直方圖;圖6是示出根據本發(fā)明實施例的節(jié)拍提取設備的諧波節(jié)拍組估計器的操 作的流程圖;圖7示出根據本發(fā)明實施例的節(jié)拍提取設備中的主諧波節(jié)拍組確定器的 操作的流程圖;圖8示出根據本發(fā)明實施例的從弱峰值中找回屬于主諧波節(jié)拍組的諧波 的處理;以及圖9示出根據本發(fā)明實施例的節(jié)拍選擇器基于情緒參數選擇實際節(jié)拍的 處理。
具體實施方式
現(xiàn)將詳細參照本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中, 相同的標號始終指的是相同的部件。以下將通過參照附圖來說明所述實施例, 以便解釋本發(fā)明。圖1是示出根據本發(fā)明實施例的節(jié)拍提取設備的框圖。圖l所示的節(jié)拍 提取設備包括沖擊起始點信號(onset)檢測器10、拍速計算器20、諧波節(jié) 拍組估計器30、主諧波節(jié)拍組確定器40以及節(jié)拍選^f奪器50。可選地,所述 節(jié)拍提取設備包括部分解碼器(未示出),其對于經過MDCT變換的編碼音 頻文件進行部分解碼,得到相應的MDCTlt據,例如,所述音頻文件可以是 MP3 (運動圖像專家組聲音層3)、 AC-3 (音頻編碼-3)、 AAC (高級音頻編 碼)文件等。圖2是示出根據本發(fā)明實施例的節(jié)拍提取方法的流程圖。 首先,在步驟100,沖擊起始點信號檢測器IO將輸入的MDCT音頻數 據劃分為多個子帶,檢測每個子帶中的沖擊起始點信號。然后,在步驟200,拍速計算器20對于由沖擊起始點信號檢測器10檢 測的各個子帶內的沖擊起始點信號計算它們的周期,從而得到各個節(jié)拍信號 的拍速,產生指示子帶中各個周期信號(即,節(jié)拍信號)的強度分布的直方 圖,將所有子帶的強度直方圖求和,從而得到指示相應的各個節(jié)拍的強度分 布的直方圖。在該實施例中,用BPM (每分鐘的拍子數量)來表示節(jié)拍信號
的拍速。在步驟300,諧波節(jié)拍組估計器30通過所述直方圖估計出諧波節(jié)拍組。 所述諧波節(jié)拍組是指一組拍速按諧波順序排列的節(jié)拍。例如,在BPM分別為 30、 45、 60、 90、 120、 180的一組節(jié)拍信號中,BPM分別為30、 60、 120 的節(jié)拍構成一組諧波節(jié)拍組{30, 60, 120},而BPM分別為45、卯的節(jié)拍也 構成一組諧波節(jié)拍組{45, 90}。在步驟400,主諧波節(jié)拍組確定器40在諧波節(jié)拍組估計器30所估計出 的各個諧波節(jié)拍組中,根據各個諧波節(jié)拍組的諧波數量以及強度來確定包括 音頻文件的節(jié)拍的主諧波節(jié)拍組。在步驟500,節(jié)拍選"^器50根據音頻文件的情緒參數從由主諧波節(jié)拍組 確定器40確定的主諧波節(jié)拍組中選擇所述音頻文件的節(jié)拍。其中,音頻文件 的情緒參數主要指示聽眾對于音頻文件的主觀感受。以下,將參照圖3到圖7來描述上述各個部件的具體操作。圖3是示出根據本發(fā)明實施例的節(jié)拍提取設備中的沖擊起始點信號檢測 器IO的操作的流程圖。首先,在步驟104,沖擊起始點信號檢測器IO將音頻文件的MDCT數 據按照一定的規(guī)則劃分為多個子帶,作為示例,可將整個MDCT數據線性劃 分為36個子帶,或者按照一定函數關系將整個MDCT數據劃分為36個子帶, 例如,在音頻文件具有44100Hz的采樣率時,定義所述36個子帶的頻率值可 以分別為50、 84、 122、 166、 214、 269、 330、 398、 475、 562、 659、 768、 890、 1028、 1182、 1355、 1549、 1768、 2013、 2288、 2597、 2944、 3333、 4262、 4813、 5432、 6126、 6907、 7782、 8766、 9870、 11110、 12501、 14064、 15819、 17788、 22050Hz??蓪γ總€子帶加三角窗以消除劃分子帶時的邊緣效應,在 這種情況下,沖擊起始點信號檢測器10可根據以下方法計算一個MDCT幀 在一個子帶上的能量 = 0/or(/ =/ < / +十)ewe十二 mJ"[/] * wd"[/] * (/ — ^7) /(> — XZ =加"'< += W7t/"[z'] * mcfcf[〖]* — /)/(# — 其中,e"e表示能量,y 表示三角窗的低端頻率,卻表示三角窗的中間 頻率,^表示三角窗的高端頻率,^/"[/]表示第i個頻率上的mdct系數。以上計算出的能量信號e恥由于幅度激增,不適合在實際中進行處理,因
此,需要將得到的能量信號進行壓縮。作為示例,可對子帶能量信號進行動 態(tài)壓縮以實現(xiàn)數值上的強健性(步驟105 )??蛇x地,使用log(l + 100*e"e)/log(101) 作為壓縮比。節(jié)拍信號作為一種較低頻率的信號,其范圍在20-250BPM之間,實際中, 其值通常位于60-160BPM之間。當MDCT幀的采樣率足夠高時,可以實現(xiàn) 對節(jié)拍信號的檢測。然而,如果音頻信號的采樣率過低,則會影響對節(jié)拍信 號的檢測,甚至無法提取正確的節(jié)拍信號。為了解決這一問題,作為可選步 驟,沖擊起始點信號檢測器10可在MDCT系數中插入0值以提高時間分辨 率(步驟106)。由于20-250BPM的范圍所對應的節(jié)拍頻率為1/3Hz到25/6Hz,因此, 在計算出每個子帶內的信號能量之后,沖擊起始點信號檢測器IO可通過對能 量包絡進行包絡檢測而獲得低頻的沖擊起始點信號。低通濾波器是一種典型 的包絡檢測手段,作為示例,沖擊起始點信號檢測器10可通過6階的 Butterworth低通濾波器以10Hz的截止頻率對能量包絡進行濾波(步驟107)。 為了將所得到的信號變化幅度進一步擴大,作為示例,可對時間上相鄰的樣 點進行一階差分處理(步驟108 ),對差分信號進行半波整流(步驟109 ),所 得到的信號就是一個子帶內的沖擊起始點信號。應理解所述示例并不是限 制性的,任何技術上等同的其它手段可被釆用。按照同樣的方式,沖擊起始點信號檢測器10分別檢測各個子帶內的沖擊 起始點信號。圖4是示出根據本發(fā)明實施例的節(jié)拍提取設備的拍速計算器20的操作的 流程圖。在步驟201,由沖擊起始點信號檢測器IO檢測的各個子帶中的沖擊起始 點信號被輸入拍速計算器20。在步驟202,拍速計算器20計算各個子帶中沖 擊起始點信號的周期。在該實施例中,拍速計算器20通過自相關函數(ACF) 來估計沖擊起始點信號的周期。具體說來,對于每一子帶b,計算自相關函 數在給定位移n的結果R (n, b)。對于給定子帶b,選擇具有最大R值的周 期作為估計的沖擊起始點信號周期。將這一周期值換算為BPM值,相應的R 值被稱為"強度",表示與該BPM值相應的節(jié)拍信號的強度。在步驟203, 拍速計算器20根據計算出的單個子帶b中的各個沖擊起始點信號周期,產生 指示子帶中各個周期信號的強度分布的BPM直方圖。具體說來,將BPM的
范圍設置為從20BPM到250BPM,每個區(qū)間的大小為5BPM,統(tǒng)計各個BPM 區(qū)間上的強度,即R值。然后,在步驟204,拍速計算器20將各個子帶的強 度直方圖求和,形成最終輸出的BPM直方圖,該直方圖將被諧波節(jié)拍組估計 器30用來估計諧波節(jié)拍組。應理解這里采用的ACF方法僅僅是示例性的, 可采用其它方法來估計沖擊起始點信號的周期。圖5示出對于各種類型的具 有不同節(jié)拍的音頻文件產生的BPM直方圖。圖6是示出根據本發(fā)明實施例的節(jié)拍提取設備的諧波節(jié)拍組估計器30 的操作的流程圖。在步驟301 ,諧波節(jié)拍組估計器30分析從拍速計算器20產生的最終BPM 直方圖??梢钥闯?,該BPM直方圖的峰值代表可能的節(jié)拍及其諧波。在該實 施例中,使用"搜索算法"來分析BPM直方圖中的峰值,具體說來,"搜索 算法"設置關于峰值強度以及斜度的搜索條件,搜索出滿足特定條件的峰值, 并根據所滿足的不同條件將峰值劃分為強峰值和弱峰值。例如,可如下設置 條件1和條件2:1 R(BINpeak)〉二Tmax并且R(BINpeak)隱min(R(BINpeak-l), R(BINpeak-2)) 〉Tmin并且R(BINpeak)-min(R(BINpeak+l), R(BINpeak+2)) > Tmin;2 Tmax>R(BINpeak)>Tmin并且R(BINpeak)畫min(R(BINpeak-1 ), R(BINpeak-2),R(BINpeak-3))>Tmin并且R(BINpeak)-min(R(BINpeak+l), R(BINpeak+2),R(BINpeak+3 ))〉Tmin;其中,滿足條件1的峰值稱為強峰值,滿足條件2的峰值稱為弱峰值, Tmax、 Tmin為用戶定義的峰值強度閾值,并且Tmax〉Tmin。上述搜索條件僅僅是示例性的,根據實際應用,可采用不同的條件和參 數,以便進行對于峰值分析具有實際意義的分類。由于BPM直方圖中會存在多個峰值,所以通過強峰值和弱峰值的劃分, 能夠有效地區(qū)分出更體現(xiàn)實際節(jié)拍特征的強峰值。然后,在步驟303,諧波節(jié)拍組估計器30對滿足條件1的強峰值進行諧 波集群處理,將強峰值按照諧波劃分為若干集合,每一集合中包括一組諧波 節(jié)拍,稱為諧波節(jié)拍組。作為示例,可按照下面的集群算法來劃分節(jié)拍。首先,按照BPM值從小到大的順序來排列所有的強峰值BPMO、 BPM1、 BPM2、…、BPMm;然后,初始化新的集合i = 0 ,將BPMi設置為第 一諧波節(jié)拍組的第一 BPM
然后可按照以下算法來建立諧波節(jié)拍組設置i-l,以l為步長,增加到i二m;如果BPMi是任何諧波節(jié)拍組中的第一 BPM的2、 3或4倍,則將該BPMi 添加到這一諧波節(jié)拍組中,在這一判斷中,可允許5BPM的偏差。例如,可 認為65是30的2次諧波,125是30的4次諧波;否則,創(chuàng)建新的諧波節(jié)拍組,以該BPMi作為新的諧波節(jié)拍組的第一 BPM。通過上述集群算法,諧波節(jié)拍組估計器30估計出若千諧波節(jié)拍組。 圖7示出根據本發(fā)明實施例的節(jié)拍提取設備中的主諧波節(jié)拍組確定器40 的操作的流程圖。在步驟402,主諧波節(jié)拍組確定器40從由諧波節(jié)拍組估計器30估計出 的若干諧波節(jié)拍組中確定包括音頻文件的實際節(jié)拍(即,反映整個音頻文件 特性的主要節(jié)拍)的主諧波節(jié)拍組。確定主諧波節(jié)拍組的基本原理為選取諧 波數量最多的諧波節(jié)拍組作為主諧波節(jié)拍組,當諧波數量相同時,選擇最高 諧波具有更高強度的諧波節(jié)拍組作為主諧波節(jié)拍組。這里所說的諧波是指音 頻文件中真實存在的諧波,對于信號處理過程中產生的偽諧波,可采取相應 的算法去除它們的影響。例如,當從諧波節(jié)拍組估計器30估計出的諧波節(jié)拍組包括{30, 60}、 {45, 90, 180}以及{50}時,選擇諧波數量最多(3個)的{45, 90, 180}作為主諧 波節(jié)拍組。當從諧波節(jié)拍組估計器30估計出的諧波節(jié)拍組包括(30(R二74.81), 60(11=37.2)}以及{45(11=56.3), 90(R二21》時,選擇二次諧波具有更高強度 (37.2〉21 )的{30(11=74.81), 60(11=37.2)}作為主諧波節(jié)拍組。當從諧波節(jié)拍 組估計器30估計出的諧波節(jié)拍組包括{30(R=74.81) , 60(R=37.2)}以及 {45(R=56.3), 90(尺=59}時,選擇二次諧波具有更高強度(59>37.2 )的 {45(R=56.3),卯(R39H乍為主諧波節(jié)拍組。當主諧波節(jié)拍組確定器40確定主諧波節(jié)拍組之后,為了獲得更加完備的諧波節(jié)拍組確定器40將弱峰值中屬于主諧波節(jié)拍組的諧波序列的節(jié)拍找回 到主諧波節(jié)拍組中,構成更加完整客觀的主諧波節(jié)拍組以增強實際節(jié)拍選擇 過程中的強健性。在重新搜索弱峰值的過程中,可根據具體音頻文件的節(jié)拍 特點(例如,音樂文件的節(jié)拍特點等)設置進入主諧波節(jié)拍組的條件。作為
示例,可參照圖8所示的方法來找回弱峰值中屬于主諧波節(jié)拍組中的節(jié)拍 將主諧波節(jié)拍組中的節(jié)拍按照從d、到大的順序排列為{BPMmin,..., BPMmax},然后重新搜索弱峰值以執(zhí)行以下判斷(1) 如果存在BPM等于2xBPMmax或2xBPMmax+5的極大值峰值,則 將該BPM (BPMmaxl)添加到主諧波節(jié)拍組;(2) 如果已經添加了 BPMmaxl,則繼續(xù)搜索,如果存在BPM等于 4xBPMmax或4xBPMmax+5或4xBPMmax+10的另一極大值峰值,則將該 BPM (BPMmaxq添加到主諧波節(jié)拍組;(3) 如果120〉BPMmii^-60,則搜索直方圖中的弱峰值,當存在滿足條件 2xBPM=BPMmin或2xBPM+5=BPMmin的BPM時,添加該BPM (BPMmin 1);(4) 如果BPMmin>=120,,則搜索直方圖中的弱峰值,當存在滿足條件 2xBPM=BPMmin或2xBPM+5=BPMmin或2xBPM+10=BPMmin的BPM時, 添加該BPM (BPMmin 1);(5) 如果BPMminl已經被添加,則繼續(xù)搜索,如果存在滿足條件 2xBPM=BPMminl 或 2xBPM+5=BPMminl 的 BPM 時,添力口該 BPM(BPMmin2)。以上判斷條件僅僅是示例性的,本發(fā)明并不受限于此,可根據實際應用, 使用各種判別條件和參數將弱峰值中的某些諧波找回主諧波節(jié)拍組中,以構 成相對完整的主諧波節(jié)拍組,以便從中選擇音頻文件的實際節(jié)拍信息。如上所述,在主諧波節(jié)拍組確定器40創(chuàng)建完備的主諧波節(jié)拍組之后,由 節(jié)拍選擇器50從由主諧波節(jié)拍組確定器40創(chuàng)建的主諧波節(jié)拍組中選擇音頻 文件的實際節(jié)拍。在該實施例中,節(jié)拍選擇器50將參考音頻文件的情緒參數來進行選擇。 具體說來,經過大量的實驗和研究,認為可將音頻文件劃分為四種情緒平 靜、悲傷、激動和愉快。根據經驗,平靜音頻可包括柔軟和舒緩的古典以及 流行音樂,聽眾的主觀感受為緩慢;悲傷音頻可以包括傷感的樂曲,聽眾同 樣感受到較慢的速度;激動音頻可以包括重搖滾和情緒強烈的歌曲,聽眾感 受到中速;而愉快音頻可以包括輕快的電子舞曲和室內舞曲,聽眾感受到較 快的速度。上述主觀感受是根據情緒參數選擇音頻文件的實際節(jié)拍的主要準 則。在本發(fā)明中,節(jié)拍選擇器50根據音頻文件的情緒參數,參考主諧波節(jié)拍
組中的諧波數量以及各個諧波的強度來從主諧波節(jié)拍組中選擇音頻文件的實際節(jié)拍。節(jié)拍選擇器50的具體操作如圖9所示。參照圖9,將主諧波節(jié)拍組中的諧波節(jié)拍按照BPM值從小到大的順序排 列為{BPMl,BPM2,...,BPMn}。當主諧波節(jié)拍組中的諧波數量n為1時,選擇 BPM1作為實際節(jié)拍。當主諧波節(jié)拍組中的諧波數量n為2時,根據情緒參 數來進行選擇,在情緒參數為平靜或悲傷時,選擇BPM1作為實際節(jié)拍,當 情緒參數為激動或愉快時,選擇BPM2作為實際節(jié)拍。當主諧波節(jié)拍組中的 諧波數量n大于等于3時,根據情緒參數來進行選才奪,當情緒參數為平靜或 悲傷時,選擇BPM1作為實際節(jié)拍;當情緒參數為激動時,選擇BPM3與BPM2 中強度較大的節(jié)拍作為實際節(jié)拍;當情緒參數為愉快且音頻文件為流行音樂 時,如果BPM3大于等于200,則選擇BPM2作為實際節(jié)拍,否則選擇BPM3 為實際節(jié)拍;當情緒參^:為愉快且音頻文件為古典音樂時,在BPM2與BPM3 的強度都小于閾值Tmin時,選擇BPM1作為實際節(jié)拍,在BPM3的強度大 于BPM2的強度或者滿足條件2 x R(BPM3)-R(BPM2)>Tmax時,選擇BPM3 作為實際節(jié)拍,當主諧波節(jié)拍組中得諧波數量n大于等于4時,選擇BPM3 作為實際節(jié)拍,否則選擇BPM2作為實際節(jié)拍。根據本發(fā)明,從MDCT音頻數據提取節(jié)拍信息,而不是從原始的音頻數 據提取編碼,大大提高了提取節(jié)拍信息的速度。例如,對于MP3文件而言, 由于省略了將解碼數據合成為頻域數據的處理,本發(fā)明技術方案中的處理時 間僅僅是現(xiàn)有技術的1/8。這對于僅具有軟件解碼器的各種嵌入式系統(tǒng)和消費 電子產品而言非常有幫助。盡管已經示出并描述了本發(fā)明的一些實施例,但是本領域的技術人員應 認識到在不脫離本發(fā)明的原理和精神的情況下,可對這些實施例進行改變, 其中,本發(fā)明的范圍在權利要求及其等同物中限定。產業(yè)上的可利用性 節(jié)拍是音頻文件的重要信息,在根據本發(fā)明荻得節(jié)拍信息之后,可將其 應用于各種應用中。例如,可將節(jié)拍信息應用于音頻播放器或音頻編輯機/制 作設備,作為管理音頻文件的重要參數。此外,節(jié)拍信息可用于幫助人們協(xié) 調運動速度,例如,在運動員活動期間,播放節(jié)拍與其步速一致的音頻文件, 可以強化他的訓練。
權利要求
1、一種從音頻文件的MDCT音頻數據提取節(jié)拍的方法,包括以下步驟(1)將MDCT音頻數據劃分為多個子帶,檢測每個子帶中的沖擊起始點信號;(2)計算每個子帶中沖擊起始點信號的周期;(3)從周期沖擊起始點信號估計出諧波節(jié)拍組;以及(4)從所述諧波節(jié)拍組中選擇所述音頻文件的節(jié)拍。
2、 如權利要求l所述的方法,其中,步驟(4)包括 在諧波節(jié)拍組中確定主諧波節(jié)拍組,并從主諧波節(jié)拍組選^^音頻文件的節(jié)拍。
3、 如權利要求l所述的方法,其中,步驟(1)包括 在將MDCT音頻數據劃分為多個子帶之后,計算每個子帶的信號能量,從能量包絡中檢測出沖擊起始點信號。
4、 如權利要求2所述的方法,其中,步驟(2)包括利用自相關函數計算各個子帶中沖擊起始點信號的周期,并產生指示與 各個拍速對應的節(jié)拍的強度分布的直方圖。
5、 如權利要求4所述的方法,其中,步驟(3)包括根據直方圖中的峰值強度和斜度在所述直方圖的峰值中搜索出強峰值和 弱峰值;按照諧波序列將與搜索到的強峰值相應的節(jié)拍信號分為各個諧波節(jié)拍組。
6、 如權利要求5所述的方法,其中,步驟(4)還包括 根據各個諧波節(jié)拍組中諧波節(jié)拍的數量和強度來確定所述主諧波節(jié)拍組 之后,將具有弱峰值的節(jié)拍中屬于確定的主諧波節(jié)拍組的諧波序列的節(jié)拍找 回到所述主諧波節(jié)拍組中。
7、 如權利要求6所述的方法,其中,步驟(4)包括 根據音頻文件的情緒參數,參考主諧波節(jié)拍組中節(jié)拍的強度和數量來選擇所述音頻文件的節(jié)拍。
8、 如權利要求3所述的方法,其中,步驟(1)包括當MDCT音頻數據的采樣率較低時,將0值插入MDCT音頻數據中以 增加時間分辨率。
9、 如權利要求3所述的方法,其中,步驟(l)包括 使用截止頻率為10Hz的6階Butterworth低通濾波器從能量包絡中檢測沖擊起始點信號。
10、 如權利要求9所述的方法,其中,步驟(l)還包括對低通濾波器的輸出進行一 階差分以形成^r測到的沖擊起始點信號。
11、 如權利要求7所述的方法,其中,情緒參數包括平靜、悲傷、激 動、愉快。
12、 如權利要求1所述的方法,其中,所述音頻文件為MP3、 AAC、 AC -3文件中的至少一個。
13、 如權利要求5所述的方法,其中,滿足條件a的峰值為強峰值,滿 足條件b的峰值為弱峰值a、 R(BINpeak)>=Tmax并且R(BINpeak)-min(R(BINpeak-1), R(BINpeak-2)) >Tmin并且R(BINpeak)-min(R(BINpeak+l), R(BINpeak+2)) > Tmin;b、 Tmax>R(BINpeak)〉Tmin并且R(BINpeak)-min(R(BINpeak國l), R(BINpeak-2),R(BINpeak-3))>Tmin并且R(BINpeak)畫min(R(BINpeak+l), R(BINpeak+2),R(BINpeak+3))〉Tmin;其中,BINpeak指示直方圖中的峰值所在的區(qū)間,R(BINpeak)指示 BINpeak區(qū)間的強度,Tmax、 Tmin指示用戶定義的峰值強度閾值,并且 Tmax>Tmin。
14、 一種從音頻文件的MDCT音頻數據提取節(jié)拍的設備,包括 沖擊起始點信號檢測器,用于將MDCT音頻數據劃分為多個子帶,檢測每個子帶中的沖擊起始點信號;拍速計算器,用于計算各個子帶中沖擊起始點信號的周期; 諧波節(jié)拍組估計器,用于從周期性沖擊起始點信號估計出諧波節(jié)拍組; 主諧波節(jié)拍組確定器,用于從所述諧波節(jié)拍組中確定主諧波節(jié)拍組;以及節(jié)拍選擇器,用于從主諧波節(jié)拍組中選擇所述音頻文件的節(jié)拍。
15、 如權利要求14所述的設備,其中沖擊起始點信號檢測器在將MDCT音頻數據劃分為多個子帶之后,計算 每個子帶的信號能量,從能量包絡中檢測出沖擊起始點信號。
16、 如權利要求14所述的設備,其中拍速計算器利用自相關函數計算各個子帶中沖擊起始點信號的周期,并 產生指示與各個拍速對應的節(jié)拍的強度分布的直方圖。
17、 如權利要求16所述的設備,其中諧波節(jié)拍組估計器根據直方圖中的峰值強度和斜度在所述直方圖的峰值 中搜索出強峰值和弱峰值;按照諧波序列將與搜索到的強峰值相應的節(jié)拍分 為各個諧波節(jié)拍組。
18、 如權利要求17所述的設備,其中主諧波節(jié)拍組確定器在根據各個諧波節(jié)拍組的諧波數量以及強度確定所 述主諧波節(jié)拍組之后,將具有弱峰值的節(jié)拍中屬于確定的主諧波節(jié)拍組的諧 波序列的節(jié)拍找回到所述主諧波節(jié)拍組中。
19、 如權利要求14所述的設備,其中節(jié)拍選擇器根據音頻文件的情緒參數,參考主諧波節(jié)拍組中節(jié)拍的強度 和數量來選擇所述音頻文件的節(jié)拍。
20、 如權利要求14所述的設備,其中當MDCT音頻數據的采樣率較低時,沖擊起始點信號檢測器將O值插入 MDCT音頻數據中以增加時間分辨率。
21、 如權利要求15所述的設備,其中沖擊起始點信號檢測器使用截止頻率為10Hz的6階Butterworth低通濾 波器從能量包絡中檢測沖擊起始點信號。
22、 如權利要求21所述的設備,其中沖擊起始點信號檢測器對低通濾波器的輸出進行一階差分以形成檢測到 的沖擊起始點信號。
23、 如權利要求19所述的設備,其中,情緒參數包括平靜、悲傷、激 動、愉快。
24、 如權利要求17所述的設備,其中,滿足條件a的峰值為強峰值,滿 足條件b的峰值為弱峰值a、 R(BINpeak)>=Tmax并且R(BINpeak)-min(R(BINpeak-1 ), R(BINpeak-2)) >Tmin并且R(BINpeak)-min(R(BINpeak+l), R(BINpeak+2)) > Tmin;b、 Tmax>R(BINpeak)>Tmin并且R(BINpeak)-min(R(BINpeak-1), R(BINpeak-2),R(BINpeak-3))>Tmin并且R(BINpeak)-min(R(BINpeak+l), R(BINpeak+2),R(BINpeak+3))〉Tmin; 其中,BINpeak指示直方圖中的峰值所在的區(qū)間,R(BINpeak)指示 BINpeak區(qū)間的強度,Tmax、 Tmin指示用戶定義的峰值強度閾值,并且 Tmax>Tmin。
25、 一種從音頻文件的MDCT音頻數據提取節(jié)拍的設備,包括 用于將MDCT音頻數據劃分為多個子帶,并檢測每個子帶中的沖擊起始 點信號的裝置;用于計算每個子帶中沖擊起始點信號的周期的裝置;用于從周期沖擊起始點信號估計出諧波節(jié)拍組的裝置;以及用于從所述諧波節(jié)拍組中選擇所述音頻文件的節(jié)拍的裝置。
全文摘要
一種從音頻文件的MDCT音頻數據估計節(jié)拍的方法,包括(1)將MDCT音頻數據劃分為多個子帶,檢測每個子帶中的沖擊起始點信號;(2)計算每個子帶中沖擊起始點信號的周期;(3)從周期沖擊起始點信號估計出諧波節(jié)拍組;以及(4)從所述諧波節(jié)拍組中選擇所述音頻文件的節(jié)拍。
文檔編號G10H1/00GK101399035SQ200710152350
公開日2009年4月1日 申請日期2007年9月27日 優(yōu)先權日2007年9月27日
發(fā)明者嚴基完, 史媛媛, 璇 朱, 李在原, 菁 鄧 申請人:三星電子株式會社;北京三星通信技術研究有限公司