一種提取歌曲副歌的方法、裝置和系統(tǒng)的制作方法

文檔序號：2825294閱讀：518來源：國知局

專利名稱：一種提取歌曲副歌的方法、裝置和系統(tǒng)的制作方法
技術領域：
本發(fā)明涉及通信技術領域，具體涉及一種提取歌曲副歌的方法、裝置和系統(tǒng)。
背景技術：
通常，一首歌曲是由一定結構性的段落組成，包括前奏、主歌、副歌、間奏等。而其中的副歌，一般會重復2至3次，其旋律和歌詞都非常相似，形成了流行歌曲中通常最容易被人記憶的部分，給予聽者一種歌曲達到“高潮”的感覺。因此，副歌可以稱為一首歌曲當中“最具代表性”和“最吸引人”的部分。另外，副歌片段的長度明顯短于整個歌曲的長度，因此副歌片段可以作為一首歌曲的有效標志。作為一首歌曲的標志，如果能夠準確的提取副歌部分將會在音樂概要和彩鈴等方面有很廣闊的商業(yè)應用前景。但是，一首歌曲音頻文件中信號的復雜性和不同歌曲之間的差異性為副歌提取帶來很多的困難?，F(xiàn)有技術中具有很多提取副歌的方法，但是其效果均·不太理想，基于音高特征分布向量(即chroma特征向量)的副歌提取方法是其中的一種較為常用的方法，其方案具體可以如下第一步，將音頻信號分為等長的片段，每一片段稱為幀，從片段中提取12維的chroma特征向量,其中，這12維的chroma特征向量代表12個不同半音量值的分布。第二步,計算chroma特征向量的相似性。第三步，通過比較不同兩個片段的相似性，得到重復片段。第四步，對得到的重復片段進行分類和整合。第五步，對第四步中得到的整合后的重復片段進行修正。比如在第四步中沒有考慮到基音的變化(即變調)，則此時需要對第四步得到的重復片段提高音高再去提取重復片段。第六部，選擇副歌部分。比如，當一個重復片段在兩個較長的重復片段之間時更有可能為副歌部分；又比如，副歌部分一般含有兩個重復的子部分，如果一個重復片段有兩個重復子片段時更有可能為副歌部分。將這些假設設置為條件，根據(jù)條件對重復片段進行打分，得分高的即為副歌部分。在對現(xiàn)有技術的研究和實踐過程中，本發(fā)明的發(fā)明人發(fā)現(xiàn)，現(xiàn)有技術主要采用固定分幀的方法，在默認節(jié)奏是固定的情況下，將歌曲分割成等長度的片段(即幀)。但實際上，歌曲的節(jié)拍并不是固定的，所以采用該方案并不能準確地提取副歌部分。

發(fā)明內容
本發(fā)明實施例提供一種提取歌曲副歌的方法、裝置和系統(tǒng)；可以較為準確地提取歌曲的副歌部分。一種提取歌曲副歌的方法，包括獲取音頻信號；對所述音頻信號進行節(jié)拍追蹤，得到節(jié)拍追蹤結果；
根據(jù)節(jié)拍追蹤結果，以節(jié)拍為單位提取音高特征分布向量chroma特征向量；根據(jù)chroma特征向量選擇副歌估計片段；根據(jù)預置條件對副歌估計片段進行評分，得到評分結果；根據(jù)評分結果從副歌估計片段中選擇副歌。一種副歌提取設備，包括獲取單元,用于獲取音頻信號；節(jié)拍追蹤單元，用于對獲取單元獲取到的音頻信號進行節(jié)拍追蹤，得到節(jié)拍追蹤結果;特征提取單元，用于根據(jù)節(jié)拍追蹤單元得到的節(jié)拍追蹤結果，以節(jié)拍為單位提取音高特征分布向量chroma特征向量；估計單元，用于根據(jù)特征提取單元提取到的chroma特征向量選擇副歌估計片段；評分單元，用于根據(jù)預置條件對估計單元選擇出的副歌估計片段進行評分，得到評分結果；選擇單元，用于根據(jù)評分單元得到的評分結果從副歌估計片段中選擇副歌。本發(fā)明實施例采用對獲取到的音頻信號進行節(jié)拍追蹤，然后根據(jù)節(jié)拍追蹤結果，以節(jié)拍為單位提取音高特征分布向量chroma特征向量,根據(jù)chroma特征向量選擇副歌估計片段，再根據(jù)預置條件對副歌估計片段進行評分，根據(jù)評分結果從副歌估計片段中選擇副歌；由于該方案可以對歌曲的節(jié)拍進行跟蹤，并基于歌曲的節(jié)拍來進行后續(xù)的chroma特征向量提取，實現(xiàn)對副歌進行提取，所以相對現(xiàn)有技術所采用的固定分幀方法而言，更能貼合不同節(jié)拍的歌曲的需求，可以更靈活和準確地提取副歌。

為了更清楚地說明本發(fā)明實施例中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖I是本發(fā)明實施例提供的提取歌曲副歌的方法的流程圖；圖2是本發(fā)明實施例提供的提取歌曲副歌的方法的另一流程圖；圖3是本發(fā)明實施例提供的副歌提取設備的結構示意圖；圖4是本發(fā)明實施例提供的副歌提取設備的另一結構示意圖。
具體實施例方式下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。副歌提取在日常生活中具有很廣泛的應用首先，由于手機鈴聲以及彩鈴在時間長度上的限制性，一般不可能使用整首歌曲。因此對于任意給定的流行音樂歌曲，如果可以自動生成手機鈴聲以及彩鈴的話，則可以為用戶提供更加豐富的個性化服務，為用戶帶來更好的使用體驗。而副歌的提取則可以滿足該需求，副歌的提取可以應用于手機鈴聲以及彩鈴的自動生成，用戶可以在大量的提取出的副歌數(shù)據(jù)庫選擇自己喜歡的副歌作為手機鈴聲或彩鈴，也可以利用該副歌提取方法制作自己喜歡的手機鈴聲以及彩鈴。其次，在大規(guī)模的音樂數(shù)據(jù)庫中，可以通過副歌提取來制作示范片段，使得用戶可以通過欣賞提取出的較少的副歌部分來決定是否下載，從而可以避免直接下載整首歌曲，以節(jié)省網(wǎng)絡帶寬。最后，副歌提取技術可以應用在音樂版權的管理和保護中。當然，副歌的提取也可以有其他的應用，在此不再贅述。本發(fā)明實施例提供一種提取歌曲副歌的方法、裝置和系統(tǒng)。以下分別進行詳細說明。實施例一、本實施例將從副歌提取設備的角度進行描述。該副歌提取設備具體可以為計算機。一種提取歌曲副歌的方法，包括獲取音頻信號，對該音頻信號進行節(jié)拍追蹤，得到節(jié)拍追蹤結果，根據(jù)節(jié)拍追蹤結果，以節(jié)拍為單位提取音色(chroma)特征向量，根據(jù)chroma特征向量選擇副歌估計片段，根據(jù)預置條件對副歌估計片段進行評分，得到評分結果，根據(jù)評分結果從副歌估計片段中選擇副歌。如圖I所示，具體流程可以如下101、獲取音頻信號；例如，讀取一個音頻文件，比如一首流行歌曲，該音頻文件具體可以由系統(tǒng)自動讀取，也可以由用戶輸入。102、對獲取到的音頻信號進行節(jié)拍追蹤，得到節(jié)拍追蹤結果；例如，可以對音頻信號進行音符開端檢測(Onset Detection)，得到音符開端檢測結果，然后根據(jù)音符開端檢測結果進行節(jié)拍追蹤，使得節(jié)拍的開端盡可能與音符開端重合，并且使得兩個節(jié)拍之間的時間長度恒定。如下(I)對音頻信號進行音符開端檢測，得到音符開端檢測結果，具體可以如下將音頻信號劃分為第一預置長度的幀；對劃分為幀的音頻信號通過短時傅立葉變換(STFT, Short-time Fourier Transform)映射到頻域；對映射到頻域的音頻信號進行頻譜分析，得到音符開端檢測函數(shù)(此時音符開端檢測函數(shù)即為音符開端檢測結果)。其中，第一預置長度的大小可以根據(jù)實際應用的需求進行設置，一般為了保證短時傅里葉變換中的信號相對穩(wěn)定，可以對音頻信號進行固定長度的分幀，即第一預置長度為一固定的值，比如可以設置第一預置長度為32毫秒(ms)，且每次以4ms為單位進行推進一進行分巾貞。例如，如果一音頻信號的長度為60ms,則可以劃分為1ms 32ms為第一中貞，5ms 36ms為第二巾貞，9ms 40ms為第三巾貞，13ms 44ms為第四巾貞，17ms 48ms為第五中貞，21ms 52ms為第六巾貞，25ms 56ms為第七巾貞，29ms 60ms為第八巾貞，以此類推。(2)根據(jù)音符開端檢測結果進行節(jié)拍追蹤(Beat Tracking)，使得節(jié)拍的開端盡可能與音符開端重合，并且使得兩個節(jié)拍之間的時間長度恒定，具體可以如下將音符開端檢測函數(shù)與預置的衡量標準函數(shù)的和作為目標函數(shù)，計算可以使得該目標函數(shù)的值最大的節(jié)拍序列。
其中，衡量標準函數(shù)為用于衡量速率的一個標準。另外，如果能夠找到使得目標函數(shù)的值最大的節(jié)拍序列，則意味著可以滿足“使得節(jié)拍的開端盡可能與音符開端重合，并且使得兩個節(jié)拍之間的時間長度恒定”這兩個條件。103、根據(jù)節(jié)拍追蹤結果，以節(jié)拍為單位提取音高特征分布向量chroma特征向量；例如，具體可以如下將音頻信號劃分為第二預置長度的幀；其中，第二預置長度的大小可以根據(jù)實際應用的需求進行設置，比如，如果音頻信號的采樣率是44100Hz，則每一幀的長度可以為2048個點/44100Hz = 46ms,即設置第二預置長度為46ms。將每一巾貞內的音頻信號通過傅里葉變換(FT, Fourier Transform)由時域映射到頻域；在頻域中，將對應于不同八度但對應同一音名頻率的部分映射到對應的半音音名中，產(chǎn)生一個12維向量，其中，每一維對應于一個八度中的一個半音；根據(jù)節(jié)拍追蹤結果將劃分后的幀與節(jié)拍同步；計算屬于同一個節(jié)拍內的所有幀的12維向量的平均值，得到與該節(jié)拍同步的chroma特征向量?！?br> 此外，如果在步驟102中，已經(jīng)得到了可以使得目標函數(shù)的值最大的節(jié)拍序列，則此時，根據(jù)節(jié)拍追蹤結果，以節(jié)拍為單位提取chroma特征向量(即步驟103)具體可以為根據(jù)得到的節(jié)拍序列，以節(jié)拍為單位提取音高特征分布向量chroma特征向量。104、根據(jù)chroma特征向量選擇副歌估計片段；例如，具體可以采用現(xiàn)有技術的方法來根據(jù)chroma特征向量選擇副歌估計片段，具體可參見現(xiàn)有技術。也可以采用不同于現(xiàn)有技術的方法來根據(jù)chroma特征向量選擇副歌估計片段，即可以利用chroma特征向量進行自距離矩陣(SDM, Self-distance Matrix)計算，再根據(jù)自距離矩陣中每一個元素所表示的距離大小對自距離矩陣進行二值化處理，得到二值化結果，然后根據(jù)二值化結果選擇副歌估計片段。具體可以如下(I)利用chroma特征向量進行自距離矩陣計算，包括根據(jù)音頻信號的總節(jié)拍數(shù)和chroma特征向量定義自距離矩陣，從自距離矩陣的主對角線開始向左下方平移，計算每一條子對角線上所有矩陣元素的平均值，得到元素平均值，計算第一函數(shù)的極小值，其中，第一函數(shù)為一個以k為自變量,元素平均值為函數(shù)值的函數(shù)。k表示該子對角線與主對角線相比而言，向左下方平移的長度邱是整個音頻文件的節(jié)拍數(shù)。(2)根據(jù)自距離矩陣中每一個元素所表示的距離大小對自距離矩陣進行二值化處理，得到二值化結果，包括根據(jù)第一函數(shù)的極小值獲取對應的子對角線，將獲取到的對角線上的矩陣元素與預置第一閾值進行比較，若矩陣元素大于第一閾值，則將矩陣元素設置為0，若矩陣元素小于等于第一閾值，則將矩陣元素設置為I。其中，第一閾值可以根據(jù)實際應用的需求進行設置。(3)根據(jù)二值化結果選擇副歌估計片段，包括若連續(xù)出現(xiàn)I的音頻信號片段的長度大于預置的第二閾值，則確定該音頻信號片段為副歌估計片段。其中，第二閾值可以根據(jù)實際應用的需求進行設置。105、根據(jù)預置條件對副歌估計片段進行評分，得到評分結果；例如，一般來講，某一類副歌的出現(xiàn)位置都是在一個大約的位置，因此，可以對該位置進行估計。比如，大部分流行音樂歌曲的副歌都會出現(xiàn)在接近歌曲四分之以及四分之三的位置附近，因為，可以通過副歌可能出現(xiàn)的段落與整首歌曲四分之一以及四分之三的位置之間的距離作為一個衡量的評分標準。若段落與四分之一或四分之三較近，則得分較高。即，根據(jù)預置條件對副歌估計片段進行評分，得到評分結果(即步驟105)具體可以為根據(jù)副歌估計片段在音頻信號中位置對副歌估計片段進行評分，得到評分結果。又例如，副歌部分通常給人以歌曲達到了“高潮”的感覺，而這種“高潮”的感覺說明副歌部分的信號具有較高的能量，因此能量也可以作為一個衡量的評分標準，能量越高得分越高。即，除了可以根據(jù)副歌估計片段在音頻信號中位置對副歌估計片段進行評分，得到評分結果之外，根據(jù)預置條件對副歌估計片段進行評分，得到評分結果(即步驟105)具體也可以為根據(jù)副歌估計片段對應的音頻信號的平均能量以及在自距離矩陣中的平均距離對副歌估計片段進行評分，得到評分結果。當然，也可以將將上述兩種評分方式綜合起來，即，根據(jù)副歌估計片段在音頻信號中位置、副歌估計片段對應的音頻信號的平均能量、以及在自距離矩陣中的平均距離對副歌估計片段進行評分。106、根據(jù)評分結果從副歌估計片段中選擇副歌。例如，具體可以如下可以對評分結果進行預置的權值處理，得到總分數(shù)，選取總分數(shù)最高的副歌估計片段為副歌?？蛇x的，由于通常的音頻信號的采樣率是44. 1kHz，如果直接進行處理的話，數(shù)據(jù)量會較大，因此，為了有效地減少數(shù)據(jù)量，以便提高運算速度，在對音頻信號進行節(jié)拍追蹤(即步驟102)之前，還可以對音頻信號進行預處理，如下對獲取到的音頻信號進行重采樣。比如，其中，重采樣的采樣頻率可以定為8kHz。則此時，對音頻信號進行節(jié)拍追蹤(即步驟102)具體為對重采樣后的音頻信號進行節(jié)拍追蹤，得到節(jié)拍追蹤結果。由上可知，本實施例采用對獲取到的音頻信號進行節(jié)拍追蹤，然后根據(jù)節(jié)拍追蹤結果，以節(jié)拍為單位提取chroma特征向量,根據(jù)chroma特征向量選擇副歌估計片段,再根據(jù)預置條件對副歌估計片段進行評分，根據(jù)評分結果從副歌估計片段中選擇副歌；由于該方案可以對歌曲的節(jié)拍進行跟蹤，并基于歌曲的節(jié)拍來進行后續(xù)的chroma特征向量提取，實現(xiàn)對副歌進行提取，所以相對現(xiàn)在技術所采用的固定分幀方法而言，更能貼合不同節(jié)拍的歌曲的需求，可以更靈活和準確地提取副歌。實施例二、根據(jù)實施例所描述的方法，以下將舉例作進一步詳細說明。如圖2所示，具體流程可以如下201、副歌提取裝置獲取音頻信號，比如讀取需要提取副歌的音頻文件。需說明的是，該音頻文件的編碼格式需要是該副歌提取裝置所能支持的編碼格式，比如，如果該副歌提取裝置默認所能支持的編碼格式為波形格式數(shù)據(jù)(wav，Wave)格式，則需要將音頻文件先轉換為wav格式。所以，在讀取了需要提取副歌的音頻文件之后，可選的，還可以包括將讀取到的音頻文件轉換為副歌提取裝置所能支持的編碼格式。202、副歌提取裝置對獲取到的音頻信號進行節(jié)拍追蹤，得到節(jié)拍追蹤結果。如下首先，可以對音頻信號進行預處理，比如，由于通常的音頻信號的采樣率是44. 1kHz，如果直接進行處理的話，數(shù)據(jù)量會較大，因此，為了有效地減少數(shù)據(jù)量，以便提高運算速度，可以對音頻信號進行重采樣。其中，重采樣的采樣頻率可以定為8kHz。通過執(zhí)行該重采樣步驟，可以有效的減少數(shù)據(jù)量，提高運算速度，而且對結果也不會產(chǎn)生大的影響。其次，在對音頻信號進行重采樣之后，對重采樣后的音頻信號進行節(jié)拍追蹤，以得到節(jié)拍追蹤結果。具體可以包括以下步驟 (I)對于音樂信號進行基于能量和相位結合的音符開端檢測，檢測的方法可以如下首先，對音頻信號進行固定長度的分幀，例如，幀長可以設置為32ms，并且設置每次的劃分以4ms為單位進行推進，比如，第一巾貞為Ims 32ms,第二巾貞為5ms 36ms,第三幀為9ms 40ms，等等，以此類推，直至全部音頻信號劃分完畢。也就是說，幀與幀之間是具有重疊部分的，之所以讓幀與幀之間具有重疊部分，主要是為了讓音頻信號能夠平滑過渡，以便進行更好地檢測。其次，將每一幀音頻信號通過短時傅立葉變換映射到頻域，并進行頻譜分析，以得到音符開端包絡線，該音符開端包絡線可以用音符開端檢測函數(shù)來表示。也就是說，此時在頻域會有η個bin，其中，η為該幀短時信號的采樣點個數(shù)，而bin指的是一種二進制文件，一般來講是機器代碼，匯編語言編譯后的結果，具體可參見現(xiàn)有技術。對于其中的某一幀的第k個bin，可以以復數(shù)的形式來表示，如下
Sk (m) =Rk (m) ^φΚπι);其中，m表示該幀的幀數(shù)，Rk(m)為第m幀中的第k個bin的幅度，Cpk (m)為第m幀中的第k個bin的相位，e是對于某一幀的復數(shù)表示，映射到復平面，j是虛數(shù)。此后，可以根據(jù)當前一幀對下一幀進行估計，其中，對于某一幀內的每一個bin，其幅度的估計值“ Rk(m) ”即為該幀的前一幀中，與之對應的bin的幅度，比如，第二幀內的第k個bin的幅度，等于第一幀的第k個bin的幅度，用公式表示即為 Rk(m)=Rk(m_l)。而相位的估計值“ ~ Cpk ( m )”則為前一幀與之對應的bin的相位，以及該前一幀與該一幀的前一幀的相位的差分之和。比如，第三幀內的第k個bin的相位的估計值，等于“第二幀的第k個bin的相位”與“第二幀內的第k個bin的相位和第一幀內的第k個bin的相位的差分”之和，用公式表示即為
~ Cpk ( m ) = princarg [2cpk (m - I ) _cpk (m_2)]。其中，函數(shù)princarg將相位映射到[-，π]的范圍中。這樣就得到了第m中貞的幅度的估計值和相位的估計值。此時可以在復平面上對這兩個點求歐幾里德距離，若用Ik (m )表示第m幀的第k個bin的實際值與估計值之間的距離，則
權利要求
1.一種提取歌曲副歌的方法，其特征在于，包括獲取音頻信號；對所述音頻信號進行節(jié)拍追蹤，得到節(jié)拍追蹤結果；根據(jù)節(jié)拍追蹤結果，以節(jié)拍為單位提取音高特征分布向量chroma特征向量；根據(jù)chroma特征向量選擇副歌估計片段；根據(jù)預置條件對副歌估計片段進行評分，得到評分結果；根據(jù)評分結果從副歌估計片段中選擇副歌。
2.根據(jù)權利要求I所述的方法，其特征在于，所述根據(jù)chroma特征向量選擇副歌估計片段包括利用chroma特征向量進行自距離矩陣計算；根據(jù)自距離矩陣中每一個元素所表示的距離大小對自距離矩陣進行二值化處理，得到二值化結果；根據(jù)二值化結果選擇副歌估計片段。
3.根據(jù)權利要求2所述的方法，其特征在于，所述利用chroma特征向量進行自距離矩陣計算包括根據(jù)音頻信號的總節(jié)拍數(shù)和chroma特征向量定義自距離矩陣，從自距離矩陣的主對角線開始向左下方平移，計算每一條子對角線上所有矩陣元素的平均值，得到元素平均值，計算第一函數(shù)的極小值，其中，第一函數(shù)為一個以k為自變量,元素平均值為函數(shù)值的函數(shù)；則所述根據(jù)自距離矩陣中每一個元素所表示的距離大小對自距離矩陣進行二值化處理，得到二值化結果包括根據(jù)第一函數(shù)的極小值獲取對應的子對角線，將獲取到的對角線上的矩陣元素與預置第一閾值進行比較，若矩陣元素大于所述第一閾值，則將矩陣元素設置為0，若矩陣元素小于等于所述第一閾值，則將矩陣元素設置為I ; 所述根據(jù)二值化結果選擇副歌估計片段包括若連續(xù)出現(xiàn)I的音頻信號片段的長度大于預置的第二閾值，則確定該音頻信號片段為副歌估計片段。
4.根據(jù)權利要求I至3中任一項所述的方法，其特征在于，所述對音頻信號進行節(jié)拍追蹤具體為對音頻信號進行音符開端檢測，得到音符開端檢測結果；根據(jù)音符開端檢測結果進行節(jié)拍追蹤，使得節(jié)拍的開端盡可能與音符開端重合，并且使得兩個節(jié)拍之間的時間長度恒定。
5.根據(jù)權利要求4所述的方法，其特征在于，所述對音頻信號進行音符開端檢測，得到音符開端檢測結果具體為將音頻信號劃分為第一預置長度的幀；對劃分為幀的音頻信號通過短時傅立葉變換映射到頻域；對映射到頻域的音頻信號進行頻譜分析，得到音符開端檢測函數(shù)。
6.根據(jù)權利要求5所述的方法，其特征在于，所述根據(jù)音符開端檢測結果進行節(jié)拍追蹤，使得節(jié)拍的開端盡可能與音符開端重合，并且使得兩個節(jié)拍之間的時間長度恒定包括將音符開端檢測函數(shù)與預置的衡量標準函數(shù)的和作為目標函數(shù)，所述衡量標準函數(shù)為用于衡量速率的一個標準；計算可以使得所述目標函數(shù)的值最大的節(jié)拍序列；則所述根據(jù)節(jié)拍追蹤結果，以節(jié)拍為單位提取chroma特征向量具體為根據(jù)所述節(jié)拍序列，以節(jié)拍為單位提取chroma特征向量。
7.根據(jù)權利要求I至3中任一項所述的方法，其特征在于，所述根據(jù)節(jié)拍追蹤結果，以節(jié)拍為單位提取chroma特征向量包括將音頻信號劃分為第二預置長度的幀；將每一幀內的音頻信號通過傅里葉變換由時域映射到頻域；在頻域中將對應于不同八度但對應同一音名頻率的部分映射到對應的半音音名中，產(chǎn)生一個12維向量，其中，每一維對應于一個八度中的一個半音；根據(jù)節(jié)拍追蹤結果將劃分后的幀與節(jié)拍同步；計算屬于同一個節(jié)拍內的所有巾貞的12維向量的平均值,得到與該節(jié)拍同步的chroma特征向量。
8.根據(jù)權利要求I至3中任一項所述的方法，其特征在于，所述根據(jù)預置條件對副歌估計片段進行評分，得到評分結果包括根據(jù)副歌估計片段在音頻信號中位置對副歌估計片段進行評分，得到評分結果；和/或，根據(jù)副歌估計片段對應的音頻信號的平均能量以及在自距離矩陣中的平均距離對副歌估計片段進行評分，得到評分結果。
9.根據(jù)權利要求I至3中任一項所述的方法，其特征在于，所述根據(jù)評分結果從副歌估計片段中選擇副歌，包括對評分結果進行預置的權值處理，得到總分數(shù)；選取總分數(shù)最高的副歌估計片段為副歌。
10.一種副歌提取設備，其特征在于，包括獲取單元，用于獲取音頻信號；節(jié)拍追蹤單元，用于對獲取單元獲取到的音頻信號進行節(jié)拍追蹤，得到節(jié)拍追蹤結果; 特征提取單元，用于根據(jù)節(jié)拍追蹤單元得到的節(jié)拍追蹤結果，以節(jié)拍為單位提取音高特征分布向量chroma特征向量；估計單元，用于根據(jù)特征提取單元提取到的chroma特征向量選擇副歌估計片段；評分單元，用于根據(jù)預置條件對估計單元選擇出的副歌估計片段進行評分，得到評分結果; 選擇單元，用于根據(jù)評分單元得到的評分結果從副歌估計片段中選擇副歌。
11.根據(jù)權利要求10所述的副歌提取設備，其特征在于，所述估計單元包括自距離計算子單元，用于利用特征提取單元提取到的chroma特征向量進行自距離矩陣計算；二值化計算子單元，用于根據(jù)自距離矩陣中每一個元素所表示的距離大小對自距離矩陣進行二值化處理，得到二值化結果；選擇子單元，用于根據(jù)二值化計算子單元得到的二值化結果選擇副歌估計片段。
12.根據(jù)權利要求11所述的副歌提取設備，其特征在于，所述自距離計算子單元，具體用于根據(jù)音頻信號的總節(jié)拍數(shù)和特征提取單元提取到的chroma特征向量定義自距離矩陣，從自距離矩陣的主對角線開始向左下方平移，計算每一條子對角線上所有矩陣元素的平均值，得到元素平均值，計算第一函數(shù)的極小值，其中，第一函數(shù)為一個以k為自變量,元素平均值為函數(shù)值的函數(shù)；所述二值化計算子單元，具體用于根據(jù)第一函數(shù)的極小值獲取對應的子對角線，將獲取到的對角線上的矩陣元素與預置第一閾值進行比較，若矩陣元素大于第一閾值，則將矩陣元素設置為O，若矩陣元素小于等于所述第一閾值，則將矩陣元素設置為I ; 所述選擇子單元，具體用于若連續(xù)出現(xiàn)I的音頻信號片段的長度大于預置的第二閾值，則確定該音頻信號片段為副歌估計片段。
13.根據(jù)權利要求10至12中任一項所述的副歌提取設備，其特征在于，所述節(jié)拍追蹤單元包括檢測子單元，用于對音頻信號進行音符開端檢測，得到音符開端檢測結果；追蹤子單元，用于根據(jù)檢測子單元得到的音符開端檢測結果進行節(jié)拍追蹤，使得節(jié)拍的開端盡可能與音符開端重合，并且使得兩個節(jié)拍之間的時間長度恒定。
全文摘要
本發(fā)明實施例公開了一種提取歌曲副歌的方法、裝置和系統(tǒng)。本發(fā)明實施例采用對獲取到的音頻信號進行節(jié)拍追蹤，然后根據(jù)節(jié)拍追蹤結果，以節(jié)拍為單位提取chroma特征向量，根據(jù)chroma特征向量選擇副歌估計片段，再根據(jù)預置條件對副歌估計片段進行評分，根據(jù)評分結果從副歌估計片段中選擇副歌。由于該方案可以對歌曲的節(jié)拍進行跟蹤，并基于歌曲的節(jié)拍來進行后續(xù)的chroma特征向量提取，以實現(xiàn)對副歌的提取，所以相對現(xiàn)在技術所采用的傳統(tǒng)方法而言，更能貼合不同節(jié)拍的歌曲的需求，可以更靈活和準確地提取副歌。
文檔編號G10H7/10GK102903357SQ201110216520
公開日2013年1月30日申請日期2011年7月29日優(yōu)先權日2011年7月29日
發(fā)明者李偉, 梁達文, 顧旻瑋, 楊素娟申請人:華為技術有限公司, 復旦大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：李偉;梁達文;顧旻瑋;楊素娟
技術所有人：華為技術有限公司;復旦大學
我是此專利的發(fā)明人

上一篇：軍鼓的螺旋式紗帶調節(jié)座的制作方法
上一篇：一種進行語音自適應非連續(xù)傳輸?shù)姆椒把b置的制作方法

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種提取歌曲副歌的方法、裝置和系統(tǒng)的制作方法

一種提取歌曲副歌的方法、裝置和系統(tǒng)的制作方法