文件之間的時間偏差之后,服務器根據(jù)該時間 偏差對參考音頻文件對應的歌詞文件的時間戳進行調整,在該過程中,服務器對歌詞文件 中每句歌詞對應的時間戳調整幅度均為時間偏差。通過參考音頻文件對應的歌詞文件的時 間戳進行調整,可得到目標音頻文件對應的歌詞文件。
[0171] 對于上述根據(jù)參考音頻文件對應的歌詞文件為目標音頻文件生成對應歌詞文件 的過程,為了便于理解,下面以圖4為例進行說明。
[0172] 參見圖4,服務器獲取同一音頻文件不同版本的目標音頻文件和參考音頻文件,并 采用人工方式為參考音頻文件生成歌詞文件。之后,服務器從目標音頻文件中提取第一音 頻特征,從參考音頻文件中提取第二音頻特征,進而根據(jù)第一音頻特征和第二音頻特征,計 算目標音頻文件和參考音頻文件時間的時間偏差,并根據(jù)該時間偏差調整參考音頻文件對 應的歌詞文件的時間戳,得到目標音頻文件對應的歌詞文件。
[0173]需要說明的是,上述從目標音頻文件與參考音頻文件中提取的音頻特征除頻域能 量值外,還可以提取音色的chromagram特征。另外,上述以根據(jù)參考音頻文件對應的歌詞文 件,為目標音頻文件生成歌詞文件為例進行說明的,對于為同一音頻文件其他版本的音頻 文件生成歌詞文件的過程,與上述為目標音頻文件生成對應的歌詞文件的實現(xiàn)方式相同, 具體參見上述為目標音頻文件生成對應歌詞文件的過程,此處不再一一說明。
[0174] 需要說明的是,本實施例提供的歌詞文件的生成方法,可以應用于任何具有計算 能力的電子設備中,例如,服務器、智能手機、多媒體播放器或者計算機等,本實施僅以歌詞 文件的生成方法應用于服務器中為例進行說明,但并不能對本發(fā)明的應用范圍構成限定。
[0175] 本發(fā)明實施例提供的方法,對于同一音頻文件的不同版本,通過調整參考音頻文 件對應的歌詞文件,即可為目標音頻文件生成對應的歌詞文件,無需重復生成多個歌詞文 件,提高了音頻文件的制作效率,降低了制作成本。
[0176] 參見圖5,本發(fā)明實施例提供了一種歌詞文件的生成裝置,該裝置包括:
[0177] 獲取模塊501,用于獲取目標音頻文件及參考音頻文件,目標音頻文件與參考音頻 文件為同一音頻文件的不同版本;
[0178] 提取模塊502,用于分別對目標音頻文件和參考音頻文件進行特征提取,得到第一 音頻特征和第二音頻特征;
[0179] 計算模塊503,用于根據(jù)第一音頻特征和第二音頻特征,計算目標音頻文件與參考 音頻文件之間的時間偏差;
[0180] 調整模塊504,用于根據(jù)時間偏差,調整參考音頻文件對應歌詞文件的時間戳,得 到目標音頻文件對應的歌詞文件。
[0181 ]在本發(fā)明的另一個實施例中,提取模塊502,用于采用預設頻率對目標音頻文件進 行重采樣;將重采樣后的目標音頻文件劃分為多個音頻片段,每個音頻片段中包含預設數(shù) 量個采樣點;對于任意相鄰的第一音頻片段和第二音頻片段,采用漢寧窗函數(shù)進行處理,得 到第一加窗音頻片段和第二加窗音頻片段;對第一加窗音頻片段和第二加窗音頻片段分別 進行快速傅里葉變換FFT,得到第一音頻片段對應的第一頻譜和第二音頻片段對應的第二 頻譜;對第一頻譜和第二頻譜分別進行映射,得到第一音頻片段對應的多個第一頻率點和 第二音頻片段對應的多個第二頻率點,第一頻率點和第二頻率點的數(shù)量相同;根據(jù)多個第 一頻率點和多個第二頻率點,獲取第一音頻片段的音頻特征值;對多個音頻片段的音頻特 征值進行組合,得到第一音頻特征。
[0182]在本發(fā)明的另一個實施例中,提取模塊502,還用于對于第一頻譜,根據(jù)預設數(shù)量 個采樣點和預設頻率,計算每個采樣點對應的頻率范圍;將小于指定范圍的頻率范圍進行 線性映射,得到多個線性頻率點;將大于指定范圍的頻率范圍,應用以下公式,進行對數(shù)映 射,得到多個對數(shù)頻率點:
[0184] 其中,Binne3W表示對數(shù)頻率點,Bin表示大于指定范圍的任一頻率范圍,△ f表示相 鄰兩個采樣點對應的頻率范圍之間的頻率間隔,frrf表示參考頻率,*表示乘號;
[0185] 將多個線性頻率點和多個對數(shù)頻率點作為多個第一頻率點。
[0186] 在本發(fā)明的另一個實施例中,提取模塊502,用于獲取第一音頻片段對應的每個第 一頻率點上的能量值,并獲取第二音頻片段對應的每個第二頻率點上的能量值;獲取第一 音頻片段上每個第一頻率點的能量值與第二音頻片段上位置相同的第二頻率點的能量值 之差,作為第一音頻片段的音頻特征值。
[0187] 在本發(fā)明的另一個實施例中,計算模塊503,用于計算第一音頻特征和第二音頻特 征之間的互相關函數(shù);根據(jù)互相關函數(shù),計算第一音頻特征和第二音頻特征之間的時間偏 差,作為目標音頻文件與參考音頻文件之間的時間偏差。
[0188] 在本發(fā)明的另一個實施例中,計算模503塊,還用于對于第一音頻特征和第二音頻 特征,應用以下公式,計算互相關函數(shù):
[0189] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0190] 其中,X表示第一音頻特征,y表示第二音頻特征,Rxy表示互相關函數(shù),conj表示共 輒運算符,IFFT表示反傅里葉變換,F(xiàn)FT表示傅里葉變換,*表示乘號。
[0191]在本發(fā)明的另一個實施例中,計算模塊503,還用于計算互相關函數(shù)的最大值;獲 取互相關函數(shù)的最大值對應的位置偏差;對于位置偏差,應用以下公式,計算第一音頻特征 和第二音頻特征之間的時間偏差:
[0192] i=m〇/ko
[0193] 其中,τ表示第一音頻特征和第二音頻特征之間的時間偏差,mo表示互相關函數(shù)的 最大值所對應的位置偏差,ko表示預設頻率,/表示除號。
[0194] 綜上,本發(fā)明實施例提供的裝置,對于同一音頻文件的不同版本,通過調整參考音 頻文件對應的歌詞文件,即可為目標音頻文件生成對應的歌詞文件,無需重復生成多個歌 詞文件,提高了音頻文件的制作效率,降低了制作成本。
[0195] 圖6是根據(jù)一示例性實施例示出的一種用于歌詞文件的生成服務器。參照圖6,服 務器600包括處理組件622,其進一步包括一個或多個處理器,以及由存儲器632所代表的存 儲器資源,用于存儲可由處理組件622的執(zhí)行的指令,例如應用程序。存儲器632中存儲的應 用程序可以包括一個或一個以上的每一個對應于一組指令的模塊。此外,處理組件622被配 置為執(zhí)行指令,以執(zhí)行上述歌詞文件的生成中服務器所執(zhí)行的功能,該方法包括:
[0196] 獲取目標音頻文件及參考音頻文件,目標音頻文件與參考音頻文件為同一音頻文 件的不同版本;
[0197] 分別對目標音頻文件和參考音頻文件進行特征提取,得到第一音頻特征和第二音 頻特征;
[0198] 根據(jù)第一音頻特征和第二音頻特征,計算目標音頻文件與參考音頻文件之間的時 間偏差;
[0199] 根據(jù)時間偏差,調整參考音頻文件對應歌詞文件的時間戳,得到目標音頻文件對 應的歌詞文件。
[0200] 在本發(fā)明的另一個實施例中,分別對目標音頻文件和參考音頻文件進行特征提 取,得到第一音頻特征和第二音頻特征,包括:
[0201 ]采用預設頻率對目標音頻文件進行重采樣;
[0202] 將重采樣后的目標音頻文件劃分為多個音頻片段,每個音頻片段中包含預設數(shù)量 個采樣點;
[0203] 對于任意相鄰的第一音頻片段和第二音頻片段,采用漢寧窗函數(shù)進行處理,得到 第一加窗音頻片段和第二加窗音頻片段;
[0204] 對第一加窗音頻片段和第二加窗音頻片段分別進行快速傅里葉變換FFT,得到第 一音頻片段對應的第一頻譜和第二音頻片段對應的第二頻譜;
[0205]對第一頻譜和第二頻譜分別進行映射,得到第一音頻片段對應的多個第一頻率點 和第二音頻片段對應的多個第二頻率點,第一頻率點和第二頻率點的數(shù)量相同;
[0206] 根據(jù)多個第一頻率點和多個第二頻率點,獲取第一音頻片段的音頻特征值;
[0207] 對多個音頻片段的音頻特征值進行組合,得到第一音頻特征。
[0208]在本發(fā)明的另一個實施例中,對第一頻譜和第二頻譜分別進行映射,得到第一音 頻片段對應的第一頻率點和第二音頻片段對應的第二頻率點,包括:
[0209]對于第一頻譜,根據(jù)預設數(shù)量個采樣點和預設頻率,計算每個采樣點對應的頻率 范圍;
[0210] 將小于指定范圍的頻率范圍進行線性映射,得到多個線性頻率點;
[0211] 將大于指定范圍的頻率范圍,應用以下公式,進行對數(shù)映射,得到多個對數(shù)頻率 占 .
[0213] 其中,Binne3W表示對數(shù)頻率點,Bin表示大于指定范圍的任一頻率范圍,△ f表示相 鄰兩個采樣點對應的頻率范圍之間的頻率間隔,frrf表示參考頻率,*表示乘號;
[0214] 將多個線性頻率點和多個對數(shù)頻率點作為多個第一頻率點。
[0215] 在本發(fā)明的另一個實施例中,根據(jù)多個第一頻率點和多個第二頻率點,獲取第一 音頻片段的音頻特征值,包括:
[0216] 獲取第一音頻片段對應的每個第一頻率點的能量值,并獲取第二音頻片段對應的 每個第二頻率點的能量值;
[0217] 獲取第一音頻片段上每個第一頻率點的能量值與第二音頻片段上位置相同的第 二頻率點的能量值之差,作為第一音頻片段的音頻特征值。
[0218] 在本發(fā)明的另一個實施例中,根據(jù)第一音頻特征和第二音頻特征,計算目標音頻 文件與參考音頻文件之間的時間偏差,包括:
[0219] 計算第一音頻特征和第二音頻特征之間的互相關函數(shù);
[0220] 根據(jù)互相關函數(shù),計算第一音頻特征和第二音頻特征之間的時間偏差,作為目標 音頻文件與參考音頻文件之間的時間偏差。
[0221] 在本發(fā)明的另一個實施例中,計算第一音頻特征和第二音頻特征之間的互相關函 數(shù),包括:
[0222] 對于第一音頻特征和第二音頻特征,應用以下公式,計算互相關函數(shù):
[0223] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0224] 其中,X表示第一音頻特征,y表示第二音頻特征,Rxy表示互相關函數(shù),conj表示共 輒運算符,IFFT表示反傅里葉變換,F(xiàn)FT表示傅里葉變換,*表示乘號。
[0225] 在本發(fā)明的另一個實施例中,根據(jù)互相關函數(shù),計算第一音頻特征和第二音頻特 征之間的時間偏差,包括:
[0226]計算互相關函數(shù)的最大值;
[0227] 獲取互相關函數(shù)的最大值對應的位置偏差;
[0228] 對于位置偏差,應用以下公式,計算第一音頻特征和第二音頻特征之間的時間偏 差:
[0229] i=m〇/k