歌詞文件的生成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,特別涉及一種歌詞文件的生成方法及裝置。
【背景技術(shù)】
[0002] 隨著音頻處理技術(shù)的發(fā)展,用戶(hù)對(duì)試聽(tīng)體驗(yàn)有了更高的要求,不僅要求音頻播放 應(yīng)用能夠播放音頻文件,還希望音頻播放應(yīng)用能夠同步顯示與音頻文件相應(yīng)的歌詞文件。
[0003] 為了滿(mǎn)足用戶(hù)的需求,現(xiàn)有技術(shù)主要采用人工方式為音頻文件數(shù)據(jù)庫(kù)中的每個(gè)音 頻文件生成相應(yīng)的歌詞文件,并將所生成的歌詞文件導(dǎo)入到音頻播放應(yīng)用中,從而在播放 音頻文件時(shí),同步顯示相應(yīng)地歌詞文件。
[0004] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題:
[0005] 對(duì)于音頻文件數(shù)據(jù)庫(kù)中不同版本的音頻文件,現(xiàn)有技術(shù)也會(huì)采用人工方式為每個(gè) 音頻文件分別生成一個(gè)歌詞文件,該過(guò)程效率較低、制作成本較高。
【發(fā)明內(nèi)容】
[0006] 為了解決現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明實(shí)施例提供了一種歌詞文件的生成方法及裝 置。所述技術(shù)方案如下:
[0007] -方面,提供了一種歌詞文件的生成方法,所述方法包括:
[0008] 獲取目標(biāo)音頻文件及參考音頻文件,所述目標(biāo)音頻文件與所述參考音頻文件為同 一音頻文件的不同版本;
[0009] 分別對(duì)所述目標(biāo)音頻文件和所述參考音頻文件進(jìn)行特征提取,得到第一音頻特征 和第二音頻特征;
[0010] 根據(jù)所述第一音頻特征和所述第二音頻特征,計(jì)算所述目標(biāo)音頻文件與所述參考 音頻文件之間的時(shí)間偏差;
[0011] 根據(jù)所述時(shí)間偏差,調(diào)整所述參考音頻文件對(duì)應(yīng)歌詞文件的時(shí)間戳,得到所述目 標(biāo)音頻文件對(duì)應(yīng)的歌詞文件。
[0012] 可選地,所述分別對(duì)所述目標(biāo)音頻文件和所述參考音頻文件進(jìn)行特征提取,得到 第一音頻特征和第二音頻特征,包括:
[0013] 采用預(yù)設(shè)頻率對(duì)所述目標(biāo)音頻文件進(jìn)行重采樣;
[0014] 將重采樣后的目標(biāo)音頻文件劃分為多個(gè)音頻片段,每個(gè)音頻片段中包含預(yù)設(shè)數(shù)量 個(gè)采樣點(diǎn);
[0015] 對(duì)于任意相鄰的第一音頻片段和第二音頻片段,采用漢寧窗函數(shù)進(jìn)行處理,得到 第一加窗音頻片段和第二加窗音頻片段;
[0016] 對(duì)所述第一加窗音頻片段和所述第二加窗音頻片段分別進(jìn)行快速傅里葉變換 FFT,得到所述第一音頻片段對(duì)應(yīng)的第一頻譜和所述第二音頻片段對(duì)應(yīng)的第二頻譜;
[0017] 對(duì)所述第一頻譜和所述第二頻譜分別進(jìn)行映射,得到所述第一音頻片段對(duì)應(yīng)的多 個(gè)第一頻率點(diǎn)和所述第二音頻片段對(duì)應(yīng)的多個(gè)第二頻率點(diǎn),所述第一頻率點(diǎn)和所述第二頻 率點(diǎn)的數(shù)量相同;
[0018]根據(jù)所述多個(gè)第一頻率點(diǎn)和多個(gè)所述第二頻率點(diǎn),獲取所述第一音頻片段的音頻 特征值;
[0019]對(duì)所述多個(gè)音頻片段的音頻特征值進(jìn)行組合,得到所述第一音頻特征。
[0020] 可選地,所述對(duì)所述第一頻譜和所述第二頻譜分別進(jìn)行映射,得到所述第一音頻 片段對(duì)應(yīng)的第一頻率點(diǎn)和所述第二音頻片段對(duì)應(yīng)的第二頻率點(diǎn),包括:
[0021] 對(duì)于所述第一頻譜,根據(jù)所述預(yù)設(shè)數(shù)量個(gè)采樣點(diǎn)和所述預(yù)設(shè)頻率,計(jì)算每個(gè)采樣 點(diǎn)對(duì)應(yīng)的頻率范圍;
[0022] 將小于指定范圍的頻率范圍進(jìn)行線(xiàn)性映射,得到多個(gè)線(xiàn)性頻率點(diǎn);
[0023]將大于所述指定范圍的頻率范圍,應(yīng)用以下公式,進(jìn)行對(duì)數(shù)映射,得到多個(gè)對(duì)數(shù)頻 率占.
[0025] 其中,示所述對(duì)數(shù)頻率點(diǎn),Bin表示大于所述指定范圍的任一頻率范圍,Δ f表示相鄰兩個(gè)采樣點(diǎn)對(duì)應(yīng)的頻率范圍之間的頻率間隔,fref表示參考頻率,*表示乘號(hào);
[0026] 將所述多個(gè)線(xiàn)性頻率點(diǎn)和所述多個(gè)對(duì)數(shù)頻率點(diǎn)作為所述多個(gè)第一頻率點(diǎn)。
[0027] 可選地,所述根據(jù)所述多個(gè)第一頻率點(diǎn)和所述多個(gè)第二頻率點(diǎn),獲取所述第一音 頻片段的音頻特征值,包括:
[0028] 獲取所述第一音頻片段對(duì)應(yīng)的每個(gè)第一頻率點(diǎn)的能量值,并獲取所述第二音頻片 段對(duì)應(yīng)的每個(gè)第二頻率點(diǎn)的能量值;
[0029] 獲取所述第一音頻片段上每個(gè)第一頻率點(diǎn)的能量值與所述第二音頻片段上位置 相同的第二頻率點(diǎn)的能量值之差,作為所述第一音頻片段的音頻特征值。
[0030] 可選地,所述根據(jù)所述第一音頻特征和所述第二音頻特征,計(jì)算所述目標(biāo)音頻文 件與所述參考音頻文件之間的時(shí)間偏差,包括:
[0031] 計(jì)算所述第一音頻特征和所述第二音頻特征之間的互相關(guān)函數(shù);
[0032] 根據(jù)所述互相關(guān)函數(shù),計(jì)算所述第一音頻特征和所述第二音頻特征之間的時(shí)間偏 差,作為所述目標(biāo)音頻文件與所述參考音頻文件之間的時(shí)間偏差。
[0033] 可選地,所述計(jì)算所述第一音頻特征和所述第二音頻特征之間的互相關(guān)函數(shù),包 括:
[0034] 對(duì)于所述第一音頻特征和所述第二音頻特征,應(yīng)用以下公式,計(jì)算所述互相關(guān)函 數(shù):
[0035] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0036] 其中,X表示所述第一音頻特征,y表示所述第二音頻特征,Rxy表示所述互相關(guān)函 數(shù),con j表示共輒運(yùn)算符,IFFT表示反傅里葉變換,F(xiàn)FT表示傅里葉變換,*表示乘號(hào)。
[0037] 可選地,所述根據(jù)所述互相關(guān)函數(shù),計(jì)算所述第一音頻特征和所述第二音頻特征 之間的時(shí)間偏差,包括:
[0038]計(jì)算所述互相關(guān)函數(shù)的最大值;
[0039] 獲取所述互相關(guān)函數(shù)的最大值對(duì)應(yīng)的位置偏差;
[0040] 對(duì)于所述位置偏差,應(yīng)用以下公式,計(jì)算所述第一音頻特征和所述第二音頻特征 之間的時(shí)間偏差:
[0041] i=m〇/ko
[0042] 其中,τ表示所述第一音頻特征和所述第二音頻特征之間的時(shí)間偏差,mo表示所述 互相關(guān)函數(shù)的最大值所對(duì)應(yīng)的位置偏差,ko表示所述預(yù)設(shè)頻率,/表示除號(hào)。
[0043] 另一方面,提供了一種歌詞文件的生成裝置,所述裝置包括:
[0044] 獲取模塊,用于獲取目標(biāo)音頻文件及參考音頻文件,所述目標(biāo)音頻文件與所述參 考音頻文件為同一音頻文件的不同版本;
[0045] 提取模塊,用于分別對(duì)所述目標(biāo)音頻文件和所述參考音頻考文件進(jìn)行特征提取, 得到第一音頻特征和第二音頻特征;
[0046] 計(jì)算模塊,用于根據(jù)所述第一音頻特征和所述第二音頻特征,計(jì)算所述目標(biāo)音頻 文件與所述參考音頻文件之間的時(shí)間偏差;
[0047] 調(diào)整模塊,用于根據(jù)所述時(shí)間偏差,調(diào)整所述參考音頻文件對(duì)應(yīng)歌詞文件的時(shí)間 戳,得到所述目標(biāo)音頻文件對(duì)應(yīng)的歌詞文件。
[0048] 可選地,所述提取模塊,用于采用預(yù)設(shè)頻率對(duì)所述目標(biāo)音頻文件進(jìn)行重采樣;將重 采樣后的目標(biāo)音頻文件劃分為多個(gè)音頻片段,每個(gè)音頻片段中包含預(yù)設(shè)數(shù)量個(gè)采樣點(diǎn);對(duì) 于任意相鄰的第一音頻片段和第二音頻片段,采用漢寧窗函數(shù)進(jìn)行處理,得到第一加窗音 頻片段和第二加窗音頻片段;對(duì)所述第一加窗音頻片段和所述第二加窗音頻片段分別進(jìn)行 快速傅里葉變換FFT,得到所述第一音頻片段對(duì)應(yīng)的第一頻譜和所述第二音頻片段對(duì)應(yīng)的 第二頻譜;對(duì)所述第一頻譜和所述第二頻譜分別進(jìn)行映射,得到所述第一音頻片段對(duì)應(yīng)的 多個(gè)第一頻率點(diǎn)和所述第二音頻片段對(duì)應(yīng)的多個(gè)第二頻率點(diǎn),所述第一頻率點(diǎn)和所述第二 頻率點(diǎn)的數(shù)量相同;根據(jù)所述多個(gè)第一頻率點(diǎn)和多個(gè)所述第二頻率點(diǎn),獲取所述第一音頻 片段的音頻特征值;對(duì)所述多個(gè)音頻片段的音頻特征值進(jìn)行組合,得到所述第一音頻特征。
[0049] 可選地,所述提取模塊,還用于對(duì)于所述第一頻譜,根據(jù)所述預(yù)設(shè)數(shù)量個(gè)采樣點(diǎn)和 所述預(yù)設(shè)頻率,計(jì)算每個(gè)采樣點(diǎn)對(duì)應(yīng)的頻率范圍;將小于指定范圍的頻率范圍進(jìn)行線(xiàn)性映 射,得到多個(gè)線(xiàn)性頻率點(diǎn);將大于所述指定范圍的頻率范圍,應(yīng)用以下公式,進(jìn)行對(duì)數(shù)映射, 得到多個(gè)對(duì)數(shù)頻率點(diǎn):
[0051]其中,示所述對(duì)數(shù)頻率點(diǎn),Bin表示大于所述指定范圍的任一頻率范圍,Δ f表示相鄰兩個(gè)采樣點(diǎn)對(duì)應(yīng)的頻率范圍之間的頻率間隔,fref表示參考頻率,*表示乘號(hào); [0052]將所述多個(gè)線(xiàn)性頻率點(diǎn)和所述多個(gè)對(duì)數(shù)頻率點(diǎn)作為所述多個(gè)第一頻率點(diǎn)。
[0053]可選地,所述提取模塊,用于獲取所述第一音頻片段對(duì)應(yīng)的每個(gè)第一頻率點(diǎn)的能 量值,并獲取所述第二音頻片段對(duì)應(yīng)的每個(gè)第二頻率點(diǎn)的能量值;獲取所述第一音頻片段 上每個(gè)第一頻率點(diǎn)的能量值與所述第二音頻片段上位置相同的第二頻率點(diǎn)的能量值之差, 作為所述第一音頻片段的音頻特征值。
[0054]可選地,所述計(jì)算模塊,用于計(jì)算所述第一音頻特征和所述第二音頻特征之間的 互相關(guān)函數(shù);根據(jù)所述互相關(guān)函數(shù),計(jì)算所述第一音頻特征和所述第二音頻特征之間的時(shí) 間偏差,作為所述目標(biāo)音頻文件與所述參考音頻文件之間的時(shí)間偏差。
[0055]可選地,所述計(jì)算模塊,還用于對(duì)于所述第一音頻特征和所述第二音頻特征,應(yīng)用 以下公式,計(jì)算所述互相關(guān)函數(shù):
[0056] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0057] 其中,X表示所述第一音頻特征,y表示所述第二音頻特征,Rxy表示所述互相關(guān)函 數(shù),con j表示共輒運(yùn)算符,IFFT表示反傅里葉變換,F(xiàn)FT表示傅里葉變換,*表示乘號(hào)。
[0058]可選地,所述計(jì)算模塊,還用于計(jì)算所述互相關(guān)函數(shù)的最大值;獲取所述互相關(guān)函 數(shù)的最大值對(duì)應(yīng)的位置偏差;對(duì)于所述位置偏差,應(yīng)用以下公式,計(jì)算所述第一音頻特征和 所述第二音頻特征之間的時(shí)間偏差:
[0059] i=m〇/ko
[0060] 其中,τ表示所述第一音頻特征和所述第二音頻特征之間的時(shí)間偏差,mo表示所述 互相關(guān)函數(shù)的最大值所對(duì)應(yīng)的位置偏差,ko表示所述預(yù)設(shè)頻率,/表示除號(hào)。
[0061] 本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:
[0062] 對(duì)于同一音頻文件的不同版本,通過(guò)調(diào)整參考音頻文件對(duì)應(yīng)的歌詞文件,即可為 目標(biāo)音頻文件生成對(duì)應(yīng)的歌詞文件,無(wú)需重復(fù)生成多個(gè)歌詞文件,提高了音頻文件的制作 效率,降低了制作成本。
【附圖說(shuō)明】
[0063] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0064] 圖1A是本發(fā)明一個(gè)實(shí)施例提供的歌詞文件的生成方法所涉及的實(shí)施環(huán)境的結(jié)構(gòu) 示意圖;
[0065] 圖1B是本發(fā)明另一個(gè)實(shí)施例提供的一種歌詞文件的生成方法流程圖;
[0066] 圖2是本發(fā)明另一個(gè)實(shí)施例提供的一種歌詞文件的生成方法流程圖;
[0067] 圖3是本發(fā)