1.一種音視頻自動疊加字幕的方法,其特征在于,該方法包含以下
步驟:
提取音頻數(shù)據(jù)步驟,通過音視頻數(shù)據(jù)分離技術(shù),將音頻數(shù)據(jù)從音視頻數(shù)據(jù)中分離并提取出來;
生成字幕步驟,對音頻數(shù)據(jù)進行分析匹配,計算出對應(yīng)的文字信息,并將文字信息形成字幕數(shù)據(jù);
音視頻延時步驟,對音視頻文件進行特定的延時操作;
疊加字幕步驟,將生成的字幕數(shù)據(jù)疊加到延時后的音視頻數(shù)據(jù)上形成帶有字幕信息的音視頻文件。
2.如權(quán)利要求1所述的一種音視頻自動疊加字幕的方法,其特征在
于,所述提取音頻數(shù)據(jù)步驟中,所述分離技術(shù)包括:對輸入的音視頻數(shù)據(jù)進行解封裝、解碼,剝離出音頻數(shù)據(jù)信息。
3.如權(quán)利要求1、2所述的一種音視頻自動疊加字幕的方法,其特征
在于,所述提取音頻數(shù)據(jù)步驟中,所述分離并提取是指將所述剝離出的音頻數(shù)據(jù)信息統(tǒng)一轉(zhuǎn)換成PCM數(shù)據(jù)。
4.如權(quán)利要求1所述的一種音視頻自動疊加字幕的方法,其特征在
于,所述生成字幕步驟中,所述分析匹配包括:對PCM數(shù)據(jù)在時域和頻域提取特征,并將該特征與文字模型數(shù)據(jù)庫中的素材進行比對,找出匹配度最高的模型記錄。
5.如權(quán)利要求一種音視頻自動疊加字幕的方法,其特征在于,所述
生成字幕步驟中,所述字幕數(shù)據(jù)是指帶有時間標(biāo)簽的字幕文本。
6.如權(quán)利要求一種音視頻自動疊加字幕的方法,其特征在于,所述
音頻延時步驟中,所述特定延時是指字幕生成所產(chǎn)生的統(tǒng)計最大延時時間,利用該延時值對音視頻數(shù)據(jù)整體進行延時處理。
7.如權(quán)利要求一種音視頻自動疊加字幕的方法,其特征在于,所述
疊加字幕步驟,包括:對數(shù)據(jù)的字幕數(shù)據(jù)和音視頻數(shù)據(jù)進行時間軸的精準(zhǔn)同步,將同步后的字幕數(shù)據(jù)和音視頻數(shù)據(jù)疊加起來形成帶字幕信息的音視頻數(shù)據(jù)。
8.一種音視頻自動疊加字幕的裝置,其特征在于,該裝置包含以下
模塊:
音頻分離模塊,用于從音視頻數(shù)據(jù)中分離出音頻數(shù)據(jù)信息,并生成后續(xù)處理模塊接受的數(shù)據(jù)格式;
提取音頻生成字幕模塊,用于對特定格式的音頻信息進行特征提取,并根據(jù)提取的信息生成字幕;
音視頻延時模塊,用于對音視頻數(shù)據(jù)進行特定時間的延遲處理;
對音視頻疊加字幕模塊,用于將生成字幕數(shù)據(jù)疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)。
9.如權(quán)利要求8所述的一種音視頻自動疊加字幕的裝置,其特征在
于,所述音頻分離模塊中,所述數(shù)據(jù)格式為PCM格式;所述提取音頻生成字幕模塊中,所述特征提取包括時域和頻域的特征提取,所述生成字幕包括:將所述特征與字幕模型庫進行比較找出匹配度最高的文字信息,并生成帶有時間信息字幕數(shù)據(jù)。
10.如權(quán)利要求8所述的一種音視頻自動疊加字幕的裝置,其特征在
于,所述音頻延時模塊中,所述特定時間是指所述生成字幕產(chǎn)生的最大延時;所述對音視頻疊加字幕模塊,所述疊加必須在對字幕數(shù)據(jù)和音視頻數(shù)據(jù)進行時間軸同步確認后才能進行。