一種音視頻自動疊加字幕的方法和裝置與流程

文檔序號：12499097閱讀：來源：國知局

技術(shù)特征：

1.一種音視頻自動疊加字幕的方法，其特征在于，該方法包含以下

步驟：

提取音頻數(shù)據(jù)步驟，通過音視頻數(shù)據(jù)分離技術(shù)，將音頻數(shù)據(jù)從音視頻數(shù)據(jù)中分離并提取出來；

生成字幕步驟，對音頻數(shù)據(jù)進行分析匹配，計算出對應(yīng)的文字信息，并將文字信息形成字幕數(shù)據(jù)；

音視頻延時步驟，對音視頻文件進行特定的延時操作；

疊加字幕步驟，將生成的字幕數(shù)據(jù)疊加到延時后的音視頻數(shù)據(jù)上形成帶有字幕信息的音視頻文件。

2.如權(quán)利要求1所述的一種音視頻自動疊加字幕的方法，其特征在

于，所述提取音頻數(shù)據(jù)步驟中，所述分離技術(shù)包括：對輸入的音視頻數(shù)據(jù)進行解封裝、解碼，剝離出音頻數(shù)據(jù)信息。

3.如權(quán)利要求1、2所述的一種音視頻自動疊加字幕的方法，其特征

在于，所述提取音頻數(shù)據(jù)步驟中，所述分離并提取是指將所述剝離出的音頻數(shù)據(jù)信息統(tǒng)一轉(zhuǎn)換成PCM數(shù)據(jù)。

4.如權(quán)利要求1所述的一種音視頻自動疊加字幕的方法，其特征在

于，所述生成字幕步驟中，所述分析匹配包括：對PCM數(shù)據(jù)在時域和頻域提取特征，并將該特征與文字模型數(shù)據(jù)庫中的素材進行比對，找出匹配度最高的模型記錄。

5.如權(quán)利要求一種音視頻自動疊加字幕的方法，其特征在于，所述

生成字幕步驟中，所述字幕數(shù)據(jù)是指帶有時間標(biāo)簽的字幕文本。

6.如權(quán)利要求一種音視頻自動疊加字幕的方法，其特征在于，所述

音頻延時步驟中，所述特定延時是指字幕生成所產(chǎn)生的統(tǒng)計最大延時時間，利用該延時值對音視頻數(shù)據(jù)整體進行延時處理。

7.如權(quán)利要求一種音視頻自動疊加字幕的方法，其特征在于，所述

疊加字幕步驟，包括：對數(shù)據(jù)的字幕數(shù)據(jù)和音視頻數(shù)據(jù)進行時間軸的精準(zhǔn)同步，將同步后的字幕數(shù)據(jù)和音視頻數(shù)據(jù)疊加起來形成帶字幕信息的音視頻數(shù)據(jù)。

8.一種音視頻自動疊加字幕的裝置，其特征在于，該裝置包含以下

模塊：

音頻分離模塊，用于從音視頻數(shù)據(jù)中分離出音頻數(shù)據(jù)信息，并生成后續(xù)處理模塊接受的數(shù)據(jù)格式；

提取音頻生成字幕模塊，用于對特定格式的音頻信息進行特征提取，并根據(jù)提取的信息生成字幕；

音視頻延時模塊，用于對音視頻數(shù)據(jù)進行特定時間的延遲處理；

對音視頻疊加字幕模塊，用于將生成字幕數(shù)據(jù)疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)。

9.如權(quán)利要求8所述的一種音視頻自動疊加字幕的裝置，其特征在

于，所述音頻分離模塊中，所述數(shù)據(jù)格式為PCM格式；所述提取音頻生成字幕模塊中，所述特征提取包括時域和頻域的特征提取，所述生成字幕包括：將所述特征與字幕模型庫進行比較找出匹配度最高的文字信息，并生成帶有時間信息字幕數(shù)據(jù)。

10.如權(quán)利要求8所述的一種音視頻自動疊加字幕的裝置，其特征在

于，所述音頻延時模塊中，所述特定時間是指所述生成字幕產(chǎn)生的最大延時；所述對音視頻疊加字幕模塊，所述疊加必須在對字幕數(shù)據(jù)和音視頻數(shù)據(jù)進行時間軸同步確認后才能進行。

完整全部詳細技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看