本發(fā)明涉及一種音視頻自動疊加字幕的方法和裝置,尤其涉及一種視頻圖像處理和音視頻處理技術領域的音視頻自動疊加字幕的方法和裝置。
背景技術:
隨著社會的發(fā)展和地域文化的快速相互滲透,音視頻數(shù)據(jù)信息作為一種直觀的信息傳遞模式一直扮演者重要的媒介角色。字幕的出現(xiàn)就是為了解決地域文化和語言差異而引入的,給音視頻信息同步加上字幕信息,不僅可以有效幫助聽力功能衰弱、障礙的人群很好的把握、理解音視頻想要傳遞的信息,還能消除因為讀音相同而意義完全不同的同音字引起的歧義,在文化交流快速國際化的今天,字幕還能起到同步翻譯,消除語言引起的觀看、理解音視頻信息障礙的作用。
傳統(tǒng)的字幕添加方法是,有速錄人員通過觀看音視頻文件,同時快速記錄在每個時刻聽到的聲音信息,用文字的方式記錄下來并做好時間戳備注,最后又通過人工校對的方式將字幕添加到音視頻數(shù)據(jù)的特定時間戳位置上完成字幕添加。該方式不僅對速錄人員提出很高的要求,而且還經(jīng)常需要反復觀看記錄才能完善記錄內(nèi)容,在添加字幕時往往會因時間軸上存在的誤差需要做大量精細調整,消耗大量人力資源且效率不高。
技術實現(xiàn)要素:
針對現(xiàn)有音視頻文件添加字幕信息技術中存在的不足,本發(fā)明一種音視頻自動疊加字幕的方法和裝置,提出一種通過采用硬件模塊自動采集音視頻數(shù)據(jù)中的音頻數(shù)據(jù),并將該數(shù)據(jù)信息進行數(shù)據(jù)格式轉換,進而采用字幕生成模塊對轉換后的數(shù)據(jù)進行特征提取并對比音頻文字數(shù)據(jù)庫,匹配出最接近的文字信息從而形成字幕,又采用延時模塊對音視頻數(shù)據(jù)進行自動延時,最后利用字幕疊加模塊對音視頻數(shù)據(jù)和字幕數(shù)據(jù)進行時間軸自動精確同步操作后,將字幕信息疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)文件。硬件模塊自動完成識別和字幕生成工作,有效去除了人工速錄方式的低效和高要求的缺點,同時采用硬件模塊自動實現(xiàn)字幕和音視頻數(shù)據(jù)的時間軸同步,不僅省去了傳統(tǒng)人工的反復時間軸校正和修訂的繁瑣工作,還有效提高了同步進度和字幕添加質量,大大改進了字幕添加工作的效率,提高了字幕添加質量。
本發(fā)明解決其技術問題所采用的技術方案包括以下步驟:
提取音頻數(shù)據(jù)步驟,通過音視頻數(shù)據(jù)分離技術,將音頻數(shù)據(jù)從音視頻數(shù)據(jù)中分離并提取出來。
優(yōu)選的,所述分離技術包括:對輸入的音視頻數(shù)據(jù)進行解封裝、解碼,剝離出音頻數(shù)據(jù)信息。
優(yōu)選的,所述分離并提取是指將所述剝離出的音頻數(shù)據(jù)信息統(tǒng)一轉換成PCM數(shù)據(jù)。
生成字幕步驟,對音頻數(shù)據(jù)進行分析匹配,計算出對應的文字信息,并將文字信息形成字幕數(shù)據(jù)。
優(yōu)選的,所述分析匹配包括:對PCM數(shù)據(jù)在時域和頻域提取特征,并將該特征與文字模型數(shù)據(jù)庫中的素材進行比對,找出匹配度最高的模型記錄。
優(yōu)選的,所述字幕數(shù)據(jù)是指帶有時間標簽的字幕文本。
音視頻延時步驟,對音視頻文件進行特定的延時操作。
優(yōu)選的,所述特定延時是指字幕生成所產(chǎn)生的統(tǒng)計最大延時時間,利用該延時值對音視頻數(shù)據(jù)整體進行延時處理。
疊加字幕步驟,將生成的字幕數(shù)據(jù)疊加到延時后的音視頻數(shù)據(jù)上形成帶有字幕信息的音視頻文件。
優(yōu)選的,所述步驟包括:對數(shù)據(jù)的字幕數(shù)據(jù)和音視頻數(shù)據(jù)進行時間軸的精準同步,將同步后的字幕數(shù)據(jù)和音視頻數(shù)據(jù)疊加起來形成帶字幕信息的音視頻數(shù)據(jù)。
本發(fā)明解決其技術問題所采用的技術方案包括以下模塊:
音頻分離模塊,用于從音視頻數(shù)據(jù)中分離出音頻數(shù)據(jù)信息,并生成后續(xù)處理模塊接受的數(shù)據(jù)格式。
優(yōu)選的,所述分離指對輸入音視頻數(shù)據(jù)進行解封裝、解碼操作,從而提取出音頻信息。
優(yōu)選的,所述數(shù)據(jù)格式為PCM格式。
提取音頻生成字幕模塊,用于對特定格式的音頻信息進行特征提取,并根據(jù)提取的信息生成字幕。
優(yōu)選的,所述特征提取指對所述格式數(shù)據(jù)進行時域和頻域的特征提取過程。
優(yōu)選的,所述生成字幕包括:將所述特征與字幕模型庫進行比較找出匹配度最高的文字信息,并生成帶有時間信息字幕數(shù)據(jù)。
音視頻延時模塊,用于對音視頻數(shù)據(jù)進行特定時間的延遲處理。
優(yōu)選的,所述特定時間指所述生成字幕產(chǎn)生的最大延時。
對音視頻疊加字幕模塊,用于將生成字幕數(shù)據(jù)疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)。
優(yōu)選的,所述疊加過程必須在對字幕數(shù)據(jù)和音視頻數(shù)據(jù)進行時間軸同步確認后才能進行。
采用上述技術方案,本發(fā)明具有以下優(yōu)點:
本發(fā)明涉及一種音視頻自動疊加字幕的方法和裝置,提出一種通過采用硬件模塊自動采集音視頻數(shù)據(jù)中的音頻數(shù)據(jù),并將該數(shù)據(jù)信息進行數(shù)據(jù)格式轉換,進而采用字幕生成模塊對轉換后的數(shù)據(jù)進行特征提取并對比音頻文字數(shù)據(jù)庫,匹配出最接近的文字信息從而形成字幕,又采用延時模塊對音視頻數(shù)據(jù)進行自動延時,最后利用字幕疊加模塊對音視頻數(shù)據(jù)和字幕數(shù)據(jù)進行時間軸自動精確同步操作后,將字幕信息疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)文件。硬件模塊自動完成識別和字幕生成工作,有效去除了人工速錄方式的低效和高要求的缺點,同時采用硬件模塊自動實現(xiàn)字幕和音視頻數(shù)據(jù)的時間軸同步,不僅省去了傳統(tǒng)人工的反復時間軸校正和修訂的繁瑣工作,還有效提高了同步進度和字幕添加質量,大大改進了字幕添加工作的效率,提高了字幕添加質量。
附圖說明
圖1為本發(fā)明較佳實施方式的一種音視頻自動疊加字幕的方法和裝置的步驟示意圖。
圖2為本發(fā)明較佳實施方式的一種音視頻自動疊加字幕的方法和裝置的系統(tǒng)模塊圖。
圖3為本發(fā)明較佳實施方式的一種音視頻自動疊加字幕的方法和裝置的詳細流程圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整的描述,顯然,所描述的實施例僅僅是本發(fā)明的一個實施例,而不是全部實施例?;诒景l(fā)明中的實施例,本領域的一般技術人員在沒有做出創(chuàng)造性勞動的前提下所獲得的其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明實施例公開了一種音視頻自動疊加字幕的方法,參見圖1所示,該方法包括一下步驟:
步驟S1:從音視頻文件中提取音頻數(shù)據(jù)。
步驟S2:自動識別音頻信息并生成字幕文件。
步驟S3:對音視頻文件進行延時處理。
步驟S4:將音視頻文件與字幕文件合成帶字幕的音視頻文件。
本發(fā)明實施例公開了一種音視頻自動疊加字幕的裝置,參見圖2所示,該裝置包括一下模塊:
模塊M1:音頻分離模塊,用于從音視頻數(shù)據(jù)中分離提取出音頻數(shù)據(jù)信息并轉換成特定數(shù)據(jù)格式供字幕生成工作使用。
模塊M2:提取音頻生成字幕模塊,用于對特定格式的音頻數(shù)據(jù)進行特征提取、比對,從而從音頻文字數(shù)據(jù)庫中查找出最匹配的文字信息生成字幕信息。
模塊M3:音頻延時模塊,用于對音視頻數(shù)據(jù)進行特定時間長度的延時操作。
模塊M4:對音頻疊加字幕模塊,用于對字幕信息和音視頻數(shù)據(jù)信息進行時間軸精準同步,并將同步后的字幕疊加到音視頻數(shù)據(jù)信息上形成帶有字幕信息的音視頻數(shù)據(jù)文件。
本發(fā)明實施例中,通過采用硬件模塊自動采集音視頻數(shù)據(jù)中的音頻數(shù)據(jù),并將該數(shù)據(jù)信息進行數(shù)據(jù)格式轉換,進而采用字幕生成模塊對轉換后的數(shù)據(jù)進行特征提取并對比音頻文字數(shù)據(jù)庫,匹配出最接近的文字信息從而形成字幕,又采用延時模塊對音視頻數(shù)據(jù)進行自動延時,最后利用字幕疊加模塊對音視頻數(shù)據(jù)和字幕數(shù)據(jù)進行時間軸自動精確同步操作后,將字幕信息疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)文件。
可見,本發(fā)明實施例中,通過硬件模塊自動完成識別和字幕生成工作,有效去除了人工速錄方式的低效和高要求的缺點,同時采用硬件模塊自動實現(xiàn)字幕和音視頻數(shù)據(jù)的時間軸同步,不僅省去了傳統(tǒng)人工的反復時間軸校正和修訂的繁瑣工作,還有效提高了同步進度和字幕添加質量,大大改進了字幕添加工作的效率,提高了字幕添加質量。
本發(fā)明實施例公開了一種音視頻自動疊加字幕的方法和裝置,參見圖2,相對上兩個實施例,本實施例對技術方案作了進一步的說明和優(yōu)化。具體的,本實施例中一種音視頻自動疊加字幕的方法和裝置包含以下步驟:
S1:提取音頻數(shù)據(jù)步驟,通過音視頻數(shù)據(jù)分離技術,將音頻數(shù)據(jù)從音視頻數(shù)據(jù)中分離并提取出來。
優(yōu)選的,通過步驟S0向所述模塊M1、M3逐幀輸入音視頻數(shù)據(jù),所述模塊M1接收到數(shù)據(jù)后執(zhí)行步驟S11:從音視頻文件中提取音頻數(shù)據(jù)。
優(yōu)選的,通過執(zhí)行步驟S11,對音視頻數(shù)據(jù)文件進行解封裝、解碼,得到音頻數(shù)據(jù),然后將所述數(shù)據(jù)輸入步驟S12:保存音頻數(shù)據(jù)。
優(yōu)選的,通過執(zhí)行步驟S12,將各種格式的音頻數(shù)據(jù)轉換成PCM數(shù)據(jù),然后將所述數(shù)據(jù)輸入所述模塊M2。
S2:生成字幕步驟,對音頻數(shù)據(jù)進行分析匹配,計算出對應的文字信息,并將文字信息形成字幕數(shù)據(jù)。
優(yōu)選的,所述模塊M2接收到模塊M1處理得出的數(shù)據(jù)后執(zhí)行步驟S21:提取音頻數(shù)據(jù)特征。
優(yōu)選的,通過執(zhí)行步驟S21,實現(xiàn)對音頻數(shù)據(jù)的時域和頻域的特征提取,并將所述特征輸入步驟S22:數(shù)據(jù)庫匹配查找。
優(yōu)選的,通過執(zhí)行步驟S22,將所述特征與語音文字數(shù)據(jù)庫的特征記錄進行比對,找出匹配度最高的文字信息,并將該信息輸送給步驟S23:生成字幕文件。
優(yōu)選的,通過執(zhí)行步驟S23,對查找到的匹配文字信息添加時間戳內(nèi)容后生成字幕信息,并將該字幕信息傳遞給模塊M4。
S3:音視頻延時步驟,對音視頻文件進行特定的延時操作。
優(yōu)選的,通過執(zhí)行步驟S3,模塊M3對步驟S0輸入的音視頻數(shù)據(jù)信息進行一定時間的延時處理,并將處理結果輸入模塊M4。
優(yōu)選的,所述一定時間的延時指所述步驟S2執(zhí)行過程中產(chǎn)生的延時時間的最大值。
S4:疊加字幕步驟,將生成的字幕數(shù)據(jù)疊加到延時后的音視頻數(shù)據(jù)上形成帶有字幕信息的音視頻文件。
優(yōu)選的,模塊M4接收到模塊M2、M3輸入的數(shù)據(jù)信息后,執(zhí)行步驟S41:匹配同步字幕與音視頻。
優(yōu)選的,通過執(zhí)行步驟S41,對模塊M2輸入的字幕信息和模塊M3輸入的音視頻數(shù)據(jù)信息進行精準的時間軸同步操作,并將同步后的數(shù)據(jù)輸給步驟S42:對音視頻疊加字幕。
優(yōu)選的,通過執(zhí)行步驟S42,實現(xiàn)將字幕信息疊加到音視頻數(shù)據(jù)上,最終生成所需的帶字幕信息的音視頻數(shù)據(jù)文件。
綜上所述,通過步驟S0向模塊M1、M3輸入音視頻數(shù)據(jù)信息,然后針對模塊M1,通過執(zhí)行步驟S11,實現(xiàn)對輸入音視頻數(shù)據(jù)的解封裝、解碼操作提取出音頻數(shù)據(jù)信息,對操作結果執(zhí)行步驟S12,實現(xiàn)對音頻數(shù)據(jù)信息的數(shù)據(jù)格式轉換,生成PCM數(shù)據(jù)文件,對該數(shù)據(jù)文件執(zhí)行步驟S21,實現(xiàn)對PCM數(shù)據(jù)文件的時域和頻域的特征提取,對將提取的特征值執(zhí)行步驟S22,實現(xiàn)對所述特征的語音文字數(shù)據(jù)庫查找匹配,對獲得的最佳匹配結果執(zhí)行步驟S23,實現(xiàn)對匹配出的文字信息添加時間戳信息,進而生成字幕文件并傳遞給模塊M4,而模塊M3在接收到S0輸入的音視頻數(shù)據(jù)信息后,對所述數(shù)據(jù)信息執(zhí)行步驟S3,實現(xiàn)對所述音視頻數(shù)據(jù)信息進行一定時間的延時操作,所述時間為步驟S2執(zhí)行產(chǎn)生的最大延時值,將經(jīng)過S3處理后的數(shù)據(jù)輸入模塊M4,M4在接收到M2、M3輸入的數(shù)據(jù)信息后,通過執(zhí)行步驟S41,實現(xiàn)對M2輸入的字幕信息和M3輸入的音視頻數(shù)據(jù)信息進行時間軸上的精準同步操作,對執(zhí)行同步操作后的結果執(zhí)行步驟S42,實現(xiàn)將字幕信息疊加到音視頻數(shù)據(jù)信息上生成帶字幕信息的音視頻數(shù)據(jù)文件。通過采用硬件模塊自動采集音視頻數(shù)據(jù)中的音頻數(shù)據(jù),并將該數(shù)據(jù)信息進行數(shù)據(jù)格式轉換,進而采用字幕生成模塊對轉換后的數(shù)據(jù)進行特征提取并對比音頻文字數(shù)據(jù)庫,匹配出最接近的文字信息從而形成字幕,又采用延時模塊對音視頻數(shù)據(jù)進行自動延時,最后利用字幕疊加模塊對音視頻數(shù)據(jù)和字幕數(shù)據(jù)進行時間軸自動精確同步操作后,將字幕信息疊加到音視頻數(shù)據(jù)形成帶有字幕信息的音視頻數(shù)據(jù)文件。
以上所述僅為舉例性,而非為限制性。本領域的技術人員可以對發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內(nèi),則本發(fā)明也意圖包括這些改動和變型在內(nèi)。