一種基于字幕檢測與識別的視頻字幕還原方法
【專利摘要】本發(fā)明是一種基于字幕檢測與識別的視頻字幕還原方法,包括以下步驟:步驟1:將視頻上傳到分析設(shè)備;步驟2:檢測每幀上的字幕區(qū)域;步驟3:通過滑動窗口檢測字幕;步驟4:將檢測出來的字幕,其中的某一幀,使用OCR技術(shù),識別出文字,將文字與字幕的起始和截止時間,存儲為文本字幕。本發(fā)明通過字幕檢測,檢測出視頻上的硬字幕,并通過光學字符識別技術(shù),識別出硬字幕中的內(nèi)容,還原得到軟字幕(文本字幕)。
【專利說明】
一種基于字幕檢測與識別的視頻字幕還原方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及視頻字幕編輯【技術(shù)領(lǐng)域】,尤指一種基于字幕檢測與識別的視頻字幕還原方法。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)上的視頻很多都是硬字幕(字幕直接融合在視頻圖像之上),修正難度大,一旦出錯必須整個視頻文件重新制作,因為無法分離,限制了用戶對字體風格個人喜好的修改。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在于提供一種基于字幕檢測與識別的視頻字幕還原方法,解決現(xiàn)有技術(shù)存在的缺憾。
[0004]本發(fā)明是一種基于字幕檢測與識別的視頻字幕還原方法,包括以下步驟:
步驟1:將視頻上傳到分析設(shè)備;
步驟2:檢測每幀上的字幕區(qū)域;
步驟3:通過滑動窗口檢測字幕,滑動窗口里存儲了最多連續(xù)的M幀圖像的字幕候選區(qū)數(shù)據(jù),并維護一個計數(shù)器。當滑動窗口為空時,直接將新幀放入。如果滑動窗口不為空且時,對于新幀,計算新幀與窗口內(nèi)各幀的重疊區(qū)域,新幀與窗口內(nèi)各幀的重疊區(qū)域均大于b%時,如果滑動窗口內(nèi)幀數(shù)量小于M,則將新幀添加進滑動窗口中,若滑動窗口已滿,則計數(shù)器加I。如果新幀與窗口內(nèi)某一幀的重疊區(qū)域小于&%時。此時,如果計數(shù)器大于閾值N,則認為檢測出一條字幕,該字幕的字幕起始時間為滑動窗口內(nèi)第一幀所對應(yīng)的時間,根據(jù)滑動窗口的大小和計數(shù)器值,可以計算該條字幕所跨越的幀的數(shù)量,得出字幕的截止時間。無論是否檢測出字幕,都將新幀加入滑動窗口內(nèi),同時,計數(shù)器置為0,所述M、N、b為預(yù)先設(shè)置的固定值;
步驟4:將檢測出來的字幕,其中的某一幀,使用OCR技術(shù),識別出文字,將文字與字幕的起始和截止時間,存儲為文本字幕。
[0005]所述步驟2包括以下流程:
Ca)對于視頻的每一幀圖像,取其底部一小部分來進行分析;
(b)視頻字幕通常為白色和藍色,并且有比較強的邊緣;檢測出視頻圖像里的此類區(qū)域,存儲為該幀視頻的字幕候選區(qū)。
[0006]本發(fā)明的有益技術(shù)效果在于:本發(fā)明通過字幕檢測,檢測出視頻上的硬字幕,并通過光學字符識別技術(shù),識別出硬字幕中的內(nèi)容,還原得到軟字幕(文本字幕)。
【具體實施方式】
[0007]下面結(jié)合實施例,對本發(fā)明的【具體實施方式】作進一步詳細描述。
[0008]本發(fā)明是一種基于字幕檢測與識別的視頻字幕還原方法,包括以下步驟: 步驟1:將視頻上傳到分析設(shè)備;
步驟2:檢測每幀上的字幕區(qū)域;視頻字幕的特點是,大多出現(xiàn)在視頻下部區(qū)域,字體顏色單一,檢測字幕區(qū)的流程為:
Ca)對于視頻的每一幀圖像,取其底部一小部分來進行分析;
(b)視頻字幕通常為白色和藍色,并且有比較強的邊緣;檢測出視頻圖像里的此類區(qū)域,存儲為該幀視頻的字幕候選區(qū)。
[0009]步驟3:通過滑動窗口檢測字幕。所檢測出來的字幕候選區(qū)域可能是字幕,也可能是其他和字幕顏色類似的區(qū)域。視頻中字幕通常會在同一位置在多幀中出現(xiàn),我們根據(jù)這一特性,設(shè)計了一個滑動窗口,來篩選字幕。
[0010]所述滑動窗口里存儲了最多連續(xù)的M幀圖像的字幕候選區(qū)數(shù)據(jù),并維護一個計數(shù)器。當滑動窗口為空時,直接將新幀放入。如果滑動窗口不為空且時,對于新幀,計算新幀與窗口內(nèi)各幀的重疊區(qū)域,新幀與窗口內(nèi)各幀的重疊區(qū)域均大于b%時,如果滑動窗口內(nèi)幀數(shù)量小于M,則將新幀添加進滑動窗口中,若滑動窗口已滿,則計數(shù)器加I。如果新幀與窗口內(nèi)某一幀的重疊區(qū)域小于&%時。此時,如果計數(shù)器大于閾值N,則認為檢測出一條字幕,該字幕的字幕起始時間為滑動窗口內(nèi)第一幀所對應(yīng)的時間,根據(jù)滑動窗口的大小和計數(shù)器值,可以計算該條字幕所跨越的幀的數(shù)量,得出字幕的截止時間。無論是否檢測出字幕,都將新幀加入滑動窗口內(nèi),同時,計數(shù)器置為0,所述M、N、b為預(yù)先設(shè)置的固定值;
步驟4:將檢測出來的字幕,其中的某一幀,使用OCR技術(shù),識別出文字,將文字與字幕的起始和截止時間,存儲為文本字幕。
【權(quán)利要求】
1.一種基于字幕檢測與識別的視頻字幕還原方法,其特征在于,包括以下步驟: 步驟1:將視頻上傳到分析設(shè)備; 步驟2:檢測每幀上的字幕區(qū)域; 步驟3:通過滑動窗口檢測字幕,滑動窗口里存儲了最多連續(xù)的M幀圖像的字幕候選區(qū)數(shù)據(jù),并維護一個計數(shù)器;當滑動窗口為空時,直接將新幀放入;如果滑動窗口不為空且時,對于新幀,計算新幀與窗口內(nèi)各幀的重疊區(qū)域,新幀與窗口內(nèi)各幀的重疊區(qū)域均大于b%時,如果滑動窗口內(nèi)幀數(shù)量小于M,則將新幀添加進滑動窗口中,若滑動窗口已滿,則計數(shù)器加I ;如果新幀與窗口內(nèi)某一幀的重疊區(qū)域小于&%時;此時,如果計數(shù)器大于閾值N,則認為檢測出一條字幕,該字幕的字幕起始時間為滑動窗口內(nèi)第一幀所對應(yīng)的時間,根據(jù)滑動窗口的大小和計數(shù)器值,可以計算該條字幕所跨越的幀的數(shù)量,得出字幕的截止時間;無論是否檢測出字幕,都將新幀加入滑動窗口內(nèi),同時,計數(shù)器置為O,所述M、N、b為預(yù)先設(shè)置的固定值; 步驟4:將檢測出來的字幕,其中的某一幀,使用OCR技術(shù),識別出文字,將文字與字幕的起始和截止時間,存儲為文本字幕。
2.根據(jù)權(quán)利要求1所述的一種基于字幕檢測與識別的視頻字幕還原方法,其特征在于,所述步驟2包括以下流程: Ca)對于視頻的每一幀圖像,取其底部一小部分來進行分析; (b)視頻字幕通常為白色和藍色,并且有比較強的邊緣;檢測出視頻圖像里的此類區(qū)域,存儲為該幀視頻的字幕候選區(qū)。
【文檔編號】H04N21/81GK104244107SQ201410423647
【公開日】2014年12月24日 申請日期:2014年8月26日 優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】程國艮, 袁翔宇, 王宇晨 申請人:中譯語通科技(北京)有限公司