一種視頻字幕的提取方法及裝置的制作方法

文檔序號：6375382閱讀：331來源：國知局

專利名稱：一種視頻字幕的提取方法及裝置的制作方法
技術領域：
本發(fā)明涉及圖像處理領域，尤其涉及一種視頻字幕的提取方法及裝置。
背景技術：
隨著數(shù)字化網(wǎng)絡化的發(fā)展，數(shù)字圖像和視頻越來愈多。由于圖片或視頻中的文字能夠提供直接的語義信息，因此，對文字進行檢測有助于理解和管理視頻圖像。比如，檢測和分析圖片中文字內(nèi)容，有助于為不良內(nèi)容圖片過濾和監(jiān)控提供有效的特征；新聞視頻中的標題通常標示的時間地點人物為新聞內(nèi)容分析和檢索提供了支撐，體育比賽視頻中出現(xiàn)的比分、運動員號碼等為視頻內(nèi)容的自動分析、瞬間檢測具有重要作用。同樣，自然場景中的圖像也包含重要的文字信息，如對交通指示牌的內(nèi)容進行分析可幫助外國游客理解中國的交通規(guī)則，通過文字轉(zhuǎn)為語音可以幫助盲人在街道無障礙行走等，因此，對圖片中的文字進行識別后檢索一直都是非常具有意義和挑戰(zhàn)性的工作。由于視頻或圖像中的文字識別存在很多難點，比如，視頻或圖像的背景比較復雜時，對文字的檢測和識別都比較困難。在實際拍攝視頻或圖像時，攝像機的位置姿態(tài)或者物體反光等原因會造成圖片中的文字發(fā)生畸變，同樣會影響檢測和識別。

發(fā)明內(nèi)容
本發(fā)明的實施例提供了一種視頻字幕的提取方法及裝置，通過從圖像增強后的各圖像幀中定位文字區(qū)域，并以顏色聚類的方式提取文字區(qū)域中的文字后識別，不受文字區(qū)域中復雜背景的影響，提高了文字檢測的識別率。為達到上述目的，采用如下技術方案一種視頻字幕的提取方法，包括如下步驟抽取視頻中的圖像幀，將各圖像幀進行疊加平均，則得到邊緣強度圖；在各邊緣強度圖中逐點掃描，統(tǒng)計邊緣強度圖中的筆畫強度，并基于筆畫強度將圖像幀進行二值化；分析所述二值圖中的連通域，從圖像幀中定位出對應的文字區(qū)域；在文字區(qū)域中擬合各顏色通道進行顏色聚類后濾波，從而按得到的類別在含有字幕的文字區(qū)域中提取對應的文字；將所述文字進行OCR識別，得到視頻中的字幕。優(yōu)選的，所述統(tǒng)計邊緣強度圖中的筆畫強度時，統(tǒng)計邊緣強度圖中每個像素點的邊緣強度值，得到圖像幀對應的筆畫強度圖。優(yōu)選的，所述分析所述二值圖中的連通域時，對所述二值圖分別進行水平投影和垂直投影，選取長寬比在O. I至4. 5之間的連通域作為文字區(qū)域。優(yōu)選的，所述從圖像幀中定位出對應的文字區(qū)域時，對二值圖像進行形態(tài)學濾波，濾除連通域中的噪聲。優(yōu)選的，所述擬合各顏色通道進行顏色聚類時，
統(tǒng)計文字區(qū)域中各個顏色通道的直方圖，并根據(jù)所述直方圖中的波峰數(shù)量確定待聚類的類別數(shù)量；按類別數(shù)量用FCM聚類算法進行顏色聚類，將各類別分別進行文字濾波；統(tǒng)計各類別中的非零像素數(shù)，將非零像素數(shù)最多的對應類別圖像作為包含字幕的文字區(qū)域。特別的，所述將各類別分別進行文字濾波后，將與圖像邊緣粘連的連通域為非文字紋理濾除。本發(fā)明還公開了一種視頻字幕的提取裝置，包括如下模塊抽取模塊，用于抽取視頻中的圖像幀，將各圖像幀進行疊加平均，則得到邊緣強度圖；統(tǒng)計模塊，用于在各邊緣強度圖中逐點掃描，統(tǒng)計邊緣強度圖中的筆畫強度，并基于筆畫強度將圖像幀進行二值化；定位模塊，用于分析所述二值圖中的連通域，從圖像幀中定位出對應的文字區(qū)域；提取模塊，用于在文字區(qū)域中擬合各顏色通道進行顏色聚類后濾波，從而按得到的類別在含有字幕的文字區(qū)域中提取對應的文字；識別模塊，用于將所述文字進行OCR識別，得到視頻中的字幕。·優(yōu)選的，所述抽取模塊統(tǒng)計邊緣強度圖中的筆畫強度時，統(tǒng)計邊緣強度圖中每個像素點的邊緣強度值，得到圖像幀對應的筆畫強度圖。優(yōu)選的，所述定位模塊分析所述二值圖中的連通域時，對所述二值圖分別進行水平投影和垂直投影，選取長寬比在O. I至4. 5之間的連通域作為文字區(qū)域。優(yōu)選的，所述提取模塊擬合各顏色通道進行顏色聚類時，統(tǒng)計文字區(qū)域中各個顏色通道的直方圖，并根據(jù)所述直方圖中的波峰數(shù)量確定待聚類的類別數(shù)量；按類別數(shù)量用FCM聚類算法進行顏色聚類，將各類別分別進行文字濾波；統(tǒng)計各類別中的非零像素數(shù)，將非零像素數(shù)最多的對應類別圖像作為包含字幕的文字區(qū)域。本發(fā)明實施例提供的一種視頻字幕的提取方法及裝置，通過從圖像增強后的各圖像幀中定位文字區(qū)域，并以顏色聚類的方式提取文字區(qū)域中的文字后識別，通過顏色聚類在文字區(qū)域中有效地對視頻幀中的文字進行了提取，不受文字區(qū)域中復雜背景的影響，從而提高了字幕的識別效果。

圖I為本發(fā)明實施例一提供的一種視頻字幕的提取方法的流程圖；圖2a、圖2b為本發(fā)明實施例一提供的一種視頻字幕的提取方法視頻截圖求反后得到的筆畫強度圖像；圖3為圖2a對應的圖像幀中形態(tài)學濾波后形成的文字區(qū)域；圖4a為本發(fā)明實施例一提供的一種視頻字幕的提取方法對文字區(qū)域準備進行顏色聚類的原始圖4b為本發(fā)明實施例一提供的一種視頻字幕的提取方法對文字區(qū)域進行顏色聚類后的結(jié)果圖；圖4c為本發(fā)明實施例一提供的一種視頻字幕的提取方法對文字區(qū)域進行連通域分析后剔除非文字連通域的結(jié)果圖；圖5為本發(fā)明實施例二提供的一種視頻字幕的提取裝置的模塊結(jié)構(gòu)圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明實施例一種視頻字幕的提取方法和裝置進行詳細描述。本發(fā)明的實施例一公開了一種視頻字幕的提取方法，如圖I所示，包括如下步驟步驟101、抽取視頻中的圖像幀，將各圖像幀進行疊加平均，則得到邊緣強度圖；本實施例中，提取一段視頻中的各圖像幀，將各圖像幀的像素值進行疊加平均，由于圖像幀中的邊緣像素在相鄰的幾個圖像幀中將保持相對穩(wěn)定，因此各圖像幀疊加平均后，可以得到同一像素位置對應的各邊緣像素的均值，從而有效地將圖像幀中對應的邊緣強度值。步驟102、在各邊緣強度圖中逐點掃描，統(tǒng)計邊緣強度圖中的筆畫強度，并基于筆畫強度將圖像幀進行二值化；所述統(tǒng)計邊緣強度圖中的筆畫強度時，統(tǒng)計邊緣強度圖中每個像素點的邊緣強度值，得到圖像幀對應的筆畫強度圖。由于視頻幀中，筆畫的紋理具有以下特性I)對比度較強；2)筆畫可認為是小于特定寬度的雙邊結(jié)構(gòu)；3)筆畫以0，90，45，135四個角度為主。因此，在選取筆畫強度時，采用下面的做法，筆畫強度DE:(P)的值為 DE: (P)= max {min {fd(ρ- ),Λ (p+w-i)}} -/(ρ) 其中，d為選用的文字強度方向，w為在選用的文字強度方向上寬度，f(p)為圖像P點的灰度值，則逐點掃描圖像上所有點，并按下式給出筆畫強度圖像。
則 DE :i噸P)，ifDE+>)>0
[Ootherwise最終像素P對應的筆畫強度為DE(p)=g^(DErf(P)I，其中，d為四個方向上的
極大值。記原始灰度圖像為F+，并計算F+的筆畫強度圖像P+，考慮到灰度圖像中的文字一般為白底黑字或黑底白字類型，則將原始灰度圖像求反，記為F_，并同理計算F_的筆畫強度圖像P_。如圖2a和圖2b所示，為視頻截圖求反后得到的筆畫強度圖像，從圖中可以看出，視頻中的文字邊緣顯示得非常清晰，能夠?qū)崿F(xiàn)對文字區(qū)域的定位。由于視頻圖像中的文字區(qū)域一般的對比度強，可將筆畫強度圖像P進行二值化，進而實現(xiàn)文字定位。因此，本實施例中，采用基于熵閾值的將筆畫強度圖像P進行二值化。
I、計算圖像各階灰度對應的概率
權利要求
1.一種視頻字幕的提取方法，其特征在于，包括如下步驟抽取視頻中的圖像幀，將各圖像幀進行疊加平均，則得到邊緣強度圖；在各邊緣強度圖中逐點掃描，統(tǒng)計邊緣強度圖中的筆畫強度，并基于筆畫強度將圖像幀進行二值化；分析所述二值圖中的連通域，從圖像幀中定位出對應的文字區(qū)域；在文字區(qū)域中擬合各顏色通道進行顏色聚類后濾波，從而按得到的類別在含有字幕的文字區(qū)域中提取對應的文字；將所述文字進行OCR識別，得到視頻中的字幕。
2.根據(jù)權利要求I所述的方法，其特征在于所述統(tǒng)計邊緣強度圖中的筆畫強度時，統(tǒng)計邊緣強度圖中每個像素點的邊緣強度值，得到圖像幀對應的筆畫強度圖。
3.根據(jù)權利要求I所述的方法，其特征在于所述分析所述二值圖中的連通域時，對所述二值圖分別進行水平投影和垂直投影，選取長寬比在O. I至4. 5之間的連通域作為文字區(qū)域。
4.根據(jù)權利要求I或3所述的方法，其特征在于所述從圖像幀中定位出對應的文字區(qū)域時，對二值圖像進行形態(tài)學濾波，濾除連通域中的噪聲。
5.根據(jù)權利要求I所述的方法，其特征在于所述擬合各顏色通道進行顏色聚類時，統(tǒng)計文字區(qū)域中各個顏色通道的直方圖，并根據(jù)所述直方圖中的波峰數(shù)量確定待聚類的類別數(shù)量；按類別數(shù)量用FCM聚類算法進行顏色聚類，將各類別分別進行文字濾波；統(tǒng)計各類別中的非零像素數(shù)，將非零像素數(shù)最多的對應類別圖像作為包含字幕的文字區(qū)域。
6.根據(jù)權利要求5所述的方法，其特征在于所述將各類別分別進行文字濾波后，將與圖像邊緣粘連的連通域為非文字紋理濾除。
7.一種視頻字幕的提取裝置，其特征在于，包括如下模塊抽取模塊，用于抽取視頻中的圖像幀，將各圖像幀進行疊加平均，則得到邊緣強度圖；統(tǒng)計模塊，用于在各邊緣強度圖中逐點掃描，統(tǒng)計邊緣強度圖中的筆畫強度，并基于筆畫強度將圖像幀進行二值化；定位模塊，用于分析所述二值圖中的連通域，從圖像幀中定位出對應的文字區(qū)域；提取模塊，用于在文字區(qū)域中擬合各顏色通道進行顏色聚類后濾波，從而按得到的類別在含有字幕的文字區(qū)域中提取對應的文字；識別模塊，用于將所述文字進行OCR識別，得到視頻中的字幕。
8.根據(jù)權利要求7所述的裝置，其特征在于所述抽取模塊統(tǒng)計邊緣強度圖中的筆畫強度時，統(tǒng)計邊緣強度圖中每個像素點的邊緣強度值，得到圖像幀對應的筆畫強度圖。
9.根據(jù)權利要求7所述的裝置，其特征在于所述定位模塊分析所述二值圖中的連通域時，對所述二值圖分別進行水平投影和垂直投影，選取長寬比在O. I至4. 5之間的連通域作為文字區(qū)域。
10.根據(jù)權利要求7所述的裝置，其特征在于所述提取模塊擬合各顏色通道進行顏色聚類時，統(tǒng)計文字區(qū)域中各個顏色通道的直方圖，并根據(jù)所述直方圖中的波峰數(shù)量確定待聚類的類別數(shù)量；按類別數(shù)量用FCM聚類算法進行顏色聚類，將各類別分別進行文字濾波；統(tǒng)計各類別中的非零像素數(shù)，將非零像素數(shù)最多的對應類別圖像作為包含字幕的文字區(qū)域。
全文摘要
本發(fā)明實施例公開了一種視頻字幕的提取方法及裝置，屬于圖像處理領域。方法包括將各圖像幀進行疊加平均，則得到邊緣強度圖；在各邊緣強度圖中逐點掃描，統(tǒng)計邊緣強度圖中的筆畫強度，并基于筆畫強度將圖像幀進行二值化；分析二值圖中的連通域定位出對應的文字區(qū)域；在文字區(qū)域中擬合各顏色通道進行顏色聚類后濾波，從而在文字區(qū)域中提取對應的文字，進行OCR識別后得到視頻中的字幕。本發(fā)明通過從圖像增強后的各圖像幀中定位文字區(qū)域，并以顏色聚類的方式提取文字區(qū)域中的文字后識別，通過顏色聚類在文字區(qū)域中有效地對視頻幀中的文字進行了提取，不受文字區(qū)域中復雜背景的影響，從而提高了字幕的識別效果。
文檔編號G06K9/20GK102915438SQ201210297750
公開日2013年2月6日申請日期2012年8月21日優(yōu)先權日2012年8月21日
發(fā)明者徐洪偉, 蘇鵬宇申請人:北京捷成世紀科技股份有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：徐洪偉;蘇鵬宇
技術所有人：北京捷成世紀科技股份有限公司
我是此專利的發(fā)明人

上一篇：單股流螺旋纏繞管式換熱器設計計算方法
上一篇：一種電視節(jié)目中掛角廣告的提取方法及裝置的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種視頻字幕的提取方法及裝置的制作方法