專利名稱:一種視頻字幕的提取方法及裝置的制作方法
技術領域:
本發(fā)明涉及圖像處理領域,尤其涉及一種視頻字幕的提取方法及裝置。
背景技術:
隨著數(shù)字化網(wǎng)絡化的發(fā)展,數(shù)字圖像和視頻越來愈多。由于圖片或視頻中的文字能夠提供直接的語義信息,因 此,對文字進行檢測有助于理解和管理視頻圖像。比如,檢測和分析圖片中文字內(nèi)容,有助于為不良內(nèi)容圖片過濾和監(jiān)控提供有效的特征;新聞視頻中的標題通常標示的時間地點人物為新聞內(nèi)容分析和檢索提供了支撐,體育比賽視頻中出現(xiàn)的比分、運動員號碼等為視頻內(nèi)容的自動分析、瞬間檢測具有重要作用。同樣,自然場景中的圖像也包含重要的文字信息,如對交通指示牌的內(nèi)容進行分析可幫助外國游客理解中國的交通規(guī)則,通過文字轉(zhuǎn)為語音可以幫助盲人在街道無障礙行走等,因此,對圖片中的文字進行識別后檢索一直都是非常具有意義和挑戰(zhàn)性的工作。由于視頻或圖像中的文字識別存在很多難點,比如,視頻或圖像的背景比較復雜時,對文字的檢測和識別都比較困難。在實際拍攝視頻或圖像時,攝像機的位置姿態(tài)或者物體反光等原因會造成圖片中的文字發(fā)生畸變,同樣會影響檢測和識別。
發(fā)明內(nèi)容
本發(fā)明的實施例提供了一種視頻字幕的提取方法及裝置,通過從圖像增強后的各圖像幀中定位文字區(qū)域,并以顏色聚類的方式提取文字區(qū)域中的文字后識別,不受文字區(qū)域中復雜背景的影響,提高了文字檢測的識別率。為達到上述目的,采用如下技術方案一種視頻字幕的提取方法,包括如下步驟抽取視頻中的圖像幀,將各圖像幀進行疊加平均,則得到邊緣強度圖;在各邊緣強度圖中逐點掃描,統(tǒng)計邊緣強度圖中的筆畫強度,并基于筆畫強度將圖像幀進行二值化;分析所述二值圖中的連通域,從圖像幀中定位出對應的文字區(qū)域;在文字區(qū)域中擬合各顏色通道進行顏色聚類后濾波,從而按得到的類別在含有字幕的文字區(qū)域中提取對應的文字;將所述文字進行OCR識別,得到視頻中的字幕。優(yōu)選的,所述統(tǒng)計邊緣強度圖中的筆畫強度時,統(tǒng)計邊緣強度圖中每個像素點的邊緣強度值,得到圖像幀對應的筆畫強度圖。優(yōu)選的,所述分析所述二值圖中的連通域時,對所述二值圖分別進行水平投影和垂直投影,選取長寬比在O. I至4. 5之間的連通域作為文字區(qū)域。優(yōu)選的,所述從圖像幀中定位出對應的文字區(qū)域時,對二值圖像進行形態(tài)學濾波,濾除連通域中的噪聲。優(yōu)選的,所述擬合各顏色通道進行顏色聚類時,
統(tǒng)計文字區(qū)域中各個顏色通道的直方圖,并根據(jù)所述直方圖中的波峰數(shù)量確定待聚類的類別數(shù)量;按類別數(shù)量用FCM聚類算法進行顏色聚類,將各類別分別進行文字濾波;統(tǒng)計各類別中的非零像素數(shù),將非零像素數(shù)最多的對應類別圖像作為包含字幕的文字區(qū)域。特別的,所述將各類別分別進行文字濾波后,將與圖像邊緣粘連的連通域為非文字紋理濾除。本發(fā)明還公開了一種視頻字幕的提取裝置,包括如下模塊抽取模塊,用于抽取視頻中的圖像幀,將各圖像幀進行疊加平均,則得到邊緣強度圖;統(tǒng)計模塊,用于在各邊緣強度圖中逐點掃描,統(tǒng)計邊緣強度圖中的筆畫強度,并基于筆畫強度將圖像幀進行二值化;定位模塊,用于分析所述二值圖中的連通域,從圖像幀中定位出對應的文字區(qū)域;提取模塊,用于在文字區(qū)域中擬合各顏色通道進行顏色聚類后濾波,從而按得到的類別在含有字幕的文字區(qū)域中提取對應的文字;識別模塊,用于將所述文字進行OCR識別,得到視頻中的字幕。·優(yōu)選的,所述抽取模塊統(tǒng)計邊緣強度圖中的筆畫強度時,統(tǒng)計邊緣強度圖中每個像素點的邊緣強度值,得到圖像幀對應的筆畫強度圖。優(yōu)選的,所述定位模塊分析所述二值圖中的連通域時,對所述二值圖分別進行水平投影和垂直投影,選取長寬比在O. I至4. 5之間的連通域作為文字區(qū)域。優(yōu)選的,所述提取模塊擬合各顏色通道進行顏色聚類時,統(tǒng)計文字區(qū)域中各個顏色通道的直方圖,并根據(jù)所述直方圖中的波峰數(shù)量確定待聚類的類別數(shù)量;按類別數(shù)量用FCM聚類算法進行顏色聚類,將各類別分別進行文字濾波;統(tǒng)計各類別中的非零像素數(shù),將非零像素數(shù)最多的對應類別圖像作為包含字幕的文字區(qū)域。本發(fā)明實施例提供的一種視頻字幕的提取方法及裝置,通過從圖像增強后的各圖像幀中定位文字區(qū)域,并以顏色聚類的方式提取文字區(qū)域中的文字后識別,通過顏色聚類在文字區(qū)域中有效地對視頻幀中的文字進行了提取,不受文字區(qū)域中復雜背景的影響,從而提高了字幕的識別效果。
圖I為本發(fā)明實施例一提供的一種視頻字幕的提取方法的流程圖;圖2a、圖2b為本發(fā)明實施例一提供的一種視頻字幕的提取方法視頻截圖求反后得到的筆畫強度圖像;圖3為圖2a對應的圖像幀中形態(tài)學濾波后形成的文字區(qū)域;圖4a為本發(fā)明實施例一提供的一種視頻字幕的提取方法對文字區(qū)域準備進行顏色聚類的原始圖4b為本發(fā)明實施例一提供的一種視頻字幕的提取方法對文字區(qū)域進行顏色聚類后的結(jié)果圖;圖4c為本發(fā)明實施例一提供的一種視頻字幕的提取方法對文字區(qū)域進行連通域分析后剔除非文字連通域的結(jié)果圖;圖5為本發(fā)明實施例二提供的一種視頻字幕的提取裝置的模塊結(jié)構(gòu)圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明實施例一種視頻字幕的提取方法和裝置進行詳細描述。本發(fā)明的實施例一公開了一種視頻字幕的提取方法,如圖I所示,包括如下步驟步驟101、抽取視頻中的圖像幀,將各圖像幀進行疊加平均,則得到邊緣強度圖;本實施例中,提取一段視頻中的各圖像幀,將各圖像幀的像素值進行疊加平均,由于圖像幀中的邊緣像素在相鄰的幾個圖像幀中將保持相對穩(wěn)定,因此各圖像幀疊加平均后,可以得到同一像素位置對應的各邊緣像素的均值,從而有效地將圖像幀中對應的邊緣強度值。步驟102、在各邊緣強度圖中逐點掃描,統(tǒng)計邊緣強度圖中的筆畫強度,并基于筆畫強度將圖像幀進行二值化;所述統(tǒng)計邊緣強度圖中的筆畫強度時,統(tǒng)計邊緣強度圖中每個像素點的邊緣強度值,得到圖像幀對應的筆畫強度圖。由于視頻幀中,筆畫的紋理具有以下特性I)對比度較強;2)筆畫可認為是小于特定寬度的雙邊結(jié)構(gòu);3)筆畫以0,90,45,135四個角度為主。因此,在選取筆畫強度時,采用下面的做法,筆畫強度DE:(P)的值為 DE: (P)= max {min {fd(ρ- ),Λ (p+w-i)}} -/(ρ) 其中,d為選用的文字強度方向,w為在選用的文字強度方向上寬度,f(p)為圖像P點的灰度值,則逐點掃描圖像上所有點,并按下式給出筆畫強度圖像。
則 DE :i噸P),ifDE+>)>0
[Ootherwise最終像素P對應的筆畫強度為DE(p)=g^(DErf(P)I,其中,d為四個方向上的
極大值。記原始灰度圖像為F+,并計算F+的筆畫強度圖像P+,考慮到灰度圖像中的文字一般為白底黑字或黑底白字類型,則將原始灰度圖像求反,記為F_,并同理計算F_的筆畫強度圖像P_。如圖2a和圖2b所示,為視頻截圖求反后得到的筆畫強度圖像,從圖中可以看出,視頻中的文字邊緣顯示得非常清晰,能夠?qū)崿F(xiàn)對文字區(qū)域的定位。由于視頻圖像中的文字區(qū)域一般的對比度強,可將筆畫強度圖像P進行二值化,進而實現(xiàn)文字定位。因此,本實施例中,采用基于熵閾值的將筆畫強度圖像P進行二值化。
I、計算圖像各階灰度對應的概率
權利要求
1.一種視頻字幕的提取方法,其特征在于,包括如下步驟 抽取視頻中的圖像幀,將各圖像幀進行疊加平均,則得到邊緣強度圖; 在各邊緣強度圖中逐點掃描,統(tǒng)計邊緣強度圖中的筆畫強度,并基于筆畫強度將圖像幀進行二值化; 分析所述二值圖中的連通域,從圖像幀中定位出對應的文字區(qū)域; 在文字區(qū)域中擬合各顏色通道進行顏色聚類后濾波,從而按得到的類別在含有字幕的文字區(qū)域中提取對應的文字; 將所述文字進行OCR識別,得到視頻中的字幕。
2.根據(jù)權利要求I所述的方法,其特征在于所述統(tǒng)計邊緣強度圖中的筆畫強度時, 統(tǒng)計邊緣強度圖中每個像素點的邊緣強度值,得到圖像幀對應的筆畫強度圖。
3.根據(jù)權利要求I所述的方法,其特征在于所述分析所述二值圖中的連通域時, 對所述二值圖分別進行水平投影和垂直投影,選取長寬比在O. I至4. 5之間的連通域作為文字區(qū)域。
4.根據(jù)權利要求I或3所述的方法,其特征在于所述從圖像幀中定位出對應的文字區(qū)域時,對二值圖像進行形態(tài)學濾波,濾除連通域中的噪聲。
5.根據(jù)權利要求I所述的方法,其特征在于所述擬合各顏色通道進行顏色聚類時, 統(tǒng)計文字區(qū)域中各個顏色通道的直方圖,并根據(jù)所述直方圖中的波峰數(shù)量確定待聚類的類別數(shù)量; 按類別數(shù)量用FCM聚類算法進行顏色聚類,將各類別分別進行文字濾波; 統(tǒng)計各類別中的非零像素數(shù),將非零像素數(shù)最多的對應類別圖像作為包含字幕的文字區(qū)域。
6.根據(jù)權利要求5所述的方法,其特征在于所述將各類別分別進行文字濾波后, 將與圖像邊緣粘連的連通域為非文字紋理濾除。
7.一種視頻字幕的提取裝置,其特征在于,包括如下模塊 抽取模塊,用于抽取視頻中的圖像幀,將各圖像幀進行疊加平均,則得到邊緣強度圖;統(tǒng)計模塊,用于在各邊緣強度圖中逐點掃描,統(tǒng)計邊緣強度圖中的筆畫強度,并基于筆畫強度將圖像幀進行二值化; 定位模塊,用于分析所述二值圖中的連通域,從圖像幀中定位出對應的文字區(qū)域; 提取模塊,用于在文字區(qū)域中擬合各顏色通道進行顏色聚類后濾波,從而按得到的類別在含有字幕的文字區(qū)域中提取對應的文字; 識別模塊,用于將所述文字進行OCR識別,得到視頻中的字幕。
8.根據(jù)權利要求7所述的裝置,其特征在于所述抽取模塊統(tǒng)計邊緣強度圖中的筆畫強度時,統(tǒng)計邊緣強度圖中每個像素點的邊緣強度值,得到圖像幀對應的筆畫強度圖。
9.根據(jù)權利要求7所述的裝置,其特征在于所述定位模塊分析所述二值圖中的連通域時,對所述二值圖分別進行水平投影和垂直投影,選取長寬比在O. I至4. 5之間的連通域作為文字區(qū)域。
10.根據(jù)權利要求7所述的裝置,其特征在于所述提取模塊擬合各顏色通道進行顏色聚類時, 統(tǒng)計文字區(qū)域中各個顏色通道的直方圖,并根據(jù)所述直方圖中的波峰數(shù)量確定待聚類的類別數(shù)量; 按類別數(shù)量用FCM聚類算法進行顏色聚類,將各類別分別進行文字濾波; 統(tǒng)計各類別中的非零像素數(shù),將非零像素數(shù)最多的對應類別圖像作為包含字幕的文字 區(qū)域。
全文摘要
本發(fā)明實施例公開了一種視頻字幕的提取方法及裝置,屬于圖像處理領域。方法包括將各圖像幀進行疊加平均,則得到邊緣強度圖;在各邊緣強度圖中逐點掃描,統(tǒng)計邊緣強度圖中的筆畫強度,并基于筆畫強度將圖像幀進行二值化;分析二值圖中的連通域定位出對應的文字區(qū)域;在文字區(qū)域中擬合各顏色通道進行顏色聚類后濾波,從而在文字區(qū)域中提取對應的文字,進行OCR識別后得到視頻中的字幕。本發(fā)明通過從圖像增強后的各圖像幀中定位文字區(qū)域,并以顏色聚類的方式提取文字區(qū)域中的文字后識別,通過顏色聚類在文字區(qū)域中有效地對視頻幀中的文字進行了提取,不受文字區(qū)域中復雜背景的影響,從而提高了字幕的識別效果。
文檔編號G06K9/20GK102915438SQ201210297750
公開日2013年2月6日 申請日期2012年8月21日 優(yōu)先權日2012年8月21日
發(fā)明者徐洪偉, 蘇鵬宇 申請人:北京捷成世紀科技股份有限公司