專利名稱:一種視頻字幕文本提取和識(shí)別的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于模式識(shí)別與計(jì)算機(jī)視覺(jué)領(lǐng)域,特別是涉及視頻圖像中的文本檢測(cè)與識(shí)別的處理方法。
背景技術(shù):
視頻作為一種最為流行的媒體形式,通過(guò)網(wǎng)絡(luò)和電視廣泛傳播。為了使用戶更方便、快捷地尋找到感興趣的視頻內(nèi)容,視頻檢索與分類逐漸成為模式識(shí)別與計(jì)算機(jī)視覺(jué)領(lǐng)域研究的熱點(diǎn)。在這其中,視頻中的文本信息,特別是字幕信息對(duì)于視頻的檢索以及分類效果最為顯著。這是因?yàn)?1)視頻中的文本信息與視頻的當(dāng)前內(nèi)容密切相關(guān);(2)視頻中的字符有非常明顯的視覺(jué)特征,便于提??;C3)字符識(shí)別(OCR)技術(shù)相對(duì)目前的語(yǔ)音識(shí)別和圖像分類技術(shù)更為準(zhǔn)確和成熟。因此,視頻中的文本檢測(cè)與識(shí)別引起了廣泛的興趣。視頻中的文本檢測(cè)與識(shí)別過(guò)程主要包括以下三個(gè)步驟(1)文本檢測(cè)與定位;(2) 文本提?。籆3)字符識(shí)別。其中針對(duì)步驟(1)的研究較多,涌現(xiàn)出了許多適用的方法和技術(shù), 如中國(guó)知識(shí)產(chǎn)權(quán)局2005年8月M日公開(kāi)的公開(kāi)號(hào)為1658227的專利(“檢測(cè)視頻文本的方法和裝置”)主要根據(jù)幀間圖像變化檢測(cè)文本區(qū)域。針對(duì)步驟的技術(shù)相對(duì)較少, 如2008年1月30日公開(kāi)的公開(kāi)號(hào)為101115151的專利(“一種視頻字幕提取的方法”)根據(jù)顏色判斷文字極性并通過(guò)局部二值化提取文字,然后用OCR軟件進(jìn)行識(shí)別。總的來(lái)說(shuō),現(xiàn)有的視頻字幕文字提取和識(shí)別的技術(shù)還不夠完善,主要體現(xiàn)在對(duì)于復(fù)雜多變的背景,特別是與前景顏色相似甚至相同的背景無(wú)法處理;對(duì)于多變的字體,如宋體、黑體、楷體等的適應(yīng)性不強(qiáng);字符識(shí)別采用常規(guī)的OCR方法,對(duì)字符切分和字符圖像噪聲、低分辨率考慮不足。針對(duì)上述未解決的技術(shù)問(wèn)題,本發(fā)明提出了一種有效的用于視頻中字幕區(qū)域文本提取與識(shí)別的方法。
發(fā)明內(nèi)容
本發(fā)明的目的是為了克服視頻中文本的背景顏色復(fù)雜、前景顏色的不確定性、字體多變性和字符切分的不確定性,從而提出了一種對(duì)字體、背景顏色具有魯棒性、并且可以自動(dòng)判斷前景顏色的文本提取和識(shí)別方法,對(duì)視頻字幕文本能夠?qū)崿F(xiàn)快速、準(zhǔn)確的提取、切分與識(shí)別。本發(fā)明提出的一種視頻字幕文本提取和識(shí)別的方法采用的技術(shù)方案為步驟Sl 輸入視頻中字幕區(qū)域的圖像;步驟S2 將輸入圖像轉(zhuǎn)化為灰度圖;步驟S3 判斷字幕區(qū)域中字符排列的方向;步驟S4 如果字幕區(qū)域中字符排列的方向?yàn)樨Q直排列,則將豎直排列的字幕區(qū)域逆時(shí)針旋轉(zhuǎn)90°得到水平字幕區(qū)域;步驟S5 對(duì)字幕區(qū)域進(jìn)行分行得到單行字幕圖像;
步驟S6 對(duì)單行字幕圖像自動(dòng)判斷前景顏色,并得到真實(shí)的單行字幕二值圖像;步驟S7 對(duì)單行字幕二值圖像進(jìn)行過(guò)切分得到字符片段序列;步驟S8 對(duì)過(guò)切分后的單行字幕二值圖像進(jìn)行文本行識(shí)別。本發(fā)明提出的視頻字幕文本提取與識(shí)別方法的有益效果為(1)本發(fā)明提出的方法能同時(shí)處理水平和豎直的視頻字幕文本行;(2)本發(fā)明提出的方法能夠?qū)ψ帜粓D像區(qū)域進(jìn)行自動(dòng)分行,對(duì)多文本行的字幕圖像進(jìn)行處理與識(shí)別;(3)本發(fā)明提出的方法通過(guò)對(duì)單行字幕圖像的連通部件進(jìn)行分析,自動(dòng)確定字符前景顏色并濾除噪聲連通部件,從而得到清晰的字符前景二值化圖像;(4)本發(fā)明提出的方法對(duì)文本行圖像進(jìn)行字符過(guò)切分得到候選切分方式,并結(jié)合候選字符的識(shí)別分?jǐn)?shù)和語(yǔ)言上下文模型對(duì)候選切分方式進(jìn)行評(píng)價(jià),同時(shí)得到字符切分和識(shí)別結(jié)果,避免了字符寬度變化和間隔不均勻以及字符間筆畫(huà)粘連造成的切分錯(cuò)誤。綜合說(shuō)來(lái),本發(fā)明的視頻字幕文字提取和識(shí)別方法能有效分割字幕文本行,準(zhǔn)確判斷字符前景顏色并濾除噪聲,并得到準(zhǔn)確的字符切分與識(shí)別結(jié)果,可以適用于視頻和圖像內(nèi)容編輯、索引與檢索等多種用途。
圖1是本發(fā)明提出的視頻字幕文字提取和識(shí)別方法流程圖。圖2是對(duì)字幕圖像進(jìn)行分行的流程圖。圖3是對(duì)單行字幕圖像進(jìn)行自動(dòng)判斷前景并二值化的流程圖。圖4是對(duì)二值單行字幕圖像進(jìn)行過(guò)切分的流程圖。圖5是本發(fā)明方法的實(shí)現(xiàn)結(jié)構(gòu)圖。圖6是對(duì)單行字圖像進(jìn)行二值化和去噪后的圖像示例。圖7是對(duì)二值單行字幕圖像進(jìn)行過(guò)切分的圖像示例。圖8是對(duì)過(guò)切分后單行二值圖像進(jìn)行識(shí)別中候選切分網(wǎng)格生成的圖像示例。圖9是一幅水平字幕區(qū)域圖像的識(shí)別結(jié)果示例。圖10是一幅豎直字幕區(qū)域圖像的識(shí)別結(jié)果示例。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。本發(fā)明可在個(gè)人電腦、服務(wù)器等計(jì)算設(shè)備上實(shí)現(xiàn)。本發(fā)明采用的技術(shù)方案為將視頻中的字幕區(qū)域進(jìn)行分行,對(duì)每一行自動(dòng)判斷前景顏色并生成二值圖像,對(duì)二值圖像中的字符進(jìn)行切分與識(shí)別,得到最終的文本識(shí)別結(jié)果。 其中對(duì)于視頻中字幕的定位不是本發(fā)明的內(nèi)容,假設(shè)已經(jīng)用別的方法定位得到了字幕區(qū)域。參照?qǐng)D1,本發(fā)明提出的視頻字幕文字提取和識(shí)別方法具體包括以下幾個(gè)主要步驟步驟Sl 輸入視頻中字幕區(qū)域的圖像;
步驟S2 將輸入的圖像轉(zhuǎn)化為灰度圖;將輸入圖像轉(zhuǎn)化為灰度圖的過(guò)程是設(shè)輸入圖像中的每一個(gè)像素點(diǎn)的R、G、B值分別為r、g、b,則變換后的灰度圖中該像素點(diǎn)的灰度值為gray = 0. 299Xr+0. 587Xg+0. 114Xb。步驟S3 判斷字幕區(qū)域中字符排列的方向;對(duì)字幕區(qū)域中字符排列方向進(jìn)行判斷的過(guò)程是比較輸入圖像的長(zhǎng)和寬,當(dāng)輸入圖像的長(zhǎng)大于等于寬時(shí),認(rèn)為字幕是水平排列;當(dāng)寬大于長(zhǎng)時(shí),認(rèn)為字幕是豎直排列。步驟S4 如果字幕區(qū)域中字符排列的方向?yàn)樨Q直排列,則將豎直排列的字幕區(qū)域逆時(shí)針旋轉(zhuǎn)90°得到水平字幕區(qū)域;設(shè)原圖像的寬、高分別為Wp H1, P1 (x, y)為原圖像橫坐標(biāo)為χ、縱坐標(biāo)y的點(diǎn)所對(duì)應(yīng)的灰度值;則旋轉(zhuǎn)后的圖像的寬、高分別為W2 = HpH2 = W1,經(jīng)過(guò)逆時(shí)針旋轉(zhuǎn)90°,P2(X, y) = P1 (y,χ)為旋轉(zhuǎn)后圖像橫坐標(biāo)為χ、縱坐標(biāo)y的點(diǎn)所對(duì)應(yīng)的灰度值。步驟S5 對(duì)字幕區(qū)域進(jìn)行分行得到單行字幕圖像;參照?qǐng)D2,對(duì)字幕區(qū)域進(jìn)行分行的具體過(guò)程包括如下步驟步驟S51 利用Sobel算子求取字幕區(qū)域中每個(gè)像素點(diǎn)的邊緣強(qiáng)度,得到字幕區(qū)域邊緣圖像;步驟S52 利用大津法(Otsu)對(duì)字幕區(qū)域邊緣圖像進(jìn)行二值化得到二值圖像,邊緣圖像中邊緣強(qiáng)度超過(guò)閾值的像素點(diǎn)記為有效邊緣點(diǎn),置為1,否則置為0 ;步驟S53 統(tǒng)計(jì)二值圖像中每一行(指像素行,以下同)的有效邊緣點(diǎn)數(shù);設(shè)二值
圖像的高為H,有效邊緣點(diǎn)總數(shù)為T,設(shè)有效邊緣點(diǎn)數(shù)閾值為
權(quán)利要求
1.一種視頻字幕文本提取和識(shí)別的方法,其特征在于,該方法包括 步驟Sl 輸入視頻中字幕區(qū)域的圖像;步驟S2 將輸入圖像轉(zhuǎn)化為灰度圖; 步驟S3 判斷字幕區(qū)域中字符排列的方向;步驟S4:如果字幕區(qū)域中字符排列的方向?yàn)樨Q直排列,則將豎直排列的字幕區(qū)域逆時(shí)針旋轉(zhuǎn)90°得到水平字幕區(qū)域;步驟S5 對(duì)字幕區(qū)域進(jìn)行分行得到單行字幕圖像;步驟S6 對(duì)單行字幕圖像自動(dòng)判斷前景顏色,并得到真實(shí)的單行字幕二值圖像; 步驟S7 對(duì)單行字幕二值圖像進(jìn)行過(guò)切分得到字符片段序列; 步驟S8 對(duì)過(guò)切分后的單行字幕二值圖像進(jìn)行文本行識(shí)別。
2.如權(quán)利要求1所述的視頻字幕文本提取和識(shí)別方法,其特征在于,步驟S5中對(duì)字幕區(qū)域進(jìn)行分行具體包括如下步驟步驟S51 利用Sobel算子求取字幕區(qū)域中每個(gè)像素點(diǎn)的邊緣強(qiáng)度,得到字幕區(qū)域邊緣圖像;步驟S52 利用大津法Otsu對(duì)字幕區(qū)域邊緣圖像進(jìn)行二值化得到二值圖像; 步驟S53 統(tǒng)計(jì)二值圖像中每一像素行的有效邊緣點(diǎn)數(shù);從所述二值圖像的起始行開(kāi)始,按某一掃描方向逐行進(jìn)行掃描,當(dāng)某行中有效邊緣點(diǎn)數(shù)超過(guò)閾值時(shí),以該行為基準(zhǔn),按掃描方向的反方向倒退三行作為一個(gè)文本行的開(kāi)始,然后按掃描方向跳躍20行,繼續(xù)按掃描方向進(jìn)行掃描;當(dāng)某一行中所含有效邊緣點(diǎn)數(shù)低于閾值時(shí),以該行為基礎(chǔ),按掃描方向前進(jìn)三行作為一個(gè)文本行的結(jié)束;重復(fù)以上過(guò)程,直至掃描完最后一行停止;最后得到了所有的文本行區(qū)域。
3.如權(quán)利要求1所述的視頻字幕文本提取和識(shí)別方法,其特征在于,步驟S6對(duì)單行的字幕區(qū)域自動(dòng)判斷字符前景顏色,并得到真實(shí)的單行字幕二值圖像的具體過(guò)程包括如下步驟步驟S61 對(duì)單行字幕圖像進(jìn)行局部二值化; 步驟S62 計(jì)算兩個(gè)全局閾值高亮度閾值ThH和低亮度閾值ThL ; 步驟S63 對(duì)于單行字幕圖像中的每一個(gè)像素點(diǎn),如果其局部二值化的輸出為1,并且本身灰度值高于高亮度閾值ThH,則記為前景候選1 ;如果其局部二值化的輸出為0,并且本身灰度值低于低亮度閾值IliL,記為前景候選2 ;其他不符合以上條件的像素點(diǎn)不作為前景候選;步驟S64 基于前景候選1和前景候選2分別生成二值圖像,對(duì)每個(gè)二值圖像分別進(jìn)行去噪和是否為真實(shí)前景進(jìn)行打分;分低的二值圖像為最終的單行字幕二值圖像。
4.如權(quán)利要求3所述的視頻字幕文本提取和識(shí)別方法,其特征在于,所述步驟S64中對(duì)兩種前景候選的二值圖像分別進(jìn)行去噪和是否為真實(shí)前景進(jìn)行打分的具體過(guò)程包括如下步驟步驟S641 將所有對(duì)應(yīng)前景候選1或前景候選2、且距離單行字幕圖像邊緣距離大于2 的像素點(diǎn)記為1,其他像素點(diǎn)記為0,生成二值圖像;步驟S642 利用每個(gè)連通部件與背景的顏色對(duì)比度、幾何形狀、位置關(guān)系以及與字符的相似程度等信息,對(duì)步驟S641所得的二值圖像進(jìn)行去噪;步驟S643 對(duì)去噪后得到的二值圖像進(jìn)行形態(tài)打分,得到分值M ; 步驟S644 對(duì)去噪后得到的二值圖像進(jìn)行筆畫(huà)寬度一致性打分,得到分值T ; 步驟S645 最終該二值圖像的前景真實(shí)度分值為TM = 0.6XT+0. 4XM。
5.如權(quán)利要求4所述的視頻字幕文本提取和識(shí)別方法,其特征在于,所述步驟S642中利用每個(gè)連通部件與背景,即標(biāo)記為0的像素點(diǎn),的顏色對(duì)比度、幾何形狀、位置關(guān)系以及與字符的相似程度,對(duì)S641所得的二值圖像進(jìn)行去噪包括如下步驟步驟S6421 從步驟S641得到的的二值圖像中提取連通部件,順序分析和處理每一個(gè)連通部件;步驟S6422 設(shè)第i個(gè)連通部件的toPi為所含像素點(diǎn)縱坐標(biāo)的最小值,bottonii為所含像素點(diǎn)縱坐標(biāo)的最大值,Iefti為所含像素點(diǎn)橫坐標(biāo)的最小值,Hghti為所含像素點(diǎn)橫坐標(biāo)的最大值,單行字幕圖像的行高為h ;步驟S6423 對(duì)第i個(gè)連通部件的每個(gè)邊緣點(diǎn),計(jì)算其與相鄰背景點(diǎn)的灰度值差δ,如果δ >ν,其中,ν為整行圖像像素點(diǎn)灰度值的方差,則將該邊緣點(diǎn)記為合理邊緣點(diǎn);步驟S6424 設(shè)第i個(gè)連通部件所含邊緣點(diǎn)數(shù)為ENi,合理邊緣點(diǎn)數(shù)為RENi,若滿足條件 REN1 Λ c-^r<0·5,則刪除該連通部件; EN1步驟S6425 設(shè)第i個(gè)連通部件的寬、高分別為Wi、hi,若滿足如下條件之一 (Dmax Ov Iii) < 0. 2 Xh Π min^,< 0. IXh, (2) Wi > 2 Xh Π Iii < 0· 4 X h,則刪除該連通部件;步驟S6426 設(shè)第i個(gè)連通部件的垂直中心位置為OZi = tOP‘ + Τ,,若滿足CHi<0. 2Xh U CHi > 0. 8Xh,則刪除該連通部件;步驟S6427 設(shè)第i個(gè)連通部件的平均筆畫(huà)寬度為SWi,所有連通部件筆畫(huà)寬度的平均值為SW,若第i個(gè)連通部件滿足SWi > 1. 5 X SW Π Wi < h,則刪除該連通部件。
6.如權(quán)利要求4所述的視頻字幕文本提取和識(shí)別方法,其特征在于,所述步驟S643中對(duì)去噪后得到的二值圖像進(jìn)行形態(tài)打分,得到分值M的具體過(guò)程包括如下步驟步驟S6431 對(duì)M進(jìn)行初始化,M = 0;步驟S6432 統(tǒng)計(jì)步驟S642去噪處理后所有剩余連通部件的平均高度averageh、平均寬度averagew、最大高度maxh、最大寬度maxw、所有剩余連通部件的總跨度length,如果滿足如下條件之一 (1)剩余連通部件的數(shù)目為0,(2)averagew < 0. 3Xh, (3)averageh<0. 3Xh, (4)maxh < 0· 5Xh,(5)maxw < 0. 5Xh,其中,h為單行字幕圖像的行高,則該二值圖像的形態(tài)打分M為1000 ;步驟S6433 若M興1000,估計(jì)二值圖像中整行字的上邊緣ET,下邊緣EB,有效連通部件的數(shù)目usefulNum,有效連通部件所含像素點(diǎn)數(shù)目的均值averageNum,平均字符寬度 averageWid ;length步驟S6434 如果該二值圖像滿足如下條件之一 (1) usefulNum <0.5x⑵usefulNum > 2x ^^ ,則該二值圖像的形態(tài)打分M為100 ; average Wια步驟S6435 若M乒1000且M乒100,該二值圖像的形態(tài)打分M為averageWid,
7.如權(quán)利要求4所述的視頻字幕文本提取和識(shí)別方法,其特征在于,所述步驟S644中分值T的計(jì)算方法為
8.如權(quán)利要求1所述的視頻字幕文本提取和識(shí)別方法,其特征在于,所述步驟S7中對(duì)單行字幕二值圖像進(jìn)行過(guò)切分的具體過(guò)程包括如下步驟步驟S71 計(jì)算單行字幕二值圖像的行高averageWid,當(dāng)作平均字符高度和平均字符寬度。步驟S72 計(jì)算單行字幕二值圖像在X軸上的投影,將每一個(gè)投影為0的區(qū)間所在X位置作為候選切分點(diǎn);步驟S73 對(duì)于每個(gè)投影不為0的區(qū)間,如果其寬度超過(guò)平均字符寬度的0. 8倍,則對(duì)其進(jìn)行過(guò)切分,在區(qū)間中尋找新的候選切分點(diǎn),在新的候選切分點(diǎn)處再將該區(qū)間分成多個(gè)投影不為0的區(qū)間;步驟S74 每個(gè)投影不為0的區(qū)間的二值圖像看作一個(gè)字符片段,將所有字符片段按從左到右的順序排序。
9.如權(quán)利要求8所述的視頻字幕文本提取和識(shí)別方法,其特征在于,所述步驟S73中對(duì)于投影不為0的區(qū)間進(jìn)行過(guò)切分具體包括如下步驟步驟S731 計(jì)算該區(qū)間中每一像素列的切分置信度
10.如權(quán)利要求1所述的視頻字幕文本提取和識(shí)別方法,其特征在于,所述步驟S8中對(duì)過(guò)切分后的單行字幕二值圖像進(jìn)行文本識(shí)別的具體過(guò)程包括如下步驟步驟S81 從左至右順序考慮每一個(gè)字符片段,將字符片段分別與右邊相鄰的0個(gè)、1個(gè)、2個(gè)、3個(gè)片段合并,合并后構(gòu)成的圖像前景像素左、右、上、下邊界分別表示為 left, right, top, bottom,若該圖像前景像素滿足如下條件,則構(gòu)成一個(gè)候選字符(1) (right-left) < 1. 5Xaverageffid,(2)max(right-lef,bottom-top) > 0. 6Xaverageffid, 其中,averageWid為單行字幕二值圖像的平均字符寬度;將所有候選字符存儲(chǔ)在一個(gè)候選切分網(wǎng)格中,其中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)候選切分位置,從起始節(jié)點(diǎn)到終止節(jié)點(diǎn)的每一條路徑, 即候選切分路徑,表示文本行的一種切分方式,路徑上的每一條邊表示一個(gè)候選字符;步驟S82 用一個(gè)字符分類器對(duì)每個(gè)候選字符進(jìn)行識(shí)別,得到幾個(gè)分?jǐn)?shù)最大的候選類別以及對(duì)應(yīng)的分?jǐn)?shù);步驟S83 對(duì)每一條候選切分路徑,組合不同候選字符的多個(gè)候選類別,得到多條候選切分識(shí)別路徑;對(duì)每一條候選切分識(shí)別路徑進(jìn)行評(píng)價(jià),得到該路徑的評(píng)價(jià)分?jǐn)?shù)。步驟S84 用動(dòng)態(tài)規(guī)劃算法搜索所有的候選切分識(shí)別路徑,分?jǐn)?shù)最高的路徑給出了最終的文本行字符切分和識(shí)別結(jié)果。
全文摘要
本發(fā)明公開(kāi)了一種視頻字幕文本提取和識(shí)別的方法,其步驟包括輸入視頻中字幕區(qū)域的圖像;將輸入圖像轉(zhuǎn)化為灰度圖;判斷字幕區(qū)域中字符排列的方向;將豎直排列的字幕區(qū)域逆時(shí)針旋轉(zhuǎn)90°得到水平字幕區(qū)域;對(duì)字幕區(qū)域進(jìn)行分行得到單行字幕圖像;對(duì)單行字幕區(qū)域圖像自動(dòng)判斷前景顏色,得到單行字幕二值圖像;對(duì)單行字幕二值圖像進(jìn)行過(guò)切分得到字符片段序列;對(duì)過(guò)切分后的單行字幕二值圖像進(jìn)行文本行識(shí)別。本方法能有效分割水平和豎直的視頻字幕文本行,準(zhǔn)確判斷字符前景顏色并濾除噪聲,并得到準(zhǔn)確的字符切分與識(shí)別結(jié)果,可以適用于視頻和圖像內(nèi)容編輯、索引與檢索等多種用途。
文檔編號(hào)G06K9/32GK102332096SQ20111031505
公開(kāi)日2012年1月25日 申請(qǐng)日期2011年10月17日 優(yōu)先權(quán)日2011年10月17日
發(fā)明者劉成林, 殷飛, 白博 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所