專利名稱:一種視頻字幕信息提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻中的字幕信息提取,特別涉及一種利用視頻語義信息 提取視頻字幕的方法。
背景技術(shù):
近年來,數(shù)字視頻技術(shù)的發(fā)展相當(dāng)迅速,在廣播電視領(lǐng)域逐步取代了 傳統(tǒng)的存儲和發(fā)送模式,在互聯(lián)網(wǎng)上的應(yīng)用更是以驚人的速度得到擴(kuò)展。 數(shù)字視頻具有采集和存取方便、信息量大的優(yōu)勢,但同時也存在數(shù)據(jù)量大、 描述困難的特點(diǎn)。隨著視頻數(shù)據(jù)的海量增長,人們迫切需要先進(jìn)的視頻處 理技術(shù)從而實(shí)現(xiàn)有效的視頻索引,摘要,瀏覽以及檢索。視頻字幕信息因 其相對易于提取,直接表征視頻語義和便于基于文本的視頻檢索等特點(diǎn)而 具有重要的研究和應(yīng)用價值。
現(xiàn)有視頻字幕信息提取方法主要分為三類。第一類為基于連通區(qū)域的 提取方法。該方法可以實(shí)現(xiàn)文本區(qū)域的快速定位和提取,但是對背景復(fù)雜 度非常敏感,魯棒性差。第二類為基于紋理的區(qū)域檢測方法。該算法實(shí)現(xiàn) 起來較筒單,但是由于與字幕具有相近紋理區(qū)域的影響,使得檢測準(zhǔn)確率 較低。第三類是基于邊緣的檢測方法。該方法計算復(fù)雜度低,但是在一定 程度上受視頻分辨率和背景信息的影響。此外,還存在一些通過分類器建 立文字區(qū)域模型的方法,但是該類方法對訓(xùn)練樣本有很強(qiáng)的依賴性,模型 建立比較復(fù)雜。
在上述的基于邊緣的檢測方法中,實(shí)現(xiàn)字幕檢測、提取時所要完成的
基本步驟包括1、預(yù)處理操作;2、字幕區(qū)域檢測操作;3、字幕區(qū)域分 割操作;4、字幕區(qū)域增強(qiáng)操作;5、字幕提取操作;6、文字識別操作。
其中,在字幕區(qū)域檢測時,通常采用機(jī)器學(xué)習(xí)的方法,如支持向量機(jī) 或神經(jīng)網(wǎng)絡(luò)等,這種機(jī)器學(xué)習(xí)的方法需要收集樣本集并且進(jìn)行模型的訓(xùn) 練,如果樣本集選取的不好,可能訓(xùn)練出的模型并不適合現(xiàn)實(shí)中的各種情 況,影響視頻字幕4企測的準(zhǔn)確性。而且字幕區(qū)域^^測中所要完成的多尺度 變換方法一般只采用圖像下采樣的方法,這樣不利于對視頻中的小字體的檢測。
在做字幕區(qū)域增強(qiáng)的過程中,現(xiàn)有技術(shù)通過邊緣圖做匹配,以檢測具 有相同字幕的視頻幀,但由于閾值選擇對邊緣提取的影響很大,所以對不同 幀提取邊緣圖變化較大,很難通過準(zhǔn)確的閾值設(shè)定來檢測具有相同字幕的視頻幀。
而在字幕提取的過程中,現(xiàn)有技術(shù)或者采用基于閾值的方法,或者采用 基于筆畫的方法。無論是采用基于閾值的方法,還是基于筆畫的方法都有各 自的缺陷。例如,基于閾值的方法具有通用性不強(qiáng),對復(fù)雜背景的情況很難 適應(yīng)的缺陷,而基于筆畫的方法則具有筆畫交叉部分很難被找到,從而影響 字幕識別的舉陷。 ,
鑒于現(xiàn)有的視頻字幕提取方法在各個實(shí)現(xiàn)步驟中存在著各自的問題, 而在實(shí)際檢測的各種視頻中又因?yàn)橐韵滤膫€因素制約視頻字幕信息提取
的準(zhǔn)確性和魯棒性1.背景的復(fù)雜度;2.視頻圖像的低分辨率;3.字體, 尺寸,顏色及排列方式等的變化;4.不同語言字符的特性。因此,需要一 種新的視頻字幕提取方法以提高視頻字幕信息提取的準(zhǔn)確性和魯棒性。
發(fā)明內(nèi)容
因此,本發(fā)明的任務(wù)是克服現(xiàn)有的視頻字幕提取方法在字幕區(qū)域檢 測、字幕區(qū)域分割、字幕區(qū)域增強(qiáng)、字幕提取等步驟的實(shí)現(xiàn)上所存在的不 足,從而影響字幕提取的準(zhǔn)確性與魯棒性的缺陷,從而提供一種具有更高 準(zhǔn)確性和魯棒性的視頻字幕提取方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種視頻字幕信息提取方法,包括 以下步驟
步驟1 )、對需要提取字幕的視頻圖像進(jìn)行預(yù)處理;
步驟2)、對預(yù)處理后的視頻圖像進(jìn)行多尺度的字幕區(qū)域檢測,得到代 表字幕區(qū)域大小與位置的矩形塊;
步驟3)、利用所述的矩形塊,對檢測到的字幕區(qū)域進(jìn)行分割;
步驟4)、對分割得到的字幕區(qū)域增強(qiáng)對比度;
步驟5)、采用K均值聚類的方法實(shí)現(xiàn)對字幕的提取。
上述技術(shù)方案中,所述的步驟2)包括以下步驟
步驟21)、對預(yù)處理后的視頻圖像進(jìn)行尺度大小的變換操作,得到多 個不同尺度大小的圖像;步驟22)、對步驟21)所得到的多個不同尺度大小的圖像中的所有象 素點(diǎn)求取邊緣強(qiáng)度;
步驟23)、在各個圖像中,對步驟22)所得到的象素點(diǎn)的邊緣強(qiáng)度做 二值化處理,得到相應(yīng)的邊緣步驟24)、對各個尺度的圖像進(jìn)行字幕區(qū)域粗檢測,得到各個圖像中 字幕所在的大致區(qū)域。
上述技術(shù)方案中,在所述的步驟21)中,對預(yù)處理后的視頻圖像進(jìn)行 尺度大小的變換操作時,同時采用了圖像上釆樣和圖像下采樣的方法,得 到與原圖相比尺度更大與更小的多個變換后圖像。
. 上述技術(shù)方案中,在所述的步驟22)中,所述的求取邊緣強(qiáng)度的過程 中采用了水平和垂直Sobel算子。
上述技術(shù)方案中,在所述的步驟24)中,對各個尺度的圖像進(jìn)行字幕 區(qū)域粗檢測包括以下步驟
步驟241)、為各個尺度圖像的邊緣圖建立DCT圖
步驟242 )、對所得到的DCT圖做連通區(qū)域分析,為DCT圖中的每個連 通區(qū)域得到 一個外接的矩形
步驟243 )、根據(jù)步驟242 )中所得到的外接矩形,實(shí)現(xiàn)對圖像中的字 幕區(qū)i或的啦L纟全測。
上述技術(shù)方案中,在所述的步驟241)中,為各個尺度圖像的邊緣圖 建立DCT圖包括以下步驟
步驟24U)、在一個邊緣圖中,用一個滑動窗口對所述邊緣圖的橫向 和縱向分別進(jìn)行掃描,統(tǒng)計所述滑動窗口中上、下、左、右四個子窗口內(nèi) 的邊緣象素個數(shù)
步驟2412)、計算表示每個窗口邊緣象素分布散度的值n,其中 n = na xnb xnc xnd ;
步驟2413)、建立DCT圖,所述DCT圖中每個象素對應(yīng)一個所述的滑 動窗口,當(dāng)所述n值大于O時,所述DCT圖中的象素值為1,當(dāng)所述n值 為0時,所述DCT圖中的象素值為0。
上述技術(shù)方案中,還可以對所建立的DCT圖進(jìn)行腐蝕處理,去掉孤 立點(diǎn);在腐蝕處理過程中,在DCT圖的水平方向上,對于值為'T,的某 象素點(diǎn),若其左右連續(xù)兩個點(diǎn)象素值都為"0"或者三面相臨象素點(diǎn)值都 為"0",則該點(diǎn)作為孤立點(diǎn),并將其象素值改為"0"。上述技術(shù)方案中,所述的滑動窗口的大小為4x4。
上述技術(shù)方案中,在所述的步驟243 )中,對圖像中的字幕區(qū)域的粗 檢測包括以下步驟
步驟2431 )、將所述DCT圖中的連通區(qū)域的外接矩形對應(yīng)到所述邊緣 圖中的位置,在所述邊緣圖中得到相應(yīng)的矩形;
步驟2432 )、對所述邊緣圖中滿足條件的矩形塊進(jìn)行合并;
步驟2433 )、對所述邊緣圖中的所有矩形塊進(jìn)行尺寸大小的檢測,去 掉尺寸過小的塊;
步驟2434 )、將不同尺度圖像中的檢測結(jié)果都變換到原始尺度的圖像 中,然后再將所有的檢測結(jié)果緣行合并。
上述技術(shù)方案中,在所述的步驟2432)中,所述的合并條件包括
a、 對兩個矩形塊相交的情況,只要相交部分的面積大于0 ,則將兩 個相交的矩形塊進(jìn)行合并;
b、 對兩個矩形塊在垂直方向上投影的結(jié)果有交集,并且它們在水平 方向上距離足夠近的情況,用dl表示兩個塊的水平方向上的距離,d2表 示兩個塊上面的邊在垂直方向上的距離,d3表示兩個塊下面的邊在垂直方 向上的距離,當(dāng)0<dl<8, 0<d2<4, 0<d3<4時,兩個矩形》丸可以合并,其 中的數(shù)值表示象素點(diǎn)的個數(shù);
c、 對于兩個矩形塊在水平方向上投影的結(jié)果有交集,并且它們在垂 直方向上距離足夠近的情況,用d4表示兩個塊在垂直方向上的距離,用 d5表示下方矩形塊的右邊和上方矩形塊的左邊在水平方向上的距離,用 d6表示下方矩形塊的左邊和上方矩形塊的右邊在水平方向上的距離,當(dāng) d4<4, d5>0, d6〉G時,兩個矩形塊可以合并;
d、 對一個矩形塊的右下角和另一個矩形塊的左上角頂點(diǎn)在水平方向 上和垂直方向上距離都足夠近的情況,用d7表示下方矩形塊的上邊和上 方矩形塊的下邊在垂直方向上的距離,用d8表示下方矩形塊的左邊和上 方矩形塊的右邊在水平方向上的距離,當(dāng)0<d7<4, 0<d8<8時,兩個矩形 塊可以合并;
e、 一個矩形塊的右上角和另一個矩形塊的左下角頂點(diǎn)在水平方向上 和垂直方向上距離都足夠近的情況,用d9表示下方矩形塊的上邊和上方 矩形塊的下邊在垂直方向上的距離,d10表示下方矩形塊的右邊和上方矩 形塊的左邊在水平方向上的距離,當(dāng)0<d9<4, 0〈dl(K8時,兩個矩形塊可
ii以合并。
上述技術(shù)方案中,在所述的步驟3)中,所述的對^^測到的字幕區(qū)域
進(jìn)行分割包括以下步驟
步驟31)、為一個圖像中所有字幕區(qū)域所對應(yīng)的矩形塊建立一個隊列 Ll,并建立一個空隊列L2,將所有的矩形塊安放在隊列Ll中;
步驟32)、從所述隊列Ll中取出一個矩形塊,判斷在水平方向是否可 以分割,若水平方向不能分割則將該矩形塊加入所述隊列L2后執(zhí)行下一 步,否則進(jìn)行水平方向的分割;
步驟33)、判斷所述隊列Ll是否為空,若不為空,則對所述隊列Ll 中的矩形塊重復(fù)執(zhí)哲上述的步驟32,否則執(zhí)行下一步; ,
步驟34)、從所述隊列L2中取出一個矩形塊,判斷在垂直方向是否可 以分割,若垂直方向不能分割,則將該矩形塊加入所述隊列Ll后執(zhí)行下 一步,否則進(jìn)行垂直方向的分割;
步驟35)、判斷所述隊列L2是否為空,若為空,則重復(fù)步驟34),否 則執(zhí)行下一步;
步驟36)、判斷在所述隊列Ll中是否還包含水平方向或者垂直方向可 分割的矩形塊,若存在,則進(jìn)入步驟32),否則執(zhí)行下一步;
步驟37)、對經(jīng)過分割操作后的矩形塊根據(jù)合并條件進(jìn)行合并操作;
步驟38)、對當(dāng)前矩形塊的大小進(jìn)行檢查,去掉寬度小于閾值 minTextBlockWidth以及高度大于閾值maxTextBlockHeight的矩形塊。
上述技術(shù)方案中,在所述的步驟32)中,所述的水平方向的分割包括
步驟321)、對矩形塊做水平投影,用HP表示各行象素投影所包含的 值為'T'的象素點(diǎn)數(shù);
步驟3")、找出一個矩形塊中HP的最大值hp,^;
步驟323 )、將HP從大到小排序,計算前1/3個H的算術(shù)平均值A(chǔ)VE1;
步驟324 )、從最大值hPmax在矩形塊中垂直方向上的位置向兩邊找到第 一個小于AVE1的位置yl, y2;
步驟325 )、在yl和y2處做分割操作,中間的部分標(biāo)為水平方向不能 再分割,加入所述隊列L2;
步驟326 )、對除去中間部分后所得到的剩余兩部分,判斷它們的高度 是否大于一個閾值minTextBlockHeight,若是,則加入隊列L2后執(zhí)行步 驟33),若不大于上述閾值,則直接執(zhí)行步驟33)。上述4支術(shù)方案中,所述的閾值minTextBlockHeight的大小為8,單位 為象素點(diǎn)。
上述技術(shù)方案中,在所述的步驟34)中,所述的垂直方向的分割包括 步驟341)、對所述的矩形塊做垂直投影,用V表示各列象素投影所包 含的值為"1"的象素點(diǎn)數(shù);
步驟342 )、計算所述V的算術(shù)平均AVE2;
步驟343 )、對垂直投影從左開始,查找一個點(diǎn),該點(diǎn)應(yīng)滿足它本身和 其后一點(diǎn)的V值都大于三分之一的AVE2且后兩點(diǎn)V值大于二分之一的 AVE2,查找到該點(diǎn)后,該點(diǎn)被設(shè)為開始點(diǎn)xl;
步f聚3")、從xl向右尋找第一個V值小于三分之一的AVE卩且其后4 個連續(xù)點(diǎn)的V值均小于三分之一的AVE2的點(diǎn),該點(diǎn)被設(shè)為結(jié)束點(diǎn)x2;
步驟345 )、從所述的xl和x2處做分割,中間的部分被判定為垂直方 向不能再分割,將中間部分加入隊列Ll;
步驟346 )、對除去中間部分后的余下部分,判斷其寬度是否大于其高 度的1/2,若是則加入隊列Ll后執(zhí)行步驟35 ),否則直接執(zhí)行步驟35 )。
上述技術(shù)方案中,在所述的步驟37)中,所述的合并條件為
當(dāng)兩個塊高度相似,它們的上面的邊在垂直方向上距離相近,而且它 們在水平方向上距離也足夠近時,對這兩個矩形塊做合并操作;其中, Hl,h2表示兩個矩形塊各自的高度。dll表示它們上面的邊在垂直方向上 的距離,d12表示它們在水平方向上的距離,只有當(dāng)同時滿足h1〉3/5 x h2, h2〉3/5xhl, ldll |< ( 1/3 x hl ), ldll |< ( 1/3 x h2 ), Idl2l〈16時,才對 相應(yīng)的矩形塊進(jìn)行合并。
上述技術(shù)方案中,在所述的步驟38 )中,所述閾值maxTextBlockHeight 的值為90,所述闊值minTextBlockWidth的值為60,上述數(shù)值的單位為 象素點(diǎn)。
上述技術(shù)方案中,在所述的步驟4)中,采用二分法查找具有相似字 幕區(qū)域的幀,對所查找到的相似幀的字幕區(qū)域增強(qiáng)對比度。
上述技術(shù)方案中,所述的采用二分法查找具有相似字幕區(qū)域的幀包括 以下步驟
步驟41 )、將視頻的當(dāng)前幀作為參考幀Ref,然后計算第j (j=Ref+Step ) 幀與參考幀Ref的相似度Sim;所述Sim為Ref幀中各字幕候選塊與第j 幀中對應(yīng)區(qū)域的相似度的最大值,所述S t e p為搜索步長;步驟42)、判斷步驟41)所得到的相似度Sim是否大于閾值Tl,若大 于,則進(jìn)入視頻的下一幀,然后重新執(zhí)行步驟41),否則執(zhí)行下一步;
步驟43)、在第(j-Step)幀和第j幀區(qū)間內(nèi)進(jìn)行二分查找,尋找與 參考幀不相似的最小幀號N,然后將從Ref幀到第(N-l)幀的所有幀都判 定為與Ref幀相似的圖像。
上述技術(shù)方案中,在所述的步驟41)中,所述的Ref幀中各字幕候選 塊與第j幀中對應(yīng)區(qū)域的相似度通過直方圖的交進(jìn)行計算。
上述技術(shù)方案中,所述的對所查找到的相似幀的字幕區(qū)域增強(qiáng)對比度 通過將與Ref幀相似的圖像中的字幕區(qū)域的象素點(diǎn)取最小值得到。
上述技術(shù)方案中,在所述的步驟5)中,所述的采用K均值聚類的方 法實(shí)現(xiàn)對字幕的提取包括
首先,設(shè)置K個類的初始聚類中心點(diǎn);
其次,對所有點(diǎn)進(jìn)行聚類,找到距離它們最近的中心點(diǎn),將點(diǎn)歸于相 應(yīng)的類;
接著,根據(jù)聚類結(jié)果修改聚類中心點(diǎn),并重新聚類; 然后,迭代上次操作直到聚類中心不再改變;
最后,將聚類中心值最大一類的所有點(diǎn)的灰度值與其他點(diǎn)的灰度值設(shè) 為不同的值,以實(shí)現(xiàn)字幕與背景間的區(qū)分。 上述技術(shù)方案中,所述的K取值為3。
上述技術(shù)方案中,所述的聚類中心值最大一類的所有點(diǎn)的灰度值設(shè)為 255,其他點(diǎn)的灰度值設(shè)為0。 本發(fā)明的優(yōu)點(diǎn)在于
1、 本發(fā)明的視頻字幕提取方法在字幕區(qū)域檢測的過程中,同時對原 圖采用了上采樣和下采樣的方法,使得在提取字幕時不會受到字體大小的 影響。
2、 本發(fā)明的視頻字幕提取方法在字幕區(qū)域檢測的過程中,不需要進(jìn) 行模型的訓(xùn)練,減少了模型訓(xùn)練不好影響預(yù)測結(jié)果的可能性;提高了識別 準(zhǔn)確率,加快了識別速度。
3、 本發(fā)明的視頻字幕提取方法在字幕區(qū)域增強(qiáng)的過程中,利用二分 法檢測與當(dāng)前幀具有相同字幕的的視頻幀,具有較高的檢測效率;且在檢 測具有相同字幕的視頻幀時,通過對圖像直方圖求交的方法實(shí)現(xiàn)檢測,具 有較高的魯棒性,克服了現(xiàn)有方法采用閾值設(shè)定方式時魯棒性較低的缺
14陷。
4、 本發(fā)明的視頻字幕提取方法在視頻字幕提取的過程中,采用了 K 均值聚類的方法,避免了現(xiàn)有基于閣值或基于筆畫方法所帶來的缺陷。
5、 本發(fā)明的視頻字幕提取方法本身沒有用到基于語言特征、字體大
小、節(jié)目類型的知識,因此不會受到語言類型、字體大小、節(jié)目類型等因 素的影響,具有廣泛的通用性。
以下,結(jié)合附圖來詳細(xì)說明本發(fā)明的實(shí)施例,其中
圖1為本發(fā)明視頻字冪提取方法在一個實(shí)施方式中的流程圖;,
圖2 (a)為本發(fā)明的視頻字幕提取方法在一個實(shí)施方式中所采用的水
平Sobel算子的示意圖;
圖2(b)為本發(fā)明的視頻字幕提取方法在一個實(shí)施方式中所采用的垂
直Sobel算子的示意圖3為本發(fā)明的視頻字幕提取方法在一個實(shí)施方式中進(jìn)行字幕區(qū)域粗
才企測時的合并規(guī)則;
圖4為本發(fā)明的視頻字幕提取方法在一個實(shí)施方式中進(jìn)行字幕區(qū)域分
割時的合并規(guī)則。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明的方法做進(jìn)一 步的說明。 如圖l所示,本發(fā)明的視頻字幕提取方法包括以下步驟 步驟IO、對需要提取字幕的視頻圖像進(jìn)行預(yù)處理。在本實(shí)施方式中, 對視頻圖像的預(yù)處理主要是對視頻圖像提取亮度分量,然后對亮度分量做 灰度化操作。假設(shè)在本實(shí)施方式中的視頻圖像采用RGB方式進(jìn)行編碼, 則對亮度分量Y做灰度化操作時,遵循以下公式
y二0.299i + 0.587G + 0.1145 本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)了解,在YUV或YCrCb空間中,亮度分 量由Y表示,因此可根據(jù)上述公式提取亮度分量,然后進(jìn)行灰度化操作。 而在HIS或HSV空間中,無需提取亮度分量I或V,可直接對亮度分量I 或V進(jìn)行灰度化操作。
步驟20、對預(yù)處理后的視頻圖像進(jìn)行多尺度的字幕區(qū)域粗4全測,從而得到代表字幕區(qū)域大小與位置的矩形塊。在本實(shí)施方式中,初始化操作是 要對視頻圖像做灰度化操作,因此,多尺度的字幕區(qū)域檢測的對象是與視 頻圖像相對應(yīng)的灰度圖。
步驟30、在視頻圖像中對粗檢測到的字幕區(qū)域進(jìn)行分割操作,在分割
操作過程中對步驟20所得到的矩形塊做進(jìn)一步的處理。
步驟40、對分割得到的字幕區(qū)域增強(qiáng)對比度??紤]到視頻中的字幕都 是編輯者人為添加的,而且為了滿足觀眾的需求,字幕都有一定的持續(xù)時 間,通常至少在2秒以上,利用視頻文字在時間上的這一冗余特性對文字 進(jìn)行跟蹤并增強(qiáng)字幕區(qū)域的對比度,對于視頻字幕的提取有很大的作用。 在本實(shí)施方式寧,采用二分法進(jìn)行跟蹤,對于具有相同內(nèi),容的字幕區(qū)域還 要通過最小值方法進(jìn)行融合。
步驟50、采用K均值聚類的方法實(shí)現(xiàn)對字幕進(jìn)行提取。在提取過程 中,對增強(qiáng)對比度后的每個字幕區(qū)域?qū)?yīng)灰度圖中相應(yīng)部分的象素的灰度 值進(jìn)行K均值聚類,然后根據(jù)K均值聚類的結(jié)果區(qū)分文字與背景部分。
步驟60、將上一步驟中所提取的字幕通過現(xiàn)有的技術(shù)實(shí)現(xiàn)字幕識別。
下面對上述步驟的具體實(shí)現(xiàn)過程進(jìn)行詳細(xì)的說明。
在步驟20中,多尺度的字幕區(qū)域檢測具體包括以下步驟
步驟21、采用圖像金字塔的方法對預(yù)處理后的視頻圖像進(jìn)行尺度大小 的變換操作,得到多個不同尺度大小的圖像。變換操作的目的是要克服由 于視頻圖像中所包含的字體大小不一致所造成的對不同大小的字幕在檢 測準(zhǔn)確率上的偏差。在現(xiàn)有技術(shù)中, 一般采用圖像下采樣的方式實(shí)現(xiàn)圖像 的多尺度變換,因此只能得到尺度大小較原圖更小的變換后圖像。但在實(shí) 際應(yīng)用中,若原圖中的字體可能太小,則只采用圖像下采樣的方式進(jìn)行圖 像變換不利于對字體的檢測,因此本步驟在進(jìn)行圖像尺度大小的變換時同 時采用了圖像上采樣和圖像下采樣的方法,從而得到與原圖相比尺度更大 與更小的多個變換后圖像。
在本實(shí)施方式中,假設(shè)初始化后的視頻圖像是一幅尺寸為WxH的圖 像,采用Sha皿on插值方法將其分別變換為尺寸為2W x 2H的圖像和0. 5W x 0. 5H的圖像。本實(shí)施方式中所釆用的Shannon插值方法是成熟的現(xiàn)有技術(shù), 可參見參考文南史l: "Text Enhancement in Digital Video, HuipingLi, Omid Kia, David Doermann, Proc. of SPIE Document Recognition and Retrieval VI, 1999"。本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)了解,在變換過程中也可以采用其他類型的插值方法。
步驟22、選取水平和垂直Sobel算子,對步驟21所得到的不同尺度圖 像中的象素點(diǎn)求取邊緣強(qiáng)度。
在本實(shí)施方式中,所采用的水平和垂直Sobel算子大小為3x3,在圖 2中對這兩個算子做了具體的說明,上述兩個算子都可以增強(qiáng)邊緣部分, 濾去非邊緣部分,其中的水平Sobel算子可以保留橫向內(nèi)容,而垂直Sobel 算子可以保留豎向內(nèi)容。利用水平Sobel算子可得到水平邊緣強(qiáng)度h (x, y), 利用垂直Sobel算子可以得到垂直邊緣強(qiáng)度v(x,y),通過下列公式計算點(diǎn) 的邊緣強(qiáng)度e(x,y):
步驟23、在各個圖像中,對步驟22中所得到的象素點(diǎn)的邊緣強(qiáng)度做 二值化處理,得到相應(yīng)的邊緣圖。在本實(shí)施方式中,從前面的描述可以知 道, 一幅視頻圖像在尺度變換后可以得到三幅圖像,對這三幅圖像中的象 素點(diǎn)的邊緣強(qiáng)度都要做二值化處理,從而得到三幅對應(yīng)的邊緣圖。上述的 二值化處理通過設(shè)定閾值的方法實(shí)現(xiàn)。二值化處理方法的具體實(shí)現(xiàn)如下 首先計算邊緣強(qiáng)度圖的灰度直方圖,該圖包含256bin,選取最大的bin對 應(yīng)的灰度值的三分之一作為閣值;對于邊緣強(qiáng)度圖中灰度值大于閾值的象 素點(diǎn),其灰度值設(shè)為'T,;否則,灰度值設(shè)為"0",從而實(shí)現(xiàn)圖像的二值 化,獲得邊緣圖。
步驟24、對各個尺度的圖像進(jìn)行字幕區(qū)域粗檢測,得到各個圖像中字 幕所在的大致區(qū)域。本步驟的具體操作如下
步驟24-l、為各個尺度圖像的邊緣圖建立DCT圖。它包括以下操作
24-1-1、在一個邊緣圖中,用大小為4x4的滑動窗口對邊緣圖的橫 向和縱向分別以步長為4進(jìn)行掃描,統(tǒng)計窗口內(nèi)上、下、左、右四個2x2 子窗口內(nèi)的邊緣象素個數(shù)~, nb, iv nd。
24-1-2、計算表現(xiàn)每個窗口邊緣象素分布散度的值n,它的計算公式 如下
24-1-3、建立DCT圖,所建立的DCT圖的寬和高均為原圖寬和高的1/4, 該圖每個象素對應(yīng)上述一個4 x 4大小的窗口 , DCT圖中的象素值d的判斷 方式如下<formula>formula see original document page 18</formula>
24-1-4、對所得到的DCT圖進(jìn)行腐蝕處理,在腐蝕處理過程中按下面 的規(guī)則去掉孤立點(diǎn)在水平方向上,對于值為"1"的某象素點(diǎn),若其左 右連續(xù)兩個點(diǎn)象素值都為"0"或者三面相臨象素點(diǎn)值都為"Q",則該點(diǎn) 作為孤立點(diǎn),并將其象素值改為"0"。
步驟24-2、對所得到的DCT圖做連通區(qū)域分析,為DCT圖中的每個連 通區(qū)域得到一個外接的矩形。在本步驟中,在連通區(qū)域分析時采用了現(xiàn)有 技術(shù),在本實(shí)施方式中,可以采用序貫法,關(guān)于序貫法的相關(guān)技術(shù)細(xì)節(jié)可 參見參考文獻(xiàn)2 "計算機(jī)視覺,賈云得,北京科學(xué)出版社,2000。,,
步驟24-3、對圖像中的字幕區(qū)域進(jìn)行粗檢測,在粗檢測過程中,應(yīng)當(dāng) 盡可能的選取包含字幕的區(qū)域。粗檢測操作的具體實(shí)現(xiàn)如下
步驟24-3-1 、將DCT圖中的連通區(qū)域的外接矩形對應(yīng)到邊緣圖中的位 置,在邊緣圖中得到相應(yīng)的矩形。設(shè)外接矩形左上,右上,左下,右下四 個頂點(diǎn)的坐標(biāo)為(xl, yl ), (xl,y2), (x2, yl) , (x2, y2),則在原圖中的 對應(yīng)的矩形四個頂點(diǎn)的坐標(biāo)分別為(xl x 4, yl x 4 ), (xlx4,y2x4), (x2 x4,ylx4), (x2x4,y2x4)。本步驟中,之所以要將坐標(biāo)值乘以4,是因 為在生成DCT的過程中,邊緣圖中每4個象素對應(yīng)生成DCT圖中的一個象 素。
步驟24-3_2、對邊緣圖中滿足條件的矩形塊進(jìn)行合并。在圖3中,對 矩形塊的合并條件進(jìn)行了說明。對于如圖3 (a)、圖3 (b)那樣兩個矩形 塊相交的情況,只要相交部分(圖中的陰影部分)的面積大于0 ,則可將 兩個相交的矩形塊進(jìn)行合并。對于如圖3(c)那樣兩個矩形塊在垂直方 向上投影的結(jié)果有交集,并且它們在水平方向上距離足夠近(如dl<8)的 情況,用dl表示兩個塊的水平方向上的距離,d2表示兩個塊上面的邊在 垂直方向上的距離,d3表示兩個塊下面的邊在垂直方向上的距離,當(dāng) 0<dl<8, 0<d2<4, (Kd3〈4時,兩個矩形塊可以合并,其中的數(shù)值表示象素 點(diǎn)的個數(shù)。對于如圖3(d)那樣兩個塊在水平方向上投影的結(jié)果有交集, 并且它們在垂直方向上距離足夠近的情況,用d4表示兩個塊在垂直方向 上的距離,用d5表示下面的塊的右邊和上面的塊的左邊在水平方向上的 距離,用d6表示下面的塊的左邊和上面的塊的右邊在水平方向上的距離。 當(dāng)d4<4, d5>0, d6>0時,兩個矩形塊可以合并。對于如圖3(e)那樣一個塊的右下角和另一個塊的左上角頂點(diǎn)在水平方向上和垂直方向上距離 都足夠近的情況,用d7表示下面的塊的上邊和上面的塊的下邊在垂直方
向上的距離,用d8表示下面的塊的左邊和上面的塊的右邊在水平方向上 的距離。當(dāng)0<d7<4, 0<d8<8時,兩個矩形塊可以合并。對于如圖3(f) 那樣一個塊的右上角和另一個塊的左下角頂點(diǎn)在水平方向上和垂直方向 上距離都足夠近的情況,用d9表示下面的塊的上邊和上面的塊的下邊在 垂直方向上的距離,d10表示下面的塊的右邊和上面的塊的左邊在水平方 向上的距離。當(dāng)0<d9<4, (Kdl(K8時,兩個矩形塊可以合并。
步驟24-3-3、對邊緣圖中的所有矩形塊進(jìn)行尺寸大小的^^測,去掉尺 寸過小的塊。在本實(shí)癡方式中,對于寬度小于12個象素的塊并,且高度小 于8個象素的塊進(jìn)行刪除。
步驟24-3-4、對圖像中的文字區(qū)域進(jìn)行合并操作。在合并操作前,首 先要將不同尺度圖像的邊緣圖中的檢測結(jié)果都變換到原始尺度的圖像的 邊緣圖中,然后再將所有的檢測結(jié)果進(jìn)行合并。在本實(shí)施方式中,將尺度 大小為2W x 2H的圖像和0. 5W x 0. 5H的圖像都變換到W x H的尺度,此時, 這些圖像中的矩形塊的尺寸大小也做相應(yīng)的變換。在合并操作時,結(jié)合步驟 24-3-2中涉及的合并條件,采用"或"操作實(shí)現(xiàn)矩形塊的合并。
在步驟30中,對粗檢測到的字幕區(qū)域進(jìn)行分割的具體實(shí)現(xiàn)過程如下
步驟31、為一個圖像中所有字幕區(qū)域所對應(yīng)的矩形塊建立一個隊列 Ll,并建立一個空隊列L2,將所有的矩形塊安放在隊列Ll中;
步驟32、從隊列Ll中取出一個矩形塊,判斷在水平方向是否可以分 割,若水平方向不能分割則將該矩形塊加入隊列L2后執(zhí)行下一步,否則 進(jìn)行水平方向的分割。水平方向分割的實(shí)現(xiàn)方法為
步驟32-1、對矩形塊做水平投影,用HP ( Horizontal Projection, 水平投影)表示各行象素投影所包含的值為"1"的象素點(diǎn)數(shù);
步驟32-2、找出一個圖像中HP的最大值hp,;
步驟32-3、將HP從大到小排序,計算前1/3個H的算術(shù)平均值A(chǔ)VE1;
步驟32-4、從最大值hp^在矩形塊中垂直方向上的位置向兩邊找到第 一個小于AVE1的位置yl, y2;
步驟32-5、在yl和y2處做分割操作,中間的部分標(biāo)為水平方向不能 再分割,加入隊列L2;
步驟32-6、對除去中間部分后所得到的剩余兩部分,判斷它們的高度
19是否大于一個閾值minTextBlockHeight,若是,則加入隊列L2后執(zhí)行下 一步,若不大于上述閾值,則直接執(zhí)行下一步。在本步驟中,所述的閾值 minTextBlockHeight是一個根據(jù)實(shí)驗(yàn)得到的經(jīng)-險值,常見的耳又值范圍為 7-9。
步驟33、判斷隊列Ll是否為空,若不為空,則對隊列Ll中的矩形塊 重復(fù)執(zhí)行上述的步驟32,否則執(zhí)行下一步;
步驟34、從隊列L2中取出一個矩形塊,判斷在垂直方向是否可以分 割,若垂直方向不能分割,則將該矩形塊加入隊列Ll后執(zhí)行下一步,否 則進(jìn)行垂直方向的分割。垂直方向分割的實(shí)現(xiàn)方法為
步驟.34-1、對矩形塊做垂直投影,用V表示各列,象素投影所包含的值 為"1"的象素點(diǎn)數(shù);
步驟34-2、計算V的算術(shù)平均AVE2;
步驟34-3、對垂直投影從左開始,查找一個點(diǎn),該點(diǎn)應(yīng)滿足它本身和 其后一點(diǎn)的V值都大于三分之一的AVE2且后兩點(diǎn)V值大于二分之一的 AVE2,查找到該點(diǎn)后,該點(diǎn):故設(shè)為開始點(diǎn)xl;
步驟34-4、從xl向右尋找第一個V值小于三分之一的AVE2且其后4 個連續(xù)點(diǎn)的V值均小于三分之一的AVE2的點(diǎn),該點(diǎn)被設(shè)為結(jié)束點(diǎn)x2;
步驟34-5、從xl和x2處做分割,中間的部分被判定為垂直方向不能 再分割,將中間部分加入隊列Ll;
步驟34-6、對除去中間部分后的余下部分,判斷其寬度是否大于其高 度的1/2,若是則加入隊列Ll后執(zhí)行下一步,否則直接執(zhí)行下一步;
步驟35、判斷隊列L2是否為空,若為空,則重復(fù)步驟34,否則執(zhí)行
下一步;
步驟36、判斷在隊列Ll中是否還包含水平方向或者垂直方向可分割 的矩形塊,若存在,則進(jìn)入步驟32,否則執(zhí)行下一步;
步驟37、對經(jīng)過分割操作后的矩形塊進(jìn)行合并操作,圖4對合并時應(yīng) 滿足的條件進(jìn)行了說明。當(dāng)兩個塊高度相似,它們的上面的邊在垂直方向 上距離相近,而且它們在水平方向上距離也足夠近時,這兩個塊^[艮可能是 同一行字被分割成兩段的情況,此時對這兩個矩形塊可做合并操作。其中, Hl,h2表示兩個矩形塊各自的高度。dll表示它們上面的邊在垂直方向上 的距離,d12表示它們在水平方向上的距離。只有當(dāng)同時滿足h1〉3/5 x h2, h2〉3/5xhl, ldll |< ( 1/3 x hl ), |dll|< ( 1/3 x h2 ), Idl2l〈16時,才對相應(yīng)的矩形塊進(jìn)行合并。
步驟38、對當(dāng)前矩形塊的大小進(jìn)行檢查,去掉寬度小于閾值 minTextBlockWidth以及高度大于閾^f直maxTextBlockHeight的頭巨形》夾。在 本實(shí)施方式中,閾值minTextBlockHeight = 8, maxTextBlockHeight = 90, minTextBlockWidth = 60,上述數(shù)值的單位為象素點(diǎn)。
在步驟4Q中,對分割得到的字幕區(qū)域增強(qiáng)對比度的具體實(shí)現(xiàn)如下
步驟41、將視頻的當(dāng)前幀作為參考幀Ref,然后計算第j (j=Ref+Step) 幀與參考幀Ref的相似度Sim。
其中,Sim為Ref幀中各字幕候選塊(即前一步驟所得到的矩形塊) 與第j幀中對應(yīng)區(qū)域的相似度的最大值。,各字幕候選塊與第j幀中對應(yīng)區(qū) 域的相似度可通過直方圖的交進(jìn)行計算,具體實(shí)現(xiàn)方法可參見參考文獻(xiàn)3: "網(wǎng)上多媒體信息分析與檢索,莊越挺,潘云鶴,吳飛,北京清華大學(xué) 出版社,2002"。在本步驟中所涉及的Step為搜索步長,本實(shí)施方式中選 擇Step為20。
步驟42、判斷步驟41所得到的相似度Sim是否大于閾值Tl,若大于, 則進(jìn)入視頻的下一幀,然后重新執(zhí)行步驟41,否則執(zhí)行下一步;本步驟中 的Tl通過試一瞼得到,其取值在0. 7至0. 9之間。
步驟43、在第(j-Step)幀和第j幀區(qū)間內(nèi)進(jìn)行二分查找,尋找與參 考幀不相似的最小幀號N,然后將從Ref幀到第(N-l )幀的所有幀都判定 為與Ref幀相似的圖像。在本步驟中,所述的與參考幀不相似的情況是指 相似度Sim小于或等于閾值Tl的情況。在本步驟中所采用的二分查找方 法屬于現(xiàn)有技術(shù),在本領(lǐng)域中具有廣泛的應(yīng)用,其具體的實(shí)現(xiàn)細(xì)節(jié)可參見 參考文獻(xiàn)4: "C算法(第一巻基礎(chǔ)、數(shù)據(jù)結(jié)構(gòu)、排序和搜索),Robert Sedgewick,人民郵電出版j土, 2004。"
步驟44、將與Ref幀相似的圖像中的字幕區(qū)域的象素點(diǎn)取最小值,以 增強(qiáng)字幕與背景間的對比度。
由于在一定時間內(nèi),視頻圖像中的字幕是靜止的,而大部分背景物體 是運(yùn)動的,所以對于各幀相同位置的象素點(diǎn),若它屬于背景,則變化較大, 若屬于字幕,則變化較小。通常字幕象素點(diǎn)的亮度高于背景物體,所以將 Ref幀到第(N-l )幀相同位置的象素點(diǎn)取最小值來增強(qiáng)字幕與背景的對比 度。在本步驟中,之所以要對象素點(diǎn)取最小值,是因?yàn)樵趯?shí)際應(yīng)用中,視 頻字幕通常為高亮度的。在步驟50中,K均值聚類的目的是有利于字幕與背景的分割。在做 K值聚類時,首先人為設(shè)置k個類的初始聚類中心點(diǎn),對所有點(diǎn)進(jìn)行聚類, 即找到距離它們最近的中心點(diǎn),然后歸入該類,再根據(jù)聚類結(jié)果修改聚類 中心點(diǎn),重新聚類,如此迭代直到聚類中心不再改變(或者滿足其他設(shè)定 的條件)。本實(shí)施方式中,K取值為3, K值聚類的具體實(shí)現(xiàn)方法可以參見 參考文獻(xiàn)5:"模式分類,Richard 0. Duda, Perter E. Hart等,北京機(jī) 械工業(yè)出版社,2005。"在本實(shí)施方式中,認(rèn)為聚類中心灰度值最大的那 一類做為文字,而其余類的點(diǎn)都是背景點(diǎn)。因此,在提取字幕時,將聚類 中心值最大一類的所有點(diǎn)的灰度值設(shè)為255,其他點(diǎn)的灰度值設(shè)為0,這 樣做即可實(shí)現(xiàn)字幕與背景的區(qū)分。
在步驟60中,對字幕一識別可采用本領(lǐng)域的現(xiàn)有技術(shù),在本實(shí)施'方 式中,可采用漢王^^司開發(fā)的OCR軟件"HWSDK1.2"進(jìn)行字幕識別。
最后所應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制。 盡管參照實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理 解,對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案 的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1、一種視頻字幕信息提取方法,包括以下步驟步驟1)、對需要提取字幕的視頻圖像進(jìn)行預(yù)處理;步驟2)、對預(yù)處理后的視頻圖像進(jìn)行多尺度的字幕區(qū)域檢測,得到代表字幕區(qū)域大小與位置的矩形塊;步驟3)、利用所述的矩形塊,對檢測到的字幕區(qū)域進(jìn)行分割;步驟4)、對分割得到的字幕區(qū)域增強(qiáng)對比度;步驟5)、采用K均值聚類的方法實(shí)現(xiàn)對字幕的提取。
2、 根據(jù)權(quán)利要求1所述的視頻字幕信息提取方法,其特征在于,所 述的步驟2)包括以下步驟步驟21)、對預(yù)處理后的視頻圖像進(jìn)行尺度大小的變換操作,得到多 個不同尺度大小的圖像;步驟22)、對步驟21)所得到的多個不同尺度大小的圖像中的所有象 素點(diǎn)求取邊緣強(qiáng)度;步驟23)、在各個圖像中,對步驟22)所得到的象素點(diǎn)的邊緣強(qiáng)度做 二值化處理,得到相應(yīng)的邊緣圖;步驟24)、對各個尺度的圖像進(jìn)行字幕區(qū)域粗檢測,得到各個圖像中 字幕所在的大致區(qū)域。
3、 根據(jù)權(quán)利要求2所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟21)中,對預(yù)處理后的視頻圖像進(jìn)行尺度大小的變換操作時, 同時采用了圖像上采樣和圖像下采樣的方法,得到與原圖相比尺度更大與 更小的多個變換后圖像。
4、 根據(jù)權(quán)利要求2所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟22 )中,所述的求取邊緣強(qiáng)度的過程中采用了水平和垂直Sobe 1 算子。
5、 根據(jù)權(quán)利要求2所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟24 )中,對各個尺度的圖像進(jìn)行字幕區(qū)域粗檢測包括以下步驟步驟241)、為各個尺度圖像的邊緣圖建立DCT圖 步驟242 )、對所得到的DCT圖做連通區(qū)域分析,為DCT圖中的每個連 通區(qū)域得到 一 個外接的矩形步驟243 )、根據(jù)步驟242 )中所得到的外接矩形,實(shí)現(xiàn)對圖像中的字幕區(qū)域的粗;險測。
6、 根據(jù)權(quán)利要求5所述的視頻字幕信息提取方法,其特征在于,在所述的步驟241 )中,為各個尺度圖像的邊緣圖建立DCT圖包括以下步驟 步驟24U)、在一個邊緣圖中,用一個滑動窗口對所述邊緣圖的橫向和縱向分別進(jìn)行掃描,統(tǒng)計所述滑動窗口中上、下、左、右四個子窗口內(nèi)的邊緣象素個數(shù) ,nb, n。, nd;步驟2412)、計算表示每個窗口邊緣象素分布散度的值n,其中 n = na xnb xnc x nd ;步驟2413)、建立DCT圖,所述DCT圖中每個象素對應(yīng)一個所述的滑 動窗口,當(dāng)所述n值大于O時,所述DCT,圖中的象素值為1,當(dāng)所述n值 為0時,所述DCT圖中的象素值為0。
7、 根據(jù)權(quán)利要求6所述的視頻字幕信息提取方法,其特征在于,還可以對所建立的DCT圖進(jìn)行腐蝕處理,去掉5^立點(diǎn);在腐蝕處理過程中,在DCT圖的水平方向上,對于值為"1"的某象素點(diǎn),若其左右連續(xù)兩個點(diǎn)象素值都為"0"或者三面相臨象素點(diǎn)值都為"0",則該點(diǎn)作為孤立點(diǎn), 并將其象素值改為"0"。
8、 根據(jù)權(quán)利要求6或7所述的視頻字幕信息提取方法,其特征在于, 所述的滑動窗口的大小為4x4。
9、 根據(jù)權(quán)利要求5所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟243 )中,對圖像中的字幕區(qū)域的粗檢測包括以下步驟步驟2431 )、將所述DCT圖中的連通區(qū)域的外接矩形對應(yīng)到所述邊緣圖中的位置,在所述邊緣圖中得到相應(yīng)的矩形;步驟2432 )、對所述邊緣圖中滿足條件的矩形塊進(jìn)行合并; 步驟2433 )、對所述邊緣圖中的所有矩形塊進(jìn)行尺寸大小的檢測,去掉尺寸過小的塊;步驟2434 )、將不同尺度圖像中的檢測結(jié)果都變換到原始尺度的圖像 中,然后再將所有的檢測結(jié)果進(jìn)行合并。
10、 根據(jù)權(quán)利要求9所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟2432)中,所述的合并條件包括a、 對兩個矩形塊相交的情況,只要相交部分的面積大于0 ,則將兩 個相交的矩形塊進(jìn)行合并;b、 對兩個矩形塊在垂直方向上投影的結(jié)果有交集,并且它們在水平方向上距離足夠近的情況,用dl表示兩個塊的水平方向上的距離,d2表示兩個塊上面的邊在垂直方向上的距離,d3表示兩個塊下面的邊在垂直方 向上的距離,當(dāng)0<dl<8, 0<d2<4, 0<d3<4時,兩個矩形塊可以合并,其 中的數(shù)值表示象素點(diǎn)的個數(shù);c、 對于兩個矩形塊在水平方向上投影的結(jié)果有交集,并且它們在垂 直方向上距離足夠近的情況,用d4表示兩個塊在垂直方向上的距離,用 d5表示下方矩形塊的右邊和上方矩形塊的左邊在水平方向上的距離,用 d6表示下方矩形塊的左邊和上方矩形塊的右邊在水平方向上的距離,當(dāng) d4<4, d5〉0, d6〉0時,兩個矩形塊可以合并;d、 對一個矩形塊的右下角和另一個矩形塊的左上角頂點(diǎn)在水平方向 上和垂直方向上距離都足夠近的情況,用d7表示下方矩形塊的上邊和上 方矩形塊的下邊在垂直方向上的距離,用d8表示下方矩形塊的左邊和上 方矩形塊的右邊在水平方向上的距離,當(dāng)0<d7<4, 0<d8<8時,兩個矩形 塊可以合并;e、 一個矩形塊的右上角和另一個矩形塊的左下角頂點(diǎn)在水平方向上 和垂直方向上距離都足夠近的情況,用d9表示下方矩形塊的上邊和上方 矩形塊的下邊在垂直方向上的距離,d10表示下方矩形塊的右邊和上方矩 形塊的左邊在水平方向上的距離,當(dāng)0<d9<4, 0<dl0<8時,兩個矩形塊可 以合并。
11、根據(jù)權(quán)利要求1所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟3)中,所述的對檢測到的字幕區(qū)域進(jìn)行分割包括以下步驟步驟31)、為一個圖像中所有字幕區(qū)域所對應(yīng)的矩形塊建立一個隊列 Ll,并建立一個空隊列L2,將所有的矩形塊安放在隊列Ll中;步驟32)、從所述隊列Ll中取出一個矩形塊,判斷在水平方向是否可 以分割,若水平方向不能分割則將該矩形塊加入所述隊列L2后執(zhí)行下一 步,否則進(jìn)行水平方向的分割;步驟33)、判斷所述隊列Ll是否為空,若不為空,則對所述隊列Ll 中的矩形塊重復(fù)執(zhí)行上述的步驟32,否則執(zhí)行下一步;步驟34)、從所述隊列L2中取出一個矩形塊,判斷在垂直方向是否可 以分割,若垂直方向不能分割,則將該矩形塊加入所述隊列Ll后執(zhí)行下 一步,否則進(jìn)行垂直方向的分割;步驟35)、判斷所述隊列L2是否為空,若為空,則重復(fù)步驟34),否則執(zhí)行下一步;步驟36 )、判斷在所述隊列Ll中是否還包含水平方向或者垂直方向可 分割的矩形塊,若存在,則進(jìn)入步驟32),否則執(zhí)行下一步;步驟37)、對經(jīng)過分割操作后的矩形塊根據(jù)合并條件進(jìn)行合并操作; 步驟38)、對當(dāng)前矩形塊的大小進(jìn)行檢查,去掉寬度小于閾值 minTextBlockWidth以及高度大于閾值maxTextBlockHeight的矩形塊。
12、 根據(jù)權(quán)利要求11所述的視頻字幕信息提取方法,其特征在于, 在所述的步驟32)中,所述的水平方向的分割包括步驟321)、對矩形塊做水平投影,用HP表示各行象素投影所包含的 值為"1"的象素,點(diǎn)數(shù);步驟3")、找出一個矩形塊中HP的最大值hp隱;步驟32 3 )、將HP從大到小排序,計算前1/3個H的算術(shù)平均值A(chǔ)VE1;步驟324 )、從最大值hPmax在矩形塊中垂直方向上的位置向兩邊找到第 一個小于AVE1的位置yl, y2;步驟325 )、在yl和y2處做分割操作,中間的部分標(biāo)為水平方向不能 再分割,加入所述隊列L2;步驟326 )、對除去中間部分后所得到的剩余兩部分,判斷它們的高度 是否大于一個閾值minTextBlockHeight,若是,則加入隊列L2后執(zhí)行步 驟33),若不大于上述閾值,則直接執(zhí)行步驟33)。
13、 根據(jù)權(quán)利要求12所述的視頻字幕信息提取方法,其特征在于, 所述的閾值minTextBlockHeight的大小為8,單位為象素點(diǎn)。
14、 根據(jù)權(quán)利要求11所述的視頻字幕信息提取方法,其特征在于, 在所述的步驟34)中,所述的垂直方向的分割包括步驟341)、對所述的矩形塊做垂直投影,用V表示各列象素投影所包 含的值為"1"的象素點(diǎn)數(shù);步驟342 )、計算所述V的算術(shù)平均AVE2;步驟343 )、對垂直投影從左開始,查找一個點(diǎn),該點(diǎn)應(yīng)滿足它本身和 其后一點(diǎn)的V值都大于三分之一的AVE2且后兩點(diǎn)V值大于二分之一的 AVE2,查找到該點(diǎn)后,該點(diǎn)被設(shè)為開始點(diǎn)xl;步驟344 )、從xl向右尋找第一個V值小于三分之一的AVE2且其后4 個連續(xù)點(diǎn)的V值均小于三分之一的AVE2的點(diǎn),該點(diǎn)一皮i殳為結(jié)束點(diǎn)x2;步驟345 )、 ^v所述的xl和x2處啦支分割,中間的部分^1判定為垂直方向不能再分割,將中間部分加入隊列LI;步驟346 )、對除去中間部分后的余下部分,判斷其寬度是否大于其高 度的1/2,若是則加入隊列Ll后執(zhí)行步驟35 ),否則直接執(zhí)行步驟35 )。
15、 根據(jù)權(quán)利要求11所述的視頻字幕信息提取方法,其特征在于, 在所述的步驟37)中,所述的合并條件為當(dāng)兩個塊高度相似,它們的上面的邊在垂直方向上距離相近,而且它 們在水平方向上距離也足夠近時,對這兩個矩形塊做合并操作;其中, Hl,h2表示兩個矩形塊各自的高度,dll表示它們上面的邊在垂直方向上 的距離,d12表示它們在水平方向上的距離,只有當(dāng)同時滿足h1〉3/5 x h2, h2〉3/,5xhl, ldll |< ( 1/3 x hl ), |dll|< ( 1/3 x.h2 ), Idl2l〈16時,才對 相應(yīng)的矩形塊進(jìn)行合并。
16、 根據(jù)權(quán)利要求11所述的視頻字幕信息提取方法,其特征在于, 在所述的步驟38)中,所述閾值maxTextBlockHeight的值為90,所述閾 值minTextBlockWidth的值為60,上述數(shù)值的單位為象素點(diǎn)。
17、 根據(jù)權(quán)利要求1所述的視頻字幕信息提取方法,其特征在于,在 所述的步驟4)中,采用二分法查找具有相似字幕區(qū)域的幀,對所查找到 的相似幀的字幕區(qū)域增強(qiáng)對比度。
18、 根據(jù)權(quán)利要求17所述的視頻字幕信息提取方法,其特征在于, 所述的釆用二分法查找具有相似字幕區(qū)域的幀包括以下步驟步驟41 )、將視頻的當(dāng)前幀作為參考幀Ref,然后計算第j (j=Ref+Step ) 幀與參考幀Ref的相似度Sim;所述Sim為Ref幀中各字幕候選塊與第j 幀中對應(yīng)區(qū)域的相似度的最大值,所述Step為搜索步長;步驟42)、判斷步驟41 )所得到的相似度Sim是否大于閾值Tl,若大 于,則進(jìn)入視頻的下一幀,然后重新執(zhí)行步驟41),否則執(zhí)行下一步;步驟43)、在第(j-Step)幀和第j幀區(qū)間內(nèi)進(jìn)行二分查找,尋找與 參考幀不相似的最小幀號N,然后將從Ref幀到第(N-l)幀的所有幀都判 定為與Ref幀相似的圖像。
19、 根據(jù)權(quán)利要求18所述的視頻字幕信息提取方法,其特征在于, 在所述的步驟41)中,所述的Ref幀中各字幕候選塊與第j幀中對應(yīng)區(qū)域 的相似度通過直方圖的交進(jìn)行計算。
20、 根據(jù)權(quán)利要求17所述的視頻字幕信息提取方法,其特征在于, 所述的對所查找到的相似幀的字幕區(qū)域增強(qiáng)對比度通過將與Ref幀相似的圖像中的字幕區(qū)域的象素點(diǎn)取最小值得到。
21、 根據(jù)權(quán)利要求1所述的視頻字幕信息提取方法,其特征在于,在所述的步驟5)中,所述的采用K均值聚類的方法實(shí)現(xiàn)對字幕的提取包括 首先,設(shè)置K個類的初始聚類中心點(diǎn);其次,對所有點(diǎn)進(jìn)行聚類,找到距離它們最近的中心點(diǎn),將點(diǎn)歸于相 應(yīng)的類;接著,根據(jù)聚類結(jié)果修改聚類中心點(diǎn),并重新聚類; 然后,迭代上次操作直到聚類中心不再改變;最后,將聚類中心值最大一類的所有點(diǎn)的灰度值與其他點(diǎn)的灰度值設(shè) 為不同的值,以實(shí)現(xiàn)字幕與背景間的區(qū)分。
22、 根據(jù)權(quán)利要求21所述的視頻字幕信息提取方法,其特征在于, 所述的K取值為3。
23、 根據(jù)權(quán)利要求21所述的視頻字幕信息提取方法,其特征在于, 所述的聚類中心值最大一類的所有點(diǎn)的灰度值設(shè)為255,其他點(diǎn)的灰度值 設(shè)為0。
全文摘要
本發(fā)明提供一種視頻字幕信息提取方法,包括對需要提取字幕的視頻圖像進(jìn)行預(yù)處理;對預(yù)處理后的視頻圖像進(jìn)行多尺度的字幕區(qū)域檢測,得到代表字幕區(qū)域大小與位置的矩形塊;利用所述的矩形塊,對檢測到的字幕區(qū)域進(jìn)行分割;對分割得到的字幕區(qū)域增強(qiáng)對比度;采用K均值聚類的方法實(shí)現(xiàn)對字幕的提取。本發(fā)明對字幕的不同語言類型、字體、尺寸以及視頻節(jié)目類型都具有通用性;具有字幕區(qū)域檢測和文字識別準(zhǔn)確率高,速度快的優(yōu)點(diǎn);在字幕區(qū)域檢測時不需要進(jìn)行模型的訓(xùn)練,減少了模型訓(xùn)練不好影響預(yù)測結(jié)果的可能性。
文檔編號H04N5/278GK101453575SQ20071017883
公開日2009年6月10日 申請日期2007年12月5日 優(yōu)先權(quán)日2007年12月5日
發(fā)明者劉安安, 勝 唐, 硯 宋, 琳 龐, 張勇東, 李錦濤 申請人:中國科學(xué)院計算技術(shù)研究所