專利名稱:一種視頻中的文本跟蹤和多幀增強(qiáng)方法
一種視頻中的文本跟蹤和多幀增強(qiáng)方法發(fā)明領(lǐng)域本發(fā)明涉及基于內(nèi)容的多媒體檢索技術(shù)領(lǐng)域,更具體地,本發(fā)明涉及視頻中的文本識(shí)別。 本發(fā)明利用視頻場(chǎng)景中的文本行在多幀之間具有大量的互補(bǔ)信息的特點(diǎn),提出了一種視頻中的 文本跟蹤和多幀增強(qiáng)方法。本發(fā)明的方法可以消除背景,提高視頻文本的光學(xué)字符軟件(OCR, Optical Character Recognition)識(shí)另摔。 發(fā)明背景視頻中的文本提供了和視頻內(nèi)容高度相關(guān)的信息,比如場(chǎng)景地點(diǎn)、事件時(shí)間,以及體育比 賽中的比分、運(yùn)動(dòng)員姓名等信息,但是相對(duì)于文檔圖像中的文本,視頻中的文本識(shí)別面臨以下 難點(diǎn)(l)由于電視制式、視頻傳輸和存儲(chǔ)的原因,視頻圖像分辨率較低;(2)視頻中的文本往往 疊加在視頻場(chǎng)景中。由于大多數(shù)商用光學(xué)字符識(shí)別(OCR, Optical Character Recognitkm)軟件只能 處理具有干凈背景的二值圖像,所以在檢測(cè)到視頻中的文本區(qū)域以后,還必須將文本和背景分 離開來,得到具有干凈背景的文本圖像,然后才能進(jìn)行OCR識(shí)別。關(guān)于圖像二值化,己經(jīng)有了 很多的相關(guān)工作,但是這些方法并不適用于視頻文本的二值化操作。綜合起來,視頻文本區(qū)域在時(shí)域具有以下特點(diǎn)(l)同一文本會(huì)持續(xù)幾十幀甚至幾百幀;(2) 當(dāng)文本有運(yùn)動(dòng)時(shí),呈現(xiàn)水平或者垂直的線型運(yùn)動(dòng);(3)文字的生存期,文字像素顏色保持不變,背景像素顏色可能具有很大的變化。所以,如果能將多幀的文本區(qū)域信息綜合起來,生成新的文本圖像,動(dòng)態(tài)變換的背景像素 會(huì)被削弱,有利于文本的進(jìn)一步識(shí)別。視頻中文本的運(yùn)動(dòng)總體來說可以分為兩類剛性運(yùn)動(dòng)和非剛性運(yùn)動(dòng)。剛性運(yùn)動(dòng)是指文本在 運(yùn)動(dòng)過程中沒有縮放、扭曲等藝術(shù)效果,整個(gè)運(yùn)動(dòng)周期過程中文本的尺寸沒有發(fā)生變化,固定 不變;非剛性運(yùn)動(dòng)與剛性運(yùn)動(dòng)相反,文本在運(yùn)動(dòng)過程中具有縮放、淡入淡出、扭曲等形式。對(duì) 于具有非剛性運(yùn)動(dòng)的視頻文本,由于在運(yùn)動(dòng)過程中文本尺寸發(fā)生了變化,同時(shí)可能具有多種藝 術(shù)表現(xiàn)形式,導(dǎo)致文本在空域中的幾何屬性發(fā)生了改變。所以,在非剛性運(yùn)動(dòng)情況下,文本行 在多幀的不同表現(xiàn)形式對(duì)于消除背景,增強(qiáng)文本并沒有太大的意義。同時(shí),視頻中的文本,比 如新聞和電影視頻中的文本,統(tǒng)計(jì)可以發(fā)現(xiàn),大部分都是剛性運(yùn)動(dòng),所以本發(fā)明的方法只考慮 文本具有剛性運(yùn)動(dòng)情形時(shí)的文本跟蹤和增強(qiáng)問題。近些年,在視頻文本自動(dòng)追蹤領(lǐng)域主要有兩種常用的技術(shù)基于SSD (Sum of SquaredDifference)的跟蹤方法和基于M估計(jì)模板匹配的追蹤方法。在"Text Enhancement in Digital Video Using Multiple Frame Integration. Proceedings of ACM Multimedia [C], Orlando FL, USA, 1999:19 22"中,HuipingLi.公開了一種利用基于SSD跟蹤文本,利用多幀信息增強(qiáng)文本的方法, 而在博士論文"視頻文本的提取.杭州:浙江大學(xué),2006"中,章東平公開了一種基于M估計(jì)模板 匹配的追蹤方法。然而,無論是基于SSD或者是M估計(jì)模板匹配的方法,當(dāng)文本位于運(yùn)動(dòng)背景 或者文本顏色具有變化效果的時(shí)候,跟蹤效果都不是很理想,這是由兩種方法本身的匹配規(guī)則 說決定的。文本行區(qū)域在整個(gè)運(yùn)動(dòng)周期期間,文本像素顏色本身也可能會(huì)發(fā)生變化,比如文本 像素顏色具有同一個(gè)色調(diào),但是飽和度或者亮度會(huì)發(fā)生漸進(jìn)改變。此時(shí),基于SSD的方法會(huì)在 匹配時(shí)產(chǎn)生較大的匹配值,最終不能正確跟蹤文本在相鄰幀的位置。另外,基于M估計(jì)模板匹 配的方法本身計(jì)算復(fù)雜度較高,雖說可以追蹤具有平移、縮小、放大、旋轉(zhuǎn)、淡入淡出和部分 被遮擋的水平或傾斜排列文本,但是追蹤文本在相鄰幀的位置主要是用于多幀增強(qiáng)文本質(zhì)量, 利用文本區(qū)域的時(shí)域特征消除背景,而當(dāng)文本被遮擋或者縮小放大時(shí),追蹤到的文本行文本像 素本身的空域信息已經(jīng)變得不完整,對(duì)于提高文本的質(zhì)量,獲得高質(zhì)量的文本二值圖像沒有太 大的意義。所以,本發(fā)朋提出了一種新的并能適應(yīng)文本具有變化背景、文本像素顏色不一致時(shí) 的文本跟蹤和多幀增強(qiáng)算法中國發(fā)明專利00807661.8公開了一種"文本增強(qiáng)的方法",該方法根據(jù)空域信息增強(qiáng)文本質(zhì) 量,和本文基于時(shí)域增強(qiáng)文本的思路具有較大差異。 發(fā)明內(nèi)容本發(fā)明要解決的問題克服現(xiàn)有技術(shù)的不足,提供一種利用多幀互補(bǔ)信息增強(qiáng)視頻文本的方法,該方法即使在文本具有運(yùn)動(dòng)背景時(shí)也具有更好的跟蹤效果,顯著提高了OCR軟件對(duì)視頻文本的識(shí)別準(zhǔn)確率。本發(fā)明的技術(shù)解決方案 一種視頻中的文本跟蹤和多幀增強(qiáng)方法,包括以下步驟(1) 利用文本檢測(cè)算法檢測(cè)視頻序列第!'幀中出現(xiàn)的文本區(qū)域,記為文本圖像力,將參考圖 像Rf設(shè)置為力,令C代表文本圖像/多個(gè)副本的集合,將力添加到集合C中;(2) 跟蹤文本圖像力在相鄰幀的位置,跟蹤過程如下步驟2.1:利用Canny邊緣算子提取參考圖像Rf的邊緣圖EM; 步驟2.2:估算參考圖像Rf在后續(xù)幀的出現(xiàn)區(qū)域,記為R'; 步驟2.3:利用Canny邊緣算子提取R'的邊緣圖EMI;步驟2.4:利用文本筆畫形成的邊緣具有邊緣對(duì)的特點(diǎn),刪除邊緣圖EM和EM1中的背景 對(duì)象形成的邊緣;步驟2.5:采用Chamfer 5-7-11距離變換將邊緣圖EM.和EM1進(jìn)行Hausdorff距離變換;步驟2.6:計(jì)算R'和Rf之間的Hausdorff距離值v,如果v小于預(yù)先設(shè)定的閾值,R'中取得值 v所在的區(qū)域f就是參考圖像Rf在相鄰幀的匹配區(qū)域;如果v大于預(yù)先設(shè)定的閾值,完成文本跟 蹤過程;步驟2.7:將參考圖像Rf設(shè)置f,將Rf添加到集合C中,轉(zhuǎn)到步驟(2.1),繼續(xù)跟蹤; (3)利用最小像素搜索法,經(jīng)由集合C中的多個(gè)文本圖像,得到一個(gè)新的文本圖像/,此 時(shí)變換的背景已經(jīng)被大大減弱消除;(4)利用最小均方差的二值化方法,對(duì)文本圖像/進(jìn)行二值化操作,最終得到具有干凈背景 的文本二值化圖像。所述步驟(2.4)的方法如下 (1)計(jì)算文本圖像每個(gè)像素點(diǎn)的梯度方向0(jc,力,計(jì)算公式如下<formula>formula see original document page 6</formula>(2) 如果在相鄰的距離[Dmin,Dmax]范圍內(nèi)出現(xiàn)梯度方向平行的兩個(gè)像素,則認(rèn)為這兩個(gè)像 素構(gòu)成像素對(duì),其中Dmin和Dn^的值由需要跟蹤的文本字體的大小決定;(3) 令EM代表邊緣集合,邊緣對(duì)(p,,p2)集合記為Ep,則Ep對(duì)E的重構(gòu)定義為/ £(£0£》,E經(jīng)由Ep重構(gòu)后得到結(jié)果主要由文本邊緣組成。 所述步驟(2.2)的方法如下 (1)假定視頻的分辨率為RHxRv (Rv、 RH分別為垂直、水平分辨率),幀率s幀/秒,如 果文本的出現(xiàn)時(shí)間為&,那么當(dāng)前文本在相鄰幀垂直和水平方向上的偏移值-(2)設(shè)置&的最小估計(jì)值,根據(jù)上述公式,在相鄰幀得到文本的最大偏幀垂直偏移值和最 大水平方向偏移值,如果當(dāng)前文本區(qū)力的矩形面積為wxh,根據(jù)最大偏移值如和欲,可以估計(jì) 出參考圖像Rf在相鄰下一幀的匹配區(qū)域面積大小(w^ 2x說)x" + 2x3v)。本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于(1)本發(fā)明在跟蹤文本圖像乂的算法中利用了文本筆畫邊緣對(duì)的特點(diǎn),采用Hausdorff距 離值跟蹤文本,能有效消除在文本跟蹤過程中背景對(duì)象引入的誤差,跟蹤算法具有更好的適應(yīng)性,能有效提取文本圖像在多幀的副本。最終通過多幀增強(qiáng),在文本或者背景具有運(yùn)動(dòng)的情形 下,可以顯著提高OCR軟件識(shí)別的準(zhǔn)確率。(2) 本發(fā)明的方法通過步驟(2)得到同一文本在多個(gè)視頻幀的圖像區(qū)域集合;由于疊加 在視頻中的文本筆畫顏色是固定不變的,而背景畫面是運(yùn)動(dòng)的,根據(jù)文本顏色保持不變,而背 景變化的特點(diǎn),再在步驟(3)中采取最小像素搜索法,將多個(gè)文本圖像的信息綜合起來,更有 效地消除了背景,得到一個(gè)具有簡(jiǎn)單背景的文本圖像,進(jìn)一步提高了OCR軟件對(duì)視頻文本的識(shí) 別準(zhǔn)確率。(3) 本發(fā)明在步驟(4)中利用最小均方差的二值化方法,對(duì)多幀綜合的結(jié)果進(jìn)行二值化 操作,能夠得到具有干凈背景的文本二值化圖像,使得對(duì)視頻文本的識(shí)別準(zhǔn)確率更加提高。
圖l為本發(fā)明的方法流程圖;圖2為視頻中檢測(cè)到的文本圖像;圖3為本發(fā)明的基于文本筆畫邊緣對(duì)的二值模板,其中3a、 3b、 3c分別代表第l幀文本圖 像的邊緣、邊緣對(duì)、以及邊緣經(jīng)由邊緣對(duì)重構(gòu)后的邊緣圖;3d、 3e、 3f、 3g、 3h、 3i分別表示第 10幀和第20幀的邊緣圖、邊緣對(duì)和重構(gòu)后的邊緣圖;圖4為本發(fā)明的Chamfer 5-7-11距離變換系數(shù)圖;圖5為本發(fā)明的Chamfer5-7-l 1距離變換示意圖,其中5a為二值圖像,5b為對(duì)應(yīng)的Hausdorff 距離圖像;圖6為本發(fā)明的簡(jiǎn)單背景下文本行跟蹤算法比較,其中6a是和已有算法的性能對(duì)比圖,6b-6e為視頻序列中的視頻幀;圖7為本發(fā)明的復(fù)雜背景下文本行跟蹤算法比較,其中7a是和已有算法的性能對(duì)比圖,7b-7e 為視頻序列中的視頻幀;圖8為本發(fā)明的文本行增強(qiáng)的結(jié)果,其中8a、 8d代表初始的文本圖像,8b、 8e代表多幀增 強(qiáng)后的文本圖像,8c、 8f代表二值化后的文本圖像。
具體實(shí)施方式
在對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明前,先對(duì)涉及的關(guān)鍵概念Hausdorff距離度量進(jìn)行說明。 給定兩組有限點(diǎn)集合J-(ap..…, }和5 = {&,,……,~}, Hausdorff距離定義為 //(x B) = max(/j(J, £), /j(B, 乂)) 其中/ 04,J5) = maxminl|a — 6|| , = max tnin l( 6 — a |1函數(shù)/j(AS)稱為從^到5的有向Hausdorff距離,其意義是對(duì)集合^的任意一點(diǎn)j到集合B中所有點(diǎn)距離中選出最近距離,再考慮集合^的每一點(diǎn)到集合5最近距離集合中選擇最 大值。/1(5,力的意義同W4萬)相似,稱為反向Hausdorff距離。 如圖1所示,本發(fā)明的具體實(shí)施步驟如下-1.利用文本檢測(cè)算法,比如本發(fā)明專利申請(qǐng)人在"Chengjun Zhu, Yuanxin Ouyang, Lei Gao, Zhenyong Chen, Zhang Xiong, "An Automatic Video Text Detection, Localization and Extraction Approach", the 2th International Conference on Signal-Image Technology & Internet-Based Systems (SITIS 2006), http:〃www.u-bourgogne.fr/SITIS/06/index.htmT中公開的文本檢測(cè)算法,檢測(cè)視頻中文本出現(xiàn)的初始區(qū)域,記為文本圖像乂,將參考圖像Rf設(shè)置為力,令c代表文本圖像/;多個(gè)副本 的集合,將乂添加到集合C中;; 2.具體的文本跟蹤過程如下步驟2丄.利用Canny邊緣算子提取Rf的邊緣圖£M, Camy邊緣檢測(cè)算子是圖像處理領(lǐng)域 常見的邊緣提取算子之一,邊緣圖像的二值圖像如圖3a、 3d和3g所示; 步驟2,2:估算參考圖像Rf在后續(xù)幀的出現(xiàn)區(qū)域,記為R'。當(dāng)在下一幀中匹配當(dāng)前文本時(shí),為了降低算法時(shí)間復(fù)雜度,提高匹配效率,本發(fā)明提出通 過估計(jì)文本的最大運(yùn)動(dòng)速度來縮小匹配范圍。由于文本需要輔助觀眾理解視頻內(nèi)容,所以文本 不可能運(yùn)動(dòng)速度太快。假定視頻的分辨率為RHxRv (Rv、 RH分別為垂直、水平分辨率),幀率 為s幀/秒,如果文本的顯示時(shí)間為&,那么當(dāng)前文本在相鄰幀垂直和水平方向上的偏移值可以 由下面的公式計(jì)算得到由于網(wǎng)絡(luò)帶寬和存儲(chǔ)的原因,現(xiàn)在的視頻分辨率大多限制在352x240以下,幀率大約在20-30 幀/秒之間。根據(jù)視頻中的文本時(shí)間滯留時(shí)間統(tǒng)計(jì),本發(fā)明設(shè)置&的最小估計(jì)值為3秒,所以根 據(jù)公式,在相鄰幀,文本的最大偏移值可以設(shè)置為5v^4像素、欲-6像素。如果當(dāng)前文本區(qū)域/的矩形面積為wxft,根據(jù)最大偏移值5v和欲,可以估計(jì)出在相鄰下一幀 的匹配區(qū)域R'的面積大小(w,十12)x" + 8)。步驟2.3:利用Canny邊緣算子提取R'的邊緣圖EM1;步驟2.4:利用文本筆畫形成的邊緣具有邊緣對(duì)的特點(diǎn),刪除邊緣圖EM和EM1中的背景對(duì)象形成的邊緣。具體過程如下(a)計(jì)算文本圖像每個(gè)像素點(diǎn)的梯度方向代;c,力,計(jì)算公式如下<formula>formula see original document page 9</formula>(b) 如果在相鄰的距離[D^,DmaJ范圍內(nèi)出現(xiàn)梯度方向平行的兩個(gè)像素,則認(rèn)為這兩個(gè)像 素構(gòu)成像素對(duì),其中Dmin和D,的值由需要跟蹤的文本字體的大小決定。(c) 令EM代表邊緣集合,邊緣對(duì)(p" p》集合記為Ep,則Ep對(duì)E的重構(gòu)定義為,E經(jīng)由Ep重構(gòu)后得到結(jié)果主要由文本邊緣組成,由圖3可以看出,E經(jīng)由結(jié)構(gòu)算子Ep重構(gòu)后得 到結(jié)果主要由文本邊緣ET組成。如圖3c、 3f和3i所示,經(jīng)過邊緣對(duì)重構(gòu)后的邊緣圖像主要包 含了文本筆畫形成的邊緣。步驟2.5:采用Chamfer 5-7-11距離變換將邊緣圖EM和EM1進(jìn)行Hausdorff距離變換, Chamfer5-7-l 1變換系數(shù)的值如圖4所示;在實(shí)際計(jì)算Hausdorff距離吋,是將己知模板二值圖像與將匹配的未知二值圖像轉(zhuǎn)換為距離 函數(shù)。距離函數(shù)是將二值圖像轉(zhuǎn)換為另一種灰度圖像,二值圖像的"l",對(duì)應(yīng)于距離圖像的"0"。 而二值圖像的"0",依據(jù)距離變換系數(shù)轉(zhuǎn)換為不同的值,在距離圖像中離"0"越近,距離值越小, 反之會(huì)很大。使用Chamfer 5-7-11距離有較高的精度。對(duì)一個(gè)給定的二值圖像(MxA0 , DT的初始化是邊緣點(diǎn)賦值為零,非邊緣像素點(diǎn)賦值為無 限或有限的極大值。用兩步迭代實(shí)現(xiàn)距離變換,前向距離變換從左到右從上到下掃描,而后向 距離變換從右向左從下到上掃描,其大致程序描述如下Initialization:For I = 1, to M doFor j = 1 toN doIf (Ij)is edge pixel then DT(Ij) = 0ElseForward transformation: For I = 2 to M do Forj = 2toNdo DT(I j)= minimum[DT(I-l, j-2)+l 1,DT(I+l,j-2)+ll, DT(I-2,j-l)+ll, DT(I-l,j-I)+7, DT(I+0,j-l)+5, DT(I+l,j-l)+7, DT(I+2,j-l)+ll, DT(I-l,j+0)+5] Backward Transformation Fori =M-1 to 1 do For j = N-l to 1 do DT(I爐minimum[DT(I-1 j+2)+11 , DT(I+lj+2)+11, DT(I-2』+l)+ll, DT(I-lj+l)+7, DT(闊+l)+5, DT(I+lj+l)+7, DT(I+2j+l)+ll, DT(I+l,j+0)+5];圖5a是一個(gè)二值圖像示例,5b是其對(duì)應(yīng)的Hausdorff距離圖像;步驟2.6:計(jì)算R'和Rf之間的Hausdorff距離值v,如果v小于預(yù)先設(shè)定的閾值,R'中取得值 v所在的區(qū)域f就是參考圖像Rf在相鄰幀的匹配區(qū)域;如果v大于預(yù)先設(shè)定的閾值,完成文本跟 蹤過程;步驟2.7:將參考圖像Rf設(shè)置f,將Rf添加到集合C中,轉(zhuǎn)到步驟(2.1),繼續(xù)跟蹤;3. 得到文本圖像在多個(gè)視頻幀的副本集合C后,本發(fā)明采用了最小像素搜索法來進(jìn)行文 本質(zhì)量增強(qiáng)。將每個(gè)像素灰度值在時(shí)間維的值看作一維向量,由于文本的灰度值是穩(wěn)定的,而背景是變換的,在時(shí)間方向上取每個(gè)像素值的最小值,可以減少背景的影響。公式表示如下》=,船)其中C,視頻幀集合,幀/,eC,包含同一個(gè)文本區(qū)域。</,)。圖8a和8d分別是視頻中的兩個(gè) 文本行,圖8b和8e分別是其多幀綜合后的結(jié)果,可以看出,相對(duì)于原圖像8a和8d,背景復(fù)雜 度大大降低了。4. 對(duì)于多幀增強(qiáng)后的結(jié)果,利用最小方差的二值化方法來進(jìn)行二值化。背景像素用黑色"0"表示,文本像素用白色"r表示。圖8c和8f分別是圖8b和8e二值化后的結(jié)果,可以看出,已經(jīng)達(dá)到OCR軟件識(shí)別的要求。本發(fā)明適用于需要對(duì)視頻內(nèi)容進(jìn)行自動(dòng)理解的場(chǎng)合,比如多媒體檢索系統(tǒng)、,手機(jī)牌照識(shí)別 場(chǎng)景中的文字以、智能監(jiān)控場(chǎng)景下識(shí)別衣服上的號(hào)碼等場(chǎng)合。本發(fā)明的方法可以采用Ddphi、 visual (;++等編程語言來實(shí)現(xiàn)生成文本增強(qiáng)軟件,與視頻文本檢測(cè)算法相結(jié)合,將文本檢測(cè)算法 的輸出作為輸入,輸入到本發(fā)明的方法中,本發(fā)明的方法輸出高質(zhì)量的二值化文本圖像,可以 輸入到OCR軟件進(jìn)行OCR識(shí)別。常用的OCR軟件包括漢王、清華紫光等。如圖3所示,可以看出,經(jīng)過邊緣對(duì)分析,背景形成的邊緣大部分都被消除。得到二值邊緣模板后,采用Chamfer 5-7-11系數(shù)對(duì)二值圖像進(jìn)行變換,Chamfer 5-7-11系數(shù) 如圖4所示。二值圖像變換后的結(jié)果如圖5所示。追蹤過程采用本發(fā)明提出Hausdorff距離比較的方法,可以得到文本圖像在多幀的副本,圖 6和圖7給出了兩個(gè)本發(fā)明跟蹤算法的結(jié)果,可以看出,相對(duì)于以往的基于SSD值得算法,具 有更好的適應(yīng)性。圖8給出了兩個(gè)通過多幀增強(qiáng)后,具有干凈黑背景的文本增強(qiáng)結(jié)果。
權(quán)利要求
1、一種視頻中的文本跟蹤和多幀增強(qiáng)方法,其特征在于包括以下步驟(1)利用文本檢測(cè)算法檢測(cè)視頻序列第i幀中出現(xiàn)的文本區(qū)域,記為文本圖像fi,將參考圖像Rf設(shè)置為fi,令C代表文本圖像fi多個(gè)副本的集合,將fi添加到集合C中;(2)跟蹤文本圖像fi在相鄰幀的位置,跟蹤過程如下步驟2.1利用Canny邊緣算子提取參考圖像Rf的邊緣圖EM;步驟2.2估算參考圖像Rf在后續(xù)幀的出現(xiàn)區(qū)域,記為R′;步驟2.3利用Canny邊緣算子提取R′的邊緣圖EM1;步驟2.4利用文本筆畫形成的邊緣具有邊緣對(duì)的特點(diǎn),刪除邊緣圖EM和EM1中的背景對(duì)象形成的邊緣;步驟2.5采用Chamfer 5-7-11距離變換將邊緣圖EM和EM1進(jìn)行Hausdorff距離變換;步驟2.6計(jì)算R′和Rf之間的Hausdorff距離值v,如果v小于預(yù)先設(shè)定的閾值,R′中取得值v所在的區(qū)域f′就是參考圖像Rf在相鄰幀的匹配區(qū)域;如果v大于預(yù)先設(shè)定的閾值,完成文本跟蹤過程;步驟2.7將參考圖像Rf設(shè)置f,將Rf添加到集合C中,轉(zhuǎn)到步驟(2.1),繼續(xù)跟蹤;(3)利用最小像素搜索法,經(jīng)由集合C中的多個(gè)文本圖像,得到一個(gè)新的文本圖像f,此時(shí)變換的背景已經(jīng)被大大減弱消除;(4)利用最小均方差的二值化方法,對(duì)文本圖像f進(jìn)行二值化操作,最終得到具有干凈背景的文本二值化圖像。
2、 根據(jù)權(quán)利要求l所述的一種視頻中的文本跟蹤和多幀增強(qiáng)方法,其特征在于所述步驟 (2.4)的方法如下-(1)計(jì)算文本圖像每個(gè)像素點(diǎn)的梯度方向eOr,力,計(jì)算公式如下<formula>formula see original document page 2</formula>(2)如果在相鄰的距離[Dmin,DmaJ范圍內(nèi)出現(xiàn)梯度方向平行的兩個(gè)像素,則認(rèn)為這兩個(gè)像素構(gòu)成像素對(duì),其中D^和Dmax的值由需要跟蹤的文本字體的大小決定;(3)令EM代表邊緣集合,邊緣對(duì)(p!,p2)集合記為Ep,則Ep對(duì)E的重構(gòu)定義為,E經(jīng)由Ep重構(gòu)后得到結(jié)果主要由文本邊緣組成。
3、根據(jù)權(quán)利要求l所述的一種視頻中的文本跟蹤和多幀增強(qiáng)方法,其特征在于所述步驟 (2.2)的方法如下(1)假定視頻的分辨率為RHXRv,Rv、 RH分別為垂直、水平分辨率,幀率s幀/秒,如果文 本的出現(xiàn)時(shí)間為&,那么當(dāng)前文本在相鄰幀垂直和水平方向上的偏移值-(2)設(shè)置&的最小估計(jì)值,根據(jù)上述公式,在相鄰幀得到文本的最大偏幀垂直偏移值和最 大水平方向偏移值,如果當(dāng)前文本區(qū)乂的矩形面積為wXh,根據(jù)最大偏移值如和朋,可以估 計(jì)出參考圖像&在相鄰下一幀的匹配區(qū)域面積大小<formula>formula see original document page 3</formula>
全文摘要
本發(fā)明涉及一種視頻中的文本跟蹤和多幀增強(qiáng)方法。視頻中的文本,大都疊加在復(fù)雜背景中,將其直接送入OCR(光學(xué)字符識(shí)別)軟件識(shí)別,識(shí)別率較低,所以還需要進(jìn)行文本增強(qiáng)操作,以便將文本和背景分離。視頻中的文本,大都要持續(xù)數(shù)十幀甚至上百幀,并且在相鄰幀中,文本顏色基本保持不變,而背景是動(dòng)態(tài)變化的,所以多幀之間具有大量的互補(bǔ)信息可用于文本增強(qiáng)。本發(fā)明的方法利用文本筆畫具有邊緣對(duì)的特點(diǎn)消除背景邊緣像素的影響,然后使用Hausdorff距離度量方法跟蹤文本在相鄰幀的位置,在得到文本圖像在相鄰幀的多個(gè)副本之后,利用最小像素搜索法消除背景,得到具有干凈背景的二值文本圖像,可以大大提高OCR軟件對(duì)視頻文本的識(shí)別率。
文檔編號(hào)G06K9/32GK101276416SQ20081010165
公開日2008年10月1日 申請(qǐng)日期2008年3月10日 優(yōu)先權(quán)日2008年3月10日
發(fā)明者朱成軍, 超 李, 璋 熊, 秦思思 申請(qǐng)人:北京航空航天大學(xué)