一種視頻中的文本跟蹤和多幀增強(qiáng)方法

文檔序號(hào)：6463085閱讀：233來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種視頻中的文本跟蹤和多幀增強(qiáng)方法
一種視頻中的文本跟蹤和多幀增強(qiáng)方法發(fā)明領(lǐng)域本發(fā)明涉及基于內(nèi)容的多媒體檢索技術(shù)領(lǐng)域，更具體地，本發(fā)明涉及視頻中的文本識(shí)別。本發(fā)明利用視頻場(chǎng)景中的文本行在多幀之間具有大量的互補(bǔ)信息的特點(diǎn)，提出了一種視頻中的文本跟蹤和多幀增強(qiáng)方法。本發(fā)明的方法可以消除背景，提高視頻文本的光學(xué)字符軟件(OCR, Optical Character Recognition)識(shí)另摔。發(fā)明背景視頻中的文本提供了和視頻內(nèi)容高度相關(guān)的信息，比如場(chǎng)景地點(diǎn)、事件時(shí)間，以及體育比賽中的比分、運(yùn)動(dòng)員姓名等信息，但是相對(duì)于文檔圖像中的文本，視頻中的文本識(shí)別面臨以下難點(diǎn)(l)由于電視制式、視頻傳輸和存儲(chǔ)的原因，視頻圖像分辨率較低；(2)視頻中的文本往往疊加在視頻場(chǎng)景中。由于大多數(shù)商用光學(xué)字符識(shí)別(OCR, Optical Character Recognitkm)軟件只能處理具有干凈背景的二值圖像，所以在檢測(cè)到視頻中的文本區(qū)域以后，還必須將文本和背景分離開來，得到具有干凈背景的文本圖像，然后才能進(jìn)行OCR識(shí)別。關(guān)于圖像二值化，己經(jīng)有了很多的相關(guān)工作，但是這些方法并不適用于視頻文本的二值化操作。綜合起來，視頻文本區(qū)域在時(shí)域具有以下特點(diǎn)(l)同一文本會(huì)持續(xù)幾十幀甚至幾百幀；(2) 當(dāng)文本有運(yùn)動(dòng)時(shí)，呈現(xiàn)水平或者垂直的線型運(yùn)動(dòng)；(3)文字的生存期，文字像素顏色保持不變，背景像素顏色可能具有很大的變化。所以，如果能將多幀的文本區(qū)域信息綜合起來，生成新的文本圖像，動(dòng)態(tài)變換的背景像素會(huì)被削弱，有利于文本的進(jìn)一步識(shí)別。視頻中文本的運(yùn)動(dòng)總體來說可以分為兩類剛性運(yùn)動(dòng)和非剛性運(yùn)動(dòng)。剛性運(yùn)動(dòng)是指文本在運(yùn)動(dòng)過程中沒有縮放、扭曲等藝術(shù)效果，整個(gè)運(yùn)動(dòng)周期過程中文本的尺寸沒有發(fā)生變化，固定不變；非剛性運(yùn)動(dòng)與剛性運(yùn)動(dòng)相反，文本在運(yùn)動(dòng)過程中具有縮放、淡入淡出、扭曲等形式。對(duì) 于具有非剛性運(yùn)動(dòng)的視頻文本，由于在運(yùn)動(dòng)過程中文本尺寸發(fā)生了變化，同時(shí)可能具有多種藝術(shù)表現(xiàn)形式，導(dǎo)致文本在空域中的幾何屬性發(fā)生了改變。所以，在非剛性運(yùn)動(dòng)情況下，文本行在多幀的不同表現(xiàn)形式對(duì)于消除背景，增強(qiáng)文本并沒有太大的意義。同時(shí)，視頻中的文本，比如新聞和電影視頻中的文本，統(tǒng)計(jì)可以發(fā)現(xiàn)，大部分都是剛性運(yùn)動(dòng)，所以本發(fā)明的方法只考慮文本具有剛性運(yùn)動(dòng)情形時(shí)的文本跟蹤和增強(qiáng)問題。近些年，在視頻文本自動(dòng)追蹤領(lǐng)域主要有兩種常用的技術(shù)基于SSD (Sum of SquaredDifference)的跟蹤方法和基于M估計(jì)模板匹配的追蹤方法。在"Text Enhancement in Digital Video Using Multiple Frame Integration. Proceedings of ACM Multimedia [C]， Orlando FL， USA, 1999:19 22"中，HuipingLi.公開了一種利用基于SSD跟蹤文本，利用多幀信息增強(qiáng)文本的方法，而在博士論文"視頻文本的提取.杭州:浙江大學(xué)，2006"中，章東平公開了一種基于M估計(jì)模板匹配的追蹤方法。然而，無論是基于SSD或者是M估計(jì)模板匹配的方法，當(dāng)文本位于運(yùn)動(dòng)背景或者文本顏色具有變化效果的時(shí)候，跟蹤效果都不是很理想，這是由兩種方法本身的匹配規(guī)則說決定的。文本行區(qū)域在整個(gè)運(yùn)動(dòng)周期期間，文本像素顏色本身也可能會(huì)發(fā)生變化，比如文本像素顏色具有同一個(gè)色調(diào)，但是飽和度或者亮度會(huì)發(fā)生漸進(jìn)改變。此時(shí)，基于SSD的方法會(huì)在匹配時(shí)產(chǎn)生較大的匹配值，最終不能正確跟蹤文本在相鄰幀的位置。另外，基于M估計(jì)模板匹配的方法本身計(jì)算復(fù)雜度較高，雖說可以追蹤具有平移、縮小、放大、旋轉(zhuǎn)、淡入淡出和部分被遮擋的水平或傾斜排列文本，但是追蹤文本在相鄰幀的位置主要是用于多幀增強(qiáng)文本質(zhì)量，利用文本區(qū)域的時(shí)域特征消除背景，而當(dāng)文本被遮擋或者縮小放大時(shí)，追蹤到的文本行文本像素本身的空域信息已經(jīng)變得不完整，對(duì)于提高文本的質(zhì)量，獲得高質(zhì)量的文本二值圖像沒有太大的意義。所以，本發(fā)朋提出了一種新的并能適應(yīng)文本具有變化背景、文本像素顏色不一致時(shí) 的文本跟蹤和多幀增強(qiáng)算法中國發(fā)明專利00807661.8公開了一種"文本增強(qiáng)的方法"，該方法根據(jù)空域信息增強(qiáng)文本質(zhì) 量，和本文基于時(shí)域增強(qiáng)文本的思路具有較大差異。發(fā)明內(nèi)容本發(fā)明要解決的問題克服現(xiàn)有技術(shù)的不足，提供一種利用多幀互補(bǔ)信息增強(qiáng)視頻文本的方法，該方法即使在文本具有運(yùn)動(dòng)背景時(shí)也具有更好的跟蹤效果，顯著提高了OCR軟件對(duì)視頻文本的識(shí)別準(zhǔn)確率。本發(fā)明的技術(shù)解決方案一種視頻中的文本跟蹤和多幀增強(qiáng)方法，包括以下步驟(1) 利用文本檢測(cè)算法檢測(cè)視頻序列第!'幀中出現(xiàn)的文本區(qū)域，記為文本圖像力，將參考圖像Rf設(shè)置為力，令C代表文本圖像/多個(gè)副本的集合，將力添加到集合C中；(2) 跟蹤文本圖像力在相鄰幀的位置，跟蹤過程如下步驟2.1:利用Canny邊緣算子提取參考圖像Rf的邊緣圖EM; 步驟2.2:估算參考圖像Rf在后續(xù)幀的出現(xiàn)區(qū)域，記為R'; 步驟2.3:利用Canny邊緣算子提取R'的邊緣圖EMI;步驟2.4:利用文本筆畫形成的邊緣具有邊緣對(duì)的特點(diǎn)，刪除邊緣圖EM和EM1中的背景對(duì)象形成的邊緣；步驟2.5:采用Chamfer 5-7-11距離變換將邊緣圖EM.和EM1進(jìn)行Hausdorff距離變換；步驟2.6:計(jì)算R'和Rf之間的Hausdorff距離值v,如果v小于預(yù)先設(shè)定的閾值，R'中取得值 v所在的區(qū)域f就是參考圖像Rf在相鄰幀的匹配區(qū)域；如果v大于預(yù)先設(shè)定的閾值，完成文本跟蹤過程；步驟2.7:將參考圖像Rf設(shè)置f,將Rf添加到集合C中，轉(zhuǎn)到步驟(2.1)，繼續(xù)跟蹤； (3)利用最小像素搜索法，經(jīng)由集合C中的多個(gè)文本圖像，得到一個(gè)新的文本圖像/，此時(shí)變換的背景已經(jīng)被大大減弱消除；(4)利用最小均方差的二值化方法，對(duì)文本圖像/進(jìn)行二值化操作，最終得到具有干凈背景的文本二值化圖像。所述步驟(2.4)的方法如下 (1)計(jì)算文本圖像每個(gè)像素點(diǎn)的梯度方向0(jc,力，計(jì)算公式如下<formula>formula see original document page 6</formula>(2) 如果在相鄰的距離[Dmin，Dmax]范圍內(nèi)出現(xiàn)梯度方向平行的兩個(gè)像素，則認(rèn)為這兩個(gè)像素構(gòu)成像素對(duì)，其中Dmin和Dn^的值由需要跟蹤的文本字體的大小決定；(3) 令EM代表邊緣集合，邊緣對(duì)(p,，p2)集合記為Ep，則Ep對(duì)E的重構(gòu)定義為/ ￡(￡0￡》，E經(jīng)由Ep重構(gòu)后得到結(jié)果主要由文本邊緣組成。所述步驟(2.2)的方法如下 (1)假定視頻的分辨率為RHxRv (Rv、 RH分別為垂直、水平分辨率)，幀率s幀/秒，如果文本的出現(xiàn)時(shí)間為&，那么當(dāng)前文本在相鄰幀垂直和水平方向上的偏移值-(2)設(shè)置&的最小估計(jì)值，根據(jù)上述公式，在相鄰幀得到文本的最大偏幀垂直偏移值和最大水平方向偏移值，如果當(dāng)前文本區(qū)力的矩形面積為wxh，根據(jù)最大偏移值如和欲，可以估計(jì) 出參考圖像Rf在相鄰下一幀的匹配區(qū)域面積大小(w^ 2x說)x" + 2x3v)。本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于(1)本發(fā)明在跟蹤文本圖像乂的算法中利用了文本筆畫邊緣對(duì)的特點(diǎn)，采用Hausdorff距離值跟蹤文本，能有效消除在文本跟蹤過程中背景對(duì)象引入的誤差，跟蹤算法具有更好的適應(yīng)性，能有效提取文本圖像在多幀的副本。最終通過多幀增強(qiáng)，在文本或者背景具有運(yùn)動(dòng)的情形下，可以顯著提高OCR軟件識(shí)別的準(zhǔn)確率。(2) 本發(fā)明的方法通過步驟(2)得到同一文本在多個(gè)視頻幀的圖像區(qū)域集合；由于疊加在視頻中的文本筆畫顏色是固定不變的，而背景畫面是運(yùn)動(dòng)的，根據(jù)文本顏色保持不變，而背景變化的特點(diǎn)，再在步驟(3)中采取最小像素搜索法，將多個(gè)文本圖像的信息綜合起來，更有效地消除了背景，得到一個(gè)具有簡(jiǎn)單背景的文本圖像，進(jìn)一步提高了OCR軟件對(duì)視頻文本的識(shí) 別準(zhǔn)確率。(3) 本發(fā)明在步驟(4)中利用最小均方差的二值化方法，對(duì)多幀綜合的結(jié)果進(jìn)行二值化操作，能夠得到具有干凈背景的文本二值化圖像，使得對(duì)視頻文本的識(shí)別準(zhǔn)確率更加提高。

圖l為本發(fā)明的方法流程圖；圖2為視頻中檢測(cè)到的文本圖像；圖3為本發(fā)明的基于文本筆畫邊緣對(duì)的二值模板，其中3a、 3b、 3c分別代表第l幀文本圖像的邊緣、邊緣對(duì)、以及邊緣經(jīng)由邊緣對(duì)重構(gòu)后的邊緣圖；3d、 3e、 3f、 3g、 3h、 3i分別表示第 10幀和第20幀的邊緣圖、邊緣對(duì)和重構(gòu)后的邊緣圖；圖4為本發(fā)明的Chamfer 5-7-11距離變換系數(shù)圖；圖5為本發(fā)明的Chamfer5-7-l 1距離變換示意圖，其中5a為二值圖像，5b為對(duì)應(yīng)的Hausdorff 距離圖像；圖6為本發(fā)明的簡(jiǎn)單背景下文本行跟蹤算法比較,其中6a是和已有算法的性能對(duì)比圖,6b-6e為視頻序列中的視頻幀；圖7為本發(fā)明的復(fù)雜背景下文本行跟蹤算法比較,其中7a是和已有算法的性能對(duì)比圖，7b-7e 為視頻序列中的視頻幀；圖8為本發(fā)明的文本行增強(qiáng)的結(jié)果，其中8a、 8d代表初始的文本圖像，8b、 8e代表多幀增強(qiáng)后的文本圖像，8c、 8f代表二值化后的文本圖像。
具體實(shí)施方式
在對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明前，先對(duì)涉及的關(guān)鍵概念Hausdorff距離度量進(jìn)行說明。給定兩組有限點(diǎn)集合J-(ap..…, }和5 = {&,,……,~}， Hausdorff距離定義為 //(x B) = max(/j(J, ￡)， /j(B，乂)) 其中/ 04,J5) = maxminl|a — 6|| ， = max tnin l( 6 — a |1函數(shù)/j(AS)稱為從^到5的有向Hausdorff距離，其意義是對(duì)集合^的任意一點(diǎn)j到集合B中所有點(diǎn)距離中選出最近距離，再考慮集合^的每一點(diǎn)到集合5最近距離集合中選擇最大值。/1(5，力的意義同W4萬)相似，稱為反向Hausdorff距離。如圖1所示，本發(fā)明的具體實(shí)施步驟如下-1.利用文本檢測(cè)算法，比如本發(fā)明專利申請(qǐng)人在"Chengjun Zhu, Yuanxin Ouyang, Lei Gao, Zhenyong Chen, Zhang Xiong， "An Automatic Video Text Detection, Localization and Extraction Approach", the 2th International Conference on Signal-Image Technology & Internet-Based Systems (SITIS 2006), http:〃www.u-bourgogne.fr/SITIS/06/index.htmT中公開的文本檢測(cè)算法，檢測(cè)視頻中文本出現(xiàn)的初始區(qū)域，記為文本圖像乂，將參考圖像Rf設(shè)置為力，令c代表文本圖像/;多個(gè)副本的集合，將乂添加到集合C中；； 2.具體的文本跟蹤過程如下步驟2丄.利用Canny邊緣算子提取Rf的邊緣圖￡M, Camy邊緣檢測(cè)算子是圖像處理領(lǐng)域常見的邊緣提取算子之一，邊緣圖像的二值圖像如圖3a、 3d和3g所示；步驟2,2:估算參考圖像Rf在后續(xù)幀的出現(xiàn)區(qū)域，記為R'。當(dāng)在下一幀中匹配當(dāng)前文本時(shí)，為了降低算法時(shí)間復(fù)雜度，提高匹配效率，本發(fā)明提出通過估計(jì)文本的最大運(yùn)動(dòng)速度來縮小匹配范圍。由于文本需要輔助觀眾理解視頻內(nèi)容，所以文本不可能運(yùn)動(dòng)速度太快。假定視頻的分辨率為RHxRv (Rv、 RH分別為垂直、水平分辨率)，幀率為s幀/秒，如果文本的顯示時(shí)間為&，那么當(dāng)前文本在相鄰幀垂直和水平方向上的偏移值可以由下面的公式計(jì)算得到由于網(wǎng)絡(luò)帶寬和存儲(chǔ)的原因，現(xiàn)在的視頻分辨率大多限制在352x240以下，幀率大約在20-30 幀/秒之間。根據(jù)視頻中的文本時(shí)間滯留時(shí)間統(tǒng)計(jì)，本發(fā)明設(shè)置&的最小估計(jì)值為3秒，所以根據(jù)公式，在相鄰幀，文本的最大偏移值可以設(shè)置為5v^4像素、欲-6像素。如果當(dāng)前文本區(qū)域/的矩形面積為wxft，根據(jù)最大偏移值5v和欲，可以估計(jì)出在相鄰下一幀的匹配區(qū)域R'的面積大小(w,十12)x" + 8)。步驟2.3:利用Canny邊緣算子提取R'的邊緣圖EM1;步驟2.4:利用文本筆畫形成的邊緣具有邊緣對(duì)的特點(diǎn)，刪除邊緣圖EM和EM1中的背景對(duì)象形成的邊緣。具體過程如下(a)計(jì)算文本圖像每個(gè)像素點(diǎn)的梯度方向代;c,力，計(jì)算公式如下<formula>formula see original document page 9</formula>(b) 如果在相鄰的距離[D^,DmaJ范圍內(nèi)出現(xiàn)梯度方向平行的兩個(gè)像素，則認(rèn)為這兩個(gè)像素構(gòu)成像素對(duì)，其中Dmin和D,的值由需要跟蹤的文本字體的大小決定。(c) 令EM代表邊緣集合，邊緣對(duì)(p" p》集合記為Ep,則Ep對(duì)E的重構(gòu)定義為，E經(jīng)由Ep重構(gòu)后得到結(jié)果主要由文本邊緣組成，由圖3可以看出，E經(jīng)由結(jié)構(gòu)算子Ep重構(gòu)后得到結(jié)果主要由文本邊緣ET組成。如圖3c、 3f和3i所示，經(jīng)過邊緣對(duì)重構(gòu)后的邊緣圖像主要包含了文本筆畫形成的邊緣。步驟2.5:采用Chamfer 5-7-11距離變換將邊緣圖EM和EM1進(jìn)行Hausdorff距離變換， Chamfer5-7-l 1變換系數(shù)的值如圖4所示；在實(shí)際計(jì)算Hausdorff距離吋，是將己知模板二值圖像與將匹配的未知二值圖像轉(zhuǎn)換為距離函數(shù)。距離函數(shù)是將二值圖像轉(zhuǎn)換為另一種灰度圖像，二值圖像的"l"，對(duì)應(yīng)于距離圖像的"0"。而二值圖像的"0"，依據(jù)距離變換系數(shù)轉(zhuǎn)換為不同的值，在距離圖像中離"0"越近，距離值越小，反之會(huì)很大。使用Chamfer 5-7-11距離有較高的精度。對(duì)一個(gè)給定的二值圖像(MxA0 ， DT的初始化是邊緣點(diǎn)賦值為零，非邊緣像素點(diǎn)賦值為無限或有限的極大值。用兩步迭代實(shí)現(xiàn)距離變換，前向距離變換從左到右從上到下掃描，而后向距離變換從右向左從下到上掃描，其大致程序描述如下Initialization:For I = 1, to M doFor j = 1 toN doIf (Ij)is edge pixel then DT(Ij) = 0ElseForward transformation: For I = 2 to M do Forj = 2toNdo DT(I j)= minimum[DT(I-l, j-2)+l 1,DT(I+l，j-2)+ll， DT(I-2,j-l)+ll, DT(I-l,j-I)+7， DT(I+0,j-l)+5, DT(I+l,j-l)+7， DT(I+2,j-l)+ll， DT(I-l,j+0)+5] Backward Transformation Fori =M-1 to 1 do For j = N-l to 1 do DT(I爐minimum[DT(I-1 j+2)+11 ， DT(I+lj+2)+11, DT(I-2』+l)+ll， DT(I-lj+l)+7, DT(闊+l)+5， DT(I+lj+l)+7, DT(I+2j+l)+ll, DT(I+l,j+0)+5];圖5a是一個(gè)二值圖像示例，5b是其對(duì)應(yīng)的Hausdorff距離圖像；步驟2.6:計(jì)算R'和Rf之間的Hausdorff距離值v，如果v小于預(yù)先設(shè)定的閾值，R'中取得值 v所在的區(qū)域f就是參考圖像Rf在相鄰幀的匹配區(qū)域；如果v大于預(yù)先設(shè)定的閾值，完成文本跟蹤過程；步驟2.7:將參考圖像Rf設(shè)置f，將Rf添加到集合C中，轉(zhuǎn)到步驟(2.1)，繼續(xù)跟蹤；3. 得到文本圖像在多個(gè)視頻幀的副本集合C后，本發(fā)明采用了最小像素搜索法來進(jìn)行文本質(zhì)量增強(qiáng)。將每個(gè)像素灰度值在時(shí)間維的值看作一維向量，由于文本的灰度值是穩(wěn)定的，而背景是變換的，在時(shí)間方向上取每個(gè)像素值的最小值，可以減少背景的影響。公式表示如下》=,船)其中C,視頻幀集合，幀/,eC,包含同一個(gè)文本區(qū)域。</,)。圖8a和8d分別是視頻中的兩個(gè) 文本行，圖8b和8e分別是其多幀綜合后的結(jié)果，可以看出，相對(duì)于原圖像8a和8d，背景復(fù)雜度大大降低了。4. 對(duì)于多幀增強(qiáng)后的結(jié)果，利用最小方差的二值化方法來進(jìn)行二值化。背景像素用黑色"0"表示，文本像素用白色"r表示。圖8c和8f分別是圖8b和8e二值化后的結(jié)果，可以看出，已經(jīng)達(dá)到OCR軟件識(shí)別的要求。本發(fā)明適用于需要對(duì)視頻內(nèi)容進(jìn)行自動(dòng)理解的場(chǎng)合，比如多媒體檢索系統(tǒng)、，手機(jī)牌照識(shí)別場(chǎng)景中的文字以、智能監(jiān)控場(chǎng)景下識(shí)別衣服上的號(hào)碼等場(chǎng)合。本發(fā)明的方法可以采用Ddphi、 visual (;++等編程語言來實(shí)現(xiàn)生成文本增強(qiáng)軟件，與視頻文本檢測(cè)算法相結(jié)合，將文本檢測(cè)算法的輸出作為輸入，輸入到本發(fā)明的方法中，本發(fā)明的方法輸出高質(zhì)量的二值化文本圖像，可以輸入到OCR軟件進(jìn)行OCR識(shí)別。常用的OCR軟件包括漢王、清華紫光等。如圖3所示，可以看出，經(jīng)過邊緣對(duì)分析，背景形成的邊緣大部分都被消除。得到二值邊緣模板后，采用Chamfer 5-7-11系數(shù)對(duì)二值圖像進(jìn)行變換，Chamfer 5-7-11系數(shù) 如圖4所示。二值圖像變換后的結(jié)果如圖5所示。追蹤過程采用本發(fā)明提出Hausdorff距離比較的方法，可以得到文本圖像在多幀的副本，圖 6和圖7給出了兩個(gè)本發(fā)明跟蹤算法的結(jié)果，可以看出，相對(duì)于以往的基于SSD值得算法，具有更好的適應(yīng)性。圖8給出了兩個(gè)通過多幀增強(qiáng)后，具有干凈黑背景的文本增強(qiáng)結(jié)果。
權(quán)利要求
1、一種視頻中的文本跟蹤和多幀增強(qiáng)方法，其特征在于包括以下步驟(1)利用文本檢測(cè)算法檢測(cè)視頻序列第i幀中出現(xiàn)的文本區(qū)域，記為文本圖像fi，將參考圖像Rf設(shè)置為fi，令C代表文本圖像fi多個(gè)副本的集合，將fi添加到集合C中；(2)跟蹤文本圖像fi在相鄰幀的位置，跟蹤過程如下步驟2.1利用Canny邊緣算子提取參考圖像Rf的邊緣圖EM；步驟2.2估算參考圖像Rf在后續(xù)幀的出現(xiàn)區(qū)域，記為R′；步驟2.3利用Canny邊緣算子提取R′的邊緣圖EM1；步驟2.4利用文本筆畫形成的邊緣具有邊緣對(duì)的特點(diǎn)，刪除邊緣圖EM和EM1中的背景對(duì)象形成的邊緣；步驟2.5采用Chamfer 5-7-11距離變換將邊緣圖EM和EM1進(jìn)行Hausdorff距離變換；步驟2.6計(jì)算R′和Rf之間的Hausdorff距離值v，如果v小于預(yù)先設(shè)定的閾值，R′中取得值v所在的區(qū)域f′就是參考圖像Rf在相鄰幀的匹配區(qū)域；如果v大于預(yù)先設(shè)定的閾值，完成文本跟蹤過程；步驟2.7將參考圖像Rf設(shè)置f，將Rf添加到集合C中，轉(zhuǎn)到步驟(2.1)，繼續(xù)跟蹤；(3)利用最小像素搜索法，經(jīng)由集合C中的多個(gè)文本圖像，得到一個(gè)新的文本圖像f，此時(shí)變換的背景已經(jīng)被大大減弱消除；(4)利用最小均方差的二值化方法，對(duì)文本圖像f進(jìn)行二值化操作，最終得到具有干凈背景的文本二值化圖像。
2、根據(jù)權(quán)利要求l所述的一種視頻中的文本跟蹤和多幀增強(qiáng)方法，其特征在于所述步驟 (2.4)的方法如下-(1)計(jì)算文本圖像每個(gè)像素點(diǎn)的梯度方向eOr,力，計(jì)算公式如下<formula>formula see original document page 2</formula>(2)如果在相鄰的距離[Dmin,DmaJ范圍內(nèi)出現(xiàn)梯度方向平行的兩個(gè)像素，則認(rèn)為這兩個(gè)像素構(gòu)成像素對(duì)，其中D^和Dmax的值由需要跟蹤的文本字體的大小決定；(3)令EM代表邊緣集合，邊緣對(duì)(p!，p2)集合記為Ep,則Ep對(duì)E的重構(gòu)定義為，E經(jīng)由Ep重構(gòu)后得到結(jié)果主要由文本邊緣組成。
3、根據(jù)權(quán)利要求l所述的一種視頻中的文本跟蹤和多幀增強(qiáng)方法，其特征在于所述步驟 (2.2)的方法如下(1)假定視頻的分辨率為RHXRv，Rv、 RH分別為垂直、水平分辨率，幀率s幀/秒，如果文本的出現(xiàn)時(shí)間為&，那么當(dāng)前文本在相鄰幀垂直和水平方向上的偏移值-(2)設(shè)置&的最小估計(jì)值，根據(jù)上述公式，在相鄰幀得到文本的最大偏幀垂直偏移值和最大水平方向偏移值，如果當(dāng)前文本區(qū)乂的矩形面積為wXh，根據(jù)最大偏移值如和朋，可以估計(jì)出參考圖像&在相鄰下一幀的匹配區(qū)域面積大小<formula>formula see original document page 3</formula>
全文摘要
本發(fā)明涉及一種視頻中的文本跟蹤和多幀增強(qiáng)方法。視頻中的文本，大都疊加在復(fù)雜背景中，將其直接送入OCR(光學(xué)字符識(shí)別)軟件識(shí)別，識(shí)別率較低，所以還需要進(jìn)行文本增強(qiáng)操作，以便將文本和背景分離。視頻中的文本，大都要持續(xù)數(shù)十幀甚至上百幀，并且在相鄰幀中，文本顏色基本保持不變，而背景是動(dòng)態(tài)變化的，所以多幀之間具有大量的互補(bǔ)信息可用于文本增強(qiáng)。本發(fā)明的方法利用文本筆畫具有邊緣對(duì)的特點(diǎn)消除背景邊緣像素的影響，然后使用Hausdorff距離度量方法跟蹤文本在相鄰幀的位置，在得到文本圖像在相鄰幀的多個(gè)副本之后，利用最小像素搜索法消除背景，得到具有干凈背景的二值文本圖像，可以大大提高OCR軟件對(duì)視頻文本的識(shí)別率。
文檔編號(hào)G06K9/32GK101276416SQ20081010165
公開日2008年10月1日申請(qǐng)日期2008年3月10日優(yōu)先權(quán)日2008年3月10日
發(fā)明者朱成軍, 超李, 璋熊, 秦思思申請(qǐng)人:北京航空航天大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱成軍;李超;秦思思;熊璋
技術(shù)所有人：北京航空航天大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

opencv幀差法跟蹤物體相關(guān)技術(shù)

跟蹤誤差的計(jì)算方法相關(guān)技術(shù)

10條跟蹤意向客戶方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種視頻中的文本跟蹤和多幀增強(qiáng)方法