一種用于預(yù)處理包括文本的視頻區(qū)域的方法及系統(tǒng)的制作方法

文檔序號(hào)：6350462閱讀：186來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：一種用于預(yù)處理包括文本的視頻區(qū)域的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及廣播領(lǐng)域。尤其是，本發(fā)明涉及一種用于預(yù)處理包括文本的視頻區(qū)域的方法及系統(tǒng)。更具體地，本發(fā)明涉及一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的輸入的方法和系統(tǒng)。
背景技術(shù)：
近年來(lái)使用諸如電視、計(jì)算機(jī)等裝置進(jìn)行信息動(dòng)態(tài)傳播有顯著增長(zhǎng)。這樣的裝置正在越來(lái)越多地用于獲取與各領(lǐng)域相關(guān)的最新信息。通過(guò)這些裝置的信息傳播是以視頻、音頻、文本或其組合的形式進(jìn)行的。新聞廣播是以視頻、音頻、文本及其組合的形式進(jìn)行的信息傳播的最好示例。
在當(dāng)前情況下，用戶(hù)僅可以獲得正在傳播的信息。為了獲得特定主題或感興趣的領(lǐng)域的進(jìn)一步相關(guān)信息，用戶(hù)必須使用一些其它的信息源，例如因特網(wǎng)。用戶(hù)必須進(jìn)行手動(dòng)搜索以獲取例如電視的信息傳播裝置正在傳播的信息以外的、所感興趣的領(lǐng)域的相關(guān)信肩、ο
為了獲取信息傳播裝置上正在顯示的信息以外的、用戶(hù)所需的與感興趣的領(lǐng)域相關(guān)的信息，需要具有一套使用當(dāng)前的包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能并隨后搜索的自動(dòng)化系統(tǒng)。因此，應(yīng)當(dāng)有效地確定包括文本的視頻區(qū)域，以改進(jìn)光學(xué)字符識(shí)別的性能并利用所述文本進(jìn)行隨后搜索。
我們所知的能夠進(jìn)行基于文本的搜索、但不足以有效地確定包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能并隨后搜索的一些現(xiàn)有方法和系統(tǒng)如下
Kim等的專(zhuān)利US67665^提供了一種用于在電視節(jié)目中顯示附加信息的裝置和方法。其教導(dǎo)了一種用于從諸如因特網(wǎng)的外部源獲取信息以及進(jìn)一步顯示給用戶(hù)(如果提出要求)的方法。
Tomsen等的專(zhuān)利US20020083464提供了上下文敏感請(qǐng)求，其用于搜索與互動(dòng)電視系統(tǒng)正顯示的電視廣播相關(guān)的補(bǔ)充內(nèi)容。該專(zhuān)利沒(méi)有教導(dǎo)預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別性能以及使用預(yù)處理后的包括文本的視頻區(qū)域隨后搜索相關(guān)信息。
Kim等的專(zhuān)利US20090019482提供了一種圖像顯示裝置和利用該圖像顯示裝置的信息提供方法。該專(zhuān)利討論了所述圖像顯示裝置，諸如數(shù)字電視機(jī)，根據(jù)播放時(shí)段將網(wǎng)絡(luò)服務(wù)器提供的RSS (簡(jiǎn)易信息聚合)信息分類(lèi)，并且在相應(yīng)的播放時(shí)段顯示預(yù)定類(lèi)別的RSS信肩、ο
Ullman等的專(zhuān)利US20020038344提供了一種用于將視頻節(jié)目與互聯(lián)網(wǎng)的大量的信息資源結(jié)合的系統(tǒng)。Ullman等教導(dǎo)了一種基于計(jì)算機(jī)的系統(tǒng)，該基于計(jì)算機(jī)的系統(tǒng)接收帶有嵌入式統(tǒng)一資源定位符(URL)的視頻節(jié)目。
Piotrowski的專(zhuān)利US2002188959提供了一種允許視頻/電視節(jié)目的觀看者自動(dòng)地或按要求接收與所述視頻/電視節(jié)目相關(guān)的同步的補(bǔ)充多媒體信息的系統(tǒng)和方法。所解決的問(wèn)題尤其涉及補(bǔ)充多媒體信息，該補(bǔ)充多媒體信息作為一種例如使用同步多媒體集成語(yǔ)言(SMIL)的互聯(lián)網(wǎng)文件被接收。從視頻/電視節(jié)目接收/提取同步信息。此外，其涉及以虛擬網(wǎng)頁(yè)顯示視頻/電視節(jié)目和補(bǔ)充多媒體信息。
Chen 等在"GeoTV :navigating geocoded rss to create an IPTV experience，，中教導(dǎo)了 GeoTV，通過(guò)其中的架構(gòu)，以有意義的方式展示和推行網(wǎng)頁(yè)內(nèi)容，為電視觀眾創(chuàng)造娛樂(lè)體驗(yàn)。
Farhi在“Broadband News Aggregator”中教導(dǎo)了從多信源傳送新聞的寬帶互動(dòng)電視應(yīng)用。
在我們自己的以前的專(zhuān)利2236/MUM/2008和出版物“Recognition of trademarks from sports videos for channel hyper linking in consumer end，，中公開(kāi)一禾中從體育視頻自動(dòng)識(shí)別商標(biāo)以通道超鏈接的系統(tǒng)。使用文本的一些特性定位文本區(qū)域，并且通過(guò)與來(lái)自受限商標(biāo)數(shù)據(jù)庫(kù)的形狀不變特征和顏色特征相比較來(lái)識(shí)別商標(biāo)。
以上提及的現(xiàn)有技術(shù)未公開(kāi)一種可以預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能并使用預(yù)處理后的包括文本的視頻區(qū)域隨后搜索相關(guān)的信息的有效方法和系統(tǒng)。因此，根據(jù)上述背景技術(shù)，可以看出，需要一種解決方案，該解決方案可以提供一種用于準(zhǔn)確地預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能并使用輸出的預(yù)處理后的包括文本的視頻區(qū)域隨后搜索相關(guān)的信息的方法及系統(tǒng)。
發(fā)明目的
根據(jù)本發(fā)明，主要目的是提供一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能的方法及系統(tǒng)。
本發(fā)明的另一目的是提供一種用于預(yù)處理包括文本的視頻區(qū)域以隨后搜索、獲取并進(jìn)一步顯示與嵌入在視頻流中的文本相關(guān)的信息的方法及系統(tǒng)。發(fā)明內(nèi)容
在描述本發(fā)明的方法、系統(tǒng)和硬件啟用之前，應(yīng)該明白，本發(fā)明不限于所描述的特定系統(tǒng)和方法，而可以有本發(fā)明的多種可能的實(shí)施方式，這些實(shí)施方式在本發(fā)明中未明確說(shuō)明。還應(yīng)該明白，在描述中所使用的術(shù)語(yǔ)僅用于描述特定的類(lèi)型或?qū)嵤┓绞?，并不意圖限制本發(fā)明的范圍，本發(fā)明的范圍僅由所附的權(quán)利要求所限定。
本發(fā)明提供一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能的方法及系統(tǒng)。
在本發(fā)明的一個(gè)方面中，提供一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能和隨后搜索、獲取以及進(jìn)一步顯示與嵌入在視頻流中的文本相關(guān)的信息的方法及系統(tǒng)。
在本發(fā)明的另一方面中，可以自動(dòng)地或由用戶(hù)手動(dòng)地確定包括嵌入在視頻流中的文本的區(qū)域。
以上的所述方法和系統(tǒng)優(yōu)選地用于預(yù)處理嵌入在視頻流中的文本，該文本可以用作若干應(yīng)用的輸入。

當(dāng)結(jié)合附圖閱讀時(shí)，可以更好地理解上述發(fā)明內(nèi)容和下文的優(yōu)選實(shí)施方式的詳細(xì)描述。為了說(shuō)明本發(fā)明，在附圖中示出本發(fā)明的示例性結(jié)構(gòu)；然而，本發(fā)明并不限于所描述的特定方法及系統(tǒng)。在附圖中
圖1是示出預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能的流程圖2是示出定位包括文本的視頻區(qū)域中的文本圖像的傳統(tǒng)的/現(xiàn)有技術(shù)的流程圖3是示出將包括文本的視頻區(qū)域中的定位到的文本圖像提高至更高分辨率的流程圖4是示出分割二值化的文本圖像的至少兩個(gè)粘連字符的流程圖5是示出將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入的流程圖6是示出搜索確定的關(guān)鍵字以隨后顯示并存儲(chǔ)檢索到的信息的流程圖。
具體實(shí)施方式
現(xiàn)在將詳細(xì)討論說(shuō)明本發(fā)明的所有特征的一些實(shí)施方式。
詞語(yǔ)“包括”、“具有”、“含有”及“包含”及其他的形式意思相同并且是開(kāi)放性的，因?yàn)檫@些詞中的任意一詞之后的一個(gè)項(xiàng)目或多個(gè)項(xiàng)目并不意味著是這樣一個(gè)項(xiàng)目或多個(gè)項(xiàng)目的詳盡的列表，或者并不意味著僅局限于所列出的一個(gè)項(xiàng)目或多個(gè)項(xiàng)目。
還需要指出，除非上下文明確地另有規(guī)定，說(shuō)明書(shū)和所附權(quán)利要求中使用的單數(shù)形式“一”和“該”包括復(fù)數(shù)引用。雖然在本發(fā)明的實(shí)施方式的實(shí)施和測(cè)試中可以使用與本發(fā)明描述的系統(tǒng)和方法相似或相同的任何系統(tǒng)和方法，但現(xiàn)在描述優(yōu)選的系統(tǒng)和方法。
所公開(kāi)的實(shí)施方式僅是本發(fā)明的示例性實(shí)施方式，其可以以各種形式體現(xiàn)。
本發(fā)明實(shí)現(xiàn)了一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能的方法和系統(tǒng)。在本發(fā)明的一個(gè)實(shí)施方式中，輸出文本可以用于隨后搜索，將預(yù)處理后的包括文本的視頻區(qū)域用作輸入來(lái)獲取與這樣的文本相關(guān)的進(jìn)一步信息以及顯示獲取的搜索到的與所述文本相關(guān)的信息。
本發(fā)明提供一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入的方法，其中，通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟預(yù)處理所述包括文本的視頻區(qū)域
a.定位包括文本的視頻區(qū)域中的文本圖像；
b.將包括文本的視頻區(qū)域中的所識(shí)別的文本圖像提高至更高分辨率；
c. 二值化提高的高分辨率文本圖像；
d.分割二值化的文本圖像的至少兩個(gè)粘連字符；以及
e.將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入。
本發(fā)明還提出一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入的系統(tǒng)，其中，所述系統(tǒng)包括
a.至少一個(gè)圖像處理裝置，所述圖像處理裝置能夠定位文本圖像、將定位到的文本圖像提高至更高分辨率、之后二值化所述定位到的文本圖像、分割二值化的文本圖像的至少兩個(gè)粘連字符以及將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于OCR(光學(xué)字符識(shí)別) 的改進(jìn)的輸入；以及
b.至少一個(gè)光學(xué)字符識(shí)別裝置，用于識(shí)別預(yù)處理后的文本輸入；以及
c.以通信方式互相連接的至少一個(gè)數(shù)字存儲(chǔ)裝置和存儲(chǔ)元件，用于存儲(chǔ)預(yù)處理后的包括文本的視頻區(qū)域。
參照?qǐng)D1，圖1是示出預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能的流程圖。
該過(guò)程開(kāi)始于步驟100，定位包括文本的視頻區(qū)域中的文本圖像。在步驟200中，通過(guò)使用圖像處理裝置，將包括文本的視頻區(qū)域中的定位到的文本圖像提高至更高分辨率。在步驟300中，通過(guò)使用圖像處理裝置，二值化提高的高分辨率文本圖像，在步驟400 中，通過(guò)使用圖像處理裝置，分割二值化的文本圖像的至少兩個(gè)粘連字符。該過(guò)程結(jié)束于步驟500，將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入。預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入和隨后搜索、獲取并顯示與包括文本的視頻區(qū)域相關(guān)的附加信息。
參照?qǐng)D2，圖2是示出定位包括文本的視頻區(qū)域中的文本圖像的傳統(tǒng)的/現(xiàn)有技術(shù)的流程圖。其中，通過(guò)使用光學(xué)字符識(shí)別裝置定位包括文本的視頻區(qū)域中的文本圖像。
該過(guò)程開(kāi)始于步驟102，使用亮度的直流分量獲得視頻流中的高對(duì)比度的宏塊。在步驟104中，獲得視頻流中的具有強(qiáng)垂直邊緣的宏塊。在步驟106中，去除視頻流中不滿(mǎn)足文本特性的宏塊。在步驟108中，在時(shí)域中進(jìn)行濾波以去除視頻流中高光色候選宏塊。在步驟110中，標(biāo)記視頻流中的文本區(qū)域。過(guò)程結(jié)束于步驟112，檢測(cè)各候選文本區(qū)域的屏幕布局以定位包括文本的視頻區(qū)域中的文本圖像。
參照?qǐng)D3，圖3是示出將包括文本的視頻區(qū)域中的定位到的文本圖像提高至更高分辨率的流程圖。
在本發(fā)明的另一實(shí)施方式中，通過(guò)使用圖像處理裝置，將包括文本的視頻區(qū)域中的定位到的文本圖像提高至更高分辨率。
該過(guò)程開(kāi)始于步驟202，應(yīng)用具有濾波器系數(shù)的六抽頭有限脈沖響應(yīng)濾波器，將所關(guān)注的區(qū)域在高度和寬度上放大兩倍。其中，所述濾波器系數(shù)為1、-5、20、20、-5、1。在步驟204中，應(yīng)用插值技術(shù)進(jìn)一步將所關(guān)注的區(qū)域在高度和寬度上放大兩倍。在步驟206中，在所述更高分辨率圖像中應(yīng)用離散余弦變換。在步驟208中，通過(guò)應(yīng)用巴特沃斯低通濾波器，摒除高頻率分量。該過(guò)程結(jié)束于步驟210，應(yīng)用反離散余弦變換重建更高分辨率的圖像。
在本發(fā)明的另一實(shí)施方式中，通過(guò)使用圖像處理裝置，二值化提高的高分辨率文本圖像。通過(guò)使用圖像處理裝置，將包括文本的視頻區(qū)域中的識(shí)別的文本圖像提高至更高的分辨率，然后，使用自適應(yīng)閾值算法對(duì)輸出進(jìn)行二值化?？赡苡腥舾煞椒▉?lái)實(shí)現(xiàn)二值化，使得可以分離文本圖像的前景和背景。然而，因?yàn)橄嚓P(guān)的文本區(qū)域中存在的字符和背景不具有固定的灰度值，因此在用于二值化的該方法中使用自適應(yīng)閾值轉(zhuǎn)換法。為了獲取閾值圖像，該解決方案中使用最大類(lèi)間方差(Otsu)法。
參照?qǐng)D4，圖4是示出分割二值化的文本圖像的至少兩個(gè)粘連字符的流程圖。
在本發(fā)明的另一實(shí)施方式中，分割二值化的文本圖像的至少兩個(gè)粘連字符。通過(guò)使用圖像處理裝置進(jìn)行粘連字符分割。
通過(guò)使用圖像處理裝置，二值化提高的高分辨率文本圖像。以二值化的圖像的形式的輸出用于粘連字符分割。一旦非常頻繁地獲得二值化的圖像，可以看出，圖像由許多粘連字符組成。這些粘連字符降低了任何光學(xué)字符識(shí)別裝置的準(zhǔn)確率。因此，要改進(jìn)光學(xué)字符識(shí)別的性能，需要粘連字符分割。
該過(guò)程開(kāi)始于步驟402，計(jì)算二值化的圖像中各字符的寬度。假定具有顯著寬度的每個(gè)連接單元是一字符。使第i個(gè)單元的字符寬度為WCitj在步驟404中，確定二值化的圖像中的平均字符寬度。通過(guò)使用％^=%1；1,計(jì)算所述平均字符寬度。其中，η為所關(guān)注/=1的區(qū)域中的字符的數(shù)量。在步驟406中，計(jì)算二值化的圖像中的字符寬度的標(biāo)準(zhǔn)偏差。根據(jù)= STDEV(WCi)計(jì)算字符寬度的標(biāo)準(zhǔn)偏差(。J。該過(guò)程結(jié)束于步驟408，限定二值化的圖像中的字符長(zhǎng)度的閾值。根據(jù)Twc= μ κ+3 計(jì)算字符長(zhǎng)度的閾值(Τκ)。如果WCiWC>TW。，將所述第i個(gè)字符標(biāo)記為候選粘連字符。根據(jù)A= +1計(jì)算第i個(gè)候選單元中l(wèi)ive粘連字符的數(shù)量。以&個(gè)等間隔段分割WCitj
參照?qǐng)D5，圖5是示出將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入的流程圖。
在本發(fā)明的另一實(shí)施方式中，通過(guò)利用圖像處理裝置，將來(lái)自分割的文本圖像的關(guān)鍵字確定為改進(jìn)的輸入，該改進(jìn)的輸入用于光學(xué)字符識(shí)別以及用于搜索、獲取和顯示與包括文本的視頻區(qū)域相關(guān)的附加信息。
該過(guò)程開(kāi)始于步驟502，從嵌入在視頻流中的文本的分割的文本圖像中選擇全部字母為大寫(xiě)的關(guān)鍵字。在步驟504中，計(jì)算嵌入在視頻流中的文本的分割的文本圖像的一文本行中的字?jǐn)?shù)。在步驟506中，如果一文本行中的字?jǐn)?shù)大于用試探法獲得的閾值，則所述文本行被認(rèn)為是候選關(guān)鍵字。在步驟508中，從候選關(guān)鍵字中去除停用字。在步驟510中，連接候選關(guān)鍵字中的剩余字以產(chǎn)生搜索字符串。該過(guò)程結(jié)束于步驟512，所述連接的關(guān)鍵字用作改進(jìn)的輸入，該改進(jìn)的輸入用于光學(xué)字符識(shí)別和搜索字符串，所述搜索字符串用于搜索、隨后獲取和顯示與嵌入在視頻流中的文本相關(guān)的附加信息。
參照?qǐng)D6，圖6是示出搜索確定的關(guān)鍵字以隨后顯示并存儲(chǔ)檢索出的信息的流程圖。
在本發(fā)明的又一實(shí)施方式中，搜索來(lái)自分割的文本圖像的關(guān)鍵字，以隨后獲取和顯示與嵌入在視頻流中的文本相關(guān)的附加信息。
該過(guò)程開(kāi)始于步驟602，確定關(guān)鍵字。在步驟604中，在RSS源中或因特網(wǎng)上搜索確定的關(guān)鍵字。在步驟606中，在用戶(hù)界面上顯示檢索到的信息。該過(guò)程結(jié)束于步驟608，將檢索到的信息存儲(chǔ)在可擴(kuò)展標(biāo)記語(yǔ)言文件中。
參照本發(fā)明的各個(gè)實(shí)施方式示出上述描述。本發(fā)明所屬領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到，在意義上不脫離本發(fā)明的原理、精神和范圍的情況下，可以對(duì)描述的操作過(guò)程和方法進(jìn)行替換和改變。
本發(fā)明的操作的最佳樽式/示例
在下文提供的示例中描述本發(fā)明，所述示例僅用于說(shuō)明本發(fā)明且因此不應(yīng)當(dāng)解釋為限制本發(fā)明的范圍。
在一示例中，提供一種用于預(yù)處理聯(lián)網(wǎng)電視中的包括文本的視頻區(qū)域的方法和系統(tǒng)，所述方法和系統(tǒng)可以定位電視機(jī)上顯示的新聞視頻中的突發(fā)新聞或跑馬燈新聞，以改進(jìn)光學(xué)字符識(shí)別輸入。所述方法和系統(tǒng)提供從因特網(wǎng)或RSS源隨后搜索、獲取與所述包括文本的視頻區(qū)域相關(guān)的信息，并且進(jìn)一步將與嵌入在視頻流中的文本相關(guān)的信息顯示在用戶(hù)的電視機(jī)上。
所述方法和系統(tǒng)依照句法分析新聞視頻，并產(chǎn)生搜索請(qǐng)求。而且，所述方法和系統(tǒng)使用諸如谷歌的搜索引擎來(lái)搜索產(chǎn)生的搜索請(qǐng)求。用于搜索的關(guān)鍵字識(shí)別基于試探法，所述試探法反過(guò)來(lái)基于一些觀察，例如，突發(fā)新聞總是以大寫(xiě)字母出現(xiàn)，那些重要新聞的字體大小大于跑馬燈文本的字體大小，所述跑馬燈文本僅出現(xiàn)在中心區(qū)域上方或下方，在所述中心區(qū)域示出主持人、演播室或一些新聞簡(jiǎn)報(bào)。
以上所述的觀察引起下面的用以確定關(guān)鍵字的方法從光學(xué)字符識(shí)別的輸出中選擇識(shí)別出的所有字母為大寫(xiě)的字，得出文本行中的字?jǐn)?shù)。如果文本行中的字?jǐn)?shù)大于用試探法獲取的閾值，則其被認(rèn)為是候選文本區(qū)域。如果獲得多個(gè)這樣的文本行，則所述方法查明在視頻幀的中間以上是否具有任何這樣的文本行。如果在視頻幀的中間以下獲得多個(gè)這樣的文本行，則選擇較接近視頻幀的中間的文本行并將其作為候選文本。所述方法和系統(tǒng)將該文本行用作搜索RSS源的輸入。在下一步中，從候選文本中刪除停用字，例如“一”、“該”、 “用于”、“的”等。將剩余字進(jìn)行連接，以產(chǎn)生因特網(wǎng)搜索引擎或RSS源的搜索字符串。在因特網(wǎng)或RSS源上搜索的、與突發(fā)新聞或跑馬燈新聞相關(guān)的信息被檢索出并在電視機(jī)上顯示給用戶(hù)。
根據(jù)所提供的方法和系統(tǒng)，盡管對(duì)來(lái)自視頻的文本區(qū)域的定位可能有一些錯(cuò)誤判斷，但該定位可以在最小誤差下進(jìn)行。然而數(shù)據(jù)語(yǔ)義分析對(duì)這些錯(cuò)誤判斷進(jìn)行處理。光學(xué)字符識(shí)別的輸出也可能不準(zhǔn)確，但是當(dāng)使用最長(zhǎng)公共子序列匹配和編輯距離從RSS源搜索相關(guān)的信息時(shí)，這些誤差不會(huì)影響獲得所需的結(jié)果。
權(quán)利要求
1.一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入的方法，其中，通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟來(lái)預(yù)處理所述包括文本的視頻區(qū)域a.定位所述包括文本的視頻區(qū)域中的文本圖像；b.將所述包括文本的視頻區(qū)域中的所識(shí)別的文本圖像提高至更高分辨率；c.二值化提高的高分辨率文本圖像；d.分割二值化的文本圖像中的至少兩個(gè)粘連字符；以及e.將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入。
2.如權(quán)利要求1所述的方法，其中，通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟定位所述包括文本的視頻區(qū)域中的所述文本a.利用亮度的直流分量，獲得所述包括文本的視頻區(qū)域中的高對(duì)比度的宏塊；b.獲得所述包括文本的視頻區(qū)域中的具有強(qiáng)垂直邊緣的宏塊；c.去除所述包括文本的視頻區(qū)域中的不滿(mǎn)足文本特性的宏塊；d.在時(shí)域中進(jìn)行濾波以去除所述包括文本的視頻區(qū)域中的高光色候選宏塊；e.標(biāo)記所述包括文本的視頻區(qū)域中的文本區(qū)域；以及f.檢測(cè)每個(gè)候選文本區(qū)域的屏幕布局，以識(shí)別所述包括文本的視頻區(qū)域中的文本圖像。
3.如權(quán)利要求1所述的方法，其中，通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟，將所述包括文本的視頻區(qū)域中的定位到的文本圖像進(jìn)一步提高至更高分辨率a.應(yīng)用具有濾波器系數(shù)的六抽頭有限脈沖響應(yīng)濾波器，將所關(guān)注的區(qū)域在高度和寬度上放大兩倍；b.應(yīng)用插值技術(shù)進(jìn)一步將所關(guān)注的區(qū)域在高度和寬度上放大兩倍；c.在所述更高分辨率的圖像上應(yīng)用離散余弦變換；d.通過(guò)應(yīng)用巴特沃斯低通濾波器，摒除高頻分量；以及e.應(yīng)用反離散余弦變換，重建所述更高分辨率的圖像。
4.如權(quán)利要求1所述的方法，其中，通過(guò)自適應(yīng)閾值轉(zhuǎn)換法來(lái)二值化所述提高的高分辨率文本圖像，以分離所述文本圖像的前景和背景。
5.如權(quán)利要求1所述的方法，其中，通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟，分割二值化的圖像的至少兩個(gè)粘連字符a.獲得所述二值化的圖像中的每個(gè)字符的寬度；b.確定所述二值化的圖像中的平均字符寬度；c.獲得所述二值化的圖像中的字符寬度的標(biāo)準(zhǔn)偏差；以及d.限定所述二值化的圖像中的字符長(zhǎng)度的閾值。
6.如權(quán)利要求1所述的方法，其中，通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟，確定來(lái)自分割的文本圖像的關(guān)鍵字a.從所述包括文本的視頻區(qū)域的分割的文本圖像中選擇所有字母為大寫(xiě)的關(guān)鍵字；b.獲得所述包括文本的視頻區(qū)域的分割的文本圖像的文本行中的字?jǐn)?shù)；c.如果文本行中的字?jǐn)?shù)大于用試探法獲得的閾值，則將所述文本行作為候選關(guān)鍵字；d.從所述候選關(guān)鍵字中去除停用字；e.連接所述候選關(guān)鍵字中的剩余字以產(chǎn)生搜索字符串；f.使用連接的關(guān)鍵字作為搜索字符串，以改進(jìn)光學(xué)字符識(shí)別的性能。
7.如權(quán)利要求6所述的方法，其中，所述停用字選自由比如“一”、“該”、“用于”、“或”、 “的”構(gòu)成的組。
8.如權(quán)利要求1所述的方法，其中，來(lái)自分割的文本圖像的所述關(guān)鍵字用作搜索請(qǐng)求，以搜索、獲取并顯示與嵌入在視頻流中的文本相關(guān)的附加信息。
9.如權(quán)利要求1所述的方法，其中，預(yù)處理后的包括文本的視頻區(qū)域還用于在包括相關(guān)信息的因特網(wǎng)或簡(jiǎn)易信息聚合源中搜索與所述文本相關(guān)的附加信息。
10.如權(quán)利要求9所述的方法，其中，搜索到的與所述預(yù)處理后的包括文本的視頻區(qū)域相關(guān)的附加信息顯示在用戶(hù)界面上。
11.如權(quán)利要求10所述的方法，其中，搜索到并顯示的與所述預(yù)處理后的包括文本的視頻區(qū)域相關(guān)的附加信息被存儲(chǔ)在可擴(kuò)展標(biāo)記語(yǔ)言文件中。
12.如權(quán)利要求8所述的方法，其中，處理后的、搜索到的、獲取的并顯示的與包括文本的視頻區(qū)域相關(guān)的附加信息與看電視時(shí)的新聞?dòng)嘘P(guān)。
13.如權(quán)利要求12所述的方法，其中，所述新聞選自包括突發(fā)新聞和跑馬燈新聞的組。
14.一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入的系統(tǒng)，其中，所述系統(tǒng)包括a.至少一個(gè)圖像處理裝置，所述圖像處理裝置能夠定位文本圖像、將定位到的文本圖像提高至更高分辨率、之后二值化、分割二值化的文本圖像的至少兩個(gè)粘連字符、以及將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入；以及b.至少一個(gè)光學(xué)字符識(shí)別裝置，用于識(shí)別預(yù)處理后的文本輸入；以及c.以通信方式相互連接的至少一個(gè)數(shù)字存儲(chǔ)裝置和存儲(chǔ)元件，用于存儲(chǔ)預(yù)處理后的包括文本的視頻區(qū)域。
15.如權(quán)利要求14所述的系統(tǒng)，其中，利用所述圖像處理裝置，通過(guò)自適應(yīng)閾值轉(zhuǎn)換法來(lái)二值化提高的高分辨率文本圖像以分離文本圖像的前景和背景。
16.如權(quán)利要求14所述的系統(tǒng)，其中，來(lái)自分割的文本圖像的關(guān)鍵字用作搜索請(qǐng)求，以搜索、獲取并顯示與嵌入在視頻流中的文本相關(guān)的附加信息。
17.如權(quán)利要求14所述的系統(tǒng)，其中，預(yù)處理后的包括文本的視頻區(qū)域還用于在包括相關(guān)信息的因特網(wǎng)或簡(jiǎn)易信息聚合源中搜索與所述文本相關(guān)的附加信息。
18.如權(quán)利要求17所述的系統(tǒng)，其中，搜索到的與所述預(yù)處理后的包括文本的視頻區(qū)域相關(guān)的附加信息顯示在用戶(hù)界面上。
19.如權(quán)利要求18所述的系統(tǒng)，其中，搜索到并顯示的與所述預(yù)處理后的包括文本的視頻區(qū)域相關(guān)的附加信息以可擴(kuò)展標(biāo)記語(yǔ)言文件的形式存儲(chǔ)在數(shù)字存儲(chǔ)裝置中。
全文摘要
一種用于預(yù)處理包括文本的視頻區(qū)域的方法及系統(tǒng)。本發(fā)明提供了一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入的方法和系統(tǒng)。
文檔編號(hào)G06K9/34GK102511048SQ201080042059
公開(kāi)日2012年6月20日申請(qǐng)日期2010年12月29日優(yōu)先權(quán)日2009年12月31日
發(fā)明者A·帕爾, A·辛哈, T·查托帕迪亞申請(qǐng)人:塔塔咨詢(xún)服務(wù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：T·查托帕迪亞;A·辛哈;A·帕爾
技術(shù)所有人：塔塔咨詢(xún)服務(wù)有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：共享服務(wù)器側(cè)宏的制作方法
上一篇：用于提供高級(jí)搜索結(jié)果頁(yè)面內(nèi)容的系統(tǒng)和方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本預(yù)處理相關(guān)技術(shù)

超文本預(yù)處理器相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于預(yù)處理包括文本的視頻區(qū)域的方法及系統(tǒng)的制作方法