亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于預(yù)處理包括文本的視頻區(qū)域的方法及系統(tǒng)的制作方法

文檔序號(hào):6350462閱讀:186來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種用于預(yù)處理包括文本的視頻區(qū)域的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及廣播領(lǐng)域。尤其是,本發(fā)明涉及一種用于預(yù)處理包括文本的視頻區(qū)域的方法及系統(tǒng)。更具體地,本發(fā)明涉及一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的輸入的方法和系統(tǒng)。
背景技術(shù)
近年來(lái)使用諸如電視、計(jì)算機(jī)等裝置進(jìn)行信息動(dòng)態(tài)傳播有顯著增長(zhǎng)。這樣的裝置正在越來(lái)越多地用于獲取與各領(lǐng)域相關(guān)的最新信息。通過(guò)這些裝置的信息傳播是以視頻、 音頻、文本或其組合的形式進(jìn)行的。新聞廣播是以視頻、音頻、文本及其組合的形式進(jìn)行的信息傳播的最好示例。
在當(dāng)前情況下,用戶(hù)僅可以獲得正在傳播的信息。為了獲得特定主題或感興趣的領(lǐng)域的進(jìn)一步相關(guān)信息,用戶(hù)必須使用一些其它的信息源,例如因特網(wǎng)。用戶(hù)必須進(jìn)行手動(dòng)搜索以獲取例如電視的信息傳播裝置正在傳播的信息以外的、所感興趣的領(lǐng)域的相關(guān)信肩、ο
為了獲取信息傳播裝置上正在顯示的信息以外的、用戶(hù)所需的與感興趣的領(lǐng)域相關(guān)的信息,需要具有一套使用當(dāng)前的包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能并隨后搜索的自動(dòng)化系統(tǒng)。因此,應(yīng)當(dāng)有效地確定包括文本的視頻區(qū)域,以改進(jìn)光學(xué)字符識(shí)別的性能并利用所述文本進(jìn)行隨后搜索。
我們所知的能夠進(jìn)行基于文本的搜索、但不足以有效地確定包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能并隨后搜索的一些現(xiàn)有方法和系統(tǒng)如下
Kim等的專(zhuān)利US67665^提供了一種用于在電視節(jié)目中顯示附加信息的裝置和方法。其教導(dǎo)了一種用于從諸如因特網(wǎng)的外部源獲取信息以及進(jìn)一步顯示給用戶(hù)(如果提出要求)的方法。
Tomsen等的專(zhuān)利US20020083464提供了上下文敏感請(qǐng)求,其用于搜索與互動(dòng)電視系統(tǒng)正顯示的電視廣播相關(guān)的補(bǔ)充內(nèi)容。該專(zhuān)利沒(méi)有教導(dǎo)預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別性能以及使用預(yù)處理后的包括文本的視頻區(qū)域隨后搜索相關(guān)信息。
Kim等的專(zhuān)利US20090019482提供了一種圖像顯示裝置和利用該圖像顯示裝置的信息提供方法。該專(zhuān)利討論了所述圖像顯示裝置,諸如數(shù)字電視機(jī),根據(jù)播放時(shí)段將網(wǎng)絡(luò)服務(wù)器提供的RSS (簡(jiǎn)易信息聚合)信息分類(lèi),并且在相應(yīng)的播放時(shí)段顯示預(yù)定類(lèi)別的RSS信肩、ο
Ullman等的專(zhuān)利US20020038344提供了一種用于將視頻節(jié)目與互聯(lián)網(wǎng)的大量的信息資源結(jié)合的系統(tǒng)。Ullman等教導(dǎo)了一種基于計(jì)算機(jī)的系統(tǒng),該基于計(jì)算機(jī)的系統(tǒng)接收帶有嵌入式統(tǒng)一資源定位符(URL)的視頻節(jié)目。
Piotrowski的專(zhuān)利US2002188959提供了一種允許視頻/電視節(jié)目的觀看者自動(dòng)地或按要求接收與所述視頻/電視節(jié)目相關(guān)的同步的補(bǔ)充多媒體信息的系統(tǒng)和方法。所解決的問(wèn)題尤其涉及補(bǔ)充多媒體信息,該補(bǔ)充多媒體信息作為一種例如使用同步多媒體集成語(yǔ)言(SMIL)的互聯(lián)網(wǎng)文件被接收。從視頻/電視節(jié)目接收/提取同步信息。此外,其涉及以虛擬網(wǎng)頁(yè)顯示視頻/電視節(jié)目和補(bǔ)充多媒體信息。
Chen 等在"GeoTV :navigating geocoded rss to create an IPTV experience,, 中教導(dǎo)了 GeoTV,通過(guò)其中的架構(gòu),以有意義的方式展示和推行網(wǎng)頁(yè)內(nèi)容,為電視觀眾創(chuàng)造娛樂(lè)體驗(yàn)。
Farhi在“Broadband News Aggregator”中教導(dǎo)了從多信源傳送新聞的寬帶互動(dòng)電視應(yīng)用。
在我們自己的以前的專(zhuān)利2236/MUM/2008和出版物“Recognition of trademarks from sports videos for channel hyper linking in consumer end,,中公開(kāi)一禾中從體育視頻自動(dòng)識(shí)別商標(biāo)以通道超鏈接的系統(tǒng)。使用文本的一些特性定位文本區(qū)域,并且通過(guò)與來(lái)自受限商標(biāo)數(shù)據(jù)庫(kù)的形狀不變特征和顏色特征相比較來(lái)識(shí)別商標(biāo)。
以上提及的現(xiàn)有技術(shù)未公開(kāi)一種可以預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能并使用預(yù)處理后的包括文本的視頻區(qū)域隨后搜索相關(guān)的信息的有效方法和系統(tǒng)。因此,根據(jù)上述背景技術(shù),可以看出,需要一種解決方案,該解決方案可以提供一種用于準(zhǔn)確地預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能并使用輸出的預(yù)處理后的包括文本的視頻區(qū)域隨后搜索相關(guān)的信息的方法及系統(tǒng)。
發(fā)明目的
根據(jù)本發(fā)明,主要目的是提供一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能的方法及系統(tǒng)。
本發(fā)明的另一目的是提供一種用于預(yù)處理包括文本的視頻區(qū)域以隨后搜索、獲取并進(jìn)一步顯示與嵌入在視頻流中的文本相關(guān)的信息的方法及系統(tǒng)。發(fā)明內(nèi)容
在描述本發(fā)明的方法、系統(tǒng)和硬件啟用之前,應(yīng)該明白,本發(fā)明不限于所描述的特定系統(tǒng)和方法,而可以有本發(fā)明的多種可能的實(shí)施方式,這些實(shí)施方式在本發(fā)明中未明確說(shuō)明。還應(yīng)該明白,在描述中所使用的術(shù)語(yǔ)僅用于描述特定的類(lèi)型或?qū)嵤┓绞?,并不意圖限制本發(fā)明的范圍,本發(fā)明的范圍僅由所附的權(quán)利要求所限定。
本發(fā)明提供一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能的方法及系統(tǒng)。
在本發(fā)明的一個(gè)方面中,提供一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能和隨后搜索、獲取以及進(jìn)一步顯示與嵌入在視頻流中的文本相關(guān)的信息的方法及系統(tǒng)。
在本發(fā)明的另一方面中,可以自動(dòng)地或由用戶(hù)手動(dòng)地確定包括嵌入在視頻流中的文本的區(qū)域。
以上的所述方法和系統(tǒng)優(yōu)選地用于預(yù)處理嵌入在視頻流中的文本,該文本可以用作若干應(yīng)用的輸入。


當(dāng)結(jié)合附圖閱讀時(shí),可以更好地理解上述發(fā)明內(nèi)容和下文的優(yōu)選實(shí)施方式的詳細(xì)描述。為了說(shuō)明本發(fā)明,在附圖中示出本發(fā)明的示例性結(jié)構(gòu);然而,本發(fā)明并不限于所描述的特定方法及系統(tǒng)。在附圖中
圖1是示出預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能的流程圖2是示出定位包括文本的視頻區(qū)域中的文本圖像的傳統(tǒng)的/現(xiàn)有技術(shù)的流程圖3是示出將包括文本的視頻區(qū)域中的定位到的文本圖像提高至更高分辨率的流程圖4是示出分割二值化的文本圖像的至少兩個(gè)粘連字符的流程圖5是示出將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入的流程圖6是示出搜索確定的關(guān)鍵字以隨后顯示并存儲(chǔ)檢索到的信息的流程圖。
具體實(shí)施方式
現(xiàn)在將詳細(xì)討論說(shuō)明本發(fā)明的所有特征的一些實(shí)施方式。
詞語(yǔ)“包括”、“具有”、“含有”及“包含”及其他的形式意思相同并且是開(kāi)放性的, 因?yàn)檫@些詞中的任意一詞之后的一個(gè)項(xiàng)目或多個(gè)項(xiàng)目并不意味著是這樣一個(gè)項(xiàng)目或多個(gè)項(xiàng)目的詳盡的列表,或者并不意味著僅局限于所列出的一個(gè)項(xiàng)目或多個(gè)項(xiàng)目。
還需要指出,除非上下文明確地另有規(guī)定,說(shuō)明書(shū)和所附權(quán)利要求中使用的單數(shù)形式“一”和“該”包括復(fù)數(shù)引用。雖然在本發(fā)明的實(shí)施方式的實(shí)施和測(cè)試中可以使用與本發(fā)明描述的系統(tǒng)和方法相似或相同的任何系統(tǒng)和方法,但現(xiàn)在描述優(yōu)選的系統(tǒng)和方法。
所公開(kāi)的實(shí)施方式僅是本發(fā)明的示例性實(shí)施方式,其可以以各種形式體現(xiàn)。
本發(fā)明實(shí)現(xiàn)了一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能的方法和系統(tǒng)。在本發(fā)明的一個(gè)實(shí)施方式中,輸出文本可以用于隨后搜索,將預(yù)處理后的包括文本的視頻區(qū)域用作輸入來(lái)獲取與這樣的文本相關(guān)的進(jìn)一步信息以及顯示獲取的搜索到的與所述文本相關(guān)的信息。
本發(fā)明提供一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入的方法,其中,通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟預(yù)處理所述包括文本的視頻區(qū)域
a.定位包括文本的視頻區(qū)域中的文本圖像;
b.將包括文本的視頻區(qū)域中的所識(shí)別的文本圖像提高至更高分辨率;
c. 二值化提高的高分辨率文本圖像;
d.分割二值化的文本圖像的至少兩個(gè)粘連字符;以及
e.將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入。
本發(fā)明還提出一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入的系統(tǒng),其中,所述系統(tǒng)包括
a.至少一個(gè)圖像處理裝置,所述圖像處理裝置能夠定位文本圖像、將定位到的文本圖像提高至更高分辨率、之后二值化所述定位到的文本圖像、分割二值化的文本圖像的至少兩個(gè)粘連字符以及將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于OCR(光學(xué)字符識(shí)別) 的改進(jìn)的輸入;以及
b.至少一個(gè)光學(xué)字符識(shí)別裝置,用于識(shí)別預(yù)處理后的文本輸入;以及
c.以通信方式互相連接的至少一個(gè)數(shù)字存儲(chǔ)裝置和存儲(chǔ)元件,用于存儲(chǔ)預(yù)處理后的包括文本的視頻區(qū)域。
參照?qǐng)D1,圖1是示出預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別的性能的流程圖。
該過(guò)程開(kāi)始于步驟100,定位包括文本的視頻區(qū)域中的文本圖像。在步驟200中, 通過(guò)使用圖像處理裝置,將包括文本的視頻區(qū)域中的定位到的文本圖像提高至更高分辨率。在步驟300中,通過(guò)使用圖像處理裝置,二值化提高的高分辨率文本圖像,在步驟400 中,通過(guò)使用圖像處理裝置,分割二值化的文本圖像的至少兩個(gè)粘連字符。該過(guò)程結(jié)束于步驟500,將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入。預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入和隨后搜索、獲取并顯示與包括文本的視頻區(qū)域相關(guān)的附加信息。
參照?qǐng)D2,圖2是示出定位包括文本的視頻區(qū)域中的文本圖像的傳統(tǒng)的/現(xiàn)有技術(shù)的流程圖。其中,通過(guò)使用光學(xué)字符識(shí)別裝置定位包括文本的視頻區(qū)域中的文本圖像。
該過(guò)程開(kāi)始于步驟102,使用亮度的直流分量獲得視頻流中的高對(duì)比度的宏塊。在步驟104中,獲得視頻流中的具有強(qiáng)垂直邊緣的宏塊。在步驟106中,去除視頻流中不滿(mǎn)足文本特性的宏塊。在步驟108中,在時(shí)域中進(jìn)行濾波以去除視頻流中高光色候選宏塊。在步驟110中,標(biāo)記視頻流中的文本區(qū)域。過(guò)程結(jié)束于步驟112,檢測(cè)各候選文本區(qū)域的屏幕布局以定位包括文本的視頻區(qū)域中的文本圖像。
參照?qǐng)D3,圖3是示出將包括文本的視頻區(qū)域中的定位到的文本圖像提高至更高分辨率的流程圖。
在本發(fā)明的另一實(shí)施方式中,通過(guò)使用圖像處理裝置,將包括文本的視頻區(qū)域中的定位到的文本圖像提高至更高分辨率。
該過(guò)程開(kāi)始于步驟202,應(yīng)用具有濾波器系數(shù)的六抽頭有限脈沖響應(yīng)濾波器,將所關(guān)注的區(qū)域在高度和寬度上放大兩倍。其中,所述濾波器系數(shù)為1、-5、20、20、-5、1。在步驟204中,應(yīng)用插值技術(shù)進(jìn)一步將所關(guān)注的區(qū)域在高度和寬度上放大兩倍。在步驟206中, 在所述更高分辨率圖像中應(yīng)用離散余弦變換。在步驟208中,通過(guò)應(yīng)用巴特沃斯低通濾波器,摒除高頻率分量。該過(guò)程結(jié)束于步驟210,應(yīng)用反離散余弦變換重建更高分辨率的圖像。
在本發(fā)明的另一實(shí)施方式中,通過(guò)使用圖像處理裝置,二值化提高的高分辨率文本圖像。通過(guò)使用圖像處理裝置,將包括文本的視頻區(qū)域中的識(shí)別的文本圖像提高至更高的分辨率,然后,使用自適應(yīng)閾值算法對(duì)輸出進(jìn)行二值化??赡苡腥舾煞椒▉?lái)實(shí)現(xiàn)二值化, 使得可以分離文本圖像的前景和背景。然而,因?yàn)橄嚓P(guān)的文本區(qū)域中存在的字符和背景不具有固定的灰度值,因此在用于二值化的該方法中使用自適應(yīng)閾值轉(zhuǎn)換法。為了獲取閾值圖像,該解決方案中使用最大類(lèi)間方差(Otsu)法。
參照?qǐng)D4,圖4是示出分割二值化的文本圖像的至少兩個(gè)粘連字符的流程圖。
在本發(fā)明的另一實(shí)施方式中,分割二值化的文本圖像的至少兩個(gè)粘連字符。通過(guò)使用圖像處理裝置進(jìn)行粘連字符分割。
通過(guò)使用圖像處理裝置,二值化提高的高分辨率文本圖像。以二值化的圖像的形式的輸出用于粘連字符分割。一旦非常頻繁地獲得二值化的圖像,可以看出,圖像由許多粘連字符組成。這些粘連字符降低了任何光學(xué)字符識(shí)別裝置的準(zhǔn)確率。因此,要改進(jìn)光學(xué)字符識(shí)別的性能,需要粘連字符分割。
該過(guò)程開(kāi)始于步驟402,計(jì)算二值化的圖像中各字符的寬度。假定具有顯著寬度的每個(gè)連接單元是一字符。使第i個(gè)單元的字符寬度為WCitj在步驟404中,確定二值化的圖像中的平均字符寬度。通過(guò)使用%^=%1;1,計(jì)算所述平均字符寬度。其中,η為所關(guān)注/=1的區(qū)域中的字符的數(shù)量。在步驟406中,計(jì)算二值化的圖像中的字符寬度的標(biāo)準(zhǔn)偏差。根據(jù)= STDEV(WCi)計(jì)算字符寬度的標(biāo)準(zhǔn)偏差(。J。該過(guò)程結(jié)束于步驟408,限定二值化的圖像中的字符長(zhǎng)度的閾值。根據(jù)Twc= μ κ+3 計(jì)算字符長(zhǎng)度的閾值(Τκ)。如果WCiWC>TW。,將所述第i個(gè)字符標(biāo)記為候選粘連字符。根據(jù)A= +1計(jì)算第i個(gè)候選單元中l(wèi)ive粘連字符的數(shù)量。以&個(gè)等間隔段分割WCitj
參照?qǐng)D5,圖5是示出將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入的流程圖。
在本發(fā)明的另一實(shí)施方式中,通過(guò)利用圖像處理裝置,將來(lái)自分割的文本圖像的關(guān)鍵字確定為改進(jìn)的輸入,該改進(jìn)的輸入用于光學(xué)字符識(shí)別以及用于搜索、獲取和顯示與包括文本的視頻區(qū)域相關(guān)的附加信息。
該過(guò)程開(kāi)始于步驟502,從嵌入在視頻流中的文本的分割的文本圖像中選擇全部字母為大寫(xiě)的關(guān)鍵字。在步驟504中,計(jì)算嵌入在視頻流中的文本的分割的文本圖像的一文本行中的字?jǐn)?shù)。在步驟506中,如果一文本行中的字?jǐn)?shù)大于用試探法獲得的閾值,則所述文本行被認(rèn)為是候選關(guān)鍵字。在步驟508中,從候選關(guān)鍵字中去除停用字。在步驟510中, 連接候選關(guān)鍵字中的剩余字以產(chǎn)生搜索字符串。該過(guò)程結(jié)束于步驟512,所述連接的關(guān)鍵字用作改進(jìn)的輸入,該改進(jìn)的輸入用于光學(xué)字符識(shí)別和搜索字符串,所述搜索字符串用于搜索、隨后獲取和顯示與嵌入在視頻流中的文本相關(guān)的附加信息。
參照?qǐng)D6,圖6是示出搜索確定的關(guān)鍵字以隨后顯示并存儲(chǔ)檢索出的信息的流程圖。
在本發(fā)明的又一實(shí)施方式中,搜索來(lái)自分割的文本圖像的關(guān)鍵字,以隨后獲取和顯示與嵌入在視頻流中的文本相關(guān)的附加信息。
該過(guò)程開(kāi)始于步驟602,確定關(guān)鍵字。在步驟604中,在RSS源中或因特網(wǎng)上搜索確定的關(guān)鍵字。在步驟606中,在用戶(hù)界面上顯示檢索到的信息。該過(guò)程結(jié)束于步驟608, 將檢索到的信息存儲(chǔ)在可擴(kuò)展標(biāo)記語(yǔ)言文件中。
參照本發(fā)明的各個(gè)實(shí)施方式示出上述描述。本發(fā)明所屬領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,在意義上不脫離本發(fā)明的原理、精神和范圍的情況下,可以對(duì)描述的操作過(guò)程和方法進(jìn)行替換和改變。
本發(fā)明的操作的最佳樽式/示例
在下文提供的示例中描述本發(fā)明,所述示例僅用于說(shuō)明本發(fā)明且因此不應(yīng)當(dāng)解釋為限制本發(fā)明的范圍。
在一示例中,提供一種用于預(yù)處理聯(lián)網(wǎng)電視中的包括文本的視頻區(qū)域的方法和系統(tǒng),所述方法和系統(tǒng)可以定位電視機(jī)上顯示的新聞視頻中的突發(fā)新聞或跑馬燈新聞,以改進(jìn)光學(xué)字符識(shí)別輸入。所述方法和系統(tǒng)提供從因特網(wǎng)或RSS源隨后搜索、獲取與所述包括文本的視頻區(qū)域相關(guān)的信息,并且進(jìn)一步將與嵌入在視頻流中的文本相關(guān)的信息顯示在用戶(hù)的電視機(jī)上。
所述方法和系統(tǒng)依照句法分析新聞視頻,并產(chǎn)生搜索請(qǐng)求。而且,所述方法和系統(tǒng)使用諸如谷歌的搜索引擎來(lái)搜索產(chǎn)生的搜索請(qǐng)求。用于搜索的關(guān)鍵字識(shí)別基于試探法,所述試探法反過(guò)來(lái)基于一些觀察,例如,突發(fā)新聞總是以大寫(xiě)字母出現(xiàn),那些重要新聞的字體大小大于跑馬燈文本的字體大小,所述跑馬燈文本僅出現(xiàn)在中心區(qū)域上方或下方,在所述中心區(qū)域示出主持人、演播室或一些新聞簡(jiǎn)報(bào)。
以上所述的觀察引起下面的用以確定關(guān)鍵字的方法從光學(xué)字符識(shí)別的輸出中選擇識(shí)別出的所有字母為大寫(xiě)的字,得出文本行中的字?jǐn)?shù)。如果文本行中的字?jǐn)?shù)大于用試探法獲取的閾值,則其被認(rèn)為是候選文本區(qū)域。如果獲得多個(gè)這樣的文本行,則所述方法查明在視頻幀的中間以上是否具有任何這樣的文本行。如果在視頻幀的中間以下獲得多個(gè)這樣的文本行,則選擇較接近視頻幀的中間的文本行并將其作為候選文本。所述方法和系統(tǒng)將該文本行用作搜索RSS源的輸入。在下一步中,從候選文本中刪除停用字,例如“一”、“該”、 “用于”、“的”等。將剩余字進(jìn)行連接,以產(chǎn)生因特網(wǎng)搜索引擎或RSS源的搜索字符串。在因特網(wǎng)或RSS源上搜索的、與突發(fā)新聞或跑馬燈新聞相關(guān)的信息被檢索出并在電視機(jī)上顯示給用戶(hù)。
根據(jù)所提供的方法和系統(tǒng),盡管對(duì)來(lái)自視頻的文本區(qū)域的定位可能有一些錯(cuò)誤判斷,但該定位可以在最小誤差下進(jìn)行。然而數(shù)據(jù)語(yǔ)義分析對(duì)這些錯(cuò)誤判斷進(jìn)行處理。光學(xué)字符識(shí)別的輸出也可能不準(zhǔn)確,但是當(dāng)使用最長(zhǎng)公共子序列匹配和編輯距離從RSS源搜索相關(guān)的信息時(shí),這些誤差不會(huì)影響獲得所需的結(jié)果。
權(quán)利要求
1.一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入的方法,其中,通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟來(lái)預(yù)處理所述包括文本的視頻區(qū)域a.定位所述包括文本的視頻區(qū)域中的文本圖像;b.將所述包括文本的視頻區(qū)域中的所識(shí)別的文本圖像提高至更高分辨率;c.二值化提高的高分辨率文本圖像;d.分割二值化的文本圖像中的至少兩個(gè)粘連字符;以及e.將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入。
2.如權(quán)利要求1所述的方法,其中,通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟定位所述包括文本的視頻區(qū)域中的所述文本a.利用亮度的直流分量,獲得所述包括文本的視頻區(qū)域中的高對(duì)比度的宏塊;b.獲得所述包括文本的視頻區(qū)域中的具有強(qiáng)垂直邊緣的宏塊;c.去除所述包括文本的視頻區(qū)域中的不滿(mǎn)足文本特性的宏塊;d.在時(shí)域中進(jìn)行濾波以去除所述包括文本的視頻區(qū)域中的高光色候選宏塊;e.標(biāo)記所述包括文本的視頻區(qū)域中的文本區(qū)域;以及f.檢測(cè)每個(gè)候選文本區(qū)域的屏幕布局,以識(shí)別所述包括文本的視頻區(qū)域中的文本圖像。
3.如權(quán)利要求1所述的方法,其中,通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟,將所述包括文本的視頻區(qū)域中的定位到的文本圖像進(jìn)一步提高至更高分辨率a.應(yīng)用具有濾波器系數(shù)的六抽頭有限脈沖響應(yīng)濾波器,將所關(guān)注的區(qū)域在高度和寬度上放大兩倍;b.應(yīng)用插值技術(shù)進(jìn)一步將所關(guān)注的區(qū)域在高度和寬度上放大兩倍;c.在所述更高分辨率的圖像上應(yīng)用離散余弦變換;d.通過(guò)應(yīng)用巴特沃斯低通濾波器,摒除高頻分量;以及e.應(yīng)用反離散余弦變換,重建所述更高分辨率的圖像。
4.如權(quán)利要求1所述的方法,其中,通過(guò)自適應(yīng)閾值轉(zhuǎn)換法來(lái)二值化所述提高的高分辨率文本圖像,以分離所述文本圖像的前景和背景。
5.如權(quán)利要求1所述的方法,其中,通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟,分割二值化的圖像的至少兩個(gè)粘連字符a.獲得所述二值化的圖像中的每個(gè)字符的寬度;b.確定所述二值化的圖像中的平均字符寬度;c.獲得所述二值化的圖像中的字符寬度的標(biāo)準(zhǔn)偏差;以及d.限定所述二值化的圖像中的字符長(zhǎng)度的閾值。
6.如權(quán)利要求1所述的方法,其中,通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的下列步驟,確定來(lái)自分割的文本圖像的關(guān)鍵字a.從所述包括文本的視頻區(qū)域的分割的文本圖像中選擇所有字母為大寫(xiě)的關(guān)鍵字;b.獲得所述包括文本的視頻區(qū)域的分割的文本圖像的文本行中的字?jǐn)?shù);c.如果文本行中的字?jǐn)?shù)大于用試探法獲得的閾值,則將所述文本行作為候選關(guān)鍵字;d.從所述候選關(guān)鍵字中去除停用字;e.連接所述候選關(guān)鍵字中的剩余字以產(chǎn)生搜索字符串;f.使用連接的關(guān)鍵字作為搜索字符串,以改進(jìn)光學(xué)字符識(shí)別的性能。
7.如權(quán)利要求6所述的方法,其中,所述停用字選自由比如“一”、“該”、“用于”、“或”、 “的”構(gòu)成的組。
8.如權(quán)利要求1所述的方法,其中,來(lái)自分割的文本圖像的所述關(guān)鍵字用作搜索請(qǐng)求, 以搜索、獲取并顯示與嵌入在視頻流中的文本相關(guān)的附加信息。
9.如權(quán)利要求1所述的方法,其中,預(yù)處理后的包括文本的視頻區(qū)域還用于在包括相關(guān)信息的因特網(wǎng)或簡(jiǎn)易信息聚合源中搜索與所述文本相關(guān)的附加信息。
10.如權(quán)利要求9所述的方法,其中,搜索到的與所述預(yù)處理后的包括文本的視頻區(qū)域相關(guān)的附加信息顯示在用戶(hù)界面上。
11.如權(quán)利要求10所述的方法,其中,搜索到并顯示的與所述預(yù)處理后的包括文本的視頻區(qū)域相關(guān)的附加信息被存儲(chǔ)在可擴(kuò)展標(biāo)記語(yǔ)言文件中。
12.如權(quán)利要求8所述的方法,其中,處理后的、搜索到的、獲取的并顯示的與包括文本的視頻區(qū)域相關(guān)的附加信息與看電視時(shí)的新聞?dòng)嘘P(guān)。
13.如權(quán)利要求12所述的方法,其中,所述新聞選自包括突發(fā)新聞和跑馬燈新聞的組。
14.一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入的系統(tǒng),其中,所述系統(tǒng)包括a.至少一個(gè)圖像處理裝置,所述圖像處理裝置能夠定位文本圖像、將定位到的文本圖像提高至更高分辨率、之后二值化、分割二值化的文本圖像的至少兩個(gè)粘連字符、以及將來(lái)自分割的文本圖像的關(guān)鍵字確定為用于光學(xué)字符識(shí)別的改進(jìn)的輸入;以及b.至少一個(gè)光學(xué)字符識(shí)別裝置,用于識(shí)別預(yù)處理后的文本輸入;以及c.以通信方式相互連接的至少一個(gè)數(shù)字存儲(chǔ)裝置和存儲(chǔ)元件,用于存儲(chǔ)預(yù)處理后的包括文本的視頻區(qū)域。
15.如權(quán)利要求14所述的系統(tǒng),其中,利用所述圖像處理裝置,通過(guò)自適應(yīng)閾值轉(zhuǎn)換法來(lái)二值化提高的高分辨率文本圖像以分離文本圖像的前景和背景。
16.如權(quán)利要求14所述的系統(tǒng),其中,來(lái)自分割的文本圖像的關(guān)鍵字用作搜索請(qǐng)求,以搜索、獲取并顯示與嵌入在視頻流中的文本相關(guān)的附加信息。
17.如權(quán)利要求14所述的系統(tǒng),其中,預(yù)處理后的包括文本的視頻區(qū)域還用于在包括相關(guān)信息的因特網(wǎng)或簡(jiǎn)易信息聚合源中搜索與所述文本相關(guān)的附加信息。
18.如權(quán)利要求17所述的系統(tǒng),其中,搜索到的與所述預(yù)處理后的包括文本的視頻區(qū)域相關(guān)的附加信息顯示在用戶(hù)界面上。
19.如權(quán)利要求18所述的系統(tǒng),其中,搜索到并顯示的與所述預(yù)處理后的包括文本的視頻區(qū)域相關(guān)的附加信息以可擴(kuò)展標(biāo)記語(yǔ)言文件的形式存儲(chǔ)在數(shù)字存儲(chǔ)裝置中。
全文摘要
一種用于預(yù)處理包括文本的視頻區(qū)域的方法及系統(tǒng)。本發(fā)明提供了一種用于預(yù)處理包括文本的視頻區(qū)域以改進(jìn)光學(xué)字符識(shí)別輸入的方法和系統(tǒng)。
文檔編號(hào)G06K9/34GK102511048SQ201080042059
公開(kāi)日2012年6月20日 申請(qǐng)日期2010年12月29日 優(yōu)先權(quán)日2009年12月31日
發(fā)明者A·帕爾, A·辛哈, T·查托帕迪亞 申請(qǐng)人:塔塔咨詢(xún)服務(wù)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1