文本檢測方法和裝置以及文本信息提取方法和系統(tǒng)的制作方法【專利摘要】本發(fā)明涉及文本檢測方法和裝置以及文本信息提取方法和系統(tǒng)。提供了用于檢測包括至少一個(gè)連通體(CC)的圖像中的文本區(qū)域的方法。該方法包括:文本背景區(qū)域(TBR)檢測步驟,用于從圖像中檢測至少一個(gè)TBR;CC過濾步驟,用于基于檢測到的TBR對(duì)所述至少一個(gè)CC進(jìn)行過濾以保留至少一個(gè)候選文本CC;和CC組合步驟,將所述至少一個(gè)候選文本CC進(jìn)行組合以得到文本區(qū)域。根據(jù)本發(fā)明的方法可以快速地和/或精確地指出圖像中的文本位置,從而改進(jìn)文本檢測的性能?!緦@f明】文本檢測方法和裝置以及文本信息提取方法和系統(tǒng)【
技術(shù)領(lǐng)域:
】[0001]本公開涉及文本檢測,更具體地說,本公開涉及文本檢測方法和裝置以及文本信息提取方法和系統(tǒng)?!?br>背景技術(shù):
】[0002]檢測圖像中的文本,尤其是自然圖像中的文本,對(duì)于一些計(jì)算機(jī)視覺應(yīng)用,比如對(duì)于視覺受損人員和外國人的計(jì)算機(jī)輔助、圖像和視頻的自動(dòng)檢索,以及都市環(huán)境中的機(jī)器導(dǎo)航來說至關(guān)重要。[0003]但是,自然場景中的文本檢測是個(gè)困難的主題。與打印的頁面、傳真、名片的掃描不同,主要的挑戰(zhàn)在于文本的多樣性:字體、字號(hào)、斜角、由于傾斜造成的失真等。比如不均勻的照明和反光、較差光照條件以及復(fù)雜的背景之類的環(huán)境因素增加了更多復(fù)雜情況。[0004]在相關(guān)文獻(xiàn)中,用于檢測自然場景中的文本區(qū)域的文本檢測方法通常遵循圖1所示出的流程。圖1中的方法100開始于框110,從圖像生成分量。這里,分量例如可以是連通體(CC),連通體是具有相似顏色或灰度或筆劃寬度的像素集合。[0005]然后,在框120,從每個(gè)分量提取各種特征,并且基于這些特征濾除非文本分量,留下候選文本分量。[0006]然后,在框130,留下的候選文本分量被組合在一起以形成文本行或單詞,并且按照文本行或單詞的最小外接框(包含文本的最小多邊形)輸出文本區(qū)域。[0007]現(xiàn)有技術(shù)的一個(gè)普遍問題是它們?cè)噲D僅通過文本區(qū)域的特征,比如邊緣、角、筆劃、顏色和紋理,來檢測文本。但是忽略了文本周圍的上下文信息,而上下文信息在大多數(shù)情況下可能是有幫助的。結(jié)果,現(xiàn)有技術(shù)由于復(fù)雜的非文本區(qū)域而出現(xiàn)誤檢,并且由于自然場景中文本的較大差異性而出現(xiàn)漏檢。[0008]因此,需要一種改進(jìn)的利用文本區(qū)域周圍的上下文信息在圖像中進(jìn)行文本檢測的方式。[0009]一篇已發(fā)表論文“Scenerycharacterdetect1nwithenvironmentalcontext,,,作者YasuhiroKunishige,FengYaokai,SeiichiUchida,發(fā)表于Internat1nalConferenceonDocumentAnalysisandRecognit1n(ICDAR),ppl049-1053,2011,提出了一種使用上下文信息的理念的文本檢測方法。具體而言,該篇論文從目標(biāo)分量的擴(kuò)展區(qū)域提取上下文特征,其中擴(kuò)展區(qū)域是通過在目標(biāo)分量周圍增加10個(gè)像素的裕量而形成的。此外,該方法將分量分類到六種場景分量類別之一中:“天空”、“綠地”、“招牌”、“地面”、“建筑物”和“其它”。此方法的一個(gè)問題是,比如“天空”、“綠地”的普通類另IJ與文本檢測無關(guān),而“招牌”不覆蓋文本背景區(qū)域的所有種類,比如標(biāo)志、標(biāo)簽、名冊(cè)、海報(bào)等。此方法的另一問題是,上下文信息是從具有固定大小的裕量區(qū)域中提取的,這無法適應(yīng)場景變化。【
發(fā)明內(nèi)容】[0010]需要解決以上問題中的至少一個(gè)。[0011]發(fā)明人發(fā)現(xiàn),為了易于被看到,自然場景中的大多數(shù)文本被印在與文本形成高對(duì)比度的相對(duì)均勻的背景區(qū)域上。這可以有助于文本檢測。[0012]因此,在本公開中提出了一種新的文本檢測方法和裝置,以改進(jìn)圖像中的文本檢測的性能,尤其是自然場景圖像中文本檢測的性能。在本發(fā)明中引入一個(gè)新的概念,即文本背景區(qū)域(TBR),以定義文本周圍的這種典型背景區(qū)域。在自然場景圖像中,TBR通常作為招牌、標(biāo)志、標(biāo)簽、名冊(cè)、海報(bào)等存在,但是不限于這些形式。本發(fā)明不僅利用表示字符的特征,而且利用表示字符周圍的背景區(qū)域的特征。而且,不是直接尋找文本區(qū)域,而是通過首先尋找TBR并且將圖像中的分量標(biāo)識(shí)為位于TBR內(nèi)的分量或位于所有TBR外的分量,來搜索文本。假設(shè)比起TBR外部,文本更有可能出現(xiàn)在TBR中?;谠摷僭O(shè),可以使用TBR信息來幫助文本檢測。[0013]根據(jù)本發(fā)明的第一方面,提供了一種用于檢測包括至少一個(gè)連通體(CC)的圖像中的文本區(qū)域的文本檢測方法。該方法包括:文本背景區(qū)域(TBR)檢測步驟,用于從圖像中檢測至少一個(gè)TBR;CC過濾步驟,用于基于檢測到的TBR對(duì)該至少一個(gè)CC進(jìn)行過濾以保留至少一個(gè)候選文本CC;以及連通體組合步驟,用于組合該至少一個(gè)候選文本CC以得到文本區(qū)域。[0014]根據(jù)本發(fā)明的第二方面,提供了一種用于檢測包括至少一個(gè)連通體(CC)的圖像中的文本區(qū)域的文本檢測裝置。該裝置包括:文本背景區(qū)域(TBR)檢測單元,被配置為從該圖像中檢測至少一個(gè)TBR;CC過濾單元,被配置為基于檢測到的TBR對(duì)該至少一個(gè)CC進(jìn)行過濾以保留至少一個(gè)候選文本CC;CC組合單元,被配置為組合該至少一個(gè)候選文本CC以得到文本區(qū)域。[0015]根據(jù)本發(fā)明的第三方面,提供了一種文本信息提取方法。該方法包括:使用根據(jù)本發(fā)明的第一方面的文本檢測方法檢測輸入圖像或輸入視頻中的文本區(qū)域;從所檢測到的文本區(qū)域中提取文本;以及識(shí)別所提取的文本以得到文本信息。[0016]根據(jù)本發(fā)明的第四方面,提供了一種文本信息提取系統(tǒng)。該系統(tǒng)包括:根據(jù)本發(fā)明的第二方面的文本檢測裝置,被配置用于檢測輸入圖像或輸入視頻中的文本區(qū)域;被配置用于從所檢測到的文本區(qū)域中提取文本的提取裝置;以及被配置用于識(shí)別所提取的文本以得到文本信息的識(shí)別裝置。[0017]通過利用這些特征,根據(jù)本發(fā)明的方法、裝置和系統(tǒng)可以快速地和/或準(zhǔn)確地指出圖像中的文本位置,從而改進(jìn)文本檢測的性能。[0018]本發(fā)明的進(jìn)一步的特征和優(yōu)點(diǎn)將通過參考附圖的以下描述而明確?!緦@綀D】【附圖說明】[0019]并入說明書并且構(gòu)成說明書的一部分的附圖圖示了本發(fā)明的實(shí)施例,并且與描述一起用于說明本發(fā)明的原理。[0020]圖1是示出用于檢測圖像中的文本區(qū)域的現(xiàn)有技術(shù)方法的流程圖。[0021]圖2是示出能夠執(zhí)行本發(fā)明的實(shí)施例的計(jì)算機(jī)系統(tǒng)的示例性硬件配置的框圖。[0022]圖3是示出根據(jù)本發(fā)明的實(shí)施例的用于檢測圖像中的文本區(qū)域的文本檢測方法的流程圖。[0023]圖4示出根據(jù)本發(fā)明的實(shí)施例的用于基于CC和其它TBR之間的關(guān)系確定CC是否是一個(gè)TBR的示例性過程。[0024]圖5是示出在一個(gè)特定示例中的圖3中的CC過濾步驟的流程圖。[0025]圖6是示出在另一個(gè)特定示例中的圖3中的CC過濾步驟的流程圖。[0026]圖7示出根據(jù)本發(fā)明的實(shí)施例使用經(jīng)訓(xùn)練的分類器的圖3中的CC過濾步驟的示例性過程。[0027]圖8A-8F是指示使用根據(jù)本發(fā)明的文本檢測方法的各個(gè)處理結(jié)果的示例性圖像。[0028]圖9是說明根據(jù)本發(fā)明的實(shí)施例的用于檢測圖像中的文本區(qū)域的文本檢測裝置的框圖。[0029]圖10是根據(jù)本發(fā)明的一個(gè)實(shí)施例的圖9中的CC過濾單元的框圖。[0030]圖11是說明根據(jù)本發(fā)明的另一個(gè)實(shí)施例的圖9中的CC過濾單元的框圖。[0031]圖12是示出根據(jù)本發(fā)明的實(shí)施例的文本信息提取方法的流程圖。[0032]圖13是示出根據(jù)本發(fā)明的實(shí)施例的文本信息提取系統(tǒng)的框圖。【具體實(shí)施方式】[0033]以下將參考附圖描述本發(fā)明的實(shí)施例。[0034]請(qǐng)注意,類似的參考數(shù)字和字母指的是圖中的類似的項(xiàng)目,因而一旦在一幅圖中定義了一個(gè)項(xiàng)目,就不需要在之后的圖中討論了。[0035]還請(qǐng)注意,在本發(fā)明中,術(shù)語“第一”、“第二”等僅用于區(qū)分元件或步驟,而不旨在指示時(shí)間順序、偏好或重要性。[0036]圖2是示出能夠?qū)嵤┍景l(fā)明的實(shí)施例的計(jì)算機(jī)系統(tǒng)1000的硬件配置的框圖。[0037]如圖2中所示,計(jì)算機(jī)系統(tǒng)包括計(jì)算機(jī)1110。例如,計(jì)算機(jī)1110可以是數(shù)字照相機(jī)或智能電話。計(jì)算機(jī)1100包括經(jīng)由系統(tǒng)總線1121連接的處理單元1120、系統(tǒng)存儲(chǔ)器1130、固定非易失性存儲(chǔ)器接口1140、可移動(dòng)非易失性存儲(chǔ)器接口1150、用戶輸入接口1160、網(wǎng)絡(luò)接口1170、視頻接口1190和輸出外圍接口1195。[0038]系統(tǒng)存儲(chǔ)器1130包括ROM(只讀存儲(chǔ)器)1131和RAM(隨機(jī)存取存儲(chǔ)器)1132。B1S(基本輸入輸出系統(tǒng))1133駐留在R0M1131中。操作系統(tǒng)1134、應(yīng)用程序1135、其它程序模塊1136和某些程序數(shù)據(jù)1137駐留在RAMl132中。[0039]諸如硬盤之類的固定非易失性存儲(chǔ)器1141連接到固定非易失性存儲(chǔ)器接口1140。固定非易失性存儲(chǔ)器1141例如可以存儲(chǔ)操作系統(tǒng)1144、應(yīng)用程序1145、其它程序模塊1146和某些程序數(shù)據(jù)1147。[0040]諸如閃存驅(qū)動(dòng)器1151和⑶-ROM驅(qū)動(dòng)器1155之類的一個(gè)或多個(gè)可移動(dòng)非易失性存儲(chǔ)器驅(qū)動(dòng)器連接到可移動(dòng)非易失性存儲(chǔ)器接口1150。例如,諸如SD卡的閃存1152可以被插入到閃存驅(qū)動(dòng)器1151中,以及⑶(壓縮盤)1156可以被插入到⑶-ROM驅(qū)動(dòng)器1155中。要處理的圖像可以存儲(chǔ)在非易失性存儲(chǔ)器中。[0041]諸如麥克風(fēng)1161和鍵盤1162之類的輸入設(shè)備被連接到用戶輸入接口1160。[0042]計(jì)算機(jī)1110可以通過網(wǎng)絡(luò)接口1170連接到遠(yuǎn)程計(jì)算機(jī)1180。例如,網(wǎng)絡(luò)接口1170可以經(jīng)由局域網(wǎng)1171連接到遠(yuǎn)程計(jì)算機(jī)1180?;蛘?,網(wǎng)絡(luò)接口1170可以連接到調(diào)制解調(diào)器(調(diào)制器一解調(diào)器)1172,以及調(diào)制解調(diào)器1172經(jīng)由廣域網(wǎng)1173連接到遠(yuǎn)程計(jì)算機(jī)1180。[0043]遠(yuǎn)程計(jì)算機(jī)1180可以包括諸如硬盤之類的存儲(chǔ)器1181,其存儲(chǔ)遠(yuǎn)程應(yīng)用程序1185。[0044]視頻接口1190連接到監(jiān)視器1191,該監(jiān)視器可以用于顯示根據(jù)本發(fā)明的實(shí)施例的一個(gè)或多個(gè)處理結(jié)果。[0045]輸出外圍接口1195連接到打印機(jī)1196和揚(yáng)聲器1197。[0046]圖2所示的計(jì)算機(jī)系統(tǒng)僅僅是說明性的并且決不意圖對(duì)本發(fā)明、其應(yīng)用或用途進(jìn)行任何限制。[0047]圖2所示的計(jì)算機(jī)系統(tǒng)可以被實(shí)施于任何實(shí)施例,可作為獨(dú)立計(jì)算機(jī),或者也可作為設(shè)備中的處理系統(tǒng),可以移除一個(gè)或更多個(gè)不必要的組件,也可以向其添加一個(gè)或更多個(gè)附加的組件。[0048]圖3是示出根據(jù)本發(fā)明的實(shí)施例的用于檢測圖像中的文本區(qū)域的文本檢測方法300的流程圖。還將參考圖8A-8F進(jìn)行描述以示出使用根據(jù)本發(fā)明的文本檢測方法的示例性處理結(jié)果。[0049]根據(jù)一個(gè)實(shí)施例,圖像包括至少一個(gè)連通體(CC)。CC是具有相似的顏色或灰度值的像素群。一個(gè)群中的像素可以在空間中以4鄰域方式或8鄰域方式相連。CC可以在TBR檢測步驟之前通過例如顏色聚類、自適應(yīng)二值化、形態(tài)學(xué)處理等從圖像生成。在其中一個(gè)實(shí)施例中,CC可以基于MSER方法從灰度圖像生成,MSER方法在J.Matas,0.Chum,Μ.Urban,和T.Pajdla的“Robustwidebaselinestereofrommaximallystableextremalreg1ns,,,Proc.0fBritishMachineVis1nConference,pp.384-396,2002中描述,該篇文獻(xiàn)通過引用被包括在此。在一個(gè)實(shí)施例中,為了檢測暗背景上的亮文本以及亮背景上的暗文本,CC生成可以應(yīng)用于兩個(gè)通道,一個(gè)通道用于原始圖像,另一個(gè)用于反色圖像。但是這不是必須的。[0050]作為一個(gè)例子,圖8A和圖8B分別示出一幅灰度圖像和該圖像中生成的CC。在圖SB中,每個(gè)黑線框指示一個(gè)CC,S卩,黑線框是CC的最小外接框。[0051]在框310中,執(zhí)行文本背景區(qū)域(TBR)檢測步驟以從輸入圖像檢測至少一個(gè)TBR。[0052]根據(jù)一個(gè)實(shí)施例,TBR檢測步驟可以基于該圖像中包括的CC來執(zhí)行。TBR可以是具有特殊性質(zhì)的一種Ce。根據(jù)一個(gè)實(shí)施例,TBR可以是該圖像中文本的周圍區(qū)域,具有規(guī)則的邊界和均勻的顏色或灰度。在自然場景圖像中,TBR通常作為招牌、標(biāo)志、標(biāo)簽、名冊(cè)、海報(bào)等存在,但是不限于這些形式。[0053]根據(jù)一個(gè)實(shí)施例,TBR可以從圖像中包含的CC中選擇。可以檢查每個(gè)CC以確定它是否是TBR。在進(jìn)行確定時(shí)可以考慮三個(gè)方面的性質(zhì):該CC的特征、該CC中的成員CC的統(tǒng)計(jì)信息,以及該CC和其它TBR之間的關(guān)系。這些方面可以單獨(dú)地或以任何組合地使用以用于TBR檢測。這里,當(dāng)前CC中的成員CC是位于當(dāng)前CC的邊界內(nèi)的CC并且具有與當(dāng)前CC的高對(duì)比度。成員CC可以從當(dāng)前CC的相反通道提取。例如,暗CC的成員CC可以是該暗CC的區(qū)域中的亮CC,反之亦然。[0054]圖8C示出具有兩個(gè)檢測出的TBR的圖像,兩個(gè)檢測出的TBR以白線框表示。[0055]下文將更詳細(xì)地討論在上述確定過程中所考慮的三個(gè)方面的性質(zhì)。[0056]CC的特征[0057]可以基于CC的特征來檢查CC以確定它是否是TBR。CC的特征可以包括例如以下中的至少一項(xiàng):cc的顏色或灰度均勻性;cc的大?。籧c的形狀;cc的邊界規(guī)則度;cc在圖像中的位置;cc的平均灰度值;以及CC的灰度值分布。[0058]注意到,TBR的尺寸通常相對(duì)較大。因此根據(jù)一個(gè)實(shí)施例,所有CC可以按照大小排序,而TBR可以從最大的η個(gè)CC中選擇。[0059]還注意到,TBR通常位于圖像中顯著的位置,而不是圖像的邊緣區(qū)域。因此,根據(jù)另一個(gè)實(shí)施例,位于邊緣區(qū)域中的CC可以作為非TBR區(qū)域被過濾掉。例如,邊緣區(qū)域可以定義為圖像的外環(huán)區(qū)域,其具有特定的寬度,比如圖像寬度的Ι/m或圖像高度的1/m。[0060]根據(jù)另一個(gè)實(shí)施例,由于TBR通常具有規(guī)則邊界,因此可以在確定TBR時(shí)考慮CC的邊界規(guī)則度??梢酝ㄟ^CC密度(CC在最小外接框中所占的比例)、邊界比(邊界像素與CC像素的量的比),以及邊界對(duì)稱性(在四個(gè)象限中邊界的相似性,可以通過四個(gè)象限中的密度差來估計(jì)),來衡量邊界規(guī)則度。[0061]根據(jù)另一個(gè)實(shí)施例,可以使用多個(gè)特征來區(qū)分TBR與高曝光區(qū),因?yàn)門BR不應(yīng)是由高曝光造成的。注意到,高曝光區(qū)通常具有較高的平均灰度值,中心的灰度值甚至比平均值更高。因此CC的平均灰度值和灰度值分布可以用于區(qū)分TBR和高曝光區(qū)。[0062]CC中的成員CC的統(tǒng)計(jì)信息[0063]可以基于CC中成員CC的統(tǒng)計(jì)信息檢查CC以確定它是否是TBR。這里,當(dāng)前CC的成員CC是位于當(dāng)前CC的邊界內(nèi)的CC并且具有相對(duì)于當(dāng)前CC的高對(duì)比度。成員CC的區(qū)域完全在當(dāng)前CC的邊界內(nèi)。成員CC可以從當(dāng)前CC的相反通道提取。例如,暗CC的成員CC可以是該暗CC的邊界內(nèi)的亮CC,反之亦然。[0064]成員CC的統(tǒng)計(jì)信息可以包括例如以下各項(xiàng)中的至少一個(gè):CC中的成員CC的數(shù)量;成員CC中的種子CC數(shù)量;CC中成員CC的平均文本置信度;以及CC中成員CC的總面積與CC的面積的比。[0065]這里,種子CC是指很有可能是文本分量的CC。例如,種子CC可以是具有高于預(yù)定閾值的文本置信度的Ce。為了選擇種子CC,可以從CC中提取一組特征以用于計(jì)算CC的文本置信度。[0066]作為實(shí)例,圖8D在白線框中示出一些種子CC。[0067]通常使用的用于種子CC選擇的特征可以包括:CC大小、CC寬度/高度比、CC密度(gp,CC像素在其最小外接框內(nèi)的占比)、CC筆劃寬度的統(tǒng)計(jì)特征、從CC區(qū)域提取的紋理特征。在一個(gè)實(shí)施例中,這些特征可以用作調(diào)整文本置信度的規(guī)則。在另一個(gè)實(shí)施例中,可以基于包括文本CC和非文本CC的訓(xùn)練集學(xué)習(xí)文本分類器。該分類器使用CC的特征作為輸入,并且輸出CC的文本置信度值。[0068]CC和其它TBR之間的關(guān)系[0069]可以基于CC與其它TBR的關(guān)系來檢查該CC以確定它是否是TBR。根據(jù)一個(gè)實(shí)施例,基于至少一個(gè)CC和其它TBR之間的關(guān)系來從CC中選擇TBR可以包括,如果CC不是任何先前確定的TBR中的成員CC并且與先前確定的TBR不具有相同的成員CC,則將該CC確定為TBR。換言之,TBR通常彼此不重疊或包含。[0070]作為實(shí)例,圖4示出用于基于CC與其它TBR之間的關(guān)系確定CC是否是TBR的過程400。[0071]在框410中,確定當(dāng)前CC是否是先前確定的TBR的成員CC。如果當(dāng)前CC是先前確定的TBR的成員CC,則將其標(biāo)識(shí)為不是TBR。否則,過程400前進(jìn)到框420,確定當(dāng)前CC是否與先前確定的TBR具有相同的成員CC。如果當(dāng)前CC與先前確定的TBR沒有任何相同的成員CC,則當(dāng)前CC被標(biāo)識(shí)為TBR。否則,過程400前進(jìn)到框430,確定當(dāng)前CC和該先前確定的TBR中的哪一個(gè)更有可能是TBR。如果當(dāng)前CC更有可能是TBR,則將先前確定的TBR從TBR集合中移除(框440)并且當(dāng)前CC被標(biāo)識(shí)為TBR。否則,當(dāng)前CC被標(biāo)識(shí)為不是TBR。[0072]在框430中可以存在各種方式來確定哪一個(gè)更有可能是TBR。例如,可以使用以上描述的一個(gè)或多個(gè)準(zhǔn)則,比如邊界規(guī)則度、CC密度、成員CC的平均文本置信度等。[0073]參考回圖3,已經(jīng)從圖像中檢測出TBR后,過程300前進(jìn)到框320。在框320,執(zhí)行CC過濾步驟,基于檢測到的TBR對(duì)CC進(jìn)行過濾,以保留至少一個(gè)候選文本CC。具體地,可以對(duì)除檢測出的TBR以外的非TBRCC進(jìn)行過濾,以移除非文本CC并保留候選文本CC。[0074]注意到文本更有可能出現(xiàn)在TBR內(nèi)而不是TBR外。因此,TBR可以被用在CC過濾步驟中。特別地,在CC過濾步驟中,對(duì)于不在任何TBR邊界內(nèi)的CC(用CCtffi表示)的過濾可以比對(duì)于TBR邊界內(nèi)的CC(用CCik表示)的過濾更為嚴(yán)格。[0075]例如,用于過濾CCrai的閾值可以比用于過濾CCik的閾值更為嚴(yán)格。作為另一個(gè)示例,對(duì)CCrai進(jìn)行過濾的過濾器可以與用于CCik的過濾器不同并且具有更嚴(yán)格的標(biāo)準(zhǔn)。作為再一個(gè)示例,CCrai可以比CCik用更多的規(guī)則來過濾。[0076]圖8D示出了過濾的結(jié)果。保留的候選文本CC用白線或黑線繪制的其最小外接框來表示。這里,白線最小外接框表示種子CC,而黑線最小外接框表示非種子CC。與圖SB相t匕,一部分CC已經(jīng)被濾除,尤其是位于TBR之外的那些。[0077]下面將描述示出執(zhí)行CC過濾的示例性方式的實(shí)施例。[0078]一個(gè)具體實(shí)施例是對(duì)于每個(gè)非TBRCC,基于該CC是否位于任何TBR邊界內(nèi)來計(jì)算其文本置信度。圖5是示出這一實(shí)施例的流程圖。[0079]在框510中,基于TBR信息來計(jì)算每個(gè)非TBRCC的文本置信度。在計(jì)算中,向CCik賦予比CCrai更高的權(quán)重。[0080]在框520中,確定該CC的文本置信度是否高于預(yù)定閾值T。如果文本置信度高于該閾值,則該CC被確定為候選文本CC。否則,該CC被確定為非文本CC。[0081]下面提供該實(shí)施例的一個(gè)具體示例。可以用貝葉斯定理定義當(dāng)前CC的文本置信度:η/,ιη、Ρ(Β\Α)Ρ(Λ)[0082]Ρ(ΑIB)=、',/)(")[0083]這里,P(A)是先驗(yàn)概率,P(B|A)是條件概率,并且P(AlB)是后驗(yàn)概率。[0084]考慮CC過濾這一具體情況,A是隨機(jī)變量,表示特定CC(文本或非文本)。P(A)表示當(dāng)前CC的文本存在性的先驗(yàn)概率。它可以由TBR確定。CCik可以比CCrai被賦予更高的P(A)0[0085]P(B|A)是文本存在性的條件概率。它描述文本區(qū)域應(yīng)當(dāng)具備的屬性。因此這個(gè)值是基于從文本區(qū)域自身所提取的文本特征來計(jì)算的。P(B)是當(dāng)前CC的存在概率。當(dāng)CC固定時(shí),它為常數(shù)。[0086]P(A|B)是當(dāng)前CC的文本置信度。它受到CC本身的文本特征以及與該CC有關(guān)的TBR信息二者的影響。P(AIB)值高于預(yù)定閾值的CC被保留作為候選文本CC。[0087]在這個(gè)示例中,CCik的P(A)/P⑶可以被設(shè)置為I,而CCqk的P(A)/P⑶可以被設(shè)置為在范圍[0,1)內(nèi)的值。[0088]另一個(gè)具體實(shí)施例是基于TBR信息,對(duì)非TBRCC以若干階段,比如兩個(gè)階段,執(zhí)行過濾。例如,兩個(gè)階段包括粗過濾和細(xì)過濾。所有非TBRCC都經(jīng)歷粗過濾,而只有不在任何TBR邊界之內(nèi)的CC才經(jīng)歷細(xì)過濾。可以在粗過濾中使用簡單的特征,而可以在細(xì)過濾中使用更復(fù)雜的特征。如此,經(jīng)歷細(xì)過濾的CC的量減少,從而該方法的效率將改進(jìn)。[0089]圖6是示出這一實(shí)施例的流程圖。[0090]在框610中,將非TBRCC分成兩組:CCik,即,在TBR邊界內(nèi)的CC,和CCqk,即不在任何TBR邊界內(nèi)的CC。[0091]在框620中,對(duì)所有非TBRCC執(zhí)行第一過濾步驟,比如粗過濾。具體而言,每個(gè)非TBRCC被確定為候選文本CC或非文本CC。[0092]可以基于每個(gè)非TBRCC的一個(gè)或多個(gè)第一特征執(zhí)行第一過濾步驟,以確定該CC是否是候選文本Ce。第一特征是從CC提取的并且可以是相對(duì)簡單的特征,包括但不限于:CC的大小、CC的形狀、CC的最小外接框的寬高比、CC密度(CC與其最小外接框的面積比)、CC的周長與面積之比,以及CC的紋理特征。作為實(shí)例,文本特征可以包括但不限于:局部二元模式、邊緣方向直方圖、梯度方向直方圖。[0093]第一特征可以用作級(jí)聯(lián)規(guī)則或被組合作為特征向量輸入到經(jīng)訓(xùn)練的分類器。級(jí)聯(lián)規(guī)則或分類器的閾值可以從文本和非文本樣本學(xué)習(xí)。當(dāng)級(jí)聯(lián)規(guī)則用于過濾時(shí),每個(gè)輸入的CC可以按照預(yù)定義的規(guī)則進(jìn)行檢查,并且不滿足至少一個(gè)規(guī)則的CC將被濾除。[0094]在框630中,對(duì)每個(gè)候選文本即由第一過濾步驟確定為候選文本CC的執(zhí)行比如細(xì)過濾的第二過濾步驟,以進(jìn)一步確定該候選文本CCrai是否是候選文本CC。因?yàn)槭乖诳?20中被確定為候選文本CC,它也傾向于是噪聲,因此第二過濾可以進(jìn)一步去除非文本CC。[0095]在第二過濾步驟中,可以對(duì)框620中使用的特征采用更嚴(yán)格的條件,和/或可使用一些其他特征用于過濾。其他特征可包括筆劃寬度統(tǒng)計(jì)信息(例如,筆劃寬度方差與平均筆劃寬度之比)和/或邊界像素?cái)?shù)量與CC像素?cái)?shù)量之比。[0096]類似于第一過濾步驟,用于第二過濾的特征可以用作級(jí)聯(lián)規(guī)則或被組合作為特征向量輸入到經(jīng)訓(xùn)練的分類器。級(jí)聯(lián)規(guī)則或分類器的閾值可以從文本和非文本樣本學(xué)習(xí)。當(dāng)級(jí)聯(lián)規(guī)則用于過濾時(shí),每個(gè)輸入的CC可以由預(yù)定義的規(guī)則檢查,并且將濾除不滿足至少一個(gè)規(guī)則的Ce。[0097]圖7示出使用經(jīng)訓(xùn)練的分類器進(jìn)行CC過濾的流程圖。圖7中的方法既可應(yīng)用于第一過濾步驟,也可應(yīng)用于第二過濾步驟。在圖7中,包括文本和非文本樣本在內(nèi)的訓(xùn)練樣本被用來訓(xùn)練分類器。并且CC通過經(jīng)訓(xùn)練的分類器被分類以得到候選文本CC。被提取用于訓(xùn)練和分類的特征可以是上面針對(duì)第一過濾和第二過濾所討論的那些特征。未對(duì)該流程圖的進(jìn)一步細(xì)節(jié)進(jìn)行描述,以避免不必要地模糊本發(fā)明的主旨。[0098]返回圖3。在基于TBR得到候選文本CC之后,過程300前進(jìn)到框330。在框330,執(zhí)行CC組合步驟以組合該至少一個(gè)候選文本CC并得到文本區(qū)域。[0099]通常,候選文本CC可以被組合為文本行/單詞,并且基于這些文本行/單詞的最小外接框來形成文本區(qū)域。[0100]在CC組合步驟中可以使用各種方法,包括但不限于聚類、種子生長等等。在一個(gè)特定實(shí)施例中,其中心在一條線上或接近一條線的候選文本CC通過霍夫變換被組合在一起。在一個(gè)實(shí)施例中,其中沒有種子CC的CC組可以被視為噪聲并且被直接去除。進(jìn)一步地,其中具有種子CC的CC組可以基于種子CC被提純。具體而言,其性質(zhì)大大偏離種子CC的非種子CC可以從該組中被移除。然后,利用組級(jí)別的特征對(duì)CC組進(jìn)行過濾,組級(jí)別的特征諸如CC數(shù)量、大小一致性、間隙一致性、以及平均文本置信值。最后,基于CC組的最小外接框生成文本區(qū)域。[0101]圖SE示出將候選文本CC組合為文本行/單詞的結(jié)果,其中屬于相同字符串的CC使用白線連接。[0102]圖8F示出基于文本行/單詞的最小外接框形成文本區(qū)域的結(jié)果。最終檢測出的文本區(qū)域由白線框指示。[0103]然而,所描述的特定組合方法僅僅是示意性的,并且本發(fā)明不限于此。而是,任何現(xiàn)有的或待開發(fā)的組合方法都可以用于組合候選文本CC以得到文本區(qū)域。[0104]現(xiàn)在將參考圖9說明用于根據(jù)本發(fā)明的實(shí)施例的用于檢測圖像中的文本區(qū)域的文本檢測裝置900的框圖。裝置900可以用于實(shí)現(xiàn)參考圖3-7描述的方法。為了簡潔,在此省略與參考圖3-7所描述的細(xì)節(jié)相似的一些細(xì)節(jié)。然而,應(yīng)意識(shí)到這些細(xì)節(jié)也可適用于裝置900。[0105]如圖9所示,文本檢測裝置900可包括文本背景區(qū)域(TBR)檢測單元910、CC過濾單元920和CC組合單元930,其中,TBR檢測單元910被配置為從輸入圖像中檢測至少一個(gè)TBR,CC過濾單元920被配置為基于檢測到的TBR對(duì)至少一個(gè)CC進(jìn)行過濾以保留至少一個(gè)候選文本CC,CC組合單元930被配置為組合該至少一個(gè)候選文本CC以得到文本區(qū)域。[0106]根據(jù)一個(gè)實(shí)施例,在CC過濾單元920中,對(duì)于不在任何TBR邊界內(nèi)的CC的過濾可以比在TBR邊界內(nèi)的CC的過濾更嚴(yán)格。[0107]如圖10所示,根據(jù)一個(gè)實(shí)施例,CC過濾單元920可以包括計(jì)算單元1010和確定單元1020,其中,計(jì)算單元1010被配置為計(jì)算所述至少一個(gè)CC中除TBR以外的每一個(gè)CC的文本置信度,并且在計(jì)算中,向位于任何TBR邊界內(nèi)的CC賦予比其它CC更高的權(quán)重;確定單元1020被配置為將文本置信度高于預(yù)定義閾值的CC確定為候選文本CC。[0108]如圖11所示,根據(jù)一個(gè)另選實(shí)施例,CC過濾單元920可以包括:標(biāo)識(shí)單元1102,被配置為對(duì)于所述至少一個(gè)CC中除TBR以外的每一個(gè)CC,響應(yīng)于該CC位于任何TBR的邊界內(nèi),將其標(biāo)識(shí)為第一CC,否則將其標(biāo)識(shí)為第二CC;第一過濾單元1104,被配置為對(duì)于第一CC和第二CC中的每個(gè)CC執(zhí)行第一過濾步驟,以確定該CC是否為候選文本CC;以及第二過濾單元1106,被配置為對(duì)于被第一過濾步驟確定為候選文本CC的每個(gè)第二CC,執(zhí)行第二過濾步驟以進(jìn)一步確定該第二CC是否為候選文本CC。[0109]根據(jù)一個(gè)實(shí)施例,第一過濾單元1104可被進(jìn)一步配置為:基于CC的一個(gè)或多個(gè)第一特征執(zhí)行第一過濾步驟,以確定該CC是否為候選文本CC。[0110]根據(jù)一個(gè)實(shí)施例,第二過濾單元1106可被進(jìn)一步配置為:基于CC的一個(gè)或多個(gè)第二特征執(zhí)行第二過濾步驟,以進(jìn)一步確定該CC是否為候選文本CC。[0111]根據(jù)本發(fā)明的文本檢測方法和裝置具有多種用途。例如,其可以用于從照相機(jī)拍攝的圖像或視頻中自動(dòng)提取文本信息。[0112]圖12示出根據(jù)本發(fā)明的實(shí)施例的文本信息提取方法。[0113]如圖12中所示,在框1210中,使用根據(jù)參考圖3-7描述的文本檢測方法的文本檢測方法檢測來自輸入圖像或輸入視頻的文本區(qū)域。[0114]在框1220中,可以從檢測出的文本區(qū)域提取文本。根據(jù)一個(gè)實(shí)施例,當(dāng)從輸入視頻中檢測文本區(qū)域時(shí),輸入視頻中的文本可以被跟蹤,如框1240中所示。[0115]在框1230中,可以對(duì)提取的文本執(zhí)行文本識(shí)別以獲取文本信息。[0116]現(xiàn)在參考圖13說明根據(jù)本發(fā)明的實(shí)施例的文本信息提取系統(tǒng)1300的框圖。系統(tǒng)1300可以用于實(shí)現(xiàn)參考圖12描述的方法。[0117]如圖13中所示,系統(tǒng)1300可以包括文本檢測裝置1310、提取裝置1320,和識(shí)別裝置1330,其中文本檢測裝置1310被配置用于從輸入圖像或輸入視頻中檢測文本區(qū)域并且可以與參考圖9描述的裝置910相同;提取裝置1320被配置用于從檢測出的文本區(qū)域提取文本;并且識(shí)別裝置1330被配置用于識(shí)別所提取的文本以獲取文本信息。[0118]可選地,系統(tǒng)1300可以進(jìn)一步包括跟蹤裝置1340。當(dāng)文本檢測裝置1310被配置為從輸入視頻中檢測文本區(qū)域時(shí),跟蹤裝置1340被配置為跟蹤輸入視頻中的文本。[0119]將意識(shí)到,關(guān)于圖9-11和圖13描述的單元和裝置是示例性的和/或優(yōu)選的模塊以用于實(shí)現(xiàn)各種步驟。這些模塊可以是硬件單元(比如處理器、專用集成電路等)和/或軟件模塊(比如計(jì)算機(jī)程序)。用于實(shí)現(xiàn)各種步驟的模塊未在以上窮盡地描述。然而,當(dāng)存在執(zhí)行特定處理的步驟時(shí),可能存在對(duì)應(yīng)的功能性模塊或單元(由硬件和/或軟件實(shí)現(xiàn))用于實(shí)現(xiàn)該處理。以上和以下描述的所有步驟組合和對(duì)應(yīng)于這些步驟的單元的技術(shù)方案包括在本申請(qǐng)的公開范圍中,只要它們構(gòu)成的技術(shù)方案是完整的并且可應(yīng)用的。[0120]此外,構(gòu)成各種單元的以上裝置和系統(tǒng)可以包括在比如計(jì)算機(jī)的硬件設(shè)備中作為功能性模塊。當(dāng)然,該計(jì)算機(jī)除了這些功能性模塊之外具有其他硬件或軟件組件。[0121]可以通過許多方式來實(shí)施本發(fā)明的方法、裝置和系統(tǒng)。例如,可以通過軟件、硬件、固件、或其任何組合來實(shí)施本發(fā)明的方法和裝置。上述的方法步驟的次序僅是說明性的,本發(fā)明的方法步驟不限于以上具體描述的次序,除非以其他方式明確說明。此外,在一些實(shí)施例中,本發(fā)明還可以被實(shí)施為記錄在記錄介質(zhì)中的程序,其包括用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的機(jī)器可讀指令。因而,本發(fā)明還覆蓋存儲(chǔ)用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。[0122]雖然已通過示例詳細(xì)展示了本發(fā)明的一些具體實(shí)施例,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述示例僅意圖是說明性的而不限制本發(fā)明的范圍。本領(lǐng)域技術(shù)人員應(yīng)該理解,上述實(shí)施例可以被修改而不脫離本發(fā)明的范圍和實(shí)質(zhì)。本發(fā)明的范圍是通過所附的權(quán)利要求限定的?!緳?quán)利要求】1.一種文本檢測方法,用于檢測具有至少一個(gè)連通體的圖像中的文本區(qū)域,所述方法包括:文本背景區(qū)域檢測步驟,用于從所述圖像中檢測至少一個(gè)文本背景區(qū)域;連通體過濾步驟,用于基于檢測到的文本背景區(qū)域?qū)λ鲋辽僖粋€(gè)連通體進(jìn)行過濾,以保留至少一個(gè)候選文本連通體;和連通體組合步驟,用于將所述至少一個(gè)候選文本連通體進(jìn)行組合以得到文本區(qū)域。2.如權(quán)利要求1所述的方法,其中,文本背景區(qū)域是圖像中的文本周圍的區(qū)域,并且具有規(guī)則的邊界以及均勻的顏色或灰度。3.如權(quán)利要求1或2所述的方法,其中文本背景區(qū)域檢測步驟包括基于以下至少之一從所述至少一個(gè)連通體中選擇文本背景區(qū)域:所述至少一個(gè)連通體的特征;所述至少一個(gè)連通體內(nèi)的成員連通體的統(tǒng)計(jì)信息,其中成員連通體是位于所述至少一個(gè)連通體的邊界內(nèi)、且相對(duì)于所述至少一個(gè)連通體具有高對(duì)比度的連通體;和所述至少一個(gè)連通體與其它文本背景區(qū)域之間的關(guān)系。4.如權(quán)利要求3所述的方法,其中所述至少一個(gè)連通體的特征包括以下至少一項(xiàng):連通體的顏色或灰度均勻性、連通體的大小、連通體的形狀、連通體的邊界規(guī)則度、連通體在圖像中的位置、連通體的平均灰度值、和連通體的灰度值分布。5.如權(quán)利要求3所述的方法,其中,所述成員連通體的統(tǒng)計(jì)信息包括以下至少一項(xiàng):所述連通體內(nèi)的成員連通體的數(shù)量;所述成員連通體中文本置信度高于第一預(yù)定義閾值的種子連通體的數(shù)量;所述連通體內(nèi)的成員連通體的平均文本置信度;和所述連通體內(nèi)的成員連通體的總面積與所述連通體的面積之比。6.如權(quán)利要求3所述的方法,其中,基于所述至少一個(gè)連通體與其它文本背景區(qū)域之間的關(guān)系來從所述至少一個(gè)連通體中選擇文本背景區(qū)域包括:響應(yīng)于連通體不是先前已確定的文本背景區(qū)域內(nèi)的成員連通體并且與該先前已確定的文本背景區(qū)域不包含相同的成員連通體,將該連通體確定為文本背景區(qū)域。7.如權(quán)利要求1或2所述的方法,其中,在連通體過濾步驟中,對(duì)不處于任何文本背景區(qū)域的邊界內(nèi)的連通體的過濾比對(duì)處于文本背景區(qū)域的邊界內(nèi)的連通體的過濾更為嚴(yán)格。8.如權(quán)利要求1所述的方法,其中,連通體過濾步驟包括:計(jì)算所述至少一個(gè)連通體中除文本背景區(qū)域以外的每一個(gè)連通體的文本置信度,其中,在計(jì)算文本置信度時(shí),對(duì)位于任何文本背景區(qū)域的邊界內(nèi)的連通體賦予比其它連通體更高的權(quán)重;以及將文本置信度高于第二預(yù)定義閾值的連通體確定為候選文本連通體。9.如權(quán)利要求1所述的方法,其中,連通體過濾步驟包括:對(duì)于所述至少一個(gè)連通體中除文本背景區(qū)域以外的每一個(gè)連通體,響應(yīng)于該連通體位于任何文本背景區(qū)域的邊界內(nèi),將其標(biāo)識(shí)為第一連通體,否則,將其標(biāo)識(shí)為第二連通體;對(duì)于第一連通體和第二連通體中的每個(gè)連通體執(zhí)行第一過濾步驟,以確定該連通體是否為候選文本連通體;以及對(duì)于被第一過濾步驟確定為候選文本連通體的每個(gè)第二連通體執(zhí)行第二過濾步驟,以進(jìn)一步確定該第二連通體是否為候選文本連通體。10.如權(quán)利要求9所述的方法,其中,對(duì)于第一連通體和第二連通體中的每個(gè)連通體執(zhí)行第一過濾步驟包括:基于該連通體的一個(gè)或多個(gè)第一特征執(zhí)行第一過濾步驟,以確定該連通體是否為候選文本連通體。11.如權(quán)利要求9所述的方法,其中,對(duì)于被第一過濾步驟確定為候選文本連通體的每個(gè)第二連通體執(zhí)行第二過濾步驟包括:基于該第二連通體的一個(gè)或多個(gè)第二特征執(zhí)行第二過濾步驟,以進(jìn)一步確定該第二連通體是否為候選文本連通體。12.如權(quán)利要求10所述的方法,其中,第一特征包括以下至少之一:連通體的大小、連通體的形狀、連通體的最小外接框的寬高比、連通體與其最小外接框的面積比、連通體的周長與面積之比、和連通體的紋理特征。13.如權(quán)利要求11所述的方法,其中,第二特征包括以下至少之一:筆劃寬度統(tǒng)計(jì)信息、和連通體邊界的像素?cái)?shù)與該連通體的像素?cái)?shù)之比。14.如權(quán)利要求12所述的方法,其中紋理特征包括以下至少之一:局部二元模式、邊緣方向直方圖、和梯度方向直方圖。15.如權(quán)利要求10所述的方法,其中,在所述第一過濾步驟中,各個(gè)第一特征被級(jí)聯(lián)使用,或者組合作為特征向量輸入到經(jīng)訓(xùn)練的分類器中。16.如權(quán)利要求11所述的方法,其中,在所述第二過濾步驟中,各個(gè)第二特征被級(jí)聯(lián)使用,或者組合作為特征向量輸入到經(jīng)訓(xùn)練的分類器中。17.一種文本檢測裝置,用于檢測具有至少一個(gè)連通體的圖像中的文本區(qū)域,所述裝置包括:文本背景區(qū)域檢測單元,被配置為從所述圖像中檢測至少一個(gè)文本背景區(qū)域;連通體過濾單元,被配置為基于檢測到的文本背景區(qū)域?qū)λ鲋辽僖粋€(gè)連通體進(jìn)行過濾,以保留至少一個(gè)候選文本連通體;和連通體組合單元,被配置為將所述至少一個(gè)候選文本連通體進(jìn)行組合以得到文本區(qū)域。18.如權(quán)利要求17所述的裝置,其中,文本背景區(qū)域是圖像中的文本周圍的區(qū)域,并且具有規(guī)則的邊界以及均勻的顏色或灰度。19.如權(quán)利要求17或18所述的裝置,其中文本背景區(qū)域檢測單元基于以下至少之一從所述至少一個(gè)連通體中選擇文本背景區(qū)域:所述至少一個(gè)連通體的特征;所述至少一個(gè)連通體內(nèi)的成員連通體的統(tǒng)計(jì)信息,其中成員連通體是位于所述至少一個(gè)連通體的邊界內(nèi)、且相對(duì)于所述至少一個(gè)連通體具有高對(duì)比度的連通體;和所述至少一個(gè)連通體與其它文本背景區(qū)域之間的關(guān)系。20.如權(quán)利要求19所述的裝置,其中所述至少一個(gè)連通體的特征包括以下至少一項(xiàng):連通體的顏色或灰度均勻性、連通體的大小、連通體的形狀、連通體的邊界規(guī)則度、連通體在圖像中的位置、連通體的平均灰度值、和連通體的灰度值分布。21.如權(quán)利要求19所述的裝置,其中,所述成員連通體的統(tǒng)計(jì)信息包括以下至少一項(xiàng):所述連通體內(nèi)的成員連通體的數(shù)量;所述成員連通體中文本置信度高于第一預(yù)定義閾值的種子連通體的數(shù)量;所述連通體內(nèi)的成員連通體的平均文本置信度;和所述連通體內(nèi)的成員連通體的總面積與所述連通體的面積之比。22.如權(quán)利要求19所述的裝置,其中,基于所述至少一個(gè)連通體與其它文本背景區(qū)域之間的關(guān)系來從所述至少一個(gè)連通體中選擇文本背景區(qū)域包括:響應(yīng)于連通體不是先前已確定的文本背景區(qū)域內(nèi)的成員連通體并且與該先前已確定的文本背景區(qū)域不包含相同的成員連通體,將該連通體確定為文本背景區(qū)域。23.如權(quán)利要求17或18所述的裝置,其中,在連通體過濾單元中,對(duì)不處于任何文本背景區(qū)域邊界內(nèi)的連通體的過濾比對(duì)處于文本背景區(qū)域邊界內(nèi)的連通體的過濾更為嚴(yán)格。24.如權(quán)利要求17所述的裝置,其中,連通體過濾單元包括:計(jì)算單元,被配置為計(jì)算所述至少一個(gè)連通體中除文本背景區(qū)域以外的每一個(gè)連通體的文本置信度,其中,在計(jì)算文本置信度時(shí),對(duì)位于任何文本背景區(qū)域的邊界內(nèi)的連通體賦予比其它連通體更高的權(quán)重;以及確定單元,被配置為將文本置信度高于第二預(yù)定義閾值的連通體確定為候選文本連通體。25.如權(quán)利要求17所述的裝置,其中,連通體過濾單元包括:標(biāo)識(shí)單元,被配置為對(duì)于所述至少一個(gè)連通體中除文本背景區(qū)域以外的每一個(gè)連通體,響應(yīng)于該連通體位于任何文本背景區(qū)域的邊界內(nèi),將其標(biāo)識(shí)為第一連通體,否則,將其標(biāo)識(shí)為第二連通體;第一過濾單元,被配置為對(duì)于第一連通體和第二連通體中的每個(gè)連通體執(zhí)行第一過濾步驟,以確定該連通體是否為候選文本連通體;以及第二過濾單元,被配置為對(duì)于被第一過濾單元確定為候選文本連通體的每個(gè)第二連通體執(zhí)行第二過濾步驟,以進(jìn)一步確定該第二連通體是否為候選文本連通體。26.如權(quán)利要求25所述的裝置,其中,第一過濾單元還被配置為:基于該連通體的一個(gè)或多個(gè)第一特征執(zhí)行第一過濾步驟,以確定該連通體是否為候選文本連通體。27.如權(quán)利要求25所述的裝置,其中,第二過濾單元還被配置為:基于每個(gè)第二連通體的一個(gè)或多個(gè)第二特征執(zhí)行第二過濾步驟,以進(jìn)一步確定該第二連通體是否為候選文本連通體。28.如權(quán)利要求26所述的裝置,其中,第一特征包括以下至少之一:連通體的大小、連通體的形狀、連通體的最小外接框的寬高比、連通體與其最小外接框的面積比、連通體的周長與面積之比、和連通體的紋理特征。29.如權(quán)利要求27所述的裝置,其中,第二特征包括以下至少之一:筆劃寬度統(tǒng)計(jì)信息、和連通體邊界的像素?cái)?shù)與該連通體的像素?cái)?shù)之比。30.如權(quán)利要求28所述的裝置,其中紋理特征包括以下至少之一:局部二元模式、邊緣方向直方圖、梯度方向直方圖。31.如權(quán)利要求26所述的裝置,其中,在所述第一過濾步驟中,各個(gè)第一特征被級(jí)聯(lián)使用,或者組合作為特征向量輸入到經(jīng)訓(xùn)練的分類器中。32.如權(quán)利要求27所述的裝置,其中,在所述第二過濾步驟中,各個(gè)第二特征被級(jí)聯(lián)使用,或者組合作為特征向量輸入到經(jīng)訓(xùn)練的分類器中。33.一種文本信息提取方法,包括:使用如權(quán)利要求1一16中任一項(xiàng)所述的文本檢測方法檢測輸入圖像或輸入視頻中的文本區(qū)域;從所檢測到的文本區(qū)域中提取文本;以及識(shí)別所提取的文本以得到文本信息。34.如權(quán)利要求33所述的方法,還包括:當(dāng)檢測輸入視頻中的文本區(qū)域時(shí),跟蹤所述輸入視頻中的文本。35.一種文本信息提取系統(tǒng),包括:如權(quán)利要求17-32中任一項(xiàng)所述的文本檢測裝置,被配置為檢測輸入圖像或輸入視頻中的文本區(qū)域;提取裝置,被配置為從所檢測到的文本區(qū)域中提取文本;以及識(shí)別裝置,被配置為識(shí)別所提取的文本以得到文本信息。36.如權(quán)利要求35所述的系統(tǒng),其中,所述系統(tǒng)還包括跟蹤裝置,其被配置為當(dāng)文本檢測裝置被配置為檢測輸入視頻中的文本區(qū)域時(shí),跟蹤所述輸入視頻中的文本?!疚臋n編號(hào)】G06K9/00GK104182722SQ201310196300【公開日】2014年12月3日申請(qǐng)日期:2013年5月24日優(yōu)先權(quán)日:2013年5月24日【發(fā)明者】麻文華,羅兆海申請(qǐng)人:佳能株式會(huì)社