亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本行檢測方法和裝置的制作方法

文檔序號:6583610閱讀:130來源:國知局
專利名稱:文本行檢測方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明總體上涉及圖像和視頻處理領(lǐng)域,更具體而言,涉及一種文本行檢測方法 和裝置。
背景技術(shù)
在基于內(nèi)容的圖像和視頻檢索中,文本是非常有力的索引。例如,在web圖像檢索 中,很多傳統(tǒng)圖像檢索技術(shù)使用網(wǎng)頁中的圖像的周圍文本作為圖像的索引。而嵌入圖像中 的文本則能夠比傳統(tǒng)圖像檢索技術(shù)所使用的圖像的周圍文本更有效和準確地代表圖像內(nèi) 容。因此,檢測、分割、識別出圖像或視頻幀中的文本將極大方便基于內(nèi)容的圖像和視頻檢索。目前已有的文本區(qū)域檢測方法通常可以分為兩類基于紋理的圖像文本檢測方 法和基于區(qū)域的文本區(qū)域檢測方法?;趨^(qū)域的文本區(qū)域檢測方法可以利用文本區(qū)域 的顏色或灰度特征,或者文本區(qū)域與背景區(qū)域的差別,并且可以進一步分為基于連通域 (connected component,CC)的方式和基于邊緣的兩種方式。這兩種方式都以自底向上的方 式工作首先,識別圖像中的子結(jié)構(gòu),比如連通域或邊緣;然后將這些子結(jié)構(gòu)合并,以便利 用啟發(fā)式規(guī)則或?qū)W習式規(guī)則來標記出文本區(qū)域的邊界框?;诩y理的文本區(qū)域檢測方法將 文本作為一種紋理來處理。基于紋理的文本區(qū)域檢測方法通常將整個圖像劃分成多個塊, 并使用各種方式例如Gabor濾波器、空間變化或小波變換等來計算各個塊的紋理特征 ’然 后采用適當?shù)姆诸惼?,例如神?jīng)網(wǎng)絡或支持向量機(support vector machine, SVM),將文 本塊和非文本塊分類。然而,由于圖像或視頻幀中的文本通常具有較為復雜的背景,同時,受光線和文本 的字體、顏色、位置等因素影響較大,往往很難被檢測、分割和識別出來,因此有效和高效地 檢測出呈現(xiàn)在圖像或視頻幀中的具有相對復雜的背景的文本區(qū)域甚至文本區(qū)域中的文本 行仍是一項具有挑戰(zhàn)性的工作。

發(fā)明內(nèi)容
本發(fā)明提出了一種文本行檢測方法和裝置,其基于圖像灰度分解和字符筆劃提取 結(jié)果的組合,能夠有效和高效地檢測出呈現(xiàn)在圖像或視頻幀中的具有相對復雜的背景的文 本行。根據(jù)本發(fā)明的一個方面,提供了一種文本行檢測方法。所述文本行檢測方法包括 灰度分解步驟,對灰度圖像進行灰度分解,以獲得所述灰度圖像的文本層;筆劃提取步驟, 對所述灰度圖像進行筆劃提取,以獲得所述灰度圖像的筆劃層;一致性驗證步驟,驗證所述 文本層和所述筆劃層中的連通域的一致性,并且基于驗證結(jié)果從所述文本層中去除屬于所 述灰度圖像的背景區(qū)域的連通域;以及文本行生成步驟,將去除了屬于所述灰度圖像的背 景區(qū)域的連通域的所述文本層中的連通域組織成文本行。根據(jù)本發(fā)明的另一方面,提供了一種文本行檢測裝置。所述文本行檢測裝置包括灰度分解單元,被配置為對灰度圖像進行灰度分解,以獲得所述灰度圖像的文本層;筆劃提 取單元,被配置為對所述灰度圖像進行筆劃提取,以獲得所述灰度圖像的筆劃層;一致性驗 證單元,被配置為驗證所述文本層和所述筆劃層中的連通域的一致性,并且基于驗證結(jié)果 從所述文本層中去除屬于所述灰度圖像的背景區(qū)域的連通域;以及文本行生成單元,被配 置用于將去除了屬于所述灰度圖像的背景區(qū)域的連通域的所述文本層中的連通域組織成 文本行。根據(jù)本發(fā)明的另一方面,提供了一種文本行檢測方法。所述文本行檢測方法包括 灰度分解步驟對灰度圖像進行灰度分解,以獲得所述灰度圖像的正色文本層和反色文本 層;筆劃提取步驟從所述灰度圖像中提取出分別包含所述灰度圖像中的正色筆劃和反色 筆劃的正色筆劃層和反色筆劃層;一致性驗證步驟驗證所述正色文本層和正色筆劃層中 的連通域的一致性或者所述反色文本層和反色筆劃層中的連通域的一致性,并且基于驗證 結(jié)果從所述正色文本層或反色文本層中去除屬于所述灰度圖像的背景區(qū)域的連通域;以及 文本行生成步驟將去除了屬于所述灰度圖像的背景區(qū)域的連通域的所述正色文本層或反 色文本層中的連通域組織成正色文本行或反色文本行。根據(jù)本發(fā)明的文本行檢測方法和裝置對灰度圖像的文本層和筆劃層進行組合,以 進行一致性驗證。將文本層和筆劃層中除了屬于背景區(qū)域的連通域之外的連通域組織在一 起,形成文本行。本發(fā)明的文本行檢測方法和裝置能夠有效和高效地檢測出呈現(xiàn)在圖像或 視頻幀中的具有相對復雜的背景的文本行。根據(jù)本發(fā)明的另一方面,還提供了一種存儲介質(zhì)。所述存儲介質(zhì)包括機器可讀的 程序代碼,當在信息處理設(shè)備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設(shè) 備執(zhí)行根據(jù)本發(fā)明的文本行檢測方法。根據(jù)本發(fā)明的另一方面,還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機器可執(zhí)行 的指令,當在信息處理設(shè)備上執(zhí)行所述指令時,所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù) 本發(fā)明的文本行檢測方法。


本發(fā)明的以上和其它目的、特征和優(yōu)點將通過參考下文中結(jié)合附圖所給出的描述 而得到更好的理解。在所有附圖中,相同或相似的附圖標記表示相同或者相似的部件。在 所述附圖中圖1是根據(jù)本發(fā)明的實施例的文本行檢測方法的流程圖;圖2是根據(jù)本發(fā)明的另一實施例的文本行檢測方法的流程圖;圖3是一個示例筆劃的三維輪廓圖;圖4(a)示例性地示出經(jīng)過灰度分解步驟得到的一個示例圖像的文本層;圖4(b)示例性地示出經(jīng)過筆劃提取步驟得到的所述示例圖像的筆劃層;圖4(c)示例性地示出經(jīng)過一致性驗證步驟處理后的所述文本層;圖5(a)至5(c)示例性地示出根據(jù)本發(fā)明的實施例的對文本行進行后處理的過 程;圖6(a)至6(c)示例性地示出根據(jù)本發(fā)明的另一實施例的對文本行進行后處理的 過程;
圖7(a)至7(c)示例性地示出根據(jù)本發(fā)明的又一實施例的對文本行進行后處理的 過程;圖8是根據(jù)本發(fā)明的實施例的文本行檢測裝置的示意性框圖;圖9是可用于實施根據(jù)本發(fā)明實施例的方法和裝置的計算機的示意性框圖。
具體實施例方式下面參照附圖來說明本發(fā)明的實施例。在本發(fā)明的一個附圖或一種實施方式中描 述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應 當注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知 的部件和處理的表示和描述。圖像或視頻中的文本與背景區(qū)域中的其它對象相比,具有一些不同的特征。如果 文本與圖像內(nèi)容密切相關(guān),則文本一定是以容易閱讀的方式呈現(xiàn)在圖像或視頻中。這樣的 文本通常相對于其背景具有高對比度、均勻的顏色、合理的尺寸以及近似水平或豎直的取 向。考慮到這些特征,本發(fā)明提出了一種混合文本行檢測方法和裝置,其組合了圖像的灰度 和筆劃特征,并且其中可以針對文本行設(shè)計一些幾何約束以進一步優(yōu)化檢測到的文本行的 邊界。圖1是根據(jù)本發(fā)明的一個實施例的文本行檢測方法的流程圖。該文本行檢測方法 包括灰度分解步驟S110、筆劃提取步驟S120、一致性驗證步驟S130、文本行生成步驟S140, 并且優(yōu)選地還可以包括后處理步驟S150。通常,為了取得較好的檢測效果,可以使用灰度圖像作為本方法的輸入圖像。如果 原圖像或視頻幀是彩色圖像,則可以將其轉(zhuǎn)換為灰度圖像后再使用本方法進行處理。在灰度分解步驟SllO中,對灰度圖像進行灰度分解,以獲得所述灰度圖像的文本 層。圖像或視頻幀中的文本通常相對于其背景以高對比度呈現(xiàn)為暗(正色)文本或亮(反 色)文本。因此,通過灰度分解步驟SllO所獲得的文本層可以是包含正色文本的圖像層, 也可以是包含反色文本的圖像層。本領(lǐng)域技術(shù)人員應當清楚,可以以各種已知的技術(shù)來對灰度圖像進行灰度分解, 以得到正色或反色文本層。根據(jù)本發(fā)明的一個實施例,使用Niblack算法對灰度圖像進行 分解,以獲得灰度圖像的正色文本層和反色文本層。Niblack算法是一種比較有效的自適應二值化算法,其具體介紹可以參考 例 如 W. Niblack. An introduction to digital image processing,第 115-116 頁, Prentice-Hall, Englewood Cliffs (NJ),1986。該算法使用以下公式來將灰度圖像劃分為兩層,即(亮)前景層和(暗)背景層。
權(quán)利要求
1.一種文本行檢測方法,包括灰度分解步驟對灰度圖像進行灰度分解,以獲得所述灰度圖像的文本層; 筆劃提取步驟對所述灰度圖像進行筆劃提取,以獲得所述灰度圖像的筆劃層; 一致性驗證步驟驗證所述文本層和所述筆劃層中的連通域的一致性,并且基于驗證 結(jié)果從所述文本層中去除屬于所述灰度圖像的背景區(qū)域的連通域;以及文本行生成步驟將去除了屬于所述灰度圖像的背景區(qū)域的連通域的所述文本層中的 連通域組織成文本行。
2.根據(jù)權(quán)利要求1所述的方法,其中所述灰度分解步驟進一步包括使用Niblack算法對灰度圖像進行分解,以獲得所述灰度圖像的正色文本層和反色文 本層。
3.根據(jù)權(quán)利要求2所述的方法,其中所述Mblack算法為改進的Mblack算法,其根據(jù) 所述灰度圖像中的像素值與所述像素的鄰域局部平均值和標準差之間的關(guān)系,以及所述像 素的鄰域局部標準差是否大于預定閾值來判斷所述像素是否屬于所述正色文本層或所述 反色文本層。
4.根據(jù)權(quán)利要求1所述的方法,其中所述驗證所述文本層和所述筆劃層中的連通域的 一致性的步驟包括對于所述文本層中的連通域,確定其在所述筆劃層中的對應連通域; 計算所述文本層中的連通域和所述筆劃層中的對應連通域所共有的像素的數(shù)目與所 述文本層中的連通域的像素數(shù)目的比率作為一致性比率;以及如果所述一致性比率低于預定閾值,則判斷所述文本層中的所述連通域?qū)儆谒龌叶?圖像的背景區(qū)域。
5.根據(jù)權(quán)利要求4所述的方法,其中所述驗證所述文本層和所述筆劃層中的連通域的 一致性的步驟還包括以下步驟中的至少一個計算所述文本層中的連通域的長寬比,如果所述長寬比低于預定閾值,則判斷所述文 本層中的所述連通域?qū)儆谒龌叶葓D像的背景區(qū)域;計算所述文本層中的連通域的實心比率,如果所述實心比率低于預定閾值,則判斷所 述文本層中的所述連通域?qū)儆谒龌叶葓D像的背景區(qū)域;以及計算所述文本層中的連通域的直徑,如果所述直徑低于預定閾值,則判斷所述文本層 中的所述連通域?qū)儆谒龌叶葓D像的背景區(qū)域。
6.根據(jù)權(quán)利要求1所述的方法,其中所述文本行生成步驟進一步包括 通過以下步驟中的至少一個來判斷所述文本層中的兩個連通域是否連接 計算兩個連通域在水平或豎直方向上的距離,如果所述距離大于預定閾值,則判斷所 述兩個連通域未連接;計算兩個連通域在水平或豎直方向上的重疊比率,如果所述重疊比率低于預定閾值, 則判斷所述兩個連通域未連接;以及計算兩個連通域在RGB空間中的平均顏色,如果所述平均顏色大于預定閾值,則判斷 所述兩個連通域未連接;以及以連接的一組連通域形成文本行。
7.根據(jù)權(quán)利要求6所述的方法,還包括如果相連接的一組連通域的數(shù)目低于預定閾值,則從所述文本層中去除該組連通域。
8.根據(jù)權(quán)利要求1所述的方法,還包括后處理步驟基于所生成的文本行中的每個連 通域在所述文本行方向上的投影,或所述文本行中的每個連通域的高度的一致性,來確定 所述文本行的邊界。
9.一種文本行檢測裝置,包括灰度分解單元,被配置為對灰度圖像進行灰度分解,以獲得所述灰度圖像的文本層; 筆劃提取單元,被配置為對所述灰度圖像進行筆劃提取,以獲得所述灰度圖像的筆劃層;一致性驗證單元,被配置為驗證所述文本層和所述筆劃層中的連通域的一致性,并且 基于驗證結(jié)果從所述文本層中去除屬于所述灰度圖像的背景區(qū)域的連通域;以及文本行生成單元,被配置用于將去除了屬于所述灰度圖像的背景區(qū)域的連通域的所述 文本層中的連通域組織成文本行。
10.一種文本行檢測方法,包括灰度分解步驟對灰度圖像進行灰度分解,以獲得所述灰度圖像的正色文本層和反色 文本層;筆劃提取步驟從所述灰度圖像中提取出分別包含所述灰度圖像中的正色筆劃和反色 筆劃的正色筆劃層和反色筆劃層;一致性驗證步驟驗證所述正色文本層和正色筆劃層中的連通域的一致性或者所述反 色文本層和反色筆劃層中的連通域的一致性,并且基于驗證結(jié)果從所述正色文本層或反色 文本層中去除屬于所述灰度圖像的背景區(qū)域的連通域;以及文本行生成步驟將去除了屬于所述灰度圖像的背景區(qū)域的連通域的所述正色文本層 或反色文本層中的連通域組織成正色文本行或反色文本行。
全文摘要
本發(fā)明公開了一種文本行檢測方法和裝置。所述文本行檢測方法包括灰度分解步驟對灰度圖像進行灰度分解,以獲得所述灰度圖像的文本層;筆劃提取步驟對所述灰度圖像進行筆劃提取,以獲得所述灰度圖像的筆劃層;一致性驗證步驟驗證所述文本層和所述筆劃層中的連通域的一致性,并且基于驗證結(jié)果從所述文本層中去除屬于所述灰度圖像的背景區(qū)域的連通域;以及文本行生成步驟將去除了屬于所述灰度圖像的背景區(qū)域的連通域的所述文本層中的連通域組織成文本行。本發(fā)明的文本行檢測方法和裝置能夠有效和高效地檢測出呈現(xiàn)在圖像或視頻幀中的具有相對復雜的背景的文本行。
文檔編號G06T7/00GK102054271SQ20091022116
公開日2011年5月11日 申請日期2009年11月2日 優(yōu)先權(quán)日2009年11月2日
發(fā)明者于浩, 堀田悅伸, 孫俊, 皆川明洋, 直井聰, 范偉 申請人:富士通株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1