文本圖像提取裝置以及方法
【專利摘要】本公開提供一種文本圖像提取裝置和方法。該裝置包括邊緣極性確定單元,根據(jù)輸入圖像中檢測到的每個(gè)邊緣的亮度變化趨勢確定每個(gè)邊緣的極性;筆劃寬度確定單元,將極性相反的兩個(gè)邊緣確定為匹配邊緣對(duì),并且基于用戶指定區(qū)域中的各個(gè)匹配邊緣對(duì)中的兩個(gè)匹配邊緣之間的距離確定該用戶指定區(qū)域中的文本的筆劃寬度;前景像素確定單元,將輸入圖像的匹配邊緣對(duì)中兩個(gè)匹配邊緣之間的距離與筆劃寬度之差在第一預(yù)定范圍之內(nèi)的匹配邊緣對(duì)之間的像素確定為輸入圖像的前景像素;以及文本圖像區(qū)域獲取單元,利用前景像素對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,從而獲取文本圖像區(qū)域。本公開能夠以簡單、快速的方式實(shí)現(xiàn)對(duì)文本圖像區(qū)域的提取。
【專利說明】文本圖像提取裝置以及方法
【技術(shù)領(lǐng)域】
[0001] 本公開涉及圖像處理領(lǐng)域,更具體地涉及一種文本圖像的提取裝置和方法。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)、多媒體以及通信技術(shù)的飛速發(fā)展,文字信息正越來越多地以圖像形 式出現(xiàn)。通常,圖像中的文本信息是圖像內(nèi)容的重要來源,因此對(duì)圖像中文本的檢測、分割 和識(shí)別對(duì)于圖像語義的理解、索引和檢索是非常有價(jià)值的。目前通常采用的一種文本檢測 方法是基于邊緣的檢測方法,但是這種方法由于背景復(fù)雜且沒有先驗(yàn)知識(shí),因此不能精確 地分割出可靠的文本區(qū)域?;诩y理的方法是目前通常采用的另一種文本檢測方法,但是 該方法對(duì)于文本排列的方向非常敏感并且計(jì)算量也非常大。
[0003] 因此,當(dāng)前亟需一種能夠快速、可靠的文本圖像提取裝置以及方法。
【發(fā)明內(nèi)容】
[0004] 在下文中給出了關(guān)于本公開的簡要概述,以便提供關(guān)于本公開的某些方面的基本 理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本公開的窮舉性概述。它并不意圖確定本公開的關(guān) 鍵或重要部分,也不意圖限定本公開的范圍。其目的僅僅是以簡化的形式給出某些概念,以 此作為稍后論述的更詳細(xì)描述的前序。
[0005] 鑒于現(xiàn)有技術(shù)的上述缺陷,本公開的目的之一是提供一種文本圖像的提取裝置和 方法,以至少克服現(xiàn)有技術(shù)中的上述問題。
[0006] 根據(jù)本公開的一個(gè)方面,提供了一種文本圖像提取裝置,用于基于用戶指定區(qū)域 從輸入圖像中提取文本圖像區(qū)域,該文本圖像提取裝置包括:邊緣極性確定單元,用于根據(jù) 在輸入圖像中檢測到的每個(gè)邊緣的亮度變化趨勢確定每個(gè)邊緣的極性;筆劃寬度確定單 元,用于將極性相反的兩個(gè)邊緣確定為匹配邊緣對(duì),并且基于該用戶指定區(qū)域中的各個(gè)匹 配邊緣對(duì)中的兩個(gè)匹配邊緣之間的距離確定該用戶指定區(qū)域中的文本的筆劃寬度;前景像 素確定單元,用于將輸入圖像的匹配邊緣對(duì)中的、兩個(gè)匹配邊緣之間的距離與筆劃寬度之 差在第一預(yù)定范圍之內(nèi)的匹配邊緣對(duì)之間的像素確定為輸入圖像的前景像素,并且將其余 像素確定為輸入圖像的背景像素;以及文本圖像區(qū)域獲取單元,利用前景像素對(duì)用戶指定 區(qū)域進(jìn)行擴(kuò)展,從而在輸入圖像中獲取包括與用戶指定區(qū)域相關(guān)的文本圖像的文本圖像區(qū) 域。
[0007] 根據(jù)本公開的又一個(gè)方面,還提供一種文本圖像提取方法,用于基于用戶指定區(qū) 域從輸入圖像中獲取文本圖像區(qū)域,該文本圖像提取方法包括:根據(jù)在輸入圖像中檢測到 的每個(gè)邊緣的亮度變化趨勢確定每個(gè)邊緣的極性;將極性相反的兩個(gè)邊緣確定為匹配邊緣 對(duì),并且基于該用戶指定區(qū)域中的各個(gè)匹配邊緣對(duì)中的兩個(gè)匹配邊緣之間的距離確定該用 戶指定區(qū)域中的文本的筆劃寬度;將輸入圖像的匹配邊緣對(duì)中兩個(gè)匹配邊緣之間的距離與 筆劃寬度之差在第一預(yù)定范圍之內(nèi)的匹配邊緣對(duì)之間的像素確定為輸入圖像的前景像素, 并且將其余像素確定為輸入圖像的背景像素;以及利用前景像素對(duì)用戶指定區(qū)域進(jìn)行擴(kuò) 展,從而在輸入圖像中獲取包括與用戶指定區(qū)域相關(guān)的文本圖像的文本圖像區(qū)域。
[0008] 根據(jù)本公開的另一個(gè)方面,還提供了一種電子設(shè)備,該電子設(shè)備包括如上所述的 文本圖像提取裝置。
[0009] 依據(jù)本公開的其它方面,還提供了一種使得計(jì)算機(jī)用作如上所述的文本圖像提取 裝置的程序。
[0010] 依據(jù)本公開的又一方面,還提供了相應(yīng)的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存 儲(chǔ)介質(zhì)上存儲(chǔ)有能夠由計(jì)算設(shè)備執(zhí)行的計(jì)算機(jī)程序,該計(jì)算機(jī)程序在執(zhí)行時(shí)能夠使計(jì)算設(shè) 備執(zhí)行上述文本圖像提取方法。
[0011] 上述根據(jù)本公開實(shí)施例的文本圖像提取裝置和方法,至少能夠獲得以下益處之 一:能夠以簡單、快速的方式實(shí)現(xiàn)對(duì)文本圖像區(qū)域的提取,并且能夠大大提高了文本檢測的 精度。
[0012] 通過以下結(jié)合附圖對(duì)本公開的最佳實(shí)施例的詳細(xì)說明,本公開的這些以及其他優(yōu) 點(diǎn)將更加明顯。
【專利附圖】
【附圖說明】
[0013] 本公開可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所 有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的 詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進(jìn)一步舉例說明本 公開的優(yōu)選實(shí)施例和解釋本公開的原理和優(yōu)點(diǎn)。其中:
[0014] 圖1是示意性地示出根據(jù)本公開實(shí)施例的文本圖像提取裝置的一種示例結(jié)構(gòu)的 框圖。
[0015] 圖2示意性地示出文本圖像的一種示例。
[0016] 圖3是示意性地示出如圖1所示的文本圖像區(qū)域獲取單元的一種可能的示例結(jié)構(gòu) 的框圖。
[0017] 圖4是根據(jù)本公開實(shí)施例的文本圖像區(qū)域提取裝置的另一示例性結(jié)構(gòu)的框圖。
[0018] 圖5是示出根據(jù)本公開實(shí)施例的文本圖像區(qū)域提取裝置的又一示例性結(jié)構(gòu)的框 圖。
[0019] 圖6是示出根據(jù)本公開另一實(shí)施例的文本圖像區(qū)域提取裝置的示例性結(jié)構(gòu)圖。
[0020] 圖7是示出如圖6所示的文本圖像區(qū)域優(yōu)化單元的一種可能的示例結(jié)構(gòu)的框圖。
[0021] 圖8示出如圖7所示的連通部件組合子單元的一種具體的實(shí)現(xiàn)方式。
[0022] 圖9 (a)_9 (e)是示意性示出用于說明文本圖像區(qū)域優(yōu)化單元的各個(gè)處理的示例 圖。
[0023] 圖10是示意性示出根據(jù)本公開實(shí)施例的文本圖像提取方法的流程圖。
[0024] 圖11是示出了可用來實(shí)現(xiàn)根據(jù)本公開實(shí)施例的文本圖像提取裝置和方法的一種 可能的信息處理設(shè)備的硬件配置的結(jié)構(gòu)簡圖。
[0025] 本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的, 而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對(duì)于其他元件放大了,以 便有助于提高對(duì)本公開實(shí)施例的理解。
【具體實(shí)施方式】
[0026] 在下文中將結(jié)合附圖對(duì)本公開的示范性實(shí)施例進(jìn)行描述。為了清楚和簡明起見, 在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施 例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符 合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有 所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開 內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
[0027] 在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本公開,在附圖中 僅僅示出了與根據(jù)本公開的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本公開 關(guān)系不大的其他細(xì)節(jié)。
[0028] 隨著諸如智能手機(jī)、平板電腦等手持電子設(shè)備的廣泛應(yīng)用,用戶可以在利用其對(duì) 圖像進(jìn)行處理時(shí)通過指定自己感興趣的區(qū)域,來獲取與用戶感興趣的區(qū)域相關(guān)的文本信 息。用戶感興趣的區(qū)域可以通過用戶對(duì)顯示器上顯示的圖像執(zhí)行特定的手勢來獲取,例如 當(dāng)用戶期望獲取圖像上的文本信息時(shí),用戶對(duì)圖像中的文本區(qū)域執(zhí)行滑動(dòng)操作來獲得用戶 感興趣的區(qū)域、即用戶指定區(qū)域。在此,本發(fā)明提出一種基于用戶感興趣的區(qū)域(即用戶指 定區(qū)域)獲取輸入圖像中的文本圖像區(qū)域的文本圖像提取裝置和方法。
[0029] 圖1是示意性地示出根據(jù)本公開實(shí)施例的文本圖像提取裝置的一種示例結(jié)構(gòu)的 框圖。
[0030] 根據(jù)本公開實(shí)施例的文本圖像提取裝置1基于用戶指定區(qū)域從輸入圖像中獲取 文本圖像區(qū)域。如圖1所示,文本圖像提取裝置1包括:邊緣極性確定單元12,用于根據(jù) 在輸入圖像中檢測到的每個(gè)邊緣的亮度變化趨勢確定每個(gè)邊緣的極性;筆劃寬度確定單元 14,用于將極性相反的兩個(gè)邊緣確定為匹配邊緣對(duì),并且基于該用戶指定區(qū)域中的各個(gè)匹 配邊緣對(duì)中的兩個(gè)匹配邊緣之間的距離確定該用戶指定區(qū)域中的文本的筆劃寬度;前景像 素確定單元16,用于將輸入圖像的匹配邊緣對(duì)中的、兩個(gè)匹配邊緣之間的距離與該筆劃寬 度之差在第一預(yù)定范圍之內(nèi)的匹配邊緣對(duì)之間的像素確定為該輸入圖像的前景像素,而將 其余像素確定為該輸入圖像的背景像素;以及文本圖像區(qū)域獲取單元18,用于利用前景像 素對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,從而在該輸入圖像中獲取包括與用戶指定區(qū)域相關(guān)的文本圖 像的文本圖像區(qū)域。
[0031] 輸入圖像例如可是用戶使用諸如手機(jī)的數(shù)碼裝置拍攝的圖像,也可以是從諸如服 務(wù)器、互聯(lián)網(wǎng)等數(shù)據(jù)源收集的圖像。
[0032] 文本圖像提取裝置1可以利用諸如Canny邊緣檢測等本領(lǐng)域公知的方法對(duì)輸入圖 像的邊緣進(jìn)行檢測。在輸入圖像中包含文本圖像的情況下,使用邊緣檢測方法檢測到的圖 像邊緣通常包括筆劃邊緣。
[0033] 從文本的固有屬性來看,對(duì)于一個(gè)筆劃,通常該筆劃所在區(qū)域與其相鄰區(qū)域具有 不同的亮度,因此可以利用這一屬性確定圖像中的文本信息。具體地,為了便于從輸入圖像 中提取文本圖像,在檢測到圖像中的邊緣之后,本公開利用筆劃邊緣的亮度變化趨勢是對(duì) 稱的并且筆劃的寬度也是大體一致的屬性,來確定圖像中的筆劃及筆劃寬度,從而獲取輸 入圖像中的文本圖像。
[0034] 如圖1所示,根據(jù)本公開實(shí)施例的文本圖像提取裝置1的邊緣極性確定單元12根 據(jù)邊緣的亮度變化趨勢來確定每個(gè)邊緣的極性。
[0035] 根據(jù)本公開的優(yōu)選實(shí)施例,邊緣極性確定單元12可以采用卷積的方法計(jì)算邊緣 的極性。具體地,可以針對(duì)檢測到的邊緣上的每個(gè)像素及其相鄰像素的像素值,利用模板進(jìn) 行卷積運(yùn)算,以獲得邊緣的極性。例如可以采用如表1所示的模板進(jìn)行卷積計(jì)算,來獲得邊 緣極性。
[0036] 表 1
[0037] 2~[I~[0~ I~?~-1 0~-1 - 2
[0038] 當(dāng)使用表1的模板計(jì)算得到的邊緣極性為正時(shí),表示該邊緣沿預(yù)定方向(例如從 左到右或者從上到下)的亮度變化趨勢是由亮到暗;當(dāng)使用表1的模板計(jì)算得到的邊緣極 性為負(fù)時(shí),表示該邊緣沿預(yù)定方向(例如從左到右或者從上到下)的亮度變化趨勢是由暗到 殼的。
[0039] 上述模板僅是示例,本公開不限于此,本領(lǐng)域技術(shù)人員可以理解,也可采用其他的 模板進(jìn)行卷積計(jì)算。并且,本領(lǐng)域技術(shù)人員也可以理解,當(dāng)使用不同的模板時(shí),邊緣的極性 為正也可以表示該邊緣沿預(yù)定方向的亮度變化趨勢是從暗到亮,邊緣的極性為負(fù)也可以表 示該邊緣沿預(yù)定方向的亮度變化趨勢是從亮到暗。例如,在如圖2所示的文本圖像中,對(duì)于 邊緣E1,由于邊緣E1的亮度變化趨勢是從暗到亮,因此邊緣E1的極性通過使用表1的模 板計(jì)算為負(fù),而由于邊緣E2的亮度變化趨勢是從亮到暗,因此,邊緣E2的極性通過使用表 1的模板計(jì)算為正。
[0040] 在邊緣極性確定單元12確定了檢測到的每個(gè)邊緣的極性之后,筆劃寬度確定單 元14利用筆劃邊緣的極性對(duì)稱的屬性,確定極性相反的邊緣為匹配的邊緣對(duì),并根據(jù)兩個(gè) 對(duì)稱的邊緣對(duì)之間的距離確定筆劃寬度。
[0041] 根據(jù)本公開實(shí)施例,筆劃寬度確定單元14確定包含正極性和負(fù)極性的對(duì)稱的雙 邊緣作為匹配邊緣對(duì),例如,筆劃寬度確定單元14可以利用水平掃描線和垂直掃描線確定 匹配邊緣對(duì)。在圖2所示的示例中,邊緣E1和E2由于具有相反的極性,因此筆劃寬度確定 單元14將其確定為匹配的邊緣對(duì)?;谟脩糁付▍^(qū)域中的各個(gè)匹配邊緣對(duì)中的兩個(gè)匹配 的邊緣之間的距離,筆劃寬度確定單元14確定該用戶指定區(qū)域中的文本的筆劃寬度。例 如,可以采用確定筆劃寬度直方圖的方式,選擇用戶指定區(qū)域中直方圖最多的匹配邊緣對(duì) 之間的距離作為該用戶指定區(qū)域的文本筆劃寬度。但是本公開不限于此,例如也可以取用 戶指定區(qū)域中各個(gè)匹配邊緣對(duì)的兩個(gè)邊緣之間的距離的平均值作為該用戶指定區(qū)域的文 本筆劃寬度。
[0042] 利用筆劃寬度確定單元14確定的用戶指定區(qū)域的文本的筆劃寬度,前景像素確 定單元16確定輸入圖像的前景像素以及背景像素。根據(jù)本公開的實(shí)施例,通常,將輸入圖 像的匹配邊緣對(duì)中匹配邊緣之間的距離與由筆劃寬度確定單元14所確定的筆劃寬度之差 在第一預(yù)定范圍之內(nèi)的匹配邊緣對(duì)認(rèn)為是輸入圖像中與用戶指定區(qū)域相關(guān)的文本圖像中 的筆劃的對(duì)應(yīng)邊緣,因此前景像素確定單元16將符合上述條件的匹配邊緣對(duì)之間的像素 確定為輸入圖像的前景像素,即構(gòu)成與該用戶指定區(qū)域相關(guān)的文本中的各個(gè)筆劃的像素, 并且將其余像素確定為該輸入圖像的背景像素。本領(lǐng)域技術(shù)人員可以理解,可以考慮圖像 的尺寸以及筆劃寬度確定單元14所確定的文本筆劃寬度等因素而設(shè)定不同的第一預(yù)定范 圍。例如,可以將彼此之間的距離在[0.8X筆劃寬度,1.2X筆劃寬度]范圍內(nèi)的匹配邊緣 對(duì)之間的像素確定為輸入圖像的前景像素。
[0043] 如圖1所示,在通過前景像素確定單元16確定了前景像素之后,文本圖像區(qū)域獲 取單元18利用前景像素對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,從而在輸入圖像區(qū)域中獲取包括與用 戶指定區(qū)域相關(guān)的文本圖像的文本圖像區(qū)域。
[0044] 為了降低對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展的工作量,本公開還提出了根據(jù)文本方向而對(duì) 用戶指定區(qū)域采用不同的擴(kuò)展方式。
[0045] 圖3是示意性地示出如圖1所示的文本圖像區(qū)域獲取單元18的一種可能的示例 結(jié)構(gòu)的框圖。
[0046] 如圖3所示,文本圖像區(qū)域獲取單元18包括:文本方向確定子單元181,用于基于 用戶指定區(qū)域中的前景像素的水平方向和垂直方向的投影來確定用戶指定區(qū)域的文本方 向;以及用戶指定區(qū)域擴(kuò)展子單元182,用于根據(jù)所確定的用戶指定區(qū)域的文本方向來選 擇擴(kuò)展方向,以對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,從而獲取文本圖像區(qū)域。
[0047] 根據(jù)本公開的一個(gè)實(shí)施例,文本方向確定子單元181可以根據(jù)前景像素的水平投 影和垂直投影計(jì)算字符之間的間隙,從而確定文本方向。例如,當(dāng)通過對(duì)用戶指定區(qū)域內(nèi)前 景像素水平投影所確定的字符之間的間隙大于通過對(duì)用戶指定區(qū)域內(nèi)前景像素垂直投影 所確定的字符之間的間隙時(shí),通常認(rèn)為該用戶指定區(qū)域內(nèi)的文本是水平方向或者與水平方 向之間的夾角在第二預(yù)定范圍(例如45°之內(nèi)),在此情況下,可以將文本的方向確定為第 一方向;當(dāng)對(duì)前景的水平投影所確定的字符之間的間隙小于通過對(duì)前景像素的垂直投影所 確定的字符之間的間隙時(shí),通常認(rèn)為該用戶指定區(qū)域內(nèi)的文本是垂直方向或者與垂直方向 之間的夾角在該第二預(yù)定范圍(例如45°之內(nèi)),在此情況下,可以將文本的方向確定為第 二方向。
[0048] 如圖3所示,用戶指定區(qū)域擴(kuò)展子單元182根據(jù)文本確定子單元181確定的文本 方向來選擇擴(kuò)展方向,以對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,從而獲得文本圖像區(qū)域。
[0049] 根據(jù)本公開的優(yōu)選實(shí)施例,用戶指定區(qū)域擴(kuò)展子單元182被配置為在用戶指定區(qū) 域的文本方向被確定為第一方向時(shí),采用先上下擴(kuò)展再左右擴(kuò)展的方式對(duì)用戶指定區(qū)域進(jìn) 行擴(kuò)展。
[0050] 具體地,當(dāng)用戶指定區(qū)域的文本方向被確定為是水平方向或者與水平方向所成的 夾角在第二預(yù)定范圍時(shí),用戶指定區(qū)域擴(kuò)展子單元182通過向上和向下移動(dòng)水平分割線 (通常采用長度與用戶指定區(qū)域的長度相同的水平分割線)來擴(kuò)展用戶指定區(qū)域的高度(即 上下擴(kuò)展),直到基于此擴(kuò)展的文本圖像區(qū)域內(nèi)的前景像素的數(shù)量滿足諸如公式(1)所表示 的預(yù)定條件時(shí)不再對(duì)用戶指定區(qū)域的垂直方向進(jìn)行擴(kuò)展,從而完成對(duì)用戶指定區(qū)域的高度 的擴(kuò)展。
[0051] ForeNuminner>k*ForeNumouter (1)
[0052] 其中,F(xiàn)〇reNumin_表示位于分割線擴(kuò)展之后形成的用戶指定區(qū)域內(nèi)的前景像素的 數(shù)量;F〇reNunwCT表示位于經(jīng)分割線擴(kuò)展之后的用戶指定區(qū)域外的前景像素的數(shù)量;k為 預(yù)設(shè)的系數(shù)值,可以考慮用戶對(duì)獲取文本圖像區(qū)域的精度要求等因素對(duì)k值進(jìn)行不同地設(shè) 置,例如可以將k設(shè)置為5、10等等。
[0053] 在完成對(duì)用戶指定區(qū)域的高度的擴(kuò)展之后,用戶指定區(qū)域擴(kuò)展子單元182繼續(xù)對(duì) 文本方向被確定為第一方向的用戶指定區(qū)域的長度進(jìn)行擴(kuò)展。根據(jù)本公開的實(shí)施例,用 戶指定區(qū)域擴(kuò)展子單元182向左或向右移動(dòng)垂直分割線(該垂直分割線的高度(在此指的 是分割線在垂直方向上的長度)與用戶擴(kuò)展子區(qū)域的高度相同)以擴(kuò)展用戶指定區(qū)域的長 度(即左右擴(kuò)展),直到經(jīng)此擴(kuò)展之后的文本圖像區(qū)域內(nèi)的前景像素的數(shù)量滿足如上述公式 (1)所表示的預(yù)定條件時(shí)不再對(duì)用戶指定區(qū)域的水平方向進(jìn)行擴(kuò)展,從而完成對(duì)用戶指定 區(qū)域的長度的擴(kuò)展。
[0054] 也就是說,當(dāng)用戶指定區(qū)域的文本方向被確定為是水平方向或者與水平方向所成 的夾角在第二預(yù)定范圍時(shí),采用上下擴(kuò)展再左右擴(kuò)展的方式對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展。
[0055] 此外,根據(jù)本公開的實(shí)施例,在利用水平分割線以及垂直分割線對(duì)用戶指定區(qū)域 進(jìn)行擴(kuò)展時(shí),可以以比所確定的筆劃寬度小的距離為單位移動(dòng)水平分割線以及垂直分割 線,從而更準(zhǔn)確地實(shí)現(xiàn)對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展。
[0056] 另一方面,當(dāng)文本方向確定子單元181確定了文本方向?yàn)榈诙较颉⒓创怪狈较?或者與垂直方向所成的夾角在第二預(yù)定范圍內(nèi)時(shí),用戶指定區(qū)域擴(kuò)展子單元182對(duì)用戶指 定區(qū)域采用先左右擴(kuò)展再上下擴(kuò)展的方式進(jìn)行擴(kuò)展,以獲得擴(kuò)展后的用戶指定區(qū)域作為文 本圖像區(qū)域。用戶指定區(qū)域擴(kuò)展子單元182對(duì)文本方向?yàn)榈诙较虻挠脩糁付▍^(qū)域所采用 的左右擴(kuò)展以及上下擴(kuò)展的方式與針對(duì)文本方向?yàn)榈谝环较虻挠脩糁付▍^(qū)域所采用的左 右以及上下擴(kuò)展方式類似,在此不再贅述。
[0057] 根據(jù)本公開的優(yōu)選實(shí)施例,為了提高所獲得的文本圖像區(qū)域的準(zhǔn)確度,可以采用 循環(huán)擴(kuò)展的方式對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展。更具體地,針對(duì)文本方向?yàn)榈谝环较虻挠脩糁?定區(qū)域可以采用先上下擴(kuò)展再左右擴(kuò)展,然后針對(duì)經(jīng)過首次上下擴(kuò)展以及左右擴(kuò)展之后的 用戶指定區(qū)域繼續(xù)進(jìn)行第二次的上下擴(kuò)展以及左右擴(kuò)展,直到用戶指定區(qū)域的外接框的 上、下、左、右坐標(biāo)都不再變化為止。類似地,針對(duì)文本方向?yàn)榈诙较虻挠脩糁付▍^(qū)域可以 采用先左右擴(kuò)展再上下擴(kuò)展,然后針對(duì)經(jīng)過首次左右擴(kuò)展以及上下擴(kuò)展之后的用戶指定區(qū) 域繼續(xù)進(jìn)行第二次的左右擴(kuò)展以及上下擴(kuò)展,直到用戶指定區(qū)域的外接框的上、下、左、右 坐標(biāo)都不再變化為止。在對(duì)用戶指定區(qū)域進(jìn)行循環(huán)擴(kuò)展時(shí)采用的上下擴(kuò)展、左右擴(kuò)展方式 與以上針對(duì)文本方向?yàn)榈谝环较虻挠脩糁付▍^(qū)域所采用的左右以及上下擴(kuò)展方式類似,在 此不再贅述。
[0058] 通過對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,可以獲得擴(kuò)展后的用戶指定區(qū)域作為輸入圖像中 與用戶指定區(qū)域相關(guān)的文本圖像區(qū)域。在獲得了文本圖像區(qū)域之后,可以對(duì)文本圖像區(qū)域 進(jìn)行光學(xué)字符識(shí)別處理,以獲得輸入圖像中的文本信息,用于例如關(guān)鍵詞搜索等的處理。
[0059] 圖4是根據(jù)本公開實(shí)施例的文本圖像區(qū)域提取裝置的另一示例性結(jié)構(gòu)的框圖。
[0060] 除了與圖1的文本圖像區(qū)域裝置1類似地包括邊緣極性確定單元12、筆劃寬度確 定單元14、前景像素確定單元16以及文本圖像區(qū)域獲取單元18之外,圖4所示的文本圖像 區(qū)域提取裝置2還包括邊緣檢測單元10,用于根據(jù)用戶指定區(qū)域的圖像質(zhì)量設(shè)定用于所述 輸入圖像的邊緣檢測的閾值,并利用所設(shè)定的閾值對(duì)所述輸入圖像的邊緣進(jìn)行檢測。
[0061] 根據(jù)本公開的一個(gè)實(shí)施例,邊緣檢測單元10可以計(jì)算用戶指定區(qū)域的灰度圖像 的方差σ,然后使用σ和2*〇作為邊緣檢測(例如Canny邊緣檢測)的高低閾值。上述灰 度圖像的方差僅僅是示例,本領(lǐng)域技術(shù)人員應(yīng)該理解,也可以利用其它能夠表示圖像質(zhì)量 的參數(shù)值作為用于輸入圖像的邊緣檢測的閾值。
[0062] 根據(jù)本公開實(shí)施例的文本圖像提取裝置能夠根據(jù)輸入圖像、尤其是用戶指定區(qū)域 的圖像質(zhì)量自適應(yīng)地調(diào)整用于邊緣檢測的閾值,因此可以提高邊緣檢測的精度,尤其是對(duì) 于低對(duì)比度的圖像。
[0063] 圖5是示出根據(jù)本公開實(shí)施例的文本圖像區(qū)域提取裝置的另一示例性結(jié)構(gòu)的框 圖。
[0064] 除了與圖1的文本圖像區(qū)域裝置1類似地包括邊緣極性確定單元12、筆劃寬度確 定單元14、前景像素確定單元16以及文本圖像區(qū)域獲取單元18之外,圖5所示的文本圖像 區(qū)域提取裝置3還包括前景像素去噪單元17,用于根據(jù)前景像素確定單元確定的前景像素 的灰度值來確定前景像素參考灰度值,并且根據(jù)前景像素參考灰度值選擇用于由文本圖像 區(qū)域獲取單元18對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展時(shí)所使用的前景像素。
[0065] 如圖5所示,在前景像素確定單元16確定了前景像素之后,前景像素去噪單元17 進(jìn)一步對(duì)所確定的前景像素進(jìn)行去噪處理。根據(jù)本公開的一個(gè)實(shí)施例,前景像素去噪單元 17可以利用前景像素直方圖,將前景像素確定單元16確定的前景像素中、具有相同灰度值 的像素的數(shù)量為最多的像素的灰度值作為前景像素參考灰度值,并且選擇具有前景像素參 考灰度值的前景像素作為用于由文本圖像區(qū)域獲取單元18對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展時(shí)所 使用的前景像素。上述前景像素參考值的確定僅是示例,本公開不限于此,本領(lǐng)域技術(shù)人員 可以理解,也可以將用戶指定區(qū)域中的所確定的前景像素的平均灰度值作為前景像素參考 灰度值。此外,上述選擇具有前景像素參考灰度值的前景像素也僅僅是示例,本公開不限于 此,例如,也可以選擇其灰度值與該前景像素參考灰度值之差在特定范圍之間的前景像素 作為用于由文本圖像區(qū)域獲取單元18對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展時(shí)所使用的前景像素。 [0066] 通過對(duì)前景像素進(jìn)行去噪處理,根據(jù)本公開實(shí)施例的文本圖像區(qū)域提取裝置3能 夠簡化文本圖像區(qū)域獲取單元在獲取文本圖像區(qū)域時(shí)的處理。
[0067] 此外,根據(jù)本公開的另一實(shí)施例,如圖5所示的文本圖像區(qū)域提取裝置3也可以包 括如圖4所示的邊緣檢測單元10。
[0068] 在通過文本圖像區(qū)域獲取單元18獲取了文本圖像區(qū)域之后,還可以基于連通部 件對(duì)所確定文本區(qū)域進(jìn)行優(yōu)化。
[0069] 圖6是示出根據(jù)本公開另一實(shí)施例的文本圖像區(qū)域提取裝置的示例性結(jié)構(gòu)圖。 [0070] 除了與圖1的文本圖像區(qū)域裝置1類似地包括邊緣極性確定單元12、筆劃寬度確 定單元14、前景像素確定單元16以及文本圖像區(qū)域獲取單元18之外,圖6所示的文本圖像 區(qū)域提取裝置3還包括文本圖像區(qū)域優(yōu)化單元20,用于根據(jù)用戶指定區(qū)域的連通部件對(duì)通 過文本圖像獲取單元14獲取的文本圖像區(qū)域進(jìn)行優(yōu)化。
[0071] 在圖像處理領(lǐng)域,連通部件是指所有筆劃都連通的字符。例如對(duì)于英文文字來說, 小寫英文字母"a"、"b"、"c"、"d"等等中的每一個(gè)均為一個(gè)連通部件,而對(duì)于字母" i "、" j " 中的每一個(gè)則包含兩個(gè)連通部件。對(duì)于中文字符來說,例如漢字"子"、"于"等中的每一個(gè) 為一個(gè)連通部件,而漢字"化"、"元"等中的每一個(gè)則包括兩個(gè)連通部件。
[0072] 圖7是示出如圖6所示的文本圖像區(qū)域優(yōu)化單元20的一種可能的示例結(jié)構(gòu)的框 圖。
[0073] 如圖7所示,文本圖像區(qū)域優(yōu)化單元20包括:層選擇子單元201,用于將文本圖 像區(qū)域獲取單元18獲取的文本圖像區(qū)域內(nèi)的文本圖像分解為正向文本圖層和反向文本圖 層,并根據(jù)前景像素確定單元16確定的前景像素和背景像素的預(yù)估灰度值選擇正向文本 圖層或反向文本圖層作為文本圖像區(qū)域的文本圖層;以及連通部件組合子單元202,用于 根據(jù)文本圖像區(qū)域中的連通部件的位置信息,將所選擇的文本圖層上、與用戶指定區(qū)域中 預(yù)定的連通部件之間符合預(yù)定條件的連通部件組合在一起,以形成包括與用戶指定區(qū)域相 關(guān)的文本圖像的優(yōu)化文本圖像區(qū)域。
[0074] 更具體地,根據(jù)本公開的實(shí)施例,層選擇子單元201可以利用諸如Niblack圖像 分析技術(shù)將圖像分為兩層,即表示黑底白字的正向文本圖層和表示白底黑字的反向文本圖 層,然后,層選擇子單元201根據(jù)前景像素和背景像素的預(yù)估灰度值選擇正向文本圖層或 者反向文本圖層。前景像素和背景像素的預(yù)估灰度值可以采用各種方式確定,例如可以通 過分別對(duì)前景像素確定單元16確定的前景像素和背景像素求平均值來預(yù)估該前景像素和 背景像素的灰度值。優(yōu)選地,也可以分別選取前景像素確定單元16所確定的前景像素和背 景像素中具有相同灰度值的像素?cái)?shù)量為最多的像素的灰度值作為前景像素和背景像素的 預(yù)估灰度值。
[0075] 通過所確定的前景像素和背景像素的灰度值與所計(jì)算的正向文本圖層和負(fù)向文 本層的平均灰度值之間的關(guān)系,層選擇子單元201選擇正向文本圖層或者反向文本圖層作 為所確定的文本圖像區(qū)域的文本圖層。例如,當(dāng)前景像素的預(yù)估灰度值大于背景像素的預(yù) 估灰度值時(shí),選擇正向文本圖層和負(fù)向文本層中平均灰度值較大的文本層作為文本圖像區(qū) 域的文本圖層;反之,當(dāng)前景像素的預(yù)估灰度值小于背景像素的預(yù)估灰度值時(shí),選擇正向文 本圖層和負(fù)向文本層中平均灰度值較小的文本層作為文本圖像區(qū)域的文本圖層。
[0076] 優(yōu)選地,層選擇子單元201在選擇了文本圖層之后,可以計(jì)算所選擇的文本圖層 的每個(gè)連通部件的灰度值,并利用所選擇的文本圖層的灰度值以及連通部件的灰度值,執(zhí) 行去噪處理。
[0077] 參見圖7,在層選擇子單元201選擇了文本圖層之后,連通部件組合子單元202根 據(jù)文本圖像區(qū)域中的連通部件的位置信息,將所選擇的文本圖層上、與用戶指定區(qū)域中預(yù) 定的連通部件之間符合預(yù)定條件的連通部件組合在一起,以形成包括與用戶指定區(qū)域相關(guān) 的文本圖像的優(yōu)化文本圖像區(qū)域。
[0078] 圖8是示出如圖7所示的連通部件組合子單元202的一種具體的實(shí)現(xiàn)方式。
[0079] 如圖8所不,連通部件組合子單兀202包括:種子連通部件確定t旲塊2021和連通 部件組合模塊2022。
[0080] 根據(jù)本公開的實(shí)施例,種子連通部件確定模塊2021將位于該文本圖像區(qū)域中的、 與用戶指定區(qū)域相交的連通部件確定為種子連通部件。優(yōu)選地,種子連通部件確定模塊 2021還根據(jù)種子連通部件的位置關(guān)系確定起始和結(jié)束的種子連通部件。
[0081] 連通部件組合模塊2022將所選擇的所述文本圖層上、與種子連通部件具有特定 位置關(guān)系的連通部件與所述種子連通部件組合在一起,以形成優(yōu)化文本圖像區(qū)域。
[0082] 根據(jù)本公開的一個(gè)實(shí)施例,可以使用如下公式(2)_ (6)中的任一個(gè)或者多個(gè)的組 合表示的約束條件來表達(dá)上述特定的位置關(guān)系。
[0083] Ct < K *max(cfw) (2)
[0084] Overlap^, <k2*Areaadj (3)
[0085] max (wadJ, hadJ) >k3*max (wseed, hseed) (4)
[0086] PassOveHapl > k4* Areaat1j (5)
[0087] PassOverlapa^M > k5 * Area adJ (6)
[0088] 其中,Ct表示種子連通部件和其相鄰連通部件的距離;
[0089] max(dseed)表示相鄰的種子連通部件之間的距離的最大值;
[0090] Areaadj表示相鄰連通部件的面積、即相鄰連通部件的外接矩形的面積;
[0091] max(wadj, hadj)表示相鄰連通部件的寬度和高度中的最大值;
[0092] max(wseed, hseed)表示種子連通部件的寬度和高度中的最大值;
[0093] Overtop:表示種子連接部件與其相鄰連通部件的重疊面積;
[0094] ?PawOver/a凡匕表示該相鄰連通部件落入通過所述種子連通部件的高度確定的區(qū) 域內(nèi)的面積;
[0095] /Wv.vOwr/印表示該相鄰連通部件落入該相鄰連通部件落入通過文本邊界而 確定的區(qū)域以內(nèi)的面積,該文本邊界根據(jù)種子連通部件中的起始種子連通部件和結(jié)束種子 連通部件之間所成的角度確定的。
[0096] 具體地,對(duì)于與種子連通部件之間滿足公式(2)表示的位置關(guān)系的相鄰連通部件, 即當(dāng)該相鄰連通部件與種子連通部件之間的距離小于h倍的種子連通部件寬度的最大值 時(shí),連通部件組合模塊2022可以將該相鄰連通部件與種子連通部件組合在一起。的值例 如可以根據(jù)用戶對(duì)于文本圖像區(qū)域提取精度的要求來確定,例如可以將h的值設(shè)置為2。
[0097] 對(duì)于與種子連通部件之間滿足公式(3)表示的位置關(guān)系的相鄰連通部件,即當(dāng)該 相鄰連通部件與種子連通部件之間的重疊面積小于k 2倍的該相鄰連通部件的面積時(shí),連通 部件組合模塊2022可以將該相鄰連通部件與種子連通部件組合在一起。k 2的值也可以根 據(jù)用戶對(duì)于文本圖像區(qū)域提取精度的要求來確定,例如可以將k2的值設(shè)置為0. 5。
[0098] 對(duì)于與種子連通部件之間滿足公式(4)表示的位置關(guān)系的相鄰連通部件,即當(dāng)該 相鄰連通部件的寬度和高度中的最大值大于匕倍的種子連通部件的寬度和高度中的最大 值時(shí),連通部件組合模塊2022可以將該相鄰連通部件與種子連通部件組合在一起。K 3的值 也可以根據(jù)用戶對(duì)于文本圖像區(qū)域提取精度的要求來確定,例如可以將k3的值設(shè)置為0.5。
[0099] 對(duì)于與種子連通部件之間滿足公式(5)表示的位置關(guān)系的相鄰連通部件,即當(dāng)該 相鄰連通部件落入通過所述種子連通部件的高度確定的區(qū)域內(nèi)的面積大于k 4倍的相鄰連 通部件的面積時(shí),連通部件組合模塊2022可以將該相鄰連通部件與種子連通部件組合在 一起。根據(jù)本公開的一個(gè)實(shí)施例,通過種子連通部件的高度確定的區(qū)域可以是以與種子連 通部件的高度垂直的兩條平行線所確定的、包括該種子連通部件的區(qū)域。此外,k 4的值也可 以根據(jù)用戶對(duì)于文本圖像區(qū)域提取精度的要求來確定,優(yōu)選地,可以將k4的值設(shè)置為0. 5。
[0100] 對(duì)于與種子連通部件之間滿足公式(6)表示的位置關(guān)系的相鄰連通部件,即當(dāng)該 相鄰連通部件落入通過文本邊界限定的區(qū)域內(nèi)的面積小于匕倍的相鄰連通部件的面積時(shí), 連通部件組合模塊2022可以將該相鄰連通部件與種子連通部件組合在一起,其中該文本 邊界根據(jù)種子連通部件中的起始種子連通部件和結(jié)束種子連通部件之間所成的角度確定 的。根據(jù)本公開的一個(gè)實(shí)施例,通過該文本邊界確定的區(qū)域可以是以具有連接種子連通部 件和結(jié)束種子連通部件的中心點(diǎn)平行的所確定的、包括起始和結(jié)束種子連通部件(或者所 有種子連通部件)的區(qū)域。K 5的值也可以根據(jù)用戶對(duì)于文本圖像區(qū)域提取精度的要求來確 定,優(yōu)選地,可以將k5的值設(shè)置為0. 5。
[0101] 此外,在每次有相鄰連通部件由于與種子連通部件符合通過上述公式表示的位置 關(guān)系中的一個(gè)或幾個(gè)而與種子連通部件組合在一起時(shí),種子連通部件確定模塊2021還被 配置為將與所述種子連通部件組合在一起的相鄰連通部件也確定為種子連通部件。
[0102] 通過種子連通部件確定模塊2021以及連通部件組合模塊2022重復(fù)地執(zhí)行上述操 作,直到?jīng)]有新的連通部件被組合在一起為止,從而獲得優(yōu)化文本圖像區(qū)域。
[0103] 下面以圖9 (a) -9 (e)為例說明說明文本圖像區(qū)域優(yōu)化單元20中的各個(gè)部件的 處理。
[0104] 在經(jīng)過文本圖像區(qū)域提取裝置3的邊緣極性確定單元12、筆劃寬度確定單元14、 前景像素確定單元16以及文本圖像區(qū)域獲取單元18的處理之后,獲得了如圖9 (a)所示 的文本圖像區(qū)域R。然后由文本圖像區(qū)域優(yōu)化單元20的層選擇子單元201針對(duì)該文本圖像 區(qū)域R選擇文本圖層。
[0105] 層選擇子單元通過Niblack圖像分析技術(shù),將圖9 (a)所示的圖像中的文本圖像 區(qū)域分解為所示的正向文本圖層和反向文本圖層,通過確定正向文本圖層和反向文本圖層 的平均灰度值并且將其與預(yù)估的由前景像素確定單元16確定的前景像素和背景像素的灰 度值進(jìn)行比較以選擇該文本圖像區(qū)域的文本圖層。由于圖9 (a)所示的文本圖像區(qū)域的預(yù) 估前景像素值小于背景像素值,因此可以選擇表示白底黑字的反向文本圖層作為該文本圖 像區(qū)域的文本圖層。如圖9 (b)示出了層選擇的結(jié)果。
[0106] 針對(duì)選層之后的文本圖像區(qū)域,可以利用與用戶指定區(qū)域相交的種子連通部件對(duì) 其相鄰的連通部件進(jìn)行擴(kuò)展,例如利用上述公式(2)- (6)中的一個(gè)或多個(gè)所表示的位置 約束關(guān)系。如圖9 (c)所示,與用戶指定區(qū)域UR相交的種子連通部件為字母"n"、"g"以及 "t",其中"η"和"t"分別所有種子連通部件中的起始和結(jié)束種子連通部件。
[0107] 例如當(dāng)根據(jù)如上所述的公式(5)所表示的位置約束關(guān)系,利用種子連通部件"t" 對(duì)相鄰的連通部件"〇"進(jìn)行擴(kuò)展時(shí),由于相鄰連通部件"〇"落入通過種子連通部件"t"的 高度確定的區(qū)域內(nèi)(即如圖9 (d)所示,由指示線L1和L2確定的區(qū)域內(nèi))的面積大于k4 倍的相鄰連通部件的面積時(shí),可以將該相鄰連通部件與種子連通部件組合在一起滿足公式 (4)表示的位置關(guān)系的相鄰連通部件。
[0108] 類似地,例如當(dāng)根據(jù)如上所述的公式(6)所表示的位置約束關(guān)系,利用種子連通部 件"t"對(duì)相鄰的連通部件"〇"進(jìn)行擴(kuò)展時(shí),由于相鄰連通部件"〇"落入通過文本邊界限定 的區(qū)域內(nèi)的面積小于〇. 8倍的相鄰連通部件的面積時(shí),可以將該相鄰連通部件與種子連通 部件組合在一起,其中該文本邊界根據(jù)種子連通部件中的起始種子連通部件和結(jié)束種子連 通部件之間所成的角度確定的,例如圖9 (e)所示的指示線L3和L4是文本邊界的一個(gè)示 例。
[0109] 通過上述操作,在將相鄰連通部件"ο "與種子連通部件" t "組合在一起以后,種子 連通部件確定模塊2021可以將相鄰連通部件也確定為種子連通部件,并且連通部件組 合模塊2022可以利用包括"〇"的所有種子連通部件繼續(xù)對(duì)其相鄰的連通部件進(jìn)行擴(kuò)展,直 到?jīng)]有新的連通部件被組合在一起為止。如圖9(e)所示,利用種子連通部件"n"、"g"、"t", 可以將連通部件"1"、"6"、"3"、"(1"、"1"和" 〇"組合在一起,形成包括文本信息"1冊(cè)乜叩 to"的優(yōu)化文本圖像區(qū)域。
[0110] 通過上述利用種子連通部件對(duì)相鄰連通部件進(jìn)行擴(kuò)展,從而獲得優(yōu)化文本圖像區(qū) 域。所獲得的優(yōu)化文本圖像區(qū)域也可以用于OCR識(shí)別,并且進(jìn)一步用于例如關(guān)鍵詞搜索等 的處理。
[0111] 通過文本圖像區(qū)域優(yōu)化單元處理后的文本圖像優(yōu)化區(qū)域,能夠使用戶獲得更準(zhǔn)確 的文本信息,從而進(jìn)一步提升用戶體驗(yàn)。
[0112] 根據(jù)本公開的一個(gè)實(shí)施例,還提供了一種文本圖像提取方法,用于基于用戶指定 區(qū)域從輸入圖像中獲取文本圖像區(qū)域。下面結(jié)合圖10來描述文本圖像提取方法的一種示 例性處理。
[0113] 如圖10所示,根據(jù)本公開的實(shí)施例的文本圖像提取方法的處理流程1000開始于 S1010,然后執(zhí)行S1020的處理。該文本圖像提取方法包括:
[0114] 在S1020中,根據(jù)在輸入圖像中檢測到的每個(gè)邊緣的亮度變化趨勢確定每個(gè)邊緣 的極性。例如,可以通過執(zhí)行例如參照?qǐng)D1-2描述的邊緣極性確定單元12的處理來實(shí)現(xiàn) S1020,在此省略其描述。然后執(zhí)行S1030。
[0115] 在S1030中,將極性相反的兩個(gè)邊緣確定為匹配邊緣對(duì),并且基于該用戶指定區(qū) 域中的各個(gè)匹配邊緣對(duì)中的兩個(gè)匹配邊緣之間的距離確定該用戶指定區(qū)域中的文本的筆 劃寬度。例如可以通過水平掃描和垂直掃描確定由極性相反的兩個(gè)邊緣構(gòu)成的匹配邊緣 對(duì)。S1030例如可以通過執(zhí)行例如參照?qǐng)D1描述的筆劃寬度確定單元14的處理來實(shí)現(xiàn),在 此省略其描述。然后執(zhí)行S1040。
[0116] 在S1040中,將所述輸入圖像的匹配邊緣對(duì)中匹配邊緣之間的距離與所確定的筆 劃寬度之差在第一預(yù)定范圍之內(nèi)的邊緣對(duì)之間的像素確定為所述輸入圖像的前景像素,并 且將其余像素確定為所述輸入圖像的背景像素。例如,可以通過執(zhí)行例如參照?qǐng)D1描述的 前景像素確定單元16的處理來實(shí)現(xiàn)S1040,在此省略其描述。然后執(zhí)行S1050。
[0117] 此外,在S1040中,還可以對(duì)前景像素執(zhí)行去噪處理。該去噪處理可以通過執(zhí)行例 如參照?qǐng)D5描述的前景像素去噪單元17的處理來實(shí)現(xiàn),在此省略其描述。
[0118] 在S1050中,利用前景像素對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,從而在所述輸入圖像中獲 取包括與用戶指定區(qū)域相關(guān)的文本圖像的文本圖像區(qū)域。例如,可以通過執(zhí)行例如參照 圖1-3描述的文本圖像區(qū)域獲取單元18的處理來實(shí)現(xiàn)S1050,在此省略其描述。然后執(zhí)行 S1060。
[0119] 處理流程1000結(jié)束于S1060。
[0120] 根據(jù)本公開的另一實(shí)施例,文本圖像提取方法還可以在通過S1050獲取了文本圖 像區(qū)域之后,利用連通部件對(duì)所獲得的文本圖像區(qū)域進(jìn)行優(yōu)化,以獲得優(yōu)化文本圖像區(qū)域。 具體的文本圖像區(qū)域優(yōu)化的方法例如可以通過執(zhí)行參照?qǐng)D6-8描述的文本圖像區(qū)域優(yōu)化 單元20的處理來實(shí)現(xiàn),在此省略其描述。
[0121] 與現(xiàn)有技術(shù)中相比,根據(jù)本公開的文本圖像提取裝置和文本圖像提取方法充分利 用了文本的雙邊緣對(duì)稱性和筆劃寬度等特征,因此能夠以簡單、快速的方式實(shí)現(xiàn)對(duì)文本圖 像區(qū)域的提取,此外還可以大大提高文本檢測的精度。
[0122] 此外,本公開的實(shí)施例還提供了一種電子設(shè)備,該電子設(shè)備被配置包括如上所述 的文本圖像提取裝置1。該電子設(shè)備例如可以是以下設(shè)備中的任意一種:手機(jī);計(jì)算機(jī);平 板電腦;以及個(gè)人數(shù)字助理等。相應(yīng)地,該電子設(shè)備能夠擁有如上所述的文本圖像提取裝置 的有益效果和優(yōu)點(diǎn)。
[0123] 上述根據(jù)本公開的實(shí)施例的文本圖像提取裝置中的各個(gè)組成單元、子單元等可以 通過軟件、固件、硬件或其任意組合的方式進(jìn)行配置。在通過軟件或固件實(shí)現(xiàn)的情況下,可 從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的機(jī)器安裝構(gòu)成該軟件或固件的程序,該機(jī)器在安 裝有各種程序時(shí),能夠執(zhí)行上述各組成單元、子單元的各種功能。
[0124] 圖11是示出了可用來實(shí)現(xiàn)根據(jù)本公開的實(shí)施例的是文本圖像提取裝置和方法的 一種可能的信息處理設(shè)備的硬件配置的結(jié)構(gòu)簡圖。
[0125] 在圖11中,中央處理單元(CPU) 1101根據(jù)只讀存儲(chǔ)器(ROM) 1102中存儲(chǔ)的程序或 從存儲(chǔ)部分1108加載到隨機(jī)存取存儲(chǔ)器(RAM) 1103的程序執(zhí)行各種處理。在RAM1103中, 還根據(jù)需要存儲(chǔ)當(dāng)CPU1101執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU110UR0M1102和RAM1103 經(jīng)由總線704彼此連接。輸入/輸出接口 1105也連接到總線1104。
[0126] 下述部件也連接到輸入/輸出接口 1105 :輸入部分1106 (包括鍵盤、鼠標(biāo)等等)、 輸出部分1107(包括顯示器,例如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存 儲(chǔ)部分1108 (包括硬盤等)、通信部分1109 (包括網(wǎng)絡(luò)接口卡例如LAN卡、調(diào)制解調(diào)器等)。 通信部分1109經(jīng)由網(wǎng)絡(luò)例如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器1110也可連接到輸 入/輸出接口 1105。可拆卸介質(zhì)1111例如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù) 需要被安裝在驅(qū)動(dòng)器1110上,使得從中讀出的計(jì)算機(jī)程序可根據(jù)需要被安裝到存儲(chǔ)部分 1108 中。
[0127] 在通過軟件實(shí)現(xiàn)上述系列處理的情況下,可以從網(wǎng)絡(luò)例如因特網(wǎng)或從存儲(chǔ)介質(zhì)例 如可拆卸介質(zhì)1111安裝構(gòu)成軟件的程序。
[0128] 本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖11所示的其中存儲(chǔ)有程 序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1111。可拆卸介質(zhì)1111的例子包 含磁盤(包含軟盤)、光盤(包含光盤只讀存儲(chǔ)器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤 (包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘撸鎯?chǔ)介質(zhì)可以是R0M1102、存儲(chǔ)部 分1108中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。
[0129] 此外,本公開還提出了一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。上述指令 代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本公開的實(shí)施例的文本圖像提取方法。相應(yīng)地, 用于承載這種程序產(chǎn)品的例如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等的各種存儲(chǔ)介質(zhì)也包括 在本公開的公開中。
[0130] 在上面對(duì)本公開具體實(shí)施例的描述中,針對(duì)一種實(shí)施方式描述和/或示出的特征 可以以相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征 相組合,或替代其它實(shí)施方式中的特征。
[0131] 此外,本公開的各實(shí)施例的方法不限于按照說明書中描述的或者附圖中示出的時(shí) 間順序來執(zhí)行,也可以按照其他的時(shí)間順序、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述 的方法的執(zhí)行順序不對(duì)本公開的技術(shù)范圍構(gòu)成限制。
[0132] 此外,顯然,根據(jù)本公開的上述方法的各個(gè)操作過程也可以以存儲(chǔ)在各種機(jī)器可 讀的存儲(chǔ)介質(zhì)中的計(jì)算機(jī)可執(zhí)行程序的方式實(shí)現(xiàn)。
[0133] 而且,本公開的目的也可以通過下述方式實(shí)現(xiàn):將存儲(chǔ)有上述可執(zhí)行程序代碼的 存儲(chǔ)介質(zhì)直接或者間接地提供給系統(tǒng)或設(shè)備,并且該系統(tǒng)或設(shè)備中的計(jì)算機(jī)或者中央處理 單元(CPU)讀出并執(zhí)行上述程序代碼。
[0134] 此時(shí),只要該系統(tǒng)或者設(shè)備具有執(zhí)行程序的功能,則本公開的實(shí)施方式不局限于 程序,并且該程序也可以是任意的形式,例如,目標(biāo)程序、解釋器執(zhí)行的程序或者提供給操 作系統(tǒng)的腳本程序等。
[0135] 上述這些機(jī)器可讀存儲(chǔ)介質(zhì)包括但不限于:各種存儲(chǔ)器和存儲(chǔ)單元,半導(dǎo)體設(shè)備, 磁盤單元例如光、磁和磁光盤,以及其它適于存儲(chǔ)信息的介質(zhì)等。
[0136] 另外,客戶信息處理終端通過連接到因特網(wǎng)上的相應(yīng)網(wǎng)站,并且將依據(jù)本公開的 計(jì)算機(jī)程序代碼下載和安裝到信息處理終端中然后執(zhí)行該程序,也可以實(shí)現(xiàn)本公開的各實(shí) 施例。
[0137] 綜上,在根據(jù)本公開的實(shí)施例中,本公開提供了如下方案,但不限于此:
[0138] 方案1、一種文本圖像提取裝置,用于基于用戶指定區(qū)域從輸入圖像中獲取文本圖 像區(qū)域,該文本圖像提取裝置包括:
[0139] 邊緣極性確定單元,用于根據(jù)在輸入圖像中檢測到的每個(gè)邊緣的亮度變化趨勢確 定每個(gè)邊緣的極性;
[0140] 筆劃寬度確定單元,用于將極性相反的兩個(gè)邊緣確定為匹配邊緣對(duì),并且基于該 用戶指定區(qū)域中的各個(gè)匹配邊緣對(duì)中的兩個(gè)匹配邊緣之間的距離確定該用戶指定區(qū)域中 的文本的筆劃寬度;
[0141] 前景像素確定單元,用于將輸入圖像的匹配邊緣對(duì)中的、兩個(gè)匹配邊緣之間的距 離與筆劃寬度之差在第一預(yù)定范圍之內(nèi)的匹配邊緣對(duì)之間的像素確定為輸入圖像的前景 像素,并且將其余像素確定為輸入圖像的背景像素;以及
[0142] 文本圖像區(qū)域獲取單元,利用前景像素對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,從而在輸入圖 像中獲取包括與用戶指定區(qū)域相關(guān)的文本圖像的文本圖像區(qū)域。
[0143] 方案2、根據(jù)方案1所述的文本圖像提取裝置,其中文本信息提取裝置還包括:邊 緣檢測單元,用于根據(jù)用戶指定區(qū)域的圖像質(zhì)量設(shè)定用于輸入圖像的邊緣檢測的閾值,并 利用所設(shè)定的閾值對(duì)輸入圖像的邊緣進(jìn)行檢測。
[0144] 方案3、根據(jù)方案1或2所述的文本圖像提取裝置,其中文本圖像區(qū)域獲取單元包 括:
[0145] 文本方向確定子單元,用于基于用戶指定區(qū)域中的前景像素的水平方向和垂直方 向的投影來確定用戶指定區(qū)域的文本方向;
[0146] 用戶指定區(qū)域擴(kuò)展子單元,用于根據(jù)所確定的用戶指定區(qū)域的文本方向來選擇擴(kuò) 展方向,以對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,從而獲取文本圖像區(qū)域。
[0147] 方案4、根據(jù)方案3所述的文本圖像提取裝置,其中用戶指定區(qū)域擴(kuò)展子單元被配 置為當(dāng)用戶指定區(qū)域的文本方向被確定為第一方向時(shí),采用先上下擴(kuò)展再左右擴(kuò)展的方式 對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,當(dāng)用戶指定區(qū)域的文本方向被確定為與第一方向不同的第二方 向時(shí),采用先左右擴(kuò)展再上下擴(kuò)展的方式對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,
[0148] 其中,第一方向是水平方向或者與水平方向所成的角度在第二預(yù)定范圍內(nèi)的任一 方向。
[0149] 方案5、根據(jù)方案1-4中任一項(xiàng)所述的文本圖像提取裝置,其中文本圖像提取裝置 還包括前景像素去噪單元,用于根據(jù)前景像素確定單元確定的前景像素的灰度值來確定前 景像素參考灰度值,并且根據(jù)前景像素參考灰度值選擇用于由文本圖像區(qū)域獲取單元對(duì)于 用戶指定區(qū)域進(jìn)行擴(kuò)展時(shí)所使用的前景像素。
[0150] 方案6、根據(jù)方案1-5中任一項(xiàng)所述的文本圖像提取裝置,該文本圖像提取裝置 還包括文本圖像區(qū)域優(yōu)化單元,用于根據(jù)用戶指定區(qū)域的連通部件對(duì)文本圖像區(qū)域進(jìn)行優(yōu) 化。
[0151] 方案7、根據(jù)方案6所述的文本圖像提取裝置,其中該文本圖像區(qū)域優(yōu)化單元包 括:
[0152] 層選擇子單元,用于將文本圖像區(qū)域內(nèi)的文本圖像分解為正向文本圖層和反向文 本圖層,并根據(jù)前景像素和背景像素的預(yù)估灰度值選擇正向文本圖層或反向文本圖層作為 文本圖像區(qū)域的文本圖層;以及
[0153] 連通部件組合子單元,用于根據(jù)文本圖像區(qū)域中的連通部件的位置信息,在所選 擇的文本圖層上將與用戶指定區(qū)域中預(yù)定的連通部件之間符合預(yù)定條件的連通部件組合 在一起,以形成包括與用戶指定區(qū)域相關(guān)的文本圖像的優(yōu)化文本圖像區(qū)域。
[0154] 方案8、根據(jù)方案7所述的文本圖像提取裝置,其中連通部件組合子單元包括:
[0155] 種子連通部件確定模塊,用于將位于文本圖像區(qū)域中的與用戶指定區(qū)域相交的連 通部件確定為種子連通部件;以及
[0156] 連通部件組合模塊,用于在所選擇的文本圖層上,將與種子連通部件具有以下位 置關(guān)系的相鄰連通部件與種子連通部件組合在一起,以形成優(yōu)化文本圖像區(qū)域:該相鄰連 通部件落入通過種子連通部件的高度確定的區(qū)域內(nèi)的面積與該相鄰連通部件的面積之比 大于第一閾值,
[0157] 其中種子連通部件確定模塊還被配置為將與種子連通部件組合在一起的相鄰連 通部件也確定為種子連通部件。
[0158] 方案9、根據(jù)方案8所述的文本圖像提取裝置,其中位置關(guān)系還包括:該相鄰連通 部件落入通過文本邊界限定的區(qū)域以內(nèi)的面積與該相鄰連通部件的面積之比大于第二閾 值,其中該文本邊界是根據(jù)種子連通部件中的起始種子連通部件和結(jié)束種子連通部件之間 所成的角度確定的。
[0159] 方案10、一種文本圖像提取方法,用于基于用戶指定區(qū)域從輸入圖像中獲取文本 圖像區(qū)域,該文本圖像提取方法包括:
[0160] 根據(jù)在輸入圖像中檢測到的每個(gè)邊緣的亮度變化趨勢確定每個(gè)邊緣的極性;
[0161] 將極性相反的兩個(gè)邊緣確定為匹配邊緣對(duì),并且基于該用戶指定區(qū)域中的各個(gè)匹 配邊緣對(duì)中的兩個(gè)匹配邊緣之間的距離確定該用戶指定區(qū)域中的文本的筆劃寬度;
[0162] 將輸入圖像的匹配邊緣對(duì)中的、兩個(gè)匹配邊緣之間的距離與筆劃寬度之差在第一 預(yù)定范圍之內(nèi)的匹配邊緣對(duì)之間的像素確定為所述輸入圖像的前景像素,并且將其余像素 確定為輸入圖像的背景像素;以及
[0163] 利用前景像素對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,從而在輸入圖像中獲取包括與用戶指定 區(qū)域相關(guān)的文本圖像的文本圖像區(qū)域。
[0164] 方案11、根據(jù)方案10所述的文本圖像區(qū)域提取方法,在確定檢測到的邊緣極性之 前還包括根據(jù)用戶在該輸入圖像中指定的用戶指定區(qū)域的圖像質(zhì)量設(shè)定圖像邊緣檢測的 閾值,并采用所設(shè)定的閾值對(duì)圖像的邊緣進(jìn)行檢測。
[0165] 方案12、根據(jù)方案11或10所述的文本圖像區(qū)域提取方法,在獲取文本圖像區(qū)域之 后還包括根據(jù)用戶指定區(qū)域的連通部件對(duì)文本圖像區(qū)域獲取單元獲取的文本圖像區(qū)域進(jìn) 行優(yōu)化。
[0166] 方案13、一種電子設(shè)備,包括根據(jù)方案1-9中任一項(xiàng)所述的文本圖像獲取裝置。
[0167] 方案14、根據(jù)方案13所述的電子設(shè)備,其中電子設(shè)備是手機(jī)、計(jì)算機(jī)、平板電腦、 或個(gè)人數(shù)字助理。
[0168] 方案15、一種使得計(jì)算機(jī)用作如方案1-9中任一項(xiàng)所述的文本圖像獲取裝置的程 序。
[0169] 方案16、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有能夠由計(jì)算設(shè)備執(zhí)行的計(jì)算機(jī)程 序,該程序使得計(jì)算機(jī)用作如方案1-9中任一項(xiàng)所述的文本圖像獲取裝置。
[0170] 最后,還需要說明的是,在本公開中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來 將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操 作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語"包括"、"包含"或者其任何其他變 體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包 括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品 或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句"包括一個(gè)……"限定的要素, 并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0171] 盡管上面已經(jīng)通過本公開的具體實(shí)施例的描述對(duì)本公開進(jìn)行了披露,但是,應(yīng)該 理解,本領(lǐng)域技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計(jì)對(duì)本公開的各種修改、改進(jìn) 或者等同物。這些修改、改進(jìn)或者等同物也應(yīng)當(dāng)被認(rèn)為包括在本公開所要求保護(hù)的范圍內(nèi)。
【權(quán)利要求】
1. 一種文本圖像提取裝置,用于基于用戶指定區(qū)域從輸入圖像中提取文本圖像區(qū)域, 該文本圖像提取裝置包括: 邊緣極性確定單元,用于根據(jù)在所述輸入圖像中檢測到的每個(gè)邊緣的亮度變化趨勢確 定每個(gè)邊緣的極性; 筆劃寬度確定單元,用于將極性相反的兩個(gè)邊緣確定為匹配邊緣對(duì),并且基于該用戶 指定區(qū)域中的各個(gè)匹配邊緣對(duì)中的兩個(gè)匹配邊緣之間的距離確定該用戶指定區(qū)域中的文 本的筆劃寬度; 前景像素確定單元,用于將所述輸入圖像的匹配邊緣對(duì)中的、兩個(gè)匹配邊緣之間的距 離與所述筆劃寬度之差在第一預(yù)定范圍之內(nèi)的匹配邊緣對(duì)之間的像素確定為所述輸入圖 像的前景像素,并且將其余像素確定為所述輸入圖像的背景像素;以及 文本圖像區(qū)域獲取單元,利用前景像素對(duì)所述用戶指定區(qū)域進(jìn)行擴(kuò)展,從而在所述輸 入圖像中獲取包括與用戶指定區(qū)域相關(guān)的文本圖像的文本圖像區(qū)域。
2. 根據(jù)權(quán)利要求1所述的文本圖像提取裝置,其中所述文本信息提取裝置還包括:邊 緣檢測單元,用于根據(jù)所述用戶指定區(qū)域的圖像質(zhì)量設(shè)定用于所述輸入圖像的邊緣檢測的 閾值,并利用所設(shè)定的閾值對(duì)所述輸入圖像的邊緣進(jìn)行檢測。
3. 根據(jù)權(quán)利要求1或2所述的文本圖像提取裝置,其中所述文本圖像區(qū)域獲取單元包 括: 文本方向確定子單元,用于基于用戶指定區(qū)域中的前景像素的水平方向和垂直方向的 投影來確定用戶指定區(qū)域的文本方向; 用戶指定區(qū)域擴(kuò)展子單元,用于根據(jù)所確定的用戶指定區(qū)域的文本方向來選擇擴(kuò)展方 向,以對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,從而獲取所述文本圖像區(qū)域。
4. 根據(jù)權(quán)利要求3所述的文本圖像提取裝置,其中所述用戶指定區(qū)域擴(kuò)展子單元被配 置為當(dāng)用戶指定區(qū)域的文本方向被確定為第一方向時(shí),采用先上下擴(kuò)展再左右擴(kuò)展的方式 對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展,當(dāng)用戶指定區(qū)域的文本方向被確定為與第一方向不同的第二方 向時(shí),采用先左右擴(kuò)展再上下擴(kuò)展的方式對(duì)用戶指定區(qū)域進(jìn)行擴(kuò)展, 其中,所述第一方向是水平方向或者與水平方向所成的角度在第二預(yù)定范圍內(nèi)的任一 方向。
5. 根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的文本圖像提取裝置,其中所述文本圖像提取裝置 還包括前景像素去噪單元,用于根據(jù)所述前景像素確定單元確定的前景像素的灰度值來確 定前景像素參考灰度值,并且根據(jù)前景像素參考灰度值選擇用于由所述文本圖像區(qū)域獲取 單元對(duì)于用戶指定區(qū)域進(jìn)行擴(kuò)展時(shí)所使用的前景像素。
6. 根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的文本圖像提取裝置,所述文本圖像提取裝置還包 括文本圖像區(qū)域優(yōu)化單元,用于根據(jù)用戶指定區(qū)域的連通部件對(duì)所述文本圖像區(qū)域進(jìn)行優(yōu) 化。
7. 根據(jù)權(quán)利要求6所述的文本圖像提取裝置,其中所述文本圖像區(qū)域優(yōu)化單元包括: 層選擇子單元,用于將所述文本圖像區(qū)域內(nèi)的文本圖像分解為正向文本圖層和反向文 本圖層,并根據(jù)前景像素和背景像素的預(yù)估灰度值選擇所述正向文本圖層或所述反向文本 圖層作為所述文本圖像區(qū)域的文本圖層;以及 連通部件組合子單元,用于根據(jù)所述文本圖像區(qū)域中的連通部件的位置信息,將所選 擇的所述文本圖層上、與用戶指定區(qū)域中預(yù)定的連通部件之間符合預(yù)定條件的連通部件組 合在一起,以形成包括與用戶指定區(qū)域相關(guān)的文本圖像的優(yōu)化文本圖像區(qū)域。
8. 根據(jù)權(quán)利要求7所述的文本圖像提取裝置,其中所述連通部件組合子單元包括: 種子連通部件確定模塊,用于將位于所述文本圖像區(qū)域中的、與用戶指定區(qū)域相交的 連通部件確定為種子連通部件;以及 連通部件組合模塊,用于將所選擇的所述文本圖層上、與所述種子連通部件具有以下 位置關(guān)系的相鄰連通部件與所述種子連通部件組合在一起,以形成優(yōu)化文本圖像區(qū)域:該 相鄰連通部件落入通過所述種子連通部件的高度確定的區(qū)域內(nèi)的面積與該相鄰連通部件 的面積之比大于第一閾值, 其中所述種子連通部件確定模塊還被配置為將與所述種子連通部件組合在一起的相 鄰連通部件也確定為種子連通部件。
9. 根據(jù)權(quán)利要求8所述的文本圖像提取裝置,其中所述位置關(guān)系還包括:該相鄰連通 部件落入通過文本邊界限定的區(qū)域以內(nèi)的面積與該相鄰連通部件的面積之比大于第二閾 值,其中所述文本邊界是根據(jù)種子連通部件中的起始種子連通部件和結(jié)束種子連通部件之 間所成的角度確定的。
10. -種文本圖像提取方法,用于基于用戶指定區(qū)域從輸入圖像中獲取文本圖像區(qū)域, 該文本圖像提取方法包括: 根據(jù)在所述輸入圖像中檢測到的每個(gè)邊緣的亮度變化趨勢確定每個(gè)邊緣的極性; 將極性相反的兩個(gè)邊緣確定為匹配邊緣對(duì),并且基于該用戶指定區(qū)域中的各個(gè)匹配邊 緣對(duì)中的兩個(gè)匹配邊緣之間的距離確定該用戶指定區(qū)域中的文本的筆劃寬度; 將所述輸入圖像的匹配邊緣對(duì)中的、兩個(gè)匹配邊緣之間的距離與所述筆劃寬度之差在 第一預(yù)定范圍之內(nèi)的匹配邊緣對(duì)之間的像素確定為所述輸入圖像的前景像素,并且將其余 像素確定為所述輸入圖像的背景像素;以及 利用前景像素對(duì)所述用戶指定區(qū)域進(jìn)行擴(kuò)展,從而在所述輸入圖像中獲取包括與用戶 指定區(qū)域相關(guān)的文本圖像的文本圖像區(qū)域。
【文檔編號(hào)】G06K9/46GK104112135SQ201310136363
【公開日】2014年10月22日 申請(qǐng)日期:2013年4月18日 優(yōu)先權(quán)日:2013年4月18日
【發(fā)明者】汪留安, 孫俊, 何源, 范偉, 勝山裕, 堀田悅伸 申請(qǐng)人:富士通株式會(huì)社