專利名稱:一種文本圖像幾何畸變的矯正方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)字圖像處理和計(jì)算機(jī)視覺(jué)等技術(shù)領(lǐng)域,特別涉及一種相機(jī)拍攝的文本圖像的透視失真和幾何畸變的完全矯正技術(shù)。
背景技術(shù):
與平板式掃描儀相比,數(shù)碼相機(jī)在文本圖像獲取上具有許多獨(dú)特的優(yōu)點(diǎn),如攜帶方便、反應(yīng)速度快、可從任意角度拍攝文檔等。由于這些特點(diǎn),數(shù)碼相機(jī)在數(shù)字圖書(shū)館的構(gòu)建、文獻(xiàn)典籍的數(shù)字化以及文本識(shí)別等領(lǐng)域中獲得了廣泛應(yīng)用。然而,由于相機(jī)的透視成像原理,拍攝的文本圖像中常常存在透視失真等幾何形變。此外,在用相機(jī)拍攝書(shū)籍頁(yè)面時(shí), 由于頁(yè)面變形,圖像也會(huì)產(chǎn)生幾何失真。這兩種失真常常復(fù)合在一起,為后續(xù)的文本圖像處理,如版面分割、字符識(shí)別等帶來(lái)了諸多困難。為矯正相機(jī)拍攝文本圖像中的幾何失真,人們提出了多種解決方法。這些方法可分為基于局部或全局的圖像幾何變形技術(shù)、基于圖像3D深度數(shù)據(jù)的技術(shù)、基于 Shape-from-X的技術(shù)以及頁(yè)面曲面模型化技術(shù)等。此外,還有利用從多個(gè)視點(diǎn)拍攝的多幅圖像來(lái)矯正圖像的幾何失真的技術(shù)。下面,我們對(duì)這些技術(shù)進(jìn)行一個(gè)簡(jiǎn)單的介紹。圖像幾何變形技術(shù)可分為基于局部的和基于全局的圖像幾何變形技術(shù)。前者首先對(duì)文本圖像中的單詞進(jìn)行分割,然后將同一文本行上傾斜的單詞逐個(gè)旋轉(zhuǎn)至一條直線上, 來(lái)矯正整條文本行的扭曲變形。后者則試圖構(gòu)建一個(gè)全局的圖像幾何變形函數(shù),利用該函數(shù)對(duì)圖像進(jìn)行全局變換來(lái)矯正圖像中的幾何畸變?;诰植孔儞Q的方法由于變換的局部性,僅能對(duì)文本區(qū)域的形變進(jìn)行矯正,而無(wú)法矯正非文本區(qū)域,如插圖、表格等的變形。基于全局變換的方法則能矯正這些非文本區(qū)域的變形。該類方法的關(guān)鍵在于如何構(gòu)造合適的全局形變函數(shù)。然而,由于頁(yè)面曲面3D信息的缺失,基于全局變換的矯正技術(shù)無(wú)法完全矯正圖像中存在的幾何畸變失真。這類方法廣泛存在限制條件苛刻、矯正殘留誤差大、僅能適用于特定情形的幾何失真等缺點(diǎn)?;趫D像3D深度數(shù)據(jù)的矯正技術(shù)首先利用3D掃描儀獲取文檔頁(yè)面曲面的3D深度信息,基于這些信息重構(gòu)頁(yè)面曲面的3D形狀,最后通過(guò)一個(gè)保角映射和紋理映射將扭曲的圖像映射至平面上,來(lái)矯正圖像的幾何扭曲。這類方法通常對(duì)圖像的幾何形變類型不加限制,能夠適用于圖像中多種類型的幾何畸變的矯正。然而,由于額外需要價(jià)格昂貴的3D 掃描儀輔助圖像矯正,這類方法在實(shí)際中并不常用。并且,由于深度數(shù)據(jù)中幾何拓?fù)潢P(guān)系的缺失,3D頁(yè)面形狀的重構(gòu)還存在計(jì)算量大、數(shù)值不穩(wěn)定等缺點(diǎn),這些進(jìn)一步限制的這類方法在實(shí)際中的應(yīng)用。另一種獲取頁(yè)面3D形狀信息的方法是借助Siape-from-X技術(shù),其中X代表圖像的某種視覺(jué)線索,如目標(biāo)的陰影、輪廓、紋理等。在現(xiàn)有技術(shù)中,頁(yè)面的陰影曲面常用于估計(jì)頁(yè)面的3D形狀。這類方法通過(guò)分析頁(yè)面陰影與頁(yè)面形狀之間的約束關(guān)系,得到二者所滿足的約束方程,求解該方程得到頁(yè)面的3D曲面。最后利用該曲面完成圖像幾何畸變的矯正。 該技術(shù)對(duì)頁(yè)面陰影要求較高,通常需要特定方向、結(jié)構(gòu)的光照。然而,在實(shí)際環(huán)境下,由于環(huán)境光等其他光源的存在,這一要求難于滿足。其他圖像視覺(jué)線索也常用于文檔頁(yè)面曲面的估計(jì),如文本行,文本矩形塊等。使用這些線索估計(jì)頁(yè)面曲面時(shí),往往還需額外添加某種約束,如要求預(yù)先知道矯正前后文本行之間的對(duì)應(yīng)關(guān)系等。這些條件在實(shí)際應(yīng)用中常常難于滿足。頁(yè)面曲面模型化技術(shù)首先假設(shè)頁(yè)面畸變?yōu)槟程囟愋偷那?,如柱面或可展曲面等,利用該假設(shè)來(lái)約束頁(yè)面曲面的估計(jì)。柱面假設(shè)是一種最常用的頁(yè)面形狀假設(shè)。為估計(jì)柱面模型的參數(shù),該類技術(shù)還進(jìn)一步限定相機(jī)拍攝的視角、距離、姿態(tài)等,且還需預(yù)先知道文檔頁(yè)面的尺寸等額外物理信息。這些苛刻條件為實(shí)際應(yīng)用造成了很多不便。可展曲面假設(shè)是另一種常用的頁(yè)面形狀假設(shè)。由于文檔頁(yè)面總可以展開(kāi)至平面上,因此,與柱面假設(shè)相比,該假設(shè)更具一般性。注意到可展曲面可由逐條平面片很好逼近, 有研究者最新提出采用分片薄板樣條曲面來(lái)近似可展曲面,用于圖像幾何畸變的矯正。該技術(shù)利用目前成熟的平面透視失真矯正技術(shù),對(duì)薄板樣條曲面逐片矯正,最后對(duì)這些矯正后的結(jié)果拼接完成圖像的矯正。然而,由于無(wú)可避免的估計(jì)誤差,拼接后的圖像中常存在裂縫、重疊等缺陷。這些缺陷大大影響了圖像矯正后的視覺(jué)效果。此外,由于透視失真與非線性幾何形變失真的復(fù)合,該技術(shù)無(wú)法徹底矯正圖像中存在的幾何畸變,存在矯正殘留誤差大、算法復(fù)雜等缺點(diǎn)。綜上所述,現(xiàn)有的文本圖像幾何畸變矯正技術(shù)遠(yuǎn)未成熟,還無(wú)法完全同時(shí)矯正圖像中存在的透視失真、非線性幾何形變失真以及二者的復(fù)合等多種類型的失真,僅能針對(duì)特定情形,在非??量痰那疤釛l件下進(jìn)行畸變矯正。如何在寬松的前提條件下,完全矯正相機(jī)拍攝的文本圖像中存在的多種類型的幾何畸變,仍然是文本圖像處理領(lǐng)域中一個(gè)頗具挑戰(zhàn)性的難題。
發(fā)明內(nèi)容
本發(fā)明的目的旨在寬松的前提條件下,矯正相機(jī)拍攝的文本圖像中存在的多種類型的幾何畸變,為此提供一種文本圖像幾何畸變矯正方法。為達(dá)成所述目的,本發(fā)明提供一種文本圖像幾何畸變矯正方法的步驟包括步驟Sl 提取文本圖像中水平方向的文本行,并利用B樣條曲線對(duì)文本圖像中水平方向的文本行進(jìn)行擬合,得到文本行曲線;步驟S2 利用文本行曲線的切線會(huì)聚對(duì)稱性估計(jì)柱面直母線的滅點(diǎn)、文本行切線會(huì)聚線及相機(jī)的焦距;步驟S3 對(duì)擬合的文本行曲線,采用交比插值構(gòu)造等距網(wǎng)格的緯線;步驟S4:利用文本行曲線的類透視投影變換,估計(jì)柱面的準(zhǔn)線,從而構(gòu)造等距網(wǎng)格的經(jīng)線;步驟S5 利用圖像頂端和底端的文本行曲線,估計(jì)得到等距網(wǎng)格的長(zhǎng)寬比;步驟S6 通過(guò)基于網(wǎng)格的形變技術(shù),將每一個(gè)等距網(wǎng)格的網(wǎng)孔映射為一正方形網(wǎng)格,完成文本圖像幾何畸變的矯正。本發(fā)明的有益效果本發(fā)明的方法針對(duì)相機(jī)拍攝的文本圖像中存在的幾何畸變, 可實(shí)現(xiàn)圖像中包括透視失真、非線性形變失真及二者的復(fù)合失真等多種幾何畸變的完全矯正。1)該方法在非常寬松的假設(shè)條件下實(shí)現(xiàn)圖像幾何畸變的矯正,完全可滿足真實(shí)環(huán)境下
5的各種要求;2)該方法通過(guò)分析相機(jī)成像機(jī)理,及其與頁(yè)面曲面之間的幾何約束關(guān)系,構(gòu)造一個(gè)等距圖像網(wǎng)格來(lái)矯正幾何畸變,具有思想直觀,理論完善,易于編程等特點(diǎn),有望實(shí)現(xiàn)圖像幾何畸變的實(shí)時(shí)矯正;3)該方法僅依賴于圖像信息,無(wú)需輔助設(shè)備和額外引入其他頁(yè)面物理信息,可實(shí)現(xiàn)相機(jī)拍攝的文本圖像中多種類型幾何畸變,包括透視畸變、非線性幾何畸變及二者復(fù)合畸變等的完全矯正。本發(fā)明突破了現(xiàn)有技術(shù)矯正殘存誤差大、算法復(fù)雜、 適用性差、無(wú)法同時(shí)矯正透視失真、非線性形變失真以及二者的復(fù)合失真等難題,實(shí)現(xiàn)了相機(jī)拍攝文本圖像幾何畸變的完全矯正。該方法可應(yīng)用于數(shù)碼相機(jī)、掃描儀、復(fù)印機(jī)等多種文本圖像采集設(shè)備的幾何畸變矯正,在書(shū)籍資料數(shù)字化、數(shù)字圖書(shū)館構(gòu)建、珍貴歷史文獻(xiàn)典籍保護(hù)等領(lǐng)域具有廣闊的應(yīng)用前景。
圖1是本發(fā)明方法的總體流程圖。圖2是文本行曲線的切線會(huì)聚對(duì)稱性示意圖。圖3a和圖北是文本行曲線交比插值示意圖。圖如和圖4b是網(wǎng)格長(zhǎng)寬比的計(jì)算示意圖。圖fe至圖5c是模擬圖像的幾何畸變矯正效果圖。圖6a至圖6c是相機(jī)真實(shí)拍攝的文本圖像的幾何畸變矯正效果圖。
具體實(shí)施例方式下面結(jié)合附圖,詳細(xì)給出該技術(shù)所涉及的各個(gè)細(xì)節(jié)問(wèn)題的說(shuō)明。圖1中給出了本發(fā)明技術(shù)方案的整體流程圖。本發(fā)明針對(duì)相機(jī)拍攝的文本圖像中存在的幾何畸變,可實(shí)現(xiàn)圖像中包括透視失真、非線性形變失真及二者的復(fù)合失真等多種幾何畸變的完全矯正。該方法同時(shí)還提供了一種嶄新的曲面形狀估計(jì)技術(shù),可從透視投影變換的曲面測(cè)地線中恢復(fù)曲面的形狀。本發(fā)明首先假設(shè)文檔頁(yè)面的畸變曲面為一般柱面,并假設(shè)水平文本行曲線垂直于柱面的直母線。這一假設(shè)在實(shí)際中非常容易滿足。此外,還假設(shè)相機(jī)的主點(diǎn)(Principal Point)位于圖像中心處,該假設(shè)對(duì)一般數(shù)碼相機(jī)均可滿足。在這些假設(shè)下,通過(guò)構(gòu)造一個(gè)等距網(wǎng)格來(lái)矯正圖像中的幾何畸變,主要步驟包括步驟Sl 文本行的提取與B樣條曲線擬合。對(duì)文本圖像進(jìn)行分割,提取文本行,并利用B樣條曲線對(duì)文本行進(jìn)行擬合。若文檔邊界線未受遮擋,也可提取文檔邊界線用于幾何畸變矯正;步驟S2 柱面模型的參數(shù)估計(jì)。在所述假設(shè)下,文本行曲線經(jīng)透視投影后滿足線會(huì)聚對(duì)稱性。利用該性質(zhì),估計(jì)模型的各個(gè)參數(shù),包括柱面直母線的滅點(diǎn)、切線的會(huì)聚線及相機(jī)的焦距;步驟S3 網(wǎng)格緯線的構(gòu)造。對(duì)擬合的文本行曲線,利用交比插值,構(gòu)造等距網(wǎng)格的緯線;步驟S4 柱面準(zhǔn)線的估計(jì)與網(wǎng)格經(jīng)線構(gòu)造。利用文本行曲線的類透視投影變換, 估計(jì)柱面的準(zhǔn)線,從而構(gòu)造等距網(wǎng)格的經(jīng)線;步驟S5 網(wǎng)格長(zhǎng)寬比的估計(jì)。利用圖像頂端和底端的文本行曲線,估計(jì)得到等距網(wǎng)格的長(zhǎng)寬比;步驟S6 網(wǎng)格形變矯正。得到圖像的等距網(wǎng)格后,圖像中的幾何畸變可通過(guò)網(wǎng)格變形技術(shù)得以矯正。該技術(shù)借助于一個(gè)形變函數(shù),將每一個(gè)等距網(wǎng)格的網(wǎng)孔映射為一正方形網(wǎng)格。柱面模型參數(shù)的估計(jì)在本發(fā)明所述假設(shè)下,可以證明,柱面上的文本行曲線,經(jīng)透視變換后滿足線會(huì)聚對(duì)稱性,即對(duì)于同一直母線上的點(diǎn),其對(duì)應(yīng)的文本行切線經(jīng)透視變換后,相交于同一點(diǎn),而不同直母線對(duì)應(yīng)的切線的交點(diǎn)位于同一條直線上,如附圖2示出文本行曲線的切線會(huì)聚對(duì)稱性,其中CtlU)和C1 (t)分別為兩條擬合的文本行曲線,t為曲線的參數(shù)坐標(biāo),L為切線會(huì)聚線,ν為柱面直母線的滅點(diǎn)。記柱面直母線滅點(diǎn)的空間坐標(biāo)為V = (vx, vy, f),其中Vx和Vy分別為滅點(diǎn)在像平面上的χ和y坐標(biāo),f為相機(jī)焦距,Iij為一組對(duì)應(yīng)的文本行切線,i = 1,…,n;j = l,…, m,其中η為文本行曲線的條數(shù),m為直母線的條數(shù)。該組切線用其對(duì)應(yīng)的齊次坐標(biāo)表示。另記h為該組切線交點(diǎn)的齊次坐標(biāo),朽為h和Iu的夾角,Φ」為V和h的夾角??啥x如下優(yōu)化問(wèn)題來(lái)估計(jì)柱面直母線滅點(diǎn)、文本行切線會(huì)聚線及相機(jī)焦距參數(shù)
權(quán)利要求
1.一種文本圖像幾何畸變的矯正方法,包括步驟步驟Sl 提取文本圖像中水平方向的文本行,并利用B樣條曲線對(duì)文本圖像中水平方向的文本行進(jìn)行擬合,得到文本行曲線;步驟S2 利用文本行曲線的切線會(huì)聚對(duì)稱性估計(jì)柱面直母線的滅點(diǎn)、文本行切線會(huì)聚線及相機(jī)的焦距;步驟S3 對(duì)擬合的文本行曲線,采用交比插值構(gòu)造等距網(wǎng)格的緯線;步驟S4:利用文本行曲線的類透視投影變換,估計(jì)柱面的準(zhǔn)線,從而構(gòu)造等距網(wǎng)格的經(jīng)線·—I .,步驟S5 利用圖像頂端和底端的文本行曲線,估計(jì)得到等距網(wǎng)格的長(zhǎng)寬比;步驟S6 通過(guò)基于網(wǎng)格的形變技術(shù),將每一個(gè)等距網(wǎng)格的網(wǎng)孔映射為一正方形網(wǎng)格, 完成文本圖像幾何畸變的矯正。
2.根據(jù)權(quán)利要求1所述的文本圖像幾何畸變的矯正方法,其特征在于,采用如下方法計(jì)算直母線投影線的滅點(diǎn)、文本行切線會(huì)聚線及相機(jī)焦距
3.根據(jù)權(quán)利要求1所述的文本圖像幾何畸變的矯正方法,其特征在于,采用下式計(jì)算交比插值參數(shù)τ
4.根據(jù)權(quán)利要求1所述的文本圖像幾何畸變的矯正方法,其特征在于,采用下式計(jì)算類透視投影的仿射矩陣A
5.根據(jù)權(quán)利要求1所述的文本圖像幾何畸變的矯正方法,其特征在于,采用下式計(jì)算網(wǎng)格的長(zhǎng)寬比r:
全文摘要
本發(fā)明提供一種文本圖像幾何畸變的矯正方法包括提取文本圖像中水平方向的文本行并利用B樣條曲線對(duì)其進(jìn)行擬合,得到文本行曲線;利用文本行曲線的切線會(huì)聚對(duì)稱性估計(jì)柱面直母線的滅點(diǎn)、文本行切線會(huì)聚線及相機(jī)的焦距參數(shù);對(duì)擬合的文本行曲線,采用交比插值構(gòu)造等距網(wǎng)格的緯線;利用文本行曲線的類透視投影變換,估計(jì)柱面的準(zhǔn)線,構(gòu)造等距網(wǎng)格的經(jīng)線;利用圖像頂端和底端的文本行曲線,估計(jì)得到等距網(wǎng)格的長(zhǎng)寬比;通過(guò)基于網(wǎng)格的形變技術(shù),將每一個(gè)等距網(wǎng)格的網(wǎng)孔映射為一正方形網(wǎng)格,完成文本圖像幾何畸變的矯正。本發(fā)明解決現(xiàn)有技術(shù)無(wú)法同時(shí)矯正透視失真、非線性形變失真以及二者的復(fù)合失真等難題,可實(shí)現(xiàn)相機(jī)拍攝文本圖像幾何畸變的完全矯正。
文檔編號(hào)G06K9/32GK102208025SQ201110140399
公開(kāi)日2011年10月5日 申請(qǐng)日期2011年5月27日 優(yōu)先權(quán)日2011年5月27日
發(fā)明者向世明, 孟高峰, 段江永, 潘春洪 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所