專利名稱:透視變形文檔圖像的校正裝置和校正方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種針對文檔圖像透視變形的校正裝置和方法。更具 體地,包括一種結(jié)合基于圖像投影分析和各種線段投票的消失點(包括 水平消失點和垂直消失點)檢測的綜合性方法,以及一種基于字符垂直 筆畫進行聚類來尋找垂直消失點的方法,以及基于文本知識的透視變形 校正變換方法。
背景技術(shù):
基于數(shù)碼相機的文檔圖像的透視變形校正是文檔分析與識別的一個 重要的步驟。透視變形校正操作的含義是把由具有透視變形的圖像轉(zhuǎn)變 為無透視變形的圖像。各種文檔圖像透視變形校正的原理可以參見P. Clark, M. Mirmehdi 在Pattern Recognition 36(11), 2003的文章"Rectifying perspective views of text in 3D scenes using vanishing points." , M.Pilu在國際會議IEEE Conference on Computer Vision and Pattern Recognition 2001 的文章 "Extract of illusory linear clues in perspectively skewed documents ", 及其 S丄Lu, B.M. Chen, C.C. Ko在Image and Vision Computing 23(5), 2005的 文章"Perspective rectification of document images using fUzzy set and morphological operations."另外,關(guān)于文檔圖像透視變形校正方法也有 專利發(fā)表,如美國專利6,873,732, C. R. Dance, "Method and apparatus for resolving perspective distortion in a document image and for calculating line sums in images",禾口 7,046,404, S, R Cheatle, D. A. Grosvenor, "Document imaging system",以及日本專利P2002-89496,巖田達明,石谷康人,"畫 像處理裝置及畫像處理方法"。文檔圖像透視變形校正一般都是基于消失 點檢測來完成的,消失點檢測包括水平消失點檢測和垂直消失點檢測。應(yīng)用于文檔圖像的消失點檢測方法可以分為兩大類 一種是直接的利用 圖像像素投影分析的方法,稱之為直接方法,該類方法計算復(fù)雜度高, 速度非常慢;另一種是間接的利用線段及其交點分析與投票的方法,稱 之為間接方法,該類方法速度快,但是處理性能非常不穩(wěn)定。一般通過數(shù)碼相機、攝像頭等拍攝得到的文檔圖像具有透視變形, 會影響后續(xù)相關(guān)的文檔分析與識別。為了校正這些透視變形,提出了--些不同的文檔圖像透視變形校正算法,這些算法具有一定的效果。但是, 由于數(shù)碼相機和攝像頭的不同型號和拍攝時的不同角度,特別是手機攝 像頭拍攝得到的文檔圖像,這些使得透視變形情況非常復(fù)雜,目前的校 正算法仍然不能較好的解決問題。發(fā)明內(nèi)容本發(fā)明針對現(xiàn)有技術(shù)的上述缺點作出。本發(fā)明提出了一種基于文本 知識的透視變形校正變換的裝置和方法。根據(jù)本發(fā)明的一個方面,提供了一種透視變形文檔圖像的校正裝置, 所述校正裝置包括水平消失點確定單元,用于檢測所述透視變形文檔 圖像的水平消失點;垂直消失點確定單元,用于檢測所述透視變形文檔 圖像的垂直消失點;透視變形校正變換單元,用于對所述透視變形文檔 圖像進行校正;其中所述水平消失點確定單元包括直接水平線段檢測單 元和間接水平線段檢測單元以及水平消失點檢測單元,所述水平消失點 檢測單元根據(jù)直接水平線段檢測單元所檢測出的直接的水平線段和間接 水平線段檢測單元檢測出的間接的水平線段檢測水平消失點。根據(jù)本發(fā)明的一個方面,提供了一種透視變形文檔圖像的校正裝置, 所述校正裝置包括水平消失點確定單元,用于檢測所述透視變形文檔 圖像的水平消失點;垂直消失點確定單元,用于檢測所述透視變形文檔 圖像的垂直消失點;透視變形校正變換單元,用于對所述透視變形文檔 圖像進行校正;其中所述垂直消失點確定單元包括直接垂直線段檢測單 元和間接垂直線段檢測單元以及垂直消失點檢測單元,所述垂直消失點 檢測單元根據(jù)直接垂直線段檢測單元所檢測出的直接的垂直線段和間接垂直線段檢測單元檢測出的間接的垂直線段兩者檢測垂直消失點。根據(jù)本發(fā)明的一個方面,提供了一種透視變形文檔圖像的校正方法, 所述校正方法包括水平消失點確定步驟,用于檢測所述透視變形文檔 圖像的水平消失點;垂直消失點確定步驟,用于檢測所述透視變形文檔 圖像的垂直消失點;透視變形校正變換步驟,用于對所述透視變形文檔 圖像進行校正;其中所述水平消失點確定步驟包括直接水平線段檢測步 驟和間接水平線段檢測步驟以及水平消失點檢測步驟,所述水平消失點 檢測步驟根據(jù)直接水平線段檢測步驟所檢測出的直接的水平線段和間接 水平線段檢測步驟檢測出的間接的水平線段檢測水平消失點。根據(jù)本發(fā)明的一個方面,提供了一種透視變形文檔圖像的校正方法, 所述校正方法包括水平消失點確定步驟,用于檢測所述透視變形文檔 圖像的水平消失點;垂直消失點確定步驟,用于檢測所述透視變形文檔 圖像的垂直消失點;透視變形校正變換步驟,用于對所述透視變形文檔 圖像進行校正;其中所述垂直消失點確定步驟包括直接垂直線段檢測步 驟和間接垂直線段檢測步驟以及垂直消失點檢測步驟,所述垂直消失點 檢測步驟根據(jù)直接垂直線段檢測步驟所檢測出的直接的垂直線段和間接 垂直線段檢測步驟檢測出的間接的垂直線段兩者檢測垂直消失點。本發(fā)明的方法克服了直接方法計算復(fù)雜度高的問題,同時也克服了 間接方法性能不穩(wěn)定性缺點,基于此綜合性消失點檢測方法的透視變形 文檔校正方法,是一種快速魯棒的透視變形文檔圖像校正方法。
所包含的附圖用于提供對本發(fā)明的進一步理解,其被并入說明書并 構(gòu)成其一部分,
了本發(fā)明的實施例,并與說明書一起用于解釋 本發(fā)明的原理。圖1是本發(fā)明的透視變形文檔圖像的校正裝置的結(jié)構(gòu)示意圖。 圖2是本發(fā)明的透視變形文檔圖像的校正方法的示意流程圖。 圖3是一種簡單快速的Smearing算法。 圖4是水平文本行檢測單元的結(jié)構(gòu)示意圖。圖5是水平文本行檢測過程的流程圖。圖6是基于連通域形狀和大小分析的水平文本行檢測裝置示意圖。圖7是基于連通域形狀和大小分析的水平文本行檢測的流程圖。圖8是水平消失點檢測單元的結(jié)構(gòu)示意圖。圖9是水平消失點檢測的流程圖。圖IO是某一透視變形的文檔圖像。圖11是圖IO所示圖像的各種水平線段示意圖。圖12是圖11所示水平線段兩兩交點分布的示意圖。圖13是字符垂直筆畫檢測單元的結(jié)構(gòu)示意圖。圖14是字符垂直筆畫檢測的流程圖。圖15是垂直消失點檢測單元的結(jié)構(gòu)示意圖。圖16是垂直消失點檢測的流程圖。
具體實施方式
下面將參照附圖詳細(xì)說明本發(fā)明的透視變形文檔圖像的校正裝置 和方法。圖1是依據(jù)本發(fā)明一個實施例的透視變形文檔圖像的校正裝置的 結(jié)構(gòu)圖。如圖1所示,依據(jù)本發(fā)明的透視變形文檔圖像的校正裝置 包括透視變形文檔圖像輸入單元101、圖像縮小單元102、邊緣檢 測和二值化單元103、直接的水平和垂直線段檢測單元104 (對應(yīng)于 本發(fā)明的直接水平線段檢測單元以及直接垂直線段檢測單元)、水平 文本行檢測單元105、水平消失點檢測單元106、字符垂直筆畫檢測 單元107、垂直消失點檢測單元108、透視變型校正變換單元109, 以及矯正后圖像輸出單元110。圖2是依據(jù)本發(fā)明的透視變形文檔圖像的校正方法的示意流程 圖。如圖2所示,在依據(jù)本發(fā)明實施例的透視變形文檔圖像的校正 裝置中,首先通過透視變形文檔圖像輸入單元101輸入透視變型文 檔圖像(步驟201)。這些文檔圖像可來自數(shù)碼相機、安裝攝像頭的手 機或其它攝像裝置。在本發(fā)明的一個實施例中,所輸入的文檔圖像輸入到圖像縮小單元102,該圖像縮小單元102對圖像進行灰度化和縮小 操作(步驟202),以提高系統(tǒng)處理的速度。在該圖像縮小單元102對 圖像進行了灰度化和縮小操作之后,將該圖像輸入到邊緣檢測和二值化 單元103。當(dāng)然,也可直接輸入邊緣檢測和二值化單元103,而不經(jīng)過圖 像縮小單元102的處理。邊緣檢測和二值化單元103求得灰度圖像的邊緣圖像,并把灰度圖 像轉(zhuǎn)化為二值圖像(步驟203、步驟211)。邊緣檢測和二值化單元103 可以采用各種現(xiàn)有圖像邊緣化算法和二值化算法,可以采用有效的Canny 邊緣算法和高速的Otsu二值化方法。在本發(fā)明中,根據(jù)上下文,文檔圖 像、透視變形文檔圖像等既可以指從外部(諸如自數(shù)碼相機、安裝攝像 頭的手機或其它攝像裝置等)輸入的文檔圖像,也可以指經(jīng)邊緣檢測和 二值化單元處理過的文檔圖像。在步驟204,直接的水平和垂直線段檢測單元104通過對邊緣圖像 進行連通域分析,檢測得到長的水平線段(本文稱之為直接的水平線段 207)和長的垂直線段(本文稱之為直接的垂直線段206)。在直接的水平 和垂直線段檢測單元104中,如果某個連通域的長軸方向接近水平方向, 其長軸長度大于某個閾值,而其短軸長度小于另一個閾值,則該連通域 的長軸為長的水平線段。同理,如果某個連通域的長軸方向接近垂直方 向,其長軸長度大于某個閾值,而其短軸長度小于另一個閾值,則該連 通域的長軸為長的垂直線段。應(yīng)該注意,雖然在本實施例中檢測直接的水平線段和直接的垂直線 段都由直接的水平和垂直線段檢測單元104進行,但也可以分為兩個獨 立的單元, 一個單元進行直接的水平線段檢測, 一個單元進行直接的垂 直線段檢測。同時,在步驟205,水平文本行檢測單元105檢測邊緣圖像中的水 平文本行,并由這些文本行得到相應(yīng)的水平線段(本文稱之為間接的水 平線段208)。在一個實施例中,水平文本行檢測單元105例如通過圖3 所示的一個簡單快速的Smearing算法來檢測水平文本行。在步驟209,水平消失點檢測單元106根據(jù)直接的水平線段207和間接的水平線段208,結(jié)合基于圖像投影分析的直接方法和基于水平線段及其交點分析與投票的間接方法,來檢測消失點并得到最終的水平消失 點210,在后文將對此進行詳細(xì)描述。同時,在步驟213,字符垂直筆畫檢測單元107對邊緣檢測和二值 化單元103在步驟211所獲得的邊緣圖像進行字符垂直筆畫檢測,獲得 間接的垂直線段214。應(yīng)該注意,單元107用于獲得間接的垂直線段214, 在本發(fā)明的其他實施例中,該單元頁可以采用其他的方法,如現(xiàn)有技術(shù) 中公開的方法。即便在這種情況下,由于本發(fā)明采用了直接方法和間接 方法的綜合方法,因而仍能實現(xiàn)本發(fā)明的目的。在圖2所示的情況下, 步驟211與步驟203的區(qū)別在于輸入到步驟211中的圖像未經(jīng)過縮小。 變形文檔圖像212與變形文檔圖像201相同。在本發(fā)明的一個實施例中,在步驟203中,字符垂直筆畫檢測單元 107通過對邊緣圖像進行連通域分析,求得字符的垂直筆畫,從而得到具 有垂直方向指示的線段(即間接的垂直線段214)。然后在步驟215中,垂直消失點檢測單元108根據(jù)直接的垂直線段 206和間接的垂直線段214,結(jié)合基于圖像投影分析的直接方法和基于垂 直線段及其交點分析與投票的間接方法,來檢測消失點并得到最終的垂 直消失點(垂直消失點216)。在本發(fā)明中,直接的水平和垂直線段檢測單元104 (其檢測直接的 水平線段的部分)、水平文本行檢測單元105、水平消失點檢測單元106 相當(dāng)于水平消失點確定單元。直接的水平和垂直線段檢測單元104 (其檢 測直接的垂直線段的部分)、字符垂直筆畫檢測單元107、垂直消失點檢 測單元108相當(dāng)于垂直消失點確定單元。然后在步驟217,透視變形校正變換單元109利用水平消失點和垂 直消失點,得到透視變形的變換矩陣,然后進行基于文本知識的矯正變 換處理,得到最后的校正后文檔圖像(變形校正后圖像218),并由輸出單 元110輸出。圖3示出了圖2所示的步驟205中,水平文本行檢測單元105所使 用的一種簡單快速的Smearing算法(以C語言表示)。其中,height表示待處理二值圖像的高度,width表示寬度,/Wflg《X,力-l表示圖像坐標(biāo)(JC,力處為黑點像素。該快速算法水平掃描每行圖像,在每一行中,如果相鄰的兩個黑像素點的距離小于某個閾值(smear一thres),則這兩點間的像素 點全部賦值為黑像素點。圖4是水平文本行檢測單元105的結(jié)構(gòu)示意圖。如圖4所示,依據(jù) 本發(fā)明的一個實施例,水平文本行檢測單元105包括二值文檔圖像輸 入單元401、圖像Smearing處理單元402、連通域計算單元403、基于連 通域形狀與大小分析的水平文本行檢測單元404、以及間接的水平線段輸 出單元405。圖5是水平文本行檢測單元105的工作流程圖。首先在步驟501,通 過輸入單元401輸入由邊緣檢測和二值化單元103進行邊緣檢測和二值 化得到的二值圖像。然后,在步驟502,圖像Smearing處理單元402例 如通過圖3所示簡單快速的Smearing算法進行Smearing處理。該Smearing 算法對圖像進行水平方向的掃描,分析黑點像素之間在水平方向上的關(guān) 系,如果兩個黑點像素在水平方向的距離小于一定的閾值,則這兩點之 間的像素都變?yōu)楹邳c像素。然后,在步驟503,連通域計算單元403通過 分析黑點像素之間的相互關(guān)系,計算Smearing處理后圖像的連通域。然 后在步驟504,由基于連通域形狀和大小分析的水平文本行檢測單元404 通過分析連通域的大小、形狀和方向來檢測水平文本行,其具體過程見 圖7所示。在步驟505,由間接的水平線段輸出單元405將得到的代表水 平文本行的水平線段(即間接的水平線段208)輸出。圖6是基于連通域形狀和大小分析的水平文本行檢測單元404的結(jié) 構(gòu)示意圖。如圖6所示,基于連通域形狀和大小分析的水平文本行檢測 單元404包括長連通域選擇單元601 、連通域基線計算單元602、以及基 線分析單元603。圖7是基于連通域形狀和大小分析的水平文本行檢測單元404的操 作流程圖。首先,在步驟701中,由單元601選擇長的連通域,例如選擇長度較長(即長度大于某一閾值)的連通域作為候選水平文本行。然 后,在步驟702中,由單元602計算連通域上、中、下基線,即針對候選文本行的連通域計算上、中、下基線。其具體步驟為,首先計算連通 域的上、下輪廓點,其序列為<formula>formula see original document page 14</formula>,<formula>formula see original document page 14</formula> , (x,力表示圖像坐標(biāo),W為該連通域的長度。然后保留該連通域上下輪廓點的垂直距離較大(即大于某一閾值)的上下 輪廓點,其新的上輪廓點序列位<formula>formula see original document page 14</formula>新的 下輪廓點序列為<formula>formula see original document page 14</formula>,并計算上下輪廓點在 垂直方向的平均距離,得到該連通域的中輪廓點,其序列為,<formula>formula see original document page 14</formula>。然后在步驟703, 由單元703分析上、下基線的方向關(guān)系,如果某連通域的上、下基線基 本上在同一方向上(即其夾角小于某一閾值),而且上、下基線上所有輪 廓點對應(yīng)的平均高度與標(biāo)準(zhǔn)文本行的高度差小于某個值較小的閾值,則 表明該連通域為一水平文本行??刹捎靡云渲休喞c序列擬合得到的線 段作為該文本行所表示的直接的水平線段(直接的水平線段207)。圖8是水平消失點檢測單元106的結(jié)構(gòu)示意圖,該單元是結(jié)合基于 圖像投影分析的直接方法和各種水平線段投票的間接方法的綜合性裝 置。如圖8所示,依據(jù)本發(fā)明的一個實施例,水平消失點檢測單元106 包括水平線段輸入單元801、水平線段交點的聚類單元802、候選水平消 失點選擇單元803、水平方向的透視投影分析單元804、水平消失點綜合 性分析單元805、以及水平消失點輸出單元806。圖9是水平消失點檢測單元106的工作流程圖,該方法是結(jié)合基于 圖像投影分析的直接方法和各種水平線段投票的間接方法的綜合性方 法。如圖9所示,在步驟901中,由輸入單元801輸入直接的水平線段 207和間接的水平線段208。然后,采用類似于線段及其交點投票的間接 方法來進行水平消失點檢測。在一個實施例中,在步驟902中,由水平 線段交點的聚類單元802對所有的水平線段(包括所得到的直接的水平 線段和間接的水平線段)兩兩交點組成的點集合,利用聚類方法(如 K-Means方法)進行聚類,得到多個聚類。所有這些交點具有這樣一個 性質(zhì),它們能夠較好的聚為多個子集,如圖10-12所示。圖10為原透視 變形文檔圖像,圖11為水平文本行檢測單元205,檢測得到的水平線段,圖12為這些水平線段兩兩相交的所有交點的空間分布,坐標(biāo)(O,O)為圖像 的左上頂點;其中,真實的水平消失點(圖12中實心圓圈點所示)及其 周圍就是一個聚類。然后在步驟903中,候選水平消失點選擇單元803 選擇每一個聚類的中心點作為一個候選水平消失點,并以該聚類所含交點個數(shù)在整個交點數(shù)目中的比例作為該候選水平消失點聚類的權(quán)重系數(shù) (即該候選水平消失點聚類的權(quán)重系數(shù)),設(shè)為//(",其中A表示第A個候選水平消失點。然后,采用類似于圖像投影分析的直接方法,在上 述的候選水平消失點集合上進行水平消失點檢測。其次,在本發(fā)明中, 還采用投影方法來進行對水平消失候選點進行分析。即在步驟904中由 水平方向的透視投影分析單元804針對水平消失點對文檔圖像進行水平 方向的透視投影分析。本系統(tǒng)對候選水平消失點選擇單元803選擇出來 的各個候選水平消失點采用的投影方法與P. Clark, M. Mirmehdi在Pattern Recognition 36(11), 2003的文章"Rectifying perspective views of text in 3D scenes using vanishing points"中第3節(jié)介紹的方法相同,得到各個候選水 平消失點的投影值累積方差(Derivative-squared-sum),并以每個候選水 平消失點的累積方差在所有候選點的累積方差和中所占的比例為該候選 點投影分析的權(quán)重系數(shù),設(shè)為《(W,其中A表示第A個候選水平消失點。然后,在步驟905,水平消失點綜合性分析單元805將前面的權(quán)重系數(shù)進行結(jié)合(如下面的公式所示), /#) = G(//(A:),A'(A:))可以采用線性方式結(jié)合這些權(quán)重系數(shù)(如下面的公式所示),可以采用簡單的形式,"="-0.5。最后,選擇結(jié)合后的權(quán)重系數(shù)最 大的候選水平消失點作為最終的水平消失點,并由輸出單元806進行輸 出(步驟906)。該法克服了直接方法高計算復(fù)雜度問題,同時也克服了間接方法性 能不穩(wěn)定性缺點,此綜合性方法是一種快速魯棒的消失點檢測方法。圖13是依據(jù)本發(fā)明一個實施例的字符垂直筆畫檢測單元107的結(jié)構(gòu)示意圖。如圖13所示,字符垂直筆畫檢測單元107包括垂直邊緣圖像輸 入單元1301、邊緣圖像的連通域計算單元1302、垂直筆畫檢測單元1303、 以及間接的垂直線段輸出單元1304。圖14是依據(jù)本發(fā)明一個實施例的字符垂直筆畫檢測單元107的工作 流程圖。首先,在步驟1401,由輸入單元1301輸入邊緣檢測和二值化單 元103得到的垂直邊緣圖像。然后在步驟1402,邊緣圖像的連通域計算 單元1302對垂直邊緣圖像求連通域。之后,在步驟1403,垂直筆畫檢測 單元1303對連通域形狀和大小進行分析,選擇高度與字符高度相近、且 其方向與垂直方向相近的連通域作為候選垂直筆畫,并分析該候選垂直 筆畫連通域的形狀。應(yīng)注意,在本文中,當(dāng)連通域的高度與字符高度的 差的絕對值小于預(yù)定閾值時,稱連通域的高度與字符高度相近。類似地, 當(dāng)連通域的方向與垂直方向的差的絕對值小于預(yù)定閾值時,稱連通域的 方向與垂直方向相近。其具體步驟為,設(shè)C,為某候選垂直筆畫連通域, 通過對該連通域上所有的點運用最小方差(Least-Square)算法擬合一條 線段LC,,線段方程為化xy + 6,xx + ^0,則該連通域上點(:c,力到該線段的距離為,<formula>formula see original document page 16</formula>設(shè)其中<formula>formula see original document page 16</formula>.其中,iV(X,/Z,C7)為線段Zr的均值為A、標(biāo)準(zhǔn)方差為CT的高斯分布。和c,。te是根據(jù)經(jīng)驗和實驗得到的字符垂直筆畫相關(guān)的均值和標(biāo)準(zhǔn)方差。&ms_Wra&為近似1的一個閾值,可設(shè)為0.98。 w j/^es—srra&e近 似該連通域中黑點像素的個數(shù)。如果有/(丄C,)-l,則表示C,為字符垂直 筆畫。此時,這些字符垂直筆畫連通域所擬合的線段就是間接的垂直線段。在步驟1404,由輸出單元1304進行輸出。
圖15是依據(jù)本發(fā)明一個實施例的垂直消失點檢測單元108的結(jié)構(gòu)示 意圖,該單元是結(jié)合基于圖像投影分析的直接方法和各種垂直線段投票 的間接方法的綜合性裝置。如圖15所示,依據(jù)本發(fā)明一個實施例的垂直 消失點檢測單元108包括垂直線段輸入單元1501、垂直線段交點的聚 類單元1502、候選垂直消失點選擇單元1503、垂直方向的透視投影分析 單元1504、垂直消失點綜合性分析單元1505、以及垂直消失點輸出單元 1506。
圖16是依據(jù)本發(fā)明一個實施例的垂直消失點檢測單元108的流程 圖,該方法是結(jié)合了基于圖像投影分析的直接方法和各種垂直線段投票 的間接方法的綜合性方法。如圖16所示,在步驟1601,由輸入單元1501 輸入直接的垂直線段206和間接的垂直線段214。然后采用類似于線段及 其交點投票的間接方法來進行垂直消失點檢測。即在步驟1602,由垂直 線段交點的聚類單元1502對所有的垂直線段(包括所得到的直接的垂直 線段和間接的垂直線段)兩兩交點組成的點集合,利用聚類方法(如 K-Means方法)進行聚類,得到多個聚類。所有這些交點具有這樣一個 性質(zhì),它們能夠較好的聚為多個子集。在步驟1603,候選垂直消失點選 擇單元1503選擇每一個聚類的中心點作為一個候選垂直消失點,并以該
聚類所含交點個數(shù)在整個交點數(shù)目中的比例作為該候選垂直消失點聚類 的權(quán)重系數(shù)(即該候選垂直消失點的權(quán)重系數(shù)),設(shè)為y/(",其中A表示
第A個候選垂直消失點。然后,采用類似于圖像投影分析的直接方法, 在上述的候選垂直消失點集合上進行候選消失點檢測。在步驟1604,由 垂直方向的透視投影分析單元1504對垂直方向進行透視投影分析,本系 統(tǒng)對選擇單元1503得到的各個候選垂直消失點采用的投影方法與P. Clark, M. Mirmehdi在Pattern Recognition 36(11), 2003的文章"Rectifying perspective views of text in 3D scenes using vanishing points"中第3節(jié)介紹 的方法相似,但是,不是對整個圖像投影,而且對每一行水平文本行(此
處的水平文本行是文檔圖像中的一行行文檔,可以通過前面的水平文檔 行檢測單元得到)進行投影。其具體操作為,設(shè)^W為上述投影過程中,相對于第A個候選垂直消失點,對第w行水平文本行的第/個6iw的值,
《(Q-O表示此處對應(yīng)為文本行中垂直方向的空白列;而(《("==0) = 1表 示^(" = 0,否則表示5,"(Q^0。則投影過程中,第&個候選垂直消失點
對應(yīng)的所有水平文本行的空白列數(shù)為,<formula>formula see original document page 18</formula>
其中,iV為本文行的數(shù)目,/為w"的個數(shù)。 這里的文本行通過水平文本行檢測單元105得到。 通過上述操作,得到各個候選垂直消失點所對應(yīng)的空白列數(shù),并以 每個候選垂直消失點的空白列數(shù)在所有候選點的累積空白列數(shù)和所占的 比例為該候選點投影的權(quán)重系數(shù),設(shè)為/:Othg(",其中/t表示第A:個候
選垂直消失點。然后,在步驟1605,垂直消失點綜合性分析單元1505結(jié) 合前面的權(quán)重系數(shù)(如下面的公式所示),
<formula>formula see original document page 18</formula>
可以采用線性方式結(jié)合這些權(quán)重系數(shù)(如下面的公式所示),<formula>formula see original document page 18</formula>
可以采用簡單的形式,"=/ = 0.5。最后,選擇結(jié)合的權(quán)重系數(shù)最大 的候選垂直消失點作為最終的垂直消失點,然后在步驟1605,由輸出單 元1506輸出垂直消失點。
得到水平消失點和垂直消失點,就可以方便地計算出從原始透視變 形文檔圖像到校正后圖像的變換矩陣,設(shè)變換矩陣為ilf,則變換過程如 下所示,
<formula>formula see original document page 18</formula>其中U^》表示原圖像(透視變形文檔圖像單元201)坐標(biāo),Oc"j^ 為校正后的圖像坐標(biāo)。給定校正后圖像上的一個點(V), /和_/都是整數(shù),
通過上述變換過程得到一組坐標(biāo)(a//), y 和》都是浮點數(shù)。為了提高校 正后的圖像質(zhì)量, 一般的處理方法都是利用插值來進行的。為了提高變換速度,透視變形校正變換單元117,只對變形圖像中有文本的區(qū)域進行 變換,其它區(qū)域則采用近鄰點進行代替單元,通過文本檢測得到文本區(qū) 域,對這些本文區(qū)域進行基于插值(如線性插值)的校正變形變換,其 它區(qū)域則直接采用近鄰點來代替。設(shè),
/0 = /wf仰
乂0 = /"f傲
如果有,(/(V0)在原變形圖像(透視變形文檔圖像單元201)上的文 本點,用膨浙/0,/0) = 1表示,則采用插值處理;否則有,
image—dst(/j/) = image—src(/0j/0)
即用原圖像的近鄰點(/(VO)表示校正后圖像上的相應(yīng)點(/力。其中,
image—src表示原圖像,image—dst表示校正后圖像。
這里的文本區(qū)域通過水平文本行檢測單元205得到。 當(dāng)上述所有步驟完成后,系統(tǒng)輸出的結(jié)果為變形校正后圖像。 和普通的基于各種垂直長線段和水平線段間垂直距離的分析來檢測 垂直消失點方法相比,本發(fā)明提出了一種基于字符垂直筆畫進行聚類來 尋找垂直消失點方法,通過基于字符筆畫形狀和大小的連通域分析,檢 測出字符垂直筆畫,對所有兩兩垂直筆畫交點進行聚類,得到多個聚類, 每一個聚類中心就是一個垂直候選消失點。該方法比利用垂直線段或水 平線段間垂直距離分析的垂直消失點方法具有更強的魯棒性。
和普通的對待處理圖像中的所有像素點都進行像素插值校正變換處 理的方法相比,本發(fā)明提出的基于文本知識的透視變形校正變換方法, 只對變形圖像中有文本的區(qū)域進行基于插值處理的變換。該方法提高了 整個裝置與方法的速度。
本方法中的消失點檢測采用的是一種綜合性方法,結(jié)合基于圖像投 影分析的直接方法和各種線段投票的消失點檢測的間接方法,利用各種 線段進行投票和聚類,得到消失點的多個候選點,并對這些候選點進行 圖像投影分析,然后結(jié)合前面兩個步驟的結(jié)果,得到最終的消失點(包 括水平消失點和垂直消失點),并進行相應(yīng)的透視變形校正。另外,本方 法基于字符垂直筆畫進行聚類來尋找垂直消失點,利用基于規(guī)則的連通域分析,來檢測可靠的字符垂直筆畫,并對這些垂直筆畫的交點進行聚 類,得到垂直消失點的多個候選點。最后,本方法基于文本知識來進行 透視變形校正變換,由水平消失點和垂直消失點得到變形校正變換矩陣, 只對變形圖像中有文本的區(qū)域進行變換,其它區(qū)域則采用近鄰點進行代 替。本發(fā)明可以應(yīng)用于數(shù)碼相機拍攝得到的文檔圖像,也可以應(yīng)用于攜 帶攝像頭的手機拍攝到的文檔圖像,及其它通過攝像頭拍攝得到的文檔 圖像。
綜上所述,根據(jù)本發(fā)明的一個方面,提供了一種透視變形文檔圖像 的校正裝置,所述校正裝置包括水平消失點確定單元,用于檢測所述 透視變形文檔圖像的水平消失點;垂直消失點確定單元,用于檢測所述 透視變形文檔圖像的垂直消失點;透視變形校正變換單元,用于對所述 透視變形文檔圖像進行校正;其中所述水平消失點確定單元包括直接水 平線段檢測單元和間接水平線段檢測單元以及水平消失點檢測單元,所 述水平消失點檢測單元根據(jù)直接水平線段檢測單元所檢測出的直接的水 平線段和間接水平線段檢測單元檢測出的間接的水平線段檢測水平消失 點。
根據(jù)本發(fā)明的一個方面,提供了一種透視變形文檔圖像的校正裝置, 所述校正裝置包括水平消失點確定單元,用于檢測所述透視變形文檔 圖像的水平消失點;垂直消失點確定單元,用于檢測所述透視變形文檔 圖像的垂直消失點;透視變形校正變換單元,用于對所述透視變形文檔 圖像進行校正;其中所述垂直消失點確定單元包括直接垂直線段檢測單 元和間接垂直線段檢測單元以及垂直消失點檢測單元,所述垂直消失點 檢測單元根據(jù)直接垂直線段檢測單元所檢測出的直接的垂直線段和間接 垂直線段檢測單元檢測出的間接的垂直線段兩者檢測垂直消失點。
根據(jù)本發(fā)明的一個方面,提供了一種透視變形文檔圖像的校正方法, 所述校正方法包括水平消失點確定步驟,用于檢測所述透視變形文檔 圖像的水平消失點;垂直消失點確定步驟,用于檢測所述透視變形文檔 圖像的垂直消失點;透視變形校正變換步驟,用于對所述透視變形文檔 圖像進行校正;其中所述水平消失點確定步驟包括直接水平線段檢測步驟和間接水平線段檢測步驟以及水平消失點檢測步驟,所述水平消失點 檢測步驟根據(jù)直接水平線段檢測步驟所檢測出的直接的水平線段和間接 水平線段檢測步驟檢測出的間接的水平線段檢測水平消失點。
根據(jù)本發(fā)明的一個方面,提供了 一種透視變形文檔圖像的校正裝置, 所述校正裝置包括水平消失點確定步驟,用于檢測所述透視變形文檔 圖像的水平消失點;垂直消失點確定步驟,用于檢測所述透視變形文檔 圖像的垂直消失點;透視變形校正變換步驟,用于對所述透視變形文檔 圖像進行校正;其中所述垂直消失點確定步驟包括直接垂直線段檢測步 驟和間接垂直線段檢測步驟以及垂直消失點檢測步驟,所述垂直消失點 檢測步驟根據(jù)直接垂直線段檢測步驟所檢測出的直接的垂直線段和間接 垂直線段檢測步驟檢測出的間接的垂直線段兩者檢測垂直消失點。
根據(jù)本發(fā)明的一個實施例,所述水平線段交點聚類單元使用 K-Means方法進行所述聚類。
根據(jù)本發(fā)明的一個實施例,所述水平消失點檢測單元包括水平線 段交點聚類單元,對所有的水平線段中兩兩水平線段的交點組成的點集合 進行聚類,得到多個聚類;候選水平消失點選擇單元,將各聚類的中心 點選為候選水平消失點,并得到各候選水平消失點的權(quán)重系數(shù);水平方 向透視投影分析單元,針對候選水平消失點對文檔圖像進行水平方向的 透視投影分析,并得到各候選水平消失點的另一權(quán)重系數(shù);水平消失點 綜合性分析單元,根據(jù)所述權(quán)重系數(shù)和所述另一權(quán)重系數(shù),選擇最終的 水平消失點。
根據(jù)本發(fā)明的一個實施例,所述水平消失點綜合性分析單元采用線 性方式對所述水平方向透視投影分析單元所獲得的權(quán)重系數(shù)以及候選水 平消失點選擇單元所獲得的權(quán)重系數(shù)進行結(jié)合。
根據(jù)本發(fā)明的一個實施例,所述垂直消失點確定單元包括直接垂直 線段檢測單元和間接垂直線段檢測單元以及垂直消失點檢測單元,所述 垂直消失點檢測單元根據(jù)直接垂直線段檢測單元所檢測出的直接的垂直 線段和間接垂直線段檢測單元檢測出的間接的垂直線段兩者檢測垂直消 失點。根據(jù)本發(fā)明的一個實施例,所述間接垂直線段檢測單元包括連通 域計算單元,對所述文檔圖像求連通域;字符垂直筆畫檢測單元,對所
述連通域的形狀和大小進行分析,確定候選垂直筆畫,并分析該候選垂 直筆畫連通域的形狀,以獲得垂直線段。
根據(jù)本發(fā)明的一個實施例,所述字符垂直筆畫檢測單元選擇高度與 字符高度相近、且其方向與垂直方向相近的連通域作為候選垂直筆畫。
根據(jù)本發(fā)明的一個實施例,所述垂直消失點檢測單元包括垂直線 段交點聚類單元,對所述直接的垂直線段和間接的垂直線段組成的集合 中的兩兩垂直線段的交點組成的點集合進行聚類,得到多個聚類;垂直 消失點選擇單元,選擇各聚類的中心點作為候選垂直消失點,并得到各 候選垂直消失點的權(quán)重系數(shù);垂直方向透視投影分析單元,針對各候選 垂直消失點,對所述文檔圖像進行垂直方向的透視投影分析,并得到各 候選垂直消失點的另一權(quán)重系數(shù);垂直消失點綜合性分析單元,其針對 各候選垂直消失點對所述垂直消失點選擇單元所獲得的權(quán)重系數(shù)和所述 垂直方向透視投影分析單元所獲得的另一權(quán)重系數(shù)進行分析,獲得最終 的垂直消失點。
根據(jù)本發(fā)明的一個實施例,所述垂直線段交點聚類單元利用 K-Means方法進行聚類。
根據(jù)本發(fā)明的一個實施例,所述垂直方向透視投影分析單元(步驟)
對每一行水平文本行進行投影,并對所有文本行的投影分析結(jié)果進行綜合。
根據(jù)本發(fā)明的一個實施例,所述垂直消失點選擇單元(步驟)以所 述聚類所含交點個數(shù)在整個交點數(shù)目中的比例作為該候選垂直消失點聚 類的權(quán)重系數(shù)。
另外,本發(fā)明還提供了一種計算機程序,所述程序可由計算機執(zhí)行 以實現(xiàn)本發(fā)明的透視變形文檔圖像的校正方法。
另外,本發(fā)明還提供了一種計算機程序,所述程序可由計算機執(zhí)行
而使計算機用作本發(fā)明的透視變形文檔圖像的校正裝置。
依據(jù)本發(fā)明的再一方面,本發(fā)明提供了一種數(shù)據(jù)存儲介質(zhì),所述數(shù)據(jù)存儲介質(zhì)存儲有上述的計算機程序。所述存儲介質(zhì)可以是本領(lǐng)域技術(shù)人員可以知道的任何存儲介質(zhì),如ROM、軟盤、閃存、硬盤、CD、 DVD、磁帶等等。雖然在本發(fā)明的上述描述中,各步驟是按順序描述的,但這些步驟 的順序可以調(diào)整,也可以并行執(zhí)行。請注意,在本文中,"包括"、"包含"等表示存在,并不排斥其他部 件的存在,即為包括但不限于的意思。例如A包括B,只表明A中含有 B,可能A中還含有C。應(yīng)該注意,前面的實施例都是示例性的,并不是對本發(fā)明的限制。 本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)進行各種變型和修改,這 些變型和修改只要落入了權(quán)利要求及其等同物的范圍,就在本發(fā)明所要 求的保護范圍內(nèi)。
權(quán)利要求
1. 一種透視變形文檔圖像的校正裝置,所述校正裝置包括水平消失點確定單元,用于檢測所述透視變形文檔圖像的水平消失點;垂直消失點確定單元,用于檢測所述透視變形文檔圖像的垂直消失點;透視變形校正變換單元,用于對所述透視變形文檔圖像進行校正;其中所述水平消失點確定單元包括直接水平線段檢測單元和間接水平線段檢測單元以及水平消失點檢測單元,所述水平消失點檢測單元根據(jù)直接水平線段檢測單元所檢測出的直接的水平線段和間接水平線段檢測單元檢測出的間接的水平線段檢測水平消失點。
2、 根據(jù)權(quán)利要求l所述的透視變形文檔圖像的校正裝置,其特征在于,所述水平消失點檢測單元包括水平線段交點聚類單元,對所有直接的水平線段和間接水平線段組 成的集合中的兩兩水平線段的交點組成的點集合進行聚類,得到多個聚 類;候選水平消失點選擇單元,將各聚類的中心點選為候選水平消失點, 并得到各候選水平消失點的權(quán)重系數(shù);水平方向透視投影分析單元,針對候選水平消失點對所述文檔圖像 進行水平方向的透視投影分析,并得到各候選水平消失點的另一權(quán)重系 數(shù);水平消失點綜合性分析單元,根據(jù)各所述候選水平消失點的所述權(quán) 重系數(shù)和所述另一權(quán)重系數(shù),選擇最終的水平消失點。
3、 根據(jù)權(quán)利要求2所述的透視變形文檔圖像的校正裝置,其特征在 于,所述水平線段交點聚類單元使用K-Means方法進行所述聚類。
4、 根據(jù)權(quán)利要求2所述的透視變形文檔圖像的校正裝置,其特征在 于,所述水平消失點綜合性分析單元采用線性方式對所述水平方向透視投影分析單元所獲得的所述另一權(quán)重系數(shù)以及所述候選水平消失點選擇 單元所獲得的所述權(quán)重系數(shù)進行結(jié)合。
5、 根據(jù)權(quán)利要求l所述的透視變形文檔圖像的校正裝置,其特征在 于,所述垂直消失點確定單元包括直接垂直線段檢測單元和間接垂直線 段檢測單元以及垂直消失點檢測單元,所述垂直消失點檢測單元根據(jù)直 接垂直線段檢測單元所檢測出的直接的垂直線段和間接垂直線段檢測單 元檢測出的間接的垂直線段兩者檢測垂直消失點。
6、 根據(jù)權(quán)利要求5所述的透視變形文檔圖像的校正裝置,其特征在于,所述間接垂直線段檢測單元包括連通域計算單元,對所述文檔圖像求連通域;字符垂直筆畫檢測單元,對所述連通域的形狀和大小進行分析,確 定候選垂直筆畫,并分析該候選垂直筆畫連通域的形狀,以獲得垂直線段。
7、 根據(jù)權(quán)利要求6所述的透視變形文檔圖像的校正裝置,其特征在 于,所述字符垂直筆畫檢測單元選擇高度與字符高度相近、且其方向與 垂直方向相近的連通域作為候選垂直筆畫。
8、 根據(jù)權(quán)利要求5所述的透視變形文檔圖像的校正裝置,其特征在 于,所述垂直消失點檢測單元包括垂直線段交點聚類單元,對所述直接的垂直線段和伺接的垂直線段 組成的集合中的兩兩垂直線段的交點組成的點集合進行聚類,得到多個 聚類;垂直消失點選擇單元,選擇各聚類的中心點作為候選垂直消失點, 并得到各候選垂直消失點的權(quán)重系數(shù);垂直方向透視投影分析單元,針對各候選垂直消失點,對所述文檔 圖像進行垂直方向的透視投影分析,并得到各候選垂直消失點的另一權(quán) 重系數(shù);垂直消失點綜合性分析單元,其針對各候選垂直消失點對所述垂直 消失點選擇單元所獲得的權(quán)重系數(shù)和所述垂直方向透視投影分析單元所 獲得的另一權(quán)重系數(shù)進行分析,獲得最終的垂直消失點。
9、 根據(jù)權(quán)利要求8所述的透視變形文檔圖像的校正裝置,其特征在 于,所述垂直線段交點聚類單元利用K-Means方法進行聚類。
10、 根據(jù)權(quán)利要求8所述的透視變形文檔圖像的校正裝置,其特征 在于,所述垂直方向透視投影分析單元對每一行水平文本行進行投影, 并對所有文本行的投影分析結(jié)果進行綜合。
11、 根據(jù)權(quán)利要求8所述的透視變形文檔圖像的校正裝置,其特征 在于,所述垂直消失點選擇單元以所述聚類所含交點個數(shù)在整個交點數(shù) 目中的比例作為該候選垂直消失點的權(quán)重系數(shù)。
12、 一種透視變形文檔圖像的校正裝置,所述校正裝置包括 水平消失點確定單元,用于檢測所述透視變形文檔圖像的水平消失點;垂直消失點確定單元,用于檢測所述透視變形文檔閣像的垂直消失點;透視變形校正變換單元,用于對所述透視變形文檔圖像進行校正; 其中所述垂直消失點確定單元包括直接垂直線段檢測單元和間接垂 直線段檢測單元以及垂直消失點檢測單元,所述垂直消失點檢測單元根 據(jù)直接垂直線段檢測單元所檢測出的直接的垂直線段和間接垂直線段檢 測單元檢測出的間接的垂直線段兩者檢測垂直消失點。
13、 根據(jù)權(quán)利要求12所述的透視變形文檔圖像的校正裝置,其特征 在于,所述間接垂直線段檢測單元包括連通域計算單元,對所述文檔圖像求連通域;字符垂直筆畫檢測單元,對所述連通域的形狀和大小進行分析,確 定候選垂直筆畫,并分析該候選垂直筆畫連通域的形狀,以獲得垂直線段。
14、 根據(jù)權(quán)利要求13所述的透視變形文檔圖像的校正裝置,其特征 在于,所述字符垂直筆畫檢測單元選擇高度與字符高度相近、且其方向 與垂直方向相近的連通域作為候選垂直筆畫。
15、 根據(jù)權(quán)利要求12所述的透視變形文檔圖像的校正裝置,其特征 在于,所述垂直消失點檢測單元包括垂直線段交點聚類單元,對所述直接的垂直線段和間接的垂直線段 組成的集合中的兩兩垂直線段的交點組成的點集合進行聚類,得到多個 聚類;垂直消失點選擇單元,選擇各聚類的中心點作為候選垂直消失點, 并得到各候選垂直消失點的權(quán)重系數(shù);垂直方向透視投影分析單元,針對各候選垂直消失點,對所述文檔 圖像進行垂直方向的透視投影分析,并得到各候選垂直消失點的另一權(quán) 重系數(shù);垂直消失點綜合性分析單元,其針對各候選垂直消失點對所述垂直 消失點選擇單元所獲得的權(quán)重系數(shù)和所述垂直方向透視投影分析單元所 獲得的另一權(quán)重系數(shù)進行分析,獲得最終的垂直消失點。
16、 根據(jù)權(quán)利要求15所述的透視變形文檔圖像的校正裝置,其特征 在于,所述垂直線段交點聚類單元利用K-Means方法進行聚類。
17、 根據(jù)權(quán)利要求15所述的透視變形文檔圖像的校正裝置,其特征 在于,所述垂直方向透視投影分析單元對每一行水平文本行進行投影, 并對所有文本行的投影分析結(jié)果進行綜合。
18、 根據(jù)權(quán)利要求15所述的透視變形文檔圖像的校正裝置,其特征 在于,所述垂直消失點選擇單元以所述聚類所含交點個數(shù)在整個交點數(shù) 目中的比例作為該候選垂直消失點的權(quán)重系數(shù)。
19、 一種透視變形文檔圖像的校正方法,所述校正方法包括 水平消失點確定步驟,用于檢測所述透視變形文檔圖像的水平消失點;垂直消失點確定步驟,用于檢測所述透視變形文檔屈像的垂直消失點;透視變形校正變換步驟,用于對所述透視變形文檔圖像進行校正; 其中所述水平消失點確定步驟包括直接水平線段檢測步驟和間接水 平線段檢測步驟以及水平消失點檢測步驟,所述水平消失點檢測步驟根 據(jù)直接水平線段檢測步驟所檢測出的直接的水平線段和伺接水平線段檢 測步驟檢測出的間接的水平線段檢測水平消失點。
20、 一種透視變形文檔圖像的校正方法,所述校正方法包括-水平消失點確定步驟,用于檢測所述透視變形文檔圖像的水平消失點;垂直消失點確定步驟,用于檢測所述透視變形文檔圖像的垂直消失占.乂 "、,透視變形校正變換步驟,用于對所述透視變形文檔圖像進行校正; 其中所述垂直消失點確定步驟包括直接垂直線段檢測步驟和間接垂 直線段檢測步驟以及垂直消失點檢測步驟,所述垂直消失點檢測步驟根 據(jù)直接垂直線段檢測步驟所檢測出的直接的垂直線段和伺接垂直線段檢 測步驟檢測出的間接的垂直線段兩者檢測垂直消失點。
全文摘要
本發(fā)明提供了透視變形文檔圖像的校正裝置和方法。所述校正裝置包括水平消失點確定單元,用于檢測所述透視變形文檔圖像的水平消失點;垂直消失點確定單元,用于檢測所述透視變形文檔圖像的垂直消失點;透視變形校正變換單元,用于對所述透視變形文檔圖像進行校正;其中所述水平消失點確定單元包括直接水平線段檢測單元和間接水平線段檢測單元以及水平消失點檢測單元,所述水平消失點檢測單元根據(jù)直接水平線段檢測單元所檢測出的直接的水平線段和間接水平線段檢測單元檢測出的間接的水平線段檢測水平消失點。
文檔編號G06T5/00GK101267493SQ20071008835
公開日2008年9月17日 申請日期2007年3月16日 優(yōu)先權(quán)日2007年3月16日
發(fā)明者俊 孫, 武部浩明, 殷緒成, 直井聰, 藤井勇作, 藤本克仁, 黑川浩司 申請人:富士通株式會社