專利名稱:一種表格圖像幾何畸變的數(shù)字校正方法
技術領域:
本發(fā)明涉及計算機信息領域的圖像處理技術,特別涉及一種對畸變的表格圖像校正的方法。
背景技術:
畸變表格的校正是一種非常有用的圖像處理技術,一般有兩類校正方法一類是通過分析表格圖像,得出表格傾斜角度,根據(jù)傾斜角度校正;另一類是分析表格圖像,得到并擬合畸變的表格線,然后把畸變的表格線校正為直線。
對于前一類,一般的做法是通過一定的方法,在圖像上得到表格線的傾斜角度,作為校正的依據(jù),比如分析得到表格線和水平直線的夾角α,然后根據(jù)tanα計算表格線上每一點的偏移量,從而進行校正。如文獻“基于游程的傾斜表格圖像的快速檢測和校正”[作者管繼斌,明德烈,華中科技大學學報,文章編號是1671.4512(2005)08-0069]。
對于后一類,由于對非特定畸變的表格,只通過分析表格傾斜角度來校正難度極大,所以需要分析表格畸變的特征來進行后期處理。
對于將表格文稿掃描為圖像而言,其目的大多是用于資料保存、文字識別(OCR)等場合。在OCR的運用中,對于掃描時已經(jīng)展開的文稿或者書本,只是因放置不正而引起的表格傾斜,由于不會改變表格的直線表達,因此可以使用第一類方法解決;對于掃描時沒有展開的文稿或者書本,數(shù)碼相機拍攝的圖像以及其它途徑得到的圖像,極有可能會改變表格原來的直線表達,可以用第二類方法解決這類問題。
在OCR的運用中,表格區(qū)域的畸變不僅影響到美觀,更會嚴重影響表格識別、表格內文字的行切分等圖像處理的準確性,甚至使這些操作無法進行,如彎曲嚴重的表格基本無法進行識別,更不要說分離其內部文字并識別這些文字。因此表格校正質量的好壞,不僅影響到表格的主觀質量評價,還會直接影響到對表格后續(xù)處理的環(huán)節(jié)。此外,由于在OCR運用中表格和表格內容都需要識別,因此在OCR中,不但對表格進行校正同時也要對表格內容進行校正,避免影響對表格內容的識別。
表格圖像的來源最常見的有兩類通過掃描儀對文稿進行掃描或通過數(shù)碼相機、拍照手機、攝像頭等對文稿進行拍照獲得。用掃描儀進行掃描時,通過將書稿拆開或展平后進行再掃描,一般可避免圖像產(chǎn)生畸變。但在實際操作過程中,其畸變很難避免,而且其畸變的形式要復雜得多,比如彎曲的程度可能很嚴重。彎曲不僅發(fā)生在書籍,在其它區(qū)域也普遍存在;彎曲的方向不是只有凸或只有凹狀彎曲,而是在同一條文本行中呈現(xiàn)多處凸凹相間的彎曲;畸變可能呈現(xiàn)放射性、不平行性。如圖2的上部區(qū)域呈凸狀彎曲,而下部呈凹狀彎曲。這些現(xiàn)象會導致現(xiàn)有技術中分析表格的方法完全失效(1)由于表格線不呈直線,很難找到準確的表格直線,更不要說找傾斜角度了。(2)由于尋找表格直線不準確,則很難確定表格內容的位置,進而無法進行表格內容的識別。
可見,現(xiàn)有技術只有對純文本畸變圖像校正,而對表格圖像畸變無法校正,現(xiàn)有技術只處理了工整的、彎曲程度輕微或者單純傾斜的表格圖像,而無法處理彎曲程度嚴重的表格圖像。
發(fā)明內容
為了克服上述缺陷,本發(fā)明的目的在于提出一種對幾何畸變的表格圖像進行數(shù)字校正的方法,即利用采樣表格線校正帶動表格內容進行校正。
為達到上述目的,本發(fā)明一種表格圖像幾何畸變的數(shù)字校正方法,包括以下步驟(1)對表格圖像進行二值化預處理,通過版面分析獲得表格區(qū)域;(2)確定有效表格線段的最小長度,并根據(jù)該長度,在二值化表格圖像的表格區(qū)域中進行搜索,得到N條有效表格線段,其中N為正整數(shù);(3)根據(jù)有效表格線段的位置信息合并有效表格線段并形成表格線域;(4)根據(jù)所述表格線域中包含的有效表格線段信息,計算出與采樣表格線域對應的采樣表格線;(5)確定采樣表格線要校正到的目標位置,將采樣表格線映射到該目標位置;(6)表格內其他像素在采樣表格線校正帶動下校正。
其中,所述步驟(4)具體為a)選擇垂直方向上任意一條表格線域為采樣表格線域或最上面和最下面的兩條表格線域為采樣表格線域;b)根據(jù)所述采樣表格線域包含的有效表格線段信息,計算出與采樣表格線域對應的采樣表格線。
其中,所述步驟b)具體為求出采樣表格線域中有效線段集合的水平方向上的上下外輪廓,即曲線的上下沿,對每一對上下沿求平均值,得到中點,這些相鄰的中點連接起來形成采樣表格線域的采樣表格線,若采樣表格線不連續(xù),則采用曲線擬合方式連接,其中,所述的曲線擬合方式為多項式擬合、貝塞爾曲線擬合、B樣條擬合或橢圓曲線擬合。
其中,在所述步驟(3)和步驟(4)之間,還有一步驟刪除不滿足表格線特征的表格線域及其包含的有效線段。
其中,所述步驟(2)具體為有效表格線段的長度為表格圖像中漢字寬度的四分之一,并根據(jù)該長度在二值化表格圖像的表格區(qū)域中進行搜索,得到N條有效表格線段,其中N為正整數(shù)。
其中,所述步驟(3)具體為,若有效表格線段左右并且上下相鄰則合并,有效表格線段合并后形成表格線域的個數(shù)為一個或一個以上,每個表格線域具有上、下沿和寬度,表格線域是屬于它的有效表格線段的集合。
其中,所述步驟(5)具體為目標位置確定是采用采樣表格線上每一點到水平邊框的垂直距離的平均值,目標位置確定后,再將采樣表格線映射到該目標位置。
其中,所述步驟(6)具體為根據(jù)采樣表格線擬合后的位置來定位并以平移或插值填充的方式來校正采樣表格線外的區(qū)域。
采用本發(fā)明所述的方法,原來畸變的表格圖像通過使用該方法,表格被很好得校正過來,提高了表格主觀質量,特別是在OCR的運用中,保證表格內容的完整性,從而對后續(xù)識別做了很好的準備,有效提高OCR的識別率。
圖1是本發(fā)明一種表格圖像幾何畸變的數(shù)字校正方法的流程圖;圖2是待校正的畸變表格圖像;圖3是圖2二值化后左上角表格線的放大效果圖;圖4是在圖3所示的效果圖上搜索有效表格線段示意圖;圖5是在圖4上求出表格線域的上下沿示意圖;圖6是在圖5上求出表格線域的中點示意圖;圖7是圖2校正之后的表格圖像;圖8是待校正的畸變表格圖像;圖9是圖8校正之后的表格圖像。
具體實施例方式
下面結合附圖對本發(fā)明實施方式作進一步詳細的描述。
本發(fā)明的基本原理是首先將對表格圖像進行二值化處理,通過對二值化表格圖像的分析,粗略確定表格線域,取垂直方向上的最上和最下兩條表格線域作為采樣域,或者僅取垂直方向上任意一條表格線域作為采樣域,進行表格線采樣,得到與采樣表格線域對應的采樣表格線,然后對采樣表格線做擬合和校正。表格內的其他像素在采樣表格線的帶動下進行校正。
如圖1所示,本發(fā)明的具體實施步驟如下1、對表格圖像進行二值化處理和版面分析。對非二值化的表格圖像(如圖2所示),先進行表格圖像的自動閾值二值化處理;對已經(jīng)是二值化的圖像,則無需進行二值化處理。然后對二值化圖像進行版面分析,獲得二值化圖像中的表格區(qū)域。
2、確定有效表格線段長度,在二值化的表格圖像中搜索有效表格線段,獲得n條有效表格線段。一般情況下,有效表格線段長度可以為表格圖像中漢字寬度的四分之一,漢字的寬度可由版面分析獲得,如果版面分析不能獲得漢字寬度,就采用經(jīng)驗值,經(jīng)驗值為6像素左右。有效線段的搜索就是,對圖像的某一行從左至右掃描,記錄連續(xù)的黑像素,確定一個固定長度值,經(jīng)驗值為6像素左右,認為連續(xù)的黑像素長度大于等于這個固定長度值的線段為有效線段,如圖4中的黑色線段就是對圖3進行掃描搜索得到的7條有效線段。
3、合并有效表格線段,得到一系列水平表格線域列表。按先左后右,先上后下的順序檢查分析有效表格線段,即對每一條有效表格線段,看它與前面的有效表格線段的位置關系,以確定是否需要合并(如圖4、圖5所示)。有效表格線段合并為表格線域的步驟如下a)創(chuàng)建一條表格線域,里面包含第一條有效表格線段。
b)對于下一條有效表格線段,看它是否與某一表格線域呈被包含或相鄰關系,表格線域將有效表格線段在水平方向上包含進來,或與該有效表格線段在水平方向上相鄰,就是比較當前有效表格線段和所有表格線域中的有效表格線段的位置關系。
位置關系的判斷方法為對于兩條水平方向的有效表格線段,設兩條有效表格線段A、B的位置(即y方向坐標)分別為Apos、Bpos,兩條有效表格線段的起始點(x方向的坐標)分別為Astart、Bstart,終止點分別為Aend、Bend。如兩條有效表格線段滿足下列關系式Apos-1<=Bpos&&Bpos<=Apos+1(1)(Astart<=Bend+α&&Astart>=Bstartα)||(Bstart<=Aend+α&&Bstart>=Astart-α)(2)則認為兩條有效表格線段同屬于一條表格線域。其中,α是0或正整數(shù)常數(shù),表示可合并的兩條有效表格線段之間的在x方向上的最小間距。經(jīng)驗值一般為不要超過有效表格線段長度的一半。
c)如果當前有效表格線段不與任何表格線域中的有效表格線段屬于同一表格線域,則創(chuàng)建一個新的表格線域,里面包含這條線段。
d)如果當前有效表格線段與其中一個表格線域中的有效表格線段屬于同一表格線域,則將此線段加入該表格線域。
e)如果當前有效表格線段與多個表格線域中的有效表格線段屬于同一表格,則合并這些表格線域,然后將此線段加入合并后的表格線域。
f)重復步驟b)至步驟e),直到所有的有效表格線段都存在于一個表格線域中。表格線域是一個有效線段的集合,具有寬度和高度,一個表格線域包括n條有效線段;這些表格線域互不相交,即一條有效表格線段只存在于一個表格線域內。
另外,還要刪除不滿足表格線特征的表格線域及其包含的有效表格線段。
4、當表格圖像中的上下兩條表格線彎曲趨勢大致相同時(如圖2所示),選取最長的或任意一條表格線域作為采樣表格線域,求出該采樣表格線域的上下沿及中點序列,連接中點序列中的所有中點形成一條曲線,該曲線就是該采樣表格線域的采樣表格線(如圖5、圖6所示)。
當表格圖像上下兩條表格線嚴重彎曲時,比如,表格線畸變呈放射狀的表格圖像,或表格線呈波浪形畸變,此時,需要選擇垂直方向上最上面的一個表格線域和最下面的一個表格線域作為采樣域進行分析,根據(jù)表格線域包含的有效線段位置信息和實際圖像中的位置信息,求它們的上、下沿和中心線。中心線上的點序列就是采樣點集,而一個表格線域中的采樣點集能夠反映該表格線的彎曲趨勢。表格線域的中心線是畸變表格的采樣表格線。以下是獲得采樣表格線的具體步驟I)分析表格線域集合,對于不滿足表格線特征的表格線域進行刪除(如長度太短);選取任意一條或者在垂直方向上位置最小和最大的兩條表格線域作為采樣表格線。
II)根據(jù)選中的表格線域中的線段集合,可以獲得一條連續(xù)(或者中間有部分斷裂)的曲線,即表格線域的中心線。
獲得上述曲線的具體方法如下設表格線域內所有線段的橫坐標最大、最小值分別為X1、X0,對于每一個x(X0<=x<=X1),找到包含x的每一條線段,統(tǒng)計這些線段的最大、最小垂直方向的坐標值(即表格線該x坐標上的上沿和下沿),求最大、最小的平均值,作為表格線在該x坐標上對應的y坐標值。當所有的x坐標都求到了相應的y坐標的值,就形成了上述的曲線。
III)上述曲線如果連續(xù),即所有x都有相對應的正確y值,這條曲線就是一條采樣線;如果中間有斷裂,則可通過曲線擬和的方式求出那些缺失的點。
具體可采用的擬合形式為(自適應)多項式擬合、貝塞爾曲線擬合、B樣條擬合、橢圓曲線等,本實施例中采用3階多項式擬合,在采用多項式擬合時,若采用固定階數(shù)的多項式擬合,則階數(shù)不宜定得過高,否則易發(fā)生震蕩現(xiàn)象,一般3階就足夠描述實際圖像中嚴重彎曲的區(qū)域了。
5、計算采樣表格線要校正到的目標位置,將表格線校正到該目標位置。
該步驟中,計算采樣表格線要校正到的目標位置的計算方法為取表格線域的中心線上采樣點的平均Y值,做為其在Y方向的缺省目標位置。確定目標位置后,將表格線校正到目標位置設校正的目標Y值為yd,則采樣表格線上所有點x坐標不變,y坐標均改為yd。
6、求出目標位置后,表格內的其他像素在校正采樣表格線的帶動下,按照平移或插值填充的方式校正。
當只有一條表格線為參考時,采用平移的方式校正設表格線中的任意一個需要被校正的點坐標為(x,y),表格線的校正目標為yd,任意相同x處的表格區(qū)域上點的坐標為(x,yf),則該點在校正后的坐標為(x,yf+(yd-y))。
當有兩條表格線為參考時,則采用插值的方式來填充兩條表格線之間的區(qū)域。當表格線彎曲嚴重時候,兩條采樣表格線在原圖中的距離D1和校正后之間的距離D2可能會不相等,因此使用插值算法,填補空缺的部分。設表格中任意垂直方向上,兩表格線相應的點坐標為(x,y1)、(x,y2),表格線的校正目標為yd1、yd2,任意相同x處的表格區(qū)域上點的坐標為(x,yf),則該點在校正后的坐標為(x,yd1+(yf-y1)(yd2-yd1)/(y2-y1))。由其校正后的結果圖,如圖7和圖9所示,效果很理想。
通過本實施例可以看到,原來畸變的表格圖像(如圖2和圖8)通過使用該方法,表格被很好得校正過來(如圖7和圖9)。本發(fā)明的方法提高了表格主觀質量,特別是在OCR的運用中,保證表格內容的完整性,從而對后續(xù)識別做了很好的準備,有效提高OCR的識別率。
權利要求
1.一種表格圖像幾何畸變的數(shù)字校正方法,其特征在于,包括以下步驟(1)對表格圖像進行二值化預處理,通過版面分析獲得表格區(qū)域;(2)確定有效表格線段的最小長度,并根據(jù)該長度,在二值化表格圖像的表格區(qū)域中進行搜索,得到N條有效表格線段,其中N為正整數(shù);(3)根據(jù)有效表格線段的位置信息合并有效表格線段并形成表格線域;(4)根據(jù)所述表格線域中包含的有效表格線段信息,計算出與采樣表格線域對應的采樣表格線;(5)確定采樣表格線要校正到的目標位置,將采樣表格線映射到該目標位置;(6)表格內其他像素在采樣表格線校正帶動下校正。
2.按照權利要求1所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟(4)具體為a)選擇垂直方向上任意一條表格線域為采樣表格線域或最上面和最下面的兩條表格線域為采樣表格線域;b)根據(jù)所述采樣表格線域包含的有效表格線段信息,計算出與采樣表格線域對應的采樣表格線。
3.按照權利要求2所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟b)具體為求出采樣表格線域中有效線段集合的水平方向上的上下外輪廓,即曲線的上下沿,對每一對上下沿求平均值,得到中點,這些相鄰的中點連接起來形成采樣表格線域的采樣表格線,若采樣表格線不連續(xù),則采用曲線擬合方式連接,其中,所述的曲線擬合方式為多項式擬合、貝塞爾曲線擬合、B樣條擬合或橢圓曲線擬合。
4.按照權利要求1、2或3所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,在所述步驟(3)和步驟(4)之間,還有一步驟刪除不滿足表格線特征的表格線域及其包含的有效線段。
5.按照權利要求4所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟(2)具體為有效表格線段的長度為表格圖像中漢字寬度的四分之一,并根據(jù)該長度在二值化表格圖像的表格區(qū)域中進行搜索,得到N條有效表格線段,其中N為正整數(shù)。
6.按照權利要求4所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟(3)具體為,若有效表格線段左右并且上下相鄰則合并,有效表格線段合并后形成表格線域的個數(shù)為一個或一個以上,每個表格線域具有上、下沿和寬度,表格線域是屬于它的有效表格線段的集合。
7.按照權利要求4所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟(5)具體為目標位置確定是采用采樣表格線上每一點到水平邊框的垂直距離的平均值,目標位置確定后,再將采樣表格線映射到該目標位置。
8.按照權利要求4所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟(6)具體為根據(jù)采樣表格線擬合后的位置來定位并以平移或插值填充的方式來校正采樣表格線外的區(qū)域。
全文摘要
本發(fā)明涉及計算機信息領域的圖像處理技術,具體涉及一種表格圖像幾何畸變的數(shù)字校正方法。為解決現(xiàn)有技術中只能有效的對畸變文本行進行校正,當文稿中出現(xiàn)畸形表格非文本區(qū)域時,無法進行后續(xù)識別的問題而發(fā)明。本發(fā)明所述的方法通過對表格圖像進行分析,在二值化圖像上搜索并分析有效表格線段,得到屬于表格的采樣表格線,分析、擬合采樣表格線,并將其映射到目標位置,由采樣表格線帶動表格內部文字而很好地校正。本發(fā)明不但能準確地校正畸形表格,而且對于表格內部文字的矯正也達到很好的效果。
文檔編號G06T5/00GK101064007SQ20061007899
公開日2007年10月31日 申請日期2006年4月29日 優(yōu)先權日2006年4月29日
發(fā)明者劉芝, 康凱, 杜鵬飛 申請人:北大方正集團有限公司, 北京北大方正技術研究院有限公司, 北京大學