專利名稱:一種表格分析編改加工方法
技術(shù)領(lǐng)域:
本發(fā)明涉及可應(yīng)用于紙質(zhì)表格電子化過程中表格數(shù)字化加工過程,尤其涉及一種表格分析編改加工方法。
背景技術(shù):
在紙質(zhì)表格電子化的過程中,OCR軟件很難準(zhǔn)確的直接設(shè)別出復(fù)雜表格的結(jié)構(gòu)和文字,因此OCR識(shí)別前的版面調(diào)整和識(shí)別后的文字編改工作均耗費(fèi)了極大的人力,它是一項(xiàng)人力密集性工作,勞動(dòng)強(qiáng)度也很高。目前的應(yīng)用現(xiàn)狀是用普通OCR軟件進(jìn)行表格圖像版面分析,對(duì)分析不準(zhǔn)的表格結(jié)構(gòu)進(jìn)行調(diào)整或重畫版面,經(jīng)過識(shí)別后再進(jìn)行一次編改校正,在保證沒人4萬字/8小時(shí)正常編改的速度下,編改的錯(cuò)誤率通常也會(huì)超過1%。,而表格結(jié)構(gòu)的錯(cuò)誤率更加難以控制,通常會(huì)在1%以上。
由于表格數(shù)據(jù)的加工對(duì)精度要求極高,往往一字之差謬以千里,現(xiàn)有的數(shù)據(jù)加工模式遠(yuǎn)不能滿足對(duì)精度的要求,而且應(yīng)對(duì)海量數(shù)據(jù)加工的人工成本過高,因此需要開發(fā)一套符合特定生產(chǎn)要求的表格數(shù)據(jù)加工系統(tǒng),提供一個(gè)自動(dòng)化高效的數(shù)據(jù)加工平臺(tái)輔助人工處理各種文獻(xiàn)資料中大量的表格數(shù)據(jù),以達(dá)到提高效率和質(zhì)量,降低成本的目的。
發(fā)明內(nèi)容
為解決上述中存在的表格數(shù)字化加工過程中人工編改效率低,錯(cuò)誤率高的問題與缺陷,本發(fā)明提供了一種表格分析編改加工方法,該方法可以極大地提高人工編改的效率,降低成本。所述技術(shù)方案如下一種表格分析編改加工方法,包括步驟10掃描文檔、并對(duì)掃描后的文檔圖像進(jìn)行處理;步驟20對(duì)掃描處理后的圖像通過表格版面分析算法生成表格版面,并對(duì)生成的表格版面信息進(jìn)行調(diào)整;步驟30將掃描圖像和調(diào)整后的版面信息分別傳入識(shí)別軟件進(jìn)行雙路識(shí)別和編改校對(duì);步驟40對(duì)雙路識(shí)別中有矛盾且重復(fù)出現(xiàn)兩次以上的字進(jìn)行縱向編改校對(duì);步驟50對(duì)縱向編改后的字進(jìn)行橫向編改;步驟60根據(jù)表格版面信息和文字縱橫向編改后的文字,合成電子表格文件。本發(fā)明提供的技術(shù)方案的有益效果是對(duì)正常的紙質(zhì)表格文檔,編改效率可提高11倍,達(dá)到50萬字/8小時(shí);同時(shí)表格版面層次錯(cuò)誤率低于3%。,編改文字錯(cuò)誤率降低50%以上,低于O. 5%。。
圖I是表格分析編改加工方法流程圖;圖2是基于網(wǎng)絡(luò)和數(shù)據(jù)庫的表格分析編改加工流程系統(tǒng)圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)ー步地詳細(xì)描述本實(shí)施例提供了一種表格分析編改加工方法,所述方法包括
掃描文檔、并對(duì)掃描后的文檔圖像進(jìn)行處理;對(duì)掃描處理后的圖像通過表格版面分析算法生成表格版面,并對(duì)生成的表格版面信息進(jìn)行調(diào)整;將掃描圖像和調(diào)整后的版面信息分別傳入識(shí)別軟件進(jìn)行雙路識(shí)別和編改校對(duì);對(duì)雙路識(shí)別中有矛盾且重復(fù)出現(xiàn)兩次以上的字進(jìn)行縱向編改校對(duì);對(duì)縱向編改后的字進(jìn)行橫向編改;根據(jù)表格版面信息和文字縱橫向編改信息,合成電子表格文件。為提高OCR識(shí)別軟件識(shí)別正確率,對(duì)文檔統(tǒng)ー采用300DPI精度進(jìn)行掃描,隨后對(duì)圖像進(jìn)行矯正、去污、去噪等處理。上述表格版面信息包括表格版面的単元格位置、語種、行列表頭及數(shù)據(jù)區(qū)屬性。上述對(duì)掃描后的圖像通過表格版面分析算法生成表格版面,檢查版面分析結(jié)果,糾正錯(cuò)誤結(jié)果,檢查后,對(duì)圖像缺陷進(jìn)行必要的修補(bǔ),保證表格結(jié)構(gòu)分析正確。上述表格版面分析算法包含以下內(nèi)容表格線調(diào)整算法經(jīng)過初始行列掃描獲得初始表格線存在較多干擾由于表格圖像頁眉頁腳線及文字粘連及加粗而錯(cuò)識(shí)的非表格線;由于圖像質(zhì)量造成的文字?jǐn)嗑€;由于表格樣式規(guī)定省略的外圍框線或者數(shù)據(jù)區(qū)的表格線等;因此要將這些初始表格線進(jìn)行整理規(guī)則。非表格線剔除利用頁眉頁腳線與表格線的位置及行列交叉交叉屬性去除頁眉頁腳線,文字線周圍聯(lián)通區(qū)域特征性去除文字線。根據(jù)表格線的規(guī)則及數(shù)據(jù)排列特性實(shí)現(xiàn)數(shù)據(jù)區(qū)域表格線添加,表格斷線處理。單元格生成算法運(yùn)用基于表格知識(shí)的單元格生成算法,不只考慮單元格矩形的封閉特性,綜合考慮直線包圍棉結(jié)的大小等特征。単元格生成算法的主要內(nèi)容將檢索處理后的橫向表格線與縱向表格線分別按從上到下、從左到右排序。嵌套單元格處理針對(duì)統(tǒng)計(jì)年鑒中出現(xiàn)較多的嵌套表格,運(yùn)用置虛邊的方式將包含単元格分裂為兩個(gè)具有虛邊特征的單元格,在表格還原時(shí)利用虛邊重構(gòu)為包含特征的単元格。単元格虛邊處理根據(jù)表格行表頭區(qū)域単元格結(jié)構(gòu)復(fù)雜但數(shù)據(jù)區(qū)多為通行同列的特性,分別采用基于單元格和基于表格整行整列線的分析方法包括行表頭根據(jù)每個(gè)單元格的邊界局部特征分析虛邊;對(duì)于數(shù)據(jù)區(qū)分析整個(gè)數(shù)據(jù)區(qū)表格線位置附近的像素特征,根據(jù)有效像素長(zhǎng)度判斷表格線的虛實(shí)情況,實(shí)現(xiàn)較好的效果。単元格文字矩形分析分析每個(gè)單元格內(nèi)文字框易受到表格線的影響,采用先擦除表格線然后再利用算法跳過表格線以找到準(zhǔn)確文字框。無線、通欄及三線表格識(shí)別通過選中單元格區(qū)域分析或者默認(rèn)單個(gè)表格分析此類單元格。表頭表尾塊的自動(dòng)識(shí)別根據(jù)表頭表尾與表格的位置關(guān)系特征確定表頭表尾塊的起始終止位置,并根據(jù)文字的行列添加表格的表頭表尾塊信息。列表頭層次自動(dòng)分析
從圖像中的列表頭每行的文字起始位置自動(dòng)分析出其層次遞進(jìn)關(guān)系。上述掃描圖像和調(diào)整后的版面信息分別傳入“FineReader”和“漢王” OCR識(shí)別軟件進(jìn)行雙路識(shí)別。“FineReader”和“漢王”是國(guó)內(nèi)外對(duì)中文和英文都具有較高識(shí)別率的OCR系統(tǒng),它們對(duì)清晰印刷體漢字圖像識(shí)別率都在98%以上。通過對(duì)比測(cè)試,“FineReader”和“漢王”識(shí)別軟件具有很強(qiáng)的互補(bǔ)性,我們利用它們的識(shí)別結(jié)果并進(jìn)行逐個(gè)單元格逐字對(duì)比,過濾出具有相同的識(shí)別結(jié)果的文字,不進(jìn)行人工編改;將識(shí)別不同字進(jìn)行編改校對(duì)。實(shí)際應(yīng)用統(tǒng)計(jì)說明,對(duì)正常印刷體中英文字為主體的表格,無需編改的文字拋出率可達(dá)到95%,這部分文字的錯(cuò)誤率達(dá)到O. 3%。以下。在雙路比對(duì)前,針對(duì)應(yīng)用需求,還對(duì)ー些字符做了必要的全角字符轉(zhuǎn)半角字符的歸ー化處理。這些字符包括A-Z、a-z、0-9、“ ! ”、“ [”、“]”等,共計(jì)80個(gè)字符。上述對(duì)雙路識(shí)別中有矛盾且重復(fù)出現(xiàn)兩次以上的字進(jìn)行縱向編改校對(duì),所謂縱向編改,是將需要改的常見字匯集到一起集中批量修改,所有需要縱編的字都在段落中標(biāo)紅,編過的字標(biāo)藍(lán),且圖文對(duì)照。按40萬字ー批形成任務(wù)批次,可在一天內(nèi)完成。正常情況下,上述過程的編改量只占全部應(yīng)編改工作量的5%??v編有效的提高了編改的效率,減輕了編改的勞動(dòng)強(qiáng)度。為了提聞系統(tǒng)整體的正確率,王動(dòng)加入了一些易混字和易錯(cuò)字,并對(duì)易混字和易錯(cuò)字全部進(jìn)行縱編。如“人、入、一、ニ、卜、白、兒等字。對(duì)上述縱向編改后的字進(jìn)行橫向編改。橫向編改即和圖片對(duì)照逐個(gè)修改識(shí)別后的文字,所有需橫編的字都在段落中標(biāo)紅,已縱編的字在段落中標(biāo)綠,編過的字標(biāo)藍(lán),且圖文對(duì)照。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種表格分析編改加工方法,其特征在于,所述方法包括 掃描文檔、并對(duì)掃描后的文檔圖像進(jìn)行處理; 對(duì)掃描處理后的圖像通過表格版面分析算法生成表格版面,并對(duì)生成的表格版面信息進(jìn)行調(diào)整; 將掃描圖像和調(diào)整后的版面信息分別傳入識(shí)別軟件進(jìn)行雙路識(shí)別和編改校對(duì); 對(duì)雙路識(shí)別中有矛盾且重復(fù)出現(xiàn)兩次以上的字進(jìn)行縱向編改校對(duì); 對(duì)縱向編改后的字進(jìn)行橫向編改; 根據(jù)表格版面信息和縱橫向編改后的文字,合成電子表格文件。
2.根據(jù)權(quán)利要求I所述的表格分析編改加工方法,其特征在于,所述對(duì)掃描后的文檔圖像進(jìn)行處理包括矯正、去污、去噪。
3.根據(jù)權(quán)利要求I所述的表格分析編改加工方法,其特征在于,所述表格版面分析算法包括表格線調(diào)整算法、単元格生成算法、嵌套單元格處理、単元格虛邊處理單元格文字矩形分析、無線、通欄及三線表格識(shí)別、表頭表尾塊的自動(dòng)識(shí)別及列表頭層次自動(dòng)分析。
4.根據(jù)權(quán)利要求I所述的表格分析編改加工方法,其特征在于,所述雙路識(shí)別包括“FineReader”和“漢王” OCR識(shí)別軟件。
5.根據(jù)權(quán)利要求I所述的表格分析編改加工方法,其特征在于,所述表格版面信息包括表格版面的単元格位置、語種、行列表頭及數(shù)據(jù)區(qū)屬性。
6.根據(jù)權(quán)利要求3所述的表格分析編改加工方法,其特征在干,所述表格線調(diào)整算法通過行列掃描獲得初始表格線,合并表格線并剔除干擾線。
7.根據(jù)權(quán)利要求3所述的表格分析編改加工方法,其特征在于,所述單元格生成算法采用基于單元格知識(shí)的表格線遍歷方法生成単元格。
全文摘要
本發(fā)明公開了一種表格分析編改加工方法,所述方法包括掃描文檔、并對(duì)掃描后的文檔圖像進(jìn)行處理;對(duì)掃描處理后的圖像通過表格版面分析算法生成表格版面,并對(duì)生成的表格版面進(jìn)行分析調(diào)整;將掃描圖像和調(diào)整后的版面信息分別傳入識(shí)別軟件進(jìn)行雙路識(shí)別和編改校對(duì);對(duì)雙路識(shí)別中有矛盾且重復(fù)出現(xiàn)兩次以上的字進(jìn)行縱向編改校對(duì);對(duì)縱向編改后的字進(jìn)行橫向編改;根據(jù)表格版面信息和文字縱橫向編改信息,合成電子表格文件。本發(fā)明對(duì)正常的紙質(zhì)表格文檔,編改效率可提高11倍,達(dá)到50萬字/8小時(shí);同時(shí)表格版面層次錯(cuò)誤率低于3‰,編改文字錯(cuò)誤率降低50%以上,低于0.5‰。
文檔編號(hào)G06F17/24GK102855232SQ201210338748
公開日2013年1月2日 申請(qǐng)日期2012年9月14日 優(yōu)先權(quán)日2012年9月14日
發(fā)明者張鑌, 王艷, 梁洵, 袁仁慧 申請(qǐng)人:同方光盤股份有限公司