本發(fā)明涉及表格檢測和表格結(jié)構(gòu)識別,尤其涉及一種針對全框線表格的表格區(qū)域識別提取方法及系統(tǒng)。
背景技術(shù):
::1、表格區(qū)域文本內(nèi)容識別提取的工作主要集中在表格區(qū)域檢測、表格結(jié)構(gòu)識別和文本字符內(nèi)容識別等方面。目前主流的方法如下:一、使用基于啟發(fā)式規(guī)則或者簡單的機(jī)器學(xué)習(xí)算法,依賴于圖像預(yù)處理和文檔分析獲得的線條、文本塊等視覺信息,或者依賴于pdf編碼中自帶的一些文字信息來檢測表格所在區(qū)域并完成表格結(jié)構(gòu)識別;二、將表格檢測作為語義分割或目標(biāo)檢測領(lǐng)域的一個具體應(yīng)用,使用深度學(xué)習(xí)方法進(jìn)行表格檢測。由于表格的特殊結(jié)構(gòu),因此既可以將行列作為目標(biāo)檢測的對象,也可以將行之間和列之間的分隔符作為目標(biāo)檢測的對象,使用目標(biāo)檢測、圖像分割和圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法進(jìn)行表格結(jié)構(gòu)識別。2、現(xiàn)有技術(shù)存在的缺點(diǎn)在于:(1)基于啟發(fā)式規(guī)則的表格識別方法設(shè)計(jì)起來較為復(fù)雜,在各種場景的表格識別中難以獲得較高的準(zhǔn)確度,而且魯棒性相對較差;(2)深度學(xué)習(xí)方法中針對表格行與列的目標(biāo)檢測與識別在表格結(jié)構(gòu)上取得了很高的識別準(zhǔn)確率,但是對于表格中包含的文本內(nèi)容,單純的整行或整列識別效果不佳;(3)目前,表格檢測和結(jié)構(gòu)識別的研究大多針對pdf或html等結(jié)構(gòu)性文檔,在結(jié)構(gòu)性文檔中表格的位置結(jié)構(gòu)和文本內(nèi)容均有對應(yīng)編碼顯示。隨著手機(jī)和掃描儀廣泛用于拍攝和上傳文件,提取受限于無結(jié)構(gòu)文檔圖像中的表格形式信息的需求變得更加迫切。這包括在圖像中準(zhǔn)確檢測表格區(qū)域,并隨后檢測和提取檢測到的表格的行和列中的信息,使得識別提取變得更加困難。此外目前已有的表格檢測識別方法最終的識別結(jié)果只能以準(zhǔn)確率或者命令行的形式顯示,這對操作人員來說帶來了極大的不便,既不能直接使用也不能在此基礎(chǔ)上更新修改表格數(shù)據(jù)。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明的目的在于,克服現(xiàn)有技術(shù)存在的技術(shù)缺陷,解決非結(jié)構(gòu)性文檔圖像中表格區(qū)域檢測和結(jié)構(gòu)識別準(zhǔn)確率不高的問題、表格所含文本內(nèi)容識別效果不佳的問題、表格區(qū)域識別提取結(jié)果無法以結(jié)構(gòu)性文檔形式保存顯示的問題,提出一種針對全框線表格的表格區(qū)域識別提取方法及系統(tǒng)。2、為了解決上述技術(shù)問題,本發(fā)明提出一種針對全框線表格的表格區(qū)域識別提取方法,包括如下步驟:3、s1、生成表格文檔圖像數(shù)據(jù)集;4、s2、構(gòu)建tdem端到端深度學(xué)習(xí)模型,包括由vgg-19預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)構(gòu)成的圖像共享編碼層、列區(qū)域識別解碼層和表格總區(qū)域識別解碼層,圖片通過圖像共享編碼層后分別輸入列區(qū)域識別解碼層和表格區(qū)域識別解碼層兩個不同分支,得到表格總區(qū)域和列區(qū)域的掩膜;5、s3、將表格文檔圖像數(shù)據(jù)集中圖像轉(zhuǎn)化為圖像像素水平投影分布直方圖,通過像素水平累加值確定每條行分隔線的縱坐標(biāo);6、s4、進(jìn)行模型訓(xùn)練,將表格圖像輸入到訓(xùn)練好的模型中,使用tesseract光學(xué)字符識別進(jìn)行文檔圖像中表格區(qū)域文本內(nèi)容的識別提取并使用excel的格式展示。7、進(jìn)一步地,所述生成表格文檔圖像數(shù)據(jù)集包括:8、將包含有全框線表格的文檔由pdf/html格式轉(zhuǎn)變?yōu)閖pg、png或者bmp的圖像格式,將轉(zhuǎn)換后的文檔圖像收集整理成全框線表格文檔圖像數(shù)據(jù)集。9、進(jìn)一步地,所述tdem端到端深度學(xué)習(xí)模型中,圖像共享編碼層具體為:10、將vgg-19的全連接層替換為兩個卷積層,兩個卷積層均使用relu激活函數(shù),然后是一個0.8的丟棄率的丟棄層,之后附加解碼器網(wǎng)絡(luò)的兩個不同分支。11、進(jìn)一步地,所述列區(qū)域識別解碼層包括:卷積層conv7?column和1x1卷積conv8column層,在1x1卷積conv8?column層之后帶有relu激活函數(shù)和與圖像共享編碼層相同丟棄概率的丟棄層,使用分?jǐn)?shù)步幅卷積對特征圖進(jìn)行上采樣;上采樣的特征圖與圖像共享編碼層第四池化層相結(jié)合,然后再與相同維度的圖像共享編碼層第三池化層相結(jié)合,然后將特征圖放大到原始圖像尺寸。12、進(jìn)一步地,所述表格總區(qū)域識別解碼層使用了額外的1x1卷積層conv7?table,onv7?table層的輸出使用分?jǐn)?shù)步幅卷積進(jìn)行放大,并與相同維度的圖像共享編碼層第四池化層相結(jié)合,組合特征圖再次被放大,然后與圖像共享編碼層第三池化層相結(jié)合,然后將特征圖放大到原始圖像尺寸。13、進(jìn)一步地,所述通過像素水平累加值確定每條行分隔線的縱坐標(biāo)具體為:14、讓n表示表格區(qū)域圖像像素的行數(shù),對于1≤i≤n,選擇滿足a(i)>minhor的所有i,并將它們存儲在數(shù)組h[y]中;閾值minhor通過max(a(i))*p確定;15、基于閾值linehor進(jìn)一步過濾h[y],如果幾個坐標(biāo)之間的差值小于linehor,那么選擇中值作為行分隔線的最終垂直坐標(biāo),并將最終垂直坐標(biāo)存儲在數(shù)組finlh[y]中;16、其中i代表正在進(jìn)行像素水平投影累加計(jì)算的圖像行數(shù),1≤i≤n,m表示表格區(qū)域圖像像素的列數(shù),uij代表表格區(qū)域每個像素點(diǎn)的值,p是一個超參數(shù),閾值linehor代表行分隔線的最大粗細(xì)值;17、其中超參數(shù)和閾值的取值方式為:通過對比輸出的預(yù)測表格行分隔線位置與原表格文本圖像中表格真實(shí)的行分割線所在位置,觀察預(yù)測行分割線是否存在與真實(shí)行分割線不匹配的問題,進(jìn)而調(diào)整超參數(shù)和閾值。18、進(jìn)一步地,所述模型訓(xùn)練過程中,圖像共享編碼層從列區(qū)域識別解碼層和表格區(qū)域識別解碼層接收到的梯度反復(fù)訓(xùn)練,而列區(qū)域識別解碼層和表格區(qū)域識別解碼層則獨(dú)立訓(xùn)練。19、根據(jù)說明書的另一方面,本發(fā)明提供了一種針對全框線表格的表格區(qū)域識別提取系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)集生成模塊,表格列與總區(qū)域識別模塊、表格行區(qū)域識別模塊,訓(xùn)練模塊和光學(xué)字符識別模塊;20、所述數(shù)據(jù)集生成模塊用于生成表格文檔圖像數(shù)據(jù)集;21、所述表格列與總區(qū)域識別模塊使用tdem端到端深度學(xué)習(xí)模型輸出表格總區(qū)域和列區(qū)域的掩膜;22、表格行區(qū)域識別模塊將表格文檔圖像數(shù)據(jù)集中圖像轉(zhuǎn)化為圖像像素水平投影分布直方圖,通過像素水平累加值確定每條行分隔線的縱坐標(biāo);23、訓(xùn)練模塊用于訓(xùn)練tdem端到端深度學(xué)習(xí)模型和表格行區(qū)域識別模塊中的算法,24、所述光學(xué)字符識別模塊進(jìn)行文檔圖像中表格區(qū)域文本內(nèi)容的識別提取并使用excel的格式展示。25、根據(jù)說明書的另一方面,本發(fā)明提供了一種針對全框線表格的表格區(qū)域識別提取裝置,所述處理器執(zhí)行所述可執(zhí)行代碼時,實(shí)現(xiàn)所述的一種針對全框線表格的表格區(qū)域識別提取方法。26、根據(jù)說明書的另一方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有程序,所述程序被處理器執(zhí)行時,實(shí)現(xiàn)所述的一種針對全框線表格的表格區(qū)域識別提取方法。27、有益效果:28、本發(fā)明將不同格式的非結(jié)構(gòu)性文檔統(tǒng)一保存為圖像格式,避免了因格式不同而導(dǎo)致識別算法應(yīng)用受到限制的問題。29、針對包含表格的文檔圖像設(shè)計(jì)了基于單元格分割方式的表格區(qū)域識別提取模型,解決表格識別中對圖像中表格結(jié)構(gòu)和文本內(nèi)容識別困難的問題。30、本發(fā)明利用表格檢測和表格結(jié)構(gòu)識別這兩個相互依賴的任務(wù)之間的內(nèi)在關(guān)聯(lián),即表格和列有公共的區(qū)域,對表格區(qū)域的準(zhǔn)確定位可以極大地提高列檢測的結(jié)果。本發(fā)明模型利用一個基礎(chǔ)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用預(yù)訓(xùn)練的vgg-19特征進(jìn)行初始化。模型共享vgg-19的編碼層用于表格和列檢測器,而兩個任務(wù)的解碼器是分開的。共享的公共層從表格和列檢測器接收到的梯度反復(fù)訓(xùn)練,而解碼器則獨(dú)立訓(xùn)練。然后利用有關(guān)基本數(shù)據(jù)類型的語義信息進(jìn)一步提升模型性能。實(shí)現(xiàn)表格區(qū)域和表格列區(qū)域精確檢測識別,解決了傳統(tǒng)方法無法同時既準(zhǔn)確檢測表格區(qū)域又精確識別表格結(jié)構(gòu)的問題。31、本發(fā)明的識別提取結(jié)果用excel的格式展現(xiàn)給操作人員,直觀明了易于修改。相對于傳統(tǒng)基于啟發(fā)式的表格檢測識別方法通常采用人工設(shè)計(jì)的規(guī)則對文檔中的表格區(qū)域進(jìn)行篩選和識別,本發(fā)明在獲取表格結(jié)構(gòu)與文本內(nèi)容特征時,將會大大降低產(chǎn)生誤差和錯誤的概率,減少造成誤差傳播或累積,大大提升表格區(qū)域文本內(nèi)容識別提取的效果。當(dāng)前第1頁12當(dāng)前第1頁12