一種電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法
【專利摘要】本發(fā)明公開了一種電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法,該方法包括:提取版面中的原始線條和文本信息;對原始線條進(jìn)行預(yù)處理;取左右位置相同的一組水平線,并對每組相鄰兩條水平線間是否需要分割進(jìn)行判斷;通過分割后的水平線或無分割的水平線組成外接矩形區(qū)域,并判斷所述區(qū)域是否是一個表格區(qū)域;對表格區(qū)域內(nèi)的表格水平垂直投影,并柵格化;對柵格化表格內(nèi)容歸位。本發(fā)明提供的方法在很大程度上實現(xiàn)表格區(qū)域以及格柵化的自動化,從而實現(xiàn)閱讀順序的高效、正確的排序,也為表格矢量無損重現(xiàn)奠定了一定的基礎(chǔ)。
【專利說明】一種電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)信息處理領(lǐng)域的模式識別技術(shù),尤其涉及一種電子檔版式文件中的表格區(qū)域識別與內(nèi)容格柵化方法。
【背景技術(shù)】
[0002]目前,對于數(shù)學(xué)期刊雜志進(jìn)行預(yù)讀順序(ReadingOrder)自動排序處理(即根據(jù)期刊雜志的版面排版位置信息進(jìn)行自動組織文章含義的正確閱讀順序)時,由于版面中往往存在大量的表格,由于對這些表格中的文本是獨(dú)立的文本,并且在排版上是比較分散的,如果不做表格區(qū)域的識別,將表格區(qū)域內(nèi)的文本當(dāng)做正文的普通文本參與排序,會導(dǎo)致排序算法非常復(fù)雜,并且排序出來的閱讀順序是錯誤的可能性非常大,所以我們需要將表格區(qū)域內(nèi)的文本當(dāng)做一個整體參與閱讀順序的排序,通常表格類數(shù)據(jù)有兩種存儲方式,一種是將這類數(shù)據(jù)作為圖片進(jìn)行存儲,另外一種是轉(zhuǎn)化為標(biāo)準(zhǔn)的表格表示方法,如Excel等。
【發(fā)明內(nèi)容】
[0003]為解決上述技術(shù)問題,本發(fā)明的目的是提供一種識別表格區(qū)域,在很大程度上實現(xiàn)表格區(qū)域以及格柵化的自動化,從而實現(xiàn)閱讀順序的高效、正確的排序,也為表格矢量無損重現(xiàn)奠定了一定的基礎(chǔ)。
[0004]本發(fā)明的目的通過以下的技術(shù)方案來實現(xiàn):
[0005]一種電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法,包括:
[0006]A提取版面中的原始線條和文本信息;
[0007]B對原始線條進(jìn)行預(yù)處理;
[0008]C取左右位置相同的一組水平線,并對每組相鄰兩條水平線間是否需要分割進(jìn)行判斷;
[0009]D通過分割后的水平線或無分割的水平線組成外接矩形區(qū)域,并判斷所述區(qū)域是否是一個表格區(qū)域;
[0010]E對表格區(qū)域內(nèi)的表格水平垂直投影,并柵格化;
[0011]F對柵格化表格內(nèi)容歸位。
[0012]與現(xiàn)有技術(shù)相比,本發(fā)明的一個或多個實施例可以具有如下優(yōu)點(diǎn):
[0013]通過分析版式文件中期刊雜志版面上內(nèi)容的位置和排版信息,快速高效的識別表格區(qū)域,同時正確的給出表格的表頭,并通過柵格化組織表格內(nèi)容。
【專利附圖】
【附圖說明】
[0014]圖1是電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法流程圖;
[0015]圖2是電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法的具體流程圖。
【具體實施方式】
[0016]下面結(jié)合實施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述。
[0017]如圖1和圖2所示,為電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法,該方法包括:
[0018]步驟10提取版面中的原始線條和文本信息;
[0019]上述提取原始線條、文本信息是從PDF版面中提取原始的水平、垂直線條以及文本的位置信息,此時線條往往是斷裂成小段的線條,文本時一個字是一個獨(dú)立單位的內(nèi)容塊。
[0020]步驟20對原始線條進(jìn)行預(yù)處理;
[0021]上述原始線條預(yù)處理是:分別提取原始水平和垂直線條進(jìn)行相鄰合并和相鄰拼接,并將拼接之后的水平線條和垂直線條分別按照從上到下的位置坐標(biāo)和從左到右的位置坐標(biāo)排序。
[0022]步驟30取左右位置相同的一組水平線,并對每組相鄰兩條水平線間是否需要分割進(jìn)行判斷;
[0023]循環(huán)判斷相鄰兩條線是否是需要分割,如果需要分割,則改組水平線被分成N(N> D組水平線,出現(xiàn)以下三種情況則需要分割:
[0024]相鄰兩條線出現(xiàn)了表格的標(biāo)頭特征,則靠下方的那條線是一個新表格的開始框線.-^4 ,
[0025]相鄰兩條線之間的縱向投影規(guī)律不符合表格的特征;
[0026]相鄰兩條線之間有橫穿該相鄰兩條線組成的矩形區(qū)域的文本。
[0027]步驟40通過分割后的水平線或無分割的水平線組成外接矩形區(qū)域,并判斷所述區(qū)域是否是一個表格區(qū)域;
[0028]如果判斷上述外接矩形區(qū)域是一個表格區(qū)域,則執(zhí)行步驟50 ;否則重復(fù)執(zhí)行該步驟,直到對所有相鄰組水平線都進(jìn)行了判斷。
[0029]步驟50對表格區(qū)域內(nèi)的表格水平垂直投影,并柵格化;
[0030]根據(jù)表格區(qū)域內(nèi)的原始文本的坐標(biāo)位置,循環(huán)在相鄰水平線之間分別進(jìn)行水平和垂直方向投影,并根據(jù)投影規(guī)律識別表格內(nèi)部框線(由于可能存在數(shù)據(jù)的特殊性投影得到的結(jié)果不正確,需要進(jìn)行內(nèi)部框線的糾正),并通過識別的內(nèi)部框線格柵化表格。
[0031]步驟60對柵格化表格內(nèi)容歸位,是否對所有組進(jìn)行了判斷,是,識別結(jié)束;否則繼續(xù)執(zhí)行步驟30,直到對所有的左右位置均相同的水平線都處理判斷結(jié)束。
[0032]雖然本發(fā)明所揭露的實施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬【技術(shù)領(lǐng)域】內(nèi)的技術(shù)人員,在不脫離本發(fā)明所揭露的精神和范圍的前提下,可以在實施的形式上及細(xì)節(jié)上作任何的修改與變化,但本發(fā)明的專利保護(hù)范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。
【權(quán)利要求】
1.一種電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法,其特征在于,所述方法包括: A提取版面中的原始線條和文本信息; B對原始線條進(jìn)行預(yù)處理; C取左右位置相同的一組水平線,并對每組相鄰兩條水平線間是否需要分割進(jìn)行判斷; D通過分割后的水平線或無分割的水平線組成外接矩形區(qū)域,并判斷所述區(qū)域是否是一個表格區(qū)域; E對表格區(qū)域內(nèi)的表格水平垂直投影,并柵格化; F對柵格化表格內(nèi)容歸位。
2.根據(jù)權(quán)利要求1所述的電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法,其特征在于,所述步驟B中對原始線條的預(yù)處理包括:分別提取原始水平和垂直線條進(jìn)行相鄰合并和相鄰拼接,并將拼接之后的水平線條和垂直線條分別按照從上到下的位置坐標(biāo)和從左到右的位置坐標(biāo)排序。
3.根據(jù)權(quán)利要求1所述的電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法,其特征在于,對所述步驟C中需要分割的相鄰兩條線分成N組水平線,其中,N > I。
4.根據(jù)權(quán)利要求1所述的電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法,其特征在于,所述步驟D中:分割后的水平線或無分割的水平線組成外接矩形區(qū)域如果不是一個表格區(qū)域,則重復(fù)執(zhí)行該步驟,即對所有組水平線都進(jìn)行判斷。
5.根據(jù)權(quán)利要求1所述的電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法,其特征在于,所述步驟E具體包括根據(jù)表格區(qū)域內(nèi)的原始文本的坐標(biāo)位置,循環(huán)在相鄰水平線之間分別進(jìn)行水平和垂直方向投影,并根據(jù)投影規(guī)律識別表格內(nèi)部框線,并通過識別的內(nèi)部框線格柵化表格。
6.根據(jù)權(quán)利要求1所述的電子檔版式文件中的表格區(qū)域識別與內(nèi)容柵格化方法,其特征在于,判斷所述相鄰兩條線間需要進(jìn)行分割包括以下三種情況: 相鄰兩條線出現(xiàn)了表格的標(biāo)頭特征,則靠下方的那條線是一個新表格的開始框線; 相鄰兩條線之間的縱向投影規(guī)律不符合表格的特征; 相鄰兩條線之間有橫穿該相鄰兩條線組成的矩形區(qū)域的文本。
【文檔編號】G06K9/46GK104268545SQ201410468382
【公開日】2015年1月7日 申請日期:2014年9月15日 優(yōu)先權(quán)日:2014年9月15日
【發(fā)明者】張曉博, 張保亮, 張斌 申請人:同方知網(wǎng)(北京)技術(shù)有限公司