表格內(nèi)容自動(dòng)錄入方法和裝置制造方法
【專利摘要】本發(fā)明提供一種表格內(nèi)容自動(dòng)錄入方法和裝置,該方法包括:a)形成內(nèi)容待錄入表格的掃描圖像,并確定其所對(duì)應(yīng)的空白表格掃描圖像;b)求得該兩個(gè)掃描圖像的差值圖像,并在該差值圖像中標(biāo)定表格條目留白區(qū)域的原始位置;c)計(jì)算差值圖像中的所有表格條目留白區(qū)域的公共外部像素的像素值之和,并通過差值圖像中的表格條目留白區(qū)域的平移和轉(zhuǎn)動(dòng)來確定所述像素值之和最小時(shí)表格條目留白區(qū)域所在的匹配位置;d)對(duì)處于匹配位置處的每個(gè)表格條目留白區(qū)域中的表格內(nèi)容進(jìn)行識(shí)別,并將識(shí)別結(jié)果存儲(chǔ)起來。該方法可克服表格內(nèi)容自動(dòng)錄入過程中表格背景以及表格內(nèi)容錯(cuò)位對(duì)表格內(nèi)容識(shí)別的干擾和影響,從而提高表格內(nèi)容自動(dòng)錄入的準(zhǔn)確性。
【專利說明】表格內(nèi)容自動(dòng)錄入方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像識(shí)別【技術(shù)領(lǐng)域】,具體地說,涉及一種表格內(nèi)容自動(dòng)錄入方法和裝置。
【背景技術(shù)】
[0002]目前,很多單位和機(jī)構(gòu)每年每月都要處理大量的表格。為了對(duì)這些表格的內(nèi)容進(jìn)行統(tǒng)計(jì)和管理,通常需要先將這些表格的內(nèi)容錄入到信息化管理系統(tǒng)中。
[0003]具體地,以發(fā)票為例進(jìn)行說明。每種類型的發(fā)票都具有特定的格式。一張發(fā)票通常包括多個(gè)處于預(yù)定位置處的條目,例如開票日期、付款單位、發(fā)票代碼、發(fā)票號(hào)碼、行業(yè)類另IJ、機(jī)打票號(hào)、查詢碼、防偽碼、項(xiàng)目、金額、密碼區(qū)、合計(jì)(大寫)、合計(jì)(小寫)、備注、收款單位稅號(hào)、收款單位、開票人等,在每個(gè)條目的右側(cè)或下方是與該條目對(duì)應(yīng)的留白區(qū)域,用于填充與該條目對(duì)應(yīng)的內(nèi)容,一般地,這些內(nèi)容包括文字、數(shù)字、字母等。
[0004]可以通過人工的方法將發(fā)票的內(nèi)容(包括條目以及與各條目對(duì)應(yīng)的內(nèi)容)錄入到信息化管理系統(tǒng)中,但這種方法在待處理的發(fā)票數(shù)目很多時(shí)效率較低。也可以通過自動(dòng)識(shí)別的方法將發(fā)票的內(nèi)容錄入到信息化管理系統(tǒng)中。具體說,先將內(nèi)容待錄入的發(fā)票進(jìn)行掃描,形成掃描圖像,然后對(duì)該掃描圖像進(jìn)行自動(dòng)識(shí)別,以確定并存儲(chǔ)與各個(gè)條目對(duì)應(yīng)的內(nèi)容。然而,通過自動(dòng)識(shí)別來錄入發(fā)票內(nèi)容的現(xiàn)有方法在解決下列問題上存在不足:1)現(xiàn)有的中文識(shí)別算法的識(shí)別錯(cuò)誤率比較高,特別是在背景干擾(例如印章殘跡、污斑、發(fā)票品相所引起的干擾)比較大的情形中;2)在很多情形中,發(fā)票的內(nèi)容是通過打印機(jī)打印出來的,在打印時(shí),打印的發(fā)票內(nèi)容會(huì)發(fā)生錯(cuò)位,偏離其應(yīng)在的位置(即偏離其應(yīng)該填入的留白區(qū)域),從而增大其識(shí)別難度并降低其識(shí)別精確度。
【發(fā)明內(nèi)容】
[0005]本發(fā)明就是為了解決上述現(xiàn)有技術(shù)中存在的問題而做出的,其目的在于提供一種表格內(nèi)容自動(dòng)錄入方法和裝置,以克服表格內(nèi)容自動(dòng)錄入過程中表格背景對(duì)表格內(nèi)容識(shí)別的干擾以及表格內(nèi)容錯(cuò)位對(duì)表格內(nèi)容識(shí)別的影響,從而提高表格內(nèi)容自動(dòng)錄入的準(zhǔn)確性。
[0006]為了實(shí)現(xiàn)上述目的,在本發(fā)明的一個(gè)方面,提供一種表格內(nèi)容自動(dòng)錄入方法,該方法包括:a)對(duì)內(nèi)容待錄入表格進(jìn)行掃描以形成該表格的掃描圖像,并根據(jù)空白表格掃描圖像數(shù)據(jù)庫中的空白表格掃描圖像的類型識(shí)別特征對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類型識(shí)別以確定所述內(nèi)容待錄入表格的掃描圖像所對(duì)應(yīng)的空白表格掃描圖像;b)將所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像對(duì)齊,求得該兩個(gè)掃描圖像的差值圖像,并根據(jù)該空白表格掃描圖像中預(yù)先標(biāo)定的表格條目留白區(qū)域的原始位置在該差值圖像中標(biāo)定表格條目留白區(qū)域的原始位置;c)計(jì)算所述差值圖像中的所有表格條目留白區(qū)域的公共外部像素的像素值之和,并通過所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像的平移和轉(zhuǎn)動(dòng)來確定所述公共外部像素的像素值之和最小時(shí)所述表格條目留白區(qū)域所在的匹配位置;d)對(duì)處于匹配位置處的每個(gè)表格條目留白區(qū)域中的表格內(nèi)容進(jìn)行自動(dòng)識(shí)別,并將識(shí)別結(jié)果與該表格條目留白區(qū)域所對(duì)應(yīng)的表格條目關(guān)聯(lián)地存儲(chǔ)起來。
[0007]其中,步驟a)中對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類型識(shí)別的方式可以包括自動(dòng)識(shí)別或人工識(shí)別或二者的結(jié)合。
[0008]優(yōu)選地,求得所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像的差值圖像的步驟可以包括:求出對(duì)齊后的該兩個(gè)掃描圖像的對(duì)應(yīng)像素的像素值的差值,并以該差值作為所述差值圖像的相應(yīng)像素的像素值?;蛘?,優(yōu)選地,求得所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像的差值圖像的步驟可以包括:求出對(duì)齊后的該兩個(gè)掃描圖像的對(duì)應(yīng)像素的像素值的差值,如果該差值小于第一閾值,則所述差值圖像的相應(yīng)像素的像素值為0,如果該差值大于第一閾值,則所述差值圖像的相應(yīng)像素的像素值為
1
[0009]另外,優(yōu)選地,所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像的平移和轉(zhuǎn)動(dòng)可以包括:所述差值圖像中的所有表格條目留白區(qū)域相對(duì)于該差值圖像的整體平移和轉(zhuǎn)動(dòng)。進(jìn)一步優(yōu)選地,所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像的平移和轉(zhuǎn)動(dòng)還可以包括:所述差值圖像中的每個(gè)表格條目留白區(qū)域相對(duì)于該差值圖像的單獨(dú)平移和轉(zhuǎn)動(dòng)。
[0010]如果步驟d)中的識(shí)別結(jié)果為不可識(shí)別,則該方法還可以包括對(duì)該表格條目留白區(qū)域中的表格內(nèi)容進(jìn)行人工錄入。
[0011]根據(jù)本發(fā)明的另一方面,提供一種表格內(nèi)容自動(dòng)錄入裝置,該裝置包括:掃描成像單元、識(shí)別單元、差值圖像形成單元、計(jì)算單元、表格條目留白區(qū)域匹配單元、存儲(chǔ)單元,其中,
[0012]所述掃描成像單元對(duì)內(nèi)容待錄入表格進(jìn)行掃描以形成該表格的掃描圖像,所述識(shí)別單元根據(jù)空白表格掃描圖像數(shù)據(jù)庫中的空白表格掃描圖像的特征對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類型識(shí)別以確定所述內(nèi)容待錄入表格的掃描圖像所對(duì)應(yīng)的空白表格掃描圖像;
[0013]所述差值圖像形成單元將所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像對(duì)齊,求得該兩個(gè)掃描圖像的差值圖像,并根據(jù)該空白表格掃描圖像中預(yù)先標(biāo)定的表格條目留白區(qū)域的原始位置在該差值圖像中標(biāo)定表格條目留白區(qū)域的原始位置;
[0014]所述計(jì)算單元計(jì)算所述差值圖像中的所有表格條目留白區(qū)域的公共外部像素的像素值之和,所述表格條目留白區(qū)域匹配單元使所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像平移和轉(zhuǎn)動(dòng),并根據(jù)所述計(jì)算單元的計(jì)算結(jié)果確定所述公共外部像素的像素值之和最小時(shí)所述表格條目留白區(qū)域所在的匹配位置;
[0015]所述識(shí)別單元對(duì)處于所述匹配位置處的每個(gè)表格條目留白區(qū)域中的表格內(nèi)容進(jìn)行自動(dòng)識(shí)別,并將識(shí)別結(jié)果與該表格條目留白區(qū)域所對(duì)應(yīng)的表格條目關(guān)聯(lián)地存儲(chǔ)在所述存儲(chǔ)單元中。
[0016]根據(jù)上面的說明及實(shí)踐可知,本發(fā)明的優(yōu)點(diǎn)是,通過對(duì)內(nèi)容待錄入表格掃描圖像與空白表格掃描圖像的差值圖像進(jìn)行識(shí)別而不是對(duì)內(nèi)容待錄入表格掃描圖像直接進(jìn)行識(shí)另O,可以克服表格內(nèi)容自動(dòng)錄入過程中表格背景對(duì)表格內(nèi)容識(shí)別的干擾;通過對(duì)所述差值圖像中的表格條目留白區(qū)域進(jìn)行平移和轉(zhuǎn)動(dòng)以獲得表格條目留白區(qū)域與其所對(duì)應(yīng)的表格內(nèi)容的最佳匹配,然后再對(duì)表格條目留白區(qū)域中的表格內(nèi)容進(jìn)行識(shí)別,可以克服表格內(nèi)容 錯(cuò)位對(duì)表格內(nèi)容識(shí)別的影響,從而提高表格內(nèi)容自動(dòng)錄入的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0017]圖1是示意圖,示出了本發(fā)明的一個(gè)實(shí)施例所述的空白表格掃描圖像;
[0018]圖2是示意圖,示出了在空白表格掃描圖像中預(yù)先標(biāo)定出的表格條目留白區(qū)域;
[0019]圖3是流程圖,示出了本發(fā)明所述的表格內(nèi)容自動(dòng)錄入方法;
[0020]圖4是示意圖,示出了一個(gè)實(shí)施例所述的內(nèi)容待錄入表格的掃描圖像;
[0021]圖5是示意圖,示出了內(nèi)容待錄入表格掃描圖像與空白表格掃描圖像的差值圖像的一個(gè)例子;
[0022]圖6是示意圖,示出了在差值圖像中標(biāo)定出的表格條目留白區(qū)域的原始位置;
[0023]圖7是示意圖,示出了通過表格條目留白區(qū)域相對(duì)于差值圖像的整體平移和轉(zhuǎn)動(dòng)所確定的表格條目留白區(qū)域的匹配位置;
[0024]圖8是示意圖,示出了通過每個(gè)表格條目留白區(qū)域相對(duì)于差值圖像的單獨(dú)平移和轉(zhuǎn)動(dòng)所確定的表格條目留白區(qū)域的最佳匹配位置;
[0025]圖9是方框圖,示出了本發(fā)明的所述的表格內(nèi)容自動(dòng)錄入裝置。
【具體實(shí)施方式】
[0026]下面將結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)的描述。
[0027]在下面的描述中,只通過說明的方式描述了本發(fā)明的某些示范性實(shí)施例。毋庸置疑,本領(lǐng)域的普通技術(shù)人員可以認(rèn)識(shí)到,在不偏離本發(fā)明的精神和范圍的情況下,可以用各種不同的方式對(duì)所述實(shí)施例進(jìn)行修正。因此,附圖和描述在本質(zhì)上是說明性的,而不是用于限制權(quán)利要求的保護(hù)范圍。在本說明書中,相同的附圖標(biāo)記表示相同或相似的部分。
[0028]在自動(dòng)錄入表格內(nèi)容之前,先對(duì)各種空白表格進(jìn)行掃描以形成各種空白表格掃描圖像,并在每種空白表格掃描圖像上預(yù)先標(biāo)定出表格條目留白區(qū)域的原始位置,然后將空白表格的掃描圖像、空白表格的類型識(shí)別特征、空白表格中的各個(gè)表格條目、以及各個(gè)表格條目所對(duì)應(yīng)的表格條目留白區(qū)域的位置關(guān)聯(lián)地存儲(chǔ)在空白表格掃描圖像數(shù)據(jù)庫中。
[0029]圖1是示意圖,示出了本發(fā)明的一個(gè)實(shí)施例所述的空白表格掃描圖像100。圖2是不意圖,不出了在圖1的空白表格掃描圖像100中預(yù)先標(biāo)定出的表格條目留白區(qū)域。如圖1和圖2所示,本發(fā)明的一個(gè)實(shí)施例所述的空白表格包括類型識(shí)別特征110、多個(gè)表格條目120以及與每個(gè)表格條目對(duì)應(yīng)的表格條目留白區(qū)域130。在該實(shí)施例中,表格的類型識(shí)別特征110為表格名稱“陜西省有獎(jiǎng)網(wǎng)絡(luò)在線通用發(fā)票(西安)”,表格的類型識(shí)別特征110還可以包括例如表格的結(jié)構(gòu)特征、二維碼等能夠識(shí)別該表格類型的特征。
[0030]表格條目120包括開票日期、付款單位、發(fā)票代碼、發(fā)票號(hào)碼、行業(yè)類別、機(jī)打票號(hào)、查詢碼、防偽碼、項(xiàng)目、金額、密碼區(qū)、合計(jì)(大寫)、合計(jì)(小寫)、備注、收款單位稅號(hào)、收款單位、開票人等。
[0031]與每個(gè)表格條目120對(duì)應(yīng)的表格條目留白區(qū)域130位于該表格條目120的右側(cè)或下方,用于填入與該表格條目120對(duì)應(yīng)的內(nèi)容,一般地,這些內(nèi)容包括文字、數(shù)字、字母及其組合等。表格條目留白區(qū)域130的形狀、大小以及位置可以通過坐標(biāo)來限定。例如,可以在空白表格掃描圖像100中設(shè)定原點(diǎn)、建立坐標(biāo)系,然后,通過每個(gè)表格條目留白區(qū)域130的頂點(diǎn)的坐標(biāo)來限定其形狀、大小和位置。表格條目留白區(qū)域130可以呈矩形,但本發(fā)明不限于此,表格條目留白區(qū)域130也可以具有其他形狀。
[0032]圖3是流程圖,示出了本發(fā)明的一個(gè)實(shí)施例所述的表格內(nèi)容自動(dòng)錄入方法。如圖3所示,在自動(dòng)錄入表格內(nèi)容時(shí),根據(jù)本發(fā)明所述的表格內(nèi)容自動(dòng)錄入方法,首先,在步驟SlO中,對(duì)內(nèi)容待錄入表格進(jìn)行掃描以形成該表格的掃描圖像,并根據(jù)空白表格掃描圖像數(shù)據(jù)庫中的空白表格掃描圖像100的類型識(shí)別特征110對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類型識(shí)別以確定所述內(nèi)容待錄入表格的掃描圖像所對(duì)應(yīng)的空白表格掃描圖像100。
[0033]圖4是示意圖,示出了本發(fā)明的一個(gè)實(shí)施例所述的內(nèi)容待錄入表格的掃描圖像200。如圖4所示,在該內(nèi)容待錄入表格中打印有表格內(nèi)容210,但打印的表格內(nèi)容210發(fā)生了錯(cuò)位,偏離了其應(yīng)在的位置。在對(duì)該內(nèi)容待錄入表格進(jìn)行類型識(shí)別后,可以在空白表格掃描圖像數(shù)據(jù)庫中找到與其對(duì)應(yīng)的空白表格掃描圖像(如圖1所示的空白表格掃描圖像100)。步驟SlO中對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類型識(shí)別的方式可以包括自動(dòng)識(shí)別、人工識(shí)別、或二者的結(jié)合。
[0034]接著,在步驟S20中,將所述內(nèi)容待錄入表格的掃描圖像200與其所對(duì)應(yīng)的空白表格掃描圖像100對(duì)齊,求得該兩個(gè)掃描圖像的差值圖像,并根據(jù)該空白表格掃描圖像100中預(yù)先標(biāo)定的表格條目留白區(qū)域130的原始位置在該差值圖像中標(biāo)定表格條目留白區(qū)域的原始位置。
[0035]所述兩個(gè)掃描圖像的對(duì)齊可以通過該兩個(gè)掃描圖像上的預(yù)定特征(例如類型識(shí)別特征)的重合來實(shí)現(xiàn)。所述對(duì)齊過程可以包括所述兩個(gè)掃描圖像之間的相對(duì)轉(zhuǎn)動(dòng)和平移過程。
[0036]所述內(nèi)容待錄入表格的掃描圖像200與其所對(duì)應(yīng)的空白表格掃描圖像100對(duì)齊后,可以求出該兩個(gè)掃描圖像的差值圖像。在一個(gè)實(shí)施例中,可以求出對(duì)齊后的該兩個(gè)掃描圖像的對(duì)應(yīng)像素的像素值的差值,并以該差值作為所述差值圖像的相應(yīng)像素的像素值。在另一個(gè)實(shí)施例中,可以求出對(duì)齊后的該兩個(gè)掃描圖像的對(duì)應(yīng)像素的像素值的差值,如果該差值小于第一閾值,則所述差值圖像的相應(yīng)像素的像素值為0,如果該差值大于第一閾值,則所述差值圖像的相應(yīng)像素的像素值為I。后一種方法的好處是,可以在一定程度上消除圖像噪聲的干擾。圖5是示意圖,示出了內(nèi)容待錄入表格掃描圖像200與空白表格掃描圖像100的差值圖像300的一個(gè)例子。如圖5所示,在所求出的差值圖像300中只包含待錄入的表格內(nèi)容210以及一些圖像污染內(nèi)容(例如,印章圖像殘留310、表格中的污斑缺損等),而不包含空白表格的表格條目以及結(jié)構(gòu)線條等。
[0037]圖6是示意圖,示出了在差值圖像300中標(biāo)定出的表格條目留白區(qū)域130的原始位置。如圖6所示,在差值圖像300中,待錄入的表格內(nèi)容210相對(duì)于其應(yīng)在的表格條目留白區(qū)域130發(fā)生了錯(cuò)位。
[0038]返回圖3,然后,在步驟S30中,計(jì)算差值圖像300中的所有表格條目留白區(qū)域130的公共外部像素的像素值之和,并通過差值圖像300中的表格條目留白區(qū)域130相對(duì)于該差值圖像300的平移和轉(zhuǎn)動(dòng)來確定所述公共外部像素的像素值之和最小時(shí)表格條目留白區(qū)域130所在的匹配位置。
[0039]具體說,如果差值圖像300中的待錄入的表格內(nèi)容210沒有發(fā)生錯(cuò)位,均落入各自應(yīng)在的表格條目留白區(qū)域130中,那么,差值圖像300中的所有表格條目留白區(qū)域130的公共外部像素的像素值之和應(yīng)該為最小。如果差值圖像300中的待錄入的表格內(nèi)容210發(fā)生了錯(cuò)位,那么,露在表格條目留白區(qū)域130外部的表格內(nèi)容部分使得表格條目留白區(qū)域130的公共外部像素的像素值之和增大。因此,通過使差值圖像300中的表格條目留白區(qū)域130相對(duì)于該差值圖像300平移和轉(zhuǎn)動(dòng),并判斷所有表格條目留白區(qū)域130的公共外部像素的像素值之和是否為最小,可以獲得表格條目留白區(qū)域130與表格內(nèi)容210匹配時(shí)所在的位置。
[0040]在一個(gè)實(shí)施例中,差值圖像300中的表格條目留白區(qū)域130相對(duì)于該差值圖像300的平移和轉(zhuǎn)動(dòng)可以包括:差值圖像300中的所有表格條目留白區(qū)域130相對(duì)于該差值圖像300的整體平移和轉(zhuǎn)動(dòng)。使所有的表格條目留白區(qū)域130先作整體平移和轉(zhuǎn)動(dòng),可以使各個(gè)表格條目留白區(qū)域130與其相對(duì)應(yīng)的表格內(nèi)容210至少大致匹配,不會(huì)使表格條目留白區(qū)域130與表格內(nèi)容210發(fā)生錯(cuò)配。在具體過程中,可以使所有的表格條目留白區(qū)域130先沿水平方向平移,再沿垂直方向平移,然后再進(jìn)行轉(zhuǎn)動(dòng),然而本發(fā)明不限于此,可以根據(jù)表格條目留白區(qū)域130的公共外部像素的像素值之和向最小值收斂的速度來改變所述平移和轉(zhuǎn)動(dòng)的次序。圖7是示意圖,示出了通過表格條目留白區(qū)域130相對(duì)于差值圖像300的整體平移和轉(zhuǎn)動(dòng)所確定的表格條目留白區(qū)域130的匹配位置。
[0041]如圖7所示,當(dāng)通過整體平移和轉(zhuǎn)動(dòng)表格條目留白區(qū)域130并判斷所述公共外部像素的像素值之和是否為最小值而確定了表格條目留白區(qū)域130的匹配位置時(shí),一部分表格條目留白區(qū)域130仍有可能與其對(duì)應(yīng)的表格內(nèi)容210不完全匹配。因此,在一個(gè)實(shí)施例中,還需要使差值圖像300中的每個(gè)表格條目留白區(qū)域130相對(duì)于該差值圖像300進(jìn)行單獨(dú)平移和轉(zhuǎn)動(dòng),并判斷所述公共外部像素的像素值之和是否達(dá)到最小值,從而確定每個(gè)表格條目留白區(qū)域130與其所對(duì)應(yīng)的表格內(nèi)容210完全匹配時(shí)的匹配位置。圖8是示意圖,示出了通過每個(gè)表格條目留白區(qū)域130相對(duì)于差值圖像300的單獨(dú)平移和轉(zhuǎn)動(dòng)所確定的表格條目留白區(qū)域130的最佳匹配位置。
[0042]確定了每個(gè)表格條目留白區(qū)域130的匹配位置后,在步驟S40中,對(duì)處于匹配位置處的每個(gè)表格條目留白區(qū)域130中的表格內(nèi)容210進(jìn)行自動(dòng)識(shí)別,并將識(shí)別結(jié)果與該表格條目留白區(qū)域130所對(duì)應(yīng)的表格條目120關(guān)聯(lián)地存儲(chǔ)起來。
[0043]如果步驟S40中某個(gè)表格條目留白區(qū)域130中的表格內(nèi)容210的識(shí)別結(jié)果為不可識(shí)別,則可以額外地對(duì)該表格條目留白區(qū)域中的表格內(nèi)容210進(jìn)行人工錄入。
[0044]如上參照?qǐng)D1-圖8描述了本發(fā)明所述的表格內(nèi)容自動(dòng)錄入方法。本發(fā)明所述的表格內(nèi)容自動(dòng)錄入方法,可以軟件和硬件組合的方式來實(shí)現(xiàn)。
[0045]圖9是方框圖,示出了本發(fā)明的一個(gè)實(shí)施例所述的表格內(nèi)容自動(dòng)錄入裝置。如圖9所示,本發(fā)明的一個(gè)實(shí)施例所述的表格內(nèi)容自動(dòng)錄入裝置500包括:掃描成像單元510、識(shí)別單元520、差值圖像形成單元530、計(jì)算單元540、表格條目留白區(qū)域匹配單元550、存儲(chǔ)單元 560。
[0046]掃描成像單元510對(duì)內(nèi)容待錄入表格進(jìn)行掃描以形成該表格的掃描圖像,識(shí)別單元520根據(jù)空白表格掃描圖像數(shù)據(jù)庫中的空白表格掃描圖像的特征對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類型識(shí)別以確定所述內(nèi)容待錄入表格的掃描圖像所對(duì)應(yīng)的空白表格掃描圖像。
[0047]差值圖像形成單元530將所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像對(duì)齊,求得該兩個(gè)掃描圖像的差值圖像,并根據(jù)該空白表格掃描圖像中預(yù)先標(biāo)定的表格條目留白區(qū)域的原始位置在該差值圖像中標(biāo)定表格條目留白區(qū)域的原始位置。
[0048]計(jì)算單元540計(jì)算所述差值圖像中的所有表格條目留白區(qū)域的公共外部像素的像素值之和,表格條目留白區(qū)域匹配單元550使所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像平移和轉(zhuǎn)動(dòng),并根據(jù)計(jì)算單元540的計(jì)算結(jié)果確定所述公共外部像素的像素值之和最小時(shí)所述表格條目留白區(qū)域所在的匹配位置。
[0049]識(shí)別單元520對(duì)處于所述匹配位置處的每個(gè)表格條目留白區(qū)域中的內(nèi)容進(jìn)行自動(dòng)識(shí)別,并將識(shí)別結(jié)果與該表格條目留白區(qū)域所對(duì)應(yīng)的表格條目關(guān)聯(lián)地存儲(chǔ)在存儲(chǔ)單元560 中。
[0050]如上參照附圖以示例的方式描述了根據(jù)本發(fā)明所述的。但是,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,對(duì)于上述本發(fā)明所提出的表格內(nèi)容自動(dòng)錄入方法和表格內(nèi)容自動(dòng)錄入裝置,還可以在不脫離本
【發(fā)明內(nèi)容】
的基礎(chǔ)上做出各種改進(jìn)。因此,本發(fā)明的保護(hù)范圍應(yīng)當(dāng)由所附的權(quán)利要求書的內(nèi)容確定。
【權(quán)利要求】
1.一種表格內(nèi)容自動(dòng)錄入方法,包括: a)對(duì)內(nèi)容待錄入表格進(jìn)行掃描以形成該表格的掃描圖像,并根據(jù)空白表格掃描圖像數(shù)據(jù)庫中的空白表格掃描圖像的類型識(shí)別特征對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類型識(shí)別以確定所述內(nèi)容待錄入表格的掃描圖像所對(duì)應(yīng)的空白表格掃描圖像; b)將所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像對(duì)齊,求得該兩個(gè)掃描圖像的差值圖像,并根據(jù)該空白表格掃描圖像中預(yù)先標(biāo)定的表格條目留白區(qū)域的原始位置在該差值圖像中標(biāo)定表格條目留白區(qū)域的原始位置; c)計(jì)算所述差值圖像中的所有表格條目留白區(qū)域的公共外部像素的像素值之和,并通過所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像的平移和轉(zhuǎn)動(dòng)來確定所述公共外部像素的像素值之和最小時(shí)所述表格條目留白區(qū)域所在的匹配位置; d)對(duì)處于匹配位置處的每個(gè)表格條目留白區(qū)域中的表格內(nèi)容進(jìn)行自動(dòng)識(shí)別,并將識(shí)別結(jié)果與該表格條目留白區(qū)域所對(duì)應(yīng)的表格條目關(guān)聯(lián)地存儲(chǔ)起來。
2.如權(quán)利要求1所述的表格內(nèi)容自動(dòng)錄入方法,其中,步驟a)中對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類型識(shí)別的方式包括自動(dòng)識(shí)別或人工識(shí)別或二者的結(jié)合。
3.如權(quán)利要求1所述的表格內(nèi)容自動(dòng)錄入方法,其中,求得所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像的差值圖像的步驟包括:求出對(duì)齊后的該兩個(gè)掃描圖像的對(duì)應(yīng)像素的像素值的差值,并以該差值作為所述差值圖像的相應(yīng)像素的像素值。
4.如權(quán)利要求1所述的表格內(nèi)容自動(dòng)錄入方法,其中,求得所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白 表格掃描圖像的差值圖像的步驟包括:求出對(duì)齊后的該兩個(gè)掃描圖像的對(duì)應(yīng)像素的像素值的差值,如果該差值小于第一閾值,則所述差值圖像的相應(yīng)像素的像素值為O,如果該差值大于第一閾值,則所述差值圖像的相應(yīng)像素的像素值為I。
5.如權(quán)利要求1所述的表格內(nèi)容自動(dòng)錄入方法,其中,所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像的平移和轉(zhuǎn)動(dòng)包括:所述差值圖像中的所有表格條目留白區(qū)域相對(duì)于該差值圖像的整體平移和轉(zhuǎn)動(dòng)。
6.如權(quán)利要求5所述的表格內(nèi)容自動(dòng)錄入方法,其中,所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像的平移和轉(zhuǎn)動(dòng)還包括:所述差值圖像中的每個(gè)表格條目留白區(qū)域相對(duì)于該差值圖像的單獨(dú)平移和轉(zhuǎn)動(dòng)。
7.如權(quán)利要求1所述的表格內(nèi)容自動(dòng)錄入方法,其中,如果步驟d)中的識(shí)別結(jié)果為不可識(shí)別,則該方法還包括對(duì)該表格條目留白區(qū)域中的表格內(nèi)容進(jìn)行人工錄入。
8.一種表格內(nèi)容自動(dòng)錄入裝置,包括:掃描成像單元、識(shí)別單元、差值圖像形成單元、計(jì)算單元、表格條目留白區(qū)域匹配單元、存儲(chǔ)單元,其中, 所述掃描成像單元對(duì)內(nèi)容待錄入表格進(jìn)行掃描以形成該表格的掃描圖像,所述識(shí)別單元根據(jù)空白表格掃描圖像數(shù)據(jù)庫中的空白表格掃描圖像的特征對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類型識(shí)別以確定所述內(nèi)容待錄入表格的掃描圖像所對(duì)應(yīng)的空白表格掃描圖像; 所述差值圖像形成單元將所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像對(duì)齊,求得該兩個(gè)掃描圖像的差值圖像,并根據(jù)該空白表格掃描圖像中預(yù)先標(biāo)定的表格條目留白區(qū)域的原始位置在該差值圖像中標(biāo)定表格條目留白區(qū)域的原始位置; 所述計(jì)算單元計(jì)算所述差值圖像中的所有表格條目留白區(qū)域的公共外部像素的像素值之和,所述表格條目留白區(qū)域匹配單元使所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像平移和轉(zhuǎn)動(dòng),并根據(jù)所述計(jì)算單元的計(jì)算結(jié)果確定所述公共外部像素的像素值之和最小時(shí)所述表格條目留白區(qū)域所在的匹配位置; 所述識(shí)別單元對(duì) 處于所述匹配位置處的每個(gè)表格條目留白區(qū)域中的表格內(nèi)容進(jìn)行自動(dòng)識(shí)別,并將識(shí)別結(jié)果與該表格條目留白區(qū)域所對(duì)應(yīng)的表格條目關(guān)聯(lián)地存儲(chǔ)在所述存儲(chǔ)單元中。
【文檔編號(hào)】G06K9/20GK103902995SQ201410097831
【公開日】2014年7月2日 申請(qǐng)日期:2014年3月17日 優(yōu)先權(quán)日:2014年3月17日
【發(fā)明者】喬?hào)|江, 吳晨 申請(qǐng)人:西安匯龍科技股份有限公司