本發(fā)明涉及票據(jù)識別
技術(shù)領(lǐng)域:
,尤其涉及一種利用基本語料庫輔助進行票據(jù)字符識別的方法和裝置。
背景技術(shù):
:現(xiàn)在的光學字符識別系統(tǒng),是通過行切分及列切分,逐一將待識別字符串圖像切分成單個字符、單元圖像塊后進行識別,對于識別包括若干粘連字符、中英文混排字符等情況,需要在切分時找到圖像塊的特征數(shù)據(jù)再進行處理切分,或依賴于字符識別反饋機制,來提高識別率。上述字符識別方法的缺點為:不能保證常用字符特別是形似字和生僻字的正確識別,影響識別率。改進的字符識別方法就是使用語料庫輔助ocr(opticalcharacterrecognition,光學字符識別)識別,從而提高識別率。語料庫是指經(jīng)科學取樣和加工的大規(guī)模電子文本庫,目前主要是基于n-gram語言模型構(gòu)建的各種改進的固定語料庫。上述改進的字符識別方法的問題為:模型空間復(fù)雜度太高,且語料庫的構(gòu)建工作龐大,語料庫固定很難改進和吸收新鮮詞匯;另外還有運用基于互聯(lián)網(wǎng)接口的語料庫,不需要存儲固定的語料庫,直接通過互聯(lián)網(wǎng)搜索的方式進行輔助識別,但缺點是聯(lián)網(wǎng)搜索的耗時太長。技術(shù)實現(xiàn)要素:本發(fā)明的實施例提供了一種利用基本語料庫輔助進行票據(jù)字符識別的方法和裝置,以實現(xiàn)有效地進行票據(jù)字符識別。為了實現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案。一種利用基本語料庫輔助進行票據(jù)字符識別的方法,其特征在于,根據(jù)已知的票據(jù)字符識別的錯誤信息構(gòu)建基本語料庫,所述方法具體包括:采用掃描儀掃描采集票據(jù)上的密文數(shù)據(jù)和明文圖像,通過ocr識別將所述明文圖像轉(zhuǎn)換成識別數(shù)據(jù),對所述密文數(shù)據(jù)進行解密,得到解密數(shù)據(jù);將所述識別數(shù)據(jù)和所述解密數(shù)據(jù)進行比對,如果所述識別數(shù)據(jù)與所述解密數(shù)據(jù)之間的比對結(jié)果為不一致,則確認所述識別數(shù)據(jù)錯誤,利用所述基本語料庫對所述識別數(shù)據(jù)進行修正。進一步的,所述的根據(jù)已知的票據(jù)字符識別的錯誤信息構(gòu)建基本語料庫,包括:根據(jù)先驗知識收集票據(jù)字符識別的錯誤信息,根據(jù)收集的信息構(gòu)建基本語料庫,所述基本語料庫中包括多條記錄,每條記錄中包括正確字符、識別錯誤字符和識別錯誤數(shù),每個正確字符按識別率只記錄識別錯誤數(shù)最高的前若干位的識別錯誤字符。進一步的,所述的方法還包括:定期對各處匯總的票據(jù)識別錯誤信息進行統(tǒng)計,將該段時間內(nèi)新增的票據(jù)字符的識別錯誤信息添加到所述基本語料庫中,再按照錯誤識別率和容錯機制精簡出實際使用的基本語料庫,并進行定期下載更新到本地。進一步的,所述的利用所述基本語料庫對所述識別數(shù)據(jù)進行修正包括:在確定所述識別數(shù)據(jù)錯誤后,根據(jù)實際修正精度要求設(shè)置對所述識別數(shù)據(jù)進行修正的識別錯誤數(shù)閾值;提取出所述識別數(shù)據(jù)中識別錯誤的字符,提取所述解密數(shù)據(jù)中所述識別錯誤的字符對應(yīng)的解密字符,依據(jù)所述識別錯誤的字符和對應(yīng)的解密字符查詢所述基本語料庫,當在所述基本語料庫中查詢到包含所述識別錯誤的字符 和對應(yīng)的解密字符的記錄,并且所述記錄中的識別錯誤數(shù)大于所述識別錯誤數(shù)閾值,則將所述識別錯誤的字符修正為所述對應(yīng)的解密字符,將所述記錄中記載的識別錯誤數(shù)加一。進一步的,所述的方法還包括:當在所述基本語料庫中沒有查詢到包含識別錯誤的字符和對應(yīng)的解密字符的記錄,或者查詢到的記錄中的識別錯誤數(shù)小于識別錯誤數(shù)閾值,則對照票面明文信息對識別錯誤的字符進行手工修改。進一步的,包括:基本語料庫構(gòu)建模塊,用于根據(jù)已知的票據(jù)字符識別的錯誤信息構(gòu)建基本語料庫;數(shù)據(jù)轉(zhuǎn)換模塊,用于采用掃描儀掃描采集票據(jù)上的密文數(shù)據(jù)和明文圖像,通過ocr識別將所述明文圖像轉(zhuǎn)換成識別數(shù)據(jù),對所述密文數(shù)據(jù)進行解密,得到解密數(shù)據(jù);數(shù)據(jù)比對模塊,用于將所述識別數(shù)據(jù)和解密數(shù)據(jù)進行比對,如果識別數(shù)據(jù)與解密數(shù)據(jù)之間的比對結(jié)果為不一致,則確認所述識別數(shù)據(jù)錯誤;數(shù)據(jù)修正模塊,用于利用所述基本語料庫對所述識別數(shù)據(jù)進行修正。進一步的,所述的基本語料庫構(gòu)建模塊,用于根據(jù)先驗知識收集票據(jù)字符識別的錯誤信息,根據(jù)收集的信息構(gòu)建基本語料庫,所述基本語料庫中包括多條記錄,每條記錄中包括正確字符、識別錯誤字符和識別錯誤數(shù),每個正確字符按識別率只記錄識別錯誤數(shù)最高的前若干位的識別錯誤字符。進一步的,所述的基本語料庫構(gòu)建模塊,用于定期對各處匯總的票據(jù)識別錯誤信息進行統(tǒng)計,將該段時間內(nèi)新增的識別錯誤信息添加到所述基本語料庫中,再按照錯誤識別率和容錯機制精簡出實際使用的基本語料庫,并進行定期下載更新到本地。進一步的,所述的數(shù)據(jù)轉(zhuǎn)換模塊,用于在確定所述識別數(shù)據(jù)錯誤后,根據(jù)實際修正精度要求設(shè)置對所述識別數(shù)據(jù)進行修正的識別錯誤數(shù)閾值;提取出所述識別數(shù)據(jù)中識別錯誤的字符,提取所述解密數(shù)據(jù)中所述識別錯誤的字符對應(yīng)的解密字符,依據(jù)所述識別錯誤的字符和對應(yīng)的解密字符查詢所述基本語料庫,當在所述基本語料庫中查詢到包含所述識別錯誤的字符和對應(yīng)的解密字符的記錄,并且所述記錄中的識別錯誤數(shù)大于所述識別錯誤數(shù)閾值,則將所述識別錯誤的字符修正為所述對應(yīng)的解密字符,將所述記錄中記載的識別錯誤數(shù)加一。進一步的,所述的數(shù)據(jù)修正模塊,用于當在所述基本語料庫中沒有查詢到包含識別錯誤的字符和對應(yīng)的解密字符的記錄,或者查詢到的記錄中的識別錯誤數(shù)小于識別錯誤數(shù)閾值,則對照票面明文信息對識別錯誤的字符進行手工修改。由上述本發(fā)明的實施例提供的技術(shù)方案可以看出,本發(fā)明實施例提供的利用基本語料庫輔助進行票據(jù)字符識別的方法對于ocr識別錯誤的字符,將其與語料庫中的正確字符和相應(yīng)的識別錯誤版本進行匹配,完全匹配時進行替換處理,可有效的避免常用字符識別錯誤的情況,提高識別率。定期更新語料庫既可以保持語料庫與時俱進,又不需要占用太多內(nèi)存空間,降低查找難道,提高輔助識別的有效性和時效性。本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。附圖說明為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的 前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例一提供的一種利用基本語料庫輔助進行票據(jù)字符識別的方法的處理流程圖;圖2為本發(fā)明實施例二提供的一種利用基本語料庫輔助進行票據(jù)字符識別的裝置,圖中,基本語料庫構(gòu)建模塊21,數(shù)據(jù)轉(zhuǎn)換模塊22,數(shù)據(jù)比對模塊23和數(shù)據(jù)修正模塊24。具體實施方式下面詳細描述本發(fā)明的實施方式,所述實施方式的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。本
技術(shù)領(lǐng)域:
技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項的任一單元和全部組合。本
技術(shù)領(lǐng)域:
技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學術(shù)語)具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一 樣定義,不會用理想化或過于正式的含義來解釋。為便于對本發(fā)明實施例的理解,下面將結(jié)合附圖以幾個具體實施例為例做進一步的解釋說明,且各個實施例并不構(gòu)成對本發(fā)明實施例的限定。實施例一本發(fā)明實施例的目的在于找到一種輔助ocr識別的語料庫構(gòu)建方式,使得在不占用用戶過多空間、不影響字符識別速度的前提下,提高票據(jù)字符識別率,減少用戶手工修改識別錯誤字符的工作。該實施例提供了一種利用基本語料庫輔助進行票據(jù)字符識別的方法的處理流程如圖1所示,包括如下的處理步驟:步驟1、首先收集前期票據(jù)字符識別的錯誤信息,構(gòu)建基本語料庫。語料庫中分別記錄正確字符、識別錯誤字符和識別錯誤數(shù),每個正確字符按識別率只記錄錯誤率高的前若干位的錯誤字符。語料庫存儲格式:索引項正確字符識別錯誤字符識別錯誤數(shù)1白自2752白日1993白臼844白口55……步驟2、票據(jù)認證:利用高速掃描儀自動采集票據(jù)上的密文和明文圖像,ocr識別用于獲取票據(jù)的明文信息,通過ocr程序?qū)γ魑膱D像進行識別,將明 文圖像轉(zhuǎn)換成識別數(shù)據(jù),并保存識別數(shù)據(jù)。然后,對票據(jù)密文進行解密,得到解密數(shù)據(jù)。再將所述識別數(shù)據(jù)和解密數(shù)據(jù)進行比對,根據(jù)比對結(jié)果來判別票據(jù)的真?zhèn)?。如果識別數(shù)據(jù)與解密數(shù)據(jù)之間的比對結(jié)果為不一致,則認為票據(jù)識別錯誤,需要提示用戶按照票面的明文信息進行修正;如果識別數(shù)據(jù)與解密數(shù)據(jù)之間的比對結(jié)果為一致,則認為票據(jù)識別正確,是真票據(jù)。步驟3、針對識別錯誤的字符,采用語料庫輔助識別的方式,對識別結(jié)果進行進一步的糾錯和修改。在確定識別數(shù)據(jù)錯誤后,根據(jù)實際的修正精度要求,設(shè)置對所述識別數(shù)據(jù)進行修正的識別錯誤數(shù)閾值。提取出識別數(shù)據(jù)中識別錯誤的字符,提取所述解密數(shù)據(jù)中所述識別錯誤的字符對應(yīng)的解密字符,依據(jù)所述識別錯誤的字符和對應(yīng)的解密字符查詢所述基本語料庫,當在所述基本語料庫中查詢到包含所述識別錯誤的字符和對應(yīng)的解密字符的記錄,并且所述記錄中的識別錯誤數(shù)大于所述識別錯誤數(shù)閾值,即記錄中記載的識別錯誤字符和上述對應(yīng)的識別錯誤的字符相同,記錄中記載的正確字符和上述對應(yīng)的解密字符相同,則將所述識別錯誤的字符修正為所述對應(yīng)的解密字符。然后,將所述記錄中記載的識別錯誤數(shù)加一。從而減少了識別錯誤字符的數(shù)量,提高了識別率。步驟4、人工校正。當在基本語料庫中沒有查詢到包含識別錯誤的字符和對應(yīng)的解密字符的記錄,或者查詢到的記錄中的識別錯誤數(shù)小于識別錯誤數(shù)閾值,則需要提示用戶對照票面明文信息對識別錯誤的字符進行手工修改,直到用戶將識別錯誤信息完全修改正確為止,票據(jù)才能認證通過。步驟5、保存票據(jù)信息。當票據(jù)認證結(jié)束后,將票據(jù)信息和記錄的識別錯誤信息一并傳給后臺。步驟6、后臺數(shù)據(jù)庫存儲。后臺將票據(jù)的各項信息保存到數(shù)據(jù)庫中,以備后續(xù)處理。作為語料庫數(shù)據(jù)來源,留存后臺備用。步驟7、后臺定期整理語料庫并更新。讓后臺定期對各處匯總的票據(jù)識別錯誤信息進行統(tǒng)計,將該段時間內(nèi)新增的識別錯誤信息添加到后臺的基礎(chǔ)語料庫中,再按照錯誤識別率和容錯機制精簡出實際使用的語料庫,并進行定期下載更新到本地。其中:基礎(chǔ)數(shù)據(jù)庫提煉實際使用語料庫實施例二該實施例提供了一種利用基本語料庫輔助進行票據(jù)字符識別的裝置,其具體實現(xiàn)結(jié)構(gòu)如圖2所示,具體可以包括如下的模塊:基本語料庫構(gòu)建模塊21,用于根據(jù)已知的票據(jù)字符識別的錯誤信息構(gòu)建基本語料庫;數(shù)據(jù)轉(zhuǎn)換模塊22,用于采用掃描儀掃描采集票據(jù)上的密文數(shù)據(jù)和明文圖像,通過ocr識別將所述明文圖像轉(zhuǎn)換成識別數(shù)據(jù),對所述密文數(shù)據(jù)進行解 密,得到解密數(shù)據(jù);數(shù)據(jù)比對模塊23,用于將所述識別數(shù)據(jù)和解密數(shù)據(jù)進行比對,如果識別數(shù)據(jù)與解密數(shù)據(jù)之間的比對結(jié)果為不一致,則確認所述識別數(shù)據(jù)錯誤;數(shù)據(jù)修正模塊24,用于利用所述基本語料庫對所述識別數(shù)據(jù)進行修正。進一步地,所述的基本語料庫構(gòu)建模塊21,用于根據(jù)先驗知識收集票據(jù)字符識別的錯誤信息,根據(jù)收集的信息構(gòu)建基本語料庫,所述基本語料庫中包括多條記錄,每條記錄中包括正確字符、識別錯誤字符和識別錯誤數(shù),每個正確字符按識別率只記錄識別錯誤數(shù)最高的前若干位的識別錯誤字符。定期對各處匯總的票據(jù)識別錯誤信息進行統(tǒng)計,將該段時間內(nèi)新增的識別錯誤信息添加到所述基本語料庫中,再按照錯誤識別率和容錯機制精簡出實際使用的基本語料庫,并進行定期下載更新到本地。進一步地,所述的數(shù)據(jù)轉(zhuǎn)換模塊22,用于在確定所述識別數(shù)據(jù)錯誤后,根據(jù)實際修正精度要求設(shè)置對所述識別數(shù)據(jù)進行修正的識別錯誤數(shù)閾值;提取出所述識別數(shù)據(jù)中識別錯誤的字符,提取所述解密數(shù)據(jù)中所述識別錯誤的字符對應(yīng)的解密字符,依據(jù)所述識別錯誤的字符和對應(yīng)的解密字符查詢所述基本語料庫,當在所述基本語料庫中查詢到包含所述識別錯誤的字符和對應(yīng)的解密字符的記錄,并且所述記錄中的識別錯誤數(shù)大于所述識別錯誤數(shù)閾值,則將所述識別錯誤的字符修正為所述對應(yīng)的解密字符,將所述記錄中記載的識別錯誤數(shù)加一。進一步地,所述的數(shù)據(jù)修正模塊23,用于當在所述基本語料庫中沒有查詢到包含識別錯誤的字符和對應(yīng)的解密字符的記錄,或者查詢到的記錄中的識別錯誤數(shù)小于識別錯誤數(shù)閾值,則對照票面明文信息對識別錯誤的字符進行手工修改。用本發(fā)明實施例的裝置進行利用基本語料庫輔助進行票據(jù)字符識別的具 體過程與前述方法實施例類似,此處不再贅述。綜上所述,本發(fā)明實施例提供的利用基本語料庫輔助進行票據(jù)字符識別的方法對于ocr識別錯誤的字符,將其與語料庫中的正確字符和相應(yīng)的識別錯誤版本進行匹配,完全匹配時進行替換處理,可有效的避免常用字符識別錯誤的情況,提高識別率。定期更新語料庫既可以保持語料庫與時俱進,又不需要占用太多內(nèi)存空間,降低查找難道,提高輔助識別的有效性和時效性。本發(fā)明實施例在不占用太大空間且不影響識別效率的前提下,保證常用字符特別是常用形似字和生僻字識別結(jié)果的正確性,從而提高字符識別率,提高用戶的使用效果,減少用戶手工修改票面信息的幾率。本領(lǐng)域普通技術(shù)人員可以理解:附圖只是一個實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,后臺服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置或系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的裝置及系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元 上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域:
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)該以權(quán)利要求的保護范圍為準。當前第1頁12