專利名稱:輔助光學字符識別的方法和裝置的制作方法
技術領域:
本發(fā)明涉及光學字符識別(Optical Character Recognition, OCR)領域,具體而言,涉及一種輔助光學字符識別的方法和裝置。
背景技術:
現(xiàn)在的光學字符識別系統(tǒng),是通過行切分及列切分,逐一將待識別字符串圖像切分成單個字符單元圖像塊后進行識別,對于識別包括若干粘連字符、中英文混排字符等情況,需要在切分時找到圖像塊的特征數(shù)據再進行處理切分,或依賴于字符識別反饋機制,來提高識別率。目前的實現(xiàn)方法可以參考如下如專利申請CN200810101591. 6公開了一種利用漢字偏旁部首切分的方法,通過對文本圖像進行行切分和列切分,獲得若干個字符單元圖像塊,識別包含粘連字符的字符單元圖像塊,并繼續(xù)切分所述包含粘連字符的字符單元圖像塊,識別漢字字符單元圖像塊區(qū)域和英文字符單元圖像塊區(qū)域,并在所述漢字字符單元圖像塊區(qū)域中識別由漢字字符偏旁部首占用的字符單元圖像塊,將相鄰的漢字字符的偏旁部首占用的字符單元圖像塊合并為一個字符單元圖像塊。如專利申請CN200910159089. 5公開了一種利用標準字符長度切分的方法,包括 在字符串圖像中,針對多個字符取得對字符串方向的字符長度進行測定而得的測定字符長度;通過臨時匹配處理對測定字符長度內的字符進行臨時識別;根據能夠臨時識別的字符的測定字符長度來確定標準字符長度;根據標準字符長度,從字符串圖像中截取作為識別對象的全部字符;以及通過正式匹配處理對截取出的字符進行正式識別。專利申請CN200810080950. 4公開了一種利用分隔符切分的方法,其輸入包含字符串的字符串圖像,由該字符串圖像識別出所述字符串,其中該字符串被分隔符劃分為兩個以上的字段。專利申請CN200510090878. X公開了一種字符識別后自動糾錯的方法,對初始識別之后的錯誤內容進行自動糾正處理。首先,識別文檔中的字符,并獲取文檔中字符的候選字符及候選字符的相似度;而后,將候選字符相似度與預定閾值相比較確定被誤識的字符; 對于誤識字符的候選字符,形成至少包含所述候選字符的搜索詞,用所述搜索詞在已知的文本數(shù)據庫中搜索,從而獲得搜索詞的至少一種測量值;最后,用所獲得的測量值來計算誤識字符搜索詞的權值,比較誤識字符所有搜索詞的權值從而確定用來糾正所述誤識字符的正確字符?,F(xiàn)有技術中的光學字符識別方法不能保證字符切分結果的準確性,導致字符的識別率較低。
發(fā)明內容
本發(fā)明提供一種輔助光學字符識別的方法和裝置,用以提高光學字符識別中字符切分結果的準確性,提高字符的識別率。為達到上述目的,本發(fā)明提供了一種輔助光學字符識別的方法,該方法包括以下步驟生成用于表示待打印字符串的字符類型的格式信息串;保存該格式信息串;獲取該待打印字符串對應的待識別字符串圖像,并獲取該格式信息串;根據格式信息串對待識別字符串圖像進行切分,對切分后的待識別字符串圖像進行光學字符識別。本發(fā)明還提供了一種輔助光學字符識別的裝置,包括格式信息串模塊,用于生成用于表示待打印字符串的字符類型的格式信息串;保存模塊,用于保存該格式信息串;獲取模塊,用于獲取該待打印字符串對應的待識別字符串圖像,并獲取該格式信息串;切分模塊,用于根據格式信息串對待識別字符串圖像進行切分,并將切分后的待識別字符串圖像輸出到光學字符識別裝置進行光學字符識別。上述實施例在生成待打印字符串時生成相應的格式信息串,從而按照每個待識別字符串的字符類型準確地進行切分字符圖像,有效地避免了粘連字符、中英文混排字符等情況造成的切分錯誤,保證了字符切分結果的正確性,提高了光學字符識別的識別率,克服了現(xiàn)有技術中存在的問題。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。圖1是根據本發(fā)明一個實施例的輔助光學字符識別的方法流程圖;圖2是根據本發(fā)明一個實施例的生成格式信息串的流程圖;圖3是根據本發(fā)明一個實施例的輔助光學字符識別的裝置示意圖。
具體實施例方式下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有付出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖1是根據本發(fā)明一個實施例的輔助光學字符識別的方法流程圖,其包括以下步驟S102,生成用于表示待打印字符串的字符類型的格式信息串;S104,保存該格式信息串;S106,獲取該待打印字符串對應的待識別字符串圖像,并獲取該格式信息串;S108,根據格式信息串對待識別字符串圖像進行切分,對切分后的待識別字符串圖像進行光學字符識別。本實施例在生成待打印字符串時生成相應的格式信息串,從而按照每個待識別字符串的字符類型準確地進行切分字符圖像,有效地避免了粘連字符、中英文混排字符等情況造成的切分錯誤,保證了字符切分結果的正確性,提高了光學字符識別的識別率。
較佳的,生成用于表示待打印字符串的字符類型的格式信息串步驟包括分析待打印字符串中每個字符的字符類型(例如,可以將漢字和特殊字符作為雙字符,將數(shù)字和字母作為單字符);將待打印字符串中每個字符的字符類型進行組合,按照數(shù)據結構存儲得到格式信息串。分析待打印字符串,包括漢字、特殊字符、數(shù)字及英文字符,這些字符可以分為兩大類,以漢字及特殊字符為一類的雙字符,以數(shù)字及字母為一類的單字符,通過這個特征可以準確獲得切分信息。表 權利要求
1.一種輔助光學字符識別的方法,其特征在于,包括以下步驟 生成用于表示待打印字符串的字符類型的格式信息串; 保存所述格式信息串;獲取所述待打印字符串對應的待識別字符串圖像,并獲取所述格式信息串; 根據所述格式信息串對所述待識別字符串圖像進行切分,對切分后的所述待識別字符串圖像進行光學字符識別。
2.根據權利要求1所述的輔助光學字符識別的方法,其特征在于,生成用于表示待打印字符串的字符類型的格式信息串步驟包括分析待打印字符串中每個字符的字符類型;將待打印字符串中每個字符的字符類型進行組合,按照數(shù)據結構存儲得到格式信息串。
3.根據權利要求1或2所述的輔助光學字符識別的方法,其特征在于,保存所述格式信息串步驟包括將所述格式信息串保存在服務器上。
4.根據權利要求3所述的輔助光學字符識別的方法,其特征在于,獲取所述格式信息串步驟包括從所述服務器獲取所述格式信息串。
5.根據權利要求1或2所述的輔助光學字符識別的方法,其特征在于,保存所述格式信息串步驟包括在打印所述待打印字符串的頁面上,以條形碼或二維碼的形式打印所述格式信息串。
6.根據權利要求5所述的輔助光學字符識別的方法,其特征在于,獲取所述格式信息串步驟包括掃描所述條形碼或所述二維碼,得到所述格式信息串。
7.根據權利要求1或2所述的輔助光學字符識別的方法,其特征在于,保存所述格式信息串步驟包括在打印所述待打印字符串的頁面上的設定位置,直接打印所述格式信息串。
8.根據權利要求7所述的輔助光學字符識別的方法,其特征在于,獲取所述格式信息串步驟包括掃描所述頁面的設定位置并進行識別,得到所述格式信息串。
9.一種輔助光學字符識別的裝置,其特征在于,包括格式信息串模塊,用于生成用于表示待打印字符串的字符類型的格式信息串; 保存模塊,用于保存所述格式信息串;獲取模塊,用于獲取所述待打印字符串對應的待識別字符串圖像,并獲取所述格式信息串;切分模塊,用于根據所述格式信息串對所述待識別字符串圖像進行切分,并將切分后的所述待識別字符串圖像輸出到光學字符識別裝置進行光學字符識別。
10.根據權利要求9所述的輔助光學字符識別的裝置,其特征在于,格式信息串模塊包括分析單元,用于分析待打印字符串中每個字符的字符類型;生成單元,用于將所述待打印字符串中每個字符的字符類型進行組合,按照數(shù)據結構存儲得到格式信息串。
全文摘要
本發(fā)明公開了一種輔助光學字符識別的方法和裝置,其中該方法包括以下步驟生成用于表示待打印字符串的字符類型的格式信息串;保存該格式信息串;獲取該待打印字符串對應的待識別字符串圖像,并獲取該格式信息串;根據格式信息串對待識別字符串圖像進行切分,對切分后的待識別字符串圖像進行光學字符識別。
文檔編號G06K9/34GK102467664SQ20101053257
公開日2012年5月23日 申請日期2010年11月1日 優(yōu)先權日2010年11月1日
發(fā)明者李健, 甘景全, 謝宇, 陳江寧, 馬雁 申請人:航天信息股份有限公司