亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文字識(shí)別、編改的系統(tǒng)的制作方法

文檔序號(hào):6607696閱讀:352來(lái)源:國(guó)知局
專利名稱:文字識(shí)別、編改的系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及涉及文檔電子化過(guò)程中文字識(shí)別及編改的系統(tǒng),尤其涉及中文印刷體 識(shí)別與編改的系統(tǒng)。
背景技術(shù)
在紙制文件電子化的過(guò)程中,OCR識(shí)別后的文字編改工作耗費(fèi)了極大的人力,它是 一項(xiàng)人力密集性工作,勞動(dòng)強(qiáng)度也很高。目前的應(yīng)用現(xiàn)狀是用普通OCR軟件進(jìn)行圖像識(shí) 別,再進(jìn)行一次編改校正,在保證每人8萬(wàn)字/8小時(shí)正常編改的速度下,編改的錯(cuò)誤率通常 也會(huì)超過(guò)1/1000。

發(fā)明內(nèi)容
為解決現(xiàn)有的人工編改效率低,錯(cuò)誤率高的現(xiàn)狀,本發(fā)明提供了一種文字識(shí)別、編 改的系統(tǒng)。該系統(tǒng)可以極大地提高人工編改的效率,降低成本,所述技術(shù)方案如下文字識(shí)別、編改的系統(tǒng),包括雙路識(shí)別單元,調(diào)用識(shí)別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別;流控處理單元,對(duì)待識(shí)別的文檔圖像進(jìn)行段落切圖,對(duì)識(shí)別后的不同的文字進(jìn)行 編改校對(duì)并進(jìn)行質(zhì)檢;后續(xù)加工處理單元,對(duì)其發(fā)現(xiàn)的錯(cuò)誤進(jìn)行改正并返還到發(fā)現(xiàn)錯(cuò)誤的執(zhí)行者。本發(fā)明提供的技術(shù)方案的有益效果是通過(guò)本發(fā)明對(duì)正常的漢字為主體的文檔其編改的效率可以提高7倍以上,達(dá)到70 萬(wàn)字/8小時(shí);同時(shí)編改錯(cuò)誤率降低60 %,達(dá)到4/10000以下。


圖1是本發(fā)明基于網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)的流程化加工系統(tǒng)圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述本實(shí)施例提供了一種文字識(shí)別、編改的系統(tǒng),該系統(tǒng)包括該系統(tǒng)包括雙路識(shí)別單 元、流控處理單元及后續(xù)加工處理單元,其中雙路識(shí)別單元,調(diào)用識(shí)別軟件并采用外掛的方 式對(duì)文檔中的文字進(jìn)行識(shí)別;流控處理單元,對(duì)待識(shí)別的文檔圖像進(jìn)行段落切圖,對(duì)識(shí)別后 的不同的文字進(jìn)行編改校對(duì)并進(jìn)行質(zhì)檢;后續(xù)加工處理單元,對(duì)其發(fā)現(xiàn)的錯(cuò)誤進(jìn)行改正并 返還到發(fā)現(xiàn)錯(cuò)誤的執(zhí)行者。上述外掛識(shí)別就是不改變?cè)瓉?lái)的OCR識(shí)別軟件,編寫新程序模 擬人工操作OCR識(shí)別軟件的過(guò)程,以便完成圖像識(shí)別工作。外掛程序和OCR程序是各自獨(dú) 立運(yùn)行的軟件。外掛程序識(shí)別圖像不需要OCR程序的識(shí)別接口,外掛程序利用OCR程序進(jìn) 行圖像識(shí)別。
上述雙路識(shí)別單元包括識(shí)別機(jī)器人與機(jī)器人智能監(jiān)控程序,其中,識(shí)別機(jī)器人采 用漢王OCR識(shí)別軟件和文通OCR識(shí)別軟件通過(guò)外掛的方式對(duì)待識(shí)別的文檔圖像進(jìn)行識(shí)別, 對(duì)其識(shí)別的結(jié)果進(jìn)行比較,并將二者不一致的字拋出編改。機(jī)器人智能監(jiān)控程序,監(jiān)控識(shí)別機(jī)器人的運(yùn)行狀態(tài),如果有異常則重啟機(jī)器人,嚴(yán) 重問(wèn)題則重啟操作系統(tǒng)并啟動(dòng)機(jī)器人,以保證識(shí)別機(jī)器人持續(xù)、穩(wěn)定運(yùn)行。本系統(tǒng)采用的漢王OCR識(shí)別軟件和文通OCR識(shí)別軟件具有很強(qiáng)的互補(bǔ)性,我們利 用其識(shí)別結(jié)果并進(jìn)行單行逐字比對(duì),過(guò)濾出具有相同的識(shí)別結(jié)果的字,不交給人工進(jìn)行編 改,將識(shí)別不同的字交給人工進(jìn)行編改校對(duì)。上述流控處理單元包括切圖模塊、縱編模塊、橫編模塊及質(zhì)檢模塊,其中,切圖模 塊,對(duì)待識(shí)別的文檔圖像進(jìn)行段落切圖,以保證雙路OCR識(shí)別軟件具有相同的版面分析結(jié) 果。其切圖順序遵照文章段落的自然順序,并提供傾斜校正、去噪、二值化等圖像處理功能。 縱編模塊,以每人每天的編改效率(例如70萬(wàn)字)為參考標(biāo)準(zhǔn)組織編改任務(wù)批次,將同一 批次的需要縱編的文字以字為單位重新組合進(jìn)行編改。對(duì)雙路識(shí)別有矛盾且重復(fù)出現(xiàn)兩次 以上的字先交給人工進(jìn)行縱向編改校對(duì)。所有需縱編的字都在段落中標(biāo)紅,編過(guò)的字標(biāo)藍(lán), 且圖文對(duì)照。按70萬(wàn)字一批形成任務(wù)批次,基本保證該批次在一天內(nèi)完成。正常情況下, 該過(guò)程的編改量只占全部應(yīng)編改工作量的5%。縱編有效地提高了編改效率,減輕編改勞 動(dòng)強(qiáng)度。為了提高系統(tǒng)整體的正確率,我們還主動(dòng)加入了一些易混字和易錯(cuò)字,對(duì)他們?nèi)?進(jìn)行縱編。如“人”、“入”、“一”、“二”、“卜”、“白”、“· ”、“兒”等二十個(gè)字。橫編模塊,在縱編 的基礎(chǔ)上對(duì)需要編改的文字以文檔的自然順序進(jìn)行圖文對(duì)照編改。所有需橫編的文字都在 段落中標(biāo)紅,已縱編的字都在段落中標(biāo)綠,編過(guò)的字標(biāo)藍(lán),且圖文對(duì)照,在正常情況下,該過(guò) 程的編改量小于全部應(yīng)編改工作量的1 %,在編改的過(guò)程中,要求編改者同時(shí)檢查段落的正 確。質(zhì)檢模塊,按人按批按設(shè)定的比例進(jìn)行抽檢,對(duì)抽取的編改結(jié)果進(jìn)行質(zhì)量檢查,并下質(zhì) 檢結(jié)論。上述后續(xù)加工處理單元包括改錯(cuò)返工模塊及管理與監(jiān)控模塊,所述改錯(cuò)返工模 塊,對(duì)其雙路識(shí)別單元和流控處理模塊單元中的每個(gè)工作崗位發(fā)現(xiàn)的錯(cuò)誤以及質(zhì)檢結(jié)果為 返工的任務(wù),流程將任務(wù)分派給出現(xiàn)錯(cuò)誤的員工,錯(cuò)誤被改正后再將任務(wù)返回給發(fā)現(xiàn)錯(cuò)誤 的員。管理與監(jiān)控模塊,包括工資的結(jié)算、任務(wù)統(tǒng)計(jì)分析、任務(wù)優(yōu)先級(jí)調(diào)整、暫停加工及恢復(fù) 加工的功能。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
文字識(shí)別、編改的系統(tǒng),其特征在于,所述系統(tǒng)包括雙路識(shí)別單元,調(diào)用識(shí)別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別;流控處理單元,對(duì)待識(shí)別的文檔圖像進(jìn)行段落切圖,對(duì)識(shí)別后的不同的文字進(jìn)行縱向編改及橫向編改校對(duì)并進(jìn)行質(zhì)檢;后續(xù)加工處理單元,對(duì)其發(fā)現(xiàn)的錯(cuò)誤進(jìn)行改正并返還到發(fā)現(xiàn)錯(cuò)誤的執(zhí)行者。
2.根據(jù)權(quán)利要求1所述的文字識(shí)別、編改的系統(tǒng),其特征在于,所述雙路識(shí)別單元包括 識(shí)別機(jī)器人及機(jī)器人智能監(jiān)控程序,所述識(shí)別機(jī)器人,采用漢王OCR識(shí)別軟件和文通OCR識(shí)別軟件通過(guò)外掛的方式對(duì)待識(shí)別的 文檔圖像進(jìn)行識(shí)別;機(jī)器人智能監(jiān)控程序,監(jiān)控識(shí)別機(jī)器人的運(yùn)行狀態(tài)。
3.根據(jù)權(quán)利要求1所述的文字識(shí)別、編改的系統(tǒng),其特征在于,所述流控處理單元包括 切圖模塊、縱編模塊、橫編模塊及質(zhì)檢模塊,所述切圖模塊,對(duì)待識(shí)別的文檔圖像進(jìn)行段落切圖;縱編模塊,將同一批次的需要縱編的文字以字為單位重新組合進(jìn)行編改;橫編模塊,對(duì)需要編改的文字以文檔的自然順序進(jìn)行圖文對(duì)照編改;質(zhì)檢模塊,對(duì)抽取的編改結(jié)果進(jìn)行質(zhì)量檢查。
4.根據(jù)權(quán)利要求1所述的文字識(shí)別、編改的系統(tǒng),其特征在于,所述后續(xù)加工處理單元 包括改錯(cuò)返工模塊及管理與監(jiān)控模塊,所述改錯(cuò)返工模塊,對(duì)其雙路識(shí)別單元和流控處理模塊單元中發(fā)現(xiàn)的錯(cuò)誤進(jìn)行改正并返回 給發(fā)現(xiàn)錯(cuò)誤的執(zhí)行者;管理與監(jiān)控模塊,包括系統(tǒng)人工崗位員工的工資結(jié)算、在線任務(wù)加工情況的統(tǒng)計(jì)分析、 在線任務(wù)優(yōu)先級(jí)調(diào)整、加工任務(wù)的臨時(shí)暫停和恢復(fù)加工等功能。
5.根據(jù)權(quán)利要求1 4任一項(xiàng)所述的文字識(shí)別、編改的系統(tǒng),其特征在于,所述系統(tǒng)的 識(shí)別還包括對(duì)英文及其他字符的識(shí)別。
全文摘要
本發(fā)明公開了一種文字識(shí)別、編改的系統(tǒng),所述系統(tǒng)包括雙路識(shí)別單元,調(diào)用識(shí)別軟件并采用外掛的方式對(duì)文檔中的文字進(jìn)行識(shí)別;流控處理單元,對(duì)待識(shí)別的文檔圖像進(jìn)行段落切圖,對(duì)識(shí)別后的不同的文字進(jìn)行縱向編改及橫向編改校對(duì)并進(jìn)行質(zhì)檢;后續(xù)加工處理單元,對(duì)其發(fā)現(xiàn)的錯(cuò)誤進(jìn)行改正并返還到發(fā)現(xiàn)錯(cuò)誤的執(zhí)行者。通過(guò)本發(fā)明對(duì)正常的漢字為主體的文檔其編改的效率可以提高7倍以上,達(dá)到70萬(wàn)字/8小時(shí);同時(shí)編改錯(cuò)誤率降低60%,達(dá)到4/10000以下。
文檔編號(hào)G06T11/60GK101908147SQ201010253559
公開日2010年12月8日 申請(qǐng)日期2010年8月16日 優(yōu)先權(quán)日2010年8月16日
發(fā)明者張振海, 梁洵, 瞿洋, 袁仁慧 申請(qǐng)人:同方知網(wǎng)(北京)技術(shù)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1