專利名稱:一種文字編改系統(tǒng)及編改的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及掃描文檔的電子化,尤其涉及一種基于交互式版面分析的文字編改系統(tǒng)。
背景技術(shù):
目前流水線上涉及到圖像文字識(shí)別的主流工具有漢王、FineReader兩種,其中又以漢王軟件的使用最為廣泛。根據(jù)生產(chǎn)部門(mén)長(zhǎng)期使用的經(jīng)驗(yàn),這些工具在某些應(yīng)用中取得了非常好的效果,但同時(shí)又存在很大的不足,主要表現(xiàn)在漢王識(shí)別軟件對(duì)中文的支持相當(dāng)好,但在英文識(shí)別中表現(xiàn)不佳。FineReader對(duì)英文文獻(xiàn)識(shí)別效果非常好,但中文識(shí)別支持不好。單獨(dú)使用某種識(shí)別引擎會(huì)一方面增加編改字符的數(shù)量,影響編改效率的提升,另一方面由于編改字符的增加,在一致的編改錯(cuò)誤率下增加了錯(cuò)誤字符的數(shù)量,從而降低了最終產(chǎn)品的質(zhì)量。因此對(duì)于中英文混合的文獻(xiàn)不管選擇哪種識(shí)別工具都有各自的瓶頸,需要改進(jìn)編改系統(tǒng)。發(fā)明內(nèi)容
為解決上述中存在的問(wèn)題與缺陷,本發(fā)明提供了一種編改系統(tǒng)及編改方法,該系統(tǒng)和方法可以極大地提高編改效率、降低成本、提高質(zhì)量。所述技術(shù)方案如下
一種文字編改系統(tǒng),包括
所述系統(tǒng)包括版面分析模塊、版面加工模塊及編改合并模塊,所述
版面分析模塊,用于處理版面非文字內(nèi)容,并通過(guò)行列掃描分析出文檔中的每一單位塊,計(jì)算所述板塊的語(yǔ)種屬性;
版面加工模塊,用于輔助版面分析模塊,對(duì)需要交互式版面分析的單位塊及單位塊屬性進(jìn)行調(diào)整;
編改合并模塊,利用版面分析產(chǎn)生的文檔,按不同的語(yǔ)種進(jìn)行不同的識(shí)別和編改, 生成不同的編改文本,并將不同的編改文本進(jìn)行合并生成最終編改文本。
一種文字編改的方法,包括
對(duì)版面非文字內(nèi)容進(jìn)行處理;
通過(guò)行列掃描分析出文檔中的每一單位塊,并計(jì)算出所述單位塊的語(yǔ)種屬性;
對(duì)需要交互式版面分析的單位塊及單位塊屬性進(jìn)行調(diào)整;
通過(guò)不同的語(yǔ)種對(duì)文檔進(jìn)行不同的識(shí)別和編改,生成不同的編改文本,并將不同的編改文本進(jìn)行合并生成最終編改文本。
本發(fā)明提供的技術(shù)方案的有益效果是
可以極大地提高編改效率、降低成本、提高質(zhì)量;
通過(guò)交互式版面調(diào)整,整合各語(yǔ)種獨(dú)立的編改系統(tǒng),可快速、高質(zhì)的完成編改任務(wù),經(jīng)試驗(yàn)可得,根據(jù)本發(fā)明進(jìn)行編改,每年的成本可節(jié)約71. 6%。
圖I是文字編改系統(tǒng)結(jié)構(gòu)圖2是文字編改方法流程圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述
如圖I所示,為文字編改系統(tǒng)結(jié)構(gòu),包括版面分析模塊、版面加工模塊及編改合并豐吳塊,所述
版面分析模塊,用于處理版面非文字內(nèi)容,并通過(guò)行列掃描分析出文檔中的每一單位塊,計(jì)算所述板塊的語(yǔ)種屬性;
版面加工模塊,用于輔助版面分析模塊,對(duì)需要交互式版面分析的單位塊及單位塊屬性進(jìn)行調(diào)整;
編改合并模塊,利用版面分析產(chǎn)生的文檔,按不同的語(yǔ)種進(jìn)行不同的識(shí)別和編改, 生成不同的編改文本,并將不同的編改文本進(jìn)行合并生成最終編改文本。
上述版面非文字內(nèi)容的處理包括黑邊、雜質(zhì)及圖像中的非文字內(nèi)容等。
在處理完版面非文字內(nèi)容文檔中,為了對(duì)版面作出盡可能準(zhǔn)確的分析,采用如下算法
I)行掃描對(duì)圖像進(jìn)行逐行掃描,統(tǒng)計(jì)處每一行的像素點(diǎn)個(gè)數(shù),利用其統(tǒng)計(jì)特征, 得到每一行的上下邊界。
2)列掃描對(duì)每一行進(jìn)行列掃描,統(tǒng)計(jì)出每一列的像素點(diǎn)個(gè)數(shù),利用其統(tǒng)計(jì)特征, 得到每一行的左右邊界,從而得到每一單位塊。
3)單位塊語(yǔ)種的識(shí)別對(duì)每行文件進(jìn)行簡(jiǎn)單識(shí)別處理,分析出中英文語(yǔ)種的特征,如中英文文字的長(zhǎng)寬比特征等。
4)后處理個(gè)性化處理不同類型的文獻(xiàn)。
交互式版面分析
經(jīng)過(guò)自動(dòng)版面分析之后,對(duì)于大部分排版較好的文檔,處理結(jié)果基本可以接受,但對(duì)于一些版式較亂、較復(fù)雜的文檔,需要輔助一定的交互式版面分析,即調(diào)整版面的單位塊、每塊的語(yǔ)種等其它屬性,確保最后版面分析的正確性。
按語(yǔ)種識(shí)別編改
經(jīng)過(guò)交互式版面分析后按語(yǔ)種形式的文檔,提交給各自的編改系統(tǒng);對(duì)用中文部分,采用漢王和文通識(shí)別,不一致的部分拋出編改;對(duì)于英文部分,采用FineReader和文通識(shí)別,不一致的部分拋出編改。
編改結(jié)果合并
將不同的編改文本進(jìn)行合并生成最終的編改結(jié)果。
如圖2所示,為文字編改方法,該方法包括
對(duì)版面非文字內(nèi)容進(jìn)行處理;
通過(guò)行列掃描分析出文檔中的每一單位塊,并計(jì)算出所述單位塊的語(yǔ)種屬性;
對(duì)需要交互式版面分析的單位塊及單位塊屬性進(jìn)行調(diào)整;
通過(guò)不同的語(yǔ)種對(duì)文檔進(jìn)行不同的識(shí)別和編改,生成不同的編改文本,并將不同的編改文本進(jìn)行合并生成最終編改文本。
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種文字編改系統(tǒng),其特征在于,所述系統(tǒng)包括版面分析模塊、版面加工模塊及編改合并模塊,所述 版面分析模塊,用于處理版面非文字內(nèi)容,并通過(guò)行列掃描分析出文檔中的每一單位塊,分析單位塊的排列屬性,計(jì)算所述單位塊的語(yǔ)種屬性,形成文檔的整體版面; 版面加工模塊,用于輔助版面分析模塊,對(duì)版面分析所得的單位塊及單位塊屬性進(jìn)行調(diào)整; 編改合并模塊,利用版面分析產(chǎn)生的文檔,按不同的語(yǔ)種進(jìn)行不同的識(shí)別和編改,生成不同的編改文本,并將不同的編改文本進(jìn)行合并生成最終編改文本。
2.根據(jù)權(quán)利要求I所述的文字編改系統(tǒng),其特征在于,所述版面分析模塊包括預(yù)處理單元和自動(dòng)版面分析單元;所述版面加工模塊包括交互式版面分析單元;所述編改合并模塊包括識(shí)別編改單元和編改結(jié)果合并單元。
3.根據(jù)權(quán)利要求I所述的文字編改系統(tǒng),其特征在于,根據(jù)所述行掃描得到每行的有效像素點(diǎn)個(gè)數(shù),并對(duì)有效像素點(diǎn)個(gè)數(shù)的分布進(jìn)行統(tǒng)計(jì)得到每行的上下邊界。
4.根據(jù)權(quán)利要求I所述的文字編改系統(tǒng),其特征在于,所述列掃描是對(duì)每一行進(jìn)行列掃描,統(tǒng)計(jì)處每一列的像素點(diǎn)個(gè)數(shù),并對(duì)像素點(diǎn)個(gè)數(shù)特征進(jìn)行統(tǒng)計(jì)得到每行的左右邊界。
5.根據(jù)權(quán)利要求3或4所述的文字編改系統(tǒng),其特征在于,根據(jù)所述行的上下邊界和左右邊界得到所述文檔單位塊。
6.一種文字編改的方法,其特征在于,所述方法包括 對(duì)版面非文字內(nèi)容進(jìn)行處理; 通過(guò)行列掃描分析出文檔中的每一單位塊,并計(jì)算出所述單位塊的語(yǔ)種屬性; 對(duì)需要交互式版面分析的單位塊及單位塊屬性進(jìn)行調(diào)整; 通過(guò)不同的語(yǔ)種對(duì)文檔進(jìn)行不同的識(shí)別和編改,生成不同的編改文本,并將不同的編改文本進(jìn)行合并生成最終編改文本。
7.根據(jù)權(quán)利要求6所述的文字編改系統(tǒng),其特征在于,所述行掃描得到每行的有效像素點(diǎn)個(gè)數(shù),并對(duì)有效像素點(diǎn)個(gè)數(shù)的分布進(jìn)行統(tǒng)計(jì)得到每行的上下邊界; 所述列掃描是對(duì)每一行進(jìn)行列掃描,統(tǒng)計(jì)處每一列的像素點(diǎn)個(gè)數(shù),并對(duì)像素點(diǎn)個(gè)數(shù)特征進(jìn)行統(tǒng)計(jì)得到每行的左右邊界。
8.根據(jù)權(quán)利要求7所述的文字編改系統(tǒng),其特征在于,根據(jù)所述行的上下邊界和左右邊界得到所述文檔單位塊。
全文摘要
本發(fā)明公開(kāi)了一種文字編改系統(tǒng)及編改的方法,所述系統(tǒng)包括版面分析模塊、版面加工模塊及編改合并模塊,所述版面分析模塊,用于處理版面非文字內(nèi)容,并通過(guò)行列掃描分析出文檔中的每一單位塊,計(jì)算所述板塊的語(yǔ)種屬性;版面加工模塊,用于輔助版面分析模塊,對(duì)需要交互式版面分析的單位塊及單位塊屬性進(jìn)行調(diào)整;編改合并模塊,利用版面分析產(chǎn)生的文檔,按不同的語(yǔ)種進(jìn)行不同的識(shí)別和編改,生成不同的編改文本,并將不同的編改文本進(jìn)行合并生成最終編改文本。本發(fā)明可以極大地提高編改效率、降低成本、提高質(zhì)量;通過(guò)交互式版面調(diào)整,整合各語(yǔ)種獨(dú)立的編改系統(tǒng),可快速、高質(zhì)的完成編改任務(wù),經(jīng)試驗(yàn)可得,根據(jù)本發(fā)明進(jìn)行編改,每年的成本可節(jié)約71.6%。
文檔編號(hào)G06K9/20GK102929843SQ201210338739
公開(kāi)日2013年2月13日 申請(qǐng)日期2012年9月14日 優(yōu)先權(quán)日2012年9月14日
發(fā)明者王艷, 瞿洋, 梁洵, 袁仁慧 申請(qǐng)人:《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)》電子雜志社