本發(fā)明屬于文檔處理技術(shù)領(lǐng)域,涉及一種合同內(nèi)容校閱裝置。
背景技術(shù):
銀行、保險(xiǎn)公司等機(jī)構(gòu)需要經(jīng)常與客戶(hù)簽訂合同。為了方便外地客戶(hù)簽訂,常見(jiàn)的做法是通過(guò)網(wǎng)絡(luò)將合同電子版發(fā)送給客戶(hù),讓客戶(hù)自行打印簽字后寄回。
在收到客戶(hù)寄回的紙質(zhì)合同時(shí),發(fā)出合同的機(jī)構(gòu)需要安排人員校閱紙質(zhì)合同的內(nèi)容是否和發(fā)送給客戶(hù)的電子文檔一致,確認(rèn)客戶(hù)未對(duì)合同內(nèi)容進(jìn)行篡改后才能夠進(jìn)行歸檔處理。
合同的頁(yè)數(shù)通常很多,內(nèi)容也較為復(fù)雜,因此人工校閱的工作量非常大。為了減少校閱人員的工作量,現(xiàn)有技術(shù)中出現(xiàn)了一些對(duì)原始合同和紙質(zhì)合同進(jìn)行機(jī)器校閱的設(shè)備。例如,利用光學(xué)字符識(shí)別(以下簡(jiǎn)稱(chēng)為ocr)裝置對(duì)紙質(zhì)合同的掃描文檔進(jìn)行文字識(shí)別得到相應(yīng)的電子文檔,然后將該電子文檔和原始合同的電子文檔進(jìn)行比對(duì),并將其中的差異處標(biāo)出以便校閱人員復(fù)查。
但是,上述機(jī)器校閱設(shè)備所采用的比對(duì)方式均為逐字比對(duì)或逐句比對(duì),一旦ocr裝置發(fā)生誤識(shí)別(例如空格數(shù)量誤識(shí)別、漏字、漏行等),該誤識(shí)別處后方的文字位置及排布就會(huì)受到影響,使得校閱設(shè)備產(chǎn)生誤判。因此,這樣的設(shè)備錯(cuò)誤率較高,使得復(fù)查的工作量仍然較大,難以減少校閱人員工作量的目的。
技術(shù)實(shí)現(xiàn)要素:
為解決上述問(wèn)題,提供一種錯(cuò)誤率較低,能夠減少校閱人員工作量的合同內(nèi)容校閱裝置,本發(fā)明采用了如下技術(shù)方案。
本發(fā)明提供了一種合同內(nèi)容校閱裝置,以發(fā)送給客戶(hù)的電子版原始合同作為標(biāo)準(zhǔn)文檔對(duì)客戶(hù)寄回的紙質(zhì)合同經(jīng)掃描得到的待校閱文檔進(jìn)行內(nèi)容校閱,其特征在于,包括:當(dāng)前頁(yè)設(shè)定部、當(dāng)前頁(yè)獲取部、當(dāng)前標(biāo)準(zhǔn)行設(shè)定部、當(dāng)前標(biāo)準(zhǔn)行抽取部、一致性判斷部、標(biāo)記賦予控制部、末行判斷部、未標(biāo)記判斷部、末頁(yè)判斷部以及文檔輸出部,其中,當(dāng)前頁(yè)設(shè)定部設(shè)定標(biāo)準(zhǔn)文檔中的預(yù)定頁(yè)面為當(dāng)前標(biāo)準(zhǔn)頁(yè),并設(shè)定待校閱文檔中與該預(yù)定頁(yè)面的頁(yè)碼相同的頁(yè)面為當(dāng)前待校閱頁(yè),當(dāng)前頁(yè)獲取部分別從標(biāo)準(zhǔn)文檔以及待校閱文檔中獲取當(dāng)前標(biāo)準(zhǔn)頁(yè)以及當(dāng)前待校閱頁(yè),當(dāng)前標(biāo)準(zhǔn)行設(shè)定部將當(dāng)前標(biāo)準(zhǔn)頁(yè)中的文字行按照行號(hào)順序分別依次設(shè)定為當(dāng)前標(biāo)準(zhǔn)行,當(dāng)前標(biāo)準(zhǔn)行抽取部從標(biāo)準(zhǔn)文檔中將當(dāng)前標(biāo)準(zhǔn)行抽出,一致性判斷部依據(jù)行號(hào)順序?qū)?dāng)前待校閱頁(yè)中的文字行逐行設(shè)定為待校閱行,并根據(jù)預(yù)定判斷規(guī)則對(duì)該待校閱行進(jìn)行一致性判斷處理用于判斷該待校閱行是否與當(dāng)前標(biāo)準(zhǔn)行一致,一旦存在一致的待校閱行時(shí),標(biāo)記賦予控制部對(duì)當(dāng)前標(biāo)準(zhǔn)行以及一致的待校閱行分別賦予一致性標(biāo)記,并控制當(dāng)前標(biāo)準(zhǔn)行設(shè)定部設(shè)定下一行為當(dāng)前標(biāo)準(zhǔn)行,當(dāng)不存在一致的待校閱行時(shí),標(biāo)記賦予控制部對(duì)當(dāng)前標(biāo)準(zhǔn)行賦予不存在標(biāo)記,并控制當(dāng)前標(biāo)準(zhǔn)行設(shè)定部設(shè)定下一行為當(dāng)前標(biāo)準(zhǔn)行,末行判斷部判斷當(dāng)前標(biāo)準(zhǔn)行是否為當(dāng)前標(biāo)準(zhǔn)頁(yè)中的最后一行,當(dāng)判斷為最后一行時(shí),未標(biāo)記判斷部判斷當(dāng)前待校閱頁(yè)中是否存在未標(biāo)記的待校閱行,當(dāng)判斷為不存在未標(biāo)記的待校閱行時(shí),末頁(yè)判斷部判斷當(dāng)前標(biāo)準(zhǔn)頁(yè)是否為標(biāo)準(zhǔn)文檔中的末頁(yè),當(dāng)判斷為不是末頁(yè)時(shí),當(dāng)前頁(yè)設(shè)定部設(shè)定標(biāo)準(zhǔn)文檔中的下一頁(yè)為當(dāng)前標(biāo)準(zhǔn)頁(yè),并設(shè)定待校閱文檔中的下一頁(yè)為當(dāng)前待校閱頁(yè),當(dāng)判斷為末頁(yè)時(shí),文檔輸出部對(duì)標(biāo)準(zhǔn)文檔及待校閱文檔連同標(biāo)記一起進(jìn)行輸出。
發(fā)明作用與效果
根據(jù)本發(fā)明提供的合同內(nèi)容校閱裝置,由于一致性判斷部能夠根據(jù)預(yù)定判斷規(guī)則判斷當(dāng)前待校閱頁(yè)中是否存在與當(dāng)前標(biāo)準(zhǔn)行一致的文字行,標(biāo)記賦予控制部能夠在存在一致的文字行時(shí)分別對(duì)當(dāng)前標(biāo)準(zhǔn)行和待校閱行賦予一致性標(biāo)記,在不存在時(shí)對(duì)當(dāng)前標(biāo)準(zhǔn)行賦予不存在標(biāo)記,因此本發(fā)明的合同內(nèi)容校閱裝置能夠?qū)?biāo)準(zhǔn)文檔和待校閱文檔進(jìn)行逐行校閱,即使ocr裝置在某行出現(xiàn)誤識(shí)別,也不會(huì)對(duì)其他行的校閱產(chǎn)生影響,其校閱錯(cuò)誤率大大降低,從而能夠真正減少校閱人員的工作量。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例的合同內(nèi)容校閱裝置的框圖;
圖2是本發(fā)明實(shí)施例的文檔預(yù)處理部的框圖;
圖3是本發(fā)明實(shí)施例的合同內(nèi)容校閱裝置的工作流程圖。
圖4是本發(fā)明實(shí)施例的文檔預(yù)處理部的預(yù)處理流程圖。
具體實(shí)施方式
以下結(jié)合附圖來(lái)說(shuō)明本發(fā)明的具體實(shí)施方式。
作為一種實(shí)施形態(tài),本發(fā)明提供了一種合同內(nèi)容校閱裝置,以發(fā)送給客戶(hù)的電子版原始合同作為標(biāo)準(zhǔn)文檔對(duì)客戶(hù)寄回的紙質(zhì)合同經(jīng)掃描得到的待校閱文檔進(jìn)行內(nèi)容校閱,其特征在于,包括:當(dāng)前頁(yè)設(shè)定部、當(dāng)前頁(yè)獲取部、當(dāng)前標(biāo)準(zhǔn)行設(shè)定部、當(dāng)前標(biāo)準(zhǔn)行抽取部、一致性判斷部、標(biāo)記賦予控制部、末行判斷部、未標(biāo)記判斷部、末頁(yè)判斷部以及文檔輸出部,其中,當(dāng)前頁(yè)設(shè)定部設(shè)定標(biāo)準(zhǔn)文檔中的預(yù)定頁(yè)面為當(dāng)前標(biāo)準(zhǔn)頁(yè),并設(shè)定待校閱文檔中與該預(yù)定頁(yè)面的頁(yè)碼相同的頁(yè)面為當(dāng)前待校閱頁(yè),當(dāng)前頁(yè)獲取部分別從標(biāo)準(zhǔn)文檔以及待校閱文檔中獲取當(dāng)前標(biāo)準(zhǔn)頁(yè)以及當(dāng)前待校閱頁(yè),當(dāng)前標(biāo)準(zhǔn)行設(shè)定部將當(dāng)前標(biāo)準(zhǔn)頁(yè)中的文字行按照行號(hào)順序分別依次設(shè)定為當(dāng)前標(biāo)準(zhǔn)行,當(dāng)前標(biāo)準(zhǔn)行抽取部從標(biāo)準(zhǔn)文檔中將當(dāng)前標(biāo)準(zhǔn)行抽出,一致性判斷部依據(jù)行號(hào)順序?qū)?dāng)前待校閱頁(yè)中的文字行逐行設(shè)定為待校閱行,并根據(jù)預(yù)定判斷規(guī)則對(duì)該待校閱行進(jìn)行一致性判斷處理用于判斷該待校閱行是否與當(dāng)前標(biāo)準(zhǔn)行一致,一旦存在一致的待校閱行時(shí),標(biāo)記賦予控制部對(duì)當(dāng)前標(biāo)準(zhǔn)行以及一致的待校閱行分別賦予一致性標(biāo)記,并控制當(dāng)前標(biāo)準(zhǔn)行設(shè)定部設(shè)定下一行為當(dāng)前標(biāo)準(zhǔn)行,當(dāng)不存在一致的待校閱行時(shí),標(biāo)記賦予控制部對(duì)當(dāng)前標(biāo)準(zhǔn)行賦予不存在標(biāo)記,并控制當(dāng)前標(biāo)準(zhǔn)行設(shè)定部設(shè)定下一行為當(dāng)前標(biāo)準(zhǔn)行,末行判斷部判斷當(dāng)前標(biāo)準(zhǔn)行是否為當(dāng)前標(biāo)準(zhǔn)頁(yè)中的最后一行,當(dāng)判斷為最后一行時(shí),未標(biāo)記判斷部判斷當(dāng)前待校閱頁(yè)中是否存在未標(biāo)記的待校閱行,當(dāng)判斷為不存在未標(biāo)記的待校閱行時(shí),末頁(yè)判斷部判斷當(dāng)前標(biāo)準(zhǔn)頁(yè)是否為標(biāo)準(zhǔn)文檔中的末頁(yè),當(dāng)判斷為不是末頁(yè)時(shí),當(dāng)前頁(yè)設(shè)定部設(shè)定標(biāo)準(zhǔn)文檔中的下一頁(yè)為當(dāng)前標(biāo)準(zhǔn)頁(yè),并設(shè)定待校閱文檔中的下一頁(yè)為當(dāng)前待校閱頁(yè),當(dāng)判斷為末頁(yè)時(shí),文檔輸出部對(duì)標(biāo)準(zhǔn)文檔及待校閱文檔連同標(biāo)記一起進(jìn)行輸出。
在該實(shí)施形態(tài)中,還可以具有這樣的特征,還包括待確認(rèn)含量計(jì)算部以及警告部,其中,當(dāng)未標(biāo)記判斷部判斷為存在未標(biāo)記的待校閱行時(shí),標(biāo)記賦予控制部對(duì)未標(biāo)記的待校閱行賦予待確認(rèn)標(biāo)記,并控制待確認(rèn)含量計(jì)算部計(jì)算待確認(rèn)標(biāo)記的行數(shù)在整個(gè)待校閱頁(yè)中的含量,當(dāng)該含量大于等于預(yù)定含量值時(shí),進(jìn)一步控制警告部發(fā)出警告提示告知校閱人員該紙件合同不符合要求,當(dāng)該含量小于預(yù)定含量值時(shí),控制末頁(yè)判斷部進(jìn)行判斷處理。
在該實(shí)施形態(tài)中,還可以具有這樣的特征,其中,預(yù)定判斷規(guī)則為:當(dāng)待校閱行與當(dāng)前標(biāo)準(zhǔn)行的字符內(nèi)容完全相同時(shí),該待校閱行及當(dāng)前標(biāo)準(zhǔn)行一致。
在該實(shí)施形態(tài)中,還可以具有這樣的特征,其中,預(yù)定判斷規(guī)則為:當(dāng)待校閱行與當(dāng)前標(biāo)準(zhǔn)行的字符內(nèi)容完全相同并且待校閱行與當(dāng)前標(biāo)準(zhǔn)行前后預(yù)定數(shù)量的文字行內(nèi)容的差異度小于等于預(yù)定差異度時(shí),待校閱行與當(dāng)前標(biāo)準(zhǔn)行一致。
在該實(shí)施形態(tài)中,還可以具有這樣的特征,還包括:文檔預(yù)處理部,對(duì)標(biāo)準(zhǔn)文檔及待校閱文檔進(jìn)行預(yù)處理并將預(yù)處理后的標(biāo)準(zhǔn)文檔及待校閱文檔提供給當(dāng)前頁(yè)獲取部,具有:空格識(shí)別計(jì)數(shù)單元,對(duì)文字行中的空格進(jìn)行識(shí)別并對(duì)該空格所持續(xù)的字符進(jìn)行計(jì)數(shù);空格合并單元,將持續(xù)字符超過(guò)三個(gè)的空格替換為持續(xù)字符為一個(gè)的空格;空格刪除單元,將持續(xù)字符兩個(gè)以下的空格刪除。
在該實(shí)施形態(tài)中,還可以具有這樣的特征,其中,文檔預(yù)處理部還包括標(biāo)點(diǎn)符號(hào)統(tǒng)一單元,用于將標(biāo)準(zhǔn)文檔及待校閱文檔中的全部標(biāo)點(diǎn)符號(hào)統(tǒng)一為全角格式或半角格式。
<實(shí)施例>
圖1是本發(fā)明實(shí)施例的合同內(nèi)容校閱裝置的框圖。
如圖1所示,合同內(nèi)容校閱裝置100包括當(dāng)前頁(yè)設(shè)定部1、當(dāng)前頁(yè)獲取部2、當(dāng)前標(biāo)準(zhǔn)行設(shè)定部3、當(dāng)前標(biāo)準(zhǔn)行抽取部4、一致性判斷部5、標(biāo)記賦予控制部6、末行判斷部7、未標(biāo)記判斷部8、末頁(yè)判斷部9、文檔輸出部10、待確認(rèn)含量計(jì)算部11、警告部12、文檔預(yù)處理部13以及控制部14。
其中,控制部14用于控制合同內(nèi)容校閱裝置100中各個(gè)組成部分的工作。
本實(shí)施例的合同內(nèi)容校閱裝置100可以分別與存儲(chǔ)有電子版原始合同的文檔存儲(chǔ)設(shè)備以及具有文字識(shí)別裝置的圖像掃描設(shè)備通信連接,從文檔存儲(chǔ)設(shè)備獲得電子版原始合同作為標(biāo)準(zhǔn)文檔,并從圖像掃描設(shè)備獲得對(duì)紙質(zhì)合同經(jīng)掃描及文字識(shí)別而得到文檔作為待校閱文檔,然后對(duì)該標(biāo)準(zhǔn)文檔和待校閱文檔進(jìn)行內(nèi)容校閱。
當(dāng)前頁(yè)設(shè)定部1用于設(shè)定當(dāng)前標(biāo)準(zhǔn)頁(yè)及當(dāng)前待校閱頁(yè)。在開(kāi)始校閱時(shí),第一個(gè)當(dāng)前標(biāo)準(zhǔn)頁(yè)為標(biāo)準(zhǔn)文檔中的預(yù)定頁(yè)面,該預(yù)定頁(yè)面可以是標(biāo)準(zhǔn)文檔的第一頁(yè),也可以由校閱人員設(shè)定(例如,當(dāng)?shù)谝豁?yè)為合同封面時(shí),則設(shè)定預(yù)定頁(yè)面為第二頁(yè));第一個(gè)當(dāng)前待校閱頁(yè)為待校閱文檔中與該當(dāng)前標(biāo)準(zhǔn)頁(yè)頁(yè)碼相同的頁(yè)面。
當(dāng)前頁(yè)獲取部2用于分別從標(biāo)準(zhǔn)文檔以及待校閱文檔中獲取當(dāng)前標(biāo)準(zhǔn)頁(yè)以及當(dāng)前待校閱頁(yè)。在獲取時(shí),該當(dāng)前頁(yè)獲取部2將頁(yè)面內(nèi)的所有文字行以及每個(gè)文字行相對(duì)應(yīng)的行號(hào)一同獲取。
當(dāng)前標(biāo)準(zhǔn)行設(shè)定部3用于將當(dāng)前標(biāo)準(zhǔn)頁(yè)中的文字行按照行號(hào)順序分別依次設(shè)定為當(dāng)前標(biāo)準(zhǔn)行。在開(kāi)始對(duì)某一個(gè)當(dāng)前標(biāo)準(zhǔn)頁(yè)進(jìn)行處理時(shí),首先設(shè)定第一行為當(dāng)前標(biāo)準(zhǔn)行。
當(dāng)前標(biāo)準(zhǔn)行抽取部4用于根據(jù)行號(hào)從標(biāo)準(zhǔn)文檔中將當(dāng)前標(biāo)準(zhǔn)行抽出。其中,該當(dāng)前標(biāo)準(zhǔn)行抽取部4所抽取的是當(dāng)前標(biāo)準(zhǔn)行的全部字符內(nèi)容(包括標(biāo)點(diǎn)符號(hào)、文字及空格等所有字符)。
一致性判斷部5用于依據(jù)行號(hào)順序?qū)?dāng)前待校閱頁(yè)中的文字行逐行設(shè)定為待校閱行,并根據(jù)預(yù)定判斷規(guī)則對(duì)該待校閱行進(jìn)行一致性判斷處理,判斷該待校閱行是否與當(dāng)前標(biāo)準(zhǔn)行一致。
在本實(shí)施例中,預(yù)定判斷規(guī)則為:當(dāng)待校閱行與當(dāng)前標(biāo)準(zhǔn)行的字符內(nèi)容完全相同,并且待校閱行與當(dāng)前標(biāo)準(zhǔn)行前后預(yù)定數(shù)量的文字行內(nèi)容的差異度小于等于預(yù)定差異度時(shí),待校閱行與當(dāng)前標(biāo)準(zhǔn)行一致。
其中,文字行內(nèi)容的差異度采用編輯距離算法計(jì)算得到,在本實(shí)施例中,上述預(yù)定數(shù)量為3行,預(yù)定差異度為3。
編輯距離算法的原理為:將需要進(jìn)行差異度計(jì)算的兩個(gè)字符串分別作為第一字符串和第二字符串進(jìn)行虛擬的內(nèi)容轉(zhuǎn)換,由于兩個(gè)字符串內(nèi)均含有多個(gè)字符,因此第一字符串可以通過(guò)增加、刪除和替換字符的方式轉(zhuǎn)換得到第二字符串。在將第一字符串轉(zhuǎn)換為第二字符串的過(guò)程中,增加、刪除和替換操作最少的操作過(guò)程為最佳操作過(guò)程,該最佳操作過(guò)程所對(duì)應(yīng)的操作次數(shù)就是兩行之間的差異度。
在本實(shí)施例中,如果當(dāng)前標(biāo)準(zhǔn)行與某個(gè)待校閱行的內(nèi)容完全相同,則將當(dāng)前標(biāo)準(zhǔn)行的前后3行內(nèi)容作為第一字符串,待校閱行的前后3行內(nèi)容作為第二字符串(如果前方或后方不足3行,則將該前方或后方的全部?jī)?nèi)容均作為第一字符串或第二字符串),然后采用上述編輯距離算法進(jìn)行差異度計(jì)算。計(jì)算得到的差異度小于等于3時(shí),就判斷當(dāng)前標(biāo)準(zhǔn)行及待校閱行是一致的。
標(biāo)記賦予控制部6用于對(duì)文字行賦予標(biāo)記,并控制當(dāng)前標(biāo)準(zhǔn)行設(shè)定部3進(jìn)行下一步的工作。在一致性判斷過(guò)程中,一旦存在一致的待校閱行時(shí),標(biāo)記賦予控制部6對(duì)當(dāng)前標(biāo)準(zhǔn)行以及一致的待校閱行分別賦予一致性標(biāo)記,并控制當(dāng)前標(biāo)準(zhǔn)行設(shè)定部3設(shè)定下一行為當(dāng)前標(biāo)準(zhǔn)行;當(dāng)不存在一致的待校閱行時(shí),標(biāo)記賦予控制部6對(duì)當(dāng)前標(biāo)準(zhǔn)行賦予不存在標(biāo)記,并控制當(dāng)前標(biāo)準(zhǔn)行設(shè)定部3設(shè)定下一行為當(dāng)前標(biāo)準(zhǔn)行。
末行判斷部7用于在標(biāo)記賦予控制部6進(jìn)行完一致性判斷后,判斷當(dāng)前標(biāo)準(zhǔn)行是否為當(dāng)前標(biāo)準(zhǔn)頁(yè)中的末行。
未標(biāo)記判斷部8用于在末行判斷部7判斷為末行時(shí),判斷當(dāng)前待校閱頁(yè)中是否存在未標(biāo)記的待校閱行。當(dāng)判斷為存在未標(biāo)記的待校閱行時(shí),標(biāo)記賦予控制部6就對(duì)這些未標(biāo)記的待校閱行賦予待確認(rèn)標(biāo)記。
待確認(rèn)含量計(jì)算部11用于計(jì)算待確認(rèn)標(biāo)記的行數(shù)在整個(gè)待校閱頁(yè)中的含量。
當(dāng)待確認(rèn)標(biāo)記的行數(shù)在整個(gè)待校閱頁(yè)中的含量大于預(yù)定含量值時(shí),就說(shuō)明掃描設(shè)備的掃描質(zhì)量較差,或掃描設(shè)備中的ocr裝置的誤識(shí)別過(guò)多,需要重新獲取待校閱文檔。警告部12用于在該含量大于等于預(yù)定含量值時(shí)發(fā)出警告,提示并告知校閱人員該紙件合同不符合要求。在本實(shí)施例中,該預(yù)定含量值為60%。
末頁(yè)判斷部9用于在未標(biāo)記判斷部8判斷為不存在未標(biāo)記的待校閱行時(shí),或待確認(rèn)標(biāo)記的行數(shù)小于預(yù)定含量值時(shí),對(duì)當(dāng)前標(biāo)準(zhǔn)頁(yè)是否為標(biāo)準(zhǔn)文檔中的末頁(yè)進(jìn)行判斷。當(dāng)末頁(yè)判斷部9判斷為不是末頁(yè)時(shí),當(dāng)前頁(yè)設(shè)定部1就設(shè)定標(biāo)準(zhǔn)文檔中的下一頁(yè)為當(dāng)前標(biāo)準(zhǔn)頁(yè),并設(shè)定待校閱文檔中的下一頁(yè)為當(dāng)前待校閱頁(yè)。
文檔輸出部10用于在當(dāng)末頁(yè)判斷部9判斷為是末頁(yè)時(shí),對(duì)標(biāo)準(zhǔn)文檔及待校閱文檔連同標(biāo)記一起進(jìn)行輸出。
文檔預(yù)處理部13用于對(duì)標(biāo)準(zhǔn)文檔和待校閱文檔進(jìn)行預(yù)處理,以消除其中由于ocr識(shí)別所帶來(lái)的格式差異。
圖2是本發(fā)明實(shí)施例的文檔預(yù)處理部的框圖。
如圖2所示,文檔預(yù)處理部13包括空格識(shí)別計(jì)數(shù)單元15、空格合并單元16、空格刪除單元17、標(biāo)點(diǎn)符號(hào)統(tǒng)一單元18以及預(yù)處理控制單元19。
ocr裝置在進(jìn)行文字識(shí)別的過(guò)程中,若文檔中有表格,那么就會(huì)將該表格中各欄之間的空間識(shí)別為持續(xù)字符超過(guò)三個(gè)的空格。并且,由于表格各欄之間的空間通常不是相同的,ocr裝置通常會(huì)識(shí)別出持續(xù)字符數(shù)量不同的空格。類(lèi)似地,當(dāng)文檔中有空格時(shí),ocr裝置也容易對(duì)空格的持續(xù)字符數(shù)量產(chǎn)生誤識(shí)別。
另外,ocr裝置識(shí)別時(shí)還可能將標(biāo)點(diǎn)符號(hào)分別識(shí)別為不同的格式(例如,一些為全角格式,另一些為半角格式)。
上述格式差異都會(huì)對(duì)校閱過(guò)程造成影響。文檔預(yù)處理部13用于對(duì)標(biāo)準(zhǔn)文檔及待校閱文檔進(jìn)行預(yù)處理,并將預(yù)處理后的標(biāo)準(zhǔn)文檔及待校閱文檔提供給當(dāng)前頁(yè)獲取部2,以消除標(biāo)準(zhǔn)文檔和待校閱文檔中的上述格式差異。
空格識(shí)別計(jì)數(shù)單元15用于對(duì)文字行中的空格進(jìn)行識(shí)別并對(duì)該空格所持續(xù)的字符進(jìn)行計(jì)數(shù)。
空格合并單元16用于將持續(xù)字符超過(guò)三個(gè)的所述空格替換為持續(xù)字符為一個(gè)的空格。
空格刪除單元17用于將持續(xù)字符兩個(gè)以下的空格刪除。
標(biāo)點(diǎn)符號(hào)統(tǒng)一單元19用于將標(biāo)準(zhǔn)文檔及待校閱文檔中的全部標(biāo)點(diǎn)符號(hào)統(tǒng)一為全角格式或半角格式。
圖3是本發(fā)明實(shí)施例的合同內(nèi)容校閱裝置的校閱流程圖。
如圖3所示,合同內(nèi)容校閱裝置100對(duì)合同內(nèi)容進(jìn)行的校閱過(guò)程包括如下步驟。
步驟s1,文檔預(yù)處理部13分別對(duì)標(biāo)準(zhǔn)文檔和待校閱文檔進(jìn)行預(yù)處理,然后進(jìn)入步驟s2。
步驟s2,當(dāng)前頁(yè)設(shè)定部1設(shè)定標(biāo)準(zhǔn)文檔中的預(yù)定頁(yè)面為當(dāng)前標(biāo)準(zhǔn)頁(yè),并設(shè)定待校閱文檔中與該預(yù)定頁(yè)面的頁(yè)碼相同的頁(yè)面為當(dāng)前待校閱頁(yè),然后進(jìn)入步驟s3。
步驟s3,當(dāng)前頁(yè)獲取部2分別從標(biāo)準(zhǔn)文檔以及待校閱文檔中獲取當(dāng)前標(biāo)準(zhǔn)頁(yè)以及當(dāng)前待校閱頁(yè),然后進(jìn)入步驟s4。
步驟s4,當(dāng)前標(biāo)準(zhǔn)行設(shè)定部3將當(dāng)前標(biāo)準(zhǔn)頁(yè)中的文字行按照行號(hào)順序分別依次設(shè)定為當(dāng)前標(biāo)準(zhǔn)行,然后進(jìn)入步驟s5。
步驟s5,當(dāng)前標(biāo)準(zhǔn)行抽取部4按照當(dāng)前標(biāo)準(zhǔn)行的行號(hào)從標(biāo)準(zhǔn)文檔中將當(dāng)前標(biāo)準(zhǔn)行抽出,然后進(jìn)入步驟s6。
步驟s6,一致性判斷部5依據(jù)行號(hào)順序?qū)?dāng)前待校閱頁(yè)中的文字行逐行設(shè)定為待校閱行,并根據(jù)預(yù)定判斷規(guī)則對(duì)該待校閱行進(jìn)行一致性判斷處理,判斷待校閱行是否與當(dāng)前標(biāo)準(zhǔn)行一致,當(dāng)存在一致的待校閱行時(shí)進(jìn)入步驟s7,當(dāng)不存在時(shí)進(jìn)入步驟s8。
步驟s7,標(biāo)記賦予控制部6對(duì)當(dāng)前標(biāo)準(zhǔn)行以及一致的待校閱行分別賦予一致性標(biāo)記,然后進(jìn)入步驟s9。
步驟s8,標(biāo)記賦予控制部6對(duì)當(dāng)前標(biāo)準(zhǔn)行賦予不存在標(biāo)記,然后進(jìn)入步驟s9。
步驟s9,末行判斷部7判斷當(dāng)前標(biāo)準(zhǔn)行是否為當(dāng)前標(biāo)準(zhǔn)頁(yè)中的末行,當(dāng)判斷為是時(shí)進(jìn)入步驟s10,當(dāng)判斷為不是時(shí)回到步驟s4。
步驟s10,未標(biāo)記判斷部8判斷當(dāng)前待校閱頁(yè)中是否存在未標(biāo)記的待校閱行,當(dāng)判斷為存在時(shí)進(jìn)入步驟s11,當(dāng)判斷為不存在時(shí)進(jìn)入步驟s14。
步驟s11,標(biāo)記賦予控制部6對(duì)未標(biāo)記的待校閱行賦予待確認(rèn)標(biāo)記,然后進(jìn)入步驟s12。
步驟s12,標(biāo)記賦予控制部6控制待確認(rèn)含量計(jì)算部11計(jì)算待確認(rèn)標(biāo)記的行數(shù)在整個(gè)待校閱頁(yè)中的含量,當(dāng)該含量大于預(yù)定含量值時(shí)進(jìn)入步驟s13,當(dāng)小于時(shí)進(jìn)入步驟s14。
步驟s13,警告部12發(fā)出警告提示告知校閱人員該紙件合同不符合要求,然后進(jìn)入結(jié)束狀態(tài)。
步驟s14,末頁(yè)判斷部9判斷當(dāng)前標(biāo)準(zhǔn)頁(yè)是否為標(biāo)準(zhǔn)文檔中的末頁(yè),當(dāng)判斷為是時(shí)進(jìn)入步驟s15,當(dāng)判斷為不是時(shí)進(jìn)入步驟s16。
步驟s15,當(dāng)前頁(yè)設(shè)定部1設(shè)定標(biāo)準(zhǔn)文檔中的下一頁(yè)為當(dāng)前標(biāo)準(zhǔn)頁(yè),并設(shè)定待校閱文檔中的下一頁(yè)為當(dāng)前待校閱頁(yè),然后回到步驟s3。
步驟s16,文檔輸出部10對(duì)標(biāo)準(zhǔn)文檔及待校閱文檔連同標(biāo)記一起進(jìn)行輸出,然后進(jìn)入結(jié)束狀態(tài)。
圖4是本發(fā)明實(shí)施例的文檔預(yù)處理部的預(yù)處理流程圖。
如圖4所示,文檔預(yù)處理部13對(duì)標(biāo)準(zhǔn)文檔及待校閱文檔進(jìn)行的預(yù)處理包括如下步驟。
步驟s1-1,空格識(shí)別計(jì)數(shù)單元14對(duì)文字行中的空格進(jìn)行識(shí)別并對(duì)該空格所持續(xù)的字符進(jìn)行計(jì)數(shù),然后進(jìn)入步驟s1-2。
步驟s1-2,空格合并單元15將持續(xù)字符超過(guò)三個(gè)的空格替換為持續(xù)字符為一個(gè)的空格,然后進(jìn)入步驟s1-3。
步驟s1-3,空格刪除單元16將持續(xù)字符兩個(gè)以下的空格刪除,然后進(jìn)入步驟s1-4,然后進(jìn)入步驟s1-4。
步驟s1-4,標(biāo)點(diǎn)符號(hào)統(tǒng)一單元17將全部標(biāo)點(diǎn)符號(hào)統(tǒng)一為全角格式或半角格式,然后進(jìn)入結(jié)束狀態(tài)。
實(shí)施例作用與效果
根據(jù)本實(shí)施例提供的合同內(nèi)容校閱裝置,由于一致性判斷部能夠根據(jù)預(yù)定判斷規(guī)則判斷當(dāng)前待校閱頁(yè)中是否存在與當(dāng)前標(biāo)準(zhǔn)行一致的文字行,標(biāo)記賦予控制部能夠在存在一致的文字行時(shí)分別對(duì)當(dāng)前標(biāo)準(zhǔn)行和待校閱行賦予一致性標(biāo)記,在不存在時(shí)對(duì)當(dāng)前標(biāo)準(zhǔn)行賦予不存在標(biāo)記,因此本發(fā)明的合同內(nèi)容校閱裝置能夠?qū)?biāo)準(zhǔn)文檔和待校閱文檔進(jìn)行逐行校閱,即使ocr裝置在某行出現(xiàn)誤識(shí)別,也不會(huì)對(duì)其他行的校閱產(chǎn)生影響,其校閱錯(cuò)誤率大大降低,從而更好地節(jié)省校閱人員的工作量。
在本實(shí)施例中,一致性判斷部所采用的預(yù)定判斷規(guī)則為在當(dāng)前標(biāo)準(zhǔn)行與待校閱行內(nèi)容相同時(shí),再判斷二者前后的預(yù)定數(shù)量文字行差異度是否小于預(yù)定差異度值,并在小于等于時(shí)判斷當(dāng)前標(biāo)準(zhǔn)行與待校閱行一致。該一致性判斷部不僅能判斷當(dāng)前標(biāo)準(zhǔn)行與待校閱行內(nèi)容是否相同,還能夠進(jìn)一步根據(jù)前后文的差異度來(lái)判斷二者是否為一致行,因此當(dāng)標(biāo)準(zhǔn)文檔中出現(xiàn)內(nèi)容相同的文字行時(shí),一致性判斷部也能夠根據(jù)前后文差異度進(jìn)行準(zhǔn)確的判斷。
在本實(shí)施例中,待確認(rèn)含量計(jì)算部能夠?qū)Υi嗧?yè)中的待確認(rèn)行數(shù)含量進(jìn)行計(jì)算,警告部能夠在該含量過(guò)高時(shí)發(fā)出警告,因此在紙質(zhì)合同質(zhì)量較差時(shí)能夠提醒校閱人員重新進(jìn)行掃描處理。
在本實(shí)施例中,文檔預(yù)處理部能夠?qū)?biāo)準(zhǔn)文檔和待校閱文檔進(jìn)行預(yù)處理,對(duì)其中的空格進(jìn)行合并、刪除操作,并將標(biāo)點(diǎn)符號(hào)格式統(tǒng)一,因此能夠消除因ocr裝置識(shí)別不準(zhǔn)確所帶來(lái)的格式差異,減少校閱錯(cuò)誤率。
上述實(shí)施例為本發(fā)明的優(yōu)選案例,并不用來(lái)限制本發(fā)明的保護(hù)范圍。
在上述實(shí)施例中,預(yù)定判斷規(guī)則為在當(dāng)前標(biāo)準(zhǔn)行與待校閱行內(nèi)容相同時(shí),再判斷二者前后的預(yù)定數(shù)量文字行差異度是否小于預(yù)定差異度值,并在小于等于時(shí)判斷當(dāng)前標(biāo)準(zhǔn)行與待校閱行一致。但在本發(fā)明中,該預(yù)定判斷規(guī)則也可以簡(jiǎn)化為直接判斷當(dāng)前標(biāo)準(zhǔn)行與待校閱行內(nèi)容是否相同。在發(fā)出的合同里并不具有內(nèi)容相同的文字行時(shí),這樣的簡(jiǎn)化判斷規(guī)則可以減少合同校閱裝置的工作量,提升校閱速度。當(dāng)然,本發(fā)明的合同內(nèi)容校閱裝置可以預(yù)先設(shè)置上述兩種預(yù)定判斷規(guī)則,具體采用哪種由校閱人員根據(jù)實(shí)際情況進(jìn)行設(shè)定。
在上述實(shí)施例中,文檔預(yù)處理部用于減少ocr裝置識(shí)別不準(zhǔn)確所帶來(lái)的格式差異。但在本發(fā)明中,如果ocr裝置識(shí)別準(zhǔn)確率高,那么也可以不采用該文檔預(yù)處理部來(lái)進(jìn)行預(yù)處理。
在上述實(shí)施例中,待確認(rèn)含量計(jì)算部根據(jù)待確認(rèn)的含量來(lái)確認(rèn)紙質(zhì)合同質(zhì)量是否較差,警告部能夠在紙質(zhì)合同質(zhì)量較差時(shí)提醒校閱人員重新進(jìn)行掃描處理。但在本發(fā)明中,合同內(nèi)容校閱裝置也可以不設(shè)置待確認(rèn)含量計(jì)算部及警告部,而是在文檔輸出后讓校閱人員自行判斷紙質(zhì)合同是否符合要求。