專利名稱:一種分隔頁(yè)、以及利用該分隔頁(yè)的文件分類的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像信息技術(shù)領(lǐng)域,特別涉及一種分隔頁(yè)、以及利用該分隔 頁(yè)進(jìn)行文件分類的方法和裝置。
背景技術(shù):
隨著數(shù)字技術(shù)的發(fā)展,對(duì)文件的分類與管理也更多通過數(shù)字化的方式來 實(shí)現(xiàn)。比如將紙件文件掃描成數(shù)字圖像后,通過對(duì)這些數(shù)字圖像的識(shí)別、分 類達(dá)到對(duì)圖像化文件的管理。但由于文件的類型往往很多,所以在掃描前要 先將相同類型的文件疊放在一起,通過在不同類型的文件之間插入分隔頁(yè)已 區(qū)分文件類型,依序經(jīng)過文件掃描儀掃描后形成對(duì)應(yīng)文件的圖像,此時(shí)只要 識(shí)別出分隔頁(yè)的圖像,就能自動(dòng)對(duì)相應(yīng)類型的文件圖像進(jìn)行分類和管理。
但是,發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn)現(xiàn)有技術(shù)中存在的缺陷在于 現(xiàn)有的分隔頁(yè)主要采用條形碼或者廠商自己設(shè)計(jì)的圖碼來進(jìn)行識(shí)別,這樣使 得分隔頁(yè)的設(shè)計(jì)、制作以及對(duì)其識(shí)別都比較復(fù)雜。以條形碼分隔頁(yè)為例,由 于條形碼所能代表的數(shù)值范圍大,所以適用于文檔類別較多的情況,是目前 應(yīng)用最普遍的一種,但是條形碼不僅需要專業(yè)的軟件來設(shè)計(jì),而且需要采用 復(fù)雜的圖像識(shí)別技術(shù)來讀取條形碼所代表的數(shù)值,從而使得識(shí)別時(shí)間較長(zhǎng), 并且通過識(shí)別條形碼來識(shí)別分隔頁(yè)也不是很準(zhǔn)確。例如以掃描1000張的文件
圖像做測(cè)試,Kofax公司的專業(yè)掃描文檔處理產(chǎn)品Ascent Capture,所提供的 不帶VRS (VirtualReScan,虛擬重掃描)功能的條形碼分隔頁(yè)頁(yè)面識(shí)別方式, 僅分類識(shí)別需要的時(shí)間就在10分鐘以上,而該產(chǎn)品提供的帶VRS功能的條 形碼識(shí)別方式,雖然可以較快的實(shí)現(xiàn)產(chǎn)生掃描圖片的同時(shí)即判斷識(shí)別出分隔頁(yè),但是該方式需要相關(guān)硬件的支持,而且售價(jià)昂貴。
所以,如何設(shè)計(jì)一種分隔頁(yè)以使得在文件分類中能快速、準(zhǔn)確的識(shí)別出 分隔頁(yè)從而方便文件分類及管理己成為本領(lǐng)域技術(shù)人員長(zhǎng)期希望解決的技術(shù) 問題。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種分隔頁(yè)、以及利用該分隔頁(yè)進(jìn)行文件 分類的方法和裝置,本領(lǐng)域技術(shù)人員通過本發(fā)明實(shí)施例提供的分隔頁(yè)、以及 利用該分隔頁(yè)進(jìn)行文件分類的方法和裝置,可以快速、準(zhǔn)確的識(shí)別出圖像化 的分隔頁(yè),從而根據(jù)識(shí)別出的分隔頁(yè)對(duì)文件進(jìn)行分類和管理,大大提高了文 件分類的效率。
為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供一種文件分類的方法,所述方法包
括
在對(duì)通過分隔頁(yè)區(qū)分的不同類型的數(shù)個(gè)文件依序進(jìn)行掃描后,按序生成 包括所述分隔頁(yè)和數(shù)個(gè)文件的圖像;
根據(jù)所述圖像的幾何特征查找分隔頁(yè)圖像;
根據(jù)査找到的分隔頁(yè)圖像對(duì)所述不同類型的數(shù)個(gè)圖像化文件進(jìn)行分類。 為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例還提供一種文件分類的裝置,所述裝置 包括
圖像生成單元,用于在對(duì)通過分隔頁(yè)區(qū)分的不同類型的數(shù)個(gè)文件依序進(jìn) 行掃描后,按序生成包括所述分隔頁(yè)和數(shù)個(gè)文件的圖像;
分隔頁(yè)圖像査找單元,用于根據(jù)所述圖像的幾何特征査找分隔頁(yè)圖像;
文件分類單元,用于根據(jù)查找到的分隔頁(yè)圖像對(duì)所述不同類型的數(shù)個(gè)圖 像化文件進(jìn)行分類。
為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例還提供一種分隔頁(yè),用于放置在不同類 別的文件之間以區(qū)分文件類型,其中所述分隔頁(yè)的形狀為正方形,所述分隔頁(yè)一面顏色為深色。
本發(fā)明實(shí)施例的有益效果在于,通過設(shè)計(jì)一種簡(jiǎn)單的分隔頁(yè),可以使得 在對(duì)圖像化的文件進(jìn)行分類時(shí)提高識(shí)別分隔頁(yè)的效率,進(jìn)而可以根據(jù)識(shí)別出 的分隔頁(yè)對(duì)不同類型的文件進(jìn)行分類操作,使得對(duì)文件的分類不僅簡(jiǎn)單、方 便、快速,而且無需更改硬件配置。
此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部 分,并不構(gòu)成對(duì)本發(fā)明的限定。在附圖中
圖1是本發(fā)明實(shí)施例一的方法流程框圖。 圖2是本發(fā)明實(shí)施例二的方法流程框圖。 圖3是本發(fā)明實(shí)施例三的裝置功能結(jié)構(gòu)框圖。 圖4是本發(fā)明實(shí)施例三的分隔頁(yè)的示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合附圖對(duì)本 發(fā)明實(shí)施例做進(jìn)一步詳細(xì)說明。本發(fā)明實(shí)施例以對(duì)銀行票據(jù)進(jìn)行分類為例, 通過本發(fā)明實(shí)施例所提供的分隔頁(yè)對(duì)不同類型的票據(jù)進(jìn)行分類,以使得在快 速識(shí)別出圖像化的分隔頁(yè)后,可以對(duì)不同類型的銀行票據(jù)進(jìn)行分類。在此, 本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,但并不作為對(duì)本發(fā)明的限 定。
實(shí)施例一
本發(fā)明實(shí)施例提供一種票據(jù)分類的方法,如圖1所示,所述方法包括
101. 在對(duì)通過分隔頁(yè)區(qū)分的不同類型的數(shù)個(gè)票據(jù)依序進(jìn)行掃描后,按序 生成包括所述分隔頁(yè)和數(shù)個(gè)票據(jù)的圖像;
102. 根據(jù)各個(gè)圖像的幾何特征査找分隔頁(yè)圖像;
103. 根據(jù)査找到的分隔頁(yè)圖像對(duì)所述不同類型的數(shù)個(gè)圖像化票據(jù)進(jìn)行分類。
本實(shí)施例中在對(duì)票據(jù)進(jìn)行掃描前,用戶會(huì)先將不同類型的票據(jù)分類,并 且不同類型的票據(jù)之間放置有分隔頁(yè),比如支票分為一類,匯票再分為一類, 最后一張支票與第一張匯票之間放置有一分隔頁(yè)。用戶將疊好的票據(jù)放置掃
描儀處進(jìn)行掃描,掃描儀順序?qū)ΟB好的票據(jù)進(jìn)行掃描,步驟101使得終端根
據(jù)掃描的順序生成對(duì)應(yīng)票據(jù)和分隔頁(yè)的圖像,本實(shí)施例中的掃描儀為專用的
文件掃描儀,如柯達(dá)i660,富士通6670,這種掃描儀對(duì)票據(jù)和分隔頁(yè)正反 兩面都會(huì)進(jìn)行掃描,對(duì)應(yīng)每張票據(jù)和分隔頁(yè)都會(huì)生成兩幅圖像。掃描完成后 終端就會(huì)獲得對(duì)應(yīng)每張票據(jù)和分隔頁(yè)的圖像,然后就要查找出分隔頁(yè),因?yàn)?只要查找出分隔頁(yè)就能對(duì)圖像化的票據(jù)進(jìn)行分類。本實(shí)施例的步驟102主要 是根據(jù)各個(gè)圖像的幾何特征查找分隔頁(yè)圖像。由于票據(jù)形狀幾乎為長(zhǎng)方形, 所以只要將分隔頁(yè)的幾何形狀設(shè)計(jì)成不同于長(zhǎng)方形的形狀就能查找出分隔頁(yè) 的圖像。最容易査找的形狀就是將分隔頁(yè)設(shè)計(jì)成正方形, 一旦獲取到的分隔 頁(yè)圖像的高度和寬度相同就說明該圖像是分隔頁(yè)對(duì)應(yīng)的圖像。當(dāng)查找到分隔 頁(yè)圖像后,即可根據(jù)步驟103對(duì)所述不同類型的數(shù)個(gè)圖像化票據(jù)進(jìn)行分類。 因?yàn)樯蓤D像時(shí)終端會(huì)給每個(gè)生成的圖像進(jìn)行命名,這種命名通常是根據(jù)生 成圖像的順序依序?qū)D像以數(shù)字進(jìn)行標(biāo)記,所以每幅圖像的數(shù)字名稱及即對(duì) 應(yīng)票據(jù)或分隔頁(yè)在掃描時(shí)的序號(hào),當(dāng)查找到分隔頁(yè)后,也即獲取到了改分隔 頁(yè)的數(shù)字名稱,所以根據(jù)數(shù)字名稱即可獲得分隔頁(yè)前面的所有支票的數(shù)字和 后面的所有匯票的數(shù)字,從而獲得所有支票和所有匯票并將兩種票據(jù)分開為 后續(xù)管理提供方便。
本發(fā)明實(shí)施例的優(yōu)點(diǎn)在于,在對(duì)圖像化的文件進(jìn)行分類時(shí)提高識(shí)別分隔 頁(yè)的效率,進(jìn)而可以根據(jù)識(shí)別出的分隔頁(yè)對(duì)不同類型的文件進(jìn)行分類操作, 使得對(duì)文件的分類不僅簡(jiǎn)單、方便、快速,而且無需更改硬件配置。
實(shí)施例二
本發(fā)明實(shí)施例提供一種票據(jù)分類的方法,如圖2所示,所述方法包括以下步驟
201.在對(duì)通過分隔頁(yè)區(qū)分的不同類型的數(shù)個(gè)票據(jù)依序進(jìn)行掃描后,按序 生成包括所述分隔頁(yè)和數(shù)個(gè)票據(jù)的圖像;
本步驟與實(shí)施例1中的101類似,在對(duì)票據(jù)進(jìn)行掃描前,用戶會(huì)先將不 同類型的票據(jù)分類,并且不同類型的票據(jù)之間放置有分隔頁(yè)。該分隔頁(yè)為正 方形,正面顏色全部為深色,如黑色,背面標(biāo)記有文件類型號(hào),不同分隔頁(yè) 的邊長(zhǎng)不同。相同類型的票據(jù)被分配在一起后,在最后一張票據(jù)之后放置分 隔頁(yè),以此區(qū)分相疊在一起的其他類型的票據(jù)。用戶將疊好的票據(jù)放置掃描 儀處進(jìn)行掃描,掃描儀順序?qū)ΟB好的票據(jù)進(jìn)行掃描,使得終端計(jì)算機(jī)根據(jù)掃 描的順序生成對(duì)應(yīng)票據(jù)和分隔頁(yè)的圖像,本實(shí)施例中的掃描儀為專用的文件 掃描儀,這種掃描儀對(duì)票據(jù)和分隔頁(yè)正反兩面都會(huì)進(jìn)行掃描,每張票據(jù)和分 隔頁(yè)都會(huì)生成兩幅圖像。掃描完成后終端就會(huì)獲得每張票據(jù)和分隔頁(yè)的圖像, 并且每張圖像都根據(jù)生成順序依序編號(hào),這樣生成的所有圖像的順序都和掃 描前票據(jù)的疊放順序相同,不同類型的票據(jù)圖像之間是分隔頁(yè)圖像。其中由 于票據(jù)的形狀大都是長(zhǎng)方形,所以票據(jù)對(duì)應(yīng)的圖像也都是長(zhǎng)方形的圖像,而 分隔頁(yè)圖像都是正方形圖像。
202. 獲取每張圖像的高度值p與寬度值q;
一幅圖像的幾何特征即是反應(yīng)該圖像尺寸大小的特征,這種特征主要是 指圖像的高度與寬度,又因?yàn)閳D像都是以像素為單位,每張圖像的像素大小
即為高度值px寬度值q,所以在生成圖像時(shí),每張圖像的像素大小即已確定, 所以圖像的高度值p與寬度值q也是確定的。所以本步驟根據(jù)生成的圖像獲 取每張圖像的高度值p與寬度值q。
203. 根據(jù)獲取到的圖像的高度值p與寬度值q,計(jì)算高度與寬度比值 h=p / q;
此處,因?yàn)槠睋?jù)圖像大都長(zhǎng)方形,其高度與寬度的比值不接近l,而分隔 頁(yè)圖像為正方形,其高度與寬度的比值幾乎為1,所以本步驟通過計(jì)算圖像的高度與寬度比值h來識(shí)別分隔頁(yè)。
204. 判斷圖像的高度與寬度比值h是否在預(yù)先設(shè)定的數(shù)值范圍內(nèi),若在 預(yù)先設(shè)定的數(shù)值范圍內(nèi),則為分隔頁(yè)的圖像,該圖像可執(zhí)行步驟205;若不再 預(yù)先設(shè)定的數(shù)值范圍內(nèi),則不為分隔頁(yè)的圖像,不將圖像進(jìn)行后續(xù)步驟的處 理;
此處,由于分隔頁(yè)在設(shè)計(jì)時(shí)邊長(zhǎng)之間往往會(huì)存在微小誤差,所以其高度 與寬度比值h就不等于l,這樣會(huì)給識(shí)別分隔頁(yè)造成一定的障礙,所以有必要 預(yù)先設(shè)置一個(gè)比值范圍來對(duì)分隔頁(yè)的高度與寬度比值進(jìn)行判斷,當(dāng)比值h在 此預(yù)先設(shè)定的范圍內(nèi)時(shí),說明該圖像應(yīng)該為分隔頁(yè)圖像。本實(shí)施例中比值范 圍設(shè)定在0.95 1.05之間。
205. 對(duì)所述査找到的圖像進(jìn)行二值化處理獲得黑白像素的圖像; 雖然通過上述步驟基本能查找出分隔頁(yè)圖像,但不排除一些特殊的票據(jù)
也設(shè)計(jì)成正方形,而且有些銀行票據(jù)中還會(huì)夾帶一些附件,比如用戶手寫的 文件或相關(guān)證明復(fù)印件等不規(guī)范文件很可能形狀也是正方形,所以為了進(jìn)一 步識(shí)別出分隔頁(yè)圖像,本步驟會(huì)對(duì)通過步驟204查找到的圖像進(jìn)行二值化處 理將所述査找到的圖像轉(zhuǎn)換為黑白像素的圖像。由于每張分隔頁(yè)圖像有兩幅, 一幅顏色為全黑色,另一幅上底色為白色,所以對(duì)兩幅圖像二值化處理會(huì)獲 得一幅顏色為全黑色的圖像,而其他圖像大都為淺色的背景,進(jìn)行二值化處 理后不會(huì)得到一幅顏色為全黑色的圖像。
206. 根據(jù)二值化算法判斷所述黑白像素圖像中的黑色像素比率是否高于 預(yù)先設(shè)定的百分比,若高于預(yù)先設(shè)定的百分比,則確定所述圖像為分隔頁(yè)圖 像,執(zhí)行步驟207;若沒有高于預(yù)先設(shè)定的百分比,則確定所述圖像不為分隔 頁(yè)圖像,不將圖像進(jìn)行后續(xù)步驟的處理;
此處,會(huì)對(duì)二值化后的圖像進(jìn)行判斷,識(shí)別出分隔頁(yè)圖像。由于分隔頁(yè) 圖像中有一幅全黑像素的圖像,所以只要判斷二值化后的圖像中的黑色像素 比率是否高于預(yù)先設(shè)定的百分比,若高于預(yù)先設(shè)定的百分比,則確定所述圖像為分隔頁(yè)圖像。本實(shí)施例中預(yù)先設(shè)定的百分比為98%。
207. 獲取所述分隔頁(yè)圖像的邊長(zhǎng),根據(jù)預(yù)先設(shè)定好的所述分隔頁(yè)圖像的 邊長(zhǎng)與票據(jù)類型編號(hào)的對(duì)應(yīng)關(guān)系,査找所述分隔頁(yè)圖像對(duì)應(yīng)的票據(jù)類型編號(hào);
由于不同分隔頁(yè)的邊長(zhǎng)不同,所以不同邊長(zhǎng)的分隔頁(yè)對(duì)應(yīng)的票據(jù)類型也 不同,每個(gè)不同邊長(zhǎng)的分隔頁(yè)都有各自對(duì)應(yīng)的票據(jù)類型,根據(jù)這一關(guān)系預(yù)先 設(shè)定分隔頁(yè)對(duì)應(yīng)的票據(jù)類型編號(hào)的對(duì)應(yīng)關(guān)系,而區(qū)分分隔頁(yè)的就是分隔頁(yè)的 邊長(zhǎng),也即分隔頁(yè)圖像的邊長(zhǎng)。而獲取所述分隔頁(yè)圖像的邊長(zhǎng)可和步驟202 一樣,也即獲取分隔頁(yè)圖像的高度或?qū)挾?,根?jù)預(yù)先設(shè)定好的所述分隔頁(yè)圖 像的邊長(zhǎng)與票據(jù)類型編號(hào)的對(duì)應(yīng)關(guān)系,査找所述分隔頁(yè)圖像對(duì)應(yīng)的票據(jù)類型 編號(hào),從而獲得該分隔頁(yè)對(duì)應(yīng)的票據(jù)。
本步驟中所述預(yù)先設(shè)定好的所述分隔頁(yè)圖像的邊長(zhǎng)與票據(jù)類型編號(hào)的對(duì) 應(yīng)關(guān)系主要是指在掃描票據(jù)前,預(yù)先對(duì)分隔頁(yè)進(jìn)行掃描,從而獲得各個(gè)分隔 頁(yè)的圖像以及對(duì)應(yīng)的票據(jù)類型編號(hào),記錄各個(gè)分隔頁(yè)的圖像及其對(duì)應(yīng)的票據(jù) 類型編號(hào),當(dāng)本步驟中再次根據(jù)圖像邊長(zhǎng)確定分隔頁(yè)的圖像后,根據(jù)該分隔 頁(yè)的圖像就能查找之前記錄的該分隔頁(yè)的圖像對(duì)應(yīng)的票據(jù)類型編號(hào)。
需要說明的是,本步驟中獲取的分隔頁(yè)圖像的邊長(zhǎng)可以是從系統(tǒng)緩存中 獲取,因?yàn)閷?shí)際使用時(shí),在步驟202中獲取到的圖像的高度和寬度值都可以 被存儲(chǔ)在系統(tǒng)緩存中,本步驟只需從緩存中調(diào)用在步驟202中獲取到的圖像 的高度和寬度值即可。在實(shí)際使用時(shí),圖像的寬度和高度不一定精確相同, 所以該圖像的邊長(zhǎng)也可以是圖像的寬度和高度的平均值,以此來設(shè)定所述分 隔頁(yè)圖像的邊長(zhǎng)與票據(jù)類型編號(hào)的對(duì)應(yīng)關(guān)系,而在獲取分隔頁(yè)圖像的邊長(zhǎng)時(shí), 只需在獲取到圖像的寬度和高度后計(jì)算其平均值即可獲得邊長(zhǎng)數(shù)值。所以本 步驟在此僅是實(shí)例性的說明,并不對(duì)此作出任何限制。
208. 根據(jù)所述分隔頁(yè)圖像的序號(hào)以及所述分隔頁(yè)圖像對(duì)應(yīng)的票據(jù)類型編 號(hào)對(duì)所述圖像化的票據(jù)進(jìn)行分類。
當(dāng)根據(jù)步驟206確認(rèn)分隔頁(yè)的圖像后,即可獲得該分隔頁(yè)圖像對(duì)應(yīng)的圖像序號(hào),根據(jù)該圖像序號(hào),可以確定在該序號(hào)前是否還有其他分隔頁(yè)的圖像 序號(hào),若沒有其它分隔頁(yè)的圖像序號(hào),則根據(jù)分隔頁(yè)圖像對(duì)應(yīng)的票據(jù)類型編 號(hào)可知,該序號(hào)前的票據(jù)全部為同一類票據(jù),票據(jù)類型為分隔頁(yè)圖像對(duì)應(yīng)的 票據(jù)類型編號(hào)。若有其它分隔頁(yè)的圖像序號(hào),則確定與該分隔頁(yè)的圖像序號(hào) 最接近的那個(gè)分隔頁(yè)的圖像序號(hào),兩個(gè)分隔頁(yè)圖像序號(hào)之間票據(jù)全部為同一 類票據(jù),票據(jù)類型為分隔頁(yè)圖像序號(hào)較大的分隔頁(yè)對(duì)應(yīng)的票據(jù)類型編號(hào)。
基于獲取到的票據(jù)序號(hào)和該類票據(jù)對(duì)應(yīng)的類型編號(hào),對(duì)票據(jù)進(jìn)行分類主 要可以是將同類票據(jù)圖像從所有圖像中分離出來,單獨(dú)建立文件夾保存以供 后續(xù)程序處理,也可以根據(jù)其他需要對(duì)分離出的同類票據(jù)圖像進(jìn)行實(shí)際應(yīng)用, 本實(shí)施例在此不對(duì)分類票據(jù)做任何限制。
為了更清楚地說明本實(shí)施例所述的方法,下面以一實(shí)例進(jìn)行輔助說明, 以便于本領(lǐng)域技術(shù)人員的理解。
本實(shí)例中的票據(jù)分三種,支票、本票和匯票,支票5張、本票10張、匯 票20張,需要的分隔頁(yè)為兩張,均為正方形,第一分隔頁(yè)的邊長(zhǎng)為5cm, 一 面為全黑色,另一面標(biāo)記有類型編號(hào)支票05;第二分隔頁(yè)的邊長(zhǎng)為8cm, 一面為全黑色,另一面標(biāo)記有類型編號(hào)本票06。先對(duì)分隔頁(yè)進(jìn)行初始化, 掃描兩張分隔頁(yè),記錄每個(gè)分隔頁(yè)的邊長(zhǎng)參數(shù)及其對(duì)應(yīng)的類型編號(hào)。將票據(jù) 疊好放置掃描儀處準(zhǔn)備掃描,其中掃描順序?yàn)橄葤呙柚?,再掃描本票,?后掃描匯票。其中支票與本票之間放置有第一分隔頁(yè),本票與匯票之間放置 有第二分隔頁(yè)。根據(jù)本實(shí)施例步驟201,在對(duì)通過分隔頁(yè)區(qū)分的不同類型的數(shù) 個(gè)票據(jù)依序進(jìn)行掃描后,按序生成包括所述分隔頁(yè)和數(shù)個(gè)票據(jù)的圖像,每個(gè) 圖像都按生成先后順序編號(hào),由于掃描是正反雙面掃描,所以每張票據(jù)和分 隔頁(yè)都生成兩張相應(yīng)的圖像。如前5張支票為1 10號(hào),第一分隔頁(yè)為ll、 12號(hào),10張本票為13 32號(hào),第二分隔頁(yè)為33、 34號(hào),最后20張匯票為 35 54號(hào),即總共生成54張圖像。
由于每張圖像都是以像素為單位,所以生成圖像的高度與寬度就是圖像的基本屬性,在生成圖像時(shí),圖像的高度和寬度是圖像的基本信息,要記錄 在圖像的參數(shù)中,根據(jù)步驟202就能獲取每張圖像的高度與寬度的數(shù)值;并 根據(jù)步驟203計(jì)算每個(gè)圖像高度與寬度比值,從而根據(jù)步驟204判斷高度與 寬度比值接近1的圖像,該圖像即可為分隔頁(yè)圖像。
為了進(jìn)一步確認(rèn)查找到的分隔頁(yè)圖像,根據(jù)步驟205對(duì)所述査找到的第 一、第二分隔頁(yè)圖像進(jìn)行二值化處理獲得黑白像素的圖像;根據(jù)步驟206判 斷所述黑白像素圖像中的黑色像素比率是否高于預(yù)先設(shè)定的百分比,若高于 預(yù)先設(shè)定的百分比98%,則確定所述圖像為分隔頁(yè)圖像;由于第一、第二分 隔頁(yè)一面為黑色的圖像中黑色像素比率幾乎為100%,所以確認(rèn)這兩張圖像為 分隔頁(yè)圖像;
根據(jù)步驟207獲取第一、第二分隔頁(yè)圖像的邊長(zhǎng)5cm、 8cm,根據(jù)預(yù)先設(shè) 定好的所述分隔頁(yè)圖像的邊長(zhǎng)與票據(jù)類型編號(hào)的對(duì)應(yīng)關(guān)系,査找到第一分隔 頁(yè)圖像對(duì)應(yīng)的票據(jù)類型編號(hào)為支票05,第二分隔頁(yè)圖像對(duì)應(yīng)的票據(jù)類型編號(hào) 為本票06;最后根據(jù)步驟208,由于第一分隔頁(yè)的序號(hào)為11、 12號(hào),所以第 一分隔頁(yè)圖像之前的10張圖像都為支票;第二分隔頁(yè)的序號(hào)為33、 34號(hào), 所以第二分隔頁(yè)圖像之前的20張圖像都為本票,剩下的圖像都為匯票,終端 計(jì)算機(jī)根據(jù)確認(rèn)的分隔頁(yè)圖像將各個(gè)分隔頁(yè)圖像前后的票據(jù)進(jìn)行分類以供后 續(xù)程序處理。
本發(fā)明實(shí)施例的優(yōu)點(diǎn)在于可以根據(jù)預(yù)先設(shè)計(jì)的分隔頁(yè)的幾何特征,甚 至黑白像素特征,簡(jiǎn)單、快速的識(shí)別出分隔頁(yè)的圖像,從而根據(jù)識(shí)別出的分 隔頁(yè)圖像對(duì)不同類型的票據(jù)進(jìn)行分類管理。
實(shí)施例三
為了更好的實(shí)現(xiàn)上述實(shí)施例所述的方法,本實(shí)施例提供一種票據(jù)分類的 裝置,如圖3所示,圖3為本實(shí)施例所述裝置的功能結(jié)構(gòu)框圖,由圖3可知 所述裝置可以包括圖像生成單元301、分隔頁(yè)圖像查找單元302、票據(jù)分類單 元304,所述裝置還可以包括分隔頁(yè)圖像確認(rèn)單元303,圖像生成單元301,主要用于在對(duì)通過分隔頁(yè)區(qū)分的不同類型的數(shù)個(gè)票據(jù) 依序進(jìn)行掃描后,按序生成包括所述分隔頁(yè)和數(shù)個(gè)票據(jù)的圖像;
分隔頁(yè)圖像査找單元302,主要用于根據(jù)所述圖像的幾何特征査找分隔頁(yè) 圖像;
分隔頁(yè)圖像確認(rèn)單元303,主要用于在分隔頁(yè)圖像査找單元查找分隔頁(yè)圖
像之后,根據(jù)査找到圖像的顏色特征確認(rèn)所述分隔頁(yè)圖像;
票據(jù)分類單元304,主要用于根據(jù)分隔頁(yè)圖像査找單元302查找到的分隔
頁(yè)圖像或分隔頁(yè)圖像確認(rèn)單元303確認(rèn)的分隔頁(yè)圖像,對(duì)所述不同類型的數(shù)
個(gè)圖像化票據(jù)進(jìn)行分類。
其中,分隔頁(yè)圖像查找單元302可以包括
獲取模塊321,主要用于獲取圖像的高度與寬度的數(shù)值;
計(jì)算模塊322,主要用于根據(jù)獲取到的圖像的高度與寬度的數(shù)值,計(jì)算高
度與寬度比值;
判斷模塊323,主要用于判斷圖像的高度與寬度比值是否在預(yù)先設(shè)定的數(shù) 值范圍內(nèi),若在預(yù)先設(shè)定的數(shù)值范圍內(nèi),則判斷所述圖像為分隔頁(yè)的圖像, 將該圖像發(fā)送至分隔頁(yè)圖像確認(rèn)單元303或票據(jù)分類單元304中進(jìn)行后續(xù)步 驟的處理。
其中所述分隔頁(yè)圖像確認(rèn)單元303包括
圖像二值化處理模塊331,主要用于對(duì)所述査找到的圖像進(jìn)行二值化處理 獲得黑白像素的圖像;
判斷模塊332,主要用于根據(jù)二值化算法判斷所述黑白像素圖像中的黑色 像素比率是否高于預(yù)先設(shè)定的百分比,若高于預(yù)先設(shè)定的百分比,則確定所 述圖像為分隔頁(yè)圖像,將該圖像發(fā)送至票據(jù)分類單元304中進(jìn)行后續(xù)步驟的 處理。
其中所述票據(jù)分類單元304包括
獲取模塊341 ,主要用于獲取所述分隔頁(yè)圖像查找單元302確定分隔頁(yè)圖像的邊長(zhǎng)或獲取所述分隔頁(yè)圖像確認(rèn)單元303確定分隔頁(yè)圖像的邊長(zhǎng);
查找模塊342,主要用于根據(jù)預(yù)先設(shè)定好的所述分隔頁(yè)圖像的邊長(zhǎng)與票據(jù) 類型編號(hào)對(duì)應(yīng)關(guān)系的映射表,査找所述分隔頁(yè)圖像對(duì)應(yīng)的票據(jù)類型編號(hào);
分類模塊343,主要用于根據(jù)所述分隔頁(yè)圖像的序號(hào)以及所述分隔頁(yè)圖像 對(duì)應(yīng)的票據(jù)類型編號(hào)對(duì)所述圖像化的票據(jù)進(jìn)行分類。
本發(fā)明實(shí)施例還提供一種分隔頁(yè),如圖4所示,圖4為本實(shí)施例所述的 分隔頁(yè)示意圖,所述分隔頁(yè)為正方形, 一面為全黑的深色,另一面標(biāo)記有票 據(jù)類型編號(hào)。不同的分隔頁(yè)邊長(zhǎng)不同,所以其對(duì)應(yīng)的票據(jù)類型編號(hào)也不相同, 從而可以被放置在不同類型的或需要區(qū)分的票據(jù)之間,當(dāng)將其與票據(jù)都掃描 成圖像時(shí),通過上述實(shí)施例中的方法和裝置可以識(shí)別出來,并以此對(duì)票據(jù)進(jìn) 行分類和管理。
需要說明的是,本實(shí)施例所述的裝置,可以根據(jù)不同的策略配置不同單 充,并不對(duì)單元的組合做任何限制,但基于本實(shí)施例的所述的單元的任意組 合方式來實(shí)現(xiàn)本實(shí)施例目的的都在本發(fā)明的保護(hù)范圍之內(nèi)。
本實(shí)施例的優(yōu)點(diǎn)在于提供了一種實(shí)現(xiàn)上述方法的裝置和分隔頁(yè),使得 本實(shí)施例可以在對(duì)圖像化的票據(jù)進(jìn)行分類時(shí)提高識(shí)別分隔頁(yè)的效率,進(jìn)而可 以根據(jù)識(shí)別出的分隔頁(yè)對(duì)不同類型的票據(jù)進(jìn)行分類操作,使得對(duì)票據(jù)的分類 不僅簡(jiǎn)單、方便、快速,而且無需更改硬件配置。
最后,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部 分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于一 計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括如下步驟
按序生成包括所述分隔頁(yè)和數(shù)個(gè)文件的圖像;
根據(jù)所述圖像的幾何特征查找分隔頁(yè)圖像;
根據(jù)查找到圖像的顏色特征確認(rèn)所述分隔頁(yè)圖像;
根據(jù)査找到或確認(rèn)的分隔頁(yè)圖像對(duì)所述不同類型的數(shù)個(gè)圖像化文件進(jìn)行 分類。所述的存儲(chǔ)介質(zhì)可以為,如ROM/RAM、磁碟、光盤等。
當(dāng)然,以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域 的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn) 和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種文件分類的方法,其特征在于,所述方法包括在對(duì)通過分隔頁(yè)區(qū)分的不同類型的數(shù)個(gè)文件依序進(jìn)行掃描后,按序生成包括所述分隔頁(yè)和數(shù)個(gè)文件的圖像;根據(jù)所述圖像的幾何特征查找分隔頁(yè)圖像;根據(jù)查找到的分隔頁(yè)圖像對(duì)所述不同類型的數(shù)個(gè)圖像化文件進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)所述分隔頁(yè)為正方形時(shí), 所述根據(jù)所述圖像的幾何特征査找分隔頁(yè)圖像包括,獲取圖像的高度與寬度的數(shù)值;根據(jù)獲取到的圖像的高度與寬度的數(shù)值,計(jì)算高度與寬度比值; 判斷圖像的高度與寬度比值是否在預(yù)先設(shè)定的數(shù)值范圍內(nèi),若在預(yù)先設(shè) 定的數(shù)值范圍內(nèi),則為分隔頁(yè)的圖像。
3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在根據(jù)所述圖像的幾何 特征查找分隔頁(yè)圖像之后,所述方法還包括-根據(jù)査找到圖像的顏色特征確認(rèn)所述分隔頁(yè)圖像。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,當(dāng)所述分隔頁(yè)一面為深色系 顏色時(shí),所述根據(jù)查找到圖像的顏色特征確認(rèn)所述分隔頁(yè)圖像包括對(duì)所述查找到的圖像進(jìn)行二值化處理獲得黑白像素的圖像; 根據(jù)二值化算法判斷所述黑白像素圖像中的黑色像素比率是否高于預(yù)先 設(shè)定的百分比,若高于預(yù)先設(shè)定的百分比,則確定所述圖像為分隔頁(yè)圖像。
5. 根據(jù)權(quán)利要求2或4所述的方法,其特征在于,所述根據(jù)查找到的分隔 頁(yè)圖像對(duì)所述不同類型的數(shù)個(gè)圖像化文件進(jìn)行分類包括獲取所述分隔頁(yè)圖像的邊長(zhǎng);根據(jù)預(yù)先設(shè)定好的所述分隔頁(yè)圖像的邊長(zhǎng)與文件類型編號(hào)的對(duì)應(yīng)關(guān)系, 査找所述分隔頁(yè)圖像對(duì)應(yīng)的文件類型編號(hào);根據(jù)所述分隔頁(yè)圖像的序號(hào)以及所述分隔頁(yè)圖像對(duì)應(yīng)的文件類型編號(hào)對(duì)所述圖像化的文件進(jìn)行分類。
6. —種文件分類的裝置,其特征在于,所述裝置包括-圖像生成單元,用于在對(duì)通過分隔頁(yè)區(qū)分的不同類型的數(shù)個(gè)文件依序進(jìn)行掃描后,按序生成包括所述分隔頁(yè)和數(shù)個(gè)文件的圖像;分隔頁(yè)圖像查找單元,用于根據(jù)所述圖像的幾何特征査找分隔頁(yè)圖像; 文件分類單元,用于根據(jù)查找到的分隔頁(yè)圖像對(duì)所述不同類型的數(shù)個(gè)圖像化文件進(jìn)行分類。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,當(dāng)所述分隔頁(yè)為正方形時(shí), 所述分隔頁(yè)圖像查找單元包括,獲取模塊,用于獲取圖像的高度與寬度的數(shù)值;計(jì)算模塊,用于根據(jù)獲取到的圖像的高度與寬度的數(shù)值,計(jì)算高度與寬 度比值;判斷模塊,用于判斷圖像的高度與寬度比值是否在預(yù)先設(shè)定的數(shù)值范圍 內(nèi),若在預(yù)先設(shè)定的數(shù)值范圍內(nèi),則為分隔頁(yè)的圖像。
8. 根據(jù)權(quán)利要求6或7所述的裝置,其特征在于,所述裝置還包括 分隔頁(yè)圖像確認(rèn)單元,用于在分隔頁(yè)圖像查找單元查找分隔頁(yè)圖像之后,根據(jù)査找到圖像的顏色特征確認(rèn)所述分隔頁(yè)圖像。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,當(dāng)所述分隔頁(yè)一面為深色系 顏色時(shí),所述分隔頁(yè)圖像確認(rèn)單元包括圖像二值化處理模塊,用于對(duì)所述査找到的圖像進(jìn)行二值化處理獲得黑 白像素的圖像;判斷模塊,用于根據(jù)二值化算法判斷所述黑白像素圖像中的黑色像素比 率是否高于預(yù)先設(shè)定的百分比,若高于預(yù)先設(shè)定的百分比,則確定所述圖像 為分隔頁(yè)圖像。
10. 根據(jù)權(quán)利要求6或9所述的裝置,其特征在于,所述文件分類單元包括獲取模塊,用于獲取所述分隔頁(yè)圖像的邊長(zhǎng);查找模塊,用于根據(jù)預(yù)先設(shè)定好的所述分隔頁(yè)圖像的邊長(zhǎng)與文件類型編 號(hào)對(duì)應(yīng)關(guān)系的映射表,査找所述分隔頁(yè)圖像對(duì)應(yīng)的文件類型編號(hào);分類模塊,用于根據(jù)所述分隔頁(yè)圖像的序號(hào)以及所述分隔頁(yè)圖像對(duì)應(yīng)的 文件類型編號(hào)對(duì)所述圖像化的文件進(jìn)行分類。
11. 一種分隔頁(yè),用于放置在不同類別的文件之間以區(qū)分文件類型,其特 征在于,所述分隔頁(yè)的形狀為正方形,所述分隔頁(yè)一面為深色系顏色,另一 面設(shè)置有文件類型標(biāo)記。
全文摘要
本發(fā)明實(shí)施例提供一種分隔頁(yè)、以及利用該分隔頁(yè)的文件分類的方法和裝置,其中所述方法包括在對(duì)通過分隔頁(yè)區(qū)分的不同類型的數(shù)個(gè)文件依序進(jìn)行掃描后,按序生成包括所述分隔頁(yè)和數(shù)個(gè)文件的圖像;根據(jù)所述圖像的幾何特征查找分隔頁(yè)圖像;根據(jù)查找到的分隔頁(yè)圖像對(duì)所述不同類型的數(shù)個(gè)圖像化文件進(jìn)行分類。本發(fā)明實(shí)施例的優(yōu)點(diǎn)在于通過設(shè)計(jì)一種簡(jiǎn)單的分隔頁(yè),可以使得在對(duì)圖像化的文件進(jìn)行分類時(shí)提高識(shí)別分隔頁(yè)的效率,進(jìn)而可以根據(jù)識(shí)別出的分隔頁(yè)對(duì)不同類型的文件進(jìn)行分類操作,使得對(duì)文件的分類不僅簡(jiǎn)單、方便、快速,而且無需更改硬件配置。
文檔編號(hào)G06F17/30GK101609453SQ20091005456
公開日2009年12月23日 申請(qǐng)日期2009年7月9日 優(yōu)先權(quán)日2009年7月9日
發(fā)明者李劍鋒, 韌 蔣 申請(qǐng)人:交通銀行股份有限公司