文檔圖像識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及多媒體信息處理領(lǐng)域,具體地說,是涉及文檔圖像識(shí)別方法。
【背景技術(shù)】
[0002] 圖像文件中有一類圖像以文字、表格等為主要內(nèi)容的,這些圖像是記錄在紙張上、 電子文檔上的文字經(jīng)過掃描、拍照、截圖等方式轉(zhuǎn)化而來的,這類圖像通常被定義為文檔圖 像。隨著互聯(lián)網(wǎng)和多媒體技術(shù)的迅速發(fā)展,文檔圖像以其固有的優(yōu)勢,一方面能提供較大的 信息量,另一方面可以規(guī)避現(xiàn)有的采集、監(jiān)測,越來越多的在互聯(lián)網(wǎng)上呈現(xiàn)。
[0003] 為此,對(duì)文檔圖像的識(shí)別,挖掘其包含的信息、實(shí)現(xiàn)圖像內(nèi)容的監(jiān)控和預(yù)警,是互 聯(lián)網(wǎng)信息挖掘及互聯(lián)網(wǎng)信息安全規(guī)范不可避免的道路。但文檔圖像通常和大量的非文檔圖 像混雜在一起,以人工方法將文檔圖像挑選出來,費(fèi)時(shí)費(fèi)力,且容易產(chǎn)生主觀偏見,導(dǎo)致結(jié) 果不一致;另外有一些自動(dòng)識(shí)別方法,利用文檔圖像與非文檔圖像在顏色與紋理上的差異 來識(shí)別,這些方法主要根據(jù)灰度值利用概率模型進(jìn)行識(shí)別,對(duì)于彩色圖像容易誤識(shí)別,且需 要配置較多的經(jīng)驗(yàn)參數(shù);隨著光學(xué)字符識(shí)別(OCR)的發(fā)展,基于OCR的文檔圖像識(shí)別逐漸受 重視,OCR識(shí)別雖然準(zhǔn)確性高,但是效率比較低,無法滿足海量數(shù)據(jù)時(shí)代的需求。
[0004] 為此,針對(duì)當(dāng)前海量圖像識(shí)別、監(jiān)測、檢索的實(shí)時(shí)性需求,本發(fā)明提出一種文檔圖 像識(shí)別方法,將單個(gè)文字看作是文檔圖像上的一個(gè)小區(qū)域,基于聚類的思想識(shí)別圖像上的 連通區(qū)域,抽取每個(gè)區(qū)域上的形狀特征、顏色特征,設(shè)計(jì)概率模型,實(shí)現(xiàn)文檔圖像的識(shí)別,以 解決當(dāng)前海量圖像識(shí)別時(shí)效率低、準(zhǔn)確性不高的問題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明要解決的技術(shù)問題是提供一種基于區(qū)域特征的文檔圖像識(shí)別方法,提高海 量圖像處理的效率和準(zhǔn)確性。
[0006] 為解決當(dāng)前海量圖像識(shí)別的準(zhǔn)確性低、效率低的問題,本發(fā)明提供了一種文檔圖 像識(shí)別方法,該方法包括: S10,圖像預(yù)處理,對(duì)圖像進(jìn)行去噪和二值化處理; S20,獲取圖像連通區(qū)域,抽取圖像上所有連通區(qū)域; S30,連通區(qū)域特征抽??; S40,文檔圖像判別。
[0007] 更進(jìn)一步,圖像連通區(qū)域由像素點(diǎn)構(gòu)成,可定義如下:對(duì)于像素點(diǎn)PlP Pxy,如果滿 足i-Ι彡X彡i+Ι且j-Ι彡y彡j+Ι,則ΡιΡΡΧ?屬于同一個(gè)連通區(qū)域。
[0008] 基于聚類思想,采用8連通準(zhǔn)則,對(duì)圖像上灰度為0和255的像素點(diǎn)分別聚類,獲 取連通區(qū)域&={&,R 2,…,RJ,并統(tǒng)計(jì)連通區(qū)域個(gè)數(shù)記為Α。
[0009] 更進(jìn)一步地,S30,連通區(qū)域特征主要從連通區(qū)域的形狀特征、顏色特征層面抽取。
[0010] S301,疑似字符識(shí)別; 二值圖像的區(qū)域填充率FR0U,定義為:區(qū)域像素點(diǎn)1占所有像素的比值。
[0011] 疑似字符SQ,定義為:區(qū)域長寬比AR0U小于一定閾值,且區(qū)域填充率在一定閾 值區(qū)間的連通區(qū)域。疑似字符集記為SC s,可判定如下:
其中,Ri e Rs,Υ、α、β為對(duì)應(yīng)的閾值,滿足條件的民即為疑似字符SCp SCs包含于 Rs。記圖像中疑似字符集SCsS個(gè)數(shù)為B。
[0012] S302, 一致性字符發(fā)現(xiàn); 一致性字符是指區(qū)域大小相似的疑似字符,區(qū)域大小可以通過區(qū)域面積來描述; 每個(gè)疑似字符在圖像上實(shí)際是一塊塊區(qū)域,這些區(qū)域具有一定的面積值,記每一塊區(qū) 域的面積值為SQ(S(;),這些面積值中一定存在一個(gè)或多個(gè)面積值,出現(xiàn)的次數(shù)最多,則該 次數(shù)記為C,這些面積值對(duì)應(yīng)的區(qū)域即為一致性字符。
[0013] S303,真實(shí)字符判斷; 通過疑似字符的前景色和背景色的色差來判斷,其判別方法如下: δ 0 (SC,) + δ ! (SC,) ^ 0. 6*ABS (E〇 (SC,) -Ei (SC,)) 其中,EJSCJ和SJSCJ為疑似字符背景色的均值和方差,EJSQ)和SJSCJ為疑似 字符前景色的均值和方差。滿足這個(gè)條件的疑似字符稱為真實(shí)字符,其個(gè)數(shù)記為D。
[0014] 更進(jìn)一步,S40,文檔圖像判別,本發(fā)明綜合以上特征,設(shè)計(jì)概率模型來判別文檔圖 像,其判別方法如下: P=a1*Q?)+ a2*Q(C)+ a3*Q(D)+a4*B/A+a5*C/B+ a6*D/B 其中a2, ···,&(;為經(jīng)驗(yàn)值,且81 + 82+…+ a6=l;(2)
概率值大于一定閾值即被識(shí)別為文檔圖像。
[0015] 本發(fā)明技術(shù)方案提供的文檔圖像識(shí)別方法,挖掘文檔圖像的區(qū)域形狀特征、顏色 特征,設(shè)計(jì)文檔圖像判別概率模型,解決了 OCR文檔圖像識(shí)別效率低、常用識(shí)別方法識(shí)別準(zhǔn) 確性不高的問題,為文檔圖像信息抽取提供了基礎(chǔ)技術(shù)保障。
【附圖說明】
[0016] 圖1為本發(fā)明實(shí)施例提供的文檔圖像識(shí)別方法流程圖。 具體實(shí)施方案
[0017] 為使本發(fā)明實(shí)施例的目的、技術(shù)方法、及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖對(duì)本發(fā) 明實(shí)施例提供的技術(shù)方案進(jìn)行詳細(xì)說明。
[0018] 如圖1所示為本發(fā)明實(shí)施例提供的文檔圖像識(shí)別方法流程圖。
[0019] S10,圖像預(yù)處理 利用小波去噪法對(duì)圖像進(jìn)行去噪處理,保持圖像細(xì)節(jié),主要實(shí)現(xiàn)方式:對(duì)圖像信號(hào)進(jìn)行 小波分解;對(duì)經(jīng)過層次分解后的高頻系統(tǒng)進(jìn)行閾值量化;利用二維小波重構(gòu)圖像信號(hào)。采 用基于局部均值自適應(yīng)的二值化算法,以像素點(diǎn)局部區(qū)域的均值作為閾值,將圖像上點(diǎn)的 灰度置為〇或255,實(shí)現(xiàn)圖像的二值化。
[0020] S20,獲取圖像連通區(qū)域 圖像的連通區(qū)域,可定義為:對(duì)于像素點(diǎn)PpPq,如果滿足i-1 < X < i+Ι且 j-1彡y彡j+1,則ΡιΡΡΧ?屬于同一個(gè)連通區(qū)域; 采用區(qū)域生長算法依次完成圖像上灰度為0和255的像素點(diǎn)的聚類,獲取圖像上所有 連通區(qū)域札=取,R2,…,RJ,并統(tǒng)計(jì)聯(lián)通區(qū)域個(gè)數(shù)記為Α。
[0021] S30,連通區(qū)域特征抽取 主要從連通區(qū)域的形狀特征、顏色特征兩個(gè)層面抽取特征。
[0022] S301,疑似字符識(shí)別 二值圖像的區(qū)域填充率FR (民),定義為:區(qū)域像素點(diǎn)1占所有像素的比值; 疑似字符SQ,定義為:區(qū)域的長寬比AR0U小于一定閾值,填充率達(dá)在一定閾值區(qū)間 的連通區(qū)域??膳卸ㄈ缦拢?br>其中,民e Rs,Υ、α、β為對(duì)應(yīng)的閾值,一般Υ=2, α =〇· 1,β =〇· 9,滿足條件的民即 為疑似字符SQ,SCs包含于Rs。記圖像中疑似字符集SCs總個(gè)數(shù)為Β。
[0023] S302, 一致性字符發(fā)現(xiàn) 一致性字符是指區(qū)域大小相似的疑似字符,區(qū)域大小可以通過區(qū)域面積來描述; 計(jì)算疑似字符的區(qū)域面積,并統(tǒng)計(jì)每種面積的疑似字符數(shù)量,數(shù)量最多的區(qū)域面積對(duì) 應(yīng)的疑似字符即為一致性字符,其個(gè)數(shù)為C。
[0024] S303,真實(shí)字符判斷 通過疑似字符的前景色和背景色的色差來判斷,其判別方法如下: δ 0 (SC,) + δ ! (SC,) ^ 0. 6*ABS (E〇 (SC,) -Ei (SC,)) 其中,EJSCJ和SJSCJ為疑似字符背景色的均值和方差,EJSQ)和SJSCJ為疑似 字符前景色的均值和方差。滿足這個(gè)條件的疑似字符稱為真實(shí)字符,其個(gè)數(shù)記為D。
[0025] S40,文檔圖像判別 綜合以上多特征,設(shè)計(jì)概率模型,其判別方法如下: P=a1*Q?)+ a2*Q(C)+ a3*Q(D)+a4*B/A+a5*C/B+ a6*D/B 其中:(1)31,32,*",36為經(jīng)驗(yàn)值,且3 1+32+*"+36=1,可取經(jīng)驗(yàn)值為 {0. 2,0. 15,0. 1,0. 25,0. 2,0. 1} ;(2)
概率值大于一定閾值即被識(shí)別為文檔圖像,一般取P>〇. 5。
【主權(quán)項(xiàng)】
1. 文檔圖像識(shí)別方法,其特征在于,包括W下步驟: S10,圖像預(yù)處理,對(duì)圖像進(jìn)行去噪和二值化處理; S20,獲取圖像連通區(qū)域,抽取圖像上所有連通區(qū)域; S30,連通區(qū)域內(nèi)特征抽??; S40,文檔圖像判別。2. 根據(jù)權(quán)利要求1所述的文檔圖像識(shí)別方法,其特征在于,圖像連通區(qū)域是指,圖像上 的像素點(diǎn)PiP Pq滿足i-1《X《i+1且j-1《y《j+1,則Pii、Pq屬于同一個(gè)連通區(qū)域。3. 根據(jù)權(quán)利要求1和權(quán)利要求2所述的文檔圖像識(shí)別方法,其特征在于,基于聚類的思 想,采用8連通準(zhǔn)則,對(duì)圖像上灰度為O和255的像素點(diǎn)分別聚類,獲取連通區(qū)域,并統(tǒng)計(jì)連 通區(qū)域個(gè)數(shù),記為A。4. 根據(jù)權(quán)利要求1所述的文檔圖像識(shí)別方法,其特征在于,從區(qū)域的形狀特征、顏色特 征抽取連通區(qū)域特征,主要包括: S301,疑似字符識(shí)別; 疑似字符是指區(qū)域的長寬比小于一定闊值,填充率在一定闊值區(qū)間的連通區(qū)域,其中 填充率通過區(qū)域像素點(diǎn)1占所有像素的比值來描述; 5302, 一致性字符發(fā)現(xiàn); 一致性字符是指區(qū)域大小相似的疑似字符,區(qū)域大小可W通過區(qū)域面積來描述,一致 性字符的總個(gè)數(shù)記為C ; 5303, 真實(shí)字符判斷; 真實(shí)字符通過區(qū)域的前景色和背景色的色差來判定。5. 如權(quán)利要求1和權(quán)利要求4所述的文檔圖像識(shí)別方法,其特征在于,疑似字符識(shí)別方 法為:其中,氏為連通區(qū)域,AR(Ri)為區(qū)域長寬比,F(xiàn)R(Ri)為區(qū)域填充率,Y、a、目為對(duì)應(yīng)的 闊值,滿足條件的Ri即為疑似字符SCi,記圖像中疑似字符集總個(gè)數(shù)為B。6. 如權(quán)利要求1和權(quán)利要求4所述的文檔圖像識(shí)別方法,其特征在于,真實(shí)字符的判定 方法為: 5。(SCi) + 5 1 (SCi)《0. 6*ABS (E〇 (SCi) -Ei (SCi)) 其中,Ee(SCi)和6 U(SCi)為疑似字符背景色的均值和方差,Ei (SCi)和Si(SCi)為疑似 字符前景色的均值和方差。7. 滿足送個(gè)條件的疑似字符稱為真實(shí)字符,其個(gè)數(shù)記為D。8. 如權(quán)利要求1所述的文檔圖像識(shí)別方法,其特征在于,文檔圖像判別概率模型設(shè)計(jì) 如下: P=ai*Q 度)+ 曰2*0(〇+ 曰3*0 值)+曰4 地/A+as*C/B+ ae*D/B 其中:(I ) a I,a 2,…,a 6為經(jīng)驗(yàn)值,且a 1+ a 2 +…+ a 6 = I ;概率值大于一定闊值即被識(shí)別為文檔圖像。
【專利摘要】文檔圖像識(shí)別方法,包括圖像預(yù)處理、獲取圖像連通區(qū)域、連通區(qū)域特征抽取、文檔圖像判別,圖像連通區(qū)域的獲取借助了聚類的思想,應(yīng)用8連通準(zhǔn)則,對(duì)灰度值為0和255的像素點(diǎn)分別聚類,準(zhǔn)確識(shí)別連通區(qū)域。連通區(qū)域特征包括形狀特征、顏色特征,主要分三種方式抽取,依次為疑似字符識(shí)別、一致性字符發(fā)現(xiàn)、真實(shí)字符判斷,特征抽取簡潔、復(fù)雜度低。實(shí)現(xiàn)了文檔圖像的準(zhǔn)確、高效的識(shí)別,解決了文檔圖像識(shí)別性能低下的問題。
【IPC分類】G06K9/20, G06K9/00
【公開號(hào)】CN105590082
【申請(qǐng)?zhí)枴緾N201410563687
【發(fā)明人】施水才, 程濤
【申請(qǐng)人】北京拓爾思信息技術(shù)股份有限公司
【公開日】2016年5月18日
【申請(qǐng)日】2014年10月22日