專利名稱:印刷體蒙古文字符識別方法
技術(shù)領(lǐng)域:
印刷體蒙古文字符識別方法屬于字符識別領(lǐng)域。
背景技術(shù):
蒙古語屬阿爾泰語系蒙古語族,是廣泛分布在我國內(nèi)蒙古、新疆、北京、遼寧、黑龍江、吉林、甘肅、青海等省區(qū)的蒙古族使用的主要語言。其書面表現(xiàn)形式——蒙古文(現(xiàn)行)是以回鶻字母為基礎(chǔ)的拼音文字,在形體、寫法變化等方面均有獨特之處。
蒙古文以詞為單位縱向書寫或印刷,詞與詞之間由明顯的空格加以分隔。每一個詞由一個或多個字母組成,在詞的內(nèi)部,各字符沿著基線互相連接(圖6)。蒙古文共有35個字母,其中元音7個,輔音28個,這些字母是蒙古文字符的名義形式。每個字母根據(jù)其在詞中位置的不同表現(xiàn)為詞首形式、詞中形式和詞尾形式等3種不同的字符形式,反映在文本圖像上就是字母的頂部和底部與相鄰字母的連接關(guān)系的不盡相同1)詞首形式底部與下一個字母頂部直接相連而頂部不與其它字母直接相連;2)詞中形式頂部和底部分別與其上下相鄰字母的底部和頂部直接連接;3)詞尾形式頂部與上一個字母底部直接相連而底部不與其它字母直接相連。這樣,35個可以演化成多個不同的字符形式,它們構(gòu)成蒙古文字符的變形顯現(xiàn)形式(圖5)。
蒙古文是我國重要的少數(shù)民族文字,開展蒙古文字符識別技術(shù)研究是中文多文種信息處理系統(tǒng)發(fā)展的迫切需要。此外,錫伯文、滿文等少數(shù)民族文字無論在字母體系、字符來源還是語法構(gòu)成上均與蒙古文極其相似,因而蒙古文字符識別的研究也必定會對這些類似的少數(shù)民族文字識別技術(shù)的發(fā)展產(chǎn)生積極的促進作用。目前,針對蒙古文字符集的字符識別的研究才剛剛起步,各方面都要遠(yuǎn)遠(yuǎn)落后于其它廣泛使用的文字(如拉丁字母、漢字、日文等)字符識別的研究,現(xiàn)有的方法可以分成兩大類1.結(jié)構(gòu)方法。對于給定的字符集,抽取數(shù)量有限的不可分割的最小子模式(基元),將這些基元按照特定的順序和規(guī)則組合起來可以構(gòu)成該字符集中的任何字符。這樣,利用字符結(jié)構(gòu)與語言之間的相似性,字符識別可以借助形式語言學(xué)的文法(包含了句法規(guī)則)來描述和剖析字符的結(jié)構(gòu)。由于蒙古文字符集的文本僅由35個基本字母拼寫而成,而且字符筆劃往往不多,結(jié)構(gòu)不是非常復(fù)雜,所以按照拼音文字常用的方法,采用結(jié)構(gòu)分析方法來識別字符,在理論上可期望得到非常高的識別率?,F(xiàn)有的研究均側(cè)重于該類方法。但由于結(jié)構(gòu)方法本身的局限性(易受各種噪聲影響,魯棒性不強)和蒙古文字符集的特殊性(大量相似字符的存在),此種方法的實際應(yīng)用效果極不理想。
2.統(tǒng)計方法。抽取字符的統(tǒng)計特征,每個字符模式用一個特征向量表示,它被看成是特征空間中的一個點。識別的過程就是運用統(tǒng)計分類器在特征空間中將待識別字符模式正確地劃分到所屬的類別中。該方法具有抗噪性能好,可推廣性強的優(yōu)點。但如何選取簡潔有效的特征來表示字符以及如何設(shè)計合理的分類器,是直接影響識別性能的關(guān)鍵環(huán)節(jié)。目前雖有少量基于統(tǒng)計方法的蒙古文字符識別技術(shù)見諸文獻,但選用的基本上局限于筆畫密度、連續(xù)區(qū)域數(shù)目、寬高比等簡單直接的字符表示特征,分類判決則采用歐氏距離這樣簡單的判決準(zhǔn)則。因為特征的局部刻畫能力嚴(yán)重不足,又未能充分利用特征空間的高階信息,現(xiàn)有統(tǒng)計方法的識別性能距離實用需求尚有不小差距。
字符筆劃數(shù)少且筆劃構(gòu)成以弧線為主,筆劃結(jié)構(gòu)信息欠豐富且不易提取、字符集中相似字子集多,相似程度極高、字符寬度和高度都不具有一致性、字符上下邊界存在不確定性、不同字體間字型差異大,某些字體接近手寫草體、常用字號偏小等特點給蒙古文字符集的字符識別研究帶來了極大挑戰(zhàn)。
本發(fā)明提出了一種基于統(tǒng)計模式識別方法的印刷體蒙古文字符識別的完整的方法。根據(jù)字符本身的特點(空間區(qū)域信息和字符形式信息)進行預(yù)分類,提取方向特征,經(jīng)特征優(yōu)化處理,由修正二次鑒別函數(shù)完成分類判決,實現(xiàn)了高性能印刷體蒙古文字符識別方法,這是目前所有其他文獻里都沒有使用過的方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于實現(xiàn)一個印刷體蒙古文字符識別方法。以單個印刷體字符作為處理對象,首先對字符對象進行預(yù)分類處理,確定其所屬的字符類別子集,然后提取能很好反映字符特點的方向特征,再經(jīng)過特征整形和LDA(線性鑒別分析)方法對特征進行優(yōu)化,最后運用MQDF(改進的二次鑒別函數(shù))統(tǒng)計分類器進行分類判決。由此,可以得到極高的單字識別正確率。根據(jù)該方法,實現(xiàn)了一個多字體多字號的印刷體蒙古文字符識別系統(tǒng)。
作為一個印刷體蒙古文字符識別系統(tǒng)還包括單字樣本的采集,即系統(tǒng)首先掃描輸入多字體多字號的印刷體蒙古文文本,采用自動的方式進行字符切分和字符預(yù)分類信息提取,得到單字符的訓(xùn)練樣本庫和相應(yīng)的預(yù)分類信息集。利用預(yù)分類信息集,對字符全集進行初始劃分,形成字符類別子集庫;利用采集建立的訓(xùn)練樣本數(shù)據(jù)庫,進行方向特征的抽取和特征優(yōu)化,得到訓(xùn)練樣本的特征數(shù)據(jù)庫。在訓(xùn)練樣本的特征數(shù)據(jù)庫的基礎(chǔ)上,通過實驗確定分類器的參數(shù)。對未知的輸入字符樣本,先對其進行預(yù)分類以確定其所屬字符類別子集,然后采用同樣的方法抽取特征,再送入分類器與特征庫進行分類比較,從而判斷輸入字符的類別屬性。
本發(fā)明由以下幾部分組成預(yù)分類、特征提取、特征優(yōu)化、分類器設(shè)計。
1.預(yù)分類預(yù)分類信息I空間區(qū)域信息ZI(Zone Information)因蒙古文字符集中的字符的寬度各不相同,受排列方式的制約,在水平方向上占據(jù)的空間區(qū)域也不一樣。文本行的基線(Baseline)將空間區(qū)域在水平方向上分為三個區(qū),從左到右依次為基線左方的左側(cè)區(qū)域(Left Zone)、基線所在的基準(zhǔn)區(qū)域(Base Zone)、基線右方的右側(cè)區(qū)域(Right Zone),如圖7所示。
根據(jù)占據(jù)區(qū)域的不同,可將實際文本中出現(xiàn)的字符分為2種類型,通過對ZI賦予不同的數(shù)值來加以區(qū)分。ZI的2種合法取值對應(yīng)于字符的2種類型,如下表所示表1 ZI的取值與對應(yīng)的字符占據(jù)空間區(qū)域的關(guān)系
預(yù)分類信息II字符形式信息FI(Form Information)蒙古文字符集中的基本字母在實際文本表現(xiàn)為3種字符形式首寫形式(Initial Form)、中間形式(Medial Form)、尾寫形式(Final Form)。嚴(yán)格來說,蒙古文字符只有上述3種字符形式,但一些特殊詞尾字符在其上側(cè)因特殊控制符的插入而出現(xiàn)一些空隙,效果上等價于將這些詞尾字符獨立開來,在某些特定字體中這種情況尤其常見;此外,蒙古文中的數(shù)字、符號等也是單獨書寫和印刷的。有鑒于此,在詞首、詞中、詞尾等3種標(biāo)準(zhǔn)字符形式之外,本發(fā)明引入一種單寫形式(Isolated Form)來表示那些被單獨隔離開來的特殊的詞尾字符和數(shù)字、符號。通過檢測字符圖像的上下兩側(cè)與其它字符之間的連接關(guān)系,任何一個蒙古文字符均能被分入由全體單寫字符組成的單寫字符子集、由全體詞首形式字符組成的詞首字符子集、由全體詞中形式字符組成的詞中字符子集和由全體詞尾形式字符組成的詞尾字符子集等4個字符子集中的某一個,即,所以出現(xiàn)在實際文本中的每個字符必定為這4種字符形式中的一種。假設(shè)x為實際文本中的一個字符,判斷其字符形式的準(zhǔn)則為若x在其上側(cè)和下側(cè)均不與其它字符直接相連,則x為單寫形式字符,令FI=0表示;若x在其上側(cè)不與其它字符直接相連,而在其下側(cè)與其它字符直接相連,則x為首寫形式字符,令FI=1表示;若x在其上側(cè)和下側(cè)均與其它字符直接相連,則x為中間形式字符,令FI=2表示;
若x在其上側(cè)與其它字符直接相連,而在其下側(cè)不與其它字符直接相連,則x為尾寫形式字符,令FI=3表示;在以上準(zhǔn)則中,兩個字符“直接相連”是指這兩個字符在基線位置處連結(jié)在一起,中間不存在空隙。
這樣,根據(jù)字符形式信息,可將實際文本中出現(xiàn)的字符集劃分為4個不同的子集。
基于上述分析,一組包含區(qū)域信息ZI和字符形式信息FI的預(yù)分類信息可將整個待處理字符集Ω={ω1,ω2,…,ωc),c為字符集Ω中字符類別的數(shù)量,劃分成2×4=8個字符類別子集Ωk,k=1,2,…,8,ck為字符類別子集Ωk中字符類別的數(shù)量,c和ck,k=1,2,…,8均為正整數(shù),有Ωm∩Ωn=_,m≠nΩ=Uk=18Ωk]]>Σk=18ck=c]]>其中_表示空集。而且,劃分子集后可使每個ck均遠(yuǎn)小于c。
將預(yù)分類信息表示為向量形式IPC=[ZI,F(xiàn)I]T,其分量分別表示區(qū)域信息和字符形式信息,記IPCΩk和IPCωm分別表示字符集合Ωk的預(yù)分類信息向量和單個字符類別ωm的預(yù)分類信息向量。由以上分析可知,每個字符子集Ωk均為具有完全相同的預(yù)分類信息的字符類別組成的集合,即_ωl,ωm∈Ωk,IPCωl=IPCωn]]>Ωk={ωm|ωm∈Ω,IPCωm=IPCΩk}]]>對于輸入未知類別的字符x,用IPCx表示其預(yù)分類信息向量,將IPCx與IPCΩk比較可確定x所屬的字符類別子集Ωkχ=argminΩk1≤k≤8||IPCΩk-IPCχ||,]]>其中‖·‖表示歐氏距離。
2.特征提取2.1象素特征分配設(shè)原始二值字符圖像為[B(i,j)]H×W=B(0,0),B(0,1),...,B(0,W-1)B(1,0),B(1,1),...,B(1,W-1)............B(H-1,0),B(H-1,1),...,B(H-1,W-1)]]>其中W為圖像寬度,H為圖像高度,圖像位于第i行、第j列的象素點的值為B(i,j),i=0,1,…,H-1,j=0,1,…,W-1。采用雙線性插值方法對[B(i,j)]H×W進行歸一化處理得到高度為M、寬度為N的字符點陣圖像[G(i,j)]M×N=G(0,0),G(0,1),...,G(0,N-1)G(1,0),G(1,1),...,G(1,N-1)............G(M-1,0),G(M-1,1),...,G(M-1,N-1)]]>假定字符圖像其筆劃所對應(yīng)的點為黑象素點,用“1”表示、背景所對應(yīng)的點為白象素點,用“0”表示,即G(i,j)=1,(i,j)∈δstroke0,(i,j)∈δbackground]]>,i=0,1,…,M-1,j=0,1,…,N-1其中δstroke和δbackground分別表示圖像中由字符筆劃對應(yīng)的點和背景點所組成的點的集合。
本發(fā)明采用16種基本方向特征元模板[R(k)(i,j)]5×5,k=1,2,…,16,來進行象素特征的分配,每個基本特征元模板大小均為5×5,如圖10所示。將這16個模板分別作用于字符圖像[G(i,j)]M×N,得到字符的16個基本特征平面[P(k)(i,j)]M×N=P(k)(0,0),P(k)(0,1),...,P(k)(0,N-1)P(k)(1,0),P(k)(1,1),...,P(k)(1,N-1)............P(k)(M-1,0),P(k)(M-1,1),...,P(k)(M-1,N-1),k=1,2,...,16]]>其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,…,M-1,j=0,1,…,N-1,是[R(k)(i,j)]5×5與[G(i,j)]M×N進行如下計算得到的Q(i,j)=G(i,j),0≤i<M,0≤j<N0,otherwise]]>
ρ(k)(i,j)=Σm=0m=4Σn=0n=4R(k)(m,n)Q(i+m-1,j+n-1)]]>P(k)(i,j)=256,ρ(k)(i,j)>2560,ρ(k)(i,j)<0ρ(k)(i,j),otherwise]]>2.2分塊壓縮將每個M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,…,16均勻劃分成高為u0、寬為v0的子區(qū)域(圖11),每個子區(qū)域跟相鄰的子區(qū)域之間在垂直方向有u1個象素的重合、在水平方向上有v1個象素的重合,故由每個M×N基本特征平面得到M′×N′個子區(qū)域,其中M′=(M-u0u0-u1+1),]]>N′=(N-v0v0-v1+1)]]>。將基本特征平面中每一個大小為u0×v0的子區(qū)域映射成大小為M′×N′的平面上一個點,得到壓縮特征平面為[E(k)(i,j)]M′×N′=E(k)(0,0),E(k)(0,1),...,E(k)(0,N′-1)E(k)(1,0),E(k)(1,1),...,E(k)(1,N′-1)............E(k)(M′-1,0),E(k)(M′-1,1),...,E(k)(M′-1,N′-1),k=1,2,...,16]]>[E(k)(i,j)]M′×N′中各元素的值為E(k)(i,j)=Σm=0u0-1Σn=0v0-1Θ(k)(m,n)P(k)((u0-u1)i+m,(v0-v1)j+n)]]>,i=0,1,…,M′-1,j=0,1,…,N′-1式中Θ(k)(m,n),0≤m<u0,0 ≤n<v0為加權(quán)系數(shù)Θ(k)(m,n)=12πσ1σ2exp(-(m-u02)22σ12(n-v02)22σ22)]]>其中σ1=2πu1,]]>σ2=2πv1.]]>2.3特征向量形成將壓縮特征平面[E(k)(i,j)]M′×N′,k=1,2,…,16中的各元素按照順序排列成一個維數(shù)為d=16×M′×N′的向量X=[χ0,χ1,…,χd-1]T,就得到了表示輸入字符的d維原始特征的向量X。其中
xt=E(kt)(it,jt),t=0,1,…,d-1it,jt,kt與t之間的關(guān)系為kt=INT(tM′N′)it=INT(t-ktM′N′N′),jt=t-(ktM′+it)N′]]>INT(·)表示向下取整函數(shù)。
3.特征優(yōu)化特征維數(shù)的增大和訓(xùn)練樣本的不足,將給分類器參數(shù)估計和識別計算量都帶來很大的問題。根據(jù)一般的分類器設(shè)計經(jīng)驗,對訓(xùn)練樣本的數(shù)目的要求是能夠達(dá)到特征維數(shù)的10倍以上。為了減少過高的特征維數(shù)和訓(xùn)練樣本的相對不足給分類器設(shè)計和參數(shù)估計帶來的困難,本發(fā)明在將原始方向特征送入分類器進行字符類別判決前,對特征進行優(yōu)化降維(圖13)。
3.1特征整形由于后續(xù)的LDA變換和MQDF分類器均以高斯分布為基礎(chǔ),提取的特征越接近高斯分布,系統(tǒng)識別性能就越好。為改善特征分布,使之更接近高斯分布,對原始特征向量X=[x0,x1,…,xd-1]T進行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt與xt之間的關(guān)系為yt=xtα-1α,t=0,1,...,d-1]]>其中α∈(0,1)為整形常數(shù)。
3.2特征變換高維的特征向量Y包含很多冗余的信息。這些信息的存在不僅加大了計算的開銷,而且會干擾字符識別的結(jié)果,本發(fā)明采用改進的LDA(線性鑒別分析)對Y進行特征變換,盡可能去除冗余信息,有效提取最具有鑒別能力的特征。
如“預(yù)分類”一節(jié)中所述,待處理字符集為Ω={ω1,ω2,…,ωc},c為集Ω中字符類別數(shù),通過預(yù)分類被劃分成40個字符類別子集Ωk,k=1,2,…,8,ck為字符子集Ωk中字符類別的數(shù)量。設(shè)第m類字符ωm的訓(xùn)練樣本數(shù)為Oωm,m=1,2,…,c,對該字符類別的訓(xùn)練樣本采用上述方法提取特征并經(jīng)特征整形后,得到的d維特征向量集合為[Y1ωm,Y2ωm,…,YOωmωm}。
3.2.1計算統(tǒng)計量計算每個字符類ωm特征向量的中心μωm和類內(nèi)散度矩陣Sωmμωm=1OωmΣl=1OωmYlωm,m=1,2,...,c]]>Sωm=1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T,m=1,2,...,c]]>計算各子集中所有字符類的特征向量的中心μ(Ωk)μ(Ωk)=1ckΣωm∈Ωk1≤m≤cμωm,k=1,2,...,8]]>計算各子集的類間散度矩陣Sb(Ωk)和平均類內(nèi)散度矩陣Sw(Ωk);Sb(Ωk)=1ckΣωk∈Ωk1≤m≤c(μωm-μ(Ωk))(μωm-μ(Ωk))T,k=1,2,...,8]]>Sw(Ωk)=1ckΣωm∈Ωk1≤m≤c1OωmΣl=1Oωm(Ylωmμωm)(Ylωm-μωm)T=1ckΣωm∈Ωk1≤m≤cSωm,k=1,2,...,8]]>St(Ωk)=Sw(Ωk)+Sb(Ωk),k=1,2,...,8]]>3.2.2 LDA變換用矩陣計算工具計算矩陣(Sw(Ωk))-1St(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,8和與各本征值相對應(yīng)的本征向量_0(Ωk),_1(Ωk),…,_d-1(Ωk),k=1,2,…,8,使得下列方程成立 k=1,2,…,8,l=0,1,…,d-1或等價于 由LDA的理論知若采用使矩陣[(Ф1(Ωk))TSw(Ωk)Ф1(Ωk)]-1[(Ф1(Ωk)TSt(Ωk)Ф1(Ωk)],k=1,2,…,8的跡tr([(Ф1(Ωk))TSw(Ωk)Ф1(Ωk)]-1[(Ф1(Ωk))TSt(Ωk)Ф1(Ωk)]),k=1,2,…,8達(dá)到最大的d×r(r為LDA變換后截取的特征維數(shù))矩陣Φ(Ωk)作為特征變換矩陣,則能使變換后的特征類內(nèi)散度方差與類間散度方差的比值達(dá)到最大,從而達(dá)到增加子集中各模式類別間的可分性的目的。同時,數(shù)學(xué)上已經(jīng)證明,使tr([(Ф1(Ωk))TSw(Ωk)Ф1(Ωk)]-1[(Ф1(Ωk))TSt(Ωk)Ф1(Ωk)])達(dá)到最大的Φ(Ωk)是由矩陣(Sw(Ωk))-1St(Ωk)的最大的r個非零本征值對應(yīng)的本征向量構(gòu)成的。所以,將(Sw(Ωk))-1St(Ωk)的本征值按照從大到小的順序排列,使得ξ0(Ωk)≥ξ1(Ωk)≥...≥ξd-1(Ωk),]]>同時,_0(Ωk),_1(Ωk),…,_d-1(Ωk)的順序也作相應(yīng)的調(diào)整,使得它們保持與ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk)的對應(yīng)關(guān)系,即滿足 由于(Sw(Ωk))-1St(Ωk)的秩rank((Sw(Ωk))-1St(Ωk))=maxωm∈Ωk1≤m≤c(Oωm-1),]]>即(Sw(Ωk))-1St(Ωk)的非零本征值最多為 個,所以本專利選取r可選擇為區(qū)間 上的正整數(shù)。
于是得到 k=1,2,…,8,這就是LDA變換矩陣。
將整形后的d維特征Y=[y0,y1,…,yd-1]T經(jīng)過Ф(Ωk)變換就得到了r維優(yōu)化特征Z=[z0,z1,…,zr-1]T,變換的過程為Z=(Φ(Ωk))TY]]>這就形成了最終送入分類器作為字符類型判決依據(jù)的特征向量。
4.分類器設(shè)計分類器設(shè)計是字符識別的核心技術(shù)之一,研究者針對不同的問題提出了許多模式分類器。但在多種因素制約下,最小距離分類器以其簡單有效而得到極大的應(yīng)用。貝葉斯分類器是理論上最優(yōu)的統(tǒng)計分類器,在處理實際問題時,人們希望盡量去逼近它。當(dāng)在字符的特征為高斯分布且各類特征分布的先驗概率相等的條件下,貝葉斯分類器簡化為馬氏距離分類器。但該條件在實際中通常不易滿足,而且馬氏距離分類器的性能隨著協(xié)方差矩陣估計誤差的產(chǎn)生而嚴(yán)重劣化。本發(fā)明采用MQDF(修正二次鑒別函數(shù))作為分類度量,它是馬氏距離的一個變形。MQDF鑒別函數(shù)形式為g(Ωk)(Z,Z‾ωm)=Σl=0r-1(zl-z‾lωm)2h2-Σl=0K-1λlωm-h2h2λlωm[(Z-Z‾ωm)Tφlωm]2+ln(h2(r-K)Πl=0K-1λlωm),]]>ωm∈Ωk,其中Z=[z0,z1,…,zr-1]T為送入分類器的未知字符的優(yōu)化特征向量,Z‾ωm=[Z‾0ωm,Z‾1ωm,...,Z‾r-1ωm]T]]>為字符類別ωm的標(biāo)準(zhǔn)特征向量,λlωm和φlωm分別為第ωm類樣本的優(yōu)化特征向量的協(xié)方差矩陣∑ωm的第l個本征值和本征向量,K表示所截取的主本征向量的個數(shù),也是模式類的主子空間維數(shù),其最優(yōu)值由實驗確定,h2是對小本征值的實驗估計。
Z‾ωm=(Φ(Ωk))Tμωm,ωm∈Ωk,k=1,2,...,8]]>Σωm=(Φ(Ωk))TSωmΦ(Ωk),ωm∈Ωk,k=1,2,...,8]]>
MQDF產(chǎn)生的是二次判決曲面,因只需估計每個類別協(xié)方差陣的前K個主本征向量,避免了小本征值估計誤差的負(fù)面影響。MQDF鑒別距離可看作是在K維主子空間內(nèi)的馬氏距離和剩余的(r-K)維空間內(nèi)的歐氏距離的加權(quán)和,加權(quán)因子為1/h2。
對每一個輸入未知字符x的特征向量進行分類判決時,搜索范圍限定于對該輸入字符預(yù)分類得到的特定子集Ωkx。若g(Ωkχ)(Z,Z‾ωτ)=minωm∈Ωkχg(Ωkχ)(Z,Z‾ωm),]]>則判定該輸入字符屬于字符類別ωτ,即ωτ=argminωm∈Ωkχg(Ωkχ)(Z,Z‾ωm).]]>本發(fā)明的特征在于,它是一種能夠識別印刷體蒙古文字符的識別技術(shù)。它依次含有以下步驟1.印刷體蒙古文字符識別方法,其特征在于,它在對字符對象進行必要預(yù)處理后,首先對輸入的單個字符進行預(yù)分類,將其劃分到恰當(dāng)?shù)淖址悇e子集中去,然后提取能很好反映字符結(jié)構(gòu)特點的方向特征,在此基礎(chǔ)上,利用特征整形、LDA變換提取最具鑒別性的優(yōu)化特征,把該特征送入MQDF分類器判定字符所屬類別;在由圖像采集設(shè)備和計算機組成的系統(tǒng)中,它依次含有以下步驟訓(xùn)練階段第1步在計算機中設(shè)定以下參數(shù)字符類別總數(shù)c;歸一化后字符高度M、字符寬度N;基本特征平面分塊參數(shù)u0、v0、u1、v1,其中u0為基本特征平面中子區(qū)域的高度,v0為基本特征平面中子區(qū)域的寬度,u1為基本特征平面中子區(qū)域與相鄰子區(qū)域之間在垂直方向上重合的象素個數(shù),v1為基本特征平面中子區(qū)域與相鄰子區(qū)域之間在水平方向上重合的象素個數(shù);原始特征向量經(jīng)特征整形形成更符合高斯分布的新特征向量時采用的整形參數(shù)α∈(0,1);特征變換時LDA截取維數(shù)r;第2步字符樣本的采集第2.1步用圖像采集設(shè)備掃描輸入多字體多字號的印刷體蒙古文的文本,利用已有算法進行去噪聲、二值化等必要的預(yù)處理;第2.2步對文本圖像依次進行行切分、連體字符段切分、單字切分處理以分離單個字符,再對每個字符的圖像標(biāo)定其對應(yīng)的正確的字符內(nèi)碼,然后把相同字符類別對應(yīng)的原始字符圖像提取出來,保存為用以訓(xùn)練和測試的單字樣本集;第2.3步定義并標(biāo)定每個字符類別的空間區(qū)域信息、字符形式信息和字符組成部件信息,保存標(biāo)定結(jié)果,形成字符類別預(yù)分類信息集;它依次含有以下步驟第2.3.1步形成字符空間區(qū)域信息,用ZI表示用文本行的基線Baseline將字符所占據(jù)的空間區(qū)域在水平方向上分為三個區(qū),從左到右依次為基線左方的左側(cè)區(qū)域Left Zone、基線所在的基準(zhǔn)區(qū)域Base Zone、基線右方的右側(cè)區(qū)域Right Zone;檢測輸入字符x在三個空間區(qū)域中的分布情況,根據(jù)x占據(jù)的區(qū)域,給ZI賦值如下若x僅占據(jù)左側(cè)區(qū)域和基準(zhǔn)區(qū)域,則ZI=0;若x同時占據(jù)左側(cè)區(qū)域、基準(zhǔn)區(qū)域和右側(cè)區(qū)域,則ZI=1;第2.3.2步形成字符形式信息,用FI表示蒙古文字符集中的基本字母在實際文本中表現(xiàn)為4種字符形式首寫形式、中間形式、尾寫形式、單寫形式;輸入字符x必定為這4種字符形式中的一種,依據(jù)x與其左右字符的連接關(guān)系判斷它的形式信息若x在其上側(cè)和下側(cè)均不與其它字符直接相連,則x為單寫形式字符,令FI=0;若x在其上側(cè)不與其它字符直接相連,而在其下側(cè)與其它字符直接相連,則x為首寫形式字符,令FI=1;若x在其上側(cè)和下側(cè)均與其它字符直接相連,則x為中間形式字符,令FI=2;若x在其上側(cè)與其它字符直接相連,而在其下側(cè)不與其它字符直接相連,則x為尾寫形式字符,令FI=3;第2.3.3步依據(jù)同一字符類別的不同單字樣本的預(yù)分類信息相一致的準(zhǔn)則對屬于各字符類別的單字樣本的預(yù)分類信息進行檢查糾錯后保存起來,形成字符類別預(yù)分類信息集;第3步字符類別子集的劃分設(shè)待處理字符全集為Ω={ω1,ω2,…,ωc};將第2.3步得到的字符類別預(yù)分類信息,用一個向量IPCωm=[ZI,FI]T]]>表示,m=1,2,…,c;依據(jù)IPCωm將Ω劃分成2×4個字符類別子集Ωk,k=1,2,…,8,Ωk包含的字符類別數(shù)為ck,使Ωm∩Ωn=_,m≠n,Ω=Uk=18Ωk,]]>Σk=18ck=c;]]>其中_表示空集;由以上劃分得_ωl,ωm∈Ωk,IPCωl=IPCωn]]>若用IPCΩk表示Ωk中各字符類別子集的共同的預(yù)分類信息向量,則Ωk表示為Ωk={ωm|ωm∈Ω,IPCωm=IPCΩk},k=1,2,...,8]]>第4步特征提取第4.1步象素特征分配,它依次含有以下步驟第4.1.1步設(shè)原始二值字符圖像為[B(i,j)]H×W=B(0,0),B(0,1),...,B(0,W-1)B(1,0),B(1,1),B(1,W-1)............B(H-1,0)B(H-1,1)...,B(H-1,W-1),]]>其中W為原始二值字符圖像寬度,H為原始二值字符圖像高度,B(i,j)為圖像位于第i行、第j列的象素點的值,i=0,1,…,H-1,0,1,…,W-1;用雙線性插值方法對[B(i,j)H×W甲進行歸一化處理得到高度為M、寬度為N的歸一化字符點陣圖像[G(i,j)]M×N=G(0,0),G(0,1),...,G(0,N-1)G(1,0),G(1,1),...,G(1,N-1)............G(M-1,0),G(M-1,1),...,G(M-1,N-1);]]>第4.1.2步設(shè)字符圖像其筆劃所對應(yīng)的點為黑象素點,用“1”表示、背景所對應(yīng)的點為白象素點,用“0”表示,即
G(i,j)=1,(i,j)∈δstroke0,(i,j)∈δbackgroundi=0,1,...,M-1,j=0.1,...,N-1,]]>其中δstroke表示圖像中由字符筆劃對應(yīng)的點所組成的點的集合,δbackground表示圖像中由背景點所組成的點的集合;設(shè)定16種大小均為5×5的基本方向特征元模板[R(k)(i,j)]5×5,k=1,2,…,16[R(1)(i,j)]5×5=-1,-1,-1,-1,-10,0,0,0,01,1,1,1,10,0,0,0,00,0,0,0,0,]]>[R(2)(i,j)]5×5=0,0,0,0,00,0,0,0,01,1,1,1,10,0,0,0,0-1,-1,-1,-1,-1,]]>[R(3)(i,j)]5×5=-1,0,1,0,0-1,0,1,0,0-1,0,1,0,0-1,0,1,0,0-1,0,1,0,0,]]>[R(4)(i,j)]5×5=0,0,1,0,-10,0,1,0,-10,0,1,0,-10,0,1,0,-10,0,1,0,-1,]]>[R(5)(i,j)]5×5=0,0,-2,0,10,-1,0,1,0-2,0,1,0,00,1,0,0,01,0,0,0,0,]]>[R(6)(i,j)]5×5=0,0,0,0,10,0,0,1,00,0,1,0,-20,1,0,-1,01,0,-2,0,0,]]>[R(7)(i,j)]5×5=1,0,0,0,00,1,0,0,0-2,0,1,0,0,0,-1,0,1,00,0,-2,0,1,]]>[R(8)(i,j)]5×5=1,0,-2,0,00,1,0,-1,00,0,1,0,-20,0,0,1,00,0,0,0,1,]]>[R(9)(i,j)]5×5=0,-8,-8,-8,0-1,0,2,0,-1-1,0,2,0,-1-1,0,2,0,-1-1,0,2,0,-1,]]>[R(10)(i,j)]5×5=-1,0,2,0,-1-1,0,2,0,-1-1,0,2,0,-1-1,0,20,-10,-8,-8,-8,0,]]> 5×5=0,-1,-1,-1,-1-8,0,0,0,0-8,2,2,2,2-8,0,0,0,00,-1,-1,-1,-1,]]>[R(12)(i,j)]5×5=-1,-1,-1,-1,00,0,0,0,-82,2,2,2,-80,0,0,0,-8-1,-1,-1,-1,0,]]>[R(13)(i,j)]5×5=0,0,-1,-8,-80,-1,0,2,-8-2,0,2,0,-10,2,0,-1,02,0,-2,0,0,]]>[R(14)(i,j)]5×5=0,0,-2,0,20,-1,0,2,0-1,0,2,0,-2-8,2,0,-1,0-8,-8,-1,0,0,]]>[R(15)(i,j)]5×5=-8,-8,-1,0,0-8,2,0,-1,0-1,0,2,0,-20,-1,0,2,00,0,-2,0,2,]]>[R(16)(i,j)]5×5=2,0,-2,0,00,2,0,-1,0-2,0,2,0,-10,-1,0,2,-80,0,-1,-8,-8;]]>將上述16種模板分別作用于字符圖像[G(i,j)]M×N,得到字符的16個基本特征平面[P(k)(i,j)]M×N=P(k)(0,0),P(k)(0,1),...,P(k)(0,N-1)P(k)(1,0),P(k)(1,1),...,P(k)(1,N-1)............P(k)(M-1,0),P(k)(M-1,1),...,P(k)(M-1,N-1),k=1,2,...,16,]]>其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,…,M-1,j=0,1,…,N-1,為P(k)(i,j)=256,ρ(k)(i,j)>2560,ρ(k)(i,j)<0,ρ(k)(i,j),otherwise]]>而ρ(k)(i,j)=Σm=0m=4Σn=0n=4R(k)(m,n)Q(i+m-1,j+n-1),]]>而Q(i,j)=G(i,j),i=0,1,...,M-1,j=0,1,...,N-1;0,otherwise]]>第4.2步分塊壓縮將每個大小為M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,…,16,均勻劃分成高為u0、寬為v0的子區(qū)域,每個子區(qū)域跟相鄰的子區(qū)域之間在垂直方向有u1個象素的重合、在水平方向上有v1個象素的重合;由每個M×J基本特征平面得到M′×N′個子區(qū)域,其中M′=(M-u0u0-u1+1),]]>N′=(N-v0v0-v1+1);]]>將每個基本特征平面中每一個大小為u0×v0的子區(qū)域映射成大小為M′×N′的平面上的一個點,形成壓縮特征平面[E(k)(i,j)]M′×N′=E(k)(0,0),E(k)(0,1),...,E(k)(0,N′-1)E(k)(1,0),E(k)(1,1),...,E(k)(1,N′-1)............E(k)(M′-1,0),E(k)(M′-1,1),...,E(k)(M′-1,N′-1),k=1,2,...,16,]]>其中[E(k)(i,j)]M′×N′中各元素的值為E(k)(i,j)=Σm=0u0-1Σn=0v0-1Θ(k)(m,n)P(k)((u0-u1)i+m,(v0-v1)j+n),]]>而Θ(k)(m,n),O≤m<u0,O≤n<v0為加權(quán)系數(shù)Θ(k)(m,n)=12πσ1σ2exp(-(m-u02)22σ12-(n-v02)22σ22),]]>其中σ1=2πu1,]]>σ2=2πv1;]]>第4.3步特征向量形成將壓縮特征平面[E(k)(i,j)]M′×N′,k=1,2,…,16,中的各元素按照順序排列成一個維數(shù)為d=16×M′×N′的矢量X=[x0,x1,…,xd-1]T,得到了表示輸入字符的d維原始方向特征向量其中xt=E(kt)(it,jt),t=0,1,...,d-1;]]>而it,jt,kt與t之間的關(guān)系為
kt=INT(tM′N′)it=INT(t-ktM′N′N′),jt=t-(ktM′+it)N′]]>INT(·)表示向下取整函數(shù);第5步特征優(yōu)化第5.1步特征整形對原始特征向量X=[x0,x1,…,xd-1]T進行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt與xt之間的關(guān)系為yt=xtα-1α,t=0,1,...,d-1,]]>其中α∈(0,1)為整形常數(shù);第5.2步特征變換第5.2.1步獲取字符類別的特征向量集合如“第3步字符類別子集的劃分”所述,待處理字符集為Ω={ω1,ω2,…,ωc},c為集Ω中字符類別數(shù),通過預(yù)分類處理被劃分為8個字符類別子集Ωk,k=1,2,…,8,ck為字符類別子集Ωk中字符類別的數(shù)量;設(shè)第m類字符ωm的訓(xùn)練樣本數(shù)為Oωm,m=1,2,…,c,對該字符類別的訓(xùn)練樣本采用“第4步特征提取”所述方法提取特征得到的d維原始特征向量集合為{X1ωm,X2ωm,…,XOωmωm};則經(jīng)“第5.1步特征整形”后,得到的d維特征向量集合為{Y1ωm,Y2ωm,…,YOωmωm};第5.2.2步統(tǒng)計量計算計算每個字符類ωm特征向量的中心μωm和類內(nèi)散度矩陣Sωmμωm=1OωmΣl=1OωmYlωm,m=1,2,...,c,]]>Sωm=1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T,m=1,2,...,c;]]>
計算各子集中所有字符類的特征向量的中心μ(Ωk)μ(Ωk)=1ckΣωm∈Ωk1≤m≤cμωm,k=1,2,...,8;]]>計算各子集的類間散度矩陣Sb(Ωk)和平均類內(nèi)散度矩陣Sw(Ωk)Sb(Ωk)=1ckΣωm∈Ωk1≤m≤c(μωm-μ(Ωk))(μωm-μ(Ωk))T,k=1,2,...,8,]]>Sw(Ωk)=1ckΣωm∈Ωk1≤m≤c1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T=1ckΣωm∈Ωk1≤m≤cSωm,k=1,2,...,8,]]>St(Ωk)=Sw(Ωk)+Sb(Ωk),k=1,2,...,8;]]>第5.2.3步LDA變換矩陣生成,它依次含有以下步驟第5.2.3.1步用矩陣計算工具計算矩陣(Sw(Ωk))-1St(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,8和與各本征值相對應(yīng)的本征向量_0(Ωk),_1(Ωk),…,_d-1(Ωk),k=1,2,…,8,使得下列方程成立 第5.2.3.2步將(Sw(Ωk))-1St(Ωk)的本征值按從大到小的順序排列,使ξ0(Ωk)≥ξ1(Ωk)≥...ξd-1(Ωk),]]>同時,_0(Ωk),_1(Ωk),…,_d-1(Ωk)的順序也作相應(yīng)的調(diào)整,使得它們保持與ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk)的對應(yīng)關(guān)系;第5.2.3.2步取(Sw(Ωk))-1St(Ωk)的前r個非零本征值對應(yīng)的本征向量構(gòu)成LDA變換矩陣 k=1,2,…,8;廠的有效值可根據(jù)需要選取為小于或等于矩陣(Sw(Ωk))-1St(Ωk)的秩rank((Sw(Ωk))-1St(Ωk))=maxωm∈Ωk1≤m≤c(Oωm-1)]]>的正整數(shù)第5.2.4步變換特征的形成將整形后的d維特征Y=[y0,y1,…,yd-1]T經(jīng)過Ф(Ωk)變換得到r維優(yōu)化特征Z=[z0,z1,…,zr-1]T,變換的過程為Z=(Φ(Ωk))TY]]>形成最終送入分類器作為字符類型判決依據(jù)的字符特征向量Z;將Ф(Ωk),k=1,2,…,8,存入文件,形成優(yōu)化參數(shù)庫;第6步設(shè)計分類器對于每個字符子集Ωk,計算包含在Ωk中的各字符類別的優(yōu)化特征的均值向量 和協(xié)方差矩陣∑ωmZ‾ωm=(Φ(Ωk))Tμωm,ωm∈Ωk]]>Σωm=(Φ(Ωk))TSωmΦ(Ωk),ωm∈Ωk]]>利用矩陣計算工具求取∑ωm的本征值λlωm和對應(yīng)得本征向量φlωm,l=0,1,…,r-1,通過實驗確定MQDF分類器的相關(guān)參數(shù)K、h2;將 、K、h2、λlωm、φlωm存入文件中;對所有的Ωk,k=1,2,…,8,依次進行如上操作,得到了用于分類判決的字符特征庫;識別階段第1步預(yù)分類,即對輸入的未知字符,判定其所屬的字符類別子集;它依次包含以下步驟第1.1步獲取字符預(yù)分類信息依照“訓(xùn)練階段第3.2步”所述的方法,分別檢測輸入未知字符x的空間區(qū)域信息ZI和字符形式信息FI,形成x的預(yù)分類信息向量IPCχ=[ZI,FI]T;]]>第2.2步確定輸入字符所屬子集設(shè)x所屬的字符類別子集為Ωk,則Ωk由下式給出Ωkχ=argminΩk1≤k≤8||IPCΩk-IPCχ||,]]>其中‖·‖表示歐氏距離,IPCΩk為字符子集Ωk的預(yù)分類信息;得到Ωk后,完成了對x的預(yù)分類;第2步特征提取按照“訓(xùn)練階段第4步”所述的方法,提取輸入未知字符x的d維原始方向特征向量Xχ=[x0χ,x1χ,...,xd-1χ]T;]]>第3步特征優(yōu)化第3.1步特征整形以“訓(xùn)練部分第一步”所設(shè)定的整形參數(shù)α對原始方向特征向量Xχ=[x0χ,x1χ,...,xd-1χ]T]]>進行整形,得到整形特征Yχ=[y0χ,y1χ,...,yd-1χ]T,]]>其中ytχ=(xtχ)α-1α,t=0,1,...,d-1;]]>第3.2步特征變換從“訓(xùn)練階段第第5.2.5步”所生成的優(yōu)化參數(shù)庫文件中讀取對應(yīng)于輸入字符x所屬字符類別子集Ωkx的LDA和K-L混合變換矩陣Ф(Ωkx),將d維整形方向特征向量Yχ=[y0χ,y1χ,...,yd-1χ]T]]>變換成r維變換特征向量Zχ=[z0χ,z1χ,...,zr-1χ]T,]]>變換的過程為Zχ=(Φ(Ωkχ))TYχ;]]>第4步分類判決,即將未知類別的字符的特征向量與識別庫中已有的數(shù)據(jù)進行比較,以確定輸入字符對應(yīng)的正確的字符代碼;它依次含有以下步驟第4.1步從“訓(xùn)練階段第6步”所生成的字符特征庫文件中讀取輸入字符x所屬字符類別子集Ωk中的所有字符類別的均值向量Z‾ωm=[z‾0ωm,z‾1ωm,...,z‾r-1ωm]T,]]>ωm∈Ωk,和相應(yīng)的分類參數(shù);第4.2步分別計算Zx到Ωk中各字符類別的MQDF鑒別距離g(Ωkχ)(zχ,z‾ωm)=Σl=0r-1(zlχ-z‾lωm)2h2-Σl=0K-1λlωm-h2h2λlωm[(zχ-z‾ωm)Tφlωm]2+ln(h2(r-K)Πl=0K-11λlωm),ωm∈Ωkχ;]]>若g(Ωkχ)(Zχ,Z‾ωr)=minωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm),]]>則判定該輸入字符x屬于字符類別ωτ,即ωτ=argminωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm).]]>實驗證明,基于本發(fā)明的印刷體蒙古文單字測試集上的識別正確率達(dá)到99.35%。
圖1一個典型的印刷體蒙古文字符識別系統(tǒng)的硬件構(gòu)成。
圖2印刷體蒙古文字符識別系統(tǒng)的單字樣本生成。
圖3印刷體蒙古文字符識別系統(tǒng)的構(gòu)成。
圖4采用的圖像坐標(biāo)系示意。
圖5蒙古文字符集。
(a)蒙古文基本字母及其變形顯現(xiàn)形式;(b)蒙古文常用符號、數(shù)字。
圖6蒙古文字符集的文字構(gòu)成特點示意。
圖7預(yù)分類信息示意。
圖8預(yù)分類流程。
圖9方向特征抽取流程。
圖10 16種基本方向特征元模板。
圖11基本特征平面分塊示意。
圖12方向特征抽取示意。
圖13特征優(yōu)化流程。
圖14基于本發(fā)明的多字體多字號印刷體蒙古文字符識別系統(tǒng)。
具體實施例方式
如圖1所示,一個印刷體蒙古文字符識別系統(tǒng)在硬件上由兩部分構(gòu)成圖像采集設(shè)備和計算機。圖像采集設(shè)備一般是掃描儀,用來獲取待識別字符的數(shù)字圖像。計算機用于對數(shù)字圖像進行處理,并完成判決分類。
圖2所示的是單字訓(xùn)練樣本和單字測試樣本的生成過程。對于一篇印刷體蒙古文樣張,首先通過掃描儀將其掃入計算機,使之變?yōu)閿?shù)字圖像。對數(shù)字圖像采取二值化、去除噪聲等預(yù)處理措施,得到二值化的圖像。再對輸入圖像進行行切分以得到文本行,對文本行進行詞切分得到單詞,在此基礎(chǔ)上對每一個單詞進行單字切分,得到單個字符,然后標(biāo)定每個字符圖像所屬的字符類別。此后,要進行一次檢查,對行文本切分、單詞切分、單字切分階段和字符類別標(biāo)定階段產(chǎn)生的錯誤采用手動方式改正。最后,將相同的字符類別對應(yīng)的原始字符圖像提取出來,并保存,完成單字樣本的采集。同時,對每個字符類別的空間區(qū)域信息和字符形式信息進行標(biāo)定,將標(biāo)定結(jié)果保存在文件中,從而完成字符預(yù)分類信息的采集。
如圖3所示,印刷體蒙古文字符識別算法分為兩個部分訓(xùn)練系統(tǒng)和測試系統(tǒng)。訓(xùn)練系統(tǒng)中,對輸入的單字訓(xùn)練樣本集中的每一個字符類別的所有樣本,依據(jù)預(yù)分類信息將其劃分至恰當(dāng)?shù)淖址蛹?,形成子集庫。對屬于各字符子集的所有字符類別的各單字樣本,提取反映其組成信息的方向特征,利用特征整形和特征變換進行優(yōu)化,然后,采用合適的分類器,訓(xùn)練分類器,得到字符特征庫。在測試系統(tǒng)中,對輸入的未知類別字符圖像,提取預(yù)分類信息確定其所屬的字符子集,采用和訓(xùn)練系統(tǒng)同樣的特征提取和特征優(yōu)化方法形成表示字符的特征向量,然后送入分類器進行分類,判斷輸入字符所屬的類別。
因而,實用的多字體多字號印刷體蒙古文字符識別系統(tǒng)的實現(xiàn)需要考慮如下幾個方面
A)字符樣本的采集B)訓(xùn)練系統(tǒng)的實現(xiàn)C)測試系統(tǒng)的實現(xiàn)下面分別對這三個方面進行詳細(xì)介紹。
A)字符樣本的采集A.1文本圖像的獲取印刷體蒙古文單字樣本的獲取過程如圖2所示。輸入的一篇紙質(zhì)印刷體蒙古文文檔,通過掃描儀得到數(shù)字圖像,完成從紙質(zhì)文檔到計算機存儲圖像的轉(zhuǎn)換。然后對該圖像進行噪聲去除、二值化等預(yù)處理措施。利用各種濾波方法去除噪聲在現(xiàn)有文獻中已經(jīng)有大量記載。二值化方法可采用已有的全局二值化或局部自適應(yīng)二值化。接著對文檔進行版面分析,得到字符區(qū)域。
A.2單字樣本集的形成對字符區(qū)域分別利用垂直投影直方圖進行文本行切分得到單個文本行,再對各文本行采用水平投影直方圖分析進行詞切分得到單詞,進而采用水平象素游程分析方法切分單詞,得到單個字符圖像。在此階段的切分錯誤采用手動的方式進行更正。對得到的單個字符的類別進行標(biāo)定,一般采用計算機自動標(biāo)定,對其中的錯誤進行人工處理(更改、刪除等)。最后,把具有相同內(nèi)碼的字符所對應(yīng)的不同字體、不同字號的原始字符圖像保存起來,就得到了印刷體蒙古文單字樣本。
A.3預(yù)分類信息檢測對單行文本進行垂直象素投影分析,確定行基線Baseline,將以基線為界將該行文本所占的空間區(qū)域劃分成左側(cè)區(qū)域Left zone、基準(zhǔn)區(qū)域Base zone和右側(cè)區(qū)域Right zone,從而在進行單字切分得到單個字符的同時也根據(jù)該單字所占的空間區(qū)域得到了其空間區(qū)域信息ZI。對各連體字符段進行單字切分的同時,檢測切割出來的單字上下邊界與其它字符之間的連接關(guān)系,從而確定其字符形式信息FI。這樣就確定了每個字符的預(yù)分類信息。具體包含如下步驟(令x表示輸入未知字符)A.3.1檢測空間區(qū)域信息ZI文本行的基線(Baseline)將字符空間區(qū)域在水平方向上分為三個區(qū),從左到右依次為基線左方的左側(cè)區(qū)域(Left Zone)、基線所在的基準(zhǔn)區(qū)域(Base Zone)、基線右方的右側(cè)區(qū)域(Right Zone)。檢測輸入字符在三個空間區(qū)域中的分布情況,根據(jù)x占據(jù)區(qū)域的不同,給ZI賦予不同的取值,對應(yīng)關(guān)系為若x僅占據(jù)左側(cè)區(qū)域和基準(zhǔn)區(qū)域,則ZI=0;
若x同時占據(jù)左側(cè)區(qū)域、基準(zhǔn)區(qū)域和右側(cè)區(qū)域,則ZI=1;A.3.2檢測字符形式信息FI蒙古文字符集中的基本字母在實際文本中表現(xiàn)為4種字符形式首寫形式、中間形式、尾寫形式、單寫形式,x必定為這4種字符形式中的一種,依據(jù)x與其上下字符的連接關(guān)系可判斷它的形式信息若x在其上側(cè)和下側(cè)均不與其它字符直接相連,則x為單寫形式字符,此時FI=0;若x在其上側(cè)不與其它字符直接相連,而在其下側(cè)與其它字符直接相連,則x為首寫形式字符,此時FI=1;若x在其上側(cè)和下側(cè)均與其它字符直接相連,則x為中間形式字符,此時FI=2;若x在其上側(cè)與其它字符直接相連,而在其下側(cè)不與其它字符直接相連,則x為尾寫形式字符,此時FI=3。
A.3.3檢查糾錯和保存屬于同一字符類別的不同單字樣本的預(yù)分類信息相同,依據(jù)該原則對屬于各字符類別的單字樣本的預(yù)分類信息進行檢查,對預(yù)分類信息提取過程中產(chǎn)生的錯誤通過人機交互的方式進行糾正。最后,將每個字符類別的預(yù)分類信息保存起來,形成字符類別預(yù)分類信息集。
B)訓(xùn)練系統(tǒng)的實現(xiàn)B.1預(yù)分類根據(jù)樣本采集環(huán)節(jié)得到各字符類別的預(yù)分類信息向量IPCωm=[ZI,FI]T,]]>m=1,2,…,c,將包含c不同字符類別的待處理字符全集Q={ω1,ω2,…,ωc)劃分成2×4=8個字符類別子集Ωk,k=1,2,…,8,每個Ωk字符包含的字符類別數(shù)為ck,使Ωm∩Ωn=_,m≠nΩ=Uk=18Ωk]]>Σk=18ck=c]]>k=1,2,…,8,其中_表示空集。
將各Ωk所含的字符類別的內(nèi)碼和相應(yīng)的預(yù)分類信息保存在文件中,形成子集庫。
B.2特征提取B.2.1象素特征分配設(shè)原始二值字符圖像為[B(i,j)]H×W=B(0,0),B(0,1),...,B(0,W-1)B(1,0),B(1,1),...,B(1,W-1)............B(H-1,0),B(H-1,1),...,B(H-1,W-1)]]>其中W為圖像寬度,H為圖像高度。采用雙線性插值方法對[B(i,j)]H×W進行歸一化處理得到高度為M、寬度為N的字符點陣圖像[G(i,j)]M×N=G(0,0),G(0,1),...,G(0,N-1)G(1,0),G(1,1),...,G(1,N-1)............G(M-1,0),G(M-1,1),...,G(M-1,N-1)]]>采用16種5×5基本特征元模板[R(k)(i,j)]5×5,k=1,2,…,16分別作用于字符輪廓圖像[Q(i,j)]M×N,得到字符的16個基本特征平面[P(k)(i,j)]M×N=P(k)(0,0),P(k)(0,1),...,P(k)(0,N-1)P(k)(1,0),P(k)(1,1),...,P(k)(1,N-1)............P(k)(M-1,0),P(k)(M-1,1),...,P(k)(M-1,N-1),k=1,2,...,16]]>其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,…,M-1,j=0,1,…,N-1,是[R(k)(i,j)]5×5與[Q(i,j)]M×N進行如下計算得到的Q(i,j)=G(i,j),0≤i<M,0≤j<N0,otherwise]]>ρ(k)(i,j)=Σm=0m=4Σn=0n=4R(k)(m,n)Q(i+m-1,j+n-1)]]>P(k)(i,j)=256,ρ(k)(i,j)>2560,ρ(k)(i,j)<0ρ(k)(i,j),otherwise]]>B.2.2分塊壓縮將每個M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,…,16均勻劃分成高為u0、寬為v0的子區(qū)域,每個子區(qū)域跟相鄰的子區(qū)域之間在垂直方向有u1個象素的重合、在水平方向上有v1個象素的重合,故由每個M×N基本特征平面得到M′×N′個子區(qū)域,其中M′=(M-u0u0-u1+1),]]>N′=(N-v0v0-v1+1)]]>。將基本特征平面中每一個大小為u0×v0的子區(qū)域映射成一個大小為M′×N′的平面上的一個點,得到壓縮特征平面為[E(k)(i,j)]M′×N′=E(k)(0,0),E(k)(0,1),...,E(k)(0,N′-1)E(k)(1,0),E(k)(1,1),...,E(k)(1,N′-1)............E(k)(M′-1,0),E(k)(M′-1,1),...,E(k)(M′-1,N′-1),k=1,2,...,16]]>[E(k)(i,j)]M′×N′中各元素的值表示為E(k)(i,j)=Σm=0u0-1Σn=0v0-1Θ(k)(m,n)P(k)((u0-u1)i+m,(v0-v1)j+n)]]>式中Θ(k)(m,n),O≤m<u0,0≤n<v0為加權(quán)系數(shù)Θ(k)(m,n)=12πσ1σ2exp(-(m-u02)22σ12-(n-v02)22σ22)]]>其中σ1=2πu1,]]>σ2=2πv1.]]>B.2.3特征向量形成將壓縮特征平面[E(k)(i,j)]M′×N′k=1,2,…,16中的各元素按照順序排列成一個維數(shù)為d=16×M′×N′的矢量X=[x0,x1,…,xd-1]T,就得到了表示輸入字符的d維原始特征的向量。其中xt=E(kt)(it,jt),t=0,1,...,d-1]]>it,jt,kt,與t之間的關(guān)系為
kt=INT(tM′N′)it=INT(t-ktM′N′N′)jt=t-(ktM′+it)N′]]>INT(·)表示向下取整函數(shù)。
B.3特征優(yōu)化B.3.1特征整形對原始特征向量X=[x0,x1,…,xd-1]T進行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt與xt之間的關(guān)系為yt=xtαα,t=0,1,...,d-1]]>其中α∈(0,1)為整形常數(shù)。
B.3.2特征變換待處理字符集為Ω={ω1,ω2,…,ωc},c為集Ω中字符類別數(shù),通過預(yù)分類已被劃分成8個字符子集Ωk,k=1,2,…,8,ck為字符子集Ωk中字符類別的數(shù)量。設(shè)第m類字符ωm的訓(xùn)練樣本數(shù)為Oωm,m=1,2,…,c,對該字符類別的訓(xùn)練樣本采用上述方法提取特征并經(jīng)特征整形后,得到的d維特征向量集合為{Y1ωm,Y2ωm,…,YOωmωm}。
B.3.2.1計算統(tǒng)計量計算每個字符類ωm特征向量的中心μm和類內(nèi)散度矩陣Sωmμωm=1OωmΣl=1OωmYlωm,m=1,2,...,c]]>Sωm=1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T,m=1,2,...,c]]>計算各子集中所有字符類的特征向量的中心μ(Ωk)μ(Ωk)=1ckΣωm∈Ωk1≤m≤cμωm,k=1,2,...,8]]>計算各子集的類間散度矩陣Sb(Ωk)和平均類內(nèi)散度矩陣Sw(Ωk);
Sb(Ωk)=1ckΣωm∈Ωk1≤m≤c(μωm-μ(Ωk))(μωm-μ(Ωk))T,k=1,2,...,8]]>Sw(Ωk)=1ckΣωm∈Ωk1≤m≤c1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T=1ckΣωm∈Ωk1≤m≤cSωm,k=1,2,...,8]]>St(Ωk)=Sw(Ωk)+Sb(Ωk),k=1,2,...,8]]>B.3.2.2 LDA變換用矩陣計算工具計算矩陣(Sw(Ωk))-1St(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,8和與各本征值相對應(yīng)的本征向量_0(Ωk),_1(Ωk),…,_d-1(Ωk),k=1,2,…,8,使得下列方程成立 將(Sw(Ωk))-1St(Ωk)的本征值按照從大到小的順序排列,使得ξ0(Ωk)≥ξ1(Ωk)≥...≥ξd-1(Ωk),]]>同時,_0(Ωk),_1(Ωk),…,_d-1(Ωk)的順序也作相應(yīng)的調(diào)整,使得它們保持與ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),…,的對應(yīng)關(guān)系。r可根據(jù)需要設(shè)定為不大于rank((Sw(Ωk))-1)St(Ωk)=maxωm∈Ωk1≤m≤c(Oωm-1)]]>的距整數(shù),這樣得到的LDA變換矩陣為 B.3.2.3特征變換整形后的J維特征Y=[y0,y1,…,Yd-1]T經(jīng)過Ф(Ωk)變換得到了r維優(yōu)化特征z=[z0,z1,…,zr-1]T,變換的過程為Z=(Φ(Ωk))TY]]>將特征整形參數(shù)α和各字符類別子集的特征變換矩陣Ф(Ωk)保存起來,形成特征優(yōu)化參數(shù)庫文件。
B.4設(shè)計分類器對于每個字符子集Ωk,計算包含在Ωk中的各字符類別的優(yōu)化特征的均值向量 和協(xié)方差矩陣∑ωmZ‾ωm=(Φ(Ωk))Tμωm,ωm∈Ωk]]>Σωm=(Φ(Ωk))TSωmΦ(Ωk),ωm∈Ωk]]>利用矩陣計算工具求取∑ωm的本征值λlωm和本征向量φlωm,l=0,1,…,r-1,通過實驗確定MQDF分類器的相關(guān)參數(shù)K、h2。將 、K、h2、λlωm、φlωm,存入庫文件中。對所有的Ωk,k=1,2,…,8,依次進行如上操作,得到了用于分類判決的字符特征庫。
C)測試系統(tǒng)的實現(xiàn)令x為輸入未知字符。
C.1輸入字符的預(yù)分類判決C.1.2檢測輸入字符的預(yù)分類信息依據(jù)“A.3.1~A.3.2”所述的方法分別檢測x的空間區(qū)域信息ZI和字符形式信息FI,并將其表示成向量形式IPCχ=[ZI,FI]T.]]>C.1.2確定輸入字符所屬子集設(shè)x所屬的字符類別子集為Ωk,則Ωk由下式給出Ωkχ=argminΩk1≤k≤8||IPCΩk-IPCχ||,]]>其中‖·‖表示歐氏距離,IPCΩk為字符子集Ωk的預(yù)分類信息C.2特征提取依據(jù)“測試系統(tǒng)”中特征提取的相同辦法,提取輸入字符x的原始d維特征向量Xχ=[x0χ,x1χ,...,xd-1χ]T.]]>C.3特征優(yōu)化從優(yōu)化參數(shù)庫文件中讀取訓(xùn)練得到特征優(yōu)化參數(shù)α和對應(yīng)于x所屬的字符類別子集Ωkx的LDA變換矩陣Ф(Ωkx)。
用α為參數(shù)對xχ=[x0χ,x1χ,...,xd-1χ]T]]>進行特征整形,得到Y(jié)χ=[y0χ,y1χ,...,yd-1χ]T,]]>其中ytχ=(xtχ)α-1α,t=0,1,...,d-1]]>對Yχ=[y0χ,y1χ,...,yd-1χ]T]]>進行特征變換Zχ=(Φ(Ωkχ))TYχ]]>得到r維特征向量Zχ=[z0χ,z1χ,...,zr-1χ]T.]]>
C.4分類判決從特征庫文件中讀取Ωkx中所有字符類的均值向量Z‾ωm=[z‾0ωm,z‾1ωm,...,z‾r-1ωm]T,]]>ωm∈Ωkx和相應(yīng)的分類參數(shù),計算Zx到Ωkx中各字符類別的MQDF鑒別距離g(Ωkχ)(zχz‾ωm)=Σl=0r-1(zlχ-z‾lωm)2h2-Σl=0K-1λlωm-h2h2λlωm[(zχ-z‾ωm)Tφlωm]2+ln(h2(r-K)Πl=0K-1λlωm),]]>ωm∈Ωkx若g(Ωkχ)(Zχ,Z‾ωτ)=minωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm),]]>則判定該輸入字符x屬于字符類別ωτ,即ωτ=argminωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm).]]>以下給出一個具體的實現(xiàn)例子。
實施例1多字體多字號印刷體蒙古文字符識別系統(tǒng)基于本發(fā)明的多字體多字號印刷體蒙古文字符識別系統(tǒng)如圖14所示,實驗的硬件設(shè)備平臺為掃描儀(型號紫光Uniscan 1248US)和普通PC機(CPUIntel_Pentium_43.00GHz;Memory1.00GB RAM;OSMicrosoft_Windows_XP),實驗在收集到1600套印刷體文檔上進行,這些樣本文檔大部分采自當(dāng)今主要的蒙古文出版系統(tǒng),也有少量由WindowsTrueType字體直接打印生成。字體包括大部分最常用的、部分次常用的和少量不常用的字體,共計26種。字號從小五號到初號。樣本質(zhì)量不等,正常、斷裂、粘連字符的比例約為2∶1∶1。經(jīng)過掃描輸入、文本行切分、單字切分和內(nèi)碼標(biāo)定過程,將每個語種的1600套文檔轉(zhuǎn)換為1600套單字樣本(即每個字符類別有1600個單字樣本),從中隨機抽出1200套組成訓(xùn)練集,其余400套留作測試樣本。
實驗中,采用本發(fā)明的方法將輸入字符歸一化為24×32的點陣,即取M=24,N=32。在特征提取時基本特征平面按圖11所示的方式劃分,取u0=v0=8,u1=v1=4,故M′=N′=7。依圖9所示的流程提取原始方向特征后,采用α=0.75進行特征整形,再采用LDA變換矩陣進行特征變換,各字符子集的LDA變換矩陣的列向量個數(shù)r均取96。分類器MQDF中的參數(shù)K=24,h2用各字符類的協(xié)方差陣的第K個本征值的均值作為估計值。在測試集上的識別正確率達(dá)到99.35%,表明本發(fā)明所提的方法的有效性。
綜上所述,本發(fā)明提出的印刷體蒙古文字符識別方法具有以下優(yōu)點1)基于蒙古文字符集的獨特特點而提出的預(yù)分類方法,縮小了后續(xù)分類判決的搜索范圍,不僅降低了計算量,而且提高整體識別性能。
2)本發(fā)明采用的方向特征符合蒙古文字符集中字符的筆劃構(gòu)成特點,計算方便。
3)本發(fā)明采用的特征整形和LDA特征變換方法可以很好改善特征分布,去除冗余信息,提高特征的鑒別能力。
4)本發(fā)明提出的方法具有很好的推廣性,能夠快速方便地移植到其它與蒙古文字符集具有極大相似性的字符集(如錫伯文、滿文等)識別中去并可望取得良好的識別性能。
本發(fā)明提出的方法在實驗中獲得了優(yōu)異的識別性能,具有廣泛的應(yīng)用前景。
權(quán)利要求
1.印刷體蒙古文字符識別方法,其特征在于,它在對字符對象進行必要預(yù)處理后,首先對輸入的單個字符進行預(yù)分類,將其劃分到恰當(dāng)?shù)淖址悇e子集中去,然后提取能很好反映字符結(jié)構(gòu)特點的方向特征,在此基礎(chǔ)上,利用特征整形、LDA變換提取最具鑒別性的優(yōu)化特征,把該特征送入MQDF分類器判定字符所屬類別;在由圖像采集設(shè)備和計算機組成的系統(tǒng)中,它依次含有以下步驟訓(xùn)練階段第1步在計算機中設(shè)定以下參數(shù)字符類別總數(shù)c;歸一化后字符高度M、字符寬度N;基本特征平面分塊參數(shù)u0、v0、u1、v1,其中u0為基本特征平面中子區(qū)域的高度,v0為基本特征平面中子區(qū)域的寬度,u1為基本特征平面中子區(qū)域與相鄰子區(qū)域之間在垂直方向上重合的象素個數(shù),v1為基本特征平面中子區(qū)域與相鄰子區(qū)域之間在水平方向上重合的象素個數(shù);原始特征向量經(jīng)特征整形形成更符合高斯分布的新特征向量時采用的整形參數(shù)α∈(0,1);特征變換時LDA截取維數(shù)r;第2步字符樣本的采集第2.1步用圖像采集設(shè)備掃描輸入多字體多字號的印刷體蒙古文的文本,利用已有算法進行去噪聲、二值化等必要的預(yù)處理;第2.2步對文本圖像依次進行行切分、連體字符段切分、單字切分處理以分離單個字符,再對每個字符的圖像標(biāo)定其對應(yīng)的正確的字符內(nèi)碼,然后把相同字符類別對應(yīng)的原始字符圖像提取出來,保存為用以訓(xùn)練和測試的單字樣本集;第2.3步定義并標(biāo)定每個字符類別的空間區(qū)域信息、字符形式信息和字符組成部件信息,保存標(biāo)定結(jié)果,形成字符類別預(yù)分類信息集;它依次含有以下步驟第2.3.1步形成字符空間區(qū)域信息,用ZI表示用文本行的基線Baseline將字符所占據(jù)的空間區(qū)域在水平方向上分為三個區(qū),從左到右依次為基線左方的左側(cè)區(qū)域Left Zone、基線所在的基準(zhǔn)區(qū)域Base Zone、基線右方的右側(cè)區(qū)域Right Zone;檢測輸入字符χ在三個空間區(qū)域中的分布情況,根據(jù)χ占據(jù)的區(qū)域,給ZI賦值如下若χ僅占據(jù)左側(cè)區(qū)域和基準(zhǔn)區(qū)域,則ZI=0;若χ同時占據(jù)左側(cè)區(qū)域、基準(zhǔn)區(qū)域和右側(cè)區(qū)域,則ZI=1;第2.3.2步形成字符形式信息,用FI表示蒙古文字符集中的基本字母在實際文本中表現(xiàn)為4種字符形式首寫形式、中間形式、尾寫形式、單寫形式;輸入字符χ必定為這4種字符形式中的一種,依據(jù)χ與其左右字符的連接關(guān)系判斷它的形式信息若χ在其上側(cè)和下側(cè)均不與其它字符直接相連,則χ為單寫形式字符,令FI=0;若χ在其上側(cè)不與其它字符直接相連,而在其下側(cè)與其它字符直接相連,則χ為首寫形式字符,令FI=1;若χ在其上側(cè)和下側(cè)均與其它字符直接相連,則χ為中間形式字符,令FI=2;若χ在其上側(cè)與其它字符直接相連,而在其下側(cè)不與其它字符直接相連,則χ為尾寫形式字符,令FI=3;第2.3.3步依據(jù)同一字符類別的不同單字樣本的預(yù)分類信息相一致的準(zhǔn)則對屬于各字符類別的單字樣本的預(yù)分類信息進行檢查糾錯后保存起來,形成字符類別預(yù)分類信息集;第3步字符類別子集的劃分設(shè)待處理字符全集為Ω={ω1,ω2,…,ωc};將第2.3步得到的字符類別預(yù)分類信息,用一個向量IPCωm=[ZI,FI]T]]>表示,m=1,2,…,c;依據(jù)IPCωm將Ω劃分成2×4個字符類別子集Ωk,k=1,2,…,8,Ωk包含的字符類別數(shù)為ck,使Ωm∩Ωn=_,m≠n,Ω=∪k=18Ωk,]]>Σk=18ck=c;]]>其中_表示空集;由以上劃分得_ωl,ωn∈Ωk,IPCωI≡IPCωn]]>若用IPCΩk表示Ωk中各字符類別子集的共同的預(yù)分類信息向量,則Ωk表示為Ωk={ωm|ωm∈Ω,IPCωm=IPCΩk},]]>k=1,2,…,8第4步特征提取第4.1步象素特征分配,它依次含有以下步驟第4.1.1步設(shè)原始二值字符圖像為[B(i,j)]H×W=B(0,0),B(0,1),...,B(0,W-1)B(1,0),B(1,1),...,B(1,W-1)............B(H-1,0),B(H-1,1),...,B(H-1,W-1),]]>其中W為原始二值字符圖像寬度,H為原始二值字符圖像高度,B(i,j)為圖像位于第i行、第j列的象素點的值,i=0,1,…,H-1,j=0,1,…,W-1;用雙線性插值方法對[B(i,j)]H×W進行歸一化處理得到高度為M、寬度為N的歸一化字符點陣圖像[G(i,j)]M×N=G(0,0),G(0,1),...,G(0,N-1)G(1,0),G(1,1),...,G(1,N-1)............G(M-1,0),G(M-1,1),...,G(M-1,N-1);]]>第4.1.2步設(shè)字符圖像其筆劃所對應(yīng)的點為黑象素點,用“1”表示、背景所對應(yīng)的點為白象素點,用“0”表示,即G(i,j)=1,(i,j)∈δstroke0,(i,j)∈δbackground,]]>i=0,1,…,M-1,j=0,1,…,N-1,其中δstroke表示圖像中由字符筆劃對應(yīng)的點所組成的點的集合,δbackground表示圖像中由背景點所組成的點的集合;設(shè)定16種大小均為5×5的基本方向特征元模板[R(k)(i,j)]5×5,k=1,2,…,16[R(1)(i,j)]5×5=-1,-1,-1,-1,-10,0,0,0,01,1,1,1,10,0,0,0,00,0,0,0,0,,]]>[R(2)(i,j)]5×5=0,0,0,0,00,0,0,0,01,1,1,1,10,0,0,0,0-1,-1,-1,-1,-1,]]>[R(3)(i,j)]5×5=-1,0,1,0,0-1,0,1,0,0-1,0,1,0,0-1,0,1,0,0-1,0,1,0,0,]]>[R(4)(i,j)]5×5=0,0,1,0,-10,0,1,0,-10,0,1,0,-10,0,1,0,-10,0,1,0,-1,]]>[R(5)(i,j)]5×5=0,0,-2,0,10,-1,0,1,0-2,0,1,0,00,1,0,0,01,0,0,0,0,]]>[R(6)(i,j)]5×5=0,0,0,0,10,0,0,1,00,0,1,0,-20,1,0,-1,01,0,-2,0,0,]]>[R(7)(i,j)]5×5=1,0,0,0,00,1,0,0,0-2,0,1,0,00,-1,0,1,00,0,-2,0,1,]]>[R(8)(i,j)]5×5=1,0,-2,0,00,1,0,-1,00,0,1,0,-20,0,0,1,00,0,0,0,1,]]>[R(9)(i,j)]5×5=0,-8,-8,-8,0-1,0,2,0,-1-1,0,2,0,-1-1,0,2,0,-1-1,0,2,0,-1,]]>[R(10)(i,j)]5×5=-1,0,2,0,-1-1,0,2,0,-1-1,0,2,0,-1-1,0,2,0,-10-8,-8,-8,0,]]>[R(11)(i.j)]5×5=0,-1,-1,-1,-1-8,0,0,0,0-8,2,2,2,2-8,0,0,0,00,-1,-1,-1,-1,]]>[R(12)(i,j)]5×5=-1,-1,-1,-1,00,0,0,0,-82,2,2,2,-80,0,0,0,-8-1,-1,-1,-1,0,]]>[R(13)(i,j)]5×5=0,0,-1,-8,-80,-1,0,2,-8-2,0,2,0,-10,2,0,-1,02,0,-2,0,0,]]>[R(14)(i,j)]5×5=0,0,-2,0,20,-1,0,2,0-1,0,2,0,-2-8,2,0,-1,0-8,-8,-1,0,0,]]>[R(15)(i,j)]5×5=-8,-8,-1,0,0-8,2,0,-1,0-1,0,2,0,-20,-10,2,00,0,-2,0,2,]]>[R(16)(i,j)]5×5=2,0,-2,0,00,2,0,-1,0-2,0,2,0,-10,-1,0,2,-80,0,-1,-8,-8;]]>將上述16種模板分別作用于字符圖像[G(i,j)]M×N,得到字符的16個基本特征平面[P(k)(i,j)]M×N=P(k)(0,0),P(k)(0,1),...,P(k)(0,N-1)P(k)(1,0),P(k)(1,1),...,P(k)(1,N-1)............P(k)(M-1,0),P(k)(M-1,1),...,P(k)(M-1,N-1),]]>k=1,2,…,16,其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,…,M-1,j=0,1,…,N-1,為P(k)(i,j)=256,ρ(k)(i,j)>2560,ρ(k)(i,j)<0ρ(k)(i,j),otherwise,]]>而ρ(k)(i,j)=Σm=0m=4Σn=0n=4R(k)(m,n)Q(i+m-1,j+n-1),]]>而Q(i,j)=G(i,j),i=0,1,···,M-1,j=0,1,···,N-10,otherwise;]]>第4.2步分塊壓縮將每個大小為M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,…,16,均勻劃分成高為u0、寬為v0的子區(qū)域,每個子區(qū)域跟相鄰的子區(qū)域之間在垂直方向有u1個象素的重合、在水平方向上有v1個象素的重合;由每個M×N基本特征平面得到M′×N′個子區(qū)域,其中M′=(M-u0u0-u1+1),]]>N′=(N-v0v0-v1+1);]]>將每個基本特征平面中每一個大小為u0×v0的子區(qū)域映射成大小為M′×N′的平面上的一個點,形成壓縮特征平面[E(k)(i,j)]M′×N′=E(k)(0,0),E(k)(0,1),...,E(k)(0,N′-1)E(k)(1,0),E(k)(1,1),...,E(k)(1,N′-1)............E(k)(M′-1,0),E(k)(M′-1,1),...,E(k)(M′-1,N′-1),]]>k=1,2,…,16,其中[E(k)(i,j)]M′×N′中各元素的值為E(k)(i,j)=Σm=0u0-1Σn=0v0-1Θ(k)(m,n)P(k)((u0-u1)i+m,(v0-v1)j+n),]]>而Θ(k)(m,n),0≤m<u0,0≤n<v0為加權(quán)系數(shù)Θ(k)(m,n)=12πσ1σ2exp(-(m-u02)22σ12-(n-v02)22σ22),]]>其中σ1=2πu1,]]>σ2=2πv1;]]>第4.3步特征向量形成將壓縮特征平面[E(k)(i,j)]M′×N′,k=1,2,…,16,中的各元素按照順序排列成一個維數(shù)為d=16×M′×N′的矢量X=[x0,x1,…,xd-1]T,得到了表示輸入字符的d維原始方向特征向量其中xt=E(kt)(it,jt),]]>t=0,1,…,d-1;而it,jt,kt與t之間的關(guān)系為kt=INT(tM′N′)it=INT(t-ktM′N′N′)jt=t-(ktM′+it)N′,]]>INT(·)表示向下取整函數(shù);第5步特征優(yōu)化第5.1步特征整形對原始特征向量X=[x0,x1,…,xd-1]T進行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt與xt之間的關(guān)系為yt=xtα-1α,]]>t=0,1,…,d-1,其中α∈(0,1)為整形常數(shù);第5.2步特征變換第5.2.1步獲取字符類別的特征向量集合如“第3步字符類別子集的劃分”所述,待處理字符集為Ω={ω1,ω2,…,ωc},c為集Ω中字符類別數(shù),通過預(yù)分類處理被劃分為8個字符類別子集Ωk,k=1,2,…,8,ck為字符類別子集Ωk中字符類別的數(shù)量;設(shè)第m類字符ωm的訓(xùn)練樣本數(shù)為Oωm,m=1,2,…,c,對該字符類別的訓(xùn)練樣本采用“第4步特征提取”所述方法提取特征得到的d維原始特征向量集合為{X1ωm,X2ωm,…,XOωmωm};則經(jīng)“第5.1步特征整形”后,得到的d維特征向量集合為{Y1ωm,Y2ωm,…,YOωmωm};第5.2.2步統(tǒng)計量計算計算每個字符類ωm特征向量的中心μωm和類內(nèi)散度矩陣Sωmμωm=1OωmΣl=1OωmYlωm,]]>m=1,2,…,c,Sωm=1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T,]]>m=1,2,…,c;計算各子集中所有字符類的特征向量的中心μ(Ωk)μ(Ωk)=1ckΣωm∈Ωkl≤m≤cμωm,]]>k=1,2,…,8;計算各子集的類間散度矩陣Sb(Ωk)和平均類內(nèi)散度矩陣Sw(Ωk)Sb(Ωk)=1ckΣωm∈Ωk1≤m≤c(μωm-μ(Ωk))(μωm-μ(Ωk))T,]]>k=1,2,…,8,Sw(Ωk)=1ckΣωm∈Ωk1≤m≤c1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T=1ckΣωm∈Ωk1≤m≤cSωm,]]>k=1,2,…,8,St(Ωk)=Sw(Ωk)+Sb(Ωk)]]>,k=1,2,…,8;第5.2.3步LDA變換矩陣生成,它依次含有以下步驟第5.2.3.1步用矩陣計算工具計算矩陣(Sw(Ωk))-1St(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,8和與各本征值相對應(yīng)的本征向量_0(Ωk),_1(Ωk),…,_d-1(Ωk),k=1,2,…,8,使得下列方程成立 ,k=1,2,…,8, l=0,1,…,d-1;第5.2.3.2步將(Sw(Ωk))-1St(Ωk)的本征值按從大到小的順序排列,使ξ0(Ωk)≥ξ1(Ωk)≥···≥ξd-1(Ωk)]]>,同時,_0(Ωk),_1(Ωk),…,_d-1(Ωk)的順序也作相應(yīng)的調(diào)整,使得它們保持與ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk)的對應(yīng)關(guān)系;第5.2.3.2步取(Sw(Ωk))-1St(Ωk)的前r個非零本征值對應(yīng)的本征向量構(gòu)成LDA變換矩陣 ,k=1,2,…,8;r的有效值可根據(jù)需要選取為小于或等于矩陣(Sw(Ωk))-1St(Ωk)的秩rank((Sw(Ωk))-1St(Ωk))=maxωm∈Ωk1≤m≤c(Oωm-1)]]>的正整數(shù)第5.2.4步變換特征的形成將整形后的d維特征Y=[y0,y1,…,Yd-l]T經(jīng)過Φ(Ωk)變換得到r維優(yōu)化特征Z=[z0,z1,…,zr-1]T,變換的過程為Z=(Φ(Ωk))TY]]>形成最終送入分類器作為字符類型判決依據(jù)的字符特征向量Z;將Φ(Ωk),k=1,2,…,8,存入文件,形成優(yōu)化參數(shù)庫;第6步設(shè)計分類器對于每個字符子集Ωk,計算包含在Ωk中的各字符類別的優(yōu)化特征的均值向量 和協(xié)方差矩陣∑ωmZ‾ωm=(Φ(Ωk))Tμωm,ωm∈Ωk]]>Σωm=(Φ(Ωk))TSωmΦ(Ωk),ωm∈Ωk]]>利用矩陣計算工具求取Σωm的本征值λlωm和對應(yīng)得本征向量φlωm,l=O,1,…,r-1,通過實驗確定MQDF分類器的相關(guān)參數(shù)K、h2;將 K、h2、λlωm、φlωm存入文件中;對所有的Ωk,k=1,2,…,8,依次進行如上操作,得到了用于分類判決的字符特征庫;識別階段第1步預(yù)分類,即對輸入的未知字符,判定其所屬的字符類別子集;它依次包含以下步驟第1.1步獲取字符預(yù)分類信息依照“訓(xùn)練階段第3.2步”所述的方法,分別檢測輸入未知字符χ的空間區(qū)域信息ZI和字符形式信息FI,形成χ的預(yù)分類信息向量IPCχ=[ZI,FI]T;]]>第2.2步確定輸入字符所屬子集設(shè)χ所屬的字符類別子集為Ωkχ,則Ωkχ由下式給出Ωkχ=argminΩk1≤k≤8||IPCΩk-IPCχ||,]]>其中‖·‖表示歐氏距離,IPCΩk為字符子集Ωk的預(yù)分類信息;得到Ωkχ后,完成了對χ的預(yù)分類;第2步特征提取按照“訓(xùn)練階段第4步”所述的方法,提取輸入未知字符χ的d維原始方向特征向量Xχ=[x0χ,x1χ,···,xd-1χ]T;]]>第3步特征優(yōu)化第3.1步特征整形以“訓(xùn)練部分第一步”所設(shè)定的整形參數(shù)α對原始方向特征向量Xχ=[x0χ,x1χ,···,xd-1χ]T]]>進行整形,得到整形特征Yχ=[y0χ,y1χ,···,yd-1χ]T,]]>其中ytχ=(xtχ)α-1α,]]>t=0,1,…,d-1;第3.2步特征變換從“訓(xùn)練階段第第5.2.5步”所生成的優(yōu)化參數(shù)庫文件中讀取對應(yīng)于輸入字符χ所屬字符類別子集Ωkχ的LDA和K-L混合變換矩陣Φ(Ωkχ),將d維整形方向特征向量Yχ=[y0χ,y1χ,···,yd-1χ]T]]>變換成r維變換特征向量Zχ=[z0χ,z1χ,···,zr-1χ]T,]]>變換的過程為Zχ=(Φ(Ωkχ))TYχ;]]>第4步分類判決,即將未知類別的字符的特征向量與識別庫中已有的數(shù)據(jù)進行比較,以確定輸入字符對應(yīng)的正確的字符代碼;它依次含有以下步驟第4.1步從“訓(xùn)練階段第6步”所生成的字符特征庫文件中讀取輸入字符χ所屬字符類別子集Ωkχ中的所有字符類別的均值向量Z‾ωm=[z‾0ωm,z‾1ωm,···,z‾r-1ωm]T,]]>ωm∈Ωkχ,]]>和相應(yīng)的分類參數(shù);第4.2步分別計算Zχ到Ωkχ中各字符類別的MQDF鑒別距離g(Ωkχ)(Zχ,Z‾ωm)=Σl=0r-1(zlx-z‾lωm)2h2-Σl=0K-1λlωm-h2h2λlωm[(Zχ-Z‾ωm)Tφlωm]2+ln(h2(r-K)Πl=0K-1λlωm),]]>ωm∈Ωkχ;]]>若g(Ωkχ)(Zχ,Z‾ωτ)=minωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm),]]>則判定該輸入字符χ屬于字符類別ωτ,即ωτ=argminωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm).]]>
全文摘要
印刷體蒙古文字符識別方法屬于字符識別領(lǐng)域,其特征在于,提取蒙古文字符集中字符獨特的字符形式信息和字符區(qū)域信息進行預(yù)分類,確定輸入字符所屬的字符類別子集,然后抽取能很好反映字符筆劃構(gòu)成信息的方向特征,在此基礎(chǔ)上采用兩個步驟進行特征優(yōu)化處理1.特征整形;2.由LDA(線性鑒別分析)進行特征變換,最后運用MQDF(改進的二次鑒別函數(shù))統(tǒng)計分類器實現(xiàn)分類判決。本發(fā)明在多字體多字號印刷體蒙古文字符測試集上的識別正確率達(dá)到99.35%。
文檔編號G06K9/00GK101017533SQ20071006429
公開日2007年8月15日 申請日期2007年3月9日 優(yōu)先權(quán)日2007年3月9日
發(fā)明者丁曉青, 王 華, 彭良瑞, 劉長松, 方馳, 文迪 申請人:清華大學(xué)