本發(fā)明涉及利用計算機(jī)對漢字書寫進(jìn)行評價的技術(shù)領(lǐng)域,尤其涉及一種基于特征矩陣進(jìn)行相似度匹配的手寫漢字筆畫確認(rèn)方法。
背景技術(shù):漢字是記錄漢語言文字的符號系統(tǒng),是所有使用漢語言的人交流思想感情的工具,它具有獨(dú)特魅力,充滿美感,是世界最悠久的文字之一。漢字凝聚著中華民族的聰明才智,承載著中華民族的文化和文明史,蘊(yùn)含著中華民族的美好追求和氣節(jié),是中華民族最寶貴的文化遺產(chǎn)。而伴隨著計算機(jī)的普及,人們記錄漢字的方式發(fā)生了革命性的變化,傳統(tǒng)的紙筆書寫逐漸被電腦打字所代替,人們手寫漢字的機(jī)會則越來越少,書寫能力普遍下降。如何提升國人漢字書寫能力的已成為一個亟待解決的問題。目前手寫漢字書寫自動評價方法主要有以下幾種:1、《計算機(jī)工程與應(yīng)用》2010年第46期的《規(guī)定格式文字書寫練習(xí)質(zhì)量普適評價》中針對規(guī)定格式手寫字母,通過建立標(biāo)準(zhǔn)模板,利用距離比較法,檢測二者之間的相似度,而提出了一種普適質(zhì)量評價方法,取得了一定的實驗效果,然而這一方法針對手寫漢字效果并不理想,因為漢字類別眾多,結(jié)構(gòu)復(fù)雜,手寫漢字具有更大的隨意性,從而導(dǎo)致其結(jié)構(gòu)產(chǎn)生較大的模糊性。2、通過對人工給定的漢字樣本進(jìn)行機(jī)器學(xué)習(xí),然后使用圖像處理與人工智能的方法對手寫漢字進(jìn)行相似度模糊判斷,如中國發(fā)明專利“一種漢字書寫美觀度的計算機(jī)評估方法”(公開號:CN101295371A);3、通過記錄書寫筆跡、筆畫數(shù)、判斷筆畫相交關(guān)系來進(jìn)行評價,如中國發(fā)明專利“手寫漢字筆畫相交離的規(guī)范性判定方法和裝置”(公開號:CN101320422A)公開了一種通過判斷手寫漢字筆畫相交離關(guān)系判斷手寫漢字書寫是否規(guī)范的方法;上述方法雖然能在某些方面對于手寫漢字書寫質(zhì)量進(jìn)行評價,但這些方法都沒有實現(xiàn)筆畫關(guān)系的一一對應(yīng),因而無法判斷出多寫或少些了哪些筆畫,無法對每一筆畫的正確性進(jìn)行判斷,無法實現(xiàn)筆順正確性判斷、結(jié)構(gòu)合理性判斷以及整體書寫質(zhì)量評價。
技術(shù)實現(xiàn)要素:本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于特征矩陣進(jìn)行相似度匹配的手寫漢字筆畫確認(rèn)方法。本發(fā)明采用的技術(shù)方案如下:基于特征矩陣進(jìn)行相似度匹配的手寫漢字筆畫確認(rèn)方法,具體包括如下步驟:(1)建立給定標(biāo)準(zhǔn)漢字筆畫的方位、拓?fù)潢P(guān)系和形狀的特征集;(2)利用數(shù)字手寫平臺記錄用戶漢字書寫的給定漢字的筆跡點集,并對點集進(jìn)行預(yù)處理得到用戶漢字各筆畫特征集;(3)建立與標(biāo)準(zhǔn)漢字筆畫特征相統(tǒng)一的用戶漢字筆畫特征匹配空間;(4)計算用戶漢字各個筆畫與對應(yīng)標(biāo)準(zhǔn)漢字各筆畫的總相似度,計算方法有兩種:一種是計算漢字筆畫在方位、拓?fù)潢P(guān)系、形狀三個維度上的相似度,并對每個特征的相似度進(jìn)行加權(quán)平均得到總相似度矩陣;另一種是對單個筆畫在方位、拓?fù)潢P(guān)系、形狀三個維度上的相似度進(jìn)行加權(quán)平均得到該筆畫的總相似度,計算所有筆畫的總相似度并組合得到漢字筆畫的總相似度矩陣;(5)總相似度矩陣的每一行為用戶漢字的某個筆畫與對應(yīng)標(biāo)準(zhǔn)漢字的各個筆畫的總相似度,在其中選擇最大者,若最大者的值大于某一閾值則該筆畫完成匹配關(guān)系,否則認(rèn)為匹配失敗,該筆畫書寫錯誤;若匹配過程中出現(xiàn)多個用戶筆畫都大于某一閾值而匹配到同一標(biāo)準(zhǔn)筆畫的情況,則選取其中相似度最高筆畫作為匹配的結(jié)果,其他筆畫循環(huán)上述過程,最終完成用戶漢字所有筆畫的匹配判斷。所述步驟(1)中,建立標(biāo)準(zhǔn)漢字特征集的方法如下:(1)以標(biāo)準(zhǔn)漢字點集中的xmin、xmax、ymin、ymax為頂點組成水平矩形,構(gòu)造以水平矩形的對角線交點為圓心,以構(gòu)成筆畫的點中距離圓心最遠(yuǎn)的點到圓心的距離為半徑的圓,四等分半徑形成4個同心圓。再從圓心出發(fā),分別以0°、45°、90°、135°、180°、225°、270°,315°做射線,將同心圓區(qū)域分割為32個區(qū)域共8個方向,以此確定標(biāo)準(zhǔn)漢字筆畫徑跡點集方位坐標(biāo),建立標(biāo)準(zhǔn)漢字筆畫方位特征集;(2)筆畫間的拓?fù)潢P(guān)系分為相交、相接、相鄰、相離四種,交、接、鄰、離特征以下述原則進(jìn)行區(qū)分:獲得給定標(biāo)準(zhǔn)漢字中任意兩筆畫的徑跡點之間最接近的兩個點pi和pj,在點pi的兩側(cè)各取一點,即點pi-1和pi+1,做過這兩點的直線y=ax+b,取點pj兩側(cè)的點pj-1和pj+1,判斷點pj-1和點pj+1是否在直線兩側(cè),若在兩側(cè)則兩筆畫相交;否則判斷最近點pi和pj的距離是否小于某一閾值,若小于則兩筆畫相接;否則判斷是否有其他筆畫穿過它們最接近的點,若沒有則兩筆畫相鄰,否則兩筆畫相離;根據(jù)上述規(guī)則得到標(biāo)準(zhǔn)漢字各筆畫間的拓?fù)潢P(guān)系,進(jìn)而建立標(biāo)準(zhǔn)漢字的筆畫拓?fù)潢P(guān)系特征集;(3)把筆段走向劃分為右、右上、上、左上、左、左下、下、右下八個不同的方向區(qū)域;計算標(biāo)準(zhǔn)漢字各筆段中相鄰兩點所在直線與水平線之間夾角的余弦值,確定筆段所在的方向區(qū)域,確定筆段的走向碼,筆畫中所有筆段走向碼的集合即為該筆畫的走向碼特征集;所述步驟(3)中,建立統(tǒng)一的手寫漢字匹配空間的方法如下:以標(biāo)準(zhǔn)漢字點集中xmin、xmax、ymin、ymax組成的水平矩形作為待匹配空間,對用戶漢字做矩形外包輪廓并進(jìn)行旋轉(zhuǎn)-比例-平移變換,得到與標(biāo)準(zhǔn)漢字相同的匹配空間。所述步驟(4)中,獲得手寫漢字筆畫方位、拓?fù)潢P(guān)系和形狀相似度的方法如下:(1)首先計算用戶手寫漢字的筆畫s'1與標(biāo)準(zhǔn)字中第k個筆畫sk的方向編碼的距離HMHD(s'1(i),sk(i)),方向編碼距離計算公式為:d(s1',sk)=|s1'(i)-sk(i)|mod(M-m+1);其次計算s'1與sk的相對位置編碼的距離HMHD(s'1(j),sk(j)),相對位置編碼距離計算公式為:l(s1',sk)=|s1'(j)-sk(j)|;將計算結(jié)果帶入公式中,其中Lpos是經(jīng)驗值,得到用戶字筆畫s'1與標(biāo)準(zhǔn)字筆畫sk的筆畫方位相似度;(2)分別對筆畫拓?fù)潢P(guān)系中的相交、相接、相鄰、相離關(guān)系賦予不同的權(quán)值用于區(qū)分拓?fù)潢P(guān)系之間的相似性,設(shè)權(quán)重值分別為ω1、ω2、ω3、ω4,用戶字中某一筆畫s'1的四種拓?fù)潢P(guān)系的個數(shù)分別為N交、N接、N鄰、N離,則該筆畫拓?fù)潢P(guān)系總?cè)≈禐椋簍opology(s'h)=N交ω1+N接ω2+N鄰ω3+N離ω4,以相同方法計算標(biāo)準(zhǔn)漢字中某一筆畫sk拓?fù)潢P(guān)系總?cè)≈祎opology(sk);將計算結(jié)果代入公式中,其中Ltopology是經(jīng)驗值,得到用戶漢字筆畫s'1與標(biāo)準(zhǔn)字筆畫sk間拓?fù)潢P(guān)系的相似度;(3)計算用戶字中某一筆畫s'1與標(biāo)準(zhǔn)字中某一筆畫sk的方向鏈碼的距離HMHD[s'h(p1',p'2,...,p's),sk(p1,p2,...,pt)],將獲得的結(jié)果代入公式中,其中Lshape是經(jīng)驗值,得到用戶漢字筆畫s'1與標(biāo)準(zhǔn)漢字筆畫sk間的形狀相似度。求解用戶漢字中各個筆畫與對應(yīng)標(biāo)準(zhǔn)漢字中所有筆畫的總相似度矩陣的方法如下:方法一:利用上述方法,分別求解每個用戶漢字筆畫與對應(yīng)標(biāo)準(zhǔn)漢字各個筆畫在方位、拓?fù)潢P(guān)系、形狀三個維度上的相似度,得到筆畫的方位相似度矩陣、拓?fù)潢P(guān)系相似度矩陣和形狀相似度矩陣;對漢字每個特征的相似度矩陣進(jìn)行加權(quán)平均得到總相似度矩陣,求解公式為:S=ω1P+ω2U+ω3V,其中S為總相似度矩陣,P、U、V分別為方位相似度矩陣、拓?fù)潢P(guān)系相似度矩陣和形狀相似度矩陣,ω1、ω2、ω3分別對應(yīng)方位、拓?fù)潢P(guān)系、形狀三個矩陣的權(quán)值;方法二:對上述方法得到的手寫漢字筆畫方位相似度、拓?fù)潢P(guān)系相似度、形狀相似度進(jìn)行加權(quán)平均得到筆畫的總相似度,求解公式為:s=ω1p+ω2u+ω3v,其中s為筆畫的總相似度,p、u、v分別為筆畫的方位相似度、拓?fù)潢P(guān)系相似度、形狀相似度,ω1、ω2、ω3分別對應(yīng)方位、拓?fù)潢P(guān)系、形狀三個相似度的權(quán)值。所述步驟(5)中,用戶字與標(biāo)準(zhǔn)字筆畫一一匹配的方法如下:總相似度矩陣的每一行對應(yīng)用戶漢字某個筆畫與對應(yīng)標(biāo)準(zhǔn)漢字各個筆畫的總相似度,在其中選擇最大者,若最大者的值大于某一閾值則該筆畫完成匹配關(guān)系,否則認(rèn)為匹配失敗,該筆畫書寫錯誤。匹配過程中可能會出現(xiàn)多個用戶筆畫都大于某一閾值而匹配到同一標(biāo)準(zhǔn)筆畫的情況,該問題解決方法如下:假設(shè)用戶字筆畫s'1、s'2同時與標(biāo)準(zhǔn)字筆畫s1匹配,且匹配的最大總相似度分別為sim(s'1,s1)和sim(s'2,s1);具體步驟為:(1)比較sim(s'1,s1)和sim(s'2,s1)的大小,選取其中最大者作為匹配的結(jié)果;(2)假如s'1與s1匹配,處理s'2匹配的情況為:在p'2中選取除sim(s'2,s1)之外的最大者,對應(yīng)筆畫為sk,若被選中者的值大于某一閾值且s'2≠s'i,i=3,...,n,則認(rèn)為s'2與sk匹配,否則循環(huán)上述過程,一直到找到滿足條件的筆畫或全部備選筆畫都被過濾掉為止,若全部備選筆畫都被過濾掉,則認(rèn)為該用戶漢字筆畫是失配的筆畫。本發(fā)明與現(xiàn)有技術(shù)相比的有益效果:(1)本方法通過特征矩陣相似度匹配的方式實現(xiàn)了手寫漢字筆畫的確認(rèn),漢字書寫完成即可對手寫漢字的各筆畫進(jìn)行識別與判斷,具有高效、準(zhǔn)確、客觀的優(yōu)點。(2)本方法可以準(zhǔn)實時的識別手寫漢字各筆畫,從而可以及時對用戶的漢字書寫過程及書寫結(jié)果進(jìn)行監(jiān)督與糾正,提升漢字書寫能力,具有重要的應(yīng)用價值。附圖說明圖1是本發(fā)明的流程圖;圖2是本發(fā)明所描述的手寫漢字筆畫方位相似度的坐標(biāo)體系;圖3是本發(fā)明所描述的判斷手寫漢字筆畫相交的情況;圖4是本發(fā)明所描述的判斷手寫漢字筆畫相接的情況;圖5是本發(fā)明所描述的判斷手寫漢字筆畫相離的情況;圖6是本發(fā)明所描述的手寫漢字筆畫的方向鏈碼的編碼方式。具體實施方式下面結(jié)合附...