專利名稱:基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于漢字書寫的信息處理技術(shù)領(lǐng)域,具體地涉及ー種基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測方法和裝置。
背景技術(shù):
漢字書寫正誤評測的應(yīng)用目標在于輔助漢語學(xué)習者在無人值守的情況下進行自主的漢字書寫學(xué)習。因此,其思路是,實時采集學(xué)習者書寫漢字的位置、時間等信息并進行特征提取,然后將學(xué)習者書寫的漢字與標準漢字在筆畫、部件、整字等層面上進行自動的比對,并進行漢字書寫錯誤點的自動識別和反饋。漢字書寫評測與漢字識別具有本質(zhì)區(qū)別。漢字書寫評測的根本任務(wù)是評價用戶書寫的規(guī)范程度,而漢字識別則主要關(guān)心未知手寫體樣本與現(xiàn)有樣本庫中哪ー個最相似的問題;漢字評測側(cè)重于對漢字細微差別的評判和反饋,而漢字識別往往只關(guān)心總體上的近似性;漢字書寫評測只是將ー個待測漢字與ー個已知的標準漢字進行特征匹配,而漢字識別是將ー個待識別的漢字與漢字庫中所有漢字(通常是成千上萬)進行特征匹配,從而找出 ー個或多個與其最相近的漢字。在當今漢語國際推廣的背景下,漢語學(xué)習越來越受到人們的重視,國外的學(xué)習者也逐漸增多。漢字的學(xué)習是漢語學(xué)習的ー個重要組成部分。由于中國漢字(表意文字)與西方文字(表音文字)在書寫形式上的本質(zhì)差別,使得漢字的書寫能力成為制約學(xué)習者提高漢語水平的ー個重要因素。傳統(tǒng)的漢字書寫教學(xué)方法,存在著各種局限性。例如教師的手工評判工作量巨大,學(xué)生不能在無人值守的情況下完成漢字書寫練習和自我評判。隨著信息技術(shù)的不斷發(fā)展,人們提出了很多計算機輔助的漢字書寫教學(xué)系統(tǒng),來彌補傳統(tǒng)教學(xué)方式的不足。早期的漢字書寫教學(xué)系統(tǒng)[1]只是將正確漢字(這里稱為模板漢字)的書寫過程以動畫的形式演示給用戶。這種以演示為主的系統(tǒng)只能讓用戶進行被動的記憶,并不能主動的發(fā)現(xiàn)用戶的書寫錯誤,因此也不能檢驗用戶的學(xué)習效果,并給出針對性的改進意見。為了加強學(xué)生的學(xué)習和記憶效果,后續(xù)的教學(xué)系統(tǒng)開始逐漸增加交互功能。例如, 有些系統(tǒng)[2]要求用戶以描紅的方式完成漢字書寫;有些系統(tǒng)[3,4]要求用戶以筆畫選擇的方式拼寫漢字。這些簡單的交互功能只能發(fā)現(xiàn)極少的書寫錯誤,例如筆順的書寫錯誤,不能暴露出多筆、少筆、連筆、斷筆等錯誤。為了能夠給用戶更多的書寫指導(dǎo),人們也設(shè)計出ー些漢字書寫評價系統(tǒng),然而這些系統(tǒng)只是對漢字的整體布局進行評價,在書寫錯誤方面的反饋非常有限。例如文獻[5, 6]所實現(xiàn)的系統(tǒng),要求用戶書寫的漢字與模板字在筆畫上是嚴格對應(yīng)的,也就是說默認用戶知道漢字的正確書寫過程,系統(tǒng)最終反饋漢字整體布局的美觀性;文獻[7,8]設(shè)計的系統(tǒng)也只是考查手寫漢字的靜態(tài)圖像特征,并不關(guān)注筆序、筆向等時間相關(guān)特征。此外,有些系統(tǒng)采用聯(lián)機的方式進行漢字書寫教學(xué)[9,10]。每當用戶書寫完ー個筆畫,系統(tǒng)就立即反饋結(jié)果。這種交互形式不停的打斷用戶的書寫過程,顯得不夠友好。另外,它們僅僅重視筆順錯誤的識別。上述系統(tǒng)在交互形式、錯誤識別等方面都具有一定的局限性,也限制了系統(tǒng)的應(yīng)用范圍。為了達到智能化的教學(xué)效果,最近的漢字書寫教學(xué)系統(tǒng)開始加入了漢字筆畫的自動匹配算法。這些系統(tǒng)讓用戶一次性寫完漢字,然后與模板漢字進行筆畫匹配。Chen等人根據(jù)斜率將基本筆畫分為6種類型,首先將手寫漢字的筆畫進行歸類,然后進行筆畫的匹配。胡智慧[12]分別將模板漢字和手寫漢字的筆畫位置關(guān)系表示為兩個ARG圖[13], 然后通過邊的插入和刪除操作建立起兩個圖之間的匹配關(guān)系,最后根據(jù)邊操作順序得到匹配關(guān)系。Tang等人[14]將模板漢字和手寫漢字的筆畫匹配問題理解為線性分配問題。上述方法全部應(yīng)用于以抄寫為主的漢字書寫教學(xué)系統(tǒng)中,因此不能有效的檢查用戶記字、認字的能力;它們要求漢字本身的復(fù)雜程度不能太高,也就是說只能應(yīng)用到簡單漢字的書寫教學(xué)中;另外,上述方法要求用戶的書寫結(jié)果不能與模板漢字相差太大。如果讓用戶默寫漢字,那么用戶可能會出現(xiàn)各種各樣的書寫錯誤,從而使得現(xiàn)有的系統(tǒng)不能勝任。另外,西方國家的學(xué)習者只是將漢字簡單的理解為圖形并隨意的描畫,因此在書寫過程中也會出現(xiàn)各種意想不到的錯誤。針對他們書寫的漢字,目前的系統(tǒng)也是很難處理的。參考文獻[1]唐棠,陸兵,一種漢字書寫模擬練習軟件的設(shè)計,中文信息學(xué)報,vol. 10,No. 3, 10-17 頁,1996 年。[2]V. Tam, K. W. Yeung, "Learning to write Chinese characters with correct stroke sequences on mobile devices,,,Proceedings of ICETC2010, pp. 395-399, 2010。[3]趙希武,呂生榮,小學(xué)漢字書寫筆畫順序練習系統(tǒng)的設(shè)計,內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版),vol. 31,No. 1,236-240 頁,2010 年。[4]余海濤,漢字筆順書寫學(xué)習系統(tǒng)的設(shè)計與實現(xiàn),內(nèi)蒙古師范大學(xué),碩士學(xué)位論文,2010年。[5]夏偉平,金連文,一種基于模板的聯(lián)機手寫體漢字布局評價方法,2008年全國模式識別學(xué)術(shù)會議,354-359頁,2008年。[6]祁亨年,陳豐農(nóng),莊立,陳頻,一種無大小約束的漢字書寫結(jié)構(gòu)評測方法,鄭州大學(xué)學(xué)報(理學(xué)版),Vol. 40 No. 3,59-62頁,2008年。[7]王丁,漢字書法練習裝置中國,專利號971047421 [P],1998-10-07。[8]王丁,閆瑤,張廷宇,梁海濱,手持練字系統(tǒng)的設(shè)計與實現(xiàn),控制工程,Vol. 16 No. 6,2009 年。[9]莊崇彪,金連文,在線漢字書寫正誤及工整的智能評判算法.第十二屆全國信號處理學(xué)術(shù)年會論文集,2005年。[10]G. Chen, H. Yao, Y. Jheng, "On-line Assessment for the Stroke Order of Chinese Characters Writing,"Workshop Proceedings of ICCE2008,pp. 132-138,2008。[11]G. S. Chen, Y. D. Jheng, L. F. Lin, "Computer-based Assessment for the Stroke Order of Chinese Characters Writing, "proceedings of ICICIC2007, pp.160-163,2007。[12]胡智慧,“漢字智能工具中的書寫錯誤識別技術(shù)研究與應(yīng)用,”中國科學(xué)技術(shù)大學(xué),博士學(xué)位論文,2010年。
[13]ff. -H. Tsai, K. -S. Fu, "Error-Correcting Isomorphisms of Attributed Relational Graphs for Pattern Analysis,,,IEEE Transactions on Systems, Man, and Cybernetics, vol. 9,No. 12,pp.757—768,1979。[14]K. Tang, K. Li, H. Leung, "A Web-Based Chinese Handwriting Education System with Automatic Feedback and Analysis,,,Lecture Notes in Computer Science (LNCS)4181,pp.176-188,2006。
發(fā)明內(nèi)容
本發(fā)明的目的在于,為了改進現(xiàn)有漢字書寫教學(xué)系統(tǒng)的種種局限性,提供ー種漢字書寫正誤的自動評測方法。它能夠精確的將學(xué)習者的手寫漢字與模板漢字最大限度的匹配起來,并且精確識別出手寫漢字中多筆、少筆、連筆、斷筆、筆向、筆序等多種錯誤類型。將這些錯誤類型自動反饋給學(xué)習者,便可以實現(xiàn)無人值守的漢字書寫學(xué)習的目的。一方面,為達上述目的,本發(fā)明實施例提供了一種基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測方法,所述方法包括建立模板漢字,所述模板漢字包括書寫信息和結(jié)構(gòu)信息,所述書寫信息是包括筆畫和筆段的ニ級索引結(jié)構(gòu),所述結(jié)構(gòu)信息是各個筆段之間的相對位置關(guān)系;采集手寫漢字;計算所述手寫漢字的書寫信息和結(jié)構(gòu)信息;根據(jù)手寫漢字的書寫信息、結(jié)構(gòu)信息和模板漢字的書寫信息、結(jié)構(gòu)信息,將所述手寫漢字與所述模板漢字進行匹配,以生成包含手寫漢字和模板漢字的筆段映射關(guān)系集合的匹配結(jié)果;根據(jù)所述匹配結(jié)果識別所述手寫漢字的錯誤信息。另ー方面,為達上述目的,本發(fā)明實施例提供了一種基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測裝置,所述裝置包括模板漢字建立単元,用于建立模板漢字,所述模板漢字包括書寫信息和結(jié)構(gòu)信息, 所述書寫信息是包括筆畫和筆段的ニ級索引結(jié)構(gòu),所述結(jié)構(gòu)信息是各個筆段之間的相對位
J大爾;手寫漢字采集単元,用于采集手寫漢字;書寫信息和結(jié)構(gòu)信息計算單元,用于計算所述手寫漢字的書寫信息和結(jié)構(gòu)信息;匹配単元,用于根據(jù)手寫漢字的書寫信息、結(jié)構(gòu)信息和模板漢字的書寫信息、結(jié)構(gòu)信息,將所述手寫漢字與所述模板漢字進行匹配,以生成包含手寫漢字和模板漢字的筆段映射關(guān)系集合的匹配結(jié)果;錯誤信息識別單元,用于根據(jù)所述匹配結(jié)果識別所述手寫漢字的錯誤信息。本發(fā)明實施例的優(yōu)點為本發(fā)明實施例的方法能夠處理各種文化背景的學(xué)習者所書寫的漢字,對各種書寫錯誤都具有較好的識別效果。與不同的數(shù)字手寫設(shè)備相結(jié)合,本發(fā)明實施例的方法能夠應(yīng)用到不同的場合中。例如,與壓感顯示器或數(shù)字手寫板相結(jié)合,本方法可以應(yīng)用于信息化機房中的漢字書寫教學(xué),漢字書寫考試;與具有手寫功能的移動電腦、 手機相結(jié)合,本方法可以用于無人值守的移動式漢字書寫學(xué)習。上述技術(shù)方案將漢字分為“筆畫-筆段”的ニ級表達形式,并且最終計算出筆段的匹配結(jié)果,這種更加細致的匹配結(jié)果不但能夠幫助更加精確的定位書寫錯誤的具體位置, 而且能夠幫助發(fā)現(xiàn)更多的書寫錯誤類型,這是前人工作所不能達到的。另外,本方法還為漢字的結(jié)構(gòu)特征引入了筆段位置關(guān)系的概念,大大提高了漢字匹配的準確性。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖做一簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例的基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測方法的整體流程圖;圖2為本發(fā)明實施例的基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測方法的具體流程圖;圖3A為本發(fā)明實施例的模板漢字的手工標注過程示意圖;圖加為本發(fā)明實施例的模板漢字的手工標注結(jié)果示意圖;圖3C為本發(fā)明實施例的模板漢字手工標注結(jié)果的包圍盒以及坐標系示意圖;圖4為本發(fā)明實施例的模板漢字的筆畫-筆段ニ級索引結(jié)構(gòu)示意圖;圖5為本發(fā)明實施例的模板漢字的筆段位置關(guān)系示意圖;圖6A為本發(fā)明實施例的手寫漢字的采集結(jié)果示意圖;圖6B為本發(fā)明實施例的手寫漢字重采樣和計算拐點的示意圖;圖6C為本發(fā)明實施例的刪除手寫漢字中抖筆信息的示意圖;圖7A為本發(fā)明實施例的將手寫漢字某筆畫和模板漢字某筆畫置于同一局部坐標系中的示意圖;圖7B為本發(fā)明實施例的在局部坐標系中將手寫漢字某筆畫旋轉(zhuǎn)到最佳角度的示意圖;圖8A為本發(fā)明實施例的模板漢字和手寫漢字經(jīng)過筆畫匹配后的示意圖;圖8B為本發(fā)明實施例的模板漢字和手寫漢字經(jīng)過筆畫和筆段兩步匹配后的示意圖;圖9A為本發(fā)明實施例的模板漢字和手寫漢字在筆段合并之前的匹配效果示意圖;圖9B為本發(fā)明實施例的模板漢字和手寫漢字在筆段合并之后的匹配效果示意圖;圖10為本發(fā)明實施例的識別各種不同書寫錯誤的效果示意圖;圖11為本發(fā)明實施例的識別復(fù)雜連筆錯誤的效果示意圖;圖12為本發(fā)明實施例的一種基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測裝置的整體功能框圖;圖13為本發(fā)明實施例的書寫信息和結(jié)構(gòu)信息計算單元330的具體功能框圖;圖14為本發(fā)明實施例的另ー種基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測裝置的功能框圖15為本發(fā)明實施例的匹配単元340的具體功能框圖;圖16為本發(fā)明實施例的錯誤信息識別單元350的具體功能框圖。
具體實施例方式為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。為了改進現(xiàn)有漢字書寫教學(xué)系統(tǒng)的種種局限性,本發(fā)明實施例提出ー種漢字書寫正誤的自動評測方法。它能夠精確的將學(xué)習者的手寫漢字與模板漢字最大限度的匹配起來,并且精確識別出手寫漢字中多筆、少筆、連筆、斷筆、筆向、筆序等多種錯誤類型。將這些錯誤類型自動反饋給學(xué)習者,便可以實現(xiàn)無人值守的漢字書寫學(xué)習的目的。該方法基于的硬件設(shè)備是數(shù)字手寫交互設(shè)備,具體可以體現(xiàn)為,支持手寫的手機、 壓感顯示器、繪圖板、數(shù)碼筆等。這些手寫交互設(shè)備能夠反映用戶真實的書寫狀態(tài),這是鼠標設(shè)備所不能實現(xiàn)的。在交互方式上,用戶可以使用數(shù)字手寫設(shè)備隨意書寫漢字,并且一次性將漢字寫完。本方法僅僅將用戶書寫的漢字理解為由一系列離散點組成的線條圖形,通過優(yōu)化算法快速的、最大限度的將手寫漢字與模板漢字匹配起來,從而為書寫錯誤的識別提供基礎(chǔ)。本發(fā)明實施例的方法將漢字分為“筆畫-筆段”的ニ級表達形式,并且最終計算出筆段的匹配結(jié)果,這種更加細致的匹配結(jié)果不但能夠幫助更加精確的定位書寫錯誤的具體位置,而且能夠幫助發(fā)現(xiàn)更多的書寫錯誤類型,這是前人工作所不能達到的。另外,本發(fā)明實施例的方法還為漢字的結(jié)構(gòu)特征引入了筆段位置關(guān)系的概念,大大提高了漢字匹配的準確性。圖1為本發(fā)明實施例的基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測方法的整體流程圖;該方法包括110、建立模板漢字,所述模板漢字包括書寫信息和結(jié)構(gòu)信息,所述書寫信息是包括筆畫和筆段的ニ級索引結(jié)構(gòu),所述結(jié)構(gòu)信息是各個筆段之間的相對位置關(guān)系;120、采集手寫漢字;130、計算所述手寫漢字的書寫信息和結(jié)構(gòu)信息;140、根據(jù)手寫漢字的書寫信息、結(jié)構(gòu)信息和模板漢字的書寫信息、結(jié)構(gòu)信息,將所述手寫漢字與所述模板漢字進行匹配,以生成包含手寫漢字和模板漢字的筆段映射關(guān)系集合的匹配結(jié)果;150、根據(jù)所述匹配結(jié)果識別所述手寫漢字的錯誤信息。以下進行更為詳細的說明,圖2為本發(fā)明實施例的基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測方法的具體流程圖。如圖2所示,該方法具體包括“建立模板字,采集測試字,預(yù)處理,筆畫匹配,筆段匹配,合法性糾正,筆段合并,錯誤識別”等過程。其中,上述步驟 130包含于預(yù)處理過程內(nèi),步驟140對應(yīng)于“筆畫匹配,筆段匹配,合法性糾正,筆段合井”的處理過程。下面結(jié)合圖示對本發(fā)明實施例的具體實施方式
作進ー步詳細地描述,該方法具體包括如下步驟
210、建立模板漢字具體地,該步驟可以是建立模板漢字庫。模板漢字庫中的每個漢字包括書寫信息和結(jié)構(gòu)信息。書寫信息是指漢字書寫的時間信息和坐標信息。本發(fā)明實施例的方法將書寫信息分為筆畫和筆段的ニ級索引結(jié)構(gòu)。筆畫是指漢字書寫時不間斷地一次連續(xù)寫成的線條。如果這個線條包含拐點,那么將其分解為一系列筆段。因此,筆段是指不包含拐點的連續(xù)平滑的線段。ー個筆畫可以包含ー個或多個筆段。結(jié)構(gòu)信息是指各個筆段之間的相對位置關(guān)系。在ー個模板漢字中,任意兩個筆段的相對位置關(guān)系包括水平和豎直兩種情況,每種情況的取值包括“大于、小于、大小關(guān)系不影響字形正確性”三種可能。在一實施例中,可以借助微軟的windows操作系統(tǒng)中truetype字庫獲取模板漢字。由于truetype字庫中存儲的是漢字的輪廓,因此需要提取出每個筆畫中心線上的采樣點。為此,本發(fā)明實施例設(shè)計了ー個手工標注工具,利用手工方式獲得每個筆畫中心線上的采樣點,并標注出筆段之間的位置關(guān)系。圖3A顯示了模板字“他”的標注過程,黒色輪廓為 truetype字庫提供的漢字輪廓,其他圖畫為手工標注信息。根據(jù)手工標注的信息,可以計算并存儲模板漢字的書寫信息。圖加顯示了模板漢字“他”的最終標注效果,黒色點表示筆畫上的采樣點,空心點表示拐點,淺灰色線表示書寫過程,ul至u9的標號表示筆段的編號。圖4顯示了該漢字的“筆畫-筆段” ニ級索引的存儲結(jié)構(gòu)。筆畫和筆段的存儲順序與該漢字的書寫順序一致。如果某個筆段是直線段,那么該筆段中可以只存儲首尾兩個端點,例如圖3B中的u2 ;如果某個筆段是曲線段,那么為了保證曲線的平滑效果,該筆段中需要存儲多個采樣點,例如圖3B中的ul。在結(jié)構(gòu)信息方面,任意兩個筆段u和ν的位置關(guān)系可以表示為(Rx (U,ν),Ry (U,ν))。 其中,I X(U,V)和Ry(u,ν)分別表示二者在水平方向U軸)和豎直方向(y軸)上的位置關(guān)系。公式(1)說明了它們的取值方式,其中,(C, Cuy)m(Cux, Cル)分別表示筆段U和
V的中心坐標。
權(quán)利要求
1.一種基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測方法,其特征在于,所述方法包括建立模板漢字,所述模板漢字包括書寫信息和結(jié)構(gòu)信息,所述書寫信息是包括筆畫和筆段的二級索引結(jié)構(gòu),所述結(jié)構(gòu)信息是各個筆段之間的相對位置關(guān)系; 采集手寫漢字;計算所述手寫漢字的書寫信息和結(jié)構(gòu)信息;根據(jù)手寫漢字的書寫信息、結(jié)構(gòu)信息和模板漢字的書寫信息、結(jié)構(gòu)信息,將所述手寫漢字與所述模板漢字進行匹配,以生成包含手寫漢字和模板漢字的筆段映射關(guān)系集合的匹配結(jié)果;根據(jù)所述匹配結(jié)果識別所述手寫漢字的錯誤信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述筆畫是漢字書寫時不間斷地一次連續(xù)寫成的包含0個或至少一個拐點的線條,所述筆段是不包含拐點的連續(xù)平滑的線段。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采集手寫漢字包括通過數(shù)字手寫交互設(shè)備采集手寫漢字,通過所述數(shù)字手寫交互設(shè)備采集到的信息是所采集漢字的多個筆畫,所述多個筆畫中的任一個筆畫包括落筆和提筆之間筆跡上的多個采樣點。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算所述手寫漢字的書寫信息和結(jié)構(gòu)信息包括對所述手寫漢字中每個筆畫進行均勻的重采樣,使得相鄰采樣點間的距離相同; 計算所述手寫漢字中每個筆畫中的拐點位置,根據(jù)拐點位置將每個筆畫分解為多個筆段;根據(jù)任意兩個筆段的中心點在水平方向和豎直方向上的坐標值,計算所述任意兩個筆段在水平方向和豎直方向上的相對位置關(guān)系。
5.根據(jù)權(quán)利要求1或4所述的方法,其特征在于,在計算所述手寫漢字的書寫信息和結(jié)構(gòu)信息之后,所述方法還包括識別并刪除所述手寫漢字在書寫過程中的冗余信息,所述冗余信息包括抖筆和/或描毛ο
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,識別并刪除所述手寫漢字在書寫過程中抖筆包括確定所述手寫漢字中包含一個以上筆段的筆畫;將所述包含一個以上筆段的筆畫的起始筆段和末尾筆段的長度分別與預(yù)設(shè)的第一閾值進行比較,并刪除長度小于所述第一閾值的筆段。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,識別并刪除所述手寫漢字在書寫過程中描筆包括將所述手寫漢字中任意兩個筆畫s和t均勻地重采樣為H個采樣點;根據(jù)關(guān)系式
8.根據(jù)權(quán)利要求1所述的方法,其特征在干,所述根據(jù)手寫漢字的書寫信息、結(jié)構(gòu)信息和模板漢字的書寫信息、結(jié)構(gòu)信息,將所述手寫漢字與所述模板漢字進行匹配,以生成包含手寫漢字和模板漢字的筆段映射關(guān)系集合的匹配結(jié)果包括計算手寫漢字和模板漢字的筆畫匹配集合,所述筆畫匹配集合包含手寫漢字和模板漢字之間的筆畫映射關(guān)系,所述筆畫映射關(guān)系是一対一的,并且使得匹配代價函數(shù)最?。粚κ謱憹h字和模板漢字中未匹配的筆段進行匹配計算,獲得筆段匹配集合,所述筆段匹配集合包含手寫漢字和模板漢字之間的筆段映射關(guān)系,所述筆段映射關(guān)系是一対一的, 并且使得匹配代價函數(shù)最?。粚⑺龉P畫匹配集合和所述筆段匹配集合合并為ー個集合,根據(jù)手寫漢字和模板漢字中的結(jié)構(gòu)信息對該集合中的筆段映射關(guān)系進行糾正,獲得ー個結(jié)構(gòu)信息一致的匹配集合 R1 ;其中,所述的結(jié)構(gòu)信息一致是指對于も中的任意兩個筆段映射元素(IWi)和( ,ろ), 手寫漢字中筆段Ui和Uj的相對位置關(guān)系與模板漢字中筆段Vi和ろ的相對位置關(guān)系一致; 對模板漢字中的未匹配筆段進行合并處理;對手寫漢字中的未匹配筆段進行合并處理;針對手寫漢字和模板漢字中合并后的未匹配筆段進行匹配計算,并將結(jié)構(gòu)信息一致的匹配結(jié)果I 。插入到所述匹配集合も中,獲得手寫漢字和模板漢字之間最大數(shù)量的、結(jié)構(gòu)信息一致的匹配集合。
9.根據(jù)權(quán)利要求1所述的方法,其特征在干,所述根據(jù)所述匹配結(jié)果識別所述手寫漢字的錯誤信息包括如果模板漢字中存在未匹配的筆段,則判定手寫漢字中存在缺少所述未匹配的筆段; 或者,如果手寫漢字中存在未匹配的筆段,則判定所述未匹配的筆段屬于多余的筆段;或者, 根據(jù)所述匹配結(jié)果,如果模板漢字中的筆順、筆向信息與手寫漢字的筆順、筆向信息不符,則判定手寫漢字中存在筆順錯誤、筆向錯誤;或者,根據(jù)所述匹配結(jié)果,如果模板漢字與手寫漢字的“筆畫-筆段” ニ級索引結(jié)構(gòu)不同構(gòu), 則判定手寫漢字中存在連筆或斷筆問題;或者,如果所述匹配結(jié)果中存在一對多的映射關(guān)系,則判定手寫漢字中相應(yīng)的筆段存在連筆或斷筆問題。
10.根據(jù)權(quán)利要求8所述的方法,其特征在干,所述計算手寫漢字和模板漢字的筆畫匹配集合,所述筆畫匹配集合包含手寫漢字和模板漢字之間的筆畫映射關(guān)系,所述筆畫映射關(guān)系是一対一的,并且使得匹配代價函數(shù)最小包括計算手寫漢字中的任意筆畫< = i < = N)與模板漢字中的任意筆畫も(1 <= j <=M)的匹配權(quán)重C(Si,も);找到ー個匹配集合R= {(Si,tj) |1 <= i <=N,1 <= j <=M},所述匹配集合R中的映射是ー對一的,并且使得代價函數(shù)Cost =Σ C(Si,tj)最小,其中(Si,tp e R,且i、j、 Μ、N均為正整數(shù)。
11.根據(jù)權(quán)利要求10所述的方法,其特征在干,所述計算手寫漢字中的任意筆畫Si(1 <=i <=N)與模板漢字中的任意筆畫ち(1 <= j <=M)的匹配權(quán)重C(Si,tj)包括對Si和も進行均勻的重采樣,使采樣點數(shù)量均為H ;如果Si和も的首尾采樣點方向向量的夾角大于90度,則翻轉(zhuǎn)Si采樣點序列;如果Si和、所包含的筆段數(shù)不一致,則認為Si和、完全不匹配; 分別計算&和、的質(zhì)心距離"CP、長度差異辦、,&)、包圍盒的差異^ζ,,乂),判斷它們是否分別小于相應(yīng)的閾值,如果有任何一項不滿足條件,則認為筆畫Si和、完全不匹配;其中,質(zhì)心距離唞G,q)、長度差異辨、,、)、包圍盒的差異辨&,乂)的計算過程是依據(jù)如下關(guān)系式
12.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述將所述筆畫匹配集合和所述筆段匹配集合合并為一個集合,根據(jù)手寫漢字和模板漢字中的結(jié)構(gòu)信息對該集合中的筆段映射關(guān)系進行糾正,獲得一個結(jié)構(gòu)信息一致的匹配集合&包括對于合并后集合中的任意兩個筆段映射元素(UyVi)和(UpVp,如果之間的位置關(guān)系與Vi和Vj之間的位置關(guān)系不一致,則從集合中刪除匹配代價較大的元素; 經(jīng)過上述刪除操作,得到一個結(jié)構(gòu)信息一致的集合R1 ;在模板漢字和手寫漢字的未匹配筆段中找出合法匹配筆段,構(gòu)成筆段匹配集合Ro,并將Ro插入到R1中。
13.根據(jù)權(quán)利要求12所述的方法,其特征在于,Ro需滿足如下條件 Ro中手寫漢字和模板漢字的筆段映射關(guān)系是一對一的;Ro中任意兩個元素的筆段位置關(guān)系是一致的; Ro中的筆段位置關(guān)系不與I^1中的筆段位置關(guān)系產(chǎn)生沖突; 在前面三個條件基礎(chǔ)上,Ro中的元素是最多的;以及, Ro中元素的代價之和是最小的。
14.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述對模板漢字中的未匹配筆段進行合并處理包括將模板漢字中的多個未匹配筆段進行合并處理,和/或,將模板漢字中的未匹配筆段與已匹配筆段進行合并處理;所述對手寫漢字中的未匹配筆段進行合并處理包括 將手寫漢字中的多個未匹配筆段進行合并處理,和/或,將手寫漢字中的未匹配筆段與已匹配筆段進行合并處理;所述將模板漢字中的多個未匹配筆段進行合并處理包括假設(shè)為Vi和\是模板漢字中
15.一種基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測裝置,其特征在干,所述裝置包括模板漢字建立単元,用于建立模板漢字,所述模板漢字包括書寫信息和結(jié)構(gòu)信息,所述書寫信息是包括筆畫和筆段的ニ級索引結(jié)構(gòu),所述結(jié)構(gòu)信息是各個筆段之間的相對位置關(guān)系;手寫漢字采集単元,用于采集手寫漢字;書寫信息和結(jié)構(gòu)信息計算單元,用于計算所述手寫漢字的書寫信息和結(jié)構(gòu)信息; 匹配単元,用于根據(jù)手寫漢字的書寫信息、結(jié)構(gòu)信息和模板漢字的書寫信息、結(jié)構(gòu)信息,將所述手寫漢字與所述模板漢字進行匹配,以生成包含手寫漢字和模板漢字的筆段映射關(guān)系集合的匹配結(jié)果;錯誤信息識別單元,用于根據(jù)所述匹配結(jié)果識別所述手寫漢字的錯誤信息。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在干,所述書寫信息和結(jié)構(gòu)信息計算單元包括均勻重采樣模塊,用于對所述手寫漢字中每個筆畫進行均勻的重采樣,使得相鄰采樣點間的距離相同;筆畫分解模塊,用于計算所述手寫漢字中每個筆畫中的拐點位置,根據(jù)拐點位置將每個筆畫分解為多個筆段;筆段位置關(guān)系計算模塊,用于根據(jù)任意兩個筆段的中心點在水平方向和豎直方向上的坐標值,計算所述任意兩個筆段在水平方向和豎直方向上的相對位置關(guān)系。
17.根據(jù)權(quán)利要求15或16所述的裝置,其特征在干,所述裝置還包括冗余信息刪除模塊,用于識別并刪除所述手寫漢字在書寫過程中的冗余信息,所述冗余信息包括抖筆和/或描筆。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在干,所述冗余信息刪除模塊包括抖筆刪除子模塊,用于確定所述手寫漢字中包含ー個以上筆段的筆畫;將所述包含ー個以上筆段的筆畫的起始筆段和末尾筆段的長度分別與預(yù)設(shè)的第一閾值進行比較,并刪除長度小于所述第一閾值的筆段。
19.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述冗余信息刪除模塊包括描筆刪除子模塊,用于將所述手寫漢字中任意兩個筆畫s和t均勻地重采樣為H個采樣點;根據(jù)關(guān)系式
20.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述匹配單元包括筆畫匹配模塊,用于計算手寫漢字和模板漢字的筆畫匹配集合,所述筆畫匹配集合包含手寫漢字和模板漢字之間的筆畫映射關(guān)系,所述筆畫映射關(guān)系是一對一的,并且使得匹配代價函數(shù)最小;筆段匹配模塊,用于對手寫漢字和模板漢字中未匹配的筆段進行匹配計算,獲得筆段匹配集合,所述筆段匹配集合包含手寫漢字和模板漢字之間的筆段映射關(guān)系,所述筆段映射關(guān)系是一對一的,并且使得匹配代價函數(shù)最??;合法性糾正模塊,用于將所述筆畫匹配集合和所述筆段匹配集合合并為一個集合,根據(jù)手寫漢字和模板漢字中的結(jié)構(gòu)信息對該集合中的筆段映射關(guān)系進行糾正,獲得一個結(jié)構(gòu)信息一致的匹配集合I^1 ;其中,所述的結(jié)構(gòu)信息一致是指對于&中的任意兩個筆段映射元素(Ui,Vi)和(I^ ,手寫漢字中Ui和&的相對位置關(guān)系與模板漢字中Vi和\的相對位置關(guān)系一致;筆段合并模塊,用于對模板漢字中的未匹配筆段進行合并處理;對手寫漢字中的未匹配筆段進行合并處理;針對手寫漢字和模板漢字中合并后的未匹配筆段進行匹配計算,并將結(jié)構(gòu)信息一致的匹配結(jié)果R。插入到所述匹配集合&中,獲得手寫漢字和模板漢字之間最大數(shù)量的、結(jié)構(gòu)信息一致的匹配集合。
21.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述錯誤信息識別單元包括第一錯誤信息識別模塊,用于如果模板漢字中存在未匹配的筆段,則判定手寫漢字中存在缺少所述未匹配的筆段;或者,第二錯誤信息識別模塊,用于如果手寫漢字中存在未匹配的筆段,則判定所述未匹配的筆段屬于多余的筆段;或者,第三錯誤信息識別模塊,用于根據(jù)所述匹配結(jié)果,如果模板漢字中的筆順、筆向信息與手寫漢字的筆順、筆向信息不符,則判定手寫漢字中存在筆順錯誤、筆向錯誤;或者,第四錯誤信息識別模塊,用于根據(jù)所述匹配結(jié)果,如果模板漢字與手寫漢字的“筆畫-筆段”二級索引結(jié)構(gòu)不同構(gòu),則判定手寫漢字中存在連筆或斷筆問題;或者,第五錯誤信息識別模塊,用于如果所述匹配結(jié)果中存在一對多的映射關(guān)系,則判定手寫漢字中相應(yīng)的筆段存在連筆或斷筆問題。
全文摘要
本發(fā)明實施例提供一種基于數(shù)字手寫設(shè)備的漢字書寫正誤自動評測方法和裝置,該方法包括建立模板漢字,模板漢字包括書寫信息和結(jié)構(gòu)信息,所述書寫信息是包括筆畫和筆段的二級索引結(jié)構(gòu),結(jié)構(gòu)信息是各個筆段之間的相對位置關(guān)系;采集手寫漢字;計算手寫漢字的書寫信息和結(jié)構(gòu)信息;根據(jù)手寫漢字的書寫信息、結(jié)構(gòu)信息和模板漢字的書寫信息、結(jié)構(gòu)信息,將手寫漢字與所述模板漢字進行匹配,以生成包含手寫漢字和模板漢字的筆段映射關(guān)系集合的匹配結(jié)果;根據(jù)匹配結(jié)果識別所述手寫漢字的錯誤信息。該方法能夠精確的將學(xué)習者的手寫漢字與模板漢字最大限度的匹配起來,并且精確識別出手寫漢字中多筆、少筆、連筆、斷筆、筆向、筆序等多種錯誤類型。
文檔編號G09B11/00GK102542264SQ20111043596
公開日2012年7月4日 申請日期2011年12月22日 優(yōu)先權(quán)日2011年12月22日
發(fā)明者安維華, 李超, 荀恩東 申請人:北京語言大學(xué)