亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于形狀語法的個(gè)人漢字手寫字體自動(dòng)仿寫方法

文檔序號(hào):6575865閱讀:290來源:國知局
專利名稱:一種基于形狀語法的個(gè)人漢字手寫字體自動(dòng)仿寫方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)藝術(shù)與美學(xué)以及人工智能領(lǐng)域,尤其涉及一種基于形狀 語法的個(gè)人漢字手寫字體自動(dòng)仿寫方法。
背景技術(shù)
已經(jīng)有大量的工作來進(jìn)行中文書法字的相關(guān)研究,2005年IEEE Intelligent Systems雜志(文章標(biāo)題"Automatic generation of artistic Chinese calligraphy")公 布的方法與本研究方法有關(guān)系。在那篇文章中使用形態(tài)語法以層次化的方法分 解中文書法字。但是沒有增強(qiáng)形態(tài)語法從而捕獲在中文書法字形成過程中的不 確定因素。1995年P(guān)roceedings of the International Conference on Computer Processing of Oriental Languages雜志(文章標(biāo)題"Chinese glyph generation using character composition and beauty evaluation metrics")提出——禾中用探索的方式以量 化的方式評(píng)價(jià)書法字的美觀程度。文章基于一個(gè)基于規(guī)則的美觀評(píng)定方法得出 在漢字書法字書寫過程的四種規(guī)則。該方法簡單計(jì)算四種規(guī)則的得分總和。1992 年P(guān)roceeding of the International Joint Conference on Neural Networks雜志(文章標(biāo) 題"Fuzzy theory in hand writing learning system")提出模糊方法評(píng)價(jià)中文書法字 的美觀程度。在這種模糊方法中引入成員函數(shù)捕獲不同書法的不同書寫樣式。 但是成員函數(shù)的設(shè)計(jì)通常是手工完成并且對(duì)所有書寫樣式都是固定的。相比之 下,我們提出的增強(qiáng)的形態(tài)語法通過動(dòng)態(tài)的訓(xùn)練得到。通過一個(gè)即時(shí)訓(xùn)練的過 程,可以捕獲個(gè)人在中文書法字書寫樣式上的不確定因素。
另一個(gè)與本方法相關(guān)的領(lǐng)域是中文書法字的摹寫。1994年P(guān)roceedings of the twelfth national conference on Artificial intelligence雜志(文章標(biāo)題"Simulationing creativity in jazz performance")通過音樂基礎(chǔ)知識(shí)和音樂記憶模擬音樂家的創(chuàng)造 力和在爵士樂創(chuàng)作過程中的嘗試。2003年ACMTransactions on Graphics雜志(文 章標(biāo)題"Learning style translation for the lines of a drawing")通過石開究在不同藝術(shù) 繪畫中不同繪畫家的類型得到的聯(lián)系,研究在卡通繪畫過程形狀摹寫中有趣的 問題,該研究給我們的方法提供了一個(gè)直接的靈感。2007年AI Society雜志(文 章標(biāo)題"A multi-agent a based framework for the simulation of human and social behaviors during emergency evacuations")提出一個(gè)基于多層代理的框架結(jié)構(gòu),用于模擬在緊急撤離過程中的人類和社會(huì)的行為。
總而言之,我們觀察到所有的計(jì)算機(jī)模擬系統(tǒng)都是通過對(duì)目標(biāo)對(duì)象建模來 運(yùn)行,建模過程可以通過數(shù)據(jù)收集的方法進(jìn)行,也可以通過模擬產(chǎn)生模型,在 模擬產(chǎn)生模型的過程中,模型可以通過人類專家提前提供,或者通過在線的過 程逐漸學(xué)習(xí),或者兩者兼有。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于形狀語法的個(gè)人漢字 手寫字體自動(dòng)仿寫方法。
基于形狀語法的個(gè)人漢字手寫字體自動(dòng)仿寫方法包括以下步驟
1) 使用形狀語法分解中文書法字
中文書法字由基本的筆畫組成,根據(jù)形狀語法把中文書法字分解成筆畫構(gòu) 成的層次結(jié)構(gòu),形狀語法包括一系列的形狀產(chǎn)生規(guī)則,每種規(guī)則都指出從底層 筆畫構(gòu)成中文書法字的組成元素,除了中文書法字的組成元素外,還有另外一 種組成元素間的空間布局,空間布局用來指出中文書法字組成元素之間的空間 關(guān)系;
2) 通過加強(qiáng)的形狀語法捕獲中文書法字的不確定因素
通過增強(qiáng)每一個(gè)形狀語法規(guī)則,實(shí)現(xiàn)一個(gè)增強(qiáng)的形狀語法系統(tǒng),該增強(qiáng)的 過程包括聯(lián)系兩種書寫者的筆畫和空間布局,從而得到某個(gè)書寫者書寫的概率 以及該概率的可信度,增強(qiáng)的形狀語法不再對(duì)所有用戶保持一致,而是依賴書 寫者,給特定的書寫者創(chuàng)建加強(qiáng)的形狀語法,這個(gè)過程就是確定一個(gè)最佳集合, 該集合中包括所有筆畫和空間布局對(duì)某一特定書寫者的概率和可信度;
3) 使用加強(qiáng)的形狀語法確定摹寫中文書法字的可信度
通過在形態(tài)語法系統(tǒng)中的推理得到所有組成中文書法字的規(guī)則,對(duì)每一種 中文書法字的規(guī)則,遞歸計(jì)算筆畫的概率和可信度,為了適應(yīng)任意一條語法規(guī) 則,采用神經(jīng)網(wǎng)絡(luò)的方法產(chǎn)生筆畫的概率和可信度,利用所有的形態(tài)語法規(guī)則 來訓(xùn)練這些神經(jīng)網(wǎng)絡(luò);
4) 基于摹寫中文書法字的可信度,提出方法進(jìn)行摹寫中文書法字 當(dāng)評(píng)定針對(duì)某一書寫者的摹寫筆畫進(jìn)行可信度分析后,利用可信度作為反
饋來摹寫中文書法字。 所述的步驟l)包括 a)中文書法字通過一個(gè)樹形結(jié)構(gòu)來表達(dá),樹的枝葉都是基本的組成元素,
7其中最底層的樹葉就是中文書法字中的筆畫,中文書法字被拆分成基本的筆畫;
b) 組成中文書法字的基本筆畫之間還有空間的層次結(jié)構(gòu)關(guān)系,通過這個(gè)關(guān) 系,中文書法字被看成由多個(gè)筆畫組成的多層結(jié)構(gòu);
c) 根據(jù)步驟a)、步驟b)的中文書法字的層次結(jié)構(gòu),將一個(gè)中文書法字以遞 歸的形式組成,通過多種組成方法完成,每一種組成中文書法字的方法都對(duì)應(yīng) 于形態(tài)語法系統(tǒng)中的一種分析方法;
d) 形態(tài)語法包含一系列形態(tài)產(chǎn)生規(guī)則,這些規(guī)則能夠在形態(tài)語法系統(tǒng)中被 表示出來,每一個(gè)規(guī)則都指出怎樣從低層元素組成中文書法字的元素;
e) 除了組成中文書法字的基本元素外,在形態(tài)語法中還有字組成預(yù)測(cè),字 組成預(yù)測(cè)指的是組成中文書法字基本元素的空間關(guān)系;
f) 尋找某個(gè)特定中文書法字的所有的組成方法,找到所有的組成方法是一個(gè) 成功摹寫中文書法字算法的關(guān)鍵;
g) 在發(fā)現(xiàn)所有組成中文書法字的過程中,每一個(gè)組成元素都被給予一個(gè)類 型屬性,這個(gè)屬性根據(jù)中國傳統(tǒng)漢字形態(tài)分類給出元素所屬的類型, 一旦獲得 組成元素的形態(tài)類型,能夠根據(jù)相應(yīng)的的形態(tài)語法規(guī)則產(chǎn)生中文書法字的實(shí)際 形狀,其中相應(yīng)的語法規(guī)則通過形態(tài)語法系統(tǒng)推理獲得。
所述的步驟2)包括
h) 增強(qiáng)的形態(tài)語法系統(tǒng)通過增強(qiáng)每一個(gè)形態(tài)語法規(guī)則形成,增強(qiáng)的過程包 括把兩種作者相關(guān)信息和形態(tài)語法規(guī)則中的元素、空間關(guān)系聯(lián)系起來,也就是 它們被某個(gè)人所寫的概率和這個(gè)概率的可信度;
i) 與前面談到的傳統(tǒng)形態(tài)語法系統(tǒng)不同,增強(qiáng)的形狀語法不在對(duì)所有用戶 保持一致,而是依賴書寫者,這是一個(gè)在設(shè)計(jì)過程中的目標(biāo)屬性,成功捕獲個(gè) 人書寫的不確定因素是成功摹寫中文書法字的關(guān)鍵;
j)給特定的書寫者創(chuàng)建加強(qiáng)的形狀語法,這個(gè)過程就是確定一個(gè)最佳集合, 該集合中包括所有筆畫和空間布周對(duì)某一特定書寫者的概率和可信度,根據(jù)某 一書寫者的筆畫集合把中文書法字分解成基本組成元素,從而產(chǎn)生一系列該書 寫者的書寫筆畫,這些書寫筆畫或者來源于書寫者,或者來源于中文書法字分 解的過程,然后對(duì)每個(gè)筆畫進(jìn)行進(jìn)行參數(shù)表達(dá),使它成為一個(gè)一維向量,向量 的前兩個(gè)參數(shù)給出中文書法字組成筆畫的軌跡,另一個(gè)參數(shù)給出筆畫的寬度;
k)在給定中文書法字組成元素的情況下,要確定被某個(gè)特定書寫者書寫、 屬于某種形態(tài)的概率和該概率的可信度,先在訓(xùn)練集中找到所有與該字屬于同 種形態(tài)的所有組成元素,并采用在步驟j)中提到的參數(shù)表達(dá)的方法,把訓(xùn)練集中的元素進(jìn)行參數(shù)表達(dá),這些元素都來自訓(xùn)練集,所以相應(yīng)的書寫者已經(jīng)提前
知道,把參數(shù)表達(dá)后的結(jié)果分成兩組, 一組被某書寫者X所寫,另一組不是被
某書寫者X所寫;
l)對(duì)輸入的中文書法字組成元素按照步驟j)的方法進(jìn)行參數(shù)表達(dá),參數(shù)表達(dá) 得到的向量將落入哪一個(gè)組中,即被某書寫者X所寫,還是不被某書寫者X所
寫;
m)在訓(xùn)練集中要區(qū)分筆畫是否為某一特定書寫者所寫,接下來引入一個(gè)模 糊分類數(shù)據(jù)聚類算法,為了解決問題對(duì)這個(gè)算法稍作修改用曲線距離取代傳 統(tǒng)的集合距離,在這個(gè)模糊聚類算法中,輸出某個(gè)筆畫屬于某個(gè)書寫者的概率, 數(shù)據(jù)挖掘中的ten-fold交叉算法用來在這里產(chǎn)生概率的可信度,然后采用樣本 數(shù)據(jù)進(jìn)行訓(xùn)練,并留下10%的數(shù)據(jù)進(jìn)行測(cè)試;
n)通過以下方法確定步驟m)中方法分類的準(zhǔn)確性,重復(fù)步驟m) 10次,得 到一個(gè)總體的分類準(zhǔn)確率,如果總體的平均分類準(zhǔn)確率是100%,即給它最高的 可信度=1,那么當(dāng)遇到新元素時(shí)分類結(jié)果很可能正確,否則,在上述分類過程 中出現(xiàn)越多的錯(cuò)誤,對(duì)新元素的分類結(jié)果的可信度就越低;
o)為了初始化捕獲中文書法字中不確定因素的增強(qiáng)形態(tài)語法,采用優(yōu)化的 中文書法字的識(shí)別算法,決定所有中文書法字的元素間空間關(guān)系的概率和可信 度,該算法的輸出是一個(gè)模糊數(shù)字,數(shù)字的每一部分指出空間關(guān)系屬于某種特 定空間關(guān)系的概率;
p)針對(duì)所有元素,按照步驟k),步驟l),步驟m)進(jìn)行處理,處理的目的是為 了得到元素的空間關(guān)系被某個(gè)書寫者所寫、屬于某個(gè)特定空間關(guān)系的概率和可 信度,如果元素的空間關(guān)系屬于某種特定空間關(guān)系的概率比屬于其它類型空間 的空間關(guān)系大,說明結(jié)果正確,當(dāng)所有的空間關(guān)系經(jīng)過這個(gè)步驟后,計(jì)算總體 正確率,并把結(jié)果作為可信度輸出。
所述的步驟3)包括
q)在摹寫中文書法字的計(jì)算機(jī)方法中成功摹寫中文書法字的關(guān)鍵是通過評(píng)
分確定對(duì)某個(gè)特定的書法家摹寫的可信度,通過前面討論的增強(qiáng)的形態(tài)語法設(shè) 計(jì)這個(gè)評(píng)分部分;
r)通過在形態(tài)語法系統(tǒng)中的推理得到所有組成中文書法字的規(guī)則,對(duì)每一 種組成規(guī)則,遞歸計(jì)算筆畫的概率和可信度;
s)為了能夠?qū)θ我庖粭l語法規(guī)則,采用神經(jīng)網(wǎng)絡(luò)的方法產(chǎn)生筆畫的概率和可信度。兩種神經(jīng)網(wǎng)絡(luò)被采用, 一種是預(yù)測(cè)筆畫的可信度(p(P, X, Y ),被叫做AWp 另一種是筆畫的概率p(P工lO,被叫做層p輸入到M^的內(nèi)容包括某布局在若干
筆畫空間布局中的概率的可信度+,尸;,…,p/j,;r)和某筆畫屬于某種字體的概率 的可信度"O,",輸入到AWp的內(nèi)容包括某布局在若干筆畫空間布局中的概 率/^,iT,…,尸/,義,"和某筆畫屬于某種字體的概率MC,",其中AW^的輸出是
某筆畫屬于某種字體的概率的可信度^(/> ), AW,的輸出是某筆畫屬于某種字 體的概率;
t)利用所有的形態(tài)語法規(guī)則來訓(xùn)練這些神經(jīng)網(wǎng)絡(luò),其中語法規(guī)則的組成元 素和空間布局都已經(jīng)被某書寫者寫下來,則得到p和p的值,每一條規(guī)則都提供 一個(gè)訓(xùn)練例子給神經(jīng)網(wǎng)絡(luò),所采用的神經(jīng)網(wǎng)絡(luò)是經(jīng)典后向反饋神經(jīng)網(wǎng)絡(luò),在神
經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,設(shè)為循環(huán)10000次,并采用ten-fold交叉技術(shù)防止過度適 應(yīng)。
所述的步驟4)包括
u)當(dāng)評(píng)定針對(duì)某一書寫者的摹寫筆畫進(jìn)行可信度分析后,釆用2005年 "Automatic generation of artistic Chinese calligraphy"提出的中文書法字生成算 法,利用可信度作為反饋來摹寫中文書法字;
v)中文書法字生成算法有六個(gè)參數(shù),提供接口來整合摹寫評(píng)分算法,這些 參數(shù)用來指出產(chǎn)生的中文書法字的視覺樣式,先隨機(jī)取這六個(gè)參數(shù),然后調(diào)用 摹寫評(píng)分算法來對(duì)摹寫可信度打分,當(dāng)產(chǎn)生分?jǐn)?shù)后,釆用deepest ascendant算法
使分?jǐn)?shù)最大化,為避免陷入局部最小,重復(fù)上述結(jié)果多次,直到分?jǐn)?shù)到達(dá)一個(gè) 滿意閾0.9,或者重復(fù)的次數(shù)沖過1000次,通過逐個(gè)摹寫中文書法字,摹寫全 部的中文書法字。
本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果-
(1) 綜合了多種人工智能技術(shù),使得計(jì)算機(jī)摹寫中文書法字成為可能;
(2) 利用神經(jīng)網(wǎng)絡(luò)技術(shù),使得計(jì)算機(jī)對(duì)中文書法字進(jìn)行貧家的能力可以通過 人類的審美觀學(xué)習(xí)而來;
(3) 在對(duì)中文書法字的筆畫分解中,引入了概率和可信度,大大提高了對(duì)于 形變嚴(yán)重的字體尤其是草樹體的筆畫分解效果。


圖1本發(fā)明所述的實(shí)施流程圖2(a)顯示一種分解中文書法字的方式圖;圖2(b)顯示另一種分解中文書法字的方式圖; 圖3顯示在圖1中分解的所有形態(tài)語法規(guī)則圖4顯示在圖1中分解的部分形態(tài)語法規(guī)則,并且用另一種形式表達(dá)語法 規(guī)則圖5顯示一部分根據(jù)形態(tài)語法規(guī)則組成中文書法字過程圖6中第一列是書法家所寫的原始書法字,其它三列是我們算法產(chǎn)生的、
獲得最高摹寫可信度得分的摹寫結(jié)果圖。
具體實(shí)施例方式
基于形狀語法的個(gè)人漢字手寫字體自動(dòng)仿寫方法包括以下步驟
1) 使用形狀語法分解中文書法字
中文書法字由基本的筆畫組成,根據(jù)形狀語法把中文書法字分解成筆畫構(gòu) 成的層次結(jié)構(gòu),形狀語法包括一系列的形狀產(chǎn)生規(guī)則,每種規(guī)則都指出從底層 筆畫構(gòu)成中文書法字的組成元素,除了中文書法字的組成元素外,還有另外一 種組成元素間的空間布局,空間布局用來指出中文書法字組成元素之間的空間
關(guān)系;
2) 通過加強(qiáng)的形狀語法捕獲中文書法字的不確定因素 通過增強(qiáng)每一個(gè)形狀語法規(guī)則,實(shí)現(xiàn)一個(gè)增強(qiáng)的形狀語法系統(tǒng),該增強(qiáng)的
過程包括聯(lián)系兩種書寫者的筆畫和空間布局,從而得到某個(gè)書寫者書寫的概率 以及該概率的可信度,增強(qiáng)的形狀語法不再對(duì)所有用戶保持一致,而是依賴書 寫者,給特定的書寫者創(chuàng)建加強(qiáng)的形狀語法,這個(gè)過程就是確定一個(gè)最佳集合, 該集合中包括所有筆畫和空間布局對(duì)某一特定書寫者的概率和可信度;
3) 使用加強(qiáng)的形狀語法確定摹寫中文書法字的可信度 通過在形態(tài)語法系統(tǒng)中的推理得到所有組成中文書法字的規(guī)則,對(duì)每一種
中文書法字的規(guī)則,遞歸計(jì)算筆畫的概率和可信度,為了適應(yīng)任意一條語法規(guī) 則,采用神經(jīng)網(wǎng)絡(luò)的方法產(chǎn)生筆畫的概率和可信度,利用所有的形態(tài)語法規(guī)則 來訓(xùn)練這些神經(jīng)網(wǎng)絡(luò);
4) 基于摹寫中文書法字的可信度,提出方法進(jìn)行摹寫中文書法字 當(dāng)評(píng)定針對(duì)某一書寫者的摹寫筆畫進(jìn)行可信度分析后,利用可信度作為反
饋來摹寫中文書法字。 所述的步驟l)包括 a)中文書法字通過一個(gè)樹形結(jié)構(gòu)來表達(dá),樹的枝葉都是基本的組成元素, 其中最底層的樹葉就是中文書法字中的筆畫,中文書法字被拆分成基本的筆畫;b) 組成中文書法字的基本筆畫之間還有空間的層次結(jié)構(gòu)關(guān)系,通過這個(gè)關(guān) 系,中文書法字被看成由多個(gè)筆畫組成的多層結(jié)構(gòu);
c) 根據(jù)步驟a)、步驟b)的中文書法字的層次結(jié)構(gòu),將一個(gè)中文書法字以遞 歸的形式組成,通過多種組成方法完成,每一種組成中文書法字的方法都對(duì)應(yīng) 于形態(tài)語法系統(tǒng)中的一種分析方法;
d) 形態(tài)語法包含一系列形態(tài)產(chǎn)生規(guī)則,這些規(guī)則能夠在形態(tài)語法系統(tǒng)中被 表示出來,每一個(gè)規(guī)則都指出怎樣從低層元素組成中文書法字的元素;
e) 除了組成中文書法字的基本元素外,在形態(tài)語法中還有字組成預(yù)測(cè),字 組成預(yù)測(cè)指的是組成中文書法字基本元素的空間關(guān)系;
f) 尋找某個(gè)特定中文書法字的所有的組成方法,找到所有的組成方法是一個(gè) 成功摹寫中文書法字算法的關(guān)鍵;
g) 在發(fā)現(xiàn)所有組成中文書法字的過程中,每一個(gè)組成元素都被給予一個(gè)類 型屬性,這個(gè)屬性根據(jù)中國傳統(tǒng)漢字形態(tài)分類給出元素所屬的類型, 一旦獲得 組成元素的形態(tài)類型,能夠根據(jù)相應(yīng)的的形態(tài)語法規(guī)則產(chǎn)生中文書法字的實(shí)際 形狀,其中相應(yīng)的語法規(guī)則通過形態(tài)語法系統(tǒng)推理獲得。
所述的步驟2)包括
h) 增強(qiáng)的形態(tài)語法系統(tǒng)通過增強(qiáng)每一個(gè)形態(tài)語法規(guī)則形成,增強(qiáng)的過程包 括把兩種作者相關(guān)信息和形態(tài)語法規(guī)則中的元素、空間關(guān)系聯(lián)系起來,也就是 它們被某個(gè)人所寫的概率和這個(gè)概率的可信度;
i) 與前面談到的傳統(tǒng)形態(tài)語法系統(tǒng)不同,增強(qiáng)的形狀語法不在對(duì)所有用戶 保持一致,而是依賴書寫者,這是一個(gè)在設(shè)計(jì)過程中的目標(biāo)屬性,成功捕獲個(gè) 人書寫的不確定因素是成功摹寫中文書法字的關(guān)鍵;
j)給特定的書寫者創(chuàng)建加強(qiáng)的形狀語法,這個(gè)過程就是確定一個(gè)最佳集合, 該集合中包括所有筆畫和空間布局對(duì)某一特定書寫者的概率和可信度,根據(jù)某 一書寫者的筆畫集合把中文書法字分解成基本組成元素,從而產(chǎn)生一系列該書 寫者的書寫筆畫,這些書寫筆畫或者來源于書寫者,或者來源于中文書法字分 解的過程,然后對(duì)每個(gè)筆畫進(jìn)行進(jìn)行參數(shù)表達(dá),使它成為一個(gè)一維向量,向量 的前兩個(gè)參數(shù)給出中文書法字組成筆畫的軌跡,另一個(gè)參數(shù)給出筆畫的寬度;
k)在給定中文書法字組成元素的情況下,要確定被某個(gè)特定書寫者書寫、 屬于某種形態(tài)的概率和該概率的可信度,先在訓(xùn)練集中找到所有與該字屬于同 種形態(tài)的所有組成元素,并采用在步驟j)中提到的參數(shù)表達(dá)的方法,把訓(xùn)練集 中的元素進(jìn)行參數(shù)表達(dá),這些元素都來自訓(xùn)練集,所以相應(yīng)的書寫者已經(jīng)提前
12知道,把參數(shù)表達(dá)后的結(jié)果分成兩組, 一組被某書寫者X所寫,另一組不是被
某書寫者X所寫;
l)對(duì)輸入的中文書法字組成元素按照步驟j)的方法進(jìn)行參數(shù)表達(dá),參數(shù)表達(dá) 得到的向量將落入哪一個(gè)組中,即被某書寫者X所寫,還是不被某書寫者X所
寫;
m)在訓(xùn)練集中要區(qū)分筆畫是否為某一特定書寫者所寫,接下來引入一個(gè)模 糊分類數(shù)據(jù)聚類算法,為了解決問題對(duì)這個(gè)算法稍作修改用曲線距離取代傳 統(tǒng)的集合距離,在這個(gè)模糊聚類算法中,輸出某個(gè)筆畫屬于某個(gè)書寫者的概率, 數(shù)據(jù)挖掘中的ten-fold交叉算法用來在這里產(chǎn)生概率的可信度,然后采用樣本 數(shù)據(jù)進(jìn)行訓(xùn)練,并留下10%的數(shù)據(jù)進(jìn)行測(cè)試;
n)通過以下方法確定步驟m)中方法分類的準(zhǔn)確性,重復(fù)步驟m) 10次,得 到一個(gè)總體的分類準(zhǔn)確率,如果總體的平均分類準(zhǔn)確率是100%,即給它最高的 可信度=1,那么當(dāng)遇到新元素時(shí)分類結(jié)果很可能正確,否則,在上述分類過程 中出現(xiàn)越多的錯(cuò)誤,對(duì)新元素的分類結(jié)果的可信度就越低;
o)為了初始化捕獲中文書法字中不確定因素的增強(qiáng)形態(tài)語法,采用優(yōu)化的 中文書法字的識(shí)別算法,決定所有中文書法字的元素間空間關(guān)系的概率和可信 度,該算法的輸出是一個(gè)模糊數(shù)字,數(shù)字的每一部分指出空間關(guān)系屬于某種特 定空間關(guān)系的概率;
p)針對(duì)所有元素,按照步驟k),步驟l),步驟m)進(jìn)行處理,處理的目的是為 了得到元素的空間關(guān)系被某個(gè)書寫者所寫、屬于某個(gè)特定空間關(guān)系的概率和可 信度,如果元素的空間關(guān)系屬于某種特定空間關(guān)系的概率比屬于其它類型空間 的空間關(guān)系大,說明結(jié)果正確,當(dāng)所有的空間關(guān)系經(jīng)過這個(gè)步驟后,計(jì)算總體 正確率,并把結(jié)果作為可信度輸出。
所述的步驟3)包括
q)在摹寫中文書法字的計(jì)算機(jī)方法中成功摹寫中文書法字的關(guān)鍵是通過評(píng) 分確定對(duì)某個(gè)特定的書法家摹寫的可信度,通過前面討論的增強(qiáng)的形態(tài)語法設(shè) 計(jì)這個(gè)評(píng)分部分;
r)通過在形態(tài)語法系統(tǒng)中的推理得到所有組成中文書法字的規(guī)則,對(duì)每一 種組成規(guī)則,遞歸計(jì)算筆畫的概率和可信度;
s)為了能夠?qū)θ我庖粭l語法規(guī)則,采用神經(jīng)網(wǎng)絡(luò)的方法產(chǎn)生筆畫的概率和 可信度。兩種神經(jīng)網(wǎng)絡(luò)被采用, 一種是預(yù)測(cè)筆畫的可信度cp(P,X,Y ),被叫做AW"另一種是筆畫的概率^(P,X,y),被叫做AWp輸入到JV^的內(nèi)容包括某布局 在若干筆畫空間布局中的概率的可信度"/ ,尸,',…,戶/,X,"和某筆畫屬于某種字體 的概率的可信度"戶:,義,",輸入到AWp的內(nèi)容包括某布局在若干筆畫空間布局
中的概率^(/ ,《',…,d"和某筆畫屬于某種字體的概率"《,;ir,y),其中aw^的
瑜出是某筆畫屬于某種字體的概率的可信度^iMl0, AW^的輸出是某筆畫屬于 某種字體的概率;
t)利用所有的形態(tài)語法規(guī)則來訓(xùn)練這些神經(jīng)網(wǎng)絡(luò),其中語法規(guī)則的組成元 素和空間布局都己經(jīng)被某書寫者寫下來,則得到p和p的值,每一條規(guī)則都提供 一個(gè)訓(xùn)練例子給神經(jīng)網(wǎng)絡(luò),所采用的神經(jīng)網(wǎng)絡(luò)是經(jīng)典后向反饋神經(jīng)網(wǎng)絡(luò),在神 經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,設(shè)為循環(huán)10000次,并采用ten-fold交叉技術(shù)防止過度適 應(yīng)。
所述的步驟4)包括
u)當(dāng)評(píng)定針對(duì)某一書寫者的摹寫筆畫進(jìn)行可信度分析后,采用2005年 "Automatic generation of artistic Chinese calligraphy"提出的中文書法字生成算 法,利用可信度作為反饋來摹寫中文書法字;
v)中文書法字生成算法有六個(gè)參數(shù),提供接口來整合摹寫評(píng)分算法,這些 參數(shù)用來指出產(chǎn)生的中文書法字的視覺樣式,先隨機(jī)取這六個(gè)參數(shù),然后調(diào)用 摹寫評(píng)分算法來對(duì)摹寫可信度打分,當(dāng)產(chǎn)生分?jǐn)?shù)后,采用deepest ascendant算法 使分?jǐn)?shù)最大化,為避免陷入局部最小,重復(fù)上述結(jié)果多次,直到分?jǐn)?shù)到達(dá)一個(gè) 滿意閾0.9,或者重復(fù)的次數(shù)沖過1000次,通過逐個(gè)摹寫中文書法字,摹寫全 部的中文書法字。 實(shí)施例
如圖1所示,本發(fā)明所述的實(shí)施系統(tǒng)的流程包括中文書法字圖像101,筆畫 和筆畫間空間關(guān)系分解102,利用增強(qiáng)形狀語法捕獲中文書法字的不確定因素 103,利用增強(qiáng)形狀語法評(píng)價(jià)摹寫中文書法字104;
中文書法字圖像101:中文書法字圖像是指包含漢字字體的數(shù)字圖像;在本實(shí)施
例中,所有的中文書法字圖像都被分離成了一個(gè)個(gè)的單字,然后把它們歸一化
成統(tǒng)一尺寸的二值黑白圖像,其實(shí)例如圖6第一列所示; 筆畫和筆畫間空間關(guān)系分解102:在本示例中,該部分包括以下步驟
A)中文書法字可以通過一個(gè)樹形結(jié)構(gòu)來表達(dá)。樹的枝葉都是基本的組成元
素,其中最底層的樹葉就是中文書法字中的筆畫。因此中文書法字可以被拆分成基本的筆畫。組成中文書法字的基本筆畫之間還有空間的層次結(jié)構(gòu)關(guān)系,通 過這個(gè)關(guān)系,中文書法字可以被看成由多個(gè)筆畫組成的多層結(jié)構(gòu)。
B) 通過A)中討論的中文書法字的層次結(jié)構(gòu), 一個(gè)中文書法字可以通過遞歸 的形式組成。這種形成過程可以通過多種方式完成。每一種組成中文書法字的 方法都對(duì)應(yīng)于形態(tài)語法系統(tǒng)中的一種分析方法。這就是為什么選擇形態(tài)語法作 為產(chǎn)生中文書法字的基本產(chǎn)生方法。
C) 形態(tài)語法包含一系列形態(tài)產(chǎn)生規(guī)則。這些規(guī)則能夠在形態(tài)語法系統(tǒng)中被 表示出來。每一個(gè)規(guī)則都指出怎樣從低層元素組成中文書法字的元素。除了組 成中文書法字的基本元素外,字組成預(yù)測(cè)在形態(tài)語法中也很重要。字組成預(yù)測(cè) 指的是組成中文書法字基本元素的空間關(guān)系。
D) 應(yīng)用以上步驟,我們可以列舉出組成某個(gè)特定中文書法字的所有可能的 方式。找到所有的組成方式一個(gè)成功摹寫中文書法字算法的關(guān)鍵。在發(fā)現(xiàn)所有 組成中文書法字的過程中,每一個(gè)組成元素都被給予一個(gè)類型屬性。這個(gè)屬性 根據(jù)中國傳統(tǒng)漢字形態(tài)分類給出元素所屬的類型。 一旦獲得組成元素的形態(tài)類 型,我們能夠根據(jù)相應(yīng)的的形態(tài)語法規(guī)則產(chǎn)生中文書法字的實(shí)際形狀,其中相 應(yīng)的語法規(guī)則通過形態(tài)語法系統(tǒng)推理獲得。圖2中給出整個(gè)分解過程及樹形結(jié) 構(gòu)
利用增強(qiáng)形態(tài)語法捕獲中文書法字的不確定因素103:
E) 增強(qiáng)的形態(tài)語法系統(tǒng)通過增強(qiáng)每一個(gè)形態(tài)語法規(guī)則形成。增強(qiáng)的過程包 括把兩種作者相關(guān)信息和形態(tài)語法規(guī)則中的元素、空間關(guān)系聯(lián)系起來。也就是 它們被某個(gè)人所寫的概率和這個(gè)概率的可信度。其步驟如下-
1) 戶(d:r):中文書法字元素Y屬于某個(gè)形態(tài)r")和被書寫者X所寫的概
率;
2) p",x,;r):戶(c,"的可信度;
3) p(/e/,—"otowc/^,戶2,X,:r):元素《和尸2之間的空間關(guān)系Y屬于某個(gè)類型
z"(一一"w鬆;O且被書寫者X所寫的概率;
4) ^(/# — "wowcA, S,戶2 , A1"): p(/祈—"orowc/j,《,尸2 , X, r)的可信度。
F) 與前面談到的傳統(tǒng)形態(tài)語法系統(tǒng)不同,增強(qiáng)的形狀語法不在對(duì)所有用戶 保持一致,而是依賴書寫者。這是一個(gè)在設(shè)計(jì)過程中的目標(biāo)屬性。成功捕獲個(gè) 人書寫的不確定因素是成功摹寫中文書法字的關(guān)鍵。
G) 給特定的書寫者創(chuàng)建加強(qiáng)的形狀語法。這個(gè)過程就是確定一個(gè)最佳集
15合,該集合中包括所有筆畫和空間布局對(duì)某一特定書寫者的概率和可信度。根 據(jù)某一書寫者的筆畫集合可以把中文書法字分解成基本組成元素,從而產(chǎn)生一 系列該書寫者的書寫筆畫。這些書寫筆畫或者來源于書寫者,或者來源于中文 書法字分解的過程,然后對(duì)每個(gè)筆畫進(jìn)行進(jìn)行參數(shù)表達(dá),使它成為一個(gè)一維向 量。向量的前兩個(gè)參數(shù)給出中文書法字組成筆畫的軌跡,另一個(gè)參數(shù)給出筆畫 的寬度。
H) 在給定中文書法字組成元素的情況下,要確定被某個(gè)特定書寫者書寫、 屬于某種形態(tài)的概率和該概率的可信度。先在訓(xùn)練集中找到所有與該字屬于同 種形態(tài)的所有組成元素。并采用在j)中提到的參數(shù)表達(dá)的方法,把訓(xùn)練集中的 元素進(jìn)行參數(shù)表達(dá)。因?yàn)檫@些元素都來自訓(xùn)練集,所以相應(yīng)的寫者已經(jīng)提前知
道。我們可以把參數(shù)表達(dá)后的結(jié)果分成兩組, 一組被某書寫者x所寫,另一組
不是被某書寫者X所寫。
I) 我們對(duì)輸入的中文書法字組成元素按照j)的方法進(jìn)行參數(shù)表達(dá),現(xiàn)在問 題就在于參數(shù)表達(dá)得到的向量將落入哪一個(gè)組中,即被某書寫者X所寫,還是 不被某書寫者X所寫。
J)在訓(xùn)練集中要區(qū)分筆畫是否為某一特定書寫者所寫,接下來引入一個(gè)模
糊分類數(shù)據(jù)聚類算法,為了能更好的解決問題對(duì)這個(gè)算法稍作修改用曲線距 離取代傳統(tǒng)的集合距離。在這個(gè)模糊聚類算法中,可以輸出某個(gè)筆畫屬于某個(gè)
書寫者的概率。數(shù)據(jù)挖掘中的ten-fold交叉算法用來在這里產(chǎn)生概率的可信度。 然后我們采用樣本數(shù)據(jù)進(jìn)行訓(xùn)練,并留下10%的數(shù)據(jù)進(jìn)行測(cè)試。
K)我們通過以下方法確定m)中方法分類的準(zhǔn)確性。我們重復(fù)上述過程10 次,得到一個(gè)總體的分類準(zhǔn)確率。如果總體的平均分類準(zhǔn)確率是100%,即我們 給它最高的可信度(=1),那么當(dāng)遇到新元素時(shí)分類結(jié)果很可能正確。否則,在上 述分類過程中出現(xiàn)越多的錯(cuò)誤,對(duì)新元素的分類結(jié)果的可信度就越低。
L)為了初始化捕獲中文書法字中不確定因素的增強(qiáng)形態(tài)語法,我們需要決 定所有中文書法字的元素間空間關(guān)系的概率和可信度。關(guān)于優(yōu)化中文書法字的 識(shí)別已經(jīng)進(jìn)行了很多研究。我們采用一種容易實(shí)現(xiàn)且效果好的算法。該算法的 輸出是一個(gè)模糊數(shù)字,數(shù)字的每一部分指出空間關(guān)系屬于某種特定空間關(guān)系的 概率。
M)接下來按照k),l),m)中提到的步驟,進(jìn)行類似的處理。處理的目的是為 了得到元素的空間關(guān)系被某個(gè)書寫者所寫、屬于某個(gè)特定空間關(guān)系的概率和可 信度。如果元素的空間關(guān)系屬于某種特定空間關(guān)系的概率比屬于其它類型空間空間關(guān)系大,我們就可以說結(jié)果正確。當(dāng)所有的空間關(guān)系經(jīng)過這個(gè)步驟后,我 們計(jì)算總體正確百分比,并把結(jié)果作為可信度輸出。 對(duì)摹寫中文書法字進(jìn)行評(píng)分104:
N)在摹寫中文書法字的計(jì)算機(jī)方法中成功摹寫中文書法字的關(guān)鍵是通過 評(píng)分確定對(duì)某個(gè)特定的書法家摹寫的可信度。通過前面討論的增強(qiáng)的形態(tài)語法 設(shè)計(jì)這個(gè)評(píng)分部分。
0) 通過在形態(tài)語法系統(tǒng)中的推理得到所有組成中文書法字的規(guī)則。對(duì)每一
種組成規(guī)則,遞歸計(jì)算筆畫的概率和可信度。詳細(xì)步驟如下
1) 假設(shè)所有規(guī)則結(jié)果為『={^,『2,...,『 },對(duì)每一個(gè)規(guī)則遞歸計(jì)算
/ (尸,x, ;r)和p(戶,x, y)。令^的長度為m 。
2) 如果m^1, ^就只含有一條語法規(guī)則,如圖4所示。
3) 如果m〉1,我們就重復(fù)應(yīng)用每一個(gè)形態(tài)語法的等式。在這個(gè)重復(fù)過程中, 可以得到元素Y屬于某個(gè)字體""和被書寫者X所寫的概率及可信度。
4) 定義以下的函數(shù)考慮概率和可信度兩個(gè)因素 O(尸,X, y) = I, (戶,J, y)
其中k是一個(gè)用戶可以調(diào)節(jié)的參數(shù)。
5) 最后在通過所有組成規(guī)則產(chǎn)生的結(jié)果中,我們選擇規(guī)則^,該規(guī)則可以 最大化argmax, O, (P,Z,y)
P)為了能夠?qū)θ我庖粭l語法規(guī)則,采用神經(jīng)網(wǎng)絡(luò)的方法產(chǎn)生筆畫的概率和 可信度。兩種神經(jīng)網(wǎng)絡(luò)被采用, 一種是預(yù)測(cè)筆畫的可信度(p(P, X, Y ),被叫做AW^ 另一種是筆畫的概率/^My),被叫做M^輸入到AW,的內(nèi)容包括某布局在若干 筆畫空間布局中的概率的可信度々,iT,…,P/,X,"和某筆畫屬于某種字體的概率 的可信度pfe',X,"。輸入到AWp的內(nèi)容包括某布局在若干筆畫空間布局中的概 率p(及,/T,…,P;,Z,"和某筆畫屬于某種字體的概率p(P;,Z,r)。其中JV&的輸出是 某筆畫屬于某種字體的概率的可信度p(尸,足y), AWp的輸出是某筆畫屬于某種字 體的概率。
Q)利用所有的形態(tài)語法規(guī)則來訓(xùn)練這些神經(jīng)網(wǎng)絡(luò),其中語法規(guī)則的組成元 素和空間布局都已經(jīng)被某書寫者寫下來,所以就意味著p和p的值都已經(jīng)知道 了。每一條規(guī)則都提供一個(gè)訓(xùn)練例子給神經(jīng)網(wǎng)絡(luò)。這里采用的神經(jīng)網(wǎng)絡(luò)是經(jīng)典 后向反饋神經(jīng)網(wǎng)絡(luò)。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,我們?cè)O(shè)為循環(huán)10000次,并采用
17ten-fold交叉技術(shù)為了防止過度適應(yīng)。 摹寫中文書法字105:
U)當(dāng)我們?cè)u(píng)定針對(duì)某一書寫者的摹寫筆畫進(jìn)行可信度分析后,就可以利用 可信度作為反饋來摹寫中文書法字。在這里,采用一個(gè)2005年"Automatic generation of artistic Chinese calligraphy "提出的中文書 去字生成算、法。
V)該算法有六個(gè)參數(shù),提供了一個(gè)很好的接口來整合摹寫評(píng)分算法。這些 參數(shù)用來指出纏身的中文書法字的視覺樣式。我們先隨機(jī)取這六個(gè)參數(shù),然后 調(diào)用摹寫評(píng)分算法來對(duì)摹寫可信度打分。當(dāng)產(chǎn)生分?jǐn)?shù)后,我們采用deepest ascendant算法使分?jǐn)?shù)最大化。為避免陷入局部最小,我們重復(fù)上述結(jié)果多次, 知道分?jǐn)?shù)到達(dá)一個(gè)滿意閾(0.9),或者重復(fù)的次數(shù)沖過1000次。通過逐個(gè)摹寫 中文書法字,我們可以摹寫全部的中文書法字。
權(quán)利要求
1.一種基于形狀語法的個(gè)人漢字手寫字體自動(dòng)仿寫方法,其特征在于包括以下步驟1)使用形狀語法分解中文書法字中文書法字由基本的筆畫組成,根據(jù)形狀語法把中文書法字分解成筆畫構(gòu)成的層次結(jié)構(gòu),形狀語法包括一系列的形狀產(chǎn)生規(guī)則,每種規(guī)則都指出從底層筆畫構(gòu)成中文書法字的組成元素,除了中文書法字的組成元素外,還有另外一種組成元素間的空間布局,空間布局用來指出中文書法字組成元素之間的空間關(guān)系;2)通過加強(qiáng)的形狀語法捕獲中文書法字的不確定因素通過增強(qiáng)每一個(gè)形狀語法規(guī)則,實(shí)現(xiàn)一個(gè)增強(qiáng)的形狀語法系統(tǒng),該增強(qiáng)的過程包括聯(lián)系兩種書寫者的筆畫和空間布局,從而得到某個(gè)書寫者書寫的概率以及該概率的可信度,增強(qiáng)的形狀語法不再對(duì)所有用戶保持一致,而是依賴書寫者,給特定的書寫者創(chuàng)建加強(qiáng)的形狀語法,這個(gè)過程就是確定一個(gè)最佳集合,該集合中包括所有筆畫和空間布局對(duì)某一特定書寫者的概率和可信度;3)使用加強(qiáng)的形狀語法確定摹寫中文書法字的可信度通過在形態(tài)語法系統(tǒng)中的推理得到所有組成中文書法字的規(guī)則,對(duì)每一種中文書法字的規(guī)則,遞歸計(jì)算筆畫的概率和可信度,為了適應(yīng)任意一條語法規(guī)則,采用神經(jīng)網(wǎng)絡(luò)的方法產(chǎn)生筆畫的概率和可信度,利用所有的形態(tài)語法規(guī)則來訓(xùn)練這些神經(jīng)網(wǎng)絡(luò);4)基于摹寫中文書法字的可信度,提出方法進(jìn)行摹寫中文書法字當(dāng)評(píng)定針對(duì)某一書寫者的摹寫筆畫進(jìn)行可信度分析后,利用可信度作為反饋來摹寫中文書法字。
2. 根據(jù)權(quán)利要求1所述的一種基于形狀語法的個(gè)人漢字手寫字體自動(dòng)仿寫 方法,其特征在于所述的步驟l)包括a)中文書法字通過一個(gè)樹形結(jié)構(gòu)來表達(dá),樹的枝葉都是基本的組成元素, 其中最底層的樹葉就是中文書法字中的筆畫,中文書法字被拆分成基本的筆畫;b) 組成中文書法字的基本筆畫之間還有空間的層次結(jié)構(gòu)關(guān)系,通過這個(gè)關(guān) 系,中文書法字被看成由多個(gè)筆畫組成的多層結(jié)構(gòu);c) 根據(jù)步驟a)、步驟b)的中文書法字的層次結(jié)構(gòu),將一個(gè)中文書法字以遞歸的形式組成,通過多種組成方法完成,每一種組成中文書法字的方法都對(duì)應(yīng) 于形態(tài)語法系統(tǒng)中的一種分析方法;d) 形態(tài)語法包含一系列形態(tài)產(chǎn)生規(guī)則,這些規(guī)則能夠在形態(tài)語法系統(tǒng)中被 表示出來,每一個(gè)規(guī)則都指出怎樣從低層元素組成中文書法字的元素;e) 除了組成中文書法字的基本元素外,在形態(tài)語法中還有字組成預(yù)測(cè),字 組成預(yù)測(cè)指的是組成中文書法字基本元素的空間關(guān)系;f) 尋找某個(gè)特定中文書法字的所有的組成方法,找到所有的組成方法是一個(gè) 成功摹寫中文書法字算法的關(guān)鍵;g) 在發(fā)現(xiàn)所有組成中文書法字的過程中,每一個(gè)組成元素都被給予一個(gè)類 型屬性,這個(gè)屬性根據(jù)中國傳統(tǒng)漢字形態(tài)分類給出元素所屬的類型, 一旦獲得 組成元素的形態(tài)類型,能夠根據(jù)相應(yīng)的的形態(tài)語法規(guī)則產(chǎn)生中文書法字的實(shí)際 形狀,其中相應(yīng)的語法規(guī)則通過形態(tài)語法系統(tǒng)推理獲得。
3.根據(jù)權(quán)利要求1所述的基于形狀語法的個(gè)人漢字手寫字體自動(dòng)仿寫方 法,其特征在于所述的步驟2)包括h) 增強(qiáng)的形態(tài)語法系統(tǒng)通過增強(qiáng)每一個(gè)形態(tài)語法規(guī)則形成,增強(qiáng)的過程包 括把兩種作者相關(guān)信息和形態(tài)語法規(guī)則中的元素、空間關(guān)系聯(lián)系起來,也就是 它們被某個(gè)人所寫的概率和這個(gè)概率的可信度;i) 與前面談到的傳統(tǒng)形態(tài)語法系統(tǒng)不同,增強(qiáng)的形狀語法不在對(duì)所有用戶 保持一致,而是依賴書寫者,這是一個(gè)在設(shè)計(jì)過程中的目標(biāo)屬性,成功捕獲個(gè) 人書寫的不確定因素是成功摹寫中文書法字的關(guān)鍵;j)給特定的書寫者創(chuàng)建加強(qiáng)的形狀語法,這個(gè)過程就是確定一個(gè)最佳集合, 該集合中包括所有筆畫和空間布局對(duì)某一特定書寫者的概率和可信度,根據(jù)某 一書寫者的筆畫集合把中文書法字分解成基本組成元素,從而產(chǎn)生一系列該書 寫者的書寫筆畫,這些書寫筆畫或者來源于書寫者,或者來源于中文書法字分 解的過程,然后對(duì)每個(gè)筆畫進(jìn)行進(jìn)行參數(shù)表達(dá),使它成為一個(gè)一維向量,向量 的前兩個(gè)參數(shù)給出中文書法字組成筆畫的軌跡,另一個(gè)參數(shù)給出筆畫的寬度;k)在給定中文書法字組成元素的情況下,要確定被某個(gè)特定書寫者書寫、 屬于某種形態(tài)的概率和該概率的可信度,先在訓(xùn)練集中找到所有與該字屬于同 種形態(tài)的所有組成元素,并采用在步驟j)中提到的參數(shù)表達(dá)的方法,把訓(xùn)練集 中的元素進(jìn)行參數(shù)表達(dá),這些元素都來自訓(xùn)練集,所以相應(yīng)的書寫者已經(jīng)提前 知道,把參數(shù)表達(dá)后的結(jié)果分成兩組, 一組被某書寫者X所寫,另一組不是被 某書寫者X所寫;l)對(duì)輸入的中文書法字組成元素按照步驟j)的方法進(jìn)行參數(shù)表達(dá),參數(shù)表達(dá)得到的向量將落入哪一個(gè)組中,即被某書寫者x所寫,還是不被某書寫者x所寫;m)在訓(xùn)練集中要區(qū)分筆畫是否為某一特定書寫者所寫,接下來引入一個(gè)模 糊分類數(shù)據(jù)聚類算法,為了解決問題對(duì)這個(gè)算法稍作修改用曲線距離取代傳 統(tǒng)的集合距離,在這個(gè)模糊聚類算法中,輸出某個(gè)筆畫屬于某個(gè)書寫者的概率, 數(shù)據(jù)挖掘中的ten-fold交叉算法用來在這里產(chǎn)生概率的可信度,然后采用樣本 數(shù)據(jù)進(jìn)行訓(xùn)練,并留下10%的數(shù)據(jù)進(jìn)行測(cè)試;n)通過以下方法確定步驟m)中方法分類的準(zhǔn)確性,重復(fù)步驟m) 10次,得 到一個(gè)總體的分類準(zhǔn)確率,如果總體的平均分類準(zhǔn)確率是100%,即給它最高的 可信度=1,那么當(dāng)遇到新元素時(shí)分類結(jié)果很可能正確,否則,在上述分類過程 中出現(xiàn)越多的錯(cuò)誤,對(duì)新元素的分類結(jié)果的可信度就越低;o)為了初始化捕獲中文書法字中不確定因素的增強(qiáng)形態(tài)語法,采用優(yōu)化的 中文書法字的識(shí)別算法,決定所有中文書法字的元素間空間關(guān)系的概率和可信 度,該算法的輸出是一個(gè)模糊數(shù)字,數(shù)字的每一部分指出空間關(guān)系屬于某種特 定空間關(guān)系的概率;p)針對(duì)所有元素,按照步驟k),步驟l),步驟m)進(jìn)行處理,處理的目的是為 了得到元素的空間關(guān)系被某個(gè)書寫者所寫、屬于某個(gè)特定空間關(guān)系的概率和可 信度,如果元素的空間關(guān)系屬于某種特定空間關(guān)系的概率比屬于其它類型空間 的空間關(guān)系大,說明結(jié)果正確,當(dāng)所有的空間關(guān)系經(jīng)過這個(gè)步驟后,計(jì)算總體 正確率,并把結(jié)果作為可信度輸出。
4.根據(jù)權(quán)利要求1所述的一種基于形狀語法的個(gè)人漢字手寫字體自動(dòng)仿寫 方法,其特征在于所述的步驟3)包括q)在摹寫中文書法字的計(jì)算機(jī)方法中成功摹寫中文書法字的關(guān)鍵是通過評(píng) 分確定對(duì)某個(gè)特定的書法家摹寫的可信度,通過前面討論的增強(qiáng)的形態(tài)語法設(shè) 計(jì)這個(gè)評(píng)分部分;r)通過在形態(tài)語法系統(tǒng)中的推理得到所有組成中文書法字的規(guī)則,對(duì)每一 種組成規(guī)則,遞歸計(jì)算筆畫的概率和可信度;s)為了能夠?qū)θ我庖粭l語法規(guī)則,采用神經(jīng)網(wǎng)絡(luò)的方法產(chǎn)生筆畫的概率和 可信度。兩種神經(jīng)網(wǎng)絡(luò)被釆用, 一種是預(yù)測(cè)筆畫的可信度(p(P, X, Y ),被叫做AWp ; 另一種是筆畫的概率MP,UO,被叫做AWp輸入到M^的內(nèi)容包括某布局在若干筆畫空間布局中的概率的可信度"i ,/T,…,p/,義,"和某筆畫屬于某種字體的概率的可信度"P;,X,",輸入到iVA^的內(nèi)容包括某布局在若干筆畫空間布局中的概率/^,p,',和某筆畫屬于某種字體的概率p(C,r),其中iv 的輸出是 某筆畫屬于某種字體的概率的可信度伊(/Mr), mvp的輸出是某筆畫屬于某種字體的概率;t)利用所有的形態(tài)語法規(guī)則來訓(xùn)練這些神經(jīng)網(wǎng)絡(luò),其中語法規(guī)則的組成元 素和空間布局都已經(jīng)被某書寫者寫下來,則得到p和p的值,每一條規(guī)則都提供 一個(gè)訓(xùn)練例子給神經(jīng)網(wǎng)絡(luò),所采用的神經(jīng)網(wǎng)絡(luò)是經(jīng)典后向反饋神經(jīng)網(wǎng)絡(luò),在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,設(shè)為循環(huán)10000次,并采用ten-fold交叉技術(shù)防止過度適應(yīng)。
5.根據(jù)權(quán)利要求1所述的一種基于形狀語法的個(gè)人漢字手寫字體自動(dòng)仿寫 方法,其特征在于所述的步驟4)包括u)當(dāng)評(píng)定針對(duì)某一書寫者的摹寫筆畫進(jìn)行可信度分析后,采用2005年 "Automatic generation of artistic Chinese calligraphy"提出的中文書法字生成算 法,利用可信度作為反饋來摹寫中文書法字;v)中文書法字生成算法有六個(gè)參數(shù),提供接口來整合摹寫評(píng)分算法,這些 參數(shù)用來指出產(chǎn)生的中文書法字的視覺樣式,先隨機(jī)取這六個(gè)參數(shù),然后調(diào)用 摹寫評(píng)分算法來對(duì)摹寫可信度打分,當(dāng)產(chǎn)生分?jǐn)?shù)后,采用deepest ascendant算法 使分?jǐn)?shù)最大化,為避免陷入局部最小,重復(fù)上述結(jié)果多次,直到分?jǐn)?shù)到達(dá)一個(gè) 滿意閾0.9,或者重復(fù)的次數(shù)沖過1000次,通過逐個(gè)摹寫中文書法字,摹寫全 部的中文書法字。
全文摘要
本發(fā)明公開了一種基于形狀語法的個(gè)人漢字手寫字體自動(dòng)仿寫方法。方法基于使用漢字形狀語法的人工智能技術(shù)處理摹寫過程中出現(xiàn)的多種不確定因素。首先對(duì)中文書法字進(jìn)行分解成基本元素和元素間的空間關(guān)系,然后對(duì)元素和空間關(guān)系進(jìn)行參數(shù)表達(dá),獲得元素、空間關(guān)系的概率和可信度,接下來利用增強(qiáng)形態(tài)語法對(duì)摹寫的中文書法字進(jìn)行打分,最后利用優(yōu)化算法優(yōu)化分?jǐn)?shù),直到達(dá)到滿意程度。該方法的優(yōu)點(diǎn)是利用了形狀語法的豐富表達(dá)能力來表示漢字字體,抓住了個(gè)人筆跡中的潛在特征,并可以由計(jì)算機(jī)自動(dòng)執(zhí)行。
文檔編號(hào)G06N3/02GK101604451SQ200910100650
公開日2009年12月16日 申請(qǐng)日期2009年7月13日 優(yōu)先權(quán)日2009年7月13日
發(fā)明者劉智滿, 徐頌華, 浩 江, 潘云鶴 申請(qǐng)人:浙江大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1