一種基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢字認(rèn)知方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢字認(rèn)知方法,其特征是按照以下步驟進(jìn)行:第一步驟是分析脫機(jī)手寫(xiě)體漢字筆劃的認(rèn)知需求;第二步驟是構(gòu)建脫機(jī)手寫(xiě)體漢字的初始特征模型;第三步驟是構(gòu)建脫機(jī)手寫(xiě)體漢字的候選子空間;第四步驟是設(shè)計(jì)脫機(jī)手寫(xiě)體漢字的集成分類(lèi)器模型;第五步驟是對(duì)脫機(jī)手寫(xiě)體漢字樣本的認(rèn)知結(jié)果進(jìn)行評(píng)價(jià)并根據(jù)評(píng)價(jià)結(jié)果對(duì)未認(rèn)知的脫機(jī)手寫(xiě)體漢字進(jìn)行反復(fù)認(rèn)知。本發(fā)明在反饋迭代中構(gòu)建特定測(cè)試樣本的優(yōu)化認(rèn)知模型,解決了開(kāi)環(huán)無(wú)反饋脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng)認(rèn)知模型固定的缺陷,提高了脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng)的認(rèn)知精度。
【專(zhuān)利說(shuō)明】
-種基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢字認(rèn)知方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬漢字認(rèn)知技術(shù)領(lǐng)域,具體設(shè)及一種基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢 字認(rèn)知方法。
【背景技術(shù)】
[0002] 漢字識(shí)別是模式識(shí)別的一個(gè)重要研究領(lǐng)域,在辦公和教學(xué)自動(dòng)化、銀行票據(jù)自動(dòng) 識(shí)別、語(yǔ)言文字信息處理等技術(shù)領(lǐng)域都有著廣泛的應(yīng)用。目前,對(duì)漢字的特征提取方法的研 究既有學(xué)術(shù)論文對(duì)此做了深入的理論分析,也有實(shí)際應(yīng)用的工程方法,如發(fā)明專(zhuān)利《漢字識(shí) 別方法和裝置KCN102867178A)和發(fā)明專(zhuān)利《基于鑒別歸一化的手寫(xiě)體漢字識(shí)別方法》 (CN102831434A)。
[000引于20 15年06月10日授權(quán)的中國(guó)發(fā)明專(zhuān)利公開(kāi)書(shū)漢字識(shí)別方法和裝置》 (CN102867178A)提供一種漢字識(shí)別裝置和方法,該裝置包括:第一識(shí)別單元;錯(cuò)誤檢測(cè)單 元;錯(cuò)誤修正單元和第二識(shí)別單元。通過(guò)該發(fā)明實(shí)施例,利用對(duì)文本圖像進(jìn)行識(shí)別后獲得的 識(shí)別信息中的識(shí)別編碼信息和圖像單元位置信息檢測(cè)錯(cuò)誤切分的圖像單元并對(duì)錯(cuò)誤切分 的圖像單元進(jìn)行修正,從而可提高識(shí)別精度,解決現(xiàn)有技術(shù)中存在的問(wèn)題。但是該發(fā)明存在 著W下的不足:識(shí)別系統(tǒng)基于無(wú)反饋開(kāi)環(huán)模式構(gòu)建,特征空間和認(rèn)知準(zhǔn)則一經(jīng)建立不再更 新,測(cè)試樣本的認(rèn)知過(guò)程建立在固定認(rèn)知模型的基礎(chǔ)上,識(shí)別結(jié)果無(wú)法滿足需要。
[0004] 其中于2015年07月15日授權(quán)的中國(guó)發(fā)明專(zhuān)利公開(kāi)書(shū)《基于鑒別歸一化的手寫(xiě)體漢 字識(shí)別方法KCN102831434A),提出了一種基于鑒別歸一化的手寫(xiě)漢字識(shí)別方法,將鑒別信 息結(jié)合到字符圖像歸一化中,從而有效增強(qiáng)歸一化后的字符圖像的鑒別能力,減少相似字 識(shí)別錯(cuò)誤,增強(qiáng)手寫(xiě)漢字的識(shí)別精度。但是該發(fā)明存在著W下的不足:采用固定認(rèn)知需求下 的特征構(gòu)建全體帶識(shí)別對(duì)象的特征空間,由于手寫(xiě)體漢字種類(lèi)多樣,書(shū)寫(xiě)風(fēng)格因人而異,在 識(shí)別時(shí)每個(gè)對(duì)象的認(rèn)知需求和難度不同,因此,采用通用特征空間表征手寫(xiě)體漢字樣本的 認(rèn)知信息時(shí),認(rèn)知系統(tǒng)的認(rèn)知精度難W令人滿意。
【發(fā)明內(nèi)容】
[0005] 為了克服已有漢字識(shí)別技術(shù)的缺陷,本發(fā)明提出一種基于雙樹(shù)復(fù)小波變換的脫機(jī) 手寫(xiě)體漢字認(rèn)知方法,W期解決已有開(kāi)環(huán)脫機(jī)手寫(xiě)體漢字認(rèn)知模型在面對(duì)不同對(duì)象時(shí)采用 相同認(rèn)知需求表征待認(rèn)知對(duì)象特征空間的問(wèn)題,從而能夠仿人面對(duì)不同認(rèn)知需求時(shí)自適應(yīng) 調(diào)節(jié)特征空間的認(rèn)知特點(diǎn),提高脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng)的精度。
[0006] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用如下的技術(shù)方案:
[0007] 本發(fā)明一種基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢字認(rèn)知方法的特點(diǎn)是按照W下 步驟進(jìn)行:
[000引步驟1、脫機(jī)手寫(xiě)體漢字筆劃的認(rèn)知需求分析:
[0009]步驟1. 1、選取規(guī)則漢字?jǐn)?shù)據(jù)樣本庫(kù)中的η個(gè)樣本作為訓(xùn)練樣本集;m個(gè)樣本作為測(cè) 試樣本集;所述訓(xùn)練樣本集中不同的漢字作為不同類(lèi),從而構(gòu)成不同類(lèi)別的訓(xùn)練樣本子集;
[0010] 步驟1.2、對(duì)所述訓(xùn)練樣本集中的所有漢字訓(xùn)練樣本,確定所有漢字訓(xùn)練樣本自身 所具有的圖像點(diǎn)陣內(nèi)的筆劃邊緣點(diǎn)和各筆劃邊緣點(diǎn)的方向?qū)傩灾?,所述方向?qū)傩灾蛋?橫、撇、豎、掠四種筆劃方向;由所有漢字訓(xùn)練樣本的橫、豎、撇、掠四種筆劃方向上的筆劃邊 緣點(diǎn)構(gòu)成筆劃邊緣點(diǎn)集合;
[0011] 步驟1.3、根據(jù)所述筆劃邊緣點(diǎn)集合中橫、豎、撇、掠四種筆劃方向上筆劃邊緣點(diǎn)的 數(shù)量,按照排序規(guī)則對(duì)四種筆劃方向進(jìn)行排序,從而獲得排序后的四種筆劃方向,記為Z = [Z1,Z2,Z3,Z4],W所述排序后的四種筆劃方向Z作為訓(xùn)練樣本集的認(rèn)知需求,且第1種筆劃 方向Z1為最大認(rèn)知需求;
[0012] 步驟2、脫機(jī)手寫(xiě)體漢字的初始特征模型構(gòu)建:
[0013] 步驟2.1、對(duì)所有漢字訓(xùn)練樣本采用雙樹(shù)復(fù)小波變換進(jìn)行J級(jí)雙樹(shù)復(fù)小波分解,得 到J級(jí)高頻小波子帶,J為正整數(shù);所述J級(jí)高頻小波子帶均具有6種不同方向特性的小波子 帶;
[0014] 步驟2.2、對(duì)J級(jí)高頻小波子帶分別計(jì)算均值和方差,從而得到6XJ個(gè)高頻小波子 帶的統(tǒng)計(jì)特征空間,記為
[0015]
[0016] Tj,i表示第j級(jí)第i個(gè)方向的統(tǒng)計(jì)特征;并有:Tj,i=[μj,i,σj,i],μj,i,σj,i分別為第j 級(jí)第i個(gè)方向高頻小波子帶的均值和方差;i E [ 1,6],j e [ 1,J];
[0017]步驟2.3、按照筆劃方向與統(tǒng)計(jì)特征的組合規(guī)則,將6XJ個(gè)高頻小波子帶的統(tǒng)計(jì)特 征與四種筆劃方向進(jìn)行對(duì)應(yīng),得到J級(jí)高頻小波子帶與四種筆劃方向相對(duì)應(yīng)的初始特征空 間,記為
[001 引
[0019] %表示第j級(jí)第i個(gè)方向的初始特征;i e [ 1,4],j e [ 1,J];
[0020] 步驟3、脫機(jī)手寫(xiě)體漢字的候選特征子空間構(gòu)建:
[0021] 步驟3.1、定義變量W,并初始化w=l;
[0022] 步驟3.2、由所述初始特征空間T中選取所有J級(jí)第W種筆劃方向zw所對(duì)應(yīng)的初始特 征作為第W次反饋認(rèn)知時(shí)所使用的筆劃特征空間Aw;
[0023] 步驟3.3、采用序列浮動(dòng)前向特征選取算法構(gòu)建所述第W次反饋認(rèn)知時(shí)的筆劃特征 空間Aw的候選特征子空間;
[0024] 步驟4、脫機(jī)手寫(xiě)體漢字的集成分類(lèi)器設(shè)計(jì):
[0025] 步驟4.1、將所述第w次反饋認(rèn)知時(shí)的筆劃特征空間Aw的所有候選特征子空間依次 作為隨機(jī)權(quán)向量函數(shù)連接網(wǎng)絡(luò)RVi^L分類(lèi)器的輸入并進(jìn)行訓(xùn)練,從而獲得第W次反饋認(rèn)知時(shí) 的筆劃特征空間Aw的全體候選特征子空間的RVi^L分類(lèi)器模型;
[0026] 步驟5、脫機(jī)手寫(xiě)體漢字的認(rèn)知結(jié)果評(píng)價(jià):
[0027] 步驟5.1、根據(jù)所述第W次反饋認(rèn)知時(shí)的筆劃特征空間Aw的全體候選特征子空間的 RVi^L分類(lèi)器模型對(duì)測(cè)試樣本集中的第t個(gè)測(cè)試樣本進(jìn)行分類(lèi)認(rèn)知,獲取第t個(gè)測(cè)試樣本關(guān)于 第W次反饋認(rèn)知時(shí)的筆劃特征空間Aw的全體候選特征子空間的認(rèn)知結(jié)果集合;1含t < m;
[0028] 步驟5.2、計(jì)算所述認(rèn)知結(jié)果集合中所有認(rèn)知結(jié)果的認(rèn)知結(jié)果信息賭,選取最小認(rèn) 知結(jié)果信息賭所對(duì)應(yīng)的認(rèn)知結(jié)果及其對(duì)應(yīng)的候選特征子空間作第t個(gè)測(cè)試樣本關(guān)于第W次 反饋認(rèn)知時(shí)的筆劃特征空間Aw的最優(yōu)認(rèn)知結(jié)果1^和最優(yōu)特征子空間;
[0029] 步驟5.3、若最小認(rèn)知結(jié)果信息賭滿足所設(shè)定的闊值,則將最優(yōu)認(rèn)知結(jié)果作為第 t個(gè)測(cè)試樣本的最終認(rèn)知結(jié)果;否則,將W+1賦值給W;判斷w>4是否成立,若成立,則將第W-1 次反饋認(rèn)知時(shí)的最優(yōu)認(rèn)知結(jié)果巧I作為第t個(gè)測(cè)試樣本的最終認(rèn)知結(jié)果;否則,返回步驟 3.2執(zhí)行;
[0030] 步驟5.4、對(duì)所述測(cè)試樣本集中所有m個(gè)測(cè)試樣本按照步驟5.2至步驟5.5進(jìn)行處 理,從而獲得所有m個(gè)測(cè)試樣本的最終認(rèn)知結(jié)果集合;W所述最終認(rèn)知結(jié)果集合作為所述測(cè) 試樣本集的認(rèn)知結(jié)果。
[0031] 本發(fā)明所述的基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢字認(rèn)知方法的特點(diǎn)也在于:
[0032] 所述排序規(guī)則為:
[0033] 當(dāng)四種筆劃方向上筆劃邊緣點(diǎn)的數(shù)量不相同時(shí),按照筆劃邊緣點(diǎn)的數(shù)量從大到小 的順序?qū)λ姆N筆劃進(jìn)行排序;
[0034] 當(dāng)四種筆劃方向上筆劃邊緣點(diǎn)的數(shù)量相同時(shí),按照橫〉撇〉豎〉掠的優(yōu)先級(jí)順序?qū)?四種筆劃進(jìn)行排序;
[0035] 所述筆劃方向與統(tǒng)計(jì)特征的組合規(guī)則為:Tw和6組合對(duì)應(yīng)第j級(jí)橫筆劃方向的 統(tǒng)計(jì)特征,Tw和Tw組合對(duì)應(yīng)第j級(jí)豎筆劃方向的統(tǒng)計(jì)特征,Tw對(duì)應(yīng)第j級(jí)撇筆劃方向的統(tǒng) 計(jì)特征,Τι 4對(duì)應(yīng)第j級(jí)掠筆劃方向的統(tǒng)計(jì)特征;
[0036] 所述步驟5.2中的認(rèn)知結(jié)果信息賭是按如下步驟獲得:
[0037] 步驟5.2.1、根據(jù)所述第t個(gè)測(cè)試樣本關(guān)于第W次反饋認(rèn)知時(shí)的筆劃特征空間Aw的 全體候選特征子空間的認(rèn)知結(jié)果集合中第k個(gè)候選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié)果,獲取第k 個(gè)候選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié)果的訓(xùn)練樣本,記為不及第k個(gè)候選特征子空間所 對(duì)應(yīng)的認(rèn)知結(jié)果同類(lèi)別的訓(xùn)練樣本子集;并有:《說(shuō),…,"式,…,"在};。:;;/表 示所述訓(xùn)練樣本子集中第q個(gè)訓(xùn)練樣本;1 < q含Q;
[0038] 步驟5.2.2、獲取第W次反饋認(rèn)知過(guò)程中第t個(gè)測(cè)試樣本的第k個(gè)候選特征子空間 巧、第k個(gè)候選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié)果的訓(xùn)練樣本乂I:4的第k個(gè)候選特征子空間^.4 和所述訓(xùn)練樣本子集的第k個(gè)候選特征子空間;
[0039] 步驟5.2.3、利用式(1)獲得第W次反饋認(rèn)知過(guò)程中第t個(gè)測(cè)試樣本關(guān)于第W次反饋 認(rèn)知時(shí)的筆劃特征空間Aw的全體候選特征子空間的認(rèn)知結(jié)果集合中第k個(gè)候選特征子空間 所對(duì)應(yīng)的認(rèn)知結(jié)果的認(rèn)知結(jié)果信息賭八'/',從而獲得所有候選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié) 果的認(rèn)知結(jié)果信息賭:
[0040]
(Π
[0041] 與已有技術(shù)相比,本發(fā)明的有益效果體現(xiàn)在:
[0042] 1、本發(fā)明在傳統(tǒng)的開(kāi)環(huán)脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng)中引入仿反饋環(huán)節(jié),通過(guò)認(rèn)知結(jié) 果信息賭評(píng)估識(shí)別結(jié)果的可信度,自適應(yīng)更新特征空間和分類(lèi)認(rèn)知準(zhǔn)則,從而能在反饋迭 代中構(gòu)建特定測(cè)試樣本的優(yōu)化認(rèn)知模型,解決了開(kāi)環(huán)無(wú)反饋脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng)認(rèn)知 模型固定的缺陷,提高了脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng)的認(rèn)知精度;
[0043] 2、本發(fā)明通過(guò)確定手寫(xiě)體漢字樣本內(nèi)各筆劃所占的比例,分析不同筆劃的認(rèn)知需 求,實(shí)現(xiàn)不同手寫(xiě)體樣本優(yōu)化特征空間的構(gòu)建,根據(jù)認(rèn)知需求自適應(yīng)調(diào)整認(rèn)知系統(tǒng)模型,從 而使得認(rèn)知系統(tǒng)更加適應(yīng)手寫(xiě)體漢字結(jié)構(gòu)復(fù)雜多變的特點(diǎn)。
[0044] 3、本發(fā)明基于雙樹(shù)復(fù)小波變換獲取手寫(xiě)體漢字樣本的筆劃特征,在表征手寫(xiě)體漢 字橫、撇、豎、掠筆劃方向信息的同時(shí),克服了由于書(shū)寫(xiě)主觀隨意性所導(dǎo)致的筆劃信息提取 誤差,從而使得認(rèn)知系統(tǒng)適應(yīng)手寫(xiě)體漢字因書(shū)寫(xiě)風(fēng)格所導(dǎo)致的筆劃方向形變特性,有效的 提高了認(rèn)知精度。
【附圖說(shuō)明】
[0045] 圖1是本發(fā)明的系統(tǒng)總流程圖;
[0046] 圖2是本發(fā)明二值漢字圖像內(nèi)不同方向?qū)傩灾档墓P劃邊緣點(diǎn)分布示意圖;
[0047] 圖3是本發(fā)明對(duì)二值漢字圖像進(jìn)行3級(jí)雙樹(shù)復(fù)小波變換得到的各級(jí)小波子帶及其 方向性示意圖;
[004引圖4是本發(fā)明仿真實(shí)驗(yàn)所使用的部分樣本圖像示意圖。
【具體實(shí)施方式】
[0049] 本實(shí)施例中,一種基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢字認(rèn)知方法是按照W下步 驟進(jìn)行:
[0050] 步驟1、脫機(jī)手寫(xiě)體漢字筆劃認(rèn)知需求分析
[0051 ]步驟1.1、如圖4所示,選取GB23122-80標(biāo)準(zhǔn)簡(jiǎn)體中文字符庫(kù)中的漢字"礎(chǔ)、處、川、 傳、喘、串、幢、床、闖、春"進(jìn)行了實(shí)驗(yàn)研究,每個(gè)漢字選取15個(gè)書(shū)寫(xiě)風(fēng)格不同的樣本,共計(jì) 150個(gè)手寫(xiě)體漢字樣本;采用隨機(jī)抽樣的方法選取每個(gè)漢字選取每種漢字樣本集中的10個(gè) 漢字(共計(jì)100個(gè)漢字)作為訓(xùn)練樣本,剩余的5個(gè)漢字(共計(jì)50個(gè)漢字)作為測(cè)試樣本;
[0052]步驟1.2、如圖2所示,對(duì)訓(xùn)練樣本集中的所有漢字訓(xùn)練樣本,確定所有漢字訓(xùn)練樣 本自身所具有的圖像點(diǎn)陣內(nèi)的筆劃邊緣點(diǎn)和各筆劃邊緣點(diǎn)的方向?qū)傩灾?,方向?qū)傩灾蛋?橫、撇、豎、掠四種筆劃方向,在W筆劃邊緣點(diǎn)為中屯、的3X3區(qū)域內(nèi),若筆劃邊緣點(diǎn)附近的像 素點(diǎn)在同一直線上,則只給筆劃邊緣點(diǎn)分配一種方向?qū)傩灾?例如圖2中1、5位置存在像素 點(diǎn));否則,給筆劃邊緣點(diǎn)同時(shí)分配多種方向?qū)傩灾?例如圖帥2、7位置存在像素點(diǎn));由所 有漢字訓(xùn)練樣本的橫、豎、撇、掠四種筆劃方向上的筆劃邊緣點(diǎn)構(gòu)成筆劃邊緣點(diǎn)集合;
[0053] 步驟1.3、獲取筆劃邊緣點(diǎn)集合中橫、豎、撇、掠四種筆劃方向上筆劃邊緣點(diǎn)的數(shù) 量,本實(shí)施例中,筆劃邊緣點(diǎn)集合中橫筆劃方向上的筆劃邊緣點(diǎn)個(gè)數(shù)為4673、豎筆劃方向上 的筆劃邊緣點(diǎn)個(gè)數(shù)為4382、撇筆劃方向上的筆劃邊緣點(diǎn)個(gè)數(shù)為4543、掠四種筆劃方向上的 筆劃邊緣點(diǎn)個(gè)數(shù)分別為3967,按照筆劃邊緣點(diǎn)數(shù)量從大到小的順序?qū)P劃邊緣點(diǎn)數(shù)量不相 同的筆劃排序,按照橫〉撇〉豎〉掠的優(yōu)先級(jí)對(duì)筆劃邊緣點(diǎn)數(shù)量相同的筆劃排序,從而獲得排 序后的四種筆劃方向,記為Z=[Z1,Z2,Z3,Z4],本實(shí)施例中,Z1 = 橫,Z2 = 撇,Z3 = 豎,Z4 = 掠, W排序后的四種筆劃方向Z作為訓(xùn)練樣本集的認(rèn)知需求,且第1種筆劃方向Z1為最大認(rèn)知需 求;
[0054] 步驟2、脫機(jī)手寫(xiě)體漢字的初始特征模型構(gòu)建:
[0055] 步驟2.1、如圖3所示,對(duì)所有漢字訓(xùn)練樣本采用雙樹(shù)復(fù)小波變換進(jìn)行J級(jí)雙樹(shù)復(fù)小 波分解,得到J級(jí)高頻小波子帶,本實(shí)施例中,J = 3;J級(jí)高頻小波子帶均具有6種不同方向特 性的小波子帶,運(yùn)6個(gè)方向分別為15°,75°,45°,-15°,-75°,-45° ;
[0056] 步驟2.2、對(duì)J級(jí)高頻小波子帶分別計(jì)算均值和方差,從而得到6XJ個(gè)高頻小波子 帶的統(tǒng)計(jì)特征空間,記為
[0化7]
[0058] Tj,i表示第j級(jí)第i個(gè)方向的統(tǒng)計(jì)特征;并有:Tj,i=[μj,i,σj,i],化,j,σi,j分別為第j 級(jí)第i個(gè)方向高頻小波子帶的均值和方差;i E [ 1,6],j e [ 1,J];
[0059] 步驟2.3、按照筆劃方向與統(tǒng)計(jì)特征的組合規(guī)則,即Tw和L,6組合對(duì)應(yīng)第j級(jí)橫筆 劃方向的統(tǒng)計(jì)特征,Tw和Tw組合對(duì)應(yīng)第j級(jí)豎筆劃方向的統(tǒng)計(jì)特征,Tw對(duì)應(yīng)第j級(jí)撇筆劃 方向的統(tǒng)計(jì)特征,4對(duì)應(yīng)第j級(jí)掠筆劃方向的統(tǒng)計(jì)特征的組合規(guī)則,將6XJ個(gè)高頻小波子 帶的統(tǒng)計(jì)特征與四種筆劃方向進(jìn)行對(duì)應(yīng),得到J級(jí)高頻小波子帶與四種筆劃方向相對(duì)應(yīng)的 初始特征空間,記為
[0060]
[0061 ] 表示第j級(jí)第i個(gè)方向的初始特征;i E [ 1,4],j e [ 1,J];
[0062]步驟3、脫機(jī)手寫(xiě)體漢字的候選特征子空間構(gòu)建:
[0063 ] 步驟3.1、定義變量W,并初始化W = 1;
[0064] 步驟3.2、由初始特征空間T中選取所有J級(jí)第W種筆劃方向zw所對(duì)應(yīng)的初始特征作 為第W次反饋認(rèn)知時(shí)所使用的筆劃特征空間Aw;
[0065] 步驟3.3、采用序列浮動(dòng)前向特征選取算法構(gòu)建第W次反饋認(rèn)知時(shí)的筆劃特征空間 Aw的候選特征子空間;序列浮動(dòng)前向特征選取算法可W從特征空間中選出最優(yōu)分類(lèi)子集, 其具體的算法流程可W參考論文《基于坐墊體壓分布的駕駛員生理狀態(tài)識(shí)別方法》;
[0066] 步驟4、脫機(jī)手寫(xiě)體漢字的集成分類(lèi)器設(shè)計(jì)
[0067] 步驟4.1、將第W次反饋認(rèn)知時(shí)的筆劃特征空間Aw的所有候選特征子空間依次作為 隨機(jī)權(quán)向量函數(shù)連接網(wǎng)絡(luò)RWL分類(lèi)器的輸入并進(jìn)行訓(xùn)練,從而獲得第W次反饋認(rèn)知時(shí)的筆 劃特征空間Aw的全體候選特征子空間的RVi^L分類(lèi)器模型;
[0068] 步驟5、脫機(jī)手寫(xiě)體漢字的認(rèn)知結(jié)果評(píng)價(jià):
[0069] 步驟5.1、根據(jù)第W次反饋認(rèn)知時(shí)的筆劃特征空間Aw的全體候選特征子空間的RVFL 分類(lèi)器對(duì)測(cè)試樣本集中的第t個(gè)測(cè)試樣本進(jìn)行分類(lèi)認(rèn)知,獲取第t個(gè)測(cè)試樣本關(guān)于第W次反 饋認(rèn)知時(shí)的筆劃特征空間Aw的全體候選特征子空間的認(rèn)知結(jié)果集合;1 ^ t ^ m;如圖1所示, 獲取第1個(gè)測(cè)試樣本"礎(chǔ)"關(guān)于第1次反饋認(rèn)知時(shí)的筆劃特征空間Ai的全體候選特征子空間 的認(rèn)知結(jié)果集合;
[0070] 步驟5.2、計(jì)算認(rèn)知結(jié)果集合中所有認(rèn)知結(jié)果的認(rèn)知結(jié)果信息賭,具體的說(shuō),認(rèn)知 結(jié)果信息賭的計(jì)算方法為:
[0071 ]步驟5.2.1、根據(jù)第t個(gè)測(cè)試樣本關(guān)于第W次反饋認(rèn)知時(shí)的筆劃特征空間Aw的全體 候選特征子空間的認(rèn)知結(jié)果集合中第k個(gè)候選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié)果,獲取第k個(gè)候 選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié)果的訓(xùn)練樣本,記為X、f;W及第k個(gè)候選特征子空間所對(duì)應(yīng) 的認(rèn)知結(jié)果同類(lèi)別的訓(xùn)練樣本子集;并有:
;<,表示訓(xùn) 練樣本子集中第q個(gè)訓(xùn)練樣本;1含q < Q;
[0072] 步驟5.2.2、獲取第W次反饋認(rèn)知過(guò)程中第t個(gè)測(cè)試樣本的第k個(gè)候選特征子空間 巧、第k個(gè)候選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié)果的訓(xùn)練樣本X、';4的第k個(gè)候選特征子空間巧 和訓(xùn)練樣本子集巧4的第k個(gè)候選特征子空間ζ.*。
[0073] 步驟5.2.3、利用式(1)獲得第W次反饋認(rèn)知過(guò)程中第t個(gè)測(cè)試樣本關(guān)于第W次反饋 認(rèn)知時(shí)的筆劃特征空間Aw的全體候選特征子空間的認(rèn)知結(jié)果集合中第k個(gè)候選特征子空間 所對(duì)應(yīng)的認(rèn)知結(jié)果的認(rèn)知結(jié)果信息賭/</,從而獲得所有候選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié) 果的認(rèn)知結(jié)果信息賭:
[0074]
0-;
[0075] 選取最小認(rèn)知結(jié)果信息賭所對(duì)應(yīng)的認(rèn)知結(jié)果及其對(duì)應(yīng)的候選特征子空間作第t個(gè) 測(cè)試樣本關(guān)于第W次反饋認(rèn)知時(shí)的筆劃特征空間Aw的最優(yōu)認(rèn)知結(jié)果和最優(yōu)特征子空間; 對(duì)比第1次反饋認(rèn)知過(guò)程中第1個(gè)測(cè)試樣本"礎(chǔ)"關(guān)于第1次反饋認(rèn)知時(shí)的筆劃特征空間Ai的 全體候選特征子空間的認(rèn)知結(jié)果的認(rèn)知結(jié)果信息賭,得到最小認(rèn)知結(jié)果信息賭 巧1'm'n := 0說(shuō),將其認(rèn)知結(jié)果巧="喘"作為第1個(gè)測(cè)試樣本"礎(chǔ)"關(guān)于第1次反饋認(rèn)知時(shí)的筆 劃特征空間Ai的最優(yōu)認(rèn)知結(jié)果,將其對(duì)應(yīng)的候選特征子空間作為第1個(gè)測(cè)試樣本"礎(chǔ)"關(guān)于 第1次反饋認(rèn)知時(shí)的筆劃特征空間Ai的最優(yōu)特征子空間,分類(lèi)認(rèn)知時(shí)使用的RWL分類(lèi)器參 數(shù)為:基網(wǎng)絡(luò)的集成大小nb = 5,一個(gè)基網(wǎng)絡(luò)中的基函數(shù)個(gè)數(shù)nh = 65;
[0076] 步驟5.3、若最小認(rèn)知結(jié)果信息賭滿足所設(shè)定的闊值,則將最優(yōu)認(rèn)知結(jié)果公:^作為第 t個(gè)測(cè)試樣本的最終認(rèn)知結(jié)果;否則,將W+1賦值給W;判斷w>4是否成立,若成立,則將第W-1 次反饋認(rèn)知時(shí)的最優(yōu)認(rèn)知結(jié)果巧,I作為第t個(gè)測(cè)試樣本的最終認(rèn)知結(jié)果;否則,返回步驟 3.2執(zhí)行;對(duì)比第1次反饋認(rèn)知過(guò)程中第1個(gè)測(cè)試樣本"礎(chǔ)"關(guān)于第1次反饋認(rèn)知時(shí)的筆劃特征 空間Ai的全體候選特征子空間的認(rèn)知結(jié)果的最小認(rèn)知結(jié)果信息賭/卻胃=0.73與設(shè)定的闊 值Te = 0.6,可得巧胃> 7;,說(shuō)明當(dāng)前筆劃特征空間Ai不足W區(qū)分第1個(gè)測(cè)試樣本"礎(chǔ)",需要 進(jìn)行下一次的反饋認(rèn)知;將W+1 = 2賦值給W;判斷W = 2 <4,返回步驟3.2,直至第3次反饋認(rèn) 知,由初始特征空間T中選取所有J級(jí)第巧中筆劃方向Z3所對(duì)應(yīng)的初始特征作為第3次反饋認(rèn) 知時(shí)所使用的筆劃特征空間A3,重新對(duì)第1個(gè)測(cè)試樣本"礎(chǔ)"進(jìn)行分類(lèi)認(rèn)知,獲取第1個(gè)測(cè)試 樣本"礎(chǔ)"關(guān)于第3次反饋認(rèn)知時(shí)的筆劃特征空間A3的全體候選特征子空間的認(rèn)知結(jié)果的最 小認(rèn)知結(jié)果信息賭瑪'mi。= 0.嫌和其最優(yōu)認(rèn)知結(jié)果巧="礎(chǔ)",判斷//;|。" <片,此時(shí)最優(yōu)認(rèn) 知結(jié)果巧="礎(chǔ)"作為第1個(gè)測(cè)試樣本的最終認(rèn)知結(jié)果;
[0077] 步驟5.4、對(duì)測(cè)試樣本集中所有m個(gè)測(cè)試樣本按照步驟5.2至步驟5.5進(jìn)行處理,從 而獲得所有m個(gè)測(cè)試樣本的最終認(rèn)知結(jié)果集合;W最終認(rèn)知結(jié)果集合作為測(cè)試樣本集的認(rèn) 知結(jié)果。
[0078] 綜上所述,本方法在反饋迭代中構(gòu)建特定測(cè)試樣本的優(yōu)化認(rèn)知模型,解決了開(kāi)環(huán) 無(wú)反饋脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng)認(rèn)知模型固定的缺陷,提高了脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng)的 認(rèn)知精度。
【主權(quán)項(xiàng)】
1. 一種基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢字認(rèn)知方法,其特征是按照以下步驟進(jìn) 行: 步驟1、脫機(jī)手寫(xiě)體漢字筆劃的認(rèn)知需求分析: 步驟1.1、選取規(guī)則漢字?jǐn)?shù)據(jù)樣本庫(kù)中的η個(gè)樣本作為訓(xùn)練樣本集;m個(gè)樣本作為測(cè)試樣 本集;所述訓(xùn)練樣本集中不同的漢字作為不同類(lèi),從而構(gòu)成不同類(lèi)別的訓(xùn)練樣本子集; 步驟1.2、對(duì)所述訓(xùn)練樣本集中的所有漢字訓(xùn)練樣本,確定所有漢字訓(xùn)練樣本自身所具 有的圖像點(diǎn)陣內(nèi)的筆劃邊緣點(diǎn)和各筆劃邊緣點(diǎn)的方向?qū)傩灾担龇较驅(qū)傩灾蛋M、撇、 豎、捺四種筆劃方向;由所有漢字訓(xùn)練樣本的橫、豎、撇、捺四種筆劃方向上的筆劃邊緣點(diǎn)構(gòu) 成筆劃邊緣點(diǎn)集合; 步驟1.3、根據(jù)所述筆劃邊緣點(diǎn)集合中橫、豎、撇、捺四種筆劃方向上筆劃邊緣點(diǎn)的數(shù) 量,按照排序規(guī)則對(duì)四種筆劃方向進(jìn)行排序,從而獲得排序后的四種筆劃方向,記為Z = [Z1,Z2,Z3,Z4],以所述排序后的四種筆劃方向Z作為訓(xùn)練樣本集的認(rèn)知需求,且第1種筆劃 方向Z1為最大認(rèn)知需求; 步驟2、脫機(jī)手寫(xiě)體漢字的初始特征模型構(gòu)建: 步驟2.1、對(duì)所有漢字訓(xùn)練樣本采用雙樹(shù)復(fù)小波變換進(jìn)行J級(jí)雙樹(shù)復(fù)小波分解,得到J級(jí) 高頻小波子帶,J為正整數(shù);所述J級(jí)高頻小波子帶均具有6種不同方向特性的小波子帶; 步驟2.2、對(duì)J級(jí)高頻小波子帶分別計(jì)算均值和方差,從而得到6 XJ個(gè)高頻小波子帶的 統(tǒng)計(jì)特征空間,記為!^,:1表示第」級(jí)第1個(gè)方向的統(tǒng)計(jì)特征;并有:1'^=|>」,:1,〇」, :1]^」,:1,〇」,:1分別為第」級(jí)第1 個(gè)方向高頻小波子帶的均值和方差;i e [ 1,6 ],j e [ 1,J]; 步驟2.3、按照筆劃方向與統(tǒng)計(jì)特征的組合規(guī)則,將6XJ個(gè)高頻小波子帶的統(tǒng)計(jì)特征與 四種筆劃方向進(jìn)行對(duì)應(yīng),得到J級(jí)高頻小波子帶與四種筆劃方向相對(duì)應(yīng)的初始特征空間,記 為7^,表示第j級(jí)第i個(gè)方向的初始特征;i e [ 1,4],j e [ 1,J]; 步驟3、脫機(jī)手寫(xiě)體漢字的候選特征子空間構(gòu)建: 步驟3.1、定義變量w,并初始化w= 1; 步驟3.2、由所述初始特征空間T中選取所有J級(jí)第w種筆劃方向zw所對(duì)應(yīng)的初始特征作 為第W次反饋認(rèn)知時(shí)所使用的筆劃特征空間Aw; 步驟3.3、采用序列浮動(dòng)前向特征選取算法構(gòu)建所述第w次反饋認(rèn)知時(shí)的筆劃特征空間 Aw的候選特征子空間; 步驟4、脫機(jī)手寫(xiě)體漢字的集成分類(lèi)器設(shè)計(jì): 步驟4.1、將所述第w次反饋認(rèn)知時(shí)的筆劃特征空間六|的所有候選特征子空間依次作為 隨機(jī)權(quán)向量函數(shù)連接網(wǎng)絡(luò)RVFL分類(lèi)器的輸入并進(jìn)行訓(xùn)練,從而獲得第w次反饋認(rèn)知時(shí)的筆 劃特征空間Aw的全體候選特征子空間的RVFL分類(lèi)器模型; 步驟5、脫機(jī)手寫(xiě)體漢字的認(rèn)知結(jié)果評(píng)價(jià): 步驟5.1、根據(jù)所述第w次反饋認(rèn)知時(shí)的筆劃特征空間Aw的全體候選特征子空間的RVFL 分類(lèi)器模型對(duì)測(cè)試樣本集中的第t個(gè)測(cè)試樣本進(jìn)行分類(lèi)認(rèn)知,獲取第t個(gè)測(cè)試樣本關(guān)于第w 次反饋認(rèn)知時(shí)的筆劃特征空間Aw的全體候選特征子空間的認(rèn)知結(jié)果集合;1 < t 步驟5.2、計(jì)算所述認(rèn)知結(jié)果集合中所有認(rèn)知結(jié)果的認(rèn)知結(jié)果信息熵,選取最小認(rèn)知結(jié) 果信息熵所對(duì)應(yīng)的認(rèn)知結(jié)果及其對(duì)應(yīng)的候選特征子空間作第t個(gè)測(cè)試樣本關(guān)于第w次反饋 認(rèn)知時(shí)的筆劃特征空間最優(yōu)認(rèn)知結(jié)果和最優(yōu)特征子空間; 步驟5.3、若最小認(rèn)知結(jié)果信息熵滿足所設(shè)定的閾值,則將最優(yōu)認(rèn)知結(jié)果1?作為第t個(gè) 測(cè)試樣本的最終認(rèn)知結(jié)果;否則,將w+1賦值給w;判斷w>4是否成立,若成立,則將第w-Ι次 反饋認(rèn)知時(shí)的最優(yōu)認(rèn)知結(jié)果^^,作為第t個(gè)測(cè)試樣本的最終認(rèn)知結(jié)果;否則,返回步驟3.2 執(zhí)行; 步驟5.4、對(duì)所述測(cè)試樣本集中所有m個(gè)測(cè)試樣本按照步驟5.2至步驟5.5進(jìn)行處理,從 而獲得所有m個(gè)測(cè)試樣本的最終認(rèn)知結(jié)果集合;以所述最終認(rèn)知結(jié)果集合作為所述測(cè)試樣 本集的認(rèn)知結(jié)果。2. 根據(jù)權(quán)利要求1所述的基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢字認(rèn)知方法,其特征是, 所述排序規(guī)則為: 當(dāng)四種筆劃方向上筆劃邊緣點(diǎn)的數(shù)量不相同時(shí),按照筆劃邊緣點(diǎn)的數(shù)量從大到小的順 序?qū)λ姆N筆劃進(jìn)行排序; 當(dāng)四種筆劃方向上筆劃邊緣點(diǎn)的數(shù)量相同時(shí),按照橫〉撇〉豎〉捺的優(yōu)先級(jí)順序?qū)λ姆N 筆劃進(jìn)彳丁排序。3. 根據(jù)權(quán)利要求1所述的基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢字認(rèn)知方法,其特征是, 所述筆劃方向與統(tǒng)計(jì)特征的組合規(guī)則為:TYdPL, 6組合對(duì)應(yīng)第j級(jí)橫筆劃方向的統(tǒng)計(jì) 特征,Tj, 2和Tj, 5組合對(duì)應(yīng)第j級(jí)豎筆劃方向的統(tǒng)計(jì)特征,Tj, 3對(duì)應(yīng)第j級(jí)撇筆劃方向的統(tǒng)計(jì)特 征,1^,4對(duì)應(yīng)第j級(jí)捺筆劃方向的統(tǒng)計(jì)特征。4. 根據(jù)權(quán)利要求1所述的基于雙樹(shù)復(fù)小波變換的脫機(jī)手寫(xiě)體漢字認(rèn)知方法,其特征是, 所述步驟5.2中的認(rèn)知結(jié)果信息熵是按如下步驟獲得: 步驟5.2.1、根據(jù)所述第t個(gè)測(cè)試樣本關(guān)于第w次反饋認(rèn)知時(shí)的筆劃特征空間全體候 選特征子空間的認(rèn)知結(jié)果集合中第k個(gè)候選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié)果,獲取第k個(gè)候選 特征子空間所對(duì)應(yīng)的認(rèn)知結(jié)果的訓(xùn)練樣本,記為;以及第k個(gè)候選特征子空間所對(duì)應(yīng)的 認(rèn)知結(jié)果同類(lèi)別的訓(xùn)練樣本子集.并有:#={〇=,···><,…,表示所述 訓(xùn)練樣本子集i/f中第q個(gè)訓(xùn)練樣本;1 < q < Q; 步驟5.2.2、獲取第w次反饋認(rèn)知過(guò)程中第t個(gè)測(cè)試樣本的第k個(gè)候選特征子空間Γ/、第k 個(gè)候選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié)果的訓(xùn)練樣本;C的第k個(gè)候選特征子空間和所述 訓(xùn)練樣本子集的第k個(gè)候選特征子空間7^; 步驟5.2.3、利用式(1)獲得第w次反饋認(rèn)知過(guò)程中第t個(gè)測(cè)試樣本關(guān)于第w次反饋認(rèn)知 時(shí)的筆劃特征空間全體候選特征子空間的認(rèn)知結(jié)果集合中第k個(gè)候選特征子空間所對(duì) 應(yīng)的認(rèn)知結(jié)果的認(rèn)知結(jié)果信息熵"1'從而獲得所有候選特征子空間所對(duì)應(yīng)的認(rèn)知結(jié)果的 認(rèn)知結(jié)果信息熵:
【文檔編號(hào)】G06K9/62GK105825220SQ201610153924
【公開(kāi)日】2016年8月3日
【申請(qǐng)日】2016年3月16日
【發(fā)明人】李帷韜, 王光新, 宋程楠, 陳克瓊, 王建平
【申請(qǐng)人】合肥工業(yè)大學(xué)