亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種東巴象形文字字素智能識(shí)別方法_2

文檔序號(hào):8488107閱讀:來源:國知局
眾多。因此,本發(fā)明采用結(jié)構(gòu)形狀特征信息作為區(qū)分圖像中的東巴文字的突出特征,將結(jié)構(gòu)形狀特征作為判別屬類的主要特征參數(shù)。
[0021]本發(fā)明采用基于輪廓的骨架信息來構(gòu)造形狀的描述符,分析骨架的結(jié)構(gòu)特征信息,根據(jù)結(jié)構(gòu)特征信息的分布情況,將不同的結(jié)構(gòu)特征信息來描述形狀。本發(fā)明提取的幾何特征包含7個(gè)Hu不變矩和120個(gè)zernike矩,提取特征共127個(gè),構(gòu)建對(duì)輪廓變形具有較強(qiáng)魯棒性的形狀描述符特征集;其中,7個(gè)Hu不變矩為低階結(jié)構(gòu)形狀特征信息,120個(gè)zernike矩為高階結(jié)構(gòu)形狀特征信息。
[0022]3)建立東巴象形文字字素識(shí)別模型:
[0023](I)利用低階結(jié)構(gòu)形狀特征信息作為判別特征,并對(duì)東巴字素結(jié)構(gòu)形狀特征信息進(jìn)行訓(xùn)練后構(gòu)建模式識(shí)別分類器,判別字素所屬的屬類(共18類)。
[0024]模式識(shí)別分類器的訓(xùn)練中,已知字素的低階結(jié)構(gòu)特征值被分為學(xué)習(xí)集和驗(yàn)證集兩部分,學(xué)習(xí)集是從所有字符樣本中隨機(jī)抽取的,每個(gè)屬類取三分之一的樣本。剩下的樣本作為驗(yàn)證樣本。將低階結(jié)構(gòu)特征作為分類器的輸入,經(jīng)過反復(fù)學(xué)習(xí)確定分類器的各個(gè)參數(shù)值。其中,學(xué)習(xí)集與驗(yàn)證集的樣本來自東巴經(jīng)典,如《東巴經(jīng).除穢.人類迀徙傳略》。
[0025](2)利用模式識(shí)別方法建立鑒別模型,以高階結(jié)構(gòu)形狀特征信息為判別特征,識(shí)別東巴字素含義。其中,以模式識(shí)別來進(jìn)行判別分析,需要將各屬類的標(biāo)準(zhǔn)樣本分成學(xué)習(xí)集和驗(yàn)證集兩部分,劃分的依據(jù)是兩個(gè)集合中的類別應(yīng)相同,具有廣泛的代表性。
[0026](3)對(duì)各字素樣本依先驗(yàn)知識(shí)賦予初值,建立字素識(shí)別模型,然后用驗(yàn)證集來評(píng)價(jià)識(shí)別模型的性能。
[0027]模式識(shí)別方法可以采用Bayes判別、神經(jīng)網(wǎng)絡(luò)或支持向量機(jī)。
[0028]4)東巴經(jīng)典中字素智能識(shí)別:
[0029]首先根據(jù)存儲(chǔ)的經(jīng)典中字素的形態(tài)結(jié)構(gòu)特征,利用Hu不變矩作為線性判別分類器的輸入,實(shí)現(xiàn)字素所屬類別的判定;
[0030]然后根據(jù)高階zernike特征,利用訓(xùn)練后模式識(shí)別分類器識(shí)別字素。
[0031]實(shí)施例:
[0032]如圖3所示,以五個(gè)屬類東巴字素為例進(jìn)一步介紹東巴象形文字字素智能識(shí)別方法。
[0033]I)利用掃描儀,采集五個(gè)屬類的字素圖像。利用納西象形文字智能識(shí)別系統(tǒng)翻譯經(jīng)典,讀取原始圖像信息,存儲(chǔ)經(jīng)典中每個(gè)字素的圖像信息。提取可表征形態(tài)結(jié)構(gòu)信息的東巴字素圖像結(jié)構(gòu)形狀特征參數(shù),最終將結(jié)構(gòu)形狀特征作為判別屬類的主要特征參數(shù)。
[0034]2)根據(jù)所采集東巴字素按照屬類分別劃為天象、地理、植物、走獸和人稱五類,首先利用東巴字素結(jié)構(gòu)形狀特征信息作為判別特征,構(gòu)建貝葉斯分類器,判別字素所屬的屬類。然后利用神經(jīng)網(wǎng)絡(luò)的方法建立了鑒別模型,以高階紋理特征參數(shù)為判別特征,識(shí)別東巴字素含義。在神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建中,已知東巴字素的圖像特征學(xué)習(xí)集和驗(yàn)證集兩部分,學(xué)習(xí)集是從《納西象形文字譜》中字素圖像,文中的《東巴經(jīng).除穢.人類迀徙傳略》經(jīng)文作為驗(yàn)證樣本。將特征作為神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)過反復(fù)學(xué)習(xí)確定神經(jīng)網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)、訓(xùn)練速率取、最大迭代數(shù)以及網(wǎng)絡(luò)的擬合誤差。
[0035]3)將《東巴經(jīng).除穢.人類迀徙傳略》經(jīng)文置于掃描儀上上,采集并獲取原始圖像,存儲(chǔ)為24位bmp格式文件。完成經(jīng)文中148個(gè)東巴字素圖像處理與特征提取后,利用訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行字素識(shí)別。
[0036]綜上所述,本發(fā)明利用了不變矩的旋轉(zhuǎn)、尺度不變形,所提取的特征能夠表達(dá)東巴文字形態(tài),增強(qiáng)其分類的效果,其能夠改善由于手寫帶來的,文字尺度不同和形態(tài)微變引起的識(shí)別率下降問題。將其應(yīng)用于東巴經(jīng)典中字素的識(shí)別,能夠提高算法對(duì)東巴文字識(shí)別的魯棒性。
[0037]上述各實(shí)施例僅用于說明本發(fā)明,各步驟都是可以有所變化的,在本發(fā)明技術(shù)方案的基礎(chǔ)上,凡根據(jù)本發(fā)明原理對(duì)個(gè)別步驟進(jìn)行的改進(jìn)和等同變換,均不應(yīng)排除在本發(fā)明的保護(hù)范圍之外。
【主權(quán)項(xiàng)】
1.一種東巴象形文字字素智能識(shí)別方法,其特征在于,它包括以下步驟: 1)利用掃描儀從東巴象形文字經(jīng)典中采集東巴象形文字圖像字素1340個(gè),涉及天象、地理、植物、飛禽、走獸、蟲魚、人稱、人事、形體、服飾、居住、器用、飲食、行止、形狀、數(shù)名、宗教和古人名號(hào)18個(gè)屬類;讀取原始圖像信息,存儲(chǔ)經(jīng)典中每個(gè)字素的圖像信息; 2)將采集到的東巴象形文字字素圖像進(jìn)行中值濾波、固定閾值分割、輪廓邊界提取和形態(tài)學(xué)處理等圖像預(yù)處理后,得到東巴象形文字字素的輪廓形狀,并提取圖像中表征單個(gè)東巴象形文字字素的幾何特征,表征東巴象形文字字素的結(jié)構(gòu)形狀特征信息;通過對(duì)圖像中字素的識(shí)別實(shí)現(xiàn)表征單個(gè)字素的幾何特征的提取,提取的幾何特征包含7個(gè)Hu不變矩和120個(gè)zernike矩,7個(gè)Hu不變矩為低階結(jié)構(gòu)形狀特征信息,120個(gè)zernike矩為高階結(jié)構(gòu)形狀特征信息; 3)建立東巴象形文字字素識(shí)別模型: 首先,利用低階結(jié)構(gòu)形狀特征信息作為判別特征,并對(duì)東巴字素結(jié)構(gòu)形狀特征信息進(jìn)行訓(xùn)練后構(gòu)建模式識(shí)別分類器,判別字素所屬的屬類; 模式識(shí)別分類器的訓(xùn)練中,已知字素的低階結(jié)構(gòu)特征值被分為學(xué)習(xí)集和驗(yàn)證集兩部分,學(xué)習(xí)集是從所有字符樣本中隨機(jī)抽取的,每個(gè)屬類取三分之一的樣本,剩下的樣本作為驗(yàn)證樣本;將低階結(jié)構(gòu)特征作為分類器的輸入,經(jīng)過反復(fù)學(xué)習(xí)確定分類器的各個(gè)參數(shù)值; (2)利用模式識(shí)別方法建立鑒別模型,以高階結(jié)構(gòu)形狀特征信息為判別特征,識(shí)別東巴字素含義; (3)對(duì)各字素樣本依先驗(yàn)知識(shí)賦予初值,建立字素識(shí)別模型,然后用驗(yàn)證集來評(píng)價(jià)識(shí)別模型的性能; 4)東巴經(jīng)典中字素智能識(shí)別: 首先根據(jù)存儲(chǔ)的經(jīng)典中字素的形態(tài)結(jié)構(gòu)特征,利用Hu不變矩作為線性判別分類器的輸入,實(shí)現(xiàn)字素所屬類別的判定; 然后根據(jù)高階zernike特征,利用訓(xùn)練后模式識(shí)別分類器識(shí)別字素。
2.如權(quán)利要求1所述的一種東巴象形文字字素智能識(shí)別方法,其特征在于:所述步驟2)中,對(duì)所述圖像中字素識(shí)別的方法采用多信息融合實(shí)現(xiàn),步驟如下: (1)識(shí)別東巴象形文字字素圖像中由縱線、橫線判定出的東巴經(jīng)典各段落的文字區(qū)域; (2)利用文字區(qū)域中的灰度特征標(biāo)記段落內(nèi)的連通區(qū)域,連通區(qū)域面積大于預(yù)先設(shè)定的閾值則判別為單個(gè)東巴字素,小于閾值則判別為待定字符; (3)通過計(jì)算待定字符中心與其四個(gè)方向上字符或字素中心的歐式距離,以最近距離原則匹配,判定待定字符所屬的東巴字素,最終完成經(jīng)典圖片中所有字素識(shí)別。
3.如權(quán)利要求1所述的一種東巴象形文字字素智能識(shí)別方法,其特征在于:所述步驟3)中,所述模式識(shí)別方法采用Bayes判別、神經(jīng)網(wǎng)絡(luò)或支持向量機(jī)。
【專利摘要】本發(fā)明涉及一種東巴象形文字字素智能識(shí)別方法,它包括步驟:利用掃描儀從東巴象形文字經(jīng)典中采集東巴象形文字圖像字素,涉及18個(gè)屬類;將采集到的東巴象形文字字素圖像進(jìn)行中值濾波、固定閾值分割、輪廓邊界提取和形態(tài)學(xué)處理等圖像預(yù)處理后,得到東巴象形文字字素的輪廓形狀,并提取圖像中表征單個(gè)東巴象形文字字素的幾何特征,表征東巴象形文字字素的結(jié)構(gòu)形狀特征信息;實(shí)現(xiàn)表征單個(gè)字素的幾何特征的提取,提取的幾何特征包含7個(gè)Hu不變矩和120個(gè)zernike矩,7個(gè)Hu不變矩為低階結(jié)構(gòu)形狀特征信息,120個(gè)zernike矩為高階結(jié)構(gòu)形狀特征信息;建立東巴象形文字字素識(shí)別模型;東巴經(jīng)典中字素智能識(shí)別。本發(fā)明可以廣泛在文字識(shí)別領(lǐng)域中應(yīng)用。
【IPC分類】G06K9-62, G06K9-00
【公開號(hào)】CN104809442
【申請?zhí)枴緾N201510219254
【發(fā)明人】陳曉, 王紅軍, 王海燕
【申請人】北京信息科技大學(xué)
【公開日】2015年7月29日
【申請日】2015年5月4日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1