專利名稱:基于部首的書法字檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及書法字相關(guān)信息庫的建立,尤其涉及一種基于部首的書法字檢索的方法。
背景技術(shù):
書法是中國土生土長的藝術(shù),有著悠久、深厚的文化底蘊(yùn)。古代大量的優(yōu)秀書法作品都是全人類寶貴的歷史文化遺產(chǎn)。數(shù)字化的書法作品可以通過作品名稱、作者和朝代等信息進(jìn)行檢索,但這遠(yuǎn)遠(yuǎn)滿足不了人們的需求,而書法作品圖像難以通過OCR識別,基于內(nèi)容的書法字檢索相對較難,原因在于書法字具有如下特性I)筆劃變形。橫筆不平,豎筆不宣,折筆拐角變圓弧。有時(shí)是為美感而故意扭曲筆畫,如枯筆字。2)復(fù)雜性。書法字風(fēng)格各異。與印刷體相比,該連接的筆畫沒接上,不該接的卻連接在一起。3)模糊性。由于原始作品飽經(jīng)歷史滄桑,或受自然因素影響,有許多腐蝕和污染的地方,嚴(yán)重的甚至出現(xiàn)部分筆畫缺失的現(xiàn)象。目前書法字檢索技術(shù)的研究成果很少。MultiMedia 2004年(Retrievalof Chinese calligraphic charcter image 2004: 17-24)提出一種對書法字的檢索多米用基于輪廓相似性的方法。為了加快檢索速度,第十五屆ACM International Conferenceon Imormation and Knowledge Management 2006, (Towards interactive indexingfor large Chinese calligraphic character databases 2006: 884-885)對書法字?jǐn)?shù)據(jù)庫的高維特征建理論上,基于內(nèi)容的書法字檢索與基于內(nèi)容的圖像檢索(content basedimage retrieval, CBIR)十分接近。CBIR通常是通過比較顏色、紋理和形狀等特征實(shí)現(xiàn)的。但是對于書法字來說,在這3個(gè)特征中,僅形狀特征是有意義的?!队?jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)》2009年(基于骨架相似性的書法字檢索)提出一種基于骨架的書法字檢索方法,將書法字進(jìn)行細(xì)化形成骨架,再對骨架進(jìn)行特征提取及匹配,達(dá)到檢索目的,但是真正實(shí)施起來書法字的骨架提取難度特別大,而且提取出來的骨架并不規(guī)整,檢索速度比較慢。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,結(jié)合中國人對漢字的理解,提供一種基于部首的書法字檢索的方法?;诓渴椎臅ㄗ謾z索方法包括以下步驟
1)應(yīng)用書法作品切割工具切割書法字,首先將書法作品ニ值化并且進(jìn)行平滑降噪處理,然后運(yùn)用最小包圍盒的方法對ニ值化后的圖片進(jìn)行切割記錄書法字位置信息,最后根據(jù)書法字位置信息將書法字從原作品切割出來,建立書法字圖片庫;
2)應(yīng)用標(biāo)注系統(tǒng)對書法字圖片進(jìn)行語義標(biāo)注,利用步驟I)切割過程中產(chǎn)生的位置信息在書法作品中標(biāo)記當(dāng)前書法字,對照原作品上下文對書法字圖片進(jìn)行語義標(biāo)注,建立書法字信息庫,語義標(biāo)注內(nèi)容包括語義、繁簡體、書體,書體包括楷書、草書、行書、篆書、隸 書;3)根據(jù)GB2312-80規(guī)范建立擁有ー級漢字3755個(gè),ニ級漢字3008個(gè)的漢字信息索引
庫;
4)基于部首的書法字檢索,用戶首先選擇偏旁部首筆畫,然后選擇部首,書法字檢索系統(tǒng)根據(jù)所選部首查詢漢字信息索引庫,檢索所有擁有該部首的漢字,再根據(jù)檢索到的漢字查詢書法字信息庫,檢索漢字對應(yīng)的書法字,并將檢索到的書法字圖片展示給用戶。所述步驟I)為
2. I)將輸入的書法作品轉(zhuǎn)化為灰度圖
Gray = R*0. 299 + G*0. 587 + Β*0·114;
其中R為紅色像素值,G為綠色像素值,B為藍(lán)色像素值,Gray為灰度值。2. 2)計(jì)算灰度圖的閾值,首先計(jì)算出圖片中所有像素的最高灰度值iMaxGrayValue 和最低灰度值 iMinGrayValue
iMinGrayValue=MIN(Gray. getColor(i, j, c) 0 <K Gray.get福th0,0<J<Gray.getHeight0); iMaxGrayValue=MAX (Gray. getColor(i, j, c) 0 <K Gray.get福th0,0<J<Gray.getHeight0);
在iMaxGrayValue和iMinGrayValue之間運(yùn)用迭代平均的方法在限定迭代次數(shù)內(nèi)求出理想閾值iThreshold,并將圖片中灰度大于iThreshold的像素點(diǎn)灰度值改為255,灰度值小于iThreshold的像素點(diǎn)灰度值改為0,得到ニ值化圖片;
2. 3)對ニ值化圖片進(jìn)行平滑處理,剔除毛刺型噪聲,填補(bǔ)空穴型噪聲;
2. 4)運(yùn)用數(shù)學(xué)形態(tài)學(xué)的方法對ニ值化后的書法作品進(jìn)行降噪處理,先對圖片進(jìn)行一次腐蝕處理,再對ニ值化圖片進(jìn)行一次膨脹處理,去除書法作品中小面積的瑕疵。所述步驟3)漢字信息索引庫內(nèi)容包括ChineseCharacterID為漢字編號,Character為漢字,ch_type為漢字繁簡體,Radical為漢字偏旁部首,Structure為漢字間架結(jié)構(gòu),StrokeNum為漢字筆畫數(shù),GB_code為漢字對應(yīng)的GB2312編碼。所述步驟4)包括基于部首檢索書法字,根據(jù)新華字典關(guān)于部首的索引,中國漢字總共擁有265個(gè)偏旁部首,將部首按筆畫數(shù)進(jìn)行分類,用戶選擇部首前,先選擇部首筆畫數(shù),縮小范圍,然后選擇部首并檢索書法字,也可以對書法字的間架結(jié)構(gòu)及書體進(jìn)行限定。本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果
O對于海量書法信息檢索具有良好的實(shí)時(shí)性及便捷性;
2)更符合中國人學(xué)習(xí)漢字和理解漢字的習(xí)慣;
3)更有利于書法初學(xué)者對中國書法的學(xué)習(xí)及理解。
圖I是本發(fā)明的書法作品的切割流程圖,(a)為原始作品,(b)是對原始作品進(jìn)行ニ值化和平滑降噪處理后的結(jié)果,(C)是對ニ值化以后的作品進(jìn)行切割,(d)是對原作品進(jìn)行切割,(e)是最后得到的單字效果;
圖2是本發(fā)明作品切割程序示意 圖3是本發(fā)明的書法字標(biāo)注系統(tǒng)示意圖,標(biāo)注內(nèi)容包括語義、繁簡體、書體;
圖4是本發(fā)明的書法字信息庫結(jié)構(gòu)圖;CalIigraphyCharacterID為書法字編號,PageID為書法字對應(yīng)書法書籟的頁號,Label為書法字語義,ch_style為書法字的書體,ch_type為書法字的繁簡體,F(xiàn)ile_path為書法字圖片的文件名,top_x、top_y、bottom_x、bottom_y為書法字在作品中的坐標(biāo)位置;
圖5是本發(fā)明的漢字信息索引庫結(jié)構(gòu)圖,ChineseCharacterID為常用漢字編號,Character為常用漢字,ch_type為漢字繁簡體,Radical為漢字偏旁部首,Structure為漢字間架結(jié)構(gòu),StrokeNum為漢字筆畫數(shù),GB_code為漢字對應(yīng)的GB2312編碼;
圖6是本發(fā)明的書法字檢索系統(tǒng)提供的檢索表單;
圖7是部首選擇“土”,結(jié)構(gòu)選擇“左右結(jié)構(gòu)” ,書體選擇“所有”進(jìn)行書法字檢索的結(jié)果; 圖8是部首選擇“土”,結(jié)構(gòu)選擇“上下結(jié)構(gòu)”,書體選擇“所有”進(jìn)行書法字檢索的結(jié)果; 圖9是部首選擇“土”,結(jié)構(gòu)選擇“左右結(jié)構(gòu)”,書體選擇“篆書”進(jìn)行書法字檢索的結(jié)果。
具體實(shí)施例方式基于部首的書法字檢索方法包括以下步驟
1)應(yīng)用書法作品切割工具切割書法字,首先將書法作品ニ值化并且進(jìn)行平滑降噪處理,然后運(yùn)用最小包圍盒的方法對ニ值化后的圖片進(jìn)行切割記錄書法字位置信息,最后根據(jù)書法字位置信息將書法字從原作品切割出來,建立書法字圖片庫;
2)應(yīng)用標(biāo)注系統(tǒng)對書法字圖片進(jìn)行語義標(biāo)注,利用步驟I)切割過程中產(chǎn)生的位置信息在書法作品中標(biāo)記當(dāng)前書法字,對照原作品上下文對書法字圖片進(jìn)行語義標(biāo)注,建立書法字信息庫,語義標(biāo)注內(nèi)容包括語義、繁簡體、書體,書體包括楷書、草書、行書、篆書、隸書;
3)根據(jù)GB2312-80規(guī)范建立擁有ー級漢字3755個(gè),ニ級漢字3008個(gè)的漢字信息索引
庫;
4)基于部首的書法字檢索,用戶首先選擇偏旁部首筆畫,然后選擇部首,書法字檢索系統(tǒng)根據(jù)所選部首查詢漢字信息索引庫,檢索所有擁有該部首的漢字,再根據(jù)檢索到的漢字查詢書法字信息庫,檢索漢字對應(yīng)的書法字,并將檢索到的書法字圖片展示給用戶。所述步驟I)為
2. I)將輸入的書法作品轉(zhuǎn)化為灰度圖
Gray = R*0. 299 + G*0. 587 + Β*0·114;
其中R為紅色像素值,G為綠色像素值,B為藍(lán)色像素值,Gray為灰度值。2. 2)計(jì)算灰度圖的閾值,首先計(jì)算出圖片中所有像素的最高灰度值iMaxGrayValue 和最低灰度值 iMinGrayValue
iMinGrayValue=MIN(Gray. getColor(i, j, c) 0 <K Gray.get福th0,0<J<Gray.getHeight0); iMaxGrayValue=MAX (Gray. getColor(i, j, c) 0 <K Gray.get福th0,0<J<Gray.getHeight0);
在iMaxGrayValue和iMinGrayValue之間運(yùn)用迭代平均的方法在限定迭代次數(shù)內(nèi)求出理想閾值iThreshold,并將圖片中灰度大于iThreshold的像素點(diǎn)灰度值改為255,灰度值小于iThreshold的像素點(diǎn)灰度值改為0,得到ニ值化圖片;
2.3)對ニ值化圖片進(jìn)行平滑處理,剔除毛刺型噪聲,填補(bǔ)空穴型噪聲;
2.4)運(yùn)用數(shù)學(xué)形態(tài)學(xué)的方法對ニ值化后的書法作品進(jìn)行降噪處理,先對圖片進(jìn)行一次腐蝕處理,再對ニ值化圖片進(jìn)行一次膨脹處理,去除書法作品中小面積的瑕疵。所述步驟3)漢字信息索引庫內(nèi)容包括=ChineseCharacterID為漢字編號,Character為漢字,ch_type為漢字繁簡體,Radical為漢字偏旁部首,Structure為漢字間架結(jié)構(gòu),StrokeNum為漢字筆畫數(shù),GB_code為漢字對應(yīng)的GB2312編碼。所述步驟4)包括基于部首檢索書法字,根據(jù)新華字典關(guān)于部首的索引,中國漢字總共擁有265個(gè)偏旁部首,將部首按筆畫數(shù)進(jìn)行分類,用戶選擇部首前,先選擇部首筆畫數(shù),縮小范圍,然后選擇部首并檢索書法字,也可以對書法字的間架結(jié)構(gòu)及書體進(jìn)行限定。
實(shí)施例下面結(jié)合本發(fā)明的方法詳細(xì)說明實(shí)例實(shí)施的具體步驟
1)書法字切割。如附圖1,2所示,首先導(dǎo)入一幅鄧石如的書法作品,然后點(diǎn)擊工具欄中的“預(yù)處理”按鈕對書法字作品進(jìn)行ニ值化和平滑降噪處理,用戶可以根據(jù)需要自行設(shè)定ニ值化的閾值,接著點(diǎn)擊工具欄中的“切割”按鈕運(yùn)用最小包圍盒的方法確定圖片中書法字的位置信息,如果切割不準(zhǔn)確,用戶可以根據(jù)需要進(jìn)行調(diào)整,最后點(diǎn)擊“保存”按鈕通過位置信息將書法字從原作品中切割出來形成單個(gè)的書法字圖片進(jìn)行保存;
2)書法字的標(biāo)注。如附圖3所示,對照左邊的書法作品確定當(dāng)前標(biāo)注的書法字為“起”字,是簡體字,書體為草書,選擇相關(guān)的選項(xiàng),點(diǎn)擊“save”按鈕保存書法字信息并跳到下一個(gè)待標(biāo)注的書法字;
3)基于部首的書法字檢索。首先選擇部首筆畫,然后選擇部首,接著根據(jù)需要選擇書法字間架結(jié)構(gòu)及書體,最后點(diǎn)擊查詢按鈕進(jìn)行書法字檢索。本例以“土”字旁為例演示基于部首的書法字檢索過程,如附圖6所示,在偏旁筆畫中選擇“3畫”,在偏旁中選擇“土”,結(jié)構(gòu)選擇“左右結(jié)構(gòu)”,書體選擇“所有”,點(diǎn)擊查詢按鈕,檢索系統(tǒng)顯示所有擁有“土”字旁且為左右結(jié)構(gòu)的書法字,如附圖7所示,如果結(jié)構(gòu)選擇“上下結(jié)構(gòu)”,書體選擇“所有”,點(diǎn)擊查詢按鈕,檢索系統(tǒng)顯示所有擁有“土”字旁且為上下結(jié)構(gòu)的書法字,如附圖8所示,如果結(jié)構(gòu)選擇“左右結(jié)構(gòu)”,書體選為“篆書”,點(diǎn)擊查詢按鈕,檢索系統(tǒng)顯示所有擁有“土”字旁,結(jié)構(gòu)為左右結(jié)構(gòu)且書體為篆書的書法字,如附圖9所示。
權(quán)利要求
1.一個(gè)基于部首的書法字檢索方法,其特征在于包括以下步驟 1)應(yīng)用書法作品切割工具切割書法字,首先將書法作品二值化并且進(jìn)行平滑降噪處理,然后運(yùn)用最小包圍盒的方法對二值化后的圖片進(jìn)行切割記錄書法字位置信息,最后根據(jù)書法字位置信息將書法字從原作品切割出來,建立書法字圖片庫; 2)應(yīng)用標(biāo)注系統(tǒng)對書法字圖片進(jìn)行語義標(biāo)注,利用步驟I)切割過程中產(chǎn)生的位置信息在書法作品中標(biāo)記當(dāng)前書法字,對照原作品上下文對書法字圖片進(jìn)行語義標(biāo)注,建立書法字信息庫,語義標(biāo)注內(nèi)容包括語義、繁簡體、書體,書體包括楷書、草書、行書、篆書、隸書; 3)根據(jù)GB2312-80規(guī)范建立擁有一級漢字3755個(gè),二級漢字3008個(gè)的漢字信息索引庫; 4)基于部首的書法字檢索,用戶首先選擇偏旁部首筆畫,然后選擇部首,書法字檢索系統(tǒng)根據(jù)所選部首查詢漢字信息索引庫,檢索所有擁有該部首的漢字,再根據(jù)檢索到的漢字查詢書法字信息庫,檢索漢字對應(yīng)的書法字,并將檢索到的書法字圖片展示給用戶。
2.根據(jù)權(quán)利要求I所述的一個(gè)基于部首的書法字檢索方法,其特征在于所述步驟I)為 2.I)將輸入的書法作品轉(zhuǎn)化為灰度圖Gray = R*0. 299 + G*0. 587 + B*0.114; 其中R為紅色像素值,G為綠色像素值,B為藍(lán)色像素值,Gray為灰度值; 2.2)計(jì)算灰度圖的閾值,首先計(jì)算出圖片中所有像素的最高灰度值iMaxGrayValue和最低灰度值iMinGrayValue iMinGrayValue=MIN(Gray. getColor(i, j, c) 0 <K Gray.getWidth0,0<J<Gray.getHeight0); iMaxGrayValue=MAX (Gray. getColor(i, j, c) 0 <K Gray.getWidth0,0<J<Gray.getHeight0); 在iMaxGrayValue和iMinGrayValue之間運(yùn)用迭代平均的方法在限定迭代次數(shù)內(nèi)求出理想閾值iThreshold,并將圖片中灰度大于iThreshold的像素點(diǎn)灰度值改為255,灰度值小于iThreshold的像素點(diǎn)灰度值改為0,得到二值化圖片; 2.3)對二值化圖片進(jìn)行平滑處理,剔除毛刺型噪聲,填補(bǔ)空穴型噪聲; 2.4)運(yùn)用數(shù)學(xué)形態(tài)學(xué)的方法對二值化后的書法作品進(jìn)行降噪處理,先對圖片進(jìn)行一次腐蝕處理,再對二值化圖片進(jìn)行一次膨脹處理,去除書法作品中小面積的瑕疵。
3.根據(jù)權(quán)利要求I所述的基于部首的書法字檢索方法,其特征在于所述步驟3)漢字信息索引庫內(nèi)容包括ChineseCharacterID為漢字編號,Character為漢字,ch_type為漢字繁簡體,Radical為漢字偏旁部首,Structure為漢字間架結(jié)構(gòu),StrokeNum為漢字筆畫數(shù),GB_code為漢字對應(yīng)的GB2312編碼。
4.根據(jù)權(quán)利要求I所述的基于部首的書法字檢索方法,其特征在于所述步驟4)包括基于部首檢索書法字,根據(jù)新華字典關(guān)于部首的索引,中國漢字總共擁有265個(gè)偏旁部首,將部首按筆畫數(shù)進(jìn)行分類,用戶選擇部首前,先選擇部首筆畫數(shù),縮小范圍,然后選擇部首并檢索書法字,也可以對書法字的間架結(jié)構(gòu)及書體進(jìn)行限定。
全文摘要
本聲明公開一種基于部首的書法字檢索的方法。通過切割工具將書法字從書法作品中切割出來,建立一個(gè)書法字圖片庫,然后運(yùn)用一個(gè)標(biāo)注系統(tǒng)對書法字圖片進(jìn)行語義標(biāo)注建立一個(gè)書法字信息庫,同時(shí)根據(jù)GB2312-80建立一個(gè)擁有一級漢字3755個(gè),二級漢字3008個(gè)的漢字信息索引庫,用戶如果要通過部首檢索書法字,首先選定部首筆畫數(shù),然后選定部首,檢索系統(tǒng)通過查找漢字信息索引庫找到擁有該部首的所有漢字,然后根據(jù)檢索到的漢字查找書法字信息庫,找到對應(yīng)的書法字并展示給用戶,即完成基于部首的書法字檢索。本發(fā)明可以通過部首對書法字進(jìn)行檢索,計(jì)算量小,運(yùn)行速度快,數(shù)據(jù)庫建立簡單,并且符合中國人學(xué)習(xí)和理解漢字的習(xí)慣,對于書法展示,書法學(xué)習(xí),弘揚(yáng)國粹意義重大。
文檔編號G06F17/30GK102663127SQ20121012312
公開日2012年9月12日 申請日期2012年4月24日 優(yōu)先權(quán)日2012年4月24日
發(fā)明者吳江琴, 夏洋, 莊越挺, 林媛, 高鵬程 申請人:浙江大學(xué)