本發(fā)明屬于計算機文字圖像識別領(lǐng)域,具體涉及一種梵文天城體無噪聲印刷字符拉丁轉(zhuǎn)寫圖像識別方法。
背景技術(shù):
梵文不僅是一種優(yōu)美的語言,而且更具有細密完整的變位系統(tǒng),這已經(jīng)引起了現(xiàn)代科學(xué)家的極大興趣。正是因為梵文具有完善的語法規(guī)則,很適合用計算機來處理。利用現(xiàn)在計算機技術(shù)帶來的便利,可以促進我們對梵文文獻的學(xué)習(xí)利用,加速佛經(jīng)的梵漢對比研究。作為梵文佛典計算機識別研究的第一步需要實現(xiàn)對佛典文本的數(shù)字化和自動化識別,解決信息處理系統(tǒng)中手動輸入效率低這一關(guān)鍵問題,可以節(jié)省大量的識別轉(zhuǎn)寫人力工作,這是文獻數(shù)字化過程中極為耗時的過程。
隨著計算機技術(shù)的迅速發(fā)展,計算機文字識別不斷取得新的進展,極大提高了人類處理文字信息的能力。文字識別包括數(shù)字字符識別、文字字符識別,由于數(shù)字字符識別和英文字符識別難度相對不大,目前已經(jīng)研究得比較充分,識別率也比較高。然而梵文字符由于其文字結(jié)構(gòu)的復(fù)雜性,字符識別比較困難,因此梵文字符的圖像識別研究相對較少。由于梵文字符的復(fù)雜性不易進行后續(xù)研究,通常需要將其轉(zhuǎn)換為拉丁字符,方便后續(xù)的分詞和釋義,因而實現(xiàn)從梵文字符圖像到拉丁字符的直接轉(zhuǎn)換能夠大大提高梵文文獻的處理效率,能夠很大程度加速翻譯進程,具有重要的意義。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種梵文天城體無噪聲印刷字符拉丁轉(zhuǎn)寫圖像識別方法,實現(xiàn)了從梵文天城體無噪聲印刷字符圖像到對應(yīng)拉丁字符的直接轉(zhuǎn)換,正確率高,能夠顯著提高梵文文獻的處理效率。
一種梵文天城體無噪聲印刷字符拉丁轉(zhuǎn)寫圖像識別方法,包括如下步驟:
(1)對包含梵文天城體印刷字符的字符圖片進行掃描,基于字符塊間垂直最大空白空間進行梵文天城體印刷字符塊分割,得到若干梵文天城體印刷字符塊;
(2)對得到的梵文天城體印刷字符塊進行識別,得到梵文天城體印刷字符塊對應(yīng)的特征向量;
(3)將得到的特征向量與標準拉丁字符的特征向量進行對比,根據(jù)對比結(jié)果,將識別的梵文天城體印刷字符塊轉(zhuǎn)為拉丁字符。
作為優(yōu)選,步驟(1)中,對所述字符圖片進行梵文天城體印刷字符塊分割的方法為:
(1-1)對所述字符圖片進行掃描后,識別出當前梵文天城體印刷字符對應(yīng)的文字區(qū)域以及與文字區(qū)域相連的空白區(qū)域;
(1-2)同時識別出該梵文天城體印刷字符的連接符;
(1-3)利用在垂直于連接符的方向上最大空白區(qū)域?qū)Φ玫降奈淖謪^(qū)域進行分割,分割出所述梵文天城體印刷字符塊。
本發(fā)明中,對于文字區(qū)域和空白區(qū)域的識別,可通過讀取像素點的像素值確定;常見的字符圖片為黑白字符圖片,可直接進行識別,像素值(灰度值)高于某一特定值的可判定為文字區(qū)域內(nèi)的像素點,對于低于某一特定值的可判定為空白區(qū)域的像素點。對于彩色的字符圖片,我們可以對圖片進行預(yù)處理,將圖片進行灰度化和二值化等,轉(zhuǎn)化為計算機容易識別的圖樣,以加快計算速度和效率。
一般情況下,梵文天城體印刷字符的連接符為水平的橫線結(jié)構(gòu)。
相鄰兩個梵文天城體印刷字符塊的分割位置在字符塊間垂直方向字符空白最大的地方,本發(fā)明得到的字符塊有完全分開的字符塊和連接在一起的字符塊。完全分開的字符塊有Anusvāra符號、Visarga符號、Avagraha符號、元音上標符號等,連接在一起的字符塊有疊加輔音字符群、垂直方向有重疊的字符群等。
兩個相鄰梵文天城體印刷字符塊之間的分界線位于所述最大空白區(qū)域處。這里說到的最大空白區(qū)域,一般是指在垂直于連接符的方向長空白區(qū)域的總的高度值。該高度值一般與連接符所在的位置,以及梵文天城體印刷字符的行寬度有關(guān),一般為連接符距離該行寬邊界之間的距離。
作為優(yōu)選,步驟(1-3)中,對文字區(qū)域進行分割時,分別對連接符兩側(cè)的文字區(qū)域進行分割。即,對其中一側(cè)的文字區(qū)域獨立的進行分割。
作為優(yōu)選,步驟(2)中,利用九宮格或田字格的方法對梵文天城體印刷字符塊進行識別。
作為進一步優(yōu)選,步驟(2)中,以梵文天城體頂部為上,對于位于連接符下方的梵文天城體印刷字符塊采用九宮格方法進行識別,對于位于連接符上方的梵文天城體印刷字符塊采用田字格方法進行識別。
所述的九宮格編碼為對字符塊縱橫各分為等長度的三部分,田字格編碼為對字符塊縱橫各分為等長度的兩部分。所述的九宮格編碼為對等分的九部分進行像素統(tǒng)計形成九維特征向量,田字格編碼為對等分的四部分進行像素統(tǒng)計形成四維維特征向量。即作為優(yōu)選,利用所述九宮格方法進行識別的過程為:利用三組橫線和三組豎線,將梵文天城體印刷字符塊均為九份,求取每份的像素值,歸一化,得到梵文天城體印刷字符塊的九維特征向量。作為優(yōu)選,利用所述田字格方法進行識別的過程為:利用兩組橫線和兩組豎線,將梵文天城體印刷字符塊均為四份,求取每份的像素值,歸一化,得到梵文天城體印刷字符塊的四維特征向量。
作為優(yōu)選,步驟(3)中,采用最小方差匹配法進行對比,即具有最小方差結(jié)果的標準拉丁字符即為當前梵文天城體印刷字符對應(yīng)的拉丁字符。
作為優(yōu)選,步驟(3)中,所述的拉丁字符轉(zhuǎn)換基于字符塊特征向量與對應(yīng)拉丁字符集的特征向量進行比對,利用最小差異匹配完成拉丁字符識別轉(zhuǎn)換,即:
其中xn為九維特征向量或者四維特征向量中的某一特征向量值,x0n為標準拉丁字符集的九維特征向量或者四維特征向量的某一特征向量值。
作為優(yōu)選,所述標準拉丁字符的特征向量是由已知的梵文天城體印刷字符計算得到。
本發(fā)明相對于現(xiàn)有梵文字符圖像識別方法具有如下優(yōu)點:
(1)本發(fā)明實現(xiàn)了從梵文天城體無噪聲印刷字符圖像到對應(yīng)拉丁字符的直接轉(zhuǎn)換,且準確度高,基本達到100%正確率。
(2)本發(fā)明所用的圖像識別算法方便易行,效率高。
(3)本發(fā)明提供的技術(shù)方案易于實現(xiàn),適用于實際文獻研究應(yīng)用。
附圖說明
圖1為本發(fā)明的基于圖像識別的梵文天城體-拉丁字符轉(zhuǎn)換方法的流程圖;
圖2為實施例1中待識別的梵文印刷字符圖片;
圖3為實施例2中待識別的梵文印刷字符圖片;
圖4為實施例3中待識別的梵文印刷字符圖片。
具體實施方式
下面結(jié)合實施例對本發(fā)明作進一步詳細的描述,但本發(fā)明的實施方式不限于此。
參考圖1,圖2:一種基于圖像識別的梵文天城體-拉丁字符轉(zhuǎn)換方法,包括如下步驟:
(1)基于字符塊間垂直最大空白空間進行梵文天城體印刷字符塊分割,具體為:
(1-1)對印刷有待轉(zhuǎn)化的梵文天城體印刷字符的梵文印刷字符圖片進行掃描,識別梵文天城體印刷字符對應(yīng)的文字區(qū)域以及與文字區(qū)域相連的空白區(qū)域;
該步驟可以采用逐行掃描的方式進行掃描;其中的識別過程可以通過對比每個像素點的像素值大小或者灰度值大小進行識別;為便于像素點的識別,對于彩色梵文天城體印刷字符的梵文天城體印刷字符圖片,可以先進行灰度化和二值化等預(yù)處理,得到對應(yīng)的灰度圖像,對于灰度值為0的區(qū)域可定義為空白區(qū)域(圖2中白色對應(yīng)的區(qū)域),對于灰度值為255的點可以定義為文字區(qū)域(圖2中黑色對應(yīng)的部分);
(1-2)同時識別出該梵文天城體印刷字符的水平連接符,其中水平連接符為橫向水平設(shè)置的橫線段結(jié)構(gòu),可通過像素值大小識別水平連接符的位置、寬度和長度;
我們在掃描和識別時,可設(shè)定水平連接符的方向為x軸方向(或水平方向),垂直于連接符的方向可設(shè)定為y軸方向(或者垂直方向);
(1-3)對得到的文字區(qū)域進行分割,分割出一個或多個梵文天城體印刷字符塊,分割方法為:
對于連接符上面和下面的文字區(qū)域和空白區(qū)域分別進行判斷;比如,先對連接符下面提取的那些在y軸方向上尺寸最長(一般可根據(jù)連接符的位置以及每行梵文天城體印刷字符的掃描寬度或者行寬度進行確定,最長值一般為連接符距離相鄰行之間的寬度值)的空白區(qū)域,被這些空白區(qū)域分割的文字區(qū)域部分所在的圖像區(qū)域構(gòu)成一個或多個梵文天城體印刷字符塊;對于其中一個梵文天城體字符塊,其為底邊(位于連接符上方的梵文天城體字符塊)或者頂邊(位于連接符下方的梵文天城體字符塊)與連接符位置重合的矩形字符塊,該矩形在x軸方向的寬度為該梵文天城體字符塊內(nèi)文字區(qū)域上所有像素點相距最遠的兩個像素點的x坐標的差值,在y軸方向的高度為該梵文天城體字符塊內(nèi)文字區(qū)域上所有像素點相距最遠的兩個像素點的y坐標的差值;
(2)基于九宮格或者田字格方法對梵文天城體印刷字符塊進行識別:對于位于連接符上方(y軸方向)的梵文天城體印刷字符塊采用田字格方法進行識別,對于位于連接符下方(y軸方向)的梵文天城體印刷字符塊采用九宮格方法進行識別,具體為:
(i)利用九宮格方法對梵文天城體印刷字符塊進行編碼,即對梵文天城體印刷字符塊縱橫各分為等長度的三部分,對等分的九部分進行像素值統(tǒng)計,然后歸一化,得到該梵文天城體印刷字符塊的九維特征向量;參考圖1所示;
(ii)同樣,對較小塊的梵文天城體印刷字符塊基于田字格方法對字符塊進行編碼,即對梵文天城體印刷字符塊縱橫各分為等長度的兩部分,對等分的四部分進行像素值統(tǒng)計,然后歸一化,得到字符塊的四維特征向量。
(3)將得到的九維特征向量或者四維特征向量與已知的標準拉丁字符集的特征向量(通過已知的梵文天城體印刷字符計算得到)進行比對,利用向量之間最小方差匹配完成拉丁字符識別轉(zhuǎn)換,即:
其中xn為九維特征向量或者四維特征向量中的某一特征向量值,x0n為標準拉丁字符集的九維特征向量或者四維特征向量的某一特征向量值;
為進一步驗證本發(fā)明的可性能,下面利用上述方法對實際的梵文印刷字符圖片進行實際識別,詳見實施例1~3:
實施例1
如圖2所示的梵文天城體印刷字符圖片,通過上述梵文天城體印刷字符塊分割方法分割得到6個梵文天城體印刷字符塊,通過九宮格方法和田字格方法進行編碼,求取像素值和歸一化處理,分別計算方法得到各個字符塊的九維特征向量,如下表1所示:
表1
其中,字符向量編號方式,采用圖1中的編號方式進行標號;梵文天城體印刷字符塊1~6以及連接符7分別如圖2所示;其中梵文天城體印刷字符塊1~5采用九宮格方法,梵文天城體印刷字符塊6采用田字格方法。字符向量x的編號方式是:九宮格是從左到右,從下到上,田字格是從左到右,從上到下。
通過最小方差匹配得到識別后的拉丁字符識別轉(zhuǎn)換:識別正確率100%。
實施例2
如圖3所示梵文印刷字符圖片,按照上述方法,通過字符塊分割得到11個字符塊(按照圖2的標注方式,從連接符下方開始,自左到右分別是梵文天城體印刷字符塊1~8,然后連接符上方開始,自左到右為梵文天城體印刷字符塊9~11),通過九宮格或者田字格計算方法得到各個字符塊的九維特征向量,如下表2所示:
表2
通過最小方差匹配得到識別后的拉丁字符識別轉(zhuǎn)換:識別正確率100%。
實施例3
如圖4所示梵文印刷字符圖片,通過字符塊分割得到14個字符塊(編號同實施例2),通過九宮格和田字格計算方法得到各個字符塊的九維特征向量,如下表3所示:
表3
通過最小方差匹配得到識別后的拉丁字符識別轉(zhuǎn)換:karhicit,識別正確率100%。
由實施例1~3的驗證結(jié)果可知,采用本發(fā)明的轉(zhuǎn)換方法,精度高,正確率均為100%,具有較強的實用性。