專利名稱:一種基于部件的聯(lián)機(jī)手寫藏文字符的識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于少數(shù)民族語言文字信息處理的聯(lián)機(jī)手寫字符識別領(lǐng)域,涉及一種藏文字符的識別方法,尤其涉及一種基于部件的聯(lián)機(jī)手寫藏文字符的識別方法。
背景技術(shù):
基于筆的聯(lián)機(jī)手寫字符識別技術(shù)是一種易被用戶使用的、有效的實(shí)時(shí)工具,已廣泛應(yīng)用在計(jì)算機(jī)和手持移動(dòng)設(shè)備(如手機(jī)、PDA等)中。筆輸入設(shè)備的普及和應(yīng)用的擴(kuò)展, 給手寫字符識別技術(shù)的應(yīng)用帶來了新的機(jī)遇,同時(shí)又對識別性能提出了更高的要求。進(jìn)一步提高識別精度、減少計(jì)算量和存儲空間是下一步的研究目標(biāo)。藏文字符識別技術(shù)是少數(shù)民族語言文字信息處理中的重要部分,但目前國內(nèi)外在聯(lián)機(jī)手寫藏文字符識別上的研究相對較少,因而,研究聯(lián)機(jī)手寫藏文字符的識別方法在理論和應(yīng)用上都具有重要的意義。傳統(tǒng)的字符識別方法包括統(tǒng)計(jì)方法和結(jié)構(gòu)方法。統(tǒng)計(jì)方法通常用特征向量表示整個(gè)字符形狀信息,用統(tǒng)計(jì)分類器進(jìn)行字符分類,這種方法能夠克服筆劃順序和筆劃數(shù)的變化,識別精度較高;但由于字符的類別數(shù)大,分類器參數(shù)的存儲量也很大。結(jié)構(gòu)方法是將字符分解為簡單的子結(jié)構(gòu)(部件、筆劃等),用相對簡單的方法對子結(jié)構(gòu)進(jìn)行識別。這種方法的優(yōu)點(diǎn)是結(jié)構(gòu)基元的模型復(fù)雜度低,而缺點(diǎn)是子結(jié)構(gòu)提取的難度大,準(zhǔn)確性低。目前聯(lián)機(jī)手寫藏文字符識別的研究均是采用基于統(tǒng)計(jì)的方法,藏文字符的類別數(shù)大,導(dǎo)致分類器參數(shù)的存儲量大;另一方面,相似字符的類別數(shù)多,影響了分類器的識別精度;這兩個(gè)主要原因?qū)е虏匚淖址淖R別性能尚未達(dá)到筆式移動(dòng)設(shè)備對手寫識別技術(shù)的較高需求。
發(fā)明內(nèi)容
本發(fā)明的目的是為滿足目前筆式移動(dòng)設(shè)備對手寫藏文識別技術(shù)的較高需求,提出一種基于部件的聯(lián)機(jī)手寫藏文字符的識別方法。本發(fā)明的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其步驟包括1)對輸入字符的點(diǎn)軌跡進(jìn)行預(yù)處理;2)對預(yù)處理后的字符進(jìn)行部件分割,得到一系列子結(jié)構(gòu)塊;3)將子結(jié)構(gòu)塊按其邊界框的上邊界重新排列,得到子結(jié)構(gòu)塊序列;4)采用基于條件隨機(jī)場的集成識別方法,從子結(jié)構(gòu)塊序列中識別出正確的部件串;所述基于條件隨機(jī)場的集成識別方法通過不同的權(quán)值將字符-部件的組成規(guī)則模型、 部件分類模型、字符的拼寫規(guī)則模型及幾何模型集成在一起;5)根據(jù)識別出的部件串確定輸入的字符。步驟1)所述的預(yù)處理包括去除孤立點(diǎn)、等距離重采樣及高斯平滑。步驟2)所述的部件分割包括垂直方向的迭代歸并和基于規(guī)則的歸并。步驟4)所述的字符-部件的組成規(guī)則模型采用部件自學(xué)習(xí)方法確定某類字符的部件類別,采用層次聚類算法對所有類字符的部件類別進(jìn)行聚類。步驟4)所述的部件分類模型采用統(tǒng)計(jì)分類方法,包括修正的二次判別函數(shù)和學(xué)習(xí)向量量化方法。步驟4)所述的字符的拼寫規(guī)則模型是一種基于部件的拼寫規(guī)則模型。對于每一類字符,步驟4)中所述幾何模型為每一個(gè)部件建立一元幾何特征,為每兩個(gè)連續(xù)部件之間建立二元幾何特征,并分別用不同的概率密度函數(shù)模型化一元和二元幾何特征。步驟4)所述的連接字符-部件的組成規(guī)則模型、部件分類模型、字符的拼寫規(guī)則模型及幾何模型的權(quán)值基于最小分類錯(cuò)誤率的準(zhǔn)則訓(xùn)練得到。與現(xiàn)有的采用統(tǒng)計(jì)模型的聯(lián)機(jī)手寫藏文字符的識別方法相比,本發(fā)明采用的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,將基于字符-部件的結(jié)構(gòu)方法和基于部件的統(tǒng)計(jì)模型的方法相融合,在部件過分割的子結(jié)構(gòu)序列中尋找最優(yōu)的部件分割路徑和識別結(jié)果,提高了部件分割的精度;本發(fā)明采用的基于部件的識別方法中,部件的類別總數(shù)遠(yuǎn)小于字符的類別數(shù),這使得部件分類器的詞典存儲量較小,可以滿足移動(dòng)設(shè)備的存儲需求;此外,較小的部件類別中相似的部件也大大減少,有助于提高最終的字符識別精度。
圖1是本發(fā)明的基于部件的識別方法的流程框2是藏文字符的結(jié)構(gòu)組成示意3是藏文字符的部件分割的示例4是藏文字符的部件串的表示示例5是提取某一類字符的部件的人工交互界面示意圖
具體實(shí)施例方式下面通過實(shí)施例,并結(jié)合附圖,對本發(fā)明的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法詳細(xì)的說明。本實(shí)施例采用了中國科學(xué)院軟件研究所基礎(chǔ)軟件國家工程研究中心的多語言處理研究組的MRG-OHTC樣本數(shù)據(jù)庫。該數(shù)據(jù)庫包括了 130位不同書寫者的藏文字符樣本,每位書寫者完成910個(gè)常用字符(基本集和擴(kuò)充A集)的書寫。實(shí)驗(yàn)選取其中的562類藏文字符進(jìn)行測試,每個(gè)類別有130套樣本,剔除了不能正確標(biāo)記部件分割點(diǎn)的樣本。選擇其中 105套進(jìn)行訓(xùn)練,剩余的25套樣本進(jìn)行測試。此外,130套樣本中字符的部件分割點(diǎn)的位置標(biāo)記借助了字符-部件的組成規(guī)則模型中的部件自學(xué)習(xí)方法。本實(shí)施例的具體實(shí)施過程按如圖1所示,具體說明如下1)點(diǎn)軌跡預(yù)處理將一個(gè)聯(lián)機(jī)手寫藏文字符的輸入表示為手寫軌跡的點(diǎn)序列(Xl,Y1),(X2,J2),… (xn, yn),其中η表示輸入字符軌跡中的點(diǎn)數(shù),軌跡中點(diǎn)的順序按書寫的時(shí)間先后排列,筆劃之間用結(jié)束標(biāo)志點(diǎn)斷開。首先去除孤立點(diǎn),即由單個(gè)噪聲點(diǎn)組成的筆劃,以消除孤立噪聲點(diǎn)對部件分割及部件識別的影響,然后對字符的軌跡進(jìn)行等距離重采樣,最后用高斯濾波進(jìn)行點(diǎn)的平滑,以克服軌跡中點(diǎn)的波動(dòng)。在等距離重采樣中,點(diǎn)的距離設(shè)置為0. 7,在高斯平滑中,方差設(shè)置為1.5。2)部件分割
部件分割模塊將經(jīng)過預(yù)處理的字符過分割成一系列子結(jié)構(gòu)塊,子結(jié)構(gòu)塊是完整的部件或部件的一部分。藏文字符是由一個(gè)或多個(gè)部件在垂直方向按上下疊加的縱向形式組合而成,如圖2所示。所述的部件是指字符的子筆劃序列,是易被計(jì)算機(jī)分割算法提取、 比字符結(jié)構(gòu)更穩(wěn)定的結(jié)構(gòu)基元。由于字符由部件組成,不同的字符共用相同的部件,因而部件的類別數(shù)遠(yuǎn)小于字符的類別數(shù)。結(jié)合藏文字符的一般書寫順序,部件分割的具體步驟如下a)垂直方向的迭代歸并初始假定每一個(gè)筆劃為一個(gè)子結(jié)構(gòu)塊,迭代歸并任意兩個(gè)在垂直方向的交叉度較大的子結(jié)構(gòu)塊,直到?jīng)]有可歸并的為止。通常書寫藏文字符時(shí),一般部件之間在垂直方向存在空白間隔或部件之間的重疊較小。假定最初每個(gè)筆劃是一個(gè)子結(jié)構(gòu)塊,基于這個(gè)信息,如果兩個(gè)子結(jié)構(gòu)塊(筆劃序列)在垂直方向有間隔或兩個(gè)子結(jié)構(gòu)塊在垂直方向交叉且交叉度小于0.2,就將這兩個(gè)子結(jié)構(gòu)塊分割;如果兩個(gè)子結(jié)構(gòu)塊在垂直方向交叉且交叉度大于 0. 2,就將這兩個(gè)子結(jié)構(gòu)塊歸并。所述的交叉度是指兩個(gè)子結(jié)構(gòu)塊在垂直方向的交叉程度的度量,其度量模型表示為兩個(gè)子結(jié)構(gòu)塊的交叉區(qū)域的面積與兩個(gè)子結(jié)構(gòu)塊的邊界框區(qū)域面積和的比值。b)基于規(guī)則的歸并基于交叉度的迭代歸并后,可能會(huì)出現(xiàn)一些小的子結(jié)構(gòu)塊位于相鄰子結(jié)構(gòu)塊的左下方位、左上方位、右下方位、右上方位,引入一些基于結(jié)構(gòu)位置關(guān)系的規(guī)則信息,將這些小子結(jié)構(gòu)塊歸并到相鄰的大子結(jié)構(gòu)塊中,最終字符被過分割成一些子結(jié)構(gòu)塊序列,分割實(shí)例如圖3所示。3)子結(jié)構(gòu)塊序列由于書寫的隨意性,經(jīng)過步驟2)后得到的子結(jié)構(gòu)塊的排列沒有固定的次序,而我們的字符部件串的表示如圖4所示,為確保與字符的部件串表示詞典(在后文將對此詞典的創(chuàng)建進(jìn)行說明)一致而不影響識別的結(jié)果,將子結(jié)構(gòu)塊按其邊界框的上邊界重新排列, 得到子結(jié)構(gòu)塊序列。4)集成的部件串分割與識別將字符識別看成是部件串的識別,關(guān)鍵問題是如何從經(jīng)過步驟幻所得的子結(jié)構(gòu)塊序列中得到正確的部件串分割點(diǎn)及識別結(jié)果。本發(fā)明采用了基于條件隨機(jī)場 (J.Lafferty, A. McCallum, F. Pereira, Conditional random fields !probabilistic models for segmenting and labeling sequence data, Proceedings of the 18th International Conference on Machine Learning,Morgan Kaufmann,San Francisco,CA, 2001,pp. 282-289)的集成識別方法,將字符_部件的組成規(guī)則模型、部件分類模型、字符的拼寫規(guī)則模型及幾何模型集成到一個(gè)識別框架下,對不同的分割方式進(jìn)行評價(jià),獲得最優(yōu)的分割路徑及部件串的識別結(jié)果。對上述各模型分別說明如下a)字符-部件的組成規(guī)則模型該模型根據(jù)字符包括的字符類別以及部件串的排列規(guī)則建立。首先針對某一類字符,設(shè)計(jì)一個(gè)人工交互的界面,利用部件自學(xué)習(xí)方法確定所包括的部件類別及部件數(shù);然后對于其它類別的字符,均按照前面的方法來確定每一個(gè)類包含的部件類別及部件數(shù);最后采用層次聚類算法對所有類別的字符提取到的部件類進(jìn)行聚類,并監(jiān)控聚類過程來確定最終的部件類別總數(shù),同時(shí)對每個(gè)字符類包含的部件給予一個(gè)類別標(biāo)號。其中字符中包含的部件串的順序按照部件邊界框的上邊界排列,與步驟3)中子結(jié)構(gòu)塊的排序保持一致?;谒凶址愃牟考?shù)和部件類別,建立樹結(jié)構(gòu)的部件串表示詞典。該部件串表示詞典用一個(gè)樹結(jié)構(gòu)表示,從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的一條路徑對應(yīng)一個(gè)字符的部件串表示。由于部件被不同的字符類所共享,所以不同的部件串可能共享樹中的一個(gè)或多個(gè)節(jié)點(diǎn)。所述的部件自學(xué)習(xí)方法為首先選取某一類字符中的一個(gè)樣本,用步驟2~)的部件分割算法對該樣本進(jìn)行過分割,基于過分割的結(jié)果確定一個(gè)參考部件模板;然后該字符類中的其它樣本也采用步驟2)的部件分割算法得到過分割結(jié)果,并用動(dòng)態(tài)規(guī)劃算法將過分割結(jié)果與該字符類的參考部件模板進(jìn)行匹配,最終獲得該字符類的所有樣本包括的部件及部件數(shù)。b)部件分類模型部件分類模型采用傳統(tǒng)的統(tǒng)計(jì)分類方法,如修正的二次判別函數(shù)、學(xué)習(xí)向量量化等分類模型,該部件分類模型的訓(xùn)練所需的樣本,采用字符-部件的組成規(guī)則模型中的部件自學(xué)習(xí)方法得到的部件樣本。c)字符的拼寫規(guī)則模型藏文字符的結(jié)構(gòu)特點(diǎn)是,每一字符的特定位置(基字、上加字、下加字、上元音、下元音)的結(jié)構(gòu)塊只能對應(yīng)特定類別的子結(jié)構(gòu)。結(jié)合字符-部件的組成規(guī)則模型中的部件類別的確定,這里的拼寫規(guī)則模型不完全同于常規(guī)的拼寫規(guī)則模型(僅基于30個(gè)輔音字字母和4個(gè)元音字母),采用了一種基于部件的拼寫規(guī)則模型。利用該模型,在識別中可以拒絕不正確的候選部件,同時(shí)可以加快分割與識別的速度。該模型建立的步驟為首先,對每一類的字符,基于字符-部件的組成規(guī)則模型中確定的部件類別,統(tǒng)計(jì)該字符類包含的部件所出現(xiàn)的位置(基字、上加字等);然后,對所有的字符類進(jìn)行部件位置的統(tǒng)計(jì),最終確定字符的特定位置(基字、上加字、下加字、上元音、 下元音)出現(xiàn)的部件類別。d)幾何模型針對每一類字符,分別為字符內(nèi)的每一個(gè)部件建立一元幾何特征,并為字符內(nèi)的每兩個(gè)連續(xù)部件(按上邊界排列)之間建立二元幾何特征,分別用不同的概率密度函數(shù)來模型化一元和二元幾何特征。上述四個(gè)模型的建模與部件樣本的獲取和部件類別的確定有很大關(guān)系。部件樣本的獲取屬于字符-部件的組成規(guī)則模型中的一部分,由于部件樣本獲取的重要性,在此對其做具體的說明。獲取部件樣本的流程界面如圖5所示,圖中給出了某一類藏文字符的部件樣本的提取過程。如圖5右上側(cè),首先選擇該類別字符中的一個(gè)樣本進(jìn)行過分割,然后選擇正確的分割點(diǎn)獲得參考部件模板。該類別的其他樣本進(jìn)行過分割后利用動(dòng)態(tài)規(guī)劃算法與參考部件模板進(jìn)行匹配,獲得該類別的字符的部件樣本(圖5左側(cè)),同時(shí)得到部件的均值模板。對所有類別的藏文字符按照同樣的流程來提取樣本,最后對所有類別字符的部件的均值模板進(jìn)行聚類,確定部件的類別數(shù)?;谒凶址悇e包含的部件數(shù)和部件類別,建立樹結(jié)構(gòu)的部件串表示詞典。從562類字符中共提取120類部件,并對字符的部件數(shù)進(jìn)行統(tǒng)計(jì),如表1所示,字符由1-3個(gè)部件組成。表1部件數(shù)與字符類數(shù)的關(guān)系
權(quán)利要求
1.一種基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其步驟包括1)對輸入字符的點(diǎn)軌跡進(jìn)行預(yù)處理;2)對預(yù)處理后的字符進(jìn)行部件分割,得到一系列子結(jié)構(gòu)塊;3)將子結(jié)構(gòu)塊按其邊界框的上邊界重新排列,得到子結(jié)構(gòu)塊序列;4)采用基于條件隨機(jī)場的集成識別方法,從子結(jié)構(gòu)塊序列中識別出正確的部件串;所述基于條件隨機(jī)場的集成識別方法通過不同的權(quán)值將字符-部件的組成規(guī)則模型、部件分類模型、字符的拼寫規(guī)則模型及幾何模型集成在一起;5)根據(jù)識別出的部件串確定輸入的字符。
2.如權(quán)利要求1所述的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其特征在于,所述預(yù)處理包括去除孤立點(diǎn)、等距離重采樣及高斯平滑。
3.如權(quán)利要求2所述的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其特征在于,所述等距離重采樣采用的點(diǎn)的距離值為0. 7,所述高斯平滑采用的方差值為1. 5。
4.如權(quán)利要求1所述的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其特征在于,所述部件分割包括垂直方向的迭代歸并和基于規(guī)則的歸并。
5.如權(quán)利要求4所述的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其特征在于,所述迭代歸并將在垂直方向有間隔或交叉度小于0. 2的兩個(gè)子結(jié)構(gòu)塊分割,將在垂直方向交叉度大于0. 2的兩個(gè)子結(jié)構(gòu)塊歸并。
6.如權(quán)利要求1所述的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其特征在于,所述字符-部件的組成規(guī)則模型采用部件自學(xué)習(xí)方法確定某類字符的部件類別,采用層次聚類算法對所有類字符的部件類別進(jìn)行聚類。
7.如權(quán)利要求1所述的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其特征在于,所述部件分類模型采用統(tǒng)計(jì)分類方法,包括修正的二次判別函數(shù)和學(xué)習(xí)向量量化方法。
8.如權(quán)利要求1所述的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其特征在于,所述字符的拼寫規(guī)則模型是一種基于部件的拼寫規(guī)則模型。
9.如權(quán)利要求1所述的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其特征在于,對于每一類字符,所述幾何模型為每一個(gè)部件建立一元幾何特征,為每兩個(gè)連續(xù)部件之間建立二元幾何特征,并分別用不同的概率密度函數(shù)模型化一元和二元幾何特征。
10.如權(quán)利要求1所述的基于部件的聯(lián)機(jī)手寫藏文字符的識別方法,其特征在于,連接字符-部件的組成規(guī)則模型、部件分類模型、字符的拼寫規(guī)則模型及幾何模型的權(quán)值基于最小分類錯(cuò)誤率的準(zhǔn)則訓(xùn)練得到,最佳權(quán)值分別是0. 1,0. 7,0. 05,0. 15。
全文摘要
本發(fā)明屬于少數(shù)民族語言文字信息處理領(lǐng)域,具體涉及一種基于部件的聯(lián)機(jī)手寫藏文字符的識別方法。本發(fā)明突破傳統(tǒng)的基于統(tǒng)計(jì)的識別方法,以部件為基本識別對象,首先對輸入字符進(jìn)行部件分割,得到按一定規(guī)則排列的子結(jié)構(gòu)序列,然后利用基于條件隨機(jī)場的集成識別方法,從子結(jié)構(gòu)序列中獲取正確的部件串分割點(diǎn)及部件串的識別結(jié)果,基于此識別結(jié)果最終確定字符的類別。本發(fā)明用于基于筆式交互的移動(dòng)設(shè)備的手寫識別輸入,識別方法的存儲量小、識別精度較高,能夠滿足筆式移動(dòng)設(shè)備的高需求。
文檔編號G06K9/68GK102360436SQ201110326270
公開日2012年2月22日 申請日期2011年10月24日 優(yōu)先權(quán)日2011年10月24日
發(fā)明者劉匯丹, 吳健, 馬龍龍 申請人:中國科學(xué)院軟件研究所