專利名稱:一種字符識(shí)別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及字符識(shí)別技術(shù),尤其涉及一種字符識(shí)別方法及系統(tǒng)。
背景技術(shù):
近年來,隨著手寫識(shí)別技術(shù)的普及推廣,漢字、字母及數(shù)字等多字符類型的混合輸 入已經(jīng)提上了市場應(yīng)用日程,從而多字符類型混合識(shí)別技術(shù)開始受到關(guān)注和研究。從字符構(gòu)成來看,不同字符類型的字符之間容易存在不易區(qū)分的混淆字符。例如, 字母ο和數(shù)字0,標(biāo)點(diǎn)符號(hào)ι和數(shù)字ι等字符,雖然書寫形式上保持一致,但在不同字符類別 中卻有著不同含義。所以,在多字符類別混合識(shí)別中,除了字符字形的匹配比較外,往往還 需要引入額外信息加以區(qū)分,以提高字符識(shí)別率特別是首選字符識(shí)別率。目前,在進(jìn)行多字符類型混合識(shí)別中常用的一種字符識(shí)別方法為基于硬分界輸 入的字符識(shí)別方法。所謂硬分界是指系統(tǒng)用明確的分割邊條將書寫區(qū)域劃分成各獨(dú)立的子區(qū)域,用 戶被要求在各指定子區(qū)域內(nèi)輸入對(duì)應(yīng)的字符。例如,在圖1所示的書寫區(qū)域中,將書寫區(qū)域 劃分為4個(gè)子書寫區(qū)域,其中,第一子書寫區(qū)域1用于輸入字母,第二子書寫區(qū)域2用于輸 入數(shù)字,第三子書寫區(qū)域3和第四子書寫區(qū)域4用于輸入標(biāo)點(diǎn)和符號(hào)等,而整個(gè)書寫區(qū)域的 中部則用于輸入漢字?;谝陨系挠卜纸巛斎肽J?,現(xiàn)有技術(shù)的字符識(shí)別方法中,首先從書寫區(qū)域獲取 用戶當(dāng)前輸入字符的字符筆跡,確定所述字符對(duì)應(yīng)的書寫占用區(qū)域;之后,根據(jù)預(yù)先設(shè)定 的子書寫區(qū)域與字符類別之間的對(duì)應(yīng)關(guān)系、以及所述書寫占用區(qū)域與子書寫區(qū)域的相對(duì)位 置,確定所述字符筆跡的字符類別;最后,從確定的字符類別對(duì)應(yīng)的字符庫中查找得到與字 符筆跡字形相似度最高的若干個(gè)字符模板作為字符識(shí)別結(jié)果。在以上的識(shí)別方法中,首先確定字符的字符類別,從而在字符類別對(duì)應(yīng)的字符庫 中查找得到識(shí)別結(jié)果,一旦對(duì)字符類別的判斷不夠準(zhǔn)確的話,所述字符將不能被正確識(shí)別。 也即該字符識(shí)別方法依賴于用戶嚴(yán)格在指定區(qū)域輸入對(duì)應(yīng)的字符,否則,字符誤判率將非吊尚。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明要解決的技術(shù)問題是,提供一種字符識(shí)別方法,在用戶不按照指 定區(qū)域輸入字符的情況下,仍然能夠保證字符識(shí)別的正確率。為此,本發(fā)明實(shí)施例采用如下技術(shù)方案本發(fā)明實(shí)施例提供一種字符識(shí)別方法,包括獲取用戶當(dāng)前輸入字符的字符筆跡;確定所述字符筆跡的書寫占用區(qū)域,根據(jù)所述書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng) 的子書寫區(qū)域之間的位置關(guān)系,確定所述字符筆跡相對(duì)于各個(gè)字符類別的隸屬度;并且,計(jì) 算各個(gè)字符類別對(duì)應(yīng)的各個(gè)字符模板與所述字符筆跡之間的字形相似度;
對(duì)于每個(gè)字符類別對(duì)應(yīng)的每個(gè)字符模板,根據(jù)該字符模板對(duì)應(yīng)的隸屬度以及該字 符模板與所述字符筆跡之間的字形相似度計(jì)算該字符模板與所述字符筆跡之間的匹配度; 將匹配度最高的第一預(yù)設(shè)數(shù)量個(gè)字符模板作為用戶當(dāng)前輸入字符的識(shí)別結(jié)果。其中,所述根據(jù)所述書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的位置 關(guān)系,確定所述字符筆跡相對(duì)于各個(gè)字符類別的隸屬度包括根據(jù)所述書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的位置關(guān)系,計(jì)算 字符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域的重合度,將所述重合度作為 字符筆跡隸屬于對(duì)應(yīng)字符類別的隸屬度。所述計(jì)算字符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域的重合度 包括確定字符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的重疊區(qū) 域;分別計(jì)算每個(gè)重疊區(qū)域在對(duì)應(yīng)的子書寫區(qū)域中所占的比重,將所述比重作為所述 書寫占用區(qū)域與該子書寫區(qū)域的重合度。所述根據(jù)該字符模板對(duì)應(yīng)的隸屬度以及該字符模板與所述字符筆跡之間的字形 相似度計(jì)算該字符模板與所述字符筆跡之間的匹配度包括根據(jù)公式G(JT,C;) = p{X I C;)計(jì)算字符模板與所述字符筆
跡之間的匹配度;其中,C;表示字符模板;X表示字符筆跡;G(X, )表示字符模板與所述字符筆跡之
間的匹配度; )表示字符模板與字符筆跡之間的字形相似度;ρ(μ」Χ)表示字符模
板所屬字符類別對(duì)應(yīng)的字符隸屬于該字符類別的后驗(yàn)概率;α為可調(diào)參數(shù)。還包括向用戶展現(xiàn)所述識(shí)別結(jié)果。本發(fā)明實(shí)施例還提供一種字符識(shí)別系統(tǒng),包括獲取單元,用于獲取用戶當(dāng)前輸入字符的字符筆跡;第一確定單元,用于確定所述字符筆跡的書寫占用區(qū)域,根據(jù)所述書寫占用區(qū)域 與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的相對(duì)位置關(guān)系,確定所述字符筆跡相對(duì)于各個(gè)字 符類別的隸屬度;第二確定單元,用于計(jì)算各個(gè)字符類別對(duì)應(yīng)的各個(gè)字符模板與所述字符筆跡之間 的字形相似度;第三確定單元,用于對(duì)于每個(gè)字符類別對(duì)應(yīng)的每個(gè)字符模板,根據(jù)該字符模板對(duì) 應(yīng)的隸屬度以及字形相似度計(jì)算該字符模板與所述字符筆跡之間的匹配度;將第一預(yù)設(shè)數(shù) 量個(gè)匹配度最高的字符模板作為所述用戶當(dāng)前輸入字符的識(shí)別結(jié)果。其中,第一確定單元具體用于根據(jù)所述書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子 書寫區(qū)域之間的位置關(guān)系,計(jì)算字符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū) 域的重合度,將所述重合度作為字符筆跡隸屬于對(duì)應(yīng)字符類別的隸屬度。第一確定單元包括確定子單元,用于確定字符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū) 域之間的重疊區(qū)域;
計(jì)算子單元,用于分別計(jì)算每個(gè)重疊區(qū)域在對(duì)應(yīng)的子書寫區(qū)域中所占的比重,將 所述比重作為所述書寫占用區(qū)域與該子書寫區(qū)域的重合度。第三確定單元具體用于根據(jù)公式G、x, Cij) ^ P(XlCij) +a* P(MjIX)
計(jì)算字符模板與所述字符筆跡之間的匹配度;其中, 表示字符模板;χ表示字符筆跡; g(x, .)表示字符模板與所述字符筆跡之間的匹配度;pun c;)表示字符模板與字符 筆跡之間的字形相似度;P(M」X)表示字符模板所屬字符類別對(duì)應(yīng)的字符隸屬于該字符類 別的后驗(yàn)概率;α為可調(diào)參數(shù)。還包括展現(xiàn)單元,用于向用戶展現(xiàn)所述識(shí)別結(jié)果。對(duì)于上述技術(shù)方案的技術(shù)效果分析如下獲取到字符筆跡后,計(jì)算字符筆跡與每個(gè)字符類別對(duì)應(yīng)的各個(gè)字符模板之間的字 形相似度,并且,還計(jì)算該字符筆跡隸屬于各個(gè)字符類別的隸屬度,根據(jù)所述字形相似度以 及隸屬度計(jì)算得到各個(gè)字符模板與所述字符筆跡之間的匹配度,從而得到匹配度最高的第 一預(yù)設(shè)數(shù)量個(gè)字符模板作為識(shí)別結(jié)果,從而即使用戶不按照書寫區(qū)域的設(shè)定進(jìn)行字符的書 寫,導(dǎo)致字符類別識(shí)別錯(cuò)誤,也能夠在字形相似度的作用下得到正確的字符識(shí)別結(jié)果,保證 字符識(shí)別的正確率。
圖1為現(xiàn)有技術(shù)書寫區(qū)域劃分方法示例圖;圖2為本發(fā)明實(shí)施例一種字符識(shí)別方法流程示意圖;圖3為本發(fā)明實(shí)施例另一種字符識(shí)別方法流程示意圖;圖4為本發(fā)明實(shí)施例字符識(shí)別方法中字符書寫的實(shí)例;圖5為本發(fā)明實(shí)施例一種字符識(shí)別系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施例方式以下,結(jié)合附圖詳細(xì)說明本發(fā)明實(shí)施例字符識(shí)別方法及系統(tǒng)的實(shí)現(xiàn)。在本發(fā)明實(shí)施例的字符識(shí)別方法下,同樣在書寫區(qū)域上為不同字符類別劃分一對(duì) 應(yīng)的子書寫區(qū)域,具體如何進(jìn)行字符類別對(duì)應(yīng)的子書寫區(qū)域的劃分可以使用現(xiàn)有技術(shù)中的 相關(guān)方法,例如圖1所示的劃分方法,或者,也可以在實(shí)際應(yīng)用中自主任意劃分,這里并不 限定。圖2為本發(fā)明實(shí)施例字符識(shí)別方法流程示意圖,如圖2所示,該方法包括步驟201 獲取用戶當(dāng)前輸入字符的字符筆跡;步驟202 確定所述字符筆跡的書寫占用區(qū)域,根據(jù)所述書寫占用區(qū)域與各個(gè)字 符類別對(duì)應(yīng)的子書寫區(qū)域之間的位置關(guān)系,確定所述字符筆跡相對(duì)于各個(gè)字符類別的隸屬 度;步驟203 計(jì)算各個(gè)字符類別對(duì)應(yīng)的各個(gè)字符模板與所述字符筆跡之間的字形相 似度;其中,步驟202和步驟203之間的執(zhí)行順序不限制,只要在步驟201 步驟204之 間執(zhí)行即可。
步驟204 對(duì)于每個(gè)字符類別對(duì)應(yīng)的每個(gè)字符模板,根據(jù)該字符模板對(duì)應(yīng)的隸屬 度、以及該字符模板與所述字符筆跡之間的字形相似度,計(jì)算該字符模板與所述字符筆跡 之間的匹配度;將匹配度最高的第一預(yù)設(shè)數(shù)量個(gè)字符模板作為用戶當(dāng)前輸入字符的識(shí)別結(jié)^ ο其中,字符模板對(duì)應(yīng)的隸屬度也即為字符模板所屬字符類別對(duì)應(yīng)的、所述字符筆 跡相對(duì)于該字符類別的隸屬度。例如,字符模板a屬于字符類別A,則字符模板a對(duì)應(yīng)的隸 屬度即為所述字符筆跡相對(duì)于字符類別A的隸屬度。其中,所述第一預(yù)設(shè)數(shù)量的數(shù)值在不同的使用環(huán)境中可以自主設(shè)定,這里并不限 制。圖2所示的本發(fā)明實(shí)施例字符識(shí)別方法中,獲取到字符筆跡后,將字符筆跡與每 個(gè)字符類別對(duì)應(yīng)的各個(gè)字符模板均進(jìn)行比對(duì),計(jì)算兩者之間的字形相似度;并且,還計(jì)算該 字符筆跡隸屬于各個(gè)字符類別的隸屬度,根據(jù)所述字形相似度以及隸屬度計(jì)算得到各個(gè)字 符模板與所述字符筆跡之間的匹配度,從而得到匹配度最高的第一預(yù)設(shè)數(shù)量個(gè)字符模板作 為識(shí)別結(jié)果。相對(duì)于現(xiàn)有技術(shù)的識(shí)別方法,本識(shí)別方法綜合考慮字符筆跡的占用區(qū)域與各 個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的位置關(guān)系、以及字符筆跡與各個(gè)字符模板之間的字形 相似度,從而即使用戶不按照書寫區(qū)域的設(shè)定進(jìn)行字符的書寫,導(dǎo)致字符類別識(shí)別錯(cuò)誤,也 能夠在字形相似度的作用下得到正確的字符識(shí)別結(jié)果,從而在保持高識(shí)別正確率的同時(shí), 較好的滿足用戶自由書寫的需求,改善了用戶體驗(yàn),提高了識(shí)別性能。進(jìn)而,本發(fā)明實(shí)施例字符識(shí)別方法突破了中文、數(shù)字、英文、標(biāo)點(diǎn)符號(hào)等多種字符 混和輸入的限制,從書寫界面來看,由于沒有硬分界的存在,本發(fā)明允許用戶在書寫區(qū)域的 任意位置書寫任意類型字符。并且,由于仍然存在字符類別所對(duì)應(yīng)的子書寫區(qū)域的存在,因 此,仍然能夠支持分區(qū)字符輸入,且仍能保證識(shí)別正確率以及首選識(shí)別率。以下,通過圖3對(duì)本發(fā)明實(shí)施例字符識(shí)別方法進(jìn)行更為詳細(xì)的說明,如圖3所示, 該方法包括步驟301 從書寫區(qū)域獲取用戶當(dāng)前輸入字符的字符筆跡。其中,在實(shí)際應(yīng)用中,從書寫區(qū)域獲取到的所述字符的字符筆跡一般被離散化采 樣為一系列的時(shí)序點(diǎn),因此,所述字符筆跡對(duì)應(yīng)一時(shí)序點(diǎn)集合,所述時(shí)序點(diǎn)集合構(gòu)成字符的 字符筆跡。其中,每個(gè)所述時(shí)序點(diǎn)一般用二維坐標(biāo)描述,記為(x_{t},y_{t})。這些二維坐標(biāo) 是基于根據(jù)書寫區(qū)域建立的某一坐標(biāo)系的,具體如何建立坐標(biāo)系這里并不限定。步驟302 判斷用戶輸入結(jié)束時(shí),根據(jù)所述字符筆跡確定所述字符對(duì)應(yīng)的書寫占 用區(qū)域。一般情況下,可以通過所述時(shí)序點(diǎn)集合得到位于字符筆跡邊框四個(gè)端點(diǎn)的時(shí)序 點(diǎn),從而根據(jù)得到的4個(gè)時(shí)序點(diǎn)的二維坐標(biāo)來確定書寫占用區(qū)域的位置和大小。步驟303 根據(jù)預(yù)先設(shè)定的子書寫區(qū)域與字符類別之間的對(duì)應(yīng)關(guān)系、以及所述書 寫占用區(qū)域與所述子書寫區(qū)域的位置關(guān)系,確定所述字符筆跡相對(duì)于各個(gè)字符類別的隸屬度。這里,所述字符筆跡相對(duì)于各個(gè)字符類別的隸屬度可以通過計(jì)算字符筆跡相對(duì)于 各個(gè)字符類別的后驗(yàn)概率實(shí)現(xiàn)。
步驟304 計(jì)算各個(gè)字符類別對(duì)應(yīng)的各個(gè)字符模板與所述字符筆跡之間的字形相 似度。其中,本步驟中計(jì)算字符筆跡與各個(gè)字符模板的字符相似度時(shí),可以使用手寫識(shí) 別領(lǐng)域常用的字符字形相似度的各種計(jì)算方法,如特征區(qū)分函數(shù)法。步驟304的執(zhí)行可以位于步驟301和步驟305之間的任意位置,與步驟302和步 驟303之間的執(zhí)行順序不限定。步驟305 對(duì)于每個(gè)字符類別對(duì)應(yīng)的每個(gè)字符模板,根據(jù)該字符模板對(duì)應(yīng)的隸屬 度以及該字符模板與字符筆跡之間的字形相似度,計(jì)算該字符模板與字符的匹配度。本步驟中,也可以從每個(gè)字符類別對(duì)應(yīng)的字符模板中提取出字符模板與字符筆跡 之間的字形相似度最高的一定數(shù)量個(gè)字符模板,進(jìn)行本步驟中匹配度的計(jì)算,從而可以提 高本發(fā)明的字符識(shí)別速度。其中,對(duì)于不同的字符類別可以設(shè)定統(tǒng)一的數(shù)量,也可以對(duì)不同 的字符類別設(shè)定不同的數(shù)量,這里并不限定。此時(shí),以下的步驟中也將只對(duì)提取出來的字符 模板進(jìn)行處理,而不再對(duì)所有的字符模板進(jìn)行處理。本步驟中,計(jì)算每個(gè)字符模板與字符的匹配度時(shí),可以使用以下的計(jì)算公式對(duì)每個(gè)字符模板 C;,其與字符的匹配度
G{X, Cij) = p(X I Cij)其中,ρΟΠ C;.)表示字符筆跡χ和字符模板
C;之間的字形相似度,而P (Mj IX)表示字符模板所屬字符類別對(duì)應(yīng)的字符隸屬于該字符類 別的后驗(yàn)概率。α為可調(diào)參數(shù),用于字形相似度和后驗(yàn)概率之間的平衡,可以在實(shí)際應(yīng)用 中自主設(shè)定。例如,可以在(0. 1,0. 9)范圍內(nèi)根據(jù)用戶的反饋信息,挑選一個(gè)最合理的確定值。步驟306 從所述字符模板中,查找得到第一預(yù)設(shè)數(shù)量個(gè)匹配度最高的字符模板, 將查找得到的字符模板作為所述用戶當(dāng)前輸入字符的識(shí)別結(jié)果。步驟307 向用戶展現(xiàn)所述識(shí)別結(jié)果。其中,在實(shí)際應(yīng)用中,具體如何向用戶進(jìn)行識(shí)別結(jié)果的展現(xiàn)這里并不限定,可以根 據(jù)實(shí)際應(yīng)用環(huán)境自主設(shè)定。以下,對(duì)于步驟303中字符筆跡隸屬于各個(gè)字符類別的隸屬度或者后驗(yàn)概率的計(jì) 算進(jìn)行詳細(xì)說明。后驗(yàn)概率計(jì)算一般都比較復(fù)雜,步驟303中可以使用現(xiàn)有的各種后驗(yàn)概率計(jì)算方 法,或者,本發(fā)明實(shí)施例還給出了一種字符筆跡隸屬于各個(gè)字符類別的隸屬度的計(jì)算方法, 在該方法中,通過比對(duì)字符筆跡X的書寫占用區(qū)域與預(yù)設(shè)的不同字符類別對(duì)應(yīng)的子書寫 區(qū)域的重合度,得到字符筆跡隸屬于各個(gè)字符類別的隸屬度。具體實(shí)現(xiàn)步驟可以為計(jì)算字 符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域的重合度,將所述重合度作為字 符隸屬于對(duì)應(yīng)字符類別的隸屬度。以下舉實(shí)例進(jìn)行說明如圖4所示,假設(shè)在書寫坐標(biāo)系下,整個(gè)書寫區(qū)域由端點(diǎn) (A,B,D,C)限定。定義子書寫區(qū)域(A,E,0,F(xiàn))為小寫字母分區(qū),(E,B,G,0)為大寫字母分 區(qū),(F,0,H,C)為數(shù)字分區(qū),(0,G,D,H)為標(biāo)點(diǎn)符號(hào)分區(qū),而(A,B, D,C)是漢字區(qū)?,F(xiàn)假設(shè)用戶輸入漢字“訊”,具體書寫如圖4所示。通過檢測字符筆跡的時(shí)序點(diǎn),可 以確定“訊”字的書寫占用區(qū)域?yàn)?Pl,P2,P4,P3)。其中,Pl點(diǎn)在圖示的書寫坐標(biāo)系下具有最小的χ、y值;P2點(diǎn)具有最大χ和最小y值。P4點(diǎn)具有最大x、y值,而Ρ3點(diǎn)具有最小 χ,最大y值。首先,確定字符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的重 疊區(qū)域,顯然1) “訊”字與漢字區(qū)域(A,B, D,C)的重疊區(qū)域?yàn)?Pl,P2,P4,P3);2) “訊”字與小寫字母區(qū)域(A,E,0,F(xiàn))的重疊區(qū)域?yàn)?Pl,P5,0,P8);3) “訊”字與大寫字母區(qū)域(E,B, G,0)的重疊區(qū)域?yàn)?P5,P2, P6, 0);4) “訊”字與數(shù)字區(qū)域(F,0,H,C)的重疊區(qū)域?yàn)?P8,0,P7,P3);5) “訊”字與標(biāo)點(diǎn)符號(hào)區(qū)域(0,G,D,H)的重疊區(qū)域?yàn)?0,P6,P4,P7)。分別計(jì)算每個(gè)重疊區(qū)域在對(duì)應(yīng)的子書寫區(qū)域中所占的比重,將所述比重作為所述 書寫占用區(qū)域與該子書寫區(qū)域的重合度,進(jìn)而將該重合度作為字符筆跡相對(duì)于對(duì)應(yīng)字符類 別的隸屬度,對(duì)上面的例子而言1) “訊”字屬于漢字的隸屬度為(Pl,P2,P4,P3)/(A,B, D,C);2) “訊”字屬于小寫字母區(qū)域的隸屬度為(Pl, P5,0,Ρ8)/(Α,Ε, 0,F(xiàn));3) “訊”字屬于大寫字母的隸屬度為(Ρ5,Ρ2,Ρ6,0) / (Ε,B, G,0);4) “訊”字屬于數(shù)字的隸屬度為(Ρ8,0,Ρ7,Ρ3) / (F,0,H,C);5) “訊”字屬于標(biāo)點(diǎn)符號(hào)的隸屬度為(0,Ρ6,Ρ4,P7)/(0, G,D,H)。與以上的字符識(shí)別方法相對(duì)應(yīng)的,本發(fā)明實(shí)施例還提供一種字符識(shí)別系統(tǒng),如圖5 所示,該字符識(shí)別系統(tǒng)包括獲取單元510、第一確定單元520、第二確定單元530以及第三 確定單元540 ;其中,獲取單元510,用于獲取用戶當(dāng)前輸入字符的字符筆跡;第一確定單元520,用于確定所述字符筆跡的書寫占用區(qū)域,根據(jù)所述書寫占用區(qū) 域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的相對(duì)位置關(guān)系,確定所述字符筆跡相對(duì)于各個(gè) 字符類別的隸屬度;第二確定單元530,用于計(jì)算各個(gè)字符類別對(duì)應(yīng)的各個(gè)字符模板與所述字符筆跡 之間的字形相似度;第三確定單元540,用于對(duì)于每個(gè)字符類別對(duì)應(yīng)的每個(gè)字符模板,根據(jù)該字符模板 對(duì)應(yīng)的隸屬度以及字形相似度計(jì)算該字符模板與所述字符筆跡之間的匹配度;將第一預(yù)設(shè) 數(shù)量個(gè)匹配度最高的字符模板作為所述用戶當(dāng)前輸入字符的識(shí)別結(jié)果。優(yōu)選地,第一確定單元具體用于根據(jù)所述書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的 子書寫區(qū)域之間的位置關(guān)系,計(jì)算字符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫 區(qū)域的重合度,將所述重合度作為字符筆跡隸屬于對(duì)應(yīng)字符類別的隸屬度;此時(shí),第一確定單元可以使用如下結(jié)構(gòu)實(shí)現(xiàn),第一確定單元520包括確定子單元610,用于確定字符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書 寫區(qū)域之間的重疊區(qū)域;計(jì)算子單元620,用于分別計(jì)算每個(gè)重疊區(qū)域在對(duì)應(yīng)的子書寫區(qū)域中所占的比重, 將所述比重作為所述書寫占用區(qū)域與該子書寫區(qū)域的重合度。優(yōu)選地,第三確定單元具體用于根據(jù)公式 G(x, C;) = p{XIC;) +C^p(M7IJT)計(jì)算字符模板與所述字符筆跡之間的匹配度;其中,C;表示字符模板;χ表示字符筆跡;G(X,C;)表示字符模板與所述字符筆跡之間的
匹配度;;XXIC;)表示字符模板與字符筆跡之間的字形相似度;p(Mjx)表示字符模板所 屬字符類別對(duì)應(yīng)的字符隸屬于該字符類別的后驗(yàn)概率;α為可調(diào)參數(shù)。如圖5所示,該系統(tǒng)還可以包括展現(xiàn)單元550,用于向用戶展現(xiàn)所述識(shí)別結(jié)果。圖5所示的本發(fā)明實(shí)施例字符識(shí)別系統(tǒng)中,獲取單元獲取到字符筆跡后,第一確 定單元計(jì)算該字符筆跡隸屬于各個(gè)字符類別的隸屬度,第二確定單元確定字符模板與字符 筆跡之間的字形相似度;第三確定單元根據(jù)所述字形相似度以及隸屬度計(jì)算得到各個(gè)字符 模板與所述字符筆跡之間的匹配度,從而得到匹配度最高的第一預(yù)設(shè)數(shù)量個(gè)字符模板作為 識(shí)別結(jié)果。相對(duì)于現(xiàn)有技術(shù),本識(shí)別系統(tǒng)綜合考慮字符筆跡的占用區(qū)域與各個(gè)字符類別對(duì) 應(yīng)的子書寫區(qū)域之間的位置關(guān)系、以及字符筆跡與各個(gè)字符模板之間的字形相似度,從而 即使用戶不按照書寫區(qū)域的設(shè)定進(jìn)行字符的書寫,導(dǎo)致字符類別識(shí)別錯(cuò)誤,也能夠在字形 相似度的作用下得到正確的字符識(shí)別結(jié)果,從而在保持高識(shí)別正確率的同時(shí),較好的滿足 用戶自由書寫的需求,改善了用戶體驗(yàn),提高了識(shí)別性能。本領(lǐng)域普通技術(shù)人員可以理解,實(shí)現(xiàn)上述實(shí)施例字符識(shí)別方法的過程可以通過程 序指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí)執(zhí) 行上述方法中的對(duì)應(yīng)步驟。所述的存儲(chǔ)介質(zhì)可以如R0M/RAM、磁碟、光盤等。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人 員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng) 視為本發(fā)明的保護(hù)范圍。
10
權(quán)利要求
一種字符識(shí)別方法,其特征在于,包括獲取用戶當(dāng)前輸入字符的字符筆跡;確定所述字符筆跡的書寫占用區(qū)域,根據(jù)所述書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的位置關(guān)系,確定所述字符筆跡相對(duì)于各個(gè)字符類別的隸屬度;并且,計(jì)算各個(gè)字符類別對(duì)應(yīng)的各個(gè)字符模板與所述字符筆跡之間的字形相似度;對(duì)于每個(gè)字符類別對(duì)應(yīng)的每個(gè)字符模板,根據(jù)該字符模板對(duì)應(yīng)的隸屬度以及該字符模板與所述字符筆跡之間的字形相似度計(jì)算該字符模板與所述字符筆跡之間的匹配度;將匹配度最高的第一預(yù)設(shè)數(shù)量個(gè)字符模板作為用戶當(dāng)前輸入字符的識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述書寫占用區(qū)域與各個(gè)字符 類別對(duì)應(yīng)的子書寫區(qū)域之間的位置關(guān)系,確定所述字符筆跡相對(duì)于各個(gè)字符類別的隸屬度 包括根據(jù)所述書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的位置關(guān)系,計(jì)算字符 筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域的重合度,將所述重合度作為字符 筆跡隸屬于對(duì)應(yīng)字符類別的隸屬度。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計(jì)算字符筆跡的書寫占用區(qū)域與各 個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域的重合度包括確定字符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的重疊區(qū)域; 分別計(jì)算每個(gè)重疊區(qū)域在對(duì)應(yīng)的子書寫區(qū)域中所占的比重,將所述比重作為所述書寫 占用區(qū)域與該子書寫區(qū)域的重合度。
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述根據(jù)該字符模板對(duì)應(yīng)的隸 屬度以及該字符模板與所述字符筆跡之間的字形相似度計(jì)算該字符模板與所述字符筆跡 之間的匹配度包括根據(jù)公式G(I,Cij) = p{XICij)計(jì)算字符模板與所述字符筆跡之間的匹配度;其中,C;表示字符模板;X表示字符筆跡;G(JT,Cp表示字符模板與所述字符筆跡之間的匹配度;ι )表示字符模板與字符筆跡之間的字形相似度;ρ(μ」χ)表示字符模板所屬 字符類別對(duì)應(yīng)的字符隸屬于該字符類別的后驗(yàn)概率;α為可調(diào)參數(shù)。
5.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,還包括向用戶展現(xiàn)所述識(shí)別結(jié)果。
6.一種字符識(shí)別系統(tǒng),其特征在于,包括獲取單元,用于獲取用戶當(dāng)前輸入字符的字符筆跡;第一確定單元,用于確定所述字符筆跡的書寫占用區(qū)域,根據(jù)所述書寫占用區(qū)域與各 個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的相對(duì)位置關(guān)系,確定所述字符筆跡相對(duì)于各個(gè)字符類 別的隸屬度;第二確定單元,用于計(jì)算各個(gè)字符類別對(duì)應(yīng)的各個(gè)字符模板與所述字符筆跡之間的字 形相似度;第三確定單元,用于對(duì)于每個(gè)字符類別對(duì)應(yīng)的每個(gè)字符模板,根據(jù)該字符模板對(duì)應(yīng)的 隸屬度以及字形相似度計(jì)算該字符模板與所述字符筆跡之間的匹配度;將第一預(yù)設(shè)數(shù)量個(gè)匹配度最高的字符模板作為所述用戶當(dāng)前輸入字符的識(shí)別結(jié)果。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,第一確定單元具體用于根據(jù)所述書寫占 用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的位置關(guān)系,計(jì)算字符筆跡的書寫占用區(qū)域 與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域的重合度,將所述重合度作為字符筆跡隸屬于對(duì)應(yīng)字符 類別的隸屬度。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,第一確定單元包括確定子單元,用于確定字符筆跡的書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之 間的重疊區(qū)域;計(jì)算子單元,用于分別計(jì)算每個(gè)重疊區(qū)域在對(duì)應(yīng)的子書寫區(qū)域中所占的比重,將所述 比重作為所述書寫占用區(qū)域與該子書寫區(qū)域的重合度。
9.根據(jù)權(quán)利要求6至8任一項(xiàng)所述的系統(tǒng),其特征在于,第三確定單元具體用于根 據(jù)公式GUr, Cij) = p{X I Cij)計(jì)算字符模板與所述字符筆跡之間的匹配度;其中,C;.表示字符模板;X表示字符筆跡;G(I,C;)表示字符模板與所述字符筆跡之間的匹配度;; (^ncp表示字符模板與字符筆跡之間的字形相似度;p(M」x)表示字符模 板所屬字符類別對(duì)應(yīng)的字符隸屬于該字符類別的后驗(yàn)概率;α為可調(diào)參數(shù)。
10.根據(jù)權(quán)利要求6至8任一項(xiàng)所述的系統(tǒng),其特征在于,還包括 展現(xiàn)單元,用于向用戶展現(xiàn)所述識(shí)別結(jié)果。
全文摘要
本發(fā)明公開了一種字符識(shí)別方法及系統(tǒng),包括獲取用戶當(dāng)前輸入字符的字符筆跡;確定所述字符筆跡的書寫占用區(qū)域,根據(jù)所述書寫占用區(qū)域與各個(gè)字符類別對(duì)應(yīng)的子書寫區(qū)域之間的位置關(guān)系,確定所述字符筆跡相對(duì)于各個(gè)字符類別的隸屬度;并且,計(jì)算各個(gè)字符類別對(duì)應(yīng)的各個(gè)字符模板與所述字符筆跡之間的字形相似度;對(duì)于每個(gè)字符類別對(duì)應(yīng)的每個(gè)字符模板,根據(jù)該字符模板對(duì)應(yīng)的隸屬度以及該字符模板與所述字符筆跡之間的字形相似度計(jì)算該字符模板與所述字符筆跡之間的匹配度;將匹配度最高的第一預(yù)設(shè)數(shù)量個(gè)字符模板作為用戶當(dāng)前輸入字符的識(shí)別結(jié)果。該方法及系統(tǒng)在用戶不按照指定區(qū)域輸入字符的情況下,仍然能夠保證字符識(shí)別的正確率。
文檔編號(hào)G06F3/048GK101964048SQ201010238388
公開日2011年2月2日 申請日期2010年7月19日 優(yōu)先權(quán)日2010年7月19日
發(fā)明者何婷婷, 劉慶峰, 胡國平, 胡郁, 葛勇 申請人:安徽科大訊飛信息科技股份有限公司