專利名稱:字符識別設(shè)備和字符識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及字符識別設(shè)備和字符識別方法。
背景技術(shù):
用于將手寫字符轉(zhuǎn)換成為文本數(shù)據(jù)的字符識別技術(shù)已經(jīng)是可利用的。例如,日本未審查專利申請公開No. 6-76098描述了這樣一種技術(shù),其用于將填充兩個相鄰字符框的字符和附加到該字符的“dakuten”(或池音標(biāo)志)或者“handakuten”(或半池音標(biāo)志)轉(zhuǎn)換成為帶有濁音標(biāo)志或半濁音標(biāo)志的單一的復(fù)合字符。日本未審查專利申請公開No. 5-12245描述了這樣一種技術(shù),其用于確定所輸入的手寫字符是大寫字母還是小寫字母。日本未審查專利申請公開No. 7-262314描述了這樣一種技術(shù),其用于精確地識別“dakuten”(或池音標(biāo)志)或者“handakuten” (或半池音標(biāo)志)。日本未審查專利申請公開No. 9-231316描述了這樣一種技術(shù),其用于顯示具有相同形狀但具有不同大小的字符作為識別候選。
發(fā)明內(nèi)容
因此,本發(fā)明的一個目的在于提供精確的字符串識別,即使該字符串包括復(fù)合字符。根據(jù)本發(fā)明的第一方面,提供了一種字符識別設(shè)備,該設(shè)備包括獲取單元、指定單元、移動單元以及識別單元。獲取單元獲取表示字符串的數(shù)據(jù)。指定單元指定滿足預(yù)定條件的復(fù)合字符的元素,所述預(yù)定條件用于從字符串確定該復(fù)合字符。移動單元將所述復(fù)合字符的元素移動靠近相鄰字符。識別單元根據(jù)字符的形狀和相鄰字符之間的相關(guān)性來識別改變后字符串,其中在改變后字符串中,移動單元已經(jīng)對該復(fù)合字符的元素進(jìn)行了移動。根據(jù)本發(fā)明的第二方面,根據(jù)本發(fā)明第一方面的字符識別設(shè)備還包括存儲器,其存儲表明跟隨在第一字符之后的第二字符出現(xiàn)可能性的值。識別單元通過根據(jù)字符的形狀指定第二字符的多個候選,并且通過根據(jù)存儲在存儲器中的值從各個候選中選擇具有最高出現(xiàn)可能性的字符來識別改變后字符串。根據(jù)本發(fā)明的第三方面,在根據(jù)本發(fā)明第二方面的字符識別設(shè)備中還包括整合單元,其對分離的區(qū)域進(jìn)行整合。字符串被寫在多個分離的區(qū)域中。整合單元對寫入了被移動的復(fù)合字符的元素的區(qū)域和寫入了相鄰字符的區(qū)域進(jìn)行整合。當(dāng)要被識別的字符寫在沒有被整合單元整合的區(qū)域中時,識別單元根據(jù)該要被識別的字符的形狀來指定識別候選作為單一字符,而當(dāng)要被識別的字符寫在被整合單元整合的區(qū)域中時,識別單元根據(jù)該要被識別的字符的形狀來指定識別候選作為單個字符或作為多個字符。根據(jù)本發(fā)明的第四方面,在根據(jù)本發(fā)明的第一至第三任一方面的字符識別設(shè)備中,復(fù)合字符的元素是變音標(biāo)志(diacritical mark),并且移動單元將變音標(biāo)志移動至靠近相鄰字符。根據(jù)本發(fā)明的第五方面,在根據(jù)本發(fā)明的第一或第四方面的字符識別設(shè)備中,預(yù)定條件包括字符的位置和字符筆劃數(shù)。
根據(jù)本發(fā)明的第六方面,在根據(jù)本發(fā)明的第一方面的字符識別設(shè)備中,移動單元沿水平方向或者在垂直方向中將復(fù)合字符的元素移動至靠近相鄰字符。根據(jù)本發(fā)明的第七方面,在根據(jù)本發(fā)明的第一方面的字符識別設(shè)備中,獲取單元從圖像數(shù)據(jù)獲取表示字符串的數(shù)據(jù)。根據(jù)本發(fā)明的第八方面,在根據(jù)本發(fā)明的第七方面的字符識別設(shè)備中,圖像數(shù)據(jù)包括筆跡數(shù)據(jù)。根據(jù)本發(fā)明的第九方面,提供一種字符識別方法,該方法包括獲取表示字符串的數(shù)據(jù);指定滿足預(yù)定條件的復(fù)合字符的元素,所述預(yù)定條件用于從字符串確定該復(fù)合字符;將所述復(fù)合字符的元素移動至靠近相鄰的字符;以及根據(jù)字符的形狀和相鄰字符之間的相關(guān)性識別改變后的字符串,其中在改變后的字符串中,已經(jīng)對復(fù)合字符元素進(jìn)行了移動。根據(jù)發(fā)明的第一方面,即使字符串包括復(fù)合字符,與不對字符進(jìn)行移動而對字符串進(jìn)行識別的情況相比,可以更精確地對字符串進(jìn)行識別。根據(jù)發(fā)明的第二方面,與不使用存儲在存儲器中的值來識別字符的情況相比,可以獲得更聞的字符串識別精度。根據(jù)發(fā)明的第三方面,與對被指定作為識別候選的字符的筆劃數(shù)沒有限制的情況相比,可以獲得更高的字符串識別精度。根據(jù)發(fā)明的第四方面,可以識別具有諸如“ dakuten ”(或濁音標(biāo)志)或者“handakuten”(或半濁音標(biāo)志)之類的變音標(biāo)志以及任何其他元素的復(fù)合字符。根據(jù)發(fā)明的第五方面,與使用除了字符的位置和字符筆劃數(shù)以外的任何條件的情況相比,可以減少用于指定滿足用于確定諸如“dakuten”(或濁音標(biāo)志)或者“handakuten” (或半濁音標(biāo)志)之類的變音標(biāo)志的預(yù)定條件的字符的處理所需的時間。根據(jù)發(fā)明的第六方面,不管包括在字符串中的復(fù)合字符的元素是橫向排列還是縱向排列,都可以精確地對字符串進(jìn)行識別。根據(jù)發(fā)明的第七方面,可以從圖像數(shù)據(jù)精確地識別字符串。根據(jù)發(fā)明的第八方面,可以從筆跡數(shù)據(jù)精確地識別字符串。根據(jù)發(fā)明的第九方面,即使字符串包括復(fù)合字符,與不對字符進(jìn)行移動而對字符串進(jìn)行識別的情況相比,可以更精確地對字符串進(jìn)行識別。
將基于以下附圖對本發(fā)明的(多個)示例性實施例進(jìn)行詳細(xì)說明,其中圖I示出了字符識別設(shè)備的構(gòu)造;圖2示出了包含在字典中的示例轉(zhuǎn)換可能性;圖3示出了控制器的功能構(gòu)造;圖4示出了示例字符串;圖5是示出了由控制器執(zhí)行的處理的流程圖;
圖6示出了字符的移動;圖7示出了示例的整合后的書寫框;圖8示出了用于識別字符串的處理;圖9示出了用于識別字符串的處理;
圖IOA和圖IOB示出了根據(jù)一個變形例的構(gòu)成復(fù)合字符的各字符;以及圖IlA和圖IlB示出了根據(jù)另一變形例的構(gòu)成復(fù)合字符的各字符。
具體實施例方式圖I示出了根據(jù)示例性實施例的字符識別設(shè)備I的構(gòu)造。字符識別設(shè)備I包括控制器11、存儲單元12和輸入/輸出單元13??刂破?1包括中央處理單元(CPU)和存儲器。CPU執(zhí)行存儲在存儲器中的程序以執(zhí)行各種處理。存儲單元12包括例如非易失性存儲器,并且存儲用于字符識別的字典120。輸入/輸出單元13與外部設(shè)備交換數(shù)據(jù)。字典120可以包含多個人名。字典120還可以包含多種轉(zhuǎn)換可能性,每種轉(zhuǎn)換可能性各自表明在人的名字中從第一字符到第二字符的轉(zhuǎn)換將會發(fā)生的可能性的等級。第一字符和第二字符中的每一個均可以是一個字符或者可以包括多個字符。圖2示出了包含在 字典120中的示例轉(zhuǎn)換可能性。在圖2中,在字典120中,從日文字符“E”到日文字符“BI”的轉(zhuǎn)換可能性為O. 6,從日文字符“E”到日文字符“HIHA”的轉(zhuǎn)換可能性為O. 2,以及從日文字符“E”到日文字符“HIRI”的轉(zhuǎn)換可能性為O. I。即,在其中日文字符“E”后面跟隨日文字符“BI ”的字符串比在其中日文字符“E”后面跟隨日文字符“HIHA”或日文字符“HIRI ”的字符串的可能性更高。圖3示出了控制器11的功能構(gòu)造??刂破?1可以作為獲取單元21、指定單元22、移動單元23、整合單元24以及識別引擎25。獲取單元21獲取表示字符串的數(shù)據(jù)。字符串可以例如被寫在多個分離區(qū)域中。指定單元22從由獲取單元21獲取的數(shù)據(jù)表示的字符串指定滿足預(yù)定條件的字符,所述預(yù)定條件用于確定由多個元素組成的復(fù)合字符的元素。移動單元23對由指定單元22指定的字符進(jìn)行移動,使得當(dāng)所指定的字符是復(fù)合字符的元素時,所指定的字符與該復(fù)合字符的另一個元素彼此靠近。當(dāng)被移動的字符是該復(fù)合字符的元素時,整合單元24對寫入了被移動單元23移動的字符的區(qū)域和該復(fù)合字符的另一個元素的字符的區(qū)域進(jìn)行整合。識別引擎25根據(jù)字符的形狀和相鄰字符之間的相關(guān)性對字符串進(jìn)行識別,在該字符串中,移動單元23已經(jīng)對字符進(jìn)行了移動。例如,如果要被識別的字符寫在沒有被整合單元24整合的區(qū)域中,則識別引擎25根據(jù)該字符的形狀來指定一個字符作為識別候選。如果要被識別的字符寫在被整合單元24整合的區(qū)域中,則識別引擎25根據(jù)該字符的形狀來指定一個字符或多個字符作為一個識別候選或多個識別候選。隨后,識別引擎25根據(jù)要被識別的字符的形狀來指定多個字符作為多個識別候選。然后,識別引擎25根據(jù)存儲在存儲單元12中的轉(zhuǎn)換可能性,從多個指定的字符當(dāng)中,選擇在要被識別的字符之前的字符后面出現(xiàn)的可能性最高的字符。下面將描述字符識別設(shè)備I的操作。字符識別設(shè)備I經(jīng)由輸入/輸出單元13接收表示字符串的輸入數(shù)據(jù)。圖4示出了由輸入數(shù)據(jù)表示的示例字符串。包括在字符串中的各個字符分別寫在書寫框31至39中。書寫框31至39是分離的區(qū)域。預(yù)先確定書寫框31至39的大小和位置。該字符串包括復(fù)合日文字符“BI”和“JI”,其每個都由多個元素組成。復(fù)合日文字符“BI”由日文字符“HI”與作為日文變音標(biāo)志的濁音標(biāo)志(被稱作dakuten)一起組成,這導(dǎo)致輔音“h”被發(fā)成濁音。如圖4所示,日文字符“HI”和濁音標(biāo)志寫在不同的書寫框中。類似地,復(fù)合日文字符“JI”由日文字符“SHI”與濁音標(biāo)志(dakuten) —起組成,這導(dǎo)致輔音“sh”被發(fā)成濁音。如圖4所示,日文字符“SHI”和濁音標(biāo)志寫在不同的書寫框中。一旦經(jīng)由輸入/輸出單元13獲取輸入數(shù)據(jù),控制器11就執(zhí)行以下處理。圖5是示出了由控制器11執(zhí)行的處理的流程圖。在步驟SI中,控制器11將變量i設(shè)置為初始值I??刂破?1還設(shè)置 變量N。具體地,控制器11根據(jù)輸入數(shù)據(jù)計算寫在書寫框中的字符數(shù)量。然后,將值I與等于字符數(shù)量的值相加,并且將獲得的值設(shè)置為變量N。在圖4中,在書寫框31至39中寫入了九個字符。因此,將通過將值I與值9相加而獲得的值(即10)設(shè)置為變量N。只要變量i小于N,控制器就將變量i與值I相加,并且重復(fù)步驟SI至S6的處理。在步驟S2中,控制器11根據(jù)輸入數(shù)據(jù)確定第i個字符是否有可能是變音標(biāo)志。在此使用的變音標(biāo)志在上下文中為日文變音標(biāo)志,即,濁音標(biāo)志(“dakuten”)或半濁音標(biāo)志(“handakuten”)。池音標(biāo)志和半池音標(biāo)志是用來表示池音音節(jié)的標(biāo)志(例如,帶有池音標(biāo)志的/h/應(yīng)當(dāng)被發(fā)音為/b/,而帶有半濁音標(biāo)志的/h/應(yīng)當(dāng)被發(fā)音為/p/)。濁音標(biāo)志類似于一個引號標(biāo)志(")而半濁音標(biāo)志像一個“度數(shù)”符號(小圓圈)。術(shù)語“第i個”表示字符在字符串中的位置。因此,在字符串的第一個位置中字符是第一個字符,該字符后面是第二個字符??刂破?1通過使用用于確定變音標(biāo)志的預(yù)定條件指定可能為變音標(biāo)志的字符。在此,字符位于書寫框中上三分之二處并且由兩個或更少的筆劃組成的條件可以用于指定可能為變音標(biāo)志的字符。在圖4中,寫在書寫框33中的字符位于書寫框33的上三分之二處,并且由兩個或更少的筆劃組成。類似地,寫在書寫框39中的字符位于書寫框39的上三分之二處,并且由兩個或更少的筆劃組成。在此情況下,確定寫在書寫框33和39中的字符有可能為變音標(biāo)志。其他字符不滿足上述條件,因此確定其他字符不可能為變音標(biāo)志。如果第i個字符不可能為變音標(biāo)志(步驟S2中的否),則控制器11前進(jìn)至步驟S3。在步驟S3中,控制器11指定孤立字符識別為用于識別第i個字符的方法。因此,孤立字符識別被應(yīng)用于寫在圖4中示出的除書寫框33和39之外的各書寫框中的各個字符。孤立字符識別是基于這樣的假定的字符識別方法,即,在一個分離的書寫框中寫入一個字符。因此在孤立字符識別中,從一個書寫框識別一個字符。如果第i個字符有可能為變音標(biāo)志(步驟S2中的是),則控制器11前進(jìn)至步驟S4。在步驟S4中,控制器11對第i個字符進(jìn)行移動,使得第i個字符和第(i-Ι)個字符彼此靠近。在圖4中,對寫在書寫框33中的字符和寫在書寫框39中的字符進(jìn)行移動。圖6示出了字符的移動。在圖6中,以示例的方式,在書寫框33中寫入的字符是第i個字符,并且在書寫框32中寫入的字符是第(i-Ι)個字符。首先,控制器11確定限定了在書寫框33中寫入的字符的矩形邊界43和限定了在書寫框32中寫入的字符的矩形邊界42。然后,控制器11對在書寫框33中寫入的字符進(jìn)行移動直到矩形邊界43和矩形邊界42連在一起。字符的移動縮小了在書寫框33中寫入的字符與在書寫框32中寫入的字符之間的距離,從而使得讀取器(reader)容易地將書寫框32和33中的字符識別為單一的復(fù)合字符。在步驟S5中,控制器11對寫入第(i-Ι)個字符的書寫框和寫入第i個字符的書寫框進(jìn)行整合。在圖4中,對書寫框32和33進(jìn)行整合,并且還對書寫框38和39進(jìn)行整合。圖7示出了示例的整合后的書寫框。在圖7中,圖4中示出的書寫框32和33被整合以產(chǎn)生整合后的書寫框32a。此外,圖4中示出的書寫框38和39被整合以產(chǎn)生整合后的書寫框38a。整合書寫框意味著寫入多個未整合的書寫框中的字符被處理為單一聚合體以進(jìn)行字符識別。因此,可以將整合后的書寫框的大小和形狀確定為整合后的書寫框可以包括作為單一聚合體進(jìn)行處理的多個字符。然后,控制器11指定無書寫框(writing-box-free)字符串識別作為要被用于對寫在整合后的書寫框中的一個字符或多個字符進(jìn)行識別的方法。從而,無書寫框字符串識別被應(yīng)用于圖7中示出的寫在整合后的書寫框32a和38a中的多個字符。無書寫框字符串識別是基于這樣的假定的字符識別方法,即,未限定在一個書寫框中寫入的字符數(shù)量。因此在無書寫框字符串識別中,從一個書寫框識別一個或多個字符。無書寫框字符串識別沒有限制在一個書寫框中寫入的字符數(shù)量,并因此通常提供比孤立字符識別更低的字符識別精度。在步驟S6中,當(dāng)變量i等于變量N時,控制器11停止重復(fù)該處理。在步驟S7中,控制器11使用存儲在存儲單元12中的字典120執(zhí)行用于對其中字符已經(jīng)被移動了的字符串進(jìn)行識別的處理。圖8示出了用于識別字符串的處理。首先,控制器11根據(jù)寫在每個書寫框中的字符的形狀指定可能為識別候選的字符。在此情況下,控制器11使用孤立字符識別在書寫框31和34至37的每一個中指定一個字符。另一方面,控制器11使用無書寫框字符串識別在書寫框32a和38a的每一個中指定一個或多個字符。
然后,控制器11執(zhí)行上下文處理,以從被指定為識別候選的多個字符當(dāng)中選擇與相鄰字符具有較高相關(guān)性的字符。在圖8中,日文字符“BI”、日文字符“HIHA”和日文字符“HIRI”被指定為寫在書寫框32a中的一個字符或多個字符的識別候選。在此情況下,控制器11根據(jù)從寫在書寫框31中的字符到各個字符的轉(zhuǎn)換可能性,從被指定為識別候選的多個字符當(dāng)中選擇在寫在書寫框31中的字符之后最有可能出現(xiàn)的字符。在此以示例的方式,日文字符“E”被識別為寫在書寫框31中的字符。在圖2中,從日文字符“E”到日文字符“BI”的轉(zhuǎn)換可能性為O. 6,從日文字符“E”到日文字符“HIHA”的轉(zhuǎn)換可能性為O. 2,并且從日文字符“E”到日文字符“HIRI ”的轉(zhuǎn)換可能性為O. I。在此情況下,從日文字符“E”到日文字符“BI”的轉(zhuǎn)換可能性最高,并因此選擇了日文字符“BI”。在以上述方式識別了字符串之后,控制器11產(chǎn)生表示所識別字符串的文本數(shù)據(jù)。將產(chǎn)生的文本數(shù)據(jù)從輸入/輸出單元13輸出至外部設(shè)備。例如,文本數(shù)據(jù)可以被輸出至圖像形成設(shè)備。在此情況下,圖像形成設(shè)備在紙上形成由輸出自字符識別設(shè)備I的文本數(shù)據(jù)所表示的字符串??商鎿Q地,可以將文本數(shù)據(jù)輸出至顯示器設(shè)備。在此情況下,顯示器設(shè)備顯示由輸出自字符識別設(shè)備I的文本數(shù)據(jù)所表示的字符串。在圖4中,寫在書寫框35中的字符不是變音標(biāo)志,但是由兩個或更少的筆劃組成。因此,例如,如果該字符寫在書寫框35的上三分之二處,則在步驟S2中會錯誤地確定該字符有可能為變音標(biāo)志。在此情況下,在步驟S4中,對寫在書寫框35中的字符進(jìn)行移動,使得寫在書寫框35中的字符與寫在書寫框34中的字符可以彼此靠近。在步驟S5中,對書寫框34和35進(jìn)行整合以產(chǎn)生整合后的書寫框34a。然后,指定無書寫框字符串識別作為要被用于對寫在整合后的書寫框34a中的一個字符或多個字符進(jìn)行識別的方法。然后,在步驟S7中,根據(jù)寫在整合后的書寫框34a中的一個字符或多個字符的形狀,將如圖9所示的字符指定為識別候選。寫在整合后的書寫框34a中的日文字符“NI”與看起來像引號的濁音標(biāo)志的在形狀上相似。為此,在圖9中,將日文字符“DA”以及日文字符“TANI”指定為寫在整合后的書寫框34a中的一個字符或多個字符的識別候選。在此以示例的方式,日文字符“BI”被識別為寫在書寫框32a中的字符。在圖2中,從日文字符“BI”到日文字符“DA”的轉(zhuǎn)換可能性為O. I,而從日文字符“BI ”到日文字符“TANI ”的轉(zhuǎn)換可能性為O. 3。在此情況下,從日文字符“BI ”到日文字符“TANI ”的轉(zhuǎn)換可能性是最高的,并因此選擇了日文字符“ TANI ”。因此在此示例性實施例中,如果指定了有可能為變音標(biāo)志的字符,則使用上下文處理來確定是否將該字符與之前的字符相結(jié)合以創(chuàng)建一個復(fù)合字符。因此,即使錯誤地將實際上不是變音標(biāo)志的字符確定為有可能是變音標(biāo)志,也可以使用上下文處理來將該字符糾正為正確的字符。本發(fā)明并沒有限定為前述示例性實施例,并且可以進(jìn)行各種變形。下文中將描述幾個變形例。下面的變形例可以以相結(jié)合的方式來實現(xiàn)。
第一變形例字符串可以包括符號和數(shù)字。一些符號和數(shù)字包括多個元素,諸如“攝氏度”符號、分?jǐn)?shù)和括號中的數(shù)字。類似于具有濁音標(biāo)志或半濁音標(biāo)志的字符,可以將上述這些符號或數(shù)字作為復(fù)合字符進(jìn)行處理。字符串還可以包括除日文以外其他語言中的字符。除日文以外其他語言中的字符可以包括由多個元素組成的字符,諸如帶有重音標(biāo)志的拉丁字符和韓文字符。類似于具有濁音標(biāo)志或半濁音標(biāo)志的字符,可以將上述這些字符作為復(fù)合字符進(jìn)行處理。字符串還可以包括日本漢字(kanji)字符。一些日本漢字字符包括由左側(cè)的詞根(“hen”)和右側(cè)的詞根(“tsukuri”)組成的字符。類似于具有濁音標(biāo)志或半濁音標(biāo)志的字符,可以將這些日本漢字字符作為復(fù)合字符進(jìn)行處理。以此方式,復(fù)合字符不必是具有濁音標(biāo)志或半濁音標(biāo)志的字符。復(fù)合字符可以是由多個元素組成的字符(包括符號和數(shù)字)。在此使用的術(shù)語“元素”表示復(fù)合字符的一部分,其可以與復(fù)合字符的另一部分間隔開。因此,組成單一的復(fù)合字符的多個元素通常是分離的組成部分。另外,每個元素可以是也能夠單獨(dú)使用的字符。在此,將說明對包括如上所述的復(fù)合字符的字符串所執(zhí)行的處理的概念。圖IOA和圖IOB示出了組成復(fù)合字符40的字符41和42。字符41是復(fù)合字符40的左側(cè)的元素。字符42是復(fù)合字符40的右側(cè)的元素。字符41和42中的每一個都寫在一個書寫框中。在此情況下,控制器11指定滿足預(yù)定條件的字符,所述預(yù)定條件用于從由輸入數(shù)據(jù)表示的字符串確定復(fù)合字符40的一個元素。所述條件可以表現(xiàn)元素的特征,并且可以包括,例如,元素筆劃的位置和數(shù)量??商鎿Q地,控制器11可以執(zhí)行圖案匹配(pattern matching)以指定與復(fù)合字符40的一個元素相似的字符。然后,控制器11對指定的字符進(jìn)行移動,使得指定的字符可以與作為另一個元素的字符彼此靠近。例如,如果將復(fù)合字符40左側(cè)的元素特征用作條件,則指定字符41。在此情況下,如圖IOB所示,將字符41移動至右側(cè),使得指定的字符41與字符42可以彼此靠近。如果將復(fù)合字符40右側(cè)的元素特征用作條件,則指定字符42。在此情況下,如圖IOA所示,將字符42移動至左側(cè),使得指定的字符42與字符41可以彼此靠近。根據(jù)上述處理,例如,如果字符串包括“攝氏度”符號,則對該符號右側(cè)的字符“C”或者該符號左上角的小圓圈進(jìn)行移動,使得字符“C”和小圓圈可以彼此靠近。字符“C”或小圓圈的移動縮小了組成“攝氏度”符號的小圓圈與字符“C”之間的距離,從而使得讀取器易于將這些字符識別為單一的復(fù)合字符。此外,如果字符串包括由“hen”詞根和“tsukuri”詞根組成的日本漢字字符,則對該日本漢字字符的“hen”詞根或該日本漢字字符的“tsukuri”詞根進(jìn)行移動,使得“hen”詞根和“tsukuri”詞根可以彼此靠近?!癶en”詞根或“tsukuri”詞根的移動縮小了組成該日本漢字字符的“hen”詞根和“tsukuri”詞根之間的距離,從而使得讀取器易于將這些詞根的聚合體識別為單一的復(fù)合字符。圖IlA和圖IlB示出了組成復(fù)合字符50的字符51和52。字符51是復(fù)合字符50上部中的元素。字符52是復(fù)合字符50下部中的元素。字符51和52中的每一個都寫在一個書寫框中。在此情況下,控制器11指定滿足預(yù)定條件的字符,所述預(yù)定條件用于從由輸入數(shù)據(jù)表示的字符串確定復(fù)合字符50的一個元素。所述條件可以表現(xiàn)元素的特征,并且可以包括,例如,元素筆劃的位置和數(shù)量??商鎿Q地,控制器11可以執(zhí)行圖案匹配來指定與復(fù)合字符50的一個元素相似的字符。然后,控制器11對指定的字符進(jìn)行移動,使得指定的字符可以與作為另一個元素的字符彼此靠近。例如,如果將復(fù)合字符50上部中的元素特征用作條件,則指定字符51。在此情況下,如圖IlA所示,將字符51向下移動,使得指定的字符51與字符52可以彼此靠近。如果將復(fù)合字符50下部中的元素特征用作條件,則指定字符
52。在此情況下,如圖IlB所示,將字符52向上移動,使得指定的字符52與字符51可以彼此靠近。根據(jù)上述處理,例如,如果字符串包括具有重音標(biāo)志的拉丁字符,例如,對重音標(biāo)志進(jìn)行移動使得該拉丁字符上部中的重音標(biāo)志與該拉丁字符下部中的字符可以彼此靠近。重音標(biāo)志的移動縮小了作為該拉丁字符一部分的字符與重音標(biāo)志之間的距離,從而使得讀取器將字符與標(biāo)志識別為單一的復(fù)合字符。復(fù)合字符也可以包括三個或更多元素。如果以M表示元素的數(shù)量,則控制器11指定有可能包括至少M(fèi)-I個元素的字符,并且對指定的字符進(jìn)行移動,使得指定的字符與作為另一元素的字符可以彼此靠近。第二變形例在前述示例性實施例中,在步驟S4中,對第i個字符進(jìn)行移動直到第i個字符的矩形邊界和第(i-Ι)個字符的矩形邊界連在一起。然而,可以直到矩形邊界連在一起都不必移動字符。此外,如果第i個字符和第(i-Ι)個字符彼此不重疊,則可以一直移動字符直到第i個字符的矩形邊界和第(i-Ι)個字符的矩形邊界彼此重疊。此外,可以移動第i個字符和第(i-Ι)個字符兩者。因此,控制器11可以移動一個字符或多個字符,使得有可能作為復(fù)合字符的一個元素的字符與作為該復(fù)合字符的另一元素的字符連在一起。第三變形例在前述示例性實施例中,使用如下條件來指定有可能是變音標(biāo)志的字符,S卩,該字符在書寫框的上三分之二處并且由兩個或更少的筆劃組成。可替換地,例如,可以對第i個字符和變音標(biāo)志執(zhí)行圖案匹配,以指定有可能是變音標(biāo)志的字符。第四變形例包含在字典120中的信息并不限于人名,字典120可以包含其他信息,例如,包括在因特網(wǎng)上可用的文本的字符串。此外,可以通過預(yù)先學(xué)習(xí)大量文本來確定字典120中描述的轉(zhuǎn)換可能性。第五變形例在前述示例性實施例中,根據(jù)要被識別的字符與該要被識別的字符之前的字符之間的相關(guān)性來執(zhí)行上下文處理??商鎿Q地,可以根據(jù)要被識別的字符與該要被識別的字符之后的字符之間的相關(guān)性來執(zhí)行上下文處理。在此情況下,字典120可以包含表示字符串的一個字符會被另一個字符處于其之前的可能性的等級的值。此外,控制器11通過從后面開始對字符串進(jìn)行識別來執(zhí)行上下文處理。因此,控制器11可以根據(jù)相鄰字符之間的關(guān)系來識別字符串。第六變形例可以將字符識別設(shè)備I構(gòu)造為對寫在紙上的字符串進(jìn)行識別。可以事先在紙上打印多個書寫框。用戶利用用戶自己的筆跡在多個書寫框中進(jìn)行填寫,以在這多個書寫框中寫入字符串。掃描儀設(shè)備光學(xué)地讀取手寫在紙上的字符串,并且將表示該字符串的數(shù)據(jù)輸入至字符識別設(shè)備I。字符識別設(shè)備I根據(jù)從掃描儀設(shè)備輸入的數(shù)據(jù)執(zhí)行上述處理。可以與上述圖像形成設(shè)備一起整體地提供掃描儀設(shè)備。在此情況下,字符識別設(shè)備I可以設(shè)置在圖像形成設(shè)備中。
第七變形例可以將字符識別設(shè)備I構(gòu)造為對使用坐標(biāo)輸入裝置(諸如手寫板或觸摸面板)輸入的字符串進(jìn)行識別。坐標(biāo)輸入裝置顯示多個書寫框。用戶使用例如專門的觸筆利用用戶自己的筆跡在多個書寫框中進(jìn)行填寫,從而在多個書寫框中寫入字符串。坐標(biāo)輸入裝置檢測觸筆的移動,并且將表示所檢測到的移動的時序坐標(biāo)數(shù)據(jù)輸入至字符識別設(shè)備I。字符識別設(shè)備I根據(jù)從坐標(biāo)輸入裝置輸入的時序坐標(biāo)數(shù)據(jù)執(zhí)行上述處理。在此情況下,除了字符的形狀以外,字符識別設(shè)備I還可以使用字符的筆劃順序來執(zhí)行字符識別。第八變形例在前述示例性實施例中,將字符寫在由書寫框限定的分離的區(qū)域中。然而,不必使用書寫框。例如,可以將字符寫到其顏色不同于其他區(qū)域的顏色的分離區(qū)域中。第九變形例可以在與其中設(shè)置了識別引擎25的外殼分離的外殼中設(shè)置獲取單元21、指定單元22、移動單元23和整合單元24。在此情況下,將表示移動單元23已經(jīng)在其中對字符進(jìn)行了移動的字符串的數(shù)據(jù)發(fā)送至識別引擎25。識別引擎25根據(jù)在步驟S3或S5中指定的字符識別方法對由發(fā)送數(shù)據(jù)表示的字符串進(jìn)行識別。第十變形例控制器11可以包括特定用途集成電路(ASIC)。在此情況下,可以由ASIC來實現(xiàn)控制器11的功能,或者由CPU和ASIC兩者一起來實現(xiàn)控制器11的功能。第H^一變形例可以按照這樣的方式來提供實現(xiàn)了控制器11功能的程序,即,將程序存儲在諸如磁介質(zhì)(例如,磁帶、磁盤(諸如硬盤驅(qū)動器(HDD)或軟盤(FD)))、光介質(zhì)(例如,光盤(光盤(CD)或數(shù)字通用盤(DVD)))、磁光介質(zhì)或半導(dǎo)體存儲器之類的計算機(jī)可讀介質(zhì)中,并且可以將該程序安裝在字符識別設(shè)備I之中。還可以經(jīng)由通信線路下載所述程序,并將所述程序安裝在字符識別設(shè)備I之中。已經(jīng)出于示例和說明的目的提供了本發(fā)明的前述各示例性實施例的描述。并不旨在窮盡本發(fā)明或者將本發(fā)明限制為所公開的確切形式。明顯地,對于本領(lǐng)域技術(shù)人員來說多種變形和變化是顯而易見的。選擇并描述這些實施例是為了最好地解釋本發(fā)明的原理及其實際應(yīng)用,從而使得本領(lǐng)域技術(shù)人員能夠針對這些實施例理解本發(fā)明,并理解各種修改是適用于特定用途。本發(fā)明的范圍由權(quán)利要求及其等效物所限定。
權(quán)利要求
1.一種字符識別設(shè)備,包括 獲取單元,其獲取表示字符串的數(shù)據(jù); 指定單元,其指定滿足預(yù)定條件的復(fù)合字符的元素,所述預(yù)定條件用于從所述字符串確定所述復(fù)合字符; 移動單元,其將所述復(fù)合字符的元素移動至靠近相鄰字符;以及 識別單元,其根據(jù)字符的形狀和相鄰字符之間的相關(guān)性來識別改變后的字符串,在改變后的字符串中,移動單元已經(jīng)對所述復(fù)合字符的元素進(jìn)行了移動。
2.根據(jù)權(quán)利要求I所述的字符識別設(shè)備,還包括存儲器,其存儲表明跟隨在第一字符之后的第二字符出現(xiàn)可能性的值, 其中,所述識別單元通過根據(jù)字符的形狀來指定所述第二字符的多個候選,并且通過根據(jù)存儲在所述存儲器中的值從各個候選中選擇具有最高出現(xiàn)可能性的字符來識別改變后的字符串。
3.根據(jù)權(quán)利要求2所述的字符識別設(shè)備,還包括整合單元,其對分離的區(qū)域進(jìn)行整合, 其中,所述字符串被寫在多個分離的區(qū)域中, 所述整合單元對寫入了被移動的復(fù)合字符的元素的區(qū)域和寫入了所述相鄰字符的區(qū)域進(jìn)行整合,并且 當(dāng)要被識別的字符寫在沒有被所述整合單元整合的區(qū)域中時,所述識別單元根據(jù)該要被識別的字符的形狀來指定識別候選作為單一字符,而當(dāng)要被識別的字符寫在被所述整合單元整合的區(qū)域中時,所述識別單元根據(jù)該要被識別的字符的形狀來指定識別候選作為單一字符或作為多個字符。
4.根據(jù)權(quán)利要求I至3中任一項所述的字符識別設(shè)備,其中所述復(fù)合字符的元素是變首標(biāo)志,并且 所述移動單元將所述變音標(biāo)志移動至靠近所述相鄰字符。
5.根據(jù)權(quán)利要求I所述的字符識別設(shè)備,其中所述預(yù)定條件包括字符的位置和字符的筆劃數(shù)。
6.根據(jù)權(quán)利要求4所述的字符識別設(shè)備,其中所述預(yù)定條件包括字符的位置和字符筆劃數(shù)。
7.根據(jù)權(quán)利要求I所述的字符識別設(shè)備,其中所述移動單元沿水平方向或者垂直方向?qū)⑺鰪?fù)合字符的元素移動至靠近所述相鄰字符。
8.根據(jù)權(quán)利要求I所述的字符識別設(shè)備,其中所述獲取單元從圖像數(shù)據(jù)獲取表示所述字符串的數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的字符識別設(shè)備,其中所述圖像數(shù)據(jù)包括筆跡數(shù)據(jù)。
10.一種字符識別方法,包括 獲取表不字符串的數(shù)據(jù); 指定滿足預(yù)定條件的復(fù)合字符的元素,所述預(yù)定條件用于從所述字符串確定所述復(fù)合字符; 將所述復(fù)合字符的元素移動至靠近相鄰字符;以及 根據(jù)字符的形狀和所述相鄰字符之間的相關(guān)性識別改變后的字符串,在所述改變后的字符串中,已經(jīng)對所述復(fù)合字符的元素進(jìn)行了移動。
全文摘要
本發(fā)明公開了一種字符識別設(shè)備及字符識別方法,該字符識別設(shè)備包括獲取單元、指定單元、移動單元以及識別單元。獲取單元獲取表示字符串的數(shù)據(jù)。指定單元指定滿足預(yù)定條件的復(fù)合字符的元素,所述預(yù)定條件用于從字符串確定復(fù)合字符。移動單元將復(fù)合字符的元素移動至靠近相鄰字符。識別單元根據(jù)字符的形狀和相鄰字符之間的相關(guān)性識別改變后的字符串,在改變后的字符串中,移動單元已經(jīng)對復(fù)合字符的元素進(jìn)行了移動。
文檔編號G06K9/68GK102646201SQ20111027195
公開日2012年8月22日 申請日期2011年9月9日 優(yōu)先權(quán)日2011年2月21日
發(fā)明者織田英人 申請人:富士施樂株式會社