專利名稱:字符串識別裝置、字符串識別方法及其存儲介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及與字符識別裝置OCR和軟件OCR相關(guān)聯(lián)的字符識別裝置中的字符串識別裝置,而字符識別裝置OCR和軟件OCR是近來人們越來越需要的一種文件輸入工具。
背景技術(shù):
作為通過把手寫字符串分解成若干個部分字符串來識別一個詞的方法,已有一種建議用于識別一個區(qū)域中的詞,該區(qū)域由由被檢測出作為定界符的那些字(關(guān)鍵字)包圍,例如手寫地址中的都(首都)、道、府、縣(省)、市(市)、區(qū)(區(qū))、郡(縣)等(例如,日本專利出版物11-161740號、日本專利出版物11-328315號)。
然而,上面提到的方法是用于手寫地址的,尚未開發(fā)出用于一般手寫字符串而不僅僅是地址的字符串識別方法。在一個地址中,每個關(guān)鍵字可用作字符串的定界符,尚沒有使用多個字作為關(guān)鍵字,即作為關(guān)鍵詞。
在用于識別手寫地址的傳統(tǒng)的關(guān)鍵字提取系統(tǒng)中,關(guān)鍵字限于都(首都)、道(省)、府(省)、縣(省)、市(市)、區(qū)(區(qū))、郡(縣)、町(鎮(zhèn))、村(村)。然而,當(dāng)目標(biāo)字符串不是一個地址時,就必須在每次進行字符串識別過程時重新設(shè)置關(guān)鍵字。
再有,由于在傳統(tǒng)方法中要從一個字符串中提取的關(guān)鍵字個數(shù)是1,所以如果按原樣應(yīng)用傳統(tǒng)方法的話,便不能成功地提取含有兩個或更多字符的關(guān)鍵詞,這是由于例如關(guān)鍵詞中的毗鄰字造成的。
此外,在傳統(tǒng)的詞識別方法中,尚不能進行高精確性拒絕處理,一個詞可能作為完全錯誤的詞被誤識別,從而使用戶失望。
發(fā)明內(nèi)容
已開發(fā)出本發(fā)明以解決上述傳統(tǒng)技術(shù)中存在的問題,其目的在于提供一種字符串識別裝置,它能從字符串中自動提取關(guān)鍵詞,即使關(guān)鍵詞中包括多個字符也能以高精確性提取該關(guān)鍵詞,而且能防止一個要識別的詞被誤認(rèn)為是一個完全不同的詞。
根據(jù)本發(fā)明構(gòu)成的字符串識別裝置包括一個識別目標(biāo)字符串組存儲單元,用于存儲要識別的一類中的字符串列表;以及一個關(guān)鍵詞確定單元,用于對每個字檢索(search)識別目標(biāo)字符串組存儲單元以得到每個字的發(fā)生次數(shù),確定發(fā)生次數(shù)多的字作為關(guān)鍵字,并確定發(fā)生次數(shù)多的字符串作為關(guān)鍵詞。
由于能根據(jù)要識別的類別自動確定關(guān)鍵字和關(guān)鍵詞,所以操作員等人不必依次設(shè)置關(guān)鍵字和關(guān)鍵詞。
再有,根據(jù)本發(fā)明構(gòu)成的字符串識別裝置還包括一個關(guān)鍵字/詞存儲單元,用于存儲被確定的關(guān)鍵字或關(guān)鍵詞;以及一個關(guān)鍵字/詞提取單元,用于如果當(dāng)從要識別的字符串中提取出一個存儲在關(guān)鍵字/詞存儲單元中存儲的關(guān)鍵字或關(guān)鍵詞時,該關(guān)鍵詞中的一部分字符串被提取出來的話,提取一個字符串作為關(guān)鍵詞。
這樣,當(dāng)從要識別的字符串中提取關(guān)鍵詞時,即使由于字彼此接觸等原因不能識別出該關(guān)鍵詞中的各字,也能提取出該關(guān)鍵詞。
再有,根據(jù)本發(fā)明構(gòu)成的字符串識別裝置還包括一個詞識別單元用于識別詞,以及一個校驗單元用于檢驗詞識別單元的識別結(jié)果是否正確。
例如,上述校驗單元根據(jù)線密度或周邊分布來校驗識別結(jié)果。
這樣,通過校驗詞識別結(jié)果并且如果該詞被誤識別的話則拒絕該詞識別結(jié)果,從而能向用戶提供高精確性識別結(jié)果。
圖1顯示本發(fā)明示意圖;圖2顯示根據(jù)本發(fā)明一個實施例的字符串識別裝置總體構(gòu)成的示意圖;圖3顯示自動關(guān)鍵字代碼提取過程和關(guān)鍵字/關(guān)鍵詞提取過程的實施例;圖4A、4B和4C顯示要識別的字符組以及提取出的字和字符串的示例;圖5是單個字分段過程以及字識別和關(guān)鍵詞提取過程的流程圖;圖6顯示分段為單個字的一個字被識別為一個詞的情況;圖7顯示通過線密度周邊分布進行校驗的過程;圖8是通過線密度/周邊分布進行校驗的過程的解釋圖;圖9顯示一個信息處理裝置的硬件配置;以及圖10顯示存儲介質(zhì)一個示例。
具體實施例方式
根據(jù)本發(fā)明要處理的手寫字符串可以是按正常排列書寫的各種字符串,如地址、名字、大學(xué)的名稱、銀行的名字等。在本發(fā)明中,不是從一字符串的起點開始逐個地識別字,而是把一個字符串分成多個部分字符串,并綜合識別每個部分字符串中包含的詞。這樣,字彼此接觸和字被分離等手寫字符串的問題能被正確地處理。根據(jù)本發(fā)明構(gòu)成的字符識別裝置不僅能應(yīng)用于上述手寫字識別裝置,而且能應(yīng)用于通用的字符識別裝置,如印刷字符識別裝置、便攜信息終端中使用的字符識別裝置等。
圖1顯示本發(fā)明的示意圖。
為解決上述問題,如圖1中所示,根據(jù)本發(fā)明,關(guān)鍵字代碼提取單元1從要識別的字符串組(代碼)中自動提取關(guān)鍵字(關(guān)鍵詞),并送入該關(guān)鍵字。這樣,如圖1所示(下文中將參考圖4詳細描述),除了在地址識別中的關(guān)鍵字,如縣(省)、市(市)、區(qū)(區(qū))、町(鎮(zhèn))等之外,還送入了例如信用組合(信用社)、支店(分社)、農(nóng)業(yè)協(xié)同組合(農(nóng)業(yè)合作社)、支所(分社)等關(guān)鍵詞。此外,通過提取一組相關(guān)字符串,還提取出以高概率一起出現(xiàn)的一組關(guān)鍵詞,如信用組合(信用社)和支店(分社)、農(nóng)業(yè)協(xié)同組合(農(nóng)業(yè)合作社)和支所(分社)等。
然后,關(guān)鍵詞提取單元2把單個字從字符串圖像中分割出來用于字符識別,并結(jié)合語言過程高精確性地提取與關(guān)鍵字代碼提取單元1提取和送入的關(guān)鍵詞所對應(yīng)的字符串。然后,從字符串圖像中提取由關(guān)鍵詞分段的一個詞區(qū)域,并由詞識別單元3識別一個詞。再有,校驗單元4校驗詞識別結(jié)果并輸出字符串識別最終結(jié)果。
圖2顯示根據(jù)本發(fā)明一個實施例的字符串識別裝置的整個配置的示意圖。
在圖2中,在自動關(guān)鍵字代碼提取過程11中,從要識別的字符串組(字符代碼組)中自動提取關(guān)鍵字代碼和關(guān)鍵字符串(詞)代碼(下文中字符代碼和字符串代碼二者都可稱作字符代碼)。假定已指定(例如由用戶設(shè)定)了一個要識別的字符串組,例如地址、名字、大學(xué)名稱、金融機構(gòu)名稱等。
在自動關(guān)鍵字代碼提取過程11中,對一個目標(biāo)字符串組檢驗所出現(xiàn)的字符代碼,并把發(fā)生次數(shù)多的字以及一個字符串單元中發(fā)生次數(shù)多的字和字符串作為關(guān)鍵字代碼送入。
再有,檢驗各字之間的相關(guān)性。相關(guān)性是指例如當(dāng)字符代碼A出現(xiàn)時字符代碼B發(fā)生的概率,當(dāng)字符代碼C出現(xiàn)時字符代碼D和E同時發(fā)生的概率等。這樣,帶有相關(guān)性而出現(xiàn)的一組字符代碼也作為關(guān)鍵字代碼送入。
在上述過程中,{縣(省)、市(市)、區(qū)(區(qū))、町(鎮(zhèn))}或{縣(省)、郡(縣)、町(鎮(zhèn))}或{都(首都)、區(qū)(區(qū))、町(鎮(zhèn))}能被自動地作為關(guān)鍵字從地址中提取出來。從金融機構(gòu)名中能自動提取出{銀行(銀行)、支店(分社)}{信用組合(信用社)、營業(yè)部(營業(yè)部)}{農(nóng)業(yè)協(xié)同組合(家業(yè)合作社)、支所(分社)}作為關(guān)鍵字。例如,在一個地址中,可以使用不為地址描述定界符的字作為關(guān)鍵字。按上述提取出的字符代碼可作為字符代碼送入。
在關(guān)鍵字/關(guān)鍵詞提取過程12中,按照上述把一個單個字從一個手寫字符串(圖像數(shù)據(jù))中分離出來,對每個分離出來的字進行識別,對應(yīng)于由自動關(guān)鍵字代碼提取過程11提取出來的關(guān)鍵字代碼的關(guān)鍵字和關(guān)鍵詞被提取出來并送入。由于關(guān)鍵字的類型個數(shù)少,所以關(guān)鍵字的處理時間比一般字的處理時間短(例如約4,000種字的類型被比較),而且關(guān)鍵字表現(xiàn)出比一般字要高的識別精確性。
在詞區(qū)域提取過程13中,從手寫字符串(圖像)中提取由關(guān)鍵字定界的詞區(qū)域和關(guān)鍵詞。例如,如果手寫字符串是‘東京信用組合千馱木支店’(東京信用社千馱木分社),則作為詞區(qū)域提取出‘東京’(東京)和‘千馱木’(千馱木),它們是由‘信用組合’(信用社)和‘支店’(分社)定界。
在詞識別過程14中,提取出的詞區(qū)域的字符圖像被歸一化并從中提取出特征,該特征與詞物征字典等的特征數(shù)據(jù)進行比較,用以識別詞。詞識別方法可以是例如前述日本專利出版物No.11-161740以及No.11-328315中公開的方法,以及先前由本發(fā)明的申請者提出的日本專利申請2000-304758所公開的方法。
如前文所述,對于由關(guān)鍵詞封閉的詞區(qū)域進行詞識別,而詞識別結(jié)果按下述進行校驗。
(i)在字符分段/字符識別過程15中,單個字被分段,并進行詞識別過程。如果在識別出的詞中的字符處于n個最高階(order)字符識別結(jié)果之內(nèi)的比率高于一個閾值的話,則輸出由詞識別單元14得到的詞識別結(jié)果。否則,該結(jié)果被拒絕。例如,如果以‘神奈川’(神奈川)作為一個詞的例子,每個字‘神’、‘奈’和‘川’被識別,對每個字得到n個較高階可能識別結(jié)果。如果在一個詞中作為詞識別結(jié)果的每個字不是以預(yù)先確定的比率(例如3個字中的兩個或更多個字)或高于預(yù)先確定的比率包含在可能的識別結(jié)果中,則該結(jié)果被拒絕。這樣,在詞識別中能減少明顯的誤識別。
上述值n可在事先由例如操作員設(shè)定。
(ii)再有,如圖2中的虛線指出的那樣,可通過在字?jǐn)?shù)估計過程17中比較字?jǐn)?shù)來校驗詞識別結(jié)果。
就是說,當(dāng)綜合識別出詞區(qū)域時,將識別出的詞中的字?jǐn)?shù)與從詞圖像中估計出的字?jǐn)?shù)作比較。如果字?jǐn)?shù)之差等于或大于一個閾值,則詞識別結(jié)果被拒絕。例如,作為估計字?jǐn)?shù)的一種方法,根據(jù)詞圖像的邊界矩形的高度和寬度之比來計算字?jǐn)?shù)(在圖2所示例子中高度h與寬度w之經(jīng)是w/h)。否則,例如得到一個詞圖像周邊分布(黑象素投影直方圖),并可以使用由周邊分布的定界符所在位置得到的數(shù)。
(iii)在通過線密度/周邊分布進行校驗的過程16中,如果通過組合字特征產(chǎn)生詞特征,則如下文描述的那樣,反過來計算字特征的組合位置,將詞圖像按每個位置分割,并將每個分割區(qū)所計算出的線密度和周邊分布與識別出的詞的每個字的預(yù)先確定的線密度和周邊分布進行比較。如果它們不同,則詞識別結(jié)果被拒絕,由此驗證了詞識別結(jié)果。眾所周知,線密度是指沿垂直或水平方向(y或x方向)掃描一個目標(biāo)字符時測量出的線數(shù)。
下面將描述自動關(guān)鍵字代碼提取(確定)過程、關(guān)鍵字/關(guān)鍵詞提取過程以及由線密度/周邊分布進行校驗的校驗過程。
(1)自動關(guān)鍵字代碼提取過程和關(guān)鍵字/關(guān)鍵詞提取過程圖3顯示自動關(guān)鍵字代碼提取過程和關(guān)鍵字/關(guān)鍵詞提取過程的一個實施例。
首先,在自動關(guān)鍵字代碼提取過程11中的過程11a中,從要識別的字符串的代碼中提取出發(fā)生次數(shù)多的字以及在一個字符串單元中發(fā)生次數(shù)多的字和字符串,以此作為關(guān)鍵字代碼。再有,在過程11b中,提取出帶有相關(guān)性出現(xiàn)的一組字符代碼,并送入一組字作為關(guān)鍵字代碼。
上述的在字符串單元中出現(xiàn)次數(shù)多的字可以是縣(省)(如圖4A中所示),因為它在‘愛各縣海部郡美和町3-3-3’(愛知省海部縣美和鎮(zhèn)3-3-3)、‘長野縣信用組合松本支店’(長野信用社松本分社)等多個字符串中出現(xiàn)??h(省)在要識別的整個字符串組20中頻繁出現(xiàn)。這樣,它可以是在這兩組中頻繁出現(xiàn)的字。
圖4A至4C顯示要識別的字符串組示例以及從中提取的關(guān)鍵字代碼。
圖4A顯示要識別的字符串組列表20的一個示例。圖4A顯示一個字符串,但實際使用的是該字符串組中每個字的代碼。
要識別的字符串組列表20含有字符串作為要識別的那類(例如前述的地址、名字、大學(xué)名稱、金融機構(gòu)名稱等)中的識別結(jié)果。
例如,在圖4A所示例子中,一個客戶/銀行業(yè)者等在實際使用中把金融機構(gòu)名(銀行名及其分行名)和它的地址寫在預(yù)先確定的表格上,然后字符識別裝置讀取/識別它們。在這一使用中,列出了要識別的實際金融機構(gòu)名(銀行名及其分行名)。就是說,客戶等在一表格上送入圖4A所示列表中的一個,例如‘東京信用組合千馱木支店東京都文京區(qū)千馱木1-1-1’(東京信用社千馱木分社,首都東京文京區(qū)千馱木1-1-1)。所以,基于本實施例進行的下述過程,能預(yù)先產(chǎn)生這些列表。
首先,使用上述要識別的字符串組列表,檢驗該列表中每個字(字符代碼)出現(xiàn)的次數(shù)。然后,提取出發(fā)生次數(shù)多的字符代碼(例如,達到m個最高階代碼;m值是預(yù)先由操作員等設(shè)定的)作為關(guān)鍵字代碼。然而,一個關(guān)鍵字不僅是作為一個字提取出來,而且還作為兩個字提取出來(下文中可能被稱作關(guān)鍵字符串)。當(dāng)連續(xù)出現(xiàn)發(fā)生次數(shù)多的字時,它們被作為一個關(guān)鍵字符串提取。例如,在圖4A所示列表中,提取出發(fā)生次數(shù)多的字、如‘縣’、‘市’、‘支’、‘店’、‘所’等?!h’和‘市’在其前面和后面沒有連續(xù)出現(xiàn)其他發(fā)生次數(shù)多的字。所以它們每個字單獨提取出來作為關(guān)鍵字。另一方面,由于‘支’、‘店’和‘所’作為‘支店’、‘支所’等連續(xù)出現(xiàn),所以它作為關(guān)鍵字符串提取出來。類似地,例如‘信用組合’、‘農(nóng)業(yè)組合’等都是作為關(guān)鍵字符串提取的。
例如,假定從圖4A所示要識別的字符串組中提取出發(fā)生次數(shù)多的字符代碼,則例如如圖4B中所示,除了在識別由縣、都等表示的地址中出現(xiàn)的那些字之外,還提取出金融機構(gòu)名、農(nóng)業(yè)合作社名等關(guān)鍵字代碼,如‘信用組合’、‘商工信用組合’等。再有,如果由縣等字符指出的字符串,例如‘…縣信用組合’、‘…縣農(nóng)業(yè)協(xié)同組合’等,其發(fā)生次數(shù)大的話,那么它也作為關(guān)鍵字代碼提取出來。當(dāng)檢驗字符出現(xiàn)的相關(guān)性時,表明有高相關(guān)性的一組字符代碼也提取出來,如圖4C中所示。
檢驗相關(guān)性的方法(實際處理方法)可以是,例如,對要識別的字符串中所包含的每個字符代碼,計算其他字符代碼的個數(shù)并累積其計數(shù)值,提取出具有最大累積值或是累積值大于一預(yù)定閾值(預(yù)先由操作員等設(shè)定)的字符。例如,以關(guān)鍵字‘都’為例,第一個‘都’出現(xiàn)在圖4A中所示列表中要識別的字符串‘東京都文京區(qū)千馱木1-1-1’中。所以,對‘都’所關(guān)聯(lián)的其他字符代碼‘東’、‘京’、‘區(qū)’、‘千’、‘馱’和‘木’進行計數(shù)(數(shù)字/符號如1-1-1等未計數(shù))。如果對圖4A中所示全部要識別的字符串進行這一過程,則對于‘都’而言,‘區(qū)’的計數(shù)值(累積值)最大。所以‘都’-‘區(qū)’被提取出來作為一組具有高相關(guān)性的字符代碼。當(dāng)不僅對每個字符代碼而且還對每個字符串進行這一過程時,例如‘信用組合’-‘支店’、‘農(nóng)業(yè)組合’-‘支所’等便被提取出來作為具有高相關(guān)性的一組字符串。
上述過程可對所有字符和字符串進行,但對已經(jīng)提取出來的關(guān)鍵字或關(guān)鍵字符串進行這一過程則效率更高。
在字符識別中很少被認(rèn)錯的字被預(yù)先送入并提取出其關(guān)鍵字代碼,于是在從字圖像中提取關(guān)鍵詞的過程中能更正確地提取出關(guān)鍵詞。
在關(guān)鍵字/關(guān)鍵詞提取過程12中的單個字符分段過程12a中,單個地從手寫字符串(圖像數(shù)據(jù))中分離出字符,按上述方法識別每個字符,并且提取出由自動關(guān)鍵字代碼提取過程11提取的關(guān)鍵字代碼所對應(yīng)的關(guān)鍵字和關(guān)鍵詞。
下面描述提取多個關(guān)鍵字,即關(guān)鍵詞的過程。例如,在使用金融機構(gòu)名時,提取出“○ ○信用組合△△支店”、‘○ ○農(nóng)業(yè)協(xié)同’等作為關(guān)鍵詞。在下述關(guān)鍵字/關(guān)鍵詞提取過程中,諸如縣、市、區(qū)、町等關(guān)鍵字能作為關(guān)鍵詞被提取出來。
下面描述提取一般關(guān)鍵詞的過程。在字符識別和關(guān)鍵字/詞提取過程12b中,識別分離出的單個字,并對每個字檢驗n個可能的較高階識別結(jié)果的距離值。如果在預(yù)先送入的關(guān)鍵詞中的一個字符屬于可能的識別結(jié)果,而這些結(jié)果的距離值等于或小于閾值TH1,那么字符是一個目標(biāo)字符的可能的關(guān)鍵字。
當(dāng)在一個關(guān)鍵詞中有多個相關(guān)聯(lián)的字時,則展現(xiàn)出多個可能的關(guān)鍵字。該過程是對所有字符進行的。當(dāng)在一個可能的關(guān)鍵字序列中含有同一字符串作為關(guān)鍵詞時,該字符串被作為關(guān)鍵詞提取出來。
圖5是上述單個字符分段和關(guān)鍵字/關(guān)鍵詞提取過程的流程圖。
在步驟S1中分離出單個字,并在步驟S2中識別這個分離出的字。該字是通過下述步驟提取出來的提取被分離的字的特征,通過把特征數(shù)據(jù)與存儲的字典進行比較來提取可能的字,并得到分離出的字與可能的字之間的距離值。
在步驟S3中,提取出來按上述方法得到的字符識別結(jié)果的n個可能的較高階字。在步驟S4中,檢驗一個可能字的距離值是否小于閾值TH1。如果可能字的距離值小于閾值TH1,則在步驟5中檢驗該可能字是否包含在自動關(guān)鍵字代碼提取過程11中送入的關(guān)鍵詞中。如果是,則在步驟S6送入該字作為關(guān)鍵字。
重復(fù)上述過程直至對所有字都進行了該過程。當(dāng)對所有字都進行了該過程時,控制從步驟S7進到步驟S8,于是提取出一個可能關(guān)鍵字序列(字符組合)作為關(guān)鍵詞,該序列中含有與自動關(guān)鍵字代碼提取過程11中送入的關(guān)鍵詞相同的字符串。
例如,假定在一個要識別的字符串圖像中含有字符串‘○△’(未知字符),在步驟S4至S6中對字符‘○’送入‘銀’和‘錢’作為可能的關(guān)鍵字,對字符‘△’送入‘行’和‘桁’作為可能的關(guān)鍵字。假定在可能的關(guān)鍵字組合中(‘錢桁’、‘銀桁’、‘錢行’、‘銀行’)(‘錢’和‘桁’被認(rèn)為是用于所送入的完全不同的關(guān)鍵詞中),自動關(guān)鍵字代碼提取過程11中只送入了‘銀行’(銀行)作為關(guān)鍵詞,則字符串‘○△’被識別為關(guān)鍵詞‘銀行’。
另一方面,當(dāng)進行上述字符識別時,在詞識別/關(guān)鍵詞提取過程12C中對分離為單個字的字符進行詞識別過程。
例如,當(dāng)寫得小的字彼此接觸時,例如圖6中所示‘支店’(分社),當(dāng)字符分段時這些接觸的字可能被誤認(rèn)為是一個字。
在這種情況中,在詞識別/關(guān)鍵詞提取過程12C中,對按照詞特征以及字特征分離為一個字的區(qū)域進行比較過程。當(dāng)在詞特征比較中滿足距離條件,則提取出該詞作為關(guān)鍵詞。
當(dāng)在上述關(guān)鍵字/關(guān)鍵詞提取過程中提取出預(yù)先送入的關(guān)鍵字中的一部分字時,進行下述過程(i)使用多級閾值進行2步驟提取當(dāng)從一字符串中只提取出一個關(guān)鍵詞的一部分時,對前/后關(guān)鍵字提取過程12d中的前/后字識別結(jié)果,放寬其關(guān)鍵詞提取的距離值條件。并再次進行提取過程。
就是說,如果在從一字符中得到字符識別結(jié)果之后,在具有等于或大于TH1的距離值的可能識別結(jié)果中含有一個關(guān)鍵字,雖然在此時提取出一個可能的關(guān)鍵字,但對于提取出的關(guān)鍵字的前/后字,從距離值等于或大于TH2(TH2>TH1)的可能識別結(jié)果中提取出一個關(guān)鍵字。這樣,即使一個關(guān)鍵詞的一部分字表現(xiàn)出相當(dāng)大的變形,這些字也能作為該關(guān)鍵詞的一部分被識別出來。
根據(jù)例如過去的試驗結(jié)果,可把操作員等認(rèn)為適當(dāng)?shù)闹翟O(shè)置為TH1和TH2之值。
(ii)由兩端識別的關(guān)鍵字提取過程在含有若干接觸字的字符串中,往往難于對屬于關(guān)鍵詞的所有單個字進行分段和識別。
例如,在關(guān)鍵詞圖像‘農(nóng)業(yè)協(xié)同組合’中,‘業(yè)協(xié)’兩字彼此復(fù)雜地接觸而且在字符分段過程中不能成功地分離。于是,進行由兩端識別的關(guān)鍵字提取過程12e。
在關(guān)鍵字提取過程12e中,對含有N或更多個字的關(guān)鍵詞提取出一個字符串的開頭和末尾字,當(dāng)提取全部字中P%或更多個字時,便假定已提取出一個關(guān)鍵詞。上述N和P是在試驗中得到的值。例如P=60。
例如,在“農(nóng)業(yè)協(xié)同組合”中,當(dāng)提取出可能的關(guān)鍵字“農(nóng)業(yè)00組合”和“農(nóng)00同組合”時,該字符串被定義為“農(nóng)業(yè)協(xié)同組合”。(在這個例子中假定沒有其他類似的詞(“農(nóng)林協(xié)同組合”等)存在。)(iii)利用部分識別的關(guān)鍵詞提取過程當(dāng)關(guān)鍵詞的領(lǐng)頭字與前面的字接觸時,不能正確地提取出該關(guān)鍵詞,而且不能成功地應(yīng)用上述兩端識別系統(tǒng)。所以,進行利用部分識別的關(guān)鍵詞提取過程12f。
在利用部分識別的關(guān)鍵詞提取過程12f中,當(dāng)對于每個含有M或更多個字的關(guān)鍵詞識別出字符串的第一和第二部分中的一部分字時,對部分字符串的兩端進行利用兩端識別的關(guān)鍵字提取過程(上述(ii)),而當(dāng)滿足條件時(當(dāng)提取出P%或更多字時)提取出部分字符串作為部分關(guān)鍵詞。
例如,在“農(nóng)業(yè)協(xié)同組合”中,當(dāng)識別出“000農(nóng)△△組合”時,在該字符串中包含的關(guān)鍵詞被估計為“農(nóng)業(yè)協(xié)同組合”。然而,由于“農(nóng)”的位置不確定(即在這種情況中由于存在“農(nóng)”接觸任何前面的字的可能性,所以不能清楚地識別出接觸字的哪部分屬于“農(nóng)”),在“農(nóng)”之后的部分被確定為“業(yè)協(xié)同組合”。
如上所述,如果按上述過程提取一個關(guān)鍵詞,在利用詞識別的關(guān)鍵詞校驗過程12g中對提取出的詞進行校驗。
在利用詞識別的關(guān)鍵詞校驗過程12g中,當(dāng)提取關(guān)鍵詞時產(chǎn)生該關(guān)鍵詞的詞特征。然后,對關(guān)鍵詞提取過程中提取的關(guān)鍵詞區(qū)域進行詞識別過程,而且只把滿足距離條件的區(qū)域提取出來作為關(guān)鍵詞。
再有,在結(jié)合關(guān)鍵詞以外的其他詞進行詞特征比較時,一些詞圖像很容易被錯認(rèn)。
于是,這些易錯認(rèn)的詞圖像被作為類似詞特征加入到詞特征字典中,以用于由正確的詞特征進行識別,從而改善關(guān)鍵詞提取精確性。
(2)利用線密度/周邊分布的校驗過程如前文參考圖2描述的那樣,提取由關(guān)鍵詞定界的詞區(qū)域,識別由關(guān)鍵詞定界的詞區(qū)域中的詞,利用字符識別進行字分段和校驗,通過假定字?jǐn)?shù)來校驗詞識別結(jié)果,以及利用線密度/周邊分布對詞識別結(jié)果進行校驗過程。
下面參考圖7和圖8描述利用線密度/周邊分布進行的校驗過程。在這個例子中,在詞識別過程14中的詞識別過程中,利用由字特特征組合產(chǎn)生的詞特征進行詞識別,并把這詞特征與提取出的詞區(qū)域中的詞圖像特征進行比較。
由于“線密度”和“周邊分布”是眾所周知的,故這里略去其詳細解釋。
當(dāng)利用詞識別過程14得到詞識別結(jié)果時,在詞特征組合位置計算過程16a中反過來計算字符的組合位置。就是說,當(dāng)在利用產(chǎn)生詞特征來識別詞的系統(tǒng)中比較一個詞時,反過來由所用的詞模板來計算字特征的組合位置。
例如,如圖8中所示,當(dāng)作為詞圖像“富士”(富士)的比較結(jié)果得到“七十七”(77)時,由該詞模板反過來計算組合位置,于是得到“七十七”的每個字的組合位置。
由于組合位置是該詞規(guī)一化圖像中的位置,該位置被轉(zhuǎn)換成詞圖像中的位置,并在詞區(qū)域分割過程16b中把該詞圖像中的詞區(qū)域按每個轉(zhuǎn)換后的位置進行分割。例如,如圖8中所示,“七十七”的每個字的組合位置被轉(zhuǎn)換成詞圖像上的位置,于是詞圖像“富士”被分割。
在線密度和周邊分布計算過程16c中,對每個分割后的區(qū)域計算線密度或周邊分布。例如,在圖8所示例子中,計算詞圖像“富士”的每個被分割區(qū)域的線密度。
另一方面,在線密度和周邊分布計算過程16d中,通過參考線密度字典31、周邊分布字典32等來對詞識別結(jié)果的每個字計算每個字的線密度或周邊分布。例如,在圖8所示例子中,提取出詞“七十七”的每個字的線密度。
然后,在比較過程16e中,把對每個分割區(qū)域計算出的線密度或周邊分布與識別出的詞的每個字的線密度或周邊分布進行比較。如果它們不匹配,則該詞識別結(jié)果被拒絕。
用于拒絕的差異程度(閾值)由操作員等根據(jù)試驗結(jié)果等預(yù)先設(shè)定。
在圖8所示例子中,由于分割詞圖像“富士”所得到的每個區(qū)域中的線密度明顯地不同于詞“七十七”的每個字的線密度,所以詞識別結(jié)果“七十七”被拒絕。
圖9顯示為實現(xiàn)根據(jù)本發(fā)明的一個實施例的字符串識別裝置所構(gòu)成的信息處理裝置的硬件配置。
如上所述,根據(jù)本發(fā)明的一個實施例的字符串識別裝置可由通常的計算機系統(tǒng)實現(xiàn)。(該裝置不限于這一系統(tǒng)。就是說,它能由便攜式信息處理裝置等實現(xiàn),如PDA/手持PC等)。
圖9中所示信息處理裝置40包含CPU41、存儲器42、輸入裝置43、輸出裝置44、外部存儲裝置45、介質(zhì)驅(qū)動裝置46、網(wǎng)絡(luò)連接裝置47等,它們通過總線48互連。再有,光學(xué)讀出器50等與總線48相連。圖9所示配置是一個示例,該裝置不限于這一配置。
例如,光學(xué)讀出器50是一個掃描儀、數(shù)字相機等,用于把通過光學(xué)讀出紙上的字符等所得到的數(shù)字圖像數(shù)據(jù)傳送到信息處理裝置40。(這是指上述“字符串圖像”和“手寫字符串(圖像)”)。
CPU41是中央處理單元,用于控制整個信息處理裝置40。
存儲器42可以是RAM等,用于當(dāng)執(zhí)行程序和更新數(shù)據(jù)等時暫時存儲存在外部存儲器裝置45(或便攜存儲介質(zhì)49)中的程序或數(shù)據(jù)。CPU41利用讀到存儲器42中的程序/數(shù)據(jù),執(zhí)行上述各種過程。
輸入裝置43是例如鍵盤、鼠標(biāo)等,當(dāng)操作員等設(shè)置上述各種設(shè)定值(m較高階值、n較高階值等)時被使用。
輸出裝置44可以是顯示器等,用于顯示一個設(shè)置屏幕供操作員設(shè)置上述設(shè)定值之用以及顯示字符串識別結(jié)果等。
外部存儲裝置45可以是例如磁盤裝置、光盤裝置、磁-光盤裝置等,存儲用于實現(xiàn)上述字符串識別裝置各種功能所用的程序/數(shù)據(jù)等。
介質(zhì)驅(qū)動裝置46讀取便攜存儲介質(zhì)49中存儲的程序/數(shù)據(jù)等。便攜存儲介質(zhì)49可以是例如FD(軟盤)、CD-ROM、DVD、磁-光盤等。
網(wǎng)絡(luò)連接裝置47連到一個網(wǎng)絡(luò),向外部信息處理裝置發(fā)送或從中接收程序/數(shù)據(jù)。
圖10顯示存儲介質(zhì)一個示例。
如圖10中所示,程序/數(shù)據(jù)能存儲在便攜存儲介質(zhì)49中,加載到信息處理裝置中,存儲在存儲器42中,然后被執(zhí)行。程序/數(shù)據(jù)能通過由網(wǎng)絡(luò)連接裝置47連接的網(wǎng)絡(luò)(因特網(wǎng)等)從外部信息提供裝置51的存儲裝置52下載。
本發(fā)明能被配置成一個存儲程序/數(shù)據(jù)的存儲介質(zhì)(便攜存儲介質(zhì)49等)、一個程序、一個用于傳輸該程序/數(shù)據(jù)的網(wǎng)絡(luò)(傳輸介質(zhì))、以及當(dāng)程序/數(shù)據(jù)下載時作為通過傳輸介質(zhì)傳輸?shù)囊粋€傳輸信號。
在上述的本發(fā)明中,能得到如下效果(1)從要識別的并表示為字代碼的一類字符串中自動提取出關(guān)鍵詞的代碼串,該關(guān)鍵詞是一個字符串的節(jié)點。由關(guān)鍵字代碼提取單元提取的關(guān)鍵詞或它的一部分是從字符串圖像中提取的。由所提取的關(guān)鍵詞確定的部分區(qū)域中的字符串是被綜合地識別的。綜合識別的結(jié)果被校驗。這樣,能從字符串中自動提取出關(guān)鍵詞并且能以高精確性提取出關(guān)鍵詞,盡管該關(guān)鍵詞是由多個字構(gòu)成的。再有,由于對詞識別結(jié)果進行校驗過程,故能減少把一個詞誤識別為完全不同的詞的情況。
(2)當(dāng)只提取出構(gòu)成關(guān)鍵詞的一部分字時,對其前面和后面的字作為關(guān)鍵字的提取條件被放寬,并再次提取字,從而以高精確性提取關(guān)鍵詞,盡管在該關(guān)鍵詞中一部分字被是嚴(yán)重變形了的。
(3)當(dāng)提取出一關(guān)鍵詞的字中的為首字和末尾字并提取出構(gòu)成該關(guān)鍵詞的字中起過預(yù)定比例數(shù)的字時,該部分字符串被認(rèn)為是關(guān)鍵詞,從而以高精確性提取關(guān)鍵詞,盡管該關(guān)鍵詞的字彼此接觸。
(4)當(dāng)在構(gòu)成關(guān)鍵詞的字中提取出兩個或更多個分開的字時,而且當(dāng)由提取的字封閉的區(qū)域中有多于預(yù)定比率的字時,該部分字符串被作為該關(guān)鍵詞的部分字符串提取出來。從而以高精確性提取關(guān)鍵詞,盡管末尾字與周圍字之一接觸。
(5)對提取出的關(guān)鍵詞或部分關(guān)鍵詞進行綜合識別,并校驗其作為一個詞的概率,從而以高精確性提取關(guān)鍵詞,盡管該字的識別精度低。
(6)在字特征和詞特征方面對分割為一個字的區(qū)域進行比較,并提取構(gòu)成關(guān)鍵詞一部分或該關(guān)鍵詞的字符串,從而以高精確性提取關(guān)鍵詞,盡管在這個只含有少量字的關(guān)鍵詞中那些字彼此接觸。
(7)通過參考字典增強了詞識別中的識別精確性,在該字典中送入了易誤認(rèn)為是關(guān)鍵詞的詞作為類似詞,從而以高精確性提取關(guān)鍵詞。
(8)當(dāng)提取一個關(guān)鍵詞的代碼串時,在要識別的整個字符串中發(fā)生次數(shù)多的字、在一個字符串單元中發(fā)生次數(shù)多的字、和/或一組緊密關(guān)聯(lián)的字被作為關(guān)鍵詞提取出來,從而從要識別的字符串(代碼)中自動提取出關(guān)鍵詞。
(9)預(yù)先送入不易誤認(rèn)的字,并在從一類字符串中提取一個關(guān)鍵詞(它是字符串節(jié)點)的代碼串時,把該字提取出來作為關(guān)鍵字,從而更正確地提取關(guān)鍵詞。
(10)當(dāng)綜合識別出由關(guān)鍵字/詞定界的詞區(qū)域時,進行一個詞識別過程,對該區(qū)域分離出一個字,并識別該字,從而當(dāng)詞識別結(jié)果中包含的一個字作為n較高階被包含而且在該字符識別結(jié)果中發(fā)生的次數(shù)等于或大于一個閾值時,能確定該詞識別結(jié)果,從而能減少明然的誤識別。
(11)當(dāng)根據(jù)由組合字特征產(chǎn)生的詞特征綜合識別出一個詞區(qū)域時,由匹配模板計算出詞圖像中每個字的分割位置,并把在每個分割位置處得到的詞圖像線密度或周邊分布與所識別的詞的每個字具有的線密度或周邊分布進行比較,當(dāng)線密度之和、周邊分布之和或?qū)Ρ?collation)比率之差大于閾值時該詞識別結(jié)果被拒絕,從而減少詞識別中的誤識別。
(12)當(dāng)根據(jù)由組合字特性產(chǎn)生的詞特征綜合識別出一個詞區(qū)域時,把所識別的詞中的字?jǐn)?shù)與由詞圖像估計的字?jǐn)?shù)作比較,當(dāng)字?jǐn)?shù)之差大于一閾值時,該詞識別結(jié)果被拒絕,從而減少詞識別中的誤識別。
權(quán)利要求
1.一種字符串識別裝置,包含關(guān)鍵字代碼提取單元,自動地從要識別并表示為字代碼的一類字符串中提取一個關(guān)鍵詞的代碼串,該關(guān)鍵詞是一個字符串的節(jié)點;關(guān)鍵詞提取單元,從一字符串圖像中提取被所述關(guān)鍵字代碼提取單元提取的關(guān)鍵詞,或者提取該關(guān)鍵詞的一部分;以及識別單元,綜合識別由提取出的關(guān)鍵詞確定的部分區(qū)域中的字符串。
2.根據(jù)權(quán)利要求1的裝置,還包含校驗單元,校驗由所述識別單元綜合識別的識別結(jié)果。
3.根據(jù)權(quán)利要求1的裝置,其中當(dāng)從一字符串圖像中提取一個關(guān)鍵詞時,而且當(dāng)只提取出構(gòu)成該關(guān)鍵詞的一部分字時,對其前、后字作為關(guān)鍵字的提取條件被放寬,而且重新提取該字。
4.根據(jù)權(quán)利要求1的裝置,其中當(dāng)從一個字符串圖像中提取一個關(guān)鍵詞時,而且當(dāng)提取出該關(guān)鍵詞的字中的首字和末尾字并提取出構(gòu)成該關(guān)鍵詞的字中超過預(yù)定比例數(shù)的字時,所述關(guān)鍵詞提取單元認(rèn)為該部分字符串是一個關(guān)鍵詞。
5.根據(jù)權(quán)利要求1的裝置,其中當(dāng)從一個字符串圖像中提取一個關(guān)鍵詞時,當(dāng)在構(gòu)成該關(guān)鍵詞的字中提取出兩個或更多個分開的字時,而且當(dāng)由提出的字封閉的區(qū)域中有多于預(yù)定比率的字時,所述關(guān)鍵詞提取單元提取該部分字符串作為該關(guān)鍵詞的部分字符串。
6.根據(jù)權(quán)利要求1的裝置,其中當(dāng)從一個字符串圖像中提取一個關(guān)鍵詞時,所述關(guān)鍵詞提取單元對所提取的關(guān)鍵詞或部分關(guān)鍵詞進行綜合識別過程,并校驗作為一個詞的可能性。
7.根據(jù)權(quán)利要求1的裝置,其中當(dāng)從一個字符串圖像中提取一個關(guān)鍵詞時,所述關(guān)鍵詞提取單元在字特征和詞特征方面對分割為一個字的區(qū)域進行比較,并提取構(gòu)成關(guān)鍵詞的一部分或關(guān)鍵詞的字符串。
8.根據(jù)權(quán)利要求1的裝置,其中當(dāng)使用關(guān)鍵詞的詞特征從一個字符串圖像中提取一個詞時,所述關(guān)鍵詞提取單元通過參考字典增強了詞識別中的識別精確性,在該字典中送入了易誤認(rèn)為是關(guān)鍵詞的詞作為類似詞。
9.根據(jù)權(quán)利要求1的裝置,其中當(dāng)從一類字符串中提取作為字符串節(jié)點的關(guān)鍵詞的代碼串時,所述關(guān)鍵詞代碼提取單元提取在要識別的整個字符串中發(fā)生次數(shù)多的字、在一個字符串單元中發(fā)生次數(shù)多的字、和/或一組緊密關(guān)聯(lián)的字作為關(guān)鍵詞。
10.根據(jù)權(quán)利要求1的裝置,其中預(yù)先送入不易誤認(rèn)的字,并在從一類字符串中提取一個關(guān)鍵詞(它是字符串節(jié)點)的代碼串時,所述關(guān)鍵字代碼提取單元提取所送入的字作為關(guān)鍵字。
11.根據(jù)權(quán)利要求1的裝置,其中當(dāng)綜合識別出一個詞區(qū)域時,所述識別單元進行詞識別過程,對該區(qū)域分離出一個字,并識別該字,從而當(dāng)詞識別結(jié)果中包含的一個字作為n較高階被包含而且在該字符識別結(jié)果中發(fā)生的次數(shù)等于或大于一個閾值時,能確定該詞識別結(jié)果。
12.根據(jù)權(quán)利要求2的裝置,其中所述識別單元根據(jù)由組合字特征產(chǎn)生的詞特征綜合識別出一個詞區(qū)域;所述校驗單元由匹配模板計算出詞圖像中每個字的分割位置,并把在每個分割位置處得到的詞圖像線密度與所識別的詞的每個字具有的線密度進行比較,當(dāng)線密度之和或?qū)Ρ缺嚷手畲笥陂撝禃r拒絕該詞識別結(jié)果。
13.根據(jù)權(quán)利要求2的裝置,其中所述識別單元根據(jù)由組合字特征產(chǎn)生的詞特征綜合識別出一個詞區(qū)域;所述校驗單元由匹配模板計算出詞圖像中每個字的分割位置,并把在每個分割位置處得到的詞圖像周邊分布與所識別的詞的每個字具有的周邊分布進行比較,當(dāng)周邊分布之和或?qū)Ρ缺嚷手畲笥谟蛑禃r拒絕該詞識別結(jié)果。
14.根據(jù)權(quán)利要求2的裝置,其中所述識別單元根據(jù)由組合字特征產(chǎn)生的詞特征綜合識別出一個詞區(qū)域;所述校驗單元把所識別的詞中的字?jǐn)?shù)與由詞圖像估計的字?jǐn)?shù)作比較,當(dāng)字?jǐn)?shù)之差大于一閾值時,拒絕該詞識別結(jié)果。
15.一種字符串識別裝置,包含關(guān)鍵字代碼提取裝置,用于自動從要識別并表示為字代碼的一類字符串中提取一個關(guān)鍵詞的代碼串,該關(guān)鍵詞是一個字符串的節(jié)點;關(guān)鍵詞提取裝置,用于從一字符串圖像中提取被所述關(guān)鍵字代碼提取裝置提取的關(guān)鍵詞,或者提取該關(guān)鍵詞的一部分;以及識別裝置,用于綜合識別由提取出的關(guān)鍵詞確定的部分區(qū)域中的字符串。
16.一種字符串識別裝置,包含識別目標(biāo)字符串組存儲單元,存儲要識別的一類中的字符串列表;以及關(guān)鍵詞確定單元,對每個字檢索所述識別目標(biāo)字符串組存儲單元以得到每個字的發(fā)生次數(shù),把發(fā)生次數(shù)多的字定義為關(guān)鍵字,把發(fā)生次數(shù)多的字符串定義為關(guān)鍵詞。
17.一種字符串識別裝置,包含關(guān)鍵字/詞存儲單元,存儲被確定的關(guān)鍵字和關(guān)鍵詞;以及關(guān)鍵字/詞提取單元,當(dāng)從要識別的字符串中提取出由所述關(guān)鍵字/詞存儲單元存儲的關(guān)鍵字或關(guān)鍵詞時,如果提取出了一個關(guān)鍵詞中字符串的一部分,則該關(guān)鍵字/詞提取單元提取該字符串作為關(guān)鍵詞。
18.一種字符串識別裝置,包含識別詞的詞識別單元;以及校驗單元,檢驗所述詞識別單元的識別結(jié)果是否正確。
19.根據(jù)權(quán)利要求18的裝置,其中所述校驗單元根據(jù)線密度或周邊分布校驗識別結(jié)果。
20.一種關(guān)鍵詞確定方法,包含如下步驟根據(jù)要識別的一類中的字符串列表得到預(yù)先存儲的列表中每個字的發(fā)生次數(shù),把發(fā)生次數(shù)多的字定義為關(guān)鍵字,把發(fā)生次數(shù)多的字符串定義為關(guān)鍵詞。
21.一種字符串識別方法,包含如下步驟根據(jù)要識別的一類中的字符串列表得到預(yù)先存儲的列表中每個字的發(fā)生次數(shù),把發(fā)生次數(shù)多的字定義為關(guān)鍵字,把發(fā)生次數(shù)多的字符串定義為關(guān)鍵詞;從要識別的字符串圖像中提取該關(guān)鍵字或關(guān)鍵詞;以及在要識別的字符串圖像中對由每個關(guān)鍵字或關(guān)鍵詞定界的每個區(qū)域識別出一個詞。
22.一種計算機可讀存儲介質(zhì),用于存儲程序,所存儲的程序用于指揮計算機實現(xiàn)下列功能根據(jù)要識別的一類中的字符串列表得到預(yù)先存儲的列表中每個字的發(fā)生次數(shù),把發(fā)生次數(shù)多的字定義為關(guān)鍵字,把發(fā)生次數(shù)多的字符串定義為關(guān)鍵詞。
23.包含在載波中并代表一個程序的計算機數(shù)據(jù)信號,該程序使計算機控制與外部裝置交換數(shù)據(jù),這些數(shù)據(jù)涉及一系列過程流中包括的過程,而且該程序使計算機執(zhí)行下列步驟根據(jù)要識別的一類中的字符串列表得到預(yù)先存儲的列表中每個字的發(fā)生次數(shù),把發(fā)生次數(shù)多的字定義為關(guān)鍵字,把發(fā)生次數(shù)多的字符串定義為關(guān)鍵詞;從要識別的字符串圖像中提取該關(guān)鍵字或關(guān)鍵詞;以及在要識別的字符串圖像中對由每個關(guān)鍵字或關(guān)鍵詞定界的每個區(qū)域識別出一個詞。
24.存儲識別字符串圖像程序的存儲介質(zhì),所述程序包含下列過程自動地從要識別并表示為字代碼的一類字符串中提取一個關(guān)鍵詞的代碼串,該關(guān)鍵詞是一個字符串的節(jié)點;從一字符串圖像中提取所提取的關(guān)鍵詞或關(guān)鍵詞的一部分;以及綜合識別由提取出的關(guān)鍵詞確定的部分區(qū)域中的字符串。
全文摘要
首先自動地從要識別的字符串組中提取關(guān)鍵詞并送入該關(guān)鍵詞。然后,通過分段單個字從要識別的字符串圖像中識別出字,并提取出對應(yīng)于所提取/送入的關(guān)鍵詞的字符串。然后,從字符串圖像中提取出由關(guān)鍵詞定界的詞區(qū)域,并識別出詞。再有,對詞識別結(jié)果進行校驗并輸出最終字符串識別結(jié)果。
文檔編號G06K9/72GK1367460SQ0210235
公開日2002年9月4日 申請日期2002年1月23日 優(yōu)先權(quán)日2001年1月24日
發(fā)明者堀田悅伸, 藤本克仁, 直井聰, 諏房美佐子 申請人:富士通株式會社