專利名稱:信息處理方法和裝置及存儲實施該方法程序的存儲介質的制作方法
技術領域:
本發(fā)明涉及一種信息處理方法和裝置,它能搜索圖像或包含一個指定搜索字的文本信息。
能夠搜索一幅圖像,并用由OCR或類似裝置識別的輸入圖像創(chuàng)建一個數(shù)據(jù)庫的裝置是常規(guī)可以獲得的。
在這種用于搜索圖像并創(chuàng)建數(shù)據(jù)庫的裝置中,讓用戶確認識別結果的步驟傳統(tǒng)上是在登記之前,以克服在用OCR識別圖像的處理過程中由于誤識別引起的搜索不完整。在該確認步驟中,包括一串字符、直到與識別結果具有較低的相似性為止的候選字符提供給用戶。用戶選取一個正確的字符,或者在沒有正確字符包含在候選字符中時輸入一個正確字符。因此,一段由用戶登記的文本就被用戶手工修正了,然后修正過的文本被登記。
取代用戶手工進行這種修正操作,一種使用字典或知識庫、機械地修正文本的技術可以獲得。
在需要用戶手工修正操作的現(xiàn)有技術中,用戶的負擔很重,在每個登記操作中都需要一段長時間的麻煩的操作。這種修正操作干擾了全自動修正。
在用字典或知識庫機械修正文本的技術中,若不使用具有高計算能力的計算機,就無法實現(xiàn)全自動修正的實際應用。另外,自動修正的可靠性仍然是個問題。
在限制對應一個輸入字符圖像的識別結果為一個字符的修正步驟中若發(fā)生誤修正,則被修正的字符無法恢復成輸入字符圖象。
本發(fā)明的目標是,提供一種信息處理方法,它包括確定一個指定的字符隊列是否包含在文本信息中的步驟,步驟如下
·形成一個模式,其中至少一個字符被從指定的字符隊列中刪除,以及·用形成的模式執(zhí)行確定步驟。
圖1為說明OCR處理的流程圖。
圖2為說明形成一個增加到圖像信息的搜索索引的處理的流程圖。
圖3為說明用一個搜索索引搜索文檔處理的流程圖。
圖4為一個框圖,說明按照一種實施方式的信息處理裝置的安排。
圖5由圖5A到圖5C組成,它是說明對一個完整文檔第一次搜索處理的流程圖。
圖6由圖6A到圖6C組成,它是說明對一個完整文檔第二次搜索處理的流程圖。
圖7是說明第一次刪除字符處理的流程圖。
圖8是說明第二次刪除字符處理的流程圖。
圖9是說明第三次刪除字符處理的流程圖。
圖10為說明存儲本發(fā)明的控制程序的存儲介質的視圖。
實施本發(fā)明的信息處理裝置的排列如圖4所示,將在下面加以描述。
參照圖4,一個圖象掃描儀1被直接或通過一種通信手段連接到計算機10。圖像掃描儀1掃描一幅文檔(原始)圖像并光學地讀取圖像。OCR(光學字符閱讀器)處理軟件2安裝在計算機10上,識別從圖像掃描儀1或類似裝置輸入的圖像信息的字符的獲得文本信息。文檔搜索軟件3被安裝在計算機10上,從OCR處理中獲得的文本信息形成一個搜索文件以處理從圖像掃描儀1或類似裝置輸入的圖像,文檔搜索軟件3也執(zhí)行搜索處理。
依據(jù)存儲在計算機10內存中的控制程序,OCR處理軟件2和文檔搜索軟件3在計算機10的CPU的控制下執(zhí)行。由流程圖表示的處理操作(后面將加以描述)也將依據(jù)存儲在計算機10內存中的控制程序,在計算機10的CPU控制下被執(zhí)行。
外部存儲裝裝置4具有存儲從圖像掃描儀1或類似裝置輸入圖像的存儲部分4-1,文本信息存儲部分4-2,以及搜索文件存儲部分4-3。搜索文件存儲部分4-3存儲索引、文檔管理信息(DB)等。鍵盤5輸入一個搜索字或搜索條件。顯示裝置6顯示對搜索字和搜索條件的提示,也顯示圖像信息等。如上所述,計算機10包括存儲控制程序以執(zhí)行本實施方式中描述的各種處理操作的存儲器,以及根據(jù)控制程序執(zhí)行處理的CPU,等等。
在圖4所示的圖像處理裝置中的累積處理包括步驟把從圖像掃描儀1輸入的圖像信息存儲在外部存儲裝置4中;用OCR處理軟件2把存儲在外部存儲裝置4中的圖像信息轉換成文本信息,并把文本信息存儲在外部存儲裝置4中;把由文本搜索軟件3從文本信息形成的搜索文件存儲在外部存儲裝置4中。
搜索處理包括步驟比較從鍵盤5輸入的搜索字與由文檔搜索軟件3形成的搜索文件,以搜索一個匹配搜索條件的文檔;從該文檔抽取文檔地址信息;在顯示裝置6上顯示該文檔的圖像數(shù)據(jù)。
在由上述累積處理和搜索處理實現(xiàn)的搜索系統(tǒng)中,一種防止由OCR識別的誤識別造成搜索遺漏的主要方法將在下面描述。
避免搜索遺漏的方法主要有三種。
1.假設一幅字符圖像被成功地抽取,使用一組候選字符的識別似然的一組候選字符和搜索索引被形成,使用這組候選字符和搜索索引進行搜索。
2.考慮在抽取的字符圖像中是否包含一個錯誤,或者在相應于一幅字符輸入圖像的一組候選字符中是否包含一個正解。與指定的搜索字和搜索文件相對照,允許增加一個另外字符到指定搜索字的搜索被執(zhí)行。
3.考慮在抽取的字符圖像中是否包含一個錯誤,或者在對應一幅字符輸入圖像的一組候選字符中是否包括一個正解。通過從一個指定搜索字中刪除一個或幾個字符獲得一個字符隊列模式組,允許增加一個另外字符到該字符隊列模式組的搜索被執(zhí)行。
方法1將參照圖2中一個流程圖加以詳細描述;方法2和3將參照圖3、圖5和圖7中的流程圖加以詳細描述。在這些流程圖描述之前,在登記一幅圖像中執(zhí)行的OCR處理將參照圖1用流程圖描述。
(OCR處理)要登記的圖像信息從圖像掃描儀1(S101)輸入。輸入圖像信息存儲在外部存儲裝置4的圖像信息存儲部分4-1中。盡管圖像信息從圖像掃描儀1直接輸入,但它也可以從另一臺計算機或一個FAX系統(tǒng)通過通信手段輸入。
輸入圖像信息被分析以確定是否具有字符數(shù)據(jù)(S102),如果在步驟S102為“否”,那么流程并不進到OCR處理,而是執(zhí)行正常的圖像信息登記處理。
如果步驟S102為“是”,則一個字符圖像數(shù)據(jù)被抽取(S103),且這個被抽取的字符被識別(S104)?;谧R別結果(包括識別似然信息)決定作為文本信息存儲在步驟S105到S111的字符信息形式的處理被執(zhí)行。
決定存儲為文本信息的字符信息形式的處理執(zhí)行如下當一個候選識別字符具有一個確定的識別似然值(S105),它達到一個預先確定的有效似然確定門限Th1,則候選字符輸出為識別結果(S106)。但是 當識別目標字符所確定的識別似然值(S105)達不到有效的似然確定門限Th1時,則一個表示一組候選字符起始位置用以識別這組候選字符的定界符被輸出(S107)。通過相應地(S108)候選識別字符組的每個字符的識別似然值;流程分支成情況a(S109)和情況b(S110)。
a.每個具有一個或多個預定的低識別似然確定門限Th2(Th1>Th2)的候選字符及這種字符的數(shù)量被輸出。
b.從具有最高似然值的候選字符開始的預定的Nmax個候選識別字符,及這些字符的數(shù)目被輸出。
在步驟S107到S111中的結果輸出形式被定義為“@〔候選字符的數(shù)目〕〔候選字符1〕〔候選字符2〕〔候選字符3〕……@”。
在步驟108中確定分枝時,若候選識別字符組的所有識別似然值為Th2或小于Th2,且?guī)缀醣舜讼嗟?,則流程進到步驟S110;否則進到步驟S109。
在這些處理操作中用到的參數(shù)Th1是一個門限,用來確定識別結果是否最可能以及候選字符是否局限于一個字符。參數(shù)Th2是一個門限,用來確定一個具有小于Th2的識別似然值的候選字符是否具有不可能的識別結果。參數(shù)Th1和Th2以及候選識別字符的最大數(shù)目Nmax預先存儲在計算機10的存儲器中。
當候選字符在步驟S109或S110中被輸出時,表示一組候選字符結束位置的定界符被輸出(S111)。
當一個字符的識別結果被完全輸出時,流程返回步驟S102,對下一個字符的識別處理被執(zhí)行。步驟S102到S111的處理重復執(zhí)行,直到在步驟S102確定已經(jīng)沒有待識別的字符為止。
圖1所示的OCR處理在將在下述情況中被詳細描述,此時字“parent”將給出原始形狀。
在步驟S103,“P”的字符圖像被抽取。假設作為步驟S104的識別結果,第一個候選字符“P”被獲得,具有等于或大于Th1的識別假然值,在此情況下,識別結果“P”在步驟S106被輸出。
與上述處理相同的方式,“a”被輸出。
在步驟S103,“r”的字符圖像被抽取,假設作為步驟S104的識別結果該字符的所有識別結果的值小于Th1(S105),且所有的候選識別字符幾乎具有相等的似然值,它小于Th2(S108),則一個定界符在步驟S107被輸出。在步驟S110,從一個具有最高似然值的字符開始的Nmax個候選字符被輸出,然后在步驟S111輸出一個定界符。
假定步驟S110輸出的候選字符是3個候選字符,即“t”,“i”和“f”,定界符是,例如,“@”。在這種情況下,步驟S107到S111的處理輸出結果被給出為“@3tif@”。
識別繼續(xù)進行,“e”的字符圖像在步驟S103被抽取。作為步驟S104的識別結果,“e”的第一個候選字符被獲得,其識別似然值等于或大于Th1。在這種情況下,步驟S106輸出識別結果“e”。
在步驟S103,“n”的字符圖像被抽取。作為步驟S104的識別結果,“n”的第一個候選字符被獲得,其識別似然值等于或大于Th1。在這種情況下,步驟S106輸出識別結果“n”。
另外,“t”被輸出。
上述處理的輸出結果為“Pa@3tif@ent”,并存儲在文本信息存儲部分4-2中。
識別結果的輸出形式是用定界符分隔字符鍵,這只是一個例子。另一種方法,它以在文本信息存儲部分從一幅字幅輸入圖像獲得的候選字符為單位區(qū)分存儲位置,以管理一幅字符輸入圖像的存儲地址;如果這種方法能分隔字符鍵,它就可能被使用。
在圖1的流程圖所示的OCR處理所形成的文本信息的基礎上增加一個搜索索引,它的形成處理將在圖2的流程圖中詳細描述。(搜索索引的形成)指定一個索引的字符鍵類形的信息從鍵盤5輸入(S201),然后,從一個相應于指字符鍵類形的字符形成一個索引。
存儲在文本信息存儲部分4-2中,并作為一個索引信息目標對應圖像信息的文本信息被裝載(S202)。
從裝載的文本信息中,相應于步驟201輸入的鍵類型的一個字符被讀取(S204)。然后確定讀取字符是否為定界符(S205)。如果讀取字符不是定界符,那么該字符被加到正在形成的索引的末端(S206)。但是,如果讀取字符被確定為一個定界符,則在該定界符和下一個定界符之間的候選字符被加到正在形成的索引的末端,由此形成一組索引(S207)。
根據(jù)在步驟S206或S207形成的索引的字符數(shù)確定索引是否完成(S208)。如果S208為“是”,則完成的索引被存儲在搜索文件存儲部分4-3;如果步驟S208為否,則流程返回步驟S204,下一個字符被讀取以繼續(xù)形成一個索引。
一個表示字符的數(shù)目,在步驟S208中用作確定索引是否完成的指標的參數(shù)預先存儲在計算機的存儲器申。
當索引的形成被完成時,流程返回步驟S203。如果剩余字符數(shù)據(jù)被給出,則索引被繼續(xù)形成。
在上述處理中,候選識別字符與從OCR處理的文本信息中前置或后置字符結合,字符隊列按照指定的字符鍵類形形成,由此形成能使搜索遺漏極小的索引。
當按照圖1的流程圖處理,從圖1所述的文本信息“Pa@3tif@ent”形成索引時,總共9個鍵,即“Pa”,“at”,“ai”,“af”,“te”,“ie”,“fe”,“en”和“nt”被形成,并反映在索引中。這些鍵被存儲在搜索文件存儲部分4-3中。
用在圖2的流程圖處理中形成的搜索索引進行的文檔搜索處理將在圖3的流程圖中詳細描述。
(使用索引的文檔搜索)要搜索的字從鍵盤5輸入,搜索執(zhí)行被指定(S301)。根據(jù)搜索級別或在指定搜索執(zhí)行中的特定集確定具有修正在OCR處理中的字符抽取錯誤動作的搜索處理是否被指定(S302)。如果步驟S302為NO,則在步驟S301輸入的字被劃分成搜索鍵。搜索鍵與存儲在搜索文件存儲部分的索引比較(S304)。在該比較處理中被確定為匹配文檔的文檔地址作為搜索結果被輸出(S307)。
如果在步驟S302中確定字符抽取錯誤修正被指定,那么從步驟30 1輸入的字中刪除字符以形成模式,而模式,即字的剩余部分則被劃分成搜索鍵(S305)。這些搜索與存儲在搜索文件存儲部分的索引相比較(S306)。相應于所形成模式的搜索鍵的索引信息塊從搜索文件中抽取。相應于搜索鍵的索引信息塊被以模式為單位進行邏輯“與”,然后邏輯“與”(AND)結果對所有的模式被邏輯“或”。這種字符抽取錯誤修正被執(zhí)行,雖然或多或少地迭加噪聲,具有字符抽取錯誤的圖像信息仍可被搜索。
在這個比較處理中,確定為匹配文檔的文檔地址被作為搜索結果輸出(S307)。
在步驟S303和S305中被劃分的每個搜索鍵都具有與索引相同數(shù)目的字符。搜索鍵被用與圖2的流程圖所描述的索引形成相同的方法所劃分。
按照步驟S307中輸出的每個文檔地址,文檔圖像信息從圖像信息存儲部分4-1中讀出,并在顯示6上顯示。在這種情況下,如果一組文檔要被顯示,那么被搜索文檔的題目清單可能被顯示,圖像可以按照后面的顯示文檔信息的指導進行顯示。
下面將描述一個文檔搜索操作,它使用一個來自在步驟S301中從鍵盤5輸入的搜索字“temple”的索引。
步驟S301中輸入的搜索字“temple”在步驟S303被劃分成搜索鍵“te”,“em”,“mp”,“pl”和“l(fā)e”。在步驟S304,所有這些搜索鍵都與存儲在搜索文件存儲部分的索引相比較。加有所有索引“te”、“em”、“mp”,“pl”和“l(fā)e”的文檔被搜索并在步驟S307中輸出。
假設,例如,在登記圖像中執(zhí)行的OCR處理中,在字符“m”發(fā)生一個字符圖像抽取錯誤,“m”被抽取為兩個模式,從字符隊列“temple”獲得識別結果“te@zrm@ple”,該結果存儲為文本信息。從該識別結果,只能形成索引“te”、“er”、“en”、“rp”、“np”、“pe”和“l(fā)e”。因此,該文檔無法從在步驟S303中形成的搜索鍵“te”,“em”,“mp”,“pe”和“l(fā)e”搜索到。
能夠搜索在圖像中包括“temple”的文檔的搜索處理被執(zhí)行(S305和S306),以實現(xiàn)字符抽取錯誤修正。
在步驟S305,通過從“temple”中刪除一個字符獲得6種模式,“emple”,“tmple”,“teple”,“tmple”,“teple”,“temle”以及“tempe”。這6種模式被劃分成搜索鍵。
最后,搜索鍵從上述6種模式獲得“em”,“mp”,“pl”,“l(fā)e”“tm”,“mp”,“pl”,“l(fā)e”“te”,“ep”,“pl”,“l(fā)e”
“te”,“em”,“ml”,“l(fā)e”“te”,“em”,“mp”,“pe”“te”,“em”,“mp”,“pl”這些搜索鍵與存儲在搜索文件存儲部分(4-3)中的索引相比較。
當考慮一個字符抽取錯誤的搜索操作從用圖3的流程圖的索引進行文檔搜索處理中的應用軟件中被指定時,字符刪除處理在步驟S305,用圖7到圖9的流程圖所示的方法執(zhí)行。圖7到圖9的流程圖所示的處理表示一種考慮各種字符抽取錯誤的刪除方法,將在下面加以描述。
在圖7的流程圖所示的處理中,要刪除的字符數(shù)由操作員指定(S701),所有可能的模式按照指定的待刪除字符數(shù)制造(S702)。
在圖8的流程圖所示的處理中,要刪除的字符數(shù)據(jù)根據(jù)步驟S801中指定的搜索字長度來確定(S802),所有可能的模式按照確定的待刪除字符數(shù)來制造(S803)。根據(jù)指定搜索字的字符數(shù),用一個預存儲的計算公式來確定要刪除的字符數(shù)。該計算公式被存儲在計算機10的內存中。
在圖9的流程圖所示的處理中,在步驟S901確定在步驟S901指字的搜索字是否包括一個或多個可能被OCR不恰當識別的字符(S902)。如果步驟S902為YES,則這樣的字符被刪除(S903);如果步驟S902為NO,則不執(zhí)行從搜索字中刪除字符的處理,指定搜索字的字符隊列被定義為一個搜索模式??赡鼙籓CR不恰當識別的字符被以,例如,表的形式存儲。這些字符與一個搜索字比較以在步驟S902執(zhí)行確定動作。由于要刪除的字符受限,所以可以減少被刪除的模式數(shù)。例如,在上述詳細例子中,搜索字“parent”中的“r”產生一個抽取錯誤。當該字符被登記為一個可能產生抽取錯誤的候選字符時,搜索操作被限于模式0“paent”,“r”被從中刪除。因此,搜索處理可以有效地執(zhí)行。
在步驟S902和S903的處理中,可能被OCR不恰當識別的字符不必刪除。相反,可能被OCR恰當識別的字符可以在計算機10的內存中以表的形式存儲,未包括在這些字符中的字符可以刪除。
在該處理中,可能被不恰當識別的字符不必刪除。在圖7和圖8的流程圖所示的處理中,可能被不恰當識別的字符被定義為最高優(yōu)先級的要刪除字符,由此有效地執(zhí)行搜索處理。
在圖7到圖9的流程圖的處理中,對于過量數(shù)目的產生模式,可以形成一個產生模式數(shù)的極限值。
在圖7到圖9的流程圖所示的處理之后,搜索字在步驟S305被劃分成搜索鍵。這些搜索鍵在步驟S306與搜索文件相比較,由此在考慮字符抽取錯誤時,用最小的搜索遺漏進行搜索。
對于完整文檔的搜索處理將在下面討論。
這種處理可以去除包括搜索鍵但不包括搜索字本身的文檔,這與用圖3中的流程圖的索引進行的文檔搜索處理相反,在那里搜索字被劃分成搜索鍵,這些搜索鍵用來搜索文檔極小化搜索遺漏,雖然文檔不包括指定搜索字的字符隊列,但它也包括在被搜索文檔之列。
為了執(zhí)行搜索一個完整文檔的處理,需要執(zhí)行一個在搜索字和完整文檔之間的匹配。在這種情況下,在考慮OCR處理中的字符抽取錯誤的狀態(tài)下執(zhí)行處理。詳細情況將在圖5A到圖5C的流程圖中描述。
該處理可能對所有存儲在文本信息存儲部分4-2中的文本信息執(zhí)行,但只對對應于被圖3的搜索處理限制的文本的文本信息執(zhí)行,由此提高處理效率。(對完整文檔的搜索處理)在該處理中,為了考慮一個OCR處理中的字符抽取錯誤,搜索處理對整個文檔執(zhí)行,以使一個冗余字符隊列包含在通過從搜索字中刪除一個字符所形成的候選搜索字中。
搜索字和字符的額外數(shù)X被輸入。搜索字由用戶從鍵盤5輸入。字符的額外數(shù)X是增加到每個搜索字的字符的數(shù)目。根據(jù)搜索字的字符數(shù),這個值由一個預存儲的計算公式確定。這個計算公式存儲在計算機10的內存中。另外,一個恢復級別可以由用戶指定,被確定的級別反映在獲取X的計算中,搜索處理可以在用戶期望的級別上執(zhí)行。
當搜索字和字符的額外數(shù)X輸入時,按照確定的級別來確定級別是否用字符刪除處理指字(S502)。如果步驟S502為YES,則一個或多個字符被從步驟S501輸入的搜索字中刪除,且字符在搜索字中的刪除位置被存儲(S503)。由字符刪除所形成的字符隊列被稱為候選搜索字。如果步驟S502為NO,則在步驟S502中輸入的搜索字用用一個候選搜索字。
在候選搜索字的第一個位置設置一個比較字符隊列,在比較字符隊列的第一個字符設置一個比較字符,且計數(shù)器C被設為零。比較字符隊列被定義為在此時與文本信息比較的搜索字。比較字符隊列在候選搜索字中相繼地更新目標(S520)。比較字符被定義為在比較字符隊列中的一個字符,它用作此時的比較目標并在比較字符隊列中更新一個目標(S515)。計數(shù)器C是用來管理超過X個的額外字符隊列的計數(shù)器。每當一個字符隊列被確定為一個額外字符隊列時,計數(shù)器C都被增加(S517)。
在步驟S505,一段將與搜索字比較的完整文本被從文本信息存儲部分4-2中加載。在步驟S507,一個要被比較的字符從加載的文本中讀取。在步驟S508,確定讀取字符是否為定界符。如果步驟S508為NO,那么讀取字符與比較字符相比交(S509)。但是,如果在步驟S508中讀取的字符被確定為定界符,則從該定界符到下定界符的字符在步驟S505被從加載的文本中讀取。讀取的字符與比較字符相比較(S510)。作為步驟S509或S510的比較結果,如果兩個字符彼此相等(S511),則計數(shù)器C被復位為零(S512)。如果比較字符在比較字符隊列的最后(S513),則一個匹配比較字符隊列的字符隊列被確定為在步驟S505中所裝載的文本中給出。該文本在圖像信息存儲部分4-1中的文檔地址被輸出(S514)。
當在步驟S513中確定比較字符不在比較字符隊列的最后時,流程進到步驟S515,以把比較字符移動到下一字符。然后流程前進到步驟S523的處理。
如果在步驟S511中確定在步驟S509或S510中比較的兩個字符彼此不同,則可以確定比較字符的位置是否在字符刪除的位置,該位置在步驟S503中被存儲,同時條件C≤(x-1)被建立(S516)。如果在步驟S516得到確定的回答,則計數(shù)器C被增加(S517),流程前進到步驟S523的處理。然而,如果在步驟S516得到否定的回答,則比較字符被設置在比較字符隊列的首部,計數(shù)器C被設為零(C518),然后,流程前進到步驟S523的處理。
在步驟S506,當步驟S505裝載的文本中沒有字符剩下時,則確另一個候選搜索字是否剩下(S519)。如果步驟S519為NO,則確定文檔沒有任何字符隊列匹配搜索字,文檔比較處理已經(jīng)完成(S522)。但是,如果在步驟S519確認還有另一候選搜索字,那么下一候選搜索字被設進比較字符隊列,且計數(shù)器C被設成零(S520)。在步驟S521,字符數(shù)據(jù)的讀取位置被設在步驟S505讀取的文本信息的首部。流程前進到步驟S523的處理。
在步驟S523,一個字符被讀取,接著,在步驟S524確定所讀數(shù)據(jù)是否為空字符。如果步驟S524確定所讀數(shù)據(jù)是否為空字符。如果步驟S524為NO,則流程返回到步驟S506繼續(xù)比較。如果確定在步驟S524讀取的數(shù)據(jù)是一個空字符,則比較字符在步驟S525被設在比較字符隊列的首部,計數(shù)器C被設成零。然后,一個字符被讀取,流程返回步驟S506繼續(xù)比較處理。
文本信息和搜索字間的比較已在圖5A到圖5C的流程圖中進行了描述。但是,一組文本信息塊在步驟S505被相繼地裝載,步驟S505到S522的處理被重復。因此,本發(fā)明能夠將一組文檔作為比較目標處理。
在考慮OCR處理中產生字符抽取錯誤的情況下,應該與指定的搜索字匹配的字符隊列在整個文檔中被搜索。即使在字符刪除位置給出另一字符隊列,也能夠確定與搜索字匹配的字符隊列。象上述例子一樣,即使在從搜索字“temple”形成的模式“teple”的字符“m”被刪除的位置上,由于字符抽取錯誤,字符隊列“rn”被錯誤地識別,也能夠確定文本“termple”中的一個字符隊列匹配搜索字。因此,即使發(fā)生了字符抽取錯誤,也能夠執(zhí)行精確的搜索操作。
在對完整文檔的搜索處理中,如圖5A到圖5C的流程圖所示,允許地向搜索字添加字符隊列的處理被執(zhí)行。字符串被添加的位置局限于字符刪除位置。
字符半添加的位置不局限于字刪除的位置,在額外字符被增加到相應的搜索字的字符之間時,整個文檔也可能受到搜索,因此會執(zhí)行模糊的搜索處理。這個處理在圖6A到6C的流程圖中進行說明。
與圖5A到5C的流程圖中的處理的相同步驟符號在圖6A到6C中表示相同的步驟,其詳細描述將被省略。
圖6A到6C的特色處理步驟為步驟S603,其中字符刪除位置未被存儲;以及步驟S616,其中只給出條件C≤(x-1)。因此,額外字符可以插入到任意位置。
如上所述,一個指定的搜索字被展開成一組模式,搜索操作使用這組模式進行,或者在額外字符被添加字符刪除位置或另一位置的情況下執(zhí)行搜索操作。其中未給出所要的搜索字符隊列的文檔也可能被搜索。但是,這提供一個重要的效果,即在搜索處理中沒有搜索遺漏。例如,當按照本發(fā)明的方法搜索“pray”時,包括諸如“play”這種容易于“pray”混淆的字符隊列的文檔也可以被搜索,因此允許模糊搜索處理。
日本用戶容易混淆“r”,“s”,“v”和“l(fā)”,“c”,“b”。即使在這種情況下,也可以獲得沒有搜索遺漏的效果。
用與上述實施方式中所述處理中的相同方式,可以形成一組記錄,搜索處理可以用最少的搜索遺漏對數(shù)據(jù)庫執(zhí)行。
在本實施方式中,文檔關鍵字、頁關鍵字或類似東西可以用OCR抽取。
用與上述技術相同的方式,本實施方式也能夠用于這樣的情況用OMR或光學條碼閱讀器獲取的信息具有低的識別似然性。
在本實施方式中,雙重的2字符鍵被用作搜索文件的索引。但是,索引也可能用一個字鍵形成。
在本實施方式中,對應于被搜索的文本信息的圖像信息被輸出。但是,取代圖像信息。文本信息也可能從文本信息存儲部分4-2中讀出,可能作出搜索結果輸出。
在本實施方式中,定界符(@)用作字符鍵之間的分隔。如果字符鍵可以彼此分離,那么可以在不失去本發(fā)明效果的情況下使用用另外字符鍵分隔手段的算法。
本實施方式用字符鍵作為范例,但也可以用字鍵取代字符鍵。
如上所述,可以提供給系統(tǒng)或裝置一個存儲介質(圖10),它存儲了實現(xiàn)上述實施方式的功能的軟件程序,理所當然,該系統(tǒng)或裝置的計算機(CPU或MPU)可以讀出存儲在存儲介質中的程序以達到本發(fā)明的目標。
在這種情況下,從存儲介質讀出和程序代碼本身實現(xiàn)本發(fā)明的一個新功能,存儲該程序代碼的存儲介質構成本發(fā)明。
提供程序代碼的存儲介質的例于是軟磁盤,硬磁盤,光盤,光磁盤,CD-ROM,CD-R,磁帶,內存卡,以及ROM。
上述實施方式的功能的實現(xiàn)并不受計算機讀出的程序代碼的執(zhí)行的限制。計算機上的OS(操作系統(tǒng))或類似東西在程序代碼指令的基礎上執(zhí)行部分或所有的實際處理,由該處理對上述實施方式的功能的實現(xiàn)也包括在本發(fā)明中。
從存儲介質讀出的程序代碼被寫在插入計算機的一塊功能擴展板或連接到計算機的一個功能擴展設備的內存中。裝在功能擴展板或設備上的CPU或類似東西,基于程序代碼的指令執(zhí)行部分或所有的實際處理。由該處理對上述實施方式的功能的實現(xiàn)也包括在本發(fā)明中。
如上面描述的那樣,根據(jù)本發(fā)明,當鍵具有低的OCR識別似然性且不太可能被識別時,候選字符數(shù)不止一個。用上述方法,對應于識別似然性的一組最優(yōu)的識別候選字符被選擇,有效的識別候選信息未被丟存,而是被積累和利用。因此,字符識別中的有效信息將不會丟棄。
如上面描述的那樣,根據(jù)本發(fā)明,可以去除手工修正操作,并布置自動執(zhí)行操作的系統(tǒng),這些操作范圍從圖像輸入到通過OCR處理的圖像數(shù)據(jù)/文本積累。同時,能夠實現(xiàn)一個相對廉價的系統(tǒng),其中的計算機不會過載,可以消除處理速度的衰減。
如上面所述的那樣,根據(jù)本發(fā)明,當鍵具有低的OCR識別似然性且不太可能被識別時,候選字符數(shù)不止一個。相應于識別似然性的一組最優(yōu)識別候選被選擇,有效的識別候選信息未丟棄,而是被積累和利用。因此,可以去除手工修正操作,計算機不會過載,處理速度可以增加。
如上面所述的那樣,根據(jù)本發(fā)明,一個從指定的字符隊列中刪除的字符被定義為對應于一個預定字符的字符,由皮有效地形成一個模式。
如上面所述的那樣,根據(jù)本發(fā)明,一個從指定的字符隊列中刪除的字符被定義為一個不對應一個預定字符的字符,由此有效地形成一個模式。
如上面所述的那樣,根據(jù)本發(fā)明,一個從指定字符隊列中刪除的字符根據(jù)一個預存儲的表被確定,可以有效地高速形成一個模式。
權利要求
1.一種確定一個指定字符隊列是否包括在文本信息中的信息處理方法,包含步驟形成一個模式,其中至少一個字符被指定的字符隊列刪除;以及使用所形成的模式執(zhí)行確定。
2.根據(jù)權利要求1的一種方法,其中所述形成步驟包括形成一組模式類型,在每個模式中一個字符都被從指定的字符隊列刪除,并且所述執(zhí)行步驟包括用這組模式類型執(zhí)行確定。
3.根據(jù)權利要求1的一種方法,其中從指定的字符隊列刪除的字符被定義為對應一個預確定的字符的字符。
4.根據(jù)權利要求1的一種方法,其中從指定的字符隊列刪除的字符被定義為不對應一個預確定的字符的字符。
5.根據(jù)權利要求1的一種方法,其中從指定的字符隊列刪除的字符由一個預存儲的表來確定。
6.根據(jù)權利要求1的一種方法,其中文本信息是輸入圖像信息的字符識別的結果。
7.根據(jù)權利要求1的一種方法,進一步包括步驟將模式劃分成字符隊列,每個字符隊列具有一個預確定的字符數(shù),其中所述執(zhí)行步驟根據(jù)在所述劃分步驟中獲得的字符隊列是否包括在文本信息中來執(zhí)行確定。
8.根據(jù)權利要求1的一種方法,其中確定通過確定字符隊列的每個字符是否等同于文本信息來執(zhí)行。
9.根據(jù)權利要求1的一種方法,進一步包括步驟輸出被確定包括指定的字符隊列的文本信息。
10.根據(jù)權利要求6的一種方法,進一步包括步驟輸出相應于被確定包括指定的字符隊列的文本信息的圖像信息。
11.一種確定一個指定字符隊列是否包括在文本信息中的信息處理方法,包括步驟把指字的字符隊列劃分成多個字符隊列,每個隊列具有一個預確定的字符數(shù);以及用每個具有預確定字符數(shù)的字符隊列執(zhí)行確定,這些字符隊列在所述劃分步驟中獲得。
12.根據(jù)權利要求11的一種方法,其中文本信息是輸入圖像信息的字符識別的結果。
13.根據(jù)權利要求11的一種方法,其中確定包括確定在所述劃分步驟獲得的字符隊列中的每個字符是否等同于文本信息。
14.根據(jù)權利要求11的一種方法,進一步包括步驟輸出被確定包括指定的字符隊列的文本信息。
15.根據(jù)權利要求12的一種方法,進一步包括步驟輸出對應于被確定包括指定的字符隊列的文本信息的圖像信息。
16.一種確定一個指定的字符隊列是否包括在文本信息中的信息處理方法,包括步驟形成一個模式,其中至少一個字符被從指定的字符隊列刪除;以及在假設另一字符在所形成模式的字符刪除位置被插入的前提下執(zhí)行確定。
17.根據(jù)權利要求16的一種方法,其中文本信息是輸入圖像信息的字符識別的結果。
18.根據(jù)權利要16的一種方法,其中從指定的字符隊列中刪除的字符被定義為對應于一個預確定的字符的字符。
19.根據(jù)權利要求16的一種方法,其中從指定的字符隊列中刪除的字符被定義為不對應一個預確定字符的字符。
20.根據(jù)權利要求16的一種方法,其中從指定的字符隊列中刪除的字符由一個預存儲的表確定。
21.根據(jù)權利要求16的一種方法,其中的確定包括確定所形成模式的每個字符是否等同于文本信息。
22.根據(jù)權利要求16的一種方法,進一步包括步驟輸出被確定包括指定的字符隊列的文本信息。
23.根據(jù)權利要求17的一種方法,進一步包括步驟輸出對應于被確定包括指定的字符隊列的文本信息的圖像信息。
24.一種信息處理裝置,包括存儲文本信息的文本信息存儲裝置;執(zhí)行確定一個指定的字符隊列是否包括在文本信息中的確定的確定裝置;以及形成一個模式的模式形成裝置,在該模式中至少一個字符被從指定的字符隊列中刪除。其中所述確定裝置用形成的模式執(zhí)行確定。
25.根據(jù)權利要求24的一種裝置,其中所述模式形成裝置形成一組類型的模式,在每種模式中一個字符被從指字的字符隊列中刪除;以及,所述確定裝置用這組模式類型執(zhí)行確定。
26.根據(jù)權利要求24的一種裝置,其中由所述模式形成裝置從指定的字符隊列中刪除的字符被定義為對應于一個預確定的字符的字符。
27.根據(jù)權利要求24的一種裝置,其中由所述模式形成裝置從指定的字符隊列中刪除的字符被定義為一個不對應預確定的字符的字符。
28.根據(jù)權利要求24的一種裝置,其中由所述模式形成裝置從指定的字符隊列中刪除的字符由一個預存儲的表確定。
29.根據(jù)權利要求24的一種裝置,其中文本信息是輸入圖像信息的字符識別的結果。
30.根據(jù)權利要求24的一種裝置,進一步包括模式劃分裝置,它把模式劃分成各具有預確定的字符數(shù)的字符隊列;其中所述確定裝置根據(jù)被劃分的字符隊列是否包括在文本信息中來執(zhí)行確定。
31.根據(jù)權利要求24的一種裝置,其中所述確定裝置確定字符隊列的每個字符是否等同于文本信息的字符。
32.根據(jù)權利要求24的一種裝置,進一步包括文本信息輸出裝置,它輸出由所述確定裝置確定的包括指定的字符隊列的文本信息。
33.根據(jù)權利要求29的一種裝置,進一步包括圖像信息輸出裝置,它輸出相應于由所述確定裝置確定的包括指定的字符隊列的文本信息的圖像信息。
34.一種信號處理裝置,包括存儲文本信息的文本信息存儲裝置;執(zhí)行確定一個指定的字符隊列是否包括在文本信息中的確定的確定裝置;以及字符隊列劃分裝置,它把指定的字符隊列劃分成各具有一個預確定的字符數(shù)的字符隊列。其中所述確定裝置用各具有預確定的字符數(shù)的被劃分的字符隊列執(zhí)行確定。
35.根據(jù)權利要求34的一種裝置,其中文本信息輸入圖像信息的字符識別的結果。
36.根據(jù)權利要求34的一種裝置,其中所述確定裝置確定所劃分的字符隊列的每個字符是否等同于文本信息的字符。
37.根據(jù)權利要求34的一種裝置,進一步包括文本信息輸出裝置,它輸出由所述確定確定包括指定的字符隊列的文本信息。
38.根據(jù)權利要求35的一種裝置,進一步包括圖像信息輸出裝置,它輸出對應于由所述確定裝置確定包括指定的字符隊列的文本信息的圖像信息。
39.一種信息處理裝置,包括存儲文本信息的文本信息存儲裝置;執(zhí)行確定一個指定的字符隊列是否包括在文本信息中的確定的確定裝置;以及模式形成裝置,它形成一種模式,其中至少一個字符被從指定的字符隊列中刪除。其中所述確定裝置在假設另一字符在所形成的模式的字符刪除位置被插入的前提下執(zhí)行確定。
40.根據(jù)權利要求39的一種裝置,其中文本信息是輸入圖像的字符識別的結果。
41.根據(jù)權利要求39的一種裝置,其中由所述模式形成裝置從指定的字符隊列中刪除的字符被定義為對應于一個預確定的字符的字符。
42.根據(jù)權利要求39的一種裝置,其中由所述模式形成裝置從指定的字符隊列中刪除的字符被定義為一個不對應預確定的字符的字符。
43.根據(jù)權利要求39的一種裝置,其中由所述模式形成裝置從指定的字符隊列中刪除的字符由一個預存儲的表確定。
44.根據(jù)權利要求39的一種裝置,其中所述確定裝置確定所形成模式的每個字符是否等同于文本信息的字符。
45.根據(jù)權利要求39的一種裝置,進一步包括文本信息輸出裝置,它輸出由所述確定裝置確定的包括指定的字符隊列的文本信息。
46.根據(jù)權利要求40的一種裝置,進一步包括圖像信息輸出裝置,它輸出對應于由所述確定裝置確定的包括指定的字符隊列的文本信息的圖像信息。
47.一種存儲介質,存儲執(zhí)行確定以確定一個指定的字符隊列是否包括在文本信息中的控制程序,包括形成一個模式的步驟的代碼,在該模式中至少一個字符被從指字的字符隊列中刪除;以及用所形成的模式執(zhí)行判斷的代碼。
全文摘要
當從對一幅輸入圖像的字符識別中獲得的結果被用作搜索操作的文本數(shù)據(jù)時,一種適當?shù)乃阉鞑僮骺杀粓?zhí)行,即使在字符識別處理中由于字符抽取錯誤,一個不同于實際字符圖像的字符被存儲為文本數(shù)據(jù)。一種信息處理裝置包括一個輸入圖像信息的圖像掃描儀;識別輸入圖像的OCR軟件;存儲識別結果的文本信息存儲部分;以及假設在一個指字的搜索字中添加額外字符的文檔搜索軟件。
文檔編號G06F17/30GK1149737SQ9610858
公開日1997年5月14日 申請日期1996年7月3日 優(yōu)先權日1995年7月3日
發(fā)明者椎山弘隆 申請人:佳能株式會社