亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于查詢用光學字符識別創(chuàng)建的電子文檔的系統(tǒng)和方法

文檔序號:6418958閱讀:168來源:國知局

專利名稱::用于查詢用光學字符識別創(chuàng)建的電子文檔的系統(tǒng)和方法
技術(shù)領(lǐng)域
:本發(fā)明是關(guān)于計算機數(shù)據(jù)庫查尋的方法、裝置和計算機產(chǎn)品,更具體地說,是關(guān)于查尋用光學字符識別技術(shù)創(chuàng)建的文檔的方法、裝置和計算機產(chǎn)品。商務(wù)和政府依靠的大量信息是而且一直是存儲在紙上。隨著易于訪問的廣域網(wǎng)、高速光掃描器和便宜的海量存儲器的出現(xiàn),在近些年已在試圖使紙上信息成為機器可訪問的。機器可訪問的信息與紙相比有很多優(yōu)點。電子數(shù)據(jù)存儲比在儲藏室內(nèi)的文檔柜要便宜得多,特別是一旦考慮租金則更是如此。檢索時間以秒或十分之幾秒來計算,而不是分、小時或者甚至天,特別是對于大量歸檔的信息。信息復制成為小事一樁,而且許多人能同時訪問一個文檔。可惜,把大量存在的紙上信息轉(zhuǎn)換成機器可訪問的形式則是令人膽怯的任務(wù)。一種方法使用光掃描器掃描每個文檔并在掃描文檔時自動處理每個文檔。光掃描器創(chuàng)建一個文檔的電子圖像。光學字符識別(OCR)軟件處理這電子圖像并創(chuàng)建代表該文檔的電子文本文檔。“建索引”軟件讀每個文本文檔并為所有這些文檔建立索引。然后,查尋程序能使用這個索引得到含有指定詞或詞組合的文檔的位置。對文檔建索引和查尋的過程稱作全文本建索引和檢索。全文本建索引和檢索有兩個強有力的優(yōu)點它是完全自動的(因而比較省錢),而且它是直接基于被掃描文檔的實際內(nèi)容。高端檢索系統(tǒng)可以包括對上下文的敏感性,當用戶指定文檔的主題而不是它的嚴格短語時,這種對上下文的敏感性允許對含有相關(guān)詞的文檔確定其位置。萬維網(wǎng)查尋引擎使用全文本檢索引擎查尋成百萬個文檔。有時查尋引擎沒能對使用掃描器和OCR軟件創(chuàng)建的文檔確定其位置。這是由于在由掃描產(chǎn)生的文檔所構(gòu)成的大數(shù)據(jù)庫中存在大量的錯誤。一個大數(shù)據(jù)庫可能包括多于一百萬個文檔和千萬個頁面。為了查尋一個文檔,用戶必須指定三個或更多個詞或詞組的組合,以使文檔是唯一的,或者至少使查尋結(jié)果限制在可管理的大小。如果可能的目標文檔在其用于查尋的關(guān)鍵詞中存在錯誤,則查尋引擎將不能對該文檔確定其位置。OCR程序往往每頁產(chǎn)生若干個錯誤。這種錯誤的例子是一個字母被錯誤地表示為類似的字母,如大寫的“I”被誤認為是小寫的“l(fā)”。對這個問題的一個解決辦法是“模糊查尋”。模糊查尋是基于這樣的概念,即含有錯誤的詞在構(gòu)造上類似于該詞的真正版本。例如,“internet”和“intermet”在構(gòu)造上是類似的。從第一個詞中刪去一個字母并在其他字母中替入一個“m”,則第一個詞變成第二詞。模糊查尋例行程序?qū)Π岩辉~變成另一詞所必須的改變計數(shù)。如果需要足夠少的改變,則報告一次匹配。因為在查尋過程中數(shù)據(jù)庫中的每個獨特詞都要單個地與該關(guān)鍵詞比較以確定是否有匹配,所以這種方法在計算上是昂貴的。因為OCR錯誤經(jīng)常產(chǎn)生“獨特詞”,所以含有大檔案全文本索引的數(shù)據(jù)庫能有超過百萬個獨特詞要與每個關(guān)鍵詞進行比較。即使在快速服務(wù)器上,這樣的查尋也是費時間的。除了它所用的時間量外,模糊查尋還能造成大量“命中”。在一個大數(shù)據(jù)庫中,許多查尋返回數(shù)千個匹配?!癐nternet”與“intemet”類似,但也類似于“intem”,“undernet”,甚至“international”。對“boat”的查尋可能匹配“coat”,盡管OCR程序很不可能把“b”混淆為“c”。希望有一種機制,它允許查尋引擎準確地定位由OCR軟件創(chuàng)建的電子文檔。最好是這種機制能識別通常由OCR軟件產(chǎn)生的錯誤并解釋有最高發(fā)生概率的錯誤。此外,最好是該機制能使用戶請求查尋時的處理量減至最小,以便減少每次查尋的時間。根據(jù)本發(fā)明,提供了一種方法和計算機產(chǎn)品,用于處理一個查尋請求以補償光學字符識別(OCR)掃描過程中被不適當解釋的字符或字符串。在收到一個字母數(shù)字查尋請求之后,本發(fā)明的機制根據(jù)預先定義的可能OCR替換表、OCR替換發(fā)生概率以及預先定義的發(fā)生概率閾值,確定與所收到的字母數(shù)字查尋相關(guān)聯(lián)的變體詞。然后對這些變體詞查尋具有OCR掃描文檔的數(shù)據(jù)庫。根據(jù)本發(fā)明的其他方面,通過確定代表查尋請求各部分的OCR解釋的各詞段,來確定變體詞。對每個詞段確定一個累積概率,如果一個詞段的累積概率低于預先確定的閾值,則該詞段被拒絕作為變體詞。根據(jù)本發(fā)明的又一些方面,創(chuàng)建了樹數(shù)據(jù)結(jié)構(gòu),有分支節(jié)點和替換節(jié)點。每個分支節(jié)點代表OCR處理過程中一個字符的可能輪廓。每個替換節(jié)點代表與父分支節(jié)點對應的字符的可能OCR替換。沿著從根節(jié)點到葉節(jié)點的路徑的替換節(jié)點構(gòu)成變體詞。由一替換節(jié)點的發(fā)生概率乘以該節(jié)點的祖父替換節(jié)點的累積發(fā)生概率,以此確定該替換節(jié)點的累積概率。如從上面的概要容易理解的那樣,本發(fā)明為用光學字符識別產(chǎn)生的電子文檔的詞查尋提供了一種新的改進的方法、裝置和計算機產(chǎn)品。本發(fā)明減少了由于文檔當初轉(zhuǎn)換成電子形式時OCR錯誤造成的查詢過程中漏失文檔數(shù)。本發(fā)明還通過減小收到查尋請求后要完成的處理量來減少了完成一個查尋所需要的時間量。最后,因為以這種方式構(gòu)成的變體詞很少是數(shù)據(jù)庫的自然語言中的合法詞,所以極大地減少了誤“命中”數(shù)。通過結(jié)合附圖參考下文中的詳細描述,將會更好地懂得本發(fā)明的前述各方面及伴隨的優(yōu)點,從而使這些變得更加易于解釋,這里圖1顯示適于實現(xiàn)本發(fā)明的計算機系統(tǒng)的一些基本組成部分;圖2是流程圖,說明為使本發(fā)明工作所使用的光學字符識別(OCR)統(tǒng)計表的產(chǎn)生過程;圖3和圖4是流程圖,說明根據(jù)本發(fā)明查尋一OCR掃描文檔數(shù)據(jù)庫的過程;圖5是示例節(jié)點圖,說明根據(jù)本發(fā)明進行的預處理;以及圖6是關(guān)系圖,說明在如圖2所示創(chuàng)建的統(tǒng)計表中存儲的來自圖5查尋舉例的信息的關(guān)系。圖1顯示根據(jù)本發(fā)明構(gòu)成的文本查尋系統(tǒng)20的組成部分。更具體地說,該文本查尋系統(tǒng)20包括具有預先存儲的統(tǒng)計表23的存儲器22,與存儲器22耦合的預處理器24,用于向預處理器輸入查詢請求的用戶接口裝置26,用于從預處理器24接收查尋請求的查尋引擎28以及數(shù)據(jù)庫30,在數(shù)據(jù)庫30中包括由查尋引擎28查尋的預存文檔。系統(tǒng)20還可以包括光掃描文檔的掃描器32和處理由掃描器32產(chǎn)生的圖像以產(chǎn)生供插入數(shù)據(jù)庫30的文本文檔的光學字符識別(OCR)程序34。接口裝置26包括用戶輸入裝置(如鍵盤和鼠標)和輸出裝置(如顯示裝置或打印機)。在這一例中,預處理器24和查尋引擎28位于主計算機21內(nèi)。然而,如本領(lǐng)域普通技術(shù)人員容易理解的那樣,預處理器24和查尋引擎28可以彼此遠離。例如,預處理器24可以位于客戶主計算機中,而查尋引擎28可以位于一服務(wù)器計算機系統(tǒng),它通過公共或?qū)S脭?shù)據(jù)網(wǎng)絡(luò)與預處理器24相連。在另一種配置中,用戶接口裝置26可連于一客戶計算機,后者通過計算機網(wǎng)絡(luò),如廣域網(wǎng)或局域網(wǎng),與主計算機21通信。此外,數(shù)據(jù)庫30可以駐留在主計算機21上或者駐留在一個單獨的計算機上,它或者直接或者通過計算機網(wǎng)絡(luò)與主計算機21通信。在適當?shù)剡\行查尋系統(tǒng)20之前,要產(chǎn)生統(tǒng)計表23。如圖2中所示,在塊40,確定每個字符或字符串的可能由OCR產(chǎn)生的變體(錯誤),以及每個變體的發(fā)生概率??梢砸詭追N方式由實驗完成建立可能變體及其發(fā)生概率列表。例如,將字處理系統(tǒng)產(chǎn)生的若干文檔打印出來。然后由掃描器32掃描打印出的文檔并由OCR程序34處理。然后將OCR掃描的文檔與原始字處理產(chǎn)生的文檔進行比較。確定其差異及差異的發(fā)生概率。用于產(chǎn)生統(tǒng)計表的OCR技術(shù)最好與把文檔送入數(shù)據(jù)庫所用的OCR技術(shù)相似。在塊42,產(chǎn)生一個表,它包括已確定產(chǎn)生了的所有字符和字符組合,以及相應的發(fā)生概率。最佳統(tǒng)計表23示于圖6,并在下文中進一步詳細討論。在產(chǎn)生統(tǒng)計表23之后,查尋系統(tǒng)20已準備好完成對數(shù)據(jù)庫30的有效查尋,數(shù)據(jù)庫30中包括用OCR技術(shù)送入數(shù)據(jù)庫的文檔。如圖3中所示,在塊50,由預處理器24接收一查尋請求。最好是由用戶與用戶接口裝置26交互作用來送入查尋請求,然后將查尋請求傳送到預處理器24。接下來,在塊52,預處理器24根據(jù)統(tǒng)計表和預先確定的發(fā)生概率閾值,確定與所請求查尋相關(guān)聯(lián)的變體查尋詞。這一確定過程示于圖4并在下文中更詳細地描述。最后,在塊54,查尋引擎28根據(jù)所確定的變體查尋詞查尋數(shù)據(jù)庫30。然后將查尋結(jié)果送到用戶接口裝置26供用戶觀看。圖4顯示確定與所請求查尋關(guān)聯(lián)的變體替換詞的過程70。過程70構(gòu)建一組節(jié)點,它們在一樹形結(jié)構(gòu)中鏈接。在討論確定變體替換詞的過程70之前,先提供對統(tǒng)計表23(圖1)的解釋。圖6顯示一示例統(tǒng)計表23,它包括關(guān)于OCR處理過程中特定錯誤統(tǒng)計概率的數(shù)據(jù)。如圖6中描述的那樣,在本發(fā)明的一個實際實施例中,統(tǒng)計表23包括一個分支表200和一個替換表202。分支表200包含一組條目204、206、208和210,每個條目代表一個字符或字符組合。這些條目代表的字符或字符組合可以構(gòu)成由OCR程序34(圖1)處的電子圖像。特別是,分支表條目代表OCR處理過程中OCR程序34可以認為是單個字符的字符或字符組合。圖6只描述了少量這種條目,用以說明確定變體替換詞的過程70(圖4)。一個實際的統(tǒng)計表23包括多得多的條目,特別是字母表的每個字母都相應地有一個條目。最好是,在分支表中的條目204、206、208、210組織到一個允許快速查尋的結(jié)構(gòu)中,如散列表(hashtable)。散列表對于計算機編程領(lǐng)域的技術(shù)人員來說是眾所周知的,這里只在為描述本發(fā)明必須時才討論它。每個分支表條目204、206、210有指針指向替換表202中相應的替換表條目212、214、216、218。一個替換表條目212、214、216、218包含一組OCR變體條目,這些變體條目代表由相應分支表條目代表的字符組合的可能的OCR解釋。例如,如圖6所示,分支表條目204代表單個字母“G”?!癎”分支表條目204對應于和指向替換表條目212。替換表條目212包括三個變體條目220、222、224。變體條目220含有字母“G”,所代表的信息是一個OCR程序34(圖1)可能把字母“G”解釋成“G”。在這種情況下,該解釋是一個正確解釋。在圖6中描述的變體條目220包括概率值226(.95),指出OCR程序34有95%的概率把字母“G”解釋為“G”。下一個變體條目222含有一個“6”,以及概率值228(0.03)。這表明有3%的概率OCR程序34將把“G”解釋為“6”。替換表條目212也包括一個變體條目224,它指定為“無(none)”,以及概率值230,其值為0.01。這一條目代表的信息是有1%的概率,OCR程序34將丟失字符“G”或把它解釋為不是字符。雖然圖6所示替換表條目212只含有3個變體條目,但與代表字母“G”的分支表204相對應的實際替換表條目可能含有更多的條目。所列舉的概率值不是實際的概率值,而是用于簡化說明。OCR領(lǐng)域的技術(shù)人員將會認識,不同的環(huán)境,如不同的OCR技術(shù)和文檔類型,將會在表23中引起稍有不同的值。最好是每個替換表條目包含的變體條目對應于其概率超過預先確定的閾值值的變體條目。為使表的大小減至最小,每個替換表條目可以假定為含有一個條目,它對應于其概率超過一預先確定的閾值值的替換,該預先確定的閾值必定大大小于從用戶介面26送到預處理器24的請求中所用的最低閾值值。類似地,代表字母“I”的分支表條目206對應于并指向替換表條目214。這一替換表條目描述4個變體條目232、234、236和238,分別代表可能的替換“I”,“l(fā)”,“1”(-),以及無。每個條目232、234、236、238包括相應的概率值240、242、244、246。分支表條目208代表字符組合“IN”。一個OCR程序可能以一個統(tǒng)計發(fā)生概率錯誤地解釋一個字符組合。例如,如圖6中所示,分支表條目208對應于并指向替換表條目216,它含有對字符組合“IN”的可能解釋。如圖6中所示,替換表條目216含有兩個變體248和250,代表替換“M”和無。為了便于說明,與變體條目248和250對應的概率值254和256分別為0.05和0.03。替換表條目216還可以包表一個代表可能的替換“IN”的變體條目,表明OCR程序可以把字母組合“IN”解釋為正確的字母組合“IN”。然而,使用這一條目發(fā)現(xiàn)一變體查尋詞重復了遵循對應于“I”和“N”的分支表條件所能發(fā)現(xiàn)的同一查尋詞。所以,在替換表條目216中關(guān)于“IN”的條目最好刪除,除非由“I”和“N”的那些值預測的概率統(tǒng)計差異要求它留在那里。如果它保留,則在處理一個查尋請求時“IN”的分支節(jié)點條目(下文描述)將取代關(guān)于“I”和“N”的分支節(jié)點條目。圖6中的分支表條目代表字符“S”并指向替換表條目218。替換表條目218有條目對應于OCR替換“S”、“5”和無。替換表條目可以優(yōu)化為排除與無字符對應的變體條目224、250和262。取而代之的是OCR程序34可已包含代碼“知道”與每個分支表條目對應的空替換。在這種優(yōu)化中可以對相應的空替換使用固定的概率值。圖5顯示示例決策樹110,它是在確定與一請求查尋詞相關(guān)聯(lián)的變體替換詞的過程70的進行過程中由預處理器24創(chuàng)建的。決策樹110代表OCR程序34在解釋和翻譯一個詞的圖像以創(chuàng)建等效文本的過程中可以遵循的路徑。每個分支節(jié)點代表輸入圖像中的下一個字符的可能輪廓。因為OCR程序可能把兩個或更多個字符理解為一單個字符,所以一個分支節(jié)點可能代表一個或多個字符。每個替換節(jié)點代表由該替換節(jié)點的父分支節(jié)點所代表的一個或多個輸入字符的可能解釋。為說明過程70,假定一個請求查尋詞是“SING”。預處理器24完成創(chuàng)建決策樹110的過程70,以確定其發(fā)生概率高于指定的預先確定閾值概率的查尋詞可能變體。決策樹110有根節(jié)點120,它作為該樹的根。根節(jié)點是替換節(jié)點的一個特殊情況,它有概率1.0。在根節(jié)點120之下有不同的節(jié)點級,包含一個分支節(jié)點級后跟一個替換節(jié)點級,后跟另一個分支節(jié)點級和另一個替換節(jié)點級。決策樹110含有為完成確定變體替換詞的過程70所必須的多個節(jié)點級。根節(jié)點120被認為是決策樹110的零級。存在于每個分支節(jié)點級的分支節(jié)點代表作為圖像輸入到OCR程序34(圖1)中的字符或字符組合。每個分支節(jié)點對應于分支表200(圖6)中的分支表條目204、206、208或210。在每個替換節(jié)點級存在的替換節(jié)點代表作為解釋相應分支節(jié)點的結(jié)果由OCR程序產(chǎn)生的字符或字符組合。每個替換節(jié)點對應于替換表202中的一個變體條目。分支節(jié)點的每個子節(jié)點代表替換表條目中的一個變體條目,該條目是由對應于該分支節(jié)點的分支表條目指向的。例如,在第一分支節(jié)點級112,根節(jié)點120有4個“子”分支節(jié)點“S”分支節(jié)點122、“SI”分支節(jié)點124、“SIN”分支節(jié)點126以及“SING”分支節(jié)點128,它們分別代表輸入字符“S”、“SI”、“SIN”及“SING”。這表明OCR程序34可以把這些字符組合的任何一個認作詞“SING”的第一字符。如圖5所示,分支節(jié)點122有3個子節(jié)點“S”替換節(jié)點130、“5”(五)替換節(jié)點132以及空替換節(jié)點134。這些替換節(jié)點代表的信息是OCR程序34可能把“SING”中的“S”分別解釋為“S”、“5”或無字符。如下文中進一步討論的那樣,“S”替換節(jié)點130、“5”替換節(jié)點132及空替換節(jié)點134是從統(tǒng)計表23中的分支表條目210所對應的替換表條目218(圖6)中取出的。在第一替換節(jié)點級113上的每個替換節(jié)點130、132、134有零個或多個子分支節(jié)點。在第二分支節(jié)點級114上的每個分支節(jié)點代表OCR程序34在處理先前的字符或字符組合之后感覺到的下一個字符或字符組合,這里的先前字符或字符組合由新分支節(jié)點的祖父節(jié)點代表。例如,如圖5所示,在處理3由“S”分支節(jié)點122代表的字符“S”,并把“S”解釋為由“S”替換節(jié)點130代表的字符“S”之后,要處理的下一個字符或字符組合或者是“I”、“IN”或“ING”,如“I”分支節(jié)點135、“IN”分支節(jié)點136及“ING”分支節(jié)點138所分別代表的那樣。類似地,在處理3由“S”分支節(jié)點122代表的“S”并把“S”解釋為由“5”(五)替換節(jié)點132代表的“5”之后,由OCR程序34處理的下一個字符或字符組合是“I”、“IN”或“ING”,如“I”分支節(jié)點140、“IN”分支節(jié)點142及“ING”分支節(jié)點144所分別代表的那樣。請注意,分支節(jié)點140、142和144分別類似于分支節(jié)點135、136和138,因為這兩組分支節(jié)點都代表在處理了祖父分支節(jié)點122所代表的字符組合之后由OCR程序34處理的下一個字符或字符組合。在第二替換節(jié)點級115上的替換節(jié)點代表它們在第二分支節(jié)點級114上的父分支節(jié)點的可能替換。通過在統(tǒng)計表23的分支表200(如圖6所示)中查找其分支節(jié)點級114上的父分支節(jié)點而得到每個替換節(jié)點。例如,分別代表可能的替換“I”、“l(fā)”、“1”(-)和無的“I”替換節(jié)點146、“l(fā)”替換節(jié)點148、“1”(-)替換節(jié)點149以及空替換節(jié)點150是“I”分支節(jié)點134的子節(jié)點。這些替換節(jié)點對應于替換表條目214,它在圖6中顯示為對應于分支表條目206。每個替換節(jié)點有相應的概率值,它代表OCR識別過程中完成相應的替換以及該替換節(jié)點的前輩替換節(jié)點們所代表的所有替換的概率。對任何替換節(jié)點的概率值包含它的前輩替換節(jié)點的概率。對應于一個替換節(jié)點的累積概率是通過把替換表中相應變體條目中的概率值乘以該替換節(jié)點的祖父替換節(jié)點的累積概率計算出來的。例如,“I”替換節(jié)點146對應于變體條目232(圖6),它的概率值240為0.92。然后這個值0.92乘以祖父“S“替換節(jié)點130的累積概率,它是0.98。所以,“I”替換節(jié)點146的累積概率是0.92×0.98,或者說0.9016。類似地,對應于“l(fā)”(el)替換節(jié)點148的累積概率是0.02×0.98,或者說0.0196。如上文討論的那樣,圖5中所示決策樹110是一個示例,是為了演示目的。在本發(fā)明的實際實踐中,圖5所示的某些節(jié)點可能不被創(chuàng)立,或者還可能有創(chuàng)立的其他節(jié)點。在本發(fā)明的最佳實施例中,只有當從根節(jié)點120到那些節(jié)點的路徑所代表的累積替換具有的概率超過一指定閾值概率時才能在替換樹110中創(chuàng)建那些節(jié)點。返回到圖4,現(xiàn)在結(jié)合圖5中所示示例決策樹110和圖6中所示相應的示例統(tǒng)計表23,討論與所請求查尋關(guān)聯(lián)的變體替換詞的確定過程70。確定變體替換詞的過程70包括創(chuàng)建決策樹,如圖5上的決策樹110。在過程70的執(zhí)行過程中,預處理器24維持的數(shù)據(jù)稱作“當前節(jié)點”。在塊71,預處理器24創(chuàng)建根節(jié)點120并把此根節(jié)點設(shè)為當前節(jié)點。在步驟72,預處理器創(chuàng)建當前替換節(jié)點的子分支節(jié)點。如前文討論的那樣,每個子分支節(jié)點代表由OCR程序34對下一個字符的可能識別。當根節(jié)點120是當前節(jié)點時,尚沒有字符被處理過。所以,所創(chuàng)建的子分支節(jié)點是分支節(jié)點122、124、126和128,分別對應于輸入字符識別為“S”、“SI”、“SIN”和“SING”。在步驟74,確定是否存在當前節(jié)點的子分支節(jié)點,它尚未被充分處理。在創(chuàng)建新分支節(jié)點后第一次達到第一步驟時,還沒有任何子分支節(jié)點已被處理過。所以回答是“是”,于是處理進入步驟76。在步驟76,下一個未被處理的子分支節(jié)點被設(shè)為當前節(jié)點。在圖5的示例決策樹中,第一次完成步驟76,分支節(jié)點122被設(shè)為當前節(jié)點。在步驟80,確定對于當前分支節(jié)點是否還存在尚未被檢驗的任何替換。這一確定包括檢驗與當前分支節(jié)點對應的替換表202中的條目。如圖6中所示,替換表條目218對應于有字符“S”的分支表條目210,它對應于“S”分支節(jié)點122。在替換表條目218中,每個變體條目258、260、262是潛在的OCR替換。在第一次進行步驟80時,尚沒有任何替換已被檢驗過。在步驟82,對當前節(jié)點檢索出一個替換。例如,在第一次進行步驟82時,從替換條目表218中檢索出替換“S”。在步驟84,計算檢索出的OCR替換的累積概率。這一計算是把與該替換對應的概率值乘以當前分支節(jié)點122的父替換節(jié)點的累積概率來完成的。在過程的這一點,父節(jié)點是根節(jié)點120,它有累積概率1.0。所以“S”的OCR替換的累積概率是0.98×1.0=0.98。在步驟86,確定計算出的累積概率是否超過預先確定的閾值。如果累積概率超過預先確定的閾值,則在步驟88創(chuàng)建對應于檢索出的替換的新替換節(jié)點。例如,創(chuàng)建了“S”替換節(jié)點130。在步驟86計算出的累積概率存儲在“S”替換節(jié)點130中。然后把新創(chuàng)建的節(jié)點設(shè)為當前節(jié)點。然后流程控制回到步驟72,在那里創(chuàng)建當前節(jié)點的新的子分支節(jié)點。在圖5的示例決策樹110中,創(chuàng)建分別代表“I”、“IN”、和“ING”可能的下一字符識別的分支節(jié)點135、136和138。上面討論的步驟系列重復進行,以創(chuàng)建新的分支節(jié)點和替換節(jié)點,并使決策樹110下行。如圖5所示,創(chuàng)建了“N”分支節(jié)點152,子“N”替換節(jié)點154、“G”分支節(jié)點156及“G”替換節(jié)點158。在步驟88創(chuàng)建“G”替換節(jié)點158并使它成為當前節(jié)點之后,在步驟72已沒有要創(chuàng)建的子分支節(jié)點。這是因為輸入詞“SING”的所有字符已被處理。所以,在步驟74,確定已經(jīng)沒有當前節(jié)點的任何子分支節(jié)點尚未被處理。然后流程控制進到步驟94,在那里確定當前節(jié)點是否是根節(jié)點。在當前的例子中,當前節(jié)點不是根節(jié)點,于是流程控制進到步驟96,在那里確定當前替換節(jié)點是否有任何子節(jié)點。如果沒有子節(jié)點,則已找到了有效查尋詞。從根節(jié)點到當前節(jié)點的路徑上的替換節(jié)點序列代表該查尋詞。在當前的例子中,“S”替換節(jié)點130、“I”替換節(jié)點146、“N”替換節(jié)點154及“G”替換節(jié)點158的組合代表了查尋詞“SING”,它是本例中輸入圖像的準確解釋。在步驟100,當前替換節(jié)點的父分支節(jié)點被設(shè)為當前節(jié)點。在本例中,“G”分支節(jié)點156被設(shè)為當前節(jié)點。然后流程控制進到步驟80,以檢驗當前節(jié)點的額外替換。然后,如上文討論的那樣,過程繼續(xù),以創(chuàng)建額外的替換節(jié)點,如圖5例子中所示“6”(六)替換節(jié)點160。在步驟98,發(fā)現(xiàn)了以“6”(六)結(jié)尾的有效查尋詞。所以第二個有效查尋詞由替換節(jié)點130、146、154和160代表,它拼寫成“SIN6”。在步驟86,如果所計算的累積概率不超過預先確定的閾值,則流程進到步驟90,在那里把當前分支節(jié)點的父替換節(jié)點設(shè)為當前節(jié)點。在圖5所示示例決策樹中,當“G”分支節(jié)點156是當前節(jié)點時便發(fā)生這種情況,于是檢驗OCR替換空的累積概率。在圖5中,顯示代表該空字符的虛幻空替換節(jié)點162,以說明該空替換被檢驗了,但并未創(chuàng)建一個替換節(jié)點。在本例中,父“N”替換節(jié)點154被設(shè)為當前節(jié)點,于是流程控制返回到步驟74,以確定是否有當前節(jié)點的額外子分支節(jié)點尚未被充分處理。如上文討論的那樣,如果象本例中那樣沒有未被處理的子分支節(jié)點,則流程進到步驟94,然后進到步驟96。在本例中,在步驟96有當前節(jié)點(“N”替換節(jié)點154)的子分支節(jié)點,所以沒有找到查尋詞,于是流程進到步驟100,在那里父分支節(jié)點被設(shè)為當前節(jié)點。以這種方式,過程70執(zhí)行了決策樹110的任務(wù)。過程70最終達到步驟80,這時“I”分支節(jié)點135是當前節(jié)點。如圖5中描述的那樣,OCR替換“l(fā)”(el)被檢驗并創(chuàng)建相應的“l(fā)”(el)替換節(jié)點148。為簡化圖5中所示決策樹110,未劃出“l(fā)”(el)替換節(jié)點148的后代節(jié)點。類似地,創(chuàng)建“1”(-)替換節(jié)點149,過程遵循它的后代節(jié)點(未畫出)。如圖5中所示,虛幻空替換節(jié)點150顯示空替換被檢驗,但未創(chuàng)建替換節(jié)點。如計算機編程領(lǐng)域的技術(shù)人員及其他人易于理解的那樣,繼續(xù)確定變體替換詞的過程70造成圖5所示決策樹110。如圖所示,“IN”分支節(jié)點136有子“M”替換節(jié)點164和絲節(jié)點168和“6”(六)子替換節(jié)點170。顯示出虛幻空替換節(jié)點174和虛幻空替換節(jié)點176,以說明本發(fā)明的過程所考慮的,但并未創(chuàng)建這些節(jié)點,因為它們各自的概率低于預先確定的閾值。最終,根節(jié)點120變?yōu)楫斍肮?jié)點,于是過程進到步驟74,在那里已經(jīng)沒有尚未被充分處理的根目錄額外子分支節(jié)點。然后流程控制進到步驟94,在那里確定當前節(jié)點是根節(jié)點。在這一點,過程70完成了。所有有效的變體查尋詞已創(chuàng)建。如圖5中描述的那樣,該過程確定變體查尋詞包括“SING”、“SIN6”、“SM6”。圖5中未示出其他的變體查尋詞。如計算機編程領(lǐng)域的技術(shù)人員及其他人將會進一步理解的那樣,對上述過程70可進行各種改變而不離開本發(fā)明的精神和范圍。例如,該過程可以確定不需要創(chuàng)建某些分支節(jié)點,如分支節(jié)點124、126和128,因為它們代表的概率低于指定的閾值。此外,在過程70中的步驟的順序可以改變而不離開本發(fā)明。盡管已顯示和描述了本發(fā)明的最佳實施例,但是將會理解,這里可進行各種改變而不離開本發(fā)明的精神和范圍。權(quán)利要求1.一種基于計算機的用于查尋由光學字符識別創(chuàng)建的文檔的數(shù)據(jù)庫的方法,該方法包括接收一個字母數(shù)字查尋請求;根據(jù)預先確定的光學字符識別替換數(shù)據(jù),確定至少一個與該字母數(shù)字查尋請求關(guān)聯(lián)的變體詞,該光學字符識別替換數(shù)據(jù)包括一組光學字符識別替換和與每個光學字符識別替換對應的發(fā)生概率,這里該變體詞不同于該字母數(shù)字查尋請求;以及根據(jù)所述至少一個被確定的變體詞,查尋電子文檔數(shù)據(jù)庫。2.權(quán)利要求1的方法,這里確定至少一個變體詞包括確定一個候選變體詞段,每個候選變體詞段包括一個詞的至少一部分;確定該變體詞段的發(fā)生概率是否高于一預先確定的概率閾值;以及如果該候選變體詞段的發(fā)生概率不高于預先確定的概率閾值,則把該候選變體詞段從所述至少一個變體詞中排除。3.權(quán)利要求2的方法,這里確定該候選變體詞段的發(fā)生概率是否高于預先確定的概率閾值的過程包括根據(jù)預先確定的光學字符識別替換數(shù)據(jù),確定與該候選變體詞段對應的多個光學字符識別替換;組合對應于該候選變體詞的每個光學字符識別替換所對應的發(fā)生概率,以確定與該候選變體詞段對應的發(fā)生概率;以及將與該候選變體詞段對應的發(fā)生概率與預先確定的概率閾值進行比較。4.權(quán)利要求1的方法,進一步包括根據(jù)預先確定的光學字符識別替換數(shù)據(jù),確定與字母數(shù)字查尋請求對應的多個光學字符查尋替換;以及將這多個光學字符識別替換組合,以創(chuàng)建候選變體詞段。5.權(quán)利要求1的方法,進一步包括創(chuàng)建有多個替換節(jié)點的樹狀數(shù)據(jù)結(jié)構(gòu),每個替換節(jié)點對應于與字母數(shù)字查尋請求相對應的光學字符識別替換的一個元素,該樹狀數(shù)據(jù)結(jié)構(gòu)有一個根節(jié)點和至少一個葉節(jié)點,每個葉節(jié)點由對應于該葉節(jié)點的一個路徑鏈接到根節(jié)點;以及把在對應于一個所述葉節(jié)點的路徑上的每個替換節(jié)點所對應的光學字符識別替換組合起來,以創(chuàng)建變體詞。6.權(quán)利要求5的方法,進一步包括根據(jù)預先確定的光學字符識別替換數(shù)據(jù),對每個替換節(jié)點確定一相應的發(fā)生概率;以及對每個替換節(jié)點確定這相應的發(fā)生概率是否超過一預先確定的閾值;以及當與一替換節(jié)點對應的發(fā)生概率不超過該預先確定的閾值時,從所述至少一個變體詞中排除與此替換節(jié)點對應的變體詞。7.權(quán)利要求5的方法,進一步包括在該樹狀數(shù)據(jù)結(jié)構(gòu)中創(chuàng)建一個分支節(jié)點,該分支節(jié)點對應于字母數(shù)字查尋請求的光學字符識別過程中的一個字符的輪廓;創(chuàng)建至少一個替換節(jié)點,它是該分支節(jié)點的子節(jié)點,該子節(jié)點對應于該分支節(jié)點所對應字符的光學字符識別替換。8.權(quán)利要求7的方法,這里與替換節(jié)點對應的光學字符識別替換包括兩個字符。9.權(quán)利要求7的方法,這里與替換節(jié)點對應的光學字符識別替換代表零個字符。10.權(quán)利要求1的方法,這里確定至少一個變體詞包括確定多個變體詞,而且查尋數(shù)據(jù)庫發(fā)生在確定這多個變體詞之后。11.機器可讀的程序存儲裝置,現(xiàn)實地體現(xiàn)可由機器執(zhí)行的指令程序,以實現(xiàn)查尋文檔數(shù)據(jù)庫的方法步驟,該文檔數(shù)據(jù)庫包括由使用光學字符識別創(chuàng)建的文檔,該方法步驟包括接收含有目標字母數(shù)字詞的查尋請求;確定與該目標字母數(shù)字詞對應的多個光學字符識別替換;確定與該目標字母數(shù)字詞對應的變體詞,這里該變體詞不同于目標字母數(shù)字詞,并且是基于該目標字母數(shù)字詞所對應的多個光學字符識別替換;以及對該變體詞查尋該文檔數(shù)據(jù)庫。12.權(quán)利要求11的程序存儲裝置,這里的方法步驟進一步包括確定該目標字母數(shù)字詞所對應的可能的光學字符識別替換;確定與該可能的光學字符識別替換對應的發(fā)生概率;確定與該可能的光學字符識別替換對應的發(fā)生概率是否超過一概率閾值;基于該發(fā)生概率相對于該概率閾值的大小,有選擇地將可能的光學字符識別替換包括到這多個光學字符識別替換中。13.權(quán)利要求11的程序存儲裝置,這里的方法步驟進一步包括指定多個替換節(jié)點,每個替換節(jié)點對應于一個光學字符識別替換,多個替換節(jié)點構(gòu)成層次樹狀結(jié)構(gòu);以及通過包括與一組替換節(jié)點對應的替換來構(gòu)成變體詞,這組替換節(jié)點構(gòu)成了該層次樹狀結(jié)構(gòu)中一個根節(jié)點和一個葉節(jié)點之間的路徑。14.權(quán)利要求11的程序存儲裝置,這里的方法步驟進一步包括指定該層次樹狀結(jié)構(gòu)內(nèi)的多個分支節(jié)點,每個分支節(jié)點對應于目標字母數(shù)字詞的光學字符識別過程中一個字符的輪廓。全文摘要為了補償OCR掃描過程中誤讀的字符或字符串,對查尋請求進行了處理。在輸入一個字母數(shù)字查尋(50)后,根據(jù)預先確定的可能OCR錯誤表、OCR錯誤發(fā)生概率和預先確定的發(fā)生概率閾值,該系統(tǒng)確定與輸入的字母數(shù)字查尋請求關(guān)聯(lián)的變體詞(52)。當完成處理時,查尋引擎便使用這些變體詞去查尋含有OCR掃描文檔的數(shù)據(jù)庫(54)。文檔編號G06K9/72GK1300400SQ99805975公開日2001年6月20日申請日期1999年3月26日優(yōu)先權(quán)日1998年4月1日發(fā)明者威廉·彼得曼申請人:威廉·彼得曼
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1