專利名稱:字符識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對于一種帶有大量字符的語言的字符識別,如日語、漢語或者韓語。
背景技術(shù):
在對如日語、漢語或韓語這樣的具有大量字符的語言進行的字符識別中,采用了這樣一種方法,從輸入圖案中提取特征,以提取出特征向量,特征向量與事先為所有將要被識別的目標字符提取的參考向量之間的距離被計算出來,并且與具有最小距離值的參考向量相對應(yīng)的字符被選中為識別出的字符。
日本專利未審查的公開No.Hei.2-186490中公開了一種系統(tǒng),用于通過計算從輸入字符的圖案中提取的向量與從事先儲存的目標字符中提取出的參考向量之間的距離來進行字符識別。在該系統(tǒng)中,輸入圖案的向量與參考向量之間的歐幾里得距離(Euclidean distance)被計算出來并與一個預定的閾值進行比較,以執(zhí)行字符識別。
日本專利未審查的公開No.Hei.4-286087中公開了一種系統(tǒng),用于通過從輸入字符圖案中提取一個特征向量并計算與儲存在一個特征字典中的參考向量的歐幾里得距離來執(zhí)行字符識別,其中,特征字典針對各個相近的字符類別被分為多個群組,輸入圖案的特征向量與代表每個群組的參考向量之間的距離被計算出來,并對屬于具有最小距離的一個群組的相近字符的參考向量進行詳細的識別處理。
一般來說,在具有大量字符的語言中,如日語、漢語或韓語中,有很大量的特征,例如幾百或幾千種特征被使用,以提高識別的精確性。在基于與每個候選字符相應(yīng)的參考向量的距離的字符識別系統(tǒng)中,通常所花費的計算時間與候選字符的數(shù)目和特征的數(shù)目的成比例的,這樣,識別速度的下降就成為了一個問題。具體地,作為距離,存在著歐幾里得距離 (xi-ri)2、加權(quán)歐幾里得距離 wi(xi-ri)2、城市街區(qū)距離(cityblock distance) |xi-ri|,其中,X=(x1,...,xm)輸入圖案的特征向量Rj=(Rj1,...,rjm)第j個候選字符的參考向量W=(w1,...,wm)特征的加權(quán)向量m特征的數(shù)目n目標字符的數(shù)目在任何情況下,針對各自特征對距離元素(xi-ri)2,|xi-ri|進行n×m次計算,也就是說,計算次數(shù)為(候選字符數(shù)目)×(特征數(shù)目)。
在前述的日本專利未審查的公開No.Hei.4-286087中,歐幾里得距離的計算被限定在相近字符群組,這樣處理速度得到了提高。然而,這預示著,很難適當?shù)卮_定一個代表性的向量作為相近字符群組的選擇標準,并且預示著識別精確度依據(jù)代表向量的質(zhì)量而有所降低。
發(fā)明內(nèi)容
本發(fā)明的一個目的是提高字符識別的速度而不降低識別精確度,即使是在一種包含的候選字符數(shù)目很大的語言中被使用的特征數(shù)目非常大的情況下。
依據(jù)本發(fā)明的一個方面,提供了一種具有下列結(jié)構(gòu)的字符識別系統(tǒng)。即,在通過比較一個從輸入圖案中提取出的特征向量與事先儲存的目標字符的參考向量之間的差距來進行字符識別的字符識別系統(tǒng)中,所有字符根據(jù)該目標字符的出現(xiàn)頻率被分類為多個類別;提供一個用于儲存每個類別的參考向量的字典存儲設(shè)備和一臺計算機;對該計算機進行編程,使其計算特征向量與屬于一個在多個類別中具有最高字符出現(xiàn)頻率的類別的多個字符的參考向量之間的距離并當距離小于一個為該類別所確定的類別閾值時,選擇與該距離相對應(yīng)的一個參考向量的一個字符作為字符候選對象。作為與參考向量的距離,雖然歐幾里得距離、加權(quán)歐幾里得距離、城市街區(qū)距離等被使用,這里通稱為名詞“距離”。
通過來自一組數(shù)量巨大的文本格式文件(這被稱為文本語言資料庫)的統(tǒng)計信息來計算目標字符的出現(xiàn)頻率,例如舊新聞文章,本發(fā)明人從對于每種語言由大約兩千萬個字符組成的文本語言資料庫(corpus)中獲得出現(xiàn)頻率并使用它們。依據(jù)本發(fā)明,所有字符被根據(jù)目標字符的出現(xiàn)頻率分類為多個類別,參考向量被儲存在每個類別的字典中,距離計算是在從輸入字符圖案中提取出的特征向量與屬于多個類別中字符出現(xiàn)頻率最高的類別的多個字符的參考向量之間進行的,當一個距離值滿足一個特定閾值之內(nèi),該字符被選擇為字符候選對象。依據(jù)發(fā)明人獲得的統(tǒng)計數(shù)字,例如,在日語中,屬于出現(xiàn)頻率最高的類別的382個字符占了文本語言資料庫的80%左右。因此,可以預期,同樣在文件中,大約80%的字符被包含在最高頻率類別的382個字符中。本發(fā)明這樣利用統(tǒng)計字符出現(xiàn)頻率的傾向。首先,只針對屬于出現(xiàn)頻率最高的類別的一個字符集進行識別,當獲得出色的識別結(jié)果時,對于其余低出現(xiàn)頻率字符集的識別處理被省略,這樣字符識別處理的速度就被提高了。實際上,進行編程,以使目標字符集被分為多個目標字符集,識別處理是按高頻率的順序進行的,并且省略對頻率低于已獲得出色結(jié)果的字符集的字符集的識別處理。
依據(jù)本發(fā)明的另一個方面,當沒有距離小于類別閾值時,特征向量與屬于具有次高字符出現(xiàn)頻率的類別的多個字符的參考向量之間的距離被計算出來,而當距離小于為該類別確定的第二類別閾值時,與該距離相對應(yīng)的參考向量的字符被選擇為字符候選對象。
依據(jù)本發(fā)明的又一個方面,出于在對參考向量之一的距離計算上同樣提高速度的目的,進行一個通過累計對于所有特征的距離元素來計算距離值的過程,使用n個特征元素的累計進行對一個累計距離值的計算,(1)累計距離值被與一個字符候選對象選擇閾值進行比較,(2)如果它不大于該閾值,則下n個特征元素的距離元素被累計地計算,(1)和(2)的過程反復進行,當累計距離值超過字符候選對象選擇閾值時,判定參考向量被排除出候選對象,并開始進行與下一個參考向量的比較,以使處理時間縮短。進而,依據(jù)本發(fā)明,通過改變累計距離元素的順序,可以有效地根據(jù)累計距離值來進行對距離計算處理的省略。具體地,使用所有目標字符的全部訓練圖案,獲得針對各個特征的距離元素分布,并按其平均值降序進行距離元素的累計。對于這樣的距離元素的排序,存在一種方法可以對所有目標字符的參考向量進行一種通用排序,存在一種方法可以以距離元素的平均分布按降序?qū)γ總€參考向量進行排序,以及類似方法。
特征向量是從所有目標字符的一種訓練圖案中提取出來的,并且參考向量被準備為例如針對日語的數(shù)百維的向量。當觀察了針對所有字符的每一維(即每種特征)的距離元素分布時,距離元素的均值很大就意味著該維特征的作用導致了所有距離值的增長。在正確字符的情況下,由于期望距離值變得很小,可以說,這樣的維特征對于在早期判定一個字符處于候選對象之外是有效的。因此,針對構(gòu)成參考向量的所有字符每維的距離元素均值被提前從訓練數(shù)據(jù)中提取出來,并準備這樣的向量,其中各自參考向量的特征值被按平均值降序排列。同樣針對從輸入圖案中提取的特征向量,按這種順序排序的向量被準備,并且在一個參考向量和該特征向量的距離計算中,以這個順序來進行距離元素的累計。例如,首先,其中累計了最高到50維的距離元素的累計距離值被計算出來,如果這達到了閾值,則判定這個參考向量是在候選對象之外的字符,并開始與下一個參考向量的比較。通過這種作法,由于可以不計算所有數(shù)百維的距離元素來進行識別處理,識別處理的時間可以得到縮短。
進而,依據(jù)本發(fā)明的另一個方面,對計算機進行編程,使其動態(tài)地將具有第m個(m是要被選擇的字符候選對象的數(shù)目)最小距離值的字符候選對象的距離值設(shè)置為字符候選對象選擇閾值。
進而,依據(jù)本發(fā)明的另一個方面,還包括一個用于為任意字符提供具有相近特征字符的相近字符字典,并且對計算機進行編程,使其響應(yīng)多個字符候選對象的選擇,從相近字符字典中取出與每個字符候選對象相近的字符,計算要被識別的特征向量與相近字符的參考向量之間的距離,對多個字符候選對象的距離值和相近字符的距離值進行排序,并以距離升序選擇預定數(shù)目的字符作為識別字符候選對象。通過這種處理,同樣在正確字符存在于已經(jīng)被省略掉的低頻率字符候選對象類別中時,就有可能使其作為相近字符被包含在候選對象中,這樣可以抑制識別精確度的下降。
圖1是一個功能方塊圖,顯示了本發(fā)明的一個實施例的字符識別系統(tǒng)的整體結(jié)構(gòu)。
圖2是一個方塊圖,用于解釋在本發(fā)明的一個實施例中使用的字典的概念。
圖3是一個流程圖,顯示了從類別1的參考向量中選擇字符候選對象的處理過程。
圖4是一個流程圖,顯示了從類別2的參考向量中選擇字符候選對象的處理過程。
圖5是一個流程圖,顯示了從類別3的參考向量中選擇字符候選對象的處理過程。
圖6是一個流程圖,顯示了相近字符處理的處理過程。
具體實施例方式
下面將參照附圖對本發(fā)明的實施例進行描述。圖1是一個功能方塊圖,顯示了在本發(fā)明中使用的一個日語字符識別系統(tǒng)示例的整體結(jié)構(gòu)。這個系統(tǒng)是通過在一個一般用途個人計算機或工作站上運行的程序來實現(xiàn)的。一般來說,這種程序被稱為OCR(光學字符識別)程序。該系統(tǒng)的一種典型輸入圖案是通過由一個光學掃描儀對文件進行掃描而得到的圖像數(shù)據(jù)。
當輸入圖案被接收,OCR程序的字符分段部11對出自位圖格式數(shù)據(jù)的字符進行分段。字符分段本身是一種包含在傳統(tǒng)OCR程序中的功能。在一個字符單元中被分段的圖像數(shù)據(jù)被發(fā)送到一個特征提取部12,并且字符線的傾斜度、寬度、曲率、面積及其他特征被提取出來。在本實施例中,針對日語,對一個字符提取200個特征。因此,輸入圖案被一個200維的向量所表示,如下面的表達式,并且被稱為特征向量。
x=(x1,x2,...,x200)以這種方式提取的特征向量被發(fā)送到特征排序部13,按照基于后面要描述的平均距離的元素列表對特征進行排序,以生成一個新向量,它被發(fā)送到字符候選對象選擇部14,計算對于儲存在參考字符字典15中的多個目標字符的每個參考向量的加權(quán)歐幾里得距離。
這里,將參照圖2對參考字符字典15進行敘述。通過針對字符的各種不同字樣和尺寸的圖像圖案提取特征向量并取其均值,可以獲得對于某一特定字符的一個參考向量。此時,為每個特征值計算偏差(variance),并將其用于加權(quán)歐幾里得距離的計算,其中其倒數(shù)(inverse)成為加權(quán)系數(shù)。
該方法自身是被常規(guī)使用的。所有目標字符的參考向量和加權(quán)向量被儲存在字典23中。使用對這樣儲存的字典23的所有參考向量的全部訓練圖案作為每個特征元素計算距離元素的平均值,并準備一個基于平均距離的特征元素列表24,其中特征的各維被按平均值降序排列。在字典23中保存的各個參考向量和加權(quán)向量的各個特征元素被按照列表以距離元素平均值的降序排列。當距離元素平均值很大時,預期候選字符的特征元素中的距離元素值也變大。這樣,在后面要解釋的距離計算中,距離計算按距離元素平均值的降序被執(zhí)行。為此,對于從輸入圖案中提取的特征向量,在特征排序部13中,基于平均距離按特征元素列表對特征元素進行排序。
圖2的文本語言資料庫是一個通常在社會上使用并被構(gòu)造為文本格式的文獻集合,例如,來自象在線新聞這樣的信息源的文獻。每個字符的出現(xiàn)頻率被從文獻集合中計算出來,字符被根據(jù)出現(xiàn)頻率分類為三個類別。依據(jù)發(fā)明人的觀察結(jié)果,使用由大約兩千萬個字符組成的文本語言資料庫對漢語、日語和韓語進行分類,如下表所示。[表1]
也就是說,對于日語來說,被分類為類別1的最高出現(xiàn)頻率的382個字符占了文本語言資料庫的80.01%,而當出現(xiàn)頻率次高的類別2的1126個字符被加入這些中時,它們占了文本語言資料庫的99.00%。進而,將被分類到類別3中的低出現(xiàn)頻率的1459個字符被加入這些中,它們可以覆蓋文本語言資料庫的99.96%。這意味著,當構(gòu)造具有最高到JIS(日本工業(yè)標準)二級的大約6000個字符的日語字符識別系統(tǒng)時,即使針對它們當中的2967個字符,候選對象之外的字符比例最多也只有0.04%,實際上的損失并不很嚴重。此外,可以理解到,在這2967個字符中,在統(tǒng)計頻率上還存在著相當大的傾斜。類似的觀察結(jié)果也可以在漢語和韓語中看到。
在本發(fā)明的實施例中,基于這樣的觀察結(jié)果,包含在參考向量字典15中的參考向量被根據(jù)表1分類為三個類別。在與輸入圖案特征向量距離的計算中,首先,對于類別1的各個參考向量的距離被計算出來,當存在具有足夠小的距離,即,足夠高的接近程度的參考向量時,識別處理在對類別1的參考向量的距離計算內(nèi)結(jié)束,并且不進行對類別2和類別3的參考向量的距離計算。在這種情況下,距離計算在對382個參考向量的距離計算之內(nèi)結(jié)束,而對類別2的1126個參考向量和類別3的1459個參考向量的距離計算被省略掉了,這樣為特征向量所執(zhí)行的距離計算的時間可以被大大縮短。
作為輸入圖案特征向量與類別1的382個參考向量的距離計算結(jié)果,當不存在具有足夠小的距離值的參考向量時,執(zhí)行對類別2的1508個參考向量的距離計算,當存在具有足夠小的距離值的參考向量時,計算在對類別2的參考向量的距離計算之內(nèi)結(jié)束,不執(zhí)行對類別3的參考向量的距離計算。通過這種處理,距離計算的時間可以得到縮短。
由于最高到類別2的字符占了文本語言資料庫的99%,可以預期在給定文本中,有1%的字符不能通過對類別1和類別2的距離計算找出合適的字符候選對象。針對大約1%的輸入圖案特征向量,經(jīng)過對類別1和類別2的參考向量的距離計算,開始對類別3的參考向量進行距離計算。以這種方式,在類別3的參考向量當中,一個具有較小距離的參考向量被選擇為字符候選對象。
當字符候選對象選擇部14以這種方式選擇出字符候選對象時,處理過程進行到相近字符的處理部16。相近字符處理部16參考一個相近字符字典17來提高字符識別的精確度。在相近字符字典中,為每個字符準備一個在字符識別中易于被混淆的字符列表。當相近字符處理部16從字符候選對象選擇部14接收一個或多個字符候選對象時,它對每個字符候選對象參考相近字符字典,以讀出相近字符,并從參考向量字典15中讀出相近字符的參考向量。
從輸入圖案中提取的特征向量與多個相近字符的參考向量的距離計算被執(zhí)行,預定數(shù)目的字符被輸出為最終字符候選對象,它們是按包含字符候選對象的集合與相近字符之間的距離升序排列的。這里,名詞“最終”意味著借助距離計算進行的字符識別階段結(jié)束了。在實際的字符識別系統(tǒng)中,其后,還執(zhí)行一個通常被稱為后處理的處理過程。該后處理用于基于上下文分析、相鄰關(guān)系分析、相鄰字符出現(xiàn)概率等來確定字符候選對象的優(yōu)先級順序。由于后處理本身是一種常規(guī)使用的技術(shù),詳細描述在此省略。
類別1字符候選對象選擇處理過程接著,將參考圖3對本發(fā)明的實施例的字符識別系統(tǒng)的處理流程進行描述。這是一個用于從類別1的候選字符集中選擇出10個候選字符的處理過程。當通過掃描儀掃描而獲得的輸入圖案被傳送給本發(fā)明實施例的字符識別程序時(301),在字符分段部11(圖1)中將圖像數(shù)據(jù)分段為各個字符區(qū)域,并在特征提取部12(圖1)中針對各個字符區(qū)域進行如上所述的特征提取(302)。以這種方式提取的特征向量被發(fā)送到特征排序部13,并根據(jù)結(jié)合圖2所解釋的平均距離在特征元素列表中對特征進行排序(303)。接下來,針對所有維數(shù),為前10個參考向量分別計算10個距離值(304),并且閾值Th被設(shè)定為以這種方式計算出的10個距離值中最高的距離值(314)。使用加權(quán)歐幾里得距離作為距離值,并如下面所示的表達式2,計算j=1到200時的距離值。然后,從參考向量字典15讀出的類別1的參考向量的數(shù)目i被設(shè)為11,變量的初始值被設(shè)為k=0和m=0(305),包含在距離計算中的特征向量與參考向量的維數(shù)j為j=m+50×k,并且m從1到50進行變化(306)。以這種方式,參考向量與特征向量之間對維數(shù)1到50的距離Di被從下列表達式中計算出來(307)[數(shù)字表達式2]Di=∑wj(xj-ri)2(j=1到50)這里,wj為結(jié)合圖2的參考向量字典23所解釋的每個參考向量中一個加權(quán)向量中的每個元素。xj表示從輸入圖案中提取的特征向量的每個元素,而rj表示參考向量的每個元素。從表達式2所得的值的平方根的值為被稱為加權(quán)歐幾里得距離的距離值。這里,為了簡化,將在求平方根之前的值用作加權(quán)歐幾里得距離的標準,并被稱為距離。當對于一個參考向量的距離Di超過閾值Th時(321),判定這個參考向量作為對這個特征向量的一個字符候選對象是不合格的。此時,在步驟312判斷對于類別1的所有382個參考向量的距離比較是否已經(jīng)結(jié)束,如果沒有結(jié)束,則i被遞增加1,并進行對下一個參考向量的距離Di的計算(307)。當對參考向量的距離Di為閾值(Th)或小于它時(321),檢查維數(shù)j是否達到了200(308),如果不到200,則k被遞增加1(309),對維數(shù)j從51到100的距離進行計算。以這種方式,對j=51到100計算距離并將其與先前計算的j=1到50的距離相加,j=1到100的距離Di被計算出來(307)。
作為結(jié)果,當Di超過Th,i通過步驟312被遞增加1,處理過程進行到與下一個參考向量的比較。如果Di為Th或小于它,則k通過步驟309被遞增加1,距離Di,即對j=100到150的距離Di被計算(307)。這個處理被重復進行,當j達到200而Di處于Th或小于它的狀態(tài)時,也就是說,如果包括所有維數(shù)在內(nèi)的距離Di為閾值或小于它時,在這時與該參考向量相對應(yīng)的字符被儲存到存儲器中作為字符候選對象,成為系統(tǒng)輸出的候選對象(310)。在該存儲器中,儲存了在處理過程中的前10個參考向量的字符代碼與距離值。新字符候選對象被輸入到該存儲器中,在先前已儲存的字符代碼中具有最大距離值的字符被從存儲器中刪除。以這種方式,在該存儲器中,10個字符候選對象被按距離升序排列儲存。然后,在這10個字符候選對象的距離值中,最大值被設(shè)為一個新的閾值Th(311)。作為與后續(xù)參考向量的比較結(jié)果,當一個新字符候選對象被傳送到存儲器時,在先前儲存在存儲器中的10個字符候選對象當中,具有最大距離值的字符候選對象被從存儲器中刪除,改新字符候選對象被加到該存儲器中。然后,新的10個字符候選對象中的最大距離值被設(shè)為閾值Th。
象這樣,在字符候選對象的數(shù)目達到10之后,在方塊307中進行判斷所用的閾值被動態(tài)地改變。在方塊312中,當i=382被滿足時,即當對類別1的所有參考向量的距離計算結(jié)束時,判斷儲存在存儲器中的10個字符候選對象當中的最小距離值Dbest是否小于事先為類別1的字符候選對象選擇而設(shè)置的類別閾值Thstage1(318)。在本實施例中,Thstage1被設(shè)為,例如120,000。存在滿足該條件的字符候選對象意味著在類別1中的字符候選對象選擇處理中獲得了具有足夠高的接近程度的字符候選對象。因此,在這種情況下,儲存在存儲器中的10個字符候選對象被發(fā)送到相近字符處理部16中,對該輸入圖案的特征向量的字符候選對象選擇處理(14)就結(jié)束了。
類別2字符候選對象選擇處理過程當方塊318的條件沒有被滿足時,開始一個從類別2的參考向量中選擇字符候選對象的處理過程(320)。下面將參照圖4對類別2的字符候選對象選擇處理進行描述?,F(xiàn)在,由于進行的是日語的字符識別,1126個目標字符的參考向量與加權(quán)向量在參考向量字典15中被儲存為類別2的參考向量。當開始類別2的字符候選對象選擇處理過程時,執(zhí)行初始設(shè)置使i=1,k=0,且m=0(502),距離計算的特征向量與參考向量的維數(shù)j為j=m+50×k,m從1到50變化(503),并執(zhí)行第i個參考向量和從輸入圖案中提取的特征向量之間的距離值Di的計算(504)。當距離值Di大于閾值Th時(515),并且i沒有達到i=1126(510)時,i被遞增加1(511),處理過程進行到對下一個參考向量的距離值的計算。
當距離值Di為閾值或小于它時,k被增量加1,為下50維計算距離值,即,j=51到100,并且該值被與前面對j=1到50計算的距離值相加,以計算j=1到100的距離值Di(504)。當距離值Di超過Th并且i沒有達到i=1126時(510),i被增量加1,處理過程進行到對下一個參考向量的距離計算(511)。當Di沒有超過Th時,k被增量加1,j被增加到下50維,并通過與上面相同的處理過程來計算j=1到150的距離值Di(504)。當這個處理過程被重復進行并且j達到j(luò)=200而Di處于沒有超過Th的狀態(tài)時(505),與該參考向量相對應(yīng)的字符代碼被輸入到存儲器(508)。在存儲器中,在前面的類別1字符候選對象選擇處理過程中被選擇的字符候選對象被儲存起來。如果字符候選對象的數(shù)目達到10,具有最大距離值的字符候選對象被從存儲器中刪除,并且加入一個新的字符候選對象,以使字符候選對象的數(shù)目保持在10個。然后,在10個候選對象的距離值中的最大距離值成為新的閾值Th(509)。
此后,當參考向量通過方塊515的測試并被輸入到存儲器時(508),進行與上面相似的字符候選對象替換,并且動態(tài)地改變閾值Th。當在方塊510中滿足i=1126時,也就是說,當對類別2的全部1126個參考向量執(zhí)行了字符候選對象選擇處理過程時,判斷儲存在存儲器中的10個字符候選對象的最小距離值是否小于類別2的類別閾值Thstage2(512),如果是小于的話,字符候選對象選擇處理(14)結(jié)束,這10個字符候選對象被發(fā)送到相近字符處理部16(圖1)。在本實施例中,Thstage2被設(shè)為,例如,大于Thstage1150,000。也就是說,類別2的類別閾值比類別1的閾值更加寬松。當方塊512的條件沒有被滿足時,處理過程進行到對類別3的參考向量的字符候選對象選擇處理過程。
類別3字符候選對象選擇處理過程圖5是對類別3的1459個參考向量的字符候選對象選擇處理過程。除了方塊610的判斷是類別3的參考向量數(shù)目1459之外,方塊602到610與圖4的方塊502到510相同。因此,對這些方塊的解釋就被省略了。當在方塊610中滿足i=1459并且對類別3的全部1459個參考向量的字符候選對象選擇處理過程結(jié)束時,字符候選對象選擇處理過程就結(jié)束了,儲存在存儲器中的10個字符候選對象被發(fā)送到相近字符處理部16。此時,當存儲器中儲存的字符候選對象數(shù)目小于10時,所有字符候選對象被發(fā)送到相近字符處理部16。
相近字符處理過程接下來,將參照圖6對相近字符處理過程進行描述。當圖1的相近字符處理部16從字符選擇候選對象選擇部14接收到10個字符候選對象時,它對每個字符候選對象參照相近字符字典,并讀出相近字符(41)。相近字符的參考向量和加權(quán)向量被從參考向量字典15中讀出,并計算與從輸入圖案中提取的特征向量的距離值(42)。在對所有讀出的相近字符進行了加權(quán)歐幾里得距離的計算之后,10個字符候選對象的距離值和這些相近字符被排序,并按距離值以升序選擇10個字符(43)。
在以這種方式獲得的10個最終候選對象中,具有最小距離值的一個被輸出為識別出的字符,其余9個候選對象被輸出為替補候選對象。這里,雖然字符候選對象的選擇是以只進行參考向量對目標字符的比較為基礎(chǔ)而進行的,但在字符候選對象選擇的中途階段,或者在字符選擇對象選擇的完成階段,最好根據(jù)文本的語法分析、單詞的相鄰關(guān)系、字符之間的從屬關(guān)系等來改變字符候選對象的優(yōu)先級,也就是說,執(zhí)行所謂的后處理過程。
作為OCR程序的輸出,文本作為以這種方式獲得的最高優(yōu)先級的字符集合被提交給用戶。用戶可以根據(jù)文本的上下文在OCR輸出中找出識別錯誤。在這種情況下,當用戶點擊錯誤字符時,以下拉形式顯示9個替補字符,當用戶點擊其中之一時,用該字符替代錯誤字符。
雖然對本發(fā)明在具體實施例上進行了描述,但本發(fā)明并不局限于類似這種實施例。
權(quán)利要求
1.一種用于通過比較從一個輸入圖案中提取的特征向量與預先儲存的目標字符的參考向量之間的距離來進行字符識別的字符識別系統(tǒng),其中所有字符根據(jù)目標字符的出現(xiàn)頻率被分類為多個類別,包含一個用于儲存每個類別的參考向量的字典存儲設(shè)備和一個計算機,并且對該計算機進行編程,來計算特征向量與屬于多個類別中具有最高字符出現(xiàn)頻率的類別的多個字符的參考向量之間的距離,并且在存在小于為該類別確定的類別閾值的距離時,選擇與該距離對應(yīng)的參考向量的字符作為字符候選對象。
2.依據(jù)權(quán)利要求1的系統(tǒng),其中對計算機進行編程,當沒有小于該類別閾值的距離時,計算特征向量與屬于具有次高出現(xiàn)頻率的類別的多個字符的參考向量之間的距離,并在存在小于為該類別確定的第二類別閾值的距離時,選擇與該距離對應(yīng)的參考向量的字符作為候選字符。
3.依據(jù)權(quán)利要求1的系統(tǒng),還包括一個表示多個參考向量的特征的平均距離順序的列表,其中對計算機進行編程,從而,在從輸入圖案提取的特征向量的特征被按照列表以平均距離降序排序后,首先,對最高到第n個特征的特征與參考向量之一計算對相應(yīng)特征的距離,(1)將該距離與字符候選對象選擇閾值進行比較,(2)如果該距離不大于該閾值,則包括下n個特征的距離被計算,過程(1)和(2)被重復進行,而且當該距離超過字符候選對象選擇閾值時,開始與下一個參考向量進行比較。
4.依據(jù)權(quán)利要求3的系統(tǒng),其中對計算機進行編程,當基于所有特征的距離值不超過字符候選對象選擇閾值時,在一個存儲器中將一個與作為比較對象的參考向量相對應(yīng)的字符儲存為一個字符候選對象。
5.依據(jù)權(quán)利要求4的系統(tǒng),其中對計算機進行編程,動態(tài)地將具有第m個最小距離值的字符候選對象的距離值設(shè)為字符候選對象選擇閾值,m為要選擇的字符候選對象數(shù)目。
6.依據(jù)權(quán)利要求5的系統(tǒng),其中對計算機進行編程,使得當對屬于具有最高字符出現(xiàn)頻率類別的參考向量與特征向量的距離計算完成時,并且當這些距離中的一個或多個距離小于為該類別確定的閾值時,與從最小距離到第m個最小距離的參考向量相對應(yīng)的m個字符被選擇為字符候選對象。
7.依據(jù)權(quán)利要求1的系統(tǒng),還包括一個相近字符字典,用于向任意字符提供具有相近關(guān)系的字符,其中對計算機進行編程,響應(yīng)多個字符候選對象的選擇,從相近字符字典中取出與各個字符候選對象相近的字符,計算要被識別的特征向量與相近字符的參考向量之間的距離,對多個字符候選對象的距離值和相近字符距離值進行排序,并按距離升序選擇預定數(shù)目的字符作為識別字符候選對象。
8.依據(jù)權(quán)利要求2的系統(tǒng),其中對計算機進行編程,使得當沒有小于次高字符出現(xiàn)頻率類別的類別閾值的距離時,計算特征向量與屬于具有第三高字符出現(xiàn)頻率的類別的多個字符的參考向量之間的距離,當存在小于為該類別確定的類別閾值的距離時,將與該距離相對應(yīng)的參考向量的字符選擇為字符候選對象。
9.依據(jù)權(quán)利要求2的系統(tǒng),還包括一個相近字符字典,用于為任意字符提供具有相近關(guān)系的字符,其中對計算機進行編程,來響應(yīng)多個字符候選對象的選擇,從相近字符字典中取出與各個字符候選對象相近的字符,計算要被識別的特征向量與相近字符的參考向量之間的距離,對多個字符候選對象的距離值和相近字符的距離值進行排序,并按距離升序輸出預定數(shù)目的字符作為識別字符候選對象。
10.一個通過比較從一個輸入字符圖案中提取的特征向量與預先儲存的目標字符圖案的參考向量之間的距離來進行字符識別的字符識別系統(tǒng),包括一個字典存儲設(shè)備,用于儲存通過對充分遍及全部字符的目標字符的參考向量特征與參考向量的平均距離值進行計算而準備的表示平均距離下降順序的信息;以及一個計算機,其中對該計算機進行編程,來計算輸入字符特征向量與多個參考向量的每一個之間的距離,將計算出的距離值中相對小的距離值設(shè)為一個閾值,計算下一個參考向量與最高到預定中途維數(shù)的特征向量之間的距離,當在該維的距離值超過閾值時停止對該參考向量的距離計算,并進行對下一個參考向量的距離計算。
11.依據(jù)權(quán)利要求10的系統(tǒng),其中當在中途維數(shù)的距離值不超過閾值時,計算機計算最高到第二中途維數(shù)的距離值,并當在第二中途維數(shù)的距離值超過閾值時停止對參考向量的距離計算并進行對下一個參考向量的距離計算。
12.一個通過比較從一個輸入字符圖案中提取的特征向量與預先儲存的目標字符的參考向量之間的距離來進行字符識別的字符識別系統(tǒng),包括一個字典存儲設(shè)備,其中所有字符被根據(jù)目標字符的出現(xiàn)頻率分類為多個類別并且參考向量被與分類信息儲存在一起;距離計算裝置,用于計算特征向量與屬于在多個類別中具有最高字符出現(xiàn)頻率的類別的多個字符的參考向量之間的距離;以及選擇裝置,用于當由距離計算裝置對屬于具有最高字符出現(xiàn)頻率的類別的一個或多個字符計算的距離小于一個預定閾值時,根據(jù)對屬于具有最高字符出現(xiàn)頻率的類別的字符的參考向量的距離計算來選擇字符候選對象。
13.一種字符識別方法,其中根據(jù)目標字符的出現(xiàn)頻率將所有字符分類為多個類別,使用一個帶有字典存儲設(shè)備的計算機,該字典存儲設(shè)備用于儲存對每個類別的參考向量,并且對從輸入圖案中提取的特征向量與預先儲存的目標字符的參考向量之間的距離進行比較來進行字符識別,該方法包括以下步驟(a)計算特征向量與屬于多個類別中具有最高字符出現(xiàn)頻率的類別的多個字符的參考向量之間的距離;并且(b)在存在小于該類別的類別閾值的距離時,選擇與該距離相對應(yīng)的參考向量的字符作為候選字符。
14.依據(jù)權(quán)利要求13的方法,還包括以下步驟(a)當沒有小于類別閾值的距離時,計算特征向量與屬于具有次高字符出現(xiàn)頻率的類別的多個字符的參考向量之間的距離;并且(b)當存在小于為該類別確定的第二類別閾值的距離時,選擇與該距離相對應(yīng)的參考向量的字符作為候選字符。
15.依據(jù)權(quán)利要求13的方法,其中使用了一個表示多個參考向量特征的平均距離順序的列表,并且該方法還包括以下步驟(a)根據(jù)按平均距離降序排列的列表對從輸入圖案中提取的特征向量的特征進行排序,然后,針對參考向量中的一個并且針對最高到第n個特征的特征計算與相應(yīng)特征的距離;并且(b)重復進行下面的步驟(b-1)和(b-2),并在距離超過一個字符候選對象選擇閾值時進行與下一個參考向量的比較,(b-1)比較與字符候選對象選擇閾值的距離,并且(b-2)如果該距離不大于該閾值,則計算包括下n個特征的距離。
16.依據(jù)權(quán)利要求15的方法,其中當包括所有特征的距離不超過字符候選對象選擇閾值時,與作為比較對象的參考向量相對應(yīng)的字符在一個存儲器中被儲存為一個字符候選對象。
17.依據(jù)權(quán)利要求16的方法,還包括動態(tài)地將具有第m個最小距離值的字符候選對象的距離值設(shè)為字符候選對象選擇閾值的步驟,m為要被選擇的字符候選對象的數(shù)目。
18.依據(jù)權(quán)利要求17的方法,其中當對屬于具有最高字符出現(xiàn)頻率的類別的參考向量的特征向量距離計算完成時,當這些距離中的一個或多個距離小于為該類別預定的一個閾值時,與具有從最小距離到第m個最小距離的參考向量相對應(yīng)的m個字符被選擇為字符候選對象。
19.依據(jù)權(quán)利要求13的方法,其中使用一個用于為任意字符提供具有相近關(guān)系的字符的相近字符字典,并且該方法還包括以下步驟(a)響應(yīng)多個字符候選對象的選擇,從相近字符字典中取出與各個字符候選對象相近的字符;(b)計算要被識別的特征向量與相近字符的參考向量之間的距離;(c)對多個字符候選對象的距離值與相近字符的距離值進行排序;并且(d)按距離升序輸出預定數(shù)目的字符作為識別字符候選對象。
20.依據(jù)權(quán)利要求1 4的方法,還包括以下步驟(a)當沒有距離小于具有次高字符出現(xiàn)頻率的類別的類別閾值時,計算特征向量與屬于具有第三高字符出現(xiàn)頻率的類別的多個字符的參考向量之間的距離;并且(b)當存在小于為該類別確定的類別閾值的距離時,選擇與該距離相對應(yīng)的參考向量的字符作為字符候選對象。
21.依據(jù)權(quán)利要求14的方法,其中使用了一個用于為任意字符提供具有相近關(guān)系的字符的相近字符字典,并且該方法還包括以下步驟(a)響應(yīng)多個字符候選對象的選擇從相近字符字典中取出與各個字符候選對象相近的字符,計算要被識別的特征向量與相近字符的參考向量之間的距離;并且(b)排序多個字符候選對象的距離值與相近字符的距離值,并按距離升序輸出預定數(shù)目的字符作為識別字符候選對象。
22.一種儲存一個字典和一個計算機程序的計算機可讀記錄介質(zhì),在該字典中所有字符被根據(jù)目標字符的出現(xiàn)頻率分類為多個類別,并且為每個類別儲存參考向量,該計算機程序執(zhí)行以下步驟(a)計算從輸入圖案中提取的特征向量與屬于在多個類別中具有最高字符出現(xiàn)頻率的類別的多個字符的參考向量之間的距離;并且(b)當存在小于為具有最高字符出現(xiàn)頻率的類別確定的類別閾值的距離值時,選擇具有該距離的參考向量的字符作為字符候選對象。
23.依據(jù)權(quán)利要求22的介質(zhì),其中該程序還包括以下步驟(a)當沒有小于該類別閾值的距離時,計算特征向量與屬于具有次高字符出現(xiàn)頻率的類別的多個字符的參考向量之間的距離;并且(b)當存在小于為該類別確定的第二類別閾值的距離時,選擇與該距離相對應(yīng)的參考向量的字符作為候選字符。
24.依據(jù)權(quán)利要求22的介質(zhì),還包括一個表示多個參考向量的特征的平均距離順序的列表,其中該程序還包括以下步驟(a)按列表以平均距離的降序?qū)妮斎雸D案中提取的特征向量的特征進行排序,然后,針對參考向量中的一個并針對最高達到第n個特征的特征計算對相應(yīng)特征的距離;并且(b)重復下面的步驟(b-1)和(b-2),并在該距離超過字符候選對象選擇閾值時與下一個參考向量進行比較,(b-1)比較該距離與字符候選對象選擇閾值,并且(b-2)如果該距離不大于該閾值,則計算包括下n個特征的距離。
全文摘要
在先有技術(shù)中,在對具有大量字符的語言,如日語的字符識別中,從一個輸入圖案中提取一個特征向量,計算該特征向量與參考向量之間的距離,并將與具有最小距離值的參考向量相對應(yīng)的字符選擇為識別出的字符。然而,在對具有大量字符的語言的字符識別中,由于要被比較的參考向量的數(shù)目巨大,限制了字符識別處理速度的提高。在本發(fā)明中,根據(jù)字符出現(xiàn)頻率將與目標字符相應(yīng)的參考向量分類為多個類別。當計算特征向量與參考向量之間的距離時,按順序從具有高字符出現(xiàn)頻率的類別的參考向量進行比較,這樣字符識別的處理速度就得到了提高。
文檔編號G06K9/68GK1388947SQ01802662
公開日2003年1月1日 申請日期2001年8月30日 優(yōu)先權(quán)日2000年8月31日
發(fā)明者S·納卡迦瓦 申請人:惠普公司