本發(fā)明涉及一種模式識別系統(tǒng)。更具體地,本發(fā)明涉及一種使用Gabor函數(shù)的模式識別系統(tǒng)。
背景技術(shù):
模式識別系統(tǒng)可以是光學(xué)字符識別(OCR)系統(tǒng)。公知各種OCR系統(tǒng)。這些OCR系統(tǒng)使用字符識別過程將文本的圖像轉(zhuǎn)化成機器可讀代碼。在OCR識別系統(tǒng)中,將可能是字符的圖像分離并且使用字符識別過程來對字符進行識別。
公知的光學(xué)字符識別過程通常包括:
·歸一化步驟,其用于根據(jù)輸入圖像生成歸一化矩陣;
·特征提取步驟;以及
·歸類步驟,其用于識別字符。
特征提取步驟生成用于表征輸入圖像的特征向量,以及歸類步驟根據(jù)該特征向量來識別字符。在一些OCR過程中,特征提取步驟涉及使用Gabor濾波器進行濾波。Gabor濾波器的選擇對于OCR處理非常關(guān)鍵,因為Gabor濾波器決定了用以識別字符的特征向量。特征向量必須包含用以高度準確地識別字符的必要信息。太大的特征向量會造成計算緩慢,而太小的特征向量則會降低特征識別的準確度。公知的使用Gabor濾波器的OCR過程太慢或者準確度太低。這對亞洲字符的識別來說尤其如此,因為亞洲字符的數(shù)量非常多。公知的Gabor濾波器的另一缺點在于:這些Gabor濾波器在后續(xù)的歸類步驟中并不能很好地起作用。
US7174044B2公開了一種公知的基于Gabor濾波器進行字符識別的方法,該方法提取了字符的特定方向的信息。該方法使用Gabor濾波器的區(qū)域的平均值(average)并且涉及大量的計算和大的特征向量。這使得使用該方法執(zhí)行OCR過程會非常慢。
Qiang Huo、Yong Ge以及Zhi-Dan Feng在2001年IEEE International Conference on Acoustics,Speech,and Signal Processing(IEEE聲學(xué)、語音學(xué)以及信號處理國際會議)第3卷上發(fā)表的論文“High performance Chinese OCR based on Gabor features,discriminative feature extraction and model training(基于Gabor特征、區(qū)別特征提取以及模型訓(xùn)練的高性能中文OCR)”描述了一種公知的關(guān)于中文字符的OCR過程。該方法較快但是識別準確性并不是特別高。
來自上海交通大學(xué)的DaiWei(戴維)的題目為“Chinese OCR System Based on Gabor Features and SVM(基于Gabor特征與SVM的漢字識別系統(tǒng))”的學(xué)位論文描述了另一種OCR過程。SVM表示“支持向量機”,是一種使用了用于數(shù)據(jù)分析的相關(guān)學(xué)習算法和識別算法的監(jiān)督學(xué)習模型。這種SVM系統(tǒng)需要超大型學(xué)習集,而這種超大型學(xué)習集使得該系統(tǒng)要么不切實際要么不準確。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種模式識別方法,該模式識別方法提供了快速且準確的模式識別。
本發(fā)明的另一目的在于提供一種用于執(zhí)行模式識別系統(tǒng)的計算機程序產(chǎn)品。
根據(jù)本發(fā)明的實施例,這些目的均得以實現(xiàn)。
在一個實施例中,一種用于識別輸入圖像的模式的方法包括如下步驟:
a)將輸入圖像歸一化為表示歸一化圖像的歸一化矩陣;
b)根據(jù)所述歸一化矩陣生成圖像向量;
c)使用矩陣向量乘法來將所述圖像向量與稀疏矩陣相乘以生成特征向量,其中,所述稀疏矩陣是根據(jù)Gabor函數(shù)生成的,所述Gabor函數(shù)是被乘以高斯函數(shù)的正弦波,以及,其中,所述Gabor函數(shù)是用于指示歸一化矩陣中的位置的至少一個變量以及參數(shù)集的函數(shù),所述參數(shù)集包括:與正弦波的方向相關(guān)的參數(shù)、與Gabor函數(shù)的中心相關(guān)的參數(shù)以及與所述正弦波的波長相關(guān)的參數(shù);
d)使用特征向量為預(yù)定模型列表創(chuàng)建概率密度;
e)將具有最大概率密度的模型選為最佳模型;以及
f)將最佳模型歸類為所述輸入圖像的模式,
其中,Gabor函數(shù)具有至少兩個中心,以及,其中,波長取至少兩個值,第一波長值小于或大體上等于Gabor函數(shù)的兩個相鄰中心之間的距離,并且第一波長值小于第二波長值且大于或大體上等于第二波長值的二分之一。
已經(jīng)發(fā)現(xiàn)通過這些步驟的組合可以實現(xiàn)一種快速且準確的模式識別方法。具體地,原因在于:步驟c)中所生成的特征向量大到足以使識別更為準確,而同時步驟c)中所生成的特征向量又小到足以使模式識別方法的計算較快。此外,按照較短的波長大于或等于較長的波長的二分之一,并且小于或等于Gabor函數(shù)的兩個中心之間的距離來選取兩個波長是一種有利的權(quán)衡:既保證了波長的數(shù)量(從而特征向量的大小)較小,同時仍然使得特征向量略微冗余。特征向量的這種冗余使得即使特征向量的所給定的元素的值被損壞也仍能夠使字符被識別出。
在本發(fā)明的一個實施例中,模型通過協(xié)方差矩陣和均值向量來表征,概率密度通過如下公式來計算:
其中,符號r表示特征向量,符號∑表示協(xié)方差矩陣,符號μ表示均值向量以及k等于特征向量的元素個數(shù)。
在另一實施例中,協(xié)方差矩陣是近似的。在一個實施例中,所有模型的協(xié)方差矩陣的跡(trace)相等。在一個實施例中,可以將協(xié)方差矩陣的所有非對角元素設(shè)置為零。已經(jīng)發(fā)現(xiàn),結(jié)合上述方法,通過這樣的協(xié)方差矩陣和均值向量來表征模型以及通過上述公式來計算概率密度會使得識別更為準確且尤其快。
在根據(jù)本發(fā)明的一個實施例中,與正弦波的方向相關(guān)的參數(shù)使得正弦波的可能的方向間的角度大體上相等。
在本發(fā)明的一個實施例中,與正弦波的方向相關(guān)的參數(shù)是角度。在另一實施例中,角度的最大值與角度的最小值之和等于π弧度。在一個實施例中,角度取6個值。
這種關(guān)于與正弦波的方向相關(guān)的參數(shù)的值的選擇給出了良好的權(quán)衡(trade-off):既實現(xiàn)了歸一化圖像的足夠角采樣,又保證了特征向量的大小小到足以使所述方法得到快速計算。
在根據(jù)本發(fā)明的另一實施例,Gabor函數(shù)是與Gabor函數(shù)的中心相關(guān)的至少兩個參數(shù)的函數(shù)。在一個實施例中,與Gabor函數(shù)的中心相關(guān)的參數(shù)使得Gabor函數(shù)的中心被均勻地間隔。
在本發(fā)明的一個實施例中,與Gabor函數(shù)的中心相關(guān)的一個參數(shù)可以對應(yīng)于歸一化矩陣中的豎直方向,而與Gabor函數(shù)的中心相關(guān)的另一個參數(shù)可以對應(yīng)于歸一化矩陣中的水平方向。在一個實施例中,Gabor函數(shù)的第一中心與歸一化矩陣的邊的距離可以大體上等于Gabor函數(shù)的兩個相鄰中心之間的距離的二分之一。
這種關(guān)于Gabor函數(shù)的中心的選擇給出了歸一化圖像的良好角采樣,并且保證了特征向量的大小小到足以使所述方法得到快速計算。在根據(jù)本發(fā)明的另一實施例中,Gabor函數(shù)包括與高斯函數(shù)的寬度相關(guān)的參數(shù),該參數(shù)可以是高斯函數(shù)的標準差。在一個實施例中,高斯函數(shù)的標準差小于Gabor函數(shù)的兩個相鄰的中心之間的距離且大于Gabor函數(shù)的兩個相鄰中心之間的距離的二分之一。這種關(guān)于高斯函數(shù)的寬度的選擇給出了歸一化圖像的良好角采樣,并且保證了特征向量的大小小到足以使所述方法得到快速計算。
在根據(jù)本發(fā)明的一個實施例,模式是兩種顏色模式、字符、亞洲字符、字符組、標志、圖片、設(shè)計、聲音序列、影片片段或三維模式。
在根據(jù)本發(fā)明的另一實施例中,歸一化矩陣表示歸一化圖像,歸一化矩陣的每個元素對應(yīng)于歸一化圖像上的位置。歸一化圖像包括待識別的模式,并且歸一化矩陣是表示歸一化圖像的數(shù)學(xué)對象??梢酝ㄟ^數(shù)學(xué)方法對歸一化矩陣進行處理以便于提取歸一化圖像的特征,這些特征使得能夠識別出模式。
在根據(jù)本發(fā)明的一個實施例中,將輸入圖像歸一化為歸一化矩陣的步驟包括縮放處理(scaling)、閾值處理thresholding)、平滑處理(smoothing)、插值處理(interpolation)以及濾波處理(filtering),并且與該歸一化矩陣相對應(yīng)的歸一化圖像具有預(yù)定格式。將輸入圖像歸一化為歸一化矩陣的步驟將具有待識別的模式的輸入圖像轉(zhuǎn)化為可行格式(workable format)。該可行格式是具有多個特定特征的矩陣。這些特定特征可以是:歸一化矩陣是二進制,以及在歸一化圖像中,距中心的距離的標準差是恒定的,該中心的值表示給定顏色的像素。
根據(jù)本發(fā)明的實施例中,圖像向量的元素等于歸一化矩陣的元素。在將歸一化矩陣變換為圖像向量的步驟中,圖像向量的元素通常等于歸一化矩陣的元素。由于在本發(fā)明的一個實施例中歸一化矩陣的元素為二進制數(shù),因此圖像向量的元素可以是二進制數(shù)。
在根據(jù)本發(fā)明的實施例中,在特征向量中,關(guān)于歸一化矩陣的元素的信息是冗余的。這種冗余提高了模式識別的準確度并且可以通過參數(shù)的選擇來實現(xiàn),尤其是通過如下事實來實現(xiàn):在本發(fā)明的一個實施例中,較短的波長小于兩個相鄰中心之間的距離,并且較長的波長大于兩個相鄰中心之間的距離。
在根據(jù)本發(fā)明的一個實施例中,特征向量是近似的。這會增大模式識別方法的計算速度。重點是模式識別的準確度,而特征向量的準確度較為不重要。
在根據(jù)本發(fā)明的一個實施例中,歸一化矩陣是64×64矩陣,圖像向量具有4096個元素,稀疏矩陣是300×4096矩陣,協(xié)方差矩陣是300×300矩陣,均值向量具有300個元素,特征向量具有300個元素,與正弦波的方向相關(guān)的角度取值為0、0.523598、1.0472、1.5708、2.09439以及2.61799弧度,Gabor函數(shù)的中心位于如下位置處:(6,6)、(6,18)、(6,30)、(6,42)、(6,54)、(18,6)、(18,18)、(18,30)、(18,42)、(18,54)、(30,6)、(30,18)、(30,30)、(30,42)、(30,54)、(42,6)、(42,18)、(42,30)、(42,42)、(42,54)、(54,6)、(54,18)、(54,30)、(54,42)、(54,54),第一波長值等于11,第二波長值等于22,以及高斯函數(shù)的標準差等于8。已經(jīng)發(fā)現(xiàn)該實施例給出了非常良好的準確度并且相應(yīng)的計算較快。
在本發(fā)明的另一實施例中,計算機程序產(chǎn)品包括計算機可用介質(zhì),所述計算機可用介質(zhì)中存儲有控制邏輯,所述控制邏輯用于使得計算裝置對輸入圖像中的模式進行識別。所述控制邏輯包括:
a)第一計算機可讀程序代碼模塊,用于將輸入圖像歸一化為表示歸一化圖像的歸一化矩陣;
b)第二計算機可讀程序代碼模塊,用于根據(jù)所述歸一化矩陣生成圖像向量;
c)第三計算機可讀程序代碼模塊,用于使用矩陣向量乘法來將所述圖像向量與稀疏矩陣相乘以生成特征向量,其中,所述稀疏矩陣是根據(jù)Gabor函數(shù)生成的,所述Gabor函數(shù)是被乘以高斯函數(shù)的正弦波,以及,其中,所述Gabor函數(shù)是用于指示歸一化矩陣中的位置的至少一個變量以及參數(shù)集的函數(shù),所述參數(shù)集包括:與正弦波的方向相關(guān)的參數(shù)、與Gabor函數(shù)的中心相關(guān)的參數(shù)以及與所述正弦波的波長相關(guān)的參數(shù);
d)第四計算機可讀程序代碼模塊,用于使用特征向量來為預(yù)定模型列表創(chuàng)建概率密度;
e)第五計算機可讀程序代碼模塊,用于將具有最大概率密度的模型選為最佳模型;以及
f)第六計算機可讀程序代碼模塊,用于將最佳模型歸類為所述輸入圖像的模式,
其中,Gabor函數(shù)具有至少兩個中心,以及,其中,波長取至少兩個值,第一波長值小于或大體上等于Gabor函數(shù)的兩個相鄰中心之間的距離,并且第一波長值小于第二波長值且大于或大體上等于第二波長值的二分之一。
在本發(fā)明的一個實施例中,一種用于識別輸入圖像中的模式的方法包括如下步驟:
a)將輸入圖像歸一化為表示歸一化圖像的歸一化矩陣;
b)使用Gabor函數(shù)來根據(jù)歸一化矩陣創(chuàng)建特征向量,其中,Gabor函數(shù)是被乘以高斯函數(shù)的正弦波,并且取決于與歸一化圖像上的位置相關(guān)的至少一個變量以及包括如下項的參數(shù)集:與正弦波的方向相關(guān)的參數(shù)、與Gabor函數(shù)的中心相關(guān)的至少一個參數(shù)以及與正弦波的波長相關(guān)的參數(shù);
c)根據(jù)特定向量和預(yù)定模型108的列表生成每個模型的概率密度;
d)將具有最大概率密度的模型識別為輸入圖像中的模式,
其中,所述Gabor函數(shù)具有至少兩個中心,并且所述波長從具有至少一個值的第一組值以及具有至少一個值的第二組值中進行取值,其中:
a.具有至少一個值的第一組值小于或大體上等于Gabor函數(shù)的兩個相鄰中心之間的距離,以及
b.具有至少一個值的第一組值大于或大體上等于具有至少一個值的第二組值中的數(shù)值的二分之一。
已經(jīng)發(fā)現(xiàn)通過這些步驟的組合可以實現(xiàn)一種快速且準確的模式識別方法。具體地,首先步驟c)中所生成的特征向量大到足以使識別更為準確,其次步驟c)中所生成的特征向量又小到足以使模式識別方法的計算較快。此外,按照較短的波長大于或等于較長的波長的二分之一,并且小于或等于Gabor函數(shù)的兩個中心之間的距離來選取兩個波長是一種良好的權(quán)衡:既保證了波長的數(shù)量(從而特征向量的大小)較小,同時仍然使得特征向量略微冗余。
在本發(fā)明的一個實施例中,模型通過由協(xié)方差矩陣和矩陣向量來表征。概率密度可以通過如下公式進行計算:
其中,符號r表示特征向量,符號∑表示協(xié)方差矩陣,符號μ表示均值向量以及k等于特征向量的元素個數(shù)。在本發(fā)明的實施例中,可以將協(xié)方差矩陣的所有非對角元素設(shè)置為零,協(xié)方差矩陣可以是近似的,所有模型的協(xié)方差的跡可以相等。已經(jīng)發(fā)現(xiàn),結(jié)合上述方法,通過這樣的協(xié)方差矩陣和均值向量來表征模型以及通過上述公式來計算概率密度會使得識別更為準確且尤其快。
在根據(jù)本發(fā)明的實施例中,與正弦波的方向相關(guān)的參數(shù)使得正弦波的可能的方向間的角度大體上相等。
在根據(jù)本發(fā)明的實施例中,與正弦波的方向相關(guān)的參數(shù)是角度并且該角度的最大值與該角度的最小值之和等于π弧度。該角度可以取6個值。這種關(guān)于與正弦波的方向相關(guān)的參數(shù)的值的選擇給出了良好的權(quán)衡:既實現(xiàn)了歸一化圖像的足夠角采樣,又保證了特征向量的大小小到足以使所述方法得到快速計算。
在根據(jù)本發(fā)明的實施例中,至少兩個參數(shù)與Gabor函數(shù)的中心相關(guān)并且可以使得Gabor函數(shù)的中心被均勻地間隔。與Gabor函數(shù)的中心相關(guān)的一個參數(shù)可以對應(yīng)于歸一化矩陣中的豎直方向,而與Gabor函數(shù)的中心相關(guān)的另一個參數(shù)可以對應(yīng)于歸一化矩陣中的水平方向。Gabor函數(shù)的第一中心與歸一化矩陣的邊的距離可以大體上等于Gabor函數(shù)的兩個相鄰中心之間的距離的二分之一。這種關(guān)于Gabor函數(shù)的中心的選擇給出了歸一化圖像的良好角采樣,并且保證了特征向量的大小小到足以使所述方法得到快速計算。
在根據(jù)本發(fā)明的實施例中,參數(shù)與高斯函數(shù)的寬度相關(guān),該參數(shù)可以是高斯函數(shù)的標準差。高斯函數(shù)的標準差可以小于Gabor函數(shù)的兩個相鄰的中心之間的距離且大于Gabor函數(shù)的兩個相鄰中心之間的距離的二分之一。這種關(guān)于高斯函數(shù)的寬度的選擇給出了歸一化圖像的良好角采樣,使得特征向量略微冗余并且保證了特征向量的大小小到足以使所述方法得到快速計算。
在根據(jù)本發(fā)明的實施例中,模式是兩種顏色模式、字符、亞洲字符、字符組、標志、圖片、設(shè)計、聲音序列、影片片段或三維模式。
在根據(jù)本發(fā)明的實施例中,歸一化矩陣表示歸一化圖像,歸一化矩陣的每個元素對應(yīng)于歸一化圖像上的位置。歸一化圖像包括用于識別的模式,并且歸一化矩陣是表示歸一化圖像的數(shù)學(xué)對象??梢酝ㄟ^數(shù)學(xué)方法對歸一化矩陣進行處理以便于提取歸一化圖像的特征,這些特征使得能夠識別出模式。
在根據(jù)本發(fā)明的一個實施例中,將輸入圖像歸一化為歸一化矩陣的步驟包括縮放處理、閾值處理、平滑處理、插值處理以及濾波處理,并且與該歸一化矩陣相對應(yīng)的歸一化圖像具有預(yù)定格式。將輸入圖像歸一化為歸一化矩陣的步驟將具有待識別的模式的輸入圖像轉(zhuǎn)化為可行格式。該可行格式是具有多個特定特征的矩陣。這些特定特征可以是:歸一化矩陣是二進制,以及在歸一化圖像中,距中心的距離的標準差是恒定的,該中心的值表示給定顏色的像素。
根據(jù)本發(fā)明的實施例中,圖像向量的元素等于歸一化矩陣的元素。在將歸一化矩陣轉(zhuǎn)換為圖像向量的步驟中,圖像向量的元素通常等于歸一化矩陣的元素。由于在本發(fā)明的一個實施例中歸一化矩陣的元素為二進制數(shù),因此圖像向量的元素可以是二進制數(shù)。
在根據(jù)本發(fā)明的實施例中,特征向量中的歸一化矩陣的元素的信息是冗余的。這種冗余提高了模式識別的準確度并且可以通過參數(shù)的選擇來實現(xiàn),尤其是通過如下事實來實現(xiàn):在本發(fā)明的一個實施例中,Gabor函數(shù)的高斯函數(shù)的標準差小于兩個相鄰中心之間的距離而大于兩個相鄰中心之間的距離的二分之一。
在本發(fā)明的實施例中,特征向量是近似的。這將增大模式識別方法的計算速度。重點是模式的識別的準確度,而特征向量的準確度較為不重要。
在根據(jù)本發(fā)明的一個實施例中,歸一化矩陣是64×64矩陣,圖像向量具有4096個元素,稀疏矩陣是300×4096矩陣,協(xié)方差矩陣是300×300矩陣,均值向量具有300個元素,特征向量具有300個元素,與正弦波的方向相關(guān)的角度取值為0、0.523598、1.0472、1.5708、2.09439以及2.61799弧度,Gabor函數(shù)的中心位于如下位置處:(6,6)、(6,18)、(6,30)、(6,42)、(6,54)、(18,6)、(18,18)、(18,30)、(18,42)、(18,54)、(30,6)、(30,18)、(30,30)、(30,42)、(30,54)、(42,6)、(42,18)、(42,30)、(42,42)、(42,54)、(54,6)、(54,18)、(54,30)、(54,42)、(54,54),第一波長值等于11,第二波長值等于22,以及高斯函數(shù)的標準差等于8。已經(jīng)發(fā)現(xiàn)該實施例給出了非常良好的準確度并且相應(yīng)的計算較快。
在本發(fā)明的另一實施例中,計算機程序產(chǎn)品包括計算機可用介質(zhì),所述計算機可用介質(zhì)中存儲有控制邏輯,所述控制邏輯用于使得計算裝置對輸入圖像中的模式進行識別。所述控制邏輯包括:
a)第一計算機可讀程序代碼模塊,其用于將輸入圖像歸一化為表示歸一化圖像的歸一化矩陣;
b)第二計算機可讀程序代碼模塊,用于使用Gabor函數(shù)來根據(jù)歸一化矩陣創(chuàng)建特征向量,其中,Gabor函數(shù)是被乘以高斯函數(shù)的正弦波,并且取決于與歸一化圖像上的位置相關(guān)的至少一個變量以及包括如下項的參數(shù)集:與正弦波的方向相關(guān)的參數(shù)、與Gabor函數(shù)的中心相關(guān)的至少一個參數(shù)以及與正弦波的波長相關(guān)的參數(shù);
c)第三計算機可讀程序代碼模塊,用于根據(jù)特定向量和預(yù)定模型列表生成每個模型的概率密度以將最佳模型識別為輸入圖像中的模式;
d)第四計算機可讀程序代碼模塊,用于將具有最大概率密度的模型識別為輸入圖像中的模式,
其中,所述Gabor函數(shù)具有至少兩個中心,并且所述波長從具有至少一個值的第一組值以及具有至少一個值的第二組值中進行取值,其中:
a.具有至少一個值的第一組值小于或大體上等于Gabor函數(shù)的兩個相鄰中心之間的距離,以及
b.具有至少一個值的第一組值大于或大體上等于具有至少一個值的第二組值中的數(shù)值的二分之一。
附圖說明
為了更好地理解本發(fā)明,現(xiàn)在將通過示例來參考附圖,在附圖中:
圖1示出了根據(jù)本發(fā)明的光學(xué)字符識別過程的流程圖。
圖2示出了根據(jù)本發(fā)明的光學(xué)字符識別過程中的歸一化步驟的示意圖。
圖3示出了根據(jù)本發(fā)明的光學(xué)字符識別過程中的特征提取步驟的流程圖。
圖4示出了根據(jù)本發(fā)明的光學(xué)字符識別過程中用于描繪如何生成稀疏矩陣的元素的流程圖。
圖5a示出了根據(jù)本發(fā)明的光學(xué)字符識別過程中所使用的稀疏矩陣與圖像向量之間的矩陣乘法的圖示。
圖5b示出了根據(jù)本發(fā)明的光學(xué)字符識別過程中所使用的閾值矩陣的圖示。
圖6示出了根據(jù)本發(fā)明的光學(xué)字符識別過程中的歸類步驟的流程圖。
具體實施方式
將針對特定實施例并參考某些附圖對本發(fā)明進行描述,但本發(fā)明并非限定于此。所描述的附圖僅為示意性的而非限制性的。在附圖中,出于示意性目的,一些要素的尺寸可能被擴大而沒有按比例繪制。
此外,說明書和權(quán)利要求書中的術(shù)語“第一”、“第二”、“第三”等是用于區(qū)分相似元件,而不一定用于描述連續(xù)的或時間上的順序。這些術(shù)語在適當情況下可以互換,本文所描述的本發(fā)明的實施例可在不同于這里所述或所示的其它位置操作。
另外,盡管這些被稱之為“優(yōu)選的”的各個實施例被理解為示例性方式,但是本發(fā)明可以通過這些示例性方式來實現(xiàn)而并非這些示例性方式用于限定本發(fā)明的范圍。權(quán)利要求書中所使用的術(shù)語“包括”將不被解釋為對在其后列出的元件或步驟的限制;它并不排除其他元件或步驟。該術(shù)語應(yīng)被解釋為是強調(diào)所說明的特征、整體、步驟或部件的存在,而并未排除存在或添加一個或多個其它特征、整體、步驟或部件或其組群的可能性。因此,表達式“包括A和B的設(shè)備”的范圍不應(yīng)該限于僅包括部件A和B的設(shè)備。而是,就本發(fā)明而言,所枚舉的設(shè)備的部件僅僅是A和B,此外,權(quán)利要求書應(yīng)當解釋為包括這些部件的等同物。
這里假定將二進制數(shù)、向量以及矩陣寫成0或1,但是對于本領(lǐng)域技術(shù)人員而言明顯的是上述項還可以寫成正確或錯誤、黑色或白色或者用于稱述二進制狀態(tài)的任意其他方式。
在本發(fā)明的一個實施例中,對二進制圖像進行處理。二進制圖像是數(shù)字圖像,對于每個像素而言僅具有兩種可能的顏色。通常為黑色和白色的兩種顏色可以表示為真值和假值,或者1和0。使用1和0進行表示對于執(zhí)行數(shù)學(xué)圖像處理尤其有用。二進制圖像的處理通常涉及多個濾波步驟,這些濾波步驟是為了例如增強圖像的某些特征,或者為了對圖像執(zhí)行某些形態(tài)學(xué)操作。在數(shù)學(xué)上通常通過矩陣來描述濾波器,而濾波器在二進制圖像上的應(yīng)用是通過濾波器矩陣與二進制圖像矩陣的矩陣相乘來描述的。例如,這類操作可以用于光學(xué)字符識別,作為考慮到對光學(xué)字符進行識別而在圖像處理過程中的用于提取圖像特征的一個步驟。
光學(xué)字符識別系統(tǒng)使用字符識別過程將文本的圖形轉(zhuǎn)化成機器可讀代碼。在OCR識別系統(tǒng)中,可能是字符的圖像被分離并且字符識別過程用于對字符進行識別。
本發(fā)明的實施例涉及開始于表示字符或其他模式的輸入圖像的光學(xué)字符識別。在本發(fā)明的一個優(yōu)選實施例中,光學(xué)字符識別開始于表示亞洲字符的輸入圖像。在本發(fā)明的一個實施例中,輸入圖像是兩種顏色的圖像。在本發(fā)明的一個優(yōu)選實施例中,輸入圖像是白色和黑色圖像。在本發(fā)明的一個實施例中,輸入圖像是二維圖像。在本發(fā)明的一個實施例中,輸入圖像表示包括要被識別系統(tǒng)識別的字符、標識、圖片或設(shè)計的模式。在本發(fā)明的另一實施例中,模式是要被識別系統(tǒng)識別的聲音序列、影片片段或者三維模式。
圖1示出了根據(jù)本發(fā)明的一個實施例的光學(xué)字符識別過程101,其包括:
·歸一化步驟103,其根據(jù)輸入圖像102生成歸一化矩陣104;
·特征提取步驟105,其根據(jù)歸一化矩陣104生成特征向量106;
·歸類步驟107,其為輸入圖像102計算出一系列可能模式108中的最佳模式109。歸類步驟107還返回每個模式的概率密度110,該概率密度110提供了歸類步驟107的準確度的測量。
在歸一化步驟103中,輸入圖像102被細分為多個像素201。如圖2所示,輸入圖像102的每個像素201表示為中間矩陣203的元素202。在本發(fā)明的一個實施例中,中間矩陣203是二進制矩陣。中間矩陣203經(jīng)歷了多個步驟的組合,這些步驟可以包括:縮放處理、閾值處理、平滑處理、差值處理、濾波處理等等。這些步驟的組合的輸出是與歸一化圖像206相對應(yīng)的歸一化矩陣104。在本發(fā)明的一個實施例中,歸一化圖像206具有預(yù)定格式并且被居中。
歸一化矩陣104的每個元素207對應(yīng)于歸一化圖像206中的具有所述預(yù)定格式的像素208。
在本發(fā)明的一個實施例中,歸一化矩陣104是二進制矩陣,這個二進制矩陣對應(yīng)于兩種顏色的歸一化圖像106。歸一化矩陣104的每個元素由該矩陣的行x 204和該矩陣的列y 205來表征,其與歸一化圖像206上的位置相對應(yīng)。在本發(fā)明的一個實施例中,歸一化矩陣104是64×64矩陣。在本發(fā)明的一個實施例中,在歸一化圖像206中,距中心的距離的標準差是恒定的,該中心的值表示給定顏色的像素。在本發(fā)明的一個優(yōu)選實施例中,在歸一化圖像206中,距中心的距離的標準差為16個像素,該中心的值表示給定顏色的像素。在本發(fā)明的一個實施例中,歸一化步驟103期間保持了模式或字符的縱橫比(height width aspect ratio)。
根據(jù)歸一化矩陣104生成特征向量106的特征提取步驟105涉及矩陣向量乘法304。這可以借助于圖3來進行詳細地說明。維度為A×B的歸一化矩陣104被變換為長度為A*B的圖像向量301。在該變換期間,圖像向量301的每個元素被設(shè)置成等于歸一化矩陣104的元素從而使得只需一次就能將歸一化矩陣104的所有元素復(fù)制到圖像向量301中。在本發(fā)明的一個實施例中,圖像向量301是二進制矩陣。該圖像向量301包括歸一化圖像206的信息。歸一化矩陣104中行x 204和列y 205的元素的位置,即,與歸一化圖像206中的位置相對應(yīng)的位置,還對應(yīng)于索引j 302的特定值,該索引j 302指示圖像向量301的第j個元素。在本發(fā)明的一個實施例中,圖像向量301具有4096個元素并且索引j可以取值為介于1與4096之間的所有整數(shù)。這對應(yīng)于64×64歸一化矩陣104(64*64=4096)。
在本發(fā)明的一個實施例中,矩陣向量乘法304是近似的,并且特征向量106是稀疏矩陣303與圖像向量301之間的矩陣相乘的精確數(shù)學(xué)結(jié)果的近似值。索引i 401用于指定特征向量106中的第i個元素。在本發(fā)明的實施例中,形容詞“稀疏的”指示該矩陣主要是由零填充的。
圖4示出了使用Gabor函數(shù)404生成稀疏矩陣303的位于行i 401和列j 302處的元素。稀疏矩陣303的所有元素406是通過同樣的方式生成的。Gabor函數(shù)404是正弦平面波與高斯函數(shù)的乘積。Gabor函數(shù)404具有參數(shù)402以及變量x 204和變量y 205來作為輸入,其中,參數(shù)402對應(yīng)于索引i,變量x 204和變量y 205對應(yīng)于索引j。
要計算的稀疏矩陣的元素406的行索引i 401指定了Gabor函數(shù)404中所使用的參數(shù)402所采用的值。在本發(fā)明的一個實施例中,參數(shù)402由符號αi、σi、λi、Cxi以及Cyi來表示:
·αi是與Gabor函數(shù)404的正弦平面波的方向相關(guān)的角度;
·σi是Gabor函數(shù)404的高斯函數(shù)的標準差;
·λi是Gabor函數(shù)404的正弦平面波的波長;
·Cxi是Gabor函數(shù)404在歸一化圖像206上沿著豎直方向的中心;以及
·Cyi是Gabor函數(shù)404在歸一化圖像206上沿著水平方向的中心。
在本發(fā)明的一個實施例中,可以按照如下方式來選擇參數(shù):
·Cxi值是均勻間隔的。
·如果兩個Cxi值之間的距離被稱之為dCx,則第一Cxi,Cx1等于dCx/2。
·Cyi值是均勻間隔的。
·如果兩個Cyi值之間的距離被稱之為dCy,則第一Cyi,Cy1等于dCy/2。
·角度αi是均勻間隔的。
·αi的最大值與αi的最小值之和等于π弧度。
·σi的值小于dCx。
·σi的值大于dCx/2。
·σi的值小于dCy。
·σi的值大于dCy/2。
·在具有至少一個值的第一組值中,λi的值小于dCx且小于dCy。
·在具有至少一個值的第二組值中,λi的值使得第一組值中的值大于或大體上等于第二組值中的值的二分之一。
在本發(fā)明的其他實施例中,參數(shù)滿足下列一個或幾個條件:
·dCx與dCy相等。
·Cxi取5個值。
·Cyi取5個值。
·αi取6個值。
·αi取值為0、0.523598、1.0472、1.5708、2.09439以及2.61799弧度。
·σi取1個值。
·λi取2個值:λ1和λ2。
·λ1小于dCx。
·λ1小于dCy。
·λ2大于λ1且小于或等于2*λ1。
在64×64歸一化矩陣104的一個優(yōu)選實施例中,位置Cxi為6、18、30、42以及54,位置Cyi為6、18、30、42以及54,標準差σi為8,波長λi為11和22。表1給出了本發(fā)明的一個實施例的參數(shù)的值。
參數(shù)402的數(shù)值的集合的數(shù)量等于(Cxi的數(shù)值個數(shù)*Cyi的數(shù)值個數(shù)*αi的數(shù)值個數(shù)*σi的數(shù)值個數(shù)*λi的數(shù)值個數(shù))。在一個優(yōu)選實施例中,參數(shù)集的數(shù)量等于300=5*5*6*1*2并且行索引i 401取值為介于1值300之間的整數(shù)值。
要計算的稀疏矩陣的元素406的列索引j 302指定了Gabor函數(shù)404所使用的變量x 204和變量y 205的值。
Gabor函數(shù)404可以表示為:
Gabor函數(shù)的下列輸出是稀疏矩陣303中行i 401和列j 302的元素406:
·根據(jù)參數(shù)402的、與索引i 401相對應(yīng)的給定的一組值所計算出的Gabor函數(shù)的輸出,
·在歸一化圖像206中與索引j 302相對應(yīng)的行x 204和列y 205的位置處所計算出的Gabor函數(shù)的輸出。
稀疏矩陣303的列數(shù)等于圖像向量301的元素個數(shù)。在本發(fā)明的一個實施例中,稀疏矩陣303是300×4096矩陣。
在本發(fā)明的一個實施例中,稀疏矩陣的元素(i,j)406由下列公式給出。
符號“%”表示模運算并且優(yōu)先于“*”和“/”運算,并且符號“//”給出了整數(shù)之間進行除法的結(jié)果的整個部分并且優(yōu)先于“*”和“/”運算。參數(shù)采用如下值:
nbα=6
nbλ=2
波長最大值=22
步長=12
nb步驟=5
nb特征=300
σ=8。
nb步驟使得Cxi和Cyi小于或等于64。
矩陣向量乘法304被執(zhí)行來將稀疏矩陣303與圖像向量301相乘,如圖5所示,稀疏矩陣303為所述乘法的第一個因子,而圖像向量301為所述乘法的第二個因子。稀疏矩陣303與圖像向量301的乘積的向量結(jié)果是特征向量106。特征向量106的元素個數(shù)等于稀疏矩陣303的行數(shù)。在本發(fā)明的一個優(yōu)選實施例中,特征向量106的元素個數(shù)等于300。
在本發(fā)明的一個實施例中,特征向量106包括關(guān)于輸入圖像102的特定信息,該特定信息與考慮到模式識別的圖像特征重要性有關(guān)。參數(shù)的選擇,以及尤其是本發(fā)明的一個實施例中Gabor函數(shù)中的高斯函數(shù)的標準差小于兩個相鄰的中心之間的距離而大于兩個相鄰的中心之間的距離的二分之一的事實使得特征向量106中所包括的信息略微冗余。這種特征向量106中的信息的冗余提高了歸類步驟107的準確度。
圖5a示出了稀疏矩陣303與圖像向量301之間的矩陣乘法產(chǎn)生了特征向量106。稀疏矩陣303的元素被稱之為Mij。i為給出了行數(shù)的索引并且取值為介于1與m之間的所有整數(shù)值。j為給出了列數(shù)的索引并且取值為介于1與n之間的所有整數(shù)值。圖像向量301具有一列稱之為vj的n個元素。特征向量106具有一列稱之為ri的m個元素。矩陣乘法使得特征向量106的元素ri按照如下等式被計算:
可以將等式1中的一些項忽略不計。例如,vj等于零的情況下,項Mij vj同樣等于零。此外,當vj等于1并且稀疏矩陣303的元素Mij較小時,則也可以將項Mij vj忽略不計。為了對“小”進行控制,如圖5b所示,本發(fā)明的一個實施例使用了具有元素Tij的閾值矩陣501。在本發(fā)明的一個實施例中,如果Mij小于Tij,則可以將項Mij vj忽略不計。在本發(fā)明的另一實施例中,閾值矩陣501的所有參數(shù)Tij均具有相同值。因為Gabor函數(shù)404是正弦平面波與高斯函數(shù)的乘積,因此稀疏矩陣303的一些元素非常小。
可以借助于圖6來描述OCR過程101的歸類步驟107。在本發(fā)明的一個實施例中,歸類步驟107是最鄰近歸類方法的變體,所述最鄰近歸類方法使用了使用加權(quán)歐氏距離,其中,對于每一類而言權(quán)重是不同的。歸類步驟107使用了特征向量106和模型108作為輸入。在本發(fā)明的一個實施例中,模型108對應(yīng)于字符、字符組或給定字體族中的字符。在本發(fā)明的一個實施例中,模型108對應(yīng)于亞洲字符、亞洲字符組或給定字體族中的亞洲字符。在本發(fā)明的一個實施例中,所述模型108對應(yīng)于聲音序列、影片片段或者三維模式。
在本發(fā)明的一個實施例中,模型108是由協(xié)方差矩陣∑和矩陣向量μ進行限定的。在本發(fā)明的一個實施例中,∑的所有非對角元素被設(shè)置為零。在本發(fā)明的一個實施例中,將協(xié)方差矩陣∑與常數(shù)(對于每個模型而言常數(shù)不同)相乘從而使得所有模型的協(xié)方差矩陣∑的跡相同。在本發(fā)明的一個實施例中,協(xié)方差矩陣是近似的。在本發(fā)明的一個實施例中,∑為300×300矩陣并且μ是具有300個元素的向量。
為了選出對應(yīng)于特征向量106的與輸入圖像102最佳對應(yīng)的模型,針對每個模型108按照如下公式計算概率密度110:
其中,符號r表示特征向量106。符號|∑|表示矩陣Σ的行列式并且(r-μ)t指示向量(r-μ)的轉(zhuǎn)置。k等于特征向量的106的元素個數(shù)。在本發(fā)明的實施例中,k等于300。(r-μ)t∑(r-μ)的乘積等于遵循常規(guī)數(shù)學(xué)約定的矩陣乘法。
一旦在計算步驟601中計算出每個模型108的概率密度601,那么就可以在選擇步驟602中選取最佳模型109。最佳模型109是具有最大概率密度110的模型。在本發(fā)明的一個實施例中,歸類步驟107返回最佳模型109和每個模型的概率密度110,以提供歸類步驟的準確度的測量值。在一個可替代實施例中,歸類步驟107僅返回最佳模型109。在另一可替代實施例中,歸類步驟107僅返回每個模型的概率密度110。
本發(fā)明的一個實施例包括下述兩項的組合:
-如上所述的使用參數(shù)402的特征提取步驟105與組合,以及
-基于加權(quán)歐氏距離的歸類步驟107,其中,協(xié)方差矩陣∑的所有非對角元素被設(shè)置為零并且所有的模型的協(xié)方差矩陣∑的跡相等。
這種OCR系統(tǒng)使得圖像重構(gòu)能夠被高效地計算并且使得OCR準確度非常高。
表1