專利名稱:手寫字體或任一跡線的數(shù)字化的制作方法
本發(fā)明涉及一種將手寫字體或任何一種跡線數(shù)字化的方法。
本方法是通過一些簡單的數(shù)字數(shù)據(jù)來確定一條跡線的。不管跡線是手寫的或不是手寫的,這些數(shù)字數(shù)據(jù)在跡線與其數(shù)學表達之間形成了一個一對一關系的集合。
在現(xiàn)有技術中,跡線的數(shù)字化,為的是識別它們,一般采用-提供一條跡線不同點之特征的采集裝置;
-如此采集的數(shù)據(jù)的“成形”軟件;
-數(shù)據(jù)比較軟件將要識別的跡線的數(shù)據(jù)與一個用語的預先記錄的那些數(shù)據(jù)進行比較;
-處理數(shù)據(jù)用的一般所說的高效能數(shù)據(jù)處理機。
因此,在1973年12月第5卷第4期“模式識別”(PATTENRECOGNITION)中發(fā)表的一篇題為“字符識別中的筆向順序”(Pen Direcfion Sequences in Character recognition)描述了一種文字符號的識別方法,其連續(xù)點取樣和這些點中的每個點斜率計算都是在筆與書寫面接觸時連續(xù)進行的。按這種方法,具有同一正切值的諸點都被忽略不理。在字符跡線諸點的每一點,將代表8個可能的斜率中各種不同斜率的數(shù)字序列進行比較。這些序列由與筆在垂直方向上的移動相對應的跡線開頭及末尾的標識符予以限定。
如果這些已知技術的采集裝置的性能質(zhì)量可以收集某些有關跡線的信息的話,旨在自動化處理的有關信息的數(shù)學表示還存在下面一或幾個不足之處刪除了有關整個或部分跡線的數(shù)據(jù),這些數(shù)據(jù)被認為是多余的或者反過來是沒有描述價值的;
-以復雜的數(shù)學形式表示,例如二項式和“分隔符”序列,積分,相對重量計算系……;
-沒有利用“空白”,也就是說沒有利用采集裝置在位移時占用的點,確切地說,在分析跡線時,不需用跡線。
這些方法的缺點說明識別不足(特別是0與6或7與2),和/或所采用的硬件及軟件設備的數(shù)量大因而也就是它們的成本費用高。
為了補償這些不足,采用本發(fā)明的方法的目的就是保持數(shù)據(jù)的完整并把它們變成易于進行信息化處理的形式。
為此,本發(fā)明推薦一種手寫字體或任何一般跡線的數(shù)字化方法,把書寫符號記錄板、“筆”和用來計算“筆”位移的軟件結(jié)合起來,這種方法的主要之點是-把筆在劃線時的整個位移當作包括“空白”的一連續(xù)串;
-規(guī)定跡線每個基本點有兩個標引,一個標識跡線的“空白”或“充滿”符號,另一個標識緊接著下面點的位置。
本發(fā)明的一種較佳實施方案是使用-一個帶有探針的數(shù)字化板,此探針可以獲得跡線所有各個點的坐標、它們寫好的狀態(tài)或沒有寫好的狀態(tài)、探針的移動速度(通過測量從一個點到緊接著的下一個點探針所用的時間);
-一種數(shù)據(jù)“成形”軟件;
-一種數(shù)據(jù)比較軟件。
此外,本發(fā)明具有簡易的特點,可以使用一種簡單的微處理機。
另外,本發(fā)明的一些特點和優(yōu)越性還可以通過后面緊跟著的說明顯示出來,并引用一些附圖作為例子,在附圖中。
-圖1a描述了所有各點相切的圖系中點的分布情況;
-圖1b描述了規(guī)格化正交坐標圖系中點的分布情況;
-圖2描述了在1a型圖系中“t”的基本點分解情況,將沒有寫出來的位移考慮在內(nèi)(用虛線表示)。
-圖3示出在壓縮數(shù)據(jù)之后,用數(shù)字形式表示的同樣符號;
-圖4采用數(shù)字形式的圖形表達形式;
-圖5a和5b將長度比例為N的跡線與圖2和3中所表示的跡線進行比較。
本發(fā)明的數(shù)字化方法把跡線看成是一種連續(xù)現(xiàn)象,這是因為按年月次序考慮到在劃線過程中沒有寫出的位移。
對每種類型的數(shù)據(jù)(點的位置,寫出或沒有寫出的字母符號、瞬時速度…)都規(guī)定一種數(shù)字串。在每一串中,跡線的每一點都按獲得的順序用一個值來表示。
因而跡線就用一些數(shù)串表示,一個數(shù)串代表一種類型的數(shù)據(jù)a)寫出或沒寫出的字母符號可用兩個值(例如1和0)來描述,整個跡線標準的表示是一串N個0或1數(shù),N是跡線點的數(shù)目;
b)不同點的座標可用一個點相對前一點(或相對后一個點,這是一回事)的相對位置表示。
實際上,不管圖系是什么樣,跡線都可分解成一些連續(xù)點,這些點的大小和分布情況都是由所使用的系來確定。結(jié)果,連接一個點和下一點的直線就與初始點切線混同起來了;因此,在給出的已知一點上的可能的正切值的數(shù)目是由下面點可能的位置數(shù)來確定。
這些可能的位置是限定數(shù)的。一般說來,它們(位置)總共為8,有時僅僅是6(圖1a和1b)。
從跡線第一個點開始(必要時可保持其絕對座標),全部位移用一串N個數(shù)值來描述,N個數(shù)值每個都表示跡線一點上的正切(圖2和3)。
c)同樣,知道兩個連續(xù)點間的位移時間,人們就能計算每個點表示位移速度的標引。于是就能建立另一個數(shù)字串,這一數(shù)字串逐點指明了跡線的速度。
要注意到在此階段沒有任何數(shù)據(jù)被刪除,并且要注意到所描述的那些串都同跡線建立一對一關系,事實上由這些數(shù)據(jù)就可能再建立原跡線,同時,保持其所有動態(tài)的和靜態(tài)的特性。
這樣獲得的數(shù)據(jù)是大量的,為了加速它們的處理時間,重要的是把它們壓縮。只要選定某些值得注意的數(shù)值,這是可能作到的。
因此,如果人們選定1和0值來描述一個點寫出或沒有寫出的狀態(tài),并且選出所有偶數(shù)(或所有的奇數(shù))的一些連續(xù)值來描述那些正切的可能值,只要給同一點補充這兩個標引的值,就能得到僅僅一個標引,這個標引通過唯一的一個數(shù)串來描述跡線的全部靜態(tài)信息。
這種進行方式大大地簡便了比較過程并節(jié)約了數(shù)據(jù)儲存所必需的地方。這種緊縮能隨著采集的過程進行或者在此采集終了時實現(xiàn)。
本發(fā)明的這一方法適用于一般跡線的比較,特別適用于字體或簽字的識別。這時就必需進行象前面所描述的不同跡線的數(shù)字化,然后再進行它們的比較。如果兩個跡線是相同的,則表示它們的那些數(shù)字串也是一樣的,它們越是不同組成它們的值相差越大。因而只須逐點計算兩個跡線數(shù)值間的差,求這些差值的和并將此和加在跡線的點數(shù)上(如果此和是針對一些短的或長的跡線,則無關緊要)便可得出一個相似標引值,這一標引值越小,相似性越大。
一個跡線與幾個別的跡線相比較后,就給每一個跡線提供一個標引,其最小的就指示最相似的跡線。
可指定一個值,超過這個值,跡線之間就有足夠的相似性,因此,不能把諸跡線看成具有同一描述值。
此方法尤其適用于字體及簽字的識別。
如果跡線最后一點的一致性不是含糊不清,問題是相當簡單的,因為組成跡線的諸點的數(shù)是已知的了。對于簽字或某些語言(希伯來語、中文……)總是用一空白彼此分開的圖形字符,就是這種情況。
如果諸跡線是連接的,首先要進行每個基本圖形符號的數(shù)字化并組成這些符號的一個用語。
從幾個符號中分離及識別一連接跡線中某些符號,包括幾個級段首先把組成它們當中每一個的N個點與要識別的跡線的N個最先點進行比較。(N是一個數(shù),它使一個符號區(qū)別于另一個符號)。在標引值相等的情況下,含有最大點數(shù)N的跡線對應于要識別的跡線的N個最先點。于是,比較從下一點繼續(xù)進行。不同尺寸的跡線的比較也是可能的。其實兩個跡線中的一個只是另一個按1到N的比例放大,這兩個跡線都可用諸數(shù)串來表示,這些數(shù)串之間的差別只表現(xiàn)在其中一個數(shù)串的每個值在另一個數(shù)串中接連N次重復。
為了比較兩個其各自長度按1與N之此的跡線,只須將一跡線的R行的點與另一跡線的R×N行的點進行比較。圖5a和5b表示出字母“t”及其數(shù)字表示(與圖2上的數(shù)字表示比較),字母“t”與圖2的字母“t”一致,但大1.5倍。
可以把任何一個跡線與一個參照用語的諸跡線比較,此參照用語可能是指定的使用者所特有的或者能夠容納一個較多方面的取樣。
本發(fā)明的跡線數(shù)字化方法的實施方案允許有一個數(shù)字采集裝置,此裝置還包括-裝有它的筆的數(shù)字化板;
-一個光學筆;
-一個“小鼠”(光標)。
當然本發(fā)明并不局限在剛剛作為例子考慮的那些具體實施方式
。
事實上,這種裝置可以是任何一種別的裝置,但這種另外的裝置可以把跡線確定為一連串的點,根據(jù)所使用的座標系類型極座標系、規(guī)格化正交座標系或任何別的幾何表示;根據(jù)跡線類型(這些跡線可以是簽字、字母、表意文字字體或別的符號,手寫的跡線或者用機械方法、工業(yè)方法或科學方法得到的跡線,或者任何其它類型的跡線);并且根據(jù)跡線的采集時間(可能是其產(chǎn)生的時間或延遲),人們可以知道這些點的位置、寫出或未寫出的符號、瞬時速度等等。跡線用一個,比如,光學裝置進行分析,這種光學裝置的“位移”是數(shù)字化的。
權利要求
1.手寫字體或任何一般跡線的數(shù)字化方法,它把書寫符號用的臺板、“筆”和用來計算“筆”位移的軟件結(jié)合起來,此方法的特征主要在于-把“筆”在劃線時的整個位移看作包括“空白”的一連續(xù)串;-給跡線的每一個基本點規(guī)定兩個標引,一個用來標識跡線的“空白”或“充滿”符號,另一個則用來標識緊接的下一點的位置。
2.按照權利要求
1,這一方法的特征在于在數(shù)學平面上,用起始點正切值精確地確定一跡線中、緊接的下一點的位置。
3.按照權利要求
2,此方法的特征在于一點的切線同連接此點與緊接的下一點的直線混同。
4.按照權利要求
1,此方法的特征在于跡線分解成一些基本點,這些點在書寫符號記錄臺板上的分布根據(jù)所使用的圖系而變化。
5.按照權利要求
2,此方法的特征在于可能的正切值的數(shù)目是由圖系的點的分布類型決定的。
6.按照權利要求
1,此方法的特征在于給跡線的每個基本點規(guī)定第三個標引,用來指明跡線的這一點上的瞬時速度。
7.根據(jù)權利要求
1,此方法的特征在于它可以選擇某些值得注意的數(shù)值,僅用一個數(shù)串來描述關于一個跡線的全部信息。
8.根據(jù)權利要求
7,此方法的特征在于信息的緊縮能夠隨著采集進行或在采集終了時實現(xiàn)。
9.根據(jù)權利要求
1,此方法的特征在于它可以比較跡線,方式是通過逐點計算同一類型數(shù)串值間之差加在跡線諸點的總數(shù)上的和。
10.根據(jù)權利要求
9,此方法的特征在于可以根據(jù)跡線的N個最前面的點反復進行比較從幾個圖形符號中分離和識別跡線中的一個連接跡線的圖形符號,N是一個變數(shù),它依次等于要辨認的每個圖形符號的點數(shù)。
11.根據(jù)權利要求
9和10中任何一項,此方法的特征在于它可以比較其尺寸按1與N之比的跡線,只要將一個跡線的R行和另一個跡線的(N×R)行的諸點進行比較。
12.按照權利要求
1,此方法的特征在于把被采集的連續(xù)串與予先存儲的字母或跡線一用語進行比較。
13.按照權利要求
12,此方法的特征在于把存儲的每個字母或跡線與使用者的個人字體組成的一個參照用語進行比較。
14.根據(jù)權利要求
1,此方法的特征在于它能夠用來使予先印好的原文或圖形數(shù)字化,其特征還在于人們可用一個光學閱讀系統(tǒng)跟隨跡線,光學閱讀系統(tǒng)的全部位移將被看成一個連續(xù)串;每個基本位移就被存儲起來。
專利摘要
本發(fā)明申請所述的數(shù)字化方法,主要是把任一跡線看成是一連串的點,再計算位移過程中所有的點;不管這些點是寫出的或未寫出的,均把它們按其取得的順序重現(xiàn)為數(shù)字串,每一數(shù)字串表示一種類型的數(shù)據(jù)。
文檔編號G06K9/62GK85106366SQ85106366
公開日1987年3月18日 申請日期1985年8月24日
發(fā)明者阿蘭·伯克里斯 申請人:阿蘭·伯克里斯導出引文BiBTeX, EndNote, RefMan