亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

相似字識別方法及裝置的制作方法

文檔序號:6411877閱讀:329來源:國知局

專利名稱::相似字識別方法及裝置的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及一種相似字識別方法及裝置,特別是一種中文相似字識別方法及裝置。文字識別技術(shù)應(yīng)用廣泛,其中可分為二種典型的應(yīng)用光學(xué)文字閱讀機以及筆式輸入作業(yè)環(huán)境,在光學(xué)文字閱讀機中,包含印刷及手寫文字及符號的文件經(jīng)由光學(xué)掃描器的掃描后,以電子媒體(數(shù)字圖像)方式儲存于電腦的存儲體中,而后再經(jīng)由文字識別裝置,對此數(shù)字影像做處理及識別,最后成為易于處理的電腦文字檔案。圖1是一個典型的光學(xué)閱讀系統(tǒng)50的方塊圖。這個系統(tǒng)50包含一個自動送紙系統(tǒng)51,其主要功能為自動將紙饋入一個光學(xué)影像掃描器52中,以便執(zhí)行影像輸入。此光學(xué)影像掃描器被連接到一個處理單元54,此處理單元可為一般的個人電腦或一特殊設(shè)計的處理器。一般而言,此處理單元須包括一微處理器56,一存儲器模組62,一個顯示屏幕58以及鍵盤或其他輸入裝置60,以上各元件主要是用于滿足此處理單元54執(zhí)行文字識別工作的需要。筆式輸入作業(yè)環(huán)境最常見的地方是在一些個人數(shù)字助理(PersonalDigitalAssistant,簡稱PDA)中。圖2中即繪示了一個筆式輸入的PDA70。通常一個PDA是一臺可攜式電腦,其中包含一些簡單功能如約會日歷、電話薄、備忘筆記本等;另外還可提供無線通訊功能,例如傳真、電子郵件等等。PDA的作業(yè)方式是使用者利用一數(shù)位筆74將數(shù)據(jù)或命令手寫于一數(shù)位板72上,此數(shù)位板72可對輸入的筆跡做高速取樣,并將取樣的座標(biāo)資料儲存起來,然后再利用文字識別技術(shù)將此手寫輸入轉(zhuǎn)換為電腦文字數(shù)據(jù)或命令,此識別工作也是由PDA70中的微處理器執(zhí)行。在識別過程中一個很麻煩的問題就是如何有效處理相似字的問題,這個問題在中文字的識別中尤其困難,原因在于中文字的字集相當(dāng)大,根據(jù)統(tǒng)計一般常用的中文字就有5401個而較完整的中文字集更須包括13000字以上。因此其中相似字的組合實在是多得難以估計。當(dāng)利用一個既有的手寫中文字識別系統(tǒng)作測試時,對5401個中文字而言,每字取100個樣本做識別,將識別后正確結(jié)果出現(xiàn)在前N名候選字內(nèi)的比率做統(tǒng)計,在下表中我們將N=1到N=5的數(shù)據(jù)列出,結(jié)果發(fā)現(xiàn)其間識別率以N=1與N=2間識別率遞升最大(95.16-90.02=5.14個百分點),此數(shù)據(jù)說明有大部份的誤認是由于相似字問題的存在而經(jīng)常使用正確答案出現(xiàn)于第二位候選字。如圖3所示的三字‘己’80、‘已’82和‘巳’84即是典型的相似字。</tables>至目前為止,針對相似字的識別問題有些研究人員提出了一些解法,大部份的方法都著重于利用字型結(jié)構(gòu)比對的方法先抽取一些結(jié)構(gòu)特征例如筆劃、部首,再從這些特征上去找出可以區(qū)分相似字的特征,例如Jeong-SeonPark和Seong-WhamLee在InternationalWorkshopsorFrontiersinHandwritingRecognitionIV中的論文“AdaptivenonlinearPatternMatchingmethodforOff-LineRecognitionofhandwrittenCharacters”就提出了此類型的解法,而A.B.Wang、J.S.Huang和K.C.Fan也在Proceedingsof1992SecondnationalWorkshoponCharacterRecongnition中的論文“OpticalRecognitionofHand-writtenChineseCharactersbyModifiedRelaxation”也提出相關(guān)的方法。這種結(jié)構(gòu)比對的方法雖然可以較精確地區(qū)分相似字,但是卻有二大問題存在。第一個問題是結(jié)構(gòu)特征的抽取,到目前為止對電腦而言依然是一大難事,尤其是在經(jīng)過影像掃描器掃描后,失真的手寫文字中抽取結(jié)構(gòu)特征更難。由于結(jié)構(gòu)特征的難以抽取,致使對相似字識別的改進效果受到極大的影響。第二個問題是在于中文字集中存在著難以估計數(shù)目的相似字組合,每一種相似字組合都需要不同的結(jié)構(gòu)特征來區(qū)分,面對這么龐大數(shù)目的組合,根本無法以人工方式來個別為每一個組合定義其區(qū)分特征。除了結(jié)構(gòu)比對方式外,也有人利用統(tǒng)計式的方法來解決相似字的識別問題。其與結(jié)構(gòu)比對法的最大差異在于采用的特征是屬于統(tǒng)計式的特征。統(tǒng)計式的特征是指利用收集好的樣本抽取其影像上的像素(Pixel)特征,例如字元影像中四個方向(水平、垂直、左斜、右斜)的線段上的像素個數(shù)、筆劃交叉點等等,然后統(tǒng)計出其平均值、標(biāo)準差作為比對識別的參考樣板數(shù)據(jù)庫,以便供比對之用。比對時,將由輸入樣本抽取出的特征資料與參考樣板數(shù)據(jù)庫中的樣板比對,而后再挑出最接近的幾個候選字作為輸出。一般而言,統(tǒng)計式特征的抽取較結(jié)構(gòu)式特征容易,穩(wěn)定性也較大,較不受字形失真或變異影響。采用統(tǒng)計式特征來設(shè)計手寫中文字識別系統(tǒng)的典型實施例可見于T.F.Li、S.S.Yu、H.F.Sun和S.L.Chou所合著的論文“handwrittenandPrintedChineseCharacterRecognitionUsingBayesRule”(發(fā)表于IntelligentSystemsforProcessingOrientalLanguagespp.406-11,1992中)。利用統(tǒng)計式的方法解決相似字識別問題的實施例則可以參閱J.Z.Hu在Chinese.InformationJourmal,Issue1,Vol.9,pp.37-41論文“IdentificationofSimilarCharactersinhandwritionandPrintedChineseCharacterRecognition”。在該論文中,作者提出的方法是根據(jù)不同的相似字組合定義不同的統(tǒng)計式區(qū)分特征以便區(qū)分相似字,但是這種方法卻仍然遭遇到與結(jié)構(gòu)比對法相同的第二個問題,亦即,無法以人工去完全歸納出所有組合的區(qū)分特征。此外,定義大量額外的特征還需要大量額外的存儲容量來儲存,這對一些無法配備大量存儲容量和計算能力的裝置如PDA,可能是不實際的作法。圖4是一上述的改進相似字識別的統(tǒng)計式文字識別裝置90的方塊示意圖,其操作方式是將一輸入(筆式輸入或光學(xué)掃描輸入)字元輸入此識別裝置,接著此輸入字元被送至特征抽取器92中抽取其統(tǒng)計式特征,而后再將此特征送給一識別引擎94作識別,此識別引擎94的主要工作是將輸入特征與參考樣板數(shù)據(jù)庫96中的樣板比對,然后根據(jù)距離或相似度找出最接近的幾個候選字作為輸出。在這個識別裝置90中,還包含了另一個數(shù)據(jù)庫稱為區(qū)分特征字義數(shù)據(jù)庫100,當(dāng)候選字從識別引擎96輸出時,此區(qū)分特征字義數(shù)據(jù)庫100會被查詢以檢視所輸出的候選字間是否構(gòu)成相似字組合,如果是,則會從此區(qū)分特征定義數(shù)據(jù)庫100中找出可以分辨該相似字組合中的相似字的區(qū)分特征定義。然后再將原輸入字元送至一區(qū)分特征,再將此抽出的區(qū)分特征送至一相似字識別裝置102中,此相似字識別裝置102,即將此輸入特征與區(qū)分特征參考樣板數(shù)據(jù)庫104中樣板比對,根據(jù)比對的距離重新調(diào)整候選字輸出。在此識別裝置中,由于須對相似字定義新的區(qū)分特征,因此須儲存三個數(shù)據(jù)庫,這三個數(shù)據(jù)庫將占用不少存儲空間,而且抽取新的區(qū)分特征也將減慢識別速度。本發(fā)明的主要目的在于提供一種識別效果好的相似字識別方法及裝置。本發(fā)明的另一目的在于提供一種識別速度快及存儲容量大的識別裝置,其盡量降低額外付出的時間及空間成本,如識別速度及存儲容量。為達到上述目的,本發(fā)明提出一種新的方法及裝置,依據(jù)此方法及裝置,本發(fā)明至少可提供以下三種功能功能一自動建構(gòu)一個中文字集中的相似字對(ConfusingCharacterPair)數(shù)據(jù)庫。功能二根據(jù)每個相似字對,自動抽選可以區(qū)分此相似字對中的相似字的統(tǒng)計式區(qū)分特征。功能三根據(jù)抽選的區(qū)分特征,自動對相似字作更精細的比對。以上三種功能均可用電腦自動執(zhí)行,因此不會存在現(xiàn)有技術(shù)中所碰到的人工無法處理的問題。茲將本發(fā)明的大概操作原理說明如下首先先收集大量的中文字樣本并建構(gòu)成學(xué)習(xí)樣本數(shù)據(jù)庫,然后利用一現(xiàn)有識別系統(tǒng)對此數(shù)據(jù)庫作識別測試,識別過程中記錄各樣本被誤認的輸出結(jié)果及其相對的誤認頻率,然后根據(jù)此誤認結(jié)果及頻率即可篩選出每個字的相似字,并進而建構(gòu)出一個中文字集的相似字對數(shù)據(jù)庫。有了相似字對數(shù)據(jù)庫,針對每一個相似字對,再利用學(xué)習(xí)樣本數(shù)據(jù)庫中的樣本,對此相似字對中的二個相似字的現(xiàn)有特征作分析,并依其重要性作降冪排列,最后再依簡易的統(tǒng)計法決定最佳數(shù)目的重要特征作為此二相似字的區(qū)分特征,所以每個相似字對及其相對的區(qū)分特征個數(shù)即可被建構(gòu)為一區(qū)分特征表,此區(qū)分特征表即可為本發(fā)明裝置識別相似字時所取用。由上述說明中本發(fā)明方法及裝置并未定義新的特征做為相似字的區(qū)分特征,而只是從現(xiàn)有識別系統(tǒng)所抽取的特征中重要的區(qū)分特征,因此可以免除識別時抽取新特征所需的時間以及不需對新特征建立一新的參考樣板數(shù)據(jù)庫。一旦建構(gòu)完成區(qū)分特征表之后,本發(fā)明裝置即可執(zhí)行相似字的識別,識別方法說明于下,輸入一待辨文字影像,由現(xiàn)有的識別系統(tǒng)執(zhí)行識別,識別后輸出前二名候選字至本發(fā)明裝置,然后由本發(fā)明裝置至區(qū)分特征表中檢視此二個候選字是否有與任一相似字對吻合,若無吻合表示此二字非屬相似字組合,因此無須進一步處理與識別,故直接輸出原識別結(jié)果。相反地,若吻合,則從表中取得區(qū)分特征的資料,并對現(xiàn)有特征依重要性做降冪排序,再依取得的區(qū)分特征個數(shù)依序取得適當(dāng)個數(shù)的區(qū)分特征,并以取得的特征對此二候選字做重新比對,再依此比對結(jié)果決定最后輸出。本發(fā)明的具體方法如下本發(fā)明的相似字識別方法包括以下步驟a、利用學(xué)習(xí)樣本及識別器,自動建構(gòu)出一相似字對數(shù)據(jù)庫;b、藉由學(xué)習(xí)樣本的識別及分析,自動針對每一相似字對抽選最能分別此相似字對中的相似字的區(qū)分特征;以及c、利用抽選出的特征執(zhí)行相似字的識別。本發(fā)明的相似字識別裝置,其特征在于,包括a、特征抽取器,用以從字體影像中抽取特征;b、特征參考樣板數(shù)據(jù)庫,包含文字類別的各特征信息;c、識別引擎,用以接收特征抽取器所抽取的特征數(shù)據(jù),并與特征參考樣板數(shù)據(jù)庫的樣板作比對,并依比對距離輸出一序列的候選字;d、相似字特征抽取器,用以接收識別引擎輸出的前二位候選字,并執(zhí)行相似字識別;及e、相似字識別裝置,用以接收識別引擎輸出的候選字并利用特征參考樣板數(shù)據(jù)庫及相應(yīng)主要區(qū)分特征來分辨相似字,并輸出一個最理想的候選字。結(jié)合附圖及實施例對本發(fā)明詳細說明如下圖1光學(xué)文字閱讀系統(tǒng)的電路方塊示意圖。圖2個人數(shù)字助理俯視圖。圖3三個中文相似字示意圖。圖4傳統(tǒng)統(tǒng)計式相似字識別裝置方塊示意圖。圖5本發(fā)明的統(tǒng)計式相似字識別裝置方塊示意圖。圖6本發(fā)明裝置中各模組間的關(guān)系示意圖。圖7本發(fā)明的統(tǒng)計式相似字識別作業(yè)流程圖。圖8中文相似字對表范例。圖9區(qū)分特征分析中針對相似字對(‘己’,‘巳’)的各特的ck值比較圖。圖9A圖9的前25個特征的ck值的放大圖。圖10區(qū)分特征分析中針對相似字對(‘己’,‘巳’)的各特征的uk值比較圖。圖10A圖10的前25個特征的uk值的放大圖。如圖5所示,其是本發(fā)明所提的統(tǒng)計式相似字識別裝置200的方塊示意圖,其中包括一個特征抽取器202,一個識別引擎204,一個特征參考樣板數(shù)據(jù)庫206,一個相似字對識別元件208以及一個相似字區(qū)分特征個數(shù)表210。其中特征抽取器202,識別引擎204及特征參考樣板數(shù)據(jù)庫206為一般現(xiàn)有統(tǒng)計式識別系統(tǒng)的標(biāo)準模組單元,因此在此不予詳述。本發(fā)明裝置主要有二大工作單元,分別是(一)訓(xùn)練本發(fā)明裝置如何識別相似字對的訓(xùn)練單元,和(二)相似字對的識別單元。在圖6中我們圖示了本發(fā)明裝置250各模組(包括訓(xùn)練及識別)間的關(guān)系圖,其間包括了一個學(xué)習(xí)樣本數(shù)據(jù)庫252、一個相似字對產(chǎn)生模組254、一個相似字識別模組256,一個相似字區(qū)分特征個數(shù)表210,以及一個相似字對識別元件208,上述各模組除了相似字對識別元件208屬于識別單元外,其余模組均屬訓(xùn)練單元。在學(xué)習(xí)樣本數(shù)據(jù)庫252中,我們針對每個中文字收集了多個樣本,通常收集樣本越多,統(tǒng)計結(jié)果正確性越高,因此也就對系統(tǒng)的訓(xùn)練效果越有幫助。相似字對產(chǎn)生模組254的功用是對學(xué)習(xí)樣本數(shù)據(jù)庫252中的樣本做識別測試及統(tǒng)計分析,以便為每個中文字篩選出易導(dǎo)致中文字被誤認的相似字。相似字識別訓(xùn)練模組256的功用在于針對由相似字對產(chǎn)生模組254所產(chǎn)生的每組相似字對做特征的統(tǒng)計分析,以便抽選出最佳數(shù)目區(qū)分特征,而每組相似字對及其抽選出的區(qū)分特征個數(shù)即被儲存于相似字區(qū)分特征個數(shù)表210中。在執(zhí)行相似字識別時則是由相似字對識別元件208接收識別引擎204輸出的前二位候選字并參考相似字區(qū)分特征個數(shù)表210中的數(shù)據(jù)做進一步識別。以下我們分別對訓(xùn)練部份及識別部份的模組做更進一步詳細說明。本發(fā)明裝置的訓(xùn)練單元(一)相似字對產(chǎn)生模組對一個包含大量文字的字集如中文而言,要以人工的方式來找出所有的相似字對是不可能的,而且人眼所歸納的相似字對對電腦而言不見得是相似字對,因此利用電腦的快速處理數(shù)據(jù)的能力來自動分析并找出有可能的相似字對才是較為可行的方式。因此在本發(fā)明中便提出一個新方法來讓電腦自動完成此項工作。此方法須利用一學(xué)習(xí)樣本數(shù)據(jù)庫252及一現(xiàn)有的識別系統(tǒng),該方法包括以下步驟步驟一利用現(xiàn)有識別系統(tǒng)對學(xué)習(xí)樣本數(shù)據(jù)庫252中的樣本作識別測試。步驟二識別過程中記錄所有被誤認的輸出及其相對的識別次數(shù)(頻率)。步驟三如果有二中文字A與B彼此間的誤認頻率(不管A誤認為B或B誤認為A)超過一指定值T,則(A,B)即成一相似字對。在上述方法中,指定值T愈低,則可能產(chǎn)生的字對就愈多,在本發(fā)明的較佳實施例中,T=2為一合理值。(二)相似字識別訓(xùn)練模組相似字識別訓(xùn)練模組256主要執(zhí)行二件工作,分別是(1)針對每個產(chǎn)生的相似字對,計算各個特征的重要性以及(2)區(qū)分特征個數(shù)的決定。茲將此二工作分別詳述于下。(1)特征重要性的計算如前所述,在傳統(tǒng)的統(tǒng)計式識別系統(tǒng)中都會包含一個特征參考樣板數(shù)據(jù)庫206,此參考樣板數(shù)據(jù)庫206通常是利用學(xué)習(xí)樣本數(shù)據(jù)庫252中的樣本抽取其特征并統(tǒng)計各特征的平均值及標(biāo)準差而來,利用此平均值及標(biāo)準差,即可算出輸入樣本與各樣板間的距離或相似度,以找出最相近的候選字。事實上,這個統(tǒng)計出的平均值及標(biāo)準差也可被用來計算各特征在被用以區(qū)分一個相似字對時的重要性,此重要性程度可以下述方法量化其中η(x,y)(i)為第i個特征對區(qū)分相似字對(x,y)的重要性;mx,i表示x字樣板的第i個特征的統(tǒng)計平均值;my,i表示y字樣板的第i個特征的統(tǒng)計平均值;vx,i表示x字樣板的第i個特征的統(tǒng)計標(biāo)準差;vy,i表示y字樣板的第i個特征的統(tǒng)計標(biāo)準差。從(式1)中可知當(dāng)x字樣板第i個特征與y字樣板的第i個特征的平均值差異大時,(式1)的分子就會增大,而同時若x字樣板第i個特征與y字樣板的第i個特征的標(biāo)準差的和越小時,(式1)的分母就變小,因此,η(x,y)(i)越大,代表此第i個特征越有助于相似字對(x,y)的區(qū)分,亦即其重要性越大。(2)區(qū)分特征個數(shù)的決定有了各特征的重要性的量化指標(biāo)后,各特征就可依其重要性做降冪的排列,然而對每個相似字對而言,并非所有特征都有正面的輔助識別效果,相反地,根據(jù)實驗得知,有許多特征不但沒有正面效果,還反而有混淆識別的作用,因此對任何相似字對(x,y)而言,從所有特征中濾去無用的特征是很重要的工作。為了完成此工作,本發(fā)明采用下述的方法,該方法包括步驟1針對相似字對(x,y),將所有特征依(式1)計算其重要性,并根據(jù)此計算出的重要性以降幕方式排列各特片順序。步驟2設(shè)定二個向量變數(shù)C=(c1,c2,...,cd)及C=(u1,u2,...ud)為零向量,其中d為特征個數(shù)。步驟3從學(xué)習(xí)樣本數(shù)據(jù)庫252中取出x字及y字的樣本,對所有取出的樣本一一與x字及y字的樣板做比對(計算樣本至二樣板的距離)。步驟4比對過程中執(zhí)行下述記錄工作(a)記錄各特征的累進距離差dk(1≤k≤d),dk的定義如下其中fi為輸入樣本的第i個特征;D(Xi,fi)和D(Yi,fi)分別表示fi至x字樣板的第i個特征及y字樣板第i個特征的距離函數(shù),在本發(fā)明中,此距離函數(shù)定義如下和其中mx,i、vx,i、my,i和vy,i分別代表x字樣板第i個特征的統(tǒng)計平均值、標(biāo)準差以及y字樣板第i個特征的統(tǒng)計平均值、標(biāo)準差。因此,將(式3)及(式4)代入(式2)即得(b)對任何第k個特征,若下列二條件的任一條件成立,則將向量變數(shù)C的第k個分項ck值加一條件一此輸入樣本為x字之一樣本且dk<0條件一此輸入樣本為y字之一樣本且dk>0。(c)對任何輸入樣本,依下式調(diào)整U向量的第k個分項ukuk=uk+α(dk-dk-1)其中如果該輸入樣本為x字之一樣本,則α=-1;否則若該輸入樣本為y字之一樣本,則α=1。步驟5從所有特征k中找出其在向量變數(shù)C中的分項ck值,并從中找出最大值,如果有超過二個以上的分項有相同值(且為最大),則取其中的uk分項較大者,假設(shè)特征k*符合上述最大值條件,則代表排序后的特征1、特征2、...特征k*是真正對分辨相似字對(x,y)有用的區(qū)分特征,而特征k*+1及其后的特征均因幫助不大故可什舍棄之。上述方法中,分項ck值的物理意義其實就代表在所有使用的x字及y字的學(xué)習(xí)樣本中,若僅使用特征1、特征2、...、特征k,而舍棄特征k+1及其后的特征所能正確識別的樣本數(shù),因此,找出最大的ck值亦即代表找出具有最佳識別效果的特征數(shù)目。又因可能同時存在二個以上特征數(shù)得到最佳的識別效果,此時我們就以uk值做為從中選一的依據(jù),越大的uk值其實就代表該特征k對相似字對x和y而言,可產(chǎn)生較大的距離差,因此可具有較佳的分辨作用。(三)相似字區(qū)分特征個數(shù)表在相似字識別模組256完成區(qū)分特征的決定后,本發(fā)明即將每一個相似字對及其相對的區(qū)分特征個數(shù)予以儲存成一數(shù)據(jù)庫,以供相似字對識別元件208取用,此數(shù)據(jù)庫即稱為相似字區(qū)分特征個數(shù)表210。此表中每一筆數(shù)據(jù)包含三個欄位,分別是(1)相似字對中第一個相似字的編號,(2)相似字對中第二個相似字的編號,及(3)該相似字對的區(qū)分特征個數(shù)。下表中為一個相似字對區(qū)分特征個數(shù)表的范例。<tablesid="table2"num="002"><tablewidth="518">第一相似字代號第二相似字代號區(qū)分特征個數(shù)121518141151623282650</table></tables>為了增進相似字對識別元件208在搜尋相似字區(qū)分特征個數(shù)的速度,本發(fā)明在實施時乃將該表以串列制作,針對每個字A,所有與字A構(gòu)成相似字對的字B及其相對的區(qū)分特征個數(shù)均被串連在一個串列中,并依字B的編號作排序,因此,以上述的字對區(qū)分特征個數(shù)表范例而言,字1的串列如下所示串列一第二字序號2第二字序號8第二字序號8區(qū)分特征數(shù)15區(qū)分特征數(shù)14區(qū)分特征數(shù)16</table></tables>而字2的串列則如下所示串列二第二字序號3第二字序號6區(qū)分特征數(shù)28區(qū)分特征數(shù)50</table></tables>在相似字對識別元件208要搜尋相似字對(A,B)時只須由字A的串列中去搜尋字B的數(shù)據(jù)節(jié)點即可。第二部分本發(fā)明裝置的相似字識別單元本發(fā)明裝置的相似字識別單元中僅有一模組,稱為相似字對識別元件208,其功能是對一既有識別系統(tǒng)204輸出的前二位候選字,根據(jù)所分析區(qū)分特征再做一次特別的比對。在圖7中,我們將此元件的操作流程繪出。如圖中所示,針對一輸入待辨字元,既有識別系統(tǒng)204提供其識別結(jié)果(步驟302)的前二位候選字給相似字對識別元件208,然后相似字對識別元件208即根據(jù)此二候選字至相似字區(qū)分特征個數(shù)表210中搜尋是否有與此二候選字吻合的相似字對(步驟304)。若無吻合則直接以既有識別系統(tǒng)204的輸出為輸出(步驟308)。如果該二候選字與相似字區(qū)分特征個數(shù)表210中的相似字對吻合(步驟306),則該字對的最佳區(qū)分特征個數(shù)(k*)也會被取出(步驟312),此時相似字對識別元件208會先將所有特征依其重要性做降冪排列(步驟310),然后再根據(jù)區(qū)分特征個數(shù)k*依序選取此指定個數(shù)的特征重新計算此輸入字元與該二候選字的樣板重新計算距離,所使用的距離函數(shù)須與相似字辨識訓(xùn)練模組中所使用的距離函數(shù)一致(參見(式3)及(式4)),因此,以本發(fā)明的較佳實施例,假設(shè)此二候選字分別為x和y,此重新計算的二距離(dx和dy)計算如下和算出此二距離后,相似字對識別元件208再根據(jù)此二距離的大小來決定是否調(diào)整此二候選字的順位(步驟316)。由于相似字對識別元件208使用的特征是從既有識別系統(tǒng)204所抽取的特征中抽選,因此其參考樣板數(shù)據(jù)庫206可直接被使用,不需另外建立新的參考樣板數(shù)據(jù)庫,如此可減少數(shù)據(jù)占用空間。為驗證本發(fā)明的功效,實作了本發(fā)明裝置,并以一含5401個常用中文字,每字含100個樣本的字元影像數(shù)據(jù)庫作為學(xué)習(xí)樣本數(shù)據(jù)庫252,并利用一個以Bayes統(tǒng)計理論為基礎(chǔ)的識別系統(tǒng)作為既有的識別引擎204,依序?qū)嵤┮韵虏襟E。(A)訓(xùn)練工作利用上述學(xué)習(xí)樣本數(shù)據(jù)庫252,并預(yù)設(shè)門限T值為2,相似字對產(chǎn)生模組254共計產(chǎn)生了8665個相似字對,在圖8中列出了其中100個。在圖9及圖10中,分別是在決定相似字對(己,巳)的最佳區(qū)分特征個數(shù)時所得的排序后各特征(共用了520個特征)的ci值及ui值,其中橫軸代表各特征依重要性作降冪排序后的編號,而縱軸則為ci值及ui值。為求清楚起見特別把二圖的前25個特征分別放大在圖9A及圖10A中,以便分析。在圖10中,我們明顯看到ui值隨著特征的編號有漸減的趨勢,此現(xiàn)象驗證了我們的重要性排序的確與實際狀況頗為符合。在圖9中我們可發(fā)現(xiàn)第17個特征及第18個特征具有最大的ci值為172(參見圖9A),因此我們須在二者間選擇一個,而從圖10A中,我們發(fā)出u17=2.57而u18=0.56,所以我們?nèi)?7作為最佳的區(qū)分特征個數(shù),因其可以從總共200個‘己’和‘巳’的學(xué)習(xí)樣本中正確區(qū)分172個樣本而且產(chǎn)生最大的特征距離差。如果我們選用了全部特征,結(jié)果發(fā)現(xiàn)反而只能正確區(qū)分165個樣本,因此這數(shù)據(jù)驗證了我們所提的并非所有特征對區(qū)分相似字都有正面作用的論點。針對所有8665個相似字對我們都可以此法分析出其最佳的區(qū)分特征個數(shù),然后再將其結(jié)果存成一相似字區(qū)分特征個數(shù)表210,由于特征的順序可在識別時視需要再執(zhí)行,因此在相似字區(qū)分特征個數(shù)表210中,我們無須儲存所有區(qū)分特征的編號,只須儲存區(qū)分特征個數(shù)即可,所以在本實施例中,此相似字區(qū)分特征個數(shù)表210才占用存儲容量43325位元組而已,相當(dāng)節(jié)省。(B)相似字識別的測試為測試上述經(jīng)過訓(xùn)練后的相似字識別模組,我們收集了另外一組字元影像數(shù)據(jù)庫,也是含5401字,每字100個樣本,利用此數(shù)據(jù)庫輸入至本相似字識別模組中測試結(jié)果發(fā)現(xiàn)在未使用本發(fā)明裝置前的識別率為90.02%,而使用本發(fā)明裝置后識別率提升為91.77%,其中錯誤降低率約達30%。從實驗中我們發(fā)現(xiàn),如果增加相似字對的數(shù)目,對識別率的提升幫助將會更大。以上所述的實施例僅為本發(fā)明一據(jù)以實施的較佳實施例說明,熟習(xí)此技術(shù)的人士所做的任何修改,皆應(yīng)包括在本發(fā)明的保護范圍內(nèi)。權(quán)利要求1.一種相似字識別方法包括以下步驟a、利用學(xué)習(xí)樣本及識別器,自動建構(gòu)出一相似字對數(shù)據(jù)庫;b、藉由學(xué)習(xí)樣本的識別及分析,自動針對每一相似字對抽選最能分別此相似字對中的相似字的區(qū)分特征;以及c、利用抽選出的特征執(zhí)行相似字的識別。2.根據(jù)權(quán)利要求1所述的相似字識別方法,其特征在于,所述相似字對數(shù)據(jù)庫自動建構(gòu)法,包括以下步驟a、利用一識別器對所有學(xué)習(xí)樣本執(zhí)行識別;b、記錄任二字之間的誤認頻率;以及c、若任二字之間的誤認頻率超過一設(shè)定的門限值,則此二字構(gòu)成一相似字對。3.根據(jù)權(quán)利要求1所述的相似字識別方法,其特征在于,所述相似字對區(qū)分特征自動抽選方法,包括以下步驟a、決定所有特征對于分辨該相似字對的重要性,并依降冪排序;以及b、決定最佳區(qū)分特征。4.根據(jù)權(quán)利要求3所述的相似字識別方法,其特征在于,所述決定所有文字特征的重要性步驟,包括量化各特征對相近字間的分辨能力的步驟。5.根據(jù)權(quán)利要求4所述的相似字識別方法,其特征在于,所述步驟a,由下列方法決定&eta;(x,y)(i)=(mx,i-my,i)2v2x,i+v2y,i]]>其中η(x,y)(i)為第i個特征對區(qū)分相似字對(x,y)的重要性;mx,i表示x字樣板的第i個特征的統(tǒng)計平均值;my,i表示y字樣板的第i個特征的統(tǒng)計平均值;以及vx,i表示x字樣板的第i個特征的統(tǒng)計標(biāo)準差;vy,i表示y字樣板的第i個特征的統(tǒng)計標(biāo)準差。6.根據(jù)權(quán)利要求3所述的相似字識別方法,其特征在于,所述自動決定那一特征為兩相似字間的主要區(qū)分特征的步驟,可進一步包含自動決定最佳的主要特征的步驟。7.根據(jù)權(quán)利要求3所述的相似字識別方法,其特征在于,所述決定那一特征為主要的區(qū)分特征步驟,包括下列步驟;a、根據(jù)特征重要性安排特征順序;b、安排特征順序之后,初始化計數(shù)器組為0;c、對訓(xùn)練樣本數(shù)據(jù)庫中的相似字樣本作識別;d、識別每一樣本的過程中,執(zhí)行下列程序;(1)決定相似字間不同數(shù)目特征的累進距離差;及(2)比較累進距離差,若累進距離差能正確區(qū)分相似字,則增加此計數(shù)器組中計數(shù)器之值;以及e、選出一具有最大值的計數(shù)器,由此計數(shù)器得到最后的主要區(qū)分特征。8.根據(jù)權(quán)利要求7所述的相似字識別方法,其特征在于,所述a、安排特征重要性后,初始化另一計數(shù)器組為0;b、識別訓(xùn)練樣本的過程中,針對每一樣本,依下述方法調(diào)整步驟a中的計數(shù)器值UK=UK+α(dK-dK-1);其中,如果此樣本為第一個相似字的樣本,則α=-1;若此樣本為第二個相似字的樣本,則α=1;K代表此計數(shù)器組中計數(shù)器的編號;dK表使用K個特征的累地距離差;以及dK-1為使用K-1個特征的累進距離差;c、識別完所有訓(xùn)練樣本之后,依下述方法取得最后的每一計數(shù)器值UKUk=Uknx+ny]]>其中UK為針對兩相似字x和y所有訓(xùn)練樣本的第k特征的平均距離差;nx為相似字x的使用樣本數(shù);及ny則為相似字y的使用樣本數(shù);以及d、于前項的步驟e中若找到有數(shù)個計數(shù)器具有最大值,則進一步從計數(shù)器組值Uk中找一最大值決定最后的主要區(qū)分特征。9.根據(jù)權(quán)利要求7所述的相似字識別方法,其中特征在于,所述兩相似字x與y間使用不同數(shù)目特征的累進距離差的步驟,以下法取得dk=&Sigma;i=1k[D(Xi,fi)-D(Yi,fi)]]]>其中fi為輸入樣本的第i個特征;D(xi,fi)為一識別系統(tǒng)決定fi至相似字x的參考樣板的距離的功能輸出值,以及D(yi,fi)為一識別系統(tǒng)決定fi至相似字y的參考樣板的距離的功能輸出值。10.根據(jù)權(quán)利要求7所述的相似字識別方法,其特征在于,所述累進距離差由下法取得dk=&Sigma;i=1k[2log(vx,i)+(fi-mx,i)2v2x,i-2log(vy,i)-(fi-my,i)2v2y,i]]]>其中fi為輸入樣本之第i個特征;mx,i,vx,i,my,i和vy,i分別代表x字樣板第i個特征的統(tǒng)計平均值、標(biāo)準差以及y字樣第i個特征的統(tǒng)平均值、標(biāo)準差。11.根據(jù)權(quán)利要求1所述的相似字識別方法,其特征在于,還包括以下步驟a、接收原識別系統(tǒng)所輸出的第一名及第二名候選字;b、判別此二名候選字是否為相似字;c、如果二候選字不是相似字,則將第一名候選字輸出為最后的識別結(jié)果;以及d、如果二候選字為相似字,則執(zhí)行以下子步驟;(1)根據(jù)計算的特征重要性,排列各特征的順序;(2)取得二候選相似字間的最佳數(shù)目的主要區(qū)分特征;及(3)以此取得的主要區(qū)分特征重新計算距離,并判別輸入樣本較像第一候選字或較像條二候選字,依此結(jié)果輸出較像的候選字為最后識別結(jié)果。12.根據(jù)權(quán)利要求11所述的相似字識別方法,其特征在于,所述決定輸入樣本較像第一或第二個候選字的方法中,包含一計算輸入樣本的主要區(qū)分特征與二候選字樣板的主要區(qū)分特征間的距離的步驟。13.一種相似字識別裝置,其特征在于,包括a、特征抽取器,用以從字體影像中抽取特征;b、特征參考樣板數(shù)據(jù)庫,包含文字類別的各特征信息;c、識別引擎,用以接收特征抽取器所抽取的特征數(shù)據(jù),并與特征參考樣板數(shù)據(jù)庫的樣板作比對,并依比對距離輸出一序列的候選字;d、相似字特征抽取器,用以接收識別引擎輸出的前二位候選字,并執(zhí)行相似字識別;及e、相似字識別裝置,用以接收識別引擎輸出的候選字并利用特征參考樣板數(shù)據(jù)庫及相應(yīng)主要區(qū)分特征來分辨相似字,并輸出一個最理想的候選字。14.根據(jù)權(quán)利要求13所述的相似字識別裝置,其特征在于,所述特征參考樣板數(shù)據(jù)庫包含由一訓(xùn)練樣本數(shù)據(jù)庫所分析而得出的特征數(shù)據(jù)。15.一種相似字識別裝置,包括a、學(xué)習(xí)樣本數(shù)據(jù)庫,包含數(shù)個文字樣本;b、統(tǒng)計式文字識別模組,抽取文字影像的特征并執(zhí)行初步識別工作;c、特征參考樣板數(shù)據(jù)庫,由學(xué)習(xí)樣本數(shù)據(jù)庫的文字樣本的特征統(tǒng)計數(shù)據(jù)組成;d、相似字對自動產(chǎn)生模組,用以自動產(chǎn)生相似字對數(shù)據(jù)庫;e、相似字對識別訓(xùn)練模組,用以自動決定各相似字對間的最佳區(qū)分特征;f、相似字對區(qū)分特征表,用以儲存相似字對最佳區(qū)分特征數(shù)目;以及g、相似字對識別模組,用以執(zhí)行各相似字對中的相似字識別工作。16.一利用相似字識別裝置來分辨相似字的方法,其特征在于,包含下列步驟a、從相似字識別裝置接收第一及第二候選字;b、若第一名及第二名候選字為相似字,則(1)依各特征的重要性排列順序;(2)取得數(shù)個主要區(qū)分特征;(3)由主要區(qū)分特征決定輸入影像與第一及第二候選字樣板間的差異;及(4)若輸入影像較接近第二名候選字,則對調(diào)第一及第二候選字間的順序。17.根據(jù)權(quán)利要求16所述的相似字識別方法,其特征在于,在所述排列各特征順序步驟之前,計算相似字對各特征值的重要性,以區(qū)分相似字對。18.根據(jù)權(quán)利要求17所述的相似字識別方法,其特征在于,以一累進距離差異來比較輸入樣本與第一候選字和第二候選字間的相近程度。19.根據(jù)權(quán)利要求18所述的相似字識別方法,其特征在于,所述累進距離差以下法求得dk=&Sigma;i=1k[D(Xi,fi)-D(Yi,fi)]]]>其中k為主要區(qū)分特征個數(shù)。20.根據(jù)權(quán)利要求19所述的相似字識別方法,其特征在于,根據(jù)區(qū)分特征,重新計算待識別樣本與前二名候選字間距離,此距離以下式求得D(Xi,fi)=[2log(vx,i)+(fi-mx,i)2v2x,i]]]>和D(Yi,fi)=[2log(vy,i)+(fi-my,i)2v2y,i]]]>fi為輸入樣本的第i個特征;mx,i表示x字樣板的第i個特征的統(tǒng)計平均值;vx,i表示x字樣板的第i個特征的統(tǒng)計標(biāo)準值;my,i表示y字樣板的第i個特征的統(tǒng)計平均值;及vy,i表示y字樣板的第i個特征的統(tǒng)計標(biāo)準值。21.根據(jù)權(quán)利要求18所述的相似字識別方法,其特征在于,所述累進距離差依下式求得dk=&Sigma;i=1k[2log(vx,i)+(fi-mx,i)2v2x,i-2log(vy,i)-(fi-my,i)2v2y,i]]]>其中fi為輸入樣本的第i個特征;mx,i表示x字樣板的第i個特征的統(tǒng)計平均值;vx,i表示x字樣板的第i個特征的統(tǒng)計標(biāo)準差;my,i表示y字樣板的第i個特征的統(tǒng)計平均值;及vy,i表示y字樣板的第i個特征的統(tǒng)計標(biāo)準差。全文摘要一種相似字識別方法及裝置,本方法包括以下步驟建構(gòu)一相似字對數(shù)據(jù)庫;抽選相似字對中相似字數(shù)據(jù)主要區(qū)分特征;利用主要區(qū)分特征作相似字識別。本發(fā)明的裝置,包括特征抽取器,特征參考樣板數(shù)據(jù)庫,識別引擎,用以接收特征抽取器所抽取的特征數(shù)據(jù),并輸出一序列候選字;相似字特征抽取器,用以接收識別引擎輸出的前二位候選字;相似字識別裝置,用以接收識別引擎輸出的候選字并利用特征參考樣板及區(qū)分特征分辨相似字,并輸出一理想的候選字。文檔編號G06K9/68GK1167956SQ9710425公開日1997年12月17日申請日期1997年5月8日優(yōu)先權(quán)日1996年5月8日發(fā)明者江政欽,余孝先申請人:財團法人工業(yè)技術(shù)研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1