專利名稱:阿拉伯文字符的識別方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于光 學(xué)字符識別領(lǐng)域,涉及一種識別方法和裝置,具體涉及一種阿拉伯文字符的識別方法和裝置。
背景技術(shù):
標(biāo)準(zhǔn)阿拉伯文有28個基本字符,維吾爾文有32個基本字符,根據(jù)在詞中出現(xiàn)的位置不同,每個阿文字符有1-4個書寫形式獨立形式、首字符形式、中字符形式和尾字符形式,而且阿拉伯字符集的文字行方向為從右到左,字符前后相連成一個或幾個連體字符段, 在字符段中,字符沿著基線相連。一般的印刷體阿文識別系統(tǒng)和通用的OCR系統(tǒng)相同,都需要進(jìn)行圖像預(yù)處理,行切分,字符切分,單字識別等過程。由于阿文中字符在詞中不同位置的字符形式不同,在一個連體字符段的首部的字符應(yīng)該是首字符形式,連體字符段的中間應(yīng)該是中字符形式,在連體字符段的尾部應(yīng)該是尾字符形式,所以為了提高識別效果,應(yīng)該在不同的位置,進(jìn)行分類的識別,如在連體字符段的首部進(jìn)行識別時,識別的候選集僅為字符的首字符形式,在連體字符段的尾部進(jìn)行識別時,識別的候選集僅為字符的尾字符形式。但是實際的使用中,由于排版和噪聲等原因,一個連體字符段往往可能出現(xiàn)斷裂變成兩個連體字符段,或者幾個連體字符?段可能出現(xiàn)粘連的情況,在這些情況下,在連體字符?段的首部就有可能不是首字符形式,尾部就有可能不是尾字符形式,如果識別的候選集仍選用字符的尾字符形式,就有可能發(fā)生錯誤,造成識別率降低。
發(fā)明內(nèi)容
本發(fā)明的目的在于避免現(xiàn)有技術(shù)的不足,提出一種阿拉伯文字符的識別方法和裝置,在識別過程中引入了模糊字符形式的識別方法,擴(kuò)大了識別的范圍,使得識別更加準(zhǔn)確。本方法公開了一種阿拉伯文字符的識別方法,包括以下步驟步驟1 對輸入的行圖像進(jìn)行基線位置和基線高度的估計;步驟2 根據(jù)估計的基線位置和基線高度查找輸入的行圖像的切分點,得到字塊序列,記錄各字塊所屬的連通體;步驟3 根據(jù)字塊在連通體中的位置信息確定各字塊的字符屬性;步驟4 對確定字符屬性的字塊進(jìn)行合并,根據(jù)合并后的字塊進(jìn)行模糊識別,確定識別后的字符形式和識別評價;步驟5 選取合并后的字塊中識別評價最高的合并組合作為識別結(jié)果輸出。本發(fā)明還公開了一種阿拉伯文字符的識別裝置,該裝置包括基線位置、高度確定單元,對輸入的行圖像進(jìn)行基線位置和基線高度的估計;字塊所屬連通體確定單元,根據(jù)估計的基線位置和基線高度查找輸入的行圖像的切分點,得到字塊序列,記錄各字塊所屬的連通體;
字塊屬性確定單元,根據(jù)字塊在連通體中的位置信息確定各字塊的字符屬性;字塊合并單元,對確定字符屬性的字塊進(jìn)行合并,根據(jù)合并后的字塊進(jìn)行模糊識另|J,確定識別后的字符形式和識別評價;識別結(jié)果輸出單元,選取合并后的字塊中識別評價最高的合并組合作為識別結(jié)果輸出。本發(fā)明一種阿拉伯文字符的識別方法和裝置的優(yōu)點在于在阿拉伯文的識別過程中,當(dāng)不確定字符的具體形式時,通過根據(jù)字塊在連通體中的位置信息確定各字塊的字符屬性,并對輸入的行圖像中的各連通體進(jìn)行切分后合并,可以盡可能的縮小識別的字符集, 提高識別率。
圖1為本發(fā)明阿拉伯文字符的識別裝置結(jié)構(gòu)示意圖;圖2為本發(fā)明阿拉伯文字符的識別方法實施例的字符形式示意圖;圖3為本發(fā)明阿拉伯文字符的識別方法實施例的實施例中的輸入行圖像;圖4為本發(fā)明阿拉伯文字符的識別方法的流程圖;圖5為本發(fā)明阿拉伯文字符的識別方法實施例的基線位置估計方法的示意圖;圖6為本發(fā)明阿拉伯文字符的識別方法實施例的字塊輪廓示意圖;圖7為本發(fā)明阿拉伯文字符的識別方法實施例的切分點示意圖;圖8為本發(fā)明阿拉伯文字符的識別方法實施例的切分后字塊及其連通體標(biāo)注圖;圖9為本發(fā)明阿拉伯文字符的識別方法實施例的字符形式標(biāo)注圖;圖10為本發(fā)明阿拉伯文字符的識別方法實施例的模糊字符形式標(biāo)注圖;圖11為本發(fā)明阿拉伯文字符的識別方法實施例中字符選取最優(yōu)合并路徑的示意圖;圖12為本發(fā)明阿拉伯文字符的識別方法實施例輸入行圖像的識別結(jié)果圖。
具體實施例方式本發(fā)明提出了一種阿拉伯文字符的識別方法,在字符識別的過程中引入了模糊字符形式的識別方法。如果在不確定具體字符形式的位置進(jìn)行指定字符形式的識別,有可能發(fā)生錯誤,而采取模糊字符形式的識別,則擴(kuò)大了識別的范圍,使得識別更加準(zhǔn)確。阿拉伯文字的字符形式基本分為首字符形式(ini),中間字符形式(med),尾字符形式(fin),獨立字符形式(iso)。本發(fā)明對于一些不確定具體字符形式的字符采用模糊字符形式表示,如首中字符形式(inimed)表示字符可能是首字符形式或者是中間字符形式,中尾字符形式(medfin)表示字符可能是中間字符形式或者是尾字符形式,尾獨形式 (finiso)表示字符可能是尾字符形式或者是獨立字符形式,首獨形式(iniiso)表示字符可能是首字符形式或者是獨立字符形式。 圖1為本發(fā)明阿拉伯文字符的識別裝置結(jié)構(gòu)示意圖,該裝置包括基線位置、高度確定單元,對輸入的行圖像進(jìn)行基線位置和基線高度的估計;字塊所屬連通體確定單元,根據(jù)估計的基線位置和基線高度查找輸入的行圖像的切分點,得到字塊序列,記錄各字塊所屬的連通體;
字塊屬性確定單元,根據(jù)字塊在連通體中的位置信息確定各字塊的字符屬性;字塊合并單元,對確定字符屬性的字塊進(jìn)行合并,根據(jù)合并后的字塊進(jìn)行模糊識另IJ,確定識別后的字符形式和識別評價;
識別結(jié)果輸出單元,選取合并后的字塊中識別評價最高的合并組合作為識別結(jié)果輸出。圖2為阿拉伯文字符的書寫形式,圖3為選取的一組阿拉伯文行圖像,以圖3為例說明如何對模糊字符形式進(jìn)行識別,如圖4所示,具體步驟如下所述。步驟1 對輸入的行圖像進(jìn)行基線位置和基線高度的估計。本實施例中,采用橫向投影的方式對基線位置進(jìn)行估計首先將圖3的圖像字符進(jìn)行橫向投影,確定橫向投影值的最大值所對應(yīng)的豎直坐標(biāo),然后從該豎直坐標(biāo)點開始,分別在豎直方向上和向下進(jìn)行搜索,直到搜索到的對應(yīng)的豎直坐標(biāo)點的投影值小于投影值的最大值2/3后搜索停止,將對應(yīng)的豎直坐標(biāo)點分別作為基線的上邊界和下邊界。如圖5所示,為圖3中所對應(yīng)的橫向投影直方圖,此時基線的上邊界對應(yīng)的豎直坐標(biāo)為27,基線的下邊界對應(yīng)的豎直坐標(biāo)為24,基線高度為為4。步驟2 根據(jù)估計的基線位置和基線高度查找輸入的行圖像的切分點,得到字塊序列,記錄各字塊所屬的連通體。查找切分點的方法為,首先對輸入的行圖像進(jìn)行豎直投影,將各投影的第一個黑色像素點對應(yīng)的縱坐標(biāo)作為上輪廓記錄到該行圖像的上輪廓數(shù)組;最后一個黑像素點對應(yīng)的縱坐標(biāo)作為下輪廓記錄到該行圖像的下輪廓數(shù)組,上下輪廓的差值作為輪廓值記錄到該行圖像的輪廓值數(shù)組,如圖6所示。如圖7所示,在阿拉伯文中字符間分割位置一般都是基線附近輪廓發(fā)生變化的點或者是輪廓的極小值點,本實施例中將從左向右將上輪廓數(shù)組中偏離基線上邊界和回歸基線上邊界的點作為切分點,將下輪廓數(shù)組中偏離基線下邊界和回歸基線下邊界的點作為切分點,同時將輪廓值數(shù)組中的波谷點也作為切分點。根據(jù)切分點對行圖像進(jìn)行切分,得到字塊序列,記錄各字塊所屬的連通體。具體方法為在豎直方向上,設(shè)基線上邊界的坐標(biāo)值為uBaseLine,基線下邊界的坐標(biāo)值為dBaseLine,當(dāng)前的水平坐標(biāo)為i,對應(yīng)上輪廓數(shù)組的值為u[i],下輪廓數(shù)組的值為d[i],縱向投影的投影值為p[i]。當(dāng) u[i-1] > = uBaseLine, u[i] <= uBaseLine, u[i+1] < = u[i],u[i+2] < = u[i],同時成立時,稱第i點開始偏離基線上邊界,第i點為切分點;當(dāng) u[i-2] < = u[i], u[i-l] < = u[i], u[i] < = uBaseLine, u[i+l] > = uBaseLine,同時成立時,稱第i點開始回歸基線上邊界,第i點為切分點;當(dāng) d[i-l] <= dBaseLine, d[i] >= dBaseLine, d[i+l] > = d[i],d[i+2] > = d[i],同時成立時,稱第i點開始偏離基線下邊界,第i點為切分點;當(dāng) d[i-2] > = d[i], d[i_l] > = d[i], d[i] > = dBaseLine, d[i+l] < = dBaseLine,同時成立時,稱第i點開始回歸基線下邊界,第i點為切分點;當(dāng)p[i-2] >p[i],p[i_l] >=p[i],p[i] <=p[i+l],p[i] <p[i+l],同時成立時,稱第i點為波谷點,第i點為切分點。本實施例中,切分后得到的字塊及其所屬的連通體如圖8所示,虛線表示的是切分點,每兩條虛線間的黑像素部分代表一個字塊,圖8中各字塊所屬的連通體的編號分別是1-6,每個連通體記錄起始字塊和終止字塊的序號。步驟3 根據(jù)字塊在連通體中的位置信息確定每個字塊的字符屬性。其中步驟3中所述的 確定一個字塊字符屬性的方法為步驟3. 1 讀取字塊在連通體中的位置信息并進(jìn)行判斷,如果字塊本身為連通體, 則將字塊標(biāo)記為獨立字符;如果字塊位于連通體的最右端,則將字塊標(biāo)記為首類型;如果字塊位于連通體的最左端,則將字塊標(biāo)記為尾類型;如果字塊位于連通體的中間,則將字塊標(biāo)記為中間類型;如圖9所示,先按步驟3. 1對圖8中每個字塊的字符屬性進(jìn)行了標(biāo)定,如字塊1位于連通體1的最右端,也就是阿文中的一個詞的首部,所以標(biāo)注為首類型,字塊5位于連通體1的最左端,也就是阿文中一個詞的尾部,所以標(biāo)注為尾類型,而連通體1中的其他字塊標(biāo)注為中間類型。步驟3. 2 字塊對應(yīng)的字塊標(biāo)記為首類型或獨立字符時,如果該字塊與其前一字塊的距離小于既定閾值,則該字塊的字符類型改為首中類型或獨中類型;字塊對應(yīng)的字塊標(biāo)記為尾字符或獨立字符時,如果該字塊與后一字塊的距離小于既定閾值,則該字塊的字符類型改為尾中類型或獨中類型。其中既定閾值可以取基線高度的兩倍,首中類型代表這個字塊的字符類型不確定,可能是首字符形式,也可能是中間字符形式。如圖10所示,在前一步驟中連通域4中最右側(cè)的字塊11標(biāo)定為ini類型,右側(cè)的連通域5中的最左側(cè)的字塊12標(biāo)定為fin類型,但其間的字塊間距為2,小于既定閾值,本實施例中,既定閾值取基線高度的2倍為2*hBaSeLine,則字塊11與其前一字塊,連通域5 中的最左側(cè)的字塊12的距離小于既定閾值,字塊11被標(biāo)定成inimed類型,表示該字塊可能是ini類型也可能是med類型,同理,字塊12與其后一字塊,連通域4中最右側(cè)的字塊11 的距離小于既定閾值,字塊12被標(biāo)定為medfin類型,表示該字塊可能是med類型也可能是 fin類型。從圖中可以看出,在這里字塊11和字塊12應(yīng)該都是med類型,本步驟限定了字塊的字符屬性,減小了字塊的備選范圍,使得識別更加準(zhǔn)確。如果不進(jìn)行模糊標(biāo)定的話,本實施例中字塊11可能會被當(dāng)做ini類型識別,字塊12也可能會被當(dāng)做fin類型識別,使識別產(chǎn)生錯誤,步驟4 對確定字符屬性的字塊進(jìn)行合并,根據(jù)合并后的字塊進(jìn)行模糊識別,確定識別后的字符形式和識別評價;所述步驟4中確定識別后的字符形式具體為以合并組中的第一個字塊為起始, 將合并組中各字塊逐個進(jìn)行合并,并把合并結(jié)果作為當(dāng)前字符形式,直至合并組中的字塊合并完畢,得到合并組的字符形式。本實施例中,設(shè)需要對第i個字塊到第i+n字塊進(jìn)行合并,則首先將第i個字塊的字符形式作為當(dāng)前字符形式與第i+Ι個字塊進(jìn)行合并,然后把這兩個字塊的合并結(jié)果作為當(dāng)前字符形式與第i+2個字塊合并,再把這三個字塊的合并結(jié)果作為當(dāng)前字符形式與第 i+3個字塊進(jìn)行合并,依次用以上合并方法對剩余字塊進(jìn)行合并直至與第i+n個字塊合并, i和η取自然數(shù)。當(dāng)前字符形式和當(dāng)前待合并的字符形式進(jìn)行邏輯組合合并,合并后的字符形式可以通過查表1得到,表1中第一行表示的是當(dāng)前的字符形式,第一列表示的是當(dāng)前待合并字符的字符形式,其他項表示該位置的對應(yīng)第一列的字符形式的字符與對應(yīng)第一行字符形式的字符進(jìn)行合并后字塊的字符形式。其中ALL表示合并后的字符可能是任何形式,NULL表示這種合并不能發(fā)生。該表通過實際的邏輯關(guān)系得來,如ini類型與ini類型的合并實際中不可能發(fā)生,所以對于位置為NULL類型;med類型和fin類型合并后只能是fin類型,所以對應(yīng)位置上是fin類型;inimed類型與fin類型合并時,可能是ini類型與fin類型合并也可能是med類型與fin類型合并,所以結(jié)果可能是iso類型也可能是fin類型,所以對應(yīng)位置是finiso類型,其他類似。表 權(quán)利要求
1.一種阿拉伯文字符的識別方法,其特征在于,包括以下步驟 步驟1 對輸入的行圖像進(jìn)行基線位置和基線高度的估計;步驟2 根據(jù)估計的基線位置和基線高度查找輸入的行圖像的切分點,得到字塊序列, 記錄各字塊所屬的連通體;步驟3 根據(jù)字塊在連通體中的位置信息確定各字塊的字符屬性; 步驟4 對確定字符屬性的字塊進(jìn)行合并,根據(jù)合并后的字塊進(jìn)行模糊識別,確定識別后的字符形式和識別評價;步驟5 選取合并后的字塊中識別評價最高的合并組合作為識別結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟2中查找輸入的行圖像的切分點時,對輸入的行圖像進(jìn)行豎直投影,將各投影的第一個黑色像素點對應(yīng)的縱坐標(biāo)作為上輪廓記錄到該行圖像的上輪廓數(shù)組;最后一個黑像素點對應(yīng)的縱坐標(biāo)作為下輪廓記錄到該行圖像的下輪廓數(shù)組,上下輪廓的差值作為輪廓值記錄到該行圖像的輪廓值數(shù)組。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟3中確定各字塊的字符屬性包括步驟3. 1 讀取字塊在連通體中的位置信息并進(jìn)行判斷,如果字塊本身為連通體,則將字塊標(biāo)記為獨立字符;如果字塊位于連通體的最右端,則將字塊標(biāo)記為首類型;如果字塊位于連通體的最左端,則將字塊標(biāo)記為尾類型;如果字塊位于連通體的中間,則將字塊標(biāo)記為中間類型;步驟3. 2 字塊對應(yīng)的字塊標(biāo)記為首類型或獨立字符時,如果該字塊與其前一字塊的距離小于既定閾值,則該字塊的字符類型改為首中類型或獨中類型;字塊對應(yīng)的字塊標(biāo)記為尾字符或獨立字符時,如果該字塊與后一字塊的距離小于既定閾值,則該字塊的字符類型改為尾中類型或獨中類型。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟4中確定識別后的字符形式具體為以合并組中的第一個字塊為起始,與合并組中各字塊逐個進(jìn)行合并,并把已合并字塊的合并結(jié)果作為當(dāng)前字符形式,與合并組中未合并的字塊進(jìn)行合并,直至合并組中所有字塊合并完畢,得到合并組的字符形式。
5.根據(jù)權(quán)利要求2所述方法,其特征在于,所述的既定閾值為基線高度的兩倍。
6.一種阿拉伯文字符的識別裝置,其特征在于,該裝置包括基線位置、高度確定單元,對輸入的行圖像進(jìn)行基線位置和基線高度的估計; 字塊所屬連通體確定單元,根據(jù)估計的基線位置和基線高度查找輸入的行圖像的切分點,得到字塊序列,記錄各字塊所屬的連通體;字塊屬性確定單元,根據(jù)字塊在連通體中的位置信息確定各字塊的字符屬性; 字塊合并單元,對確定字符屬性的字塊進(jìn)行合并,根據(jù)合并后的字塊進(jìn)行模糊識別,確定識別后的字符形式和識別評價;識別結(jié)果輸出單元,選取合并后的字塊中識別評價最高的合并組合作為識別結(jié)果輸
全文摘要
本發(fā)明公開了一種阿拉伯文字符的識別方法和裝置,屬于光學(xué)字符識別領(lǐng)域。方法包括如下步驟步驟1對輸入的行圖像進(jìn)行基線位置和基線高度的估計;步驟2查找輸入行圖像的切分點,得到字塊序列,記錄每個字塊所屬的連通體;步驟3根據(jù)字塊在連通體中的位置信息確定每個字塊的字符屬性;步驟4對字塊序列進(jìn)行字塊合并并且根據(jù)合并后字塊的字符形式進(jìn)行模糊識別,得到識別評價;步驟5選取總識別評價最優(yōu)的合并組合作為識別結(jié)果輸出。本發(fā)明在字符識別的過程中引入了模糊字符形式的識別方法,擴(kuò)大了識別的范圍,使得識別更加準(zhǔn)確。
文檔編號G06K9/62GK102446275SQ201010502010
公開日2012年5月9日 申請日期2010年9月30日 優(yōu)先權(quán)日2010年9月30日
發(fā)明者劉正珍, 王琛, 鈕興昱 申請人:漢王科技股份有限公司