專利名稱:圖像文字識別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文字識別技術(shù)領(lǐng)域,尤其涉及一種圖像文字識別方法及裝置。
技術(shù)背景目前,圖像文字識別技術(shù)已應(yīng)用到很多領(lǐng)域,該技術(shù)就是把文字信息從 一幅圖片尤其是從電子設(shè)備顯示的圖片中識別出來。但對機器來說識別這些文字信息就非常困難,尤其對某些易混淆的文字信息,例如圖片上的數(shù)字o和字母0、數(shù)字l和字母l,如果沒有上下文信息就很難辨別。因此,目前常 見的圖像文字識別技術(shù)無法做到100%的識別率,而且由于需要考慮多種字體,識別速度也比較慢。另外,在測試工作中,常常需要檢查被測設(shè)備的顯示內(nèi)容是否正確,這 對于手工測試沒有什么難度,但對于自動化測試而言,卻是一道難以逾越的鴻溝,因為自動化測試首先要求的就是精確,即使文字識別精確度達(dá)到99%, 其測試結(jié)果都是不可信的;其次要求速度快,如果每識別一幅圖片需要幾秒 鐘甚至十幾秒鐘,對于某些要求速度的具體測試來說,就無法勝任了。為了提高圖像文字識別的精度和速度,現(xiàn)有技術(shù)常采用以下三種方法 一.直接將預(yù)期的顯示效果事先做成圖片,通過該圖片和實際顯示圖片 的比對,完成對目標(biāo)顯示內(nèi)容的自動檢查。該檢查的效果是像素級的100%精 確匹配。但采用這種方法時,由于每個檢測步驟都需要事先準(zhǔn)備預(yù)期圖片, 不但工作量大,而且常常要等到被測設(shè)備成熟穩(wěn)定之后,才能獲得這些圖片, 這種工期上的滯后會導(dǎo)致測試周期加長,風(fēng)險可控程度變差;另外,還有某 些顯示內(nèi)容無法單純通過圖片比對的方式自動檢查,例如某些涉及時間顯示的內(nèi)容,就無法事先做出精確的對比圖片。二. 基于文字規(guī)則,或者采用神經(jīng)網(wǎng)絡(luò)等方法,事先對每種字符做出大 量的分析和處理,并在識別過程中采用圖像模糊處理。這類方法目前較多為 商業(yè)應(yīng)用,應(yīng)用范圍很廣。但這類方法需要在文字圖形分析上做大量工作, 實現(xiàn)方式非常復(fù)雜。另外,由于識別過程中需要對圖像采用模糊處理,無法 保證很高的識別準(zhǔn)確率,尤其對于小字體,識別率更低。三. 將圖像以常見的水平掃描順序存儲數(shù)據(jù),由于是先水平掃描再垂直掃描,后續(xù)簡稱為HV掃描方式,掃描結(jié)果數(shù)據(jù)為二進制形式,再對掃描結(jié)果進 行匹配處理,進行圖像文字識別。這種方式將二維的圖像數(shù)據(jù)一維化,可以 使用常見的一維數(shù)據(jù)的處理方式來處理圖像數(shù)據(jù),達(dá)到識別的目的。但這種 方法的缺點在于由于每個字符數(shù)據(jù)被分割成不相連的數(shù)段,對后續(xù)的匹配 處理造成極大障礙。因此,目前缺少一種精確、快速的圖像文字識別方法及裝置。發(fā)明內(nèi)容本發(fā)明實施例提供一種圖像文字識別方法及裝置,以實現(xiàn)對圖像文字的 精確、快速識別。本發(fā)明實施例提供了 一種圖像文字識別方法,該方法具體包括按照字符的高度逐列掃描首行字符,掃描完該行字符后再逐列掃描下行 字符,直至掃描完所有的字符;將掃描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配,將匹配后的 字符信息轉(zhuǎn)換為與該字符信息對應(yīng)的文字。上述方法,較好地提高了圖像文字識別的準(zhǔn)確率和識別速度,降低了開 發(fā)速度。本發(fā)明實施例提供了一種圖像文字識別裝置,該裝置具體包括 獲取模塊,用于獲取字符圖形信息;存儲模塊,用于將獲取到的字符圖形信息存儲在數(shù)據(jù)庫中;掃描模塊,用于按照字符的高度逐列掃描首行字符,掃描完該行字符后 再逐列掃描下行字符,直至掃描完所有的字符;轉(zhuǎn)換模塊,用于將掃描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹 配,將匹配后的字符信息轉(zhuǎn)換為與該字符信息對應(yīng)的文字。上述裝置,較好地提高了圖像文字識別的準(zhǔn)確率和識別速度,降低了開 發(fā)速度。下面通過附圖和實施例,對本發(fā)明實施例的技術(shù)方案做進一步的詳細(xì)描述。
圖1為本發(fā)明圖像文字識別方法實施例的流程圖;圖2為本發(fā)明帶有文字圖像實施例的示意圖;圖3為本發(fā)明圖像文字識別裝置實施例的結(jié)構(gòu)示意圖。
具體實施方式
如圖1所示,為本發(fā)明圖像文字識別方法實施例的流程圖,該方法具體 包括步驟IOI、獲取字符圖形信息,并將上述字符圖形信息存儲在數(shù)據(jù)庫中; 字符圖形信息的獲取可以通過多種方式實現(xiàn),例如可以直接從字庫中獲 取,也可以主動抓取每個字符顯示圖像;為了使掃描后的字符圖形更好地與 數(shù)據(jù)庫中的字符圖形相匹配,應(yīng)將獲取的字符圖形以經(jīng)逐列掃描后的掃描結(jié) 果的形式存儲在數(shù)據(jù)庫中;但上述步驟為可選步驟,若字符圖形信息已經(jīng)存 儲在數(shù)據(jù)庫中,則不需要執(zhí)行此步驟;步驟102、按照字符的高度逐列掃描首行字符,掃描完該行字符后再逐 列掃描下行字符,直至掃描完所有的字符;對于用于顯示文字信息的電子設(shè)備,欲顯示的字符的高度可以預(yù)先獲知, 按照字符的高度逐列掃描首行字符,掃描完該行字符后再逐列掃描下行字符,直至掃描完所有的字符;如圖2所示,為本發(fā)明帶有文字圖^f象實施例的示意 圖,此圖像中每行文字的高度為16bit,因而按照16比特的高度逐列掃描每 一列像素,直至水平掃描完首行文字"漢字","漢字"的字符信息如下然后再逐列掃描下行文字"字漢","漢字"的字符信息如下:0其中,標(biāo)有下劃線部分的數(shù)據(jù)描述的是"字"這個字符,未標(biāo)有下劃線部分的數(shù)據(jù)描述的是"漢"這個字符;另外,在掃描字符時,若一行中各字符的高度不同,則按照該行字符的最 大高度逐列掃描該行字符;若各行字符之間的間距不同時,則按照字符的高 度逐列掃描首行字符中的首行像素,若首行像素的掃描結(jié)果為空,則繼續(xù)掃 描該首行字符中的下行像素,直至掃描到該行像素中有待識別的內(nèi)容,然后 按照字符的高度逐列掃描完該行像素所在的該行字符后再逐列掃描下行字符 中的首行像素,直至掃描完所有的字符;若字符中間夾有其他特殊符號,例如閃爍的光標(biāo),則可直接忽略;步驟103、將掃描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配, 將匹配后的字符信息轉(zhuǎn)換為與該字符信息對應(yīng)的文字。在掃描后的字符信息中,判斷出掃描后無待識別內(nèi)容的兩列像素間的寬度 小于設(shè)定寬度,則將上述兩列像素間的待識別內(nèi)容識別為空格;另外,將掃 描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配,若匹配后的字符信息 與多種文字相對應(yīng),則將匹配后的字符信息轉(zhuǎn)換為字符長度最長的文字,例 如若掃描后的字符信息可以識別為兩個單引號,也可以識別為 一個雙引號, 則^^皮識別為一個雙引號;上述圖像文字識別方法實施例,通過將獲取的字符信息以經(jīng)逐列掃描后 的掃描結(jié)果的形式存儲在數(shù)據(jù)庫中,使掃描后的圖像文字識別速度快,采用 按照字符的高度逐列掃描首行字符,掃描完該行字符后再逐列掃描下行字符, 直至掃描完所有的字符的方式,使每個字符數(shù)據(jù)被分割成不連續(xù)的數(shù)段,從 而較好地提高了圖像文字識別的準(zhǔn)確率和識別速度,P爭低了開發(fā)速度。如圖3所示,為本發(fā)明圖像文字識別裝置實施例的結(jié)構(gòu)示意圖,該裝置 具體包括獲取模塊l,用于獲取字符圖形信息;存儲模塊2,用于將獲取到 的字符圖形信息存儲在數(shù)據(jù)庫中;掃描模塊3,用于按照字符的高度逐列掃 描首行字符,掃描完該行字符后再逐列掃描下行字符,直至掃描完所有的字 符;轉(zhuǎn)換模塊4,將掃描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配, 將匹配后的字符信息轉(zhuǎn)換為與該字符信息對應(yīng)的文字。其中,上述文字包括漢字、字母、數(shù)字、空格和各種標(biāo)點符號等,上述 存儲模塊以將字符圖像經(jīng)逐列掃描后的掃描結(jié)果的形式存儲在數(shù)據(jù)庫中。另外,上述轉(zhuǎn)換模塊可以具體為識別模塊,用于當(dāng)掃描后無待識別內(nèi)容 的兩列像素間的寬度小于設(shè)定寬度,則將上述兩列像素間的待識別內(nèi)容識別 為空格;上述轉(zhuǎn)換模塊還可以具體為選擇轉(zhuǎn)換模塊,用于將掃描后的字符信 息與數(shù)據(jù)庫中存儲的字符信息進行匹配,若匹配后的字符信息與多種文字相對應(yīng),則將匹配后的字符信息轉(zhuǎn)換為字符長度最長的文字。上述裝置,通過獲取模塊獲取字符信息,并通過存儲模塊存儲獲取到的 字符圖形信息,然后利用掃描才莫塊掃描圖〗象中的所有字符信息,最后通過轉(zhuǎn) 換模塊將掃描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配,將匹配后的字符信息轉(zhuǎn)換為與其對應(yīng)的文字,上述裝置可以用于自動化測試中對于中 間顯示信息的正確性檢查,例如檢查當(dāng)前顯示時間是否為12小時制的顯示格式,或者當(dāng)前顯示的告警信息是否正確等;也可以用于識別計算機上拷屏得 到一副圖像中的文字信息;還可以使字庫提供商在不增加較大成本的基礎(chǔ)上, 同時提供自己所有字體的圖像文字識別技術(shù)。上述圖像文字識別裝置實施例,使每個字符數(shù)據(jù)被分割成不連續(xù)的數(shù)段, 并且存儲模塊存儲字符圖形信息的存儲格式與掃描模塊掃描字符圖形信息的 結(jié)果相同,從而較好地提高了圖像文字識別的準(zhǔn)確率和識別速度,降低了開 發(fā)速度。最后應(yīng)說明的是以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其 限制;盡管參照前述實施例對本發(fā)明進行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù) 人員應(yīng)當(dāng)理解其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或 者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。
權(quán)利要求
1、一種圖像文字識別方法,其特征在于包括按照字符的高度逐列掃描首行字符,掃描完該行字符后再逐列掃描下行字符,直至掃描完所有的字符;將掃描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配,將匹配后的字符信息轉(zhuǎn)換為與該字符信息對應(yīng)的文字。
2、 根據(jù)權(quán)利要求1所述的圖像文字識別方法,其特征在于所述按照字符的高度逐列掃描首行字符,掃描完該行字符后再逐列掃描下行字符,直至 掃描完所有的字符之前還包括獲取字符圖形信息,并將所述字符圖形信息存儲在數(shù)據(jù)庫中。
3、 根據(jù)權(quán)利要求2所述的圖像文字識別方法,其特征在于所述將所述 字符圖形信息存儲在數(shù)據(jù)庫中具體包括將所述字符圖形信息經(jīng)逐列掃描后的掃描結(jié)果存儲在數(shù)據(jù)庫中。
4、 根據(jù)權(quán)利要求1-3任一所述的圖像文字識別方法,其特征在于所述 按照字符的高度逐列掃描首行字符,掃描完該行字符后再逐列掃描下行字符, 直至掃描完所有的字符具體包括當(dāng)每行的字符高度不同時,按照字符的最大高度逐列掃描每行字符。
5、 根據(jù)權(quán)利要求1-3任一所述的圖像文字識別方法,其特征在于所述 按照字符的高度逐列掃描首行字符,掃描完該行字符后再逐列掃描下行字符, 直至掃描完所有的字符具體包括按照字符的高度逐列掃描首行字符中的首行像素,若首行像素的掃描結(jié) 果為空,則繼續(xù)掃描該首行字符中的下行像素,直至掃描到該行像素中有待 識別的內(nèi)容,然后按照字符的高度逐列掃描完該行像素所在的該行字符后再 逐列掃描下行字符中的首行像素,直至掃描完所有的字符。
6、 根據(jù)權(quán)利要求5所述的圖像文字識別方法,其特征在于所述將掃描 后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配,將匹配后的字符信息轉(zhuǎn)換為與該字符信息對應(yīng)的文字具體包括當(dāng)掃描后無待識別內(nèi)容的兩列像素間的寬度小于設(shè)定寬度,則將所述兩列 像素間的待識別內(nèi)容識別為空格。
7、 根據(jù)權(quán)利要求5所述的圖像文字識別方法,其特征在于所述將掃描 后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配,將匹配后的字符信息轉(zhuǎn) 換為與該字符信息對應(yīng)的文字具體包括將掃描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配,若匹配后的字 符信息與多種文字相對應(yīng),則將匹配后的字符信息轉(zhuǎn)換為字符長度最長的文 字。
8、 一種圖像文字識別裝置,其特征在于包括 獲取模塊,用于獲取字符圖形信息;存儲模塊,用于將獲取到的字符圖形信息存儲在數(shù)據(jù)庫中;掃描模塊,用于按照字符的高度逐列掃描首行字符,掃描完該行字符后再逐列掃描下行字符,直至掃描完所有的字符;轉(zhuǎn)換模塊,用于將掃描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配,將匹配后的字符信息轉(zhuǎn)換為與該字符信息對應(yīng)的文字。
9、 根據(jù)權(quán)利要求8所述的圖像文字識別裝置,其特征在于所述文字包 括漢字、字母、數(shù)字、空格和標(biāo)點符號。
10、 根據(jù)權(quán)利要求8或9所述的圖像文字識別裝置,其特征在于所述轉(zhuǎn) 換模塊具體為識別模塊,用于當(dāng)掃描后無待識別內(nèi)容的兩列像素間的寬度小 于設(shè)定寬度,則將所述兩列像素間的待識別內(nèi)容識別為空格。
11、 根據(jù)權(quán)利要求10所述的圖像文字識別裝置,其特征在于所述轉(zhuǎn)換 模塊具體為選擇轉(zhuǎn)換模塊,用于將掃描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配,若匹配后的字符信息與多種文字相對應(yīng),則將匹配后的字符 信息轉(zhuǎn)換為字符長度最長的文字。
全文摘要
本發(fā)明涉及一種圖像文字識別方法及裝置,上述圖像文字識別方法包括獲取字符圖形信息,并將上述字符圖形信息存儲在數(shù)據(jù)庫中;按照字符的高度逐列掃描首行字符,掃描完該行字符后再逐列掃描下行字符,直至掃描完所有的字符;將掃描后的字符信息與數(shù)據(jù)庫中存儲的字符信息進行匹配,將匹配后的字符信息轉(zhuǎn)換為與該字符信息對應(yīng)的文字;上述圖像文字識別方法和裝置,較好地提高了圖像文字識別的準(zhǔn)確率和識別速度,降低了開發(fā)速度。
文檔編號G06K9/20GK101246550SQ20081010169
公開日2008年8月20日 申請日期2008年3月11日 優(yōu)先權(quán)日2008年3月11日
發(fā)明者劉廣振 申請人:深圳華為通信技術(shù)有限公司