分割圖像字符的方法及裝置的制造方法
【專利摘要】本申請(qǐng)?zhí)峁┮环N分割圖像字符的方法及裝置。方法包括:對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像;對(duì)二值化圖像進(jìn)行直線檢測(cè)處理,獲得傾斜校正參數(shù),并在檢測(cè)到背景直線時(shí),將背景直線從二值化圖像中去除;根據(jù)傾斜校正參數(shù),對(duì)二值化圖像進(jìn)行傾斜校正;根據(jù)校正后的二值化圖像中的像素連通域,確定單行字符所在的字符區(qū)域;基于字符區(qū)域確定字符分割位置。本申請(qǐng)?zhí)峁┑姆椒梢蕴岣叻指钭址臏?zhǔn)確性。
【專利說明】
分割圖像字符的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及圖像處理技術(shù)領(lǐng)域,尤其涉及一種分割圖像字符的方法及裝置。
【【背景技術(shù)】】
[0002]隨著智能手機(jī)的發(fā)展,越來越多的手機(jī)具有拍照功能。利用手機(jī)可以拍攝身份證、銀行卡、名片及賬單等信息,以方便使用。這些圖像中的文字或數(shù)字等字符一般都是關(guān)鍵信息,因此準(zhǔn)確、快速的識(shí)別這些字符有著重要意義。在識(shí)別過程中,首先需要對(duì)這些字符進(jìn)行分割,而分割的好壞直接影響到識(shí)別結(jié)果的準(zhǔn)確性。
[0003]在拍攝圖像時(shí),經(jīng)常會(huì)出現(xiàn)一些特殊情況,例如拍攝角度傾斜,拍攝物體上存在一些干擾直線等,這些情況均會(huì)影響分割效果,導(dǎo)致分割準(zhǔn)確性較低。
【
【發(fā)明內(nèi)容】
】
[0004]本申請(qǐng)的多個(gè)方面提供一種分割圖像字符的方法及裝置,用以提高分割圖像字符的準(zhǔn)確性。
[0005]本申請(qǐng)的一方面,提供一種分割圖像字符的方法,包括:
[0006]對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像;
[0007]對(duì)所述二值化圖像進(jìn)行直線檢測(cè)處理,獲得傾斜校正參數(shù),并在檢測(cè)到背景直線時(shí),將所述背景直線從所述二值化圖像中去除;
[0008]根據(jù)所述傾斜校正參數(shù),對(duì)所述二值化圖像進(jìn)行傾斜校正;
[0009]根據(jù)校正后的所述二值化圖像中的像素連通域,確定所述單行字符所在的字符區(qū)域;
[0010]基于所述字符區(qū)域確定字符分割位置。
[0011]本申請(qǐng)的另一方面,提供一種分割圖像字符的裝置,包括:
[0012]二值化處理模塊,用于對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像;
[0013]直線檢測(cè)模塊,用于對(duì)所述二值化圖像進(jìn)行直線檢測(cè)處理,獲得傾斜校正參數(shù),并在檢測(cè)到背景直線時(shí),將所述背景直線從所述二值化圖像中去除;
[0014]傾斜校正模塊,用于根據(jù)所述傾斜校正參數(shù),對(duì)所述二值化圖像進(jìn)行傾斜校正;
[0015]字符區(qū)域確定模塊,用于根據(jù)校正后的所述二值化圖像中的像素連通域,確定所述單行字符所在的字符區(qū)域;
[0016]分割位置確定模塊,用于基于所述字符區(qū)域確定字符分割位置。
[0017]在本申請(qǐng)中,對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像,基于二值化圖像進(jìn)行直線檢測(cè)處理,一方面獲得傾斜校正參數(shù),另一方面在檢測(cè)到直線時(shí),將去除直線,以克服直線對(duì)確定字符分割位置的干擾,之后根據(jù)傾斜校正參數(shù)對(duì)二值化圖像進(jìn)行傾斜校正,以降低圖像傾斜對(duì)字符分割準(zhǔn)確性的影響,再根據(jù)校正后的二值化圖像中的像素連通域,確定單行字符所在的字符區(qū)域,基于字符區(qū)域確定字符分割位置,通過進(jìn)一步縮小單行字符在圖像中的區(qū)域范圍,并基于該縮小后的區(qū)域范圍確定字符分割位置,有利于進(jìn)一步提高確定字符分割位置的準(zhǔn)確性。由此可見,本申請(qǐng)技術(shù)方案可以提高分割字符分割位置的準(zhǔn)確性。
【【附圖說明】】
[0018]為了更清楚地說明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0019]圖1為本申請(qǐng)一實(shí)施例提供的分割圖像字符的方法的流程示意圖;
[0020]圖2為本申請(qǐng)一實(shí)施例提供的背景直線和字符相交的位置示意圖;
[0021]圖3為本申請(qǐng)一實(shí)施例提供的背景直線和字符相交位置的放大示意圖;
[0022]圖4為本申請(qǐng)一實(shí)施例提供的外接矩形框可能發(fā)生的幾種情況的示意圖;
[0023]圖5為本申請(qǐng)一實(shí)施例提供的分割圖像字符的裝置的結(jié)構(gòu)示意圖;
[0024]圖6為本申請(qǐng)另一實(shí)施例提供的分割圖像字符的裝置的結(jié)構(gòu)示意圖。
【【具體實(shí)施方式】】
[0025]為使本申請(qǐng)實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
[0026]圖1為本申請(qǐng)一實(shí)施例提供的分割圖像字符的方法的流程示意圖。如圖1所示,該方法包括:
[0027]101、對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像。
[0028]本實(shí)施例的執(zhí)行主體可以是分割圖像字符的裝置,該裝置可以是各種需要識(shí)別并顯示圖像的設(shè)備,例如照相機(jī)、手機(jī)、電腦、ipad等。
[0029]本實(shí)施例提供的方法主要適用于對(duì)單行字符進(jìn)行分割,因此以單行字符為例進(jìn)行說明,但并不局限于此。這里的字符可以是數(shù)字、文字、字母、以及各種符號(hào)等。在本申請(qǐng)各實(shí)施例中,字符分割主要是指確定字符分割位置的過程。
[0030]分割圖像字符的裝置預(yù)先獲取待分割單行字符所在的原始圖像。其中,單行字符所在的原始圖像可以是灰度圖像或彩色圖像??蛇x的,若原始圖像是彩色圖像,分割圖像字符的裝置還可以預(yù)先將彩色圖像轉(zhuǎn)換為灰度圖像,這樣可以降低圖像信息量,降低處理負(fù)擔(dān)。
[0031]在一種應(yīng)用場(chǎng)景中,分割圖像字符的裝置可以直接獲取拍照裝置所拍攝的完整圖像(該完整圖像也是灰度圖像或彩色圖像),并從完整圖像中提取待分割單行字符所在的原始圖像,這里待分割當(dāng)行字符所在的原始圖像是完整圖像中的一部分。例如,拍照裝置可以對(duì)整張身份證進(jìn)行拍攝,以獲得身份證圖像;分割圖像字符的裝置可以從身份證圖像中提取身份證號(hào)碼所在的部分圖像,該部分圖像中的身份證號(hào)碼即為本實(shí)施例待分割的單行字符,該部分圖像即為本實(shí)施例中單行字符所在的原始圖像。又例如,拍照裝置可以對(duì)整張表單進(jìn)行拍照,以獲得表單圖像,該表單包括多個(gè)信息行,例如收款單位名稱屬于一個(gè)信息行,付款單位名稱屬于一個(gè)信息行,日期和產(chǎn)品名稱結(jié)合起來屬于一個(gè)信息行等等;分割圖像字符的裝置可以從表單圖像中提取某個(gè)信息行所在的部分圖像,該部分圖像中信息行中的信息即為本實(shí)施例中待分割的單行字符,該部分圖像即為本實(shí)施例中單行字符所在的原始圖像。
[0032]在另一應(yīng)用場(chǎng)景中,分割圖像字符的裝置可以具有照相模塊,該照相模塊可以提供拍照提示框,以便于拍攝單行字符。具體的,用戶開啟照相模塊,在成像中心區(qū)域會(huì)顯示一個(gè)矩形框即為拍照提示框,拍照提示框中的字符會(huì)被分割提取,拍照提示框外的字符不予處理。用戶選定拍攝字符之后,照相模塊開始自動(dòng)對(duì)焦,穩(wěn)定對(duì)焦一定時(shí)間后開始對(duì)拍照提示框中的字符進(jìn)行拍照,從而獲得字符所在的原始圖像。
[0033]例如,用戶可以通過移動(dòng)分割圖像字符的裝置,使需要拍攝的身份證號(hào)碼位于拍照提示框內(nèi),之后利用分割圖像字符的裝置的照相模塊進(jìn)行拍照,獲得身份證號(hào)碼所在的原始圖像。又例如,用戶可以通過移動(dòng)分割圖像字符的裝置,使需要拍攝的表單中的信息行位于拍照提示框內(nèi),之后利用分割圖像字符的裝置的照相模塊進(jìn)行拍照,獲得該信息行所在的原始圖像。
[0034]在獲得單行字符所在的原始圖像后,分割圖像字符的裝置對(duì)單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像。這里的二值化處理是指將彩色圖像或灰度圖像轉(zhuǎn)換為二值圖像的過程,二值化圖像中的像素值只有O和I。在本實(shí)施例的二值化圖像中,字符所在區(qū)域內(nèi)的像素值為0,其他背景像素的值為I。
[0035]102、對(duì)二值化圖像進(jìn)行直線檢測(cè)處理,獲得傾斜校正參數(shù),并在檢測(cè)到背景直線時(shí),將背景直線從二值化圖像中去除。
[0036]在實(shí)際應(yīng)用中,對(duì)于像銀行單據(jù)、繳費(fèi)單據(jù)等有表格的打印單據(jù),一般在拍攝這些單據(jù)上的字符時(shí)會(huì)同時(shí)將單據(jù)上的水平或豎直線條拍攝進(jìn)去,即原始圖像除了包括待分割的單行字符之外,還會(huì)存在作為背景的水平直線或者豎直直線,簡稱為背景直線。其中,根據(jù)背景直線和字符的位置關(guān)系可將其分為兩種情況:第一類情況是背景直線和字符不相交,即字符沒有打印在表格的直線上,兩者可以直接分離且互不影響;第二種情況是背景直線和字符相交,即字符打印在表格的直線上,兩者不可直接分離。
[0037]無論是上述哪種情況,原始圖像中的背景直線通常會(huì)對(duì)字符分割產(chǎn)生不良影響,例如導(dǎo)致字符分割錯(cuò)誤等。針對(duì)該問題,分割圖像字符的裝置在獲得單行字符所在的二值化圖像后,對(duì)該二值化圖像進(jìn)行直線檢測(cè)處理,一方面檢測(cè)二值化圖像中是否存在背景直線,并在檢測(cè)到背景直線時(shí),將背景直線從二值化圖像中去除,以克服背景直線對(duì)字符分割準(zhǔn)確性的影響;另一方面用以獲得后續(xù)傾斜校正所需的傾斜校正參數(shù)。
[0038]在一可選實(shí)施方式中,可采用但不限于如下方式對(duì)二值化圖像進(jìn)行直線檢測(cè)處理:
[0039]對(duì)二值化圖像進(jìn)行霍夫變換,以檢測(cè)二值化圖像中是否存在背景直線;例如,對(duì)于采用拍照提示框拍攝的圖像,可以判斷水平直線的長度是否超過了拍照提示框?qū)挾鹊闹付ò俜直?,或判斷豎直直線的高度是否超過了拍照提示框高度的指定百分比,若判斷結(jié)果為是,則確定水平直線或垂直直線為背景直線。例如,指定百分比可以是60%、70%或者80%等。
[0040]當(dāng)檢測(cè)到二值化圖像中存在背景直線時(shí),一方面需要從二值化圖像中去除背景直線,另一方面還需要在去除背景直線之前,獲取背景直線的斜率和截距,并記錄背景直線的斜率和截距,以便于根據(jù)背景直線的斜率和截距獲得后續(xù)傾斜校正步驟所需的傾斜校正參數(shù)。
[0041]對(duì)于上述第一種情況,即背景直線和字符分離的情況,可以對(duì)背景直線周圍的非背景直線上的像素值進(jìn)行數(shù)值運(yùn)算,獲得替補(bǔ)像素值,并直接將背景直線上的像素值直接替換為該替補(bǔ)像素值,從而達(dá)到去除背景直線的目的。一種獲得替補(bǔ)像素值的方式為:對(duì)背景直線周圍的非背景直線上的像素值進(jìn)行平均,獲得替補(bǔ)像素值。另一種獲得替補(bǔ)像素值的方式為:對(duì)背景直線周圍的非背景直線上的像素值進(jìn)行加權(quán)平均,獲得替補(bǔ)像素值。值得說明的是,本實(shí)施例并不限定“周圍非背景直線上的像素值”的范圍。
[0042]對(duì)于上述第二種情況,即背景直線和字符相交的情況,可以將背景直線上不與字符相交的部分去除,保留背景直線上與字符相交的部分,從而達(dá)到去除背景直線的目的。以背景直線為水平直線為例,去除背景直線的步驟如下:
[0043]a、在二值化圖像中確定背景直線的高度范圍;
[0044]b、遍歷尋找背景直線和字符的相交位置,一種背景直線和字符的相交位置示意圖如圖2所示;
[0045]C、確定背景直線與字符的四個(gè)相交點(diǎn),上下各兩個(gè)相交點(diǎn),且滿足上面兩個(gè)相交點(diǎn)的距離近似于下面兩個(gè)相交點(diǎn)的距離,同時(shí)兩組相交點(diǎn)的水平偏移不能過大;一種四個(gè)相交點(diǎn)的放大示意圖如圖3所示;
[0046]上述上面兩個(gè)相交點(diǎn)的距離近似于下面兩個(gè)相交點(diǎn)的距離主要是指上面兩個(gè)相交點(diǎn)的距離與下面兩個(gè)相交點(diǎn)的距離之差不大于預(yù)設(shè)閾值;上面兩組相交點(diǎn)的水平偏移不能過大主要是指不能超過指定偏移量。
[0047]d、將四個(gè)相交點(diǎn)構(gòu)造成一個(gè)四邊形,確定該四邊形內(nèi)的所有位置為背景直線和字符相交的像素位置;
[0048]e、保持上述確定的背景直線和字符相交的像素位置的像素值不變,將背景直線上其他像素位置的值替換為周圍非背景直線上的像素位置的值進(jìn)行數(shù)值運(yùn)算的結(jié)果(該運(yùn)算結(jié)果即為替補(bǔ)像素值),從而達(dá)到去除背景直線的目的。
[0049]值得說明的是,本實(shí)施例方法主要基于二值化圖像確定字符分割位置,但實(shí)際應(yīng)用中會(huì)同時(shí)保存原始圖像,除了去除二值化圖像中的背景直線之外,還可以將原始圖像中的背景直線也去除。
[0050]當(dāng)檢測(cè)到二值化圖像中不存在背景直線時(shí),對(duì)二值化圖像中位于二值化圖像中心區(qū)域內(nèi)的像素連通域進(jìn)行擬合處理,獲得擬合直線,根據(jù)擬合直線的斜率和截距,獲得后續(xù)傾斜校正步驟所需的傾斜校正參數(shù)。
[0051]考慮到本實(shí)施例的二值化圖像包括單行字符,因此一般具有以下特征:單行字符一般位于二值化圖像中間高度的位置,二值化圖像的上下位置可能會(huì)有其他多余的字符信息,但多余字符信息所占的像素高度不會(huì)超過待分割字符所占像素高度。
[0052]因此,當(dāng)檢測(cè)到二值化圖像中不存在背景直線時(shí),不需要對(duì)二值化圖像進(jìn)行直線去除處理,但是對(duì)位于二值化圖像中心區(qū)域內(nèi)的像素連通域進(jìn)行擬合處理,獲得擬合直線,以便根據(jù)該擬合直線確定傾斜校正參數(shù)。該擬合直線會(huì)位于二值化圖像中心區(qū)域內(nèi)。其中,二值化圖像的中心區(qū)域是指距離二值化圖像中間高度指定范圍的區(qū)域。
[0053]基于以上特征,可以預(yù)先在二值化圖像中設(shè)定三條固定水平的平行直線從而構(gòu)造出三個(gè)類,一條水平直線位于二值化圖像的中間高度,另兩條水平直線分別位于二值化圖像偏上位置和偏下位置處,一般可將上下兩條水平直線分別設(shè)定到二值化圖像的上邊緣和下邊緣。分割圖像字符的裝置對(duì)二值化圖像中的像素連通域進(jìn)行聚類處理,獲得位于二值化圖像中心區(qū)域內(nèi)的像素連通域。在二值化圖像中,若某個(gè)像素的八鄰域中存在和其一樣的像素值,則認(rèn)為兩者是連通的,基于該定義,分割圖像字符的裝置可以分析出二值化圖像中的像素連通域。
[0054]具體的,對(duì)于每一個(gè)像素連通域,計(jì)算該像素連通域的中心位置分別與三條水平直線的歐氏距離,確定最小歐式距離對(duì)應(yīng)的水平直線,將該像素連通域判給最小歐式距離對(duì)應(yīng)的水平直線所屬的類?;诖耍指顖D像字符的裝置可以確定二值化圖像中那些聚類到中間直線所屬的類的像素連通域,為位于二值化圖像中心區(qū)域的像素連通域。
[0055]由于待分割的單行字符基本位于二值化圖像的中間高度,所以單行字符對(duì)應(yīng)的像素連通域會(huì)離中間直線更近些,即使發(fā)生因字符結(jié)構(gòu)(如漢字中的上下結(jié)構(gòu))、印刷、拍攝等問題導(dǎo)致的字符斷裂,大部分的字符對(duì)應(yīng)的像素連通域依然會(huì)在中間直線附近。而對(duì)于那些不屬于待分割單行字符的字符所屬的像素連通域,會(huì)被劃分到上下兩條直線所屬的類。
[0056]值得說明的是,除了采用上述聚類方法獲得位于二值化圖像中心區(qū)域內(nèi)的像素連通域之外,還可以采用其他方法,例如預(yù)先指定中心區(qū)域的范圍,對(duì)每個(gè)像素連通域,獲取該像素連通域中位于中心區(qū)域的部分與整個(gè)像素連通域的百分比,將百分比大于指定比例閾值的像素連通域作為位于該中心區(qū)域內(nèi)的像素連通域。
[0057]在獲得位于二值化圖像中心區(qū)域內(nèi)的像素連通域后,分割圖像字符的裝置可以將位于二值化圖像中心區(qū)域內(nèi)的像素連通域的中心坐標(biāo)和像素個(gè)數(shù)作為擬合參數(shù),進(jìn)行最小二乘擬合處理,獲得擬合直線。
[0058]具體的,分割圖像字符的裝置可以將位于二值化圖像中心區(qū)域內(nèi)的像素連通域中的像素個(gè)數(shù)作為該像素連通域的權(quán)值,將該像素連通域的中心坐標(biāo)作為該像素連通域的坐標(biāo),并以此作為擬合參數(shù)進(jìn)行最小二乘擬合,獲得擬合直線,進(jìn)而基于擬合直線的斜率和截距獲得傾斜校正參數(shù),這種方式可以降低二值化過程中可能產(chǎn)生的像素點(diǎn)較少、而像素連通域較多對(duì)整體性能的影響。
[0059]103、根據(jù)上述傾斜校正參數(shù),對(duì)二值化圖像進(jìn)行傾斜校正。
[0060]考慮到在圖像的拍攝過程中,會(huì)因?yàn)榕恼昭b置(例如相機(jī)、手機(jī)等)傾斜導(dǎo)致拍攝的字符不在一條水平線上,因此需要將二值化圖像旋轉(zhuǎn)到水平位置,以便于更加準(zhǔn)確的對(duì)字符進(jìn)行分割。因此,分割圖像字符的裝置可以根據(jù)上述步驟獲取的傾斜校正參數(shù),對(duì)二值化圖像進(jìn)行傾斜校正。
[0061]具體的,傾斜校正參數(shù)一般是一傾斜校正角度,對(duì)二值化圖像進(jìn)行傾斜校正主要是按照傾斜校正角度,對(duì)二值化圖像進(jìn)行旋轉(zhuǎn)。
[0062]104、根據(jù)校正后的二值化圖像中的像素連通域,確定上述單行字符所在的字符區(qū)域。
[0063]對(duì)二值化圖像進(jìn)行傾斜校正后,根據(jù)校正后的二值化圖像中的像素連通域,確定上述單行字符所在的字符區(qū)域,以進(jìn)一步縮小單行字符所在的區(qū)域,在更小區(qū)域內(nèi)進(jìn)行字符分割,有利于進(jìn)一步提高字符分割準(zhǔn)確性。
[0064]在一可選實(shí)施方式中,分割圖像字符的裝置可以對(duì)校正后的二值化圖像中的像素連通域進(jìn)行聚類處理,獲得位于校正后的二值化圖像中心區(qū)域內(nèi)的像素連通域;將位于校正后的二值化圖像中心區(qū)域內(nèi)的像素連通域中的孤立像素連通域去除,獲得字符區(qū)域。
[0065]具體的,若在上述步驟中已經(jīng)預(yù)先設(shè)定了三條平行直線,則在該步驟中,分割圖像字符的裝置可以直接基于設(shè)置于校正后的二值化圖像中的三條直線,對(duì)像素連通域進(jìn)行聚類處理,獲得位于校正后的二值化圖像中心區(qū)域內(nèi)的像素連通域。反之,需要預(yù)先在校正后的二值化圖像中設(shè)定三條固定水平的平行直線從而構(gòu)造出三個(gè)類,一條水平直線位于二值化圖像的中間高度,另兩條水平直線分別位于二值化圖像偏上位置和偏下位置處,一般可將上下兩條水平直線分別設(shè)定到二值化圖像的上邊緣和下邊緣。之后,在基于設(shè)置于校正后的二值化圖像中的三條直線,對(duì)像素連通域進(jìn)行聚類處理,獲得位于校正后的二值化圖像中心區(qū)域內(nèi)的像素連通域。
[0066]具體的,對(duì)于每一個(gè)像素連通域,計(jì)算該像素連通域的中心位置分別與三條水平直線的歐氏距離,確定最小歐式距離對(duì)應(yīng)的水平直線,將該像素連通域判給最小歐式距離對(duì)應(yīng)的水平直線所屬的類?;诖?,分割圖像字符的裝置可以確定校正后的二值化圖像中那些聚類到中間直線所屬的類的像素連通域,為位于校正后的二值化圖像中心區(qū)域的像素連通域。
[0067]值得說明的是,由于預(yù)先對(duì)二值化圖像進(jìn)行了傾斜校正,所以對(duì)于那些因發(fā)生因圖像拍攝角度傾斜導(dǎo)致一部分像素連通域不在圖像中心高度而可能被判定為其他類的像素連通域,會(huì)被正確的聚類到中間直線所屬的類。
[0068]值得說明的是,除了采用上述聚類方法獲得位于校正后的二值化圖像中心區(qū)域內(nèi)的像素連通域之外,還可以采用其他方法,例如預(yù)先指定中心區(qū)域的范圍,對(duì)每個(gè)像素連通域,獲取該像素連通域中位于中心區(qū)域的部分與整個(gè)像素連通域的百分比,將百分比大于指定比例閾值的像素連通域作為位于該中心區(qū)域內(nèi)的像素連通域。
[0069]考慮到位于校正后的二值化圖像中心區(qū)域的像素連通域中,有可能存在孤立像素連通域,孤立像素連通域一般也屬于干擾信息,于是將這些孤立像素連通域去除,將剩余像素連通域作為單行字符所在的字符區(qū)域。孤立像素連通域是指與其他像素連通域的距離均大于預(yù)設(shè)距離閾值的像素連通域。
[0070]105、基于上述字符區(qū)域確定字符分割位置。
[0071]基于所確定的字符區(qū)域確定字符分割位置,有利于提高確定字符分割位置的準(zhǔn)確性。
[0072]在一可選實(shí)施方式中,分割圖像字符的裝置將字符區(qū)域中均為背景像素的列作為垂直分割線,根據(jù)垂直分割線以及由垂直分割線分割出的子區(qū)域中的最高像素位置和最低像素位置,確定字符分割位置。
[0073]具體的,分割圖像字符的裝置統(tǒng)計(jì)字符區(qū)域內(nèi)每一列像素,若一列當(dāng)中的所有像素均為背景像素(即取值均為I),則將該列作為一條垂直分割線,用以對(duì)單行字符進(jìn)行垂直分割;之后,確定由垂直分割線所分割出的子區(qū)域內(nèi)的最高像素位置和最低像素位置,由垂直分割線以及最高像素位置和最低像素位置構(gòu)造出該子區(qū)域的外接矩形框,該外接矩形框構(gòu)成該子區(qū)域內(nèi)的字符分割位置。
[0074]在本實(shí)施例中,對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像,基于二值化圖像進(jìn)行直線檢測(cè)處理,一方面獲得傾斜校正參數(shù),另一方面在檢測(cè)到直線時(shí),將去除直線,以克服直線對(duì)分割字符精確度的干擾,之后根據(jù)傾斜校正參數(shù)對(duì)二值化圖像進(jìn)行傾斜校正,以降低圖像傾斜對(duì)字符分割準(zhǔn)確性的影響,再根據(jù)校正后的二值化圖像中的像素連通域,確定單行字符所在的字符區(qū)域,基于字符區(qū)域確定字符分割位置,通過進(jìn)一步縮小單行字符在圖像中的區(qū)域范圍,并基于該縮小后的區(qū)域范圍確定字符分割位置,有利于進(jìn)一步提尚確定字符分割位置的準(zhǔn)確性。由此可見,本實(shí)施例可以提尚確定字符分割位置的準(zhǔn)確性。
[0075]另外,本實(shí)施例提供的方法不需要用戶參與,確定字符分割位置的操作簡單,易于實(shí)現(xiàn),字符分割效率較高。
[0076]在上述確定單行字符的字符分割位置后,進(jìn)一步可由字符識(shí)別引擎按照該字符分割位置進(jìn)行字符識(shí)別,由于本實(shí)施例提供的字符分割位置準(zhǔn)確度較高,因此識(shí)別結(jié)果具有較高的置信度。值得說明的是,字符識(shí)別引擎可以根據(jù)上述實(shí)施例確定的字符分割位置,在去除背景直線后的灰度圖像上進(jìn)行字符識(shí)別;或者,字符識(shí)別引擎可以根據(jù)上述實(shí)施例確定的字符分割位置,在上述校正后的二值化圖像上進(jìn)行字符識(shí)別。
[0077]值得說明的是,雖然本實(shí)施例確定的字符分割位置準(zhǔn)確度較高,但如圖4所示,外接矩形框也可能發(fā)生以下三種情況:
[0078]I)外接矩形框內(nèi)是一個(gè)完整的字符;
[0079]2)由于字符的粘連,使得外接矩形框內(nèi)有多個(gè)字符;
[0080]3)由于打印或者拍攝不清晰導(dǎo)致字符斷裂,使得一個(gè)字符被分到了多個(gè)外接矩形框。
[0081]基于上述,對(duì)于外接矩形框內(nèi)是一個(gè)完整字符的情況,字符識(shí)別引擎可以識(shí)別出該完整字符,并且有著較高的置信度;對(duì)于外接矩形框框定過多或者過少字符的情況,字符識(shí)別引擎可能無法識(shí)別出外接矩形框內(nèi)的字符,并返回識(shí)別失敗信息,進(jìn)一步還可以返回分割失敗原因,例如框定字符過多或過少等。
[0082]基于上述,分割圖像字符的裝置可以根據(jù)識(shí)別失敗信息,并結(jié)合分割失敗原因?qū)ψ址指钗恢眠M(jìn)行調(diào)整,例如將框定過多字符的外接矩形框進(jìn)行拆分,并利用外接矩形框的位置關(guān)系,將框定過少字符的外接矩形框進(jìn)行合并,以便于字符識(shí)別引擎能夠根據(jù)調(diào)整過的字符分割位置重新進(jìn)行字符識(shí)別,以提高字符識(shí)別準(zhǔn)確性。
[0083]需要說明的是,對(duì)于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請(qǐng)并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本申請(qǐng),某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本申請(qǐng)所必須的。
[0084]在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
[0085]圖5為本申請(qǐng)一實(shí)施例提供的分割圖像字符的裝置的結(jié)構(gòu)示意圖。如圖5所示,該裝置包括:二值化處理模塊51、直線檢測(cè)模塊52、傾斜校正模塊53、字符區(qū)域確定模塊54和分割位置確定模塊55。
[0086]二值化處理模塊51,用于對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像。
[0087]直線檢測(cè)模塊52,與二值化處理模塊51連接,用于對(duì)二值化處理模塊51獲得的二值化圖像進(jìn)行直線檢測(cè)處理,獲得傾斜校正參數(shù),并在檢測(cè)到背景直線時(shí),將背景直線從二值化圖像中去除。
[0088]傾斜校正模塊53,與直線檢測(cè)模塊52連接,用于根據(jù)直線檢測(cè)模塊52獲得的傾斜校正參數(shù),對(duì)二值化圖像進(jìn)行傾斜校正。
[0089]字符區(qū)域確定模塊54,與傾斜校正模塊53連接,用于根據(jù)傾斜校正模塊53校正后的二值化圖像中的像素連通域,確定單行字符所在的字符區(qū)域。
[0090]分割位置確定模塊55,與字符區(qū)域確定模塊54連接,用于基于字符區(qū)域確定模塊54確定的字符區(qū)域確定字符分割位置。
[0091]在一可選實(shí)施方式中,如圖6所示,直線檢測(cè)模塊52的一種實(shí)現(xiàn)結(jié)構(gòu)包括:檢測(cè)單元521、第一獲取單元522、第二獲取單元523和直線去除單元524。
[0092]檢測(cè)單元521,用于對(duì)二值化圖像進(jìn)行霍夫變換,以檢測(cè)二值化圖像中是否存在背景直線。
[0093]第一獲取單元522,與檢測(cè)單元521連接,用于在檢測(cè)單元521檢測(cè)到二值化圖像中存在背景直線時(shí),獲取背景直線的斜率和截距,并根據(jù)背景直線的斜率和截距,獲得傾斜校正參數(shù)。
[0094]第二獲取單元523,與檢測(cè)單元521連接,用于在檢測(cè)單元521檢測(cè)到二值化圖像中不存在背景直線時(shí),對(duì)二值化圖像中位于該二值化圖像中心區(qū)域內(nèi)的像素連通域進(jìn)行擬合處理,獲得擬合直線,根據(jù)擬合直線的斜率和截距,獲得傾斜校正參數(shù)。
[0095]直線去除單元524,與檢測(cè)單元521連接,用于在檢測(cè)單元521檢測(cè)到二值化圖像中存在背景直線時(shí),將背景直線從二值化圖像中去除。
[0096]在一可選實(shí)施方式中,第二獲取單元523具體可用于:
[0097]對(duì)二值化圖像中的像素連通域進(jìn)行聚類處理,獲取位于二值化圖像中心區(qū)域內(nèi)的像素連通域;
[0098]將位于二值化圖像中心區(qū)域內(nèi)的像素連通域的中心坐標(biāo)和像素個(gè)數(shù)作為擬合參數(shù),進(jìn)行最小二乘擬合處理,獲得擬合直線。
[0099]在一可選實(shí)施方式中,字符區(qū)域確定模塊54具體可用于:
[0100]對(duì)校正后的二值化圖像中的像素連通域進(jìn)行聚類處理,獲取位于校正后的二值化圖像中心區(qū)域內(nèi)的像素連通域;
[0101]將位于校正后的二值化圖像中心區(qū)域內(nèi)的像素連通域中的孤立像素連通域去除,獲得字符區(qū)域。
[0102]在一可選實(shí)施方式中,分割位置確定模塊55具體可用于:
[0103]將字符區(qū)域中均為背景像素的列作為垂直分割線;
[0104]根據(jù)垂直分割線以及由垂直分割線分割出的子區(qū)域中的最高像素位置和最低像素位置,確定字符分割位置。
[0105]在一可選實(shí)施方式中,如圖6所示,該裝置還包括:拍照模塊56,用于在檢測(cè)到單行文字位于拍照提示框內(nèi)時(shí),對(duì)單行字符進(jìn)行拍攝,獲得原始圖像。拍照模塊56與二值化處理模塊51連接,用于向二值化處理模塊51提供原始圖像。
[0106]本實(shí)施例提供的分割圖像字符的裝置可以是各種需要識(shí)別并顯示圖像的設(shè)備,例如照相機(jī)、手機(jī)、電腦、ipad等。
[0107]本實(shí)施例提供的分割圖像字符的裝置,對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像,基于二值化圖像進(jìn)行直線檢測(cè)處理,一方面獲得傾斜校正參數(shù),另一方面在檢測(cè)到直線時(shí),將去除直線,以克服直線對(duì)分割字符精確度的干擾,之后根據(jù)傾斜校正參數(shù)對(duì)二值化圖像進(jìn)行傾斜校正,以降低圖像傾斜對(duì)字符分割準(zhǔn)確性的影響,再根據(jù)校正后的二值化圖像中的像素連通域,確定單行字符所在的字符區(qū)域,基于字符區(qū)域確定字符分割位置,通過進(jìn)一步縮小單行字符在圖像中的區(qū)域范圍,并基于該縮小后的區(qū)域范圍確定字符分割位置,有利于進(jìn)一步提高確定字符分割位置的準(zhǔn)確性。由此可見,采用本實(shí)施例提供的分割圖像字符的裝置,對(duì)單行字符進(jìn)行分割處理,可以提高確定字符分割位置的準(zhǔn)確性。
[0108]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
[0109]在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
[0110]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
[0111]另外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
[0112]上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(Read-Only Memory, ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory, RAM)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0113]最后應(yīng)說明的是:以上實(shí)施例僅用以說明本申請(qǐng)的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本申請(qǐng)進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本申請(qǐng)各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1.一種分割圖像字符的方法,其特征在于,包括: 對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像; 對(duì)所述二值化圖像進(jìn)行直線檢測(cè)處理,獲得傾斜校正參數(shù),并在檢測(cè)到背景直線時(shí),將所述背景直線從所述二值化圖像中去除; 根據(jù)所述傾斜校正參數(shù),對(duì)所述二值化圖像進(jìn)行傾斜校正; 根據(jù)校正后的所述二值化圖像中的像素連通域,確定所述單行字符所在的字符區(qū)域; 基于所述字符區(qū)域確定字符分割位置。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述二值化圖像進(jìn)行直線檢測(cè)處理,獲得傾斜校正參數(shù),包括: 對(duì)所述二值化圖像進(jìn)行霍夫變換,以檢測(cè)所述二值化圖像中是否存在背景直線; 當(dāng)檢測(cè)到所述二值化圖像中存在背景直線時(shí),獲取所述背景直線的斜率和截距,并根據(jù)所述背景直線的斜率和截距,獲得所述傾斜校正參數(shù); 當(dāng)檢測(cè)到所述二值化圖像中不存在背景直線時(shí),對(duì)所述二值化圖像中位于所述二值化圖像中心區(qū)域內(nèi)的像素連通域進(jìn)行擬合處理,獲得擬合直線,根據(jù)所述擬合直線的斜率和截距,獲得所述傾斜校正參數(shù)。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述二值化圖像中位于所述二值化圖像中心區(qū)域內(nèi)的像素連通域進(jìn)行擬合處理,獲得擬合直線,包括: 對(duì)所述二值化圖像中的像素連通域進(jìn)行聚類處理,獲取位于所述二值化圖像中心區(qū)域內(nèi)的像素連通域; 將位于所述二值化圖像中心區(qū)域內(nèi)的像素連通域的中心坐標(biāo)和像素個(gè)數(shù)作為擬合參數(shù),進(jìn)行最小二乘擬合處理,獲得所述擬合直線。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)校正后的所述二值化圖像中的像素連通域,確定所述單行字符所在的字符區(qū)域,包括: 對(duì)校正后的所述二值化圖像中的像素連通域進(jìn)行聚類處理,獲取位于校正后的所述二值化圖像中心區(qū)域內(nèi)的像素連通域; 將位于校正后的所述二值化圖像中心區(qū)域內(nèi)的像素連通域中的孤立像素連通域去除,獲得所述字符區(qū)域。5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述基于所述字符區(qū)域確定字符分割位置,包括: 將所述字符區(qū)域中均為背景像素的列作為垂直分割線; 根據(jù)所述垂直分割線以及由所述垂直分割線分割出的子區(qū)域中的最高像素位置和最低像素位置,確定所述字符分割位置。6.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像之前,還包括: 在檢測(cè)到所述單行文字位于拍照提示框內(nèi)時(shí),對(duì)所述單行字符進(jìn)行拍攝,獲得所述原始圖像。7.一種分割圖像字符的裝置,其特征在于,包括: 二值化處理模塊,用于對(duì)待分割單行字符所在的原始圖像進(jìn)行二值化處理,獲得二值化圖像; 直線檢測(cè)模塊,用于對(duì)所述二值化圖像進(jìn)行直線檢測(cè)處理,獲得傾斜校正參數(shù),并在檢測(cè)到背景直線時(shí),將所述背景直線從所述二值化圖像中去除; 傾斜校正模塊,用于根據(jù)所述傾斜校正參數(shù),對(duì)所述二值化圖像進(jìn)行傾斜校正; 字符區(qū)域確定模塊,用于根據(jù)校正后的所述二值化圖像中的像素連通域,確定所述單行字符所在的字符區(qū)域; 分割位置確定模塊,用于基于所述字符區(qū)域確定字符分割位置。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述直線檢測(cè)模塊包括: 檢測(cè)單元,用于對(duì)所述二值化圖像進(jìn)行霍夫變換,以檢測(cè)所述二值化圖像中是否存在背景直線; 第一獲取單元,用于在檢測(cè)到所述二值化圖像中存在背景直線時(shí),獲取所述背景直線的斜率和截距,并根據(jù)所述背景直線的斜率和截距,獲得所述傾斜校正參數(shù); 第二獲取單元,用于在檢測(cè)到所述二值化圖像中不存在背景直線時(shí),對(duì)所述二值化圖像中位于所述二值化圖像中心區(qū)域內(nèi)的像素連通域進(jìn)行擬合處理,獲得擬合直線,根據(jù)所述擬合直線的斜率和截距,獲得所述傾斜校正參數(shù); 直線去除單元,用于在檢測(cè)到所述二值化圖像中存在背景直線時(shí),將所述背景直線從所述二值化圖像中去除。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第二獲取單元具體用于: 對(duì)所述二值化圖像中的像素連通域進(jìn)行聚類處理,獲取位于所述二值化圖像中心區(qū)域內(nèi)的像素連通域; 將位于所述二值化圖像中心區(qū)域內(nèi)的像素連通域的中心坐標(biāo)和像素個(gè)數(shù)作為擬合參數(shù),進(jìn)行最小二乘擬合處理,獲得所述擬合直線。10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述字符區(qū)域確定模塊具體用于: 對(duì)校正后的所述二值化圖像中的像素連通域進(jìn)行聚類處理,獲取位于校正后的所述二值化圖像中心區(qū)域內(nèi)的像素連通域; 將位于校正后的所述二值化圖像中心區(qū)域內(nèi)的像素連通域中的孤立像素連通域去除,獲得所述字符區(qū)域。11.根據(jù)權(quán)利要求7-10任一項(xiàng)所述的裝置,其特征在于,所述分割位置確定模塊具體用于: 將所述字符區(qū)域中均為背景像素的列作為垂直分割線; 根據(jù)所述垂直分割線以及由所述垂直分割線分割出的子區(qū)域中的最高像素位置和最低像素位置,確定所述字符分割位置。12.根據(jù)權(quán)利要求7-10任一項(xiàng)所述的裝置,其特征在于,還包括: 拍照模塊,用于在檢測(cè)到所述單行文字位于拍照提示框內(nèi)時(shí),對(duì)所述單行字符進(jìn)行拍攝,獲得所述原始圖像。
【文檔編號(hào)】G06K9/34GK105868759SQ201510031629
【公開日】2016年8月17日
【申請(qǐng)日】2015年1月22日
【發(fā)明人】王楠, 杜志軍
【申請(qǐng)人】阿里巴巴集團(tuán)控股有限公司