本發(fā)明涉及的是一種圖像處理技術(shù)領(lǐng)域的方法,具體是針對光學(xué)字符識別中多種文本圖像的版面分析研究。
背景技術(shù):
伴隨著信息化進程速度的不斷加快,社會對信息量的要求不斷增加,人們越來越少地用紙筆去記錄信息,利用計算機等智能系統(tǒng)開展和大量信息有關(guān)的工作成為了當(dāng)下的趨勢。但是,信息產(chǎn)生的速度遠遠大于信息輸入的速度,這種狀態(tài)會耗費大量人力,且正確率也得不到保障。目前,依賴人工錄入的方式存在的缺陷日益凸顯,這種方法在經(jīng)濟效益和效率方面都存在不足。在人工成本日益攀升的情況下,人們迫切需要尋求一種高效低成本的方式來解決這一困境。光學(xué)字符識別能很好解決這一難題。在光學(xué)字符識別中,版面分析是至關(guān)重要的一步。但在眾多研究中,光學(xué)字符識別的研究一般只針對一類文本圖像,本發(fā)明針對簡單排版的文本圖像、多版塊的文本圖像和復(fù)雜背景的文本圖像等做出了具體的分析和研究。
字符圖像多種多樣,對于單一版塊的文本圖像,其中只存在一段標(biāo)準(zhǔn)的字符,此時并不需要版面分析;但對于版塊較多的報刊圖像、插圖的論文圖像、背景復(fù)雜的標(biāo)牌圖像等,為了后續(xù)的字符分割,版面分析必不可少。本發(fā)明對三種類型的文本圖像進行了版面分析的研究,簡單排版的文本圖像、多版塊的文本圖像和復(fù)雜背景的文本圖像。版面分析后提取文本圖像中的字符區(qū)域以進行光學(xué)字符識別中后續(xù)的字符分割的研究。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)存在的不足,本發(fā)明對三種類型的文本圖像進行了版面分析的研究,簡單排版的文本圖像、多版塊的文本圖像和復(fù)雜背景的文本圖像。
對于光學(xué)字符識別中版塊較為簡單的文本圖像,它并沒有表格、插畫等的干擾,其中只含有橫排或豎排字符。在這種情況下,版面劃分的主要目的是劃分出橫排或者豎排的文字。通過對文本圖像的分析,大多數(shù)的文本段落的行間距的寬度都會小于文字行的寬度。從這方面著手,對于簡單圖像版面分析的具體步驟如下:
第一步,首先對文本圖像進行必要的處理,去除噪聲的干擾,為后續(xù)操作打下基礎(chǔ)。
第二步,在x方向上進行水平投影,在每行字符間會存在空白區(qū)域,此區(qū)域的寬度可能會大小不一;當(dāng)然每行字符也會存在一定的寬度。若空白區(qū)域?qū)挾却笥谂R近的字符行區(qū)域?qū)挾?,則將其視為段落間距進行分割;若空白區(qū)域?qū)挾刃∮谂R近的字符行區(qū)域?qū)挾?,則將其視為行間距,不進行分割。
第三步,在進行第二步的操作后,如果x方向上暫時無可分割處或者已完成x方向上的分割,則采取第二步中同樣的思想,對y方向進行投影及分割。直到完成整個投影分割法的版面劃分過程。
對于光學(xué)字符識別中多版塊文本圖像,其中可能存在圖像、表格、文本等多種信息。將圖像、表格、文本等可以理解成不同的版塊區(qū)域類,而對于此類文本圖像的版面分析就是將不同的區(qū)域類盡可能的分開,并檢測出文本信息進行后續(xù)的字符分割。若將識別的文本圖像中的所有連通區(qū)域視為一個完整的基本連通區(qū)域集合,版面分析的最終結(jié)果是將他們分成三類:圖像區(qū)域類、表格區(qū)域類、文字區(qū)域類(包括橫排和豎排文本)。顯然將所有區(qū)域類一步到位地劃分清楚,即使是針對簡單版面而言也是是困難的。本發(fā)明首先利用形態(tài)學(xué)知識初步將所有區(qū)域類分開,然后逐步細分出各個區(qū)域類,算法總體流程如圖1所示。具體步驟如下:
第一步,形態(tài)學(xué)處理,膨脹腐蝕,開運算閉運算,孔洞填充。
第二步,標(biāo)記連通分量。
第三步,文本段的生成,通過簡單圖像版面分析的處理辦法,進行x軸、y軸方向上的投影劃分,實現(xiàn)二分法中文本區(qū)域類的處理。
第四步,圖形區(qū)域處理,這部分模塊是和文本段的生成模塊相配合的,進一步利用形態(tài)學(xué)知識處理圖像,實現(xiàn)二分法中圖像區(qū)域類的處理。
第五步,表格區(qū)域中劃分字符,通過縱向和橫向投影搜索特征線可以對表格區(qū)域進行判定,即表格的框線;搜索出框線后,進而利用形態(tài)學(xué)知識判定表格中字符區(qū)域的位置并劃分字符區(qū)域。
對于光學(xué)字符識別中復(fù)雜背景的文本圖像,包含的字符較少且背景復(fù)雜,對后續(xù)的分割產(chǎn)生了極大的干擾。復(fù)雜背景區(qū)別與字符區(qū)域的不同之處就在于字符區(qū)域中字符之間存在的間隔是均勻的,字符和底色在灰度值上存在突變。因而,在復(fù)雜背景的文本圖像的灰度上就會有一小塊灰度密集震蕩的區(qū)域。而字符本身與背景底色都有較均勻的灰度,所以在這個區(qū)域有著豐富的邊緣存在。針對此類本文圖像的特點,采取二值邊緣化法進行版面分析,此算法的步驟如下:
第一步,二值化后,利用canny算子進行邊緣檢測。
第二步,對邊緣點進行統(tǒng)計分析,繪出邊緣像素點統(tǒng)計直方圖。
第三步,根據(jù)統(tǒng)計直方圖,找出邊緣像素點較多的區(qū)域。
第四步,對邊緣像素點較多的區(qū)域,各個像素點的灰度值保持不變。
第五步,對邊緣像素點較少的區(qū)域,各個像素點的灰度值置0。
第六步,找出字符區(qū)域后,對字符區(qū)域進行分割從而劃分出字符區(qū)域。
附圖說明
圖1多版塊文本圖像版面分析流程圖;
圖2多版塊文本圖像;
圖3標(biāo)記連通域分量后的圖像。
具體實施方式
下面對本發(fā)明的實施例作詳細說明:本實施例在以本發(fā)明技術(shù)方案為前提下進行實施,給出了詳細的實施方式和過程,但本發(fā)明的保護范圍不限于下述的實施例。
對于光學(xué)字符識別中版塊較為簡單的文本圖像,它并沒有表格、插畫等的干擾,其中只含有橫排或豎排字符。在這種情況下,版面劃分的主要目的是劃分出橫排或者豎排的文字。通過對文本圖像的分析,大多數(shù)的文本段落的行間距的寬度都會小于文字行的寬度。從這方面著手,對于簡單圖像版面分析的具體步驟如下:
第一步,首先對文本圖像進行必要的處理,去除噪聲的干擾,為后續(xù)操作打下基礎(chǔ)。
第二步,在x方向上進行水平投影,在每行字符間會存在空白區(qū)域,此區(qū)域的寬度可能會大小不一;當(dāng)然每行字符也會存在一定的寬度。若空白區(qū)域?qū)挾却笥谂R近的字符行區(qū)域?qū)挾?,則將其視為段落間距進行分割;若空白區(qū)域?qū)挾刃∮谂R近的字符行區(qū)域?qū)挾?,則將其視為行間距,不進行分割。
第三步,在進行第二步的操作后,如果x方向上暫時無可分割處或者已完成x方向上的分割,則采取第二步中同樣的思想,對y方向進行投影及分割。直到完成整個投影分割法的版面劃分過程。
對于光學(xué)字符識別中多版塊文本圖像,其中可能存在圖像、表格、文本等多種信息。以圖2為例,若將識別的文本圖像中的所有連通區(qū)域視為一個完整的基本連通區(qū)域集合,版面分析的最終結(jié)果是將他們分成三類:圖像區(qū)域類、表格區(qū)域類、文字區(qū)域類(包括橫排和豎排文本)。顯然將所有區(qū)域類一步到位地劃分清楚,即使是針對簡單版面而言也是是困難的。本發(fā)明首先利用形態(tài)學(xué)知識初步將所有區(qū)域類分開,然后逐步細分出各個區(qū)域類。具體步驟如下:
第一步,形態(tài)學(xué)處理,膨脹腐蝕,開運算閉運算,孔洞填充。
第二步,標(biāo)記連通分量,處理結(jié)果如圖3所示。
第三步,文本段的生成,通過簡單圖像版面分析的處理辦法,進行x軸、y軸方向上的投影劃分,實現(xiàn)二分法中文本區(qū)域類的處理。
第四步,圖形區(qū)域處理,這部分模塊是和文本段的生成模塊相配合的,進一步利用形態(tài)學(xué)知識處理圖像,實現(xiàn)二分法中圖像區(qū)域類的處理.。
第五步,表格區(qū)域中劃分字符,通過縱向和橫向投影搜索特征線可以對表格區(qū)域進行判定,即表格的框線;搜索出框線后,進而利用形態(tài)學(xué)知識判定表格中字符區(qū)域的位置并劃分字符區(qū)域。
對于光學(xué)字符識別中復(fù)雜背景的文本圖像,包含的字符較少且背景復(fù)雜,對后續(xù)的分割產(chǎn)生了極大的干擾。復(fù)雜背景區(qū)別與字符區(qū)域的不同之處就在于字符區(qū)域中字符之間存在的間隔是均勻的,字符和底色在灰度值上存在突變。因而,在復(fù)雜背景的文本圖像的灰度上就會有一小塊灰度密集震蕩的區(qū)域。而字符本身與背景底色都有較均勻的灰度,所以在這個區(qū)域有著豐富的邊緣存在。針對此類本文圖像的特點,采取二值邊緣化法進行版面分析,此算法的步驟如下:
第一步,二值化后,利用canny算子進行邊緣檢測。
第二步,對邊緣點進行統(tǒng)計分析,繪出邊緣像素點統(tǒng)計直方圖。
第三步,根據(jù)統(tǒng)計直方圖,找出邊緣像素點較多的區(qū)域。
第四步,對邊緣像素點較多的區(qū)域,各個像素點的灰度值保持不變。
第五步,對邊緣像素點較少的區(qū)域,各個像素點的灰度值置0。
第六步,找出字符區(qū)域后,對字符區(qū)域進行分割從而劃分出字符區(qū)域。