一種單字區(qū)域的合并方法和裝置制造方法
【專利摘要】本發(fā)明實施例公開了單字區(qū)域的合并方法和裝置。其中,該方法包括:提取圖像中的連通分量,對所述連通分量進行合并,得到合并過程產(chǎn)生的多個合并區(qū)域;排列所述合并區(qū)域,得到至少一個文字行;統(tǒng)計所述文字行包含的合并區(qū)域的個數(shù),保留包含所述合并區(qū)域的個數(shù)最多的最大文字行,并刪除與之重疊的其他文字行,其中,所述最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。根據(jù)本發(fā)明實施例,可以解決現(xiàn)有技術(shù)中的合并不準確問題。
【專利說明】一種單字區(qū)域的合并方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像處理領(lǐng)域,特別是涉及一種單字區(qū)域的合并方法和裝置。【背景技術(shù)】
[0002]圖像中的文字識別技術(shù)有著廣泛的實際應(yīng)用,如掃描文檔的內(nèi)容識別或自動郵政編碼識別等。隨著數(shù)碼相機的推廣和互聯(lián)網(wǎng)技術(shù)的發(fā)展,在拍攝的圖像基礎(chǔ)上經(jīng)人工編輯后所生成的圖像越來越多,如圖1所示,這些人工編輯圖像通常有復(fù)雜的背景圖片、多變的前景顏色和紋理,為了識別這些復(fù)雜的人工編輯圖像中的文字,先需要進行文字區(qū)域的定位和切割,所謂的文字區(qū)域就是指上述人工編輯圖像中所有單字區(qū)域的集合,而此處中的“單字”為泛指,包括阿拉伯數(shù)字和各種語言中的文字,如,漢字或拉丁字母等。
[0003]在文字區(qū)域的定位和切割過程中,關(guān)鍵是要確定人工編輯圖像中的每個單字區(qū)域。在所有類型的單字中,漢字與拉丁字母相比,由于其是由多個偏旁部首(在圖論中,一個漢字中的多個偏旁部首即為多個互不連通的連通分量)組成的,具有更復(fù)雜的結(jié)構(gòu),因此,在確定一個漢字的區(qū)域時,就需要將原本屬于一個漢字的多個互不連通的連通分量進行組合,即,進行合并處理。與漢字區(qū)域情況相同,也需要進行合并處理的單字區(qū)域還包括有韓文字區(qū)域和日文字區(qū)域等。
[0004]現(xiàn)有合并單字區(qū)域的方法一般都是分析每個連通分量之間的間距以及位置關(guān)系,將符合特定間距閾值和特定位置關(guān)系的所有連通分量作為屬于一個單字區(qū)域的連通分量,并進行合并。在合并過程中,當被合并的連通分量的個數(shù)達到特定數(shù)量閾值時停止合并。
[0005]但是,在實現(xiàn)發(fā)明的過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn)現(xiàn)有的單字區(qū)域合并方法至少存在如下技術(shù)問題:由于每個單字區(qū)域包含的連通分量的個數(shù)不同,以及不同單字區(qū)域之間的間距也千差萬別,因此,無論如何選擇間距閾值或數(shù)量閾值,在合并過程中都容易產(chǎn)生將原本屬于一個單字區(qū)域的多個連通分量合并為多個單字區(qū)域的過分割問題,或?qū)⒃静粚儆谝粋€單字區(qū)域的連通分量也合并到該單字區(qū)域的過合并的問題。
【發(fā)明內(nèi)容】
[0006]為了解決上述技術(shù)問題,本發(fā)明實施例提供了一種單字區(qū)域的合并方法和裝置,以解決現(xiàn)有技術(shù)中的合并不準確問題。
[0007]本發(fā)明實施例公開公開了如下技術(shù)方案:
[0008]一種單字區(qū)域的合并方法,包括:
[0009]提取圖像中的連通分量,對所述連通分量進行合并,得到合并過程產(chǎn)生的多個合并區(qū)域;
[0010]排列所述合并區(qū)域,得到至少一個文字行;
[0011]統(tǒng)計所述文字行包含的合并區(qū)域的個數(shù),保留包含所述合并區(qū)域的個數(shù)最多的最大文字行,并刪除與之重疊的其他文字行,其中,所述最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
[0012]一種單字區(qū)域的合并裝置,包括:[0013]合并模塊,用于提取圖像中的連通分量,對所述連通分量進行合并,得到合并過程產(chǎn)生的多個合并區(qū)域;
[0014]文字行排列分析模塊,用于排列所述合并區(qū)域,得到至少一個文字行;
[0015]第一選擇模塊,用于統(tǒng)計所述文字行包含的合并區(qū)域的個數(shù),保留包含所述合并區(qū)域的個數(shù)最多的最大文字行,并刪除與之重疊的其他文字行,其中,所述最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
[0016]由上述實施例可以看出,人工編輯圖像中單字往往是有規(guī)則地排列成行,因此,如果合并的單字區(qū)域是正確的,該合并正確的單字區(qū)域與周圍的單字區(qū)域應(yīng)該大小相當,排列整齊,并能夠組成較長的文字行。相反,如果合并的單字區(qū)域合是錯誤的,產(chǎn)生了過分割或者過合并,該合并錯誤的單字區(qū)域與周圍的單字區(qū)域可組成一個較長的文字行的概率就會很小,因此,本發(fā)明實施例通過對所有合并區(qū)域進行文字行排列分析,得到文字行,從中選擇連通分量個數(shù)最多的文字行,即最長的文字行,而在該最長的文字行中的合并區(qū)域為合并正確的單字區(qū)域,從而解決了現(xiàn)有技術(shù)中的合并不準確問題。
【專利附圖】
【附圖說明】
[0017]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018]圖1為人工編輯圖像示意圖;
[0019]圖2為本發(fā)明實施例一揭示的一種單字區(qū)域的合并方法的方法流程圖;
[0020]圖3為圖論中的連通分量示意圖;
[0021]圖4為本發(fā)明實施例二揭示的一種單字區(qū)域的合并方法的方法流程圖;
[0022]圖5為合并的中間環(huán)節(jié)所產(chǎn)生的處于過分割狀態(tài)的合并區(qū)域示意圖;
[0023]圖6為本發(fā)明實施例三揭示的一種單字區(qū)域的合并方法的方法流程圖;
[0024]圖7為本發(fā)明實施四揭示的一種單字區(qū)域的合并裝置的裝置結(jié)構(gòu)圖;
[0025]圖8為本發(fā)明文字行排列分析模塊的結(jié)構(gòu)示意圖;
[0026]圖9為本發(fā)明合并模塊的結(jié)構(gòu)示意圖。
【具體實施方式】
[0027]本發(fā)明實施例提供了單字區(qū)域的合并方法和裝置。人工編輯圖像中單字往往是有規(guī)則地排列成行,因此,如果合并的單字區(qū)域是正確的,該合并正確的單字區(qū)域與周圍的單字區(qū)域應(yīng)該大小相當,排列整齊,并能夠組成較長的文字行。相反,如果合并的單字區(qū)域合是錯誤的,產(chǎn)生了過分割或者過合并,該合并錯誤的單字區(qū)域與周圍的單字區(qū)域可組成一個較長的文字行的概率就會很小,因此,本發(fā)明實施例通過對所有合并區(qū)域進行文字行排列分析,得到文字行,從中選擇連通分量個數(shù)最多的文字行,即最長的文字行,而在該最長的文字行中的合并區(qū)域為合并正確的單字區(qū)域。
[0028]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖對本發(fā)明實施例進行詳細描述。[0029]實施例一
[0030]請參閱圖2,其為本發(fā)明實施例一揭示的一種單字區(qū)域的合并方法的方法流程圖,該方法包括以下步驟:
[0031]步驟201:提取圖像中的連通分量,對所述連通分量進行合并,得到合并過程產(chǎn)生的多個合并區(qū)域;
[0032]如圖3所示,其為圖論中的連通分量示意圖,在圖論中,如果其中的任何兩個點之間都存在一條路徑,并且它們都不和子圖之外的點相連,這樣的子圖被稱為連通分量。例如,在圖1所示的人工編輯圖像中,“促銷”中的“促”和“銷售”分別為兩個單字區(qū)域,其中,“促”這個單字區(qū)域包括兩個連通分量:“彳”和“足”;“銷”這個單字區(qū)域包括兩個連通分量:“韋’’和“肖”。
[0033]本發(fā)明實施例對合并連通分量,得到合并區(qū)域的方法并不進行限定,可以采用現(xiàn)有技術(shù)中任意一種方法進行合并。
[0034]一種優(yōu)選的實現(xiàn)方法是:對人工編輯圖像中的連通分量進行兩兩比較,將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任意兩個連通分量進行合并,得到合并區(qū)域;將連通分量和每一次合并過程產(chǎn)生的合并區(qū)域作為合并對象,重復(fù)對合并對象進行兩兩比較,將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任何兩個合并對象進行合并,直到不能合并為止。
[0035]例如,為了方便描述,以人工編輯圖像中包含5個連通分量(連通分量1-5)為例,將5個連通分量進行兩兩比較,假設(shè)連通分量I和2符合包圍結(jié)構(gòu)關(guān)系,如圖4-1所示的“邊”、“區(qū)”和“圖”中的連通分量為包圍結(jié)構(gòu)關(guān)系,而連通分量3和4符合相鄰結(jié)構(gòu)關(guān)系,如圖4-2所示的“品”、“字”和“行”中的連通分量為相鄰結(jié)構(gòu)關(guān)系。在第一次合并過程中,將連通分量I和2合并為合并區(qū)域1,將連通分量3和4合并為合并區(qū)域2,。再繼續(xù)將連通分量1-5和合并區(qū)域1-2進行兩兩比較,假設(shè)合并區(qū)域I和連通分量5符合包圍結(jié)構(gòu)。在第二次合并過程中,將連通分量5和合并區(qū)域I合并為合并區(qū)域3。依次類推,直到不能再進行合并為止。最終,獲得每一次合并過程產(chǎn)生的合并區(qū)域:合并區(qū)域1、2和3。
[0036]優(yōu)選的,本發(fā)明可以但不限于采用如下方式對符合包圍結(jié)構(gòu)關(guān)系的兩個連通分量、一個連通分量與一個合并區(qū)域,或者兩個合并區(qū)域進行合并:
[0037]對于兩個連通分量,判斷兩個連通分量的擬合矩形之間的重疊面積與兩個連通分量的擬合矩形中面積最小的擬合矩形面積的比值是否大于第一預(yù)設(shè)倍數(shù),以及兩個連通分量的顏色和筆劃寬度是否接近,如果是,符合包圍結(jié)構(gòu)關(guān)系,否則,不符合包圍結(jié)構(gòu)關(guān)系。
[0038]對于一個連通分量與一個合并區(qū)域(合并對象),或者兩個合并區(qū)域(合并對象),判斷兩個合并對象的擬合矩形之間的重疊面積與兩個合并對象的擬合矩形中面積最小的擬合矩形面積的比值是否大于第一預(yù)設(shè)倍數(shù),以及兩個合并對象的顏色和筆劃是否接近,如果是,符合包圍結(jié)構(gòu)關(guān)系,否則,不符合包圍結(jié)構(gòu)關(guān)系。
[0039]優(yōu)選的,本發(fā)明可以但不限于采用如下方式對符合相鄰結(jié)構(gòu)關(guān)系的兩個連通分量、一個連通分量與一個合并區(qū)域,或者兩個合并區(qū)域進行合并:
[0040]對于兩個連通分量,判斷兩個連通分量的擬合矩形的寬度和與中心距離之間的比值是否大于第二預(yù)設(shè)倍數(shù),兩個連通分量的顏色和筆劃是否接近,以及合并后的區(qū)域的擬合矩形的長度與寬度的比值是否小于第三預(yù)設(shè)倍數(shù),如果是,符合相鄰結(jié)構(gòu)關(guān)系,否則,不符合相鄰結(jié)構(gòu)關(guān)系。[0041]對于一個連通分量與一個合并區(qū)域(合并對象),或者兩個合并區(qū)域(合并對象),判斷兩個合并對象的擬合矩形的寬度和與中心距離之間的比值是否大于第二預(yù)設(shè)倍數(shù),兩個合并對象的顏色和筆劃是否接近,以及合并后的區(qū)域的擬合矩形的長度與寬度的比值是否小于第三預(yù)設(shè)倍數(shù),如果是,符合相鄰結(jié)構(gòu)關(guān)系,否則,不符合相鄰結(jié)構(gòu)關(guān)系。
[0042]需要說明的是,本發(fā)明實施例對上述第一預(yù)設(shè)倍數(shù)、第二預(yù)設(shè)倍數(shù)和第三預(yù)設(shè)倍數(shù)的具體數(shù)值不進行限定,可以預(yù)先通過試驗,計算包圍結(jié)構(gòu)的單字中各連通分量的擬合矩形之間的重疊面積與各連通分量的擬合矩形中面積最小的擬合矩形面積的比值,并利用樣本統(tǒng)計方法確定一個平均比值,將該平均比值作為第一預(yù)設(shè)倍數(shù)。同理,還可以確定出第二預(yù)設(shè)倍數(shù)和第三預(yù)設(shè)倍數(shù)。
[0043]步驟202:排列所述合并區(qū)域,得到至少一個文字行;
[0044]本發(fā)明實施例可以采用現(xiàn)有技術(shù)中任何一種文字行排列分析方法對步驟201中獲得的合并區(qū)域進行文字行排列分析。
[0045]例如,現(xiàn)有技術(shù)中包括有基于投影和霍夫變換的文字行排列分析方法,這兩種方法都是基于區(qū)域的統(tǒng)計信息來獲得文字行排列信息。此外,現(xiàn)有技術(shù)中還包括有一種基于區(qū)域聚合的文字行排列分析方法,該類方法通常會定義同一行內(nèi)的區(qū)域與區(qū)域之間的相似關(guān)系,然后利用一種聚合方法向具有相似關(guān)系的區(qū)域聚合成一組,所形成的行為文字行。
[0046]步驟203:統(tǒng)計所述文字行包含的合并區(qū)域的個數(shù),保留包含所述合并區(qū)域的個數(shù)最多的最大文字行,并刪除與之重疊的其他文字行,其中,所述最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
[0047]在基于步驟202得到所有的文字行后,統(tǒng)計各個文字行中包含的合并區(qū)域的個數(shù),從中找出個數(shù)最多的文字行,即,最長的文字行,在該最長的文字行中的合并區(qū)域為合并正確的單字區(qū)域,同時,刪除與該最長的文字行有重疊的文字行,這些與最長的文字行有重疊的文字行中的合并區(qū)域即為由于過分割或者過合并而導(dǎo)致的錯誤的單字區(qū)域。
[0048]優(yōu)選的,所述方法還可以進一步包括:
[0049]步驟204:如果除所述最大文字行和與所述最大文字行重疊的文字行之外還有剩余的文字行,從所述剩余的文字行中繼續(xù)保留下一個最大文字行,并刪除與之重疊的其他文字行,以此類推,直到無最大文字行可保留為止;
[0050]其中,所述每次保留的最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
[0051]按照上面相同的方法,從除上面選擇出的文字行之外的剩余所有文字行中,再找出個數(shù)最多的文字行,依次類推,直到?jīng)]有可選擇的文字行為止。
[0052]由上述實施例可以看出,人工編輯圖像中單字往往是有規(guī)則地排列成行,因此,如果合并的單字區(qū)域是正確的,該合并正確的單字區(qū)域與周圍的單字區(qū)域應(yīng)該大小相當,排列整齊,并能夠組成較長的文字行。相反,如果合并的單字區(qū)域合是錯誤的,產(chǎn)生了過分割或者過合并,該合并錯誤的單字區(qū)域與周圍的單字區(qū)域可組成一個較長的文字行的概率就會很小,因此,本發(fā)明實施例通過對所有合并區(qū)域進行文字行排列分析,得到文字行,從中選擇連通分量個數(shù)最多的文字行,即最長的文字行,而在該最長的文字行中的合并區(qū)域為合并正確的單字區(qū)域,從而解決了現(xiàn)有技術(shù)中的合并不準確問題。
[0053]另外,還需要特別強調(diào)一種常見的跨行過合并情況,由于行間距很小,相鄰的多行文字被跨行過合并為一個文字區(qū)域。在這種情況下,盡管過合并的區(qū)域也能形成較長的行,但是由于過合并的存在,其包含的合并區(qū)域的個數(shù)必然會小于正確的行中合并區(qū)域的個數(shù),按照本發(fā)明的策略,仍然會選擇正確合并的行。因此,本發(fā)明也能夠很好地解決這一類跨行過合并的問題。
[0054]實施例二
[0055]在進行文字行排列分析得到文字行時,由于被處理對象是每一次合并過程產(chǎn)生的合并區(qū)域,而每一次合并過程產(chǎn)生的合并區(qū)域本身就會包括有大量的處于過分割狀態(tài)的合并區(qū)域(在完成最后一次合并之前的中間環(huán)節(jié)所產(chǎn)生的合并區(qū)域),利用在合并的中間環(huán)節(jié)所產(chǎn)生的這些處于過分割狀態(tài)的合并區(qū)域進行文字行排列分析,必然會影響文字行排列分析的準確性以及執(zhí)行效率。為了解決該問題,本實施例二與實施例一的區(qū)別在于,在對合并區(qū)域進行文字行排列分析過程中,不對上述處于過分割狀態(tài)的合并區(qū)域進行文字行排列分析處理。請參閱圖4,其為本發(fā)明實施例二揭示的一種單字區(qū)域的合并方法的方法流程圖,該方法包括以下步驟:
[0056]步驟401:提取圖像中的連通分量,對所述連通分量進行合并,得到合并過程產(chǎn)生的多個合并區(qū)域;
[0057]該步驟的具體實現(xiàn)過程可以參見實施例一中的步驟201,由于在實施例一中進行了詳細地描述,故此處不再贅述。
[0058]步驟402:獲取第一合并區(qū)域集合,所述第一合并區(qū)域集合包括至少兩個具有相同連通分量的合并區(qū)域,基于所述第一合并區(qū)域集合中包含連通分量個數(shù)最多的合并區(qū)域提取文字行,獲取第二合并區(qū)域集合,所述第二合并區(qū)域集合包括至少一個不具有相同連通分量的合并區(qū)域,基于所述第二合并區(qū)域集合中的合并區(qū)域提取文字行;
[0059]例如,在對“品”字中的三個連通分量“ 口 ”進行合并時,會產(chǎn)生三種合并區(qū)域(1、2和3),如圖5所示。其中的兩種合并區(qū)域(I和2)是在合并的中間環(huán)節(jié)所產(chǎn)生的處于過分割狀態(tài)的合并區(qū)域,各包含有兩個連通分量,合并區(qū)域3為合并的最后環(huán)節(jié)所產(chǎn)生的正確的合并區(qū)域,包含有三個連通分量。上述三個合并區(qū)域在大小和排列上都與周圍的文字接近,因此,在文字行排列分析時,這三個合并區(qū)域都會被提取在同一個文字行上,這不僅會影響文字行排列分析的準確性以及執(zhí)行效率,并且,也會影響文字行中包含的合并區(qū)域的個數(shù),即,使提取出的文字行中包含的合并區(qū)域的個數(shù)比實際個數(shù)要多出2個,而文字行中包含的合并區(qū)域的個數(shù)是最后決定文字行是否保留的依據(jù),影響文字行中包含的合并區(qū)域的個數(shù)最終還會影響到合并單字區(qū)域的準確性。
[0060]從圖5中可以發(fā)現(xiàn),三種合并區(qū)域都包含相同的連通分量,且包含連通分量個數(shù)最多的合并區(qū)域為合并的最后環(huán)節(jié)所產(chǎn)生的正確的合并區(qū)域。因此,在所有的合并區(qū)域中,如果存在某幾個合并區(qū)域包含相同的連通分量,則在這幾個合并區(qū)域中,連通分量個數(shù)最多合并區(qū)域為合并的最后環(huán)節(jié)所產(chǎn)生的正確的合并區(qū)域,其余的合并區(qū)域為處于過分割狀態(tài)的合并區(qū)域,基于連通分量個數(shù)最多合并區(qū)域提取行,從而不對處于過分割狀態(tài)的合并區(qū)域進行文字行排列分析處理。
[0061]需要說明的是,采用的文字行排列分析的方法不同,基于所述第一合并區(qū)域集合中包含連通分量個數(shù)最多的合并區(qū)域提取文字行的方法也不同。
[0062]優(yōu)選的,當采用基于霍夫變換的文字行排列分析方法時,將所述第一合并區(qū)域集合中各合并區(qū)域之間的直線關(guān)系設(shè)置為不可計算,從對合并區(qū)域進行文字行排列分析得到的文字行中查找所述第一合并區(qū)域集合;在查找的所述第一合并區(qū)域集合中保留連通分量個數(shù)最多的合并區(qū)域,去除其它的合并區(qū)域。
[0063]或者,優(yōu)選的,當采用基于區(qū)域聚合的文字行排列分析方法時,在各合并區(qū)域權(quán)重的權(quán)重因子中增加合并區(qū)域包含的連通分量個數(shù);將所述第一合并區(qū)域集合中各合并區(qū)域之間的權(quán)重設(shè)置為O。
[0064]步驟403:統(tǒng)計所述文字行包含的合并區(qū)域的個數(shù),保留包含所述合并區(qū)域的個數(shù)最多的最大文字行,并刪除與之重疊的其他文字行,其中,所述最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
[0065]該步驟的具體實現(xiàn)過程可以參見實施例一中的步驟203,由于在實施例一中進行了詳細地描述,故此處不再贅述。
[0066]由上述實施例可以看出,除了具有實施例一中的技術(shù)效果之外,由于本實施例在對合并區(qū)域進行文字行排列分析過程中,不對上述處于過分割狀態(tài)的合并區(qū)域進行文字行排列分析處理,因此,進一步提高了文字行排列分析的準確性。
[0067]實施例三
[0068]下面以采用區(qū)域聚合方法進行文字行排列分析為例,詳細說明一種單字區(qū)域進行合并的方法。請參閱圖6,其為本發(fā)明實施例三揭示的一種單字區(qū)域的合并方法的方法流程圖,該方法包括以下步驟:
[0069]步驟601:對人工編輯圖像中的所有連通分量進行兩兩比較,將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任意兩個連通分量進行合并,得到合并區(qū)域;
[0070]步驟602:將所有連通分量和每一次合并過程產(chǎn)生的合并區(qū)域作為合并對象,重復(fù)對合并對象進行兩兩比較,將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任何兩個合并對象進行合并,直到不能合并為止;
[0071]步驟603:在采用基于區(qū)域聚合的文字行排列分析方法時,在各合并區(qū)域權(quán)重的權(quán)重因子中增加合并區(qū)域包含的連通分量個數(shù),將包含相同連通分量的各合并區(qū)域之間的權(quán)重設(shè)置為0,得到文字行;
[0072]例如,按照現(xiàn)有的基于區(qū)域聚合的文字行排列分析方法,合并區(qū)域R的舊權(quán)重為W,在權(quán)重因子中增加合并區(qū)域包含的連通分量個數(shù)后,合并區(qū)域R的新權(quán)重為W+kn,其中,k是一個常數(shù),η則為合并區(qū)域R包含的連通分量的個數(shù)。按照現(xiàn)有的基于區(qū)域聚合的文字行排列分析方法,合并區(qū)域Rl和R2之間的舊權(quán)重(一般表不屬于同一行的概率)為W,則新權(quán)重為W+knl+kn2,其中,k是一個常數(shù),nl則為合并區(qū)域Rl包含的連通分量的個數(shù),n2則為合并區(qū)域R2包含的連通分量的個數(shù)。如,在基于貪心算法的最大團提取方法中,挑選匹配對(圖中的頂點)的權(quán)重是該頂點相連的邊的個數(shù)N,而新的權(quán)重則可設(shè)置為N+knl+kn2, nl和n2分別是匹配對中的合并區(qū)域包含的連通分量的個數(shù)。
[0073]步驟604:從除已經(jīng)選擇出的文字行之外的所有文字行中,循環(huán)選擇包含合并區(qū)域的個數(shù)最多的文字行,刪除與所述文字行有重疊的文字行,其中,選擇出的文字行中包含的合并區(qū)域為合并的單字區(qū)域。
[0074]由上述實施例可以看出,人工編輯圖像中單字往往是有規(guī)則地排列成行,因此,如果合并的單字區(qū)域是正確的,該合并正確的單字區(qū)域與周圍的單字區(qū)域應(yīng)該大小相當,排列整齊,并能夠組成較長的文字行。相反,如果合并的單字區(qū)域合是錯誤的,產(chǎn)生了過分割或者過合并,該合并錯誤的單字區(qū)域與周圍的單字區(qū)域可組成一個較長的文字行的概率就會很小,因此,本發(fā)明實施例通過對所有合并區(qū)域進行文字行排列分析,得到文字行,從中選擇連通分量個數(shù)最多的文字行,即最長的文字行,而在該最長的文字行中的合并區(qū)域為合并正確的單字區(qū)域,從而解決了現(xiàn)有技術(shù)中的合并不準確問題。
[0075]另外,還需要特別強調(diào)一種常見的跨行過合并情況,由于行間距很小,相鄰的多行文字被跨行過合并為一個文字區(qū)域。在這種情況下,盡管過合并的區(qū)域也能形成較長的行,但是由于過合并的存在,其包含的合并區(qū)域的個數(shù)必然會小于正確的行中合并區(qū)域的個數(shù),按照本發(fā)明的策略,仍然會選擇正確合并的行。因此,本發(fā)明也能夠很好地解決這一類跨行過合并的問題。
[0076]實施例四
[0077]與上述一種單字區(qū)域的合并方法相對應(yīng),本發(fā)明實施例還提供了一種單字區(qū)域的合并裝置。請參閱圖7,其為本發(fā)明實施四揭示的一種單字區(qū)域的合并裝置的裝置結(jié)構(gòu)圖,該裝置包括:合并模塊701、文字行排列分析模塊702和選擇模塊703。下面結(jié)合該裝置的工作原理進一步介紹其內(nèi)部結(jié)構(gòu)以及連接關(guān)系。
[0078]合并模塊701,用于提取圖像中的連通分量,對所述連通分量進行合并,得到合并過程產(chǎn)生的多個合并區(qū)域;
[0079]文字行排列分析模塊702,用于排列所述合并區(qū)域,得到至少一個文字行;
[0080]第一選擇模塊703,用于統(tǒng)計所述文字行包含的合并區(qū)域的個數(shù),保留包含所述合并區(qū)域的個數(shù)最多的最大文字行,并刪除與之重疊的其他文字行,其中,所述最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
[0081]優(yōu)選的,圖7所示的裝置還可以進一步包括:循環(huán)選擇模塊,用于如果除所述最大文字行和與所述最大文字行重疊的文字行之外還有剩余的文字行,從所述剩余的文字行中繼續(xù)保留下一個最大文字行,并刪除與之重疊的其他文字行,以此類推,直到無最大文字行可保留為止;
[0082]其中,所述每次保留的最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
[0083]優(yōu)選的,如圖8所示,文字行排列分析模塊702進一步包括:第一行提取子模塊7021和第二行提取子模塊7022,其中,
[0084]第一行提取子模塊7021,用于獲取第一合并區(qū)域集合,所述第一合并區(qū)域集合包括至少兩個具有相同連通分量的合并區(qū)域,基于所述第一合并區(qū)域集合中包含連通分量個數(shù)最多的合并區(qū)域提取文字行;
[0085]第二行提取子模塊7022,用于獲取第二合并區(qū)域集合,所述第二合并區(qū)域集合包括至少一個不具有相同連通分量的合并區(qū)域,基于所述第二合并區(qū)域集合中的合并區(qū)域提取文字行。
[0086]進一步優(yōu)選的,第一行提取子模塊7021包括:
[0087]第一互斥條件設(shè)置子模塊,用于當采用基于霍夫變換的文字行排列分析方法時,將所述第一合并區(qū)域集合中各合并區(qū)域之間的直線關(guān)系設(shè)置為不可計算,從對合并區(qū)域進行文字行排列分析得到的文字行中查找所述第一合并區(qū)域集合;
[0088]行選擇子模塊,用于在查找的所述第一合并區(qū)域集合中保留包含連通分量個數(shù)最多的合并區(qū)域,去除其它的合并區(qū)域。[0089]或者,進一步優(yōu)選的,第一行提取子模塊7021包括:
[0090]權(quán)重因子設(shè)置子單元,用于當采用基于區(qū)域聚合的文字行排列分析方法時,在各合并區(qū)域權(quán)重的權(quán)重因子中增加合并區(qū)域包含的連通分量個數(shù);
[0091]第二互斥條件設(shè)置子模塊,用于當采用基于區(qū)域聚合的文字行排列分析方法時,將所述包含相同連通分量的合并區(qū)域之間的權(quán)重設(shè)置為O。
[0092]優(yōu)選的,如圖9所示,合并模塊701包括:連通分量合并子模塊7011和合并對象合并子模塊7012,其中,
[0093]連通分量合并子模塊7011,用于對人工編輯圖像中的連通分量進行兩兩比較,將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任意兩個連通分量進行合并,得到合并區(qū)域;
[0094]進一步優(yōu)選的,連通分量合并子模塊包括:第一判斷子模塊,用于判斷兩個連通分量的擬合矩形之間的重疊面積與兩個連通分量的擬合矩形中面積最小的擬合矩形面積的比值是否大于第一預(yù)設(shè)倍數(shù),以及兩個連通分量的顏色和筆劃寬度是否接近,如果是,符合包圍結(jié)構(gòu)關(guān)系,否則,不符合包圍結(jié)構(gòu)關(guān)系;和,第二判斷子模塊,用于判斷兩個連通分量的擬合矩形的寬度和與中心距離之間的比值是否大于第二預(yù)設(shè)倍數(shù),兩個連通分量的顏色和筆劃是否接近,以及合并后的區(qū)域的擬合矩形的長度與寬度的比值是否小于第三預(yù)設(shè)倍數(shù),如果是,符合相鄰結(jié)構(gòu)關(guān)系,否則,不符合相鄰結(jié)構(gòu)關(guān)系。
[0095]合并對象合并子模塊7012,用于將連通分量和每一次合并過程產(chǎn)生的合并區(qū)域作為合并對象,重復(fù)對合并對象進行兩兩比較,將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任何兩個合并對象進行合并,直到不能合并為止。
[0096]進一步優(yōu)選的,合并對象合并子模塊7012包括:第三判斷子模塊,用于判斷兩個合并對象的擬合矩形之間的重疊面積與兩個合并對象的擬合矩形中面積最小的擬合矩形面積的比值是否大于第一預(yù)設(shè)倍數(shù),以及兩個合并對象的顏色和筆劃寬度是否接近,如果是,符合包圍結(jié)構(gòu)關(guān)系,否則,不符合包圍結(jié)構(gòu)關(guān)系;和,第四判斷子模塊,用于判斷兩個合并對象的擬合矩形的寬度和與中心距離之間的比值是否大于第二預(yù)設(shè)倍數(shù),兩個合并對象的顏色和筆劃是否接近,以及合并后的區(qū)域的擬合矩形的長度與寬度的比值是否小于第三預(yù)設(shè)倍數(shù),如果是,符合相鄰結(jié)構(gòu)關(guān)系,否則,不符合相鄰結(jié)構(gòu)關(guān)系。
[0097]由上述實施例可以看出,人工編輯圖像中單字往往是有規(guī)則地排列成行,因此,如果合并的單字區(qū)域是正確的,該合并正確的單字區(qū)域與周圍的單字區(qū)域應(yīng)該大小相當,排列整齊,并能夠組成較長的文字行。相反,如果合并的單字區(qū)域合是錯誤的,產(chǎn)生了過分割或者過合并,該合并錯誤的單字區(qū)域與周圍的單字區(qū)域可組成一個較長的文字行的概率就會很小,因此,本發(fā)明實施例通過對所有合并區(qū)域進行文字行排列分析,得到文字行,從中選擇連通分量個數(shù)最多的文字行,即最長的文字行,而在該最長的文字行中的合并區(qū)域為合并正確的單字區(qū)域,從而解決了現(xiàn)有技術(shù)中的合并不準確問題。
[0098]另外,還需要特別強調(diào)一種常見的跨行過合并情況,由于行間距很小,相鄰的多行文字被跨行過合并為一個文字區(qū)域。在這種情況下,盡管過合并的區(qū)域也能形成較長的行,但是由于過合并的存在,其包含的合并區(qū)域的個數(shù)必然會小于正確的行中合并區(qū)域的個數(shù),按照本發(fā)明的策略,仍然會選擇正確合并的行。因此,本發(fā)明也能夠很好地解決這一類跨行過合并的問題。
[0099]需要說明的是,本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random AccessMemory, RAM)等。
[0100]以上對本發(fā)明所提供的一種單字區(qū)域的合并方法和裝置進行了詳細介紹,本文中應(yīng)用了具體實施例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【權(quán)利要求】
1.一種單字區(qū)域的合并方法,其特征在于,包括: 提取圖像中的連通分量,對所述連通分量進行合并,得到合并過程產(chǎn)生的多個合并區(qū)域; 排列所述合并區(qū)域,得到至少一個文字行; 統(tǒng)計所述文字行包含的合并區(qū)域的個數(shù),保留包含所述合并區(qū)域的個數(shù)最多的最大文字行,并刪除與之重疊的其他文字行,其中,所述最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 如果除所述最大文字行和與所述最大文字行重疊的文字行之外還有剩余的文字行,從所述剩余的文字行中繼續(xù)保留下一個最大文字行,并刪除與之重疊的其他文字行,以此類推,直到無最大文字行可保留為止; 其中,所述每次保留的最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述排列所述合并區(qū)域,得到至少一個文字行,包括: 獲取第一合并區(qū)域集合,所述第一合并區(qū)域集合包括至少兩個具有相同連通分量的合并區(qū)域,基于所述第一合并區(qū)域集合中包含連通分量個數(shù)最多的合并區(qū)域提取文字行; 獲取第二合并區(qū)域集合,所述第二合并區(qū)域集合包括至少一個不具有相同連通分量的合并區(qū)域,基于所述第二合并區(qū)域集合中的合并區(qū)域提取文字行。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述獲取第一合并區(qū)域集合,所述第一合并區(qū)域集合包括至少兩個具有相同連通分量的合并區(qū)域,基于所述第一合并區(qū)域集合中包含連通分量個數(shù)最多的合并區(qū)域提取文字行,包括: 當采用基于霍夫變換的文字行排列分析方法時,將所述第一合并區(qū)域集合中各合并區(qū)域之間的直線關(guān)系設(shè)置為不可計算,從對合并區(qū)域進行文字行排列分析得到的文字行中查找所述第一合并區(qū)域集合; 在查找的所述第一合并區(qū)域集合中保留連通分量個數(shù)最多的合并區(qū)域,去除其它的合并區(qū)域。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述獲取第一合并區(qū)域集合,所述第一合并區(qū)域集合包括至少兩個具有相同連通分量的合并區(qū)域,基于所述第一合并區(qū)域集合中包含連通分量個數(shù)最多的合并區(qū)域提取文字行,包括: 當采用基于區(qū)域聚合的文字行排列分析方法時,在各合并區(qū)域權(quán)重的權(quán)重因子中增加合并區(qū)域包含的連通分量個數(shù); 將所述第一合并區(qū)域集合中各合并區(qū)域之間的權(quán)重設(shè)置為O。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取圖像中的連通分量,對所述連通分量進行合并,得到合并過程產(chǎn)生的多個合并區(qū)域,包括: 對提取的連通分量進行兩兩比較,將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任意兩個連通分量進行合并,得到合并區(qū)域; 將連通分量和合并過程產(chǎn)生的所述合并區(qū)域作為合并對象,重復(fù)對合并對象進行兩兩比較,將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任何兩個合并對象進行合并,直到不能合并為止。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任意兩個連通分量進行合并,包括: 判斷兩個連通分量的擬合矩形之間的重疊面積與兩個連通分量的擬合矩形中面積最小的擬合矩形面積的比值是否大于第一預(yù)設(shè)倍數(shù),以及兩個連通分量的顏色和筆劃寬度是否接近,如果是,符合包圍結(jié)構(gòu)關(guān)系,否則,不符合包圍結(jié)構(gòu)關(guān)系; 判斷兩個連通分量的擬合矩形的寬度和與中心距離之間的比值是否大于第二預(yù)設(shè)倍數(shù),兩個連通分量的顏色和筆劃是否接近,以及合并后的區(qū)域的擬合矩形的長度與寬度的比值是否小于第三預(yù)設(shè)倍數(shù),如果是,符合相鄰結(jié)構(gòu)關(guān)系,否則,不符合相鄰結(jié)構(gòu)關(guān)系。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述將符合相鄰結(jié)構(gòu)關(guān)系的兩個合并對象進行合并,包括: 判斷兩個合并對象的擬合矩形之間的重疊面積與兩個合并對象的擬合矩形中面積最小的擬合矩形面積的比值是否大于第一預(yù)設(shè)倍數(shù),以及兩個合并對象的顏色和筆劃寬度是否接近,如果是,符合包圍結(jié)構(gòu)關(guān)系,否則,不符合包圍結(jié)構(gòu)關(guān)系; 判斷兩個合并對象的擬合矩形的寬度和與中心距離之間的比值是否大于第二預(yù)設(shè)倍數(shù),兩個合并對象的顏色和筆劃是否接近,以及合并后的區(qū)域的擬合矩形的長度與寬度的比值是否小于第三預(yù)設(shè)倍數(shù),如果是,符合相鄰結(jié)構(gòu)關(guān)系,否則,不符合相鄰結(jié)構(gòu)關(guān)系。
9.一種單字區(qū)域的合并裝置,其特征在于,包括: 合并模塊,用于提取圖像中的連通分量,對所述連通分量進行合并,得到合并過程產(chǎn)生的多個合并區(qū)域; 文字行排列分析模塊,用于排列所述合并區(qū)域,得到至少一個文字行; 第一選擇模塊,用于統(tǒng)計所述文字行包含的合并區(qū)域的個數(shù),保留包含所述合并區(qū)域的個數(shù)最多的最大文字行,并刪除與之重疊的其他文字行,其中,所述最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括: 循環(huán)選擇模塊,用于如果除所述最大文字行和與所述最大文字行重疊的文字行之外還有剩余的文字行,從所述剩余的文字行中繼續(xù)保留下一個最大文字行,并刪除與之重疊的其他文字行,以此類推,直到無最大文字行可保留為止; 其中,所述每次保留的最大文字行中所包含的所述合并區(qū)域為所述單字區(qū)域。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述文字行排列分析模塊包括: 第一行提取子模塊,用于獲取第一合并區(qū)域集合,所述第一合并區(qū)域集合包括至少兩個具有相同連通分量的合并區(qū)域,基于所述第一合并區(qū)域集合中包含連通分量個數(shù)最多的合并區(qū)域提取文字行; 第二行提取子模塊,用于獲取第二合并區(qū)域集合,所述第二合并區(qū)域集合包括至少一個不具有相同連通分量的合并區(qū)域,基于所述第二合并區(qū)域集合中的合并區(qū)域提取文字行。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第一行提取子模塊包括: 第一互斥條件設(shè)置子模塊,用于當采用基于霍夫變換的文字行排列分析方法時,將所述第一合并區(qū)域集合中各合并區(qū)域之間的直線關(guān)系設(shè)置為不可計算,從對合并區(qū)域進行文字行排列分析得到的文字行中查找所述第一合并區(qū)域集合;行選擇子模塊,用于在查找的所述第一合并區(qū)域集合中保留連通分量個數(shù)最多的合并區(qū)域,去除其它的合并區(qū)域。
13.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第一行提取子模塊包括: 權(quán)重因子設(shè)置子單元,用于當采用基于區(qū)域聚合的文字行排列分析方法時,在各合并區(qū)域權(quán)重的權(quán)重因子中增加合并區(qū)域包含的連通分量個數(shù); 第二互斥條件設(shè)置子模塊,用于當采用基于區(qū)域聚合的文字行排列分析方法時,將所述包含相同連通分量的合并區(qū)域之間的權(quán)重設(shè)置為O。
14.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述合并模塊包括: 連通分量合并子模塊,用于對人工編輯圖像中的連通分量進行兩兩比較,將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任意兩個連通分量進行合并,得到合并區(qū)域; 合并對象合并子模塊,用于將連通分量和每一次合并過程產(chǎn)生的合并區(qū)域作為合并對象,重復(fù)對合并對象進行兩兩比較,將符合包圍結(jié)構(gòu)關(guān)系和相鄰結(jié)構(gòu)關(guān)系的任何兩個合并對象進行合并,直到不能合并為止。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述連通分量合并子模塊包括: 第一判斷子模塊,用于判斷兩個連通分量的擬合矩形之間的重疊面積與兩個連通分量的擬合矩形中面積最小的擬合矩形面積的比值是否大于第一預(yù)設(shè)倍數(shù),以及兩個連通分量的顏色和筆劃寬度是否接近,如果是,符合包圍結(jié)構(gòu)關(guān)系,否則,不符合包圍結(jié)構(gòu)關(guān)系; 第二判斷子模塊,用于判斷兩個連通分量的擬合矩形的寬度和與中心距離之間的比值是否大于第二預(yù)設(shè)倍數(shù),兩個連通分量的顏色和筆劃是否接近,以及合并后的區(qū)域的擬合矩形的長度與寬度的比值是否小于第三預(yù)設(shè)倍數(shù),如果是,符合相鄰結(jié)構(gòu)關(guān)系,否則,不符合相鄰結(jié)構(gòu)關(guān)系。
16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述合并對象合并子模塊包括: 第三判斷子模塊,用于判斷兩個合并對象的擬合矩形之間的重疊面積與兩個合并對象的擬合矩形中面積最小的擬合矩形面積的比值是否大于第一預(yù)設(shè)倍數(shù),以及兩個合并對象的顏色和筆劃寬度是否接近,如果是,符合包圍結(jié)構(gòu)關(guān)系,否則,不符合包圍結(jié)構(gòu)關(guān)系; 第四判斷子模塊,用于判斷兩個合并對象的擬合矩形的寬度和與中心距離之間的比值是否大于第二預(yù)設(shè)倍數(shù),兩個合并對象的顏色和筆劃是否接近,以及合并后的區(qū)域的擬合矩形的長度與寬度的比值是否小于第三預(yù)設(shè)倍數(shù),如果是,符合相鄰結(jié)構(gòu)關(guān)系,否則,不符合相鄰結(jié)構(gòu)關(guān)系。
【文檔編號】G06K9/20GK103839060SQ201210486972
【公開日】2014年6月4日 申請日期:2012年11月26日 優(yōu)先權(quán)日:2012年11月26日
【發(fā)明者】鄭琪, 王永攀 申請人:阿里巴巴集團控股有限公司