專利名稱:一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)圖像處理技術(shù)領(lǐng)域,尤其涉及ー種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法及系統(tǒng)。
背景技術(shù):
在文檔圖像數(shù)字化的過(guò)程中,需要對(duì)公式進(jìn)行處理?,F(xiàn)有的操作方式是由人工對(duì)公式區(qū)域進(jìn)行標(biāo)記,然后以圖片的形式貼到對(duì)應(yīng)的數(shù)字化版面中。由于科技文獻(xiàn)和技術(shù)文檔中往往存在著大量的數(shù)學(xué)公式,而數(shù)學(xué)公式又是ー種非常復(fù)雜的文檔結(jié)構(gòu),在目前的數(shù)字化加工流程中主要采取手工方式對(duì)公式區(qū)域進(jìn)行標(biāo)記。這不僅帶來(lái)人力成本的劇增,而且會(huì)導(dǎo)致整個(gè)加工流程受到公式的制約導(dǎo)致效率低下,會(huì)影響到整個(gè)數(shù)字化的加工流程。目前國(guó)內(nèi)有部分專利涉及幾種公式區(qū)域檢測(cè)方法,具體如下(1)中國(guó)專利申請(qǐng) 《中文印刷體公式識(shí)別方法》(申請(qǐng)?zhí)?00710144588. 8,
公開(kāi)日期2008年3月沈日)公開(kāi)的方法是利用OCR對(duì)各個(gè)字符進(jìn)行識(shí)別,將拒識(shí)區(qū)域標(biāo)記為公式。該方法的缺點(diǎn)是檢測(cè)的精度和效率主要依賴于漢字識(shí)別模塊的識(shí)別率和識(shí)別速度。(2)中國(guó)專利申請(qǐng)《圖像中數(shù)學(xué)公式的自動(dòng)識(shí)別方法》(申請(qǐng)?zhí)?00810053443. 1,
公開(kāi)日期2008年12月M日)公開(kāi)的方法是將公式分為獨(dú)立行公式和內(nèi)嵌公式兩種,并且利用不同的方法進(jìn)行分別提取。其中獨(dú)立公式行通過(guò)parzen windown的方法實(shí)現(xiàn),內(nèi)嵌公式通過(guò)ニ維特征和識(shí)別特征進(jìn)行提取, 該方法提取了多個(gè)特征,算法復(fù)雜度較高。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中所存在的不足,本發(fā)明提出了ー種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法及系統(tǒng),大大提高文檔圖像數(shù)字化加工流程的效率。本發(fā)明解決上述技術(shù)問(wèn)題所采用的技術(shù)方案如下所描述ー種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,包括以下步驟(1)對(duì)文檔圖像進(jìn)行ニ值化,得到ニ值圖像;(2)對(duì)ニ值圖像進(jìn)行連通區(qū)域標(biāo)記;(3)對(duì)文檔圖像進(jìn)行成行處理;(4)對(duì)行內(nèi)的連通域逐個(gè)進(jìn)行處理,記錄其鄰域信息編碼并分析是否為異常區(qū)域;(5)對(duì)行內(nèi)所有連通域的編碼進(jìn)行直方圖統(tǒng)計(jì),并將直方圖進(jìn)行歸ー化,然后與不包含公式的文本圖像的歸ー化編碼直方圖進(jìn)行對(duì)比,計(jì)算兩個(gè)直方圖的距離,如果距離超過(guò)閾值T,該行就為可疑的復(fù)雜公式區(qū)域;(6)對(duì)可疑行進(jìn)行進(jìn)一歩判斷,區(qū)分獨(dú)立行公式和行內(nèi)公式。進(jìn)一歩,步驟2中,在對(duì)ニ值圖像進(jìn)行連通區(qū)域標(biāo)記后,如果初始連通域中存在包含、相交關(guān)系,則合并初始連通域中的包含、相交關(guān)系。進(jìn)一歩,步驟4中,判斷一個(gè)連通域是否為異常區(qū)域的方法如下
1)設(shè)當(dāng)前處理的連通域?yàn)镃,對(duì)當(dāng)前處理的連通域的周?chē)徲蜻M(jìn)行劃分并標(biāo)號(hào), 將其周?chē)徲騽澐譃?個(gè)區(qū)域,分別標(biāo)記為0-7,每個(gè)區(qū)域?qū)?yīng)ー個(gè)1位ニ進(jìn)制碼,將每個(gè)碼均初始化為0 ;2)尋找與其直接相鄰的連通域,設(shè)置8個(gè)區(qū)域的編碼,如果區(qū)域中存在與其直接相鄰的其他連通域,則將該區(qū)域的編碼設(shè)置為1 ;3)構(gòu)造字符鄰域模板表達(dá)式,獲得每個(gè)連通域鄰域信息的編碼,將區(qū)域0-7的編碼按照從右至左的順序排列組成一個(gè)ニ進(jìn)制序列,然后將該ニ進(jìn)制序列轉(zhuǎn)換為十進(jìn)制,則得到該連通域的鄰域信息編碼;4)標(biāo)記異常連通域。更進(jìn)一歩,步驟4)中,編碼0、1、16、17代表正常字符之間的相鄰關(guān)系,編碼2、8、9、 18代表普通字符和標(biāo)點(diǎn)相鄰的情況,將編碼不是以上數(shù)值的連通域標(biāo)記為異常連通域。進(jìn)一歩,步驟5中,根據(jù)語(yǔ)種與不包含公式的相同語(yǔ)種的文本圖像的歸ー化編碼直方圖進(jìn)行對(duì)比,計(jì)算兩個(gè)直方圖的距離采用歐式距離或余弦距離。進(jìn)一歩,所述閾值T的取值范圍為W. 1,0.8],優(yōu)選為0.3。進(jìn)一歩,步驟6中,如果行內(nèi)異常區(qū)域的比例大于吋,就為獨(dú)立行公式,否則為行內(nèi)公式,所述的N%取值范圍為
,優(yōu)選為0. 85。進(jìn)一歩,步驟6中,根據(jù)步驟5中計(jì)算出的距離進(jìn)行區(qū)分,對(duì)于行內(nèi)公式的標(biāo)定采用計(jì)算機(jī)輔助標(biāo)定和人工手動(dòng)標(biāo)定相結(jié)合的方式進(jìn)行。本發(fā)明還提供了ー種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)系統(tǒng),包括以下裝置圖像ニ值化裝置用于對(duì)文檔圖像進(jìn)行ニ值化,得到ニ值圖像;連通區(qū)域標(biāo)記裝置用于對(duì)ニ值圖像進(jìn)行連通區(qū)域標(biāo)記;成行處理裝置用于對(duì)文檔圖像進(jìn)行成行處理;連通域處理裝置用于對(duì)行內(nèi)的連通域逐個(gè)進(jìn)行處理,記錄其鄰域信息編碼并分析是否為異常區(qū)域;公式區(qū)域判斷裝置用于對(duì)行內(nèi)所有連通域的編碼進(jìn)行直方圖統(tǒng)計(jì),并將直方圖進(jìn)行歸一化,然后與不包含公式的歸ー化文本圖像的編碼直方圖進(jìn)行對(duì)比,計(jì)算兩個(gè)直方圖的距離,如果距離超過(guò)閾值T,該行就為可疑的復(fù)雜公式區(qū)域,所述閾值T的取值范圍為
;公式判斷裝置用于對(duì)可疑行進(jìn)行進(jìn)一歩判斷,區(qū)分獨(dú)立行公式和行內(nèi)公式。本發(fā)明的效果在于連通域鄰域信息編碼方法可以有效的區(qū)分公式和普通文本, 并且計(jì)算簡(jiǎn)単,效果顯著。與專利《中文印刷體公式識(shí)別方法》(申請(qǐng)?zhí)?00710144588. 8) 相比,該方法不需要依賴OCR引擎,并且速度快,效率高;與專利《圖像中數(shù)學(xué)公式的自動(dòng)識(shí)別方法》(申請(qǐng)?zhí)?00810053443. 1)相比,該方法只需要ー個(gè)特征,算法簡(jiǎn)單高效,并且該算法能夠應(yīng)用于中文文檔和英文文檔,其適用范圍較廣。
圖1為本發(fā)明單個(gè)連通域周?chē)徲騽澐质疽鈭D;圖2為鄰域信息編碼計(jì)算示意圖;圖3為實(shí)施例中不包含公式的文本圖像;
圖4為圖3所示圖像的編碼直方圖;圖5為圖3所示圖像異常區(qū)域標(biāo)識(shí)圖;圖6為實(shí)施例中的公式圖像;圖7為圖6所示編碼圖像的直方圖;圖8為圖6所示圖像異常區(qū)域標(biāo)識(shí)圖;圖9為本發(fā)明實(shí)施例中所述方法的整體流程圖;圖10為本發(fā)明所述方法連通域鄰域信息編碼計(jì)算流程圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施例來(lái)對(duì)本發(fā)明進(jìn)行描述。本發(fā)明通過(guò)分析文本區(qū)域和公式區(qū)域的結(jié)構(gòu)特征,設(shè)計(jì)了ー種區(qū)分兩種區(qū)域的特征,利用該特征能夠檢測(cè)文檔圖像中復(fù)雜的公式區(qū)域,并自動(dòng)對(duì)公式區(qū)域進(jìn)行標(biāo)記。本發(fā)明的核心步驟就是公式區(qū)域的檢測(cè),本發(fā)明解決上述技術(shù)問(wèn)題的關(guān)鍵在干1、連通域鄰域信息編碼計(jì)算方法。2、利用連通域鄰域信息編碼檢測(cè)圖像中復(fù)雜公式區(qū)域的方法。本實(shí)施例中,ー種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)系統(tǒng),包括以下裝置圖像ニ值化裝置用于對(duì)文檔圖像進(jìn)行ニ值化,得到ニ值圖像;連通區(qū)域標(biāo)記裝置用于對(duì)ニ值圖像進(jìn)行連通區(qū)域標(biāo)記;合并裝置用于合并初始連通域中的包含、相交關(guān)系;成行處理裝置用于對(duì)文檔圖像進(jìn)行成行處理;連通域處理裝置用于對(duì)行內(nèi)的連通域逐個(gè)進(jìn)行處理,記錄其鄰域信息編碼并分析是否為異常區(qū)域;公式區(qū)域判斷裝置用于對(duì)行內(nèi)所有連通域的編碼進(jìn)行直方圖統(tǒng)計(jì),并將直方圖進(jìn)行歸一化,然后根據(jù)語(yǔ)種與不包含公式的歸ー化文本圖像的編碼直方圖進(jìn)行對(duì)比,計(jì)算兩個(gè)直方圖的距離,如果距離超過(guò)閾值T,該行就為可疑的復(fù)雜公式區(qū)域,所述閾值T的取值范圍為
;公式判斷裝置用于對(duì)可疑行進(jìn)行進(jìn)一歩判斷,區(qū)分獨(dú)立行公式和行內(nèi)公式。如圖9所示,本發(fā)明所述的ー種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,具體步驟如下(1)對(duì)文檔圖像進(jìn)行ニ值化,得到ニ值圖像;(2)對(duì)ニ值圖像進(jìn)行連通區(qū)域標(biāo)記;(3)如果初始連通域中存在包含、相交關(guān)系,則合并初始連通域中的包含、相交關(guān)系,如果不存在包含、相交關(guān)系,則直接轉(zhuǎn)入步驟;(4)對(duì)文檔圖像進(jìn)行成行處理;(5)對(duì)行內(nèi)的連通域逐個(gè)進(jìn)行處理,記錄其鄰域信息編碼并分析是否為異常區(qū)域;如圖10所示,判斷一個(gè)連通域是否為異常區(qū)域的方法如下設(shè)當(dāng)前處理的連通域?yàn)镃,1)對(duì)當(dāng)前處理的連通域的周?chē)徲蜻M(jìn)行劃分并標(biāo)號(hào),如圖1所示,方框表示當(dāng)前處理的連通域C,將其周?chē)徲騽澐譃?個(gè)區(qū)域(可以不為8個(gè)區(qū)域,劃分為其他數(shù)量的區(qū)域也有一定的意義),分別標(biāo)記為0-7。每個(gè)區(qū)域?qū)?yīng)ー個(gè)1位ニ進(jìn)制碼(非0即1),將每個(gè)碼均初始化為0。2)尋找與其直接相鄰的連通域,設(shè)置8個(gè)區(qū)域的編碼。如果區(qū)域中存在與其直接相鄰的其他連通域,則將該區(qū)域的編碼設(shè)置為1。3)構(gòu)造字符鄰域模板表達(dá)式,獲得每個(gè)連通域鄰域信息的編碼。將區(qū)域0-7的編碼按照從右至左的順序排列組成一個(gè)ニ進(jìn)制序列,然后將該ニ進(jìn)制序列轉(zhuǎn)換為十進(jìn)制,則得到該連通域的鄰域信息編碼。如圖2所示,紅色方框表示當(dāng)前聯(lián)通域位置,白色方框?yàn)槠渲車(chē)倪B通域,周?chē)鷥蓚€(gè)連通域的中心點(diǎn)分別落在區(qū)域0和區(qū)域4,所以其領(lǐng)域信息的編碼為00010001,將其轉(zhuǎn)化為十進(jìn)制為17。4)標(biāo)記異常連通域。通過(guò)以上計(jì)算可知,編碼0、1、16、17代表正常字符之間的相鄰關(guān)系,編碼2、8、9、18代表普通字符和標(biāo)點(diǎn)相鄰的情況。因此應(yīng)當(dāng)將編碼不是以上數(shù)值的連通域標(biāo)記為異常連通域。(6)對(duì)行內(nèi)所有連通域的編碼進(jìn)行直方圖統(tǒng)計(jì),并將直方圖進(jìn)行歸ー化,然后根據(jù)語(yǔ)種與不包含公式的相同語(yǔ)種的文本圖像的歸ー化編碼直方圖進(jìn)行對(duì)比,計(jì)算兩個(gè)直方圖的距離,如果距離超過(guò)閾值T (本實(shí)施例中T為0. 3,可以根據(jù)具體應(yīng)用情況在
范圍內(nèi)進(jìn)行調(diào)整),該行就為可疑的復(fù)雜公式區(qū)域。計(jì)算兩個(gè)直方圖的距離可以采用歐式距離、余弦距離等。圖3和圖6分別為正常的文本圖像(此處以中文文檔圖像為例)和公式圖像,2幅圖的領(lǐng)域信息編碼的直方圖如圖4、圖7所示,從這兩幅圖可以看出,2個(gè)直方圖分布差異顯著。(7)對(duì)可疑行進(jìn)行進(jìn)一歩判斷,區(qū)分獨(dú)立行公式和行內(nèi)公式。如圖5和圖8所示, 分別為圖3和圖6的異常區(qū)域標(biāo)記圖,由這兩幅圖可知兩種圖像異常區(qū)域的數(shù)量差別很大。 利用該特征可以對(duì)行進(jìn)行進(jìn)一歩判定,如果行內(nèi)異常區(qū)域的比例大于時(shí)(本實(shí)施例中
為0. 85,可以根據(jù)具體應(yīng)用情況在
范圍內(nèi)進(jìn)行調(diào)整),就為獨(dú)立行公式,否則為行內(nèi)公式。也可以根據(jù)步驟(6)中計(jì)算出的距離進(jìn)行區(qū)分。對(duì)于行內(nèi)公式的標(biāo)定可以采用計(jì)算機(jī)輔助標(biāo)定和人工手動(dòng)標(biāo)定相結(jié)合的方式進(jìn)行。根據(jù)本實(shí)施例可以看出,利用本發(fā)明提出的公式區(qū)域檢測(cè)方法能夠較為準(zhǔn)確的檢測(cè)文檔圖像中復(fù)雜的公式區(qū)域,簡(jiǎn)單高效,提高數(shù)字化加工流程的效率,大大減少人力成本,并且該方法不僅能夠應(yīng)用于中文文檔圖像還能應(yīng)用于英文文檔圖像,擴(kuò)大了適用范圍。需要注意的是,上述具體實(shí)施例僅僅是示例性的,在本發(fā)明的上述教導(dǎo)下,本領(lǐng)域技術(shù)人員可以在上述實(shí)施例的基礎(chǔ)上進(jìn)行各種改進(jìn)和變形,而這些改進(jìn)或者變形落在本發(fā)明的保護(hù)范圍內(nèi)。本領(lǐng)域技術(shù)人員應(yīng)該明白,上面的具體描述只是為了解釋本發(fā)明的目的, 并非用于限制本發(fā)明。本發(fā)明的保護(hù)范圍由權(quán)利要求及其等同物限定。
權(quán)利要求
1.一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,包括以下步驟(1)對(duì)文檔圖像進(jìn)行二值化,得到二值圖像;(2)對(duì)二值圖像進(jìn)行連通區(qū)域標(biāo)記;(3)對(duì)文檔圖像進(jìn)行成行處理;(4)對(duì)行內(nèi)的連通域逐個(gè)進(jìn)行處理,記錄其鄰域信息編碼并分析是否為異常區(qū)域;(5)對(duì)行內(nèi)所有連通域的編碼進(jìn)行直方圖統(tǒng)計(jì),并將直方圖進(jìn)行歸一化,然后與不包含公式的文本圖像的歸一化編碼直方圖進(jìn)行對(duì)比,計(jì)算兩個(gè)直方圖的距離,如果距離超過(guò)閾值T,該行就為可疑的復(fù)雜公式區(qū)域;(6)對(duì)可疑行進(jìn)行進(jìn)一步判斷,區(qū)分獨(dú)立行公式和行內(nèi)公式。
2.如權(quán)利要求1所述的一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,其特征在于,步驟 2中,在對(duì)二值圖像進(jìn)行連通區(qū)域標(biāo)記后,如果初始連通域中存在包含、相交關(guān)系,則合并初始連通域中的包含、相交關(guān)系。
3.如權(quán)利要求1所述的一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,其特征在于,步驟4 中,判斷一個(gè)連通域是否為異常區(qū)域的方法如下1)設(shè)當(dāng)前處理的連通域?yàn)镃,對(duì)當(dāng)前處理的連通域的周?chē)徲蜻M(jìn)行劃分并標(biāo)號(hào),將其周?chē)徲騽澐譃?個(gè)區(qū)域,分別標(biāo)記為0-7,每個(gè)區(qū)域?qū)?yīng)一個(gè)1位二進(jìn)制碼,將每個(gè)碼均初始化為0 ;2)尋找與其直接相鄰的連通域,設(shè)置8個(gè)區(qū)域的編碼,如果區(qū)域中存在與其直接相鄰的其他連通域,則將該區(qū)域的編碼設(shè)置為1 ;3)構(gòu)造字符鄰域模板表達(dá)式,獲得每個(gè)連通域鄰域信息的編碼,將區(qū)域0-7的編碼按照從右至左的順序排列組成一個(gè)二進(jìn)制序列,然后將該二進(jìn)制序列轉(zhuǎn)換為十進(jìn)制,則得到該連通域的鄰域信息編碼;4)標(biāo)記異常連通域。
4.如權(quán)利要求3所述的一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,其特征在于,步驟 4)中,編碼0、1、16、17代表正常字符之間的相鄰關(guān)系,編碼2、8、9、18代表普通字符和標(biāo)點(diǎn)相鄰的情況,將編碼不是以上數(shù)值的連通域標(biāo)記為異常連通域。
5.如權(quán)利要求1至4任一所述的一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,其特征在于步驟5中,根據(jù)語(yǔ)種與不包含公式的相同語(yǔ)種的文本圖像的歸一化編碼直方圖進(jìn)行對(duì)比,計(jì)算兩個(gè)直方圖的距離采用歐式距離或余弦距離。
6.如權(quán)利要求1至4任一所述的一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,其特征在于步驟5中,所述閾值T的取值范圍為
。
7.如權(quán)利要求6所述的一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,其特征在于所述閾值T為0. 3。
8.如權(quán)利要求1至4任一所述的一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,其特征在于步驟6中,如果行內(nèi)異常區(qū)域的比例大于時(shí),就為獨(dú)立行公式,否則為行內(nèi)公式,所述的取值范圍為W.7,0.9]。
9.如權(quán)利要求8所述的一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,其特征在于所述的 0. 85。
10.如權(quán)利要求1至4任一所述的一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法,其特征在于步驟6中,根據(jù)步驟5中計(jì)算出的距離進(jìn)行區(qū)分,對(duì)于行內(nèi)公式的標(biāo)定采用計(jì)算機(jī)輔助標(biāo)定和人工手動(dòng)標(biāo)定相結(jié)合的方式進(jìn)行。
11.ー種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)系統(tǒng),包括以下裝置圖像ニ值化裝置用于對(duì)文檔圖像進(jìn)行ニ值化,得到ニ值圖像;連通區(qū)域標(biāo)記裝置用于對(duì)ニ值圖像進(jìn)行連通區(qū)域標(biāo)記;成行處理裝置用于對(duì)文檔圖像進(jìn)行成行處理;連通域處理裝置用于對(duì)行內(nèi)的連通域逐個(gè)進(jìn)行處理,記錄其鄰域信息編碼并分析是否為異常區(qū)域;公式區(qū)域判斷裝置用于對(duì)行內(nèi)所有連通域的編碼進(jìn)行直方圖統(tǒng)計(jì),并將直方圖進(jìn)行歸ー化,然后與不包含公式的文本圖像的歸ー化編碼直方圖進(jìn)行對(duì)比,計(jì)算兩個(gè)直方圖的距離,如果距離超過(guò)閾值T,該行就為可疑的復(fù)雜公式區(qū)域,所述閾值T的取值范圍為
;公式判斷裝置用于對(duì)可疑行進(jìn)行進(jìn)一歩判斷,區(qū)分獨(dú)立行公式和行內(nèi)公式。
12.如權(quán)利要求11所述的ー種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)系統(tǒng),其特征在干,所述的連通域處理裝置判斷一個(gè)連通域是否為異常區(qū)域的方法如下1)設(shè)當(dāng)前處理的連通域?yàn)镃,對(duì)當(dāng)前處理的連通域的周?chē)徲蜻M(jìn)行劃分并標(biāo)號(hào),將其周?chē)徲騽澐譃?個(gè)區(qū)域,分別標(biāo)記為0-7,每個(gè)區(qū)域?qū)?yīng)ー個(gè)1位ニ進(jìn)制碼,將每個(gè)碼均初始化為0 ;2)尋找與其直接相鄰的連通域,設(shè)置8個(gè)區(qū)域的編碼,如果區(qū)域中存在與其直接相鄰的其他連通域,則將該區(qū)域的編碼設(shè)置為1 ;3)構(gòu)造字符鄰域模板表達(dá)式,獲得每個(gè)連通域鄰域信息的編碼,將區(qū)域0-7的編碼按照從右至左的順序排列組成一個(gè)ニ進(jìn)制序列,然后將該ニ進(jìn)制序列轉(zhuǎn)換為十進(jìn)制,則得到該連通域的鄰域信息編碼;4)標(biāo)記異常連通域。
13.如權(quán)利要求11或12所述的ー種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)系統(tǒng),其特征在于該系統(tǒng)還設(shè)有合并裝置,用于合并初始連通域中的包含、相交關(guān)系。
全文摘要
本發(fā)明公開(kāi)了一種文檔圖像中復(fù)雜公式區(qū)域的檢測(cè)方法及系統(tǒng),涉及計(jì)算機(jī)圖像處理技術(shù)領(lǐng)域。本發(fā)明解決上述技術(shù)問(wèn)題的關(guān)鍵在于1、連通域鄰域信息編碼計(jì)算方法;2、利用連通域鄰域信息編碼檢測(cè)圖像中復(fù)雜公式區(qū)域的方法。利用本發(fā)明提出的公式區(qū)域檢測(cè)方法及系統(tǒng)可以較為準(zhǔn)確地檢測(cè)文檔圖像中復(fù)雜的公式區(qū)域,速度快效率高。將其應(yīng)用于數(shù)字化加工流程中,可以提高數(shù)字化加工流程的效率,大大減少人力成本。
文檔編號(hào)G06K9/46GK102542273SQ20111039387
公開(kāi)日2012年7月4日 申請(qǐng)日期2011年12月2日 優(yōu)先權(quán)日2011年12月2日
發(fā)明者史培培, 胡希馳 申請(qǐng)人:方正國(guó)際軟件(北京)有限公司, 方正國(guó)際軟件有限公司