本發(fā)明一般地涉及圖像處理領(lǐng)域。具體而言,本發(fā)明涉及一種能夠有效地、準(zhǔn)確地去除文檔圖像中的印記的方法和設(shè)備。
背景技術(shù):
近年來,掃描儀相關(guān)的技術(shù)取得了飛速的發(fā)展。例如,在掃描文檔圖像的背透檢測(cè)和去除、文檔版面分析、光學(xué)字符識(shí)別等技術(shù)方面,技術(shù)人員已經(jīng)做出許多工作以提高處理效果。然而,僅僅在這些方面做出改進(jìn)是不夠的,為了獲得總體更好的技術(shù)效果,需要在相關(guān)技術(shù)的每一方面都取得提高。
例如,掃描文檔圖像中經(jīng)常出現(xiàn)各種印記。例如,水印,用來表明該掃描文檔圖像的出處或者歸屬,比如,復(fù)印標(biāo)記(copymark),用來防止復(fù)印件被非法使用。這些印記作為嚴(yán)重的背景噪聲,為光學(xué)字符識(shí)別等處理增加了很大的難度。而且,這些印記會(huì)嚴(yán)重影響讀者的閱讀體驗(yàn)。圖1示出了帶有水印的掃描文檔圖像的示例。圖2示出了帶有復(fù)印標(biāo)記的掃描文檔圖像的示例。
傳統(tǒng)的去除印記的方法通?;谙袼靥幚?。顯然,基于像素的處理只能利用像素級(jí)的信息,信息有限導(dǎo)致處理起來相對(duì)困難,處理結(jié)果相對(duì)不夠準(zhǔn)確。
因此,期望一種能夠有效地、準(zhǔn)確地去除文檔圖像中的印記的方法和設(shè)備。
技術(shù)實(shí)現(xiàn)要素:
在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的上述問題,提出了一種能夠有效地、準(zhǔn)確地去除文檔圖像中的印記的方法和設(shè)備。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種去除文檔圖像中的印記的方法,該方法包括:從文檔圖像對(duì)應(yīng)的二值圖像中提取連通分量;基于連通分量的灰度特征,聚類連通分量,以得到一個(gè)聚類中心;在聚類半徑R和灰度閾值T的取值范圍內(nèi),搜索使得基于連通分量的灰度特征的評(píng)價(jià)值高于第一評(píng)價(jià)閾值的組合(R,T);以及基于所述組合中的灰度閾值,去除文檔圖像中的印記。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種去除文檔圖像中的印記的設(shè)備,該設(shè)備包括:提取裝置,被配置為:從文檔圖像對(duì)應(yīng)的二值圖像中提取連通分量;聚類裝置,被配置為:基于連通分量的灰度特征,聚類連通分量,以得到一個(gè)聚類中心;搜索裝置,被配置為:在聚類半徑R和灰度閾值T的取值范圍內(nèi),搜索使得基于連通分量的灰度特征的評(píng)價(jià)值高于第一評(píng)價(jià)閾值的組合(R,T);以及精細(xì)去除裝置,被配置為:基于所述組合中的灰度閾值,去除文檔圖像中的印記。
另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時(shí),所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時(shí),所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。
附圖說明
參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。附圖中:
圖1示出了帶有水印的掃描文檔圖像的示例;
圖2示出了帶有復(fù)印標(biāo)記的掃描文檔圖像的示例;
圖3示出了根據(jù)本發(fā)明的實(shí)施例的去除文檔圖像中的印記的方法的流程圖;
圖4示出了圖1中示出的帶有水印的掃描文檔圖像示例對(duì)應(yīng)的二值圖像;
圖5示出了圖2示出的帶有復(fù)印標(biāo)記的掃描文檔圖像示例對(duì)應(yīng)的二值圖像;
圖6示出了提取的連通分量的示例;
圖7示出了圖1中示出的帶有水印的掃描文檔圖像示例的去除印記結(jié)果;
圖8示出了圖2中示出的帶有復(fù)印標(biāo)記的掃描文檔圖像示例的去除印記結(jié)果;
圖9示出了根據(jù)本發(fā)明實(shí)施例的去除文檔圖像中的印記的設(shè)備的結(jié)構(gòu)方框圖;以及
圖10示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。
具體實(shí)施方式
在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行詳細(xì)描述。為了清楚和簡明起見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施方式的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。另外,還需要指出的是,在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。
本發(fā)明的基本思想是利用連通分量級(jí)別的信息,并且利用連通分量的聚類來去除文檔圖像中的印記,重點(diǎn)在于如何獲得最佳或次佳的聚類半徑/灰度閾值。
下面將參照?qǐng)D3描述根據(jù)本發(fā)明的實(shí)施例的去除文檔圖像中的印記的方法的流程。
圖3示出了根據(jù)本發(fā)明的實(shí)施例的去除文檔圖像中的印記的方法的流程圖。如圖3所示,根據(jù)本發(fā)明的實(shí)施例的去除文檔圖像中的印記的方法包括如下步驟:從文檔圖像對(duì)應(yīng)的二值圖像中提取連通分量(步驟S1);基于連通分量的灰度特征,聚類連通分量,以得到一個(gè)聚類中心(步驟S2);在聚類半徑R和灰度閾值T的取值范圍內(nèi),搜索使得基于連通分量的灰度特征的評(píng)價(jià)值高于第一評(píng)價(jià)閾值的組合(R,T)(步驟S3);以及基于所述組合中的灰度閾值,去除文檔圖像中的印記(步驟S4)。
在步驟S1中,從文檔圖像對(duì)應(yīng)的二值圖像中提取連通分量。
首先,對(duì)文檔圖像進(jìn)行二值化處理,以得到與文檔圖像對(duì)應(yīng)的二值圖 像。二值化處理是圖像處理領(lǐng)域的常見處理,在此不再贅述,二值化閾值可以由本領(lǐng)域技術(shù)人員根據(jù)經(jīng)驗(yàn)指定。圖4示出了圖1中示出的帶有水印的掃描文檔圖像示例對(duì)應(yīng)的二值圖像。圖5示出了圖2示出的帶有復(fù)印標(biāo)記的掃描文檔圖像示例對(duì)應(yīng)的二值圖像。
然后,從二值圖像中提取連通分量(connected component)。連通分量是二值圖像中的連接的黑色像素點(diǎn)構(gòu)成的連通區(qū)域。提取連通分量的方法是圖像處理領(lǐng)域的技術(shù)人員所熟知的,在此不再贅述。圖6示出了提取的連通分量的示例,其中也示出了連通分量的外接矩形,又稱包圍盒。
在步驟S2中,基于連通分量的灰度特征,聚類連通分量,以得到一個(gè)聚類中心。
本發(fā)明的一個(gè)基本思想是文檔圖像中的內(nèi)容千變?nèi)f化,但是其中的印記,如水印和復(fù)印標(biāo)記在一個(gè)文檔圖像中是基本不變并且重復(fù)出現(xiàn)的,所以最容易聚類到一起形成最大的簇的連通分量應(yīng)該對(duì)應(yīng)著文檔圖像中的印記。
聚類連通分量所基于的特征可以是連通分量的灰度特征。連通分量的灰度特征包括:與連通分量中包括的所有黑像素點(diǎn)對(duì)應(yīng)的、文檔圖像中的像素點(diǎn)的灰度值的最小值。
優(yōu)選地,聚類連通分量所基于的特征還可以包括連通分量的固有特征。連通分量的固有特征包括:在二值圖像中,連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)、連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)與該連通分量的包圍盒中的像素點(diǎn)的個(gè)數(shù)的比值、連通分量的包圍盒的長寬比中的至少一個(gè)。
為了使得本發(fā)明的方法能夠應(yīng)用于不同的文檔圖像,需要對(duì)連通分量的灰度特征、連通分量的固有特征進(jìn)行歸一化。連通分量的灰度特征針對(duì)整個(gè)文檔圖像進(jìn)行歸一化,并賦予預(yù)定權(quán)重;連通分量的固有特征針對(duì)整個(gè)二值圖像進(jìn)行歸一化,并賦予預(yù)定權(quán)重。
例如,假設(shè)xi是連通分量的一個(gè)特征,是所有連通分量的該特征的 平均值,wi是預(yù)先定義的該特征的權(quán)重,則該特征歸一化后的結(jié)果為:假設(shè)以上4個(gè)特征都被利用來進(jìn)行聚類,則每一個(gè)特征相當(dāng)于一個(gè)維度,四個(gè)特征構(gòu)成一個(gè)四維的特征向量。根據(jù)經(jīng)驗(yàn)可以給定對(duì)應(yīng)于四維特征向量的四個(gè)權(quán)重,其中0.5是連通分量的灰度特征的權(quán)重。
基于連通分量的灰度特征(優(yōu)選地還基于連通分量的固有特征),聚類連通分量,得到一個(gè)聚類中心的具體做法例如是在特征空間中,統(tǒng)計(jì)每個(gè)連通分量作為聚類中心時(shí),在給定聚類半徑的范圍內(nèi)連通分量的數(shù)目;將所統(tǒng)計(jì)的最大數(shù)目對(duì)應(yīng)的連通分量確定為聚類中心。
也就是說,給定一個(gè)聚類半徑,看就此聚類半徑而言,以哪個(gè)連通分量為中心,能夠獲得包含最大數(shù)目的連通分量的簇。將這樣的最大簇的中心處的連通分量確定為聚類中心。
尋找聚類中心的方法不限于此,也可采用其它的聚類方法。
這樣的聚類中心代表的是背景(印記)連通分量的中心,因?yàn)楸尘斑B通分量通常具有類似的形狀和灰度值,而前景(文字)連通分量通常具有不同的形狀、尺寸、灰度值。
為了區(qū)分前景連通分量和背景連通分量,僅有聚類中心顯然是不夠的,還需要適當(dāng)?shù)木垲惏霃?。另外,聚類連通分量是從二值圖像角度出發(fā)的,而從文檔圖像角度出發(fā),可以設(shè)置適當(dāng)?shù)幕叶乳撝祦韰^(qū)分前景和背景。也就是說,既可以利用聚類中心和聚類半徑將連通分量分類為前景和背景,然后利用二值圖像中的連通分量與文檔圖像中的像素之間的對(duì)應(yīng)性,確定文檔圖像中的背景印記。也可以直接利用灰度閾值在文檔圖像中區(qū)分出背景印記。
在步驟S3中,搜索用于分類前景和背景的聚類半徑和灰度閾值。
設(shè)計(jì)適當(dāng)?shù)脑u(píng)價(jià)值,使得當(dāng)聚類半徑R和灰度閾值T最佳時(shí)評(píng)價(jià)值最大。當(dāng)評(píng)價(jià)值高于第一評(píng)價(jià)閾值且不為最大值時(shí),聚類半徑R和灰度閾值T取次佳值。這樣,可以將評(píng)價(jià)值作為準(zhǔn)則找到最佳或次佳的聚類 半徑R和灰度閾值T。
評(píng)價(jià)值可以基于連通分量的灰度特征。如上所述,連通分量的灰度特征包括:與連通分量中包括的所有黑像素點(diǎn)對(duì)應(yīng)的、文檔圖像中的像素點(diǎn)的灰度值的最小值。
評(píng)價(jià)值還可以基于連通分量的灰度特征和在二值圖像中連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)兩者。
評(píng)價(jià)值反映基于聚類中心和聚類半徑的連通分量分類結(jié)果與基于灰度閾值的連通分量分類結(jié)果的匹配程度。這是因?yàn)楫?dāng)聚類半徑和灰度閾值均最合適的時(shí)候,基于兩者的分類結(jié)果最一致。
應(yīng)注意,聚類半徑R和灰度閾值T都具有取值范圍。在取值范圍內(nèi),以一定的步長,可以得到有限個(gè)取值。有限個(gè)聚類半徑R和有限個(gè)灰度閾值T可以構(gòu)成有限個(gè)組合(R,T)。對(duì)于每一組合(R,T),都可以計(jì)算對(duì)應(yīng)的評(píng)價(jià)值f(R,T)。
聚類半徑R的范圍例如是從0到最大值,最大值為特征空間中聚類中心與距其最遠(yuǎn)的特征向量之間的距離。根據(jù)經(jīng)驗(yàn),也可給定一個(gè)聚類半徑R的經(jīng)驗(yàn)范圍(5,8)?;叶乳撝礣的范圍例如是從0到255。
搜索滿足評(píng)價(jià)值條件的組合(R,T)的過程相當(dāng)于一個(gè)二維查找的過程。因此,可以同時(shí)變化聚類半徑R和灰度閾值T,在有限個(gè)組合(R,T)中尋找評(píng)價(jià)值最大或者評(píng)價(jià)值高于第一評(píng)價(jià)閾值的組合(R,T)。也可以采用迭代方式,即首先固定聚類半徑R和灰度閾值T中的一個(gè),如聚類半徑R,然后變化另一個(gè),如灰度閾值T,找到最佳的灰度閾值T,然后固定灰度閾值T,再找最佳的聚類半徑R,最終得到組合(R,T)。
關(guān)于迭代方式,舉例來說,首先在聚類半徑R的取值范圍內(nèi)選定一個(gè)聚類半徑R的取值,根據(jù)該取值,可以在特征空間中,根據(jù)聚類中心和聚類半徑R,將連通分量分為前景(文字)連通分量和背景(印記)連通分量,即以聚類中心為原點(diǎn),聚類半徑R決定的圓內(nèi)的特征向量對(duì)應(yīng)的連通分量是背景(印記)連通分量,圓外的特征向量對(duì)應(yīng)的連通分量是 前景(文字)連通分量。根據(jù)灰度閾值T也能將連通分量分為前景連通分量和背景連通分量。這時(shí),評(píng)價(jià)值f(R,T)=C(T),表示在聚類半徑R已經(jīng)確定的情況下,根據(jù)灰度閾值T劃分的結(jié)果與根據(jù)聚類半徑R劃分的結(jié)果的匹配程度。
C(T)的計(jì)算方法例如如公式(1)所示。
(公式1)
其中,n是根據(jù)聚類半徑R劃分的背景連通分量的數(shù)量,m是根據(jù)聚類半徑R劃分的前景連通分量的數(shù)量,B是根據(jù)聚類半徑R劃分的背景連通分量的黑像素個(gè)數(shù),B′是根據(jù)聚類半徑R劃分的前景連通分量的黑像素個(gè)數(shù),G是與根據(jù)聚類半徑R劃分的背景連通分量中包括的所有黑像素點(diǎn)對(duì)應(yīng)的、文檔圖像中的像素點(diǎn)的灰度值的最小值,G′是與根據(jù)聚類半徑R劃分的前景連通分量中包括的所有黑像素點(diǎn)對(duì)應(yīng)的、文檔圖像中的像素點(diǎn)的灰度值的最小值,和是G和G′的平均值。
表明根據(jù)灰度閾值T劃分的背景連通分量與根據(jù)聚類半徑R劃分的背景連通分量的比率。
其中,用來排除特別黑的連通分量,因?yàn)檫@樣的連通分量必然是前景連通分量,借此限制條件可以減少計(jì)算量。當(dāng)然,可以去除
另外,這里B是根據(jù)聚類半徑R劃分的背景連通分量的黑像素個(gè)數(shù),是采用黑像素個(gè)數(shù)進(jìn)行統(tǒng)計(jì)。也可以使得所有B=1,從而采用連通分量的 個(gè)數(shù)進(jìn)行統(tǒng)計(jì)。
表明根據(jù)灰度閾值T劃分的前景連通分量與根據(jù)聚類半徑R劃分的前景連通分量的比率。
其中,用來排除特別白的連通分量,因?yàn)檫@樣的連通分量必然是背景連通分量,借此限制條件可以減少計(jì)算量。當(dāng)然,可以去除
另外,這里B′是根據(jù)聚類半徑R劃分的前景連通分量的黑像素個(gè)數(shù),是采用黑像素個(gè)數(shù)進(jìn)行統(tǒng)計(jì)。也可以使得所有B’=1,從而采用連通分量的個(gè)數(shù)進(jìn)行統(tǒng)計(jì)。
綜上所述,公式(1)也可改為如下的公式(2)
而且,上述公式(1)和公式(2)中的B和B’可統(tǒng)一取值為1。
在固定聚類半徑R的情況下,變化灰度閾值T,可以得到多個(gè)C(T),選取其中最大的C(T)對(duì)應(yīng)的灰度閾值T,然后固定灰度閾值T,以類似方法選取聚類半徑R,得到組合(R,T)。
當(dāng)然,也可以先固定灰度閾值T,找聚類半徑R,然后再固定聚類半徑R,找灰度閾值T,以得到組合(R,T)。
順便提及,評(píng)價(jià)值除了可以作為準(zhǔn)則找到最佳或次佳的聚類半徑R和灰度閾值T之外,還可以用來判斷文檔圖像中是否包括印記。如果評(píng) 價(jià)值低于根據(jù)經(jīng)驗(yàn)給定的第二評(píng)價(jià)閾值,則可以判斷為文檔圖像中不包括印記。
在步驟S4中,基于所述組合中的灰度閾值,去除文檔圖像中的印記。
如上所述,可以根據(jù)組合中的灰度閾值,將連通分量分為前景(文字)連通分量和背景(印記)連通分量。從文檔圖像中去除被判斷為背景(印記)連通分量對(duì)應(yīng)的像素,就可以有效地、準(zhǔn)確地去除文檔圖像中的印記。
當(dāng)然,也可以理解,還可以基于聚類中心和組合中的聚類半徑,去除文檔圖像中的印記。
相比較而言,優(yōu)選基于灰度閾值去除文檔圖像中的印記的方式,因?yàn)閷?duì)于區(qū)分前景文字和背景噪聲,灰度是最明顯的標(biāo)準(zhǔn)?;诰垲惏霃絉的分離結(jié)果只能看作一個(gè)大致的分離結(jié)果,而在灰度空間中基于灰度閾值T的分離結(jié)果則是更加精確的結(jié)果。
圖7示出了圖1中示出的帶有水印的掃描文檔圖像示例的去除印記結(jié)果。圖8示出了圖2中示出的帶有復(fù)印標(biāo)記的掃描文檔圖像示例的去除印記結(jié)果。
下面,將參照?qǐng)D9描述根據(jù)本發(fā)明實(shí)施例的去除文檔圖像中的印記的設(shè)備。
圖9示出了根據(jù)本發(fā)明實(shí)施例的去除文檔圖像中的印記的設(shè)備的結(jié)構(gòu)方框圖。如圖9所示,根據(jù)本發(fā)明的去除設(shè)備900包括:提取裝置91,被配置為:從文檔圖像對(duì)應(yīng)的二值圖像中提取連通分量;聚類裝置92,被配置為:基于連通分量的灰度特征,聚類連通分量,以得到一個(gè)聚類中心;搜索裝置93,被配置為:在聚類半徑R和灰度閾值T的取值范圍內(nèi),搜索使得基于連通分量的灰度特征的評(píng)價(jià)值高于第一評(píng)價(jià)閾值的組合(R,T);以及精細(xì)去除裝置94,被配置為:基于所述組合中的灰度閾值,去除文檔圖像中的印記。
在一個(gè)實(shí)施例中,連通分量的灰度特征包括:與連通分量中包括的所有黑像素點(diǎn)對(duì)應(yīng)的、文檔圖像中的像素點(diǎn)的灰度值的最小值。
在一個(gè)實(shí)施例中,聚類裝置92被進(jìn)一步配置為:基于連通分量的灰度特征和連通分量的固有特征,聚類連通分量,以得到一個(gè)聚類中心;其中,所述連通分量的固有特征包括:在二值圖像中,連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)、連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)與該連通分量的包圍盒中的像素點(diǎn)的個(gè)數(shù)的比值、連通分量的包圍盒的長寬比中的至少一個(gè)。
在一個(gè)實(shí)施例中,連通分量的灰度特征針對(duì)整個(gè)文檔圖像進(jìn)行歸一化,并賦予預(yù)定權(quán)重。連通分量的固有特征針對(duì)整個(gè)二值圖像進(jìn)行歸一化,并賦予預(yù)定權(quán)重。
在一個(gè)實(shí)施例中,聚類裝置92被進(jìn)一步配置為:在灰度特征的特征空間中,統(tǒng)計(jì)每個(gè)連通分量作為聚類中心時(shí),在給定聚類半徑的范圍內(nèi)連通分量的數(shù)目;將所統(tǒng)計(jì)的最大數(shù)目對(duì)應(yīng)的連通分量確定為聚類中心。
在一個(gè)實(shí)施例中,評(píng)價(jià)值還基于在二值圖像中連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)。
在一個(gè)實(shí)施例中,評(píng)價(jià)值反映基于聚類中心和聚類半徑的連通分量分類結(jié)果與基于灰度閾值的連通分量分類結(jié)果的匹配程度。
在一個(gè)實(shí)施例中,去除設(shè)備900還包括判斷裝置,被配置為:在所述評(píng)價(jià)值低于第二評(píng)價(jià)閾值的情況下,判斷為文檔圖像中不包括印記。
在一個(gè)實(shí)施例中,去除設(shè)備900還包括:粗去除裝置,被配置為:基于所述聚類中心和所述組合中的聚類半徑,去除文檔圖像中的印記。
在一個(gè)實(shí)施例中,精細(xì)去除裝置94被進(jìn)一步配置為:去除其灰度特征大于灰度閾值的連通分量。
在一個(gè)實(shí)施例中,印記包括水印和/或復(fù)印標(biāo)記。
由于在根據(jù)本發(fā)明的去除設(shè)備900中所包括的各個(gè)裝置和單元中的處理分別與上面描述的去除方法中所包括的各個(gè)步驟中的處理類似,因此為了簡潔起見,在此省略這些裝置和單元的詳細(xì)描述。
此外,這里尚需指出的是,上述設(shè)備中各個(gè)組成裝置、單元可以通過軟件、固件、硬件或其組合的方式進(jìn)行配置。配置可使用的具體手段或方 式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過軟件或固件實(shí)現(xiàn)的情況下,從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī)(例如圖10所示的通用計(jì)算機(jī)1000)安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能等。
圖10示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。
在圖10中,中央處理單元(CPU)1001根據(jù)只讀存儲(chǔ)器(ROM)1002中存儲(chǔ)的程序或從存儲(chǔ)部分1008加載到隨機(jī)存取存儲(chǔ)器(RAM)1003的程序執(zhí)行各種處理。在RAM 1003中,還根據(jù)需要存儲(chǔ)當(dāng)CPU 1001執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU 1001、ROM 1002和RAM 1003經(jīng)由總線1004彼此連接。輸入/輸出接口1005也連接到總線1004。
下述部件連接到輸入/輸出接口1005:輸入部分1006(包括鍵盤、鼠標(biāo)等等)、輸出部分1007(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存儲(chǔ)部分1008(包括硬盤等)、通信部分1009(包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分1009經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器1010也可連接到輸入/輸出接口1005??刹鹦督橘|(zhì)1011比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器1010上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分1008中。
在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)1011安裝構(gòu)成軟件的程序。
本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖10所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1011??刹鹦督橘|(zhì)1011的例子包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(CD-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘?,存儲(chǔ)介質(zhì)可以是ROM 1002、存儲(chǔ)部分1008中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。
本發(fā)明還提出一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本發(fā)明實(shí)施例的方法。
相應(yīng)地,用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包括在本發(fā)明的公開中。所述存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等等。
在上面對(duì)本發(fā)明具體實(shí)施例的描述中,針對(duì)一種實(shí)施方式描述和/或示出的特征可以以相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征相組合,或替代其它實(shí)施方式中的特征。
應(yīng)該強(qiáng)調(diào),術(shù)語“包括/包含”在本文使用時(shí)指特征、要素、步驟或組件的存在,但并不排除一個(gè)或更多個(gè)其它特征、要素、步驟或組件的存在或附加。
此外,本發(fā)明的方法不限于按照說明書中描述的時(shí)間順序來執(zhí)行,也可以按照其他的時(shí)間順序地、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對(duì)本發(fā)明的技術(shù)范圍構(gòu)成限制。
盡管上面已經(jīng)通過對(duì)本發(fā)明的具體實(shí)施例的描述對(duì)本發(fā)明進(jìn)行了披露,但是,應(yīng)該理解,上述的所有實(shí)施例和示例均是示例性的,而非限制性的。本領(lǐng)域的技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計(jì)對(duì)本發(fā)明的各種修改、改進(jìn)或者等同物。這些修改、改進(jìn)或者等同物也應(yīng)當(dāng)被認(rèn)為包括在本發(fā)明的保護(hù)范圍內(nèi)。
附記
1.一種去除文檔圖像中的印記的方法,包括:
從文檔圖像對(duì)應(yīng)的二值圖像中提取連通分量;
基于連通分量的灰度特征,聚類連通分量,以得到一個(gè)聚類中心;
在聚類半徑R和灰度閾值T的取值范圍內(nèi),搜索使得基于連通分量的灰度特征的評(píng)價(jià)值高于第一評(píng)價(jià)閾值的組合(R,T);以及
基于所述組合中的灰度閾值,去除文檔圖像中的印記。
2.如附記1所述的方法,其中,所述連通分量的灰度特征包括:與連通分量中包括的所有黑像素點(diǎn)對(duì)應(yīng)的、文檔圖像中的像素點(diǎn)的灰度值的最小值。
3.如附記1所述的方法,還基于連通分量的固有特征,聚類連通分量,以得到一個(gè)聚類中心;其中,所述連通分量的固有特征包括:在二值圖像中,連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)、連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)與該連通分量的包圍盒中的像素點(diǎn)的個(gè)數(shù)的比值、連通分量的包圍盒的長寬比中的至少一個(gè)。
4.如附記1所述的方法,所述基于連通分量的灰度特征,聚類連通分量,以得到一個(gè)聚類中心包括:
在灰度特征的特征空間中,統(tǒng)計(jì)每個(gè)連通分量作為聚類中心時(shí),在給定聚類半徑的范圍內(nèi)連通分量的數(shù)目;
將所統(tǒng)計(jì)的最大數(shù)目對(duì)應(yīng)的連通分量確定為聚類中心。
5.如附記1所述的方法,其中,所述評(píng)價(jià)值還基于在二值圖像中連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)。
6.如附記1所述的方法,其中,所述評(píng)價(jià)值反映基于聚類中心和聚類半徑的連通分量分類結(jié)果與基于灰度閾值的連通分量分類結(jié)果的匹配程度。
7.如附記1所述的方法,其中,如果所述評(píng)價(jià)值低于第二評(píng)價(jià)閾值,則判斷為文檔圖像中不包括印記。
8.如附記1所述的方法,還包括:基于所述聚類中心和所述組合中的聚類半徑,去除文檔圖像中的印記。
9.如附記1所述的方法,其中,所述基于所述組合中的灰度閾值,去除文檔圖像中的印記包括:
去除其灰度特征大于灰度閾值的連通分量。
10.如附記1所述的方法,其中,所述印記包括水印和/或復(fù)印標(biāo)記。
11.一種去除文檔圖像中的印記的設(shè)備,包括:
提取裝置,被配置為:從文檔圖像對(duì)應(yīng)的二值圖像中提取連通分量;
聚類裝置,被配置為:基于連通分量的灰度特征,聚類連通分量,以 得到一個(gè)聚類中心;
搜索裝置,被配置為:在聚類半徑R和灰度閾值T的取值范圍內(nèi),搜索使得基于連通分量的灰度特征的評(píng)價(jià)值高于第一評(píng)價(jià)閾值的組合(R,T);以及
精細(xì)去除裝置,被配置為:基于所述組合中的灰度閾值,去除文檔圖像中的印記。
12.如附記11所述的設(shè)備,其中,所述連通分量的灰度特征包括:與連通分量中包括的所有黑像素點(diǎn)對(duì)應(yīng)的、文檔圖像中的像素點(diǎn)的灰度值的最小值。
13.如附記11所述的設(shè)備,其中,所述聚類裝置被進(jìn)一步配置為:基于連通分量的灰度特征和連通分量的固有特征,聚類連通分量,以得到一個(gè)聚類中心;其中,所述連通分量的固有特征包括:在二值圖像中,連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)、連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)與該連通分量的包圍盒中的像素點(diǎn)的個(gè)數(shù)的比值、連通分量的包圍盒的長寬比中的至少一個(gè)。
14.如附記11所述的設(shè)備,所述聚類裝置被進(jìn)一步配置為:
在灰度特征的特征空間中,統(tǒng)計(jì)每個(gè)連通分量作為聚類中心時(shí),在給定聚類半徑的范圍內(nèi)連通分量的數(shù)目;
將所統(tǒng)計(jì)的最大數(shù)目對(duì)應(yīng)的連通分量確定為聚類中心。
15.如附記11所述的設(shè)備,其中,所述評(píng)價(jià)值還基于在二值圖像中連通分量中包括的黑像素點(diǎn)的個(gè)數(shù)。
16.如附記11所述的設(shè)備,其中,所述評(píng)價(jià)值反映基于聚類中心和聚類半徑的連通分量分類結(jié)果與基于灰度閾值的連通分量分類結(jié)果的匹配程度。
17.如附記11所述的設(shè)備,還包括判斷裝置,被配置為:在所述評(píng)價(jià)值低于第二評(píng)價(jià)閾值的情況下,判斷為文檔圖像中不包括印記。
18.如附記11所述的設(shè)備,還包括:粗去除裝置,被配置為:基于所述聚類中心和所述組合中的聚類半徑,去除文檔圖像中的印記。
19.如附記11所述的設(shè)備,其中,所述精細(xì)去除裝置被進(jìn)一步配置為:去除其灰度特征大于灰度閾值的連通分量。
20.如附記11所述的設(shè)備,其中,所述印記包括水印和/或復(fù)印標(biāo)記。