專利名稱:用于檢測空白頁的方法以及相應(yīng)的多功能機(jī)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于檢測在多功能機(jī)上掃描的文件的紙張中的空白頁的方法,所述多功能機(jī)包括掃描儀。本發(fā)明還涉及多功能機(jī),該多功能機(jī)包括實(shí)施根據(jù)本發(fā)明的方法的掃描儀。
背景技術(shù):
在包括掃描儀(通常是雙面掃描儀)的多功能機(jī)上對包括多張紙的文件進(jìn)行掃描期間,需要檢測空白頁,以免將空白頁存儲在存儲器中并對空白頁進(jìn)行處理。目前,所提出的大部分方案都是基于將每頁紙的總體白色等級(whitelevel)與閾值進(jìn)行比較的簡單技術(shù)。例如,W02006/104627公開了這種方案。根據(jù)W02006/104627的方案還檢測一頁的另一面上所存在的信息、和掃描期間因透明而觀察到的信息。但是,這種方案的缺點(diǎn)在于,之前需要對被掃描紙張的正面和背面進(jìn)行復(fù)雜地配準(zhǔn),這是由于掃描儀的結(jié)構(gòu),被掃描紙張的正面和背面會彼此偏移。JP2002044367也公開了一種用于檢測將在多功能機(jī)上掃描的文件的紙張中的空白頁的方法。JP2002044367公開的方法中,掃描儀對灰度色調(diào)強(qiáng)度等級進(jìn)行比較,并且當(dāng)兩頁的強(qiáng)度有很大的不同時,判斷該紙張包括空白頁,或者當(dāng)兩頁類似(即當(dāng)兩頁的類似度的數(shù)據(jù)特性(這里稱為灰度彩色強(qiáng)度等級)超過類似度標(biāo)準(zhǔn)時)時判斷該紙張包括兩個非空白頁。因此,JP 2002 044367不能檢測出具有兩個類似頁的紙張上的空白頁,從而不能檢測因透明而觀察到的、在頁的另一面上所存在的信息。
發(fā)明內(nèi)容
本發(fā)明用于解決這些缺陷。為此,根據(jù)本發(fā)明提出了根據(jù)權(quán)利要求I的方法??梢酝ㄟ^權(quán)利要求2至9的單獨(dú)技術(shù)特征或它們的可能技術(shù)組合中的任意一個來有利地實(shí)現(xiàn)本發(fā)明。本發(fā)明還涉及多功能機(jī),該多功能機(jī)包括用于實(shí)施根據(jù)本發(fā)明的方法的掃描儀。本發(fā)明具有多個優(yōu)點(diǎn)。首先,本發(fā)明可以有效地檢測文件中的空白頁,而不需要配準(zhǔn)被掃描紙張的正面和背面。這是因?yàn)楸景l(fā)明的方案不受紙張的正面和背面之間的偏移的影響。本發(fā)明可以自動地檢測被掃描紙張表面上攜帶的信息是否對應(yīng)于實(shí)際信息。非實(shí)際信息的一些實(shí)例為-存在于一面上、并在掃描儀上因透明性而觀察到的因紙張材料的孔隙而顯示在另一面(背頁)上的墨跡(例如,正頁上的橡皮圖章),-紙張的黑白顏色,或者-由掃描儀檢測到的紙張折痕,因?yàn)樵趻呙钑r折痕在紙張上產(chǎn)生陰影。但是,本發(fā)明能夠?qū)H有字跡的頁分類為信息攜帶的頁,即使該頁相對于背景具有較差的對比度。本發(fā)明可以以自動方式實(shí)現(xiàn)在具有有限存儲容量和計(jì)算功能的多功能機(jī)上,而不需要用戶介入。因此,本發(fā)明可以非常穩(wěn)定和快速地檢測信息,因?yàn)楸景l(fā)明主要檢測包含實(shí)際信息的頁。這特別是因?yàn)楸粰z測為空白頁的頁不會被傳送到存儲器以用于存儲和處理。因此, 為了優(yōu)化判斷速度,已經(jīng)設(shè)立了若干檢測步驟。僅在最困難的情況中才會執(zhí)行全部步驟,在初期的檢測步驟就能檢測到比較簡單的情況。
根據(jù)下面的描述,本發(fā)明的其他特征、目的和優(yōu)點(diǎn)將變得顯而易見,下面的描述僅是說明性的而非限制性的,并且應(yīng)當(dāng)參照附圖進(jìn)行理解,其中圖I是根據(jù)本發(fā)明的方法中的主要步驟的簡化框圖;圖2是根據(jù)本發(fā)明的多功能機(jī)的高度簡化的表示;圖3和圖4示出了紙張的正面和背面的局部差異圖⑶L的結(jié)構(gòu);圖5示出了報告局部差異圖CDL的具有相同值的像素?cái)?shù)量的柱狀圖示例;圖6示意性地示出了距離d(x,R)計(jì)算的示例。 在所有附圖中,類似元件采用相同的數(shù)字標(biāo)記。
具體實(shí)施例方式參照圖I和圖2,示出了根據(jù)本發(fā)明的方法的主要步驟,該方法在包括掃描儀2的多功能機(jī)上實(shí)施。例如,多功能機(jī)I可以包括傳真機(jī)、復(fù)印機(jī)、網(wǎng)絡(luò)服務(wù)器、打印機(jī)、和電話功能和/ 或任何其他的辦公自動化功能。掃描儀2通常包括所有處理和存儲裝置,用于掃描將在多功能機(jī)I上掃描的文件的紙張。有利地是,掃描儀2可以對將被掃描的文件的每一張紙進(jìn)行雙面掃描。如圖I所示,用于檢測在包括掃描儀2的多功能機(jī)I上掃描的文件的紙張中的空白頁的可能方法包括主要步驟,其中掃描儀2 -在步驟SO中,掃描將被掃描的文件的至少一張紙的兩頁;-在圖I的步驟S6中,對每張被掃描紙張進(jìn)行簡單的空白頁檢測步驟;-在步驟S7中,選擇不包括在前述檢測中被檢測為空白的至少一頁的每張紙;-在步驟S9中,對所選紙張的兩頁進(jìn)行比較,以及-在步驟S9中,當(dāng)某頁與紙張的其他頁類似時,將該頁分類為空白頁。從本說明書后面更詳細(xì)的描述中可以看出,當(dāng)類似度的數(shù)據(jù)特性超過類似度標(biāo)準(zhǔn)時,掃描儀2認(rèn)為一頁與另一頁“類似”。更具體地,步驟SO通??梢允箳呙鑳x2對將被掃描的文件的紙張的兩頁進(jìn)行掃描。在步驟SI中,掃描儀2分析所掃描的頁,以及通常將所掃描的頁記錄到表示每一頁的每個像素值的表格中。因此,這些頁被轉(zhuǎn)換成屬于實(shí)數(shù)空間的一組像素。在步驟S2中,掃描儀2執(zhí)行包括刪除邊緣和/或調(diào)整尺寸和/或轉(zhuǎn)換成所掃描頁的灰度等級的步驟。這里給出了邊緣刪除技術(shù)的實(shí)施例。在雙面掃描儀中,所掃描的頁通常包括或多或少的寬邊。出于該原因,有利的是, 刪除頁的邊緣以便不妨礙隨后的頁分析。所采用的技術(shù)非常簡單,并且包括去除例如邊緣處的頁的5%。當(dāng)然也可以使用除了 5%之外的值或者其他更復(fù)雜的刪除技術(shù)。這里給出了用于所掃描頁的尺寸再調(diào)整技術(shù)的實(shí)施例。為了提高由掃描儀2所執(zhí)行的方法的速度,減小每個所掃描頁的尺寸。因此,可以通過僅保留每兩個像素中的一個像素來減小頁的分辨率,以用于每次減小處理(reduction pass)。這可以具有更快的實(shí)現(xiàn)速度。執(zhí)行減小處理,直到頁的區(qū)域小于150000個像素。實(shí)際上,該尺寸能夠使隨后的步驟具有較快的實(shí)現(xiàn)速度,并在檢測空白頁時具有良好的性能。也可以使用其他技術(shù),例如對于每個像素而言采用相鄰像素的平均值。這里給出了轉(zhuǎn)換成所掃描頁的灰度彩色等級的實(shí)施例。應(yīng)當(dāng)理解,空白頁的檢測不需要考慮色彩。因此,有利的是,將灰度等級值分配給所掃描頁的像素。這可以簡化后面的處理。為了優(yōu)化用于實(shí)施所述方法的掃描儀的復(fù)雜度和存儲需求,邊緣刪除、和/或尺寸再調(diào)整、和/或轉(zhuǎn)換成所掃描頁的灰度等級的步驟能夠同時執(zhí)行。為此目的,例如能夠逐一地提取期望的像素,將它們轉(zhuǎn)換成灰度等級,之后逐一地將它們存儲在將被處理的所掃描頁中。在步驟S3中,掃描儀2用灰度等級對每張被掃描的頁執(zhí)行第一簡單空白頁或信息攜帶的頁的檢測。簡單檢測是基于與至少一個閾值相比較的技術(shù)。因此,檢查每頁所包括的信息,并作出關(guān)于其狀態(tài)的判斷。頁確實(shí)是空白頁(也就是說,其不攜帶任何信息)或者頁是非空白頁(也就是說, 其攜帶信息),或者掃描儀不能作出判斷(尤其是頁包含很少字跡的情況、或者具有因透明而從另一頁接收到的信息的情況、或者頁上的字跡相對于背景幾乎沒有差異的情況)。步驟S3中,第一簡單檢測的目的是確定紙張上是否寫有信息(打印的或手寫的), 而不管紙張和信息的色彩。這里給出用于根據(jù)S3的第一檢測的技術(shù)的實(shí)施例。例如,首先可以檢測所有頁上被轉(zhuǎn)換成灰度等級的像素變化,然后將測量值與兩個閾值進(jìn)行比較閾值tl用于檢測空白頁,閾值t2用于檢測信息攜帶的頁。例如,兩個閾值tl和t2能夠通過經(jīng)驗(yàn)確定。例如上閾值t2可以設(shè)置成值125。實(shí)際上,該值對應(yīng)于紙張的大部分上攜帶信息的頁的最低變化值。下閾值tl可以設(shè)置成值2,其對應(yīng)于幾乎完全空白的頁,即極少字跡且與背景幾乎無差別的頁具有非常小的變化。閾值tl很少使用。變化大于125的頁被分類為信息攜帶的頁,而變化小于2的頁被分類為空白頁。然后在步驟S4中,確定是否能夠?qū)垙埳系拿恳豁撨M(jìn)行檢測(換句話說,紙張是否包括兩個空白頁、兩個信息攜帶的頁、或一個信息攜帶的頁和一個空白頁)。如果是這種情況,那么掃描儀轉(zhuǎn)到步驟S10,步驟SlO是頁的分類步驟存儲和處理信息攜帶的頁,而既不處理也不存儲空白頁。然而,如果在步驟S3的第一檢測期間,每一頁都沒有被檢測為空白頁或信息攜帶的頁,則掃描儀繼續(xù)步驟S5。在步驟S4之后的步驟S5中,掃描儀2執(zhí)行在步驟S4中所選的每張紙的頁的二值化(binarisation)(即每張紙的頁的像素的二值化),因此,二值化包括將有效值(active value)指定給灰度等級大于閾值τ的每個像素,以及將無效值(inactive value)指定給灰度等級低于閾值τ的像素。如下文所描述的,基于像素的鄰域來動態(tài)地確定τ。在該方法中,通常選擇具有有效值的比特,以表示攜帶信息的像素,而具有無效值的比特表示“白色”背景像素。這里給出了可能的二值化技術(shù)的實(shí)施例。在步驟S5中的二值化包括根據(jù)步驟S4生成的灰度級的頁來獲得二進(jìn)制圖像 (由0(無效值)和優(yōu)選由1(有效值)構(gòu)成,或者有時由O (無效值)和255 (有效值)構(gòu)成)。二值化可以通過獲得一面上的信息和另一面上的背景來索引存在于紙張上的所有信息。二值化還提高了方法中隨后步驟的執(zhí)行速度,且極大地減小了掃描儀的存儲需求。實(shí)際上,頁一旦被轉(zhuǎn)換成二進(jìn)制,每像素就僅需要一比特。一種有利的二值化技術(shù)可以采用Sauvola于1998年公開的題為“Adaptive document image binarisation (自適應(yīng)文件圖像的二值化)”的論文中提出的技術(shù)。該技術(shù)基于使用下述公式來自適應(yīng)地選擇閾值τ
權(quán)利要求
1.一種用于檢測多功能機(jī)(I)掃描的文件的紙張中的空白頁的方法,所述多功能機(jī)(I)包括掃描儀(2),其中所述掃描儀(2)用于-掃描所述文件的至少一張紙張的兩頁(so);-對每張被掃描的紙張,執(zhí)行至少一個空白頁的檢測(S6);-選擇在檢測(S6)期間未檢測出空白頁的每張紙(S7);-其特征在于,所述掃描儀比較所選紙張的兩頁(S9),當(dāng)所述紙張的一頁與所述紙張的另一頁類似時,即當(dāng)所述兩頁的類似度數(shù)據(jù)特性大于類似度標(biāo)準(zhǔn)時,將所述一頁分類為空白頁(S9)。
2.根據(jù)權(quán)利要求I所述的方法,其中,所述掃描儀用于-掃描所述兩頁,以將每頁轉(zhuǎn)換成屬于實(shí)數(shù)空間Sr'的一組像素(so),并且轉(zhuǎn)換每個像素以使所述每個像素具有灰度等級(S2),以及-在選擇未檢測出空白頁的每張紙張之前(S7),對每張紙的頁的像素進(jìn)行二值化處理(S5),所述二值化處理包括將有效值指定給灰度等級大于閾值τ的每個像素,以及將無效值指定給像素灰度等級小于閾值τ的像素,其中根據(jù)所述像素的鄰域動態(tài)地確定τ。
3.根據(jù)權(quán)利要求2所述的方法,其中-在所述二值化處理(S5)之后,所述掃描儀將紙張的正頁R指定(S8)為信息攜帶概率更高的頁,所述掃描儀將背頁V指定為所述紙張的另一頁,以及其中,為了在所述兩個頁之間進(jìn)行比較-所述掃描儀(2)首先構(gòu)建局部不類似度圖CDL,局部不類似度圖CDL由位置X處的像素的CDL(X)的組成,每個像素CDL(X)的值由下述公式表示Vx G CDL(x) = ^(χ). V(x))· d(x,R)其中X表示頁上的像素位置;V(x)是位置X處的背頁像素的值;兩是位置X處的正頁像素的值的反數(shù);F(X))相當(dāng)于邏輯“與”操作符; d(x, R)是在所述位置X與具有有效值的正頁像素之間所計(jì)算的最小距離;-然后,對于所述CDL(X)的每個值,所述掃描儀(2)構(gòu)建具有相同值的所有像素的 CDL(X)的柱狀圖,以及-在值小于預(yù)定距離值d的所述局部不類似度圖CDL的像素的數(shù)量大于比例H時,所述掃描儀(2)認(rèn)為正頁R和背頁V是類似的,因此將相應(yīng)的背頁V分類為空白頁(S9)。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述掃描儀(2)使用曼哈頓距離計(jì)算d(x,R)。
5.根據(jù)權(quán)利要求3或4所述的方法,其中,所述預(yù)定距離值d對應(yīng)于三個像素的參考距離d(x,R),所述比例H是所述局部不類似度圖的像素的70%。
6.根據(jù)權(quán)利要求3至5中任一項(xiàng)所述的方法,其中,在計(jì)算所述距離d(x,R)期間,只要所述距離d(x,R)確實(shí)超過了所述位置X處的所述參考距離,所述掃描儀就將所述值(d+1)直接分配給像素的⑶L(X),并停止相應(yīng)的距離計(jì)算。
7.根據(jù)權(quán)利要求I至6中任一項(xiàng)所述的方法,其中,對每個所掃描的紙張進(jìn)行至少一個空白頁檢測的步驟包括,使用掃描儀(2)執(zhí)行以下處理-根據(jù)灰度等級,對每張被掃描的紙張進(jìn)行空白頁或信息攜帶頁的第一檢測(S3);以及-選擇具有在所述第一檢測(S3)中還沒有被檢測為空白頁或信息攜帶頁的每一頁的每一張紙張(S4)。
8.根據(jù)權(quán)利要求3至7中任一項(xiàng)所述的方法,其中,在所述二值化處理(S5)之后,檢測每張被掃描紙張的至少一個空白頁的步驟包括所述掃描儀(2)對每個二值化處理后的頁進(jìn)行空白頁或信息攜帶頁的第二檢測(S6);以及對于在所述第二檢測(S6)中未檢測出空白頁的每張紙張,指定正頁和背頁(S8)。
9.根據(jù)權(quán)利要求I至8中的任一項(xiàng)所述的方法,其中,所述掃描儀(2)進(jìn)行邊緣刪除、 和/或尺寸調(diào)整、和/或成為所掃描頁上的灰度等級(S2)轉(zhuǎn)換。
10.一種多功能機(jī)(I),其特征在于,所述多功能機(jī)包括用于執(zhí)行根據(jù)權(quán)利要求I至9 中任一項(xiàng)所述的方法的掃描儀(2)。
全文摘要
本發(fā)明涉及一種從多功能機(jī)上所掃描的文件的紙張中檢測空白頁的方法,該多功能機(jī)包括掃描儀,其中所述掃描儀掃描將被掃描文件的至少一張紙中的兩頁(S0);對每張被掃描紙張進(jìn)行基本的檢測(S6);選擇沒有至少一頁在檢測(S6)期間被檢測為空白頁的每張紙(S7);比較所選紙張的兩頁(S9);當(dāng)一頁與另一頁類似時,將該頁分類為空白頁(S9)。本發(fā)明還涉及一種多功能機(jī),所述多功能機(jī)包括用于實(shí)施根據(jù)本發(fā)明的方法。
文檔編號H04N1/00GK102612833SQ201080045874
公開日2012年7月25日 申請日期2010年9月10日 優(yōu)先權(quán)日2009年9月10日
發(fā)明者奧利維爾·拉伯伊斯, 杰羅姆·伯杰, 皮埃爾·賽博替爾 申請人:薩熱姆文獻(xiàn)簡易股份有限公司