專利名稱:分段分層的圖像系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及文檔圖像的處理。特別是與用于識別和壓縮文檔圖像的系統(tǒng)和方法有關(guān)。
2.相關(guān)申請的引用本發(fā)明是下述申請的部分延續(xù)U.S.Utility Application Serial No.(美國實用申請序列號)10/133,842,2002年4月25日提交的題為ACTIVITYDETECTOR;U.S.Utility Application Serial No.10/133,558,2002年4月25日提交的題為CLUSTERING以及U.S.Utility Application SerialNo.10/133,9392002年4月25日提交的題為LAYOUT ANALYSIS。本申請也與共同待批的美國申請序號題為SYSTEM AND METHOD FACILITATING DOCUNMENTIMAGE COMPRESSION UTILIZING A MASK[代理人檔案號MS188868.1]有關(guān),通過引用已被完整地加入于此。本申請還與共同待批的美國申請序號題為BLOCKRETOUCHING[代理人檔案號MS188870.1]有關(guān),通過引用已被完整的加入于此。
(3)背景技術(shù)隨著計算機(jī)網(wǎng)絡(luò),因特網(wǎng)和數(shù)字存儲裝置的迅速普及擴(kuò)大,通過計算機(jī)可提供利用的信息量急劇地增加。隨著這種不斷增漲的信息量,十分需要快速發(fā)送和有效存儲這些信息。數(shù)據(jù)壓縮就是一種能有效地促進(jìn)發(fā)送和存儲信息的技術(shù)。
數(shù)據(jù)壓縮減小了表示信息所必須的空間量且能用于許多類型的信息。對包括圖像;文本、音頻和視頻等數(shù)字信息壓縮的需求一直在增漲。典型地、數(shù)據(jù)壓縮與標(biāo)準(zhǔn)計算機(jī)系統(tǒng)統(tǒng)一起使用,然而其它技術(shù)也使用數(shù)據(jù)壓縮,如數(shù)字電視和衛(wèi)星電視以及蜂窩/數(shù)字電話,但不只局限于這些。隨著對操作、發(fā)送和處理大量信息的需求的增漲、對這類數(shù)據(jù)的壓縮的需求也增加了。雖然存儲器件的容量已有了顯著的增加,但用于信息的需求卻比容量進(jìn)展更快。例如,一幅未壓縮圖像可要求5兆字節(jié)的空間,然而同一圖像可被壓縮且例如,對于無損壓縮需要2.5M字節(jié)的空間或?qū)τ袚p壓縮只需500K字節(jié)的空間。因此、數(shù)據(jù)壓縮有利于傳送大量的信息。即使隨著傳輸速率的增加,例如寬帶、DSL、電纜調(diào)制解調(diào)器因特網(wǎng)等等,對于未壓縮信息很容易達(dá)到傳輸?shù)臉O限。例如,在DSL線上傳輸一幅未壓縮圖像要花10分鐘。然而,當(dāng)壓縮后同一幅圖像可在大約1分鐘內(nèi)被傳送,因而提供了10倍的數(shù)據(jù)吞吐量增益,一般,有兩種壓縮方式,無損壓縮和有損壓縮。無損壓縮允許在壓縮后精確地恢復(fù)原始數(shù)據(jù),而有損壓縮允許在壓縮后恢復(fù)的數(shù)據(jù)不同于原始數(shù)據(jù)、兩種壓縮模式間存在著折衷,即有損壓縮比無損壓縮提供了更好的壓縮率、因為允許有某種程度的數(shù)據(jù)完整性損失。當(dāng)例如壓縮關(guān)鍵性文本時可使用無損壓縮,因為精確地重構(gòu)數(shù)據(jù)的失敗可極嚴(yán)重地影響文本的質(zhì)量和可讀性。當(dāng)一定量的失真或噪聲是可接收時或人類感官難以察覺時,可對圖像或非關(guān)鍵文本使用有損壓縮。數(shù)據(jù)壓縮特別適用于文擋(數(shù)字文檔)的數(shù)字表示。典型地,數(shù)字文檔包括文本、圖像和/或文本和圖像。除了對當(dāng)前的數(shù)字?jǐn)?shù)據(jù)使用較少的存儲空間外,對質(zhì)量不引起顯著下降的緊湊存儲會鼓勵對當(dāng)前的文檔硬拷貝的數(shù)字化,使辦公無紙化更可行。努力實現(xiàn)辦公無紙化是許多企業(yè)的一個目標(biāo),因為無紙化辦公提供的好處有,例如允許容易地對信息訪問、減少環(huán)境成本、減少存儲成本等。更何況,通過壓縮減少數(shù)字文檔的文件大小允許更有效地使用因特網(wǎng)帶寬,從而更快地傳送更多的信息并減少了網(wǎng)絡(luò)的阻塞。減少對信息所需的存儲、朝著有效的無紙化辦公方向發(fā)展、以及增加因特網(wǎng)帶寬的效率只是與壓縮技術(shù)相關(guān)的許多顯著好處中的一些而已。
為了使數(shù)字文擋的使用具有吸引力,數(shù)字文擋的壓縮應(yīng)滿足一定的目標(biāo)。首先,壓縮應(yīng)在少量時間內(nèi)壓縮和解壓縮大量信息。其次,壓縮應(yīng)該提供精確地重現(xiàn)數(shù)字文檔。此外,數(shù)字文檔的數(shù)據(jù)壓縮應(yīng)當(dāng)利用意向的目的或文檔的最終使用。某些數(shù)字文檔被用于歸檔或提供應(yīng)硬拷貝。其它文檔可被修改和/或編輯。許多常規(guī)的數(shù)據(jù)壓縮方法在查閱時不能對文本和/或圖像進(jìn)行回流(re-flow)處理,并且也不能提供有效和有用的手段來使壓縮技術(shù)識別字符并將它們回流到字處理器個人數(shù)字助理(PDA)、蜂窩電話之類裝置。因而,如果硬拷貝辦公文檔被掃描成數(shù)字形式、當(dāng)前的壓縮技術(shù)對數(shù)字化文檔進(jìn)行更新、修改或作一般性改變,即使并非不可能,但也是相當(dāng)困難。
經(jīng)常地,為了增加壓縮率,壓縮方案是針對特定類型的文檔、例如二進(jìn)制、非二進(jìn)制、文本或圖像而設(shè)計的。然而,適合于一種類型文檔的壓縮方案通常對其他類型的文檔表現(xiàn)性能不佳。例如,對基于文本的文檔定制的壓縮方案一般對圖像文檔表現(xiàn)的性能不佳。這種問題的一種解決方案是選擇一種專門為要編碼的文檔或圖像的類型而設(shè)計的壓縮方案。然而,這種解決方案對于在單個文檔中具有一種以上信息類型的數(shù)字文檔可能不可行。例如,數(shù)字文檔可具有高色彩圖像及一起的文本信息,例如通常在雜志文章中所見到的那種??朔@種困難的一種辦法是分析文檔并將它劃分為不同的區(qū)域。對不同的區(qū)域分析以確定包含在該區(qū)域內(nèi)的信息類型?;谛畔⒌念愋涂梢詾槊總€區(qū)域選擇一種壓縮方案。然而實現(xiàn)這種辦法可能十分困難且要求區(qū)域具有各種不同的大小和形狀使壓縮造成困難。另一種辦法是把文檔分離成背景圖像和恒定色彩圖像。這可能是有用的,因為對背景和恒定色彩圖像可使用不同的壓縮方案。但是通過強(qiáng)迫像素值為恒定色彩會使恒定色彩圖像造成信息丟失。
另外,數(shù)字文檔的數(shù)據(jù)壓縮應(yīng)當(dāng)利用文檔的目的。某些數(shù)字文檔用于歸檔或提供硬拷貝。其它文檔可被用于修訂和/或編輯。當(dāng)前的數(shù)據(jù)壓縮方法查閱時不能對文本和/或圖像進(jìn)行回流處理,并且也不能提供有效和有用的手段來使壓縮技術(shù)識別字符并將它們回流到字處理器、個人數(shù)字助理(PDA)、蜂窩電話之類的裝置。因而,如果硬拷貝辦公文檔被掃描成數(shù)字形式,當(dāng)前的壓縮技術(shù)對數(shù)字化文檔進(jìn)行更新、修改或作一般性改變即使并非不可能、那也是相當(dāng)困難。
(4)發(fā)明內(nèi)容本發(fā)明下面的概述是為了對本發(fā)明的某些方面提供基本的了解。該概述并不想要標(biāo)定本發(fā)明的關(guān)鍵的/重要的要素或圈定本發(fā)明的范圍。其唯一目的是以簡化的形式介紹本發(fā)明的一些概念作為對以后更詳細(xì)的描述的序言。
本發(fā)明一般涉及對文檔圖像進(jìn)行編碼和解碼的系統(tǒng)和方法。文檔圖像根據(jù)掩模被分割成多個層,其中用非二進(jìn)制形式表示多個層。為了便于對文檔圖像總體作更好的壓縮,可分別對各層作獨立的處理和壓縮。
按照本發(fā)明的一個方面,從文檔圖像生成一掩模。生成的掩模是減小對于文檔圖像的掩模和多層的組合大小的壓縮估計量。掩模隨后被用來把文檔圖像分割成多個層。掩模確定或分配文檔圖像的像素到每層中。掩模和多層被單獨處理和編碼以改進(jìn)文檔圖像的總體壓縮并加速壓縮的速度。這多層圖像是非二進(jìn)制圖像并能,例如,包括前景圖像和背景圖像。
按照本發(fā)明的另一個方面,文檔圖像被分割成多個層,多層圖像包括一前景圖像,一背景圖像和一掩模。掩模是二進(jìn)制圖像并用于將文檔圖像分割成前景圖像和背景圖像??偟恼f來,生成的掩模是為了減少對掩模、前景圖像和背景圖像的組合大小的估計。不像某些常規(guī)系統(tǒng)那樣要把一層限制為單一色彩,前景圖像和背景圖像兩者都可使用任何合適的色彩范圍且不局限于單一或恒定的色彩??蓪ρ谀?、前景圖像和背景圖像進(jìn)行附加處理。掩模、前景圖像和背景圖像被編碼并被組合成單個比特流。任何數(shù)目的合適壓縮方案可被用于編碼目的。為了解壓縮,比特流被分離成掩模比特流、前景比特流和背景比特流。掩模比特流、前景比特流和背景比特流被解碼成掩模、前景圖像和背景圖像??梢詫ρ谀?、前景圖像和背景圖像實現(xiàn)附加的處理。前景圖像和背景圖像按照掩模被組合成重組的文檔圖像。
按照本發(fā)明的再一個方面,掩模分離器接收文檔圖像并從文檔圖像生成掩模。掩模以二進(jìn)制格式表示。前景背景分割器接收該掩模和文檔圖像并將文檔圖像分割成前景圖像和背景圖像。掩模編碼器將掩模編碼成掩模比特流。前景編碼器將前景編碼成前景比特流。背景編碼器將背景編碼成背景比特流。組合器組件將掩模比特流、前景比特流和背景比特流組合成一組合比特流。
為了完成上述和相關(guān)的目的,結(jié)合下述描述和附圖這里描述了本發(fā)明的某些例證性方面。這些方面只是表明本發(fā)明可以實施的各種方式,所有的方式旨在由本發(fā)明覆蓋。當(dāng)結(jié)合附圖從本發(fā)明的下述詳細(xì)描述考慮,本發(fā)明的優(yōu)點和新穎性將會變得更明顯。
(5)
圖1是根據(jù)本發(fā)明的一個方面的經(jīng)分割的分層圖像編碼系統(tǒng)的框圖。
圖2是小波計算的一個示例步驟圖。
圖3是說明當(dāng)一些像素缺失時小波計算的示例步驟圖。
圖4是說明掩模小波計算的示例步驟圖。
圖5是根據(jù)本發(fā)明的一個方面的經(jīng)分割的分層圖像解碼系統(tǒng)的框圖。
圖6說明根據(jù)本發(fā)明的一個方面的樣本文檔圖像。
圖7是根據(jù)本發(fā)明的一個方面的經(jīng)分割的分層圖像編碼系統(tǒng)的框圖。
圖8是根據(jù)本發(fā)明的一個方面的經(jīng)分割的分層圖像解碼系統(tǒng)的框圖。
圖9是根據(jù)本發(fā)明的一個方面編碼文檔的一種方法的流程圖。
圖10是根據(jù)本發(fā)明的一個方面編碼文檔的一種方法的流程圖。
圖11是根據(jù)本發(fā)明配置的系統(tǒng)的一種典型操作環(huán)境的示意方框圖。
圖12是根據(jù)本發(fā)明的典型通信環(huán)境的示意方框圖。
(6)具體實施方式
現(xiàn)在參考附圖描述本發(fā)明,其中相同的標(biāo)號在全文中用于指示相同的組件。在下面描述中,為了解釋起見,提出了許多具體的細(xì)節(jié)以提供對本發(fā)明的透徹理解。然而很明顯,沒有這些具體細(xì)節(jié)也可以實行本發(fā)明。在其它實例中,為了便于描述本發(fā)明以框圖形式示出了熟知的結(jié)構(gòu)和裝置。
正如在本申請所用的那樣,術(shù)語“組件”意指與計算機(jī)相關(guān)的實體,或者是硬件、執(zhí)行中的軟件或硬件與軟件的組合。例如,一個組件可以是但不局限于是一個在處理器上運(yùn)行的進(jìn)程、處理器、對象、可執(zhí)行部分、執(zhí)行線程、程序以及計算機(jī)。通過說明。在服務(wù)器上運(yùn)行的應(yīng)用程序和該服務(wù)器都可以是組件。一個或多個組件可駐留在進(jìn)程中和/或一個執(zhí)行的線程中,并且一個組件可以位于一計算機(jī)上和/或分布在二臺或多臺計算機(jī)之間。
另外,“文檔圖像”是意指由一個或多個色彩組成的文檔的數(shù)字表示(例如,二進(jìn)制(黑/白),灰度和/或彩色文檔)。另外,文檔圖像可具有圖像、文本和/或帶有圖像的文本,帶有潛在的文本和圖像的疊加。文檔圖像可以包括二進(jìn)制、BGB、YUV和/或其它方式表示的文檔。RGB文檔圖像由紅、綠和藍(lán)分量表示。YUV文檔用標(biāo)記為Y的亮度分量和記為U和V的色度分量表示。YUV的表示通常更適合于壓縮,因為人眼對U和V的失真較不敏感,因而可對圖像由U和V作2倍子采樣,且Y捕獲了R、G和B間的相關(guān)性。對于文本聚類的目的來說,Y表示特別令人興趣,因為當(dāng)亮度變化會造成讀取文本要容易得多。由色度變化造成的文本,例如從紅色到綠色在給定亮度下讀取要困難得多。因而彩色文檔可被變換為YUV文檔,然后對它二進(jìn)制化,不會損失太多的文本信息。文檔圖像由通常稱之為“像素”的圖片元素組成。文檔圖像可以任何形狀或大小的單頁或多頁文檔。
圖1是根據(jù)本發(fā)明的一個方面的經(jīng)分割的分層圖像編碼系統(tǒng)100的高層框圖。系統(tǒng)100識別并壓縮文本、手跡、繪畫之類的文檔。且系統(tǒng)可對任何適當(dāng)形狀或大小的單頁或多頁文檔操作。系統(tǒng)100包括掩模分離器102、前景背景分割器104、掩模編碼器106、前景編碼器108、背景編碼器110和組合組件112。掩模分離器102接收文檔圖像(例如文檔的數(shù)字表示)并生成掩模。文檔圖像可具有一頁或多頁,且通常是從文檔掃描所得。文檔圖像可具有任何分辨率,通常用每英寸的點數(shù)(dpi)表示。例如傳真文檔典型地使用大約150-200dpi的分辨率。此外,文檔圖像實質(zhì)上可具有任何像素大小或文檔大小,例如640×480像素和/或A4大小。
由掩模分離器102生成的掩??杀挥糜诎盐臋n圖像分割成兩層前景圖像和背景圖像。應(yīng)當(dāng)理解本發(fā)明的另外的方面可以把圖像分割成多于兩層。該掩模,也稱之為掩模圖像,是二進(jìn)制圖像,其中的一個像素值確定了相關(guān)的像素是否屬于前景圖像或背景圖像。掩模分離器102生成了掩模,使得前景圖像和背景圖像的組合大小得以減小。應(yīng)當(dāng)理解,這一概念可以推廣到多重掩模和多重前景,且仍然符合本發(fā)明。
有多種辦法可用于生成掩模。相同像素值壓縮要比不同像素值壓縮更好。例如藍(lán)天區(qū)域比彩色和強(qiáng)度變化的區(qū)域壓縮得更好。如前所述,生成掩模是為了減小掩模、前景圖像和背景圖像的組合大小。
可用的一種辦法是生成可能掩模的超集(superset)并選擇該超集的一個最好掩模。對于具有N個像素的文檔圖像,有2N個可能的掩模。因而,分析每個可能的掩模并確定哪個掩模生成最小總體組合圖像是可能的。然而,分析每個可能的掩??赡茉谟嬎闵鲜前嘿F的,費(fèi)時的且一般是不切實際的。
另一種辦法是將文檔細(xì)分為區(qū)域,至少部分依據(jù)能量(例如能量方差)分析每一區(qū)域以分配像素并合并區(qū)域。能量方差(它是將被取得的壓縮的估值)是種基于距離平方之和的度量。文檔的小區(qū)域,例如2×2像素或4×4像素,可被用于能量方差分析。這些小區(qū)域可被分割成前景和背景區(qū)域使得小區(qū)域的能量方差被減小或最小化。每個可能掩??杀挥糜诖_定使用哪個掩模,因為被分析的區(qū)域小得足以使這種分析是可行的。例如,一個4像素區(qū)域僅有16種用于該區(qū)域的可能的掩模排列。然后可以把這些小區(qū)域合并(例成對合并)在一起以生成掩模,總體上減小了掩模、前景圖像和背景圖像的組合大小。
前景背景分割器104接收來自掩模分離器102的掩模和文檔圖像。前景背景分割器104利用掩模把掩模文檔圖像分割成前景圖像和背景圖像。對于文檔圖像的每個像素,參照掩模的一個對應(yīng)的像素。基于掩模的對應(yīng)的像素,將每個像素分配給前景圖像和背景圖像。例如,如果掩模對應(yīng)的像素是“1”,該像素被指定給前景圖像。反之,如果掩模對應(yīng)的像素是“0”,該像素被指定給背景圖像。然而應(yīng)當(dāng)理解,是用“0”還是“1”表示前景或背景圖像可由用戶定義(例如“1”指定給背景圖像而“0”指定給背景圖像)。
此外,前景圖像和背景圖像互不相交。然而,可對掩模執(zhí)行附加的處理以產(chǎn)生不同的前景和背景掩模,它們有時可以重疊,以在沿著掩模的邊界處減小人為的效應(yīng),或整個地忽略某些像素以增加壓縮。前景掩模隨后被用來從文檔圖像中分割出前景圖像,而背景掩模用來從文檔圖像中分割出背景圖像。在這種情況下,前景圖像和背景圖像不是互相不相交,而是稍有重疊一一這種重疊會降低壓縮但減小了邊緣效應(yīng)。即使分割文檔圖像要用到前景掩模和背景掩模,但在分割了文檔圖像后就不再需要前景掩模和背景掩模。
前景圖像和背景圖像具有孔或空白區(qū)域,其中的像素被指定給其它圖像。這些空白區(qū)域可被稱為無關(guān)像素。相反,非空白區(qū)域可被稱為有關(guān)像素。為了減小前景和背景圖像的總體壓縮大小可以任何適當(dāng)?shù)姆绞綄瞻讌^(qū)域處理。一種辦法是用無關(guān)像素值填充這些空白區(qū)域。選擇無關(guān)像素值使得能增加壓縮并因而減小了圖像大小。例如,一幅示例的背景圖像可見是白色,但在文本所處位置處具有無關(guān)像素。在這例子中,無關(guān)像素可用白色填充以增進(jìn)壓縮。另一種辦法是不填充空白區(qū)并使用可利用空白區(qū)域的壓縮方案,譬如掩模小波壓縮。也可按照本發(fā)明使用其它方法。
前景圖像和背景圖像還可進(jìn)行附加的處理??砂亚熬昂捅尘皥D像大小降低為低分辨率,因而減小了各自的壓縮大小。例如,背景和前景圖像可從300dpi降低到100dpi。還有,可識別前景和背景圖像中的恒定色彩連通分量。恒定色彩連通分量是多個基本上具有相同色彩值的連通的像素。恒定色彩連通分量的識別可通過定位一個種子像素并使用一算法來確定與它連通的色彩基本相同的像素而進(jìn)行??稍O(shè)定一閾值或最小像素使得恒定色彩連通分量具有最小數(shù)目的像素。該識別的恒定色彩連通分量可增加對文檔圖像的壓縮。
掩模編碼器106從掩模分離器102接收掩模并對掩模編碼,以從該掩模產(chǎn)生壓縮的比特或壓縮的掩模比特流。任何適當(dāng)?shù)膲嚎s方案都可用于掩模編碼器106。掩模是二進(jìn)制的且通常包括文本信息。因而,應(yīng)當(dāng)選擇壓縮方法能對二進(jìn)制和文本信息很好壓縮。兩層壓縮方案可用于編碼掩模。
可用于編碼掩模的一種壓縮方案是CCITT(國際電話和電報咨詢委員會)。CCITT目前稱為ITU-T(國際電信聯(lián)盟一電信部(1994年改名)),這是一個標(biāo)準(zhǔn)組且是傳真/調(diào)制解調(diào)通信的無損壓縮技術(shù)的名稱。這類壓縮對二進(jìn)制圖像工作得很好。典型的壓縮率對較早版本V.42bis是4∶1,對較新版本V.44 2000是6∶1。這是基于Lempel-Ziv-Jeff-Heath(LZJH)壓縮算法。應(yīng)當(dāng)理解,按照本發(fā)明也可使用其它合適的壓縮方法或方案對掩模編碼。
前景編碼器108從前景背景分割器104接收前景圖像并將前景圖像編碼成前景比特流。背景編碼器110從前景背景分割器104接收背景圖像并將背景圖像編碼成背景比特流。任何合適的壓縮方案均可用于前景編碼器108和背景編碼器110。例如漸進(jìn)波長編碼(PWC)、漸進(jìn)變換編碼(PTC)、JPEG、JPEG 2000,而掩模小波方案可用于對前景圖像或背景區(qū)域編碼。對于某些壓縮方案(例如,掩模小波),前景編碼器108和背景編碼器110可需要該掩模以對前景圖像和背景圖像編碼。
組合器組件112接收來自掩模編碼器106、前景編碼器108以及背景編碼器110的經(jīng)壓縮的比特并將這些比特組合成輸出流或輸出文件。組合器組件112可在輸出文件中包括標(biāo)頭信息以標(biāo)識或提供諸如編碼類型、字典以及可由解碼器用于重構(gòu)文檔圖像之類的信息。
出于說明的目的,編碼系統(tǒng)已被描述為通過上述各種組件立即對整個圖像處理。然而,應(yīng)當(dāng)理解為了減少存儲器的使用可使用重疊掃描區(qū)域法。例如,文檔圖像的第一條512行可由系統(tǒng)處理。然后,用重疊量為例如10行的重疊第一條的第二條可被系統(tǒng)處理。隨后各條接著被處理直到整個文檔已被處理一重疊量有利于減輕各條之間的變化。
如上所述,前景圖像和背景圖像具有空白或無關(guān)區(qū)域??捎卸喾N方法對空白區(qū)域處理。一種辦法是在空白區(qū)域內(nèi)填充數(shù)據(jù)并然后使用常規(guī)的壓縮技術(shù)。一種填充圖像空白區(qū)域的簡化處理就是用該圖像的平均像素值填充這些空白區(qū)。然而,這種處理過程可在掩模邊界處產(chǎn)生尖銳的不連續(xù)性,對于給定的峰值信噪比(PSNR)可增加所需的比特率并在掩?;蚩瞻讌^(qū)域邊界附近產(chǎn)生可察覺的環(huán)紋。另一鐘處理過程是用最接近非掩模(或有關(guān)區(qū)域)的像素的色彩對每個像素著色。一種標(biāo)準(zhǔn)形態(tài)學(xué)算法允許只用兩次通過所有像素就可執(zhí)行該處理過程,使掩模下的Voronoi填充的空白區(qū)。然后重構(gòu)前景和背景圖像,對重構(gòu)圖像低通濾波并接著把已知的像素恢復(fù)成它們的正確值。如果低通濾波器的截止頻率太低,可出現(xiàn)尖銳的邊緣使得所需的比特率增加并在邊界附近產(chǎn)生可察覺的環(huán)紋。
另一個處理空白區(qū)域的辦法是使用在凸集上的投影。例如,考慮兩個凸集在可見像素上匹配輸入的圖像集,以及具有某些小波系數(shù)集(例,超出某個分辨率級別的所有高頻系數(shù))設(shè)定為零的圖像集。通過交替投影到這兩個集上,可找到一幅圖像與可見像素一致并具有很好的壓縮率,因為有許多零小波系數(shù)。
還有的另一種解決空白區(qū)域的辦法是使用前景編碼器108和背景編碼器110顯式設(shè)計為不規(guī)則柵格的小波變換。例如,這種小波分解被用于有關(guān)計算機(jī)視覺和計算機(jī)圖形學(xué)中的幾何數(shù)據(jù)壓縮。這種小波適用于不規(guī)則掩模圖案。
可使用的小波變換壓縮方案是掩模小波變換。掩模小波變換可用于這種前景編碼器108和背景編碼器110,其中小波函數(shù)作為掩模的函數(shù)隨情況而改變。應(yīng)理解,雖然在圖1中未示出,為了使用掩模小波變換壓縮方案,要向前景編碼器108和背景編碼器110提供掩模。例如,規(guī)則的常規(guī)小波函數(shù)會使用k個值作為預(yù)測。然而,對于掩模和空白區(qū)域,規(guī)則的小波函數(shù)不能處置沒有值的像素,(例如,在無關(guān)區(qū)域或空白區(qū)域中的無關(guān)像素)。相反,可變小波函數(shù)僅使用背景圖像和前景圖像的可用值或可見區(qū)域。因而,掩模小波變換避免了需要用無關(guān)像素填充空白區(qū)填之舉。
圖2是使用“提升”法的傳統(tǒng)小波計算的一步驟圖例。該圖說明用于三次小波在位置3預(yù)測步驟和在位置6處相應(yīng)的更新步驟(為清晰起見在圖中省略了其它位置)。每個箭頭邊上的系數(shù)表示為了執(zhí)行每一步如何計算線性組合。例如,位置3處的“細(xì)節(jié)”值(從高通濾波器所得)可由下式計算所得d3=s3-(-s0+9s2+9s4-s6)/16 式1更新步驟由下式計算s6=d6+(-d3+9d5+9d7-d9)/32 式2圖3解釋當(dāng)某些像素值缺失時引起的問題。圖中位置1、2、5、8和9處無值可供使用。顯然計算傳統(tǒng)的三次小波不行,因為其結(jié)果將取決于缺失值。把缺失值設(shè)定為某個常數(shù)(零或?qū)φ麄€圖像的平均值)可引入尖銳的不連續(xù),這個將造成差的壓縮和/或不希望的人為效應(yīng)。相反,掩模小波壓縮方案按照掩模函數(shù)按情況改變小波函數(shù)。例如,在提升的預(yù)測期間,如果有k個值可用于預(yù)測,可把k-1階多項式用于預(yù)測。當(dāng)僅有三個值可供使用時,就使用二次多項式而不是三次多項式。如只有一個值可用,則將使用常量多項式,小波就成為Haar小波。注意,如果信號是k-1階多項式且k個像數(shù)未被掩模,則預(yù)測是完全精確的。
掩模小波變換壓縮方案使用從偶數(shù)位置處的系數(shù)計算對奇數(shù)位置處所有奇數(shù)系數(shù)的預(yù)測值。奇系數(shù)和其預(yù)測值間的差就是小波系數(shù)——這可以看成為在奇數(shù)位置處具有某些零的高通濾波器。信號s中心處于某一位置并加以相應(yīng)的下標(biāo)。為了簡單,該方案如圖4所示描述為關(guān)于7抽頭的濾波器。圖4示出了提升步驟,其中s0預(yù)測為S-3,S-1,S1,S3的函數(shù)并計算殘差d。
濾波器α按照標(biāo)準(zhǔn)矩陣的標(biāo)記從0到i下標(biāo)。小波系數(shù)d由下式提供d=s0+Σi=0i=|k/2|s2i-k/2ai]]>式3其中k是濾波器中的抽頭數(shù)目(這時k=7)。高通濾波器的各階矩(moment)M可寫為(設(shè)定si=in)Mn=0n+Σi=0i=|k/2|(2i-k/2)nai]]>式4設(shè)正規(guī)信號可用j階的低階多項式逼近(使用泰勒展開式),然后選擇α使得前j+1個階矩被設(shè)為0。這時小波變換將具有許多0且壓縮較好。因而,如果k=7,α有4個自由度且前4個階矩被設(shè)為0。這些結(jié)果可用下列系統(tǒng)驗證1111-3-1139119-27-1127a0a1a2a3=-1000]]>式5寫成矩陣形式為Wα=c。這一系統(tǒng)的解就是熟知的三次小波中所用的系數(shù)α=[1/16,-9/16,-9/16,1/16]。
該系統(tǒng)可推廣到掩摸存在的情況,例如來自圖1的掩摸。換句話說,系數(shù)s2i-k/2中的某些缺失了,這可用引入一矩陣M來模擬。m=m00000m10000m20000m3]]>式6其中mx∈{0,1},使得wmα=c。m的作用是在式5的系統(tǒng)中移去列。不幸的是,在這系統(tǒng)中,當(dāng)mi=0時的αi是欠定的,而其它情況下是過定的。其理由是因為對于與可見像素對應(yīng)的αi施加了太多的消失階矩約束。這種情況可以通過僅使前j個階矩應(yīng)當(dāng)強(qiáng)制為0得到解決,倘若j個系數(shù)使mi≠0的話。這對應(yīng)于僅保留式5中前j個方程。對于欠定系數(shù)αi(當(dāng)αi被乘以mi=0時),加上任意約束αi=0;這樣可以單個系統(tǒng)方程實現(xiàn)(pwm+m-I)a=pc 式7其中I是單位矩陣,且p=p00000p10000p20000p3]]>式8以及pi=(tr(m)>i)?1∶0;式9對pi的約束確保在式5系統(tǒng)中的行對于m中的每個0系數(shù)均從式5系統(tǒng)的底部各系數(shù)中移去。換言之,如果有j個系數(shù)mi不等于0,則對于i=
,pi=1,而其它情況,pi=0??扇菀椎仳炞C,該系統(tǒng)對于mi∈{0,1}始終有唯一解。對每個可能m值α的解答式由式9提供。對于三次小波可總結(jié)為下表1,其中當(dāng)系統(tǒng)的維數(shù)為4時是對于不同m值式9的解。
表1接著,用上面的預(yù)測對信號s更新。在更新步驟,希望在信號被乘以(-1)i后低通濾波器的一階矩消失。換言之,如果正規(guī)信號(例,可寫為低階多項式)被乘以最高頻率信號(-1)i,則低通濾波器應(yīng)輸出0。這一條件可容易地強(qiáng)制轉(zhuǎn)換為0矩約束,正如前節(jié)那樣,除非輸入具有si=(-1)iin形式而不是si=in。使用類似用于預(yù)測步驟的記號,更新步驟對于方程s=s0+Σi=0i=|k/2|d2i-k/2bi]]>式10其中k是濾波器中的抽頭數(shù)目(此時k=7)。低濾波器的各階矩可寫作為;Mn=0n+Σi=0i=|k/2|d2i-k/2bi]]>式11但是,對于每個di,上式可局部寫為(設(shè)si=(-1)iin)dj=sj+Σi=0i=|k/2|sj+2i-k/2ai=-jn+Σi=0i=|k/2|(j+2i-k/2)na]]>式12由于j和k/2是奇數(shù)。因為各個αi被設(shè)定為生成0階矩,下式正確0=jn+Σi=0i=|k/2|(j+2i-k/2)nai]]>式13這意謂著dj=-2jn,因而Mn=0n+Σi=0i=|k/2|-2(2i-k/2)nbi]]>式14對于要壓縮的小波及正規(guī)信號,盡可能多的矩應(yīng)該盡量等于0。因為有4個自由度,前四個矩可被設(shè)定為0。這一結(jié)果在下述系統(tǒng)中容易得到驗證1111-3-1139119-27-1127b0b1b2b3=1/2000]]>式15寫成矩陣表示為mb=c’。這一系統(tǒng)的解就是熟知的三次小波所用的系數(shù)b=[-1/32,9/32,9/32,-1/32]。
現(xiàn)在,假定某些系數(shù)si缺失。首先假定所有缺失值僅在偶數(shù)位置處。這一系統(tǒng)可類似以前的方式求解以驗證下式(pwrn+m-I)b=pc′式16注意m和p矩陣依賴于s0的中心位置。每個位置觀察到掩模的不同部分并因而具有其自己的m和p。表2提供了方程16的解,如下所述,它說明了當(dāng)系統(tǒng)為4維時對于不同m值方程16的解。為了導(dǎo)出式16,假設(shè)奇數(shù)位置不受掩模。如果某些奇數(shù)位置被掩模,但掩模值小于n,則dj=-2jn且式16成立。否則,在預(yù)測步驟會有太多的掩模像素使更新步驟中的第n階矩為0(小波系數(shù)仍將很小但不為0)。通過局部地撤消每一步驟容易計算出小波反變換,這多虧有了提升形式。
表2因而,掩模小波變換可用于編碼前景和背景圖像而不用填充空白區(qū)域。然而如前所述,不同的實現(xiàn)可使用其它編碼方法或用無關(guān)值填充空白區(qū)域的壓縮方案。
圖5是按照本發(fā)明的一個方面的經(jīng)分割的分層圖像解碼系統(tǒng)框圖。該系統(tǒng)接收壓縮后的比特流并從壓縮后的比特流生成重新組合的圖像。該系統(tǒng)包括分離組件502、前景解碼器504、背景解碼器506、掩模解碼器508及組合器510。
分離器組件502接收壓縮的比特并分離這些比特以形成前景比特流、背景比特流和掩模比特流。分離器組件502可使用標(biāo)頭信息來分離比特流。前景解碼器502解壓縮前景比特流以生成前景圖像。背景解碼器506解壓縮背景比特流以生成背景圖像。前景解碼器504和背景解碼器506可使用任何數(shù)目的解壓縮方案。諸如漸進(jìn)小波或漸進(jìn)變換。
掩模解碼器508解壓縮掩模比特流以生成掩?;蜓谀D像。掩模解碼器508還能檢索布局和/或回流信息。此外,掩模解碼器508能獲得用于重構(gòu)文本信息的字典。掩模解碼器508典型地使用兩層解壓縮方案。對于某些壓縮方案(例如掩模小波),前景解碼器504和背景解碼器506可從掩模解碼器508要求經(jīng)解壓縮的掩模以獲得前景圖像和背景圖像。
組合器510把前景圖像、背景圖像和掩模組合成重組的文檔圖像。重組的圖像與原始文檔圖像一樣或逼近。此外,根據(jù)所需的顯示,重組圖像可具有不同的形狀和/或大小。例如,信件大小的文檔掃描在具有較小屏幕的便攜式裝置上可以顯示得不同。組合器510根據(jù)掩模從前景和背景圖像生成重組文檔圖像的像素。重組圖像的每個像素可通過參考掩模的對應(yīng)像素而確定,從而確定重組文檔的像素應(yīng)當(dāng)取自前景還是背景圖像。例如,掩模像素值1可指示重組文檔的像素應(yīng)取自前景圖像的對應(yīng)像素。
圖6說明了根據(jù)本發(fā)明的一方面的示例文擋圖像。圖6是示例性的且僅旨在進(jìn)一步說明本發(fā)明。文擋圖像601顯示具有各種色彩和/或明暗。文擋圖像601是一幅典型的文擋圖像,它包括文本信息602和圖像信息604和603以及背景605。圖6所示的模式說明了不同的明暗或色彩。因而,文本信息602可具有不同于圖像信息603和604或背景605的顏色。另外,信息可使用任何適當(dāng)數(shù)目的色彩。根據(jù)本發(fā)明,例如使用圖1的系統(tǒng),文擋圖像601被分割成3個組成部分一個掩模610、一個前景圖像611和一個背景圖像612。本發(fā)明的其它方面可將文檔圖像分割成多于二層或三層。
掩模610是二進(jìn)制圖像且因而僅用黑白區(qū)域表示。掩模610確定或分配文檔圖像601的像素是進(jìn)入前景圖像611還是背景圖像612。掩模610還用于通過判斷前景圖像611和背景圖像612的哪些像素是在重構(gòu)文檔中而生成重構(gòu)文檔圖像。重構(gòu)文檔與文檔圖像601一致或逼進(jìn)。
如圖6中可見,前景圖像611包括了如掩模610所指示的文檔圖像601的一部分。該掩模610的黑像素把文檔圖像601的像素分配給前景圖像611。前景圖像603的其它部分可用無關(guān)像素615填充。如前所述,無關(guān)像素615增加了壓縮但不出現(xiàn)在重構(gòu)圖像中。類似地,背景圖像612包括了如掩模610所指示的文檔圖像601的一部分。該掩模610的白像素把文檔圖像601的像素分配給背景圖像612。背景圖像604的其它部分可用無關(guān)像素606填充,如圖6所示。無關(guān)像素606的存在用于壓縮的目的且不包括在重構(gòu)圖像中。出于說明的目的,文本信息602的外形顯示在背景圖像612中。然而,應(yīng)當(dāng)理解文本信息602也可用與背景605匹配的無關(guān)像素來填充使得文本信息602在背景圖像612中不可見。
如上所述,圖6只是根據(jù)本發(fā)明的許多可能文檔圖像中的一個例子。許多不同的變換也可使用且仍符合本發(fā)明。
圖7是根據(jù)本發(fā)明的一個方面的經(jīng)分割的分層圖像編碼系統(tǒng)的框圖。該系統(tǒng)可識別文檔中的文本、手跡、繪畫和類似內(nèi)容信息并壓縮文檔。該系統(tǒng)可對具有適當(dāng)形狀和大小的單頁或多頁文檔操作。
色彩空間轉(zhuǎn)換器702對文檔圖像操作以轉(zhuǎn)換文檔圖像的色彩空間。色彩空間是指在文檔圖像中如何表示色彩。色彩空間一般具有若干分量來提供基于各個像素的色彩。例如,圖像可用RGB(紅、綠和藍(lán))色彩空間表示,其中每個像素具有RGB每個分量的一個值。此外,可包括透明分量來指示像素的透明性。像素的總體顏色由對這些分量的組合得到。例如,白色可用RGB值為255,255和255得到(設(shè)每個分量為8比特),而藍(lán)色可作用RGB值為0,0和200得到。RGB色彩空間常被用于顯示圖像和/或掃描文檔。然而RGB色彩空間可能會妨礙壓縮。
通常文檔中的色彩是相關(guān)的和/或互相連系的。對于RGB色彩空間,各分量(由通道)各自壓縮,這就造成同一信息被編碼多次。通過把文檔的色彩空間轉(zhuǎn)換成更可壓縮的色彩空間能改善文檔圖像的壓縮。
一種可能的色彩空間轉(zhuǎn)換是把文檔圖像從RGB色彩空間轉(zhuǎn)換成YUV色彩空間。Y、U和V分量分別是亮度、紅色度和藍(lán)色度分量。YUV開始是為電視觀看開發(fā)的。該轉(zhuǎn)換是優(yōu)先基于觀看而不是為壓縮性研制的。這樣,文檔圖像可用下式從RGB色彩空間轉(zhuǎn)換為YUV色彩空間Y=0.6G+0.3R+0.1BU=R-Y 式17V=B-Y
與RGB色彩空間相比,YUV色彩空間的確提供了較好的壓縮,因為它利用了分量間的相關(guān)性使得相同的信息不用編碼多次。大多數(shù)相關(guān)信息包含在Y分量中。式17說明YUV分量可用比對應(yīng)的RGB分量更小的值來表示。然而,如上所述,YUV色彩空間不是為壓縮性設(shè)計的,而是更適合可觀看性。應(yīng)理解文檔文件可通過修改式17而轉(zhuǎn)換回RGB色彩空間以用于任何適合的目的,例如顯示。
另一種色彩空間轉(zhuǎn)換是把文檔文件從RGB色彩空間轉(zhuǎn)換成YCoCg色彩空間。YCoCg表示利用了由Y表示的亮度,由Co表示的橙色色度和由Cg表示的綠色色度,利用變換可將RGB分量映射成YCoCg(例如,作為上述常規(guī)的YUV的替換)。YCoCg=12120-2-12-1RGB⇔RGB=11-11011-1-1YCoCg]]>式18重要的是,YCoCg色彩空間映射的優(yōu)點是從RGB到Y(jié)CoCg及從YCoCg到RGB的逆轉(zhuǎn)換可利用整數(shù)算術(shù)來完成。更進(jìn)一步,執(zhí)行逆變換不用乘法。YCoCg色彩空間表示可比流行的YUV得到顯著較好的壓縮性能結(jié)果,因為它更好逼近于對現(xiàn)代數(shù)字圖片數(shù)據(jù)作主分量分析所得到的統(tǒng)計上的最佳空間。先進(jìn)的YCoCg色彩空間不是為觀看目的,而是為壓縮的目的設(shè)計的。更何況,由于式18的方程或變換使用整數(shù)算術(shù),文檔圖像可以高效的計算方式轉(zhuǎn)換成YCoCg色彩空間。
應(yīng)理解,色彩空間轉(zhuǎn)換器702可將文檔圖像從任一色彩空間轉(zhuǎn)換成任一色彩空間。例如,色彩空間轉(zhuǎn)換器702可將文檔圖像從YUV色彩空間轉(zhuǎn)換成YCoCg色彩空間。另外,如果文檔圖像已在較佳色彩空間,就不執(zhí)行轉(zhuǎn)換。
掩模分離器704從色彩空間組件702接收文檔圖像并生成掩模。由掩模分離器704生成的掩模被用來把文檔圖像分割成兩層前景圖像和背景圖像。應(yīng)理解本發(fā)明的另外方面可將圖像分割成多于兩層。掩模,也稱為掩模圖像,是二進(jìn)制圖像,其中每個像素值確定了像素是否屬于前景圖像或背景圖像。掩模分離器704生成掩模,減小了掩模、前景圖像和背景圖像的組合大小。
有幾種方法可用于生成掩模。對于壓縮,相似的像素值比不相似像素值壓縮更好。例如,藍(lán)天區(qū)域壓縮得比可變色彩和可變強(qiáng)度的區(qū)域更好。如前所述,生成掩模是為了減小掩模、前景圖像和背景圖像的組合大小。
一種可用的辦法是生成所有可能的掩模并簡單地選取最好的一個。對于具有N個像素的文檔圖像,有2N個可能的掩模。因而,有可能全面檢查每個可能的掩模并確定哪一個能產(chǎn)生最小的總體組合圖像。然而,全面檢查每個可能掩模在計算上是昂貴的、費(fèi)時的且一般不是可行的。
另一種辦法是將文檔細(xì)分成各區(qū)域,分析每一區(qū)域以分配像素并合并區(qū)域?;诰嚯x平方之和測量能量方差,它是對要取得的壓縮的估值。可對文檔的小區(qū)域,例如2×2像素或4×4像素分析能量方差。小區(qū)域可被分割成前景和背景區(qū)域使得小區(qū)域的能量方差被減小或最小化??蓪γ總€可能掩模分析以確定使用哪個掩模,因為該區(qū)域足夠小使得這個分析是可行的。例如,4像素的區(qū)域?qū)τ谠搮^(qū)域僅有16種可能的排列。小區(qū)域然后可能被合并在一起以生成掩模,該掩模總體上減小了掩模、前景圖像和背景圖像的組合大小。
另一種生成掩模的辦法是認(rèn)為前景和背景在一個區(qū)域上是常數(shù),而生成的掩模最小化或大大地減小了圍繞這些常數(shù)的方差或能量方差。方差在這里被用于對前景和背景可能取得的壓縮的一種估值,而不是實際生成掩模、分割文檔圖像以取得前景和背景圖像并對它們壓縮。能量方差,如前面所討論的,也是一種能量度量(距離平方之和),是對壓縮后的前景和背景大小的一種可接受的估計。首先完全忽略壓縮掩模的代價。今后的步驟可以對掩模大小加以考慮。
對于一給定區(qū)域,假定該區(qū)域是一具有N個像素的集合S,且F和B是分區(qū)S(即F∪B=S且F∩B=φ)。若f(x)是在像素位置x(x∈S)處的圖像值,前景和背景的方差分別為vF=Σx∈F(f(x)-μF)2]]>式19vB=Σx∈B(f(x)-μB)2]]>式20其中,μF=1NFΣx∈Ff(x)]]>且μB=1NBΣx∈Bf(x)]]>分別是前景和背景的均值,且NF和NB分別是前景和背景中的像素值。注意到這些方差也可表示為vF=Σx∈Ff(x)2-NFμF2]]>式21vB=Σx∈Bf(x)2-NBμB2]]>式22要找到能最小化和E=vF+vB的S的適當(dāng)分區(qū)F和B。即使用了這個簡化,問題仍是極其困難的,因為仍然有2N個可能的掩模。因而將圖像進(jìn)一步劃分成2×2像素的子圖像。在每個2×2子圖像上,僅有24=16個可能的掩模,這意味著在每個這樣的區(qū)域上,有可能確定最佳的F和B,使E=vF+vB最小化(通過試驗所有16種組合并保留具有最小能量的一個)。實際證明不必對16種組合都試驗。該問題等價于一個K均值問題,其中K=2,且因為f(圖像)是標(biāo)量函數(shù),對f(x)值分類就得到一解答,這計算非常有效對4個像素值分類并確定3個分區(qū)中的哪一個(與分類有關(guān))產(chǎn)生最低的能量。該部分和可被重復(fù)使用在每個分區(qū)中以最小化操作數(shù)目。
然而這一解答有缺陷,即每個2×2子區(qū)域有不同的前景和背景,它們能拾取甚至最小的像素噪聲而產(chǎn)生不適當(dāng)?shù)难谀?。下一步涉及組合鄰接的區(qū)域。例如,假設(shè)有2個區(qū)域1和2,以及它們相應(yīng)的前景和背景F1、B1和F2、B2。當(dāng)組合這4個集,實際上有7種不同的可能性
表3獲勝的組合是所得的具有最低能量E=vF+vB的組合。注意可嘗試所有7個組合,或者可對前景和背景中的平均值進(jìn)行分類并且僅與分類有關(guān)的分區(qū)被考慮。進(jìn)一步,如果每個區(qū)域保留了用于前景的量ΣFf(x),ΣFf(x)2]]>和NF以及ΣBf(x),ΣBf(x)2]]>及NB,E的組合可以恒定的時間來計算。在合并后,這些量通常必須被重新計算,但幸好這可在恒定的時間內(nèi)完成。還注意到該區(qū)域上的和∑f(x)2對每個分區(qū)是常數(shù),且不必為了選擇最佳化分區(qū)而被計算。正如下面所示,該區(qū)域上的和∑f(x)2也可用于確定何時不合并區(qū)域。
進(jìn)行組合鄰接區(qū)可通過組合水平鄰接的2×2區(qū)域成2×4區(qū)域,并接著組合垂直鄰接的2×4區(qū)域成4×4區(qū)域。4×4區(qū)域組合成8×8區(qū)域,依次類推直到只剩一個區(qū)域,它被分區(qū)成前景和背景。
不幸的事,這種技術(shù)可用于合并把若干灰度級放入前景或背景中,當(dāng)區(qū)域中有多于2個色彩時會潛在地丟失諸如文本的重要細(xì)節(jié)。例如,如果區(qū)域1具有白色上書寫的灰色文本,而區(qū)域2絕大多數(shù)是黑的,兩區(qū)域的合并可導(dǎo)致灰色和白色被放入前景而黑色被放入所得區(qū)域的背景中,丟失了文本信息。然而,無論何時二種色彩被并入前景或背景中時,對該區(qū)域可察覺到能量(或方差)的尖銳增加,因為常量不再是這類區(qū)域的好模型。因而,希望使用一種算法,如果能量超過有實驗決定的某個閾值K就不合并鄰近的區(qū)域。該算法產(chǎn)生的掩模捕獲了一頁中大多數(shù)的文本和圖形線條。
然而該算法有許多要改進(jìn)的地方——其中之一是要使用簡單區(qū)域。小區(qū)域(例4×4)的1區(qū)的能量可被測量,且如果該能量足夠低(使用由實驗確定的另一閾值)的話,整個區(qū)域可被放入前景或背景中。因而,如果能量低以于一閾值的話,可避免對小區(qū)域的分區(qū),從而加速了算法的操作。替代對前景和背景使用常量的假設(shè),可使用多項式回歸來表示前景和背景。例如,多項式是方程αx+βy+μ的平面,能量被定義為vF=Σx,y∈F(f(x,y)-αFx+βFy+μF)2]]>式23vB=Σx,y∈B(f(x,y)-αBx+βBy+μB)2]]>式24其中,x,y為像素位置的下標(biāo),而αF,βF和μF是最小化vF的標(biāo)量,而αB,βB和μB是最小化vB的標(biāo)量。注意,αF,βF和μF可使用量∑f(x,y)2,∑f(x,y)x,∑f(x,y)y和∑f(x,y)以常數(shù)時間求得解。這是一個具有三個未知量和三個方程的線性系統(tǒng),并且也同樣適合用于αB,βB和μB。如前所述,該算法在每一合并階段自底向上最小化E。前景和背景不能按平均值來分類,因而所有7種組合均要被測試以確定哪個組合使E最小化。為了保持執(zhí)行每一測試并以常數(shù)時間合并,要為前景和背景的每個區(qū)域保持量∑f(x,y)2,∑f(x,y)x,∑f(x,y)y,∑f(x,y)和N。簡單區(qū)域的最佳化仍然可能,但可假設(shè)在區(qū)域上是常數(shù),多項式回歸或兩者兼有。
掩模處理器組件706對掩模執(zhí)行任何數(shù)量的處理操作。該掩模處理器組件包括噪聲移去組件708和抖動檢測器710。應(yīng)理解,本發(fā)明的另外替換方面可包括其它掩模處理組件。進(jìn)一步應(yīng)理解,本方面的替換方面可包括或多或少的處理組件。
噪聲移去組件708從掩模中移去噪聲。如前所討論的,數(shù)字文檔通常通過以標(biāo)準(zhǔn)文檔方式掃描而創(chuàng)建。通常通過掃描和數(shù)字化處理幾乎總要給數(shù)字文檔引入一定量的噪聲。例如,在掃描器托盤上的指痕或文檔上的折痕可使噪聲和/或錯誤的掩模包括在文檔圖像中。噪聲移去組件708首先試圖識別掩模中的噪聲。有各種方法可用于識別掩模中的噪聲。一種辦法是分析掩模中的連通分量。連通分量是同一彩色例如黑色的連通像素。掩模可從左到右、從上到下、一頁一頁地掃描連通分量。連通分量可用位置和形狀信息或位圖信息存儲。然后分析文檔的每個像素以確定它是否是噪聲。因而,對每個像素,分析其周圍的區(qū)域,例如5個像素距離內(nèi)的所有像素以確定在周圍區(qū)域中的和/或與周圍區(qū)域相交的連通分量的數(shù)目。如果連通分量的數(shù)目小于一閾值,該像素被認(rèn)為是噪聲并被從掩模中除去。然后根據(jù)只要能提供較好的壓縮而把該像素指定給文檔的前景或背景圖象。其它辦法也可使用并仍然符合本發(fā)明。
一般,噪聲移去組件708能識別文檔中隨機(jī)出現(xiàn)的和/或與文本或圖像不相關(guān)的像素。應(yīng)理解噪聲移去組件708不一定必須從文檔中移去所有噪聲。噪聲移去組件708通過把這些噪聲像素指定給前景或背景圖像而從掩模中移去識別的噪聲。此外,例如用周圍像素值來代替所識別的噪聲像素也可把噪聲移去。
抖動檢測器710檢測在掩模中的抖動并從掩模中移去抖動。抖動法是用于計算機(jī)圖形學(xué)中的一種技術(shù),用于在單色顯示器或打印機(jī)上建立可變灰度陰影的幻影或在彩色顯示器或打印機(jī)上產(chǎn)生附加的顏色。抖動法依賴于將圖像的各區(qū)域處理為以不同圖案著色的點群。類似于稱為半色調(diào)技術(shù)的打印圖像,抖動法利用了人眼對不同色彩斑點的模糊傾向,通過對它們的效果平均并將它們合并成單個可感知的形狀和色彩實現(xiàn)。根據(jù)在給定區(qū)域中的黑點和白點的比例,總體效果是具有特定灰度的陰影。抖動法用于增加計算機(jī)圖形的真實性并在低分辨率時柔化了曲線和對角線上的鋸齒狀邊緣。然而,抖動對文檔圖像可造成問題。抖動如果沒有被適當(dāng)檢測出并處理,可被誤解為文本、手跡或圖形內(nèi)容。
抖動檢測器710識別掩模中的抖動區(qū)域——可對這些區(qū)域劃分,使得每個區(qū)域或子區(qū)域具有類似的抖動模式。抖動檢測器710移去或處理被識別的抖動區(qū)域。例如,抖動檢測器710可將一抖動區(qū)域識別為淡灰色。抖動檢測器710可簡單地移去該抖動區(qū),或?qū)⒃搮^(qū)域設(shè)定為淡灰色。應(yīng)理解,將一區(qū)域改變?yōu)殛幱皩⑸婕靶薷奈臋n圖像。通過修改掩模,抖動器710也可把識別的抖動區(qū)域重新分配給前景或背景。
許多辦法可用于檢測和/或處理抖動。一種辦法是分析掩模中的連通分量。連通分量是同一色彩,例黑色的連通像素。掩模可從左到右、從上到下、一頁一頁地搜索連通分量。連通分量可用位置和形狀信息或位圖信息存儲。對掩模的每個像素,確定在周圍區(qū)域中的和/或與周圍區(qū)域相交的連通分量的量或數(shù)目。周圍區(qū)域可以是圍繞該像素的一些像素,例如7個。如果區(qū)域中的連通分量數(shù)目大于一閾值,就移去抖動。然后把該像素分配給前景或背景圖象,這樣就移去了抖動。通過計算區(qū)域背景中的像素量和區(qū)域前景中的像素量可確定這一分配,然后,如果區(qū)域前景中的像素量大于區(qū)域背景中的像素量則該像素可被指定給前景。否則該像素可被指定給背景。用于識別和/或處理抖動或半色調(diào)的其它方法也可與本發(fā)明一起使用。
聚類組件712可識別掩模中的聚類。聚類組件712定位掩模中的連通分量。連通分量如上所述是多個連通的像素,且可以是例如四向連通分量或八向連通分量。在定位了掩模中的連通分量后,聚類組件712識別類似的連通分量并將它們分組成聚類。一個聚類是一組類似的連通分量。一般,聚類代表了字母數(shù)值字符,包括手跡字符,但也可包括其它信息。然后,可以用若干聚類表示單個字符,聚類可大大地增加壓縮。
要增加壓縮和減小文件大小的理由是,每個連通分量是按位置和按指向?qū)儆谛螤钭值涞男螤畹闹羔榿韰R總的。形狀是位圖,或連通分量或聚類的“圖像”。該連通分量也稱為標(biāo)記。算法的聚類方面是要確定哪個形狀應(yīng)屬于字典,哪個形狀最接近于每個連通分量。典型地,形狀字典是文件大小的一部分,甚至可被跨頁共用。指向形狀的指針用頁面中的位置(X和Y)和形狀號來表征。X和Y位置可用先前位置來壓縮,而形狀索引可用關(guān)聯(lián)文本或語言模型來壓縮。
聚類組件712可利用許多方法來標(biāo)識聚類。一種辦法是互相比較標(biāo)記的形狀,并識別類似的和/或一致的標(biāo)記。另一種辦法是利用現(xiàn)有聚類的特性和標(biāo)記或連通分量的特性。該現(xiàn)有聚類是至少具有一個標(biāo)記的分組,這些分組先前已被定義為聚類。從文檔提取的標(biāo)記特性與現(xiàn)有的聚類特性相比較。這種比較不要求及時的和昂貴的、逐比特的比較以識別失配。如果標(biāo)記特性與任何現(xiàn)有聚類特性的匹配不成功,且如果標(biāo)記被認(rèn)為離任何現(xiàn)有的聚類太遠(yuǎn),該標(biāo)記被作為新的聚類而加入并避免了逐比特比較。這一辦法與其它辦法的區(qū)別在于計算上有效的檢測失配的篩選和計算上有效的對于檢測聚類正確匹配的算法。
聚類的一個可利用的特別性質(zhì)是x大小和y大小。x大小和y大小提供了確定現(xiàn)有的聚類大小的信息。標(biāo)記的x大小和y大小可與現(xiàn)有聚類的x大小和y大小比較以識別失配。本發(fā)明的一個方面是要把聚類組織成一個2D記錄,以x大小和y大小作為下標(biāo)。當(dāng)找到一新標(biāo)記,就提取與x大小和y大小一致的記錄,并將該標(biāo)記與記錄中的聚類比較??蓪︵徑拥挠涗浰阉饕垣@得更精確的匹配(所有其它的記錄將被忽略或篩選)。如下文所述,對聚類中心的無“漂移”描述在這里是有用的,因為它保證了聚類呆在它們的記錄中。
可用于將標(biāo)記與現(xiàn)有聚類比較的一個特性是墨色大小。墨色大小通常指的是標(biāo)記或聚類中黑像素與總像素之比。類似地,可把標(biāo)記的墨色大小與現(xiàn)有聚類的墨色大小比較以識別失配。標(biāo)記的另一特性是“熱點”。熱點是標(biāo)記上的一個位置,它可以是重心,或用其它方式計算(例如周圍字符的線性方程)。在比較期間,開始比較前,將標(biāo)記和聚類的熱點對齊,這常會引起平移。還有另一個特性是縮小的標(biāo)記或圖像,它是標(biāo)記和/或聚類位圖的像素大小縮小的形式。在本發(fā)明的一個方面,經(jīng)縮小的標(biāo)記的中心在熱點,標(biāo)記被重新定標(biāo)使得縮小的標(biāo)記有固定的大小。再次,聚類的無漂移假設(shè)在保證聚類的縮小形式是聚類中所有標(biāo)記的好的表示方面是有用的??s小標(biāo)記可與現(xiàn)有聚類的縮小標(biāo)記或縮小圖像比較以識別失配。
當(dāng)標(biāo)記的所有特征測試成功時,然后它常以更直接的方式與聚類比較。計算標(biāo)記和聚類間的距離,并與第一閾值比較。如果該距離處于閾值之內(nèi),該標(biāo)記被加到現(xiàn)有聚類中。該標(biāo)記可被加到第一可接受的現(xiàn)有聚類中或者該標(biāo)記可被加到離比較的標(biāo)記具有最小距離的現(xiàn)有聚類中。
此外,該聚類可用放入聚類中的第一個元素來表征。這種方法的優(yōu)點是把一新標(biāo)記加入聚類中不要求重新計算聚類的特征。這種方法的另一個的優(yōu)點是避免了“聚類漂移”,當(dāng)每次把新標(biāo)記加入聚類中時聚類中心移動就發(fā)生了“聚類漂移”。不具有聚類漂移,也稱為“無漂移”假設(shè),產(chǎn)生了在相同聚類的兩個元素間的最大距離的保證——這一保證提供了有效和進(jìn)取的篩選。這一方法的主要缺點是在于對于相同的聚類到標(biāo)記的平均距離,它將比其它聚類算法,例如k-均值算法產(chǎn)生更多聚類,從此意義上來說,該聚類法不是最佳的。然而,該方法的顯著好處是增加了速度。在文本壓縮情況下,聚類數(shù)目增加10%不用關(guān)注,因為字典的大小,它傳遞了每個聚類的信息,典型地只是被壓縮文檔大小的一個分?jǐn)?shù)。
在聚類組件712具有掩模中的已標(biāo)識的聚類后,該標(biāo)識由OCR組件714接收,OCR組件714對該掩模進(jìn)行光學(xué)字符識別(OCR)。OCR組件714識別掩模中可能的字符,并可使用來自聚類組件707的聚類幫助對聚類進(jìn)行字符分析。分析每個聚類以確定該聚類是一字符。并隨后確定該聚類代表什么字符。這一方法隨不同的語言和/或字母而改變。通常把聚類的位圖或形狀與正在使用的字母的字符位圖或形狀相比較。如果形狀足夠類似,該聚類被識別為特定字符。找到的每個字符的位置信息以及它們的順序可被保留。這些字符可被存儲為標(biāo)準(zhǔn)字母字符的序列,例如ASCII。
布局組件716對掩模操作以改進(jìn)壓縮和提供布局信息。布局信息以后可被用于回流文檔圖像。布局組件716可使用好幾種方法以改進(jìn)壓縮和/或提供布局信息。一種方法首先用色彩,垂直和/或水平位置來組織連通分量。連通分量可由系統(tǒng)700的其他組件提供,例如聚類組件712。布局組件716然后基于(至少部分基于)色彩、垂直位置、水平位置、聯(lián)合距離(例,連通分量間的距離)、連通分量的高度和/或連通分量的寬度來聯(lián)合或組合連通分量。聯(lián)合的連通分量包括兩個或多個連通分量。聯(lián)合的連通分量也可與其它連通分量或其它聯(lián)合分量相聯(lián)合。布局組件716然后生成要提供的布局信息。該布局信息可包括聯(lián)合分量的位置、線條的位置和文檔圖像的其它信息。
掩模編碼器718從布局分析組件716接收掩模并對掩模編碼以生成稱為掩模比特流的壓縮比特流。掩模編碼器718可使用任何合適的壓縮方案。掩模是二進(jìn)制的且典型地包括文本信息。因此,應(yīng)當(dāng)選擇壓縮方案,它能很好壓縮二進(jìn)制和文本信息??捎脙蓪訅嚎s方案編碼該掩模。此外,掩模編碼器718編碼或提供解碼該掩模位圖所用的編碼信息,例如庫、字典、符號,表大小之類。
一個可用于編碼掩模的壓縮方案就是CCITT(國際電話和電報咨詢委員會)。CCITT當(dāng)前稱為ITU-T(國際電信聯(lián)盟-電信部(1994年改名)),它是一個標(biāo)準(zhǔn)組和用于傳真/調(diào)制解調(diào)器通信的無損壓縮技術(shù)的名字。這種類型的壓縮對二進(jìn)制圖像工作得很好。典型的壓縮率對較早版本V.42bis是4∶1,而對較新版本V.44 2000是6∶1,它是基于Lempel-Ziv-Jeff-Heath(LZJH)壓縮算法。其它壓縮方法或方案可被用于對掩模壓縮并仍符合本發(fā)明。
前景分割器719接收文檔圖像和掩模并將文檔圖像分離成前景圖像和背景圖像。根據(jù)本發(fā)明的這個方面,前景圖像和背景圖象大體上與文檔圖像有相同大小(例如,文檔圖像為640×480像素,前景圖像是640×480像素,背景圖象是640×480像素)。然而本發(fā)明的另外一些方面可從文檔圖像生成大小實質(zhì)上不同的前景和背景圖象。前景和背景圖象是這樣的,當(dāng)被組合或重組時,可與文檔圖像一致或類似。
前景背景分割器719使用二進(jìn)制格式的掩模產(chǎn)生前景和背景圖像。例如掩模中由1表示的所有像素可進(jìn)入前景圖像而掩模中用0表示所有的像素可進(jìn)入背景圖像。反之,例如,掩模中用0表示的所有像素可進(jìn)入前景圖像,而掩模中所有用1表示的像素可進(jìn)入背景圖像。然而,背景圖像和前景圖像通常具有未指定值的像素。這些未指定值的像素稱為孔、空白區(qū)域和/或無關(guān)區(qū)域。
另外,前景分割器719包括一擴(kuò)展組件720和一潤色組件721。擴(kuò)展組件720根據(jù)前景圖像和/或背景圖像對掩模擴(kuò)展。擴(kuò)展操作是基于距離變換的形態(tài)變換,該變換取得一掩模并將1的區(qū)域擴(kuò)展k個像素,其中k為常數(shù)(例如2)。距離可為Manhattan距離或球面距離。逆操作、腐蝕可由逆掩模擴(kuò)展而完成。在典型的經(jīng)掃描文擋中,作為墨水滲出的結(jié)果或在掃描中的低dpi設(shè)定,文本常被淡涂。因而從白到黑的過渡是連續(xù)的并且是逐漸的過渡,而掩模定義了前景和背景間的硬邊界。前景和背景上邊界附近的連續(xù)過渡可引起環(huán)紋并使編碼代價高昂。為了減輕這一影響,忽略邊界附近處的像素值是有利的。這可通過使前景和背景對“無關(guān)”值進(jìn)行若干像素(例如2)個距離的擴(kuò)展而完成。圍繞文本區(qū)域,對“無關(guān)”像素的擴(kuò)展增加了對比度和可讀性,同時減小了文件大小。然而,當(dāng)把擴(kuò)展用于自然圖像區(qū)域時,增加對比度效應(yīng)使圖像看起來帶有卡通色彩。為了克服這一問題,可能對掩模執(zhí)行布局分析并檢測哪些區(qū)域由文本組成。然后可僅專門對文本區(qū)擴(kuò)展。擴(kuò)展組件720可將掩模分離成前景掩模和背景掩模。結(jié)果,就有一些像素同時是前景和背景的無關(guān)像素。這些像素仍被指定了一個合理的值,因為擴(kuò)展距離較小,而前景和背景通常由于壓縮而是平滑的,并且因而無關(guān)像素得到的指定值不會遠(yuǎn)離鄰近的有關(guān)像素。然而在無關(guān)擴(kuò)展期間必須注意不要完全擦去小的或薄的有關(guān)像素。如果這種情況發(fā)生了,像素變成非約束的且遠(yuǎn)離任何有關(guān)像素,造成遠(yuǎn)離區(qū)域的不可預(yù)見的著色。為了防止這事發(fā)生,可以觀察距離變換并保護(hù)從有關(guān)切換到無關(guān)的局部極值。
應(yīng)理解,前景和背景圖像可最終重構(gòu)成重構(gòu)文檔。然而,尖銳的邊緣和過渡可造成壓縮的降級并可造成重構(gòu)圖像遭受視覺缺陷,諸如邊緣或線條。例如,這可發(fā)生在當(dāng)掩模造成的虛假邊界跨過基本相似顏色的區(qū)域時,造成基本相似的區(qū)域的一部分被放入前景圖像而另一部分被放入背景圖像。這些部分,當(dāng)最終被重組時,沿虛假邊界可以有視覺上可察覺的線條,因為這些部分被單獨處理并單獨編碼。此外,這些部分的壓縮可因虛假邊界實質(zhì)上被每個部分編碼而降級。
潤色組件721對掩模操作以“潤色”文檔文件,使得文檔圖像的整體壓縮可被改變并使得在視覺上改進(jìn)重組的文檔圖像。一般地,潤色組件721識別虛假邊界和/或利用掩模擴(kuò)展前景和背景圖像。對于一種辦法,潤色組件721使用掩模識別前景和背景圖像中的虛假邊界??赏ㄟ^識別長于第一像素閾值量(例如5個像素)的合并區(qū)域邊界的水平和/或垂直線條而進(jìn)行檢測,用于(1)邊界的一邊是前景而另一邊是背景,以及(2)沿著該線條兩邊的線性回歸的不同大于第二閾值量(例可對像素的前景側(cè)計算線性回歸,和對像素的背景側(cè)計算線性回歸)。潤色組件721可從掩模分離器704獲取這一區(qū)域信息。潤色組件721然后從掩模通過生成獨立的前景和背景掩模來擴(kuò)展前景和背景圖像。前景掩模擴(kuò)展前景圖像而背景掩模擴(kuò)展背景圖像。通常前景圖像和背景圖像沿虛假邊界上擴(kuò)展許多像素。應(yīng)理解,前景和背景掩模一般不被編碼或作為解碼處理的一部分使用。潤色組件721也可使用其它方法來改進(jìn)壓縮和文檔圖像重構(gòu)時的視覺外觀,且仍然符合本發(fā)明。
如上所述,前景和背景分割器719使用掩模把文擋圖像分割成前景和背景圖像。如果前景和背景掩模是由擴(kuò)展組件720和/或潤色組件生成,該前景掩模被用于把文擋圖像分割成前景圖像而背景掩模被用于把文擋圖像分割背景圖像。
前景像素濾波器722從前景背景分離器分割器719接收前景圖像。通常,前景像素濾波器722識別前景圖像中的無關(guān)區(qū)域或空白區(qū)域并將這些區(qū)域用無關(guān)像素填充。這些區(qū)域是從文擋圖像的像素形成,這些像素被分配給背景圖象而在前景圖像中留下空白或無關(guān)區(qū)域。在重組的文擋圖像中一般不存在無關(guān)像素,故前景像素濾波器722不考慮無關(guān)像素的視覺外觀。本發(fā)明的另外方面通過使用恰當(dāng)處理無關(guān)區(qū)域的壓縮方案,例如掩模小波壓縮方案之類而避免了填充無關(guān)像素。
如前所述,前景圖像和背景圖像具有空白或無關(guān)區(qū)域??瞻讌^(qū)域可用多種方式處理。一種辦法是用數(shù)據(jù)填充空白區(qū)域并隨后使用常規(guī)的壓縮技術(shù)。一種填充圖像空白區(qū)域的簡單處理是用該圖像的平均像素值填充這些空白區(qū)域。然而,這一處理可在掩模邊界處產(chǎn)生尖銳的不連續(xù)性,可在給定峰值信噪比(PSNR)下增加所要求的比特率并在掩?;蚩瞻讌^(qū)域邊界附近產(chǎn)生可察覺的環(huán)紋。另一種處理是用最接近的非掩模(或有關(guān)區(qū)域)像素的色彩對每一像素著色。標(biāo)準(zhǔn)的形態(tài)算法允許僅兩次通過對所有像素執(zhí)行該處理,導(dǎo)致在掩模下Voronoi填充的空白區(qū)域。然后,當(dāng)重構(gòu)前景和背景圖像時,重構(gòu)的圖像被低通濾波并隨后將已知的像素恢復(fù)成它們的正確值。如果低通濾波器的截止頻率太低,會出現(xiàn)尖銳的邊緣使所需的比特率增加并在邊界附近造成可察覺的環(huán)紋。
另一種處理空白區(qū)域的方法是使用在凸集上的投影。例如,考慮二個凸集在可視像素上與輸入匹配的圖像集,以及具有一定的小波系數(shù)(例如超過某一分辨率水平的高頻系數(shù))設(shè)定為零的圖象集。用交替投影到這兩個集,可找到一圖像它與可視像素一致并能很好壓縮,因為它具有許多零小波系數(shù)。
還有另一種處理空白區(qū)域的辦法是使用為不規(guī)則柵格顯式設(shè)計的小波變換。這類小波分解在計算機(jī)視覺和計算機(jī)圖形學(xué)中幾何數(shù)據(jù)壓縮中需要。這類小波適合不規(guī)則掩模圖案。
另一種辦法是對編碼使用掩模小波壓縮方案,該方案能很好壓縮前景圖像而不必用無關(guān)像素來填充無關(guān)區(qū)域。
如有關(guān)圖1所描述的,掩模小波壓縮方案是可用的一種方案。根據(jù)本發(fā)明也可使用其它合適的辦法來處置無關(guān)區(qū)域。
前景欠采樣(downsample)組件724從前景像素濾波器722接收前景圖像并對前景圖像欠采樣。前景欠采樣組件724減小了前景圖像大小以增加前景圖像和文檔圖像的壓縮。例如,一幅640×480像素的前景圖像可欠采樣為320×240像素。許多辦法可用于欠采樣前景圖像。一種辦法是通過丟掉像素來欠采樣前景圖像。因而,例如,640×480像素的前景圖像通過丟掉每隔一個像素可欠采樣為320×240像素。另一種辦法是基于平均值或來自前景圖像的相應(yīng)像素均值生成新像素。例如,前景圖像的新像素可分別生成為8個相鄰像素的平均。還有另一種辦法是利用三次內(nèi)插欠采樣。根據(jù)本發(fā)明還可使用其它的欠采樣圖像辦法。如果在編碼器中對前景和背景欠采樣,則在利用掩模被組合前,它應(yīng)在解碼器中被過采樣(upsample)。
前景編碼器726對前景圖像編碼。前景編碼器726從前景圖像生成編碼比特流。這一比特流可被稱為前景比特流。前景編碼器726可使用多種合適的壓縮方案來編碼前景圖像。某些可用的示例壓縮方案是,例如,漸進(jìn)小波編碼或漸進(jìn)變換編碼。
前景編碼器726也可包括恒定色彩連通分量分析器(未示出)以進(jìn)一步改進(jìn)前景圖像的壓縮。恒定色彩連通分量可使用類似于關(guān)于聚類組件712所作的這些描述的辦法和算法。恒定色彩連通分量分析器掃描前景圖像以識別恒定色彩連通像素。如果一組恒定色彩連通像素大于一閾值,該組被認(rèn)為是一恒定色彩連通分量或恒定色彩標(biāo)記。應(yīng)理解,“恒定色彩”可包括色彩方面的某些變化。恒定色彩連通分量分析器可進(jìn)一步將類似的恒定色彩連通分量分組成恒定色彩聚類。有關(guān)信息,諸如恒定色彩聚類的位置信息、位圖、形狀、恒定色彩連通分量的位置信息等等可包括在前景比特流中。通過使用布局分析器檢測哪些區(qū)域有文本構(gòu)成也可將恒定色彩局限于文本。
背景像素填充器730從背景分離器719接收背景圖像。背景像素填充器730識別背景圖像中的無關(guān)區(qū)域并用無關(guān)像素填充這些區(qū)域。這些區(qū)域是從分配給前景圖像的文檔圖像像素中形成,這些像素在背景圖像中留下了空白或無關(guān)區(qū)域。這些無關(guān)像素一般不出現(xiàn)在重組文檔圖像中,這樣背景像素填充器730可不考慮無關(guān)像素的視覺外觀。本發(fā)明的另外方面通過使用可適當(dāng)處理無關(guān)區(qū)域的壓縮方案,例如掩模小波壓縮方案而避免填充無關(guān)像素。背景像素填充器730工作基本上與前景像素填充器722相同。
如前所述,背景圖像和前景圖像具有空白或無關(guān)區(qū)域。空白區(qū)域可用多種方式處理。一種辦法是用數(shù)據(jù)填充空白區(qū)域并隨后使用常規(guī)的壓縮技術(shù)。一種填充圖像空白區(qū)域的簡單處理是用該圖像的平均像素值填充這些空白區(qū)域。然而,這一處理可在掩模邊界處產(chǎn)生尖銳的不連續(xù)性,可在給定峰值信噪比(PSNR)下增加所要求的比特率并在掩?;蚩瞻讌^(qū)域邊界附近產(chǎn)生可察覺的環(huán)紋。另一種處理是用最接近的非掩模(或有關(guān)區(qū)域)像素的色彩對每一像素著色。標(biāo)準(zhǔn)的形態(tài)算法允許僅兩次通過所有像素而執(zhí)行該處理,導(dǎo)致在掩模下Voronoi填充的空白區(qū)域。然后,當(dāng)重構(gòu)前景和背景圖像時,重構(gòu)的圖像被低通濾波并隨后將已知的像素恢復(fù)成它們的正確值。如果低通濾波器的截止頻率太低,會出現(xiàn)尖銳的邊緣使所需的比特率增加并在邊界附近造成可察覺的環(huán)紋。
另一種處理空白區(qū)域的方法是使用在凸集上的投影。例如,考慮二個凸集在可視像素上與輸入匹配的圖像集,以及具有一定的小波系數(shù)(例如超過某一分辨率水平的高頻系數(shù))設(shè)定為零的圖像集。用交替投影到這兩個集,可找到一圖像它與可視像素一致并能很好壓縮,因為它具有許多零小波系數(shù)。
還有要另一種處置空白區(qū)域的方法是使用顯式地為非規(guī)則柵格設(shè)計的小波變換,這類小波變換在計算機(jī)視覺和計算機(jī)圖形學(xué)中的幾何數(shù)據(jù)壓縮方面的問題中需要。這類小波變換適合于掩模的非規(guī)則圖案。
另一種辦法是使用掩模小波壓縮方案用于編碼,該編碼很好壓縮背景圖像而不需要用無關(guān)像素來填充無關(guān)區(qū)域。該掩模小波壓縮方案,正如關(guān)于圖1所述,是一種可被使用的這類壓縮方案。根據(jù)本發(fā)明還可使用其它合適的方法處置無關(guān)區(qū)域的方法。
背景欠采樣組件732從背景像素濾波器730接收背景圖像并對背景圖像欠采樣。背景欠采樣組件732減小了背景圖像大小以增加背景圖像和文檔圖像的壓縮。例如,一幅640×480像素的背景圖像可欠采樣為320×240像素。許多辦法可用于欠采樣背景圖像。一種辦法是通過丟掉像素來欠采樣背景圖像。因而,例如,背景圖像通過丟掉每隔一個像素可從640×480像素欠采樣為320×240像素。另一種辦法是基于平均值或來自背景圖像的相應(yīng)像素的均值生成新像素。例如,背景圖像的新像素可分別生成為8個相鄰像素的平均。根據(jù)發(fā)明仍然還有其它的欠采樣圖像辦法可以使用。一般來說,分別由前景欠采樣組件724和背景欠采樣組件732欠采樣化后的前景圖像和背景圖像的大小基本上相同。
背景編碼器734對背景圖像編碼。背景編碼器734從背景圖像生成編碼比特流。這一比特流可被稱為背景比特流。背景編碼器734可使用多種合適的壓縮方案來編碼背景圖像。某些可用的示例壓縮方案是,例如,漸進(jìn)小波編碼或漸進(jìn)變換編碼。
背景編碼器734也可包括恒定色彩連通分量分析器(未示出)以進(jìn)一步改進(jìn)背景圖像的壓縮。恒定色彩連通分量可使用類似于關(guān)于聚類組成712所作的這些描述的辦法和算法。恒定色彩連通分量分析器掃描背景圖像以識別恒定色彩連通像素。如果一組恒定色彩連通像素大于一閾值,該組被認(rèn)為是一恒定色彩連通分量或恒定色彩標(biāo)記。應(yīng)理解,“恒定色彩”可包括色彩方面的某些變化。恒定色彩連通分量分析器可進(jìn)一步將類似的恒定色彩連通分量分組成恒定色彩聚類。有關(guān)信息,諸如恒定色彩聚類的位置信息、位圖、形狀、恒定色彩連通分量的位置信息等等可包括在背景比特流中。通過使用布局分析器檢測哪些區(qū)域由文本構(gòu)成也可將恒定色彩局限于文本。
任何合適的壓縮方案都可用于掩模編碼器718、前景編碼器726和背景編碼器734。這些方案中的一些已被描述過。這里將描述這些壓縮方案及可用于掩模編碼器718、前景編碼器726及背景編碼器734的附加壓縮方案的附加細(xì)節(jié)。
可用于本發(fā)明的某些通常知道的壓縮方案是JPEG(聯(lián)合圖像專家組),PWT(漸進(jìn)小波變換)、JPEG 2000、PTC(漸進(jìn)變換編碼解碼)、GIF(圖形互換格式)、PNG(可移植網(wǎng)絡(luò)圖形)。JPEG雖然它確實有用于無損壓縮的設(shè)置,但一般是基于離散余弦變換(DCT)的有損壓縮,它達(dá)到的典型壓縮率是2∶1。這一壓縮技術(shù)通常用于圖片圖像。JPEG可存儲每像素24位的色彩(1千6百萬個顏色),對于全色彩壓縮平均壓縮率為20∶1。然而,一般當(dāng)平均壓縮率為從10∶1到20∶1變化時不會有視覺損失,對于中等質(zhì)量為20∶1-60∶1,對于差質(zhì)量為60∶1-100∶1。該技術(shù)的少數(shù)幾個缺點是具有尖銳邊緣的困難,以及缺乏對透明性的支持。另外,它比GIF要用更長的時間來觀看,但對于如全色彩或灰度掃描照片的圖像它優(yōu)于GIF。
PWT是無損技術(shù)的一部分,且是許多其它壓縮技術(shù)的基礎(chǔ)。PWT是基于最好首先看到整個圖像,然后隨著時間遞推地繼續(xù)增加分辨率這一想法。這允許有效地傳送高保真度圖像。具體說,首先傳送低頻分量,傳送整個圖像的低頻分辨率版本。然后隨著高頻分量的到來增加分辨率。
JPEG 2000設(shè)計為用基于小波壓縮技術(shù)替代基于DCT的JPEG標(biāo)準(zhǔn)。JPEG2000消除了JPEG中存在的分塊人工效應(yīng),而維持了24位色彩。另外,JPEG 2000支持有損和無損壓縮,對于有損壓縮,壓縮率為201∶1、對于無損壓縮,為2∶1。
PTC是一種壓縮方案,它組合了各種格式特性,例如,JPEG、GIF、PNG、M-JPEG、JPEG-LS及其它的某些特點,但具有更好的壓縮性能,并在許多場合下編碼和解碼顯著加快。PTC與JPEG相比提供的人工效應(yīng)量減小了。
PTC還增加了一些新特點。增加的一個重要特點是尺度可伸縮性(或逐次浮現(xiàn))。從原始PTC文件,通過對文件一部分分析和解碼,可獲得較低分辨率或較低保真度的圖片。PTC還支持每色彩直到16位,和4個色彩通道或分量(R、G、B、及α),這里α是透明性分量。PTC還在單個編碼解碼器中集成了無損和有損編碼。此外,用于PTC的有效的基準(zhǔn)碼可供使用。該碼具有低的存儲器覆蓋區(qū)并僅使用整數(shù)算術(shù)(無浮點)用于精確的重現(xiàn)性。
為了實現(xiàn)PTC,使用多分辨率變換達(dá)到逐次浮現(xiàn)。一種方法是使用小波,但更有效的一種具有較低代價的方法是使用層次重疊變換。在PTC中,一種新的層次重疊雙正交變換(LBT),它在先前的PTC構(gòu)造上在下述方面作了改進(jìn),即使用更小的4×4塊大小,以及整數(shù)系數(shù)——使其計算能實質(zhì)上不用任何乘法(先前的PTC方案中變換仍使用浮點算術(shù))。重疊變換優(yōu)于流行的離散余弦變換(DCT,用于JPEG和MPEG)的優(yōu)點是重疊變換沒有DCT的“分塊人工效應(yīng)”。而且,由于在PTC中使用的LBT的多分辨率(層次)形式,環(huán)紋人工效應(yīng)與基于DCT的編碼解碼器相比更難察覺。
GIF是一種無損的每像素8位(256色)壓縮格式,具有平均壓縮為3∶1。GIF具有內(nèi)建的Lempel-Ziv-Welch(LZW)編碼,這就是為什么它對照片不提供大的壓縮,但對較簡單的線條圖畫提供大的壓縮。GIF壓縮可與所有種類的圖像一起工作,但工作得最好的還是與僅具有幾種色彩的計算機(jī)生成的圖形,這使它在基于Web的圖形中流行。更何況,對具有尖銳邊緣的圖解圖像的壓縮比JPEG更好。
PNG是一種無損壓縮格式,它提供平均為10-30%的壓縮,小于GIF。對真色彩圖像還是比JPEG好,因為它有48位色彩,比JPEG的24位色彩更好,此外,PNG允許透明性,且其壓縮是不對稱的,這意味著,它的解壓縮較快而壓縮要花長得多的時間。PNG設(shè)計為用于因特網(wǎng),故它的快速解壓縮是有益的。此外,PNG設(shè)計為替代使用LZW編碼的GIF格式,PNG使用免費(fèi)軟件Gzip的壓縮方案而不是LZW編碼。
圖8按照本發(fā)明的一個方面的經(jīng)分割的分層圖像解碼系統(tǒng)的框圖。該系統(tǒng)接收經(jīng)壓縮比特、比特流或文件生成重組圖像。該系統(tǒng)包括一分離器組件802、前景解碼器804、背景解碼器804、掩模解碼器808、回流組件810和組合器812。
分離器組件802接收壓縮的比特并分離該比特以形成前景比特流、背景比特流和掩模比特流。分離器組件802可使用標(biāo)頭信息來分離比特流。前景解碼器804解壓縮前景比特流以生成前景圖像。背景解碼器806解壓縮背景比特流以生成背景圖像。
掩模解碼器808解壓縮掩模比特流以生成掩?;蜓谀D像。掩模解碼器808還能檢索布局和/或回流信息。此外,掩模解碼器808能獲得用于重構(gòu)文本信息的字典。對于某些壓縮方案(例掩模小波),前景解碼器804和背景解碼器806可從掩模解碼器808要求經(jīng)解壓縮的掩模以獲得前景圖像和背景圖像。
回流組件810根據(jù)希望的顯示特性對前景圖像、背景圖象和掩模操作。希望的顯示特性可包括這些特性,諸如顯示頁大小、列數(shù)、字體大小等等。希望的顯示特性可以與原始文檔圖像大不相同。例如,文檔圖像可有信紙頁大小和10點字體大小。文檔圖像的這些特性對觀看標(biāo)準(zhǔn)信紙很好。然而,這些特性至少可能對在便攜式裝置,如便攜式數(shù)字助理(PDA)上觀看造成困難。PDA通常具有窄的屏幕和低分辨率。沒有回流,使用PDA的用戶將不得不來回拖動以讀取文本的每一行。因而,對于PDA,希望的顯示特性可能是20列大小,14號字體大小等等。回流組件810可按需要換行文本,重新放置段落、句子、圖像,重新規(guī)定圖像的大小和/或根據(jù)希望的顯示特性執(zhí)行任何適當(dāng)?shù)男薷??;亓鹘M件810使用對前景圖像,背景圖象和/或掩模編碼的布局信息。
組合器812把前景圖像、背景圖像和掩模組合成重組的文檔圖像。重組的圖像與原始文檔圖像一致或逼近。此外,根據(jù)所需的顯示特性重組圖像可具有不同的形狀和/或大小。組合器812根據(jù)掩模從前景和背景圖像生成重組文檔圖像的像素。重組圖像的每個像素可通過參考掩模的對應(yīng)像素而確定,從而確定重組文檔的像素應(yīng)當(dāng)取自前景還是背景圖像。例如,掩模像素值1可指示重組文檔的像素應(yīng)取自前景圖像的對應(yīng)像素。此外,組合器812執(zhí)行任何合適的必要的色彩空間轉(zhuǎn)換。例如重構(gòu)圖像可使用YCoGg色彩空間表示。因而,繼續(xù)該例子,組合器812將從YCoGg色彩空間轉(zhuǎn)換到RGB色彩空間(例如為了在監(jiān)視器上顯示)。
圖9根據(jù)本發(fā)明的一個方面編碼文檔圖像的方法的流程圖。在902提供文檔圖像。文檔圖像是位像并具有色彩空間的表示,典型地是RGB。文檔圖像可從它的色彩空間轉(zhuǎn)換到另一色彩空間,例如YUV或YCoGg,以增加壓縮。
在904為文檔圖像生成掩模。該掩模是基于文檔圖像的二進(jìn)制圖像。生成的掩模使得文檔圖像可被分割或分離成前景圖像和背景圖像使得前景圖像和背景圖像可高度壓縮。掩模的每個像素確定了文檔圖像的對應(yīng)像素是放入前景圖像還是背景圖像。掩模可以任何適當(dāng)?shù)姆绞缴?,使得壓縮后的掩模、前景圖像和背景圖像的組合大小得以減小。
應(yīng)理解,對掩模的附加處理,包括但不局限于,噪聲檢測,噪聲校正,抖動檢測和處理等等也可對掩模進(jìn)行。例如在數(shù)字化過程中常把噪聲引入到文檔圖像中。指印和/或灰塵,例如,也能無意地被加入文檔圖像中。噪聲可被識別并從掩模中移去。抖動法是一種用于產(chǎn)生可變灰度或色彩的陰影的技術(shù)。抖動法改變區(qū)域中點的比例或百分?jǐn)?shù)以模擬陰影。抖動可使圖像看起來很美,但對數(shù)字文檔可能造成困難。抖動可被誤解為文本、手跡內(nèi)容等等。掩模中的抖動可被識別并給以適當(dāng)處理。
此外,還可識別掩模中的聚類,識別掩模中的連通分量。連通分量是具有一個或多個連通點,典型地為黑點的分組。類似的連通分量被分組成聚類。每個聚類可用位圖和在掩模中的指向位置的指針表示。聚類的使用能大量節(jié)省空間。聚類可表示字符、手跡和類似內(nèi)容。
還有,可對掩模執(zhí)行光學(xué)字符識別。聚類,無論是代表手跡物或文本,都可被分析以識別文本或字符。一旦辨認(rèn)出,該字符可作為,例如,ASCII碼存儲,并節(jié)省更多的存儲空間。而且,光學(xué)字符識別在文檔圖像最終被重組時增加了對文檔圖像的回流并方便了編輯。
還可對掩模分析以識別文檔圖像的布局特性??蓪ψ址?、聚類和圖像各部分分析以識別布局特性。布局特性包括,但不限于,句子、段落、式樣、圖像位置、頁碼等均可被識別。布局特性也可隨掩模附加或編碼供以后使用。
在906,根據(jù)掩模文檔圖像被分割成前景圖像和背景圖像。例如所有在掩模中用1表示的像素可進(jìn)入前景圖像,而所有用0表示像素可進(jìn)入背景圖像。應(yīng)理解本發(fā)明的其它方面可將文檔圖像分割成另一種適當(dāng)?shù)膶訑?shù),且本發(fā)明并不局限于關(guān)于圖9所描述的兩層。
前景圖像和背景圖像與文檔圖像大小相同。然而,前景圖像和背景圖像具有未被指定值的像素。這些像素被稱為孔、空隙和空白區(qū)域。在對應(yīng)于這些像素的值被指定給另一幅圖像后就在該處出現(xiàn)孔。潤色法可在前景和背景圖像上進(jìn)行以減小最終重組圖像中的硬邊緣。潤色法涉及將前景和背景圖像擴(kuò)展一些像素使得避免尖銳的邊緣/或過渡。典型地,潤式可通過從掩模生成前景掩模和背景掩模并使用前景掩模從文檔圖像分割出前景圖像以及使用背景掩模從文檔圖像分割出背景圖像而完成。前景掩模便于擴(kuò)展前景圖像而背景掩模便于擴(kuò)展背景圖像。
在908,用無關(guān)像素填充前景圖像中的孔或空隙。選擇無關(guān)像素從而在壓縮后增加對前景圖像的壓縮并減小前景圖像的大小??捎迷S多適當(dāng)?shù)姆椒ù_定無關(guān)像素。一種可用的方法是用該文檔圖像的平均像素值填充無關(guān)區(qū)域。然而,這一處理法可在掩模邊界處產(chǎn)生尖銳的不連續(xù)性,可在給定峰值信噪比(PSNR)下增加所要求的比特率并在掩模或空白區(qū)域邊界附近產(chǎn)生可察覺的環(huán)紋。另一種處理是用最接近的非掩模(或有關(guān)區(qū)域)像素的色彩對無關(guān)區(qū)域中每一像素著色。標(biāo)準(zhǔn)的形態(tài)算法允許僅兩次通過所有像素而執(zhí)行該處理,導(dǎo)致在掩模下Voronoi填充的空白區(qū)域。然后,當(dāng)重構(gòu)前景和背景圖像時,重構(gòu)的圖像被低通濾波并隨后將已知的像素恢復(fù)成它們的正確值。如果低通濾波器的截止頻率太低,會出現(xiàn)尖銳的邊緣使所需的比特率增加并在邊界附近造成可察覺的環(huán)紋。另一種處理空白區(qū)域的方法是使用在凸集上的投影。例如,考慮兩個凸集在可視像素上與輸入匹配的圖像集,以及具有一定的小波系數(shù)(例如超過某一分辨率水平的高頻系數(shù))設(shè)定為零的圖像集。用交替投影到這兩個集,可找到一圖像它與可視像素一致并能很好壓縮,因為它具有許多零小波系數(shù)。根據(jù)本發(fā)明可使用其它合適的方法來填充無關(guān)區(qū)域。
在910,用無關(guān)像素填充背景圖像中的孔或空隙。選擇無關(guān)像素從而在壓縮后增加對背景圖像的壓縮并減小背景圖像的大小。可用許多適當(dāng)?shù)姆椒ù_定無關(guān)像素。如上述關(guān)于前景圖像所述。
應(yīng)理解,本發(fā)明的另外方面可留下空白區(qū)域不被填充。因而,壓縮方案,諸如掩模小波壓縮方案,可被用于編碼前景和背景圖像而不用填充空白區(qū)域或無關(guān)區(qū)域。
在912,對掩模編碼以生成掩模比特流。使用適當(dāng)?shù)膲嚎s方案對掩模編碼,該壓縮方案可利用掩模的文本信息和二進(jìn)制表示以改進(jìn)對掩模的壓縮。此外,聚類、布局信息等等也可用來更好地壓縮掩模。
應(yīng)理解可在前景和背景圖像上執(zhí)行附加的處理技術(shù)。例如,可對前景和背景圖像執(zhí)行噪聲移除和欠采樣。噪聲移除移去或處置了存在于前景和背景圖像中存在的噪聲。通常,該噪聲在掃描或轉(zhuǎn)換處理中引入。欠采樣減小了前景和背景圖像的大小。例如,640×480像素的前景和背景圖像可欠采樣為320×240大小的圖像。
在914,對前景圖像編碼以生成前景比特流。使用適當(dāng)?shù)膲嚎s方案對前景圖像編碼??捎糜谇熬皥D像編碼的一些示例壓縮方案是PWC、PTC、JEPG、JPEG2000、PNG和GIF。也可使用其它壓縮方案并仍然符合發(fā)明。
在916,對背景圖象編碼以生成背景比特流。使用適當(dāng)?shù)膲嚎s方案對背景圖像編碼??捎糜诒尘皥D象編碼的一些示例壓縮方案是PWC、PTC、JEPG、JPEG2000、PNG和GIF。也可使用其它壓縮方案并仍然符合發(fā)明。
為了進(jìn)一步改進(jìn)對前景和背景圖像的壓縮,還可對背景和前景圖像分析以識別恒定色彩的連通分量。恒定色彩的連通分量由多個具有基本上相同色彩值的連通像素組成。通過定位一種顏色的種子像素并使用算法找到所有的,或幾乎所有的具有相同顏色或大體上相同色彩的連通像素,就可識別恒定色彩連通分量。
在918,組合掩模比特流,前景比特流和背景比特流以形成組合比特流。該組合比特流也可以是一文件??稍诮M合比特流中加入標(biāo)頭信息以包括諸如所使用的編碼器、字典、符號、庫等等。
圖10是根據(jù)本發(fā)明的一個方面解碼文檔圖像的方法的流程圖。在1002,接收比特流。該比特流是組合比特流,包括掩模比特流、前景比特流、背景比特流和標(biāo)頭信息。在1004,該比特流被分離成掩模比特流,前景比特流和背景比特流。此外,還可提取標(biāo)頭信息。
在1006,分別從掩模比特流、前景比特流和背景比特流對掩模、前景圖像和背景圖像解碼。掩模、前景圖像和背景圖像統(tǒng)稱為圖像分量。掩模、前景圖像和背景圖像的解碼使用的解壓縮方案兼容于對它們編碼時所用的壓縮方案。標(biāo)頭信息可包括這個壓縮/解壓縮信息。掩模和/或標(biāo)頭信息可包括布局信息或布局特性。此外,字典、符號和其它信息也可以從掩模中解碼或從標(biāo)頭信息中獲得。
在1008,提供了顯示特性。顯示特性可被預(yù)先確定,由用戶輸入和/或動態(tài)確定。顯示特性包括了諸如顯示區(qū)大小、字體大小、列數(shù)之類的信息。在1010,根據(jù)顯示特性對掩模、前景圖像和背景圖像作修改。修改圖像分量使得重組時,它們與顯示特性匹配。例如,掩模中的文本可被回流以在窄屏幕上適當(dāng)顯示而不用左右翻滾。
在1012,組合掩模,前景圖像和背景圖像以形成重組的文檔圖像。前景圖像和背景圖像根據(jù)掩模而組合以形成新組合的文檔圖像。掩模是二進(jìn)制的,因而重組的文檔圖像的每個像素是依據(jù)掩模的相應(yīng)像素從前景圖像和背景圖像對應(yīng)的像素中指定。重組的文檔圖像與原始文檔圖像一致或緊緊逼近原始文檔圖像。原始文檔圖像是原始編碼成所接收的比特流的文檔圖像。
應(yīng)理解,本發(fā)明的系統(tǒng)和/或方法可被用于整個系統(tǒng)中以利于對文本、手跡物、繪圖及類似內(nèi)容的識別和/或壓縮。還有,本領(lǐng)域的技術(shù)人員將認(rèn)識到本發(fā)明的系統(tǒng)和/或方法可被用于巨大圖像陣列的應(yīng)用,包括但不限于,照片復(fù)印機(jī)、文檔掃描器、光學(xué)字符識別系統(tǒng)、PDA、傳真機(jī)、數(shù)碼相機(jī)和/或數(shù)字視頻攝像機(jī)。
為了對本方發(fā)明各個方面提供附加的關(guān)聯(lián)環(huán)境,圖11和下述討論旨在提供關(guān)于一種可能的、合適的、可以在其中實現(xiàn)本發(fā)明的各個方面的計算環(huán)境的簡略的一般描述。應(yīng)理解,該計算環(huán)境1110僅是一種可能的計算環(huán)境,并且并不想要對本發(fā)明可被使用的計算環(huán)境作出限制。雖然上面已就可在一臺或多臺計算機(jī)上運(yùn)行的計算機(jī)可執(zhí)行指令的一般背景下描述了本發(fā)明,應(yīng)認(rèn)識到本發(fā)明也可與其他程序模塊組合實現(xiàn)和/或作為硬件或軟件的組合來實現(xiàn)。一般來說,程序模塊包括例程、程序、組件、數(shù)據(jù)結(jié)構(gòu)等等,它們執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。而且,會理解,本發(fā)明方法也可用其它計算機(jī)系統(tǒng)配置實行,包括單處理器或多處理器計算機(jī)系統(tǒng)、微型計算機(jī)系統(tǒng)、大型計算機(jī)系統(tǒng)以及個人計算機(jī)、手持計算裝置、基于微處理器或可編程的消費(fèi)品電子裝置及類似裝置,它們的每一個都可在操作上耦連到一個或多個相關(guān)的裝置。本發(fā)明已闡明的方面也可在分布式計算環(huán)境中實行,其中某些任務(wù)可由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理裝置來執(zhí)行。在分布式環(huán)境中,程序模塊可位于本地和遠(yuǎn)程存儲器存儲裝置中。
圖11說明了一種支持這里所述的系統(tǒng)和方法的可能的硬件配置。應(yīng)理解,雖然說明的是獨立式結(jié)構(gòu),任何符合本發(fā)明的適當(dāng)?shù)挠嬎銠C(jī)環(huán)境都可被使用。例如,根據(jù)本發(fā)明可使用各種計算機(jī)結(jié)構(gòu),包括但不限于、獨立式、多處理器、分布式、客戶機(jī)/服務(wù)器、小型計算機(jī)、大型計算機(jī)、超級計算機(jī)、數(shù)字式和模擬式。
參照圖11,用于實現(xiàn)本發(fā)明各個方面的示例環(huán)境1110包括計算機(jī)1112,該計算機(jī)包括處理單元1114、系統(tǒng)存儲器1116以及把包括系統(tǒng)存儲器在內(nèi)的各個系統(tǒng)組件耦連到處理單元1114的系統(tǒng)總線1118。處理單元1114可以是各類商用處理器中的任何一種。雙處理器和其它多處理器結(jié)構(gòu)也可用作處理單元1114。
系統(tǒng)總線1118可以是幾類總線結(jié)構(gòu)中的任何一種,包括存儲器總線或存儲器控制器、外設(shè)總線,以及使用各種商用總線結(jié)構(gòu)中任何一種的本地總線。計算機(jī)存儲器1116包括只讀存儲器(ROM)1120和隨機(jī)存取存儲器(RAM)1122?;据斎?輸出系統(tǒng)(BIOS)存儲在ROM 1120中,BIOS包含了,例如在啟動期間,幫助信息在計算機(jī)1112中的元件之間傳遞的基本例程。
計算機(jī)1112可進(jìn)一步包括硬盤驅(qū)動器1124、磁盤驅(qū)動器1126,例如從可移動盤1128讀/寫,以及光盤驅(qū)動器830,例如,用于讀CD-ROM盤或從其它光學(xué)媒體讀/寫。硬盤驅(qū)動器1124、磁盤驅(qū)動器1126和光盤驅(qū)動器1130分別通過硬盤驅(qū)動器接口1134,磁盤驅(qū)動器接口1136和光盤驅(qū)動器接口1138連到系統(tǒng)總線1118。計算機(jī)1112典型地至少包括計算機(jī)可讀媒體的某些形式。計算機(jī)可讀媒體可以是任何可由計算機(jī)1112訪問的可供使用的媒體。例如,但不限于,計算機(jī)可讀媒體可包括計算機(jī)存儲媒體和通信媒體。計算機(jī)存儲媒體包括易失性、可移動和不可移動媒體,被以任何方法和技術(shù)實現(xiàn)為用于存儲諸如計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)。計算機(jī)存儲媒體包括,但不限于RAM、ROM、EEPROM、快閃存儲器或其它存儲技術(shù)、CD-ROM、數(shù)字通用盤(DVD)或其它磁存儲裝置,或任何可用于存儲所需信息并可由計算機(jī)1112訪問的其它各種媒體。通信媒體典型地體現(xiàn)為計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或已調(diào)數(shù)據(jù)信號,例如載波或其它傳輸機(jī)制中的其它數(shù)據(jù),并包括任何信息傳遞媒體。術(shù)語“已調(diào)數(shù)據(jù)信號”意思是一種信號,它已使它的一個或多個特征被按編碼信號中信息的這種方式被設(shè)置或改變。舉例來說,但不限于此,通信媒體包括有線媒體,諸如有線網(wǎng)絡(luò)或直接有線連接;以及無線媒體,諸如聲頻、射頻、紅外和其它無線媒體。上述的任何組合也被包括在計算機(jī)可讀媒體的范圍內(nèi)。
驅(qū)動器和RAM 1122中可存儲許多程序模塊,包括操作系統(tǒng)1140、一個或多個應(yīng)用程序1142、其它程序模塊1144、以及程序非中斷數(shù)據(jù)1146。計算機(jī)1112中的操作系統(tǒng)1140可以是許多商用操作系統(tǒng)中的任何一個。
用戶可通過鍵盤1148和指點裝置,例如鼠標(biāo)1150把命令和信息輸入計算機(jī)1112。其它輸入裝置(未示出)可包括話筒、IR遙控、操縱桿、游戲手柄、衛(wèi)星盤天線、掃描器或類似裝置。這些或其它輸入裝置常通過與系統(tǒng)總線1118耦合的串行口接口1152連接到處理單元1114,但也可用其它接口,諸如并行口、游戲口、通用串行總線(“USB”)、IR接口等。監(jiān)視器1154或其它類型的顯示裝置也通過接口,如視頻適配器1156,被連到系統(tǒng)總線1118。除監(jiān)視器外,計算機(jī)一般還包括其它外圍輸出設(shè)備(未示出),如揚(yáng)聲器、打印機(jī)等。
計算機(jī)1112也可使用與一個或多個遠(yuǎn)程計算機(jī),例如遠(yuǎn)程計算機(jī)1158的邏輯和/或物理連接工作在連網(wǎng)環(huán)境中。遠(yuǎn)程計算機(jī)1158可以是工作站、服務(wù)器計算機(jī)、路由器、個人計算機(jī)、基于微處理器的娛樂電器設(shè)備、對等裝置或其它公共網(wǎng)絡(luò)節(jié)點,并且典型地包括了許多或所有已描述的與計算機(jī)1112有關(guān)的元件,雖然為了簡要的目的,僅示出了存儲器存儲裝置1160。所述的邏輯連接包括局域網(wǎng)(LAN)1162和廣域網(wǎng)(WAN)1164。這樣的組網(wǎng)環(huán)境在辦公室、企業(yè)內(nèi)計算機(jī)網(wǎng)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。
當(dāng)用于LAN組網(wǎng)環(huán)境中時,計算機(jī)1112通過網(wǎng)絡(luò)接口或適配器1166連接到局域網(wǎng)1162。當(dāng)用于WAN組網(wǎng)環(huán)境中時,計算機(jī)1112典型地包括調(diào)制解調(diào)器1168?;蜻B到LAN上的通信服務(wù)器,或有用于建立通過WAN 1164,例如因特網(wǎng),通信的其它裝置。調(diào)制解調(diào)器1168可以是內(nèi)置的或外置的,通過串行口接口1152被連到系統(tǒng)總線1118。在連網(wǎng)環(huán)境中,所述的與計算機(jī)1112有關(guān)的程序模塊、或其一部分,可被存儲在遠(yuǎn)程存儲器存儲裝置1160中。將會理解,所示的網(wǎng)絡(luò)連接只是示例,可以使用其它的裝置來建立計算機(jī)間的通信鏈路。
圖12是本發(fā)明可與之交互動作的示例計算機(jī)環(huán)境1200的原理框圖。系統(tǒng)1200包括一個或多個客戶機(jī)1210,客戶機(jī)1210可以是硬件和/或軟件(例如,線程、進(jìn)程、計算裝置)。系統(tǒng)1200還包括一個或多個服務(wù)器1230。服務(wù)器1230可以是硬件和/或軟件(例如,線程、進(jìn)程、計算裝置)。例如,通過利用本發(fā)明服務(wù)器1230可容納線程以執(zhí)行變換。在客戶機(jī)1210和服務(wù)器1230間的一種可能的通信可以是以適合于在兩個或多個計算機(jī)進(jìn)程之間發(fā)送的數(shù)據(jù)包形式。系統(tǒng)1200包括通信框架1250,它可被用來方便客戶機(jī)1210和服務(wù)器1230間的通信,客戶機(jī)1210可操作地連接到一個或多個客戶機(jī)數(shù)據(jù)存儲裝置1260,該存儲裝置可用于存儲客戶機(jī)1210的本地信息。類似地,服務(wù)器1230可操作地連接到一個或多個服務(wù)器數(shù)據(jù)存儲裝置1240,該存儲裝置可用于存儲服務(wù)器1230的本地信息。
上面所描述的包括了要發(fā)明的示例。當(dāng)然,不可能描述用于本發(fā)明目的可想像得到的所有組件或方法的組合,但是本領(lǐng)域的普通技術(shù)人員會認(rèn)識到本發(fā)明的許多進(jìn)一步的組合和排列是可能的。因而,本發(fā)明旨在涵蓋所有這類替換修改和變異,它們均落在所附權(quán)要書的精神和范圍之內(nèi)。進(jìn)一步,對于術(shù)語“包括”,使用在詳細(xì)描述或權(quán)利要求中的意義上而言,此類術(shù)語旨在以類似于術(shù)語“組成”的方式是包容性的,因為“組成”當(dāng)被使用在權(quán)利要求書中時被解釋為是一個轉(zhuǎn)移性的詞匯。
權(quán)利要求
1.一種文檔編碼系統(tǒng),其特征在于,包括掩模分離器,該掩模分離器接收文檔圖像并從該文檔圖像生成掩模,至少部分基于像素能量的最小化且通過至少部分成對合并文檔圖像的區(qū)域來生成掩模;以及圖像分割器,該圖像分割器根據(jù)所述掩模把文檔圖像分割成多層,該多層以非二進(jìn)制格式表示。
2.如權(quán)利要求1所述的文檔編碼系統(tǒng),其特征在于,該多層包括第一圖像層和第二圖像層以及用二進(jìn)制格式表示的掩模。
3.如權(quán)利要求2所述的文檔編碼系統(tǒng),其特征在于,第一圖像層是前景圖像而第二圖像層是背景圖像。
4.如權(quán)利要求3所述的文檔編碼系統(tǒng),其特征在于,進(jìn)一步包括掩模編碼器,把該掩模編碼成掩模比特流。
5.如權(quán)利要求4所述的文檔編碼系統(tǒng),其特征在于,該掩模編碼器使用基于傳真的壓縮方案。
6.如權(quán)利要求4所述的文檔編碼系統(tǒng),其特征在于,該掩模編碼器使用兩層壓縮方案。
7.如權(quán)利要求4所述的文檔編碼系統(tǒng),其特征在于,進(jìn)一步包括前景編碼器,該前景編碼器把來自圖像分割器的前景圖像編碼成前景比特流;以及背景編碼器,該背景編碼器把來自圖像分割器的背景圖像編碼成背景比特流。
8.如權(quán)利要求7所述的文檔編碼系統(tǒng),其特征在于,所述前景編碼器和背景編碼器使用漸進(jìn)小波變換壓縮方案。
9.如權(quán)利要求7所述的文檔編碼系統(tǒng),其特征在于,所述前景編碼器和背景編碼器使用漸進(jìn)變換壓縮方案。
10.如權(quán)利要求7所述的文檔編碼系統(tǒng),其特征在于,所述前景編碼器和背景編碼器使用掩模小波變換壓縮方案。
11.如權(quán)利要求7所述的文檔編碼系統(tǒng),其特征在于,進(jìn)一步包括一組合器組件,用來把掩模比特流、前景比特流和背景比特流組合成一組合比特流。
12.一種文檔編碼系統(tǒng),其特征在于,包括掩模分離器,該掩模分離器接收文檔圖像并從該文檔圖像生成掩模;潤色組件,潤色組件識別虛假邊界和/或利用掩模擴(kuò)展前景和/或背景圖像;以及圖像分割器,該圖像分割器根據(jù)掩模把文檔圖像分割成多層,該多層以非二進(jìn)制格式表示。
13.如權(quán)利要求12所述的文檔編碼系統(tǒng),其特征在于,所述潤色組件可工作成基于識別的虛假邊界生成前景掩模和背景掩模,而圖像分割器利用前景掩模獲得前景圖像和利用背景掩模獲得背景圖像。
14.如權(quán)利要求12所述的文檔編碼系統(tǒng),其特征在于,進(jìn)一步包括掩模編碼器,把掩模編碼成掩模比特流;前景編碼器,該前景編碼器把來自圖像分割器的前景圖像編碼成前景比特流;以及背景編碼器,該背景編碼器把來自圖像分割器的背景圖像編碼成背景比特流。
15.一種文檔編碼系統(tǒng),其特征在于,包括掩模分離器,該掩模分離器接收文檔圖像并從該文檔圖像生成掩模,該掩模以二進(jìn)制格式表示并至少部分基于像素能量的最小化且通過至少部分成對合并文檔圖像的區(qū)域被生成;以及前景背景分割器,該分割器根據(jù)掩模把文檔圖像分割成前景圖像和背景圖像,該前景圖像和背景圖像以非二進(jìn)制格式表示。
16.如權(quán)利要求15所述的系統(tǒng),其特征在于,生成的掩模減小了掩模、前景圖像和背景圖像的組合尺寸。
17.如權(quán)利要求15所述的系統(tǒng),其特征在于,生成的掩模是為了減小前景圖像和背景圖像的估計壓縮,該估計壓縮包括能量方差的計算。
18.如權(quán)利要求15所述的系統(tǒng),其特征在于,所述前景圖像包括多個色彩,以及所述背景圖像包括多個色彩。
19.如權(quán)利要求15所述的系統(tǒng),其特征在于,該文檔圖像包括文本信息。
20.如權(quán)利要求15所述的系統(tǒng),其特征在于,該文檔圖像包括單個頁面。
21.如權(quán)利要求1 5所述的系統(tǒng),其特征在于,該文檔圖像包括手跡。
22.使用權(quán)利要求15所述系統(tǒng)的照相復(fù)制機(jī)。
23.使用權(quán)利要求15所述系統(tǒng)的文檔掃描儀。
24.使用權(quán)利要求15所述系統(tǒng)的光學(xué)字符識別系統(tǒng)。
25.使用權(quán)利要求15所述系統(tǒng)的個人數(shù)字助理。
26.使用權(quán)利要求15所述系統(tǒng)的傳真機(jī)。
27.使用權(quán)利要求15所述系統(tǒng)的數(shù)碼相機(jī)。
28.使用權(quán)利要求15所述系統(tǒng)的數(shù)字視頻攝像機(jī)。
29.使用權(quán)利要求15所述系統(tǒng)的經(jīng)分割的分層圖像系統(tǒng)。
30.使用權(quán)利要求15所述系統(tǒng)的視頻游戲。
31.一種文檔編碼系統(tǒng),其特征在于,包括色彩空間轉(zhuǎn)換器,該色彩空間轉(zhuǎn)換器把具有第一色彩空間的文檔圖像轉(zhuǎn)換成具有第二色彩空間的經(jīng)轉(zhuǎn)換文檔圖像;掩模分離器,該掩模分離器從該經(jīng)轉(zhuǎn)換的文檔圖像生成掩模,該掩模以二進(jìn)制格式表示并至少部分基于像素能量的最小化且通過至少部分成對合并文檔圖像的區(qū)域被生成;以及前景背景分割器,該分割器根據(jù)掩模把該經(jīng)轉(zhuǎn)換的文檔圖像分割成前景圖像和背景圖像,該前景圖像和背景圖像以非二進(jìn)制格式表示。
32.如權(quán)利要求31所述的系統(tǒng),其特征在于第一色彩空間是RGB而第二色彩空間是YUV。
33.如權(quán)利要求31所述的系統(tǒng),其特征在于,第一色彩空間是RGB而第二色彩空間是YCoCg。
34.一種文檔解碼系統(tǒng),其特征在于,包括分離器組件,該分離器組件把比特流分離成前景比特流、背景比特流和掩模比特流;前景解碼器,該前景解碼器把前景比特流解碼成前景圖像;背景解碼器,該背景解碼器把背景比特流解碼成背景圖像;掩模解碼器,該掩模解碼器把掩模比特流解碼成掩模;以及組合器組件,該組合器組件根據(jù)掩模生成作為前景圖像和背景圖像的組合的文檔圖像。
35.如權(quán)利要求34所述的系統(tǒng),其特征在于,該文檔圖像具有多個像素,多個像素的每一個像素是從包括前景圖像和背景圖像的組中之一獲取。
36.如權(quán)利要求34所述的系統(tǒng),其特征在于,該文檔圖像與原始文檔圖像一致。
37.如權(quán)利要求34所述的系統(tǒng),其特征在于,該文檔圖像基本上類似于原始文檔圖像。
38.如權(quán)利要求37所述的系統(tǒng),其特征在于,進(jìn)一步包括經(jīng)分割層的文檔編碼系統(tǒng),用來生成掩模、前景圖像和背景圖像;用來編碼掩模成掩模比特流、編碼前景圖像成前景比特流、編碼背景圖像成背景比特流以及把掩模比特流、前景比特流和背景比特流組合成所述比特流。
39.一種文檔系統(tǒng),其特征在于,包括色彩空間轉(zhuǎn)換器,該色彩空間轉(zhuǎn)換器轉(zhuǎn)換文檔圖像的色彩空間;掩模分離器,該掩模分離器從色彩空間轉(zhuǎn)換器接收文檔圖像,并至少部分基于像素能量的最小化且通過至少部分成對合并文檔圖像的區(qū)域為該文檔圖像生成掩模;掩模處理器組件,該掩模處理器組件從掩模分離器接收掩模并對該掩模處理;以及分割器,該分割器根據(jù)掩模把文檔圖像分割成前景圖像和背景圖像。
40.如權(quán)利要求39所述的系統(tǒng),其特征在于,該掩模處理器組件包括一抖動檢測組件,用于從掩模中識別和移去抖動。
41.如權(quán)利要求39所述的系統(tǒng),其特征在于,該掩模處理器組件進(jìn)一步包括噪聲除去組件。用于從掩模中識別和移去噪聲。
42.如權(quán)利要求39所述的系統(tǒng),其特征在于,進(jìn)一步包括聚類組件,該聚類組件從該掩模處理器組件接收掩模并確定在掩模中的連通分量并利用至少一種篩選特性把類似的連通分量一起分組為聚類。
43.如權(quán)利要求42所述的系統(tǒng),其特征在于,進(jìn)一步包括布局組件,該布局組件從聚類組件接收掩模并從掩模識別布局信息。
44.如權(quán)利要求43所述的系統(tǒng),其特征在于,進(jìn)一步包括掩模編碼器,該掩模編碼器從布局組件接收掩模并把該掩模編碼成掩模比特流。
45.如權(quán)利要求44所述的系統(tǒng),其特征在于,所述分割器進(jìn)一步包括一潤色組件,該潤色組件分析掩模和文檔文件以識別虛假邊界并沿該虛假邊界把前景掩模和背景掩模擴(kuò)展一些像素,該前景掩模和背景掩模是基于該掩模的,前景掩模被分割器用于獲取前景圖像而背景掩模被分割器用于獲取背景圖像。
46.如權(quán)利要求45所述的系統(tǒng),其特征在于,進(jìn)一步包括色彩連通組件,該色彩連通組件識別前景圖像和背景圖像中的色彩連通分量。
47.如權(quán)利要求45所述的系統(tǒng),其特征在于,進(jìn)一步包括前景編碼器,該前景編碼器接收前景圖像并把前景圖像編碼成前景比特流;背景編碼器,該背景編碼器接收背景圖像并把背景圖像編碼成背景比特流;以及組合器組件,該組合器組件把掩模比特流、前景比特流和背景比特流組合成一組合比特流。
48.如權(quán)利要求47所述的系統(tǒng),其特征在于,進(jìn)一步包括一光學(xué)字符識別組件,該光學(xué)字符識別組件從聚類組件接收掩模并識別掩模中的字符。
49.如權(quán)利要求48所述的系統(tǒng),其特征在于,進(jìn)一步包括前景像素填充器和背景像素填充器,前景像素填充器用無關(guān)像素填充前景圖像中的無關(guān)區(qū)域而背景像素填充器用無關(guān)像素填充背景圖像中的無關(guān)區(qū)域。
50.一種編碼文檔的方法,其特征在于,包括至少部分基于像素能量的最小化且通過至少部分成對合并文檔圖像的區(qū)域為一文檔圖像生成掩模;以及把該文檔圖像分割成前景圖像和背景圖像,該前景圖像和背景圖像是非二進(jìn)制格式。
51.如權(quán)利要求50所述的方法,其特征在于,進(jìn)一步包括編碼掩模以生成掩模比特流;編碼前景圖像以生成前景比特流;編碼背景圖像以生成背景比特流;以及把掩模比特流、前景比特流和背景比特流組合成一組合比特流。
52.如權(quán)利要求50所述的方法,其特征在于進(jìn)一步包括產(chǎn)生所述掩模,從而減少前景圖像、背景圖像和掩模的能量方差,該能量方差是壓縮的估值。
53.如權(quán)利要求50所述的方法,其特征在于,進(jìn)一步包括用無關(guān)像素來填充前景圖像和背景圖像的無關(guān)區(qū)域。
54.如權(quán)利要求50所述的方法,其特征在于,進(jìn)一步包括從所述掩模識別出布局信息。
55.如權(quán)利要求50所述的方法,其特征在于,進(jìn)一步包括從所述掩模中去除噪聲。
56.如權(quán)利要求50所述的方法,其特征在于,分割文檔圖像進(jìn)一步包括把前景圖像和背景圖像像擴(kuò)展一些像素。
57.一種解碼文檔方法,其特征在于,包括接收一比特流;分割該比特流成掩模比特流、前景比特流和背景比特流;解碼前景比特流成前景圖像;解碼背景比特流成背景圖像;解碼掩模比特流成掩模;以及根據(jù)掩模把前景圖像和背景圖像組合成一重構(gòu)的圖像。
58.如權(quán)利要求57所述的方法,其特征在于,進(jìn)一步包括提供顯示特性。
59.如權(quán)利要求57所述的方法,其特征在于,所述顯示特性由用戶提供。
60.如權(quán)利要求57所述的方法,其特征在于,所述顯示特性被動態(tài)地確定。
61.如權(quán)利要求57所述的方法,其特征在于,所述顯示特性預(yù)先確定。
62.如權(quán)利要求57所述的方法,其特征在于,進(jìn)一步包括根據(jù)顯示特性修改前景圖像、背景圖像和掩模。
63.如權(quán)利要求57所述的方法,其特征在于,進(jìn)一步包括轉(zhuǎn)換重構(gòu)成文檔圖像的色彩空間。
64.一種適合于在兩個或多個計算機(jī)進(jìn)程間傳送的數(shù)據(jù)包,該數(shù)據(jù)包包括與掩模、背景圖像和前景圖像關(guān)聯(lián)的信息,背景圖像和前景圖像根據(jù)掩模形成重構(gòu)文檔圖像。
65.一種計算機(jī)可讀媒體,具有用于文檔編碼系統(tǒng)的計算機(jī)可用組件,其特征在于包括轉(zhuǎn)換文檔圖像的色彩空間的色彩空間轉(zhuǎn)換器組件;掩模分離器組件,該掩模分離器組件從色彩空間轉(zhuǎn)換器組件接收該文檔圖像并至少部分基于像素能量的最小化且通過至少部分成對合并文檔圖像的區(qū)域為該文檔圖像生成掩模;以及分割器組件,該分割器組件從色彩空間轉(zhuǎn)換器接收該文檔圖像并根據(jù)掩模把該文檔圖像分割成前景圖像和背景圖像。
66.如權(quán)利要求65所述的計算機(jī)可讀媒體,其特征在于,進(jìn)一步包括掩模處理器組件,該掩模處理器組件從掩模分離器組件接收掩模并對該掩模處理;聚類組件,該聚類組件從掩模處理器組件接收掩模并識別在該掩模中的聚類;以及布局組件,該布局組件從聚類組件接收掩模并從該掩模識別布局信息。
67.如權(quán)利要求66所述的計算機(jī)可讀媒體,其特征在于,進(jìn)一步包括掩模編碼器組件,該掩模編碼器組件從布局組件接收掩模并把該掩模編碼成掩模比特流;前景編碼器組件,該前景編碼器組件把前景圖像編碼成前景比特流;背景編碼器組件,該背景編碼器組件接收背景圖像并把背景圖像編碼成背景比特流;組合器組件,該組合器組件把掩模比特流、前景比特流和背景比特流組合成一組合比特流。
68.一編碼系統(tǒng),其特征在于,包括用于至少部分基于像素能量的最小化且通過至少部分成對合并文檔圖像的區(qū)域為該文檔圖像生成掩模的裝置;以及用于把文檔圖像分割成前景圖像和背景圖像的裝置;用于把掩模編碼成掩模比特流的裝置;用于把前景圖像編碼成前景比特流的裝置;用于把背景圖像編碼成背景比特流的裝置;以及用于把掩模比特流、前景比特流和背景比特流組合成一組合比特流的裝置。
全文摘要
揭示了用于編碼和解碼文檔圖象的系統(tǒng)和方法。根據(jù)掩碼把文檔圖分割成多層。該多層是非二進(jìn)制的。然后可單獨對各層處理和壓縮以取得對文檔圖象的較好的總體壓縮。從文檔圖象生成一掩模。生成的掩模要能減小對掩模和文檔圖象的多層的組合大小的壓縮估值。該掩模隨后被用于把文檔圖象分割成多層。掩模確定或分配文檔圖象的像素到各層中。掩模和多層被單獨處理和編碼以能總體改進(jìn)文檔圖象的壓縮并改進(jìn)這樣做的速度。多層是非二進(jìn)制圖象并能,例如,包括前景圖象和背景圖象。
文檔編號H04N7/30GK1458791SQ0310833
公開日2003年11月26日 申請日期2003年3月25日 優(yōu)先權(quán)日2002年4月25日
發(fā)明者P·Y·?,?shù)? E·L·倫肖, J·R·林克, H·S·瑪爾瓦 申請人:微軟公司