基于圖像檢測和切割的電子文檔屏幕顯示方法
【專利摘要】本發(fā)明提供了一種基于圖像檢測和切割的電子文檔屏幕顯示方法,步驟包括:利用文檔的圖像信息檢測文檔的格式信息;估算最佳縮放比例并根據(jù)最佳縮放比對文檔進行縮放;通過目標設(shè)備的分辨率來估算可放置行文本圖像的寬度,并根據(jù)該寬度生成適合屏幕顯示的電子文檔。本發(fā)明能夠有效解決由于電子文檔中的字體偏大或偏小,而不適合屏幕顯示的問題,節(jié)約了手工制作電子文檔屏幕顯示的人力和時間。
【專利說明】基于圖像檢測和切割的電子文檔屏幕顯示方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子信息技術(shù),具體屬于一種基于圖像檢測和切割的電子文檔屏幕顯示方法。
【背景技術(shù)】
[0002]計算機的迅速發(fā)展,引發(fā)了信息存儲的重大變革;而電子文檔的出現(xiàn),也改變了人類的閱讀習慣。電子書以其低碳環(huán)保(無需木材、煤、化工原料)、簡單易攜(容量為4G存儲器可以存儲1000本電子圖書)、時間利用率高(可以利用各種零碎時間進行閱讀學習)、查找搜索方便(可以利用索引鏈接、目錄鏈接、模糊查詢等快速查找手段)、價廉(電子書的銷售價格遠低于紙質(zhì)書)、易復(fù)制存儲、無損耗等優(yōu)點迅速吸引了消費者。
[0003]然而,由于各種原因,許多不能編輯的電子文檔(如HF、CAJ、PDG, Djvu等格式)的屏幕顯示效果并不好。例如,16開本和32開本的電子掃描書的字體并不一致,屏幕閱讀體驗也不同;有些書籍的字體可能偏大或偏小,需要讀者縮放顯示。特別是當這些電子文檔需要屏幕顯示時(如播放幻燈片),這種矛盾尤其突出。專家建議,當使用幻燈片進行電子投影時,所選字體的字號一般要大于28號,而且要設(shè)置1.3?1.5倍的行間距。為了達到這一要求,最方便有效的方式是對電子文檔進行縮放顯示,然而,縮放后的頁面寬度和高度一般會遠大于屏幕寬度和高度,尤其是字體偏小的電子文檔,這一缺點尤其明顯。一般來說,頁面的高度大于屏幕高度并不會造成閱讀的不便,因為演講者可以通過上下拖動鼠標來調(diào)整可視部分;但如果頁面的寬度大于屏幕寬度,則演講者需要每行都來回拖動鼠標來調(diào)整可視部分,嚴重地中斷了演講者和聽講者的思路,影響了演講或閱讀效果。而通過電子文檔手工制作幻燈片的方法費時費力,造成了極大的人力浪費。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于,針對電子文檔中的字體偏大或偏小,不適合屏幕顯示或播放,而手工制作電子幻燈片又造成了極大的人力浪費,提供一種基于圖像檢測和切割的電子文檔屏幕顯示方法。
[0005]本發(fā)明提供的一種基于圖像檢測和切割的電子文檔屏幕顯示方法,包括如下步驟:
[0006]步驟1:利用圖像信息檢測電子文檔信息,包括電子文檔的背景、行間距、行高、行首縮進和段落:
[0007](I)對電子文檔的圖像進行采樣,并根據(jù)采樣結(jié)果計算最有可能的背景顏色。所述的電子文檔圖像可以通過打印、另存或屏幕截圖得到。采樣數(shù)越多,估算的結(jié)果就越準確。該步驟基于假設(shè):電子文檔圖像中顏色重復(fù)出現(xiàn)最多的是背景顏色;
[0008](2)通過對電子文檔進行水平圖像掃描,得到行間距分布、行高分布和左頁邊距分布,并估計行間距、行高和行首縮進。此處需注意,行間距可能會在標題、段落前后、甚至含有公式的行表現(xiàn)出顯著差異。該步驟基于假設(shè):(1)通過對文檔圖像中連續(xù)出現(xiàn)的相同寬度的背景色塊進行檢測,可以得到行間距分布和左頁邊距分布。一般來說,可能的行間距為滿足如下條件的塊的高度:塊的寬度等于文檔圖像寬度。重復(fù)出現(xiàn)次數(shù)最多的可能行間距應(yīng)該為真實行間距??赡艿捻撨吘酁闈M足如下條件的塊的寬度:塊的寬度小于文檔圖像的一半寬度。重復(fù)出現(xiàn)次數(shù)最多的可能頁邊距應(yīng)該為真實頁邊距,重復(fù)出現(xiàn)次數(shù)次多的應(yīng)該為真實的行首縮進;(2)通過對文檔圖像中連續(xù)出現(xiàn)的相同寬度的非背景色塊進行檢測,可以得到行高分布。一般來說,重復(fù)出現(xiàn)次數(shù)最多的可能行高應(yīng)該為真實行高。
[0009](3)綜合行間距分布和行首縮進信息得到段落劃分。該步驟基于假設(shè):如果行間距的分布不均勻,就表明該電子文檔可能是通過段間距來劃分段落的(有些英文文檔是通過段間距而非行首縮進來劃分段落的);如果行間距的分布均勻,就需要通過行首縮進來劃分段落(一些英文文檔和大部分中文文檔都是通過行首縮進來劃分段落的)。
[0010]步驟2:通過公式:像素大小=字號*96/72,來計算最終字號的像素大小,再通過公式:最佳縮放比=像素大小/行高,來計算最佳縮放比;
[0011]步驟3:根據(jù)最佳縮放比對文檔圖像進行縮放處理,必要時可以對圖像進行平滑處理,以強化顯示效果;
[0012]步驟4:根據(jù)最佳縮放比對行間距進行更新:新行間距=舊行間距*最佳縮放比;
[0013]步驟5:通過獲取目標設(shè)備的分辨率來估算可放置的行文本圖像的寬度,并依據(jù)該寬度生成適合屏幕顯示的電子文檔,具體子步驟為:
[0014](I)獲取目標設(shè)備的分辨率,并估算可放置的行文本圖像的寬度;
[0015](2)根據(jù)更新后的新行間距對電子文檔圖像按行進行切割得到行文本圖像;
[0016](3)根據(jù)估算得到的行文本圖像寬度對行文本圖像進行切割,要保證切割點位于單詞和單詞或漢字和漢字之間;
[0017](4)根據(jù)切割結(jié)果編排成最終的電子文檔,需要保證段間距大于等于1.5倍的新行間距,行間距調(diào)整為1.3?1.5倍的新行間距。
[0018]與現(xiàn)有技術(shù)相比本發(fā)明的優(yōu)點在于:
[0019](I)因為該發(fā)明采用了圖像檢測和切割的方式來生成最終的電子文檔,因此最終生成的電子文檔不失真;
[0020](2)該發(fā)明基于電子文檔圖像來生成最終的電子文檔,因此能處理任何可以在屏幕上顯示的電子文檔,包括但不局限于HF、CAJ、PDG, Djvu等文檔格式;
[0021](3)該發(fā)明最終生成了基于圖像的電子文檔,因此可以嵌入到各種支持圖像插入的軟件中,包括 Word、PowerPoint、Photoshop、Excel 等軟件。
【專利附圖】
【附圖說明】
[0022]圖1為本發(fā)明【具體實施方式】流程圖
[0023]圖2為本發(fā)明【具體實施方式】采用的實驗電子文檔
[0024]圖3為本發(fā)明【具體實施方式】的文檔背景顏色檢測
[0025]圖4為本發(fā)明【具體實施方式】的行間距檢測結(jié)果
[0026]圖5為本發(fā)明【具體實施方式】的行高檢測結(jié)果
[0027]圖6為本發(fā)明【具體實施方式】的行首縮進檢測結(jié)果
[0028]圖7為本發(fā)明【具體實施方式】的最終顯示效果【具體實施方式】
[0029]下面將結(jié)合實例給出具體的實施方案。
[0030]步驟1:利用圖像信息檢測電子文檔信息:
[0031](I)對電子文檔的圖像進行采樣,并根據(jù)采樣結(jié)果計算最有可能的背景顏色。電子文檔圖像如圖2所示,其分辨率為2776X 1831。我們采樣100個點,并計算采樣結(jié)果。結(jié)果表明,100個采樣點中有96個點的顏色為白色(255,255,225),因此該電子文檔的背景色為白色。部分采樣結(jié)果如圖3所示,為了演示效果,我們對采樣點進行了圓圈標注。
[0032](2)通過對電子文檔進行水平圖像掃描,得到行間距分布、行高分布和左頁邊距分布,并估計行間距、行高和行首縮進。算法運行表明:該電子文檔共有45個可能的行間距(均為寬度等于1831像素的背景色塊):
[0033]139 13 45 11 12 12 12 12 12 12 12 11 11 12 12 12 1212 12 11 37 11 1212 12 12 12 12 12 11 37 12 12 12 12 12 12
1111 11 117 73 55 66 139
[0034]其中,可能行間距為12像素的色塊占57.78%,為11像素的色塊占20.8%,因此該文檔的可能行間距為12像素??赡苄虚g距在圖4中進行了標注,圖中并沒有對取值為12像素和11像素的行間距進 行標注。計算還發(fā)現(xiàn),該電子文檔有44個可能的行高:
[0035]31 5 39 39 38 38 38 38 38 38 39 39 39 38 38 38 38 3839 39 39 39 3838 38 38 38 38 39 39 39 38 38 38 38 38 39 3939 39 30 39 38 41
[0036]其中,可能行高為38像素的文字塊占52.27%,為39像素的文字塊占38.64%,因此該文檔可能行高為38像素??赡苄懈咴趫D5中進行了標注,圖中并沒有對取值為38像素和39像素的行高進行標注。另外,寬度小于文檔圖像的一半寬度的塊主要分布在218像素和270像素,這說明頁邊距應(yīng)該為218像素,行首縮進應(yīng)該為270像素,如圖6所示。
[0037](3)綜合行間距分布和行首縮進信息得到段落劃分。對行間距的分布進行分析發(fā)現(xiàn),行間距的變化主要集中在文檔的開頭和結(jié)尾,這說明該電子文檔是使用行首縮進來劃分段落的。因此可以根據(jù)行首縮進得到段落劃分。注意圖6中對編號文本的縮進檢測結(jié)果與段落的縮進檢測結(jié)果一致,為了防止將編號項認定為段落,可以嘗試記錄含有數(shù)字編號行的縮進,并與后續(xù)的文本縮進進行對比。如果后續(xù)多行文本的縮進基本相等,并且大于數(shù)字編號行的縮進,就可以判定這些文本行屬于項目編號項或項目符號項。
[0038]步驟2:通過公式:像素大小=字號*96/72,來計算最終字號的像素大小,再通過公式:最佳縮放比=像素大小/行高,來計算最佳縮放比。我們需要42號字體,因此需要42*96/72 ^ 56像素大小的字體,而56/38 ^ 1.5即為最佳縮放比。
[0039]步驟3:根據(jù)最佳縮放比對文檔圖像進行縮放處理。我們需要對該電子文檔圖像放大1.5倍。
[0040]步驟4:根據(jù)最佳縮放比對行間距進行更新:新行間距=舊行間距*1.5。我們得到新行間距為12*1.5 = 18像素。
[0041]步驟5:通過獲取目標設(shè)備的分辨率來估算可放置的行文本圖像的寬度,并依據(jù)該寬度生成適合屏幕顯示的電子文檔:[0042](I)獲取目標設(shè)備的分辨率,并估算可放置的行文本圖像的寬度。我們設(shè)備的分辨率為:1024X768。為了演示效果,我們添加了左右頁邊距各50像素,因此使用1024-50*2=924像素作為可放置的行文本圖像的寬度;
[0043](2)根據(jù)更新后的新行間距對電子文檔圖像按行進行切割得到行文本圖像;
[0044](3)根據(jù)估算得到的行文本圖像寬度對行文本圖像進行切割;
[0045](4)根據(jù)切割結(jié)果編排成最終的電子文檔,需要保證段間距大于等于1.5倍的新行間距,行間距調(diào)整為1.3~1.5倍的新行間距。我們將段間距設(shè)置為1.5倍的新行間距:
1.5*18 = 27像素,將行間距設(shè)置為1.3倍的新行間距:1.3*18 ^ 23像素。我們將切割后的圖像嵌入到Microsoft PowerPoint中,部分編排結(jié)果如圖7所示,其中的圖像邊框是為了演示切割效果而加上的。
[0046]以上所述僅為本發(fā) 明的主要實施方式而已,對于含有干擾信息的電子文檔(如文檔含有水印、文檔含有邊注、文檔為雙欄或多欄),我們可以對這些情況進行額外處理。上述實施方式并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
【權(quán)利要求】
1.一種基于圖像檢測和切割的電子文檔屏幕顯示方法,其特征在于包括如下步驟: 步驟1:利用圖像信息檢測電子文檔信息,包括電子文檔的背景顏色、行間距、行高、行首縮進和段落; 步驟2:通過公式:像素大小=字號*96/72,來計算最終字號的像素大小,再通過公式:最佳縮放比=像素大小/行高,來計算最佳縮放比; 步驟3:根據(jù)最佳縮放比對電子文檔進行縮放處理; 步驟4:根據(jù)最佳縮放比對行間距進行更新:新行間距=舊行間距*最佳縮放比; 步驟5:通過獲取目標設(shè)備的分辨率來估算可放置的行文本圖像的寬度,并依據(jù)該寬度生成適合屏幕顯示的電子文檔。
2.根據(jù)權(quán)利要求1所述的一種基于圖像檢測和切割的電子文檔屏幕顯示方法,其特征在于:步驟I中所述的利用圖像信息檢測電子文檔信息,是按照如下子步驟實現(xiàn)的: (1)對電子文檔的圖像進行采樣,并根據(jù)采樣結(jié)果計算最有可能的背景顏色; (2)通過對電子文檔進行水平圖像掃描,得到行間距分布、行高分布和左頁邊距分布,并估計行間距、行高和行首縮進; (3)綜合行間距和行首縮進的信息得到段落劃分。
3.根據(jù)權(quán)利要求1所述的一種基于圖像檢測和切割的電子文檔屏幕顯示方法,其特征在于:步驟5中所述的生成適合屏幕顯示的電子文檔,是按照如下子步驟實現(xiàn)的: (1)獲取目標設(shè)備的分辨率,并估算可放置的行文本圖像的寬度; (2)根據(jù)更新后的新行間距對電子文檔圖像按行進行切割得到行文本圖像; (3)根據(jù)估算得到的行文本圖像寬度對行文本圖像進行切割,要保證切割點位于單詞和單詞或漢字和漢字之間; (4)根據(jù)切割結(jié)果編排成最終的電子文檔,需要保證段間距大于或等于1.5倍的新行間距,行間距調(diào)整為1.3?1.5倍的新行間距。
【文檔編號】G06F17/21GK103970723SQ201410209178
【公開日】2014年8月6日 申請日期:2014年5月16日 優(yōu)先權(quán)日:2014年5月16日
【發(fā)明者】翟巖慧, 張晶, 陳紅星 申請人:山西大學