一種文檔拆分方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)加工技術(shù)領(lǐng)域,特別涉及一種文檔拆分方法及系統(tǒng)。
【背景技術(shù)】
[0002]Epub電子書格式是一種新的電子出版物格式。Epub是基于html超文本標(biāo)記語言,而隨著信息網(wǎng)絡(luò)的發(fā)展,超文本標(biāo)記語言的表達(dá)能力也得到了極大的加強,html 5的推出,更是進(jìn)一步提升html在互動和多媒體方面的優(yōu)勢。Epub的最新的3.0版本就是基于html5技術(shù),應(yīng)該說網(wǎng)絡(luò)的發(fā)展促進(jìn)了 html的進(jìn)步,基于html技術(shù)的epub電子書同樣也得到了飛速的發(fā)展和普及,這種不斷的進(jìn)步和發(fā)展,使得epub成為了未來電子出版物事實的發(fā)展方向和標(biāo)準(zhǔn)。
[0003]隨著電子出版物的普及,傳統(tǒng)紙質(zhì)印刷品出版物面臨很大的競爭壓力,但是同時對于出版行業(yè),這同樣是一種機(jī)遇,很多傳統(tǒng)的出版企業(yè)都轉(zhuǎn)向電子出版領(lǐng)域,相應(yīng)的這些企業(yè)對于從工業(yè)流程從傳統(tǒng)印刷排版工具平滑過渡到電子出版物制作工具有著強烈的需求。
[0004]當(dāng)前出版發(fā)行企業(yè)有很多現(xiàn)有的印刷排版文檔,需要轉(zhuǎn)換為電子出版物文檔,未來新出版發(fā)行的出版物也往往同時需要紙質(zhì)印刷品和電子出版物的同步上線。
[0005]現(xiàn)有的很多傳統(tǒng)排版工具考慮到這類,都推出了自己的解決方案,對于將傳統(tǒng)排版文檔轉(zhuǎn)換為Html格式內(nèi)容,各有各的處理模式,對于將一個比較大的排版文檔拆分成多個部分,現(xiàn)有的解決方案無外乎以下兩類:
[0006]第一類是從內(nèi)容著手,根據(jù)原始內(nèi)容的格式、樣式、章節(jié)、片段去拆分,這樣做只是為了拆分而拆分,這樣簡單的拆分存在極大的不確定性,需要人工去判斷結(jié)果是否合理,如果最終的結(jié)果不合理,輸出和轉(zhuǎn)換的過程都需要重新來過,極大的影響了效率,浪費了人工。
[0007]第二類是從結(jié)果Html文件著手,先從原始排版內(nèi)容輸出一個大的html文件,再通過對于Html結(jié)果的容量做分配,或者樣式、格式等內(nèi)容作解析,重新拆分,這樣相對以第一類來說,生成html的流程可以不用重新執(zhí)行,但是拆分的結(jié)果仍然存在不確定性,需要人工干預(yù),對于效率的影響仍然是可以預(yù)見的。
[0008]無論第一類還是第二類方案,都存在人工干預(yù),效率問題,而且結(jié)果都沒有考慮到最終epub文件客戶端的顯示效果,只有最后把轉(zhuǎn)換的結(jié)果傳輸?shù)娇蛻舳嗽O(shè)備上,才能最終發(fā)現(xiàn)拆分的結(jié)果是不是真的合理和完善,如果存在問題,又需要重復(fù)排版流程。
【發(fā)明內(nèi)容】
[0009]為了避免人工干預(yù),并提高文檔的拆分效率,本發(fā)明提供了一種文檔拆分方法,所述方法包括:
[0010]獲取至少一個印刷排版文檔,在每個印刷排版文檔內(nèi)的強制換頁位置和文檔的結(jié)尾位置插入強制拆分標(biāo)記,在每個印刷排版文檔的章、節(jié)或段落劃分處插入輔助拆分標(biāo)記,并將所述至少一個印刷排版文檔整合成一個待拆分文檔;
[0011]按照預(yù)設(shè)顯示區(qū)域尺寸對所述待拆分文檔進(jìn)行重排;
[0012]根據(jù)所述強制拆分標(biāo)記和輔助拆分標(biāo)記在重排后的待拆分文檔中插入文檔拆分標(biāo)記;
[0013]根據(jù)所述文檔拆分標(biāo)記對所述待拆分文檔進(jìn)行拆分。
[0014]其中,所述根據(jù)所述強制拆分標(biāo)記和輔助拆分標(biāo)記在重排后的待拆分文檔中插入文檔拆分標(biāo)記,具體包括:
[0015]將所述重排后的待拆分文檔的第一個頁面作為當(dāng)前頁面;
[0016]從所述當(dāng)前頁面開始選取預(yù)設(shè)數(shù)量的頁面;
[0017]若選取到的頁面中存在強制拆分標(biāo)記,則在所述強制拆分標(biāo)記的位置插入文檔拆分標(biāo)記,將所述強制拆分標(biāo)記所在頁面的后一頁面作為新的當(dāng)前頁面,執(zhí)行所述從當(dāng)前頁面開始選取預(yù)設(shè)數(shù)量的頁面的步驟,直至所述重排后的待拆分文檔的所有頁面均被選取至IJ,再執(zhí)行所述根據(jù)所述文檔拆分標(biāo)記對所述待拆分文檔進(jìn)行拆分的步驟;
[0018]若選取到的頁面中不存在強制拆分標(biāo)記,則從所述選取到的頁面的后一頁面開始尋找第一個輔助拆分標(biāo)記,在尋找到的第一個輔助拆分標(biāo)記的位置插入文檔拆分標(biāo)記,并將所述尋找到的第一個輔助拆分標(biāo)記所在頁面的后一頁面作為新的當(dāng)前頁面,執(zhí)行所述從當(dāng)前頁面開始選取預(yù)設(shè)數(shù)量的頁面的步驟,直至所述重排后的待拆分文檔的所有頁面均被選取到,再執(zhí)行所述根據(jù)所述文檔拆分標(biāo)記對所述待拆分文檔進(jìn)行拆分的步驟。
[0019]其中,所述在尋找到的第一個輔助拆分標(biāo)記的位置插入文檔拆分標(biāo)記之前,還包括:
[0020]判斷所述尋找到的第一個輔助拆分標(biāo)記所在頁面是否存在強制拆分標(biāo)記,若是,則在所述第一個輔助拆分標(biāo)記所在頁面的強制拆分標(biāo)記的位置插入文檔拆分標(biāo)記,將所述尋找到的第一個輔助拆分標(biāo)記所在頁面的后一頁面作為新的當(dāng)前頁面,直接執(zhí)行所述從當(dāng)前頁面開始選取預(yù)設(shè)數(shù)量的頁面的步驟。
[0021]其中,所述根據(jù)所述強制拆分標(biāo)記和輔助拆分標(biāo)記在重排后的待拆分文檔中插入文檔拆分標(biāo)記之前,還包括:
[0022]為所述重排后的待拆分文檔中每個頁面添加頁面序號;
[0023]所述從所述當(dāng)前頁面開始選取預(yù)設(shè)數(shù)量的頁面,具體包括:
[0024]根據(jù)所述頁面序號從所述當(dāng)前頁面開始選取預(yù)設(shè)數(shù)量的頁面。
[0025]其中,所述按照預(yù)設(shè)顯示區(qū)域尺寸對所述待拆分文檔進(jìn)行重排,具體包括:
[0026]根據(jù)所述待拆分文檔的顯示區(qū)域尺寸和預(yù)設(shè)顯示區(qū)域尺寸之間的區(qū)別對所述待拆分文檔的文字字號按比例進(jìn)行縮放,將縮放后的待拆分文檔通過排版引擎進(jìn)行重排。
[0027]本發(fā)明還公開了一種文檔拆分系統(tǒng),所述系統(tǒng)包括:
[0028]獲取插入模塊,用于獲取至少一個印刷排版文檔,在每個印刷排版文檔內(nèi)的強制換頁位置和文檔的結(jié)尾位置插入強制拆分標(biāo)記,在每個印刷排版文檔的章、節(jié)或段落劃分處插入輔助拆分標(biāo)記,并將所述至少一個印刷排版文檔整合成一個待拆分文檔;
[0029]文檔重排模塊,用于按照預(yù)設(shè)顯示區(qū)域尺寸對所述待拆分文檔進(jìn)行重排;
[0030]標(biāo)記插入模塊,用于根據(jù)所述強制拆分標(biāo)記和輔助拆分標(biāo)記在重排后的待拆分文檔中插入文檔拆分標(biāo)記;
[0031]文檔拆分模塊,用于根據(jù)所述文檔拆分標(biāo)記對所述待拆分文檔進(jìn)行拆分。
[0032]其中,所述標(biāo)記插入模塊具體包括:
[0033]頁面確定單元,用于將所述重排后的待拆分文檔的第一個頁面作為當(dāng)前頁面;
[0034]頁面選取單元,用于從所述當(dāng)前頁面開始選取預(yù)設(shè)數(shù)量的頁面;
[0035]尋找插入單元,用于若選取到的頁面中存在強制拆分標(biāo)記,則在所述強制拆分標(biāo)記的位置插入文檔拆分標(biāo)記,將所述強制拆分標(biāo)記所在頁面的后一頁面作為新的當(dāng)前頁面;若選取到的頁面中不存在強制拆分標(biāo)記,則從所述選取到的頁面的后一頁面開始尋找第一個輔助拆分標(biāo)記,在尋找到的第一個輔助拆分標(biāo)記的位置插入文檔拆分標(biāo)記,并將所述尋找到的第一個輔助拆分標(biāo)記所在頁面的后一頁面作為新的當(dāng)前頁面。
[0036]其中,所述系統(tǒng)還包括:
[0037]標(biāo)記判斷模塊,用于判斷所述尋找到的第一個輔助拆分標(biāo)記所在頁面是否存在強制拆分標(biāo)記,若是,則在所述第一個輔助拆分標(biāo)記所在頁面的強制拆分標(biāo)記的位置插入文檔拆分標(biāo)記,將所述尋找到的第一個輔助拆分標(biāo)記所在頁面的后一頁面作為新的當(dāng)前頁面。
[0038]其中,所述系統(tǒng)還包括:
[0039]序號添加模塊,用于為所述重排后的待拆分文檔中每個頁面添加頁面序號;
[0040]所述尋找插入單元,進(jìn)一步用于根據(jù)所述頁面序號從所述當(dāng)前頁面開始選取預(yù)設(shè)數(shù)量的頁面。
[0041]其中,所述文檔重排模塊,進(jìn)一步用于根據(jù)所述待拆分文檔的顯示區(qū)域尺寸和預(yù)設(shè)顯示區(qū)域尺寸之間的區(qū)別對所述待拆分文檔的文字字號按比例進(jìn)行縮放,將縮放后的待拆分文檔通過排版弓I擎進(jìn)行重排。
[0042]本發(fā)明通過強制拆分標(biāo)記和輔助拆分標(biāo)記在重排后的待拆分文檔中插入文檔拆分標(biāo)記,并根據(jù)所述文檔拆分標(biāo)記對所述待拆分文檔進(jìn)行拆分,達(dá)到了合理的文檔拆分,避免了人工干預(yù),并提高了文檔的拆分效率。
【附圖說明】
[0043]圖1是本發(fā)明一種實施方式的文檔拆分方法的流程圖;
[0044]圖2a是一般紙質(zhì)的印刷版面第一頁的示意圖;
[0045]圖2b是一般紙質(zhì)的