專利名稱:電子文檔的生成方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字信息領(lǐng)域,尤其涉及一種電子文檔的生成方法和裝置。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)和無(wú)紙辦公自動(dòng)化技術(shù)的發(fā)展,電子文檔的應(yīng)用也越來(lái)越廣泛,電子文檔給人們的工作帶來(lái)了方便。但是,隨著B(niǎo)/S (Browser/Server,瀏覽器/服務(wù)器模式)結(jié)構(gòu)的發(fā)展和變化,不同格式的電子文檔在Web系統(tǒng)中的管理存在很大的困難。在現(xiàn)有技術(shù)下,JavahelpQava幫助)是利用Java技術(shù)開(kāi)發(fā)的一種跨平臺(tái)的Web電子文檔格式。Javahelp 利用 Java 提供的 API (Application Programming Interface,應(yīng)用程序編程接ロ)將HTML (Hypertext Markup Language,超文本標(biāo)記語(yǔ)言)源文檔格式制 作成特定的Javahelp電子文檔格式,并可以通過(guò)Java提供的API瀏覽和搜索電子文檔的內(nèi)容?;贘ava技術(shù)的Javahelp電子文檔格式所支持的瀏覽和捜索功能較差,而且不支持非HTML源文檔制作成Javahelp電子文檔格式,也不支持在預(yù)安裝的Web系統(tǒng)中雙擊直接運(yùn)行電子文檔。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種電子文檔的生成方法和裝置,實(shí)現(xiàn)了將不同類型的源文檔生成為基于Web系統(tǒng)的統(tǒng)ー的電子文檔格式,提高了電子文檔中內(nèi)容的瀏覽和搜索效率。一方面,本發(fā)明實(shí)施例提供了一種電子文檔的生成方法,所述方法包括獲取原始文件數(shù)據(jù);按照生成所述電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)所述數(shù)據(jù)內(nèi)容所需的文檔生成信息;將所述文檔生成信息按照所述電子文檔的生成格式進(jìn)行處理,生成所述電子文檔;生成的所述電子文檔中的每個(gè)所述數(shù)據(jù)內(nèi)容均由所述文檔生成信息處理得到。另ー方面,本發(fā)明實(shí)施例提供了一種電子文檔的生成裝置,所述裝置包括獲取單元,用于獲取原始文件數(shù)據(jù);處理單元,用于根據(jù)生成所述電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)所述數(shù)據(jù)內(nèi)容所需的文檔生成信息;生成単元,用于將所述文檔生成信息按照所述電子文檔的生成格式進(jìn)行處理,生成所述電子文檔;生成的所述電子文檔中的每個(gè)所述數(shù)據(jù)內(nèi)容均由所述文檔生成信息處理得到。本發(fā)明實(shí)施例中,電子文檔生成工具在獲取原始文件數(shù)據(jù)后;根據(jù)生成電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成信息;將文檔生成信息按照電子文檔的生成格式進(jìn)行處理,生成電子文檔。本發(fā)明實(shí)施例中,電子文檔生成工具可以將各種類型的源文檔生成為ー種統(tǒng)ー電子文檔格式,實(shí)現(xiàn)了用戶可以在Web系統(tǒng)中閱讀多種格式的文檔,該電子文檔格式的瀏覽和捜索功能較強(qiáng),提高了用戶瀏覽和搜索電子文檔內(nèi)容的便利性。
圖I為本發(fā)明實(shí)施例提供的一種電子文檔的生成方法流程圖;圖2為本發(fā)明實(shí)施例提供的一種電子文檔的目錄結(jié)構(gòu)示意圖;圖3為本發(fā)明實(shí)施例提供的一種電子文檔的生成裝置示意圖。
具體實(shí)施例方式下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)ー步的詳細(xì)描述。
本發(fā)明實(shí)施例針對(duì)現(xiàn)有技術(shù)下制作電子文檔的缺陷,提供了一種電子文檔的生成方法和裝置,在實(shí)際應(yīng)用時(shí)該電子文檔的生成方法可應(yīng)用于需要管理多種格式的電子文檔的Web系統(tǒng)中。當(dāng)電子文檔生成工具獲取用于生成電子文檔的原始文件數(shù)據(jù)后;按照生成電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成信息;將文檔生成信息按照電子文檔的生成格式進(jìn)行處理,生成電子文檔。本實(shí)施例提供的電子文檔生成工具可以將各種類型的源文檔生成為ー種統(tǒng)ー電子文檔格式,實(shí)現(xiàn)了用戶可以在Web系統(tǒng)中閱讀多種格式的文檔,該電子文檔格式的瀏覽和捜索功能較強(qiáng),提高了用戶瀏覽和搜索電子文檔內(nèi)容的便利性。圖I為本發(fā)明實(shí)施例提供的一種電子文檔的生成方法流程圖。該實(shí)施例主體是電子文檔生成工具,其中詳細(xì)描述了電子文檔生成工具將不同類型的原始文件數(shù)據(jù)生成為基于Web的統(tǒng)一格式的電子文檔的方法。如圖I所示,本實(shí)施例包括以下步驟步驟101,電子文檔生成工具獲取原始文件數(shù)據(jù)。這里的原始文件數(shù)據(jù)對(duì)應(yīng)的源文檔的類型可以為HTMLHELP文檔、JAVAHELP文檔,還可以為PDF文檔、MS Office文檔、TXT文本文檔、HTML文檔等。電子文檔生成工具可以通過(guò)下面的操作步驟將接收到的各種格式的源文檔生成為統(tǒng)ー的電子文檔,實(shí)現(xiàn)統(tǒng)ー的瀏覽、搜索。步驟102,電子文檔生成工具根據(jù)生成所述電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)所述數(shù)據(jù)內(nèi)容所需的文檔生成信息。生成電子文檔所需的數(shù)據(jù)內(nèi)容可以包括導(dǎo)航文件數(shù)據(jù)、摘要文件數(shù)據(jù)、圖像文件數(shù)據(jù)、屬性文件數(shù)據(jù)、索引文件數(shù)據(jù),電子文檔生成工具在接收到原始文件數(shù)據(jù)時(shí),首先對(duì)原始文件數(shù)據(jù)中的某些信息進(jìn)行處理,生成用來(lái)生成每個(gè)數(shù)據(jù)內(nèi)容的生成信息。例如,如果要生成電子文檔中的摘要文件數(shù)據(jù),則首先需要對(duì)原始文件進(jìn)行處理,處理后得到生成摘要文件數(shù)據(jù)所需要的摘要文件生成信息,然后再對(duì)這些生成信息按照一定的格式,如壓縮文件的格式進(jìn)行相應(yīng)的處理,從而生成電子文檔。下面分別介紹通過(guò)對(duì)原始文件數(shù)據(jù)進(jìn)行處理以生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成イM息的方法。電子文檔生成工具獲取原始文件數(shù)據(jù)后,首先創(chuàng)建電子文檔的導(dǎo)航文件信息,電子文檔的導(dǎo)航文件信息用于在用戶瀏覽電子文檔時(shí)向用戶展示ー個(gè)全局的源文檔節(jié)點(diǎn)樹(shù),便于用戶快速了解該電子文檔,提高用戶瀏覽該電子文檔的效率。源文檔為HTMLHELP文檔或JAVAHELP文檔時(shí),由于這兩種類型的文檔本身就具有導(dǎo)航信息,因此生成導(dǎo)航文件數(shù)據(jù)所需的文檔生成信息的方法具體為提取所述原始文件數(shù)據(jù)中的原始導(dǎo)航信息,將所述原始文件數(shù)據(jù)中的原始導(dǎo)航信息轉(zhuǎn)換為生成所述導(dǎo)航文件數(shù)據(jù)所需的導(dǎo)航文件數(shù)據(jù)生成信息。除了這兩種類型的源文檔,其他類型的源文檔,如果本身就有導(dǎo)航信息,也可以用這種方法生成導(dǎo)航文件數(shù)據(jù)所需的文檔生成信息。源文檔為PDF文檔、MS Office文檔、TXT文檔或HTML文檔等文檔時(shí),這些文檔本身一般沒(méi)有導(dǎo)航信息,生成導(dǎo)航文件數(shù)據(jù)所需的文檔生成信息的方法具體為遍歷所述原始文件數(shù)據(jù)中的原始文件數(shù)據(jù)塊,針對(duì)所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,生成所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的導(dǎo)航文件數(shù)據(jù)所需的導(dǎo)航文件數(shù)據(jù)生成信息;所述導(dǎo)航文件數(shù)據(jù)生成信息包括所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的標(biāo)識(shí)信息、名稱信息、相對(duì)路徑信息、電子文檔包標(biāo)識(shí)信息、電子文檔包版本信息。需要說(shuō)明的是,重新組合導(dǎo)航文件的結(jié)構(gòu),便可以形成一個(gè)全新的電子文檔導(dǎo)航 文件。電子文檔的導(dǎo)航文件是結(jié)構(gòu)化的,典型的電子文檔導(dǎo)航文件結(jié)構(gòu)如下所示く?xml version="I. 0" encoding='1 UTF-8" >
<topics>
くtopic id="it-hedc—concept —60549" Ixt=nHedEx 介紹" ur 1="EDC-Inf o/user—guide/it—hedc—concept —60549. html" ibid=丨丨 1000001 " IibVersion=wOl (2009-10-30)">
くtopic id="rT_HEDEX_concept_60605" txt="功能介紹" url="EDC-Info/user-guide/IT-HEDEX-concept-60605. html11 i ibid="100000 1 IibVersion=nOl (2009-10-30)"/>
くtopic id="IT-HEDEX—ref-60664” txt="運(yùn)行環(huán)境" url="EDC-Info/user-guide/IT_HEDEX_ref-60664. html" I ibid="1000001" IibVersion=tlOl (2009-10-30) "/>
〈topic id="it-hedc-concept-60515" txt="界面介紹 H url="EDC-Info/user—guide/it—hedc—concept —60515, html"I ibid="1000001 "IIbVersion=llOl (2009-10-30)">
くtopic id="IT—HEDEX—concept—60608 txt="標(biāo)識(shí)區(qū)" Url=llEDC-Inf o/user-guide/IT_HEDEX_concept-60608. html" I ibid=" 100000 I" IibVersion=丨'01 (2009-10-30) />
くtopic Id=nIT-HEDEX-COncept^oeog'1 txt="導(dǎo)航區(qū)" url="EDC-Info/user-guide/IT_HEDEX_concept-60609. html"I ibid=丨'100000 I" IibVersion=nOl (2009-10-30)"/>
くtopic id=HIT—HEDEX—concept—60610" txt="瀏覽區(qū)" url="EDC-Info/user-guide/IT-HEDEX-concept-60610. html"libld="100000 I" IibVersion=nOl (2009-10-30) "/>
</topic〉
く/topi c>
く/topics〉
上面簡(jiǎn)單介紹了生成導(dǎo)航文件數(shù)據(jù)所需的文檔生成信息的方法,下面介紹生成摘 要文件數(shù)據(jù)所需的文檔生成信息的方法。
電子文檔摘要文件是用來(lái)唯一標(biāo)識(shí)電子文檔是否發(fā)生變化的文件,用戶可以通過(guò)電子文檔的摘要文件數(shù)據(jù)判斷該電子文檔是否完整和真實(shí)。當(dāng)電子文檔產(chǎn)生補(bǔ)丁版本吋,可以用電子文檔的文件數(shù)據(jù)塊的摘要信息判斷電子文檔中的對(duì)應(yīng)的文件數(shù)據(jù)塊是否發(fā)生了變化。生成摘要文件數(shù)據(jù)所需的文檔生成信息的方法為對(duì)所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊進(jìn)行處理,生成所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的第一摘要文件數(shù)據(jù)生成信息;所述第一摘要文件數(shù)據(jù)生成信息包括所述電子文檔的每一個(gè)文件數(shù)據(jù)塊的摘要信息、數(shù)據(jù)塊標(biāo)識(shí)信息、數(shù)據(jù)塊相對(duì)路徑信息、電子文檔包標(biāo)識(shí)信息、電子文檔包版本信息。生成電子文檔補(bǔ)丁版本的摘要文件信息的方法具體為生成第二摘要文件數(shù)據(jù)生成信息,所述第二摘要文件數(shù)據(jù)生成信息為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的信息;所述第一摘要文件數(shù)據(jù)生成信息包括所述電子文檔補(bǔ)丁的每ー個(gè)文件數(shù)據(jù)塊的摘要信息、數(shù)據(jù)塊標(biāo)識(shí)信息、數(shù)據(jù)塊相對(duì)路徑信息、電子文檔補(bǔ)丁包標(biāo)識(shí)信息、電子文檔補(bǔ)丁包版本信息;根據(jù)所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的數(shù)據(jù)塊標(biāo)識(shí) 信息,比較所述第一摘要文件數(shù)據(jù)生成信息中的摘要信息與所述第二摘要文件數(shù)據(jù)生成信息中的摘要信息是否一致,如果一致,則將所述第一摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息;否貝U,將所述第二摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息。電子文檔的摘要信息主要是通過(guò)對(duì)電子文檔的對(duì)應(yīng)的文件數(shù)據(jù)塊中的文本內(nèi)容進(jìn)行散列獲得的。這里的ー個(gè)文件數(shù)據(jù)塊可以為ー個(gè)頁(yè)面文件,文件數(shù)據(jù)塊也可以有其他的形式,這里為了描述方便,以頁(yè)面文件進(jìn)行描述。需要說(shuō)明的是,電子文檔的摘要文件數(shù)據(jù)不僅包括電子文檔的每ー個(gè)文件數(shù)據(jù)塊的摘要信息,還包括文件數(shù)據(jù)塊的數(shù)據(jù)塊標(biāo)識(shí)信息、數(shù)據(jù)塊相對(duì)路徑信息、電子文檔包標(biāo)識(shí)信息、電子文檔包版本信息等。生成電子文檔補(bǔ)丁版本的摘要文件數(shù)據(jù)所需的文檔生成信息時(shí),如果電子文檔補(bǔ)丁版本中的某些文件數(shù)據(jù)塊與電子文檔的對(duì)應(yīng)的文件數(shù)據(jù)塊相比沒(méi)有發(fā)生變化,則繼續(xù)保存電子文檔的對(duì)應(yīng)的文件數(shù)據(jù)塊的的摘要信息、數(shù)據(jù)塊標(biāo)識(shí)信息、數(shù)據(jù)塊相對(duì)路徑信息、電子文檔包標(biāo)識(shí)信息、電子文檔包版本信息作為生成摘要文件數(shù)據(jù)所需的文檔生成信息;如果電子文檔補(bǔ)丁版本中的某些文件數(shù)據(jù)塊與電子文檔的對(duì)應(yīng)的文件數(shù)據(jù)塊相比發(fā)生了變化,即文件數(shù)據(jù)塊的摘要信息發(fā)生了變化,則將變化后的摘要信息、數(shù)據(jù)塊標(biāo)識(shí)信息、數(shù)據(jù)塊相對(duì)路徑信息、電子文檔補(bǔ)丁包標(biāo)識(shí)信息、電子文檔補(bǔ)丁包版本信息作為生成電子文檔補(bǔ)丁版本的頁(yè)面摘要文件數(shù)據(jù)的文檔生成信息。電子文檔的摘要文件數(shù)據(jù)是結(jié)構(gòu)化的,典型的電子文檔的摘要文件數(shù)據(jù)結(jié)構(gòu)如下所示く?xml version="!. 0" encoding="UTF-8" >
<i tems>
くitemid=”it-hedc_task—60506n
Url=llEDC-Info/setup/it_hedc_task-60506. html"rasg="5f 13e825c22b36dl06e36c32acla32da" Iibld=nIOOOOOl" IibVersion=llOl (2009-10-30) "/>
<itemid="cn hlr-ref-60582"
url=nEDC-Info/setup/cn_hlr-ref-60582. html"msg=n315eld6006091499bfd3880e9b4021b7n libld="1000001" IIbVersIon=llOl (2009-10-30) "/> く itemid="cn-hlr_task-60573"
url="EDC-Info/user-guide/cn_hlr_task_60573. html"msg="5dc5af7c30cfd810c55cdllfb0bc2709" I ibid="1000001" IibVersion=丨 1OI (2009-10-30)"/><i teinid=" it-hedc-concept-60505"
url="EDC-Info/setup/it-hedc-concept-60505. html I,msg="83b68dff06b394336ac7af0cf78f5013" libld=n1000001" IibVersion=llOl (2009—10-30) "/>
く itemid="IT_HEDEX-task_60617"
url="EDC-Info/user— guide/IT-HEDEX-task—60617. html"msg="cb30a04fc874a952641fl75b8f2a9el5''IibId=丨'1000001 丨丨IibVersIon= 01
(2009-10-30) "/>
く itemid="EDC_Info_030000"
urI="EDC-Info/user_guide/EDC-InfO-030000. html"msg=n21add054b3f2a04b0cl6c2e5d013b28a" Iibld=nIOOOOOl" IibVersIon=nOl (2009-10-30)"/>
くite+mid=" it-hedc—task 一 60514 丨丨
url="EDC-Info/setup/it-hedc-task-60514. html"msg="e34e6698cle229856Ia988ae8671ef6f" IIbld="1000001" IibVersIon=llOl (2009-10-30) "/>
く/items〉需要說(shuō)明的是,生成電子文檔的摘要文件數(shù)據(jù)后,可將電子文檔的摘要文件數(shù)據(jù)以文本文件形式保存在磁盤(pán)上。上面簡(jiǎn)單介紹了生成摘要文件數(shù)據(jù)所需的文檔生成信息的方法,下面介紹生成圖像文件數(shù)據(jù)所需的文檔生成信息的方法。電子文檔的圖像文件數(shù)據(jù)包括所述圖像的圖像摘要信息、所述圖像所屬文件數(shù)據(jù)塊的數(shù)據(jù)塊標(biāo)識(shí)信息、所述圖像所屬電子文檔包的電子文檔包標(biāo)識(shí)信息、所述圖像所屬電子文檔包的電子文檔包版本信息。生成電子文檔的圖像文件數(shù)據(jù)所需的文檔生成信息的方法具體為循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,將所述每ー個(gè)原始文件數(shù)據(jù)塊轉(zhuǎn)換為所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊;提取所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的圖像信息;對(duì)所述圖像信息進(jìn)行處理,生成所述圖像文件數(shù)據(jù)所需的圖像文件數(shù)據(jù)生成信息;所述圖像文件數(shù)據(jù)生成信息包括所述圖像的圖像摘要信息、所述圖像所屬文件數(shù)據(jù)塊的數(shù)據(jù)塊標(biāo)識(shí)信息、所述圖像所屬電子文檔包的電子文檔包標(biāo)識(shí)信息、所述圖像所屬電子文檔包的電子文檔包版本信息。 在生成電子文檔的圖像文件信息的過(guò)程中,電子文檔生成工具將遍歷由源文檔中的每ー個(gè)原始文件數(shù)據(jù)塊生成的所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊,將其中包含的圖像信息提取出來(lái),對(duì)圖像信息進(jìn)行散列計(jì)算,生成可以識(shí)別圖像真實(shí)性和完整性的圖像摘要信息,以及圖像的關(guān)聯(lián)信息,如圖像源自于的頁(yè)面文件的頁(yè)面標(biāo)識(shí)信息、圖像所在的電子文檔包的標(biāo)識(shí)信息和版本信息等。電子文檔的圖像文件是結(jié)構(gòu)化的,典型的電子文檔的圖像文件結(jié)構(gòu)如下所示6 L
Uioooooill=Piqnn^P^UZLm9££(\^ZZlZZLmO%ii=^
ji§ 'UOi^nBO-UOOT/soojnosgj-sAs-oiIqnd11= [an9§buit>
</u (0S-0I-600E) T0 =uoisj9AqnuI00000l.,=Piqn叩 OggMPWMU 叩 PqKTM 町 SMJll=Ssra
JiS "Iimoijb-Uoot/ssoinossj-sAs-Dijqnd =1 inSg同〉
</.. (0£-0I-6003) IO11=UOTSJOAqnUioooooill=Piqnul6£^09998JPq6Pq9^8e9/,nB59£98PJ =Ssui ,,jig -Upaojjb-Uoot/ssoinosgj-sAs-oi|qndu=pn9§buit>
</n (0e-(H-600乙)I0,,=uoisJ9Aqn
Tooooou=Piqn
,,JlS 'pU9B; 13p/S90JtlOSQJ-SAs-OI IQndll = I Jtl9§BIUI>
</., (0£-0I-600Z) IO11=UOTSiaAqnaI00000Iu=Piqnlijop^H3q9J99^9^800I096P£e0PJ3P9ll=Ssui
jt§ -B;}9p/s30jnos9J-sis-OT iqndu=}in9§buii>
<S9§mui>IiMersion=丨丨Ol (2009-10-30) ”/>
< imageurl=llpublic-sys—resources/ icon—danger, gif"
msg="TTaebelbbfBlbbdgisooeefBllaTasssnllbld="1000001"
IibVersion=llOl (2009-10-30) "/>
<imageurl="public-sys-resources/icon-huawei. gif"
msg="74cl8bef7569216304f0fl95efad5540"Iibld=nIOOOOOl"
IibVersion=I 丨 01 (2009-10-30)"/>
<imageurl=npublic-sys-resources/icon-note. gif"
msg=|ia76dal8a5483aa3ed2bef24el441dd38nI ibid=" 1000001"
IIbVersion=llOl (2009-10-30) "/>
</images〉需要說(shuō)明的是,電子文檔生成工具生成電子文檔的圖像文件數(shù)據(jù)后,可將電子文檔的圖像文件信息以文本文件形式保存在磁盤(pán)上。上面描述了電子文檔的圖像文件數(shù)據(jù)所需的文檔生成信息的生成方法,下面介紹電子文檔的索引文件數(shù)據(jù)所需的文檔生成信息的生成方法。電子文檔的索引文件信息主要用于提供對(duì)電子文檔內(nèi)容的捜索功能的支持。生成電子文檔的索引文件數(shù)據(jù)所需的文檔生成信息的方法具體為循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,將所述每ー個(gè)原始文件數(shù)據(jù)塊轉(zhuǎn)換為所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊;提取所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的文本信息;對(duì)所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的文本信息根據(jù)詞條數(shù)據(jù)庫(kù)中的信息進(jìn)行分詞處理,生成所述電子文檔的索引文件數(shù)據(jù)所需的索引文件數(shù)據(jù)生成信息。在生成電子文檔的索引文件數(shù)據(jù)的過(guò)程中,電子文檔生成工具將遍歷由源文檔中的每個(gè)原始文件數(shù)據(jù)塊生成的文件數(shù)據(jù)塊,根據(jù)擴(kuò)展名的不同,使用不同的爬蟲(chóng)程序提取出文件數(shù)據(jù)塊的文本內(nèi)容,對(duì)文本內(nèi)容信息按照詞庫(kù)中的詞條信息進(jìn)行分詞并索引到電子文檔的索引文件中。由此,便可以使用該電子文檔的索引文件數(shù)據(jù)為用戶搜索提供支持。需要說(shuō)明的是,電子文檔的索引文件是非結(jié)構(gòu)化的文件,可以為ニ進(jìn)制文件。下面講述生成所述屬性文件數(shù)據(jù)所需的文檔生成信息的方法。電子文檔的屬性文件主要用于標(biāo)識(shí)該電子文檔,用于在用戶終端上通過(guò)界面形式顯示給用戶,向用戶展示該電子文檔的相關(guān)信息。電子文檔的屬性文件信息包括電子文檔的文檔包名稱、電子文檔的名稱和版本等信息。生成所述屬性文件數(shù)據(jù)所需的文檔生成信息的方法具體為提取所述原始文件數(shù)據(jù)中的屬性信息,根據(jù)所述原始文件數(shù)據(jù)中的屬性信息,生成所述屬性文件數(shù)據(jù)所需的屬性文件數(shù)據(jù)生成信息;所述屬性文件數(shù)據(jù)生成信息包括所述電子文檔的版本信息、所述電子文檔的電子文檔包名稱信息。
電子文檔的屬性文件數(shù)據(jù)是結(jié)構(gòu)化的,典型的電子文檔的屬性文件數(shù)據(jù)結(jié)構(gòu)如下
所示
<profile>
<buiIdVers ion>Vl00R002C00B315</buiIdVers ion>
<upgradeVersion>3</upgradeVersion>
<libld>311759254</libld>
<libVersion>01 (2009-09-25)</1ibVersion><IibName>UMG8900 產(chǎn)品文檔</1ibName> <productType>UMG8900</productType> <productVersion>Y200R007</productVersion> <issueDate>2009-09-25</issueDate>
<language>zh</language〉
<srcType>l</srcType>
<1ibType>0</IibType〉<provider/>
<navi>resources/navi. xml</navi>
<desc/>
<baseLibVersion/>
<homePage>resources/hedex-homepage. html</honiePage> <hedexVersion>V100R002C00</hedexVersion>
<1ibLicense>0く/IibLicense>
<search>
〈label name=noperateType11/>
〈label name="InfoType"/>
</search〉
CoperateType field=丨〖o(jì)perate" name=H運(yùn)維流程">
くtype narae="Operation" zh=”操作"/>
</operateType>
<infoType fIeld="infotype" name=11 文檔類型”〉
くtype name=" Instruct ion" zh=丨丨指導(dǎo)丨丨/>
く type name=" Al arm11 zh="告警"/>
くtype iiame="Reference" zh="參考"/>
くtype name="Description" zh=1 丨描述"/>
</infoType>
<index>
<pa th name="resources/index/segment s. gen"/>
くpath name="resources/lndex/segments-9"/>
くpath name="resources/index/-3. cfs丨丨/>
</index>
く/profile>需要說(shuō)明的是,電子文檔生成工具生成電子文檔的屬性文件數(shù)據(jù)所需的文檔生成信息后,可將該文檔生成信息以文本文件形式保存在磁盤(pán)上。
步驟103,生成文檔生成工具將所述文檔生成信息按照所述電子文檔的生成格式進(jìn)行處理,生成所述電子文檔;生成的所述電子文檔中的每個(gè)所述數(shù)據(jù)內(nèi)容均由所述文檔生成信息處理得到。將所述文檔生成信息按照所述電子文檔的生成格式進(jìn)行處理,生成所述電子文檔的具體方法為將所述文檔生成信息按照Z(yǔ)ip壓縮格式壓縮為Zip壓縮格式的文件數(shù)據(jù);然后將所述Zip壓縮格式的文件數(shù)據(jù)進(jìn)行處理,生成所述電子文檔。將電子文檔的導(dǎo)航文件數(shù)據(jù)、摘要文件數(shù)據(jù)、圖像文件數(shù)據(jù)、索引文件數(shù)據(jù)和屬性文件數(shù)據(jù)等文件數(shù)據(jù)的生成信息使用Zip標(biāo)準(zhǔn)壓縮格式壓縮成Zip壓縮文件之后,再將壓縮后的Zip壓縮格式的文件數(shù)據(jù)進(jìn)行處理,也即是,將壓縮后的Zip壓縮格式的文件數(shù)據(jù)的后綴,如.zip修改為Web系統(tǒng)可以識(shí)別的,如后綴為.hdx的文件數(shù)據(jù)類型,即基于Web的統(tǒng)ー的電子文檔格式,有利于在網(wǎng)絡(luò)中傳輸該電子文檔。本發(fā)明實(shí)施例中,生成的電子文檔格式是ー個(gè)類Zip的壓縮格式,其基本的文件結(jié)構(gòu)可以參考圖2。圖2為本發(fā)明實(shí)施例提供的一種電子文檔的目錄結(jié)構(gòu)示意圖。如圖2 所示,該電子文檔目錄結(jié)構(gòu)包括以下信息電子文檔根目錄所指示的位置包括resources文件夾以及屬性文件profile, xml文件。profile文件則用于描述電子文檔的基礎(chǔ)屬性文件,而resources文件夾中包括本發(fā)明實(shí)施例生成的電子文檔源文件、電子文檔索引文件、圖像文件、摘要文件、導(dǎo)航文件等則是與電子文檔內(nèi)容相關(guān)的文件。如圖2所示的電子文檔目錄結(jié)構(gòu)只是ー種本發(fā)明的具體實(shí)施方式
,并不用于限定本發(fā)明的保護(hù)范圍。將電子文檔的各種文件自由組合,可生成該電子文檔的一種新的目錄結(jié)構(gòu)。本發(fā)明實(shí)施例中,電子文檔生成工具在獲取用于生成電子文檔的原始文件數(shù)據(jù)后;按照生成電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成信息;將文檔生成信息按照電子文檔的生成格式進(jìn)行處理,生成電子文檔。由于電子文檔生成工具可以將各種類型的源文檔生成為ー種統(tǒng)ー電子文檔格式,因此實(shí)現(xiàn)了用戶可以在Web系統(tǒng)中閱讀多種格式的文檔,并且由于該電子文檔格式的瀏覽和捜索功能較強(qiáng),所以提高了用戶瀏覽和搜索電子文檔內(nèi)容的便利性。相應(yīng)地,本發(fā)明實(shí)施例還提供了一種電子文檔的生成裝置。圖3為本發(fā)明實(shí)施例提供的一種電子文檔的生成裝置示意圖。如圖3所示,本實(shí)施例包括以下単元獲取單元301,用于獲取原始文件數(shù)據(jù)。這里的原始文件數(shù)據(jù)對(duì)應(yīng)的源文檔的類型可以為HTMLHELP文檔、JAVAHELP文檔,還可以為PDF文檔、MS Office文檔、TXT文本文檔、HTML文檔等。電子文檔生成工具可以通過(guò)下面的操作步驟將接收到各種格式的源文檔生成為統(tǒng)ー的電子文檔,實(shí)現(xiàn)統(tǒng)ー的瀏覽、搜索。處理單元302,用于根據(jù)生成所述電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)所述數(shù)據(jù)內(nèi)容所需的文檔生成信息。處理單元302包括第一處理子単元304,第一處理子単元304用于生成所述電子文檔的導(dǎo)航文件數(shù)據(jù)所需的文檔生成信息,原始文件數(shù)據(jù)對(duì)應(yīng)的源文檔的類型為HTMLHELP文檔、JAVAHELP文檔時(shí),第一處理子単元304具體用于提取所述原始文件數(shù)據(jù)中的原始導(dǎo)航信息,將所述原始文件數(shù)據(jù)中的原始導(dǎo)航信息轉(zhuǎn)換為生成所述導(dǎo)航文件數(shù)據(jù)所需的導(dǎo)航文件數(shù)據(jù)生成信息。原始文件數(shù)據(jù)對(duì)應(yīng)的源文檔的類型為PDF文檔、MS Office文檔、TXT文本文檔、HTML文檔時(shí),第一處理子単元304具體用于遍歷所述原始文件數(shù)據(jù)中的原始文件數(shù)據(jù)塊,針對(duì)所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,生成所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的導(dǎo)航文件數(shù)據(jù)所需的導(dǎo)航文件數(shù)據(jù)生成信息;所述導(dǎo)航文件數(shù)據(jù)生成信息包括所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的標(biāo)識(shí)信息、名稱信息、相對(duì)路徑信息、電子文檔包標(biāo)識(shí)信息、電子文檔包版本信息。導(dǎo)航文件用于在用戶瀏覽電子文檔時(shí)向用戶展示ー個(gè)全局的源文檔節(jié)點(diǎn)樹(shù),便于用戶快速了解該電子文檔,提高用戶瀏覽該電子文檔的效率。處理單元302包括第二處理子単元305,第二處理子単元305用于生成摘要文件數(shù)據(jù)所需的文檔生成信息,生成電子文檔的摘要文件數(shù)據(jù)所需的文檔生成信息時(shí),第二處理子単元305具體用于對(duì)所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊進(jìn)行處理,生成所 述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的第一摘要文件數(shù)據(jù)生成信息。所述第一摘要文件數(shù)據(jù)生成信息包括所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的摘要信息、數(shù)據(jù)塊標(biāo)識(shí)信息、數(shù)據(jù)塊相對(duì)路徑信息、電子文檔包標(biāo)識(shí)信息、電子文檔包版本信息。生成電子文檔補(bǔ)丁版本的摘要文件數(shù)據(jù)所需的文檔生成信息時(shí),第二處理子単元305具體用于生成第二摘要文件數(shù)據(jù)生成信息,所述第二摘要文件數(shù)據(jù)生成信息為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的信息;根據(jù)所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的數(shù)據(jù)塊標(biāo)識(shí)信息,比較所述第一摘要文件數(shù)據(jù)生成信息中的摘要信息與所述第二摘要文件數(shù)據(jù)生成信息中的摘要信息是否一致,如果一致,則將所述第一摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息;否則,將所述第二摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息。其中,第二摘要文件數(shù)據(jù)生成信息包括所述電子文檔補(bǔ)丁的每ー個(gè)文件數(shù)據(jù)塊的摘要信息、數(shù)據(jù)塊標(biāo)識(shí)信息、數(shù)據(jù)塊相對(duì)路徑信息、電子文檔補(bǔ)丁包標(biāo)識(shí)信息、電子文檔補(bǔ)丁包版本信息。電子文檔的摘要文件是用來(lái)唯一標(biāo)識(shí)電子文檔是否發(fā)生變化的文件,用戶可以通過(guò)電子文檔的摘要文件判斷該電子文檔是否完整和真實(shí)。處理單元302包括第三處理子単元306,第三處理子単元306用于生成圖像文件數(shù)據(jù)所需的文檔生成信息。第三處理子単元306具體用于循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,將所述每ー個(gè)原始文件數(shù)據(jù)塊轉(zhuǎn)換為所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊;提取所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的圖像信息;對(duì)所述圖像信息進(jìn)行處理,生成所述圖像文件數(shù)據(jù)所需的圖像文件數(shù)據(jù)生成信息;所述圖像文件數(shù)據(jù)生成信息包括所述圖像的圖像摘要信息、所述圖像所屬文件數(shù)據(jù)塊的數(shù)據(jù)塊標(biāo)識(shí)信息、所述圖像所屬電子文檔包的電子文檔包標(biāo)識(shí)信息、所述圖像所屬電子文檔包的電子文檔包版本信息。處理單元302包括第四處理子単元307,第四處理子単元307用于生成屬性文件數(shù)據(jù)所需的文檔生成信息。第四處理子単元307具體用于提取所述原始文件數(shù)據(jù)中的屬性信息,根據(jù)所述原始文件數(shù)據(jù)中的屬性信息,生成所述屬性文件數(shù)據(jù)所需的屬性文件數(shù)據(jù)生成信息;所述屬性文件數(shù)據(jù)生成信息包括所述電子文檔的版本信息、所述電子文檔的電子文檔包名稱信息。電子文檔的屬性文件數(shù)據(jù)主要用于標(biāo)識(shí)該電子文檔,用于在用戶終端上通過(guò)界面形式顯示給用戶,向用戶展示該電子文檔的相關(guān)信息。電子文檔的屬性文件數(shù)據(jù)包括電子文檔的文檔包名稱、電子文檔的名稱和版本等信息。處理單元302包括第五處理子単元308,第五處理子単元308用于生成電子文檔的索引文件數(shù)據(jù)所需的文檔生成信息。第五處理子単元308具體用于循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,將所述每ー個(gè)原始文件數(shù)據(jù)塊轉(zhuǎn)換為所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊;提取所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的文本信息;對(duì)所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的文本信息根據(jù)詞條數(shù)據(jù)庫(kù)中的信息進(jìn)行分詞處理,生成所述電子文檔的索引文件數(shù)據(jù)所需的索引文件數(shù)據(jù)生成信息。電子文檔的索引文件數(shù)據(jù)主要用于提供對(duì)電子文檔內(nèi)容的搜索功能的支持。在生 成電子文檔的索引文件數(shù)據(jù)的過(guò)程中,電子文檔生成工具將遍歷由源文檔中的每個(gè)原始文 件數(shù)據(jù)塊生成的文件數(shù)據(jù)塊,根據(jù)擴(kuò)展名的不同,使用不同的爬蟲(chóng)程序提取出文件數(shù)據(jù)塊的文本內(nèi)容,對(duì)文本內(nèi)容信息按照詞庫(kù)中的詞條信息進(jìn)行分詞并索引到電子文檔的索引文件中。由此,便可以使用該電子文檔的索引文件數(shù)據(jù)為用戶搜索提供支持。生成単元303,用于將所述文檔生成信息按照所述電子文檔的生成格式進(jìn)行處理,生成所述電子文檔;生成的所述電子文檔中的每個(gè)所述數(shù)據(jù)內(nèi)容均由所述文檔生成信息處理得到。生成単元303具體用于將所述文檔生成信息按照Z(yǔ)ip壓縮格式壓縮為Zip壓縮格式的文件數(shù)據(jù);修改壓縮后的所述Zip壓縮格式的文件數(shù)據(jù)的格式,生成所述電子文檔。將電子文檔的導(dǎo)航文件數(shù)據(jù)、摘要文件數(shù)據(jù)、圖像文件數(shù)據(jù)、索引文件數(shù)據(jù)和屬性文件數(shù)據(jù)等文件數(shù)據(jù)的生成信息使用Zip標(biāo)準(zhǔn)壓縮格式壓縮成Zip壓縮文件之后,再將壓縮后的Zip壓縮格式的文件數(shù)據(jù)進(jìn)行處理,生成基于Web的統(tǒng)ー的電子文檔格式,有利于在網(wǎng)絡(luò)中傳輸該電子文檔。本發(fā)明實(shí)施例中,電子文檔生成工具在獲取用于生成電子文檔的原始文件數(shù)據(jù)后;按照生成電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成信息;將文檔生成信息按照電子文檔的生成格式進(jìn)行處理,生成電子文檔。由于電子文檔生成工具可以將各種類型的源文檔生成為ー種統(tǒng)ー電子文檔格式,因此實(shí)現(xiàn)了用戶可以在Web系統(tǒng)中閱讀多種格式的文檔,并且由于該電子文檔格式的瀏覽和捜索功能較強(qiáng),所以提高了用戶瀏覽和搜索電子文檔內(nèi)容的便利性。專業(yè)人員應(yīng)該還可以進(jìn)ー步意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的単元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。結(jié)合本文中所公開(kāi)的實(shí)施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來(lái)實(shí)施。軟件模塊可以置于隨機(jī)存儲(chǔ)器(RAM)、內(nèi)存、只讀存儲(chǔ)器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤(pán)、可移動(dòng)磁盤(pán)、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲(chǔ)介質(zhì)中。以上所述的具體實(shí)施方式
,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)ー步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式
而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包 含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種電子文檔的生成方法,其特征在于,所述方法包括 獲取原始文件數(shù)據(jù); 根據(jù)生成所述電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)所述數(shù)據(jù)內(nèi)容所需的文檔生成信息; 將所述文檔生成信息按照所述電子文檔的生成格式進(jìn)行處理,生成所述電子文檔;生成的所述電子文檔中的每個(gè)所述數(shù)據(jù)內(nèi)容均由所述文檔生成信息處理得到。
2.如權(quán)利要求I所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內(nèi)容為導(dǎo)航文件數(shù)據(jù)時(shí),所述對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成信息,具體為 提取所述原始文件數(shù)據(jù)中的原始導(dǎo)航信息,將所述原始文件數(shù)據(jù)中的原始導(dǎo)航信息轉(zhuǎn)換為生成所述導(dǎo)航文件數(shù)據(jù)所需的導(dǎo)航文件數(shù)據(jù)生成信息;或 遍歷所述原始文件數(shù)據(jù)中的原始文件數(shù)據(jù)塊,針對(duì)所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,生成所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的導(dǎo)航文件數(shù)據(jù)所需的導(dǎo)航文件數(shù)據(jù)生成信息。
3.如權(quán)利要求I所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內(nèi)容為摘要文件數(shù)據(jù)時(shí),所述對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成信息,具體為 對(duì)所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊進(jìn)行處理,生成所述電子文檔的每一個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的第一摘要文件數(shù)據(jù)生成信息。
4.如權(quán)利要求3所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內(nèi)容為摘要文件數(shù)據(jù)時(shí),所述對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成信息,具體為 生成第二摘要文件數(shù)據(jù)生成信息,所述第二摘要文件數(shù)據(jù)生成信息為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的信息; 根據(jù)所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的數(shù)據(jù)塊標(biāo)識(shí)信息,比較所述第一摘要文件數(shù)據(jù)生成信息中的摘要信息與所述第二摘要文件數(shù)據(jù)生成信息中的摘要信息是否一致,如果一致,則將所述第一摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息;否則,將所述第二摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息。
5.如權(quán)利要求I所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內(nèi)容為圖像文件數(shù)據(jù)時(shí),所述對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成信息,具體為 循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,將所述每ー個(gè)原始文件數(shù)據(jù)塊轉(zhuǎn)換為所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊; 提取所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的圖像信息; 對(duì)所述圖像信息進(jìn)行處理,生成所述圖像文件數(shù)據(jù)所需的圖像文件數(shù)據(jù)生成信息。
6.如權(quán)利要求I所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內(nèi)容為屬性文件數(shù)據(jù)時(shí),所述對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成信息,具體為 提取所述原始文件數(shù)據(jù)中的屬性信息; 根據(jù)所述原始文件數(shù)據(jù)中的屬性信息,生成所述屬性文件數(shù)據(jù)所需的屬性文件數(shù)據(jù)生成信息。
7.如權(quán)利要求I所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內(nèi)容為索引文件數(shù)據(jù)時(shí),所述對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)數(shù)據(jù)內(nèi)容所需的文檔生成信息,具體為 循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,將所述每ー個(gè)原始文件數(shù)據(jù)塊轉(zhuǎn)換為所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊; 提取所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的文本信息; 對(duì)所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的文本信息根據(jù)詞條數(shù)據(jù)庫(kù)中的信息進(jìn)行分詞處理,生成所述電子文檔的索引文件數(shù)據(jù)所需的索引文件數(shù)據(jù)生成信息。
8.如權(quán)利要求I所示的電子文檔的生成方法,其特征在于,所述將所述文檔生成信息按照所述電子文檔的生成格式進(jìn)行處理,生成所述電子文檔,具體為 將所述文檔生成信息按照Z(yǔ)ip壓縮格式壓縮為Zip壓縮格式的文件數(shù)據(jù); 修改壓縮后的所述Zip壓縮格式的文件數(shù)據(jù)的格式,生成所述電子文檔。
9.一種電子文檔的生成裝置,其特征在于,所述裝置包括 獲取單元,用于獲取原始文件數(shù)據(jù); 處理單元,用于根據(jù)生成所述電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)所述數(shù)據(jù)內(nèi)容所需的文檔生成信息; 生成単元,用于將所述文檔生成信息按照所述電子文檔的生成格式進(jìn)行處理,生成所述電子文檔;生成的所述電子文檔中的每個(gè)所述數(shù)據(jù)內(nèi)容均由所述文檔生成信息處理得至IJ。
10.如權(quán)利要求9所示的電子文檔的生成裝置,其特征在于,所述處理単元包括第一處理子單元,所述第一處理子単元具體用于提取所述原始文件數(shù)據(jù)中的原始導(dǎo)航信息,將所述原始文件數(shù)據(jù)中的原始導(dǎo)航信息轉(zhuǎn)換為生成所述導(dǎo)航文件數(shù)據(jù)所需的導(dǎo)航文件數(shù)據(jù)生成信息;或 遍歷所述原始文件數(shù)據(jù)中的原始文件數(shù)據(jù)塊,針對(duì)所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,生成所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的導(dǎo)航文件數(shù)據(jù)所需的導(dǎo)航文件數(shù)據(jù)生成信息。
11.如權(quán)利要求9所示的電子文檔的生成裝置,其特征在于,所述處理単元包括第二處理子單元,所述第二處理子単元具體用于 對(duì)所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊進(jìn)行處理,生成所述電子文檔的每一個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的第一摘要文件數(shù)據(jù)生成信息。
12.如權(quán)利要求11所示的電子文檔的生成裝置,其特征在于,所述第二處理子單元還用干 生成第二摘要文件數(shù)據(jù)生成信息,所述第二摘要文件數(shù)據(jù)生成信息為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的信息; 根據(jù)所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊的數(shù)據(jù)塊標(biāo)識(shí)信息,比較所述第一摘要文件數(shù)據(jù)生成信息中的摘要信息與所述第二摘要文件數(shù)據(jù)生成信息中的摘要信息是否一致,如果一致,則將所述第一摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息;否則,將所述第二摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補(bǔ)丁版本的每ー個(gè)文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息。
13.如權(quán)利要求9所示的電子文檔的生成裝置,其特征在于,所述處理単元包括第三處理子單元,所述第三處理子単元具體用于 循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,將所述每ー個(gè)原始文件數(shù)據(jù)塊轉(zhuǎn)換為所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊; 提取所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的圖像信息; 對(duì)所述圖像信息進(jìn)行處理,生成所述圖像文件數(shù)據(jù)所需的圖像文件數(shù)據(jù)生成信息。
14.如權(quán)利要求9所示的電子文檔的生成裝置,其特征在于,所述處理単元包括第四處理子單元,所述第四處理子単元具體用于 提取所述原始文件數(shù)據(jù)中的屬性信息; 根據(jù)所述原始文件數(shù)據(jù)中的屬性信息,生成所述屬性文件數(shù)據(jù)所需的屬性文件數(shù)據(jù)生成信息。
15.如權(quán)利要求9所示的電子文檔的生成裝置,其特征在于,所述處理単元包括第五處理單元,所述第五處理單元具體用于 循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個(gè)原始文件數(shù)據(jù)塊,將所述每ー個(gè)原始文件數(shù)據(jù)塊轉(zhuǎn)換為所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊; 提取所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的文本信息; 對(duì)所述電子文檔的每ー個(gè)文件數(shù)據(jù)塊中的文本信息根據(jù)詞條數(shù)據(jù)庫(kù)中的信息進(jìn)行分詞處理,生成所述電子文檔的索引文件數(shù)據(jù)所需的索引文件數(shù)據(jù)生成信息。
16.如權(quán)利要求9所示的電子文檔的生成裝置,其特征在于,所述生成単元具體用于 將所述文檔生成信息按照Z(yǔ)ip壓縮格式壓縮為Zip壓縮格式的文件數(shù)據(jù); 修改壓縮后的所述Zip壓縮格式的文件數(shù)據(jù)的格式,生成所述電子文檔。
全文摘要
本發(fā)明涉及一種電子文檔的生成方法和裝置。該方法包括獲取原始文件數(shù)據(jù);根據(jù)生成所述電子文檔所需的數(shù)據(jù)內(nèi)容,對(duì)所述原始文件數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理,從而生成每個(gè)所述數(shù)據(jù)內(nèi)容所需的文檔生成信息;將所述文檔生成信息按照所述電子文檔的生成格式進(jìn)行處理,生成所述電子文檔;生成的所述電子文檔中的每個(gè)所述數(shù)據(jù)內(nèi)容均由所述文檔生成信息處理得到。本發(fā)明實(shí)現(xiàn)了將不同類型的源文檔生成為基于Web的統(tǒng)一的電子文檔格式,提高了電子文檔中內(nèi)容的瀏覽和搜索效率。
文檔編號(hào)G06F17/30GK102831151SQ20121021835
公開(kāi)日2012年12月19日 申請(qǐng)日期2012年6月28日 優(yōu)先權(quán)日2012年6月28日
發(fā)明者樊彪, 王凱 申請(qǐng)人:華為技術(shù)有限公司