一種用于文檔文件重構(gòu)的方法及裝置制造方法【專利摘要】本發(fā)明公開了一種用于文檔文件重構(gòu)的方法及裝置,其中方法包括:對文檔文件進(jìn)行解析,以獲得文檔文件元素和文檔文件元素的屬性信息;對所獲得的文檔文件元素和屬性信息進(jìn)行聚合處理,以獲得聚合處理后的文檔文件元素和屬性信息;基于所述聚合處理后的文檔文件元素和屬性信息來進(jìn)行重構(gòu),以獲得重構(gòu)的文檔文件。與現(xiàn)有技術(shù)相比,本發(fā)明通過對解析得到的文檔文件元素和屬性信息進(jìn)行聚合處理,并基于聚合處理后的文檔文件元素和屬性信息來重構(gòu)文檔文件,得到的重構(gòu)的文檔文件的文件大小減小,也提高了提供重構(gòu)后的文檔文件給用戶設(shè)備的文檔顯示客戶端進(jìn)行解析呈現(xiàn)的速度?!緦@f明】—種用于文檔文件重構(gòu)的方法及裝置【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及文檔文件處理技術(shù),尤其涉及一種用于文檔文件重構(gòu)的方法及裝置?!?br>背景技術(shù):
】[0002]用戶使用用戶設(shè)備上的文檔顯示客戶端閱讀文檔文件時,現(xiàn)有技術(shù)中,網(wǎng)絡(luò)設(shè)備使用特定的文檔處理程序?qū)υ嘉臋n文件進(jìn)行格式轉(zhuǎn)換,格式轉(zhuǎn)換后的文檔文件可以呈現(xiàn)在文檔顯示客戶端上,網(wǎng)絡(luò)設(shè)備將格式轉(zhuǎn)換后的文檔文件提供給用戶設(shè)備在文檔顯示客戶端上呈現(xiàn)。以文檔顯示客戶端為瀏覽器為例,使用PDFtoHTML文檔處理程序可以將TOF(PortableDocumentFormat,便攜文件格式)格式的文檔文件轉(zhuǎn)換為HTML(HypertextMarkupLanguage,超文本標(biāo)記語言)格式的文檔文件,該文檔處理程序?qū)⑽臋n文件中如圖片、圖表等不能使用文字呈現(xiàn)的文檔文件元素轉(zhuǎn)換為背景圖,再將文字覆蓋到背景圖上,形成HTML格式的文檔文件。但是文檔文件中的圖片、圖表等和文字不是簡單的背景和內(nèi)容的關(guān)系,如果文檔文件中存在圖片、圖表等不能使用文字呈現(xiàn)的文檔文件元素覆蓋文字的情形,則使用如TOFtoHTML的文檔處理程序就不能準(zhǔn)確呈現(xiàn)文檔文件。[0003]現(xiàn)有技術(shù)中還有一種解決方案,能夠解決使用如I3DFtoHTML的文檔處理程序在文檔文件中存在圖片、圖表等不能使用文字呈現(xiàn)的文檔文件元素覆蓋文字的情形時,不能準(zhǔn)確呈現(xiàn)文檔文件的問題。這種解決方案是將原始文檔文件直接使用文檔顯示客戶端支持的格式存儲在網(wǎng)絡(luò)設(shè)備中,當(dāng)用戶使用用戶設(shè)備上的文檔顯示客戶端閱讀文檔文件時,網(wǎng)絡(luò)設(shè)備將文檔顯示客戶端支持的格式的文檔文件提供給文檔顯示客戶端呈現(xiàn)。因?yàn)橹苯右晕臋n顯示客戶端支持的格式將文檔文件存儲在網(wǎng)絡(luò)設(shè)備中,需要針對不同的文檔顯示客戶端類型在該文檔文件中加入用于渲染文檔文件以呈現(xiàn)在文檔顯示客戶端上的CSS(CascadingStyleSheet,層疊樣式表單)信息,以文檔顯示客戶端支持的格式直接存儲在網(wǎng)絡(luò)設(shè)備中的文檔文件的文件大小會因此增大,占用網(wǎng)絡(luò)設(shè)備大量的存儲空間,也會降低用戶設(shè)備的文檔顯示客戶端對該文檔文件的解析速度?!?br/>發(fā)明內(nèi)容】[0004]本發(fā)明所要解決的技術(shù)問題是提供一種用于文檔文件重構(gòu)的方法及裝置,以解決現(xiàn)有技術(shù)將原始文檔文件直接使用文檔顯示客戶端支持的格式存儲在網(wǎng)絡(luò)設(shè)備中,以致占用網(wǎng)絡(luò)設(shè)備大量的存儲空間,以及降低用戶設(shè)備的文檔顯示客戶端對文檔文件的解析速度的問題。[0005]根據(jù)本發(fā)明的一個方面,提供一種用于文檔文件重構(gòu)的方法,其中,該方法包括:[0006]對文檔文件進(jìn)行解析,以獲得文檔文件元素和文檔文件元素的屬性信息;[0007]對所獲得的文檔文件元素和屬性信息進(jìn)行聚合處理,以獲得聚合處理后的文檔文件元素和屬性信息;[0008]基于所述聚合處理后的文檔文件元素和屬性信息來進(jìn)行重構(gòu),以獲得重構(gòu)的文檔文件。[0009]根據(jù)本發(fā)明的另一個方面,還提供了一種用于在用戶設(shè)備的文檔顯示客戶端中呈現(xiàn)文檔文件的方法,其中,該方法包括:[0010]接收來自網(wǎng)絡(luò)設(shè)備的文檔文件;[0011]根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件中的CSS樣式表轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的CSS樣式表;[0012]根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件的文檔文件主體轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的文檔文件主體。[0013]根據(jù)本發(fā)明的另一個方面,還提供了一種用于呈現(xiàn)文檔文件的方法,其中,該方法包括:[0014]網(wǎng)絡(luò)設(shè)備對文檔文件進(jìn)行解析,以獲得文檔文件元素和文檔文件元素的屬性信息;[0015]網(wǎng)絡(luò)設(shè)備對所獲得的文檔文件元素和屬性信息進(jìn)行聚合處理,以獲得聚合處理后的文檔文件元素和屬性信息;[0016]網(wǎng)絡(luò)設(shè)備基于所述聚合處理后的文檔文件元素和屬性信息來進(jìn)行重構(gòu),以獲得重構(gòu)的文檔文件;[0017]用戶設(shè)備接收來自網(wǎng)絡(luò)設(shè)備的文檔文件;[0018]用戶設(shè)備根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件中的CSS樣式表轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的CSS樣式表;[0019]用戶設(shè)備根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件的文檔文件主體轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的文檔文件主體。[0020]根據(jù)本發(fā)明的另一個方面,還提供了一種網(wǎng)絡(luò)設(shè)備中用于文檔文件重構(gòu)的裝置,其中,該裝置包括:[0021]解析裝置,用于對文檔文件進(jìn)行解析,以獲得文檔文件元素和文檔文件元素的屬性信息;[0022]聚合處理裝置,用于對所獲得的文檔文件元素和屬性信息進(jìn)行聚合處理,以獲得聚合處理后的文檔文件元素和屬性信息;[0023]重構(gòu)裝置,用于基于所述聚合處理后的文檔文件元素和屬性信息來進(jìn)行重構(gòu),以獲得重構(gòu)的文檔文件。[0024]根據(jù)本發(fā)明的又一個方面,還提供了一種用于在用戶設(shè)備的文檔顯示客戶端中呈現(xiàn)文檔文件的裝置,其中,該裝置包括:[0025]第一接收裝置,用于接收來自網(wǎng)絡(luò)設(shè)備的文檔文件;[0026]第一轉(zhuǎn)換裝置,用于根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件中的CSS樣式表轉(zhuǎn)換為適應(yīng)于所述文檔顯不客戶端類型的CSS樣式表;[0027]第二轉(zhuǎn)換裝置,用于根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件的文檔文件主體轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的文檔文件主體。[0028]根據(jù)本發(fā)明的又一個方面,還提供了一種用于呈現(xiàn)文檔文件的系統(tǒng),其中,該系統(tǒng)包括網(wǎng)絡(luò)設(shè)備和用戶設(shè)備;[0029]其中網(wǎng)絡(luò)設(shè)備包括:[0030]解析裝置,用于對文檔文件進(jìn)行解析,以獲得文檔文件元素和文檔文件元素的屬性信息;[0031]聚合處理裝置,用于對所獲得的文檔文件元素和屬性信息進(jìn)行聚合處理,以獲得聚合處理后的文檔文件元素和屬性信息;[0032]重構(gòu)裝置,用于基于所述聚合處理后的文檔文件元素和屬性信息來進(jìn)行重構(gòu),以獲得重構(gòu)的文檔文件;[0033]用戶設(shè)備包括:[0034]第一接收裝置,用于接收來自網(wǎng)絡(luò)設(shè)備的文檔文件;[0035]第一轉(zhuǎn)換裝置,用于根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件中的CSS樣式表轉(zhuǎn)換為適應(yīng)于所述文檔顯不客戶端類型的CSS樣式表;[0036]第二轉(zhuǎn)換裝置,用于根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件的文檔文件主體轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的文檔文件主體。[0037]與現(xiàn)有技術(shù)相比,本發(fā)明通過對解析得到的文檔文件元素和屬性信息進(jìn)行聚合處理,并基于聚合處理后的文檔文件元素和屬性信息來重構(gòu)文檔文件,得到的重構(gòu)的文檔文件的文件大小減小,也提高了提供重構(gòu)后的文檔文件給用戶設(shè)備的文檔顯示客戶端進(jìn)行解析呈現(xiàn)的速度?!緦@綀D】【附圖說明】[0038]通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:[0039]圖1為根據(jù)本發(fā)明一個實(shí)施例的一種用于文檔文件重構(gòu)的方法流程圖;[0040]圖2為根據(jù)本發(fā)明另一實(shí)施例的一種用于文檔文件重構(gòu)的方法流程圖;[0041]圖3為根據(jù)本發(fā)明一個實(shí)施例的一種用于在用戶設(shè)備的文檔顯示客戶端中呈現(xiàn)文檔文件的方法流程圖;[0042]圖4為根據(jù)本發(fā)明一個實(shí)施例的一種網(wǎng)絡(luò)設(shè)備中用于文檔文件重構(gòu)的裝置示意圖;[0043]圖5為根據(jù)本發(fā)明另一實(shí)施例的一種網(wǎng)絡(luò)設(shè)備中用于文檔文件重構(gòu)的裝置示意圖;[0044]圖6為根據(jù)本發(fā)明一個實(shí)施例的一種用于在用戶設(shè)備的文檔顯示客戶端中呈現(xiàn)文檔文件的裝置示意圖。[0045]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件?!揪唧w實(shí)施方式】[0046]下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。[0047]在本發(fā)明中,網(wǎng)絡(luò)設(shè)備包括一種能夠按照事先設(shè)定或存儲的指令,自動進(jìn)行數(shù)值計(jì)算和信息處理的電子設(shè)備,其硬件包括但不限于微處理器、專用集成電路(ASIC)、可編程門陣列(FPGA)、數(shù)字處理器(DSP)、嵌入式設(shè)備等。所述網(wǎng)絡(luò)設(shè)備其包括但不限于計(jì)算機(jī)、網(wǎng)絡(luò)主機(jī)、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云;在此,云由基于云計(jì)算(CloudComputing)的大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個虛擬超級計(jì)算機(jī)。所述用戶設(shè)備其包括但不限于任何一種可與用戶通過鍵盤、觸摸板、或聲控設(shè)備進(jìn)行人機(jī)交互的移動電子產(chǎn)品,例如智能手機(jī)、PDA(掌上電腦,PersonalDigitalAssistant)。所述網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(AdHoc網(wǎng)絡(luò))等。本領(lǐng)域技術(shù)人員應(yīng)能理解,其他的用戶設(shè)備、網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。[0048]圖1示出了根據(jù)本發(fā)明一個實(shí)施例的一種用于文檔文件重構(gòu)的方法流程圖。[0049]如圖1所示,在步驟SlOl中,網(wǎng)絡(luò)設(shè)備對文檔文件進(jìn)行解析,以獲得文檔文件元素和文檔文件元素的屬性信息。[0050]其中,文檔文件指基于各種標(biāo)識語言,諸如HTML,XML,的包含文本、圖片等元素的文件,其包括但不限于word文檔文件,HTML文檔文件,XML文檔文件,PDF文檔文件等;文檔文件元素指包含于文檔文件中的各種元素,其包括但不限于:圖片、文字等;文檔文件元素的屬性信息包括但不限于:文檔文件元素在文檔文件中的位置信息、字體信息、樣式信息、圖片格式、圖片分辨率、圖片尺寸等,其中圖片格式包括但不限于png,bmp,gif,jpg,pcx,svd,psd。[0051]具體地,文檔文件的每一個文檔文件元素之間都有關(guān)聯(lián),文檔文件元素之間關(guān)聯(lián)形成了諸如章節(jié)、段落等文檔文件的邏輯結(jié)構(gòu),網(wǎng)絡(luò)設(shè)備可以通過使用文檔解析程序來解析文檔文件的文檔結(jié)構(gòu),來提取獲得文檔文件元素和文檔文件元素的屬性信息。[0052]在步驟S102中,網(wǎng)絡(luò)設(shè)備對所獲得的文檔文件元素和文檔文件元素的屬性信息進(jìn)行聚合處理,以獲得聚合處理后的文檔文件元素和屬性信息。[0053]其中,對多個同類信息進(jìn)行聚合處理是指保留多個同類信息的共同信息,并去除冗余信息,以使得經(jīng)過聚合處理后的信息的容量減少,但仍然保留必要的共同信息,具體地,可包括合并、提取交集,以及基于多個相同的同類信息來生成一個新的同類信息等方式。[0054]具體地,對不同的文檔文件元素和屬性信息,網(wǎng)絡(luò)設(shè)備采取不同的聚合處理方式,下面以示例進(jìn)行說明:[0055]示例1:文檔文件元素包括圖片,圖片的類型包括但不限于:矢量圖、位圖等,網(wǎng)絡(luò)設(shè)備將處于相鄰圖層的矢量圖合并,以獲得合并后的矢量圖,隨后,將合并后得到的矢量圖與位圖合并,以獲得合并后的位圖,將合并后的位圖作為聚合處理后的文檔文件元素之一。[0056]其中,所述相鄰圖層的矢量圖可以根據(jù)以下方式來確定:[0057]-根據(jù)文檔文件元素的渲染順序,確定文檔文件元素之間的覆蓋關(guān)系;[0058]-基于文檔文件元素之間的覆蓋關(guān)系,確定處于相鄰圖層的矢量圖;具體地,基于文檔文件元素之間的覆蓋關(guān)系,確定處于相鄰圖層的矢量圖的具體方式可以包括:1)兩個或多個矢量圖的圖層之間是否覆蓋文字,當(dāng)該兩個或多個矢量圖的圖層之間沒有覆蓋文字,則該兩個或多個矢量圖為相鄰圖層的矢量圖;2)如果兩個或多個矢量圖相互覆蓋,則該兩個或多個矢量圖為相鄰圖層的矢量圖。[0059]-將所確定的處于相鄰圖層的矢量圖進(jìn)行合并,以獲得合并后的矢量圖。[0060]另外,可以采用以下方式將合并后得到的矢量圖與位圖合并:[0061]-基于合并后得到的矢量圖的特征信息,如該矢量圖在文檔文件中的高度、寬度等,將該矢量圖緩存為位圖;[0062]-將該緩存的位圖與提取得到的位圖合并。[0063]本實(shí)施例通過將相鄰圖層的矢量圖合并,加快了用戶設(shè)備的文檔顯示客戶端呈現(xiàn)圖片的速度。[0064]在得到合并后的位圖后,還可以對合并后的位圖進(jìn)行圖片壓縮。本實(shí)施例優(yōu)選地采用PNG8加alpha透明的位圖壓縮方式對合并后的位圖進(jìn)行圖片壓縮。其中,PNG8又稱256色PNG,即采用8位標(biāo)識,最多支持256(2的8次方)種顏色,是一種索引色標(biāo)識的壓縮格式;alpha是圖像處理的一種圖像通道,用來保存圖像的半透明信息,一般也采用8位標(biāo)識。[0065]本實(shí)施例通過采用PNG8加alpha透明的位圖壓縮方式對合并后的位圖進(jìn)行圖片壓縮,減小了圖片的大小,以減少在網(wǎng)絡(luò)設(shè)備上的存儲空間,也進(jìn)一步提高用戶設(shè)備的文檔顯示客戶端呈現(xiàn)圖片的速度。[0066]示例2:文檔文件元素包括文字,如果屬性信息中的樣式信息相同且位置信息在同一行或同一列的文字,所形成的矩陣交集不覆蓋圖片時,將屬性信息中樣式信息相同且位置信息在同一行或同一列的文字進(jìn)行合并,以獲得合并后的文字,作為聚合處理后的文檔文件元素之一。[0067]其中,屬性信息中的樣式信息相同且位置信息在同一行或同一列的文字形成的矩陣交集,由樣式信息相同且位置信息在同一行或同一列的文字的最小橫坐標(biāo)、最小縱坐標(biāo)、最大橫坐標(biāo)和最大縱坐標(biāo)確定。[0068]本實(shí)施例通過將文字合并,降低了DOM(DocumentObjectModel,文件對象模型)節(jié)點(diǎn),進(jìn)一步提高用戶設(shè)備的文檔顯示客戶端呈現(xiàn)圖片的速度。[0069]其中,每個文檔文件元素和屬性信息都是一個DOM節(jié)點(diǎn)。[0070]示例3:通過提取文字的屬性信息中的字體信息和所述文檔文件的字體文件的交集,以獲得交集處理后的字體信息,作為聚合處理后的屬性信息之一。[0071]其中,所述文檔文件的字體文件包括所有文字的字體信息,即也包括該文檔文件中不存在的文字的字體信息,交集處理后的字體信息只包括該文檔文件中的文字的字體信息,不包括該文檔文件中不存在的文字的字體信息。[0072]本實(shí)施例通過交集處理得到的交集處理后的字體信息,只包括該文檔文件中的文字的字體信息,以進(jìn)一步減少文檔文件在網(wǎng)絡(luò)設(shè)備上的存儲空間。[0073]示例4:當(dāng)多個屬性信息中的樣式信息相同,基于所述多個屬性信息的相同的樣式信息來生成一個key-value結(jié)構(gòu)的樣式信息,作為聚合處理后的屬性信息之一,其中,key為所生成的樣式信息的標(biāo)識,value為所生成的樣式信息的內(nèi)容。[0074]本實(shí)施例基于相同的樣式信息生成一個key-value結(jié)構(gòu)的樣式信息,降低了樣式信息的重復(fù),以減小文檔文件的存儲空間,以及加快用戶設(shè)備的文檔顯示客戶端呈現(xiàn)文檔文件的速度。[0075]本領(lǐng)域技術(shù)人員應(yīng)理解上述文檔文件元素類型及所舉聚合處理方式僅為示例,其他文檔文件元素類型及聚合方式如可適用于本發(fā)明,也應(yīng)包含于本發(fā)明的保護(hù)范圍內(nèi),并以引用方式包含于此。[0076]在步驟S103中,網(wǎng)絡(luò)設(shè)備基于所述聚合處理后的文檔文件元素和聚合處理后的屬性信息來進(jìn)行重構(gòu),以獲得重構(gòu)的文檔文件。[0077]其中,聚合處理后的屬性信息包括但不限于以下至少任一項(xiàng):[0078]-上述交集處理后的字體信息;[0079]-基于相同的樣式信息生成的key-value結(jié)構(gòu)的樣式信息;以及[0080]-在步驟SlOl中解析文檔得到的其他屬性信息。[0081]具體地,基于所述聚合處理后的文檔文件元素和屬性信息來進(jìn)行重構(gòu)可以通過以下方式來實(shí)現(xiàn):[0082]-基于所述key-value結(jié)構(gòu)的樣式信息,生成所述重構(gòu)的文檔文件的CSS樣式表(CascadingStyleSheet,級聯(lián)樣式表);[0083]-基于所述聚合處理后的文檔文件元素和屬性信息,生成所述重構(gòu)的文檔文件的主體。[0084]與現(xiàn)有技術(shù)相比,本實(shí)施例通過對解析得到的文檔文件元素和屬性信息進(jìn)行聚合處理,并基于聚合處理后的文檔文件元素和聚合處理后的屬性信息來重構(gòu)文檔文件,得到的重構(gòu)的文檔文件的文件大小減小,也提高了提供重構(gòu)后的文檔文件給用戶設(shè)備的文檔顯示客戶端進(jìn)行解析呈現(xiàn)的速度。[0085]圖2示出了根據(jù)本發(fā)明另一實(shí)施例的一種用于文檔文件重構(gòu)的方法流程圖,其中,步驟S201-S203與前面參照附圖1所描述的實(shí)施例中的步驟S101-S103相同,在此不作贅述,以引用方式包含于此。另外,圖2所示實(shí)施例還包括步驟S204和S205。[0086]在步驟S204中,網(wǎng)絡(luò)設(shè)備根據(jù)所述文檔文件的標(biāo)識和所述重構(gòu)的文檔文件中的文檔文件元素的類別,生成所述重構(gòu)的文檔文件中的文檔文件元素的標(biāo)識。[0087]具體地,文檔文件的標(biāo)識可以為文檔文件ID,重構(gòu)的文檔文件中的文檔文件元素的類型可以包括但不限于:圖片、文字。優(yōu)選地,所述重構(gòu)的文檔文件中的圖片的標(biāo)識可以包括但不限于:文檔文件ID、圖片ID、圖片格式等,例如〈文檔文件ID>.<圖片ID>.<PNG>;所述重構(gòu)的文檔文件中的文字的標(biāo)識可以包括但不限于:文檔文件ID、文字的字體名稱等,例如〈文檔文件ID>.<宋體>,文字的標(biāo)識還可以進(jìn)一步包括該文字在文檔文件中的頁碼,例如〈文檔文件ID>.〈頁碼>.〈宋體〉。其中,每一個文檔文件具有相同的文檔文件ID。[0088]例如,〈文檔文件A>.<圖片2>.<PNG>對應(yīng)文檔文件A中的第二張圖片,該圖片的圖片格式為PNG;<文檔文件A>.<頁碼3〉.<宋體>對應(yīng)文檔文件A張的第3頁的文字,該文字的字體是宋體。[0089]在步驟S205中,網(wǎng)絡(luò)設(shè)備通過用所生成的文檔文件元素的標(biāo)識替換所述重構(gòu)后的文檔文件中對應(yīng)的文檔文件元素,以生成包含所述文檔文件元素標(biāo)識的重構(gòu)的文檔文件。[0090]在本實(shí)施例中,將文檔文件元素替換為文檔文件元素的標(biāo)識,進(jìn)一步減小了文檔文件在網(wǎng)絡(luò)設(shè)備的存儲空間。[0091]圖3示出了根據(jù)本發(fā)明一個實(shí)施例的一種用于在用戶設(shè)備的文檔顯示客戶端中呈現(xiàn)文檔文件的方法流程圖,該方法實(shí)施例包括步驟S301和S302。[0092]其中,如圖3所示,在步驟S301中,用戶設(shè)備接收來自網(wǎng)絡(luò)設(shè)備的文檔文件。具體地,該文檔文件可以是圖1和圖2所示實(shí)施例中的重構(gòu)后的文檔文件。[0093]在步驟S302中,用戶設(shè)備根據(jù)用戶設(shè)備的文檔顯示客戶端類型,將所接收的文檔文件轉(zhuǎn)換為所述文檔顯示客戶端類型支持的文檔文件格式,以用于呈現(xiàn)。[0094]具體地,當(dāng)所接收的文檔文件如圖1和圖2所示實(shí)施例中的重構(gòu)后的文檔文件,包括CSS樣式表與文檔文件主體時,將所接收的文檔文件轉(zhuǎn)換為用戶設(shè)備的文檔顯示客戶端所支持的文檔文件格式可以采用以下方式實(shí)現(xiàn):[0095]-根據(jù)文檔顯示客戶端類型,將所接收的文檔文件中的CSS樣式表轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的CSS樣式表;[0096]-根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件的文檔文件主體轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的文檔文件主體。[0097]具體地,可以通過響應(yīng)式拼裝方式來轉(zhuǎn)換文檔文件主體,例如,根據(jù)文檔顯示客戶端的類型,調(diào)整文字的字體信息、圖片大小等以適應(yīng)文檔顯示客戶端的屏幕。[0098]另外,將所接收的文檔文件轉(zhuǎn)換為用戶設(shè)備的文檔顯示客戶端所支持的文檔文件格式還可以包括:[0099]-當(dāng)所接收的文檔文件的文檔文件主體包括文檔文件元素的標(biāo)識時,將所述文檔文件主體中文檔文件元素的標(biāo)識替換為該文檔文件元素的標(biāo)識對應(yīng)的文檔文件元素。[0100]具體地,可以將所述文檔文件主體中的圖片的標(biāo)識替換為該圖片或該圖片在網(wǎng)絡(luò)設(shè)備中的存儲地址;可以將所述文檔文件主體中的文字的標(biāo)識替換為相應(yīng)文字或該文字在網(wǎng)絡(luò)設(shè)備的鏈接地址等。[0101]本實(shí)施例將文檔文件主體中的文檔文件元素的標(biāo)識替換為該標(biāo)識對應(yīng)的文檔文件元素,用于在用戶設(shè)備的文檔顯示客戶端上呈現(xiàn)該文檔文件。[0102]本實(shí)施例通過將重構(gòu)后的文檔文件轉(zhuǎn)換為用戶設(shè)備的文檔顯示客戶端所支持的文檔文件格式,適用于各種類型的文檔顯示客戶端,提高了重構(gòu)后文檔的通用性。[0103]本發(fā)明的一種用于呈現(xiàn)文檔文件的方法實(shí)施例,包括如圖1或圖2所示實(shí)施例的方法,和圖3所示實(shí)施例的方法。[0104]圖4示出了本發(fā)明一個實(shí)施例的一種網(wǎng)絡(luò)設(shè)備中用于文檔文件重構(gòu)的裝置示意圖。如圖4所示,該裝置包括:解析裝置401、聚合處理裝置402和重構(gòu)裝置403。[0105]其中,解析裝置401,用于對文檔文件進(jìn)行解析,以獲得文檔文件元素和文檔文件元素的屬性信息。[0106]其中,文檔文件指基于各種標(biāo)識語言,諸如HTML,XML,的包含文本、圖片等元素的文件,其包括但不限于word文檔文件,HTML文檔文件,XML文檔文件,PDF文檔文件等;文檔文件元素指包含于文檔文件中的各種元素,其包括但不限于:圖片、文字等;文檔文件元素的屬性信息包括但不限于:文檔文件元素在文檔文件中的位置信息、字體信息、樣式信息、圖片格式、圖片分辨率、圖片尺寸等,其中圖片格式包括但不限于png,bmp,gif,jpg,pcx,svd,psd。[0107]具體地,文檔文件的每一個文檔文件元素之間都有關(guān)聯(lián),文檔文件元素之間關(guān)聯(lián)形成了諸如章節(jié)、段落等文檔文件的邏輯結(jié)構(gòu),網(wǎng)絡(luò)設(shè)備可以通過使用文檔解析程序來解析文檔文件的文檔結(jié)構(gòu),來提取獲得文檔文件元素和文檔文件元素的屬性信息。[0108]聚合處理裝置402,用于對所獲得的文檔文件元素和屬性信息進(jìn)行聚合處理,以獲得聚合處理后的文檔文件元素和屬性信息。[0109]其中,對多個同類信息進(jìn)行聚合處理是指保留多個同類信息的共同信息,并去除冗余信息,以使得經(jīng)過聚合處理后的信息的容量減少,但仍然保留必要的共同信息,具體地,可包括合并、提取交集,以及基于多個相同的同類信息來生成一個新的同類信息等方式。[0110]具體地,對不同的文檔文件元素和屬性信息,網(wǎng)絡(luò)設(shè)備采取不同的聚合處理方式,聚合處理裝置402可以包括:[0111]第一合并模塊4021,用于當(dāng)文檔文件元素為包括矢量圖與位圖的圖片時,將處于相鄰圖層的矢量圖進(jìn)行合并,以獲得合并后的矢量圖;[0112]第二合并模塊4022,用于將合并后得到的矢量圖與位圖合并,以得到合并后的位圖,作為所述聚合處理后的文檔文件元素之一。[0113]其中,所述第一合并模塊4021可以包括:[0114]覆蓋關(guān)系確定子模塊(未示出),用于根據(jù)文檔文件元素的渲染順序,確定文檔文件元素之間的覆蓋關(guān)系。[0115]相鄰圖層確定子模塊(未示出),用于基于文檔文件元素之間的覆蓋關(guān)系,確定處于相鄰圖層的矢量圖;具體地,基于文檔文件元素之間的覆蓋關(guān)系,確定處于相鄰圖層的矢量圖的具體方式可以包括:1)兩個或多個矢量圖的圖層之間是否覆蓋文字,當(dāng)該兩個或多個矢量圖的圖層之間沒有覆蓋文字,則該兩個或多個矢量圖為相鄰圖層的矢量圖;2)如果兩個或多個矢量圖相互覆蓋,則該兩個或多個矢量圖為相鄰圖層的矢量圖。[0116]第一合并子模塊(未示出),用于將所確定的處于相鄰圖層的矢量圖進(jìn)行合并,以獲得合并后的矢量圖。[0117]另外,可以采用以下方式將合并后得到的矢量圖與位圖合并:[0118]-基于合并后得到的矢量圖的特征信息,如該矢量圖在文檔文件中的高度、寬度等,將該矢量圖緩存為位圖;[0119]-將該緩存的位圖與提取得到的位圖合并。[0120]本實(shí)施例通過將相鄰圖層的矢量圖合并,加快了用戶設(shè)備的文檔顯示客戶端呈現(xiàn)圖片的速度。[0121]在得到合并后的位圖后,還可以對合并后的位圖進(jìn)行圖片壓縮。本實(shí)施例優(yōu)選地采用PNG8加alpha透明的位圖壓縮方式對合并后的位圖進(jìn)行圖片壓縮。其中,PNG8又稱256色PNG,即采用8位標(biāo)識,最多支持256(2的8次方)種顏色,是一種索引色標(biāo)識的壓縮格式;alpha是圖像處理的一種圖像通道,用來保存圖像的半透明信息,一般也采用8位標(biāo)識。[0122]本實(shí)施例通過采用PNG8加alpha透明的位圖壓縮方式對合并后的位圖進(jìn)行圖片壓縮,減小了圖片的大小,以減少在網(wǎng)絡(luò)設(shè)備上的存儲空間,也進(jìn)一步提高用戶設(shè)備的文檔顯示客戶端呈現(xiàn)圖片的速度。[0123]聚合處理裝置402還可以包括:[0124]第三合并模塊4023,用于當(dāng)文檔文件元素包括文字,且屬性信息中的樣式信息相同且位置信息在同一行或同一列的文字所形成的矩陣交集不覆蓋圖片時,將屬性信息中的樣式信息相同且位置信息在同一行或同一列的文字進(jìn)行合并,以獲得合并后的文字,作為所述聚合處理后的文檔文件元素之一。[0125]其中,屬性信息中的樣式信息相同且位置信息在同一行或同一列的文字形成的矩陣交集,由樣式信息相同且位置信息在同一行或同一列的文字的最小橫坐標(biāo)、最小縱坐標(biāo)、最大橫坐標(biāo)和最大縱坐標(biāo)確定。[0126]本實(shí)施例通過將文字合并,降低了DOM(DocumentObjectModel,文件對象模型)節(jié)點(diǎn),進(jìn)一步提高用戶設(shè)備的文檔顯示客戶端呈現(xiàn)圖片的速度。[0127]其中,每個文檔文件元素和屬性信息都是一個DOM節(jié)點(diǎn)。[0128]聚合處理裝置402還可以包括:[0129]交集處理模塊4024,用于通過提取文字的屬性信息中的字體信息和所述文檔文件的字體文件的交集,以獲得交集處理后的字體信息,作為所述聚合處理后的屬性信息之一。[0130]其中,所述文檔文件的字體文件包括所有文字的字體信息,即也包括該文檔文件中不存在的文字的字體信息,交集處理后的字體信息只包括該文檔文件中的文字的字體信息,不包括該文檔文件中不存在的文字的字體信息。[0131]本實(shí)施例通過交集處理得到的交集處理后的字體信息,只包括該文檔文件中的文字的字體信息,以進(jìn)一步減少文檔文件在網(wǎng)絡(luò)設(shè)備上的存儲空間。[0132]聚合處理裝置402還可以包括:[0133]樣式信息生成模塊4025,用于當(dāng)多個屬性信息中的樣式信息相同,基于所述多個屬性信息的相同的樣式信息來生成一個key-value結(jié)構(gòu)的樣式信息,作為所述聚合處理后的屬性信息之一,其中,key為所生成的樣式信息的標(biāo)識,value為所生成的樣式信息的內(nèi)容。[0134]本實(shí)施例基于相同的樣式信息生成一個key-value結(jié)構(gòu)的樣式信息,降低了樣式信息的重復(fù),以減小文檔文件的存儲空間,以及加快用戶設(shè)備的文檔顯示客戶端呈現(xiàn)文檔文件的速度。[0135]本領(lǐng)域技術(shù)人員應(yīng)理解上述文檔文件元素類型及所舉聚合處理方式僅為示例,其他文檔文件元素類型及聚合方式如可適用于本發(fā)明,也應(yīng)包含于本發(fā)明的保護(hù)范圍內(nèi),并以引用方式包含于此。[0136]重構(gòu)裝置403,用于基于所述聚合處理后的文檔文件元素和屬性信息來進(jìn)行重構(gòu),以獲得重構(gòu)的文檔文件。[0137]其中,聚合處理后的屬性信息包括但不限于以下至少任一項(xiàng):上述交集處理后的字體信息;基于相同的樣式信息生成的key-value結(jié)構(gòu)的樣式信息;以及解析文檔得到的其他屬性信息。[0138]具體地,所述重構(gòu)裝置403包括:[0139]樣式表生成模塊4031,用于基于所述key-value結(jié)構(gòu)的樣式信息,生成所述重構(gòu)的文檔文件的CSS樣式表;[0140]文檔文件主體生成模塊4032,用于基于所述聚合處理后的文檔文件元素和屬性信息,生成所述重構(gòu)的文檔文件的主體。[0141]與現(xiàn)有技術(shù)相比,本實(shí)施例通過對解析得到的文檔文件元素和屬性信息進(jìn)行聚合處理,并基于聚合處理后的文檔文件元素和聚合處理后的屬性信息來重構(gòu)文檔文件,得到的重構(gòu)的文檔文件的文件大小減小,也提高了提供重構(gòu)后的文檔文件給用戶設(shè)備的文檔顯示客戶端進(jìn)行解析呈現(xiàn)的速度。[0142]圖5示出了根據(jù)本發(fā)明另一實(shí)施例的一種網(wǎng)絡(luò)設(shè)備中用于文檔文件重構(gòu)的裝置示意圖,其中,解析裝置501、聚合處理裝置502和重構(gòu)裝置503與前面參照附圖4所描述的實(shí)施例中的解析裝置401、聚合處理裝置402和重構(gòu)裝置403相同,在此不作贅述,以引用方式包含于此。另外,圖5所示實(shí)施例還包括元素標(biāo)識生成裝置504和替換裝置505。[0143]其中,元素標(biāo)識生成裝置504,用于根據(jù)文檔文件的標(biāo)識和所述重構(gòu)的文檔文件中的文檔文件元素的類別,生成所述重構(gòu)的文檔文件中的文檔文件元素的標(biāo)識。[0144]具體地,文檔文件的標(biāo)識可以為文檔文件ID,重構(gòu)的文檔文件中的文檔文件元素的類型可以包括但不限于:圖片、文字。優(yōu)選地,所述重構(gòu)的文檔文件中的圖片的標(biāo)識可以包括但不限于:文檔文件ID、圖片ID、圖片格式等,例如〈文檔文件ID>.<圖片ID>.<PNG>;所述重構(gòu)的文檔文件中的文字的標(biāo)識可以包括但不限于:文檔文件ID、文字的字體名稱等,例如〈文檔文件ID>.<宋體>,文字的標(biāo)識還可以進(jìn)一步包括該文字在文檔文件中的頁碼,例如〈文檔文件ID>.〈頁碼>.〈宋體〉。其中,每一個文檔文件具有相同的文檔文件ID。[0145]例如,〈文檔文件A>.〈圖片2>.<PNG>對應(yīng)文檔文件A中的第二張圖片,該圖片的圖片格式為PNG;<文檔文件A>.<頁碼3〉.<宋體>對應(yīng)文檔文件A張的第3頁的文字,該文字的字體是宋體。[0146]替換裝置505,用于通過用所生成的文檔文件元素的標(biāo)識替換所述重構(gòu)的文檔文件中對應(yīng)的文檔文件元素,以生成包含所述標(biāo)識的重構(gòu)后的文檔文件。[0147]在本實(shí)施例中,將文檔文件元素替換為文檔文件元素的標(biāo)識,進(jìn)一步減小了文檔文件在網(wǎng)絡(luò)設(shè)備的存儲空間。[0148]圖6示出了根據(jù)本發(fā)明一個實(shí)施例的一種用于在用戶設(shè)備的文檔顯示客戶端中呈現(xiàn)文檔文件的裝置示意圖。如圖6所示,該裝置包括:第一接收裝置601和轉(zhuǎn)換裝置602。[0149]其中,所接收的文檔文件如圖4和圖5所示實(shí)施例中的重構(gòu)后的文檔文件。[0150]其中,第一接收裝置601,用于接收來自網(wǎng)絡(luò)設(shè)備的文檔文件。具體地,該文檔文件可以是圖4和圖5所示實(shí)施例中的重構(gòu)后的文檔文件。[0151]第一轉(zhuǎn)換裝置602,用于根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件中的CSS表轉(zhuǎn)換為適應(yīng)于所述文檔顯不客戶端類型的CSS樣式表;[0152]第二轉(zhuǎn)換裝置603,用于根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件的文檔文件主體轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的文檔文件主體。[0153]其中,所述第一轉(zhuǎn)換裝置602和第二轉(zhuǎn)換裝置603可以同步運(yùn)行,沒有時間上的先后。[0154]具體地,可以通過響應(yīng)式拼裝方式來轉(zhuǎn)換文檔文件主體,例如,根據(jù)文檔顯示客戶端的類型,調(diào)整文字的字體信息、圖片大小等以適應(yīng)文檔顯示客戶端的屏幕。[0155]本實(shí)施例通過將重構(gòu)后的文檔文件轉(zhuǎn)換為用戶設(shè)備的文檔顯示客戶端所支持的文檔文件格式,適用于各種類型的文檔顯示客戶端,提高了重構(gòu)后文檔的通用性。[0156]另外,根據(jù)本發(fā)明一個實(shí)施例的一種用于在用戶設(shè)備的文檔顯示客戶端中呈現(xiàn)文檔文件的裝置還可以包括替換裝置(圖中未示出)。[0157]替換裝置,用于將所述文檔文件主體中的文檔文件元素的標(biāo)識替換為該文檔文件元素的標(biāo)識對應(yīng)的文檔文件元素。[0158]具體地,可以將所述文檔文件主體中的圖片的標(biāo)識替換為該圖片或該圖片在網(wǎng)絡(luò)設(shè)備中的存儲地址;可以將所述文檔文件主體中的文字的標(biāo)識替換為相應(yīng)文字或該文字在網(wǎng)絡(luò)設(shè)備的鏈接地址等。[0159]本實(shí)施例將文檔文件主體中的文檔文件元素的標(biāo)識替換為該標(biāo)識對應(yīng)的文檔文件元素,用于在用戶設(shè)備的文檔顯示客戶端上呈現(xiàn)該文檔文件。[0160]本實(shí)施例通過將重構(gòu)后的文檔文件轉(zhuǎn)換為用戶設(shè)備的文檔顯示客戶端所支持的文檔文件格式,適用于各種類型的文檔顯示客戶端,提高了重構(gòu)后文檔的通用性。[0161]根據(jù)本發(fā)明的一個實(shí)施例的一種用戶呈現(xiàn)文檔文件的系統(tǒng),包括如圖4或圖5所示實(shí)施例的裝置和圖6所示實(shí)施例的裝置。[0162]需要注意的是,本發(fā)明可在軟件和/或軟件與硬件的組合體中被實(shí)施,例如,本發(fā)明的各個裝置可采用專用集成電路(ASIC)或任何其他類似硬件設(shè)備來實(shí)現(xiàn)。在一個實(shí)施例中,本發(fā)明的軟件程序可以通過處理器執(zhí)行以實(shí)現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲到計(jì)算機(jī)可讀記錄介質(zhì)中,例如,RAM存儲器,磁或光驅(qū)動器或軟磁盤及類似設(shè)備。另外,本發(fā)明的一些步驟或功能可采用硬件來實(shí)現(xiàn),例如,作為與處理器配合從而執(zhí)行各個步驟或功能的電路。[0163]對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。系統(tǒng)權(quán)利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實(shí)現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序?!緳?quán)利要求】1.一種用于文檔文件重構(gòu)的方法,其中,該方法包括:-對文檔文件進(jìn)行解析,以獲得文檔文件元素和文檔文件元素的屬性信息;-對所獲得的文檔文件元素和屬性信息進(jìn)行聚合處理,以獲得聚合處理后的文檔文件元素和屬性信息;-基于所述聚合處理后的文檔文件元素和屬性信息來進(jìn)行重構(gòu),以獲得重構(gòu)的文檔文件。2.根據(jù)權(quán)利要求1所述的方法,其中,還包括:-根據(jù)所述文檔文件的標(biāo)識和所述重構(gòu)的文檔文件中的文檔文件元素的類別,生成所述重構(gòu)的文檔文件中的文檔文件元素的標(biāo)識;-通過用所生成的文檔文件元素的標(biāo)識替換所述重構(gòu)后的文檔文件中對應(yīng)的文檔文件元素,以生成包含所述標(biāo)識的重構(gòu)的文檔文件。3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述對解析得到的文檔文件元素和屬性信息進(jìn)行聚合處理的步驟包括:-當(dāng)文檔文件元素為包括矢量圖與位圖的圖片時,將處于相鄰圖層的矢量圖進(jìn)行合并,以獲得合并后的矢量圖;-將合并后得到的矢量圖與位圖合并,以得到合并后的位圖,作為所述聚合處理后的文檔文件元素之一。4.根據(jù)權(quán)利要求3所述的方法,其中,所述將處于相鄰圖層的矢量圖合并的步驟包括:-根據(jù)文檔文件元素的渲染順序,確定文檔文件元素之間的覆蓋關(guān)系;`-基于文檔文件元素之間的覆蓋關(guān)系,確定處于相鄰圖層的矢量圖;-將所確定的處于相鄰圖層的矢量圖進(jìn)行合并,以獲得合并后的矢量圖。5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其中,所述對所獲得的文檔文件元素和屬性信息進(jìn)行聚合處理的步驟包括至少以下一種方式:-當(dāng)文檔文件元素包括文字,且屬性信息中的樣式信息相同且位置信息在同一行或同一列的文字所形成的矩陣交集不覆蓋圖片時,將屬性信息中的樣式信息相同且位置信息在同一行或同一列的文字進(jìn)行合并,以獲得合并后的文字,作為所述聚合處理后的文檔文件元素之一;-通過提取文字的屬性信息中的字體信息和所述文檔文件的字體文件的交集,以獲得交集處理后的字體信息,作為所述聚合處理后的屬性信息之一;-當(dāng)多個屬性信息中的樣式信息相同,基于所述多個屬性信息的相同的樣式信息來生成一個key-value結(jié)構(gòu)的樣式信息,作為所述聚合處理后的屬性信息之一,其中,key為所生成的樣式信息的標(biāo)識,value為所生成的樣式信息的內(nèi)容。6.根據(jù)權(quán)利要求5所述的方法,其中,所述基于所述聚合處理后的文檔文件元素和屬性信息來進(jìn)行重構(gòu)的步驟包括:-基于所述key-value結(jié)構(gòu)的樣式信息,生成所述重構(gòu)的文檔文件的CSS樣式表;-基于所述聚合處理后的文檔文件元素和屬性信息,生成所述重構(gòu)的文檔文件的主體。7.一種用于在用戶設(shè)備的文檔顯示客戶端中呈現(xiàn)文檔文件的方法,其中,該文檔文件包括CSS樣式表與文檔文件主體;其中,該方法包括:-接收來自網(wǎng)絡(luò)設(shè)備的文檔文件;-根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件中的CSS樣式表轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的CSS樣式表;-根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件的文檔文件主體轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的文檔文件主體。8.根據(jù)權(quán)利要求7所述的方法,其中,所述方法還包括:-將所述文檔文件主體中的文檔文件元素的標(biāo)識替換為該文檔文件元素的標(biāo)識對應(yīng)的文檔文件元素。9.一種用于呈現(xiàn)文檔文件的方法,其中,該方法包括:如權(quán)利要求1至8中任一項(xiàng)所述的方法和如權(quán)利要求9至11中任一項(xiàng)所述的方法。10.一種網(wǎng)絡(luò)設(shè)備中用于文檔文件重構(gòu)的裝置,其中,該裝置包括:解析裝置,用于對文檔文件進(jìn)行解析,以獲得文檔文件元素和文檔文件元素的屬性信息;聚合處理裝置,用于對所獲得的文檔文件元素和屬性信息進(jìn)行聚合處理,以獲得聚合處理后的文檔文件元素和屬性信息;重構(gòu)裝置,用于基于所述聚合處理后的文檔文件元素和屬性信息來進(jìn)行重構(gòu),以獲得重構(gòu)的文檔文件。11.根據(jù)權(quán)利要求10所述的裝置,其中,該裝置還包括:元素標(biāo)識生成裝置,用于根據(jù)文檔文件的標(biāo)識和所述重構(gòu)的文檔文件中的文檔文件元素的類別,生成所述重構(gòu)的文檔文件中的文檔文件元素的標(biāo)識;替換裝置,用于通過用所生成的文檔文件元素的標(biāo)識替換所述重構(gòu)的文檔文件中對應(yīng)的文檔文件元素,以生成包含所述標(biāo)識的重構(gòu)后的文檔文件。12.根據(jù)權(quán)利要求10或11所述的裝置,其中,所述聚合處理裝置包括:第一合并模塊,用于當(dāng)文檔文件元素為包括矢量圖與位圖的圖片時,將處于相鄰圖層的矢量圖進(jìn)行合并,以獲得合并后的矢量圖;第二合并模塊,用于將合并后得到的矢量圖與位圖合并,以得到合并后的位圖,作為所述聚合處理后的文檔文件元素之一。13.根據(jù)權(quán)利要求12所述的裝置,其中,所述第一合并模塊包括:覆蓋關(guān)系確定子模塊,用于根據(jù)文檔文件元素的渲染順序,確定文檔文件元素之間的覆蓋關(guān)系;相鄰圖層確定子模塊,用于基于文檔文件元素之間的覆蓋關(guān)系,確定處于相鄰圖層的矢量圖;第一合并子模塊,用于將所確定的處于相鄰圖層的矢量圖進(jìn)行合并,以獲得合并后的矢量圖。14.根據(jù)權(quán)利要求10至13中任一項(xiàng)所述的裝置,其中,所述聚合處理裝置包括至少以下一個模塊:第三合并模塊,用于當(dāng)文檔文件元素包括文字,且屬性信息中的樣式信息相同且位置信息在同一行或同一列的文字所形成的矩陣交集不覆蓋圖片時,將屬性信息中的樣式信息相同且位置信息在同一行或同一列的文字進(jìn)行合并,以獲得合并后的文字,作為所述聚合處理后的文檔文件元素之一;交集處理模塊,用于通過提取文字的屬性信息中的字體信息和所述文檔文件的字體文件的交集,以獲得交集處理后的字體信息,作為所述聚合處理后的屬性信息之一;樣式信息生成模塊,用于當(dāng)多個屬性信息中的樣式信息相同,基于所述多個屬性信息的相同的樣式信息來生成一個key-value結(jié)構(gòu)的樣式信息,作為所述聚合處理后的屬性信息之一,其中,key為所生成的樣式信息的標(biāo)識,value為所生成的樣式信息的內(nèi)容。15.根據(jù)權(quán)利要求14所述的裝置,其中,所述重構(gòu)裝置包括:樣式表生成模塊,用于基于所述key-value結(jié)構(gòu)的樣式信息,生成所述重構(gòu)的文檔文件的CSS樣式表;文檔文件主體生成模塊,用于基于所述聚合處理后的文檔文件元素和屬性信息,生成所述重構(gòu)的文檔文件的主體。16.一種用于在用戶設(shè)備的文檔顯示客戶端中呈現(xiàn)文檔文件的裝置,其中,所述文檔文件包括CSS樣式表與文檔文件主體;其中,該裝置包括:第一接收裝置,用于接收來自網(wǎng)絡(luò)設(shè)備的文檔文件;第一轉(zhuǎn)換裝置,用于根據(jù)所述文檔顯示客戶端類型,將所接收的文檔文件中的CSS樣式表轉(zhuǎn)換為適應(yīng)于所述文檔顯不客戶端類型的CSS樣式表;第二轉(zhuǎn)換裝置,用于根據(jù)所述文`檔顯示客戶端類型,將所接收的文檔文件的文檔文件主體轉(zhuǎn)換為適應(yīng)于所述文檔顯示客戶端類型的文檔文件主體。17.根據(jù)權(quán)利要求16所述的裝置,其中,所述裝置還包括:替換裝置,用于將所述文檔文件主體中的文檔文件元素的標(biāo)識替換為該文檔文件元素的標(biāo)識對應(yīng)的文檔文件元素。18.一種用于呈現(xiàn)文檔文件的系統(tǒng),其中,該系統(tǒng)包括:如權(quán)利要求10至15中任一項(xiàng)所述的裝置和如權(quán)利要求16至17中任一項(xiàng)所述的裝置。【文檔編號】G06F17/30GK103870543SQ201410064027【公開日】2014年6月18日申請日期:2014年2月25日優(yōu)先權(quán)日:2014年2月25日【發(fā)明者】陳昌兵申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司