準文檔格式更方便于各種不同格式之間的轉(zhuǎn)換。當(dāng)然,任何結(jié)構(gòu)化文檔格式均可以作為基準文檔格式,具體的本發(fā)明實施例對此不進行限制。
[0033]步驟103:根據(jù)所述基準文檔的格式信息將源文檔的格式轉(zhuǎn)換為基準文檔格式。
[0034]格式轉(zhuǎn)換的裝置根據(jù)源文檔的格式以及基準文檔的格式,選擇對應(yīng)的格式轉(zhuǎn)換規(guī)貝U,根據(jù)格式轉(zhuǎn)換規(guī)則對源文檔進行相應(yīng)的處理,然后將源文檔的格式轉(zhuǎn)換為基準文檔格式。
[0035]步驟104:根據(jù)所述目標文檔格式信息,將源文檔的基準文檔格式轉(zhuǎn)換為目標文檔格式。
[0036]格式轉(zhuǎn)換的裝置根據(jù)目標文檔的格式以及基準文檔的格式,選擇對應(yīng)的格式轉(zhuǎn)換規(guī)則,根據(jù)格式轉(zhuǎn)換規(guī)則將源文檔的基準文檔格式轉(zhuǎn)換為目標文檔格式。
[0037]本發(fā)明實施例提供的一種批量文檔格式轉(zhuǎn)換的方法,通過一種文件轉(zhuǎn)換的基本架構(gòu),以一種中間文檔格式為基準,對要轉(zhuǎn)換的文件格式進行預(yù)處理,然后轉(zhuǎn)換為基準格式,再由基準格式轉(zhuǎn)換為目標格式,這樣可以減少開發(fā)不同格式文檔之間轉(zhuǎn)換關(guān)系的次數(shù),如果工作環(huán)節(jié)中需要增加一種目標文檔格式,只需要重新開發(fā)基準格式與目標文檔格式的轉(zhuǎn)換關(guān)系,因此實現(xiàn)了批量文檔格式的轉(zhuǎn)換,方便的擴充文檔格式轉(zhuǎn)換功能,充分復(fù)用已有的文檔格式轉(zhuǎn)換模塊,減少重復(fù)開發(fā),提高工作效率。
[0038]進一步的,圖2是本發(fā)明實施例提供的根據(jù)基準文檔的格式信息將源文檔的格式轉(zhuǎn)換為基準文檔格式的方法流程圖,如圖2所示,所述方法包括:
[0039]步驟201:對源文檔進行預(yù)處理,獲得所述源文檔的內(nèi)容元素及結(jié)構(gòu)的信息。
[0040]其中,對源文檔進行預(yù)處理是為了能夠獲得源文檔的內(nèi)容元素及結(jié)構(gòu)的信息。因為,源文檔可能是結(jié)構(gòu)化的文檔也可能是非/半結(jié)構(gòu)化的文檔,當(dāng)源文檔是非/半結(jié)構(gòu)化的文檔時,無法直接從源文檔中提取源文檔的內(nèi)容元素及結(jié)構(gòu)的信息。另外,在格式轉(zhuǎn)換的過程中,對于源文檔中部分數(shù)據(jù)可能存在基準文檔的格式不支持的問題,因此,需要首先對源文檔進行預(yù)處理。
[0041]其中,對源文檔進行預(yù)處理可以采用但不局限于以下步驟:對非/半結(jié)構(gòu)化的源文檔進行結(jié)構(gòu)化處理;將所述經(jīng)過結(jié)構(gòu)化處理后的源文檔中不支持基準文檔格式的數(shù)據(jù)進行刪除或者修改為支持基準文檔格式的數(shù)據(jù)。
[0042]其中,一般的,非/半結(jié)構(gòu)化的文檔的結(jié)構(gòu)信息,在形成文檔時全部/部分沒有被記錄,文檔的結(jié)構(gòu)信息隱含在文檔的內(nèi)容中無法直接被提取,因此,首先要將非/半結(jié)構(gòu)化的文檔進行結(jié)構(gòu)化處理。
[0043]具體地,將非/半結(jié)構(gòu)化的文檔進行結(jié)構(gòu)化處理具體包括根據(jù)文檔規(guī)范和源文檔的內(nèi)容信息,將非/半結(jié)構(gòu)化的源文檔的文檔結(jié)構(gòu)轉(zhuǎn)換成結(jié)構(gòu)化的文檔結(jié)構(gòu)。其中,文檔規(guī)范是對非/半結(jié)構(gòu)化文檔的格式進行描述的規(guī)范,由技術(shù)人員預(yù)先根據(jù)規(guī)范的文檔格式的描述進行設(shè)定,并將規(guī)范轉(zhuǎn)換成計算機可識別的語言,存儲到格式轉(zhuǎn)換的裝置中。具體來說,可以采用如下的方式,當(dāng)獲取源文檔的內(nèi)容元素及結(jié)構(gòu)的信息時,首先判斷源文檔是否是結(jié)構(gòu)化文檔,如果是,直接讀取源文檔就能夠獲取到源文檔的內(nèi)容元素及結(jié)構(gòu)的信息。如果否,則說明源文檔是非/半結(jié)構(gòu)化文檔,需要先將源文檔進行結(jié)構(gòu)化處理。首先讀取源文檔,獲得源文檔的內(nèi)容信息,同時通過預(yù)設(shè)的路徑讀取文檔規(guī)范,根據(jù)文檔規(guī)范對源文檔的內(nèi)容信息進行分析并獲得源文檔的結(jié)構(gòu)信息,根據(jù)源文檔的結(jié)構(gòu)信息將非/半結(jié)構(gòu)化的源文檔的文檔結(jié)構(gòu)轉(zhuǎn)換成結(jié)構(gòu)化的文檔結(jié)構(gòu)。
[0044]其中,針對將所述經(jīng)過結(jié)構(gòu)化處理后的源文檔中不支持基準文檔格式的數(shù)據(jù)進行刪除或者修改為支持基準文檔格式的數(shù)據(jù)。因為不同的文檔格式會存在不同的顯示效果,對于部分數(shù)據(jù)可能有些格式支持有些格式不支持,例如,PDF格式中不支持vsd格式中的圖形數(shù)據(jù),假設(shè)要將vsd格式的文檔轉(zhuǎn)換成PDF格式,要將vsd格式中的圖形數(shù)據(jù)轉(zhuǎn)換成圖像數(shù)據(jù)。再例如,txt格式不支持doc格式中的藝術(shù)字或者渲染效果,因此假設(shè)要將doc格式的文檔轉(zhuǎn)換成txt格式,要將doc格式中的藝術(shù)字轉(zhuǎn)換成相應(yīng)的普通文字或者刪除渲染效果的數(shù)據(jù)。
[0045]步驟202:根據(jù)所述基準文檔的格式信息、所述源文檔的內(nèi)容元素及結(jié)構(gòu)的信息以及預(yù)設(shè)的源文檔與基準文檔元素及結(jié)構(gòu)的對應(yīng)關(guān)系,將源文檔的格式轉(zhuǎn)換為基準文檔格式。
[0046]需要說明的是,不同格式的文檔之間元素及結(jié)構(gòu)有一定的對應(yīng)關(guān)系,這個對應(yīng)關(guān)系需要根據(jù)具體的格式進行開發(fā),每兩種不同格式的文檔之間僅存在一種對應(yīng)關(guān)系。對于將源文檔的格式轉(zhuǎn)換為基準文檔格式,具體來說,可以采用如下的方式,首先獲取到基準文檔的格式信息,根據(jù)基準文檔的格式信息開發(fā)出基準文檔格式與其他所有常用文檔格式的對應(yīng)關(guān)系,將對應(yīng)關(guān)系通過計算機可識別的語言進行描述,并存儲到格式轉(zhuǎn)換的裝置中。當(dāng)需要將源文檔的格式轉(zhuǎn)換為基準文檔格式時,獲得源文檔的格式信息,根據(jù)源文檔的格式信息查找到源文檔與基準文檔元素及結(jié)構(gòu)的對應(yīng)關(guān)系,根據(jù)源文檔的內(nèi)容元素及結(jié)構(gòu)的信息和源文檔與基準文檔元素及結(jié)構(gòu)的對應(yīng)關(guān)系,將源文檔的格式轉(zhuǎn)換為基準文檔格式。
[0047]進一步的,圖3是本發(fā)明實施例提供的根據(jù)所述目標文檔格式信息,將源文檔的基準文檔格式轉(zhuǎn)換為目標文檔格式的方法流程圖,如圖3所示,所述方法包括:
[0048]步驟301:獲得所述基準文檔的內(nèi)容元素及結(jié)構(gòu)的信息。
[0049]需要說明的是,這個步驟中不包含對基準文檔進行結(jié)構(gòu)化處理的過程,因為前面提到過基準文檔格式選取的原則,一般選取結(jié)構(gòu)化文檔的格式作為基準文檔格式,結(jié)構(gòu)化文檔具有規(guī)整的結(jié)構(gòu),并且能夠直接將文檔的內(nèi)容元素及結(jié)構(gòu)的信息提取出來,因此不需要對源文檔的基準文檔進行結(jié)構(gòu)化處理。
[0050]步驟302:根據(jù)所述目標文檔的格式信息、所述基準文檔的內(nèi)容元素及結(jié)構(gòu)的信息以及預(yù)設(shè)的基準文檔與目標文檔元素及結(jié)構(gòu)的對應(yīng)關(guān)系,將源文檔的基準文檔格式轉(zhuǎn)換為目標文檔格式。
[0051]需要說明的是,前面已經(jīng)提到,根據(jù)基準文檔的格式信息開發(fā)出基準文檔格式與其他所有常用文檔格式的對應(yīng)關(guān)系,將對應(yīng)關(guān)系通過計算機可識別的語言進行描述,并存儲到格式轉(zhuǎn)換的裝置中。因此,若要獲得基準文檔與目標文檔元素及結(jié)構(gòu)的對應(yīng)關(guān)系,也可以根據(jù)具體的目標文檔格式在已開發(fā)出的基準文檔格式與其他所有常用文檔格式的對應(yīng)關(guān)系中查詢到,不需要重新開發(fā)。具體來說,將源文檔的基準文檔格式轉(zhuǎn)換為目標文檔格式可以采用如下的方式,首先獲取到目標文檔的格式信息,根據(jù)目標文檔的格式信息查找到目標文檔與基準文檔元素及結(jié)構(gòu)的對應(yīng)關(guān)系,根據(jù)基準文檔內(nèi)容元素及結(jié)構(gòu)的信息和基準文檔與目標文檔元素及結(jié)構(gòu)的對應(yīng)關(guān)系,將源文檔的基準文檔格式轉(zhuǎn)換為目標文檔格式。
[0052]由上述內(nèi)容也可以很容易的看出,假設(shè)現(xiàn)有A、B、C三種格式的源文檔,如果在出版的2個環(huán)節(jié)中分別需要E、F兩種格式,那么對于現(xiàn)有技術(shù)來說,一共需要開發(fā)A和E,B和E,C和E,A和F,B和F,C和F,六種不同格式文檔之間的對應(yīng)關(guān)系,如果再增加一個使用G格式的環(huán)節(jié),還需要重新開發(fā)三種不同格式文檔之間的對應(yīng)關(guān)系。而對于本發(fā)明來說,假設(shè)選取D格式作為基準文檔格式,則一共僅需要開發(fā)A和D,B和D,C和D,D和E,D和F五種不同格式文檔之間的對應(yīng)關(guān)系,如果再增加一個使用G格式的環(huán)節(jié),只需要再開發(fā)D和G —種格式文檔之間的對應(yīng)關(guān)系。顯然本發(fā)明的方案很方便的擴充了文檔格式轉(zhuǎn)換功能,充分復(fù)用已有的文檔格式轉(zhuǎn)換模塊,減少了重復(fù)開發(fā),提高了工作效率。并且,源文檔的格式種類以及出版的環(huán)節(jié)需要的不同格式的種類越多,本發(fā)明的這種優(yōu)勢越明顯。
[0053]圖4是本發(fā)明實施例提供的一種批量文檔格式轉(zhuǎn)換的裝置組成框圖,如圖4所示,所述裝置包括:
[0054]接收模塊401,用于接收將源文檔的格式轉(zhuǎn)換為目標文檔格式的請求,所述請求中包含目標文檔格式信息。其中,將源文檔的格式轉(zhuǎn)換為目標文檔格式的請求可以由操作人員通過計算機發(fā)出,也可以由計算機直接發(fā)出,具體的本發(fā)明實施例對此不進行限制。獲取模塊402,用于根據(jù)所述接收模塊接收的所述請求獲取基準文檔格式的信息,所述基準文檔格式為結(jié)構(gòu)化文檔格式,所述基準文檔格式是文檔格式轉(zhuǎn)換的格式基準。其中,請求中可以包含基準文檔格式的信息,也可以不