一種從Word文檔中快速提取文字格式的方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種從Word文檔中快速提取文字格式的方法和裝置,包括以下步驟:將文檔切分為多個部分;將每個部分的文檔內(nèi)容轉(zhuǎn)換為字符串格式,得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù);提取所述字符串?dāng)?shù)據(jù)中所用字體及顏色集合;解析每個字符串?dāng)?shù)據(jù),并按照樹形數(shù)據(jù)結(jié)構(gòu)保存;從所述樹形數(shù)據(jù)結(jié)構(gòu)中提取文字格式,將所有文字格式匯總。本發(fā)明將ms-com接口與字符串處理相結(jié)合,研究出一系列解析規(guī)則,即吸取了ms-com接口操作便利的優(yōu)勢,又避免了反復(fù)調(diào)用ms-com接口導(dǎo)致效率低下的缺點(diǎn),能夠快速提取文檔中全部文字格式。可以與電子簽章等一些文檔處理相關(guān)應(yīng)用程序相結(jié)合,具有很高的使用價值。
【專利說明】—種從Word文檔中快速提取文字格式的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文檔處理、信息安全等領(lǐng)域,特別涉及電子簽章應(yīng)用中一種從Word文檔中快速提取文字格式的方法和裝置。
【背景技術(shù)】
[0002]隨著技術(shù)的發(fā)展,越來越多的企事業(yè)單位及國家機(jī)關(guān)逐漸采取了電子化辦公,極大的提高了工作效率。隨之而來的便是電子辦公所帶來的安全性問題。由于電子文檔易被拷貝或篡改,所簽發(fā)的電子文檔是否被修改,是否為簽發(fā)人所簽發(fā)等問題隨之而來。電子簽章產(chǎn)品的出現(xiàn)解決了上述問題,為電子文檔的安全需求提供了技術(shù)依據(jù)。
[0003]Microsoft Word是微軟公司出品的一個文檔處理應(yīng)用程序,Word文檔是目前電子文檔中的主流文檔格式。所有電子簽章產(chǎn)品均需要支持Word文檔格式,保證能夠檢測出Word文檔中文字是否經(jīng)過篡改。
[0004]另一方面,很多情況下不僅文字起著重要作用,文字格式也發(fā)揮了很大作用。不同的文字格式含義可能完全不同,在一份電子合同或電子文檔中,如果更改了部分文字格式,可能會引起不同的含義,從而提取Word文檔所有文字格式,進(jìn)行檢測具有很重要的意義。
[0005]目前常用的Word文檔文字格式提取的方法有以下幾種:方法一:調(diào)用ms-word所提供的Com接口,獲取每個文字對象,提取其屬性值;方法二:使用一些開源文檔處理軟件進(jìn)行解析及提取,如調(diào)用OpenOffice接口進(jìn)行解析文檔并提取文字格式;方法三:根據(jù)Word文檔格式解析,并提取文字格式。
[0006]對于方法一來說,是目前電子簽章產(chǎn)品獲取文檔格式的主流方法,使用簡單,與Word應(yīng)用系統(tǒng)兼容性好,但是每解析一個Word元素均要調(diào)用一次Com接口,效率低下,運(yùn)行時間長,文檔較大時運(yùn)行速度非常緩慢,嚴(yán)重影響應(yīng)用系統(tǒng)的使用,從而使用該方法的電子簽章產(chǎn)品均不支持對大文檔進(jìn)行文字格式的簽章。
[0007]對于方法二來說,一方面與Word應(yīng)用程序兼容不好,很難集成使用;另一方面對doc格式文檔支持不好,穩(wěn)定性差,文檔較復(fù)雜時,容易出現(xiàn)獲取不到格式的情況。
[0008]對于方法三來說,目前只公布了 docx文檔格式,對于doc文檔格式不支持,從而無法支持Word2003與Word2000文檔。
[0009]因此,找到一種能夠快速提取Word文檔中所有文字格式的方法,對于保護(hù)文檔安全,具有很大意義。
【發(fā)明內(nèi)容】
[0010]本發(fā)明實(shí)施例提供了一種從Word文檔中快速提取文字格式的方法和裝置,以實(shí)現(xiàn)在微軟Word應(yīng)用程序中,快速提取文檔中文字格式,用于檢測電子文檔的安全性。
[0011]本發(fā)明解決上述技術(shù)問題的技術(shù)方案是,一種從Word文檔中快速提取文字格式的方法,包括以下步驟:
[0012]將文檔切分為多個部分;[0013]將每個部分的文檔內(nèi)容轉(zhuǎn)換為字符串格式,得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù);
[0014]提取所述字符串?dāng)?shù)據(jù)中所用字體及顏色集合;
[0015]解析每個字符串?dāng)?shù)據(jù),并按照樹形數(shù)據(jù)結(jié)構(gòu)保存;
[0016]從所述樹形數(shù)據(jù)結(jié)構(gòu)中提取文字格式,將所有文字格式匯總。
[0017]以及一種從Word文檔中快速提取文字格式的裝置,所述裝置包括:
[0018]文檔處理模塊,用于將文檔切分為多個部分;
[0019]文檔轉(zhuǎn)換模塊,用于將每個部分的文檔內(nèi)容轉(zhuǎn)換為字符串格式,得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù);
[0020]字符串解析模塊,用于提取所述字符串?dāng)?shù)據(jù)中所用字體及顏色集合,解析每個字符串?dāng)?shù)據(jù),并按照樹形數(shù)據(jù)結(jié)構(gòu)保存,從所述樹形數(shù)據(jù)結(jié)構(gòu)中提取文字格式,將所有文字格式匯總。
[0021]本發(fā)明將ms-com接口與字符串處理相結(jié)合,研究出一系列解析規(guī)則,即吸取了ms-com接口操作便利的優(yōu)勢,又避免了反復(fù)調(diào)用ms-com接口導(dǎo)致效率低下的缺點(diǎn),能夠快速提取文檔中全部文字格式。可以與電子簽章等一些文檔處理相關(guān)應(yīng)用程序相結(jié)合,具有很高的使用價值。
【專利附圖】
【附圖說明】
[0022]為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0023]圖1為本發(fā)明實(shí)施例提供的一種Word文檔中快速提取文字格式方法的處理流程圖。
[0024]圖2為本發(fā)明實(shí)施例提供的一種Word文檔中快速提取文字格式方法的裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0025]為便于對本發(fā)明實(shí)施例的理解,下面將結(jié)合附圖并以具體實(shí)施例為例做進(jìn)一步的解釋說明,且各個實(shí)施例并不構(gòu)成對本發(fā)明的限定。
[0026]一種Word文檔中快速提取文字格式的方法,可以與文檔處理的一些應(yīng)用程序相結(jié)合,快速提取文檔內(nèi)所有文字格式。其具體實(shí)施之一,與電子簽章裝置相結(jié)合,在Word文檔中執(zhí)行簽章驗(yàn)章等操作時,需要提取當(dāng)前文檔所有文字格式,如圖1所示,包括以下步驟:
[0027]步驟101,將文檔切分為多個部分。具體的,獲取上層電子簽章程序傳入的當(dāng)前要處理的文檔的Com指針;調(diào)用ms-word Com接口查找文檔中的所有圖片與控件;以圖片與控件作為分隔點(diǎn)將文檔分隔為多個部分,每個部分中均不包含圖片及控件,從而在步驟102中該部分轉(zhuǎn)化為字符串格式后,字符串?dāng)?shù)據(jù)小,解析速度快。
[0028]步驟102,將每個部分的文檔內(nèi)容轉(zhuǎn)換為字符串格式,得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù)。具體的,使用ms-word Com接口 ;將每個部分的文檔內(nèi)容設(shè)置為選中狀態(tài),并且將每個部分的文檔內(nèi)容復(fù)制到系統(tǒng)剪切板上;以RTF格式打開系統(tǒng)剪切板;提取系統(tǒng)剪切板中的字符串?dāng)?shù)據(jù),得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù)。Word文檔的RTF格式是一種能夠記錄Word元素的文本格式,便于通過字符串解析提取元素。該步驟通過ms-word Com接口及剪切板的RFT格式,能快速及方便的將Word部分文檔內(nèi)容轉(zhuǎn)化為字符串?dāng)?shù)據(jù)。
[0029]步驟103,提取字符串?dāng)?shù)據(jù)中所用字體及顏色集合。具體的,查找并提取描述字體集合與顏色集合的字符串?dāng)?shù)據(jù),通過查找“{\\fonttbl”與相匹配的可以提取字體集合字符串,通過查找“ {\\colortbl”與相匹配的“} ”可以提取顏色集合字符串;解析該描述字體集合與顏色集合的字符串?dāng)?shù)據(jù),查找字體名與所對應(yīng)的序列號,查找顏色與所對應(yīng)的序列號;將字體名對應(yīng)的序列號、顏色對應(yīng)的序列號保存,供解析文本時使用。由于不同文檔內(nèi)容,不同文檔格式,其描述文本格式的顏色序列號與字體序列號所對應(yīng)的顏色、字體可能都不同,從而需要先解析出對應(yīng)關(guān)系,供后續(xù)操作取得字體名及顏色數(shù)據(jù)。
[0030]步驟104,解析每個字符串?dāng)?shù)據(jù),并按照樹形數(shù)據(jù)結(jié)構(gòu)保存。具體的,首先查找并提取描述文字集合的字符串?dāng)?shù)據(jù),Word文檔的RTF格式字符串中,以嵌套的方式描述整個文檔內(nèi)容,每個部分用H劃分;遞歸解析描述文字集合的字符串?dāng)?shù)據(jù),查找所有H中包含的元素內(nèi)容,以樹形數(shù)據(jù)結(jié)構(gòu)保存,因?yàn)檫@些元素內(nèi)容最適合樹形數(shù)據(jù)結(jié)構(gòu)表示,每個節(jié)點(diǎn)可表示該部分文字元素,包括文字格式如顏色、大小、字體、粗體等;判斷樹形數(shù)據(jù)結(jié)構(gòu)中每個節(jié)點(diǎn)是否包含文字內(nèi)容,如果不包含則舍去該節(jié)點(diǎn),從而每個節(jié)點(diǎn)均表示文字內(nèi)容與文字格式,如顏色、大小、字體、粗體等。
[0031]步驟105,從樹形數(shù)據(jù)結(jié)構(gòu)中提取文字格式,將所有文字格式匯總。具體的,遍歷樹形數(shù)據(jù)結(jié)構(gòu),提取所有節(jié)點(diǎn)內(nèi)容;從每個節(jié)點(diǎn)內(nèi)容中獲取文字及文字格式;將文字格式中的顏色序列號轉(zhuǎn)化為顏色數(shù)據(jù),字體序列號轉(zhuǎn)化為字體名稱;合并相鄰且具有相同格式的文字格式,樹形數(shù)據(jù)結(jié)構(gòu)中每個節(jié)點(diǎn)均包含文字元素,根據(jù)標(biāo)簽解析出文字格式,由于大部分相鄰文字的格式是相同的,合并后有利于極大的壓縮最終內(nèi)容;將文檔各個部分的文字格式合并,獲取整個文檔的文字格式。
[0032]基于上述提取方法,本發(fā)明還提出了 一種從Word文檔中快速提取文字格式的裝置結(jié)構(gòu)。如圖2所示,該裝置結(jié)構(gòu)至少包括文檔處理模塊100、文檔轉(zhuǎn)換模塊200和字符串解析模塊300,其中:
[0033]文檔處理模塊100,用于將文檔切分為多個部分。具體的,文檔處理模塊100首先獲取上層電子簽章程序傳入的當(dāng)前要處理文檔的Com指針,調(diào)用ms-word Com接口查找文檔中所有圖片及控件。在Word文檔中,所有元素均有一個起點(diǎn)及終點(diǎn)位置編號,按順序排列,從而根據(jù)圖片及控件在文檔中的位置,以圖片與控件作為分隔點(diǎn)將文檔分隔為多個部分,每部分中均不包含圖片及控件。
[0034]文檔轉(zhuǎn)換模塊200,用于將每個部分的文檔內(nèi)容轉(zhuǎn)換為字符串格式,得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù)。具體的,使用ms-word Com接口,將每個部分的文檔內(nèi)容設(shè)置為選中狀態(tài),并且復(fù)制到系統(tǒng)剪切板系統(tǒng)剪切板。以RTF格式打開剪切板,提取所述系統(tǒng)剪切板系統(tǒng)剪切板中的字符串?dāng)?shù)據(jù),得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù),即獲得該部分文檔內(nèi)容的字符串格式數(shù)據(jù)。文檔轉(zhuǎn)換模塊200通過ms-word Com接口及系統(tǒng)剪切板系統(tǒng)剪切板,能夠快速且方便的將每個部分的Word文檔內(nèi)容轉(zhuǎn)換為字符串格式。
[0035]字符串解析模塊300,用于提取字符串?dāng)?shù)據(jù)中所用字體及顏色集合,解析每個字符串?dāng)?shù)據(jù),并按照樹形數(shù)據(jù)結(jié)構(gòu)保存,從樹形數(shù)據(jù)結(jié)構(gòu)中提取文字格式,將所有文字格式匯總。具體的:
[0036]在步驟103中,字符串解析模塊300首先從待解析字符串?dāng)?shù)據(jù)中查找并提取字體集合字符串與顏色集合字符串?dāng)?shù)據(jù),通過查找“ {\\fonttbl”與相匹配的“} ”可以提取字體集合字符串,通過查找“{\\colortbl”與相匹配的可以提取顏色集合字符串。從字體集合字符串中提取每個字體元素,每個字體名均對應(yīng)一個序列號,將對應(yīng)關(guān)系保存,供后續(xù)操作使用;從顏色集合字符串中提取每個顏色元素,每個顏色的紅綠藍(lán)屬性均對應(yīng)一個序列號,將對應(yīng)關(guān)系保存,供后續(xù)操作使用。
[0037]在步驟104中,字符串解析模塊300從待解析字符串中提取描述文檔內(nèi)容的字符串?dāng)?shù)據(jù)。首先查找并提取描述文字集合的字符串?dāng)?shù)據(jù),Word文檔的RTF格式字符串中,以嵌套的方式描述文檔中所有元素內(nèi)容,每個元素用H劃分。通過遞歸方式解析描述文字集合的字符串?dāng)?shù)據(jù),查找所有H中包含的元素內(nèi)容,以樹形數(shù)據(jù)結(jié)構(gòu)保存,因?yàn)檫@些元素內(nèi)容最適合樹形數(shù)據(jù)結(jié)構(gòu)表示,每個節(jié)點(diǎn)可表示該部分文字元素,包括文字格式如顏色、大小、字體、粗體等。判斷樹形數(shù)據(jù)結(jié)構(gòu)中每個節(jié)點(diǎn)是否包含文字內(nèi)容,如果不包含舍去該節(jié)點(diǎn),從而每個節(jié)點(diǎn)均表示文字內(nèi)容與文字格式,如顏色、大小、字體、粗體等。
[0038]在步驟105中,字符串解析模塊300遍歷步驟104中所產(chǎn)生的樹形數(shù)據(jù)結(jié)構(gòu),通過深度優(yōu)先檢索方式進(jìn)行檢索,提取所有節(jié)點(diǎn)內(nèi)容。從每個節(jié)點(diǎn)內(nèi)容中獲取文字及文字格式,包括通過查詢“13”、“1”、“&廣、“^、“(^”等關(guān)鍵詞提取粗細(xì)、傾斜、字體、大小、顏色等文字格式。使用步驟103中獲得的對應(yīng)關(guān)系,將文字格式中的顏色序列號轉(zhuǎn)化為顏色數(shù)據(jù),字體序列號轉(zhuǎn)化為字體名稱。合并相鄰且具有相同格式的文字格式,壓縮數(shù)據(jù)。最后將步驟101中切分文檔后各個部分的文字格式合并,獲取整個文檔的文字格式。
[0039]用本發(fā)明實(shí)施例的裝置從Word文檔中快速提取文字格式的具體過程與前述方法實(shí)施例類似,此處不再贅述。
[0040]應(yīng)當(dāng)理解的是, 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不足以限制本發(fā)明的技術(shù)方案,對本領(lǐng)域普通技術(shù)人員來說,在本發(fā)明的精神和原則之內(nèi),可以根據(jù)上述說明加以增減、替換、變換或改進(jìn),而所有這些增減、替換、變換或改進(jìn)后的技術(shù)方案,都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范圍。
【權(quán)利要求】
1.一種從Word文檔中快速提取文字格式的方法,其特征在于,包括以下步驟: 將文檔切分為多個部分; 將每個部分的文檔內(nèi)容轉(zhuǎn)換為字符串格式,得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù); 提取所述字符串?dāng)?shù)據(jù)中所用字體及顏色集合; 解析每個字符串?dāng)?shù)據(jù),并按照樹形數(shù)據(jù)結(jié)構(gòu)保存; 從所述樹形數(shù)據(jù)結(jié)構(gòu)中提取文字格式,將所有文字格式匯總。
2.根據(jù)權(quán)利要求1所述的一種從Word文檔中快速提取文字格式的方法,其特征在于,所述將文檔切分為多個部分具體包括: 獲取上層電子簽章程序傳入的當(dāng)前要處理的文檔的Com指針; 調(diào)用ms-word Com接口查找所述文檔中的所有圖片與控件; 以圖片與控件作為分隔點(diǎn)將所述文檔分隔為多個部分,每個部分中均不包含圖片及控件。
3.根據(jù)權(quán)利要求1所述 的一種從Word文檔中快速提取文字格式的方法,其特征在于,所述將每個部分的文檔內(nèi)容轉(zhuǎn)換為字符串格式,得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù)具體包括: 使用ms-word Com接口將每個部分的文檔內(nèi)容設(shè)置為選中狀態(tài),并且將每個部分的文檔內(nèi)容復(fù)制到系統(tǒng)剪切板系統(tǒng)剪切板上; 以RTF格式打開所述系統(tǒng)剪切板系統(tǒng)剪切板; 提取所述系統(tǒng)剪切板系統(tǒng)剪切板中的字符串?dāng)?shù)據(jù),得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種從Word文檔中快速提取文字格式的方法,其特征在于,所述提取所述字符串?dāng)?shù)據(jù)中所用字體及顏色集合具體包括: 查找并提取描述字體集合與顏色集合的字符串?dāng)?shù)據(jù); 解析所述描述字體集合與顏色集合的字符串?dāng)?shù)據(jù),查找字體名與所對應(yīng)的序列號,查找顏色與所對應(yīng)的序列號; 將字體名對應(yīng)的序列號、顏色對應(yīng)的序列號保存,供解析文本時使用。
5.根據(jù)權(quán)利要求4所述的一種從Word文檔中快速提取文字格式的方法,其特征在于,所述的查找并提取描述字體集合與顏色集合的字符串?dāng)?shù)據(jù),包括: 通過查找“{\\fonttbl”與相匹配的提取字體集合字符串,通過查找“ {\\colortbl”與相匹配的“} ”提取顏色集合字符串。
6.根據(jù)權(quán)利要求1所述的一種從Word文檔中快速提取文字格式的方法,其特征在于,所述解析每個字符串?dāng)?shù)據(jù),并按照樹形數(shù)據(jù)結(jié)構(gòu)保存具體包括: 查找并提取描述文字集合的字符串?dāng)?shù)據(jù); 遞歸解析所述描述文字集合的字符串?dāng)?shù)據(jù),查找所有H中包含的元素內(nèi)容,以樹形數(shù)據(jù)結(jié)構(gòu)保存; 判斷樹形數(shù)據(jù)結(jié)構(gòu)中每個節(jié)點(diǎn)是否包含文字內(nèi)容,如果不包含則舍去該節(jié)點(diǎn)。
7.根據(jù)權(quán)利要求1所述的一種從Word文檔中快速提取文字格式的方法,其特征在于,所述從所述樹形數(shù)據(jù)結(jié)構(gòu)中提取文字格式,將所有文字格式匯總具體包括:遍歷樹形數(shù)據(jù)結(jié)構(gòu),提取所有節(jié)點(diǎn)內(nèi)容; 從每個節(jié)點(diǎn)內(nèi)容中獲取文字及文字格式; 將所述文字格式中的顏色序列號轉(zhuǎn)化為顏色數(shù)據(jù),字體序列號轉(zhuǎn)化為字體名稱; 合并相鄰且具有相同格式的文字格式; 將文檔各個部分的文字格式合并,獲取整個文檔的文字格式。
8.—種從Word文檔中快速提取文字格式的裝置,其特征在于,所述裝置包括: 文檔處理模塊,用于將文檔切分為多個部分; 文檔轉(zhuǎn)換模塊,用于將每個部分的文檔內(nèi)容轉(zhuǎn)換為字符串格式,得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù); 字符串解析模塊,用于提取所述字符串?dāng)?shù)據(jù)中所用字體及顏色集合,解析每個字符串?dāng)?shù)據(jù),并按照樹形數(shù)據(jù)結(jié)構(gòu)保存,從所述樹形數(shù)據(jù)結(jié)構(gòu)中提取文字格式,將所有文字格式匯總。
9.根據(jù)權(quán)利要求8所述的一種從Word文檔中快速提取文字格式的裝置,其特征在于: 所述的文檔處理模塊,具體用于獲取上層電子簽章程序傳入的當(dāng)前要處理的文檔的Com指針; 調(diào)用ms-word Com接口查找所述文檔中的所有圖片與控件; 以圖片與控件作為分隔點(diǎn)將所述文檔分隔為多個部分,每個部分中均不包含圖片及控件。
10.根據(jù)權(quán)利要求8所述的一種從Word文檔中快速提取文字格式的裝置,其特征在于: 所述的文檔轉(zhuǎn)換模塊,具體用于使用ms-word Com接口將每個部分的文檔內(nèi)容設(shè)置為選中狀態(tài),并且將每個部分的文檔內(nèi)容復(fù)制到系統(tǒng)剪切板系統(tǒng)剪切板上; 以RTF格式打開所述系統(tǒng)剪切板系統(tǒng)剪切板; 提取所述系統(tǒng)剪切板系統(tǒng)剪切板中的字符串?dāng)?shù)據(jù),得到每個部分的文檔內(nèi)容分別對應(yīng)的字符串?dāng)?shù)據(jù)。
11.根據(jù)權(quán)利要求8所述的一種從Word文檔中快速提取文字格式的裝置,其特征在于: 所述的字符串解析模塊,具體用于查找并提取描述字體集合與顏色集合的字符串?dāng)?shù)據(jù),解析所述描述字體集合與顏色集合的字符串?dāng)?shù)據(jù),查找字體名與所對應(yīng)的序列號,查找顏色與所對應(yīng)的序列號,將字體名對應(yīng)的序列號、顏色對應(yīng)的序列號保存; 查找并提取描述文字集合的字符串?dāng)?shù)據(jù),遞歸解析所述描述文字集合的字符串?dāng)?shù)據(jù),查找所有H中包含的元素內(nèi)容,以樹形數(shù)據(jù)結(jié)構(gòu)保存,判斷樹形數(shù)據(jù)結(jié)構(gòu)中每個節(jié)點(diǎn)是否包含文字內(nèi)容,如果不包含則舍去該節(jié)點(diǎn); 從每個節(jié)點(diǎn)內(nèi)容中獲取文字及文字格式,將所述文字格式中的顏色序列號轉(zhuǎn)化為顏色數(shù)據(jù),字體序列號轉(zhuǎn)化為字體名稱,合并相鄰且具有相同格式的文字格式,將文檔各個部分的文字格式合并,獲取整個文檔的文字格式。
【文檔編號】G06F21/60GK103902918SQ201210587758
【公開日】2014年7月2日 申請日期:2012年12月30日 優(yōu)先權(quán)日:2012年12月30日
【發(fā)明者】王申, 金端峰, 郭向國 申請人:航天信息股份有限公司