亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

提取文檔結(jié)構(gòu)的方法和裝置的制作方法

文檔序號:6432340閱讀:226來源:國知局
專利名稱:提取文檔結(jié)構(gòu)的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字排版領(lǐng)域,具體而言,涉及一種提取文檔結(jié)構(gòu)的方法和裝置。
背景技術(shù)
出版社按照出版物如期刊、試題合編等的要求,對電子文檔進行整理,調(diào)整每篇文檔的版式結(jié)構(gòu),最后轉(zhuǎn)換為統(tǒng)一版式結(jié)構(gòu)的文檔,以便于后續(xù)的排版、打印、匯編出版等。在以上的整理過程中采用了文檔結(jié)構(gòu)規(guī)范化的技術(shù),當前實現(xiàn)文檔結(jié)構(gòu)規(guī)范化主要采用人工干預的方式。由于來稿格式不一,制作一本試題合集或者期刊需要編輯人員投入大量的精力來整理電子文檔的格式,在文檔中添加標簽,根據(jù)標簽生成結(jié)構(gòu)化文檔,并從這些電子文檔中獲得相應(yīng)部分的內(nèi)容,如標題、正文、輔文等。發(fā)明人發(fā)現(xiàn)上述人工的整理過程,工作量較大,周期較長,效率較低。

發(fā)明內(nèi)容
本發(fā)明旨在提供一種提取文檔結(jié)構(gòu)的方法和裝置,以解決上述通過標簽生成結(jié)構(gòu)化文檔,時間較長、效率較低的問題。在本發(fā)明的實施例中,提供了一種提取文檔結(jié)構(gòu)的方法,包括將文檔轉(zhuǎn)換為xml文件;在schema文件中查找與所述xml文件中的元素具有相同名稱屬性的元素;將所述xml文件中的所述元素的內(nèi)容屬性按照所述同名的元素所映射的版式結(jié)構(gòu)輸出。在本發(fā)明的實施例中,提供了一種提取文檔結(jié)構(gòu)的裝置,包括轉(zhuǎn)換模塊,用于將文檔轉(zhuǎn)換為xml文件;查找模塊,用于在schema文件中查找與所述xml文件中的元素具有相同名稱屬性的元素;輸出模塊,用于將所述xml文件中的所述元素的內(nèi)容屬性按照所述同名的元素所映射的版式結(jié)構(gòu)輸出。本發(fā)明上述的實施例通過schema文件、將文檔轉(zhuǎn)換后的xml文件,可對文檔中的字符數(shù)據(jù)結(jié)構(gòu)化,從而獲得結(jié)構(gòu)化文檔。相對于通過標簽生成結(jié)構(gòu)化文檔的方法,時間短、
效率高。


此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中圖1示出了實施例一的流程圖;圖2示出了實施例二的流程圖;圖3示出了實施例中schema文件的元素之間的結(jié)構(gòu)框圖;圖4示出了實施例二中的結(jié)構(gòu)化過程的流程圖;圖5示出了實施例中結(jié)構(gòu)化文檔的屏幕截圖;圖6示出了實施例三中的裝置結(jié)構(gòu)框圖。
具體實施例方式下面將參考附圖并結(jié)合實施例,來詳細說明本發(fā)明。首先說明本發(fā)明的實施例一,參見圖1,包括以下步驟步驟Sll :將文檔轉(zhuǎn)換為xml文件;所述將文檔轉(zhuǎn)換為xml文件是指將通過填寫文檔模板所生成的文檔轉(zhuǎn)換為xml格式的文件;所述轉(zhuǎn)換過程包括將所述文檔的各個段落轉(zhuǎn)換成所述xml文件的各個元素,所述元素的名稱屬性記錄所述段落由所述文檔模板所定義的段落樣式的名稱,所述元素的內(nèi)容屬性記錄所述段落的內(nèi)容。在本實施例中,文檔模板可以采用word模板,該文檔模板接收電子內(nèi)容,形成文·檔文件。文檔文件可通過xslt文件轉(zhuǎn)換為xml文件。例如采用zip解壓方式提取office2007版本的word格式文檔中源openxml文檔,通過xslt樣式表轉(zhuǎn)換openXml文件,獲得含有openxml文件中含有段落樣式和文本內(nèi)容的xml文件。xslt樣式表文件中定義了需要提取的段落樣式和文本內(nèi)容的元素。步驟S12 :在所述schema文件中查找與所述xml文件中的元素具有相同名稱屬性的元素;schema文件符合w3c標準,其后綴名為xsd。在schema文件和xml文件中,兩個文件存在相同名稱的元素,相同名稱的元素在schema文件中為一種樣式框架元素,在xml文件中為定義段落樣式的元素。由于文檔模板中的段落樣式是由schema文件定義的,因此通過填寫文檔模板所生成的文檔轉(zhuǎn)換成xml文件后,該xml文件的具有與schema文件中樣式框架元素同名的元素,元素的名稱屬性記錄所述段落由所述文檔模板所規(guī)定的段落樣式的名稱,所述元素的內(nèi)容屬性記錄所述段落的內(nèi)容;步驟S13 :將所述文檔中的所述元素的內(nèi)容按照所述具有相同名稱的元素所映射的版式結(jié)構(gòu)輸出。將文檔的標題名稱、正文或前言等內(nèi)容,按照schema文件中元素定義的版式結(jié)構(gòu)輸出,獲得結(jié)構(gòu)化文檔。通過上述的處理過程,可通過定義了版式結(jié)構(gòu)的標準文件,通過元素的對應(yīng)關(guān)系,將文檔直接結(jié)構(gòu)化。相對于在文檔中添加標簽的形式將文檔結(jié)構(gòu)化的方法,具有效率高、周期短、工作量小的優(yōu)點。在上述的結(jié)構(gòu)化過程中,還可有不同形式的結(jié)構(gòu)化過程,下面通過實施例二詳細說明結(jié)構(gòu)化的過程。參見圖2,包括以下步驟S21 :定義元素類型??砂凑諏ξ臋n的結(jié)構(gòu)化要求定義Schema的元素的類型,在本實施例中,Schema的基本元素類型定義如下 普通框架元素(ST_NormalFrameElement):指在文檔框架中的普通節(jié)點,沒有任何屬性的節(jié)點。實現(xiàn)的代碼如下
權(quán)利要求
1.一種提取文檔結(jié)構(gòu)的方法,其特征在于,包括 將文檔轉(zhuǎn)換為Xml文件; 在schema文件中查找與所述xml文件中的元素具有相同名稱屬性的元素; 將所述xml文件中的所述元素的內(nèi)容屬性按照所述同名的元素所映射的版式結(jié)構(gòu)輸出。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述將文檔轉(zhuǎn)換為xml文件是指將通過填寫文檔模板所生成的文檔轉(zhuǎn)換為xml格式的文件; 所述轉(zhuǎn)換過程包括將所述文檔的各個段落轉(zhuǎn)換成所述xml文件的各個元素,所述元素的名稱屬性記錄所述段落由所述文檔模板所定義的段落樣式的名稱,所述元素的內(nèi)容屬性記錄所述段落的內(nèi)容。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述schema文件通過以下步驟創(chuàng)建 確定各種所述版式結(jié)構(gòu); 創(chuàng)建各個元素,設(shè)置每個元素的名稱屬性、類別屬性;所述類別屬性記錄該元素映射所述版式結(jié)構(gòu)的值; 將所述創(chuàng)建的各個元素構(gòu)建成樹形結(jié)構(gòu),所述樹形結(jié)構(gòu)映射所述各個元素在所述版式結(jié)構(gòu)中的級別關(guān)系; 將所述元素及其樹形結(jié)構(gòu)采用所述schema文件保存。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述輸出的過程包括 創(chuàng)建結(jié)構(gòu)化文檔; 確定所述同名的元素在所述樹形結(jié)構(gòu)中的所有祖先節(jié)點; 創(chuàng)建對應(yīng)所述祖先節(jié)點和所述同名的元素的空元素; 將所述創(chuàng)建的空元素按照所述祖先節(jié)點和所述同名的元素的樹形結(jié)構(gòu)加入到所述結(jié)構(gòu)化文檔中; 將所述祖先節(jié)點中所述類別屬性記錄的值加入到所述結(jié)構(gòu)化文檔中對應(yīng)所述祖先節(jié)點的空元素內(nèi); 將所述xml文件中的所述元素的內(nèi)容屬性、類別屬性記錄的值輸出到在所述結(jié)構(gòu)化文檔中對應(yīng)所述同名的元素的空元素內(nèi)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述創(chuàng)建各個元素的過程中,還包括 設(shè)置每個元素是否復用的復用屬性、以及標識該元素是否調(diào)用其它元素的調(diào)用屬性; 獲取所述結(jié)構(gòu)化文檔中各個元素的類別屬性、內(nèi)容屬性的值后進行顯示; 在所述顯示過程中,如果判斷當前所顯示元素的調(diào)用屬性存在調(diào)用其它元素的值,則在所述結(jié)構(gòu)化文檔的元素中查找其歸屬最近、復用屬性的值為復用的元素,將該元素的類別屬性的值與所述當前元素的內(nèi)容屬性、類別屬性的值一同顯示。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,設(shè)置所述樹形結(jié)構(gòu)中作為兄弟節(jié)點的元素的順序; 所述輸出之后,還包括 在所述輸出后得到的結(jié)構(gòu)化文檔中,判斷作為所述兄弟節(jié)點的元素所呈現(xiàn)的內(nèi)容屬性的先后順序是否與所述設(shè)置的順序一致; 如果不一致,則輸出該元素的內(nèi)容屬性在所述結(jié)構(gòu)化文檔中的位置。
7.一種提取文檔結(jié)構(gòu)的裝置,其特征在于,包括 轉(zhuǎn)換模塊,用于將文檔轉(zhuǎn)換為xml文件; 查找模塊,用于在schema文件中查找與所述xml文件中的元素具有相同名稱屬性的元素; 輸出模塊,用于將所述xml文件中的所述元素的內(nèi)容屬性按照所述同名的元素所映射的版式結(jié)構(gòu)輸出。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括schema文件生成模塊, 版式模塊,用于確定各種所述版式結(jié)構(gòu); 元素創(chuàng)建模塊,用于創(chuàng)建各個元素,設(shè)置每個元素的名稱屬性、類別屬性;所述類別屬性記錄該元素映射所述版式結(jié)構(gòu)的值; 組建模塊,用于將所述創(chuàng)建的各個元素構(gòu)建成樹形結(jié)構(gòu),所述樹形結(jié)構(gòu)映射所述各個兀素在所述版式結(jié)構(gòu)中的級別關(guān)系; 存儲模塊,用于將所述元素及其樹形結(jié)構(gòu)采用所述schema文件保存。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述輸出模塊包括結(jié)構(gòu)化文檔創(chuàng)建模塊,用于創(chuàng)建結(jié)構(gòu)化文檔; 遍歷模塊,用于確定所述同名的元素在所述樹形結(jié)構(gòu)中的所有祖先節(jié)點; 空元素模塊,用于創(chuàng)建對應(yīng)所述祖先節(jié)點和所述同名的元素的空元素; 節(jié)點映射模塊,用于將所述創(chuàng)建的空元素按照所述祖先節(jié)點和所述同名的元素的樹形結(jié)構(gòu)加入到所述結(jié)構(gòu)化文檔中; 屬性映射模塊,用于將所述祖先節(jié)點中所述類別屬性記錄的值加入到所述結(jié)構(gòu)化文檔中對應(yīng)所述祖先節(jié)點的空元素內(nèi);將所述xml文件中的所述元素的內(nèi)容屬性、類別屬性記錄的值輸出到在所述結(jié)構(gòu)化文檔中對應(yīng)所述同名的元素的空元素內(nèi)。
全文摘要
本發(fā)明提供了一種提取文檔結(jié)構(gòu)的方法和裝置,方法包括將通過填寫文檔模版所生成的文檔轉(zhuǎn)換為xml文件,其中將所述文檔的各個段落轉(zhuǎn)換成所述xml文件的各個元素,所述元素的名稱屬性記錄所述段落由所述文檔模板所規(guī)定的段落樣式的名稱,所述元素的內(nèi)容屬性記錄所述段落的內(nèi)容;在schema文件中查找與所述xml文件中的元素具有相同名稱屬性的元素;將所述xml文件中的所述元素的內(nèi)容屬性按照所述同名的元素所映射的版式結(jié)構(gòu)輸出。本發(fā)明上述的實施例通過schema文件、將文檔轉(zhuǎn)換后的xml文件,可對文檔中的字符數(shù)據(jù)結(jié)構(gòu)化,從而獲得結(jié)構(gòu)化文檔。相對于通過標簽生成結(jié)構(gòu)化文檔的方法,時間短、效率高。
文檔編號G06F17/22GK102982010SQ201110259138
公開日2013年3月20日 申請日期2011年9月2日 優(yōu)先權(quán)日2011年9月2日
發(fā)明者楊勇, 閆國龍 申請人:北大方正集團有限公司, 北京北大方正電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1