專利名稱:一種對小樣文件的處理方法及裝置的制作方法
技術領域:
本發(fā)明涉及數(shù)據(jù)排版技術領域,尤其涉及一種對小樣文件的處理方法及裝置。
背景技術:
小樣文件,是指使用特定語言注解信息的文本文件,已經(jīng)普遍被出版界所編制和 使用。小樣文件中包含書籍的內容以及書籍的各種版式信息,采用特定語言描述書籍的板 式、樣式、數(shù)學公式、表格等各種對象。目前小樣文件多采用專門用以排版的類似HTML 1.0的標記語言進行編寫,業(yè)界 稱該語言為BD語言。BD語言由100多個注解組成,每個注解都有自己的功能,指明排版的 某些要求,并有確定的作用范圍。BD語言每個注解都有一個或多個參數(shù)可選擇,每個參數(shù)對 應某個功能。多個注解聯(lián)合使用,就可以完成比較復雜的版面排版。小樣文件通常保存的是一本書籍的全部信息,對于編輯等排版領域的工作人員來 說,方便對書籍內容以及格式的全面了解。但從應用廣泛應用角度而言,小樣文件存在如下 局限性首先,小樣文件中不僅包括了正文內容、目錄、附錄和頁邊頁腳上面的文字內容, 也包括了對書籍中所有文字、表格、圖片的尺寸、字體、顏色等的定義。而且往往一本書籍的 內容是保存在多份小樣文件中,甚至于書籍中某一頁的內容保存在多份小樣文件中。其次,一般小樣文件采用的編寫語言一般專門用于排版,所以在除排版外的一些 場合使用時,例如只想將書本的內容存入數(shù)據(jù)庫或者將某一頁的內容顯示在網(wǎng)頁上時,從 小樣文件中獲取內容將會變得非常復雜。綜上所述,基于小樣文件存在的上述局限性,使得小樣文件的應用范圍非常有限, 不方便直接從小樣文件中提取需要的信息,例如,書籍正文部分某頁的文本內容。
發(fā)明內容
有鑒于此,本發(fā)明實施例提供一種對小樣文件的處理方法及裝置,用于解決從小 樣文件中提取信息不方便的問題。本發(fā)明實施例通過如下技術方案實現(xiàn)根據(jù)本發(fā)明實施例的一個方面,提供了一種對小樣文件的處理方法。根據(jù)本發(fā)明實施例提供的對小樣文件的處理方法,包括確定待處理小樣文件對應排版文件中每頁內容對應的不同屬性對象在所述小樣 文件中的位置信息以及所述每頁內容對應的頁碼;根據(jù)確定的所述位置信息從所述小樣文件中獲取所述排版文件中指定頁數(shù)范圍 內每頁內容對應的指定屬性的對象,并分別利用每頁內容對應的頁碼標識獲取的所述對象 后,將獲取的所述對象按照指定格式保存。根據(jù)本發(fā)明實施例的另一個方面,還提供了 一種對小樣文件的處理裝置。根據(jù)本發(fā)明實施例提供的對小樣文件的處理裝置,包括
信息確定單元,用于確定待處理小樣文件對應排版文件中每頁內容對應的不同屬 性對象在所述小樣文件中的位置信息以及所述每頁內容對應的頁碼;獲取單元,用于根據(jù)所述信息確定單元確定的所述位置信息從所述小樣文件中獲 取所述排版文件中指定頁數(shù)范圍內每頁內容對應的指定屬性的對象;存儲單元,用于分別利用每頁內容對應的頁碼標識所述獲取單元獲取的所述對象 后,將獲取的所述對象按照指定格式保存。通過本發(fā)明實施例提供的上述至少一個技術方案,確定待處理小樣文件對應排版 文件中每頁內容對應的不同屬性對象在小樣文件中的位置信息以及每頁內容對應的頁碼, 根據(jù)確定的位置信息從小樣文件中獲取排版文件中指定頁數(shù)范圍內每頁內容對應的指定 屬性的對象,并分別利用每頁內容對應的頁碼標識獲取的對象后,將獲取的對象按照指定 格式保存。根據(jù)該技術方案,通過對小樣文件進行處理,從小樣文件中獲取指定屬性的對象 并存儲為設定格式,從而方便用戶獲取和利用。本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變 得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明 書、權利要求書、以及附圖中所特別指出的結構來實現(xiàn)和獲得。
附圖用來提供對本發(fā)明的進一步理解,并且構成說明書的一部分,與本發(fā)明實施 例一起用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中圖1為本發(fā)明實施例提供的對小樣文件的處理流程圖一;圖2為本發(fā)明實施例提供的確定每頁內容對應的屬性對象信息的流程圖一;圖3為本發(fā)明實施例提供的確定每頁內容對應的屬性對象信息的流程圖二 ;圖4為本發(fā)明實施例提供的對小樣文件的處理流程圖二 ;圖5為本發(fā)明實施例提供的對小樣文件的處理裝置示意圖一;圖6為本發(fā)明實施例提供的對小樣文件的處理裝置示意圖二。
具體實施例方式為了給出便于從小樣文件中提取信息的實現(xiàn)方案,本發(fā)明實施例提供了一種對小 樣文件的處理方法及裝置,以下結合說明書附圖對本發(fā)明的優(yōu)選實施例進行說明,應當理 解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。并且在不沖 突的情況下,本申請中的實施例及實施例中的特征可以相互組合。根據(jù)本發(fā)明實施例,首先提供了一種對小樣文件的處理方法,通過對小樣文件進 行處理,提取出方便用戶獲取的信息。如圖1所示,本發(fā)明實施例提供的對小樣文件的處理過程,包括如下步驟步驟101、確定待處理小樣文件對應排版文件中每頁內容對應的不同屬性對象在 小樣文件中的位置信息以及每頁內容對應的頁碼;步驟102、根據(jù)確定的位置信息,從小樣文件中獲取排版文件中指定頁數(shù)范圍內每 頁內容對應的指定屬性的對象;步驟103、分別利用每頁內容對應的頁碼標識獲取的對象后,將獲取的對象按照指定格式保存。本發(fā)明優(yōu)選實施例中,上述步驟101的具體執(zhí)行過程,即確定待處理小樣文件對 應排版文件中每頁內容對應的不同屬性對象在小樣文件中的位置信息以及每頁內容對應 的頁碼,如圖2所示,包括如下步驟步驟201、根據(jù)小樣文件中包括的版面信息,生成虛擬顯示頁面;步驟202、在生成的虛擬顯示頁面上顯示小樣文件對應排版文件中的每頁內容,并 在顯示每頁內容的過程中,記錄當前頁對應的頁碼以及當前頁對應的不同屬性對象在小樣 文件中的獲取位置;步驟203、將記錄的當前頁對應的不同屬性對象在小樣文件中的獲取位置信息確 定為當前頁內容對應的不同屬性對象在所述小樣文件中的位置信息。更為具體地,步驟202的具體執(zhí)行過程,即在生成的虛擬顯示頁面上顯示小樣文 件對應排版文件中的當前頁內容,包括根據(jù)小樣文件確定當前頁內容對應的各屬性對象以及各屬性對象對應的顯示樣 式;根據(jù)確定的顯示樣式,在虛擬顯示頁面中顯示所述各屬性對象。為了更好地理解本發(fā)明實施例,以下結合更為詳細的實施例對確定待處理小樣文 件對應排版文件中每頁內容對應的不同屬性對象在小樣文件中的位置信息以及每頁內容 對應的頁碼進行說明,如圖3所示,包括如下步驟步驟301、從小樣文件中獲取用于顯示的版面信息。該步驟中,獲取的版面信息包括排版文件中每頁內容顯示的高和寬,更為具體地, 還包括頁邊距、頁眉頁腳等信息。步驟302、在內存中根據(jù)獲取的版面信息生成一個虛擬顯示頁面。該步驟中,生成的虛擬顯示頁面的尺寸為版面信息中指定的高寬。步驟303、依照小樣文件的順序讀取小樣文件,讀取小樣文件內容。步驟304、對讀取的小樣文件的注解進行解析,若解析結果為字體或段落等顯示樣 式信息,則根據(jù)該顯示樣式信息設定當前虛擬顯示頁面的屬性;若解析結果為正文內容,則 讀取對應的正文內容。步驟305、根據(jù)獲得的正文內容以及顯示樣式信息,在生成的虛擬顯示頁面上顯示 正文內容。步驟306、從小樣文件中獲取當前顯示的內容對應的頁碼,顯示在虛擬頁面上。該步驟中,獲取的頁碼信息可以為漢字、阿拉伯數(shù)字或者羅馬數(shù)字。步驟307、在當前虛擬顯示頁面排滿后,記錄當前頁碼上顯示的信息,包括本頁內 容從小樣文件中的獲取位置、本頁對應的頁碼。進一步地,記錄的信息還可以包括本頁所使用的頁碼類型、本頁相對頁碼信息等。該步驟中,將記錄的信息保存,并且將當前總頁碼計數(shù)加一。步驟308、將所有小樣文件全部依次處理完后,將針對每頁記錄的信息保存,生成 一個輔助的文件。該步驟中,生成的輔助文件中記錄有全書的總頁數(shù)、每頁內容對應的不同屬性對 象在小樣文件中的位置信息以及每頁內容對應的頁碼等信息。
本發(fā)明優(yōu)選實施例中,上述步驟102的具體執(zhí)行過程,即根據(jù)確定的位置信息,從 述小樣文件中獲取排版文件中當前頁內容對應的指定屬性的對象,包括如下兩種方式方式一針對要提取的屬性設置提取關鍵字,并根據(jù)預設的提取關鍵字確定與提取關鍵字 匹配的提取屬性,根據(jù)確定的位置信息,從小樣文件中提取當前頁內容對應的提取屬性的 對象。方式二針對要提取的屬性設置刪除關鍵字,并根據(jù)預設的刪除關鍵字確定與刪除關鍵字 匹配的刪除屬性,根據(jù)確定的位置信息從小樣文件中刪除當前頁內容對應的刪除屬性的對 象,并獲取刪除對象后當前頁內容對應的未刪除對象。本發(fā)明優(yōu)選實施例中,步驟103中,將獲取的對象按照指定格式保存時,其中指定 格式可以根據(jù)用戶需求靈活設置,例如,可以以表格格式保存,或者根據(jù)提取或刪除屬性建 立索引,以方便查找和獲取。進一步地,為了方便獲取的對象信息的擴展,可以將獲取的對 象轉換為擴展標記語言XML格式保存。相對于小樣文件來說,XML文件具有良好的數(shù)據(jù)結構和可擴展性,是一種非常簡單 的數(shù)據(jù)存儲語言,應用非常廣泛。用XML格式存儲從小樣文件中提取出的對象后,頁碼信息 會保存在“PageNum”字段中,提取出的當頁內容(即對象)可以保存在“PageContent”字 段中。用戶可以非常簡單地獲取到以XML格式存在的文件,并應用在所需要的地方。根據(jù) 本發(fā)明實施例提供的一個以XML格式存儲的文件如下<Book><Content><Page><PageNum>1</PageNum>〈PageContentX ! [CDATA [第 1 頁內容]]></PageContent></Page><Page><PageNum>2</PageNum>〈PageContentX ! [CDATA [第 2 頁內容]]></PageContent></Page><Page><PageNum>3</PageNum>〈PageContentX ! [CDATA [第 3 頁內容]]></PageContent></Page>〈/Content〉</Book>根據(jù)以上存儲方式,Book節(jié)點下面有一個Content節(jié)點,Content節(jié)點下有N個
Page節(jié)點,數(shù)字排版文件中的一頁即對應于一個Page節(jié)點。其中,每個Page節(jié)點的結構也
是固定的,如下 PAGE-1 -PageNum
-PageContent所以,在獲取小樣文件的內容時,優(yōu)選地以頁為單位,在內容中生成一個如上 面結構的樹形結構,再將此樹形結構各項內容依次寫入一份空白的XML文件中,比如某 個Page節(jié)點,首先在文件中寫入<Page>的標簽,再在Page標簽內寫入〈PageNum〉和 <PageContent>的標簽,然后將此頁的PageNum和PageContent數(shù)據(jù)寫入對應的標簽內即可 轉換為XML格式。如圖4所示,本發(fā)明實施例提供的一個更為具體的實施例中,小樣文件對應的排 版文件為書籍,其中,對小樣文件的處理過程包括如下步驟步驟401、打開小樣文件并獲得小樣文件的對應書籍的總頁數(shù)。該步驟中,小樣文件的對應書籍總頁數(shù)包括書籍前言頁數(shù)、書籍正文頁數(shù)以及數(shù) 據(jù)附錄頁數(shù)。步驟402、根據(jù)預設的關鍵字獲取小樣文件每一頁內容對應的提取對象及對應的 頁碼。該步驟中,若預設的關鍵字為刪除關鍵字,則獲取小樣文件頁內容,在保證文章原 有段落結構的基礎上,過濾掉與預設刪除關鍵字匹配的內容對象,例如,可以設置刪除關鍵 字對應的屬性為數(shù)學公式、圖片,特殊符號等,根據(jù)此刪除關鍵字,將每頁中的數(shù)學公式、圖 片,特殊符號等刪除,剩下的內容即為要提取的內容。進一步地,在獲取到頁內容文本后,根據(jù)本頁的頁碼來判斷本頁內容是否屬于正 文,以及相對應的本頁內容的相對頁碼(即在正文中對應的頁碼),其中,根據(jù)頁碼確定該 頁是否屬于正文的過程如下例如,一本書一共100頁,前言占10頁,內容80頁,附錄10頁。在處理小樣文件 時,能夠確定三個頁碼區(qū)間第1至第10頁、第11至第90頁、第91至第100頁,頁碼均為 小寫羅馬數(shù)字,并且頁碼從1開始。確定是否屬于正文的過程為將頁碼為阿拉伯數(shù)字,并 且頁碼跨度最大的部分確定為正文。例如,在獲取第50頁的內容時,可由第50頁處在正文 頁碼區(qū)間內得知此頁屬于正文頁,并可由正文在書籍中對應的頁數(shù)從第11頁開始,在正文 部分對應的頁數(shù)從1開始可知,第50頁在書籍對應的總頁碼應該是40。步驟403、將按頁獲取的小樣文件內容數(shù)據(jù)寫入XML文件。該步驟中,首先查看頁內容是否屬于正文,若不屬于正文,可以將該頁對應的頁碼 特殊標記,例如,將頁碼記為“*+頁碼“樣式,用于與正文頁碼進行區(qū)分,以便于用戶獲取正 文以及非正文內容。然后,依次將頁碼及頁內容文本添加入XML樹結構中,并生成XML文件。XML語言本身有良好的數(shù)據(jù)結構、跨平臺行和可擴展性,是處理結構化文檔信息的 有力工具,很多場合都應用XML文件來做數(shù)據(jù)交換,數(shù)據(jù)傳輸?shù)墓ぷ?。使用XML文件來存儲 小樣文件的內容文本。其結構化的特性可以很好的以頁為單位存儲小樣的內容,并且它易 于應用的特點也可以使用戶可以很好的將其應用在數(shù)據(jù)庫、網(wǎng)站等不同的方向。由小樣文件中按頁獲取小樣文件內容文本的過程中,在保證文章原有段落結構的 基礎上,采用刪除(過濾)或提取的方式從小樣文件中提取需要的對象內容,可以進一步對 該頁內每個段落進行格式化處理,例如。獲取到一個段落的全部內容后,首先要在段首添加 空格,以便于上一段區(qū)分開,然后將段尾的多余的空格去掉,并在段尾處添加回車。另外,如果一頁中最后N個段落都只是回車或者空格而沒有內容,則刪除這些段落,再將所獲得的 小樣文件頁內容文本輸出到XML文件中。與上述流程對應,本發(fā)明實施例還提供了一種對小樣文件的處理裝置,基于該裝 置,如圖5所示,該裝置包括信息確定單元501、獲取單元502以及存儲單元503 ;其中信息確定單元501,用于確定待處理小樣文件對應排版文件中每頁內容對應的不 同屬性對象在小樣文件中的位置信息以及每頁內容對應的頁碼;獲取單元502,用于根據(jù)信息確定單元501確定的位置信息,從小樣文件中獲取該 排版文件中指定頁數(shù)范圍內每頁內容對應的指定屬性的對象;存儲單元503,用于分別利用每頁內容對應的頁碼標識獲取單元502獲取的對象 后,將獲取的對象轉換為指定格式保存。進一步地,如圖6所示,本發(fā)明優(yōu)選實施例中,上述信息確定單元501還可以進一 步包括顯示頁面生成模塊501A、顯示模塊50IB以及信息記錄模塊50IC ;其中,顯示頁面生成模塊501A,用于根據(jù)小樣文件中包括的版面信息,生成虛擬顯示頁 面;顯示模塊501B,用于在顯示頁面生成模塊501A生成的虛擬顯示頁面上顯示小樣 文件對應排版文件中的每頁內容;信息記錄模塊501C,用于在顯示模塊501B顯示每頁內容的過程中,記錄當前頁對 應的頁碼以及當前頁對應的不同屬性對象在小樣文件中的獲取位置;并將記錄的當前頁對 應的不同屬性對象在小樣文件中的獲取位置信息確定為當前頁內容對應的不同屬性對象 在小樣文件中的位置信息。進一步地,本發(fā)明優(yōu)選實施例中,上述顯示模塊501B,具體用于根據(jù)小樣文件確定當前頁內容對應的各屬性對象以及各屬性對象對應的顯示樣 式;根據(jù)確定的顯示樣式,在虛擬顯示頁面中顯示各屬性對象。進一步地,本發(fā)明優(yōu)選實施例中,上述獲取單元502,具體用于根據(jù)預設的提取關鍵字確定與提取關鍵字匹配的提取屬性,根據(jù)確定的位置信息 從小樣文件中提取當前頁內容對應的提取屬性的對象;或根據(jù)預設的刪除關鍵字確定與刪除關鍵字匹配的刪除屬性,根據(jù)確定的位置信息 從小樣文件中刪除當前頁內容對應的刪除屬性的對象,并獲取刪除所述對象后當前頁內容 對應的未刪除對象。進一步地,本發(fā)明優(yōu)選實施例中,上述存儲單元503,具體用于將獲取的對象轉換為擴展標記語言XML格式保存。應當理解,上述裝置包括的各個單元或模塊僅為邏輯劃分,可以根據(jù)需要對上述 單元進行拆分或組合。并且,本實施例提供的對小樣文件的處理裝置所實現(xiàn)的功能與上述 實施例提供的對小樣文件的處理方法流程一一對應,對于該裝置所實現(xiàn)的更為詳細的處理流程,在上述方法實施例中已做詳細描述,此處不再詳細描述。通過本發(fā)明實施例提供的上述至少一個技術方案,確定待處理小樣文件對應排版 文件中每頁內容對應的不同屬性對象在小樣文件中的位置信息以及每頁內容對應的頁碼, 根據(jù)確定的位置信息從小樣文件中獲取排版文件中指定頁數(shù)范圍內每頁內容對應的指定 屬性的對象,并分別利用每頁內容對應的頁碼標識獲取的對象后,將獲取的對象轉換為指 定格式保存。根據(jù)該技術方案,通過對小樣文件進行處理,從小樣文件中獲取指定屬性的對 象并存儲為設定格式,從而方便用戶獲取和利用。顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍 之內,則本發(fā)明也意圖包含這些改動和變型在內。
權利要求
1.一種對小樣文件的處理方法,其特征在于,包括確定待處理小樣文件對應排版文件中每頁內容對應的不同屬性對象在所述小樣文件 中的位置信息以及所述每頁內容對應的頁碼;根據(jù)確定的所述位置信息從所述小樣文件中獲取所述排版文件中指定頁數(shù)范圍內每 頁內容對應的指定屬性的對象,并分別利用每頁內容對應的頁碼標識獲取的所述對象后, 將獲取的所述對象按照指定格式保存。
2.如權利要求1所述的方法,其特征在于,確定待處理小樣文件對應排版文件中每頁 內容對應的不同屬性對象在所述小樣文件中的位置信息以及所述每頁內容對應的頁碼,包 括根據(jù)所述小樣文件中包括的版面信息,生成虛擬顯示頁面;在所述虛擬顯示頁面上顯示所述小樣文件對應排版文件中的每頁內容,并在顯示每頁 內容的過程中,記錄當前頁對應的頁碼以及當前頁對應的不同屬性對象在所述小樣文件中 的獲取位置;將記錄的當前頁對應的不同屬性對象在所述小樣文件中的獲取位置信息確定為當前 頁內容對應的不同屬性對象在所述小樣文件中的位置信息。
3.如權利要求2所述的方法,其特征在于,在所述虛擬顯示頁面上顯示所述小樣文件 對應排版文件中的當前頁內容,包括根據(jù)所述小樣文件確定當前頁內容對應的各屬性對象以及各屬性對象對應的顯示樣式;根據(jù)確定的所述顯示樣式,在所述虛擬顯示頁面中顯示所述各屬性對象。
4.如權利要求1所述的方法,其特征在于,根據(jù)確定的所述位置信息從所述小樣文件 中獲取所述排版文件中當前頁內容對應的指定屬性的對象,包括根據(jù)預設的提取關鍵字確定與所述提取關鍵字匹配的提取屬性,根據(jù)確定的所述位置 信息從所述小樣文件中提取當前頁內容對應的所述提取屬性的對象;或根據(jù)預設的刪除關鍵字確定與所述刪除關鍵字匹配的刪除屬性,根據(jù)確定的所述位置 信息從所述小樣文件中刪除當前頁內容對應的所述刪除屬性的對象,并獲取刪除所述對象 后當前頁內容對應的未刪除對象。
5.如權利要求1所述的方法,其特征在于,將獲取的所述對象按照指定格式保存,包括將獲取的所述對象按照擴展標記語言XML格式保存。
6.一種對小樣文件的處理裝置,其特征在于,包括信息確定單元,用于確定待處理小樣文件對應排版文件中每頁內容對應的不同屬性對 象在所述小樣文件中的位置信息以及所述每頁內容對應的頁碼;獲取單元,用于根據(jù)所述信息確定單元確定的所述位置信息從所述小樣文件中獲取所 述排版文件中指定頁數(shù)范圍內每頁內容對應的指定屬性的對象;存儲單元,用于分別利用每頁內容對應的頁碼標識所述獲取單元獲取的所述對象后, 將獲取的所述對象按照指定格式保存。
7.如權利要求6所述的裝置,其特征在于,所述信息確定單元,包括顯示頁面生成模塊,用于根據(jù)所述小樣文件中包括的版面信息,生成虛擬顯示頁面;顯示模塊,用于在所述顯示頁面生成模塊生成的虛擬顯示頁面上顯示所述小樣文件對 應排版文件中的每頁內容;信息記錄模塊,用于在所述顯示模塊顯示每頁內容的過程中,記錄當前頁對應的頁碼 以及當前頁對應的不同屬性對象在所述小樣文件中的獲取位置;并將記錄的當前頁對應的 不同屬性對象在所述小樣文件中的獲取位置信息確定為當前頁內容對應的不同屬性對象 在所述小樣文件中的位置信息。
8.如權利要求7所述的裝置,其特征在于,所述顯示模塊,具體用于根據(jù)所述小樣文件確定當前頁內容對應的各屬性對象以及各屬性對象對應的顯示樣式;根據(jù)確定的所述顯示樣式,在所述虛擬顯示頁面中顯示所述各屬性對象。
9.如權利要求6所述的裝置,其特征在于,所述獲取單元,具體用于根據(jù)預設的提取關鍵字確定與所述提取關鍵字匹配的提取屬性,根據(jù)確定的所述位置 信息從所述小樣文件中提取當前頁內容對應的所述提取屬性的對象;或根據(jù)預設的刪除關鍵字確定與所述刪除關鍵字匹配的刪除屬性,根據(jù)確定的所述位置 信息從所述小樣文件中刪除當前頁內容對應的所述刪除屬性的對象,并獲取刪除所述對象 后當前頁內容對應的未刪除對象。
10.如權利要求6所述的裝置,其特征在于,所述存儲單元,具體用于 將獲取的所述對象按照擴展標記語言XML格式保存。
全文摘要
本發(fā)明公開了一種對小樣文件的處理方法及裝置,用于解決從小樣文件中提取信息不方便的問題。主要技術方案包括確定待處理小樣文件對應排版文件中每頁內容對應的不同屬性對象在所述小樣文件中的位置信息以及所述每頁內容對應的頁碼;根據(jù)確定的所述位置信息從所述小樣文件中獲取所述排版文件中指定頁數(shù)范圍內每頁內容對應的指定屬性的對象,并分別利用每頁內容對應的頁碼標識獲取的所述對象后,將獲取的所述對象按照指定格式保存。根據(jù)該技術方案,通過對小樣文件進行處理,從小樣文件中獲取指定屬性的對象并存儲為設定格式,從而方便用戶獲取和利用。
文檔編號G06F17/30GK102110108SQ20091024397
公開日2011年6月29日 申請日期2009年12月28日 優(yōu)先權日2009年12月28日
發(fā)明者張冠男, 楊燕菲, 繆萍 申請人:北京北大方正電子有限公司, 北大方正集團有限公司