專利名稱:一種書版文檔中的字符定位、標引方法和裝置的制作方法
技術領域:
本發(fā)明涉及信息資源加工技術領域,具體涉及一種書版文檔中的字符定位、標引 方法和裝置。
背景技術:
書版是一種批處理方式的流式排版軟件,小樣文件中包含注解命令以及正文內 容,通過一掃二掃等流程,解析小樣文件中注解和正文內容,生成后端輸出所需的大樣文 件,大樣文件中只包含一些輸出內容和位置的通用命令,不同的輸出設備通過接口解析這 些命令,實現(xiàn)最終的輸出結果。如圖1所示就是書版的排版流程,經過書版小樣編輯程序得到小樣文件,再經過 一掃二掃流程得到大樣文件,大樣文件經過大樣顯示程序就能夠在屏幕上顯示,或者大樣 文件經過輸出程序形成PS文件。書版小樣文件是包含注解命令和書籍正文內容的批處理文件,例如“[JZ] [HT5SS]這是一段文本”這是一段包含注解命令以及正文內容的小樣文件,其中“[”和“],, 之間包含的就是注解命令,注解命令是由一些簡單的英文字母組成,實際上就是漢語拼音 的首字縮寫,比如“JZ”表示的就是“居中” (ju,zhong),“HT”表示的就是“漢體” (han' ti), “5SS”是“漢體”注解的參數,5代表5號字,“SS”代表的是“書宋”(shu’ song)字體,“這 是一段文本”表示的是需要排版的字符串,即書籍的正文內容。這一段小樣表示的就是在 一行上按照宋體5號字居中排“這是一段文本”這樣一個字符串。包含書籍具體內容的小 樣文件經過書版程序的一掃二掃流程,形成大樣文件。一掃是指查錯,檢查小樣注解是否按 照規(guī)范正確輸入,二掃是指將小樣文件轉換為程序能夠理解的輸出命令形成大樣文件。大 樣文件中用二進制編碼定義了一系列計算機能夠理解的輸出命令,這些輸出命令和小樣中 的注解不同,計算機顯示器、印刷機等外圍輸出設備不理解小樣中的“居中”之類的說明,只 知道在設備的哪個點上,輸出些什么點陣信息,所以在大樣文件中定義的命令一般是“輸出 文本”、“劃線”、“畫點”、“畫圓”等等命令,參數也多是坐標之類的內容,這些大樣文件定義 的命令一般用一個或幾個字節(jié)二進制內容定義,比如0101是文本輸出命令,0100是劃線命 令。命令的后面是參數,例如下面一段大樣文件中二進制串“0100 0000 0000 0001 0001” 可以理解為“劃線,0,0,1,1",即從X = 0,y = 0到X = l,y = 1劃一條線。再例如,上述小 樣文件中的文字“段”,在大樣文件中的命令和參數為“文字200300段”,就表示在χ = 200, y = 300的位置上輸出文字“段”。如圖2所示,為書版的大樣文件的示意圖,包括命令和參 數,命令如“文字” “劃線”等,每一個命令均對應參數,如“劃線”命令的參數“0,0,1,1”以 及“文字”命令的參數“200,300,段”等。因此,書版不是一種所見即所得、排版的同時同步顯示輸出的一種交互式排版軟 件,大樣文件和小樣文件之間的聯(lián)系只存在于排版輸出流程中。目前能夠通過將書版內容 轉換成其他格式的文檔,通過其他的交互式的編輯工具,進行書版小樣文件與大樣文件之 間的交互,進而實現(xiàn)標引和標注功能,但是由于這類文檔轉換都是建立在書版大樣文檔基礎上的,而不是真正包含書籍具體內容的書版小樣文件,所以這種交互方式必然無法滿足 對于書籍信息的資源提取和加工需求,對書版資源的結構化加工來說,是一個極大的障礙。
發(fā)明內容
本發(fā)明提供一種書版文檔中的字符定位、標引方法和裝置,可以實現(xiàn)書版大樣文 件與小樣文件間的交互,可以實現(xiàn)對書版文檔的標引或標注功能。—種書版文檔中的字符定位方法,包括確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖上的第一位置信 息;根據所述第一位置信息,從大樣文件中獲得該字符在小樣文件中的第二位置信 息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述第二位置信息,在小樣文件中定位出所述字符。進一步,所述確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖上的第 一位置信息之前,確認被選中的是單一字符。進一步,當確認被選中的是多個字符組成的字符塊時,所述方法還包括確定大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符;分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第
一位置信息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符 在小樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息, 所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件中定位出所述 字符塊。其中,所述第一位置信息為坐標信息。一種書版文檔中的字符定位方法,包括確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符;分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第
一位置信息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符 在小樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息, 所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件中定位出所述 字符塊。一種書版文檔中的字符定位裝置,包括第一確定單元,用于確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖 上的第一位置信息;第二位置信息獲得單元,用于根據所述第一位置信息,從大樣文件中獲得該字符 在小樣文件中的第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和 第二位置信息;
定位單元,用于根據所述第二位置信息,在小樣文件中定位出所述字符。進一步,所述裝置還包括第二確定單元,用于確定被選中的是單一字符。進一步,所述第二確定單元還用于確定被選中的是多個字符組成的字符塊;以及所述第一確定單元,還用于確定大樣文件的預覽視圖上被選中的字符塊中的首字 符和尾字符,并分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字 符第一位置信息;所述第二位置信息獲得單元,還用于根據首字符第一位置信息和尾字符第一位置 信息,從大樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在 小樣文件中的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信 息和第二位置信息;所述定位單元,還用于根據所述首字符第二位置信息和尾字符第二位置信息,在 小樣文件中定位出所述字符塊。一種書版文檔中的字符定位裝置,包括確定單元,用于確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字 符,分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置 fn息;第二位置信息獲得單元,用于根據首字符第一位置信息和尾字符第一位置信息, 從大樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣文 件中的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第 二位置信息;定位單元,用于根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文 件中定位出所述字符塊。一種書版文檔的標引方法,包括確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符,分別確定所 述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置信息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符 在小樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息, 所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件的邏輯樹結構 中獲得所述字符塊以及所述字符塊的格式信息,其中小樣文件的邏輯樹結構中對應記錄了 每一個字符、每一個字符的第二位置信息以及對應的格式信息;將獲得的所述字符塊以及所述字符塊的格式信息組合進行標引。一種書版文檔的標引裝置,包括確定單元,用于確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字 符,分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置 fn息;第一位置信息獲得單元,用于根據首字符第一位置信息和尾字符第一位置信息, 從大樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣文 件中的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;字符塊及格式獲得單元,用于根據所述首字符第二位置信息和尾字符第二位置信 息,在小樣文件的邏輯樹結構中獲得所述字符塊以及所述字符塊的格式信息,其中小樣文 件的邏輯樹結構中對應記錄了每一個字符、每一個字符的第二位置信息以及對應的格式信 息;標引單元,將獲得的所述字符塊以及所述字符塊的格式信息組合進行標引。本發(fā)明實施例提供的書版文檔中的字符定位方法,通過在書版的大樣文件中記錄 后端輸出時的每個字符的位置信息以及該字符在書版小樣文件中的位置信息,實現(xiàn)了大小 樣間的關聯(lián),并且根據在大樣文件預覽視圖上選中的字符的位置信息,從大樣文件中獲得 該字符在小樣文件中的位置信息,從小樣文件中定位出該字符,能夠實現(xiàn)大樣文件與小樣 文件的交互,進一步當確定在預覽視圖上選定的是多字符的字符塊時,通過確定出字符塊 的首字符和尾字符在預覽視圖上的位置信息,從大樣文件中獲得首字符和尾字符在小樣文 件中的位置信息,從小樣文件中定位出該字符塊,從而實現(xiàn)了書版大樣文件與小樣文件的 交互;同時還可以根據首字符和尾字符在小樣文件中的位置信息從小樣文件的邏輯樹結構 中獲得字符塊以及字符塊對應的格式信息,并可以對獲得的字符塊及格式信息組合并進行 標引或標注,可以根據不同的應用需求進行處理。
圖1為書版的排版流程;圖2為書版的大樣文件的示意圖;圖3為本發(fā)明實施例一提供的書版文檔中的字符定位方法流程圖;圖4為本發(fā)明實施例二提供的書版文檔中的字符定位方法流程圖;圖5為本發(fā)明實施例提供的書版小樣文件的邏輯樹結構示意圖;圖6為本發(fā)明實施例提供的書版文檔中的字符定位方法具體示意圖;圖7為本發(fā)明實施例提供的第一種書版文檔中的字符定位裝置結構圖;圖8為本發(fā)明實施例提供的第二種書版文檔中的字符定位裝置結構圖;圖9為本發(fā)明實施例提供的書版文檔的標引裝置結構圖。
具體實施例方式針對現(xiàn)有技術中書版大樣文件與小樣文件間無法進行交互,無法實現(xiàn)標引和標注 功能,本發(fā)明實施例提供兩種書版文檔中的字符定位方法,通過在書版的大樣文件中記錄 后端輸出時的每個字符的位置信息以及該字符在書版小樣文件中的位置信息,實現(xiàn)了大小 樣間的關聯(lián)。本發(fā)明實施例提供的第一種書版文檔中的字符定位方法,根據在大樣文件件預覽 視圖上選中的字符的位置信息,從大樣文件中獲得該字符在小樣文件中的位置信息,從小 樣文件中定位出該字符。采用這種方法,可以實現(xiàn)書版大樣文件與小樣文件的交互。本發(fā)明實施例提供的第二種書版文檔中的字符定位方法,通過確定在大樣文件的 預覽視圖上被選中的字符塊的首字符和尾字符在大樣文件預覽視圖上的位置信息,從大樣 文件中獲得首字符和尾字符在小樣文件中的位置信息,從小樣文件中定位出該字符塊。其中,還可以預先對小樣文件進行結構化處理形成小樣文件的邏輯化結構樹,小樣文件的邏 輯樹結構中記錄了每一個字符、每一個字符在小樣文件中的位置信息以及每一個字符對應 的格式信息,這樣就可以從小樣文件的邏輯樹結構中獲得字符塊以及格式信息,并將字符 塊及格式信息組合進行標引或標注。采用這種方法,能夠實現(xiàn)書版大樣文件與小樣文件的 交互,并且能夠對該字符塊進行標引或標注等操作。上述兩種方法可以分別單獨使用,也可以結合使用。結合使用,可以實現(xiàn)在大樣文 件的預覽視圖上選定的是單一字符或者字符塊均能夠從小樣文件中定位出該字符或者字 符塊,實現(xiàn)大樣文件與小樣文件的交互,實現(xiàn)對書版文檔的標引和標注功能。如圖3所示,為本發(fā)明實施例一提供的書版文檔中的字符定位方法,包括S301 在對書版小樣文件二掃生成大樣文件過程中,在大樣文件中記錄輸出時各 個字符、各個字符輸出時的位置信息以及每個字符在書版小樣文件中的位置信息;例如,小樣文件“[JZ] [HT5SS]這是一段文本”中“段”這個字符,通過二掃過程生 成的用于輸出的大樣文件的命令和參數是“文字200 300段”,其中,需要在二掃生成大樣 文件的過程中,在大樣文件中增加該字符在小樣文件中的位置信息,實現(xiàn)大樣文件和小樣 文件之間的關聯(lián)。假設“ [JZ] [HT5SS]這是一段文本”是在小樣的最開頭,“段”這個字符是 “ [JZ] [HT5SS]這是一段文本”的第15個字符,因此在“段”在小樣文件中的偏移位置為15, 小樣文件經過二掃過程生成的大樣文件即為“文字200 300段15”,這樣就實現(xiàn)了在大樣文 件中增加了小樣文件內容的偏移位置,但這個信息的增加在實際的大樣的顯示輸出時不起 作用,但通過這種大樣文件中記錄小樣信息的技術,就實現(xiàn)了大小樣的交互;其中,各個字符輸出時的位置信息是指各個字符輸出時的位置坐標信息,或者用 各個字符輸出時的具體的行數和列數來表示;每個字符在書版小樣文件中的位置信息可以指每個字符在書版小樣中的偏移位 置,或者每個字符在書版小樣中的具體段落以及在該段落中的偏移位置;當然每個字符在 書版小樣文件中的位置信息還可以用具體的行數和列數來表示;S302 根據大樣文件記錄的字符以及字符的位置信息獲得大樣文件的預覽視圖;S303 在大樣文件的預覽視圖上選中字符;S304 確定該字符在預覽視圖上的位置信息;其中,該字符在預覽視圖上的位置信息可以具體為坐標信息,或者為具體的行數 及列數;S305:根據該字符的位置信息,從大樣文件中獲得該字符在小樣文件中的位置信 息;其中,該字符在小樣文件中的位置信息,可以指每個字符在書版小樣中的偏移位 置,或者每個字符在書版小樣中的具體段落以及在該段落中的偏移位置;當然每個字符在 書版小樣文件中的位置信息還可以用具體的行數及列數來表示;S306:根據該字符在小樣文件中的位置信息,在小樣文件中定位出該字符,實現(xiàn)大 樣文件與小樣文件的交互;通過定位出該字符,我們可以根據其對應的上下文對該字符進行修改或者標注, 可以根據不同的應用需求,進行處理;其中,上述步驟中,S301以及S302為初始時生成大樣文件的工作,以后每一次在小樣文件中定位字符時,只需執(zhí)行步驟S303 S306。如圖4所示,為本發(fā)明實施例二提供的書版文檔中的字符定位方法,如圖4所示, 包括S401 在對書版小樣文件二掃生成大樣文件過程中,在大樣文件中記錄后端輸出 時的各個字符、各個字符的位置信息以及每個字符在書版小樣文件中的位置信息;S402 根據大樣文件記錄的字符以及字符的位置信息獲得大樣的預覽視圖;步驟S401以及S402是初始時小樣文件生成大樣文件的工作,以后每一次在小樣 文件中定位字符塊時,可以不必執(zhí)行;S403 在大樣預覽視圖上選中字符塊;S404 確定被選中字符塊的首字符和尾字符;S405:分別確定首字符和尾字符在預覽視圖上的首字符位置信息以及尾字符位置 fn息;S406:根據首字符位置信息和尾字符位置信息從大樣文件中分別獲得首字符、尾 字符在小樣文件中的位置信息;S407:根據首字符在小樣文件中的位置信息以及尾字符在小樣文件中的位置信 息,從小樣文件中定位出字符塊;其中,可以對定位出的字符塊進行標引以及標注,或者根據不同的應用需求進行 處理;其中,經過上述步驟得到的字符塊中可能包含書版小樣注解,可以剔除掉書版小 樣注解,形成純文本內容;進一步,可以通過預先對書版小樣文件進行結構化加工,形成小樣文件的邏輯樹 結構,其中邏輯樹結構中包含書籍具體內容(即大樣預覽視圖上的字符)的每一個字符、每 一個字符在小樣文件中的位置信息以及每一個字符對應的格式信息,其中邏輯樹結構中按 段落(Para)進行組織,每個段落由一個個片段(Range)組成,每個片段包含書籍的具體文 本內容以及該具體文本內容的完整格式信息(style)以及對應在小樣文件中的位置信息, 該位置信息可以具體為在書版小樣中的偏移位置(Pos),如圖5所示,為書版小樣的邏輯樹 結構示意圖;則在上述步驟S407中,可以根據首字符在小樣文件中的位置信息以及尾字符在 小樣文件中的位置信息,從小樣文件的邏輯樹結構中可獲得字符塊以及該字符塊對應的格 式信息,即注解;通過對獲得的字符塊以及對應的格式信息組合,可獲得完整的小樣片段,進行標 引或標注;例如小樣文件中一段注解內容“ [JZ]這是一段文字”([JZ]是居中注解,表示居 中排一段文字),在小樣文件中的偏移位置范圍是{11,20},則在邏輯樹結構中小樣文件的 這個片段表示為[段i [片斷j<居中排XII,20> 這是一段文字]],其中,i,j分別表示 段落和片段的編號;通過在大樣文件預覽視圖中選中“一段文字”,獲得對應的在小樣文件中的偏移位 置范圍是{17,20},在小樣文件的邏輯樹結構中獲得小樣文件中的字符塊“一段文字”以及 對應的格式信息 < 居中排 >,根據 < 居中排 > 對應的注解[JZ]獲得字符塊以及其對應的注解,即“ [JZ] —段文字”,其中,還可以剔除掉注解,得到文本“一段文字”;其中,可對從小樣文件的邏輯樹結構中獲得的字符塊以及其注解進行修改以及填 補或者標弓丨,可以根據不同的應用需求進行處理。上述兩種方法可以結合使用,可以保證在大樣文件的預覽視圖上不論選中的是單 一字符還是多字符的字符塊,均能夠從小樣文件中定位出該字符或字符塊,只需在實施例 一的步驟S302之后,當確定在大樣文件中選中的是單一字符時即執(zhí)行步驟S304 S306,當 確定在大樣文件中選定的是字符塊時,執(zhí)行步驟S404 S407。如圖6所示,為本發(fā)明實施例提供的書版文檔中的字符定位方法的具體示意圖, 下面結合圖6,說明本發(fā)明實施例提供的書版文檔中的字符定位方法。1、通過在大樣文件的預覽視圖上選中字符塊,如圖6中的A為大樣文件的預覽視 圖,在其中選中字符塊;2、確定選中字符塊的首字符和尾字符,并確定首字符和尾字符在預覽視圖的位置 信息,如圖6中的B所示,確定出首字符位置信息為Ptl(Xl,Yl)尾字符位置信息Pt2(X2, Y2);3、根據首字符、尾字符在預覽視圖的位置信息,從大樣文件中獲得首字符、尾字符 在小樣文件中的位置信息;如圖6中的C所示,為大樣文件中具體的一個字符對應的輸出命令及參數,其中 《TEXT》表示輸出文字命令,“X”表示要輸出的字符為X,P0SX、P0Sy表示字符χ的坐標位置, Pos表示字符χ在小樣文件中的偏移位置;從大樣文件中,可以找出Ptl(Xl,Yl)、Pt2(X2,Y2)分別對應的小樣文件中的偏移 位置Pos,即圖6中的D ;4、根據首字符以及尾字符在小樣文件中的位置信息,從小樣文件中獲得字符塊;其中,可以通過預先對書版小樣文件進行結構化加工,形成小樣文件的邏輯樹結 構,其中邏輯樹結構中包含書籍具體內容(即大樣預覽視圖上的字符)的每一個字符、每一 個字符在小樣文件中的位置信息以及每一個字符對應的格式信息;這樣可以根據首字符以及尾字符在小樣文件中的位置信息,從小樣文件的邏輯樹 結構中獲得字符塊以及字符塊的格式信息,進行組合,并進行標引或標注。其中,獲得字符塊以及字符塊的格式信息后,可以根據不同的應用需求,通過處 理,得到文字、圖片、小樣片段等信息。本發(fā)明實施例提供一種書版文檔中的字符定位裝置,如圖7所示,包括第一確定單元71,用于確定在大樣文件的預覽視圖上被選中的字符在該預覽視圖 上的第一位置信息;第二位置信息獲得單元72,用于根據該第一位置信息,從大樣文件中獲得該字符 在小樣文件中的第二位置信息,該大樣文件中對應記錄了每一個字符的第一位置信息和第 二位置信息;定位單元73,用于根據該第二位置信息,在小樣文件中定位出該字符。進一步,還包括第二確定單元74,用于確定被選中的是單一字符。進一步,第二確定單元74還用于確定被選中的是多個字符組成的字符塊;以及第一確定單元71,還用于確定大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符, 并分別確定該首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置信 息;第二位置信息獲得單元72,還用于根據首字符第一位置信息和尾字符第一位置信 息,從大樣文件中獲得該首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣 文件中的尾字符第二位置信息,該大樣文件中對應記錄了每一個字符的第一位置信息和第 二位置信息;定位單元73,還用于根據該首字符第二位置信息和尾字符第二位置信息,在小樣 文件中定位出該字符塊。本發(fā)明實施例還提供第二種書版文檔中的字符定位裝置,如圖8所示,包括確定單元81,用于確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾 字符,分別確定該首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置 fn息;第二位置信息獲得單元82,用于根據首字符第一位置信息和尾字符第一位置信 息,從大樣文件中獲得該首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣 文件中的尾字符第二位置信息,該大樣文件中對應記錄了每一個字符的第一位置信息和第 二位置信息;定位單元83,用于根據該首字符第二位置信息和尾字符第二位置信息,在小樣文 件中定位出該字符塊。本發(fā)明實施例還提供一種書版文檔的標引裝置,如圖9所示,包括確定單元91,用于確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾 字符,分別確定該首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置 fn息;第一位置信息獲得單元92,用于根據首字符第一位置信息和尾字符第一位置信 息,從大樣文件中獲得該首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣 文件中的尾字符第二位置信息,該大樣文件中對應記錄了每一個字符的第一位置信息和第 二位置信息;字符塊及格式獲得單元93,用于根據該首字符第二位置信息和尾字符第二位置信 息,在小樣文件的邏輯樹結構中獲得該字符塊以及該字符塊的格式信息,其中小樣文件的 邏輯樹結構中對應記錄了每一個字符、每一個字符的第二位置信息以及對應的格式信息;標引單元94,將獲得的該字符塊以及該字符塊的格式信息組合進行標引。顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍 之內,則本發(fā)明也意圖包含這些改動和變型在內。
權利要求
1.一種書版文檔中的字符定位方法,其特征在于,包括確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖上的第一位置信息; 根據所述第一位置信息,從大樣文件中獲得該字符在小樣文件中的第二位置信息,所 述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息; 根據所述第二位置信息,在小樣文件中定位出所述字符。
2.如權利要求1所述的方法,其特征在于,所述確定在大樣文件的預覽視圖上被選中 的字符在所述預覽視圖上的第一位置信息之前,確認被選中的是單一字符。
3.如權利要求2所述的方法,其特征在于,當確認被選中的是多個字符組成的字符塊 時,所述方法還包括確定大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符; 分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位 直fe息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符在小 樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息,所述 大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件中定位出所述字符塊。
4.如權利要求1至3中任一權利要求所述的方法,其特征在于,所述第一位置信息為坐 標信息。
5.一種書版文檔中的字符定位方法,其特征在于,包括確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符; 分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位 直fe息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符在小 樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息,所述 大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件中定位出所述字符塊。
6.一種書版文檔中的字符定位裝置,其特征在于,包括第一確定單元,用于確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖上的第一位置信息;第二位置信息獲得單元,用于根據所述第一位置信息,從大樣文件中獲得該字符在小 樣文件中的第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二 位置信息;定位單元,用于根據所述第二位置信息,在小樣文件中定位出所述字符。
7.如權利要求6所述的裝置,其特征在于,還包括第二確定單元,用于確定被選中的是單一字符。
8.如權利要求7所述的裝置,其特征在于,所述第二確定單元還用于確定被選中的是 多個字符組成的字符塊;以及所述第一確定單元,還用于確定大樣文件的預覽視圖上被選中的字符塊中的首字符和 尾字符,并分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第 一位置信息;所述第二位置信息獲得單元,還用于根據首字符第一位置信息和尾字符第一位置信 息,從大樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在小 樣文件中的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息 和第二位置信息;所述定位單元,還用于根據所述首字符第二位置信息和尾字符第二位置信息,在小樣 文件中定位出所述字符塊。
9.一種書版文檔中的字符定位裝置,其特征在于,包括確定單元,用于確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符, 分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置信 息;第二位置信息獲得單元,用于根據首字符第一位置信息和尾字符第一位置信息,從大 樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣文件中 的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位 直fe息;定位單元,用于根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件中 定位出所述字符塊。
10.一種書版文檔的標引方法,其特征在于,包括確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符,分別確定所述首 字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置信息;根據首字符第一位置信息和尾字符第一位置信息,從大樣文件中獲得所述首字符在小 樣文件中的首字符第二位置信息,以及尾字符在小樣文件中的尾字符第二位置信息,所述 大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述首字符第二位置信息和尾字符第二位置信息,在小樣文件的邏輯樹結構中獲 得所述字符塊以及所述字符塊的格式信息,其中小樣文件的邏輯樹結構中對應記錄了每一 個字符、每一個字符的第二位置信息以及對應的格式信息;將獲得的所述字符塊以及所述字符塊的格式信息組合進行標引。
11.一種書版文檔的標引裝置,其特征在于,包括確定單元,用于確定在大樣文件的預覽視圖上被選中的字符塊中的首字符和尾字符, 分別確定所述首字符和尾字符在預覽視圖上的首字符第一位置信息和尾字符第一位置信 息;第一位置信息獲得單元,用于根據首字符第一位置信息和尾字符第一位置信息,從大 樣文件中獲得所述首字符在小樣文件中的首字符第二位置信息,以及尾字符在小樣文件中 的尾字符第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位直{曰息;字符塊及格式獲得單元,用于根據所述首字符第二位置信息和尾字符第二位置信息, 在小樣文件的邏輯樹結構中獲得所述字符塊以及所述字符塊的格式信息,其中小樣文件的邏輯樹結構中對應記錄了每一個字符、每一個字符的第二位置信息以及對應的格式信息; 標引單元,將獲得的所述字符塊以及所述字符塊的格式信息組合進行標引。
全文摘要
本發(fā)明涉及信息資源加工技術領域,具體涉及一種書版文檔中的字符定位、標引方法和裝置,本發(fā)明方法包括確定在大樣文件的預覽視圖上被選中的字符在所述預覽視圖上的第一位置信息;根據所述第一位置信息,從大樣文件中獲得該字符在小樣文件中的第二位置信息,所述大樣文件中對應記錄了每一個字符的第一位置信息和第二位置信息;根據所述第二位置信息,在小樣文件中定位出所述字符。進一步,還可以通過在大樣預覽視圖上選中字符塊,在小樣文件的邏輯樹結構中獲得字符塊以及對應的格式信息,組合并進行標引。采用本發(fā)明的方法,能夠實現(xiàn)書版大樣文件與小樣文件間的交互,可以實現(xiàn)對書本文檔的標引和標注功能。
文檔編號G06F17/24GK102117265SQ20091021751
公開日2011年7月6日 申請日期2009年12月31日 優(yōu)先權日2009年12月31日
發(fā)明者嚴昌華, 繆萍 申請人:北京北大方正電子有限公司, 北大方正集團有限公司