多重復(fù)字字庫的制作與使用
【專利摘要】掃描古籍,將其字做成字庫,再用該字庫排印該古籍,是之謂“古籍字庫級翻印”,可兼具影印的真實、免校和排印內(nèi)容可編輯等優(yōu)點于一身。但通用型字庫的編碼系統(tǒng)不能容納同一字符因書法行氣變化產(chǎn)生的多個樣式(重復(fù)字),而保真的翻印古籍恰恰要求這個。本技術(shù)通過對這種字庫自編碼,以容納多重復(fù)字;再根據(jù)該古籍的文本與自編碼字庫的編碼順序做一耦合文檔,使自編碼字庫與古籍文本關(guān)聯(lián),以便編輯。采用GB18030?2005《中文編碼字符集》,可對161萬字以內(nèi)的古籍達成字庫級翻印。
【專利說明】
多重復(fù)字字庫的制作與使用
技術(shù)領(lǐng)域
[00〇1 ] 本發(fā)明涉及在同一 ttf (truetype簡稱ttf,包括otf,下同)字庫中存儲與調(diào)用多個重復(fù)字(同一字符圖像,但各自藝術(shù)造型不同)的字庫制作與使用方法,適用于中文書法性質(zhì)古籍刻本的字庫級翻印?!颈尘凹夹g(shù)】
[0002]用古籍掃描制作ttf字庫,然后用字庫翻印古籍的好處是:1,字庫制作是對古籍進行了字符級的矢量保真分割;2,字庫排印古籍,可用清晰字對訛、錯、損等進行較高質(zhì)量的修補,還方便增改現(xiàn)代句讀、版式。傳世古籍汗牛充棟,出版、印刷、保存質(zhì)量多有不佳者,如皆影印傳承,質(zhì)量差強人意。盡管用古籍自身字符制成該古籍字庫再翻印,似乎解決了這些問題,但同字符同模樣地重復(fù)出現(xiàn),違背古籍刻本的書法原貌,反不如影印傳神。刻本本質(zhì)是書法。書法不是活字。書法因行氣需要,同一字符針對不同上下文其長、短、大、小、肥、瘦、 粗、細、內(nèi)宮位置、動態(tài)樣式、字間距等都呼應(yīng)有變化?,F(xiàn)通用ttf必須在N多不同藝術(shù)造型中 “一字一碼”地選用一個,并以此單一字型適應(yīng)各種上下文,再好,也與古籍原著書法風(fēng)格不符?;钭中再|(zhì)ttf與書法根基本區(qū)別:ttf中同一字在任何上下文只能同一模樣,無變化,而書法卻要求根據(jù)上下文行氣,變化字符造型應(yīng)對。因此,活字從原理上不能再現(xiàn)書法。古人之所以不愛用活字出書,其“非書法性”是根本原因。現(xiàn)電子時代,用字庫排印出版雖然質(zhì)量、效益最佳,但一般的通用字庫,即便用古籍自身字符制成該古籍的ttf?翻印該古籍,也從根上破壞了中國傳統(tǒng)書法的藝術(shù)效果。要想解決ttf的這個問題,必須將其改造為能存儲和使用多個重復(fù)字。
[0003]當(dāng)下要想為一種字體安排多個重復(fù)字,似乎只能用類似“漢語拼音字庫”一種解決方案:同一字體,copy成5個(音調(diào))分庫,需用哪個選哪個。若用此法表達書法,可能比一字一碼稍好,但數(shù)量必然有限(很難想象為表現(xiàn)書法藝術(shù)而做N多分庫),使用上也有諸多不便,制作時還會出現(xiàn)各字庫間不易對行氣、整體協(xié)調(diào)困難等問題。字庫級翻印古籍要求ttf 包含多個重復(fù)字并存儲于同一字庫。本技術(shù)通過對制作古籍ttf?時對重復(fù)字的重新編碼與對應(yīng)文本中對應(yīng)字符的“耦合改造”,變“一字一碼”為“一型一碼”,從而在兼容現(xiàn)有字符編輯軟件工具的前提下,解決了上述矛盾。
[0004]多重復(fù)字字庫制作與對應(yīng)文本“耦合改造”技術(shù)實現(xiàn)過程:1,準(zhǔn)備好該古籍原文文本;2,根據(jù)該文本字序(包括重復(fù)字)全部重新編碼,給出新碼位;3,在新給碼位上,按字序置放從該古籍圖像上掃描生成的ttf字符圖像;4,同時修改該文本文檔,令其中該字為對應(yīng)的新碼位字。例如“白云長長長長長長長消”,重新編碼、將原著的該字符圖像置入ttf以及對txt文本進行耦合改造后,該文本如用通普字庫顯示,為一串?dāng)?shù)量與原文字?jǐn)?shù)相等但含義不可理解的字符。但在對該文檔選用新編碼字庫后,不僅字符還原顯現(xiàn),且由于是原位置字符,雖是字庫,亦呈現(xiàn)原著狀態(tài),達到古籍的字庫級恢復(fù)。簡單說,就是根據(jù)古籍順序,重新安置所有字(包括重復(fù)字)。此法翻印古籍,原著中字符如不清楚或損滿,可根據(jù)上下文及書法行氣狀態(tài),擇其它合適者替代。
[0005]或許有人會擔(dān)心這種字庫不能表達長文本。Unicode給漢字的編碼位置,加上擴展 A,只有27484個碼位,照此,最長適用文本只能三萬字,而古籍超過三萬字的很多??上驳氖?,2005年國家已頒行了超大字符集:GB18030-2005《信息技術(shù)中文編碼字符集》,其四字節(jié)字字符編碼容量為1611668個碼位?!度龂贰ⅰ妒酚洝返榷贾粠资f字。再造善本或古籍整理目錄中標(biāo)注上千萬字者,非一人所能為。長版刻本為多人協(xié)同,書法、刻字風(fēng)格亦有協(xié)同。多重復(fù)字字庫表現(xiàn)長版刻本,可取其一部分(譬如前幾十萬字)生成多重復(fù)字字庫,適用到后邊頁面。超長文本中常用字必定超級重復(fù)。如能對超大量的重復(fù)字分類整理,合理縮減,不僅可容納更長內(nèi)容,制作與使用也會更便捷。
[0006]現(xiàn)在實際使用四字節(jié)字的只有中文。四字節(jié)字的編碼方案是用雙字節(jié)漢字中最后兩個區(qū)擴編而成。按常理,重復(fù)字編碼,在原雙字節(jié)碼后直接擴編最方便,但四字節(jié)字有特殊性,這種方法Unicode不支持,排版工具也不支持。這正是采用GB18030-2005《信息技術(shù)中文編碼字符集》編碼的原因。使用國標(biāo)18030-2005提供的這1611668個碼位制成的“超大字符集字庫” ttf?,為現(xiàn)有排版工具承認(rèn)并兼容。
[0007]由于自定義編碼,多重復(fù)字字庫還能做到“一書一字庫”。古籍刻本中常有一本書中多個字體者,很多都是楷書、行書、隸書并存。由于多重復(fù)字字庫可容納多個重復(fù)字,容納多字體更不成問題。用多重復(fù)字字庫后,可不再需要為同一古籍刻本中不同字體另做第二個字庫,使用起來更方便,也更容易協(xié)調(diào)。多重復(fù)字字庫還可將黑白墨線稿制為字庫的一個 “字符”,這對古籍刻本中插圖的翻印,具有方便存儲、編輯、使用、提高印刷質(zhì)量、降低印刷成本等諸多好處。此外,由于對字庫自定義編碼和對文本耦合改造的目的是為古籍善本的字庫級恢復(fù),而非信息傳播,因此多重復(fù)字庫還可有效預(yù)防盜版。
[0008]多重復(fù)字字庫是采用現(xiàn)代計算機技術(shù),改造原本產(chǎn)生于西方拼音文字環(huán)境并只適應(yīng)“橫排右行”的ttf字庫,令其適應(yīng)中國傳統(tǒng)書法文化的同時,還要適應(yīng)現(xiàn)代桌面出版印刷系統(tǒng)。但要想達成用字庫對中文古籍的準(zhǔn)確表現(xiàn),僅用多重復(fù)字字庫技術(shù)還不夠。因為即便達成了多重復(fù)字的存儲與表現(xiàn),現(xiàn)在所有文字編輯工具對“豎排左行”的支持,僅限于用對 “橫排右行”字庫轉(zhuǎn)豎排完成。這種安排本質(zhì)是將適應(yīng)橫排右行的等高字符,一個落一個地 “落”成一列,以此“兼容”豎排。其在ttf中表現(xiàn)為em方陣的縱向疊加。拼音字母高低一致,寬窄不一;可中文書法漢字卻恰恰相反:寬窄一致,高低不一。由于ttf中em方陣縱向固定,無法準(zhǔn)確表現(xiàn)中文書法字符高低不一的樣子,所有高低方向越界的字符圖像都會被上限 (WinAscent)和下限(WinDescent)截掉。所以,要想在編輯工具中達成對傳統(tǒng)中文書法古籍 “豎排左行”漢字高低變化的精確表達,多重復(fù)字字庫技術(shù)須與《CN201410745134-中文豎排古籍、書法專用字庫制作方法》結(jié)合使用,才能對書法古籍做到字庫級完美翻印。
【發(fā)明內(nèi)容】
[0009]在通用字庫ttf (即TrueType,包括OpenType(otf),下同)中,通過對字符碼位的自定義編碼,即,為加入ttf的字符圖像在Unicode合理范圍內(nèi),將同一字符的多個不同藝術(shù)樣式(非異體字)存儲在同一ttf中,制成“多重復(fù)字字庫”。
[0010]制作和使用多重復(fù)字字庫的關(guān)鍵是要對所表達(古籍)的字符圖像和txt文本按照 “含義順序?qū)?yīng)一致”原則:1,順序讀取一個txt文本中的字;2,取得對應(yīng)的字符圖像;3,重新給定碼位并將圖像置入ttf字庫;4,對該txt文檔進行“耦合改造”:令各重復(fù)字與新制ttf中與之對應(yīng)編碼字相一致;改造后的文本,對其適用對應(yīng)的“多重復(fù)字字庫”后,原含義字符圖像不僅原序顯示,且表現(xiàn)出在不同上下文同一字的不同變化造型,從而達到對中文古籍刻本的字庫級再現(xiàn);如用通用字庫顯示,則含義不明。
[0011]通過采用超大字符集GB18030-2005《信息技術(shù)中文編碼字符集》,單個ttf字庫可容納1611668個字以內(nèi)的古籍刻本原著且被通用文字編輯程序支持;如能對重復(fù)量超多的常用字進行樣式分類整理,可容納更長文本。
[0012]采用多重復(fù)字字庫,可“一書一字庫”;多重復(fù)字字庫可容納多個重復(fù)字,容納多字體也不成問題,因此可不必再為同一古籍中不同字體另做字庫。
[0013]還可將二值墨線畫稿制作為字庫的一個“字符”,這對古籍刻本中有插圖著作的翻印也有方便存儲、編輯、使用、提高印刷質(zhì)量、降低印刷成本等好處。
【主權(quán)項】
1.在通用字庫ttf (即TrueType,包括OpenType(otf ),下同)中,通過對字符碼位的自定 義編碼,即,為加入ttf的字符圖像在Unicode合理范圍內(nèi),將同一字符的多個不同藝術(shù)樣式 (非異體字)存儲在同一ttf中,制成“多重復(fù)字字庫”。2.制作和使用多重復(fù)字字庫的關(guān)鍵是要對所表達(古籍)的字符圖像和txt文本按照 “含義順序?qū)?yīng)一致”原則:1,順序讀取一個txt文本中的字;2,取得對應(yīng)的字符圖像;3,重 新給定碼位并將圖像置入ttf字庫;4,對該txt文檔進行“耦合改造”:令各重復(fù)字與新制ttf 中與之對應(yīng)編碼字相一致;改造后的文本,對其適用對應(yīng)的“多重復(fù)字字庫”后,原含義字符 圖像不僅原序顯示,且表現(xiàn)出在不同上下文同一字的不同變化造型,從而達到對中文古籍 刻本的字庫級再現(xiàn);如用通用字庫顯示,則含義不明。3.通過采用超大字符集GB18030-2005《信息技術(shù)中文編碼字符集》,單個ttf字庫可容 納1611668個字以內(nèi)的古籍刻本原著且被通用文字編輯程序支持;如能對重復(fù)量超多的常 用字進行樣式分類整理,可容納更長文本。4.采用多重復(fù)字字庫,可“一書一字庫”;多重復(fù)字字庫可容納多個重復(fù)字,容納多字體 也不成問題,因此可不必再為同一古籍中不同字體另做字庫。5.還可將二值墨線畫稿制作為字庫的一個“字符”,這對古籍刻本中有插圖著作的翻 印也有方便存儲、編輯、使用、提高印刷質(zhì)量、降低印刷成本等好處。
【文檔編號】G06F17/22GK106021204SQ201610403423
【公開日】2016年10月12日
【申請日】2016年6月12日
【發(fā)明人】朱信
【申請人】朱信