專利名稱:中文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉換的制作方法
技術領域:
本發(fā)明涉及一種中文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉換,更具體地說,涉及一種關于中文文字字形、字義、字音、用字范圍的全面完整統(tǒng)一的方案——龔碼(Chinese GONG Code),及中文龔碼、國標碼、大五碼等多種內(nèi)碼之間或同種內(nèi)碼之內(nèi)的單、多向的完整規(guī)范化快速轉換。
現(xiàn)行中文文字形成的語言以北京語言為標準音,以北方話為基礎方言,以典型的現(xiàn)代白話文著作為語法規(guī)范。中文文字在簡化字使用區(qū)稱作漢字(以體現(xiàn)多民族平等的觀念),繁體字使用區(qū)稱作中文字。由此形成的語言在簡化字使用區(qū)稱作漢語,現(xiàn)代漢語的標準語是普通話;繁體字使用區(qū)稱作國語;海外多稱作華語。在日常生活中,無論是華語所屬的漢藏語系,還是目前國際上通行的英語所屬的印歐語系,都未把“文”和“語”分那么清楚。
中文文字從古到今累計的字匯量大約為六萬多個。隨著文化、歷史的演變,有些中文字成了不再使用的“無效字”或極少使用的“罕用字”。目前中國大陸、新加坡等地使用中文簡化字(繁體字使用區(qū)稱之為“簡體字”),主要為國標碼(即GB2312-80,以下同),由中國國家標準總局在1981年公布,以作為全國的中文內(nèi)碼標準。國標碼有6763字(包括3755個常用字和3008個次常用字)和682個符號。中國臺灣、香港和海外華人社會使用中文繁體字,主要為大五碼(即BIG5,以下同),有13053字(包括5394個常用字和7659個次常用字)和408個符號。大五碼1984年由五大臺灣電腦公司共同制定,因而取名“大五碼”?!跋愀墼鲅a字符集”包括4,702個包括了廣州話方言字在內(nèi)的中文字符,配合大五碼的部分字一起使用。繁體字的臺灣用法和香港用法(即便不計廣州話方言字)有一定差異,是繁體字用法中的兩個較大分支。繁體字使用區(qū)通常將國標碼和大五碼之外的廣州話特有方言字叫作香港字。
有較完善的文字規(guī)范,能獨立形成正式公開出版品的較為完善的文字內(nèi)碼體系為單一內(nèi)碼,如國標碼、大五碼和本發(fā)明的龔碼基本字符集。繁體字的香港用法也可視為單一內(nèi)碼。包括兩種以上單一內(nèi)碼的為綜合內(nèi)碼,如國際碼Unicode,國標碼擴展字符集GBK(包括21886個字符),大五碼擴展字符集BIG5+(包括51585個字符)。以上GBK和BIG5+兩種擴展字符集(因與原單一內(nèi)碼的編碼方式不同,且并非只包括擴展延伸部分,應稱作綜合字符集),都包括簡繁中文字、香港增補字和日、韓文字。以下如無特別注明,均指單一內(nèi)碼。
與本發(fā)明有關的中文文字的現(xiàn)行規(guī)范為1.文字使用者若選用某種中文文字單一內(nèi)碼,用字不應超出這一內(nèi)碼的范圍(少數(shù)使用方言字的特殊情況除外),除非由編碼制定者向原單一內(nèi)碼中系統(tǒng)性加字。不應“缺字”(字與字之間出現(xiàn)非正常的空白)、“借字”(向另一內(nèi)碼“借”)、“多字代一字”(用幾個字來代替某一個字)或“自造新字”。
2.按嚴謹?shù)奈淖忠?guī)范,某種單一文字內(nèi)碼的所有正式公開形成品(如圖書、報刊、網(wǎng)頁、軟件等)都應遵從這一內(nèi)碼的同一用字規(guī)范和習慣,不可以“多種單一內(nèi)碼混用”。
3.若不能達到以上標準,按寬泛的文字規(guī)范,某種單一文字內(nèi)碼的所有正式公開形成品(如圖書、報刊、網(wǎng)頁、軟件、多媒體等)都應遵從其用字規(guī)范和習慣的無選擇和無爭議部分。某種單一文字內(nèi)碼的同一正式公開形成品(如同一份報刊、同一家國際互聯(lián)網(wǎng)的網(wǎng)頁等)應遵從自“可選擇和有爭議部分”中選定的標準和習慣。目前繁體字的使用基本上是按照這一標準。
如簡化字的“證”對應繁體字的“證、証”,“證”與“証”沒有任何字義上的差別,屬于“可選擇”用字。如果一家繁體中文報紙選擇用“證”,那麼該報紙中出現(xiàn)的所有這個字都要用“證”,而不能用“証”。不可以前面一篇文章用“證據(jù)”,后面一則廣告用“証據(jù)”。更不可以出現(xiàn)“事實証明他原來的求證是錯誤的”或“在臺協(xié)會於臺北”這樣的字句。
4.一種轉換方法,在何種有關聯(lián)的內(nèi)碼之間、或何種綜合內(nèi)碼之內(nèi)轉換,轉換結果用何種有關聯(lián)的內(nèi)碼顯示、輸出都沒關系,但一定要與目的單一內(nèi)碼的文字規(guī)范、文字使用習慣和用字范圍嚴格映射。
如中文字的轉換,既可在國標與龔碼、大五與龔碼、國標與大五之間,或單一內(nèi)碼與Unicode、GBK或BIG5+之間,也可在以上某一綜合內(nèi)碼之內(nèi)。轉換結果的顯示或輸出可用目的單一內(nèi)碼,也可用以上有關聯(lián)的綜合內(nèi)碼。但轉為大五碼繁體字的結果要與大五碼的規(guī)范、習慣、用字范圍映射,轉為國標碼簡化字的結果要與國標碼的規(guī)范、習慣、用字范圍映射。
以下是中文簡化字和繁體字統(tǒng)一或轉換方面所存在的一些問題1.一種中文內(nèi)碼的一個字有時對應另一種中文內(nèi)碼中的多個字(一對多)(1)“同一字義”一對多如簡化字的“機”所對應的繁體字的“機、機”。這種“一義多字共用”的現(xiàn)象在繁體字中較為普遍,且現(xiàn)行中文文字工具書和中文文字轉換方法并未以系統(tǒng)規(guī)范的方法解決這一“不規(guī)范”的問題。
(2)“不同字義”一對多如簡化字的“制”所對應的繁體字的“製、制”;繁體字的“乾”所對應的簡化字的“乾、干”。繁體字對于人稱用字字義的劃分較細,如第二人稱用字,若為男性或不知道對方性別時用“你”,若為女性用“妳”。第三人稱用字,若為人以外的動物用“牠”,非動物用“它”?!皧叀弊衷诜斌w字使用區(qū)內(nèi)的面向女性的雜志中特定字頻相對較高。作“別的”義解時簡化字將“其他”與“其它”分開,后者專用于事務(也可通用)。繁體字則只使用了“其他”。簡化字的三個常用助詞用字“的、地、得”,部分繁體字工具書只使用了“的、得”?!坝迷谠~或詞組后表明副詞性”時,繁體字大多使用“的”。
(3)“有爭議字條”一對多如簡化字的“游”對應繁體字的“遊、游”,“遊”與“游”有字義上的差別。“游”的字義①在水里行動。②江河的一段。③姓?!斑[”的字義①閑逛,從容地行走。②交友往還。但關于“不固定的”這一字義,不同的中文字典或詞典就有不同的解釋,在這一義項下屬于有爭議用字。
“同一字義一對多”與“有爭議字條一對多”的區(qū)別是,前者不存在字義的歸屬問題,而后者存在。
(4)“復雜狀況”一對多一種中文內(nèi)碼的一個字有時對應另一種中文內(nèi)碼中或不同地區(qū)的“不同字義”或“同一字義”的多個字。如簡化字的“臺”所對應的繁體字的“臺、臺、檯、枱、颱”。其中“颱”為單一義項,而“臺、臺”、“檯、枱”在某些條目下是同一字義。
2.一種中文內(nèi)碼的某些字,有時在另一種中文內(nèi)碼中并無“字”可以對應,也就是說,使用“字轉字”的方式并不能作到“全面的、完整的”轉換。國標碼有二百多個字不能轉為大五碼的“字”;大五碼約有四千多字不能轉為國標碼的“字”。如以“魚”作部首并與“魚”有關聯(lián)的字,國標碼有七十多字,大五碼有一百六十多字。其中國標碼有十幾個、大五碼則有一百零幾個“魚”部的字不能轉為另一內(nèi)碼的“字”。僅化學用字一項,國標碼的二百零幾個字就有四十多個字不能轉為大五碼(某些化學用字大五碼有不同的用字和讀音)。不能轉換的字中并不全是“無效字”和“罕用字”。這就是有時在某些中文國際互聯(lián)網(wǎng)(國際計算機網(wǎng)絡)或報紙上造成“缺字”的部分原因。
3.中文繁體字的規(guī)范和習慣較為復雜,如同為地名,可以用作“臺南”卻不可以用作“臺州”;繁體字的使用現(xiàn)狀較為混亂、失控,有的自立標準、自造新字。由于把握不住中文繁體字的規(guī)范和習慣,有的干脆選筆畫最多的字用。如“皇後街的範先生喜歡人雲(yún)亦雲(yún)”,規(guī)范的用法應為“皇后街的范先生喜歡人云亦云”。如“祗有他是喫過飯纔來的”,習慣的用法應為“只有他是吃過飯才來的”。再如譯名“尼克鬆、斯裹蘭卡”,繁體字有專用翻譯用字,規(guī)范的用法應為“尼克松、斯里蘭卡”。
4.以某種單一內(nèi)碼為基礎形成的中文文字工具書(字典、詞典、辭海等),對另一內(nèi)碼無解釋或解釋不完備。繁體字的工具書一般對簡化字不作解釋,將繁體字稱作“正體字”,其他則為“非正體字”。簡化字的工具書將繁體字作為“異體字”解釋,收錄了一些繁體字使用區(qū)已沒使用、大五碼也沒收錄的“無效字”;收錄了部分正在使用的繁體字,但某些解釋與現(xiàn)行繁體字的規(guī)范和習慣不符。
5.以某種單一內(nèi)碼為基礎形成的常用中文文字工具書(字典、詞典等),對該種內(nèi)碼的解釋并不完備或字義界定不夠嚴謹。如大五碼的常用字典不能查全部大五碼的字,國標碼的常用字典也不能查全部國標碼的字。1981年公布的國標碼只有六千多字,2001年出版的《新華字典》收錄了超過一萬字,國標碼的“舭楱砩搿猓蚵虺嚌弳堀榪坶鼽肜艉葙枵崾”等字卻未被《新華字典》收錄。再如“馀”,簡化字常用工具書解釋為已簡化為“余”,用“余”意義可能混淆時,用“馀”,如“馀年無多”。何種情況下可能混淆,何種情況下不可能混淆?文字使用者很難在每一次用“余”時,斟酌是否該用“馀”,是否會混淆。
6.綜合、擴展字符集推出的目的是為了提供方便,讓使用者不會為了缺字而煩惱。但由于一種內(nèi)碼使用區(qū)的使用者對另一內(nèi)碼的文字規(guī)范了解不多,出現(xiàn)了“簡繁混用、多內(nèi)碼混用”的現(xiàn)象,且有逐漸增多的趨勢。簡化字使用區(qū)制作出版的繁體字報刊、國際互聯(lián)網(wǎng)頁的用字有相當一部分不符合現(xiàn)行繁體字的規(guī)范和習慣,繁體字使用區(qū)稱這種用字為“大陸繁體字”。由于沒有嚴格界定基本字符集與綜合字符集的功能作用差別,面向同一使用區(qū)內(nèi)的出版品出現(xiàn)了向綜合字符集“借字”并同原相關字混用的現(xiàn)象。如簡化字的出版品,出現(xiàn)“貳、弍”等字混用的情況,按字頻方向值有增多趨勢。
7.同一個繁體中文字,有時在臺灣用法與香港用法中使用不同的字形,如臺灣許多出版品使用的“村檯床妝夠衛(wèi)峰群略繡既憑韭”,香港則大多用作大五碼并未包括的“邨枱牀粧夠衞峯羣畧綉旣凴韮”。
8.簡化字使用區(qū)和繁體字使用區(qū)在多種領域、多種行業(yè)的用詞、用語方面有差異,如簡化字用“計算機、網(wǎng)絡、圖像、素質(zhì)、奮斗、抵制、訓斥”,繁體字用“電腦、網(wǎng)路、影像、質(zhì)素、打拼、杯葛、申誡”。有些專業(yè)用詞、用語的不同也與譯名不同有關。簡化字使用區(qū)意譯較多,如“激光、維生素、保險、草莓”;繁體字使用區(qū)音譯較多,如“鐳射、維他命、燕梳、士多啤梨”。另外,漢語語法與國語文法,標點符號用法,親族師友、中外貨幣、度量衡、歷史年表的稱謂等,也都有很大差異。
9.同一個中文字,有時在國標碼簡化字與大五碼繁體字中的讀音不一樣,甚而有復雜的對應關系。例如以漢語拼音標注的繁體字的字音什shé,shí,shén;馮píng,féng;和hàn,hú,huo,huò,hé,hè;瞿jǜ,qǖ,qǘ;艘sāo,sōu;潦lǎo,lào,liáo;沈chén,shěn;啞è,yǎ,y?。慧赾hóu,zùn,zhèn;癌yán,ái;宿xiǔ,sù。由于繁體字使用區(qū)將人地山河名譯成拉丁字母(譯出)時,采用的標準與漢語拼音不同;外文名稱譯成中文(譯進)時簡繁使用區(qū)的譯名法也不同,因而目前簡繁使用區(qū)的譯進、譯出都有差異。
10.對中文字的統(tǒng)計、研究、分析、處理所采用的技術,還處于“跟著感覺走”的階段,缺乏現(xiàn)代化的方法,不能利用計算機進行“定量分析”,趕不上信息時代科技快速發(fā)展的需要,也同時導致了對中文文字統(tǒng)一方面的多種觀點和復雜的爭議。
由于中文文字不統(tǒng)一,中文用字范圍和文字規(guī)范不科學甚至失控,不僅母語為非中文的學習者、海外華裔青少年覺得中文字多、規(guī)范復雜難學,就連中文使用區(qū)內(nèi)的母語為中文的學習和使用者,也認為許多中文字一輩子也用不上。海外的許多華人子女本來就認為中文難學,家長們?yōu)榱耸购⒆永^承中國文化,出錢讓小孩周末去學中文,而有的中文學校卻為采用簡化字的教材還是繁體字的教材發(fā)生爭執(zhí)。
目前中文文字的不統(tǒng)一狀況,已導致文字層面以外的問題。簡化字使用者把名字“勁松”寫成繁體字“勁鬆”,按繁體字字義是玩笑話題。把“占小姐”寫成“佔小姐”產(chǎn)生歧義導致對方生氣,而寫者不知氣從何來。一份電腦雜志中有文章寫道“這軟體不錯,可惜用的是大陸繁體字。他們的字與我們的字不同。”中文文字的不統(tǒng)一狀況,不僅導致中文文字使用方面的混亂和不規(guī)范現(xiàn)象,海峽兩岸交流的不便,造成許多人力、物力、財力的浪費,也嚴重阻礙了中文走向國際。
本發(fā)明的目的是提供一種科學的可行性高、易于推廣的方案,在充分尊重現(xiàn)有各種中文單一內(nèi)碼使用規(guī)范和習慣的基礎上,以現(xiàn)代化的篩選、整合、變通、規(guī)范及創(chuàng)新處理方法,實現(xiàn)中文文字的字形、字義、字音、用字范圍的全面完整統(tǒng)一;及在有必要轉換時,實現(xiàn)中文龔碼、國標碼、大五碼等多種內(nèi)碼之間或同種內(nèi)碼之內(nèi)的單、多向的完整規(guī)范化快速轉換。
為了解決以上中文文字全面完整統(tǒng)一和內(nèi)碼規(guī)范轉換所遇上的各種問題,便于計算機“智能”統(tǒng)計、研究、分析,高效、快速處理中文字信息,使統(tǒng)一方案和必要的轉換得到科學的完整的規(guī)范化的結果,本發(fā)明創(chuàng)造了“綜合字頻、詞頻”、“字頻、詞頻方向值”和“合理最簡詞”等概念。以下若無特別說明,“龔碼的選字”指“龔碼基本字符集的選字”。
1.特定字頻、詞頻根據(jù)對某一單位時間段的出版品的統(tǒng)計,某一個字出現(xiàn)的次數(shù)除以總字數(shù)后得到的百分比結果。也可根據(jù)需要對特定字義或字音條目下的用字,以相關詞組或短語搭配等方式,統(tǒng)計出特定條件下某一個字出現(xiàn)的次數(shù),從而計算出特定字頻、詞頻。特定字頻、詞頻及綜合字頻、詞頻可比較不同字詞的使用頻度。在計算機中用字頻、詞頻軟件來統(tǒng)計快速、方便、準確,但所統(tǒng)計文字的字形、字音一定要與既定時間的既定出版品嚴格吻合。比如統(tǒng)計二十世紀三十年代的平面出版品,用OCR光學識別等方式轉為文本文件,原出版品中用“纔”的,就不能用“才”來作統(tǒng)計。已有的計算機檔案也要與原出版品比對校正。網(wǎng)頁等電子出版品除非與原平面出版品嚴格相符,否則只可作為現(xiàn)時的統(tǒng)計結果。對不同地區(qū)、不同領域的不同形式的出版品所作的統(tǒng)計,得出的字頻、詞頻結果會有不同。
如現(xiàn)時的中文繁體字字頻分地區(qū)統(tǒng)計結果“周”字——香港為0.0289%,臺灣為0.0190%?!斑L”字——香港0.0057%,臺灣0.0103%。據(jù)此可知,“周”字在香港的使用頻率高過臺灣,而“週”字在臺灣的使用頻率高過香港。
2.綜合字頻、詞頻根據(jù)對某一單位時間段的不同地區(qū)、不同領域的不同形式的出版品,綜合統(tǒng)計得出的較全面的字頻、詞頻百分比結果,可校正地區(qū)、領域、出版形式等偏差。但特定字頻、詞頻進行字頻、詞頻比較時有特定的用途。例如二十世紀九十年代的繁體字綜合字頻、詞頻,包括1990年1月1日至1999年12月31日之間,香港、臺灣和海外的新聞、政治、財經(jīng)、教育、文化、藝術、法律、科技、娛樂、旅游等領域的中文繁體字圖書、報刊、國際互聯(lián)網(wǎng)等出版品綜合統(tǒng)計結果。由于古籍書、古字典、古詞典和文字專家學者的學術文章等涉及用字范圍太廣,會導致綜合字頻、詞頻的統(tǒng)計結果出現(xiàn)非正常偏差,故不納入統(tǒng)計。早期的統(tǒng)計因電子出版品尚未出現(xiàn),只有平面出版品。
當一種內(nèi)碼的字與另一種內(nèi)碼的字并不是一一對應,而需要進行比較或共同納入特定字頻、詞頻或綜合字頻、詞頻時,根據(jù)“字義或詞義的分開與合并”計算頻度。如國標碼的“制”對應大五碼的“製、制”,若綜合字頻的統(tǒng)計中按大五碼的“製、制”兩個字分開統(tǒng)計,則國標碼的“制”按以上兩字的字義分開統(tǒng)計納入。
龔碼收錄根據(jù)綜合字頻確認的常用字和次常用字。原中文單一內(nèi)碼中,同一字義有多個字時,如果一個字的現(xiàn)時綜合字頻明顯高于其他字,龔碼選擇綜合字頻明顯較高的一個字。如“吃”的現(xiàn)時綜合字頻為0.0586%,“喫”為0.0060%,故龔碼選用“吃”而不用“喫”。
當內(nèi)碼轉換中涉及到不同字義的“一對多”有爭議條目,或同一字義的“一對多”時,如果一個字的現(xiàn)時綜合字頻明顯高于其他字,第一步“轉字”時選擇轉換為其中綜合字頻較高的一個字。如在“游”字作“不固定的”字義解釋時,轉為此義項下綜合字頻為0.0047%的“游”而不用0.0028%的“遊”。
3.字頻、詞頻演變曲線圖以一些連續(xù)時間段的特定或綜合字頻、詞頻數(shù)據(jù)為縱座標,以時間段為橫座標,所繪制出的曲線圖(可用Excel等軟件),可直觀地觀察或比較字頻、詞頻的演變狀況。據(jù)字頻演變曲線圖比較可知,在簡化字使用區(qū)推行簡化字后的一定時間段,繁體字使用區(qū)的用字向“繁”的方向轉化,原本字頻較低但在同時使用的某些筆畫較少的字,如“復、機、圣、網(wǎng)”等字,后來索性成了“閑字”(閑著不用的字)。
4.字頻、詞頻方向值用某一單位時間段的特定或綜合字頻、詞頻,除以該字前一單位時間段的特定或綜合字頻、詞頻,即為該單位時間段的字頻、詞頻方向值。通過字頻、詞頻方向值,可準確分析字頻、詞頻發(fā)展的方向和演變速率;也可比較相同時段不同字的字頻、詞頻方向值,比較字頻、詞頻的演變方向和演變速率。當字頻、詞頻方向值大于1時,說明該字詞的使用頻度在增大;數(shù)值越大就說明增大的速率越快。當字頻、詞頻方向值小于1時,說明該字詞的使用頻度在減??;數(shù)值越小就說明減小的速率越快。
5.字頻、詞頻方向曲線圖以一些連續(xù)時間段的特定字頻、詞頻方向值數(shù)據(jù)為縱座標,以時間段為橫座標,所繪制出的曲線圖。可直觀地觀察或比較字頻、詞頻的演變方向和演變速率。
6.字頻、詞頻方向平均值把相鄰幾個單位時間段的字頻、詞頻方向值平均,即為字頻、詞頻方向平均值??尚U龝r間偏差。比較不同的字,所取相鄰的單位時間段應相同,從而比較出字頻、詞頻的發(fā)展方向平均值高低。
以最近四十年每十年為時間段,據(jù)繁體字的綜合字頻算出的字頻方向平均值(后述均按此定義),“證”為1.1069,“証”0.8434;“閒”1.1375,“閑”0.8107。由字頻方向平均值可知,在這四十年中,簡化字“證”所對應的繁體字在向“證”發(fā)展,“閑”在向“閒”發(fā)展,后者的發(fā)展速度快于前者。因而龔碼選用“閑·閒、證·證”,龔碼繁形字未選用“閑、証”。
當內(nèi)碼轉換中涉及到不同字義的“一對多”有爭議條目,或同一字義的“一對多”時,如果對應的幾個字的現(xiàn)時綜合字頻較為接近,第一步“轉字”時轉換為字頻方向平均值較高的一個字。
7.字頻、詞頻預測值用現(xiàn)時的特定字頻、詞頻或綜合字頻、詞頻的數(shù)據(jù),乘以字頻、詞頻方向平均值,即為對下一個時間段的字頻、詞頻預測。如某字的現(xiàn)時綜合字頻為0.0250%,十年時間段的字頻方向平均值為1.1500,未來十年的綜合字頻預測值即為0.0250%×1.1400=0.0285%。由于影響字頻、詞頻變化的因素較復雜,此預測值只可作為參考。
需要說明的是,本發(fā)明旨在探討科學的解決方法。以上多項涉及到的數(shù)據(jù),不同的統(tǒng)計范圍或統(tǒng)計資料,會導致不同的統(tǒng)計結果。但從理論上說,盡管是不同的統(tǒng)計,其范圍越廣,資料越多,結果的差距就會越小。
8.合理對應字當利用龔碼輸入或從其他內(nèi)碼轉換為龔碼時,若龔碼中沒有對應字,輸入或轉換為龔碼的“合理對應字”。合理對應字須符合“字義、字音、字形等關聯(lián)性最強、最合理、無歧義”的原則。
如龔碼沒有收錄的其他幾種中文單一內(nèi)碼(國標碼、大五碼等)的用字,在《龔碼字典》中釋義并給出“合理對應字”的指引。如大五碼的“諆”,龔碼中沒有這個字,根據(jù)以上原則用作龔碼中的合理對應字“欺”。
在異種內(nèi)碼轉換中也按此處理。即當來源碼的“字”不能轉為目的碼的“字”(不能“字轉字”),即目的碼“無字對應”時,或原有的轉換中對應不合理時,用目的碼的“合理對應字”與之對應。若還有其他字義,可在第二步的目的碼環(huán)境中用轉詞的方法校正。如果來源碼的“詞”對應目的碼的“字”,本發(fā)明用先“字轉字”、后“詞轉字”的方法解決。如國標轉大五時,“英寸”對應“時”,先將來源碼的“英→英、寸→寸”;然后在目的碼的環(huán)境中,將“英寸→時”。
9.合理最簡詞當利用龔碼輸入或從其他內(nèi)碼轉換為龔碼時,若龔碼中沒有“合理對應字”時,本發(fā)明用龔碼的“合理最簡詞”與之對應。合理最簡詞應符合“最少用字、通俗易懂、嚴謹合理、無歧義”的原則。對于龔碼未收錄的名稱用字,按其他習慣名稱;無其他習慣名稱者采用“義音形最接近字+特征尾字”的方法解決,特征尾字可為“花草樹木鳥蟲魚石”等。如“鷷、櫹”等綜合字頻很低的罕用字,龔碼未收錄,用作“尊鳥、蕭樹”。
即當來源碼的“字”不能轉為目的碼的“合理對應字”時,本發(fā)明用目的碼的“合理最簡詞”與之對應。如大五碼的“這條鱵約長1呎2吋”,原有的轉換方案因某些字“無字可轉”,在國標碼中會成為“這條□約長1□2□”(□代表缺字)。按本發(fā)明的“合理最簡詞”解決方案,可轉為國標碼的“這條針魚約長1英尺2英寸”。按中文的習慣,“魚”部的一些字可單用,也可與“魚”字搭配使用,二者表達同一意思,如“鯊、鯊魚,鱷、鱷魚,鱘、鱘魚”。如果前述大五碼例句中為“鱵魚”,轉成國標碼后會成為“針魚魚”。為了避免這類問題,在“魚”字條第二行下邊增加一個“魚魚→魚”的轉換。
一、中文文字統(tǒng)一方案——龔碼(Chinese GONG Code)總體構思中文字(包括簡化字和繁體字)是中華民族的寶貴文化遺產(chǎn)。但由于種種原因,在國際語言文字的競爭中,中文目前處于未被“公平對待”的地位。據(jù)有關統(tǒng)計,中文文字在聯(lián)合國原始文件中的使用量還不到1%(英語占80%,法語占15%,西班牙語占4%,俄語、中文和阿拉伯語合計為1%);而華人的人口約占世界的20%。現(xiàn)在隨著兩岸相繼加入WTO等因素,某些方面出現(xiàn)了轉機。有外國人說,二十一世紀將是中國人的世紀。大中華經(jīng)濟圈的逐步形成及經(jīng)濟起飛態(tài)勢,吸引了整個世界的目光。有鑒于此,中文如果能用現(xiàn)代化的科學方法重新篩選、整合、變通、規(guī)范及創(chuàng)新處理,在此基礎上早日達到用字范圍、字形、字義、字音等方面的全面完整統(tǒng)一,則不僅中國人易學易用,實現(xiàn)兩岸三地及海外華人古老而又新鮮的“書同文、語同音”的夢想,讓我們的子孫后代不再為中文文字的不統(tǒng)一而困擾和不便,使我們古老的中文字更為完美統(tǒng)一地承傳久遠;同時也有助于加快中文走向國際的步伐,早日與國際語言文字全面接軌。
中文文字達到何種標準才算統(tǒng)一?不同的人可能會有不同的看法。有人說,簡化字使用區(qū)當初簡化字形、字義合并有許多改得不科學、不合理,不然也不會頻繁調(diào)整用字范圍、字形和字詞釋義;而現(xiàn)在電腦處理文字的比重日益增加,筆畫的多少已不是問題,大部分簡化字都應當改回去。有人說,繁體字的罕用字、無效字、同義字太多,字的筆畫多孩子們學起來難度大;中文字的簡化是趨勢,就連現(xiàn)在筆畫多的簡化字也還需要再簡化;繁體字使用者沒多少人把那1萬3千多個字的字義搞清楚并且全部用上過。一萬位中文文字專家學者和熱心人士,可以提出一萬種統(tǒng)一方案。由于以上及其他的種種原因,不管是以現(xiàn)行的簡化字還是繁體字,要求所有中文使用者采用都會有相當大的難度。
既然中文文字的統(tǒng)一勢在必行,而大幅度的改動又不現(xiàn)實,那么不妨改變一種思維方式。如果簡化字和繁體字的文字使用者都使用已習慣的用字范圍,以科學、量化、創(chuàng)新的方式使每一個簡形字與其對應的一個繁形字在同一義項下都具有相同的字義和字音(包括聲調(diào)),并同屬一個內(nèi)碼,那么中文字也就統(tǒng)一了(相當于內(nèi)碼相同、字體不同)。也就是說,無論是將“一對多”精簡為“一對一”,還是將“一對多”整合為多個“一對一”,總之要將簡化字和繁體字之間復雜的“一對多”全部調(diào)整為“一對一”?,F(xiàn)階段簡繁字形不一致并不是問題,繁體字的字形保留了中文字的藝術外形,簡化字的字形迎合了現(xiàn)代人的生活節(jié)奏,不如順其自然,讓二者優(yōu)勢互補。因而中文文字統(tǒng)一需要解決的三大問題是1.科學調(diào)整、界定用字范圍;2.將簡化字與繁體字之間的“一對多”在必要合理的原則下全部調(diào)整為“一對一”;3.調(diào)整其他不統(tǒng)一和不合理的方面(字形、字義、字音及用詞、用語等)。
從歷史上看,文字的發(fā)展總是向著阻力最小的方向。為了充分尊重現(xiàn)行中文簡化字和繁體字使用區(qū)的文字使用者的習慣,減小文字統(tǒng)一方案的推廣難度,龔碼的每一個文字內(nèi)碼都有一個簡形字和一個繁形字(部分字同形),這兩個字在同一義項下有完全相同的字義和字音(包括聲調(diào))。龔碼簡形字相對于國標碼簡化字,繁形字相對于大五碼繁體字,都盡量作最少的字形變動。字義與字音也是在“必要”(如原簡繁單一內(nèi)碼之間不一致)時才作“合理”的調(diào)整。龔碼用字的準則,是從綜合字詞頻、字詞頻方向平均值、組詞能力、字義、姓氏和人地山河名因素等五個方面進行篩選、整合、變通、規(guī)范及創(chuàng)新處理。
(一)科學調(diào)整、界定用字范圍1.對于翻印古籍書或文字專家學者的學術文章,用字范圍可無限大(如考古學家不斷在發(fā)現(xiàn)新的中文字)。但對于絕大部分中文文字使用者卻無必要。一種中文內(nèi)碼沒有必要因為有一千萬種物質(zhì)存在,就造一千萬個中文字出來。十幾億中國人每人造一個字出來,學中文的人便一輩子也學不完。根據(jù)中文文字使用區(qū)內(nèi)各種單一內(nèi)碼的現(xiàn)狀,及現(xiàn)行中文文字規(guī)范和習慣,龔碼基本集選字的最大范圍為國標碼、大五碼,并參考香港增補字符集。
2.若不涉及原簡繁單一內(nèi)碼一對多問題,根據(jù)綜合字詞頻確認的常用字、次常用字全部收錄;罕用字根據(jù)綜合字詞頻、字詞頻方向平均值、組詞能力、字義、姓氏和人地山河名因素等選擇性收錄;無效字不收錄?,F(xiàn)時尚在使用的姓氏用字、縣以上地名用字、中醫(yī)藥用字、科技專用字(如化學元素周期表和有機化學用字)盡量全部收錄;酌情收錄影響較大、使用較廣的特殊古文(如較出名的文言文、古典小說、詩詞曲)用字和成語用字;酌情收錄較常用而有特定字義的香港字。
3.特定范圍用字龔碼選擇性收錄了在某些特定范圍中較常使用,而綜合字頻、詞頻不高的字,如兒童讀物用字“咻、咦、咩、哞、喵、呦、啾”等。
4.未收錄字及后續(xù)必要補字的處理對于目前使用較廣的幾種中文單一內(nèi)碼(如國標碼、大五碼、香港增補字符集等)中有,而龔碼未收錄的字,將在《龔碼字典》中釋義并按照“合理對應字、合理最簡詞”的方案給出與龔碼的對應用字指引。對于龔碼基本字符集功能范圍內(nèi)將來有可能會遇上的極少數(shù)的必要補字,通過向基本字符集的備用碼位加字解決,而不是向擴充字符集“借字”,以免兩種字符集混用。對于大部分人讀得到而用不到的古文和其他用字,如果有收錄必要,將收進龔碼擴充字符集中。
(二)“一對多”全部調(diào)整為“一對一”由于中文文字過于復雜,在不同的時期,不同的工具書對于中文字的“字義”有不同的解釋(如十二月可稱“涂月”,“閒”曾與“間”通用,“璽”原泛指印信而秦朝后專指皇帝印信等),本發(fā)明中提及的“字義”,若無特別說明,系按現(xiàn)行簡繁體字使用區(qū)的大部分中文工具書的解釋。
1.同一字義(包括同一義項下)有多個字時,如果一個字的現(xiàn)時綜合字頻、詞頻明顯高于其他字,選擇這個綜合字頻、詞頻較高的字。如果這幾個字的現(xiàn)時綜合字頻、詞頻較為接近,選擇字頻、詞頻方向平均值較高的一個字。如龔碼繁形字選擇了“暗才鏟吃僱機鑑考臘裡炮確聖閒網(wǎng)繡藥證”,未收錄“闇纔剷喫雇機鑒攷臘裹砲確圣閑網(wǎng)綉葯証”。對于極少數(shù)字頻、詞頻較高的人地山河名、生意行號用字,如“毓塭邨”等字,雖與“育塘村”同一字義,也酌情收錄。
2.不同字義(或義項下)有多個字時,如果除了綜合字頻、詞頻和字頻、詞頻方向平均值較高的一個字,其他字雖另有字義,但綜合字頻、詞頻和字頻、詞頻方向平均值明顯較低,且組詞能力有限,只收錄前者。如龔碼繁形字選擇了“抱並草叉冬拐昆侖秋千纖兔”,未收錄“菢并騲扠鼕柺崑崙鞦韆縴菟”。對于未收錄的字,盡量做到有理據(jù)或出處。如“鞦韆”一詞,宋朝張有的《聯(lián)錦字》謂“高無際作《鞦韆賦序》云‘漢武帝後庭之戲也?!驹魄?,祝壽之詞也,語譌轉為鞦韆?!?.不同字義(或義項下)有多個字時,如果除了綜合字頻、詞頻和字頻、詞頻方向平均值較高的一個字,還有其他字的綜合字頻、詞頻和字頻、詞頻方向平均值也較高,組詞能力較強,若選用能有助于使字義的表述更明確,龔碼便選用該字。如大五碼的“參”對應國標碼的“叁參”。大五碼中其他中文大寫數(shù)字都有近于專用的字,唯獨沒有“叁”,因而龔碼在繁形字中收錄了該字。另如“著”與“著”按簡化字將字義分開更好。
再如國標碼的“制”對應大五碼的“制製”兩個常用字?!斑@種編制不好”和“這種編製不好”有不同的意思,前者可能指“單位人員配備不合理”,后者可能指“某種文件、報表之類的制作不完善”,兩個字分開使用字義更明確。另如“他背著弟弟”與“他揹著弟弟”也有不同意思。
為使字義的表述更明確,龔碼繁形字同時選擇了“采採、沖衝、斗鬥、發(fā)髮、復複、徑逕、面麵、松鬆、占佔”等字。
4.有時國標碼與大五碼之間的多個字有復雜的對應關系,需按“必要合理”的原則進行復雜調(diào)整。如簡化字的“臺”對應繁體字的“臺、臺、檯、枱、颱”。其中“臺、臺”在“高平建筑物、器物座、量詞、臺灣省”幾個條目下是同一字義;“檯、枱”作“桌子,案子”解釋時為同一字義,后一字大五碼沒有,是繁體字的香港用法;作“太平洋西部上空暴風”解釋時用“颱”。在以上關于“臺、臺”的幾個選擇性的義項中,現(xiàn)時繁體字綜合字頻“臺”為0.0894%,“臺”為0.0513%;字頻方向平均值“臺”為1.6978,“臺”為0.925。不管是現(xiàn)時的使用頻度,還是字頻的發(fā)展趨勢,選擇“臺”字更合現(xiàn)時繁體字使用者的習慣?!帮U”為次常用字,龔碼簡形字用作“颱”。“檯、枱”也是次常用字,因龔碼未收錄“臺”,這一字義按“字形合理對應”原則選繁體字香港用法的“枱”。至此將原來簡化字與繁體字的“一對五”,調(diào)整為龔碼簡形與繁形的三個“一對一”。
再如國標碼的“干、乾”與大五碼的“幹、乾、干”具有復雜的對應關系。大五碼中這三個字的字頻都比較高,繁體字綜合字頻“乾0.01658%,幹0.01323%,干0.01204%”。大五碼例句“‘你幹了沒有 ’‘現(xiàn)在還不想幹?!畮植粠譄o所謂囉!’”與“‘你乾了沒有 ’‘現(xiàn)在還不想乾?!磺瑹o所謂囉!”’可大致推斷出前者意思為“那活兒(或那件事)你幹了沒有”,后者為“那杯酒(或飲料)你乾了沒有”,意思較為明確。因而龔碼收錄這三個字,并按大五碼分配字義。
5.特殊情況處理。
香港的出版品中使用了一些香港字(廣州話方言字)。這些字一部分是國標碼和大五碼中已有的,如“冇乜唔諗佢靚咭畀咩嗲係孖咪嘥嘜”等字,在廣州話中部分字音或字義有了變化。一部分是國標碼和大五碼中沒有的,如“咗嗰啲哋嚟嘢喺 冚冧 瞓凼劏 咁嘅噃啝埗摼曱甴 ”等字。雖然在廣州話方言的口語中涉及到的香港字較多,但扣除“一義多字共用”的因素,見諸于出版品的國標碼和大五碼之外的香港字只有一百多字(其中幾十個字較常用),且部分字有用近義、近音、近形字替代的趨勢,如“喺埗”用“係埠”替代。因香港字中以“口”作偏旁較多,使用較多的替代方式就是直接去掉口字旁。龔碼收錄了見諸于出版品的較常用香港字;對于未收錄的香港字,《龔碼字典》將給出根據(jù)香港出版品的通行作法制訂的替代用字指引。
簡繁體字使用區(qū)有不同的化學用字。如化學元素周期表中簡化字的“硅、锝、鐿、镥、砹、鈁、镎、鈽、镅、锫、锎、锿”,繁體字臺灣用法為“矽、鎝、鐿、鎦、砈、鍅、錼、鈽、鋂、鉳、鉲、鑀”,繁體字香港用法則同簡化字,類推“繁化”為相應的繁體字使用。綜合考量,龔碼對于化學元素周期表用字按簡化字。
(三)調(diào)整其他有爭議、矛盾或不一致之處1.字義對于有爭議或矛盾的字義條,龔碼采用“客觀對待、避免爭議”的方法處理。如中文數(shù)字“式”,簡化字解釋為“同大寫中文數(shù)字貳”(《新華字典》),繁體字解釋為“同小寫中文數(shù)字二”(《新編中國辭典》)。龔碼并未收此字,在龔碼字典中解釋為“中文數(shù)字。在龔碼大寫中文數(shù)字中用作‘貳’,小寫中文數(shù)字中用作‘二’”。化學元素周期表第14號元素,簡化字用作“硅”,繁體字臺灣用法為“矽”,國標碼和大五碼都收有這兩個字。但在簡化字中,“硅”為正式名稱,“‘矽’為‘硅’的舊稱”(《現(xiàn)代漢語詞典》);大五碼恰恰相反,“矽”為正式名稱,“‘硅’為‘矽’的舊譯”(《國語辭典》)。美國的Silicon Valley,簡化字譯作“硅谷”,繁體字臺灣用法則稱“矽谷”。但對于職業(yè)病silicosis一詞的翻譯,簡化字仍沿用舊稱“矽肺”。龔碼將“矽”字同時收錄。再如“慊”字,既有“滿足、滿意”的義項,又有“不滿足、不滿意”的義項,此字因屬罕用字龔碼沒有收錄。此類字收錄時也只可選用矛盾義項中使用頻度較高者。在異種內(nèi)碼轉換中也按此辦法處理。
不同字義(或字義條下)有多個字時,有些并不需要加字,只需要調(diào)整字義(字義再分配)。如國標碼的“于、后、鐘、余、咨、折、旋、糖、徑、伙、借”對應的大五碼字“于於、后後、鍾鐘、余餘、咨諮、折摺、旋鏇、糖醣、徑逕、伙夥、借藉”,前面的八個字中有六個都涉及到姓氏用字。在龔碼的制訂過程中,涉及到姓氏用字都會復雜一些——按中國人的傳統(tǒng)習慣,通常不愿意別人改動自己的姓——因而龔碼不是萬不得已的情況不改動姓氏的用字或字形。上例中“於、後、鍾、馀、諮、摺、鏇、醣、逕、夥、藉”等字國標碼都有。上例中的字義按繁體字釋義即可解決。
龔碼的每一個中文字都有獨特的字義。當一個字具有某種字義,其龔碼中的相關字(在原國標碼或大五碼中相關的字)即不再具有該義項,即“字義不作重復授權”。如龔碼收錄了“犟”字,相關字“強”不再具有“固執(zhí)、不服勸導”的義項。收錄了“幺”字,相關簡形字“么”不再具有“排行最小的”這一義項。對此將在《龔碼字典》和《龔碼詞典》中嚴格界定。龔碼統(tǒng)一方案收錄的字與字、詞與詞之間,不存在某字詞或某字詞的某義項“通”另一字詞,或“亦作”另一字詞的現(xiàn)象,這樣也就不會再出現(xiàn)如“該用‘身分’還是‘身份’”之類的爭議。對于龔碼收錄的極少數(shù)字頻、詞頻較高的人地山河名、生意行號用字,在《龔碼字典》中作出準確解釋,以免混淆或誤用。如“”字字義同“育”,現(xiàn)為人名用字。“邨”字字義同“村”,現(xiàn)為香港的地名和生意行號用字?!啊弊肿至x同“塘”,臺灣西南沿海稱魚塘為“魚”、“仔”。
2.字形龔碼簡形字盡量照顧簡化字使用區(qū)的字形使用習慣,龔碼繁形字盡量照顧繁體字使用區(qū)的字形使用習慣。
(1)有些字的筆畫不多,龔碼簡形字直接錄入,如“盃揹併佈採弔氾複傢姦侷捲剋睏裡慄唸慓舖捨甦塗蓆係兇遊佔週凖”等字。
②有些字的筆畫較多,如龔碼繁形字“ 錶綵嚐噹盪鵰範颳譭釦誇囉瀰闢鎔囌糰託輓颺願讃誌註”等字,按簡化字規(guī)則類推簡化后,龔碼簡形字錄入為“ 綵颳譭侭釦誇啰 闢镕 讬輓飏願讚誌註”。
③對于少數(shù)由于原國標碼與大五碼“不同字義”一對多,而不得不在龔碼中增加或調(diào)整字義的少數(shù)簡形字,若因筆畫多而與其他龔碼簡形字不協(xié)調(diào),龔碼按“兼顧相關字形,新字的字音、字義易理解,無歧義”的原則將其調(diào)整為“合理字形”。如龔碼繁形字“蔔衝 鬥髮 乾幹榖後劃彙穫幾薑曆麵籤鬆 鹹嚮傭鬱籲禦雲(yún)紮髒徵製隻”,調(diào)整為合理字形后龔碼簡形字錄入為“ 部分字形調(diào)整(未特別注明者為簡形字)說明及龔碼簡繁形例句對照(1)表云彩飄動之意,取形旁三撇,雲(yún)作 古人云學海無涯, 程有路。
古人雲(yún)學海無涯,雲(yún)程有路。
(2)以兵器防御,用立刀,禦作 由御前帶刀侍衛(wèi)領班在皇宮內(nèi)防 由御前帶刀侍衛(wèi)領班在皇宮內(nèi)防禦。
(3)製作 ,已見于繁體的手寫。計劃可行文,劃作 這項計劃從經(jīng)濟上考量是否劃算還是個未知數(shù),因而該計 中產(chǎn)品的 造受到了限制。
這項計劃從經(jīng)濟上考量是否劃算還是個未知數(shù),因而該計劃中產(chǎn)品的製造受到了限制。
(4)抽簽測吉兇,用兇字框,以千為音,籤作 ;亦示籤從筒或盒中抽出。
簽約前,他抽了一支 測運氣。
簽約前,他抽了一支籤測運氣。
(5)“髮”生于頭上,以發(fā)為音,髮作 。借後的雙人旁,以后為音,後作 範類推簡為 皇后公園的 面有一家美容 型學院,我發(fā)現(xiàn)范小姐正在為學生作示 皇后公園的後面有一家美容髮型學院,我發(fā)現(xiàn)范小姐正在為學生作示範。
(6)在戰(zhàn)火硝煙中沖鋒,衝作 上高地,班長沖了一壺龍井茶招待士兵們。
衝上高地,班長沖了一壺龍井茶招待士兵們。
(7)“麵”為食,以其為偏旁,以面為音,麵作 一碗熱騰騰的紅燒牛肉 端到了他的面前。
—碗熱騰騰的紅燒牛肉麵端到了他的面前。
(8)鐘·鐘,鍾·鐘;表·表, ·錶。
他表示,對祖上留下的這爿鐘 生意情有獨鍾。
他表示,對祖上留下的這爿鐘錶生意情有獨鍾。
(9)盡·盡,侭·儘。
侭管條件有限,他們還是力爭做到人盡其才。
儘管條件有限,他們還是力爭做到人盡其才。
(10)借蘿字的草頭,以卜bo為音,蔔作 。向上借億字的單人旁,以萬wàn為音,萬作 。中藥白術、蒼術為多年生草本植物,以術zhú為音,術zhú簡繁形同作 卜先生拔蘿 ;萬俟先生得了一 元獎金;蒼 的種植技術有突破。
卜先生拔蘿蔔;萬俟先生得了一萬元奬金蒼 的種植技術有突破。
(11)干·干;留幹的右邊,幹作 ;借乾的左邊,乾作 那位老農(nóng)說“我還是早前的話,‘天干地支卜雨只可信一半。天 ,還得人 !’”那位老農(nóng)説「我還是早前的話,『天干地支卜雨只可信一半。天乾,還得人斡!』」3.字音對于某些字在簡化字和繁體字中讀音的差異,龔碼采用字音使用頻度較高者。如“和”字,作“連詞、表示聯(lián)合,跟,與”字義時,簡化字讀作hé;繁體字可讀作ㄏㄢ、hàn,也可讀ㄏㄜhé。龔碼取hé的字音。再如“骰”字,簡化字工具書歸入tóu;繁體字工具書歸入ㄕㄞˇshǎi。龔碼取shǎi的字音。
4.用詞、用語不同的用詞、用語可以豐富語言的表達方式,但是一方面專業(yè)用詞、用語應當統(tǒng)一,另一方面用詞、用語應當盡量讓絕大多數(shù)的文字使用者理解,龔碼使用綜合詞頻和詞頻方向值較高且易于理解的用詞、用語及統(tǒng)一的專業(yè)用詞、用語。例如“什麼、指責”的綜合詞頻和詞頻方向值高于“甚麼、指摘”。再如“杯葛、高賣”,若改用作“抵制、偷竊”,所有中文文字使用者都能理解。用詞、用語將通過《龔碼詞典》作系統(tǒng)性的規(guī)范解釋。
5.符號對于簡繁體字使用區(qū)使用頻度較高而差異較大的標點及其他符號,在統(tǒng)一方案中采用可轉換輸入提示行顯示形式,并同時保留不可轉換形式。如引號,簡化字用作“、”、‘、’,繁體字大多用作「、」、『、』。龔碼安排了可轉換外引號輸入提示行顯示形式嚴「“、”」和可轉換內(nèi)引號輸入提示行顯示形式『‘、’』,只需要輸入可轉換形式,即可在龔碼簡形中出現(xiàn)簡化字的習慣形式,龔碼繁形中出現(xiàn)繁體字的習慣形式。繁體字的出版品中直排較多,直排時各種符號可自動轉換為直排符號,如“﹁﹂﹃﹄︽︾︿﹀︵︶︷︸︹︺︻︼”等。
6.譯進、譯出中文字音的拼注方式和譯名標準,擬通過另一方案提出。
龔碼簡繁形對照文稿 聽 雪 ·龔學勝·(原載一九九二年二月《人民日報》海外版)簌簌落落/霏霏飏飏/朵朵漫空蓬勃/擁抱屈原 李清照/擁抱岳飛 鄭成功/擁抱 我五千年的故國//揮不去 掙不脫/如飛似掠的玉瓊/雍容馳騁生萬象/旋浩然 坤//何不善解雪意?/立長城為筆/蘸海峽作彩/譜一曲吟天誦地的和聲/龍騰起浪/虎躍生風/傾恢宏的關愛/維 兩岸/待神定氣爽/報知響晴 聽 雪 ·龔學勝·(原載一九九二年二月《人民日報》海外版)簌簌落落/霏霏颺颺/朵朵漫空蓬勃/擁抱屈原 李清照/擁抱岳飛 鄭成功/擁抱 我五千年的故國//揮不去 掙不脫/如飛似掠的玉瓊/雍容馳騁生萬象/旋浩然乾坤//何不善解雪意 /立長城為筆/蘸海峽作彩/譜一曲吟天誦地的和聲/龍騰起浪/虎躍生風/傾恢宏的關愛/維 兩岸/待神定氣爽/報知響晴◇寄友人◇·龔學勝·(原載一九九三年五月《明報》加東版)一串嘆息,隨著一次日升日落,不拾地失落在太平洋兩岸。
匆匆別離,正如匆匆相逢,多幾分憧憬,少幾許不安。來不及揮手,一段珍藏的歲月,便漸趨遼遠。
又怎能忘懷 那些個雞鳴之晨,剪燭夜半,歷史與現(xiàn)實的輝煌與沉重,不歇地撞擊我們的雙肩。平湖 舟,自然靜謐,似無風險;可我們是當代,我們是水手,天性 往大海,追逐風帆。生命的價值,在 不斷注入新的挑戰(zhàn)。
是的,我們這一代太累,如虔誠的朝山客,幾欲恨恨而卻步,仍需奮力登攀。下一宗賭注,未必能贏得一番彩頭;不必祈求晴朗的機遇,曾經(jīng)瀟灑過就無須畏懼遺憾。
今夜,月涼風輕,我披衣梭巡,追覓靈感。朋友,寄給你們點兒什么呢 China Town生意滔滔的繁華,CN Tower巨無霸的偉岸,Midland丹楓的幽眇,Niagara Falls的壯觀……不不,這些都還不夠,寄上心與心的呼應,夢與夢的渴盼。
莫要說,人移情易,世態(tài)冷淡;莫要說,山水遙隔,阻斷思念。祖國每一縷細微的脈動,依然頻頻撥動心弦……◇寄友人◇·龔學勝·(原載一九九三年五月《明報》加東版)一串嘆息,隨著一次日升日落,不捨地失落在太平洋兩岸。
匆匆別離,正如匆匆相逢,多幾分憧憬,少幾許不安。來不及揮手,一段珍藏的歲月,便漸趨遼遠。
又怎能忘懷 那些個雞鳴之晨,剪燭夜半,歷史輿現(xiàn)實的輝煌與沉重,不歇地撞擎我們的雙肩。平湖盪舟,自然靜謐,似無風險;可我們是當代,我們是水手,天性嚮往大海,追逐風帆。生命的價值,在於不斷注入新的挑戰(zhàn)。
是的,我們這一代太累,如虔誠的朝山客,幾欲恨恨而卻步,仍需奮力登攀。下一宗賭注,未必能贏得一番彩頭不必祈求晴朗的機遇,曾經(jīng)瀟灑過就無須畏懼遺憾。
今夜月涼風輕,我披衣梭巡,追覓靈感。朋友,寄給你們點兒什麼呢 China Town生意滔滔的繁華,CN Tower巨無霸的偉岸,Midland丹楓的幽眇,Niagara Falls的壯觀……不不,這些都還不夠,寄上心與心的呼應,蘿與蘿的渴盼。
莫要說,人移情易,世態(tài)冷淡;莫要說,山水遙隔,阻斷思念。祖國每一縷細微的脈動,依然頻頻撥動心弦……龔碼的每種字體都包括一一對應的簡形和繁形。為了區(qū)別于原來的簡化字、繁體字的說法,龔碼的各種字體稱為龔碼簡楷、龔碼繁楷,或龔碼簡報宋、龔碼繁報宋。除中文字的相關學術文章等特殊用途外,龔碼的簡形字和繁形字在各類出版品中不可以混用。
龔碼是一個在內(nèi)碼、用字范圍、字形、字義、字音、用詞、用語等方面的全面完整的中文文字統(tǒng)一方案。龔碼得以推廣后,原簡化字使用區(qū)仍可使用簡形字,原繁體字使用區(qū)仍可使用繁形字。經(jīng)過較短的“識繁寫簡”(認識繁形,寫成簡形)的過程,不管是原來簡化字使用區(qū)、繁體字使用區(qū),還是母語為非中文的中文字學習和使用者,對于龔碼的簡形和繁形字將普遍都能讀寫和使用,進而不轉字形也可“簡繁通讀”,并能輕易達至最嚴謹?shù)闹形奈淖忠?guī)范。對于各類平面、多媒體、電子出版品,所有的中文來稿都可統(tǒng)一處理,不再有需要轉碼、某些字詞無法轉換及中文出現(xiàn)亂碼的問題。對于國際互聯(lián)網(wǎng),讀者在剛開始使用龔碼時只需點取“簡顯”或“繁顯”,即可用一種自己熟悉的字形顯示閱讀所有以龔碼形成的網(wǎng)頁,比將國標碼的宋體換為國標碼的楷體還要簡單。由于龔碼的簡形與繁形字及圖符全部一一對應,各種圖文混排的平面和電子出版品,只要輕輕點一次指令,多種中文字體便能夠同步轉換,如龔碼簡報宋轉龔碼繁報宋,龔碼簡隸書轉龔碼繁隸書,龔碼簡綜藝轉龔碼繁綜藝。對于涉及到中文的各類軟件,只需出版一種中文版本。輸入軟件的提示行只需要顯示簡形或繁形,不再需要將所有的簡化字和繁體字一起顯示出來。即便將來時機成熟,只需要一種中文字形(簡繁字形合一),也只需要水到渠成地改變中文字體中的某些字形,一次系統(tǒng)性改完或多次分批改變都已不再是問題,因為并不存在內(nèi)碼、用字范圍、字義、字音、用詞、用語等方面的轉換調(diào)整。
在統(tǒng)一方案的制定過程中,本發(fā)明既兼顧到中文簡化字和繁體字的現(xiàn)行規(guī)范和習慣,也兼顧到其文字的發(fā)展方向。既考慮到研究中文文字的專家學者的學術見解,又考慮到一般文字使用者的感受,使其“樂于使用、方便使用”。既考慮到母語為中文的學習和使用者,又考慮到母語為非中文的學習和使用者。
龔碼的用字范圍雖然與國標碼和大五碼都有區(qū)別,但影響到簡化字和繁體字使用者日常習慣的分別都不算多。以新學習、適應少量字的努力,換取一種永久統(tǒng)一、更加規(guī)范和科學、簡繁體字優(yōu)勢互補的中文文字體系,應當是一件具有歷史價值的事。
龔碼是一個承接過去、立足現(xiàn)在、面向未來的中文文字統(tǒng)一方案,以現(xiàn)代化的科學量化的篩選、整合、變通、規(guī)范及創(chuàng)新處理方法避開各種爭議。按照每一個字都符合“選之有理有據(jù)”和“高效率地字盡其用”的原則,力爭能經(jīng)得起今后一定時間段的檢驗。龔碼基本字符集(用字范圍、字形)與《龔碼字典》、《龔碼詞典》的拼注音、釋義(字音、字詞語義)配合,構成一個統(tǒng)一、完整、科學、規(guī)范、穩(wěn)定的中文文字體系,讓中文字使用者“想錯也不容易”,輕易能達至嚴謹?shù)闹形奈淖忠?guī)范;讓所有的用字者都沒有“累”的感受“呀,原來用中文字可以這么輕松!”進而覺得使用中文字是一種享受。
既然現(xiàn)行簡化字和繁體字存有較大的差異,不管中文文字統(tǒng)一方案規(guī)范與科學的程度如何,簡繁兩種文字使用區(qū)的文字使用者和文字專家學者在統(tǒng)一方案的推行中,就必定需要心平氣和的理解與讓步(避免長期無謂爭議);同時,中文文字統(tǒng)一方案的推行中有可能會遇到的各種學術層面之外的問題,也有待相關政治家們以遠見、風度和智慧去化解。大中華的復興與騰飛所亟需的文字基礎的打造,需要包括海外華人在內(nèi)的當代所有中國人的共同協(xié)作努力。
附1“中文文字龔碼統(tǒng)一方案編碼字符集基本集”(示例)說明中文龔碼基本字符集(Chinese GONG Code-Basic Set)編碼范圍為A001-K994,分為110個區(qū)(Section),每個區(qū)94個位(Position),總計10340個碼位。收錄中文字及一般符號、序號、數(shù)字、漢語拼音、注音字母、國際音標、拉丁字母、日文假名、希臘字母、俄文字母,共7874個圖形字符。其中中文字以外的圖形字符730個,中文字7144個,并留有用戶自定義區(qū)。
龔碼基本字符集的每一個文字內(nèi)碼都有一個簡形字和一個繁形字(部分字同形),這兩個字在同一義項下有完全相同的字義和字音(包括聲調(diào))。基本字符集分簡繁對照排列,簡在左,繁在右。需要對照列出單字時,以“龔·龔、碼·碼”的排列方式出現(xiàn)。
龔碼基本字符集的文字部分按字音排列,每一字音內(nèi)不分聲調(diào)按綜合字頻排列。多音字排入字頻、詞頻較高的音節(jié)內(nèi)。龔碼基本字符集可滿足除古籍書翻印等特殊用途以外的各種中文用字(包括香港出版品用字)需要。
龔碼擴充字符集(Chinese GONG Code-Supplementary Set)用于古籍書翻印等特殊用途。其編碼排列方式同基本字符集,即按字音排列,每一字音內(nèi)不分聲調(diào)按綜合字頻排列。多音字排入字頻、詞頻較高的音節(jié)內(nèi)。擴充集亦為每一個文字內(nèi)碼都有一個簡形字和一個繁形字(部分字同形),這兩個字在同一義項下有完全相同的字義和字音(包括聲調(diào))??紤]到簡化字使用區(qū)的用字習慣,龔碼擴充集收錄的簡形字,必要時仍按簡化字規(guī)則類推簡化。龔碼擴充集收錄中文字使用者讀得到用不到,并有必要收錄(如有特定字詞義或在特定時期有特定字詞義)的字,包括部分古書用字。如唐朝女皇帝武則天為自己名字造的字“曌”,我們不可能稱她為“武照”,現(xiàn)在的人通常也不可能用此字命名(交流不方便),因而將“曌”收進龔碼擴充集中。此類有些字是中國歷史文化的一部分。再如“鬥”字,過去不同時期用過的曾有“鬦閗鬪闘鬭鬭鬭鬭”等字,但字義并無區(qū)別。沒有必要在翻印古書時一定要將“鬥”排印成“鬭”等字(考古或文字類學術論文等除外)。現(xiàn)在處于知識、信息快速更新的年代,中文字使用者可以利用學這些字的時間去學其他知識。因而龔碼擴充集沒有收錄此類字。
龔碼擴充字符集編碼范圍為L001-Q994,分為60個區(qū)(Section),每個區(qū)94個位(Position),總計5640個碼位。擴充字符集收錄中文字5076個。
二、中文文字內(nèi)碼完整規(guī)范化自動轉換在龔碼推出后,還有可能在某些情況下使用異種內(nèi)碼之間的轉換。比如原來以其他中文內(nèi)碼形成的計算機文件,沒必要重新輸入為龔碼,只需要轉換內(nèi)碼即可。致于同種內(nèi)碼轉換,因其作用為統(tǒng)稿、編輯、校對、修正,使用范圍更廣。
1.異種內(nèi)碼轉換詞典示例以下先介紹“基本轉換詞典”的制定原理和使用。先看“基本轉換詞典”的“國標碼轉大五碼”部分示例(隨機抽取條目,并未按一定規(guī)則排序)◎既→既◎學→學◎證→證(不轉“証”)◎閑→閒(不轉“閑”)◎機→機(不轉“機”)◎秋→秋秋千→鞦韆◎千→千◎英→英◎寸→寸英寸→吋◎后→后皇后,太后,王后,后妃,天后,后王,后土1.跟“前”相反後門,日後,後排2.后代,子孫後輩,後生3.帝王之妻王后,皇太后4.上古指君王后王◎臺→臺(不轉“臺”)檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子,灶檯颱風1.高平建筑物,器物座講臺,窗臺,燈臺,登臺,臺詞2.量詞一臺戲,一臺機器3.舊時敬詞臺端,兄臺4.桌子,案子寫字檯,櫃檯5.太平洋西部海上暴風颱風6.臺灣省臺中,臺北市,在臺協(xié)會7.特定地名天臺山(浙江省),天臺縣(浙江省),臺州(浙江省)8.姓臺先生◎志→志標誌,碑誌,地理誌,方誌,府誌,日誌,省誌,縣誌,誌哀,誌禧,心誌1.意向,志向立志,有志者,意志2.記在心里,不忘永誌不忘,誌哀3.記載的文字雜誌,縣誌4.記號標誌5.稱輕重,量長短多少用秤志志以上的實際“基本轉換詞典”,包括了來源碼中全部的字和圖符(如國標碼為6763字,682個圖符)。每個單字條目的第一行(緊接◎后),表示“來源碼字→目的碼字”,或“來源碼字→目的碼詞”。有些單字條目下沒有詞組(只有第一行),表示只需要進行“一對一”的轉換。單字條目下如有詞組(從第二行開始),表示在目的碼的環(huán)境中“詞→詞”,或“詞→字”。對于不會引起誤解的詞,略去了轉換前的部分,只列出了轉換后的部分,如“皇后、檯布、標誌”,其完整形式應為“皇後→皇后、臺布→檯布、標志→標誌”。對于需要特別指明的詞,列出了轉換的完整形式,如“秋千→鞦韆、英寸→時”。
對于單一的“一對一”的可轉字,直接排入即可,如大→大、學→學。
對于同一字義的“一對多”可轉字,全部轉為根據(jù)綜合字頻、詞頻和字頻、詞頻方向值挑選的一個字,并明確指出“不轉某字”,如證→證(不轉“証”)、閑→閒(不轉“閑”)。
對于不同字義的“一對多”可轉字,全部先轉為根據(jù)綜合字頻、詞頻和字頻、詞頻方向值挑選的一個“主被選字”,并明確指出“不轉某字”,如臺→臺(不轉“臺”)。然后在目的碼中,根據(jù)“基本轉換詞典”中提供的“詞”,如本例中的“檯布,櫃檯……颱風”等,根據(jù)詞的搭配轉為不同字義的“一對多”其他“次被選字”。如本例,實際上是在目的碼中將“櫃臺”轉為“櫃檯”,將“臺風”轉為“颱風”。以此將來源碼中的“一”個字,正確轉換為目的碼中不同字義的“多”個字——“主被選字”和“次被選字”。
轉換詞典里列入的字和詞需盡量不重復,不矛盾,并且只考慮字形不管其發(fā)音。如“鞦韆”在“秋”字條下出現(xiàn),就不在“千”字條下出現(xiàn)。為了方便使用者了解文字規(guī)范,在寫作、打字、編輯、校對、對轉換詞典自行增加字詞等過程中,準確分辨、運用字義,在“基本轉換詞典”的多義字條下作了解釋和示例。同一字義的“一對多”字條按“被選字”解釋。轉換詞典設計的完美與否,會直接影響到轉換的準確度和轉換效率,因而結構要合理,便于計算機高效搜尋轉換。
2、同種內(nèi)碼轉換詞典示例由于在同種內(nèi)碼轉換中,單一的“一對一”的可轉字已經(jīng)轉換,因而在第一步轉換時沒必要將字全部轉換。以下依照“基本轉換詞典”的“國標轉大五碼”部分示例字條,列出“基本轉換詞典”的“大五碼內(nèi)轉換”部分示例,以便對照比較?!蛟^→證◎閑→閒◎機→機秋千→鞦韆英寸→吋◎后→後皇后,太后,王后,后妃,天后,后王,后土1.跟“前”相反後門,日後,後排2.后代,子孫後輩,後生3.帝王之妻王后,皇太后4.上古指君王后王◎臺→臺◎檯→臺◎颱→臺檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子,灶檯颱風1.高平建筑物,器物座講臺,窗臺,燈臺,登臺,臺詞2.量詞一臺戲,一臺機器3.舊時敬詞臺端,兄臺4.桌子,案子寫字檯,櫃檯5.太平洋西部海上暴風颱風6.臺灣省臺中,臺北市,在臺協(xié)會7.特定地名天臺山(浙江省),天臺縣(浙江省),臺州(浙江省)8.姓臺先生◎誌→志檁誌,碑誌,地理誌,方誌,府誌,日誌,省誌,縣誌,誌哀,誌禧,心誌1.意向,志向立志,有志者,意志2.記在心里,不忘永誌不忘,誌哀3.記載的文字雜誌,縣誌4.記號標誌5.稱輕重,量長短多少用秤志志每個單字條目的第一行(緊接◎后),表示“目的碼轉前字→目的碼轉后字”。
對于單一的“一對一”的可轉字,在目的碼中已經(jīng)無須再轉。
對于同一字義的“一對多”可轉字,將“落選字”轉為“被選字”,如証→證、閑→閒。
對于不同字義的“一對多”可轉字,先全部轉為“主被選字”,再根據(jù)詞的搭配轉為不同字義的“一對多”其他“次被選字”。
3、多向內(nèi)碼轉換詞典示例在國際互聯(lián)網(wǎng)(主機Sever端或客戶Client端的動態(tài)、靜態(tài)轉換)和各類涉及到中文的軟件中,其頁面、線上、文件、電子郵件等多向內(nèi)碼轉換轉換中,為了使用方便,可把多種內(nèi)碼之間、某一內(nèi)碼之內(nèi)的轉換詞典合并為一種。如國標碼簡化字和大五碼繁體字之間的簡轉繁、繁轉繁、繁轉簡、簡轉簡的四種轉換詞典,可合并為一種。以下列出“基本轉換詞典”的“國標、大五雙向”部分示例(字義解釋從略)?!騤真f真◎j學f學◎j證f證◎f証→f證◎j證f証◎j閑f閒◎f閑→f閒◎j閑←f閑◎j機f機◎f機→f機◎j秋f秋f秋千→f鞦韆◎j秋←f鞦◎j千f千◎j千←f韆◎j英f英◎j寸f寸f英寸→f時◎j英寸←f吋◎j后f後→f皇后,太后,王后,后妃,天后,后王,后土◎f后←f后◎j臺f臺◎f臺→f臺◎j臺←f檯◎j臺←f颱→f檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子,灶檯→f颱風◎j針f針f針魚→f鱵◎j魚f魚j魚←j魚魚◎j針魚←f鱵◎j干f幹◎f干→f幹◎f乾→f幹→f干涉,何干,無干,相干,干擾,干預,干戈,若干,干支,河干,江干→f乾旱,餅乾,乾杯,乾枯,外強中乾,乾爹,乾媽,乾等,乾急,乾洗◎j乾→f乾◎j干←f干◎j干←f乾◎j干←j乾j乾坤←,乾圖,乾網(wǎng),乾道,乾象,乾宅,乾造,乾曜,乾元,乾隆,乾縣基本轉換詞典的“國標、大五雙向”部分,因具備簡轉繁、簡轉簡、繁轉簡、繁轉繁等功能,須包括互轉之前兩種內(nèi)碼的全部字和符號。如簡繁雙向轉換,基本轉換詞典中既包括了國標碼的6763字和682個符號,也包括了大五碼的13053字和408個符號。為了不致引起混淆,以“j”代表簡化字詞,以“f”代表繁體字詞。
每個單字條目的第一行(緊接◎后),表示“來源字”轉為“目的字”或“目的詞”。有些單字條目下沒有詞組(只有第一行),表示不需要進行該字條下的“來源詞”轉換。單字條目下如有詞組(從第二行開始),表示在同一內(nèi)碼環(huán)境中“來源詞”轉“目的詞”,或“來源詞”轉“目的字”。對于不會引起誤解的詞,略去了轉換前的部分,只列出了轉換后的部分,并且只在第一個詞的旁邊加了方向箭號,如“→f皇后、→f檯布、→f干涉、j乾坤←”,其完整形式應為“f皇後→f皇后、f臺布→f檯布、f幹涉→f干涉、j乾坤←j干坤”。對于需要特別指明的詞,列出了轉換的完整形式,如“f秋千→f鞦韆、j魚←j魚魚”。
詞典中涉及到“左向箭號←”、“右向箭號→”和“雙向箭號”。“左向箭號←”表示單向轉為左側的簡化字或詞,如“j魚←j魚魚”,表示在繁轉簡或簡轉簡時的第二步由簡化字的“魚魚”轉為簡化字的“魚”?!坝蚁蚣枴北硎締蜗蜣D為右側的繁體字或詞,如“f機→f機”,表示在繁轉繁時的第一步,由繁體字的“機”轉為繁體字的“機”。“雙向箭號”表示根據(jù)轉換需要,既可轉為左側的簡化字或詞,也可轉為右側的繁體字或詞,如“◎j機f機”,表示在繁轉簡時的第一步由繁體字的“機”轉為簡化字的“機”;在簡轉繁時的第一步由簡化字的“機”轉為繁體字的“機”。
下面結合附圖
對本發(fā)明的三個實施例進行詳細描述。附圖中圖2為本發(fā)明異種內(nèi)碼轉換法之流程圖;圖3為本發(fā)明同種內(nèi)碼轉換法之流程圖;圖4為本發(fā)明簡繁雙向轉換法之流程圖。
下面描述本發(fā)明的中文文字內(nèi)碼規(guī)范化智能轉換方法的三個實施例。一、異種內(nèi)碼轉換法二、同種內(nèi)碼轉換法三、簡繁雙向轉換法實施例一異種內(nèi)碼轉換法首先,將來源碼的每一個“字”和圖符,按照“基本轉換詞典”的指引,全部轉換為目的碼的字、詞和圖符??赊D字的(包括“合理對應字”)轉為目的碼的“字”,不能轉字的轉為目的碼的“詞”。
接著,在目的碼的環(huán)境中,依照“基本轉換詞典”進行“詞轉詞”,進行自動搜索替換。以此將不同字義的“一對多”可轉字,由來源碼的一個字,正確轉換為目的碼中的多個字(主被選字和次被選字)。若來源碼的“詞”對應目的碼的“字”,在這一步中“詞轉字”。
第三步,選擇合適的“用詞、用語轉換詞典”和“譯名轉換詞典”,將用詞、用語和譯名轉換為文字使用者所需要的形式。之所以“選用合適的”,是因為不同的用戶,對用詞、用語和譯名有不同的要求。如一份中文繁體字報紙,不一定采用臺灣的用詞、用語和譯名;反之亦然。
最后,按照“復雜修正轉換詞典”的指引,將前幾步?jīng)]解決的極少數(shù)問題進行最后修正。
為了說明“復雜修正轉換”,請看以下簡化字例句1.三位天后都來了。
2.三天后她們都來了。
轉為繁體字應為
1.三位天后都來了。
2.三天後她們都來了。
“天后”一詞,在海外指特受公眾歡迎的女歌星或女明星,此處借用“帝王之妻”的解釋,以示高貴。
參照“基本轉換詞典”示例,在第一步將簡化字的“后”全部轉成了繁體字的“後”——因為在現(xiàn)時的繁體字綜合字頻、詞頻中,“後”為0.2869%,“后”為0.0019%,前者遠高于后者。第二步,在繁體字的環(huán)境中,將“皇後→皇后、天後→天后、後王→后王……”。第三步,選擇運用“用詞、用語轉換詞典”和“譯名轉換詞典”。
現(xiàn)在“三位天后都來了”符合轉換要求,第二個句子“三天後她們都來了”則因第二步轉詞時“天後→天后”使之成了“三天后她們都來了”,不合要求?,F(xiàn)在用“#”代表數(shù)字,以“#天后→#天後”進行“復雜修正轉換”,即可得到正確結果“三天後她們都來了”。這就是第四步。
再如簡化字例句“他今天老板著臉”,第二步轉詞時“老板→老闆”使之成了“他今天老闆著臉”。用“老闆著臉→老板著臉”進行“復雜修正轉換”即可。
把“#天后→#天後”、“老闆著臉→老板著臉”之類的詞、短語或句子按“基本轉換詞典”的示例匯總到一起,即構成“復雜修正轉換詞典”。搜尋方式可采用“隔特定字詞、加限定字詞”等各種高階方式進行搜尋轉換,以使轉換結果盡可能趨于完美。
這四步可簡單歸納為第一步全轉“來源字轉目的字詞”;第二步選轉“來源詞轉目的字詞”;第三步“轉用詞、用語、譯名”;第四步“復雜修正”。
實施例二同種內(nèi)碼轉換法參照實施例1,所不同的是從第一步轉換開始就是在同種內(nèi)碼中進行,根據(jù)“基本轉換詞典”將原來的“有必要轉換的字”從一個字轉換為另一個字或一個詞。后面的轉換步驟都與“異種內(nèi)碼轉換法”相同。同種內(nèi)碼轉換法的用處是將不規(guī)范的來源字詞轉為規(guī)范的目的字詞。如報刊和網(wǎng)絡等平面、電子出版品,其稿件通常來自各個方面,E-mail等方式接收的稿件會涉及到不同內(nèi)碼,為了統(tǒng)一稿件的用字、用詞、用語和譯名,及進行編輯校對,不同內(nèi)碼間的轉換和同種內(nèi)碼中的轉換有時需要交叉運用。
這四步可簡單歸納為第一步選轉“來源字轉目的字詞”;第二步選轉“來源詞轉目的字詞”;第三步“轉用詞、用語、譯名”;第四步“復雜修正”。
實施例三簡繁雙向轉換法簡繁雙向轉換包括簡轉繁、繁轉繁、繁轉簡、簡轉簡等四種轉換。在實際應用中,“轉換指令”可以明確標示為這四種方式。也可為了方便按目的碼標示為兩種,如標示為“規(guī)范繁體”(包括簡轉繁和繁轉繁)和“規(guī)范簡體”(包括繁轉簡和簡轉簡),或標示為“簡轉繁”(實際包括繁轉繁)和“繁轉簡”(實際包括簡轉簡)。
英文字符等一般是以一個字節(jié)來表示的,最常用的編碼方法是ASCII(AmericanStandard Code for Information Interchange,美國信息交換標準碼)。由于ASCII一個字節(jié)最多只能區(qū)分256個字符(實際上只用了一個字節(jié)中的低7位,范圍是32-126之間的95個),而中文字成千上萬,很容易與ASCII重疊,無法分出哪是中文哪是印歐語系文字,于是規(guī)定將中文編碼的高低字節(jié)的最高位均置1(Set the MSB,相當于加上128-16進制的80H),來使之區(qū)分于ASCII碼。這樣,在計算機中使用的中文字編碼(國標碼、大五碼等)實際上是真正的中文字碼的高位置1后的變形碼。因而現(xiàn)在都以雙字節(jié)來表示中文字,為了能夠與英文字符等分開,每個字節(jié)的最高位一定為1,這樣雙字節(jié)最多可以表示64K格字符。
在簡繁雙向轉換中,因簡化字與繁體字的內(nèi)碼具有不同的編碼位置(碼位),首先據(jù)此自動識別出中文字所處的內(nèi)碼狀態(tài)。然后根據(jù)“轉換指令”要求確認轉換方向,選擇雙向轉換詞典中的對應部分1.內(nèi)碼為簡化字,點取“規(guī)范繁體”指令,選取雙向基本轉換詞典中的“簡轉繁”部分,先轉“來源字”,后轉“來源詞”。接著轉用詞、用語、譯名,最后復雜修正,轉換完畢。
2.內(nèi)碼為簡化字,點取“規(guī)范簡體”指令,選取雙向基本轉換詞典中的“簡轉簡”部分轉換。后續(xù)具體轉換步驟與1同。
3.內(nèi)碼為繁體字,點取“規(guī)范繁體”指令,選取雙向基本轉換詞典中的“繁轉繁”部分轉換。后續(xù)具體轉換步驟與1同。
4.內(nèi)碼為繁體字,點取“規(guī)范簡體”指令,選取雙向基本轉換詞典中的“繁轉簡”部分轉換。后續(xù)具體轉換步驟與1同。
例如,簡化字的“干”對應繁體字的“幹、乾、干”,而繁體字的“乾”又對應簡化字的“干、乾”。對照“簡繁雙向轉換詞典示例”“簡轉繁”時,第一步“j干→f幹”,第二步“f幹涉→f干涉,f何幹→f何干……f幹旱→f乾旱,f餅幹→f餅乾”。
“簡轉簡”時,第一步“j干←j乾”,第二步“j乾坤←j干坤,j乾圖←j干圖……”。
“繁轉繁”時,第一步“f干→f幹,f乾→f幹”,第二步“f幹涉→f干涉,f何幹→f何干……f幹旱→f乾旱,f餅幹→f餅乾”。
“繁轉簡”時,第一步“j干←f幹,j干←f乾,j干←f干”,第二步“j乾坤←j干坤,j乾圖←j干圖……”Unicode碼(國際碼,等同國際編碼標準ISO 10646),包括了中日韓(CJK)的全部中文字符。以Unicode碼為中介,可做到中文簡化字和繁體字共存,并且能對照顯示于計算機屏幕上。
簡繁雙向轉換不僅可用于文件轉換,而且可用于國際互聯(lián)網(wǎng)(主機Sever端或客戶Client端)的動態(tài)、靜態(tài)線上和頁面轉換,可支援各種瀏覽器和平臺,可簡繁同屏顯示。
本發(fā)明中所提及的“基本轉換詞典”、“用詞、用語轉換詞典”、“譯名轉換詞典”、“復雜修正轉換詞典”等,不僅涉及到語法意義上的“字”和“詞”,有時也涉及到“短語”和“句子”。為了方便和名稱統(tǒng)一,都叫作“詞典”?;巨D換詞典、用詞、用語轉換詞典、譯名轉換詞典、復雜修正轉換詞典都是本發(fā)明重要的一部分。由于中文文字的豐富性和復雜性(如中文姓名和外文的中文譯名在使用中的不確定性),及簡化字與繁體字使用習慣的差異(如涉及到本發(fā)明的多種轉換詞典之外的字詞)等原因,為了使轉換盡量作到完美,本發(fā)明在各種轉換詞典的后面都為用戶留有開放式的環(huán)境,方便用戶自行將轉換詞典中未包括的詞組或短語加入。用戶還可以根據(jù)需要,將各方面來稿中經(jīng)常會遇上的特定差錯,按轉換步驟加入以上的各種轉換詞典中,使轉換過程同時具有糾正差錯和編輯校對的功能。
以上概略地對本發(fā)明的中文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉換作了描述。本技術領域內(nèi)的熟練人員可以不經(jīng)創(chuàng)造性勞動就能對本發(fā)明作出各種各樣的修改和改進。發(fā)明人認為這種修改和改進都屬于后面的權利要求書所定義的范圍之內(nèi)。
本發(fā)明可有效應用于涉及到中文的各種計算機軟件(如操作系統(tǒng)、瀏覽器、文字處理、排版、打字及語音或手寫輸入、光學OCR識別、翻譯、造字、校對等軟件),國際互聯(lián)網(wǎng),平面、多媒體、電子出版品,電子字典等,可支持所有平臺,可用于主機Sever端或客戶Client端,可用于文件、電子郵件、頁面。龔碼可促使同一中文計算機軟件的簡化字和繁體字兩個版本合二為一。
中文內(nèi)碼完整規(guī)范轉換可有效應用于龔碼、國標碼、大五碼及其他中文內(nèi)碼之間的簡轉繁、簡轉簡、繁轉簡、繁轉繁等異種內(nèi)碼、同種內(nèi)碼、簡繁雙向等各類快速轉換。亦可應用于中文字與中國方言文字、少數(shù)民族語言文字,及與日文、韓文等其他亞洲語言文字之間的轉換。
本發(fā)明將向政府、教育、慈善等非商業(yè)性用途的平面(圖書報刊等)和電子(國際互聯(lián)網(wǎng)等)出版開放。
權利要求
1.一種中文文字統(tǒng)一方案,其特征在于提供一種科學的可行性高、易于推廣的方案,在充分尊重現(xiàn)有各種中文單一內(nèi)碼使用規(guī)范和習慣的基礎上,以現(xiàn)代化的科學量化的篩選、整合、變通、規(guī)范及創(chuàng)新方法避開各種復雜爭議,實現(xiàn)中文文字的字形、字義、字音、用字范圍的全面完整統(tǒng)一;以現(xiàn)階段在中國大陸、香港特區(qū)和中國臺灣使用最廣泛的國標碼、大五碼和香港增補字符集為統(tǒng)一方案基本字符集選字的最大范圍,根據(jù)綜合字詞頻確認的不涉及“一對多”的常用字、次常用字全部收錄;罕用字根據(jù)綜合字詞頻、字詞頻方向平均值、組詞能力、字義、姓氏和人地山河名因素等選擇性收錄;無效字不收錄;現(xiàn)時尚在使用的姓氏用字、縣以上地名用字、中醫(yī)藥用字、科技專用字(如化學元素周期表和有機化學用字)盡量全部收錄;酌情收錄影響較大、使用較廣的特殊古文(如較出名的文言文、古典小說、詩詞曲)用字和成語用字;酌情收錄見諸于出版品的較常用而有特定字義的香港字;選擇性收錄兒童讀物用字之類在某些特定范圍中較常使用,而綜合字頻、詞頻不高的字;對于目前使用較廣的幾種中文單一內(nèi)碼(如國標碼、大五碼、香港增補字符集等)中的字,若統(tǒng)一方案未收錄,在統(tǒng)一方案的相關字典和詞典中按照“合理對應字、合理最簡詞”的方案給出與統(tǒng)一方案的使用對應指引。
2.一種中文文字統(tǒng)一方案,其特征在于每一個中文字內(nèi)碼都有一個繁形字和一個簡形字(部分字同形),這兩個字在同一義項下有完全相同的字義和字音(包括聲調(diào));簡形字相對于國標碼簡化字,繁形字相對于大五碼繁體字,都盡量作最少的字形變動,字義與字音也是在“必要”(如原簡繁單一內(nèi)碼之間不一致)時才作“合理”的調(diào)整;每種字體都包括一一對應的簡形和繁形;對于簡繁體字使用區(qū)使用頻度較高而差異較大的標點及其他符號,在統(tǒng)一方案中采用可轉換形式,并同時保留不可轉換形式;統(tǒng)一方案中各種出版品中的多種中文字體(包括圖符)可以一次同步轉換;對于涉及到中文的各類軟件,只需要出版一種中文版本;將來時機成熟簡繁字形合一時,只需要輕而易舉地轉換中文字體的部分不同形的字形,而不存在轉換內(nèi)碼、用字范圍、字形、字義、字音、用詞、用語等方面的問題;統(tǒng)一方案基本字符集功能范圍內(nèi)的極少數(shù)的必要補字,通過向基本字符集的備用碼位加字解決,擴充字符集功能范圍內(nèi)的則向擴充集備用碼位加字。
3.一種中文文字統(tǒng)一方案,其特征在于同一字義(包括同一義項下)有多個字時,如果一個字的現(xiàn)時綜合字頻明顯高于其他字,選擇這個綜合字頻較高的字;如果這幾個字的現(xiàn)時綜合字頻較為接近,選擇字頻方向平均值較高的一個字;不同字義(或義項下)有多個字時,如果除了綜合字頻和字頻方向平均值較高的一個字,其他字雖另有字義,但綜合字頻和字頻方向平均值明顯較低,且組詞能力有限,只收錄前者;不同字義(或義項下)有多個字時,如果除了綜合字頻和字頻方向平均值較高的一個字,還有其他字的綜合字頻和字頻方向平均值也較高,組詞能力較強,若選用能有助于使字義的表述更明確,便選用該字;如果國標碼與大五碼之間的多個字有復雜的對應關系,按“必要合理”的原則進行復雜調(diào)整。
4.一種中文文字統(tǒng)一方案,其特征在于統(tǒng)一方案的繁形字盡量照顧繁體字使用區(qū)的字形使用習慣,簡形字盡量照顧簡化字使用區(qū)的字形使用習慣;對于筆劃不多的簡形字直接錄入;對于筆劃較多的字,按簡化字規(guī)則類推簡化后錄入為簡形字;對于少數(shù)由于原國標碼與大五碼“不同字義”一對多,而不得不增加或調(diào)整字義的少數(shù)簡形字,若因筆劃多而與其他簡形字不協(xié)調(diào),按“兼顧相關字形,新字的字音、字義易理解,無歧義”的原則將其調(diào)整為“合理字形”。
5.一種中文文字統(tǒng)一方案,其特征在于對于有爭議或矛盾的字義條,采用“客觀對待、避免爭議”的方法處理;統(tǒng)一方案的每一個中文字都有獨特的字義,當一個字具有某種字義,其統(tǒng)一方案中的相關字(在原國標碼或大五碼中相關)即不再具有該義項,即“字義不作重復授權”;統(tǒng)一方案收錄的字與字之間,不存在某字詞或某字詞的某義項“通”另一字詞,或“亦作”另一字詞的現(xiàn)象;對于某些字在簡化字和繁體字中讀音的差異,采用字音使用頻度較高者;統(tǒng)一方案使用綜合詞頻和詞頻方向值較高且讓絕大多數(shù)的中文文字使用者能夠理解的用詞、用語,用詞、用語將通過統(tǒng)一方案相關詞典作系統(tǒng)性的規(guī)范解釋。
6.一種中文文字統(tǒng)一方案,其特征在于對于統(tǒng)一方案沒有收錄的其他幾種中文單一內(nèi)碼(國標碼、大五碼等)的用字,在統(tǒng)一方案字典中給出“合理對應字”的指引并釋義,合理對應字須符合“字義、字音、字形等關聯(lián)性最強、最合理、無歧義”的原則;當統(tǒng)一方案的收錄字中沒有“合理對應字”時,用“合理最簡詞”的辦法處理,合理最簡詞應符合“最少用字、通俗易懂、嚴謹合理、無歧義”的原則;對于統(tǒng)一方案未收錄的名稱用字,按其他習慣名稱;無其他習慣名稱者采用“義音形最接近字+特征尾字”的方法解決,特征尾字可為“花草樹木鳥蟲魚石”等;統(tǒng)一方案基本字符集(用字范圍、字形)與相關字典、詞典的拼注音、釋義(字音、字詞語義)配合,構成一個統(tǒng)一、完整、科學、規(guī)范、穩(wěn)定的中文文字體系,讓中文字使用者能輕易達至嚴謹?shù)闹形奈淖忠?guī)范。
7.一種中文文字內(nèi)碼完整規(guī)范化智能轉換方法,其特征在于當進行不同中文內(nèi)碼間的文字轉換時,如來源碼的一個字對應目的碼中“同一字義”的多個字時,轉換為現(xiàn)時綜合字頻較高的一個“被選字”,其他字為“落選字”;如來源碼的一個字對應目的碼中“不同字義”的多個字時,首先將其轉換為根據(jù)現(xiàn)時字頻挑選的一個“主被選字”,然后在目的碼的環(huán)境中,利用詞的搭配轉換為“不同字義”的其他“次被選字”;當來源碼的字在目的碼中無“字”可以對應時,轉為“合理對應字”或“合理最簡詞”;如果來源碼的“詞”對應目的碼的“字”,用先“字轉字”、后“詞轉字”的方法解決;在進行異種內(nèi)碼轉換時,第一步,將來源碼的每一個“字”和圖符,按照“基本轉換詞典”的指引,全部轉換為目的碼的字、詞和圖符,可轉字的(包括“合理對應字”)轉為目的碼的“字”,不能轉字的轉為目的碼的“詞”;第二步,在目的碼的環(huán)境中,依照“基本轉換詞典”進行“詞轉詞”的自動搜索替換,以此將不同字義的“一對多”可轉字,由來源碼的一個字,正確轉換為目的碼中的多個字;若來源碼的“詞”對應目的碼的“字”,在這一步中“詞轉字”;第三步,選擇合適的“用詞、用語轉換詞典”和“譯名轉換詞典”,將用詞、用語和譯名轉換為文字使用者所需要的形式;第四步,按照“復雜修正轉換詞典”的指引,將前幾步?jīng)]解決的極少數(shù)問題進行最后修正;由以上方法和步驟得到的轉換結果與目的單一內(nèi)碼的文字規(guī)范、文字使用習慣和用字范圍嚴格映射。
8.一種中文文字內(nèi)碼完整規(guī)范化智能轉換方法,其特征在于當進行同種中文內(nèi)碼間的文字轉換時,對于同一字義的“一對多”可轉字,將“落選字”轉為“被選字”;對于不同字義的“一對多”可轉字,先全部轉為“主被選字”,再根據(jù)詞的搭配轉為不同字義的“一對多”其他“次被選字”;在進行同種內(nèi)碼轉換時,第一步,根據(jù)“基本轉換詞典”的指引,在同種內(nèi)碼環(huán)境中,將來源文本中的“有必要轉換的字”從一個字轉換為另一個字或一個詞;第二步,依照“基本轉換詞典”進行“詞轉詞”的自動搜索替換;若來源碼的“詞”對應目的碼的“字”,在這一步中“詞轉字”;第三步,將用詞、用語和譯名轉換為文字使用者所需要的形式;第四步,按照“復雜修正轉換詞典”的指引,將前幾步?jīng)]解決的極少數(shù)問題進行最后修正;轉換結果與目的單一內(nèi)碼的文字規(guī)范、文字使用習慣和用字范圍嚴格映射。
9.一種中文文字內(nèi)碼完整規(guī)范化智能轉換方法,其特征在于當進行簡繁雙向異種內(nèi)碼和同種內(nèi)碼間的文字轉換時,包括簡轉繁、繁轉繁、繁轉簡、簡轉簡等四種形勢的轉換;在實際應用中,為了方便可將“轉換指令”標示為兩種,如標示為“規(guī)范繁體”(包括簡轉繁和繁轉繁)和“規(guī)范簡體”(包括繁轉簡和簡轉簡),或標示為“簡轉繁”(實際包括繁轉繁)和“繁轉簡”(實際包括簡轉簡);以Unicode碼為中介,可做到中文簡化字和繁體字共存,并且能對照顯示于計算機屏幕上;在進行簡繁雙向轉換時,首先根據(jù)簡化字與繁體字所不同的編碼位置(碼位)自動識別出中文字所處的內(nèi)碼狀態(tài);然后根據(jù)“轉換指令”要求確認轉換方向,選擇雙向轉換詞典中的對應部分(1)內(nèi)碼為簡化字,點取“規(guī)范繁體”指令,選取雙向基本轉換詞典中的“簡轉繁”部分,先轉“來源字”,后轉“來源詞”;接著轉用詞、用語、譯名,最后復雜搜尋校正,轉換完畢;(2)內(nèi)碼為簡化字,點取“規(guī)范簡體”指令,選取雙向基本轉換詞典中的“簡轉簡”部分轉換;接著轉用詞、用語、譯名,最后復雜修正;(3)內(nèi)碼為繁體字,點取“規(guī)范繁體”指令,選取雙向基本轉換詞典中的“繁轉繁”部分轉換;接著轉用詞、用語、譯名,最后復雜搜尋校正;(4)內(nèi)碼為繁體字,點取“規(guī)范簡體”指令,選取雙向基本轉換詞典中的“繁轉簡”部分轉換;接著轉用詞、用語、譯名,最后復雜搜尋校正;轉換結果與目的單一內(nèi)碼的文字規(guī)范、文字使用習慣和用字范圍嚴格映射。
10.如申請專利范圍第7、8或9項所述的中文文字內(nèi)碼完整規(guī)范化智能轉換方法,其中對應多種中文內(nèi)碼環(huán)境、多種轉換方式的基本轉換詞典、用詞用語轉換詞典、譯名轉換詞典和復雜修正轉換詞典中,預設有不同內(nèi)碼間相對應的字的對照及詞、短語和句子的對照;其中基本轉換詞典中每個單字條目的第一行(緊接◎后),表示“來源字”轉為“目的字”或“目的詞”;有些單字條目下沒有詞組(只有第一行),表示不需要進行該字條下的“來源詞”轉換;單字條目下如有詞組(從第二行開始),表示在同一內(nèi)碼環(huán)境中“來源詞”轉“目的詞”,或“來源詞”轉“目的字”;其中多種轉換詞典中的字的對照及詞、短語和句子的對照可以隨時增刪。
全文摘要
本發(fā)明為一種中文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉換。用現(xiàn)代化的科學量化的方法從綜合字詞頻、字詞頻方向平均值等方面進行篩選、整合、規(guī)范,內(nèi)碼同時兼顧簡繁字形,實現(xiàn)用字范圍、字形、字義、字音等方面的全面完整統(tǒng)一。通過合理最簡字詞等方法及來源字詞轉目的字詞、轉用語譯名、復雜修正等步驟得到完整規(guī)范化的單多向轉換結果。本發(fā)明可有效應用于各種涉及到中文的計算機軟件與平面、電子、多媒體出版品,可支援所有平臺,可促使中文軟件簡繁版本合一。
文檔編號G06F3/023GK1363876SQ0210290
公開日2002年8月14日 申請日期2002年1月26日 優(yōu)先權日2002年1月26日
發(fā)明者龔學勝 申請人:龔學勝