亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

雙分漢字與雙分輸入法及合成字模的制作方法

文檔序號(hào):6563880閱讀:1640來源:國知局
專利名稱:雙分漢字與雙分輸入法及合成字模的制作方法
技術(shù)領(lǐng)域
本發(fā)明由一種雙分漢字與一種雙分輸入法及一種漢字合成字模組成,它利用現(xiàn)有的漢語資源和信息技術(shù),在信息領(lǐng)域?qū)嵺`漢字拼音化,并改進(jìn)現(xiàn)有漢字信息技術(shù),屬于文字改革與漢字信息技術(shù)領(lǐng)域。
在現(xiàn)有的信息技術(shù)與現(xiàn)有的文字改革實(shí)踐之間,缺少一種相互兼容并包(簡稱“兼容”)的具有技術(shù)屬性的文字形式。具體表現(xiàn)在(1)符號(hào)系統(tǒng)多。在個(gè)人使用方面,現(xiàn)已存在漢字、漢語拼音和漢字輸入編碼三種符號(hào)系統(tǒng)。漢字與漢語拼音,不便于信息處理,在文字改革中,將逐步走向漢字拼音化。漢字輸入編碼,沒能將文字改革與信息技術(shù)相結(jié)合,游離于漢字和漢語拼音之外,種類繁多。在信息處理方面,文字與輸入編碼不統(tǒng)一,外碼和內(nèi)碼不統(tǒng)一。(2)人機(jī)不通用。現(xiàn)有的漢語符號(hào)系統(tǒng),不便于人和機(jī)器共同使用。漢字,字形不能很好地表示讀音;漢語拼音,拼寫存在不確定性漢字輸入編碼,無文字功能。(3)文盲不便用。不識(shí)字的人,在現(xiàn)有漢語符號(hào)系統(tǒng)面前,不便錄入和理解信息;不便于利用現(xiàn)有信息技術(shù),進(jìn)行“自助式掃盲”和學(xué)習(xí)。這種文字的技術(shù)屬性,與現(xiàn)有漢語符號(hào)系統(tǒng)的根本區(qū)別在于,它不單是記錄漢語的書寫符號(hào)系統(tǒng),還應(yīng)是傳輸漢語的技術(shù)符號(hào)系統(tǒng)?,F(xiàn)有的漢語符號(hào)系統(tǒng)做不到這一點(diǎn)。
現(xiàn)有的漢字存在“三難”,不便于信息處理。漢字,存在難讀、難寫和難記(簡稱“三難”)等缺點(diǎn)。為改變漢字“三難”,現(xiàn)有的作法是,給漢字標(biāo)注讀音和推行簡化漢字。在漢字頭上標(biāo)注讀音,不便于輸入和排版;在漢字后邊標(biāo)注讀音,先認(rèn)的是漢字,不便于人(或機(jī)器)識(shí)別;在漢字前邊標(biāo)注讀音,按現(xiàn)有習(xí)慣,似有些主次不分;這些標(biāo)注,都沒有賦予信息技術(shù)方面的意義。簡化漢字,字形仍不能很好地表示讀音。在現(xiàn)有信息處理中,簡化漢字沒能從總體上減少漢字的數(shù)量,漢字的不斷簡化,不便于現(xiàn)有的漢字信息處理。如何利用現(xiàn)有信息技術(shù)“簡化漢字”,需要一種實(shí)踐探索形式。
本說明為敘述方便,作如下約定。將已知漢字總數(shù)看作6萬個(gè),常用漢字看作7000個(gè),其余看作“非常用漢字”。將國標(biāo)GB2312-80(簡稱GB)收錄的漢字看作常用漢字(“簡體版”),其中的一級(jí)漢字,看作“一般能認(rèn)漢字”。所謂“一般能認(rèn)漢字”,是指在小學(xué)范圍內(nèi),用于漢語拼音識(shí)字教學(xué)的(大約3500個(gè))漢字,是一般人群都能識(shí)記的漢字。將國標(biāo)GB18030-2000字符集,簡稱GBK。將雙字詞組,看作16800條(見于個(gè)別公開碼表)或28600條(見于幾種公開碼表)。“傳輸漢語”,在本說明中,是指對(duì)漢語信息的輸入、輸出、傳送或機(jī)器內(nèi)部處理。
現(xiàn)有的漢語拼音,還不能用來記錄和傳輸漢語?,F(xiàn)有的漢語拼音,只有《漢語拼音方案》(簡稱《方案》)具有權(quán)威性、合法性?,F(xiàn)有《方案》的缺點(diǎn)是,字詞拼寫與漢字字詞存在不確定性,即一種拼寫對(duì)應(yīng)多個(gè)漢字。具體表現(xiàn)在(1)同音字詞不便區(qū)分,(2)多義字詞不易區(qū)別,(3)不便方言拼寫,(4)不便拼寫文言等方面。以同音字詞為例。漢語拼音的基本音節(jié)416個(gè)(據(jù)《新華字典》),考慮音節(jié)標(biāo)調(diào),可以有1282種念法。在GBK范圍內(nèi),每個(gè)基本音節(jié)平均有50個(gè)同音字,每種念法平均有16個(gè)同音字。在16800條雙字詞組中,有18%的詞組拼寫(不標(biāo)聲調(diào))存在不確定性。《新華字典》中,基本音節(jié)“ji”,有同音字116個(gè),念“ji4”的同音字有40個(gè);基本音節(jié)“yi”有同音字125個(gè),念“yi4”的同音字69個(gè)。漢語拼音的其它樣式,如“注音字母”等,也有“字詞拼寫與漢字字詞存在不確定性”的缺點(diǎn)。如何利用現(xiàn)有信息技術(shù)將漢語拼音連續(xù)地演化為漢字拼音化文字,也需要一種實(shí)踐探索形式。
現(xiàn)有的ASCII碼字符,不能直接用來記錄和傳輸漢語。文字,在信息處理中,是采用字符代碼表示的。國際上通用的字符代碼是ASCII碼。這種代碼,用1個(gè)字節(jié)表示1個(gè)字符,全部字符128種,又叫做標(biāo)準(zhǔn)ASCII碼。通用鍵盤的字符鍵與常用的ASCII碼字符相對(duì)應(yīng)。這種代碼,給信息處理很多方便。但是,這種標(biāo)準(zhǔn)ASCII碼字符,不能直接用來記錄和傳輸漢語。當(dāng)然,就更不能用標(biāo)準(zhǔn)ASCII碼字符與漢字(或其形義特征),或漢字部件(或其形義特征)來記錄和傳輸漢語。
現(xiàn)有的漢字代碼,還存在缺點(diǎn),需要改進(jìn)(1)按字編碼,字符多,字模庫龐大。GBK字符集中,已收錄漢字2.7萬個(gè),需要龐大字模庫支持。(2)代碼種類多。漢字信息處理,需要輸入碼、機(jī)內(nèi)碼和傳輸碼等多種代碼。其中輸入碼又分很多種類。(3)未能表示全部漢字。漢字“字無定數(shù)”。對(duì)未收錄漢字,“不便”處理。(4)不適應(yīng)文字改革需要。為應(yīng)用現(xiàn)有漢字信息技術(shù),二十年前,就有人提到,“現(xiàn)行漢字就不能象過去那樣分期分批地不斷地簡化”。文字改革,是一個(gè)不斷發(fā)展變化的歷史過程?,F(xiàn)有的漢字編碼,不能及時(shí)反映這個(gè)歷史過程的發(fā)展變化。
現(xiàn)有的漢字輸入方法,碼表越編越長,語料庫越做越大;軟件功能越來越多,使個(gè)人的能動(dòng)性越來越少;不利于漢語的個(gè)性化表達(dá)?!按a表固定”,對(duì)于個(gè)人來說,存在大量的冗余編碼;長期固定在某個(gè)范圍內(nèi)選詞用字,特別是青少年,無形中,將造成語言僵化,個(gè)性喪失。漢字使用的個(gè)性化特征,是漢語的一種語言特色。在字詞選用、語匯積累和習(xí)用句式等方面,人們都有自己的個(gè)性特點(diǎn)。個(gè)人常用的字詞很少,習(xí)用語匯更少。人們需要適合自己個(gè)性特點(diǎn)的輸入方法。一個(gè)好的輸入法,對(duì)于個(gè)人來說,應(yīng)該是簡單,易學(xué),不忘記;一字一碼,無重復(fù);無個(gè)人不用的字詞拼形取碼的“翻譯”量小,大腦及眼睛不易疲勞;不影響思維的流暢性。要達(dá)到這個(gè)要求,現(xiàn)有的漢字輸入方法,還有待改進(jìn)。
現(xiàn)有的漢字輸入編碼,無文字功能。漢字輸入編碼,是專為漢字信息處理而編制的符號(hào)系統(tǒng),種類繁多。音碼,按漢字讀音編碼,重碼多,與漢字的對(duì)應(yīng)性差,不能作為文字使用。形碼,按漢字結(jié)構(gòu)編碼,重碼少,與漢字的對(duì)應(yīng)性好,但漢字拆分過細(xì),不便于“見碼知字”,且無讀音,也不能作為文字使用。音形結(jié)合編碼,結(jié)合了兩者長處,有漢字讀音,有漢字的形義特征描述,與漢字的對(duì)應(yīng)性好,但是,因著眼于漢字的編碼輸入,讀音部分沒有標(biāo)志,不便于人機(jī)閱讀和分詞處理,漢字拆分過細(xì),不便于“見碼知字”,仍不能作為文字使用。
現(xiàn)有的音形結(jié)合編碼,以自然碼為代表。它以雙拼詞語輸入為主。其單字編碼,全碼碼長5碼,格式為音碼〔聲母+韻母〕+形碼〔義部部件+部件2+部件3〕。多數(shù)部件的代碼與其發(fā)聲相近。但是,在單字編碼方面,還存在形碼的共有缺點(diǎn)(1)漢字拆分過細(xì),拼形取碼量大。成字部件(約150個(gè))選用較少,使?jié)h字拆分過細(xì),拼形取碼“翻譯”量較大。(2)部件代碼仍有一定記憶量。(3)三部件以上漢字,結(jié)構(gòu)表達(dá)不全。(4)同一編碼,未能用于多種(包括標(biāo)準(zhǔn)和數(shù)字等)鍵盤。
現(xiàn)有的漢字字模,還存在缺點(diǎn)(1)數(shù)量大。有1個(gè)漢字,就需要1個(gè)字模。(2)未能表示所有漢字。未收錄漢字,沒有字模。(3)新造的漢字字模,缺乏規(guī)范性。(4)字?!氨娙艘惑w”,無個(gè)性特色。
本發(fā)明的目的是提供一種雙分漢字與一種雙分輸入法及一種合成字模,(1)為信息技術(shù)與文字改革實(shí)踐,提供一種相互兼容的具有技術(shù)屬性的文字形式;(2)逐步解決漢字“三難”,使?jié)h字簡化,在文字自身完成;(3)克服漢語拼音的缺點(diǎn),使字詞拼寫具有確定性;(4)實(shí)現(xiàn)用標(biāo)準(zhǔn)ASCII碼字符(或用標(biāo)準(zhǔn)ASCII碼字符與漢字或其形義特征,或用漢字部件或其形義特征橫排)記錄和傳輸漢語;(5)改進(jìn)漢字代碼,減少其數(shù)量(或種類),實(shí)現(xiàn)所有漢字的代碼表示,適應(yīng)文字改革需要;(6)改進(jìn)漢字輸入方法,以利于漢語的個(gè)性化表達(dá);(7)使?jié)h字輸入編碼具備文字功能;(8)改進(jìn)音形結(jié)合編碼,使?jié)h字拆分最大化,降低拼形取碼的難度;實(shí)現(xiàn)部件代碼不用記憶;漢字結(jié)構(gòu)全面表達(dá),以利識(shí)字教學(xué);將同一編碼,應(yīng)用于多種(包括標(biāo)準(zhǔn)和數(shù)字等)鍵盤;(9)精簡字模,實(shí)現(xiàn)所有漢字的字模表示,使字模風(fēng)格個(gè)性化和新造字模規(guī)范化。
本發(fā)明的目的是這樣實(shí)現(xiàn)的
(1)為信息技術(shù)與文字改革實(shí)踐,提供一種相互兼容的具有技術(shù)屬性的文字形式。雙分漢字,將漢字、漢語拼音和漢字輸入編碼融為一體。它在形態(tài)上,是漢語拼音與漢字(或其形義特征)的結(jié)合體,或?yàn)闈h字部件(或其形義特征)的結(jié)合體,“漢字輸入編碼”,是自身的一種樣式。它在功能上,將漢字、漢語拼音和漢字輸入編碼的功能相綜合。采用雙分漢字的全字符樣式,可以實(shí)現(xiàn)用標(biāo)準(zhǔn)ASCII字符記錄和傳輸漢語。采用雙分漢字,可以精簡漢語符號(hào)系統(tǒng),做到人機(jī)通用,利用現(xiàn)有信息技術(shù)改革文字,既能用于信息處理,又能用于文字改革實(shí)踐,實(shí)現(xiàn)信息技術(shù)與文字改革在文字使用上的相互兼容。不識(shí)字者,可以“比照”雙分漢字文本,“依樣”錄入信息,“不自覺”地輸入漢語讀音和形義特征,在現(xiàn)有技術(shù)幫助下,理解信息;還可以進(jìn)行自助式掃盲,即利用現(xiàn)有信息技術(shù),“自覺”地學(xué)習(xí)和使用雙分漢字,學(xué)習(xí)其它文化知識(shí)。
(2)逐步解決漢字“三難”,使?jié)h字簡化,在文字自身完成。漢字難讀,就用雙分漢字的讀音部分,給每個(gè)漢字標(biāo)注讀音。漢字難寫、難記,就在雙分漢字的形義特征部分,用少量的易于識(shí)記的形義特征來描述漢字的形體。將這些形義特征橫排,既簡化了漢字結(jié)構(gòu),又簡化了漢字的書寫。當(dāng)雙分漢字的形義特征描述,逐步過渡到全字符樣式,就可以逐步解決漢字“三難”。雙分漢字,用較少的形義特征來表示較多部件組成的漢字,有助于漢字部件的特征化、輪廓化、符號(hào)化用部件“讀音”作代碼,實(shí)現(xiàn)部件的“同音歸并”,可以減少部件代碼的數(shù)量;用部件的橫排書寫樣式,可以簡化和統(tǒng)一漢字的結(jié)構(gòu)類型;利用自身形態(tài)演化規(guī)律,可以逐步減少漢字的形義特征描述;在不增加現(xiàn)有漢字總量和不影響使用的前提下,在文字內(nèi)部,通過自身形態(tài)演化,起到簡化漢字的作用。移用現(xiàn)有信息技術(shù),有利于這一目的的實(shí)現(xiàn)。如,移用“屏幕提示”、“碼表反查”及“字詞頻率統(tǒng)計(jì)”等現(xiàn)有技術(shù),使字詞的形義特征描述,既有全面精細(xì)的全碼,又有實(shí)用簡潔的簡碼;使簡碼描述,在具體的語境中不產(chǎn)生歧意;做到簡化漢字的“字源”(來路)清楚,“簡化”實(shí)用。
(3)克服漢語拼音的缺點(diǎn),使字詞拼寫具有確定性。利用雙分漢字的形義特征描述,對(duì)漢字的字形和字義進(jìn)行描述,使同一讀音的漢字,具有各自不同的形義特征描述;再將讀音部分與形義特征部分結(jié)合,就能實(shí)現(xiàn)字詞拼寫與所有漢字字詞具有確定性。字詞拼寫的確定性,為漢語拼音走向漢字拼音化提供了前提條件,也為信息處理提供了方便。同時(shí),可以利用現(xiàn)有漢字信息技術(shù),如“高頻先見”,“用過提前”和“輸入提示”等,對(duì)漢字拼音化實(shí)踐進(jìn)行誘導(dǎo)、優(yōu)化和規(guī)范。
(4)實(shí)現(xiàn)用標(biāo)準(zhǔn)ASCII碼字符(或用標(biāo)準(zhǔn)ASCII碼字符與漢字或其形義特征,或用漢字部件或其形義特征橫排)記錄和傳輸漢語。利用雙分漢字,將其形義特征部分拼寫(或轉(zhuǎn)換)為字符樣式,就能用標(biāo)準(zhǔn)ASCII碼字符表示所有漢字。實(shí)現(xiàn)用標(biāo)準(zhǔn)ASCII碼字符記錄和傳輸漢語,就能在信息技術(shù)領(lǐng)域,實(shí)踐漢字拼音化。如采用標(biāo)準(zhǔn)ASCII碼字符與漢字或其形義特征相結(jié)合的方式,或采用漢字部件或其形義特征橫排格式,表示所有漢字,可得到雙分漢字的其它應(yīng)用樣式,實(shí)現(xiàn)漢語記錄和傳輸?shù)亩鄻有?,以滿足文字改革的需要。
(5)改進(jìn)漢字代碼,減少其數(shù)量(或種類),實(shí)現(xiàn)所有漢字的代碼表示,適應(yīng)文字改革需要。①采用雙分漢字的全字符樣式,用標(biāo)準(zhǔn)ASCII碼字符記錄和傳輸漢語,將精簡眾多的漢字“輸入碼”,將“輸入碼”、“機(jī)內(nèi)碼”統(tǒng)一為標(biāo)準(zhǔn)ASCII碼,可減少漢字代碼的種類和數(shù)量。若輸出為標(biāo)準(zhǔn)ASCII碼字符,字模庫容量可以做得很小。若輸出為雙分漢字的其它樣式,機(jī)內(nèi)碼、字模庫漢字部分的內(nèi)容,可定義為已編碼漢字,或常用漢字及部件,或漢字部件等。后兩種定義,可減少漢字代碼(含字模)的數(shù)量。輸出可以轉(zhuǎn)換為漢字、雙分漢字(部件橫排格式)及合成漢字等樣式(需要相應(yīng)的碼表和字模庫支持)。②采用雙分漢字其它樣式記錄漢語,可以減少輸入碼的數(shù)量,機(jī)內(nèi)碼、字模庫漢字部分的內(nèi)容,可定義為已編碼漢字,或常用漢字及部件,或漢字部件等。后兩種定義,可減少漢字代碼(含字模)的數(shù)量。輸出可以是漢字、雙分漢字(部件橫排格式)及合成漢字等樣式。③漢字是由部件合成的,雙分漢字具有字詞拼寫的確定性,對(duì)于未收錄漢字,也可采用上述兩種樣式表示,實(shí)現(xiàn)所有漢字的代碼表示。其輸出可定義為漢字、雙分漢字(包含部件橫排格式)及合成漢字等樣式。(4)采用雙分漢字,用規(guī)范的拼寫標(biāo)記漢字的讀音,用規(guī)范的字符(或字符與部件)編碼描述漢字的形義特征,生規(guī)范的漢字編碼,漢字的簡化與新字的添加,將不受現(xiàn)有編碼方式的制約,可以不斷吸收漢字拼音化成果,有利于文字改革實(shí)踐。
(6)改進(jìn)漢字輸入方法,以利于漢語的個(gè)性化表達(dá)。利用雙分漢字字詞拼寫的確定性,實(shí)現(xiàn)單字“一字一碼”,無重碼;選詞編碼,不用重碼。利用雙分漢字記錄和傳輸漢語的多樣性,可以選擇自己喜歡的語言記錄樣式;利用雙分輸入法編碼方式的多樣性,編碼格式自定義,可以選擇自己喜歡的文字輸入樣式;采用“按需選型,以碼選字”的方法,使用者可以根據(jù)自己的需要,選用編碼的類型以自己選用碼型提供的碼位,安排自己習(xí)用的字詞;在選擇文字樣式、輸入方式的同時(shí),還可以定義自己喜歡的輸出方式。學(xué)會(huì)一種輸入方法,可以在標(biāo)準(zhǔn)鍵盤和數(shù)字鍵盤等多種鍵盤上使用。
(7)使?jié)h字輸入編碼具備文字功能。雙分漢字的輸入編碼,是雙分漢字的全字符樣式。它具有讀音和形義特征部分,或只有形義特征部分。它既可作為現(xiàn)有漢字和雙分漢字自身的輸入編碼,又可作為記錄漢語的文字。讀音與形義特征分別描述,便于漢語的人機(jī)閱讀和分詞處理。
(8)改進(jìn)音形結(jié)合編碼,使?jié)h字拆分最大化,降低拼形取碼的難度;實(shí)現(xiàn)部件代碼不用記憶;漢字結(jié)構(gòu)全面表達(dá),以利識(shí)字教學(xué);將同一編碼,應(yīng)用于多種(包括標(biāo)準(zhǔn)和數(shù)字等)鍵盤。雙分部件,用其讀音的代碼表示,知讀音就知代碼。用其書寫的筆畫代碼表示,看筆畫就知代碼;讀音代碼與筆畫代碼的指代對(duì)象標(biāo)志在鍵盤上,不需要記憶?!皾h字兩分”,一個(gè)漢字只有“選出部分”和“剩余部分”,實(shí)現(xiàn)了漢字拆分最大化和漢字結(jié)構(gòu)的全面表達(dá),降低了拼形取碼的難度和有助于識(shí)字教學(xué)。由于漢字編碼可用字符表示,也可用數(shù)字表示,使同一編碼方案,能應(yīng)用于多種(包括標(biāo)準(zhǔn)和數(shù)字等)鍵盤。
(9)精簡字模,實(shí)現(xiàn)所有漢字的字模表示,使新造字模規(guī)范化和字模風(fēng)格個(gè)性化。①將漢字輸出(包括顯示、打印等)為雙分漢字(部件橫排)樣式,用少量的部件字模組合,輸出所有漢字,可以精簡字模,其漢字部分可以只保留部件字模。②采用合成字模,可以精簡字模,其漢字部分只保留部件字模,實(shí)現(xiàn)所有漢字的字模表示,輸出為合成漢字。漢字是由部件合成的。采用規(guī)范的部件字模,按照規(guī)定的合成數(shù)據(jù),生成規(guī)范的漢字字模,將精減字模庫的內(nèi)容,實(shí)現(xiàn)所有漢字的字模表示,并能實(shí)現(xiàn)新造漢字字模規(guī)范化。合成數(shù)據(jù),可以是按部件單獨(dú)描述的部件數(shù)據(jù),也可以是按結(jié)構(gòu)分類整體描述的結(jié)構(gòu)數(shù)據(jù),給人機(jī)應(yīng)用以方便。結(jié)構(gòu)復(fù)雜的部件字模,可以用結(jié)構(gòu)簡單的部件字模合成。利用個(gè)性化的部件字模,按照定義的合成數(shù)據(jù),生成個(gè)性化的合成字模,輸出為個(gè)性化的合成漢字。
比較現(xiàn)有技術(shù),本發(fā)明有如下優(yōu)點(diǎn)1.雙分漢字,將漢字、漢語拼音與漢字輸入編碼三種符號(hào)系統(tǒng)融為一體,精簡了現(xiàn)有漢語的符號(hào)系統(tǒng),有利于節(jié)省社會(huì)資源;雙分漢字的創(chuàng)造性在于,充分利用現(xiàn)有資源,使文字具有技術(shù)屬性,使輸入編碼具有文字屬性;有助于自助式學(xué)習(xí)(或掃盲)。
2.雙分漢字,為漢字簡化,提供了一條技術(shù)實(shí)現(xiàn)途徑。它使?jié)h字簡化,在文字自身結(jié)構(gòu)中演化,不增加新字。漢字的形義特征描述,在漢字拼音化過程中,逐漸簡約。特別是雙分漢字的部件橫排格式,使?jié)h字結(jié)構(gòu),一開始就統(tǒng)一為左右橫排,有利于書寫和識(shí)記。在信息技術(shù)領(lǐng)域,實(shí)踐漢字簡化。
3.雙分漢字,使?jié)h語拼音的字詞拼寫具有確定性;從漢語拼音走向漢字拼音化,可以通過自身的形態(tài)演化完成,實(shí)現(xiàn)漢字拼音化連續(xù)過渡。為漢語拼音走向漢字拼音化,提供一條技術(shù)途徑。
4.雙分漢字,既能表示漢字的讀音,克服現(xiàn)有漢語拼音的缺點(diǎn),又能繼承漢字讀音形義相結(jié)合的長處;既可閱讀,又可欣賞;實(shí)現(xiàn)人機(jī)共用,識(shí)字者與不識(shí)字者共用。
5.應(yīng)用雙分漢字,可實(shí)現(xiàn)用標(biāo)準(zhǔn)ASCII碼字符(或標(biāo)準(zhǔn)ASCII碼字符與漢字或其形義特征組合,或漢字部件或其形義特征組合)記錄和傳輸漢語,將改善現(xiàn)有漢字信息處理的條件。
6.采用雙分漢字,將減少漢字代碼的數(shù)量(或種類),實(shí)現(xiàn)所有漢字的代碼表示,使?jié)h字輸入編碼具有文字功能,漢字簡化和新造字詞將不受現(xiàn)有編碼方式的制約,有利于文字改革。
7.改進(jìn)了現(xiàn)有音形結(jié)合編碼。雙分輸入法,采用“漢字兩分”,使?jié)h字拆分最大化,降低了拼形取碼的難度;實(shí)現(xiàn)部件代碼不用記憶;漢字結(jié)構(gòu)全面表達(dá),有利于識(shí)字教學(xué);同一編碼,能用于多種(包括標(biāo)準(zhǔn)和數(shù)字等)鍵盤。
8.精簡字模,實(shí)現(xiàn)所有漢字的字模表示。采用雙分漢字(部件橫排格式)或漢字合成字模,可以將現(xiàn)有漢字字模精簡為只有漢字部件字模,并能表示所有漢字。特別是采用漢字合成字模,可以將所有漢字(包括新字)表示為合成漢字的樣式。合成漢字的普及應(yīng)用,將促進(jìn)漢字操作系統(tǒng)的改進(jìn)。
9.使用雙分漢字,是對(duì)社會(huì)資源的合理移用。在漢字信息處理中,使用雙分漢字,有利于漢字信息的記錄和傳輸?,F(xiàn)有的漢字輸入,比拼音文字多一道手續(xù),即上機(jī)前要學(xué)習(xí)編碼,上機(jī)后要不斷“翻譯”編碼。在漢字識(shí)記不易的基礎(chǔ)上,還得學(xué)習(xí)一套(或幾套)抽象的代碼符號(hào)。如用這些精力,來學(xué)習(xí)和使用雙分漢字,實(shí)踐漢字拼音化,是對(duì)社會(huì)資源的合理移用。
10.雙分漢字通過自身形態(tài)演化,具有多種應(yīng)用格式,可以適應(yīng)漢字拼音化進(jìn)程的多種需要,滿足不同人群的具體需求。
11.采用字模合成方法,生成合成漢字,為漢字信息技術(shù),增加了新的漢字輸出樣式,有利于現(xiàn)有操作系統(tǒng)的改進(jìn)。既可實(shí)現(xiàn)字模合成規(guī)范化,還可實(shí)現(xiàn)個(gè)人字模個(gè)性化。
12.雙分漢字的輸入方法,通用于(包括標(biāo)準(zhǔn)和數(shù)字等)多種鍵盤,可節(jié)省智力資源。
13.改進(jìn)漢字輸入方法,有利于漢語的個(gè)性化表達(dá)。一字一碼,選詞編碼,使?jié)h字輸入“返樸歸真”,節(jié)省社會(huì)資源。個(gè)性化的文字樣式,個(gè)性化的輸入方式,個(gè)性化的輸入碼表,個(gè)性化的輸出方式,有利于漢語的個(gè)性化表達(dá)。
以下對(duì)本發(fā)明作進(jìn)一步說明。
一、雙分漢字雙分漢字,是一種漢字拼音化信息化過渡文字(建議方案)。在形體上,它是漢語拼音與漢字(或其形義特征)的結(jié)合體,或?yàn)闈h字部件(或其形義特征)的結(jié)合體;在功能上,它將漢字、漢語拼音與漢字輸入編碼融為一體在應(yīng)用上,它具有拼寫樣式的多樣性,以適應(yīng)漢字拼音化實(shí)踐的需要;在技術(shù)上,它為信息技術(shù)和文字改革實(shí)踐,提供一種相互兼容的具有技術(shù)屬性的文字形式。如漢字“樹”,它的雙分漢字,具有①shu4(樹)、②shu4`樹(樹)、③shu4`木對(duì)(樹)、④shu4`mu-dui(樹)、⑤shu4`木(樹)、…、⑥`木對(duì)(樹)等多種樣式。這些樣式,都能用于漢字信息處理。所謂“雙分”,一是指它可以具有讀音和形義特征兩個(gè)部分,二是指它描述形義特征的主要方法是“漢字兩分”?!半p分漢字”的名稱,可以在漢字拼音化實(shí)踐中更新。其主要特征是(1)具有讀音部分和形義特征部分,(2)或只有形義特征部分;(3)字詞拼寫與所有漢字具有確定性;(4)采用標(biāo)準(zhǔn)ASCII碼字符記錄和傳輸漢語;(5)或?qū)?biāo)準(zhǔn)ASCII碼字符與漢字(或其形義特征)相結(jié)合記錄和傳輸漢語;(6)或?qū)h字部件(或其形義特征)橫排書寫記錄和傳輸漢語;(7)將信息技術(shù)與文字改革實(shí)踐相結(jié)合。雙分漢字,作為漢字拼音化信息化實(shí)驗(yàn)工具,它具有(1)開放性。在形式和內(nèi)容上,既能吸收,又能揚(yáng)棄。它的每個(gè)部分(包括分隔符號(hào))都可以根據(jù)實(shí)踐需要定義取舍。(2)確定性。字詞拼寫,與漢語及漢字相互對(duì)應(yīng),具有確定關(guān)系。(3)靈活性。可根據(jù)應(yīng)用場合和使用對(duì)象的不同,選用(或自動(dòng)生成)不同的實(shí)用樣式。(4)穩(wěn)定性。以某一部分的規(guī)范性,作為靈活應(yīng)用的前提。(5)技術(shù)性。將漢字拼音化與漢字信息技術(shù)相結(jié)合,將漢語符號(hào)系統(tǒng)賦予技術(shù)屬性。
雙分漢字,具有讀音部分和形義特征部分。讀音部分,描述漢語讀音,供人(或機(jī)器)閱讀。形義特征部分,描述與同音字詞的區(qū)別特征(在必要時(shí)使用),助人(或機(jī)器)理解,供人欣賞。
雙分漢字的“讀音部分”,是漢字拼音化規(guī)范的直接應(yīng)用。當(dāng)前,就是按照《漢語拼音方案》和《漢語拼音正詞法基本規(guī)則》的規(guī)定,拼寫字詞及記錄漢語。音節(jié)拼寫,可采用漢語拼音的全拼、雙拼以及其它樣式。全拼,是漢語拼音的標(biāo)準(zhǔn)樣式。音節(jié)中各個(gè)字母全部寫出。雙拼,將聲母、韻母或字母(或其組合)用1個(gè)字母代碼表示,1個(gè)音節(jié),最多2個(gè)字母,是全拼的簡化樣式。音節(jié)拼寫的其它樣式,包括現(xiàn)有的簡拼,或今后可能出現(xiàn)的新樣式。聲調(diào)標(biāo)在基本音節(jié)后面,用數(shù)字表示或用字母表示。這里,用數(shù)字“1、2、3、4”表示漢語四聲。聲調(diào)標(biāo)記,在實(shí)際應(yīng)用中,也可以省略。音節(jié)拼寫,盡量減少符號(hào)應(yīng)用,盡量采用基本音節(jié)樣式。漢語拼音,只有《漢語拼音方案》具有權(quán)威性和合法性。采用漢語拼音其它樣式標(biāo)注的漢字讀音,可以轉(zhuǎn)換為《方案》的樣式;如暫不轉(zhuǎn)換,可在一定范圍內(nèi),作為雙分漢字的特殊過渡形式;本說明,不作進(jìn)一步敘述。非漢語讀音的漢字,如“日韓漢字”,可以用漢語拼音標(biāo)注當(dāng)?shù)氐囊?guī)范讀音,或不標(biāo)讀音,只采用形義特征描述,在一定范圍內(nèi)使用。
雙分漢字的“形義特征部分”,是對(duì)漢字傳統(tǒng)的繼承和發(fā)揚(yáng)。形義特征部分的作用,主要是描述漢語中同音字詞在字形和字義上的區(qū)別特征。這些特征,表現(xiàn)在漢字的形態(tài)、結(jié)構(gòu)類型、部件(或筆畫)組合與字詞聯(lián)系等方面。描述這些特征,就是找出字詞與別的同音字詞的區(qū)別,是實(shí)現(xiàn)字詞拼寫與所有漢字字詞具有確定性的根本方法。形義特征部分,具有開放性,即特征的描述方法和選用數(shù)量不受限制,可以根據(jù)實(shí)際需要確定,在使用中具有很大的靈活性。這種靈活性,又以一定規(guī)范為基礎(chǔ)。形義特征的規(guī)范描述,以字形特征為主,字義特征為輔,在特征數(shù)量上力求盡“數(shù)”。形義特征的靈活選用,以不出現(xiàn)歧義為前提。盡量減少特征描述的數(shù)量,使雙分漢字努力向單純的漢語拼音靠攏。形義特征的靈活選用,還可借助于已有的信息技術(shù)。一種簡易做法是①自動(dòng)記錄已輸入雙分漢字;②將各項(xiàng)特征存放于數(shù)據(jù)庫表;③將正在輸入的雙分漢字與已有記錄對(duì)照;④如出現(xiàn)雷同,給出提示,并提供規(guī)范描述;⑤經(jīng)確認(rèn)后,自動(dòng)補(bǔ)正現(xiàn)在(或先前)輸入的雙分漢字。利用形義特征部分,還可以描述一些信息字符現(xiàn)象。如,“xiao`《∶·)”,表示“笑”。描述形義特征的方法,主要有漢字兩分、筆畫代碼和聯(lián)詞取字等。
漢字兩分,是根據(jù)漢字在“字形”方面的特征來描述漢字。它既是漢字特征描述方法,又是漢字拆分方法。它從漢字的結(jié)構(gòu)形式、部件(筆畫)組合、文字意義、邏輯關(guān)系和審美習(xí)慣等方面,把漢字分成兩個(gè)部分。其中,結(jié)構(gòu)形式和部件(筆畫)組合,是漢字兩分的主要思路。將漢字兩分,先選出的叫“選出部件”(或叫做“選出部分”,簡稱“選出”),余下的就叫做“剩余部件”(或叫做“剩余部分”,簡稱“剩余”)。選取的順序是①按書寫先后(或筆順)選取;②或按“成字優(yōu)先”、“取大優(yōu)先”的規(guī)則選取。漢字兩分的一般規(guī)則包括①相離可分、②相連可分、③成字優(yōu)先、④取大優(yōu)先和⑤意連不分。其規(guī)則定義為①相離可分,是指漢字在結(jié)構(gòu)上存在相互分離的幾部分,就可兩分;②相連可分,是指漢字在結(jié)構(gòu)上可看作由幾個(gè)部件連接而成,就可兩分③成字優(yōu)先,是指優(yōu)先考慮兩分為成字部件的方案;④取大優(yōu)先,是指優(yōu)先考慮兩分為結(jié)構(gòu)最大的部件;⑤意連不分,是指筆意相連的幾個(gè)離散筆畫,看作一個(gè)整體,如 “爫”,不拆分。這些規(guī)則,在具體應(yīng)用中需要綜合考慮。漢字兩分得到的“選出”和“剩余”兩部分,有讀音的,用其讀音作為代碼,無讀音的,用其書寫筆畫作為代碼(或用其它形義特征代碼表示)。漢字兩分舉例①“甜”,看作“舌”與“甘”;“霰”,看作“雨”與“散”;按結(jié)構(gòu)類型兩分;“甜”,左右結(jié)構(gòu);“霰”,上下結(jié)構(gòu)。②“弗”,看作“弓”與 ;“井”,看作“二”與 按部件組合兩分。③“乂”,看作“丿”與“”;“十”,看作“一”與“丨”;按筆畫組合兩分。④“白”,看作“丿”與“日”;“豐”,看作“三”與“丨”;按筆畫與部件組合兩分。⑤“微”,看作“彳”與 “荒”,看作“艸”與“巟”;按文字意義兩分;把 “巟”看作字。⑥“乙”,獨(dú)筆字,看作“乙(有筆畫)”與“″(無筆畫)”;按邏輯關(guān)系兩分;可用字母“w”表示無筆畫。⑦“山”,看作“丨”(選出部分)與“凵”(剩余部件);按邏輯關(guān)系兩分;筆畫的有無,部件的選出和剩余,是一種邏輯關(guān)系。⑧“爵”,看作 和 ;“器”,看作 和“犬”;按審美習(xí)慣兩分;“爵”分成上下均等兩部分;“器”不分成“哭”與“吅”。漢字兩分,可以克服現(xiàn)有單字拆分的缺點(diǎn)。如“微”字,以自然碼為例,按部件對(duì)應(yīng),可以拆分為“彳、山、一、幾、攵”等5個(gè)部件,拆分較細(xì);編碼最多取3碼,丟掉2個(gè)部件,結(jié)構(gòu)表達(dá)不全;部件代碼需要記憶。漢字兩分,將“微”字拆分為“彳”和 ,兩個(gè)部分,實(shí)現(xiàn)了漢字拆分最大化和漢字結(jié)構(gòu)全面表達(dá)。在漢字兩分中,象“彳”、“山”、“一”、“幾”、“攵”等部件,都能用讀音作為代碼。如有必要,漢字兩分可以逐級(jí)進(jìn)行。如“?!?,可先拆分為“礻”與“畐”兩部分;“畐”,又可拆分為 與“田”兩部分; ,還可以拆分為“一”與“口”兩部分;“?!钡娜炕静考椤办辍⒁?、口、田”。漢字兩分采用“成字優(yōu)先”規(guī)則,目的是使?jié)h字拆分后,部件盡量能認(rèn),盡量采用部件的讀音作代碼,以利于漢字拼音化。但識(shí)字水平(多少),存在個(gè)體差異。在具體應(yīng)用中,還要考慮,盡量拆分為“一般能認(rèn)漢字”(近似GB中的一級(jí)漢字)。象“鬲”,就不屬于“一般能認(rèn)漢字”。這種成字部件在“漢字兩分”中有近200個(gè)(在GB范圍內(nèi)),約占部件總數(shù)的10%。可以這樣處理①保留其讀音代碼,供認(rèn)識(shí)者使用;②提供筆畫代碼(或其它形義特征代碼),供不認(rèn)識(shí)者使用;③或?qū)ζ淅^續(xù)拆分,取下一級(jí)部件作為代碼;④在雙分輸入法中,可采用“漢字(和部件)候選”等現(xiàn)有技術(shù)加以解決。在“漢字兩分”中,有時(shí)會(huì)出現(xiàn)“同讀”現(xiàn)象,即部件的音節(jié)(或基本音節(jié))與漢字的音節(jié)(或基本音節(jié))相同。對(duì)于“同讀”,可作如下處理①保留現(xiàn)有部件的讀音代碼,對(duì)其進(jìn)行下一級(jí)兩分,再增加1個(gè)新代碼;②舍去現(xiàn)有部件的讀音代碼,對(duì)其進(jìn)行下一級(jí)兩分,提取1個(gè)新代碼。兩分部件的讀音代碼,可以表示為漢語拼音的全拼樣式,或雙拼樣式,或其它樣式。對(duì)成字部件中的多音字,取其“一般讀音”作為代碼。所謂“一般讀音”,就是在多音字的讀音中,較通行的一個(gè)讀音具體表現(xiàn)為,使用頻率高,組詞記錄多;本說明暫將《新華字典》中標(biāo)注為“”的讀音作為“一般讀音”。雙分漢字的部件,可以叫做雙分部件(或兩分部件)。雙分部件用讀音作代碼,可實(shí)現(xiàn)部件的“同音歸并”,有利于漢字簡化。
筆畫代碼,根據(jù)漢字或部件的書寫筆畫的“特征”來描述漢字。它由基本碼和特征碼組合而成。這里列舉兩種。一、小筆畫代碼(簡稱“筆畫代碼”),用10個(gè)代碼來表示筆畫“特征”。(1)“數(shù)字代碼”樣式①將基本筆畫分為“橫豎撇捺折拐”六種;其中,“折”為運(yùn)筆向順時(shí)針轉(zhuǎn),“拐”為運(yùn)筆向反時(shí)針轉(zhuǎn)“折”與“拐”分列,是考慮到它們包含的筆形太多;用“1、3、5、7、9、0”數(shù)碼表示,叫做基本碼。②以筆畫與其它筆畫有無交叉作為“特征”,凡是“橫豎撇捺”筆畫上有其它筆畫交叉的,用“2、4、6、8”數(shù)碼表示,叫做特征碼。兩者組合,“1、2、3、4、5、6、7、8、9、0”,這十個(gè)數(shù)碼就叫做“橫豎撇捺折拐”的“數(shù)字代碼”。按書寫順序,用它給字符編碼。如“ナ”,筆畫代碼為“26”,“丆”,筆畫代碼為“15”。(2)“字母代碼”樣式數(shù)字代碼中的數(shù)碼“1、2、3、4、5、6、7、8、9、0”,如用字母“g、h、f、j、d、k、s、l、a、m”替代,即得到“字母代碼”。如上面的“ナ(26)”,字母代碼為“hk”,“丆(15)”,字母代碼為“gd”。字母代碼,比較適合標(biāo)準(zhǔn)鍵盤使用。字母代碼,也可用一組其它字母替代。二、大筆畫代碼,用25個(gè)字母代碼來表示筆畫“特征”。①將基本筆畫分為“橫豎撇捺折”五種,分別用數(shù)碼“1、2、3、4、5”表示,叫做“基本碼”;這里的筆畫“折”,包括前面述及的筆畫“拐”在內(nèi);②根據(jù)筆畫與別的筆畫的“交連”情況,分為“獨(dú)、首、中、尾、交”五種狀態(tài),又分別用數(shù)碼“1、2、3、4、5”表示,叫做“特征碼”。這五種狀態(tài)定義為“獨(dú)”,不與別的筆畫相交連;“首”,起筆與別的筆畫相連接;“中”,筆畫中部與別的筆畫相連接;”尾”,筆畫尾部與別的筆畫相連接;“交”,筆畫與別的筆畫相交叉。將基本碼與特征碼相組合,就得到25種大筆畫代碼。如“兒”,大筆畫代碼為“3151”,“幾”,大筆畫代碼為“3252”。每種大筆畫代碼,又可用1個(gè)字母符號(hào)表示。大筆畫代碼的數(shù)字組合與對(duì)應(yīng)字母及其鍵位定義,見“雙分漢字與雙分輸入法的鍵盤定義”部分。兩種筆畫代碼,從字符筆畫上直接讀出,不需要記憶;代碼的相應(yīng)筆型可以標(biāo)志在鍵盤上。
聯(lián)詞取字,是根據(jù)漢字在“字義”方面的特征來描述漢字。常用漢字的60%都可以組成常用雙字詞組。平均每個(gè)單字,至少與7個(gè)常用雙字詞組相關(guān)聯(lián)。這些單字,平時(shí)以聯(lián)詞方式應(yīng)用。如需單獨(dú)輸入,則先輸入該字的讀音,作為讀音部分,再輸入另一字的讀音,作為形義特征部分;如取聯(lián)詞的后一個(gè)字,則在字末加“~”,表示簡省。(1)某字在詞組前,如“偉”,寫作“wei3`da4”(“偉大”的“偉”)(2)某字在詞組后,如“密”,寫作“mi4`yan2~”(“嚴(yán)密”的“密”)。聯(lián)詞取字,存在“一字多碼”現(xiàn)象,但并不影響理解和拼寫的確定性。因?yàn)?,常用詞組的重碼率不高,低于20%;有重碼的詞組,還可以增加形義特征描述的長度。聯(lián)詞取字,適用于常用字詞的單字字義特征描述。單字的聯(lián)詞取字拼寫,還可以作為另一字詞的形義特征,形成聯(lián)詞取字的循環(huán)疊套格式,供信息處理使用。
雙分漢字對(duì)漢字形義特征的描述,還可以采用其它方式。(1)結(jié)構(gòu)類型。以漢字的結(jié)構(gòu)類型作為漢字的形義特征。漢字結(jié)構(gòu)類型,一般有左右結(jié)構(gòu)、上下結(jié)構(gòu)、雜合(包圍)結(jié)構(gòu)等三個(gè)大類。它可以分別用數(shù)碼“1、2、3”表示。每個(gè)大類中,又有多種樣式,將其排序,又分別用數(shù)碼“123…”表示。如“霞”字,屬上下結(jié)構(gòu)(“2”)中的第4種樣式,記作“24”。(2)字形特征。形近漢字(或部件),在字形形態(tài)上存在細(xì)微區(qū)別,也可作為漢字形義特征。如“囗、口”有大小不同、“日、曰”有長扁之分。將這些“大、小、長、扁”作為形義特征,可以分別用其聲母“d、x、c、b”表示。(3)筆畫差異。相同的筆畫,在書寫中也有“長短”差異,“平豎”不同。如“土、士、未、末”等,存在筆畫的“長短”差異??梢杂谩伴L短”的聲母“c、d”表示。(4)交連部位。相同筆畫,在書寫中與別的筆畫相交連,也有各種不同的細(xì)微區(qū)別。如交連部位,有“首、中、尾”的區(qū)別?!笆住?,指筆畫的開頭;“中”,指筆畫的中部;“尾”,指筆畫的末端。如,“刀、力”,書寫筆畫相同,但交連部位不同,一個(gè)是“中首”交連,一個(gè)是“中中”交連。這種“首中尾”區(qū)別,可以用拼音字母“s、z、w”表示。(5)筆畫細(xì)分。相同筆畫大類,如“折”,包含很多具體的筆畫。如“勹、 ”等部件的第二筆,在漢字輸入筆畫分類中,同屬“折”類,但它們的筆畫名稱不同??捎脻h字筆畫的名稱表示這些漢字部件,并用來作為漢字的形義特征?!百?、 ”,筆畫名稱分別是“撇橫折鉤”、“撇橫鉤”、“堅(jiān)撇橫折鉤”??蓪⒐P畫名稱用其聲母表示,如“撇橫折鉤”,表示為“phzg”,作為部件代碼。(6)部件命名。一些結(jié)構(gòu)偏旁(部件)沒有名稱,可給這些偏旁(部件)統(tǒng)一命名,以便于用讀音編碼(或自然語音)輸入。如 (“敖”字旁)、 (“寒”字頭)等,沒有統(tǒng)一命名,就不便于用讀音描述。若給予“ao”、“han”等讀音代碼,有時(shí)就比筆畫代碼方便。(6)規(guī)范應(yīng)用。如不要求“拆分最大化”,可利用現(xiàn)有漢字的研究成果,如規(guī)范部件、五筆畫等,對(duì)漢字進(jìn)行形義特征描述。這些“其它”方式的形義特征描述,可用于特殊情況,比如,對(duì)兩個(gè)形近部件或相同筆畫作精細(xì)描述??捎脭?shù)字或字母作代碼;相同的代碼符號(hào),在不同的前提下,表示不同的區(qū)別特征。
雙分漢字的拼寫原理。雙分漢字的一般樣式為〔讀音部分〕`〔形義特征部分〕。讀音與形義特征兩部分間用分隔符號(hào)“`”隔開(也可定義為別的符號(hào),或不用符號(hào)隔開)。讀音部分,前面是字詞的漢語拼音,后面是漢語聲調(diào)。音節(jié)拼寫,遵照《漢語拼音方案》和《漢語拼音正詞法基本規(guī)則》的規(guī)定。形義特征部分,用漢字、漢字部件或其它字符,描述漢字形義特征;每個(gè)特征間用分隔符號(hào)“-”隔開(或不用符號(hào)隔開,或定義為別的符號(hào),如“()、·、+”等)。形義特征的取用,根據(jù)需要確定。(1)單字拼寫。如“霸”字,讀音為“ba4”,聲調(diào)代碼為“4”,形義特征取全部部件,為“雨、革、月”,代碼是其讀音,相應(yīng)為“yu、ge、yue”,其全碼樣式(即寫出所有形義特征代碼)的雙分漢字為“ba4`yu-ge-yue”(霸),或“ba4`yu-(ge-yue)”(霸);形義特征,取1個(gè)部件,如取“雨”,代碼是其讀音“yu”,其簡碼樣式(即寫出部分形義特征代碼)的雙分漢字為“ba4`yu”(霸)。單字的形義特征也可表示為漢字、漢字部件或其它字符樣式,如“霸”字,其全碼樣式為“ba4`雨(革月)”(霸),簡碼樣式為“ba4`雨”(霸)。(2)詞組拼寫。如“前進(jìn)”,讀音為“qianjin24”,聲調(diào)代碼為“24”,形義特征取全部部件,為“、刖、井、辶”,代碼是其讀音或筆畫代碼,相應(yīng)為“sdg、yue、jing、sas”,其全碼樣式的雙分漢字為“qianjin24`sdg-yue-jing-sas”(前進(jìn)),或“qianjin24`(sdg-yue)-(jing-sas)”(前進(jìn));形義特征,取1個(gè)部件,如取“月”,代碼是其讀音“yue”,其簡碼樣式的雙分漢字為“qianjin`yue”(前進(jìn))。詞組的形義特征也可表示為漢字部件樣式,如“前進(jìn)”,全碼為“qianjin24(刖)-(井辶)”(前進(jìn)),簡碼也可看作“qianjin`月”(前進(jìn))。(3)雙分漢字的拼寫,也可由輸入法提供。其簡便的做法是,利用現(xiàn)有漢字輸入技術(shù),建立雙分漢字碼表,通過輸入漢字或其代碼,反查雙分漢字的拼寫編碼,可得到雙分漢字的多種樣式的拼寫編碼。由“雙分漢字”可直接讀出雙分輸入法編碼,如“ba`yu”(霸)和“qianjin`yue”(前進(jìn)),其雙拼輸入編碼是“ba`yu”(霸)和“qmjn`yt”(前進(jìn)),或省略分隔符號(hào),為“bayu”(霸)和“qmjnyt”(前進(jìn))。雙分漢字的讀音部分,可以表示成“全拼”或“雙拼”樣式,以及其它樣式。在漢語拼音中,韻母“ü”,在需要寫成“ü”時(shí),可用字母“v”代替。雙分漢字的拼寫,除一般樣式外,還可以有多種靈活的拼寫樣式,以適應(yīng)漢字拼音化實(shí)踐的需要。
雙分漢字的分隔符號(hào)與漢語拼音的隔音符號(hào)。兩者的表示符號(hào),可以分別定義,也可以統(tǒng)一定義。分別定義,雙分漢字的分隔符號(hào),在讀音與形義特征之間,用符號(hào)“`”表示;在多個(gè)形義特征之間,用符號(hào)“-”表示;與漢語拼音的隔音符號(hào)相區(qū)別;也可以定義為別的符號(hào)。統(tǒng)一定義,將雙分漢字的分隔符號(hào)用漢語拼音的隔音符號(hào)“’”表示。文字符號(hào)的定義,需要文字改革實(shí)踐的檢驗(yàn),所以,雙分漢字的符號(hào)定義,具有靈活性。
雙分漢字的拼寫樣式。雙分漢字具有開放性結(jié)構(gòu),前后兩部分,可以不斷吸收漢字拼音化成果,可以根據(jù)實(shí)踐需要定義為多種樣式。雙分漢字,按格式的結(jié)構(gòu)和拼寫字符的采用,可以分為典型樣式、特殊樣式和簡化樣式。典型樣式,讀音部分(含聲調(diào))和形義特征部分齊全;拼寫字符為單一的標(biāo)準(zhǔn)ASCII碼字符。特殊樣式,是雙分漢字的特殊應(yīng)用,在格式的結(jié)構(gòu)或拼寫字符的采用上不同于典型樣式。簡化樣式,是對(duì)典型樣式和特殊樣式的簡化應(yīng)用。雙分漢字,按拼寫字符的采用,可以分為全字符樣式、字符與漢字(或部件)組合樣式、漢字(或部件)組合樣式及數(shù)字代碼樣式。字符樣式,即單一的標(biāo)準(zhǔn)ASCII碼字符,包含字母、數(shù)字和符號(hào)。字符與漢字(或部件)組合樣式,在字符樣式的基礎(chǔ)上,還增加了漢字(或部件)字符的采用。漢字(或部件)組合樣式,用單一的漢字(或部件)字符寫成。數(shù)字代碼樣式,用數(shù)字作為代碼來表示雙分漢字,或由別的樣式,經(jīng)過“字/數(shù)”轉(zhuǎn)換得到。這里的字符樣式、字符與漢字(或部件)組合樣式、漢字(或部件)組合樣式及數(shù)字代碼樣式,是不同的樣式類別,不具有(字符與字母、數(shù)字等)文字意義上的包含關(guān)系。雙分漢字實(shí)用樣式的多樣性,遵從自身的形態(tài)演化規(guī)律,并不影響拼寫的確定性,它給漢字拼音化實(shí)踐提供了多種選擇,它給實(shí)際應(yīng)用以較大的靈活性。使用者,可根據(jù)自身情況,選用適合自己的拼寫樣式,進(jìn)入漢字拼音化實(shí)踐。
1.典型樣式 格式為字詞=〔讀音(含聲調(diào))〕+〔形義特征〕(1)全拼格式 Wei4 renmin22`ds fuwu24`yue(為人民服務(wù));采用漢字兩分,對(duì)字詞進(jìn)行形義特征描述,標(biāo)聲調(diào),形義部分的“ds”為“人”的筆畫代碼;“yue”,“服”字的選出部件“月”的讀音代碼;Wei4 renmin22 fuwu24(為人民服務(wù));“聯(lián)詞應(yīng)用”,標(biāo)聲調(diào)近似漢語拼音。
(2)雙拼格式 Wz4 rfmn22`ds fuwu24`yt(為人民服務(wù));“雙拼”,漢語拼音的緊縮拼寫樣式;Wz4 rfmn22 fuwu24(為人民服務(wù));雙拼,“聯(lián)詞應(yīng)用”。
2.簡化應(yīng)用 對(duì)典型樣式與特殊樣式的活用,其前提是,某一部分必須確定。讀音部分,當(dāng)前,可只簡略聲調(diào);形義特征部分,可根據(jù)需要,簡約形義特征描述。當(dāng)形義特征逐步減少,雙分漢字將逐步向漢語拼音靠攏。在不出現(xiàn)歧義時(shí),還可省略分隔符號(hào)。本說明書中,在讀音部分和形義特征部分之間,有“+”號(hào)的格式表達(dá)式,其分隔符號(hào)具有“用”與“不用”兩種選擇;無“+”號(hào)的格式表達(dá)式,其分隔符號(hào)只有“用”或“不用”一種選擇。格式中的部件(或特征)序號(hào)“n”,表示取至最末1個(gè)部件(或特征)。雙分漢字的“聯(lián)詞應(yīng)用”,近似于漢語拼音。下面,以雙拼樣式為例,讀音部分不帶聲調(diào)。
(1)〔讀音〕+〔形義特征代碼〕格式 如,Wz rfmn`ds fuwu`yt(為人民服務(wù))。
(2)〔讀音〕+〔有讀音的部件〕格式 如,Wz rfmn fuwu`yt(為人民服務(wù))。
(3)〔讀音〕格式如,Wz rfmn fuwu(為人民服務(wù));雙拼,只有讀音部分,已近似漢語拼音。
(4)〔讀音〕〔形義特征〕格式 如,rfmn人民(人民);省略分隔符號(hào)。
3.特殊樣式用形義特征部分區(qū)分同音字詞、詞義,定義詞性,記錄方言、文言,給難字注音,應(yīng)急表達(dá),或在形義特征部分使用漢字、部件或其它字符、描述漢字結(jié)構(gòu)等。如①〔讀音〕+〔漢字〕格式如,yt`刖(刖),mi`冖(冖),xnug11`新生(新生),或拼寫為 yt刖(刖),mi冖(冖),xnug11新生(新生),省略分隔符號(hào);用于給難字注音、文言拼寫,也可用來進(jìn)行識(shí)字教學(xué)和推廣普通話,或改進(jìn)現(xiàn)有的機(jī)器(語音)閱讀。
②〔讀音〕+〔字詞區(qū)別〕格式如,gsui(公事),gsui`式(公式);用詞組中某字或某部件作為突出形義特征,將詞組與別的同音詞組相區(qū)別。使其在語境中,不出現(xiàn)歧義。
③〔讀音〕+〔詞義區(qū)別〕格式如,nzxn(內(nèi)心,心里頭),nzxn`jh(內(nèi)心,幾何概念,用“jh”表示“幾何”);在形義部分對(duì)詞義范疇加以說明,將詞組與別的同音詞組相區(qū)別。
④〔讀音〕+〔詞性區(qū)別〕格式 如,klgr`mc(開關(guān),名詞,用“mc”表示“名詞”),klgr`dc(開關(guān),動(dòng)詞,用“dc”表示“動(dòng)詞”);同是“開關(guān)”,但詞性不同在形義特征部分標(biāo)明詞性。
⑤〔讀音〕+〔聯(lián)詞特征〕格式 如,xn`tb(“心頭”的“心”),或,tb`xn~(“心頭”的“頭”);“聯(lián)詞取字”,在聯(lián)詞應(yīng)用中定義單字。取聯(lián)詞的后一字,須加一字符“~”,表示該字。
⑥〔字詞讀音〕+〔字詞意義〕格式如,giga`bubmiuli(尷尬);有時(shí),會(huì)遇到“會(huì)說不會(huì)寫”的尷尬。如,“尷尬”,不會(huì)寫,若認(rèn)為是“不便處理”的意思,就直接在形義部分加入“不便處理”的漢語拼音(雙拼)“bubmiuli”,起到應(yīng)急表達(dá)的作用。
⑦〔語音或方音〕+〔注釋〕格式如,gege`jclo(角落);方音、方言具有特定的語言風(fēng)格。如出現(xiàn)漢字或漢語拼音不便表達(dá)的情況,可采用“標(biāo)注語音,在形義部分用普通話注釋”的辦法來解決。
(8)〔讀音(標(biāo)聲調(diào)\不標(biāo)聲調(diào)〕格式 如,ziybwhgo4222\ziybwhgo(自由王國);采用雙拼加聯(lián)詞應(yīng)用,詞形整齊,又近似漢語拼音。
(9)`〔部件1〕+〔部件2〕,或`〔部件1〕+〔部件2〕+…+〔部件n〕格式如,`亻故(做), 目2(冒),`疒丙3(病);省去了讀音部分,是雙分漢字的部件橫排樣式。`〔部件1〕+〔部件2〕。是漢字的雙分寫法,將合體漢字轉(zhuǎn)換為左右結(jié)構(gòu)。用數(shù)字“2”表示該字原為上下結(jié)構(gòu),用數(shù)字“3”表示該字原為雜合結(jié)構(gòu)。也可用 等字符表示原漢字結(jié)構(gòu),如,`亻故(做), 目 (冒),`疒丙 (病)。其全字符樣式可作為漢字雙分輸入的形碼。
(10)〔讀音〕+〔部件組合〕+〔結(jié)構(gòu)類型〕,或〔讀音〕+〔部件1+部件2+…+部件n〕+〔結(jié)構(gòu)類型〕格式如,ba`口八 (“叭”,左右結(jié)構(gòu)),vi`口 (“只”,上下結(jié)構(gòu))對(duì)漢字部件及結(jié)構(gòu)類型進(jìn)行細(xì)致描述結(jié)構(gòu)字符 等,或其它相應(yīng)代碼,又可作為漢字字模合成數(shù)據(jù)的代碼;這種拼寫樣式,可用于漢字字模的合成。格式中,前者可不必將部件盡“數(shù)”描述。
(11)〔讀音〕+〔選出〕+〔剩余〕+〔結(jié)構(gòu)〕+[〔讀音或筆畫代碼〕+〔選出〕+〔剩余〕+〔結(jié)構(gòu)〕]2+…+[〔讀音或筆畫代碼〕+〔選出〕+〔剩余〕+〔結(jié)構(gòu)〕]N格式用其表示雙分漢字,或用其作為漢字代碼;將漢字逐級(jí)兩分,精細(xì)描述。如,“?!?,第一級(jí)兩分,看作“礻”和“畐”,左右結(jié)構(gòu),寫作 ;第二級(jí)兩分,“畐”,看作 和“田”,上下結(jié)構(gòu),寫作 ;第三級(jí)兩分, 看作“一”和“口”,上下結(jié)構(gòu),寫作 ;“?!钡娜績煞诌^程表示為“?!保健办辍?“畐”+ +[“畐”+ +“田”+ ]+[ +“一”+“口”+ ]。若部件選用順序確定,等式右邊,各級(jí)兩分中的“讀音或筆畫代碼”部分,可以省略。如,“?!保健办辍?“畐”+ +[ +“田”+ ]+[“一”+“口”+ ]。
(12)〔讀音〕+〔特征1+特征2+…+特征n〕格式 比格式(10)減少了結(jié)構(gòu)類型描述,但“特征”比“部件”內(nèi)涵要多。對(duì)漢字的形義特征進(jìn)行全面描述,特征取用力求盡“數(shù)”,可用于改進(jìn)現(xiàn)有漢字代碼。
(13)〔讀音〕+〔信息字符組合〕格式 利用雙分漢字,描述一些信息字符組合的“文字”現(xiàn)象。如,“xiao`《∶·)”,表示“笑”。
(14)數(shù)字代碼格式 用數(shù)字代碼來表示雙分漢字;或由其它格式經(jīng)過“字/數(shù)”轉(zhuǎn)換得來??勺鳛橐环N數(shù)字輸入編碼使用。也可作為雙分漢字的機(jī)器代碼使用。
雙文混用。雙分漢字與漢字混用(或漢語拼音與漢字混用),看起來缺乏規(guī)范,實(shí)則是一種互補(bǔ)和過渡,是繼承與發(fā)揚(yáng)的表現(xiàn)。如句子,“黃he zhi水 tian上lai?!?黃河之水天上來。),似比“黃河之水天上來。”簡約,有節(jié)律。如詞組,“黃he”(黃河)、“貢xian”(貢獻(xiàn))、“發(fā)`貝才”(發(fā)財(cái))和“發(fā)fen圖qiang”(發(fā)憤圖強(qiáng))等,既簡化了漢字書寫,又增加了字詞拼寫的確定性。
雙分漢字的使用。雙分漢字,在讀音拼寫上,與使用漢語拼音一樣,只是在出現(xiàn)歧義(不確定拼寫)時(shí),才增加形義特征描述,對(duì)同音字詞加以區(qū)別在形義特征描述上,與使用漢字一樣,形義特征,是對(duì)漢字形體的繼承和簡化。雙分漢字與漢字具有確定的對(duì)應(yīng)關(guān)系,在使用中,漢語的詞匯、語法和修辭等規(guī)則不變,可直接應(yīng)用。只識(shí)漢字,不懂拼音者,可先采用字形特征描述,如選用漢字部件橫排樣式,進(jìn)入雙分漢字。只會(huì)拼音,不識(shí)漢字者,可先采用聯(lián)詞應(yīng)用、聯(lián)詞取字和標(biāo)記聲調(diào)等方式進(jìn)入雙分漢字。既懂拼音,又識(shí)漢字者,最好直接選用標(biāo)準(zhǔn)ASCII碼字符樣式,進(jìn)入雙分漢字。不識(shí)字者,也可以利用雙分漢字錄入和理解信息,進(jìn)行自助式學(xué)習(xí)。在雙分輸入法幫助下,不論以何種方式進(jìn)入,都能夠靈活應(yīng)用雙分漢字。雙分漢字實(shí)用樣式的多樣性,并不影響拼寫的確定性。利用現(xiàn)有漢字信息技術(shù),可以輔助雙分漢字的學(xué)習(xí)和使用。(1)輸入漢字,學(xué)用雙分漢字。給雙分漢字建立一個(gè)碼表,利用現(xiàn)有輸入法的編碼反查功能,可得到雙分漢字拼寫代碼。(2)采取輸入提示,幫助正確使用雙分漢字。利用現(xiàn)有輸入法的提示功能,對(duì)同拼字詞,簡碼應(yīng)用等給以提示。(3)利用數(shù)據(jù)庫表,建立個(gè)人字詞庫,對(duì)字詞的形義特征進(jìn)行提示,提供選用。
雙分漢字,在輸入和輸出方面,可以實(shí)現(xiàn)“多種樣式輸入”和.“多種樣式輸出”。如,一個(gè)漢字,可以有多種輸入編碼樣式;一個(gè)輸入編碼,可以輸出為不同樣式的雙分漢字。
雙分漢字的自身形態(tài)演化。雙分漢字的典型樣式,是漢語拼音與漢字(或其形義特征)的結(jié)合體,在文字形態(tài)上,具有自身特點(diǎn),其讀音和形義特征部分,可以在使用中不斷演化。以漢字“糊”為例。(1)漢字糊(糊),雙分漢字的特殊樣式,可看做簡省了讀音部分。(2)拼音`漢字hu2`糊(糊),形義特征為整個(gè)漢字,可看作是給漢字注音。(3)拼音`漢字部件組合hu2`米-古-月(糊),形義特征為漢字的全部部件組合。(4)拼音`選出部件-剩余部件hu2`米-胡(糊),形義特征為雙分漢字的“漢字兩分”樣式。(5)拼音`部件1hu2`米(糊),形義特征演化為1個(gè)部件;該字只選1個(gè)形義特征時(shí),在GB范圍內(nèi),沒有出現(xiàn)同碼字。(6)拼音hu2(糊),雙分漢字又一特殊樣式,可看做簡省了形義特征部分;該字沒有形義特征描述,在GB范圍內(nèi),出現(xiàn)20多個(gè)同碼字。(7)拼音,不標(biāo)聲調(diào)hu(糊),只有基本音節(jié),可以在無歧義語境中使用。(8)基本音節(jié)變形。用基本音節(jié)的字符拼寫形態(tài)變化,區(qū)分高頻同音字詞。如,“胡、湖、糊”等,如有必要,可以通過音節(jié)變形來表示。經(jīng)過從(1)到(6)的演化,漢字“糊”,由漢字變成了拼音;同樣,經(jīng)過從(6)到(1)的演化,拼音“hu2”,由拼音變成了漢字。將(1)到(5)的形義特征部分,轉(zhuǎn)換為字符代碼,就是雙分漢字的標(biāo)準(zhǔn)ASCII碼字符樣式。從(1)到(6),是形義特征部分的形態(tài)演化,雙分漢字的讀音未變,漢字形體隨形義特征的簡約不斷得到簡化,字詞拼寫的確定性隨形義特征的增加不斷增強(qiáng);從(6)到(8),是讀音部分的形態(tài)演化,讀音與拼寫將逐步分離;其實(shí)用意義,需要經(jīng)受漢字拼音化實(shí)踐的檢驗(yàn)。讀音部分與形義特征部分的形態(tài)演化,可以同時(shí)進(jìn)行。利用雙分漢字的自身形態(tài)演化,可為漢字拼音化實(shí)踐,提供一種新的思路。現(xiàn)有漢字信息技術(shù),可以利用這些特點(diǎn),實(shí)踐漢字拼音化。
雙分漢字,實(shí)現(xiàn)字詞拼寫與所有漢字字詞具有確定性?,F(xiàn)有漢語拼音的主要缺點(diǎn),就是字詞拼寫與漢字字詞存在不確定性。為克服這一缺點(diǎn),其做法是采用形義特征描述,使同一讀音的字詞,具有各自不同的特征代碼。描述漢字的不同形義特征,最簡單的做法,就是根據(jù)區(qū)分同音字詞的需要,逐步增加形義特征描述的數(shù)量,使其不出現(xiàn)重復(fù)。再將所有字詞的讀音與形義特征相結(jié)合,就實(shí)現(xiàn)了字詞拼寫與所有漢字字詞具有確定性。其具體效果如下(1)以漢字兩分和筆畫代碼,描述漢字形義特征。在GB范圍內(nèi),不標(biāo)聲調(diào),給4800多個(gè)(占總字?jǐn)?shù)67%以上)常用字附加1個(gè)形義特征,給1950多個(gè)(占總字?jǐn)?shù)26%以上)常用字附加2個(gè)形義特征,給16個(gè)字附加3個(gè)形義特征,就能實(shí)現(xiàn)全部單字的確定性描述。(2)聯(lián)詞應(yīng)用加字形特征描述。常用漢字的60%都可以聯(lián)詞應(yīng)用,即將常用漢字組成常用雙字詞組,拼寫為單純的漢語拼音樣式,加以應(yīng)用。這種聯(lián)詞應(yīng)用,使字詞拼寫的確定性(不標(biāo)聲調(diào)),由單字應(yīng)用的20%以下,上升到80%以上。在16800條雙字詞組中(不標(biāo)聲調(diào)),有82%的詞條可以聯(lián)詞應(yīng)用,給3000多條詞組(占總數(shù)的18%)附加1個(gè)形義特征,給8條詞組附加2個(gè)形義特征,就能實(shí)現(xiàn)全部詞組的確定性描述。(3)采用標(biāo)記讀音,聯(lián)詞取字的辦法,可實(shí)現(xiàn)常用漢字的確定性描述。做法是用基本音節(jié),確定416字;用標(biāo)記讀音和聲調(diào),確定1282字;用聯(lián)詞取字,不標(biāo)聲調(diào),確定4357字;其余采用聯(lián)詞取字,標(biāo)記聲調(diào)確定。(4)用〔讀音〕+〔漢字部件組合〕+〔結(jié)構(gòu)類型〕,或〔讀音〕+〔特征1+特征2+…+特征n〕等多種辦法,可實(shí)現(xiàn)對(duì)所有漢字的完整描述。所有漢字都是由部件(或筆畫)組成的;將漢字逐級(jí)盡量拆分,可得到一系列部件(或筆畫)組合;一字不同于它字,就在于它的部件(或筆畫)組合不同;將這些形義特征,精細(xì)描述,并符號(hào)化,就可以作為所有漢字的代碼。(5)雙分漢字的各部件編碼具有唯一確定性。雙分漢字有近2千個(gè)雙分部件,這些部件,與雙分漢字一樣,附加1至2個(gè)形義特征,就能實(shí)現(xiàn)唯一確定性描述。這為雙分漢字的“以部件為編碼單位”,輸入漢字和部件橫排輸出等應(yīng)用,提供了條件。
雙分漢字,實(shí)現(xiàn)用標(biāo)準(zhǔn)ASCII碼字符記錄和傳輸漢語。雙分漢字,采用形義特征描述,實(shí)現(xiàn)字詞拼寫與所有漢字字詞具有確定性,為漢字拼音化創(chuàng)造了條件。將形義特征描述,拼寫(或轉(zhuǎn)換)為字符樣式,再將韻母字符“ü”,在需要寫作“ü”時(shí),用字母“v”代替(也可定義為其它字符),雙分漢字,就具有了標(biāo)準(zhǔn)ASCII碼字符形態(tài)。在漢字信息處理中,使用全字符樣式的雙分漢字,就實(shí)現(xiàn)了用國際通用的標(biāo)準(zhǔn)ASCII碼字符記錄和傳輸漢語。這一實(shí)現(xiàn),①將減少漢字代碼的種類和數(shù)量,②實(shí)現(xiàn)所有漢字的代碼表示,③使?jié)h字輸入編碼具有文字功能和④有利文字改革。在雙分漢字的標(biāo)準(zhǔn)ASCII碼字符樣式與漢字(或漢語拼音)之間,可以有多種過渡形式。這些過渡形式,為漢字拼音化實(shí)踐提供了多種可能。比如,一個(gè)“漢”字,可用標(biāo)準(zhǔn)ASCII碼字符表示為han`ssg(漢)①;還可用雙分漢字其它樣式表示為han`氵(漢)②、han`氵又(漢)③、han`漢(漢)④、`氵又(漢)⑤等樣式。
雙分漢字的可行性與合法性。雙分漢字是否具有可行性,能否取得合法性,取決于它的實(shí)用性。首先,雙分漢字具有實(shí)用性。(1)雙分漢字能對(duì)應(yīng)移用于使用漢字或漢語拼音的地方,還能使用于不能使用漢字或漢語拼音的地方。(如用“xiao`《∶·)”,表示“笑”。)(2)會(huì)拼音,就能使用雙分漢字;不會(huì)拼音,如通過編碼反查,也能使用雙分漢字。在現(xiàn)有輸入方法幫助下,不識(shí)字也可使用雙分漢字。(3)雙分漢字的“〔讀音〕+〔漢字〕”樣式,有利于推廣普通話和漢字拼音化實(shí)踐,具有潛在的社會(huì)效益。(4)雙分漢字,符合文字改革方向,是漢字拼音化的實(shí)用工具,是對(duì)漢字、漢語拼音與漢字輸入編碼的綜合應(yīng)用,既有利于文字改革實(shí)踐,又有利于漢字信息處理,是現(xiàn)實(shí)應(yīng)用與長遠(yuǎn)規(guī)劃的綜合考慮。(5)利用現(xiàn)有信息技術(shù),可以增強(qiáng)雙分漢字的實(shí)用性??雌饋?,雙分漢字增加了字詞的拼寫長度,在短期內(nèi),還增加了紙張及版面的占用,其實(shí),這是一種長遠(yuǎn)的文字改革投資,具有持久的社會(huì)經(jīng)濟(jì)效益。利用“代碼輸入”、“輸入提示”和“簡碼實(shí)時(shí)應(yīng)用”(根據(jù)語境提供簡碼)等方法,可以使雙分漢字的應(yīng)用比漢字和拼音都方便。其次,雙分漢字在形態(tài)上已大部分合法化。在典型樣式中,漢字是合法的,漢語拼音是合法的,把兩者放在一起,也應(yīng)是合法的。漢語拼音在少數(shù)字詞的拼寫上存在不確定性,采用雙分漢字,對(duì)其進(jìn)行形義特征描述,是彌補(bǔ)其不足。在其它樣式中,其讀音部分,是漢語拼音的直接應(yīng)用,具有合法性。其形義特征部分中,采用的漢字與大多數(shù)部件,具有合法性。筆畫代碼(或其它個(gè)別代碼),未具合法性,但具有實(shí)用性,在一般情況下,應(yīng)用不多。形義特征,是對(duì)現(xiàn)行規(guī)范的補(bǔ)充,它的實(shí)用性,將為爭取其合法化創(chuàng)造條件。在實(shí)際應(yīng)用中,盡量不用或少用形義特征描述,就能使雙分漢字盡量向單純的漢語拼音靠攏。雙分漢字,在實(shí)踐過程中,對(duì)使用樣式的選取和具體字詞的拼寫,應(yīng)實(shí)行“法定優(yōu)先”的原則。
采用雙分漢字,改進(jìn)漢字代碼。用雙分漢字作漢字代碼,可以有多種樣式,下列幾種可供實(shí)踐選用。(1)〔讀音〕+〔特征1+特征2+…+特征n〕格式。利用漢字的形義特征組合(特征取用力求盡“數(shù)”),對(duì)漢字進(jìn)行精細(xì)描述。(2)〔讀音〕+〔部件1+部件2+…+部件n〕+〔漢字結(jié)構(gòu)類型〕格式。利用漢字的部件組合,對(duì)漢字進(jìn)行精細(xì)描述。漢字結(jié)構(gòu)類型,定義了漢字的字模合成數(shù)據(jù)。它還可作為漢字合成字模的代碼。(1)、(2)兩種編碼格式,均能對(duì)所有漢字進(jìn)行編碼。生成的漢字代碼,具有文字功能??砂锤哳l字、常用字、非常用字等不同,定義特征取用的數(shù)量。“特征”的內(nèi)涵大于“部件”。如讀音部分不考慮聲調(diào),96%的常用漢字采用1至2個(gè)形義特征,就可以實(shí)現(xiàn)唯一確定性描述。采用雙拼樣式,不用分隔符號(hào),最大碼長10碼,7碼以下占96%,最多用4個(gè)特征,壓縮編碼,平均碼長小于4.5碼。(3)`〔部件1+部件2+…+部件n〕格式。沒有讀音部分,形義特征部分,只有漢字部件。采用漢字部件編碼的組合,對(duì)漢字進(jìn)行精細(xì)描述??梢灾挥蒙倭繚h字部件,將漢字表示為雙分漢字的部件橫排樣式,進(jìn)行輸入和輸出。(4)〔讀音〕+〔選出〕+〔剩余〕+〔結(jié)構(gòu)〕+[〔讀音或筆畫代碼〕+〔選出〕+〔剩余〕+〔結(jié)構(gòu)〕]2+…+[〔讀音或筆畫代碼〕+〔選出〕+〔剩余〕+〔結(jié)構(gòu)〕]N格式;若部件選用順序是確定的,后面各級(jí)兩分中的“讀音或筆畫代碼”部分,可以省略,即為〔讀音〕+〔選出〕+〔剩余〕+〔結(jié)構(gòu)〕+[〔選出〕+〔剩余〕+〔結(jié)構(gòu)〕]2+…+[〔選出〕+〔剩余〕+〔結(jié)構(gòu)〕]N格式。采用雙分漢字的這種格式,對(duì)漢字進(jìn)行逐級(jí)兩分,并將兩分結(jié)果,表示為全字符樣式,作為漢字編碼。此編碼有如下特點(diǎn)①漢字與部件,只要還能繼續(xù)兩分,就一直兩分下去。對(duì)漢字的所有結(jié)構(gòu)部件及結(jié)構(gòu)類型進(jìn)行全碼描述。這種描述,由前往后可看作是“逐級(jí)兩分”,由后往前可看作是“逐級(jí)合成”。②可對(duì)漢字的結(jié)構(gòu)部件及結(jié)構(gòu)類型進(jìn)行簡碼描述。任一漢字,當(dāng)?shù)谝患?jí)兩分后未出現(xiàn)重碼,就不進(jìn)入第二級(jí)兩分;當(dāng)?shù)诙?jí)兩分后未出現(xiàn)重碼,就不進(jìn)入第三級(jí)兩分;逐級(jí)循環(huán)拆分,至無重碼為止。這是對(duì)全碼描述的簡化。③可對(duì)所有漢字進(jìn)行編碼描述。一字不同于他字,在于漢字(及部件)的讀音不同,在于部件(或筆畫)組合及結(jié)構(gòu)不同。將一字的讀音、部件及結(jié)構(gòu)等,全面盡“數(shù)”描述,就可避免雷同,實(shí)現(xiàn)編碼對(duì)漢字的唯一確定性描述。④此編碼可實(shí)現(xiàn)用簡單漢字(或部件)編碼生成復(fù)雜漢字(或部件)編碼。⑤此編碼的好處還在于便于用漢字部件橫排表示漢字;便于用漢字部件字模合成漢字字模。格式(4)的編碼舉例。如,“霞”,讀音為“xia2”,一級(jí)兩分為“雨”、“叚”,上下結(jié)構(gòu),寫作 ;“雨”,讀音為“yu3”,可以二級(jí)兩分為 與 ,雜合結(jié)構(gòu),寫作 ,也可不再分;“叚”,讀音為“jia3”,二級(jí)兩分為 與 ,左右結(jié)構(gòu),寫作 ,筆畫代碼為“9198”,也可表示為字母“agal”,三級(jí)兩分為“コ”與“又”,上下結(jié)構(gòu),寫作 ;至此,“霞”的離散部件全部兩分完畢;“霞”的全部逐級(jí)兩分表達(dá)式為“霞”=“xia2”+“雨”+“叚”+ +[“yu3”+ + + ]+[“jia3”+ + + ]+[“ag”+“コ”+“又”+ ]。將其轉(zhuǎn)換成雙分漢字的字母符號(hào)樣式,其中字符 轉(zhuǎn)換為數(shù)字代碼“24、35、11、21”,其全碼為“霞”=xia2-yu3-jia3-24+(yu3-gfaj-ssss-35)+(jia3-agfgg-agal-11)+(agal-ag-you4-21);其簡碼為“霞”=xia2-yu3-jia3-24+(yu3-gfah-ssss-35),或“霞”=xia2-yu3-jia3-24;表達(dá)式中的“24、35、11、21”,為結(jié)構(gòu)類型形義特征代碼。各部件的代碼具有唯一確定性。雙分漢字代碼,若輸出為標(biāo)準(zhǔn)ASCII碼字符,機(jī)內(nèi)碼、字模庫與西文代碼相同。若輸出為其它樣式,則有幾種情況(1)漢字。機(jī)內(nèi)碼、字模庫與現(xiàn)有漢字編碼一樣。(2)雙分漢字的部件橫排樣式。雙分漢字,部件在2000個(gè)以內(nèi)。采用大結(jié)構(gòu)部件,便于組字與編碼的聯(lián)想。機(jī)內(nèi)碼、字模庫,其漢字部分,可少到2000種。(3)合成漢字。在速度允許的前提下,可以用基本部件(幾百個(gè))合成所有漢字。機(jī)內(nèi)碼、字模庫,其漢字部分,可少到幾百種。
采用雙分漢字,逐步克服漢字“三難”。給漢字標(biāo)注讀音,解決“難讀”;將漢字形體簡約,改變結(jié)構(gòu)形式,有利識(shí)記和書寫,克服漢字“難寫”、“難記”。在漢字不能準(zhǔn)確記錄漢語時(shí),可采用雙分漢字來記錄漢語。實(shí)現(xiàn)漢字拼音化,才能最終解決漢字“三難”。以下提出一些實(shí)踐樣式。(1)給獨(dú)體字標(biāo)注讀音,使其易讀。在GB中,獨(dú)體字約占4%。獨(dú)體字大多是合體字的部件,在字形上相對(duì)簡單,書寫和識(shí)記相對(duì)容易。標(biāo)注讀音,可標(biāo)聲調(diào),也可不標(biāo)聲調(diào)。如①yi2`夷(夷),yi4`乂(乂),標(biāo)記聲調(diào);或,yi`夷(夷),yi`乂(乂),不標(biāo)聲調(diào)。②wu`戊(戊),xu`戌(戌),shu`戍(戍),形近字標(biāo)讀音。(2)合體字,采用雙分漢字的“讀音+形義特征”表示,使其易讀、易寫、易記。形義特征,可用部件加結(jié)構(gòu)類型描述,也可以只用部件描述。應(yīng)用樣式的選擇,以有利于克服漢字“三難”為準(zhǔn)。①suanl`木全1(栓),shuangl`雨相2(霜),xiangl`廠相3(廂),標(biāo)聲調(diào),結(jié)構(gòu)類型(大類)用1個(gè)數(shù)字表示,“1”表示左右結(jié)構(gòu),“2”表示上下結(jié)構(gòu),“3”表示雜合(包圍)結(jié)構(gòu)。②suan`木全(栓),shuang`雨相(霜),xiang`廠相(廂),不標(biāo)聲調(diào),不標(biāo)結(jié)構(gòu)類型。③suan`木全 (栓),shuang`雨相 (霜),xiang`廠相 (廂),結(jié)構(gòu)類型用字符表示,比較直觀。④`木全 (栓),`雨相 (霜),`廠相 (廂),不標(biāo)讀音。⑤`木全(栓),`雨相(霜),`廠相(廂),不標(biāo)讀音,不標(biāo)結(jié)構(gòu)類型。以上各種樣式中,形義特征是采用漢字部件描述的,也可以將其轉(zhuǎn)換為漢語拼音字母描述,使其向漢字拼音化靠近。形義特征中的漢字(或部件),有讀音的,用其讀音的漢語拼音字母表示,無讀音的,用其筆畫代碼表示,即可完成這種轉(zhuǎn)換。如,⑥suan`mu-quan(栓),shuang`yu-xiang(霜),部件代碼全列。⑦suan`mu(栓),shuang`yu(霜),取部分部件代碼。⑧suan(栓),shuang(霜),在無歧意的語境中使用,這時(shí),雙分漢字已近似漢語拼音。
利用雙分漢字,簡化漢字形體。多部件組合的漢字,可用雙分漢字表示為如下樣式“讀音+部件1+部件2+…+部件n”(1)。在實(shí)際應(yīng)用中,雙分漢字只用1個(gè)(或2個(gè))部件作為某字的形義特征,就可以實(shí)現(xiàn)該字的確定性表達(dá)。這樣,前面的表達(dá)式(1),將簡化為“讀音+部件1(或+部件2)”(2)。從表達(dá)式(2)可以看出,雙分漢字在使用中簡化了漢字形體。并且這種簡化,不影響拼寫的確定性,也不增加現(xiàn)有漢字的總量。在GB中,有80%的漢字可表示為“讀音+部件1”樣式,并具有拼寫的唯一確定性。就是說,采用雙分漢字,有80%的常用漢字,最多用一半的結(jié)構(gòu)部件,就能正常使用。將漢字部件,用其讀音代碼表示,還可以實(shí)現(xiàn)部件的“同音歸并”,使?jié)h字的結(jié)構(gòu)描述更加簡化。在GB范圍內(nèi),采用部件同音歸并后,有70%的漢字,只用1個(gè)部件特征,就可實(shí)現(xiàn)唯一確定性表示,并且只有部件的讀音代碼,給漢字拼音化創(chuàng)造了條件。雙分漢字的形義特征描述,將使?jié)h字的形體識(shí)記、書寫,逐步走向特征化、輪廓化和符號(hào)化,進(jìn)而實(shí)現(xiàn)漢字拼音化。
雙分漢字的部件橫向排列樣式。漢字部件,在漢字的部件組合中具有一定的結(jié)構(gòu)形式,一般有左右結(jié)構(gòu)、上下結(jié)構(gòu)、雜合(包圍)結(jié)構(gòu)等三個(gè)大類。每個(gè)大類細(xì)分,共有幾十種具體形式。雙分漢字,以漢字兩分方式描述漢字,現(xiàn)有漢字的結(jié)構(gòu)形式有二十多種。如將漢字部件一律橫向排列,可以使?jié)h字在結(jié)構(gòu)上得到簡化。這種簡化是可行的。GB中,左右結(jié)構(gòu)的漢字占66%,將其橫排,識(shí)認(rèn)不受影響;雜合結(jié)構(gòu)占8%,其中的40%采用橫排后,識(shí)認(rèn)不受影響;上下結(jié)構(gòu)占25%,其中有93%稍加聯(lián)系,也能方便識(shí)認(rèn);其余部分,加注結(jié)構(gòu)代碼,予以說明,仍能識(shí)認(rèn)應(yīng)用。在應(yīng)用中,是否橫排,以實(shí)用為準(zhǔn)。如①左右結(jié)構(gòu)qin2`木禽(檎),qin3`钅 (鋟),qin4`氵心(沁);或?qū)懽鳎嗄厩?檎),`钅 (鋟),`氵心(沁)。②上下結(jié)構(gòu)qing1`月2(青),qin2`艸斤2(芹),qin2`玨今2(琴);或?qū)懽鳎嗒窃?(青),`艸斤2(芹),`玨今2(琴),數(shù)字“2”表示上下結(jié)構(gòu);或?qū)懽鳎嗒窃?(青),`艸斤 (芹),`玨今 (琴),加結(jié)構(gòu)字符 。③雜合結(jié)構(gòu)`疒丙(病),`走己(起),`是匕(匙),不加結(jié)構(gòu)代碼,也不影響識(shí)認(rèn);或?qū)懽鳎囵诒?(病),`走己 (起),`是匕 (匙),加結(jié)構(gòu)字符 等。
雙分漢字的雙拼代碼定義。在雙分漢字中,漢字或部件的讀音可以寫成漢語拼音的雙拼樣式。雙拼樣式中,聲母、韻母或字母(或其組合),用鍵盤上的1個(gè)字母代碼表示。雙拼代碼,應(yīng)根據(jù)漢字拼音化實(shí)踐需要定義,以便于吸收漢字拼音化成果。本說明,為雙拼代碼定義提供一種實(shí)踐方案。在本說明中,①韻母“ü”,在需要寫成“ü”時(shí),用字母“v”代替;②韻母“ê、er、ueng”,在普通話中無聲韻配合,屬于零聲母音節(jié),暫不單獨(dú)定義鍵位;“ê”,如需單獨(dú)應(yīng)用,可用字符“e’”表示;“ueng”,假如有聲韻配合需要,用“u-eng”字母組合表示,并將每一字母組合部分,轉(zhuǎn)換為相應(yīng)的雙拼代碼,如“u-g”,不受現(xiàn)有雙拼格式束縛;定義字符“ng”,是為了與注音符號(hào)“?!毕鄬?duì)應(yīng);③假如有新產(chǎn)生的音節(jié),在沒有定義鍵位前,可采用音位接近的拼寫樣式,或形態(tài)接近的拼寫樣式,表示為“x-y…-z”樣式(每個(gè)字符代表1個(gè)字母或其組合),并轉(zhuǎn)換為相應(yīng)的雙拼代碼,以應(yīng)付需要④零聲母音節(jié),韻頭“i、u、ü”的變換,遵循《方案》規(guī)定,余下的韻腹和韻尾部分,用對(duì)應(yīng)的雙拼代碼表示;如,“ian”,單獨(dú)應(yīng)用,變換為“yan”,其雙拼代碼為“yj”(y-an),而不是“m”(ian)。其具體定義為“A”,代表韻母“a”;“B”,代表聲母“b”,韻母“ou”;“C”,代表聲母“c”,韻母“iao”;“D”,代表聲母“d”,韻母“uang、iang”;“E”,代表韻母“e”;“F”,代表聲母“f”,韻母“en”;“G”,代表聲母“g”,韻母“eng”和字母“ng”;“H”,代表聲母“h”,韻母“ang”;“I”,代表聲母“ch”,韻母“i”;“J”,代表聲母“j”,韻母“an”“K”,代表聲母“k”,韻母“ao”;“L”,代表聲母“l(fā)”,韻母“ai”;“M”,代表聲母“m”,韻母“ian”;“N”,代表聲母“n”,韻母“in”;“O”,代表韻母“o、uo”;“P”,代表聲母“p”,韻母“un、vn”;“Q”,代表聲母“q”,韻母“iu”;“R”,代表聲母“r”,韻母“uan、van”;“S”,代表聲母“s”,韻母“iong、ong”;字母“T”,代表聲母“t”,韻母“ve”;字母“U”,代表聲母“sh”,韻母“u”;“V”,代表聲母“zh”,韻母“ui、v”;“W”,代表字母“w”,韻母“ua、ia”;“X”,代表聲母“x”,韻母“ie”;“Y”,代表字母“y”,韻母“uai、ing”;“Z”,代表聲母“z”,韻母“ei”。雙拼字母代碼可直接標(biāo)志在鍵盤上,不需要記憶。
雙分漢字有利于漢語語音輸入和輸出技術(shù)的應(yīng)用。在漢語自然語音輸入中,漢語的同音字詞不易區(qū)分,會(huì)影響到輸入的確定性。雙分漢字的形態(tài)演化規(guī)律,提示了語音與形義特征的關(guān)系。如在語音輸入的同時(shí),輔助以字詞形義特征,可以提高語音輸入的準(zhǔn)確率。其做法可以是①在語音輸入的同時(shí),用鍵盤(或筆)輸入字詞的形義特征。②在語音輸入時(shí),“讀入”字詞的形義特征。將字詞的形義特征用語音表示。無讀音部件,可以給予統(tǒng)一命名,或直接讀筆畫代碼。采用雙分漢字,還有利于語音輸出技術(shù)(如語音合成、語音閱讀等)的應(yīng)用。雙分漢字與漢語(及漢字)對(duì)應(yīng)關(guān)系的確定性,有利于提高漢語語音輸出的確定性,如解決“一字多音”等。雙分漢字的讀音部分,為語音輸出技術(shù)的應(yīng)用提供了方便。利用雙分漢字的讀音部分,可實(shí)現(xiàn)“以音節(jié)為單位”合成漢語,“以音節(jié)為單位”閱讀文稿。
利用雙分漢字,推廣普通話,輔助識(shí)字教學(xué),實(shí)踐漢字拼音化。①利用雙分漢字的形態(tài)演化規(guī)律,改進(jìn)現(xiàn)有的漢語拼音和識(shí)字教學(xué)。②雙分漢字的“〔讀音〕`(漢字)”,或“(讀音)(漢字)”樣式,如“al啊”(啊),克服了現(xiàn)有漢字的注音不便,它將漢字與漢語拼音結(jié)合為一體,可用于推廣普通話和進(jìn)行識(shí)字教學(xué)。③雙分漢字的“(讀音)`(部件1部件2)”樣式,如“al`口阿”(啊),將漢字“啊”分成兩個(gè)部分,在加強(qiáng)讀音的基礎(chǔ)上,又突出了漢字結(jié)構(gòu)及部件的識(shí)記。④雙分漢字的“(讀音)`(部件1代碼-部件2代碼)”樣式,如“al`kou-a”(啊),雙分漢字的全字符樣式,有利于實(shí)踐漢字拼音化,使少兒會(huì)拼音,就會(huì)漢語(漢字)輸入。不會(huì)拼音的少兒,也可依樣輸入雙分漢字,在語音提示下,拼音、識(shí)字和閱讀。在識(shí)字教學(xué)中,對(duì)不識(shí)漢字的少兒,可先讀雙分漢字的讀音部分;在大量的閱讀中,逐步掌握形義部分的漢字或漢字部件;在大量閱讀的基礎(chǔ)上,學(xué)習(xí)寫話作文。
利用雙分漢字在文字、輸入和輸出方面的特點(diǎn),可為信息安全技術(shù)提供一種新思路。(1)文件加密。其特點(diǎn)在于①記錄語言的文字樣式是新的,并且可以定義選擇。②文字的輸入碼表是專用的,可以定義選擇。鍵盤鍵位可以定義。③字體文件是專用的,可以定義選擇。用于漢字合成的部件字模是專用的。④輸出的方式具有多樣性,并且可以定義選擇。(2)信用識(shí)別。利用雙分漢字在文字及輸入和輸出方面的個(gè)性化可定義特征,作為個(gè)人的信用標(biāo)志。比如,一封電子郵件,如與當(dāng)事人沒有信用聯(lián)系,就沒有對(duì)方的信用碼表,只能是一堆亂碼,將被自動(dòng)清除,可避免對(duì)當(dāng)事人的噪信搔擾。(3)網(wǎng)絡(luò)安全。網(wǎng)絡(luò)的發(fā)展,需要信息技術(shù)的標(biāo)準(zhǔn)化;但網(wǎng)絡(luò)的安全,卻需要信息技術(shù)的個(gè)性化和信用化。雙分漢字可作為這種個(gè)性化和信用化的實(shí)踐工具。(4)病毒防治?,F(xiàn)有病毒的出現(xiàn),隨時(shí)都在提醒我們,通用的機(jī)內(nèi)編碼和微程序,潛伏著極大的危險(xiǎn)。信息接收應(yīng)以信用為前提;機(jī)內(nèi)代碼應(yīng)該個(gè)性化。雙分漢字的個(gè)性化可定義特色,可作為這方面的嘗試。在現(xiàn)有信息安全技術(shù)的支持下,雙分漢字,將為其提供一種新選擇。
雙分漢字的出版物,與現(xiàn)有出版物的根本區(qū)別,就在于它的技術(shù)性。這種技術(shù)性,一個(gè)不識(shí)字的人,可以使用它進(jìn)行機(jī)器閱讀和學(xué)習(xí)。
雙分漢字,可為殘疾人提供方便。盲人,不便于“選字輸入”,可用它對(duì)形義特征的精細(xì)描述,準(zhǔn)確表達(dá)漢語。聾啞人,可用它在語音標(biāo)注方面的特點(diǎn),方便地進(jìn)行(機(jī)器)語音交流和手語表達(dá)。
二、雙分輸入法雙分輸入法,是雙分漢字自身的輸入方法及其在現(xiàn)有漢字輸入方面的應(yīng)用。于是,有關(guān)雙分輸入法的敘述,包括兩個(gè)部分,一是現(xiàn)有漢字的輸入,二是雙分漢字其它樣式的輸入?,F(xiàn)有的漢字信息處理,在軟件技術(shù)方面,已相當(dāng)完備,這里,僅就雙分輸入法的編碼特點(diǎn),加以敘述。雙分輸入法的輸入編碼,可由雙分漢字直接讀取(或去除分隔符號(hào),或進(jìn)行壓縮,將其簡化)。如,“碼”字,可以有“ma`shi”(碼),或“mashi”(碼),或“ma”(碼)等不同樣式。不了解雙分漢字者,也可通過“漢字兩分”,提取漢字的輸入編碼。雙分漢字實(shí)用樣式的多樣性,使雙分輸入法具有多種編碼格式,給實(shí)際應(yīng)用提供多種選擇,可以從不同角度進(jìn)入雙分漢字狀態(tài),實(shí)現(xiàn)漢字及雙分漢字的其它樣式的輸入。
(一)現(xiàn)有漢字輸入現(xiàn)有漢字是雙分漢字的特殊樣式。將現(xiàn)有漢字的輸入方法單獨(dú)敘述,是假定使用者不了解雙分漢字,并且主要從現(xiàn)有的漢字輸入的角度加以敘述。這里,通過“漢字兩分”方法的應(yīng)用,對(duì)雙分輸入法的漢字輸入加以說明。為敘述方便,在“雙分漢字”中已述及的內(nèi)容,盡量不再重復(fù)。
漢字輸入的編碼原理。根據(jù)“漢字兩分”規(guī)則,將漢字分成“選出部分”和“剩余部分”(簡稱“選出”和“剩余”)。每部分用其讀音(或筆畫)的代碼表示。讀音代碼,可以是漢語拼音的全拼樣式、雙拼樣式或其它樣式。筆畫代碼,采用10個(gè)數(shù)字(或字母)表示筆畫的特征。成字部件,盡量選用“一般能認(rèn)漢字”,其多音字的讀音代碼,采用“一般讀音”表示。如部件與漢字“同讀”,為縮短代碼,也可以將其“同讀”代碼舍去,選用其下一級(jí)拆分的新代碼。編碼的一般格式為漢字編碼=〔讀音〕+〔選出部分〕+〔剩余部分〕(右邊各項(xiàng)可定義取舍)。讀取的漢字編碼,用于標(biāo)準(zhǔn)鍵盤,就用字符表示;用于數(shù)字鍵盤,就用數(shù)字表示。〔讀音〕與〔選出部分〕之間,〔選出部分〕與〔剩余部分〕之間,用符號(hào)隔開,也可不用符號(hào)隔開。單字編碼,①按漢字的書寫先后(或筆順)讀取編碼;②也可按“成字優(yōu)先”、“取大優(yōu)先”的規(guī)則讀取編碼;③以一般格式“編碼=〔讀音〕+〔選出〕+〔剩余〕”為基礎(chǔ),拼寫編碼;其讀音為漢字或詞組的實(shí)際讀音;④難字,提供形碼;難字形碼=〔選出〕+〔剩余〕。詞組編碼,以雙字詞組編碼為主,一般格式為詞組編碼=〔讀音部分〕+〔部件部分〕。編碼的“讀音部分”,①雙字詞組,采用“聲韻聲韻”格式;三字詞組,采用“聲聲聲韻”格式;四字及四字以上詞組,采用“聲聲聲聲”格式,第4碼,取最末1個(gè)字的代碼;②三字以上的詞組,也可采用“聲韻1聲韻2…聲韻N”格式,每字雙拼,聲韻齊全,最多取6字,第6字,取詞組的最后1字。詞組編碼的“部件部分”,在需要時(shí)使用。如有需要,可按單字順序,提取代碼(如每字提取1個(gè)代碼,或每字提取多個(gè)代碼)。下面是編碼舉例。以GB為討論范圍,部件的讀音代碼為雙拼樣式。單字,在“漢字兩分”中,合字占96%以上,獨(dú)字不足200個(gè),獨(dú)筆字只有幾個(gè)。(1)合字編碼。將合字兩分,如“霸”字,拆分為“雨”和“ ”兩個(gè)部分“霸”字,讀音為“ba”;“雨”的讀音為“yu”,“ ”,再行兩分,為“革”與“月”,其代碼為“ge-yt”;其全碼為“ba′yu-ge-yt”(霸),碼長11碼;省去分隔符號(hào)后,編碼為“bayugeyt”(霸),碼長8碼。部件“ ”,也可用筆畫代碼表示;筆畫代碼這里取前兩筆,即“hj”(“橫”與“豎”,有“交叉”);于是,“霸”字的另一編碼為“ba′yu-hj”(霸);省去分隔符號(hào)后,編碼為“bayuhj”(霸)?!鞍浴弊值膲嚎s碼為“bay”(霸),碼長為3碼。如“霸”為難字,不知讀音,其形碼為“yu-ge-yt”或“yugeyt”(霸),碼長8碼或6碼。(2)獨(dú)字編碼。將獨(dú)字兩分為“筆畫與部件”,或“筆畫與筆畫組合”;如“白”字,拆分為“丿”和“日”兩部分;讀音為“bl”;“丿”的筆畫代碼為“d”,“日”的讀音代碼為“ri”;其全碼為“bl′d-ri”(白),碼長7碼;省去分隔符號(hào)后,編碼為“bldri”(白),碼長5碼?!鞍住弊值膲嚎s碼為“bl”(白),碼長2碼。如“白”為難字,其形碼為“d-ri”(白),筆畫與部件組合;或?yàn)椤癲fagg”(白),全筆畫代碼。(3)獨(dú)筆字編碼。獨(dú)筆字編碼,看其筆畫的“有”與“無”;如“乙”字,將其看作“乙”(有筆畫)和“ ”(無筆畫,用“w”表示)兩個(gè)部分;“乙”的讀音為“yi”;其全碼為“yi′yi-w”(乙),碼長7碼,省去分隔符號(hào)后,編碼為“yiyiw”(乙),碼長5碼。“乙”字的壓縮碼為“yi”(乙),碼長2碼。(4)雙字詞組編碼。雙字詞組編碼,采用“聲韻聲韻”格式,如“人工”,編碼為“rggs”(人工);若有重碼,增加1個(gè)(或2個(gè))部件代碼第1個(gè)字是“人”,如取筆畫“丿”,代碼是“d”,詞組編碼為“rggs′d”(人工);若還有重碼,第2個(gè)字是“工”,如取筆畫“一”,代碼是“g”,詞組編碼為“rggs′dg”(人工)。在常用雙字詞組中,最多取2個(gè)部件(或筆畫)代碼,就能保證漢字編碼的唯一確定性。雙字詞組中,部件代碼的取用舉例,也適用于其它多字詞組。(5)三字詞組編碼。三字詞組編碼,采用“聲聲聲韻”格式,如“人工湖”,編碼為“rghu”(人工湖),第3字取整個(gè)基本音節(jié)。(6)四字(及以上)詞組編碼。四字(及以上)詞組,采用“聲聲聲聲”格式,第4碼,取最末一字聲母,如“人工降雨”,編碼為“rgiy”(人工降雨)。三字(及以上)詞組的編碼,也可采用“聲韻1聲韻2…聲韻N”格式,如“人工降雨”,編碼為“rfgsjdyu”。
“漢字兩分”,將GB范圉內(nèi)的漢字分成近2000個(gè)部件。其中,成字部件近1400個(gè),非成字部件近600個(gè)。成字部件中,常用漢字約占90%(其中“一般能認(rèn)漢字”又占90%),非常用漢字約占10%;多讀音漢字100余個(gè),約占5%。非成字部件中,傳統(tǒng)結(jié)構(gòu)部件僅占16%,其余為漢字兩分的“剩余部分”,約占84%傳統(tǒng)結(jié)構(gòu)部件大多有讀音(包括“古讀”)“剩余部分”中,包含有讀音部件的約占50%。在“漢字兩分”部件中,有讀音或經(jīng)過處理后具有讀音代碼的部件共有1700多個(gè),約占全部部件的87%;無讀音部件約250個(gè),約占13%。
有讀音部件,用其讀音作代碼。讀音可用漢語拼音的全拼、雙拼或其它樣式表示。多音字,用“一般讀音”表示。獨(dú)體字,在標(biāo)出讀音的時(shí)候,為減少重碼,可增加筆畫代碼描述,碼長可準(zhǔn)備到6碼。非常用漢字在用讀音作代碼的同時(shí),也可以準(zhǔn)備其筆畫代碼,供使用者查用。無讀音部件,可用其筆畫代碼表示編碼碼長可準(zhǔn)備到6碼,在具體格式中,可以只選用2或3碼。無讀音部件,也可給以命名,使其能用讀音代碼表示。無讀音部件中的“剩余”部件,大多包含有讀音部件,可用其讀音表示該“剩余”部件的代碼,或在讀音代碼后面附加筆畫代碼,碼長3碼,與“有讀音部件”相區(qū)別。所有部件,都可用筆畫代碼表示。取每個(gè)部件的前5筆和最末一筆編碼,其確定率為80%;取每個(gè)部件的前3筆編碼,其確定率為16%;取每個(gè)部件的前2筆編碼,其確定率為3.5%。
漢字編碼,字符樣式與數(shù)字樣式(或字符樣式)之間,可以相互轉(zhuǎn)換。簡稱為“字/數(shù)”轉(zhuǎn)換,或“數(shù)/字”轉(zhuǎn)換,或“字/字”轉(zhuǎn)換。這種字符與數(shù)字(或字符)的相互轉(zhuǎn)換,可以實(shí)現(xiàn),同一編碼,應(yīng)用于標(biāo)準(zhǔn)鍵盤、數(shù)字鍵盤或其它形式的鍵盤。字符編碼轉(zhuǎn)換為數(shù)字編碼后,漢字編碼的無重碼率將有所下降。這種變化,與字符編碼的平均擊鍵次數(shù)有相關(guān)性。即字符編碼的平均擊鍵次數(shù)越接近最大碼長,數(shù)字編碼的無重碼率將越高。于是,“字/數(shù)”轉(zhuǎn)換,建議用每種格式的基礎(chǔ)編碼,即該格式的代表性編碼。數(shù)字編碼轉(zhuǎn)換為字符編碼,沒有這種情況。這種“字/數(shù)”或“數(shù)/字”轉(zhuǎn)換,并不改變?cè)芯幋a的輸入使用方法。所謂其它形式的鍵盤,可以是兩鍵、三鍵,或多鍵,都可以通過“字/數(shù)”轉(zhuǎn)換,實(shí)現(xiàn)可用的編碼配置?!白?字”轉(zhuǎn)換,可自助定義和轉(zhuǎn)換雙拼(或其它)樣式代碼。其實(shí)現(xiàn)程序?qū)僖话慵夹g(shù)。
漢字輸入的實(shí)用格式。雙分輸入法,提供多種漢字編碼組合,可實(shí)現(xiàn)不論以何種樣式,都能輸入漢字,滿足各種不同需求。漢字編碼呈現(xiàn)離散分布,在同一編碼格式下,由于字序、部件長度和分隔符號(hào)的取用等安排不同,其具體編碼也就有“大同小異”。下面將要敘述的各種編碼格式,是某種編碼思路的概括,是幾種編碼樣式的綜合敘述。
1.音形結(jié)合編碼 雙分輸入法音形結(jié)合編碼的一般格式單字編碼=〔漢字讀音〕+〔選出部分〕+〔剩余部分〕?!白x音”代碼,雙拼為1或2碼,全拼為1至6碼;“筆畫”代碼,部件可取至2或3碼,獨(dú)字可取至4或5碼。在一般格式的全碼狀態(tài),讀音代碼,一般只能取雙拼樣式,因?yàn)榇a長有時(shí)會(huì)受到操作系統(tǒng)的限制?!白x音”代碼與“選出”代碼之間,“選出”部分與“剩余”部分之間,附加分隔符號(hào),以突出編碼的讀音或部件組合關(guān)系,使編碼具有文字功能。
①編碼=〔讀音〕′〔選出〕+〔剩余〕格式;“讀音”代碼,取雙拼樣式,為1或2碼;“筆畫”代碼,部件可取至2碼,獨(dú)字最多取4或5碼?;A(chǔ)編碼(未作任何調(diào)整,有代表性的編碼),全碼,無重碼率92%(在GB范圍,全部記錄7271條,以下相同)。最大碼長7碼,平均擊鍵6.89次。特點(diǎn)是,用分隔符號(hào),突出了讀音,使編碼具有文字功能。全碼,“字/數(shù)”轉(zhuǎn)換后,無重碼率在77%以上。其壓縮編碼,“以字符為單位”,從1碼開始,逐漸增加碼長,進(jìn)行唯一性篩選,將其進(jìn)行壓縮,并進(jìn)行無重碼處理,可實(shí)現(xiàn)最大碼長6碼,平均擊鍵4.41次?!白?數(shù)”轉(zhuǎn)換后,不作任何調(diào)整,無重碼率將下降至47%,在GB范圍內(nèi),缺少實(shí)用意義。
②編碼=〔讀音〕〔選出〕+〔剩余〕格式;與格式①相比,除沒有分隔符號(hào)“′”外,其余相同?;A(chǔ)編碼,全碼無重碼達(dá)92%。最大碼長6碼,平均擊鍵5.89次。其壓縮編碼,“以字符為單位”,將其進(jìn)行壓縮,進(jìn)行無重碼處理,可實(shí)現(xiàn)最大碼長5碼,平均擊鍵3.58次?!白?數(shù)”轉(zhuǎn)換,與格式①近似。
③編碼=〔讀音〕+〔選出〕+〔剩余〕格式;“讀音”代碼,取雙拼樣式,為1或2碼;“筆畫”代碼,“選出”部分可取至2碼,“剩余”部分不限制,獨(dú)字最多取4至5碼。如最大碼長做成8碼,無重碼,平均擊鍵6.00次;“字/數(shù)”轉(zhuǎn)換,無重碼率為95%。如最大碼長做成6碼,無重碼率為98%,平均擊鍵5.95次;“字/數(shù)”轉(zhuǎn)換,無重碼率為92%。對(duì)其“以字符為單位”進(jìn)行壓縮,壓縮編碼,無重碼,平均擊鍵3.60次;“字/數(shù)”轉(zhuǎn)換,在GB范圍內(nèi),無實(shí)用意義。
④編碼=〔讀音〕+〔選出〕+〔剩余〕+〔對(duì)“剩余”再次兩分〕格式;“讀音”代碼,取雙拼樣式,為1或2碼;“筆畫”代碼,可取至2碼,獨(dú)字最多取4至5碼。編碼的特點(diǎn)是“以部件為單位”進(jìn)行壓縮按“讀音”,“選出”,“剩余”的順序,逐漸增加碼長,每次增加1或2碼當(dāng)取用“剩余”后,仍有重碼,則對(duì)“剩余”部件進(jìn)行第二次兩分,并進(jìn)行壓縮。編碼無重碼。最多10碼,大于8碼的記錄只有9條。平均擊鍵4.47次?!白?數(shù)”轉(zhuǎn)換后,無重碼率為59%。
⑤編碼=〔讀音〕+〔單字筆畫〕格式;“讀音”代碼,取雙拼樣式,為1或2碼“單字筆畫”代碼,按單字的書寫筆順取碼,最多取4或5碼。無重碼率84%。最大碼長6碼,平均擊鍵5.98次?!白?數(shù)”轉(zhuǎn)換后,無重碼率為68%。
⑥編碼=〔讀音〕+〔選出筆畫〕+〔剩余筆畫〕格式;“讀音”代碼,取雙拼樣式,為1或2碼;筆畫代碼,“選出”與“剩余”每部分最多取4碼,獨(dú)字最多取6碼。無重碼,最大碼長10碼,平均擊鍵9.04次?!白?數(shù)”轉(zhuǎn)換后,無重碼率為98%。其“以字符為單位”的壓縮編碼,無重碼,最大碼長8碼,平均擊鍵4.06次?!白?數(shù)”轉(zhuǎn)換后,無重碼率為53%。
⑦編碼=〔讀音〕+〔流行形碼部件代碼〕格式;將漢字的形義特征,用流行形碼的部件代碼描述;以利于熟悉流行形碼的使用者進(jìn)入雙分漢字狀態(tài)。如,“讀音”與“五筆畫”結(jié)合。
⑧編碼=〔讀音〕無形義部分,實(shí)為音碼樣式。直接輸入漢字的漢語拼音。其原理是,通過“基本音節(jié)”,定義400多字;通過“基本音節(jié)加聲調(diào)”,定義1200多字;通過“聯(lián)詞取字(不標(biāo)聲調(diào))”,定義4300多字;其余通過“聯(lián)詞取字(標(biāo)記聲調(diào))”定義。會(huì)拼音,就能使用??梢赃M(jìn)行“字/數(shù)”轉(zhuǎn)換。
2.形碼 雙分輸入法的形碼,給不會(huì)漢語拼音者提供方便。它的一般格式為單字編碼=〔選出部分〕+〔剩余部分〕?!斑x出”與“剩余”的形義特征描述,可采用讀音代碼,也可采用筆畫代碼。讀音代碼,如采用雙拼樣式,碼長1或2碼筆畫代碼,碼長最多6碼。
①編碼=〔選出〕+〔剩余〕(讀音與筆畫代碼)格式;將漢字分成“選出”和“剩余”兩個(gè)部分,每部分用其讀音或筆畫代碼表示?;A(chǔ)編碼,全碼,無重碼率80.47%。每部分最多取3碼。全碼碼長最多6碼,平均擊鍵4.39次?!白?數(shù)”轉(zhuǎn)換后,無重碼率為52%。將其“以字符為單位”進(jìn)行壓縮,無重碼率86.03%,碼長最多5碼,平均擊鍵3.84次。
②編碼=〔選出〕+〔剩余〕,(4+6)格式;按部件的書寫筆順,取用筆畫代碼,“選出”部分最多取4碼,“剩余”部分最多取6碼,簡稱“4+6”格式?;A(chǔ)編碼,全碼無重碼率為95.88%。碼長最多10碼,平均擊鍵8.31次。將其“以字符為單位”進(jìn)行壓縮,無重碼率為99.46%,碼長最多10碼,平均擊鍵5.99次。當(dāng)其“剩余”部分編碼由1碼逐漸增加,編碼長度與無重碼率的關(guān)系為;6碼,64.16%;7碼,85.35%;8碼,95.37%;9碼,98.87%;10碼,99.46%?!白?數(shù)”轉(zhuǎn)換后,無重碼率不變。
③編碼=〔選出〕+〔剩余〕,(4+6m)格式;與格式②近似,只是“選出”與“剩余”部分的最后1碼,取用書寫筆畫的最末1碼。其壓縮編碼,無重碼率為99.53%,編碼長度最多10碼,平均擊鍵5.95次。
④編碼=〔選出〕+〔剩余〕(5+5)格式;“選出”部分最多取5碼,“剩余”部分最多取5碼,簡稱“5+5格式”?;A(chǔ)編碼,全碼,無重碼率94.51%。最大碼長10碼,平均擊鍵8.48次。將其“以字符為單位”進(jìn)行壓縮,無重碼率為99.28%,碼長最多10碼,平均擊鍵6.23次。當(dāng)其“剩余”部分編碼由1碼逐漸增加,編碼長度與無重碼率的關(guān)系為6碼,56.07%7碼,79.46%;8碼,92.50%;9碼,97.90%;10碼,99.28%。“字/數(shù)”轉(zhuǎn)換后,無重碼率不變。
⑤編碼=〔選出〕+〔剩余〕(3+6)格式;“選出”部分最多取3碼,“剩余”部分最多取6碼,簡稱“3+6”格式。基礎(chǔ)編碼,全碼,無重碼率87.78%。最大碼長9碼,平均擊鍵7.77次。將其“以字符為單位”進(jìn)行壓縮,無重碼率為97.83%,碼長最多9碼,平均擊鍵5.73次。當(dāng)其“剩余”部分編碼由1碼逐漸增加,編碼長度與無重碼率的關(guān)系為6碼,71.48%;7碼,87.68%;8碼,95.14%;9碼,97.83%?!白?數(shù)”轉(zhuǎn)換后,無重碼率不變。
⑥編碼=〔選出〕+〔剩余〕(3+3)格式;“選出”部分最多取3碼,“剩余”部分最多取3碼,簡稱“3+3”格式。將其“以字符為單位”進(jìn)行壓縮,無重碼率為71.48%,碼長最多6碼,平均擊鍵5.39次。
⑦編碼=〔選出〕+〔剩余〕(2+6)格式;“選出”部分最多取2碼,“剩余”部分最多取6碼,簡稱“2+6”格式?;A(chǔ)編碼,全碼,無重碼率72.64%。最大碼長8碼,平均擊鍵6.90次。將其“以字符為單位”進(jìn)行壓縮,無重碼率為89.38%,碼長最多8碼,平均擊鍵5.42次。當(dāng)其“剩余”部分編碼由1碼逐漸增加,編碼長度與無重碼率的關(guān)系為5碼,50.58%;6碼,71.21%;7碼,82.97%;8碼,89.38%?!白?數(shù)”轉(zhuǎn)換后,無重碼率不變。
⑧編碼=〔選出〕+〔剩余〕(2+4)格式;“選出”部分最多取2碼,“剩余”部分最多取4碼,簡稱“2+4”格式。將其“以字符為單位”進(jìn)行壓縮,無重碼率為71.21%,碼長最多6碼。
⑨編碼=〔選出〕+〔剩余〕(2+3)格式;“選出”部分最多取2碼,“剩余”部分最多取3碼,簡稱“2+3”格式。將其“以字符為單位”進(jìn)行壓縮,無重碼率為50.58%,碼長最多5碼,平均擊鍵4.85次。
⑩整字筆畫輸入編碼 整字筆畫輸入,作為“漢字兩分”的特殊樣式(即選出筆畫和剩余筆畫樣式),是漢字輸入的輔助樣式。它以漢字書寫筆畫的字母或數(shù)字代碼,按筆順讀取漢字的輸入編碼。其5+1格式,取單字的前5筆加最末1筆,基礎(chǔ)編碼,未作壓縮處理,無重碼率在56%以上,碼長6碼。其3+3格式、取單字前3筆和末3筆(輸入難度增加),基礎(chǔ)編碼,未作壓縮處理,無重碼率達(dá)72%以上,碼長6碼。與傳統(tǒng)筆畫輸入相比,增加了筆畫代碼的字母樣式。
(11)`〔難字(或部件)筆畫代碼〕+〔難字(或部件)其它代碼〕格式;在輸入漢字的同時(shí),提供難字(或部件)的其它編碼,供學(xué)習(xí)查用。比如,“咅”,非常用字,讀音為“pou3”,筆畫編碼為“sgsdgfag”,將其按筆畫輸入,出現(xiàn)“咅”字后,在編碼的末尾將顯示其讀音代碼“pou3”。“咅”字的全部編碼為“`sgsdgfag-pou3”。如編碼長度有限制,則縮短筆畫編碼,讀音代碼采用雙拼樣式。筆畫編碼與讀音代碼之間用符號(hào)分開。編碼前可以加用符號(hào)“`”,以與其它編碼相區(qū)別。
(12)大筆畫代碼編碼 大筆畫代碼,是對(duì)筆畫“交連”特征的進(jìn)一步描述,可以移用于采用小筆畫代碼的地方,能提高筆畫編碼的唯一確定性??晒I(yè)人員使用。
3.屏幕提示輸入 雙分漢字的屏幕提示輸入,是“漢字兩分”技術(shù)特色的具體應(yīng)用。漢字輸入,曾有“整字輸入”的形式,因其選字不易,應(yīng)用不廣。雙分輸入法,利用“漢字兩分”,將GB范圍的所有漢字,分成兩個(gè)部分,每部分只有幾百個(gè)部件,可以實(shí)現(xiàn)漢字的“雙分”輸入?!捌聊惶崾炬I”的應(yīng)用是已有技術(shù)。雙分漢字的屏幕提示輸入,可以有兩種格式。
①〔讀音〕+〔選出〕+〔剩余〕格式;先輸入漢字的讀音代碼,這時(shí),在屏幕的提示鍵上,將顯示候選的“選出”部件;選出候選的“選出”部件,并鍵入該提示鍵的代碼,在一般情況下,就完成了1個(gè)漢字的輸入;如鍵入“選出”部件后,“提示窗口”未出現(xiàn)需要的漢字,這時(shí),在提示鍵上將顯示候選的“剩余”部件;選出候選的“剩余”部件,并鍵入該提示鍵的代碼,就完成了1個(gè)漢字的輸入。其特點(diǎn)是,簡單,易學(xué),大多數(shù)漢字的輸入,只用3鍵完成。在詞組輸入狀態(tài),利用提示鍵上的候選部件區(qū)分同碼詞組。
②〔選出〕+〔剩余〕格式;先輸入“選出”部件的讀音或筆畫代碼,這時(shí),在屏幕的提示鍵上,將顯示候選的“剩余”部件;選出候選的“剩余”部件,并鍵入該提示鍵的代碼,就完成了1個(gè)漢字的輸入。部件代碼,可準(zhǔn)備到6碼。其特點(diǎn)仍然是,簡單,易學(xué),但擊鍵次數(shù),比格式①增多。在詞組輸入狀態(tài),利用提示鍵上的候選部件區(qū)分同碼詞組。
4.雙字詞組編碼 漢語具有雙音化趨勢,在常用詞組中,雙字詞組數(shù)量較大。雙字詞組編碼,遵循詞組編碼的一般格式詞組編碼=〔讀音部分〕+〔部件部分〕。
(1)音形結(jié)合編碼①詞組編碼=〔詞組讀音〕+〔單字1取1個(gè)特征〕+〔或單字2取1個(gè)特征〕格式;用16800個(gè)雙字詞組編碼。字母樣式,將基礎(chǔ)編碼壓縮,不等長碼,可實(shí)現(xiàn)全部詞組編碼具有唯一確定性每詞組平均擊鍵3.98次。
②詞組編碼=〔詞組讀音〕格式;即“聲韻聲韻”格式用28600個(gè)雙字詞組編碼。字符樣式,最大碼長4碼,無重碼率76%。數(shù)字樣式,最大碼長4碼,無重碼率24%。
(2)筆畫形碼編碼這里,用28600個(gè)雙字詞組編碼。無重碼率,數(shù)字樣式與字符樣式相同。
①詞組編碼=〔單字1取3個(gè)筆畫〕+〔單字2取3個(gè)筆畫〕全碼最多6碼,可唯一確定性描述11344個(gè)詞組,占28600條記錄的39.66%;也可做成“3+x”格式,即單字1取3碼,單字2從1碼開始,逐漸增加碼長,不等長編碼,并進(jìn)行唯一性篩選,可實(shí)現(xiàn)全部詞組無重碼。
②詞組編碼=〔單字1取4個(gè)筆畫〕+〔單字2取4個(gè)筆畫〕;全碼最多8碼,可唯一確定性描述21935個(gè)詞組,占28600條記錄的76.70%。也可做成“4+x”格式,即單字1取4碼,單字2從1碼開始,逐漸增加碼長,不等長編碼,并進(jìn)行唯一性篩選,可實(shí)現(xiàn)全部詞組無重碼。
(3)聯(lián)詞輸入 以雙字詞組為例。其它詞組,以此類推。
①(基本音節(jié)1)+(聲調(diào)+1)+(基本音節(jié)2)+(聲調(diào)2)樣式;先輸入某字的基本音節(jié),如無該字,輸入該字的聲調(diào),仍無該字,再輸入與該字聯(lián)詞應(yīng)用的第二個(gè)字的基本音節(jié),如還無該詞組,繼續(xù)輸入第二個(gè)字的聲調(diào);如仍無該詞組,則“翻頁”選詞輸入。
②(基本音節(jié)1)+(基本音節(jié)2)+(聲調(diào)1)+(聲調(diào)2)樣式;先輸入詞組中各漢字的基本音節(jié),再輸入各漢字的聲調(diào)。如無該詞組,則“翻頁”選詞輸入。
5.另一種數(shù)字輸入格式為編碼=〔讀音代碼+拼音字符序號(hào)〕(或+〔形義特征代碼+拼音字符序號(hào)〕)。先鍵入讀音部分,再鍵入形義特征部分。如句子“nihk(您好)”,先鍵入“nihk”的數(shù)字代碼“6445”,然后鍵入“nihk”各字符在按鍵標(biāo)志上的順序序號(hào)“2322”,就得到“nihk”的數(shù)字編碼“64452322”。形義特征部分,根據(jù)語境需要決定取舍。這里的“順序序號(hào)”是指,字符在某一數(shù)字鍵上的位置排列,如數(shù)字鍵“1”,代表字符“ab”,“a”的序號(hào)為“1”,“b”的序號(hào)為“2”。
以上,對(duì)現(xiàn)有漢字的多種輸入編碼格式,特別是形碼,進(jìn)行了詳細(xì)的敘述,可歸納一些有用的提示。①可以根據(jù)編碼字詞的數(shù)量,選用碼型(即編碼格式),預(yù)計(jì)大致的無重碼率,有利于漢字輸入的確定表達(dá)。②編碼長度與無重碼率和碼位(即可供編碼的個(gè)數(shù))具有相關(guān)性。碼長越長,無重碼率越高,提供的碼位越多。這種相關(guān)性,在同一碼型內(nèi)能夠轉(zhuǎn)換,具有實(shí)用意義。利用以上提示,使用者可以采用自助方式,設(shè)計(jì)個(gè)性化的漢字輸入碼表。人們的習(xí)用語匯不盡相同,并且數(shù)量相當(dāng)有限;字詞使用頻率因人而異經(jīng)常使用的單字不多需要適合自己個(gè)性的漢字輸入碼表;雙分輸入法為使用者提供了自助設(shè)計(jì)的條件。
雙分輸入法編碼的一種個(gè)性化實(shí)現(xiàn)。①使用數(shù)據(jù)庫表,隨時(shí)不斷地收集個(gè)人的習(xí)用字詞,并進(jìn)行字詞統(tǒng)計(jì)篩選和使用頻率排序。②根據(jù)個(gè)人習(xí)用字詞的數(shù)量,喜歡的輸入樣式,選擇合適的碼型。③利用已有的雙分輸入法碼表,導(dǎo)入字詞的編碼數(shù)據(jù)。④利用碼型提供的碼位,或采用數(shù)據(jù)庫字段的“唯一性設(shè)置”,篩選導(dǎo)入的字詞編碼。⑤利用系統(tǒng)提供的“輸入法生成器”,生成個(gè)人的字詞碼表。具體舉例如下。如你現(xiàn)有的習(xí)用單字在3500個(gè)以內(nèi),以后一個(gè)時(shí)期,也不超過6000個(gè),習(xí)用語匯只有幾千條,你可以選用形碼的2+3格式。它能實(shí)現(xiàn)3500個(gè)單字的無重碼輸入,最大碼長5碼,平均擊鍵4.85次。它有可能并未覆蓋你的習(xí)用單字,你可進(jìn)行后面的“唯一確定性”篩選和“無重碼處理”。“無重碼處理”,最簡易的實(shí)現(xiàn),就是增加形義特征描述,應(yīng)用于特殊情況。利用數(shù)據(jù)庫表,導(dǎo)入形碼2+3格式的字詞數(shù)據(jù),進(jìn)行“唯一確定性”篩選,按使用頻率排序,導(dǎo)出數(shù)據(jù),生成碼表文本文件。利用現(xiàn)有系統(tǒng)的“輸入法生成器”,生成個(gè)性化的輸入碼表。如你今后的習(xí)用字詞數(shù)量增加了,如字詞重碼率過高,你可以增加部件2的取碼碼長,選用2+4格式、2+5格式或2+6格式,就可以滿足需要。輸入的方法和原來一樣,無重碼率得到保證,平均擊鍵次數(shù),最多增加0.60次。如你今后的習(xí)用字詞數(shù)量減少了,用不了這么些字詞編碼,也可以反過來,選用2+2格式。
一種幼兒實(shí)施方案。利用計(jì)算機(jī),采用雙分漢字的〔讀音〕+〔漢字〕格式,將拼音、識(shí)字和信息輸入相結(jié)合,為學(xué)前幼兒提供一種智力啟蒙形式。不識(shí)字幼兒,可以比照雙分漢字的字母和筆畫,進(jìn)行計(jì)算機(jī)輸入;在計(jì)算機(jī)的語音和圖像提示下,學(xué)習(xí)拼音和漢字。已有雙分漢字基礎(chǔ)的幼兒,可以在計(jì)算機(jī)輔助下,進(jìn)行組詞、造句和寫話等發(fā)散思維訓(xùn)練可以在大量閱讀的基礎(chǔ)上,學(xué)習(xí)寫話作文。隨著識(shí)字水平的提高,漢字的形義特征描述,逐步從筆畫上升到部件;全碼有利于識(shí)字,簡碼有利于輸入。雙分漢字的作用,就是讓幼兒從小就將拼音、漢字和信息輸入看作一回事,提前幾年掌握拼音、識(shí)字和信息輸入技能。
(二)雙分漢字其它樣式的輸入雙分漢字,除了現(xiàn)有漢字樣式外,還具有其它多種樣式。這些樣式,按表達(dá)式的拼寫字符,歸納為四種,全字符樣式、字符與漢字(或部件)組合樣式、漢字(或部件)組合樣式和數(shù)字代碼樣式。這里,對(duì)其輸入方法加以敘述。
①全字符樣式 雙分漢字的全字符樣式輸入,可采用兩種方法。一是,用ASCII碼字符直接輸入,可輸出為漢字、雙分漢字的全字符樣式,或其它樣式。二是,用代碼輸入(如雙拼代碼),可以減少擊鍵次數(shù)。如,詞組“hanzishuru`you-zi-che”(漢字輸入),這里,選用了3個(gè)形義特征,“又、子、車”,采用全字符樣式輸入,需要擊鍵21次。采用代碼輸入,比如用“聲聲聲聲”代碼,只需擊鍵4次。代碼輸入,需要相應(yīng)的碼表。
②字符與漢字(或部件)組合樣式也有兩種輸入方法。一是,字符,用ASCII碼輸入;漢字或部件組合,用代碼輸入。二是,全部采用代碼輸入。代碼輸入,需要相應(yīng)的碼表。如,詞組“fenfatuqiang`奮發(fā)圖強(qiáng)”(奮發(fā)圖強(qiáng)),采用代碼輸入,比如用“聲聲聲聲”代碼,只需擊鍵4次。
③漢字(或部件)組合樣式 這種樣式,采用代碼輸入。需要相應(yīng)的碼表。如,“`發(fā)貝才”(發(fā)財(cái))、“`木目又寸”(相對(duì)),采用代碼輸入,直接輸入“發(fā)財(cái)”,“相對(duì)”的漢字輸入代碼,就可實(shí)現(xiàn)這種樣式雙分漢字的輸入和輸出。
④編碼=〔讀音〕+〔各部分代碼〕+〔字模合成數(shù)據(jù)〕或編碼=〔各部分代碼〕+〔字模合成數(shù)據(jù)〕格式 這種格式,直接輸入漢字的讀音和輸入各部分代碼,或只輸入各部分代碼,再輸入漢字的字模合成數(shù)據(jù),在實(shí)現(xiàn)漢字輸入的同時(shí),在應(yīng)用程序幫助下,還可以實(shí)現(xiàn)用部件字模合成漢字字模,輸出為字模合成漢字樣式,或漢字部件橫排樣式。
⑤部件連續(xù)輸入 將一個(gè)漢字的各個(gè)組成部件,用各個(gè)部件自身的編碼連續(xù)輸入,實(shí)現(xiàn)用較少數(shù)量的部件碼表,將漢字輸入和輸出為雙分漢字的部件橫排樣式。這種格式,可以減少漢字字模的數(shù)量。
⑥數(shù)字代碼輸入 直接鍵入數(shù)字鍵代碼。不細(xì)述。
雙分漢字的分隔符號(hào)與漢語拼音的隔音符號(hào)的輸入。在漢字輸入狀態(tài),這些符號(hào)已作為輸入編碼的碼元,要將它們作為標(biāo)點(diǎn)符號(hào)輸入,可以①切換到英文輸入狀態(tài)輸入;或②應(yīng)用現(xiàn)有技術(shù)對(duì)其輸入字符進(jìn)行識(shí)別,區(qū)分輸入的是碼元或是標(biāo)點(diǎn)符號(hào),并自動(dòng)配備給出。
雙分輸入法的使用。雙分輸入法的使用特點(diǎn),就是,在一個(gè)編碼思路下,提供多種應(yīng)用選擇,并不增加使用難度。其典型格式的應(yīng)用,與漢語拼音輸入一樣,只是在出現(xiàn)重碼時(shí),增加形義特征描述,輸入其代碼。不會(huì)拼音,只識(shí)漢字者,可選用適合的形碼。只會(huì)拼音者,不識(shí)漢字者,可選用適合的音碼,并可輔助以聯(lián)詞取字、聯(lián)詞應(yīng)用等樣式。不識(shí)字者,還可將雙分漢字文本“依樣”輸入,在語音提示下,理解、學(xué)習(xí)和使用雙分漢字與雙分輸入法。利用“逐漸提示”和“漢字(部件)候選”等方式,可以實(shí)現(xiàn)非“一般能認(rèn)漢字”與無名部件不用記憶。雙分輸入法,利用現(xiàn)有軟件技術(shù),可以實(shí)現(xiàn)“習(xí)用字詞統(tǒng)計(jì)”、“動(dòng)態(tài)頻率調(diào)整”、“用過提前”等輔助功能。雙分輸入編碼的一種簡便應(yīng)用,就是,生成自己滿意的碼表文件,加入到現(xiàn)有操作系統(tǒng)的輸入法管理程序中。
三、雙分漢字的輸出雙分漢字可以輸出為全字符樣式,漢字,字模合成漢字,或雙分漢字的其它樣式。需要配備相應(yīng)的輸入碼表、字模庫。①全字符樣式,輸出為標(biāo)準(zhǔn)ASCII碼字符,字模庫可以做到最小。②漢字,可以保持現(xiàn)有輸出方式不變,其字模庫不變;也可以將常用漢字(或自定義范圍)采用現(xiàn)有輸出方式,其余非常用漢字,輸出為字模合成漢字,可以減少字模庫的數(shù)量。③字模合成漢字,是采用部件字模合成的漢字,字形與現(xiàn)有漢字相比,其部件字型具有標(biāo)準(zhǔn)化特征,字模庫可以做得很小。④雙分漢字的其它樣式。部件橫排樣式,字模庫的漢字部分,可以只有漢字部件的字模。字符和漢字(或部件)的混合樣式,字模庫可以根據(jù)需要定義。雙分漢字的各種輸出樣式,可以根據(jù)需要定義,并配備相應(yīng)的漢字輸入碼表和字模。
四、合成字模現(xiàn)有的漢字字模,是“按字編碼”,即一個(gè)字做一個(gè)字模,字模數(shù)量大。漢字的輸出(顯示或打印),需要龐大的字模庫支持。漢字?jǐn)?shù)量大,且“字無定數(shù)”,不能(也不可能)對(duì)所有漢字實(shí)現(xiàn)“按字編碼”。若實(shí)行“按部件編碼”,即一個(gè)部件做一個(gè)字模,采用部件字模來合成漢字字模,或采用基本部件字模來合成復(fù)雜部件字模,將精減字模的數(shù)量,實(shí)現(xiàn)新造字模規(guī)范化和字模風(fēng)格個(gè)性化。這種用部件字模合成的漢字字模(或部件字模),叫做合成字模。用這種合成字模輸出的漢字(或部件),就叫做合成漢字(或合成部件)。
合成字模,不同于現(xiàn)有操作系統(tǒng)中的“造字程序”。看起來,兩者都能生成字模,但在功用、意義、方法和樣式上,存在本質(zhì)區(qū)別。比如,在字模庫容量上,一個(gè)是增大容量,一個(gè)是減少容量。現(xiàn)有的“造字程序”,①不是用規(guī)范的部件字模,或個(gè)性化的部件字模,按照定義的合成數(shù)據(jù)生成漢字字模;②不能在應(yīng)用程序中實(shí)現(xiàn)漢字字模合成;③不能減少漢字代碼及字模的數(shù)量;④不能將所有漢字(包括新造漢字)顯示為合成漢字樣式,或具有個(gè)性化風(fēng)格的合成漢字;⑤不能改進(jìn)現(xiàn)有的輸出(顯示或打印)方式;⑥但它可以作為研究合成字模的輔助工具。下面,以漢字點(diǎn)陣與雙分漢字,對(duì)合成字模加以說明。
(1)部件字模的制備。制備部件字模,最簡便的做法,就是對(duì)已有漢字字模進(jìn)行拆分。漢字是由部件合成的。將漢字字模,按部件組成進(jìn)行拆分,可得到一系列部件點(diǎn)陣圖形。將這些點(diǎn)陣圖形歸類、整理,使其圖形最大化,字形標(biāo)準(zhǔn)化,就能生成規(guī)范的部件字模。利用雙分漢字的“漢字兩分”規(guī)則,可以方便地實(shí)現(xiàn)對(duì)漢字字模的拆分。在GB范圍內(nèi),漢字字?!皟煞帧?,將生成約2000類部件字模。其中,成字字模約1400類,非成字字模約600類。利用現(xiàn)有技術(shù)中的“造字程序”,可以方便地實(shí)現(xiàn)非成字字模的規(guī)范化,并自動(dòng)將其編碼,存入字體文件。
(2)字模合成數(shù)據(jù)。字模的合成數(shù)據(jù),包括合成字模所需的①部件字模,以及這些部件字模的②圖形大小和③位置坐標(biāo)。其一般表達(dá)式,可以寫為合成數(shù)據(jù)=[部件1,…,部件N]+[(高,寬)1,(橫,縱)1]1+…+[(高,寬)N,(橫,縱)N]N。式中,“[部件1,…,部件N]”,表示所需部件的代碼;“(高,寬)N”,表示部件字模的大?。弧?橫,縱)N”,表示部件字模的位置;“[(高,寬)N,(橫,縱)N]N”,表示某一部件的合成數(shù)據(jù);可以將部件1至部件N的合成數(shù)據(jù)集合,按漢字結(jié)構(gòu)分類描述,或用代碼表示。已收錄漢字的合成數(shù)據(jù),可在已有點(diǎn)陣圖形中,據(jù)實(shí)量取。未收錄漢字和新造漢字的合成數(shù)據(jù),可以①采用現(xiàn)有的“造字程序”,先用規(guī)范字模造字,然后在點(diǎn)陣圖形中量取合成數(shù)據(jù);②或直接定義部件字模及其合成數(shù)據(jù)。部件字模的圖形大小和位置坐標(biāo),可以分部件描述,也可以按漢字的結(jié)構(gòu)類型,分類整體描述。前者,叫做部件數(shù)據(jù);后者,叫做結(jié)構(gòu)類型數(shù)據(jù)(簡稱結(jié)構(gòu)數(shù)據(jù))。結(jié)構(gòu)數(shù)據(jù)的理論依據(jù),是漢字偏旁結(jié)構(gòu)的固定性。比如,左右結(jié)構(gòu),占常用漢字的60%以上,其具體樣式,在“漢字兩分”中,一般分為3個(gè)大類。在圖形大小上,有的是左右各半,有的是左右不同。對(duì)于確定的單字,左右兩個(gè)部件,各自的位置和大小,是固定的。將這3類左右結(jié)構(gòu)細(xì)分,還可以有6種樣式。據(jù)資料,漢字的結(jié)構(gòu)類型有幾十種?!皾h字兩分”,結(jié)構(gòu)類型(在GB范圍)有二十幾種。把這些結(jié)構(gòu)類型標(biāo)準(zhǔn)化、數(shù)字化,或配上易記的代碼,用來表示某類漢字的合成數(shù)據(jù)。合成數(shù)據(jù)的描述,圖形大小和高寬區(qū)別,可以用倍率(或百分比)作單位,如,是規(guī)范字模的幾倍(或百分之幾);位置坐標(biāo),可以用比例(如百分比)作單位,如,點(diǎn)陣的左上角為(0%,0%),右下角為(100%,100%);長度也可以用坐標(biāo)表示。合成數(shù)據(jù)舉例。如,“相”字,左右對(duì)稱,屬于左右結(jié)構(gòu)的第1類(可用 表示);包含“木”和“目”兩個(gè)部件,用雙分漢字的全字符樣式表示;部件大小,若規(guī)范部件字模的高和寬定義為100%,這兩個(gè)部件的高和寬,可以定義為(100%,50%);部件位置,以部件字模的左上角坐標(biāo)表示,“木”定義為(0%,0%),“目”定義為(50%,0%);“相”字的合成數(shù)據(jù)=[mu′hjds,mu′faggg]+[(100%,50%),(0%,0%)]+[(100%,50%),(50%,0%)];這里的“[(100%,50%),(0%,0%)]+[(100%,50%),(50%,0%)]”,是一種結(jié)構(gòu)數(shù)據(jù),可以用字符及代碼表示如表示為 或“11”,“相”字的合成數(shù)據(jù)=[mu′hjds,mu′faggg]+[11]。合成數(shù)據(jù),可以由個(gè)人定義,生成個(gè)性化字模。
(3)合成數(shù)據(jù)的取用。字模的合成數(shù)據(jù),可以從鍵盤直接輸入,也可以從鍵盤輸入雙分漢字代碼,通過機(jī)內(nèi)查表得到。這張“表”,反映漢字與部件的合成關(guān)系,包括所含部件、部件圖形大小、位置坐標(biāo)等數(shù)據(jù),以及這些部件的機(jī)內(nèi)編碼。這種“機(jī)內(nèi)查表”,可采用現(xiàn)有的匯編(或別的)程序?qū)崿F(xiàn)?,F(xiàn)有技術(shù)中,漢字字模是這樣取用的將漢字編碼,轉(zhuǎn)換成機(jī)器內(nèi)碼,字形檢索程序根據(jù)給定內(nèi)碼訪問字庫,取出相應(yīng)的漢字字模。字模合成數(shù)據(jù)的取用,可以采用如下方式;①輸入“雙分漢字”編碼→查表,得到部件組成與合成數(shù)據(jù)→內(nèi)碼→取出各部件的字模及合成數(shù)據(jù)。②輸入“雙分部件”編碼→內(nèi)碼→取出部件字模。③一種簡易實(shí)現(xiàn),直接從現(xiàn)有的點(diǎn)陣圖形中量取。
(4)字模合成的一般原理。①取得部件點(diǎn)陣數(shù)據(jù)。②取得字模合成數(shù)據(jù)。③將各部件的點(diǎn)陣圖形縮放到規(guī)定大小。部件圖形,需要縮放至規(guī)定的高寬要求。④在“空白點(diǎn)陣”(全是“0”)中,將縮放后的部件圖形按規(guī)定位置坐標(biāo)放置。⑤將按規(guī)定放置后的各部件的點(diǎn)陣代碼進(jìn)行加法運(yùn)算。⑥若各行代碼沒出現(xiàn)“進(jìn)位”,或“進(jìn)位”符合要求,說明相互位置合適。⑦若某行代碼的“進(jìn)位”不符合要求,則對(duì)相關(guān)部件的圖形進(jìn)行坐標(biāo)平移試驗(yàn),使其符合“進(jìn)位”要求。這里的“進(jìn)位”,是指點(diǎn)陣中代碼為“1”的點(diǎn),相互重合(相加),即相互分離的兩個(gè)部件,出現(xiàn)重合。⑧將各部件圖形進(jìn)行迭加,實(shí)現(xiàn)字模合成。用基本部件字模合成復(fù)雜部件字模的方法,與用部件字模合成漢字字模的方法相同。只是增加了循環(huán)合成環(huán)節(jié)。以上步驟,可以在非中文環(huán)境下,通過QBASIC程序?qū)崿F(xiàn)。
(5)合成字模的應(yīng)用。合成字模的應(yīng)用,需要配備相應(yīng)的使用環(huán)境。①利用合成字模,改進(jìn)現(xiàn)有造字方式,實(shí)現(xiàn)新造字模規(guī)范化,個(gè)人使用(字模)個(gè)性化。利用現(xiàn)有的“造字程序”,采用規(guī)范的部件字模和標(biāo)準(zhǔn)化的合成數(shù)據(jù),可以生成規(guī)范的漢字字模;采用個(gè)性化的部件字模和個(gè)性化的合成數(shù)據(jù),可以生成個(gè)性化的漢字字模,供個(gè)人使用。新造字模的代碼,可用雙分漢字的“(讀音)+(部件組合)+(結(jié)構(gòu)數(shù)據(jù))”樣式表示。②利用合成字模,在應(yīng)用程序中實(shí)現(xiàn)特殊功能。比如,在英文的QBASIC應(yīng)用程序中,利用合成字模,實(shí)現(xiàn)在屏幕任一位置,合成并顯示定義大小的合成漢字。又比如,在特定的應(yīng)用程序中,顯示加密文件。③利用合成字模,改進(jìn)現(xiàn)有漢字的輸出(顯示或打印)方式。合成字模的真正意義,是改進(jìn)現(xiàn)有漢字的輸出方式。但是,這一目的的實(shí)現(xiàn)。需要相應(yīng)的漢字操作系統(tǒng)的支持(此處不作進(jìn)一步敘述)。④字模個(gè)性化。選用某一書體的標(biāo)準(zhǔn)部件(或筆畫)字模,以漢字書藝的間架結(jié)構(gòu)法式,約百種,確定其相互位置和圖形大小,進(jìn)行迭加合成,生成具有個(gè)性風(fēng)格的字模。將書藝與字模合成相結(jié)合,將改變“眾人一體”的漢字形體現(xiàn)況。其簡便的實(shí)現(xiàn)方式,就是利用“造字程序”生成一系列個(gè)性化字模備用。⑤漢字的合成輸入。利用合成字模,生成一種新的漢字輸入形式。將現(xiàn)有的“漢字編碼”輸入,改進(jìn)為“部件編碼”輸入。從鍵盤直接輸入漢字基本部件和結(jié)構(gòu)類型,拼合漢字字模,供顯示和打印使用。輸入編碼,可作為文字代碼,用于文本的存儲(chǔ)。比如,需要輸入一個(gè)“仁”字,左右結(jié)構(gòu),左小右大,結(jié)構(gòu)類型代碼為“12”,則直接輸入“亻”、“二”代碼和結(jié)構(gòu)數(shù)據(jù)“12”,則顯示和打印將輸出合成漢字“仁”。其輸入編碼,可以寫作“`rf-er-12”,作為“仁”字的代碼,并用于“仁”字的文本存儲(chǔ)。漢字的合成輸入,需要一個(gè)相應(yīng)的操作系統(tǒng),才能圓滿的實(shí)現(xiàn)。在現(xiàn)有的操作系統(tǒng)中,漢字的合成輸入,可以在特定的應(yīng)用程序中使用。⑥移用于現(xiàn)有的印刷制版工藝。將現(xiàn)有的整字字模,改用合成字模,文字形態(tài)為合成漢字樣式。
漢字字模是用“部件合成”,還是“按字編碼”,應(yīng)根據(jù)需要確定??梢詫ⅰ鞍醋志幋a”與“部件合成”相結(jié)合。常用漢字(或習(xí)用字)采用“按字編碼”,非常用漢字(或非習(xí)用字)與新造漢字,采用“部件合成”,將實(shí)現(xiàn)用有限的“字?!保@示和打印所有漢字。也可以采用“極端用法”。漢字字模只裝入幾十種基本部件字模。全部漢字的顯示和打印,全部采用合成字模。合成字模,可以臨時(shí)生成,也可以用后存儲(chǔ),個(gè)人備用。合成漢字,可以采用雙分漢字作為代碼,便于文本存儲(chǔ)。利用合成字模,在宏觀上,可以實(shí)現(xiàn)所有漢字的字模表示;在具體使用上,只需要配備少量的個(gè)人習(xí)用字模;將節(jié)省社會(huì)資源。合成字模的基本部件,可以標(biāo)志在鍵盤的鍵面上,五、雙分漢字及雙分輸入法的鍵盤定義漢語拼音中,韻母“ü”,在需要寫成字符“ü”時(shí),可用字母“v”代替。雙分漢字的分隔符號(hào)與漢語拼音的隔音符號(hào),可以分別定義,也可以統(tǒng)一定義。其分別定義為雙分漢字的分隔符號(hào),在讀音與形義特征之間,用IBM標(biāo)準(zhǔn)鍵盤的41號(hào)鍵字符“`”(字符的ASCII碼值為96)表示,在形義特征之間,用IBM標(biāo)準(zhǔn)鍵盤的12號(hào)鍵字符“-”(字符的ASCII碼值為45)表示或采用其它符號(hào)表示。漢語拼音的隔音符號(hào),用IBM標(biāo)準(zhǔn)鍵盤的40號(hào)鍵字符“`”(字符的ASCII碼值為39)或其它字符表示。其統(tǒng)一定義為雙分漢字的分隔符號(hào)與漢語拼音的隔音符號(hào),統(tǒng)一為漢語拼音隔音符號(hào),用IBM標(biāo)準(zhǔn)鍵盤的40號(hào)鍵字符“`”(字符的ASCII碼值為39)或其它字符表示。在數(shù)字鍵盤中,為減少符號(hào)定義,將分隔符號(hào)與隔音符號(hào)統(tǒng)一為隔音符號(hào),用數(shù)字鍵“0”表示。中文標(biāo)點(diǎn)符號(hào)的定義,與操作系統(tǒng)一致。
1.標(biāo)準(zhǔn)鍵盤的鍵位定義原標(biāo)準(zhǔn)鍵盤的規(guī)范設(shè)置不變。全拼代碼的定義,與標(biāo)準(zhǔn)鍵盤的原有定義一致。這里,只敘述雙拼代碼和筆畫代碼的定義?!癤X號(hào)鍵(XX)”系IBM標(biāo)準(zhǔn)鍵盤的鍵位編號(hào),括號(hào)內(nèi)是字符的ASCII碼值。
(1)雙拼代碼的鍵位定義16號(hào)鍵(81),代表聲母“q”,韻母“iu”; 17號(hào)鍵(87),代表字母“w”,韻母“ua、ia”;18號(hào)鍵(69),代表韻母“e”; 19號(hào)鍵(82),代表聲母“r”,韻母“uan、van”;20號(hào)鍵(84),代表聲母“t”,韻母“ve”; 21號(hào)鍵(89),代表字母“y”,韻母“uai、ing”;22號(hào)鍵(85),代表聲母“sh”,韻母“u”; 23號(hào)鍵(73),代表聲母“ch”,韻母“i”;24號(hào)鍵(79),代表韻母“o、uo”; 25號(hào)鍵(80),代表聲母“p”,韻母“un、vn”;30號(hào)鍵(65),代表韻母“a”; 31號(hào)鍵(83),代表聲母“s”,韻母“iong、ong”;32號(hào)鍵(68),代表聲母“d”,韻母“uang、iang”; 33號(hào)鍵(70),代表聲母“f”,韻母“en”;34號(hào)鍵(71),代表聲母“g”,字符“eng、ng”;35號(hào)鍵(72),代表聲母“h”,韻母“ang”36號(hào)鍵(74),代表聲母“j”,韻母“an”; 37號(hào)鍵(75),代表聲母“k”,韻母“ao”38號(hào)鍵(76),代表聲母“l(fā)”,韻母“ai”; 44號(hào)鍵(90),代表聲母“z”,韻母“ei”;45號(hào)鍵(88),代表聲母“x”,韻母“ie”;46號(hào)鍵(67),代表聲母“c”,韻母“iao”;47號(hào)鍵(86),代表聲母“zh”,韻母“ui、v”;48號(hào)鍵(66),代表聲母“b”,韻母“ou”;49號(hào)鍵(78),代表聲母“n”,韻母“in”;50號(hào)鍵(77),代表聲母“m”,韻母“ian”;(2)筆畫代碼的鍵位定義30號(hào)鍵(65),字符“A”,代表“折”; 31號(hào)鍵(83),字符“S”,代表“捺”;32號(hào)鍵(68),字符“D”,代表“撇”; 33號(hào)鍵(70),字符“F”,代表“豎”;34號(hào)鍵(71),字符“G”,代表“橫”; 35號(hào)鍵(72),字符“H”,代表“橫叉”;36號(hào)鍵(74),字符“J”,代表“豎叉”;37號(hào)鍵(75),字符“K”,代表“撇叉”;38號(hào)鍵(76),字符“L”,代表“捺叉”;50號(hào)鍵(77),字符“M”,代表“拐”。
雙拼代碼指代的聲母、韻母和字母,筆畫代碼和隔音(及分隔)符號(hào)對(duì)應(yīng)的筆型和符號(hào),都標(biāo)志在標(biāo)準(zhǔn)鍵盤的鍵帽上,或標(biāo)志在鍵帽旁。
2.數(shù)字鍵盤的鍵位定義漢語拼音字母的鍵位定義,已有國家推薦標(biāo)準(zhǔn)。這里,是另一種定義樣式。兩種樣式之間,可以通過基礎(chǔ)碼表進(jìn)行“字/數(shù)”轉(zhuǎn)換。
(1)漢語拼音字母數(shù)字鍵“1”,代表拼音字母的“a、b”; 數(shù)字鍵“2”,代表拼音字母的“c、d”;數(shù)字鍵“3”,代表拼音字母的“e、f”; 數(shù)字鍵“4”,代表拼音字母的“g、h、i”;數(shù)字鍵“5”,代表拼音字母的“j、k、l”;數(shù)字鍵“6”,代表拼音字母的“m、n、o”;數(shù)字鍵“7”,代表拼音字母的“p、q、r”;數(shù)字鍵“8”,代表拼音字母的“s、t、u”;數(shù)字鍵“9”,代表拼音字母的“v、w、x”;數(shù)字鍵“0”,代表拼音字母的“y、z”。
(2)雙拼代碼數(shù)字鍵“1”,代表雙拼代碼的聲母“b”,韻母“a、ou”;數(shù)字鍵“2”,代表雙拼代碼的聲母“c、d”,韻母“iao、iang、uang”;數(shù)字鍵“3”,代表雙拼代碼的聲母“f”,韻母“e、en”;數(shù)字鍵“4”,代表雙拼代碼的聲母“g、h、ch”,字符“eng、ng、ang、i”;數(shù)字鍵“5”,代表雙拼代碼的聲母“j、k、l”,韻母“an、ao、ai”;數(shù)字鍵“6”,代表雙拼代碼的聲母“m、n”,韻母“ian、in、o、uo”;數(shù)字鍵“7”,代表雙拼代碼的聲母“p、q、r”,韻母“un、vn、iu、uan、van”;數(shù)字鍵“8”,代表雙拼代碼的聲母“s、t、sh”,韻母“iong、ong、ve、u”;數(shù)字鍵“9”,代表雙拼代碼的聲母“zh、x”,字母“w”,韻母“ui、v、ia、ua、ie”;數(shù)字鍵“0”,代表雙拼代碼的聲母“z”,字母“y”,韻母“ing、uai、ei”。
(3)筆畫代碼數(shù)字鍵“1”,代表“橫”; 數(shù)字鍵“2”,代表“橫叉”;數(shù)字鍵“3”,代表“豎”;數(shù)字鍵“4”,代表“豎叉”;數(shù)字鍵“5”,代表“撇”; 數(shù)字鍵“6”,代表“撇叉”;數(shù)字鍵“7”,代表“捺”; 數(shù)字鍵“8”,代表“捺叉”;數(shù)字鍵“9”,代表“折”;數(shù)字鍵“0”,代表“拐”。
數(shù)字代碼指代的聲母、韻母和字母,筆畫代碼和隔音(及分隔)符號(hào)的相應(yīng)筆型和符號(hào),標(biāo)志在鍵盤的鍵帽上,或標(biāo)志在鍵帽旁。
3.大筆畫代碼的數(shù)字代碼組合與對(duì)應(yīng)字母的鍵位定義 大筆畫代碼的鍵位定義,將數(shù)字鍵盤與標(biāo)準(zhǔn)鍵盤一起敘述。標(biāo)點(diǎn)符號(hào)定義與系統(tǒng)一致。隔音(及分隔)符號(hào)定義,如前述。基本筆畫“橫豎撇捺折”五種,分別用數(shù)碼“1、2、3、4、5”表示;“交連”特征“獨(dú)、首、中、尾、交”五種狀態(tài),也分別用數(shù)碼“1、2、3、4、5”表示。將筆畫和特征結(jié)合在一起,如“橫獨(dú)”、“豎交”等,組成筆畫的特征代碼。敘述如下。筆畫特征“橫獨(dú)”,用數(shù)字表示為“11”,用字母表示為“G”;筆畫特征“橫首”,用數(shù)字表示為‘12”,用字母表示為“F”;筆畫特征“橫中”,用數(shù)字表示為“13”,用字母表示為“D”;筆畫特征“橫尾”,用數(shù)字表示為“14”,用字母表示為“S”;筆畫特征“橫交”,用數(shù)字表示為“15”,用字母表示為“A”;筆畫特征“豎獨(dú)”,用數(shù)字表示為“21”,用字母表示為“H”;筆畫特征“豎首”,用數(shù)字表示為“22”,用字母表示為“J”;筆畫特征“豎中”,用數(shù)字表示為“23”,用字母表示為“K”;筆畫特征“豎尾”,用數(shù)字表示為“24”,用字母表示為“L”;筆畫特征“豎交”,用數(shù)字表示為“25”,用字母表示為“M”;筆畫特征“撇獨(dú)”,用數(shù)字表示為“31”,用字母表示為“T”;筆畫特征“撇首”,用數(shù)字表示為“32”,用字母表示為“R”;筆畫特征“撇中”,用數(shù)字表示為“33”,用字母表示為“E”;筆畫特征“撇尾”,用數(shù)字表示為“34”,用字母表示為“W”;筆畫特征“撇交”,用數(shù)字表示為“35”,用字母表示為“Q”;筆畫特征“捺獨(dú)”,用數(shù)字表示為“41”,用字母表示為“Y”;筆畫特征“捺首”,用數(shù)字表示為“42”,用字母表示為“U”;筆畫特征“捺中”,用數(shù)字表示為“43”,用字母表示為“I”;筆畫特征“捺尾”,用數(shù)字表示為“44”,用字母表示為“O”;筆畫特征“捺交”,用數(shù)字表示為“45”,用字母表示為“P”;筆畫特征“折獨(dú)”,用數(shù)字表示為“51”,用字母表示為“N”;筆畫特征“折首”,用數(shù)字表示為“52”,用字母表示為“B”;筆畫特征“折中”,用數(shù)字表示為“53”,用字母表示為“V”;筆畫特征“折尾”,用數(shù)字表示為“54”,用字母表示為“C”;筆畫特征“折交”,用數(shù)字表示為“55”,用字母表示為“X”。
大筆畫代碼,相應(yīng)的筆畫和特征筆型,可標(biāo)志在鍵盤的鍵帽上,不用記憶。
權(quán)利要求
1.一種雙分漢字,將漢字、漢語拼音和輸入編碼融為一體,屬于文字改革與漢字信息技術(shù)領(lǐng)域,其特征在于(1)具有讀音部分和形義特征部分,為漢語拼音與漢字(或其形義特征)的結(jié)合體;(2)或只有形義特征部分,為漢字部件(或其形義特征)的結(jié)合體;(3)字詞拼寫具有確定性;(4)采用標(biāo)準(zhǔn)ASCII碼字符記錄和傳輸漢語;(5)或采用標(biāo)準(zhǔn)ASCII碼字符與漢字(或其形義特征)記錄和傳輸漢語;(6)或?qū)h字部件(或其形義特征)橫排書寫記錄和傳輸漢語(7)將信息技術(shù)與文字改革實(shí)踐相結(jié)合。
2.一種雙分輸入法,屬于文字改革與漢字信息技術(shù)領(lǐng)域,其特征在于(1)輸入編碼,由雙分漢字直接讀出(2)或?qū)ⅰ皾h字兩分”,每部分用其讀音代碼表示,或用其筆畫代碼表示,按“編碼=漢字讀音+選出部分+剩余部分(右邊各項(xiàng)可定義取舍)”格式提取(3)或用“按需選型,以碼選字”,自助設(shè)計(jì);(4)輸入編碼用字符表示,或用數(shù)字表示;(5)適用于多種鍵盤。
3.一種合成字模,將漢字(或部件)輸出為合成漢字(或合成部件)樣式,屬于文字改革與漢字信息技術(shù)領(lǐng)域,其特征在于漢字(或部件)的字模,是按定義的(1)部件合成數(shù)據(jù),或結(jié)構(gòu)合成數(shù)據(jù),(2)用規(guī)范的部件字模,或用個(gè)性化的部件字模合成的。
4.用權(quán)利要求1所述的雙分漢字或用權(quán)利要求2所述的雙分輸入法或用權(quán)利要求3所述的合成字模實(shí)現(xiàn)的商業(yè)性出版物(包括其在光盤和相關(guān)軟件中的應(yīng)用)。
5.用權(quán)利要求1所述的雙分漢字實(shí)現(xiàn)的語音輸入輸出技術(shù)和產(chǎn)品。
6.用權(quán)利要求1所述的雙分漢字或用權(quán)利要求2所述的雙分輸入法實(shí)現(xiàn)的信息輸入輸出技術(shù)和產(chǎn)品。
7.用權(quán)利要求1所述的雙分漢字或用權(quán)利要求2所述的雙分輸入法實(shí)現(xiàn)的數(shù)字輸入輸出技術(shù)和產(chǎn)品。
8.用權(quán)利要求3所述的漢字合成字模實(shí)現(xiàn)的漢字輸入輸出技術(shù)和產(chǎn)品(包括其在印刷業(yè)中的應(yīng)用)。
9.用權(quán)利要求1所述的雙分漢字部件(或其形義特征)橫排樣式實(shí)現(xiàn)的漢字輸入輸出技術(shù)和產(chǎn)品。
10.用權(quán)利要求1所述的雙分漢字或用權(quán)利要求2所述的雙分輸入法或用權(quán)利要求3所述的合成字模實(shí)現(xiàn)的信息安全技術(shù)和產(chǎn)品。
全文摘要
本發(fā)明由雙分漢字與雙分輸入法及合成字模組成,它將文字賦予技術(shù)屬性,屬于文字改革與漢字信息技術(shù)領(lǐng)域。雙分漢字,將漢字、漢語拼音與輸入編碼融為一體,實(shí)現(xiàn)用標(biāo)準(zhǔn)ASCII碼字符記錄和傳輸漢語。雙分輸入法,作為雙分漢字及現(xiàn)有漢字的輸入方法,具有應(yīng)用形式的多樣性。合成字模,將漢字用規(guī)范的或個(gè)性化的部件字模合成。其意義在于:將文字改革與信息技術(shù)相結(jié)合,在信息領(lǐng)域?qū)嵺`文字改革,使?jié)h字拼音化在文字自身演化,為漢字信息處理提供一種新形式。
文檔編號(hào)G06F3/023GK1376969SQ0210882
公開日2002年10月30日 申請(qǐng)日期2002年4月9日 優(yōu)先權(quán)日2001年8月29日
發(fā)明者李成躍 申請(qǐng)人:李成躍
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1