專利名稱::電子計(jì)算機(jī)漢字詞語碼編碼技術(shù)的制作方法隨著電子計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算機(jī)已在各種信息領(lǐng)域得到廣泛應(yīng)用。語言文字的處理是其重要內(nèi)容。在我國現(xiàn)實(shí)生活中,大量的常規(guī)信息—報(bào)紙、刊物、書籍、科學(xué)技術(shù)文獻(xiàn)、政府日常公務(wù)、商業(yè)貿(mào)易往來以及工農(nóng)業(yè)生產(chǎn)和民眾生活等等,都涉及到漢字的電子計(jì)算機(jī)處理。中國人口達(dá)12億,加上國外會使用漢字的華人、華僑及周邊國家和地區(qū)仍在繼續(xù)使用漢字的人數(shù)幾乎占全世界總?cè)肟诘乃姆种?,因此,漢字的計(jì)算機(jī)編碼技術(shù),一直是漢字信息處理的關(guān)鍵,是中國漢語語言文字工作者及計(jì)算機(jī)編碼人員研究和解決的重要課題。八十年代初,王永明率先推出了“五筆字型輸入法”,隨后又相繼推出各種拼音碼(全拼、簡拼和雙拼等)、自然碼、大眾碼等。迄今為止,已申請專利的漢字編碼輸入法已達(dá)數(shù)百種。其中,五筆字型輸入法、拼音碼和自然碼等十多種較優(yōu)秀的編碼已得到廣泛應(yīng)用和推廣,為中國的電子計(jì)算機(jī)漢字輸入和信息處理作出了重要貢獻(xiàn)。然而,目前所有已推廣應(yīng)用的編碼技術(shù)方案,多數(shù)仍停留在漢字特有的“單字”處理階段。對此,國家語言文字工作委員會主任許嘉璐曾指出我們要正視當(dāng)前語言學(xué)和中文信息處理之間距離過大的現(xiàn)實(shí),并且應(yīng)當(dāng)努力去改變它。他說“目前,中文信息處理雖然已實(shí)現(xiàn)了‘字處理’,但這只是信息處理的初級階段。要實(shí)現(xiàn)計(jì)算機(jī)中文信息的高速處理,做到計(jì)算機(jī)在全國乃至跟世界連網(wǎng),就必須超越‘字處理’階段,對(漢語)語言中的詞、短語和句子以及語言的應(yīng)用規(guī)律進(jìn)行深入的研究,同時(shí),在此基礎(chǔ)上制定電子計(jì)算機(jī)所用的語言和文字規(guī)范與標(biāo)準(zhǔn),并進(jìn)行嚴(yán)格的管理”(見《科技日報(bào)》1997年12月1日第一版)。盡管許多編碼聲稱可以任意編碼雙字詞、三字詞、四字詞和多字詞,并在近期推出了許多組詞更多、含多字詞詞語更廣的新的編碼,但在實(shí)際應(yīng)用中,有的不僅需要進(jìn)行繁雜的拆分組合(如形碼),而且重碼太多,所收漢語詞語數(shù)量也并不廣泛(如目前的各種拼音碼、自然碼等)。以最新版的“全拼”和“雙拼”來看,雖然所收的詞語增加較多,雙字詞組至七字八字詞語或短語都有了,但其編碼極不規(guī)范,例如,當(dāng)鍵入“zhong”這個(gè)音節(jié)加聲母“g”后,顯示屏上即出現(xiàn)“忠告”、“重工業(yè)”、“中共中央”、“中國共產(chǎn)黨”、“中國工商銀行”、“中共中央總書記”以及“中共中央政治局常委”等64個(gè)并不直接相關(guān)的詞組和詞語,使用者必須在7次“翻頁”中的數(shù)百個(gè)詞語里去尋找所需要的那個(gè)詞組或短語,即使按照拼音拼下去,由于漢語的同音字詞太多,仍然有著大量重碼。實(shí)際上,目前已推廣應(yīng)用的以“五筆字型”為代表的“形碼”和各類拼音碼,除了編碼是著眼于漢字單字的“字處理”外,編碼本身依然存在著不可克服的缺點(diǎn)。首先,形碼需將一個(gè)完整的字進(jìn)行筆畫拆分,且不說這種拆分是編制者人為規(guī)定的“形”,而且每個(gè)字的拆分過程就是一種新的組合。人們可以習(xí)慣地記住每一句話的發(fā)音和每個(gè)字的偏旁部首,卻記不住每一個(gè)字的筆畫需要按規(guī)定拆分3-4次;其次,拆分之后組合成一個(gè)完整的字或詞的編碼,還需去尋找規(guī)定的“反應(yīng)部件鍵位”,只有拆分部件正確無誤之后,才能尋找部件鍵位,再按規(guī)定鍵位擊鍵,所需的那個(gè)字才能被檢出。還有一個(gè)末筆字型交叉識別問題,即使是熟練的專業(yè)錄入人員也常出錯(cuò)。相對于拼音碼,五筆字型的單字檢出重碼較少。但是,錄入者需經(jīng)較長時(shí)間的專業(yè)訓(xùn)練,需記住許多規(guī)則、鍵盤和鍵位,否則,非專業(yè)人員很難記住所規(guī)定的拆分和鍵位,這就是五筆字型在非專業(yè)錄入人員中難以推廣和普及的原因。五筆字型編碼也編制了詞匯碼,其原理是以單字的代碼為基礎(chǔ),完全依據(jù)組成詞匯的每一個(gè)單字的筆畫拆分以后再組成與單字代碼碼型一致的詞匯編碼。其規(guī)則是雙字詞分別取兩字的前兩個(gè)字根代碼共4碼組成三字詞為前兩字各取第一個(gè)字根碼,最后一字取前兩碼,也是4碼組成四字詞則每字各取第一碼,仍然是4碼組成多字詞按“1-2-3-末”字各取第一碼的規(guī)則,依然是4碼組成。這種對詞組、詞匯和詞語的取碼方法,又是一種新的拆分組合,且往往是在臨用時(shí)才能進(jìn)行拆分(因?yàn)槭褂谜哂洸蛔∧敲炊嗟脑~匯應(yīng)該是何種組合),既費(fèi)神,又費(fèi)時(shí)。而且,每個(gè)字只取第一碼的弊病是重碼必然太多。因?yàn)榈谝蛔指P畫相同的漢字必然大大多于一個(gè)字拆3-4個(gè)字根的字。其結(jié)果必然是擴(kuò)展的詞匯和詞語越多,重碼也將越多,尤其是多字詞組成的詞語,例如“國營企業(yè)”、“國營企事業(yè)”,“第十一世紀(jì)”、“第十二世紀(jì)”,“第十三世紀(jì)”、“第十五世紀(jì)”、“第十七世紀(jì)”等詞語都只能是重碼。而且,由于單字是4碼,雙字詞是4碼,三字詞是4碼,4字詞和多字詞也是4碼,結(jié)果必然出現(xiàn)單字、雙字詞組、三字詞組、四字詞乃至多字詞語同為一個(gè)編碼的多重混亂狀態(tài),這些都是“形碼”難以克服的弊病。從根本上說,形碼是不能真正解決漢語中存在和使用的大量詞組、詞語和短句的編碼的。拼音碼的優(yōu)點(diǎn)是不必拆分組合,拼讀符合人們的聽想思維習(xí)慣,其編碼反應(yīng)直接,只需懂得拼音規(guī)則,上機(jī)即會,不用培訓(xùn),不會忘記,正如英語國家的人用英語鍵盤錄入一樣。然而,由于漢語的發(fā)音僅限于418個(gè)音節(jié),而漢字的單字常用字為4000個(gè)左右。國家標(biāo)準(zhǔn)總局公布的《信息交換用漢字編碼字符集—基本集》(GB2312-80)1、2批,共6763個(gè)單字,其中,有1-5個(gè)單字的音節(jié)73個(gè),218個(gè)單字。其余6545個(gè)單字分布于345個(gè)音節(jié)之中,平均每個(gè)音節(jié)有19個(gè)單字,最多的“ji”音節(jié)有110個(gè)單字,其次“yi”音節(jié)有105個(gè),“yu”音節(jié)有96個(gè)等等,這就是漢字不同于其他拼音文字的“同音字”。由于同音字太多,拼音碼在按下任一拼音組合的鍵位后,屏幕的提示行即出現(xiàn)大量的重碼,不僅單字如此,詞匯中的同音詞組也如此。如“全拼”鍵入“shiji”和“雙拼”鍵入“uiji”之后,這一詞組發(fā)音相同的有“世紀(jì)”、“實(shí)際”、“時(shí)機(jī)”、“事跡”、“試劑”、“實(shí)績”、“試機(jī)”、“史籍”、“食既”、“詩集”、“市集”、“師級”、“史記”、“食積”、“石雞”等16個(gè)同音詞組,類似的同音字詞相當(dāng)普遍,在三字詞和四字詞中同樣有。還有一些拼音碼如“簡拼輸入法”,其編碼碼長單字為2碼,但是,雙字詞詞組、三字詞組乃至多字詞詞組和短語都一律規(guī)定為4碼。雙字詞為聲-韻-聲-韻,3字詞為聲-聲-聲-韻,4字詞為聲-聲-聲-聲,5字詞以上為前三個(gè)字的聲母加末字的聲母。這種編碼的重碼,不僅同一個(gè)同音詞組相重,如上述的“世紀(jì)”等16個(gè)詞組相同,而且雙字詞與3字詞,與4字、5字詞以及多字詞互相重碼,如“世界紀(jì)錄”為“ujjl”,那么,“省級紀(jì)錄”、“射擊紀(jì)錄”、“時(shí)間距離”、“神經(jīng)節(jié)律“受精機(jī)理”等都是重碼。多字詞中如“井水不犯河水”這一詞語,按其編碼規(guī)則應(yīng)該為“jubu”,然而,這一編碼在雙字詞中為“局部”、“拘捕”、“拒捕”、“舉步”,在3字詞中為“記事簿”、“幾十步”、“既使不”等,所以,當(dāng)鍵入“jubu”這一編碼時(shí),屏幕上將出現(xiàn)上述的多個(gè)雙字詞組、三字詞組和詞語。所以,在許多編碼中,當(dāng)鍵入某一個(gè)4碼的編碼時(shí),屏幕上即出現(xiàn)大量的單字、雙字詞組、三字詞乃至多字詞或短語,錄入者不得不反復(fù)地去按“翻頁鍵”,去尋找那個(gè)自己需要的唯一詞組。還有就是許多編碼都設(shè)置有的“聯(lián)想”詞組。如“全拼”碼鍵入“zhong”和“雙拼”碼鍵入“vs”后,屏幕上除了出現(xiàn)“中、重、種、鐘”等74個(gè)單字(含有繁體字)外,還出現(xiàn)雙字詞121個(gè),三字詞28個(gè),四字詞102個(gè),五字詞12個(gè),六字詞9個(gè),七字詞15個(gè),八字詞7個(gè)和九字詞15個(gè),若所需的詞組是在最末一“頁”,則需要“翻頁”達(dá)30次之多。對于錄入者來說,如此眾多而又毫不相干的詞語的出現(xiàn),只能令人頭腦發(fā)昏。因?yàn)殇浫胝呤前词孪葦M寫好的文稿或思考成熟的字或詞語一字一詞地錄入的,既不能出錯(cuò),又不能隨意改動(dòng),必須準(zhǔn)確無誤。錄入者不是中小學(xué)生在學(xué)做文章,哪個(gè)詞匯貼切優(yōu)美就選那個(gè)。既使是直接用計(jì)算機(jī)在屏上寫作的人,選詞造句也已經(jīng)事先在頭腦里形成了。文字錄入時(shí),只能是要啥出啥,準(zhǔn)確無誤,百發(fā)百中。任何一種拼音碼,包括新近推出的《聯(lián)想拼音》、《微軟拼音》和《語音識別系統(tǒng)》等,既使加上“四聲”進(jìn)行識別,也仍然不可避免地存在大量同音字和同音詞組。以上列舉的以五筆字形為代表的形碼,其實(shí)也不是漢字結(jié)構(gòu)真正的形,而只是漢字結(jié)構(gòu)的基本筆畫“橫、豎、撇、捺、折”,與漢字的特性相距甚遠(yuǎn)。各類拼音碼雖然抓住了發(fā)聲這一重要特征,但是,發(fā)聲是任何一種語言都具有的特性。那么,漢字的特性是什么呢?中國的漢字,從我國新石器時(shí)代晚期人類的刻畫符號開始,歷經(jīng)了3000年左右,發(fā)展到殷商時(shí)期的甲骨文象形文字。其后又經(jīng)鐘鼎文(金文)時(shí)期,在象形文字的基礎(chǔ)上發(fā)展演化而成為系統(tǒng)的漢字。漢字發(fā)展演化的方法,就是所謂“六書”?!傲鶗闭?,即象形、指事、會意、形聲、假借和轉(zhuǎn)注?!跋笮握?,畫成其物,隨體詰詘”?!爸甘抡?,視而可識,查而可見”。“會意者,比類合誼,以見指撝”。“假借者,本無其字,依聲托事”?!稗D(zhuǎn)注者,建類一首,同意相受”(許慎《說文解字》序)。及至現(xiàn)代,漢字雖然幾經(jīng)改革和簡化,使?jié)h字的結(jié)構(gòu)和數(shù)量發(fā)生了很大變化,但基本上仍然保留上述特點(diǎn)。早在東漢時(shí)期,許慎就在其編篡的《說文解字》敘中說“倉頡之初作書,蓋依類象形,故謂之文。其后形聲相益,即謂之字”。中國漢字雖非倉頡一人所能發(fā)明,但是,這段話已表明了漢字的形成是“依類象形”的。而“字”則是“形聲相益”的,這已經(jīng)指明了漢字的根本特性。所謂“形聲相益”,就是漢字不僅具有“聲”(即發(fā)音)的特性,而且還具有“形”的特性。根據(jù)漢語的發(fā)音特點(diǎn),漢字被區(qū)分為418個(gè)音節(jié)。所有的漢字,無論是當(dāng)代《新華字典》收入的8000余單字,還是國家標(biāo)準(zhǔn)局公布的《信息交換用漢字編碼字符集》所收的6763個(gè)單字,抑或象《康熙字典》所收的42000余字,其發(fā)音都未能超出這418個(gè)音節(jié),這就是漢字同音字-詞多的根本所在。以漢字編碼字符集公布的6763個(gè)字計(jì)算,平均每個(gè)音節(jié)有16個(gè)單字,最多的一個(gè)音節(jié)有110個(gè)單字同音(ji音節(jié))?!犊滴踝值洹穭t每個(gè)音節(jié)平均100個(gè)以上的單字。在如此多的同音單字中,如何去區(qū)別每一個(gè)字的意義呢?這就得依靠每一個(gè)單字的“形”。這個(gè)“形”,一是由最早的(如甲骨文時(shí)期)原初字構(gòu)成。其次是在原初字的基礎(chǔ)上經(jīng)指事、會意、形聲、假借和轉(zhuǎn)注等六書所衍生確立的偏旁部首。如一個(gè)“丁”字是最早的象形字,而現(xiàn)代語言中的“ding”這一音節(jié)共有22個(gè)單字(按《新華字典》),其中以“丁”這一原初象形字為發(fā)音基礎(chǔ)再加不同的偏旁部首構(gòu)成的不同意義但仍發(fā)“ding”音的單字就有16個(gè)(丁,叮,訂,盯,頂,釘,町,玎,疔,訂,仃,釘,酊,汀,釘,玎,靪),接著以“定”字加偏旁部首衍生的有5個(gè)(定,錠,腚,碇,啶)。再看一個(gè)“登”(deng)字,以“登”字為基本字形加不同部首衍生出12個(gè)發(fā)“deng”音的單字,占這一音節(jié)的80%。隨便翻開一部以漢語拼音排列的字典,幾乎每個(gè)音節(jié)中的單字都是如此構(gòu)成。另一種就是從基本原初字如人字演變?yōu)椴渴住柏椤彪p人和“人”旁共有311個(gè)單字,以“草”演變?yōu)椤捌H”頭而發(fā)音不同的單字491個(gè),以“木、氵”為偏旁的單字有992個(gè)發(fā)音不同的單字等等。所以,漢語的每一個(gè)單字只用一種特性如發(fā)音(各種拼音碼)或“形”(包括象五筆字型等等的變型)都無法反映一個(gè)單字和同音詞組的特性??梢哉f,“形聲相益”是漢字在象形文字基礎(chǔ)上演化和擴(kuò)展的主要方法,現(xiàn)代的電子計(jì)算機(jī)漢字編碼也應(yīng)當(dāng)以此作為最基本的識別方法和應(yīng)當(dāng)遵循的原則和途徑。在現(xiàn)代漢語中,描述各類事物并以文字作為信息傳遞而寫成的文章,是由詞組和短語(包括大量的成語和固定短句)構(gòu)成的。實(shí)際上,在國家標(biāo)準(zhǔn)總局公布的6763個(gè)單字中,大約有1500個(gè)單字是不能單獨(dú)用的,它們只是組詞的單元,如“琵琶”、“枇杷”、“菝葜”、“荸薺”、“螞蟻”、“蟋蟀”等。有些單字雖可單用,但組詞以后就很少單用了,這類單字也有1000多個(gè)。這樣,老是把研究的重點(diǎn)放在‘單字’的處理上,實(shí)在是有“畫蛇添足”之嫌。本發(fā)明者隨機(jī)統(tǒng)計(jì)分析了當(dāng)代政治生活及生產(chǎn)活動(dòng)中有代表性的報(bào)告、文章和一般性文稿,其中雙字詞組占41.74%(35.8-46.9%),三字詞組占20.17%,四字詞組占21.76%,五字以上多字詞及短語占7.08%。單字僅占9.25%,包括最常用的虛詞如“的”、“地”、“和”、“與”、“及”等,另外就是一些本身就具有詞匯性質(zhì)的單字如“金”、“銀”、“銅”、“鐵”、“煤”等。還有一類文章就是科技文獻(xiàn)(科技論文、科學(xué)著作和科普作品),在這類文章中,除了普通詞匯之外,還有大量的專業(yè)技術(shù)詞匯和科技術(shù)語。本技術(shù)發(fā)明者在三種不同的科技論著(科技論文、著作和科普作品)中,隨機(jī)統(tǒng)計(jì)了12397個(gè)字詞(不包括標(biāo)點(diǎn)、阿拉伯?dāng)?shù)字和拉丁字母),計(jì)有雙字詞4636個(gè),占總字?jǐn)?shù)的37.39%,比普通文章中的雙字詞數(shù)目略低。三字詞2934個(gè),占總字?jǐn)?shù)的23.67%,比普通文章多。四字詞1958個(gè),占總字?jǐn)?shù)的16.04%,大大高于普通文章中的5.25%。五字詞至八字詞或短語749個(gè),占總字?jǐn)?shù)的6.04%,普通文章中僅占1.51%。這個(gè)統(tǒng)計(jì)表明,在科技文章中,多字詞語的使用頻率要比普通文章高,而且,科學(xué)技術(shù)詞語本身就是以多字詞為主體的。統(tǒng)計(jì)了國家統(tǒng)一編訂出版發(fā)行的《漢語主題詞表》(“自然科學(xué)”增訂本,1991年),其中“B”這個(gè)聲母中16個(gè)音節(jié)共收入主題詞3456個(gè),其中雙字詞505個(gè),三字詞822個(gè),四字詞1017個(gè),五字詞567個(gè),六字詞290個(gè),七字詞139個(gè),八字詞以上116個(gè)。再看科技文章中雙字詞以上的普通詞匯與科技詞匯的比例普通詞匯與科技詞匯之比為4624∶6249=1∶1.35。這個(gè)結(jié)果表明,對于廣大科學(xué)技術(shù)工作者來說,既使普通漢語詞語的編碼問題完全解決了,他們在寫作科技文章時(shí),仍將有占全文一半以上的專業(yè)技術(shù)詞語需一個(gè)單字一個(gè)單字地錄入。此外,目前市場上大量上市的各類電子詞典,包括《金山詞霸2000》這樣的超大型辭書,其漢字輸入和漢英詞典詞條的檢出,都只能一個(gè)個(gè)單字錄入在顯示屏上組合成詞語后才能檢出所需的詞條和進(jìn)行漢英翻譯。當(dāng)今科學(xué)技術(shù)的發(fā)展一日千里,如果漢字詞語的編碼忽視了科學(xué)技術(shù)詞語的編制和研究,這仍然是一種不完全的編碼技術(shù)。從以上背景資料的分析不難看出,迄今為止所推廣應(yīng)用的多種漢字編碼技術(shù),都沒有真正解決漢語漢字以詞語為基礎(chǔ)的編碼技術(shù),更談不上科學(xué)技術(shù)專業(yè)詞語的編碼了。本技術(shù)發(fā)明的目的,就是針對目前各種漢字編碼技術(shù)之不足,根據(jù)漢字“形聲相益”的特性和現(xiàn)代漢語詞語的應(yīng)用范圍,以現(xiàn)代漢語為主,參考《現(xiàn)代漢語辭典》(“中國社會科學(xué)院語言研究所”,1997年)和《漢英詞典》(修定版),(北京外國語大學(xué)英語系詞典組編,1995年第一版)所收的詞語為普通漢語詞語和一般科技詞語版本(“漢英詞典”含有一般科技詞語),另外,收入中國成語中的6000余條成語詞組,“毛澤東詩詞”47首以及我國古代詩詞、曲賦和名人名言中的一些名篇名句??茖W(xué)技術(shù)版則以“科學(xué)技術(shù)文獻(xiàn)出版社”出版的《漢語主題詞表—自然科學(xué)版(增訂本)》(1995年)所收的自然科學(xué)主題詞(8萬余詞條)和“漢英生物學(xué)詞匯”等。在上述文獻(xiàn)的基礎(chǔ)上,參考日常報(bào)刊雜志和科技文獻(xiàn)中出現(xiàn)的新的政治、工農(nóng)業(yè)生產(chǎn)、經(jīng)濟(jì)貿(mào)易和科學(xué)技術(shù)詞語進(jìn)行適當(dāng)補(bǔ)充和增刪,從而編制出的一種新型的、系統(tǒng)全面的而又易于操作應(yīng)用的漢字詞語電子計(jì)算機(jī)用編碼。本發(fā)明的技術(shù)方案,是以現(xiàn)代漢語固有的詞語作為編碼單位,即以漢字詞組中的雙字詞、三字詞、四字詞、五字詞、六字詞、七字詞、短語以及一些固定的簡單句作為一個(gè)編碼單位,包括普通詞語、科學(xué)技術(shù)詞語、成語、諺語、名人名言以及古今著名的詩詞曲賦等。編碼方法,采用“反切相拼定音節(jié),聲母加形識末字”?!胺辞衅匆簟笔俏覈纬从糜跐h字注音的一種簡潔明快的注音方法,為一字之聲母與另一字之韻母快速相拼?!奥暷讣有巫R末字”,即在雙字詞以上詞組、短語的第一個(gè)字由“反切相拼”定其所在之音節(jié),末字用其聲母和部首加以識別。4字詞以上則只需反切相拼定音節(jié),以后各字用聲母組合即可。短語或中間有停頓的固定短句在停頓處用后掇省略。由于許多單字具有詞匯性質(zhì)或有時(shí)可能單獨(dú)用到,所以仍將這部分單字編碼列出。文章中最常用到的虛詞、連詞、形容詞和付詞詞尾用一鍵輸入。要求保護(hù)的方案如下(1),漢字偏旁部首的調(diào)整和“0”部首的設(shè)置本發(fā)明采用“反切相拼定音節(jié),聲母加形識末字”的方法,因?yàn)槟┳中枰貌渴走M(jìn)行識別,而我國傳統(tǒng)習(xí)用的偏旁部首有50余部不規(guī)范,不僅難以識別,且計(jì)算機(jī)的鍵位也難以合理安排,所以對漢字的部首,在原來傳統(tǒng)漢語字典部首設(shè)置的基礎(chǔ)上進(jìn)行了調(diào)整。將《新華字典》設(shè)置的213個(gè)部首,調(diào)整后保留規(guī)范的163部,廢除50個(gè)不規(guī)范的部首(各類字典被列為“難檢字”表中的單字),將這些廢除的部首中的難檢字絕大部分劃為“零”部首,用鍵名“o”鍵代表,有些則歸入相應(yīng)的規(guī)范部首。(2),單字的編碼方案應(yīng)用本詞語碼編碼錄入文稿,已經(jīng)很少用到單字了。但是,一些具有詞匯性質(zhì)及中國人的姓氏所涉及的單字仍然不少,因此仍將其編碼列出。單字用3碼,編碼規(guī)則是,反切相拼定音節(jié),重碼部首來識別,例如“中”字,全拼為“zhong”,雙拼為“vs”,當(dāng)鍵入全拼的“zhong”或雙拼的“vs”時(shí),屏幕提示行出現(xiàn)“中,重,種,鐘,腫,眾,終,盅,忠,衷,踵,舯,螽,冢,塚”等同音字。本發(fā)明若需其中某字時(shí),只需在“vs”后面加該字的部首即可檢出。例中“中”字的部首不規(guī)范,因此加“o”為“vso”,“重”字橫底加“/”為“vs/”,“種”字禾旁加“h”為“vsh”,“鐘”字金字旁加“j”為“vsj”,“腫”字月旁加“y”為“vsy”,“眾”字人旁加“r”為“vsr”,“終”字絲旁加“s”為“vss”,“盅”字為皿底加“m”為“vsm”,“忠”字心底加“x”為“vsx”,“衷”字點(diǎn)頭加“′”為“vs′”,“踵”字足旁加“z”為“vsz”,“舯”字舟旁加“v”為“vsv”,“螽”字蟲底加“i”為“vsi”,“冢”字豕底加“u”為“vsu”,“塚”字提土旁加“t”為“vst”等。這樣,單字的重碼就可以用各字所具有的部首區(qū)分開來。(3),雙字詞的編碼技術(shù)方案雙字詞用4碼,其規(guī)則是,反切相拼定音節(jié),聲母加形識末字。反切相拼定第一個(gè)字的音節(jié),第二個(gè)字用聲母加部首識別。如“實(shí)際”一詞,先鍵入“ui”這一音節(jié),接著鍵入“際”字的聲母“j”,“際”字的部首為“耳”旁,其對應(yīng)的聲母發(fā)音為“e”,所以加“e”為“uije”。與“實(shí)際”同音的詞組還有“世紀(jì)”的“紀(jì)”為絲旁,加“s”為“uijs”,“時(shí)機(jī)”的“機(jī)”為木旁,加“m”為“uijm”,“事跡”的“跡”為走旁,加“z”為“uijz”,“試劑”的“劑”為刀旁,加“d”為“uijd”,“史記”的“記”為言旁,加“y”為“uijy”,“史籍”的“籍”為竹頭,加“v”為“uijv”,“詩集”的“集”為“佳”上,加“j”為“uijj”,“石雞”的“雞”為鳥部加“n”為“uijn”,“實(shí)據(jù)”的“據(jù)”為提手加“t”為“uijt”,“詩句”的“句”為口部加“K”為“uijk”,“時(shí)局”的“局”為尸頭加“u”為“uiju”,“市井”的“井”不規(guī)范加“o”為“uijo”。這樣,本來發(fā)音相同而必然為重碼的詞組就切分開了。由于有的同音詞組末字同形,也會出現(xiàn)少數(shù)重碼,但從未超過6個(gè),經(jīng)再次拆分即可做到全無重碼。(4),三字詞的編碼技術(shù)方案三字詞用5碼,其規(guī)則是,反切相拼定音節(jié),聲-聲加形識末字。第一字反切相拼定準(zhǔn)音節(jié),第二字只用聲母,第三字用聲母加部首識別。例如“中國人”為“vsgro”(“人”字不規(guī)范為“0”),“中國熱”為“vsgrh”,“中國字”為“vsgzg”,“中國話”為“vsghy”,“中國畫”為“vsgh/”;“第一班”為“diybw”,“第一版”為“diybp”,“第一榜”為“diybm”等等。(5),四字詞及四字以上詞組或短語的編碼技術(shù)方案四字詞編碼用5碼,五字詞用6碼,六字詞用7碼,七字詞用8碼,八字詞用9碼等。其規(guī)則是,四字詞及四字以上詞組、詞語及中間無間斷的短語,反切相拼定音節(jié),其余聲母來識別。第一字反切相拼定準(zhǔn)音節(jié),其余各字用其聲母即可,例如“中國人民”為“vsgrm”,“改革開放”為“glgkf”。五字詞組如“人民解放軍”為“rfmjfj”,“環(huán)境保護(hù)法”為“hrjbhf”。六字詞組如“百聞不如一見”為“blwbryj”,“中國人民銀行”為“vsgrmyh”。七字詞如“不到長城非好漢”為“budiifhh”,“矮子里面拔將軍”為“alzlmbjj”等等。(6),固定短語和句子的編碼技術(shù)方案固定短語和句子多在成語或名人名言中出現(xiàn),中間往往有停斷,例如“不入虎穴,焉得虎子”,“仁者見仁,智者見智”,“橫眉冷對千夫指,俯首甘為孺子?!?,“有朋自遠(yuǎn)方來,不亦樂乎”等等。編碼規(guī)則用前半句編碼加后綴..?!安蝗牖⒀?,焉得虎子”為“burhx..”,“橫眉冷對千夫指,俯首甘為孺子?!睘椤癶gmldqfv..”。如果只需要前半句,則前半句編碼鍵入后不加后綴即出現(xiàn)于提示行。有兩次停斷者,全句為后綴加3點(diǎn)...,前兩個(gè)半句加兩點(diǎn)。如“不破不立,不塞不流,不止不行”為“bupbl...”。只需“不破不立,不塞不流”為“bupbl..”。(7),詩詞曲賦的編碼技術(shù)方案從“詩經(jīng)”“楚詞”開始的古體詩詞曲賦,是我國文化藝術(shù)的瑰寶,由于其言簡意賅、格律固定,用詞優(yōu)美,發(fā)聲押韻,歷來為人民所喜愛,常用于學(xué)習(xí)、詠頌、引用和分析。在現(xiàn)有的各種編碼中,如果需要錄入詩句時(shí),只能一個(gè)單字一個(gè)單字地錄入。本編碼以一個(gè)完整詩句作為一個(gè)編碼單位編碼上半句,如需全句則加后綴..,例如“紅軍不怕遠(yuǎn)征難,萬水千山只等閑”為“hsjbpyvn.”。若只需“紅軍不怕遠(yuǎn)征難”則不用加后綴..。對于四言、五言詩和詞賦,則按自然語句錄入,例如毛澤東的詞“沁園春一雪”“北國風(fēng)光(bzgfg),千里冰封(qmlbf),萬里雪飄(whlxp)。望長城內(nèi)外(wjiinw),唯一茫茫(wzymm),大河上下(dahux),頓失滔滔(dputt).....江山如此多嬌(jwurcdj),引無數(shù)英雄竟折腰(ybwuyxjvy)”等等。(8),單位及機(jī)構(gòu)名稱編碼技術(shù)方案在新聞稿件及公務(wù)往來的文件中,經(jīng)常涉及世界各國、國際組織、政府機(jī)構(gòu)、高等院校、研究院所、新聞單位、金融財(cái)貿(mào)和工商企業(yè)等機(jī)構(gòu)名稱。對于這些機(jī)構(gòu)名稱,一般情況下又多用簡稱,正式場合如發(fā)表公報(bào)、簽訂條約等又須用全稱。國家名稱如“美國”為簡稱,“美利堅(jiān)合眾國”為全稱?!胺▏睘楹喎Q,“法蘭西共和國”為全稱?!安ê凇睘楹喎Q,“波斯尼亞和黑塞哥維那共和國”為全稱?!爸泄仓醒搿睘楹喎Q,“中國共產(chǎn)黨中央委員會”為全稱。“全國人大”為簡稱,“全國人民代表大會”為全稱。“全國政協(xié)”為簡稱,“中國人民政治協(xié)商會議”為全稱等等。編碼方案一律用簡稱編碼,需全稱時(shí)加后綴.q。如“mzgo”為“美國”,“mzgo.q”為“美利堅(jiān)合眾國”?!癰ohh”為“波黑”,“bohh.q”為“波斯尼亞和黑塞哥維那共和國”。“vsgvy”為“中共中央”,“vsgvy.q”為“中國共產(chǎn)黨中央委員會”?!皅mgrd”為“全國人大”,“qmgrd.q”為“全國人民代表大會”?!爸袊饨徊俊睘椤皏sgwjb”,“vsgwjb.q”為“中華人民共和國外交部”。“l(fā)wnzv”為“糧農(nóng)組織”,“l(fā)wnzv.q”為“聯(lián)合國糧食和農(nóng)業(yè)組織”?!皏skye”為“中科院”,“vskye.q”為“中國科學(xué)院”(五字以內(nèi)名稱也可用全編碼vsgkxy),“vskydws”為“中科院動(dòng)物所”,“vskydws.q”為“中國科學(xué)院動(dòng)物研究所”。象“北大”,“清華”等簡稱和全稱字?jǐn)?shù)差異不大的單位,需用簡稱為“bzdo”,“qyhh”,需要全稱為“bzjdx”,“qyhdx”,不必加后綴.q。對于省、市、自治區(qū)黨政機(jī)構(gòu),部門名稱的編碼技術(shù)方案,采用一、二級編碼。一級為一次編碼完成,如“bzjuvf”為“北京市政府”,“bzjuvf.q”為“北京市人民政府”,“hzljuvf”為“黑龍江省政府”,“hzljuvf.q”為“黑龍江省人民政府”(也可在“....省政府”前面加“人民”作二次錄入),“xbjqvf”為“新疆區(qū)政府”,“xbjqvf.q”為“新疆維吾爾族自治區(qū)人民政府”等等。二級編碼為省、市、自治區(qū)名和機(jī)構(gòu)名分別單獨(dú)編碼,如“bzj’”為“北京”,“bzju’”為“北京市”,“ujh;”為“上?!?,“ujhu’”為“上海市”?!皔pno”為“云南”,“ypnuu”為“云南省”。若需“北京市人民政府”則再鍵入“rfmvf”—(“人民政府”),如需“北京市經(jīng)濟(jì)貿(mào)易委員會”,先錄入“bzju’(“北京市”),再錄入“jnmwh.q”(經(jīng)貿(mào)委—經(jīng)濟(jì)貿(mào)易委員會”。自治區(qū)用簡稱編碼,需全稱則加后綴。如“gtxqo”為“廣西區(qū)”,“gtxqo.q”為廣西壯族自治區(qū)?!皒bjqo”為“新疆區(qū)”,“xbjqo.q”為“新疆維吾爾族自治區(qū)”等。上述國家、國際組織、政府、高校、研究院所以及所有單位、部門和機(jī)構(gòu)名稱的簡稱,必須按公知公用的簡稱,否則不能正確檢出。(9),中文漢字詞語和機(jī)構(gòu)名稱切換英語、法語等及科技拉丁語的技術(shù)方案中國改革開放以來,逐步擴(kuò)大了與國外的交往,特別是科技文化、經(jīng)濟(jì)貿(mào)易和旅游事業(yè)的交流和發(fā)展,新聞媒體和各行各業(yè)都經(jīng)常涉及外語的應(yīng)用,各級各類學(xué)校進(jìn)一步加強(qiáng)了外語的教學(xué)??萍脊ぷ髡甙l(fā)表科技論文也需要外文寫作或作外文摘要和關(guān)鍵詞,或作注釋和索引等。新聞?dòng)浾咴诿襟w傳播中也常在文章中直接用英語詞語陳述。尤其是各類電子詞典中的漢英詞典詞條的檢出等,都需要按中文詞語原意譯成英文。本編碼設(shè)計(jì)了漢語詞語(包括普通詞語和科技詞語)和機(jī)構(gòu)名稱英語、法語和科技拉丁語快速切換方法。編碼方案為在漢字詞語和機(jī)構(gòu)名稱(簡稱)編碼的基礎(chǔ)上加后綴或改變后綴即可。英語加后綴.e,拉丁語加.l,法語加.f,德語加.g和西班牙語加.s等等(目前僅編制了英語和拉丁語)。先輸入漢語詞語,屏幕的提示行即出現(xiàn)該詞語的漢字,若需該漢字詞語則擊空格鍵直接上屏,若需該詞語的英語,則不擊空格鍵而在其編碼后加后綴.e。舉例如下gojg—國家,gojg.e—country。rfmo—人民,rfmo.e—people。gsidx—共產(chǎn)黨,gsidx.e—communistparty。uehvy—社會主義,uehvy.e—socialism。uehvyju—社會主義建設(shè),uehvyju.e—socalistconstruction。yiir—遺傳,yiir.e—(1)heridity,(2)genetic。yiixx—遺傳學(xué),yiixx.e—genetics。yiigi—遺傳工程,yiigi.e—geneticengineering。jiytb—基因突變,jiytb.e—genemutation。mzgo—美國,mzgo.q—美利堅(jiān)合眾國,mzgo.e—theUnitedStates,mzgo.eq—theUnitedStatesofAmerica。vsgo—中國,vsgo.q中華人民共和國,vsgo.eq—thepeople'sRepublicofChina。yngo—英國,yngo.e—Britain,yngo.q大不列顛和北愛爾蘭聯(lián)合王國,yngo.eq—UnitedKingomofGreatBritianandNorthenrIreland。bzys—北約,bzys.q—北大西洋公約組織,bzys.e—TheNorthAtlanticTreatyOrganization等等。vsgvy—中共中央,vsgvy.q—中國共產(chǎn)黨中央委員會,vsgvy.e—theCentralCommitteeofCommunistPartyofChina。qmgrd—全國人大,qmgrd.q—全國人民代表大會,qmgrd.e—theNationalPeople'sCongressofCHina。qmgrdiw—全國人大常委,qmgrdiw.q—全國人民代表大會常務(wù)委員會,qmgrdiw.e—StandihgCommitteeoftheNationalPeople'sCongress。vsgwjb—中國外交部,vsgwjb.q—中華人民共和國外交部,vsgwjb.e—theMinistryofForeignAffairsofPeople'sRepublicofChina。ougtr—?dú)W共體,ougtr.q—?dú)W洲經(jīng)濟(jì)共同體,ougtr.e。vskye—中科院,vskye.q—中國科學(xué)院,vskye.e—theChineseAcademyofSciences。vskrgfzs—中科院高分子所,vskrgfzs.q—中國科學(xué)院高分子研究所,vskrgfzs.e—TheMacromoleculeInstituteoftheChineseAcademyofSciences等等。寫作科技文章和著作,有時(shí)需要英語、拉丁語學(xué)名索引或注釋同時(shí)出現(xiàn),此時(shí),只需在該詞語的漢字編碼后改變后綴即可。如putai—普通鵪鶉,putai.e—commonQuail(英語“普通鵪鶉”),putai.l—Coturnixcoturnix(“普通鵪鶉”拉丁語學(xué)名)。ribai—日本鵪鶉,ribai.e—JapaneseQuail(英語“日本鵪鶉”),ribai.l—CoturnixJaponica(“日本鵪鶉”拉丁語學(xué)名)。daxmq—大熊貓,daxmq.e—giantpanda(英語“大熊貓”),daxmq.l—Ailuropdamalanoleucus(“大熊貓”拉丁語學(xué)名)。mggym—蒙古野馬,mggym.e—mongoliawildhorse(英語“蒙古野馬”),mggym.l—Equusprzewalskii(“蒙古野馬”拉丁語學(xué)名)等等。(10),外語縮寫作漢字詞語的編碼方案在學(xué)術(shù)刊物、報(bào)章雜志、教材和科普文章中,經(jīng)常使用簡潔明快的英語縮寫進(jìn)行表述,如WTO(世界貿(mào)易組織),F(xiàn)AO(聯(lián)合國糧農(nóng)組織),DNA(去氧核糖核酸),RNA(核糖核酸),APEC(亞太經(jīng)合組織),OPEC(石油輸出國組織),TMD(戰(zhàn)區(qū)導(dǎo)彈防御系統(tǒng)),NMD(國家導(dǎo)彈防御系統(tǒng)),SPF(無特定病源體動(dòng)物),CCTV(中國中央電視臺),CTPC(中國電視劇制作中心)等等。本發(fā)明設(shè)計(jì)了直接用外文縮寫作編碼的技術(shù)方案。編碼方法用縮寫原文加前綴和后綴構(gòu)成。英語縮寫前綴用e.,拉丁語縮寫用l.,后綴則根據(jù)需要而變化。如e.FAO—糧農(nóng)組織,e.FAO.q—聯(lián)合國糧食和農(nóng)業(yè)組織,e.FAO.e—foodandagriculturalorganizationofUnitedNations。e.apec—亞太經(jīng)合組織,e.apec.q—亞洲和太平洋地區(qū)經(jīng)濟(jì)合作組織,e.apec.e—AsiaandPacificoceanareaEconomicCooperteorganization。e.cctv—中國中央電視臺,e.cctv.e—ChinaCentreTelevition。e.ctpc—中國電視劇制作中心。e.ctpc.e—ChinaTelevitionplayPreparativeCentre。e.opec—石油輸出國組織,e.opec.e—theOrgannizationofPetroleumEuportingCountries等等。(11),漢字基數(shù)詞與序數(shù)詞的編碼技術(shù)方案在一般文稿中,漢字基數(shù)詞大小寫一、二、三、四、五、六、七、八、九、十、十一.....,壹、貳、叁、肆、伍、陸、柒、捌、玖、拾,序數(shù)詞第一、第二、第三、第四、第五、第六、第七、第八、第九、第十.....等,尤其是在制定條約、條例、條款和合同等是經(jīng)常應(yīng)用而又不易輸入的詞語,本編碼采用兩種編碼技術(shù)方案。一種是按常規(guī)詞語編碼,即一—yio,二—er/,三—sh/,四—sio,五—wu/,六—lq’,七—qio,八—bao,九—jqo,十—uio,十一—uijo,二十—eruo,二十一—eruyo;第一—diyo,第二—die/,第三—dis/,第四—diso,第五—diw/,第六—dil′,第七—diqo,第八—dibo,第九—dijo,第十—diuo,第十一—diuyo,第十二—diue/,第二十三—dieus,第一百—diyb/.,第一百0一—diybly,第一百三十八—diybsub等等。第二種方法,基數(shù)詞一—u.1,二—u.2,三—u.3,四—u.4,五—u.5,六—u.6,七—u.7,九—u.9,十—u.10,十一—u.11,十二—u.12,十三—u.13,十四—u.14,十五—u.15,十六—u.16,十七—u.17,十八—u.18,二十—u.20,三十二—u.32,一0二—u.102;第一—d.1,第二—d.2,第三—d.3,第四—d.4,第五—d.5,第六—d.6,第七—d.7,第八—d.8,第九——d.9,第十—d.10,第十一—d11,第十二—d.12,第二十三—d.23,第一百—d.100,第一百0一d.101,第一百三十八—d.138等等。如訂立條約或合同等需要,第一條—d.it,第二條—d.et,第五條—d.wt,第十一條—d.iit,第十七條—d.17t,第一百零七條—d.io7t。(12),重碼再拆分技術(shù)方案本編碼采用“反切相拼定音節(jié),聲母加形識末字”的方法,已經(jīng)兩次降低了同音詞組的重碼率。然而,由于漢字的同音字詞太多,且有些詞組的末字同形,所以仍有部分重碼(主要是雙字詞),雖然一般沒有超過6個(gè),不必“翻頁”,但是,要實(shí)現(xiàn)快速盲打,尤其是要將重碼中的某一詞語切換成英語等語種時(shí),卻帶來不便。為此,特設(shè)計(jì)了重碼再拆分的兩種方法。第一種方法,再用第一字的部首進(jìn)行識別例如,當(dāng)鍵入“uiyo”時(shí),屏幕提示行將出現(xiàn)“使用,2實(shí)用,3食用,4適用,5試用,6施用”,末字都為同一或同形的字。若錄入漢字文章需要“適用”一詞時(shí),只需選“4”即上屏。但若欲將其切換成英語時(shí),“適用”一詞的第一字部首為“z”,則在“uiyo”后加“z”(uiyoz)即為“適用”唯一,加.e(uiyoz.e)即為“適用”的對應(yīng)英語“besuitable”。如是,“實(shí)用”為“uiyog.e”?!笆秤谩睘椤皍iyor.e?!霸囉谩睘椤皍iyoy.e”。“施用”為“uiyof.e”等。第二種方法,有的重碼不僅末字同形,且第一個(gè)字也同形或同部首,如“不用,不已,不予”等,這種情況,當(dāng)鍵入“buyo”時(shí),屏幕上即出現(xiàn)上述重碼,漢字錄入需要其中某詞語時(shí)只需選項(xiàng)上屏。若需切換英語,就在編碼后加后綴.2e、.3e,例中“不用”為第一個(gè)詞不必加,以下“不已”為“buyo.2e”,“不予”為“buyo.3e”等等。三字詞和四字詞也有少量重碼,這類詞語的相重不一定在末字,也不一定在第一字,其再拆分方法是鍵入正常的編碼出現(xiàn)重碼時(shí),若需中文可直接選項(xiàng)上屏,或在編碼后加字母“o”為第二個(gè)重碼唯一,加2個(gè)“o”為第三個(gè)重碼唯一。若需切換英語,則在“o”后面加.e,如“gojcp”為“國家裁判、國際裁判”,“gojcpo”為“國際裁判”唯一,“gojcpo.e”為“國際裁判”的對應(yīng)英語“internationalreferee”。本發(fā)明與現(xiàn)有已推廣應(yīng)用的漢字電子計(jì)算機(jī)編碼技術(shù)比較,具有以下有益效果(1),現(xiàn)有已推廣應(yīng)用的以五筆字型為代表的形碼和各類拼音碼,都是以漢字的單字為出發(fā)點(diǎn)進(jìn)行開發(fā)和研究的,其單字編碼本身就存在許多不足,一旦擴(kuò)展為詞語編碼之后,問題則更多。本發(fā)明是以漢語語言中固有的詞組、詞語和短語為出發(fā)點(diǎn)進(jìn)行研究和開發(fā)的,即以漢語語言文字中能夠獨(dú)立存在、自由運(yùn)用的語言單位作為一個(gè)編碼單位,包括雙字詞、三字詞、四字詞和詞組,五字詞組、六字及七字以上詞組、詞語、固定短語,包括成語、諺語、短句和詩詞曲賦等。由于漢字中大部分單字具有詞的性質(zhì),因此也包括具有詞性的單字。這樣以詞語為編碼單位,符合我國人民和懂得漢語漢字的人的語言構(gòu)詞特性和語言發(fā)聲的邏輯思維習(xí)慣,人們易于學(xué)習(xí)、理解、掌握和應(yīng)用。(2)本詞語碼編碼規(guī)范,各類詞組和詞語固定其特定的碼長。本發(fā)明將單鍵鍵名設(shè)置為最常使用和出現(xiàn)頻率最高的虛詞,包括介詞如“從、在、自、由”等,連詞如“和、與、而”等,助詞如“的、地、得、了”等以及副詞等。二碼設(shè)置為漢語418個(gè)音節(jié)能代表每個(gè)音節(jié)準(zhǔn)確發(fā)音的單字2-4個(gè)和該音節(jié)的標(biāo)準(zhǔn)漢語拼音。出現(xiàn)的單字既可直接上屏檢出,更可為雙字詞以上詞組、詞語第一個(gè)字反切相拼的音節(jié)是否正確作出提示。其余規(guī)范為雙字詞4碼,三字詞和4字詞5碼,5字詞語6碼,6字詞語7碼,7字詞語8碼,8字詞語9碼和9字詞語10碼,10字及10字以上詞語不多,錄入10碼即可檢出。這樣,各種詞組、詞語各行其道,不會造成混亂。本編碼碼長為10碼加后綴2碼共12碼,即可全面涵蓋漢語語言中的詞匯、詞語和短語等。而目前已推廣應(yīng)用的各種編碼,全拼有的音節(jié)雙字詞即可達(dá)12碼,其余編碼為4碼者則單字、雙字及各種詞語一起出現(xiàn)形成編碼極大的混亂。(3),本發(fā)明采用的“反切相拼定音節(jié),聲母加形識末字”,不僅與漢字形成的歷史和漢字特有的“形聲相益”相一致,而且可以二次降低同音字詞的重碼率,使同一音節(jié)中的重碼率降低到最小限度?!胺辞邢嗥炊ㄒ艄?jié)”,其理論重碼率僅僅是同一聲母所有音節(jié)數(shù)之倒數(shù),如“L”這一聲母共有26個(gè)音節(jié),反切相拼定音節(jié)之后,其理論重碼率僅是只用聲母者的二十六分之一?!奥暷讣有巫R末字”,又使同一音節(jié)中的同音字詞可能出現(xiàn)的重碼率降為二十九分之一(即用29個(gè)部首鍵位又拆分了一次)。編碼結(jié)果表明,雙字詞的重碼最多為6個(gè)(不必翻頁即可檢出),經(jīng)再次拆分后已無重碼。例如本編碼普通版中“B”這一聲母16個(gè)音節(jié)共收詞語6000余條,“C”這一聲母包括“ch”共35個(gè)音節(jié),收詞語7000余條,結(jié)果出現(xiàn)重碼最多的為5個(gè)(雙字詞),經(jīng)再拆分后即無重碼,可以做到詞語和簡單句的盲打,目前已推廣應(yīng)用的任何一種編碼都不可能做到。(4),編碼的技術(shù)基礎(chǔ)為中國人和學(xué)習(xí)漢語者所熟知且人人都會的拼音加部首,簡單易學(xué),只要上過中小學(xué)校以上的學(xué)生和學(xué)習(xí)過漢語拼音和部首的外國人,只需熟悉一下本編碼的規(guī)則和要求,一學(xué)就會,一用就熟,一般不用舉辦培訓(xùn)班。(5),本編碼容詞量大,收詞組詞語豐富、系統(tǒng)。單字除按國家標(biāo)準(zhǔn)總局公布的《信息交換用漢字編碼字符集—基本集》(GB2312-80)中所收的6763個(gè)外,還收入了一批未被《基本集》收進(jìn)的科技常用字詞。詞組詞語收詞范圍廣,普通詞組詞語10余萬條(包括中國成語6000余條和詩詞名篇名句),科技詞語10余萬條,目前已推廣應(yīng)用的其他編碼是做不到的。(6),本編碼發(fā)明的世界各國國家名稱、國際組織、政府機(jī)構(gòu)、科研院所和各類部門、單位名稱以公知公用的簡稱為基礎(chǔ)按本編碼規(guī)則進(jìn)行編碼,改變后綴即可快速切換全稱及對應(yīng)的外語簡稱或全稱等,為目前任何一種編碼所沒有。(7),本編碼首創(chuàng)的在漢字詞語編碼基礎(chǔ)上加前綴定位和加后綴快速切換英語、科技拉丁語和其他外語語種的方法,目前沒有任何一種編碼可以做到,因?yàn)槠淝疤岜仨氉龅骄幋a所收詞語的重碼很少或無重碼。利用常見的外語縮寫加前綴和后綴作漢語詞語的編碼且可以進(jìn)行各種切換,也是為本編碼所獨(dú)創(chuàng)。(8),本詞語碼不僅容詞量大,無重碼,而且平均碼長短。根據(jù)本發(fā)明的編碼規(guī)則隨機(jī)進(jìn)行文獻(xiàn)統(tǒng)計(jì),錄入一篇普通文章,平均每個(gè)漢字擊鍵1.83次。錄入一篇科技文章,平均每個(gè)漢字擊鍵次數(shù)僅1.69次(未包括全稱用簡稱錄入的詞語),而且可實(shí)現(xiàn)詞語、短語、名詩名句和常用簡單短句的盲打。本編碼不僅是一種先進(jìn)的中文輸入法,既可以錄入文章,又可作為各類電子詞典、辭書中文條目的檢出,熟練之后還可作為新聞?dòng)浾?、文秘工作人員和學(xué)生等的速記代碼,甚或可以用本編碼直接發(fā)稿。試舉新華社的二則電訊如下xnhuqtmj;10yeo8riodmojivrlijnvsgvyzsujy,gojvxjwzmo,vgvjiw.q,qmgvxvx,1999nmotmj;uitcjbszuwhrmnyvrlirhw,jntxwztmj;ynbgutnqlogojtwzjhtmjuw,uivfggry/1999nmotmj;uijtticjbsidbgzdhqbt,bnbjxjlovsgotictdlbtoqrtiy.jwzmoqwty,ycxjisszohgz,batvec;vsyxsluobhhn。(新華社天津10月8日電,記者李靖。中共中央總書記,國家主席江澤民,中共中央政治局常委,全國政協(xié)主席,1999年天津世界體操錦標(biāo)賽組委會名譽(yù)主任李瑞環(huán),今天下午在天津迎賓館聽取了國家體育總局和天津市委,市政府關(guān)于1999年天津世界體操錦標(biāo)賽籌備工作的匯報(bào),并接見了中國體操代表團(tuán)全體成員。江澤民強(qiáng)調(diào),要繼續(xù)做好工作,把這次重要賽事辦好)。共155個(gè)漢字,碼長233,平均每個(gè)漢字1.5碼。再舉一則國務(wù)院和中央軍委發(fā)布的“公告”gowye.qvsyjw.qgsgk∷gfjtxmf,.qfuyogowye.qvsyjw.qduimr,yivhaomtqjbf.qgry/vsyrmvffuzglaomtq.qdfhwldgwdg,wz'wzhgjdvq,tsyohlntwv,bkitaomtq.qdwgdghfv,vsyvf.qplv;aomtq.qdbude,xmyozujwi.jxfji.qvumaom′budeliuuvsyjw.qlbdy,jwy/1999nmo12yxo20rioqizvfudfaomtq.qfhwl.jxfhi.qvumaom′budebugy/aomtq.qddifuw.aomtqvfzlbyu,keyxkvsyrmvfqnq′vumaom′budexxvlwziuhvahjqvlzirzh.vujryiuexuyzpugqrgxdfalrwlx,hlxyzpugaomtq.qdfalr.vujftydvsyrmvffudt.xbhuqbzj′llyx10rio(中華人民共和國國務(wù)院、中華人民共和國中央軍事委員會公告根據(jù)《中華人民共和國憲法》賦予中國人民解放軍的使命,依照《中華人民共和國澳門特別行政區(qū)基本法》關(guān)于中央人民政府負(fù)責(zé)管理澳門特別行政區(qū)的防務(wù)的規(guī)定,為維護(hù)國家的主權(quán)、統(tǒng)一和領(lǐng)土完整、保持澳門特別行政區(qū)的穩(wěn)定和發(fā)展,中華人民共和國中央人民政府派駐澳門特別行政區(qū)的部隊(duì),現(xiàn)已組建完成。中國人民解放軍駐澳門部隊(duì)隸屬中華人民共和國中央軍事委員會領(lǐng)導(dǎo),將于1999年12月20日起正式擔(dān)負(fù)澳門特別行政區(qū)防務(wù)。中國人民解放軍駐澳門部隊(duì)不干預(yù)澳門特別行政區(qū)的地方事務(wù)。澳門特別行政區(qū)政府在必要時(shí),可以向中央人民政府請求駐澳門部隊(duì)協(xié)助維持社會治安和救助自然災(zāi)害。駐軍人員除須遵守全國性的法律外,還須遵守澳門特別行政區(qū)的法律。駐軍費(fèi)用由中央人民政府負(fù)擔(dān)。新華社北京11月10日電)這則《公告》計(jì)有漢字335個(gè),用本編碼錄入或檢出僅需擊鍵405次,平均每個(gè)漢字僅為1.2碼,不僅快速,而且準(zhǔn)確,無重碼,可以實(shí)現(xiàn)盲打。用本編碼速記的文件,錄入和記錄十分容易,但人工讀出則有困難,需在安裝有本詞語碼的電子計(jì)算機(jī)上才能讀出。在此基礎(chǔ)上進(jìn)一步開發(fā)研究,也許可以自動(dòng)讀出。本詞語碼發(fā)明的基本原理,是源于我國漢字的起源、演化、發(fā)展和形成而沿用至今的拼音加每字的部首,即“形聲相益”而實(shí)現(xiàn)的。反切相拼即聲韻相拼,這是每一個(gè)學(xué)習(xí)漢語漢字的人都會的,部首識別單字重碼及詞組的末字更為人人所熟悉,因此,實(shí)現(xiàn)本發(fā)明是十分容易的。只要熟悉反切拼音規(guī)則和部首識別所安排的鍵盤鍵位即可逐步掌握。反切拼音是采用我國從北宋時(shí)期即已開始應(yīng)用的一種簡易的拼音方法,即取上一字之聲母和下一字之韻母快速相拼,其優(yōu)點(diǎn)是簡潔明快,節(jié)省碼長。其拼法與現(xiàn)代的“雙拼”,“簡拼”相似。但本編碼在鍵盤鍵位的安排上與“簡拼”、“雙拼”等有所不同。漢語拼音按照國務(wù)院1955年公布的漢語拼音方案。漢語拼音方案中的聲母ZH、CH、SH分別用V、I、U代替。鍵盤上的26個(gè)字母鍵位剛好滿足26個(gè)聲母(用大寫字母表示)。由于反切相拼只需聲韻相拼,因此,除了單韻母a、e、i、o、u外,復(fù)韻母均用一個(gè)鍵盤字母代替。在韻母鍵位位置的設(shè)置上,為了使用者方便記憶,計(jì)算機(jī)鍵盤的第一排字母鍵安排的是以“u”組合的復(fù)韻母(除單韻母e、u、i、o以外),第二排安排的是“o、e、a”組合的復(fù)韻母,第三排安排的是以“i”組合的復(fù)韻母。由于字母鍵不夠安排所有的復(fù)韻母,所以將實(shí)際拼音不會重疊的2個(gè)復(fù)韻母安排在一起由一個(gè)鍵位代替,但使用時(shí)不會互相影響。本編碼的鍵位排列,將發(fā)音相近的韻母放在相鄰位置,如uan、uang,en、eng,an、ang,in、ing,這樣安排,對于發(fā)音不準(zhǔn)的人,尤其是南方人拼讀這幾個(gè)音時(shí)容易混淆。緊靠一起,不僅容易記憶,而且擊鍵認(rèn)不準(zhǔn)時(shí)可以先擊一個(gè),錯(cuò)了即換旁邊一個(gè),非此即彼,用不著費(fèi)神思考再去反復(fù)尋找鍵位。鍵盤圖見下頁詞語碼反切拼音鍵盤圖QWERTYUIOPui威ua哇euan彎uang汪uai歪shchuo窩un暈iu憂iang央ue約uioASDFGHJKL;aong轟ou歐en恩eng亨an安ang昂ao熬ai哀iong雍ZXCVBNM,./ei誒ie耶iao腰zhin因ing英ian煙ia呀u迂此外,了解和熟悉本編碼單字、雙字和三字詞組末字用部首識別的部首鍵位安排。具體安排見下表詞語碼漢字部首鍵盤表A山B白比貝疒鼻八C艸廾采寸D刀刂大歹斗E耳阝(左右阝)卩爾F方父風(fēng)G宀工廣弓瓜骨革鬼戈弋光谷H灬火戶禾黑虍I廠車蟲臣赤辰齒J斤巾金钅見角臼K口克L老力立來龍鹿盧鹵里M木門馬毛母毋目皿矛米麥麻N女牛鳥O(不規(guī)范部首)P片丬皮疋Q犬犭礻氣其欠青R亻(雙亻)人日曰S纟厶罒覀系T扌田土士U饣石尸豕舌身矢食鼠手V舟止爪爫竹(竹頭)W王攵文瓦韋X忄心彐小夕夂西血辛Y衤衣月羊業(yè)頁又讠酉用魚羽(雨頭)Z辶廴走足子自‘亠丶;冫氵水/一最后,印刷和出版“漢字詞語碼編碼字典”,以便使用者及需要用本編碼出版發(fā)行各類電子詞典、辭書的軟件生產(chǎn)廠家及計(jì)算機(jī)軟件制造商有一個(gè)編碼的準(zhǔn)確依據(jù)。權(quán)利要求1,一種電子計(jì)算機(jī)漢字詞語碼編碼技術(shù),其特征在于以現(xiàn)代漢語中能獨(dú)立存在、獨(dú)立應(yīng)用的雙字詞組、三字詞組、四字及四字以上詞組、詞語、短語和固定短句(包括成語、詩詞曲賦、名人名言、科技詞匯等)作為一個(gè)編碼單位,最大碼長設(shè)定為12碼。采用“反切相拼定音節(jié),聲母加形識末字”的方法,三次降低因漢字同音字、詞太多而出現(xiàn)的大量重碼。2,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識末字”的方法,漢字單字和雙字詞組、三字詞組的末字需用部首識別,本發(fā)明將傳統(tǒng)漢字檢字習(xí)用的偏旁部首重新進(jìn)行調(diào)整。其特征是,將《新華字典》設(shè)置的213個(gè)部首,調(diào)整后保留人們一見就知的規(guī)范部首163部,廢除50個(gè)不規(guī)范的部首(各類字典中列為“難檢字”表中的單字),將這些廢除的部首中的絕大部分單字設(shè)置為“零”部首,用鍵名“o”鍵代表。3,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識末字”的方法,漢字單字用3碼,其特征是,反切相拼定音節(jié),重碼部首來識別。如當(dāng)鍵入“vs”(zhong)時(shí),拼音碼提示行即出現(xiàn)“中、重、種、鐘、腫、眾、終、盅、忠、衷、踵、舯、螽”等13個(gè)重碼,本發(fā)明用部首將重碼識別“中”字部首不規(guī)范為“vso”、“重”字部首“底橫”為“vs/”、“種”字部首“禾旁”為“vsh”、“鐘”字部首“金旁”為“vsj”、“腫”字部首“月旁”為“vsy”、“眾”字部首“人旁”為“vsr”、“終”字部首是“絲”旁為“vss”、“盅”字部首是“皿底”為“vsm”、“忠”字部首是“心底”為“vsx”、“衷”字部首“上點(diǎn)”為“vs′”、“踵”字部首“足旁”為“vsz”、“舯”字部首“舟旁”為“vsv”、“螽”字部首是“蟲底”為“vsi”,這樣,上述13個(gè)同音字即無一重碼。4,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識末字”的方法,漢語雙字詞用4碼,其特征是,反切相拼定音節(jié),末字部首來識別。如“實(shí)際”一詞,首先鍵入“ui”這一音節(jié),接著鍵入“際”字的聲母“j”,“際”字的部首為“耳”旁,其對應(yīng)的聲母發(fā)音為“e”,所以加“e”為“uije”。與“實(shí)際”同音重碼的詞組還有“世紀(jì)”的“紀(jì)”字為絲旁,加“s”為“uijs”,“時(shí)機(jī)”的“機(jī)”字為木旁,加“m”為“uijm”,“事跡”的“跡”為走旁,加“z”為“uijz”,“試劑”的“劑”為刀旁,加“d”為“uijd”,“史記”的“記”字為言旁,加“y”為“uijy”,“史籍”的“籍”字為竹頭,加“v”為“uijv”,“詩集”的“集”為“佳”上,加“j”為“uijj”,“石雞”的“雞”為鳥部加“n”為“uijn”,“實(shí)據(jù)”的“據(jù)”為提手加“t”為“uijt”,“詩句”的“句”為口部加“K”為“uijk”,“時(shí)局”的“局”字為尸頭,加“u”為“uiju”,“市井”的“井”字不規(guī)范加“o”為“uijo”。這樣,本來發(fā)音相同而必然為重碼的13個(gè)詞組就切分開了。5,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識末字”的方法,漢語三字詞編碼為5碼。其特征是,反切相拼定音節(jié),聲-聲加形識末字。第一字反切相拼定準(zhǔn)音節(jié),第二字只用聲母,第三字用聲母加部首識別。例如“中國熱”為“vsgrh”,“中國人”為“vsgro”(“人”字不規(guī)范為“0”),“中國字”為“vsgzg”,“中國話”為“vsghy”,“中國畫”為“vsgh/”;“第一班”為“diybw”,“第一版”為“diybp”,“第一榜”為“diybm”,“第一瓣”為“diybx”等等。6,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識末字”的方法,漢語四字及四字以上詞組或短語的編碼技術(shù)方案為四字詞編碼用5碼,五字詞用6碼,六字詞用7碼,七字詞用8碼,八字詞用9碼等。其特征是,四字詞及四字以上詞組、詞語,反切相拼定音節(jié),其余聲母來識別。中間無間斷的短語,只需第一字反切相拼定準(zhǔn)音節(jié),其余各字用聲母,如“中國人民”為“vsgrm”,“改革開放”為“glgkf”。五字詞組如“人民解放軍”為“rfmjfj”。六字詞組如“百聞不如一見”為“blwbryj”,。七字詞如“不到長城非好漢”為“budiifhh”等。7,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識末字”的方法,漢語固定短語和句子的編碼技術(shù)方案其特征是,固定短語和句子中間有停頓者,用前半句編碼加后綴..,如“不入虎穴,焉得虎子”為“burhx..”。如只需要前半句,則前半句編碼鍵入后不加后綴即出現(xiàn)于提示行。有兩次停頓者,全句為后綴加3點(diǎn)...,前兩個(gè)半句加兩點(diǎn)。例如“不破不立,不塞不流,不止不行”為“bupbl...”。如果只需“不破不立,不塞不流”只加兩點(diǎn)為“bupbl..”。“bupbl”不加后綴為“不破不立”。8,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識末字”的方法,漢語詩詞曲賦的編碼技術(shù)方案,其特征是,以一個(gè)完整詩句作為一個(gè)編碼單位編碼上半句,如需全句則加后綴..,如“紅軍不怕遠(yuǎn)征難,萬水千山只等閑”為“hsjbpyvn..”。若只需“紅軍不怕遠(yuǎn)征難”則不用加后綴。詞賦中的長短句,按自然語句錄入,如毛澤東詞“沁園春—雪”“北國風(fēng)光(bzgfg),千里冰封(qmlbf),萬里雪飄(wjlxp)。望長城內(nèi)外(whiinw),唯一茫茫(wzymm),大河上下(dahux),頓失滔滔(dputt)”,“.....江山如此多嬌(jwurcdj),引無數(shù)英雄竟折腰(ynwuyxjvy)”等等。9,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識末字”的方法,單位、部門及機(jī)構(gòu)名稱的編碼技術(shù)方案,其特征是,用公知公用的簡稱編碼,需全稱時(shí)加后綴.q。例如“mzgo”為“美國”,“mzgo.q”為“美利堅(jiān)合眾國”?!癰ohh”為“波黑”,“bohh.q”為“波斯尼亞和黑塞哥維那共和國”?!皏sgvy”為“中共中央”,“vsgvy.q”為“中國共產(chǎn)黨中央委員會”?!皉fdiwh”為“人大常委會”,“rfdiwh.q”為“全國人民代表大會常務(wù)委員會”。五字以內(nèi)名稱因編碼字?jǐn)?shù)相同,可用全編碼如“北大”、“清華”需用簡稱時(shí)為“bzdo”、“qnhh”,需要全稱為“bzjdx—北京大學(xué)”、“qnhdx—清華大學(xué)”等。省、市、自治區(qū)黨政機(jī)關(guān)、部門名稱編碼采用一、二級編碼。一級編碼為一次完成,如“bzjuvf”為“北京市政府”,“bzjuvf.q”為“北京市人民政府”,(也可在“...市政府”前面加“人民”),“xnjqvf”為“新疆區(qū)政府”,“xnjqvf.q”為“新疆維吾爾族自治區(qū)人民政府”等等。二級編碼為省、市、自治區(qū)名稱單獨(dú)編碼,例如“bzj’”為“北京”,“bzju’”為“北京市”。若需“北京市人民政府”,則再鍵入“rfmvf”—(“人民政府”),如果需要“北京市經(jīng)濟(jì)貿(mào)易委員會”,則先錄入“bzju’”(北京市),再錄入“jnmwh.q”(經(jīng)貿(mào)委—經(jīng)濟(jì)貿(mào)易委員會”。民族自治區(qū)用簡稱編碼,需要全稱則加后綴。例如“gtxqo”為“廣西區(qū)”,“gdxqo.q”為“廣西壯族自治區(qū)”?!皒bjqo”為“新疆區(qū)”,“xbjqo.q”為“新疆維吾爾族自治區(qū)”等等。10,一種電子計(jì)算機(jī)漢字詞語和機(jī)構(gòu)名稱切換英語、法語等及科技拉丁語的編碼技術(shù),其特征是,在權(quán)利要求1-9所述漢字詞語和機(jī)構(gòu)名稱簡稱編碼基礎(chǔ)上加后綴或改變后綴即可實(shí)現(xiàn)英語等外國語種的快速切換。英語加后綴.e,拉丁語加.l,法語加.f,德語加.g和西班牙語加.s等等。方法是先輸入漢語詞語編碼,屏幕提示行即出現(xiàn)該詞語的漢語詞條,若只需該漢字詞語,則擊空格鍵直接上屏。若需該詞語的英語,則在其編碼后加后綴.e如gojg—國家,gojg.e—country。gsdx—共產(chǎn)黨,gsidx.e—communistparty。uehvy—社會主義,uehvy.e—socialism。uehvyju—社會主義建設(shè),uehvyju.e—socialistconstruction。yiigi—遺傳工程,yiigi.e—geneticengineering。mzgo—美國,mzgo.q—美利堅(jiān)合眾國,mzgo.e—theUnitedStates,mzgo.eq—theUnitedStatesofAmerica。vsgo—中國,vsgo.q—中華人民共和國,vsgo.eq—thepeople'sRepublicofChina。yngo—英國,yngo.e—Britain,yngo.q—大不列顛和北愛爾蘭聯(lián)合王國,yngo.eq—UnitedKingomofGreatBritianandNorthernIreland。bzys—北約,bzys.q—北大西洋公約組織,bzys.e—TheNorthAtlanticTreatyOrganization等等。vsgvy—中共中央,vsgvy.q—中國共產(chǎn)黨中央委員會,vsgvy.e—theCentralCommitteeofCommunistPartyofChina。qmgrd—全國人大,qmgrd.q—全國人民代表大會,qmgrd.e—theNationalPeople′sCongressofChina。qmgrdiw—全國人大常委,qmgrdiw.q—全國人民代表大會常務(wù)委員會,qmgrdiw.e—StandingCommitteeoftheNationalPeople'sCongress。vsgwjb.q—中華人民共和國外交部,vsgwjb.e—theMinistryofForeignAffairsofPeople'sRepublicofChina。ougtr—?dú)W共體,ougtr.q—?dú)W洲經(jīng)濟(jì)共同體,ougtr.e—theEuropeanEconomicCommunity。vskye—中科院,vskye.q—中國科學(xué)院,vskye.e—theChineseAcademyofSciences。vskrgfzs—中科院高分子所,vskrgfzs.q—中國科學(xué)院高分子研究所,vskrgfzs.e—TheMacromoleculeInstituteoftheChineseAcademyofSciences等等??萍颊撐?、專著需要英語、拉丁語學(xué)名索引或注釋同時(shí)出現(xiàn)時(shí),在該詞語的漢字編碼后改變后綴。如putai—普通鵪鶉,putai.e—commonquail(英語“普通鵪鶉”),putai.l—Coturnixcoturnix(“普通鵪鶉”拉丁語學(xué)名)。ribai—日本鵪鶉,ribai.e—Japanesequail(英語“日本鵪鶉”),ribai.1—CoturnixJaponica(“日本鵪鶉”拉丁語學(xué)名)。daxmq—大熊貓,daxmq.e—giantpanda(英語“大熊貓”),daxmq.l—Ailuropdamalanoleucus(“大熊貓”拉丁語學(xué)名)。mggym—蒙古野馬,mggym.e—mongoliawildhorse(英語“蒙古野馬”),mggym.l—Equusprzewalskii(“蒙古野馬”拉丁語學(xué)名)等等。11,一種利用常見習(xí)用外語縮寫作漢字詞語的編碼技術(shù),其特征是用外語縮寫原文加前綴和后綴構(gòu)成。英語縮寫前綴用e.,拉丁語縮寫用l.等,后綴則根據(jù)需要而變化。例如e.FAO—糧農(nóng)組織,e.FAO.q—聯(lián)合國糧食和農(nóng)業(yè)組織,e.FAO.e—foodandagriculturalorganizationofUnitedNations。e.apec—亞太經(jīng)合組織,e.apec.q—亞洲和太平洋地區(qū)經(jīng)濟(jì)合作組織,e.apec.e—AsiaandPacificoceanareaEconomicCooperteorganization。e.cctv—中國中央電視臺,e.cctv.e—ChinaCentreTelevition。e.opec—石油輸出國組織,e.opec.e—theOrgannizationofPetroleumEuportingCountries等等。12,一種電子計(jì)算機(jī)漢字大小寫基數(shù)詞與序數(shù)詞編碼技術(shù),其特征是,基數(shù)詞編碼用u.后加所需之阿拉伯?dāng)?shù)字,如二—u.2,三—u.3,四—u.4,十一—u.11,十二—u.12,二十三—u.23,三十二—u.32,一百0一——u.101;序數(shù)詞編碼用d.后加所需之阿拉伯?dāng)?shù)字,如第一—d.1,第二—d.2,第三—d.3,第十—d.10,第二十三—d.23,第一百—d.100,第一百一十三—d.113,第一百三十八—d.138等。第一條—d.1t,第二條—d.2t,第五條—d.5t,第十一條—d.11t,第十七條—d.17t,第一百零七條—d.107t。13,根據(jù)權(quán)利要求1-9所述之漢字詞語碼編碼技術(shù)仍存在部分重碼的再拆分技術(shù),其特征是,雙字詞重碼再用第一字的部首進(jìn)行識別如當(dāng)鍵入“uiyo”時(shí),屏幕提示行將出現(xiàn)“使用,2實(shí)用,3食用,4適用,5試用,6施用”6個(gè)重碼,末字都為同一或同形的字。若錄入漢字文章需要“適用”一詞時(shí),只需選“4”上屏。若欲將其切換成英語時(shí),“適用”的第一字部首為“z”,則在“uiyo”后加“z”(uiyoz)即為“適用”唯一,加.e(uiyoz.e)即為“適用”的對應(yīng)英語“besuitable”。如此,“實(shí)用”為“uiyog.e”?!笆秤谩睘椤皍iyor.e?!霸囉谩睘椤皍iyoy.e”?!笆┯谩睘椤皍iyof.e”等。有少數(shù)重碼不僅末字同形,且第一個(gè)字也同形或同部首,如“不用,不已,不予”等,這種情況,當(dāng)鍵入“buyo”時(shí),屏幕上即出現(xiàn)上述重碼,漢字錄入需要某詞語時(shí)只需選項(xiàng)上屏。若需切換英語,在編碼后加后綴.2e、.3e,例中“不用”為第一個(gè)詞不必加,“不已”為“buyo.2e”,“不予”為“buyo.3e”等等。14,根據(jù)權(quán)利要求1-9所述之漢字詞語碼編碼技術(shù)仍存在部分重碼的再拆分技術(shù),三字詞和四字詞也有少量重碼,但相重不一定在末字,也不一定在第一字,其再拆分方法是鍵入正常的編碼出現(xiàn)重碼時(shí),若需要中文時(shí)可直接選項(xiàng)上屏,或在編碼后加字母鍵“o”為第二個(gè)重碼唯一,加2個(gè)“o”為第三個(gè)重碼唯一。若需切換英語,則在“o”后面加.e,如“gojcp”為“國家裁判、國際裁判”相重,“gojcpo”為“國際裁判”唯一,“gojcpo.e”則為“國際裁判”的對應(yīng)英語“internationalreferee”。也可以找出重碼中發(fā)音不同的單字,用該字的韻母加在編碼后,例如“國際裁判”的“際”為“i”,則在編碼后加“i”為“gojcpi”。需切換成英語時(shí)為“gojcpi.e”。15,權(quán)利要求1-14所述之漢字詞語碼編碼技術(shù)方案同樣適用于各種拼音碼(雙拼、簡拼、全拼等)或形碼詞語同音字、詞的識別及加前后綴切換外語的應(yīng)用,本編碼亦保留其發(fā)明權(quán)。本發(fā)明也同樣適用于我國香港、澳門、臺灣及國外華人華僑中仍在使用漢字繁體字的編碼技術(shù),漢字繁體字詞語碼的版本已另外編出。全文摘要本發(fā)明屬電子計(jì)算機(jī)軟件技術(shù)。以漢語言文字中能夠獨(dú)立存在和運(yùn)用的雙字詞、三字詞、四字詞及五字以上詞語、短語、成語和詩詞等作為一個(gè)編碼單位,采用反切相拼定音節(jié),聲母加形識末字的方法,使?jié)h語因同音字、詞太多而存在的大量重碼得以識別,從而實(shí)現(xiàn)詞語盲打;在漢字詞語編碼基礎(chǔ)上改變后綴,可快速切換對應(yīng)英語等外語詞匯;用單位簡稱編碼改變前綴或后綴,又可切換全稱或?qū)?yīng)外語名稱。編碼原理符合漢語言構(gòu)詞特性和發(fā)音邏輯思維,收詞語廣泛,易學(xué)易用,分普通版和科技版,適于各類人員錄入中文,又可作各類電子詞典的詞語及漢英詞典詞條的檢出,也可作新聞?dòng)浾?、文秘和學(xué)生的速記碼。文檔編號G06F3/023GK1316686SQ0010660公開日2001年10月10日申請日期2000年4月4日優(yōu)先權(quán)日2000年4月4日發(fā)明者曾養(yǎng)志申請人:曾養(yǎng)志