專利名稱::漢字拼音編碼及輸入方法
技術(shù)領(lǐng)域:
:本發(fā)明是一種漢字拼音編碼系統(tǒng)及輸入方法,屬于中文信息處理領(lǐng)域。目前,漢字編碼方案有數(shù)百種,但流行的僅有十幾種,主要分成兩大類拼音編碼和拼形編碼。拼形編碼人為規(guī)則較多、編碼復(fù)雜、二義性較多、非專業(yè)打字人員無法熟練掌握。現(xiàn)已公布的、或流行的許多優(yōu)秀的拼音編碼,如“自然碼”、“音子輸入法”、“音文編碼”等,雖然基本解決了重碼率高、記憶量大、難于掌握等問題,但還是有許多脫離漢字本意的規(guī)定,并且部件的選擇容易產(chǎn)生二義性,特別是難認(rèn)字和難拆字的輸入十分困難。本發(fā)明的目的是針對現(xiàn)有漢字編碼的固有缺陷,特設(shè)計(jì)出一套具有重碼率低、記憶量小、取碼直觀、無需強(qiáng)記、無二義性、無難輸字、極易盲打、極易普及等優(yōu)點(diǎn)的析音編碼系統(tǒng),為漢語拼音編碼的規(guī)范化,中文輸入的自然化、簡明化、快速化提供一個(gè)十分有效的途徑。本發(fā)明技術(shù)方案的實(shí)現(xiàn)在本漢字編碼中,漢字碼的全碼共有四碼。第一、第二碼為漢字整字的聲母碼和韻母碼,將漢字拆分成首尾兩個(gè)部分,第三碼是首部的聲母碼,第四碼是尾部的聲母碼,少量漢字的第四碼是首部的韻母碼。本編碼中所有六種編碼方法均兼容在同一漢字輸入狀態(tài)中,即無需切換皆可進(jìn)行各種輸入,輸入漢字有多種途徑。六種析音編碼是基本析音編碼、回避析音編碼、難字析音編碼、盲打析音編碼、詞組析音編碼、符號(hào)析音編碼。本發(fā)明附圖圖1、析音編碼鍵盤圖,詳細(xì)說明見第十四部分。下面結(jié)合圖表及實(shí)例分十四個(gè)部分進(jìn)一步說明本編碼系統(tǒng)的技術(shù)方案及其實(shí)現(xiàn)一、聲母碼漢語拼音的聲母b、c、d、f、g、h、j、k、l、m、n、p、q、r、s、t、w、x、y、z與英文字母同形,其聲母碼即為對應(yīng)的英文字母,其中y、w既作為聲母又作為虛擬聲母。聲母ch、sh、zh分別以英文字母i、u、v作為聲母碼。無聲母漢字共有a、e、o三部,分別以其對應(yīng)英文字母a、e、o作為其虛擬聲母,虛擬聲母不發(fā)音,僅作為各部區(qū)別標(biāo)志。這樣,所有的漢字都具有了聲母碼,拼音的規(guī)范化、統(tǒng)一化得到了進(jìn)一步的加強(qiáng),并排除了拼音輸入時(shí)聲母的二義性和韻母的多種輸入。如機(jī)電部六所的漢語拼音輸入中,輸入a時(shí),既表示a部,又表示zh部,兩部混合出現(xiàn),第一碼具有二義性,既是韻母又是聲母。韻母ai本來由字母l代替,但輸入“愛”時(shí),ai卻輸入a和i,輸入“摘”時(shí),韻母ai輸入成1,韻母ai有兩種輸入法,即ai和1。在本編碼中,由于第一碼只可能是聲母碼,同一韻母也就只有唯一一種輸入法,“愛”和“摘”的拼音碼分別輸入成al和vl,表義明確、自然、無二義性。全部聲母碼均列在表一中。表一聲母碼表二、韻母碼漢語拼音中,韻母共有34個(gè),除a、e、i、o、u、ü外,其它韻母均由兩個(gè)或兩個(gè)以上的字母組成,本編碼均以一個(gè)英文字母代替之,由于英文中僅有26個(gè)字母,故一些字母要同時(shí)代表幾個(gè)韻母。筆者經(jīng)過大量統(tǒng)計(jì),將其中最不容易造成重碼和混淆的韻母安排在同一字母上,并參考了劉氏“雙音編碼”的韻母方案。為了便于記憶,本編碼除了利用了原已廣泛使用的機(jī)電部六所的拼音碼外,還精心安排了其余韻母碼,使一般操作人員無需學(xué)習(xí)和刻意記憶即可使用。其具體安排見表二。三、漢字的拆分在本編碼中,除不可拆分的“一”和“乙”無法分解外,其余的漢字均拆分成兩個(gè)部分。根據(jù)下列六種字形,對漢字進(jìn)行拆分,圖示中數(shù)字“1”代表首部,數(shù)字“2”代表尾部。傾斜型傾斜部分作為漢字的首部,如“度戴遙”分別以“廣戈辶”作為首部。圍型取包圍部分作為首部,被包圍部分作為尾部夾合型如“街”和“衷”都屬夾合型,取其中“行”和“衣”作為首部,“圭”和“中”作為尾部獨(dú)體字按筆順取其中最大字根作為首部,余下的為尾部,兼顧自然、直觀和習(xí)慣。獨(dú)體字很難分解,筆者特設(shè)“難拆字析音編碼”以解決獨(dú)體字的輸入問題。四、漢字的字根漢字的字根共分兩大類一類是成字字根,其編碼當(dāng)然是取其拼音碼。另一類是偏旁部首,偏旁部首是由古代的成字演變而來,故其一般也有讀音,然而,現(xiàn)代漢字與古代有較大的區(qū)別,我們不可能以古代的讀音標(biāo)定現(xiàn)代漢字的讀音,因此我們只能以現(xiàn)代讀音習(xí)慣對偏旁部首進(jìn)行編碼。為了減少記憶,本編碼規(guī)定的標(biāo)準(zhǔn)偏旁部首很少,只將一些人們常見、常用、又都能認(rèn)識(shí)的偏旁部首規(guī)定為標(biāo)準(zhǔn)偏旁部首。對于那些難以認(rèn)識(shí)、難以讀音的偏旁部首則一律以其首或末筆畫代替。在本編碼中漢字的基本筆畫只有六種,即點(diǎn)、橫(包括橫勾,提橫)、豎(包括豎勾)、撇、捺、拐。因此,本編碼十分自然、記憶量極小、極易為廣大操作人員所接受,從而也就極易推廣。當(dāng)然有些作為字根的漢字不太常見,不易讀出其發(fā)音,為此,筆者除了在表三中列出較為常用的一些成字字根外,還將所有的字根全部列在符號(hào)析音編碼的ep部,無法確定偏旁部首的讀音時(shí),可通過輸入ep,然后利用“>”鍵,查閱其讀音和編碼。五、取大原則和替換原則本編碼的全碼只有四碼,第一、二碼是漢字整體的聲母和韻母,只要按表一和表二順序輸入即可,第三、四碼是將漢字拆分成兩個(gè)部分后,其字根的編碼。漢字的拆分方法和標(biāo)準(zhǔn)字根在前兩節(jié)中已作簡單的介紹,但怎樣提取字根有時(shí)并不唯一。為此,現(xiàn)將字根的提取方法敘述如下1.在劃分部分時(shí)的取大原則在上中下型漢字和獨(dú)體字中,按筆順取其中最大的字根,但不能是該字本身,作為首部,余下的作為尾部。所謂最大字根,就是在該字中,任加一筆畫也無法構(gòu)成另一字根的字根。如“等”由“竹”、“土”、“寸”三個(gè)字根組成,“竹”和“土”不能構(gòu)成另一字根,故最大字根為“竹”。余下的“寺”作為尾部的最大字根。“辜”由“十”、“口”、“立”、“十”四個(gè)成字字根組成,“十”和“口”構(gòu)成“古”字,“古”與下面的“立”無法構(gòu)成另一字根,故“古”為首部,余下的“辛”作為尾部?!皶灐庇伞叭铡?、“冖”、“車”三個(gè)字根組成,“日”和“冖”無法構(gòu)成另一字根,故“日”是最大字根,作為首部。余下的“軍”是尾部的最大字根?!敖帧弊笥覟椤靶小?,中間為“圭”,故“行”為首部,“圭”為尾部?!俺恕逼渲小扒А睘橐蛔指昂獭币矠橐蛔指?,故取“禾”作為首部,余下的“北”作為尾部。“我”其中第一筆畫“丿”無法與別的筆畫構(gòu)成標(biāo)準(zhǔn)字根,故取第一筆畫“丿”作為首部,余下的“找”作為尾部。2、在一個(gè)部分內(nèi)的取大原則(替換原則)有許多漢字明顯地由兩個(gè)部分組成,首部取出一最大字根后,并沒有取出整個(gè)部分,此時(shí),我們認(rèn)為,整個(gè)的首部已經(jīng)取碼完畢,首部余下的部分并不作為尾部的一個(gè)子部分,也就是說,以首部中的第一最大字根代替了整個(gè)首部,這就是“替換原則”。如“魏”左右型,左部由“禾”和“女”組成,按取大原則應(yīng)取“委”作為首部,余下的“鬼”作為尾部。“馨”上下型,上部由四個(gè)字根組成,按取大原則,取“聲”作為首部的代碼,并認(rèn)為整個(gè)首部取碼完畢,也就是說,以“聲”代替了整個(gè)上部,上部余下的“殳”不再作為尾部的子部分,尾部仍為下部“香”?!皧W”上下型,其中第一筆畫“丿”無法與其他筆畫構(gòu)成字根,故以第一筆畫“丿”作為整個(gè)上部的代碼,上部余下的不再看成是下部的子部分,下部仍為“大”。“敷”左右型,左部由“甫”和“方”組成,以“甫”作為整個(gè)左部代碼,余下的“方”不再作為尾部的子部分,尾部仍為右部“攵”“度”傾斜型,傾斜部分由“廣”和“廿”組成,取“廣”作為整個(gè)傾斜部分的代碼,尾部僅為“又”?!按鳌眱A斜型,傾斜部分為“十”和“戈”,取“戈”作為整個(gè)傾斜部分的代碼,“十”不再取碼,尾部仍為“田”和“共”。3、正向取大和逆向取大有時(shí),漢字拆分并不唯一,首部按筆順正向取大后,漢字中仍剩下多個(gè)字根,尾部由哪些字根作為其代碼,容易產(chǎn)生歧義,為此,我們特制定正向取大和逆向取大原則。在本編碼中,①漢字首部的代碼按“正向取大原則”取碼,即以漢字書寫順序第一筆畫開始,正向順序取出最大字根,作為首部的代碼。傾斜型和包圍型有例外。②漢字尾部的代碼按“逆向取大原則”取碼,即從漢字書寫順序的最末一筆開始,按書寫順序相反的順序,取一最大字根作為尾部的代碼。也就是漢字全碼中的第三碼按正向取大原則取碼,第四碼按逆向取大原則取碼。這樣,漢字拆分的二義性和取碼的二義性就都迎刃而解了。舉例如下“翰”左右型,左部作為首部,按正向取大原則取其左上部的“十”作為其代碼。右部為尾部,按逆向取大原則取其右下部的“羽”作為其代碼?!皹s”上中下型,全碼中的第三碼按正向取大原則取上部的“艸”作為其代碼,第四碼按逆向取大原則取下部的“木”作為其代碼,中部的“冖”不取碼,其到底屬于那個(gè)部分也就無關(guān)緊要了。“度”傾斜形,第三碼取傾斜部分“廣”,第四碼按逆向取大原則取“又”,其中的“廿”不取碼。六、基本析音編碼基本析音編碼是析音編碼中最為簡單易學(xué)的編碼,是其它各種編碼的基礎(chǔ),對于初學(xué)者,無需刻意學(xué)習(xí),只要手持一張“析音編碼鍵盤圖”,即可進(jìn)行漢字輸入,其全碼為第一、二碼是漢字的雙拼碼,即第一碼是聲母碼,第二碼是韻母碼。第三碼是從漢字中按“正向取大原則”取出的首部字根的聲母碼,第四碼是按“逆向取大原則”取出的尾部字根的聲母碼。第一碼聲母碼(整字)第二碼韻母碼(整字)第三碼聲母碼(首部)第四碼聲母碼(尾部)舉例如下“嘉”第一碼是聲母j,第二碼是韻母ia的代碼x,第三碼是正向取大取出的字根“吉”的聲母j,第四碼是逆向取大取出的字根“加”的聲母j。其全碼為jxjj七、回避析音編碼回避析音編碼的前三碼與基本析音編碼完全相同,只是第四碼有所改進(jìn),以減少重碼,即當(dāng)?shù)谒拇a與第一碼相同時(shí),也就是逆向取大所取的字根的聲母與漢字本身的聲母相同時(shí),逆向取出尾部一最大的與漢字的聲母不同的子字根,以其聲母碼作為第四碼,稱之為“回避原則”,注意本編碼僅第四碼采用回避原則。這種回避是完全合理、完全自然的,因?yàn)楹艽笠徊糠譂h字的尾部都是給漢字本身注音的,我們沒有必要既輸入漢字的讀音,又輸入其注音,因此我們完全應(yīng)該對一個(gè)漢字中,同音碼的重復(fù)輸入進(jìn)行回避,這就是本編碼設(shè)計(jì)思想的基本特征之一。第一碼聲母碼(整字)第二碼韻母碼(整字)第三碼聲母碼(首部)第四碼聲母碼(尾部,回避第一碼)如“嘉”第一碼是“嘉”本身的聲母j,第四碼原是字根“加”的聲母j,但“嘉”和“加”同聲,故應(yīng)回避,逆向取字根“加”的最大子字根“口”的聲母k,將第四碼j改為k?,F(xiàn)在“嘉”的全碼為jxjk。八、難字析音編碼在本編碼中,難字析音編碼共分難認(rèn)、難拆、難認(rèn)難拆三種1、難認(rèn)字析音編碼所謂難認(rèn)字是指那些普通人不認(rèn)識(shí),又無法通過其字根確定讀音的字。讀半邊音的不常見字不屬于難認(rèn)字。在國標(biāo)一、二級(jí)字庫中,特別是在二級(jí)字庫中,有很多普通人員不認(rèn)識(shí)、難以確定其讀音的漢字,這些字要占全部6763個(gè)字中的三分之一以上。由于它們的拼音碼無法確定,在使用前面的兩種編碼進(jìn)行輸入時(shí),第一、二碼無法輸入,只能通過替換鍵模糊輸入,與常用字混合在一起在整個(gè)字庫中進(jìn)行搜尋,這樣重碼率極高。最多的可達(dá)100字以上,只能用肉眼利用翻頁鍵,一頁一頁地查找。既費(fèi)時(shí)又費(fèi)力。因此,完全有必要,將難認(rèn)字單獨(dú)進(jìn)行編碼。當(dāng)然,難認(rèn)字也同樣應(yīng)有普通的編碼方法,以便那些認(rèn)識(shí)這些漢字的人使用。在本編碼中,難字的編碼都放在o部。即難認(rèn)字析音編碼第一碼o第二碼聲母碼(首部,按正向取大原則所取的字根)第三碼聲母碼(尾部,按逆向取大原則所取的字根)第四碼韻母碼(尾部,按逆向取大原則所取的字根)如“菅”一般人不認(rèn)識(shí),也不讀半邊音,拼音碼無法確定,應(yīng)使用難認(rèn)字編碼進(jìn)行輸入,第一碼為字母o、第二碼為“艸”的聲母碼c,第三碼為“官”的聲母碼g,第四碼為“官”的韻母碼q,其難認(rèn)字編碼的全碼為ocgq。在基本編碼中,也有“菅”的編碼,其基本編碼的全碼jncg。2、難拆字析音編碼有一些字特別是獨(dú)體字很難拆分,或拆分時(shí)有多義性,為此,特設(shè)難拆字析音編碼,使其與普通漢字區(qū)別開來。①首部難拆的析音編碼,主要針對那些容易認(rèn)識(shí)的獨(dú)體字第一碼聲母碼(整字)第二碼韻母碼(整字)第三碼o第四碼聲母碼(字中明顯字根的聲母碼)如“必”普通人都知道“必”字的讀音,故其全碼的前兩碼容易輸入,即bi。但其拆分卻不容易看出,故可以使用難拆字編碼,將第三碼輸入成字母o,“必”字即出現(xiàn)在提示行中,第四碼也可以輸入為“心”的聲母碼x。②尾部難拆的析音編碼第一碼聲母碼(整字)第二碼韻母碼(整字)第三碼聲母碼(首部)第四碼o如“痹”“痹”的前兩碼為bi,第三碼取首部的“疒”的聲母碼b,第四碼按基本編碼可以輸入成“畀”的聲母碼b,但其與第一碼相同,故可以使用回避編碼,由于“畀”的下部不是標(biāo)準(zhǔn)字根,取碼就容易產(chǎn)生疑問,因此我們可使用尾部難拆的析音編碼輸入其第四碼,即將第四碼輸入為字母o。3、難認(rèn)難拆字的析音編碼,是指既難認(rèn)又難拆的漢字,主要針對那些不易認(rèn)識(shí)的獨(dú)體字。第一碼o第二碼o第三碼o第四碼聲母碼(字中明顯字根的聲母碼)如“卅”一般人不易認(rèn)識(shí),也難于拆分,故可以使用難認(rèn)難拆字析音編碼對其進(jìn)行輸入,即輸入三個(gè)字母o,“卅”字就出現(xiàn)在提示行中,此時(shí)可以使用數(shù)字鍵進(jìn)行選擇輸入,也可以輸入其第四碼“川”的聲母碼i。當(dāng)然,“卅”也可以按基本編碼輸入成saih。九、漢字的輸入及其簡碼前三節(jié)中,筆者介紹了本編碼系統(tǒng)中三種編碼方法,讀者已對本系統(tǒng)有了大概的了解?,F(xiàn)在,筆者可以介紹漢字的輸入了。1、漢字的輸入在本編碼中,輸入漢字的第一碼時(shí),提示行中出現(xiàn)十個(gè)高頻漢字,其后分別跟有它們的下一個(gè)編碼,輸入其中的漢字時(shí),只要鍵入對應(yīng)的數(shù)字即可,輸入第一個(gè)漢字時(shí),也可以輸入空格代替輸入數(shù)字1。如果不想輸入第二碼,可以通過翻頁鍵“>”進(jìn)行搜尋。輸入第二碼后,提示行出現(xiàn)二級(jí)簡碼漢字、其它高頻字和詞組,如果第三碼不能確定,可通過翻頁鍵搜尋。輸入第三碼后,提示行出現(xiàn)三級(jí)簡碼漢字、高頻字和詞組,如果第四碼不能確定,請使用翻頁鍵。輸入第四碼后,提示行出現(xiàn)所有重碼漢字和詞組。在本編碼中,共有兩個(gè)特殊鍵和一個(gè)特殊碼>翻頁鍵,用于循環(huán)搜尋\替換鍵,用于模糊輸入,代替任意碼o難字碼,輸入難認(rèn)字,第一碼為o,獨(dú)體字第三碼可以是o,第四碼難以確定時(shí)也可以是o,o碼與\鍵的不同之處在于,比如第三碼,\鍵搜尋一、二、四碼相同的所有漢字,o碼僅是那些第三碼難以確定的漢字。o碼屬于漢字碼中一個(gè)特殊碼,而>和\僅是學(xué)習(xí)鍵,不是漢字的編碼。值得注意的是,在本系統(tǒng)中,六種編碼同時(shí)并存,同一漢字既可以按基本編碼輸入,又可以按回避編碼輸入,還可以按難字編碼輸入,甚至還可以按盲打編碼輸入,當(dāng)然更可以使用簡碼輸入。一個(gè)漢字有多種編碼,各種編碼互不矛盾、互不沖突,只不過重碼數(shù)不同、輸入的難易不同而已。每種輸入方法都可以獲得同一漢字,也就是說同一漢字有多個(gè)編碼,所有編碼都并存在同一編碼庫中。例如“俐”按基本編碼輸入為lirl,重碼三個(gè),需要通過提示行進(jìn)行選擇。按回避碼輸入為lird,沒有重碼,無需選擇。沒有難字編碼,也沒有簡碼,盲打碼與回避碼相同?!柏ァ卑椿揪幋a輸入為nnch,有一個(gè)重碼。按難認(rèn)字輸入為ochg,按難認(rèn)難拆字輸入為oooc。回避碼、盲打碼都與基本碼相同。沒有簡碼?!芭!卑椿敬a輸入為nppu,簡碼為np,按難拆字輸入為npou。2、簡碼輸入漢字的簡碼是對全碼的簡化,對于常用字,我們沒有必要一一鍵入其全部的四個(gè)碼。為此,漢字編碼中一般都設(shè)有一、二、三級(jí)簡碼。對于最常用的漢字,以第一碼代替,只要輸入第一碼,再鍵入空格鍵即可,這就是一級(jí)簡碼。對于較常用字,以第一、第二碼代替,只要輸入該字的前兩碼,再鍵入空格即可,這就是二級(jí)簡碼。同理也可以進(jìn)行三級(jí)簡碼的輸入。簡碼都是提示行中出現(xiàn)的第一個(gè)漢字,無需記憶,只是在鍵入數(shù)字1輸入該字時(shí),知道也可以用空格鍵輸入即可。在本編碼系統(tǒng)中,一級(jí)簡碼26個(gè),二級(jí)簡碼421個(gè),三級(jí)簡碼4627個(gè),共5074個(gè)簡碼。而國標(biāo)一二級(jí)字庫中有50個(gè)偏旁部首,不應(yīng)計(jì)入漢字中。故實(shí)際的漢字的總數(shù)為6763-50=6713個(gè)。用簡碼可以對絕大部分字進(jìn)行輸入,能夠大大提高輸入速度。現(xiàn)將本系統(tǒng)中一、二級(jí)簡碼列表如下。在二級(jí)簡碼表中,難字碼的二級(jí)簡碼沒有列出。表四簡碼統(tǒng)計(jì)表表五一級(jí)簡碼表十、重碼的分析1、理論分析按數(shù)學(xué)理論計(jì)算,用英文字母編碼,一位碼有26個(gè),兩位碼有26×26=676個(gè),三位碼應(yīng)有26×26×26=17576個(gè),而在國標(biāo)一、二級(jí)字庫中,僅有6763個(gè)漢字,三位即可完全滿足其編碼要求。至于四位碼則有26×26×26×26=456975個(gè),45萬!對于漢字的字?jǐn)?shù)來說,這簡直是天文數(shù)字。按理說,以45萬個(gè)碼對6千多個(gè)漢字進(jìn)行編碼,應(yīng)該綽綽有余,不應(yīng)出現(xiàn)重碼。但這只是理論上的推測,事實(shí)上,無論你使用什么規(guī)則,只要你的規(guī)則有章可循,只要你不對某幾個(gè)、幾十個(gè)漢字作特殊規(guī)定,用四位碼對6千多個(gè)漢字編碼就不可能沒有重碼。國標(biāo)一二級(jí)字庫中,漢字實(shí)際字?jǐn)?shù)為6713個(gè)。2、基本析音編碼的重碼在本編碼中,基本析音編碼的一位碼26個(gè)、二位碼396個(gè)、三位碼3880個(gè)、四位碼5885個(gè),由于一二三級(jí)簡碼有4302個(gè),其第四碼沒有必要輸入,故將與簡碼字第四碼相同的較常用字放在序號(hào)1的位置,使用空格鍵輸入即可,簡碼字則放在其后。通過這樣的編碼處理后,有550個(gè)重碼漢字也可以不用選擇鍵即可輸入。故此,不用選擇即可輸入的漢字有5885+550=6435個(gè)之多。需要選擇的漢字僅有6713-6435=328個(gè),且其中的絕大部分漢字為難認(rèn)字和難拆字。唯一不足的是,許多漢字需要鍵入第五鍵“空格鍵”。3、回避析音編碼的重碼在本編碼中,回避碼的四位碼有6487個(gè),也就是說,這6487個(gè)漢字無需選擇即可唯一輸入。加上4302個(gè)簡碼,將與簡碼字第四碼相同的漢字,放在序號(hào)1的位置,簡碼字放在其后,不用選擇即可輸入的漢字達(dá)6670個(gè)之多。僅有幾十個(gè)漢字需要選擇。如果加上難字碼,則需要選擇的漢字就幾乎沒有了。完全能滿足盲打的要求了。十一、盲打析音編碼盲打析音編碼是對回避析音編碼的進(jìn)一步改進(jìn)。當(dāng)然,也僅對第四碼進(jìn)行變動(dòng)。目的也是為了消除一碼多字的情形。通過前面的統(tǒng)計(jì)和分析,回避碼完全能夠滿足快速輸入的要求,但還是有近300個(gè)漢字需要使用第五鍵(包括空格鍵和數(shù)字選擇)。為此,本編碼還是規(guī)定了一整套盲打析音編碼,以根除重碼漢字,確保在四鍵內(nèi)無需選擇即可輸入所有的漢字。但相應(yīng)地,也增加了記憶量。盲打析音編碼的規(guī)則一共有兩條,都是針對重碼漢字而設(shè)1、對于尾部完全相同的多個(gè)漢字,改取漢字首部的韻母碼作為第四碼,稱之為“移位原則”。第一碼聲母碼(整字)第二碼韻母碼(整字)第三碼聲母碼(首部)第四碼韻母碼(首部)如“訪肪魴”三個(gè)字的偏旁“讠”、“月”、“魚”的讀音分別是yan、yue、yu,其聲母都是y,而三字的右部又都是字根“方”,如果只從字根上考慮怎樣區(qū)分,那就只有作一些硬性的規(guī)定了,比如說,第四碼“訪”取點(diǎn)“丶”作為代碼,“魴”取橫“一”,“肪”取“方”。這種強(qiáng)行規(guī)定是不可能容易記住的,因此,我們必須從其左部偏旁上做文章,許多編碼,如“自然碼”、“栗氏編碼”等,將這些聲母相同、容易造成重碼的偏旁部首分別安排在不同的鍵位上,這樣,重碼現(xiàn)象自然大量消失,但這些偏旁部首與其讀音也就失去了聯(lián)系,輸入第三碼時(shí),記憶量也就增加了,并且也不符合人們的習(xí)慣,筆者認(rèn)為,這種方法雖然有效,但并不十分可取。筆者發(fā)現(xiàn),區(qū)別這些漢字時(shí),只要第四碼輸入其偏旁的韻母就可以了,第三碼仍為偏旁的聲母,也就是第一、二碼取漢字本身的聲母和韻母,第三、四碼取偏旁部首的聲母和韻母,即“雙音原則”或“移位原則”。根據(jù)這個(gè)原則,“訪肪魴”三字的全碼為“訪”fhyj為拼音fang和yan的代碼“肪”fhyw為拼音fang和yue的代碼“魴”fhyu為拼音fang和yu的代碼2、對于尾部不完全相同的多個(gè)漢字,將第四碼改為尾部的子部分的聲母碼,稱之為“異字回避原則”。第一碼聲母碼(整字)第二碼韻母碼(整字)第三碼聲母碼(首部)第四碼聲母碼(尾部,回避重碼字)使用這兩個(gè)原則改動(dòng)第四碼后,可以做到無重碼。十二、詞組析音編碼在本編碼中,詞組與單字混和輸入,無需鍵入詞組的標(biāo)識(shí)鍵,只要輸入詞組的編碼,詞組即出現(xiàn)在提示行中。輸入詞組的編碼后若無此詞組,則鍵入Alt+Space即可進(jìn)入詞組建立狀態(tài),逐個(gè)輸入單字后,再按空格表示詞組建立完畢。該詞組就存入字庫中,并出現(xiàn)在文本和提示行中。詞組析音編碼為①二字詞,(1)兩個(gè)字的聲母,(2)兩個(gè)字的聲母和韻母。②三字詞,(1)三個(gè)字的聲母,(2)三個(gè)字的聲母加尾字的韻母。③四字以上詞,前三字的聲母加尾字的聲母。十三、各種符號(hào)的析音編碼在中文信息處理的過程中,各種符號(hào)不可避免地要大量出現(xiàn),特別是中文標(biāo)點(diǎn)符號(hào),每一行、每一句都要出現(xiàn),而英文標(biāo)點(diǎn)符號(hào)與中文標(biāo)點(diǎn)符號(hào)差別很大,并且只占一個(gè)字符位,容易使?jié)h字的文本不規(guī)范,所以在輸入中文文本時(shí),必然也應(yīng)輸入中文標(biāo)點(diǎn)符號(hào)。為此,本編碼規(guī)定“自動(dòng)進(jìn)入中文標(biāo)點(diǎn)符號(hào)狀態(tài)”,即進(jìn)入中文輸入狀態(tài)時(shí),也同時(shí)進(jìn)入到中文標(biāo)點(diǎn)符號(hào)狀態(tài),輸入中文標(biāo)點(diǎn)符號(hào)只需輸入其對應(yīng)的英文標(biāo)點(diǎn)符號(hào)。無需切換,但輸入英文標(biāo)點(diǎn)符號(hào)時(shí),則必須進(jìn)入英文狀態(tài)。兩種標(biāo)點(diǎn)符號(hào)的對應(yīng)關(guān)系為本編碼專設(shè)中文偏旁部首的代碼,將偏旁部首歸屬于ep部,即第一碼e第二碼p第三碼聲母碼(注音)第四碼韻母碼(注音)其它各種符號(hào)也都放在e部的各個(gè)子部,見下表表七符號(hào)編碼表</tables>十三、各種符號(hào)的析音編碼在中文信息處理的過程中,各種符號(hào)不可避免地要大量出現(xiàn),特別是中文標(biāo)點(diǎn)符號(hào),每一行、每一句都要出現(xiàn),而英文標(biāo)點(diǎn)符號(hào)與中文標(biāo)點(diǎn)符號(hào)差別很大,并且只占一個(gè)字符位,容易使?jié)h字的文本不規(guī)范,所以在輸入中文文本時(shí),必然也應(yīng)輸入中文標(biāo)點(diǎn)符號(hào)。為此,本編碼規(guī)定“自動(dòng)進(jìn)入中文標(biāo)點(diǎn)符號(hào)狀態(tài)”,即進(jìn)入中文輸入狀態(tài)時(shí),也同時(shí)進(jìn)入到中文標(biāo)點(diǎn)符號(hào)狀態(tài),輸入中文標(biāo)點(diǎn)符號(hào)只需輸入其對應(yīng)的英文標(biāo)點(diǎn)符號(hào)。無需切換,但輸入英文標(biāo)點(diǎn)符號(hào)時(shí),則必須進(jìn)入英文狀態(tài)。兩種標(biāo)點(diǎn)符號(hào)的對應(yīng)關(guān)系為本編碼專設(shè)中文偏旁部首的代碼,將偏旁部首歸屬于ep部,即第一碼e第二碼p第三碼聲母碼(注音)第四碼韻母碼(注音)其它各種符號(hào)也都放在e部的各個(gè)子部,見下表表七符號(hào)編碼表十四、析音碼特點(diǎn)及鍵盤設(shè)計(jì)本發(fā)明的優(yōu)點(diǎn)和積極效果1全碼只有四碼。2人為規(guī)則極少,無需強(qiáng)記,能見字識(shí)碼。3簡碼較多,一級(jí)簡碼26個(gè),二級(jí)簡碼421個(gè),三級(jí)簡碼5072個(gè)。4由于采用了虛擬聲母,消除了聲母碼和韻母碼的二義性。5由于采用了正向取大和逆向取大原則,消除了漢字拆分的二義性。6無難輸字,由于設(shè)有難字編碼,解決了難認(rèn)字、難拆字和難認(rèn)難拆字輸入困難。8一字多碼,同一字有多種輸入方法。9由于采用了回避等原則,同碼漢字極少,極易盲打。在本編碼中,聲母碼和韻母碼是根據(jù)標(biāo)準(zhǔn)英文鍵盤而設(shè)計(jì)的,為了好記、好用、重碼少,鍵盤設(shè)計(jì)的特點(diǎn)為1、韻母ai,an,ao,en,ang,eng,ing,ong和聲母sh,ch完全采用機(jī)電部六所的設(shè)計(jì)方案,只是聲母zh改由v代替。2、韻母iao,ian,iang和uang分別在ao,an,ang的左下位置韻母分(in,ing),(iu,iou,o,ou),(e,er,ei),(uo,ua,uao,ia,ie),(van,uan,ve,ui),(vn,un,en)六組,各組內(nèi),韻母發(fā)音相近、字母形狀相近,便于記憶。3、主要偏旁部首皆放在其對應(yīng)的聲母碼鍵上。以便掌握。權(quán)利要求1.一種計(jì)算機(jī)漢字編碼系統(tǒng)及輸入方法。其特征在于析音編碼的全碼由四碼組成,包括基本析音編碼、回避析音編碼、難字析音編碼、盲打析音編碼、詞組析音編碼和各種符號(hào)的析音編碼六個(gè)部分。析音編碼主要由聲母碼和韻母碼構(gòu)成,漢語拼音的聲母用26個(gè)英文字母表示,i、u、v分別表示ch、sh、zh三個(gè)聲母,a、e、o、w、y分別作為a部、e部、o部、u部、i部和ü部的虛擬聲母加在韻母之前。漢語拼音的34個(gè)韻母也用26個(gè)英文字母表示。2.根據(jù)權(quán)利要求書1所述的析音編碼方法,其特征在于基本析音編碼的第一碼是漢字本身拼音的聲母碼,第二碼是其韻母碼。再將漢字拆分成首尾兩個(gè)部分,第三碼是首部的聲母碼,第四碼是尾部的聲母碼。首部按正向取大原則取碼,尾部按逆向取大原則取碼,這樣能消除取碼的二義性。3.根據(jù)權(quán)利要求書1所述的析音編碼方法,其特征在于回避析音編碼當(dāng)漢字的尾部與漢字本身的聲母碼相同時(shí),取尾部中聲母碼與漢字本身不相同的子部分作為第四碼,稱之為“回避原則”。使用回避原則后,國標(biāo)一、二級(jí)字庫中重碼漢字極少,完全能夠滿足快速輸入的要求。4.根據(jù)權(quán)利要求書1所述的析音編碼方法,其特征在于難字析音編碼又分難認(rèn)字析音編碼、難拆字析音編碼、難認(rèn)難拆字析音編碼二種。①難認(rèn)字析音編碼的第一碼為小寫字母o,第二碼為漢字首部的聲母碼,第三碼為尾部的聲母碼,第四碼為尾部的韻母碼。②難拆字析音編碼的第一、二碼是該字的聲母和韻母,第三碼是字母o,第四碼是明顯子字的聲母碼?;蛘?,第三碼是首部的聲母碼,第四碼是字母o。③難認(rèn)難拆字析音編碼的第一、二、三碼均是字母o,第四碼是該字的明顯子字的聲母碼。5.根據(jù)權(quán)利要求書1所述的析音編碼方法,其特征在于對于極少數(shù)一碼多字的情況,盲打析音編碼采用以下的方法消除漢字的重碼①對于尾部完全相同的重碼漢字,改取漢字首部的韻母碼作為第四碼,稱之為“移位原則”。②對于尾部不完全相同的重碼漢字,將第四碼改為尾部的子部分的聲母碼,稱之為“異字回避原則”。6.根據(jù)權(quán)利要求書1所述的編碼方法,其特征在于詞組與單字混合輸入,輸入詞組的編碼后若無此詞組,則鍵入Alt+Space即可進(jìn)入詞組建立狀態(tài),逐個(gè)輸入單字后,再按空格表示詞組建立完畢。該詞組就存入字庫中,并出現(xiàn)在文本和提示行中。詞組析音編碼為①二字詞,(1)兩個(gè)字的聲母,(2)兩個(gè)字的聲母和韻母。②三字詞,(1)三個(gè)字的聲母,(2)三個(gè)字的聲母加尾字的韻母。③四字以上詞,前三字的聲母加尾字的聲母。7.根據(jù)權(quán)利要求書1所述的編碼方法,其特征在于①漢字的偏旁部首歸在ep部,即第一、二碼是ep。第三、四碼為該偏旁部首的讀音。②自動(dòng)進(jìn)入中文標(biāo)點(diǎn)符號(hào)狀態(tài),③圖形符號(hào)等各種符號(hào)也都?xì)w在e部的各個(gè)子部。8.根據(jù)權(quán)利要求書1所述的編碼方法,其特征在于所有六種析音編碼完全兼容,同一漢字有多種輸入方法,即使用不同的析音編碼進(jìn)行文本輸入時(shí),無需切換輸入狀態(tài),各種編碼均并存在同一編碼庫中,各種輸入均處于同一輸入方式下。全文摘要本發(fā)明是一種漢字拼音編碼系統(tǒng)及輸入方法,使用26個(gè)英文字母編碼,包括六種編碼。其中基本碼為聲韻聲聲四碼,前兩碼是漢字的聲母碼和韻母碼,后兩碼是漢字首尾兩部的聲母碼,首部按正向取大原則取碼,尾部按逆向取大原則取碼?;乇艽a就第四碼采用同聲回避原則取碼。盲打碼就第四碼對少量漢字進(jìn)行特殊編碼。并專設(shè)難字編碼、符號(hào)編碼、詞組編碼。本系統(tǒng)內(nèi)六種編碼完全兼容、無需切換。簡碼達(dá)5074個(gè)。完全具備了易學(xué)、易用、快速、無二義性、無難輸字等優(yōu)點(diǎn),是集易普及和易盲打于一體的編碼系統(tǒng)。文檔編號(hào)G06F3/023GK1073539SQ9211315公開日1993年6月23日申請日期1992年11月13日優(yōu)先權(quán)日1992年11月13日發(fā)明者葉冠卿申請人:葉冠卿