專利名稱:漢字兩分表示法及輸入法的制作方法
技術領域:
中文信息處理及漢字輸入。
背景技術:
漢字輸入主要分三大類形碼輸入、音碼輸入、音型結合輸入。本發(fā)明是在“漢字析音編碼及輸入方法”(專利號92113155.0,以下簡稱“析音碼”)基礎上的改進和創(chuàng)新,是析音碼的第二種方案。屬于音型結合類。
本發(fā)明采用析音碼的漢字結構分類及拆分方法(包括首部正向取大原則、尾部逆向取大原則),并稍加改進。然后提取常見字元作為拆分后首尾兩個部分的表示符作為漢字輸入和排序的基礎。
析音碼由四碼組成,前兩碼是漢字的雙拼碼,后兩碼是漢字拆分成首尾兩個部分后的聲母碼,其中雙拼碼需要一定的記憶,并且需要知道該字的讀音,對于超大字庫中的許多難認字和偏僻字,就難以輸入了,雖然析音碼中有難認字輸入法,但由于僅采用首尾兩部聲母編碼,對于數(shù)萬乃至十多萬的漢字來說,重碼率極高。
析音碼中雖然制訂了拆分原則,和以聲代形編碼方法,其取大原則是無限取大,只要拆分后的部分是漢字,則取其聲母作為編碼。然而,對于超大字庫來說,漢字拆分后的部分絕大多數(shù)仍然是漢字,而且很可能是普通人不認識的漢字,或者是普通人不知道是漢字的漢字,如“部”字拆分成“咅”和“阝”,析音碼說明書中認為“咅”不是字,這是不正確的,如果要取大就必須取“咅”編碼,普通人不認識“咅”,自然取“立”,而對于認識“咅”的人則會取“咅”,這樣取碼具有較大的歧義。
本發(fā)明以常用字(國家標準中的常用字)、常用偏旁部首及基本筆畫作為常用字元集,只提取常用字元作為首尾兩部的表示符,解決了漢字拆分成兩個部分后難認的問題;同時也解決了難認字的輸入問題,由于是兩個部分的完全音碼,對于超大字庫而言,其重碼率也相對較低。并且也適宜于漢字的排序、鼠標、及光筆等輸入設備的輸入。
發(fā)明內(nèi)容
音碼輸入法是最普及的漢字輸入法,但對難認字就無法輸入了,且由于音碼僅有400個左右,即使加上四聲只有一千多個,對于超大字庫重碼率太高,除常用字外需要太多的翻頁。
本發(fā)明恰好能解決這兩方面的問題,同時又保留著音碼輸入簡單易學的特點。
(一)原理以常用字(國家標準中的常用字)、常用偏旁部首及基本筆畫作為常用字元集,將漢字一分二,從漢字兩部分(分別稱之為首部和尾部)中提取最大常用字元作為該兩個部分的表示符,首部按書寫順序正向取大原則提取,尾部按逆向取大原則提取,每個漢字均由兩個表示符表示。結構為獨體和三部分以上的漢字均按兩個部分看待。
(二)漢字的結構分類(析音碼的改進)將漢字結構分為六大類。在本編碼中,除不可拆分的“一”和“乙”無法分解外,其余的漢字均拆分成首尾兩個部分。根據(jù)下列六種字形,對漢字進行拆分。
1、左右型(左中右型)左右型取左部為漢字的首部,右部是尾部,如“析取鍵郴鴻”的首部分別是“木耳金林江”,
尾部分別是“斤又建阝鳥”。
2、上下型(上中下型)上下型取上部為漢字的首部,下部是尾部,如“音節(jié)墓想架”的首部分別是“立艸莫相加”,尾部分別是“日卩土心木”。
3、傾斜型傾斜型取傾斜部分作為漢字首部,余下的是尾部。如“題遍麻尾式戒”的首部分別是“是辶廣尸弋戈”尾部分別是“頁扁林毛工廾”4、全包圍(半包圍)包圍型取包圍部分作為漢字首部,被包圍部分為尾部。如“國匠兇周貝鳳”的首部分別是“囗匚凵冂冂幾”尾部分別是“玉斤叉吉人又”5、夾合型夾合型漢字取夾合部分作為首部,中間部分為尾部。如“哀街噩辯裹”的首部分別是“衣行王辛衣”尾部分別是“口圭口言果”6、獨體字按筆順取其中最大字根作為首部,余下的為尾部,兼顧自然、直觀和習慣。如“大夷夫田卞己”的首部分別是“橫大二日二口”尾部分別是“人弓人橫卜折”(三)、漢字的拆分原則(與析音碼相同)為了減少記憶量、消除二義性,使首尾兩部的拆分簡單、直觀并符合漢字的構成規(guī)律。特制定了“正向取大”和“逆向取大”原則。簡述如下1、正向取大原則(首部)以漢字書寫順序第一筆畫開始,按漢字結構正向順序盡量取出最多筆畫,但不能取整個漢字,構成一個最大字元,作為“首部”。
2、逆向取大原則(尾部)除去首部,剩下的都是尾部,由于尾部可能不完全成字(部件),故以其最末筆畫開始,按書寫順序相反的順序,逆向取最多筆畫(不得與首部重疊,按漢字構成本義)作為尾部的代表。
(四)首尾兩個部分的表示符漢字拆分成首尾兩個部分后,每一部分中取其最大常用字元作為該部分的表示符。
舉例如下“部” 左右型,首部(左部)為“咅”,由于“咅”字普通人不認識,不屬于常見字元,故取“立”代表“咅”,故“立”為“咅”的表示符。尾部的“阝”是常見字元,其表示符就是其本身。
“翰” 左右型,左部“”以“十”作為表示符。右部由“人”和“羽”組成,按逆向取大原則取“羽”作為右部的表示符。
“馨”上下型,首部(上部)為“殸”,由于“殸”字普通人不認識,不屬于常見字元,按取大原則取“聲”作為“殸”的表示符,雖然“聲”中的“士”也是常用字元,但取“士”不符合取大原則。尾部為下部“香”,因為“香”是常見字元,不應取“日”作為表示符,“香”的表示符就是其本身。
“敷” 左右型,左部“旉”不是常見字元,故以“甫”作為左部表示符,尾部仍為右部“攵″(五)、以音代形以首尾兩個部分的讀音(包括聲母和韻母)作為該漢字的鍵盤編碼輸入碼。這樣,即使不認識該漢字,也能通過其首尾兩個部分表示符的讀音,準確快速地輸入該漢字,羅馬拼音方案、注音方案、雙拼方案均可適用,雙拼方案最為快速,每字最多四碼,注音方案每字最多六碼,羅馬拼音方案最長,但無需記憶。
漢字的字元共分兩大類一類是成字字元,其編碼當然是取其音碼。另一類是偏旁部首,偏旁部首是由古代的成字演變而來,故其一般也有讀音,然而,現(xiàn)代漢字與占代有較大的區(qū)別,我們不可能以古代的讀音標定現(xiàn)代漢字的讀音,因此我們只能以現(xiàn)代讀音習慣對偏旁部首進行編碼。為了減少記憶,本編碼規(guī)定的常見字元很少,只將一些人們常見、常用、又都能認識的偏旁部首規(guī)定為常見字元。有些常見字元使用頻率較高,但不易讀出其發(fā)音,為此,筆者除了在下表中列出較為常用的字元外,還將全部的常見字元全部列在o部,無法確定常見字元的讀音時,可通過輸入o,翻頁查閱其讀音。
常見字元讀音表(以拼音、注音為例)
具體實施例方式
本漢字輸入方案的具體實施方式
如下1、鍵盤輸入以漢字首尾兩個部分表示符的完全音碼(包括全拼、注音、雙拼)作為輸入碼。如“菅”字一般人不認識,也不讀半邊音,音碼無法確定。鍵盤輸入(以全拼和注音為例)為首部“艸”的音碼為cao或ㄘㄠ,尾部“官”的音碼為guan或巜ㄨㄢ,故“菅”的完整編碼為caoguan或ㄘㄠㄍㄨㄢ2、鼠標或者光筆等輸入設備屏幕上按音碼的順序提示首尾兩個部分的表示符,分別點取漢字的兩個表示符輸入漢字。如“菅”點取屏幕上提示的“艸”,再點取屏幕上提示的“官”3、字詞排序以漢字拆分后首尾兩個部分的表示符的音碼作為漢字的先后順序。
權利要求
1.以常用字(國家標準中的常用字)、常用偏旁部首及基本筆畫作為字元集,將漢字一分二,從漢字兩部分(稱之為首部和尾部)中提取最大常用字元作為該兩個部分的表示符,首部按書寫順序正向取大原則提取,尾部按逆向取大原則提取,每個漢字均由兩個表示符表示。結構為獨體和三部分以上的漢字均按兩個部分看待。
2.鍵盤輸入時,用音碼(包括全拼碼、注音碼、雙拼碼)作為漢字編碼,以漢字兩個部分表示符的完全音碼(包括聲母和韻母)作為該漢字的編碼。
3.鼠標和光筆等輸入設備輸入時,輸入該漢字兩部分的表示符。
4.字詞排序時,以其兩部分表示符的音碼順序排序。
全文摘要
一種漢字編碼系統(tǒng)及輸入方法,適用于大字庫中的漢字輸入,用常用字(國家標準中的常用字)、常用偏旁部首及基本筆畫作為常用字元集,將漢字拆分成兩個部分,以其中最大常用字元分別作為兩部分的表示符,以兩個表示符表示一個漢字。鍵盤輸入漢字時,輸入其中兩個部分表示符的音碼(包括全拼碼、雙拼碼、注音碼),鼠標及光筆輸入時輸入屏幕上提示的兩個表示符,排序時以表示符的音碼排序。
文檔編號G06F17/28GK101067765SQ20061007956
公開日2007年11月7日 申請日期2006年5月5日 優(yōu)先權日2006年5月5日
發(fā)明者葉星遙 申請人:葉星遙