專(zhuān)利名稱(chēng):華文漢字輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種拼音文字式華文漢字輸入法,同時(shí)又是一種漢語(yǔ)信息處理技術(shù), 通過(guò)這種拼音文字式的漢字編碼的輸入、存儲(chǔ)和處理,提出一種漢字標(biāo)準(zhǔn)化建議,實(shí)現(xiàn)漢字 無(wú)重碼輸入,漢字標(biāo)準(zhǔn)字繁體與簡(jiǎn)體的對(duì)稱(chēng)轉(zhuǎn)換,個(gè)性化自然語(yǔ)音和兒化音的輸出,同時(shí), 為克服拼音編碼輸入法無(wú)法輸入知形不知音的缺點(diǎn),提出一種漢字字形輔助輸入法,用漢 字筆畫(huà)構(gòu)成碼進(jìn)行相似字形漢字檢索與學(xué)習(xí)。
背景技術(shù):
目前,已申請(qǐng)專(zhuān)利的漢字輸入法,按輸入設(shè)備和技術(shù)手段分,有三類(lèi)一是依據(jù)漢 字編碼通過(guò)鍵盤(pán)輸入;二是手寫(xiě)或掃描輸入,再按字形轉(zhuǎn)換成編碼或直接轉(zhuǎn)換成漢字 ’三 是通過(guò)語(yǔ)音識(shí)別系統(tǒng)將人說(shuō)的話(huà)語(yǔ)轉(zhuǎn)換成漢字或漢字編碼。其中,鍵盤(pán)輸入又可根據(jù)編碼 方式的不同分成三類(lèi)一種是純拼音的編碼,一種是純字形的編碼,第三種是拼音加字形的 編碼。拼音加字形的編碼中,大多以區(qū)分漢字部首為主,或偏“形”或偏“音”,或“形” “音” 結(jié)合,雖有與“意”結(jié)合者,沒(méi)有用意符完全區(qū)分和表示漢字基本意義的,不能充分反映漢字 的造字理?yè)?jù)。雖然這些輸入法在輸入的速度、效率、轉(zhuǎn)換的準(zhǔn)確率等方面有長(zhǎng)足的進(jìn)步,但 各種類(lèi)型的輸入方法都還有一些影響漢字輸入和信息處理的問(wèn)題,如編碼存在重碼,輸入 需要選字,進(jìn)行漢字信息處理時(shí)不能簡(jiǎn)單地區(qū)分同音字和多音字,需要字庫(kù)、詞庫(kù)和語(yǔ)料庫(kù) 等大量的輔助資源和復(fù)雜的軟件處理過(guò)程支撐,如字、詞、語(yǔ)及其聯(lián)想檢索和詞的切分等, 不能處理超大字符集中的當(dāng)用字,不能區(qū)分國(guó)家規(guī)定的標(biāo)準(zhǔn)字和異體字,不能限制異體字 的使用,相應(yīng)輸入法也不能按漢字編碼順序?qū)h字進(jìn)行有實(shí)用意義的排序,不能同時(shí)滿(mǎn)足 信息的生產(chǎn)、獲取、轉(zhuǎn)換、組織、存儲(chǔ)、處理(分析、計(jì)算、識(shí)別、檢索等)、表達(dá)、評(píng)價(jià)的綜合技 術(shù)要求和人們?nèi)找嬖鲩L(zhǎng)的信息處理速度、效率、可靠程度、設(shè)備的經(jīng)濟(jì)實(shí)用性等全方位的需 求。目前,漢字輸入依然存在萬(wàn)“碼”奔騰、萬(wàn)“碼”齊喑的局面,現(xiàn)有的任何一種漢字 輸入法都不能同時(shí)滿(mǎn)足各種人群的需要;在漢語(yǔ)漢字教學(xué)的對(duì)外交流和推廣中,如何選擇 一種普遍適用的漢字輸入法,也是一件為難之事。由于現(xiàn)有的輸入法都存在重碼問(wèn)題,個(gè)性 化語(yǔ)音輸出難以實(shí)現(xiàn)。由于沒(méi)有進(jìn)行漢字標(biāo)準(zhǔn)化整理,現(xiàn)有輸入法不能解決非對(duì)稱(chēng)繁簡(jiǎn)漢 字相互轉(zhuǎn)換的問(wèn)題,如“前后”和“太后”應(yīng)分別轉(zhuǎn)換成“前後”和“太后”,現(xiàn)有輸入法只能 根據(jù)當(dāng)時(shí)的輸入需要輸入,不能在輸入后進(jìn)行轉(zhuǎn)換。所有輸入法都帶有聯(lián)想功能,但聯(lián)想功 能也存在選字的問(wèn)題。五十年的實(shí)踐證明,《漢語(yǔ)拼音方案》不能方便表示音節(jié)的聲調(diào),也不能表示特殊 讀音的音節(jié),如U、□、□等音節(jié),用漢語(yǔ)拼音不能方便區(qū)別和輸入同音字,也不能按口、hm、 hng、ng、m等音節(jié)的拼寫(xiě)形式輸入對(duì)應(yīng)音節(jié)的漢字,即用《漢語(yǔ)拼音方案》輸入漢字不僅存 在大量的重碼,還存在有字無(wú)碼的現(xiàn)象,如微軟拼音“嗷hm”須輸入“hen”,“哼h(yuǎn)ng”須輸入 “heng”,“嗯n、ng”須輸入“en”,“欸g”須輸入“ea”等。漢字難學(xué)、難認(rèn),但學(xué)會(huì)了終生難忘,識(shí)讀速度快。漢字難以進(jìn)入計(jì)算機(jī),語(yǔ)音輸入因同音詞問(wèn)題準(zhǔn)確率較低,因?yàn)榉衷~問(wèn)題不能快速進(jìn)行智能化處理,智能語(yǔ)音輸出難以完 美實(shí)現(xiàn),需要以浪費(fèi)資源、時(shí)間為代價(jià),還需人工干預(yù)。目前,大陸使用簡(jiǎn)體字,臺(tái)灣、香港、澳門(mén)和海外一些國(guó)家和地區(qū)使用繁體字,還不 能統(tǒng)一使用一種字形體系,不同地區(qū)無(wú)論輸入繁體還是簡(jiǎn)體,輸入法也各不相同,在一定時(shí) 期內(nèi)還不能實(shí)現(xiàn)輸入法的統(tǒng)一,也沒(méi)有一種輸入法能作為現(xiàn)階段繁體與簡(jiǎn)體同碼存儲(chǔ)、按 需轉(zhuǎn)換的統(tǒng)一平臺(tái),為兩岸的經(jīng)貿(mào)交流架起一座深入溝通、都能接受的橋梁。
發(fā)明內(nèi)容
為了解決現(xiàn)有輸入法不區(qū)分標(biāo)準(zhǔn)字與異體字,不區(qū)分標(biāo)準(zhǔn)字簡(jiǎn)體與繁體,不限制 使用異體字的問(wèn)題;為了解決漢字編碼重碼和輸入漢字需要選字的問(wèn)題;為了解決標(biāo)準(zhǔn)字 繁體與簡(jiǎn)體非對(duì)稱(chēng)轉(zhuǎn)換,兩岸及海外使用簡(jiǎn)繁兩種不同形式漢字的問(wèn)題;為了解決漢字信 息處理過(guò)程中需要先進(jìn)行詞的切分,切分詞不一定準(zhǔn)確符合作者原意,切分詞時(shí)還需要進(jìn) 行人工干預(yù)的問(wèn)題;為了解決用漢字文檔輸出漢語(yǔ)自然語(yǔ)音需要大量的字庫(kù)、詞庫(kù)、語(yǔ)句語(yǔ) 料庫(kù),不能實(shí)現(xiàn)個(gè)性化自然語(yǔ)音和兒化音語(yǔ)音輸出的問(wèn)題;為了解決現(xiàn)有輸入法中的任何 一種都不能同時(shí)適合各種人群需要的問(wèn)題;為了解決漢字不能按讀音自動(dòng)排序的問(wèn)題,以 及為了解決未來(lái)新增漢語(yǔ)新意漢字如何在字符集中表示,漢語(yǔ)國(guó)際化,現(xiàn)有漢字編碼不能 準(zhǔn)確定音、定形、定意和當(dāng)用漢字不定量,解決漢字定形、定音、定意、定量不準(zhǔn)確的問(wèn)題,以 及在文字學(xué)、數(shù)學(xué)、物理、化學(xué)、生物學(xué)、工程技術(shù)等領(lǐng)域的文檔中輸入專(zhuān)用字母困難等一系 列問(wèn)題或不足,本發(fā)明提供一種拼音文字式漢字輸入法解決方案——華文漢字輸入法。華文漢字輸入法方案內(nèi)容開(kāi)始-華文漢字輸入法方案由三部分組成第一部分,總則,說(shuō)明本發(fā)明方案的主旨;第 二部分,華文漢字輸入法,解決知音知意的漢字輸入、繁簡(jiǎn)轉(zhuǎn)換、異體字限制使用和語(yǔ)音輸 出等技術(shù)問(wèn)題,適于邊思考邊寫(xiě)文章;第三部分,華文漢字字形輔助輸入法,解決只知形不 知音意的漢字輸入、學(xué)習(xí)漢字的技術(shù)問(wèn)題,適于照文錄入,也適于學(xué)習(xí)不認(rèn)識(shí)的漢字。第一部分總則華文漢字輸入法以普通話(huà)語(yǔ)音系統(tǒng)為語(yǔ)音標(biāo)準(zhǔn),以1958年2月11日中華人民共 和國(guó)第一屆全國(guó)人民代表大會(huì)第五次會(huì)議通過(guò)的《漢語(yǔ)拼音方案》為漢字定音標(biāo)準(zhǔn);根據(jù) 中華民族承傳下來(lái)7000多年的龍的精神,采世界優(yōu)秀拼音文字之所長(zhǎng),取國(guó)際通行的字母 體系中的通用字母和符號(hào),經(jīng)過(guò)拼音文字體系化處理,在沈個(gè)拉丁字母的基礎(chǔ)上,另外選 用23個(gè)以希臘字母為主的國(guó)際通用字母,如“α β Y”等,組成49字母的拼音文字式漢字 輸入法體系;在保持《漢語(yǔ)拼音方案》中單字母聲母、單字母韻母的情況下,將《漢語(yǔ)拼音方 案》確定的聲母、韻母全部單字母化,固定零聲母,固定聲母、韻母讀音,根據(jù)聲母與韻母相 互搭配時(shí)讀音互補(bǔ)的規(guī)律進(jìn)行韻母變音,減少韻母數(shù)量,使?jié)h語(yǔ)音節(jié)系統(tǒng)化、最簡(jiǎn)化,采用 省略韻母和聲母變音方式解決個(gè)別音節(jié)同聲調(diào)字多的問(wèn)題;采用字母標(biāo)調(diào)法,選擇4個(gè)與 音調(diào)特征象形的字母作為調(diào)母,為陰平、陽(yáng)平、上聲、去聲標(biāo)調(diào),輕聲按實(shí)際發(fā)音標(biāo)調(diào);采用 意母定字法,按照漢字造字規(guī)律,將同音節(jié)同聲調(diào)漢字分成4個(gè)大類(lèi)觀個(gè)意類(lèi),人女、人、 手、口、心、身、目,生活衣、食、住、行、言、病、物,生物鳥(niǎo)、馬、獸、蟲(chóng)、魚(yú)、草、木,自然水、 火、金、玉、石、土、常意,除常意類(lèi)外,設(shè)置27個(gè)意母與之對(duì)應(yīng),利用在這觀個(gè)意類(lèi)中漢字表意的互補(bǔ)規(guī)律,完整保持漢字音、形、意特征,實(shí)現(xiàn)漢字編碼對(duì)漢字的準(zhǔn)確化表音、簡(jiǎn)單化 表形、標(biāo)準(zhǔn)化表意;對(duì)漢字進(jìn)行初步標(biāo)準(zhǔn)化整理,按照約定俗成的原則,將相同音節(jié)、相同聲 調(diào)、相同釋義的漢字分成標(biāo)準(zhǔn)字和異體字,解決超大字符集漢字輸入問(wèn)題;根據(jù)繁簡(jiǎn)對(duì)應(yīng)關(guān) 系和實(shí)際情況將標(biāo)準(zhǔn)字分成繁體和簡(jiǎn)體,使構(gòu)成的拼音式華文漢字編碼與標(biāo)準(zhǔn)漢字繁體及 簡(jiǎn)體一一對(duì)應(yīng),使異體字與標(biāo)準(zhǔn)字華文漢字編碼對(duì)應(yīng),實(shí)現(xiàn)標(biāo)準(zhǔn)字及其異體字按華文字母 序排序。將43種漢字基本筆畫(huà)布設(shè)在軟鍵盤(pán)或計(jì)算機(jī)鍵盤(pán)上,無(wú)需考慮筆順,按字的筆畫(huà) 構(gòu)成輸入所有筆畫(huà),由華文漢字輸入法系統(tǒng)對(duì)基本筆畫(huà)按對(duì)應(yīng)字母順序排列,形成筆畫(huà)構(gòu) 成碼,按筆畫(huà)構(gòu)成碼檢索要輸入的漢字和與之相似的漢字,顯示漢字屬性,實(shí)現(xiàn)輔助輸入知 形不知音漢字和學(xué)習(xí)漢字的目的。第二部分華文漢字輸入法一、字母表華文漢字輸入法共有49個(gè)字母,分大寫(xiě)和小寫(xiě),讀音符合國(guó)際化及約定俗成原 則,如表1所示。表1華文漢字輸入法字母表大 寫(xiě)小 寫(xiě)名稱(chēng)大 寫(xiě)小 寫(xiě)名稱(chēng)大 寫(xiě)小 寫(xiě)名稱(chēng)δ小 寫(xiě)名稱(chēng)大 寫(xiě)小 寫(xiě)名稱(chēng)大 寫(xiě)寫(xiě)名稱(chēng)λ 寫(xiě)小 寫(xiě)名稱(chēng)AaeiHheitfOO9UVVvi Γ 'gamaEeεε'epsilsnBbbi:IiaiPPpi:WW'dAblju:ΛΛlIsemdeΠπpai:MMnju:CCsi:Jjd3eiQqkju:XXeks丄It〕O 'outaVPrsuDddi:KkkeiRr0YywaiΘθ'ei:t9ΦΦfaiΣσ'sigmaEei:L1elSSesZZzi:eesai U'ju:t3ΔδdeltaFfefMmemTtti:Vα'alfaημmju:ψψpsaiΩΩ'aumigaGgd^i:NηenUU,juBPbeitaAa_eit38^an33'fi:ta二、聲母表用22個(gè)字母表示漢語(yǔ)普通話(huà)的22個(gè)聲母,除零聲母外,聲母按照不同的發(fā)音部位 分為6組,如表2所示。表2華文漢字輸入法聲母表
權(quán)利要求
1.華文漢字輸入法采用26個(gè)拉丁字母和23個(gè)以希臘字母為主的國(guó)際通用字母,組成 49字母的拼音文字式漢字輸入法體系;在保持《漢語(yǔ)拼音方案》中單字母聲母、單字母韻母 的情況下,單字母化聲母和韻母,聲母轉(zhuǎn)換為zh-B β jh-ΓΙμ、sh-Yy、y/w-Vp,韻母對(duì)應(yīng)轉(zhuǎn) 換為a-a、 o-po、 e-pe、 e-ρθ、 ai-a、 ei-θ、 au-α、 ou- 、 an-八、en-pM、 ang-a、 eng-jK、 ong-ρ 、 er-r> r-r、i-i、ia-jia、ie-e、iao-e、 iou、iu-w、ian-ε、in-e、iang-ψ、 ing-π、iong-γ、u-u、ua-]ie、uo-o、 uai-pe、uei、ui-]iv、uan-ρφΛ uen、un-pii、uang-ρψ、ueng-τ、ti-v、yo-po> ue-M、uan-φ、iin-ti、ng-pir、m-m+調(diào)母、n-n+調(diào)母,根據(jù)聲母與韻母相互搭配時(shí)讀音互補(bǔ)的規(guī)律進(jìn)行韻母變音, 減少韻母數(shù)量,使音節(jié)最簡(jiǎn)化;采用字母標(biāo)調(diào)法,用“Σ σ”、“Δ δ”、“ΩΩ”、“33”分別 為陰平、陽(yáng)平、上聲、去聲標(biāo)調(diào),輕聲按實(shí)際讀音標(biāo)調(diào);采用意母定字法,按照漢字造字規(guī) 律,將同音節(jié)同聲調(diào)漢字分成4個(gè)大類(lèi)28個(gè)意類(lèi),第一類(lèi)為人類(lèi),包括人的性別、身體 器官及其行為、性狀,第二類(lèi)為生活類(lèi),包括人和生物的生活、行為、需求及其性狀,第三 類(lèi)為生物類(lèi),包括除人類(lèi)以外的生物及其行為、性狀,第四類(lèi)為自然類(lèi),包括自然現(xiàn)象、 物質(zhì)及其性狀,人女、人、手、口、心、身、目,生活衣、食、住、行、言、病、物,生物鳥(niǎo)、馬、 獸、蟲(chóng)、魚(yú)、草、木,自然水、火、金、玉、石、土、常意,除常意類(lèi)外,各意類(lèi)對(duì)應(yīng)字母分別為 Aa、Ee、Ii、Oo、Uu、Vv, Ww> Va、 P/、 Λλ、 Ii> θ、 Ce、 Aa> Ee、 Ππ、 0 、 Φφ、 、 Ψψ、22、εε、Mm、Σσ、Δδ、Ωω、33;漢字編碼及拼寫(xiě)格式為聲母+韻母+調(diào)母+意母, 音節(jié)字不加調(diào)母和意母,常意類(lèi)不加意母;利用在這28個(gè)意類(lèi)中漢字表意的互補(bǔ)規(guī)律,完 整保持漢字音、形、意特征。
2.一種與華文漢字輸入法配套使用的漢字字形輔助輸入法,將43種漢字基本筆畫(huà)布 設(shè)在軟鍵盤(pán)或計(jì)算機(jī)鍵盤(pán)上,不考慮筆畫(huà)順序,只考慮筆畫(huà)構(gòu)成,只要按字形輸入一個(gè)字所 具備的所有筆畫(huà),華文漢字輸入法系統(tǒng)就能將筆畫(huà)轉(zhuǎn)換成對(duì)應(yīng)的華文漢字輸入法字母,并 按字母順序?qū)P畫(huà)碼進(jìn)行重新排序,形成筆畫(huà)構(gòu)成碼,并在“華文漢字字形輔助輸入法漢字 屬性表”中找到一個(gè)或多個(gè)與其有相同筆畫(huà)構(gòu)成碼的漢字字頭,按字頭顯示漢字屬性,主要 包括字頭、華文漢字編碼和筆畫(huà)構(gòu)成碼,為了使輸入法具有學(xué)習(xí)漢字的功能,增加了正確筆 順、讀音、字性(繁體、簡(jiǎn)體、異體)和釋義等屬性項(xiàng)。
3.一種由華文漢字編碼派生出來(lái)的漢語(yǔ)語(yǔ)音個(gè)性化輸出方法,按個(gè)人語(yǔ)音錄制1300 個(gè)有調(diào)音節(jié)語(yǔ)音和對(duì)應(yīng)的兒化音,用成熟的語(yǔ)音處理軟件集成個(gè)人語(yǔ)音文件,集成不同人 的語(yǔ)音文件形成個(gè)性化語(yǔ)音庫(kù);在華文漢字輸入法系統(tǒng)軟件中,設(shè)計(jì)語(yǔ)音設(shè)置功能,能夠進(jìn) 行不同人的語(yǔ)音、語(yǔ)速、音高等設(shè)置,當(dāng)選定一段文字或設(shè)置閱讀起始位置后,點(diǎn)閱讀鈕,系 統(tǒng)根據(jù)華文漢字編碼的音節(jié)和調(diào)母,查到相應(yīng)的音節(jié)碼(1 446)和調(diào)母碼(0 4),組合 成一個(gè)字的語(yǔ)音文件名,根據(jù)是否有兒化音標(biāo)志“.r”確定在普通語(yǔ)音庫(kù)或兒化語(yǔ)音庫(kù)中提 取對(duì)應(yīng)的語(yǔ)音文件,就可進(jìn)行語(yǔ)音播放。
4.異體字也按編碼存儲(chǔ),異體字編碼為其對(duì)應(yīng)的標(biāo)準(zhǔn)字編碼+異體字序號(hào),對(duì)異體字 轉(zhuǎn)換只是過(guò)濾掉序號(hào),保留標(biāo)準(zhǔn)字編碼,再按需要轉(zhuǎn)換成繁體或簡(jiǎn)體,或按標(biāo)準(zhǔn)字編碼播放 語(yǔ)首。
全文摘要
華文漢字輸入法以普通話(huà)語(yǔ)音系統(tǒng)和《漢語(yǔ)拼音方案》為漢字定音標(biāo)準(zhǔn);取國(guó)際通行體系及字母,用26個(gè)拉丁字母和23個(gè)國(guó)際通用字母構(gòu)成49字母拼音文字式漢字編碼方案;將聲母、韻母單字母化,讀音固定,按聲韻搭配規(guī)律變音,采用省韻和聲母變音解決個(gè)別音節(jié)同調(diào)字多的問(wèn)題;字母標(biāo)調(diào),輕聲按實(shí)際發(fā)音標(biāo)調(diào);按漢字造字規(guī)律,將同音同調(diào)字分為4個(gè)大類(lèi)28個(gè)意類(lèi),對(duì)27個(gè)實(shí)意類(lèi)設(shè)置意母,用意母定字,完整保持漢字音、形、意特征;按照標(biāo)準(zhǔn)化原則把同音同調(diào)且同義字分為標(biāo)準(zhǔn)字和異體字,解決超大字符集漢字輸入問(wèn)題;標(biāo)準(zhǔn)字分繁體和簡(jiǎn)體,與華文漢字編碼一一對(duì)應(yīng),均按字母排序,輸入不選字;用基本筆畫(huà)構(gòu)成碼輔助輸入知形不知音的漢字。
文檔編號(hào)G06F3/023GK102053719SQ201010210540
公開(kāi)日2011年5月11日 申請(qǐng)日期2010年6月28日 優(yōu)先權(quán)日2010年6月28日
發(fā)明者門(mén)雁冰 申請(qǐng)人:門(mén)雁冰