亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音形相通碼漢字編碼方案的制作方法

文檔序號:6573040閱讀:233來源:國知局

專利名稱::音形相通碼漢字編碼方案的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及中文信息處理領(lǐng)域,特別是涉及如何對漢字進行編碼及其在漢字排序(編碼)與檢索(查字詞)、漢語鍵盤輸入(漢語鍵盤輸入系統(tǒng))、漢字認知與規(guī)范書寫教育及后續(xù)漢語教育等方面的應(yīng)用,用一種漢字編碼解決漢字的"檢""用""學"問題。
背景技術(shù)
:在中國,對漢字進行編碼可謂由來已久。從1900多年前許慎的《說文解字》到今天的《新華字典》都在這方面進行著探究,其目的是尋找一個好的方法對漢字進行排序,實現(xiàn)檢索功能,然而這一探索過程直至今日依然沒有結(jié)束。人們通常以拼音、部首和筆畫這三種方式對漢字進行排序,然而無論哪一種都有其致命的弊端。拼音排序必須知道漢字的讀音,部首排序必須準確找出惟一的部首,筆畫排序又必須按書寫順序數(shù)清筆畫,無論掌握上述哪一種方式都極其困難,也不切實際。排序是為了方便檢字,檢字難以進行,排序也就極大地喪失了其價值,這也是漢字直到目前都無法統(tǒng)一排序的重要原因。上世紀七八十年代,隨著計算機技術(shù)的快速發(fā)展,中文信息化處理成為當務(wù)之急。從1978年支秉彝公布中國大陸第一個小鍵盤漢字輸入方案"見字識碼"起,漢字輸入方案曾如雨后春筍般涌現(xiàn),并一度形成"萬碼奔騰"局面。近三十年來,漢字輸入編碼方案無法實現(xiàn)統(tǒng)一,其原因似乎是它們各有優(yōu)缺點而難以相互結(jié)合。形碼采取的是漢字字形(字根、碼元等〉取碼輸入方式,最大優(yōu)點是輸入速度快,而最大弱點是難學,漢字難拆分,"塊"的取碼難記憶;音碼采取的是拼音(全拼、雙拼等)取碼方式,最大優(yōu)點是易學易用,只要能拼出讀音,就能輸入漢字,而最大弱點是輸入速度慢;音形碼試圖集兩者的優(yōu)點于一身,然而在本質(zhì)上是吸取了拼音元素而對形碼作出的改良,無法解決漢字拆分難的問題。漢字認知和規(guī)范書寫,無論是對推行民族普通話,還是對外進行漢語教育,都是一個巨大的難題。漢語拼音方案雖然方便了漢字的拼讀,但并不能也決不能代替漢字的書寫。如何正確書寫,不僅難倒了無數(shù)的外國人,經(jīng)常寫錯字也大有國人在,而"萬碼奔騰"更是亂上加亂。不尊重漢字結(jié)構(gòu)的形碼和音形碼使?jié)h字書寫變得越來越不規(guī)范,寫出的字不知對錯,純音碼又導(dǎo)致"提筆忘字",讓人啼笑皆非。所謂"萬碼奔騰"的"碼",只是漢字輸入編碼,而絕不是漢字編碼。因此,漢字編碼必須辯證地處理好"尊重漢字結(jié)構(gòu)"與"實現(xiàn)經(jīng)濟編碼"之間的關(guān)系,一味追求輸入編碼而破壞漢字結(jié)構(gòu),無疑于飲鴆止渴。要解決漢字排序(編碼)與檢索(査字詞)、漢語鍵盤輸入(漢語鍵盤輸入系統(tǒng))、漢字認知與規(guī)范書寫教育等方面的問題,其出路在于編碼層次。漢字編碼首先是一個漢字研究問題,其次才是一個軟件問題。漢字編碼方案應(yīng)能解決這三個方面的問題,將它們統(tǒng)一于其中,一并解決,毫無例外。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種漢字編碼方案,以解決漢字排序與檢索難以統(tǒng)一的問題,利用一種方式可迅速査找任何一個漢字;以制作一種漢語鍵盤輸入方法和系統(tǒng),使?jié)h語鍵盤輸入軟件易學易用且輸入速度快;以解決漢字認知與規(guī)范書寫教育難的問題。并就這些問題的解決給出了具體方案。一、漢字部件拆分與漢字編碼的關(guān)系對漢字進行編碼必須綜合考慮漢字結(jié)構(gòu)和漢字編碼兩個方面的問題。古今中外絕大部分漢字都是合成字,這使得漢字部件間相離和相接(特別是相離)的關(guān)系占據(jù)了絕對優(yōu)勢,客觀上要求對漢字盡可能從部件相離和相接處拆分。另一方面,漢字編碼最直接的功能是排序和檢索,要求盡量用最少的碼數(shù)反映漢字的全貌,這就要求使?jié)h字拆分出的部件盡量少。盡量從相離和相接處拆分部件是尊重漢字結(jié)構(gòu)的本質(zhì)要求,使?jié)h字拆分出的部件盡量少則是漢字經(jīng)濟編碼的客觀要求,后者必須以前者為前提。因jt匕,在漢字部件拆分過程中,首先必須盡量從漢字相離和相接處拆分。依漢字的上(中)下、左(中)右、(半/全)包圍結(jié)構(gòu)對漢字進行每一級部件拆分叫漢字部件的不相交有理拆分,依漢字平面結(jié)構(gòu)以其他結(jié)構(gòu)從筆畫不相交處進行部件拆分叫漢字部件的不相交無理拆分,兩者可概述為不相交拆分。極少數(shù)不影響結(jié)構(gòu)和筆數(shù)的筆畫搭掛視為相接,按筆畫相接拆分。然而,若對所有漢字都進行不相交拆分,則必然導(dǎo)致漢字部件總量的增加,這就產(chǎn)生了一對矛盾一方面,要始終尊重漢字結(jié)構(gòu),就必然增加部件總數(shù),而另一方面,增加部件總數(shù)并無實際之必要,因為占現(xiàn)代漢語使用量約99.99%的漢字占有全部漢字的比重卻不足10%。要解決這個問題,就必須有目的性地選擇從筆畫相交處拆分部件。,依又字平面結(jié)構(gòu)從筆畫相交處進行部件拆分叫漢字部件的相交無理拆分或相交拆分,其目的主g^是經(jīng)濟編碼,方便漢字排序與檢索,它是對現(xiàn)代漢語通用字以外的部分漢字進行部件拆分的一個行之有效的輔助手段?,F(xiàn)代漢語通用字之外的漢字分為兩種,一種利用現(xiàn)代漢語通用字共有的部件能對其進行不相交拆分,另一種則利用這些部件不能對其進行不相交拆分。.后一種在全部漢字中所占比重較小,因而對其進行相交拆分不會影響"尊重結(jié)構(gòu)"的大局,較之增加部件總數(shù)也來得經(jīng)濟。這樣,在現(xiàn)代漢語通用字中不出現(xiàn)相交無理拆分既能尊重占現(xiàn)代漢語絕對使用量的漢字的結(jié)構(gòu),也能降低對它們進行部件拆分的難度,而另一方面,利用它們共有的部件,稍稍改變一下部件拆分方式(即增加相交無理拆分方式),就能對它們之外的部分無f去進行不相交拆分的漢字進行編碼,這將有利亍所有漢字的編碼和使用,有利于漢字詞學習與使用的連貫性和拓展性,有利于不規(guī)范漢字對規(guī)范漢字的認同和歸屬,有利于使用不規(guī)范、漢字向使用規(guī)范漢字的過渡,從而最終有利于規(guī)范漢字在華人領(lǐng)域乃至在全世界范圍內(nèi)的推廣。二、漢字部件拆分的原則與方法辯證地分析了漢字部件拆分與漢字編碼的關(guān)系,可得出漢字部件拆分的兩條原則與方法。第一條尊重結(jié)構(gòu)少部件,先離后接大優(yōu)先。此條適用于現(xiàn)代漢語通用字和現(xiàn)代漢語通用字之外可以不相交拆分的漢字。^尊重結(jié)構(gòu)少部件"即尊重漢字結(jié)構(gòu),依據(jù)漢字結(jié)構(gòu)拆分部件,使拆分出來的部件盡量少。尊重漢字結(jié)構(gòu)要從四個方面理解,一是單筆不拆,二是相交不拆,三是四大結(jié)構(gòu),四是就近組合。依據(jù)漢字結(jié)構(gòu)拆分部件,使拆分出來的部件盡量少,并不是說要使先拆分出來的部件最大(即筆畫數(shù)最多)。"先離后接大優(yōu)先"即"先離后接"和"大優(yōu)先"。"先離后,"指從筆畫相離和相接處拆分部件,如果幾種拆分都使?jié)h字部件最少,則能從部件相離處拆分的不從相接處拆分;"大優(yōu)先"指如果幾種拆分都使^^字部件最少,并且都只從相離處拆分或都只從相接處拆分,則使先拆分出的部件筆畫盡量多。第二條依照結(jié)構(gòu)難拆分,相交強拆大優(yōu)先。此條適用于現(xiàn)代漢語通用字之外需要相交拆分的漢字。"依照結(jié)構(gòu)難拆分"指明拆分的對象是現(xiàn)代漢語通用字之外無法進行不相交拆分的漢字,它們無法按照尊重漢字的結(jié)構(gòu)的方式進行拆分。換句話說,能按照"蕁重結(jié)構(gòu)"拆分的就是現(xiàn)代漢語通用字,否則就不是,這也是辨別現(xiàn)代漢語通用字的最簡單的方法。"相交強拆大優(yōu)先"即"相交強拆"和"大優(yōu)先"。"相交強拆"指,對按照現(xiàn)代漢語通用字共有的部件進行不相交拆分但不能完成拆分的漢字,只考慮經(jīng)濟編碼因素使該漢字部件最少而強行對其從筆畫相交處拆分,并使相鄰的筆畫組合成部件;"大優(yōu)先"指在保持該漢字部件最少的情況下,使先拆分出的部件筆畫盡量多。另外,漢字中可構(gòu)成部件的幾個部分有時會被其他筆畫隔離,拆分時要將其組合還原成一個部件,漢字部件排列順序由部件的第一筆畫的先后順序決定。三、漢字部件的定量、取碼與歸并部件拆分原則與方法的提出雖然為部件作了定量處理要求,但并不足以構(gòu)成優(yōu)秀漢字編碼方案的充分條件,還必須就部件的取碼方式作進一步探討,使部件'具有易用性。部件的易用性體現(xiàn)在其應(yīng)用方面,即是部件的取碼必須便于漢字的認知和書寫,便于漢字編碼與檢索,便于漢字詞及語句的鍵盤輸入。部件的取碼通常有三種作法,一是硬性Wl將部件主要分布在25或26個字母上,二是依照部件與字母的形似性將部件歸并到字母,三是賦予部件一個讀音,.按部件讀音首字母對部件進行取碼與歸并。硬性分布決定了部件和取碼對應(yīng)的無規(guī)律性,導(dǎo)致對部〈牛取碼記憶的困難。形似歸并雖有一定的邏輯依據(jù),但相似的部件間經(jīng)常出現(xiàn)取碼"客串"5見象,且相似性并沒有必然性,只是人為賦予一種想象而將字母和部件聯(lián)系在一起,時間久了,聯(lián)系鏈也會斷裂。按部件讀音首字母對部件進行取碼與歸并則不同,這些部件具有字的i荬音而在本質(zhì)上成為了或本就是構(gòu)成其他漢字的基礎(chǔ)漢字,其音和形早己融為一體。只要學會這些基礎(chǔ)漢字,又有誰能輕易地將它們的音和形分開呢?由此,我們就可以對漢字基本部件的選擇、取碼與歸并作如下安排。單筆根據(jù)漢字部件拆分的實際需要可成為單筆部件。利用大寫字母AEIOU的書寫首筆與漢字筆畫"撇橫豎點折"的形近聯(lián)系,將"橫豎撇點折"等單筆部件的取碼相應(yīng)定為EIAOU,對多筆部件(包括部件變體)則取部件讀音首字母為碼并按取碼歸并。四、漢字編碼與漢字(詞)排序檢索我們的漢語辭書通常以拼音、部首和筆畫這三種方式對漢字進行排序,然而無論哪一種都有其致命的弊端。拼音排序必須知道漢字的讀音,部首排序必須準確找出惟一的部首,筆畫排序又必須按書寫順序數(shù)清筆畫,無論掌握上述哪一種方式都極其困難,也不切實際。排序是為了方便檢字,檢字難以進行,排序也就極大地喪失了其價值,這也是漢字直到目前都無法統(tǒng)一排序的重要原因。要根本解決這一J句題,就必須尋找一種新的方法,而這一重任最終也會歷史性地落到部件的頭上。采用部件排序與檢索,無須認識漢字,也無須尋找部首,更不必數(shù)筆畫,只要按一個簡單的部件拆分與取碼方案,將漢字進行部件拆分并以拆分順序取碼,每個漢字就都能對應(yīng)惟一的編碼,這就使得統(tǒng)一的漢字排序與檢索方式成為可能。五、漢字編碼與漢語鍵盤輸入按上述漢字部件拆分的原則和方法對漢字進行拆分最大限度地降低了拆分的難度,對部件實行讀音首字母取碼與歸并則使人們對部件取碼的記憶有根深蒂固的漢語拼音知識依據(jù),使它們具有不易被忘卻的本質(zhì),兩者結(jié)合就將漢字部件的易學易用性提升到了更高水平,從而為順利進行漢語鍵盤輸入打下堅實的基礎(chǔ)。除此之外,一個優(yōu)秀的漢語鍵盤輸入法還必須具備一個優(yōu)秀的輸入方式。形碼采取的是漢字字形(字根、碼元等)取碼輸入方式,最大優(yōu)點是輸入速度快,而最大弱點是難學,漢字難拆分,"塊"的取碼難記憶;音碼采取的是拼音(全拼、雙拼等)取碼方式,最大優(yōu)點是易學易用,只要能拼出讀音,就能輸入漢字,而最大弱點是輸入速度慢;音形碼則是試圖集兩者的優(yōu)點于一身。我們的音形碼在這方面做出了努力,然而由于以往的音形碼在本質(zhì)上是吸取了拼音元素而對形碼作出的改良,雖然在取碼上有所進步,但必須遵循原有的漢字拆分規(guī)則而無法從根本上解決漢字拆分難的問題,從而終難以完成使命。"輸入法要有根本性的突破,關(guān)鍵在編碼層次。"因此,要集兩者的優(yōu)點于一身就必須從根本上解決漢字的拆分問題,這樣,問題的焦點就又回到了漢字編碼方案上?,F(xiàn)在,我們即便是有了易學易用的漢字編碼方案,也該重新審視形碼的輸入形式了。形碼自產(chǎn)生P來雖然在三字的詞或短語的輸入方式上大同小異,但單字幾乎均采用"前三部件+末部件"方式,兩字均采用"P1I+P12+P21+P22"方式,這一現(xiàn)象并非偶然,因為對每個字至少取兩碼能基本確定爭字、兩字的詞或短語,對其輸入具有合理性。然而,將對單字的輸入方式擴展到對四字及以上的詞或短語的輸入上,形成"P11+P21+31+N11"方式,卻有失偏頗。所有的形碼幾乎都存在這樣的現(xiàn)象本想輸入一個不常用到的詞或一個較長的短語,根據(jù)編碼方式擊鍵4次,卻發(fā)現(xiàn)輸入法中根本沒有這個詞或短語,于是重新?lián)翩I以求其次,甚至于不得不一字一字地輸入。承認形碼存在重碼是必要的,但不能因此就想方設(shè)法甚至"不擇手段"地減少重碼。所謂的低重碼率,基本上是優(yōu)選出來的結(jié)果,ft"么詞什么結(jié)構(gòu)該收入語料庫中,由制作者說了算。將四字以上的詞或短語的輸入方式改為"P11+P21+31+P41",則可看到"人民民主"和"人民民主專政"重碼。但是,利用現(xiàn)有形碼的輸入技術(shù)完全可以輸入"人民民主"后再按空格鍵來完成"人民民主專政"的輸入,從而自然地規(guī)避了重碼的危害。這樣,我們似乎就會有一種全新的認識重碼雖不可避免但也并不像人們想象的那樣可怕J人們不應(yīng)該機械地把重碼率高與輸入速度低等同起來,甚至于將它當成評判一個輸入法好壞的標準。從中也可看出,這種方式更符合思維習慣,可減少不斷往返的思維過程。事實上,如果就此簡單地采用這一方案制作漢語鍵盤輸入法,那么它充其量只是在原有音形碼基礎(chǔ)上的改良,也無法解決四碼取碼方式所帶來的自然重碼問題,算不得是什么重大的突破。因為在音碼、音形碼少有建樹的同時,音碼卻碩果累累,建樹不斷,先有紫光拼音、'微軟拼音輸入法出現(xiàn),后有搜狗拼音輸入法問世,其重碼問題解決的能力越來越強,重碼對鍵盤輸入已經(jīng)夠不成威脅了。"漢字鍵盤輸入法包括編碼和軟件兩個層次?!?,在軟件層次己經(jīng)可以為輸入法提供比'足夠'還要多的支持,只要是符合'邏輯'的功能要求,軟件似乎都能實現(xiàn)。"這是對目前拼音輸入法越來越強現(xiàn)象的根本解釋。音碼能有如此建樹,關(guān)鍵在于它們采用了語料庫方法和統(tǒng)計語言模型等中文信息處理技術(shù),使輸入法軟件具有了"智能"。因此,音形i馬也必須走"高科技化"道路,必須"鳥槍換炮",使?jié)h字編碼方案和中文搜索引擎技術(shù)相結(jié)合。六、漢字編碼與漢語教學及漢語使用漢字由筆畫構(gòu)成,筆畫是構(gòu)成漢字形體的最小單位,筆畫之間千差萬別的組合構(gòu)成了所有漢字的集合,而漢字之間存有共同部分的事實自1900多年前許慎的《說文角率字》到今天的《新華字典》都在不斷地證明。沿著這條思路,我們有理由也已經(jīng)將漢字的相同部分從部首、偏旁擴展到漢字的其他部分。搞清漢字部件拆分和漢字編碼的關(guān)系,有了清Wf的漢字部件拆分的原則和方法,也有了完整的漢字基礎(chǔ)部件表,就可以用它們對漢字進行排序與檢索,制作優(yōu)秀的漢語鍵盤輸入法。而在漢語的教學和使用上,它們也將發(fā)揮重要的作用。我們已無須一字一字地教小學生一筆一畫地書寫漢字,告訴他們這個字的筆畫形狀是這樣的,那個字的筆畫順序是那樣的,我們只要告訴他們?nèi)绾我勒展P順正確書寫400個左右的部件的形體,然后再告訴他們這些部件是如何組成其他漢字的,那么所有的纟又字他們就幾乎都可以正確書寫了;我們只要告訴小學生這些部件的讀音,告訴他們?nèi)h字部件的首字母并按漢字部件順序排列,依這個字母串在漢語辭典就能很快找到想要查找的字詞,那么他們就能很快^fe'在辭書中找到這些字詞并學習它們的音、義等方面的知識了;我們只要告訴小學生這些部件的讀音,告訴他們只要按漢字的書寫順序排列部件,按照漢字詞鍵盤輸入方式取部件的首字母,就可以在屯腦或其他同類產(chǎn)品上輸入任何一個想要輸入的漢字詞,'那么他們就能立刻在電腦上輸入這些字詞了。等到他們開始學寫語句、學寫文章的時候,他們只要知道了用同樣的方式還可以對短語、語句進行輸入,就可以利用電腦或其他同類產(chǎn)品學寫文章。從此刻起,他們就己經(jīng)掌握了一生中都將運用到的重要技能了,無論電腦、手機,還是其他同類產(chǎn)品,只要裝有基于優(yōu)秀的漢字編碼方案制作的鍵盤輸入軟件,他們就能快速地運用漢語。而凝結(jié)民族優(yōu)秀文化和智慧于其中的熟語、著名散文詩詞句等,必將對他們將來的為人處事產(chǎn)生強大的潛移默化的引導(dǎo)作用。只要以同樣的方式進行對外漢語教學,外國學生也就能很快地學寫漢字,查找并學習漢字詞,以及在電腦或同類產(chǎn)品上快速地輸入漢語,理解中國的優(yōu)秀傳統(tǒng)文化了。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點本發(fā)明對現(xiàn)代漢語通用字實行不相交拆分,對部件作了定量處理,尊重了占現(xiàn)代漢語使用量約99.99%的漢字的結(jié)構(gòu),使對它們的部件拆分變得空前簡單。利用部件的形與音之間的必然聯(lián)系,對部件實行讀音首字母取碼與歸并,使人們對部件取碼的記憶有根深蒂固的漢語拼音知識依據(jù),使它們具有不易被忘卻的本質(zhì)。本發(fā)明以現(xiàn)代漢語通用字部件為參照對非通用漢字進行拆分,能相交拆分的就進行相交拆分,不能相交拆分的就進行不相交拆分,最終使70000多漢字中要進行不相交拆分的漢字的比重降到極小,從而既維護了"尊重結(jié)構(gòu)"的大局,也實現(xiàn)了對這些漢字的經(jīng)濟編碼。本發(fā)明尊重了絕大部分漢字的結(jié)構(gòu),使?jié)h字部件拆分變得空前簡單,并對部件作了定量處理,又對部件實行讀音首字母取碼與歸并,使它們具有不易被忘卻的本質(zhì),兩者結(jié)合就將漢字部件的易學易用性提升到了更高水平,從而能實現(xiàn)漢字的排序與檢索。本發(fā)明尊重了絕大部分漢字的結(jié)構(gòu),使?jié)h字部件拆分變得空前簡單,并對部件作了定量處理,又對部件實行讀音首字母取碼與歸并,使它們具有不易被忘卻的本質(zhì),兩者結(jié)合就將漢字部件的易學易用性提升到了更高水平,并采用中文搜索引擎技術(shù),最終完成音碼、形碼的優(yōu)點結(jié)合,從而將漢語的輸入速度提升到更高的層次。本發(fā)明絕對尊重現(xiàn)代漢語通用字的結(jié)構(gòu),給部件定量,形成了"現(xiàn)代漢^"通用字都由固定的'漢字'平面拼合而成"的局面,從而便于進行漢字認知和規(guī)范書寫教育。站在民族利益和文化發(fā)展的戰(zhàn)略高度觀之,合理的漢字編碼方案不僅能解決漢字的排序與檢索問題、漢語的快速輸入問題,更能解決漢語學習問題,從而培養(yǎng)青少年一代使用漢語的能力,令漢語發(fā)揮出巨大的威力??偠灾?,成熟的漢字編碼方案必將在漢語鍵盤輸入、漢語規(guī)范化進程、華夏民族優(yōu)秀文化的傳承等各個方面產(chǎn)生積極而深遠的影響,也將展現(xiàn)出漢語的無限優(yōu)越性,讓全世界重新認識人類的漢語。附圖為漢字部件拆分原則與方法示意圖具體實施例方式一、對漢字進行部件拆分對漢字進行編碼涉及漢字結(jié)構(gòu)和漢字編碼兩個方面的問題,以"尊重漢字結(jié)構(gòu),實現(xiàn)經(jīng)濟編碼"為原則對漢字進行部件拆分。盡量從相離和相接處拆分部件是尊重漢字結(jié)構(gòu)的本質(zhì)要求,使?jié)h字拆分出的部件盡量少則是漢字經(jīng)濟編碼的客觀要求,后者須以前者為前提。"相交"指筆畫相互交叉有交點;"相接"指一筆畫的首或尾與另一筆畫首、腰、尾接觸,反之亦然;"相離"指筆畫不相交且不相接。依漢字的上(中)下、左(中)右、(半/全)包圍結(jié)構(gòu)對漢字進行每一級部件拆分叫漢字部件的不相交有理拆分,依漢字平面結(jié)構(gòu)以其他結(jié)構(gòu)從筆畫不相交處進行部件拆分叫漢字部件的不相交無理拆分,兩者概述為不相交拆分。極少數(shù)不影響結(jié)構(gòu)和筆數(shù)的筆畫搭掛視為相接,按筆畫相接拆分,如"孝"拆為",子","存"拆為"大I子","在"拆為"大I土"等。依漢字平面結(jié)f勾從筆畫相交處進行部件拆分叫漢字部件的相交無理拆分或相交拆分,^目的主要是經(jīng)濟編碼,方便漢字排序與檢索,它是對現(xiàn)代漢語通用字以外的部分漢字進行^件拆分的一個行之有效的輔助手段。辯證地分析了漢字部件拆分與漢字編碼的關(guān)系,可得出漢字部件拆分的兩條原則與方法第一條尊重結(jié)構(gòu)少部件,先離后接大優(yōu)先。此條適用于現(xiàn)代漢語通用字和現(xiàn)代漢語通用字之外可以不相交拆分的漢字。"尊重結(jié)構(gòu)少部件"即尊重漢字結(jié)構(gòu),依據(jù)漢字結(jié)構(gòu)拆分部件,使拆分出來的部件盡量少。尊重漢字結(jié)構(gòu)要從如下四個方面理解。一是單筆不拆,即單一筆畫不拆分成兩個或多個筆畫,如"串"不拆分為"中中"、"我"不拆分為"J凈戈";二是相交不拆,即不從筆畫相互交叉有交點的地方拆分部件,如"甩"不拆分為"月L"、"豕"不拆分為"豕、";三是四大結(jié)構(gòu),即盡量依照漢字的上(中)下、左(中)右、(半/全)包圍結(jié)構(gòu)對漢字進行每一級部件拆分,如"照"拆分為"日刀口"、、",其次依照漢字的其他結(jié)構(gòu)從筆畫不相交處進行部件拆分,如"奈"拆為"大、/日小";四是就近組合,即盡量使筆順相鄰的筆畫組合成部件,如"鰥"拆為"魚^I夕;"而非"魚^卜-、"。依據(jù)漢字結(jié)構(gòu)拆分部件,使拆分出來的部件盡量少,并不是說要使先拆分出來的部件最大(即筆畫數(shù)最多),如"鼓"拆分為"十豆十又"而非"士口"十又",是因為前者使整個漢字的部件最少,后者首部件"士"的筆畫雖比前者首部件"十"的筆畫多,但并未使整個漢字的部件最少。"先離后接大優(yōu)先"即"先離后接"和"大優(yōu)先"。"先離后接"指從筆畫相離和相接處拆分部件,如果幾種拆分都使?jié)h字部件最少,則能從部件相離處拆分的不從相接處拆分,如"余"拆為"人于八"而非"人一木","主"拆為"、王"而非"工土";"大優(yōu)先"指如果幾種拆分都使?jié)h字部件最少,并且都只從相離處拆分或都只從相接處拆分,則使先拆分出的部件筆畫盡量多,如"午"拆為"—十"而非"j干"。第二條依照結(jié)構(gòu)難拆分,相交強拆大優(yōu)先。此條適用于現(xiàn)代漢語通用字之外需要相交拆分的漢字。"依照結(jié)構(gòu)難拆分"指明拆分的對象是現(xiàn)代漢語通用字之外無法進行不相交拆分的漢字,它們無法按照尊重漢字的結(jié)構(gòu)的方式進行拆分。換句話說,能按照"尊重結(jié)構(gòu)"拆分的就是現(xiàn)代漢語通用字,否則就不是,這也是辨別現(xiàn)代漢語通用字的最簡單的方法。"相交強拆大優(yōu)先"即"相交強拆"和"大優(yōu)先"。"相交強拆"指,對按照現(xiàn)代漢語通用字共有的部件進行不相交拆分但不能完成拆分的漢字,只考慮經(jīng)濟編碼因素使該漢字部件最少而強行對其從筆畫相交處拆分,并使相鄰的筆畫組合成部件,如"單"拆分為"口口日十"而非"口口甲一";"大優(yōu)先"指在保持該漢字部件最少的情況下,使先拆分出的部件筆畫盡量多,如"匁"拆為"刀、"而非"L乂"。另外,漢字中可構(gòu)成部件的幾個部分有時會被其他筆畫隔離,拆分時要將其組合還原成一個部件,漢字部件排列順序由部件的第一筆畫的先后順序決定。如,"奈"拆為"大v日小","兆"拆為"兒""',"來"拆為"未、,"。上述原則與方法換言之就是在A漢字進行拆分時,首先判斷用部件表中的部件能否將它按照四大結(jié)構(gòu)拆分。能拆分則遵照"尊重結(jié)構(gòu)少部件,先離后接大優(yōu)先"的原則和方法對其進行部件拆分,以達到在尊重漢字結(jié)構(gòu)的基礎(chǔ)上實現(xiàn)經(jīng)濟編碼的目的;不能按照四大結(jié)構(gòu)拆分則遵照"依照結(jié)構(gòu)難拆分,相交強拆大優(yōu)先"的原則和方法對其進行部fW斥分,以達到在無法尊重漢字結(jié)構(gòu)的情況下實現(xiàn)經(jīng)濟編碼的目的。如附圖l所示。二、對漢字部件進行定量、取碼與歸并漢字筆畫指在漢字楷體書寫過程中不間斷的直線或曲線。漢字部件指構(gòu)成漢字的單元或筆畫塊,既可以是單一筆畫,也可以是多個筆畫的組合。由一個筆畫構(gòu)成的部^f牛叫單筆部件,單筆部件除漢字"一""乙"外都為非成字部件(即不能單獨作為現(xiàn)代漢字使用的部件)。由至少兩個筆畫組成的部件叫多筆部件,多筆部件可分為成字部件(能單獨作為現(xiàn)代漢字使用的部件)和非成字部件。單筆根據(jù)漢字部件拆分的實際需要可成為單筆部件。利用大寫字母AEIOU的書寫首筆與漢字筆畫"撇橫豎點折"的形近聯(lián)系,將"橫豎撇點折"等單筆部件的取碼相應(yīng)定為EIAOU,其中"一""乙"兩個部件的取碼須具體對待。對多筆部件則取部件讀音首字母為碼并按取碼歸并為25類(字母V不參與編碼,用作查詢鍵),其中"長""車(車)""單""樂""'龜(龜)""鳥""石"等部件的取碼也須具體對待。另外,作為漢字部件使用的"子"在漢字書寫中常受其他筆畫或部件的影響而寫成"孑",與漢字"孑孓"的"孑"同形,故"孑"作為漢字的部件使用時取碼為Z,而作為漢字"孑(jiO"單獨使用時取碼為J。如表l和2所示。在漢字書寫過程中,鑒于形體美觀等因素,漢字的"豎鉤""豎折鉤"受下方部件或筆畫的影響演變?yōu)?豎",如"哥"的第五筆和"雀"的第一筆、"園"的第十筆;部件如"i土工王堇生正車魚馬立止業(yè)豆耳且"等中的"橫"受右邊部件的影響演變成"提";部件如"木禾耒米束朿夫乂夂"等中的"捺"受右邊部件的影響演變成"點";部件如"L九幾兒七毛Q己"等中帶有"彎鉤"的筆畫受右邊部件的影響演變成"豎提",如漢字"雞鴆釗顧"等;"十"受下方部件或筆畫的影響其中"I"的上方會稍稍向右傾,如"直鄙南"等。另夂卜,"月""用"受上方部件的影響首筆通常變?yōu)樨Q,如"肖肓育肩腎肯背胃冑散"和"甬涌俑蟈踴"等。這些部件變體仍按變化前的部件取碼及歸并。表1<table>tableseeoriginaldocumentpage13</column></row><table>非成字多筆部件的讀音與取碼A!-=兩撇;向=奧字頭;鄉(xiāng)=三撇B3=北字旁;少=步字底;亦=變字頭;1=扁字底尚=敝字旁、^=倒八;—=寶蓋^=禿寶蓋與=卑字頭廣=病字框C處=赤字底;齒=曹字頭目=曾字腰;屮=蚩字頭*=春字頭;*=草字頭;乂=叉子D"'=當字頭;^=朵字頭^=登字頭;夂=冬字頭樸=帶字頭;血=典字頭^=帝字頭;]1=商字框1=段字旁;弔=弟?。弧?=兜左角;;)=刀中;>立刀E![5=雙耳;耳=耳省F:幾=鳳字框;廠=反字框;々=負字頭;力=方字底;幸=豐旁G目=官字底;臾=庚字心;豆=寡字腰;風=骨字頭;戈=戈??;巧-gua;A-告字頭;小、=恭字底;毋gudm;龜=龜H爪=荒字底;並=寒字腰;七=化字邊;度=惠字頭;二=侯上角;崔=鶴字邊;-少=鶴字角;互=互??;5=號字底;產(chǎn)=虎字頭;U-畫字框.1!1|=一短一長兩豎Ji牛=舉字底;且-具字頭;牛=降字底;^=祭右角;艮=即字旁;無=既字邊;8=巻字底;M=將字旁;P-節(jié)字底;乙=建之;勺=句字框〕=巨字心;4=jiii;孑-j";孓=化6K■尹=看字頭G^留左角;東=練字邊*=鹿字心;少=老字頭=臨下角;&=臨右角;3=錄字頭;^=羅字頭;1=立字頭;內(nèi)=離字底M曰=冒字頭;尸=眉字框5=卯字旁;木=木底N.3=那字旁;£=虐字底*=囊字頭;升=弄字底;^^=鳥鳥省0■;7=兩點;?"'=三點"、、=四點P!爿pi6nQi"=前字頭;7=輕右角t4頁字旁;」|=喬字底;lt-其字頭;$=妻字頭;匚=區(qū)字框;曳=錢字邊;3=反犬旁R!夕=然左角—=臥人;4=單立人;《=雙立人s卩=師字旁豕=豕省;疋=是字底;"=率字腰;*=叟字頭;眠=鼠字底;"^=衰字腰;纟鄉(xiāng)=絲旁;亇f=食旁;才=提手;才、=示旁;厶二si;巳二siT'^=套字腰;申=唐字腰;門=同字框u〈〈=兩折;〈《=三折WLt二吳字底±=五??;夂=反文;口=圍字框冊=舞字心X、、e學字頭定=卸字旁規(guī)=羲字底^=昔字頭3=雪字底;叚sidY1^'=以字旁'卑=衣補;正=延字心;-梨=庸字心ft輿字腰6=頤字旁;S-耰字角;一《=勇字頭;1=或字框Z/1=周字框;卜=貞字頭;力=姊字邊.大=左字框;[=走之;^=竹頭;希=制字旁;^豕=啄字邊;^-責字頭;足=足旁;^=爪頭;豸zhi;隹zhul表2'同樣,漢字在造形上偶爾也存在著筆畫長短區(qū)別的現(xiàn)象,如"幸"拆為"土v干","逹"的第四橫雖比第三橫短,但半包圍的部分明顯是一個"幸",故該字拆為"土、/干L"。類似的映射在漢字集中吋有發(fā)生,如"欐"拆為"木王口口口口","噩"雖三橫等長,但參照"欐",仍拆為"王口口口";"鳘""繁"參照"敏"分別拆為"尸母夂魚"和,""母夂白水","潔"參照"敏""繁"拆分為"?卜母夂幺小";同理,"園""遠"參照"袁"、"還"參照"袁""寰"進行部件拆分。像"乗"這樣的字也存在上述情況,"^"的第二橫雖寫得較短,但并不影響它與部件表中其他部件的區(qū)分,故該字拆為"禾^"。然而,部件并不應(yīng)存在形似而神非的替代,要求嚴格區(qū)分有筆畫長短區(qū)別或筆畫出頭、不出頭區(qū)別的部件,不存在相似性替代,如不用"夕"替代"義",不用"七"替代"匕"或"七(化字邊)",不用"日"替代"曰"或"曰"("曰"與兩橫相離,如"冒、帽、冕")等。其中"口k5u"和"口w6i"的區(qū)別在于,"口wd"中間含有不與之相交的多個筆畫。三、對漢字(詞)進行排序與檢索采用部件排序與檢索,無須認識漢字,也無須尋找部首,更不必數(shù)筆畫,只要將漢字進行部件拆分并以拆分順序取碼,每個漢字就都能對應(yīng)惟一的編碼。本發(fā)明在漢字(包括漢字詞)本身的排序(編碼)與檢索(査字詞)和查閱學習類的排序(編碼)與檢索(查字詞)上分別采用如下方法-(一)漢字詞通用排序與檢索1.部件以漢字的形式出現(xiàn)構(gòu)成單音節(jié)詞時,編碼為其讀音首字母加筆畫;2.部件作為某一漢字的非惟一構(gòu)成部分時,編碼為其讀音首字母;3.部件以漢字形式出現(xiàn)在非單音節(jié)詞中時,編碼為其讀音首字母。單音節(jié)詞和非單音節(jié)詞均以編碼后的字母排列順序進行排序;若幾個非單音節(jié)詞的編碼完全相同,則依次以各自部件的排序決定它們的排序。檢索時,先拆分單音節(jié)詞,或非單咅節(jié)詞的前一或幾個字,依拆分部件的取碼順序查找即可很快找到所查的字或詞。舉例如表3所示。(二)查閱學習類辭書排序與檢索1.部件以漢字形式出現(xiàn)構(gòu)成單音節(jié)詞時,編碼為其讀音首字母加筆畫;2.部件作為某一漢字的非惟一構(gòu)成部分時,編碼為其讀音首字母;3.部件以漢字形式出現(xiàn)在非單音節(jié)詞中時,編碼為其讀音首字母。辭書以漢字(單音節(jié)詞)編碼后的字母排列順序?qū)h字進行排序,對非單音節(jié)詞則按其首字歸為一類,并以首字后的漢字的編碼順序排序;若幾個非單音節(jié)詞的編碼完全相同,則依次以各自部件的排序決定它們的排序。檢索時,先拆分單音節(jié)詞,依拆分部件的取碼順序查找即可找到所査的字,或先拆分非單i節(jié)詞的首字,依拆分部件的取碼順序找到首學,再拆分該詞首字后的字,依拆分部件的取碼順序即可在首字所屬詞條內(nèi)很快找到所查的詞。舉例如表4所示'。四、制作鍵盤輸入系統(tǒng)按上述漢字部件拆分的原則和方法對漢字進行拆分最大限度地降低了拆分的難度,對部件實行讀音首字母取碼與歸并則使人們對部件取碼的記憶有根深蒂固的漢語拼者知識依據(jù),使它們具有不易被忘卻的本質(zhì),兩者結(jié)合就將漢字部件的易學易用性提升到了更高水平,從<table>tableseeoriginaldocumentpage15</column></row><table>而為順利進行漢語鍵盤輸入打下堅實的基礎(chǔ)。制作鍵盤輸入系統(tǒng)采取如下輸入取碼方式.單音字詞中的部件字(指可整體作基礎(chǔ)部件的漢字).的輸入取碼方式為部件字加其前三筆,少于三筆時取實際筆畫數(shù),單音字詞中的非部件字的輸入取碼方式為前三部件加末部件(不足三部件時依次取前兩部件首筆湊碼);雙音節(jié)詞或短語的輸入取碼方式為兩字前兩部件(部件字取其首筆湊碼);三音節(jié)詞或短語的輸入取碼,式為前字前兩部件加后兩字首部件(部件字取首筆湊碼);四及以上音節(jié)詞或短語的輸入取i馬方式為前四字首部件。如表5所示。單音節(jié)字或詞部件字部件字+其前三筆少于三筆時^:又實際筆畫數(shù)木木一1JMEIA々FAU非部件字前三部'件+末部件不足三部件依次取前兩部件首筆湊碼魏未女口厶鵬S'親立本、一LM0E雙音節(jié)詞或短語兩字前兩部件部件字取其首筆湊碼便利4更禾iJRGHD豆腐豆一廣4DEGR三音節(jié)詞或短語前字前兩部件+后兩字首部件部件字取首筆湊碼四季豆四1禾豆SIHD灰蒙蒙丈火廿廿ZHCC四及以上音節(jié)詞或短語前四字首部件南轅北轍十車口車SCBC人民民主人民民、R,人民民主專政人民民、R鵬中華人民共和國中<人民ZRMER丁YU10p起為而人他要你我有片XcBM在些次不能民ASDGHK匕這是的一三個禾口就可了表5鍵盤輸入系統(tǒng)采用語料庫方法和統(tǒng)計語言模型等中文信息處理技術(shù),使輸入法軟件具有"智能"。只要鍵入Warra-zlrm-d-yjzk-s-yeeb,中文搜索引擎技術(shù)的前后匹配功能就會使屏幕上出現(xiàn)"我們在這個問題上的觀點是一致的"的語句,其中重碼詞語被自動取舍,這樣就不必輸入全拼Women-zaizhegewentishang-de-guandian-shi-yizhide或雙拼形式下的30個字母。此外,新的輸入系統(tǒng)將漢語通用字和非通用字分別建庫,以減少單音字詞鍵盤輸入的重碼率。同吋允許存在-一三鍵簡碼,一鍵簡碼字可按漢字部件拆分的原則和方式拆分、按漢字詞的輸入取碼方式取碼,而不影響由其構(gòu)成的漢字詞或短語的正常輸入。如表6所示。五、進行漢字認知與規(guī)范書寫教育及后續(xù)漢語教育搞清漢字部件拆分和漢字編碼的關(guān)系,有了清晰的漢字部件拆分的原則和方法,也有了完整的漢字基礎(chǔ)部件表,不僅可以用它們對漢字進行排序與檢索,用它們制作漢語鍵盤輸入系統(tǒng),還可以用來進行漢語教學。1.教會學生認讀基礎(chǔ)部件,掌握筆順規(guī)則正確書寫基礎(chǔ)部件,掌握漢字的結(jié)構(gòu),讓他們認識漢字是怎樣由這些基本部件構(gòu)成的,采取"以部件為綱"的識字、寫字方法,從簡單到復(fù)雜地循序漸進地進行漢字認知。表62.把上述l的方式反過來,讓學生掌握漢字拆分成部件的原則和方法,教會他們?nèi)h字部件的首字母并按漢字部件順序排列,依這個字母串在漢語辭書中查找字詞,實現(xiàn)漢字詞的檢索,學習它們的音、義等方面的知識。3.讓學生掌握漢字拆分成部件的原則和方法,教會他們按照漢字詞鍵盤輸入取碼方式取漢字詞各字所規(guī)定的部件的首字母,在電腦、手機或其他同類產(chǎn)品上快速輸入漢字詞、查閱凝結(jié)民族優(yōu)秀文化和智慧于其中的熟語、著名散文詩詞句等,并教會他們以同樣的方式對短語、語句進行輸入,讓系統(tǒng)強大的語料功能幫助他們糾正漢語詞f及語法錯誤,規(guī)范其漢語言的使用。4.以上述13的方法進行對外漢語教學,外國學生也能很快地學寫漢字,查找并學習漢字詞,以及在電腦或同類產(chǎn)品上快速地輸入漢語,學習漢語,理解中國的優(yōu)秀傳統(tǒng)文化。權(quán)利要求1.古今中外絕大部分漢字是合成字,這使得漢字部件間相離和相接(特別是相離)的關(guān)系占據(jù)了絕對優(yōu)勢,客觀上要求對漢字盡可能從部件相離和相接處拆分。另一方面,漢字編碼最直接的功能是排序和檢索,要求盡量用最少的碼數(shù)反映漢字的全貌,這就要求使?jié)h字拆分出的部件盡量少。盡量從相離和相接處拆分部件是尊重漢字結(jié)構(gòu)的本質(zhì)要求,使?jié)h字拆分出的部件盡量少則是漢字經(jīng)濟編碼的客觀要求,后者必須以前者為前提。2.按權(quán)利要求l,在漢字部件拆分過程中,首先必須盡量從漢字相離和相接處拆分。依漢字的上(中)下、左(中)右、(半/全)包圍結(jié)構(gòu)對漢字進行每一級部件拆分叫漢字部件的不相交有理拆分,依漢字平面結(jié)構(gòu)以其他結(jié)構(gòu)從筆畫不相交處進行部件拆分叫漢字部件的不相交無理拆分,兩者可概述為不相交拆分,依漢字平面結(jié)構(gòu)從筆畫相交處進行部件拆分叫漢字部件的相交無理拆分或相交拆分。'3.按權(quán)利要求1和2,漢字部件拆分的原則與方法之一是尊重結(jié)構(gòu)少部件,先離后接大優(yōu)先。它適用于現(xiàn)代漢語通用字和現(xiàn)代漢語通用字之外可以不相交拆分的漢字。"尊重結(jié)構(gòu)少部件"即尊重漢字結(jié)構(gòu),依據(jù)漢字結(jié)構(gòu)拆分部件,使拆分出來的部件盡量少。"先離后接大優(yōu)先"即"先離后接"和"大優(yōu)先"。"先離后接"指從筆畫相離和相妾處拆分部件,如果幾種拆分都使?jié)h字部件最少,則能從部件相離處拆分的不從相接處拆分;"大優(yōu)先"指如果幾種拆分都使?jié)h字部件最少,并且都只從相離處拆分或都只從相接處拆分,則使先拆分出的部件筆畫盡量多。4.按權(quán)利要求1和2,漢字部件拆分的原則與方法之一是依照結(jié)構(gòu)難拆分,相交強拆大優(yōu)先。它適用于現(xiàn)代漢語通用字之外需要相交拆分的漢字。"依照結(jié)構(gòu)難拆分"指明拆分的對象是現(xiàn)代漢語通用字之外無法進行不相交拆分的漢字,它們無法按照尊重漢字的結(jié)構(gòu)的方式進行拆分。"相交強拆大優(yōu)先"即"相交強拆"和"大優(yōu)先"。"相交強拆"指,對按照現(xiàn)代漢語通用字共有的部件進行不相交拆分但不能完成拆分的漢字,只考慮經(jīng)濟編碼因素使該漢字部件最少而強行對其從筆畫相交處拆分,并使相鄰的筆畫組合成部件;"大優(yōu)先"指在保持該漢字部件最少的情況下,使先拆分出的部件筆畫盡量多。5.單筆根據(jù)漢字部件拆分的實際需要可成為單筆部件,利用大寫字母AEIOU的書寫首筆與漢字筆畫"撇橫豎點折"的形近聯(lián)系,將"橫豎撇點折"等單筆部件的取碼相應(yīng)定為EIAOU,對多筆部件則取部件讀音首字母為碼并按取碼歸并為25類,其中多筆部件的選擇、取碼及歸并是-A撇-囪多凹Bj少亦冊》衝八(、/)—d半(,)廣卜匕白貝巴不必本秉C處w^出(屮)秀w乂川蟲廠寸才串匆朿斥臣冊垂承丑車(車r長'D、"A*j&f宋〔"夂A(f])刀(jij)丁大東歹豆電丹單'E橫二耳(P斗)兒而F幾廠々方(力)豐W)飛非夫弗發(fā)甫市G口臾旦&(巧)戈(戈)&小、丐工干弓廣革瓜甘更果毋央龜(龜)4H瓜在乜繭二崔(少)A萬產(chǎn)U未火戶乎亥奐黑I豎II6.按權(quán)利要求1、2和5,漢字詞通用排序與檢索方式為部件以漢字的形式出現(xiàn)構(gòu)成單音節(jié)詞時,編碼為其讀音首字母加筆畫;作為某一漢字的非惟一構(gòu)成部分時,編碼為其讀音首字母;以漢字形式出現(xiàn)在非單音節(jié)詞中時,編碼為其讀音首字母。單音節(jié)詞和非單音節(jié)詞均以編碼后的字母排列順序進行排序,若幾個非單音節(jié)詞的編碼完全相同,則依次以各自部件的排序決定它們的排序;檢索時,先拆分單音節(jié)詞,或非單音節(jié)詞的前一或幾個字,依拆分部件的取碼順序査找即可很快找到所査的字或詞。7.按權(quán)利要求1、2和5,查閱學習類辭書排序與檢索方式為部件以漢字形式出現(xiàn)構(gòu)成單音節(jié)詞吋,編碼為其讀音首字母加筆畫;作為某一漢字的非惟一構(gòu)成部分時,編碼為其讀音首字母;以漢字形式出現(xiàn)在非單音節(jié)詞中時,編碼為其讀音首字母。辭書以漢字(單音節(jié)詞)編碼后的字母排列順序?qū)h字進行排序,對非單音節(jié)詞則按其首字歸為一類,并以首字后的漢字的編碼順序排序,若幾個非單音節(jié)詞的編碼完全相同,則依次以各自部件的排序決定它們的排序;檢索時,先拆分單音節(jié)詞,依拆分部件的取碼順序査找即可找到所査的字,或先拆分非單音節(jié)詞的首字,依拆分部件的取碼順序找到首字,再拆分該詞首字后的字,依拆分部件的取碼順序即可在首字所屬詞條內(nèi)很快找到所査的詞。8.按權(quán)利要求l、2、3、4和5制作成音形王碼漢語輸入法,單音字詞中的部件字的輸入取碼方式為部件字加其前三筆,少于三筆時取實際筆畫數(shù),單音字詞中的非部件字的輸入取碼方式為前三部件加末部件(不足三部件時依次取前兩部件首筆湊碼);雙音節(jié)詞或短語的輸入取碼方式為兩字前兩部件(部件字取其首筆湊碼);三音節(jié)詞或短語的輸入取碼方式為前字前兩部件加后兩字首部件(部件字取首筆湊碼);四及以上音節(jié)詞或短語的輸入取碼方式為前四字首部件。9.按權(quán)利要求8,輸入法采用語料庫方法和統(tǒng)計語言模型等中文信息處理技術(shù),使其與中文搜索引擎技術(shù)相結(jié)合。如輸入語句"我們在這個問題上的觀點是一致的",只要鍵入Warm-zlrm-d-yjzk-s-yeeb就可以,不必像音碼夷卩樣輸入全拼Women陽zaizhegewentishang-de-guandian-shi-yizhide或雙拼形式下的30個字母。10.按權(quán)利要求8和9,輸入法將漢語通用字和非通用字分別建庫,以減少單音字詞鍵盤輸入的重碼率,同時允許存在一三鍵簡碼,一鍵簡碼字可按漢字部件拆分的原則和方式拆分、按漢字詞的輸入取碼方式取碼,而不影響由其構(gòu)成的漢字詞或短語的正常i入。全文摘要音形王碼漢字編碼方案,涉及漢字編碼方案的設(shè)計及其在漢字排序與檢索、漢語鍵盤輸入、漢字認知與書寫教育及漢語后續(xù)教育等方面的應(yīng)用。對通用字不相交拆分,實現(xiàn)部件定量,再用它們對非通用字進行相交或不相交拆分。對絕大多數(shù)漢字不相交拆分尊重了漢字結(jié)構(gòu)也使拆分簡單,對少數(shù)非通用字相交拆分則能實現(xiàn)經(jīng)濟編碼。對部件取其讀音首字母為碼并歸并,使部件易學易用。將漢字進行部件拆分并依次取碼能實現(xiàn)漢字排序與檢索,再對詞或短語中的漢字進行選碼能實現(xiàn)漢語鍵盤輸入,采用中文搜索引擎技術(shù)可將普通速度提高到每分鐘150~200個漢字。部件與漢字關(guān)系緊密而清晰,能正確書寫部件,就能正確書寫漢字并用鍵盤輸入漢語,利于漢語基礎(chǔ)教育和后續(xù)教育。文檔編號G06F17/28GK101295297SQ20071005197公開日2008年10月29日申請日期2007年4月26日優(yōu)先權(quán)日2007年4月26日發(fā)明者王道平申請人:王道平
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1