專利名稱:進(jìn)行語(yǔ)言文字錄入或翻譯的智能轉(zhuǎn)換的方法
技術(shù)領(lǐng)域:
本發(fā)明提供一種在利用鍵盤或類似于鍵盤的點(diǎn)擊的技術(shù)進(jìn)行語(yǔ)言文字錄入或?qū)⒁环N語(yǔ)言翻譯成另一種語(yǔ)言時(shí)為減少重碼和不必要的編碼干擾進(jìn)行編碼庫(kù)自動(dòng)分級(jí)顯示和分類切換的方法,本發(fā)明同時(shí)還提供一種文字錄入的智能自定義詞組的方法。
目前,利用計(jì)算機(jī)鍵盤、手機(jī)鍵盤或有類似功能的屏幕鍵盤、屏幕圖形、屏幕軟鍵盤等進(jìn)行語(yǔ)言文字錄入或者將一種語(yǔ)言翻譯成另一種語(yǔ)言,當(dāng)發(fā)生容易錯(cuò)誤或允許錯(cuò)誤的情況或遇到較冷僻詞條時(shí),公知的方法是在編碼對(duì)應(yīng)處理時(shí),將容錯(cuò)的編碼、譯文或較冷僻詞條同正常的編碼、譯文或常用詞條一起不加區(qū)別的處理。如在用計(jì)算機(jī)鍵盤進(jìn)行中文錄入時(shí),五筆字型等拼形輸入法通常都設(shè)計(jì)有容錯(cuò)碼,拼音輸入法一般都附帶有南方模糊音,當(dāng)選擇使用模糊音功能后,若模糊音與標(biāo)準(zhǔn)拼音的編碼相同,則能同時(shí)顯示模糊音和標(biāo)準(zhǔn)拼音對(duì)應(yīng)的字詞。
但是,目前的拼形輸入法采用容錯(cuò)碼后存在兩個(gè)方面的問(wèn)題,一方面,究竟是容錯(cuò)編碼還是正確編碼在錄入時(shí)不易區(qū)分,自定義詞組時(shí)自動(dòng)產(chǎn)生的編碼也不能包含容錯(cuò)碼,另一方面,由于用拼形輸入法打字有“漢字難以拆分”和“容易發(fā)生誤拆”等特點(diǎn),因此希望使用的容錯(cuò)碼越多越好,而拼形輸入法為了追求低重碼率又不允許過(guò)多使用容錯(cuò)碼。使用拼音輸入法,當(dāng)采用南方模糊音時(shí),雖然可以實(shí)現(xiàn)模糊音文字錄入,但卻帶來(lái)了大量的重碼,即使自己在某些字詞上發(fā)音正確,也不得不同時(shí)接受由于該字詞的模糊音帶來(lái)的重碼。大量重碼既帶來(lái)翻頁(yè)查找的工作量和手、眼、腦的額外負(fù)擔(dān),又影響錄入的速度。
同時(shí),在錄入文字的時(shí)候,常常需要增加一些新的專門的詞組,而目前以拼形輸入法為代表的一些錄入方法在自定義詞組時(shí)尚沒(méi)有用智能的手段讓計(jì)算機(jī)自動(dòng)識(shí)別新詞的方法。
本發(fā)明的目的是提供一種,在利用計(jì)算機(jī)鍵盤、手機(jī)鍵盤或類似鍵盤功能的屏幕鍵盤、屏幕圖形、屏幕軟鍵盤等進(jìn)行語(yǔ)言文字錄入或者將一種語(yǔ)言翻譯成另一種語(yǔ)言時(shí),允許大量使用模糊編碼、容錯(cuò)碼、冷僻詞編碼、繁體字編碼等“非正常編碼”的一種方法,該方法既能避免“非正常編碼”與“正常編碼”發(fā)生干擾,也能避免“非正常編碼”相互間發(fā)生干擾,本發(fā)明同時(shí)提供一種文字錄入的智能自定義詞組的方法,在文字錄入時(shí),利用輸入詞條(詞庫(kù)中原來(lái)并不存在該詞條,該詞條也可以不是詞組而是人名、地址等任何形式的字組合)時(shí)輸入的空編碼進(jìn)行記憶,并對(duì)隨后輸入的字、詞編碼跟蹤判斷,從而自動(dòng)獲得自定義詞組的方法。尤其通過(guò)采用以上兩個(gè)相關(guān)方案,能夠極大地降低文字錄入的學(xué)習(xí)使用難度,顯著提高使用者特別是初學(xué)者的工作效率。
以上所述的“正常編碼”本發(fā)明稱為“主編碼”,模糊編碼、容錯(cuò)碼、冷僻詞編碼、繁體字編碼等各種“非正常編碼”統(tǒng)稱為“輔編碼”。
本發(fā)明的目的是這樣實(shí)現(xiàn)的盡可能地將輔編碼與主編碼分開(kāi)顯示,主、輔編碼的內(nèi)容相互間不重復(fù),保證主編碼在正常錄入時(shí)不受輔編碼干擾。當(dāng)輔編碼數(shù)量較多或者需要進(jìn)行分類處理時(shí),可以將輔編碼進(jìn)行分組處理,如上述的輔編碼經(jīng)分組處理成模糊編碼、容錯(cuò)碼、冷僻詞編碼、繁體字編碼等,以保證輔編碼之間也盡可能少的發(fā)生重碼和干擾。在使用輔編碼時(shí),只需要一次擊鍵即可實(shí)現(xiàn)由主編碼庫(kù)向輔編碼庫(kù)的切換。錄入輔編碼后自動(dòng)返回或通過(guò)返回鍵返回。通過(guò)返回鍵返回時(shí),返回鍵可以采用原來(lái)的切換鍵,也可以采用專門定義的返回專用鍵。
本發(fā)明所指的擊鍵還包括屏幕類鍵盤的鼠標(biāo)點(diǎn)擊,手指、筆的觸屏點(diǎn)擊等。
文字錄入時(shí)智能自定義詞組的方法是這樣實(shí)現(xiàn)的當(dāng)以一個(gè)完整的詞組編碼錄入某詞條時(shí),如果該詞條在詞庫(kù)中并不存在,則這一編碼被自動(dòng)保存。由于該詞條在詞庫(kù)中不存在,因此就需要以單字或更短的詞組來(lái)輸入該詞條。經(jīng)跟蹤這些隨后輸入的單字或短詞的編碼,再經(jīng)與保存的編碼按構(gòu)詞規(guī)則進(jìn)行比較判斷,可識(shí)別確認(rèn)該詞條成為一個(gè)新的自定義詞組。
具體舉例描述如下。
一、用于用拼形的方法錄入文字1、主編碼采用常用的正確編碼,同時(shí)允許使用部分常用的非正確編碼。
在本人發(fā)明的夢(mèng)碼輸入法中,GB2312中所有漢字均作為主編碼,極少數(shù)疑難字在發(fā)生一字多碼時(shí),若不與自定義詞組發(fā)生矛盾,也可用作主編碼,如表的正確編碼“sztk”和容錯(cuò)碼“szak”都可為主編碼,臼的正確編碼“fags”和容錯(cuò)碼“faga”都可為主編碼。
2、輔編碼按所屬類別分開(kāi)處理。
①隨意亂打單字。
隨意亂打單字在本發(fā)明中專指未按主編碼庫(kù)中的正確漢字編碼輸入?yún)s能無(wú)干擾地錄入該字的技術(shù)。
夢(mèng)碼輸入法將所有的容錯(cuò)字用一個(gè)專用的輔編碼庫(kù)來(lái)管理,用專用鍵進(jìn)行切換。該編碼庫(kù)即為隨意亂打字庫(kù)。
比如,專用鍵選用“[”。
當(dāng)要錄入“天”字時(shí),如果按正確編碼錄入“a;//”(“天”被分解為“一、大”,該編碼中“a”指“一”、“;”指“大”、“/”指“編碼已取完”),由于在主編碼庫(kù)中有對(duì)應(yīng)的字和編碼,因此可以用通常錄入漢字的辦法錄入“天”字。但是,如果操作者發(fā)生誤拆,通常情況下,就會(huì)無(wú)法錄入該字。現(xiàn)在,操作者還沒(méi)有很好掌握“字根取大”原理,或者看不清這里的“大”這一字根就是“大字根”,沒(méi)有優(yōu)先取“大”這一字根。比如拆成了“sf//”(“天”被分解為“二、人”,該編碼中“s”指“二”、“f”指“人”、“/”指“編碼已取完”)或者“smj/”(“天”被分解為“二、丿、丶”,該編碼中“s”指“二”、“m”指“丿”、“j”指“丶”、“/”指“編碼已取完”)。最簡(jiǎn)單地辦法是擊專用鍵“[”(目的是轉(zhuǎn)到隨意亂打字庫(kù)),這就找到了“天”字!因?yàn)樵陔S意亂打字庫(kù)中,“天”字的“隨意亂打”編碼“sf//”或“smj/”本來(lái)就是存在的。
由于隨意亂打單字的庫(kù)的容碼空間和主編碼庫(kù)的容碼空間一樣大,因此,只要有可能打錯(cuò)的字,其錯(cuò)誤編碼都可以當(dāng)做容錯(cuò)碼,而容錯(cuò)碼重碼的概率卻會(huì)非常低。比如,用30個(gè)鍵打字時(shí),如果用4碼碼長(zhǎng)來(lái)定一字,則主編碼庫(kù)的容碼空間是304為81萬(wàn),容錯(cuò)碼的空間也將是81萬(wàn),在81萬(wàn)的容碼空間里裝6763個(gè)漢字的容錯(cuò)碼可謂綽綽有余。
②隨意亂打詞。
隨意亂打詞在本發(fā)明中專指未按主編碼庫(kù)中詞組的編碼輸入時(shí)或想要錄入主編碼庫(kù)中根本不存在的冷僻詞時(shí),能夠錄入想要的詞組或冷僻詞的技術(shù)。
夢(mèng)碼輸入法將所有的容錯(cuò)詞和冷僻詞再用一個(gè)專用的輔編碼庫(kù)來(lái)管理,用另一個(gè)專用鍵進(jìn)行切換。該編碼庫(kù)即為隨意亂打詞庫(kù)。
比如,專用鍵選用“]”。
當(dāng)要錄入“天堂”一詞時(shí),如果按正確編碼錄入“a;lc”(“天”字的前兩個(gè)編碼取“一、大”,“堂”字的前兩個(gè)編碼取“、冖”,該編碼中“a”指“一”、“;”指“大”、“l(fā)”指“”、“c”指“冖”),由于在主編碼庫(kù)中有對(duì)應(yīng)的詞和編碼,因此可以用通常錄入漢字詞組的辦法錄入“天堂”一詞。但是,按以上的假設(shè),如果“天”字被誤拆成了“sf//””或者“smj/”,則“天堂”一詞相應(yīng)地也被誤拆成“sflc”或者“smlc”(“天”字的前兩個(gè)編碼由“a;”變?yōu)榫幋a“sf”或者“sm”,而“堂”字的前兩個(gè)編碼“l(fā)c”保持不變),由于這時(shí)處于主編碼庫(kù),因此按“sf//”或者“smj/”打入的編碼就找不到“天堂”一詞。同樣,最簡(jiǎn)單地辦法是擊專用鍵“]”(注意不是“[”!)(目的是轉(zhuǎn)到隨意亂打詞庫(kù)),這就找到了“天堂”一詞!因?yàn)樵陔S意亂打詞庫(kù)中,“天堂”一詞的“隨意亂打”編碼“sflc”或者“smlc”本來(lái)就是存在的。
由于隨意亂打詞庫(kù)的容碼空間和主編碼庫(kù)的容碼空間一樣大,實(shí)際上,就等于幾乎不增加擊鍵難度的情況下,增加了一倍的容詞空間。而如果不使用詞語(yǔ)的容錯(cuò)碼,則可以將詞語(yǔ)的數(shù)量增加一倍。如采用以上所說(shuō)的81萬(wàn)的容碼空間,如果正常情況下裝3萬(wàn)條詞語(yǔ)比較合理,那么,此時(shí)將另外3萬(wàn)條較不常用的詞語(yǔ)裝入隨意亂打詞庫(kù),則重碼率幾乎不會(huì)改變。而在本人所發(fā)明的夢(mèng)碼拼形輸入法中,主編碼庫(kù)實(shí)際可以使用6-8萬(wàn)條詞語(yǔ),那么,如果采用在隨意亂打詞庫(kù)中只裝入冷僻詞的辦法,實(shí)際可使用的詞語(yǔ)達(dá)12-16萬(wàn)之多,而重碼率依然非常低。
這是一個(gè)現(xiàn)實(shí)的夢(mèng)碼拼形輸入法所采用的詞條數(shù)量,用“海量”詞條來(lái)形容可謂名副其實(shí)。
③繁體字的錄入方案。
在本人發(fā)明的夢(mèng)碼輸入法中,不再使用通常的GB2312和GBK選項(xiàng),而全部選用GBK的形式??梢詫ⅰ伴F”、“氹”等高頻字放入主編碼中,將GB2312以外的其它的GBK字,如“囍”、“喆”等專門作為一個(gè)輔編碼庫(kù)進(jìn)行管理,并通過(guò)專門定義的鍵,如英文鍵盤上的“大小寫轉(zhuǎn)換”鍵“Caps Lock”進(jìn)行通常意義上的“簡(jiǎn)繁體”切換。使用這個(gè)鍵,其含義非常貼切、好記,也很好擊打。
例如,現(xiàn)在要錄入“喜”字。由于“喜”是主編碼庫(kù)中的字,因此只要打“喜”字的正確編碼“p.k.”即可按常規(guī)方法錄入“喜”字。
即有簡(jiǎn)碼優(yōu)先用簡(jiǎn)碼錄入,無(wú)簡(jiǎn)碼但有重碼可用數(shù)字鍵選入該字,如果無(wú)重碼或有重碼但“喜”字排在第一的位置,只要繼續(xù)錄入其它字詞或標(biāo)點(diǎn)符號(hào)該字即可自動(dòng)上屏,并且可用空格鍵等確認(rèn)鍵錄入該字。
當(dāng)要錄入“囍”字,尤其是你不知道“囍”字是繁體字還是簡(jiǎn)體字,你也不需要去考慮到底是繁體字還是簡(jiǎn)體字,首先按正確編碼“p.k.”查找,結(jié)果由于主編碼庫(kù)中沒(méi)有“囍”字,因此一定找不到“囍”這一漢字。再擊一次大小寫轉(zhuǎn)換鍵“Caps Lock”,由于轉(zhuǎn)到繁體字庫(kù)中查找,因此就很容易找到并錄入“囍”字。
當(dāng)要錄入“喆”字,在輸入編碼“p.p.”后,主編碼庫(kù)中由于無(wú)字詞與該編碼對(duì)應(yīng),因此該編碼為空。擊一次大小寫轉(zhuǎn)換鍵“Caps Lock”,則可以從繁體字庫(kù)中查找并錄入該字。
對(duì)于頻繁使用繁體字的人,還有一種更智能的辦法錄入“喆”字。即當(dāng)主編碼庫(kù)中無(wú)該字編碼時(shí),系統(tǒng)自動(dòng)轉(zhuǎn)到繁體字庫(kù)(也可以定義成自動(dòng)轉(zhuǎn)到上述的幾個(gè)輔編碼庫(kù)中的某一個(gè)詞庫(kù)),查找編碼“p.p.”對(duì)應(yīng)的“喆”。
采用這一技術(shù)后,不但解決了GBK中的繁體字對(duì)正常的字詞錄入的干擾,而且,由于GBK中的6763個(gè)GB2312-80的單字和大量的詞語(yǔ)不再會(huì)對(duì)錄入繁體字產(chǎn)生干擾,使繁體字的錄入不但不會(huì)因?yàn)槎嘤靡绘I而感到麻煩,而是感到更流暢。因?yàn)樵?1萬(wàn)的容碼空間里實(shí)際只僅僅裝了1萬(wàn)多繁體字。
④錄入英語(yǔ)或者用拼音的方式錄入疑難字詞。
和以上的方案相近,只是在錄入編碼前要首先使用切換鍵,如用右Shift鍵或“[”鍵切換到“錄入英語(yǔ)”狀態(tài),用左Shift鍵或“]”鍵切換到用“拼音錄入漢字”狀態(tài)。
⑤切換鍵的選擇和定制。
以以上舉例的切換鍵作為默認(rèn)地切換鍵,但也可以通過(guò)輸入法相關(guān)菜單對(duì)切換鍵進(jìn)行調(diào)整,將使用者最常用的一個(gè)輔編碼庫(kù)放在最習(xí)慣、最易于打到的切換鍵上。
二、用于用拼音的方法錄入漢字用于用拼音方法錄入文字時(shí),除改進(jìn)了現(xiàn)在一般都在使用的模糊音功能和用GBK單選按鈕選擇是否使用繁體字功能,還有兩種情況也需要進(jìn)行處理這就是,常用但容易念錯(cuò)的字應(yīng)該用容錯(cuò)的方法進(jìn)行處理不常用尤其是普通人通常不認(rèn)識(shí)的字也應(yīng)該按可能認(rèn)錯(cuò)了的讀音(比如讀半邊字音)進(jìn)行容錯(cuò)處理。
①隨意亂打單字。
同夢(mèng)碼輸入法一樣,將所有的可能出現(xiàn)模糊音的字、常用但容易念錯(cuò)的字、普通人不認(rèn)識(shí)的字等用一個(gè)專用的輔編碼庫(kù)來(lái)管理,用專用鍵進(jìn)行切換。該編碼庫(kù)即為隨意亂打字庫(kù)。
比如,專用鍵選用“[”。
由于主編碼庫(kù)中全部是正確的讀音編碼,當(dāng)要錄入“寸”字時(shí),如果按模糊音編碼鍵入“chun”,由于在主編碼庫(kù)中沒(méi)有對(duì)應(yīng)的字和編碼,因此,就無(wú)法錄入該字。此時(shí)由于不再使用“模糊音選項(xiàng)”的技術(shù),最簡(jiǎn)單地辦法就是擊專用鍵“[”(目的是轉(zhuǎn)到隨意亂打字庫(kù)),這就找到了“寸”字!因?yàn)樵陔S意亂打字庫(kù)中,“寸”字的“隨意亂打”編碼“chun”本來(lái)就是存在的。
用同樣的辦法,在錄入容易念錯(cuò)的字“膝”時(shí)打錯(cuò)誤的讀音“qi”也可以在隨意亂打字庫(kù)中查找到該字;在錄入不認(rèn)識(shí)的字“櫛”、“瞠”和“緘”時(shí),分別打它們的錯(cuò)誤編碼“jie”(節(jié)的讀音)、“tang”(堂的讀音)和“xian”(咸的讀音),也可以在隨意亂打字庫(kù)中查找到該字。
②隨意亂打詞。
由容錯(cuò)字產(chǎn)生的容錯(cuò)詞、由多音字產(chǎn)生的容錯(cuò)詞以及冷僻詞語(yǔ)等,用一個(gè)專用的輔編碼庫(kù)來(lái)管理,用專用鍵進(jìn)行切換。該編碼庫(kù)即為隨意亂打詞庫(kù)。
比如,專用鍵選用“]”。
當(dāng)要錄入“鱗次櫛比”一詞時(shí),如果按容錯(cuò)字產(chǎn)生的容錯(cuò)詞編碼鍵入“l(fā)incijiebi”,由于在主編碼庫(kù)中沒(méi)有對(duì)應(yīng)的詞和編碼,因此要擊專用鍵“]”(注意不是“[”!)(目的是轉(zhuǎn)到隨意亂打詞庫(kù)),這就找到了“鱗次櫛比”一詞!因?yàn)樵陔S意亂打詞庫(kù)中,“鱗次櫛比”一詞的“隨意亂打”編碼“l(fā)incijiebi”本來(lái)就是存在的。
用同樣的辦法,在錄入容易念錯(cuò)的多音字組成的詞“參差不齊”時(shí)打錯(cuò)誤的讀音“canchabuqi”也可以在隨意亂打字庫(kù)中查找到該詞;在錄入冷僻詞“活化石”時(shí),打“huhuashi”即可在隨意亂打字庫(kù)中方便地查找到該詞。
除了以上適用于全拼的容錯(cuò)方案,該原理同時(shí)還適用于雙打拼音等幾乎所有相關(guān)拼音的容錯(cuò)方案。如使用只打聲母的簡(jiǎn)拼方案或無(wú)論用全拼還是雙拼,采用固定碼長(zhǎng)的輸入方案,都可以很容易的實(shí)現(xiàn)。舉例說(shuō)明如下“鱗次櫛比”用只打聲母的簡(jiǎn)拼、用碼長(zhǎng)為4的全拼方案和用碼長(zhǎng)為4的雙拼方案,只要輸入“l(fā)cjb”,即可切換到隨意亂打詞庫(kù),找到并錄入“鱗次櫛比”一詞。
“參差不齊”用只打聲母的簡(jiǎn)拼可以只輸入“cchbq”,用碼長(zhǎng)為4的雙拼方案,可以輸入“cch(ch被定義在一個(gè)鍵上)bq”。
“活化石”用只打聲母的簡(jiǎn)拼可以輸入“hhsh”,用碼長(zhǎng)為3的雙拼方案,可以輸入“hhsh(sh在一個(gè)鍵上)”。若用碼長(zhǎng)為4,三字詞第四碼取末字韻母的方案,則可以輸入“hhsh(sh在一個(gè)鍵上)i”。
③繁體字的錄入方案。
不使用通常的GB2312和GBK選項(xiàng),而全部采用GBK的形式,基本按簡(jiǎn)體字放入主編碼庫(kù)中、繁體字放入輔編碼庫(kù)中進(jìn)行管理,通過(guò)專門定義的鍵,如英文鍵盤上的大小寫轉(zhuǎn)換鍵“Caps Lock”進(jìn)行通常意義上的簡(jiǎn)繁體切換。
現(xiàn)在要錄入“喜”字,打“喜”字的拼音“xi”即可按常規(guī)方法錄入“喜”字。當(dāng)要錄入“囍”字,也按正確編碼“xi”查找,結(jié)果由于主編碼庫(kù)中沒(méi)有“囍”字,因此一定找不到“囍”這一漢字。再擊一次大小寫轉(zhuǎn)換鍵“Caps Lock”,轉(zhuǎn)到繁體字庫(kù)中查找,就很容易找到并錄入“囍”字。
④錄入英語(yǔ),用純筆畫的方式錄入不認(rèn)識(shí)尤其是沒(méi)法猜的疑難字詞,或利用輸入英語(yǔ)的方式錄入中文,切換鍵的選擇和定制等功能同“用拼形的方法錄入文字”中第④條的描述。
三、用于語(yǔ)言翻譯將一種語(yǔ)言翻譯成另一種語(yǔ)言時(shí),對(duì)容易發(fā)生拼寫錯(cuò)誤的詞、冷僻詞語(yǔ)、不常用詞義等的處理方式,基本和以上的“用拼形的方式錄入文字”和“用拼音的方式錄入漢字”的方法一致。
四、輔編碼庫(kù)的其他處理需要的時(shí)候可以將輔編碼庫(kù)中的一個(gè)庫(kù)、多個(gè)庫(kù)甚至全部庫(kù)(如果有多個(gè)輔編碼庫(kù)的話)都作為主編碼庫(kù)處理,也可以再根據(jù)需要將它們還原成主輔庫(kù)的形式。
多個(gè)輔編碼庫(kù)之間也可根據(jù)需要進(jìn)行必要的臨時(shí)合并,使多個(gè)或全部輔編碼庫(kù)合并成一個(gè)輔編碼庫(kù),只用一個(gè)切換鍵切換。合并庫(kù)的編碼內(nèi)容按照事先指定好的輔編碼庫(kù)的先后排列順序一同顯示。
同樣道理,任意一個(gè)輔編碼庫(kù)也可以再根據(jù)需要,再人為拆分成兩個(gè)或兩個(gè)以上新的輔編碼庫(kù)。
在輔編碼庫(kù)中凡涉及類似容錯(cuò)碼、模糊碼等錯(cuò)誤輔編碼的,在完成錄入文字后均可提供正確的編碼提示。
五、拼形輸入法錄入文字的智能自定義詞組以拼形輸入法中的夢(mèng)碼拼形輸入法為例,說(shuō)明文字錄入的智能自定義詞組的實(shí)現(xiàn)方法。
當(dāng)以長(zhǎng)詞組的形式錄入“誰(shuí)知盤中餐,粒粒皆辛苦”,鍵入該長(zhǎng)詞組的正確編碼“xnav”時(shí),詞庫(kù)中無(wú)這一詞組,則編碼“xnav”被臨時(shí)保存。由于詞庫(kù)中沒(méi)有該詞,因此,接下來(lái)只好以單個(gè)漢字或短詞組的方式來(lái)輸入該詞組。經(jīng)跟蹤確認(rèn),按詞組的編碼規(guī)則,接下來(lái)輸入的“誰(shuí)知盤中餐,粒粒皆辛苦”正好符合“xnav”這一編碼,該詞組即成為一個(gè)新的自定義詞組,即“誰(shuí)知盤中餐,粒粒皆辛苦”(注意!含逗號(hào))自動(dòng)轉(zhuǎn)換為詞組格式,下次可以用詞組方式按照編碼“xnav”,一次就能完成這10個(gè)漢字和一個(gè)逗號(hào)的錄入。
對(duì)該自定義詞組的跟蹤方法是這樣的假設(shè)接下來(lái)第一次、第二次輸入的單字或短詞組構(gòu)成了一個(gè)新詞組,按詞組的編碼規(guī)則對(duì)兩次輸入的新詞組提取詞組編碼,并與原臨時(shí)保存的編碼對(duì)比,若編碼一致,則新詞組入庫(kù)。否則,若編碼的首字母不相同,跟蹤結(jié)束。
在以上舉例中,若接下來(lái)第一次輸入的是“誰(shuí)”,第二次輸入的是“知”,那么,假設(shè)的新詞組就是“誰(shuí)知”,對(duì)應(yīng)的編碼為“xfn;”與臨時(shí)保存編碼“xnav”不一致,但首字母“x”相同,繼續(xù)跟蹤。
同樣,第三次輸入單字或短詞組后,再假設(shè)三次輸入的單字或短詞組構(gòu)成了一個(gè)新詞組,仍按詞組的編碼規(guī)則重新提取詞組編碼,并與原臨時(shí)保存的編碼對(duì)比,若編碼一致,則新詞組入庫(kù)。否則,若兩編碼的第一、第二、第三個(gè)字母不同,跟蹤結(jié)束。
如上例中,第三次輸入的是“盤”,假設(shè)的新詞組就成了“誰(shuí)知盤”,相應(yīng)地,編碼變?yōu)椤皒nad”,也與臨時(shí)保存編碼“xnav”不一致,但前三個(gè)字母“x”、“n”、“a”相同,繼續(xù)跟蹤。
若跟蹤未結(jié)束,則從第四次輸入的單字或短詞組開(kāi)始,只拿單字的首編碼,兩字詞、三字詞的第三碼,四字以上字的第四碼和原臨時(shí)保存的編碼的第四個(gè)編碼對(duì)比,直到有新詞組入庫(kù)?;蛘呒偃绺櫟揭?guī)定的字?jǐn)?shù),比如規(guī)定的第十五個(gè)字,仍沒(méi)有新詞組入庫(kù),則跟蹤結(jié)束。
如上例中,直到輸入“辛苦”(編碼為hsv;),第三碼為“v”,才完成“誰(shuí)知盤中餐,粒粒皆辛苦”新詞組入庫(kù)的工作。
以上自定義詞組時(shí)會(huì)出現(xiàn)兩種情況,當(dāng)編碼“xnav”為空編碼時(shí)較容易實(shí)現(xiàn)。如該編碼上已經(jīng)有其它的詞組(發(fā)生重碼),為了不錄入已有的其它詞組,需要用退格鍵或Esc鍵等進(jìn)行編碼清除,因此可以利用對(duì)退格鍵或Esc鍵等的跟蹤實(shí)現(xiàn)新詞組編碼的自動(dòng)識(shí)別。
比如錄入“點(diǎn)擊”。如作為詞組錄入,則打編碼“zasz”(“點(diǎn)”的前兩碼“za”和“擊”的前兩碼“sz”),但由于詞庫(kù)中沒(méi)有該詞,因此找不到“點(diǎn)擊”一詞,只出現(xiàn)相同編碼的另一個(gè)詞“肯干”。這時(shí)為了不錄入“肯干”這一干擾詞,你需要擊一次Esc鍵(也可以用退格鍵等),這樣編碼“zasz”就被臨時(shí)記憶,你再用錄入單字的方式錄入“點(diǎn)”(編碼為za.;)、“擊”(編碼為szq/),經(jīng)自動(dòng)核對(duì),“點(diǎn)”、“擊”兩字的組詞編碼與“zasz”相吻合,“點(diǎn)擊”即成為一個(gè)新的自定義詞組。
正是由于有自動(dòng)對(duì)編碼后字詞跟蹤識(shí)別的能力,因?yàn)槭种笓翩I的鍵位代碼錯(cuò)誤或拆字錯(cuò)誤等誤碼幾乎可以完全被排除在自定義詞組編碼之外。只要不是大量地、經(jīng)常地出現(xiàn)手指鍵位錯(cuò)誤或拆字錯(cuò)誤,完全可以確保自定義詞組編碼的準(zhǔn)確性和有效性。
實(shí)際上,當(dāng)使用隨意亂打詞的功能時(shí),則可以根據(jù)是否使用過(guò)隨意亂打詞的切換鍵來(lái)做判斷,如果隨意亂打詞庫(kù)中無(wú)此冷僻詞,則開(kāi)始進(jìn)入智能跟蹤造詞狀態(tài)。這樣更有利于減少各種不必要的干擾。
有一種情況比較特殊,需要作進(jìn)一步處理例如,我想直接按詞語(yǔ)打“俗話說(shuō)得好”,我打“fxxk”(f亻,x讠,x讠,k女),但是沒(méi)有該詞,我只能逐字打,當(dāng)打到“俗話說(shuō)”時(shí),“俗話說(shuō)”一詞按編碼規(guī)則也是“fxxk”(k丷),則“俗話說(shuō)”會(huì)自動(dòng)成詞,而“俗話說(shuō)得好”不會(huì)成為自定義詞組。當(dāng)下次再遇到這種情況時(shí),由于“俗話說(shuō)”已經(jīng)是詞組了,因此,當(dāng)逐字打到“俗話說(shuō)”時(shí),系統(tǒng)會(huì)繼續(xù)跟蹤識(shí)別,直至將“俗話說(shuō)得好”定義成新詞組。
當(dāng)然,如果接下來(lái)不是如以上所說(shuō)的逐字打入“俗話說(shuō)得好”,而是打“俗話”和“說(shuō)得好”(前提是“說(shuō)得好”必須是詞,否則又要再對(duì)“說(shuō)得好”進(jìn)行一次自動(dòng)定義,不過(guò)這好像也沒(méi)有什么不好),就不會(huì)出現(xiàn)誤將“俗話說(shuō)”當(dāng)你要的新詞了。
或者,“俗話說(shuō)”本身就已經(jīng)是詞組了,也不會(huì)出現(xiàn)什么問(wèn)題。
以上工作都是在錄入者毫不知情的情況下作出的,因此,實(shí)際上沒(méi)有什么不便。但是,如果想確保每個(gè)詞組都是你想要的,當(dāng)按上述方案產(chǎn)生一個(gè)新的詞組時(shí),會(huì)出現(xiàn)對(duì)話框,請(qǐng)求用回車鍵或空格鍵等確認(rèn),而在以上情形中,如果對(duì)“俗話說(shuō)”一詞不作確認(rèn),自然就可以一次即能將“俗話說(shuō)得好”一詞定義成新詞組了。
此外,新的自定義詞組可以直接進(jìn)入詞庫(kù)成為永久詞條,也可設(shè)置為先將新詞組放入一個(gè)臨時(shí)詞庫(kù),經(jīng)一定次數(shù)的使用后再成為永久詞條。臨時(shí)詞庫(kù)空間不大,當(dāng)臨時(shí)詞庫(kù)裝滿詞組時(shí),每有一個(gè)新的詞組進(jìn)入臨時(shí)詞庫(kù),就會(huì)有一個(gè)使用次數(shù)最少的、距最后一次使用的時(shí)間最遠(yuǎn)的詞組被刪除出臨時(shí)詞庫(kù)。另一種更簡(jiǎn)便的辦法是,可以將新產(chǎn)生的詞組先放入隨意亂打詞庫(kù)(注意可以設(shè)為永久保留,此時(shí),也可以限定智能自定義詞組的容量,當(dāng)超出容量時(shí),最早放入且未被使用過(guò)的自定義詞組將被刪除),當(dāng)該詞被再次使用(使用次數(shù)可以人為設(shè)定,如被使用了2次、3次等,默認(rèn)值設(shè)為1次)以后再調(diào)入主編碼庫(kù),以確認(rèn)它是你確實(shí)需要的詞或確認(rèn)它為高頻詞。
對(duì)以上所述的功能,提供有四種處理方法供選擇。第一個(gè)選項(xiàng)是如已有相同編碼的其它詞存在,則出現(xiàn)提示框,請(qǐng)求對(duì)新獲得的自定義詞組的確認(rèn)。也可選擇提示框不出現(xiàn)而直接成為自定義詞組?;蜻x擇不再接受已有編碼的新詞組。或選擇空編碼上也不接受新詞組,即不使用智能自定義詞組功能。第二個(gè)選項(xiàng)相對(duì)優(yōu)于其他選項(xiàng),設(shè)為默認(rèn)選項(xiàng)。
此外,利用智能自定義詞組功能,自動(dòng)轉(zhuǎn)換成的詞組庫(kù)應(yīng)該獨(dú)立管理,以便于對(duì)個(gè)別誤轉(zhuǎn)換的詞組進(jìn)行刪除、編碼調(diào)整等處理。一旦發(fā)生了一次錯(cuò)誤地自定義詞組,即該詞組和編碼不是你想要的詞組和編碼,尤其當(dāng)影響正常文字錄入時(shí),比如與某高頻字詞發(fā)生重碼,你就可以將自動(dòng)定義的新詞組刪除出自定義詞庫(kù)。
根據(jù)以上描述,智能自定義詞組這一新技術(shù)對(duì)正常錄入文字幾乎沒(méi)有任何干擾。它是用完全不同于“智能ABC輸入法”的技術(shù)實(shí)現(xiàn)了和“智能ABC輸入法”一樣地智能造詞的新功能,甚至實(shí)用性更強(qiáng)。智能造詞可以說(shuō)是“智能ABC輸入法”的最基本也是最重要的技術(shù)功能,沒(méi)有了這一功能,“智能ABC輸入法”就會(huì)失去生命力。因此,從這個(gè)意義上說(shuō),所有使用“拼形”輸入法方案錄入文字的人都會(huì)接受并喜愛(ài)這一智能功能。
六、智能自定義詞組技術(shù)依賴于主輔編碼庫(kù)分級(jí)分類的技術(shù)如果按容錯(cuò)字詞輸入自定義詞組中的單字或短詞組,系統(tǒng)只跟蹤它們對(duì)應(yīng)的正確編碼,在新詞組入庫(kù)的同時(shí)利用有關(guān)字詞的容錯(cuò)碼,同時(shí)獲得自定義詞組的全部容錯(cuò)碼,進(jìn)入輔編碼庫(kù)或輔自定義詞庫(kù)。
七、智能自定義詞組的適用范圍這項(xiàng)技術(shù)原則上適用于所有的拼形輸入法、規(guī)定了固定擊鍵數(shù)量打一詞語(yǔ)的拼音輸入法和相類似的其它任意輸入法,但是,它更適用于選用詞語(yǔ)較多同時(shí)重碼率較低的輸入法。
夢(mèng)碼輸入法容碼空間為81萬(wàn),是“五筆字型輸入法”的兩倍多,同時(shí)由于夢(mèng)碼輸入法在字根排列上的原理突破,當(dāng)選用六萬(wàn)多條詞語(yǔ)時(shí),重碼率仍然低于10%,因此,“打詞為主”是夢(mèng)碼輸入法的一個(gè)主要技術(shù)特征。正是由于夢(mèng)碼輸入法在字根排列上的原理突破,又使得每一個(gè)新產(chǎn)生的自定義詞組與原詞庫(kù)詞組發(fā)生重碼的概率極低。
尤其,當(dāng)采用隨意亂打詞庫(kù)(假設(shè)詞語(yǔ)只選用冷僻詞)后,這一新功能將會(huì)使輸入法容詞空間加大一倍,達(dá)到162萬(wàn)之多,處理自定義詞組會(huì)更加游刃有余。
相反,如果一種輸入法用于打字的鍵數(shù)偏少,比如使用25個(gè)、26個(gè)鍵,它們的容碼空間就相對(duì)較小,分別只有254=390625和264=456976個(gè)。當(dāng)選用詞語(yǔ)數(shù)量較多時(shí),很容易與原詞庫(kù)的詞語(yǔ)發(fā)生重碼,尤其是與高頻詞頻繁重碼將造成高頻詞錄入不流暢。當(dāng)選用詞語(yǔ)數(shù)量較少時(shí),雖然重碼率較低,但使用者如果想多打詞語(yǔ)就會(huì)頻頻遇到打不出來(lái)的詞組,也影響正常地文字錄入。
“打詞為主,多打長(zhǎng)詞”將是未來(lái)大眾化漢字輸入法發(fā)展的唯一方向,而像夢(mèng)碼拼形輸入法這樣,在相對(duì)較大、較合理的一個(gè)容碼空間的基礎(chǔ)上,利用隨意亂打詞和智能自定義詞組這兩項(xiàng)技術(shù)完全可以使文字錄入者放心地多多打詞。
權(quán)利要求
1.一種利用鍵盤技術(shù)或類似鍵盤技術(shù)進(jìn)行語(yǔ)言文字錄入或翻譯的編碼處理方法,其特征是;在進(jìn)行語(yǔ)言文字錄入或者將一種語(yǔ)言翻譯成另一種語(yǔ)言時(shí),對(duì)所有編碼進(jìn)行分類,形成主編碼庫(kù)和輔編碼庫(kù),主編碼對(duì)應(yīng)的內(nèi)容直接顯示,輔編碼對(duì)應(yīng)的內(nèi)容需用專用鍵切換或通過(guò)類似的功能切換后才能顯示。
2.如權(quán)利要求1所述的方法,其特征是主編碼為常用、必不可少的編碼,輔編碼可以是一個(gè)庫(kù)也可以按功能類別分成多個(gè)庫(kù)。
3.如權(quán)利要求1所述的方法,其特征是由主編碼庫(kù)轉(zhuǎn)換到輔編碼庫(kù)需要通過(guò)擊專用鍵或通過(guò)類似的功能切換來(lái)完成,轉(zhuǎn)換結(jié)束自動(dòng)返回或通過(guò)返回鍵返回。
4.如權(quán)利要求1所述的方法,其特征是輔編碼庫(kù)不止一個(gè)時(shí),可以用一個(gè)切換鍵同時(shí)切換到其中的多個(gè)或全部輔編碼庫(kù),也可以用多個(gè)切換鍵對(duì)應(yīng)切換到任意指定的某一個(gè)或幾個(gè)輔編碼庫(kù),當(dāng)一個(gè)切換鍵對(duì)應(yīng)多個(gè)輔編碼庫(kù)時(shí),輔編碼庫(kù)的編碼內(nèi)容按照事先指定的輔編碼庫(kù)的先后排列順序一同顯示。
5.如權(quán)利要求1所述的方法,其特征是輔編碼庫(kù)不止一個(gè)時(shí),如果需要可以將其中的一個(gè)、多個(gè)甚至全部庫(kù)都作為主編碼庫(kù)處理,也可根據(jù)需要將它們還原成主、輔編碼庫(kù)的形式。
6.一種利用鍵盤技術(shù)或類似鍵盤技術(shù)進(jìn)行文字錄入的自定義詞組的方法,其特征是如果詞庫(kù)中不存在某一“詞語(yǔ)”,卻又以一個(gè)完整詞組的編碼格式來(lái)錄入它,那么,在錄入失敗后,只要再隨后按單字或短詞的形式錄入這一“詞語(yǔ)”,該“詞語(yǔ)”即成為詞庫(kù)中的新詞條。
7.如權(quán)利要求6所述的方法,其特征是新詞條產(chǎn)生的原理是利用隨后錄入的每個(gè)單字或短詞的第一位編碼、前兩位編碼或全部編碼依次與錄入失敗的空“編碼”按詞組的編碼規(guī)則進(jìn)行比較判斷,從而排除掉其他不符合規(guī)則的拆錯(cuò)的編碼或擊錯(cuò)鍵造成的誤碼,使與空“編碼”相吻合的新“詞語(yǔ)”進(jìn)入詞庫(kù)。
8.如權(quán)利要求1或6所述的方法,其特征是根據(jù)冷僻詞庫(kù)切換鍵是否被擊鍵,來(lái)判斷是否運(yùn)行自定義詞組功能,進(jìn)行智能自定義詞組的跟蹤識(shí)別,從而盡可能少的減少各種干擾,大大提高自定義詞組的準(zhǔn)確性。
9.如權(quán)利要求1或6所述的方法,其特征是智能自定義詞組可以按類似于主輔編碼庫(kù)的形式來(lái)管理,根據(jù)設(shè)定,第一次或者前幾次使用需要從冷僻詞庫(kù)調(diào)用,以后則自動(dòng)進(jìn)入主庫(kù)成為高頻詞,以方便該詞的錄入。
10.如權(quán)利要求1或6所述的方法,其特征是按容錯(cuò)碼輸入的字、詞能產(chǎn)生正確編碼的自定義詞組并進(jìn)入主編碼庫(kù)或自定義詞庫(kù),同時(shí)也能產(chǎn)生容錯(cuò)碼的自定義詞組,進(jìn)入輔編碼庫(kù)或輔自定義詞庫(kù)。
全文摘要
涉及文字錄入、語(yǔ)言翻譯領(lǐng)域的兩套相關(guān)處理方案:一種是對(duì)編碼庫(kù)采用分級(jí)顯示、分類切換技術(shù),用以減少重碼和不必要的編碼干擾的方法,尤其是大量使用“隨意亂打字”和“隨意亂打詞”,能極大地簡(jiǎn)化拼形輸入法的學(xué)習(xí)難度;另一種是使用拼形輸入法時(shí)能夠利用對(duì)所錄入文字和擊鍵的跟蹤實(shí)現(xiàn)智能化的處理自定義詞組的方法,從而獲得輕松高效而又流暢的錄入感覺(jué),并且使用極為方便,是最理想也是最簡(jiǎn)單有效的自定義詞組的處理技術(shù)。
文檔編號(hào)G06F3/023GK1375761SQ0111154
公開(kāi)日2002年10月23日 申請(qǐng)日期2001年3月15日 優(yōu)先權(quán)日2001年3月15日
發(fā)明者謝春華 申請(qǐng)人:謝春華