專利名稱:數(shù)字化輸入和查詢中文信息的方法
技術(shù)領(lǐng)域:
本發(fā)明是一種數(shù)字化輸入和查詢中文信息(包括字、詞、句、短信息)的方法。它是本人上一個專利申請《簡單快捷的中英文整句數(shù)字輸入法》的深化和延伸深化------引入虛擬偏旁加快單體字的輸入。延伸-------直接對中文短語句子進(jìn)行整體編碼并擴(kuò)展到中文信息的查詢,它仍用12345對單一漢字進(jìn)行數(shù)字編碼輸入,以及用67890對中文信息<短語句子、短信息>進(jìn)行整體編碼的輸入和查詢。
迄今為止,不但各種中文輸入法都是圍繞著如何輸入單個漢字展開的,而且各種中文信息也是按照人為編制的、與中文信息本身并沒有直接關(guān)聯(lián)的無理數(shù)據(jù)<編號>來查詢的。這樣,如果手頭沒有資料或不記得編號就難以查詢。由于當(dāng)今社會手機(jī)已成為億萬群眾最廣泛、最普遍使用的信息通訊工具,上述兩條自然給人們用手機(jī)進(jìn)行文字信息通訊和查詢帶來很大的不便------因為手機(jī)是用一只手握住、又用該手的一個大姆指來操作按鍵的,為了發(fā)一條短信不但要一個字一個字地輸、而且每個字還要一筆一畫地輸<T9技術(shù)>,太慢了!大姆指也太辛苦了!倘若還想用短信進(jìn)行手機(jī)聊天那就更受罪!另一方面,手機(jī)是移動通訊的工具,人們希望能隨時隨地的查詢信息,但按以往的方式,就要帶一大堆資料或者記一大堆編號備查,太不方便!為了克服現(xiàn)有的中文輸入法不能整句快速輸入句子<短語>的不足,以及中文信息無理據(jù)編碼查詢方式帶來的不便,本發(fā)明提供一種方法,它用幾個數(shù)字就能輸入整個句子<及短語或短信息>,又用幾個<有理據(jù)>數(shù)字就能查詢某一類、某一條中文信息------卻無須死記硬背查詢編號或依賴查詢資料。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一、單個漢字的輸入-------用12345代表漢字及其偏旁部首的五個基本筆畫<橫、豎、撇、點(diǎn)、折>,在輸入筆畫的同時出現(xiàn)一行該筆畫起筆的<或第一二筆筆畫開頭的>侯選字及偏旁部首<顯示在另一行>,偏旁部首的編碼由上述筆畫代碼加侯選序號組成。為了加快不帶偏旁部首的單體字的輸入,本發(fā)明引入虛擬偏旁的概念,它是以筆順相同、由單體字開頭三個筆畫代碼組成的一組分類編碼,以此為特征可對單體字歸類處理,實現(xiàn)成批出字、快速輸入。
二、短語句子、短信息的輸入與查詢-------用67890代表組成它們的漢字開頭的筆畫<也是橫、豎、撇、點(diǎn)、折>,對大批短語句子、短信息直接進(jìn)行編碼輸入,總體要求是五個字以上的句子為復(fù)蓋表達(dá)句子主要意思(主題詞)的大部分字,至少要對五個字取碼即編六碼以上,而兩個字的短語為容納較多數(shù)量短語又不重碼也要編六碼;同時為方便區(qū)別規(guī)定在句中我、你、他、不、分別用86、87、870、68代表。(去、到、來等字按理也要取兩碼,但為減輕用戶記憶的負(fù)擔(dān),也可通過軟件來處理)下面分三種方式進(jìn)行說明(一)由于總體要求編六碼以上,所以字?jǐn)?shù)少的短語每個字取碼就要多一點(diǎn)、字?jǐn)?shù)多的每個字取碼就少一點(diǎn)。(注這里的取碼是指取漢字開頭的筆畫代碼)具體地說,兩個字的短語每個字取三碼,三四個字的短語每個字取兩碼,五個字及五字以上的短語句子除了第一個字取兩碼外、其余字取一碼。同時,對字?jǐn)?shù)多的句子,其編碼碼長以能復(fù)蓋主題詞有關(guān)漢字、又不發(fā)生重碼為限。這樣一來,大批短語句子只要編六、七碼(許多十來個字的句子也只要編八、九碼),即只用六七個、七八個數(shù)字就能整句整句地進(jìn)行輸入!平均每個字才輸一碼!(字?jǐn)?shù)少的三四字短語每個字也只是輸兩碼)(二)這種方式是以短語句子總體取碼多少為特征其規(guī)則是第一、二個字取開頭兩碼、其余字取開頭一碼。原則上三個字的短語句子編六碼、四個字的編七碼、五個字及五個字以上編七碼或七碼以上(以復(fù)蓋主題詞、不重碼為限)。這樣,三四個字的短語就要對最后一個字加取后續(xù)筆畫以編夠碼數(shù)。對用戶來說無須計算多少個字的短語句子輸多少碼,只要按規(guī)則依次對有關(guān)字取碼即可。如果取到最后一個字待輸入的短語句子還未出現(xiàn),就對最后一個字加取后續(xù)筆畫。這種方式對經(jīng)常要交叉輸入三四五個字短語的場合比較好。(三)三個字以上的短語句子每個字都取兩碼。這種方式最簡單,但碼長可能較長。當(dāng)某些句子含有離散度很大的人名、物名、地名、時間等等或含有比較用語時,可按單個字輸入的方式(方案一)再結(jié)合上述短語數(shù)字編碼輸入方式來解決。有了上述幾種方式,各種句子都能實現(xiàn)快速輸入。對描述信息類別的用語------例如新聞類、財經(jīng)類、歌曲類、圖片類等------則按該類別中文名稱的字的多少、按相應(yīng)的規(guī)則來編碼。上例為兩字詞組(短語),則應(yīng)每字編三碼,但為了簡便起見(因為類別數(shù)目有限,重碼機(jī)會較小)通??芍粚Φ谝粋€字編三碼,以快速進(jìn)入某一類別瀏覽(除非為了避免重碼才對第二個字加取一碼;若類別名稱多于兩個字,則按三字以上短語編碼規(guī)則編)。至于具體到每條信息的查詢編碼實際上和這條信息的輸入編碼相同,因此,根據(jù)待查信息的中文文字<按上述規(guī)則>就能推測出查詢編碼------無須記背。
采用上述方案的有益效果是,短語、句子、短信息的輸入大大加快,信息查詢也大大方便------無須記背、更不需要等到找來資料、查清編號才能查!下面結(jié)合附圖和實施例對本發(fā)明的方案作進(jìn)一步說明
圖1是用12345輸入筆畫時在屏幕上出現(xiàn)的輸入框<左下方>和兩行候選框,其中一行為候選字框,另一行為候選偏旁部首(或部件)框<兩行的排列不作限定>。
圖2是用數(shù)字輸入筆畫時隨之出現(xiàn)的候選偏旁部首<或部件>一覽表其中2。1表的候選序號是由符號<如*、+、...>和數(shù)字復(fù)合而成。
2.2表的候選序號是由英文字母<如m、n、r...>和數(shù)字復(fù)合而成。(當(dāng)候選單位只有九個時,也可以由0和1至9個數(shù)字復(fù)合而成。)一、方案一的依據(jù)是1所有漢字包括其偏旁部首都是由橫、豎、撇、點(diǎn)、折五個基本筆畫組成的。2、所有漢字及其偏旁部首都可以按起筆筆畫<即第一筆筆畫>分為五大類。
3、相同偏旁部首的字可以按其余部<除去偏旁部首后的剩余部分>第一、二筆歸類<分類>。
4、不含偏旁部首的單體字可按其開頭三個筆順相同的筆畫代碼為特征來歸類。
根據(jù)第2點(diǎn),在輸入漢字開頭的筆畫時可以同時出現(xiàn)該筆畫起筆的單體字<顯示在上一行>和偏旁部首<顯示在下一行>,如附圖1所示。由于偏旁部首較多,其中一部分在輸?shù)诙P時再出<個別的在輸?shù)降谌P才出,如附圖2表中列出的那樣>。由圖1可見,各個偏旁部首的左邊有候選序號X。由于在顯示屏上顯示的這個序號X,在內(nèi)部碼表上<附圖2>可能有兩種方式組成,所以應(yīng)用本發(fā)明需注意<1>當(dāng)這個候選序號按圖2。1表的方式組成時,偏旁部首通過敲*字鍵和數(shù)字序號鍵來選擇;<2>當(dāng)這個候選序號按圖2。2表的方式組成時,偏旁部首通過雙擊該數(shù)字序號鍵來選擇。根據(jù)第3點(diǎn),在選擇某個字的偏旁部首后,只要再輸入余部<除去偏旁部首后的剩余部分>第一筆或第一、二筆,待輸入的字就會在候選字框出現(xiàn)。
此時要注意,候選字的選擇相應(yīng)也有兩種可能<1>如果偏旁部首是敲*字鍵及其候選序號<數(shù)字>鍵來選擇的,那么候選字就通過雙擊其候選序號<數(shù)字>鍵來選字上屏;<2>如果偏旁部首是通過雙擊其候選序號<數(shù)字>鍵來選擇的,那么候選字就通過敲*字鍵及其候選序號<數(shù)字>鍵來選字上屏。下面對第4點(diǎn)作進(jìn)一步的說明。首先需要再次明確的是,單個字的輸入是以數(shù)字1代表橫畫、2代表豎、3代表撇、4代表點(diǎn)、5代表折,所以如果一個字開頭兩筆都是橫畫那么編碼就是11、都是豎畫則是22,如果第三筆都是撇那么編碼就是113、223......以此類推。接下來我們以開頭兩筆都是豎畫的單體字為例說明,如何通過虛擬偏旁把以往看上去雜亂無章、分散的字歸類<223>類監(jiān)臨覽鑒<224>類業(yè)鑿鄴黹黻黼<225>類舊堅緊賢腎豎這樣一來,與虛擬偏旁<開頭三碼>無關(guān)的字不再出現(xiàn),而開頭三碼相同的-------同一虛擬偏旁的字則一次出齊----輸入自然加快!而屏幕上顯示的更清晰、更簡潔!二、下面對方案二作進(jìn)一步說明(僅就第一種方式舉例,第二種方式類似,從略)1.周末你有什么安排80687688-------第三個字是“你”要固定用87編碼。
2.周末打算干什么80668688-------1、2兩句對六個字取碼后,不發(fā)生重碼,可不必再往下編。
3.我想請你吃飯-------86698778<這里泛指吃飯,吃其他的短語另編>
4.我已經(jīng)到了-------8600605.他也來了-------87007690<他字用870編,四字短語每字取兩碼>
6.我不能單獨(dú)處理這事-------866809886<“不”字要取兩碼>
7.你能否來幫一下忙-------8706696<“來、去、到”字要取兩碼>
可見,用本上述規(guī)則,對三四個字、五個字及五字以上的短語句子、短信息編碼時,大多數(shù)一一對應(yīng)、不重碼,因而也可以作為相應(yīng)信息的查詢依據(jù)并大大方便了編輯短信。至于對前面說到的信息類別(如新聞類、財經(jīng)類、股市類、娛樂類、......等)編碼時,由于上述類別名稱為兩字詞組,為簡便起見只對第一個字編開頭三碼,這樣上述類別的編碼依次為969、708、806、086。即按規(guī)則就能推測出查詢編碼,多方便!最后,在某些行業(yè)應(yīng)用及特殊場合包括如公安、軍用等,為了保密可在數(shù)字鍵盤中任選五個按鍵代表漢字輸入的五個筆畫、再在剩余按鍵中任選五個代表短語句子編碼的五個筆畫,按上述規(guī)則同樣可進(jìn)行單個漢字和中文信息的編碼輸入或查詢。
這樣就解決了本發(fā)明所涉及的兩大問題,達(dá)到了予期的目的。
權(quán)利要求
1.一種數(shù)字化輸入與查詢中文信息(字、詞、句及短信息)的方法,其特征是用12345代表組成漢字及其偏旁部首的五個基本筆畫對漢字進(jìn)行數(shù)字編碼輸入(包括用虛擬偏旁加快單體字的輸入),用67890代表短信息(含短語句子)中有關(guān)漢字開頭的筆畫,進(jìn)行短信息整體數(shù)字編碼并將其作為該信息輸入、查詢的依據(jù)。
2.根據(jù)權(quán)利要求1所述的用12345代表五個基本筆畫輸入漢字時,其特征是隨著筆畫輸入將出現(xiàn)一行該筆畫(或第一二筆筆畫)開頭的偏旁部首(或部件)和一行單體字,在選擇了待輸入的偏旁部首后只要再輸入余部第一筆或第一、二筆筆畫(少數(shù)要輸?shù)谌P),待輸入的字(指帶偏旁部首的字)就會出現(xiàn)。
3.根據(jù)權(quán)利要求1所述的用12345代表五個基本筆畫輸入漢字時,其特征是偏旁部首的編碼由其開頭的筆畫代碼加序號組成,該序號可以是(1)、符號(如*、+等等)與數(shù)字復(fù)合而成,也可以是(2)、英文字母與數(shù)字復(fù)合而成(若候選單位僅九個,可由0和1至9復(fù)合而成。)
4.根據(jù)權(quán)利要求3所述的偏旁部首的序號,其特征是如果按3、(1)的方式組成時,那么偏旁部首就通過敲*字鍵和數(shù)字鍵來選擇,此時相應(yīng)的漢字通過雙擊其數(shù)字序號鍵選擇上屏,如果按3、(2)的方式組成時,那么偏旁部首通過雙擊其數(shù)字序號鍵來選擇、而相應(yīng)的漢字就通過敲*字鍵和它的數(shù)字序號鍵來選擇上屏。
5.根據(jù)權(quán)利要求1所述的虛擬偏旁,其特征是由單體字開頭三個筆順相同的筆畫代碼組成,以此為特征可對單體字歸類處理,實現(xiàn)成批出字、加快輸入。
6.根據(jù)權(quán)利要求1所述的用67890對短語句子進(jìn)行整體編碼時,其特征是要求至少編六碼(字?jǐn)?shù)多的句子編碼碼長以復(fù)蓋主題詞、無重碼為限)。
7.根據(jù)權(quán)利要求1所述的用67890對短語句子進(jìn)行整體編碼時,其特征是對表達(dá)句子主要意思的有關(guān)漢字(稱為主題詞)按從左往右的順序依次取各個字開頭的筆畫代碼,取碼的方式可以是(1)、兩個字的短語每字取三碼、三四個字的短語每字取兩碼、五字及五字以上的短語句子除第一個字取兩碼其余字取一碼。(2)、第一二個字取兩碼、其余字取一碼(為此,三四個字短語要對末尾字加取后續(xù)筆畫代碼),(3)、各個字均取兩碼。
8.根據(jù)權(quán)利要求6所述的規(guī)則對短語句子進(jìn)行數(shù)字編碼時,其特征是在某些場合(如行業(yè)應(yīng)用或為了保密)可在數(shù)字鍵盤中任選五個按鍵代表漢字輸入的五個筆畫、再在剩余按鍵中任選五個代表短語句子編碼的五個筆畫(不再都是67890),來進(jìn)行數(shù)字編碼。
9.根據(jù)權(quán)利要求6所述的規(guī)則對短語句子進(jìn)行數(shù)字編碼時,其特征是當(dāng)某些句子含有人名、地名、物名、時間等等離散度較大的字、詞或含有比較用語,可按單個字輸入的方案結(jié)合上述短語直接編碼輸入的方法來解決。
10.根據(jù)權(quán)利要求6所述的用67890直接對短語句子、短信息進(jìn)行數(shù)字輸入編碼時,其特征是該編碼同時可作為相應(yīng)信息的查詢編碼,當(dāng)直接對信息類別的進(jìn)行編碼時,可視類別名稱中字的多少,按兩字或兩字以上詞組編碼規(guī)則編(然后再選用簡碼,例如兩字詞組只編第一個字開頭三碼------除非為了避開重碼才對第二個字加取一碼)。
全文摘要
一種數(shù)字化輸入和查詢中文信息(字、詞、句及短信息)的方法。它用12345代表組成漢字及其偏旁部首的五個基本筆畫并引入虛擬偏旁來加快輸入漢字;用67890代表組成句子有關(guān)漢字開頭的筆畫對短語句子、短信息進(jìn)行整體編碼輸入,方法是對兩個字的短語每字取開頭三碼、三四個字的短語每字取開頭兩碼、五個字及以上的短語句子除第一個字取開頭兩碼其余字取一碼。(總碼長以覆蓋主題詞為限)第二種方式是三、四、五個字及以上的短語句子均對第一、二個字取兩碼其余字取一碼。(三四個字的短語要對最末一字加取后續(xù)筆畫)。上述信息輸入編碼同時可作為該信息的查詢編碼;對于信息類別可根據(jù)其名稱中字?jǐn)?shù)多少,按相應(yīng)詞組編碼規(guī)則編碼,再選用簡碼。
文檔編號G06F3/023GK1521609SQ03113689
公開日2004年8月18日 申請日期2003年1月28日 優(yōu)先權(quán)日2003年1月28日
發(fā)明者陸慶方 申請人:陸慶方