專利名稱:一種智能的拼音輸入方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文字的輸入方法,尤其是針對專業(yè)詞匯數(shù)據(jù)庫的漢字的拼音輸入方法。
背景技術(shù):
目前,現(xiàn)有的一些輸入法有很多,從拼音這個角度來看有全拼,雙拼和智能ABC拼音輸入法等等。這些輸入法實際上也是建立在字碼匹配技術(shù)基礎(chǔ)上的,而且它們使用的是都是靜態(tài)的數(shù)據(jù)庫(即之前已經(jīng)構(gòu)造了一個大型的詞庫供查詢)。其應(yīng)用主要是針對文案信息的錄入,如打印文件、稿件等,所以針對日常使用的情況,平時經(jīng)常使用的詞匯可以預(yù)先存儲在數(shù)據(jù)庫中,其它的內(nèi)容則需要全文錄入才可能找到需要的文字,其優(yōu)點是因為輸入法的詞庫中涵蓋了多個領(lǐng)域的一些專有名詞,并且在輸入的方式上多種多樣,所以在通常應(yīng)用的輸入工作中帶來了不少方便。并且在輸入的過程中,它還運用某些技巧使輸入進一步的簡化和快捷。
比如智能ABC輸入法中采用了分割接近式的輸入方式,可以將用戶輸入的一串字符串分開來識別以達(dá)到匹配多個詞組的目的。并且還有自動記憶新詞組的功能,在用戶對一個新詞組輸入三次后就會將其記錄到系統(tǒng)的數(shù)據(jù)庫中,方便了用戶的再次輸入。還有就是詞頻的調(diào)整,也就是原來的優(yōu)先級在經(jīng)過用戶一段時間的輸入之后根據(jù)用戶對某些詞的使用頻率進行調(diào)整,加快下次用戶的輸入和選擇速度。
其缺點是考慮了輸入法應(yīng)用的通用性,所以使用面很廣,存儲的詞很多,需要比較大的存儲空間和較多檢索運算,如果應(yīng)用在嵌入式的平臺(如WINCE)中可能就會顯得過于臃腫。因為這些大量的詞匯可能對于我們的應(yīng)用來說是沒有用的,尤其是涉及到比較專業(yè)的應(yīng)用情況(此時涉及的詞匯專業(yè)化,而且量小,使用頻率高),所以會造成存儲空間的浪費,當(dāng)然也會影響檢索的速度了。
在比較專業(yè)的輸入查詢系統(tǒng)中,對于輸入查詢的基本要求一是輸入簡單;二是查詢速度快。這種情況下,需要查詢的很多專有名詞對于通用詞匯來說可能根本就不能算是一個詞組,所以用通用的系統(tǒng)輸入法會造成諸多不方便,很多的名稱輸入都只能通過單字的方式來輸入,這樣的效率是很慢的。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠用于專業(yè)詞匯數(shù)據(jù)庫的漢字的拼音輸入方法,該方法能夠針對經(jīng)常使用的專業(yè)詞匯和特殊詞匯通過簡單的方式迅速輸入、查詢,并反饋回來。
本發(fā)明的另一個目的是提供一種能夠用于專業(yè)詞匯數(shù)據(jù)庫的漢字的拼音輸入方法,該方法能夠充分利用專業(yè)資料庫的信息,使用時節(jié)省資料占用空間,冗余數(shù)據(jù)少。
為此,本發(fā)明是這樣實現(xiàn)的一種智能的拼音輸入方法,其包含存儲文字信息的數(shù)據(jù)庫,以及對應(yīng)的輸入、查詢數(shù)據(jù)方式,其特征在于將經(jīng)常使用的專業(yè)詞匯或者特殊用語作為固定詞匯編碼,并錄入到數(shù)據(jù)庫中;同時采用輸入漢字拼音的聲母(英文的輔音字母)作為檢索途徑。
由于所存儲信息的數(shù)據(jù)庫對于常用的或者特殊的詞匯是專門記錄的,所以可以按照漢字的拼音聲母(英文的輔音字母)的方式輸入內(nèi)容,減少了大量的韻母的輸入,輸入快捷,可以大大地提升輸入速度,減少輸入的時間,方便查詢。
進行輸入時,只輸入詞匯的單個第一位的輔音字母,詞匯或者詞組構(gòu)成這些單個輔音字母的組合,符合條件的詞匯字碼已經(jīng)存儲在數(shù)據(jù)庫中,可以很快地被讀取出來。
專業(yè)詞匯或者特殊用語作為固定詞匯編碼是利用現(xiàn)有的文字與字碼的對應(yīng)關(guān)系,將專業(yè)詞匯或者特殊用語作為固定詞匯根據(jù)上述的對應(yīng)關(guān)系編制成新的字碼,并預(yù)先存儲到數(shù)據(jù)庫中。
以上所描繪的就是片語碼。片語碼即是詞組碼,是指通過拼音字碼串與專用詞組之間的匹配技術(shù),通過片語碼,我們把一些拼音的字碼串查詢到其在數(shù)據(jù)庫中的中文詞組,并反饋回來。
具體的實現(xiàn)方式,舉例說明如下假設(shè)用戶輸入sg,那傳統(tǒng)的輸入法可能的輸出就是1、時光2、水果……\但是本發(fā)明可能就是用戶希望的本地建筑物的名稱1、賽格廣場(sggc)2、賽格天橋(sgtq)……對此,我們說明一下本發(fā)明的原理。參見圖1。
如圖所示,單字碼的匹配技術(shù)使我們能夠繼承傳統(tǒng)拼音輸入法的單字輸入方法,而且也繼承了其它一些以傳統(tǒng)全拼為基礎(chǔ)的輸入法的特性,比如象智能ABC輸入法等。而我們獨特的片語碼匹配技術(shù)卻是能夠配合我們自身的各種系統(tǒng)進行運用,對我們需要輸入的內(nèi)容起到智能的目的。這種技術(shù)主要是加入了針對專門資料的考慮,將傳統(tǒng)的輸入方法和特殊的需要考慮在一起,起到了獨特的智能效果。并且輸入法的模塊中有部分的接口是允許用戶進行擴充的,也就是提供了二次開發(fā)的接口,方便用戶加強功能和根據(jù)需要做適當(dāng)?shù)男薷摹?br>
需要注意的,輸入法中輸入的詞組都是特定的,而不可能是任意的詞組,因為這些詞組最終都是從我們的數(shù)據(jù)庫中來的。
數(shù)據(jù)庫的資料組織,主要是針對資料存儲格式方面的技術(shù),不但包括靜態(tài)的資料(存儲在永久介質(zhì)中的),也包括動態(tài)的資料(內(nèi)存中臨時使用的)。為了提高速度,提高效率,我們組織資料必須符合高效和易用的原則。
具體會使用建立良好的數(shù)據(jù)庫索引、限定資料檢索范圍、建立中間緩沖區(qū)來優(yōu)化資料的存儲。
索引的設(shè)置,主要是針對拼音字母的順序?qū)φw數(shù)據(jù)進行位置的索引。利用索引之后,可以加快查找處在位置編排比較靠后的資料,而不需要遍歷大量的資料記錄才能找到需要的資料。按照索引排列則可以通過簡單的移動記錄的指針就能夠查詢到臨近的記錄,便于翻頁查詢等操作。
緩沖區(qū)其實是一塊內(nèi)存區(qū)域,但這塊內(nèi)存區(qū)域并不是一直被占用,當(dāng)檢索完畢時便可釋放出來,當(dāng)被檢索的資料量很大時,并不需要在第一次時就檢索出所有符合條件的記錄,而是先取出其中的一部份將其放入緩沖區(qū)中,如果此時緩沖區(qū)中已存有使用者所要的資料,則將該資料遞交給使用者,然后再將后續(xù)檢索得到的記錄放入緩沖區(qū)中,這樣就能加快每次取出記錄的速度,所有的檢索操作都會針對這個緩沖區(qū)中已置入的記錄進行查核,如果要檢索的資料尚不存在緩沖區(qū)中時,就必須重新對數(shù)據(jù)庫做一次完整的檢索,并將檢索得到的資料依序置入緩沖區(qū)。另外由于檢索的信息內(nèi)容為文本型資料,實際上的檢索結(jié)果所占用的字節(jié)數(shù)并不是很多,所以緩沖區(qū)對內(nèi)存的占用并不是很多。當(dāng)緩沖區(qū)占用內(nèi)存到一定程度時,為了防止它過度的膨脹,必須要處理緩沖區(qū)的刷新,回收沒有使用內(nèi)存或可能不會使用的內(nèi)存。
本發(fā)明的特點總體是一種分層結(jié)合的設(shè)計,資料和算法分離,他們之間通過特定的接口進行溝通。
所述的接口,就是管理數(shù)據(jù)模塊的接口,或者是借助于輔助表格之后達(dá)到共同的外部訪問接口。接口的設(shè)計要根據(jù)實際情況的需要,考慮數(shù)據(jù)的總體結(jié)構(gòu)和系統(tǒng)的各種需要后定出,并且要做到盡量簡潔高效,避免冗余。
本發(fā)明一般可應(yīng)用與嵌入式平臺操作系統(tǒng),也可以應(yīng)用于PC機等的使用情況,這取決于使用時的條件和環(huán)境。
本發(fā)明所需要的資料庫是由專門的需要而構(gòu)成的信息組成的,并且數(shù)據(jù)存儲的方式與通常的輸入法中應(yīng)用的數(shù)據(jù)并不相同,通常輸入法的對照數(shù)據(jù)是建立在文件對照表的基礎(chǔ)上的,而本發(fā)明的對照數(shù)據(jù)是建立在數(shù)據(jù)庫和詞組碼匹配技術(shù)的基礎(chǔ)之上的。
比如在導(dǎo)航系統(tǒng)中,專門的資料就是一些路名、街道名,如“深南大道”、“濱海路”等,又如在圖書查詢系統(tǒng)中,專門資料就是一些書籍的名稱,如“鋼鐵是怎樣煉成的”、“魯迅文集”等,再如一些超市的導(dǎo)購系統(tǒng)當(dāng)中,專門資料就是一些商品的名稱,雖然商品非常多,但是在里面我們不會發(fā)現(xiàn)有“深南大道”或是“濱海路”這樣的數(shù)據(jù),因此實際使用的過程中能夠較快地找到我們所需的數(shù)據(jù),比如“多功能健身器”、“MP3播放器”等。而通用的輸入法就不能做到這樣了,它里面的詞組也是很豐富,但多是一些日常的使用語,所以在專用系統(tǒng)的使用上不如我們的輸入法快捷方便。
因此,本發(fā)明能夠a、節(jié)約資料空間詞組拼音碼匹配技術(shù)中使用的資料都是在原有的數(shù)據(jù)庫,與數(shù)據(jù)庫中的詞組資料是按某種方式結(jié)合在一起的,在本發(fā)明(如導(dǎo)航系統(tǒng))中,我們需要查詢的一些資料如道路,建筑物等都是特定于某一個地區(qū)某一種類型的,一般每個城市都不一樣,都不能重復(fù)的使用,所以沒有象通用的輸入法那樣預(yù)先將需要用到的詞組都抽取出來,和拼音對照碼一起按特定格式結(jié)合起來存儲,而是利用了原有的資料空間,這樣即利用了原有的資料,又可以利用數(shù)據(jù)庫的引擎來幫助輸入法的匹配工作。
b、冗余數(shù)據(jù)少通用輸入法當(dāng)中的冗余數(shù)據(jù)是非常非常多的,一般的用戶用到的文字只是其中的一小部分,但為了通用,它卻必須包含眾多的大多數(shù)用戶都用不上的資料,包括單字和詞組。而對與我們的這個輸入法來說,也是存在一定的冗余性的,單字里面肯定會有一些是我們幾乎不會用到的,而詞組方面,雖然全部都是從資料中來,但是實際使用過程并不可能都被查詢,從這個角度來說那些沒被查到的或是幾乎很少被查到的資料都是冗余的,但是很明顯,因為所有詞組都從實際資料中來,所以冗余數(shù)據(jù)并不會太多。
c、繼承性好,符合用戶習(xí)慣本發(fā)明繼承了一些傳統(tǒng)的輸入法的特性,所以用戶在輸入的過程中可以沿用一些舊的輸入方式和輸入習(xí)慣。比如習(xí)慣了ABC輸入法的用戶,他可能在輸入詞組的時候第一個字只輸入第一個字母,而第二個字則輸入全部的字母,這樣我們的輸入法也是能夠?qū)⑵湔_的辨認(rèn)出來的。還有就是一些聲母連續(xù)輸入的問題,因為考慮了一般情況下都不會出現(xiàn)聲母連續(xù)的拼音,所以在匹配的過程中一般都能夠正確的識別出來并轉(zhuǎn)入下一個漢字的匹配。
圖1為本發(fā)明的片語碼原理說明圖,圖2為本發(fā)明的構(gòu)造片語碼匹配資料的過程示意圖。
具體實施例方式
如圖2所示,首先讀取數(shù)據(jù)庫中指定位置的詞組數(shù)據(jù),取得詞組數(shù)據(jù)后,取其前面的最多四個字或者少于四字(少于四字的詞組)進行下面的動作,將每個字應(yīng)用單字匹配技術(shù)獲得其拼音字碼串,并取出頭一個字母保存起來。這樣進行循環(huán)后,就取得了這個詞組數(shù)據(jù)對應(yīng)的字碼串(1到4個字母),圖中例子就是abcd,然后將次字碼串保存到此詞組數(shù)據(jù)在數(shù)據(jù)庫中對應(yīng)的特定位置。進行這樣的一個大的循環(huán)過程后,便可以建立了數(shù)據(jù)庫中所有的詞組對應(yīng)的匹配資料。
由于輸入法的特性,很明顯,只要是有針對特定資料查詢或檢索的系統(tǒng)都可以使用我們的智能輸入法,下面可以看幾個應(yīng)用例子。
1、汽車自主導(dǎo)航系統(tǒng)在汽車自主導(dǎo)航系統(tǒng)當(dāng)中,如果我們需要實時找到當(dāng)?shù)氐囊恍┚频甑乃谖恢茫苯訌碾娮拥貓D上移動查找是比較費時的事情,但是如果我們進入搜索模塊,啟動本智能輸入法,只要在輸入欄輸入“酒店”全部拼音中的兩個聲母“jd”,那車輛位置所在地附近酒店的名稱就都會列舉出來供使用者參考和選擇,這時使用者就可以很快知道所要去的酒店位置,再透過汽車自主導(dǎo)航系統(tǒng)的路徑推薦與路徑導(dǎo)引的功能,便可讓使用者藉由導(dǎo)引而到達(dá)目的地,而智能輸入法則使得這樣的操作變得更為簡便。
2、圖書管理系統(tǒng)在圖書管理系統(tǒng)當(dāng)中,一般是讓使用者輸入書名或書名中的幾個關(guān)鍵詞,然后由圖書管理系統(tǒng)進行所有藏書書名的全文檢索,而如果將本智能輸入法應(yīng)用到圖書管理系統(tǒng)中,則若使用者要查詢的一本書只記得后面的幾個字如“歷險記”,便可以在輸入法中輸入“1×j”,則“XXX歷險記、XX歷險記。。?!钡鹊榷紩徊⒘谐鰜?,讓使用者對圖書的查找更為簡便。
3、購物商場商品位置查詢在購物商場中,如果要找到消費者所想要的商品,必須一邊在購物商場中行走,一邊查看吊掛于上方的分類指示牌,以便找到所要商品的陳列區(qū)域,到達(dá)陳列區(qū)域后,還須在貨架上一一找尋所要的商品,但若在商場中有貨品位置查詢系統(tǒng),并將本智能輸入法應(yīng)用在查詢系統(tǒng)軟件上,則若消費者需要的商品叫“多功能豪華型天天健身器”,使用者只要輸入“jsq”(健身器三個字拼音中的三個聲母),則所有牌子健身器的名字就能列出來供使選擇,再搭配上購物商場的平面圖,那么就能很快速的找到所要購買的商品的確切區(qū)域與貨架上擺放的位置,免除了走遍整個商場才能買齊所要物品甚至找不到所要購買物品的困擾。
上面所述的方式,僅是對本發(fā)明所列舉的具體例子,并不是對本發(fā)明的具體限定,凡是與本發(fā)明采取的方式類似,并達(dá)到相同目的和效果的,都應(yīng)該在本發(fā)明的保護范圍內(nèi)。
權(quán)利要求
1一種智能的拼音輸入方法,其包含存儲文字信息的數(shù)據(jù)庫,以及對應(yīng)的輸入、查詢數(shù)據(jù)方式,其特征在于將經(jīng)常使用的專業(yè)詞匯或者特殊用語作為固定詞匯編碼,并錄入到數(shù)據(jù)庫中;同時采用輸入漢字拼音的聲母(英文的輔音字母)作為檢索途徑。
2如權(quán)利要求1所述的智能的拼音輸入方法,其特征在于進行輸入時,只輸入詞匯的單個第一位的輔音字母,詞匯或者詞組構(gòu)成這些單個輔音字母的組合,符合條件的詞匯字碼已經(jīng)存儲在數(shù)據(jù)庫中,可以很快地被讀取出來。
3如權(quán)利要求1所述的智能的拼音輸入方法,其特征在于專業(yè)詞匯或者特殊用語作為固定詞匯編碼是利用現(xiàn)有的文字與字碼的對應(yīng)關(guān)系,將專業(yè)詞匯或者特殊用語作為固定詞匯根據(jù)上述的對應(yīng)關(guān)系編制成新的字碼,并預(yù)先存儲到數(shù)據(jù)庫中。
4如權(quán)利要求1所述的智能的拼音輸入方法,其特征在于可以使用建立數(shù)據(jù)庫索引、限定資料檢索范圍、建立中間緩沖區(qū)來優(yōu)化資料的存儲。
5如權(quán)利要求4所述的智能的拼音輸入方法,其特征在于索引的設(shè)置,主要是針對拼音字母的順序?qū)φw數(shù)據(jù)進行位置的索引。
6如權(quán)利要求4所述的智能的拼音輸入方法,其特征在于當(dāng)被檢索的資料量很大時,并不需要在第一次時就檢索出所有符合條件的記錄,而是先取出其中的一部份將其放入緩沖區(qū)中,如果此時緩沖區(qū)中已存有使用者所要的資料,則將該資料遞交給使用者,然后再將后續(xù)檢索得到的記錄放入緩沖區(qū)中,這樣就能加快每次取出記錄的速度,所有的檢索操作都會針對這個緩沖區(qū)中已置入的記錄進行查核。
7如權(quán)利要求1所述的智能的拼音輸入方法,其特征在于存儲資料的數(shù)據(jù)庫和檢索的算法分離,他們之間通過特定的接口進行溝通。
8如權(quán)利要求7所述的智能的拼音輸入方法,其特征在于所述的接口,就是管理數(shù)據(jù)模塊的接口,或者是借助于輔助表格之后達(dá)到共同的外部訪問接口。
9如權(quán)利要求8所述的智能的拼音輸入方法,其特征在于接口是允許用戶進行擴充的。
全文摘要
本發(fā)明涉及針對專業(yè)詞匯數(shù)據(jù)庫的漢字的拼音輸入方法。其包含存儲文字信息的數(shù)據(jù)庫,以及對應(yīng)的輸入、查詢數(shù)據(jù)方式,特征在于將經(jīng)常使用的專業(yè)詞匯或者特殊用語作為固定詞匯編碼,并錄入到數(shù)據(jù)庫中;同時采用輸入漢字拼音的聲母(英文的輔音字母)作為檢索途徑。該方法能夠針對經(jīng)常使用的專業(yè)詞匯和特殊詞匯通過簡單的方式迅速輸入、查詢,并反饋回來。
文檔編號G06F3/023GK1504864SQ0215358
公開日2004年6月16日 申請日期2002年11月28日 優(yōu)先權(quán)日2002年11月28日
發(fā)明者張炎竹, 黃志佳, 林家成, 蔡榮華, 孫貴明 申請人:深圳麥?zhǔn)客萍加邢薰?br>