亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種智能組詞輸入的方法和一種輸入法系統(tǒng)及其更新方法

文檔序號:6574178閱讀:630來源:國知局
專利名稱:一種智能組詞輸入的方法和一種輸入法系統(tǒng)及其更新方法
技術(shù)領(lǐng)域
本發(fā)明涉及輸入法系統(tǒng)數(shù)據(jù)處理領(lǐng)域,特別是涉及一種智能組詞輸入的方法、一種輸入法系統(tǒng)、一種生成多元表的裝置以及一種更新輸入法系統(tǒng)的方法。
背景技術(shù)
當前的輸入法系統(tǒng)(包括中文、日文以及韓文等等)都不可避免地存在相同編碼對應(yīng)多個候選詞的問題,以拼音輸入法為例,如拼音加加輸入法、紫光華宇拼音輸入法等,這種現(xiàn)有的輸入法都是基于其詞庫以及詞庫中的詞頻(字詞的使用頻度)來為用戶在信息輸入過程中提供候選詞的排序,優(yōu)先顯示詞頻最高的常用字詞,即首選詞。候選詞的排序是用戶在信息輸入過程中首選詞命中率高低的一個重要指標。所述首選詞命中率是指,當用戶輸入一定的鍵盤信息后,排序在前的字、詞或句是用戶最需要的。例如,輸入拼音“guan xi tui 1i”(關(guān)系推理),所述現(xiàn)有的輸入法會根據(jù)拼音“guan xi”獲取詞庫中所有的候選詞,如“關(guān)系”、“盥洗”和“關(guān)西”等,然后優(yōu)先顯示詞頻最高的常用詞“關(guān)系”為首選詞,同時,根據(jù)“tui li”獲取詞庫中詞頻最高的詞“推理”為首選詞,組成“關(guān)系推理”提供給用戶輸入。在此例中,首選詞的命中率是100%,即完全符合用戶的需要。
當然,從技術(shù)上講,輸入法系統(tǒng)本身是無法知悉哪個字詞是用戶最需要的,但是在浩如煙海的中文字詞中,各個字詞的使用和出現(xiàn)頻率是不同的,將出現(xiàn)頻率較高的字詞排序在前就可以大大提高輸入法系統(tǒng)的首選詞命中率,即可以從概率上提高排序在前的字詞滿足用戶需要的可能性。
然而,如果用戶所需要的字詞并不對應(yīng)于詞頻最高的字詞,例如,用戶輸入“zi zhu xue xiao”(資助學(xué)校),而輸入法對應(yīng)地獲取到詞頻最高的詞為“自主學(xué)校”,在這種情況下,就需要用戶在所有候選詞中選擇“資助”,以獲得所需要的結(jié)果。在實際中,用戶采用現(xiàn)有的輸入法通過選擇候選詞獲得需要的結(jié)果的機率比直接獲取到有效首選詞的機率要高得多,這就表明,現(xiàn)有輸入法的首選詞命中率并不高,從而導(dǎo)致用戶的輸入速度減慢,輸入效率降低,用戶體驗差。
對于上述問題,現(xiàn)有技術(shù)提出了以下兩種解決辦法第一種、增加所述輸入法詞庫中的字詞;在這種情況下,所述輸入法的詞庫中需要增加足夠多的字詞,才能達到相應(yīng)的效果。例如,如果用戶想要輸入“智能組詞”,則必須在詞庫中存儲“智能”、“組詞”和“智能組詞”三個詞,甚至可能還必須存儲“智能組”這種沒有具體含義的詞。對于一些多個詞組成的詞組或句子,所需要添加的詞將更多。這樣一來,詞庫會越來越臃腫,同時會占用更多的空間、浪費更多的資源。
第二種、應(yīng)用NLP(Nature Language Process自然語言處理)技術(shù)。
在所述輸入法系統(tǒng)中應(yīng)用這種技術(shù)可以通過詞性、句法分析等方式提高首選詞命中率,例如,微軟拼音輸入法就應(yīng)用了一種NLP技術(shù),該技術(shù)把N-gram統(tǒng)計語言模型與語言規(guī)則結(jié)合起來共同指導(dǎo)拼音流到文字流的轉(zhuǎn)換過程,主要根據(jù)《現(xiàn)代漢語語法信息詞典詳解》和《同義詞詞林》的語法語義分類體系,通過總結(jié)各種詞性之間的語法語義,以及人工編輯這些詞類之間的搭配規(guī)則和相應(yīng)的屬性詞匯集來體現(xiàn)。
然而,實現(xiàn)這種輸入法系統(tǒng)需要本領(lǐng)域技術(shù)人員基于固定語料庫進行分析和編輯,技術(shù)實現(xiàn)過程復(fù)雜且繁瑣;并且所述固定語料庫也不能進行任意更新,導(dǎo)致用戶體驗差;此外,這種輸入法系統(tǒng)需要占用較大的空間,比如微軟拼音輸入法,其安裝包的大小就超過了70兆,使用門檻較高,浪費用戶的系統(tǒng)資源。
因此,現(xiàn)階段需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是,如何在盡可能地節(jié)約資源的情況下,提高輸入法系統(tǒng)對于多個字詞、詞組、短語、短句或長句的首選詞命中率。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種智能組詞輸入的方法和一種輸入法系統(tǒng),以解決現(xiàn)有技術(shù)中對于多個字詞、詞組、短語、短句或長句的首選詞命中率不高、資源占用過多等問題。
本發(fā)明的另一個目的是提供了一種生成多元表的方法以及一種更新輸入法系統(tǒng)的方法,以保證輸出字詞的準確性、代表性和全面性,從而提高用戶輸入多個字詞、詞組、短語、短句或長句的首選詞命中率,進而有效提高了用戶的輸入效率。
為了解決上述技術(shù)問題,本發(fā)明實施例公開了一種智能組詞輸入的方法,包括從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;根據(jù)所述組合信息生成多元表;接收用戶輸入的編碼字符串,并對所述編碼字符串進行切分;根據(jù)所述切分后的編碼字符串在所述多元表中獲取對應(yīng)的組合信息,并提取所述組合信息中相應(yīng)搭配關(guān)系的對應(yīng)字詞為候選字詞。
優(yōu)選的是,所述的方法,還包括根據(jù)所述候選字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算同現(xiàn)概率,以及,根據(jù)所述同現(xiàn)概率進行排序,并將排序結(jié)果作為候選項輸出。
優(yōu)選的是,所述多元表存儲有同現(xiàn)概率,所述同現(xiàn)概率為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算獲得,所述的方法還包括根據(jù)所述候選字詞的同現(xiàn)概率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。
優(yōu)選的是,所述多元表存儲有連接強度值,所述連接強度值為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率和同現(xiàn)概率計算獲得,所述的方法還包括根據(jù)所述候選字詞的連接強度值以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。
優(yōu)選的是,所述的方法,還包括從輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞。
優(yōu)選的是,所述的方法,在生成多元表之前,還包括
如果一組合信息中的相鄰?fù)F(xiàn)頻率低于一定閾值,則去除該組合信息;如果一組合信息中的對應(yīng)字詞為兩個或者多個詞頻最高的字詞組成,則去除該組合信息;如果一條組合信息被另一條組合信息部分或全部覆蓋的,則去除該組合信息。
優(yōu)選的是,通過以下步驟預(yù)置所述互聯(lián)網(wǎng)語料庫通過網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)的網(wǎng)頁;選取符合預(yù)置條件的網(wǎng)頁信息,并保存形成互聯(lián)網(wǎng)語料庫。
優(yōu)選的是,所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。
優(yōu)選的是,所述的方法,在接收用戶輸入的編碼字符串之前還包括步驟將所述多元表加載至存儲設(shè)備中。
優(yōu)選的是,所述的方法,還包括對所述編碼字符串的切分方法進行優(yōu)化。
優(yōu)選的是,所述的方法,還包括根據(jù)用戶新增的編碼字符串在所述多元表中獲取對應(yīng)的組合信息。
本發(fā)明實施例還提供了一種輸入法系統(tǒng),所述輸入法系統(tǒng)包括輸入接口單元和顯示單元,還包括多元表所述多元表由至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息生成;所述組合信息從預(yù)置的互聯(lián)網(wǎng)語料庫中獲取,包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;切分單元用于對用戶輸入的編碼字符串進行切分;提取單元用于根據(jù)所述切分后的編碼字符串在所述多元表中獲取對應(yīng)的組合信息,并提取所述組合信息中相應(yīng)搭配關(guān)系的對應(yīng)字詞為候選字詞。
優(yōu)選的是,所述輸入法系統(tǒng)還包括第一輸出單元用于根據(jù)所述候選字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算同現(xiàn)概率,以及,根據(jù)所述同現(xiàn)概率進行排序,并將排序結(jié)果作為候選項輸出。
優(yōu)選的是,所述多元表存儲有同現(xiàn)概率,所述同現(xiàn)概率為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算獲得,所述輸入法系統(tǒng)還包括第二輸出單元用于根據(jù)所述候選字詞的同現(xiàn)概率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。
優(yōu)選的是,所述多元表存儲有連接強度值,所述連接強度值為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率和同現(xiàn)概率計算獲得,所述輸入法系統(tǒng)還包括第三輸出單元用于根據(jù)所述候選字詞的連接強度值以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。
優(yōu)選的是,所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。
優(yōu)選的是,所述輸入法系統(tǒng)還包括加載單元用于將所述多元表加載至存儲設(shè)備中。
優(yōu)選的是,所述輸入法系統(tǒng)還包括切分優(yōu)化單元用于對所述編碼字符串的切分方法進行優(yōu)化。
優(yōu)選的是,所述輸入法系統(tǒng)還包括新增獲取單元用于根據(jù)用戶新增的編碼字符串在所述多元表中獲取對應(yīng)的組合信息。
優(yōu)選的是,所述輸入法系統(tǒng)的輸入接口單元、顯示單元以及多元表位于同一計算設(shè)備中;或者,所述輸入法系統(tǒng)的輸入接口單元、顯示單元位于第一計算設(shè)備中,多元表位于第二計算設(shè)備中,所述輸入法系統(tǒng)根據(jù)用戶輸入的信息,從位于第二計算設(shè)備的多元表中獲取相應(yīng)的組合信息,在第一計算設(shè)備顯示相應(yīng)字詞。
本發(fā)明實施例還提供了一種生成多元表的裝置,包括獲取模塊用于從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;生成模塊用于根據(jù)所述組合信息生成多元表。
優(yōu)選的是,所述的裝置,還包括選取模塊用于從輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞。
優(yōu)選的是,所述的裝置,還包括第一去除模塊用于當一組合信息中的相鄰?fù)F(xiàn)頻率低于一定閾值時去除該組合信息;和/或,第二去除模塊用于當一組合信息中的對應(yīng)字詞為兩個或者多個詞頻最高的字詞組成時去除該組合信息;和/或,第三去除模塊用于當一條組合信息被另一條組合信息部分或全部覆蓋時去除該組合信息。
優(yōu)選的是,所述的裝置,還包括網(wǎng)頁獲取模塊用于通過網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)的網(wǎng)頁;語料庫生成模塊用于選取符合預(yù)置條件的網(wǎng)頁信息,并保存形成互聯(lián)網(wǎng)語料庫。
優(yōu)選的是,所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。
本發(fā)明實施例還提供了一種更新輸入法系統(tǒng)的方法,包括更新互聯(lián)網(wǎng)語料庫;從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;根據(jù)所述組合信息生成多元表;將所述多元表發(fā)送至輸入法系統(tǒng)。
優(yōu)選的是,所述的方法,還包括從輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞。
優(yōu)選的是,所述的方法,在生成多元表之前,還包括如果一組合信息中的相鄰?fù)F(xiàn)頻率低于一定閾值,則去除該組合信息;如果一組合信息中的對應(yīng)字詞為兩個或者多個詞頻最高的字詞組成,則去除該組合信息;如果一條組合信息被另一條組合信息部分或全部覆蓋的,則去除該組合信息。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點首先,由于本發(fā)明以預(yù)置互聯(lián)網(wǎng)語料庫中為輸入法系統(tǒng)輸出字詞的基礎(chǔ),可以準確反映人們在語言使用上的趨勢,可以保證組合信息的準確性、代表性、全面性,從而提高用戶輸入多個字詞、詞組、短語、短句或長句的首選詞命中率,進而有效提高了用戶的輸入效率。
其次,本發(fā)明通過生成多元表作為輸出字詞的主要渠道,技術(shù)實現(xiàn)簡單、無特殊保密算法,并可以有效避免無效、重復(fù)的計算過程,有助于節(jié)約資源和提高效率;再者,本發(fā)明的互聯(lián)網(wǎng)語料庫可以由本領(lǐng)域技術(shù)人員任意設(shè)置、更新或更換,從而可以獲得不同的智能組詞版本,以滿足各種用戶的不同需求;此外,本發(fā)明通過設(shè)置過濾規(guī)則選擇有效的組合信息生成多元表,還可以避免多元表的冗余,有效節(jié)約了系統(tǒng)資源;最后,本發(fā)明還應(yīng)用了多種優(yōu)化策略,以避免系統(tǒng)無效、重復(fù)的計算過程,減輕系統(tǒng)負擔,從而有效提高了用戶的輸入效率。


圖1是本發(fā)明實施例在輸入法系統(tǒng)中智能組詞輸入的方法的流程圖;圖2是本發(fā)明一種智能組詞輸入方法的優(yōu)選實施例的流程圖;圖3是本發(fā)明的一種輸入法系統(tǒng)實施例的結(jié)構(gòu)框圖;圖4是本發(fā)明一種生成多元表的裝置實施例的結(jié)構(gòu)框圖;圖5是應(yīng)用圖4所示的生成多元表的裝置生成多元表的優(yōu)選實施例的流程圖;圖6是本發(fā)明更新輸入法系統(tǒng)的實施例1的流程圖;圖7是本發(fā)明更新輸入法系統(tǒng)的實施例2的流程圖。
具體實施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。
參照圖1,是本發(fā)明實施例在輸入法系統(tǒng)中智能組詞輸入的方法的流程圖,包括以下步驟步驟101、從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息;其中,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;步驟102、根據(jù)所述組合信息生成多元表;步驟103、接收用戶輸入的編碼字符串,并對所述編碼字符串進行切分;步驟104、根據(jù)所述切分后的編碼字符串在所述多元表中獲取對應(yīng)的組合信息,并提取所述組合信息中相應(yīng)搭配關(guān)系的對應(yīng)字詞為候選字詞。
隨著社會節(jié)奏的加快,文化沖突和融合的不斷進行,導(dǎo)致現(xiàn)代社會中許多詞匯的使用,采用現(xiàn)有的固定語料庫已經(jīng)遠遠不能涵蓋了,尤其隨著互聯(lián)網(wǎng)的普及,導(dǎo)致信息迅速膨脹,上述問題越來越突出了。由于固定語料庫的規(guī)模較小,內(nèi)容固定,形成的時間較早,更新很慢,根據(jù)其得來的字詞頻率不符合互聯(lián)網(wǎng)使用的活躍性,例如“頂”、“網(wǎng)游”、“財報”等互聯(lián)網(wǎng)常用詞匯使用的頻率相當高,但是在現(xiàn)有技術(shù)中,這些詞匯的一般的排序都比較靠后,與用戶需要頻繁使用這樣的需求不符。
在這種情況下,本實施例通過從預(yù)置互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息,即以公開、實時變化的互聯(lián)網(wǎng)信息為多元表的統(tǒng)計來源,當用戶輸入信息時,互聯(lián)網(wǎng)上使用頻率高的字詞能夠成為用戶輸入的首選詞或首頁候選詞,從而提高用戶的輸入速度和效率。
本領(lǐng)域技術(shù)人員可以根據(jù)需要任意預(yù)置所述互聯(lián)網(wǎng)語料庫,例如,預(yù)置所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫或互聯(lián)網(wǎng)論壇語料庫等等。可以理解的是,根據(jù)不同的互聯(lián)網(wǎng)語料庫可以獲得不同的組合信息,從而使用該輸入法系統(tǒng)獲得的輸出結(jié)果也有可能是不同的。優(yōu)選的是,所述互聯(lián)網(wǎng)語料庫還可以更換,以滿足各種用戶的不同需求。
所述基礎(chǔ)字詞可以來源于各種特定的封閉的文檔集合(例如,傳統(tǒng)新聞、報紙),本領(lǐng)域技術(shù)人員在實際中根據(jù)需要任意選擇即可。優(yōu)選的是,從輸入法系統(tǒng)的詞庫中獲取所述基礎(chǔ)字詞。可能的是,盡管輸入法系統(tǒng)的詞庫包括非常龐大的字詞信息,但事實上卻只有一部分是有效的字詞,即,使用頻度較高及常用的詞。還有一部分是生僻字詞或使用頻度非常低的字詞。如果基于輸入法系統(tǒng)的詞庫中所有基礎(chǔ)字詞進行計算,顯然,會導(dǎo)致計算量過大、重復(fù)計算過多等問題。
需要說明的是,本文中所述輸入法系統(tǒng)的詞庫可以為現(xiàn)有技術(shù)中的任一種詞庫或其組合,也可以為由本領(lǐng)域技術(shù)人員根據(jù)預(yù)置規(guī)則獲取的任一種詞庫,并且所述詞庫的存儲位置,例如,存在于服務(wù)器端或客戶端,本發(fā)明都無需要對此進行限定??梢岳斫猓F(xiàn)有技術(shù)中所述輸入法系統(tǒng)的系統(tǒng)詞庫、用戶自定義詞庫、通用詞庫、專業(yè)詞庫等都在本發(fā)明所述輸入法系統(tǒng)的詞庫范圍之內(nèi)。
因此,優(yōu)選的是,本實施例還可以包括步驟從所述輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞。例如,根據(jù)詞頻從高到低選取所述輸入法系統(tǒng)的詞庫中TOP60000的字詞。基于選取過的字詞進行后續(xù)處理,可以有效避免無效、重復(fù)的計算過程,有助于節(jié)約資源和提高效率。
然而,基于所述篩選的基礎(chǔ)字詞獲取的組合信息仍有可能包含冗余或無效的組合信息,例如,相鄰?fù)F(xiàn)頻率過低的組合信息、具有重復(fù)含義的組合信息或者被部分或全部覆蓋的組合信息等,優(yōu)選的是,在生成多元表之前,本實施例還包括一些優(yōu)化步驟,在下文中將對這些優(yōu)化步驟進行詳述。
需要說明的是,生成所述多元表的核心構(gòu)思之一在于將組合信息按照一定規(guī)則刪除低價值信息之后,保留高價值信息作為多元表的部分。根據(jù)組合信息生成的多元表是指行或列的變項為兩個或兩個以上的表。所述多元表的形式可以如下表所示

在上表中,第一列表示多個字詞之間的搭配關(guān)系,第二列表示這種字詞搭配的連接參數(shù),所述連接參數(shù)包括相鄰?fù)F(xiàn)頻率、同現(xiàn)概率或連接強度值等。其中,所述相鄰?fù)F(xiàn)頻率可從預(yù)置的互聯(lián)網(wǎng)語料庫中統(tǒng)計獲得,所述同現(xiàn)概率可由所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率以及詞庫中已有字詞的詞頻計算獲得,所述連接強度值可由根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率和同現(xiàn)概率計算獲得。當然,所述連接參數(shù)可以是任一種表明字詞之間連接關(guān)系的數(shù)值,本發(fā)明對此并不加以限制,此外,所述多元表的形式可以根據(jù)需要任意設(shè)置,本發(fā)明對此也不需要進行限定。
在實際中,還可以將所述多元表打包存儲至所述輸入法系統(tǒng)中,用以提供給用戶下載到本地安裝使用。本領(lǐng)域技術(shù)人員可以根據(jù)需要、或者根據(jù)經(jīng)驗選擇任一種存儲方式進行存儲,對此本發(fā)明并不加以限定。例如,將所述組合信息及其加權(quán)值按照詞序增量存儲到一個文件中,其中,所述加權(quán)值可以根據(jù)相鄰?fù)F(xiàn)頻率配置,相鄰?fù)F(xiàn)頻率越大,則該加權(quán)值越大。然后用通用壓縮算法,如RAR壓縮算法、ZIP壓縮算法等將所述文件打包存儲至所述輸入法系統(tǒng)中。
在接收用戶輸入的編碼字符串之前,優(yōu)選的是,本實施例還可以包括步驟將所述多元表加載至存儲設(shè)備中。在這種情況下,如果用戶在本地計算機啟動所述輸入法系統(tǒng),則會將所述多元表加載至內(nèi)存中,從而提高輸入法系統(tǒng)的應(yīng)用性能。一旦加載后,隨后對數(shù)據(jù)的讀操作全部在內(nèi)存中進行,無需硬盤操作,從而可以有效提高用戶的輸入速度和效率。如果輸入法系統(tǒng)為網(wǎng)絡(luò)輸入法系統(tǒng),當用戶使用時,則會將所述多元表加載至服務(wù)器的存儲設(shè)備中,隨后對數(shù)據(jù)的讀操作全部基于該服務(wù)器的存儲設(shè)備進行。
當用戶使用該輸入法系統(tǒng)時,該輸入法系統(tǒng)會對用戶輸入的編碼字符串進行切分,所述切分可以通過采用現(xiàn)有技術(shù)中的任一切分方法實現(xiàn),本發(fā)明對此不需要進行限定。
優(yōu)選的是,本實施例還可以采用一些優(yōu)化策略對所述輸入法系統(tǒng)進行優(yōu)化。以下以幾種優(yōu)選的優(yōu)化策略為例進行說明。
優(yōu)化策略A對所述編碼字符串的切分方法進行優(yōu)化。例如,采用分支定界法對切分方法進行剪枝。
分支定界法的工作原理是首先確定目標值的上下界,邊搜索邊減掉搜索樹的某些枝,提高搜索效率。應(yīng)用到本發(fā)明的實施例中,對于一個編碼字符串,有很多種切分的方法,對于每一個切分方法,每個編碼也有很多種可能的字詞的選擇,如果全部計算,計算量將是個天文數(shù)字。在這種情況下,采用所述分支定界法對每一種可能的字詞的切分方法進行概率計算,如果發(fā)現(xiàn)這種切分方法最優(yōu)的可能性微乎其微,就終止當前的計算,選擇下一種可能。通過所述優(yōu)化策略A可以有效減少計算量,保證系統(tǒng)在指定時間范圍內(nèi)輸出結(jié)果,從而有效提高了系統(tǒng)的處理效率。
當然,本領(lǐng)域技術(shù)人員可以根據(jù)需要、或者根據(jù)經(jīng)驗預(yù)置各種優(yōu)化策略,對此本發(fā)明并不加以限定。
優(yōu)選的是,在本實施例中還可以包括步驟根據(jù)所述候選字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算同現(xiàn)概率,以及,根據(jù)所述同現(xiàn)概率進行排序,并將排序結(jié)果作為候選項輸出。當然,所述排序還可以根據(jù)需要附加其它條件,對此本發(fā)明不需要進行限定。
以下以一種優(yōu)選的同現(xiàn)概率計算方法為例P(w1,w2,w3,...,wn)=P(w1)*P(w2)*...*P(wn)*P(w1,w2)*P(w2,w3)*...*P(wn-1,wn);其中,wn為一個基礎(chǔ)字詞,P(wn)為該基礎(chǔ)字詞的概率,P(wn-1,wn)為兩個相鄰基礎(chǔ)字詞之間的搭配關(guān)系的概率??梢缘弥?,本實施例對于兩個或兩上以上的基礎(chǔ)字詞,會考慮任意兩個相鄰的基礎(chǔ)字詞之間的搭配關(guān)系,然后計算所有概率的乘積。
例如,對于兩個基礎(chǔ)字詞A和B,則其同現(xiàn)概率為A的概率、B的概率以及AB同時出現(xiàn)的概率的乘積;對于三個基礎(chǔ)字詞A、B和C,則其同現(xiàn)概率為A、AB、B、BC、C的概率的乘積。
上述算法是統(tǒng)計同現(xiàn)概率的一種算法,本領(lǐng)域技術(shù)人員也可以根據(jù)需要和經(jīng)驗采用其它方法,如直接存儲N元矩陣的方法等。上述方法僅僅用于舉例,本發(fā)明并不限于上述幾種方法。
作為另一實施例,當所述多元表中存儲有同現(xiàn)概率時,本實施例可以包括步驟根據(jù)所述候選字詞的同現(xiàn)概率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。其中,優(yōu)選的是,所述同現(xiàn)概率為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算獲得,所述同現(xiàn)概率的獲得方法可以采用上例中的方法,也可以采用現(xiàn)有技術(shù)中的其它方法,本發(fā)明對此不作限制。
作為另一實施例,當所述多元表中存儲有連接強度值時,本實施例可以包括步驟根據(jù)所述候選字詞的連接強度值以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。其中,優(yōu)選的是,所述連接強度值為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率和同現(xiàn)概率計算獲得。
當然,所述多元表中還可以存儲其它任一種表明字詞之間連接關(guān)系的數(shù)值,本領(lǐng)域技術(shù)人員根據(jù)經(jīng)驗或需要選用即可,本發(fā)明對此并不加以限制。
一種可能的情況是,用戶在原始輸入的編碼字符串的基礎(chǔ)上新增輸入編碼字符串,針對這種情況,本實施例還可以應(yīng)用優(yōu)化策略B僅根據(jù)用戶新增的編碼字符串在所述多元表中獲取對應(yīng)的組合信息;使系統(tǒng)的計算僅限于更改部分,避免系統(tǒng)重復(fù)操作。例如,用戶輸入拼音編碼字符串zhongguorenminjiefang(中國人民解放),此時用戶再輸入字母j,則采用優(yōu)化策略B只根據(jù)用戶新增的字母“j”在所述多元表中獲取對應(yīng)的組合信息(如“軍”、“君”、“機”等),而無需再重復(fù)獲取前面的拼音編碼字符串“zhongguorenminjiefang”對應(yīng)的組合信息。
為了提高輸入法系統(tǒng)的有效利用率,本實施例還可以應(yīng)用優(yōu)化策略C預(yù)置系統(tǒng)的計算時間,如100ms或50ms,用以控制系統(tǒng)在所述預(yù)置時間內(nèi)完成計算,如果超過了所述預(yù)置時間系統(tǒng)尚未計算完成,則將已完成部分的計算結(jié)果上屏顯示。例如,用戶輸入拼音編碼字符串“renshengzigushuiwusi”,當超過50ms時,本發(fā)明的輸入法系統(tǒng)僅獲取到“renshengzigushuiwu”對應(yīng)的候選字詞為“人生自古誰無”、“人生”、“人聲”、“認生”等,但對于“si”的計算尚未完成,在應(yīng)用所述優(yōu)化策略C時,則本發(fā)明的輸入法系統(tǒng)僅將上述已獲取到的候選字詞上屏顯示。這種處理方式的核心思想之一在于將輸入法系統(tǒng)的后臺處理和前臺控制分離開來進行處理,這樣就可以保證將所述輸入法系統(tǒng)安裝在不同機器上或者同一機器的不同負載下的效果是一樣的。
優(yōu)選的是,所述優(yōu)化策略A、B和C在輸入法系統(tǒng)中組合使用。當然,本領(lǐng)域技術(shù)人員可以僅僅采用一種優(yōu)化策略,也可以采用多種;在多種優(yōu)化策略中,可以進行任意組合。此外,本領(lǐng)域技術(shù)人員還可以根據(jù)需要自行設(shè)定其它各種優(yōu)化策略,本發(fā)明對此不作限制。
為了使所述輸入法系統(tǒng)便于網(wǎng)絡(luò)傳輸、減少用戶的內(nèi)存資源占用以及提高系統(tǒng)處理效率,在本實施例中還可以將所述多元表中的組合信息與所述輸入法系統(tǒng)的詞庫中的字詞進行比對;如果所述詞庫中存在與所述組合信息重復(fù)的字詞,則在輸入法詞庫中去除該字詞。例如,對于拼音shangwuhuiyi,對應(yīng)的組合信息為“商務(wù)會議”、“上午會議”、“晌午回憶”、“上午回憶”、“商務(wù)會意”等;如果在輸入法系統(tǒng)的詞庫中有一條對應(yīng)的字詞為“商務(wù)會議”,則與組合信息中的“商務(wù)會議”重復(fù),在這種情況下,可以把詞庫中的“商務(wù)會議”清除。
參考圖2,是本發(fā)明一種智能組詞輸入方法的優(yōu)選實施例的流程圖,包括預(yù)置步驟和輸入步驟,具體地說,包括一、預(yù)置步驟步驟201、通過網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)的網(wǎng)頁;例如,通過幾十臺網(wǎng)絡(luò)爬蟲服務(wù)器,按照網(wǎng)站域名列表,實時抓取互聯(lián)網(wǎng)中近40億的最新網(wǎng)頁,這些互聯(lián)網(wǎng)網(wǎng)頁中可以包括網(wǎng)絡(luò)新聞,論壇,博客,聊天室等等網(wǎng)絡(luò)內(nèi)容。
步驟202、選取符合預(yù)置條件的網(wǎng)頁信息,并保存形成互聯(lián)網(wǎng)語料庫;例如,選擇4000萬互聯(lián)網(wǎng)網(wǎng)頁,原始語料規(guī)模超過1Terabyte的海量網(wǎng)絡(luò)頁面語料庫為所述互聯(lián)網(wǎng)語料庫。
由于本實施例以公開、實時變化的互聯(lián)網(wǎng)信息為輸出字詞的基礎(chǔ),生成的多元表可以準確反映人們在語言使用上的趨勢,可以保證組合信息的準確性、代表性和全面性,從而提高用戶輸入多個字詞、詞組、短語、短句或長句的首選詞命中率,進而有效提高了用戶的輸入效率。
當然,本領(lǐng)域技術(shù)人員可以根據(jù)需要或者根據(jù)經(jīng)驗選擇任一種方法來預(yù)置所述互聯(lián)網(wǎng)語料庫,對此本發(fā)明并不加以限定。并且所述預(yù)置互聯(lián)網(wǎng)語料庫的方法也可以為更新互聯(lián)網(wǎng)語料庫的方法,例如,將所述互聯(lián)網(wǎng)語料庫更新為新聞?wù)Z料庫、博客語料庫或者論壇語料庫等,本發(fā)明對此亦不作限制。
步驟203、從輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞;例如,根據(jù)詞頻從高到低選取所述輸入法系統(tǒng)的詞庫中TOP60000的字詞。
步驟204、從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息;
其中,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;步驟205、如果一組合信息中的相鄰?fù)F(xiàn)頻率低于一定閾值,則去除該組合信息;例如,如果一組合信息的相鄰?fù)F(xiàn)頻率低于0.001的組合信息,則去除這條組合信息。去除相鄰?fù)F(xiàn)頻率較低的閾值并不影響用戶的一般操作,但能很好地節(jié)省系統(tǒng)資源,減輕系統(tǒng)負擔,從而有效提高系統(tǒng)的處理效率。
步驟206、如果一組合信息中的對應(yīng)字詞為兩個或者多個詞頻最高的字詞組成,則去除該組合信息;例如,對于拼音qinghuadaxuebiye;獲取到的組合信息為清華大學(xué)畢業(yè),然而在輸入法系統(tǒng)的詞庫中對于拼音“qinghua”對應(yīng)的首選詞為“清華”;對于拼音“daxue”對應(yīng)的首選詞為“大學(xué)”;對于拼音“biye”對應(yīng)的首選詞為“畢業(yè)”,在這種情況下,即使該組合信息不存在,也不會影響其首選效果,因此可以將該組合信息去除。
步驟207、如果一條組合信息被另一條組合信息部分或全部覆蓋的,則去除該組合信息;例如,對于拼音wohenkaixin;獲取到的組合信息為我很開心,如果對于拼音henkaixin,已有的一條組合信息為很開心;由于拼音“wo”在輸入法系統(tǒng)的詞庫中已有的首選詞是“我”,那么可以得出,“很開心”這條組合信息可以部分覆蓋“我很開心”這條組合信息,在這種情況下,即使“我很開心”這條組合信息不存在,也不會影響其首選效果,因此可以將該組合信息去除??梢岳斫獾氖?,對于完全重復(fù)的組合信息也可以去除。
通過上述步驟205-步驟207,可以有效避免組合信息中的冗余信息和無效信息,有助于減輕系統(tǒng)負擔、節(jié)省系統(tǒng)空間和資源、提高系統(tǒng)的有效利用率。
需要說明的是,上述步驟205-步驟207可以根據(jù)需要單獨設(shè)置或任意組合設(shè)置,也就是說,本領(lǐng)域技術(shù)人員可以僅僅采用單獨一個步驟,也可以采用多個步驟;在上述步驟中,可以進行任意組合,也沒有順序限制。此外,本領(lǐng)域技術(shù)人員還可以根據(jù)需要自行設(shè)定其它各種預(yù)置規(guī)則,本發(fā)明對此不作限制。例如,可能的其它選取規(guī)則為去除字符串長度小于或者等于預(yù)置閾值的組合信息(用戶無意輸入等)等。
步驟208、根據(jù)篩選出的組合信息生成多元表。
二、輸入步驟步驟209、將所述多元表加載至存儲設(shè)備中;步驟210、接收用戶輸入的編碼字符串,并對所述編碼字符串進行切分;在此還可以通過切分優(yōu)化單元對所述編碼字符串的切分方法進行優(yōu)化,例如,采用分支定界法對切分方法進行剪枝。
步驟211、根據(jù)所述切分后的編碼字符串在所述多元表中獲取對應(yīng)的組合信息,并提取所述組合信息中相應(yīng)搭配關(guān)系的對應(yīng)字詞為候選字詞。
如果用戶在原始輸入的編碼字符串的基礎(chǔ)上新增輸入編碼字符串,則本實施例還可以根據(jù)用戶新增的編碼字符串在所述多元表中獲取對應(yīng)的組合信息。使系統(tǒng)的處理僅限于更改部分,避免系統(tǒng)重復(fù)操作。
步驟212、根據(jù)所述候選字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算同現(xiàn)概率;步驟213、根據(jù)所述同現(xiàn)概率進行排序,并將排序結(jié)果作為候選項輸出。
作為另一實施例,當所述多元表中存儲有同現(xiàn)概率時,所述步驟212和步驟213可以為根據(jù)所述候選字詞的同現(xiàn)概率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值;根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。
作為另一實施例,當所述多元表中存儲有連接強度值時,所述步驟212和步驟213可以為根據(jù)所述候選字詞的連接強度值以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值;根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。
對于圖2所示的方法描述未詳盡之處可以參見本說明書前面相應(yīng)部分的描述。
參考圖3,是本發(fā)明的一種輸入法系統(tǒng)實施例的結(jié)構(gòu)框圖,包括輸入接口單元301和顯示單元302;所述輸入法系統(tǒng)還包括
多元表303所述多元表由至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息生成;所述組合信息從預(yù)置的互聯(lián)網(wǎng)語料庫中獲取,包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;切分單元304用于對用戶輸入的編碼字符串進行切分;提取單元305用于根據(jù)所述切分后的編碼字符串在所述多元表中獲取對應(yīng)的組合信息,并提取所述組合信息中相應(yīng)搭配關(guān)系的對應(yīng)字詞為候選字詞。
優(yōu)選的是,所述輸入法系統(tǒng)還包括第一輸出單元用于根據(jù)所述候選字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算同現(xiàn)概率,以及,根據(jù)所述同現(xiàn)概率進行排序,并將排序結(jié)果作為候選項輸出。
作為另一實施例,當所述多元表中存儲有同現(xiàn)概率時,所述輸入法系統(tǒng)還包括第二輸出單元用于根據(jù)所述候選字詞的同現(xiàn)概率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。其中,所述同現(xiàn)概率為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算獲得。
作為另一實施例,當所述多元表中存儲有連接強度值時,所述輸入法系統(tǒng)還包括第三輸出單元用于根據(jù)所述候選字詞的連接強度值以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。其中,所述連接強度值為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率和同現(xiàn)概率計算獲得。
當然,所述多元表中還可以存儲其它任一種表明字詞之間連接關(guān)系的數(shù)值,本領(lǐng)域技術(shù)人員根據(jù)經(jīng)驗或需要選用即可,本發(fā)明對此并不加以限制。
優(yōu)選的是,所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。
本實施例通過以互聯(lián)網(wǎng)語料庫為輸入法系統(tǒng)輸出字詞的基礎(chǔ),生成的組合信息可以準確反映人們在語言使用上的趨勢,可以保證組合信息的準確性、代表性和全面性,從而提高用戶輸入多個字詞、詞組、短語、短句或長句的首選詞命中率,進而有效提高了用戶的輸入效率。
優(yōu)選的是,所述輸入法系統(tǒng)還可以包括加載單元用于將所述多元表加載至存儲設(shè)備中。該存儲設(shè)備可以為客戶端的存儲設(shè)備,也可以為服務(wù)器端的存儲設(shè)備。
為了避免本實施例中無效、重復(fù)的計算過程,有效節(jié)約系統(tǒng)資源、提高系統(tǒng)的處理效率,所述輸入法系統(tǒng)還可以包括以下系統(tǒng)優(yōu)化單元切分優(yōu)化單元用于對所述編碼字符串的切分方法進行優(yōu)化;和/或,新增獲取單元用于根據(jù)新增的編碼字符串在所述多元表中獲取對應(yīng)的組合信息。
上述系統(tǒng)優(yōu)化單元也可以根據(jù)需要任意組合使用,本領(lǐng)域技術(shù)人員可以僅僅使用一個系統(tǒng)優(yōu)化單元,也可以采用多個系統(tǒng)優(yōu)化單元;并且在所述多個系統(tǒng)優(yōu)化單元中,可以進行任意組合。此外,本領(lǐng)域技術(shù)人員還可以根據(jù)需要自行設(shè)定其它各種系統(tǒng)優(yōu)化單元,本發(fā)明對此不作限制。
為了使所述輸入法系統(tǒng)便于網(wǎng)絡(luò)傳輸、減少用戶的內(nèi)存資源占用以及提高系統(tǒng)處理效率,在本實施例中還可以將所述多元表中的組合信息與所述輸入法系統(tǒng)的詞庫中的字詞進行比對;如果所述詞庫中存在與所述組合信息重復(fù)的字詞,則在輸入法詞庫中去除該字詞。從而使得生成的輸入法系統(tǒng)安裝包文件較小,極大地降低了用戶使用門檻,減少了用戶存儲空間的占用,并有效提高了系統(tǒng)的使用效率。
圖3所示的輸入法系統(tǒng)可以為普通輸入法系統(tǒng),在這種情況下,所述輸入法系統(tǒng)的輸入接口單元、顯示單元以及多元表位于同一計算設(shè)備中;圖3所示的輸入法系統(tǒng)也可以為網(wǎng)絡(luò)輸入法系統(tǒng),在這種情況下,所述輸入法系統(tǒng)的輸入接口單元、顯示單元位于第一計算設(shè)備中,多元表位于第二計算設(shè)備中,所述輸入法系統(tǒng)根據(jù)用戶輸入的信息,從位于第二計算設(shè)備的多元表中獲取相應(yīng)的組合信息,在第一計算設(shè)備顯示相應(yīng)字詞。
由于圖3所示的系統(tǒng)可以對應(yīng)適用于前述的各種方法的實施例中,所以描述較為簡略,未詳盡之處可以參見本說明書前面相應(yīng)部分的描述。
參考圖4,是本發(fā)明一種生成多元表的裝置實施例的結(jié)構(gòu)框圖,包括以下模塊
獲取模塊401用于從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息;其中,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;生成模塊402用于根據(jù)所述組合信息生成多元表。
為了避免無效、重復(fù)的計算過程,優(yōu)選的是,本實施例的裝置還可以包括選取模塊403用于從輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞。
基于本發(fā)明所述多元表的核心構(gòu)思之一,將組合信息按照一定規(guī)則刪除低價值信息之后,保留高價值信息作為多元表的部分。優(yōu)選的是,本實施例的裝置還可以包括第一去除模塊404用于當一組合信息中的相鄰?fù)F(xiàn)頻率低于一定閾值時去除該組合信息;和/或,第二去除模塊405用于當一組合信息中的對應(yīng)字詞為兩個或者多個詞頻最高的字詞組成時去除該組合信息;和/或,第三去除模塊406用于當一條組合信息被另一條組合信息部分或全部覆蓋時去除該組合信息。上述去除模塊404-406可以根據(jù)需要單個或組合使用,本發(fā)明對此不作限制。
為了使生成的多元表可以準確反映人們在語言使用上的趨勢,可以保證組合信息的代表性、全面性,從而提高用戶輸入多個字詞、詞組、短語、短句或長句的首選詞命中率,優(yōu)選的是,本實施例的裝置還可以包括網(wǎng)頁獲取模塊407用于通過網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)的網(wǎng)頁;和語料庫生成模塊408用于選取符合預(yù)置條件的網(wǎng)頁信息,并保存形成互聯(lián)網(wǎng)語料庫。更為優(yōu)選的是,所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。并可以由本領(lǐng)域技術(shù)人員任意設(shè)置、更新以及更換,對此本發(fā)明并不需要進行限定。
參考圖5,是應(yīng)用圖4所示的生成多元表的裝置生成多元表的優(yōu)選實施例的流程圖,包括以下步驟步驟501、所述網(wǎng)頁獲取模塊通過網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)的網(wǎng)頁;步驟502、所述語料庫生成模塊選取符合預(yù)置條件的網(wǎng)頁信息,并保存形成互聯(lián)網(wǎng)語料庫;其中,所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。還可以由本領(lǐng)域技術(shù)人員任意設(shè)置、更新以及更換。
步驟503、所述選取模塊從輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞;例如,根據(jù)詞頻從高到低選取所述輸入法系統(tǒng)的詞庫中TOP60000的字詞。
步驟504、所述獲取模塊從預(yù)置的互聯(lián)網(wǎng)語料庫中獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息;其中,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;步驟505、當一組合信息中的相鄰?fù)F(xiàn)頻率低于一定閾值時,由所述第一去除模塊去除該組合信息;步驟506、當一組合信息中的對應(yīng)字詞為兩個或者多個詞頻最高的字詞組成時,由所述第二去除模塊去除該組合信息;步驟507、當一條組合信息被另一條組合信息部分或全部覆蓋時,由所述第三去除模塊去除該組合信息;步驟508、所述生成模塊根據(jù)篩選出的組合信息生成多元表。
由于圖5所示的方法可以對應(yīng)適用于前述的各種方法和系統(tǒng)的實施例中,所以描述較為簡略,未詳盡之處可以參見本說明書前面相應(yīng)部分的描述。
參考圖6,是本發(fā)明更新輸入法系統(tǒng)的實施例1的流程圖,包括以下步驟步驟601、更新互聯(lián)網(wǎng)語料庫;本領(lǐng)域技術(shù)人員可以根據(jù)經(jīng)驗和需要選擇任一種更新互聯(lián)網(wǎng)語料庫的算法,本實施例在此不作限制。
優(yōu)選的是,所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。還可以由本領(lǐng)域技術(shù)人員任意設(shè)置、更新以及更換。
步驟602、從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息;
其中,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率。
步驟603、根據(jù)所述組合信息生成多元表;步驟604、將所述多元表發(fā)送至所述輸入法系統(tǒng)。
參考圖7,是本發(fā)明一種更新輸入法系統(tǒng)的實施例2的流程圖,包括以下步驟步驟701、更新互聯(lián)網(wǎng)語料庫;其中,所述互聯(lián)網(wǎng)語料庫可以為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。還可以由本領(lǐng)域技術(shù)人員任意設(shè)置、更新以及更換。
步驟702、從輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞;例如,根據(jù)詞頻從高到低選取所述輸入法系統(tǒng)的詞庫中TOP60000的字詞。
步驟703、從所述互聯(lián)網(wǎng)語料庫中獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息;其中,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率。
步驟704、如果一組合信息中的相鄰?fù)F(xiàn)頻率低于一定閾值,則去除該組合信息;步驟705、如果一組合信息中的對應(yīng)字詞為兩個或者多個詞頻最高的字詞組成,則去除該組合信息;步驟706、如果一條組合信息被另一條組合信息部分或全部覆蓋的,則去除該組合信息;步驟707、根據(jù)篩選出的組合信息生成多元表;步驟708、將所述多元表發(fā)送至所述輸入法系統(tǒng)。
作為另一實施例,所述步驟704-步驟706可以根據(jù)需要單獨設(shè)置或組合設(shè)置,本發(fā)明對此不需要進行限定。
在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見前述部分的相關(guān)描述即可。上述隨意舉出了本發(fā)明的幾種實施例,本領(lǐng)域技術(shù)人員根據(jù)具體情況適當組合、選擇,可以充分地發(fā)揮本發(fā)明的技術(shù)功效?;谏鲜鰧嵤├娜我饨M合都是本發(fā)明的實施方案,但是由于篇幅限制,本說明書在此就不一一詳述了。
由于圖6和圖7所示的方法都可以對應(yīng)適用于前述的各種方法和系統(tǒng)的實施例中,所以描述較為簡略,未詳盡之處可以參見本說明書前面相應(yīng)部分的描述。
以上對本發(fā)明所提供的一種智能組詞的方法、一種輸入法系統(tǒng)、一種生成多元表的裝置及一種更新輸入法系統(tǒng)的方法進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1.一種智能組詞輸入的方法,其特征在于,包括從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;根據(jù)所述組合信息生成多元表;接收用戶輸入的編碼字符串,并對所述編碼字符串進行切分;根據(jù)所述切分后的編碼字符串在所述多元表中獲取對應(yīng)的組合信息,并提取所述組合信息中相應(yīng)搭配關(guān)系的對應(yīng)字詞為候選字詞。
2.如權(quán)利要求1所述的方法,其特征在于,還包括根據(jù)所述候選字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算同現(xiàn)概率,以及,根據(jù)所述同現(xiàn)概率進行排序,并將排序結(jié)果作為候選項輸出。
3.如權(quán)利要求1所述的方法,其特征在于,所述多元表存儲有同現(xiàn)概率,所述同現(xiàn)概率為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算獲得,所述的方法還包括根據(jù)所述候選字詞的同現(xiàn)概率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。
4.如權(quán)利要求1所述的方法,其特征在于,所述多元表存儲有連接強度值,所述連接強度值為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率和同現(xiàn)概率計算獲得,所述的方法還包括根據(jù)所述候選字詞的連接強度值以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。
5.如權(quán)利要求1所述的方法,其特征在于,還包括從輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞。
6.如上述任一項權(quán)利要求所述的方法,其特征在于,在生成多元表之前,還包括如果一組合信息中的相鄰?fù)F(xiàn)頻率低于一定閾值,則去除該組合信息;如果一組合信息中的對應(yīng)字詞為兩個或者多個詞頻最高的字詞組成,則去除該組合信息;如果一條組合信息被另一條組合信息部分或全部覆蓋的,則去除該組合信息。
7.如上述任一項權(quán)利要求所述的方法,其特征在于,通過以下步驟預(yù)置所述互聯(lián)網(wǎng)語料庫通過網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)的網(wǎng)頁;選取符合預(yù)置條件的網(wǎng)頁信息,并保存形成互聯(lián)網(wǎng)語料庫。
8.如權(quán)利要求7所述的方法,其特征在于,所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。
9.如權(quán)利要求1所述的方法,其特征在于,在接收用戶輸入的編碼字符串之前還包括步驟將所述多元表加載至存儲設(shè)備中。
10.如權(quán)利要求1所述的方法,其特征在于,還包括對所述編碼字符串的切分方法進行優(yōu)化。
11.如權(quán)利要求1或10所述的方法,其特征在于,還包括根據(jù)用戶新增的編碼字符串在所述多元表中獲取對應(yīng)的組合信息。
12.一種輸入法系統(tǒng),包括輸入接口單元和顯示單元,其特征在于,所述輸入法系統(tǒng)還包括多元表所述多元表由至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息生成;所述組合信息從預(yù)置的互聯(lián)網(wǎng)語料庫中獲取,包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;切分單元用于對用戶輸入的編碼字符串進行切分;提取單元用于根據(jù)所述切分后的編碼字符串在所述多元表中獲取對應(yīng)的組合信息,并提取所述組合信息中相應(yīng)搭配關(guān)系的對應(yīng)字詞為候選字詞。
13.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述輸入法系統(tǒng)還包括第一輸出單元用于根據(jù)所述候選字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算同現(xiàn)概率,以及,根據(jù)所述同現(xiàn)概率進行排序,并將排序結(jié)果作為候選項輸出。
14.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述多元表存儲有同現(xiàn)概率,所述同現(xiàn)概率為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算獲得,所述輸入法系統(tǒng)還包括第二輸出單元用于根據(jù)所述候選字詞的同現(xiàn)概率以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。
15.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述多元表存儲有連接強度值,所述連接強度值為根據(jù)所述至少兩個基礎(chǔ)字詞的相鄰?fù)F(xiàn)頻率和同現(xiàn)概率計算獲得,所述輸入法系統(tǒng)還包括第三輸出單元用于根據(jù)所述候選字詞的連接強度值以及輸入法系統(tǒng)的詞庫中已有字詞的詞頻計算權(quán)重值,以及,根據(jù)所述權(quán)重值進行排序,并將排序結(jié)果作為候選項輸出。
16.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。
17.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述輸入法系統(tǒng)還包括加載單元用于將所述多元表加載至存儲設(shè)備中。
18.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述輸入法系統(tǒng)還包括切分優(yōu)化單元用于對所述編碼字符串的切分方法進行優(yōu)化。
19.如權(quán)利要求12或18所述的系統(tǒng),其特征在于,所述輸入法系統(tǒng)還包括新增獲取單元用于根據(jù)用戶新增的編碼字符串在所述多元表中獲取對應(yīng)的組合信息。
20.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述輸入法系統(tǒng)的輸入接口單元、顯示單元以及多元表位于同一計算設(shè)備中;或者,所述輸入法系統(tǒng)的輸入接口單元、顯示單元位于第一計算設(shè)備中,多元表位于第二計算設(shè)備中,所述輸入法系統(tǒng)根據(jù)用戶輸入的信息,從位于第二計算設(shè)備的多元表中獲取相應(yīng)的組合信息,在第一計算設(shè)備顯示相應(yīng)字詞。
21.一種生成多元表的裝置,其特征在于,包括獲取模塊用于從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;生成模塊用于根據(jù)所述組合信息生成多元表。
22.如權(quán)利要求21所述的裝置,其特征在于,還包括選取模塊用于從輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞。
23.如權(quán)利要求21或22所述的裝置,其特征在于,還包括第一去除模塊用于當一組合信息中的相鄰?fù)F(xiàn)頻率低于一定閾值時去除該組合信息;和/或,第二去除模塊用于當一組合信息中的對應(yīng)字詞為兩個或者多個詞頻最高的字詞組成時去除該組合信息;和/或,第三去除模塊用于當一條組合信息被另一條組合信息部分或全部覆蓋時去除該組合信息。
24.如權(quán)利要求21或22所述的裝置,其特征在于,還包括網(wǎng)頁獲取模塊用于通過網(wǎng)絡(luò)爬蟲技術(shù)獲取互聯(lián)網(wǎng)的網(wǎng)頁;語料庫生成模塊用于選取符合預(yù)置條件的網(wǎng)頁信息,并保存形成互聯(lián)網(wǎng)語料庫。
25.如權(quán)利要求24所述的裝置,其特征在于,所述互聯(lián)網(wǎng)語料庫為互聯(lián)網(wǎng)博客語料庫、互聯(lián)網(wǎng)新聞?wù)Z料庫和/或互聯(lián)網(wǎng)論壇語料庫。
26.一種更新輸入法系統(tǒng)的方法,其特征在于,包括更新互聯(lián)網(wǎng)語料庫;從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞相鄰?fù)F(xiàn)的組合信息,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;根據(jù)所述組合信息生成多元表;將所述多元表發(fā)送至輸入法系統(tǒng)。
27.如權(quán)利要求26所述的方法,其特征在于,還包括從輸入法系統(tǒng)的詞庫中選取符合預(yù)置條件的基礎(chǔ)字詞。
28.如權(quán)利要求26或27所述的方法,其特征在于,在生成多元表之前,還包括如果一組合信息中的相鄰?fù)F(xiàn)頻率低于一定閾值,則去除該組合信息;如果一組合信息中的對應(yīng)字詞為兩個或者多個詞頻最高的字詞組成,則去除該組合信息;如果一條組合信息被另一條組合信息部分或全部覆蓋的,則去除該組合信息。
全文摘要
本發(fā)明公開了一種在輸入法系統(tǒng)中智能組詞輸入的方法,包括從預(yù)置的互聯(lián)網(wǎng)語料庫中,獲取至少兩個基礎(chǔ)字詞之間的組合信息,所述組合信息包括所述至少兩個基礎(chǔ)字詞之間的搭配關(guān)系和相鄰?fù)F(xiàn)頻率;根據(jù)所述組合信息生成多元表;接收用戶輸入的編碼字符串,并對所述編碼字符串進行切分;根據(jù)所述切分后的編碼字符串在所述多元表中獲取對應(yīng)的組合信息,并提取所述組合信息中相應(yīng)搭配關(guān)系的對應(yīng)字詞為候選字詞。本發(fā)明可以有效提高用戶輸入多個字詞、詞組、短語、短句或長句的首選詞命中率,避免無效、重復(fù)的計算過程,進而有效提高了用戶的輸入效率。
文檔編號G06F3/023GK101013443SQ20071007926
公開日2007年8月8日 申請日期2007年2月13日 優(yōu)先權(quán)日2007年2月13日
發(fā)明者郭奇 申請人:北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1