亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用戶詞參與智能組詞輸入的方法及一種輸入法系統(tǒng)的制作方法

文檔序號(hào):6464274閱讀:298來(lái)源:國(guó)知局
專利名稱:一種用戶詞參與智能組詞輸入的方法及一種輸入法系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及輸入法技術(shù)領(lǐng)域,特別是涉及一種用戶詞參與智能組詞輸入的 方法及一種輸入法系統(tǒng)。
背景技術(shù)
現(xiàn)有的輸入法主要包括以下幾種 第一種
目前的輸入法詞庫(kù)主要包括系統(tǒng)詞庫(kù)和系統(tǒng)二元庫(kù),這兩部分都是通過(guò)對(duì) 大量語(yǔ)料采用統(tǒng)計(jì)學(xué)習(xí)的方法,然后提取使用頻度高的字詞來(lái)得到的。其中, 系統(tǒng)詞庫(kù)中的每個(gè)詞都具有一個(gè)詞頻,稱為系統(tǒng)詞頻。當(dāng)用戶輸入一個(gè)拼音串 的時(shí)候,便會(huì)在系統(tǒng)詞庫(kù)中查找與這個(gè)拼音串相匹配的各個(gè)候選詞條并返回, 并將其中具有最高系統(tǒng)詞頻的詞條作為首選項(xiàng)(排在第一個(gè)的候選詞條)。例 如,用戶輸入"shangkele",系統(tǒng)返回的首選項(xiàng)為"上課了"。
而當(dāng)用戶輸入的拼音串在系統(tǒng)詞庫(kù)中沒(méi)有直接命中的詞條的時(shí)候,便要進(jìn) 行智能組詞過(guò)程。智能組詞過(guò)程采用二元語(yǔ)法模型,通過(guò)查找系統(tǒng)二元庫(kù)中的 二元信息,計(jì)算每個(gè)組詞方案中詞匯串的路徑概率,并將具有最大路徑概率的 組詞結(jié)果作為首選項(xiàng)返回給用戶。其中,所述二元信息是指系統(tǒng)通過(guò)統(tǒng)計(jì)學(xué)習(xí) 的方法記錄的詞與詞之間的相鄰關(guān)系,如"天氣^好熱"、"我一知道"等就具有 二元關(guān)系。所述路徑概率是指利用二元概率(指二元信息的使用概率)計(jì)算得 出的組詞概率。智能組詞的過(guò)程如,輸入"xuexiaotongzhijintianfangjia",系統(tǒng)最 終返回的首選項(xiàng)為"學(xué)校通知今天放假",這個(gè)結(jié)果是通過(guò)"學(xué)校"、"通知"、"今 天"、"放假"四個(gè)詞組合起來(lái)的,而且這種組合的概率最大。
第二種
隨著輸入法的發(fā)展,在上述系統(tǒng)智能組詞的基礎(chǔ)上,為了提供更好的用戶 體驗(yàn),對(duì)于每個(gè)用戶,客戶端還記錄用戶輸入的上屏詞(通過(guò)上屏才喿作后上屏 的詞)作為用戶詞庫(kù)。用戶詞庫(kù)既包括系統(tǒng)詞庫(kù)中的一部分原有詞,也包括用 戶新輸入的不在系統(tǒng)詞庫(kù)中的新的上屏詞。對(duì)于用戶詞庫(kù)中的詞條,客戶端會(huì)根據(jù)用戶輸入這個(gè)詞條的頻率和最后一次輸入這個(gè)詞條的時(shí)間來(lái)對(duì)詞條賦予 一個(gè)頻率,稱為用戶詞頻。在用戶進(jìn)行輸入的時(shí)候,首先會(huì)從用戶詞庫(kù)中查找 輸入拼音串相匹配的詞條,如果能直接命中,就返回用戶詞庫(kù)中的詞,否則再 到系統(tǒng)詞庫(kù)中查找或通過(guò)系統(tǒng)二元庫(kù)進(jìn)行智能組詞。
第三種
基于所述用戶詞庫(kù),還有一種輸入方法稱為上下文調(diào)頻輸入法,這種輸入 法能夠利用上下文信息進(jìn)行輸入。當(dāng)用戶輸入一個(gè)拼音串的時(shí)候,如果當(dāng)前拼 音串能夠匹配到用戶詞,則直接返回匹配的用戶詞,并將最高頻用戶詞作為首 選項(xiàng)。如果沒(méi)有命中用戶詞,則根據(jù)當(dāng)前拼音串所匹配的系統(tǒng)詞與前一個(gè)上屏 詞之間的系統(tǒng)二元信息,進(jìn)入局部智能組詞模式。
舉例說(shuō)明,比如要輸入"今天*下午",用戶先輸入了"jintian"并選擇"今天" 上屏,然后輸入"xiawu"。與拼音串"xiawu"相匹配的候選詞有"下午,,和"下霧,,, 如果"下霧"是用戶詞,而"下午"是系統(tǒng)詞,則根據(jù)用戶詞優(yōu)先的原則,會(huì)直接 返回"下霧",即組成"今天*下霧"。但如果兩個(gè)都是系統(tǒng)詞,則利用前一個(gè)上 屏詞"今天",分別計(jì)算"今天*下午"和"今天*下霧"的概率,然后選擇概率大的 作為首選項(xiàng)。
上述第一種和第二種輸入方式,只有系統(tǒng)詞參與智能組詞,假設(shè)有"力指 向"這個(gè)用戶詞,但這個(gè)詞沒(méi)有在系統(tǒng)詞庫(kù)中出現(xiàn),系統(tǒng)詞庫(kù)中有"布局"一 詞,如果用戶想通過(guò)連續(xù)輸入"lizhixiangbuju"得到"力指向布局",那么智能 組詞是不能直接組出來(lái)的,因?yàn)橛脩粼~不參與智能組詞。
上述第三種輸入方式,利用上下文進(jìn)行局部智能組詞的前提是,當(dāng)前拼音 串所匹配的詞與前一個(gè)上屏詞都是系統(tǒng)詞才能進(jìn)行組詞,這樣用戶詞也沒(méi)有真 正參與組詞過(guò)程。因此,如果用戶在上屏"今天"后再輸入"xiawu",用戶詞庫(kù) 中只有"下霧"而沒(méi)有"下午",這時(shí)系統(tǒng)返回的首選項(xiàng)是"下霧"而不是"下午",
這顯然不滿足用戶的需求。
綜上所述,目前的各種輸入法都不能使用戶詞真正參與智能組詞過(guò)程,因 此輸入法系統(tǒng)的靈活性就較差,首選項(xiàng)的命中率不高,沒(méi)有達(dá)到最佳的用戶體 驗(yàn)
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種用戶詞參與智能組詞輸入的方法 及一種輸入法系統(tǒng),以解決現(xiàn)有的輸入法系統(tǒng)靈活性較差,首選項(xiàng)的命中率不 高,沒(méi)有達(dá)到最佳用戶體驗(yàn)的問(wèn)題。
本發(fā)明的另一個(gè)目的是提供一種建立用戶二元庫(kù)的方法及裝置,通過(guò)對(duì)用 戶輸入行為過(guò)程進(jìn)行學(xué)習(xí),對(duì)每個(gè)用戶得到用戶組詞信息,從而利用所述用戶 組詞信息使用戶詞真正參與到智能組詞的過(guò)程中。
為解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開(kāi)了以下
技術(shù)方案
一種建立用戶多元庫(kù)的方法,包括
從用戶輸入的上屏結(jié)果中,獲取具有相鄰關(guān)系的用戶字詞對(duì),所述用戶字 詞對(duì)包括至少兩個(gè)相鄰的用戶字詞;
統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率;
建立用戶多元庫(kù),將所述用戶字詞對(duì)及其相鄰出現(xiàn)的概率保存到所述用戶 多元庫(kù)。
其中,通過(guò)以下方式獲取具有相鄰關(guān)系的用戶字詞對(duì)在用戶的一次上屏 操作中,根據(jù)用戶選擇候選上屏詞的方式,獲取相鄰的候選上屏詞作為用戶字 詞對(duì)。
優(yōu)選的,所述方法還包括對(duì)用戶多元庫(kù)的更新步驟,具體包括在用戶輸 入的上屏結(jié)果中,如果相鄰候選上屏詞組成的用戶字詞對(duì)在用戶多元庫(kù)中存 在,則增強(qiáng)用戶多元庫(kù)中該用戶字詞對(duì)相鄰出現(xiàn)的概率;否則,將所述相鄰候 選上屏詞作為新的用戶字詞對(duì)添加到用戶多元庫(kù)中,并增強(qiáng)該用戶字詞對(duì)相鄰 出現(xiàn)的概率。
優(yōu)選的,所述方法還包括對(duì)用戶多元庫(kù)的削弱步驟,具體包括根據(jù)用戶 對(duì)上屏結(jié)果的修改,針對(duì)上屏結(jié)果中修改前的上屏詞對(duì)應(yīng)的用戶字詞對(duì),削弱 其相鄰出現(xiàn)的概率;和/或,針對(duì)用戶多元庫(kù)中長(zhǎng)期得不到命中的用戶字詞對(duì), 根據(jù)該用戶字詞對(duì)的最后命中時(shí)間進(jìn)行削弱。
優(yōu)選的,所述方法還包括根據(jù)用戶輸入的標(biāo)點(diǎn)符號(hào)進(jìn)行句子劃分;在同 一個(gè)句子或子句中,根據(jù)用戶的上屏操作,將相鄰的上屏結(jié)果也作為用戶字詞 對(duì)保存到所述用戶多元庫(kù);并統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率,保存到所述用戶多元庫(kù)。
其中,所述用戶多元庫(kù)建立在客戶端。
一種利用上述用戶多元庫(kù)進(jìn)行智能組詞輸入的方法,包括
接收用戶輸入的編碼字符串,并對(duì)所述編碼字符串進(jìn)行切分;
根據(jù)用戶詞庫(kù)、用戶多元庫(kù)、系統(tǒng)詞庫(kù)、系統(tǒng)多元庫(kù),查找與切分后
的編碼字符串相匹配的字詞或字詞對(duì),并進(jìn)行組詞;
計(jì)算每種組詞結(jié)果的概率,并將概率值符合預(yù)置條件的組詞結(jié)果作為
候選項(xiàng)輸出。
其中,通過(guò)以下方式計(jì)算每種組詞結(jié)果的概率根據(jù)用戶詞頻、用戶字 詞相鄰出現(xiàn)的概率以及系統(tǒng)詞頻、系統(tǒng)字詞相鄰出現(xiàn)的積克率,計(jì)算每種組詞 結(jié)果的概率。
優(yōu)選的,在計(jì)算組詞結(jié)果概率的時(shí)候,如果同音下最高頻率的系統(tǒng)詞的 詞頻高于用戶詞頻,則調(diào)整所述用戶詞頻使其高于同音下最高頻率的系統(tǒng)詞的 詞頻;并根據(jù)所述用戶詞頻的調(diào)整,將對(duì)應(yīng)的用戶字詞對(duì)的相鄰出現(xiàn)概率也進(jìn) 行相應(yīng)調(diào)整。
優(yōu)選的,在計(jì)算組詞結(jié)果概率的時(shí)候,如果組詞結(jié)果中的字詞對(duì)同時(shí)存 在于用戶多元庫(kù)和系統(tǒng)多元庫(kù)中,則選擇用戶字詞相鄰出現(xiàn)的^l既率和系統(tǒng)字詞 相鄰出現(xiàn)的概率的最大值參與計(jì)算。
其中,當(dāng)用戶多元庫(kù)中的信息量較少時(shí),采用以系統(tǒng)詞組詞為主、用戶詞 組詞為輔的模式;當(dāng)用戶多元庫(kù)中的信息量不能獨(dú)立完成組詞時(shí),采用以系統(tǒng) 詞和用戶詞混合組詞的模式;當(dāng)用戶多元庫(kù)中的信息量能獨(dú)立完成組詞時(shí),采 用以用戶詞ia詞為主、系統(tǒng)詞組詞為輔的才莫式。
優(yōu)選的,所述組詞還包括才艮據(jù)前一個(gè)上屏結(jié)果和當(dāng)前編碼字符串所匹配 結(jié)果之間的相鄰關(guān)系,進(jìn)行組詞。
優(yōu)選的,所述方法還包括設(shè)置用戶詞庫(kù)和用戶多元庫(kù)的控制選項(xiàng);如 果用戶選中該選項(xiàng),則用戶詞庫(kù)和用戶多元庫(kù)參與智能組詞;如果用戶未 選中該選項(xiàng),則只通過(guò)系統(tǒng)詞庫(kù)和系統(tǒng)多元庫(kù)進(jìn)4亍智能組詞。
一種建立用戶多元庫(kù)的裝置,包括
第一獲取單元,用于從用戶輸入的上屏結(jié)果中,獲取具有相鄰關(guān)系的用戶字詞對(duì),所述用戶字詞對(duì)包括至少兩個(gè)相鄰的用戶字詞;
統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率;
建立單元,用于建立用戶多元庫(kù),將所述用戶字詞對(duì)及其相鄰出現(xiàn)的概率 保存到所述用戶多元庫(kù)。
其中,所述第一獲:f又單元通過(guò)以下方式獲:f又具有相鄰關(guān)系的用戶字詞對(duì) 在用戶的一次上屏操作中,根據(jù)用戶選擇候選上屏詞的方式,獲取相鄰的候選 上屏詞為用戶字詞對(duì)。
優(yōu)選的,所述裝置還包括更新單元,用于對(duì)所述用戶多元庫(kù)進(jìn)行更新, 更新方式為在用戶輸入的上屏結(jié)果中,如果相鄰候選上屏詞組成的用戶字詞 對(duì)在用戶多元庫(kù)中存在,則增強(qiáng)用戶多元庫(kù)中該用戶字詞對(duì)相鄰出現(xiàn)的概率; 否則,將所述相鄰候選上屏詞作為新的用戶字詞對(duì)添加到用戶多元庫(kù)中,并增 強(qiáng)該用戶字詞對(duì)相鄰出現(xiàn)的概率。
優(yōu)選的,所述裝置還包括削弱單元,用于對(duì)所述用戶多元庫(kù)進(jìn)行削弱, 削弱方式為根據(jù)用戶對(duì)上屏結(jié)果的修改,針對(duì)上屏結(jié)果中修改前的上屏詞對(duì) 應(yīng)的用戶字詞對(duì),削弱其相鄰出現(xiàn)的概率;和/或,針對(duì)用戶多元庫(kù)中長(zhǎng)期得 不到命中的用戶字詞對(duì),根據(jù)該用戶字詞對(duì)的最后命中時(shí)間進(jìn)行削弱。
優(yōu)選的,所述裝置還包括第二獲取單元,用于根據(jù)用戶輸入的標(biāo)點(diǎn)符 號(hào)進(jìn)行句子劃分;在同一個(gè)句子或子句中,根據(jù)用戶的上屏操作,將相鄰的上 屏結(jié)果也作為用戶字詞對(duì)保存到所述用戶多元庫(kù);相應(yīng)的,所述統(tǒng)計(jì)單元統(tǒng)計(jì) 所述用戶字詞對(duì)相鄰出現(xiàn)的概率,并保存到所述用戶多元庫(kù)。
其中,所述用戶多元庫(kù)建立在客戶端,所述裝置為客戶端裝置。
一種輸入法系統(tǒng),包括
用戶多元庫(kù),用于保存具有相鄰關(guān)系的用戶字詞對(duì),所述用戶字詞對(duì)包括 至少兩個(gè)相鄰的用戶字詞;
切分單元,用于接收用戶輸入的編碼字符串,并對(duì)所述編碼字符串進(jìn)行 切分;
組詞單元,用于根據(jù)用戶詞庫(kù)、用戶多元庫(kù)、系統(tǒng)詞庫(kù)、系統(tǒng)多元庫(kù), 查找與切分后的編碼字符串相匹配的字詞或字詞對(duì),并進(jìn)行組詞; 計(jì)算單元,用于計(jì)算每種組詞結(jié)果的概率;輸出單元,用于將概率符合預(yù)置條件的組詞結(jié)果作為候選項(xiàng)輸出。
其中,所述計(jì)算單元通過(guò)以下方式計(jì)算每種組詞結(jié)果的概率根據(jù)用戶
詞頻、用戶字詞相鄰出現(xiàn)的概率以及系統(tǒng)詞頻、系統(tǒng)字詞相鄰出現(xiàn)的概率,計(jì) 算每種組詞結(jié)果的概率。
優(yōu)選的,所述計(jì)算單元在計(jì)算組詞結(jié)果概率的時(shí)候,如果同音下最高頻 率的系統(tǒng)詞的詞頻高于用戶詞頻,則調(diào)整所述用戶詞頻使其高于同音下最高頻
率的系統(tǒng)詞的詞頻;并#4居所述用戶詞頻的調(diào)整,將對(duì)應(yīng)的用戶字詞對(duì)的相鄰 出現(xiàn)概率也進(jìn)行相應(yīng)調(diào)整。
優(yōu)選的,所述計(jì)算單元在計(jì)算組詞結(jié)果概率的時(shí)候,如果組詞結(jié)果中的 字詞對(duì)同時(shí)存在于用戶多元庫(kù)和系統(tǒng)多元庫(kù)中,則選擇用戶字詞相鄰出現(xiàn)的概 率和系統(tǒng)字詞相鄰出現(xiàn)的概率的最大值參與計(jì)算。
其中,所述組詞單元包括三種組詞模式,當(dāng)用戶多元庫(kù)中的信息量較少時(shí), 采用以系統(tǒng)詞組詞為主、用戶詞組詞為輔的模式;當(dāng)用戶多元庫(kù)中的信息量不 能獨(dú)立完成組詞時(shí),采用以系統(tǒng)詞和用戶詞混合組詞的模式;當(dāng)用戶多元庫(kù)中 的信息量能獨(dú)立完成組詞時(shí),釆用以用戶詞組詞為主、系統(tǒng)詞組詞為輔的模式。
優(yōu)選的,所述系統(tǒng)還包括控制單元,用于設(shè)置用戶詞庫(kù)和用戶多元庫(kù) 的控制選項(xiàng);如果用戶選中該選項(xiàng),則用戶詞庫(kù)和用戶多元庫(kù)參與智能組 詞;如果用戶未選中該選項(xiàng),則只通過(guò)系統(tǒng)詞庫(kù)和系統(tǒng)多元庫(kù)進(jìn)4亍智能組 詞。
其中,所述智能組詞輸入系統(tǒng)運(yùn)行在客戶端。
根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明具有以下技術(shù)效果 首先,本發(fā)明在輸入法的客戶端加入對(duì)用戶輸入過(guò)程的學(xué)習(xí)過(guò)程,建立了 用戶二元庫(kù)。所述用戶二元庫(kù)通過(guò)記錄用戶對(duì)句子的輸入和對(duì)上屏詞的選^t奪, 記錄或更新同一句子中兩個(gè)相鄰輸入的用戶詞之間的用戶二元關(guān)系,同時(shí)根據(jù) 用戶回退光標(biāo)并修改上屏詞的行為對(duì)已經(jīng)記錄的用戶二元信息進(jìn)^i務(wù)正。
其次,本發(fā)明提供了一種用戶詞參與智能組詞的方法,根據(jù)用戶詞庫(kù)、用 戶二元庫(kù)、系統(tǒng)詞庫(kù)、系統(tǒng)二元庫(kù),通過(guò)將用戶個(gè)性化的組詞信息和系統(tǒng)詞庫(kù) 中的組詞信息相結(jié)合,使用戶詞真正參與到智能組詞的過(guò)程中。這種智能組詞的方法由于更好地利用了用戶詞庫(kù)中的個(gè)性化信息,彌補(bǔ)了系統(tǒng)詞庫(kù)智能組詞 的局限性,因此能夠提高首選項(xiàng)的命中率,從而提供更好的用戶體驗(yàn)。而且, 可以使用戶的組詞選擇更加智能化、靈活化,也更加個(gè)性化。


圖1是本發(fā)明實(shí)施例所述建立用戶二元庫(kù)的流程圖3是本發(fā)明實(shí)施例所述用戶詞參與智能組詞的流程圖; 圖4是本發(fā)明實(shí)施例所述建立用戶二元庫(kù)的裝置結(jié)構(gòu)圖; 圖5是本發(fā)明實(shí)施例所述輸入法系統(tǒng)的結(jié)構(gòu)圖; 圖6是圖5中智能組詞邏輯模塊U505的結(jié)構(gòu)圖。
具體實(shí)施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
針對(duì)現(xiàn)有的系統(tǒng)組詞首選命中率不夠高、不能滿足用戶輸入需要的問(wèn)題, 本發(fā)明提供了 一種用戶詞參與智能組詞的方法,通過(guò)對(duì)用戶輸入行為過(guò)程進(jìn)行 學(xué)習(xí),對(duì)每個(gè)用戶得到用戶組詞信息,并通過(guò)將這種用戶個(gè)性化的組詞信息和 系統(tǒng)詞庫(kù)中的組詞信息相結(jié)合,使用戶詞條參與到智能組詞的過(guò)程中,彌補(bǔ)系 統(tǒng)詞庫(kù)智能組詞的局限性。
用戶詞參與智能組詞主要包括兩個(gè)部分第一,建立用戶二元庫(kù),對(duì)用戶 的輸入信息進(jìn)行統(tǒng)計(jì)學(xué)習(xí),記錄并更新用戶二元信息;第二,采用得到的用戶 二元信息和用戶詞庫(kù)結(jié)合系統(tǒng)詞庫(kù)、系統(tǒng)二元庫(kù)進(jìn)行智能組詞。
其中,所述用戶二元信息與系統(tǒng)二元信息類似,是指在用戶輸入過(guò)程中具 有相鄰關(guān)系的用戶字詞對(duì)。例如,用戶輸入"外面正在下雨",其中"外面一 正在"和"正在一下雨"就是兩個(gè)用戶二元對(duì)。用戶二元信息既包括系統(tǒng)二元 庫(kù)中原有的一部分二元信息,也包括用戶新輸入的不在系統(tǒng)二元庫(kù)中的新的二 元信息。
這兩個(gè)部分是相對(duì)獨(dú)立的,下面對(duì)這兩部分分別說(shuō)明。 第一部分首先需要建立一個(gè)用戶二元庫(kù),用于記錄用戶二元信息。參照?qǐng)D1,是本 發(fā)明實(shí)施例所述建立用戶二元庫(kù)的流程圖。
S101,從用戶輸入的上屏結(jié)果中,獲取具有相鄰關(guān)系的用戶字詞對(duì),所述
用戶字詞對(duì)包括至少兩個(gè)相鄰的用戶字詞;
其中,所述上屏結(jié)果是指一次上屏操作后的結(jié)果,例如,用戶輸入拼音串 "tazhengzaizuofan",上屏結(jié)果為"他正在做飯"。從這個(gè)上屏結(jié)果中獲取相鄰 的字詞對(duì),得到"他一正在"和"正在一做飯"。
需要說(shuō)明的是,本發(fā)明實(shí)施例是以二元信息為例進(jìn)行的說(shuō)明,但根據(jù)應(yīng)用 需要,還可以獲取三元或更多元信息來(lái)建立用戶多元庫(kù),例如"他一正在一做 々反"即為一個(gè)三元對(duì)。
優(yōu)選的,本實(shí)施例并沒(méi)有采用分詞的方法來(lái)獲取用戶的二元對(duì),而是通過(guò) 用戶的上屏方式,利用用戶的自然分詞信息進(jìn)行二元統(tǒng)計(jì)。具體獲取方式是 在用戶的一次上屏操作中,根據(jù)用戶選擇候選上屏詞的方式,獲取相鄰的候選 上屏詞作為用戶字詞對(duì)。例如,用戶輸入"woxiangquxuexiao",輸入法系統(tǒng)返 回候選詞,用戶依次選擇"我想"、"去"、"學(xué)校"作為候選上屏詞,然后通過(guò) 依次上屏操作,將這些候選上屏詞輸出。這種獲取二元對(duì)的方式最能反應(yīng)用戶 的輸入習(xí)慣,因此用戶二元庫(kù)也可以達(dá)到為用戶量身制作的效果。
S102,統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率;
S103,建立用戶二元庫(kù),將所述用戶字詞對(duì)及其相鄰出現(xiàn)的概率保存到所 述用戶多元庫(kù)。
通過(guò)以上步驟,就可以在用戶客戶端建立一個(gè)用戶二元庫(kù)。但是,建立用 戶二元庫(kù)只是學(xué)習(xí)用戶輸入信息的初步階段,統(tǒng)計(jì)學(xué)習(xí)是一個(gè)動(dòng)態(tài)的過(guò)程,具
體還包括以下三個(gè)方面
1、 新用戶二元對(duì)的生成;
2、 對(duì)已有用戶二元對(duì)信息的更新;
3、 對(duì)已有用戶二元對(duì)信息的削弱。
下面以用戶輸入為例對(duì)上述3個(gè)方面分別做出不同假定來(lái)進(jìn)行說(shuō)明。假設(shè) 拼音串為"lizhixiangbujusuanfa,,,對(duì)應(yīng)漢字輸入為"力指向布局算法,,,假定 這個(gè)短句不能被系統(tǒng)詞庫(kù)或用戶詞庫(kù)直接命中。1、 新用戶二元對(duì)的生成
在用戶輸入的上屏結(jié)果中,如果相鄰候選上屏詞組成的用戶字詞對(duì)在用戶 二元庫(kù)中不存在,則將所述相鄰候選上屏詞作為新的用戶字詞對(duì)添加到用戶二
元庫(kù)中,并增強(qiáng)該用戶字詞對(duì)相鄰出現(xiàn)的;f既率。
假設(shè)詞"力指向"只在用戶詞庫(kù)中出現(xiàn),"布局,,和"算法"都在系統(tǒng)詞 庫(kù)中出現(xiàn),但用戶還未對(duì)"布局"進(jìn)行過(guò)輸入,因此用戶詞庫(kù)中沒(méi)有出現(xiàn)"布 局,,,但"算法"在用戶詞庫(kù)中。當(dāng)用戶輸入"lizhixiangbujusuanfa"的時(shí)候, 只通過(guò)系統(tǒng)組詞顯然不能得到期望的輸出結(jié)果,而由于"lizhixiang"在用戶詞 庫(kù)中有詞條"力指向",因此用戶將"力指向"選為候選上屏詞;然后對(duì)于 "bujusuanfa",用戶選擇了 "布局"作為下一個(gè)上屏詞,由于"布局"沒(méi)有在 用戶詞庫(kù)中出現(xiàn),因此"布局"^^記入用戶詞庫(kù),同時(shí)"力指向一布局"二元 對(duì)被記入用戶二元庫(kù)中;之后用戶又選擇了 "算法,,進(jìn)行上屏,于是"布局一 算法,,二元對(duì)^皮記入用戶二元庫(kù)。對(duì)于這些新添加到用戶二元庫(kù)中的二元對(duì), 計(jì)算每個(gè)二元對(duì)的兩個(gè)詞相鄰出現(xiàn)的概率,這個(gè)概率值稱為二元概率,然后將 二元概率也記錄到用戶二元庫(kù)中。這個(gè)過(guò)程描述了新用戶二元對(duì)的生成,通常 伴隨著新用戶詞的生成。
2、 對(duì)已有用戶二元對(duì)信息的更新
在用戶輸入的上屏結(jié)果中,如果相鄰候選上屏詞組成的用戶字詞對(duì)在用戶 二元庫(kù)中存在,則增強(qiáng)用戶二元庫(kù)中該用戶字詞對(duì)相鄰出現(xiàn)的概率。
假設(shè)"力指向"、"布局"、"算法,,三個(gè)詞都出現(xiàn)在用戶詞庫(kù)中,同時(shí)由于 歷史輸入,用戶二元庫(kù)中存在二元對(duì)"力指向一布局"、"布局一算法",則在 用戶輸入拼音串的時(shí)候,根據(jù)用戶詞庫(kù)和用戶二元庫(kù)進(jìn)行智能組詞,組詞結(jié)果 "力指向布局算法"會(huì)首選命中。此時(shí),直接更新用戶二元庫(kù)中的"力指向一 布局,,和"布局—算法"二元信息,并增加這兩個(gè)二元對(duì)的二元;f既率。
此外,針對(duì)用戶二元對(duì)沒(méi)有直接命中但也參與組詞的情況,同樣會(huì)增加所 述用戶二元對(duì)的二元概率。例如,用戶二元庫(kù)中存在二元對(duì)"力指向—布局"、 "布局—算法",這兩個(gè)二元對(duì)參與組詞,但在組詞過(guò)程中由于二元概率較低 而沒(méi)有首選命中,這時(shí)經(jīng)過(guò)用戶的上屏選擇最后組詞結(jié)果仍是"力指向布局算 法"。這種情況下,用戶二元庫(kù)中"力指向—布局"和"布局一算法"的二元沖既率也會(huì)增加。
3、對(duì)已有用戶二元對(duì)信息的削弱
根據(jù)用戶對(duì)上屏結(jié)果的修改,針對(duì)上屏結(jié)果中修改前的上屏詞對(duì)應(yīng)的用戶
字詞對(duì),削弱其相鄰出現(xiàn)的概率;和/或,針對(duì)用戶二元庫(kù)中長(zhǎng)期得不到命中 的用戶字詞對(duì),根據(jù)該用戶字詞對(duì)的最后命中時(shí)間進(jìn)行削弱。
々支i殳"力指向"、"布局"、"算法"三個(gè)詞都出現(xiàn)在用戶詞庫(kù)中,同時(shí)"酸 法"也出現(xiàn)在用戶詞庫(kù)中,"力指向一布局"、"布局一算法"存在于用戶二元 庫(kù)中,而且由于用戶的歷史錯(cuò)誤輸入"布局一酸法,,也在用戶二元庫(kù)中。那么 組詞結(jié)果可能產(chǎn)生兩種情況"力指向布局算法"和"力指向布局酸法"。當(dāng)組 詞結(jié)果為后者時(shí),用戶會(huì)回退光標(biāo)至"酸法,,之前,將"酸法"改為"算法"。 這時(shí),不僅增強(qiáng)"力指向—布局"和"布局—算法"之間的用戶二元概率,同
時(shí)削弱"布局一酸法"之間的用戶二元關(guān)系。如果這個(gè)被削弱的二元關(guān)系弱到 了一定的程度(如二元概率小于某一閾值),就把其從用戶二元庫(kù)中刪除。而 當(dāng)組詞結(jié)果為前者時(shí),根據(jù)上述第2點(diǎn)直接加強(qiáng)"力指向一布局"和"布局一 算法"之間的二元概率。
優(yōu)選的,根據(jù)用戶的修改,如果更新后的"布局一算法"的二元關(guān)系大大 強(qiáng)于"布局一酸法"之間的二元關(guān)系,則由于兩個(gè)二元是同音的,幾乎每次 "bujusuanfa"的輸入都會(huì)得到"布局算法,,的輸出,因此可以直接把"布局 一酸法"從用戶二元庫(kù)中刪除。此外,如果"布局一酸法,,二元對(duì)長(zhǎng)期得不到 命中,但二元關(guān)系還沒(méi)有弱到被刪除的地步,則可以對(duì)其進(jìn)行削弱,削弱方式 是隨著最后 一次命中時(shí)間距當(dāng)前更新時(shí)間的長(zhǎng)短進(jìn)行不同程度上的衰減。
上述對(duì)二元概率的增強(qiáng)和削弱,能夠真實(shí)反映用戶的輸入情況。本實(shí)施例 采用的增強(qiáng)和削弱方式如下
例如,"二元對(duì)A-B,,的二元概率為T(mén)(A,B)/SUMBI,其中T(A,B)為A-B 二元對(duì)在用戶輸入時(shí)出現(xiàn)的總次數(shù),SUMBI為所有用戶二元對(duì)的總次數(shù),即 所有T(,)的總和。增強(qiáng)A-B的二元概率就是T,(A,B"T(A,B)+1,增強(qiáng)后的A-B 二元概率即為T(mén),(A,B)/(SUMBI+1)。 而削弱 A-B 二元概率就是 T,(A,B)=T(A,B)-1,削弱后的A-B 二元概率就是T,(A,B)/(SUMBI-1)。
綜上所述,通過(guò)以上三個(gè)方面,實(shí)現(xiàn)了對(duì)用戶輸入信息的學(xué)習(xí)。該學(xué)習(xí)過(guò)二元概率,并且通過(guò)用戶對(duì)上屏詞的修改和最后使用時(shí)間來(lái)對(duì)用戶二元庫(kù)中的 二元值進(jìn)行調(diào)整。
優(yōu)選的,還有一種學(xué)習(xí)用戶輸入的方法,主要針對(duì)用戶習(xí)慣輸入短語(yǔ)的情 況。這種方法根據(jù)用戶輸入的標(biāo)點(diǎn)符號(hào)進(jìn)行句子劃分,在同 一個(gè)句子或子句中, 根據(jù)用戶的上屏操作,將相鄰的上屏結(jié)果也作為用戶字詞對(duì)保存到所述用戶多 元庫(kù);同時(shí)統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率,保存到所述用戶多元庫(kù)。
舉例說(shuō)明,假設(shè)"力指向"在用戶詞庫(kù),"布局"和"算法"在系統(tǒng)詞庫(kù),
當(dāng)用戶在上一個(gè)標(biāo)點(diǎn)結(jié)束后首先輸入拼音串"lizhixiang",則直接輸出"力指 向",之后用戶又輸入了 "bujusuanfa,,,根據(jù)系統(tǒng)組詞又輸出"布局算法"。此 時(shí),用戶二元庫(kù)不僅記錄一次上屏結(jié)果中的"布局一算法"二元對(duì),同時(shí)還對(duì) 上一次輸入的"力指向"和當(dāng)前輸入的"布局"或"布局算法"形成二元對(duì), 即"力指向一布局"和"力指向一布局算法"二元對(duì)。
結(jié)合以上內(nèi)容,下面通過(guò)流程說(shuō)明用戶二元信息的學(xué)習(xí)過(guò)程。參照?qǐng)D2, 是所述對(duì)用戶輸入信息進(jìn)行統(tǒng)計(jì)學(xué)習(xí)的流程圖。
S201,用戶輸入拼音串;
S202,根據(jù)用戶輸入的拼音串進(jìn)行智能組詞,具體為 ,人系統(tǒng)詞庫(kù)和系統(tǒng)二元庫(kù)中查詢系統(tǒng)詞和系統(tǒng)二元信息,/人用戶詞庫(kù)和用 戶二元庫(kù)中查找用戶詞和用戶二元信息,然后結(jié)合進(jìn)行智能組詞過(guò)程,并將組
詞結(jié)果作為候選項(xiàng);
S203,用戶根據(jù)所述候選項(xiàng)進(jìn)行上屏選擇;
S204,根據(jù)用戶的上屏操作,對(duì)用戶二元庫(kù)產(chǎn)生反饋,對(duì)用戶二元對(duì)進(jìn)行 生成、更新、削弱或刪除等操作;并對(duì)用戶詞庫(kù)進(jìn)行反饋,增加新上屏的詞為 用戶詞。
綜上所述,所述學(xué)習(xí)過(guò)程不僅能對(duì)用戶的整句輸入進(jìn)行學(xué)習(xí),還能夠?qū)τ?戶采用的短語(yǔ)輸入方式,學(xué)習(xí)到前后上屏詞之間的用戶二元關(guān)系,從而建立起 針對(duì)每一個(gè)用戶的個(gè)性化的用戶二元庫(kù)。同時(shí),利用用戶的輸入行為來(lái)優(yōu)化所 述用戶二元庫(kù),比如根據(jù)修改退格等操作和最后一次調(diào)用時(shí)間的判斷,對(duì)已經(jīng) 學(xué)習(xí)的二元對(duì)進(jìn)行修正。第二部分
用戶詞參與的智能組詞過(guò)程運(yùn)行在客戶端,涉及到用戶詞庫(kù)、用戶二元庫(kù)、 系統(tǒng)詞庫(kù)和系統(tǒng)二元庫(kù)。
其中,系統(tǒng)詞庫(kù)和系統(tǒng)二元庫(kù)主要在服務(wù)器端運(yùn)行。系統(tǒng)詞庫(kù)通過(guò)在對(duì)大 數(shù)量語(yǔ)料進(jìn)行統(tǒng)計(jì),確定哪些詞應(yīng)該進(jìn)入系統(tǒng)詞庫(kù)以及其系統(tǒng)詞頻的大小。而 系統(tǒng)二元庫(kù)通過(guò)查詢系統(tǒng)詞庫(kù)和對(duì)大規(guī)才莫語(yǔ)料進(jìn)行分詞統(tǒng)計(jì),確定哪些系統(tǒng)詞 之間存在二元關(guān)系以及二元概率的大小。
用戶詞庫(kù)和用戶二元庫(kù)運(yùn)行在客戶端,由于不同用戶的輸入不可能完全一 樣,因此每一個(gè)用戶都有其各自不同的用戶詞庫(kù)和用戶二元庫(kù)。用戶詞庫(kù)通過(guò) 對(duì)用戶的上屏詞進(jìn)行統(tǒng)計(jì),當(dāng)上屏次數(shù)滿足某個(gè)閾值條件時(shí)就將這個(gè)詞加入用 戶詞庫(kù),并隨著用戶對(duì)其輸入的增加調(diào)整其用戶詞頻;同時(shí),對(duì)已經(jīng)加入用戶 詞庫(kù)的詞,通過(guò)最后調(diào)用時(shí)間對(duì)其進(jìn)行頻率的衰減。用戶二元庫(kù)通過(guò)統(tǒng)計(jì)用戶 輸入時(shí)用戶詞之間的相鄰次數(shù)來(lái)統(tǒng)計(jì)用戶詞之間的二元概率,并且通過(guò)用戶對(duì) 上屏詞的修改和最后使用時(shí)間來(lái)對(duì)用戶二元庫(kù)中的二元概率進(jìn)行調(diào)整。
參照?qǐng)D3,是所述用戶詞參與智能組詞的流程圖。
S301,接收用戶輸入的編碼字符串,并對(duì)所述編碼字符串進(jìn)行切分;
是拼音串。對(duì)拼音串可進(jìn)行不同的切分,這樣就形成了很多種切分方案。 例如,對(duì)于拼音串"wohenfanganta",具有多條組詞路徑,如"我*很*反感 *他","我*很*方案*他"等,即將"fangan"切分為"fan*gan"和"fang*an,,。 S302,根據(jù)用戶詞庫(kù)、用戶多元庫(kù)、系統(tǒng)詞庫(kù)、系統(tǒng)多元庫(kù),查找與 切分后的編碼字符串相匹配的字詞或字詞對(duì),并進(jìn)行組詞;
在上述多種切分方案中,對(duì)于其中的一種切分方式,查找每一個(gè)子串 在用戶詞庫(kù)和系統(tǒng)詞庫(kù)中對(duì)應(yīng)的詞條,然后組合在一起。通常,在中文輸 入中存在同音詞的現(xiàn)象,即一個(gè)子串會(huì)對(duì)應(yīng)多個(gè)同音詞,如"huajia"對(duì)應(yīng)
"畫(huà)家"、"花架"、"畫(huà)架"等等。這樣,對(duì)于一個(gè)包含多個(gè)子串的拼音串 切分方案,又有很多條詞匯組合路徑。例如,對(duì)于拼音串
"lizhixiangbujusuanfa",會(huì)有"力指向布局算法"、"力指向布局酸法,,等。S303,計(jì)算每種組詞結(jié)果的概率;
計(jì)算概率時(shí),需要用到用戶二元概率和系統(tǒng)二元概率,這樣就可以根 據(jù)詞與詞之間的關(guān)系判斷出哪種組詞結(jié)果更符合用戶的輸入需要。
本實(shí)施例采用的計(jì)算方法是根據(jù)用戶詞頻、用戶字詞相鄰出現(xiàn)的概率 以及系統(tǒng)詞頻、系統(tǒng)字詞相鄰出現(xiàn)的概率,計(jì)算每種組詞結(jié)果的概率。具體 方法是用組詞結(jié)果中所有詞的一元概率(即詞頻)的乘積,再乘以相鄰 兩個(gè)詞之間的二元概率。
舉例說(shuō)明,設(shè)U(x)為一元概率,B(x,y)為二元概率,那么"我*很*反感
*他"的路徑概率為u(我"B(我,很)nj(很;rB(很,反感)nj(反感:rB(反感,
他)HJ(他)。在只有系統(tǒng)詞參與組詞的過(guò)程中,U(x)和B(x,y)都是系統(tǒng)一元 概率(相當(dāng)于系統(tǒng)詞頻)和系統(tǒng)二元積無(wú)率。 <旦當(dāng)用戶詞參與組詞時(shí),組詞 路徑中的一個(gè)詞可能是用戶詞,也可能是系統(tǒng)詞,還可能既是用戶詞又是 系統(tǒng)詞,針對(duì)這種復(fù)雜情況,下面單獨(dú)詳細(xì)說(shuō)明。
因此,計(jì)算一條路徑概率時(shí),不僅需要從系統(tǒng)詞庫(kù)和用戶詞庫(kù)中得到 該詞的詞頻,同時(shí)要從系統(tǒng)二元庫(kù)和用戶二元庫(kù)中得到詞匯路徑上前后相 鄰兩個(gè)詞之間的二元和克率。然后,通過(guò)詞頻和二元相無(wú)率的累計(jì)相乘,得到 整條路徑的概率。
S304,將概率值符合預(yù)置條件的組詞結(jié)果作為候選項(xiàng)輸出。 通常,所述預(yù)置條件為根據(jù)概率值對(duì)組詞結(jié)果進(jìn)行排序,將排序后 的組詞結(jié)果作為候選項(xiàng)返回給用戶,并選出所有組詞結(jié)果中概率最大的一 個(gè)作為首選項(xiàng)。
需要說(shuō)明的是,實(shí)際應(yīng)用中,在計(jì)算組詞結(jié)果概率的時(shí)候,由于用戶 詞庫(kù)中的詞凄t相對(duì)4交少,并且用戶的輸入總詞數(shù)也相對(duì)4交小,而在系統(tǒng)庫(kù) 構(gòu)建的時(shí)候,語(yǔ)料上的詞數(shù)很多,因此從統(tǒng)計(jì)上講,用戶概率要比系統(tǒng)概 率大若干的數(shù)量級(jí),這個(gè)概率包括一元概率和二元概率。所以,需要對(duì)用 戶詞頻、用戶二元概率、系統(tǒng)詞頻、系統(tǒng)二元相克率的量綱進(jìn)4亍歸一化才喿作, 使用戶概率和系統(tǒng)概率在相同數(shù)量級(jí)上,但用戶詞庫(kù)中各個(gè)詞之間的概率 大小順序(或是倍數(shù)關(guān)系)不能變。這樣,才能使用戶詞和系統(tǒng)詞在組詞 過(guò)程中一起參與路徑概率的計(jì)算,否則,用戶概率相對(duì)系統(tǒng)概率會(huì)大很多,導(dǎo)致系統(tǒng)概率之間的差別無(wú)法體現(xiàn)。比如系統(tǒng)概率都小于0.001,而用戶概 率都大于O.l,那么長(zhǎng)度相等的兩條組詞路徑,如果路徑中的用戶詞數(shù)量不 一樣,那么最后數(shù)量級(jí)就會(huì)差100。
在上述用戶詞參與智能組詞的過(guò)程中,組詞路徑的概率計(jì)算是一個(gè)非 常重要的部分,直接影響首選項(xiàng)的命中率。當(dāng)用戶詞參與到組詞過(guò)程中時(shí),
選耳又一元概率和二元概率的原則是
第一,對(duì)于一元概率,選取調(diào)頻后的用戶詞頻
在選取一元概率的時(shí)候,如果同音下最高頻率的系統(tǒng)詞的詞頻高于用戶 詞頻,則調(diào)整所述用戶詞頻使其高于同音下最高頻率的系統(tǒng)詞的詞頻;并根據(jù) 所述用戶詞頻的調(diào)整,將對(duì)應(yīng)的用戶二元概率也進(jìn)行相應(yīng)調(diào)整,但只針對(duì)用 戶詞進(jìn)行調(diào)頻,而不對(duì)系統(tǒng)詞調(diào)頻。
調(diào)頻的結(jié)果是同音下所有用戶詞的頻率都大于同音下系統(tǒng)詞的頻率, 但保持用戶詞之間的偏序關(guān)系(即用戶詞頻的大小順序不變),也就是說(shuō), 調(diào)頻的尺度是同音下系統(tǒng)詞頻的最大值。這樣,可能出現(xiàn)的情況是, 一個(gè) 詞既可能是用戶詞又可能是系統(tǒng)詞,但參與計(jì)算的時(shí)候只有一個(gè)一元概率, 此時(shí)一元概率取用戶詞頻和系統(tǒng)詞頻的最大值。當(dāng)然,如果一個(gè)拼音串只 對(duì)應(yīng)一個(gè)用戶詞,則不用進(jìn)行調(diào)頻,^使用用戶詞頻即可;同樣,如果一個(gè) 拼音串只對(duì)應(yīng) 一個(gè)系統(tǒng)詞,則4吏用系統(tǒng)詞頻。
進(jìn)一步,對(duì)于拼音串"lizhixiangbuju",如果用戶二元庫(kù)中存在二元對(duì) "力指向一布局",則根據(jù)對(duì)"力指向"用戶詞頻的調(diào)整,也需要對(duì)"力指 向一布局"的二元概率進(jìn)行相應(yīng)調(diào)整。但如果"力指向一布局"是系統(tǒng)二 元對(duì),則不需要調(diào)整系統(tǒng)二元概率。
當(dāng)然,根據(jù)這一原則,如果用戶錯(cuò)誤地輸入了 "荔枝巷",并將該詞記 錄到了用戶詞庫(kù)中,而系統(tǒng)詞庫(kù)中存在"力指向"。當(dāng)用戶再次輸入拼音串 的時(shí)候,同樣會(huì)調(diào)高"荔枝巷"的詞頻。這一原則充分體現(xiàn)了按照用戶輸 入行為進(jìn)行組詞的特點(diǎn),即認(rèn)為所有的用戶輸入都是用戶的習(xí)慣,而排除 了用戶錯(cuò)誤的可能,其實(shí),錯(cuò)誤本身也可能就是用戶的習(xí)慣。因此對(duì)于不 同用戶,同一拼音串可能會(huì)返回不同的首選項(xiàng)。但由于用戶的錯(cuò)誤輸入畢 竟是少數(shù),因此不會(huì)影響整體的首選項(xiàng)命中率。第二,對(duì)于二元扭克率,選耳又用戶二元扭克率和系統(tǒng)二元積無(wú)率的最大#_:
在選取二元概率的時(shí)候, 一種可能的情況是, 一個(gè)二元對(duì)既是用戶二 元對(duì)也是系統(tǒng)二元對(duì),但參與計(jì)算的時(shí)候只有一個(gè)二元概率,這時(shí)二元概 率取用戶二元概率和系統(tǒng)二元概率的最大值。如果用戶二元概率根據(jù)用戶
詞頻進(jìn)行了調(diào)整,則選取調(diào)頻后的用戶二元概率和系統(tǒng)二元和X率的最大值。 舉例說(shuō)明,對(duì)于拼音串"bujusuanfa",如果只在用戶二元庫(kù)或只在系 統(tǒng)二元庫(kù)中存在"布局一算法",則計(jì)算時(shí)使用相應(yīng)的用戶二元概率或系統(tǒng) 二元概率;如果在用戶二元庫(kù)和系統(tǒng)二元庫(kù)中都存在"布局一算法",則比 4交用戶二元概率和系統(tǒng)二元概率,選取概率大的值參與計(jì)算。
基于以上概率計(jì)算原則,結(jié)合系統(tǒng)二元和用戶二元進(jìn)行智能組詞時(shí), 可以根據(jù)當(dāng)前用戶二元庫(kù)中二元信息的多少采用不同的方案,分為三種組 詞模式
第一種用戶二元庫(kù)建立不久,用戶二元庫(kù)中的信息量較少時(shí),采用以 系統(tǒng)詞組詞為主、用戶詞組詞為輔的才莫式。
例如,對(duì)于"aoyunshenghuobaodao",用戶詞庫(kù)中只有"奧運(yùn)生活", 沒(méi)有"報(bào)道",而系統(tǒng)詞庫(kù)中有"奧運(yùn)圣火"和"報(bào)道"。在組詞的過(guò)程中 計(jì)算組詞概率時(shí),因?yàn)?奧運(yùn)生活"是用戶詞,所以調(diào)高"奧運(yùn)生活"的 用戶詞頻,使其高于"奧運(yùn)圣火";"才艮道"就使用其系統(tǒng)詞頻;"奧運(yùn)生活 一報(bào)道"和"奧運(yùn)圣火一報(bào)道"之間都沒(méi)有二元關(guān)系,計(jì)算時(shí)可以賦一個(gè) 預(yù)置的最小值。這樣,就可以根據(jù)一元概率和二元概率來(lái)計(jì)算每種組詞結(jié) 果的概率了,最后得到的首選項(xiàng)是"奧運(yùn)生活報(bào)道"。
第二種用戶二元庫(kù)中已經(jīng)有了一定量的二元信息,但仍然不足以獨(dú) 立完成組詞過(guò)程時(shí),采用以系統(tǒng)詞和用戶詞混合組詞的才莫式。
例如,對(duì)于拼音串"lizhixiangbujusuanfa,,在系統(tǒng)詞庫(kù)中只存在"荔枝 巷",在用戶詞庫(kù)中只存在"力指向",系統(tǒng)二元庫(kù)中存在"布局一算法" 二元對(duì),而用戶詞庫(kù)中存在"力指向一布局"和"布局一酸法"二元對(duì)。 在對(duì)"lizhixiangbujusuanfa"進(jìn)行組詞的時(shí)候,由于調(diào)整后的"力指向"的 詞頻高于"荔枝巷",同時(shí)與"布局"之間存在二元關(guān)系,貝'J "力指向一布 局"的整體概率就會(huì)大于"荔枝巷一布局";同時(shí)如果系統(tǒng)二元庫(kù)中"布局—算法"的二元概率遠(yuǎn)大于用戶二元庫(kù)中"布局一酸法"的二元概率,那 么輸出的組詞結(jié)果將會(huì)是"力指向布局算法",而非"力指向布局酸法"。
第三種用戶二元庫(kù)中的二元信息量已經(jīng)很大,足以完成用戶大部分
的習(xí)慣性輸入的時(shí)候,采用以用戶詞組詞為主、系統(tǒng)詞組詞為輔的模式。
整個(gè)組詞路徑概率的計(jì)算都采用用戶詞頻和用戶二元概率。當(dāng)某個(gè)4并 音子串對(duì)應(yīng)的用戶詞的詞頻都過(guò)低,或者根本沒(méi)有用戶詞的時(shí)候,就以系 統(tǒng)詞為補(bǔ)充,參與到組詞過(guò)程中,用戶詞和系統(tǒng)詞之間的二元仍然采用半 命中的方式進(jìn)行計(jì)算。這種系統(tǒng)詞為補(bǔ)充的方式在用戶輸入某些未曾輸入 過(guò)的專業(yè)名詞和成語(yǔ)或俗語(yǔ)的時(shí)候最為有效,比如對(duì)于拼音串
"zhekezhenshizhizimoruofua,, 中,"zhizimoruofu,,是一個(gè)俗語(yǔ)"知子莫若 父",它沒(méi)有在用戶詞庫(kù)中出現(xiàn),而"這可","真是"和"啊"都在用戶詞 庫(kù)中,通過(guò)將系統(tǒng)詞庫(kù)的詞進(jìn)行補(bǔ)充引入,那么結(jié)果會(huì)輸出期望中的"這 可真是知子莫若父啊"。
在實(shí)際的組詞應(yīng)用中,所述三種模式適用的階段不是嚴(yán)格定義的,可 以根據(jù)策略做自由調(diào)整。
優(yōu)選的,本發(fā)明單獨(dú)在用戶客戶端建立的用戶詞庫(kù)和用戶二元庫(kù),可 以通過(guò)開(kāi)關(guān)的形式來(lái)讓用戶選擇組詞方式。例如i殳置控制選項(xiàng),如果用戶 選中該選項(xiàng),則用戶詞庫(kù)和用戶多元庫(kù)參與智能組詞;如果用戶未選中該 選項(xiàng),則只通過(guò)系統(tǒng)詞庫(kù)和系統(tǒng)多元庫(kù)進(jìn)行智能組詞。這種將用戶詞庫(kù)和 系統(tǒng)詞庫(kù)分離、用戶二元庫(kù)和系統(tǒng)二元庫(kù)分離的方式,不增加系統(tǒng)詞庫(kù)和 系統(tǒng)二元庫(kù)的復(fù)雜性,維護(hù)也相對(duì)容易。
優(yōu)選的,基于上下文調(diào)頻的方式,本發(fā)明所述用戶詞參與組詞的方法也可 以進(jìn)行優(yōu)化,即對(duì)用戶輸入的拼音串進(jìn)行智能組詞時(shí),可以利用前一個(gè)上屏詞 和當(dāng)前拼音串匹配的用戶詞或系統(tǒng)詞之間的二元關(guān)系,進(jìn)一步提高首選項(xiàng)的命 中率。例如,用戶先輸入"力指向",然后輸入"bujusuanfa",該拼音串對(duì)應(yīng) "布局算法,,和"不拘算法",在智能組詞時(shí),根據(jù)"力指向一布局"的二元 關(guān)系,可以確定"布局算法"而不是"不拘算法"。
綜上所述,本發(fā)明根據(jù)用戶詞庫(kù)、用戶二元庫(kù)、系統(tǒng)詞庫(kù)、系統(tǒng)二元庫(kù), 通過(guò)將用戶個(gè)性化的組詞信息和系統(tǒng)詞庫(kù)中的組詞信息相結(jié)合,使用戶詞真正參與到智能組詞的過(guò)程中。這種用戶詞參與智能組詞的方法由于更好地利用了 用戶詞庫(kù)中的個(gè)性化信息,彌補(bǔ)了系統(tǒng)詞庫(kù)智能組詞的局限性,因此能夠提高
首選項(xiàng)的命中率,從而提供更好的用戶體驗(yàn)。而且,可以使用戶的組詞選擇更
加智能化、靈活化,也更加個(gè)性化。
下面通過(guò)對(duì)比說(shuō)明的方式突出說(shuō)明本發(fā)明的首選命中率較高的特性。 針對(duì)背景技術(shù)中所述的第 一種和第二種輸入方式,假設(shè)用戶連續(xù)輸入
"lizhixiangbuju",如果"力指向"是用戶詞,而"布局"是系統(tǒng)詞,由于用 戶詞不參與組詞,所以無(wú)法得到"力指向布局"。但是,本發(fā)明由于能使用戶 詞通過(guò)用戶詞概率和用戶二元概率的方式參與到組詞過(guò)程中,最終得到 一個(gè)最 優(yōu)的組詞結(jié)果,所以能夠很好地解決上述問(wèn)題。如"力指向"是用戶詞,"茶 枝巷"是系統(tǒng)詞,"布局"是系統(tǒng)詞,通過(guò)對(duì)智能組詞過(guò)程加入用戶詞,并且 調(diào)頻,可以得到"力指向*布局",而不是"荔枝巷*布局"。
背景技術(shù)
中所述的第三種方式是上下文調(diào)頻的輸入方式,在這種輸入方 式下,用戶先上屏"今天",然后再輸入"xiawu",如果"下霧"是用戶詞,
"下午"是系統(tǒng)詞,則返回的首選項(xiàng)一定是"下霧"。而在本發(fā)明中用戶詞參 與組詞時(shí),如果結(jié)合上下文調(diào)頻輸入,則會(huì)同時(shí)計(jì)算"今天*下霧"和"今天* 下午"的概率,如果"今天*下霧"的概率小于"今天*下午"的概率,則返回 首選項(xiàng)為"今天下午"。
在上下文調(diào)頻過(guò)程中,雖然用戶詞從形式上參與,并且以最高優(yōu)先級(jí)給了 出來(lái),但實(shí)際上沒(méi)有通過(guò)前一個(gè)上屏詞與當(dāng)前詞組合的概率計(jì)算實(shí)現(xiàn)真正的智 能組詞過(guò)程,因?yàn)橹挥挟?dāng)前一個(gè)上屏詞和當(dāng)前詞都是系統(tǒng)詞的時(shí)候,智能組詞 中的概率計(jì)算才真正的進(jìn)行,智能組詞過(guò)程也才真正的進(jìn)行。而本發(fā)明能讓用 戶詞真正參與到組詞過(guò)程中,用戶詞和用戶詞之間、系統(tǒng)詞和用戶詞之間、系 統(tǒng)詞和系統(tǒng)詞之間都會(huì)進(jìn)行實(shí)際的智能組詞。本發(fā)明還能結(jié)合上下文調(diào)頻的方 式,使用戶詞真正參與到根據(jù)上文而對(duì)當(dāng)前詞進(jìn)行優(yōu)選的過(guò)程中,增加了用戶 體驗(yàn)和靈活性,也能提高首選詞的正確率。
針對(duì)上述方法的說(shuō)明,本發(fā)明還提供了一種建立用戶二元庫(kù)的裝置實(shí)施 例。參照?qǐng)D4,是實(shí)施例所述建立用戶二元庫(kù)的裝置結(jié)構(gòu)圖。所述裝置包括第 一獲耳又單元U401、統(tǒng)計(jì)單元U402、建立單元U403。所述用戶二元庫(kù)建立在客戶端,所述裝置為客戶端裝置。
其中,第一獲取單元U401用于從用戶輸入的上屏結(jié)果中,獲取具有相鄰 關(guān)系的用戶字詞對(duì),所述用戶字詞對(duì)包括至少兩個(gè)相鄰的用戶字詞。本實(shí)施例
中,所述第一獲取單元獲取用戶字詞對(duì)的方式是在用戶的一次上屏操作中, 根據(jù)用戶選擇候選上屏詞的方式,獲取相鄰的候選上屏詞為用戶字詞對(duì)。
所述統(tǒng)計(jì)單元U402用于統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的積克率;
所述建立單元U403用于建立用戶二元庫(kù),將所述用戶字詞對(duì)及其相鄰出 現(xiàn)的概率保存到所述用戶二元庫(kù)。
優(yōu)選的,所述裝置還包括更新單元U404,用于對(duì)所述用戶二元庫(kù)進(jìn)4亍更 新,更新方式為在用戶輸入的上屏結(jié)果中,如果相鄰候選上屏詞組成的用戶 字詞對(duì)在用戶二元庫(kù)中存在,則增強(qiáng)用戶二元庫(kù)中該用戶字詞對(duì)相鄰出現(xiàn)的積無(wú) 率;否則,將所述相鄰候選上屏詞作為新的用戶字詞對(duì)添加到用戶二元庫(kù)中, 并增強(qiáng)該用戶字詞對(duì)相鄰出現(xiàn)的概率。
優(yōu)選的,所述裝置還包括削弱單元U405,用于對(duì)所述用戶二元庫(kù)進(jìn)行削 弱,削弱方式為根據(jù)用戶對(duì)上屏結(jié)果的修改,針對(duì)上屏結(jié)果中修改前的上屏 詞對(duì)應(yīng)的用戶字詞對(duì),削弱其相鄰出現(xiàn)的概率;和/或,針對(duì)用戶二元庫(kù)中長(zhǎng) 期得不到命中的用戶字詞對(duì),根據(jù)該用戶字詞對(duì)的最后命中時(shí)間進(jìn)行削弱。
優(yōu)選的,所述裝置還包括第二獲取單元U406,用于根據(jù)用戶輸入的標(biāo)點(diǎn) 符號(hào)進(jìn)行句子劃分;在同一個(gè)句子或子句中,根據(jù)用戶的上屏操作,將相鄰的 上屏結(jié)果也作為用戶字詞對(duì)保存到所述用戶二元庫(kù);相應(yīng)的,所述統(tǒng)計(jì)單元 U402統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率,并保存到所述用戶二元庫(kù)。
本發(fā)明還提供了一種用戶詞參與智能組詞的輸入法系統(tǒng),參照?qǐng)D5,是實(shí) 施例所述輸入法系統(tǒng)的結(jié)構(gòu)圖。所述系統(tǒng)包括系統(tǒng)詞庫(kù)U501、用戶詞庫(kù)U502、 系統(tǒng)二元庫(kù)U503、用戶二元庫(kù)U504、智能組詞邏輯4莫塊U505。
其中,系統(tǒng)詞庫(kù)U501、用戶詞庫(kù)U502、系統(tǒng)二元庫(kù)U503、用戶二元庫(kù) U504如前所述,在此不再詳述。智能組詞邏輯;漠塊U505用于利用系統(tǒng)詞庫(kù) U501、用戶詞庫(kù)U502、系統(tǒng)二元庫(kù)U503、用戶二元庫(kù)U504,進(jìn)行用戶詞參 與的智能組詞。智能組詞邏輯模塊U505運(yùn)行在客戶端。
圖5中各模塊的關(guān)系如下系統(tǒng)詞庫(kù)U501為系統(tǒng)二元庫(kù)U503統(tǒng)計(jì)系統(tǒng)二元信息才是供系統(tǒng)元詞,并 為智能組詞邏輯模塊U505提供系統(tǒng)詞條和系統(tǒng)詞頻;用戶詞庫(kù)U502為用戶 二元庫(kù)U504統(tǒng)計(jì)用戶二元信息提供用戶元詞,并為智能組詞邏輯模塊U505 提供用戶詞條和用戶詞頻;系統(tǒng)二元庫(kù)U503向智能組詞邏輯模塊U505提供 系統(tǒng)二元信息和系統(tǒng)二元概率,用戶二元庫(kù)U504向智能組詞邏輯才莫塊U505 提供用戶二元信息和用戶二元概率。
參照?qǐng)D6,是圖5中智能組詞邏輯模塊U505的結(jié)構(gòu)圖。所述智能組詞邏 輯模塊U505進(jìn)一步細(xì)分為切分單元U601、組詞單元U602、計(jì)算單元U603、 輸出單元U604。
切分單元U601用于接收用戶輸入的編碼字符串,并對(duì)所述編碼字符串 進(jìn)行切分。
組詞單元U602用于^4居用戶詞庫(kù)、用戶二元庫(kù)、系統(tǒng)詞庫(kù)、系統(tǒng)二元 庫(kù),查找與切分后的編碼字符串相匹配的字詞或字詞對(duì),并進(jìn)行組詞。
計(jì)算單元U603用于計(jì)算每種組詞結(jié)果的概率。本實(shí)施例中,計(jì)算單元 U603采用的計(jì)算方式是根據(jù)用戶詞頻(即用戶一元概率)、用戶字詞相鄰 出現(xiàn)的概率(即用戶二元概率)以及系統(tǒng)詞頻(即系統(tǒng)一元概率)、系統(tǒng)字詞 相鄰出現(xiàn)的概率(即系統(tǒng)二元概率),計(jì)算每種組詞結(jié)果的概率。
優(yōu)選的,所述計(jì)算單元U603在計(jì)算組詞結(jié)果概率的時(shí)候,如果同音下最 高頻率的系統(tǒng)詞的詞頻高于用戶詞頻,則調(diào)整所述用戶詞頻使其高于同音下最 高頻率的系統(tǒng)詞的詞頻;并根據(jù)所述用戶詞頻的調(diào)整,將對(duì)應(yīng)的用戶字詞對(duì)的 相鄰出現(xiàn)概率也進(jìn)行相應(yīng)調(diào)整。
優(yōu)選的,所述計(jì)算單元U603在計(jì)算組詞結(jié)果概率的時(shí)候,如果組詞結(jié)果 中的字詞對(duì)同時(shí)存在于用戶二元庫(kù)和系統(tǒng)二元庫(kù)中,則選擇用戶二元概率和 系統(tǒng)二元概率的最大值。如果用戶二元概率根據(jù)用戶詞頻進(jìn)行了調(diào)整,則 選取調(diào)頻后的用戶二元概率和系統(tǒng)二元概率的最大值。
輸出單元U604用于將概率符合預(yù)置條件的組詞結(jié)果作為候選項(xiàng)輸出。
優(yōu)選的,所述組詞單元U602包括三種組詞;漠式,當(dāng)用戶多元庫(kù)中的信息 量較少時(shí),采用以系統(tǒng)詞組詞為主、用戶詞組詞為輔的模式;當(dāng)用戶多元庫(kù)中 的信息量不能獨(dú)立完成組詞時(shí),采用以系統(tǒng)詞和用戶詞混合組詞的模式;當(dāng)用戶多元庫(kù)中的信息量能獨(dú)立完成組詞時(shí),采用以用戶詞組詞為主、系統(tǒng)詞組詞 為輔的模式。
優(yōu)選的,所述智能組詞邏輯模塊U505還包括控制單元U605,用于設(shè)置 用戶詞庫(kù)和用戶多元庫(kù)的控制選項(xiàng);如果用戶選中該選項(xiàng),則用戶詞庫(kù)和
用戶多元庫(kù)參與智能組詞;如果用戶未選中該選項(xiàng),則只通過(guò)系統(tǒng)詞庫(kù)和 系統(tǒng)多元庫(kù)進(jìn)4亍智能組詞。
圖4所示裝置和圖5、圖6所示系統(tǒng)中未詳述的部分可以參見(jiàn)圖1、圖2 所示方法的相關(guān)部分,為了篇幅考慮,在此不再詳述。
需要說(shuō)明的是,以上內(nèi)容都是以字詞之間的二元關(guān)系為例進(jìn)行的說(shuō)明,基 于本發(fā)明所述思想,還可以擴(kuò)展到多元,在此不再詳述。而且,本發(fā)明還適用 于日文、韓文等類似于中文輸入法的外文輸入,因此本發(fā)明的適用范圍不 應(yīng)以語(yǔ)言來(lái)劃分。
以上對(duì)本發(fā)明所提供的 一種用戶詞參與智能組詞輸入的方法及一種輸入 法系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式 進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思 想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明 的限制。
權(quán)利要求
1、一種建立用戶多元庫(kù)的方法,其特征在于,包括從用戶輸入的上屏結(jié)果中,獲取具有相鄰關(guān)系的用戶字詞對(duì),所述用戶字詞對(duì)包括至少兩個(gè)相鄰的用戶字詞;統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率;建立用戶多元庫(kù),將所述用戶字詞對(duì)及其相鄰出現(xiàn)的概率保存到所述用戶多元庫(kù)。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,通過(guò)以下方式獲取具有相 鄰關(guān)系的用戶字詞對(duì)在用戶的一次上屏操作中,根據(jù)用戶選擇候選上屏詞的方式,獲取相鄰的 候選上屏詞作為用戶字詞對(duì)。
3、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括對(duì)用戶多元庫(kù)的更 新步驟,具體包括在用戶輸入的上屏結(jié)果中,如果相鄰候選上屏詞組成的用戶字詞對(duì)在用戶 多元庫(kù)中存在,則增強(qiáng)用戶多元庫(kù)中該用戶字詞對(duì)相鄰出現(xiàn)的概率;否則,將所述相鄰候選上屏詞作為新的用戶字詞對(duì)添加到用戶多元庫(kù)中, 并增強(qiáng)該用戶字詞對(duì)相鄰出現(xiàn)的;f既率。
4、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括對(duì)用戶多元庫(kù)的削 弱步驟,具體包括根據(jù)用戶對(duì)上屏結(jié)果的修改,針對(duì)上屏結(jié)果中修改前的上屏詞對(duì)應(yīng)的用戶 字詞對(duì),削弱其相鄰出現(xiàn)的概率;和/或,針對(duì)用戶多元庫(kù)中長(zhǎng)期得不到命中的用戶字詞對(duì),根據(jù)該用戶字 詞對(duì)的最后命中時(shí)間進(jìn)行削弱。
5、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括 根據(jù)用戶輸入的標(biāo)點(diǎn)符號(hào)進(jìn)行句子劃分;在同一個(gè)句子或子句中,根據(jù)用戶的上屏才喿作,將相鄰的上屏結(jié)果也作為 用戶字詞對(duì)保存到所述用戶多元庫(kù);并統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率,保存到所述用戶多元庫(kù)。
6、 根據(jù)權(quán)利要求l、 2、 3、 4、 5任意一項(xiàng)所述的方法,其特征在于所述用戶多元庫(kù)建立在客戶端。
7、 一種利用權(quán)利要求1所述的用戶多元庫(kù)進(jìn)行智能組詞輸入的方法,其 特征在于,包括接收用戶輸入的編碼字符串,并對(duì)所述編碼字符串進(jìn)行切分; 根據(jù)用戶詞庫(kù)、用戶多元庫(kù)、系統(tǒng)詞庫(kù)、系統(tǒng)多元庫(kù),查找與切分后的編碼字符串相匹配的字詞或字詞對(duì),并進(jìn)行組詞;計(jì)算每種組詞結(jié)果的概率,并將概率值符合預(yù)置條件的組詞結(jié)果作為候選項(xiàng)輸出。
8、 根據(jù)權(quán)利要求7所述的方法,其特征在于,通過(guò)以下方式計(jì)算每種組 詞結(jié)果的概率才艮據(jù)用戶詞頻、用戶字詞相鄰出現(xiàn)的;f既率以及系統(tǒng)詞頻、系統(tǒng)字詞相鄰出 現(xiàn)的概率,計(jì)算每種組詞結(jié)果的概率。
9、 根據(jù)權(quán)利要求8所述的方法,其特征在于在計(jì)算組詞結(jié)果概率的時(shí)候,如果同音下最高頻率的系統(tǒng)詞的詞頻高于用 戶詞頻,則調(diào)整所述用戶詞頻使其高于同音下最高頻率的系統(tǒng)詞的詞頻;并根據(jù)所述用戶詞頻的調(diào)整,將對(duì)應(yīng)的用戶字詞對(duì)的相鄰出現(xiàn)概率也進(jìn)行 相應(yīng)調(diào)整。
10、 根據(jù)權(quán)利要求8述的方法,其特征在于在計(jì)算組詞結(jié)果概率的時(shí)候,如果組詞結(jié)果中的字詞對(duì)同時(shí)存在于用戶多 元庫(kù)和系統(tǒng)多元庫(kù)中,則選擇用戶字詞相鄰出現(xiàn)的概率和系統(tǒng)字詞相鄰出現(xiàn)的 概率的最大值參與計(jì)算。
11、 根據(jù)權(quán)利要求7、 8、 9、 IO任意一項(xiàng)所述的方法,其特征在于 當(dāng)用戶多元庫(kù)中的信息量較少時(shí),采用以系統(tǒng)詞組詞為主、用戶詞組詞為輔的模式。
12、 根據(jù)權(quán)利要求7、 8、 9、 IO任意一項(xiàng)所述的方法,其特征在于當(dāng)用戶多元庫(kù)中的信息量不能獨(dú)立完成組詞時(shí),采用以系統(tǒng)詞和用戶詞混 合組詞的模式。
13、 根據(jù)權(quán)利要求7、 8、 9、 IO任意一項(xiàng)所述的方法,其特征在于 當(dāng)用戶多元庫(kù)中的信息量能獨(dú)立完成組詞時(shí),采用以用戶詞組詞為主、系統(tǒng)詞組詞為輔的才莫式。
14、 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述組詞還包括 根據(jù)前一個(gè)上屏結(jié)果和當(dāng)前編碼字符串所匹配結(jié)果之間的相鄰關(guān)系,進(jìn)行組詞。
15、 根據(jù)權(quán)利要求7所述的方法,其特征在于,還包括 設(shè)置用戶詞庫(kù)和用戶多元庫(kù)的控制選項(xiàng);如果用戶選中該選項(xiàng),則用戶詞庫(kù)和用戶多元庫(kù)參與智能組詞; 如果用戶未選中該選項(xiàng),則只通過(guò)系統(tǒng)詞庫(kù)和系統(tǒng)多元庫(kù)進(jìn)行智能組詞。
16、 一種建立用戶多元庫(kù)的裝置,其特征在于,包括 第一獲取單元,用于從用戶輸入的上屏結(jié)果中,獲取具有相鄰關(guān)系的用戶字詞對(duì),所述用戶字詞對(duì)包括至少兩個(gè)相鄰的用戶字詞; 統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率; 建立單元,用于建立用戶多元庫(kù),將所述用戶字詞對(duì)及其相鄰出現(xiàn)的概率保存到所述用戶多元庫(kù)。
17、 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述第一獲:f又單元通過(guò) 以下方式獲: 又具有相鄰關(guān)系的用戶字詞對(duì)在用戶的一次上屏操作中,根據(jù)用戶選擇候選上屏詞的方式,獲取相鄰的 ^陵選上屏詞為用戶字詞對(duì)。
18、 根據(jù)權(quán)利要求16所述的裝置,其特征在于,還包括 更新單元,用于對(duì)所述用戶多元庫(kù)進(jìn)^f亍更新,更新方式為在用戶輸入的上屏結(jié)果中,如果相鄰候選上屏詞組成的用戶字詞對(duì)在用戶 多元庫(kù)中存在,則增強(qiáng)用戶多元庫(kù)中該用戶字詞對(duì)相鄰出現(xiàn)的概率;否則,將 所述相鄰候選上屏詞作為新的用戶字詞對(duì)添加到用戶多元庫(kù)中,并增強(qiáng)該用戶 字詞對(duì)相鄰出現(xiàn)的概率。
19、 根據(jù)權(quán)利要求16所述的裝置,其特征在于,還包括 削弱單元,用于對(duì)所述用戶多元庫(kù)進(jìn)行削弱,削弱方式為 才艮據(jù)用戶對(duì)上屏結(jié)果的修改,針對(duì)上屏結(jié)果中修改前的上屏詞對(duì)應(yīng)的用戶字詞對(duì),削弱其相鄰出現(xiàn)的概率;和/或,針對(duì)用戶多元庫(kù)中長(zhǎng)期得不到命中的用戶字詞對(duì),根據(jù)該用戶字詞對(duì)的最后命中時(shí)間進(jìn)行削弱。
20、 根據(jù)權(quán)利要求16所述的裝置,其特征在于,還包括 第二獲取單元,用于根據(jù)用戶輸入的標(biāo)點(diǎn)符號(hào)進(jìn)行句子劃分;在同一個(gè)句子或子句中,根據(jù)用戶的上屏操作,將相鄰的上屏結(jié)果也作為用戶字詞對(duì)保存 到所述用戶多元庫(kù);相應(yīng)的,所述統(tǒng)計(jì)單元統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率,并保存到所 述用戶多元庫(kù)。
21、 根據(jù)權(quán)利要求16所述的裝置,其特征在于 所述用戶多元庫(kù)建立在客戶端,所述裝置為客戶端裝置。
22、 一種輸入法系統(tǒng),其特征在于,包4舌用戶多元庫(kù),用于保存具有相鄰關(guān)系的用戶字詞對(duì),所述用戶字詞對(duì)包括 至少兩個(gè)相鄰的用戶字詞;切分單元,用于接收用戶輸入的編碼字符串,并對(duì)所述編碼字符串進(jìn)行 切分;組詞單元,用于#4居用戶詞庫(kù)、用戶多元庫(kù)、系統(tǒng)詞庫(kù)、系統(tǒng)多元庫(kù), 查找與切分后的編碼字符串相匹配的字詞或字詞對(duì),并進(jìn)行組詞; 計(jì)算單元,用于計(jì)算每種組詞結(jié)果的概率;輸出單元,用于將概率符合預(yù)置條件的組詞結(jié)果作為候選項(xiàng)輸出。
23、 根據(jù)權(quán)利要求22所述的系統(tǒng),其特征在于,所述計(jì)算單元通過(guò)以 下方式計(jì)算每種組詞結(jié)果的概率根據(jù)用戶詞頻、用戶字詞相鄰出現(xiàn)的概率以及系統(tǒng)詞頻、系統(tǒng)字詞相鄰出 現(xiàn)的概率,計(jì)算每種組詞結(jié)果的概率。
24、 根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于所述計(jì)算單元在計(jì)算組詞結(jié)果概率的時(shí)候,如果同音下最高頻率的系統(tǒng)詞 的詞頻高于用戶詞頻,則調(diào)整所述用戶詞頻使其高于同音下最高頻率的系統(tǒng)詞 的詞頻;并根據(jù)所述用戶詞頻的調(diào)整,將對(duì)應(yīng)的用戶字詞對(duì)的相鄰出現(xiàn)概率也 進(jìn)行相應(yīng)調(diào)整。
25、 根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于所述計(jì)算單元在計(jì)算組詞結(jié)果概率的時(shí)候,如果組詞結(jié)果中的字詞對(duì)同時(shí)存在于用戶多元庫(kù)和系統(tǒng)多元庫(kù)中,則選擇用戶字詞相鄰出現(xiàn)的概率和系統(tǒng)字 詞相鄰出現(xiàn)的概率的最大值參與計(jì)算。
26、 根據(jù)權(quán)利要求22所述的系統(tǒng),其特征在于所述組詞單元包括三種組詞才莫式,當(dāng)用戶多元庫(kù)中的信息量較少時(shí),采用 以系統(tǒng)詞組詞為主、用戶詞組詞為輔的模式;當(dāng)用戶多元庫(kù)中的信息量不能獨(dú) 立完成組詞時(shí),采用以系統(tǒng)詞和用戶詞混合組詞的模式;當(dāng)用戶多元庫(kù)中的信 息量能獨(dú)立完成組詞時(shí),采用以用戶詞組詞為主、系統(tǒng)詞組詞為輔的才莫式。
27、 根據(jù)權(quán)利要求22所述的系統(tǒng),其特征在于,還包括控制單元,用于設(shè)置用戶詞庫(kù)和用戶多元庫(kù)的控制選項(xiàng);如果用戶選中 該選項(xiàng),則用戶詞庫(kù)和用戶多元庫(kù)參與智能組詞;如果用戶未選中該選項(xiàng), 則只通過(guò)系統(tǒng)詞庫(kù)和系統(tǒng)多元庫(kù)進(jìn)行智能組詞。
28、 根據(jù)權(quán)利要求22所述的系統(tǒng),其特征在于所述智能組詞輸入系統(tǒng) 運(yùn)行在客戶端。
全文摘要
本發(fā)明公開(kāi)了一種用戶詞參與智能組詞輸入的方法及一種輸入法系統(tǒng),以解決現(xiàn)有的輸入法系統(tǒng)靈活性較差,首選項(xiàng)的命中率不高,沒(méi)有達(dá)到最佳用戶體驗(yàn)的問(wèn)題。所述方法包括從用戶輸入的上屏結(jié)果中,獲取具有相鄰關(guān)系的用戶字詞對(duì),所述用戶字詞對(duì)包括至少兩個(gè)相鄰的用戶字詞;統(tǒng)計(jì)所述用戶字詞對(duì)相鄰出現(xiàn)的概率;建立用戶多元庫(kù),將所述用戶字詞對(duì)及其相鄰出現(xiàn)的概率保存到所述用戶多元庫(kù)。本發(fā)明所述智能組詞的方法由于更好地利用了用戶詞庫(kù)中的個(gè)性化信息,彌補(bǔ)了系統(tǒng)詞庫(kù)智能組詞的局限性,因此能夠提高首選項(xiàng)的命中率,從而提供更好的用戶體驗(yàn)。而且,可以使用戶的組詞選擇更加智能化、靈活化,也更加個(gè)性化。
文檔編號(hào)G06F17/30GK101290632SQ20081011398
公開(kāi)日2008年10月22日 申請(qǐng)日期2008年5月30日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者王硯峰 申請(qǐng)人:北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1