專利名稱:詞典詞和短語確定的制作方法
技術(shù)領(lǐng)域:
本公開涉及輸入法。
背景技術(shù):
在使用詞符文字(logographic script)的語言中,一個(gè)或兩個(gè)字符(例如象形文字(glyph))粗略地對應(yīng)于一個(gè)詞或一種含意,這樣的語言所具有的字符多于標(biāo)準(zhǔn)輸入設(shè)備(如移動(dòng)設(shè)備鍵區(qū)上的計(jì)算機(jī)鍵盤)上的鍵。例如,中文語言包含由基本拼音字符和五個(gè)音調(diào)定義的幾千個(gè)字符??梢酝ㄟ^幫助輸入在輸入設(shè)備上找不到的字符和符號(hào)(symbol)的輸入法來實(shí)現(xiàn)這些多對一關(guān)聯(lián)的映射。因此,可以使用西式鍵盤來輸入中文、日文或韓文字符。在一些示例中,可以使用輸入法編輯器(ME)來搜索詞典,以找到與用戶打出的拼音字符相對應(yīng)的候選字符、詞或短語。
發(fā)明內(nèi)容
在一個(gè)方面中,總體上,一種計(jì)算機(jī)實(shí)現(xiàn)的方法包括識(shí)別文檔中的上下文信號(hào);識(shí)別由上下文信號(hào)界定的字符;識(shí)別由上下文信號(hào)界定的字符所限定的一個(gè)或多個(gè)候選詞;以及將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。 該方法的實(shí)現(xiàn)方式可以包括下列特征中的一個(gè)或多個(gè)。識(shí)別文檔中的上下文信號(hào)包括識(shí)別中文書名號(hào)。識(shí)別由上下文信號(hào)界定的字符包括識(shí)別由上下文信號(hào)界定的漢字字符。所述候選詞包括中文詞。識(shí)別文檔中的上下文信號(hào)包括識(shí)別電子文檔中的超文本標(biāo)記語言標(biāo)簽。輸入法編輯器詞典包括中文輸入法編輯器詞典。該方法包括確定每個(gè)候選詞的計(jì)數(shù)。將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中包括將具有超過閾值的計(jì)數(shù)的候選詞添加到輸入法編輯器詞典中。識(shí)別文檔中的上下文信號(hào)包括識(shí)別非重復(fù)的文檔。確定每個(gè)候選詞的計(jì)數(shù)包括僅僅基于非重復(fù)的文檔確定每個(gè)候選詞的計(jì)數(shù)。所述文檔包括從因特網(wǎng)獲得的網(wǎng)頁文檔。所述方法包括識(shí)別搜索查詢中的候選詞并將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。識(shí)別搜索查詢中的候選詞包括對于每個(gè)候選詞,確定第一計(jì)數(shù),該第一計(jì)數(shù)表示該候選詞是搜索查詢中僅有的詞的次數(shù),以及確定第二計(jì)數(shù),該第二計(jì)數(shù)表示在每個(gè)搜索查詢中包括所述候選詞和一個(gè)或多個(gè)其他詞的次數(shù)。識(shí)別搜索查詢中的候選詞包括基于第一計(jì)數(shù)和第二計(jì)數(shù)之間的關(guān)系,將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。 在另一方面,總體上,一種計(jì)算機(jī)實(shí)現(xiàn)的方法包括識(shí)別文檔中的中文書名號(hào)對;識(shí)別由每對中文書名號(hào)標(biāo)記的一個(gè)或多個(gè)字符所限定的候選詞;以及將一個(gè)或多個(gè)候選詞添加到輸入法編輯器詞典中。 該方法的實(shí)現(xiàn)方式可以包括下列特征中的一個(gè)或多個(gè)。所述中文書名號(hào)包括單書名號(hào)或雙書名號(hào)。所述方法包括確定每個(gè)候選詞的計(jì)數(shù)。將一個(gè)或多個(gè)候選詞添加到輸入法編輯器詞典中包括將具有超過閾值的計(jì)數(shù)的候選詞添加到輸入法編輯器詞典中。所述方法包括識(shí)別搜索查詢中的候選詞并將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。識(shí)別搜索查詢中的候選詞包括對于每個(gè)候選詞,確定第一計(jì)數(shù),該第一計(jì)數(shù)表示該候選詞是搜索查詢中僅有的詞的次數(shù),以及確定第二計(jì)數(shù),該第二計(jì)數(shù)表示在每個(gè)搜索查詢中包括該候選詞和一個(gè)或多個(gè)其他詞的次數(shù)。識(shí)別搜索查詢中的候選詞包括基于第一計(jì)數(shù)和第二計(jì)數(shù)之間的關(guān)系,將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。
在另一方面,總體上, 一種方法包括建立詞典,該詞典具有基于由上下文信號(hào)界定的字符而識(shí)別出的詞;以及提供被配置為從所述詞典中選擇詞的輸入法編輯器。
該方法的實(shí)現(xiàn)方式可以包括下列特征中的一個(gè)或多個(gè)。建立詞典包括基于由中文書名號(hào)界定的字符來識(shí)別詞。 在另一方面,總體上,一種裝置包括詞典,其具有基于與在文檔中找到的字符相關(guān)聯(lián)的候選詞識(shí)別出的詞,其中每個(gè)候選詞與一對中文書名號(hào)所包圍的一個(gè)或多個(gè)字符相關(guān)聯(lián)。該裝置還包括輸入法編輯器,被配置為從所述詞典中選擇詞。 該裝置的實(shí)現(xiàn)方式可以包括下列特征中的一個(gè)或多個(gè)。所述候選詞包括漢字字符。所述中文書名號(hào)包括單書名號(hào)或雙書名號(hào)中的至少一個(gè)。所述詞典包括基于第一計(jì)數(shù)和第二計(jì)數(shù)識(shí)別出的詞,所述第一計(jì)數(shù)表示該詞是搜索查詢中僅有的詞的次數(shù),所述第二計(jì)數(shù)表示在每個(gè)搜索查詢中包含該詞和一個(gè)或多個(gè)其他詞的次數(shù)。 在另一方面,總體上,一種系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元和處理引擎。該數(shù)據(jù)存儲(chǔ)單元存儲(chǔ)文檔語料庫。該處理引擎被存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,并包括可由處理設(shè)備執(zhí)行的指令,所述指令在被如此執(zhí)行時(shí)使得處理設(shè)備通過在文檔語料庫的文檔中找到字符來識(shí)別候選詞,其中所述字符被包圍在中文書名號(hào)對中,以及將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。 在另一方面,總體上,一種系統(tǒng),包括數(shù)據(jù)存儲(chǔ)單元和處理設(shè)備。數(shù)據(jù)存儲(chǔ)單元存儲(chǔ)文檔語料庫;該處理設(shè)備通過在文檔語料庫的文檔中找到字符來識(shí)別候選詞,其中所述字符被包圍在中文書名號(hào)對中,以及將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞n巾。 在另一方面,總體上,一種系統(tǒng)包括用于識(shí)別文檔中的上下文信號(hào)的裝置;用于識(shí)別由上下文信號(hào)界定的字符的裝置;用于識(shí)別由上下文信號(hào)界定的字符所定限定一個(gè)或多個(gè)候選詞的裝置;以及用于將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典的裝置。 在另一方面,總體上,一種系統(tǒng)包括用于識(shí)別文檔中的中文書名號(hào)對的裝置;用于識(shí)別由每對中文書名號(hào)界定的一個(gè)或多個(gè)字符的串的裝置;用于識(shí)別由一個(gè)或多個(gè)字符的串中的每一個(gè)所限定的候選詞的裝置;以及用于將一個(gè)或多個(gè)候選詞添加到輸入法編輯器詞典中的裝置。 在另一方面,總體上,一種計(jì)算機(jī)實(shí)現(xiàn)的方法包括識(shí)別搜索查詢中的候選詞,每
個(gè)候選詞包括一個(gè)或多個(gè)連續(xù)字符;對于每個(gè)候選詞,確定第一計(jì)數(shù),該第一計(jì)數(shù)表示所述
候選詞是搜索查詢中僅有的詞的次數(shù),以及確定第二計(jì)數(shù),該第二計(jì)數(shù)表示所述候選詞和
一個(gè)或多個(gè)其他詞包括在每個(gè)搜索查詢中的次數(shù)。所述方法包括基于所述第一計(jì)數(shù)和所述
第二計(jì)數(shù)之間的關(guān)系,將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。 所述方法的實(shí)現(xiàn)方式可以包括下列特征中的一個(gè)或多個(gè)。將所述候選詞中的一個(gè)
或多個(gè)添加到所述輸入法編輯器詞典中包括當(dāng)所述第一計(jì)數(shù)大于所述第二計(jì)數(shù)時(shí),將候選詞添加到所述輸入法編輯器詞典中。將所述候選詞中的一個(gè)或多個(gè)添加到所述輸入法編輯器詞典中包括當(dāng)所述第一計(jì)數(shù)大于所述第二計(jì)數(shù)并且所述第一計(jì)數(shù)大于閾值時(shí),將候
選詞添加到所述輸入法編輯器詞典中。確定第二計(jì)數(shù)包括,對每個(gè)包括所述候選詞和一個(gè)
或多個(gè)其他詞的搜索查詢的數(shù)目進(jìn)行計(jì)數(shù),其中所述候選詞與一個(gè)或多個(gè)其他詞通過由提
交所述搜索查詢的用戶輸入的一個(gè)或多個(gè)空格或標(biāo)點(diǎn)符號(hào)分開。該方法包括從搜索日志獲
得所述搜索查詢。所述搜索日志包括由搜索服務(wù)的用戶提交的搜索查詢。
在另一方面,總體上,一種裝置包括數(shù)據(jù)存儲(chǔ)單元,用于存儲(chǔ)搜索查詢;以及處
理設(shè)備,用于識(shí)別搜索查詢中的候選詞,每個(gè)候選詞包括一個(gè)或多個(gè)連續(xù)字符。對于每個(gè)候
選詞,所述處理設(shè)備確定第一計(jì)數(shù),該第一計(jì)數(shù)表示所述候選詞是搜索查詢中僅有的詞的
次數(shù),并且確定第二計(jì)數(shù),該第二計(jì)數(shù)表示所述候選詞和一個(gè)或多個(gè)其他詞包括在每個(gè)搜
索查詢中的次數(shù)。所述處理設(shè)備基于所述第一計(jì)數(shù)和所述第二計(jì)數(shù)之間的關(guān)系,將所述候
選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。 所述裝置的實(shí)現(xiàn)方式可以包括以下特征中的一個(gè)或多個(gè)。當(dāng)所述第一計(jì)數(shù)大于所述第二計(jì)數(shù)時(shí),所述處理設(shè)備將候選詞添加到所述輸入法編輯器詞典中。當(dāng)所述第一計(jì)數(shù)大于所述第二計(jì)數(shù)并且所述第一計(jì)數(shù)大于閾值時(shí),所述處理設(shè)備將候選詞添加到所述輸入法編輯器詞典中。所述處理設(shè)備對每個(gè)包括候選詞和一個(gè)或多個(gè)其他詞的搜索查詢的數(shù)目進(jìn)行計(jì)數(shù),其中所述候選詞與一個(gè)或多個(gè)其他詞通過由提交所述搜索查詢的用戶輸入的一個(gè)或多個(gè)空格或標(biāo)點(diǎn)符號(hào)分開。 在另一方面,總體上,一種系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元,用于存儲(chǔ)搜索查詢;以及處理引擎,其存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,并且包括可由處理設(shè)備執(zhí)行的指令,當(dāng)由處理設(shè)備執(zhí)行時(shí),所述指令使得處理設(shè)備識(shí)別所述搜索查詢中的候選詞,每個(gè)候選詞包括一個(gè)或多個(gè)連續(xù)字符。所述處理引擎包括指令,當(dāng)被執(zhí)行時(shí)所述指令使得處理設(shè)備為每個(gè)候選詞確定第一計(jì)數(shù),該第一計(jì)數(shù)表示所述候選詞是搜索查詢中僅有的詞的次數(shù),并且確定第二計(jì)數(shù),該第二計(jì)數(shù)表示所述候選詞和一個(gè)或多個(gè)其他詞包括在每個(gè)搜索查詢中的次數(shù)。所述處理引擎包括指令,當(dāng)被執(zhí)行時(shí)所述指令使得處理設(shè)備基于所述第一計(jì)數(shù)和所述第二計(jì)數(shù)之間的關(guān)系,將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。 所述系統(tǒng)的實(shí)現(xiàn)方式可以包括下列特征中的一個(gè)或多個(gè)。所述處理引擎包括可由
處理設(shè)備執(zhí)行的指令,當(dāng)由處理設(shè)備執(zhí)行時(shí),所述指令使得處理設(shè)備在所述第一計(jì)數(shù)大于
所述第二計(jì)數(shù)時(shí)將候選詞添加到所述輸入法編輯器詞典中。所述處理引擎包括可由處理設(shè)
備執(zhí)行的指令,當(dāng)由處理設(shè)備執(zhí)行時(shí),所述指令使得處理設(shè)備在所述第一計(jì)數(shù)大于所述第
二計(jì)數(shù)并且所述第一計(jì)數(shù)大于閾值時(shí)將候選詞添加到所述輸入法編輯器詞典中。所述處理
引擎包括可由處理設(shè)備執(zhí)行的指令,當(dāng)由處理設(shè)備執(zhí)行時(shí),所述指令使得處理設(shè)備對每個(gè)
包括候選詞和一個(gè)或多個(gè)其他詞的搜索查詢的數(shù)目進(jìn)行計(jì)數(shù),其中所述候選詞和一個(gè)或多
個(gè)其他詞通過由提交搜索查詢的用戶輸入的一個(gè)或多個(gè)空格或標(biāo)點(diǎn)符號(hào)分開。 在另一方面,總體上,一種裝置包括詞典,所述詞典具有基于第一計(jì)數(shù)和第二計(jì)
數(shù)識(shí)別的詞,該第一計(jì)數(shù)表示該詞是搜索查詢中僅有的詞的次數(shù),該第二計(jì)數(shù)表示該詞和
一個(gè)或多個(gè)其他詞包括在每個(gè)搜索查詢中的次數(shù)。所述裝置包括輸入法編輯器,其被配置
為從所述詞典中選擇詞。 所述裝置的實(shí)現(xiàn)方式可以包括下列特征中的一個(gè)或多個(gè)。所述輸入法編輯器包括中文輸入法編輯器。所述詞包括漢字字符。從搜索日志中識(shí)別所述搜索查詢。 在另一方面,總體上,一種系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元和處理引擎。該數(shù)據(jù)存儲(chǔ)單元用
于存儲(chǔ)詞典,所述詞典包括基于第一計(jì)數(shù)和第二計(jì)數(shù)識(shí)別的詞,該第一計(jì)數(shù)表示該詞是搜
索查詢中僅有的詞的次數(shù),該第二計(jì)數(shù)表示該詞和一個(gè)或多個(gè)其他詞包括在每個(gè)搜索查詢
中的次數(shù)。所述處理引擎存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,并且包括可由處理設(shè)備執(zhí)行的指令,當(dāng)
由處理設(shè)備執(zhí)行時(shí),所述指令使得處理設(shè)備提供輸入法編輯器,以使得用戶能夠從所述詞
典中選擇詞。 在另一方面,總體上,一種系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元和處理引擎。該數(shù)據(jù)存儲(chǔ)單元用于存儲(chǔ)詞典,所述詞典包括基于第一計(jì)數(shù)和第二計(jì)數(shù)識(shí)別的詞,該第一計(jì)數(shù)表示該詞是搜索查詢中僅有的詞的次數(shù),該第二計(jì)數(shù)表示該詞和一個(gè)或多個(gè)其他詞包括在每個(gè)搜索查詢中的次數(shù)。所述處理引擎使得處理設(shè)備提供輸入法編輯器,以使得用戶能夠從所述詞典選擇詞。 在另一方面,總體上, 一種系統(tǒng)包括用于基于第一計(jì)數(shù)和第二計(jì)數(shù)識(shí)別候選詞的裝置,該第一計(jì)數(shù)表示該詞是搜索查詢中僅有的詞的次數(shù),該第二計(jì)數(shù)表示該詞和一個(gè)或多個(gè)其他詞包括在每個(gè)搜索查詢中的次數(shù);以及用于將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中的裝置。 在此公開的系統(tǒng)和方法可以具有以下優(yōu)點(diǎn)中的一個(gè)或多個(gè)。能夠基于文檔語料庫和查詢?nèi)罩咀詣?dòng)建立或增強(qiáng)詞典。利用所述詞典的ME能夠更準(zhǔn)確地識(shí)別候選詞以供選擇。而且,通過使用在此公開的系統(tǒng)和方法,能夠高效地更新詞典,并且能夠改進(jìn)處理詞符文字(中文字符)的計(jì)算機(jī)的速度和效率,因此能夠提高用戶輸入詞符文字的速度。
在附圖和下面的描述中闡述在本說明書中描述的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)。根據(jù)所述描述、附圖以及權(quán)利要求,所述主題的其他特征、方面和優(yōu)點(diǎn)將變得清楚易懂。
圖1是可以用來實(shí)現(xiàn)在此描述的系統(tǒng)和方法的示例設(shè)備的框圖。
圖2是示例編輯器系統(tǒng)的框圖。
圖3是示例輸入法編輯器環(huán)境的示圖。
圖4是示例的詞和短語確定引擎的示圖。 圖5是用于基于文檔語料庫確定詞和短語的示例過程的流程圖。
圖6是用于基于搜索查詢?nèi)罩敬_定詞和短語的示例過程的流程圖。
圖7是用于確定詞和短語的示例過程的流程圖。
圖8是示例的詞和短語確定引擎的示圖。 在各個(gè)附圖中,相同的參考數(shù)字和附圖標(biāo)記表示相同的元素。
具體實(shí)施例方式
圖1是可以用來實(shí)現(xiàn)在此描述的系統(tǒng)和方法的示例設(shè)備100的框圖。設(shè)備100可以例如被實(shí)現(xiàn)在諸如個(gè)人計(jì)算機(jī)設(shè)備的計(jì)算機(jī)設(shè)備中,或被實(shí)現(xiàn)在諸如移動(dòng)電話、移動(dòng)通信設(shè)備、個(gè)人數(shù)字助理(PDA)等的其他電子設(shè)備中。 示例設(shè)備100包括處理設(shè)備102、第一數(shù)據(jù)存儲(chǔ)單元104、第二數(shù)據(jù)存儲(chǔ)單元106、
8輸入設(shè)備108、輸出設(shè)備110和網(wǎng)絡(luò)接口 112。可以使用包括例如數(shù)據(jù)總線和主板的總線系統(tǒng)114來建立和控制在組件102、104、106、108、110和112之間的數(shù)據(jù)通信。也可以使用其他示例系統(tǒng)架構(gòu)。 處理設(shè)備102可以例如包括一個(gè)或多個(gè)微處理器。第一數(shù)據(jù)存儲(chǔ)單元104可以例如包括諸如動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器的隨機(jī)存取存儲(chǔ)器存儲(chǔ)設(shè)備、或其他類型的計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)器設(shè)備。第二數(shù)據(jù)存儲(chǔ)單元106可以例如包括一個(gè)或多個(gè)硬盤驅(qū)動(dòng)器、閃速存儲(chǔ)器和/或只讀存儲(chǔ)器、或其他類型的計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)器設(shè)備。 示例輸入設(shè)備108可以包括鍵盤、鼠標(biāo)、觸筆等,并且示例輸出設(shè)備110可以包括顯示設(shè)備、音頻設(shè)備等。網(wǎng)絡(luò)接口 112可以例如包括有線或無線網(wǎng)絡(luò)設(shè)備,其可操作用于向網(wǎng)絡(luò)116發(fā)送數(shù)據(jù)和從網(wǎng)絡(luò)116接收數(shù)據(jù)。網(wǎng)絡(luò)116可以包括一個(gè)或多個(gè)局域網(wǎng)(LAN)和/或廣域網(wǎng)(WAN),如因特網(wǎng)。 在一些實(shí)現(xiàn)方式中,設(shè)備100可以在諸如數(shù)據(jù)存儲(chǔ)單元106的數(shù)據(jù)存儲(chǔ)單元中包括輸入法編輯器(IME)代碼101。輸入法編輯器代碼101可以由指令定義,所述指令在執(zhí)行時(shí)使得處理設(shè)備102執(zhí)行輸入法編輯功能。在實(shí)現(xiàn)方式中,輸入法編輯器代碼101可以例如包括解譯指令,如能在網(wǎng)絡(luò)瀏覽器環(huán)境下執(zhí)行的腳本指令,例如JavaScript或ECMAScript指令。也可以使用其他實(shí)現(xiàn)方式,例如編譯指令、單機(jī)應(yīng)用、applet (Java小應(yīng)用程序)、插件模塊等。 輸入法編輯器代碼101的執(zhí)行生成或啟動(dòng)輸入法編輯器實(shí)例103。輸入法編輯器實(shí)例103可以定義輸入法編輯器環(huán)境,例如用戶界面,并且可以有助于在設(shè)備100處理一個(gè)或多個(gè)輸入法,在所述處理期間,設(shè)備100可以接收用于輸入字符、表意符號(hào)(ideogram)或符號(hào)(諸如例如漢字字符)的組合輸入(composition input)。例如,用戶可以使用一個(gè)或多個(gè)輸入設(shè)備108(例如,諸如西式鍵盤的鍵盤、具有手寫識(shí)別引擎的觸筆等)來輸入用于識(shí)別漢字字符的組合輸入。在一些示例中,漢字字符可以與多于一個(gè)的組合輸入相關(guān)聯(lián)。
第一數(shù)據(jù)存儲(chǔ)單元104和/或第二數(shù)據(jù)存儲(chǔ)單元106可以存儲(chǔ)組合輸入和字符的關(guān)聯(lián)?;谟脩糨斎?,輸入法編輯器實(shí)例103可以使用數(shù)據(jù)存儲(chǔ)單元104和/或數(shù)據(jù)存儲(chǔ)單元106中的信息來識(shí)別輸入所代表的一個(gè)或多個(gè)候選字符。在一些實(shí)現(xiàn)方式中,如果識(shí)別出多于一個(gè)的候選字符,則在輸出設(shè)備110上顯示所述候選字符。使用輸入設(shè)備108,用戶可以從候選字符中選擇用戶希望輸入的漢字字符。 在一些實(shí)現(xiàn)方式中,設(shè)備100上的輸入法編輯器實(shí)例103可以接收一個(gè)或多個(gè)拼音組合輸入,并將組合輸入轉(zhuǎn)換成漢字字符。輸入法編輯器實(shí)例103可以例如使用從鍵擊接收的拼音音節(jié)或字符的組合來表示漢字字符。每個(gè)拼音音節(jié)可以例如對應(yīng)于西式鍵盤中的一個(gè)鍵。使用拼音輸入法編輯器,用戶可以利用組合輸入來輸入漢字字符,所述組合輸入包括表示漢字字符的讀音的一個(gè)或多個(gè)拼音音節(jié)。使用拼音ME,用戶也可以利用組合輸入來輸入包括兩個(gè)或更多個(gè)漢字字符的詞,所述組合輸入包括表示漢字字符的讀音的兩個(gè)或更多個(gè)拼音音節(jié)。然而,用于其他語言的輸入法也可以受益于此。 也可以將其他應(yīng)用軟件105存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元104和/或106中,包括網(wǎng)頁瀏覽器、文字處理程序、電子郵件客戶端等。這些應(yīng)用中的每一個(gè)可以生成相應(yīng)的應(yīng)用實(shí)例107。每個(gè)應(yīng)用實(shí)例可以定義這樣的環(huán)境,該環(huán)境通過向用戶呈現(xiàn)數(shù)據(jù)并便利來自用戶的數(shù)據(jù)輸入而便利用戶體驗(yàn)。例如,網(wǎng)頁瀏覽器軟件可以生成搜索引擎環(huán)境;電子郵件軟件可以生成電子郵件環(huán)境;文字處理程序可以生成編輯器環(huán)境等。 在一些實(shí)現(xiàn)方式中,也可以使用可訪問設(shè)備100的遠(yuǎn)程計(jì)算系統(tǒng)118來編輯詞符文字。例如,設(shè)備100可以是經(jīng)由網(wǎng)絡(luò)116提供詞符文字編輯能力的服務(wù)器。在一些示例中,用戶可以使用例如客戶端計(jì)算機(jī)的遠(yuǎn)程計(jì)算系統(tǒng)來編輯存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元104和/或數(shù)據(jù)存儲(chǔ)單元106中的詞符文字。設(shè)備100可以例如通過網(wǎng)絡(luò)接口 112來選擇字符和接收來自用戶的組合輸入。處理設(shè)備102可以例如識(shí)別與所選字符相鄰的一個(gè)或多個(gè)字符,并且基于所接收的組合輸入和相鄰字符來識(shí)別一個(gè)或多個(gè)候選字符。設(shè)備IOO可以將包括候選字符的數(shù)據(jù)通信傳送回遠(yuǎn)程計(jì)算系統(tǒng)。 圖2是示例輸入法編輯器系統(tǒng)120的框圖??梢岳缡褂幂斎敕ň庉嬈鞔a101和相關(guān)聯(lián)的數(shù)據(jù)存儲(chǔ)單元104和106來實(shí)現(xiàn)輸入法編輯器系統(tǒng)120。輸入法編輯器系統(tǒng)120包括輸入法編輯器引擎122、詞典124和組合輸入表126。也可以使用其他存儲(chǔ)架構(gòu)。用戶可以使用頂E系統(tǒng)120來例如通過打出拼音字符而輸入中文詞或短語,并且ME引擎122將搜索詞典124以識(shí)別候選詞典條目,每個(gè)候選詞典條目包括與拼音字符匹配的一個(gè)或多個(gè)中文詞或短語。 詞典124包括條目128,條目128對應(yīng)于在一個(gè)或多個(gè)語言模型中使用的詞符文字的字符、詞或短語,以及基于羅馬語的字母或西式字母(例如英語、德語、西班牙語等)的字符、詞、和短語。每個(gè)詞對應(yīng)于某種含義并且可以包括一個(gè)或多個(gè)字符。例如,含義為"即ple"的詞"蘋果"包括兩個(gè)漢字字符"蘋"和"果",分別對應(yīng)于拼音輸入"ping"和"guo"。字符"果"也是詞,其含義為"fruit"(水果)。詞典條目128可以包括例如成語(例如"胸有成竹")、專有名稱(例如"奧地利共和國")、歷史人物或名人的名字(例如"成吉思汗")、技術(shù)術(shù)語(例如"全球定位系統(tǒng)")、短語(例如"一去不復(fù)返")、書名(例如"紅樓夢")、藝術(shù)作品名稱(例如"清明上河圖")或電影名(例如"臥虎藏龍")等,每一個(gè)包括一個(gè)或多個(gè)字符。 類似地,詞典條目128可以包括例如地理實(shí)體或政治實(shí)體的名稱、商號(hào)的名稱、教育機(jī)構(gòu)的名稱、動(dòng)物或植物的名稱、機(jī)器名稱、歌曲名稱、游戲名稱、軟件程序名稱、消費(fèi)品名稱等。詞典124可以包括例如成千上萬的字符、詞和短語。 在一些實(shí)現(xiàn)方式中,詞典124包括有關(guān)兩個(gè)字符之間的關(guān)系的信息。例如,詞典124可以包括根據(jù)與字符相鄰的其他字符而分配給所述字符的分值或概率值。詞典124可以包括條目分值或條目概率值,每個(gè)條目分值或條目概率值與詞典條目128中的一個(gè)相關(guān)聯(lián),以指示通常條目128被使用的頻率。 組合輸入數(shù)據(jù)存儲(chǔ)單元126包括組合輸入與存儲(chǔ)在詞典124中的條目128之間的關(guān)聯(lián)。在一些實(shí)現(xiàn)方式中,組合輸入數(shù)據(jù)存儲(chǔ)單元126可以將詞典124中的每個(gè)條目128鏈接到輸入法編輯器引擎122所使用的組合輸入(例如拼音輸入)。例如輸入法編輯器引擎122可以使用詞典124和組合輸入數(shù)據(jù)存儲(chǔ)單元126中的信息來將詞典124中的一個(gè)或多個(gè)條目128與組合輸入數(shù)據(jù)存儲(chǔ)單元126中的一個(gè)或多個(gè)組合輸入相關(guān)聯(lián)和/或利用組合輸入數(shù)據(jù)存儲(chǔ)單元126中的一個(gè)或多個(gè)組合輸入識(shí)別詞典124中的一個(gè)或多個(gè)條目128。也可以使用其他關(guān)聯(lián)。 在一些實(shí)現(xiàn)方式中,可以對ME系統(tǒng)120中的候選選擇排序,并且可以根據(jù)排序在輸入法編輯器中呈現(xiàn)候選選擇。
圖3是呈現(xiàn)五個(gè)經(jīng)排序的候選選擇302的示例輸入法編輯器環(huán)境300的示圖。每個(gè)候選選擇可以是詞典條目128或詞典條目128的組合?;谄匆糨斎?04識(shí)別候選選擇302。選擇指示符308包圍第一候選選擇,g卩"谷歌",指示該第一候選選擇被選擇。用戶也可以使用數(shù)字鍵來選擇候選選擇,或使用上下箭頭鍵來移動(dòng)選擇指示符308以選擇候選選擇。 如上所述,ME引擎122訪問詞典124,以識(shí)別與用戶輸入的拼音字符相關(guān)聯(lián)的候選條目。可以定期地用新詞或新名稱更新詞典124。例如,通常由IME系統(tǒng)120的用戶打出的名稱和詞可能響應(yīng)于新聞事件和社會(huì)中的變化而隨時(shí)間改變。在一些實(shí)現(xiàn)方式中,可以基于從文檔和搜索查詢中識(shí)別出的字符、詞和短語來建立和/或更新詞典124。
圖4是識(shí)別詞典條目128 (例如中文字符、詞和短語)的詞和短語確定引擎400的例子的示圖。在一些實(shí)現(xiàn)方式中,引擎400使用基于上下文信號(hào)的確定引擎406和/或基于查詢的確定引擎408來識(shí)別中文詞和短語?;谏舷挛男盘?hào)的確定引擎406處理文檔語料庫402中的文檔420,以使用上下文信號(hào)來識(shí)別詞和短語?;诓樵兊拇_定引擎408搜索搜索查詢?nèi)罩?04中的查詢,以基于詞或短語在搜索查詢中是單獨(dú)出現(xiàn)還是與一個(gè)或多個(gè)其他詞或短語組合出現(xiàn)來識(shí)別中文詞和短語。可以在合并引擎414中合并識(shí)別出的詞和短語,并將其作為條目128添加到詞典124中。在一些實(shí)現(xiàn)方式中,可以僅使用所述更新方法中的一種,例如可以通過使用文檔語料庫402或搜索查詢?nèi)罩?04來更新詞典124。
在一些實(shí)現(xiàn)方式中,將基于上下文信號(hào)的確定引擎406配置為使用標(biāo)識(shí)有界內(nèi)容的上下文信號(hào)來從文檔420中確定候選詞典條目422。示例的上下文信號(hào)包括標(biāo)識(shí)有界內(nèi)容的標(biāo)記、符號(hào)、超文本標(biāo)記語言標(biāo)簽和/或格式,諸如引號(hào)、特殊標(biāo)識(shí)符字符、下劃線等。
示例的上下文信號(hào)可以包括中文雙書名號(hào)(例如《》)和/或中文單書名號(hào)(例如〈>)。中文書名號(hào)通常用于標(biāo)記文檔和/或文化作品(例如書籍、文章、報(bào)紙、期刊和雜志)的標(biāo)題或名稱。中文書名號(hào)也可以用來標(biāo)記諸如例如歌曲、電影、電視節(jié)目、游戲、歌劇、戲劇、交響樂、舞蹈、繪畫、雕塑和規(guī)章等的文化作品的標(biāo)題或名稱。書名號(hào)可以標(biāo)識(shí)多個(gè)標(biāo)題,例如,當(dāng)?shù)谝粯?biāo)題包括第二標(biāo)題時(shí),使用雙書名號(hào)標(biāo)記第一標(biāo)題,使用單書名號(hào)標(biāo)記第二標(biāo)題。 中文書名號(hào)是標(biāo)記詞或短語的邊界的上下文信號(hào)。因而,當(dāng)一個(gè)或多個(gè)字符(例如漢字字符)出現(xiàn)在一對中文書名號(hào)內(nèi)時(shí),該一個(gè)或多個(gè)字符對應(yīng)于一個(gè)或多個(gè)詞或短語的可能性很大。通過中文書名號(hào)標(biāo)記的文化作品的名稱或標(biāo)題的下列例子是例示性的《紅樓夢》("Dream of the Red Chamber",書籍),《清明上河圖》("Upper River During theQing Ming Festival",繪畫)、《臣卜虎藏龍》("Crouching Tiger, Hidden Dragon",電影)和《貝多芬第九交響曲》("Beethoven' s Ninth Symphony")。 文檔420可以例如包括可以通過網(wǎng)絡(luò)訪問的文檔。文檔420可以包括例如網(wǎng)頁、
電子書籍、期刊文章、電子郵件消息、廣告、即時(shí)消息、博客、法律文檔或其他類型的文檔。文檔語料庫402可以包括涵蓋諸如新聞、文學(xué)、電影、音樂、政治辯論、科學(xué)發(fā)現(xiàn)、法律問題、健康問題、環(huán)境問題等等的范圍廣泛的各種主題的文檔402??梢酝ㄟ^從例如局域網(wǎng)或廣域網(wǎng)(諸如公司內(nèi)聯(lián)網(wǎng)或公共因特網(wǎng))收集文檔420來建立文檔語料庫402。因此所處理的文檔420的數(shù)目可以在幾百萬個(gè)文檔的范圍內(nèi)或更多。文檔420可以包括例如漢字字符、英文字符、數(shù)字、標(biāo)點(diǎn)符號(hào)、符號(hào)、HTML代碼等。也可以使用其他文檔,例如文學(xué)作品的電子合
11集、電子圖書館等。 在一些實(shí)現(xiàn)方式中,上下文信號(hào)確定引擎406掃描每個(gè)文檔420,以識(shí)別中文書名號(hào)對。對于所識(shí)別的每對中文書名號(hào),引擎406識(shí)別由字符串(例如由一對中文書名號(hào)界定的一個(gè)或多個(gè)漢字)所限定的候選條目422,并將候選條目422添加到第一詞典410中。候選條目422可以包括一個(gè)或多個(gè)詞或短語。如果一對中文書名號(hào)內(nèi)的項(xiàng)目(term)被諸如連字號(hào)或冒號(hào)的標(biāo)點(diǎn)符號(hào)分開,則可以將該項(xiàng)目看作兩個(gè)分開的項(xiàng)目。例如,引擎406可以處理《極品飛車地下狂颶》(計(jì)算機(jī)游戲"Need for Speed -Underground"的中文名稱),并且確定存在兩個(gè)候選條目422 :"極品飛車"是一個(gè)候選條目422,"地下狂颶"是另一個(gè)候選條目422。 每個(gè)候選條目422與一計(jì)數(shù)相關(guān)聯(lián),該計(jì)數(shù)表示該候選條目422在文檔420中的出現(xiàn)次數(shù)。在一些實(shí)現(xiàn)方式中,將引擎406配置成候選條目422在相同文檔420中的每次出現(xiàn)都導(dǎo)致計(jì)數(shù)增加1。因而,例如,如果候選條目422在一個(gè)文檔420中出現(xiàn)三次,在另一個(gè)文檔420中出現(xiàn)五次,則將該候選條目的計(jì)數(shù)增加8。在一些實(shí)現(xiàn)方式中,將引擎406配置為每次候選條目422在不同的文檔中出現(xiàn)時(shí)將計(jì)數(shù)增加l,而不管候選條目422在每個(gè)文檔內(nèi)出現(xiàn)的次數(shù)如何。在這種情況下,例如,如果候選條目422在一個(gè)文檔420中出現(xiàn)三次,并且在另一文檔420中出現(xiàn)五次,則將與該候選條目422相關(guān)聯(lián)的計(jì)數(shù)增加2。
在一些實(shí)現(xiàn)方式中,引擎406識(shí)別界定中文字符并且沒有界定其他語言的字符的中文書名號(hào)對。在這種情況下,如果一對書名號(hào)界定了中文詞和英文詞,則不將該中文詞看作是候選條目。在一些實(shí)現(xiàn)方式中,引擎406處理由每對中文書名號(hào)界定的文本以除去非中文字符,并且將剩余的中文字符作為候選條目422添加到第一詞典410中。
在一些實(shí)現(xiàn)方式中,引擎406設(shè)置每個(gè)候選條目422中包括的字符的數(shù)目的范圍。例如,引擎406可以要求每個(gè)候選條目422具有至少三個(gè)中文字符并且不多于十個(gè)中文字符。 在對所有文檔420進(jìn)行處理以識(shí)別由中文書名號(hào)標(biāo)記的所有候選條目422之后,引擎406過濾候選條目422,以去除計(jì)數(shù)小于閾值的候選條目。在一些實(shí)現(xiàn)方式中,可以將閾值設(shè)置在20至40之間,例如30。可以例如利用閾值來去除包含錯(cuò)誤、具有很少使用的詞或短語、或由于某個(gè)其他原因而很少出現(xiàn)的候選條目422。 在一些實(shí)現(xiàn)方式中,將基于查詢的確定引擎408配置為從搜索查詢?nèi)罩?04中識(shí)別候選詞典條目416。搜索查詢?nèi)罩?04可以包括由一個(gè)或多個(gè)搜索服務(wù)(例如谷歌搜索)的多個(gè)用戶在一段時(shí)間內(nèi)提交的搜索查詢418。引擎408通過找到搜索查詢418中的連續(xù)字符串來識(shí)別候選條目416。搜索查詢418可以包括由提交搜索查詢418的用戶輸入的一個(gè)或多個(gè)空格或標(biāo)點(diǎn)符號(hào)分開的一個(gè)或多個(gè)候選條目416。例如,搜索查詢"世界最快超級(jí)電腦"包括由空格分開的短語"世界最快"(意思是"world' s fastest")和詞"超級(jí)電腦"(意思是"supercomputer")。引擎408將短語"世界最快"和詞"超級(jí)電腦"中的每一個(gè)識(shí)別為候選條目416。 在一些實(shí)現(xiàn)方式中,引擎408為每個(gè)候選條目416分配兩個(gè)計(jì)數(shù)數(shù)字,即查詢計(jì)數(shù)qf和用戶分割計(jì)數(shù)sf 。使用查詢計(jì)數(shù)qf來表示候選條目416是搜索查詢中僅有的詞或短語的次數(shù)。例如,與條目"超級(jí)電腦"相關(guān)聯(lián)的查詢計(jì)數(shù)qf表示僅包括詞"超級(jí)電腦"的搜索查詢418的數(shù)目。使用用戶分割計(jì)數(shù)sf來表示每一個(gè)都包括候選條目416和一個(gè)或多個(gè)
12其他詞或短語的搜索查詢418的數(shù)目,其中候選條目416和一個(gè)或多個(gè)其他詞或短語可以通過例如由提交搜索查詢的用戶輸入的一個(gè)或多個(gè)空格或標(biāo)點(diǎn)符號(hào)分開。將候選條目416及相關(guān)聯(lián)的查詢計(jì)數(shù)qf和用戶分割計(jì)數(shù)sf存儲(chǔ)在第二詞典412中。 例如,如果引擎408找到包括"世界最快超級(jí)電腦"的搜索查詢418,則將候選條目"世界最快"的用戶分割計(jì)數(shù)sf遞增1,并且還將候選條目"超級(jí)電腦"的用戶分割計(jì)數(shù)sf遞增1。如果引擎408找到僅包括"超級(jí)電腦"的搜索查詢418,則將候選條目"超級(jí)電腦"的查詢計(jì)數(shù)遞qf增1。 在引擎408處理了所有搜索查詢以確定所有候選條目416以及相關(guān)聯(lián)的查詢計(jì)數(shù)qf和用戶分割計(jì)數(shù)sf之后,引擎408從詞典412中去除用戶分割計(jì)數(shù)sf等于或大于查詢計(jì)數(shù)qf(即sf >qf)的候選條目416。引擎408還去除查詢計(jì)數(shù)qf小于閾值(即qf <閾值)的候選條目416。在一些實(shí)現(xiàn)方式中,可以將閾值設(shè)置為在3到IO范圍內(nèi)的值。查詢計(jì)數(shù)qf是搜索查詢中候選詞的頻率的量度。去除具有低查詢計(jì)數(shù)qf的候選條目可以去除包含錯(cuò)誤或很少使用的候選條目416。 在詞典412中剩余的候選條目416是查詢計(jì)數(shù)qf大于用戶分割計(jì)數(shù)sf (即qf >sf)并且在搜索查詢418中至少出現(xiàn)特定次數(shù)(即qf ^閾值)的候選條目。當(dāng)特定的連續(xù)字符串單獨(dú)在搜索查詢418中出現(xiàn)的次數(shù)大于該串與一個(gè)或多個(gè)其他串或字符一起在搜索查詢418中出現(xiàn)的次數(shù)時(shí),該特定的連續(xù)字符串對應(yīng)于一個(gè)或多個(gè)詞或短語并且適合作為ME詞典124中的詞典條目128的可能性很大。 在一些實(shí)現(xiàn)方式中,引擎400包括合并引擎414,合并引擎414通過去除重復(fù)詞典條目來合并來自第一詞典410的詞典條目422和來自第二詞典412的詞典條目416。非重復(fù)的詞典條目被添加到頂E詞典124中。 圖5是用于基于文檔語料庫(例如文檔語料庫402)確定詞和短語的示例過程500
的流程圖。過程500例如可以在包括一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)的系統(tǒng)中實(shí)現(xiàn)。 過程500識(shí)別文檔中的上下文信號(hào)(502),并且識(shí)別由上下文信號(hào)界定的字符
(504)。例如,上下文信號(hào)可以是中文書名號(hào),字符可以是漢字字符,并且文檔可以是圖4的
文檔語料庫402中的文檔420。例如,圖4的引擎406可以識(shí)別上下文信號(hào)和由上下文信號(hào)
界定的字符。 過程500識(shí)別由上下文信號(hào)界定的字符所限定的一個(gè)或多個(gè)候選詞(506)。例如,候選詞可以是圖4的條目422。 過程500將一個(gè)或多個(gè)候選詞添加到輸入法編輯器詞典中(508)。例如,詞典可以是圖4的第一詞典410或圖2的ME詞典124。 圖6是用于基于搜索查詢?nèi)罩?例如搜索查詢?nèi)罩?04)確定詞和短語的示例過程600的流程圖。過程600例如可以在包括一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)的系統(tǒng)中實(shí)現(xiàn)。
過程600識(shí)別搜索查詢中的候選詞,每個(gè)候選詞包括一個(gè)或多個(gè)連續(xù)的字符(602)。例如,字符可以是漢字字符,候選詞可以是條目416,并且搜索查詢可以是圖4的搜索查詢?nèi)罩?04的搜索查詢408。例如,引擎408可以識(shí)別搜索查詢418中的候選詞。
對于每個(gè)候選詞,過程600確定第一計(jì)數(shù)(604)和第二計(jì)數(shù)(606),該第一計(jì)數(shù)表示該候選詞是搜索查詢中僅有的詞的次數(shù),并且該第二計(jì)數(shù)表示該候選詞和一個(gè)或多個(gè)其他詞一起包括在每個(gè)搜索查詢中的次數(shù)。例如,在由第二計(jì)數(shù)所計(jì)數(shù)的每個(gè)搜索查詢中,候選詞和一個(gè)或多個(gè)其他詞可以通過由用戶輸入的一個(gè)或多個(gè)空格或標(biāo)點(diǎn)符號(hào)分開。引擎 408可以確定第一計(jì)數(shù)和第二計(jì)數(shù),例如qf和sf 。 在確定已處理了所有詞之后(608),過程600基于第一計(jì)數(shù)和第二計(jì)數(shù)之間的關(guān) 系將候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中(610)。例如,詞典可以是圖4的第 一詞典410或圖2的IME詞典124。例如,引擎408可以在第一計(jì)數(shù)大于第二計(jì)數(shù)時(shí)將候選 詞添加到詞典中。 在一些實(shí)現(xiàn)方式中,可以將過程500和600進(jìn)行組合,并且可以通過合并過程將詞 和短語添加到詞典中。 圖7是用于基于文檔語料庫(例如文檔語料庫402)和搜索查詢?nèi)罩?例如搜索 查詢?nèi)罩?04)確定詞和短語的示例過程700的流程圖。過程700例如可以在包括一個(gè)或 多個(gè)服務(wù)器計(jì)算機(jī)的系統(tǒng)中實(shí)現(xiàn)。過程700包括兩個(gè)過程722和724,過程722和724可以 并行執(zhí)行以生成第一詞典和第二詞典,該第一詞典和第二詞典合并成最終的詞典。
過程722識(shí)別文檔(702)。例如,文檔可以是圖4的文檔語料庫402中的文檔420。
過程722識(shí)別文檔420中的中文書名號(hào)對,并且識(shí)別由中文書名號(hào)對標(biāo)記的字符 串(704)。例如,中文書名號(hào)可以是《》或〈〉,并且字符串可以包括漢字字符。例如,圖4的 引擎406可以識(shí)別中文書名號(hào)和字符串。 過程722將由中文書名號(hào)標(biāo)記的每個(gè)字符串指定為候選條目,并且將候選條目添 加到第一詞典中(706)。過程722還將計(jì)數(shù)與候選條目相關(guān)聯(lián),其中該計(jì)數(shù)表示在文檔中候 選條目出現(xiàn)的次數(shù)。例如,第一詞典可以是圖4的第一詞典410,并且引擎406可以在第一 詞典410中添加或更新候選條目422及相關(guān)聯(lián)的計(jì)數(shù)。 在已處理了所有文檔從而識(shí)別了所有的中文書名號(hào)對、并且已將所有由中文書名
號(hào)標(biāo)記的字符串作為候選條目添加到第一詞典之后,過程722通過將計(jì)數(shù)與閾值進(jìn)行比較
來過濾第一詞典中的候選條目(708)。如果計(jì)數(shù)低于閾值,則從第一詞典中去除與該計(jì)數(shù)相
關(guān)聯(lián)的候選條目。例如,引擎406可以過濾第一詞典410中的候選條目422。 過程724識(shí)別搜索查詢(710)。例如搜索查詢可以是圖4的搜索日志404的搜索
查詢418。 對于每個(gè)搜索查詢,過程724識(shí)別一個(gè)連續(xù)字符串或由空格或不是字符的符號(hào)分 開的多個(gè)連續(xù)字符串,其中所述空格或符號(hào)是由用戶輸入的(712)。例如,字符可以是漢字 字符,并且搜索查詢可以是圖4的搜索查詢418。例如,引擎408可以識(shí)別每個(gè)搜索查詢418 中的一個(gè)或多個(gè)連續(xù)字符串。 過程724識(shí)別由每個(gè)連續(xù)字符串限定的候選條目,并且將候選條目添加到第二詞 典中(714)。過程724還將查詢計(jì)數(shù)qf和用戶分割計(jì)數(shù)sf與每個(gè)候選條目相關(guān)聯(lián)。查詢 計(jì)數(shù)qf表示僅包括該候選條目的搜索查詢的數(shù)目,而用戶分割計(jì)數(shù)sf表示每個(gè)中包括該 候選條目和一個(gè)或多個(gè)其他字符串的搜索查詢的數(shù)目。 例如,候選條目可以是圖4的候選條目416,并且第二詞典可以是第二詞典412。例 如,引擎408可以添加或更新第二詞典412中的候選條目416,并且可以初始化或更新與候 選條目416相關(guān)聯(lián)的查詢計(jì)數(shù)qf和用戶分割計(jì)數(shù)sf 。 在已處理了所有搜索查詢,并且已將所有連續(xù)字符串作為候選條目添加到第二詞 典中之后,過程724過濾第二詞典中的候選條目(716)。過程724將查詢計(jì)數(shù)qf與用戶分割計(jì)數(shù)sf進(jìn)行比較,并且將查詢計(jì)數(shù)qf與閾值進(jìn)行比較。例如,過程722從第二詞典中去 除查詢計(jì)數(shù)qf低于閾值的候選條目,并且去除查詢計(jì)數(shù)qf等于或小于用戶分割計(jì)數(shù)sf的 候選條目。在過濾之后,第二詞典中的候選條目是查詢計(jì)數(shù)qf大于用戶分割計(jì)數(shù)sf、并且 查詢計(jì)數(shù)qf至少是閾值的候選條目。例如,引擎408過濾第二詞典412中的候選條目416。
在完成過程722和724之后,第一詞典和第二詞典中的每一個(gè)都具有候選條目。過 程700通過去除重復(fù)的候選條目來合并第一詞典和第二詞典,以生成最終的詞典(718)。將 最終的詞典中的候選條目添加到IME詞典中(720)。例如,可以使用圖4的合并引擎414來 合并第一詞典410和第二詞典412,并且可以將最終的詞典中的候選條目添加到圖2的ME 詞典124中。 在一些實(shí)現(xiàn)方式中,不是使用中文書名號(hào)來識(shí)別候選詞典條目,而是可以使用 超文本標(biāo)記語言(HTML)標(biāo)題標(biāo)簽來從網(wǎng)頁文檔識(shí)別候選詞典條目。例如,HTML標(biāo)簽對 〈title〉和〈/title〉標(biāo)記HTML文檔的標(biāo)題。可以將由〈title〉和〈/title〉HTML標(biāo)簽界定 的字符串識(shí)別為候選詞典條目,并且如果滿足閾值標(biāo)準(zhǔn)(例如,該字符串在網(wǎng)頁文檔中出 現(xiàn)的次數(shù)大于閾值)則將其添加到詞典124中。 盡管已描述了各種實(shí)現(xiàn)方式,但是也可以使用其他實(shí)現(xiàn)方式。例如,可以使用通過 對步驟重新排序、增加或去除步驟而得到的上面所示的流程的各種形式。而且,盡管已描 述了幾個(gè)實(shí)現(xiàn)方式和方法,但是應(yīng)認(rèn)識(shí)到可預(yù)期許多其他的實(shí)現(xiàn)方式。例如,輸入引擎122 可以能夠?qū)碜晕魇芥I盤的組合輸入映射為輸入中文、日文、韓文和/或印度文字符。在一 些示例中,所描述的一些或所有實(shí)現(xiàn)方式可應(yīng)用于其他輸入法,諸如倉頡輸入法、九方輸入 法、五筆輸入法或其他輸入法。不同類型文檔的權(quán)重值、文檔類型的分類可以與上面描述的 不同。被處理的詞和文檔的數(shù)目、以及文檔語料庫402中的文檔的來源可以與上述那些不 同??梢皂樞虻貓?zhí)行圖7中的過程722和724。在一些實(shí)現(xiàn)方式中,引擎406可以識(shí)別文 檔語料庫402中的非重復(fù)文檔420,并且基于非重復(fù)的文檔識(shí)別候選條目和相關(guān)聯(lián)的計(jì)數(shù)。 在一些實(shí)現(xiàn)方式中,詞典124可以包括從預(yù)先存在的詞典中獲得的字符、詞和短語。
在一些實(shí)現(xiàn)方式中,可以配置圖4的基于上下文信號(hào)的引擎406,從而使計(jì)數(shù)作為 候選條目422在每個(gè)文檔中出現(xiàn)的次數(shù)的函數(shù)而增加。例如,每次候選條目422在同一文 檔中出現(xiàn)時(shí),計(jì)數(shù)可以被增加l,直到計(jì)數(shù)達(dá)到每個(gè)文檔的限制(例如3)。因而,如果上限 是3,并且候選條目422在同一文檔中出現(xiàn)5次,則將計(jì)數(shù)增加3。例如,計(jì)數(shù)可以作為候選 條目422在同一文檔中出現(xiàn)的次數(shù)的對數(shù)函數(shù)而增加。在一些實(shí)現(xiàn)方式中,將引擎406配 置為使得計(jì)數(shù)作為候選條目422在每個(gè)文檔中出現(xiàn)的位置的函數(shù)而增加。例如,如果候選 條目422出現(xiàn)在文檔420的標(biāo)題(或電子郵件消息的主題行)中,則可以將計(jì)數(shù)增加1. 5, 如果候選條目422出現(xiàn)在文檔420的其他位置,則可以將計(jì)數(shù)增加1。也可以使用基于候選 條目422在文檔420中的出現(xiàn)而修改計(jì)數(shù)的其他方法。 在一些實(shí)現(xiàn)方式中,可以使用幾個(gè)詞典,例如法律詞典、醫(yī)學(xué)詞典、科技詞典和普 通詞典??梢詮呐c特定領(lǐng)域相關(guān)聯(lián)的詞典開始建立每個(gè)詞典。使用詞和短語確定引擎400 來處理具有偏向于與詞典相關(guān)聯(lián)的領(lǐng)域的文檔的文檔語料庫和具有偏向于與詞典相關(guān)聯(lián) 的領(lǐng)域的搜索查詢的搜索查詢?nèi)罩尽@?,為了建立法律詞典中的詞的概率值,可以使用具 有偏向于法律領(lǐng)域的文檔的文檔語料庫和具有偏向于法律領(lǐng)域的搜索查詢的搜索查詢?nèi)?志。IME系統(tǒng)120可以允許用戶在輸入字符時(shí)選擇感興趣的領(lǐng)域(例如法律、醫(yī)學(xué)、科技),并且可以從與感興趣的領(lǐng)域相關(guān)的詞典中選擇候選詞。 參考圖8,在一些實(shí)現(xiàn)方式中,基于上下文信號(hào)的引擎406和基于搜索查詢的引擎 408向單個(gè)詞典800進(jìn)行寫入。例如,引擎406處理文檔420,并將候選條目802添加或更 新到詞典800。由引擎406處理的每個(gè)候選條目802與文檔出現(xiàn)計(jì)數(shù)相關(guān)聯(lián),所述文檔出現(xiàn) 計(jì)數(shù)表示在文檔420中候選條目802出現(xiàn)的次數(shù)。引擎408處理搜索查詢418,并將候選條 目802添加或更新到詞典800。由引擎408處理的每個(gè)候選條目802與查詢計(jì)數(shù)和用戶分 割計(jì)數(shù)相關(guān)聯(lián)。 在引擎406和408處理了所有的文檔420和搜索查詢418以確定所有的候選條目 802和相關(guān)聯(lián)的文檔出現(xiàn)計(jì)數(shù)、查詢計(jì)數(shù)和用戶分割計(jì)數(shù)之后,引擎400從詞典800中去除 滿足例如如下的特定標(biāo)準(zhǔn)的候選條目802 :(l)文檔出現(xiàn)計(jì)數(shù)小于第一閾值;(2)用戶分割 計(jì)數(shù)等于或大于查詢計(jì)數(shù);或(3)查詢計(jì)數(shù)小于第二閾值。將剩余的候選條目802添加到 ME詞典124中。在一些實(shí)現(xiàn)方式中,引擎406和408可以直接向ME詞典124進(jìn)行寫入, 以及添加、更新或過濾詞典124中的條目128。 在本說明書中描述的主題和功能操作的實(shí)施例可以以數(shù)字電子電路、或計(jì)算機(jī)軟 件、固件或硬件(包括在本說明書中公開的結(jié)構(gòu)及其結(jié)構(gòu)等價(jià)物)或它們中的一個(gè)或多個(gè) 的組合來實(shí)現(xiàn)。可以將在本說明書中描述的主題的實(shí)施例實(shí)現(xiàn)為一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn) 品,即編碼在有形的程序載體上以供數(shù)據(jù)處理裝置執(zhí)行或控制數(shù)據(jù)處理裝置的操作的計(jì)算 機(jī)程序指令的一個(gè)或多個(gè)模塊。有形的程序載體可以是傳播信號(hào)或計(jì)算機(jī)可讀介質(zhì)。傳播 信號(hào)是人工生成的信號(hào),例如機(jī)器生成的電信號(hào)、光信號(hào)或電磁信號(hào),其被生成以將信息編 碼為用于傳輸?shù)竭m合的接收器裝置以供計(jì)算機(jī)執(zhí)行。計(jì)算機(jī)可讀介質(zhì)可以是機(jī)器可讀存儲(chǔ) 設(shè)備、機(jī)器可讀存儲(chǔ)基片(storage substrate)、存儲(chǔ)器設(shè)備、影響機(jī)器可讀傳播信號(hào)的物 質(zhì)成分、或它們中的一個(gè)或多個(gè)的組合。 術(shù)語"數(shù)據(jù)處理裝置"涵蓋用于處理數(shù)據(jù)的所有裝置、設(shè)備和機(jī)器,例如包括可編 程處理器、計(jì)算機(jī)、多個(gè)處理器或計(jì)算機(jī)。裝置除了硬件外還可以包括創(chuàng)建所討論的計(jì)算機(jī) 程序的執(zhí)行環(huán)境的代碼,例如構(gòu)成處理器固件、協(xié)議棧、數(shù)據(jù)庫管理系統(tǒng)、操作系統(tǒng)或它們 中的一個(gè)或多個(gè)的組合的代碼。 計(jì)算機(jī)程序(也稱為程序、軟件、軟件應(yīng)用、腳本或代碼)可以以任何形式的編程 語言來編寫,包括編譯語言或解釋語言、或者聲明性語言或過程語言,并且其可以以任何形 式來部署,包括作為單機(jī)程序或作為模塊、組件、子例程或適合于在計(jì)算環(huán)境中使用的其它 單元。計(jì)算機(jī)程序不必對應(yīng)于文件系統(tǒng)中的文件??梢詫⒊绦虼鎯?chǔ)在擁有其它程序或數(shù)據(jù) 的文件的一部分中(例如存儲(chǔ)在標(biāo)記語言文檔中的一個(gè)或多個(gè)腳本)、存儲(chǔ)在專用于所討 論的程序的單個(gè)文件中、或存儲(chǔ)在多個(gè)協(xié)作文件中(例如存儲(chǔ)一個(gè)或多個(gè)模塊、子程序或 代碼部分的文件)??梢詫⒂?jì)算機(jī)程序部署為在一個(gè)計(jì)算機(jī)或位于一個(gè)地點(diǎn)或跨多個(gè)地點(diǎn) 分布并且通過通信網(wǎng)絡(luò)互聯(lián)的多個(gè)計(jì)算機(jī)上執(zhí)行。 在本說明書中描述的過程和邏輯流程可以由 一個(gè)或多個(gè)可編程處理器來執(zhí)行,所 述可編程處理器執(zhí)行一個(gè)或多個(gè)計(jì)算機(jī)程序以通過對輸入數(shù)據(jù)進(jìn)行操作并且生成輸出來 執(zhí)行功能。所述過程和邏輯流程也可以由專用邏輯電路來執(zhí)行,并且裝置也可以被實(shí)現(xiàn)為 專用邏輯電路,所述專用邏輯電路例如FPGA(現(xiàn)場可編程門陣列)或ASIC(專用集成電 路)。
作為示例,適合于執(zhí)行計(jì)算機(jī)程序的處理器包括通用和專用微處理器兩者、以及 任何類型的數(shù)字計(jì)算機(jī)的任何一個(gè)或多個(gè)處理器。通常,處理器將從只讀存儲(chǔ)器或隨機(jī)存 取存儲(chǔ)器或它們兩者接收指令和數(shù)據(jù)。計(jì)算機(jī)的必要元件是用于執(zhí)行指令的處理器和用于 存儲(chǔ)指令和數(shù)據(jù)的一個(gè)或多個(gè)存儲(chǔ)設(shè)備。通常,計(jì)算機(jī)也將包括一個(gè)或多個(gè)用于存儲(chǔ)數(shù)據(jù) 的大容量存儲(chǔ)設(shè)備,或者被可操作地耦接到一個(gè)或多個(gè)大容量存儲(chǔ)設(shè)備以從其接收數(shù)據(jù)或 者將向其傳送數(shù)據(jù),或者兩者均可,所述大容量存儲(chǔ)設(shè)備例如磁盤、磁光盤或光盤。然而, 計(jì)算機(jī)并非一定要具有這樣的設(shè)備。此外,計(jì)算機(jī)可被嵌入另一個(gè)設(shè)備中,所述另一個(gè)設(shè) 備例如移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、移動(dòng)音頻或視頻播放器、游戲控制臺(tái)、全球定位系統(tǒng) (GPS)接收器,等等。 適合于存儲(chǔ)計(jì)算機(jī)程序指令和數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)包括所有形式的非易失性 存儲(chǔ)器、介質(zhì)和存儲(chǔ)設(shè)備,作為示例包括例如EPR0M、 EEPR0M和閃存設(shè)備的半導(dǎo)體存儲(chǔ)設(shè) 備;例如內(nèi)部硬盤或可移動(dòng)盤的磁盤;磁光盤;以及CD-ROM和DVD-R0M盤。處理器和存儲(chǔ) 器可由專用邏輯電路補(bǔ)充或者并入專用邏輯電路。 為了提供與用戶的交互,在本說明書中描述的主題的實(shí)施例可被實(shí)現(xiàn)在具有用于 向用戶顯示信息的顯示設(shè)備(例如,CRT(陰極射線管)或LCD(液晶顯示器)監(jiān)視器)和 用戶能夠通過其向計(jì)算機(jī)提供輸入的鍵盤和指示設(shè)備(例如,鼠標(biāo)或軌跡球)的計(jì)算機(jī)上。 也可以使用其它種類的設(shè)備來提供與用戶的交互;例如,提供給用戶的反饋可以是任意形 式的感官反饋,例如視覺反饋、聽覺反饋或觸覺反饋;并且可以以包括聲音、語音或觸覺輸 入的任意形式接收來自用戶的輸入。 在本說明書中描述的主題的實(shí)施例能夠被實(shí)現(xiàn)在計(jì)算系統(tǒng)中,所述計(jì)算系統(tǒng)包括 后端組件,例如作為數(shù)據(jù)服務(wù)器;或包括中間件組件,例如應(yīng)用服務(wù)器;或包括前端組件, 例如具有圖形用戶界面或網(wǎng)頁瀏覽器的客戶端計(jì)算機(jī),用戶能夠通過所述圖形用戶界面或 網(wǎng)頁瀏覽器與在本說明書中描述的主題的實(shí)現(xiàn)方式進(jìn)行交互;或者包括一個(gè)或多個(gè)這樣的 后端組件、中間件組件或前端組件的任意組合。所述系統(tǒng)的組件可以通過任意形式或介質(zhì) 的數(shù)字?jǐn)?shù)據(jù)通信(例如,通信網(wǎng)絡(luò))進(jìn)行互連。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)("LAN")和廣 域網(wǎng)("WAN"),例如因特網(wǎng)。 計(jì)算系統(tǒng)可包括客戶端和服務(wù)器??蛻舳撕头?wù)器通常彼此遠(yuǎn)離并且典型地通過 通信網(wǎng)絡(luò)進(jìn)行交互??蛻舳撕头?wù)器的關(guān)系借助于在各個(gè)計(jì)算機(jī)上運(yùn)行并且彼此具有客戶 端_服務(wù)器關(guān)系的計(jì)算機(jī)程序而產(chǎn)生。 盡管本說明書包含許多具體的實(shí)現(xiàn)方式細(xì)節(jié),但是這些不應(yīng)當(dāng)被解釋為對任何發(fā) 明的范圍或者可能主張的專利權(quán)利的范圍的限制,相反地,應(yīng)被解釋為是對可能特定于具 體發(fā)明的具體實(shí)施例的特征的描述。在本說明書中,在不同實(shí)施例的上下文中描述的某些 特征也可在單個(gè)實(shí)施例中以組合的方式實(shí)現(xiàn)。相反地,在單個(gè)實(shí)施例的上下文中描述的各 種特征也可單獨(dú)地或以任何合適的子組合形式在多個(gè)實(shí)施例中實(shí)現(xiàn)。此外,盡管特征可能 在上面被描述為以某種組合形式起作用,甚至最初被主張為以某種組合形式起作用,但是 來自所主張的組合的一個(gè)或多個(gè)特征在一些情況下可從組合中去除,并且所主張的組合可 被指向子組合或子組合的變型。 類似地,雖然操作在附圖中以特定的次序描述,但是這不應(yīng)當(dāng)被理解為必須以示 出的特定次序或以順序地次序來執(zhí)行這些操作,或者必須執(zhí)行所有圖示的操作,才能獲得
17期望的結(jié)果。在某些情況中,多任務(wù)和并行處理可能是有益的。此外,在上面描述的實(shí)施例 中的各個(gè)系統(tǒng)組件的分割不應(yīng)當(dāng)被理解為在所有的實(shí)施例中必須是這樣的分割,并且應(yīng)當(dāng) 理解所描述的程序組件和系統(tǒng)通??梢员灰黄鸺稍趩蝹€(gè)軟件產(chǎn)品中或打包到多個(gè)軟件 產(chǎn)品中。 已描述了在本說明書中描述的主題的特定實(shí)施例。其它實(shí)施例也在所附權(quán)利要求 書的范圍內(nèi)。例如,可以以不同的次序執(zhí)行在權(quán)利要求書中敘述的動(dòng)作而仍然獲得期望的 結(jié)果。作為一個(gè)示例,在附圖中描述的過程并非必須要求示出的特定次序或者順序的次序 才能獲得期望的結(jié)果。在某些實(shí)現(xiàn)方式中,多任務(wù)和并行處理可能是有益的。
權(quán)利要求
一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括識(shí)別文檔中的上下文信號(hào);識(shí)別由上下文信號(hào)界定的字符;識(shí)別由上下文信號(hào)界定的字符所限定的一個(gè)或多個(gè)候選詞;以及將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。
2. 如權(quán)利要求1所述的方法,其中識(shí)別文檔中的上下文信號(hào)包括識(shí)別中文書名號(hào)。
3. 如權(quán)利要求1所述的方法,其中識(shí)別由上下文信號(hào)界定的字符包括識(shí)別由上下文信號(hào)界定的漢字字符。
4. 如權(quán)利要求1所述的方法,其中所述候選詞包括中文詞。
5. 如權(quán)利要求1所述的方法,其中識(shí)別文檔中的上下文信號(hào)包括識(shí)別電子文檔中的超文本標(biāo)記語言標(biāo)簽。
6. 如權(quán)利要求1所述的方法,其中所述輸入法編輯器詞典包括中文輸入法編輯器詞曲.。
7. 如權(quán)利要求1所述的方法,包括確定每個(gè)候選詞的計(jì)數(shù)。
8. 如權(quán)利要求7所述的方法,其中將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中包括將具有超過閾值的計(jì)數(shù)的候選詞添加到輸入法編輯器詞典中。
9. 如權(quán)利要求7所述的方法,其中識(shí)別文檔中的上下文信號(hào)包括識(shí)別非重復(fù)的文檔。
10. 如權(quán)利要求9所述的方法,其中確定每個(gè)候選詞的計(jì)數(shù)包括僅僅基于非重復(fù)的文檔確定每個(gè)候選詞的計(jì)數(shù)。
11. 如權(quán)利要求1所述的方法,其中所述文檔包括從因特網(wǎng)獲得的網(wǎng)頁文檔。
12. 如權(quán)利要求1所述的方法,包括識(shí)別搜索查詢中的候選詞并將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。
13. 如權(quán)利要求12所述的方法,其中識(shí)別搜索查詢中的候選詞包括對于每個(gè)候選詞,確定第一計(jì)數(shù),該第一計(jì)數(shù)表示該候選詞是搜索查詢中僅有的詞的次數(shù),以及確定第二計(jì)數(shù),該第二計(jì)數(shù)表示在每個(gè)搜索查詢中包括所述候選詞和一個(gè)或多個(gè)其他詞的次數(shù),以及基于所述第一計(jì)數(shù)和第二計(jì)數(shù)之間的關(guān)系,將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。
14. 一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括識(shí)別文檔中的中文書名號(hào)對;識(shí)別由每對中文書名號(hào)標(biāo)記的一個(gè)或多個(gè)字符所限定的候選詞;以及將一個(gè)或多個(gè)候選詞添加到輸入法編輯器詞典中。
15. 如權(quán)利要求14所述的方法,其中所述中文書名號(hào)包括單書名號(hào)或雙書名號(hào)。
16. 如權(quán)利要求14所述的方法,包括確定每個(gè)候選詞的計(jì)數(shù)。
17. 如權(quán)利要求16所述的方法,其中將一個(gè)或多個(gè)候選詞添加到輸入法編輯器詞典中包括將具有超過閾值的計(jì)數(shù)的候選詞添加到輸入法編輯器詞典中。
18. 如權(quán)利要求14所述的方法,包括識(shí)別搜索查詢中的候選詞并將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。
19. 如權(quán)利要求18所述的方法,其中識(shí)別搜索查詢中的候選詞包括對于每個(gè)候選詞,確定第一計(jì)數(shù),該第一計(jì)數(shù)表示該候選詞是搜索查詢中僅有的詞的次數(shù),以及確定第二計(jì)數(shù),該第二計(jì)數(shù)表示在每個(gè)搜索查詢中包括該候選詞和一個(gè)或多個(gè)其他詞的次數(shù),以及基于所述第一計(jì)數(shù)和第二計(jì)數(shù)之間的關(guān)系,將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。
20. —種方法,包括建立詞典,該詞典包括基于由上下文信號(hào)界定的字符而識(shí)別出的詞;以及提供被配置為從所述詞典中選擇詞的輸入法編輯器。
21. 如權(quán)利要求20所述的方法,其中建立詞典包括基于由中文書名號(hào)界定的字符來識(shí)別詞。
22. —種裝置,包括詞典,其包括基于與在文檔中找到的字符相關(guān)聯(lián)的候選詞而識(shí)別出的詞,其中每個(gè)候選詞與一對中文書名號(hào)所包圍的一個(gè)或多個(gè)字符相關(guān)聯(lián);以及輸入法編輯器,被配置為從所述詞典中選擇詞。
23. 如權(quán)利要求22所述的裝置,其中所述候選詞包括漢字字符。
24. 如權(quán)利要求22所述的裝置,其中所述中文書名號(hào)包括單書名號(hào)或雙書名號(hào)中的至少一個(gè)。
25. 如權(quán)利要求22所述的裝置,其中所述詞典包括基于第一計(jì)數(shù)和第二計(jì)數(shù)識(shí)別出的詞,所述第一計(jì)數(shù)表示該詞是搜索查詢中僅有的詞的次數(shù),所述第二計(jì)數(shù)表示在每個(gè)搜索查詢中包含該詞和一個(gè)或多個(gè)其他詞的次數(shù)。
26. —種系統(tǒng),包括數(shù)據(jù)存儲(chǔ)單元,用來存儲(chǔ)文檔語料庫;以及處理引擎,其被存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,并包括可由處理設(shè)備執(zhí)行的指令,所述指令在被如此執(zhí)行時(shí)使得處理設(shè)備通過在文檔語料庫的文檔中找到字符來識(shí)別候選詞,其中所述字符被包圍在中文書名號(hào)對中,以及將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。
27. —種系統(tǒng),包括數(shù)據(jù)存儲(chǔ)單元,用來存儲(chǔ)文檔語料庫;以及處理設(shè)備,用來通過在文檔語料庫的文檔中找到字符來識(shí)別候選詞,其中所述字符被包圍在中文書名號(hào)對中,以及將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中。
28. —種系統(tǒng),包括用于識(shí)別文檔中的上下文信號(hào)的裝置;用于識(shí)別由上下文信號(hào)界定的字符的裝置;用于識(shí)別由上下文信號(hào)界定的字符所限定一個(gè)或多個(gè)候選詞的裝置;以及用于將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典的裝置。
29. —種系統(tǒng),包括用于識(shí)別文檔中的中文書名號(hào)對的裝置;用于識(shí)別由每對中文書名號(hào)界定的一個(gè)或多個(gè)字符的串的裝置;用于識(shí)別由一個(gè)或多個(gè)字符的串中的每一個(gè)所限定的候選詞的裝置;以及用于將一個(gè)或多個(gè)候選詞添加到輸入法編輯器詞典中的裝置。
全文摘要
提供了一種詞典詞和短語確定方法,包括識(shí)別文檔中的上下文信號(hào)(502);識(shí)別由上下文信號(hào)界定的字符(504);識(shí)別由上下文信號(hào)界定的字符所限定的一個(gè)或多個(gè)候選詞(506);以及將所述候選詞中的一個(gè)或多個(gè)添加到輸入法編輯器詞典中(508)。
文檔編號(hào)G06F17/20GK101779200SQ200780100240
公開日2010年7月14日 申請日期2007年6月14日 優(yōu)先權(quán)日2007年6月14日
發(fā)明者張釙 申請人:谷歌股份有限公司