專利名稱:輸入法編輯器的制作方法
技術(shù)領(lǐng)域:
本說(shuō)明涉及輸入法。
背景技術(shù):
寫(xiě)入系統(tǒng)使用符號(hào)(例如,字符或字形)來(lái)表現(xiàn)語(yǔ)言的聲音。在寫(xiě)入系統(tǒng)中字符的集合可以稱為手跡(script)。例如,拉丁(Latin)寫(xiě)入系統(tǒng),包括在一個(gè)或多個(gè)羅馬 (Roman)手跡中的羅馬字符的集合,能夠用來(lái)表現(xiàn)英語(yǔ)語(yǔ)言。拉丁寫(xiě)入系統(tǒng)可以包括正楷羅馬字符(例如,大寫(xiě)字符“B”)、正體的羅馬字符(例如,小寫(xiě)字符“b”)、以及手寫(xiě)體的羅馬字符(例如,草體字符“b”)。字符“b”的每種視覺(jué)表現(xiàn)都代表了拉丁寫(xiě)入系統(tǒng)中的同一個(gè)字形。作為另一個(gè)例子,中文語(yǔ)言可以由多于一個(gè)寫(xiě)入系統(tǒng)來(lái)表現(xiàn)。例如,中文語(yǔ)言可以通過(guò)第 一寫(xiě)入系統(tǒng)來(lái)表現(xiàn),例如拼音Pinyin(或用羅馬字符表現(xiàn)的中文)。作為另一個(gè)例子,中文語(yǔ)言可以使用第二寫(xiě)入系統(tǒng)來(lái)表現(xiàn),例如Bopomofo或注音符號(hào)(“Zhuyin”)。作為再一個(gè)例子,中文語(yǔ)言可以使用第三寫(xiě)入系統(tǒng)來(lái)表現(xiàn),例如漢字Hanzi。具體來(lái)講,拼音和注音是用來(lái)表現(xiàn)Hanzi字符的語(yǔ)音系統(tǒng)。一些輸入法允許用戶在第一寫(xiě)入系統(tǒng)中輸入文本,并在第二寫(xiě)入系統(tǒng)中提供輸出候選。例如,拼音輸入法允許用戶輸入拼音串,并且能夠生成漢字的輸出候選。拼音串可以包括一個(gè)或多個(gè)拼音音節(jié)。拼音音節(jié)可以包括后接第二子音節(jié)的第一子音節(jié)(例如,音節(jié)的一部分)。每個(gè)拼音音節(jié)對(duì)應(yīng)于多個(gè)漢字字符,并且每個(gè)子音節(jié)包括一個(gè)或多個(gè)羅馬字符。例如,拼音音節(jié)“zhang”可以被分割為第一子音節(jié)“zh”和第二子音節(jié)“ang”。而且,子音節(jié)“zh”和“ang”兩者都能夠與其它子音節(jié)組合,以創(chuàng)建其它的拼音音節(jié)。例如,子音節(jié) “zh”和“a”可以組合來(lái)創(chuàng)建拼音音節(jié)“zha”,而子音節(jié)“t”和“ang”可以組合來(lái)創(chuàng)建拼音音節(jié) “tang”。生成輸出候選可能要求對(duì)輸入文本中語(yǔ)素(例如,音節(jié))的識(shí)別,例如,通過(guò)分割輸入文本進(jìn)行識(shí)別。
發(fā)明內(nèi)容
本說(shuō)明描述了涉及輸入法的技術(shù)?!悖诒菊f(shuō)明中描述的主題的一個(gè)方面能夠體現(xiàn)在包括以下動(dòng)作的方法中接收第一寫(xiě)入系統(tǒng)中的第一字形;使用第一寫(xiě)入系統(tǒng)中的字形的字形圖來(lái)識(shí)別第二寫(xiě)入系統(tǒng)中第一語(yǔ)素的、第一寫(xiě)入系統(tǒng)中的第一 n-gram表現(xiàn),其中第一 n-gram表現(xiàn)包括第一字形; 使用第一 n-gram表現(xiàn)來(lái)定位語(yǔ)素圖中一個(gè)或多個(gè)第一節(jié)點(diǎn),其中在語(yǔ)素圖中每個(gè)定位的第一節(jié)點(diǎn)表現(xiàn)第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)第一詞條,所述一個(gè)或多個(gè)第一詞條中的每一個(gè)由第一 n-gram表現(xiàn)來(lái)表示;基于與所述一個(gè)或多個(gè)第一詞條中的每一個(gè)相關(guān)聯(lián)的第一得分,從所述一個(gè)或多個(gè)第一詞條中選擇第一詞條;以及提供第一詞條用于顯示在用戶設(shè)備上。這個(gè)方面的其它實(shí)施例包括對(duì)應(yīng)的系統(tǒng)、裝置、以及計(jì)算機(jī)程序產(chǎn)品。
這些和其它實(shí)施例能夠可選地包括一個(gè)或多個(gè)以下特征。第一字形只表現(xiàn)第二寫(xiě)入系統(tǒng)中音節(jié)的一部分。該方法還可以包括接收第一寫(xiě)入系統(tǒng)中的第二字形;使用第一寫(xiě)入系統(tǒng)中的字形的字形圖來(lái)識(shí)別第二寫(xiě)入系統(tǒng)中第二語(yǔ)素的、第一寫(xiě)入系統(tǒng)中的第二 n-gram表現(xiàn),其中第二 n-gram表現(xiàn)包括第二字形;使用第二 n-gram表現(xiàn)來(lái)定位所述語(yǔ)素圖中的一個(gè)或多個(gè)第二節(jié)點(diǎn),其中在所述語(yǔ)素圖中每個(gè)定位的第二節(jié)點(diǎn)表現(xiàn)第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)第二詞條,所述一個(gè)或多個(gè)第二詞條中的每一個(gè)由第二 n-gram表現(xiàn)來(lái)表示;生成第三詞條和第四詞條的一個(gè)或多個(gè)排列,其中第三詞條是從所述一個(gè)或多個(gè)第一詞條中選擇的,而第四詞條是從所述一個(gè)或多個(gè)第二詞條中選擇的;基于與所述一個(gè)或多個(gè)排列中的每一個(gè)相關(guān)聯(lián)的第二得分,從所述一個(gè)或多個(gè)排列中選擇排列,其中所選擇的排列包括后接第四詞條的第三詞條;比較所選擇的第一詞條的第一得分和所選擇的排列的第二得分;以及基于所述比較,提供所選擇的第一詞條或所選擇的排列用于顯示在用戶設(shè)備上。第一字形僅表現(xiàn)與僅由第二字形部分表現(xiàn)的第四語(yǔ)素不同的第三語(yǔ)素的一部分。 所述字形圖包括多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)表現(xiàn)第一寫(xiě)入系統(tǒng)中的字形,并且其中在所述多個(gè)節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)全音節(jié)(full syllable),每個(gè)對(duì)應(yīng)的全音節(jié)包括其對(duì)應(yīng)節(jié)點(diǎn)的字形以及所述對(duì)應(yīng)節(jié)點(diǎn)源自的節(jié)點(diǎn)的字形。第一 n-gram表現(xiàn)表示對(duì)應(yīng)于節(jié)點(diǎn)的適當(dāng)子集中的節(jié)點(diǎn)之一的全音節(jié)。語(yǔ)素圖包括多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)語(yǔ)素,并且其中在多個(gè)節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)詞條,每個(gè)對(duì)應(yīng)的詞條包括其對(duì)應(yīng)節(jié)點(diǎn)的語(yǔ)素以及所述對(duì)應(yīng)節(jié)點(diǎn)源自的節(jié)點(diǎn)的語(yǔ)所述語(yǔ)素對(duì)應(yīng)漢字字符。第一 n-gram表現(xiàn)表示全拼音音節(jié),并且所述一個(gè)或多個(gè)詞條中的每一個(gè)是漢字詞語(yǔ)。使用第一 n-gram表現(xiàn)來(lái)定位語(yǔ)素圖中的一個(gè)或多個(gè)節(jié)點(diǎn)包括在對(duì)應(yīng)于第一 n-gram表現(xiàn)的字形圖中選擇第一節(jié)點(diǎn)的標(biāo)識(shí)符;以及在與標(biāo)識(shí)符相關(guān)聯(lián)的語(yǔ)素圖中定位第二節(jié)點(diǎn)。一般,在本說(shuō)明中描述的主題的另一個(gè)方面可以體現(xiàn)在包括以下動(dòng)作的方法中 接收第一羅馬字符輸入;使用第一羅馬字符輸入來(lái)定位拼音輸入圖中的第一拼音音節(jié)節(jié)點(diǎn),拼音輸入圖包括多個(gè)拼音音節(jié)節(jié)點(diǎn),每個(gè)拼音音節(jié)節(jié)點(diǎn)對(duì)應(yīng)于羅馬字符,其中在多個(gè)拼音音節(jié)節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)拼音音節(jié)點(diǎn)對(duì)應(yīng)于拼音音節(jié),每個(gè)對(duì)應(yīng)的拼音音節(jié)包括其對(duì)應(yīng)拼音音節(jié)節(jié)點(diǎn)的羅馬字符以及所述對(duì)應(yīng)拼音音節(jié)節(jié)點(diǎn)源自的拼音音節(jié)節(jié)點(diǎn);使用定位的拼音音節(jié)節(jié)點(diǎn)來(lái)定位在拼音音節(jié)圖中的一個(gè)或多個(gè)第一漢字字符節(jié)點(diǎn),拼音音節(jié)圖包括多個(gè)漢字字符節(jié)點(diǎn),每個(gè)漢字字符節(jié)點(diǎn)對(duì)應(yīng)于拼音音節(jié),其中在多個(gè)漢字字符節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)漢字字符節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)或多個(gè)第一漢字詞語(yǔ),每個(gè)對(duì)應(yīng)的一個(gè)或多個(gè)第一漢字詞語(yǔ)包括漢字字符,該漢字字符對(duì)應(yīng)于其對(duì)應(yīng)漢字字符節(jié)點(diǎn)以及所述對(duì)應(yīng)漢字字符節(jié)點(diǎn)源自的漢字字符節(jié)點(diǎn)的拼音音節(jié);以及基于與一個(gè)或多個(gè)第一漢字詞語(yǔ)中的每一個(gè)相關(guān)聯(lián)的第一得分,選擇對(duì)應(yīng)于一個(gè)或多個(gè)漢字字符節(jié)點(diǎn)中的一個(gè)的第一漢字詞語(yǔ),用于輸出到用戶設(shè)備。這個(gè)方面的其它實(shí)施例包括對(duì)應(yīng)的系統(tǒng)、裝置、以及計(jì)算機(jī)程序產(chǎn)品。這些以及其它實(shí)施例能夠可選地包括一個(gè)或多個(gè)以下特征。該方法還可以包括 接收第二羅馬字符輸入;使用第二羅馬字符輸入來(lái)定位拼音輸入圖中的第二拼音音節(jié)節(jié)點(diǎn),其中第二拼音音節(jié)節(jié)點(diǎn)表現(xiàn)包括第二羅馬字符輸入的拼音音節(jié);使用第二定位的拼音音節(jié)節(jié)點(diǎn)來(lái)定位拼音音節(jié)圖中的一個(gè)或多個(gè)第二漢字字符節(jié)點(diǎn),其中每個(gè)定位的第二漢字字符節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)或多個(gè)第二漢字詞語(yǔ);以及生成第三漢字詞語(yǔ)和第四漢字詞語(yǔ)的一個(gè)或多個(gè)排列,其中第三漢字詞語(yǔ)是從一個(gè)或多個(gè)第一漢字詞語(yǔ)中選擇的,而第四漢字詞語(yǔ)是從一個(gè)或多個(gè)第二漢字條目中選擇的;基于與一個(gè)或多個(gè)排列中的每一個(gè)相關(guān)聯(lián)的第二得分,從一個(gè)或多個(gè)排列中選擇排列,其中所選擇的排列包括后接第四漢字詞語(yǔ)的第三漢字詞語(yǔ);比較所選擇的第一漢字詞語(yǔ)的第一得分與所選擇的排列的第二得分;以及基于所述比較,提供所選擇的第一漢字詞語(yǔ)或所選擇的排列,用于輸出到用戶設(shè)備。使用定位的拼音音節(jié)節(jié)點(diǎn)來(lái)定位一個(gè)或多個(gè)漢字字符節(jié)點(diǎn)包括選擇定位的拼音音節(jié)節(jié)點(diǎn)的標(biāo)識(shí)符;以及在與所述標(biāo)識(shí)符相關(guān)聯(lián)的拼音音節(jié)圖中定位第一漢字字符節(jié)點(diǎn)。 拼音音節(jié)圖是Patricia鍵樹(shù)。一般,在本說(shuō)明中描述的主題的另一個(gè)方面能夠體現(xiàn)在包括數(shù)據(jù)處理裝置和數(shù)據(jù)存儲(chǔ)器的系統(tǒng)中。在數(shù)據(jù)存儲(chǔ)器中存儲(chǔ)第一寫(xiě)入系統(tǒng)中的字形的字形圖,所述字形圖包括第一多個(gè)節(jié)點(diǎn),第一多個(gè)節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)表現(xiàn)第一寫(xiě)入系統(tǒng)中的字形,并且其中在第一多個(gè)節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于全音節(jié),每個(gè)對(duì)應(yīng)的全音節(jié)包括第一多個(gè)節(jié)點(diǎn)中其對(duì)應(yīng)節(jié)點(diǎn)的字形以及所述對(duì)應(yīng)節(jié)點(diǎn)源自的節(jié)點(diǎn)的字形;以及第二寫(xiě)入系統(tǒng)中的語(yǔ)素的語(yǔ)素圖,所述語(yǔ)素圖包括第二多個(gè)節(jié)點(diǎn),第二多個(gè)節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)表現(xiàn)第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)語(yǔ)素,并且其中在第二多個(gè)節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于詞條,每個(gè)對(duì)應(yīng)的詞條包括第二多個(gè)節(jié)點(diǎn)中其對(duì)應(yīng)節(jié)點(diǎn)的語(yǔ)素以及所述對(duì)應(yīng)節(jié)點(diǎn)源自的節(jié)點(diǎn)的語(yǔ)素。這個(gè)方面的其它實(shí)施例包括對(duì)應(yīng)的方法、裝置、以及計(jì)算機(jī)程序產(chǎn)品。這些以及其它實(shí)施例能夠可選地包括一個(gè)或多個(gè)以下特征。所述數(shù)據(jù)存儲(chǔ)器還存儲(chǔ)給一個(gè)或多個(gè)詞條的組合打分的語(yǔ)言模型。在本說(shuō)明中描述的主題的特定實(shí)施例能夠被實(shí)施以實(shí)現(xiàn)一個(gè)或多個(gè)以下優(yōu)點(diǎn)。使用字形圖和語(yǔ)素圖來(lái)解析第一寫(xiě)入系統(tǒng)中的輸入以識(shí)別第二寫(xiě)入系統(tǒng)中的對(duì)應(yīng)詞條,擴(kuò)展了可能詞條的搜索空間,由此增加了所考慮的候選詞條的數(shù)量,并且提高了精確度和回想 (recall)。此外,使用字形圖和語(yǔ)素圖來(lái)解析第一寫(xiě)入系統(tǒng)中的輸入以識(shí)別第二寫(xiě)入系統(tǒng)中的對(duì)應(yīng)詞條,減少了識(shí)別候選詞條所需要的輸入的標(biāo)記(例如,字符)的數(shù)量,由此提高了輸入法的便利和效率,并且改善了用戶的體驗(yàn)。減少識(shí)別候選詞條所需要的輸入的標(biāo)記的數(shù)量對(duì)于包括較小的鍵區(qū)或預(yù)測(cè) (predictive)鍵盤的移動(dòng)設(shè)備(例如,移動(dòng)電話)來(lái)說(shuō)特別有用。此外,能夠解析所有輸入文本(例如,整個(gè)拼音輸入串)的輸入法編輯器減少了用戶輸入的量和提供用于輸入文本的輸出候選所需要的交互,由此進(jìn)一步地提高了輸入法的便利和效率,并改善了用戶的體驗(yàn)。例如,用戶不需要輸入每個(gè)拼音音節(jié)和分開(kāi)選擇對(duì)于每個(gè)拼音音節(jié)的輸出候選。在本說(shuō)明中描述的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和以下描述中進(jìn)行了闡述。從說(shuō)明書(shū)、附圖、以及權(quán)利要求中,主題的其它特征、方面、以及優(yōu)點(diǎn)將變得更加清楚。
圖1A-1F包括第一寫(xiě)入系統(tǒng)中的示例文本輸入和第二寫(xiě)入系統(tǒng)中的示例輸出文本候選。圖2是示出觀察到的文本輸入的序列以及由觀察到的文本輸入的序列表現(xiàn)的潛在的音節(jié)序列的框圖。
圖3示出了示例字形圖。圖4示出了示例語(yǔ)素圖。圖5示出了字形圖和語(yǔ)素圖的示例使用的步驟。圖6是用于基于第一寫(xiě)入系統(tǒng)中的文本輸入生成第二寫(xiě)入系統(tǒng)中的輸出文本候選的示例系統(tǒng)的框圖。圖7A是示出用于基于第一寫(xiě)入系統(tǒng)中的文本輸入生成第二寫(xiě)入系統(tǒng)中的輸出文本候選的示例過(guò)程的流程圖。圖7B是示出用于基于第一寫(xiě)入系統(tǒng)中的文本輸入生成第二寫(xiě)入系統(tǒng)中的輸出文本候選的另一個(gè)示例過(guò)程的流程圖。圖8是能夠用來(lái)實(shí)施這里描述的系統(tǒng)和方法的示例系統(tǒng)的框圖。圖9是示例的輸入法編輯器的框圖。各個(gè)附圖中相似的參考標(biāo)號(hào)和標(biāo)記指示相似的元素。
具體實(shí)施例方式圖1A-1F包括在第一寫(xiě)入系統(tǒng)中的示例文本輸入和在第二寫(xiě)入系統(tǒng)中的示例輸出文本候選。圖1A-1F包括第一寫(xiě)入系統(tǒng)中的示例文本輸入,例如,拼音。圖1C、圖ID和圖IF還包括第二寫(xiě)入系統(tǒng)中的示例輸出文本候選,例如,漢字。包括在圖1A-1F中的示例文本輸入和示例輸出文本候選包括一些羅馬字符和漢字字符之間的分隔符(例如,空格)。 包括這些分隔符使得示例更容易理解,但是實(shí)際上可能不包括分隔符,例如,在輸入羅馬字符期間,用戶可能不使用空格分開(kāi)羅馬字符。作為一個(gè)示例,用戶可能想通過(guò)將羅馬字符輸入到輸入法編輯器(IME)中來(lái)輸入中文語(yǔ)句“我們?nèi)ッ绹?guó)”(例如,英文“We are going to America”)。由用戶錄入的輸入羅馬字符可以用來(lái)表現(xiàn)拼音,即第一寫(xiě)入系統(tǒng)。用戶可能希望IME提供漢字輸出,即第二寫(xiě)入系統(tǒng)。中文語(yǔ)句“我們?nèi)ッ绹?guó)”的全拼音表現(xiàn)將是“Wmen qumei gu0”。用戶錄入全拼音表現(xiàn)是很不方便的,例如,特別是在移動(dòng)設(shè)備(例如,移動(dòng)電話)上。因此,用戶可能想要輸入比全拼音表現(xiàn)更少數(shù)量的字符(例如,縮寫(xiě))。圖IA示出示例輸入文本,包括羅馬字符“w”、“m”、“q”、“m”、以及“g”。為了識(shí)別對(duì)應(yīng)于圖IA中的示例輸入文本的潛在漢字字符,輸入法編輯器能夠?qū)⑹纠斎胛谋居成涞綕撛诘娜匆舯憩F(xiàn)。理想地,輸入法編輯器將示例輸入文本“w m q m g”映射到全拼音表現(xiàn)“wo men qu mei guo,,。識(shí)別全拼音表現(xiàn)的任務(wù)提出兩個(gè)初始的問(wèn)題。假設(shè)將羅馬字符分割成拼音音節(jié)是已知的,如圖1A-1D以及圖IF中所示,一個(gè)問(wèn)題是確定分割的羅馬字符組表現(xiàn)的用戶想要的拼音音節(jié)。這個(gè)問(wèn)題可以參考圖1B-1D示出。圖IB示出的示例輸入文本包括羅馬字符 “W,,、“0”、“m”、“q”、“u”、“m”、“e”、“i”、“g”、“u”、“0”。雖然圖 IB 中的示例輸入文本“wo m qu mei guo”包括比圖IA中更多的匹配全拼音表現(xiàn)“wo men qu mei guo”的字符(按次序),“wo m qu mei guo”仍然能夠表現(xiàn)兩個(gè)或更多的全拼音表現(xiàn),如圖IC和圖ID中所示。圖IC示出中文語(yǔ)句“我們?nèi)ッ绹?guó)”的全拼音表現(xiàn),而圖ID示出中文語(yǔ)句“我沒(méi)去美國(guó)”的全拼音表現(xiàn)(例如,英文“I’ ve never went to America”)。在圖IC和圖ID中, “wo”對(duì)應(yīng)于“我”,“qu”對(duì)應(yīng)于“去”,“mei”對(duì)應(yīng)于“美”,以及“guo”對(duì)應(yīng)于“國(guó)”。圖IC和圖ID可以用來(lái)示出用戶可能希望字符“H!”的第一次出現(xiàn)(在字符 0”之后)表現(xiàn)可以對(duì)應(yīng)“們”的拼音音節(jié)“men”或?qū)?yīng)“沒(méi)”的拼音音節(jié)“mei”。另一個(gè)問(wèn)題是確定每個(gè)羅馬字符輸入是否表現(xiàn)不同的拼音音節(jié)(或漢字字符)。 如先前所述,每個(gè)拼音音節(jié)(例如,全拼音音節(jié))對(duì)應(yīng)一個(gè)漢字字符。這個(gè)問(wèn)題能夠使用圖 1D-1F來(lái)示出。再次,圖ID假設(shè)示例輸入文本被這樣分割,從而“·”、“!!^”、“^”、“!!^”、 “guo”每個(gè)都表現(xiàn)拼音音節(jié)。圖IE示出與圖ID相同的示例輸入文本的序列,但是未進(jìn)行劃分。圖IE中的示例輸入文本“w omeiqumeigu ο”可以表現(xiàn)圖ID中示出的拼音音節(jié)序列或圖IF中的拼音音節(jié)序列。具體來(lái)說(shuō),字符序列“g”、“u”、以及“0”可以表現(xiàn)如圖ID中所示的單一拼音音節(jié)“guo”,或如圖IF中所示的兩個(gè)拼音音節(jié)“gu”和“0”。在第二示例中,“gu”表現(xiàn)第一個(gè)拼音音節(jié),而“O”表現(xiàn)第二個(gè)拼音音節(jié)。圖IF示出用戶可能想要輸入語(yǔ)句“我妹去梅谷哦”(例如,英文“My younger sister will go to Plum Valley”)。 此夕卜,圖IF示出“mei”可以對(duì)應(yīng)其它的漢字字符,比如“妹”和“梅”。圖2是示出觀察到的文本輸入的序列以及由觀察到的文本輸入的序列表現(xiàn)的潛在的音節(jié)序列(例如,在隱藏Markov模型中的隱藏序列)的框圖。具體地說(shuō),圖2示出在圖IC和圖ID中示出的音節(jié)的潛在序列。觀察到的文本輸入的序列“w m q m g”可以表現(xiàn) "wo men qu mei guo”或“wo mei qu mei guo”。音節(jié)的其它潛在序列也是可能的(未示出)。例如,如參考圖IF所示,觀察到的文本輸入的序列“w m q m g”還可以表現(xiàn)“wo mei qu mei gu ο,,。當(dāng)接收到第一寫(xiě)入系統(tǒng)(例如,拼音)中的文本輸入時(shí),上述兩個(gè)初始問(wèn)題可以通過(guò)以下方式解決(i)基于第一寫(xiě)入系統(tǒng)中的文本輸入,識(shí)別第一寫(xiě)入系統(tǒng)中的n-gram表現(xiàn)(例如,拼音音節(jié)),以及(ii)基于所識(shí)別的n-gram表現(xiàn),識(shí)別第二寫(xiě)入系統(tǒng)中的語(yǔ)素 (例如,漢字字符)和詞條(例如,漢字詞語(yǔ))。理想地,識(shí)別出表現(xiàn)用戶希望的輸入的最可能的語(yǔ)素。示例字形圖字形圖(grapheme graph)可以用來(lái)識(shí)別由第一寫(xiě)入系統(tǒng)中的輸入文本表現(xiàn)的、第一寫(xiě)入系統(tǒng)中的n-gram表現(xiàn)。 n-gram是例如字符或詞語(yǔ)的η個(gè)連續(xù)標(biāo)記的序列。n-gram具有長(zhǎng)度(order),即 n-gram中標(biāo)記的數(shù)量。例如,l_gram(或單gram)包括一個(gè)標(biāo)記;2-gram(雙gram)包括兩個(gè)標(biāo)記。作為示例,“wo”可以是第二寫(xiě)入系統(tǒng)中的語(yǔ)素(例如,發(fā)音“W0”的“我”,發(fā)音“W0” 的“臥”)的第一寫(xiě)入系統(tǒng)(例如,拼音音節(jié))中的2-gram表現(xiàn)。作為另一個(gè)示例,“m”可以是第二寫(xiě)入系統(tǒng)中的語(yǔ)素(例如,發(fā)音“men”的“們”,發(fā)音“m6i”的“沒(méi)”)的第一寫(xiě)入系統(tǒng)中的1-gram表現(xiàn)。在這些示例中,第一寫(xiě)入系統(tǒng)是拼音,而第二寫(xiě)入系統(tǒng)是漢字。暫時(shí)返回圖IC的示例,中文語(yǔ)句“我們?nèi)ッ绹?guó)”可以被分割為單gram,例如,詞語(yǔ) “我們”(例如,英文“we”)、“去”(例如,英文“went”)、以及“美國(guó)”(例如,英文“America”)。 示例的雙gram是“我們,去”和“去,美國(guó)”。在這個(gè)示例中,雙gram中的標(biāo)記通過(guò)逗號(hào)分開(kāi)。圖3示出了示例字形圖300。具體來(lái)說(shuō),字形圖300(例如,拼音輸入圖)是鍵樹(shù) (trie),包括一個(gè)或多個(gè)節(jié)點(diǎn)(例如,拼音音節(jié)節(jié)點(diǎn)),例如,根節(jié)點(diǎn)302和一個(gè)或多個(gè)子節(jié)點(diǎn)。除了根節(jié)點(diǎn)以外,每個(gè)節(jié)點(diǎn)表現(xiàn)第一寫(xiě)入系統(tǒng)(例如,拼音)中的字形(例如,羅馬字符)。節(jié)點(diǎn)可以被分類到各個(gè)級(jí)別。例如,根級(jí)別可以包括根節(jié)點(diǎn)302。第一級(jí)別可以包括根節(jié)點(diǎn)302的直接子節(jié)點(diǎn),例如,節(jié)點(diǎn)310、312、以及314。第一級(jí)別中的節(jié)點(diǎn)310、312、以及314的每一個(gè)表現(xiàn)第一子音節(jié)(例如,前綴)的字形。例如,節(jié)點(diǎn)310、312、以及314表現(xiàn)開(kāi)始拼音音節(jié)的第一羅馬字符??梢詮母?jié)點(diǎn)302到其子節(jié)點(diǎn)遍歷字形圖300以識(shí)別第二寫(xiě)入系統(tǒng)(例如,漢字字符)中的語(yǔ)素的、第一寫(xiě)入系統(tǒng)(例如,拼音音節(jié))中的n-gram表現(xiàn)。字形圖300中的每個(gè)節(jié)點(diǎn)還對(duì)應(yīng)n-gram表現(xiàn),該n-gram表現(xiàn)包括其對(duì)應(yīng)節(jié)點(diǎn)的字形以及所述對(duì)應(yīng)節(jié)點(diǎn)源自的節(jié)點(diǎn)的字形。例如,節(jié)點(diǎn)310對(duì)應(yīng)n-gram表現(xiàn)“a”。節(jié)點(diǎn)324 對(duì)應(yīng)n-gram表現(xiàn)“be”,而節(jié)點(diǎn)330對(duì)應(yīng)n-gram表現(xiàn)“ang”。此外,在字形圖300中的節(jié)點(diǎn)的適當(dāng)子集對(duì)應(yīng)于全音節(jié)(例如,拼音音節(jié)),該全音節(jié)對(duì)應(yīng)于第二寫(xiě)入系統(tǒng)中的語(yǔ)素。具體地說(shuō),節(jié)點(diǎn)310( “a”)、320( “ai”)、321( “an”)、 322 ( “ao”)、323( “ba”)、325( “zu”)、以及330( "ang")對(duì)應(yīng)全音節(jié)。這個(gè)適當(dāng)子集通過(guò)陰影節(jié)點(diǎn)表示在字形圖300的視覺(jué)表現(xiàn)中。或者,沒(méi)有陰影的節(jié)點(diǎn)只對(duì)應(yīng)音節(jié)的一部分。 例如,節(jié)點(diǎn)312( “b”)、314( “ζ”)、以及324( “be”)只對(duì)應(yīng)拼音音節(jié)的一部分(例如,子音節(jié))。因?yàn)闆](méi)有陰影的節(jié)點(diǎn)只對(duì)應(yīng)拼音音節(jié)的一部分,它們不對(duì)應(yīng)第二寫(xiě)入系統(tǒng)中的語(yǔ)
ο節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)節(jié)點(diǎn)(S卩,陰影節(jié)點(diǎn))還與標(biāo)識(shí)符相關(guān)聯(lián)。例如,節(jié)點(diǎn) 310與標(biāo)識(shí)符“1”相關(guān)聯(lián),節(jié)點(diǎn)320與標(biāo)識(shí)符“2”相關(guān)聯(lián),節(jié)點(diǎn)321與標(biāo)識(shí)符“3”相關(guān)聯(lián),節(jié)點(diǎn)322與標(biāo)識(shí)符“5”相關(guān)聯(lián),節(jié)點(diǎn)323與標(biāo)識(shí)符“6”相關(guān)聯(lián),節(jié)點(diǎn)325與標(biāo)識(shí)符“418”相關(guān)聯(lián),而節(jié)點(diǎn)330與標(biāo)識(shí)符“4”相關(guān)聯(lián)。標(biāo)識(shí)符可以是數(shù)字或者字符的任何其它組合(例如, 字母數(shù)字串)。每個(gè)標(biāo)識(shí)符可以用來(lái)定位語(yǔ)素圖中的節(jié)點(diǎn),這將在以下更詳細(xì)地描述。暫時(shí)參考圖4,作為簡(jiǎn)單的概覽,語(yǔ)素圖400包括節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)對(duì)應(yīng)第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)語(yǔ)素(例如,漢字字符)。語(yǔ)素圖400中一個(gè)或多個(gè)節(jié)點(diǎn)的適當(dāng)子集對(duì)應(yīng)第二寫(xiě)入系統(tǒng)中的詞條(例如,漢字詞語(yǔ))。從字形圖300選擇的標(biāo)識(shí)符可以用來(lái)遍歷語(yǔ)素圖400,例如,通過(guò)在語(yǔ)素圖400中定位與標(biāo)識(shí)符相關(guān)聯(lián)的節(jié)點(diǎn)。例如,節(jié)點(diǎn)410還與標(biāo)識(shí)符“1”相關(guān)聯(lián),節(jié)點(diǎn) 412還與標(biāo)識(shí)符“2”相關(guān)聯(lián),節(jié)點(diǎn)414還與標(biāo)識(shí)符“3”相關(guān)聯(lián),而節(jié)點(diǎn)416還與標(biāo)識(shí)符“418” 相關(guān)聯(lián)。在圖4中,只對(duì)第一級(jí)別中的節(jié)點(diǎn)示出標(biāo)識(shí)符,但是實(shí)際上,標(biāo)識(shí)符與每個(gè)陰影節(jié)點(diǎn)相關(guān)聯(lián)。返回圖3,當(dāng)由輸入法編輯器接收到每個(gè)字形(例如,羅馬字符)時(shí),字形圖300可以被用來(lái)識(shí)別第一寫(xiě)入系統(tǒng)中的可能的n-gram表現(xiàn)。例如,如果接收到邏輯字符“b”,則定義定位節(jié)點(diǎn)312。作為另一個(gè)示例,在“b”之后可以接收羅馬字符“a”。換句話說(shuō),輸入序列可以是“ba”。因此,對(duì)于“ba”可以定位節(jié)點(diǎn)323,并且對(duì)于以“a”開(kāi)始的剩余拼音音節(jié)可以定位節(jié)點(diǎn)310、320、321、322、以及330。具體地說(shuō),輸入序列“ba”可以表現(xiàn)拼音音節(jié) “ba”、以“ba”開(kāi)始的拼音音節(jié)、或以“b”開(kāi)始的拼音音節(jié)和以“a”開(kāi)始的拼音音節(jié)。在一些實(shí)施方式中,在通過(guò)定位由輸入序列表現(xiàn)的陰影節(jié)點(diǎn)來(lái)識(shí)別可能的n-gram 表現(xiàn)之后,可以返回與定位了的陰影節(jié)點(diǎn)的相關(guān)聯(lián)的標(biāo)識(shí)符。如先前描述的,這些標(biāo)識(shí)符可以用來(lái)定位語(yǔ)素圖中的節(jié)點(diǎn)以識(shí)別詞條。其它實(shí)施方式也是可能的。例如,字形圖300是Patricia鍵樹(shù),但是字形圖300可以以其它類型的數(shù)據(jù)結(jié)構(gòu)來(lái)實(shí)現(xiàn)(例如,哈希表、平衡鍵樹(shù))。此外,在一些實(shí)施方式中, n-gram表現(xiàn)可以返回以替代標(biāo)識(shí)符或與標(biāo)識(shí)符組合。而且,字形圖300可以被實(shí)施以表現(xiàn)不同的寫(xiě)入系統(tǒng)的組合。例如,第一寫(xiě)入系統(tǒng)可以是Bopomofo,而第二寫(xiě)入系統(tǒng)可以是漢字。作為另一個(gè)示例,第一寫(xiě)入系統(tǒng)可以是RomajU例如,日文的羅馬化文字),而第二寫(xiě)入系統(tǒng)可以是Kanji-Japanese (日文漢字)。示例語(yǔ)素4示出示例語(yǔ)素圖400。具體地說(shuō),語(yǔ)素圖400 (例如,拼音音節(jié)圖)是包括一個(gè)或多個(gè)節(jié)點(diǎn)(例如,漢字字符節(jié)點(diǎn))的鍵樹(shù),例如,根節(jié)點(diǎn)402和一個(gè)或多個(gè)子節(jié)點(diǎn)。節(jié)點(diǎn)可以被分類到各個(gè)級(jí)別。例如,根級(jí)別可以包括根節(jié)點(diǎn)402。第一級(jí)別可以包括根節(jié)點(diǎn) 402的直接子節(jié)點(diǎn),例如,節(jié)點(diǎn)410、412、414、以及416。第一級(jí)別中的節(jié)點(diǎn)410、412、414、以及416表現(xiàn)詞條的前綴。例如,第一級(jí)別中的節(jié)點(diǎn)410、412、414、以及416表現(xiàn)開(kāi)始漢字詞語(yǔ)(例如,詞語(yǔ)或短語(yǔ))的第一漢字字符??梢詮母?jié)點(diǎn)402到子節(jié)點(diǎn)遍歷語(yǔ)素圖400,以便基于使用字形圖300識(shí)別的n-gram表現(xiàn)來(lái)識(shí)別第二寫(xiě)入系統(tǒng)中的詞條。語(yǔ)素圖400中的每個(gè)節(jié)點(diǎn)表現(xiàn)第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)語(yǔ)素。例如,節(jié)點(diǎn)410 表現(xiàn)語(yǔ)素“阿”、“呵”、以及“啊”,它們中的每一個(gè)能夠以多種形式發(fā)音(例如,“a”、“0”、 “ ”)。作為另一個(gè)示例,節(jié)點(diǎn)421可以表現(xiàn)“屋”(未示出)。此外,語(yǔ)素圖400中的節(jié)點(diǎn)的適當(dāng)子集對(duì)應(yīng)詞條(例如,漢字詞語(yǔ))。例如,節(jié)點(diǎn)410、412、414、416、420、422、423、424、 425、以及440對(duì)應(yīng)于詞條。這個(gè)適當(dāng)子集通過(guò)陰影節(jié)點(diǎn)在語(yǔ)素圖400的視覺(jué)表現(xiàn)中示出。 或者,沒(méi)有陰影的節(jié)點(diǎn)只對(duì)應(yīng)于詞條的一部分。例如,節(jié)點(diǎn)421和430只對(duì)應(yīng)于詞條的一部分。具體地說(shuō),節(jié)點(diǎn)421可以對(duì)應(yīng)于“愛(ài)屋”,其只是詞條的一部分(例如,對(duì)應(yīng)于節(jié)點(diǎn)440 的中文成語(yǔ)“愛(ài)屋及烏”的一部分)。每個(gè)對(duì)應(yīng)詞條包括其對(duì)應(yīng)節(jié)點(diǎn)的語(yǔ)素以及所述對(duì)應(yīng)節(jié)點(diǎn)源自的節(jié)點(diǎn)的語(yǔ)素。例如,從節(jié)點(diǎn)410下降到節(jié)點(diǎn)420。節(jié)點(diǎn)420對(duì)應(yīng)詞條“阿姨”和“阿以”?!耙獭焙汀耙浴笔菍?duì)應(yīng)拼音音節(jié)“yi,,的語(yǔ)素,而“阿”對(duì)應(yīng)節(jié)點(diǎn)410。雖然利用第一寫(xiě)入系統(tǒng)中的n-gram表現(xiàn)來(lái)標(biāo)注語(yǔ)素圖400中的節(jié)點(diǎn)(例如,利用 “a”標(biāo)注節(jié)點(diǎn)410,并且利用“ ji”標(biāo)注節(jié)點(diǎn)430),實(shí)際上,節(jié)點(diǎn)與標(biāo)識(shí)符(例如,來(lái)自字形圖300的相同標(biāo)識(shí)符)相關(guān)聯(lián)。例如,如先前所述,節(jié)點(diǎn)410與標(biāo)識(shí)符“1”相關(guān)聯(lián),而利用標(biāo)識(shí)符“418”標(biāo)注節(jié)點(diǎn)416。此外,語(yǔ)素圖的節(jié)點(diǎn)還與識(shí)別對(duì)應(yīng)詞條的詞條標(biāo)識(shí)符相關(guān)聯(lián) (例如,“32778”用于節(jié)點(diǎn)425中的“足部”)。在一些實(shí)施方式中,詞條(例如,漢字詞語(yǔ))被存儲(chǔ)在與語(yǔ)素圖400分離的數(shù)據(jù)結(jié)構(gòu)中。在這些以及其它實(shí)施方式中,語(yǔ)素圖的每個(gè)節(jié)點(diǎn)只與來(lái)自字形圖的標(biāo)識(shí)符以及詞條標(biāo)識(shí)符相關(guān)聯(lián)。例如,詞條可以存儲(chǔ)在由詞條標(biāo)識(shí)符索引的字典中。語(yǔ)素圖中定位的節(jié)點(diǎn) (例如,陰影節(jié)點(diǎn))提供了可以用來(lái)識(shí)別字典中的詞條的詞條標(biāo)識(shí)符。使用字形圖300識(shí)別的第一寫(xiě)入系統(tǒng)中的輸入序列的n-gram表現(xiàn)的排列 (permutation)被用來(lái)遍歷語(yǔ)素圖,以識(shí)別可能的詞條,如圖5中的示例所示。圖5示出字形圖和語(yǔ)素圖的示例使用的步驟。在步驟0,沒(méi)有接收到輸入,并且沒(méi)有定位字形圖和語(yǔ)素圖中的子節(jié)點(diǎn)。在步驟1,羅馬字符“W”由輸入法編輯器接收。作為響應(yīng),輸入法編輯器定位在字形圖的第一級(jí)別中表現(xiàn)“W”的節(jié)點(diǎn)。輸入法編輯器還定位從表現(xiàn)“W”的節(jié)點(diǎn)下降并在對(duì)應(yīng)
11全音節(jié)的字形圖的節(jié)點(diǎn)的適當(dāng)子集中的所有節(jié)點(diǎn)(例如,對(duì)應(yīng)于第二寫(xiě)入系統(tǒng)中的語(yǔ)素)。 與定位的節(jié)點(diǎn)相關(guān)聯(lián)的標(biāo)識(shí)符可以用來(lái)定位表現(xiàn)漢字字符的語(yǔ)素圖中的節(jié)點(diǎn)。例如,“W” 是拼音音節(jié)“wu”、“wo”、以及“wei”的第一子音節(jié)。參考圖5中的步驟1,“無(wú)”對(duì)應(yīng)“對(duì)”, “我”對(duì)應(yīng)“W0”,以及“為”對(duì)應(yīng)“#i”。在步驟1,只有三個(gè)拼音字符示出在示例中,例如, 其中“無(wú)”、“我”、以及“為”可以是 ”的最可能的候選。類似地,步驟2只示出響應(yīng)于接收羅馬字符“《”和“O”處理的一些可能的候選。圖5沒(méi)有示出實(shí)際處理的所有可能的候選。在步驟2,在接收到羅馬字符“W”之后,由輸入法編輯器接收羅馬字符“O”。除了在字形圖的第一級(jí)別中定位表現(xiàn)‘V”的節(jié)點(diǎn)以外,輸入法編輯器還在字形圖的第一級(jí)別中定位表現(xiàn)“O”的節(jié)點(diǎn)。如先前所述,“W”可以是全拼音音節(jié)的第一子音節(jié),“O”可以是全拼音音節(jié)的第一子音節(jié)、或者“WO”可以是全拼音音節(jié)。輸入法編輯器還定位從對(duì)應(yīng)于全拼音音節(jié)的字形圖中的節(jié)點(diǎn)的適當(dāng)子集中表現(xiàn) ”和“O”的節(jié)點(diǎn)下降到的所有節(jié)點(diǎn)。與所定位的節(jié)點(diǎn)相關(guān)聯(lián)的標(biāo)識(shí)符可以用來(lái)定位表現(xiàn)漢字字符的語(yǔ)素圖中的節(jié)點(diǎn),該漢字字符表現(xiàn)全音節(jié)。例如,“W”是拼音音節(jié)“WO”的第一子音節(jié)。參考圖5中的步驟2,“我”對(duì)應(yīng)“W0”,而 “臥”對(duì)應(yīng)“W0 ”。作為另一個(gè)示例,“ ο ”是全拼音音節(jié),“噢”對(duì)應(yīng)“ δ ”。打分如上所述,使用字形圖和語(yǔ)素圖來(lái)識(shí)別由輸入文本表現(xiàn)的詞條的可能排列。例如, 返回圖5,步驟1示出可以由羅馬字符“W”表現(xiàn)的第一詞條“無(wú)”、“我”、以及“為”。在只接收到第一字形(例如,“W”)之后,基于與第一詞條中的每一個(gè)相關(guān)聯(lián)的得分,可以選擇第一詞條中的一個(gè),例如,“無(wú)”、“我”、以及“為”。例如,可以選擇最有可能出現(xiàn)的詞條(并且顯示)°如先前所述,當(dāng)接收到作為輸入的另外的字形(例如,第二字形)時(shí),第一字形和第二字形可以表現(xiàn)一個(gè)或多個(gè)第一詞條中的一個(gè),或者第一字形和第二字形可以分別表現(xiàn)不同的詞條,例如,第二字形可以表現(xiàn)來(lái)自一個(gè)或多個(gè)第二詞條的組中的詞條。為了解決這些情況,可以生成第三詞條和第四詞條的排列并打分。第三詞條可以從一個(gè)或多個(gè)第一詞條中選擇,而第四詞條可以從一個(gè)或多個(gè)第二詞條中選擇。第一詞條的得分和排列的得分可以進(jìn)行比較,以提供最可能的詞條。例如,在圖5中,可以識(shí)別或計(jì)算對(duì)于第一詞條“無(wú)”(“對(duì)”)、“我”( δ”)、以及 “為” ("wei)的得分。此外,可以識(shí)別對(duì)于排列“無(wú)噢” (“《 δ”)、“我噢” (“《δδ”)、以及 “為噢”(“#i δ”)的得分。再次,這個(gè)示例并沒(méi)有示出實(shí)際上將處理的所有可能的第一詞條和排列。例如,可以比較所識(shí)別的得分以提供具有最高得分的詞條或排列用于顯示。在一些實(shí)施例中,可能的排列被發(fā)送到n-gram語(yǔ)言模型,以計(jì)算排列發(fā)生的概率,并且可以基于一個(gè)或多個(gè)標(biāo)準(zhǔn)選擇一個(gè)或多個(gè)排列。例如,可以選擇最可能出現(xiàn)的排列。根據(jù)n-gram語(yǔ)言模型的、特定串(例如,詞條的排列)將出現(xiàn)的概率能夠使用鏈?zhǔn)椒▌t來(lái)確定。鏈?zhǔn)椒▌t將串的概率確定為各個(gè)概率的乘積。因此,對(duì)于給定串“ei、
e2、……、6/,對(duì)于串的概率,?(61、62、……、ek)等于
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)施的方法,包括 接收第一寫(xiě)入系統(tǒng)中的第一字形;使用第一寫(xiě)入系統(tǒng)中的字形的字形圖來(lái)識(shí)別第二寫(xiě)入系統(tǒng)中第一語(yǔ)素的、第一寫(xiě)入系統(tǒng)中的第一 n-gram表現(xiàn),其中第一 n-gram表現(xiàn)包括第一字形;使用第一 n-gram表現(xiàn)來(lái)定位語(yǔ)素圖中一個(gè)或多個(gè)第一節(jié)點(diǎn),其中在所述語(yǔ)素圖中每個(gè)定位的第一節(jié)點(diǎn)表現(xiàn)第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)第一詞條,所述一個(gè)或多個(gè)第一詞條中的每一個(gè)由第一 n-gram表現(xiàn)來(lái)表示;基于與所述一個(gè)或多個(gè)第一詞條中的每一個(gè)相關(guān)聯(lián)的第一得分,從所述一個(gè)或多個(gè)第一詞條中選擇第一詞條;以及提供所述第一詞條用于顯示在用戶設(shè)備上。
2.如權(quán)利要求1所述的方法,其中,所述第一字形只表現(xiàn)第二寫(xiě)入系統(tǒng)中音節(jié)的一部分。
3.如權(quán)利要求1所述的方法,還包括 接收第一寫(xiě)入系統(tǒng)中的第二字形;使用第一寫(xiě)入系統(tǒng)中的字形的字形圖來(lái)識(shí)別第二寫(xiě)入系統(tǒng)中第二語(yǔ)素的、第一寫(xiě)入系統(tǒng)中的第二 n-gram表現(xiàn),其中第二 n-gram表現(xiàn)包括第二字形;使用第二 n-gram表現(xiàn)來(lái)定位所述語(yǔ)素圖中的一個(gè)或多個(gè)第二節(jié)點(diǎn),其中在所述語(yǔ)素圖中的每個(gè)定位的第二節(jié)點(diǎn)表現(xiàn)第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)第二詞條,所述一個(gè)或多個(gè)第二詞條中的每一個(gè)由第二 n-gram表現(xiàn)來(lái)表示;生成第三詞條和第四詞條的一個(gè)或多個(gè)排列,其中第三詞條是從所述一個(gè)或多個(gè)第一詞條中選擇的,而第四詞條是從所述一個(gè)或多個(gè)第二詞條中選擇的;基于與所述一個(gè)或多個(gè)排列中的每一個(gè)相關(guān)聯(lián)的第二得分,從所述一個(gè)或多個(gè)排列中選擇排列,其中所選擇的排列包括后接第四詞條的第三詞條;比較所選擇的第一詞條的第一得分和所選擇的排列的第二得分;以及基于所述比較,提供所選擇的第一詞條或所選擇的排列用于顯示在用戶設(shè)備上。
4.如權(quán)利要求3所述的方法,其中,所述第一字形僅表現(xiàn)與僅由第二字形部分表現(xiàn)的第四語(yǔ)素不同的第三語(yǔ)素的一部分。
5.如權(quán)利要求1所述的方法,其中,所述字形圖包括多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)表現(xiàn)第一寫(xiě)入系統(tǒng)中的字形,并且其中,在所述多個(gè)節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于全音節(jié),每個(gè)對(duì)應(yīng)的全音節(jié)包括其對(duì)應(yīng)節(jié)點(diǎn)的字形所述對(duì)應(yīng)節(jié)點(diǎn)源自的節(jié)點(diǎn)的字形。
6.如權(quán)利要求5所述的方法,其中,所述第一n-gram表現(xiàn)表示對(duì)應(yīng)于節(jié)點(diǎn)的適當(dāng)子集中的節(jié)點(diǎn)之一的全音節(jié)。
7.如權(quán)利要求1所述的方法,其中,所述語(yǔ)素圖包括多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)表示第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)語(yǔ)素,并且其中,在所述多個(gè)節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于詞條,每個(gè)對(duì)應(yīng)的詞條包括其對(duì)應(yīng)節(jié)點(diǎn)的語(yǔ)素以及所述對(duì)應(yīng)節(jié)點(diǎn)源自的節(jié)點(diǎn)的語(yǔ)素。
8.如權(quán)利要求7所述的方法,其中,所述語(yǔ)素對(duì)應(yīng)于漢字字符。
9.如權(quán)利要求1所述的方法,其中,所述第一n-gram表現(xiàn)表示全拼音音節(jié),并且所述一個(gè)或多個(gè)詞條中的每一個(gè)是漢字詞語(yǔ)。
10.如權(quán)利要求1所述的方法,其中,使用所述第一n-gram表現(xiàn)來(lái)定位語(yǔ)素圖中的一個(gè)或多個(gè)節(jié)點(diǎn)包括在對(duì)應(yīng)于第一 n-gram表現(xiàn)的字形圖中選擇第一節(jié)點(diǎn)的標(biāo)識(shí)符;以及在與所述標(biāo)識(shí)符相關(guān)聯(lián)的語(yǔ)素圖中定位第二節(jié)點(diǎn)。
11.一種計(jì)算機(jī)實(shí)施的方法,包括 接收第一羅馬字符輸入;使用第一羅馬字符輸入來(lái)定位拼音輸入圖中的第一拼音音節(jié)節(jié)點(diǎn),所述拼音輸入圖包括多個(gè)拼音音節(jié)節(jié)點(diǎn),每個(gè)拼音音節(jié)節(jié)點(diǎn)對(duì)應(yīng)于羅馬字符,其中在多個(gè)拼音音節(jié)節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)拼音音節(jié)點(diǎn)對(duì)應(yīng)于拼音音節(jié),每個(gè)對(duì)應(yīng)的拼音音節(jié)包括其對(duì)應(yīng)拼音音節(jié)節(jié)點(diǎn)的羅馬字符以及所述對(duì)應(yīng)拼音音節(jié)節(jié)點(diǎn)源自的拼音音節(jié)節(jié)點(diǎn)的羅馬字符;使用定位的拼音音節(jié)節(jié)點(diǎn)來(lái)定位在拼音音節(jié)圖中的一個(gè)或多個(gè)第一漢字字符節(jié)點(diǎn),所述拼音音節(jié)圖包括多個(gè)漢字字符節(jié)點(diǎn),每個(gè)漢字字符節(jié)點(diǎn)對(duì)應(yīng)于拼音音節(jié),其中在多個(gè)漢字字符節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)漢字字符節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)或多個(gè)第一漢字詞語(yǔ),每個(gè)對(duì)應(yīng)的一個(gè)或多個(gè)第一漢字詞語(yǔ)包括漢字字符,該漢字字符對(duì)應(yīng)于其對(duì)應(yīng)漢字字符節(jié)點(diǎn)以及所述對(duì)應(yīng)漢字字符節(jié)點(diǎn)源自的漢字字符節(jié)點(diǎn)的拼音音節(jié);以及基于與所述一個(gè)或多個(gè)第一漢字詞語(yǔ)中的每一個(gè)相關(guān)聯(lián)的第一得分,選擇對(duì)應(yīng)于所述一個(gè)或多個(gè)漢字字符節(jié)點(diǎn)中的一個(gè)的第一漢字詞語(yǔ),用于輸出到用戶設(shè)備。
12.如權(quán)利要求11所述的方法,還包括 接收第二羅馬字符輸入;使用第二羅馬字符輸入來(lái)定位拼音輸入圖中的第二拼音音節(jié)節(jié)點(diǎn),其中第二拼音音節(jié)節(jié)點(diǎn)表現(xiàn)包括第二羅馬字符輸入的拼音音節(jié);使用第二定位的拼音音節(jié)節(jié)點(diǎn)來(lái)定位拼音音節(jié)圖中的一個(gè)或多個(gè)第二漢字字符節(jié)點(diǎn), 其中每個(gè)定位的第二漢字字符節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)或多個(gè)第二漢字詞語(yǔ);以及生成第三漢字詞語(yǔ)和第四漢字詞語(yǔ)的一個(gè)或多個(gè)排列,其中第三漢字詞語(yǔ)是從所述一個(gè)或多個(gè)第一漢字詞語(yǔ)中選擇的,而第四漢字詞語(yǔ)是從所述一個(gè)或多個(gè)第二漢字條目中選擇的;基于與所述一個(gè)或多個(gè)排列中的每一個(gè)相關(guān)聯(lián)的第二得分,從一個(gè)或多個(gè)排列中選擇排列,其中所選擇的排列包括后接第四漢字詞語(yǔ)的第三漢字詞語(yǔ);比較所選擇的第一漢字詞語(yǔ)的第一得分與所選擇的排列的第二得分;以及基于所述比較,提供所選擇的第一漢字詞語(yǔ)或所選擇的排列,用于輸出到用戶設(shè)備。
13.如權(quán)利要求11所述的方法,其中,使用定位的拼音音節(jié)節(jié)點(diǎn)來(lái)定位一個(gè)或多個(gè)漢字字符節(jié)點(diǎn)包括選擇定位的拼音音節(jié)節(jié)點(diǎn)的標(biāo)識(shí)符;以及在與所述標(biāo)識(shí)符相關(guān)聯(lián)的拼音音節(jié)圖中定位第一漢字字符節(jié)點(diǎn)。
14.如權(quán)利要求11所述的方法,其中,所述拼音音節(jié)圖是Patricia鍵樹(shù)。
15.一種系統(tǒng),包括 數(shù)據(jù)處理裝置;以及數(shù)據(jù)存儲(chǔ)器,其中存儲(chǔ)第一寫(xiě)入系統(tǒng)中的字形的字形圖,所述字形圖包括第一多個(gè)節(jié)點(diǎn),第一多個(gè)節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)表現(xiàn)第一寫(xiě)入系統(tǒng)中的字形,并且其中,在第一多個(gè)節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于全音節(jié),每個(gè)對(duì)應(yīng)的全音節(jié)包括第一多個(gè)節(jié)點(diǎn)中其對(duì)應(yīng)節(jié)點(diǎn)的字形以及所述對(duì)應(yīng)節(jié)點(diǎn)源自的節(jié)點(diǎn)的字形,以及第二寫(xiě)入系統(tǒng)中的語(yǔ)素的語(yǔ)素圖,所述語(yǔ)素圖包括第二多個(gè)節(jié)點(diǎn),第二多個(gè)節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)表現(xiàn)第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)語(yǔ)素,并且其中,在第二多個(gè)節(jié)點(diǎn)的適當(dāng)子集中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于詞條,每個(gè)對(duì)應(yīng)的詞條包括第二多個(gè)節(jié)點(diǎn)中其對(duì)應(yīng)節(jié)點(diǎn)的語(yǔ)素以及所述對(duì)應(yīng)節(jié)點(diǎn)源自的節(jié)點(diǎn)的語(yǔ)素。
16.如權(quán)利要求15所述的系統(tǒng),其中,所述數(shù)據(jù)存儲(chǔ)器還存儲(chǔ) 語(yǔ)言模型,給一個(gè)或多個(gè)詞條的組合打分。
17.一種計(jì)算機(jī)程序產(chǎn)品,編碼在有形程序載體上,可操作用來(lái)使得數(shù)據(jù)處理裝置執(zhí)行以下操作接收第一寫(xiě)入系統(tǒng)中的第一字形;使用第一寫(xiě)入系統(tǒng)中的字形的字形圖來(lái)識(shí)別第二寫(xiě)入系統(tǒng)中第一語(yǔ)素的、第一寫(xiě)入系統(tǒng)中的第一 n-gram表現(xiàn),其中第一 n-gram表現(xiàn)包括第一字形;使用第一 n-gram表現(xiàn)來(lái)定位語(yǔ)素圖中一個(gè)或多個(gè)第一節(jié)點(diǎn),其中在所述語(yǔ)素圖中每個(gè)定位的第一節(jié)點(diǎn)表現(xiàn)第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)第一詞條,所述一個(gè)或多個(gè)第一詞條中的每一個(gè)由第一 n-gram表現(xiàn)來(lái)表示;基于與所述一個(gè)或多個(gè)第一詞條中的每一個(gè)相關(guān)聯(lián)的第一得分,從所述一個(gè)或多個(gè)第一詞條中選擇第一詞條;以及提供第一詞條用于顯示在用戶設(shè)備上。
18.如權(quán)利要求17所述的計(jì)算機(jī)程序產(chǎn)品,可操作用來(lái)使得數(shù)據(jù)處理裝置進(jìn)一步執(zhí)行以下操作接收第一寫(xiě)入系統(tǒng)中的第二字形;使用第一寫(xiě)入系統(tǒng)中的字形的字形圖來(lái)識(shí)別第二寫(xiě)入系統(tǒng)中第二語(yǔ)素的、第一寫(xiě)入系統(tǒng)中的第二 n-gram表現(xiàn),其中第二 n-gram表現(xiàn)包括第二字形;使用第二 n-gram表現(xiàn)來(lái)定位所述語(yǔ)素圖中的一個(gè)或多個(gè)第二節(jié)點(diǎn),其中在所述語(yǔ)素圖中的每個(gè)定位的第二節(jié)點(diǎn)表現(xiàn)第二寫(xiě)入系統(tǒng)中的一個(gè)或多個(gè)第二詞條,所述一個(gè)或多個(gè)第二詞條中的每一個(gè)由第二 n-gram表現(xiàn)來(lái)表示;生成第三詞條和第四詞條的一個(gè)或多個(gè)排列,其中第三詞條是從所述一個(gè)或多個(gè)第一詞條中選擇的,而第四詞條是從所述一個(gè)或多個(gè)第二詞條中選擇的;基于與所述一個(gè)或多個(gè)排列中的每一個(gè)相關(guān)聯(lián)的第二得分,從所述一個(gè)或多個(gè)排列中選擇排列,其中所選擇的排列包括后接第四詞條的第三詞條;比較所選擇的第一詞條的第一得分和所選擇的排列的第二得分;以及基于所述比較,提供所選擇的第一詞條或所選擇的排列用于顯示在用戶設(shè)備上。
全文摘要
方法、系統(tǒng)和裝置包括計(jì)算機(jī)程序產(chǎn)品,其中輸入法編輯器接收第一寫(xiě)入系統(tǒng)中的字形,并基于第一寫(xiě)入系統(tǒng)中的字形識(shí)別第二寫(xiě)入系統(tǒng)中的詞條。在一個(gè)實(shí)施方式中,提供一種方法。該方法包括接收第一寫(xiě)入系統(tǒng)中的第一字形;使用第一寫(xiě)入系統(tǒng)中的字形的字形圖識(shí)別第二寫(xiě)入系統(tǒng)中第一語(yǔ)素的、第一寫(xiě)入系統(tǒng)中的第一n-gram表現(xiàn);使用第一n-gram表現(xiàn)來(lái)定位語(yǔ)素圖中的一個(gè)或多個(gè)第一節(jié)點(diǎn);基于與一個(gè)或多個(gè)第一詞條中的每一個(gè)相關(guān)聯(lián)的第一得分,從一個(gè)或多個(gè)第一詞條中選擇第一詞條;以及提供第一詞條用于顯示在用戶設(shè)備上。
文檔編號(hào)G06F3/023GK102439540SQ200980159401
公開(kāi)日2012年5月2日 申請(qǐng)日期2009年3月19日 優(yōu)先權(quán)日2009年3月19日
發(fā)明者吳根清, 段小濤, 黃泰一 申請(qǐng)人:谷歌股份有限公司