用于輸入法編輯器的瀏覽歷史語(yǔ)言模型的制作方法
【技術(shù)領(lǐng)域】
[0001]本公開(kāi)涉及計(jì)算機(jī)輸入的技術(shù)領(lǐng)域。
[0002]背景
[0003]輸入法編輯器(ME)是輔助用戶(hù)將文字輸入到計(jì)算設(shè)備的主機(jī)應(yīng)用中的計(jì)算機(jī)功能。ME可基于從用戶(hù)接收到的輸入提供若干個(gè)建議的詞和短語(yǔ)作為用于插入到該主機(jī)應(yīng)用中的候選。例如,用戶(hù)可以輸入詞或短語(yǔ)的一個(gè)或多個(gè)開(kāi)始字符,并且ME可基于所述開(kāi)始字符提供一個(gè)或多個(gè)建議的詞或短語(yǔ)以供用戶(hù)選擇一個(gè)想要的詞或短語(yǔ)。
[0004]對(duì)于另一示例,頂E還可以輔助用戶(hù)輸入非拉丁文字符,比如中文。用戶(hù)可以通過(guò)鍵盤(pán)輸入拉丁文字符。IME返回一個(gè)或多個(gè)中文字符作為供插入的候選。該用戶(hù)隨后可選擇適當(dāng)?shù)淖址⒉迦胨?。由于許多典型鍵盤(pán)支持輸入拉丁文字符,IME有助于用戶(hù)使用拉丁文字符鍵盤(pán)輸入非拉丁文字符。
【發(fā)明內(nèi)容】
[0005]提供本
【發(fā)明內(nèi)容】
是為了以簡(jiǎn)化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的一些概念。本概述并不旨在標(biāo)識(shí)所要求保護(hù)主題的關(guān)鍵特征或必要特征,也不旨在用于限制所要求保護(hù)主題的范圍。
[0006]一些實(shí)現(xiàn)提供用于至少部分地基于瀏覽歷史語(yǔ)言模型來(lái)預(yù)測(cè)非拉丁文字符串的技術(shù)和裝置??梢曰跒g覽歷史信息來(lái)生成瀏覽歷史語(yǔ)言模型。例如,瀏覽歷史信息至少可以包括高速緩存的瀏覽內(nèi)容,并且還可以包括實(shí)時(shí)瀏覽內(nèi)容。響應(yīng)于經(jīng)由輸入法編輯器界面接收到拉丁文字符串,可以提供所預(yù)測(cè)的非拉丁文字符串。另外,響應(yīng)于接收到拼音字符串,一些示例可以至少部分地基于瀏覽歷史語(yǔ)言模型來(lái)預(yù)測(cè)中文字符串。
【附圖說(shuō)明】
[0007]參考附圖闡述【具體實(shí)施方式】。在附圖中,附圖標(biāo)記最左邊的數(shù)字標(biāo)識(shí)該附圖標(biāo)記首次出現(xiàn)的附圖。在不同附圖中使用同一附圖標(biāo)記指示相似或相同的項(xiàng)或特征。
[0008]圖1示出根據(jù)某些實(shí)現(xiàn)的示例系統(tǒng)。
[0009]圖2示出根據(jù)一些實(shí)現(xiàn)的輸入法編輯器界面的示例。
[0010]圖3示出根據(jù)一些實(shí)現(xiàn)的輸入法編輯器界面的示例。
[0011]圖4示出根據(jù)某些實(shí)現(xiàn)的示例流程圖。
[0012]圖5示出根據(jù)某些實(shí)現(xiàn)的示例流程圖。
[0013]圖6示出某些實(shí)現(xiàn)可以在其中操作的示例系統(tǒng)。
[0014]詳細(xì)描述
[0015]概述
[0016]一些示例包括用于通過(guò)輸入法編輯器(ME)實(shí)現(xiàn)瀏覽歷史語(yǔ)言模型的技術(shù)和裝置。例如,對(duì)于基于非拉丁文字符(例如,漢語(yǔ))語(yǔ)言而言,用戶(hù)可能難以將字符輸入到計(jì)算機(jī)中。例如,存在數(shù)千個(gè)中文字符,而典型的西方鍵盤(pán)受限于26個(gè)字母。本公開(kāi)涉及響應(yīng)于從用戶(hù)接收到拉丁文字符串而預(yù)測(cè)非拉丁文字符串的IME。所預(yù)測(cè)的非拉丁文字符串至少部分地基于瀏覽歷史語(yǔ)言模型。作為說(shuō)明性而非限定性的示例,ME可以用來(lái)將拼音文本(即,由拉丁文字符在語(yǔ)音上表示的中文字符)翻譯成中文字符。應(yīng)當(dāng)明白,本公開(kāi)不受限于中文字符。例如,其他說(shuō)明性的非拉丁文字符可以包括日文字符或韓文字符,等等。
[0017]在中文輸入法編輯器中,最常見(jiàn)的是那些基于拼音文字的。漢語(yǔ)拼音是一組用拉丁文字母表給中文字符的發(fā)音注音的規(guī)則。在典型的拼音ME中,用戶(hù)輸入他們想要輸入進(jìn)計(jì)算機(jī)的中文的拼音文字,并且ME負(fù)責(zé)顯示所有匹配的字符。但是,許多中文字符具有相同的發(fā)音。也即,在拼音文字和對(duì)應(yīng)的中文字符間存在一對(duì)多關(guān)系。為了預(yù)測(cè)非拉丁文字符窗,IME可以依賴(lài)語(yǔ)音模型。例如,統(tǒng)計(jì)語(yǔ)言模型(SLM)可被用來(lái)計(jì)算每個(gè)可能轉(zhuǎn)換的轉(zhuǎn)換概率,并選擇具有最高概率的一個(gè)呈現(xiàn)給用戶(hù)。稱(chēng)作N-gram SLM的特定類(lèi)型的SLM可以將一串連續(xù)單詞的概率分解成該串中兩個(gè)、三個(gè)或更多個(gè)連續(xù)單詞間條件概率之積。
[0018]可以發(fā)布具有通用用途語(yǔ)言模型(即,“通用”語(yǔ)言模型)的IME,該通用用途語(yǔ)言模型被訓(xùn)練用于最常見(jiàn)的打字場(chǎng)景。然而,這種通用語(yǔ)言模型對(duì)于特定的用戶(hù)(例如,具有特定瀏覽歷史的用戶(hù))可能是不適當(dāng)?shù)摹<?,不同的用?hù)可以具有不同的偏好,而利用通用語(yǔ)言模型的ME可能建議對(duì)于特定用戶(hù)而言不合適的單詞或詞組。為了解說(shuō),利用通用語(yǔ)言模型的ME可以建議第一單詞或詞組(S卩,第一組非拉丁文字符)。該第一單詞或詞組可以具有與第二單詞或詞組(即,第二組非拉丁文字符)相同的發(fā)音。第一單詞或詞組對(duì)于標(biāo)準(zhǔn)用戶(hù)而言是合適的,但是對(duì)于另一用戶(hù)而言可能較不合適。取而代之的,第二單詞或詞組可能對(duì)于這種用戶(hù)更加合適。
[0019]Web瀏覽歷史是有關(guān)用戶(hù)的重要信息源。例如,用戶(hù)可能瀏覽有關(guān)最近新聞事件的內(nèi)容或者可能瀏覽用戶(hù)感興趣的特殊主題。例如,計(jì)算機(jī)程序可以針對(duì)各種新聞條目瀏覽一個(gè)或多個(gè)門(mén)戶(hù)網(wǎng)站,并且還可以瀏覽一個(gè)或多個(gè)軟件開(kāi)發(fā)網(wǎng)站。由此,用戶(hù)的瀏覽歷史可以包括與編程技術(shù)以及其他信息有關(guān)的最新普遍熱點(diǎn)主題和文字。
[0020]本公開(kāi)描述了利用瀏覽歷史語(yǔ)言模型來(lái)預(yù)測(cè)非拉丁文字符串的IME,利用瀏覽歷史語(yǔ)言模型預(yù)測(cè)非拉丁文字符串相比基于通用語(yǔ)言模型預(yù)測(cè)的非拉丁文字符串對(duì)于有特定瀏覽歷史的用戶(hù)而言更加合適。
[0021]示例實(shí)現(xiàn)
[0022]圖1示出根據(jù)一些實(shí)現(xiàn)的系統(tǒng)100的示例框架。系統(tǒng)100包括輸入法編輯器(ME)應(yīng)用102,該輸入法編輯器(ME)應(yīng)用102在通信上耦合至瀏覽歷史語(yǔ)言模型104和通用語(yǔ)言模型106。系統(tǒng)100進(jìn)一步包括自適應(yīng)語(yǔ)言模型構(gòu)建器108,該自適應(yīng)語(yǔ)言構(gòu)建器108適配成接收瀏覽歷史信息110。瀏覽歷史信息110至少可以包括在瀏覽器高速緩存114處存儲(chǔ)的高速緩存的瀏覽內(nèi)容112。可以經(jīng)由計(jì)算設(shè)備120給用戶(hù)118提供ME界面116。盡管在圖1中計(jì)算設(shè)備120被示出與系統(tǒng)100中的上述組件分開(kāi),但是應(yīng)當(dāng)明白這僅僅是出于解說(shuō)的目的。例如,在一些示例中,系統(tǒng)100的所有組件可以包括在計(jì)算設(shè)備120中,而在另一些示例中,組件可以跨能夠相互通信的任何數(shù)目個(gè)計(jì)算設(shè)備分布,諸如通過(guò)一個(gè)或多個(gè)網(wǎng)絡(luò)上或其他通信連接。
[0023]IME應(yīng)用102配置成生成ME界面116,以供經(jīng)由計(jì)算設(shè)備120顯示給用戶(hù)118。自適應(yīng)語(yǔ)言模型構(gòu)建器108配置成基于瀏覽歷史信息110生成瀏覽歷史語(yǔ)言模型104。IME應(yīng)用102進(jìn)一步配置成經(jīng)由ME界面116接收拉丁文字符串122。響應(yīng)于接收到拉丁文字符串122,ME應(yīng)用102配置成至少部分地基于瀏覽歷史語(yǔ)言模型104預(yù)測(cè)非拉丁文字符串124。
[0024]自適應(yīng)語(yǔ)言模型構(gòu)建器108可以基于對(duì)瀏覽歷史信息110的分析而生成瀏覽歷史語(yǔ)言模型104。例如,瀏覽歷史語(yǔ)言模型104可以包括N-gram統(tǒng)計(jì)語(yǔ)言模型。這種N-gram統(tǒng)計(jì)語(yǔ)言模型可以將一串連續(xù)單詞的概率分解成該串中多個(gè)(例如,兩個(gè)、三個(gè)、四個(gè)、五個(gè),等等)連續(xù)單詞間條件概率之積??梢詫?duì)一個(gè)或多個(gè)文件112中的每一個(gè)執(zhí)行這種分析。
[0025]一些實(shí)現(xiàn)提供系統(tǒng)服務(wù),該系統(tǒng)服務(wù)可以周期性地監(jiān)視瀏覽器高速緩存114以確定新的瀏覽內(nèi)容是否已經(jīng)被存儲(chǔ)到瀏覽器高速緩存114中。響應(yīng)于確定已經(jīng)保存了新的瀏覽內(nèi)容,自適應(yīng)語(yǔ)言模型構(gòu)建器108可以處理新瀏覽內(nèi)容以更新瀏覽歷史語(yǔ)言模型104。在一些實(shí)現(xiàn)中,瀏覽歷史信息110還可以包括實(shí)時(shí)瀏覽內(nèi)容126,如幻影所示。例如,瀏覽器應(yīng)用128的插件(例如,web瀏覽器應(yīng)用)可以基本上實(shí)時(shí)地檢測(cè)新的瀏覽內(nèi)容并且向自適應(yīng)語(yǔ)言模型構(gòu)建器108提供實(shí)時(shí)瀏覽內(nèi)容126。自適應(yīng)語(yǔ)言模型構(gòu)建器108可以處理實(shí)時(shí)瀏覽內(nèi)容126以更新瀏覽歷史語(yǔ)言模型104。在一些應(yīng)用中,當(dāng)瀏覽模式被設(shè)置成私人瀏覽時(shí),瀏覽器應(yīng)用128的插件可以不提供實(shí)時(shí)瀏覽信息。也即,瀏覽歷史信息110可任選地僅包括在瀏覽器高速緩存處存儲(chǔ)的高速緩存的瀏覽內(nèi)容112。
[0026]IME應(yīng)用102經(jīng)由ME界面116接收拉丁字符串122。作為說(shuō)明性示例,拉丁文字符串122可以包括拼音文字,并且預(yù)測(cè)的非拉丁文字符串124可以包括一個(gè)或多個(gè)中文字符。
[0027]多個(gè)非拉丁文字符串可以與經(jīng)由ME界面116接收到的拉丁文字符串122相關(guān)聯(lián)。轉(zhuǎn)換概率可以與多個(gè)非拉丁文字符串中的每個(gè)非拉丁文字符串相關(guān)聯(lián)。IME應(yīng)用102可以至少部分地基于瀏覽歷史語(yǔ)言模型104來(lái)預(yù)測(cè)用于顯示給用戶(hù)118的非拉丁文字符串124。在特定的實(shí)施例中,ME應(yīng)用102通過(guò)標(biāo)識(shí)具有最高轉(zhuǎn)換概率的非拉丁文字符串來(lái)預(yù)測(cè)非拉丁文字符串124。ME應(yīng)用102可以基