用戶數(shù)據(jù)輸入預(yù)測的制作方法
【專利摘要】一種向電子設(shè)備中輸入文本的系統(tǒng)。所述系統(tǒng)包括:候選生成器(2),其用于由輸入序列(20)生成一個或多個候選,所述輸入序列(20)包括連續(xù)的字符序列,其中所述候選包括被一個或多個詞條邊界分隔開的兩個以上的詞條。所述候選生成器(2)將第一概率估量分配給所述候選,具體分配過程如下:在語境語言模型中搜索所述候選的一個或多個詞條,其中所述語境語言模型包括詞條序列,各所述詞條序列包括對應(yīng)的事件概率;并且將對應(yīng)于來自所述語境語言模型的所述候選的一個或多個詞條的概率分配給所述候選。所述優(yōu)選生成器(2)根據(jù)對應(yīng)的第一概率估量丟棄掉一個或多個候選。本發(fā)明還提供了一種在用戶輸入序列中推斷出詞條邊界的對應(yīng)方法。
【專利說明】用戶數(shù)據(jù)輸入預(yù)測
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種根據(jù)用戶輸入文本預(yù)測多個詞條的系統(tǒng)和方法,尤其涉及一種預(yù)測用戶輸入文本中一個或多個詞條邊界的方法和系統(tǒng)。
【背景技術(shù)】
[0002]目前存在多種探測用戶輸入文本中詞條邊界的系統(tǒng),例如,Google?的AndroicTlCS鍵盤,或Apple?的1S鍵盤。但是,這些系統(tǒng)在詞條邊界的探測方法上具有一些局限性。
[0003]以Google?的Android?ICS鍵盤為例,如果用戶輸入兩個有效的屬于基本詞匯的單詞,且未輸入分隔空格或除空格之外的其他字符,該系統(tǒng)則會提供兩個由空格分隔的單詞,替代相關(guān)差錯字符。但是,該系統(tǒng)中存在很多限制,尤其是:
[0004]?如果任一單詞為鍵入錯誤或拼寫錯誤,則該系統(tǒng)無法工作;
[0005]?該系統(tǒng)無法與其他輸入操作函數(shù)一起工作,例如自動省略號插入函數(shù);以及
[0006]?該系統(tǒng)一次只能分析兩個單詞,即:其僅能識別一個單詞邊界。
[0007]Apple?的1S鍵盤比AndroicTlCS鍵盤更加先進(jìn)的地方在于:,Apple?的1S鍵盤可以補(bǔ)償受限的鍵入錯誤或拼寫錯誤。然而,Apple?的1S鍵盤也只限于識別一個單詞的邊界。
[0008]本發(fā)明的目的在于克服上述限制,以便可在無需明確插入詞條邊界的情況下允許用戶輸入完整的短語甚至整條消息。
【發(fā)明內(nèi)容】
[0009]在本發(fā)明的第一方面中,提供了一個向電子設(shè)備中輸入文本的系統(tǒng),其包括:
[0010]候選生成器,其用于實(shí)施以下操作:
[0011]由輸入序列生成一個或多個候選,所述輸入序列包括連續(xù)的字符序列,其中所述候選包括被一個或多個詞條邊界分隔開的兩個以上的詞條;
[0012]將第一概率估量分配給所述候選,具體分配過程如下:
[0013]在語境語言模型中搜索所述候選的一個或多個詞條,其中所述語境語言模型包括詞條序列,各所述詞條序列包括對應(yīng)的事件概率;并且
[0014]將對應(yīng)于來自所述語境語言模型的所述候選的一個或多個詞條的概率分配給所述候選;并且
[0015]根據(jù)對應(yīng)的第一概率估量丟棄掉一個或多個候選。
[0016]在一優(yōu)選實(shí)施例中,所述一個或多個詞條包括候選。優(yōu)選地,針對各個候選,所述候選生成器在所述語境語言模型中搜索包含與所述候選組合的語境序列的序列,其中所述語境序列為用戶輸入文本,所述用戶輸入文本在所述輸入序列之前并且包括一個或多個由一個或多個詞條邊界分隔的詞條。
[0017] 所述系統(tǒng)還包括:輸入序列生成器,其用于將用戶輸入信號轉(zhuǎn)換成輸入序列和語境序列。所述輸入序列生成器優(yōu)選通過生成字符集合的序列將用戶輸入信號轉(zhuǎn)換成輸入序列,所述字符集合包括其內(nèi)字符的概率分布,這樣便存在與所述字符集合內(nèi)的各字符相關(guān)的概率值。
[0018]所述候選生成器優(yōu)選通過將輸入序列轉(zhuǎn)換成包括一條或多條路徑的概率約束序列圖由輸入序列生成一個或多個候選,其中所述一條或多條路徑對應(yīng)于所述一個或多個候選。所述概率約束序列圖優(yōu)選是為有向非循環(huán)圖的變體,所述有向非循環(huán)圖包括一組節(jié)點(diǎn)和有向邊,各所述有向邊將一個節(jié)點(diǎn)與另一個節(jié)點(diǎn)連接,其中,在所述概率約束序列圖中,各字符集合的字符被分配了一個節(jié)點(diǎn),各節(jié)點(diǎn)的進(jìn)入邊對應(yīng)于相關(guān)字符的概率。所述概率約束序列圖的各條路徑被約束為具有相同的長度。
[0019]所述候選生成器優(yōu)選將一個或多個詞條邊界節(jié)點(diǎn)插入所述概率約束序列圖,所述一個或多個詞條邊界節(jié)點(diǎn)具有所述輸入序列中的事件概率t。優(yōu)選地,所述候選生成器將詞條邊界節(jié)點(diǎn)插入至任意兩個相鄰節(jié)點(diǎn)之間,所述節(jié)點(diǎn)對應(yīng)于所述輸入序列的任意兩個相鄰的字符集合。此外,所述候選生成器插入詞條邊界節(jié)點(diǎn),所述詞條邊界節(jié)點(diǎn)作為代表所述輸入序列字符集合的任意節(jié)點(diǎn)的替換節(jié)點(diǎn)。
[0020]所述候選生成器優(yōu)選向所述概率約束序列圖中插入一個或多個通配符節(jié)點(diǎn),所述一個或多個通配符節(jié)點(diǎn)可使字符被插入到除所述輸入序列字符集合之外的所述概率約束序列圖。
[0021]所述候選生成器優(yōu)選通過確定穿過代表所述候選的所述概率約束序列圖的路徑的累積概率,生成所述候選的第二概率估量。所述候選生成器優(yōu)選將各候選的第一、第二概率估量組合。
[0022]優(yōu)選地,所述候選生成器通過下列方式丟棄掉候選:
[0023]確定最可能候選的組合概率;
[0024]確定被考慮到的候選的組合概率;
[0025]如果最可能候選的組合概率與被考慮到的候選的組合概率之比小于閾值t,則丟棄掉候選。
[0026]所述候選生成器確定未被丟棄掉的任意候選的第三概率。通過以下方式確定所述第三概率:在所述語境語言模型中搜索與候選組合的包含語境序列以及語境序列的有效正字法變化和詞匯變化的序列,其中所述語境序列為在所述輸入序列之前的包含一個或多個由一個或多個詞條邊界分隔的字條的用戶輸入文本。候選的總概率為第二概率與第三概率之積。
[0027]—個或多個最可能候選由所述候選生成器輸出至候選顯示器,以將其呈現(xiàn)給用戶。
[0028]在一實(shí)施例中,所述詞條邊界為空格字符。
[0029]在本發(fā)明的第二方面中,提供了一種推斷包含連續(xù)字符序列的輸入序列中的詞條邊界的方法,所述方法包括:
[0030]使用候選生成器由輸入序列生成一個或多個候選,其中所述候選包括被一個或多個詞條邊界分隔開的兩個以上的詞條;
[0031]將第一概率估量分配給所述候選,具體分配過程如下:
[0032]在語境語言模型中搜索所述候選的一個或多個詞條,其中所述語境語言模型包括詞條序列,各所述詞條序列包括對應(yīng)的事件概率;并且
[0033]將對應(yīng)于來自所述語境語言模型的所述候選的一個或多個詞條的概率分配給所述候選;并且
[0034]根據(jù)對應(yīng)的第一概率估量丟棄掉一個或多個候選。
[0035]在一實(shí)施例中,所述一個或多個詞條包括候選。針對各個候選,在所述語境語言模型中搜索包含與所述候選組合的語境序列的序列,其中所述語境序列為用戶輸入文本,所述用戶輸入文本在所述輸入序列之前并且包括一個或多個由一個或多個詞條邊界分隔的詞條。
[0036]上述方法優(yōu)選包括:使用輸入序列生成器將用戶輸入信號轉(zhuǎn)換成輸入序列和語境序列。將用戶輸入信號轉(zhuǎn)換成輸入序列的步驟優(yōu)選包括:生成字符集合的序列,所述字符集合的序列包括其內(nèi)字符的概率分布,這樣便存在與所述字符集合內(nèi)的各字符相關(guān)的概率值。
[0037]由所述輸入序列生成一個或多個候選的步驟包括:將所述輸入序列轉(zhuǎn)換成包括一條或多條路徑的概率約束序列圖,其中所述一條或多條路徑對應(yīng)于所述一個或多個候選。所述概率約束序列圖優(yōu)選為有向非循環(huán)圖的變體,所述有向非循環(huán)圖包括一組節(jié)點(diǎn)和有向邊,各所述有向邊將一個節(jié)點(diǎn)與另一個節(jié)點(diǎn)連接,其中,在所述概率約束序列圖中,各字符集合的字符被分配了一個節(jié)點(diǎn),各節(jié)點(diǎn)的進(jìn)入邊對應(yīng)于相關(guān)字符的概率。所述概率約束序列圖的各條路徑優(yōu)選被約束為具有相同的長度。
[0038]上述方法優(yōu)選還包括:使用所述候選生成器將一個或多個詞條邊界節(jié)點(diǎn)插入所述概率約束序列圖,所述一個或多個詞條邊界節(jié)點(diǎn)具有所述輸入序列中的事件概率t。優(yōu)選將詞條邊界節(jié)點(diǎn)插入至任意兩個相鄰節(jié)點(diǎn)之間,所述節(jié)點(diǎn)對應(yīng)于所述輸入序列的任意兩個相鄰的字符集合。
[0039]插入詞條邊界節(jié)點(diǎn);所述詞條邊界節(jié)點(diǎn)作為代表所述輸入序列字符集合的任意節(jié)點(diǎn)的替換節(jié)點(diǎn)。
[0040]上述方法優(yōu)選還包括:使用所述候選生成器向所述概率約束序列圖中插入一個或多個通配符節(jié)點(diǎn),所述一個或多個通配符節(jié)點(diǎn)可使任意字符被插入到除所述輸入序列字符集合之外的所述概率約束序列圖。
[0041]上述方法優(yōu)選還包括:使用所述候選生成器通過確定穿過代表所述候選的所述概率約束序列圖的路徑累積概率,生成所述候選的第二概率估量。使用所述候選生成器確定各候選的第一、第二概率估量之積。
[0042]優(yōu)選地,丟棄掉候選的步驟包括:
[0043]使用所述候選生成器確定最可能候選的組合概率;
[0044]使用所述候選生成器確定被考慮到的候選的組合概率;
[0045]如果最可能候選的組合概率與被考慮到的候選的組合概率之比小于閾值t,則使用所述候選生成器丟棄掉候選。
[0046]優(yōu)選地,上述方法還包括:使用所述候選生成器確定未被丟棄掉的任意候選的第三概率。通過以下方式確定所述第三概率:使用所述候選生成器在所述語境語言模型中搜索與候選組合的包含語境序列以及語境序列的有效正字法變化和詞匯變化的序列,其中所述語境序列為在所述輸入序列之前的包含一個或多個由一個或多個詞條邊界分隔的字條的用戶輸入文本。候選的總概率由第二概率與第三概率之積所決定。
[0047]上述方法包括:將一個或多個最可能候選從所述候選生成器輸出至候選顯示器,以將其呈現(xiàn)給用戶。
[0048]在一優(yōu)選實(shí)施例中,所述詞條邊界為空格字符。
[0049]在本發(fā)明的第三方面中,提供了一種計算機(jī)程序產(chǎn)品,其包括:計算機(jī)可讀介質(zhì),其上存儲有能夠使處理器執(zhí)行上述方法的計算機(jī)程序。
[0050]在本發(fā)明的第四方面中,提供了一種用戶界面,其包括:
[0051]文本窗,其用于顯示用戶當(dāng)前輸入的文本;
[0052]預(yù)測窗,其用于顯示候選,其中,所述候選是由用戶意圖表示的當(dāng)前輸入文本的預(yù)測;
[0053]虛擬鍵盤,其用于接受用戶輸入的文本,其中所述虛擬鍵盤不包括代表空格鍵的按鍵。
[0054]優(yōu)選地,所述預(yù)測窗口包括兩個預(yù)測子窗口,第一個預(yù)測子窗口用于顯示用戶輸入序列,而第二個預(yù)測子窗口用于顯示所述用戶輸入序列的預(yù)測。
【專利附圖】
【附圖說明】
[0055]參照下列附圖,詳細(xì)介紹本發(fā)明:
[0056]圖1為本發(fā)明的高級預(yù)測結(jié)構(gòu)的原理圖;
[0057]圖2a為本發(fā)明實(shí)例界面的示意圖;
[0058]圖2b為本發(fā)明實(shí)例界面的示意圖;
[0059]圖3為本發(fā)明系統(tǒng)的應(yīng)用實(shí)例的示意圖;
[0060]圖4為本發(fā)明方法的流程圖。
【具體實(shí)施方式】
[0061]本發(fā)明提供了一種諸如移動電話或平板電腦等電子設(shè)備的文本輸入系統(tǒng)和方法,通過使用概率性語境模型推斷文本輸入中詞條邊界的可能位置。
[0062]本發(fā)明系統(tǒng)包括一種根據(jù)基本詞匯生成多詞條邊界推斷結(jié)果的方法,所述方法根據(jù)基于語境語言數(shù)據(jù)過濾這些結(jié)果的概率方法。
[0063]本發(fā)明系統(tǒng)優(yōu)選與概率性字符處理結(jié)合,例如申請?zhí)枮镻CT/GB2011/001419的國際專利申請(其內(nèi)容作為參考被全面引入本文)中披露的概率性字符處理,以生成一可以同時糾正鍵入錯誤或拼寫錯誤的系統(tǒng),而且本發(fā)明系統(tǒng)還具有其他通過概率推斷得到的字符流的操作(例如,向英語中自動插入省略號)能力。因此本發(fā)明系統(tǒng)可以生成(并向用戶或系統(tǒng)提供)高概率多詞條預(yù)測。
[0064]由此,本發(fā)明系統(tǒng)和方法既提供了通過去除手動分隔單詞而提高用戶輸入率的手段,又向試圖手動分隔單詞但未能如愿(用戶插入替代分隔符的偽字符或用戶未能插入任何字符或諸如分隔符)的用戶提供了糾正反饋。
[0065]被賦予了一些用戶文本輸入實(shí)例的下列實(shí)施例演不了本發(fā)明系統(tǒng)和方法輸出(一個或多個詞條的文本預(yù)測)。該實(shí)施例演示了本發(fā)明系統(tǒng)/方法兼容諸如沒有詞條邊界的用戶輸入文本、以偽字符代替邊界的文本輸入等多種文本輸入腳本的能力。
[0066]沒有詞條邊界的用戶輸入文本實(shí)例如下:
[0067]對于用戶輸入的“seeyoulater”,本發(fā)明系統(tǒng)/方法會預(yù)測/輸出“see youlater,,。
[0068]以偽字符代替邊界的用戶輸入文本實(shí)例如下:
[0069]對于用戶輸入的“seecyoublater”,本發(fā)明系統(tǒng)/方法會預(yù)測/輸出“see youlater,,。
[0070]本發(fā)明的系統(tǒng)和方法還可以實(shí)時解決前綴匹配的問題,例如:
[0071]對于用戶輸入的“seeyoula”,本發(fā)明系統(tǒng)/方法會預(yù)測/輸出“see you later”。
[0072]本發(fā)明的系統(tǒng)/方法可以補(bǔ)償鍵入錯誤/拼寫錯誤,與此同時推斷出單詞邊界和前綴,例如:
[0073]對于用戶輸入的文本“seeyoulayer”,本發(fā)明系統(tǒng)/方法會預(yù)測/輸出“see youlater,,。
[0074]對于用戶輸入的文本“whatstheti”,本發(fā)明系統(tǒng)/方法會預(yù)測/輸出“what’s thetime,,。
[0075]本發(fā)明的系統(tǒng)/方法可以生成呈現(xiàn)給用戶的經(jīng)過概率排名的預(yù)測集合。舉例來說,根據(jù)用戶輸入“thedrmin”,本發(fā)明的系統(tǒng)/方法可輸出下列排名預(yù)測:
[0076]“these mints”
[0077]“the seminar”
[0078]〈等〉
[0079]一般而言,但并非絕對,本發(fā)明系統(tǒng)的概況如圖1所示。
[0080]上述系統(tǒng)優(yōu)選擴(kuò)張現(xiàn)有的概率性文本輸入系統(tǒng),諸如申請?zhí)枮镻CT/GB2011/001419的國際專利申請中披露的系統(tǒng),該專利的內(nèi)容作為參考被全面引入本文。但該系統(tǒng)也可被單獨(dú)使用,例如僅加強(qiáng)諸如本申請【背景技術(shù)】中描述的現(xiàn)有的文本輸入系統(tǒng)。
[0081]如圖1所示,本發(fā)明系統(tǒng)包括候選生成器2。優(yōu)選地,本發(fā)明系統(tǒng)還包括輸入序列生成器I和候選顯示器3。候選顯示器3用于將一個或多個候選40顯示給用戶。
[0082]輸入序列生成器I用于根據(jù)用戶輸入生成文本序列。考慮到不同的文本輸入界面類型,用戶輸入可由對應(yīng)于一系列不同電子設(shè)備交互類型的一系列用戶信號10生成。舉例來說:
[0083]?本領(lǐng)域公知的QWERTY (或其他布局的)鍵盤;
[0084]?本領(lǐng)域公知的概率性虛擬QWERTY (或其他布局的)鍵盤;
[0085]?比較復(fù)雜的鍵盤按鍵模型(例如,申請?zhí)枮?108200.5的英國專利申請,“用戶輸入預(yù)測”,其內(nèi)容作為參考被全面引入本文);
[0086]?概率性連續(xù)擊打鍵盤界面(例如,申請?zhí)枮?108200.5的英國專利申請,“輸入文本的系統(tǒng)和方法”,其內(nèi)容作為參考被全面引入本文)。
[0087]輸入序列生成器I接受由用戶生成的輸入信號10并返回結(jié)構(gòu)化的給定語言中的字符的序列。輸入序列生成器I輸出兩個結(jié)構(gòu)化的字符序列:輸入序列20和語境序列30。
[0088] 語境序列30包括固定的字符序列。輸入序列20以本文提到的概率性字符串的形式出現(xiàn)。概率性字符串包括字符集合的序列,各字符集合具有其內(nèi)字符的概率分布,從而使各字符集合中的字符均具有相關(guān)的概率值。下文中示出一實(shí)例,在該實(shí)例中,概率性字符串包括遍及三個字符集合的序列,各序列(由{-}表示)包括兩個以上的帶有相關(guān)概率的字符,各相關(guān)概率之和為1:
[0089]{{{a, 0.8}, {s, 0.1}, {z, 0.1}}, {{r, 0.9},{t, 0.05},{f, 0.05}},{{e, 0.8},{
w,0.2}}}
[0090]舉例來說,用戶輸入完序列“The devil makes work for idle han”時,光標(biāo)立即出現(xiàn)在“han”之后。對于這一實(shí)例而言,語境序列30為截止于“idle”且包含“iled”的字符,而輸入序列20為遍布于由字母‘h’、‘a(chǎn)’和‘η’想要的字符的分布:
[0091]
【權(quán)利要求】
1.向電子設(shè)備中輸入文本的系統(tǒng),其包括: 候選生成器,其用于實(shí)施以下操作: 由輸入序列生成一個或多個候選,所述輸入序列包括連續(xù)的字符序列,其中所述候選包括被一個或多個詞條邊界分隔開的兩個以上的詞條; 將第一概率估量分配給所述候選,具體分配過程如下: 在語境語言模型中搜索所述候選的一個或多個詞條,其中所述語境語言模型包括詞條序列,各所述詞條序列包括對應(yīng)的事件概率;并且 將對應(yīng)于來自所述語境語言模型的所述候選的一個或多個詞條的概率分配給所述候選;并且 根據(jù)對應(yīng)的第一概率估量丟棄掉一個或多個候選。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述一個或多個詞條包括候選。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其中,針對各個候選,所述候選生成器在所述語境語言模型中搜索包含與所述候選組合的語境序列的序列,其中所述語境序列為用戶輸入文本,所述用戶輸入文本在所述輸入序列之前并且包括一個或多個由一個或多個詞條邊界分隔的詞條。
4.根據(jù)權(quán)利要求3所述的系統(tǒng),其中,還包括: 輸入序列生成器,其用于將用戶輸入信號轉(zhuǎn)換成輸入序列和語境序列。
5.根據(jù)前述任意一項(xiàng)權(quán)利要求所述的系統(tǒng),其中,所述輸入序列生成器通過生成字符集合的序列將用戶輸入信號轉(zhuǎn)換成輸入序列,所述字符集合包括其內(nèi)字符的概率分布,這樣便存在與所述字符集合內(nèi)的各字符相關(guān)的概率值。
6.根據(jù)前述任意一項(xiàng)權(quán)利要求所述的系統(tǒng),其中,所述候選生成器通過將輸入序列轉(zhuǎn)換成包括一條或多條路徑的概率約束序列圖由輸入序列生成一個或多個候選,其中所述一條或多條路徑對應(yīng)于所述一個或多個候選。
7.根據(jù)引用了權(quán)利要求5的權(quán)利要求6所述的系統(tǒng),其中,所述概率約束序列圖是有向非循環(huán)圖的變體,所述有向非循環(huán)圖包括一組節(jié)點(diǎn)和有向邊,各所述有向邊將一個節(jié)點(diǎn)與另一個節(jié)點(diǎn)連接,其中,在所述概率約束序列圖中,各字符集合的字符被分配了一個節(jié)點(diǎn),各節(jié)點(diǎn)的進(jìn)入邊對應(yīng)于相關(guān)字符的概率。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,所述概率約束序列圖的各條路徑被約束為具有相同的長度。
9.根據(jù)權(quán)利要求6、7或8所述的系統(tǒng),其中,所述候選生成器將一個或多個詞條邊界節(jié)點(diǎn)插入所述概率約束序列圖,所述一個或多個詞條邊界節(jié)點(diǎn)具有所述輸入序列中的事件概率to
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中,所述候選生成器將詞條邊界節(jié)點(diǎn)插入至任意兩個相鄰節(jié)點(diǎn)之間,所述節(jié)點(diǎn)對應(yīng)于所述輸入序列的任意兩個相鄰的字符集合。
11.根據(jù)權(quán)利要求9或10所述的系統(tǒng),其中,所述候選生成器插入詞條邊界節(jié)點(diǎn),所述詞條邊界節(jié)點(diǎn)作為代表所述輸入序列字符集合的任意節(jié)點(diǎn)的替換節(jié)點(diǎn)。
12.根據(jù)權(quán)利要求7至11中任意一項(xiàng)所述的系統(tǒng),其中,所述候選生成器向所述概率約束序列圖中插入一個或多個通配符節(jié)點(diǎn),所述一個或多個通配符節(jié)點(diǎn)可使任意字符被插入到除所述輸入序列字符集合之外的所述概率約束序列圖。
13.根據(jù)權(quán)利要求6至12中任意一項(xiàng)所述的系統(tǒng),其中,所述候選生成器通過確定穿過代表所述候選的所述概率約束序列圖的路徑的累積概率,生成所述候選的第二概率估量。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述候選生成器將各候選的第一、第二概率估量組合。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其中,所述候選生成器通過下列方式丟棄掉候選: 確定最可能候選的組合概率; 確定被考慮到的候選的組合概率; 如果最可能候選的組合概率與被考慮到的候選的組合概率之比小于閾值t,則丟棄掉候選。
16.根據(jù)權(quán)利要求13至15中任意一項(xiàng)所述的系統(tǒng),其中,所述候選生成器確定未被丟棄掉的任意候選的第三概率。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中,通過以下方式確定所述第三概率: 在所述語境語言模型中搜索與候選組合的包含語境序列以及語境序列的有效正字法變化和詞匯變化的序列,其中所述語境序列為在所述輸入序列之前的包含一個或多個由一個或多個詞條邊界分隔的字條的用戶輸入文本。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其中,候選的總概率為第二概率與第三概率之積。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其中,一個或多個最可能候選由所述候選生成器輸出至候選顯示器,以將其呈現(xiàn)給用戶。
20.根據(jù)前述任意一項(xiàng)權(quán)利要求所述的系統(tǒng),其中,所述詞條邊界為空格字符。
21.—種推斷包含連續(xù)字符序列的輸入序列中的詞條邊界的方法,所述方法包括: 使用候選生成器由輸入序列生成一個或多個候選,其中所述候選包括被一個或多個詞條邊界分隔開的兩個以上的詞條; 將第一概率估量分配給所述候選,具體分配過程如下: 在語境語言模型中搜索所述候選的一個或多個詞條,其中所述語境語言模型包括詞條序列,各所述詞條序列包括對應(yīng)的事件概率;并且 將對應(yīng)于來自所述語境語言模型的所述候選的一個或多個詞條的概率分配給所述候選;并且 根據(jù)對應(yīng)的第一概率估量丟棄掉一個或多個候選。
22.根據(jù)權(quán)利要求21所述的方法,其中,所述一個或多個詞條包括候選。
23.根據(jù)權(quán)利要求22所述的方法,其中,針對各個候選,在所述語境語言模型中搜索包含與所述候選組合的語境序列的序列,其中所述語境序列為用戶輸入文本,所述用戶輸入文本在所述輸入序列之前并且包括一個或多個由一個或多個詞條邊界分隔的詞條。
24.根據(jù)權(quán)利要求23所述的方法,其中,還包括: 使用輸入序列生成器將用戶輸入信號轉(zhuǎn)換成輸入序列和語境序列。
25.根據(jù)權(quán)利要求22、23或24所述的方法,其中,將用戶輸入信號轉(zhuǎn)換成輸入序列的步驟包括:生成字符集合的序列,所述字符集合的序列包括其內(nèi)字符的概率分布,這樣便存在與所述字符集合內(nèi)的各字符相關(guān)的概率值。
26.根據(jù)權(quán)利要求22至25中任意一項(xiàng)所述的方法,其中,由所述輸入序列生成一個或多個候選的步驟包括:將所述輸入序列轉(zhuǎn)換成包括一條或多條路徑的概率約束序列圖,其中所述一條或多條路徑對應(yīng)于所述一個或多個候選。
27.根據(jù)引用了權(quán)利要求25的權(quán)利要求26所述的方法,其中,所述概率約束序列圖是有向非循環(huán)圖的變體,所述有向非循環(huán)圖包括一組節(jié)點(diǎn)和有向邊,各所述有向邊將一個節(jié)點(diǎn)與另一個節(jié)點(diǎn)連接,其中,在所述概率約束序列圖中,各字符集合的字符被分配了一個節(jié)點(diǎn),各節(jié)點(diǎn)的進(jìn)入邊對應(yīng)于相關(guān)字符的概率。
28.根據(jù)權(quán)利要求27所述的方法,其中,所述概率約束序列圖的各條路徑被約束為具有相同的長度。
29.根據(jù)權(quán)利要求26、27或28所述的方法,其中,還包括:使用所述候選生成器將一個或多個詞條邊界節(jié)點(diǎn)插入所述概率約束序列圖,所述一個或多個詞條邊界節(jié)點(diǎn)具有所述輸入序列中的事件概率t。
30.根據(jù)權(quán)利要求29所述的方法,其中,將詞條邊界節(jié)點(diǎn)插入至任意兩個相鄰節(jié)點(diǎn)之間,所述節(jié)點(diǎn)對應(yīng)于所述輸入序列的任意兩個相鄰的字符集合。
31.根據(jù)權(quán)利要求29或30所述的方法,其中,插入詞條邊界節(jié)點(diǎn);所述詞條邊界節(jié)點(diǎn)作為代表所述輸入序列字符集合的任意節(jié)點(diǎn)的替換節(jié)點(diǎn)。
32.根據(jù)權(quán)利要求22至31中任意一項(xiàng)所述的方法,其中,還包括:使用所述候選生成器向所述概率約束序列圖中插入一個或多個通配符節(jié)點(diǎn),所述一個或多個通配符節(jié)點(diǎn)可使任意字符被插入到 除所述輸入序列字符集合之外的所述概率約束序列圖。
33.根據(jù)權(quán)利要求26至32中任意一項(xiàng)所述的方法,其中,還包括:使用所述候選生成器通過確定穿過代表所述候選的所述概率約束序列圖的路徑的累積概率,生成所述候選的第二概率估量。
34.根據(jù)權(quán)利要求33所述的方法,其中,使用所述候選生成器確定各候選的第一、第二概率估量之積。
35.根據(jù)權(quán)利要求34所述的方法,其中,丟棄掉候選的步驟包括: 使用所述候選生成器確定最可能候選的組合概率; 使用所述候選生成器確定被考慮到的候選的組合概率; 如果最可能候選的組合概率與被考慮到的候選的組合概率之比小于閾值t,則使用所述候選生成器丟棄掉候選。
36.根據(jù)權(quán)利要求33至35中任意一項(xiàng)所述的方法,其中,還包括:使用所述候選生成器確定未被丟棄掉的任意候選的第三概率。
37.根據(jù)權(quán)利要求36所述的方法,其中,通過以下方式確定所述第三概率: 使用所述候選生成器在所述語境語言模型中搜索與候選組合的包含語境序列以及語境序列的有效正字法變化和詞匯變化的序列,其中所述語境序列為在所述輸入序列之前的包含一個或多個由一個或多個詞條邊界分隔的字條的用戶輸入文本。
38.根據(jù)權(quán)利要求37所述的方法,其中,候選的總概率由第二概率與第三概率之積所決定。
39.根據(jù)權(quán)利要求38所述的方法,其中,還包括:將一個或多個最可能候選從所述候選生成器輸出至候選顯示器,以將其呈現(xiàn)給用戶。
40.根據(jù)權(quán)利要求22至39中任意一項(xiàng)所述的方法,其中,所述詞條邊界為空格字符。
41.一種計算機(jī)程序產(chǎn)品,其包括:計算機(jī)可讀介質(zhì),其上存儲有能夠使處理器執(zhí)行權(quán)利要求22至40中任意一項(xiàng)所述方法的計算機(jī)程序。
42.一種用戶界面,其包括: 文本窗,其用于顯示用戶當(dāng)前輸入的文本; 預(yù)測窗,其用于顯示候選,其中,所述候選是由用戶意圖表示的當(dāng)前輸入文本的預(yù)測; 虛擬鍵盤,其用于接受用戶輸入的文本,其中所述虛擬鍵盤不包括代表空格鍵的按鍵。
43.根據(jù)權(quán)利要求42所述的用戶界面,其中,所述預(yù)測窗口包括兩個預(yù)測子窗口,第一個預(yù)測子窗口用于顯示用戶輸入序列,而第二個預(yù)測子窗口用于顯示所述用戶輸入序列的預(yù)測。
44.一種參照附圖1至3說明的且由附圖1至3示出的系統(tǒng)。
45.一種參照附圖4說明的且由附圖4示出的方法。
46.一種參照 附圖2a、2b說明的且由附圖2a、2b示出的用戶界面。
【文檔編號】G06F3/023GK104081320SQ201380006966
【公開日】2014年10月1日 申請日期:2013年1月28日 優(yōu)先權(quán)日:2012年1月27日
【發(fā)明者】本杰明·麥德洛克, 約瑟夫·哈伊姆·本尼迪克特·奧斯本 申請人:觸摸式有限公司