專利名稱:電子設(shè)備的文本輸入系統(tǒng)及文本輸入方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子設(shè)備的文本輸入系統(tǒng)及文本輸入方法,特別是一種對供顯示和用戶選擇的文本預(yù)測進(jìn)行自適應(yīng)重排序的系統(tǒng)和方法。重新排序文本預(yù)測,以便將更接近當(dāng)前文本語境的文本預(yù)測置于列表頂部顯示并供用戶選擇,由此輔助用戶進(jìn)行文本輸入。
背景技術(shù):
目前,存在著許多電子設(shè)備使用的文本輸入技術(shù),例如,臺(tái)式電腦或筆記本電腦使用的標(biāo)準(zhǔn)鍵盤(QWERTY-style)文本輸入,個(gè)人數(shù)字助理(PDA)使用的手寫識(shí)別,移動(dòng)電話設(shè)備使用9位數(shù)字鍵盤的字母符號(hào)輸入,標(biāo)準(zhǔn)電腦設(shè)備及移動(dòng)電腦設(shè)備使用的語音識(shí)別文本輸入系統(tǒng),以及觸屏裝置。在移動(dòng)電話技術(shù)領(lǐng)域中,已有多種文本輸入技術(shù)。其中比較有名的文本輸入技 術(shù)包括特捷通訊公司(Tegic Communications)的“T9”,摩托羅拉(Motorola)的“iTap”,Nuance 通訊公司的 “XT9”、“eZiType” 和 “eZiText”,黑莓的 “SureType”,KeyPoint 科技公司(KeyPoint Technology)的“AdapTxt”和上海漢翔信息技術(shù)有限公司(CooTek)的“TouchPal”。這些技術(shù)大多是基于字符的文本輸入技術(shù),并利用了一些文本預(yù)測(或歧義消除)技術(shù)。在不同的已知模型中,支持一本具有合法詞條的詞典(或多本詞典),并且賦予詞典特定的輸入序列。文本輸入系統(tǒng)從該詞典中選擇一條(或一組)合法的詞條,并將該詞條作為潛在填充的候選詞條呈現(xiàn)給用戶??捎捎脩糨斎胄碌脑~條來擴(kuò)充上述基礎(chǔ)詞典,這一擴(kuò)充受限于設(shè)備的可用內(nèi)存容量。在這些文本輸入系統(tǒng)中,除了某些系統(tǒng)(諸如“eZiText”、“AdapTxt”、“TouchPal,,)中根據(jù)即時(shí)的詞匯語境,對潛在填充的候選詞條進(jìn)行排序,其余系統(tǒng)根據(jù)使用頻率的統(tǒng)計(jì),對潛在填充的候選詞條進(jìn)行排序。
發(fā)明內(nèi)容
本發(fā)明對這種僅以使用時(shí)間或頻率為依據(jù)進(jìn)行文本預(yù)測排序的文本輸入系統(tǒng)進(jìn)行了顯著的改進(jìn),并允許對會(huì)受到預(yù)測詞條或短語屬于當(dāng)前文本語境(例如,由用戶輸入的當(dāng)前文本序列)可能性影響的文本預(yù)測進(jìn)行排序。本發(fā)明提供的文本輸入系統(tǒng)允許使用“非本地”語境(Nonlocal context)。由此,本發(fā)明提供了一種能夠?qū)ζ渥陨砩a(chǎn)的文本預(yù)測進(jìn)行更為準(zhǔn)確排序的系統(tǒng),用以減少用戶的文本輸入強(qiáng)度(因?yàn)?,用戶很少不得不靠翻?dòng)預(yù)測詞條列表或輸入額外字符來找出他們需要的詞條)。本發(fā)明提供了一種利用矢量空間技術(shù)和隨機(jī)索引來評(píng)估給定詞條或短語屬于當(dāng)前文本語境的可能性的文本輸入系統(tǒng)及方法。由此,該系統(tǒng)可基于詞條/短語屬于當(dāng)前文本語境的可能性,為給定的預(yù)測詞條/短語生成一修正過的概率值。該系統(tǒng)使用這一修正過的概率值重新排序和/或選擇由文本預(yù)測引擎生成的文本預(yù)測。之后,顯示生成的文本預(yù)測,以供用戶選擇并輸入電子設(shè)備。
利用文本預(yù)測輸入當(dāng)前文本的可能性重新排序文本預(yù)測,可帶來如下有益效果將與當(dāng)前文本語境更為相關(guān)的文本預(yù)測置于列表頂部顯示以供用戶選擇,由此輔助用戶輸入文本。這樣非常有益的是可將呈獻(xiàn)給用戶的預(yù)測文本空間限制在該文本預(yù)測的子集上。由此,本發(fā)明所提供的系統(tǒng)能夠根據(jù)用戶輸入的文本準(zhǔn)確地預(yù)測出與用戶意圖最為接近的文本預(yù)測。參照下列附圖,詳細(xì)介紹本發(fā)明。
圖I為本發(fā)明系統(tǒng)的結(jié)構(gòu)示意圖;圖2為圖I示出的本發(fā)明系統(tǒng)結(jié)構(gòu)中矢量空間相似度模塊的細(xì)節(jié)示意圖;圖3為本發(fā)明方法的流程圖。
具體實(shí)施例方式本發(fā)明提供了一種基于語言模型的文本預(yù)測系統(tǒng),用于文本預(yù)測成分的自適應(yīng)重排序。該系統(tǒng)利用矢量空間技術(shù),優(yōu)選為隨機(jī)索引,基于文本預(yù)測屬于用戶輸入的文本片段的可能性修正分配給文本預(yù)測的概率值。隨機(jī)索引是一種用于生成表示矢量空間詞條的語境矢量的矢量空間技術(shù)。為給定信息段中的每個(gè)語境(例如,在這種情況下為每個(gè)文檔)分配一個(gè)唯一且隨機(jī)生成的所謂索引矢量。隨機(jī)索引是一種增量法,這意味著可使用語境矢量來進(jìn)行相似度計(jì)算,即使是文本預(yù)測系統(tǒng)僅僅在體驗(yàn)若干語境之后。在本系統(tǒng)中,為每個(gè)文檔分配一個(gè)唯一的索引矢量,而且每個(gè)詞條具有一個(gè)與索引矢量相關(guān)的語境矢量。語境矢量包含出現(xiàn)該詞條的所有文檔的索引矢量。由于潛在的隨機(jī)索引模型逐漸遞增,故在用戶創(chuàng)建新“文檔”時(shí)本系統(tǒng)允許即時(shí)更新。盡管用于生成語境矢量以及將一組文檔中的詞條映射入矢量空間的技術(shù)優(yōu)選為隨機(jī)索弓丨,但本發(fā)明并不僅限于使用隨機(jī)索引。作為非限制性實(shí)例,對于矢量空間/分布相似模型而言,可使用潛在語義分析(Latent Semantic Analysis)、概率語義分析(Probabilistic Semantic Analysis)、或潛在狄利克雷分配模型(Latent DirichletAllocation model)。在隨機(jī)索引中,詞條被映射入矢量空間。在該空間內(nèi),各點(diǎn)間距離(以距離度量或逆相似性度量估算)表示為這些點(diǎn)所代表的詞條間的某種關(guān)系。本系統(tǒng)根據(jù)一組訓(xùn)練該系統(tǒng)所基于的已存在的文檔,使用隨機(jī)索引評(píng)估兩條任意詞條出現(xiàn)在同一文檔中的可能性。文檔包括明顯的、具有清楚定義的首尾端點(diǎn)的文本段。作為非限制性實(shí)例,所述文檔可以是電子郵件消息、新聞報(bào)道、博客條目(blog entry)、短信息(SMS message)、雜志文章或?qū)W術(shù)論文??梢灶A(yù)見,如果兩個(gè)詞條恰好出現(xiàn)在一組訓(xùn)練數(shù)據(jù)中的同一組文檔中,則在矢量空間中這兩個(gè)詞條勢必距離很近。相反,如果這兩個(gè)詞條出現(xiàn)在互不相交組別的文檔中,則在矢量空間中這兩個(gè)詞條勢必距離很遠(yuǎn)。在本發(fā)明中,所述系統(tǒng)使用隨機(jī)索引將一組文檔中的詞條映射入矢量空間。該系統(tǒng)用于確定矢量空間中表示預(yù)測詞條的矢量與表示用戶輸入電子設(shè)備的當(dāng)前詞條的矢量之間的接近程度。該系統(tǒng)基于矢量空間中所述矢量之間的接近程度,生成對應(yīng)于各個(gè)預(yù)測詞條的修正過的概率值。由此,本系統(tǒng)生成預(yù)測詞條與用戶輸入至設(shè)備的詞條出現(xiàn)在同一用戶輸入文本段的可能性的評(píng)估。如上所述,本系統(tǒng)使用文本預(yù)測成分的修正過的概率對其根據(jù)用戶輸入文本生成的文本預(yù)測成分進(jìn)行重新排序。因此,本系統(tǒng)可以(基于可能存在的本地語境、非本地語境以及當(dāng)前詞條信息)將可能性最高的文本預(yù)測置于供顯示和用戶選擇的文本預(yù)測列表的頂部,由此輔助用戶選擇及文本輸入。本系統(tǒng)可應(yīng)用于多種電子設(shè)備中。作為非限制性實(shí)例,本系統(tǒng)可以用于移動(dòng)電話的文本輸入、個(gè)人數(shù)字助理的文本輸入、或電腦的文本輸入(例如,在可使用擊鍵和滾輪機(jī)構(gòu)選擇相關(guān)文本預(yù)測的設(shè)備中使用,或者在使用觸屏技術(shù)的設(shè)備中使用)。圖I示出了本發(fā)明系統(tǒng)。下面,參照圖I詳細(xì)介紹本系統(tǒng)的組成部分。首先,本系統(tǒng)包括用于生成文本(或類似元素)預(yù)測的預(yù)測器I。預(yù)測器是一種根據(jù)某類文本語境(例如,當(dāng)前文檔2)生成一組文本預(yù)測3的裝置。每個(gè)文本預(yù)測3由諸如·詞條或短語(表示為s_i)的文本字符串和表示為p_i的概率值構(gòu)成。由此,文本預(yù)測3的集合的表示形式可以為{(s_l,p_l), (s_2, p_2)…(s_n, p_n),},其中,在該集合中存在η個(gè)文本預(yù)測。如同本領(lǐng)域技術(shù)人員理解的那樣,在文本預(yù)測系統(tǒng)中可以使用任意類型預(yù)測器和任意個(gè)預(yù)測器來生成文本預(yù)測3。優(yōu)選地,預(yù)測器基于用戶輸入文本的語境生成文本預(yù)測,即預(yù)測器基于之前η-l個(gè)詞條的語境生成第η個(gè)詞條。此處的“語境”表示之前出現(xiàn)在文本序列中的詞條,以及該系統(tǒng)對于當(dāng)前詞條的所有認(rèn)識(shí)(即,以特定字符或字符串開頭,或者已表明為某一類主題)。根據(jù)特定語境,該系統(tǒng)使用概率評(píng)估預(yù)測出隨即最可能出現(xiàn)的詞條。既可以使用多語言模型,又可以使用單語言模型來生成文本預(yù)測。在英國專利申請?zhí)枮?905457. 8、國際公開號(hào)為W02010/112841、名稱為“電子設(shè)備的文本輸入系統(tǒng)及文本輸入方法”專利文獻(xiàn)中,有使用預(yù)測器(單語言模型和多語言模型)生成文本預(yù)測的完整描述,在此,可參照該專利文獻(xiàn)的全文。此外,在英國專利申請?zhí)枮?917753. 6、國際申請?zhí)枮镻CT/GB2010/001898、名稱為“電子設(shè)備的文本輸入系統(tǒng)及文本輸入方法”的專利文獻(xiàn)中,有使用自適應(yīng)預(yù)測器(單語言模型和多語言模型)生成分類加權(quán)文本預(yù)測的完整描述,在此可參照該專利文獻(xiàn)的全文。當(dāng)前文檔2由一系列表示當(dāng)前文檔的詞條構(gòu)成,例如,部分完成的電子郵件消息、新聞報(bào)道等。當(dāng)前文檔2提供輸入至預(yù)測器I的文本語境,以使預(yù)測器I生成文本預(yù)測3。文本預(yù)測3可以是由預(yù)測器I生成的單詞、短語或標(biāo)點(diǎn)符號(hào)或類似字符。優(yōu)選地,文本預(yù)測為語境化文本預(yù)測。這些文本預(yù)測可顯示給用戶,以供用戶選擇,并允許用戶發(fā)展或完成句子/文檔。本發(fā)明系統(tǒng)還包括文檔限定文本源4。該文檔限定文本源4是被組織成“文檔”的文本數(shù)據(jù)集合。該“文檔”為多個(gè)內(nèi)容同屬一類的文本段(例如,某一主題的文章或者發(fā)送給某人的電子郵件)。利用該文檔限定文本源4中包含的文本數(shù)據(jù)來訓(xùn)練上述預(yù)測器I。該系統(tǒng)還包括矢量空間相似度模塊5。作為該系統(tǒng)的一個(gè)組成部分,矢量空間相似度模塊5用于根據(jù)給定文本預(yù)測出現(xiàn)在當(dāng)先文檔中的可能性的評(píng)估,調(diào)整與預(yù)測器I輸出的詞條或短語預(yù)測相關(guān)的概率。結(jié)果得到了一個(gè)經(jīng)(潛在)重新排序的預(yù)測集合6。矢量空間相似度模塊5以當(dāng)前文檔2、文檔限定文本源4以及文本預(yù)測為其輸入,而以重新排序的預(yù)測集合6為其輸出。
根據(jù)本發(fā)明,當(dāng)用戶向電子設(shè)備中輸入文本時(shí),被輸入的文本(B卩,當(dāng)前文檔2)經(jīng)過至少一個(gè)預(yù)測器I和矢量空間相似度模塊5。利用本領(lǐng)域已知的分詞器(tokeniser)將用戶輸入文本劃分成多個(gè)詞條。預(yù)測器I使用分詞化的用戶輸入文本生成詞條或短語(或類似成分)預(yù)測3。文本預(yù)測3被轉(zhuǎn)至矢量空間相似度模塊。該矢量空間相似度模塊5使用來自于當(dāng)前文檔2和文檔限定文本源4的分詞化信息對文本預(yù)測3進(jìn)行重新排序,并通過修正與生成的文本預(yù)測3相關(guān)的概率生成一組(潛在)重新排序的預(yù)測6。在下文中將詳細(xì)介紹這一過程。圖2不出了矢量空間相似度模塊5的具體構(gòu)成。該矢量空間相似度模塊5用于根據(jù)每個(gè)預(yù)測詞條出現(xiàn)在當(dāng)前文檔(假設(shè)為當(dāng)前已輸入的詞條)中的可能性,修正與生成的預(yù)測詞條相關(guān)的概率,并相應(yīng)地對預(yù)測詞條重新排序。該矢量空間相似度模塊5包括隨機(jī)索引詞條矢量映射7、余弦相似度模塊10和加權(quán)模塊12。
通過向目標(biāo)矢量空間分配維度D,構(gòu)建該隨機(jī)索引詞條矢量映射7??上蚰繕?biāo)矢量空間分配任意維度,但通常選擇在100(Γ3000之間的維度D。該隨機(jī)索引詞條矢量映射7用于為訓(xùn)練數(shù)據(jù)中的每個(gè)文檔(也就是文檔限定文本源4中的每個(gè)文檔)生成D-維索引矢量。該隨機(jī)索引詞條矢量映射7為所有出現(xiàn)該詞條的文檔分配由索引矢量構(gòu)成的語境矢量。索引矢量是稀少且隨機(jī)地投射入矢量空間,并由隨機(jī)索引詞條矢量映射7通過在維度范圍內(nèi)隨機(jī)分配較小數(shù)量(〈〈D)個(gè)±1以及為其他維度分配一 O值,來生成所述索引矢量。舉例來說,給定目標(biāo)數(shù)量個(gè)非“O”詞條,n〈〈D,隨機(jī)索引詞條矢量映射7通過在所有矢量單元上迭代而生成隨機(jī)事件,其中矢量單元的總數(shù)等于維度D。對于任意給定的矢量單元,隨機(jī)索引詞條矢量映射7根據(jù)如下概率,隨機(jī)為矢量單元分配O、+1或-I值。對于概率1/2D,隨機(jī)索引詞條矢量映射分配+1值;對于概率1/2D,隨機(jī)索引詞條矢量映射分配-I值;對于概率 (D-N)/D,隨機(jī)索引詞條矢量映射分配O值。從隨機(jī)索引詞條矢量映射7中過濾出一些詞條,因?yàn)檫@些詞條被認(rèn)定為只能增加“噪音”而非有用信息。一組過濾掉的詞條取決于域/應(yīng)用,但作為例子,詞條“the”在大多數(shù)情況下會(huì)經(jīng)常出現(xiàn),如果不是所有文檔都存在于基于英語的域中,則在判斷預(yù)測詞條是否會(huì)出現(xiàn)在當(dāng)前文檔中時(shí),做出詞條“the”很少被使用的判斷。其中一個(gè)途徑是過濾掉在整個(gè)訓(xùn)練數(shù)據(jù)集合(即,文檔限定文本源4)中具有較高出現(xiàn)率的詞條。過濾閥值取決于語言種類、訓(xùn)練數(shù)據(jù)量等。作為非限制性實(shí)例,對于英語來說,出現(xiàn)概率大于O. 01的詞條會(huì)被過濾掉。另一實(shí)例是刪除一些“忽略詞”(stopwords),例如主要目的是提供語法結(jié)構(gòu)但沒有太多實(shí)際語義的詞條??蛇^濾掉的某些忽略詞的實(shí)例如下“a”、“an”、“the”、“this”、“th0Se”、“then”、“0f”、“in”、“at”、“ab0ut”、“by”。忽略詞并不僅限于上文所列出的那些詞條,其他忽略詞同樣會(huì)被過濾掉。在建成各個(gè)新文檔時(shí),由隨機(jī)索引詞條矢量映射7為新文檔分配新的索引矢量,之后將該索引矢量加入至該包含在該文檔內(nèi)的所有詞條的語境矢量。每個(gè)詞條的語境矢量由出現(xiàn)有該詞條的所有文檔的索引矢量構(gòu)成。因此,在建成新文檔時(shí),該文檔中每個(gè)詞條的全部索引矢量還包括與該文檔對應(yīng)的新的索引矢量。這樣,在獲得新數(shù)據(jù)時(shí),可以持續(xù)更新隨機(jī)索引詞條矢量映射7。
配置隨機(jī)索引詞條矢量映射7,從而在以特定詞條表示隨機(jī)索引詞條矢量映射7時(shí),該隨機(jī)索引詞條矢量映射7返回與該詞條相關(guān)的矢量。在實(shí)現(xiàn)過程中,隨機(jī)索引詞條矢量映射7包含以實(shí)值矢量(S卩存在于多維實(shí)數(shù)空間中的矢量)與詞條關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)。從隨機(jī)索引詞條矢量映射7中,找回一組對應(yīng)于每個(gè)文本預(yù)測3的語境矢量,以生成預(yù)測矢量8。如果文本預(yù)測是短語而非詞條,則生成作為短語中每個(gè)詞條語境矢量的算術(shù)平均值且與該文本預(yù)測相關(guān)的預(yù)測矢量8。某些預(yù)測詞條并未存在于隨機(jī)索引詞條矢量映射7中,因?yàn)檫@些預(yù)測詞條被當(dāng)成“噪音”過濾掉了。在這種情況下,矢量空間相似度模塊5并未改動(dòng)概率值。所述隨機(jī)索引詞條矢量映射7還用于生成平均文檔矢量9。從隨機(jī)索引詞條矢量映射7中,找回一組對應(yīng)于當(dāng)前文檔2 (即用戶輸入文本)中每個(gè)詞條的語境矢量。通過計(jì)算當(dāng)前文檔2的詞條語境矢量的算術(shù)平均值,生成平均文檔矢量9。優(yōu)選地,該算術(shù)平均值為平均數(shù)(mean value)。如上所述,存在著在隨機(jī)索引詞條矢量映射7中找不到當(dāng)前文檔中某些詞條的可能性,因?yàn)檫@些詞條例如已被過濾掉了。因此,平均文檔矢量9是出現(xiàn)在當(dāng)前文檔2和隨機(jī)索引詞條矢量映射7中的詞條交集的語境矢量算術(shù)平均值。
矢量空間相似度模塊5還包括上文提到的余弦相似度模塊10。該余弦相似度模塊10用于確定由隨機(jī)索引詞條矢量映射7生成的平均文檔矢量9與隨機(jī)索引詞條矢量映射7生成的每個(gè)預(yù)測矢量8之間的余弦相似度。余弦相似度值的范圍介于-I (最不相似)和+1(最相似)之間。將求得的相似度值與其各自對應(yīng)的預(yù)測文本相映射,以提供一組帶有相應(yīng)相似度11的文本預(yù)測,并將這組文本預(yù)測轉(zhuǎn)至加權(quán)模塊12。盡管余弦相似度度量是優(yōu)選的,但還可以選擇諸如歐幾里德距離(Euclideandistance)和點(diǎn)積(dot product)等矢量相似性度量。還可選擇其他相似性度量,例如Jaccard 指數(shù)(Jaccard index)和 Dice 系數(shù)(Dice’s coefficient)。然而,余弦相似度度量還是首選的,因?yàn)橛嘞蚁嗨贫榷攘康拈L度經(jīng)過標(biāo)準(zhǔn)化處理,且適用于矢量運(yùn)算。加權(quán)模塊12用于根據(jù)相似度值11修正每個(gè)文本預(yù)測3的概率。該加權(quán)模塊12根據(jù)余弦相似度和概率值加權(quán)預(yù)測概率,由此生成修正過的概率值。該加權(quán)模塊執(zhí)行一加權(quán)函數(shù)w(p,s)=p’,其中,P和P’為概率,S為余弦相似度值。該函數(shù)有多種表示方式,其中,作為非限制性實(shí)例,下面列出三種表示形式假設(shè),最簡單的表示形式為w (P, s) =max (s, k) · p (I)其中,O彡k彡I。余弦相似度值的范圍在-I和+1之間。參數(shù)k將這一范圍限定在k和+1之間。由此,常量k表示為該余弦相似度值s能夠影響預(yù)測概率P的值域下限。在這種情況下通過限定余弦值范圍,可防止得到的修正過的概率值降到O以下。此外,這一限定能夠控制相似度值對概率值的影響程度。舉例來說,如果k=l,則相似度值不會(huì)影響到概率值。有益的是,在加工資源嚴(yán)格受限的情況下,這一公式非常便于計(jì)算。然而,這一公式為非標(biāo)準(zhǔn)化公式,而且除了在對于所有相似度值而言k=lors=l的那些基本不會(huì)發(fā)生的情況下分配給文本預(yù)測的總體概率質(zhì)量維持不變之外,總是引起所述總體概率質(zhì)量的下降。因?yàn)榭蓪⒂杀鞠到y(tǒng)輸出的修正過的概率值與其他系統(tǒng)輸出的概率值進(jìn)行比較,所以使用標(biāo)準(zhǔn)化公式是有益的。所述其他系統(tǒng)可以是諸如包括多個(gè)預(yù)測器的層次系統(tǒng)或者除本發(fā)明中描述的系統(tǒng)之外的系統(tǒng)等。如果較大地改動(dòng)了判斷尺度,則將會(huì)破壞這一比較。下列一可供選擇的公式維持了與文本預(yù)測相關(guān)的總體概率的質(zhì)量,但會(huì)重新分配總體概率的質(zhì)量以使其與初始概率的相似度評(píng)量表相稱。
權(quán)利要求
1.一種電腦設(shè)備的文本輸入生成系統(tǒng),其特征在于,包括 預(yù)測器,用于接收由用戶輸入至所述電腦設(shè)備的文本,并生成具有概率值的文本預(yù)測; 一種機(jī)構(gòu),用于接收所述文本預(yù)測及用戶文本輸入,以基于所述用戶文本輸入和呈獻(xiàn)給用戶的所述文本預(yù)測生成修正過的概率值。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述機(jī)構(gòu)用于為呈獻(xiàn)給用戶的所述文本預(yù)測重新排序。
3.根據(jù)權(quán)利要求I或2所述的系統(tǒng),其特征在于,所述機(jī)構(gòu)包括矢量映射,該矢量映射包含一組文檔中的詞條的語境矢量;其中,所述語境矢量包含該組文檔中出現(xiàn)有該詞條的所有文檔的索引矢量。
4.根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于,所述矢量映射為隨機(jī)索引詞條矢量映射。
5.根據(jù)權(quán)利要求3或4所述的系統(tǒng),其特征在于,所述機(jī)構(gòu)用戶生成一組預(yù)測矢量,該預(yù)測矢量包含從所述矢量映射中找回的對應(yīng)于每個(gè)在所述矢量映射中具有對等性的所述文本預(yù)測的語境矢量。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,如果所述文本預(yù)測為短語,則所述機(jī)構(gòu)用于生成包含對應(yīng)于該短語中每個(gè)詞條的語境矢量平均值的預(yù)測矢量。
7.根據(jù)權(quán)利要求3至6中任意一項(xiàng)所述的系統(tǒng),其特征在于,所述機(jī)構(gòu)用于從所述矢量映射中找回由用戶輸入的文本中的、在所述矢量映射中具有對等性的每個(gè)詞條的語境矢量,以通過確定找回的語境矢量的平均值生成平均文檔矢量。
8.根據(jù)權(quán)利要求5,6和7中任意一項(xiàng)所述的系統(tǒng),其特征在于,所述機(jī)構(gòu)還包括 相似度模塊,用于確定所述平均文檔矢量和每個(gè)所述預(yù)測矢量之間的相似性,以生成與每個(gè)文本預(yù)測相關(guān)的相似度值。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述相似度模塊用于確定所述平均文檔矢量和每個(gè)所述預(yù)測矢量之間的余弦相似度。
10.根據(jù)權(quán)利要求8或9所述的系統(tǒng),其特征在于,所述機(jī)構(gòu)還包括 加權(quán)模塊,用于基于所述相似度值修正與每個(gè)文本預(yù)測相關(guān)的概率值。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述加權(quán)模塊用于將修正過的概率值插入至有序相聯(lián)結(jié)構(gòu)中,并返回P個(gè)最可能的文本預(yù)測呈獻(xiàn)給用戶,該結(jié)構(gòu)包括與修正過的概率值映射的文本預(yù)測。
12.根據(jù)權(quán)利要求3至11中任意一項(xiàng)所述的系統(tǒng),其特征在于,所述機(jī)構(gòu)用于通過向由用戶輸入的完整文本序列分配一新的索引矢量,并將該新的索引矢量加入至包含在所述完整文本序列中的每個(gè)詞條的索引矢量,來更新所述矢量映射。
13.根據(jù)前述任意一項(xiàng)權(quán)利要求所述的系統(tǒng),其特征在于,包括多個(gè)預(yù)測器。
14.根據(jù)權(quán)利要求3至13中任意一項(xiàng)所述的系統(tǒng),其特征在于,所述預(yù)測器由包含在該組文檔中的文本數(shù)據(jù)訓(xùn)練。
15.根據(jù)權(quán)利要求3至14中任意一項(xiàng)所述的系統(tǒng),其特征在于,該組文檔中的每個(gè)文檔包括明確定義有起首、尾端點(diǎn)的清楚的文本段。
16.根據(jù)權(quán)力要求15所述的系統(tǒng),其特征在于,所述文檔為電子郵件消息、新聞報(bào)道、博客條目、短信息、雜志文章和學(xué)術(shù)論文之一。
17.根據(jù)前述任意一項(xiàng)權(quán)利要求所述的系統(tǒng),其特征在于,所述電腦設(shè)備為移動(dòng)電話、個(gè)人數(shù)字助理或諸如臺(tái)式電腦、筆記本電腦、平板電腦等電腦、移動(dòng)網(wǎng)絡(luò)設(shè)備、超級(jí)移動(dòng)電腦、游戲機(jī)或車載系統(tǒng)。
18.—種由用戶輸入生成電腦設(shè)備文本輸入的方法,其特征在于,包括 基于用戶輸入生成文本預(yù)測; 基于所述用戶輸入和所述文本預(yù)測生成所述文本預(yù)測的概率值的修正值;以及 將所述文本預(yù)測呈獻(xiàn)給用戶以供用戶選擇。
19.根據(jù)權(quán)利要求18所述的方法,其特征在于,還包括 基于所述修正過的概率值重新排序所述文本預(yù)測; 其中,將所述文本預(yù)測呈獻(xiàn)給用戶以供用戶選擇的步驟包括將重新排序過的文本預(yù)測呈現(xiàn)給用戶以供用戶選擇。
20.根據(jù)權(quán)利要求18或19所述的方法,其特征在于,為所述文本預(yù)測生成概率值的修正值的步驟包括 生成包含有一組文檔中每個(gè)詞條的語境矢量的矢量映射,其中,所述語境矢量包括該組文檔中出現(xiàn)有該詞條的所有文檔的索引矢量。
21.根據(jù)權(quán)利要求20所述的方法,其特征在于,生成矢量映射的步驟還包括 從所述矢量映射中過濾掉在該組文檔中出現(xiàn)率非常高的詞條或忽略詞條。
22.根據(jù)權(quán)利要求20或21所述的方法,其特征在于,所述矢量映射為隨機(jī)索引詞條矢量映射,并且生成矢量映射的步驟包括使用隨機(jī)索引生成語境矢量。
23.根據(jù)權(quán)利要求20至22中任意一項(xiàng)所述的方法,其特征在于,還包括通過從所述矢量映射中找回對應(yīng)于每個(gè)在所述矢量映射中具有對等性的文本預(yù)測的語境矢量,生成一組預(yù)測矢量。
24.根據(jù)權(quán)利要求23所述的方法,其特征在于,如果所述文本預(yù)測為短語,則生成所述預(yù)測矢量的步驟包括求得對應(yīng)于該短語中每個(gè)詞條的語境矢量的平均值。
25.根據(jù)權(quán)利要求20至24中任意一項(xiàng)所述的方法,其特征在于,還包括從所述矢量映射中找回用戶文本輸入中的、在所述矢量映射中具有對等性的每個(gè)詞條的語境矢量,并通過計(jì)算找回的用戶文本輸入中每個(gè)詞條的語境矢量的平均值生成平均文檔矢量。
26.根據(jù)權(quán)利要求25所述的方法,其特征在于,還包括計(jì)算所述平均文檔矢量和每個(gè)所述預(yù)測矢量之間的相似性,并提供與每個(gè)文本預(yù)測相關(guān)的相似度值。
27.根據(jù)權(quán)利要求26所述的方法,其特征在于,包括計(jì)算所述平均文檔矢量和每個(gè)所述預(yù)測矢量之間的余弦相似度。
28.根據(jù)權(quán)利要求26或27所述的方法,其特征在于,還包括基于相似度值修正與每個(gè)文本預(yù)測相關(guān)的概率。
29.根據(jù)權(quán)利要求28所述的方法,其特征在于,還包括將修正過的概率值插入至有序相聯(lián)結(jié)構(gòu),并返回P個(gè)最可能的新的文本預(yù)測,該結(jié)構(gòu)包括與修正過的概率值映射的文本預(yù)測。
30.根據(jù)權(quán)利要求20至29中任意一項(xiàng)所述的方法,其特征在于,當(dāng)用戶輸入完整的文本序列時(shí),所述方法還包括將該文本序列插入至該組文檔中。
31.根據(jù)權(quán)利要求30所述的方法,其特征在于,還包括通過向完整的文本序列分配一新的索引矢量,并將該新的索引矢量加入至包含在所述完整文本序列中的每個(gè)詞條的索引矢量,來更新所述矢量映射。
32.根據(jù)權(quán)利要求18至31中任意一項(xiàng)所述的方法,其特征在于,所述文本預(yù)測由一個(gè)或多個(gè)預(yù)測器生成。
33.根據(jù)權(quán)利要求32所述的方法,其特征在于,所述預(yù)測器由一組文檔的文本數(shù)據(jù)訓(xùn)練。
34.—種參照附圖在上文中描述的電子設(shè)備的文本輸入系統(tǒng)。
35.一種參照附圖在上文中描述的電子設(shè)備的文本輸入方法。
全文摘要
本發(fā)明涉及一種文本預(yù)測重新排序的系統(tǒng)及方法。具體而言,涉及一種基于修正過的概率值為文本預(yù)測重新排序的系統(tǒng)及方法。其中,根據(jù)給定文本預(yù)測將要出現(xiàn)在用戶輸入文本中的可能性修正概率值。
文檔編號(hào)G06F3/023GK102893239SQ201180019133
公開日2013年1月23日 申請日期2011年3月4日 優(yōu)先權(quán)日2010年3月4日
發(fā)明者本杰明·德洛克, 喬納森·雷諾茲 申請人:觸摸式有限公司