一種輸入方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明實施例提供了一種輸入方法,包括:接收輸入的至少兩個英文字符;依據(jù)所述至少兩個英文字符,獲得基于第一語言的第一候選詞條;依據(jù)所述至少兩個英文字符,獲得基于第二語言的第二候選詞條;依據(jù)所述第一候選詞條和所述第二候選詞條,獲得第三候選詞條;本發(fā)明實施例還提供一種輸入系統(tǒng)。根據(jù)本發(fā)明實施例提供的技術方案,可以實現(xiàn)提高候選顯示框中顯示的候選詞條的準確性。
【專利說明】一種輸入方法及系統(tǒng)
【【技術領域】】
[0001]本發(fā)明涉及輸入法【技術領域】,尤其涉及一種輸入方法及系統(tǒng)。
【【背景技術】】
[0002]日文輸入法中通常會存在日文和英文混合輸入的情況,即用戶輸入的英文字符串中,包含假名字符對應的英文字符和英文詞條對應的英文字符,因此需要依據(jù)輸入的英文字符串進行處理,以識別出英文字符串中的英文詞條和假名字符。[0003]目前,日文輸入法中對英文字符串進行處理的方法是:從英文字符串的第一個英文字符開始,利用從左到右正向匹配算法,將英文字符串進行切分,獲得切分結果,然后依次在輸入法詞典中進行匹配,如果依據(jù)切分結果匹配出一個假名字符,則判斷切分結果為假名字符;如果切分結果匹配不出假名字符,則判斷該切分結果為英文字符。
[0004]然而,當輸入的英文字符串中包含日文和英文時,由于優(yōu)先獲得英文字符串對應的假名字符,因此,將丟失英文詞匯的候選詞條,從而無法獲得有效地候選詞條,導致顯示框中顯示的候選詞條的準確性較低。
【
【發(fā)明內(nèi)容】
】
[0005]有鑒于此,本發(fā)明實施例提供了一種輸入方法及系統(tǒng),可以實現(xiàn)提高候選顯示框中顯示的候選詞條的準確性。
[0006]本發(fā)明實施例提供了一種輸入方法,包括:
[0007]接收輸入的至少兩個英文字符;
[0008]依據(jù)所述至少兩個英文字符,獲得基于第一語言的第一候選詞條;
[0009]依據(jù)所述至少兩個英文字符,獲得基于第二語言的第二候選詞條;
[0010]依據(jù)所述第一候選詞條和所述第二候選詞條,獲得第三候選詞條。
[0011]上述方法中,所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為假名詞條;或者,
[0012]所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為漢字詞條。
[0013]上述方法中,所述依據(jù)所述至少兩個英文字符,獲得基于第一語言的第一候選詞條,包括:
[0014]對所述至少兩個英文字符進行切分處理,以獲得切分結果;
[0015]獲得所述切分結果的概率信息,所述概率信息指示所述切分結果是基于第一語言的候選詞條的概率;
[0016]將大于預設的概率閾值的概率信息所對應的切分結果作為所述基于第一語言的第一候選詞條。
[0017]上述方法中,所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為假名詞條,所述獲得所述切分結果的概率信息,包括:[0018]利用如下公式獲得所述切分結果的概率信息P(E|c):
[0019]P(E|c) = P(E)P(c|E)/(P(J) | P (c | J)+P (E) P (c | E))
[0020]其中,P(E)為切分結果c是英文單詞的先驗概率,P (c IE)為英文詞匯中出現(xiàn)切分結果c的條件概率,P(J)為切分結果c是假名字符的先驗概率,P(c|j)為假名字符對應的英文字符串中出現(xiàn)切分結果c的條件概率。
[0021]上述方法中,所述依據(jù)所述第一候選詞條和所述第二候選詞條,獲得第三候選詞條,包括:
[0022]獲得所述第一候選詞條在輸入的至少兩個英文字符中的第一位置信息;
[0023]獲得所述第二候選詞條對應的英文字符串在輸入的至少兩個英文字符中的第二位置信息;
[0024]依據(jù)所述基于第一語言的第一候選詞條、所述第一位置信息、所述基于第二語言的第二候選詞條和所述第二位置信息,獲得所述第三候選詞條。
[0025]本發(fā)明實施例還提供了一種輸入系統(tǒng),包括:
[0026]輸入單元,用于接收輸入的至少兩個英文字符;
[0027]詞條處理單元,用于依據(jù)所述至少兩個英文字符,獲得基于第一語言的第一候選詞條;依據(jù)所述至少兩個英文字符,獲得基于第二語言的第二候選詞條;依據(jù)所述第一候選詞條和所述第二候選詞條,獲得第三候選詞條。
[0028]上述系統(tǒng)中,所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為假名詞條;或者,
[0029]所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為漢字詞條。
[0030]上述系統(tǒng)中,所述詞條處理單元具體用于:
[0031]對所述至少兩個英文字符進行切分處理,以獲得切分結果;
[0032]獲得所述切分結果的概率信息,所述概率信息指示所述切分結果是基于第一語言的候選詞條的概率;
[0033]將大于預設的概率閾值的概率信息所對應的切分結果作為所述基于第一語言的第一候選詞條。
[0034]上述系統(tǒng)中,所述基于第一語言的第一候選詞條為英文詞條,所述詞條處理單元具體用于:
[0035]利用如下公式獲得所述切分結果的概率信息P (E I c):
[0036]P(E|c) = P(E)P(c|E)/(P(J) | P (c | J)+P (E) P (c | E))
[0037]其中,P(E)為切分結果c是英文單詞的先驗概率,P (c IE)為英文詞匯中出現(xiàn)切分結果c的條件概率,P(J)為切分結果c是假名字符的先驗概率,P(c|j)為假名字符對應的英文字符串中出現(xiàn)切分結果c的條件概率。
[0038]上述系統(tǒng)中,所述詞條處理單元具體用于:
[0039]獲得所述第一候選詞條在輸入的至少兩個英文字符中的第一位置信息;
[0040]獲得所述第二候選詞條對應的英文字符串在輸入的至少兩個英文字符中的第二位置信息;
[0041]依據(jù)所述基于第一語言的第一候選詞條、所述第一位置信息、所述基于第二語言的第二候選詞條和所述第二位置信息,獲得所述第三候選詞條。
[0042]由以上技術方案可以看出,本發(fā)明實施例具有以下有益效果:
[0043]當輸入英文字符串時,分別獲得基于兩種語言的候選詞條,因此當進行英文和日文混合輸入或者英文和中文混合輸入時,不會優(yōu)先選擇一種語言的候選詞條,因此不會丟失候選詞條,可以獲得有效地候選詞條,從而可以提高顯示框中顯示的候選詞條的準確性。
【【專利附圖】
【附圖說明】】
[0044]為了更清楚地說明本發(fā)明實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
[0045]圖1 (a)~圖1 (b)是本發(fā)明實施例所提供的技術方案使用的系統(tǒng);
[0046]圖2是本發(fā)明實施例所提供的輸入方法的流程示意圖;
[0047]圖3是本發(fā)明實施例所提供的輸入方法中輸入的英文字符串的示意圖;
[0048]圖4是本發(fā)明實施例所提供的輸入系統(tǒng)的功能方塊圖。
【【具體實施方式】】
[0049]為了更好的理解本發(fā)明的技術方案,下面結合附圖對本發(fā)明實施例進行詳細描述。
[0050]應當明確,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
[0051]本發(fā)明實施例所提供的技術方案使用的系統(tǒng)如圖1所示,該系統(tǒng)可以包括輸入單元、詞條處理單元,如圖1 (a)所示,詞條處理單元可以位于客戶端,如圖1 (b)所示,詞條處理單元也可以位于服務器。詞條處理單元主要用于依據(jù)輸入的英文字符,獲得候選詞條。其中,所述客戶端可以為輸入法客戶端,所述輸入法客戶端包括所有用戶設備上運行的輸入法客戶端,所述用戶設備可以包括個人計算機(Personal Computer, PC)、筆記本電腦、手機或平板電腦。
[0052]本發(fā)明實施例給出一種輸入方法,請參考圖2,其為本發(fā)明實施例所提供的輸入方法的流程示意圖,如圖所示,該方法包括以下步驟:
[0053]S201,接收輸入的至少兩個英文字符。
[0054]具體的,當用戶使用客戶端,并在客戶端中輸入字符時,客戶端會接收到用戶輸入的至少兩個英文字符。
[0055]需要說明的是,日文輸入法中包括利用假名字符輸入日文和利用英文字符輸入日文兩種輸入方式,只有在利用英文字符輸入日文時才會出現(xiàn)日文和英文混合輸入的情況,才需要對輸入的英文字符進行處理,以獲得假名的候選詞條和/或英文的候選詞條;同理,中文輸入法中包括多種輸入方式,如拼音輸入方式、五筆輸入方式等,只有在利用拼音輸入方式時才會出現(xiàn)中文和英文混合輸入的情況,才需要對輸入的英文字符進行處理,以獲得漢字的候選詞條和/或英文的候選詞條。因此,本步驟中可以接收輸入的至少兩個英文字符,并依據(jù)輸入的至少兩個英文字符進行處理。
[0056]S202,依據(jù)所述至少兩個英文字符,獲得基于第一語言的第一候選詞條。
[0057]具體的,在接收到輸入的至少兩個英文字符后,依據(jù)至少兩個英文字符,獲得基于第一語言的第一候選詞條,其中,所述基于第一語言的第一候選詞條可以為英文詞條。
[0058]舉例說明,依據(jù)至少兩個英文字符,獲得基于第一語言的第一候選詞條的方法可以包括:
[0059]首先,對所述至少兩個英文字符I1I2…In進行切分處理,以獲得切分結果c =IiIi+1...IJ其中,n為大于或者等于2的整數(shù),i為大于或者等于I的整數(shù),j為大于或者等于i,且小于或者等于n的整數(shù)。獲得的切分結果c中包括至少一個英文字符。
[0060]請參考圖3,其為本發(fā)明實施例所提供的輸入方法中輸入的英文字符串的示意圖,如圖3所示,輸入的英文字符是“iphone”,則切分結果包括“i”、ip”、”iph”、、ipho?!薄ⅰ?iphon ”、“ iphone ”、“p ”、“ph ”、“pho ” 等。
[0061]然后,獲得所述切分結果的概率信息,所述概率信息指示所述切分結果是基于第一語言的候選詞條的概率。
[0062]例如,基于第一語言的第一候選詞條可以為英文詞條,基于第二語言的第二候選詞條可以為假名詞條,則所述獲得所述切分結果的概率信息的方法可以是:
[0063]存在P (C) =p(J,c)+p(E,C),其中p(c)為切分結果c出現(xiàn)的先驗概率,P (J,c)為切分結果C出現(xiàn)且切分結果C表示假名字符的概率,P(E,c)為切分結果C出現(xiàn)且切分結果c表示英文單詞的概率。
[0064]利用如下公式獲得所述切分結果的概率信息P (E | c):
[0065]P (E | c) =P (E, c) /P (C)
[0066]= P (E, c) / (P (J, c) +P (E, c))
[0067]= P(E)P(c|E)/(P(J) P (c | J)+P (E) P (c | E))
[0068]其中,P(E,c)為切分結果c出現(xiàn)且切分結果c表示英文單詞的概率,P(C)為切分結果c出現(xiàn)的先驗概率,P(J,c)為切分結果c出現(xiàn)且切分結果c表示假名字符的概率,P(E)為切分結果c是英文單詞的先驗概率,P(c|E)為英文詞匯中出現(xiàn)切分結果c的條件概率,P(J)為切分結果c是假名字符的先驗概率,P(c|j)為假名字符對應的英文字符串中出現(xiàn)切分結果c的條件概率。
[0069]例如,可以利用如下公式獲得切分結果c是假名字符的先驗概率P(J):
[0070]P(J) = C (J)/C (W)
[0071]其中,C(J)為依據(jù)輸入法客戶端中輸入詞條樣本庫統(tǒng)計獲得的假名詞條的數(shù)目,C (W)為依據(jù)輸入法客戶端中輸入詞條樣本庫統(tǒng)計獲得的所有詞條的總數(shù)目。
[0072]其中,切分結果c是英文單詞的先驗概率P (E)和切分結果c是假名字符的先驗概率P(J),可以預先利用統(tǒng)計的方法計算獲得,可以為每個輸入法客戶端存儲對應一個英文單詞的先驗概率P(E)和一個假名字符的先驗概率P(J),當需要獲得切分結果c是英文單詞的先驗概率P(E)和切分結果c是假名字符的先驗概率P(J)時,可以依據(jù)預先存儲的對應關系,獲得輸入法客戶端對應的英文單詞的先驗概率P(E)和假名字符的先驗概率P(J)。
[0073]其中,獲得假名字符對應的英文字符串中出現(xiàn)切分結果c的條件概率P(c|j)的方法可以是:假設日文詞匯的讀音是以假名字符為單位的I階馬爾科夫過程,即第一個假名字符的概率分布只與起始位置有關,以第i個假名字符的概率分布只與第i_l個假名字符有關為例,在至少一個假名字符kik2…匕之前加上一個假名字符,用b表示,同時在至少一個假名字符kik2…匕之后加上一個假名字符,用e表示,則至少一個假名字符Ic1Ivkn對應的英文字符串中出現(xiàn)至少一個假名字符Ic1Ivkn的條件概率P(k|j)可以為:
[0074]P (k I J) = P (Ii11 b) P (k21 Ii1)…P (kn | U P (e | kn)
[0075]其中,P(kjb)為假名詞條中以假名字符Ii1為起始字符的概率,P(e|kn)為假名詞條中以假名字符kn為結束字符的概率,P㈨11^1)為假名詞條中假名字符U之后出現(xiàn)假名字符ki的概率,其中,可以依據(jù)輸入法詞典中的假名詞條進行統(tǒng)計,以獲得概率P Gi11 b)、概率 P (e |kn)和概率 P (kiln
[0076]例如,可以利用如下公式獲得假名詞條中假名字符U之后出現(xiàn)假名字符Ici的概率 ραυ:
[0077]P (ki I kH) = C (k^!, Iii) /C (I^1)
[0078]其中,CQv1, kj為依據(jù)輸入法客戶端中輸入詞條樣本庫統(tǒng)計獲得的假名詞條中包含字符串V1Iii的數(shù)目,C(W)為依據(jù)輸入法客戶端中輸入詞條樣本庫統(tǒng)計獲得的假名詞條中包含字符串I^1的數(shù)目。
[0079]按照日文切分規(guī)則對至少一個假名字符Ic1Ivkn進行切分,由于日文切分不會產(chǎn)生切分歧義,因此若不存在有效切分,則假名字符對應的英文字符串中出現(xiàn)切分結果c的條件概率P(c|j) = 0,反之,若存在有效切分,依據(jù)切分結果C,利用上述方法,獲得假名字符對應的英文字符串中出現(xiàn)切分結果c的條件概率P (c I J),即P (c I J) = P (k I J)。
`[0080]其中,獲得英文詞匯中出現(xiàn)切分結果c的條件概率P(c|E)的方法可以是:假設英文詞匯的讀音是以字母為單位的2階馬爾科夫過程,即第i個字母的概率分布只與第i_l個字母和第i_2個字母有關,在至少一個英文字符cl(V..cn之前加上兩個英文字符,用bib2表示,同時在至少一個英文字符C1Cf Cn之后加上英文字符,用e表示,則英文詞匯中出現(xiàn)至少一個英文字符cl(V..Cn (相當于上述切分結果c)的條件概率P (c| E)可以為:
[0081 ] P (c IE) = P (C11 hv b2) P (c21 b2, C1)…P (cn | cn_2, Clri) P (e | Clri, cn)
[0082]其中,P (C1 Ibpb2)為英文詞條中以英文字母C1為起始字母的概率,P (c2|b2,C1)為英文詞條中英文字母C2位于英文字母C1后,且英文字母C2在英文詞條中排在第二位的概率,P(Cn|cn_2,(V1)為英文詞條中英文字母Cn位于英文字母cn_2和英文字母Clri后的概率,P (e I Cn^1, cn)為英文詞條中以英文字符串ClriCn結尾的概率。
[0083]最后,獲得切分結果的概率信息P (E|C)后,可以將切分結果的概率信息P(Elc)與預設的概率閾值進行比較,將大于預設的概率閾值的概率信息所對應的切分結果作為本發(fā)明實施例中基于第一語言的第一候選詞條。例如,所述預設的概率閾值可以等于0.5。這里,利用概率閾值對切分結果進行篩選,以獲得第一候選詞條,可以對由于切分歧義產(chǎn)生的大量切分結果進行濾掉,可以降低后續(xù)的處理量。例如,如圖3所示,利用概率閾值,對輸入的英文字符“iphone”的切分結果“i”、“ip”、“iph”、“ipho ”、“iph0n”、“iph0ne”、“p”、“ph”、“pho”等進行篩選,獲得的第一候選詞條包括“ip”、“phone”和“iphone”。
[0084]S203,依據(jù)所述至少兩個英文字符,獲得基于第二語言的第二候選詞條。
[0085]具體的,在接收到輸入的至少兩個英文字符后,依據(jù)至少兩個英文字符,獲得基于第二語言的第二候選詞條,其中,所述基于第二語言的第二候選詞條為假名詞條,或者,所述基于第二語言的第二候選詞條為漢字詞條。
[0086]舉例說明,依據(jù)至少兩個英文字符,可以利用從左向右正向匹配算法對至少兩個英文字符進行切分處理,將切分結果作為基于第二語言的第二候選詞條,并記錄下每個第二候選詞條的位置信息,例如,切分結果為siSi+1...^,則第二候選詞條的位置信息是[i,j],下面以至少兩個英文字符串s = 為例,η為大于或者等于2的整數(shù),對依據(jù)至少兩個英文字符,獲得每個第二候選詞條的方法進行具體說明:
[0087]以第二語言的第二候選詞條為假名詞條為例,在預設的假名字符與英文字符串的對應關系中,查找一個假名字符,該假名字符需要滿足以下條件:假名字符對應的英文字符串為輸入的至少兩個英文字符s =的前綴、且該前綴為至少兩個英文字符s = Sf..sn的所有前綴中字符長度最大的前綴,其中,i為大于或者等于I且小于或者等于η的整數(shù)。siSi+1…\表示從英文字符Si開始到英文字符Sn結束的字符串。
[0088]若查找到滿足上述條件的假名字符,則記錄下查找到的假名字符,以及假名字符的位置信息[i,j],該位置信息指的是假名字符對應的英文字符串SiSi^h在至少兩個英文字符串S =中的位置信息,其中,j為大于或等于I且小于或等于η的整數(shù)。[0089]若沒有查找到滿足上述條件的假名字符,則令i = i+Ι,并在預設的假名字符與英文字符串的對應關系中,按照上述方法繼續(xù)查找假名字符,直到j = η時停止查找。
[0090]從而,最后可以查找至少一個假名字符,并獲得其中每個假名字符的位置信息,位置信息就相當于對輸入的至少兩個英文字符進行切分處理。例如,如圖3所示,利用從左向右正向匹配算法對英文字符“iphone”進行切分處理,獲得基于第二語言的第二候選詞條“ P ”、“ a ” 和“打”。
[0091]S204,依據(jù)所述第一候選詞條和所述第二候選詞條,獲得第三候選詞條。
[0092]具體的,依據(jù)S202中獲得的基于第一語言的第一候選詞條,獲得第一候選詞條在輸入的至少兩個英文字符中的第一位置信息;例如,第一候選詞條為Cu = I山+1...Ip則第一候選詞條在輸入的至少兩個英文字符I1I2…In的第一位置信息是[i,j]。另外,S203中已經(jīng)記錄下切分結果的位置信息,因此可以直接獲得所述第二候選詞條對應的英文字符串在輸入的至少兩個英文字符中的第二位置信息。依據(jù)所述基于第一語言的第一候選詞條、所述第一位置信息、所述基于第二語言的第二候選詞條和所述第二位置信息,獲得所述第二候選詞條。
[0093]舉例說明,依據(jù)所述基于第一語言的第一候選詞條、所述第一位置信息、所述基于第二語言的第二候選詞條和所述第二位置信息,獲得所述第三候選詞條的方法可以是:
[0094]首先,由于第一候選詞條只是可能的候選詞條,例如第一候選詞條可能是一個英文單詞,也可能不是一個英文單詞,因此,需要利用輸入法詞典對第一候選詞條進行篩選,篩選方法可以是:依據(jù)第一候選詞條在基于第一語言的輸入法詞典中進行匹配,若第一候選詞條在輸入法詞典中有對應的基于第一語言的詞條,則記錄下該詞條,反之,若第一候選詞條在輸入法詞典中沒有對應的詞條,則去除該第一候選詞條,從而可以獲得匹配出的至少一個英文單詞。
[0095]然后,若基于第二語言的第二候選詞條為漢字詞條,則可以不進行第二候選詞條的進一步處理;若基于第二語言的第二候選詞條為假名詞條,則需要依據(jù)第二候選詞條在基于第二語言的輸入法詞典中進行匹配,如果有對應的詞條,則記錄下該詞條,反之,若第二候選詞條在輸入法詞典中沒有對應的詞條,則去除該第二候選詞條,從而可以獲得匹配出的至少一個假名詞條或者至少一個漢字詞條。
[0096]最后,依據(jù)利用第一候選詞條匹配出的詞條、利用第二候選詞條匹配出的詞條、第一候選詞條的位置信息和第二候選詞條的位置信息,可以將第一候選詞條和/或第二候選詞條進行組合,以獲得至少一個第三候選詞條。獲得至少一個第三候選詞條后,可以在輸入法詞典中獲得利用第一候選詞條匹配出的詞條的權重值,以及利用第二候選詞條匹配出的詞條的權重值;然后依據(jù)詞條的權重值獲得每個第三候選詞條的權重值,例如,可以依據(jù)第三候選詞條中至少一個詞條的權重值的乘積,獲得第三候選詞條的權重值。然后依據(jù)權重值由大到小的順序對第三候選詞條進行排序,以獲得排序結果,并將排序結果在顯示框中進行顯示,以實現(xiàn)將第三候選詞條提供給用戶,供用戶進行選擇。
[0097]本發(fā)明實施例進一步給出實現(xiàn)上述方法實施例中各步驟及方法的裝置實施例。
[0098]請參考圖4,其為本發(fā)明實施例所提供的輸入系統(tǒng)的功能方塊圖。如圖所示,該系統(tǒng)包括:
[0099]輸入單元401,用于接收輸入的至少兩個英文字符;
[0100]詞條處理單元402,用于依據(jù)所述至少兩個英文字符,獲得基于第一語言的第一候選詞條;依據(jù)所述至少兩個英文字符,獲得基于第二語言的第二候選詞條;依據(jù)所述第一候選詞條和所述第二候選詞條,獲得第三候選詞條。
[0101]其中,所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為假名詞條;或者,所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為漢字詞條。
[0102]其中,所述詞條處理單元402在依據(jù)所述至少兩個英文字符,獲得基于第一語言的第一候選詞條時,具體用于:
[0103]對所述至少兩個英文字符進行切分處理,以獲得切分結果;
[0104]獲得所述切分結果的概率信息,所述概率信息指示所述切分結果是基于第一語言的候選詞條的概率;
[0105]將大于預設的概率閾值的概率信息所對應的切分結果作為所述基于第一語言的第一候選詞條。
[0106]其中,所述基于第一語言的第一候選詞條為英文詞條,所述詞條處理單元402在獲得所述切分結果的概率信息時,具體用于:
[0107]利用如下公式獲得所述切分結果的概率信息P (E|C):
[0108]P(E|c) = P(E)P(c|E)/(P(J) | P (c | J)+P (E) P (c | E))
[0109]其中,P(E)為切分結果c是英文單詞的先驗概率,P (c IE)為英文詞匯中出現(xiàn)切分結果c的條件概率,P(J)為切分結果c是假名字符的先驗概率,P(c|j)為假名字符對應的英文字符串中出現(xiàn)切分結果c的條件概率。
[0110]其中,所述詞條處理單元402在依據(jù)所述第一候選詞條和所述第二候選詞條,獲得第三候選詞條時,具體用于:
[0111]獲得所述第一候選詞條在輸入的至少兩個英文字符中的第一位置信息;
[0112]獲得所述第二候選詞條對應的英文字符串在輸入的至少兩個英文字符中的第二位置信息;[0113]依據(jù)所述基于第一語言的第一候選詞條、所述第一位置信息、所述基于第二語言的第二候選詞條和所述第二位置信息,獲得所述第三候選詞條。
[0114]由于本實施例中的各單元能夠執(zhí)行圖2所示的方法,本實施例未詳細描述的部分,可參考對圖2的相關說明。
[0115]由以上描述可以看出,本發(fā)明實施例所提供的方法和系統(tǒng)具備以下優(yōu)點:
[0116]1、當輸入英文字符串時,分別獲得基于兩種語言的候選詞條,因此當進行英文和日文混合輸入或者英文和中文混合輸入時,不會優(yōu)先選擇一種語言的候選詞條,因此不會丟失候選詞條,可以獲得有效地候選詞條,從而可以提高顯示框中顯示的候選詞條的準確性。
[0117]2、現(xiàn)有技術中,若輸入的英文字符串存在多種切分結果,將依據(jù)每種切分結果都獲得對應的候選詞條,使得候選詞條的數(shù)量龐大,且顯示框中顯示的候選詞條的順序是依據(jù)人工調(diào)權獲得的,顯示框中每頁顯示的候選詞條的數(shù)量有限,因此,不能及時獲得有效地候選詞條。本發(fā)明實施例中,可以利用概率閾值,將概率較低的候選詞條篩選掉,從而可以在一定程度上減少候選詞條的后續(xù)處理量。
[0118]在本發(fā)明所提供的技術方案中,應該理解到,所披露的系統(tǒng)、裝置和方法,可以通過其他的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式。
[0119]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分不到多個網(wǎng)絡單元上,可以依據(jù)實際的需求選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
[0120]另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中,上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。
[0121]上述以軟件功能單元的形式實現(xiàn)的集成的單元,可以存儲在一個計算機可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設備(可以是個人計算機、服務器或者網(wǎng)絡設備等)或處理器執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:通用串行總線(Universal Serial Bus, USB)閃存驅動器、移動硬盤、只讀存儲器(Read Only Memory,ROM)、隨機存取存儲器(Random AccessMemory, RAM)、磁盤或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0122]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內(nèi)。
【權利要求】
1.一種輸入方法,其特征在于,所述方法包括: 接收輸入的至少兩個英文字符; 依據(jù)所述至少兩個英文字符,獲得基于第一語言的第一候選詞條; 依據(jù)所述至少兩個英文字符,獲得基于第二語言的第二候選詞條; 依據(jù)所述第一候選詞條和所述第二候選詞條,獲得第三候選詞條。
2.根據(jù)權利要求1所述的方法,其特征在于, 所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為假名詞條;或者, 所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為漢字詞條。
3.根據(jù)權利要求1所述的方法,其特征在于,所述依據(jù)所述至少兩個英文字符,獲得基于第一語言的第一候選詞條,包括: 對所述至少兩個英文字符進行切分處理,以獲得切分結果; 獲得所述切分結果的概率信息,所述概率信息指示所述切分結果是基于第一語言的候選詞條的概率; 將大于預設的概率閾值的概率信息所對應的切分結果作為所述基于第一語言的第一候選詞條。
4.根據(jù)權利要求3所述的方法,其特征在于,所述基`于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為假名詞條,所述獲得所述切分結果的概率信息,包括: 利用如下公式獲得所述切分結果的概率信息P (E I c):
P(E|c) = P(E)P(c|E)/(P(J) P(c|j)+P(E)P(c|E)) 其中,P(E)為切分結果c是英文單詞的先驗概率,P(c IE)為英文詞匯中出現(xiàn)切分結果c的條件概率,P(J)為切分結果c是假名字符的先驗概率,P(c|j)為假名字符對應的英文字符串中出現(xiàn)切分結果c的條件概率。
5.根據(jù)權利要求1至4中任一項所述的方法,其特征在于,所述依據(jù)所述第一候選詞條和所述第二候選詞條,獲得第三候選詞條,包括: 獲得所述第一候選詞條在輸入的至少兩個英文字符中的第一位置信息; 獲得所述第二候選詞條對應的英文字符串在輸入的至少兩個英文字符中的第二位置信息; 依據(jù)所述基于第一語言的第一候選詞條、所述第一位置信息、所述基于第二語言的第二候選詞條和所述第二位置信息,獲得所述第三候選詞條。
6.一種輸入系統(tǒng),其特征在于,所述系統(tǒng)包括: 輸入單元,用于接收輸入的至少兩個英文字符; 詞條處理單元,用于依據(jù)所述至少兩個英文字符,獲得基于第一語言的第一候選詞條;依據(jù)所述至少兩個英文字符,獲得基于第二語言的第二候選詞條;依據(jù)所述第一候選詞條和所述第二候選詞條,獲得第三候選詞條。
7.根據(jù)權利要求6所述的系統(tǒng),其特征在于, 所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為假名詞條;或者, 所述基于第一語言的第一候選詞條為英文詞條,所述基于第二語言的第二候選詞條為漢字詞條。
8.根據(jù)權利要求6所述的系統(tǒng),其特征在于,所述詞條處理單元具體用于: 對所述至少兩個英文字符進行切分處理,以獲得切分結果; 獲得所述切分結果的概率信息,所述概率信息指示所述切分結果是基于第一語言的候選詞條的概率; 將大于預設的概率閾值的概率信息所對應的切分結果作為所述基于第一語言的第一候選詞條。
9.根據(jù)權利要求8所述的系統(tǒng),其特征在于,所述基于第一語言的第一候選詞條為英文詞條,所述詞條處理單元具體用于: 利用如下公式獲得所述切分結果的概率信息P (E I c):
P(E|c) = P(E)P(c|E)/(P (J) P(c|j)+P(E)P(c|E)) 其中,P(E)為切分結果c是英文單詞的先驗概率,P(c IE)為英文詞匯中出現(xiàn)切分結果c的條件概率,P(J)為切分結果c是假名字符的先驗概率,P(c|j)為假名字符對應的英文字符串中出現(xiàn)切分結果c的條件概率。
10.根據(jù)權利要求6至9中任一項所述的系統(tǒng),其特征在于,所述詞條處理單元具體用于:` 獲得所述第一候選詞條在輸入的至少兩個英文字符中的第一位置信息; 獲得所述第二候選詞條對應的英文字符串在輸入的至少兩個英文字符中的第二位置信息; 依據(jù)所述基于第一語言的第一候選詞條、所述第一位置信息、所述基于第二語言的第二候選詞條和所述第二位置信息,獲得所述第三候選詞條。
【文檔編號】G06F17/27GK103885608SQ201410104464
【公開日】2014年6月25日 申請日期:2014年3月19日 優(yōu)先權日:2014年3月19日
【發(fā)明者】黃藝華 申請人:百度在線網(wǎng)絡技術(北京)有限公司