一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法
【專利摘要】本發(fā)明公開了基于按鍵記錄的中英文混合輸入內(nèi)容識別方法,具體步驟包括將用戶的鍵盤消息轉(zhuǎn)換成鍵盤序列;讀取記錄文件并將當(dāng)前輸入狀態(tài)轉(zhuǎn)換為標(biāo)準(zhǔn)翻譯格式;讀取標(biāo)準(zhǔn)翻譯格式并從用戶特定還原詞庫、標(biāo)準(zhǔn)還原詞庫中查找,或找一個(gè)最優(yōu)候選項(xiàng)進(jìn)行替代,完成還原步驟;展示翻譯結(jié)果并修改。本發(fā)明將用戶鍵盤消息關(guān)聯(lián)于消息窗口上的用戶鍵盤序列標(biāo)準(zhǔn),用基于窗口的狀態(tài)自動(dòng)識別算法識別當(dāng)前輸入狀態(tài),提高了識別的準(zhǔn)確率,對于用戶省略的一些鍵盤序列,在詞庫中查找,選擇一個(gè)最優(yōu)候選項(xiàng)替代,針對單個(gè)鍵盤序列串,通過基于逆向詞庫條目法的前綴查找算法提高了查找的效率,本發(fā)明同時(shí)設(shè)有用戶更正接口,用戶可對還原出來的文件進(jìn)行人工修正。
【專利說明】-種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,具體是一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方 法。
【背景技術(shù)】
[0002] 隨著信息化的發(fā)展,計(jì)算機(jī)深入到人們生活中的方方面面,鍵盤輸入作為主要的 交互方式,在網(wǎng)絡(luò)交流和日常辦公中起到了重要的作用,但是針對于根據(jù)鍵盤消息還原用 戶原始輸入的問題,還沒有一個(gè)有效的解決方案。在當(dāng)前的輸入還原領(lǐng)域,還沒有成熟的技 術(shù)方案,主要存在的問題體現(xiàn)在以下方面:
[0003] 首先,用戶在輸入的過程中,可能隨時(shí)切換窗口,而且切換窗口的頻率比較高,一 般方法不能將窗口和輸入消息關(guān)聯(lián)起來。
[0004] 其次,用戶在輸入的過程中,由于輸入法的自動(dòng)補(bǔ)全功能,用戶會(huì)省略一些鍵盤序 列,典型的是省略拼音的后半部分,這樣就導(dǎo)致還原的過程中出現(xiàn)問題,得不到正確的匹配 結(jié)果。
[0005] 再者,輸入法確定狀態(tài)比較困難,由于市面上有多種輸入法,并且輸入法之間的切 換鍵不相同,輸入法內(nèi)部切換方法不同,造成還原用戶輸入的時(shí)候,輸入法的狀態(tài)確定不準(zhǔn) 確。
[0006] 最后,還原的結(jié)果準(zhǔn)確率不高,并且其中出現(xiàn)同音異形字的概率比較高。
[0007] 如果能夠通過一些方法直接或者間接解決上述問題,將是鍵盤輸入還原領(lǐng)域的一 大突破。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的在于提供一種查找效率高、識別準(zhǔn)確率高的基于按鍵記錄的中英文 混合輸入內(nèi)容識別方法,以解決上述【背景技術(shù)】中提出的問題。
[0009] 為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0010] 一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法,具體步驟如下:
[0011] (1)在用戶輸入的過程中將用戶的鍵盤消息轉(zhuǎn)換成鍵盤序列,去除鍵盤序列中的 噪聲信息,按照Windows輸入框的編號對用戶鍵盤序列進(jìn)行歸并處理,并且持久化;
[0012] (2)讀取記錄文件,使用基于窗口的狀態(tài)自動(dòng)識別算法識別當(dāng)前輸入狀態(tài),然后將 識別結(jié)果轉(zhuǎn)換為標(biāo)準(zhǔn)翻譯格式;
[0013] (3)讀取標(biāo)準(zhǔn)翻譯格式,首先使用針對用戶特定還原詞庫進(jìn)行查找,然后再使用標(biāo) 準(zhǔn)還原詞庫,對每個(gè)標(biāo)準(zhǔn)格式中的字符串使用基于逆向詞庫條目的前綴查找算法,得到翻 譯結(jié)果,對于匹配不到的結(jié)果在詞庫中找一個(gè)最優(yōu)候選項(xiàng)進(jìn)行替代,完成還原步驟;
[0014] (4)將翻譯結(jié)果展示給用戶,用戶通過用戶更正接口進(jìn)行修改,針對其中翻譯不正 確的結(jié)果和同音異形字進(jìn)行修正,并將這些修改添加到用戶特定還原詞庫中,保存最終結(jié) 果。
[0015] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0016] 本發(fā)明將用戶鍵盤消息關(guān)聯(lián)于消息窗口上的用戶鍵盤序列標(biāo)準(zhǔn),用基于窗口的狀 態(tài)自動(dòng)識別算法識別當(dāng)前輸入狀態(tài),提高了識別的準(zhǔn)確率,對于用戶省略的一些鍵盤序列, 在詞庫中查找,選擇一個(gè)最優(yōu)候選項(xiàng)替代,針對單個(gè)鍵盤序列串,通過基于逆向詞庫條目法 的前綴查找算法提高了查找的效率,本發(fā)明同時(shí)設(shè)有用戶更正接口,用戶可對還原出來的 文件進(jìn)行人工修正。
【專利附圖】
【附圖說明】
[0017] 圖1為本發(fā)明的流程圖。
[0018] 圖2為本發(fā)明中將鍵盤消息轉(zhuǎn)換成鍵盤序列的流程圖。
[0019] 圖3為本發(fā)明中基于逆向詞庫條目的前綴查找算法的原理示意圖。
【具體實(shí)施方式】
[0020] 下面結(jié)合【具體實(shí)施方式】對本專利的技術(shù)方案作進(jìn)一步詳細(xì)地說明。
[0021] 請參閱圖1-3, 一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法,具體步驟如 下:
[0022] (1)在用戶輸入的過程中將用戶的鍵盤消息轉(zhuǎn)換成鍵盤序列,去除鍵盤序列中的 噪聲信息,按照windows輸入框的編號對用戶鍵盤序列進(jìn)行歸并處理,并且持久化;
[0023] (2)讀取記錄文件,使用基于窗口的狀態(tài)自動(dòng)識別算法識別當(dāng)前輸入狀態(tài),然后將 識別結(jié)果轉(zhuǎn)換為標(biāo)準(zhǔn)翻譯格式;
[0024] 所述標(biāo)準(zhǔn)翻譯格式G = WQ,是由窗口編號W和輸入序列Q構(gòu)成的,其中:W表示一 個(gè)窗口編號,是用來標(biāo)識同一個(gè)窗口下的鍵盤輸入序列,這樣就可以在窗口頻繁切換的時(shí) 候能夠?qū)?yīng)的輸入對號入座;Q表不針對窗口編號W所標(biāo)識的窗口上的輸入序列,Q = Tl, T2, T3…,輸入序列是由至少一個(gè)輸入單元構(gòu)成的一個(gè)序列。
[0025] 對于每個(gè)輸入單元是由輸入狀態(tài)、字符串和分隔符構(gòu)成的,即T = [State] S [Separator],其中:T表示輸入單元,[state]表示這個(gè)輸入單元T的輸入狀態(tài),S表示一 個(gè)字符串,[Separator]表示一個(gè)分隔符。
[0026] 所述輸入狀態(tài)[state] G {P, E, W},其中:P表不拼音輸入法,E表不英文輸入法, W表不五筆輸入法。
[0027] 所述字符串3[1]£{〇-9,&-2 4-2},字符串5[1]中的每個(gè)字符都屬于數(shù)字、大寫 字母金額小寫字母中的一種。
[0028] 所述分隔符
[0029] [Separator] G {回車符、換行符、空格、Shift、Tab、Cpas Lock、Esc、標(biāo)點(diǎn)符號}, 分隔符[Separator]是用來將用戶的輸入分割開來的,對于每一個(gè)輸入單元有一個(gè)唯一的 輸入狀態(tài)。
[0030] 所述基于窗口的狀態(tài)自動(dòng)識別算法的原理為:
[0031] 在步驟(2)中,首先讀取記錄文件,讀取記錄文件的格式轉(zhuǎn)換為標(biāo)準(zhǔn)翻譯格式為:
[0032] G = WT1T2T3. -- Tn
[0033] 標(biāo)準(zhǔn)翻譯格式的輸入狀態(tài)Ti. [State]不確定,在日常輸入的過程中,用戶在每一 次的輸入過程中都有一個(gè)輸入法狀態(tài),但是對于識別的過程中,不能判斷當(dāng)前的輸入法狀 態(tài),因?yàn)樵谟脩糨斎氲倪^程中是沒法捕捉到輸入法狀態(tài)的,假設(shè)p(i,x)表示第i個(gè)輸入單元 的狀態(tài)為X的一個(gè)概率值,X的值域?yàn)閧P,E,W};對于每個(gè)輸入單元的輸入法狀態(tài)可能與前 n-1個(gè)的輸入單元的狀態(tài)有關(guān),并且兩個(gè)輸入單元之間的距離不一樣,則影響因子不一樣, 假設(shè)R(nU)表示第m個(gè)輸入單元的狀態(tài)對第i個(gè)輸入單元狀態(tài)為X的影響因子;同時(shí)能夠得 到輸入在用戶詞庫中的匹配結(jié)果,D(i,x)表示第i個(gè)輸入單元的狀態(tài)為X的概率值,X的值域 為{P,E,W}。
[0034] a表示前面i-1個(gè)輸入單元對當(dāng)前輸入i狀態(tài)的影響因子,I- a則表示詞庫對當(dāng) 前輸入i狀態(tài)的影響因子,則有:P(i,x) = F(i,x) a +D(i,x) (I- a ),F(xiàn)(i,x)表示前i-1個(gè)輸入單元 的狀態(tài)對i輸入單元狀態(tài)為x的影響值,
【權(quán)利要求】
1. 一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法,其特征在于,具體步驟如下: (1) 在用戶輸入的過程中將用戶的鍵盤消息轉(zhuǎn)換成鍵盤序列,去除鍵盤序列中的噪聲 信息,按照windows輸入框的編號對用戶鍵盤序列進(jìn)行歸并處理,并且持久化; (2) 讀取記錄文件,使用基于窗口的狀態(tài)自動(dòng)識別算法識別當(dāng)前輸入狀態(tài),然后將識別 結(jié)果轉(zhuǎn)換為標(biāo)準(zhǔn)翻譯格式; (3) 讀取標(biāo)準(zhǔn)翻譯格式,首先使用針對用戶特定還原詞庫進(jìn)行查找,然后再使用標(biāo)準(zhǔn)還 原詞庫,對每個(gè)標(biāo)準(zhǔn)格式中的字符串使用基于逆向詞庫條目的前綴查找算法,得到翻譯結(jié) 果,對于匹配不到的結(jié)果在詞庫中找一個(gè)最優(yōu)候選項(xiàng)進(jìn)行替代,完成還原步驟; (4) 將翻譯結(jié)果展示給用戶,用戶通過用戶更正接口進(jìn)行修改,針對其中翻譯不正確的 結(jié)果和同音異形字進(jìn)行修正,并將這些修改添加到用戶特定還原詞庫中,保存最終結(jié)果。
【文檔編號】G06F17/28GK104391589SQ201410764964
【公開日】2015年3月4日 申請日期:2014年12月11日 優(yōu)先權(quán)日:2014年12月11日
【發(fā)明者】宋勝利, 高海昌, 覃桂敏, 褚華 申請人:西安電子科技大學(xué)