一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法

文檔序號：6638417閱讀：777來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法
【專利摘要】本發(fā)明公開了基于按鍵記錄的中英文混合輸入內(nèi)容識別方法，具體步驟包括將用戶的鍵盤消息轉(zhuǎn)換成鍵盤序列；讀取記錄文件并將當(dāng)前輸入狀態(tài)轉(zhuǎn)換為標(biāo)準(zhǔn)翻譯格式；讀取標(biāo)準(zhǔn)翻譯格式并從用戶特定還原詞庫、標(biāo)準(zhǔn)還原詞庫中查找，或找一個(gè)最優(yōu)候選項(xiàng)進(jìn)行替代，完成還原步驟；展示翻譯結(jié)果并修改。本發(fā)明將用戶鍵盤消息關(guān)聯(lián)于消息窗口上的用戶鍵盤序列標(biāo)準(zhǔn)，用基于窗口的狀態(tài)自動(dòng)識別算法識別當(dāng)前輸入狀態(tài)，提高了識別的準(zhǔn)確率，對于用戶省略的一些鍵盤序列，在詞庫中查找，選擇一個(gè)最優(yōu)候選項(xiàng)替代，針對單個(gè)鍵盤序列串，通過基于逆向詞庫條目法的前綴查找算法提高了查找的效率，本發(fā)明同時(shí)設(shè)有用戶更正接口，用戶可對還原出來的文件進(jìn)行人工修正。
【專利說明】-種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)領(lǐng)域，具體是一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法。

【背景技術(shù)】
[0002] 隨著信息化的發(fā)展，計(jì)算機(jī)深入到人們生活中的方方面面，鍵盤輸入作為主要的交互方式，在網(wǎng)絡(luò)交流和日常辦公中起到了重要的作用，但是針對于根據(jù)鍵盤消息還原用戶原始輸入的問題，還沒有一個(gè)有效的解決方案。在當(dāng)前的輸入還原領(lǐng)域，還沒有成熟的技術(shù)方案，主要存在的問題體現(xiàn)在以下方面：
[0003] 首先，用戶在輸入的過程中，可能隨時(shí)切換窗口，而且切換窗口的頻率比較高，一般方法不能將窗口和輸入消息關(guān)聯(lián)起來。
[0004] 其次，用戶在輸入的過程中，由于輸入法的自動(dòng)補(bǔ)全功能，用戶會(huì)省略一些鍵盤序列，典型的是省略拼音的后半部分，這樣就導(dǎo)致還原的過程中出現(xiàn)問題，得不到正確的匹配結(jié)果。
[0005] 再者，輸入法確定狀態(tài)比較困難，由于市面上有多種輸入法，并且輸入法之間的切換鍵不相同，輸入法內(nèi)部切換方法不同，造成還原用戶輸入的時(shí)候，輸入法的狀態(tài)確定不準(zhǔn) 確。
[0006] 最后，還原的結(jié)果準(zhǔn)確率不高，并且其中出現(xiàn)同音異形字的概率比較高。
[0007] 如果能夠通過一些方法直接或者間接解決上述問題，將是鍵盤輸入還原領(lǐng)域的一大突破。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明的目的在于提供一種查找效率高、識別準(zhǔn)確率高的基于按鍵記錄的中英文混合輸入內(nèi)容識別方法，以解決上述【背景技術(shù)】中提出的問題。
[0009] 為實(shí)現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：
[0010] 一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法，具體步驟如下：
[0011] (1)在用戶輸入的過程中將用戶的鍵盤消息轉(zhuǎn)換成鍵盤序列，去除鍵盤序列中的噪聲信息，按照Windows輸入框的編號對用戶鍵盤序列進(jìn)行歸并處理，并且持久化；
[0012] (2)讀取記錄文件，使用基于窗口的狀態(tài)自動(dòng)識別算法識別當(dāng)前輸入狀態(tài)，然后將識別結(jié)果轉(zhuǎn)換為標(biāo)準(zhǔn)翻譯格式；
[0013] (3)讀取標(biāo)準(zhǔn)翻譯格式，首先使用針對用戶特定還原詞庫進(jìn)行查找，然后再使用標(biāo) 準(zhǔn)還原詞庫，對每個(gè)標(biāo)準(zhǔn)格式中的字符串使用基于逆向詞庫條目的前綴查找算法，得到翻譯結(jié)果，對于匹配不到的結(jié)果在詞庫中找一個(gè)最優(yōu)候選項(xiàng)進(jìn)行替代，完成還原步驟；
[0014] (4)將翻譯結(jié)果展示給用戶，用戶通過用戶更正接口進(jìn)行修改，針對其中翻譯不正確的結(jié)果和同音異形字進(jìn)行修正，并將這些修改添加到用戶特定還原詞庫中，保存最終結(jié) 果。
[0015] 與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：
[0016] 本發(fā)明將用戶鍵盤消息關(guān)聯(lián)于消息窗口上的用戶鍵盤序列標(biāo)準(zhǔn)，用基于窗口的狀態(tài)自動(dòng)識別算法識別當(dāng)前輸入狀態(tài)，提高了識別的準(zhǔn)確率，對于用戶省略的一些鍵盤序列，在詞庫中查找，選擇一個(gè)最優(yōu)候選項(xiàng)替代，針對單個(gè)鍵盤序列串，通過基于逆向詞庫條目法的前綴查找算法提高了查找的效率，本發(fā)明同時(shí)設(shè)有用戶更正接口，用戶可對還原出來的文件進(jìn)行人工修正。

【專利附圖】

【附圖說明】
[0017] 圖1為本發(fā)明的流程圖。
[0018] 圖2為本發(fā)明中將鍵盤消息轉(zhuǎn)換成鍵盤序列的流程圖。
[0019] 圖3為本發(fā)明中基于逆向詞庫條目的前綴查找算法的原理示意圖。

【具體實(shí)施方式】
[0020] 下面結(jié)合【具體實(shí)施方式】對本專利的技術(shù)方案作進(jìn)一步詳細(xì)地說明。
[0021] 請參閱圖1-3, 一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法，具體步驟如下：
[0022] (1)在用戶輸入的過程中將用戶的鍵盤消息轉(zhuǎn)換成鍵盤序列，去除鍵盤序列中的噪聲信息，按照windows輸入框的編號對用戶鍵盤序列進(jìn)行歸并處理，并且持久化；
[0023] (2)讀取記錄文件，使用基于窗口的狀態(tài)自動(dòng)識別算法識別當(dāng)前輸入狀態(tài)，然后將識別結(jié)果轉(zhuǎn)換為標(biāo)準(zhǔn)翻譯格式；
[0024] 所述標(biāo)準(zhǔn)翻譯格式G = WQ，是由窗口編號W和輸入序列Q構(gòu)成的，其中：W表示一個(gè)窗口編號，是用來標(biāo)識同一個(gè)窗口下的鍵盤輸入序列，這樣就可以在窗口頻繁切換的時(shí) 候能夠?qū)?yīng)的輸入對號入座；Q表不針對窗口編號W所標(biāo)識的窗口上的輸入序列，Q = Tl, T2, T3…，輸入序列是由至少一個(gè)輸入單元構(gòu)成的一個(gè)序列。
[0025] 對于每個(gè)輸入單元是由輸入狀態(tài)、字符串和分隔符構(gòu)成的，即T = [State] S [Separator],其中：T表示輸入單元，[state]表示這個(gè)輸入單元T的輸入狀態(tài)，S表示一個(gè)字符串，[Separator]表示一個(gè)分隔符。
[0026] 所述輸入狀態(tài)[state] G {P, E, W}，其中：P表不拼音輸入法，E表不英文輸入法， W表不五筆輸入法。
[0027] 所述字符串3[1]￡{〇-9，&-2 4-2}，字符串5[1]中的每個(gè)字符都屬于數(shù)字、大寫字母金額小寫字母中的一種。
[0028] 所述分隔符
[0029] [Separator] G {回車符、換行符、空格、Shift、Tab、Cpas Lock、Esc、標(biāo)點(diǎn)符號}，分隔符[Separator]是用來將用戶的輸入分割開來的，對于每一個(gè)輸入單元有一個(gè)唯一的輸入狀態(tài)。
[0030] 所述基于窗口的狀態(tài)自動(dòng)識別算法的原理為：
[0031] 在步驟（2)中，首先讀取記錄文件，讀取記錄文件的格式轉(zhuǎn)換為標(biāo)準(zhǔn)翻譯格式為：
[0032] G = WT1T2T3. -- Tn
[0033] 標(biāo)準(zhǔn)翻譯格式的輸入狀態(tài)Ti. [State]不確定，在日常輸入的過程中，用戶在每一次的輸入過程中都有一個(gè)輸入法狀態(tài)，但是對于識別的過程中，不能判斷當(dāng)前的輸入法狀態(tài)，因?yàn)樵谟脩糨斎氲倪^程中是沒法捕捉到輸入法狀態(tài)的，假設(shè)p(i，x)表示第i個(gè)輸入單元的狀態(tài)為X的一個(gè)概率值，X的值域?yàn)閧P，E，W};對于每個(gè)輸入單元的輸入法狀態(tài)可能與前 n-1個(gè)的輸入單元的狀態(tài)有關(guān)，并且兩個(gè)輸入單元之間的距離不一樣，則影響因子不一樣，假設(shè)R(nU)表示第m個(gè)輸入單元的狀態(tài)對第i個(gè)輸入單元狀態(tài)為X的影響因子；同時(shí)能夠得到輸入在用戶詞庫中的匹配結(jié)果，D(i，x)表示第i個(gè)輸入單元的狀態(tài)為X的概率值，X的值域為{P，E，W}。
[0034] a表示前面i-1個(gè)輸入單元對當(dāng)前輸入i狀態(tài)的影響因子，I- a則表示詞庫對當(dāng) 前輸入i狀態(tài)的影響因子，則有：P(i，x) = F(i，x) a +D(i，x) (I- a )，F(xiàn)(i，x)表示前i-1個(gè)輸入單元的狀態(tài)對i輸入單元狀態(tài)為x的影響值，

【權(quán)利要求】
1. 一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法，其特征在于，具體步驟如下： (1) 在用戶輸入的過程中將用戶的鍵盤消息轉(zhuǎn)換成鍵盤序列，去除鍵盤序列中的噪聲信息，按照windows輸入框的編號對用戶鍵盤序列進(jìn)行歸并處理，并且持久化； (2) 讀取記錄文件，使用基于窗口的狀態(tài)自動(dòng)識別算法識別當(dāng)前輸入狀態(tài)，然后將識別結(jié)果轉(zhuǎn)換為標(biāo)準(zhǔn)翻譯格式； (3) 讀取標(biāo)準(zhǔn)翻譯格式，首先使用針對用戶特定還原詞庫進(jìn)行查找，然后再使用標(biāo)準(zhǔn)還原詞庫，對每個(gè)標(biāo)準(zhǔn)格式中的字符串使用基于逆向詞庫條目的前綴查找算法，得到翻譯結(jié) 果，對于匹配不到的結(jié)果在詞庫中找一個(gè)最優(yōu)候選項(xiàng)進(jìn)行替代，完成還原步驟； (4) 將翻譯結(jié)果展示給用戶，用戶通過用戶更正接口進(jìn)行修改，針對其中翻譯不正確的結(jié)果和同音異形字進(jìn)行修正，并將這些修改添加到用戶特定還原詞庫中，保存最終結(jié)果。
【文檔編號】G06F17/28GK104391589SQ201410764964
【公開日】2015年3月4日申請日期:2014年12月11日優(yōu)先權(quán)日:2014年12月11日
【發(fā)明者】宋勝利, 高海昌, 覃桂敏, 褚華申請人:西安電子科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宋勝利;高海昌;覃桂敏;褚華;
技術(shù)所有人：西安電子科技大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于按鍵記錄的中英文混合輸入內(nèi)容識別方法