非正常文本識(shí)別方法及其系統(tǒng)的制作方法

文檔序號(hào)：6487393閱讀：143來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

非正常文本識(shí)別方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種非正常文本識(shí)別方法及其系統(tǒng)，所述方法包括以下步驟：根據(jù)待識(shí)別文本中的各個(gè)文字，獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵；根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，將所述待識(shí)別文本劃分為正常文本或者非正常文本。本發(fā)明的非正常文本識(shí)別方法及其系統(tǒng)，通過各個(gè)文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，可以有效地識(shí)別出大部分隨機(jī)輸入的無意義、非正常文本。并且，因?yàn)樽R(shí)別方法并不依賴于詞義，文本質(zhì)量分的計(jì)算，使識(shí)別結(jié)果更加客觀準(zhǔn)確。
【專利說明】非正常文本識(shí)別方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本識(shí)別【技術(shù)領(lǐng)域】，特別是涉及一種非正常文本識(shí)別方法，以及一種非正常文本識(shí)別系統(tǒng)。
【背景技術(shù)】
[0002]垃圾文本過濾一直是搜索引擎中一項(xiàng)重要的技術(shù)環(huán)節(jié)，所述垃圾文本通常指無意義的非正常文本，傳統(tǒng)的垃圾文本過濾通過關(guān)鍵詞的查找和文本質(zhì)量分的計(jì)算，可以過濾掉一些廣告內(nèi)容、色情內(nèi)容、政治敏感內(nèi)容、內(nèi)容重復(fù)的差格式文本、非規(guī)范字符過多的差格式文本等等。
[0003]然而，在微博和空間說說等短文本搜索中，我們發(fā)現(xiàn)有一定量的由隨機(jī)輸入產(chǎn)生的非正常文本(也稱垃圾文本)，例如:“撒嬌的拉薩科技大實(shí)際道路卡薩軍等垃圾哦大搜打碎了均達(dá)拉斯加達(dá)拉斯加薩頓水等”。這類非正常文本的特性是:內(nèi)容有一定隨機(jī)性，重復(fù)詞條較少；概念詞較多，按照以往的文本過濾技術(shù)計(jì)算的文本質(zhì)量分通常不低；由于輸入法的聯(lián)想輸入特性，相鄰詞之間往往有一定相關(guān)度，難以通過語義分析過濾。基于以上特性，這類非正常文本很難通過傳統(tǒng)的文本過濾方法加以區(qū)分。

【發(fā)明內(nèi)容】

[0004]針對(duì)上述【背景技術(shù)】中存在的問題，本發(fā)明的目的在于提供一種能夠有效地識(shí)別隨機(jī)輸入產(chǎn)生的非正常文本的非正常文本識(shí)別方法，以及一種非正常文本識(shí)別系統(tǒng)。
[0005]一種非正常文本識(shí)別方法，包括以下步驟:
[0006]根據(jù)待識(shí)別文本中的各個(gè)文字，獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵；
[0007]根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，將所述待識(shí)別文本劃分為正常文本或者非正常文本。
[0008]一種非正常文本識(shí)別系統(tǒng)，包括:
[0009]按鍵獲取模塊，用于根據(jù)待識(shí)別文本中的各個(gè)文字，獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵；
[0010]識(shí)別模塊，用于根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，將所述待識(shí)別文本劃分為正常文本或者非正常文本。
[0011]本發(fā)明的非正常文本識(shí)別方法及其系統(tǒng)，通過獲取在相應(yīng)的輸入法下，待識(shí)別文本中的各個(gè)文字輸入的首字母所對(duì)應(yīng)的按鍵，判斷所述按鍵在鍵盤上的分布情況。因?yàn)殡S機(jī)輸入的無意義的非正常文本通常是點(diǎn)擊在鍵盤上較集中的區(qū)域的若干按鍵輸入的，所以通過所述文字輸入時(shí)的首字母對(duì)應(yīng)的按鍵在鍵盤上的分布情況，可以有效地識(shí)別出大部分隨機(jī)輸入的無意義、非正常文本。并且，因?yàn)樽R(shí)別方法并不依賴于詞義，文本質(zhì)量分的計(jì)算，使識(shí)別結(jié)果更加客觀準(zhǔn)確。
【專利附圖】

【附圖說明】[0012]圖1是本發(fā)明非正常文本識(shí)別方法第一實(shí)施方式的流程示意圖；
[0013]圖2是本發(fā)明非正常文本識(shí)別方法第一實(shí)施方式中步驟S102的局部流程示意圖；
[0014]圖3為本發(fā)明的非正常文本識(shí)別方法中一種鍵盤分區(qū)的設(shè)定方式的示意圖；
[0015]圖4是本發(fā)明非正常文本識(shí)別方法第二實(shí)施方式中步驟S102的局部流程示意圖；
[0016]圖5是本發(fā)明非正常文本識(shí)別方法第三實(shí)施方式中步驟S102的局部流程示意圖；
[0017]圖6是本發(fā)明非正常文本識(shí)別系統(tǒng)第一實(shí)施方式的結(jié)構(gòu)示意圖；
[0018]圖7是本發(fā)明非正常文本識(shí)別系統(tǒng)的第一實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖；
[0019]圖8是本發(fā)明非正常文本識(shí)別系統(tǒng)的第二實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖；
[0020]圖9是本發(fā)明非正常文本識(shí)別系統(tǒng)的第三實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0021]請(qǐng)參閱圖1，圖1是本發(fā)明非正常文本識(shí)別方法第一實(shí)施方式的流程示意圖。
[0022]所述非正常文本識(shí)別方法，包括以下步驟SlOl和S102:
[0023]S101，根據(jù)待識(shí)別文本中的各個(gè)文字，獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵；
[0024]其中，所述待識(shí)別文本即是需要進(jìn)行識(shí)別的文本。所述待識(shí)別文本中的文字包括中文字，英文字母，數(shù)字、符號(hào)等，也可以是其中的一種或者多種的組合。特別地，本發(fā)明對(duì)于由中文漢字組成的文本具有較好的識(shí)別效果。
[0025]而所述待識(shí)別文本優(yōu)選為長度大于某預(yù)設(shè)值的文本，即其包含的文字個(gè)數(shù)最好超過一定的數(shù)量，因?yàn)槲谋驹蕉?，包含的文字越少，正常和非正常文本間的界限越模糊，識(shí)別的難度越大。因此在實(shí)際執(zhí)行本發(fā)明的非正常文本識(shí)別方法時(shí)，可以預(yù)先設(shè)定對(duì)文本要求的最小長度，對(duì)文本長度大于所述最小長度的，才執(zhí)行本發(fā)明的非正常文本識(shí)別方法，否則不執(zhí)行所述非正常文本識(shí)別方法。
[0026]所述文字輸入的首字母所對(duì)應(yīng)的按鍵，即是在輸入每一個(gè)所述文字時(shí)第一個(gè)點(diǎn)擊的按鍵，例如英文字母輸入計(jì)算機(jī)時(shí)，首字母對(duì)應(yīng)的按鍵即為所述英文字母所在的按鍵。
[0027]所述文字輸入的首字母所對(duì)應(yīng)的按鍵，可以通過建立查找表的方式獲取。優(yōu)選地，在本步驟SlOl中，根據(jù)所述待識(shí)別文本中的各個(gè)文字，查找預(yù)先建立的對(duì)應(yīng)關(guān)系表，獲取對(duì)應(yīng)的所述按鍵；其中，所述對(duì)應(yīng)關(guān)系表中記錄所述文字和所述文字輸入的首字母所對(duì)應(yīng)的按鍵。
[0028]亦即，在預(yù)設(shè)的所述對(duì)應(yīng)關(guān)系表中，建立輸入的文字和對(duì)應(yīng)的所述按鍵的對(duì)應(yīng)關(guān)系。只需要根據(jù)文字查找所述對(duì)應(yīng)關(guān)系表，即可獲得所述待識(shí)別文本中各個(gè)文字對(duì)應(yīng)的所述按鍵，這種方式比較直接方便。
[0029]或者，所述按鍵也可以根據(jù)所述文字輸入時(shí)所用的輸入法的規(guī)則獲取。例如，對(duì)于所述待識(shí)別文本中的英文字母，直接獲取各個(gè)所述英文字母對(duì)應(yīng)的按鍵，識(shí)別為所述英文字母輸入的首字母所對(duì)應(yīng)的按鍵。
[0030]當(dāng)所述待識(shí)別文本中的各個(gè)文字是由拼音輸入法輸入的漢字時(shí)，則可獲取所述待識(shí)別文本中各個(gè)中文漢字的拼音首字母對(duì)應(yīng)的按鍵，識(shí)別為所述中文漢字輸入的首字母所對(duì)應(yīng)的按鍵。
[0031]由于拼音輸入法輸入的漢字，第一個(gè)點(diǎn)擊的按鍵必然是該漢字的拼音首字母的按鍵，因此可以通過上述方式獲取中文漢字輸入計(jì)算機(jī)時(shí)對(duì)應(yīng)的首個(gè)按鍵。
[0032]根據(jù)不同的輸入法規(guī)則對(duì)各種文字輸入的首字母所對(duì)應(yīng)的按鍵進(jìn)行推導(dǎo)，可以無需建立數(shù)據(jù)量較大的對(duì)應(yīng)關(guān)系表。本領(lǐng)域的技術(shù)人員根據(jù)本發(fā)明記載的上述方法，可以自行根據(jù)對(duì)應(yīng)的輸入法規(guī)則，獲取其他文字輸入的首字母所對(duì)應(yīng)的按鍵。
[0033]優(yōu)選地，在本步驟SlOl中，將計(jì)算機(jī)鍵盤上a-z的按鍵以26個(gè)不同的標(biāo)識(shí)標(biāo)記，例如數(shù)字1-26 ;而將標(biāo)點(diǎn)符號(hào)和數(shù)字以同一個(gè)標(biāo)識(shí)標(biāo)記，例如數(shù)字O。則在獲取對(duì)應(yīng)的按鍵之后，可用相應(yīng)的標(biāo)識(shí)記錄，以便計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)處理。
[0034]S102，根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，將所述待識(shí)別文本劃分為正常文本或者非正常文本。
[0035]因?yàn)殡S機(jī)輸入的、無意義的非正常文本通常是點(diǎn)擊在鍵盤上較集中的區(qū)域的若干個(gè)按鍵輸入的，亦即，隨機(jī)輸入時(shí)通常不會(huì)在整個(gè)鍵盤范圍內(nèi)對(duì)各個(gè)按鍵平均地點(diǎn)擊。所以通過各個(gè)所述文字對(duì)應(yīng)的所述按鍵在鍵盤上的分布情況，可以有效地識(shí)別出大部分隨機(jī)輸入的無意義、非正常文本。例如，如果各個(gè)文字對(duì)應(yīng)的所述按鍵分布較集中，則將所述待識(shí)別文本判斷為非正常文本；而如果分布較分散，則判斷為正常文本。而判斷其分布集中或分散的標(biāo)準(zhǔn)可以根據(jù)統(tǒng)計(jì)數(shù)據(jù)，或者訓(xùn)練樣本和機(jī)器學(xué)習(xí)的方式得到。
[0036]請(qǐng)參閱圖2，圖2是本發(fā)明非正常文本識(shí)別方法第一實(shí)施方式中步驟S102的局部流程示意圖。
[0037]本實(shí)施方式中，可以通過以下方式將所述待識(shí)別文本劃分為正常文本或者非正常文本，即所述步驟S102包括:
[0038]S201，根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū)，判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例；
[0039]S202，將所述分布比例與預(yù)設(shè)的分布比例閾值比較；
[0040]如果大于所述分布比例閾值，則執(zhí)行步驟S203，將所述檢測(cè)文本劃分為非正常文本；否則，執(zhí)行步驟S204，將所述檢測(cè)文本劃分為正常文本。
[0041]其中，本發(fā)明中出現(xiàn)的“多個(gè)”指兩個(gè)或兩個(gè)以上。所述多個(gè)鍵盤分區(qū)是預(yù)先設(shè)定的，每個(gè)所述鍵盤分區(qū)包括若干個(gè)依次相鄰的按鍵，具體可根據(jù)鍵盤上各個(gè)按鍵的分布來設(shè)定。
[0042]請(qǐng)參閱圖3，圖3為本發(fā)明的非正常文本識(shí)別方法中一種鍵盤分區(qū)的設(shè)定方式的示意圖。該設(shè)定方式共分為7個(gè)鍵盤分區(qū):第一個(gè)鍵盤分區(qū)包括按鍵Q、W、E、R、T、Y、U、1、
O、P ;第二個(gè)鍵盤分區(qū)包括按鍵A、S、D、F、G、H、J、K、L ;第三個(gè)鍵盤分區(qū)包括按鍵Z、X、C、V、B、N、M ;第四個(gè)鍵盤分區(qū)包括按鍵W、E、R、T、S、D、F、G ;第五個(gè)鍵盤分區(qū)包括按鍵Y、U、1、O、
H、J、K、L ;第六個(gè)鍵盤分區(qū)包括按鍵S、D、F、G、X、C、V、B ;第七個(gè)鍵盤分區(qū)包括按鍵H、J、K、L、N、M。
[0043]根據(jù)以上分區(qū)，可分別判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例，例如對(duì)于待識(shí)別文本:“撒嬌的拉薩科技大實(shí)際道路卡薩軍等垃圾哦大搜打碎了均達(dá)拉斯加達(dá)拉斯加薩頓水等”，各個(gè)文字對(duì)應(yīng)的拼音首字母分別是“ sjdslkjdsjdlksjdljodsdsljdIs jdlsjsdsd”，所述拼音首字母對(duì)應(yīng)的按鍵即為所述文字輸入的首字母所對(duì)應(yīng)的按鍵。
[0044]亦即，總共獲得對(duì)應(yīng)的37個(gè)按鍵。其中，落在第二個(gè)鍵盤分區(qū)的按鍵有36個(gè)，分布比例占97.3% ;而落在第一鍵盤分區(qū)的按鍵有I個(gè)，分布比例占2.7% ;落在第四或第六鍵盤分區(qū)的按鍵有20個(gè)，占54% ;而落在第五或第七鍵盤分區(qū)的按鍵有17個(gè)，占46%。
[0045]因此，可將所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例與預(yù)設(shè)的分布比例閾值比較。根據(jù)比較結(jié)果將所述檢測(cè)文本劃分為非正常文本或正常文本。
[0046]各個(gè)所述鍵盤分區(qū)的分布比例閾值可以相同，也可以分別設(shè)定為不同的閾值。優(yōu)選地，可對(duì)每一個(gè)所述鍵盤分區(qū)設(shè)定多級(jí)的分布比例閾值。例如，設(shè)定第一級(jí)分布比例閾值是90%，第二級(jí)為70%，第三級(jí)為40%。則可設(shè)定在某一鍵盤分區(qū)占的分布比例高于90%時(shí)、或者有兩個(gè)鍵盤分區(qū)所占的分布比例高于70%時(shí)、或者有三個(gè)鍵盤分區(qū)所占的分布比例高于40%時(shí)、將所述檢測(cè)文本劃分為非正常文本。
[0047]請(qǐng)參閱圖4，圖4是本發(fā)明非正常文本識(shí)別方法第二實(shí)施方式中步驟S102的局部流程示意圖。
[0048]本實(shí)施方式中，還可以通過以下方式將所述待識(shí)別文本劃分為正常文本或者非正常文本，即所述步驟S102包括:
[0049]S211，計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離，并計(jì)算所述距離的平均值；
[0050]S212，將所述距離的平均值與預(yù)設(shè)的平均距離閾值比較；
[0051]如果小于所述平均距離閾值，則執(zhí)行步驟S213，將所述檢測(cè)文本劃分為非正常文本；否則，執(zhí)行步驟S214，將所述檢測(cè)文本劃分為正常文本。
[0052]本實(shí)施方式是根據(jù)兩個(gè)相鄰的文字對(duì)應(yīng)的按鍵在鍵盤上的距離來判斷所述檢測(cè)文本是否非正常文本。因?yàn)殡S機(jī)輸入的非正常文本也可能是連續(xù)掃過鍵盤上的各個(gè)按鍵輸入的，例如依次掃過按鍵QWERTYUIOPLKJHGFDSA，隨機(jī)輸入的非正常文本為:“去玩兒體育i歐珀萊卡減緩官費(fèi)的撒”，對(duì)此文本按照本實(shí)施方式進(jìn)行識(shí)別，則分別判斷按鍵QWERTYUIOPLKJHGFDSA中每兩個(gè)相鄰的按鍵的鍵盤距離，得到距離平均值為1.0，小于預(yù)設(shè)的平均距離閾值(例如是2.0),因此，將所述檢測(cè)文本劃分為非正常文本。
[0053]優(yōu)選地，計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離時(shí)，可以對(duì)所述鍵盤案件的橫向距離和縱向距離以不同的權(quán)重加權(quán)處理。亦即，根據(jù)所述待識(shí)別文本中每兩個(gè)相鄰的文字分別對(duì)應(yīng)的所述按鍵在鍵盤上的橫向距離和縱向距離，按照以下公式計(jì)算加權(quán)鍵盤距離:
[0054]Dist = X+ α.y
[0055]其中，Dist為計(jì)算的加權(quán)鍵盤距離，X為橫向距離，y為縱向距離，α為橫向距離和縱向距離的比例權(quán)重，α>1。
[0056]因?yàn)橥ǔＵJ(rèn)為用戶在隨機(jī)敲擊鍵盤的過程中縱向移動(dòng)的代價(jià)要高過橫向移動(dòng)，因此通常設(shè)置所述橫向距離和縱向距離的比例權(quán)重α>1。例如，將α的取值定為2，則字母S和字母T在鍵盤上的橫向距離為2.5，縱向距離為I，其加權(quán)的鍵盤距離為2.5+2Χ I = 4.5。假設(shè)文本中有N個(gè)文字(只包括漢字和英文字母，不包括數(shù)字、標(biāo)點(diǎn)和非規(guī)范字符)，那么計(jì)算每兩個(gè)相鄰文字之間的N-1個(gè)鍵盤距離，并計(jì)算距離的平均值，再根據(jù)所述距離的平均值與所述平均距離閾值，劃分所述待識(shí)別文本。[0057]請(qǐng)參閱圖5，圖5是本發(fā)明非正常文本識(shí)別方法第三實(shí)施方式中步驟S102的局部流程示意圖。
[0058]本實(shí)施方式中，將上述兩種判斷標(biāo)準(zhǔn)，即所述按鍵的分布比例和所述按鍵的距離平均值同時(shí)作為判斷所述待識(shí)別文本是否非正常文本的依據(jù)。即所述步驟S102包括:
[0059]S221，根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū)，判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例；
[0060]S222，計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離，并計(jì)算所述距離的平均值；
[0061]S223，根據(jù)所述分布比例和所述距離的平均值，按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)，將所述待識(shí)別文本劃分為正常文本或者非正常文本；其中，各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值和預(yù)設(shè)的平均距離閾值。
[0062]上述方式將所述按鍵的分布比例和所述按鍵的距離平均值同時(shí)作為判斷所述待識(shí)別文本是否非正常文本的依據(jù)，使文本識(shí)別的結(jié)果更加準(zhǔn)確。
[0063]優(yōu)選地，為進(jìn)一步提高文本識(shí)別結(jié)果的準(zhǔn)確性，每一所述鍵盤分區(qū)對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的多個(gè)所述分布比例閾值，以及分別對(duì)應(yīng)每一所述分布比例閾值的多個(gè)平均距離閾值。以此實(shí)現(xiàn)多重的閾值設(shè)定，使文本識(shí)別的結(jié)果更加準(zhǔn)確。
[0064]另外，由于標(biāo)點(diǎn)符合和數(shù)字在隨機(jī)輸入的非正常文本中一般出現(xiàn)的概率較少，因此在步驟S102中還可以進(jìn)一步根據(jù)所述待識(shí)別文本中的標(biāo)點(diǎn)符號(hào)或者數(shù)字的數(shù)量來進(jìn)行識(shí)別。
[0065]即，在步驟S102中進(jìn)一步獲取所述待識(shí)別文本中數(shù)字或符號(hào)的分布比例；
[0066]并且，根據(jù)所述分布比例和所述距離的平均值、以及所述數(shù)字或符號(hào)的分布比例，按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)，將所述待識(shí)別文本劃分為正常文本或者非正常文本；其中，各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值、預(yù)設(shè)的平均距離閾值、以及預(yù)設(shè)的數(shù)字或符號(hào)分布比例。
[0067]將符號(hào)或者數(shù)字的數(shù)量也作為文本識(shí)別的標(biāo)準(zhǔn)，可以進(jìn)一步提高對(duì)非正常文本識(shí)別能力。
[0068]特別地，對(duì)同時(shí)以所述按鍵的分布比例和所述按鍵距離的平均值、以及所述待識(shí)別文本中數(shù)字或符號(hào)的分布比例為預(yù)設(shè)劃分標(biāo)準(zhǔn)設(shè)定多種閾值的情形，作以下舉例:
[0069]對(duì)上述第一個(gè)鍵盤分區(qū)的預(yù)設(shè)劃分標(biāo)準(zhǔn)的實(shí)現(xiàn)程序代碼舉例如下:
[0070]
if (letterCounter>= 15 && ( ( UpLetterRatio>0.4 && LetlerRepeatTirnes[0]==0&& meaiiKeyDisKl.1 ) || (IJpLetterRatio>0.5 && ( (LetteiRepeatTimes[0] ==0 &&meanKeyDist<2.2) |l mearsKeyDisKl.1 ) ) Il (Upi etterRatio>0.75 &&meanKeyDisl<2.2) || UpLetterRatio>0.9))return true;
[0071]其中,所述IetterCounter為所述待識(shí)別文本的字?jǐn)?shù)；UpLetterRatio是該第一鍵盤分區(qū)上的按鍵分布比例；meanKeyDist是所述按鍵距離的平均值,LetterRepeatTimes [O]是指標(biāo)點(diǎn)符號(hào)和數(shù)字出現(xiàn)的次數(shù)。
[0072]程序代碼中的return true，指將該待識(shí)別文本劃分為非正常文本的操作。
[0073]對(duì)所述待識(shí)別文本的預(yù)設(shè)劃分標(biāo)準(zhǔn)中的各個(gè)預(yù)設(shè)閾值的設(shè)定，可以采取統(tǒng)計(jì)大量樣本數(shù)據(jù)的方式得到；也可以通過機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)大量的文本識(shí)別的訓(xùn)練樣本，生成分類器來實(shí)現(xiàn)。機(jī)器學(xué)習(xí)的好處是不用人工干預(yù)設(shè)定閾值，通過只需要通過機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)大量的成功識(shí)別的訓(xùn)練樣本，但是制作大量訓(xùn)練樣本的工作量比較大，而且因?yàn)橥ㄟ^機(jī)器學(xué)習(xí)技術(shù)生成的預(yù)設(shè)劃分標(biāo)準(zhǔn)較為復(fù)雜，使線上識(shí)別時(shí)占用的計(jì)算負(fù)擔(dān)較大。而采用人工統(tǒng)計(jì)大量樣本數(shù)據(jù)，設(shè)定所述預(yù)設(shè)劃分標(biāo)準(zhǔn)時(shí)，則可在初期根據(jù)線上識(shí)別結(jié)果的反饋修改所述預(yù)設(shè)劃分標(biāo)準(zhǔn)中的各種閾值，以快速地減少識(shí)別錯(cuò)誤的情況發(fā)生。
[0074]請(qǐng)參閱圖6，圖6是本發(fā)明非正常文本識(shí)別系統(tǒng)第一實(shí)施方式的結(jié)構(gòu)示意圖。
[0075]所述非正常文本識(shí)別系統(tǒng)，包括:按鍵獲取模塊11和識(shí)別模塊12。所述按鍵獲取模塊11用于根據(jù)待識(shí)別文本中的各個(gè)文字，獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵；所述識(shí)別模塊12用于根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，將所述待識(shí)別文本劃分為正常文本或者非正常文本。
[0076]因?yàn)殡S機(jī)輸入的、無意義的非正常文本通常是點(diǎn)擊在鍵盤上較集中的區(qū)域的若干個(gè)按鍵輸入的，亦即，隨機(jī)輸入時(shí)通常不會(huì)在整個(gè)鍵盤范圍內(nèi)對(duì)各個(gè)按鍵平均地點(diǎn)擊。所以通過各個(gè)所述文字對(duì)應(yīng)的所述按鍵在鍵盤上的分布情況，可以有效地識(shí)別出大部分隨機(jī)輸入的無意義、非正常文本。
[0077]其中，所述待識(shí)別文本即是需要進(jìn)行識(shí)別的文本。所述待識(shí)別文本中的文字包括中文字，英文字母，數(shù)字、符號(hào)等，也可以是其中的一種或者多種的組合。特別地，本發(fā)明對(duì)于由中文漢字組成的文本具有較好的識(shí)別效果。
[0078]而所述待識(shí)別文本優(yōu)選為長度大于某預(yù)設(shè)值的文本，即其包含的文字個(gè)數(shù)最好超過一定的數(shù)量，因?yàn)槲谋驹蕉?，包含的文字越少，正常和非正常文本間的界限越模糊，識(shí)別的難度越大。因此本發(fā)明在實(shí)際執(zhí)行非正常文本識(shí)別時(shí)，可以預(yù)先設(shè)定對(duì)文本要求的最小長度，對(duì)文本長度大于所述最小長度的，才執(zhí)行非正常文本識(shí)別，否則不執(zhí)行非正常文本識(shí)別。
[0079]所述文字輸入的首字母所對(duì)應(yīng)的按鍵，即是在輸入每一個(gè)所述文字時(shí)第一個(gè)點(diǎn)擊的按鍵，例如英文字母輸入計(jì)算機(jī)時(shí)，首字母對(duì)應(yīng)的按鍵即為所述英文字母所在的按鍵。
[0080]所述按鍵獲取模塊11通過建立查找表的方式獲取所述文字輸入的首字母所對(duì)應(yīng)的按鍵。優(yōu)選地，所述按鍵獲取模塊11根據(jù)所述待識(shí)別文本中的各個(gè)文字，查找預(yù)先建立的對(duì)應(yīng)關(guān)系表，獲取對(duì)應(yīng)的所述按鍵；其中，所述對(duì)應(yīng)關(guān)系表中記錄所述文字和所述文字輸入的首字母所對(duì)應(yīng)的按鍵。
[0081]亦即，在預(yù)設(shè)的所述對(duì)應(yīng)關(guān)系表中，建立輸入的文字和對(duì)應(yīng)的所述按鍵的對(duì)應(yīng)關(guān)系。只需要根據(jù)文字查找所述對(duì)應(yīng)關(guān)系表，即可獲得所述待識(shí)別文本中各個(gè)文字對(duì)應(yīng)的所述按鍵，這種方式比較直接方便。
[0082]所述按鍵獲取模塊11也可以根據(jù)所述文字輸入時(shí)所用的輸入法的規(guī)則獲取所述文字輸入的首字母所對(duì)應(yīng)的按鍵。例如，對(duì)于所述待識(shí)別文本中的英文字母，直接獲取各個(gè)所述英文字母對(duì)應(yīng)的按鍵，識(shí)別為所述英文字母輸入的首字母所對(duì)應(yīng)的按鍵。
[0083]所述按鍵獲取模塊11在所述待識(shí)別文本中的各個(gè)文字是由拼音輸入法輸入的漢字時(shí)，獲取所述待識(shí)別文本中各個(gè)中文漢字的拼音首字母對(duì)應(yīng)的按鍵，識(shí)別為所述中文漢字輸入的首字母所對(duì)應(yīng)的按鍵。
[0084]由于拼音輸入法輸入的漢字，第一個(gè)點(diǎn)擊的按鍵必然是該漢字的拼音首字母的按鍵，因此可以通過上述方式獲取中文漢字輸入計(jì)算機(jī)時(shí)對(duì)應(yīng)的首個(gè)按鍵。
[0085]所述按鍵獲取模塊11根據(jù)不同的輸入法規(guī)則對(duì)各種文字輸入的首字母所對(duì)應(yīng)的按鍵進(jìn)行推導(dǎo)，可以無需建立數(shù)據(jù)量較大的對(duì)應(yīng)關(guān)系表。本領(lǐng)域的技術(shù)人員根據(jù)本發(fā)明記載的上述方法，可以自行根據(jù)對(duì)應(yīng)的輸入法規(guī)則，獲取其他文字輸入的首字母所對(duì)應(yīng)的按鍵。
[0086]優(yōu)選地，所述按鍵獲取模塊11在獲取對(duì)應(yīng)的首個(gè)按鍵之后，將a-z的按鍵以26個(gè)不同的標(biāo)識(shí)標(biāo)記，例如數(shù)字1-26 ;而將標(biāo)點(diǎn)符號(hào)和數(shù)字以同一個(gè)標(biāo)識(shí)標(biāo)記，例如數(shù)字O。則在獲取對(duì)應(yīng)的按鍵之后，可用相應(yīng)的標(biāo)識(shí)記錄，以便計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)處理。
[0087]請(qǐng)參閱圖7，圖7是本發(fā)明非正常文本識(shí)別系統(tǒng)的第一實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖。
[0088]在本實(shí)施方式中，所述識(shí)別模塊12包括:
[0089]分布比例運(yùn)算模塊201，用于根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū)，判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例；
[0090]第一比較模塊202，用于將所述分布比例與預(yù)設(shè)的分布比例閾值比較；
[0091]第一劃分模塊203，用于在所述分布比例大于所述分布比例閾值時(shí)，將所述檢測(cè)文本劃分為非正常文本；否則，將所述檢測(cè)文本劃分為正常文本。
[0092]其中，本發(fā)明中出現(xiàn)的“多個(gè)”指兩個(gè)或兩個(gè)以上。所述多個(gè)鍵盤分區(qū)是預(yù)先設(shè)定的，每個(gè)所述鍵盤分區(qū)包括若干個(gè)依次相鄰的按鍵，具體可根據(jù)鍵盤上各個(gè)按鍵的分布來設(shè)定。
[0093]其中一種鍵盤分區(qū)的設(shè)定方式為設(shè)定7個(gè)鍵盤分區(qū):第一個(gè)鍵盤分區(qū)包括按鍵Q、W、E、R、T、Y、U、1、O、P ;第二個(gè)鍵盤分區(qū)包括按鍵A、S、D、F、G、H、J、K、L ;第三個(gè)鍵盤分區(qū)包括按鍵Z、X、C、V、B、N、M ;第四個(gè)鍵盤分區(qū)包括按鍵W、E、R、T、S、D、F、G ;第五個(gè)鍵盤分區(qū)包括按鍵Y、U、1、O、H、J、K、L ;第六個(gè)鍵盤分區(qū)包括按鍵S、D、F、G、X、C、V、B ;第七個(gè)鍵盤分區(qū)包括按鍵H、J、K、L、N、M0
[0094]各個(gè)所述鍵盤分區(qū)的分布比例閾值可以相同，也可以分別設(shè)定為不同的閾值。優(yōu)選地，可對(duì)每一個(gè)所述鍵盤分區(qū)設(shè)定多級(jí)的分布比例閾值。例如，設(shè)定第一級(jí)分布比例閾值是90%，第二級(jí)為70%，第三級(jí)為40%。則可設(shè)定在某一鍵盤分區(qū)占的分布比例高于90%時(shí)、或者有兩個(gè)鍵盤分區(qū)所占的分布比例高于70%時(shí)、或者有三個(gè)鍵盤分區(qū)所占的分布比例高于40%時(shí)、將所述檢測(cè)文本劃分為非正常文本。
[0095]請(qǐng)參閱圖8，圖8是本發(fā)明非正常文本識(shí)別系統(tǒng)的第二實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖。
[0096]在本實(shí)施方式中，所述識(shí)別模塊12包括:
[0097]鍵盤距離計(jì)算模塊211，用于計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離，并計(jì)算所述距離的平均值；
[0098]第二比較模塊212，用于將所述距離的平均值與預(yù)設(shè)的平均距離閾值比較；
[0099]第二劃分模塊213，用于在所述距離的平均值小于所述平均距離閾值時(shí)，將所述檢測(cè)文本劃分為非正常文本；否則，將所述檢測(cè)文本劃分為正常文本。
[0100]本實(shí)施方式是根據(jù)兩個(gè)相鄰的文字對(duì)應(yīng)的按鍵在鍵盤上的距離來判斷所述檢測(cè)文本是否非正常文本。因?yàn)殡S機(jī)輸入的非正常文本也可能是連續(xù)掃過鍵盤上的各個(gè)按鍵輸入的，例如依次掃過按鍵QWERTYUIOPLKJHGFDSA，隨機(jī)輸入的非正常文本為:“去玩兒體育i歐珀萊卡減緩官費(fèi)的撒”，對(duì)此文本按照本實(shí)施方式進(jìn)行識(shí)別，則分別判斷按鍵QWERTYUIOPLKJHGFDSA中每兩個(gè)相鄰的按鍵的鍵盤距離，得到距離平均值為1.0，小于預(yù)設(shè)的平均距離閾值(例如是2.0),因此，將所述檢測(cè)文本劃分為非正常文本。
[0101]優(yōu)選地，所述鍵盤距離計(jì)算模塊21計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離時(shí)，可以對(duì)所述鍵盤案件的橫向距離和縱向距離以不同的權(quán)重加權(quán)處理。亦即，所述鍵盤距離計(jì)算模塊21根據(jù)所述待識(shí)別文本中每兩個(gè)相鄰的文字分別對(duì)應(yīng)的所述按鍵在鍵盤上的橫向距離和縱向距離，按照以下公式計(jì)算加權(quán)鍵盤距離:
[0102]Dist = χ+α.y
[0103]其中，Dist為計(jì)算的加權(quán)鍵盤距離，X為橫向距離，y為縱向距離，α為橫向距離和縱向距離的比例權(quán)重，α>1。
[0104]因?yàn)橥ǔＵJ(rèn)為用戶在隨機(jī)敲擊鍵盤的過程中縱向移動(dòng)的代價(jià)要高過橫向移動(dòng)，因此通常設(shè)置所述橫向距離和縱向距離的比例權(quán)重α>1。例如，將α的取值定為2，則字母S和字母T在鍵盤上的橫向距離為2.5，縱向距離為I，其加權(quán)的鍵盤距離為2.5+2X1 = 4.5。假設(shè)文本中有N個(gè)文字(只包括漢字和英文字母，不包括數(shù)字、標(biāo)點(diǎn)和非規(guī)范字符)，那么計(jì)算每兩個(gè)相鄰文字之間的N-1個(gè)鍵盤距離，并計(jì)算距離的平均值，再根據(jù)所述距離的平均值與所述平均距離閾值，劃分所述待識(shí)別文本。
[0105]請(qǐng)參閱圖9，圖9是本發(fā)明非正常文本識(shí)別系統(tǒng)的第三實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖。
[0106]在本實(shí)施方式中，所述識(shí)別模塊12包括:
[0107]分布比例運(yùn)算模塊201，用于根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū)，判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例；
[0108]鍵盤距離計(jì)算模塊211，用于計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離，并計(jì)算所述距離的平均值；
[0109]第三劃分模塊221，用于根據(jù)所述分布比例和所述距離的平均值，按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)，將所述待識(shí)別文本劃分為正常文本或者非正常文本；其中，各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值和預(yù)設(shè)的平均距離閾值。
[0110]上述方式將所述按鍵的分布比例和所述按鍵的距離平均值同時(shí)作為判斷所述待識(shí)別文本是否非正常文本的依據(jù)，使文本識(shí)別的結(jié)果更加準(zhǔn)確。
[0111]優(yōu)選地，為進(jìn)一步提高文本識(shí)別結(jié)果的準(zhǔn)確性，每一所述鍵盤分區(qū)對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的多個(gè)所述分布比例閾值，以及分別對(duì)應(yīng)每一所述分布比例閾值的多個(gè)平均距離閾值。以此實(shí)現(xiàn)多重的閾值設(shè)定，使文本識(shí)別的結(jié)果更加準(zhǔn)確。
[0112]另外，由于標(biāo)點(diǎn)符號(hào)和數(shù)字在隨機(jī)輸入的非正常文本中一般出現(xiàn)的概率較少，因此所述識(shí)別模塊12還可以進(jìn)一步根據(jù)所述待識(shí)別文本中的標(biāo)點(diǎn)符號(hào)或者數(shù)字的數(shù)量來進(jìn)行識(shí)別。[0113]S卩，所述識(shí)別模塊12進(jìn)一步包括:
[0114]符號(hào)分布獲取模塊(圖未示)，用于獲取所述待識(shí)別文本中數(shù)字或符號(hào)的分布比例；
[0115]第四劃分模塊(圖未示)，用于根據(jù)所述分布比例和所述距離的平均值、以及所述數(shù)字或符號(hào)的分布比例，按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)，將所述待識(shí)別文本劃分為正常文本或者非正常文本；其中，各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值、預(yù)設(shè)的平均距離閾值、以及預(yù)設(shè)的數(shù)字或符號(hào)分布比例。
[0116]將符號(hào)或者數(shù)字的數(shù)量也作為文本識(shí)別的標(biāo)準(zhǔn)，可以進(jìn)一步提高對(duì)非正常文本識(shí)別能力。
[0117]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施方式中的全部或部分流程以及對(duì)應(yīng)的系統(tǒng)，是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成，所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，可包括如上述各實(shí)施方式的流程。其中，所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(RandomAccess Memory, RAM)等。
[0118]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式，其描述較為具體和詳細(xì)，但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是，對(duì)于本領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)，這些都屬于本發(fā)明的保護(hù)范圍。因此，本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種非正常文本識(shí)別方法，其特征在于，包括步驟: 根據(jù)待識(shí)別文本中的各個(gè)文字，獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵；根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，將所述待識(shí)別文本劃分為正常文本或者非正常文本。
2.如權(quán)利要求1所述的非正常文本識(shí)別方法，其特征在于，所述根據(jù)待識(shí)別文本中的各個(gè)文字，獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵的步驟包括: 根據(jù)所述待識(shí)別文本中的各個(gè)文字，查找預(yù)先建立的對(duì)應(yīng)關(guān)系表，獲取對(duì)應(yīng)的所述按鍵；其中，所述對(duì)應(yīng)關(guān)系表中記錄所述文字和所述文字輸入的首字母所對(duì)應(yīng)的按鍵。
3.如權(quán)利要求1所述的非正常文本識(shí)別方法，其特征在于，所述根據(jù)待識(shí)別文本中的各個(gè)文字，獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵的步驟包括: 獲取所述待識(shí)別文本中各個(gè)中文漢字的拼音首字母對(duì)應(yīng)的按鍵，識(shí)別為所述中文漢字輸入的首字母所對(duì)應(yīng)的按鍵；或者，獲取所述待識(shí)別文本中各個(gè)英文字母對(duì)應(yīng)的按鍵，識(shí)別為所述英文字母輸入的首字母所對(duì)應(yīng)的按鍵。
4.如權(quán)利要求1所述的非正常文本識(shí)別方法，其特征在于，根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，將所述待識(shí)別文本劃分為正常文本或者非正常文本的步驟包括: 根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū)，判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例；將所述分布比例與預(yù)設(shè)的分布比例閾值比較；如果大于所述分布比例閾值，則將所述檢測(cè)文本劃分為非正常文本；否則，將所述檢測(cè)文本劃分為正常文本。
5.如權(quán)利要求1所述的非正常文本識(shí)別方法，其特征在于，根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，將所述待識(shí)別文本劃分為正常文本或者非正常文本的步驟包括: 計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離，并計(jì)算所述距離的平均值；將所述距離的平均值與預(yù)設(shè)的平均距離閾值比較；如果小于所述平均距離閾值，則將所述檢測(cè)文本劃分為非正常文本；否則，將所述檢測(cè)文本劃分為正常文本。
6.如權(quán)利要求1所述的非正常文本識(shí)別方法，其特征在于，根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，將所述待識(shí)別文本劃分為正常文本或者非正常文本的步驟包括: 根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū)，判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例；計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離，并計(jì)算所述距離的平均值；根據(jù)所述分布比例和所述距離的平均值，按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)，將所述待識(shí)別文本劃分為正常文本或者非正常文本；其中，各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值和預(yù)設(shè)的平均距離閾值。
7.如權(quán)利要求6所述的非正常文本識(shí)別方法，其特征在于，每一所述鍵盤分區(qū)對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的多個(gè)所述分布比例閾值，以及分別對(duì)應(yīng)每一所述分布比例閾值的多個(gè)平均距離閾值。
8.如權(quán)利要求6所述的非正常文本識(shí)別方法，其特征在于，進(jìn)一步獲取所述待識(shí)別文本中數(shù)字或符號(hào)的分布比例；并且，根據(jù)所述分布比例和所述距離的平均值、以及所述數(shù)字或符號(hào)的分布比例，按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)，將所述待識(shí)別文本劃分為正常文本或者非正常文本；其中，各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值、預(yù)設(shè)的平均距離閾值、以及預(yù)設(shè)的數(shù)字或符號(hào)分布比例。
9.如權(quán)利要求5至8中任意一項(xiàng)所述的非正常文本識(shí)別方法，其特征在于，計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離的步驟包括: 根據(jù)所述待識(shí)別文本中每兩個(gè)相鄰的文字分別對(duì)應(yīng)的所述按鍵在鍵盤上的橫向距離和縱向距離，按照以下公式計(jì)算加權(quán)鍵盤距離:
Dist=X+ α.y 其中，Dist為計(jì)算的加權(quán)鍵盤距離，X為橫向距離，y為縱向距離，α為橫向距離和縱向距離的比例權(quán)重，α>1。
10.一種非正常文本識(shí)別系統(tǒng)，其特征在于，包括: 按鍵獲取模塊，用于根據(jù)待識(shí)別文本中的各個(gè)文字，獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵；識(shí)別模塊，用于根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況，將所述待識(shí)別文本劃分為正常文本或者非正常文本。
11.如權(quán)利要求10所述的非正常文本識(shí)別系統(tǒng)，其特征在于，所述按鍵獲取模塊根據(jù)所述待識(shí)別文本中的各個(gè)文字，查找預(yù)先建立的對(duì)應(yīng)關(guān)系表，獲取對(duì)應(yīng)的所述按鍵；其中，所述對(duì)應(yīng)關(guān)系表中記錄所述文字和所述文字輸入的首字母所對(duì)應(yīng)的按鍵。
12.如權(quán)利要求10所述的非正常文本識(shí)別系統(tǒng)，其特征在于，所述按鍵獲取模塊獲取所述待識(shí)別文本中各個(gè)中文漢字的拼音首字母對(duì)應(yīng)的按鍵，識(shí)別為所述中文漢字輸入的首字母所對(duì)應(yīng)的按鍵；或者，獲取所述待識(shí)別文本中各個(gè)英文字母對(duì)應(yīng)的按鍵，識(shí)別為所述英文字母輸入的首字母所對(duì)應(yīng)的按鍵。
13.如權(quán)利要求10所述的非正常文本識(shí)別系統(tǒng)，其特征在于，所述識(shí)別模塊包括: 分布比例運(yùn)算模塊，用于根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū)，判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例；第一比較模塊，用于將所述分布比例與預(yù)設(shè)的分布比例閾值比較；第一劃分模塊，用于在所述分布比例大于所述分布比例閾值時(shí)，將所述檢測(cè)文本劃分為非正常文本；否則，將所述檢測(cè)文本劃分為正常文本。
14.如權(quán)利要求10所述的非正常文本識(shí)別系統(tǒng)，其特征在于，所述識(shí)別模塊包括: 鍵盤距離計(jì)算模塊，用于計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離，并計(jì)算所述距離的平均值；第二比較模塊，用于將所述距離的平均值與預(yù)設(shè)的平均距離閾值比較；第二劃分模塊，用于在所述距離的平均值小于所述平均距離閾值時(shí)，將所述檢測(cè)文本劃分為非正常文本；否則，將所述檢測(cè)文本劃分為正常文本。
15.如權(quán)利要求10所述的非正常文本識(shí)別系統(tǒng)，其特征在于，所述識(shí)別模塊包括: 分布比例運(yùn)算模塊，用于根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū)，判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例；鍵盤距離計(jì)算模塊，用于計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離，并計(jì)算所述距離的平均值；第三劃分模塊，用于根據(jù)所述分布比例和所述距離的平均值，按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)，將所述待識(shí)別文本劃分為正常文本或者非正常文本；其中，各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值和預(yù)設(shè)的平均距離閾值。
16.如權(quán)利要求15所述的非正常文本識(shí)別系統(tǒng)，其特征在于，每一所述鍵盤分區(qū)對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的多個(gè)所述分布比例閾值，以及分別對(duì)應(yīng)每一所述分布比例閾值的多個(gè)平均距離閾值。
17.如權(quán)利要求15所述的非正常文本識(shí)別系統(tǒng)，其特征在于，所述識(shí)別模塊進(jìn)一步包括: 符號(hào)分布獲取模塊，用于獲取所述待識(shí)別文本中數(shù)字或符號(hào)的分布比例；第四劃分模塊，用于根據(jù)所述分布比例和所述距離的平均值、以及所述數(shù)字或符號(hào)的分布比例，按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)，將所述待識(shí)別文本劃分為正常文本或者非正常文本；其中，各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值、預(yù)設(shè)的平均距離閾值、以及預(yù)設(shè)的數(shù)字或符號(hào)分布比例。
18.如權(quán)利要求14至17中任意一項(xiàng)所述的非正常文本識(shí)別系統(tǒng)，其特征在于，所述鍵盤距離計(jì)算模塊計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離時(shí)，根據(jù)所述待識(shí)別文本中每兩個(gè)相鄰的文字分別對(duì)應(yīng)的所述按鍵在鍵盤上的橫向距離和縱向距離，按照以下公式計(jì)算加權(quán)鍵盤距離:
Dist=X+ α.y 其中，Dist為計(jì)算的加權(quán)鍵盤距離，X為橫向距離，y為縱向距離，α為橫向距離和縱向距離的比例權(quán)重，α>1。
【文檔編號(hào)】G06F17/21GK103576882SQ201210264218
【公開日】2014年2月12日申請(qǐng)日期:2012年7月27日優(yōu)先權(quán)日:2012年7月27日
【發(fā)明者】何小晨, 張國強(qiáng), 郝志新, 許春林, 王長偉申請(qǐng)人:深圳市世紀(jì)光速信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何小晨;張國強(qiáng);郝志新;許春林;王長偉
技術(shù)所有人：深圳市世紀(jì)光速信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：手勢(shì)識(shí)別方法及裝置制造方法
上一篇：一種數(shù)據(jù)處理的方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

ocr文本識(shí)別相關(guān)技術(shù)

圖片文本識(shí)別相關(guān)技術(shù)

pdf文本識(shí)別相關(guān)技術(shù)

使用ocr識(shí)別文本相關(guān)技術(shù)

vnr識(shí)別不到游戲文本相關(guān)技術(shù)

文本識(shí)別工具相關(guān)技術(shù)

文本識(shí)別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

非正常文本識(shí)別方法及其系統(tǒng)的制作方法