亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

非正常文本識(shí)別方法及其系統(tǒng)的制作方法

文檔序號(hào):6487393閱讀:143來源:國知局
非正常文本識(shí)別方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種非正常文本識(shí)別方法及其系統(tǒng),所述方法包括以下步驟:根據(jù)待識(shí)別文本中的各個(gè)文字,獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵;根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,將所述待識(shí)別文本劃分為正常文本或者非正常文本。本發(fā)明的非正常文本識(shí)別方法及其系統(tǒng),通過各個(gè)文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,可以有效地識(shí)別出大部分隨機(jī)輸入的無意義、非正常文本。并且,因?yàn)樽R(shí)別方法并不依賴于詞義,文本質(zhì)量分的計(jì)算,使識(shí)別結(jié)果更加客觀準(zhǔn)確。
【專利說明】非正常文本識(shí)別方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本識(shí)別【技術(shù)領(lǐng)域】,特別是涉及一種非正常文本識(shí)別方法,以及一種非正常文本識(shí)別系統(tǒng)。
【背景技術(shù)】
[0002]垃圾文本過濾一直是搜索引擎中一項(xiàng)重要的技術(shù)環(huán)節(jié),所述垃圾文本通常指無意義的非正常文本,傳統(tǒng)的垃圾文本過濾通過關(guān)鍵詞的查找和文本質(zhì)量分的計(jì)算,可以過濾掉一些廣告內(nèi)容、色情內(nèi)容、政治敏感內(nèi)容、內(nèi)容重復(fù)的差格式文本、非規(guī)范字符過多的差格式文本等等。
[0003]然而,在微博和空間說說等短文本搜索中,我們發(fā)現(xiàn)有一定量的由隨機(jī)輸入產(chǎn)生的非正常文本(也稱垃圾文本),例如:“撒嬌的拉薩科技大實(shí)際道路卡薩軍等垃圾哦大搜打碎了均達(dá)拉斯加達(dá)拉斯加薩頓水等”。這類非正常文本的特性是:內(nèi)容有一定隨機(jī)性,重復(fù)詞條較少;概念詞較多,按照以往的文本過濾技術(shù)計(jì)算的文本質(zhì)量分通常不低;由于輸入法的聯(lián)想輸入特性,相鄰詞之間往往有一定相關(guān)度,難以通過語義分析過濾。基于以上特性,這類非正常文本很難通過傳統(tǒng)的文本過濾方法加以區(qū)分。

【發(fā)明內(nèi)容】

[0004]針對(duì)上述【背景技術(shù)】中存在的問題,本發(fā)明的目的在于提供一種能夠有效地識(shí)別隨機(jī)輸入產(chǎn)生的非正常文本的非正常文本識(shí)別方法,以及一種非正常文本識(shí)別系統(tǒng)。
[0005]一種非正常文本識(shí)別方法,包括以下步驟:
[0006]根據(jù)待識(shí)別文本中的各個(gè)文字,獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵;
[0007]根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,將所述待識(shí)別文本劃分為正常文本或者非正常文本。
[0008]一種非正常文本識(shí)別系統(tǒng),包括:
[0009]按鍵獲取模塊,用于根據(jù)待識(shí)別文本中的各個(gè)文字,獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵;
[0010]識(shí)別模塊,用于根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,將所述待識(shí)別文本劃分為正常文本或者非正常文本。
[0011]本發(fā)明的非正常文本識(shí)別方法及其系統(tǒng),通過獲取在相應(yīng)的輸入法下,待識(shí)別文本中的各個(gè)文字輸入的首字母所對(duì)應(yīng)的按鍵,判斷所述按鍵在鍵盤上的分布情況。因?yàn)殡S機(jī)輸入的無意義的非正常文本通常是點(diǎn)擊在鍵盤上較集中的區(qū)域的若干按鍵輸入的,所以通過所述文字輸入時(shí)的首字母對(duì)應(yīng)的按鍵在鍵盤上的分布情況,可以有效地識(shí)別出大部分隨機(jī)輸入的無意義、非正常文本。并且,因?yàn)樽R(shí)別方法并不依賴于詞義,文本質(zhì)量分的計(jì)算,使識(shí)別結(jié)果更加客觀準(zhǔn)確。
【專利附圖】

【附圖說明】[0012]圖1是本發(fā)明非正常文本識(shí)別方法第一實(shí)施方式的流程示意圖;
[0013]圖2是本發(fā)明非正常文本識(shí)別方法第一實(shí)施方式中步驟S102的局部流程示意圖;
[0014]圖3為本發(fā)明的非正常文本識(shí)別方法中一種鍵盤分區(qū)的設(shè)定方式的示意圖;
[0015]圖4是本發(fā)明非正常文本識(shí)別方法第二實(shí)施方式中步驟S102的局部流程示意圖;
[0016]圖5是本發(fā)明非正常文本識(shí)別方法第三實(shí)施方式中步驟S102的局部流程示意圖;
[0017]圖6是本發(fā)明非正常文本識(shí)別系統(tǒng)第一實(shí)施方式的結(jié)構(gòu)示意圖;
[0018]圖7是本發(fā)明非正常文本識(shí)別系統(tǒng)的第一實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖;
[0019]圖8是本發(fā)明非正常文本識(shí)別系統(tǒng)的第二實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖;
[0020]圖9是本發(fā)明非正常文本識(shí)別系統(tǒng)的第三實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0021]請(qǐng)參閱圖1,圖1是本發(fā)明非正常文本識(shí)別方法第一實(shí)施方式的流程示意圖。
[0022]所述非正常文本識(shí)別方法,包括以下步驟SlOl和S102:
[0023]S101,根據(jù)待識(shí)別文本中的各個(gè)文字,獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵;
[0024]其中,所述待識(shí)別文本即是需要進(jìn)行識(shí)別的文本。所述待識(shí)別文本中的文字包括中文字,英文字母,數(shù)字、符號(hào)等,也可以是其中的一種或者多種的組合。特別地,本發(fā)明對(duì)于由中文漢字組成的文本具有較好的識(shí)別效果。
[0025]而所述待識(shí)別文本優(yōu)選為長度大于某預(yù)設(shè)值的文本,即其包含的文字個(gè)數(shù)最好超過一定的數(shù)量,因?yàn)槲谋驹蕉?,包含的文字越少,正常和非正常文本間的界限越模糊,識(shí)別的難度越大。因此在實(shí)際執(zhí)行本發(fā)明的非正常文本識(shí)別方法時(shí),可以預(yù)先設(shè)定對(duì)文本要求的最小長度,對(duì)文本長度大于所述最小長度的,才執(zhí)行本發(fā)明的非正常文本識(shí)別方法,否則不執(zhí)行所述非正常文本識(shí)別方法。
[0026]所述文字輸入的首字母所對(duì)應(yīng)的按鍵,即是在輸入每一個(gè)所述文字時(shí)第一個(gè)點(diǎn)擊的按鍵,例如英文字母輸入計(jì)算機(jī)時(shí),首字母對(duì)應(yīng)的按鍵即為所述英文字母所在的按鍵。
[0027]所述文字輸入的首字母所對(duì)應(yīng)的按鍵,可以通過建立查找表的方式獲取。優(yōu)選地,在本步驟SlOl中,根據(jù)所述待識(shí)別文本中的各個(gè)文字,查找預(yù)先建立的對(duì)應(yīng)關(guān)系表,獲取對(duì)應(yīng)的所述按鍵;其中,所述對(duì)應(yīng)關(guān)系表中記錄所述文字和所述文字輸入的首字母所對(duì)應(yīng)的按鍵。
[0028]亦即,在預(yù)設(shè)的所述對(duì)應(yīng)關(guān)系表中,建立輸入的文字和對(duì)應(yīng)的所述按鍵的對(duì)應(yīng)關(guān)系。只需要根據(jù)文字查找所述對(duì)應(yīng)關(guān)系表,即可獲得所述待識(shí)別文本中各個(gè)文字對(duì)應(yīng)的所述按鍵,這種方式比較直接方便。
[0029]或者,所述按鍵也可以根據(jù)所述文字輸入時(shí)所用的輸入法的規(guī)則獲取。例如,對(duì)于所述待識(shí)別文本中的英文字母,直接獲取各個(gè)所述英文字母對(duì)應(yīng)的按鍵,識(shí)別為所述英文字母輸入的首字母所對(duì)應(yīng)的按鍵。
[0030]當(dāng)所述待識(shí)別文本中的各個(gè)文字是由拼音輸入法輸入的漢字時(shí),則可獲取所述待識(shí)別文本中各個(gè)中文漢字的拼音首字母對(duì)應(yīng)的按鍵,識(shí)別為所述中文漢字輸入的首字母所對(duì)應(yīng)的按鍵。
[0031]由于拼音輸入法輸入的漢字,第一個(gè)點(diǎn)擊的按鍵必然是該漢字的拼音首字母的按鍵,因此可以通過上述方式獲取中文漢字輸入計(jì)算機(jī)時(shí)對(duì)應(yīng)的首個(gè)按鍵。
[0032]根據(jù)不同的輸入法規(guī)則對(duì)各種文字輸入的首字母所對(duì)應(yīng)的按鍵進(jìn)行推導(dǎo),可以無需建立數(shù)據(jù)量較大的對(duì)應(yīng)關(guān)系表。本領(lǐng)域的技術(shù)人員根據(jù)本發(fā)明記載的上述方法,可以自行根據(jù)對(duì)應(yīng)的輸入法規(guī)則,獲取其他文字輸入的首字母所對(duì)應(yīng)的按鍵。
[0033]優(yōu)選地,在本步驟SlOl中,將計(jì)算機(jī)鍵盤上a-z的按鍵以26個(gè)不同的標(biāo)識(shí)標(biāo)記,例如數(shù)字1-26 ;而將標(biāo)點(diǎn)符號(hào)和數(shù)字以同一個(gè)標(biāo)識(shí)標(biāo)記,例如數(shù)字O。則在獲取對(duì)應(yīng)的按鍵之后,可用相應(yīng)的標(biāo)識(shí)記錄,以便計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)處理。
[0034]S102,根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,將所述待識(shí)別文本劃分為正常文本或者非正常文本。
[0035]因?yàn)殡S機(jī)輸入的、無意義的非正常文本通常是點(diǎn)擊在鍵盤上較集中的區(qū)域的若干個(gè)按鍵輸入的,亦即,隨機(jī)輸入時(shí)通常不會(huì)在整個(gè)鍵盤范圍內(nèi)對(duì)各個(gè)按鍵平均地點(diǎn)擊。所以通過各個(gè)所述文字對(duì)應(yīng)的所述按鍵在鍵盤上的分布情況,可以有效地識(shí)別出大部分隨機(jī)輸入的無意義、非正常文本。例如,如果各個(gè)文字對(duì)應(yīng)的所述按鍵分布較集中,則將所述待識(shí)別文本判斷為非正常文本;而如果分布較分散,則判斷為正常文本。而判斷其分布集中或分散的標(biāo)準(zhǔn)可以根據(jù)統(tǒng)計(jì)數(shù)據(jù),或者訓(xùn)練樣本和機(jī)器學(xué)習(xí)的方式得到。
[0036]請(qǐng)參閱圖2,圖2是本發(fā)明非正常文本識(shí)別方法第一實(shí)施方式中步驟S102的局部流程示意圖。
[0037]本實(shí)施方式中,可以通過以下方式將所述待識(shí)別文本劃分為正常文本或者非正常文本,即所述步驟S102包括:
[0038]S201,根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū),判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例;
[0039]S202,將所述分布比例與預(yù)設(shè)的分布比例閾值比較;
[0040]如果大于所述分布比例閾值,則執(zhí)行步驟S203,將所述檢測(cè)文本劃分為非正常文本;否則,執(zhí)行步驟S204,將所述檢測(cè)文本劃分為正常文本。
[0041]其中,本發(fā)明中出現(xiàn)的“多個(gè)”指兩個(gè)或兩個(gè)以上。所述多個(gè)鍵盤分區(qū)是預(yù)先設(shè)定的,每個(gè)所述鍵盤分區(qū)包括若干個(gè)依次相鄰的按鍵,具體可根據(jù)鍵盤上各個(gè)按鍵的分布來設(shè)定。
[0042]請(qǐng)參閱圖3,圖3為本發(fā)明的非正常文本識(shí)別方法中一種鍵盤分區(qū)的設(shè)定方式的示意圖。該設(shè)定方式共分為7個(gè)鍵盤分區(qū):第一個(gè)鍵盤分區(qū)包括按鍵Q、W、E、R、T、Y、U、1、
O、P ;第二個(gè)鍵盤分區(qū)包括按鍵A、S、D、F、G、H、J、K、L ;第三個(gè)鍵盤分區(qū)包括按鍵Z、X、C、V、B、N、M ;第四個(gè)鍵盤分區(qū)包括按鍵W、E、R、T、S、D、F、G ;第五個(gè)鍵盤分區(qū)包括按鍵Y、U、1、O、
H、J、K、L ;第六個(gè)鍵盤分區(qū)包括按鍵S、D、F、G、X、C、V、B ;第七個(gè)鍵盤分區(qū)包括按鍵H、J、K、L、N、M。
[0043]根據(jù)以上分區(qū),可分別判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例,例如對(duì)于待識(shí)別文本:“撒嬌的拉薩科技大實(shí)際道路卡薩軍等垃圾哦大搜打碎了均達(dá)拉斯加達(dá)拉斯加薩頓水等”,各個(gè)文字對(duì)應(yīng)的拼音首字母分別是“ sjdslkjdsjdlksjdljodsdsljdIs jdlsjsdsd”,所述拼音首字母對(duì)應(yīng)的按鍵即為所述文字輸入的首字母所對(duì)應(yīng)的按鍵。
[0044]亦即,總共獲得對(duì)應(yīng)的37個(gè)按鍵。其中,落在第二個(gè)鍵盤分區(qū)的按鍵有36個(gè),分布比例占97.3% ;而落在第一鍵盤分區(qū)的按鍵有I個(gè),分布比例占2.7% ;落在第四或第六鍵盤分區(qū)的按鍵有20個(gè),占54% ;而落在第五或第七鍵盤分區(qū)的按鍵有17個(gè),占46%。
[0045]因此,可將所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例與預(yù)設(shè)的分布比例閾值比較。根據(jù)比較結(jié)果將所述檢測(cè)文本劃分為非正常文本或正常文本。
[0046]各個(gè)所述鍵盤分區(qū)的分布比例閾值可以相同,也可以分別設(shè)定為不同的閾值。優(yōu)選地,可對(duì)每一個(gè)所述鍵盤分區(qū)設(shè)定多級(jí)的分布比例閾值。例如,設(shè)定第一級(jí)分布比例閾值是90%,第二級(jí)為70%,第三級(jí)為40%。則可設(shè)定在某一鍵盤分區(qū)占的分布比例高于90%時(shí)、或者有兩個(gè)鍵盤分區(qū)所占的分布比例高于70%時(shí)、或者有三個(gè)鍵盤分區(qū)所占的分布比例高于40%時(shí)、將所述檢測(cè)文本劃分為非正常文本。
[0047]請(qǐng)參閱圖4,圖4是本發(fā)明非正常文本識(shí)別方法第二實(shí)施方式中步驟S102的局部流程示意圖。
[0048]本實(shí)施方式中,還可以通過以下方式將所述待識(shí)別文本劃分為正常文本或者非正常文本,即所述步驟S102包括:
[0049]S211,計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離,并計(jì)算所述距離的平均值;
[0050]S212,將所述距離的平均值與預(yù)設(shè)的平均距離閾值比較;
[0051]如果小于所述平均距離閾值,則執(zhí)行步驟S213,將所述檢測(cè)文本劃分為非正常文本;否則,執(zhí)行步驟S214,將所述檢測(cè)文本劃分為正常文本。
[0052]本實(shí)施方式是根據(jù)兩個(gè)相鄰的文字對(duì)應(yīng)的按鍵在鍵盤上的距離來判斷所述檢測(cè)文本是否非正常文本。因?yàn)殡S機(jī)輸入的非正常文本也可能是連續(xù)掃過鍵盤上的各個(gè)按鍵輸入的,例如依次掃過按鍵QWERTYUIOPLKJHGFDSA,隨機(jī)輸入的非正常文本為:“去玩兒體育i歐珀萊卡減緩官費(fèi)的撒”,對(duì)此文本按照本實(shí)施方式進(jìn)行識(shí)別,則分別判斷按鍵QWERTYUIOPLKJHGFDSA中每兩個(gè)相鄰的按鍵的鍵盤距離,得到距離平均值為1.0,小于預(yù)設(shè)的平均距離閾值(例如是2.0),因此,將所述檢測(cè)文本劃分為非正常文本。
[0053]優(yōu)選地,計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離時(shí),可以對(duì)所述鍵盤案件的橫向距離和縱向距離以不同的權(quán)重加權(quán)處理。亦即,根據(jù)所述待識(shí)別文本中每兩個(gè)相鄰的文字分別對(duì)應(yīng)的所述按鍵在鍵盤上的橫向距離和縱向距離,按照以下公式計(jì)算加權(quán)鍵盤距離:
[0054]Dist = X+ α.y
[0055]其中,Dist為計(jì)算的加權(quán)鍵盤距離,X為橫向距離,y為縱向距離,α為橫向距離和縱向距離的比例權(quán)重,α>1。
[0056]因?yàn)橥ǔUJ(rèn)為用戶在隨機(jī)敲擊鍵盤的過程中縱向移動(dòng)的代價(jià)要高過橫向移動(dòng),因此通常設(shè)置所述橫向距離和縱向距離的比例權(quán)重α>1。例如,將α的取值定為2,則字母S和字母T在鍵盤上的橫向距離為2.5,縱向距離為I,其加權(quán)的鍵盤距離為2.5+2Χ I = 4.5。假設(shè)文本中有N個(gè)文字(只包括漢字和英文字母,不包括數(shù)字、標(biāo)點(diǎn)和非規(guī)范字符),那么計(jì)算每兩個(gè)相鄰文字之間的N-1個(gè)鍵盤距離,并計(jì)算距離的平均值,再根據(jù)所述距離的平均值與所述平均距離閾值,劃分所述待識(shí)別文本。[0057]請(qǐng)參閱圖5,圖5是本發(fā)明非正常文本識(shí)別方法第三實(shí)施方式中步驟S102的局部流程示意圖。
[0058]本實(shí)施方式中,將上述兩種判斷標(biāo)準(zhǔn),即所述按鍵的分布比例和所述按鍵的距離平均值同時(shí)作為判斷所述待識(shí)別文本是否非正常文本的依據(jù)。即所述步驟S102包括:
[0059]S221,根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū),判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例;
[0060]S222,計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離,并計(jì)算所述距離的平均值;
[0061]S223,根據(jù)所述分布比例和所述距離的平均值,按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn),將所述待識(shí)別文本劃分為正常文本或者非正常文本;其中,各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值和預(yù)設(shè)的平均距離閾值。
[0062]上述方式將所述按鍵的分布比例和所述按鍵的距離平均值同時(shí)作為判斷所述待識(shí)別文本是否非正常文本的依據(jù),使文本識(shí)別的結(jié)果更加準(zhǔn)確。
[0063]優(yōu)選地,為進(jìn)一步提高文本識(shí)別結(jié)果的準(zhǔn)確性,每一所述鍵盤分區(qū)對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的多個(gè)所述分布比例閾值,以及分別對(duì)應(yīng)每一所述分布比例閾值的多個(gè)平均距離閾值。以此實(shí)現(xiàn)多重的閾值設(shè)定,使文本識(shí)別的結(jié)果更加準(zhǔn)確。
[0064]另外,由于標(biāo)點(diǎn)符合和數(shù)字在隨機(jī)輸入的非正常文本中一般出現(xiàn)的概率較少,因此在步驟S102中還可以進(jìn)一步根據(jù)所述待識(shí)別文本中的標(biāo)點(diǎn)符號(hào)或者數(shù)字的數(shù)量來進(jìn)行識(shí)別。
[0065]即,在步驟S102中進(jìn)一步獲取所述待識(shí)別文本中數(shù)字或符號(hào)的分布比例;
[0066]并且,根據(jù)所述分布比例和所述距離的平均值、以及所述數(shù)字或符號(hào)的分布比例,按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn),將所述待識(shí)別文本劃分為正常文本或者非正常文本;其中,各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值、預(yù)設(shè)的平均距離閾值、以及預(yù)設(shè)的數(shù)字或符號(hào)分布比例。
[0067]將符號(hào)或者數(shù)字的數(shù)量也作為文本識(shí)別的標(biāo)準(zhǔn),可以進(jìn)一步提高對(duì)非正常文本識(shí)別能力。
[0068]特別地,對(duì)同時(shí)以所述按鍵的分布比例和所述按鍵距離的平均值、以及所述待識(shí)別文本中數(shù)字或符號(hào)的分布比例為預(yù)設(shè)劃分標(biāo)準(zhǔn)設(shè)定多種閾值的情形,作以下舉例:
[0069]對(duì)上述第一個(gè)鍵盤分區(qū)的預(yù)設(shè)劃分標(biāo)準(zhǔn)的實(shí)現(xiàn)程序代碼舉例如下:
[0070]
if (letterCounter>= 15 && ( ( UpLetterRatio>0.4 && LetlerRepeatTirnes[0]==0&& meaiiKeyDisKl.1 ) || (IJpLetterRatio>0.5 && ( (LetteiRepeatTimes[0] ==0 &&meanKeyDist<2.2) |l mearsKeyDisKl.1 ) ) Il (Upi etterRatio>0.75 &&meanKeyDisl<2.2) || UpLetterRatio>0.9))return true;
[0071]其中,所述IetterCounter為所述待識(shí)別文本的字?jǐn)?shù);UpLetterRatio是該第一鍵盤分區(qū)上的按鍵分布比例;meanKeyDist是所述按鍵距離的平均值,LetterRepeatTimes [O]是指標(biāo)點(diǎn)符號(hào)和數(shù)字出現(xiàn)的次數(shù)。
[0072]程序代碼中的return true,指將該待識(shí)別文本劃分為非正常文本的操作。
[0073]對(duì)所述待識(shí)別文本的預(yù)設(shè)劃分標(biāo)準(zhǔn)中的各個(gè)預(yù)設(shè)閾值的設(shè)定,可以采取統(tǒng)計(jì)大量樣本數(shù)據(jù)的方式得到;也可以通過機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)大量的文本識(shí)別的訓(xùn)練樣本,生成分類器來實(shí)現(xiàn)。機(jī)器學(xué)習(xí)的好處是不用人工干預(yù)設(shè)定閾值,通過只需要通過機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)大量的成功識(shí)別的訓(xùn)練樣本,但是制作大量訓(xùn)練樣本的工作量比較大,而且因?yàn)橥ㄟ^機(jī)器學(xué)習(xí)技術(shù)生成的預(yù)設(shè)劃分標(biāo)準(zhǔn)較為復(fù)雜,使線上識(shí)別時(shí)占用的計(jì)算負(fù)擔(dān)較大。而采用人工統(tǒng)計(jì)大量樣本數(shù)據(jù),設(shè)定所述預(yù)設(shè)劃分標(biāo)準(zhǔn)時(shí),則可在初期根據(jù)線上識(shí)別結(jié)果的反饋修改所述預(yù)設(shè)劃分標(biāo)準(zhǔn)中的各種閾值,以快速地減少識(shí)別錯(cuò)誤的情況發(fā)生。
[0074]請(qǐng)參閱圖6,圖6是本發(fā)明非正常文本識(shí)別系統(tǒng)第一實(shí)施方式的結(jié)構(gòu)示意圖。
[0075]所述非正常文本識(shí)別系統(tǒng),包括:按鍵獲取模塊11和識(shí)別模塊12。所述按鍵獲取模塊11用于根據(jù)待識(shí)別文本中的各個(gè)文字,獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵;所述識(shí)別模塊12用于根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,將所述待識(shí)別文本劃分為正常文本或者非正常文本。
[0076]因?yàn)殡S機(jī)輸入的、無意義的非正常文本通常是點(diǎn)擊在鍵盤上較集中的區(qū)域的若干個(gè)按鍵輸入的,亦即,隨機(jī)輸入時(shí)通常不會(huì)在整個(gè)鍵盤范圍內(nèi)對(duì)各個(gè)按鍵平均地點(diǎn)擊。所以通過各個(gè)所述文字對(duì)應(yīng)的所述按鍵在鍵盤上的分布情況,可以有效地識(shí)別出大部分隨機(jī)輸入的無意義、非正常文本。
[0077]其中,所述待識(shí)別文本即是需要進(jìn)行識(shí)別的文本。所述待識(shí)別文本中的文字包括中文字,英文字母,數(shù)字、符號(hào)等,也可以是其中的一種或者多種的組合。特別地,本發(fā)明對(duì)于由中文漢字組成的文本具有較好的識(shí)別效果。
[0078]而所述待識(shí)別文本優(yōu)選為長度大于某預(yù)設(shè)值的文本,即其包含的文字個(gè)數(shù)最好超過一定的數(shù)量,因?yàn)槲谋驹蕉?,包含的文字越少,正常和非正常文本間的界限越模糊,識(shí)別的難度越大。因此本發(fā)明在實(shí)際執(zhí)行非正常文本識(shí)別時(shí),可以預(yù)先設(shè)定對(duì)文本要求的最小長度,對(duì)文本長度大于所述最小長度的,才執(zhí)行非正常文本識(shí)別,否則不執(zhí)行非正常文本識(shí)別。
[0079]所述文字輸入的首字母所對(duì)應(yīng)的按鍵,即是在輸入每一個(gè)所述文字時(shí)第一個(gè)點(diǎn)擊的按鍵,例如英文字母輸入計(jì)算機(jī)時(shí),首字母對(duì)應(yīng)的按鍵即為所述英文字母所在的按鍵。
[0080]所述按鍵獲取模塊11通過建立查找表的方式獲取所述文字輸入的首字母所對(duì)應(yīng)的按鍵。優(yōu)選地,所述按鍵獲取模塊11根據(jù)所述待識(shí)別文本中的各個(gè)文字,查找預(yù)先建立的對(duì)應(yīng)關(guān)系表,獲取對(duì)應(yīng)的所述按鍵;其中,所述對(duì)應(yīng)關(guān)系表中記錄所述文字和所述文字輸入的首字母所對(duì)應(yīng)的按鍵。
[0081]亦即,在預(yù)設(shè)的所述對(duì)應(yīng)關(guān)系表中,建立輸入的文字和對(duì)應(yīng)的所述按鍵的對(duì)應(yīng)關(guān)系。只需要根據(jù)文字查找所述對(duì)應(yīng)關(guān)系表,即可獲得所述待識(shí)別文本中各個(gè)文字對(duì)應(yīng)的所述按鍵,這種方式比較直接方便。
[0082]所述按鍵獲取模塊11也可以根據(jù)所述文字輸入時(shí)所用的輸入法的規(guī)則獲取所述文字輸入的首字母所對(duì)應(yīng)的按鍵。例如,對(duì)于所述待識(shí)別文本中的英文字母,直接獲取各個(gè)所述英文字母對(duì)應(yīng)的按鍵,識(shí)別為所述英文字母輸入的首字母所對(duì)應(yīng)的按鍵。
[0083]所述按鍵獲取模塊11在所述待識(shí)別文本中的各個(gè)文字是由拼音輸入法輸入的漢字時(shí),獲取所述待識(shí)別文本中各個(gè)中文漢字的拼音首字母對(duì)應(yīng)的按鍵,識(shí)別為所述中文漢字輸入的首字母所對(duì)應(yīng)的按鍵。
[0084]由于拼音輸入法輸入的漢字,第一個(gè)點(diǎn)擊的按鍵必然是該漢字的拼音首字母的按鍵,因此可以通過上述方式獲取中文漢字輸入計(jì)算機(jī)時(shí)對(duì)應(yīng)的首個(gè)按鍵。
[0085]所述按鍵獲取模塊11根據(jù)不同的輸入法規(guī)則對(duì)各種文字輸入的首字母所對(duì)應(yīng)的按鍵進(jìn)行推導(dǎo),可以無需建立數(shù)據(jù)量較大的對(duì)應(yīng)關(guān)系表。本領(lǐng)域的技術(shù)人員根據(jù)本發(fā)明記載的上述方法,可以自行根據(jù)對(duì)應(yīng)的輸入法規(guī)則,獲取其他文字輸入的首字母所對(duì)應(yīng)的按鍵。
[0086]優(yōu)選地,所述按鍵獲取模塊11在獲取對(duì)應(yīng)的首個(gè)按鍵之后,將a-z的按鍵以26個(gè)不同的標(biāo)識(shí)標(biāo)記,例如數(shù)字1-26 ;而將標(biāo)點(diǎn)符號(hào)和數(shù)字以同一個(gè)標(biāo)識(shí)標(biāo)記,例如數(shù)字O。則在獲取對(duì)應(yīng)的按鍵之后,可用相應(yīng)的標(biāo)識(shí)記錄,以便計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)處理。
[0087]請(qǐng)參閱圖7,圖7是本發(fā)明非正常文本識(shí)別系統(tǒng)的第一實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖。
[0088]在本實(shí)施方式中,所述識(shí)別模塊12包括:
[0089]分布比例運(yùn)算模塊201,用于根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū),判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例;
[0090]第一比較模塊202,用于將所述分布比例與預(yù)設(shè)的分布比例閾值比較;
[0091]第一劃分模塊203,用于在所述分布比例大于所述分布比例閾值時(shí),將所述檢測(cè)文本劃分為非正常文本;否則,將所述檢測(cè)文本劃分為正常文本。
[0092]其中,本發(fā)明中出現(xiàn)的“多個(gè)”指兩個(gè)或兩個(gè)以上。所述多個(gè)鍵盤分區(qū)是預(yù)先設(shè)定的,每個(gè)所述鍵盤分區(qū)包括若干個(gè)依次相鄰的按鍵,具體可根據(jù)鍵盤上各個(gè)按鍵的分布來設(shè)定。
[0093]其中一種鍵盤分區(qū)的設(shè)定方式為設(shè)定7個(gè)鍵盤分區(qū):第一個(gè)鍵盤分區(qū)包括按鍵Q、W、E、R、T、Y、U、1、O、P ;第二個(gè)鍵盤分區(qū)包括按鍵A、S、D、F、G、H、J、K、L ;第三個(gè)鍵盤分區(qū)包括按鍵Z、X、C、V、B、N、M ;第四個(gè)鍵盤分區(qū)包括按鍵W、E、R、T、S、D、F、G ;第五個(gè)鍵盤分區(qū)包括按鍵Y、U、1、O、H、J、K、L ;第六個(gè)鍵盤分區(qū)包括按鍵S、D、F、G、X、C、V、B ;第七個(gè)鍵盤分區(qū)包括按鍵H、J、K、L、N、M0
[0094]各個(gè)所述鍵盤分區(qū)的分布比例閾值可以相同,也可以分別設(shè)定為不同的閾值。優(yōu)選地,可對(duì)每一個(gè)所述鍵盤分區(qū)設(shè)定多級(jí)的分布比例閾值。例如,設(shè)定第一級(jí)分布比例閾值是90%,第二級(jí)為70%,第三級(jí)為40%。則可設(shè)定在某一鍵盤分區(qū)占的分布比例高于90%時(shí)、或者有兩個(gè)鍵盤分區(qū)所占的分布比例高于70%時(shí)、或者有三個(gè)鍵盤分區(qū)所占的分布比例高于40%時(shí)、將所述檢測(cè)文本劃分為非正常文本。
[0095]請(qǐng)參閱圖8,圖8是本發(fā)明非正常文本識(shí)別系統(tǒng)的第二實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖。
[0096]在本實(shí)施方式中,所述識(shí)別模塊12包括:
[0097]鍵盤距離計(jì)算模塊211,用于計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離,并計(jì)算所述距離的平均值;
[0098]第二比較模塊212,用于將所述距離的平均值與預(yù)設(shè)的平均距離閾值比較;
[0099]第二劃分模塊213,用于在所述距離的平均值小于所述平均距離閾值時(shí),將所述檢測(cè)文本劃分為非正常文本;否則,將所述檢測(cè)文本劃分為正常文本。
[0100]本實(shí)施方式是根據(jù)兩個(gè)相鄰的文字對(duì)應(yīng)的按鍵在鍵盤上的距離來判斷所述檢測(cè)文本是否非正常文本。因?yàn)殡S機(jī)輸入的非正常文本也可能是連續(xù)掃過鍵盤上的各個(gè)按鍵輸入的,例如依次掃過按鍵QWERTYUIOPLKJHGFDSA,隨機(jī)輸入的非正常文本為:“去玩兒體育i歐珀萊卡減緩官費(fèi)的撒”,對(duì)此文本按照本實(shí)施方式進(jìn)行識(shí)別,則分別判斷按鍵QWERTYUIOPLKJHGFDSA中每兩個(gè)相鄰的按鍵的鍵盤距離,得到距離平均值為1.0,小于預(yù)設(shè)的平均距離閾值(例如是2.0),因此,將所述檢測(cè)文本劃分為非正常文本。
[0101]優(yōu)選地,所述鍵盤距離計(jì)算模塊21計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離時(shí),可以對(duì)所述鍵盤案件的橫向距離和縱向距離以不同的權(quán)重加權(quán)處理。亦即,所述鍵盤距離計(jì)算模塊21根據(jù)所述待識(shí)別文本中每兩個(gè)相鄰的文字分別對(duì)應(yīng)的所述按鍵在鍵盤上的橫向距離和縱向距離,按照以下公式計(jì)算加權(quán)鍵盤距離:
[0102]Dist = χ+α.y
[0103]其中,Dist為計(jì)算的加權(quán)鍵盤距離,X為橫向距離,y為縱向距離,α為橫向距離和縱向距離的比例權(quán)重,α>1。
[0104]因?yàn)橥ǔUJ(rèn)為用戶在隨機(jī)敲擊鍵盤的過程中縱向移動(dòng)的代價(jià)要高過橫向移動(dòng),因此通常設(shè)置所述橫向距離和縱向距離的比例權(quán)重α>1。例如,將α的取值定為2,則字母S和字母T在鍵盤上的橫向距離為2.5,縱向距離為I,其加權(quán)的鍵盤距離為2.5+2X1 = 4.5。假設(shè)文本中有N個(gè)文字(只包括漢字和英文字母,不包括數(shù)字、標(biāo)點(diǎn)和非規(guī)范字符),那么計(jì)算每兩個(gè)相鄰文字之間的N-1個(gè)鍵盤距離,并計(jì)算距離的平均值,再根據(jù)所述距離的平均值與所述平均距離閾值,劃分所述待識(shí)別文本。
[0105]請(qǐng)參閱圖9,圖9是本發(fā)明非正常文本識(shí)別系統(tǒng)的第三實(shí)施方式中識(shí)別模塊的結(jié)構(gòu)示意圖。
[0106]在本實(shí)施方式中,所述識(shí)別模塊12包括:
[0107]分布比例運(yùn)算模塊201,用于根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū),判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例;
[0108]鍵盤距離計(jì)算模塊211,用于計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離,并計(jì)算所述距離的平均值;
[0109]第三劃分模塊221,用于根據(jù)所述分布比例和所述距離的平均值,按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn),將所述待識(shí)別文本劃分為正常文本或者非正常文本;其中,各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值和預(yù)設(shè)的平均距離閾值。
[0110]上述方式將所述按鍵的分布比例和所述按鍵的距離平均值同時(shí)作為判斷所述待識(shí)別文本是否非正常文本的依據(jù),使文本識(shí)別的結(jié)果更加準(zhǔn)確。
[0111]優(yōu)選地,為進(jìn)一步提高文本識(shí)別結(jié)果的準(zhǔn)確性,每一所述鍵盤分區(qū)對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的多個(gè)所述分布比例閾值,以及分別對(duì)應(yīng)每一所述分布比例閾值的多個(gè)平均距離閾值。以此實(shí)現(xiàn)多重的閾值設(shè)定,使文本識(shí)別的結(jié)果更加準(zhǔn)確。
[0112]另外,由于標(biāo)點(diǎn)符號(hào)和數(shù)字在隨機(jī)輸入的非正常文本中一般出現(xiàn)的概率較少,因此所述識(shí)別模塊12還可以進(jìn)一步根據(jù)所述待識(shí)別文本中的標(biāo)點(diǎn)符號(hào)或者數(shù)字的數(shù)量來進(jìn)行識(shí)別。[0113]S卩,所述識(shí)別模塊12進(jìn)一步包括:
[0114]符號(hào)分布獲取模塊(圖未示),用于獲取所述待識(shí)別文本中數(shù)字或符號(hào)的分布比例;
[0115]第四劃分模塊(圖未示),用于根據(jù)所述分布比例和所述距離的平均值、以及所述數(shù)字或符號(hào)的分布比例,按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn),將所述待識(shí)別文本劃分為正常文本或者非正常文本;其中,各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值、預(yù)設(shè)的平均距離閾值、以及預(yù)設(shè)的數(shù)字或符號(hào)分布比例。
[0116]將符號(hào)或者數(shù)字的數(shù)量也作為文本識(shí)別的標(biāo)準(zhǔn),可以進(jìn)一步提高對(duì)非正常文本識(shí)別能力。
[0117]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施方式中的全部或部分流程以及對(duì)應(yīng)的系統(tǒng),是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各實(shí)施方式的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(RandomAccess Memory, RAM)等。
[0118]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種非正常文本識(shí)別方法,其特征在于,包括步驟: 根據(jù)待識(shí)別文本中的各個(gè)文字,獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵; 根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,將所述待識(shí)別文本劃分為正常文本或者非正常文本。
2.如權(quán)利要求1所述的非正常文本識(shí)別方法,其特征在于,所述根據(jù)待識(shí)別文本中的各個(gè)文字,獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵的步驟包括: 根據(jù)所述待識(shí)別文本中的各個(gè)文字,查找預(yù)先建立的對(duì)應(yīng)關(guān)系表,獲取對(duì)應(yīng)的所述按鍵;其中,所述對(duì)應(yīng)關(guān)系表中記錄所述文字和所述文字輸入的首字母所對(duì)應(yīng)的按鍵。
3.如權(quán)利要求1所述的非正常文本識(shí)別方法,其特征在于,所述根據(jù)待識(shí)別文本中的各個(gè)文字,獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵的步驟包括: 獲取所述待識(shí)別文本中各個(gè)中文漢字的拼音首字母對(duì)應(yīng)的按鍵,識(shí)別為所述中文漢字輸入的首字母所對(duì)應(yīng)的按鍵; 或者, 獲取所述待識(shí)別文本中各個(gè)英文字母對(duì)應(yīng)的按鍵,識(shí)別為所述英文字母輸入的首字母所對(duì)應(yīng)的按鍵。
4.如權(quán)利要求1所述的非正常文本識(shí)別方法,其特征在于,根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,將所述待識(shí)別文本劃分為正常文本或者非正常文本的步驟包括: 根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū),判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例; 將所述分布比例與預(yù)設(shè)的分布比例閾值比較; 如果大于所述分布比例閾值,則將所述檢測(cè)文本劃分為非正常文本;否則,將所述檢測(cè)文本劃分為正常文本。
5.如權(quán)利要求1所述的非正常文本識(shí)別方法,其特征在于,根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,將所述待識(shí)別文本劃分為正常文本或者非正常文本的步驟包括: 計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離,并計(jì)算所述距離的平均值; 將所述距離的平均值與預(yù)設(shè)的平均距離閾值比較; 如果小于所述平均距離閾值,則將所述檢測(cè)文本劃分為非正常文本;否則,將所述檢測(cè)文本劃分為正常文本。
6.如權(quán)利要求1所述的非正常文本識(shí)別方法,其特征在于,根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,將所述待識(shí)別文本劃分為正常文本或者非正常文本的步驟包括: 根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū),判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例; 計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離,并計(jì)算所述距離的平均值; 根據(jù)所述分布比例和所述距離的平均值,按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn),將所述待識(shí)別文本劃分為正常文本或者非正常文本;其中,各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值和預(yù)設(shè)的平均距離閾值。
7.如權(quán)利要求6所述的非正常文本識(shí)別方法,其特征在于,每一所述鍵盤分區(qū)對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的多個(gè)所述分布比例閾值,以及分別對(duì)應(yīng)每一所述分布比例閾值的多個(gè)平均距離閾值。
8.如權(quán)利要求6所述的非正常文本識(shí)別方法,其特征在于,進(jìn)一步獲取所述待識(shí)別文本中數(shù)字或符號(hào)的分布比例; 并且,根據(jù)所述分布比例和所述距離的平均值、 以及所述數(shù)字或符號(hào)的分布比例,按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn),將所述待識(shí)別文本劃分為正常文本或者非正常文本;其中,各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值、預(yù)設(shè)的平均距離閾值、以及預(yù)設(shè)的數(shù)字或符號(hào)分布比例。
9.如權(quán)利要求5至8中任意一項(xiàng)所述的非正常文本識(shí)別方法,其特征在于,計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離的步驟包括: 根據(jù)所述待識(shí)別文本中每兩個(gè)相鄰的文字分別對(duì)應(yīng)的所述按鍵在鍵盤上的橫向距離和縱向距離,按照以下公式計(jì)算加權(quán)鍵盤距離:
Dist=X+ α.y 其中,Dist為計(jì)算的加權(quán)鍵盤距離,X為橫向距離,y為縱向距離,α為橫向距離和縱向距離的比例權(quán)重,α>1。
10.一種非正常文本識(shí)別系統(tǒng),其特征在于,包括: 按鍵獲取模塊,用于根據(jù)待識(shí)別文本中的各個(gè)文字,獲取各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵; 識(shí)別模塊,用于根據(jù)各個(gè)所述文字輸入的首字母所對(duì)應(yīng)的按鍵在鍵盤上的分布情況,將所述待識(shí)別文本劃分為正常文本或者非正常文本。
11.如權(quán)利要求10所述的非正常文本識(shí)別系統(tǒng),其特征在于,所述按鍵獲取模塊根據(jù)所述待識(shí)別文本中的各個(gè)文字,查找預(yù)先建立的對(duì)應(yīng)關(guān)系表,獲取對(duì)應(yīng)的所述按鍵;其中,所述對(duì)應(yīng)關(guān)系表中記錄所述文字和所述文字輸入的首字母所對(duì)應(yīng)的按鍵。
12.如權(quán)利要求10所述的非正常文本識(shí)別系統(tǒng),其特征在于,所述按鍵獲取模塊獲取所述待識(shí)別文本中各個(gè)中文漢字的拼音首字母對(duì)應(yīng)的按鍵,識(shí)別為所述中文漢字輸入的首字母所對(duì)應(yīng)的按鍵;或者,獲取所述待識(shí)別文本中各個(gè)英文字母對(duì)應(yīng)的按鍵,識(shí)別為所述英文字母輸入的首字母所對(duì)應(yīng)的按鍵。
13.如權(quán)利要求10所述的非正常文本識(shí)別系統(tǒng),其特征在于,所述識(shí)別模塊包括: 分布比例運(yùn)算模塊,用于根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū),判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例; 第一比較模塊,用于將所述分布比例與預(yù)設(shè)的分布比例閾值比較; 第一劃分模塊,用于在所述分布比例大于所述分布比例閾值時(shí),將所述檢測(cè)文本劃分為非正常文本;否則,將所述檢測(cè)文本劃分為正常文本。
14.如權(quán)利要求10所述的非正常文本識(shí)別系統(tǒng),其特征在于,所述識(shí)別模塊包括: 鍵盤距離計(jì)算模塊,用于計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離,并計(jì)算所述距離的平均值; 第二比較模塊,用于將所述距離的平均值與預(yù)設(shè)的平均距離閾值比較; 第二劃分模塊,用于在所述距離的平均值小于所述平均距離閾值時(shí),將所述檢測(cè)文本劃分為非正常文本;否則,將所述檢測(cè)文本劃分為正常文本。
15.如權(quán)利要求10所述的非正常文本識(shí)別系統(tǒng),其特征在于,所述識(shí)別模塊包括: 分布比例運(yùn)算模塊,用于根據(jù)預(yù)設(shè)的多個(gè)鍵盤分區(qū),判斷獲取的所述按鍵在各個(gè)所述鍵盤分區(qū)上的分布比例; 鍵盤距離計(jì)算模塊,用于計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離,并計(jì)算所述距離的平均值; 第三劃分模塊,用于根據(jù)所述分布比例和所述距離的平均值,按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn),將所述待識(shí)別文本劃分為正常文本或者非正常文本;其中,各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值和預(yù)設(shè)的平均距離閾值。
16.如權(quán)利要求15所述的非正常文本識(shí)別系統(tǒng),其特征在于,每一所述鍵盤分區(qū)對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的多個(gè)所述分布比例閾值,以及分別對(duì)應(yīng)每一所述分布比例閾值的多個(gè)平均距離閾值。
17.如權(quán)利要求15所述的非正常文本識(shí)別系統(tǒng),其特征在于,所述識(shí)別模塊進(jìn)一步包括: 符號(hào)分布獲取模塊,用于獲取所述待識(shí)別文本中數(shù)字或符號(hào)的分布比例; 第四劃分模塊,用于根據(jù)所述分布比例和所述距離的平均值、以及所述數(shù)字或符號(hào)的分布比例,按照各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn),將所述待識(shí)別文本劃分為正常文本或者非正常文本;其中 ,各個(gè)所述鍵盤分區(qū)分別對(duì)應(yīng)的預(yù)設(shè)劃分標(biāo)準(zhǔn)包括預(yù)設(shè)的分布比例閾值、預(yù)設(shè)的平均距離閾值、以及預(yù)設(shè)的數(shù)字或符號(hào)分布比例。
18.如權(quán)利要求14至17中任意一項(xiàng)所述的非正常文本識(shí)別系統(tǒng),其特征在于,所述鍵盤距離計(jì)算模塊計(jì)算所述待識(shí)別文本中每兩個(gè)相鄰的文字所對(duì)應(yīng)的按鍵在鍵盤上的距離時(shí),根據(jù)所述待識(shí)別文本中每兩個(gè)相鄰的文字分別對(duì)應(yīng)的所述按鍵在鍵盤上的橫向距離和縱向距離,按照以下公式計(jì)算加權(quán)鍵盤距離:
Dist=X+ α.y 其中,Dist為計(jì)算的加權(quán)鍵盤距離,X為橫向距離,y為縱向距離,α為橫向距離和縱向距離的比例權(quán)重,α>1。
【文檔編號(hào)】G06F17/21GK103576882SQ201210264218
【公開日】2014年2月12日 申請(qǐng)日期:2012年7月27日 優(yōu)先權(quán)日:2012年7月27日
【發(fā)明者】何小晨, 張國強(qiáng), 郝志新, 許春林, 王長偉 申請(qǐng)人:深圳市世紀(jì)光速信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1