專利名稱:檢測詞匯的方法與裝置的制作方法
技術領域:
本發(fā)明涉及字符校對技術,尤其涉及一種檢測詞匯的方法與裝置。
背景技術:
隨著信息的爆炸式增長,信息傳遞途徑越來越多樣化,例如可以通過論壇、短信、微博和聊天工具等多種方式傳遞文本信息。為了防止不良信息的傳播,需要對文本信息進行過濾,達到凈化信息的目的。目前對文本信息進行過濾的方式一般是檢測并屏蔽敏感詞,即采用敏感詞庫中的詞匯對文本信息進行全文匹配,具體做法是把敏感詞庫中的所有詞匯依次對文本信息進行比對,如果詞匯被完全包含在文本信息中,就認為該文本信息中包含敏感詞,將這些敏感詞屏蔽或禁止該文本信息發(fā)布?!?br>
但是,很多敏感詞為了防止被過濾掉,會在敏感詞中間夾雜無意義的干擾詞匯,以避開敏感詞檢測。例如,當“救護車”為敏感詞時,會將“救護車”寫成“救##護##車”的方式以避開敏感詞檢測。因此,需要一種方法,能夠對這些夾雜干擾詞匯的敏感詞進行有效檢測。
發(fā)明內容
本發(fā)明提供一種檢測詞匯的方法與裝置,以解決現(xiàn)有技術無法檢測夾雜干擾詞匯的敏感詞的缺陷。本發(fā)明第一個方面提供一種檢測詞匯的方法,包括步驟a :提取待檢測文本中的待檢測字符;步驟b:判斷所述待檢測字符是否為干擾詞匯,當判斷結果為是時,轉為步驟C,否貝U,轉為步驟d;步驟c :提取所述待檢測文本中與所述待檢測字符相鄰的下一個字符作為待檢測字符,并轉為步驟b ;步驟d :將所述待檢測字符作為待組合字符,存儲到緩存區(qū);步驟e :根據(jù)所述緩存區(qū)中的各待組合字符獲取待檢測詞匯;步驟f :判斷所述待所述檢測詞匯是否為敏感詞。本發(fā)明另一個方面提供一種檢測詞匯的裝置,包括第一提取模塊,用于提取待檢測文本中的待檢測字符;第一判斷模塊,用于判斷所述待檢測字符是否為干擾詞匯,當判斷結果為是時,觸發(fā)第二提取模塊,否則,觸發(fā)存儲模塊;所述第二提取模塊,用于提取所述待檢測文本中與所述待檢測字符相鄰的下一個字符作為待檢測字符,并發(fā)送到所述第一判斷模塊;所述存儲模塊,用于將所述待檢測字符作為待組合字符,存儲到緩存區(qū);組合模塊,用于根據(jù)所述緩存區(qū)中的各待組合字符獲取待檢測詞匯;
第二判斷模塊,用于判斷所述待所述檢測詞匯是否為敏感詞。如上所述的由上述技術方案可知,本發(fā)明提供的檢測詞匯的方法與裝置,能夠對當前正在編輯的待檢測文本進行實時監(jiān)測,并通過去除待檢測文本中的干擾詞匯以有效判斷出敏感詞。
圖I為根據(jù)本發(fā)明一實施例的檢測詞匯的方法的流程示意圖;圖2為根據(jù)本發(fā)明又一實施例的檢測詞匯的方法的流程示意圖;圖3為根據(jù)本發(fā)明另一實施例的檢測詞匯的裝置的結構示意圖;圖4為根據(jù)本發(fā)明又一實施例的檢測詞匯的裝置的結構示意圖。
具體實施方式
·本實施例一提供一種檢測詞匯的方法,該方法適用于現(xiàn)在所有的網(wǎng)絡平臺。本方法的執(zhí)行主體為檢測詞匯的裝置,該檢測詞匯的裝置可以集成于各種網(wǎng)絡平臺或服務器。如圖I所示,為本實施例的檢測詞匯的方法的流程示意圖,具體包括步驟101,提取待檢測文本中的待檢測字符。本步驟可以將當前正在編輯的文本作為待檢測文本。例如是某個用戶正在編輯的帖子。檢測詞匯的裝置按照編輯的順序依次從待檢測文本中提取待檢測字符,每次可以僅提取一個。待檢測字符包括所有的漢字、數(shù)字、符號,甚至英文字母等。步驟102,判斷待檢測字符是否為干擾詞匯,當判斷結果為是時,轉為步驟103,否貝U,轉為步驟104。干擾詞匯為可以預定義的各種符號、數(shù)字或生僻字。例如“地X震”中的“ X ”可以是被看作是干擾詞匯,或者“地I震”中的“I”可以被預設為干擾詞匯,或者“地鼐震”中的“鼐”可以被預設為干擾詞匯。具體可以根據(jù)實際需要進行設定,在此不再贅述。假設當前提取的待檢測字符為“ X ”,并判斷出該待檢測字符是干擾詞匯時,去除該干擾詞匯,并執(zhí)行步驟103,否則將該待檢測字符作為待組合字符存儲在緩存區(qū)中。步驟103,提取待檢測文本中與待檢測字符相鄰的下一個字符作為待檢測字符,并轉為執(zhí)行步驟102。步驟104,將待檢測字符作為待組合字符,存儲到緩存區(qū)。緩存區(qū)可以設置在檢測詞匯的裝置中,也可以以單獨設置的存儲器的形式實現(xiàn)。步驟105,根據(jù)緩存區(qū)中的各待組合字符獲取待檢測詞匯。可以按照待組合字符存入緩存區(qū)的順序形成待檢測詞匯。根據(jù)統(tǒng)計,用戶在敏感詞中加入干擾詞匯時,一般不會改變原有的敏感詞各個字符的順序,因此,待檢測詞匯可以按照待組合字符存入緩存區(qū)中的順序獲取,以避免由于待組合字符可以組合多個待檢測詞匯為檢測詞匯的裝置帶來額外的負擔。此外,該步驟105可具體包括獲取緩存區(qū)中待組合字符的個數(shù),當待組合字符的個數(shù)大于或等于預設閾值時,根據(jù)各待組合字符獲取待檢測詞匯。由于一般情況下,不會把單獨I個字作為敏感詞匯,因此本實施例的預設閾值可以為2。步驟106,判斷待檢測詞匯是否為敏感詞。
例如,根據(jù)預設的敏感詞庫判斷待檢測詞匯是否為敏感詞。敏感詞庫中包括根據(jù)預先統(tǒng)計的各敏感詞,并可以隨時進行更新。采用現(xiàn)有技術對待檢測詞匯在敏感詞庫中進行匹配,當匹配成功時,說明該待檢測詞匯為敏感詞,或者是疑似敏感詞。疑似敏感詞為包含在敏感詞中的詞匯,例如,當“地震局”為敏感詞時,“地震”為疑似敏感詞。本實施例中,當判斷出待檢測詞匯為敏感詞時,對該待檢測詞匯進行標記,清空緩存區(qū),以提示用戶進行修改,并在后續(xù)的檢測中不再檢測該敏感詞。當判斷出待檢測詞匯為疑似敏感詞時,同樣可以對該待檢測詞匯進行標記以提示用戶,并可以轉為步驟103的操作以進一步判斷用戶所要輸入的是否為敏感詞。例如,當用戶輸入“地震”時,檢測詞匯的裝置識別該待檢測詞匯為疑似敏感詞,疑似敏感詞為包含在敏感詞中的詞匯,而跟隨著“震”字后面的詞為“錄”時,“地震錄”并不是敏感詞。本實施例的方法在步驟105之后且在步驟106之前還可以包括根據(jù)預設的相關性詞庫判斷待檢測詞匯是否為相關性詞匯,當判斷結果為否時,從待組合字符中去除待檢測字符,并可以轉為步驟103,當判斷結果為是時,轉為步驟106。相關性詞庫中包含根據(jù)預 設統(tǒng)計的所有日常用語,包括敏感詞匯,并可以隨時進行更新。本實施例中“地震錄”為相關性詞匯;或者當判斷出待檢測詞匯“地震拉”為非相關性詞匯時,很有可能用戶采用“拉”字作為干擾詞匯,即用戶所要輸入的詞匯為“地震拉局”,此時將“拉”字去除,并通過判斷下一個待組合字符是否為“局”字來判斷用戶是否想要輸入敏感詞。此外,用戶可以首先判斷待檢測詞匯是否為相關性詞匯,當判斷結果為否時,就無需進行是否為敏感詞匯的判斷,可以減輕檢索詞匯的裝置的負擔。根據(jù)本實施例的檢測詞匯的方法,能夠對當前正在編輯的待檢測文本進行實時監(jiān)測,并通過去除待檢測文本中的干擾詞匯以有效判斷出敏感詞,對用戶進行提示。當用戶所要發(fā)布信息的內容中包含敏感詞,可以采用阻止其發(fā)布的方式以避免不健康信息的傳播。本實施例二基于實施例一提供一種檢測詞匯的方法。如圖2所示,為根據(jù)本實施例的檢測詞匯的方法流程示意圖。步驟201,提取待檢測文本中的待檢測字符。本步驟可以將當前正在編輯的文本作為待檢測文本。例如是某個用戶正在編輯的帖子;或者是一個完整的文本信息,例如發(fā)送至短信中心的短信。檢測詞匯的裝置按照編輯的順序依次從待檢測文本中提取待檢測字符,每次可以僅提取一個待檢測字符。檢測詞匯的裝置對待檢測文本進行檢測,可以是在輸入每個字后立即進行檢測,可以是在字輸入一段時間后進行檢測,例如在字輸入3秒后才進行檢測,以避免用戶由于打錯字而刪除造成額外檢測的情況。本實施例假設在字輸入3秒后才進行檢測,此時用戶已經(jīng)打出“是地XX震XX拉局拉”字符串,假設已經(jīng)對“是”字檢測完畢,其已經(jīng)成為待組合字符存儲在緩存區(qū)中,該步驟中提取的待組合字符為“地”字。預設的敏感詞庫中“地震局”為敏感詞,即“地震”為疑似敏感詞。步驟202,判斷待檢測字符是否為干擾詞匯,當判斷結果為是時,轉為步驟203,否貝U,轉為步驟204。本實施例中將字符和數(shù)字均預設為干擾詞匯,該步驟判斷出待檢測字符“地”不是干擾詞匯。則轉為步驟204。
步驟203,提取待檢測文本中與待檢測字符相鄰的下一個字符作為待檢測字符,并轉為步驟202。步驟204,將待檢測字符作為待組合字符,存儲到緩存區(qū)。此時,緩存區(qū)中有兩個待組合字符,分別是“是”字和“地”字。其中,“是”為首待
組合字符。步驟205,獲取緩存區(qū)中待組合字符的個數(shù),當待組合字符的個數(shù)大于或等于預設閾值時,根據(jù)各待組合字符獲取待檢測詞匯。假設本實施例中的預設閾值為2,此時緩存區(qū)中已經(jīng)存在兩個待組合字符,則將緩存區(qū)中的2個待組合字符按照存入該緩存區(qū)的順序組合為待檢測詞匯“是地”。步驟206,根據(jù)預設的相關性詞庫判斷待檢測詞匯是否為相關性詞匯,當判斷結果·為否時,執(zhí)行步驟207,否則執(zhí)行步驟209。本實施例中計數(shù)最大值可以根據(jù)實際需要進行設定。由于現(xiàn)有技術中,經(jīng)常會存在一些無法與其它字形成詞匯的助詞,例如“的”、“ 了 ”、“著”等等,這些詞是無法與其它詞匯形成詞匯的,為了避免這些詞的干擾,設置計數(shù)值,當待組合字符與接下來進入緩存區(qū)中的多個待組合字符無法形成詞匯時,則說明其很有可能是助詞。步驟207,從緩存區(qū)中的待組合字符中去除待檢測字符,并判斷表示獲取待組合字符次數(shù)的計數(shù)值是否達到計數(shù)最大值,當判斷結果為是時,執(zhí)行步驟208,否則將計數(shù)值加I并轉為步驟203。本實施例中根據(jù)預設的相關性詞庫判斷出“是地”為不是相關性詞匯,則從緩存區(qū)中去除待檢測字符“地”,判斷出表示獲取待組合字符次數(shù)的計數(shù)值為1,未到達預設的計數(shù)最大值3,則將計數(shù)值加1,并轉為步驟203。需要指出的是,該計數(shù)值加I的操作可以在獲取到待組合字符時立即加1,即在步驟204中完成。接下來提取的待檢測字符為“ X ”,判斷出“ X ”為干擾詞匯,則轉為步驟203。接下來提取的待檢測字符仍為“ X ”,判斷出“ X ”為干擾詞匯,再次轉為步驟203。接下來提取的待檢測字符為“震”,判斷出“震”并不是干擾詞匯,則將“震”作為待組合字符存儲到緩存區(qū)中,并判斷出緩存區(qū)中待組合字符的個數(shù)大于預設閾值2,則獲取待檢測詞匯“是震”,判斷其是否為相關性詞匯。根據(jù)相關性詞庫判斷出“是震”仍然不是相關性詞匯,則從緩存區(qū)中去除待檢測字符“震”,并判斷出此時的計數(shù)值2并未到達最大計數(shù)值“3”,則將計數(shù)值加I,轉為步驟203。接下來提取的待檢測字符為與“震”相鄰的“ X ”,判斷出“ X ”為干擾詞匯,再次轉為步驟203。接下來提取的待檢測字符為與“ X ”相鄰的“ X ”,判斷出“ X ”為干擾詞匯,再次轉為步驟203。接下來提取的待檢測字符為與“ X ”相鄰的“拉”,判斷出“拉”不是干擾詞匯,將“拉”作為待組合字符存儲到緩存區(qū)中,并判斷出緩存區(qū)中待組合字符的個數(shù)大于預設閾值2,則獲取待檢測詞匯“是拉”,判斷其是否為相關性詞匯。根據(jù)相關性詞庫判斷出“是拉”仍然不是相關性詞匯,則從緩存區(qū)中去除待檢測字符“震”,并判斷出此時的計數(shù)值3已經(jīng)達最大計數(shù)值3,則轉為步驟208。
步驟208,從待檢測文本中提取與所述緩存區(qū)中的首待組合字符相鄰的下一個字符作為待檢測字符,清空所述緩存區(qū)并重置所述計數(shù)值,并返回步驟202。本實施例中,該步驟從待檢測文本中提取的與首待組合字符“是”相鄰的待檢測字符為“地”。判斷出“地”為并不是干擾詞匯,則將“地”作為待組合字符存儲到緩存區(qū)中,并判斷出緩存區(qū)中待組合字符的個數(shù)為1,未達到預設閾值2,返回步驟203。接下來從待檢測文本中提取的兩個“ X ”字符均檢測出為干擾詞匯,具體與上述過程一致,在此不再贅述。接下來從待檢測文本中提取與“ X ”字符相鄰的待檢測字符為“震”,判斷出該待檢測字符“震”不是干擾詞匯,則將“震”作為待組合字符存儲到緩存區(qū),此時判斷出緩存區(qū)中待組合字符的個數(shù)達到預設閾值2,則將“地”和“震”組合為待檢測詞匯“地震”,執(zhí)行步驟206。此時判斷出待檢測詞匯“地震”為相關性詞匯,則執(zhí)行步驟209?!げ襟E209,根據(jù)預設的敏感詞庫判斷待檢測詞匯是否為敏感詞,當判斷結果為是時,執(zhí)行步驟210,否則執(zhí)行步驟211。步驟210,根據(jù)預設的敏感詞庫判斷出該待檢測詞匯為敏感詞時,將該敏感詞進行標識,并清空緩存區(qū)。例如在屏幕上以高亮的形式提示用戶該詞是敏感詞,可能會導致信息無法發(fā)布。接下來轉為步驟203,繼續(xù)檢測與待檢測字符相鄰的下一個字符。本實施例中待檢測詞匯“地震”不是敏感詞,轉為步驟211。步驟211,判斷所述待檢測詞匯是否為疑似敏感詞,當判斷結果為否時,執(zhí)行步驟212,否則,將該待檢測詞匯繼續(xù)保留在緩存區(qū)中,執(zhí)行步驟203。疑似敏感詞為包含在敏感詞中的詞匯。本實施例中,根據(jù)預設的敏感詞庫判斷出“地震”不是敏感詞,而是疑似敏感詞,則將該待檢測詞匯繼續(xù)保留在緩存區(qū)中,即此時緩存區(qū)中有兩個待組合字符分別是“地”和“震”,以便進一步檢測用戶所要輸入的詞匯是否為敏感詞。步驟212,清空緩存區(qū),并將計數(shù)值清零。接下來,提取的待檢測字符為與“震”相鄰的兩個“ X ”字符,檢測出均為干擾詞匯,具體與上述過程一致,在此不再贅述。接下來,從待檢測文本中提取待檢測字符“拉”,判斷出“拉”不是干擾詞匯,則將“拉”作為待組合字符存儲到緩存區(qū)中。判斷出緩存區(qū)中的待組合字符的個數(shù)為3,達到了預設閾值2,則按照進入緩存區(qū)中的順序獲取待檢測詞匯“地震拉”,判斷出“地震拉”并不是相關性詞匯,則執(zhí)行步驟207,去除待檢測字符“拉”,并判斷出計數(shù)值2未達到計數(shù)最大值3,將計數(shù)值加1,并轉為步驟203。接下來,從待檢測文本中提取待檢測字符“局”,判斷出“局”不是干擾詞匯,則將“局”作為待組合字符存儲到緩存區(qū)中。判斷出緩存區(qū)中的待組合字符的個數(shù)為3,達到了預設閾值2,則按照進入緩存區(qū)中的順序獲取待檢測詞匯“地震局”,判斷出“地震局”是相關性詞匯,則執(zhí)行步驟209,判斷出“地震局”為敏感詞匯,此時將該敏感詞“地震局”進行標識,并清空緩存區(qū)。 接下來,從待檢測文本中提取與“局”相鄰的待檢測字符“拉”,并執(zhí)行步驟202,接下來的步驟與上述一致,在此不再贅述。
本實施例中的計數(shù)值可以通過設置計數(shù)器的方式來實現(xiàn)。需要指出的是,當檢測詞匯的裝置標識出敏感詞時,即進行對計數(shù)值進行重置的操作。根據(jù)本實施例的檢測詞匯的方法,能夠對當前正在編輯的待檢測文本進行實時監(jiān)測,并通過去除待檢測文本中的干擾詞匯以有效判斷出敏感詞,對用戶進行提示,還通過設置計數(shù)值以使得待檢測詞匯盡量符合實際情況,避免由于所要檢測詞匯過長加重檢測詞匯的裝置的負擔。
本領域普通技術人員可以理解實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質包括R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質。本實施例三提供一種檢測詞匯的裝置,用于執(zhí)行上述實施例的檢測詞匯的方法。如圖3所示,為根據(jù)本實施例的檢測詞匯的裝置的結構示意圖,包括第一提取模塊301、第一判斷模塊302、第二提取模塊303、存儲模塊304、組合模塊305和第二判斷模塊306。其中,第一提取模塊301用于提取待檢測文本中的待檢測字符;第一判斷模塊302可以與第一提取模塊301連接,用于判斷待檢測字符是否為干擾詞匯,當判斷結果為是時,觸發(fā)第二提取模塊303,否則,觸發(fā)存儲模塊304 ;第二提取模塊303分別可以與第一提取模塊301和第一判斷模塊302連接,用于提取待檢測文本中與待檢測字符相鄰的下一個字符作為待檢測字符,并發(fā)送到第一判斷模塊302 ;存儲模塊304可以與第一判斷模塊302連接,用于將待檢測字符作為待組合字符,存儲到緩存區(qū),該緩存區(qū)可以位于單獨設置的緩存器中(圖中未示出),還可以用于觸發(fā)組合模塊305 ;組合模塊305可以與存儲模塊304連接,用于根據(jù)緩存區(qū)中的各待組合字符獲取待檢測詞匯;第二判斷模塊306可以與組合模塊305連接,用于判斷待檢測詞匯是否為敏感詞。第二提取模塊303可以通過第一提取模塊301提取字符的位置判斷需從待檢測文本中提取哪一個字符作為待檢測字符。此外,組合模塊305可具體用于獲取緩存區(qū)中待組合字符的個數(shù),當待組合字符的個數(shù)大于或等于預設閾值時,根據(jù)各待組合字符獲取待檢測詞匯。可選地,本實施例的檢測詞匯的裝置還包括相關性檢測模塊307。該相關性檢測模塊307分別與第一判斷模塊302、第二判斷模塊306、第二提取模塊303、組合模塊305連接,用于根據(jù)預設的相關性詞庫判斷所述待檢測詞匯是否為相關性詞匯,當判斷出所述待檢測詞匯不是相關性詞匯時,從所述待組合字符中去除所述待檢測字符,并判斷表示獲取待組合字符次數(shù)的計數(shù)值是否達到計數(shù)最大值,當判斷出所述計數(shù)值達到所述計數(shù)最大值時,從所述待檢測文本中提取與所述緩存區(qū)中的首待組合字符相鄰的下一個字符作為待檢測字符,清空所述緩存區(qū)并重置所述計數(shù)值,并觸發(fā)所述第一判斷模塊302,否則,將計數(shù)值加1,觸發(fā)所述第二提取模塊303,當判斷結果出所述待檢測詞匯是相關性詞匯時,觸發(fā)所述第二判斷模塊306。本實施例的檢測詞匯的裝置的具體操作方法與上述實施例一致,在此不再贅述。根據(jù)本實施例的檢測詞匯的裝置,能夠對當前正在編輯的待檢測文本進行實時監(jiān)測,并通過去除待檢測文本中的干擾詞匯以有效判斷出敏感詞,對用戶進行提示。當用戶所要發(fā)布信息的內容中包含敏感詞,可以采用阻止其發(fā)布的方式以避免不健康信息的傳播。本實施例四提供一種檢測詞匯的裝置,用于執(zhí)行上述檢測詞匯的方法如圖4所示,為根據(jù)本實施例的檢測詞匯的裝置的結構示意圖,包括如實施例三的第一提取模塊301、第一判斷模塊302、第二提取模塊303、存儲模塊304、組合模塊305和第二判斷模塊306,當然還可以包括檢測相關性模塊307。上述各模塊的功能與結構與實施例三一致,在此不再贅述??蛇x地,本實施例的檢測詞匯的裝置還包括標識模塊401,該標識模塊401與第二判斷模塊306連接,用于當判斷出待檢測詞匯為敏感詞時,標識敏感詞,清空緩存區(qū),并觸發(fā)第二提取模塊303??蛇x地,本實施例的檢測詞匯的裝置中的第二判斷模塊306還用于當判斷出所述待檢測詞匯不是敏感詞時,判斷所述待檢測詞匯是否為疑似敏感詞,當判斷結果為是時,·將所述待組合字符保留在所述存儲區(qū)中,觸發(fā)所述第二提取模塊303,該疑似敏感詞為包含在敏感詞中的詞匯。此外,如實施例二中所描述的,組合模塊305在執(zhí)行根據(jù)各待組合字符獲取待檢測詞匯的操作時,可以具體為按照待組合字符存入緩存區(qū)的順序形成待檢測詞匯。本實施例的檢測詞匯的裝置的具體操作方法與實施例二中一致,即第二判斷模塊306的相關操作也與實施例二一致,在此不再贅述。根據(jù)本實施例的檢測詞匯的裝置,能夠對當前正在編輯的待檢測文本進行實時監(jiān)測,并通過去除待檢測文本中的干擾詞匯以有效判斷出敏感詞,對用戶進行提示,還通過設置計數(shù)值以使得待檢測詞匯盡量符合實際情況,避免由于所要檢測詞匯過長加重檢測詞匯的裝置的負擔。最后應說明的是以上實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發(fā)明各實施例技術方案的范圍。
權利要求
1.一種檢測詞匯的方法,其特征在于,包括 步驟a :提取待檢測文本中的待檢測字符; 步驟b:判斷所述待檢測字符是否為干擾詞匯,當判斷結果為是時,轉為步驟C,否則,轉為步驟d ; 步驟c :提取所述待檢測文本中與所述待檢測字符相鄰的下一個字符作為待檢測字符,并轉為步驟b; 步驟d :將所述待檢測字符作為待組合字符,存儲到緩存區(qū); 步驟e :根據(jù)所述緩存區(qū)中的各待組合字符獲取待檢測詞匯; 步驟f :判斷所述待所述檢測詞匯是否為敏感詞。
2.根據(jù)權利要求I所述的檢測詞匯的方法,其特征在于,還包括 當判斷出所述待檢測詞匯為敏感詞時,標識所述敏感詞,清空所述緩存區(qū),轉為步驟C。
3.根據(jù)權利要求I或2所述的檢測詞匯的方法,其特征在于,所述根據(jù)各待組合字符獲取待檢測詞匯包括 按照所述待組合字符存入所述緩存區(qū)的順序形成所述待檢測詞匯。
4.根據(jù)權利要求I所述的檢測詞匯的方法,其特征在于,在步驟e之后且在步驟f之前,還包括 根據(jù)預設的相關性詞庫判斷所述待檢測詞匯是否為相關性詞匯; 當判斷結果出所述待檢測詞匯不是相關性詞匯時,從所述待組合字符中去除所述待檢測字符,并判斷表示獲取待組合字符的計數(shù)值是否達到計數(shù)最大值,當判斷結果為出所述計數(shù)值達到計數(shù)最大值時,從所述待檢測文本中提取與所述緩存區(qū)中的首待組合字符相鄰的下一個字符作為待檢測字符,清空所述緩存區(qū)并重置所述計數(shù)值,并返回步驟b,否則,將計數(shù)值加1,返回步驟c ; 當判斷結果出所述待檢測詞匯是相關性詞匯時,執(zhí)行步驟f。
5.根據(jù)權利要求2所述檢測詞匯的方法,其特征在于,還包括 當判斷出所述待檢測詞匯不是敏感詞時,判斷所述待檢測詞匯是否為疑似敏感詞,當判斷結果為是時,將所述待組合字符保留在所述存儲區(qū)中,返回步驟C,所述疑似敏感詞為包含在敏感詞中的詞匯。
6.一種檢測詞匯的裝置,其特征在于,包括 第一提取模塊,用于提取待檢測文本中的待檢測字符; 第一判斷模塊,用于判斷所述待檢測字符是否為干擾詞匯,當判斷結果為是時,觸發(fā)第二提取模塊,否則,觸發(fā)存儲模塊; 所述第二提取模塊,用于提取所述待檢測文本中與所述待檢測字符相鄰的下一個字符作為待檢測字符,并發(fā)送到所述第一判斷模塊; 所述存儲模塊,用于將所述待檢測字符作為待組合字符,存儲到緩存區(qū); 組合模塊,用于根據(jù)所述緩存區(qū)中的各待組合字符獲取待檢測詞匯; 第二判斷模塊,用于判斷所述待所述檢測詞匯是否為敏感詞。
7.根據(jù)權利要求6所述的檢測詞匯的裝置,其特征在于,還包括 標識模塊,用于當判斷出所述待檢測詞匯為敏感詞時,標識所述敏感詞,清空所述緩存區(qū),并觸發(fā)所述第二提取模塊。
8.根據(jù)權利要求6或7所述的檢測詞匯的裝置,其特征在于,所述組合模塊具體用于 按照所述待組合字符存入所述緩存區(qū)的順序形成所述待檢測詞匯。
9.根據(jù)權利要求8所述所述的檢測詞匯的裝置,其特征在于,還包括 相關性檢測模塊,用于根據(jù)預設的相關性詞庫判斷所述待檢測詞匯是否為相關性詞匯,當判斷出所述待檢測詞匯不是相關性詞匯時,從所述待組合字符中去除所述待檢測字符,并判斷表示獲取待組合字符次數(shù)的計數(shù)值是否達到計數(shù)最大值,當判斷出所述計數(shù)值達到所述計數(shù)最大值時,從所述待檢測文本中提取與所述緩存區(qū)中的首待組合字符相鄰的下一個字符作為待檢測字符,清空所述緩存區(qū)并重置所述計數(shù)值,并觸發(fā)所述第一判斷模塊,否則,將計數(shù)值加1,觸發(fā)所述第二提取模塊; 當判斷結果出所述待檢測詞匯是相關性詞匯時,觸發(fā)所述第二判斷模塊。
10.根據(jù)權利要求7所述所述的檢測詞匯的裝置,其特征在于,所述第二判斷模塊還用于 當判斷出所述待檢測詞匯不是敏感詞時,判斷所述待檢測詞匯是否為疑似敏感詞,當判斷結果為是時,將所述待組合字符保留在所述存儲區(qū)中,觸發(fā)所述第二提取模塊,所述疑似敏感詞為包含在敏感詞中的詞匯。
全文摘要
本發(fā)明提供一種檢測詞匯的方法與裝置,方法包括步驟a提取待檢測文本中的待檢測字符;步驟b:判斷待檢測字符是否為干擾詞匯,當判斷結果為是時,轉為步驟c,否則轉為步驟d;步驟c提取待檢測文本中與待檢測字符相鄰的下一個字符作為待檢測字符,并轉為步驟b;步驟d將待檢測字符作為待組合字符,存儲到緩存區(qū);步驟e根據(jù)緩存區(qū)中各待組合字符獲取待檢測詞匯;步驟f判斷待檢測詞匯是否為敏感詞。根據(jù)本發(fā)明的檢測詞匯的方法與裝置,能夠通過去除待檢測文本中的干擾詞匯以有效判斷敏感詞。
文檔編號G06F17/30GK102902766SQ20121036194
公開日2013年1月30日 申請日期2012年9月25日 優(yōu)先權日2012年9月25日
發(fā)明者胡昌瑋, 李珩, 楊貝斯 申請人:中國聯(lián)合網(wǎng)絡通信集團有限公司