一種敏感詞查找方法及裝置制造方法
【專利摘要】本發(fā)明適用于信息安全【技術(shù)領(lǐng)域】,提供了一種敏感詞查找方法,所述方法包括:獲取文本信息,所述文本信息包含N個(gè)字符,N為大于0的整數(shù);依次判斷所述文本信息中分別以第K個(gè)字符為開頭,第N個(gè)字符結(jié)尾的N個(gè)字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,其中K為1至N的整數(shù);如果在所述N個(gè)字符串中有M個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的M個(gè)字符串,M為大于等于0并且小于等于N的整數(shù),本發(fā)明對于文本信息中敏感詞交疊的情況,能夠有效地避免遺漏標(biāo)記敏感詞的問題。
【專利說明】一種敏感詞查找方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息安全【技術(shù)領(lǐng)域】,尤其涉及一種敏感詞查找方法及裝置。
【背景技術(shù)】
[0002]在互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò)為各種信息提供便捷的傳播方式,也不可避免地帶來了一些負(fù)面影響,如虛假新聞、色情廣告、危害公共安全的言論和散布他人的個(gè)人隱私等,因此,對互聯(lián)網(wǎng)中的信息進(jìn)行篩選后才允許發(fā)布,對敏感詞進(jìn)行查找和過濾,以凈化網(wǎng)絡(luò)環(huán)境顯得必不可少。
[0003]現(xiàn)有的敏感詞查找方法對于敏感詞交疊的情況,不能準(zhǔn)確有效地查找到文本信息中的所有敏感詞,容易遺漏。例如設(shè)置的敏感詞為“轟炸”和“炸機(jī)”,進(jìn)行敏感詞查找的文本為“天上有一架轟炸機(jī)”,其中“轟炸機(jī)”為兩個(gè)敏感詞交疊而成,現(xiàn)有的敏感詞查找方法只能在上述文本中查找到“轟炸”,然后從“機(jī)”開始往下查找,這樣將查找不到“炸機(jī)”這個(gè)敏感詞,造成遺漏。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種敏感詞查找方法,旨在解決對敏感詞交疊的情況現(xiàn)有的查找方法容易出現(xiàn)遺漏的問題。
[0005]本發(fā)明是這樣實(shí)現(xiàn)的,一種敏感詞查找方法,包括:
[0006]獲取文本信息,所述文本信息包含N個(gè)字符,N為大于0的整數(shù);
[0007]依次判斷所述文本信息中分別以第K個(gè)字符為開頭,第N個(gè)字符結(jié)尾的N個(gè)字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,其中K為1至N的整數(shù);
[0008]如果在所述N個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串,Μ為大于等于0并且小于等于Ν的整數(shù)。
[0009]本發(fā)明的另一目的在于提供一種敏感詞查找裝置,包括:
[0010]獲取單元,用于獲取文本信息,所述文本信息包含Ν個(gè)字符,Ν為大于0的整數(shù);
[0011]匹配單元,用于依次判斷所述文本信息中分別以第Κ個(gè)字符為開頭,第Ν個(gè)字符結(jié)尾的的Ν個(gè)字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配其中Κ為1至Ν的整數(shù);
[0012]標(biāo)記單元,用于如果在所述Ν個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串,Μ為大于等于0并且小于等于Ν的整數(shù)。
[0013]在本發(fā)明中,獲取文本信息,文本信息包含Ν個(gè)字符,依次判斷文本信息中分別以第Κ個(gè)字符為開頭,第Ν個(gè)字符結(jié)尾的Ν個(gè)字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,其中Κ為1至Ν的整數(shù),如果在該Ν個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記該Μ個(gè)字符串,對于文本信息中敏感詞交疊的情況,能夠有效地避免遺漏標(biāo)記敏感詞的問題。
【專利附圖】
【附圖說明】[0014]圖1是本發(fā)明實(shí)施例一提供的敏感詞查找方法的實(shí)現(xiàn)流程圖;
[0015]圖2是圖1中步驟S102的具體實(shí)現(xiàn)流程圖;
[0016]圖3是圖1的具體程序流程圖;
[0017]圖4是本發(fā)明實(shí)施例二提供的敏感詞查找裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0018]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0019]在本發(fā)明實(shí)施例中,獲取文本信息,文本信息包含N個(gè)字符,依次判斷文本信息中分別以第K個(gè)字符為開頭,第N個(gè)字符結(jié)尾的N個(gè)字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,其中K為1至N的整數(shù),如果在該N個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記該Μ個(gè)字符串,對于文本信息中敏感詞交疊的情況,能夠有效地避免遺漏標(biāo)記敏感詞的問題。
[0020]圖1示出了本發(fā)明實(shí)施例一提供的敏感詞查找方法的實(shí)現(xiàn)流程,詳述如下:
[0021]在步驟S101中,獲取文本信息,所述文本信息包含Ν個(gè)字符,Ν為大于0的整數(shù)。
[0022]在本發(fā)明實(shí)施例中,文本信息中包含若干個(gè)字符,字符可以是文字和標(biāo)點(diǎn)符號等,獲取文本信息的方式包括但不限于接收輸入的文字和文章、搜索到網(wǎng)頁鏈接和新聞等。
[0023]在步驟S102中,依次判斷所述文本信息中分別以第Κ個(gè)字符為開頭,第Ν個(gè)字符為結(jié)尾的Ν個(gè)字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,其中Κ為1至Ν的整數(shù)。
[0024]在獲取到的文本信息中,可能會出現(xiàn)敏感詞交疊的情況。如預(yù)設(shè)的敏感詞庫中包含兩個(gè)敏感詞:“核武器”和“武器裝備”,在文本信息中的一段文字為“核武器裝備好了?!保霈F(xiàn)兩個(gè)敏感詞交疊。
[0025]對于上述情況,為了在查找敏感詞時(shí)不會造成遺漏,應(yīng)依次將每一個(gè)字符為開頭及其后續(xù)的字符形成的字符串與敏感詞庫中的敏感詞進(jìn)行匹配,遍歷所有的可能。如文本“核武器裝備好了?!敝校浴昂恕睘殚_頭的字符串為“核武器裝備好了。”、以“武”為開頭的字符串為“武器裝備好了?!薄⒁浴捌鳌睘殚_頭的字符串為“器裝備好了?!保源祟愅疲灿?個(gè)字符串,依次將這8個(gè)字符串與敏感詞庫中的敏感詞進(jìn)行匹配。匹配方式可以為:將字符串與敏感詞進(jìn)行逐字匹配,直到匹配到最長的敏感詞為止。匹配方式還可以是逐字匹配到最短敏感詞等等,匹配方式在此不做限定。
[0026]作為本發(fā)明的一個(gè)實(shí)施例,如圖2所示,步驟S102具體為:
[0027]在S201中,判斷以第一字符位置為開頭,第Ν個(gè)字符結(jié)尾的第一字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配。
[0028]在S202中,判斷以第二字符位置為開頭,第Ν個(gè)字符結(jié)尾的第二字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,所述第二字符位置為所述第一字符位置的下一個(gè)字符位置。
[0029]對第一字符串和第二字符串的判斷為前后兩次依次的判斷,判斷結(jié)果有4種組合,分別為第一字符串和第二字符串均不匹配、第一字符串不匹配而第二字符串匹配、第一字符串匹配而第二字符串不匹配、第一字符串和第二字符串均匹配。對于不同的判斷結(jié)果,標(biāo)記的方式不同,標(biāo)記方式在步驟S103中詳述。
[0030]在步驟S103中,如果在所述N個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串,Μ為大于等于0并且小于等于Ν的整數(shù)。
[0031]對于上述步驟的第二種判斷結(jié)果,所述第一字符串與預(yù)設(shè)的敏感詞庫中的敏感詞不匹配并且所述第二字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,所述如果在所述Ν個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串包括:標(biāo)記所述第二字符串的起始位置和結(jié)束位置。
[0032]對于上述步驟的第三種判斷結(jié)果,所述第一字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配并且所述第二字符串與預(yù)設(shè)的敏感詞庫中的敏感詞不匹配,所述如果在所述Ν個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串包括:標(biāo)記所述第一字符串的起始位置和結(jié)束位置。
[0033]對于上述步驟的第四種判斷結(jié)果,所述第一字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配并且所述第二字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,所述如果在所述Ν個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串包括:標(biāo)記所述第一字符串的起始位置和所述第二字符串的結(jié)束位置。
[0034]仍然以上述文本“核武器裝備好了。”為例,其中字符與字符位置的對應(yīng)關(guān)系如表一所示:
[0035]
【權(quán)利要求】
1.一種敏感詞查找方法,其特征在于,所述方法包括:獲取文本信息,所述文本信息包含N個(gè)字符,N為大于0的整數(shù);依次判斷所述文本信息中分別以第K個(gè)字符為開頭,第N個(gè)字符結(jié)尾的N個(gè)字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,其中K為1至N的整數(shù);如果在所述N個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串,Μ為大于等于0并且小于等于Ν的整數(shù)。
2.如權(quán)利要求1所述的方法,其特征在于,所述依次判斷所述文本信息中分別以第Κ個(gè)字符為開頭,第Ν個(gè)字符結(jié)尾的Ν個(gè)字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配包括:判斷以第一字符位置為開頭,第Ν個(gè)字符結(jié)尾的第一字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配;判斷以第二字符位置為開頭,第Ν個(gè)字符結(jié)尾的第二字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,所述第二字符位置為所述第一字符位置的下一個(gè)字符位置。
3.如權(quán)利要求2所述的方法,其特征在于,如果所述第一字符串與預(yù)設(shè)的敏感詞庫中的敏感詞不匹配并且所述第二字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,所述如果在所述Ν個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串包括:標(biāo)記所述第二字符串的起始位置和結(jié)束位置。
4.如權(quán)利要求2所述的方法,其特征在于,如果所述第一字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配并且所述第二字符`串與預(yù)設(shè)的敏感詞庫中的敏感詞不匹配,所述如果在所述Ν個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串包括:標(biāo)記所述第一字符串的起始位置和結(jié)束位置。
5.如權(quán)利要求2所述的方法,其特征在于,如果所述第一字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配并且所述第二字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,所述如果在所述Ν個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串包括:標(biāo)記所述第一字符串的起始位置和所述第二字符串的結(jié)束位置。
6.一種敏感詞查找裝置,其特征在于,所述裝置包括:獲取單元,用于獲取文本信息,所述文本信息包含Ν個(gè)字符,Ν為大于0的整數(shù);匹配單元,用于依次判斷所述文本信息中分別以第Κ個(gè)字符為開頭,第Ν個(gè)字符結(jié)尾的的Ν個(gè)字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,其中Κ為1至Ν的整數(shù);標(biāo)記單元,用于如果在所述Ν個(gè)字符串中有Μ個(gè)字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,標(biāo)記匹配成功的Μ個(gè)字符串,Μ為大于等于0并且小于等于Ν的整數(shù)。
7.如權(quán)利要求6所述的裝置,其特征在于,所述匹配單元包括:第一判斷子單元,用于判斷以第一字符位置為開頭,第Ν個(gè)字符結(jié)尾的第一字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配;第二判斷子單元,用于判斷以第二字符位置為開頭,第Ν個(gè)字符結(jié)尾的第二字符串是否與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,所述第二字符位置為所述第一字符位置的下一個(gè)字符位置。
8.如權(quán)利要求7所述的裝置,其特征在于,如果所述第一字符串與預(yù)設(shè)的敏感詞庫中的敏感詞不匹配并且所述第二字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,所述標(biāo)記單元具體用于:標(biāo)記所述第二字符串的起始位置和結(jié)束位置。
9.如權(quán)利要求7所述的裝置,其特征在于,如果所述第一字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配并且所述第二字符串與預(yù)設(shè)的敏感詞庫中的敏感詞不匹配,所述標(biāo)記單元具體用于:標(biāo)記所述第一字符串的起始位置和結(jié)束位置。
10.如權(quán)利要求7所述的裝置,其特征在于,如果所述第一字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配并且所述第二字符串與預(yù)設(shè)的敏感詞庫中的敏感詞匹配,所述標(biāo)記單元具體用于:標(biāo)記所述第一字符串的起始位置和所述第二字符串的結(jié)束位置。`
【文檔編號】G06F17/30GK103678651SQ201310717063
【公開日】2014年3月26日 申請日期:2013年12月20日 優(yōu)先權(quán)日:2013年12月20日
【發(fā)明者】何旺 申請人:Tcl集團(tuán)股份有限公司