一種信息檢測(cè)方法及裝置制造方法
【專利摘要】本申請(qǐng)?zhí)峁┝艘环N信息檢測(cè)方法和裝置,其中一種信息檢測(cè)方法,包括:獲取待檢測(cè)信息的文本信息;將文本信息與多屬性詞庫中的第一屬性詞進(jìn)行比對(duì),第一屬性詞包括關(guān)鍵詞和關(guān)鍵詞的變形詞;當(dāng)文本信息中包括第一屬性詞時(shí),將文本信息中位于第一屬性詞前的五個(gè)字符和位于第一屬性詞后的五個(gè)字符與多屬性詞庫中的第二屬性詞進(jìn)行比對(duì),得到比對(duì)結(jié)果,第二屬性詞為關(guān)鍵詞的限定詞;依據(jù)比對(duì)結(jié)果,確定文本信息是否為非法信息。與現(xiàn)有技術(shù)相比,本申請(qǐng)?zhí)峁┑倪@種通過以不同詞比較判定非法信息方式可以對(duì)文本信息進(jìn)行較為全面的檢測(cè),降低單一關(guān)鍵詞導(dǎo)致的判定錯(cuò)誤的幾率,從而提高信息檢測(cè)的正確率。
【專利說明】-種信息檢測(cè)方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及信息檢測(cè)【技術(shù)領(lǐng)域】,特別涉及一種信息檢測(cè)方法及裝置。
【背景技術(shù)】
[0002] 網(wǎng)站作為一種新型的溝通工具得到越來越多人的青睞,并且為了防止非法信息, 如包含有涉黃、賭、毒、暴力、恐怖等等國家禁止發(fā)布的信息,在網(wǎng)站上發(fā)布,在信息發(fā)布之 前需要首先對(duì)信息進(jìn)行合法性檢測(cè),所謂合法性表明信息符合國家安全性要求。
[0003] 當(dāng)下信息檢測(cè)方法為;對(duì)待檢測(cè)信息進(jìn)行分詞處理,得到多個(gè)獨(dú)立的詞語,然后將 每個(gè)獨(dú)立的詞語與關(guān)鍵詞庫中的關(guān)鍵詞進(jìn)行比對(duì),當(dāng)詞語與關(guān)鍵詞庫中的關(guān)鍵詞相同時(shí), 判定待檢測(cè)信息為非法信息,即不允許進(jìn)行公布的信息,其中關(guān)鍵詞庫中的關(guān)鍵詞為表明 涉黃、賭、毒、暴力、恐怖等信息的詞。
[0004] 從上述過程中可W看出,現(xiàn)有信息檢測(cè)方法僅能依據(jù)待檢測(cè)信息進(jìn)行分詞后得到 的一組詞中是否含有關(guān)鍵詞來判斷待檢測(cè)信息是否是非法信息,該種判斷方法通常不能對(duì) 檢測(cè)信息進(jìn)行全面判斷,因此現(xiàn)有技術(shù)對(duì)非法信息判斷的正確率還有待提高。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本申請(qǐng)?zhí)峁┮环Nf旨息檢測(cè)方法,用于提局f旨息檢測(cè)的正確率。
[0006] 本申請(qǐng)還提供一種信息檢測(cè)裝置,用W保證上述方法在實(shí)際中的實(shí)現(xiàn)及應(yīng)用。
[0007] 本申請(qǐng)?zhí)峁┑男畔z測(cè)方法和裝置的技術(shù)方案如下:
[0008] -方面,本申請(qǐng)實(shí)施例提供一種信息檢測(cè)方法,所述方法包括:
[0009] 獲取待檢測(cè)f旨息的文本f旨息;
[0010] 將文本信息與預(yù)先建立的多屬性詞庫中的第一屬性詞進(jìn)行比對(duì),其中第一屬性詞 包括關(guān)鍵詞和關(guān)鍵詞的變形詞,變形詞為與關(guān)鍵詞具有相同發(fā)音或者包括同一語素的詞;
[0011] 當(dāng)文本信息中包括第一屬性詞時(shí),將文本信息中位于第一屬性詞前的五個(gè)字符和 位于第一屬性詞后的五個(gè)字符與多屬性詞庫中的第二屬性詞進(jìn)行比對(duì),得到比對(duì)結(jié)果,第 二屬性詞為關(guān)鍵詞的限定詞,限定詞用于對(duì)關(guān)鍵詞進(jìn)行限定;
[0012] 依據(jù)比對(duì)結(jié)果,確定文本信息是否為非法信息。
[0013] 優(yōu)選地,限定詞包括正選詞,正選詞與關(guān)鍵詞構(gòu)成非法詞組;
[0014] 依據(jù)比對(duì)結(jié)果,確定文本信息是否為非法信息包括;當(dāng)比對(duì)結(jié)果表明文本信息中 包括正選詞時(shí),確定文本信息為非法信息;
[0015] 當(dāng)比對(duì)結(jié)果表明文本信息中不包括正選詞時(shí),確定文本信息為合法信息。
[0016] 優(yōu)選地,限定詞包括反選詞,反選詞與關(guān)鍵詞構(gòu)成合法詞組;
[0017] 依據(jù)比對(duì)結(jié)果,確定文本信息是否為非法信息包括;當(dāng)比對(duì)結(jié)果表明文本信息中 不包括反選詞時(shí),確定文本信息為非法信息;
[0018] 當(dāng)比對(duì)結(jié)果表明文本信息中包括反選詞時(shí),確定文本信息為合法信息。
[0019] 優(yōu)選地,獲取待檢測(cè)信息的文本信息包括:
[0020] 確定待檢測(cè)信息中符號(hào)的位置;
[0021] 從所確定位置處刪除符號(hào),得到文本信息。
[0022] 優(yōu)選地,多屬性詞庫的預(yù)先建立過程包括:
[0023] 獲取任一待檢測(cè)對(duì)象的關(guān)鍵詞;
[0024] 對(duì)關(guān)鍵詞進(jìn)行屬性分析,得到關(guān)鍵詞的變形詞和第二屬性詞;
[0025] 依據(jù)所獲取的關(guān)鍵詞,確定所得到的變形詞和第二屬性詞在多屬性詞庫中的位 置;
[0026] 將所得到的變形詞和第二屬性詞寫入所確定的位置中。
[0027] 另一方面,本申請(qǐng)?zhí)峁┮环N信息檢測(cè)裝置,所述裝置包括:
[0028] 獲取模塊,用于獲取待檢測(cè)信息的文本信息;
[0029] 第一比對(duì)模塊,用于將文本信息與預(yù)先建立的多屬性詞庫中的第一屬性詞進(jìn)行比 對(duì),其中第一屬性詞包括關(guān)鍵詞和關(guān)鍵詞的變形詞,變形詞為與關(guān)鍵詞具有相同發(fā)音或者 包括同一語素的詞;
[0030] 第二比對(duì)模塊,用于當(dāng)文本信息中包括第一屬性詞時(shí),將文本信息中位于第一屬 性詞前的五個(gè)字符和位于第一屬性詞后的五個(gè)字符與多屬性詞庫中的第二屬性詞進(jìn)行比 對(duì),得到比對(duì)結(jié)果,第二屬性詞為關(guān)鍵詞的限定詞,限定詞用于對(duì)關(guān)鍵詞進(jìn)行限定;
[0031] 確定模塊,用于依據(jù)比對(duì)結(jié)果,確定文本信息是否為非法信息。
[0032] 優(yōu)選地,限定詞包括正選詞,正選詞與關(guān)鍵詞構(gòu)成非法詞組;
[0033] 確定模塊用于當(dāng)比對(duì)結(jié)果表明文本信息中包括正選詞時(shí),確定文本信息為非法信 息;W及用于當(dāng)比對(duì)結(jié)果表明文本信息中不包括正選詞時(shí),確定文本信息為合法信息。
[0034] 優(yōu)選地,限定詞包括反選詞,反選詞與關(guān)鍵詞構(gòu)成合法詞組;
[0035] 確定模塊用于當(dāng)比對(duì)結(jié)果表明文本信息中不包括反選詞時(shí),確定文本信息為非法 信息;W及用于當(dāng)比對(duì)結(jié)果表明文本信息中包括反選詞時(shí),確定文本信息為合法信息。
[0036] 優(yōu)選地,獲取模塊包括:
[0037] 確定單元,用于確定待檢測(cè)信息中符號(hào)的位置;
[0038] 刪除單元,用于從所確定位置處刪除符號(hào),得到文本信息。
[003引優(yōu)選地,信息檢測(cè)裝置還包括:
[0040] 關(guān)鍵詞獲取模塊,用于獲取任一待檢測(cè)對(duì)象的關(guān)鍵詞;
[0041] 分析模塊,用于對(duì)關(guān)鍵詞進(jìn)行屬性分析,得到關(guān)鍵詞的變形詞和第二屬性詞;
[0042] 位置獲取模塊,用于依據(jù)所獲取的關(guān)鍵詞,確定所得到的變形詞和第二屬性詞在 多屬性詞庫中的位置;
[0043] 編寫模塊,用于將所得到的變形詞和第二屬性詞寫入所確定的位置中。
[0044] 與現(xiàn)有技術(shù)相比,本申請(qǐng)包括W下優(yōu)點(diǎn):
[0045] 在本申請(qǐng)中,首先獲取待檢測(cè)信息的文本信息;將文本信息與預(yù)先建立的多屬性 詞庫中第一屬性詞進(jìn)行比對(duì);當(dāng)文本信息包括第一屬性詞時(shí),將文本信息中位于第一屬性 詞前的五個(gè)字符和位于第一屬性詞后的五個(gè)字符與第二屬性詞進(jìn)行比對(duì)W得到比對(duì)結(jié)果, 然后依據(jù)比對(duì)結(jié)果,判斷文本信息是否為非法信息;與現(xiàn)有技術(shù)相比,本申請(qǐng)不僅僅是通過 待測(cè)信息的文本信息是否包括關(guān)鍵詞來判斷其是否是非法信息,還會(huì)進(jìn)一步判斷待測(cè)信息 的文本信息是否包括關(guān)鍵詞的變形詞和文本信息中位于第一屬性詞前的五個(gè)字符和位于 第一屬性詞后的五個(gè)字符是否包括用于對(duì)關(guān)鍵詞進(jìn)行限定的限定詞來最終判定文本信息 是否是非法信息,該種通過W不同詞比較判定非法信息方式相對(duì)于采用單一關(guān)鍵詞判定非 法信息方法,可W對(duì)文本信息進(jìn)行較為全面的檢測(cè),降低單一關(guān)鍵詞導(dǎo)致的判定錯(cuò)誤的幾 率,從而提局f旨息檢測(cè)的正確率。
【專利附圖】
【附圖說明】
[0046] 為了更清楚地說明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可W根據(jù)該些附圖獲得其 他的附圖。
[0047] 圖1為本申請(qǐng)實(shí)施例提供的一種信息檢測(cè)方法的流程圖;
[0048] 圖2為限定詞為正選詞時(shí)本申請(qǐng)實(shí)施例提供的一種信息檢測(cè)方法的第二種流程 圖;
[0049] 圖3為限定詞為反選詞時(shí)本申請(qǐng)實(shí)施例提供的一種信息檢測(cè)方法的第H種流程 圖;
[0050] 圖4為本申請(qǐng)實(shí)施例提供的一種信息檢測(cè)方法多屬性詞庫的預(yù)先建立過程流程 圖;
[0051] 圖5為本申請(qǐng)實(shí)施例提供的一種信息檢測(cè)方法的工作人員輸入界面示意圖;
[0052] 圖6為本申請(qǐng)實(shí)施例提供的一種信息檢測(cè)裝置的示意圖;
[0053] 圖7為本申請(qǐng)實(shí)施例提供的一種信息檢測(cè)裝置的獲取模塊的示意圖;
[0054] 圖8為本申請(qǐng)實(shí)施例提供的一種信息檢測(cè)裝置中用于建立多屬性詞庫的相關(guān)模 塊示意圖。
【具體實(shí)施方式】
[0055] 為了使本領(lǐng)域技術(shù)人員更好地理解本申請(qǐng),下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖, 對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng) 一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有 做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
[0056] 請(qǐng)參閱圖1,其示出了本申請(qǐng)實(shí)施例提供的一種信息檢測(cè)方法的流程圖,可W包括 W下步驟:
[0057] 101 ;獲取待檢測(cè)信息的文本信息。
[0058] 其中文本信息是待檢測(cè)信息中文字部分組成的信息,該文本信息不包括標(biāo)點(diǎn)符號(hào) 等非文字信息,在本申請(qǐng)實(shí)施例中獲取文本信息的一種可行方式是:將待檢測(cè)信息中的符 號(hào)全部刪除,剩下部分即為待檢測(cè)信息的文本信息。
[0059] 例如待檢測(cè)信息為;10月12日6時(shí),滄源縣禁毒大隊(duì)經(jīng)過鎮(zhèn)密偵查,在小黑江至 雙江方向兩公里處設(shè)卡攔截販毒車輛。6時(shí)40分,一輛微型面包車不聽禁毒民警警告強(qiáng)行 沖卡。在經(jīng)過處理后得到的文本信息為;1〇月12日6時(shí)滄源縣禁毒大隊(duì)經(jīng)過鎮(zhèn)密偵查在 小黑江至雙江方向兩公里處設(shè)卡攔截販毒車輛6時(shí)40分一輛微型面包車不聽禁毒民警警 告強(qiáng)行沖卡,從本例可W看出文本信息僅包括文字。
[0060] 102;將文本信息與預(yù)先建立的多屬性詞庫中的第一屬性詞進(jìn)行比對(duì)。
[0061] 在本申請(qǐng)實(shí)施例中第一屬性詞包括關(guān)鍵詞和關(guān)鍵詞的變形詞,其中關(guān)鍵詞是可確 定文本信息為非法信息的基本詞,例如涉黃、賭、毒、暴力、恐怖等違反國家相關(guān)規(guī)定的信息 的詞。
[0062] 變形詞為與關(guān)鍵詞具有相同發(fā)音或者包括同一語素的詞,其危害程度和關(guān)鍵詞的 危害程度相同,用于排除待檢測(cè)信息為非法信息時(shí)人為書寫錯(cuò)誤關(guān)鍵詞該種情況。比如關(guān) 鍵詞為發(fā)票時(shí),其變形詞可W是發(fā)飄、發(fā)漂等;再例如關(guān)鍵詞為槍,其變形詞可W是木倉等。
[0063] 在將文本信息與多屬性詞庫中的第一屬性詞進(jìn)行比對(duì)時(shí),是將文本信息與關(guān)鍵詞 和變形詞依次進(jìn)行比對(duì),W確定文本信息中是否包括第一屬性詞;如果文本信息中不包括 第一屬性詞,則該文本信息為合法信息,結(jié)束操作;如果文本信息中包括第一屬性詞,則該 文本信息可能為非法信息,此時(shí)需要將文本信息與其他詞進(jìn)行比較,W最終確定其是否為 非法信息。
[0064] 103;當(dāng)文本信息中包括第一屬性詞時(shí),將文本信息中位于第一屬性詞前的五個(gè) 字符和位于第一屬性詞后的五個(gè)字符與多屬性詞庫中的第二屬性詞進(jìn)行比對(duì),得到比對(duì)結(jié) 果。
[0065] 其中第二屬性詞為關(guān)鍵詞的限定詞,用于對(duì)關(guān)鍵詞進(jìn)行限定。所謂限定可W是對(duì) 關(guān)鍵詞的使用范圍、使用方式、使用途徑等的一些限定;在詞組順序中限定詞可W位于關(guān)鍵 詞之前,如"吸食冰毒"中的"吸食",該限定詞位于關(guān)鍵詞之前且用于限定冰毒的使用方式; 當(dāng)然在詞組順序中限定詞也可W位于關(guān)鍵詞之后,如"冰毒檢測(cè)"的"檢測(cè)",該限定詞位于 關(guān)鍵詞之后且用于限定使用途徑。
[0066] 在本申請(qǐng)實(shí)施例中第一屬性詞包括關(guān)鍵詞和變形詞,當(dāng)文本信息包括關(guān)鍵詞時(shí), 則將文本信息中位于關(guān)鍵詞前的五個(gè)字符和位于關(guān)鍵詞后的五個(gè)字符與第二屬性詞進(jìn)行 比對(duì);當(dāng)文本信息包括變形詞時(shí),則將文本信息中位于變形詞前的五個(gè)字符和位于變形詞 后的五個(gè)字符與第二屬性詞進(jìn)行比對(duì);當(dāng)文本信息同時(shí)包括關(guān)鍵詞和變形詞時(shí),則將文本 信息中位于關(guān)鍵詞前的五個(gè)字符和位于關(guān)鍵詞后的五個(gè)字符,W及位于變形詞前的五個(gè)字 符和位于變形詞后的五個(gè)字符均與第二屬性詞進(jìn)行比對(duì)。
[0067] 作為第二屬性詞的限定詞在文本信息中的位置靠近關(guān)鍵詞,因此將文本信息中第 一屬性詞的前、后各五個(gè)字符共十個(gè)字符與限定詞進(jìn)行比對(duì),W確定上述十個(gè)字符是否包 括第二屬性詞,由此可W提高文本信息在檢測(cè)是否包括第二屬性詞時(shí)的精確性。假如文本 信息中的第二屬性詞和第一屬性詞中間隔了五個(gè)及五個(gè)W上字符,第二屬性詞就不能對(duì)第 一屬性詞起到限定作用,此時(shí)則不需要根據(jù)第二屬性詞判斷文本信息是否違法。
[0068] 104 ;依據(jù)比對(duì)結(jié)果,確定文本信息是否為非法信息。
[0069] 在本申請(qǐng)實(shí)施例中在獲取比對(duì)結(jié)果后,可W依據(jù)比對(duì)結(jié)果從語義上判斷文本信息 是否為非法信息。
[0070] 應(yīng)用上述技術(shù)方案,首先獲取待檢測(cè)信息的文本信息;將文本信息與預(yù)先建立的 多屬性詞庫中第一屬性詞進(jìn)行比對(duì);當(dāng)文本信息包括第一屬性詞時(shí),將文本信息中位于第 一屬性詞前的五個(gè)字符和位于第一屬性詞后的五個(gè)字符與第二屬性詞進(jìn)行比對(duì)W得到比 對(duì)結(jié)果,然后依據(jù)比對(duì)結(jié)果,判斷文本信息是否為非法信息;與現(xiàn)有技術(shù)相比,本申請(qǐng)不僅 僅是通過待測(cè)信息的文本信息是否包括關(guān)鍵詞來判其是否是非法信息,還會(huì)進(jìn)一步判斷待 測(cè)信息的文本信息是否包括關(guān)鍵詞的變形詞和文本信息中位于第一屬性詞前的五個(gè)字符 和位于第一屬性詞后的五個(gè)字符是否包括用于對(duì)關(guān)鍵詞進(jìn)行限定的限定詞來最終判定文 本信息是否是非法信息,該種通過W不同詞比較判定非法信息方式相對(duì)于采用單一關(guān)鍵詞 判定非法信息方法,可W對(duì)文本信息進(jìn)行較為全面的檢測(cè),降低單一關(guān)鍵詞導(dǎo)致的判定錯(cuò) 誤的幾率,從而提高信息檢測(cè)的正確率。
[0071] 在本申請(qǐng)實(shí)施例中通過舉例來例證本申請(qǐng)W不同詞比較判定非法信息方式相對(duì) 于采用單一關(guān)鍵詞判定非法信息方法可W提高信息檢測(cè)的正確率:
[0072] 如文本信息為;"出售一種商品該種商品可W檢測(cè)食品中是否含有冰毒成分",關(guān) 鍵詞為;冰毒,其限定詞為;檢測(cè)。在采用現(xiàn)有單一關(guān)鍵詞進(jìn)行判斷時(shí),該文本信息中包括 關(guān)鍵詞"冰毒",則采用單一關(guān)鍵詞判斷時(shí)勢(shì)必將該文本信息判定為非法信息。但是通過語 義分析可知該文本信息實(shí)際為合法信息,單一關(guān)鍵詞的判斷結(jié)果錯(cuò)誤。當(dāng)采用本申請(qǐng)實(shí)施 例提供的信息檢測(cè)方式時(shí),首先通過關(guān)鍵詞判斷出該文本信息有可能為非法信息,其次將 該文本信息與限定詞"檢測(cè)"進(jìn)行比較,得到比對(duì)結(jié)果為文本信息中包括檢測(cè)該一限定詞, 然后依據(jù)比對(duì)結(jié)果從從語義上判斷文本信息為合法信息,判斷結(jié)果正確。由該例子可W證 明本申請(qǐng)實(shí)施例提供的信息檢測(cè)方法可W提高信息檢測(cè)的正確率。
[0073] 下面將W限定詞包括正選詞或者反選詞來對(duì)本申請(qǐng)實(shí)施例中依據(jù)比對(duì)結(jié)果確定 文本信息是否為非法信息進(jìn)行說明。其中正選詞和關(guān)鍵詞構(gòu)成非法詞組,如"發(fā)票"的正選 詞包括"代開"、"出售"等,當(dāng)文本信息中同時(shí)包括正選詞和關(guān)鍵詞時(shí),該文本信息為非法信 息。相應(yīng)的反選詞與關(guān)鍵詞構(gòu)成合法詞組,例如"冰毒"的反選詞包括"試紙"、"檢測(cè)"等, 當(dāng)文本信息中包括反選詞和關(guān)鍵詞時(shí),該文本為合法信息。從正選詞和反選詞來看,兩者對(duì) 文本信息的判斷方式不同,具體可W參閱圖2和圖3所示。
[0074] 其中圖2是限定詞為正選詞時(shí),本申請(qǐng)實(shí)施例提供的信息檢測(cè)方法的第二種流程 圖,可W包括W下步驟:
[0075] 101 ;獲取待檢測(cè)信息的文本信息。將待檢測(cè)信息中的符號(hào)全部刪除,剩下部分即 為待檢測(cè)信息的文本信息。
[0076] 102;將文本信息與預(yù)先建立的多屬性詞庫中的第一屬性詞進(jìn)行比對(duì),其中第一屬 性詞包括關(guān)鍵詞和關(guān)鍵詞的變形詞,變形詞為與關(guān)鍵詞具有相同發(fā)音或者包括同一語素的 詞。
[0077] 103;當(dāng)文本信息中包括第一屬性詞時(shí),將文本信息中位于第一屬性詞前的五個(gè) 字符和位于第一屬性詞后的五個(gè)字符與多屬性詞庫中的第二屬性詞進(jìn)行比對(duì),得到比對(duì)結(jié) 果。第二屬性詞為關(guān)鍵詞的限定詞,用于對(duì)關(guān)鍵詞進(jìn)行限定。
[0078] 105 ;當(dāng)比對(duì)結(jié)果表明文本信息中包括正選詞時(shí),確定文本信息為非法信息。
[0079] 106 ;當(dāng)比對(duì)結(jié)果表明文本信息中不包括正選詞時(shí),確定文本信息為合法信息。
[0080] 圖3是限定詞為反選詞時(shí),本申請(qǐng)實(shí)施例提供的信息檢測(cè)方法的第H種流程圖, 可W包括W下步驟:
[0081] 101 ;獲取待檢測(cè)f旨息的文本f旨息。
[0082] 將待檢測(cè)信息中的符號(hào)全部刪除,剩下部分即為待檢測(cè)信息的文本信息。
[0083] 102;將文本信息與預(yù)先建立的多屬性詞庫中的第一屬性詞進(jìn)行比對(duì),其中第一屬 性詞包括關(guān)鍵詞和關(guān)鍵詞的變形詞,變形詞為與關(guān)鍵詞具有相同發(fā)音或者包括同一語素的 詞。
[0084] 103 ;當(dāng)文本信息中包括第一屬性詞時(shí),將文本信息中位于第一屬性詞前的五個(gè) 字符和位于第一屬性詞后的五個(gè)字符與多屬性詞庫中的第二屬性詞進(jìn)行比對(duì),得到比對(duì)結(jié) 果。第二屬性詞為關(guān)鍵詞的限定詞,用于對(duì)關(guān)鍵詞進(jìn)行限定。
[0085] 107 ;當(dāng)比對(duì)結(jié)果表明文本信息中不包括反選詞時(shí),確定文本信息為非法信息;
[0086] 108;當(dāng)比對(duì)結(jié)果表明文本信息中包括反選詞時(shí),確定文本信息為合法信息。
[0087] 需要說明的一點(diǎn)是;本申請(qǐng)實(shí)施例提供的信息檢測(cè)方法還可W同時(shí)對(duì)文本信息 是否包括正選詞和反選詞進(jìn)行判斷,當(dāng)通過正選詞或者反選詞判斷出文本信息為非法信息 時(shí),則確定文本信息為非法信息。
[0088] 上述所有實(shí)施例中還包括多屬性詞庫的預(yù)先建立過程,請(qǐng)參閱圖4,其示出了本申 請(qǐng)實(shí)施例中建立多屬性詞庫的過程,可W包括W下步驟:
[0089] 401 ;獲取任一待檢測(cè)對(duì)象的關(guān)鍵詞。
[0090] 其中待檢測(cè)對(duì)象為存在于文本信息中可能會(huì)導(dǎo)致文本信息為非法信息的事物,女口 前述冰毒即為一待檢測(cè)對(duì)象,那么獲取到的關(guān)鍵詞即為"冰毒"。
[0091] 402;對(duì)關(guān)鍵詞進(jìn)行屬性分析,得到關(guān)鍵詞的變形詞和第二屬性詞。
[0092] 其中對(duì)關(guān)鍵詞的屬性分析可W是由工作人員完成,在分析其屬性后輸入其認(rèn)為的 變形詞和第二屬性詞。例如可W為工作人員提供圖5所示的界面,由工作人員將其認(rèn)為的 變形詞和第二屬性詞寫入該界面的相應(yīng)位置,從而得到關(guān)鍵詞的變形詞和第二屬性詞。
[0093] 403;依據(jù)所獲取的關(guān)鍵詞,確定所得到的變形詞和第二屬性詞在多屬性詞庫中的 位置。
[0094] 在獲取到關(guān)鍵詞、變形詞和第二屬性詞后,首先需要確定關(guān)鍵詞在多屬性詞庫中 的位置W及關(guān)鍵詞的第二屬性詞(即限定詞)為正選詞還是反選詞,然后依據(jù)關(guān)鍵詞的位 置確定與關(guān)鍵詞在同一行的位置作為變形詞和第二屬性詞在多屬性詞庫中的位置。
[0095] 404 ;將所得到的變形詞和第二屬性詞寫入所確定的位置中。
[009引 W表1為例,表1是本申請(qǐng)實(shí)施例中多屬性詞庫的一種形式,其示出了關(guān)鍵詞、變 形詞和第二屬性詞在多屬性詞庫中的存儲(chǔ)方式,其中"X"表示該詞不存在。
[0097] 表1多屬性詞庫的一種形式
[0098]
【權(quán)利要求】
1. 一種信息檢測(cè)方法,其特征在于,所述方法包括: 獲取待檢測(cè)信息的文本信息; 將所述文本信息與預(yù)先建立的多屬性詞庫中的第一屬性詞進(jìn)行比對(duì),其中所述第一屬 性詞包括關(guān)鍵詞和所述關(guān)鍵詞的變形詞,所述變形詞為與所述關(guān)鍵詞具有相同發(fā)音或者包 括同一語素的詞; 當(dāng)所述文本信息中包括所述第一屬性詞時(shí),將所述文本信息中位于所述第一屬性詞前 的五個(gè)字符和位于所述第一屬性詞后的五個(gè)字符與所述多屬性詞庫中的第二屬性詞進(jìn)行 比對(duì),得到比對(duì)結(jié)果,所述第二屬性詞為所述關(guān)鍵詞的限定詞,所述限定詞用于對(duì)所述關(guān)鍵 詞進(jìn)行限定; 依據(jù)所述比對(duì)結(jié)果,確定所述文本信息是否為非法信息。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述限定詞包括正選詞,所述正選詞與所 述關(guān)鍵詞構(gòu)成非法詞組; 所述依據(jù)所述比對(duì)結(jié)果,確定所述文本信息是否為非法信息包括:當(dāng)所述比對(duì)結(jié)果表 明所述文本信息中包括所述正選詞時(shí),確定所述文本信息為非法信息; 當(dāng)所述比對(duì)結(jié)果表明所述文本信息中不包括所述正選詞時(shí),確定所述文本信息為合法 信息。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述限定詞包括反選詞,所述反選詞與所 述關(guān)鍵詞構(gòu)成合法詞組; 所述依據(jù)所述比對(duì)結(jié)果,確定所述文本信息是否為非法信息包括:當(dāng)所述比對(duì)結(jié)果表 明所述文本信息中不包括所述反選詞時(shí),確定所述文本信息為非法信息; 當(dāng)所述比對(duì)結(jié)果表明所述文本信息中包括所述反選詞時(shí),確定所述文本信息為合法信 肩、。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取待檢測(cè)信息的文本信息包括: 確定所述待檢測(cè)信息中符號(hào)的位置; 從所確定位置處刪除所述符號(hào),得到所述文本信息。
5. 根據(jù)權(quán)利要求1至4任意一項(xiàng)所述的方法,其特征在于,多屬性詞庫的預(yù)先建立過程 包括: 獲取任一待檢測(cè)對(duì)象的關(guān)鍵詞; 對(duì)所述關(guān)鍵詞進(jìn)行屬性分析,得到所述關(guān)鍵詞的變形詞和所述第二屬性詞; 依據(jù)所獲取的所述關(guān)鍵詞,確定所得到的所述變形詞和所述第二屬性詞在所述多屬性 詞庫中的位置; 將所得到的所述變形詞和所述第二屬性詞寫入所確定的位置中。
6. -種信息檢測(cè)裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取待檢測(cè)信息的文本信息; 第一比對(duì)模塊,用于將所述文本信息與預(yù)先建立的多屬性詞庫中的第一屬性詞進(jìn)行比 對(duì),其中所述第一屬性詞包括關(guān)鍵詞和所述關(guān)鍵詞的變形詞,所述變形詞為與所述關(guān)鍵詞 具有相同發(fā)音或者包括同一語素的詞; 第二比對(duì)模塊,用于當(dāng)所述文本信息中包括所述第一屬性詞時(shí),將所述文本信息中位 于所述第一屬性詞前的五個(gè)字符和位于所述第一屬性詞后的五個(gè)字符與所述多屬性詞庫 中的第二屬性詞進(jìn)行比對(duì),得到比對(duì)結(jié)果,所述第二屬性詞為所述關(guān)鍵詞的限定詞,所述限 定詞用于對(duì)所述關(guān)鍵詞進(jìn)行限定; 確定模塊,用于依據(jù)所述比對(duì)結(jié)果,確定所述文本信息是否為非法信息。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述限定詞包括正選詞,所述正選詞與所 述關(guān)鍵詞構(gòu)成非法詞組; 所述確定模塊用于當(dāng)所述比對(duì)結(jié)果表明所述文本信息中包括所述正選詞時(shí),確定所述 文本信息為非法信息;以及用于當(dāng)所述比對(duì)結(jié)果表明所述文本信息中不包括所述正選詞 時(shí),確定所述文本信息為合法信息。
8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述限定詞包括反選詞,所述反選詞與所 述關(guān)鍵詞構(gòu)成合法詞組; 所述確定模塊用于當(dāng)所述比對(duì)結(jié)果表明所述文本信息中不包括所述反選詞時(shí),確定所 述文本信息為非法信息;以及用于當(dāng)所述比對(duì)結(jié)果表明所述文本信息中包括所述反選詞 時(shí),確定所述文本信息為合法信息。
9. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲取模塊包括: 確定單元,用于確定所述待檢測(cè)信息中符號(hào)的位置; 刪除單元,用于從所確定位置處刪除所述符號(hào),得到所述文本信息。
10. 根據(jù)權(quán)利要求6至9任意一項(xiàng)所述的裝置,其特征在于,所述裝置還包括: 關(guān)鍵詞獲取|吳塊,用于獲取任一待檢測(cè)對(duì)象的關(guān)鍵詞; 分析模塊,用于對(duì)所述關(guān)鍵詞進(jìn)行屬性分析,得到所述關(guān)鍵詞的變形詞和所述第二屬 性詞; 位置獲取模塊,用于依據(jù)所獲取的所述關(guān)鍵詞,確定所得到的所述變形詞和所述第二 屬性詞在所述多屬性詞庫中的位置; 編寫模塊,用于將所得到的所述變形詞和所述第二屬性詞寫入所確定的位置中。
【文檔編號(hào)】G06F17/30GK104331475SQ201410611713
【公開日】2015年2月4日 申請(qǐng)日期:2014年11月4日 優(yōu)先權(quán)日:2014年11月4日
【發(fā)明者】張揚(yáng)蕾, 張麗輝, 馮曉娜, 劉建輝, 文帥營 申請(qǐng)人:鄭州悉知信息技術(shù)有限公司