一種敏感詞過(guò)濾方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及字符串多模式匹配領(lǐng)域,尤其涉及一種敏感詞過(guò)濾方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)站內(nèi)容日益豐富,互聯(lián)網(wǎng)的開(kāi)放性向用戶提供了UGC(UserGenerated Content,用戶生產(chǎn)內(nèi)容)網(wǎng)站或者社交應(yīng)用軟件等,用戶共享信息的同時(shí)伴隨著許多不符合互聯(lián)網(wǎng)使用環(huán)境甚至違反國(guó)家法律法規(guī)的內(nèi)容,如政治敏感、色情詞匯等等,給互聯(lián)網(wǎng)管理工作帶來(lái)了巨大的壓力。
[0003]文本內(nèi)容的發(fā)布渠道越來(lái)越多樣,發(fā)布者也越來(lái)越大眾化,有時(shí)甚至是匿名的,面對(duì)紛繁大量的文本,互聯(lián)網(wǎng)管理者希望能從中過(guò)濾出非法的和對(duì)自己不利的信息,此外,內(nèi)容的搜集者在從網(wǎng)絡(luò)上搜集文本時(shí),也希望能通過(guò)有效的技術(shù)手段獲取自己感興趣的信息,而排除掉大量的無(wú)關(guān)信息,從而營(yíng)造一個(gè)良好的互聯(lián)網(wǎng)使用環(huán)境。
[0004]現(xiàn)有技術(shù)中的敏感詞過(guò)濾方法中敏感詞匹配模式單一,容易造成敏感詞的誤匹配或者漏匹配,并且匹配策略性能較低,給敏感詞的過(guò)濾速度帶來(lái)了很大的壓力。
【發(fā)明內(nèi)容】
[0005]為克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的是:提供一種敏感詞過(guò)濾方法及系統(tǒng),一方面有效減少敏感詞的誤判,另一方面利用不同形式的過(guò)濾策略及近似匹配,有效減少敏感詞的漏判,從而保證敏感詞過(guò)濾的準(zhǔn)確率和召回率。
[0006]為了解決【背景技術(shù)】中的技術(shù)問(wèn)題,本發(fā)明提供了一種敏感詞過(guò)濾方法,包括以下步驟:
[0007]S1、對(duì)敏感詞、排除詞以及文本的字符進(jìn)行規(guī)格化處理,對(duì)敏感詞規(guī)格化處理形成敏感詞管理規(guī)則,對(duì)排除詞規(guī)格化處理形成排除詞管理規(guī)則;
[0008]S2、根據(jù)所述敏感詞管理規(guī)則和排除詞管理規(guī)則建立敏感詞過(guò)濾模型,利用所述敏感詞過(guò)濾模型對(duì)規(guī)格化處理后的文本的字符或分詞進(jìn)行掃描;
[0009]S3、根據(jù)敏感詞過(guò)濾策略,將所述敏感詞過(guò)濾模型與被掃描的字符或者分詞進(jìn)行匹配,判斷所述字符或者分詞是否為敏感詞或者排除詞;
[0010]S4、若判斷結(jié)果為敏感詞,且根據(jù)敏感詞的上下文判定所述敏感詞成立,則記錄所述敏感詞的屬性,否則,執(zhí)行S3,直至完成對(duì)所述文本的掃描。
[0011]優(yōu)選地,所述步驟S3中的敏感詞過(guò)濾策略包括缺省敏感詞過(guò)濾策略、英文敏感詞過(guò)濾策略、網(wǎng)址敏感詞過(guò)濾策略、中文敏感詞過(guò)濾策略、中文分詞敏感詞過(guò)濾策略和中文敏感詞近似匹配過(guò)濾策略。
[0012]進(jìn)一步地,所述缺省敏感詞過(guò)濾策略為以字符作為文本的基本組成單元,過(guò)濾非英文、非網(wǎng)址、非中文形式的敏感詞;所述英文敏感詞過(guò)濾策略為過(guò)濾英文敏感詞,以及中文敏感詞的全屏和拼音縮寫;所述網(wǎng)址敏感詞過(guò)濾策略為過(guò)濾網(wǎng)址敏感詞;所述中文敏感詞過(guò)濾策略為過(guò)濾以字符為基本組成單元的中文敏感詞;所述中文分詞敏感詞過(guò)濾策略為過(guò)濾以分詞為基本組成單元的中文敏感詞;所述中文敏感詞近似匹配過(guò)濾策略為采用跳躍式掃描文本,利用中文敏感詞及其殘缺詞對(duì)高敏感級(jí)別的中文敏感詞進(jìn)行匹配。
[0013]本發(fā)明還提供了一種敏感詞過(guò)濾系統(tǒng),包括以下模塊:
[0014]規(guī)格化處理模塊,用于對(duì)敏感詞、排除詞以及文本的字符進(jìn)行規(guī)格化處理;
[0015]敏感詞管理模塊,用于通過(guò)所述規(guī)格化處理模塊對(duì)敏感詞進(jìn)行規(guī)格化處理,進(jìn)而維護(hù)管理敏感詞庫(kù)中的敏感詞;
[0016]排除詞管理模塊,用于通過(guò)所述規(guī)格化處理模塊對(duì)排除詞進(jìn)行規(guī)格化處理,進(jìn)而維護(hù)管理敏感詞對(duì)應(yīng)的排除詞;
[0017]敏感詞過(guò)濾模塊,用于根據(jù)敏感詞管理模塊和排除詞管理模塊建立的過(guò)濾模型,實(shí)現(xiàn)對(duì)文本中敏感詞的匹配與判定,并匯總過(guò)濾結(jié)果。
[0018]優(yōu)選地,所述敏感詞過(guò)濾模塊包括缺省敏感詞過(guò)濾子模塊、英文敏感詞過(guò)濾子模塊、網(wǎng)址敏感詞過(guò)濾子模塊、中文敏感詞過(guò)濾子模塊、中文分詞敏感詞過(guò)濾子模塊及中文敏感詞近似匹配過(guò)濾子模塊。
[0019]具體地,所述規(guī)格化處理模塊進(jìn)一步用于:將多個(gè)連續(xù)空白字符替換為單個(gè)空格字符、將繁體中文字符轉(zhuǎn)換為簡(jiǎn)體中文字符、將大寫字母轉(zhuǎn)為小寫字母、僅保留多個(gè)連續(xù)標(biāo)點(diǎn)符號(hào)的第一個(gè)、對(duì)英文單詞進(jìn)行詞形還原。
[OO2O ]具體地,所述過(guò)濾模型為由敏感詞及其排除詞構(gòu)造形成的Aho -Cor a s i c k自動(dòng)機(jī),所述敏感詞過(guò)濾模塊包括的各子模塊利用Aho-Corasick自動(dòng)機(jī)匹配算法,并行執(zhí)行對(duì)文本的敏感詞過(guò)濾。
[0021 ]進(jìn)一步地,所述缺省敏感詞過(guò)濾子模塊用于過(guò)濾非英文、非網(wǎng)址、非中文形式的敏感詞,以字符作為文本的基本組成單元;所述英文敏感詞過(guò)濾子模塊用于過(guò)濾英文敏感詞,以及中文敏感詞的全屏和拼音縮寫;所述網(wǎng)址敏感詞過(guò)濾子模塊用于過(guò)濾網(wǎng)址敏感詞;所述中文敏感詞過(guò)濾子模塊用于過(guò)濾以字符為基本組成單元的中文敏感詞;所述中文分詞敏感詞過(guò)濾子模塊用于過(guò)濾以分詞為基本組成單元的中文敏感詞;所述中文敏感詞近似匹配過(guò)濾子模塊用于采用跳躍式掃描文本,利用中文敏感詞及其殘缺詞對(duì)高敏感級(jí)別的中文敏感詞進(jìn)行匹配。
[0022]具體地,所述敏感詞過(guò)濾模塊在匹配過(guò)程中,即匹配敏感詞,又匹配排除詞;在判定過(guò)程中,如果敏感詞作為排除詞的子串出現(xiàn),則不添加到過(guò)濾結(jié)果中,否則,將所述敏感詞及其出現(xiàn)位置和敏感級(jí)別添加到所述過(guò)濾結(jié)果中。
[0023]本發(fā)明的敏感詞過(guò)濾系統(tǒng)還包括詞庫(kù)數(shù)據(jù)庫(kù)模塊,用于存儲(chǔ)敏感詞和排除詞,對(duì)所述敏感詞和排除詞的管理包括對(duì)所述詞庫(kù)數(shù)據(jù)庫(kù)模塊的增加、修改、刪除和查詢操作。
[0024]采用上述技術(shù)方案,本發(fā)明具有如下有益效果:①針對(duì)不同存在形式的敏感詞,采用專門的過(guò)濾策略,保證了過(guò)濾中文敏感詞、英文敏感詞、網(wǎng)址敏感詞的高準(zhǔn)確率和高召回率;②通過(guò)特殊的字符規(guī)格化等預(yù)處理技術(shù),消除了特殊字符、不同的字符格式等造成的干擾;③通過(guò)排除詞和其它匹配成功后的判定規(guī)則,減少了敏感詞在特定上下文的誤判;④支持分詞,減少了因組詞錯(cuò)誤而引起的誤判;⑤針對(duì)敏感級(jí)別高的中文敏感詞,能夠做到一定程度的近似匹配,提高了召回率;⑥采用成熟高效的Aho-Corasick自動(dòng)機(jī)算法和多線程分布式技術(shù),解決了過(guò)濾大量敏感詞的性能問(wèn)題。綜上所述,本發(fā)明的敏感詞過(guò)濾方法及系統(tǒng)一方面能夠有效減少敏感詞的誤判,另一方面利用不同形式的過(guò)濾策略及近似匹配,有效減少敏感詞的漏判,保證了敏感詞過(guò)濾的準(zhǔn)確率和召回率。
【附圖說(shuō)明】
[0025]為了更清楚地說(shuō)明本發(fā)明的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它附圖。
[0026]圖1是本發(fā)明實(shí)施例提供的敏感詞過(guò)濾系統(tǒng)的模塊示意圖;
[0027]圖2是本發(fā)明實(shí)施例提供的規(guī)格化處理模塊的工作流程圖;
[0028]圖3是本發(fā)明實(shí)施例提供的敏感詞與排除詞的實(shí)體關(guān)系圖;
[0029]圖4是本發(fā)明實(shí)施例提供的敏感詞過(guò)濾方法的流程圖;
[0030]圖5是本發(fā)明實(shí)施例提供的用于中文敏感詞近似匹配的Aho-Corasick自動(dòng)機(jī)示例圖;
[0031]圖6是本發(fā)明實(shí)施例提供的中文敏感詞近似匹配的掃描路徑示例圖;
[0032]圖7是本發(fā)明實(shí)施例提供的中文敏感詞近似匹配過(guò)程的狀態(tài)轉(zhuǎn)移示例圖。
【具體實(shí)施方式】
[0033]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0034]實(shí)施例1:圖4是本發(fā)明實(shí)施例提供的敏感詞過(guò)濾方法的流程圖,從圖中可以清楚地看出,本實(shí)施例提供的敏感詞過(guò)濾方法包括以下步驟:
[0035]S1、對(duì)敏感詞、排除詞以及文本的字符進(jìn)行規(guī)格化處理,對(duì)敏感詞規(guī)格化處理形成敏感詞管理規(guī)則,對(duì)排除詞規(guī)格化處理形成排除詞管理規(guī)則;
[0036]S2、根據(jù)所述敏感詞管理規(guī)則和排除詞管理規(guī)則建立敏感詞過(guò)濾模型,利用所述敏感詞過(guò)濾模型對(duì)規(guī)格化處理后的文本的字符或分詞進(jìn)行掃描;
[0037]S3、根據(jù)敏感詞過(guò)濾策略,將所述敏感詞過(guò)濾模型與被掃描的字符或者分詞進(jìn)行匹配,判斷所述字符或者分詞是否為敏感詞或者排除詞;
[0038]S4、若判斷結(jié)果為敏感詞,且根據(jù)敏感詞的上下文判定所述敏感詞成立,則記錄所述敏感詞的屬性,否則,執(zhí)行S3,直至完成對(duì)所述文本的掃描,其中,所述敏感詞主要包括兩個(gè)屬性:存在形式、敏感級(jí)別,敏感詞按存在形式可分為中文敏感詞、英文敏感詞、網(wǎng)址敏感詞和缺省形式敏感詞,中文敏感詞的