本發(fā)明涉及通信互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其是涉及一種判別文本安全性的方法及裝置。
背景技術(shù):
隨著通信互聯(lián)網(wǎng)的迅速發(fā)展,信息傳播的速度越來(lái)越快,人們每天通過(guò)網(wǎng)絡(luò)獲得的信息也日漸增多。但由于信息監(jiān)管的缺失,各種良莠不齊的內(nèi)容例如廣告、詐騙、反動(dòng)等也隨之傳播。此外,該些內(nèi)容傳播的方式也是多種多樣,例如,接收短信時(shí)會(huì)收到垃圾信息,瀏覽論壇會(huì)遇到不愿看到的廣告,在游戲中聊天會(huì)碰到刷屏、污言穢語(yǔ)等。由此可以看出,種種違規(guī)信息的傳播有愈演愈烈的趨勢(shì),該些內(nèi)容不但對(duì)信息的使用者造成很大困擾,例如用戶需要花費(fèi)額外的時(shí)間去處理這些信息,而且一些違法信息也威脅著個(gè)人、公司、社會(huì)和國(guó)家方方面面的安全。因此,抑制違規(guī)信息的傳播在通信互聯(lián)網(wǎng)領(lǐng)域就成了一件迫在眉睫的大事。
現(xiàn)有的違規(guī)信息過(guò)濾方式主要基于三種模式:第一種是人工發(fā)現(xiàn)直接封堵,例如在論壇中版主去監(jiān)管版面。第二種是用戶舉報(bào)后人工封堵,這種模式出現(xiàn)在手機(jī)短信、微信和QQ等即時(shí)通訊工具中。第三種是基于自動(dòng)發(fā)現(xiàn)違規(guī)信息的模式去過(guò)濾,有些也配合人工封堵進(jìn)一步操作,例如很多社會(huì)性網(wǎng)絡(luò)服務(wù)SNS社交網(wǎng)站采用這種模式。
其中,在自動(dòng)發(fā)現(xiàn)違規(guī)信息的模式中,主要采用以下兩種技術(shù):
第一種為敏感詞過(guò)濾,敏感詞過(guò)濾基本方法為,通過(guò)對(duì)文本與敏感詞庫(kù)中的敏感詞進(jìn)行匹配來(lái)查看文本中是否涉嫌違規(guī)信息。如果經(jīng)過(guò)匹配發(fā)現(xiàn)文本中出現(xiàn)敏感詞,則該文本被判定違規(guī)或者疑似違規(guī)。在一些方法中,也可能采取敏感詞組合和篩選的方法進(jìn)行過(guò)濾。
第二種為相似文本匹配,相似文本匹配基本方法為,對(duì)待判定文本與已判 定違規(guī)文本進(jìn)行比較,若二者一致或者相似則對(duì)待判定文本進(jìn)行判定。其中,指紋哈希算法、文本特征向量算法等均屬于此類。
以上兩種技術(shù)雖然實(shí)現(xiàn)了自動(dòng)發(fā)現(xiàn)違規(guī)信息的目的,但是在準(zhǔn)確率和效率方面也存在比較明顯的確定。
針對(duì)敏感詞過(guò)濾來(lái)說(shuō),如果敏感詞配置得當(dāng),基于敏感詞過(guò)濾的方法能發(fā)現(xiàn)絕大多數(shù)違規(guī)信息,覆蓋率比較高。但是根據(jù)實(shí)驗(yàn),相比較敏感詞命中的違規(guī)信息,敏感詞會(huì)命中更多的正常信息。例如“發(fā)票”這樣的詞語(yǔ),除了違規(guī)廣告使用之外,也是生活工作中常見(jiàn)的詞匯。因此單純使用敏感詞過(guò)濾,會(huì)造成很多誤判,可能影響正常的信息交流或加大下一步人工審核的負(fù)擔(dān)。
針對(duì)相似文本匹配來(lái)說(shuō),通過(guò)對(duì)已有判定結(jié)果的文本內(nèi)容進(jìn)行學(xué)習(xí),對(duì)未判定的文本內(nèi)容進(jìn)行判定。通常來(lái)講這種方法具有比較高的準(zhǔn)確率,但也存在兩個(gè)問(wèn)題,一是隨著違規(guī)信息的不斷變化,學(xué)習(xí)文本的數(shù)量會(huì)不斷增長(zhǎng),隨著學(xué)習(xí)庫(kù)的越加龐大,文本匹配的效率會(huì)越來(lái)越慢。二是一些文本會(huì)出現(xiàn)少量語(yǔ)序變化,從而影響最終的匹配結(jié)果。例如“外賣專享,到家美食會(huì)5折”和“到家美食會(huì)5折登錄訂購(gòu)吧”,這兩條文本會(huì)被認(rèn)為是兩個(gè)不同內(nèi)容,而不能被匹配系統(tǒng)做出有效判定。
綜上所述,現(xiàn)有自動(dòng)發(fā)現(xiàn)違規(guī)信息的模式對(duì)文本不能做出有效判斷,并且增加了人工審核的負(fù)擔(dān),存在準(zhǔn)確率及效率較低的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
為了能夠?qū)ξ谋咀龀鲇行袛?,降低人工的判定工作量,提高文本判別的準(zhǔn)確率和效率,本發(fā)明提供了一種判別文本安全性的方法及裝置。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種判別文本安全性的方法,包括:
獲取待判別文本,并提取所述待判別文本的文本字符;
根據(jù)不同判斷條件的判定參數(shù),對(duì)所述文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得不同判斷條件的判定結(jié)果,其中,所述不同判斷條件的判定參數(shù)為根據(jù)預(yù)先存儲(chǔ)的已判定文本獲得的;
根據(jù)所獲得的不同判斷條件的判定結(jié)果,確定所述待判別文本的最終判定結(jié)果。
可選的,所述根據(jù)不同判斷條件的判定參數(shù),對(duì)所述文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得不同判斷條件的判定結(jié)果中,不同判斷條件至少包括:字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配。
可選的,所述根據(jù)不同判斷條件的判定參數(shù),對(duì)所述文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得不同判斷條件的判定結(jié)果之前,所述方法還包括:對(duì)預(yù)先存儲(chǔ)的已判定文本進(jìn)行分析,并從所述已判定文本中分析得到不同判斷條件的判定參數(shù)。
可選的,所述對(duì)預(yù)先存儲(chǔ)的已判定文本進(jìn)行分析,并從所述已判定文本中分析得到不同判斷條件的判定參數(shù),包括:根據(jù)所述已判定文本確定第一判斷條件對(duì)應(yīng)的參考參數(shù),其中,所述第一判斷條件為字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配中的任意一個(gè);根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)所述已判定文本從第一判斷條件進(jìn)行安全性判斷,并計(jì)算判定結(jié)果為第一確定結(jié)果的文本的占比率和誤判率,其中,判定結(jié)果包括第一確定結(jié)果和不確定結(jié)果,第一確定結(jié)果包括正常文本結(jié)果和違規(guī)文本結(jié)果;將所述參考參數(shù)對(duì)應(yīng)的占比率與一占比率閾值進(jìn)行比較,將所述參考參數(shù)對(duì)應(yīng)的誤判率與一誤判率閾值進(jìn)行比較,將占比率大于一占比率閾值且誤判率小于一誤判率閾值對(duì)應(yīng)的參考參數(shù)作為所述第一判斷條件對(duì)應(yīng)的判定參數(shù)。
可選的,在根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)所述已判定文本從第一判斷條件進(jìn)行安全性判斷,并計(jì)算判定結(jié)果為第一確定結(jié)果的文本的占比率和誤判率中,根據(jù)公式計(jì)算判定結(jié)果為第一確定結(jié)果的文本的占比率,其中,R表示所述占比率,WS表示根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)所述已判定文本從第一判斷條件進(jìn)行安全性判斷時(shí),獲得判定結(jié)果為第一確定結(jié)果的文本的數(shù)量,MS表示多個(gè)所述已判定文本的總數(shù)量;根據(jù)公式計(jì)算判定結(jié)果為第一確定結(jié)果的文本的誤判率,其中,F(xiàn)表示所述誤判率,WS表示根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)所述已判定文本從第一判斷條件進(jìn)行安全性判斷時(shí),獲得判定結(jié)果為第一確定結(jié)果的文本的數(shù)量,JW表示所述已判定文本中第一確定結(jié)果與所述已判定文本的已判定結(jié)果不相符的文本的數(shù) 量。
可選的,在所述根據(jù)所述已判定文本確定第一判斷條件對(duì)應(yīng)的參考參數(shù)中,所述字符內(nèi)容分析對(duì)應(yīng)的參考參數(shù)為中文字符,所述文本長(zhǎng)度分析對(duì)應(yīng)的參考參數(shù)為文本長(zhǎng)度值、所述黑名單匹配對(duì)應(yīng)的參考參數(shù)為黑名單庫(kù)以及所述敏感詞匹配對(duì)應(yīng)的參考參數(shù)為敏感詞庫(kù)。
可選的,當(dāng)?shù)谝慌袛鄺l件為黑名單匹配時(shí),所述根據(jù)所述已判定文本確定第一判斷條件對(duì)應(yīng)的參考參數(shù)包括:從所述已判定文本的違規(guī)文本結(jié)果對(duì)應(yīng)的違規(guī)文本中提取不同的字符串,并將所述多個(gè)不同的字符串組成黑名單匹配對(duì)應(yīng)的參考參數(shù)黑名單庫(kù),其中,所述字符串至少包括數(shù)字和統(tǒng)一資源定位符URL。
可選的,當(dāng)?shù)谝慌袛鄺l件為敏感詞匹配時(shí),所述根據(jù)所述已判定文本確定第一判斷條件對(duì)應(yīng)的參考參數(shù)包括:將一預(yù)設(shè)敏感詞庫(kù)中的敏感詞與所述已判定文本中的違規(guī)文本結(jié)果對(duì)應(yīng)的違規(guī)文本進(jìn)行匹配,并計(jì)算所述敏感詞的匹配度;根據(jù)計(jì)算得到的敏感詞的匹配度,將匹配度小于匹配度閾值的敏感詞從所述預(yù)設(shè)敏感詞庫(kù)中清除,并將所述預(yù)設(shè)敏感詞庫(kù)中剩余的敏感詞組成敏感詞匹配對(duì)應(yīng)的參考參數(shù)敏感詞庫(kù)。
可選的,在將匹配度小于一匹配度閾值的敏感詞從所述預(yù)設(shè)敏感詞庫(kù)中清除,并將所述預(yù)設(shè)敏感詞庫(kù)中剩余的敏感詞組成敏感詞匹配對(duì)應(yīng)的參考參數(shù)敏感詞庫(kù)之后,所述方法還包括:從所述敏感詞庫(kù)中篩選出匹配度值最高的敏感詞以及從所述已判定文本中篩選出與所述匹配度值最高的敏感詞匹配的文本;將所述敏感詞庫(kù)中剩余敏感詞與所述已判定文本中剩余文本進(jìn)行匹配,并計(jì)算所述剩余敏感詞的匹配度;根據(jù)計(jì)算得到的剩余敏感詞的匹配度,從所述剩余敏感詞中篩選出匹配度等級(jí)最高的敏感詞以及從所述剩余文本中篩選出與所述匹配度等級(jí)最高的敏感詞匹配的文本,其中,所述匹配度的等級(jí)隨匹配度值的增大而增加;重復(fù)進(jìn)入將所述敏感詞庫(kù)中剩余敏感詞與所述已判定文本中剩余文本進(jìn)行匹配,并計(jì)算所述剩余敏感詞的匹配度的步驟,直至所述剩余敏感詞的匹配度為零;將篩選出的敏感詞組成敏感詞匹配對(duì)應(yīng)的判定參數(shù)敏感詞庫(kù)。
可選的,所述根據(jù)不同判斷條件的判定參數(shù),對(duì)所述文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得不同判斷條件的判定結(jié)果中,根據(jù)字符內(nèi)容分析的判定參數(shù),對(duì)所述文本字符從字符內(nèi)容分析進(jìn)行安全性判斷,獲得 字符內(nèi)容分析的判定結(jié)果,包括:根據(jù)字符內(nèi)容分析的判定參數(shù)中文字符,判斷所述文本字符中是否包含有中文字符;若所述文本字符中不包含有中文字符,則所述字符內(nèi)容分析的判定結(jié)果為正常文本結(jié)果;若所述文本字符中包含有中文字符,則所述字符內(nèi)容分析的判定結(jié)果為不確定結(jié)果。
可選的,所述根據(jù)不同判斷條件的判定參數(shù),對(duì)所述文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得不同判斷條件的判定結(jié)果中,根據(jù)文本長(zhǎng)度分析的判定參數(shù),對(duì)所述文本字符從文本長(zhǎng)度分析進(jìn)行安全性判斷,獲得文本長(zhǎng)度分析的判定結(jié)果,包括:根據(jù)文本長(zhǎng)度分析的判定參數(shù)長(zhǎng)度閾值,判斷所述文本字符的文本長(zhǎng)度是否小于等于所述長(zhǎng)度閾值;若所述文本長(zhǎng)度小于等于所述長(zhǎng)度閾值,則所述文本長(zhǎng)度分析的判定結(jié)果為正常文本結(jié)果;若所述文本長(zhǎng)度大于所述長(zhǎng)度閾值,則所述文本長(zhǎng)度分析的判定結(jié)果為不確定結(jié)果。
可選的,所述根據(jù)不同判斷條件的判定參數(shù),對(duì)所述文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得判定結(jié)果中,根據(jù)黑名單匹配的判定參數(shù),對(duì)所述文本字符從黑名單匹配進(jìn)行安全性判斷,獲得黑名單匹配的判定結(jié)果,包括:根據(jù)黑名單匹配的判定參數(shù)黑名單庫(kù),判斷所述文本字符中是否包含有與所述黑名單庫(kù)中的字符串相匹配的字符串,其中,所述字符串至少包括數(shù)字和URL;若所述文本字符中包含有與所述黑名單庫(kù)中的字符串相匹配的字符串,則所述黑名單匹配的判定結(jié)果為違規(guī)文本結(jié)果;若所述文本字符中不包含有與所述黑名單庫(kù)中的字符串相匹配的字符串,則所述黑名單匹配的判定結(jié)果為不確定文本結(jié)果。
可選的,所述根據(jù)不同判斷條件的判定參數(shù),對(duì)所述文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得不同判斷條件的判定結(jié)果中,根據(jù)敏感詞匹配的判定參數(shù),對(duì)所述文本字符從敏感詞匹配進(jìn)行安全性判斷,獲得敏感詞匹配的判定結(jié)果,包括:根據(jù)敏感詞匹配的判定參數(shù)敏感詞庫(kù),判斷所述文本字符中是否包含有與所述敏感詞庫(kù)中的敏感詞相匹配的分詞;若所述文本字符中不包含有與所述敏感詞庫(kù)中的敏感詞相匹配的分詞,則所述敏感詞匹配的判定結(jié)果為正常文本結(jié)果;若所述文本字符中包含有與所述敏感詞庫(kù)中的敏感詞相匹配的分詞,則所述敏感詞匹配的判定結(jié)果為疑似違規(guī)文本結(jié)果。
可選的,根據(jù)所獲得的不同判斷條件的判定結(jié)果,確定所述待判別文本的 最終判定結(jié)果,包括:根據(jù)所獲得的不同判斷條件的判定結(jié)果,確定判定結(jié)果的類型,其中,所述判定結(jié)果的類型包括第二確定結(jié)果和不確定結(jié)果,所述第二確定結(jié)果包括正常文本結(jié)果、違規(guī)文本結(jié)果和疑似違規(guī)文本結(jié)果;根據(jù)預(yù)先設(shè)置的不同判斷條件的判斷優(yōu)先級(jí),按照由高到低的優(yōu)先級(jí)順序選取優(yōu)先級(jí)高的判斷條件對(duì)應(yīng)的所述第二確定結(jié)果作為最終判定結(jié)果。
可選的,當(dāng)所述最終判定結(jié)果為疑似違規(guī)文本結(jié)果時(shí),所述方法還包括:將經(jīng)過(guò)人工審核并已有人工審核判定結(jié)果的疑似違規(guī)文本結(jié)果對(duì)應(yīng)的疑似文本更新至所述預(yù)先存儲(chǔ)的已判定文本中。
可選的,在所述根據(jù)預(yù)先設(shè)置的不同判斷條件的判斷優(yōu)先級(jí),按照由高到低的優(yōu)先級(jí)順序選取優(yōu)先級(jí)高的判斷條件對(duì)應(yīng)的所述第二確定結(jié)果作為最終判定結(jié)果中,當(dāng)不同判斷條件包括字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配時(shí),不同判斷條件的由高到低的優(yōu)先級(jí)序列為字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配、敏感詞匹配;或者不同判斷條件的由高到低的優(yōu)先級(jí)序列為文本長(zhǎng)度分析、字符內(nèi)容分析、黑名單匹配、敏感詞匹配。
依據(jù)本發(fā)明的另一個(gè)方面,本發(fā)明還提供了一種判別文本安全性的裝置,所述裝置包括:
獲取模塊,用于獲取待判別文本,并提取所述待判別文本的文本字符;
判斷模塊,用于根據(jù)不同判斷條件的判定參數(shù),對(duì)所述文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得不同判斷條件的判定結(jié)果,其中,所述不同判斷條件的判定參數(shù)為根據(jù)預(yù)先存儲(chǔ)的已判定文本獲得的;
確定模塊,用于根據(jù)分析模塊獲得的不同判斷條件的判定結(jié)果,確定所述待判別文本的最終判定結(jié)果。
可選的,所述判斷模塊中的不同判斷條件至少包括:字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配。
可選的,所述裝置還包括分析模塊,用于對(duì)預(yù)先存儲(chǔ)的已判定文本進(jìn)行分析,并從所述已判定文本中分析得到不同判斷條件的判定參數(shù)。
可選的,所述分析模塊包括:確定單元,用于根據(jù)所述已判定文本確定第一判斷條件對(duì)應(yīng)的參考參數(shù),其中,所述第一判斷條件為字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配中的任意一個(gè);計(jì)算單元,用于根據(jù)第一 判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)所述已判定文本從第一判斷條件進(jìn)行安全性判斷,并計(jì)算判定結(jié)果為第一確定結(jié)果的文本的占比率和誤判率,其中,判定結(jié)果包括第一確定結(jié)果和不確定結(jié)果,第一確定結(jié)果包括正常文本結(jié)果和違規(guī)文本結(jié)果;選取單元,用于將所述參考參數(shù)對(duì)應(yīng)的占比率與一占比率閾值進(jìn)行比較,將所述參考參數(shù)對(duì)應(yīng)的誤判率與一誤判率閾值進(jìn)行比較,將占比率大于一占比率閾值且誤判率小于一誤判率閾值對(duì)應(yīng)的參考參數(shù)作為所述第一判斷條件對(duì)應(yīng)的判定參數(shù)。
可選的,所述計(jì)算單元還用于,根據(jù)公式計(jì)算判定結(jié)果為第一確定結(jié)果的文本的占比率,其中,R表示所述占比率,WS表示根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)所述已判定文本從第一判斷條件進(jìn)行安全性判斷時(shí),獲得判定結(jié)果為第一確定結(jié)果的文本的數(shù)量,MS表示多個(gè)所述已判定文本的總數(shù)量;根據(jù)公式計(jì)算判定結(jié)果為第一確定結(jié)果的文本的誤判率,其中,F(xiàn)表示所述誤判率,WS表示根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)所述已判定文本從第一判斷條件進(jìn)行安全性判斷時(shí),獲得判定結(jié)果為第一確定結(jié)果的文本的數(shù)量,JW表示所述已判定文本中第一確定結(jié)果與所述已判定文本的已判定結(jié)果不相符的文本的數(shù)量。
可選的,在所述確定單元中,所述字符內(nèi)容分析對(duì)應(yīng)的參考參數(shù)為中文字符,所述文本長(zhǎng)度分析對(duì)應(yīng)的參考參數(shù)為文本長(zhǎng)度值、所述黑名單匹配對(duì)應(yīng)的參考參數(shù)為黑名單庫(kù)以及所述敏感詞匹配對(duì)應(yīng)的參考參數(shù)為敏感詞庫(kù)。
可選的,當(dāng)?shù)谝慌袛鄺l件為黑名單匹配時(shí),所述確定單元還用于,從所述已判定文本的違規(guī)文本結(jié)果對(duì)應(yīng)的違規(guī)文本中提取不同的字符串,并將所述多個(gè)不同的字符串組成黑名單匹配對(duì)應(yīng)的參考參數(shù)黑名單庫(kù),其中,所述字符串至少包括數(shù)字和統(tǒng)一資源定位符URL。
可選的,當(dāng)?shù)谝慌袛鄺l件為敏感詞匹配時(shí),所述確定單元還用于,將一預(yù)設(shè)敏感詞庫(kù)中的敏感詞與所述已判定文本中的違規(guī)文本結(jié)果對(duì)應(yīng)的違規(guī)文本進(jìn)行匹配,并計(jì)算所述敏感詞的匹配度;根據(jù)計(jì)算得到的敏感詞的匹配度,將匹配度小于匹配度閾值的敏感詞從所述預(yù)設(shè)敏感詞庫(kù)中清除,并將所述預(yù)設(shè)敏感 詞庫(kù)中剩余的敏感詞組成敏感詞匹配對(duì)應(yīng)的參考參數(shù)敏感詞庫(kù)。
可選的,所述裝置還包括篩選模塊,用于從所述敏感詞庫(kù)中篩選出匹配度值最高的敏感詞以及從所述已判定文本中篩選出與所述匹配度值最高的敏感詞匹配的文本;將所述敏感詞庫(kù)中剩余敏感詞與所述已判定文本中剩余文本進(jìn)行匹配,并計(jì)算所述剩余敏感詞的匹配度;根據(jù)計(jì)算得到的剩余敏感詞的匹配度,從所述剩余敏感詞中篩選出匹配度等級(jí)最高的敏感詞以及從所述剩余文本中篩選出與所述匹配度等級(jí)最高的敏感詞匹配的文本,其中,所述匹配度的等級(jí)隨匹配度值的增大而增加;重復(fù)進(jìn)入將所述敏感詞庫(kù)中剩余敏感詞與所述已判定文本中剩余文本進(jìn)行匹配,并計(jì)算所述剩余敏感詞的匹配度的步驟,直至所述剩余敏感詞的匹配度為零;將篩選出的敏感詞組成敏感詞匹配對(duì)應(yīng)的判定參數(shù)敏感詞庫(kù)。
可選的,所述分析模塊還用于,根據(jù)字符內(nèi)容分析的判定參數(shù)中文字符,判斷所述文本字符中是否包含有中文字符;若所述文本字符中不包含有中文字符,則所述字符內(nèi)容分析的判定結(jié)果為正常文本結(jié)果;若所述文本字符中包含有中文字符,則所述字符內(nèi)容分析的判定結(jié)果為不確定結(jié)果。
可選的,所述分析模塊還用于,根據(jù)文本長(zhǎng)度分析的判定參數(shù)長(zhǎng)度閾值,判斷所述文本字符的文本長(zhǎng)度是否小于等于所述長(zhǎng)度閾值;若所述文本長(zhǎng)度小于等于所述長(zhǎng)度閾值,則所述文本長(zhǎng)度分析的判定結(jié)果為正常文本結(jié)果;若所述文本長(zhǎng)度大于所述長(zhǎng)度閾值,則所述文本長(zhǎng)度分析的判定結(jié)果為不確定結(jié)果。
可選的,所述分析模塊還用于,根據(jù)黑名單匹配的判定參數(shù)黑名單庫(kù),判斷所述文本字符中是否包含有與所述黑名單庫(kù)中的字符串相匹配的字符串,其中,所述字符串至少包括數(shù)字和URL;若所述文本字符中包含有與所述黑名單庫(kù)中的字符串相匹配的字符串,則所述黑名單匹配的判定結(jié)果為違規(guī)文本結(jié)果;若所述文本字符中不包含有與所述黑名單庫(kù)中的字符串相匹配的字符串,則所述黑名單匹配的判定結(jié)果為不確定文本結(jié)果。
可選的,所述分析模塊還用于,根據(jù)敏感詞匹配的判定參數(shù)敏感詞庫(kù),判斷所述文本字符中是否包含有與所述敏感詞庫(kù)中的敏感詞相匹配的分詞;若所述文本字符中不包含有與所述敏感詞庫(kù)中的敏感詞相匹配的分詞,則所述敏感詞匹配的判定結(jié)果為正常文本結(jié)果;若所述文本字符中包含有與所述敏感詞庫(kù) 中的敏感詞相匹配的分詞,則所述敏感詞匹配的判定結(jié)果為疑似違規(guī)文本結(jié)果。
可選的,所述確定模塊還用于,根據(jù)所獲得的不同判斷條件的判定結(jié)果,確定判定結(jié)果的類型,其中,所述判定結(jié)果的類型包括第二確定結(jié)果和不確定結(jié)果,所述第二確定結(jié)果包括正常文本結(jié)果、違規(guī)文本結(jié)果和疑似違規(guī)文本結(jié)果;根據(jù)預(yù)先設(shè)置的不同判斷條件的判斷優(yōu)先級(jí),按照由高到低的優(yōu)先級(jí)順序選取優(yōu)先級(jí)高的判斷條件對(duì)應(yīng)的所述第二確定結(jié)果作為最終判定結(jié)果。
可選的,所述裝置還包括更新模塊,用于將經(jīng)過(guò)人工審核并已有人工審核判定結(jié)果的疑似違規(guī)文本結(jié)果對(duì)應(yīng)的疑似文本更新至所述預(yù)先存儲(chǔ)的已判定文本中。
可選的,所述確定模塊還用于,當(dāng)不同判斷條件包括字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配時(shí),不同判斷條件的由高到低的優(yōu)先級(jí)序列為字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配、敏感詞匹配;或者不同判斷條件的由高到低的優(yōu)先級(jí)序列為文本長(zhǎng)度分析、字符內(nèi)容分析、黑名單匹配、敏感詞匹配。
本發(fā)明的有益效果是:
本發(fā)明提供的判別文本安全性的方法,根據(jù)不同判斷條件的判定參數(shù),對(duì)從待判別文本中提取的文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得不同判斷條件的判定結(jié)果,其中,不同判斷條件的判定參數(shù)為根據(jù)預(yù)先存儲(chǔ)的已判定文本獲得的;然后再根據(jù)所獲得的不同判斷條件的判定結(jié)果,確定待判別文本的最終判定結(jié)果。本發(fā)明從多個(gè)維度的判斷條件對(duì)待判別文本進(jìn)行安全性判斷,解決了現(xiàn)有自動(dòng)發(fā)現(xiàn)違規(guī)信息的模式對(duì)文本不能做出有效判斷且增加人工審核負(fù)擔(dān)的問(wèn)題,提高了文本判別的準(zhǔn)確率和效率,降低了人工的判定工作量;此外,本發(fā)明利用預(yù)先存儲(chǔ)的已判定文本作為判定參數(shù)的來(lái)源,給判定過(guò)程提供判定參數(shù),增加了依據(jù)判定參數(shù)得到的判定結(jié)果的準(zhǔn)確率,同時(shí)優(yōu)化了判定樣本的覆蓋率,使得依據(jù)判定參數(shù)能夠盡可能多得給出更加準(zhǔn)確的判定結(jié)果,進(jìn)一步降低了人工的判定工作量,減小了人工審核的負(fù)擔(dān)。
附圖說(shuō)明
圖1表示本發(fā)明的第一實(shí)施例中判別文本安全性的方法的步驟流程圖;
圖2表示本發(fā)明的第二實(shí)施例中判別文本安全性的方法的步驟流程圖;
圖3表示本發(fā)明的第二實(shí)施例中步驟201的分步驟的流程圖;
圖4表示本發(fā)明的第三實(shí)施例中長(zhǎng)度閾值訓(xùn)練中多個(gè)文本長(zhǎng)度值對(duì)應(yīng)的誤判率和占比率的曲線圖;
圖5表示本發(fā)明的第三實(shí)施例中敏感詞匹配度訓(xùn)練中依據(jù)多個(gè)敏感詞匹配度篩選到的敏感詞庫(kù)的占比率和誤判率的曲線圖;
圖6表示本發(fā)明的第四實(shí)施例中判別文本安全性的裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
第一實(shí)施例:
如圖1所示,為本發(fā)明的第一實(shí)施例中判別文本安全性的方法的步驟流程圖,該方法包括如下步驟:
步驟101,獲取待判別文本,并提取待判別文本的文本字符。
在本步驟中,在獲取到待判定文本之后,可以先提取待判別文本的文本字符。具體的,在提取文本字符的過(guò)程中,可以盡可能多的提取文字信息,并刪除待判別文本中出現(xiàn)的一些特殊符號(hào)和標(biāo)點(diǎn)符號(hào)。其中,“¥”、“■”等均屬于特殊符號(hào)。
步驟102,根據(jù)不同判斷條件的判定參數(shù),對(duì)文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得不同判斷條件的判定結(jié)果。
在本步驟中,具體的,不同判斷條件至少可以包括字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配四個(gè)判斷條件。此外,不同判斷條件的判定參數(shù)為根據(jù)預(yù)先存儲(chǔ)的已判定文本獲得的。
下面分別對(duì)字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配四個(gè)判斷條件的來(lái)源進(jìn)行具體說(shuō)明。
具體的,可以將文本從安全性的角度分為違規(guī)文本和正常文本。通常違規(guī) 文本與正常文本相比具有較為明顯的特征。
其一,違規(guī)文本中大多都含有中文字符,因?yàn)榧冇⑽幕蚱渌Z(yǔ)言的字符只能用于特定人群,而不適用于沒(méi)有明確目的的對(duì)象的傳播,因此可以將字符內(nèi)容分析作為安全性判斷的一個(gè)判斷條件。
其二,違規(guī)文本需要表達(dá)出一定信息量的內(nèi)容,因此違規(guī)文本必然會(huì)有一定的長(zhǎng)度,例如下面的兩個(gè)文本:
從上面的兩個(gè)文本可以看出,序號(hào)為1的文本為正常文本,文本長(zhǎng)度較短;序號(hào)為2的文本為一個(gè)歌廳發(fā)布的廣告違規(guī)文本,需要較長(zhǎng)的內(nèi)容才能夠完全展現(xiàn)。因此,可以將文本長(zhǎng)度分析作為安全性判斷的一個(gè)判斷條件。
其三,違規(guī)文本通常需要違規(guī)文本的接收者根據(jù)違規(guī)文本中的一些聯(lián)系方式或者其他信息進(jìn)行互動(dòng),因此違規(guī)文本中通常含有電話號(hào)碼、銀行卡號(hào)和網(wǎng)址等字符串。該些字符串由于是從違規(guī)文本中提取的,因此可以將該些字符串作為一個(gè)黑名單庫(kù),并查看待判別文本中是否含有黑名單庫(kù)中的字符串,從而判斷待判別文本。從上可以得出,可以將黑名單匹配作為安全性判斷的一個(gè)判斷條件。
其四,違規(guī)文本中會(huì)較為頻繁的使用一些敏感詞匯,例如“樓盤”、“賭城”、“中獎(jiǎng)”等等,并且每條違規(guī)文本中也通常會(huì)至少出現(xiàn)一個(gè)敏感詞,而很大一部分正常文本不會(huì)使用敏感詞,只是普通用語(yǔ),例如下面的兩個(gè)文本:
從上面的兩個(gè)文本可以看出,序號(hào)為1的文本為正常文本,文本只是普通用語(yǔ),詞語(yǔ)“下雨”、“帶傘”都非敏感詞;序號(hào)為2的文本為一個(gè)賭場(chǎng)發(fā)布的廣告違規(guī)文本,其中,“返水”、“提現(xiàn)”都是潛在的敏感詞。因此可以將敏感詞 匹配作為安全性判斷的一個(gè)判斷條件。
此外,不同判斷條件的判定結(jié)果可以包括第二確定結(jié)果和不確定結(jié)果,其中,第二確定結(jié)果包括正常文本結(jié)果、違規(guī)文本結(jié)果和疑似違規(guī)文本結(jié)果。在此需要說(shuō)明的是,不確定結(jié)果對(duì)應(yīng)的待判別文本并未被篩選出來(lái),即判定結(jié)果為不確定結(jié)果的待判別文本還需要從其他判斷條件進(jìn)行安全性判斷。
步驟103,根據(jù)所獲得的不同判斷條件的判定結(jié)果,確定待判別文本的最終判定結(jié)果。
在本步驟中,具體的,在根據(jù)所獲得的不同判斷條件的判定結(jié)果,確定待判別文本的最終判定結(jié)果中,可以對(duì)不同判斷條件的判定結(jié)果進(jìn)行綜合判斷,確定待判別短文本的最終判定結(jié)果。同樣的,也可以對(duì)不同判斷條件進(jìn)行優(yōu)先級(jí)排序,選取優(yōu)選級(jí)最高的判斷條件對(duì)應(yīng)的第二確定結(jié)果為最終判定結(jié)果,若優(yōu)先級(jí)最高的判斷條件未能得出第二確定結(jié)果,則選取優(yōu)先級(jí)次高的判斷條件對(duì)應(yīng)的第二確定結(jié)果為最終判定結(jié)果,依此類推,直至得出最終判定結(jié)果為止。具體的,最終判定結(jié)果可以為正常文本結(jié)果、違規(guī)文本結(jié)果和疑似違規(guī)文本結(jié)果中的一種。
本實(shí)施例從多個(gè)維度對(duì)待判別文本進(jìn)行安全性判斷,增加了待判別文本安全性判斷的判斷條件的維度,解決了現(xiàn)有自動(dòng)發(fā)現(xiàn)違規(guī)信息的模式對(duì)文本不能做出有效判斷且增加人工審核負(fù)擔(dān)的問(wèn)題,提高了文本判別的準(zhǔn)確率和效率,降低了人工的判定工作量。此外,本實(shí)施例利用預(yù)先存儲(chǔ)的已判定文本作為判定參數(shù)的來(lái)源,給判定過(guò)程提供判定參數(shù),增加了依據(jù)判定參數(shù)得到的判定結(jié)果的準(zhǔn)確率,同時(shí)優(yōu)化了判定樣本的覆蓋率,使得依據(jù)判定參數(shù)能夠盡可能多得給出更加準(zhǔn)確的判定結(jié)果,進(jìn)一步降低了人工的判定工作量,減小了人工審核的負(fù)擔(dān)。
第二實(shí)施例:
如圖2所示,為本發(fā)明的第二實(shí)施例中判別文本安全性的方法的步驟流程圖,該方法包括:
步驟201,對(duì)預(yù)先存儲(chǔ)的已判定文本進(jìn)行分析,并從已判定文本中分析得到不同判斷條件的判定參數(shù)。
在本步驟中,具體的,在對(duì)預(yù)先存儲(chǔ)的已判定文本進(jìn)行分析時(shí),可以從已 判定文本中分析得到字符內(nèi)容分析的判定參數(shù)中文字符、文本長(zhǎng)度分析的判定參數(shù)長(zhǎng)度閾值、黑名單匹配的判定參數(shù)黑名單庫(kù)以及敏感詞匹配的判定參數(shù)敏感詞庫(kù)。
步驟202,根據(jù)字符內(nèi)容分析的判定參數(shù),對(duì)文本字符從字符內(nèi)容分析進(jìn)行安全性判斷,獲得字符內(nèi)容分析的判定結(jié)果。
在本步驟中,具體的,在根據(jù)字符內(nèi)容分析的判定參數(shù),對(duì)文本字符從字符內(nèi)容分析進(jìn)行安全性判斷時(shí),可以根據(jù)字符內(nèi)容分析的判定參數(shù)中文字符,判斷文本字符中是否包括有中文字符。若文本字符中不包括有中文字符,則獲得的字符內(nèi)容分析的判定結(jié)果為正常文本結(jié)果;若文本字符中包括有中文字符,則獲得的字符內(nèi)容分析的判定結(jié)果為不確定結(jié)果。在此需要說(shuō)明的是,不確定結(jié)果對(duì)應(yīng)的待判別文本并未被篩選出來(lái),即判定結(jié)果為不確定結(jié)果的待判別文本還需要從其他判斷條件進(jìn)行安全性判斷。
步驟203,根據(jù)文本長(zhǎng)度分析的判定參數(shù),對(duì)文本字符從文本長(zhǎng)度分析進(jìn)行安全性判斷,獲得文本長(zhǎng)度分析的判定結(jié)果。
在本步驟中,具體的,在根據(jù)文本長(zhǎng)度分析的判定參數(shù),對(duì)文本字符從文本長(zhǎng)度分析進(jìn)行安全性判斷時(shí),可以根據(jù)文本長(zhǎng)度分析的判定參數(shù)長(zhǎng)度閾值,判斷文本字符的文本長(zhǎng)度是否小于等于長(zhǎng)度閾值。若文本長(zhǎng)度小于等于長(zhǎng)度閾值,則獲得的文本長(zhǎng)度分析的判定結(jié)果為正常文本結(jié)果;若文本長(zhǎng)度大于長(zhǎng)度閾值,則獲得的文本長(zhǎng)度分析的判定結(jié)果為不確定結(jié)果。在此需要說(shuō)明的是,不確定結(jié)果對(duì)應(yīng)的待判別文本并未被篩選出來(lái),即判定結(jié)果為不確定結(jié)果的待判別文本還需要從其他判斷條件進(jìn)行安全性判斷。
步驟204,根據(jù)黑名單匹配的判定參數(shù),對(duì)文本字符從黑名單匹配進(jìn)行安全性判斷,獲得黑名單匹配的判定結(jié)果。
在本步驟中,具體的,在根據(jù)黑名單匹配的判定參數(shù),對(duì)文本字符從黑名單匹配進(jìn)行安全性判斷時(shí),可以根據(jù)黑名單匹配的判定參數(shù)黑名單庫(kù),判斷文本字符中是否包含有與黑名單庫(kù)中的字符串相匹配的字符串,其中,字符串至少包括數(shù)字和統(tǒng)一資源定位符URL,具體的,數(shù)字可以包括電話號(hào)碼、銀行卡號(hào)等。若文本字符中包含有與黑名單庫(kù)中的字符串相匹配的字符串,則獲得的黑名單匹配的判定結(jié)果為違規(guī)文本結(jié)果;若文本字符中不包含有與黑名單庫(kù)中 的字符串相匹配的字符串,則獲得黑名單匹配的判定結(jié)果為不確定文本結(jié)果。在此需要說(shuō)明的是,不確定結(jié)果對(duì)應(yīng)的待判別文本并未被篩選出來(lái),即判定結(jié)果為不確定結(jié)果的待判別文本還需要從其他判斷條件進(jìn)行安全性判斷。
步驟205,根據(jù)敏感詞匹配的判定參數(shù),對(duì)文本字符從敏感詞匹配進(jìn)行安全性判斷,獲得敏感詞匹配的判定結(jié)果。
在本步驟中,具體的,在根據(jù)敏感詞匹配的判定參數(shù),對(duì)文本字符的敏感詞匹配進(jìn)行安全性判斷時(shí),可以根據(jù)敏感詞匹配的判定參數(shù)敏感詞庫(kù),判斷文本字符中是否包含有與敏感詞庫(kù)中的敏感詞相匹配的分詞。若文本字符中不包含有與敏感詞庫(kù)中的敏感詞相匹配的分詞,則獲得的敏感詞匹配的判定結(jié)果為正常文本結(jié)果;若文本字符中包含有與敏感詞庫(kù)中的敏感詞相匹配的分詞,則獲得的敏感詞匹配的判定結(jié)果為疑似違規(guī)文本結(jié)果。
步驟206,根據(jù)所獲得的不同判斷條件的判定結(jié)果,確定判定結(jié)果的類型。
在本步驟中,具體的,判定結(jié)果的類型包括第二確定結(jié)果和不確定結(jié)果,第二確定結(jié)果包括正常文本結(jié)果、違規(guī)文本結(jié)果和疑似違規(guī)文本結(jié)果。
步驟207,根據(jù)預(yù)先設(shè)置的不同判斷條件的判斷優(yōu)先級(jí),按照由高到低的優(yōu)先級(jí)順序選取優(yōu)先級(jí)高的判斷條件對(duì)應(yīng)的第二確定結(jié)果作為最終判定結(jié)果。
在本步驟中,在確定不同判斷條件的判定結(jié)果的類型之后,可以先預(yù)先設(shè)置不同判斷條件的判斷優(yōu)先級(jí),然后按照由高到低的優(yōu)先級(jí)順序選取優(yōu)選級(jí)高的判斷條件對(duì)應(yīng)的第二確定結(jié)果作為最終判定結(jié)果。具體的,當(dāng)不同判斷條件包括字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配時(shí),不同判斷條件的由高到低的優(yōu)先級(jí)序列可以為字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配、敏感詞匹配;或者不同判斷條件的由高到低的優(yōu)先級(jí)序列可以為文本長(zhǎng)度分析、字符內(nèi)容分析、黑名單匹配、敏感詞匹配。
下面對(duì)得到最終判定結(jié)果進(jìn)行舉例說(shuō)明。
假設(shè)不同判斷條件的優(yōu)先級(jí)序列為字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配、敏感詞匹配,且字符內(nèi)容分析對(duì)應(yīng)的判定結(jié)果為第二確定結(jié)果,則選取字符內(nèi)容分析對(duì)應(yīng)的第二確定結(jié)果為最終判定結(jié)果,若字符內(nèi)容分析對(duì)應(yīng)的判定結(jié)果為不確定結(jié)果,則按照優(yōu)先級(jí)序列選取文本長(zhǎng)度分析對(duì)應(yīng)的第二確定結(jié)果為最終判定結(jié)果,以此類推,直至選取出最終判定結(jié)果為止。具體的,最終 判定結(jié)果可以為第二確定結(jié)果中正常文本結(jié)果、違規(guī)文本結(jié)果和疑似違規(guī)文本結(jié)果中的一種。
步驟208,將經(jīng)過(guò)人工審核并已有人工審核判定結(jié)果的疑似違規(guī)文本結(jié)果對(duì)應(yīng)的疑似文本更新至預(yù)先存儲(chǔ)的已判定文本中。
具體的,若最終判定結(jié)果為疑似違規(guī)文本結(jié)果,則可以對(duì)疑似違規(guī)文本結(jié)果對(duì)應(yīng)的疑似文本進(jìn)行人工審核,并得到人工審核判定結(jié)果。在本步驟中,則可以將經(jīng)過(guò)人工審核并已有人工審核判定結(jié)果的疑似違規(guī)文本結(jié)果對(duì)應(yīng)的疑似文本更新至預(yù)先存儲(chǔ)的已判定文本中。將有人工審核判定結(jié)果的疑似文本更新至已判定文本中,可以增加已判定文本的覆蓋率,從而使得能夠根據(jù)已判定文本分析得出更準(zhǔn)確的判定參數(shù),最終使得根據(jù)不同判斷條件的判定參數(shù)對(duì)文本字符從不同判斷條件進(jìn)行安全性判斷時(shí),能夠獲得更加準(zhǔn)確的判定結(jié)果,提高了文本判別的準(zhǔn)確率和效率,降低了人工的判定工作量,減小了人工審核的負(fù)擔(dān)。
本實(shí)施例利用預(yù)先存儲(chǔ)的已判定文本獲得的字符內(nèi)容分析對(duì)應(yīng)的判定參數(shù)中文字符、文本長(zhǎng)度分析對(duì)應(yīng)的判定參數(shù)長(zhǎng)度閾值、黑名單匹配對(duì)應(yīng)的判定參數(shù)黑名單庫(kù)以及敏感詞匹配對(duì)應(yīng)的判定參數(shù)敏感詞庫(kù),并根據(jù)不同判斷條件的判定參數(shù)分別從字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配四個(gè)判斷條件對(duì)待判別文本進(jìn)行安全性判斷,并分別獲得判定結(jié)果,最后按照由高到低的優(yōu)先級(jí)順序選取優(yōu)先級(jí)高的判斷條件對(duì)應(yīng)的第二確定結(jié)果作為最終判定結(jié)果,并在最終判定結(jié)果為疑似違規(guī)文本結(jié)果時(shí),將經(jīng)過(guò)人工審核并已有人工審核判定結(jié)果的疑似違規(guī)文本結(jié)果對(duì)應(yīng)的疑似文本更新至預(yù)先存儲(chǔ)的已判定文本中。本實(shí)施例增加了待判別文本安全性判斷的判斷條件的維度,提高了文本判別的準(zhǔn)確率和效率,降低了人工的判定工作量。此外,本實(shí)施例將經(jīng)過(guò)人工審核并已有人工審核判定結(jié)果的疑似違規(guī)文本結(jié)果對(duì)應(yīng)的疑似文本更新至預(yù)先存儲(chǔ)的已判定文本中,增加了已判定文本的覆蓋率,從而使得能夠根據(jù)已判定文本分析得出更準(zhǔn)確的判定參數(shù),最終使得根據(jù)不同判斷條件的判定參數(shù)對(duì)文本字符從不同判斷條件進(jìn)行安全性判斷時(shí),能夠獲得更加準(zhǔn)確的判定結(jié)果,提高了文本判別的準(zhǔn)確率和效率,降低了人工的判定工作量,減小了人工審核的負(fù)擔(dān)。
第三實(shí)施例:
如圖3所示,為本發(fā)明的第二實(shí)施例中步驟201的分步驟流程圖,步驟201包括:
步驟2011,根據(jù)已判定文本確定第一判斷條件對(duì)應(yīng)的參考參數(shù)。
在本步驟中,具體的,第一判斷條件可以為字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配中的任意一個(gè)。此外,字符內(nèi)容分析對(duì)應(yīng)的參考參數(shù)為中文字符,文本長(zhǎng)度分析對(duì)應(yīng)的參考參數(shù)為文本長(zhǎng)度值、黑名單匹配對(duì)應(yīng)的參考參數(shù)為黑名單庫(kù)以及敏感詞匹配對(duì)應(yīng)的參考參數(shù)為敏感詞庫(kù)。
另外,具體的,當(dāng)?shù)谝慌袛鄺l件為黑名單匹配時(shí),在根據(jù)已判定文本確定黑名單匹配對(duì)應(yīng)的參考參數(shù)時(shí),可以從已判定文本的違規(guī)文本結(jié)果對(duì)應(yīng)的違規(guī)文本中提取不同的字符串,并將多個(gè)不同的字符串組成黑名單匹配對(duì)應(yīng)的參考參數(shù)黑名單庫(kù),其中,字符串至少包括數(shù)字和URL。具體的,數(shù)字可以包括電話號(hào)碼和銀行卡號(hào)等。
另外,具體的,當(dāng)?shù)谝慌袛鄺l件為敏感詞匹配時(shí),在根據(jù)已判定文本確定敏感詞匹配對(duì)應(yīng)的參考參數(shù)敏感詞庫(kù)時(shí),可以先將一預(yù)設(shè)敏感詞庫(kù)中的敏感詞與已判定文本中的違規(guī)文本結(jié)果對(duì)應(yīng)的違規(guī)文本進(jìn)行匹配,并計(jì)算敏感詞的匹配度;然后根據(jù)計(jì)算得到的匹配度,將匹配度小于匹配度閾值的敏感詞從預(yù)設(shè)敏感詞庫(kù)中清除,并將預(yù)設(shè)敏感詞庫(kù)中剩余的敏感詞組成敏感詞匹配對(duì)應(yīng)的參考參數(shù)敏感詞庫(kù)。
具體的,在將預(yù)設(shè)敏感詞庫(kù)中剩余的敏感詞組成敏感詞匹配對(duì)應(yīng)的參考參數(shù)敏感詞庫(kù)之后,還可以先從敏感詞庫(kù)中篩選出匹配度值最高的敏感詞以及從已判定文本中篩選出與匹配度值最高的敏感詞匹配的文本;其次將敏感詞庫(kù)中剩余敏感詞與已判定文本中剩余文本進(jìn)行匹配,并計(jì)算剩余敏感詞的匹配度;再其次根據(jù)計(jì)算得到的剩余敏感詞的匹配度,從剩余敏感詞中篩選出匹配度等級(jí)最高的敏感詞以及從剩余文本中篩選出與匹配度等級(jí)最高的敏感詞匹配的文本,其中,匹配度的等級(jí)隨匹配度值的增大而增加;然后重復(fù)進(jìn)入將敏感詞庫(kù)中剩余敏感詞與已判定文本中剩余文本進(jìn)行匹配,并計(jì)算剩余敏感詞的匹配度的步驟,直至剩余敏感詞的匹配度為零;最后將篩選出的敏感詞組成敏感詞匹配對(duì)應(yīng)的判定參數(shù)敏感詞庫(kù)。依據(jù)以上方式篩選出的判定參數(shù)敏感詞庫(kù),可以 盡可能的減少敏感詞與待判定文本的重復(fù)匹配。
步驟2012,根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)已判定文本從第一判斷條件進(jìn)行安全性判斷,并計(jì)算判定結(jié)果為第一確定結(jié)果的文本的占比率和誤判率。
在本步驟中,具體的,判定結(jié)果包括第一確定結(jié)果和不確定結(jié)果,第一確定結(jié)果包括正常文本結(jié)果和違規(guī)文本結(jié)果。
此外,在計(jì)算判定結(jié)果為第一確定結(jié)果的文本的占比率和誤判率中,可以根據(jù)公式計(jì)算判定結(jié)果為第一確定結(jié)果的文本的占比率,其中,R表示占比率,WS表示根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)已判定文本從第一判斷條件進(jìn)行安全性判斷時(shí),獲得判定結(jié)果為第一確定結(jié)果的文本的數(shù)量,MS表示多個(gè)已判定文本的總數(shù)量。根據(jù)公式計(jì)算判定結(jié)果為第一確定結(jié)果的文本的誤判率,其中,F(xiàn)表示誤判率,WS表示根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)已判定文本從第一判斷條件進(jìn)行安全性判斷時(shí),獲得判定結(jié)果為第一確定結(jié)果的文本的數(shù)量,JW表示已判定文本中第一確定結(jié)果與已判定文本的已判定結(jié)果不相符的文本的數(shù)量。
步驟2013,將參考參數(shù)對(duì)應(yīng)的占比率與一占比率閾值進(jìn)行比較,將參考參數(shù)對(duì)應(yīng)的誤判率與一誤判率閾值進(jìn)行比較,將占比率大于一占比率閾值且誤判率小于一誤判率閾值對(duì)應(yīng)的參考參數(shù)作為第一判斷條件對(duì)應(yīng)的判定參數(shù)。
在本步驟中,具體的,參考參數(shù)對(duì)應(yīng)的占比率和誤差率均滿足作為判定參數(shù)需要滿足的條件,即占比率大于一占比率閾值且誤判率小于一誤判率閾值時(shí),該參考參數(shù)才能夠作為判定參數(shù)。在此需要說(shuō)明的是,不同的參考參數(shù)對(duì)應(yīng)的占比率閾值和誤判率閾值均不相同。
下面對(duì)分別得到文本長(zhǎng)度分析對(duì)應(yīng)的判定參數(shù)及敏感詞匹配對(duì)應(yīng)的判定參數(shù)進(jìn)行說(shuō)明。
對(duì)于文本長(zhǎng)度分析對(duì)應(yīng)的判定參數(shù),假設(shè)文本長(zhǎng)度分析對(duì)應(yīng)的參考參數(shù)文本長(zhǎng)度值為L(zhǎng),即在根據(jù)文本長(zhǎng)度值L對(duì)多個(gè)已判定文本進(jìn)行安全性判斷時(shí),當(dāng)已判定文本的文本長(zhǎng)度小于等于L時(shí),判定已判定文本的判定結(jié)果為正常文 本結(jié)果,當(dāng)已判定文本的文本長(zhǎng)度大于L時(shí),判定已判定文本的判定結(jié)果為違規(guī)文本結(jié)果。這樣,可以根據(jù)以上判斷方式計(jì)算文本長(zhǎng)度值L對(duì)應(yīng)的判定結(jié)果為第一確定結(jié)果的文本的占比率和誤判率。其中,占比率為依據(jù)L判定得到的正常文本結(jié)果對(duì)應(yīng)的正常文本數(shù)量與已判定文本總數(shù)量的比值,誤判率為依據(jù)L判斷錯(cuò)誤的文本數(shù)量與依據(jù)L判定得到的正常文本結(jié)果對(duì)應(yīng)的正常文本數(shù)量的比值,其中,判斷錯(cuò)誤的標(biāo)準(zhǔn)為依據(jù)L判定得到的正常文本結(jié)果對(duì)應(yīng)的正常文本實(shí)際為已判定文本中的違規(guī)文本。
依上計(jì)算出多個(gè)L對(duì)應(yīng)的占比率和誤判率,如圖4所示,為長(zhǎng)度閾值訓(xùn)練中多個(gè)文本長(zhǎng)度值對(duì)應(yīng)的誤判率和占比率的曲線圖。從圖中可以看到,占比率基本呈線性變化,但誤判率在文本長(zhǎng)度值超過(guò)15之后,呈指數(shù)型增長(zhǎng)??紤]到正常文本結(jié)果對(duì)應(yīng)的已判定文本實(shí)際為違規(guī)文本時(shí)為錯(cuò)誤判定,因此為了盡量減少誤判,可以將誤判率閾值設(shè)置的較低一些,從而選擇滿足大于一占比率閾值的占比率且小于一誤判率閾值的誤判率對(duì)應(yīng)的文本長(zhǎng)度值作為文本長(zhǎng)度分析的判定參數(shù)長(zhǎng)度閾值。在此需要說(shuō)明的是,長(zhǎng)度閾值的選擇可以根據(jù)不同的需求進(jìn)行調(diào)整。
對(duì)于敏感詞匹配的判定參數(shù),假設(shè)參考參數(shù)敏感詞庫(kù)為P,即在根據(jù)敏感詞庫(kù)P對(duì)多個(gè)已判定文本進(jìn)行安全性判斷時(shí),當(dāng)P中的敏感詞與已判定文本匹配時(shí),判定已判定文本的判定結(jié)果為違規(guī)文本結(jié)果,當(dāng)P中的敏感詞與已判定文本不匹配時(shí),判定已判定文本的判定結(jié)果為正常文本結(jié)果,以此計(jì)算敏感詞庫(kù)P對(duì)應(yīng)的判定結(jié)果為第一確定結(jié)果的文本的占比率和誤判率。
如圖5所示,為敏感詞匹配度訓(xùn)練中依據(jù)多個(gè)敏感詞匹配度篩選到的敏感詞庫(kù)的占比率和誤判率的曲線圖。從圖中可以看出,在匹配度值為0~0.2之間時(shí),隨著敏感詞匹配度值的增長(zhǎng),占比率也隨之增長(zhǎng),但誤判率卻大概呈拋物線變化。考慮到違規(guī)文本結(jié)果對(duì)應(yīng)的已判定文本實(shí)際為正常文本時(shí)為錯(cuò)誤判定,因此為了盡量減少誤判,可以將誤判率閾值設(shè)置的較低一些,從而選擇滿足大于一占比率閾值的占比率且小于一誤判率閾值的誤判率對(duì)應(yīng)的敏感詞庫(kù)作為敏感詞匹配的判定參數(shù)敏感詞庫(kù)。在此需要說(shuō)明的是,敏感詞庫(kù)的選擇可以根據(jù)不同的需求進(jìn)行調(diào)整。
在本實(shí)施例中,依據(jù)占比率公式和誤判率公式來(lái)對(duì)預(yù)先存儲(chǔ)的已判定文本 進(jìn)行分析,并將滿足大于一占比率閾值的占比率和小于一誤判率閾值的誤判率對(duì)應(yīng)的不同判斷條件的參考參數(shù)作為不同判斷條件的判定參數(shù),提高了判定參數(shù)的準(zhǔn)確性,從而使得根據(jù)不同判斷條件的判定參數(shù)對(duì)文本字符從不同判斷條件進(jìn)行安全性判斷時(shí),能夠獲得更加準(zhǔn)確的判定結(jié)果,提高了文本判別的準(zhǔn)確率和效率,降低了人工的判定工作量,減小了人工審核的負(fù)擔(dān)。
第四實(shí)施例:
如圖6所示,為本發(fā)明的第四實(shí)施例中判別文本安全性的裝置的結(jié)構(gòu)框圖,該裝置包括:
獲取模塊301,用于獲取待判別文本,并提取待判別文本的文本字符;
判斷模塊302,用于根據(jù)不同判斷條件的判定參數(shù),對(duì)文本字符分別從不同判斷條件進(jìn)行安全性判斷,并分別獲得不同判斷條件的判定結(jié)果,其中,不同判斷條件的判定參數(shù)為根據(jù)預(yù)先存儲(chǔ)的已判定文本獲得的;
確定模塊303,用于根據(jù)分析模塊獲得的不同判斷條件的判定結(jié)果,確定待判別文本的最終判定結(jié)果。
可選的,判斷模塊302中的不同判斷條件至少包括:字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配。
可選的,裝置還包括分析模塊,用于對(duì)預(yù)先存儲(chǔ)的已判定文本進(jìn)行分析,并從已判定文本中分析得到不同判斷條件的判定參數(shù)。
可選的,分析模塊包括:確定單元,用于根據(jù)已判定文本確定第一判斷條件對(duì)應(yīng)的參考參數(shù),其中,第一判斷條件為字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配中的任意一個(gè);計(jì)算單元,用于根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)已判定文本從第一判斷條件進(jìn)行安全性判斷,并計(jì)算判定結(jié)果為第一確定結(jié)果的文本的占比率和誤判率,其中,判定結(jié)果包括第一確定結(jié)果和不確定結(jié)果,第一確定結(jié)果包括正常文本結(jié)果和違規(guī)文本結(jié)果;選取單元,用于將參考參數(shù)對(duì)應(yīng)的占比率與一占比率閾值進(jìn)行比較,將參考參數(shù)對(duì)應(yīng)的誤判率與一誤判率閾值進(jìn)行比較,將占比率大于一占比率閾值且誤判率小于一誤判率閾值對(duì)應(yīng)的參考參數(shù)作為第一判斷條件對(duì)應(yīng)的判定參數(shù)。
可選的,計(jì)算單元還用于,根據(jù)公式計(jì)算判定結(jié)果為第一確定結(jié) 果的文本的占比率,其中,R表示占比率,WS表示根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多個(gè)已判定文本從第一判斷條件進(jìn)行安全性判斷時(shí),獲得判定結(jié)果為第一確定結(jié)果的文本的數(shù)量,MS表示多個(gè)已判定文本的總數(shù)量;根據(jù)公式計(jì)算判定結(jié)果為第一確定結(jié)果的文本的誤判率,其中,F(xiàn)表示誤判率,WS表示根據(jù)第一判斷條件對(duì)應(yīng)的參考參數(shù),對(duì)多已判定文本從第一判斷條件進(jìn)行安全性判斷時(shí),獲得判定結(jié)果為第一確定結(jié)果的文本的數(shù)量,JW表示已判定文本中第一確定結(jié)果與已判定文本的已判定結(jié)果不相符的文本的數(shù)量。
可選的,在確定單元中,字符內(nèi)容分析對(duì)應(yīng)的參考參數(shù)為中文字符,文本長(zhǎng)度分析對(duì)應(yīng)的參考參數(shù)為文本長(zhǎng)度值、黑名單匹配對(duì)應(yīng)的參考參數(shù)為黑名單庫(kù)以及敏感詞匹配對(duì)應(yīng)的參考參數(shù)為敏感詞庫(kù)。
可選的,當(dāng)?shù)谝慌袛鄺l件為黑名單匹配時(shí),確定單元還用于,從已判定文本的違規(guī)文本結(jié)果對(duì)應(yīng)的違規(guī)文本中提取不同的字符串,并將多個(gè)不同的字符串組成黑名單匹配對(duì)應(yīng)的參考參數(shù)黑名單庫(kù),其中,字符串至少包括數(shù)字和統(tǒng)一資源定位符URL。
可選的,當(dāng)?shù)谝慌袛鄺l件為敏感詞匹配時(shí),確定單元還用于,將一預(yù)設(shè)敏感詞庫(kù)中的敏感詞與已判定文本中的違規(guī)文本結(jié)果對(duì)應(yīng)的違規(guī)文本進(jìn)行匹配,并計(jì)算敏感詞的匹配度;根據(jù)計(jì)算得到的敏感詞的匹配度,將匹配度小于匹配度閾值的敏感詞從預(yù)設(shè)敏感詞庫(kù)中清除,并將預(yù)設(shè)敏感詞庫(kù)中剩余的敏感詞組成敏感詞匹配對(duì)應(yīng)的參考參數(shù)敏感詞庫(kù)。
可選的,裝置還包括篩選模塊,用于從敏感詞庫(kù)中篩選出匹配度值最高的敏感詞以及從已判定文本中篩選出與匹配度值最高的敏感詞匹配的文本;將敏感詞庫(kù)中剩余敏感詞與已判定文本中剩余文本進(jìn)行匹配,并計(jì)算剩余敏感詞的匹配度;根據(jù)計(jì)算得到的剩余敏感詞的匹配度,從剩余敏感詞中篩選出匹配度等級(jí)最高的敏感詞以及從剩余文本中篩選出與匹配度等級(jí)最高的敏感詞匹配的文本,其中,匹配度的等級(jí)隨匹配度值的增大而增加;重復(fù)進(jìn)入將敏感詞庫(kù)中剩余敏感詞與已判定文本中剩余文本進(jìn)行匹配,并計(jì)算剩余敏感詞的匹配度的步驟,直至剩余敏感詞的匹配度為零;將篩選出的敏感詞組成敏感詞匹配對(duì)應(yīng)的判定參數(shù)敏感詞庫(kù)。
可選的,分析模塊還用于,根據(jù)字符內(nèi)容分析的判定參數(shù)中文字符,判斷文本字符中是否包含有中文字符;若文本字符中不包含有中文字符,則字符內(nèi)容分析的判定結(jié)果為正常文本結(jié)果;若文本字符中包含有中文字符,則字符內(nèi)容分析的判定結(jié)果為不確定結(jié)果。
可選的,分析模塊還用于,根據(jù)文本長(zhǎng)度分析的判定參數(shù)長(zhǎng)度閾值,判斷文本字符的文本長(zhǎng)度是否小于等于長(zhǎng)度閾值;若文本長(zhǎng)度小于等于長(zhǎng)度閾值,則文本長(zhǎng)度分析的判定結(jié)果為正常文本結(jié)果;若文本長(zhǎng)度大于長(zhǎng)度閾值,則文本長(zhǎng)度分析的判定結(jié)果為不確定結(jié)果。
可選的,分析模塊還用于,根據(jù)黑名單匹配的判定參數(shù)黑名單庫(kù),判斷文本字符中是否包含有與黑名單庫(kù)中的字符串相匹配的字符串,其中,字符串至少包括數(shù)字和URL;若文本字符中包含有與黑名單庫(kù)中的字符串相匹配的字符串,則黑名單匹配的判定結(jié)果為違規(guī)文本結(jié)果;若文本字符中不包含有與黑名單庫(kù)中的字符串相匹配的字符串,則黑名單匹配的判定結(jié)果為不確定文本結(jié)果。
可選的,分析模塊還用于,根據(jù)敏感詞匹配的判定參數(shù)敏感詞庫(kù),判斷文本字符中是否包含有與敏感詞庫(kù)中的敏感詞相匹配的分詞;若文本字符中不包含有與敏感詞庫(kù)中的敏感詞相匹配的分詞,則敏感詞匹配的判定結(jié)果為正常文本結(jié)果;若文本字符中包含有與敏感詞庫(kù)中的敏感詞相匹配的分詞,則敏感詞匹配的判定結(jié)果為疑似違規(guī)文本結(jié)果。
可選的,確定模塊還用于,根據(jù)所獲得的不同判斷條件的判定結(jié)果,確定判定結(jié)果的類型,其中,判定結(jié)果的類型包括第二確定結(jié)果和不確定結(jié)果,第二確定結(jié)果包括正常文本結(jié)果、違規(guī)文本結(jié)果和疑似違規(guī)文本結(jié)果;根據(jù)預(yù)先設(shè)置的不同判斷條件的判斷優(yōu)先級(jí),按照由高到低的優(yōu)先級(jí)順序選取優(yōu)先級(jí)高的判斷條件對(duì)應(yīng)的第二確定結(jié)果作為最終判定結(jié)果。
可選的,裝置還包括更新模塊,用于將經(jīng)過(guò)人工審核并已有人工審核判定結(jié)果的疑似違規(guī)文本結(jié)果對(duì)應(yīng)的疑似文本更新至預(yù)先存儲(chǔ)的已判定文本中。
可選的,確定模塊還用于,當(dāng)不同判斷條件包括字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配和敏感詞匹配時(shí),不同判斷條件的由高到低的優(yōu)先級(jí)序列為字符內(nèi)容分析、文本長(zhǎng)度分析、黑名單匹配、敏感詞匹配;或者不同判斷條件的由高到低的優(yōu)先級(jí)序列為文本長(zhǎng)度分析、字符內(nèi)容分析、黑名單匹配、敏感 詞匹配。
以上所述的是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出對(duì)于本技術(shù)領(lǐng)域的普通人員來(lái)說(shuō),在不脫離本發(fā)明所述的原理前提下還可以作出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也在本發(fā)明的保護(hù)范圍內(nèi)。