一種生成關(guān)鍵字組合策略的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息安全技術(shù)領(lǐng)域,特別涉及一種生成關(guān)鍵字組合策略的方法及裝 置。
【背景技術(shù)】
[0002] 現(xiàn)有技術(shù)中針對(duì)一個(gè)網(wǎng)頁(yè)頁(yè)面或一篇文檔提取關(guān)鍵字組合,該技術(shù)的技術(shù)方案是 針對(duì)一個(gè)網(wǎng)頁(yè)頁(yè)面或一篇文檔,根據(jù)關(guān)鍵詞與網(wǎng)頁(yè)/文檔內(nèi)容的相關(guān)性,提取一條關(guān)鍵字 組合,其目的在于提高網(wǎng)頁(yè)/文檔的標(biāo)引質(zhì)量,以便快速檢索到該網(wǎng)頁(yè)/文檔。但針對(duì)一個(gè) 網(wǎng)頁(yè)頁(yè)面或一篇文檔提取一條關(guān)鍵字組合的技術(shù)完全不適用于垃圾短彩信的關(guān)鍵字組合 生成。若采用網(wǎng)頁(yè)/文檔提取關(guān)鍵字組合技術(shù)用于垃圾短彩信的關(guān)鍵字組合策略生成,則 只能針對(duì)一條短彩信生成一條策略,這樣針對(duì)一組短彩信,生成的策略數(shù)量非常多,這種方 式對(duì)于海量的垃圾短彩信而言顯然是不可行的,不僅生產(chǎn)效率極低,并且對(duì)策略容量需求 非常大,同時(shí)對(duì)于監(jiān)控系統(tǒng)的性能要求非常高;同時(shí)生成關(guān)鍵字過(guò)程中若僅僅考慮和本條 短彩信內(nèi)容的相關(guān)性,不考慮關(guān)鍵字所具有的垃圾屬性和正常屬性,將會(huì)導(dǎo)致生成的關(guān)鍵 字組合策略雖然簡(jiǎn)單但會(huì)產(chǎn)生很多誤攔。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供一種生成關(guān)鍵字組合策略的方法及裝置,提高了垃圾信息 關(guān)鍵字組合策略的攔截能力,且降低了在垃圾信息治理中日益嚴(yán)重的策略容量需求問(wèn)題, 提高了策略容量利用率,大大降低了投資。
[0004] 為了達(dá)到上述目的,本發(fā)明實(shí)施例提供一種生成關(guān)鍵字組合策略的方法,包括:
[0005] 對(duì)包含多個(gè)語(yǔ)句的信息進(jìn)行切詞處理,得到多個(gè)第一元素詞組合;
[0006] 獲得所述第一元素詞組合的垃圾屬性值和正常屬性值;
[0007] 所述第一元素詞組合的垃圾屬性值大于第一預(yù)設(shè)值且所述正常屬性值小于第二 預(yù)設(shè)值時(shí),確定該第一元素詞組合為第一元素關(guān)鍵詞組合,多個(gè)所述第一元素關(guān)鍵詞組合 形成第一元素關(guān)鍵詞組合集;
[0008] 將所述第一元素關(guān)鍵詞組合集中至少兩個(gè)不同的第一元素關(guān)鍵詞組合進(jìn)行組合, 得到第N元素詞組合,形成第N元素詞組合集,其中,N為組成所述第N元素詞組合的第一 元素組合的個(gè)數(shù);
[0009] 當(dāng)所述第N元素詞組合的垃圾屬性值大于第三預(yù)設(shè)值且所述正常屬性值小于第 四預(yù)設(shè)值時(shí),確定該第N元素詞組合為第N元素關(guān)鍵詞組合,確定的多個(gè)第N元素關(guān)鍵詞組 合形成第N元素關(guān)鍵詞組合集,當(dāng)N值大于或者等于一閾值時(shí),確定所述N元素關(guān)鍵詞組合 集為策略集。
[0010] 其中,獲得所述第一元素詞組合的垃圾屬性值和正常屬性值的步驟具體包括:
[0011] 從詞性庫(kù)中獲取所述多個(gè)第一元素詞組合的垃圾屬性值和正常屬性值。
[0012] 其中,所述第N元素詞組合的垃圾屬性值和正常屬性值的計(jì)算步驟具體包括:
[0013] 將所述第N元素詞組合拆分成N個(gè)第一元素關(guān)鍵詞組合;
[0014] 從詞性庫(kù)中分別獲取每一個(gè)第一元素關(guān)鍵詞組合的所有垃圾樣本ID和所有正常 樣本ID ;
[0015] 獲取所述N個(gè)第一元素關(guān)鍵詞組合的所有垃圾樣本ID中的相同的ID號(hào),所述相 同的ID號(hào)的數(shù)量為所述第N元素詞組合的垃圾屬性值;
[0016] 獲取所述N個(gè)第一元素關(guān)鍵詞組合的所有正常樣本ID中的相同的ID號(hào),所述相 同的ID號(hào)的數(shù)量為所述第N元素詞組合的正常屬性值。
[0017] 其中,形成第N元素詞組合集時(shí)按照N值由小到大的順序依次形成,若所述第N元 素詞組合集中不存在垃圾屬性值大于所述第三預(yù)設(shè)值且正常屬性值小于所述第四預(yù)設(shè)值 的第N元素詞組合,停止形成第N元素詞組合集;否則,直到N值大于或者等于一閾值,停止 形成第N元素詞組合集。
[0018] 優(yōu)選的,所述第N元素詞組合集的形成由已確定的第L元素關(guān)鍵詞組合和已確定 的第M元素關(guān)鍵詞組合兩兩組合形成,其中,L+M=N。
[0019] 進(jìn)一步的,確定所述策略集后還包括:
[0020] 對(duì)所述策略集進(jìn)行去冗余處理,得到優(yōu)選策略集。
[0021] 其中,對(duì)所述策略集進(jìn)行去冗余處理,得到優(yōu)選策略集的步驟具體包括:
[0022] 將所述策略集中所有第N元素關(guān)鍵詞組合攔截的信息去重合并,形成一個(gè)信息 集;
[0023] 將攔截信息數(shù)最多的第N元素關(guān)鍵詞組合確定為優(yōu)選策略,同時(shí)刪除所述優(yōu)選策 略,形成新的策略集,并刪除所述優(yōu)選策略攔截的所有信息,形成新的信息集,繼續(xù)確定優(yōu) 選策略,直到新的信息集中的信息條數(shù)小于第一預(yù)設(shè)門(mén)限值;
[0024] 將已確定的優(yōu)選策略組成優(yōu)選策略集。
[0025] 進(jìn)一步的,得到所述優(yōu)選策略集后還包括:
[0026] 將所述優(yōu)選策略集中的相似策略進(jìn)行邏輯合并,得到目標(biāo)策略集。
[0027] 其中,將所述優(yōu)選策略集中的相似策略進(jìn)行邏輯合并,得到目的策略集的步驟具 體包括:
[0028] 從所述優(yōu)選策略集中任選一個(gè)第N元素關(guān)鍵詞組合,將該第N元素關(guān)鍵詞組合的 任意N-I個(gè)關(guān)鍵詞重新組合,形成N個(gè)第N-I元素關(guān)鍵詞組合;
[0029] 將每個(gè)第N-I元素關(guān)鍵詞組合與所述優(yōu)選策略集中的第N元素關(guān)鍵詞組合進(jìn)行求 交集處理,確定與N個(gè)第N-I元素關(guān)鍵詞組合對(duì)應(yīng)的N個(gè)策略聚類(lèi);
[0030] 若成員最多的策略聚類(lèi)的成員數(shù)小于或者等于第二預(yù)設(shè)門(mén)限值,則從所述優(yōu)選策 略集刪除該策略,形成新的優(yōu)選策略集;否則,將該成員數(shù)最多的策略聚類(lèi)確定為相似策略 聚類(lèi),并從優(yōu)選策略集中刪除該相似策略聚類(lèi)中的所有策略,形成新的優(yōu)選策略集,并繼續(xù) 確定相似策略聚類(lèi),直到所述新的優(yōu)選策略集中的剩余策略數(shù)小于或者等于1 ;
[0031] 將已確定的相似策略聚類(lèi)組成相似策略聚類(lèi)集,并對(duì)所述相似策略聚類(lèi)集中的所 有相似策略聚類(lèi)分別進(jìn)行邏輯合并處理,生成包含"與" "或"組合的策略;
[0032] 將所述包含"與""或"組合的策略和與策略聚類(lèi)的成員數(shù)小于或者等于第二預(yù)設(shè) 門(mén)限值相對(duì)應(yīng)的所述優(yōu)選策略組成目標(biāo)策略集。
[0033] 本發(fā)明實(shí)施例還提供給一種生成關(guān)鍵字組合策略的裝置,包括:
[0034] 切詞模塊,用于對(duì)包含多個(gè)語(yǔ)句的信息進(jìn)行切詞處理,得到多個(gè)第一元素詞組 合;
[0035] 獲取模塊,用于獲得所述第一元素詞組合的垃圾屬性值和正常屬性值;
[0036] 第一確定模塊,用于當(dāng)所述第一元素詞組合的垃圾屬性值大于第一預(yù)設(shè)值且所述 正常屬性值小于第二預(yù)設(shè)值時(shí),確定該第一元素詞組合為第一元素關(guān)鍵詞組合,多個(gè)所述 第一元素關(guān)鍵詞組合形成第一元素關(guān)鍵詞組合集;
[0037] 生成模塊,用于將所述第一元素關(guān)鍵詞組合集中至少兩個(gè)不同的第一元素關(guān)鍵詞 組合進(jìn)行組合,得到第N元素詞組合,形成第N元素詞組合集,其中,N為組成所述第N元素 詞組合的第一元素組合的個(gè)數(shù);
[0038] 第二確定模塊,用于當(dāng)所述第N元素詞組合的垃圾屬性值大于第三預(yù)設(shè)值且所述 正常屬性值小于第四預(yù)設(shè)值時(shí),確定該第N元素詞組合為第N元素關(guān)鍵詞組合,確定的多個(gè) 第N元素關(guān)鍵詞組合形成第N元素關(guān)鍵詞組合集,當(dāng)N值大于或者等于一閾值時(shí),確定所述 N元素關(guān)鍵詞組合集為策略集。
[0039] 其中,所述獲取模塊包括:
[0040] 獲取單元,用于從詞性庫(kù)中獲取所述多個(gè)第一元素詞組合的垃圾屬性值和正常屬 性值。
[0041] 其中,形成第N元素詞組合集時(shí)按照N值由小到大的順序依次形成,若所述第N元 素詞組合集中不存在垃圾屬性值大于所述第三預(yù)設(shè)值且正常屬性值小于所述第四預(yù)設(shè)值 的第N元素詞組合,停止形成第N元素詞組合集;否則,直到N值大于或者等于一閾值,停止 形成第N元素詞組合集。
[0042] 進(jìn)一步的,所述第N元素詞組合集的形成由已確定的第L元素關(guān)鍵詞組合和已確 定的第M元素關(guān)鍵詞組合兩兩組合形成,其中,L+M=N。
[0043] 其中,上述生成關(guān)鍵字組合策略的裝置,還包括:
[0044] 去冗余模塊,用于對(duì)所述策略集進(jìn)行去冗余處理,得到優(yōu)選策略集。
[0045] 進(jìn)一步的,所述去冗余模塊包括:
[0046] 合并單元,用于將所述策略集中所有第N元素關(guān)鍵詞組合攔截的信息去重合并, 形成一個(gè)信息集;
[0047] 第三確定單元,用于將攔截信息數(shù)最多的第N元素關(guān)鍵詞組合確定為優(yōu)選策略, 同時(shí)刪除所述優(yōu)選策略,形成新的策略集,刪除所述優(yōu)選策略攔截的所有信息,形成新的信 息集,并繼續(xù)確定優(yōu)選策略,直到新的信息集中的信息條數(shù)小于第一預(yù)設(shè)門(mén)限值;
[0048] 第四確定單元,用于將已確定的優(yōu)選策略組成優(yōu)選策略集。
[0049] 其中,上述生成關(guān)鍵字組合策略的裝置,還包括:
[0050] 合并模塊,用于將所述優(yōu)選策略集中的相似策略進(jìn)行邏輯合并,得到目標(biāo)策略集。
[0051] 進(jìn)一步的,所述合并模塊包括:
[0052] 第一生成單元,用于從所述優(yōu)選策略集中任選一個(gè)第N元素關(guān)鍵詞組合,將該第N 元素關(guān)鍵詞組合的任意N-I個(gè)關(guān)鍵詞重新組合,形成N個(gè)第N-I元素關(guān)鍵詞組合;
[0053] 第二生成單元,用于將每個(gè)第N-I元素關(guān)鍵詞組合與所述優(yōu)選策略集中的第N元 素關(guān)鍵詞組合進(jìn)行求交集處理,確定與N個(gè)第N-I元素關(guān)鍵詞組合對(duì)應(yīng)的N個(gè)策略聚類(lèi);
[0054] 第五確定單元,用于若成員最多的策略聚類(lèi)的成員數(shù)小于或者等于第二預(yù)設(shè)門(mén)限 值,則從所述優(yōu)選策略集刪除該策略,形成新的優(yōu)選策略集;否則,將該成員數(shù)最