1.一種信息處理方法,其特征在于,所述方法包括:
對存儲的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;
利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;
利用所述關(guān)鍵詞策略樹,生成對應(yīng)的關(guān)鍵詞策略;
根據(jù)所述關(guān)鍵詞策略,識別攔截的短信是否為垃圾短信。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對存儲的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合,包括:
對所述存儲的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行只包含與關(guān)系的關(guān)鍵詞組合的規(guī)則變換處理,得到變換后的關(guān)鍵詞組合;
對所述變換后的關(guān)鍵詞組合進(jìn)行去重復(fù)及合并處理,得到所述新的關(guān)鍵詞組合。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹,包括:
將所述新的關(guān)鍵詞組合分離成單個(gè)關(guān)鍵詞;
將每個(gè)關(guān)鍵詞作為一個(gè)根節(jié)點(diǎn),遍歷生成所述關(guān)鍵詞策略樹。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述關(guān)鍵詞策略樹,生成對應(yīng)的關(guān)鍵詞策略,包括:
同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)為葉子節(jié)點(diǎn)時(shí),子樹以廣度優(yōu)先遍歷,且葉子節(jié)點(diǎn)之間是或的關(guān)系,與父節(jié)點(diǎn)之間是與的關(guān)系;和/或,
同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),子樹以深度優(yōu)先遍歷,且相同層次的多個(gè)葉子節(jié)點(diǎn)之間是或的關(guān)系,各層節(jié)點(diǎn)之間是與的關(guān)系;和/或,
同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),且子樹之間相同層次的兄弟節(jié)點(diǎn)具有共同的葉子節(jié)點(diǎn)時(shí),兄弟節(jié)點(diǎn)之間生成或的關(guān)系,共同的葉子節(jié)點(diǎn)生成或的關(guān)系,各層節(jié)點(diǎn)之間生成與的關(guān)系;和/或,
從根節(jié)點(diǎn)遍歷關(guān)鍵詞策略樹,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn)時(shí),遍歷相同路徑,子樹之間相同層次的兄弟節(jié)點(diǎn)擁有相同的子節(jié)點(diǎn)集,兄弟節(jié)點(diǎn)之間生成或的關(guān)系,子節(jié)點(diǎn)集合各層節(jié)點(diǎn)之間生成與的關(guān)系。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
將從新垃圾短信中提取的關(guān)鍵詞進(jìn)行去重復(fù)及合并處理,得到所述新垃圾短信對應(yīng)的關(guān)鍵詞組合;
利用所述對應(yīng)的關(guān)鍵詞組合,遍歷已生成的關(guān)鍵詞策略樹,當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹;
相應(yīng)地,利用更新后的關(guān)鍵詞策略樹,生成新的關(guān)鍵詞策略;并根據(jù)所述新的關(guān)鍵詞策略,識別攔截的短信是否為垃圾短信。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹,包括:
所述對應(yīng)的關(guān)鍵詞組合屬于已生成的關(guān)鍵詞策略樹的根節(jié)點(diǎn),且不符合所述根節(jié)點(diǎn)對應(yīng)的關(guān)鍵詞策略樹規(guī)則時(shí),將所述對應(yīng)的關(guān)鍵詞組合合并到所述根節(jié)點(diǎn)對應(yīng)的關(guān)鍵詞策略樹中,生成新的關(guān)鍵詞策略樹;或者,
所述對應(yīng)的關(guān)鍵詞組合在已生成的關(guān)鍵詞策略樹中找不到對應(yīng)根節(jié)點(diǎn)時(shí),根據(jù)所述對應(yīng)的關(guān)鍵詞組合,基于多叉樹算法,生成新的關(guān)鍵詞策略樹。
7.一種信息處理裝置,其特征在于,所述裝置包括:預(yù)處理單元、策略樹生成單元、關(guān)鍵詞策略生成單元以及識別單元;其中,
所述預(yù)處理單元,用于對存儲的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;
所述策略樹生成單元,用于利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;
所述關(guān)鍵詞策略生成單元,用于利用所述關(guān)鍵詞策略樹,生成對應(yīng)的關(guān)鍵詞策略;
所述識別單元,用于根據(jù)所述關(guān)鍵詞策略,識別攔截的短信是否為垃圾短信。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述預(yù)處理單元包括:變換 模塊和去重復(fù)及合并處理模塊;其中,
所述變換模塊,用于對所述存儲的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行只包含與關(guān)系的關(guān)鍵詞組合的規(guī)則變換處理,得到變換后的關(guān)鍵詞組合;
所述去重復(fù)及合并處理模塊,用于對所述變換后的關(guān)鍵詞組合進(jìn)行去重復(fù)及合并處理,得到所述新的關(guān)鍵詞組合。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述策略樹生成單元包括分離模塊及策略樹生成模塊;其中,
所述分離模塊,用于將所述新的關(guān)鍵詞組合分離成單個(gè)關(guān)鍵詞;
所述策略樹生成模塊,用于將每個(gè)關(guān)鍵詞作為一個(gè)根節(jié)點(diǎn),遍歷生成所述關(guān)鍵詞策略樹。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述關(guān)鍵詞策略生成單元,具體用于:
同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)為葉子節(jié)點(diǎn)時(shí),子樹以廣度優(yōu)先遍歷,且葉子節(jié)點(diǎn)之間是或的關(guān)系,與父節(jié)點(diǎn)之間是與的關(guān)系;和/或,
同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),子樹以深度優(yōu)先遍歷,且相同層次的多個(gè)葉子節(jié)點(diǎn)之間是或的關(guān)系,各層節(jié)點(diǎn)之間是與的關(guān)系;和/或,
同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),且子樹之間相同層次的兄弟節(jié)點(diǎn)具有共同的葉子節(jié)點(diǎn)時(shí),兄弟節(jié)點(diǎn)之間生成或的關(guān)系,共同的葉子節(jié)點(diǎn)生成或的關(guān)系,各層節(jié)點(diǎn)之間生成與的關(guān)系;和/或,
從根節(jié)點(diǎn)遍歷關(guān)鍵詞策略樹,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn)時(shí),遍歷相同路徑,子樹之間相同層次的兄弟節(jié)點(diǎn)擁有相同的子節(jié)點(diǎn)集,兄弟節(jié)點(diǎn)之間生成或的關(guān)系,子節(jié)點(diǎn)集合各層節(jié)點(diǎn)之間生成與的關(guān)系。
11.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述預(yù)處理單元,還用于將從新垃圾短信中提取的關(guān)鍵詞進(jìn)行去重復(fù)及合并處理,得到所述新垃圾短信對應(yīng)的關(guān)鍵詞組合;
所述策略樹生成單元,還用于利用所述對應(yīng)的關(guān)鍵詞組合,遍歷已生成的 關(guān)鍵詞策略樹,當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹;
相應(yīng)地,所述關(guān)鍵詞策略生成單元,還用于利用更新后的關(guān)鍵詞策略樹,生成新的關(guān)鍵詞策略;
所述識別單元,還用于根據(jù)所述新的關(guān)鍵詞策略,識別攔截的短信是否為垃圾短信。