亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種信息處理方法及裝置與流程

文檔序號(hào):12363893閱讀:251來源:國(guó)知局
一種信息處理方法及裝置與流程

本發(fā)明涉及通信中的安全領(lǐng)域,尤其涉及一種信息處理方法及裝置。



背景技術(shù):

隨著移動(dòng)通信服務(wù)的不斷拓展,垃圾短信的現(xiàn)象隨之大量出現(xiàn),輕則影響手機(jī)用戶的正常生活,重則會(huì)導(dǎo)致個(gè)人或公司產(chǎn)生重大的經(jīng)濟(jì)損失,因此,治理垃圾短信有著十分重要的意義。

目前,短信攔截的方法主要根據(jù)關(guān)鍵詞策略和流量策略,當(dāng)監(jiān)控到的短信內(nèi)容中包括關(guān)鍵字或關(guān)鍵詞時(shí),則對(duì)發(fā)送該短信的發(fā)送端進(jìn)行相應(yīng)的放行、攔截或?qū)徍说忍幚?。其中,關(guān)鍵詞策略中包含垃圾短信中常見的任意關(guān)鍵字或關(guān)鍵詞的組合,如“(百家樂)&(注冊(cè)|進(jìn)入)&(獎(jiǎng))&(合作|游戲)”;這里,&代表“與”,|代表“或”,所監(jiān)控的短信內(nèi)容只要符合該關(guān)鍵字規(guī)則,將視為疑似垃圾短信進(jìn)行人工審核確認(rèn)。

實(shí)際應(yīng)用過程中,通常垃圾短信攔截系統(tǒng)的關(guān)鍵詞策略不低于兩千條,并且隨著新的垃圾短信出現(xiàn),需要從中提取新的關(guān)鍵字或關(guān)鍵詞,關(guān)鍵詞策略數(shù)量不斷增加,以便盡可能多的攔截垃圾短信。

這樣,現(xiàn)有關(guān)鍵詞策略數(shù)量過大且存在大量冗余,嚴(yán)重降低了系統(tǒng)的處理性能和短信過濾效率。



技術(shù)實(shí)現(xiàn)要素:

為解決現(xiàn)有存在的技術(shù)問題,本發(fā)明實(shí)施例提供一種信息處理方法及裝置。

本發(fā)明實(shí)施例提供了一種信息處理方法,包括:

對(duì)存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;

利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;

利用所述關(guān)鍵詞策略樹,生成對(duì)應(yīng)的關(guān)鍵詞策略;

根據(jù)所述關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信。

上述方案中,所述對(duì)存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合,包括:

對(duì)所述存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行只包含與關(guān)系的關(guān)鍵詞組合的規(guī)則變換處理,得到變換后的關(guān)鍵詞組合;

對(duì)所述變換后的關(guān)鍵詞組合進(jìn)行去重復(fù)及合并處理,得到所述新的關(guān)鍵詞組合。

上述方案中,所述利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹,包括:

將所述新的關(guān)鍵詞組合分離成單個(gè)關(guān)鍵詞;

將每個(gè)關(guān)鍵詞作為一個(gè)根節(jié)點(diǎn),遍歷生成所述關(guān)鍵詞策略樹。

上述方案中,所述利用所述關(guān)鍵詞策略樹,生成對(duì)應(yīng)的關(guān)鍵詞策略,包括:

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)為葉子節(jié)點(diǎn)時(shí),子樹以廣度優(yōu)先遍歷,且葉子節(jié)點(diǎn)之間是或的關(guān)系,與父節(jié)點(diǎn)之間是與的關(guān)系;和/或,

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),子樹以深度優(yōu)先遍歷,且相同層次的多個(gè)葉子節(jié)點(diǎn)之間是或的關(guān)系,各層節(jié)點(diǎn)之間是與的關(guān)系;和/或,

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),且子樹之間相同層次的兄弟節(jié)點(diǎn)具有共同的葉子節(jié)點(diǎn)時(shí),兄弟節(jié)點(diǎn)之間生成或的關(guān)系,共同的葉子節(jié)點(diǎn)生成或的關(guān)系,各層節(jié)點(diǎn)之間生成與的關(guān)系;和/或,

從根節(jié)點(diǎn)遍歷關(guān)鍵詞策略樹,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn)時(shí),遍歷相同路徑,子樹之間相同層次的兄弟節(jié)點(diǎn)擁有相同的子節(jié)點(diǎn)集,兄弟節(jié)點(diǎn)之間生成或的關(guān)系,子節(jié)點(diǎn)集合各層節(jié)點(diǎn)之間生成與的關(guān)系。

上述方案中,所述方法還包括:

將從新垃圾短信中提取的關(guān)鍵詞進(jìn)行去重復(fù)及合并處理,得到所述新垃圾短信對(duì)應(yīng)的關(guān)鍵詞組合;

利用所述對(duì)應(yīng)的關(guān)鍵詞組合,遍歷已生成的關(guān)鍵詞策略樹,當(dāng)與所述生成 的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹;

相應(yīng)地,利用更新后的關(guān)鍵詞策略樹,生成新的關(guān)鍵詞策略;并根據(jù)所述新的關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信。

上述方案中,所述當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹,包括:

所述對(duì)應(yīng)的關(guān)鍵詞組合屬于已生成的關(guān)鍵詞策略樹的根節(jié)點(diǎn),且不符合所述根節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞策略樹規(guī)則時(shí),將所述對(duì)應(yīng)的關(guān)鍵詞組合合并到所述根節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞策略樹中,生成新的關(guān)鍵詞策略樹;或者,

所述對(duì)應(yīng)的關(guān)鍵詞組合在已生成的關(guān)鍵詞策略樹中找不到對(duì)應(yīng)根節(jié)點(diǎn)時(shí),根據(jù)所述對(duì)應(yīng)的關(guān)鍵詞組合,基于多叉樹算法,生成新的關(guān)鍵詞策略樹。

本發(fā)明實(shí)施例還提供了一種信息處理裝置,包括:預(yù)處理單元、策略樹生成單元、關(guān)鍵詞策略生成單元以及識(shí)別單元;其中,

所述預(yù)處理單元,用于對(duì)存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;

所述策略樹生成單元,用于利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;

所述關(guān)鍵詞策略生成單元,用于利用所述關(guān)鍵詞策略樹,生成對(duì)應(yīng)的關(guān)鍵詞策略;

所述識(shí)別單元,用于根據(jù)所述關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信。

上述方案中,所述預(yù)處理單元包括:變換模塊和去重復(fù)及合并處理模塊;其中,

所述變換模塊,用于對(duì)所述存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行只包含與關(guān)系的關(guān)鍵詞組合的規(guī)則變換處理,得到變換后的關(guān)鍵詞組合;

所述去重復(fù)及合并處理模塊,用于對(duì)所述變換后的關(guān)鍵詞組合進(jìn)行去重復(fù)及合并處理,得到所述新的關(guān)鍵詞組合。

上述方案中,所述策略樹生成單元包括分離模塊及策略樹生成模塊;其中,

所述分離模塊,用于將所述新的關(guān)鍵詞組合分離成單個(gè)關(guān)鍵詞;

所述策略樹生成模塊,用于將每個(gè)關(guān)鍵詞作為一個(gè)根節(jié)點(diǎn),遍歷生成所述關(guān)鍵詞策略樹。

上述方案中,所述關(guān)鍵詞策略生成單元,具體用于:

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)為葉子節(jié)點(diǎn)時(shí),子樹以廣度優(yōu)先遍歷,且葉子節(jié)點(diǎn)之間是或的關(guān)系,與父節(jié)點(diǎn)之間是與的關(guān)系;和/或,

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),子樹以深度優(yōu)先遍歷,且相同層次的多個(gè)葉子節(jié)點(diǎn)之間是或的關(guān)系,各層節(jié)點(diǎn)之間是與的關(guān)系;和/或,

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),且子樹之間相同層次的兄弟節(jié)點(diǎn)具有共同的葉子節(jié)點(diǎn)時(shí),兄弟節(jié)點(diǎn)之間生成或的關(guān)系,共同的葉子節(jié)點(diǎn)生成或的關(guān)系,各層節(jié)點(diǎn)之間生成與的關(guān)系;和/或,

從根節(jié)點(diǎn)遍歷關(guān)鍵詞策略樹,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn)時(shí),遍歷相同路徑,子樹之間相同層次的兄弟節(jié)點(diǎn)擁有相同的子節(jié)點(diǎn)集,兄弟節(jié)點(diǎn)之間生成或的關(guān)系,子節(jié)點(diǎn)集合各層節(jié)點(diǎn)之間生成與的關(guān)系。

上述方案中,所述預(yù)處理單元,還用于將從新垃圾短信中提取的關(guān)鍵詞進(jìn)行去重復(fù)及合并處理,得到所述新垃圾短信對(duì)應(yīng)的關(guān)鍵詞組合;

所述策略樹生成單元,還用于利用所述對(duì)應(yīng)的關(guān)鍵詞組合,遍歷已生成的關(guān)鍵詞策略樹,當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹;

相應(yīng)地,所述關(guān)鍵詞策略生成單元,還用于利用更新后的關(guān)鍵詞策略樹,生成新的關(guān)鍵詞策略;

所述識(shí)別單元,還用于根據(jù)所述新的關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信。

本發(fā)明實(shí)施例提供的信息處理方法及裝置,對(duì)存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;利用所述關(guān)鍵詞策略樹,生成對(duì)應(yīng)的關(guān)鍵詞策略;根據(jù)所述關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信,如此,能有效地提升系統(tǒng)的處理性能 和短信過濾效率。

附圖說明

在附圖(其不一定是按比例繪制的)中,相似的附圖標(biāo)記可在不同的視圖中描述相似的部件。具有不同字母后綴的相似附圖標(biāo)記可表示相似部件的不同示例。附圖以示例而非限制的方式大體示出了本文中所討論的各個(gè)實(shí)施例。

圖1為本發(fā)明實(shí)施例一信息處理的方法流程示意圖;

圖2為本發(fā)明實(shí)施例二信息處理系統(tǒng)結(jié)構(gòu)示意圖;

圖3為本發(fā)明實(shí)施例二垃圾短信策略優(yōu)化系統(tǒng)進(jìn)行策略優(yōu)化的方法流程示意圖;

圖4為本發(fā)明實(shí)施例二生成的關(guān)鍵詞策略樹示意圖;

圖5為本發(fā)明實(shí)施例二圖4中的關(guān)鍵詞策略樹經(jīng)過修改后的關(guān)鍵詞策略樹示意圖;

圖6為本發(fā)明實(shí)施例二應(yīng)用實(shí)例的關(guān)鍵詞策略樹示意圖;

圖7為本發(fā)明實(shí)施例三信息處理裝置結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明再作進(jìn)一步詳細(xì)地描述。

目前,采用的關(guān)鍵詞策略中,關(guān)鍵詞的數(shù)量過大,且存在大量冗余,這樣,嚴(yán)重降低了系統(tǒng)的處理性能和短信過濾效率。

同時(shí)根據(jù)新的垃圾短信提取的關(guān)鍵字或關(guān)鍵詞,可能與已生成的關(guān)鍵詞策略重復(fù),由于還沒有有效手段解決此問題,導(dǎo)致新的關(guān)鍵字或關(guān)鍵詞未經(jīng)判斷直接加入到已有的關(guān)鍵詞策略中,使得關(guān)鍵字或關(guān)鍵詞重復(fù)現(xiàn)象更加嚴(yán)重,對(duì)系統(tǒng)性能影響較大。

基于此,在本發(fā)明的各種實(shí)施例中:對(duì)存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;利用所述關(guān)鍵詞策略樹,生成對(duì)應(yīng)的關(guān)鍵詞策略;根據(jù)所述關(guān)鍵詞策略, 識(shí)別攔截的短信是否為垃圾短信。

實(shí)施例一

本實(shí)施例信息處理的方法,如圖1所示,包括以下步驟:

步驟101:對(duì)存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;

這里,實(shí)際應(yīng)用時(shí),所述存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合可以是原有關(guān)鍵詞策略中的關(guān)鍵詞及關(guān)鍵詞組合。

所述對(duì)存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合,具體包括:

對(duì)所述存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行只包含與關(guān)系的關(guān)鍵詞組合的規(guī)則變換處理,得到變換后的關(guān)鍵詞組合;

對(duì)所述變換后的關(guān)鍵詞組合進(jìn)行去重復(fù)及合并處理,得到所述新的關(guān)鍵詞組合。

其中,所述對(duì)所述存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行只包含與關(guān)系的關(guān)鍵詞組合的規(guī)則變換處理,是指:對(duì)存儲(chǔ)的關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行規(guī)則變換,變換成只包含“與”關(guān)系的關(guān)鍵詞組合,實(shí)際應(yīng)用時(shí),對(duì)關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行的規(guī)則變換主要包括以下5條規(guī)則變換:

A&(B|G)=A&B+A&G,

A&B&(C|D)=A&B&C+A&B&D,

(B|D)&A&(C|E)=B&A&C+B&A&E+D&A&C+D&A&E,

A&(C|B)&E=A&C&E+A&B&E,

A&(D|B)&F=A&D&F+A&B&F。

其中,A、B、C、D、E、F以及G表示不同的關(guān)鍵詞;&、+表示與的關(guān)系,|表示或的關(guān)系。

所述對(duì)所述變換后的關(guān)鍵詞組合進(jìn)行去重復(fù)及合并處理,是指:對(duì)變換后的關(guān)鍵詞組合進(jìn)行預(yù)處理,對(duì)組合內(nèi)的每個(gè)關(guān)鍵詞完全相同的各關(guān)鍵詞組合進(jìn)行去除處理,只保留一個(gè)關(guān)鍵詞組合;同時(shí),對(duì)關(guān)鍵詞組合為另一個(gè)關(guān)鍵詞組 合子集的關(guān)鍵詞組合進(jìn)行去除處理。

這里,變換后的關(guān)鍵詞組合存在關(guān)鍵詞相等和包含的現(xiàn)象。其中,關(guān)鍵詞相等是指組合內(nèi)的每個(gè)關(guān)鍵詞完全相同,但排列順序可能不同;包含是指某個(gè)關(guān)鍵詞組合是另一個(gè)組合的子集,如:此時(shí),處理規(guī)則如下:

對(duì)于存在相等關(guān)系的各關(guān)鍵詞組合:

表示存在相等關(guān)系的各關(guān)鍵詞只保留一個(gè)關(guān)鍵詞組合。

對(duì)于存在包含關(guān)系的各關(guān)鍵詞組合:

表示存在包含關(guān)系的各關(guān)鍵詞組合僅保留為各關(guān)鍵詞組合子集的關(guān)鍵詞組合。

其中,A、B、C、D、E、F表示不同的關(guān)鍵詞;&表示與的關(guān)系,表示推導(dǎo)出、得出結(jié)論的含義。

上述對(duì)關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行的預(yù)處理,可以理解為是按照預(yù)設(shè)的處理方式對(duì)關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行的預(yù)處理。實(shí)際應(yīng)用時(shí),對(duì)關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理所遵循的預(yù)設(shè)處理方式不限于上述的預(yù)設(shè)處理方式。

步驟102:利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;

這里,利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹,具體包括:

將所述新的關(guān)鍵詞組合分離成單個(gè)關(guān)鍵詞;

將每個(gè)關(guān)鍵詞作為一個(gè)根節(jié)點(diǎn),遍歷生成所述關(guān)鍵詞策略樹。

其中,可以認(rèn)為上述生成關(guān)鍵詞策略樹的過程是基于多叉樹算法生成關(guān)鍵 詞策略樹的過程。

實(shí)際應(yīng)用時(shí),將關(guān)鍵詞組合分離成單個(gè)的關(guān)鍵詞,并按首字母升序的方式進(jìn)行排序,每個(gè)關(guān)鍵詞看成一個(gè)節(jié)點(diǎn),遍歷生成關(guān)鍵詞策略樹,具體步驟如下:

步驟1:先以A作為根節(jié)點(diǎn),從預(yù)處理后的關(guān)鍵詞組合中篩選出以A開頭的關(guān)鍵詞組合,并從篩選出的關(guān)鍵詞組合中,對(duì)除根節(jié)點(diǎn)外的每個(gè)關(guān)鍵詞進(jìn)行頻次統(tǒng)計(jì)并排序(如果頻次相同,按首字母排序);

這里,從篩選出的關(guān)鍵詞組合中,對(duì)除根節(jié)點(diǎn)外的每個(gè)關(guān)鍵詞按頻次進(jìn)行降序排序。舉個(gè)例子來說,A&C&D中,如果f(D)>f(C),則變換為A&D&C,依次類推,排序后的結(jié)果如下:

A&B,A&G,A&D&C,A&D&E,A&C&E,A&D&F。

其中,A、B、C、D、E、F表示不同的關(guān)鍵詞;f()表示出現(xiàn)某個(gè)關(guān)鍵詞的頻次。

步驟2:根據(jù)排序的結(jié)果,基于分叉樹算法,生成以A為根節(jié)點(diǎn)的關(guān)鍵詞策略樹。

步驟3:依次以B、C……為根節(jié)點(diǎn),分別按照步驟1、2所描述的方法,生成各根節(jié)點(diǎn)的關(guān)鍵詞策略樹。

這里,如果B為開頭的關(guān)鍵詞組合再次建立關(guān)鍵詞策略樹時(shí),當(dāng)出現(xiàn)A&B時(shí),則此處就不用針對(duì)A&B再建關(guān)鍵詞策略樹,其它情況以此類推。

步驟103:利用所述關(guān)鍵詞策略樹,生成對(duì)應(yīng)的關(guān)鍵詞策略;

具體地,同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)為葉子節(jié)點(diǎn)時(shí),子樹以廣度優(yōu)先遍歷,且葉子節(jié)點(diǎn)之間是或的關(guān)系,與父節(jié)點(diǎn)之間是與的關(guān)系;和/或,

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),子樹以深度優(yōu)先遍歷,且相同層次的多個(gè)葉子節(jié)點(diǎn)之間是或的關(guān)系,各層節(jié)點(diǎn)之間是與的關(guān)系;和/或,

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),且子樹之間相同層次的兄弟節(jié)點(diǎn)具有共同的葉子節(jié)點(diǎn)時(shí),兄弟節(jié)點(diǎn)之間生成或的關(guān)系,共同的 葉子節(jié)點(diǎn)生成或的關(guān)系,各層節(jié)點(diǎn)之間生成與的關(guān)系;和/或,

從根節(jié)點(diǎn)遍歷關(guān)鍵詞策略樹,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn)時(shí),遍歷相同路徑,子樹之間相同層次的兄弟節(jié)點(diǎn)擁有相同的子節(jié)點(diǎn)集,兄弟節(jié)點(diǎn)之間生成或的關(guān)系,子節(jié)點(diǎn)集合各層節(jié)點(diǎn)之間生成與的關(guān)系。

其中,對(duì)于一個(gè)關(guān)鍵詞策略樹而言,處在樹最頂端的節(jié)點(diǎn)稱為根節(jié)點(diǎn);相對(duì)于當(dāng)前節(jié)點(diǎn)而言,其上層節(jié)點(diǎn)就叫做父節(jié)點(diǎn),當(dāng)前節(jié)點(diǎn)為子節(jié)點(diǎn)。如果子節(jié)點(diǎn)下面已經(jīng)沒有其他任何節(jié)點(diǎn)了,則當(dāng)前的這個(gè)節(jié)點(diǎn)就稱為葉子節(jié)點(diǎn),處在樹的同一層結(jié)構(gòu)的節(jié)點(diǎn)稱為兄弟節(jié)點(diǎn)。

步驟104:根據(jù)所述關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信。

實(shí)際應(yīng)用時(shí),該方法還可以包括:

將從新垃圾短信中提取的關(guān)鍵詞進(jìn)行去重復(fù)及合并處理,得到所述新垃圾短信對(duì)應(yīng)的關(guān)鍵詞組;

利用所述對(duì)應(yīng)的關(guān)鍵詞組合,遍歷已生成的關(guān)鍵詞策略樹,當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹;

相應(yīng)地,利用更新后的關(guān)鍵詞策略樹,生成新的關(guān)鍵詞策略;并根據(jù)所述新的關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信。

其中,所述當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹,具體包括:

所述對(duì)應(yīng)的關(guān)鍵詞組合屬于已生成的關(guān)鍵詞策略樹的根節(jié)點(diǎn),且不符合所述根節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞策略樹規(guī)則時(shí),將所述對(duì)應(yīng)的關(guān)鍵詞組合合并到所述根節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞策略樹中,生成新的關(guān)鍵詞策略樹;或者,

所述對(duì)應(yīng)的關(guān)鍵詞組合在已生成的關(guān)鍵詞策略樹中找不到對(duì)應(yīng)根節(jié)點(diǎn)時(shí),根據(jù)所述對(duì)應(yīng)的關(guān)鍵詞組合,基于多叉樹算法,生成新的關(guān)鍵詞策略樹。

本實(shí)施例提供的信息處理的方法,對(duì)存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;利用所述關(guān)鍵詞策略樹,生成對(duì)應(yīng)的關(guān)鍵詞策略;根據(jù)所述關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信,如此,能有效地提升系統(tǒng)的處理性能和短信過濾 效率。

另外,將從新垃圾短信中提取的關(guān)鍵詞進(jìn)行去重復(fù)及合并處理,得到所述新垃圾短信對(duì)應(yīng)的關(guān)鍵詞組合;利用所述對(duì)應(yīng)的關(guān)鍵詞組合,遍歷已生成的關(guān)鍵詞策略樹,當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹;利用更新后的關(guān)鍵詞策略樹,生成新的關(guān)鍵詞策略;并根據(jù)所述新的關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信,如此,能進(jìn)一步提升系統(tǒng)的處理性能和短信過濾效率;并且,能進(jìn)一步提升短信過濾的準(zhǔn)確度。

實(shí)施例二

本實(shí)施例在實(shí)施例一的基礎(chǔ)上,詳細(xì)描述信息處理的過程。

如圖2所示,本實(shí)施例信息處理系統(tǒng)可以包括:垃圾短信攔截系統(tǒng)、垃圾短信策略優(yōu)化系統(tǒng)以及垃圾短信投訴系統(tǒng);其中,

垃圾短信攔截系統(tǒng)將自身的垃圾短信策略上報(bào)給垃圾短信策略優(yōu)化系統(tǒng),使得垃圾短信策略優(yōu)化系統(tǒng)根據(jù)上報(bào)的垃圾短信策略進(jìn)行垃圾短信策略優(yōu)化處理,并將優(yōu)化后的垃圾短信策略下發(fā)至垃圾短信攔截系統(tǒng),以便更好地?cái)r截垃圾短信;同時(shí),垃圾短信投訴系統(tǒng)將收到的投訴短信上報(bào)給垃圾短信策略優(yōu)化系統(tǒng),使得垃圾短信策略優(yōu)化系統(tǒng)根據(jù)投訴的垃圾短信進(jìn)行垃圾短信策略優(yōu)化處理,并將優(yōu)化處理的垃圾短信策略下發(fā)至垃圾短信攔截系統(tǒng),以便更好地?cái)r截垃圾短信。換句話說,垃圾短信策略優(yōu)化系統(tǒng)對(duì)已有的關(guān)鍵詞策略(垃圾短信攔截系統(tǒng)上報(bào))、以及新增的關(guān)鍵詞(垃圾短信投訴系統(tǒng)上報(bào))進(jìn)行優(yōu)化處理,最后將優(yōu)化后的關(guān)鍵詞策略下發(fā)給垃圾短信攔截系統(tǒng),以便垃圾短信攔截系統(tǒng)更有效地?cái)r截垃圾短信。

這里,實(shí)際應(yīng)用時(shí),本實(shí)施例的信息處理系統(tǒng),需要具備以下功能:

(1)垃圾短信及已有關(guān)鍵詞策略的導(dǎo)入

具體地,支持垃圾短信攔截系統(tǒng)策略的導(dǎo)入,以及垃圾短信投訴系統(tǒng)投訴的垃圾短信的導(dǎo)入功能,導(dǎo)入方式可同時(shí)支持如FTP接口在線實(shí)時(shí)導(dǎo)入和csv、excel文件的離線導(dǎo)入等功能。

(2)垃圾短信策略模型配置

具體地,根據(jù)策略優(yōu)化自動(dòng)化分析模型進(jìn)行相關(guān)參數(shù)設(shè)置,并根據(jù)策略模型對(duì)策略進(jìn)行優(yōu)化,并對(duì)優(yōu)化后的結(jié)果進(jìn)行展示。

垃圾短信策略優(yōu)化系統(tǒng)根據(jù)策略優(yōu)化自動(dòng)化分析模型對(duì)已有的關(guān)鍵詞策略進(jìn)行策略優(yōu)化,優(yōu)化流程如圖3所示,包括以下步驟:

步驟301:對(duì)已有的關(guān)鍵詞策略中的關(guān)鍵詞組進(jìn)行規(guī)則變化;

具體地,對(duì)已有的關(guān)鍵詞組進(jìn)行規(guī)則變換,變換成只包含“與”關(guān)系的關(guān)鍵詞組合,實(shí)際應(yīng)用時(shí),對(duì)關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行的規(guī)則變換主要包括以下5條規(guī)則變換:

A&(B|G)=A&B+A&G,

A&B&(C|D)=A&B&C+A&B&D,

(B|D)&A&(C|E)=B&A&C+B&A&E+D&A&C+D&A&E,

A&(C|B)&E=A&C&E+A&B&E,

A&(D|B)&F=A&D&F+A&B&F。

其中,A、B、C、D、E、F以及G表示不同的關(guān)鍵詞;&、+表示與的關(guān)系,|表示或的關(guān)系。

步驟302:對(duì)規(guī)則變化后的關(guān)鍵詞組進(jìn)行預(yù)處理;

具體地,對(duì)規(guī)則變化后的關(guān)鍵詞組進(jìn)行去重復(fù)及合并處理。

其中,由于變換后的關(guān)鍵詞組合存在關(guān)鍵詞相等和包含的現(xiàn)象,其中,關(guān)鍵詞相等是指組合內(nèi)的每個(gè)關(guān)鍵詞完全相同,但排列順序可能不同;包含是指某個(gè)關(guān)鍵詞組合是另一個(gè)組合的子集,如:因此,需要對(duì)規(guī)則變化后的關(guān)鍵詞組進(jìn)行去重復(fù)及合并處理,處理規(guī)則如下:

對(duì)于存在相等關(guān)系的各關(guān)鍵詞組合:

表示存在相等關(guān)系的各關(guān)鍵詞只保留一個(gè)關(guān)鍵詞組合。

對(duì)于存在包含關(guān)系的各關(guān)鍵詞組合:

表示存在包含關(guān)系的各關(guān)鍵詞組合僅保留為各關(guān)鍵詞組合子集的關(guān)鍵詞組合。

其中,A、B、C、D、E、F表示不同的關(guān)鍵詞;&表示與的關(guān)系,表示推導(dǎo)出、得出結(jié)論的含義。

步驟303:利用預(yù)處理后的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;

具體地,將關(guān)鍵詞組合分離成單個(gè)的關(guān)鍵詞,并按首字母升序的方式進(jìn)行排序,每個(gè)關(guān)鍵詞看成一個(gè)節(jié)點(diǎn),遍歷生成關(guān)鍵詞策略樹,具體步驟如下:

步驟1:先以A作為根節(jié)點(diǎn),從預(yù)處理后的關(guān)鍵詞組合中篩選出以A開頭的關(guān)鍵詞組合,并從篩選出的關(guān)鍵詞組合中,對(duì)除根節(jié)點(diǎn)外的每個(gè)關(guān)鍵詞進(jìn)行頻次統(tǒng)計(jì)并排序(如果頻次相同,按首字母排序);

這里,從篩選出的關(guān)鍵詞組合中,對(duì)除根節(jié)點(diǎn)外的每個(gè)關(guān)鍵詞按頻次進(jìn)行降序排序。舉個(gè)例子來說,A&C&D中,如果f(D)>f(C),則變換為A&D&C,依次類推,排序后的結(jié)果如下:

A&B,A&G,A&D&C,A&D&E,A&C&E,A&D&F。

其中,A、B、C、D、E、F表示不同的關(guān)鍵詞;f()表示出現(xiàn)某個(gè)關(guān)鍵詞的頻次。

步驟2:根據(jù)排序的結(jié)果,基于分叉樹算法,生成以A為根節(jié)點(diǎn)的關(guān)鍵詞策略樹。

對(duì)于上述例子,可以生成如圖4所示的以A為根節(jié)點(diǎn)的關(guān)鍵詞策略樹。

步驟3:依次以B、C……為根節(jié)點(diǎn),分別按照步驟1、2所描述的方法, 生成各根節(jié)點(diǎn)的關(guān)鍵詞策略樹。

步驟304:利用生成的關(guān)鍵詞策略樹,生成新的關(guān)鍵詞策略;

這里,策略生成規(guī)則包括:

(a)同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)為葉子節(jié)點(diǎn)時(shí),子樹以廣度優(yōu)先遍歷,且葉子節(jié)點(diǎn)之間是“或”的關(guān)系,與父節(jié)點(diǎn)之間是“與”的關(guān)系。如圖4中,B和G是葉子節(jié)點(diǎn),規(guī)則合并為A&(B|G)。

(b)同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),子樹以深度優(yōu)先遍歷,且相同層次的多個(gè)葉子節(jié)點(diǎn)之間是“或”的關(guān)系,各層節(jié)點(diǎn)之間是“與”的關(guān)系。如圖4中,D為父節(jié)點(diǎn),C、F、E為葉子節(jié)點(diǎn),規(guī)則合并為:A&D&(C|F|E)。

(c)同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),且子樹之間相同層次的兄弟節(jié)點(diǎn)具有共同的葉子節(jié)點(diǎn)時(shí),兄弟節(jié)點(diǎn)之間生成“或”的關(guān)系,共同的葉子節(jié)點(diǎn)生成“或”的關(guān)系,各層節(jié)點(diǎn)之間生成“與”的關(guān)系。如圖4中:父節(jié)點(diǎn)D和C有共同的葉子節(jié)點(diǎn),合并為:A&(D|C)&E。

(d)從根節(jié)點(diǎn)遍歷關(guān)鍵詞策略樹,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn)時(shí),遍歷相同路徑,子樹之間相同層次的兄弟節(jié)點(diǎn)擁有相同的子節(jié)點(diǎn)集,兄弟節(jié)點(diǎn)之間生成“或”的關(guān)系,子節(jié)點(diǎn)集合各層節(jié)點(diǎn)之間生成“與”的關(guān)系。

通過上述策略生成規(guī)則,則圖4所示的關(guān)鍵詞策略樹可以生成如下3條規(guī)則,即關(guān)鍵詞策略:

A&(B|G),A&D&(C|F|E),A&C&E;

(或者A&(B|G),A&D&(C|F),A&(D|C)&E)。

同時(shí),對(duì)于新增的垃圾短信,垃圾短信策略優(yōu)化系統(tǒng)根據(jù)新增關(guān)鍵詞策略分析模型,對(duì)關(guān)鍵詞策略進(jìn)行策略優(yōu)化,優(yōu)化流程如圖3所示,包括以下步驟:

步驟305:對(duì)規(guī)則變化后的關(guān)鍵詞組進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;

這里,對(duì)新增的關(guān)鍵詞進(jìn)行預(yù)處理的具體處理過程與步驟302的具體實(shí)現(xiàn)過程完全相同,不再贅述。

步驟306:根據(jù)新關(guān)鍵詞組合,遍歷已生成的關(guān)鍵詞策略樹,以判斷是否 與各生成的關(guān)鍵詞策略樹符合,如果符合,則執(zhí)行步驟307,否則,執(zhí)行步驟309;

這里,將各關(guān)鍵詞組合依次遍歷已有的各根節(jié)點(diǎn)的關(guān)鍵詞策略樹,如果與某個(gè)關(guān)鍵詞策略樹符合,則舍棄,即執(zhí)行步驟307。比如:當(dāng)新關(guān)鍵詞組為A&D&F,A&G&H時(shí),需要舍棄。

步驟307:舍棄所述預(yù)處理后的關(guān)鍵詞組合;

步驟308:判斷是否能找到根節(jié)點(diǎn),如果是,則執(zhí)行步驟309,否則,執(zhí)行步驟310;

這里,當(dāng)新關(guān)鍵詞組合屬于某根節(jié)點(diǎn),但不符合該根節(jié)對(duì)應(yīng)的關(guān)鍵詞點(diǎn)策略樹的規(guī)則時(shí),如:A&F&H,則需要執(zhí)行步驟309,修改該關(guān)鍵詞策略樹,以便將新生成的規(guī)則合并到已有的根節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞策略樹中;當(dāng)新關(guān)鍵詞組合找不到根節(jié)點(diǎn)時(shí),則需要執(zhí)行步驟310,根據(jù)策略樹優(yōu)化模型生成一個(gè)新的關(guān)鍵詞策略樹。

步驟309:修改關(guān)鍵詞策略樹,之后執(zhí)行步驟304;

這里,修改的具體操作可參考步驟303生成關(guān)鍵詞策略樹的具體處理過程。

對(duì)于圖4所示的關(guān)鍵詞策略樹,經(jīng)過修改后可形成如圖5所示的關(guān)鍵詞策略樹。

步驟310:生成新的關(guān)鍵詞策略樹,之后執(zhí)行步驟304;

這里,生成新的關(guān)鍵詞策略樹的具體操作可參考步驟303生成關(guān)鍵詞策略樹的具體處理過程。

根據(jù)上面描述的策略分析模型,減少了策略冗余,舉個(gè)例子來說:假設(shè)現(xiàn)有關(guān)鍵詞策略中包含以下5條規(guī):

{(百家樂)&(合作|游戲)}、{(百家樂)&(合作)&(登陸|注冊(cè))}、{(合作|注冊(cè))&(百家樂)&(進(jìn)入|登錄)}、{(登錄|合作)&(進(jìn)入)&(百家樂)}、{(百家樂)&(注冊(cè)|進(jìn)入)&(獎(jiǎng))&(合作|游戲)}。

采用上面描述的關(guān)鍵詞策略優(yōu)化流程后,則可以得到如圖6所示的關(guān)鍵詞策略樹;根據(jù)圖6所示的關(guān)鍵詞策略樹,則新關(guān)鍵詞策略可以合并為以下3條 規(guī)則:

{(百家樂)&(合作|游戲)}、{(百家樂)&(進(jìn)入)&(注冊(cè)|登錄)}、{(百家樂)&(注冊(cè))&(登錄)}。

從上面的描述中可以看出,本實(shí)施例的方案具有以下特點(diǎn):

首先,是一個(gè)自動(dòng)化分析系統(tǒng)

具體地,設(shè)計(jì)并實(shí)現(xiàn)了垃圾短信策略自動(dòng)優(yōu)化分析系統(tǒng),獲取原有關(guān)鍵詞策略并對(duì)其進(jìn)行優(yōu)化,策略上報(bào)和下發(fā)支持在線和離線兩種方式。

其次,策略優(yōu)化分析模型及方法

對(duì)原有關(guān)鍵詞策略進(jìn)行規(guī)則變換和預(yù)處理,生成有效的關(guān)鍵詞組合,基于多叉樹的原理生成策略樹,得到優(yōu)化關(guān)鍵詞策略,從而提高短信過濾效率。

第三,新增策略分析模型及方法

對(duì)于從新垃圾短信中提取的關(guān)鍵詞,經(jīng)過預(yù)處理后,首先遍歷已有根節(jié)點(diǎn)的關(guān)鍵詞策略樹,若符合則舍棄,反之則生成新的關(guān)鍵詞策略樹,并加入到已有關(guān)鍵詞策略中。

本實(shí)施例提出了基于多叉樹算法的垃圾短信策略生成與管理的解決方案,使得關(guān)鍵詞策略更加精簡(jiǎn)有效,提高系統(tǒng)的處理性能和短信過濾效率。

實(shí)施例三

在實(shí)施例一、二的基礎(chǔ)上,本實(shí)施例提供一種信息處理裝置,如圖7所示,該裝置包括:預(yù)處理單元71、策略樹生成單元72、關(guān)鍵詞策略生成單元73以及識(shí)別單元74;其中,

所述預(yù)處理單元71,用于對(duì)存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;

所述策略樹生成單元72,用于利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;

所述關(guān)鍵詞策略生成單元73,用于利用所述關(guān)鍵詞策略樹,生成對(duì)應(yīng)的關(guān)鍵詞策略;

所述識(shí)別單元74,用于根據(jù)所述關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾 短信。

其中,實(shí)際應(yīng)用時(shí),所述存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合可以是原有關(guān)鍵詞策略中的關(guān)鍵詞及關(guān)鍵詞組合。

所述預(yù)處理單元71可以包括:變換模塊和去重復(fù)及合并處理模塊;其中,

所述變換模塊,用于對(duì)所述存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行只包含與關(guān)系的關(guān)鍵詞組合的規(guī)則變換處理,得到變換后的關(guān)鍵詞組合;

所述去重復(fù)及合并處理模塊,用于對(duì)所述變換后的關(guān)鍵詞組合進(jìn)行去重復(fù)及合并處理,得到所述新的關(guān)鍵詞組合。

這里,所述對(duì)所述存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行只包含與關(guān)系的關(guān)鍵詞組合的規(guī)則變換處理,是指:對(duì)存儲(chǔ)的關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行規(guī)則變換,變換成只包含“與”關(guān)系的關(guān)鍵詞組合,實(shí)際應(yīng)用時(shí),對(duì)關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行的規(guī)則變換主要包括以下5條規(guī)則變換:

A&(B|G)=A&B+A&G,

A&B&(C|D)=A&B&C+A&B&D,

(B|D)&A&(C|E)=B&A&C+B&A&E+D&A&C+D&A&E,

A&(C|B)&E=A&C&E+A&B&E,

A&(D|B)&F=A&D&F+A&B&F。

其中,A、B、C、D、E、F以及G表示不同的關(guān)鍵詞;&、+表示與的關(guān)系,|表示或的關(guān)系。

所述對(duì)所述變換后的關(guān)鍵詞組合進(jìn)行去重復(fù)及合并處理,是指:對(duì)變換后的關(guān)鍵詞組合進(jìn)行預(yù)處理,對(duì)組合內(nèi)的每個(gè)關(guān)鍵詞完全相同的各關(guān)鍵詞組合進(jìn)行去除處理,只保留一個(gè)關(guān)鍵詞組合;同時(shí),對(duì)關(guān)鍵詞組合為另一個(gè)關(guān)鍵詞組合子集的關(guān)鍵詞組合進(jìn)行去除處理。

這里,變換后的關(guān)鍵詞組合存在關(guān)鍵詞相等和包含的現(xiàn)象。其中,關(guān)鍵詞相等是指組合內(nèi)的每個(gè)關(guān)鍵詞完全相同,但排列順序可能不同;包含是指某個(gè)關(guān)鍵詞組合是另一個(gè)組合的子集,如:此時(shí),處理規(guī)則如下:

對(duì)于存在相等關(guān)系的各關(guān)鍵詞組合:

表示存在相等關(guān)系的各關(guān)鍵詞只保留一個(gè)關(guān)鍵詞組合。

對(duì)于存在包含關(guān)系的各關(guān)鍵詞組合:

表示存在包含關(guān)系的各關(guān)鍵詞組合僅保留為各關(guān)鍵詞組合子集的關(guān)鍵詞組合。

其中,A、B、C、D、E、F表示不同的關(guān)鍵詞;&表示與的關(guān)系,表示推導(dǎo)出、得出結(jié)論的含義。

上述對(duì)關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行的預(yù)處理,可以理解為是按照預(yù)設(shè)的處理方式對(duì)關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行的預(yù)處理。實(shí)際應(yīng)用時(shí),對(duì)關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理所遵循的預(yù)設(shè)處理方式不限于上述的預(yù)設(shè)處理方式。

所述策略樹生成單元72可以包括分離模塊及策略樹生成模塊;其中,

所述分離模塊,用于將所述新的關(guān)鍵詞組合分離成單個(gè)關(guān)鍵詞;

所述策略樹生成模塊,用于將每個(gè)關(guān)鍵詞作為一個(gè)根節(jié)點(diǎn),遍歷生成所述關(guān)鍵詞策略樹。

其中,可以認(rèn)為所述策略樹生成單元72生成關(guān)鍵詞策略樹的過程是基于多叉樹算法生成關(guān)鍵詞策略樹的過程。

實(shí)際應(yīng)用時(shí),所述分離模塊將關(guān)鍵詞組合分離成單個(gè)的關(guān)鍵詞,并按首字母升序的方式進(jìn)行排序,所述策略樹生成模塊將每個(gè)關(guān)鍵詞看成一個(gè)節(jié)點(diǎn),遍歷生成關(guān)鍵詞策略樹,具體步驟如下:

步驟1:先以A作為根節(jié)點(diǎn),從預(yù)處理后的關(guān)鍵詞組合中篩選出以A開頭 的關(guān)鍵詞組合,并從篩選出的關(guān)鍵詞組合中,對(duì)除根節(jié)點(diǎn)外的每個(gè)關(guān)鍵詞進(jìn)行頻次統(tǒng)計(jì)并排序(如果頻次相同,按首字母排序);

這里,從篩選出的關(guān)鍵詞組合中,對(duì)除根節(jié)點(diǎn)外的每個(gè)關(guān)鍵詞按頻次進(jìn)行降序排序。舉個(gè)例子來說,A&C&D中,如果f(D)>f(C),則變換為A&D&C,依次類推,排序后的結(jié)果如下:

A&B,A&G,A&D&C,A&D&E,A&C&E,A&D&F。

其中,A、B、C、D、E、F表示不同的關(guān)鍵詞;f()表示出現(xiàn)某個(gè)關(guān)鍵詞的頻次。

步驟2:根據(jù)排序的結(jié)果,基于分叉樹算法,生成以A為根節(jié)點(diǎn)的關(guān)鍵詞策略樹。

步驟3:依次以B、C……為根節(jié)點(diǎn),分別按照步驟1、2所描述的方法,生成各根節(jié)點(diǎn)的關(guān)鍵詞策略樹。

這里,如果B為開頭的關(guān)鍵詞組合再次建立關(guān)鍵詞策略樹時(shí),當(dāng)出現(xiàn)A&B時(shí),則此處就不用針對(duì)A&B再建關(guān)鍵詞策略樹,其它情況以此類推。

所述關(guān)鍵詞策略生成單元73,具體用于:

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)為葉子節(jié)點(diǎn)時(shí),子樹以廣度優(yōu)先遍歷,且葉子節(jié)點(diǎn)之間是或的關(guān)系,與父節(jié)點(diǎn)之間是與的關(guān)系;和/或,

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),子樹以深度優(yōu)先遍歷,且相同層次的多個(gè)葉子節(jié)點(diǎn)之間是或的關(guān)系,各層節(jié)點(diǎn)之間是與的關(guān)系;和/或,

同一個(gè)關(guān)鍵詞策略樹中,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn),且子樹之間相同層次的兄弟節(jié)點(diǎn)具有共同的葉子節(jié)點(diǎn)時(shí),兄弟節(jié)點(diǎn)之間生成或的關(guān)系,共同的葉子節(jié)點(diǎn)生成或的關(guān)系,各層節(jié)點(diǎn)之間生成與的關(guān)系;和/或,

從根節(jié)點(diǎn)遍歷關(guān)鍵詞策略樹,根節(jié)點(diǎn)的子節(jié)點(diǎn)不為葉子節(jié)點(diǎn)時(shí),遍歷相同路徑,子樹之間相同層次的兄弟節(jié)點(diǎn)擁有相同的子節(jié)點(diǎn)集,兄弟節(jié)點(diǎn)之間生成或的關(guān)系,子節(jié)點(diǎn)集合各層節(jié)點(diǎn)之間生成與的關(guān)系。

其中,對(duì)于一個(gè)關(guān)鍵詞策略樹而言,處在樹最頂端的節(jié)點(diǎn)稱為根節(jié)點(diǎn);相 對(duì)于當(dāng)前節(jié)點(diǎn)而言,其上層節(jié)點(diǎn)就叫做父節(jié)點(diǎn),當(dāng)前節(jié)點(diǎn)為子節(jié)點(diǎn)。如果子節(jié)點(diǎn)下面已經(jīng)沒有其他任何節(jié)點(diǎn)了,則當(dāng)前的這個(gè)節(jié)點(diǎn)就稱為葉子節(jié)點(diǎn),處在樹的同一層結(jié)構(gòu)的節(jié)點(diǎn)稱為兄弟節(jié)點(diǎn)。

所述預(yù)處理單元71,還用于將從新垃圾短信中提取的關(guān)鍵詞進(jìn)行去重復(fù)及合并處理,得到所述新垃圾短信對(duì)應(yīng)的關(guān)鍵詞組合;

所述策略樹生成單元72,還用于利用所述對(duì)應(yīng)的關(guān)鍵詞組合,遍歷已生成的關(guān)鍵詞策略樹,當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹;

相應(yīng)地,所述關(guān)鍵詞策略生成單元73,還用于利用更新后的關(guān)鍵詞策略樹,生成新的關(guān)鍵詞策略;

所述識(shí)別單元74,還用于根據(jù)所述新的關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信。

其中,所述當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),所述策略樹生成單元72生成新的關(guān)鍵詞策略樹,具體包括:

所述對(duì)應(yīng)的關(guān)鍵詞組合屬于已生成的關(guān)鍵詞策略樹的根節(jié)點(diǎn),且不符合所述根節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞策略樹規(guī)則時(shí),所述策略樹生成單元72將所述對(duì)應(yīng)的關(guān)鍵詞組合合并到所述根節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞策略樹中,生成新的關(guān)鍵詞策略樹;或者,

所述對(duì)應(yīng)的關(guān)鍵詞組合在已生成的關(guān)鍵詞策略樹中找不到對(duì)應(yīng)根節(jié)點(diǎn)時(shí),所述策略樹生成單元72根據(jù)所述對(duì)應(yīng)的關(guān)鍵詞組合,基于多叉樹算法,生成新的關(guān)鍵詞策略樹。

實(shí)際應(yīng)用時(shí),所述預(yù)處理單元71、策略樹生成單元72、以及關(guān)鍵詞策略生成單元73可以位于實(shí)施例二中的垃圾短信策略優(yōu)化系統(tǒng)中,所述識(shí)別單元74可以位于實(shí)施例二中的垃圾短信攔截系統(tǒng)中。而所述預(yù)處理單元71所獲得新垃圾短信則由實(shí)施例二中的垃圾短信投訴系統(tǒng)提供。

實(shí)際應(yīng)用時(shí),所述預(yù)處理單元71、關(guān)鍵詞策略生成單元73以及識(shí)別單元74可由信息處理裝置中的中央處理器(CPU,Central Processing Unit)、微處理 器(MCU,Micro Control Unit)、數(shù)字信號(hào)處理器(DSP,Digital Signal Processor)或可編程邏輯陣列(FPGA,F(xiàn)ield-Programmable Gate Array)結(jié)合收發(fā)機(jī)實(shí)現(xiàn);所述策略樹生成單元72、變換模塊、去重復(fù)及合并處理模塊、分離模塊、策略樹生成模塊可由信息處理裝置中的CPU、MCU、DSP或FPGA實(shí)現(xiàn)。

本實(shí)施例提供的信息處理的方法,所述預(yù)處理單元71對(duì)存儲(chǔ)的所有關(guān)鍵詞及關(guān)鍵詞組合進(jìn)行預(yù)處理,得到新的關(guān)鍵詞組合;所述策略樹生成單元72利用所述新的關(guān)鍵詞組合,生成關(guān)鍵詞策略樹;所述關(guān)鍵詞策略生成單元73利用所述關(guān)鍵詞策略樹,生成對(duì)應(yīng)的關(guān)鍵詞策略;所述識(shí)別單元74根據(jù)所述關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信,如此,能有效地提升系統(tǒng)的處理性能和短信過濾效率。

另外,所述預(yù)處理單元71將從新垃圾短信中提取的關(guān)鍵詞進(jìn)行去重復(fù)及合并處理,得到所述新垃圾短信對(duì)應(yīng)的關(guān)鍵詞組合;所述策略樹生成單元72利用所述對(duì)應(yīng)的關(guān)鍵詞組合,遍歷已生成的關(guān)鍵詞策略樹,當(dāng)與所述生成的關(guān)鍵詞策略樹不符合時(shí),生成新的關(guān)鍵詞策略樹;所述關(guān)鍵詞策略生成單元73利用更新后的關(guān)鍵詞策略樹,生成新的關(guān)鍵詞策略;所述識(shí)別單元74根據(jù)所述新的關(guān)鍵詞策略,識(shí)別攔截的短信是否為垃圾短信,如此,能進(jìn)一步提升系統(tǒng)的處理性能和短信過濾效率;并且,能進(jìn)一步提升短信過濾的準(zhǔn)確度。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用硬件實(shí)施例、軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器和光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可 編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1