專(zhuān)利名稱:一種確定短信攔截關(guān)鍵詞的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,尤其涉及一種確定短信攔截關(guān)鍵詞的方法。
背景技術(shù):
在現(xiàn)有技術(shù)中,關(guān)鍵字的添加都是人工干預(yù),即需要人工從大量的垃圾短信中分析出關(guān)鍵字,再通過(guò)手工的方式添加進(jìn)垃圾短信攔截系統(tǒng),關(guān)鍵詞可能隨著時(shí)間的推移,發(fā)生了變種,用預(yù)先設(shè)定的關(guān)鍵詞就不能將含有變種的關(guān)鍵詞短信攔截下來(lái),又需要人工分析短信提取變種關(guān)鍵字,整個(gè)過(guò)程需要投入大量人力,人力成本過(guò)高。由于需要人工分析短信提取變種關(guān)鍵字,對(duì)于變種關(guān)鍵字,手工添加進(jìn)系統(tǒng)時(shí)間相對(duì)滯后,不能很好發(fā)揮關(guān)鍵字作用,且人工提取變種關(guān)鍵字遺漏機(jī)率大
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種確定短信攔截關(guān)鍵詞的方法,解決現(xiàn)有技術(shù)中關(guān)鍵詞采用人工輸入方式造成的滯后及不全的問(wèn)題,通過(guò)預(yù)設(shè)關(guān)鍵詞探針,對(duì)一系列可能變種的關(guān)鍵詞進(jìn)行分析收集,獲取新的準(zhǔn)確的關(guān)鍵詞,對(duì)關(guān)鍵詞庫(kù)自動(dòng)進(jìn)行實(shí)時(shí)更新,以使用這些關(guān)鍵詞攔截垃圾短信或廣告短信時(shí)攔截準(zhǔn)確率更高。為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種確定短信攔截關(guān)鍵詞的方法,包括預(yù)設(shè)探針關(guān)鍵字;實(shí)時(shí)采集移動(dòng)網(wǎng)絡(luò)中傳輸?shù)乃卸滔?,抽取包含所述預(yù)設(shè)的探針關(guān)鍵字的短消息;結(jié)合分詞技術(shù)對(duì)所述抽取出來(lái)的包含探針關(guān)鍵字的短消息進(jìn)行分析,獲取變種關(guān)鍵詞;對(duì)所述獲取的變種關(guān)鍵詞進(jìn)行分析,確定攔截新關(guān)鍵詞,其中對(duì)獲取的變種關(guān)鍵詞進(jìn)行分析包括詞性分析、出現(xiàn)頻率分析。優(yōu)選的,所述實(shí)時(shí)采集移動(dòng)網(wǎng)絡(luò)中傳輸?shù)乃卸滔⒉襟E,具體為實(shí)時(shí)采集移動(dòng)網(wǎng)絡(luò)中傳輸?shù)乃卸滔?,并剔除短消息?nèi)容中的特殊字符。優(yōu)選的,所述結(jié)合分詞技術(shù)對(duì)所述抽取出來(lái)的包含探針關(guān)鍵字的短消息進(jìn)行分析,獲取變種關(guān)鍵詞步驟,進(jìn)一步包括利用分詞技術(shù)對(duì)所述抽取出來(lái)的包含探針關(guān)鍵字的短消息進(jìn)行分詞;將分解出來(lái)的詞匯與所述探針關(guān)鍵字進(jìn)行匹配,獲取變種關(guān)鍵詞。其中,所述對(duì)所述獲取的變種關(guān)鍵詞進(jìn)行分析,確定攔截新關(guān)鍵詞步驟之后,還包括將確定的攔截新關(guān)鍵詞加入到短信攔截關(guān)鍵詞數(shù)據(jù)庫(kù),供垃圾短信攔截系統(tǒng)調(diào)用以進(jìn)行垃圾短信實(shí)時(shí)攔截。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果
本發(fā)明通過(guò)預(yù)設(shè)關(guān)鍵詞探針,對(duì)一系列可能變種的關(guān)鍵詞進(jìn)行分析收集,獲取新的準(zhǔn)確的關(guān)鍵詞,對(duì)關(guān)鍵詞庫(kù)進(jìn)行實(shí)時(shí)自動(dòng)更新,以使用這些關(guān)鍵詞攔截垃圾短信或廣告短信時(shí)攔截準(zhǔn)確率更高。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖
圖I為本發(fā)明實(shí)施例一確定短信攔截關(guān)鍵詞方法的流程 圖2為本發(fā)明實(shí)施例二確定短信攔截關(guān)鍵詞方法的流程圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí) 施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。參見(jiàn)圖1,為本發(fā)明實(shí)施例一確定短信攔截關(guān)鍵詞方法的流程圖,所述確定短信攔截關(guān)鍵詞的方法,包括如下步驟
步驟SlOl :預(yù)設(shè)探針關(guān)鍵字;
步驟S102 :實(shí)時(shí)采集移動(dòng)網(wǎng)絡(luò)中傳輸?shù)乃卸滔?,抽取包含所述預(yù)設(shè)的探針關(guān)鍵字的短消息;本步驟實(shí)時(shí)采集移動(dòng)網(wǎng)絡(luò)中傳輸?shù)乃卸滔⒑?,為了更?zhǔn)確的識(shí)別變種關(guān)鍵詞,可以先剔除短消息內(nèi)容中的特殊字符,再?gòu)奶蕹厥庾址蟮亩滔⒅谐槿“鲱A(yù)設(shè)的探針關(guān)鍵字的短消息;
步驟S103:結(jié)合分詞技術(shù)對(duì)所述抽取出來(lái)的包含探針關(guān)鍵字的短消息進(jìn)行分析,獲取變種關(guān)鍵詞,具體可以為利用分詞技術(shù)對(duì)所述抽取出來(lái)的包含探針關(guān)鍵字的短消息進(jìn)行分詞;將分解出來(lái)的詞匯與所述探針關(guān)鍵字進(jìn)行匹配,獲取變種關(guān)鍵詞。步驟S104 :對(duì)所述獲取的變種關(guān)鍵詞進(jìn)行分析,確定攔截新關(guān)鍵詞,將確定的攔截新關(guān)鍵詞加入到短信攔截關(guān)鍵詞數(shù)據(jù)庫(kù),供垃圾短信攔截系統(tǒng)調(diào)用以進(jìn)行垃圾短信實(shí)時(shí)攔截。其中對(duì)獲取的變種關(guān)鍵詞進(jìn)行分析包括詞性分析、出現(xiàn)頻率分析。本發(fā)明實(shí)施例針對(duì)可能變種的關(guān)鍵詞,系統(tǒng)對(duì)這些關(guān)鍵詞通過(guò)該方法進(jìn)行實(shí)時(shí)更新,確定出合理的關(guān)鍵詞,能在利用該關(guān)鍵詞攔截垃圾短信或廣告短信時(shí)更準(zhǔn)確。下面結(jié)合圖2流程圖,詳細(xì)說(shuō)明本發(fā)明實(shí)施例方法。參見(jiàn)圖2,為本發(fā)明實(shí)施例二確定短信攔截關(guān)鍵詞方法的流程圖,包括如下步驟 步驟S201 :預(yù)設(shè)探針關(guān)鍵字,如票、稅、平方、抵押等
步驟S202 :平臺(tái)實(shí)時(shí)采集移動(dòng)網(wǎng)絡(luò)中傳輸?shù)乃卸滔?,并剔除短消息?nèi)容中的特殊字符。用戶可以預(yù)先配置短消息中的特殊字符,如空格,下劃線等,平臺(tái)在對(duì)短消息進(jìn)行分析之前按照用戶配置的特殊字符,將特殊字符從短信內(nèi)容中剔除;例如,用于預(yù)先配置空格、“”等特殊字符為需要剔除的字符,當(dāng)平臺(tái)采集到內(nèi)容為“髪
@票&代#開(kāi),請(qǐng)-聯(lián)*系1223222”的短息時(shí),剔除掉特殊字符后,該短息變?yōu)椤绑娖贝_(kāi),請(qǐng)聯(lián)系1223222”。步驟S203 :抽取步驟S202中剔除過(guò)特殊字符后的短消息中,包含所述預(yù)設(shè)的探針關(guān)鍵字的短消息,如前述剔除過(guò)特殊字符后的短消息“髪票代開(kāi),請(qǐng)聯(lián)系1223222”包含票字,則將其抽取出來(lái)。步驟S204 :利用分詞技術(shù)對(duì)所述抽取出來(lái)的包含探針關(guān)鍵字的短消息進(jìn)行分詞,如將內(nèi)容為“髪票代開(kāi),請(qǐng)聯(lián)系1223222”的短消息進(jìn)行分詞后,得到髪票、代開(kāi)、聯(lián)系等詞匯。步驟S205 :將分解出來(lái)的詞匯與所述探針關(guān)鍵字進(jìn)行匹配,獲取變種關(guān)鍵詞,如將上述髪票、代開(kāi)、聯(lián)系幾個(gè)詞與之前預(yù)設(shè)的探針關(guān)鍵字,如票、稅、平方、抵押等進(jìn)行比對(duì),得出髪票為變種關(guān)鍵詞。步驟S206 :對(duì)所述獲取的變種關(guān)鍵詞的詞性、出現(xiàn)頻率等進(jìn)行分析,確定攔截新關(guān)鍵詞,以步驟S205的結(jié)果為例,將抽取出的關(guān)鍵字“髪票”在所有短信出現(xiàn)的次數(shù)進(jìn)行分析,超過(guò)一定百分比(可配置),即可以認(rèn)為“髪票”為一個(gè)垃圾短信關(guān)鍵字,例如,送分析的短信有1000條,其中300條短信包含“髪票”,出現(xiàn)頻率大于或等于30%,即為垃圾短信關(guān)鍵字;
步驟S207 :將確定的攔截新關(guān)鍵詞加入到短信攔截關(guān)鍵詞數(shù)據(jù)庫(kù),供垃圾短信攔截系 統(tǒng)調(diào)用以進(jìn)行垃圾短信實(shí)時(shí)攔截。本發(fā)明實(shí)施例通過(guò)預(yù)設(shè)關(guān)鍵詞探針,對(duì)一系列可能變種的關(guān)鍵詞進(jìn)行分析收集,獲取新的準(zhǔn)確的關(guān)鍵詞,對(duì)關(guān)鍵詞庫(kù)進(jìn)行實(shí)時(shí)自動(dòng)更新,以使用這些關(guān)鍵詞攔截垃圾短信或廣告短信時(shí)攔截準(zhǔn)確率更高。本說(shuō)明書(shū)中公開(kāi)的所有特征,或公開(kāi)的所有方法或過(guò)程中的步驟,除了互相排斥的特征和/或步驟以外,均可以以任何方式組合。本說(shuō)明書(shū)(包括任何附加權(quán)利要求、摘要和附圖)中公開(kāi)的任一特征,除非特別敘述,均可被其他等效或具有類(lèi)似目的的替代特征加以替換。即,除非特別敘述,每個(gè)特征只是一系列等效或類(lèi)似特征中的一個(gè)例子而已。本發(fā)明并不局限于前述的具體實(shí)施方式
。本發(fā)明擴(kuò)展到任何在本說(shuō)明書(shū)中披露的新特征或任何新的組合,以及披露的任一新的方法或過(guò)程的步驟或任何新的組合。
權(quán)利要求
1.一種確定短信攔截關(guān)鍵詞的方法,其特征在于,包括 預(yù)設(shè)探針關(guān)鍵字; 實(shí)時(shí)采集移動(dòng)網(wǎng)絡(luò)中傳輸?shù)乃卸滔?,抽取包含所述預(yù)設(shè)的探針關(guān)鍵字的短消息; 結(jié)合分詞技術(shù)對(duì)所述抽取出來(lái)的包含探針關(guān)鍵字的短消息進(jìn)行分析,獲取變種關(guān)鍵詞; 對(duì)所述獲取的變種關(guān)鍵詞進(jìn)行分析,確定攔截新關(guān)鍵詞,其中對(duì)獲取的變種關(guān)鍵詞進(jìn)行分析包括詞性分析、出現(xiàn)頻率分析。
2.如權(quán)利要求I所述的方法,其特征在于,所述實(shí)時(shí)采集移動(dòng)網(wǎng)絡(luò)中傳輸?shù)乃卸滔⒉襟E,具體為 實(shí)時(shí)采集移動(dòng)網(wǎng)絡(luò)中傳輸?shù)乃卸滔?,并剔除短消息?nèi)容中的特殊字符。
3.如權(quán)利要求2所述的方法,其特征在于,所述結(jié)合分詞技術(shù)對(duì)所述抽取出來(lái)的包含探針關(guān)鍵字的短消息進(jìn)行分析,獲取變種關(guān)鍵詞步驟,進(jìn)一步包括 利用分詞技術(shù)對(duì)所述抽取出來(lái)的包含探針關(guān)鍵字的短消息進(jìn)行分詞; 將分解出來(lái)的詞匯與所述探針關(guān)鍵字進(jìn)行匹配,獲取變種關(guān)鍵詞。
4.如權(quán)利要求3所述的方法,其特征在于,所述對(duì)所述獲取的變種關(guān)鍵詞進(jìn)行分析,確定攔截新關(guān)鍵詞步驟之后,還包括 將確定的攔截新關(guān)鍵詞加入到短信攔截關(guān)鍵詞數(shù)據(jù)庫(kù),供垃圾短信攔截系統(tǒng)調(diào)用以進(jìn)行垃圾短信實(shí)時(shí)攔截。
全文摘要
本發(fā)明公開(kāi)了一種確定短信攔截關(guān)鍵詞的方法,包括預(yù)設(shè)探針關(guān)鍵字;實(shí)時(shí)采集移動(dòng)網(wǎng)絡(luò)中傳輸?shù)乃卸滔?,抽取包含所述預(yù)設(shè)的探針關(guān)鍵字的短消息;結(jié)合分詞技術(shù)對(duì)所述抽取出來(lái)的包含探針關(guān)鍵字的短消息進(jìn)行分析,獲取變種關(guān)鍵詞;對(duì)所述獲取的變種關(guān)鍵詞進(jìn)行分析,確定攔截新關(guān)鍵詞并將其加入到短息攔截關(guān)鍵詞數(shù)據(jù)庫(kù),實(shí)現(xiàn)對(duì)關(guān)鍵詞數(shù)據(jù)庫(kù)的實(shí)時(shí)自動(dòng)更新,以使根據(jù)關(guān)鍵詞數(shù)據(jù)庫(kù)中的關(guān)鍵詞進(jìn)行垃圾短信或廣告短信的攔截時(shí),準(zhǔn)確率更高。
文檔編號(hào)H04W12/12GK102761848SQ20121027084
公開(kāi)日2012年10月31日 申請(qǐng)日期2012年8月1日 優(yōu)先權(quán)日2012年8月1日
發(fā)明者王純斌, 謝崇竹 申請(qǐng)人:成都四方信息技術(shù)有限公司