亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

短消息的過(guò)濾方法和設(shè)備的制作方法

文檔序號(hào):7897632閱讀:262來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):短消息的過(guò)濾方法和設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及電子信息技術(shù)領(lǐng)域,特別是涉及一種短消息的過(guò)濾方法和設(shè)備。
背景技術(shù)
短信是人們經(jīng)常使用的信息交流方式之一,與此同時(shí),垃圾短信也開(kāi)始逐步泛濫。 統(tǒng)計(jì)顯示,在數(shù)量龐大的短信中,約30%屬于垃圾短信。對(duì)普通用戶(hù)而言,垃圾短信嚴(yán)重干 擾日常生活;對(duì)運(yùn)營(yíng)商而言,垃圾短信占據(jù)大量流量空間,降低信息傳送效率。目前最通用的一種垃圾短信過(guò)濾方法是基于敏感詞和串匹配的方法,該方法通過(guò) 在服務(wù)器端布置敏感詞表并通過(guò)模式匹配的方法來(lái)過(guò)濾垃圾短信。然而,這種方法的“誤殺 率”較高,且通過(guò)敏感詞列舉的方式無(wú)法窮盡所有的敏感詞形式,這種方法始終滯后于垃圾 短信的傳播。現(xiàn)有技術(shù)還提出了一種基于分類(lèi)模型的垃圾短信的過(guò)濾方法,這種方法通過(guò)把短 信分割為獨(dú)立的部分,計(jì)算這些部分與類(lèi)別的關(guān)系來(lái)判斷短信是否為垃圾短信。這種基于 內(nèi)容比較的方法可以一定程度上避開(kāi)敏感詞過(guò)濾的缺陷,從整體內(nèi)容上判斷短信是否為垃 圾短信。然而,現(xiàn)有的基于分類(lèi)模型的垃圾短信的過(guò)濾方法也存在不少不足之處,例如,主 流的分類(lèi)模型,如支持向量機(jī)模型、貝葉斯模型和最大熵模型等,往往需要構(gòu)建一定規(guī)模的 訓(xùn)練語(yǔ)料庫(kù)來(lái)得到分類(lèi)用的參數(shù),訓(xùn)練語(yǔ)料庫(kù)規(guī)模較小時(shí),分類(lèi)的準(zhǔn)確率較低,而為了構(gòu)建 一定規(guī)模的訓(xùn)練語(yǔ)料庫(kù),又需要花費(fèi)極大的代價(jià),成本過(guò)高;并且,垃圾短信的發(fā)送者會(huì)不 斷對(duì)垃圾短信進(jìn)行變形或增加新型的垃圾短信,以避開(kāi)消息過(guò)濾機(jī)制,而現(xiàn)有基于分類(lèi)模 型的垃圾短信過(guò)濾方法只能對(duì)已出現(xiàn)過(guò)的垃圾短信具有過(guò)濾效果,而無(wú)法過(guò)濾未曾出現(xiàn)過(guò) 的垃圾短信,無(wú)法靈活應(yīng)對(duì)垃圾短信的變化,過(guò)濾準(zhǔn)確率較低。

發(fā)明內(nèi)容
本發(fā)明提供了一種短消息的過(guò)濾方法和設(shè)備,能夠靈活應(yīng)對(duì)不斷變化的垃圾消 息,提高了分類(lèi)模型的分類(lèi)精度和對(duì)垃圾消息的過(guò)濾準(zhǔn)確率,且無(wú)需為分類(lèi)模型額外構(gòu)建 訓(xùn)練語(yǔ)料庫(kù),降低了成本。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的本發(fā)明實(shí)施例公開(kāi)了一種短消息的過(guò)濾方法,包括利用當(dāng)前的分類(lèi)模型對(duì)接收到的短消息的類(lèi)別進(jìn)行判斷,所述短消息的類(lèi)別包括 垃圾消息和正常消息;當(dāng)所述短消息的類(lèi)別為垃圾消息時(shí),過(guò)濾所述短消息;當(dāng)所述短消息的類(lèi)別為正常消息時(shí),對(duì)所述短消息進(jìn)行文本指紋提取,得到對(duì)應(yīng) 于所述短消息的指紋信息;根據(jù)所述指紋信息確認(rèn)需要對(duì)所述短消息進(jìn)行審核且審核結(jié)果 為垃圾消息時(shí),利用所述短消息對(duì)當(dāng)前的分類(lèi)模型進(jìn)行更新,以利用更新后的分類(lèi)模型執(zhí) 行下一次的過(guò)濾流程。
本發(fā)明實(shí)施例還公開(kāi)了一種短消息的過(guò)濾設(shè)備,包括分類(lèi)模型判斷單元,用于利用當(dāng)前的分類(lèi)模型對(duì)接收到的短消息的類(lèi)別進(jìn)行判 斷,所述短消息的類(lèi)別包括垃圾消息和正常消息;垃圾消息過(guò)濾單元,用于當(dāng)所述短消息的類(lèi)別為垃圾消息時(shí),過(guò)濾所述短消息;指紋分析及參數(shù)更新單元,用于當(dāng)所述短消息的類(lèi)別為正常消息時(shí),對(duì)所述短消 息進(jìn)行文本指紋提取,得到對(duì)應(yīng)于所述短消息基本內(nèi)容的指紋信息;根據(jù)所述指紋信息確 認(rèn)需要對(duì)所述短消息進(jìn)行審核且審核結(jié)果為垃圾消息時(shí),利用所述短消息對(duì)當(dāng)前的分類(lèi)模 型進(jìn)行更新,以利用更新后的分類(lèi)模型執(zhí)行下一次的過(guò)濾流程。由上所述,本發(fā)明實(shí)施例的技術(shù)方案,通過(guò)文本指紋分析提取反映短消息基本內(nèi) 容的指紋信息,能夠不斷截獲各種新型的垃圾消息和已有垃圾消息的變形;并且,將新增的 垃圾消息作為訓(xùn)練數(shù)據(jù)增量對(duì)分類(lèi)模型進(jìn)行訓(xùn)練,對(duì)所采用的分類(lèi)模型進(jìn)行實(shí)時(shí)動(dòng)態(tài)的更 新,能夠不斷提高分類(lèi)模型分類(lèi)的準(zhǔn)確率和精度。本發(fā)明實(shí)施例的技術(shù)方案不但能夠靈活 應(yīng)對(duì)不斷變化的垃圾消息,提高了過(guò)濾準(zhǔn)確率,且無(wú)需為分類(lèi)模型額外構(gòu)建訓(xùn)練語(yǔ)料庫(kù),降 低了成本。實(shí)驗(yàn)證明,本發(fā)明實(shí)施例的技術(shù)方案對(duì)垃圾消息的過(guò)濾具有很好的效果,垃圾消 息的過(guò)濾準(zhǔn)確率達(dá)到99. 11%,算法復(fù)雜度也較低,滿(mǎn)足了實(shí)際的需求。


為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例一提供的一種短消息的過(guò)濾方法流程示意圖;圖2(a)為一般貝葉斯模型的結(jié)構(gòu)示意圖;圖2(b)為本發(fā)明實(shí)施例采用的樸素貝葉斯模型的結(jié)構(gòu)示意圖;圖3為本發(fā)明實(shí)施例二提供的一種文本指紋分析方法流程示意圖;圖4為本發(fā)明實(shí)施例三提供的一種短消息的過(guò)濾設(shè)備結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明的附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所 描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例, 本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā) 明保護(hù)的范圍。本發(fā)明實(shí)施例一提供了一種短消息的過(guò)濾方法,參見(jiàn)圖1,所述方法包括11 利用當(dāng)前的分類(lèi)模型對(duì)接收到的短消息的類(lèi)別進(jìn)行判斷,所述短消息的類(lèi)別 包括垃圾消息和正常消息;12 當(dāng)所述短消息的類(lèi)別為垃圾消息時(shí),過(guò)濾所述短消息;13:當(dāng)所述短消息的類(lèi)別為正常消息時(shí),對(duì)所述短消息進(jìn)行文本指紋提取,得到對(duì) 應(yīng)于所述短消息基本內(nèi)容的指紋信息;根據(jù)所述指紋信息確認(rèn)需要對(duì)所述短消息進(jìn)行審核 且審核結(jié)果為垃圾消息時(shí),利用所述短消息對(duì)當(dāng)前的分類(lèi)模型進(jìn)行更新,以利用更新后的分類(lèi)模型執(zhí)行下一次的過(guò)濾流程。進(jìn)一步的,上述分類(lèi)模型可以采用樸素貝葉斯模型,并且由于樸素貝葉斯模型只 是一種理論上比較完美的模型,為了使該分類(lèi)模型適用于實(shí)際的環(huán)境,本發(fā)明實(shí)施例還采 用了為該分類(lèi)模型中取值為零的參數(shù)重新賦值的“平滑”處理,忽略單字詞對(duì)短消息分類(lèi)的 影響以及通過(guò)短消息中字符串與類(lèi)別的似然值的差值是否超過(guò)一定閾值來(lái)判斷該短消息 是否為垃圾消息的規(guī)則判斷法。由上所述,本發(fā)明實(shí)施例的技術(shù)方案,通過(guò)文本指紋分析提取反映短消息基本內(nèi) 容的指紋信息,能夠不斷截獲各種新型的垃圾消息和已有垃圾消息的變形;并且,將新增的 垃圾消息作為訓(xùn)練數(shù)據(jù)增量對(duì)分類(lèi)模型進(jìn)行訓(xùn)練,對(duì)所采用的分類(lèi)模型進(jìn)行實(shí)時(shí)動(dòng)態(tài)的更 新,能夠不斷提高分類(lèi)模型分類(lèi)的準(zhǔn)確率和精度。本發(fā)明實(shí)施例的技術(shù)方案不但能夠靈活 應(yīng)對(duì)不斷變化的垃圾消息,提高了過(guò)濾準(zhǔn)確率,且無(wú)需為分類(lèi)模型額外構(gòu)建訓(xùn)練語(yǔ)料庫(kù),降 低了成本。實(shí)驗(yàn)證明,本發(fā)明實(shí)施例的技術(shù)方案對(duì)垃圾消息的過(guò)濾具有很好的效果,垃圾消 息的過(guò)濾準(zhǔn)確率達(dá)到99. 11%,算法復(fù)雜度也較低,滿(mǎn)足了實(shí)際的需求。下面對(duì)本發(fā)明實(shí)施例二提供的短消息的過(guò)濾方法進(jìn)行說(shuō)明。11 利用當(dāng)前的分類(lèi)模型對(duì)接收到的短消息的類(lèi)別進(jìn)行判斷,所述短消息的類(lèi)別 包括垃圾消息和正常消息。在本發(fā)明實(shí)施例中,僅以短消息的類(lèi)別包括垃圾消息(不正常消息)和正常消息 兩種類(lèi)別為例進(jìn)行說(shuō)明,可以理解,對(duì)于需要細(xì)化短消息類(lèi)別的場(chǎng)景,如將短消息的類(lèi)別進(jìn) 一步細(xì)化為包括垃圾消息、正常消息、廣告消息和獲獎(jiǎng)消息等,同樣適用于本發(fā)明實(shí)施例的 技術(shù)方案。本發(fā)明實(shí)施例采用的分類(lèi)模型為樸素貝葉斯模型,為了更加清楚地說(shuō)明本發(fā)明實(shí) 施例的技術(shù)方案,下面對(duì)貝葉斯模型的一些相關(guān)技術(shù)特征進(jìn)行說(shuō)明。假設(shè)短消息χ可以分為m個(gè)類(lèi)別,則定義消息類(lèi)別集合C = Ic1, K,cm},m之2。給定短消息X,判定其所屬的最優(yōu)消息類(lèi)別5可以表示為
權(quán)利要求
1.一種短消息的過(guò)濾方法,其特征在于,所述方法包括利用當(dāng)前的分類(lèi)模型對(duì)接收到的短消息的類(lèi)別進(jìn)行判斷,所述短消息的類(lèi)別包括垃圾 消息和正常消息;當(dāng)所述短消息的類(lèi)別為垃圾消息時(shí),過(guò)濾所述短消息;當(dāng)所述短消息的類(lèi)別為正常消息時(shí),對(duì)所述短消息進(jìn)行文本指紋提取,得到對(duì)應(yīng)于所 述短消息基本內(nèi)容的指紋信息;根據(jù)所述指紋信息確認(rèn)需要對(duì)所述短消息進(jìn)行審核且審核 結(jié)果為垃圾消息時(shí),利用所述短消息對(duì)當(dāng)前的分類(lèi)模型進(jìn)行更新,以利用更新后的分類(lèi)模 型執(zhí)行下一次的過(guò)濾流程。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述短消息進(jìn)行文本指紋提取,得 到對(duì)應(yīng)于所述短消息的指紋信息包括根據(jù)預(yù)定的過(guò)濾信息對(duì)所述短消息進(jìn)行靜態(tài)過(guò)濾,得到第一提取消息; 對(duì)所述第一提取消息進(jìn)行分詞,得到第二提取消息,所述第二提取消息中包括至少兩 個(gè)字符串;對(duì)所述第二提取消息通過(guò)詞性計(jì)算進(jìn)行動(dòng)態(tài)過(guò)濾,得到第三提取消息; 按照消息摘要算法第五版MD5計(jì)算所述第三提取消息的MD5值,將該MD5值作為所述 短消息的指紋信息。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)所述第二提取消息通過(guò)詞性計(jì)算 進(jìn)行動(dòng)態(tài)過(guò)濾,得到第三提取消息包括將詞性分為包括保留詞性和不保留詞性的至少兩種類(lèi)別;為各個(gè)詞性設(shè)置相應(yīng)的權(quán)重值,其中,為所述保留詞性設(shè)置的權(quán)重值大于為所述不保 留詞性設(shè)置的權(quán)重值;對(duì)所述第二提取消息中具有多種詞性的字符串,利用所述各詞性的類(lèi)別以及相應(yīng)的權(quán) 重值計(jì)算所述字符串的詞性判決量;根據(jù)所述詞性判決量去除或者保留所述第二提取消息中的字符串,得到第三提取消肩、ο
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述指紋信息確認(rèn)需要對(duì)所述 短消息進(jìn)行審核且審核結(jié)果為垃圾消息包括將所述短消息的MD5值與已經(jīng)收集到的MD5值進(jìn)行比對(duì),當(dāng)所述短消息的MD5值所出 現(xiàn)的總次數(shù)超過(guò)預(yù)定閾值時(shí),確認(rèn)需要對(duì)所述短消息進(jìn)行審核。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用樸素貝葉斯模型得到所述分類(lèi)模型,該分類(lèi)模型通過(guò)如下公式對(duì)所述短消息的類(lèi) 別進(jìn)行判斷c = arg max p(ck | χ)= argmaxp(x\ck)p(ck)η=arg max ^ log Piwj \ ck) + log p(ck)Ck[c ;=1其中,5表示短消息X的類(lèi)別,參數(shù)P (Wj I ck)表示給定第k類(lèi)別Ck的情況下短消息χ中 第j字符串 的似然值,參數(shù)P (Ck)表示類(lèi)別Ck的先驗(yàn)概率,k、j為序號(hào)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述利用所述短消息對(duì)當(dāng)前的分類(lèi)模型 進(jìn)行更新包括當(dāng)對(duì)所述短消息的審核結(jié)果為垃圾消息時(shí),利用所述短消息對(duì)分類(lèi)模型的參數(shù)進(jìn)行訓(xùn) 練,將訓(xùn)練后的參數(shù)反饋到分類(lèi)模型中,以對(duì)所述分類(lèi)模型進(jìn)行更新,所述參數(shù)包括似然值 P (W」I ck) ο
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,利用所述樸素貝葉斯模型并結(jié)合下述的至少一種方式或其組合,對(duì)短消息的類(lèi)別進(jìn)行 判斷當(dāng)所述參數(shù)P I Ck)的取值為零時(shí),為所述參數(shù)ρ (W」Ck)賦予預(yù)定的正數(shù)值,以對(duì)該參 數(shù)進(jìn)行平滑處理;或者,當(dāng)所述字符串 為單字的字符串時(shí),不利用所述單字詞對(duì)所述短消息進(jìn)行分類(lèi)判斷; 或者,根據(jù)所述短消息中部分字符串在不同類(lèi)別下的似然值之間的差值,對(duì)所述短消息的類(lèi) 別進(jìn)行判斷。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,當(dāng)對(duì)參數(shù)P I ck)進(jìn)行平滑處理時(shí),選取0. 1作為所述預(yù)定的正數(shù)值;以及, 當(dāng)所述短消息中一個(gè)字符串在第一類(lèi)別下的似然值與該字符串在第二類(lèi)別下的似然 值的差值超過(guò)預(yù)定閾值時(shí),確定所述短消息為垃圾消息。
9.一種短消息的過(guò)濾設(shè)備,其特征在于,所述設(shè)備包括分類(lèi)模型判斷單元,用于利用當(dāng)前的分類(lèi)模型對(duì)接收到的短消息的類(lèi)別進(jìn)行判斷,所 述短消息的類(lèi)別包括垃圾消息和正常消息;垃圾消息過(guò)濾單元,用于當(dāng)所述短消息的類(lèi)別為垃圾消息時(shí),過(guò)濾所述短消息; 指紋分析及參數(shù)更新單元,用于當(dāng)所述短消息的類(lèi)別為正常消息時(shí),對(duì)所述短消息進(jìn) 行文本指紋提取,得到對(duì)應(yīng)于所述短消息基本內(nèi)容的指紋信息;根據(jù)所述指紋信息確認(rèn)需 要對(duì)所述短消息進(jìn)行審核且審核結(jié)果為垃圾消息時(shí),利用所述短消息對(duì)當(dāng)前的分類(lèi)模型進(jìn) 行更新,以利用更新后的分類(lèi)模型執(zhí)行下一次的過(guò)濾流程。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述分類(lèi)模型判斷單元,具體用于利用樸素貝葉斯模型得到所述分類(lèi)模型,該分類(lèi)模 型通過(guò)如下公式對(duì)所述短消息的類(lèi)別進(jìn)行判斷 c = arg max p(ck | χ)= argmaxp(x\ck)p(ck)η=arg max ^ log Piwj \ ck) + log p(ck)Ck[c ;=1其中,5表示判定的短消息X的類(lèi)別,參數(shù)P (Wj I ck)表示給定第k類(lèi)別Ck的情況下短消 息X中第j字符串 的似然值,參數(shù)P (Ck)表示類(lèi)別Ck的先驗(yàn)概率,k、j為序號(hào); 以及,所述分類(lèi)模型判斷單元,還用于利用所述樸素貝葉斯模型并結(jié)合下述的至少一種方式 或其組合,對(duì)短消息的類(lèi)別進(jìn)行判斷當(dāng)所述參數(shù)P(^lck)的取值為零時(shí),為所述參數(shù)ρ ck)賦予預(yù)定的正數(shù)值,以對(duì)該參 數(shù)進(jìn)行平滑處理;或者,當(dāng)所述字符串 為單字的字符串時(shí),不利用所述單字詞對(duì)所述短消息進(jìn)行分類(lèi)判斷; 或者,根據(jù)所述短消息中部分字符串在不同類(lèi)別下的似然值之間的差值,對(duì)所述短消息的類(lèi) 別進(jìn)行判斷。
全文摘要
本發(fā)明公開(kāi)了一種短消息的過(guò)濾方法和設(shè)備,涉及電子信息技術(shù)領(lǐng)域,能夠靈活應(yīng)對(duì)不斷變化的垃圾消息,提高了分類(lèi)模型的分類(lèi)精度和對(duì)垃圾消息的過(guò)濾準(zhǔn)確率,且無(wú)需為分類(lèi)模型額外構(gòu)建訓(xùn)練語(yǔ)料庫(kù),降低了成本。本發(fā)明實(shí)施例提供的一種短消息的過(guò)濾方法包括利用當(dāng)前的分類(lèi)模型對(duì)接收到的短消息的類(lèi)別進(jìn)行判斷;當(dāng)短消息的類(lèi)別為垃圾消息時(shí),過(guò)濾所述短消息;當(dāng)短消息的類(lèi)別為正常消息時(shí),對(duì)所述短消息進(jìn)行文本指紋提取,得到對(duì)應(yīng)于所述短消息的指紋信息;根據(jù)所述指紋信息確認(rèn)需要對(duì)所述短消息進(jìn)行審核且審核結(jié)果為垃圾消息時(shí),利用所述短消息對(duì)當(dāng)前的分類(lèi)模型進(jìn)行更新,以利用更新后的分類(lèi)模型執(zhí)行下一次的過(guò)濾流程。
文檔編號(hào)H04W4/14GK102096703SQ20101061186
公開(kāi)日2011年6月15日 申請(qǐng)日期2010年12月29日 優(yōu)先權(quán)日2010年12月29日
發(fā)明者牟小峰 申請(qǐng)人:北京新媒傳信科技有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1