垃圾短信過濾方法及引擎的制作方法
【專利摘要】本發(fā)明提供了一種垃圾短信過濾方法和垃圾短信過濾引擎。所述方法可以包括:提取短信內(nèi)容中的電話號(hào)碼和/或統(tǒng)一資源定位符(URL);從電話號(hào)碼和/或URL的信譽(yù)級(jí)別庫中檢索所提取的電話號(hào)碼和/或URL的信譽(yù)級(jí)別;以及,至少依據(jù)所述電話號(hào)碼和/或URL的信譽(yù)級(jí)別,判斷所述短信是否是垃圾短信;其中,所述電話號(hào)碼和/或URL的信譽(yù)級(jí)別庫是根據(jù)采集的短信樣本集確定的。根據(jù)本發(fā)明實(shí)施例的方法,能夠提高對(duì)那些使用運(yùn)營商提供的正規(guī)商用短信號(hào)碼發(fā)送的、包含惡意電話和/或惡意網(wǎng)址的垃圾短信的過濾效率。
【專利說明】垃圾短信過濾方法及引擎
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及移動(dòng)通信領(lǐng)域,更具體地,涉及垃圾短信的過濾方法和設(shè)備。
【背景技術(shù)】
[0002]近些年,隨著移動(dòng)電話的普及率越來越高,以及短信的成本越來越低,利用短信來實(shí)現(xiàn)營銷、甚至實(shí)施詐騙的行為越來越多。這些正常用戶不希望接收到的或與用戶無關(guān)的大量的短信被稱為垃圾短信。根據(jù)統(tǒng)計(jì),約有35%的移動(dòng)電話用戶不同程度地受到過垃圾短信的騷擾。每個(gè)用戶平均每月收到的垃圾短信約為8條。按照2013年3月底中國移動(dòng)電話用戶總數(shù)已達(dá)11.46億的統(tǒng)計(jì)來保守估計(jì),我國移動(dòng)電話用戶平均每天收到的垃圾短信總量將超過三億條。垃圾短信已經(jīng)成為ー個(gè)嚴(yán)重的社會(huì)問題。
[0003]為了避免垃圾短信的騷擾,智能移動(dòng)電話的用戶通常選擇安裝具有垃圾短信過濾引擎來避免騷擾。目前,市面上的垃圾過濾引擎主要根據(jù)發(fā)送方號(hào)碼屬于黑名單或白名單來識(shí)別垃圾短信。然而,越來越多的垃圾短信發(fā)送方可能使用從中國移動(dòng)、聯(lián)通、電信等運(yùn)營商處購買的提供短信批量發(fā)送服務(wù)的商用短信號(hào)碼(例如,以區(qū)號(hào)如021、075開頭的號(hào)碼,或者以106開頭的號(hào)碼)來發(fā)送短信,而將真正的聯(lián)系他們的電話號(hào)碼放置在短信內(nèi)容中。因此,依據(jù)現(xiàn)有的發(fā)送方號(hào)碼的黑白名單的機(jī)制,容易漏報(bào)使用這些商用短信號(hào)碼作為發(fā)送方的短信中的垃圾短信。如果用戶將這些商用短信號(hào)碼都設(shè)置為黑名單,則又可能將用戶希望接收的真實(shí)的商家的推薦活動(dòng)短信誤報(bào)為垃圾短信。
[0004]因此,需要一種改進(jìn)的過濾短信的機(jī)制,其能夠減少垃圾短信的漏報(bào)和誤報(bào)。
【發(fā)明內(nèi)容】
[0005]為了實(shí)現(xiàn)該目的,本發(fā)明提供了一種改進(jìn)的垃圾短信過濾方法和垃圾短信過濾引擎,其不僅考慮短信發(fā)送方號(hào)碼,而且考慮短信內(nèi)容中包含的電話號(hào)碼和/或URL的信譽(yù)級(jí)另IJ。根據(jù)本發(fā)明的方法,能夠提高對(duì)那些使用運(yùn)營商提供的正規(guī)商用短信號(hào)碼發(fā)送的、包含惡意電話和/或惡意網(wǎng)址的垃圾短信的過濾效率。
[0006]根據(jù)本發(fā)明的ー個(gè)方面,提供了一種垃圾短信過濾方法。該方法可以包括:提取短信內(nèi)容中的電話號(hào)碼和/或統(tǒng)ー資源定位符(URL);從電話號(hào)碼和/或URL的信譽(yù)級(jí)別庫中檢索所提取的電話號(hào)碼和/或URL的信譽(yù)級(jí)別;以及,至少依據(jù)所述電話號(hào)碼和/或URL的信譽(yù)級(jí)別,判斷所述短信是否是垃圾短信;其中,所述電話號(hào)碼和/或URL的信譽(yù)級(jí)別庫是根據(jù)采集的短信樣本集確定的。
[0007]在本發(fā)明的一些實(shí)施例中,判斷短信是否是垃圾短信至少還依據(jù):短信的發(fā)送方信譽(yù)級(jí)別、關(guān)鍵字匹配結(jié)果、和/或基于語義的策略。
[0008]在本發(fā)明的一些實(shí)施例中,判斷短信是否是垃圾短信可以進(jìn)一歩包括:計(jì)算所述短信的可疑度;以及如果所述短信的可疑度大于閾值,則判斷所述短信是垃圾短信。
[0009]優(yōu)選地,計(jì)算所述短信的可疑度按照下述公式執(zhí)行:[0010]
【權(quán)利要求】
1.一種垃圾短信過濾方法,包括: 提取短信內(nèi)容中的電話號(hào)碼和/或統(tǒng)ー資源定位符(URL), 從電話號(hào)碼和/或URL的信譽(yù)級(jí)別庫中檢索所提取的電話號(hào)碼和/或URL的信譽(yù)級(jí)別,以及 至少依據(jù)所述電話號(hào)碼和/或URL的信譽(yù)級(jí)別,判斷所述短信是否是垃圾短信; 其中,所述電話號(hào)碼和/或URL的信譽(yù)級(jí)別庫是根據(jù)采集的短信樣本集確定的。
2.根據(jù)權(quán)利要求1所述的方法,其中判斷所述短信是否是垃圾短信至少還依據(jù):所述短信的發(fā)送方信譽(yù)級(jí)別、關(guān)鍵字匹配結(jié)果、和/或基于語義的策略。
3.根據(jù)權(quán)利要求1所述的方法,其中判斷所述短信是否是垃圾短信進(jìn)ー步包括: 計(jì)算所述短信的可疑度,以及 如果所述短信的可疑度大于閾值,則判斷所述短信是垃圾短信。
4.根據(jù)權(quán)利要求3所述的方法,其中計(jì)算所述短信的可疑度按照下述公式執(zhí)行:
5.根據(jù)權(quán)利要求1所述的方法,還包括:定期更新所述短信樣本集以及電話號(hào)碼和/或URL的信譽(yù)級(jí)別庫。
6.一種垃圾短信過濾引擎,包括: 提取單元,配置為:提取短信內(nèi)容中的電話號(hào)碼和/或統(tǒng)ー資源定位符(URL), 檢索單元,配置為:從電話號(hào)碼和/或URL的信譽(yù)級(jí)別庫中檢索所提取的電話號(hào)碼和/或URL的信譽(yù)級(jí)別, 判斷単元,配置為:至少依據(jù)所述電話號(hào)碼和/或URL的信譽(yù)級(jí)別,判斷所述短信是否是垃圾短イ目; 其中,所述電話號(hào)碼和/或URL的信譽(yù)級(jí)別庫是根據(jù)短信樣本集確定的。
7.根據(jù)權(quán)利要求6所述的引擎,其中所述判斷単元判斷所述短信是否是垃圾短信至少還依據(jù):所述短信的發(fā)送方信譽(yù)級(jí)別、關(guān)鍵字匹配結(jié)果、和/或基于語義的策略。
8.根據(jù)權(quán)利要求6所述的引擎,其中所述判斷単元進(jìn)ー步包括: 計(jì)算子単元,計(jì)算所述短信的可疑度, 其中如果所述短信的可疑度大于閾值,則判斷所述短信是垃圾短信。
9.根據(jù)權(quán)利要求8所述的引擎,其中所述計(jì)算子単元配置為:按照下述公式計(jì)算所述短信的可疑度:
10.根據(jù)權(quán)利要求9所述的引擎,還包括:更新単元,配置為:定期更新所述短信樣本集以及電話號(hào)碼和/或URL的信譽(yù)級(jí)別庫。
【文檔編號(hào)】H04W12/12GK103607705SQ201310646010
【公開日】2014年2月26日 申請(qǐng)日期:2013年12月4日 優(yōu)先權(quán)日:2013年12月4日
【發(fā)明者】史領(lǐng)航 申請(qǐng)人:北京網(wǎng)秦天下科技有限公司