專利名稱:一種電信運營商垃圾短信處理系統(tǒng)及處理方法
技術(shù)領(lǐng)域:
根據(jù)12321網(wǎng)絡(luò)不良與垃圾信息舉報受理中心對其分類為商業(yè)廣告、色情、詐騙、病毒、政治敏感言論、其它。據(jù)12321調(diào)查,2012年上半年,我國手機短信息用戶平均每周收到垃圾短信息10. 6條。垃圾短信的數(shù)量有下降的趨勢。2012年上半年用戶對垃圾短信治理滿意程度UFI僅達到31. 5,但仍維持在較低水平。2012年上半年中國手機短信狀況調(diào)查報告顯示,被調(diào)查的用戶收到的垃圾短信息主要內(nèi)容中,67. 4%的用戶收到過中獎類詐騙短信,而收到違法出售票據(jù)、證件類垃圾短信的用戶達到48. 9%,收到過冒充銀行扣款類詐騙短信的用戶為47. 7%,收到房地產(chǎn)推銷垃圾短信的用戶,居第四位,為34. 9%,收到零售業(yè)推銷短信的用戶比2011年下半年下降3. 7個百分點,為31. 2%。與2011年下半年相比,收到違法詐騙類信息的人數(shù)有增長的趨勢。用戶最反感的垃圾短信息第一位是“中獎類詐騙”,反感比例為33. 5%,“違法出售票據(jù)、證件”比 例達到15. 3%,“冒充銀行扣款類詐騙”為12. 4%。總體來看,用戶違法詐騙類信息的反感度遠超于商業(yè)推廣類信息,違法詐騙已經(jīng)嚴(yán)重的危害到了用戶的生活和工作。12321是舉報中心,它公布的數(shù)據(jù)是從用戶角度來看待垃圾短信的。從實際數(shù)據(jù)來看,商業(yè)推廣類的垃圾短信數(shù)量是最大的,但是用戶的反感程度并不是最大的。而詐騙類短信,僅從單條內(nèi)容上不一定很容易判斷。因此,在與電信運營商溝通過程中,初步確定垃圾短信處理策略。垃圾短信的發(fā)送方式主要有從手機端發(fā)送和從平臺接ロ端發(fā)送兩類,以下討論的只針對從手機端發(fā)送垃圾短信。從總體上看現(xiàn)行方法從作用范圍上看可分為在運營商端進行處理和在用戶手機端進行處理兩類。下文從已發(fā)布的文獻和公開的專利中,對現(xiàn)有垃圾短信處理情況進行了綜述。1.用戶終端處理方法在用戶終端進行處理主要方式是由用戶主動判斷后將垃圾短信反饋回短信監(jiān)控數(shù)據(jù)庫,從而不斷積累垃圾短信庫,從而更好地在后續(xù)處理中發(fā)揮作用。2.運營商端處理方法運營商早期實施的垃圾短信處理的方法比較簡單黒白名單機制;內(nèi)容關(guān)鍵詞過濾機制。這兩種方法的不足之處是需要過多人工干預(yù);準(zhǔn)確率不高。目前運營商端進行處理的手段主要分為兩大類基于單條短信的阻止機制和基于單個用戶的阻止機制。2.1單條短信處理方法之一考慮該短信所屬發(fā)件人的所有短信中與該條短信內(nèi)容相同的短信數(shù)量來判斷該短信是否為垃圾短信。缺點主要是計算量較大且有延時。方法之ニ采用文本分類,大致分為特征構(gòu)造、分類器訓(xùn)練以及分類器在線分類。至于分類器的選擇,一般會采用I)垃圾郵件中廣泛采用的貝葉斯;2) SVM分類器。當(dāng)然也可采用神經(jīng)網(wǎng)絡(luò)、決策樹。文本特征的選取對性能影響很大。2. 2單個用戶處理基于單個用戶的阻止機制主要從用戶的社會網(wǎng)絡(luò)中進行分析,簡單方法可考慮節(jié)點的出弧和入弧數(shù),大體思想為若用戶的短信的回復(fù)率很低且用戶短信發(fā)送量大,則判為垃圾短信發(fā)送者。更為復(fù)雜方法需要考慮所有用戶的通話網(wǎng),再根據(jù)發(fā)送短信的用戶與其所有短信接收者節(jié)點在通話網(wǎng)中的距離是否大于某一門限來判斷該發(fā)送用戶是否有嫌疑。通過閱讀文獻和專利,可以看到現(xiàn)行的垃圾短信處理方法從作用時間上可以分成及時處理和延時處理;從作用對象上看可分為針對單條短信和針對某ー發(fā)信人。具體方法如下表所示
針對單條短信針對發(fā)信人
及時處理 I判斷單條短信發(fā)件人是否在 I通過已經(jīng)積累的黑黑名單。白名單及時處理。
2判斷短信內(nèi)容是否為垃圾短 信,可采用關(guān)鍵詞或者文本分類等。延時處理 I將大量短信加入短信庫,發(fā) I利用話單分析機制
現(xiàn)被重復(fù)發(fā)送的短信,將其加入短統(tǒng)計發(fā)信人在一段時間內(nèi) 信黑名單,將發(fā)件人加入發(fā)件人黑的表現(xiàn)。
名單。2通過更復(fù)雜的通話
2利用短信庫,訓(xùn)練模型,提網(wǎng)絡(luò)或短信網(wǎng)絡(luò)來發(fā)現(xiàn)其 供模型質(zhì)量。網(wǎng)絡(luò)特性?,F(xiàn)行的處理垃圾短信都是從“及時處理”和“延時處理”、“單條短信”和“短信發(fā)件人”等多個角度進行處理,各種方法也是相互協(xié)同組成一個系統(tǒng)工作的。綜上所述,現(xiàn)有技術(shù)的缺點如下( I)及時處理情況下,沒有結(jié)合延時處理,未能形成線上及吋,線下統(tǒng)計分類。很容易導(dǎo)致,某個用戶號碼某天發(fā)送過垃圾短信后,之后所發(fā)的短信,全部定義為垃圾短信?;蛘邘в欣畔⒌亩绦盼醇皶r處理。(2)對于運營商垃圾短信分類未做系統(tǒng)化歸類。
發(fā)明內(nèi)容
本發(fā)明技術(shù)解決問題克服現(xiàn)有技術(shù)的不足,提供ー種電信運營商垃圾短信處理系統(tǒng)及處理方法,能夠?qū)A坷绦胚M行細致分類,增強垃圾短信鑒定能力。本發(fā)明技術(shù)解決方案ー種電信運營商垃圾短信處理系統(tǒng),包括線上及時處理內(nèi)核子系統(tǒng)、線下數(shù)據(jù)挖掘子系統(tǒng)和數(shù)據(jù)庫;所述數(shù)據(jù)庫包括黒白名單庫和短信模板庫;(I)線上及時處理內(nèi)核子系統(tǒng),包括簡單規(guī)則匹配模塊、短信預(yù)處理模塊、快速模板匹配模塊和分類處理模塊;其中簡單規(guī)則匹配模塊該模塊分別根據(jù)短信的發(fā)送號碼和短信長度進行簡單的規(guī)則判斷,首先對短信的發(fā)送號碼進行黒白名單匹配,如果匹配上白名單,則認(rèn)為該短信為正常 短信,短信可正常發(fā)送;如果被黑名單匹配上,則判斷為垃圾短信,不能正常發(fā)送;如果短信的發(fā)送號碼不在黒白名單之列,則進行短信長度判斷;由于垃圾短信所需傳遞的信息量較豐富,幾乎不存在長度小于10個字的垃圾短信,如果輸入短信的長度小于10個字,則可判定其為正常短信,可以正常發(fā)送,反之則輸出給后續(xù)模型進行處理和判斷;短信預(yù)處理模塊對簡單規(guī)則匹配模塊輸出的短信進行歸一化處理,所述處理包括大小寫轉(zhuǎn)化、繁體轉(zhuǎn)簡體、去掉無效符號;然后進行分詞,并對短信中包含的具體電話號碼、數(shù)字、字母分別進行號碼類、數(shù)字類、字母類符號替換,得到本系統(tǒng)所需要的短信分詞結(jié)果,以方便后續(xù)模塊進行匹配和分類處理;快速模板匹配模塊將短信預(yù)處理模塊輸出的短信與系統(tǒng)預(yù)置的模板短信進行匹配,計算短信內(nèi)容的相似度,相似度用距離值來衡量;若相似距離與系統(tǒng)設(shè)定的閾值范圍內(nèi),即判定輸入短信為與模板短信同類,所述同類的意思是,如果模板短信為垃圾類,則判定該輸入短信為垃圾短信,如果模板短信為正常類,則判定該輸入短信為正常短信;若相似距離超過系統(tǒng)設(shè)定的閾值,則輸出給后續(xù)的分類處理模塊進行再次判斷處理;快速模板匹配模塊中使用的模板短信存儲在短信模板庫中;分類處理模塊對快速模板匹配模塊輸出的短信,利用已訓(xùn)練的類別相關(guān)N-gram模型進行似然值計算,對不同類別的似然值進行最大似然判決,給出短信分類結(jié)果;若垃圾短信模型在該短信上似然值最高,則認(rèn)定該短信為垃圾短信;若非垃圾短信模型在該短信上似然值最高,則認(rèn)為該短信不是垃圾短信;訓(xùn)練的N-gram模型計算時需要采用模板短信庫模塊中存儲記錄的垃圾短信、正常短信;(2)線下數(shù)據(jù)挖掘子系統(tǒng),包括短信粗選模塊和模板聚類模塊;其中短信粗選模塊,在積累的歷史數(shù)據(jù)中,從用戶號碼、短時間收發(fā)量、發(fā)送范圍判定是否為垃圾短信,若短時間內(nèi),同一號碼發(fā)送短信量超過閾值Tl,并且發(fā)送給N個不同用戶,短信重復(fù)短信占比超過閾值T2,發(fā)送時間間隔小于閾值T3,則判定這些短信為備選的垃圾短信,其中Tl、T2、T3和N均是根據(jù)短信的實際情況確定的先驗閾值;模板聚類模塊,將經(jīng)過短信粗選模塊的備選垃圾短信進行聚類,對聚類結(jié)果中確定為垃圾短信的短信數(shù)據(jù)輸入到短信模板庫,確定為正常的短信數(shù)據(jù)也輸入到短信模板庫中,由短信模板庫根據(jù)模板庫中已有情況確定每條短信是否需要新建模板,或是追加到已有模板;同時,若發(fā)現(xiàn)有個別用戶存在持續(xù)發(fā)送垃圾短信,或用戶連續(xù)幾個月均是發(fā)送正常短信,為正常用戶,則將這些數(shù)據(jù)輸入到黒白名單庫,維護黒白名単。本發(fā)明中ー種電信運營商垃圾短信處理方法,實現(xiàn)步驟如下(I)線下數(shù)據(jù)挖掘子系統(tǒng)根據(jù)運營商的歷史數(shù)據(jù)進行挖掘工作,生成一定數(shù)據(jù)的垃圾模板短信、正常模板短信,這些模板可以單獨使用,也可以與其他省份運營商得到的模板合并使用;同時也可以得到一定數(shù)量的垃圾短信發(fā)送者號碼;(2)系統(tǒng)接收短信網(wǎng)關(guān)輸送的短信數(shù)據(jù),簡單規(guī)則匹配模塊對短信發(fā)送號碼和短信長度進行規(guī)則判斷,被明確判斷為正常的短信可以進入短信發(fā)送系統(tǒng),被明確判斷為垃圾的短信則不能發(fā)送,而其余即不屬于垃圾短信、也不屬于正常短信的短信輸入給線上及時處理內(nèi)核子系統(tǒng)進行后續(xù)判斷處理;(3)簡單規(guī)則匹配模塊對輸入的短信進行短信預(yù)處理,得到方便后續(xù)模塊使用的短信分詞結(jié)果,快速模板匹配模塊對分詞后的詞串與模板短信庫中的短信進行短信內(nèi)容相似度匹配計算,根據(jù)相似距離判斷是否存在與輸入短信一樣的模板短信;如果存在匹配的模板短信,則根據(jù)模板短信的垃圾或正常類別標(biāo)記得到輸入短信的類別屬性;如果輸入短信與模板短信的匹配失敗,分類處理模塊將對輸入短信的內(nèi)容進行統(tǒng)計分類器判決,得到最大似然判決下的垃圾類或正常類短信的分類結(jié)果;(4)經(jīng)過上述處理,將判決為正常短信的輸入短信發(fā)送給運營商的短信發(fā)送系統(tǒng),同時對處理結(jié)果進行系統(tǒng)日志記錄,以便供線下數(shù)據(jù)挖掘子系統(tǒng)使用。本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點在于(I)本發(fā)明基于電信運營商垃圾短信業(yè)務(wù)處理規(guī)則分為三大部分線上及時處理子系統(tǒng)、線下大數(shù)據(jù)挖掘子系統(tǒng)、業(yè)務(wù)層處理組件。線上系統(tǒng)通過簡單處理方式,快速響應(yīng)垃圾短信處理;線下大數(shù)據(jù)挖掘系統(tǒng),能夠補充補充線上模板中資源,使得線上系統(tǒng)識別能力不斷提升;業(yè)務(wù)層處理組件,將整個系統(tǒng)串聯(lián)起來,滿足業(yè)務(wù)層對接需求。這種線上和線下系統(tǒng)配合的架構(gòu)是主要亮點之一。(2)本發(fā)明的線上及時處理方法建立快速模板機制,并結(jié)合分類器進行垃圾短信 分類。這種分析方法,能夠快速地響應(yīng)垃圾短信分類要求。(3)本發(fā)明的線下大數(shù)據(jù)挖掘方法不斷積累垃圾短信分類,不斷豐富分類,形成模板聚類。通過這種方式,不斷提高線上的及時處理準(zhǔn)確率。
圖1為本發(fā)明電信運營商垃圾短信處理系統(tǒng)組成示意圖;圖2為本發(fā)明的簡單規(guī)則匹配模塊實現(xiàn)流程圖;圖3為本發(fā)明的短信預(yù)處理處理流程圖;圖4為本發(fā)明的快速模板匹配模塊實現(xiàn)流程圖。
具體實施例方式如圖1所示,本發(fā)明由線上及時處理內(nèi)核子系統(tǒng)、線下數(shù)據(jù)挖掘子系統(tǒng)和數(shù)據(jù)庫組成,其中線上及時處理系統(tǒng),重點利用線下數(shù)據(jù)挖掘子系統(tǒng)積累的垃圾短信分類資源,和簡單的在線分析算法,實現(xiàn)垃圾短信處理的快速響應(yīng)。1.數(shù)據(jù)庫1.1黑白名單庫黒白名單庫中存儲記錄了簡單規(guī)則匹配模塊中需要的用戶在是否發(fā)送垃圾短信上的“信譽度”,由“簡單規(guī)則匹配模塊”調(diào)用而發(fā)揮作用。通過與運營商合作有些該模塊需要與運營商后臺系統(tǒng)進行協(xié)同工作。運營商的根據(jù)用戶對業(yè)務(wù)的使用情況和用戶個人信譽,創(chuàng)建包含高品質(zhì)用戶的電話號碼的白名單,并認(rèn)為其發(fā)送的短信可視為正常短信。反之,運營商也可以將有垃圾短信發(fā)送歷史的用戶號碼列入到黑名單中。由于黑白名單只能涵蓋一部分用戶號碼,對于大量的且不在黒白名單范圍的用戶號碼發(fā)送的短信,則將進入后續(xù)判斷。1. 2短信模板庫短信模板庫中存儲記錄了快速模板匹配模塊和分類處理模塊所需的短信數(shù)據(jù),為快速模板匹配模塊提供模板,為分類處理模塊提供訓(xùn)練數(shù)據(jù);另一方面線上處理的結(jié)果經(jīng)過分類結(jié)果處理模塊、線下大數(shù)據(jù)挖掘子系統(tǒng)處理又會反饋給短信模板庫,為之后的線上處理提供更好的支持,實現(xiàn)知識迭代更新。短信模板庫即存儲了垃圾短信的模板,也存儲了常用的正常短信模板。2.線上及時處理內(nèi)核子系統(tǒng)如圖1所示,線上及時處理內(nèi)核子系統(tǒng),包括簡單規(guī)則匹配模塊、短信預(yù)處理模塊、快速模板匹配模塊和分類處理模塊。其中簡單規(guī)則匹配模塊對輸入短信的發(fā)送號碼和短信長度進行簡單規(guī)則匹配判斷。短信預(yù)處理模塊,對輸入的自然語言短信進行規(guī)整,將電話號碼、字母、數(shù)據(jù)替換成相應(yīng)的類別符號,然后用最長詞匹配算法對短信進行分詞,經(jīng)過該模塊處理后短信內(nèi)容變成了規(guī)整后的詞序列??焖倌0迤ヅ淠K利用短信預(yù)處理模塊輸出的詞序列對模板短信庫進行快速的倒排檢索,并對檢索出的候選模板短信進行文本相似度計算。根據(jù)相似距離判斷是否存在與輸入短信相似的模板短信。如果存在則輸入短信與匹配上的模板短信有同樣的類別屬性ー即垃圾類或正常類短信。如果匹配失敗,分類處理模塊將利用貝葉斯統(tǒng)計分類模型判斷輸入短信的類別屬性。
2.1簡單規(guī)則匹配模塊如圖2所示,該模塊分別根據(jù)短信的發(fā)送號碼和短信長度進行簡單的規(guī)則判斷。首先對短信的發(fā)送號碼進行黒白名單匹配。如果匹配上白名單,則認(rèn)為該短信為正常短信,短信可正常發(fā)送。如果被黑名單匹配上,則判斷為垃圾短信,不能正常發(fā)送。如果短信的發(fā)送號碼不在黒白名單之列,則進行短信長度判斷。由于垃圾短信所需傳遞的信息量較豐富,幾乎不存在長度小于10個字的垃圾短信。如果輸入短信的長度小于10個字,則可判定其為正常短信,可以正常發(fā)送。反之則輸出給后續(xù)模型進行處理和判斷。2. 2短信預(yù)處理模塊如圖1所示,短信預(yù)處理模塊的作用有兩個,一是將短信進行規(guī)整處理,將短信中號碼、數(shù)字、字母等即便值不同也對短信分類不產(chǎn)生影響的符號進行規(guī)整處理;ニ是分詞處理。如圖3所示,短信預(yù)處理流程如下首先對短信中的數(shù)字和字母進行替換,采用統(tǒng)ー的標(biāo)記,因為具體的號碼、數(shù)字值為多少、具體的字母為哪ー個,對短信的判定不產(chǎn)生影響,所以可采用統(tǒng)一的標(biāo)記,這樣減少了模板庫的壓力,減少了由于不同數(shù)字、字母對系統(tǒng)判決產(chǎn)生的影響,増大了匹配的準(zhǔn)確性和分類的準(zhǔn)確性;其次對整句話進行分詞處理,將分詞后的結(jié)果輸入給后續(xù)的快速模板匹配模塊。例如“大家好,我換號了,新號碼是13912345678”,這類垃圾短信最終被替換為“大家好,我換號了,新號碼是#號碼”。后續(xù)的快速模板匹配模塊和分類處理模塊處理時,則認(rèn)為類似的,出現(xiàn)了 “換號、新號碼、#號碼”相關(guān)的短信,則定義為垃圾短信。分詞采用的是常用的前向最長匹配分詞2. 3快速模板匹配模塊快速匹配模塊可直接將發(fā)送數(shù)量較大的短信模式識別出來。通過數(shù)據(jù)挖掘、人工標(biāo)注等方式得到的被大量重復(fù)發(fā)送的短信模式積累起來,輸入該模塊的短信與模板庫中模板進行匹配,若相似程度較高,則直接處理。如圖4所示,在現(xiàn)已實現(xiàn)的系統(tǒng)中該模塊采用了基于倒排表的相似度匹配處理模塊。該模塊的優(yōu)點是處理速度快,準(zhǔn)確率高。
快速模板匹配模塊調(diào)用短信模板庫儲存的模板短信,將輸入的短信的分詞結(jié)果與短信模板庫中的模板的分詞結(jié)果進行比較,計算輸入短信與模板庫中各條模板的相似度,從而實現(xiàn)判決。2. 4分類處理模塊未被快速模板匹配模塊分類的短信將被分類處理模塊處理。分類處理模塊不再將輸入短信與模板庫中単一短信進行比對,而是從大量短信數(shù)據(jù)中得到統(tǒng)計信息,從而計算出輸入短信屬于哪類短信。分類器相對快速處理模塊的不同點是泛化能力強。該模塊可采用基于生成模型的樸素貝葉斯分類器,通過已知的各類短信數(shù)據(jù)進行統(tǒng)計,訓(xùn)練N-Gram模型,再根據(jù)輸入短信中各個詞匯在每個N-Gram模型中的得分之和計算出短信數(shù)據(jù)在各個N-Gram模型上的得分值,從而進行貝葉斯分類。短信預(yù)處理模塊已經(jīng)將輸入的短信進行了分詞處理,可以得到若干N元組,在每個N-gram模型中可以得到這些N元組的概率值對數(shù)值,將所有概率值對數(shù)值相加后即可得到該模型在該輸入短信上的似然 值,對所有模型得到的似然值進行排序,取似然值最高的模型,從而完成對該輸入短信的分類。3.線下數(shù)據(jù)挖掘子系統(tǒng)由于短信數(shù)據(jù)量大,即便去重后短信的樣式也是千變?nèi)f化,但在線及時處理內(nèi)核子系統(tǒng)中的兩大模塊均需要數(shù)據(jù)支持,所以大量采用人工標(biāo)注的方式是不現(xiàn)實的,需要采用數(shù)據(jù)挖掘的方式提取出模板短信以供其使用。如圖1所示,包括短信粗選模塊和模板聚類模塊。其中通過分析短信歷史庫中收發(fā)方、收發(fā)量、短信重復(fù)度,簡單粗選出一部分垃圾短信,可以用來補充黑白名単。歷史庫中的其他短信,經(jīng)過人為分析,確定是否可以添加到模板聚類中,不斷擴展快速模板或者分類器。3.1短信粗選模塊正如圖1所示,短信粗選模塊利用一段時間內(nèi)各個發(fā)件人的。a)收發(fā)量b)聯(lián)系人網(wǎng)絡(luò)特性c )短信重復(fù)度d)收發(fā)時間等特性得到垃圾短信可疑發(fā)件人和正常短信聯(lián)系人,從而得到可疑短信備選集合、正常短信備選集合。收發(fā)量。由于垃圾短信發(fā)件人在行為上表現(xiàn)為發(fā)送短信的回復(fù)率很低且用戶短信發(fā)送量大,所以根據(jù)該信息可作為嫌疑人的判定依據(jù)之一。聯(lián)系人網(wǎng)絡(luò)特性。垃圾短信發(fā)送者需要將垃圾信息傳遞給許多用戶,所以在聯(lián)系人數(shù)量上會很多且多為單向的發(fā)送聯(lián)系,所以根據(jù)該信息可作為嫌疑人的判定依據(jù)之一。短信重復(fù)度。垃圾短信一般需要將相同信息的內(nèi)容傳遞出去,所以在內(nèi)容上有著高度的相似,所以如果用戶在行為上表現(xiàn)為連續(xù)、大量發(fā)送重復(fù)的短信則可基本判斷其為垃圾短信嫌疑人。在實際試驗中,正常用戶群發(fā)信息通知其他朋友時如果門限取值不合適,會發(fā)生誤判,這就需要將門限設(shè)置較嚴(yán)格,可將時間窗長設(shè)置成幾天、重復(fù)量設(shè)置較大即可有效避免誤判,所以該信息可作為嫌疑人的判定依據(jù)之一。
收發(fā)時間。在實際統(tǒng)計中可以發(fā)現(xiàn)正常發(fā)件人發(fā)送短信量在時間軸上分布是隨時間而變化的。垃圾短信發(fā)件人發(fā)送量在時間軸上分布則有兩種模式,ー為在24小時內(nèi)均大量發(fā)送;ニ為在某一時間窗內(nèi)大量發(fā)送,其余時段保持靜默。3. 2模板聚類模塊粗選出的垃圾短信、正常短信數(shù)量都較大,不適合直接加入在線及時處理核心子系統(tǒng),否則會嚴(yán)重影響系統(tǒng)的效率,所以需要對短信進行模板聚類,提取出常用模板。在該系統(tǒng)中采用分治的思想對數(shù)以千萬計的短信進行聚類,并對聚類結(jié)果中可覆蓋實際短信條目數(shù)較多的模板提取出來加入模板庫。3. 3系統(tǒng)性回到垃圾短信處理的理論角度看整個系統(tǒng)各個模塊的工作情況。在短信內(nèi)容及時處理的角度上看,本發(fā)明的規(guī)則處理、快速模板匹配模塊、分類器模塊均在此發(fā)揮作用;在發(fā)件人及時處理方面,黒白名單制度在此發(fā)揮作用;線下數(shù)據(jù)挖掘子系統(tǒng)在短信內(nèi)容、發(fā)件人的延時處理上發(fā)揮著作用,通過收發(fā)量角度挖掘、聯(lián)系人網(wǎng)絡(luò)特性角度挖掘、短信重復(fù)度角度挖掘、其他輔助信息角度挖掘、文本聚類提取模板短信等角度的挖掘提供候選的黒/白名單、垃圾/正常模板短信,以便維護黑白名單、模板短信庫,為短信內(nèi)容、發(fā)件人的及時處理提供更有力的支撐,從而形成系統(tǒng)的自學(xué)習(xí)。本發(fā)明未詳細闡述部分屬于本領(lǐng)域公知技木。以上所述,僅為本發(fā)明部分具體實施方式
,但本發(fā)明的保護范圍并不局限于此,任何熟悉本領(lǐng)域的人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在 本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種電信運營商垃圾短信處理系統(tǒng),其特征在于包括線上及時處理內(nèi)核子系統(tǒng)、 線下數(shù)據(jù)挖掘子系統(tǒng)和數(shù)據(jù)庫;所述數(shù)據(jù)庫包括黑白名單庫和短信模板庫;(1)線上及時處理內(nèi)核子系統(tǒng),包括簡單規(guī)則匹配模塊、短信預(yù)處理模塊、快速模板匹配模塊和分類處理模塊;其中簡單規(guī)則匹配模塊該模塊分別根據(jù)短信的發(fā)送號碼和短信長度進行簡單的規(guī)則判斷,首先對短信的發(fā)送號碼進行黑白名單匹配,如果匹配上白名單,則認(rèn)為該短信為正常短信,短信可正常發(fā)送;如果被黑名單匹配上,則判斷為垃圾短信,不能正常發(fā)送;如果短信的發(fā)送號碼不在黑白名單之列,則進行短信長度判斷;由于垃圾短信所需傳遞的信息量較豐富,幾乎不存在長度小于10個字的垃圾短信,如果輸入短信的長度小于10個字,則可判定其為正常短信,可以正常發(fā)送,反之則輸出給后續(xù)模型進行處理和判斷;短信預(yù)處理模塊對簡單規(guī)則匹配模塊輸出的短信進行歸一化處理,所述處理包括大小寫轉(zhuǎn)化、繁體轉(zhuǎn)簡體、去掉無效符號;然后進行分詞,并對短信中包含的具體電話號碼、數(shù)字、字母分別進行號碼類、數(shù)字類、字母類符號替換,得到本系統(tǒng)所需要的短信分詞結(jié)果,以方便后續(xù)模塊進行匹配和分類處理;快速模板匹配模塊將短信預(yù)處理模塊輸出的短信與系統(tǒng)預(yù)置的模板短信進行匹配, 計算短信內(nèi)容的相似度,相似度用距離值來衡量;若相似距離與系統(tǒng)設(shè)定的閾值范圍內(nèi),即判定輸入短信為與模板短信同類,所述同類的意思是,如果模板短信為垃圾類,則判定該輸入短信為垃圾短信,如果模板短信為正常類,則判定該輸入短信為正常短信;若相似距離超過系統(tǒng)設(shè)定的閾值,則輸出給后續(xù)的分類處理模塊進行再次判斷處理;快速模板匹配模塊中使用的模板短信存儲在短信模板庫中;分類處理模塊對快速模板匹配模塊輸出的短信,利用已訓(xùn)練的類別相關(guān)N-gram模型進行似然值計算,對不同類別的似然值進行最大似然判決,給出短信分類結(jié)果;若垃圾短信模型在該短信上似然值最高,則認(rèn)定該短信為垃圾短信;若非垃圾短信模型在該短信上似然值最高,則認(rèn)為該短信不是垃圾短信;訓(xùn)練的N-gram模型計算時需要采用模板短信庫模塊中存儲記錄的垃圾短信、正常短信;(2)線下數(shù)據(jù)挖掘子系統(tǒng),包括短信粗選模塊和模板聚類模塊;其中短信粗選模塊,在積累的歷史數(shù)據(jù)中,從用戶號碼、短時間收發(fā)量、發(fā)送范圍判定是否為垃圾短信,若短時間內(nèi),同一號碼發(fā)送短信量超過閾值Tl,并且發(fā)送給N個不同用戶,短信重復(fù)短信占比超過閾值T2,發(fā)送時間間隔小于閾值T3,則判定這些短信為備選的垃圾短信,其中Tl、T2、T3和N均是根據(jù)短信的實際情況確定的先驗閾值;模板聚類模塊,將經(jīng)過短信粗選模塊的備選垃圾短信進行聚類,對聚類結(jié)果中確定為垃圾短信的短信數(shù)據(jù)輸入到短信模板庫,確定為正常的短信數(shù)據(jù)也輸入到短信模板庫中, 由短信模板庫根據(jù)模板庫中已有情況確定每條短信是否需要新建模板,或是追加到已有模板;同時,若發(fā)現(xiàn)有個別用戶存在持續(xù)發(fā)送垃圾短信,或用戶連續(xù)幾個月均是發(fā)送正常短信,為正常用戶,則將這些數(shù)據(jù)輸入到黑白名單庫,維護黑白名單。
2.一種電信運營商垃圾短信處理方法,其特征在于實現(xiàn)步驟如下(I)線下數(shù)據(jù)挖掘子系統(tǒng)根據(jù)運營商的歷史數(shù)據(jù)進行挖掘工作,生成一定數(shù)據(jù)的垃圾模板短信、正常模板短信,這些模板可以單獨使用,也可以與其他省份運營商得到的模板合并使用;同時也可以得到一定數(shù)量的垃圾短信發(fā)送者號碼;(2)系統(tǒng)接收短信網(wǎng)關(guān)輸送的短信數(shù)據(jù),簡單規(guī)則匹配模塊對短信發(fā)送號碼和短信長度進行規(guī)則判斷,被明確判斷為正常的短信可以進入短信發(fā)送系統(tǒng),被明確判斷為垃圾的短信則不能發(fā)送,而其余即不屬于垃圾短信、也不屬于正常短信的短信輸入給線上及時處理內(nèi)核子系統(tǒng)進行后續(xù)判斷處理;(3)簡單規(guī)則匹配模塊對輸入的短信進行短信預(yù)處理,得到方便后續(xù)模塊使用的短信分詞結(jié)果,快速模板匹配模塊對分詞后的詞串與模板短信庫中的短信進行短信內(nèi)容相似度匹配計算,根據(jù)相似距離判斷是否存在與輸入短信一樣的模板短信;如果存在匹配的模板短信,則根據(jù)模板短信的垃圾或正常類別標(biāo)記得到輸入短信的類別屬性;如果輸入短信與模板短信的匹配失敗,分類處理模塊將對輸入短信的內(nèi)容進行統(tǒng)計分類器判決,得到最大似然判決下的垃圾類或正常類短信的分類結(jié)果;(4)經(jīng)過上述處理,將判決為正常短信的輸入短信 發(fā)送給運營商的短信發(fā)送系統(tǒng),同時對處理結(jié)果進行系統(tǒng)日志記錄,以便供線下數(shù)據(jù)挖掘子系統(tǒng)使用。
全文摘要
一種電信運營商垃圾短信處理系統(tǒng)及處理方法,包括線上及時處理內(nèi)核子系統(tǒng)、線下數(shù)據(jù)挖掘子系統(tǒng);線上及時處理內(nèi)核子系統(tǒng),包括簡單規(guī)則匹配模塊、短信預(yù)處理模塊、快速模板匹配模塊和分類處理模塊;線下數(shù)據(jù)挖掘子系統(tǒng),包括短信粗選模塊和模板聚類模塊。本發(fā)明能夠?qū)A慷绦胚M行多維度有效分類,并具有良好的系統(tǒng)維護性。
文檔編號H04W12/12GK103024746SQ201210592920
公開日2013年4月3日 申請日期2012年12月30日 優(yōu)先權(quán)日2012年12月30日
發(fā)明者吳及, 呂萍, 徐偉, 沈明花, 周正友, 張磊 申請人:清華大學(xué), 安徽科大訊飛信息科技股份有限公司