專利名稱:基于特征相似度的垃圾短信攔截方法
基于特征相似度的垃圾短信攔截方法
技術領域:
本發(fā)明涉及一種垃圾短信過濾方法,尤其是指一種基于特征相似度的垃圾短信攔 截方法。
背景技術:
隨著移動通訊技術的日益發(fā)達,手機應用的覆蓋面已非常廣泛。其中使用手機進 行短信發(fā)送,已成為人們日常溝通聯(lián)系的重要方式。為此部分不法商家也開始利用短信大 肆散布廣告短信、反動短信,近些年甚至出現(xiàn)了層出不窮的短信詐騙等嚴重擾亂社會安定 和諧的垃圾短信,而隨著時下短信形式除原有文字短信,還出現(xiàn)了彩信、手機電郵等多樣化 形式,垃圾短信的問題日趨嚴重。為了避免大量垃圾短信在系統(tǒng)中泛濫,降低公眾所受干 擾同時減少對移動運營商正常業(yè)務開展的影響,迫切需要開發(fā)一套相對獨立的專門對待發(fā) 送短信進行檢驗的應用服務。然而現(xiàn)有的垃圾短信過濾器在設計時,通過預先對流行垃圾 短信樣本進行分析后形成垃圾關鍵字后對短信內容進行篩選過濾,由于關鍵字均為預先設 定,系統(tǒng)又缺乏自學習能力,故此類垃圾短信過濾器智能化較低,無法對變化多端的垃圾短 信作出及時應對,垃圾短信很容易通過簡單改變內容即繞過過濾器。
發(fā)明內容本發(fā)明的目的在于克服了上述缺陷,提供一種具有基于短信內容與垃圾短信內容 的特征相似度完成垃圾短信判斷并擁有自學習能力的基于特征相似度的垃圾短信攔截方 法。本發(fā)明的目的是這樣實現(xiàn)的一種基于特征相似度的垃圾短信攔截方法,其特征 在于它包括步驟A)、初始化系統(tǒng),于系統(tǒng)內存中開辟空間用于一組存放短信動態(tài)截取內容的KEY 鍵值;同時設立數(shù)據,對應短信動態(tài)截取后保存在內存中KEY鍵值的長度k,動態(tài)截取起始位置p,截取 間隔字符s,短信內容長度t,對應相似度判斷有效時間m,對應相似度判斷次數(shù)計數(shù)器的最大次數(shù)n,對應免過濾短信的白名單; 初始化設定上述k,s, m, η數(shù)據的值,并載入系統(tǒng)內存中;將數(shù)據庫中存放的垃圾短信特征信息內容載入內存中;B)、系統(tǒng)收到來自外部的短信內容驗證請求后返回允許數(shù)據通訊信號后接收待處 理短信并對其內容進行備份;C)、短信內容預處理,對短信中內容的字符進行轉換成為標準字符格式;所述步驟 C的短信內容字符轉換包括轉化全角字符、轉換WORD文檔支持特殊字符、大寫中文數(shù)字轉 化成小寫數(shù)字、大寫字母轉換成小寫及類數(shù)字、字母符號轉化為對應數(shù)字、字母。
D)、短信內容長度判別,判斷短信內容的長度是否達到預設長度值,若未小于預設 長度值,略過余下步驟,直接完成本次垃圾短信判定,否則繼續(xù)步驟;E)、短信內容判別,判斷短信內容中是否含有通訊人聯(lián)系方式內容,聯(lián)系方式包括 手機號碼、聯(lián)系方式、網址、銀行卡號的內容,若是則將對應將通訊人聯(lián)系方式提出并存儲 于內存組中其中一個KEY鍵值中,轉向步驟G,否則,無對應內容則繼續(xù);F)、短信內容動態(tài)截取,當短信中內容無步驟E所需對應內容時,首先獲取原始短 信內容長度t,根據公式ρ = t/(k+l)+t% k得出動態(tài)截取起始位置ρ的值,根據截取間隔 字符s中設定的值規(guī)則間隔截取短信內容中的字符,當截取字符長度滿足短信動態(tài)截取后 保存在內存中KEY鍵值的長度k值后,將該段截取的短信內容進行編碼并保存到內存組中 其中一個KEY鍵值中;G)、比較該KEY鍵值數(shù)據和白名單數(shù)據是否相同,若存在相同則略過余下步驟,直 接完成本次垃圾短信判定,否則繼續(xù);H)、比較該KEY鍵值數(shù)據和內存中存放的垃圾短信特征信息內容是否相同匹配, 若存在相同繼續(xù),否則保留內存中該鍵值KEY的數(shù)據,同時重置有效時間m,完成本次垃圾 短信判定;I)、相似度判斷次數(shù)計數(shù)器累加一;J)、判斷計數(shù)器值是否超限,判斷計數(shù)器值是否超過預設最大次數(shù)n,若沒有則略 過余下步驟,直接完成本次垃圾短信判定,否則繼續(xù);K)、判定為垃圾短信,當計數(shù)器超限后,擁有該內容的短信被設定為垃圾短信,系 統(tǒng)對短信內容進行備份并寫入預存放垃圾短信特征信息內容的數(shù)據庫中,系統(tǒng)等待下次外 部短信內容驗證請求。相比于常見的垃圾短信過濾方法,本發(fā)明的有益效果在于提供了一種可根據短信 內容相似特征信息在一段時間內出現(xiàn)的概率來判斷是否為群發(fā)垃圾信息的垃圾短信攔截 方法,且方法中囊括了對短信內容中出現(xiàn)通訊人聯(lián)系方式(如電話號碼、網址、銀行卡號) 和無聯(lián)系方式兩種過濾算法,通過首先對短信文本的特殊字符轉換預處理后,進行通訊聯(lián) 系人內容及動態(tài)隨機短信內容截取然后于數(shù)據庫中進行相似度的比較及計數(shù),對超過計數(shù) 的對應內容短信會記錄為垃圾短信,并將短信內容加入垃圾短信特征信息內容數(shù)據中,整 個即實現(xiàn)了模糊匹配文本識別、又具有智能學習識別垃圾信息功能。
下面結合附圖詳述本發(fā)明的具體結構圖1為本發(fā)明的方法流程圖具體實施方式如圖1所示,本發(fā)明涉及一種基于特征相似度的垃圾短信攔截方法,它包括步驟A)、初始化系統(tǒng),于系統(tǒng)內存中開辟一組空間用于存放短信動態(tài)截取內容的KEY 鍵值組;同時設立數(shù)據,對應短信動態(tài)截取后保存在內存中KEY鍵值的長度k,動態(tài)截取起始位置p,截取 間隔字符s及短信內容長度t
對應 相似度判斷有效時間m,對應相似度判斷次數(shù)計數(shù)器的最大次數(shù)n,對應免過濾短信的白名單;初始化設定上述k,p,s,m,η數(shù)據的值,并載入系統(tǒng)內存中;將數(shù)據庫中存放的垃圾短信特征信息內容載入內存中;B)、系統(tǒng)收到來自外部的短信內容驗證請求后返回允許數(shù)據通訊信號后接收待處 理短信并對其內容進行備份;C)、短信內容預處理,對短信中內容的字符進行轉換成為標準字符格式;所述步驟C的短信內容字符轉換包括轉化全角字符——如0、5等;轉換WORD文檔支持特殊字符——如①(3) 8.等;大寫中文數(shù)字轉化成小寫數(shù)字——壹、貳等;字母符號轉化為對應數(shù)字、字母——如1和1、q和9、ζ和2等。D)、短信內容長度判別,判斷短信內容的長度是否達到預設長度值,若未小于預設 長度值,略過余下步驟,直接完成本次垃圾短信判定,否則繼續(xù)步驟;E)、短信內容判別,判斷短信內容中是否含有通訊人聯(lián)系方式內容,聯(lián)系方式包括 手機號碼、聯(lián)系方式、網址、銀行卡號的內容,若是則將對應將通訊人聯(lián)系方式提出并存儲 于內存組中其中一個KEY鍵值中,轉向步驟G,否則,無對應內容則繼續(xù);F)、短信內容動態(tài)截取,當短信中內容無步驟E所需對應內容時,首先獲取原始短 信內容長度t,根據公式ρ = t/(k+l)+t% k得出動態(tài)截取起始位置ρ的值,根據截取間隔 字符s中設定的值規(guī)則間隔截取短信內容中的字符,當截取字符長度滿足短信動態(tài)截取后 保存在內存中KEY鍵值的長度k值后,將該段截取的短信內容進行編碼并保存到內存組中 其中一個KEY鍵值中;G)、比較該KEY鍵值數(shù)據和白名單數(shù)據是否相同,若存在相同則略過余下步驟,直 接完成本次垃圾短信判定,否則繼續(xù);H)、比較該KEY鍵值數(shù)據和內存中存放的垃圾短信特征信息內容是否相同匹配, 若存在相同繼續(xù),否則保留內存中該鍵值KEY的數(shù)據,同時重置有效時間m,完成本次垃圾 短信判定;I)、相似度判斷次數(shù)計數(shù)器累加一;J)、判斷計數(shù)器值是否超限,判斷計數(shù)器值是否超過預設最大次數(shù)n,若沒有則略 過余下步驟,直接完成本次垃圾短信判定,否則繼續(xù);K)、判定為垃圾短信,當計數(shù)器超限后,擁有該內容的短信被設定為垃圾短信,系 統(tǒng)對短信內容進行備份并寫入預存放垃圾短信特征信息內容的數(shù)據庫中,系統(tǒng)等待下次外 部短信內容驗證請求。綜上所述,本發(fā)明提供了一種可根據短信內容相似特征信息在一段時間內出現(xiàn)的 概率來判斷是否為群發(fā)垃圾信息的垃圾短信攔截方法,且方法中囊括了對短信內容中出現(xiàn) 通訊人聯(lián)系方式(如電話號碼、網址、銀行卡號)和無聯(lián)系方式兩種過濾算法,通過首先對 短信文本的特殊字符轉換預處理后,進行通訊聯(lián)系人內容及動態(tài)隨機短信內容截取然后于 數(shù)據庫中進行相似度的比較及計數(shù),對超過計數(shù)的對應內容短信會記錄為垃圾短信,并將 短信內容加入垃圾短信特征信息內容數(shù)據中,整個即實現(xiàn)了模糊匹配文本識別、又具有智能學習識別垃圾信息功能。
權利要求
1.一種基于特征相似度的垃圾短信攔截方法,其特征在于它包括步驟A)、初始化系統(tǒng),于系統(tǒng)內存中開辟一組空間用于存放短信動態(tài)截取內容的KEY鍵值 組;同時設立數(shù)據,對應短信動態(tài)截取后保存在內存中KEY鍵值的長度k,動態(tài)截取起始位置p,截取間隔 字符s及短信內容長度t對應相似度判斷有效時間m,對應相似度判斷次數(shù)計數(shù)器的最大次數(shù)n,對應免過濾短信的白名單;初始化設定上述k,p,s, m, η數(shù)據的值,并載入系統(tǒng)內存中;將數(shù)據庫中存放的垃圾短信特征信息內容載入內存中;B)、系統(tǒng)收到來自外部的短信內容驗證請求后返回允許數(shù)據通訊信號后接收待處理短 信并對其內容進行備份;C)、短信內容預處理,對短信中內容的字符進行轉換成為標準字符格式;D)、短信內容長度判別,判斷短信內容的長度是否達到預設長度值,若未小于預設長度 值,略過余下步驟,直接完成本次垃圾短信判定,否則繼續(xù)步驟;Ε)、短信內容判別,判斷短信內容中是否含有通訊人聯(lián)系方式內容,聯(lián)系方式包括手機 號碼、聯(lián)系方式、網址、銀行卡號的內容,若是則將對應將通訊人聯(lián)系方式提出并存儲于內 存組中其中一個KEY鍵值中,轉向步驟G,否則,無對應內容則繼續(xù);F)、短信內容動態(tài)截取,當短信中內容無步驟E所需對應內容時,首先獲取原始短信內 容長度t,根據公式ρ = t/(k+l)+t% k得出動態(tài)截取起始位置ρ的值,根據截取間隔字符s 中設定的值規(guī)則間隔截取短信內容中的字符,當截取字符長度滿足短信動態(tài)截取后保存在 內存中KEY鍵值的長度k值后,將該段截取的短信內容進行編碼并保存到內存組中其中一 個KEY鍵值中;G)、比較該KEY鍵值數(shù)據和白名單數(shù)據是否相同,若存在相同則略過余下步驟,直接完 成本次垃圾短信判定,否則繼續(xù);H)、比較該KEY鍵值數(shù)據和內存中存放的垃圾短信特征信息內容是否相同匹配,若存 在相同繼續(xù),否則保留內存中該鍵值KEY的數(shù)據,同時重置有效時間m,完成本次垃圾短信 判定;I)、相似度判斷次數(shù)計數(shù)器累加一;J)、判斷計數(shù)器值是否超限,判斷計數(shù)器值是否超過預設最大次數(shù)n,若沒有則略過余 下步驟,直接完成本次垃圾短信判定,否則繼續(xù);K)、判定為垃圾短信,當計數(shù)器超限后,擁有該內容的短信被設定為垃圾短信,系統(tǒng)對 短信內容進行備份并寫入預存放垃圾短信特征信息內容的數(shù)據庫中,系統(tǒng)等待下次外部短 信內容驗證請求。
2.如權利要求1所述的基于特征相似度的垃圾短信攔截方法,其特征在于所述步驟C 的短信內容字符轉換包括轉化全角字符、轉換WORD文檔支持特殊字符、大寫中文數(shù)字轉化 成小寫數(shù)字、大寫字母轉換成小寫及類數(shù)字、字母符號轉化為對應數(shù)字、字母。
全文摘要
本發(fā)明提供了一種基于特征相似度的垃圾短信攔截方法,通過追蹤短信內容中特定相似特征信息在一段時間內出現(xiàn)的概率實現(xiàn)了只能判斷其是否為群發(fā)垃圾信息的垃圾短信攔截方法,且方法中囊括了對短信內容中出現(xiàn)通訊人聯(lián)系方式(如電話號碼、網址、銀行卡號)和無聯(lián)系方式兩種過濾算法,通過首先對短信文本的特殊字符轉換預處理后,進行通訊聯(lián)系人內容及動態(tài)隨機短信內容截取然后于數(shù)據庫中進行相似度的比較及計數(shù),對超過計數(shù)的對應內容短信會記錄為垃圾短信,并將短信內容加入垃圾短信特征信息內容數(shù)據中,整個既實現(xiàn)了模糊匹配文本識別、又具有智能學習識別垃圾信息功能。
文檔編號H04W4/12GK102045652SQ20091018000
公開日2011年5月4日 申請日期2009年10月21日 優(yōu)先權日2009年10月21日
發(fā)明者楊良志 申請人:深圳市彩訊科技有限公司