本發(fā)明屬于信息安全中的軟件安全領(lǐng)域,具體涉及一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法及系統(tǒng)。
背景技術(shù):
1、詐騙短信屬于垃圾短信的一種,國內(nèi)外相關(guān)學(xué)者在垃圾短信識別領(lǐng)域做了大量的研究,提出了一些可行的垃圾短信檢測方法及規(guī)避策略。已有的方法主要分為:基于短信內(nèi)容特征的垃圾短信檢測方法和基于短信行為特征的垃圾短信檢測方法?;诙绦艃?nèi)容特征的垃圾短信檢測方法種主要利用文本特征、統(tǒng)計特征、語義特征等短信內(nèi)容特征,通過svm、貝葉斯網(wǎng)絡(luò)等機器學(xué)習(xí)方法,來構(gòu)建分類器,從而實現(xiàn)詐騙短信、非法廣告短信等垃圾短信的檢測。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,部分研究者通過引入rnn、fasttext等模型來提升垃圾短信檢測的性能。同時,部分研究發(fā)布了垃圾短信標(biāo)記數(shù)據(jù)集,以促進未來的垃圾短信檢測研究?;诙绦判袨樘卣鞯睦绦艡z測方法主要從短信發(fā)送行為中提取與垃圾短信相關(guān)的特征,實現(xiàn)對垃圾短信的檢測。部分研究聚焦于短信通訊的基礎(chǔ)設(shè)施,例如假基站和短信網(wǎng)關(guān),通過接收到的蜂窩信號等網(wǎng)絡(luò)信號特征以及發(fā)送者的流量行為特征來檢測垃圾短信,相關(guān)方法也能夠提高對垃圾短信的態(tài)勢感知能力。最新的垃圾短信數(shù)據(jù)集之一fbssms?spam?dataset根據(jù)垃圾短信的業(yè)務(wù)類型將國內(nèi)真實偽基站收集到的垃圾短信手動標(biāo)記為14個類別,收集策略的局限性使得數(shù)據(jù)集無法擴展。還有部分研究通過對發(fā)送者行為聚類,提取業(yè)務(wù)類別、用戶陷阱策略和規(guī)避技術(shù)等行為特征,并進一步結(jié)合用戶行為分析和數(shù)據(jù)建模等技術(shù),建立垃圾短信檢測模型,從而提高垃圾短信檢測的準確度和效率。
2、雖然當(dāng)前國內(nèi)外研究者提出了很多短信欺詐行為檢測方法并實現(xiàn)了原型系統(tǒng),然而移動用戶遭受短信欺詐的案例仍然層出不窮,已有的檢測方法存在以下挑戰(zhàn):(1)短信欺詐攻擊方法不斷升級,已有方法檢測準確率存在不足。面對基于行為特征的垃圾短信檢測方法,攻擊者通過采用匿名代理服務(wù)器或短信轟炸等手段,結(jié)合自適應(yīng)模型、生成對抗網(wǎng)絡(luò)等技術(shù),制造更具迷惑性和適應(yīng)性的垃圾短信攻擊,能夠混淆檢測系統(tǒng)并延緩反應(yīng)速度。面對基于內(nèi)容特征的垃圾短信檢測方法,攻擊者通過使用習(xí)語、縮寫等方式縮短短信長度和修改敏感的短信內(nèi)容,以達到規(guī)避檢測的目的。(2)詐騙短信內(nèi)容變化快、變種多,已有檢測方法無法應(yīng)對新型短信欺詐行為。隨著移動互聯(lián)網(wǎng)應(yīng)用服務(wù)能力的提升,攻擊者通過利用新型服務(wù)類型、熱點社會事件等來構(gòu)造詐騙短信。已有研究方法提取的內(nèi)容特征受限于標(biāo)記數(shù)據(jù)集的完整性和時效性,導(dǎo)致無法有效發(fā)現(xiàn)和檢測新型短信欺詐行為。
技術(shù)實現(xiàn)思路
1、為解決以上現(xiàn)有技術(shù)存在的問題,本發(fā)明提出了一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法,該方法包括獲取內(nèi)容平臺中的歷史短信信息數(shù)據(jù),并構(gòu)建短信信息安全檢測知識庫;獲取待檢測的短信數(shù)據(jù);將待檢測的短信數(shù)據(jù)輸入到訓(xùn)練后的短信信息安全檢測模型中,得到檢測結(jié)果;
2、對短信欺詐行為檢測模型進行訓(xùn)練包括:
3、從內(nèi)容平臺中采集用戶發(fā)布的數(shù)據(jù),采用分類器對用戶發(fā)布的數(shù)據(jù)進行初步過濾處理;采用目標(biāo)檢測算法對初步過濾的數(shù)據(jù)進行識別,得到短信數(shù)據(jù);提取短信數(shù)據(jù)的文本特征,采用bart模型提取文本特征的短信摘要信息;將短信摘要信息輸入到句子嵌入模型sentence-bert中,得到嵌入向量;將嵌入向量與短信信息安全檢測知識庫中的嵌入向量進行對比,判斷待檢測短信信息是否存在安全隱患;根據(jù)檢測結(jié)果計算模型的損失函數(shù),調(diào)整模型的參數(shù),當(dāng)損失函數(shù)收斂時,完成模型的訓(xùn)練。
4、一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)采集模塊、短信信息過濾模塊以及短信信息安全檢測模塊;
5、所述數(shù)據(jù)采集模塊用于采集用戶發(fā)布的數(shù)據(jù)信息;
6、所述短信信息過濾模塊用于對采集的用戶數(shù)據(jù)信息進行篩選,得到短信數(shù)據(jù);
7、所述短信信息安全檢測模塊用于對過濾后的短信數(shù)據(jù)進行信息安全檢測,得到檢測結(jié)果。
8、本發(fā)明的有益效果:
9、本發(fā)明利用了用戶通常會在內(nèi)容發(fā)布平臺分享自己遭受的短信欺詐行為這一特點,通過內(nèi)容平臺數(shù)據(jù)挖掘,設(shè)計發(fā)明了一種短信欺詐行為發(fā)現(xiàn)方法與裝置。本發(fā)明能夠幫助監(jiān)管部門從海量數(shù)據(jù)中識別出有效信息,發(fā)現(xiàn)新型欺詐行為,大大降低了人力物力成本,同時能夠及時更新監(jiān)管手段,從而更好的保護移動用戶安全。本發(fā)明通過綜合利用文本分類算法、目標(biāo)檢測算法和圖片內(nèi)容提取算法,設(shè)計了多個內(nèi)容過濾模塊以過濾噪聲數(shù)據(jù),從而能夠從海量的數(shù)據(jù)中快速準確的識別出詐騙短信,大大提高了短信欺詐行為識別的效率,能夠滿足海量數(shù)據(jù)背景下的應(yīng)用要求。
1.一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法,其特征在于,包括:獲取內(nèi)容平臺中的歷史短信信息數(shù)據(jù),并構(gòu)建短信信息安全檢測知識庫;獲取待檢測的短信數(shù)據(jù);將待檢測的短信數(shù)據(jù)輸入到訓(xùn)練后的短信信息安全檢測模型中,得到檢測結(jié)果;
2.根據(jù)權(quán)利要求1所述的一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法,其特征在于,從內(nèi)容平臺中采集用戶數(shù)據(jù)包括:利用網(wǎng)絡(luò)爬蟲技術(shù)周期性地對用戶發(fā)布的短信相關(guān)的內(nèi)容進行自動化采集。
3.根據(jù)權(quán)利要求1所述的一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法,其特征在于,采用分類器對采集的用戶發(fā)布數(shù)據(jù)進行初步過濾處理包括:通過人工標(biāo)記的方式對采集的用戶發(fā)布文本內(nèi)容添加標(biāo)簽,得到訓(xùn)練數(shù)據(jù)集,其中標(biāo)簽分為“噪聲數(shù)據(jù)”和“非噪聲數(shù)據(jù)”;對中文短文本數(shù)據(jù)進行分詞,并去除非中文字符和特殊符號;計算去除非中文字符和特殊符號的文本中每個詞的tf-idf值,得到一個特征向量;根據(jù)分類標(biāo)簽和特征向量對svm分類器進行訓(xùn)練,并通過核函數(shù)將輸入向量映射到高維空間,得到文本之間的相似性;采用十折交叉評估不同超參數(shù)組合的模型性能,根據(jù)交叉驗證的平均性能指標(biāo),選擇最優(yōu)的超參數(shù)組合,得到分類器;采用分類器對用戶發(fā)布數(shù)據(jù)進行濾波處理。
4.根據(jù)權(quán)利要求1所述的一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法,其特征在于,采用目標(biāo)檢測算法對初步過濾的數(shù)據(jù)進行識別包括:通過旋轉(zhuǎn)矩形框標(biāo)注工具rolabelimg標(biāo)注圖像,構(gòu)建訓(xùn)練數(shù)據(jù)集;對訓(xùn)練數(shù)據(jù)集中的圖像進行圖像增強和歸一化處理;將歸一化后圖像數(shù)據(jù)輸入到y(tǒng)olov8網(wǎng)絡(luò)模型中進行訓(xùn)練,通過前向和后向傳播,迭代優(yōu)化直至模型收斂,保存訓(xùn)練得到的模型權(quán)重;采用訓(xùn)練后的yolov8網(wǎng)絡(luò)模型對過濾后的數(shù)據(jù)進行識別,得到短信數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法,其特征在于,提取短信數(shù)據(jù)的文本特征包括:采用ocr算法提取短信數(shù)據(jù)中的文本段落及其文本框坐標(biāo)信息,并將文本框坐標(biāo)與短信單元對話框坐標(biāo)進行比較,若文本段落在短信單元對話框內(nèi),則該文本段落為短信文本,否則不為短信文本。
6.根據(jù)權(quán)利要求1所述的一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法,其特征在于,采用bart模型提取文本特征的短信摘要信息包括:通過tokenizer對輸入的數(shù)據(jù)進行轉(zhuǎn)換;對轉(zhuǎn)換后的短信文本進行編碼,使用預(yù)訓(xùn)練的bart模型對編碼后的文本進行處理,生成簡潔的摘要;使用短信信息安全檢測知識庫中的數(shù)據(jù)對bart模型進行微調(diào),以便適應(yīng)短信數(shù)據(jù)。
7.根據(jù)權(quán)利要求1所述的一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法,其特征在于,將嵌入向量與短信信息安全檢測知識庫中的嵌入向量進行對比包括:將5個關(guān)鍵詞的嵌入向量與短信安全檢測知識庫中的關(guān)鍵詞進行對比;具體為計算提取出的摘要與知識庫中欺詐行為的摘要信息的嵌入向量,使用余弦相似度計算生成摘要與知識庫摘要之間的相似度,找到相似度最高的知識庫摘要;若余弦相似度大于設(shè)定的閾值,則判定欺詐行為相似;當(dāng)出現(xiàn)知識庫中不相似的欺詐行為摘要,采用人工審核確認,無誤則定義為新型短信欺詐行為,并按照欺詐行為知識庫數(shù)據(jù)格式要求進行更新。
8.根據(jù)權(quán)利要求7所述的一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法,其特征在于,設(shè)置的閾值為0.5。
9.一種基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測系統(tǒng),該系統(tǒng)用于執(zhí)行權(quán)利要求1~8任意一種所述的基于內(nèi)容平臺數(shù)據(jù)挖掘的短信信息安全檢測方法,其特征在于,包括:數(shù)據(jù)采集模塊、短信信息過濾模塊以及短信信息安全檢測模塊;