本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,特別是涉及一種基于bide算法與最長公共子序列的序列型數(shù)據(jù)同一鑒定系統(tǒng)及方法。
背景技術(shù):
2012年我國新修訂的刑事訴訟法將數(shù)字證據(jù)增列為一種新的法定證據(jù),由此數(shù)字證據(jù)在犯罪調(diào)查中扮演了越來越重要的角色。但依據(jù)目前司法相關(guān)規(guī)定,計(jì)算機(jī)犯罪調(diào)查獲取的源數(shù)據(jù)不能直接作為數(shù)字證據(jù)被采用,必須要先通過證據(jù)認(rèn)定,確認(rèn)與案件相關(guān)的數(shù)據(jù)才能夠成為法定的證據(jù)。同時,現(xiàn)有的很多計(jì)算機(jī)及網(wǎng)絡(luò)應(yīng)用服務(wù)多以匿名服務(wù)方式運(yùn)行,由此所產(chǎn)生的大量用戶數(shù)據(jù)沒有包含特定的用戶身份識別信息,這些匿名數(shù)據(jù)都需要通過同一鑒定來確認(rèn)應(yīng)用數(shù)據(jù)的身份同一性,即匿名數(shù)據(jù)是否與案件、涉案人員或涉案實(shí)體具備同一性或相關(guān)性,為數(shù)字證據(jù)的認(rèn)定提供科學(xué)依據(jù)??梢?,數(shù)字證據(jù)的鑒定是數(shù)字取證中的關(guān)鍵技術(shù),具備重要的實(shí)際應(yīng)用意義。
在數(shù)字取證領(lǐng)域中,匿名數(shù)據(jù)的身份歸屬鑒定即稱為證據(jù)的同一鑒定,也稱為同一取證,具體指利用一定的技術(shù)方法來判定兩份證據(jù)數(shù)據(jù)是否來自于同一犯罪嫌疑人或同一系統(tǒng)。由于具備司法認(rèn)定資格的司法人員對于計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)等技術(shù)基礎(chǔ)可能存在一定的不足,因而同一鑒定成為數(shù)字證據(jù)認(rèn)定的重要依據(jù)和前提技術(shù)支撐。
基于用戶身份的數(shù)據(jù)同一鑒定通常使用用戶行為模式的比對來實(shí)現(xiàn),即具備同一性的證據(jù)數(shù)據(jù)所包含的用戶行為特征信息與特定犯罪嫌疑人的用戶行為特征信息是相同的或相吻合的。
用戶行為模式可分為序列行為模式和非序列行為模式兩種。序列行為模式指的是用戶行為模式中的特征屬性項(xiàng)具有先后次序性,不能任意更換它們的先后順序;非序列行為模式則指表征用戶行為模式的特征屬性項(xiàng)具有集合特性,特征屬性項(xiàng)之間沒有固定的次序性要求。用戶的序列行為模式包括web瀏覽模式、系統(tǒng)操作模式等,而用戶的非序列行為模式則包括文本書寫模式、商品購買模式、社交模式等
目前,在email的作者身份鑒定方面,通常采用email內(nèi)容的主題特征模式和文本書寫特征模式來研究匿名通信文本的歸屬問題,已在垃圾郵件判定等應(yīng)用研究中獲得了一定效果。采用svm模型分析email的書寫風(fēng)格和結(jié)構(gòu)特點(diǎn),并進(jìn)一步深入研究了email作者的歸屬問題,發(fā)現(xiàn)當(dāng)訓(xùn)練集減小、作者數(shù)目增加或email文本長度減小時,基于svm的分類精度會出現(xiàn)明顯的下降,且當(dāng)特征詞增加到一定數(shù)目后,svm算法的性能也會變差,表明svm方法不太適用于短文本的身份識別。為此,利用頻繁模式挖掘算法設(shè)計(jì)email等文本的作者識別方法,由獲得的頻繁項(xiàng)集來生成用戶書寫特征模式,并采用頻繁項(xiàng)挖掘算法的支持度來計(jì)算相似性得分,實(shí)現(xiàn)書寫模式的比對,實(shí)驗(yàn)表明對于email等文本的身份鑒定具有較好可用性。同時,融合書寫特征和內(nèi)容特征等多個屬性,提出一種基于聚類的ceai模型,該模型在enron郵件數(shù)據(jù)集的作者鑒定中獲得了一定的成功。
綜上可見,用戶頻繁行為模式在非序列型數(shù)據(jù)的身份同一鑒定方面獲得了良好計(jì)算效果?;诖?,借鑒以上研究思路,研究基于bide頻繁閉序列模式挖掘算法和基于最長公共子序列的數(shù)據(jù)同一鑒定方法,探索用戶頻繁行為模式在序列型數(shù)據(jù)同一鑒定中的可行性,以驗(yàn)證用戶頻繁行為模式在數(shù)字證據(jù)同一鑒定中的普適性。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的是提供一種基于bide算法與最長公共子序列的序列型數(shù)據(jù)同一鑒定系統(tǒng)及方法,該方法能通過同一鑒定確認(rèn)匿名數(shù)據(jù)的身份同一性,在一定程度上提高挖掘犯罪網(wǎng)絡(luò)中可疑對象的準(zhǔn)確性。
本發(fā)明采用以下方案實(shí)現(xiàn):一種基于bide算法與最長公共子序列的序列型數(shù)據(jù)同一鑒定系統(tǒng),該系統(tǒng)包括用戶行為模式的數(shù)據(jù)挖掘模塊、基于bide算法的頻繁序列行為模式挖掘模塊、數(shù)字證據(jù)的同一鑒定模塊、基于最長公共子序列的模式相似度計(jì)算模塊;其中,所述用戶行為模式的數(shù)據(jù)挖掘模塊,用以利用數(shù)據(jù)挖掘技術(shù)建立用戶頻繁行為模式庫;所述基于bide算法的頻繁序列行為模式挖掘模塊,用以利用bide頻繁閉序列挖掘算法來進(jìn)行用戶頻繁行為模式的挖掘,獲得與完整頻繁序列模式信息等同的精簡頻繁閉合序列模式,為數(shù)據(jù)鑒定提供用戶頻繁序列行為模式庫;所述數(shù)字證據(jù)的同一鑒定模塊,用以采用同一鑒定的技術(shù)方法判定兩份證據(jù)數(shù)據(jù)是否來自于同一犯罪嫌疑人或同一系統(tǒng);所述基于最長公共子序列的模式相似度計(jì)算模塊,用于計(jì)算兩個行為模式中所有兩兩頻繁序列之間的lcs,并結(jié)合lcs的長度和對應(yīng)頻繁序列的支持度來計(jì)算兩個頻繁序列行為模式的綜合相似度。
本發(fā)明還采用以下方法實(shí)現(xiàn):一種基于bide算法與最長公共子序列的序列型數(shù)據(jù)同一鑒定方法,包括以下步驟:
步驟s1:利用數(shù)據(jù)挖掘技術(shù)建立用戶頻繁行為模式庫,建立基于用戶行為模式的數(shù)字證據(jù)同一鑒定模型;
步驟s2:采用bide頻繁閉序列挖掘算法進(jìn)行用戶頻繁行為模式的快速挖掘;獲得與完整頻繁序列模式信息等同的精簡頻繁閉合序列模式;
步驟s3:采用基于最長公共子序列的用戶行為模式綜合相似度計(jì)算方法,進(jìn)行數(shù)據(jù)鑒定分析。
進(jìn)一步地,所述步驟s1中,利用數(shù)據(jù)挖掘技術(shù)建立用戶頻繁行為模式庫時,用戶行為模式挖掘模型基本處理過程包括如下步驟:
步驟s11:利用取證工具與數(shù)據(jù)采集agent從用戶主機(jī)、網(wǎng)絡(luò)服務(wù)器和網(wǎng)絡(luò)設(shè)備等獲取原始的用戶使用數(shù)據(jù),存儲為用戶原始數(shù)據(jù)集;
步驟s12:根據(jù)取證要求,對原始數(shù)據(jù)進(jìn)行預(yù)處理操作,并按用戶id、用戶ip、主機(jī)名或mac地址進(jìn)行分類,存儲為用戶數(shù)據(jù)集;
步驟s13:從用戶數(shù)據(jù)庫中抽取個人數(shù)據(jù)集,根據(jù)應(yīng)用需求,按會話、時間段或服務(wù)單元為單位對用戶數(shù)據(jù)進(jìn)行劃分,構(gòu)造用戶數(shù)據(jù)的事務(wù)集;
步驟s14:調(diào)用給定的頻繁行為模式挖掘算法,對用戶數(shù)據(jù)事務(wù)集進(jìn)行模式挖掘,得到表征用戶行為模式的頻繁序列集,生成該用戶的頻繁行為模式;
步驟s15:返回步驟s1,重復(fù)上述步驟,生成所有用戶的頻繁行為模式,生成頻繁行為模式數(shù)據(jù)庫。
進(jìn)一步地,所述頻繁行為模式挖掘算法包括序列模式挖掘算法與非序列模式挖掘算法。
進(jìn)一步地,所述步驟s3中,用戶行為模式綜合相似度計(jì)算方法包括主基于全序列的比較法與基于lcs的相關(guān)函數(shù)比較法,通過計(jì)算兩個行為模式中所有兩兩頻繁序列之間的lcs,并結(jié)合lcs的長度和對應(yīng)頻繁序列的支持度來計(jì)算兩個頻繁序列行為模式的綜合相似度。
相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:本發(fā)明基于數(shù)字取證中匿名用戶數(shù)據(jù)的同一鑒定問題,提出了基于用戶頻繁序列行為模式的數(shù)據(jù)同一鑒定模型,設(shè)計(jì)了基于bide的用戶頻繁閉合序列模式快速挖掘算法,然后給出了基于最長公共子序列的模式綜合相似度計(jì)算方法,并以web瀏覽數(shù)據(jù)和unix操作命令行數(shù)據(jù)集為例進(jìn)行了數(shù)據(jù)鑒定實(shí)驗(yàn)分析。所提出的同一鑒定方法在兩種數(shù)據(jù)集的實(shí)驗(yàn)中均具有較好的有效性和穩(wěn)定性,能夠?yàn)樾蛄行蛿?shù)字證據(jù)的鑒定提供有力技術(shù)支撐。同時,本發(fā)明的研究也驗(yàn)證了用戶頻繁行為模式在序列型和非序列型數(shù)字證據(jù)的身份同一鑒定中具有較好的普適性,為進(jìn)一步開展相關(guān)研究提供了有價(jià)值的參考數(shù)據(jù)。從而協(xié)助取證人員查找可疑人群,為計(jì)算機(jī)犯罪案件取證提供一定輔助和支持。
附圖說明
圖1是本發(fā)明匿名數(shù)據(jù)的同一鑒定模塊結(jié)構(gòu)示意圖。
圖2是本發(fā)明用戶頻繁行為模式挖掘模型方法的實(shí)現(xiàn)流程圖。
具體實(shí)施方式
下面結(jié)合附圖及實(shí)施例對本發(fā)明做進(jìn)一步說明。
本實(shí)施例提供一種基于bide算法與最長公共子序列的序列型數(shù)據(jù)同一鑒定系統(tǒng),如圖1所示,該系統(tǒng)包括用戶行為模式的數(shù)據(jù)挖掘模塊、基于bide算法的頻繁序列行為模式挖掘模塊、數(shù)字證據(jù)的同一鑒定模塊、基于最長公共子序列的模式相似度計(jì)算模塊;其中,所述用戶行為模式的數(shù)據(jù)挖掘模塊,用以利用數(shù)據(jù)挖掘技術(shù)建立用戶頻繁行為模式庫;所述基于bide算法的頻繁序列行為模式挖掘模塊,用以利用bide頻繁閉序列挖掘算法來進(jìn)行用戶頻繁行為模式的挖掘,獲得與完整頻繁序列模式信息等同的精簡頻繁閉合序列模式,為數(shù)據(jù)鑒定提供用戶頻繁序列行為模式庫;所述數(shù)字證據(jù)的同一鑒定模塊,用以采用同一鑒定的技術(shù)方法判定兩份證據(jù)數(shù)據(jù)是否來自于同一犯罪嫌疑人或同一系統(tǒng);所述基于最長公共子序列的模式相似度計(jì)算模塊,用于計(jì)算兩個行為模式中所有兩兩頻繁序列之間的lcs,并結(jié)合lcs的長度和對應(yīng)頻繁序列的支持度來計(jì)算兩個頻繁序列行為模式的綜合相似度。
在本實(shí)施例中,如圖2所示,一種基于bide算法與最長公共子序列的序列型數(shù)據(jù)同一鑒定方法,包括以下步驟:
步驟s1:為了實(shí)現(xiàn)匿名用戶數(shù)據(jù)的同一鑒定,首先需要利用數(shù)據(jù)挖掘技術(shù)建立用戶頻繁行為模式庫,建立基于用戶行為模式的數(shù)字證據(jù)同一鑒定模型;
步驟s2:采用bide頻繁閉序列挖掘算法進(jìn)行用戶頻繁行為模式的快速挖掘;獲得與完整頻繁序列模式信息等同的精簡頻繁閉合序列模式;
步驟s3:采用基于最長公共子序列的用戶行為模式綜合相似度計(jì)算方法,進(jìn)行數(shù)據(jù)鑒定分析。
在本實(shí)施例中,所述步驟s1中,利用數(shù)據(jù)挖掘技術(shù)建立用戶頻繁行為模式庫時,用戶行為模式挖掘模型基本處理過程包括如下步驟:
步驟s11:利用取證工具與數(shù)據(jù)采集agent從用戶主機(jī)、網(wǎng)絡(luò)服務(wù)器和網(wǎng)絡(luò)設(shè)備等獲取原始的用戶使用數(shù)據(jù),存儲為用戶原始數(shù)據(jù)集;
步驟s12:根據(jù)取證要求,對原始數(shù)據(jù)進(jìn)行預(yù)處理操作,并按用戶id、用戶ip、主機(jī)名或mac地址進(jìn)行分類,存儲為用戶數(shù)據(jù)集;
步驟s13:從用戶數(shù)據(jù)庫中抽取個人數(shù)據(jù)集,根據(jù)應(yīng)用需求,按會話、時間段或服務(wù)單元為單位對用戶數(shù)據(jù)進(jìn)行劃分,構(gòu)造用戶數(shù)據(jù)的事務(wù)集;
步驟s14:調(diào)用給定的頻繁行為模式挖掘算法,對用戶數(shù)據(jù)事務(wù)集進(jìn)行模式挖掘,得到表征用戶行為模式的頻繁序列集,生成該用戶的頻繁行為模式;
步驟s15:返回步驟s1,重復(fù)上述步驟,生成所有用戶的頻繁行為模式,生成頻繁行為模式數(shù)據(jù)庫。
其中,所述頻繁行為模式挖掘算法包括序列模式挖掘算法與非序列模式挖掘算法,該模型具有較好的適用性。
在本實(shí)施例中,所述步驟s2中,為解決完整頻繁序列帶來的較大冗余性的問題,利用bide頻繁閉序列挖掘算法來進(jìn)行用戶頻繁行為模式的挖掘,能夠獲得與完整頻繁序列模式信息等同的精簡頻繁閉合序列模式,為數(shù)據(jù)鑒定提供了高質(zhì)量的用戶頻繁序列行為模式庫。
其中,bide算法及其子算法的描述如下:
算法bide(sdb,min_sup,fcs)
輸入:序列數(shù)據(jù)庫sdb,最小支持度閾值min_sup;
輸出:頻繁閉合序列的全局集合fcs;
算法bide(sp_sdb,sp,min_sup,bei,fcs)
輸入:投影數(shù)據(jù)庫sp_sdb,前綴序列sp,最小支持度min_sup,后向擴(kuò)展序列的個數(shù);
輸出:頻繁閉合序列的當(dāng)前集合fcs;
由算法產(chǎn)生頻繁閉合序列的過程可看出,bide算法輸出的頻繁閉合序列集合fcs與完整的頻繁序列全集具有模式的等價(jià)性,即不會造成用戶行為模式信息的丟失。可見,本發(fā)明采用bide挖掘算法來研究基于用戶序列行為模式的證據(jù)鑒定具備良好的可行性和高效性。
為降低上述因素帶來的影響,同一鑒定時既不能采用單一頻繁序列或最長頻繁序列的相似度來判定數(shù)據(jù)的同一性,也不能使用兩個頻繁序列模式共有的相同頻繁序列的數(shù)目來簡單代表數(shù)據(jù)的同一性?;诖?,在本實(shí)施例中,所述步驟s3采用最長公共子序列(longestcommonsubsequence,lcs)算法來計(jì)算兩個行為模式中所有兩兩頻繁序列之間的lcs,并結(jié)合lcs的長度和對應(yīng)頻繁序列的支持度來計(jì)算兩個頻繁序列行為模式的綜合相似度。
其中,用戶行為模式綜合相似度計(jì)算方法包括主要兩個部分,即基于全序列的比較法和基于lcs的相關(guān)函數(shù)比較法。
對于給定的兩個模式,a={a1,a2,...,am}和b={b1,b2,...,bn},ai、bj表示模式中的頻繁序列,supai和supbj表示對應(yīng)頻繁序列的支持度,lai和lbj表示對應(yīng)頻繁序列的長度,simij表示ai與bj的序列相似度。
模式相似度的計(jì)算函數(shù)psim及子算法定義如下:
算法psim(a,b,sim):
輸入:兩個頻繁序列模式a和b;
輸出:綜合相似度sim;
子算法lcs(sa,sb,l)://lcs函數(shù)計(jì)算sa和sb中最長公共子序列的長度l
輸入:兩個頻繁序列串sa和sb;
輸出:最長公共子序列的長度長度l;
可見,在本實(shí)施例中,頻繁序列模式相似度算法充分考慮了用戶行為模式之間所有頻繁閉合序列的相似度比較,相比jaccard系數(shù)等經(jīng)典相似度計(jì)算方法,該算法得出的模式綜合相似度更全面地描述了用戶數(shù)據(jù)之間的吻合程度,在數(shù)字證據(jù)的同一鑒定中具有更好的合理性與適用性。
由于用戶頻繁行為模式是相對穩(wěn)定的,當(dāng)匿名數(shù)據(jù)所包含的頻繁序列模式與已有用戶頻繁行為模式相同或相似度很高時,即認(rèn)定該匿名數(shù)據(jù)來自于該特定用戶?;谏鲜龇治?,證據(jù)數(shù)據(jù)的同一鑒定問題就轉(zhuǎn)化為用戶頻繁行為模式的相似度計(jì)算問題。
以上所述僅為本發(fā)明的較佳實(shí)施例,凡依本發(fā)明申請專利范圍所做的均等變化與修飾,皆應(yīng)屬本發(fā)明的涵蓋范圍。