本發(fā)明涉及無(wú)線通信領(lǐng)域,特別是一種數(shù)據(jù)分析方法與裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,大數(shù)據(jù)已經(jīng)成為不可逆轉(zhuǎn)的時(shí)代潮流。隨著數(shù)據(jù)存儲(chǔ)設(shè)備成本的不斷降低,以及數(shù)據(jù)采集方式和渠道的多樣化,越來(lái)越多的公司和組織構(gòu)建了自己的數(shù)據(jù)庫(kù),用于存儲(chǔ)海量的用戶數(shù)據(jù)。然而,數(shù)據(jù)的快速積累帶來(lái)了信息超載的問(wèn)題,企業(yè)和用戶真正感興趣的信息被湮沒(méi)在大量紛繁復(fù)雜的數(shù)據(jù)當(dāng)中,有用的信息難以被有效的挖掘。數(shù)據(jù)挖掘技術(shù)則被認(rèn)為是當(dāng)前解決信息超載問(wèn)題的有效工具之一。通過(guò)對(duì)海量數(shù)據(jù)的分析和挖掘,可以從中獲取大量有價(jià)值的信息,使大數(shù)據(jù)更好的為用戶服務(wù)。
目前,序列模式挖掘做為一種對(duì)數(shù)據(jù)分析的方式,已經(jīng)逐漸被廣泛應(yīng)用。序列模式挖掘目的在于尋找海量數(shù)據(jù)庫(kù)中頻繁出現(xiàn)的序列模式?,F(xiàn)有的技術(shù)需求中,需要對(duì)大量的網(wǎng)絡(luò)傳輸數(shù)據(jù)報(bào)文進(jìn)行分類,以標(biāo)記各個(gè)傳輸數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)絡(luò)協(xié)議。而采用同一協(xié)議傳輸?shù)臄?shù)據(jù),其在數(shù)據(jù)的特定位置會(huì)出現(xiàn)相同的特征值。當(dāng)前對(duì)于特定位置和特征值的尋找主要依靠人工專家判定的方式,這樣會(huì)花費(fèi)大量的人力物力。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提出了一種數(shù)據(jù)分析方法與裝置,用以避免人工對(duì)網(wǎng)絡(luò)傳輸數(shù)據(jù)進(jìn)行分類所花費(fèi)的大量的人力物力。
本發(fā)明一個(gè)方面提供一種數(shù)據(jù)分析方法。該方法包括:根據(jù)各原始序列獲取第一序列組,所述第一序列組中包括第一長(zhǎng)度的各個(gè)第一匹配特征以及各所述第一匹配特征在相應(yīng)待確定序列中的第一位置,所述第一特征匹配特征對(duì)應(yīng)的支持度大于或等于第一預(yù)設(shè)支持度,所述待確定序列為在所述第一位置具有所述第一特征匹配特征的原始序列(S1),所述原始序列是采用預(yù)設(shè)協(xié)議的多個(gè)序列,所述原始序列包含多個(gè)匹配特征, 各匹配特征對(duì)應(yīng)的支持度為所述匹配特征在所述多個(gè)原始序列的同一位置出現(xiàn)的次數(shù);
根據(jù)所述第一序列組獲取第二序列組,所述第二序列組中包括第二長(zhǎng)度的各個(gè)第二匹配特征以及所述第二匹配特征在相應(yīng)所述待確定序列中的第二位置,所述第二匹配特征是通過(guò)組合所述第一匹配特征獲取的,且所述第二匹配特征對(duì)應(yīng)的支持度大于或等于第二預(yù)設(shè)支持度(S2);
根據(jù)第二序列組從所述待確定序列中獲取包含所述第二匹配特征的各第三序列,并依次從各所述第三序列中去除相應(yīng)的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,將所述原始序列更新為第四序列,返回重復(fù)執(zhí)行前述步驟,直至執(zhí)行次數(shù)達(dá)到預(yù)設(shè)次數(shù)(S3);
根據(jù)所獲取的各所述第一序列組和各所述第二序列組獲取投影數(shù)據(jù)庫(kù)(S4);和
根據(jù)所述投影數(shù)據(jù)庫(kù)獲取所述預(yù)設(shè)協(xié)議的協(xié)議特征(S5)。
如上所述的數(shù)據(jù)分析方法,可選地,所述根據(jù)所述第一序列組獲取第二序列組包括:根據(jù)所述第一序列組中的各第一匹配特征獲取第二匹配特征,各所述第二匹配特征包括多個(gè)第一匹配特征的組合;和根據(jù)所述第二匹配特征值和所述第二位置確定第二序列組。
如上所述的數(shù)據(jù)分析方法,可選地,所述依次從各所述第三序列中去除相應(yīng)的第二匹配特征以及第二匹配特征之前的各匹配特征,進(jìn)一步包括:步驟a:獲取未遍歷的一個(gè)第三序列;步驟b:遍歷步驟a中獲取的第三序列,若獲取到所述第二匹配特征,則去除所獲取的第二匹配特征以及所獲取的第二匹配特征之前的各匹配特征,并繼續(xù)遍歷操作,直至完成遍歷所述步驟a中獲取的第三序列的操作;步驟c:將所述步驟b中的第三序列中未去除的各匹配特征組成的序列作為第四序列,返回執(zhí)行步驟a。
如上所述的數(shù)據(jù)分析方法,可選地,所述根據(jù)所獲取的各所述第一序列組和各所述第二序列組獲取投影數(shù)據(jù)庫(kù)包括:將獲取到的第一匹配特征和第二匹配特征與最新生成的長(zhǎng)度最長(zhǎng)的整合匹配特征組合生成新的整合匹配特征,初始的整合匹配特征是初次獲取的各第二匹配特征分別與第二次獲取的第一匹配特征和第二匹配特征組合生成的;和根據(jù)各第一序列組、各第二序列組和各整合匹配特征獲取所述投影數(shù)據(jù)庫(kù)。
如上所述的數(shù)據(jù)分析方法,可選地,在所述根據(jù)所獲取的各所述第一序列組和各所述第二序列組獲取獲取所述預(yù)設(shè)協(xié)議的協(xié)議特征之后,還包括:獲取待分析序列;和將所述待分析序列與所述協(xié)議特征進(jìn)行匹配,若兩者匹配,則確定所述待分析序列是所述預(yù)設(shè)協(xié)議進(jìn)行傳輸?shù)摹?/p>
如上所述的數(shù)據(jù)分析方法,可選地,所述第一長(zhǎng)度為1,所述第二長(zhǎng)度為2。
如上所述的數(shù)據(jù)分析方法,可選地,直至執(zhí)行根據(jù)各所述原始序列獲取長(zhǎng)度為1的第一序列組的步驟的次數(shù)達(dá)到預(yù)設(shè)次數(shù)包括:直至不能獲取到第二序列組。
本發(fā)明另一個(gè)方面提供一種數(shù)據(jù)分析裝置,包括:
第一獲取模塊,用于根據(jù)各原始序列獲取第一序列組,所述第一序列組中包括第一長(zhǎng)度的各個(gè)第一匹配特征以及各所述第一匹配特征在相應(yīng)待確定序列中的第一位置,所述第一特征匹配特征對(duì)應(yīng)的支持度大于或等于第一預(yù)設(shè)支持度,所述待確定序列為在所述第一位置具有所述第一特征匹配特征的原始序列,所述原始序列是采用預(yù)設(shè)協(xié)議的多個(gè)序列,所述原始序列包含多個(gè)匹配特征,各匹配特征對(duì)應(yīng)的支持度為所述匹配特征在所述多個(gè)原始序列的同一位置出現(xiàn)的次數(shù);
第二獲取模塊,用于根據(jù)所述第一序列組獲取第二序列組,所述第二序列組中包括第二長(zhǎng)度的各個(gè)第二匹配特征以及所述第二匹配特征在相應(yīng)所述待確定序列中的第二位置,所述第二匹配特征是通過(guò)組合所述第一匹配特征獲取的,且所述第二匹配特征對(duì)應(yīng)的支持度大于或等于第二預(yù)設(shè)支持度;
去除模塊,用于根據(jù)第二序列組從所述待確定序列中獲取包含所述第二匹配特征的各第三序列,并依次從各所述第三序列中去除相應(yīng)的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,將所述原始序列更新為第四序列,觸發(fā)所述第一獲取模塊,直至觸發(fā)所述第一獲取模塊達(dá)到預(yù)設(shè)次數(shù);
第三獲取模塊,用于根據(jù)所獲取的各所述第一序列組和各所述第二序列組獲取投影數(shù)據(jù)庫(kù);
第四獲取模塊,用于根據(jù)所述投影數(shù)據(jù)庫(kù)獲取所述預(yù)設(shè)協(xié)議的協(xié)議特征。
如上所述的數(shù)據(jù)分析裝置,可選地,所述第一獲取模塊具體用于:
根據(jù)所述第一序列組中的各第一匹配特征獲取第二匹配特征,各所述第二匹配特征包括多個(gè)第一匹配特征的組合;
根據(jù)所述第二匹配特征值和所述第二位置確定第二序列組。
如上所述的數(shù)據(jù)分析裝置,可選地,所述去除模塊具體用于執(zhí)行下述步驟:
步驟a:獲取未遍歷的一個(gè)第三序列;
步驟b:遍歷步驟a中獲取的第三序列,若獲取到所述第二匹配特征,則去除所獲取的第二匹配特征以及所獲取的第二匹配特征之前的各匹配特征,并繼續(xù)遍歷操作,直至完成遍歷所述步驟a中獲取的第三序列的操作;
步驟c:將所述步驟b中的第三序列中未去除的各匹配特征組成的序列作為第四序 列,返回執(zhí)行步驟a。
如上所述的數(shù)據(jù)分析裝置,可選地,所述第三獲取模塊具體用于:
將獲取到的第一匹配特征和第二匹配特征與最新生成的長(zhǎng)度最長(zhǎng)的整合匹配特征組合生成新的整合匹配特征,初始的整合匹配特征是初次獲取的各第二匹配特征分別與第二次獲取的第一匹配特征和第二匹配特征組合生成的;
根據(jù)各第一序列組、各第二序列組和各整合匹配特征獲取所述投影數(shù)據(jù)庫(kù)。
如上所述的數(shù)據(jù)分析裝置,可選地,還包括:
匹配模塊,用于獲取待分析序列,并將所述待分析序列與所述協(xié)議特征進(jìn)行匹配,若兩者匹配,則確定所述待分析序列是所述預(yù)設(shè)協(xié)議進(jìn)行傳輸?shù)摹?/p>
如上所述的數(shù)據(jù)分析裝置,可選地,所述第一長(zhǎng)度為1,所述第二長(zhǎng)度為2。
如上所述的數(shù)據(jù)分析裝置,可選地,所述去除模塊用于直至觸發(fā)所述第一獲取模塊達(dá)到預(yù)設(shè)次數(shù)時(shí),具體包括:
直至不能獲取到第二序列組。
從上述方案中可以看出,由于本發(fā)明在獲取各匹配特征時(shí)記錄了位置這一屬性,可以排除掉未在同一位置出現(xiàn)次數(shù)超過(guò)門限值的匹配特征,因此建立投影特征庫(kù)的運(yùn)算過(guò)程較簡(jiǎn)單,所耗費(fèi)的時(shí)間較短,進(jìn)而能夠較快的對(duì)數(shù)據(jù)進(jìn)行分析。
附圖說(shuō)明
下面將通過(guò)參照附圖詳細(xì)描述本發(fā)明的優(yōu)選實(shí)施例,使本領(lǐng)域的普通技術(shù)人員更清楚本發(fā)明的上述及其它特征和優(yōu)點(diǎn),附圖中:
圖1為根據(jù)本發(fā)明一實(shí)施例的數(shù)據(jù)分析方法的流程示意圖。
圖2為根據(jù)本發(fā)明另一實(shí)施例的數(shù)據(jù)分析方法的流程示意圖。
圖3為根據(jù)本發(fā)明再一實(shí)施例的數(shù)據(jù)分析裝置的結(jié)構(gòu)示意圖;
圖4為根據(jù)本發(fā)明又一實(shí)施例的數(shù)據(jù)分析裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下舉實(shí)施例對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
實(shí)施例一
本實(shí)施例提供一種數(shù)據(jù)分析方法,用于對(duì)網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)進(jìn)行分析。本實(shí)施例的執(zhí)行主體是數(shù)據(jù)分析裝置。如圖1所示,為根據(jù)本實(shí)施例的數(shù)據(jù)分析方法的流程示意圖。
步驟101,根據(jù)各原始序列獲取的第一序列組,第一序列組中包括各第一長(zhǎng)度的各個(gè)第一匹配特征以及各第一匹配特征在相應(yīng)待確定序列中的第一位置,第一特征匹配特征對(duì)應(yīng)的支持度大于或等于第一預(yù)設(shè)支持度,待確定序列為在第一位置具有第一特征匹配特征的原始序列,原始序列是采用預(yù)設(shè)協(xié)議的多個(gè)序列,原始序列包含多個(gè)匹配特征,各匹配特征對(duì)應(yīng)的支持度為匹配特征在多個(gè)原始序列的同一位置出現(xiàn)的次數(shù)。
獲取采用預(yù)設(shè)協(xié)議的多個(gè)初始的原始序列,原始序列包含多個(gè)匹配特征,各匹配特征對(duì)應(yīng)的支持度為匹配特征在不同原始序列的同一位置出現(xiàn)的次數(shù)。
本實(shí)施例中,數(shù)據(jù)分析裝置先獲取網(wǎng)絡(luò)中采用已知的某一種協(xié)議進(jìn)行傳輸?shù)臄?shù)據(jù),由于數(shù)據(jù)都是以多個(gè)長(zhǎng)度為1字節(jié)的二進(jìn)制數(shù)據(jù)進(jìn)行傳輸,這些長(zhǎng)度為1字節(jié)的二進(jìn)制數(shù)據(jù)即為匹配特征,每匹配特征在原始序列中的位置,可以采用編號(hào)來(lái)表示。例如,原始序列依次包括的長(zhǎng)度為1的各匹配特征分別是00、01、06、75,則00的位置為1,01的位置為2,06的位置為3,75的位置為4,長(zhǎng)度為2的各匹配特征為0001、0106和0675,其中,0001的位置為1,0106的位置為2,0675的位置為3。長(zhǎng)度為2或者更長(zhǎng)的各匹配特征的位置,是按照第一個(gè)字節(jié)的位置進(jìn)行定位的。一個(gè)報(bào)文所對(duì)應(yīng)的數(shù)據(jù)可以為一個(gè)原始序列。本實(shí)施例中將根據(jù)報(bào)文攜帶的數(shù)據(jù)獲取的數(shù)列作為原始序列,即需要進(jìn)行分析的序列。
支持度即在不同原始序列中同一位置出現(xiàn)的次數(shù)。對(duì)于支持度的計(jì)算,舉例來(lái)說(shuō),例如,某一匹配特征在不同序列中的位置5出現(xiàn)了30次,則該匹配特征對(duì)應(yīng)的支持度為30,或者某一匹配特征在不同序列中的位置1出現(xiàn)了5次,則該匹配特征對(duì)應(yīng)的支持度為5。
第一序列組中的各匹配特征的長(zhǎng)度為第一長(zhǎng)度。該第一長(zhǎng)度可以根據(jù)實(shí)際需要進(jìn)行設(shè)定,例如1。
該步驟可以包括:
根據(jù)第一序列組中的各第一匹配特征獲取第二匹配特征,各第二匹配特征包括多個(gè)第一匹配特征的組合;
根據(jù)第二匹配特征值和第二位置確定第二序列組。
步驟102,根據(jù)第一序列組獲取的第二序列組,第二序列組中包括各第二長(zhǎng)度的各個(gè)第二匹配特征以及第二匹配特征在相應(yīng)待確定序列中的第二位置,第二匹配特征是通過(guò)組合第一匹配特征獲取的且第二匹配特征對(duì)應(yīng)的支持度大于或等于第二預(yù)設(shè)支持度。
本實(shí)施例的第二匹配特征可以包括任意幾個(gè)第一匹配特征的組合,需指出的是,多個(gè)第一長(zhǎng)度的第一匹配特征組合后的長(zhǎng)度為第二長(zhǎng)度,例如,兩個(gè)長(zhǎng)度為1的第一匹配特征組合成長(zhǎng)度為2的第二匹配特征。多個(gè)第一匹配特征的組合順序并不限定。第二匹配特征對(duì)應(yīng)的支持度大于或等于第二預(yù)設(shè)支持度表示的是,即該第二匹配特征在不同待確定序列中同一位置出現(xiàn)的次數(shù)大于或等于第二預(yù)設(shè)支持度。
步驟103,根據(jù)第二序列組從待確定序列中獲取包含第二匹配特征的各第三序列,并依次從各第三序列中去除相應(yīng)的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,將原始序列更新為第四序列,返回重復(fù)執(zhí)行前述步驟,直至重復(fù)次數(shù)達(dá)到預(yù)設(shè)次數(shù)。
若獲取到第二匹配特征,則可以遍歷待確定序列,并根據(jù)第二序列組從待確定序列中獲取包含第二匹配特征的待確定序列作為第三序列,即,第三序列中的第二匹配特征的位置是記錄在第二序列組中的位置。將第三序列的第二匹配特征以及第二匹配特征之前的各匹配特征去掉之后,獲取相應(yīng)的第四序列。將第四序列作為新的原始序列,并重復(fù)步驟101至步驟103,直至不能再獲取到相應(yīng)的第二序列組。
具體地:步驟a:獲取未遍歷的一個(gè)第三序列;
步驟b:遍歷步驟a中獲取的第三序列,若獲取到第二匹配特征,則去除所獲取的第二匹配特征以及所獲取的第二匹配特征之前的各匹配特征,并繼續(xù)遍歷操作,直至完成遍歷步驟a中獲取的第三序列的操作;
步驟c:將步驟b中的第三序列中未去除的各匹配特征組成的序列作為第四序列,返回執(zhí)行步驟a。
可選地,對(duì)于上述步驟a至步驟c,直至所有的第三序列均被遍歷完成,當(dāng)然,也可以根據(jù)實(shí)際需要遍歷預(yù)設(shè)個(gè)數(shù)的第三序列,以減少遍歷時(shí)間,進(jìn)而減少分析數(shù)據(jù)的時(shí)間。
本實(shí)施例的直至執(zhí)行根據(jù)各原始序列獲取長(zhǎng)度為1的第一序列組的步驟的次數(shù)達(dá)到預(yù)設(shè)次數(shù)包括:
直至不能獲取到第二序列組。
需指出的是,這里不能獲取到第二序列組至少包含以下情況:
第一種情況:無(wú)法獲取到第一序列組。即最新的原始序列中不包括所對(duì)應(yīng)的支持度 大于或等于第一預(yù)設(shè)支持度的第一匹配特征,由于不能獲取到第一序列組,相應(yīng)地也不能獲取到第二序列組。
第二種情況:無(wú)法獲取到第二序列組。即第二序列組中沒(méi)有對(duì)應(yīng)的支持度大于或等于第二預(yù)設(shè)支持度的第二匹配特征。
步驟104,根據(jù)所獲取的各第一序列組和各第二序列組獲取投影數(shù)據(jù)庫(kù)。
在重復(fù)執(zhí)行步驟101-步驟103的過(guò)程中,能夠獲取多個(gè)第一序列組和第二序列組,根據(jù)各第一序列組和第二序列組獲取預(yù)設(shè)協(xié)議的協(xié)議特征。
該步驟的具體實(shí)現(xiàn)方式有很多種,例如,投影數(shù)據(jù)庫(kù)中包括全部的第一序列組和第二序列組;或者
將第一序列組和第二序列組中的各匹配特征進(jìn)行整合,進(jìn)而投影數(shù)據(jù)庫(kù)中的各匹配特征還包括根據(jù)第一序列組和第二序列組進(jìn)行整合的匹配特征,具體地:該步驟可以包括:
將獲取到的第一匹配特征和第二匹配特征與最新生成的長(zhǎng)度最長(zhǎng)的整合匹配特征組合生成新的整合匹配特征,初始的整合匹配特征是初次獲取的各第一匹配特征、第二匹配特征分別與第二次獲取的第一匹配特征和第二匹配特征組合生成的;
根據(jù)各第一序列組、各第二序列組和各整合匹配特征獲取投影數(shù)據(jù)庫(kù)。
每次生成的整合匹配特征可能有多個(gè),獲取其中長(zhǎng)度最長(zhǎng)的整合匹配特征用于再次生成整合匹配特征時(shí)。
將各第一匹配特征和第二匹配特征進(jìn)行組合生成各整合匹配特征,并根據(jù)各第一序列組、各第二序列組和各整合匹配特征獲取投影數(shù)據(jù)庫(kù)。整合匹配特征可包括多個(gè)第一匹配特征、第二匹配特征的組合。需指出的是,該整合匹配特征可以包括按照順序依次組合的最新生成的長(zhǎng)度最長(zhǎng)的整合匹配特征和最新獲取到的第一匹配特征、以及最新生成的長(zhǎng)度最長(zhǎng)的整合匹配特征和最新獲取到的第二匹配特征,例如,初次獲取的第一匹配特征包括06、08和10,第二匹配特征包括0610,第二次獲取的第一匹配特征為01,第二次獲取的第二匹配特征為23ef,則整合匹配包括061001和0610323ef。
需指出的是,整合匹配特征的位置時(shí)按照第一個(gè)字節(jié)的位置確定的。
步驟105,根據(jù)投影數(shù)據(jù)庫(kù)獲取預(yù)設(shè)協(xié)議的協(xié)議特征。
投影數(shù)據(jù)庫(kù)中包括多個(gè)匹配特征,從中選擇出一個(gè)或多個(gè)匹配特征作為預(yù)設(shè)協(xié)議的協(xié)議特征。例如,可以通過(guò)人工選擇出其中一個(gè)作為協(xié)議特征,或者從中選擇出符合預(yù)定長(zhǎng)度的匹配特征作為協(xié)議特征,具體可以根據(jù)實(shí)際需要設(shè)定,在此不再贅述。
可選地,在步驟105之后,本實(shí)施例中還包括:
將待分析序列與協(xié)議特征進(jìn)行匹配,若兩者匹配,則確定待分析序列是預(yù)設(shè)協(xié)議進(jìn)行傳輸?shù)摹?/p>
本實(shí)施例中的第一長(zhǎng)度為可以1,相應(yīng)地第二長(zhǎng)度可以為2,采用這樣的組合可以獲取長(zhǎng)度較完整的投影數(shù)據(jù)庫(kù)。
根據(jù)本實(shí)施例的數(shù)據(jù)分析方法,由于在獲取各匹配特征時(shí)記錄了位置這一屬性,可以排除掉未在同一位置出現(xiàn)次數(shù)超過(guò)門限值的匹配特征,因此建立投影特征庫(kù)的運(yùn)算過(guò)程較簡(jiǎn)單,所耗費(fèi)的時(shí)間較短,進(jìn)而能夠較快的對(duì)數(shù)據(jù)進(jìn)行分析。
實(shí)施例二
本實(shí)施例對(duì)實(shí)施例一的數(shù)據(jù)分析方法做進(jìn)一步補(bǔ)充說(shuō)明。如圖2所示,為根據(jù)本實(shí)施例的數(shù)據(jù)分析方法的流程示意圖。本實(shí)施例以第一長(zhǎng)度為1,第二長(zhǎng)度為2為例進(jìn)行說(shuō)明。
步驟201,獲取采用預(yù)設(shè)協(xié)議的多個(gè)初始的原始序列。
本實(shí)施例中,可以采用I={i1,i2,i3,…,in}來(lái)表示包括各原始序列的原始序列組,其中,in表示各原始序列,n為正整數(shù)。本實(shí)施例的各原始序列是均采用同一個(gè)已知協(xié)議進(jìn)行傳輸?shù)摹?/p>
舉例來(lái)說(shuō),根據(jù)數(shù)據(jù)所獲取到的多個(gè)原始序列為:
原始序列1:{00 E7 89 7E 00 a1 E7 a1}
原始序列2:{a1 7E E7 00 E7 we 81 82}
原始序列3:{00 E7 E7 81 82 a1 08 00}
原始序列4:{00 E7 22 81 82 a1 63 22}
需指出的是,各原始序列的長(zhǎng)度可以相等,也可以不相等,長(zhǎng)度可以是任何長(zhǎng)度,本實(shí)施例僅示出長(zhǎng)度為8的且長(zhǎng)度相等的四個(gè)原始序列,即各原始序列中包括8個(gè)長(zhǎng)度為1的匹配特征。
步驟202,遍歷原始序列,并獲取在不同的原始序列中出現(xiàn)次數(shù)大于或等于最小預(yù)設(shè)閾值的待確定第一匹配特征,待確定第一匹配特征的長(zhǎng)度為1。
首先,從原始序列中挑選出在不同原始序列中出現(xiàn)次數(shù)大于或等于最小預(yù)設(shè)閾值的待確定第一匹配特征。需指出的是,同一匹配特征在同一原始序列中出現(xiàn)多次,也僅記為在該原始序列中出現(xiàn)一次。
步驟203,從待確定第一匹配特征中選取在不同序列中同一位置出現(xiàn)的次數(shù)大于或等于第一預(yù)設(shè)支持度的第一匹配特征,第一序列組中包括第一長(zhǎng)度的各個(gè)第一匹配特征,該同一位置即第一匹配特征對(duì)應(yīng)的第一位置。
舉例來(lái)說(shuō),對(duì)于原始序列1中的匹配特征00,即使該匹配特征00在原始序列1中出現(xiàn)兩次,針對(duì)原始序列1記錄該匹配特征00對(duì)應(yīng)的出現(xiàn)次數(shù)也僅為1,同時(shí)記錄該匹配特征00在原始序列1中的位置1和7;遍歷原始序列2,也有匹配特征00,則匹配特征00對(duì)應(yīng)的次數(shù)加1,變?yōu)?,同時(shí)記錄該匹配特征00在原始序列2中的位置4,遍歷原始序列3,即使匹配特征00出現(xiàn)兩次,也僅記錄1次,即該匹配特征00對(duì)應(yīng)的次數(shù)加1,變?yōu)?,同時(shí)記錄該匹配特征00在原始序列1中的位置1和8;遍歷原始序列4,也有匹配特征00,則匹配特征00對(duì)應(yīng)的次數(shù)加1,變?yōu)?,同時(shí)記錄該匹配特征00在原始序列4中的位置1。
其它各匹配特征依次類推,獲取各匹配特征在不同原始序列中出現(xiàn)的次數(shù)。
對(duì)于上述原始序列,假設(shè)最小預(yù)設(shè)閾值為2,獲取在不同序列中出現(xiàn)的次數(shù)大于或等于該預(yù)設(shè)閾值的匹配特征作為待確定第一匹配特征,本實(shí)施例中,從上述四個(gè)原始序列中確定出的待確定第一匹配特征包括:00、a1、E7、7E、81和82。
第一序列組可以采用以下公式表示:
Q1={<E1,T1>,<E2,T2>,…,<Ep,Tp>},其中Q1代表第一序列組,Ep代表第一匹配特征,Tp代表第一匹配特征在序列中出現(xiàn)的位置。其中p≤n且p為正整數(shù)。
假設(shè),第一預(yù)設(shè)支持度為3,則上述原始序列中的第一匹配特征為00、E7和a1。
包含對(duì)應(yīng)的支持度大于或等于第一預(yù)設(shè)支持度的各第一匹配特征的待確定序列為原始序列1、原始序列3和原始序列4。第一序列組Q1={<00,1>,<E7,2>,<a1,6>}。
實(shí)施例一中的步驟102可以包括本實(shí)施例的步驟201和202。
步驟204,根據(jù)第一序列組中各第一匹配特征獲取待確定第二匹配特征。
其中,第二匹配特征的長(zhǎng)度為2,由兩個(gè)第一匹配特征進(jìn)行組合而成。各待確定第二匹配特征包括多個(gè)第一匹配特征的組合。根據(jù)原始序列1、原始序列2、原始序列3和原始序列4,第一匹配特征為00、E7和a1,則待確定第二匹配特征包括0000、00E7、00a1、E700、E7E7、E7a1、a100、a1E7以及a1a1。
遍歷待確定序列,即原始序列1、原始序列3和原始序列4,獲取對(duì)應(yīng)的支持度大于或等于第二預(yù)設(shè)支持度的第二匹配特征。
步驟205,根據(jù)第二匹配特征值和第二位置確定第二序列組。
第二序列組Q2={P1,P2,…,Pr},其中Pr代表第二匹配特征,即Pr={<Tt,<EiEj>>},其中1≤t≤r,Ei∈O1,Ej∈O1。
假設(shè),本實(shí)施例中的第二預(yù)設(shè)支持度為2,則可以獲取到最終的第二匹配特征為00E7,第二序列組Q2為{<00E7,1>}。
步驟206,根據(jù)第二序列組從待確定序列中獲取包含第二匹配特征的各第三序列。
根據(jù)第二序列組Q2為{<00E7,1>},第三序列為原始序列1、原始序列3和原始序列4。
步驟207,依次從各第三序列中去除相應(yīng)的第二匹配特征以及第二匹配特征之前的各匹配特征,根據(jù)去除第二匹配特征后的各第三序列獲取第四序列,將原始序列更新為第四序列,返回執(zhí)行步驟202,直至未獲取到第二序列組。
該步驟包括以下步驟:
步驟a:獲取未遍歷的一個(gè)第三序列;
步驟b:遍歷步驟a中獲取的第三序列,若獲取到第二匹配特征,則去除所獲取的第二匹配特征以及所獲取的第二匹配特征之前的各匹配特征,并繼續(xù)遍歷操作,直至完成遍歷步驟a中獲取的第三序列的操作;
步驟c:將步驟b中的第三序列中未去除的各匹配特征組成的序列作為第四序列,返回執(zhí)行步驟a。
假設(shè),獲取的第三序列為原始序列1,首先獲取到位置為1的第二匹配特征00E7,去除位置為1的第二匹配特征00E7,接下來(lái),獲取到位置為4的第二匹配特征00E7,去除該位置為4的第二匹配特征00E7,原始序列1遍歷完畢。根據(jù)原始序列1未獲取到第四序列。
接下來(lái),獲取的第三序列為原始序列3,首先獲取到位置為1的第二匹配特征00E7,去除位置為1的第二匹配特征00E7,接下來(lái),未遍歷到第二匹配特征,則根據(jù)原始序列3獲取到的第四序列1為:{E7 81 82 a1 08 00}。
接下來(lái),獲取的第三序列為原始序列4,首先獲取到位置為1的第二匹配特征00E7,去除位置為1的第二匹配特征00E7,接下來(lái),未遍歷到第二匹配特征,則根據(jù)原始序列4獲取到的第四序列2為:{22 81 82 a1 63 22}。
需注意的是,各第四序列中的各匹配特征的位置發(fā)生改變,第四序列1為:{E7, 81,82,a1,08,00}中的匹配特征E7,在初始的原始序列中的位置為3,在第四序列中的位置為1。
接著,由于第四序列僅為2個(gè),一定獲取不到對(duì)應(yīng)的支持度大于或等于第一預(yù)設(shè)支持度的第一匹配特征,接著,繼續(xù)執(zhí)行步驟208。
步驟208,根據(jù)獲取的各第一序列組和各第二序列組獲取投影數(shù)據(jù)庫(kù)。
該步驟包括:將獲取到的第一匹配特征和第二匹配特征與最新生成的長(zhǎng)度最長(zhǎng)的整合匹配特征組合生成新的整合匹配特征,初始的整合匹配特征是初次獲取的各第二匹配特征分別與第二次獲取的第一匹配特征和第二匹配特征組合生成的;
根據(jù)各第一序列組、各第二序列組和各整合匹配特征獲取投影數(shù)據(jù)庫(kù)。
步驟209,根據(jù)投影數(shù)據(jù)庫(kù)中確定出預(yù)設(shè)協(xié)議的協(xié)議特征。
如何確定該協(xié)議特征可以根據(jù)實(shí)際需要設(shè)定,例如采用人工根據(jù)經(jīng)驗(yàn)選擇的方式,在此不再贅述。
步驟210,獲取待分析序列,并將待分析序列與協(xié)議特征進(jìn)行匹配,若兩者匹配,則確定待分析序列是預(yù)設(shè)協(xié)議進(jìn)行傳輸?shù)摹?/p>
獲取某一待分析序列,根據(jù)預(yù)先獲取的協(xié)議特征進(jìn)行匹配,若在該待分析序列中在與協(xié)議特征相應(yīng)的位置匹配到該協(xié)議特征時(shí),則說(shuō)明該待分析序列就是采用該預(yù)設(shè)協(xié)議進(jìn)行分析的。各協(xié)議特征以及對(duì)應(yīng)的位置均可以記錄在協(xié)議特征庫(kù)中。例如,協(xié)議特征庫(kù)中有<00E7,1>,其中,協(xié)議特征為00E7,1表示該匹配特征00E7在序列中的位置。本實(shí)施例獲取到的特征數(shù)據(jù)庫(kù)中包括該<00E7,1>,則表示該特征數(shù)據(jù)庫(kù)采用的是第一協(xié)議。
根據(jù)檢測(cè),本實(shí)施例的數(shù)據(jù)分析方法最終的分析數(shù)據(jù)如表1所示:
表1
該表1中的偏移表示匹配特征的位置,長(zhǎng)度即為協(xié)議的序列的長(zhǎng)度。從表1中可以看出,本實(shí)施例的數(shù)據(jù)分析方法錯(cuò)判率為不超過(guò)4%,誤判率不超過(guò)3%,可靠率非常高。這表明本實(shí)施例的數(shù)據(jù)分析方法的結(jié)果非常準(zhǔn)確。本實(shí)施例的誤判率為將某一協(xié)議錯(cuò)誤的判斷成另外一協(xié)議的概率,漏判率為遺漏了某組數(shù)據(jù)沒(méi)有判斷出來(lái)。
根據(jù)本實(shí)施例,獲取投影特征庫(kù)的過(guò)程計(jì)算比較簡(jiǎn)單,耗費(fèi)時(shí)間短,因此能夠很快的對(duì)數(shù)據(jù)進(jìn)行分析,進(jìn)而能夠較快地得到結(jié)論。
實(shí)施例三
本實(shí)施例提供一種數(shù)據(jù)分析裝置,用于執(zhí)行上述實(shí)施例中的數(shù)據(jù)分析方法。本實(shí)施例的數(shù)據(jù)分析裝置可以是任一終端,例如手機(jī)、電腦、服務(wù)器等。
如圖3所示,為根據(jù)本實(shí)施例的數(shù)據(jù)分析裝置的結(jié)構(gòu)示意圖。本實(shí)施例的數(shù)據(jù)分析裝置包括:第一獲取模塊301、第二獲取模塊302、去除模塊303、第三獲取模塊304和分析模塊305。
其中,第一獲取模塊301用于根據(jù)各原始序列獲取第一序列組,第一序列組中包括第一長(zhǎng)度的各個(gè)第一匹配特征以及各第一匹配特征在相應(yīng)待確定序列中的第一位置,第一特征匹配特征對(duì)應(yīng)的支持度大于或等于第一預(yù)設(shè)支持度,待確定序列為在第一位置具有第一特征匹配特征的原始序列,原始序列是采用預(yù)設(shè)協(xié)議的多個(gè)序列,原始序列包含多個(gè)匹配特征,各匹配特征對(duì)應(yīng)的支持度為匹配特征在多個(gè)原始序列的同一位置出現(xiàn)的次數(shù);第二獲取模塊302用于根據(jù)第一序列組獲取第二序列組,第二序列組中包括第二長(zhǎng)度的各個(gè)第二匹配特征以及第二匹配特征在相應(yīng)待確定序列中的第二位置,第二匹配特征是通過(guò)組合第一匹配特征獲取的,且第二匹配特征對(duì)應(yīng)的支持度大于或等于第二預(yù)設(shè)支持度;去除模塊303用于根據(jù)第二序列組從待確定序列中獲取包含第二匹配特征的各第三序列,并依次從各第三序列中去除相應(yīng)的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,將原始序列更新為第四序列,觸發(fā)第一獲取模塊301,直至觸發(fā)第一獲取模塊301達(dá)到預(yù)設(shè)次數(shù);第三獲取模塊304用于根據(jù)所獲取的各第一序列組和各第二序列組獲取投影數(shù)據(jù)庫(kù);第四獲取模塊305用于根據(jù)投影數(shù)據(jù)庫(kù)獲取預(yù)設(shè)協(xié)議的協(xié)議特征。
本實(shí)施例的數(shù)據(jù)分析裝置的操作方法與實(shí)施例一一致,在此不再贅述。
根據(jù)本實(shí)施例的數(shù)據(jù)分析裝置,由于在獲取各匹配特征時(shí)記錄了位置這一屬性,可以排除掉未在同一位置出現(xiàn)多次的匹配特征,因此建立投影特征庫(kù)的運(yùn)算過(guò)程較簡(jiǎn)單,所耗費(fèi)的時(shí)間較短,進(jìn)而能夠較快的對(duì)數(shù)據(jù)進(jìn)行分析。
實(shí)施例四
本實(shí)施例對(duì)上述實(shí)施例的數(shù)據(jù)分析裝置做進(jìn)一步補(bǔ)充說(shuō)明。
如圖4所示,本實(shí)施例的數(shù)據(jù)分析裝置的第一獲取模塊301具體用于:
根據(jù)第一序列組中的各第一匹配特征獲取第二匹配特征,各第二匹配特征包括多個(gè)第一匹配特征的組合;
根據(jù)第二匹配特征值和第二位置確定第二序列組。
可選地,本實(shí)施例的去除模塊303具體用于執(zhí)行下述步驟:
步驟a:獲取未遍歷的一個(gè)第三序列;
步驟b:遍歷步驟a中獲取的第三序列,若獲取到第二匹配特征,則去除所獲取的第二匹配特征以及所獲取的第二匹配特征之前的各匹配特征,并繼續(xù)遍歷操作,直至完成遍歷步驟a中獲取的第三序列的操作;
步驟c:將步驟b中的第三序列中未去除的各匹配特征組成的序列作為第四序列,返回執(zhí)行步驟a。
可選地,本實(shí)施例的第三獲取模塊304具體用于:
將獲取到的第一匹配特征和第二匹配特征與最新生成的長(zhǎng)度最長(zhǎng)的整合匹配特征組合生成新的整合匹配特征,初始的整合匹配特征是初次獲取的各第二匹配特征分別與第二次獲取的第一匹配特征和第二匹配特征組合生成的;
根據(jù)各第一序列組、各第二序列組和各整合匹配特征獲取投影數(shù)據(jù)庫(kù)。
可選地,如圖4所示,本實(shí)施例的數(shù)據(jù)分析裝置還包括匹配模塊401。該匹配模塊401用于獲取待分析序列,并將待分析序列與協(xié)議特征進(jìn)行匹配,若兩者匹配,則確定待分析序列是預(yù)設(shè)協(xié)議進(jìn)行傳輸?shù)摹?/p>
可選地,本實(shí)施例的第一長(zhǎng)度為1,第二長(zhǎng)度為2。
可選地,本實(shí)施例的去除模塊303用于直至觸發(fā)第一獲取模塊301達(dá)到預(yù)設(shè)次數(shù)時(shí),具體包括:
直至不能獲取到第二序列組。
本實(shí)施例的數(shù)據(jù)分析裝置的具體操作方式與上述實(shí)施例一致,在此不再贅述。
根據(jù)本實(shí)施例,獲取投影特征庫(kù)的過(guò)程計(jì)算比較簡(jiǎn)單,耗費(fèi)時(shí)間短,因此能夠很快的對(duì)數(shù)據(jù)進(jìn)行分析,進(jìn)而能夠較快地得到結(jié)論。
以上僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。