本發(fā)明涉及一種數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)特征選擇的評價方法及裝置。
背景技術(shù):
網(wǎng)絡(luò)信息安全是指網(wǎng)絡(luò)系統(tǒng)的硬件、軟件及其系統(tǒng)中的數(shù)據(jù)能夠得到保護(hù),不受偶然的或者惡意的原因而遭到破壞、更改、泄露,使得網(wǎng)絡(luò)能夠系統(tǒng)連續(xù)地、可靠地、正常地運(yùn)行。為了分析網(wǎng)絡(luò)信息是否安全,可以通過對網(wǎng)絡(luò)中產(chǎn)生的大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從而提取出用戶需求的數(shù)據(jù)信息,然而,特征選擇是數(shù)據(jù)挖掘重要的預(yù)處理步驟。
目前,現(xiàn)有的特征選擇是從高維屬性矩陣中選取少量的屬性,作為數(shù)據(jù)挖掘的輸入屬性,但是,將計算得到的數(shù)據(jù)的特征直接作為數(shù)據(jù)挖掘的輸入進(jìn)行處理,無法確保特征選擇是否正確及最優(yōu),從而導(dǎo)致數(shù)據(jù)挖掘的效率較低。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提供一種數(shù)據(jù)特征選擇的評價方法及裝置,主要目的在于解決在進(jìn)行網(wǎng)絡(luò)安全信息數(shù)據(jù)挖掘時,無法確保特征選擇是否正確及最優(yōu)的問題。
依據(jù)本發(fā)明一個方面,提供了一種數(shù)據(jù)特征選擇的評價方法,包括:
獲取待評價特征選擇的數(shù)據(jù)矩陣;
根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類;
為數(shù)據(jù)矩陣中的數(shù)值配置與所述類型對應(yīng)的權(quán)值系數(shù);
通過預(yù)置乘積算法及預(yù)置求和算法,計算配置權(quán)值系數(shù)后的數(shù)據(jù)矩陣的評價值。
依據(jù)本發(fā)明一個方面,提供了一種數(shù)據(jù)特征選擇的評價裝置,包括:
獲取單元,用于獲取待評價特征選擇的數(shù)據(jù)矩陣;
分類單元,用于根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類;
配置單元,用于為數(shù)據(jù)矩陣中的數(shù)值配置與所述類型對應(yīng)的權(quán)值系數(shù);
計算單元,用于通過預(yù)置乘積算法及預(yù)置求和算法,計算配置權(quán)值系數(shù)后的數(shù)據(jù)矩陣的評價值。
借由上述技術(shù)方案,本發(fā)明實施例提供的技術(shù)方案至少具有下列優(yōu)點:
本發(fā)明施例提供一種數(shù)據(jù)特征選擇的評價方法及裝置,首先獲取待評價特征選擇的數(shù)據(jù)矩陣,然后根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類,再為數(shù)據(jù)矩陣中的數(shù)值配置與所述類型對應(yīng)的權(quán)值系數(shù),最后通過預(yù)置乘積算法及預(yù)置求和算法,計算配置權(quán)值系數(shù)后的數(shù)據(jù)矩陣的評價值。本發(fā)明實施例通過對特征選擇得到數(shù)據(jù)進(jìn)行數(shù)據(jù)處理后得到特征選擇的評價值,實現(xiàn)對特征選擇結(jié)果的評價,便于對特征選擇結(jié)果做出處理,從而提高數(shù)據(jù)特征選擇的評價效率。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了本發(fā)明實施例一提供的一種數(shù)據(jù)特征選擇的評價方法的示意圖;
圖2示出了本發(fā)明實施例二提供的另一種數(shù)據(jù)特征選擇的評價方法的示意圖;
圖3示出了本發(fā)明實施例三提供的一種數(shù)據(jù)特征選擇的評價裝置的結(jié)構(gòu)示意圖;
圖4示出了本發(fā)明實施例四提供的一種數(shù)據(jù)特征選擇的評價裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明實施例提供一種數(shù)據(jù)特征選擇的評價方法,如圖1所示,所述方法包括:
101、獲取待評價特征選擇的數(shù)據(jù)矩陣。
其中,所述數(shù)據(jù)矩陣為包含屬性特征的數(shù)據(jù)矩陣,且每個數(shù)據(jù)矩陣的行數(shù)和列數(shù)均相同。
需要說明的是,數(shù)據(jù)矩陣可以存儲在一個預(yù)置位置中,在需要計算時,利用不同執(zhí)行計算的軟件的程序獲取到多個數(shù)據(jù)矩陣。
例如,當(dāng)使用matlab軟件進(jìn)行計算時,若數(shù)據(jù)存儲在excel文件中,則在matlab平臺中輸入調(diào)用excel文件的程序,獲取矩陣a。
102、根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類。
其中,所述不同屬性特征類型可以包括網(wǎng)絡(luò)安全信息中的所有數(shù)據(jù)屬性類型,本發(fā)明實施例不做具體限定。
例如,屬性特征類型包括安全類型和危險類型,分類后得到安全類型包含矩陣a,或者危險類型包括矩陣b。
103、為數(shù)據(jù)矩陣中的數(shù)值配置與所述類型對應(yīng)的權(quán)值系數(shù)。
其中,所述對應(yīng)的權(quán)值系數(shù)為不同類型矩陣的權(quán)值系數(shù)不同,所述權(quán)值系數(shù)可以為不同數(shù)列的排列組合,也可以為不同的概率分布,還可以為利用模型訓(xùn)練出的最優(yōu)權(quán)值,本發(fā)明實施例不做具體限定。
例如,安全類型的矩陣A,矩陣中數(shù)值配置的權(quán)值系數(shù)可以為RL模型訓(xùn)練后的權(quán)值系數(shù)。
104、通過預(yù)置乘積算法及預(yù)置求和算法,計算配置權(quán)值系數(shù)后的數(shù)據(jù)矩陣的評價值。
其中,所述評價值為一個數(shù)值,一般為正值,數(shù)值越大,代表特征選擇的效率越好,評價值用于分析特征選擇的優(yōu)劣,以便用戶進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘。
本發(fā)明施例提供一種數(shù)據(jù)特征選擇的評價方法,首先獲取待評價特征選擇的數(shù)據(jù)矩陣,然后根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類,再為數(shù)據(jù)矩陣中的數(shù)值配置與所述類型對應(yīng)的權(quán)值系數(shù),最后通過預(yù)置乘積算法及預(yù)置求和算法,計算配置權(quán)值系數(shù)后的數(shù)據(jù)矩陣的評價值。本發(fā)明實施例通過對特征選擇得到數(shù)據(jù)進(jìn)行數(shù)據(jù)處理后得到特征選擇的評價值,實現(xiàn)對特征選擇結(jié)果的評價,便于對特征選擇結(jié)果做出處理,從而提高數(shù)據(jù)特征選擇的評價效率。
本發(fā)明實施例提供另一種數(shù)據(jù)特征選擇的評價方法,如圖2所示,所述方法包括:
201、將待評價特征選擇的數(shù)據(jù)矩陣配置為行列數(shù)量相同的數(shù)據(jù)矩陣。
其中,所述行列數(shù)量相同為相同個數(shù)的行和相同個數(shù)的列,通過將待評價特征選擇的數(shù)據(jù)矩陣配置為行列數(shù)量相同的數(shù)據(jù)矩陣,以便進(jìn)行矩陣中行與列的乘積,從而提高數(shù)據(jù)特征選擇的評價效率。
202、獲取待評價特征選擇的數(shù)據(jù)矩陣。
本步驟與圖1所述步驟101所述的方法相同,這里不再贅述。
203、根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類。
其中,所述屬性特征類型包括用戶類型、安全類型、危險類型。
204a、若屬性特征類型為用戶類型,則為所述數(shù)據(jù)矩陣中的數(shù)值配置的權(quán)值系數(shù)符合二項分布。
其中,所述二項分布為概率意義上的二項分布,具體為0-1分布,所述用戶類型為用戶進(jìn)行標(biāo)注過的屬性,可以包括用戶的需求屬性,本發(fā)明實施例不做具體限定。例如,為用戶類型,則將矩陣中的數(shù)據(jù)配置為1*a1,0*a2,1*a3等。
對于本發(fā)明實施例,與步驟204a并列的步驟204b、若屬性特征類型為安全類型,則為所述數(shù)據(jù)矩陣中的數(shù)值配置的權(quán)值系數(shù)符合正態(tài)分布。
其中,所述正態(tài)分布為概率意義上的正態(tài)分布,具體的數(shù)值可以選取矩陣中數(shù)值最大的最為正太分布中的最大值,以此向兩邊遞減。
對于本發(fā)明實施例,與步驟204a并列的步驟204c、若屬性特征類型為危險類型,則為所述數(shù)據(jù)矩陣中的數(shù)值配置的權(quán)值系數(shù)符合指數(shù)分布。
其中,所述指數(shù)分布為概率意義上的指數(shù)分布,當(dāng)危險類型矩陣中的數(shù)值越大是說明危險系數(shù)越大,配置的指數(shù)權(quán)值越大。
205、通過預(yù)置的行與列的乘積算法計算得到多個計算結(jié)果。
其中,所述預(yù)置的行與列的乘積算法為線性代數(shù)中矩陣的點積運(yùn)算,例如,矩陣{a11,a12,a13;a21,a22,a23;a31,a32,a33}中,行為a1={a11,a12,a13},a2={a21,a22,a23},a3{a31,a32,a33},列為b1={a11,a21,a31},b2={a12,a22,a32},b3={a13,a23,a33},乘積算法為c1=a1*b1,c2=a2*b2,c3=a3*b3。
206、將所述多個計算結(jié)果進(jìn)行求和統(tǒng)計得到評價值。
例如,將上述計算得到的結(jié)果c1、c2、c3進(jìn)行相加,得到評價值D。
進(jìn)一步地,本發(fā)明實施例還可以包括:根據(jù)不同的用戶需求及不同的數(shù)據(jù)挖掘算法判斷是否進(jìn)行數(shù)據(jù)挖掘;若需要,則發(fā)出告警信息。其中,所述不同的用戶需求包括數(shù)據(jù)挖掘的不同應(yīng)用場景,如,網(wǎng)絡(luò)信息安全的大數(shù)據(jù)處理、工業(yè)生產(chǎn)中的大數(shù)據(jù)處理等,本發(fā)明是實施例不做具體限定。所述數(shù)據(jù)挖掘算法包括不同種類的機(jī)械學(xué)習(xí)或者不同算法的組合,本發(fā)明實施例不做具體限定。所述發(fā)出告警信息包括聲音告警和圖像告警,本發(fā)明實施例不做具體限定。通過根據(jù)不同的用戶需求及不同的數(shù)據(jù)挖掘算法判斷是否進(jìn)行數(shù)據(jù)挖掘,若需要,則發(fā)出告警信息,實現(xiàn)在不同場景下評估出適合當(dāng)前場景的最優(yōu)特征選擇值,以便提高數(shù)據(jù)挖掘的效率。
本發(fā)明施例提供另一種數(shù)據(jù)特征選擇的評價方法,首先獲取待評價特征選擇的數(shù)據(jù)矩陣,然后根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類,再為數(shù)據(jù)矩陣中的數(shù)值配置與所述類型對應(yīng)的權(quán)值系數(shù),最后通過預(yù)置乘積算法及預(yù)置求和算法,計算配置權(quán)值系數(shù)后的數(shù)據(jù)矩陣的評價值。本發(fā)明實施例通過對特征選擇得到數(shù)據(jù)進(jìn)行數(shù)據(jù)處理后得到特征選擇的評價值,實現(xiàn)對特征選擇結(jié)果的評價,便于對特征選擇結(jié)果做出處理,從而提高數(shù)據(jù)特征選擇的評價效率。
本發(fā)明實施例提供一種數(shù)據(jù)特征選擇的評價裝置,如圖3所示,所述方法包括:獲取單元31、分類單元32、配置單元33、計算單元34。
獲取單元31,用于獲取待評價特征選擇的數(shù)據(jù)矩陣;
分類單元32,用于根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類;
配置單元33,用于為數(shù)據(jù)矩陣中的數(shù)值配置與所述類型對應(yīng)的權(quán)值系數(shù);
計算單元34,用于通過預(yù)置乘積算法及預(yù)置求和算法,計算配置權(quán)值系數(shù)后的數(shù)據(jù)矩陣的評價值。
本發(fā)明施例提供一種數(shù)據(jù)特征選擇的評價裝置,首先獲取待評價特征選擇的數(shù)據(jù)矩陣,然后根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類,再為數(shù)據(jù)矩陣中的數(shù)值配置與所述類型對應(yīng)的權(quán)值系數(shù),最后通過預(yù)置乘積算法及預(yù)置求和算法,計算配置權(quán)值系數(shù)后的數(shù)據(jù)矩陣的評價值。本發(fā)明實施例通過對特征選擇得到數(shù)據(jù)進(jìn)行數(shù)據(jù)處理后得到特征選擇的評價值,實現(xiàn)對特征選擇結(jié)果的評價,便于對特征選擇結(jié)果做出處理,從而提高數(shù)據(jù)特征選擇的評價效率。
本發(fā)明實施例提供另一種數(shù)據(jù)特征選擇的評價裝置,如圖4所示,所述方法包括:獲取單元41、分類單元42、配置單元43、計算單元44、判斷單元45、運(yùn)算單元46。
獲取單元41,用于獲取待評價特征選擇的數(shù)據(jù)矩陣;
分類單元42,用于根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類;
配置單元43,用于為數(shù)據(jù)矩陣中的數(shù)值配置與所述類型對應(yīng)的權(quán)值系數(shù);
計算單元44,用于通過預(yù)置乘積算法及預(yù)置求和算法,計算配置權(quán)值系數(shù)后的數(shù)據(jù)矩陣的評價值。
所述配置單元43,還用于將待評價特征選擇的數(shù)據(jù)矩陣配置為行列數(shù)量相同的數(shù)據(jù)矩陣。
所述配置單元43,具體用于若屬性特征類型為用戶類型,則為所述數(shù)據(jù)矩陣中的數(shù)值配置的權(quán)值系數(shù)符合二項分布;
所述配置單元43,具體還用于若屬性特征類型為安全類型,則為所述數(shù)據(jù)矩陣中的數(shù)值配置的權(quán)值系數(shù)符合正態(tài)分布;
所述配置單元43,具體還用于若屬性特征類型為危險類型,則為所述數(shù)據(jù)矩陣中的數(shù)值配置的權(quán)值系數(shù)符合指數(shù)分布。
進(jìn)一步地,所述計算單元44包括:
計算模塊4401,用于通過預(yù)置的行與列的乘積算法計算得到多個計算結(jié)果;
統(tǒng)計模塊4402,用于將所述多個計算結(jié)果進(jìn)行求和統(tǒng)計得到評價值。
進(jìn)一步地,所述裝置還包括:
判斷單元45,用于根據(jù)不同的用戶需求及不同的數(shù)據(jù)挖掘算法判斷是否進(jìn)行數(shù)據(jù)挖掘;
運(yùn)算單元46,用于若若判斷單元判斷出根據(jù)不同的用戶需求及不同的數(shù)據(jù)挖掘算法不進(jìn)行數(shù)據(jù)挖掘,則發(fā)出告警信息。
本發(fā)明施例提供另一種數(shù)據(jù)特征選擇的評價裝置,首先獲取待評價特征選擇的數(shù)據(jù)矩陣,然后根據(jù)不同屬性特征類型對所述數(shù)據(jù)矩陣進(jìn)行分類,再為數(shù)據(jù)矩陣中的數(shù)值配置與所述類型對應(yīng)的權(quán)值系數(shù),最后通過預(yù)置乘積算法及預(yù)置求和算法,計算配置權(quán)值系數(shù)后的數(shù)據(jù)矩陣的評價值。本發(fā)明實施例通過對特征選擇得到數(shù)據(jù)進(jìn)行數(shù)據(jù)處理后得到特征選擇的評價值,實現(xiàn)對特征選擇結(jié)果的評價,便于對特征選擇結(jié)果做出處理,從而提高數(shù)據(jù)特征選擇的評價效率。
在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
可以理解的是,上述方法及裝置中的相關(guān)特征可以相互參考。另外,上述實施例中的“第一”、“第二”等是用于區(qū)分各實施例,而并不代表各實施例的優(yōu)劣。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
在此提供的算法和顯示不與任何特定計算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細(xì)節(jié)的情況下實踐。在一些實例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運(yùn)行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的數(shù)據(jù)特征選擇的評價方法及裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機(jī)程序和計算機(jī)程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機(jī)可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機(jī)來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。