一種特征選擇方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種特征選擇方法及裝置。
【背景技術(shù)】
[0002] 高維數(shù)據(jù),如航天遙感數(shù)據(jù)、生物數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)以及金融市場(chǎng)交易數(shù)據(jù)等,數(shù)據(jù) 的數(shù)量和維數(shù)呈現(xiàn)指數(shù)級(jí)的數(shù)量膨脹,這不僅可以給人們帶來(lái)"維數(shù)福音",即高維數(shù)據(jù)中 蘊(yùn)藏的豐富信息中可產(chǎn)生解決問(wèn)題的新的可能性;而且,也會(huì)給人們帶來(lái)"維數(shù)災(zāi)難(curse of dimensionality) ",即高維空間中點(diǎn)與點(diǎn)間的歐式距離幾乎相同,使得高維數(shù)據(jù)中模式 識(shí)別和規(guī)則發(fā)現(xiàn)帶來(lái)極大困難;因此,為了避免"維數(shù)災(zāi)難",需要對(duì)高維數(shù)據(jù)進(jìn)行特征選擇 (Feature Selection)〇
[0003] 圖1為現(xiàn)有技術(shù)中特征選擇的基本流程示意圖,如圖1所示,包括以下步驟:SlOL 從原始數(shù)據(jù)集中隨機(jī)產(chǎn)生一組特征子集;S102.利用評(píng)價(jià)函數(shù)對(duì)所述特征子集進(jìn)行評(píng)價(jià); S103.將評(píng)價(jià)結(jié)果與停止準(zhǔn)則進(jìn)行比較,判斷評(píng)價(jià)結(jié)果是否好于停止準(zhǔn)則,若是,則執(zhí)行步 驟S104 ;若否,則重復(fù)步驟S101-S103 ;S104.若是,則驗(yàn)證所述特征子集的有效性,確定所 述特征子集為最優(yōu)特征子集;由于,在特征選擇的基本過(guò)程中,從數(shù)據(jù)集中產(chǎn)生的初始特征 子集的好壞直接影響整個(gè)過(guò)程的迭代次數(shù),尤其是隨機(jī)產(chǎn)生的特征子集會(huì)使得迭代運(yùn)算收 斂比較慢;同時(shí),結(jié)果特征子集評(píng)價(jià)標(biāo)準(zhǔn)難以確定,容易造成將不夠準(zhǔn)確的結(jié)果評(píng)價(jià)為最優(yōu) 特征子集;因此,現(xiàn)有技術(shù)通用的特征選擇運(yùn)算效率低且選出的最優(yōu)特征子集不夠準(zhǔn)確。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例提供一種特征選擇方法及裝置,解決了如何從原始特征子集中選出 比較準(zhǔn)確的最優(yōu)特征子集的問(wèn)題,提高了高維數(shù)據(jù)特征選擇的有效性及運(yùn)算效率。
[0005] 為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是,
[0006] 第一方面,本發(fā)明實(shí)施例提供一種特征選擇方法,包括:
[0007] 計(jì)算原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,以及,所述原始數(shù)據(jù)集中各特征變 量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性;其中,所述原始數(shù)據(jù)集包含N維特征變量,所述N維 特征變量包含N-I維所述特征變量和所述預(yù)測(cè)目標(biāo)特征變量,所述N為正整數(shù);
[0008] 根據(jù)所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,和,所述原始數(shù)據(jù)集中各特征 變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性,獲取強(qiáng)相關(guān)特征子集和弱相關(guān)特征子集;其中,所 述強(qiáng)相關(guān)子集中包含的特征變量為所述原始數(shù)據(jù)集中,與所述預(yù)測(cè)目標(biāo)特征變量直接相關(guān) 的特征變量;所述弱相關(guān)子集中包含的特征變量為所述原始數(shù)據(jù)集中,與所述預(yù)測(cè)目標(biāo)特 征變量間接相關(guān)的特征變量;
[0009] 將所述強(qiáng)相關(guān)特征子集中包含的所有特征變量,以及,所述弱相關(guān)特征子集中,與 所述強(qiáng)相關(guān)特征子集中的特征變量直接相關(guān)的特征變量的集合確定為所述預(yù)測(cè)目標(biāo)特征 變量的最優(yōu)特征子集。
[0010] 在第一方面的第一種可能的實(shí)現(xiàn)方式中,結(jié)合第一方面,所述原始數(shù)據(jù)集還包含M 組數(shù)據(jù),所述M組數(shù)據(jù)包含訓(xùn)練數(shù)據(jù)集,其中,每組數(shù)據(jù)中包含在同一時(shí)刻采集的所述N維 特征變量對(duì)應(yīng)的數(shù)據(jù),所述M為正整數(shù);
[0011] 相應(yīng)的,所述計(jì)算原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,以及,所述原始數(shù)據(jù)集 中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性,包括:
[0012] 根據(jù)所述訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)計(jì)算所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性, 以及,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性。
[0013] 在第一方面的第二種可能的實(shí)現(xiàn)方式中,結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方 式,所述M組數(shù)據(jù)還包含評(píng)估數(shù)據(jù)集和測(cè)試數(shù)據(jù)集;
[0014] 相應(yīng)的,所述根據(jù)所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,和,所述原始數(shù)據(jù) 集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性,獲取強(qiáng)相關(guān)特征子集和弱相關(guān)特征子 集,包括:
[0015] 根據(jù)所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,所述原始數(shù)據(jù)集中各特征變量 與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性,以及,所述評(píng)估數(shù)據(jù)集和所述測(cè)試數(shù)據(jù)集獲取分類模 型;
[0016] 根據(jù)所述分類模型獲取所述強(qiáng)相關(guān)特征子集和所述弱相關(guān)特征子集。
[0017] 在第一方面的第三種可能的實(shí)現(xiàn)方式中,結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方 式,所述根據(jù)所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性、所述原始數(shù)據(jù)集中各特征變量 與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性、所述評(píng)估數(shù)據(jù)集、以及所述測(cè)試數(shù)據(jù)集獲取分類模型, 包括:
[0018] 根據(jù)所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,和,所述原始數(shù)據(jù)集中各特征 變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性建立初始的貝葉斯網(wǎng)絡(luò)模型;其中,所述初始的貝 葉斯網(wǎng)絡(luò)模型包含節(jié)點(diǎn)和有向邊,所述節(jié)點(diǎn)表示特征變量,所述有向邊表示與所述有向邊 連接的兩個(gè)節(jié)點(diǎn)之間的相關(guān)性;
[0019] 利用所述評(píng)估數(shù)據(jù)集迭代訓(xùn)練所述初始的貝葉斯網(wǎng)絡(luò)模型,獲得穩(wěn)定的貝葉斯網(wǎng) 絡(luò)模型;其中,所述穩(wěn)定的貝葉斯網(wǎng)絡(luò)為包含不可逆的有向邊的貝葉斯網(wǎng)絡(luò)模型;
[0020] 利用所述測(cè)試數(shù)據(jù)集測(cè)試所述穩(wěn)定的貝葉斯網(wǎng)絡(luò)模型,若所述穩(wěn)定的貝葉斯網(wǎng)絡(luò) 模型的拓?fù)浣Y(jié)構(gòu)保持不變,則將所述穩(wěn)定的貝葉斯網(wǎng)絡(luò)模型確定為分類模型。
[0021] 在第一方面的第四種可能的實(shí)現(xiàn)方式中,結(jié)合第一方面至第一方面的第三種可能 的實(shí)現(xiàn)方式中的任一種實(shí)現(xiàn)方式,所述將所述強(qiáng)相關(guān)特征子集中包含的所有特征變量,以 及,所述弱相關(guān)特征子集中,與所述強(qiáng)相關(guān)特征子集中的特征變量直接相關(guān)的特征變量的 集合確定為所述預(yù)測(cè)目標(biāo)特征變量的最優(yōu)特征子集,包括:
[0022] 在所述弱相關(guān)特征子集中,選擇第一特征變量,將所述第一特征變量加入當(dāng)前預(yù) 測(cè)模型,判斷加入所述第一特征變量后的所述當(dāng)前預(yù)測(cè)模型的預(yù)測(cè)精度是否大于所述當(dāng)前 預(yù)測(cè)模型的預(yù)測(cè)精度,其中,所述第一特征變量為所述弱相關(guān)特征子集中,與所述預(yù)測(cè)目標(biāo) 特征變量的相關(guān)性最大的特征變量,所述當(dāng)前預(yù)測(cè)模型為初始預(yù)測(cè)模型或更新后的所述初 始預(yù)測(cè)模型,所述初始預(yù)測(cè)模型為以所述強(qiáng)相關(guān)特征子集中的特征變量為輸入端建立的預(yù) 測(cè)模型;
[0023] 若是,則更新所述當(dāng)前預(yù)測(cè)模型,并將所述第一特征變量從所述弱相關(guān)特征子集 中刪除,加入第一集合;
[0024] 若否,則不更新所述當(dāng)前預(yù)測(cè)模型,并將所述第一特征變量從所述弱相關(guān)特征子 集中刪除;
[0025] 重復(fù)上述過(guò)程,直至所述弱相關(guān)特征子集中不存在特征變量;
[0026] 將所述強(qiáng)相關(guān)特征子集中的特征變量和所述第一集合中的特征變量的集合確定 為所述預(yù)測(cè)目標(biāo)特征變量的最優(yōu)特征子集。
[0027] 在第一方面的第五種可能的實(shí)現(xiàn)方式中,結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方 式,所述預(yù)測(cè)型為神經(jīng)網(wǎng)絡(luò)模型;
[0028] 相應(yīng)的,所述以所述強(qiáng)相關(guān)特征子集中的特征變量為輸入端建立預(yù)測(cè)模型,包 括:
[0029] 以強(qiáng)相關(guān)特征子集中包含的特征變量為輸入元構(gòu)建神經(jīng)網(wǎng)絡(luò)模型;其中,所述神 經(jīng)網(wǎng)絡(luò)模型包含輸入層,隱含層,以及,輸出層;所述輸入層和隱含層之間,以及,所述隱含 層與所述輸出層之間通過(guò)連接權(quán)函數(shù)連接。
[0030] 第二方面,本發(fā)明實(shí)施例提供一種特征選擇裝置,包括:
[0031] 計(jì)算模塊,用于計(jì)算原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,以及,所述原始數(shù)據(jù) 集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性;其中,所述原始數(shù)據(jù)集包含N維特征 變量,所述N維特征變量包含N-I維所述特征變量和所述預(yù)測(cè)目標(biāo)特征變量,所述N為正整 數(shù);
[0032] 獲取模塊,用于根據(jù)所述計(jì)算模塊計(jì)算出的所述原始數(shù)據(jù)集中各特征變量之間的 相關(guān)性,和,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性,獲取強(qiáng)相關(guān) 特征子集和弱相關(guān)特征子集;其中,所述強(qiáng)相關(guān)子集中包含的特征變量為所述原始數(shù)據(jù)集 中,與所述預(yù)測(cè)目標(biāo)特征變量直接相關(guān)的特征變量;所述弱相關(guān)子集中包含的特征變量為 所述原始數(shù)據(jù)集中,與所述預(yù)測(cè)目標(biāo)特征變量間接相關(guān)的特征變量;
[0033] 確定模塊,用于將所述獲取模塊獲取的所述強(qiáng)相關(guān)特征子集中包含的所有特征變 量,以及,所述弱相關(guān)特征子集中,與所述強(qiáng)相關(guān)特征子集中的特征變量直接相關(guān)的特征變 量的集合確定為所述預(yù)測(cè)目標(biāo)特征變量的最優(yōu)特征子集。
[0034] 在第二方面的第一種可能的實(shí)現(xiàn)方式中,結(jié)合第二方面,所述原始數(shù)據(jù)集還包含M 組數(shù)據(jù),所述M組數(shù)據(jù)包含訓(xùn)練數(shù)據(jù)集,其中,每組數(shù)據(jù)中包含在同一時(shí)刻采集的所述N維 特征變量對(duì)應(yīng)的數(shù)據(jù),所述M為正整數(shù);
[0035] 相應(yīng)的,所述計(jì)算模塊,具體用于:
[0036] 根據(jù)所述訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)計(jì)算所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性, 以及,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性。
[0037] 在第二方面的第二種可能的實(shí)現(xiàn)方式中,結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方 式,所述M組數(shù)據(jù)還包含評(píng)估數(shù)據(jù)集和測(cè)試數(shù)據(jù)集;
[0038] 相應(yīng)的,所述獲取模塊,具體用于:
[0039] 根據(jù)所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性、所述原始數(shù)據(jù)集中各特征變 量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性、所述評(píng)估數(shù)據(jù)集、以及所述測(cè)試數(shù)據(jù)集獲取分類模 型;
[0040] 根據(jù)所述分類模型獲取所述強(qiáng)相關(guān)特征子集和所述弱相關(guān)特征子集。
[0041] 在第二方面的第三種可能的實(shí)現(xiàn)方式中,結(jié)合第二方面的第二種可能的實(shí)現(xiàn)方 式,所述獲取模塊,具體用于:
[0042] 根據(jù)所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,和,所述原始數(shù)據(jù)集中各特征 變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性建立初始的貝葉斯網(wǎng)絡(luò)模型;其中,所述初始的貝 葉斯網(wǎng)絡(luò)模型包含節(jié)點(diǎn)和有向邊,所述節(jié)點(diǎn)表示特征變量,所述有向邊表示與所述有向邊 連接的兩個(gè)節(jié)點(diǎn)之間的相關(guān)性;
[0043] 利用所述評(píng)估數(shù)據(jù)集迭代訓(xùn)練所述初始的貝葉斯網(wǎng)絡(luò)模型,獲得穩(wěn)定的貝葉斯網(wǎng) 絡(luò)模型;其中,所述穩(wěn)定的貝葉斯網(wǎng)絡(luò)為包含不可逆的有向邊的貝葉斯網(wǎng)絡(luò)模型;
[0044] 利用所述測(cè)試數(shù)據(jù)集測(cè)試所述穩(wěn)定的貝葉斯網(wǎng)絡(luò)模型,若所述穩(wěn)定的貝葉斯網(wǎng)絡(luò) 模型的拓?fù)浣Y(jié)構(gòu)保持不變,則將所述穩(wěn)定的貝葉斯網(wǎng)絡(luò)模型確定為分類模型。
[0045] 在第二方面的第四種可能的實(shí)現(xiàn)方式中,結(jié)合第二方面至第二方面的第三種可能 的實(shí)現(xiàn)方式中的任一種實(shí)現(xiàn)方式,所述確定模塊,具體用于:
[0046] 在所述弱相關(guān)特征子集中,選擇第一特征變量,將所述第一特征變量加入當(dāng)前預(yù) 測(cè)模型,判斷加入所述第一特征變量后的所述當(dāng)前預(yù)測(cè)模型的預(yù)測(cè)精度是否大于所述當(dāng)前 預(yù)測(cè)模型的預(yù)測(cè)精度,其中,所述第一特征變量為所述弱相關(guān)特征子集中,與所述預(yù)測(cè)目標(biāo) 特征變量的相關(guān)性最大的特征變量,所述當(dāng)前預(yù)測(cè)模型為初始預(yù)測(cè)模型或更新后的所述初 始預(yù)測(cè)模型,所述初始預(yù)測(cè)模型為以所述強(qiáng)相關(guān)特征子集中的特征變量為輸入端建立的預(yù) 測(cè)模型;
[0047] 若是,則更新所述當(dāng)前預(yù)測(cè)模型,并將所述第一特征變量從所述弱相關(guān)特征子集 中刪除,加入第一集合;
[0048] 若否,則不更新所述當(dāng)前預(yù)測(cè)模型,并將所述第一特征變量從所述弱相關(guān)特征子 集中刪除;
[0049] 重復(fù)上述過(guò)程,直至所述弱相關(guān)特征子集中不存在特征變量;
[0050] 將所述強(qiáng)相關(guān)特征子集中的特征變量和所述第一集合中的特征變量的集合確定 為所述預(yù)測(cè)目標(biāo)特征變量的最優(yōu)特征子集。
[0051] 在第二方面的第五種可能的實(shí)現(xiàn)方式中,結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方 式,所述預(yù)測(cè)模型為神經(jīng)網(wǎng)絡(luò)模型;
[0052] 相應(yīng)的,所述確定模塊,具體用于:
[0053] 以強(qiáng)相關(guān)特征子集中包含的