的所述當(dāng)前預(yù)測(cè)模型的預(yù)測(cè)精度是否大于所述當(dāng)前 預(yù)測(cè)模型的預(yù)測(cè)精度,其中,所述第一特征變量為所述弱相關(guān)特征子集中,與所述預(yù)測(cè)目標(biāo) 特征變量的相關(guān)性最大的特征變量,所述當(dāng)前預(yù)測(cè)模型的初始值為以所述強(qiáng)相關(guān)特征子集 中的特征變量為輸入端建立預(yù)測(cè)模型;
[0136] 若是,則更新所述當(dāng)前預(yù)測(cè)模型,并將所述第一特征變量從所述弱相關(guān)特征子集 中刪除,加入第一集合;
[0137] 若否,則不更新所述當(dāng)前預(yù)測(cè)模型,并將所述第一特征變量從所述弱相關(guān)特征子 集中刪除;
[0138] 重復(fù)上述過(guò)程,直至所述弱相關(guān)特征子集中不存在特征變量;
[0139] 將所述強(qiáng)相關(guān)特征子集中的特征變量和所述第一集合中的特征變量的集合確定 為所述預(yù)測(cè)目標(biāo)特征變量的最優(yōu)特征子集。
[0140] 其中,所述更新所述當(dāng)前預(yù)測(cè)模型是指將所述第一特征變量保留在所述預(yù)測(cè)模型 的輸入端,將所述當(dāng)前模型設(shè)置為更新后的預(yù)測(cè)模型。
[0141] 優(yōu)選的,所述預(yù)測(cè)模型為神經(jīng)網(wǎng)絡(luò)模型。
[0142] 本發(fā)明實(shí)施例提供一種特征選擇裝置50,計(jì)算原始數(shù)據(jù)集中各特征變量之間的相 關(guān)性,以及,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性;根據(jù)所述原 始數(shù)據(jù)集中各特征變量之間的相關(guān)性,和,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征 變量之間的相關(guān)性,獲取強(qiáng)相關(guān)特征子集和弱相關(guān)特征子集;將所述強(qiáng)相關(guān)特征子集中包 含的所有特征變量,以及,所述弱相關(guān)特征子集中,與所述強(qiáng)相關(guān)特征子集中的特征變量直 接相關(guān)的特征變量的集合確定為所述預(yù)測(cè)目標(biāo)特征變量的最優(yōu)特征子集。如此,根據(jù)特征 變量之間的相關(guān)性進(jìn)行特征選擇,避免了在高維原始數(shù)據(jù)集中隨機(jī)選擇特征子集造成的運(yùn) 算次數(shù)多,運(yùn)算量大,且確定的最優(yōu)特征子集不準(zhǔn)確的問(wèn)題,提高了高維數(shù)據(jù)特征選擇運(yùn)算 效率和有效性。
[0143] 實(shí)施例三
[0144] 圖6為本發(fā)明實(shí)施例提供的一種特征選擇裝置60的結(jié)構(gòu)圖,如圖6所示,該裝置 可以包括:處理器601、存儲(chǔ)器602、通信單元603,至少一個(gè)通信總線604,用于實(shí)現(xiàn)這些裝 置之間的連接和相互通信;
[0145] 處理器601可能是一個(gè)中央處理器(英文:central processing unit,簡(jiǎn)稱為 CPU);
[0146] 存儲(chǔ)器602,可以是易失性存儲(chǔ)器(英文:volatile memory),例如隨機(jī)存取存儲(chǔ) 器(英文:random_access memory,縮寫:RAM);或者非易失性存儲(chǔ)器(英文:non_volatile memory),例如只讀存儲(chǔ)器(英文:read-〇nly memory,縮寫:ROM),快閃存儲(chǔ)器(英文: flash memory),硬盤(英文:hard disk drive,縮寫:HDD)或固態(tài)硬盤(英文:solid_state drive,縮寫:SSD);或者上述種類的存儲(chǔ)器的組合,并向處理器1101提供指令和數(shù)據(jù);
[0147] 通信單元603,用于與外部網(wǎng)元之間進(jìn)行數(shù)據(jù)傳輸。
[0148] 處理器601,用于計(jì)算原始數(shù)據(jù)集中各特征變量之間,以及,所述原始特征子集中 各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性。
[0149] 其中,所述特征變量是對(duì)過(guò)程、事件和狀態(tài)等實(shí)體某一特征的描述,所述預(yù)測(cè)目標(biāo) 特征變量為預(yù)先設(shè)定的需要根據(jù)多個(gè)特征變量結(jié)合來(lái)描述的"某一現(xiàn)象",是一特定的特征 變量。
[0150] 所述原始數(shù)據(jù)集包含N維特征變量以及M組數(shù)據(jù),所述N和所述M均為正整數(shù);所 述N維特征變量包含N-I維所述特征變量和所述預(yù)測(cè)目標(biāo)特征變量,每組數(shù)據(jù)中包含在同 一時(shí)刻采集的所述N維特征變量對(duì)應(yīng)的數(shù)據(jù);所述預(yù)測(cè)目標(biāo)特征變量根據(jù)N-I維所述特征 變量結(jié)合描述,即在實(shí)際運(yùn)用中,需要確定預(yù)測(cè)目標(biāo)特征變量對(duì)應(yīng)的具體取值時(shí),可以根據(jù) N-I維所述特征變量相對(duì)應(yīng)的數(shù)據(jù),來(lái)共同確定所述預(yù)測(cè)目標(biāo)特征變量的具體取值;需要 說(shuō)明的是,所述預(yù)測(cè)目標(biāo)特征變量可以為N維特征變量中的任一特征變量。
[0151] 例如,原始數(shù)據(jù)集中包含天氣、溫度、濕度、氣壓、風(fēng)力、降雨量、輻射強(qiáng)度等特征變 量,以及與這些特征變量分別對(duì)應(yīng)的測(cè)量數(shù)據(jù);若將天氣這一特征變量作為預(yù)測(cè)目標(biāo)特征 變量,則可以根據(jù)溫度、濕度、氣壓、風(fēng)力、降雨量、輻射強(qiáng)度等特征變量的結(jié)合來(lái)描述天氣 的具體情況,也可以將溫度這一特征變量作為預(yù)測(cè)目標(biāo)特征變量,根據(jù)天氣、濕度、氣壓、風(fēng) 力、降雨量、輻射強(qiáng)度等特征變量的結(jié)合來(lái)描述溫度的具體情況。
[0152] 優(yōu)選的,所述原始數(shù)據(jù)集為高維數(shù)據(jù),可以通過(guò)一段時(shí)間的實(shí)時(shí)采集獲取,也可以 從預(yù)先存儲(chǔ)有所述原始數(shù)據(jù)集的數(shù)據(jù)庫(kù)中讀取。
[0153] 所述處理器601,還用于根據(jù)所述計(jì)算模塊計(jì)算出的所述原始數(shù)據(jù)集中各特征變 量之間的相關(guān)性,和,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性,獲 取強(qiáng)相關(guān)特征子集和弱相關(guān)特征子集。
[0154] 其中,所述強(qiáng)相關(guān)子集中包含的特征變量為所述原始數(shù)據(jù)集中,與所述預(yù)測(cè)目標(biāo) 特征變量直接相關(guān)的特征變量;所述弱相關(guān)子集中包含的特征變量為所述原始數(shù)據(jù)集中, 與所述預(yù)測(cè)目標(biāo)特征變量間接相關(guān)的特征變量。
[0155] 所述處理器601,還用于將所述獲取模塊獲取的所述強(qiáng)相關(guān)特征子集中包含的所 有特征變量,以及,所述弱相關(guān)特征子集中,與所述強(qiáng)相關(guān)特征子集中的特征變量直接相關(guān) 的特征變量的集合確定為所述預(yù)測(cè)目標(biāo)特征變量的最優(yōu)特征子集。
[0156] 由于,所述原始數(shù)據(jù)集中包含的組數(shù)比較多,此時(shí),若根據(jù)所述原始數(shù)據(jù)集中全部 組對(duì)應(yīng)的數(shù)據(jù)計(jì)算所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,以及,所述原始數(shù)據(jù)集中 各特征變量與預(yù)測(cè)目標(biāo)特征變量相關(guān)性,則計(jì)算量很大,運(yùn)算復(fù)雜,所以,進(jìn)一步的,可以取 M組數(shù)據(jù)中的M1組數(shù)據(jù)組成訓(xùn)練數(shù)據(jù)集,其中,M1小于M ;所述處理器601,具體用于:
[0157] 根據(jù)所述訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)計(jì)算所述原始特征集中各特征變量之間的相關(guān)性, 以及,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征之間的相關(guān)性。
[0158] 優(yōu)選的,可以通過(guò)卡方檢驗(yàn),假設(shè)檢驗(yàn)等統(tǒng)計(jì)學(xué)算法,以及,專家經(jīng)驗(yàn)計(jì)算出所述 原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,以及,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo) 特征變量之間的相關(guān)性。
[0159] 由于,所述處理器601是根據(jù)原始數(shù)據(jù)集的部分?jǐn)?shù)據(jù)來(lái)計(jì)算所述原始數(shù)據(jù)集中各 特征變量之間的相關(guān)性,以及,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的 相關(guān)性,可能不能很準(zhǔn)確的反映出原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,以及,所述原始 數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性;并且第一預(yù)設(shè)閾值和第二預(yù)設(shè)閾 值的具體取值很難確定,此時(shí),所述處理器601直接根據(jù)處理器601計(jì)算出來(lái)的各特征變量 之間的相關(guān)性,和,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性,進(jìn)行 特征子集分類,獲取強(qiáng)相關(guān)特征子集和弱相關(guān)特征子集也可能是不準(zhǔn)確的。所以,進(jìn)一步 的,可以取M組數(shù)據(jù)中的M 2組數(shù)據(jù)組成評(píng)估數(shù)據(jù)集,M3組數(shù)據(jù)組成測(cè)試數(shù)據(jù)集;所述處理器 601,具體用于:
[0160] 根據(jù)所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性、所述原始數(shù)據(jù)集中各特征變 量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性、所述評(píng)估數(shù)據(jù)集、以及所述測(cè)試數(shù)據(jù)集獲取分類模 型;
[0161] 根據(jù)所述分類模型獲取所述強(qiáng)相關(guān)特征子集和所述弱相關(guān)特征子集。
[0162] 優(yōu)選的,所述分類模型可以為貝葉斯網(wǎng)絡(luò)模型;
[0163] 相應(yīng)的,所述處理器601,具體用于:
[0164] 根據(jù)所述原始數(shù)據(jù)集中各特征變量之間的相關(guān)性,和,所述原始數(shù)據(jù)集中各特征 變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性建立初始的貝葉斯網(wǎng)絡(luò)模型;其中,所述貝葉斯網(wǎng) 絡(luò)模型為一個(gè)有向無(wú)環(huán)圖(英文!Directed Acyclic Graph,簡(jiǎn)稱:DAG),包含節(jié)點(diǎn)和有 向邊,所述節(jié)點(diǎn)表示特征變量,所述有向邊表示與所述有向邊連接的兩個(gè)節(jié)點(diǎn)之間的相關(guān) 性;
[0165] 利用所述評(píng)估數(shù)據(jù)集迭代訓(xùn)練所述初始的貝葉斯網(wǎng)絡(luò)模型,獲得穩(wěn)定的貝葉斯網(wǎng) 絡(luò)模型;其中,所述穩(wěn)定的貝葉斯網(wǎng)絡(luò)為包含不可逆的有向邊的貝葉斯網(wǎng)絡(luò)模型;
[0166] 利用所述測(cè)試數(shù)據(jù)集測(cè)試所述穩(wěn)定的貝葉斯網(wǎng)絡(luò)模型,若所述穩(wěn)定的貝葉斯網(wǎng)絡(luò) 模型的拓?fù)浣Y(jié)構(gòu)保持不變,則將所述穩(wěn)定的貝葉斯模型確定為所述分類模型;
[0167] 將所述貝葉斯網(wǎng)絡(luò)模型的馬爾科夫毯內(nèi)包含的節(jié)點(diǎn)對(duì)應(yīng)的特征變量的集合作為 強(qiáng)相關(guān)特征子集;
[0168] 將所述貝葉斯網(wǎng)絡(luò)模型中通過(guò)至少兩條有向邊到達(dá)目標(biāo)節(jié)點(diǎn),且但不包含在馬爾 科夫毯內(nèi)的節(jié)點(diǎn)對(duì)應(yīng)的特征變量的集合作為弱相關(guān)特征子集,其中,所述目標(biāo)節(jié)點(diǎn)為與所 述預(yù)測(cè)目標(biāo)特征變量對(duì)應(yīng)的節(jié)點(diǎn);
[0169] 將所述貝葉斯網(wǎng)絡(luò)模型中不能通過(guò)任一條有向邊到達(dá)目標(biāo)節(jié)點(diǎn)的節(jié)點(diǎn)所對(duì)應(yīng)的 集合作為不相關(guān)特征子集。
[0170] 其中,所述貝葉斯網(wǎng)絡(luò)模型的馬爾科夫毯(Markov blanket)由所述目標(biāo)節(jié)點(diǎn)的母 節(jié)點(diǎn),所述目標(biāo)節(jié)點(diǎn)的子節(jié)點(diǎn),以及,所述目標(biāo)節(jié)點(diǎn)的配偶節(jié)點(diǎn)組成;所述目標(biāo)節(jié)點(diǎn)的母節(jié) 點(diǎn)為直接對(duì)所述目標(biāo)有影響的節(jié)點(diǎn);所述目標(biāo)節(jié)點(diǎn)的子節(jié)點(diǎn)為所述目標(biāo)節(jié)點(diǎn)直接影響的節(jié) 點(diǎn);所述目標(biāo)節(jié)點(diǎn)的配偶節(jié)點(diǎn)為與所述目標(biāo)節(jié)點(diǎn)至少有一個(gè)共同的母節(jié)點(diǎn)或一個(gè)共同的子 節(jié)點(diǎn)的節(jié)點(diǎn)。
[0171] 由于,處理器601獲取的強(qiáng)相關(guān)特征子集包含的特征變量為與預(yù)測(cè)目標(biāo)特征變量 有直接影響的特征變量,弱相關(guān)特征子集中包含的特征變量可能與預(yù)測(cè)目標(biāo)特征變量有影 響,即弱相關(guān)特征子集包含的特征變量不完全是冗余特征變量,不相關(guān)特征子集包含的特 征變量與預(yù)測(cè)目標(biāo)特征變量沒(méi)有任何的關(guān)系,是冗余特征變量,所以,為了保證最優(yōu)特征子 集的準(zhǔn)確性,進(jìn)一步的,所述處理器601,具體用于:
[0172] 在所述弱相關(guān)特征子集中,選擇第一特征變量,將所述第一特征變量加入當(dāng)前預(yù) 測(cè)模型,判斷加入所述第一特征變量后的所述當(dāng)前預(yù)測(cè)模型的預(yù)測(cè)精度是否大于所述當(dāng)前 預(yù)測(cè)模型的預(yù)測(cè)精度,其中,所述第一特征變量為所述弱相關(guān)特征子集中,與所述預(yù)測(cè)目標(biāo) 特征變量的相關(guān)性最大的特征變量,所述當(dāng)前預(yù)測(cè)模型的初始值為以所述強(qiáng)相關(guān)特征子集 中的特征變量為輸入端建立預(yù)測(cè)模型;
[0173] 若是,則更新所述當(dāng)前預(yù)測(cè)模型,并將所述第一特征變量從所述弱相關(guān)特征子集 中刪除,加入第一集合;
[0174] 若否,則不更新所述當(dāng)前預(yù)測(cè)模型,并將所述第一特征變量從所述弱相關(guān)特征子 集中刪除;
[0175] 重復(fù)上述過(guò)程,直至所述弱相關(guān)特征子集中不存在特征變量;
[0176] 將所述強(qiáng)相關(guān)特征子集中的特征變量和所述第一集合中的特征變量的集合確定 為所述預(yù)測(cè)目標(biāo)特征變量的最優(yōu)特征子集。
[0177] 其中,所述更新所述當(dāng)前預(yù)測(cè)模型是指將所述第一特征變量保留在所述預(yù)測(cè)模型 的輸入端,將所述當(dāng)前模型設(shè)置為更新后的預(yù)測(cè)模型。
[0178] 優(yōu)選的,所述預(yù)測(cè)模型為神經(jīng)網(wǎng)絡(luò)模型。
[0179] 本發(fā)明實(shí)施例提供一種特征選擇裝置60,計(jì)算原始數(shù)據(jù)集中各特征變量之間的相 關(guān)性,以及,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征變量之間的相關(guān)性;根據(jù)所述原 始數(shù)據(jù)集中各特征變量之間的相關(guān)性,和,所述原始數(shù)據(jù)集中各特征變量與預(yù)測(cè)目標(biāo)特征 變量之間的相關(guān)性,獲取強(qiáng)相關(guān)特征子集和弱相關(guān)特征子集;將所述強(qiáng)相關(guān)特征子集中包 含的所有特征變量,以及,所述弱相關(guān)特征子集中,與所述強(qiáng)相關(guān)特征子集中的特征變量直 接相關(guān)的特征變量的集合確定為所述預(yù)測(cè)目標(biāo)特征變量的最優(yōu)特征子集。如此,根據(jù)特征 變量之間的相關(guān)性進(jìn)行特征選擇,避免了在高維原始數(shù)據(jù)集中隨機(jī)選擇特征子集造成的運(yùn) 算次數(shù)多,運(yùn)算量大,且確定的最優(yōu)特征子集不準(zhǔn)確的問(wèn)題,提高了高維數(shù)據(jù)特征選擇