,dn 〇
[0057] 初始特征信息沒有數(shù)據(jù)類別的要求,能同時處理離散數(shù)據(jù)、連續(xù)數(shù)據(jù)和模糊數(shù)據(jù) 等信息。
[0058] 互信息確定模塊130,用于根據(jù)所述初始特征信息及所述決策特征信息確定所述 初始特征集的每個特征子集與決策特征集的互信息。
[0059] 初始特征集的特征子集用Cj來表示,則當(dāng)初始特征集有k個特征時,特征子集的 個數(shù)為2k,即j的取值范圍為1至2k的自然數(shù)。
[0060] 在其中一個實施例中,根據(jù)初始特征信息及決策特征信息可以確定初始特征集的 每個特征子集與決策特征集的互信息I (Cj;D)。具體地,可以根據(jù)互信息的定義公式確定初 始特征集的每個特征子集與決策特征集的互信息I (C];D)。在本實施例中,
[0062] 其中,[Xl]C,[X JD為C jP D生成的包含X i的模糊等價類。
[0063] 在另一個實施例中,所述特征子集與決策特征集的互信息為特征子集與已選特征 集的并集中的每個特征與所述決策特征集的互信息的平均值。如此,使確定的特征子集與 決策特征集的互信息更可靠。
[0064] 具體地,請參閱圖5,在本實施例中,互信息確定模塊130具體包括:
[0065] 特征子集確定單元131,用于根據(jù)所述初始特征集確定所述特征子集。
[0066] 當(dāng)初始特征集有k個特征時,可以確定2k個特征子集C p C2,…,Cj,…,C2k。其 中,k和j均為自然數(shù),且1彡j彡2k。
[0067] 第一互信息確定單元133,用于根據(jù)初始特征信息及決策特征信息確定所述特征 子集與所述已選特征集的并集中的每個特征與所述決策特征集的互信息。
[0068] 已選特征集用S表示,初始化時S為空集。設(shè)a i e C j U S,其中,a i為特征子集 與所述已選特征集的并集中的一個特征??梢愿鶕?jù)互信息的定義公式確定每個特征子集與 所述已選特征集的并集中的每個特征與所述決策特征集的互信息I ( a 1;D)。
[0069] 第二互信息確定單元135,用于根據(jù)所述特征子集與所述已選特征集的并集中的 每個特征與所述決策特征集的互信息確定所述特征子集與所述決策特征集的互信息。
[0070] 在本實施例中,根據(jù)特征子集與已選特征集的并集中的每個特征與所述決策特征 集的互信息的平均值來確定特征子集與決策特征集的互信息,具體為:
[0072] 相關(guān)熵確定模塊150,用于將所述特征子集中與決策特征集具有最大互信息的特 征子集作為待選特征集,并根據(jù)已選特征集與待選特征集確定待選相關(guān)熵。
[0073] 待選特征集用M表示,則M等于與決策特征集的互信息I (Cj;D)的值最大的特征 子集。
[0074] 盡管與決策特征集相關(guān)性越高的特征區(qū)分能力越強(qiáng),但由于所選特征之間存在相 互交叉冗余,往往選擇的最相關(guān)的特征子集在構(gòu)建分類器時是次優(yōu)解,只能保證具有高區(qū) 分能力,而不能保證選擇出的特征集具有高分類精度。這是由于其分類精度未必比相關(guān)性 相對較弱的特征子集高。因此必須同時考慮特征之間的冗余性或獨立性,使所選擇的特征 子集不僅具有較強(qiáng)的相關(guān)性,而且要保證特征間的冗余度最小,才能選擇出具有高分類精 度的特征集。本發(fā)明采用相關(guān)熵來度量特征集的獨立性。
[0075] 在其中一個實施例中,根據(jù)相關(guān)熵的定義公式
來確 定待選相關(guān)熵。在本實施例中,A1代表所述已選特征集與所述待選特征集的并集的關(guān)系矩 陣的第i個特征值;N為已選特征集與待選特征集的并集的特征個數(shù)。
[0076] 特征選擇模塊170,用于根據(jù)所述待選相關(guān)熵是否大于所述已選特征集的已選相 關(guān)熵,確定是否將所述待選特征集中的特征放入到所述已選特征集中。
[0077] 相關(guān)熵越大,則特征集的相關(guān)性越小,也即獨立性越大;反之,則相反。如果所有特 征線性相關(guān),則相關(guān)熵為0 ;如果所有特征均相互獨立,則相關(guān)熵為1。因此,可以通過所述 待選相關(guān)熵是否大于所述已選特征集的已選相關(guān)熵,確定是否將所述待選特征集中的特征 放入到所述已選特征集中。
[0078] 在其中一個實施例中,當(dāng)所述待選相關(guān)熵大于所述已選相關(guān)熵時,將所述待選特 征集中的特征放入到所述已選特征集中,并從所述初始特征集中刪除。即S = S+M,C = C-M。
[0079] 當(dāng)所述待選相關(guān)熵不大于所述已選相關(guān)熵時,將所述待選特征集中的特征從所述 初始特征集中刪除。即C = C-M。
[0080] 請繼續(xù)參照圖4,在其中一個實施例中,所述特征選擇系統(tǒng)還包括:
[0081] 循環(huán)模塊180,用于重復(fù)調(diào)用所述相關(guān)熵確定模塊150及所述特征選擇模塊170, 直至所述初始特征為空。
[0082] 上述特征選擇系統(tǒng),相關(guān)熵確定模塊150選擇與決策特征集具有最大互信息的特 征子集作為待選特征集,以保證選擇出的特征集具有高區(qū)分能力。特征選擇模塊170根據(jù) 待選相關(guān)熵是否大于所述已選特征集的已選相關(guān)熵,確定是否將待選特征集中的特征放入 到所述已選特征集中,如此可以在保證具有高區(qū)分能力的同時保證冗余度小,以確保選擇 出的特征集具有高分類精度。
[0083] 以上實施例僅表達(dá)了本發(fā)明的幾種實施方式,其描述較為具體和詳細(xì),但并不能 因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說, 在不脫離本發(fā)明構(gòu)思的前提下,還可以做出多個變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范 圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【主權(quán)項】
1. 一種特征選擇方法,其特征在于,包括步驟: 獲取初始特征信息及決策特征信息;所述初始特征信息包括初始特征集,所述決策特 征信息包括決策特征集; 根據(jù)所述初始特征信息及所述決策特征信息確定所述初始特征集的每個特征子集與 決策特征集的互信息; 將所述特征子集中與決策特征集具有最大互信息的特征子集作為待選特征集,并根據(jù) 已選特征集與待選特征集確定待選相關(guān)熵; 根據(jù)所述待選相關(guān)熵是否大于所述已選特征集的已選相關(guān)熵,確定是否將所述待選特 征集中的特征放入到所述已選特征集中。2. 根據(jù)權(quán)利要求1所述的特征選擇方法,其特征在于,所述特征子集與決策特征集的 互信息為特征子集與已選特征集的并集中的每個特征與所述決策特征集的互信息的平均 值。3. 根據(jù)權(quán)利要求2所述的特征選擇方法,其特征在于,所述確定互信息的步驟具體為: 根據(jù)所述初始特征集確定所述特征子集; 根據(jù)初始特征信息及決策特征信息確定所述特征子集與所述已選特征集的并集中的 每個特征與所述決策特征集的互信息; 根據(jù)所述特征子集與所述已選特征集的并集中的每個特征與所述決策特征集的互信 息確定所述特征子集與所述決策特征集的互信息。4. 根據(jù)權(quán)利要求1所述的特征選擇方法,其特征在于, 所述確定是否將所述待選特征集中的特征放入到所述已選特征集中的步驟具體為: 當(dāng)所述待選相關(guān)熵大于所述已選相關(guān)熵時,將所述待選特征集中的特征放入到所述已 選特征集中,并從所述初始特征集中刪除; 當(dāng)所述待選相關(guān)熵不大于所述已選相關(guān)熵時,將所述待選特征集中的特征從所述初始 特征集中刪除; 所述特征選擇方法還包括步驟: 重復(fù)所述確定待選相關(guān)熵的步驟及所述確定是否將所述待選特征集中的特征放入到 所述已選特征集中的步驟,直至所述初始特征為空。5. 根據(jù)權(quán)利要求1所述的特征選擇方法,其特征在于,所述確定待選相關(guān)熵的步驟具 體為:根據(jù)相關(guān)熵的定義公式確定待選相關(guān)熵;其中,λ 表所述已選特征集與所述待選特征集的并集的關(guān)系矩陣的第i個特征值;N為已選特征集 與待選特征集的并集的特征個數(shù)。6. -種特征選擇系統(tǒng),其特征在于,包括: 獲取模塊,用于獲取初始特征信息及決策特征信息;所述初始特征信息包括初始特征 集,所述決策特征信息包括決策特征集; 互信息確定模塊,用于根據(jù)所述初始特征信息及所述決策特征信息確定所述初始特征 集的每個特征子集與決策特征集的互信息; 相關(guān)熵確定模塊,用于將所述特征子集中與決策特征集具有最大互信息的特征子集作 為待選特征集,并根據(jù)已選特征集與待選特征集確定待選相關(guān)熵; 特征選擇模塊,用于根據(jù)所述待選相關(guān)熵是否大于所述已選特征集的已選相關(guān)熵,確 定是否將所述待選特征集中的特征放入到所述已選特征集中。7. 根據(jù)權(quán)利要求6所述的特征選擇系統(tǒng),其特征在于,所述特征子集與決策特征集的 互信息為特征子集與已選特征集的并集中的每個特征與所述決策特征集的互信息的平均 值。8. 根據(jù)權(quán)利要求7所述的特征選擇系統(tǒng),其特征在于,所述互信息確定模塊具體包括: 特征子集確定單元,用于根據(jù)所述初始特征集確定所述特征子集; 第一互信息確定單元,用于根據(jù)初始特征信息及決策特征信息確定所述特征子集與所 述已選特征集的并集中的每個特征與所述決策特征集的互信息; 第二互信息確定單元,用于根據(jù)所述特征子集與所述已選特征集的并集中的每個特征 與所述決策特征集的互信息確定所述特征子集與所述決策特征集的互信息; 所述特征選擇系統(tǒng)還包括: 循環(huán)模塊,用于重復(fù)調(diào)用所述相關(guān)熵確定模塊及所述特征選擇模塊,直至所述初始特 征為空。9. 根據(jù)權(quán)利要求6所述的特征選擇系統(tǒng),其特征在于,所述特征選擇模塊具體包括: 特征選擇單元,用于當(dāng)所述待選相關(guān)熵大于所述已選相關(guān)熵時,將所述待選特征集中 的特征放入到所述已選特征集中,并從所述初始特征集中刪除; 特征刪除單元,用于當(dāng)所述待選相關(guān)熵不大于所述已選相關(guān)熵時,將所述待選特征集 中的特征從所述初始特征集中刪除。10. 根據(jù)權(quán)利要求6所述的特征選擇系統(tǒng),其特征在于,所述相關(guān)熵確定模塊還用于根 據(jù)相關(guān)熵的定義公式:確定待選相關(guān)熵;其中,λ ;代表所述已 選特征集與所述待選特征集的并集的關(guān)系矩陣的第i個特征值;N為已選特征集與待選特 征集的并集的特征個數(shù)。
【專利摘要】一種特征選擇方法及系統(tǒng),獲取初始特征信息及決策特征信息;根據(jù)初始特征信息及決策特征信息確定初始特征集的每個特征子集與決策特征集的互信息;將特征子集中與決策特征集具有最大互信息的特征子集作為待選特征集;根據(jù)待選相關(guān)熵是否大于已選特征集的已選相關(guān)熵,確定是否將待選特征集中的特征放入到已選特征集中。該方法及系統(tǒng)選擇與決策特征集具有最大互信息的特征子集作為待選特征集,以保證選擇出的特征集具有高區(qū)分能力。根據(jù)待選相關(guān)熵是否大于已選特征集的已選相關(guān)熵,確定是否將待選特征集中的特征放入到已選特征集中,如此可以在保證具有高區(qū)分能力的同時保證冗余度小,以確保選擇出的特征集具有高分類精度。
【IPC分類】G06K9/62
【公開號】CN105184323
【申請?zhí)枴緾N201510586621
【發(fā)明人】徐誠浪
【申請人】廣州唯品會信息科技有限公司
【公開日】2015年12月23日
【申請日】2015年9月15日