亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

特征選擇方法及系統(tǒng)的制作方法

文檔序號:9433141閱讀:500來源:國知局
特征選擇方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機器學(xué)習(xí)領(lǐng)域,尤其涉及一種特征選擇方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著信息科技的迅速發(fā)展,數(shù)據(jù)越來越多,信息泛濫,實際的數(shù)據(jù)中往往包含著很 多冗余信息。因此在具體行業(yè)中,通常是在用某個數(shù)據(jù)之前,需要對該數(shù)據(jù)進行預(yù)處理,去 除包含的冗余信息進行分類決策,具體流程請參見圖1。特征選擇是一種重要的數(shù)據(jù)預(yù)處理 方法。特征選擇是指從高維特征集合中根據(jù)某種評估標(biāo)準(zhǔn)選擇輸出性能最優(yōu)的特征子集, 其目的是尋求保持?jǐn)?shù)據(jù)集感興趣特性的低維數(shù)據(jù)集合。通過對低維數(shù)據(jù)的分析來獲得相應(yīng) 的高維數(shù)據(jù)特性,從而達(dá)到簡化分析、獲取數(shù)據(jù)有效特征以及可視化數(shù)據(jù)的目標(biāo)。
[0003] 現(xiàn)有的 Relief 算法是一種特征權(quán)重算法(Feature weighting algorithms), 根據(jù)各個特征和類別的相關(guān)性賦予特征不同的權(quán)重,權(quán)重小于某個閾值的特征將被移除。 Relief算法中特征和類別的相關(guān)性是基于特征對近距離樣本的區(qū)分能力。Relief系列算 法運行效率高,對數(shù)據(jù)類型沒有限制,算法會賦予所有和類別相關(guān)性高的特征較高的權(quán)重, 所以算法的局限性在于不能有效的去除冗余特征,不能保證選擇出的特征集具有高分類精 度。

【發(fā)明內(nèi)容】

[0004] 基于此,有必要提供一種能夠保證選擇出的特征集具有高分類精度的特征選擇方 法及系統(tǒng)。
[0005] -種特征選擇方法,包括步驟:
[0006] 獲取初始特征信息及決策特征信息;所述初始特征信息包括初始特征集,所述決 策特征信息包括決策特征集;
[0007] 根據(jù)所述初始特征信息及所述決策特征信息確定所述初始特征集的每個特征子 集與決策特征集的互信息;
[0008] 將所述特征子集中與決策特征集具有最大互信息的特征子集作為待選特征集,并 根據(jù)已選特征集與待選特征集確定待選相關(guān)熵;
[0009] 根據(jù)所述待選相關(guān)熵是否大于所述已選特征集的已選相關(guān)熵,確定是否將所述待 選特征集中的特征放入到所述已選特征集中。
[0010] -種特征選擇系統(tǒng),包括:
[0011] 獲取模塊,用于獲取初始特征信息及決策特征信息;所述初始特征信息包括初始 特征集,所述決策特征信息包括決策特征集;
[0012] 互信息確定模塊,用于根據(jù)所述初始特征信息及所述決策特征信息確定所述初始 特征集的每個特征子集與決策特征集的互信息;
[0013] 相關(guān)熵確定模塊,用于將所述特征子集中與決策特征集具有最大互信息的特征子 集作為待選特征集,并根據(jù)已選特征集與待選特征集確定待選相關(guān)熵;
[0014] 特征選擇模塊,用于根據(jù)所述待選相關(guān)熵是否大于所述已選特征集的已選相關(guān) 熵,確定是否將所述待選特征集中的特征放入到所述已選特征集中。
[0015] 上述特征選擇方法及系統(tǒng)選擇與決策特征集具有最大互信息的特征子集作為待 選特征集,以保證選擇出的特征集具有高區(qū)分能力。根據(jù)待選相關(guān)熵是否大于已選特征集 的已選相關(guān)熵,確定是否將待選特征集中的特征放入到已選特征集中,如此可以在保證具 有高區(qū)分能力的同時保證冗余度小,以確保選擇出的特征集具有高分類精度。
【附圖說明】
[0016] 圖1為數(shù)據(jù)進行預(yù)處理的流程圖;
[0017] 圖2為一種實施方式的特征選擇方法的流程圖;
[0018] 圖3為圖2中一個步驟的具體流程圖;
[0019] 圖4為一種實施方式的特征選擇系統(tǒng)的結(jié)構(gòu)圖;
[0020] 圖5為圖4中一個模塊的具體結(jié)構(gòu)圖。
【具體實施方式】
[0021] 為了便于理解本發(fā)明,下面將參照相關(guān)附圖對本發(fā)明進行更全面的描述。附圖中 給出了本發(fā)明的較佳的實施例。但是,本發(fā)明可以以許多不同的形式來實現(xiàn),并不限于本文 所描述的實施例。相反地,提供這些實施例的目的是使對本發(fā)明的公開內(nèi)容的理解更加透 徹全面。
[0022] 除非另有定義,本文所使用的所有的技術(shù)和科學(xué)術(shù)語與屬于本發(fā)明的技術(shù)領(lǐng)域的 技術(shù)人員通常理解的含義相同。本文中在本發(fā)明的說明書中所使用的術(shù)語只是為了描述具 體的實施例的目的,不是旨在于限制本發(fā)明。本文所使用的術(shù)語"或/和"包括一個或多個 相關(guān)的所列項目的任意的和所有的組合。
[0023] 如圖2所示,一種實施方式的特征選擇方法,包括步驟:
[0024] SllO :獲取初始特征信息及決策特征信息。所述初始特征信息包括初始特征集,所 述決策特征信息包括決策特征集。
[0025] 所述初始特征信息還包括初始特征集(用C表示)與決策特征集(用D表示)所 屬的論域(用U表示)、各個特征的值的集合(用V表示)及映射函數(shù)(用f表示);其中, 映射函數(shù)是V關(guān)于U和C U D的函數(shù),可以表示為f:UXR - V,R = C U D。
[0026] 決策特征集可以包括一個決策特征,如d ;也可以包括多個決策特征,如山,d2, d3,…,dn 〇
[0027] 初始特征信息沒有數(shù)據(jù)類別的要求,能同時處理離散數(shù)據(jù)、連續(xù)數(shù)據(jù)和模糊數(shù)據(jù) 等信息。
[0028] S130 :根據(jù)所述初始特征信息及所述決策特征信息確定所述初始特征集的每個特 征子集與決策特征集的互信息。
[0029] 初始特征集的特征子集用Cj來表示,則當(dāng)初始特征集有k個特征時,特征子集的 個數(shù)為2k,即j的取值范圍為1至2k的自然數(shù)。
[0030] 在其中一個實施例中,根據(jù)初始特征信息及決策特征信息可以確定初始特征集的 每個特征子集與決策特征集的互信息I (Cj;D)。具體地,可以根據(jù)互信息的定義公式確定初 始特征集的每個特征子集與決策特征集的互信息I (C];D)。在本實施例中,
[0032] 其中,[Xl]C,[X JD為C jP D生成的包含X i的模糊等價類。
[0033] 在另一個實施例中,所述特征子集與決策特征集的互信息為特征子集與已選特征 集的并集中的每個特征與所述決策特征集的互信息的平均值。如此,使確定的特征子集與 決策特征集的互信息更可靠。
[0034] 具體地,請參閱圖3,在本實施例中,步驟S130具體包括:
[0035] S131 :根據(jù)所述初始特征集確定所述特征子集。
[0036] 當(dāng)初始特征集有k個特征時,可以確定2k個特征子集C p C2,…,Cj,…,C2k。其 中,k和j均為自然數(shù),且1彡j彡2k。
[0037] S133 :根據(jù)初始特征信息及決策特征信息確定所述特征子集與所述已選特征集的 并集中的每個特征與所述決策特征集的互信息。
[0038] 已選特征集用S表示,初始化時S為空集。設(shè)a i e C j U S,其中,a i為特征子集 與所述已選特征集的并集中的一個特征??梢愿鶕?jù)互信息的定義公式確定每個特征子集與 所述已選特征集的并集中的每個特征與所述決策特征集的互信息I ( a 1;D)。
[0039] S135:根據(jù)所述特征子集與所述已選特征集的并集中的每個特征與所述決策特征 集的互信息確定所述特征子集與所述決策特征集的互信息。
[0040] 在本實施例中,根據(jù)特征子集與已選特征集的并集中的每個特征與所述決策特征 集的互信息的平均值來確定特征子集與決策特征集的互信息,具體為:
[0042] S150:將所述特征子集中與決策特征集具有最大互信息的特征子集作為待選特征 集,并根據(jù)已選特征集與待選特征集確定待選相關(guān)熵。
[0043] 待選特征集用M表示,則M等于與決策特征集的互信息I (Cj;D)的值最大的特征 子集。
[0044] 盡管與決策特征集相關(guān)性越高的特征區(qū)分能力越強,但由于所選特征之間存在相 互交叉冗余,往往選擇的最相關(guān)的特征子集在構(gòu)建分類器時是次優(yōu)解,只能保證具有高區(qū) 分能力,而不能保證選擇出的特征集具有高分類精度。這是由于其分類精度未必比相關(guān)性 相對較弱的特征子集高。因此必須同時考慮特征之間的冗余性或獨立性,使所選擇的特征 子集不僅具有較強的相關(guān)性,而且要保證特征間的冗余度最小,才能選擇出具有高分類精 度的特征集。本發(fā)明采用相關(guān)熵來度量特征集的獨立性。
[0045] 在其中一個實施例中,根據(jù)相關(guān)熵的定義公式
來確 定待選相關(guān)熵。在本實施例中,A1代表所述已選特征集與所述待選特征集的并集的關(guān)系矩 陣的第i個特征值;N為已選特征集與待選特征集的并集的特征個數(shù)。
[0046] S170:根據(jù)所述待選相關(guān)熵是否大于所述已選特征集的已選相關(guān)熵,確定是否將 所述待選特征集中的特征放入到所述已選特征集中。
[0047] 相關(guān)熵越大,則特征集的相關(guān)性越小,也即獨立性越大;反之,則相反。如果所有特 征線性相關(guān),則相關(guān)熵為0 ;如果所有特征均相互獨立,則相關(guān)熵為1。因此,可以通過所述 待選相關(guān)熵是否大于所述已選特征集的已選相關(guān)熵,確定是否將所述待選特征集中的特征 放入到所述已選特征集中。
[0048] 在其中一個實施例中,當(dāng)所述待選相關(guān)熵大于所述已選相關(guān)熵時,將所述待選特 征集中的特征放入到所述已選特征集中,并從所述初始特征集中刪除。即S = S+M,C = C-M。
[0049] 當(dāng)所述待選相關(guān)熵不大于所述已選相關(guān)熵時,將所述待選特征集中的特征從所述 初始特征集中刪除。即C = C-M。
[0050] 請繼續(xù)參照圖1,在其中一個實施例中,所述特征選擇方法還包括步驟:
[0051] S180:重復(fù)所述確定待選相關(guān)熵的步驟及所述確定是否將所述待選特征集中的特 征放入到所述已選特征集中的步驟,直至所述初始特征為空。
[0052] 上述特征選擇方法,選擇與決策特征集具有最大互信息的特征子集作為待選特征 集,以保證選擇出的特征集具有高區(qū)分能力。根據(jù)待選相關(guān)熵是否大于所述已選特征集的 已選相關(guān)熵,確定是否將待選特征集中的特征放入到所述已選特征集中,如此可以在保證 具有高區(qū)分能力的同時保證冗余度小,以確保選擇出的特征集具有高分類精度。
[0053] 如圖4所示,一種實施方式的特征選擇系統(tǒng),包括:
[0054] 獲取模塊110,用于獲取初始特征信息及決策特征信息。所述初始特征信息包括初 始特征集,所述決策特征信息包括決策特征集。
[0055] 所述初始特征信息還包括初始特征集(用C表示)與決策特征集(用D表示)所 屬的論域(用U表示)、各個特征的值的集合(用V表示)及映射函數(shù)(用f表示);其中, 映射函數(shù)是V關(guān)于U和C U D的函數(shù),可以表示為f:UXR - V,R = C U D。
[0056] 決策特征集可以包括一個決策特征,如d ;也可以包括多個決策特征,如山,d2, d3,…
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1