一種特征選擇方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種特征選擇方法及裝置。
【背景技術(shù)】
[0002] 當(dāng)前基于大數(shù)據(jù)分析平臺(tái)的應(yīng)用如信息檢索、挖掘用戶的消費(fèi)傾向、消費(fèi)模式等 不斷涌現(xiàn),這些數(shù)據(jù)不但數(shù)目龐大,且描述樣本數(shù)據(jù)的特征維數(shù)高。特征是從樣本數(shù)據(jù)中提 取出的能夠描述樣本數(shù)據(jù)的有用的屬性信息,每個(gè)樣本數(shù)據(jù)都具有很多特征,但未必每個(gè) 特征都對(duì)數(shù)據(jù)的分析有用處,因此需要從大量特征中選擇少量的有效特征。選擇好的特征 不僅可以減小計(jì)算復(fù)雜度,提高預(yù)測(cè)精度,從而減少特征集的特征的個(gè)數(shù),減少系統(tǒng)運(yùn)行的 時(shí)間。
[0003] 現(xiàn)有的特征選擇方法是先構(gòu)造一個(gè)特征集F1,該特征集F1為空集。之后,每次從 特征候選集F2中提取出一個(gè)特征,將該特征放入特征集F1,并利用預(yù)設(shè)的評(píng)估方法對(duì)輸入 了該特征的特征集F1進(jìn)行評(píng)估。若輸入該特征后的特征集F1的評(píng)估結(jié)果優(yōu)于輸入該特征 之前的特征集F1的評(píng)估結(jié)果,則認(rèn)為該特征對(duì)于特征集F1是有用的特征,并更新特征集 F1,反之則將該特征從特征集F1中剔除,重新從特征候選集F2中提取出一個(gè)新的特征并重 復(fù)上述的評(píng)估步驟。
[0004] 然而,由于上述方法的特征集F1的初始狀態(tài)是空集,因此忽略了對(duì)上一周期挑選 的關(guān)鍵特征的保留。關(guān)鍵特征往往是經(jīng)過精挑細(xì)選的特征,一旦放棄意味著需要在特征候 選集的眾多特征中重新尋找關(guān)鍵特征。此外,在評(píng)估所有輸入的特征時(shí)均按照相同的評(píng)估 方法進(jìn)行評(píng)估,而不能對(duì)不同的特征進(jìn)行區(qū)別評(píng)估。因此,采用相同的評(píng)估方法進(jìn)行評(píng)估會(huì) 導(dǎo)致評(píng)估結(jié)果出現(xiàn)較大的誤差。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供一種特征選擇方法及裝置,能實(shí)現(xiàn)特征選擇的最優(yōu)化。
[0006] 本發(fā)明第一方面提供一種特征選擇方法,包括:
[0007] 從樣本數(shù)據(jù)中提取所述樣本數(shù)據(jù)的特征,根據(jù)提取的特征生成特征集;
[0008] 將所述特征集劃分為第一特征子集和第二特征子集,所述第一特征子集包括當(dāng)前 周期的上一周期保留的至少一個(gè)優(yōu)選特征,所述第二特征子集包括至少一個(gè)候選特征;
[0009] 從所述第一特征子集中選取出滿足第一預(yù)設(shè)指標(biāo)的優(yōu)選特征;
[0010] 從所述第二特征子集中選取出滿足第二預(yù)設(shè)指標(biāo)的候選特征;
[0011] 根據(jù)所述滿足第一預(yù)設(shè)指標(biāo)的優(yōu)選特征以及所述滿足第二預(yù)設(shè)指標(biāo)的候選特征 生成第三特征子集。
[0012] 結(jié)合本發(fā)明第一方面的實(shí)現(xiàn)方式,在本發(fā)明第一方面的第一種可能的實(shí)現(xiàn)方式 中,所述生成第三特征子集之前,所述方法還包括:
[0013] 根據(jù)所述第一特征子集內(nèi)優(yōu)選特征的數(shù)量確定所述第三特征子集內(nèi)包括的所述 優(yōu)選特征以及所述候選特征的數(shù)量,其中,生成的所述第三特征子集包括確定數(shù)量的優(yōu)選 特征以及候選特征。
[0014] 結(jié)合本發(fā)明第一方面的實(shí)現(xiàn)方式,在本發(fā)明第一方面的第二種可能的實(shí)現(xiàn)方式 中,所述第一預(yù)設(shè)指標(biāo)為所述優(yōu)選特征的敏感變化率大于或等于預(yù)設(shè)敏感變化率,則所述 從所述第一特征子集中選取出滿足第一預(yù)設(shè)指標(biāo)的優(yōu)選特征,具體包括:
[0015] 計(jì)算所述第一特征子集中的各個(gè)優(yōu)選特征的所述上一周期的敏感性以及所述當(dāng) 前周期的敏感性;
[0016] 根據(jù)所述各個(gè)優(yōu)選特征的所述上一周期的敏感性以及所述當(dāng)前周期的敏感性,得 到所述各個(gè)優(yōu)選特征的敏感變化率;
[0017] 選取出滿足第一預(yù)設(shè)指標(biāo)的第一優(yōu)選特征,所述第一優(yōu)選特征為敏感變化率大于 或等于所述預(yù)設(shè)敏感變化率的優(yōu)選特征。
[0018] 結(jié)合本發(fā)明第一方面的第二種可能的實(shí)現(xiàn)方式,在本發(fā)明第一方面的第三種可能 的實(shí)現(xiàn)方式中,所述選取出滿足第一預(yù)設(shè)指標(biāo)的第一優(yōu)選特征之后,所述方法還包括:
[0019] 根據(jù)所述第一優(yōu)選特征生成第四特征子集。
[0020] 結(jié)合本發(fā)明第一方面的第三種可能的實(shí)現(xiàn)方式,在本發(fā)明第一方面的第四種可能 的實(shí)現(xiàn)方式中,所述第二預(yù)設(shè)指標(biāo)為所述候選特征的當(dāng)前周期的敏感性大于或等于第二優(yōu) 選特征的當(dāng)前周期的敏感性的平均值,所述第二優(yōu)選特征為敏感變化率小于所述預(yù)設(shè)敏感 變化率的優(yōu)選特征,則所述從所述第二特征子集中選取出滿足第二預(yù)設(shè)指標(biāo)的候選特征, 具體包括:
[0021] 確定敏感變化率小于所述預(yù)設(shè)敏感變化率的優(yōu)選特征為所述第二優(yōu)選特征;
[0022] 獲取所述第二優(yōu)選特征的當(dāng)前周期的敏感性;
[0023] 根據(jù)所述第二優(yōu)選特征的當(dāng)前周期的敏感性計(jì)算所述平均值;
[0024] 計(jì)算各個(gè)候選特征的當(dāng)前周期的敏感性;
[0025] 選取出所述當(dāng)前周期的敏感性大于或等于所述平均值的候選特征。
[0026] 結(jié)合本發(fā)明第一方面的第四種可能的實(shí)現(xiàn)方式,在本發(fā)明第一方面的第五種可能 的實(shí)現(xiàn)方式中,所述選取出所述當(dāng)前周期的敏感性大于或等于所述平均值的候選特征之 后,所述方法還包括:
[0027] 根據(jù)所述當(dāng)前周期的敏感性大于或等于所述平均值的候選特征生成第五特征子 集。
[0028] 結(jié)合本發(fā)明第一方面的第五種可能的實(shí)現(xiàn)方式,在本發(fā)明第一方面的第六種可能 的實(shí)現(xiàn)方式中,所述根據(jù)所述滿足第一預(yù)設(shè)指標(biāo)的優(yōu)選特征以及所述滿足第二預(yù)設(shè)指標(biāo)的 候選特征生成第三特征子集,具體包括:
[0029] 根據(jù)所述第四特征子集以及所述第五特征子集生成所述第三特征子集。
[0030] 結(jié)合本發(fā)明第一方面的實(shí)現(xiàn)方式,在本發(fā)明第一方面的第七種可能的實(shí)現(xiàn)方式 中,所述方法還包括:
[0031] 根據(jù)所述第三特征子集包括的所述優(yōu)選特征以及所述候選特征訓(xùn)練分類器,以使 所述分類器根據(jù)所述第三特征子集包括的所述優(yōu)選特征以及所述候選特征識(shí)別所述樣本 數(shù)據(jù)。
[0032] 本發(fā)明第二方面提供一種特征選擇裝置,包括:
[0033] 提取模塊,用于從樣本數(shù)據(jù)中提取所述樣本數(shù)據(jù)的特征,根據(jù)提取的特征生成特 征集;
[0034] 劃分模塊,用于將所述提取模塊生成的特征集劃分為第一特征子集和第二特征子 集,所述第一特征子集包括當(dāng)前周期的上一周期保留的至少一個(gè)優(yōu)選特征,所述第二特征 子集包括至少一個(gè)候選特征;
[0035] 第一選取模塊,用于從所述劃分模塊劃分出的第一特征子集中選取出滿足第一預(yù) 設(shè)指標(biāo)的優(yōu)選特征;
[0036] 第二選取模塊,用于從所述劃分模塊劃分出的第二特征子集中選取出滿足第二預(yù) 設(shè)指標(biāo)的候選特征;
[0037] 第一生成模塊,用于根據(jù)所述第一選取模塊選取的滿足第一預(yù)設(shè)指標(biāo)的優(yōu)選特征 以及所述第二選取模塊選取的滿足第二預(yù)設(shè)指標(biāo)的候選特征生成第三特征子集。
[0038] 結(jié)合本發(fā)明第二方面的實(shí)現(xiàn)方式,在本發(fā)明第二方面的第一種可能的實(shí)現(xiàn)方式 中,所述特征選擇裝置還包括:
[0039] 確定模塊,用于根據(jù)所述第一特征子集內(nèi)優(yōu)選特征的數(shù)量確定所述第三特征子集 內(nèi)包括的所述優(yōu)選特征以及所述候選特征的數(shù)量,其中,生成的所述第三特征子集包括確 定數(shù)量的優(yōu)選特征以及候選特征。
[0040] 結(jié)合本發(fā)明第二方面的實(shí)現(xiàn)方式,在本發(fā)明第二方面的第二種可能的實(shí)現(xiàn)方式 中,所述第一預(yù)設(shè)指標(biāo)為所述優(yōu)選特征的敏感變化率大于或等于預(yù)設(shè)敏感變化率,則所述 第一選取模塊包括:
[0041] 計(jì)算單元,用于計(jì)算所述第一特征子集中的各個(gè)優(yōu)選特征的所述上一周期的敏感 性以及所述當(dāng)前周期的敏感性;
[0042] 得到單元,用于根據(jù)所述計(jì)算單元計(jì)算的各個(gè)優(yōu)選特征的所述上一周期的敏感性 以及所述當(dāng)前周期的敏感性,得到所述各個(gè)優(yōu)選特征的敏感變化率;
[0043] 選取單元,用于選取出滿足第一預(yù)設(shè)指標(biāo)的第一優(yōu)選特征,所述第一優(yōu)選特征為 敏感變化率大于或等于所述預(yù)設(shè)敏感變化率的優(yōu)選特征。
[0044] 結(jié)合本發(fā)明第二方面的第二種可能的實(shí)現(xiàn)方式,在本發(fā)明第二方面的第三種可能 的實(shí)現(xiàn)方式中,所述特征選擇裝置還包括:
[0045] 第二生成模塊,用于根據(jù)所述選取單元選取的第一優(yōu)選特征生成第四特征子集。
[0046] 結(jié)合本發(fā)明第二方面的第三種可能的實(shí)現(xiàn)方式,在本發(fā)明第二方面的第四種可能 的實(shí)現(xiàn)方式中,所述第二預(yù)設(shè)指標(biāo)為所述候選特征的當(dāng)前周期的敏感性大于或等于第二優(yōu) 選特征的當(dāng)前周期的敏感性的平均值,所述第二優(yōu)選特征為敏感變化率小于所述預(yù)設(shè)敏感 變化率的優(yōu)選特征,則所述第二選取模塊包括:
[0047] 確定單元,用于確定敏感變化率小于所述預(yù)設(shè)敏感變化率的優(yōu)選特征為所述第二 優(yōu)選特征;
[0048] 獲取單元,用于獲取所述確定單元確定的第二優(yōu)選特征的當(dāng)前周期的敏感性;
[0049] 第一計(jì)算單元,用于根據(jù)所述獲取單元獲取的第二優(yōu)選特征的當(dāng)前周期的敏感性 計(jì)算所述平均值;
[0050] 第二計(jì)算單元,用于計(jì)算各個(gè)候選特征的當(dāng)前周期的敏感性;
[0051] 選取單元,用于選取出所述當(dāng)前周期的敏感性大于或等于所述平均值的候選特 征。
[0052] 結(jié)合本發(fā)明第二方面的第四種可能的實(shí)現(xiàn)方式,在本發(fā)明第二方面的第五種可能 的實(shí)現(xiàn)方式中,所述特征選擇裝置還包括:
[0053] 第三生成模塊,用于根據(jù)所述選取單元選取的當(dāng)前周期的敏感性大于或等于所述 平均值的候選特征生成第五特征子集。
[0054] 結(jié)合本發(fā)明第二方面的第五種可能的實(shí)現(xiàn)方式,在本發(fā)明第二方面的第六種可能 的實(shí)現(xiàn)方式中,所述第一生成模塊,具體用于:
[0055] 根據(jù)所述第二生成模塊生成的第四特征子集以及所述第三生成模塊生成的第五 特征子集生成所述第三特征子集。
[0056] 結(jié)合本發(fā)明第二方面的實(shí)現(xiàn)方式,在本發(fā)明第二方面的第七種可能的實(shí)現(xiàn)方式 中,所述特征選擇裝置還包括:
[0057] 訓(xùn)練模塊,用于根據(jù)所述第一生成模塊生成的第三特征子集包括的所述優(yōu)選特征 以及所述候選特征訓(xùn)練分類器,以使所述分類器根據(jù)所述第三特征子集包括的所述優(yōu)選特 征以及所述候選特征識(shí)別所述樣本數(shù)據(jù)。
[0058] 采用本發(fā)明,可從樣本數(shù)據(jù)中提取樣本數(shù)據(jù)的特征,根據(jù)提取的特征生成特征集, 將特征集劃分為第一特征子集和第二特征子集,第一特征子集包括當(dāng)前周期的上一周期保 留的至少一個(gè)優(yōu)選特征,第二特征子集包括至少一個(gè)候選特征,從第一特征子集中選取出 滿足第一預(yù)設(shè)指標(biāo)的優(yōu)選特征,從第二特征子集中選取出滿足第二預(yù)設(shè)指標(biāo)的候選特征, 根據(jù)滿足第一預(yù)設(shè)指標(biāo)的優(yōu)選特征以及滿足第二預(yù)設(shè)指標(biāo)的候選特征生成第三特征子集, 可在選擇特征時(shí)對(duì)上一周期選出的優(yōu)選特征有選擇性地保留,提高特征選擇的效率。此外, 對(duì)于優(yōu)選特征以及候選特征采用不同的評(píng)估方法進(jìn)行評(píng)估,能夠減小評(píng)估結(jié)果的誤差,實(shí) 現(xiàn)特征選擇的最優(yōu)化。
【附圖說明】
[0059] 為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用 的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域 普通技術(shù)人員