專利名稱:特征選擇的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及媒體分類技術(shù)領(lǐng)域,尤其涉及一種媒體分類中進(jìn)行特征選擇的方法及
直O(jiān)
背景技術(shù):
一般地,在特征獲取階段,為確保提供足夠的分類信息,原始特征數(shù)目比較多,其 中不可避免地存在大量冗余信息,因此就需要通過特征選擇從原始特征集中剔除冗余信 息,挑選出最有效的特征。在媒體分類中,特征選擇是指通過對數(shù)據(jù)的評價,從眾多原始特征中挑選出用于 媒體分類的有限個特征。例如,原始特征集為F = (Fi, i = l,..., N},其中原始特征的數(shù) 目為N ;通過特征選擇得到一個最優(yōu)的特征子集,其中特征的數(shù)目為M,M^N0特征選擇需要解決兩個問題一是確定選擇算法,在允許的時間內(nèi),以可以容忍的 代價找出最小的、最能描述類別的特征子集;二是確定評價標(biāo)準(zhǔn),用以衡量所找到的特征子 集是否最優(yōu),從而得到滿足特征選擇操作終止條件的特征子集。特征選擇過程一般分兩步 進(jìn)行首先產(chǎn)生特征子集,其中包含至少一個媒體特征;然后對特征子集進(jìn)行評價;如果所 述特征子集滿足終止條件則操作完畢,否則重復(fù)上述兩個步驟直到條件滿足為止。在現(xiàn)有技術(shù)中,一種重要的特征選擇方法是基于遺傳算法,其通過如下方式對個 體進(jìn)行編碼若原始特征有N個,則個體的編碼長度L = N,個體的每一個基因依次對應(yīng)一 個特征;具體地,對個體進(jìn)行編碼的方式有兩種一是二進(jìn)制位串編碼方式,當(dāng)個體中的某 一個基因為“1”時,表示該基因?qū)?yīng)的特征項被選用;反之,當(dāng)某一基因為“O”時,表示該基 因?qū)?yīng)的特征項未被選用;二是實數(shù)編碼方式,每個基因?qū)?yīng)一個實數(shù)的權(quán)值,權(quán)值越大表 示其對應(yīng)的特征項越重要;反之,權(quán)值越小表示其對應(yīng)的特征項越不重要。在確定了選擇算法為基于遺傳算法的搜索策略,并通過該選擇算法得到一組特征 子集后,就需要根據(jù)確定的評價標(biāo)準(zhǔn)對選出的特征子集進(jìn)行評估?,F(xiàn)有技術(shù)中多數(shù)都是基 于分類器精度進(jìn)行特征子集的評估,其將樣本集分為訓(xùn)練集及測試集,先利用訓(xùn)練集訓(xùn)練 分類器模型并得到相應(yīng)的模型及參數(shù),接著輸入測試集并對測試結(jié)果進(jìn)行評價,將得到的 分類精度作為遺傳算法的適應(yīng)度函數(shù)。不過,在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題現(xiàn)有技術(shù)根據(jù)分類器分類精度評價特征子集的優(yōu)劣,需要構(gòu)建分類器模型、訓(xùn)練 分類器模型并得到相應(yīng)的參數(shù),使得基于分類器分類精度進(jìn)行特征子集評估的代價較高, 而且計算過程很復(fù)雜。
發(fā)明內(nèi)容
本發(fā)明的實施例提供一種特征選擇的方法及裝置,可降低特征選擇過程中對特征 子集進(jìn)行評價的復(fù)雜度。為達(dá)到上述目的,本發(fā)明的實施例采用如下技術(shù)方案
一種特征選擇的方法,包括生成至少一個特征向量,所述每個特征向量對應(yīng)一個度量函數(shù)和至少一個媒體特 征;根據(jù)所述特征向量對應(yīng)的度量函數(shù)和媒體特征,計算該特征向量的適應(yīng)度值。一種進(jìn)行特征選擇的裝置,包括生成單元,用于生成至少一個特征向量,所述每個特征向量對應(yīng)一個度量函數(shù)和 至少一個媒體特征;計算單元,用于根據(jù)所述特征向量對應(yīng)的度量函數(shù)和媒體特征,計算該特征向量 的適應(yīng)度值。本發(fā)明實施例提供的特征選擇的方法及裝置,在特征向量中攜帶度量函數(shù)和媒體 特征的信息,其中每個特征向量對應(yīng)的媒體特征信息都代表著一個特征子集,根據(jù)每個特 征向量對應(yīng)的度量函數(shù)來計算該特征向量的適應(yīng)度值,即計算該特征向量對應(yīng)的特征子集 的適應(yīng)度值,進(jìn)而根據(jù)得到的適應(yīng)度值對特征子集進(jìn)行選擇;相對于現(xiàn)有技術(shù),本發(fā)明實施 例提供的特征選擇的方法及裝置不依賴于特定分類器,沒有分類器效率問題的負(fù)擔(dān),避免 了現(xiàn)有的基于分類器學(xué)習(xí)算法的復(fù)雜性,可以實現(xiàn)降低特征選擇過程中對特征子集進(jìn)行評 價的復(fù)雜度的目的。
圖1為本發(fā)明實施例一中特征選擇的方法流程圖;圖2為本發(fā)明實施例二中特征向量的表達(dá)方式一;圖3為本發(fā)明實施例二中特征向量的表達(dá)方式二 ;圖4為本發(fā)明實施例二中特征選擇的方法流程示意圖;圖5為本發(fā)明實施例二中計算特征向量適應(yīng)度值的方法流程示意圖;圖6為本發(fā)明實施例三中進(jìn)行特征選擇的裝置結(jié)構(gòu)示意圖;圖7為本發(fā)明實施例四中進(jìn)行特征選擇的裝置結(jié)構(gòu)示意圖;圖8為本發(fā)明實施例四中進(jìn)行特征選擇的裝置中計算模塊的結(jié)構(gòu)示意圖。
具體實施例方式為了降低特征選擇過程中對特征子集進(jìn)行評價的復(fù)雜度,本發(fā)明實施例提供了一 種特征選擇的方法及裝置。本發(fā)明實施例提供的特征選擇的方法是基于遺傳算法的,在遺 傳算法編碼方式上,將度量函數(shù)和媒體特征項作為等位基因編碼到同一條染色體上,其中 所述染色體就是本發(fā)明實施例中提到的特征向量。下面結(jié)合附圖對本發(fā)明實施例提供的特征選擇的方法及裝置進(jìn)行詳細(xì)描述。實施例一如圖1所示,本發(fā)明實施例提供的特征選擇的方法,包括以下步驟101、生成至少一個特征向量,所述每個特征向量對應(yīng)一個度量函數(shù)和至少一個媒 體特征。在本發(fā)明實施例中,所述特征向量對應(yīng)的度量函數(shù)為可選擇的度量函數(shù)中的一 個,特征向量中攜帶的度量函數(shù)信息即為所選度量函數(shù)對應(yīng)的編碼;所述至少一個媒體特征代表著一個特征子集,其可以由隨機(jī)生成的數(shù)字表示,所述隨機(jī)生成的數(shù)字可以是二進(jìn) 制位串,也可以是實數(shù)串。102、根據(jù)所述特征向量對應(yīng)的度量函數(shù)和媒體特征,計算該特征向量的適應(yīng)度值。根據(jù)所述特征向量中媒體特征的編碼確定樣本中被選擇的特征項,依據(jù)所述被選 擇的特征項并結(jié)合所述特征向量所對應(yīng)的度量函數(shù)計算不同樣本之間的相似度,然后參考 樣本之間的相似度對樣本進(jìn)行權(quán)重賦值,在消除了各樣本的差異性對特征向量的適應(yīng)度值 的影響后,即可確定所述特征向量的適應(yīng)度值。上述相似度可以是通過樣本之間的相似系數(shù)來描述,也可以通過樣本之間的距離 來描述。本發(fā)明實施例提供的特征選擇的方法,在特征向量中攜帶度量函數(shù)和媒體特征的 信息,其中每個特征向量對應(yīng)的媒體特征信息都代表著一個特征子集,根據(jù)每個特征向量 對應(yīng)的度量函數(shù)來計算該特征向量的適應(yīng)度值,即計算該特征向量對應(yīng)的特征子集的適應(yīng) 度值,進(jìn)而根據(jù)得到的適應(yīng)度值對特征子集進(jìn)行選擇;本發(fā)明實施例提供的特征選擇的方 法不依賴于特定分類器,沒有分類器效率問題的負(fù)擔(dān),避免了現(xiàn)有的基于分類器學(xué)習(xí)算法 的復(fù)雜性。實施例二 為了能夠更好地說明本發(fā)明實施例提供的特征選擇的方法,現(xiàn)假設(shè)有如下應(yīng)用場 景從含有1)個媒體特征的音樂原始特征集中選擇出最好的能夠表達(dá)音樂情感的特 征子集,并提供至少一個度量函數(shù)和至少兩個預(yù)先標(biāo)注有高層分類信息(比如情感信息) 的音樂樣本用以對所選出的特征子集進(jìn)行評價,其中每個音樂樣本對應(yīng)的特征項和情感標(biāo) 注均以向量的形式表示。本發(fā)明實施例提供的特征向量同時包含一個度量函數(shù)和至少一個媒體特征的信 息,即在遺傳算法中將度量函數(shù)和所有媒體特征統(tǒng)一編碼到同一條染色體中;其中,所述特征向量包含的度量函數(shù)為可選擇的至少一個度量函數(shù)中的一個,如果可供 選擇的度量函數(shù)的數(shù)目為W,則在特征向量中用于描述所選度量函數(shù)的位數(shù)a要大于等于 「10§2妒],這里的“「1”為向上取整符號,例如共有3個可供選擇的度量函數(shù),采用二進(jìn)制編 碼方式,其編碼可以分別設(shè)為01、10、11,特征向量中攜帶的度量函數(shù)信息即為所選度量函 數(shù)對應(yīng)的編碼;上述度量函數(shù)為相似性度量函數(shù),具體地,可以是距離函數(shù)或者相似系數(shù)函 數(shù)。所述至少一個媒體特征代表著原始特征集中所有媒體特征被選擇的情況,針對媒 體特征的編碼方式有兩種一是二進(jìn)制位串編碼方式,每個媒體特征的編碼位數(shù)為1位, “1”表示特征被選中,“0”表示特征未被選中,二進(jìn)制編碼方式如圖2所示;二是實數(shù)編碼方 式,每個特征對應(yīng)一個實數(shù)的權(quán)值,權(quán)值可以限定在0-99范圍內(nèi),且權(quán)值的大小表現(xiàn)出其 所對應(yīng)的媒體特征的重要性,權(quán)值越大表示對應(yīng)的媒體特征越重要,反之權(quán)值越小表示對 應(yīng)的媒體特征越不重要,實數(shù)編碼方式如圖3所示。在上述場景設(shè)定的基礎(chǔ)上,本發(fā)明實施例提供的特征選擇方法的具體過程,如圖4 所示,包括401、生成至少一個特征向量,在每個特征向量中包含有一個度量函數(shù)和至少一個媒體特征的信息。上述至少一個特征向量即為遺傳算法中的一個種群;在本發(fā)明實施例中,所生成的特征向量對應(yīng)的度量函數(shù)均為可選擇的多個度量函 數(shù)(比如距離函數(shù)、夾角余弦函數(shù)等相似性度量函數(shù))中的一個,在所述特征向量中包含 所選度量函數(shù)對應(yīng)的編碼;所生成的特征向量中的媒體特征對應(yīng)的編碼則是隨機(jī)生成的,可以是二進(jìn)制位 串,也可以是實數(shù)串;在本實施例中,隨機(jī)生成N位二進(jìn)制碼作為媒體特征對應(yīng)的編碼。下面以計算其中一個特征向量的適應(yīng)度值為例,進(jìn)一步介紹后續(xù)步驟402、根據(jù)所述特征向量中的媒體特征編碼確定每個音樂樣本中被選擇的特征項。在本實施例中,所述音樂樣本均預(yù)先標(biāo)注有高層分類信息;所謂高層分類信息可 以是音樂樣本的情感表達(dá)、或者音樂流派、或者其他信息;在本實施例中,以音樂樣本中包 含情感標(biāo)注為例;由于本實施例中的特征向量中包含的媒體特征編碼為二進(jìn)制位串,其中的“1”表 示特征被選中,“0”表示特征未被選中,因此可以根據(jù)所述特征向量中的N位媒體特征編碼 對每個樣本中的N個特征項進(jìn)行選擇。403、從包含至少兩個音樂樣本的樣本空間中選出一個樣本作為目標(biāo)樣本,其余的 音樂樣本均為待匹配樣本。所述目標(biāo)樣本可以是從樣本空間中隨機(jī)抽取的一個音樂樣本,也可以是按照一定 順序從樣本空間中選取的一個音樂樣本。在這里,不管是目標(biāo)樣本還是待匹配樣本均為對其包含的N個特征項進(jìn)行了選擇 后的音樂樣本。404、根據(jù)特征向量中的編碼所指示的度量函數(shù)計算每個待匹配樣本相對于目標(biāo) 樣本的相似度。由于每個樣本均是以向量形式進(jìn)行描述的,因此計算待匹配樣本相對于目標(biāo)樣本 的相似度,即為通過所述度量函數(shù)計算兩個向量之間的相似度。405、按照相似度從大到小的順序?qū)λ龃ヅ錁颖具M(jìn)行排序,得到一個序列L。所述相似度可以是通過距離函數(shù)計算得到,也可以是通過相似系數(shù)函數(shù)計算得 到。如果是距離函數(shù),則得到的結(jié)果越小說明兩個樣本間的相似度越大,反之相似度越??; 如果是相似系數(shù)函數(shù),則得到的結(jié)果越大說明兩個樣本間的相似度越大,反之相似度越小。406、結(jié)合樣本的高層分類信息對排序后的待匹配樣本進(jìn)行權(quán)重賦值。如果在樣本空間中與目標(biāo)樣本的情感標(biāo)注(比如,高興、悲傷.......)相同的待
匹配樣本的數(shù)目為K,則只需對序列L中的前K個待匹配樣本進(jìn)行權(quán)重賦值;具體地,可以將與所述目標(biāo)樣本的情感標(biāo)注相同且排序序號為i的待匹配樣本賦 予權(quán)重為κ+l-i ;例如,序列L中的第2個樣本與目標(biāo)樣本的情感標(biāo)注相同,則給第2個樣 本賦予權(quán)重K-I ;其中,i ^K5可以將與所述目標(biāo)樣本的高層分類信息不同的待匹配樣本賦予權(quán)重為0。上述賦值方式選用的是離散賦值,在本發(fā)明實施例中當(dāng)然還可以選用其他的賦值 方式。407、對上述前K個待匹配樣本分別對應(yīng)的權(quán)重進(jìn)行歸一化,得到的就是所述特征向量相對于目標(biāo)樣本的適應(yīng)度值。具體地,所述特征向量相對于目標(biāo)樣本的適應(yīng)度值el =(所述前K個待匹配樣本 對應(yīng)的權(quán)重之和)/(自然數(shù)1至K的和)。為了消除在選擇一個目標(biāo)樣本時候造成的差異性,因此還需要更換目標(biāo)樣本,重 復(fù)執(zhí)行步驟403至步驟407,若樣本空間中共有P個音樂樣本,則上述步驟需要重復(fù)執(zhí)行 P-I次,從而將樣本空間中的其他樣本依次作為目標(biāo)樣本,并計算出所述特征向量相對于每 個目標(biāo)樣本的適應(yīng)度值e2、e3、e4........408、在得到了所述特征向量相對于每個音樂樣本的適應(yīng)度值之后,計算上述el、 e2、e3.......的平均值,計算結(jié)果即為所述特征向量的適應(yīng)度值。所述特征向量的適應(yīng)度值,即染色體的適應(yīng)度值,用于說明該特征向量對應(yīng)的度 量函數(shù)和所選擇的特征子集的優(yōu)劣程度;所述適應(yīng)度值越大,說明所述特征向量對應(yīng)的度 量函數(shù)和所選擇的特征子集越好,反之則越差。根據(jù)步驟402至步驟408所描述的方法,同樣可以計算出同一種群中其他特征向
量的適應(yīng)度值。409、判斷上述種群中的至少一個特征向量的適應(yīng)度值是否滿足預(yù)設(shè)的條件;如果上述種群中存在至少一個特征向量的適應(yīng)度值滿足預(yù)設(shè)的終止條件,則進(jìn)程 結(jié)束,滿足條件的特征向量中所包含的媒體特征信息就對應(yīng)著進(jìn)行特征選擇后的特征子 集,其包含的度量函數(shù)信息對應(yīng)的相似性函數(shù)即為最佳的適用于所選特征子集的相似性度 量函數(shù);如果上述種群中所有的特征向量均不滿足預(yù)設(shè)的終止條件,則進(jìn)行遺傳操作,即 按照一定的概率條件,經(jīng)過種群內(nèi)的選擇、交叉、變異操作,最終完成對上述種群中特征向 量的數(shù)據(jù)元素進(jìn)行變更,得到一組新的特征向量,并跳轉(zhuǎn)至步驟402,迭代執(zhí)行直至找到滿 足預(yù)設(shè)的終止條件的特征向量。在本發(fā)明實施例中,以上編號并不用于限定各個步驟的執(zhí)行順序。為了便于理解本發(fā)明實施例提供的特征選擇的方法,下面以一個簡單的實例對特 征選擇過程中計算特征向量適應(yīng)度值的過程進(jìn)行進(jìn)一步說明。首先,設(shè)定可供選擇的相似性度量函數(shù)共有2個
ηγ距離函數(shù)Wi:d(x,y) = \\x-少|(zhì)| = [J^ixi -χ)2]72,其編碼是 01,以及
I=I夾角余弦函數(shù)W2 :cos(x,y) = ^r = , ”~,其編碼是10。
MIIWI [(χ x)(y y)Y2當(dāng)然上述編碼還可以是函數(shù)Wl對應(yīng)編碼為0,函數(shù)W2對應(yīng)編碼為1。其次,在原始特征集中共有10個媒體特征f0、fl........f9;樣本數(shù)據(jù)庫中的midi樣本片段共有80首,其中標(biāo)注高興情感類別的有9首,標(biāo)注 悲傷情感類別的有8首,其他略;為更清晰地描述,假設(shè)樣本數(shù)據(jù)庫中midi樣本的編號及其特征和標(biāo)注的情感描 述格式如下Midil, flj0, fia, flj2, · · ·,flj9, emotionl (高興)Midi2, f2j0, f2a, f2j2, . . .,f2j9, emotion2(悲傷)
8
Midi3, f3,0,f3a, f3j2, . . . , f3j9, emotion3 (悲傷)...Midi80, f80j0, f80a, f80j2, · · ·,f80j9, emotion80 (高興)假設(shè)數(shù)據(jù)庫中編號為1,5,8,15,23,45,52,68,73的midi樣本其情感標(biāo)注為高興, 數(shù)據(jù)庫中編號為2,3,13,27,48,60,67,75的midi樣本其情感標(biāo)注為悲傷。根據(jù)以上假設(shè)情形,現(xiàn)對本發(fā)明實施例提供的計算特征向量適應(yīng)度值的方法展開 描述,如圖5所示,包括以下步驟501、生成至少一個特征向量,其中一個特征向量Cl (染色體)為011010101100 ;其中,前兩位01表示選擇函數(shù)Wl作為相似性度量函數(shù);后十位101010110為隨機(jī)生成的二進(jìn)制位串,對應(yīng)十個媒體特征,說明f0、f2、f4、 f6、f7這五個特征被選中。502、選擇樣本數(shù)據(jù)庫中的樣本midil作為目標(biāo)樣本,則midi2-midi80均為待匹配樣本。503、根據(jù)函數(shù)Wl計算樣本midil與每個待匹配樣本之間的距離。具體地,樣本midil與midi2之間的距離是通過公式A,2 =_八,)2]%算
…1
向量 ml :fl70' f"l,2,f"l,4,f"l,6,f"l,7 與向量m2之間的距離;以同樣的方法,可以計算出樣本midil與其他待匹配樣本之間的距離。504、按照距離從小到大的順序?qū)Υヅ錁颖具M(jìn)行排序,由于與樣本midil的情感 標(biāo)注相同的待匹配樣本共有8個,因此表1中只列出排在前面8位的待匹配樣本。表 權(quán)利要求
一種特征選擇的方法,其特征在于,包括生成至少一個特征向量,所述每個特征向量對應(yīng)一個度量函數(shù)和至少一個媒體特征;根據(jù)所述特征向量對應(yīng)的度量函數(shù)和媒體特征,計算該特征向量的適應(yīng)度值。
2.根據(jù)權(quán)利要求1所述的特征選擇的方法,其特征在于,還包括 判斷所述至少一個特征向量的適應(yīng)度值是否滿足預(yù)設(shè)的終止條件; 在至少一個所述特征向量的適應(yīng)度值滿足預(yù)設(shè)的終止條件時,進(jìn)程結(jié)束;在所有特征向量的適應(yīng)度值均不滿足預(yù)設(shè)的終止條件時,以原有特征向量為基礎(chǔ)生成 至少一個新的特征向量。
3.根據(jù)權(quán)利要求2所述的特征選擇的方法,其特征在于,所述以原有特征向量為基礎(chǔ) 生成至少一個新的特征向量,具體為按照預(yù)定的概率條件,對原有特征向量的數(shù)據(jù)元素進(jìn)行變更,得到至少一個新的特征 向量。
4.根據(jù)權(quán)利要求1或2所述的特征選擇的方法,其特征在于,所述根據(jù)所述特征向量對 應(yīng)的度量函數(shù)和媒體特征,計算該特征向量的適應(yīng)度值,包括根據(jù)所述媒體特征確定樣本中被選擇的特征項;以樣本空間中所有的樣本依次作為目標(biāo)樣本,根據(jù)所述度量函數(shù)以及所述被選擇的特 征項計算所述特征向量相對于每個目標(biāo)樣本的適應(yīng)度值;計算所述特征向量相對于每個目標(biāo)樣本的適應(yīng)度值的平均值,作為所述特征向量的適應(yīng)度值。
5.根據(jù)權(quán)利要求4所述的特征選擇的方法,其特征在于,在樣本空間中目標(biāo)樣本以外 的樣本均為待匹配樣本;貝U,所述根據(jù)所述度量函數(shù)以及所述被選擇的特征項計算所述特征向量相對于目標(biāo)樣 本的適應(yīng)度值,包括根據(jù)所述度量函數(shù)以及所述被選擇的特征項計算每個待匹配樣本相對于目標(biāo)樣本的 相似度;根據(jù)所述相似度對所述待匹配樣本進(jìn)行排序;結(jié)合樣本的高層分類信息對排序后的待匹配樣本進(jìn)行權(quán)重賦值;對所述待匹配樣本對應(yīng)的權(quán)重進(jìn)行歸一化,得到所述特征向量相對于目標(biāo)樣本的適應(yīng)度值。
6.根據(jù)權(quán)利要求5所述的特征選擇的方法,其特征在于,在樣本空間中與目標(biāo)樣本的 高層分類信息相同的待匹配樣本的數(shù)目為K,則所述結(jié)合樣本的高層分類信息對排序后的待匹配樣本進(jìn)行權(quán)重賦值,具體包括 為排序后的前K個待匹配樣本進(jìn)行權(quán)重賦值;且,與所述目標(biāo)樣本的高層分類信息相同且排序序號為i的待匹配樣本賦予權(quán)重為 κ+l-i,其中,i ^ K ;與所述目標(biāo)樣本的高層分類信息不同的待匹配樣本賦予權(quán)重為O。
7.根據(jù)權(quán)利要求6所述的特征選擇的方法,其特征在于,所述對所述待匹配樣本對應(yīng) 的權(quán)重進(jìn)行歸一化,具體包括用所述前K個待匹配樣本對應(yīng)的權(quán)重之和除以自然數(shù)1至K的和。
8.一種進(jìn)行特征選擇的裝置,其特征在于,包括生成單元,用于生成至少一個特征向量,所述每個特征向量對應(yīng)一個度量函數(shù)和至少 一個媒體特征;計算單元,用于根據(jù)所述特征向量對應(yīng)的度量函數(shù)和媒體特征,計算該特征向量的適 應(yīng)度值。
9.根據(jù)權(quán)利要求8所述的進(jìn)行特征選擇的裝置,其特征在于,進(jìn)一步包括 判斷單元,用于判斷所述至少一個特征向量的適應(yīng)度值是否滿足預(yù)設(shè)的終止條件; 在所述判斷單元的判斷結(jié)果為存在至少一個特征向量的適應(yīng)度值滿足預(yù)設(shè)的終止條件時,進(jìn)程結(jié)束;在所述判斷單元的判斷結(jié)果為所有特征向量的適應(yīng)度值均不滿足預(yù)設(shè)的終止條件時, 所述生成單元以原有特征向量為基礎(chǔ)生成至少一個新的特征向量。
10.根據(jù)權(quán)利要求8或9所述的進(jìn)行特征選擇的裝置,其特征在于,所述計算單元包括確定模塊,用于根據(jù)所述媒體特征確定樣本中被選擇的特征項; 計算模塊,用于以樣本空間中所有的樣本依次作為目標(biāo)樣本,根據(jù)所述度量函數(shù)以及 所述被選擇的特征項計算所述特征向量相對于每個目標(biāo)樣本的適應(yīng)度值;平均模塊,用于計算所述特征向量相對于每個目標(biāo)樣本的適應(yīng)度值的平均值,作為所 述特征向量的適應(yīng)度值。
11.根據(jù)權(quán)利要求10所述的進(jìn)行特征選擇的裝置,其特征在于,當(dāng)在樣本空間中目標(biāo) 樣本以外的樣本均為待匹配樣本時,所述計算模塊包括計算子模塊,用于根據(jù)所述度量函數(shù)以及所述被選擇的特征項計算每個待匹配樣本相 對于目標(biāo)樣本的相似度;排序子模塊,用于根據(jù)所述相似度對所述待匹配樣本進(jìn)行排序; 賦值子模塊,用于結(jié)合樣本的高層分類信息對排序后的待匹配樣本進(jìn)行權(quán)重賦值; 歸一化子模塊,用于對所述待匹配樣本對應(yīng)的權(quán)重進(jìn)行歸一化,得到所述特征向量相 對于目標(biāo)樣本的適應(yīng)度值。
12.根據(jù)權(quán)利要求11所述的進(jìn)行特征選擇的裝置,其特征在于,在樣本空間中與目標(biāo) 樣本的高層分類信息相同的待匹配樣本的數(shù)目為K,所述賦值子模塊將與所述目標(biāo)樣本的高層分類信息相同且排序序號為i的待匹配樣 本賦予權(quán)重為K+1-i,將與所述目標(biāo)樣本的高層分類信息不同的待匹配樣本賦予權(quán)重為0 ; 其中,i ( K。
13.根據(jù)權(quán)利要求12所述的進(jìn)行特征選擇的裝置,其特征在于,所述歸一化子模塊用 所述前K個待匹配樣本對應(yīng)的權(quán)重之和除以自然數(shù)1至K的和,得到所述特征向量對應(yīng)于 目標(biāo)樣本的適應(yīng)度值。
全文摘要
本發(fā)明實施例公開了一種特征選擇的方法及裝置,涉及媒體分類技術(shù)領(lǐng)域,用以降低特征選擇過程中對特征子集進(jìn)行評價的復(fù)雜度。本發(fā)明實施例提供的特征選擇的方法,包括生成至少一個特征向量,所述每個特征向量對應(yīng)一個度量函數(shù)和至少一個媒體特征;根據(jù)所述特征向量對應(yīng)的度量函數(shù)和媒體特征,計算該特征向量的適應(yīng)度值。本發(fā)明實施例提供的方法及裝置適用于包含高層分類信息的媒體特征的選擇。
文檔編號G06F17/30GK101937440SQ20091015007
公開日2011年1月5日 申請日期2009年6月30日 優(yōu)先權(quán)日2009年6月30日
發(fā)明者朱華, 李德旭, 王上飛 申請人:華為技術(shù)有限公司;中國科學(xué)技術(shù)大學(xué)