一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)。該方法及系統(tǒng)一方面最小化由留一法度量的交叉驗(yàn)證分類誤差、同時(shí)最小化選擇特征的個(gè)數(shù),最后建模實(shí)現(xiàn)高維數(shù)據(jù)中特征組合的快速識(shí)別,為高維數(shù)據(jù)的統(tǒng)計(jì)分析提供了一個(gè)快速的解決辦法,在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、生物醫(yī)學(xué)等領(lǐng)域有廣泛的應(yīng)用前景。
【專利說明】一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)信息【技術(shù)領(lǐng)域】,涉及一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)。
【背景技術(shù)】
[0002]大數(shù)據(jù)時(shí)代的到來呼喚數(shù)據(jù)建模和分析的研究,例如基于大數(shù)據(jù)的生物標(biāo)記物的健康診斷是一個(gè)重要的研究熱點(diǎn),有著廣闊的應(yīng)用前景。我們注意到,許多學(xué)科領(lǐng)域的科學(xué)家們開始日益重視并依賴計(jì)算機(jī)方法及數(shù)學(xué)建模作為輔助的研究手段。幫助分析海量的科研數(shù)據(jù),探究人的形象思維難以企及的高維數(shù)據(jù)空間中隱藏的規(guī)律,并由此催生出一系列新的交叉學(xué)科和研究方向,例如:數(shù)值計(jì)算,數(shù)據(jù)挖掘,生物信息學(xué),計(jì)算金融,計(jì)算化學(xué),以及計(jì)算統(tǒng)計(jì)學(xué)理論研究等。這些研究方向所面臨的共同挑戰(zhàn)就是如何正確分析和解讀數(shù)據(jù)中包含的有用信息,從而為研究者提供傳統(tǒng)觀測(cè)手段所無法得到的判據(jù)和模型。其中一個(gè)突出的熱點(diǎn)就是統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的特征選擇方法研究(劉嶠,秦志光,羅旭成,程紅蓉.統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的特征選擇方法綜述,2009中國(guó)計(jì)算機(jī)大會(huì)論文集)。
[0003]特征是一個(gè)抽象的概念,數(shù)學(xué)中可以表示為向量中的元素,應(yīng)用中可以是研究和測(cè)量對(duì)象的一個(gè)屬性。例如在生物醫(yī)學(xué)應(yīng)用中,特征可以是生物標(biāo)記物。生物標(biāo)記物是指能將機(jī)體的生理和病理狀態(tài)區(qū)分開來的生物分子。例如腫瘤標(biāo)志物(Tumor Marker)是反映腫瘤存在的化學(xué)類物質(zhì)。它們或不存在于正常成人組織而僅見于胚胎組織,或在腫瘤組織中的含量大大超過在正常組織里的含量,它們的存在或量變可以提示腫瘤的性質(zhì),借以了解腫瘤的組織發(fā)生、細(xì)胞分化、細(xì)胞功能,以幫助腫瘤的診斷、分類、預(yù)后判斷以及治療指導(dǎo)。
[0004]特征選擇方法的研究歷史可以追溯到70年代。從1973年Hirotsugu Akaike首次將信息論有關(guān)原理與最大似然法相結(jié)合,提出Akaike信息準(zhǔn)則(AIC, Akaike InformationCriterion),并成功運(yùn)用于統(tǒng)計(jì)模型的選擇開始,特征選擇研究在統(tǒng)計(jì)模式識(shí)別,機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘等領(lǐng)域取得了長(zhǎng)足的進(jìn)展,其研究成果也已廣泛應(yīng)用于文本分類,基因組分析,圖像提取,入侵檢測(cè)等實(shí)際工作中。近年來學(xué)術(shù)界關(guān)于特征選擇的研究熱點(diǎn)逐漸轉(zhuǎn)向了對(duì)“高維特征空間,小樣本數(shù)據(jù)”情況的研究。其深刻原因是由于信息技術(shù)的發(fā)展對(duì)傳統(tǒng)的數(shù)據(jù)分析技術(shù)提出了嚴(yán)峻的挑戰(zhàn)。例如,在計(jì)算系統(tǒng)生物學(xué)領(lǐng)域,實(shí)驗(yàn)中科學(xué)家們能夠獲得的正反樣本總數(shù)通常不超過100,而待選擇的基因表達(dá)變量的數(shù)量則通常在6,000到30,000這個(gè)數(shù)量級(jí),是典型的“大特征,小樣本”問題。通過采用適當(dāng)?shù)奶卣鬟x擇方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,則可以實(shí)現(xiàn)在可容忍的信息損失前提下,將特征的維數(shù)降低到數(shù)百乃至數(shù)十,這樣的結(jié)果也更易于分析和解釋。
[0005]在特征選擇研究領(lǐng)域,通常認(rèn)為有四種設(shè)計(jì)模式,分別為Filter,Wrapper,Hybrid和Embeded。其中,Filter和Wrapper的歷史比較悠久,也是最易于理解和得到廣泛實(shí)際應(yīng)用的兩種設(shè)計(jì)模式,而Hybrid和Embeded方法則是近年來新發(fā)展起來的特征選擇算法設(shè)計(jì)模式,目的是克服前述算法中存在的不足,結(jié)合二者的長(zhǎng)處,可探索新的特征選擇算法設(shè)計(jì)模式。
[0006]特征選擇的優(yōu)勢(shì)但同時(shí)也是難點(diǎn)在于特征的組合效應(yīng)。例如通過全自動(dòng)生化分析儀可以測(cè)量到大量病人和健康人群的血清中的蛋白或者代謝小分子的濃度數(shù)據(jù),一個(gè)直接的應(yīng)用就是構(gòu)建特征選擇模型,來對(duì)比健康人群和病人的不同,找到明顯差異的蛋白或者代謝小分子,作為生物標(biāo)記物,并進(jìn)一步基于他們對(duì)新的樣本和測(cè)量數(shù)據(jù)進(jìn)行健康評(píng)估或者診斷。一般來說,這對(duì)單個(gè)分子而言,可以通過比較該分子在健康和病人人群值的差異,計(jì)算差異倍數(shù),并作嚴(yán)格的統(tǒng)計(jì)分析,可以得到有區(qū)分能力的單個(gè)標(biāo)記物。但是單個(gè)標(biāo)記物在預(yù)測(cè)的穩(wěn)定性、精度等方面存在不足,急需研究新的方法來使用兩個(gè)或更多種標(biāo)記物的測(cè)量結(jié)果來改進(jìn)檢查中的診斷問題。當(dāng)然一種十分簡(jiǎn)單但通常仍然很有效的方法就是直接對(duì)有預(yù)測(cè)能力的單個(gè)分子標(biāo)記物進(jìn)行疊加,即如果樣品對(duì)被檢標(biāo)記物的至少一種呈陽(yáng)性,則認(rèn)為是陽(yáng)性結(jié)果。但是,對(duì)于復(fù)雜疾病而言,更為重要的、更為關(guān)心的是對(duì)標(biāo)記物之間的非線性組合的發(fā)現(xiàn),及組合中單個(gè)標(biāo)記物的預(yù)測(cè)能力都很弱,但是組合之后卻有很好、很穩(wěn)定的預(yù)測(cè)能力。
[0007]特征的組合可以通過數(shù)學(xué)建模的辦法來識(shí)別。海量的高維數(shù)據(jù)分析與建模對(duì)數(shù)學(xué)方法帶來了極大的挑戰(zhàn)。構(gòu)建將數(shù)據(jù)維數(shù)降低、利于進(jìn)一步處理、可視化和理解信息的數(shù)學(xué)模型,已成為各科學(xué)領(lǐng)域面對(duì)的一個(gè)共同問題。特別在生物醫(yī)學(xué)交叉研究中,高通量測(cè)序、芯片等實(shí)驗(yàn)手段的快速發(fā)展產(chǎn)生了海量的高維數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行高效的、保留較強(qiáng)生物解釋性的降維是計(jì)算生物學(xué)研究的核心問題。該抽象為一個(gè)根據(jù)一定的評(píng)估準(zhǔn)則最優(yōu)地從初始高維特征集合中選出低維特征集合的過程,作為一個(gè)困難問題長(zhǎng)期存在(Isabelle Guyon and Andre Elisseeff.2003.An introduction to variable andfeature selection.J.Mach.Learn.Res.3 (March2003), 1157-1182.)?,F(xiàn)有方法難以勝任高維稀疏模型建模的要求,一方面是因?yàn)檫@些傳統(tǒng)方法中包含對(duì)特征集合的組合優(yōu)化問題,而在超高維空間窮舉搜索最有特征組合的問題已經(jīng)被證明是NP難問題,由于搜索計(jì)算的時(shí)問開銷隨特征空問維度呈指數(shù)增長(zhǎng),所以在高維特征空間中運(yùn)用這些傳統(tǒng)特征選擇方法在計(jì)算上是不可行的。
[0008]目前現(xiàn)有技術(shù)尚存在以下不足:
[0009](I)在高維特征空(特別是當(dāng)特征維數(shù)遠(yuǎn)大于樣本數(shù)的情況下),特征選擇在理論和實(shí)踐都缺乏一個(gè)十分好的對(duì)最優(yōu)特征子集的評(píng)價(jià)標(biāo)準(zhǔn)。
[0010](2)在超高維空間窮舉搜索最有特征組合的問題已經(jīng)被證明是NP難問題,由于搜索計(jì)算的時(shí)間開銷隨特征空問維度呈指數(shù)爆炸性增長(zhǎng),所以在高維特征空間中運(yùn)用這些傳統(tǒng)特征選擇方法在計(jì)算上是不可行的。
[0011](3)目前的方法在數(shù)據(jù)是高維時(shí),傾向于選出過多的特征,不能去除高度相關(guān)的、冗余的特征,不能發(fā)現(xiàn)特征之間的非線性的組合效應(yīng)。
[0012](4)除此之外,現(xiàn)有的方法將分類和特征選擇割裂進(jìn)行處理,未能實(shí)現(xiàn)同時(shí)最優(yōu)化。
【發(fā)明內(nèi)容】
[0013]針對(duì)上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)。該方法及系統(tǒng)一方面最小化由留一法度量的交叉驗(yàn)證分類誤差、同時(shí)最小化選擇特征的個(gè)數(shù),最后建模實(shí)現(xiàn)高維數(shù)據(jù)中特征組合的快速識(shí)別,為高維數(shù)據(jù)的統(tǒng)計(jì)分析提供了一個(gè)快速的解決辦法,在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、生物醫(yī)學(xué)等領(lǐng)域有廣泛的應(yīng)用前景。
[0014]為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
[0015]一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法,包括以下步驟:
[0016]1)獲取樣本數(shù)據(jù);
[0017]2)根據(jù)獲取的樣本數(shù)據(jù),構(gòu)建特征組合識(shí)別的最優(yōu)化模型,所述模型的優(yōu)化目標(biāo)為分類精度最大,同時(shí)選擇到特征的個(gè)數(shù)最少;
[0018]3)逐個(gè)分析單個(gè)特征的預(yù)測(cè)能力,并根據(jù)單個(gè)特征的預(yù)測(cè)能力對(duì)所有特征進(jìn)行排序;
[0019]4)將具有預(yù)測(cè)能力的特征輸入到特征組合識(shí)別的最優(yōu)化模型,識(shí)別出最優(yōu)的特征組合。
[0020]進(jìn)一步地,步驟I)中,所述預(yù)處理包括過濾無預(yù)測(cè)能力的特征、去噪聲、剔除異常數(shù)據(jù)、正規(guī)化、中心化等。
[0021]進(jìn)一步地,步驟2)中,通過最近中心分類方法對(duì)樣本數(shù)據(jù)進(jìn)行分類并采用留一法交叉驗(yàn)證分類精度;通過奧卡姆剃刀準(zhǔn)則最小化選擇到特征的個(gè)數(shù)。
[0022]進(jìn)一步地,步驟2)中還包括對(duì)特征組合識(shí)別的最優(yōu)化模型進(jìn)行標(biāo)定,即利用一些未用到訓(xùn)練中的數(shù)據(jù)的預(yù)測(cè)效能,來確定模型的最優(yōu)參數(shù)和預(yù)測(cè)閾值,這是建模的一部分。
[0023]進(jìn)一步地,步驟2)中,所述特征組合識(shí)別的最優(yōu)化模型為混合整數(shù)規(guī)劃模型,具體為:
[0024]
【權(quán)利要求】
1.一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法,包括以下步驟: O獲取樣本數(shù)據(jù); 2)根據(jù)獲取的樣本數(shù)據(jù),構(gòu)建特征組合識(shí)別的最優(yōu)化模型,所述模型的優(yōu)化目標(biāo)為分類精度最大,同時(shí)選擇到特征的個(gè)數(shù)最少; 3)逐個(gè)分析單個(gè)特征的預(yù)測(cè)能力,并根據(jù)單個(gè)特征的預(yù)測(cè)能力對(duì)所有特征進(jìn)行排序; 4)將具有預(yù)測(cè)能力的特征輸入到特征組合識(shí)別的最優(yōu)化模型,識(shí)別出最優(yōu)的特征組合。
2.如權(quán)利要求1所述 的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法,其特征在于,對(duì)步驟O中的樣本進(jìn)行預(yù)處理,所述預(yù)處理包括過濾無預(yù)測(cè)能力的特征、去噪聲、剔除異常數(shù)據(jù)、正規(guī)化、中心化。
3.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法,其特征在于,步驟2)中,構(gòu)建特征組合識(shí)別的最優(yōu)化模型的步驟包括:通過最近中心分類方法對(duì)樣本數(shù)據(jù)進(jìn)行分類并采用留一法交叉驗(yàn)證分類精度;通過奧卡姆剃刀準(zhǔn)則最小化選擇到特征的個(gè)數(shù)。
4.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法,其特征在于,步驟2)中還包括對(duì)特征組合識(shí)別的最優(yōu)化模型進(jìn)行標(biāo)定,確定模型參數(shù)和預(yù)測(cè)閾值。
5.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法,其特征在于,步驟2)中,所述特征組合識(shí)別的最優(yōu)化模型為混合整數(shù)規(guī)劃模型,具體為:
6.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法,其特征在于,步驟3)中,逐個(gè)分析單個(gè)特征的預(yù)測(cè)能力包括:分別計(jì)算單個(gè)特征預(yù)測(cè)能力的ROC曲線下面積,根據(jù)這些計(jì)算結(jié)果繪制單個(gè)特征的火山圖,并對(duì)單個(gè)特征的預(yù)測(cè)能力計(jì)算得到一個(gè)量化的數(shù)值。
7.如權(quán)利要求6所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法,其特征在于,步驟3)中,根據(jù)所述的量化的數(shù)值對(duì)所有特征進(jìn)行排序,還包括對(duì)排序靠后的沒有預(yù)測(cè)能力的單個(gè)特征進(jìn)行刪除。
8.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法,其特征在于,步驟4)中,固定特征個(gè)數(shù)為k來求解模型,可以得到特征數(shù)為k的最優(yōu)的特征組合,將k從I逐漸增長(zhǎng),同時(shí)記錄分類精度的變化,當(dāng)分類精度得到最大的時(shí)候,得到模型輸出的最優(yōu)的特征組合。
9.如權(quán)利要求8所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法,其特征在于,步驟4)具體包括以下步驟: a)當(dāng)樣本數(shù)據(jù)特征維度〈100時(shí),當(dāng)k=l時(shí)求解模型,得到的最優(yōu)解與單個(gè)特征的預(yù)測(cè)能力進(jìn)行對(duì)比;進(jìn)一步當(dāng)k=2,3時(shí)求解模型,得到的最優(yōu)解與基于支持向量機(jī)等其他分類器的窮舉法得到的結(jié)果進(jìn)行比較;更進(jìn)一步當(dāng)k>4時(shí),求解模型,對(duì)于每個(gè)k得到的特征組合,利用支持向量機(jī)等其他分類器進(jìn)行精度評(píng)估;當(dāng)樣本數(shù)據(jù)特征維度>100時(shí),直接求解松弛的線性規(guī)劃模型得到最優(yōu)特征組合; b)比較當(dāng)k變化時(shí)預(yù)測(cè)精度的變化趨勢(shì),識(shí)別最優(yōu)的特征組合。
10.一種在高維數(shù)據(jù)中快速識(shí)別特征組合的系統(tǒng),包括: 數(shù)據(jù)預(yù)處理模塊,用于對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括過濾無預(yù)測(cè)能力的特征、去噪聲、剔除異常數(shù)據(jù)、正規(guī)化、中心化; 模型構(gòu)建模塊,用于構(gòu)建特征組合識(shí)別的最優(yōu)化模型; 模型標(biāo)定模塊,用于對(duì)特征組合識(shí)別`的最優(yōu)化模型進(jìn)行標(biāo)定,確定模型參數(shù)和預(yù)測(cè)閾值; 識(shí)別模塊,用于將具有預(yù)測(cè)能力的特征輸入特征組合識(shí)別的最優(yōu)化模型,得到具有最少特征數(shù)目的最優(yōu)特征組合,在最大的分類精度下實(shí)現(xiàn)樣本數(shù)據(jù)的最優(yōu)劃分。
【文檔編號(hào)】G06F19/00GK103761426SQ201410001461
【公開日】2014年4月30日 申請(qǐng)日期:2014年1月2日 優(yōu)先權(quán)日:2014年1月2日
【發(fā)明者】王勇 申請(qǐng)人:中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院