一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)的制作方法

文檔序號(hào)：6534758閱讀：255來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)。該方法及系統(tǒng)一方面最小化由留一法度量的交叉驗(yàn)證分類誤差、同時(shí)最小化選擇特征的個(gè)數(shù)，最后建模實(shí)現(xiàn)高維數(shù)據(jù)中特征組合的快速識(shí)別，為高維數(shù)據(jù)的統(tǒng)計(jì)分析提供了一個(gè)快速的解決辦法，在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、生物醫(yī)學(xué)等領(lǐng)域有廣泛的應(yīng)用前景。
【專利說明】一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)信息【技術(shù)領(lǐng)域】，涉及一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)。
【背景技術(shù)】
[0002]大數(shù)據(jù)時(shí)代的到來呼喚數(shù)據(jù)建模和分析的研究，例如基于大數(shù)據(jù)的生物標(biāo)記物的健康診斷是一個(gè)重要的研究熱點(diǎn)，有著廣闊的應(yīng)用前景。我們注意到，許多學(xué)科領(lǐng)域的科學(xué)家們開始日益重視并依賴計(jì)算機(jī)方法及數(shù)學(xué)建模作為輔助的研究手段。幫助分析海量的科研數(shù)據(jù)，探究人的形象思維難以企及的高維數(shù)據(jù)空間中隱藏的規(guī)律，并由此催生出一系列新的交叉學(xué)科和研究方向，例如:數(shù)值計(jì)算，數(shù)據(jù)挖掘，生物信息學(xué)，計(jì)算金融，計(jì)算化學(xué)，以及計(jì)算統(tǒng)計(jì)學(xué)理論研究等。這些研究方向所面臨的共同挑戰(zhàn)就是如何正確分析和解讀數(shù)據(jù)中包含的有用信息，從而為研究者提供傳統(tǒng)觀測(cè)手段所無法得到的判據(jù)和模型。其中一個(gè)突出的熱點(diǎn)就是統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的特征選擇方法研究(劉嶠，秦志光，羅旭成，程紅蓉.統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的特征選擇方法綜述，2009中國(guó)計(jì)算機(jī)大會(huì)論文集)。
[0003]特征是一個(gè)抽象的概念，數(shù)學(xué)中可以表示為向量中的元素，應(yīng)用中可以是研究和測(cè)量對(duì)象的一個(gè)屬性。例如在生物醫(yī)學(xué)應(yīng)用中，特征可以是生物標(biāo)記物。生物標(biāo)記物是指能將機(jī)體的生理和病理狀態(tài)區(qū)分開來的生物分子。例如腫瘤標(biāo)志物(Tumor Marker)是反映腫瘤存在的化學(xué)類物質(zhì)。它們或不存在于正常成人組織而僅見于胚胎組織，或在腫瘤組織中的含量大大超過在正常組織里的含量，它們的存在或量變可以提示腫瘤的性質(zhì)，借以了解腫瘤的組織發(fā)生、細(xì)胞分化、細(xì)胞功能，以幫助腫瘤的診斷、分類、預(yù)后判斷以及治療指導(dǎo)。
[0004]特征選擇方法的研究歷史可以追溯到70年代。從1973年Hirotsugu Akaike首次將信息論有關(guān)原理與最大似然法相結(jié)合，提出Akaike信息準(zhǔn)則(AIC, Akaike InformationCriterion),并成功運(yùn)用于統(tǒng)計(jì)模型的選擇開始,特征選擇研究在統(tǒng)計(jì)模式識(shí)別，機(jī)器學(xué)習(xí)，數(shù)據(jù)挖掘等領(lǐng)域取得了長(zhǎng)足的進(jìn)展，其研究成果也已廣泛應(yīng)用于文本分類，基因組分析，圖像提取，入侵檢測(cè)等實(shí)際工作中。近年來學(xué)術(shù)界關(guān)于特征選擇的研究熱點(diǎn)逐漸轉(zhuǎn)向了對(duì)“高維特征空間，小樣本數(shù)據(jù)”情況的研究。其深刻原因是由于信息技術(shù)的發(fā)展對(duì)傳統(tǒng)的數(shù)據(jù)分析技術(shù)提出了嚴(yán)峻的挑戰(zhàn)。例如，在計(jì)算系統(tǒng)生物學(xué)領(lǐng)域，實(shí)驗(yàn)中科學(xué)家們能夠獲得的正反樣本總數(shù)通常不超過100，而待選擇的基因表達(dá)變量的數(shù)量則通常在6，000到30，000這個(gè)數(shù)量級(jí)，是典型的“大特征，小樣本”問題。通過采用適當(dāng)?shù)奶卣鬟x擇方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，則可以實(shí)現(xiàn)在可容忍的信息損失前提下，將特征的維數(shù)降低到數(shù)百乃至數(shù)十，這樣的結(jié)果也更易于分析和解釋。
[0005]在特征選擇研究領(lǐng)域，通常認(rèn)為有四種設(shè)計(jì)模式，分別為Filter,Wrapper,Hybrid和Embeded。其中,Filter和Wrapper的歷史比較悠久,也是最易于理解和得到廣泛實(shí)際應(yīng)用的兩種設(shè)計(jì)模式，而Hybrid和Embeded方法則是近年來新發(fā)展起來的特征選擇算法設(shè)計(jì)模式，目的是克服前述算法中存在的不足，結(jié)合二者的長(zhǎng)處，可探索新的特征選擇算法設(shè)計(jì)模式。
[0006]特征選擇的優(yōu)勢(shì)但同時(shí)也是難點(diǎn)在于特征的組合效應(yīng)。例如通過全自動(dòng)生化分析儀可以測(cè)量到大量病人和健康人群的血清中的蛋白或者代謝小分子的濃度數(shù)據(jù)，一個(gè)直接的應(yīng)用就是構(gòu)建特征選擇模型，來對(duì)比健康人群和病人的不同，找到明顯差異的蛋白或者代謝小分子，作為生物標(biāo)記物，并進(jìn)一步基于他們對(duì)新的樣本和測(cè)量數(shù)據(jù)進(jìn)行健康評(píng)估或者診斷。一般來說，這對(duì)單個(gè)分子而言，可以通過比較該分子在健康和病人人群值的差異，計(jì)算差異倍數(shù)，并作嚴(yán)格的統(tǒng)計(jì)分析，可以得到有區(qū)分能力的單個(gè)標(biāo)記物。但是單個(gè)標(biāo)記物在預(yù)測(cè)的穩(wěn)定性、精度等方面存在不足，急需研究新的方法來使用兩個(gè)或更多種標(biāo)記物的測(cè)量結(jié)果來改進(jìn)檢查中的診斷問題。當(dāng)然一種十分簡(jiǎn)單但通常仍然很有效的方法就是直接對(duì)有預(yù)測(cè)能力的單個(gè)分子標(biāo)記物進(jìn)行疊加，即如果樣品對(duì)被檢標(biāo)記物的至少一種呈陽(yáng)性，則認(rèn)為是陽(yáng)性結(jié)果。但是，對(duì)于復(fù)雜疾病而言，更為重要的、更為關(guān)心的是對(duì)標(biāo)記物之間的非線性組合的發(fā)現(xiàn)，及組合中單個(gè)標(biāo)記物的預(yù)測(cè)能力都很弱，但是組合之后卻有很好、很穩(wěn)定的預(yù)測(cè)能力。
[0007]特征的組合可以通過數(shù)學(xué)建模的辦法來識(shí)別。海量的高維數(shù)據(jù)分析與建模對(duì)數(shù)學(xué)方法帶來了極大的挑戰(zhàn)。構(gòu)建將數(shù)據(jù)維數(shù)降低、利于進(jìn)一步處理、可視化和理解信息的數(shù)學(xué)模型，已成為各科學(xué)領(lǐng)域面對(duì)的一個(gè)共同問題。特別在生物醫(yī)學(xué)交叉研究中，高通量測(cè)序、芯片等實(shí)驗(yàn)手段的快速發(fā)展產(chǎn)生了海量的高維數(shù)據(jù)，對(duì)這些數(shù)據(jù)進(jìn)行高效的、保留較強(qiáng)生物解釋性的降維是計(jì)算生物學(xué)研究的核心問題。該抽象為一個(gè)根據(jù)一定的評(píng)估準(zhǔn)則最優(yōu)地從初始高維特征集合中選出低維特征集合的過程，作為一個(gè)困難問題長(zhǎng)期存在(Isabelle Guyon and Andre Elisseeff.2003.An introduction to variable andfeature selection.J.Mach.Learn.Res.3 (March2003), 1157-1182.)?，F(xiàn)有方法難以勝任高維稀疏模型建模的要求，一方面是因?yàn)檫@些傳統(tǒng)方法中包含對(duì)特征集合的組合優(yōu)化問題，而在超高維空間窮舉搜索最有特征組合的問題已經(jīng)被證明是NP難問題，由于搜索計(jì)算的時(shí)問開銷隨特征空問維度呈指數(shù)增長(zhǎng)，所以在高維特征空間中運(yùn)用這些傳統(tǒng)特征選擇方法在計(jì)算上是不可行的。
[0008]目前現(xiàn)有技術(shù)尚存在以下不足:
[0009](I)在高維特征空(特別是當(dāng)特征維數(shù)遠(yuǎn)大于樣本數(shù)的情況下)，特征選擇在理論和實(shí)踐都缺乏一個(gè)十分好的對(duì)最優(yōu)特征子集的評(píng)價(jià)標(biāo)準(zhǔn)。
[0010](2)在超高維空間窮舉搜索最有特征組合的問題已經(jīng)被證明是NP難問題，由于搜索計(jì)算的時(shí)間開銷隨特征空問維度呈指數(shù)爆炸性增長(zhǎng)，所以在高維特征空間中運(yùn)用這些傳統(tǒng)特征選擇方法在計(jì)算上是不可行的。
[0011](3)目前的方法在數(shù)據(jù)是高維時(shí)，傾向于選出過多的特征，不能去除高度相關(guān)的、冗余的特征，不能發(fā)現(xiàn)特征之間的非線性的組合效應(yīng)。
[0012](4)除此之外，現(xiàn)有的方法將分類和特征選擇割裂進(jìn)行處理，未能實(shí)現(xiàn)同時(shí)最優(yōu)化。

【發(fā)明內(nèi)容】

[0013]針對(duì)上述現(xiàn)有技術(shù)的不足，本發(fā)明提供了一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)。該方法及系統(tǒng)一方面最小化由留一法度量的交叉驗(yàn)證分類誤差、同時(shí)最小化選擇特征的個(gè)數(shù)，最后建模實(shí)現(xiàn)高維數(shù)據(jù)中特征組合的快速識(shí)別，為高維數(shù)據(jù)的統(tǒng)計(jì)分析提供了一個(gè)快速的解決辦法，在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、生物醫(yī)學(xué)等領(lǐng)域有廣泛的應(yīng)用前景。
[0014]為了實(shí)現(xiàn)上述目的，本發(fā)明采用以下技術(shù)方案:
[0015]一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法，包括以下步驟:
[0016]1)獲取樣本數(shù)據(jù)；
[0017]2)根據(jù)獲取的樣本數(shù)據(jù)，構(gòu)建特征組合識(shí)別的最優(yōu)化模型，所述模型的優(yōu)化目標(biāo)為分類精度最大，同時(shí)選擇到特征的個(gè)數(shù)最少；
[0018]3)逐個(gè)分析單個(gè)特征的預(yù)測(cè)能力，并根據(jù)單個(gè)特征的預(yù)測(cè)能力對(duì)所有特征進(jìn)行排序;
[0019]4)將具有預(yù)測(cè)能力的特征輸入到特征組合識(shí)別的最優(yōu)化模型，識(shí)別出最優(yōu)的特征組合。
[0020]進(jìn)一步地，步驟I)中，所述預(yù)處理包括過濾無預(yù)測(cè)能力的特征、去噪聲、剔除異常數(shù)據(jù)、正規(guī)化、中心化等。
[0021]進(jìn)一步地，步驟2)中，通過最近中心分類方法對(duì)樣本數(shù)據(jù)進(jìn)行分類并采用留一法交叉驗(yàn)證分類精度；通過奧卡姆剃刀準(zhǔn)則最小化選擇到特征的個(gè)數(shù)。
[0022]進(jìn)一步地，步驟2)中還包括對(duì)特征組合識(shí)別的最優(yōu)化模型進(jìn)行標(biāo)定，即利用一些未用到訓(xùn)練中的數(shù)據(jù)的預(yù)測(cè)效能，來確定模型的最優(yōu)參數(shù)和預(yù)測(cè)閾值，這是建模的一部分。
[0023]進(jìn)一步地，步驟2)中，所述特征組合識(shí)別的最優(yōu)化模型為混合整數(shù)規(guī)劃模型，具體為:
[0024]
【權(quán)利要求】
1.一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法，包括以下步驟: O獲取樣本數(shù)據(jù)； 2)根據(jù)獲取的樣本數(shù)據(jù)，構(gòu)建特征組合識(shí)別的最優(yōu)化模型，所述模型的優(yōu)化目標(biāo)為分類精度最大，同時(shí)選擇到特征的個(gè)數(shù)最少； 3)逐個(gè)分析單個(gè)特征的預(yù)測(cè)能力，并根據(jù)單個(gè)特征的預(yù)測(cè)能力對(duì)所有特征進(jìn)行排序； 4)將具有預(yù)測(cè)能力的特征輸入到特征組合識(shí)別的最優(yōu)化模型，識(shí)別出最優(yōu)的特征組合。
2.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法，其特征在于，對(duì)步驟O中的樣本進(jìn)行預(yù)處理，所述預(yù)處理包括過濾無預(yù)測(cè)能力的特征、去噪聲、剔除異常數(shù)據(jù)、正規(guī)化、中心化。
3.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法，其特征在于，步驟2)中，構(gòu)建特征組合識(shí)別的最優(yōu)化模型的步驟包括:通過最近中心分類方法對(duì)樣本數(shù)據(jù)進(jìn)行分類并采用留一法交叉驗(yàn)證分類精度；通過奧卡姆剃刀準(zhǔn)則最小化選擇到特征的個(gè)數(shù)。
4.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法，其特征在于，步驟2)中還包括對(duì)特征組合識(shí)別的最優(yōu)化模型進(jìn)行標(biāo)定，確定模型參數(shù)和預(yù)測(cè)閾值。
5.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法，其特征在于，步驟2)中，所述特征組合識(shí)別的最優(yōu)化模型為混合整數(shù)規(guī)劃模型，具體為:
6.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法，其特征在于，步驟3)中，逐個(gè)分析單個(gè)特征的預(yù)測(cè)能力包括:分別計(jì)算單個(gè)特征預(yù)測(cè)能力的ROC曲線下面積，根據(jù)這些計(jì)算結(jié)果繪制單個(gè)特征的火山圖，并對(duì)單個(gè)特征的預(yù)測(cè)能力計(jì)算得到一個(gè)量化的數(shù)值。
7.如權(quán)利要求6所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法，其特征在于，步驟3)中，根據(jù)所述的量化的數(shù)值對(duì)所有特征進(jìn)行排序，還包括對(duì)排序靠后的沒有預(yù)測(cè)能力的單個(gè)特征進(jìn)行刪除。
8.如權(quán)利要求1所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法，其特征在于，步驟4)中，固定特征個(gè)數(shù)為k來求解模型，可以得到特征數(shù)為k的最優(yōu)的特征組合，將k從I逐漸增長(zhǎng)，同時(shí)記錄分類精度的變化，當(dāng)分類精度得到最大的時(shí)候，得到模型輸出的最優(yōu)的特征組合。
9.如權(quán)利要求8所述的在高維數(shù)據(jù)中快速識(shí)別特征組合的方法，其特征在于，步驟4)具體包括以下步驟: a)當(dāng)樣本數(shù)據(jù)特征維度〈100時(shí)，當(dāng)k=l時(shí)求解模型,得到的最優(yōu)解與單個(gè)特征的預(yù)測(cè)能力進(jìn)行對(duì)比；進(jìn)一步當(dāng)k=2，3時(shí)求解模型，得到的最優(yōu)解與基于支持向量機(jī)等其他分類器的窮舉法得到的結(jié)果進(jìn)行比較；更進(jìn)一步當(dāng)k>4時(shí)，求解模型，對(duì)于每個(gè)k得到的特征組合，利用支持向量機(jī)等其他分類器進(jìn)行精度評(píng)估；當(dāng)樣本數(shù)據(jù)特征維度>100時(shí)，直接求解松弛的線性規(guī)劃模型得到最優(yōu)特征組合； b)比較當(dāng)k變化時(shí)預(yù)測(cè)精度的變化趨勢(shì)，識(shí)別最優(yōu)的特征組合。
10.一種在高維數(shù)據(jù)中快速識(shí)別特征組合的系統(tǒng)，包括: 數(shù)據(jù)預(yù)處理模塊，用于對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)處理，所述預(yù)處理包括過濾無預(yù)測(cè)能力的特征、去噪聲、剔除異常數(shù)據(jù)、正規(guī)化、中心化；模型構(gòu)建模塊，用于構(gòu)建特征組合識(shí)別的最優(yōu)化模型；模型標(biāo)定模塊，用于對(duì)特征組合識(shí)別`的最優(yōu)化模型進(jìn)行標(biāo)定，確定模型參數(shù)和預(yù)測(cè)閾值；識(shí)別模塊，用于將具有預(yù)測(cè)能力的特征輸入特征組合識(shí)別的最優(yōu)化模型，得到具有最少特征數(shù)目的最優(yōu)特征組合，在最大的分類精度下實(shí)現(xiàn)樣本數(shù)據(jù)的最優(yōu)劃分。
【文檔編號(hào)】G06F19/00GK103761426SQ201410001461
【公開日】2014年4月30日申請(qǐng)日期:2014年1月2日優(yōu)先權(quán)日:2014年1月2日
【發(fā)明者】王勇申請(qǐng)人:中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王勇
技術(shù)所有人：中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

gbdt高維稀疏特征相關(guān)技術(shù)

高維特征空間相關(guān)技術(shù)

高維特征相關(guān)技術(shù)

高維特征可視化相關(guān)技術(shù)

高維稀疏特征相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種在高維數(shù)據(jù)中快速識(shí)別特征組合的方法及系統(tǒng)的制作方法