專利名稱:數(shù)據(jù)分析方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種分析數(shù)據(jù)的方法,并且特別地涉及使用人工神經(jīng)網(wǎng)絡(luò)(ANN)來(lái)分析數(shù)據(jù)并識(shí)別輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系。
背景技術(shù):
人工神經(jīng)網(wǎng)絡(luò)(ANN)或“神經(jīng)網(wǎng)絡(luò)”是包含相互連接的一組神經(jīng)元的數(shù)學(xué)模型或計(jì)算模型,該數(shù)學(xué)模型或計(jì)算模型能夠處理信息,以便對(duì)輸入和輸出之間的關(guān)系進(jìn)行建?;蛘甙l(fā)現(xiàn)數(shù)據(jù)中的模式。因此,神經(jīng)網(wǎng)絡(luò)可以被看作一種非線性統(tǒng)計(jì)數(shù)據(jù)建模工具并且通常為能夠基于在訓(xùn)練階段流過(guò)網(wǎng)絡(luò)的外部或內(nèi)部信息來(lái)改變其結(jié)構(gòu)的自適應(yīng)系統(tǒng)。網(wǎng)絡(luò)中的連接的強(qiáng)度或權(quán)重在訓(xùn)練期間可以更改,以便生成期望的信號(hào)流??梢詷?gòu)造各種類型的神經(jīng)網(wǎng)絡(luò)。例如,前饋神經(jīng)網(wǎng)絡(luò)是最簡(jiǎn)單類型的ANN中的一種,在前饋神經(jīng)網(wǎng)絡(luò)中信息僅沿一個(gè)方向移動(dòng),并且遞歸網(wǎng)絡(luò)為具有雙向數(shù)據(jù)流動(dòng)的模型。 可使用許多其它神經(jīng)網(wǎng)絡(luò)類型。前饋網(wǎng)絡(luò)的一種特殊變型是多層感知器,所述多層感知器使用具有非線性激活函數(shù)的三層或多層神經(jīng)元(節(jié)點(diǎn)),并且多層感知器比單層感知器模型更強(qiáng)大之處在于多層感知器能夠判別非線性可分的數(shù)據(jù)。在學(xué)習(xí)階段訓(xùn)練神經(jīng)網(wǎng)絡(luò)的能力使得網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)/神經(jīng)元之間的加權(quán)函數(shù)能被改變,使得網(wǎng)絡(luò)能夠用于對(duì)輸入數(shù)據(jù)進(jìn)行處理或分類。各種不同的學(xué)習(xí)模型可以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),例如“監(jiān)督學(xué)習(xí)”,在監(jiān)督學(xué)習(xí)中,與一個(gè)或多個(gè)結(jié)果或條件相關(guān)的一組實(shí)施例數(shù)據(jù)用于訓(xùn)練網(wǎng)絡(luò),使得網(wǎng)絡(luò)能夠例如對(duì)于任何給定的輸入數(shù)據(jù)來(lái)預(yù)測(cè)結(jié)果。因此,監(jiān)督學(xué)習(xí)可以被看作輸入數(shù)據(jù)和一個(gè)或多個(gè)結(jié)果之間的映射關(guān)系的推理。訓(xùn)練一個(gè)人工神經(jīng)網(wǎng)絡(luò)可包含將網(wǎng)絡(luò)輸出與期望輸出進(jìn)行比較,并且利用兩個(gè)輸出之間的誤差來(lái)調(diào)節(jié)網(wǎng)絡(luò)的節(jié)點(diǎn)之間的權(quán)重。在一種學(xué)習(xí)模型中,可定義代價(jià)函數(shù)C,并且訓(xùn)練可包括改變節(jié)點(diǎn)權(quán)重,直到不再能使函數(shù)C進(jìn)一步最小化。通過(guò)這種方式,可以獲得輸入數(shù)據(jù)和結(jié)果或一系列結(jié)果之間的關(guān)系。代價(jià)函數(shù)的實(shí)施例可以為C = E [ (f (χ)-y)2], 此處(X,y)為從某分布D取得的數(shù)據(jù)對(duì)。在一個(gè)應(yīng)用中,可以用來(lái)自從健康的患者以及從患有癌癥的患者所取到的組織的基因表達(dá)數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在這個(gè)實(shí)施例中網(wǎng)絡(luò)的訓(xùn)練可判別出為癌癥的生物標(biāo)記的基因或基因組。訓(xùn)練的網(wǎng)絡(luò)可用于基于組織樣本的分析結(jié)果來(lái)預(yù)測(cè)給定人患癌癥的可能性??墒褂萌斯ど窠?jīng)網(wǎng)絡(luò)的另一個(gè)技術(shù)領(lǐng)域是氣象學(xué),例如,在一段時(shí)間內(nèi)一系列地點(diǎn)處的溫度或壓力數(shù)據(jù)可用于確定在給定時(shí)間、給定地點(diǎn)發(fā)生降雨的可能性。使用人工神經(jīng)網(wǎng)絡(luò)的已知問(wèn)題是當(dāng)網(wǎng)絡(luò)的容量顯著超過(guò)所需自由參數(shù)時(shí)在過(guò)復(fù)雜或超特化系統(tǒng)中出現(xiàn)過(guò)訓(xùn)練問(wèn)題。該問(wèn)題可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)建議特定參數(shù)是重要的,而實(shí)際上特定參數(shù)不重要。這是由于具有較高重要性的一組參數(shù)的判別以及參數(shù)的錯(cuò)誤檢測(cè)引起的。當(dāng)對(duì)未見(jiàn)數(shù)據(jù)/情況進(jìn)行分類時(shí),這些參數(shù)可能具有較差的性能。
本發(fā)明的一個(gè)目的是提供一種利用克服或基本減輕上述問(wèn)題的神經(jīng)網(wǎng)絡(luò)來(lái)分析數(shù)據(jù)的方法。發(fā)明概述根據(jù)本發(fā)明的第一個(gè)方案,提供一種確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,所述方法包括如下步驟接收被分類成一個(gè)或多個(gè)預(yù)定類別的條件的輸入數(shù)據(jù); 使用輸入數(shù)據(jù)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),所述人工神經(jīng)網(wǎng)絡(luò)包括輸入層,所述輸入層具有設(shè)置為接收輸入數(shù)據(jù)的一個(gè)或多個(gè)輸入節(jié)點(diǎn);隱含層,所述隱含層包括兩個(gè)或多個(gè)隱含節(jié)點(diǎn),所述隱含層的節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至輸入層的一個(gè)或多個(gè)節(jié)點(diǎn);以及輸出層,所述輸出層具有設(shè)置為輸出與一個(gè)或多個(gè)條件相關(guān)的數(shù)據(jù)的輸出節(jié)點(diǎn),所述輸出節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重連接至所述隱含層的節(jié)點(diǎn);確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系,其中所述人工神經(jīng)網(wǎng)絡(luò)具有受約束結(jié)構(gòu),其中,(i)隱含層內(nèi)的隱含節(jié)點(diǎn)的數(shù)量受約束;并且(ii)節(jié)點(diǎn)之間的連接的初始權(quán)重受限制。本發(fā)明提供一種分析方法,所述分析方法強(qiáng)調(diào)輸入數(shù)據(jù)中的尤其對(duì)于預(yù)測(cè)是否可得到給定結(jié)果有用的那些參數(shù)。換句話說(shuō),與現(xiàn)有技術(shù)系統(tǒng)相比,本發(fā)明的方法有效地增大了各種輸入?yún)?shù)之間的差別或“對(duì)照”,從而識(shí)別出從預(yù)測(cè)能力的觀點(diǎn)看最相關(guān)的參數(shù)。本發(fā)明提供一種利用人工神經(jīng)網(wǎng)絡(luò)來(lái)確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法。本發(fā)明中使用的ANN具有受約束結(jié)構(gòu),其中,ANN的隱含層內(nèi)的節(jié)點(diǎn)的數(shù)量受約束,并且其中節(jié)點(diǎn)之間的連接的初始權(quán)重受限制。因此,本發(fā)明的方法提出了一種與現(xiàn)有技術(shù)的普通教導(dǎo)相反地運(yùn)行的ANN結(jié)構(gòu)。 在現(xiàn)有技術(shù)系統(tǒng)中,隱含層的大小在所使用的處理系統(tǒng)的約束最大化,而在本發(fā)明中使結(jié)構(gòu)有意受約束以便增加網(wǎng)絡(luò)的預(yù)測(cè)能力的有效性和高維系統(tǒng)內(nèi)的相關(guān)和非相關(guān)的標(biāo)記之間的對(duì)照。與已知系統(tǒng)相比較,本發(fā)明提供的優(yōu)點(diǎn)在于,提高了對(duì)于識(shí)別的標(biāo)記的預(yù)測(cè)性能,并且由根據(jù)本發(fā)明的方法所識(shí)別的那些標(biāo)記與系統(tǒng)內(nèi)的基本處理相關(guān)。優(yōu)選地,為了使本發(fā)明的預(yù)測(cè)有效性最大化,隱含節(jié)點(diǎn)的數(shù)量在兩個(gè)至五個(gè)的范圍內(nèi)。更優(yōu)選地,隱含節(jié)點(diǎn)的數(shù)量設(shè)定為兩個(gè)。優(yōu)選地,節(jié)點(diǎn)之間的連接的初始權(quán)重具有在0. 01至0. 5的范圍內(nèi)的標(biāo)準(zhǔn)差。注意的是,降低標(biāo)準(zhǔn)差使得人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)性能較差。提升標(biāo)準(zhǔn)差減少了對(duì)網(wǎng)絡(luò)的約束。更優(yōu)選地,節(jié)點(diǎn)之間的連接的初始權(quán)重具有0. 1的標(biāo)準(zhǔn)差。方便的是,輸入數(shù)據(jù)包括被分類成一個(gè)或多個(gè)條件(例如,癌性或健康)的數(shù)據(jù)對(duì) (例如,基因或基因表達(dá)數(shù)據(jù))。在基因數(shù)據(jù)的實(shí)施例中,那么基因可以被看作參數(shù)和作為相關(guān)參數(shù)值的表達(dá)數(shù)據(jù)。此外,輸入數(shù)據(jù)可以被分組成多個(gè)樣本,每個(gè)樣本具有等同選擇的數(shù)據(jù)對(duì)(例如,基因和基因表達(dá)數(shù)據(jù)可以細(xì)分多個(gè)個(gè)體的條件-健康/癌性)。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可以方便地包括在每個(gè)樣本中選擇特定參數(shù)(即,每個(gè)樣本中的相同參數(shù)),并且然后使用與所選擇參數(shù)相關(guān)聯(lián)的參數(shù)值來(lái)訓(xùn)練網(wǎng)絡(luò)。可為所選擇參數(shù)記錄網(wǎng)絡(luò)的性能,并且然后可依次為樣本中的每個(gè)參數(shù)重復(fù)該過(guò)程。本發(fā)明的第一個(gè)方案的確定步驟可包括針對(duì)已知條件對(duì)每個(gè)選擇參數(shù)的記錄性能進(jìn)行分級(jí),并且然后可以選出最佳表現(xiàn)參數(shù)。一旦已經(jīng)確定多個(gè)樣本中的最佳表現(xiàn)參數(shù),那么進(jìn)一步的選擇步驟可包括將該最佳表現(xiàn)參數(shù)與剩余參數(shù)中的一個(gè)配對(duì)。然后,可以使用與一對(duì)所選擇參數(shù)相關(guān)的參數(shù)值進(jìn)一步訓(xùn)練網(wǎng)絡(luò)并且記錄網(wǎng)絡(luò)的性能。如之前所述,最佳表現(xiàn)參數(shù)隨后可以依次與剩余參數(shù)中的每一個(gè)配對(duì)。然后,可以重復(fù)選擇、訓(xùn)練和記錄步驟,依次將一個(gè)參數(shù)添加到已知最佳表現(xiàn)參數(shù)中,直到不獲得性能的進(jìn)一步實(shí)質(zhì)的增加。方便的是,注意的是輸入數(shù)據(jù)可以被分組成多個(gè)樣本,每個(gè)樣本具有等同選擇的數(shù)據(jù)對(duì),每個(gè)數(shù)據(jù)對(duì)被分類成一個(gè)或多個(gè)條件并且包括參數(shù)和相關(guān)的參數(shù)值,并且本發(fā)明的第一個(gè)方案的訓(xùn)練和確定步驟可包括在輸入數(shù)據(jù)內(nèi)選擇參數(shù),使用對(duì)應(yīng)的參數(shù)值來(lái)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)并且記錄人工神經(jīng)網(wǎng)絡(luò)的性能;對(duì)于輸入數(shù)據(jù)內(nèi)的每個(gè)參數(shù)重復(fù);確定輸入數(shù)據(jù)中的最佳表現(xiàn)參數(shù);以及重復(fù)選擇、重復(fù)和確定,每次重復(fù)將剩余參數(shù)中的一個(gè)添加到最佳表現(xiàn)參數(shù)組合中,直到人工神經(jīng)網(wǎng)絡(luò)的性能不再提高。在根據(jù)本發(fā)明的一個(gè)實(shí)施方案的方法的一個(gè)應(yīng)用中,參數(shù)可表示基因,并且參數(shù)值可表示基因表達(dá)數(shù)據(jù)。在另一應(yīng)用中,參數(shù)可表示蛋白質(zhì),并且參數(shù)值可表示活性函數(shù)。在根據(jù)本發(fā)明的一個(gè)實(shí)施方案的方法的其它應(yīng)用中,參數(shù)可表示氣象參數(shù),例如給定地點(diǎn)處的溫度或降雨量,并且參數(shù)值可表示相關(guān)的溫度值或降雨量值。然而,注意的是,根據(jù)本發(fā)明的方法可應(yīng)用于存在在一段之間內(nèi)在不同狀態(tài)下出現(xiàn)的大量相互作用因素的任何復(fù)雜系統(tǒng)。根據(jù)本發(fā)明的第二個(gè)方案,提供一種確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,所述方法包括接收被分類成一個(gè)或多個(gè)預(yù)定類別的條件的輸入數(shù)據(jù);利用神經(jīng)網(wǎng)絡(luò)來(lái)確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系,人工神經(jīng)網(wǎng)絡(luò)包括輸入層,所述輸入層具有設(shè)置為接收輸入數(shù)據(jù)的一個(gè)或多個(gè)輸入節(jié)點(diǎn);隱含層,所述隱含層包括兩個(gè)或多個(gè)隱含節(jié)點(diǎn),隱含層的節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至輸入層的一個(gè)或多個(gè)節(jié)點(diǎn);以及輸出層,所述輸出層具有設(shè)置為輸出與一個(gè)或多個(gè)條件相關(guān)的數(shù)據(jù)的輸出節(jié)點(diǎn),所述輸出節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至隱含層的節(jié)點(diǎn),其中人工神經(jīng)網(wǎng)絡(luò)具有如下受約束結(jié)構(gòu) ⑴隱含層內(nèi)的隱含節(jié)點(diǎn)的數(shù)量受約束;以及(ii)節(jié)點(diǎn)之間的連接的初始權(quán)重受限制。根據(jù)本發(fā)明的第三個(gè)方案,提供一種用于確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的人工神經(jīng)網(wǎng)絡(luò),所述人工神經(jīng)網(wǎng)絡(luò)包括輸入層,所述輸入層具有設(shè)置為接收被分類成一個(gè)或多個(gè)預(yù)定類別的條件的輸入數(shù)據(jù)的一個(gè)或多個(gè)輸入節(jié)點(diǎn);隱含層,所述隱含層包括兩個(gè)或多個(gè)隱含節(jié)點(diǎn),所述隱含層的節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至輸入層的一個(gè)或多個(gè)節(jié)點(diǎn);以及輸出層,所述輸出層具有設(shè)置為輸出與一個(gè)或多個(gè)條件相關(guān)的數(shù)據(jù)的輸出節(jié)點(diǎn),所述輸出節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至隱含層的節(jié)點(diǎn);其中,所述人工神經(jīng)網(wǎng)絡(luò)具有如下受約束結(jié)構(gòu)(i)隱含層內(nèi)的隱含節(jié)點(diǎn)的數(shù)量受約束;以及(ii)節(jié)點(diǎn)之間的連接的初始權(quán)重受限制。本發(fā)明延伸到用于確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的計(jì)算機(jī)系統(tǒng),所述計(jì)算機(jī)系統(tǒng)包括根據(jù)本發(fā)明的第三個(gè)方案的人工神經(jīng)網(wǎng)絡(luò)。將理解的是,可在本發(fā)明的第二個(gè)和第三個(gè)方案中、以及任一個(gè)方案單獨(dú)或在適當(dāng)?shù)慕M合中提供本發(fā)明的第一個(gè)方案的優(yōu)選的和/或任選的特征。
為了更易于理解本發(fā)明,現(xiàn)在通過(guò)實(shí)施例的方式參考附圖,其中
圖1示出了典型(已知)人工神經(jīng)網(wǎng)絡(luò)的表示;圖2圖示了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的機(jī)制;圖3為要與依據(jù)本發(fā)明的一個(gè)實(shí)施方案的人工神經(jīng)網(wǎng)絡(luò)相結(jié)合地使用的基因表達(dá)數(shù)據(jù)的表示;圖4示出了依據(jù)本發(fā)明的一個(gè)實(shí)施方案的人工神經(jīng)網(wǎng)絡(luò);圖5為對(duì)并入依據(jù)本發(fā)明的一個(gè)實(shí)施方案的人工神經(jīng)網(wǎng)絡(luò)的系統(tǒng)的運(yùn)行進(jìn)行詳述的流程圖;圖6示出了在使用輸入數(shù)據(jù)集時(shí)依據(jù)本發(fā)明的人工網(wǎng)絡(luò)如何發(fā)展;圖7(a)_(g)示出了來(lái)自本發(fā)明的逐步式ANN建模軟件的屏幕快照?qǐng)D。每個(gè)圖 (a)-(g)表示用于模型構(gòu)建和分析的軟件內(nèi)可提供的不同任選屏幕。圖8為示出在分析已吸收縮氨酸數(shù)據(jù)的每個(gè)步驟中添加的離子的逐步概述的曲線圖;階段IV黑素瘤對(duì)控制。標(biāo)記有 點(diǎn)的線表示具有表示為誤差條的95%置信間隔的每個(gè)步驟的均方誤差值。標(biāo)記有·點(diǎn)的線表示具有表示為誤差條的四分位間范圍的在分析的每個(gè)步驟處的平均模型精度。圖9為示出患病組對(duì)控制樣本的逐步式模型性能的總體概述的曲線圖;圖10為示出患病組對(duì)控制樣本的逐步式模型性能的另一總體概述的曲線圖;圖ll(a)_(c)為示出利用由ANN逐步式方法所識(shí)別的生物標(biāo)記離子的主成分分析的散點(diǎn)圖。按點(diǎn)的式樣來(lái)區(qū)分樣本組。圖12為示出由ANN識(shí)別的縮氨酸生物標(biāo)記離子的平均組強(qiáng)度的柱狀圖。示出了橫跨不同階段的全部關(guān)鍵生物標(biāo)記。圖13為對(duì)于階段II和階段III的黑素瘤離子861對(duì)離子903的散點(diǎn)圖。方形· 表示階段III的樣本,而圓圈眷表示階段II的樣本。圖14為示出在分析過(guò)程中添加每個(gè)輸入的情況下模型性能的曲線圖。帶有■點(diǎn)的線表示具有表示為誤差條的下四分位間范圍和上四分位間范圍的平均模型精度。帶有 點(diǎn)的線表示在誤差條表示95%的置信間隔的情況下在每個(gè)步驟中預(yù)測(cè)的均方誤差。圖15(a)_(b)為示出在對(duì)于(a)雌激素受體蛋白(ER)狀況和(b)淋巴結(jié)(LN)狀況的分析過(guò)程中添加每個(gè)輸入的情況下模型性能的曲線圖。帶有■點(diǎn)的線表示具有表示為誤差條的下四分位間范圍和上四分位間范圍的平均模型精度。帶有▲點(diǎn)的線表示在誤差條表示95%的置信間隔的情況下在每個(gè)步驟中預(yù)測(cè)的均方誤差。圖16 (a)-(b)為示出對(duì)于(a) ER和(b) LN狀況對(duì)在步驟1中識(shí)別的最上面十個(gè)基因進(jìn)行逐步式分析的概述的曲線圖。圖17為示出隨機(jī)生成模型的正態(tài)分布的曲線圖。圖18(a)-(c)為示出隨機(jī)模型與使用本發(fā)明的逐步式方法所生成的模型的性能比較的盒式圖。發(fā)明詳述傳統(tǒng)線性基ANN模型的一個(gè)缺陷是,模型通常不能夠?qū)?wèn)題進(jìn)行很好地泛化,并且因此模型可能僅適應(yīng)于模型最初應(yīng)用的數(shù)據(jù)集。仿真實(shí)驗(yàn)已經(jīng)表明,逐步式邏輯回歸在小數(shù)據(jù)集中選擇重要變量方面能力有限并且因此具有過(guò)擬合的風(fēng)險(xiǎn)(Steyerberg,Ε. W., Eijkemans,M. J.和Habbema,J. D. (1999),在小數(shù)據(jù)集中的選擇邏輯回歸分析中的偏差的仿真研究,J Clin Epidemiol,52,935-942)。另外,自動(dòng)選擇程序?yàn)榉侵饔^性的并且忽略了邏輯約束。由于已經(jīng)表明模型可應(yīng)用于用于驗(yàn)證的單個(gè)數(shù)據(jù)集并且因此能夠泛化新數(shù)據(jù), 并且因此當(dāng)使用這種方法時(shí)沒(méi)有觀察到過(guò)擬合,應(yīng)用的本發(fā)明的神經(jīng)網(wǎng)絡(luò)逐步式方法不分擔(dān)現(xiàn)有技術(shù)的限制。圖1為人工神經(jīng)網(wǎng)絡(luò)1的依賴樹(shù)形表示??梢钥闯觯瑘D中所描繪的網(wǎng)絡(luò)1分成三個(gè)基本層輸入層3,其接收輸入數(shù)據(jù);隱含層5 ;以及輸出層7,其返回結(jié)果。在圖1中的實(shí)施例中,存在三個(gè)輸入級(jí)節(jié)點(diǎn)、η個(gè)隱含層節(jié)點(diǎn)(為了簡(jiǎn)潔起見(jiàn),僅示出了其中的五個(gè))以及兩個(gè)輸出級(jí)節(jié)點(diǎn)。注意的是,隱含層的數(shù)量可以變化。通過(guò)連接箭頭9表示圖1中節(jié)點(diǎn)之間的各種相互連接。對(duì)于輸入層中的第一個(gè)節(jié)點(diǎn),分配到與隱含層節(jié)點(diǎn)的連接的各個(gè)權(quán)重由權(quán)重^^^^和^表示。為了簡(jiǎn)潔,在該圖中未示出其余連接上的權(quán)重。神經(jīng)網(wǎng)絡(luò)被設(shè)置為使得輸入數(shù)據(jù)被饋送到輸入層3并且隨后在從輸入層3傳遞到隱含層5時(shí)乘以相互連接的權(quán)重。在隱含層5內(nèi),數(shù)據(jù)被合計(jì),然后由非線性函數(shù)(例如, 雙曲正切函數(shù)或反曲傳遞函數(shù))處理。在處理的數(shù)據(jù)離開(kāi)隱含層到輸出層7時(shí),數(shù)據(jù)再次乘以連接權(quán)重,隨后在輸出層內(nèi)進(jìn)行合計(jì)和處理以生成神經(jīng)網(wǎng)絡(luò)的輸出。對(duì)于多層感知器和許多其它神經(jīng)網(wǎng)絡(luò)而言最流行的訓(xùn)練算法中的一個(gè)是稱為反向傳播的算法。通過(guò)反向傳播,輸入數(shù)據(jù)重復(fù)地提供給神經(jīng)網(wǎng)絡(luò)。通過(guò)每次提供,神經(jīng)網(wǎng)絡(luò)的輸出與期望輸出進(jìn)行比較,并且計(jì)算出誤差。該誤差隨后反饋(反向傳播)給神經(jīng)網(wǎng)絡(luò)并且用于調(diào)節(jié)權(quán)重,使得誤差隨著每次迭代而減小并且神經(jīng)模型越來(lái)越靠近生成期望輸出。該過(guò)程稱為“訓(xùn)練”。圖2為神經(jīng)網(wǎng)絡(luò)1的訓(xùn)練的表示。在訓(xùn)練期間,網(wǎng)絡(luò)重復(fù)地被供給輸入數(shù)據(jù)11 (在這種情況下,為排斥或數(shù)據(jù)、異或數(shù)據(jù))。在每次供給數(shù)據(jù)11時(shí),計(jì)算出網(wǎng)絡(luò)輸出15和期望輸出17之間的誤差13并且反饋給神經(jīng)網(wǎng)絡(luò)1。神經(jīng)網(wǎng)絡(luò)1利用該誤差來(lái)調(diào)節(jié)其權(quán)重以使誤差減小。通常重復(fù)事件的這一順序,直到已達(dá)到可接受誤差或直到網(wǎng)絡(luò)不再表示為學(xué)習(xí)。當(dāng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),學(xué)習(xí)率是在許多學(xué)習(xí)算法中發(fā)現(xiàn)的參數(shù),該參數(shù)改變網(wǎng)絡(luò)到達(dá)最小解的速度。如果速率太高,那么網(wǎng)絡(luò)可能?chē)@解振蕩或者背離解。如果速率太低,那么網(wǎng)絡(luò)可能花費(fèi)太多時(shí)間到達(dá)解。在訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)期間可改變的另一參數(shù)是動(dòng)量參數(shù),所述動(dòng)量參數(shù)用于防止網(wǎng)絡(luò)收斂到局部最小值或鞍點(diǎn)上。過(guò)高的動(dòng)量參數(shù)過(guò)調(diào)最小值的風(fēng)險(xiǎn)。太低的動(dòng)量參數(shù)可導(dǎo)致網(wǎng)絡(luò)不能可靠地避開(kāi)局部最小值。已經(jīng)討論了人工神經(jīng)網(wǎng)絡(luò)的使用和訓(xùn)練,下面討論在本發(fā)明的實(shí)施方案的背景下神經(jīng)網(wǎng)絡(luò)的應(yīng)用。注意的是,盡管下面討論的實(shí)施例與生物信息學(xué)相關(guān),本文說(shuō)明的發(fā)明適應(yīng)于其它技術(shù)領(lǐng)域,例如,氣象預(yù)測(cè)、污染預(yù)測(cè)、環(huán)境預(yù)測(cè)等。圖3為10個(gè)個(gè)體(樣本)的高度概括的一組基因和基因表達(dá)數(shù)據(jù)。對(duì)于每個(gè)樣本,相同組的基因及其相關(guān)的基因表達(dá)數(shù)據(jù)連同條件或狀態(tài)一起被細(xì)分,在此情況下為“健康”或“癌性”。與圖5中的流程圖以及圖4和圖6的網(wǎng)絡(luò)表示相關(guān)聯(lián)地說(shuō)明在本發(fā)明的背景下對(duì)該數(shù)據(jù)集的處理。圖4描繪了結(jié)合本發(fā)明的方法使用的人工神經(jīng)網(wǎng)絡(luò)20的最初形式。從圖中可以看出,與在現(xiàn)有技術(shù)系統(tǒng)中發(fā)現(xiàn)的20+節(jié)點(diǎn)相對(duì),隱含層22僅包括兩個(gè)節(jié)點(diǎn)04,沈)。最初, 存在單一輸入節(jié)點(diǎn)觀,但是下面與圖5和圖6相關(guān)聯(lián)地說(shuō)明,輸入節(jié)點(diǎn)的數(shù)量逐漸增加,直到神經(jīng)網(wǎng)絡(luò)的性能不能得到進(jìn)一步提高。如上所述,關(guān)于神經(jīng)網(wǎng)絡(luò)的已知問(wèn)題是如下事實(shí)神經(jīng)網(wǎng)絡(luò)可被過(guò)訓(xùn)練,從而實(shí)際上對(duì)于所有的輸入數(shù)據(jù)參數(shù)能夠獲得輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的關(guān)系。在依據(jù)本發(fā)明的實(shí)施方案的人工神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)被設(shè)置為提高網(wǎng)絡(luò)識(shí)別最相關(guān)輸入?yún)?shù)的能力。為此目的,隱含層內(nèi)的節(jié)點(diǎn)的數(shù)量受限制,優(yōu)選地在五個(gè)節(jié)點(diǎn)以下,尤其限制為兩個(gè)節(jié)點(diǎn)。除此之外,節(jié)點(diǎn)之間的相互連接的初始權(quán)重之間的標(biāo)準(zhǔn)差也受約束。優(yōu)選地,相互連接的初始權(quán)重的標(biāo)準(zhǔn)差σ置于0. 01至0. 5的范圍內(nèi),最優(yōu)值為0. 1。圖5為示出依據(jù)本發(fā)明的實(shí)施方案分析圖3中的數(shù)據(jù)集的方法的流程圖。在步驟40中,識(shí)別要用于分析方法中的輸入變量和輸出變量。在圖3的數(shù)據(jù)集的實(shí)施例中,輸入數(shù)據(jù)為與基因相關(guān)的基因表達(dá)數(shù)據(jù),并且輸出數(shù)據(jù)為條件(即,健康對(duì)癌性)數(shù)據(jù)。注意的是,輸出節(jié)點(diǎn)將返回在“0”至“1”的范圍內(nèi)的數(shù)值輸出,并且系統(tǒng)可被設(shè)置為使得“0”對(duì)應(yīng)于健康且“ 1,,對(duì)應(yīng)于癌性。在步驟42中,選擇輸入(即,特定基因,例如基因C)作為對(duì)圖4中所示的ANN的輸入(輸入1)。在步驟44中,利用隨機(jī)樣本交叉驗(yàn)證來(lái)訓(xùn)練ANN。換句話說(shuō),總體數(shù)據(jù)集的子集用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),“訓(xùn)練子集”。在圖3的數(shù)據(jù)集的背景下,這可能意味著,對(duì)于從樣本1-3 和8-10中選出的基因(基因C)的基因表達(dá)數(shù)據(jù)用于訓(xùn)練網(wǎng)絡(luò)。在該訓(xùn)練階段中,來(lái)自網(wǎng)絡(luò)的輸出條件(健康對(duì)癌性)可與真實(shí)條件比較。在步驟46中,記錄并存儲(chǔ)對(duì)于輸入1人工神經(jīng)網(wǎng)絡(luò)的性能。在步驟48中,選擇另一基因作為唯一輸入來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),并且系統(tǒng)再次循環(huán)回到步驟44,從而利用該新數(shù)據(jù)再次從初始狀態(tài)訓(xùn)練網(wǎng)絡(luò)。例如,基因H可為要選擇的下一個(gè)輸入,并且然后來(lái)自樣本1-3和8-10的對(duì)于基因H的基因表達(dá)數(shù)據(jù)可再次用于訓(xùn)練網(wǎng)絡(luò)。然后,對(duì)于作為網(wǎng)絡(luò)的唯一輸入的每個(gè)輸入(即,圖3的實(shí)施例中基因及其相關(guān)表達(dá)數(shù)據(jù))重復(fù)步驟44和46 (經(jīng)由箭頭50表示),并且對(duì)于每個(gè)輸入記錄網(wǎng)絡(luò)性能?!┯?xùn)練子集中的每個(gè)輸入已用作輸入,系統(tǒng)進(jìn)行到步驟52,在步驟52中,根據(jù)來(lái)自真實(shí)結(jié)果的誤差對(duì)各個(gè)輸入分級(jí),并且選出最佳表現(xiàn)輸入。在步驟M中,系統(tǒng)繼續(xù)用一對(duì)輸入來(lái)訓(xùn)練網(wǎng)絡(luò),一對(duì)輸入中的一個(gè)為在步驟52中識(shí)別的最佳表現(xiàn)輸入,并且另一個(gè)是來(lái)自訓(xùn)練子集的其余輸入中的一個(gè)。記錄使用該對(duì)輸入得到的網(wǎng)絡(luò)性能。然后,系統(tǒng)依次使用來(lái)自訓(xùn)練子集的其余輸入中的每一個(gè)來(lái)重復(fù)該過(guò)程(經(jīng)由箭頭56表示),即,其余輸入中的每一個(gè)依次與在步驟48中識(shí)別的最佳表現(xiàn)唯一輸入配對(duì)。一旦已經(jīng)使用其余輸入中的每一個(gè),系統(tǒng)在步驟58中識(shí)別最佳表現(xiàn)輸入對(duì)。然后,系統(tǒng)返回到步驟42 (經(jīng)由箭頭60表示)并且重復(fù)整個(gè)過(guò)程,持續(xù)地添加輸入,直到未檢測(cè)到人工神經(jīng)網(wǎng)絡(luò)的性能的進(jìn)一步提高(步驟62)。在這點(diǎn)上,人工神經(jīng)網(wǎng)絡(luò)已經(jīng)識(shí)別到與結(jié)果最緊密相關(guān)的輸入。在圖3的基因/基因表達(dá)數(shù)據(jù)實(shí)施例的情況下,系統(tǒng)已經(jīng)識(shí)別出樣本個(gè)體中指向患有癌癥的數(shù)據(jù)集的基因生物標(biāo)記。圖6a_c示出了通過(guò)圖5的流程圖的前幾個(gè)循環(huán)人工神經(jīng)網(wǎng)絡(luò)20的發(fā)展。在圖6a中,神經(jīng)網(wǎng)絡(luò)如圖4中所示。為與輸入1相關(guān)的基因表達(dá)數(shù)據(jù)提供單個(gè)輸入觀。在圖6b中,已經(jīng)基于未見(jiàn)(模型未見(jiàn))驗(yàn)證集的性能選出最佳表現(xiàn)單一輸入(步驟52),并且系統(tǒng)已經(jīng)進(jìn)行到測(cè)試輸入對(duì)的性能。因此,輸入層中的節(jié)點(diǎn)的數(shù)量增加為兩個(gè)節(jié)點(diǎn)08,30)。隱含層中的節(jié)點(diǎn)的數(shù)量仍限制為兩個(gè),并且相互連接的初始權(quán)重類似地受約束(按照?qǐng)D4中的設(shè)置)以便優(yōu)化網(wǎng)絡(luò)性能。在圖6c中,已經(jīng)選出最佳表現(xiàn)輸入對(duì)(包括來(lái)自圖6a的最佳唯一輸入以及在圖 6b中識(shí)別的另一個(gè)輸入),并且系統(tǒng)已經(jīng)繼續(xù)到測(cè)試三個(gè)輸入08,30,3 的性能。隱含節(jié)點(diǎn)和初始權(quán)重構(gòu)造保持不變。繼續(xù)添加另一個(gè)輸入節(jié)點(diǎn),直到未識(shí)別到網(wǎng)絡(luò)性能的進(jìn)一步提高。本發(fā)明的ANN表明了在分析從不同源生成的復(fù)雜數(shù)據(jù)集方面重大的技術(shù)利用。在使用本發(fā)明的一個(gè)實(shí)施例中,分析來(lái)自癌癥患者的臨床數(shù)據(jù),以便確定癌癥的診斷性和預(yù)后性基因指示。在使用本發(fā)明的另一個(gè)實(shí)施例中,分析氣象測(cè)量值以便提供另外天氣模式的預(yù)測(cè)。本發(fā)明表明了在洋流測(cè)量、金融數(shù)據(jù)分析、流行病、氣候變化預(yù)測(cè)、社會(huì)經(jīng)濟(jì)數(shù)據(jù)的分析和車(chē)輛交通移動(dòng)的領(lǐng)域中的進(jìn)一步利用,僅列舉了幾個(gè)領(lǐng)域。癌癥預(yù)測(cè)癌癥在美國(guó)為死亡的第二主要原因。估計(jì)10. 1百萬(wàn)美國(guó)人之前被診斷出患有癌癥而生活著。在2002年,在美國(guó)一百萬(wàn)以上的人最新診斷出患有癌癥(來(lái)自疾病控制防治中心的信息,2004年和2004年,以及國(guó)家癌癥研究院,2005年)。根據(jù)UK的癌癥研究,在 2005年,在英國(guó)超過(guò)150,000的人由于癌癥而死亡。在疾病發(fā)展的早期階段中檢測(cè)出癌癥是使得能有效地處理疾病以及延長(zhǎng)感染個(gè)體的壽命的關(guān)鍵因素。癌癥篩查試圖檢測(cè)人群中的(未診斷)癌癥,以使能進(jìn)行早期的治療干預(yù)。用于檢測(cè)和/或預(yù)測(cè)癌癥的篩查有利地適用于測(cè)試大量的對(duì)象;可普及;安全;非侵入性;以及精確(即,呈現(xiàn)出低比率的錯(cuò)誤肯定)。當(dāng)前,對(duì)于轉(zhuǎn)移性黑素瘤不存在臨床性驗(yàn)證標(biāo)記。已經(jīng)由來(lái)自帶有黑素瘤的患者在各個(gè)患病階段的人血清樣本的質(zhì)譜分析(MQ蛋白輪廓獲得數(shù)據(jù)。利用本發(fā)明的逐步式 ANN方法,已經(jīng)識(shí)別出蛋白質(zhì)離子來(lái)以超過(guò)90%的精度將階段IV黑素瘤患者與健康控制區(qū)分開(kāi)。利用相同的方法來(lái)分析吸收縮氨酸的蛋白輪廓,離子被識(shí)別出,這以100%的精度預(yù)測(cè)樣本的驗(yàn)證子集。這里識(shí)別的離子組以難以置信高的靈敏度和特異性將階段IV轉(zhuǎn)移性黑素瘤與健康控制區(qū)分開(kāi)。當(dāng)理解到常規(guī)S-100ELISA通過(guò)例行臨床和放射照相研究通常在帶有可檢測(cè)轉(zhuǎn)移灶的患者中產(chǎn)生報(bào)告的20% ‘錯(cuò)誤否定’率時(shí),這點(diǎn)甚至更加重要。之前已經(jīng)報(bào)告了利用SELDI芯片由質(zhì)譜分析法得到的潛在血清蛋白質(zhì)黑素瘤生物標(biāo)記離子(Mian等人(2005),血清蛋白指紋法區(qū)分臨床階段并且預(yù)測(cè)黑素瘤患者的疾病進(jìn)展,J Clin Oncol,23,5088-5093),其中約11,700的質(zhì)量區(qū)域提供了階段I和階段IV黑素瘤樣本之間的在強(qiáng)度上高度顯著的統(tǒng)計(jì)差別。在本發(fā)明的實(shí)施例中,下面更加詳細(xì)地說(shuō)明,MALDIMS方法用于生成具有較高分辨率的更快速數(shù)據(jù)分析。這些數(shù)據(jù)隨后經(jīng)過(guò)逐步式 ANN分析,并且九個(gè)離子被識(shí)別出來(lái)區(qū)分黑素瘤階段IV和健康控制血清。由血清蛋白質(zhì)的 ANN進(jìn)行的這種分析在區(qū)分來(lái)自階段IV黑素瘤和控制患者的血清時(shí)產(chǎn)生了 92%的平均精度(四分位間范圍89. 4% -94.8% )。在m/z 12000處的頂離子能夠以64%的平均預(yù)測(cè)精度(四分位間范圍58. 7% -69. 2% )來(lái)區(qū)分類別。該離子在質(zhì)量上與還是對(duì)于之前報(bào)告的階段IV轉(zhuǎn)移性癌癥(Mian等人,2005)利用SELDI技術(shù)報(bào)告的m/z 11700的生物標(biāo)記離子類似。差別可歸因于如下事實(shí)當(dāng)用于區(qū)分階段I黑素瘤對(duì)階段IV患者時(shí),發(fā)現(xiàn)該離子是重要的,而在這里當(dāng)在IV黑素瘤和未感染健康控制個(gè)體之間進(jìn)行分類時(shí),識(shí)別出在m/ ζ 12000處報(bào)告的離子。此外,在Mian及其同事的原稿(Mian等人,2005)中,預(yù)測(cè)性能主要基于利用低分辨率MS裝備從與內(nèi)在低分辨率讀出相關(guān)的CiphergenSELDI芯片平臺(tái)獲得的譜,而這里利用較高分辨率的MALDI-MS分析儀來(lái)執(zhí)行蛋白質(zhì)生物標(biāo)記檢測(cè),因此11700 的m/z值可具有與其相關(guān)聯(lián)的某個(gè)變型。盡管兩個(gè)研究使用了 ANN,所應(yīng)用的方法是不同的;在這里,使用了新穎的逐步式分析方法,這使得可以高預(yù)測(cè)性能來(lái)識(shí)別個(gè)體質(zhì)量離子, 而SELDI分析(Mian等人,200 使用了較大的質(zhì)量范圍來(lái)識(shí)別輪廓的在區(qū)分組時(shí)重要的區(qū)域。因此,重要的是,考慮不同的數(shù)據(jù)挖掘技術(shù)可推導(dǎo)出具有不同重要性的不同標(biāo)記。六個(gè)預(yù)測(cè)性縮氨酸的生物信息序列分析識(shí)別出屬于阿爾法1-酸糖蛋白(AGP)前體1/2(AAG 1/2)的兩個(gè)縮氨酸離子,當(dāng)在預(yù)測(cè)模型中一起使用時(shí),該兩個(gè)縮氨酸離子可解釋95% (47/50)的轉(zhuǎn)移性黑素瘤患者。另外,識(shí)別出縮氨酸離子中的另一個(gè)并且確認(rèn)與補(bǔ)體C3組分相關(guān)聯(lián)。兩個(gè)蛋白質(zhì)之前已經(jīng)在其它類型的癌癥中與轉(zhuǎn)移性疾病相關(guān)聯(lián) (Djukanovic,D等人Q000),S100蛋白質(zhì)和作為惡性黑素瘤的血清標(biāo)記的MIA蛋白質(zhì)的比較,Anticancer Res,20,2202-2207)。這進(jìn)一步確認(rèn)了在本發(fā)明中取得的方法的值。其他研究也已表明,在癌癥中發(fā)現(xiàn)了 AGP的增長(zhǎng)級(jí)別(例如,參見(jiàn)Duche,J. C.等人(2000),癌癥中人阿爾法-1-酸糖蛋白的遺傳學(xué)變型的表達(dá),Clin Biochem,33,197-202)。AGP,高異質(zhì)性糖蛋白,為主要在肝中產(chǎn)生的急性期蛋白質(zhì)。然而,AGP的生理重要性尚未完全理解, 并且因此AGP不代表期望的黑素瘤生物標(biāo)記。為了進(jìn)一步評(píng)估本發(fā)明的方法是否也可被執(zhí)行用于分析與蛋白性數(shù)據(jù)相對(duì)的基因表達(dá)數(shù)據(jù),依據(jù)本發(fā)明來(lái)分析兩個(gè)公共可獲得的數(shù)據(jù)集。這兩個(gè)數(shù)據(jù)集與乳腺癌相關(guān)。 第一個(gè)是由van’ t Veer及其合作者公布的數(shù)據(jù)集(van’ t Veer等人(2002),基因表達(dá)輪廓預(yù)測(cè)乳腺癌的臨床結(jié)果,NatUre,415,530-536),并且這里使用的目的是識(shí)別基因的子集,這可將在五年內(nèi)發(fā)展了遠(yuǎn)轉(zhuǎn)移灶的患者和在五年內(nèi)沒(méi)有發(fā)展遠(yuǎn)轉(zhuǎn)移灶的患者精確地區(qū)分開(kāi)。由van't Veer及其合作者進(jìn)行的最初分析(van’ t Veer等人,200 使用了一種形式的非監(jiān)督聚類和監(jiān)督分類,由此通過(guò)帶有疾病結(jié)果的表達(dá)的相關(guān)系數(shù)來(lái)選擇基因。這種方法使得識(shí)別出一個(gè)70基因分類器,該70基因分類器正確地預(yù)測(cè)疾病結(jié)果達(dá)到83%的精度。本發(fā)明的ANN逐步式方法使得識(shí)別出了二十個(gè)基因,這在多個(gè)隨機(jī)樣本交叉驗(yàn)證重采樣事件中對(duì)于盲數(shù)據(jù)精確地預(yù)測(cè)患者預(yù)后達(dá)到100%的平均精度。構(gòu)成這種表達(dá)標(biāo)志的基因中的一些之前已經(jīng)與癌癥結(jié)果相關(guān)聯(lián)。例如,由我們的模型識(shí)別出的第一個(gè)基因?yàn)樘妓狒?Carbonic Anhydrase) IX,并且能夠通過(guò)其自身對(duì)70%的樣本進(jìn)行正確地預(yù)測(cè)。由于碳酸酐酶IX(CA IX)對(duì)結(jié)腸直腸腫瘤增強(qiáng)了表達(dá)和異常定位,碳酸酐酶IX(CA IX)已被建議功能性地包含在發(fā)病機(jī)理中(Mamio,J.等人(1998),用于表達(dá)電位值作為細(xì)胞增殖的標(biāo)記的新穎跨膜碳酸酐酶MN/CA IX的結(jié)腸直腸腫瘤的免疫組織化學(xué)研究,Am J Pathol, 153,279- 。由于CA IX的表達(dá)與頸細(xì)胞癌相關(guān),CA IX還已被建議用作診斷性生物標(biāo)記(Liao,S.Y.等人(1994),識(shí)別MN抗原作為頸上皮鱗屑和腺瘤形成和頸腫瘤的診斷性生物標(biāo)記,AM J Pathol,145,598-609)。意外的是,由本發(fā)明的ANN方法識(shí)別為重要的二十個(gè)基因中的七個(gè)代表表達(dá)序列標(biāo)簽(EST’s),并且因此相關(guān)的基因具有未知的功能。然而,假定這些基因關(guān)于殘存具有新發(fā)現(xiàn)的預(yù)測(cè)能力,現(xiàn)在證實(shí)進(jìn)一步的臨床分析。另一個(gè)數(shù)據(jù)集由West等人公布(West,M.等人(2001),利用基因表達(dá)輪廓來(lái)預(yù)測(cè)人乳腺癌的臨床狀況,Proc Natl Acad Sci USA,98,11462-11467),并且本發(fā)明的ANN逐步式方法應(yīng)用于該數(shù)據(jù)集以便識(shí)別基因組來(lái)精確地預(yù)測(cè)患者的雌激素受體蛋白(ER)狀況和淋巴結(jié)(LN)狀況。West及其合作者的最初分析使用了回歸模型,以便計(jì)算出對(duì)于各種結(jié)果的分類概率。在他們的研究中,當(dāng)分析ER狀況時(shí),識(shí)別出一個(gè)100基因分類器,該分類器精確地且可信地預(yù)測(cè)了在訓(xùn)練集中使用的38個(gè)樣本中的34個(gè),并且在交叉驗(yàn)證中表現(xiàn)良好。利用相同的方法,作者識(shí)別出一個(gè)100基因分類器,該分類器可根據(jù)在訓(xùn)練集中使用的樣本的淋巴結(jié)狀況對(duì)樣本的訓(xùn)練集進(jìn)行分類。然而,這種方法在交叉驗(yàn)證期間在預(yù)測(cè)LN狀況方面不太成功,其中所有的LN+情況具有近似0. 5的估計(jì)概率,表明這些預(yù)測(cè)包含了很多的不確定性,可能是由于這些樣本的表達(dá)輪廓的變化的高級(jí)別。利用本發(fā)明的逐步式方法, 識(shí)別出兩個(gè)基因表達(dá)標(biāo)志。第一個(gè)將關(guān)于對(duì)于ER而言樣本是否為正或負(fù)的情況100%正確地區(qū)分開(kāi),并且第二個(gè)預(yù)測(cè)腫瘤是否已擴(kuò)散到腋淋巴結(jié),也是100%的精度。這里所報(bào)告的精度是來(lái)自于多個(gè)單獨(dú)驗(yàn)證數(shù)據(jù)拆分,使用隨機(jī)樣本交叉驗(yàn)證在50個(gè)模型中將樣本處理為盲數(shù)據(jù)。顯然,本發(fā)明的逐步式ANN方法提供了優(yōu)于之前使用的技術(shù)的顯著優(yōu)點(diǎn),不僅以提高的預(yù)測(cè)能力對(duì)生物標(biāo)記進(jìn)行離子識(shí)別,而且識(shí)別出用于診斷性和預(yù)后性癌癥預(yù)測(cè)的新穎生物標(biāo)記。作物產(chǎn)量預(yù)測(cè)本發(fā)明的運(yùn)算方法還可應(yīng)用于作物生產(chǎn)率的應(yīng)力效應(yīng)的預(yù)測(cè)。自然環(huán)境包含了許多在一段時(shí)間內(nèi)相互作用的因素,這些因素可對(duì)作物產(chǎn)量有影響。這些因素包括氣候因素,諸如溫度、光和濕度;土壤因素,諸如養(yǎng)分、PH、鹽度、和可用水;空氣、水和土壤中的污染物;蟲(chóng)害和疾病。這顯然是在一段時(shí)間內(nèi)在不同狀態(tài)下發(fā)生極大量的相互作用因素的復(fù)雜系統(tǒng)。因素還是非線性的并且可以彼此相互作用。在該背景內(nèi),根據(jù)本發(fā)明的ANN方法可應(yīng)用于對(duì)這些相互作用及其對(duì)作為生產(chǎn)率的影響進(jìn)行去卷積并且因此在給定的一組條件下預(yù)測(cè)產(chǎn)量。這里所說(shuō)明的方法的優(yōu)點(diǎn)在于,該方法可識(shí)別出可用其預(yù)測(cè)產(chǎn)量的參數(shù)的最優(yōu)子集。這些參數(shù)可有助于作物管理和產(chǎn)量最優(yōu)化的應(yīng)用。通過(guò)下面的非限制性實(shí)施例進(jìn)一步闡述本發(fā)明。
實(shí)施例采用計(jì)算方法來(lái)分析染色體組數(shù)據(jù),以便識(shí)別出對(duì)應(yīng)于患有癌癥的患者的預(yù)后性結(jié)果的基因、蛋白質(zhì)或基因/蛋白質(zhì)標(biāo)志。遺傳型性狀且隨后表型性狀確定細(xì)胞行為,并且在為癌癥的情況下,支配細(xì)胞對(duì)治療的感受性。由于腫瘤細(xì)胞在遺傳上是不穩(wěn)定的,假定細(xì)胞的子種群出現(xiàn)的情況是假設(shè)更具攻擊性的表型,能夠滿足侵入和轉(zhuǎn)移所需的要求。表示腫瘤攻擊的生物標(biāo)記的檢測(cè)應(yīng)當(dāng)是顯然的,并且因此對(duì)這些生物標(biāo)記的識(shí)別將對(duì)于早期疾病診斷、預(yù)后和對(duì)治療的響應(yīng)具有相當(dāng)重要的價(jià)值。本發(fā)明已研究出了用于確定用于在臨床實(shí)際時(shí)間段內(nèi)預(yù)測(cè)癌癥且不要求過(guò)大處理功率的最優(yōu)染色體組/蛋白形標(biāo)志的新方法。該方法利用ANN并且以類似于逐步式邏輯回歸的形式依次包括基于預(yù)測(cè)性能和誤差選擇輸入神經(jīng)元并且將神經(jīng)元添加到網(wǎng)絡(luò)中, 以便識(shí)別出最優(yōu)癌癥生物標(biāo)記子集。三個(gè)數(shù)據(jù)集用于測(cè)試和驗(yàn)證本發(fā)明的方法。第一個(gè)詢問(wèn)帶有不同階段黑素瘤的人血清樣本。從德國(guó)癌癥研究中心(DKFZ,Heidelberg,Germany)收集到的樣本,在諾丁漢特倫特大學(xué)(Nottingham Trent Universitiy)(特倫特,英國(guó))通過(guò)MALDI-TOF MS對(duì)樣本進(jìn)行分析。其余的兩個(gè)數(shù)據(jù)集為公共可獲得的數(shù)據(jù)集,兩個(gè)均源自于從乳腺癌患者獲取的基因表達(dá)數(shù)據(jù)。第一個(gè)數(shù)據(jù)集從用于黑素瘤血清樣本的MALDI MS分析中獲取。在這里的目的是首先將健康控制患者與那些處于四個(gè)不同的臨床階段Ι、Π、ΙΙΙ和IV的患有黑素瘤的患者進(jìn)行比較,從而識(shí)別出表示階段的生物標(biāo)記離子。其次,對(duì)相鄰階段進(jìn)行比較性地分析,目的是識(shí)別出代表疾病進(jìn)展的潛在生物標(biāo)記。然后,在單獨(dú)從第一個(gè)生成的第二組樣本輪廓上對(duì)開(kāi)發(fā)的所有模型進(jìn)行驗(yàn)證。該數(shù)據(jù)集在每個(gè)樣本中包含了 Μ,000個(gè)變量。由van’ t Veer等人公布的第二個(gè)數(shù)據(jù)集(van’ t Veer等人,200 使用了微動(dòng)脈造影技術(shù)來(lái)分析與轉(zhuǎn)移的發(fā)展相關(guān)的主要乳腺瘤組織。作者在78個(gè)乳腺癌患者的組群中通過(guò)基因表達(dá)分析生成了數(shù)據(jù),78乳腺癌患者中的34個(gè)在五年內(nèi)發(fā)展成遠(yuǎn)轉(zhuǎn)移,并且44 個(gè)在至少五年之后保持不患病。每個(gè)患者具有對(duì),482個(gè)對(duì)應(yīng)變量,這些對(duì)應(yīng)變量指定單個(gè)已知基因或表達(dá)序列標(biāo)簽(EST)的Logltl表達(dá)率。由West等人(West等人,2001)公布的第三個(gè)數(shù)據(jù)集使用微動(dòng)脈造影技術(shù),假設(shè)提供與轉(zhuǎn)移狀態(tài)有關(guān)的信息,首先分析與雌激素受體蛋白(ER)狀況相關(guān)的主要乳腺腫瘤, 其次評(píng)估腫瘤是否已擴(kuò)散到腋淋巴結(jié)(LN)。該數(shù)據(jù)集包含13個(gè)ER+/LN+腫瘤、12個(gè)ER-/ LN+腫瘤、12個(gè)ER+/LN-腫瘤、和12個(gè)ER-/LN-腫瘤,每個(gè)樣本具有7,129個(gè)對(duì)應(yīng)基因表達(dá)值。然后,使用第二個(gè)數(shù)據(jù)集(Huang等人,200 在不同的微動(dòng)脈造影芯片上運(yùn)行來(lái)驗(yàn)證這里說(shuō)描述的方法,使得第二個(gè)數(shù)據(jù)集的與第一個(gè)數(shù)據(jù)集相同的組可用,并且第二個(gè)數(shù)據(jù)集包含不同種群的患者。逐步式方法方法論人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)ANN建模使用監(jiān)督學(xué)習(xí)方法,具有反曲傳遞函數(shù)的多層感知器結(jié)構(gòu),其中通過(guò)反向傳播算法來(lái)更新權(quán)重。學(xué)習(xí)率和動(dòng)量分別設(shè)定為0. 1和0.5。在訓(xùn)練數(shù)據(jù)之前,使用最小值和最大值在0和1之間線性地按比例縮放數(shù)據(jù)。這種結(jié)構(gòu)在單個(gè)隱含層中使用了兩個(gè)隱含節(jié)點(diǎn),并且初始權(quán)重在0和1之間隨機(jī)取值。之前已經(jīng)表明這種方法是在諸如該系統(tǒng)的高維系統(tǒng)內(nèi)突出關(guān)鍵輸入的重要性、同時(shí)生成了具有精確預(yù)測(cè)度的泛化模型的成功方法(Ball 等人,2002)。人工神經(jīng)網(wǎng)絡(luò)模型的開(kāi)發(fā)遍及所有數(shù)據(jù)集應(yīng)用相同的方法,唯一的區(qū)別是樣本的數(shù)量和輸入變量。這里,作為一個(gè)實(shí)施例,將對(duì)應(yīng)用于van’ t Veer數(shù)據(jù)集的方法進(jìn)行說(shuō)明。按其原始形式采用來(lái)自微動(dòng)脈造影實(shí)驗(yàn)的數(shù)據(jù)。該數(shù)據(jù)包含78個(gè)樣本,每個(gè)樣本具有指定每個(gè)單基因的表達(dá)率的M,482個(gè)對(duì)應(yīng)變量。在訓(xùn)練每個(gè)模型之前,將數(shù)據(jù)隨機(jī)地分成三個(gè)子集;60%用于訓(xùn)練, 20%用于測(cè)試(在訓(xùn)練過(guò)程中評(píng)估模型的性能),并且20%用于驗(yàn)證(在先前未見(jiàn)的數(shù)據(jù)上獨(dú)立地驗(yàn)證模型)。該過(guò)程稱為隨機(jī)樣本交叉驗(yàn)證并且使得能對(duì)于單獨(dú)盲數(shù)據(jù)集的預(yù)測(cè)生成置信間隔,從而生成魯棒的、泛化的模型。最初,來(lái)自微動(dòng)脈造影數(shù)據(jù)集的每個(gè)基因在網(wǎng)絡(luò)中用作個(gè)體輸入,從而生成 η (24, 482)個(gè)個(gè)體模型。然后,在50個(gè)隨機(jī)選擇的子集上訓(xùn)練這些η個(gè)模型并進(jìn)行網(wǎng)絡(luò)預(yù)測(cè),并且關(guān)于單個(gè)驗(yàn)證集對(duì)于每個(gè)模型計(jì)算出這些預(yù)測(cè)的均方誤差值。基于盲數(shù)據(jù)的均方誤差值按升序?qū)斎脒M(jìn)行分級(jí),并且選擇表現(xiàn)出最低誤差的模型用于進(jìn)一步訓(xùn)練。因此,在模型開(kāi)發(fā)的每個(gè)步驟中訓(xùn)練和測(cè)試1,224,100個(gè)模型。接下來(lái),然后將剩余輸入中的每一個(gè)依次添加到之前的最佳輸入,生成η-1個(gè)模型,每個(gè)模型包含兩個(gè)輸入。重復(fù)訓(xùn)練并評(píng)估性能。然后,選擇對(duì)數(shù)據(jù)建模表現(xiàn)出最佳能力的模型并重復(fù)該過(guò)程,生成η-2個(gè)模型,每個(gè)模型包含三個(gè)輸入。重復(fù)該過(guò)程,直到不再?gòu)倪M(jìn)一步輸入的添加獲得顯著的提高,使得最終的模型包含對(duì)數(shù)據(jù)進(jìn)行最精確地建模的基因表達(dá)標(biāo)志ο該過(guò)程需要對(duì)可能的無(wú)數(shù)個(gè)模型進(jìn)行訓(xùn)練和測(cè)試。為便于實(shí)現(xiàn)這點(diǎn),已經(jīng)利用微軟可視基本生成了自動(dòng)運(yùn)行程序的軟件。在這里,自動(dòng)地添加輸入,在每個(gè)步驟中選擇最佳競(jìng)爭(zhēng)者生物標(biāo)記。圖7(a)-(g)示出了可用于ANN設(shè)計(jì)和分析的各個(gè)選項(xiàng)進(jìn)行詳述的軟件設(shè)計(jì)(注意的是,圖7(a)至7(g)的屏幕快照僅為表示性的,并且實(shí)際的布局可以不同)。 運(yùn)行算法的整個(gè)過(guò)程可概述如下1.識(shí)別輸入變量和輸出變量2.以輸入1作為模型的第一個(gè)輸入開(kāi)始,輸入i3.利用隨機(jī)樣本交叉驗(yàn)證來(lái)訓(xùn)練ANN4.記錄對(duì)于輸入i網(wǎng)絡(luò)的性能5.利用所有輸入輸入2…輸入3…輸入4…輸入n作為ANN模型的唯一輸入來(lái)重復(fù)步驟3和46.基于測(cè)試數(shù)據(jù)拆分的誤差按升序?qū)斎脒M(jìn)行分級(jí),以便確定在該步驟中的最佳表現(xiàn)輸入,輸Ai7.與輸入i依次使用ANN模型中的每個(gè)輸入從步驟2重復(fù)8.為該步驟確定最佳表現(xiàn)輸入組合從步驟3重復(fù)這整個(gè)過(guò)程,持續(xù)地添加輸入,直到不再?gòu)倪M(jìn)一步輸入的添加獲得提高。結(jié)果黑素瘤數(shù)據(jù)集的分析控制和階段IV疾病樣本的分析蛋白質(zhì)和縮氨酸數(shù)據(jù)因?yàn)檗D(zhuǎn)移性黑素瘤不存在確認(rèn)性血液標(biāo)記,我們嘗試?yán)孟嗤闹鸩绞紸NN方法來(lái)開(kāi)發(fā)經(jīng)驗(yàn)證的、魯棒的和可再現(xiàn)的MALDI MS方法論來(lái)描繪血清蛋白質(zhì)和胰蛋白酶吸收的縮氨酸。將該方法論應(yīng)用于從MALDI MS分析獲取的數(shù)據(jù),代表(i)蛋白質(zhì),以及(ii)來(lái)自控制和患病樣本的吸收縮氨酸數(shù)據(jù)。對(duì)這些數(shù)據(jù)集實(shí)施各種分析,以便識(shí)別出表示表1中所示的類別的生物標(biāo)記離子。表1 所做分析的總結(jié)(i)
權(quán)利要求
1.一種確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,所述方法包括下列步驟 接收被分類成一個(gè)或多個(gè)預(yù)定類別的條件的輸入數(shù)據(jù);使用所述輸入數(shù)據(jù)來(lái)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),所述人工神經(jīng)網(wǎng)絡(luò)包括輸入層,其具有設(shè)置為接收輸入數(shù)據(jù)的一個(gè)或多個(gè)輸入節(jié)點(diǎn);隱含層,其包括兩個(gè)或多個(gè)隱含節(jié)點(diǎn),所述隱含層的節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至所述輸入層的所述一個(gè)或多個(gè)節(jié)點(diǎn);以及輸出層,其具有設(shè)置為輸出與一個(gè)或多個(gè)條件相關(guān)的數(shù)據(jù)的輸出節(jié)點(diǎn),所述輸出節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至所述隱含層的節(jié)點(diǎn);確定所述輸入數(shù)據(jù)和所述一個(gè)或多個(gè)條件之間的關(guān)系,其中,所述人工神經(jīng)網(wǎng)絡(luò)具有如下受約束結(jié)構(gòu)(i)所述隱含層內(nèi)隱含節(jié)點(diǎn)的數(shù)量受約束;以及 ( )節(jié)點(diǎn)之間的連接的初始權(quán)重受限制。
2.如權(quán)利要求1所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,所述隱含層中的節(jié)點(diǎn)的數(shù)量在兩個(gè)至五個(gè)的范圍內(nèi)。
3.如權(quán)利要求2所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,在所述隱含層中存在兩個(gè)隱含節(jié)點(diǎn)。
4.如任一前述權(quán)利要求中所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法, 其中,節(jié)點(diǎn)之間的連接的初始權(quán)重具有在0. 01至0. 5的范圍內(nèi)的標(biāo)準(zhǔn)差。
5.如權(quán)利要求4所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,節(jié)點(diǎn)之間的連接的初始權(quán)重具有在0. 1的標(biāo)準(zhǔn)差。
6.如任一前述權(quán)利要求中所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法, 其中,所述輸入數(shù)據(jù)包括數(shù)據(jù)對(duì),每個(gè)數(shù)據(jù)對(duì)被分類成所述一個(gè)或多個(gè)條件并且包括參數(shù)和相關(guān)的參數(shù)值。
7.如權(quán)利要求6所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,所述輸入數(shù)據(jù)被分組成多個(gè)樣本,每個(gè)樣本具有等同選擇的數(shù)據(jù)對(duì)。
8.如權(quán)利要求7所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,所述訓(xùn)練步驟包括(i)在第一個(gè)選擇步驟中,在每個(gè)樣本中選擇相同的參數(shù); ( )使用與所選參數(shù)相關(guān)的參數(shù)值來(lái)訓(xùn)練所述人工神經(jīng)網(wǎng)絡(luò);(iii)對(duì)于所選的參數(shù),記錄人工神經(jīng)網(wǎng)絡(luò)的性能;(iv)對(duì)于每個(gè)參數(shù),依次重復(fù)選擇和記錄的步驟。
9.如權(quán)利要求8所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,所述確定步驟進(jìn)一步包括(i)基于記錄的性能,對(duì)于每個(gè)所選的參數(shù),對(duì)所述人工神經(jīng)網(wǎng)絡(luò)的性能進(jìn)行分級(jí),以及;( )在第二個(gè)選擇步驟中,選擇最佳表現(xiàn)參數(shù)。
10.如權(quán)利要求9所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,所述訓(xùn)練步驟進(jìn)一步包括(i)在另一個(gè)選擇步驟中,與所述最佳表現(xiàn)參數(shù)或者來(lái)自之前選擇步驟中的參數(shù)相結(jié)合地從其余的參數(shù)選擇參數(shù);(ii)使用與所選參數(shù)相關(guān)的參數(shù)值來(lái)訓(xùn)練所述人工神經(jīng)網(wǎng)絡(luò);(iii)在另一個(gè)記錄步驟中,對(duì)于所選參數(shù),記錄人工神經(jīng)網(wǎng)絡(luò)的性能,以及;(iv)對(duì)于其余參數(shù)中的每一個(gè),依次重復(fù)另一個(gè)選擇和記錄的步驟。
11.如權(quán)利要求10所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中, 所述訓(xùn)練步驟進(jìn)一步包括重復(fù)權(quán)利要求10中的步驟(i)-(iv),直到不獲得性能的進(jìn)一步實(shí)質(zhì)提高。
12.如權(quán)利要求10所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中, 在所述重復(fù)步驟之前,所述確定步驟包括基于記錄的性能對(duì)于每個(gè)所選的參數(shù)設(shè)置對(duì)人工神經(jīng)網(wǎng)絡(luò)的性能進(jìn)行分級(jí),并且選出最佳表現(xiàn)參數(shù)。
13.如權(quán)利要求10至12中任一項(xiàng)所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,每次輸入?yún)?shù)的數(shù)量增加,輸入節(jié)點(diǎn)的數(shù)量增加一個(gè)節(jié)點(diǎn)。
14.如任一前述權(quán)利要求中所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,所述輸入數(shù)據(jù)被分組成多個(gè)樣本,每個(gè)樣本具有等同選擇的數(shù)據(jù)對(duì),每個(gè)數(shù)據(jù)對(duì)被分離成所述一個(gè)或多個(gè)條件并且包括參數(shù)和相關(guān)的參數(shù)值,所述訓(xùn)練和確定步驟包括(i)在所述輸入數(shù)據(jù)內(nèi)選擇參數(shù),使用對(duì)應(yīng)的參數(shù)值訓(xùn)練所述人工神經(jīng)網(wǎng)絡(luò)并且記錄人工神經(jīng)網(wǎng)絡(luò)的性能;( )對(duì)于所述輸入數(shù)據(jù)內(nèi)的每個(gè)參數(shù)進(jìn)行重復(fù);(iii)確定所述輸入數(shù)據(jù)中的最佳表現(xiàn)參數(shù);(iv)重復(fù)步驟(i)至(iii),每次重復(fù)將其余參數(shù)中的一個(gè)添加到最佳表現(xiàn)參數(shù)的組合中,直到人工神經(jīng)網(wǎng)絡(luò)的性能不提高。
15.如任一前述權(quán)利要求中所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,參數(shù)代表基因,并且參數(shù)值代表基因表達(dá)數(shù)據(jù)。
16.如權(quán)利要求1至14中任一項(xiàng)所述的確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,其中,參數(shù)代表蛋白質(zhì),并且參數(shù)值代表活性函數(shù)。
17.一種確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的方法,所述方法包括 接收被分類成一個(gè)或多個(gè)預(yù)定類別的條件的輸入數(shù)據(jù);利用神經(jīng)網(wǎng)絡(luò)來(lái)確定所述輸入數(shù)據(jù)和所述一個(gè)或多個(gè)條件之間的關(guān)系,人工神經(jīng)網(wǎng)絡(luò)包括輸入層,其具有設(shè)置為接收輸入數(shù)據(jù)的一個(gè)或多個(gè)輸入節(jié)點(diǎn);隱含層,其包括兩個(gè)或多個(gè)隱含節(jié)點(diǎn),所述隱含層的節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至所述輸入層的一個(gè)或多個(gè)節(jié)點(diǎn);以及輸出層,其具有設(shè)置為輸出與所述一個(gè)或多個(gè)條件相關(guān)的輸出的輸出節(jié)點(diǎn),所述輸出節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至所述隱含層的節(jié)點(diǎn), 其中,所述人工神經(jīng)網(wǎng)絡(luò)具有如下受約束結(jié)構(gòu) (i)所述隱含層內(nèi)的隱含節(jié)點(diǎn)的數(shù)量受約束;以及 ( )節(jié)點(diǎn)之間的連接的初始權(quán)重受限制。
18.一種用于確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的人工神經(jīng)網(wǎng)絡(luò),所述人工神經(jīng)網(wǎng)絡(luò)包括輸出層,其具有設(shè)置為接收輸入數(shù)據(jù)的一個(gè)或多個(gè)輸入節(jié)點(diǎn),所述輸入數(shù)據(jù)被分類成一個(gè)或多個(gè)預(yù)定類別的條件;隱含層,其包括兩個(gè)或多個(gè)隱含節(jié)點(diǎn),所述隱含層的節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至所述輸入層的一個(gè)或多個(gè)節(jié)點(diǎn);以及輸出層,其具有設(shè)置為輸出與所述一個(gè)或多個(gè)條件相關(guān)的輸出的輸出節(jié)點(diǎn),所述輸出節(jié)點(diǎn)通過(guò)可調(diào)節(jié)權(quán)重的連接連接至所述隱含層的節(jié)點(diǎn); 其中,所述人工神經(jīng)網(wǎng)絡(luò)具有如下受約束結(jié)構(gòu)(i)所述隱含層內(nèi)的隱含節(jié)點(diǎn)的數(shù)量受約束;以及(ii)節(jié)點(diǎn)之間的連接的初始權(quán)重受限制。
19. 一種用于確定輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的計(jì)算機(jī)系統(tǒng),所述計(jì)算機(jī)系統(tǒng)包括如權(quán)利要求18中所述的人工神經(jīng)網(wǎng)絡(luò)。
全文摘要
本發(fā)明涉及用于鑒別輸入數(shù)據(jù)和一個(gè)或多個(gè)條件之間的關(guān)系的數(shù)據(jù)分析。分析這種數(shù)據(jù)的一個(gè)方法是通過(guò)使用神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)是非線性統(tǒng)計(jì)數(shù)據(jù)建模工具,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可基于在訓(xùn)練階段中通過(guò)網(wǎng)絡(luò)的信息而變化。影響神經(jīng)網(wǎng)絡(luò)的已知問(wèn)題是當(dāng)網(wǎng)絡(luò)的容量明顯超過(guò)所需參數(shù)時(shí)在過(guò)復(fù)雜或超特化系統(tǒng)中出現(xiàn)的過(guò)訓(xùn)練問(wèn)題。本發(fā)明提供一種利用神經(jīng)網(wǎng)絡(luò)分析數(shù)據(jù)的方法,所述神經(jīng)網(wǎng)絡(luò)具有減輕與現(xiàn)有技術(shù)相關(guān)的問(wèn)題的受約束結(jié)構(gòu)。
文檔編號(hào)G06F19/24GK102282559SQ200980142624
公開(kāi)日2011年12月14日 申請(qǐng)日期2009年10月20日 優(yōu)先權(quán)日2008年10月20日
發(fā)明者G·巴爾, L·蘭卡施里 申請(qǐng)人:諾丁漢特倫特大學(xué)