亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于評(píng)定細(xì)胞中的基因轉(zhuǎn)錄水平的寡核苷酸探針的制作方法

文檔序號(hào):6006253閱讀:182來源:國知局
專利名稱:用于評(píng)定細(xì)胞中的基因轉(zhuǎn)錄水平的寡核苷酸探針的制作方法
用于評(píng)定細(xì)胞中的基因轉(zhuǎn)錄水平的寡核苷酸探針本申請是一個(gè)分案申請,其母案是2003年11月21日向國際局提出申請、在2005 年7月21日進(jìn)入中國國家階段、并獲得中國申請?zhí)?00380109059.4的中國申請。本分案申請與其母案具有相同的發(fā)明名稱。本發(fā)明涉及用于評(píng)定細(xì)胞中的基因轉(zhuǎn)錄水平的寡核苷酸探針,該寡核苷酸探針可被用于分析方法特別是診斷方法中。便利地,該探針以試劑盒的形式被提供。不同的探針組被用于該方法中,以制備基因表達(dá)模式,并鑒定、診斷或監(jiān)控不同的狀態(tài),例如疾病、病癥或其階段。還提供了鑒定適當(dāng)?shù)奶结樀姆椒捌溆糜诒景l(fā)明的方法中的用途。確定用于例如診斷應(yīng)用的、快速和簡便的樣本分析方法,仍然是許多研究人員的目標(biāo)。終端用戶尋求的是低廉的、產(chǎn)生有重要統(tǒng)計(jì)意義的結(jié)果并且能被常規(guī)操作而無需技術(shù)高超的人員的方法。對(duì)細(xì)胞內(nèi)的基因表達(dá)的分析已經(jīng)被用于獲得關(guān)于這些細(xì)胞的狀態(tài)的信息,重要的是該細(xì)胞來源的個(gè)體的狀態(tài)的信息。各種基因在細(xì)胞中的相對(duì)表達(dá)已經(jīng)被確定為反映了機(jī)體中的特定狀態(tài)。例如,已知,癌癥表現(xiàn)出多種蛋白質(zhì)的表達(dá)發(fā)生變化,因此,轉(zhuǎn)錄物或者所表達(dá)的蛋白質(zhì)可作為這些疾病狀態(tài)的標(biāo)志物(marker)。因此,可以分析活組織檢查的組織中是否存在這些標(biāo)記,并且通過是否存在這些標(biāo)記,在機(jī)體的其它組織或體液中確定源自疾病部位的細(xì)胞。此外,被改變的表達(dá)產(chǎn)物可能被釋放到血流中,可以分析這些產(chǎn)物。此外,已經(jīng)與疾病細(xì)胞接觸過的其它細(xì)胞可能受其與這些細(xì)胞直接接觸的影響,導(dǎo)致基因表達(dá)的改變,可以類似地分析它們的表達(dá)或者表達(dá)產(chǎn)物。但是,這些方法受到一些限制。例如,使用特定的腫瘤標(biāo)志物來確定癌癥存在各種缺陷,例如缺乏特異性或靈敏度,除了特定類型的癌癥,缺乏標(biāo)志物與疾病狀態(tài)的關(guān)聯(lián),難以在無病癥個(gè)體中進(jìn)行檢測。除了對(duì)一種或兩種標(biāo)志轉(zhuǎn)錄物或蛋白質(zhì)的分析外,最近還對(duì)基因表達(dá)模式進(jìn)行分析。涉及提示疾病診斷的大規(guī)模基因表達(dá)分析的大部分工作都涉及來源于疾病組織或細(xì)胞的臨床樣本。例如,多個(gè)最近公開的研究證明,可以用基因表達(dá)數(shù)據(jù)區(qū)分相似的癌癥類型,這些研究都采用來自疾病組織或細(xì)胞的臨床樣品(Alon等1999,PNAS,96,6745-6750 ; Golub 等 1999,Science,286,531-537 ;Alizadeh 等,2000,Nature, 403, 503-511 ;Bittner 等,2000,Nature,406,536-540)。但是,這些方法依賴于對(duì)樣本的分析,該樣品含有疾病細(xì)胞或這些細(xì)胞的產(chǎn)物或者與疾病細(xì)胞接觸的細(xì)胞。對(duì)這種樣本的分析依賴于對(duì)疾病存在及其定位的了解,這在無病癥患者中是困難的。此外,不是總能夠從疾病部位獲取樣本,例如在腦部疾病中。在具有重要意義的發(fā)現(xiàn)中,本發(fā)明人鑒定機(jī)體中所有細(xì)胞的先前未被使用的潛力,提供與來源細(xì)胞的生物體的狀態(tài)相關(guān)的信息。W098/49342描述了對(duì)遠(yuǎn)離疾病部位的細(xì)胞的基因表達(dá)進(jìn)行分析,例如從遠(yuǎn)離癌癥部位所收集的外周血液。這些發(fā)現(xiàn)是基于生物體的不同部分之間存在動(dòng)態(tài)的相互作用的假設(shè)。當(dāng)疾病作用于機(jī)體的一部分時(shí),機(jī)體的另一部分也受到影響。這種相互作用是由疾病區(qū)域釋放的生物化學(xué)信號(hào)的廣譜作用產(chǎn)生的,影響機(jī)體的其它區(qū)域。雖然,由釋放的信號(hào)引起的生物化學(xué)和生理變化的性質(zhì)在不同機(jī)體部分是不同的,可以在基因表達(dá)水平上測定這種變化。并且用于診斷目的。通過基因表達(dá)模式來確定生物體中的細(xì)胞的生理狀態(tài)。該模式取決于所述細(xì)胞暴露的內(nèi)部的和外部的生物刺激,而這些刺激在程度上或性質(zhì)上的任何變化都會(huì)導(dǎo)致表達(dá)模式的改變,在細(xì)胞中不同基因以這種模式表達(dá)。人們逐步意識(shí)到,通過在生物樣本中分析細(xì)胞中的基因表達(dá)模式的系統(tǒng)性變化,有可能獲得關(guān)于作用于細(xì)胞的生物刺激的類型和性質(zhì)的信息。因此,例如,通過在檢測樣本中監(jiān)控細(xì)胞中的大量基因的表達(dá),有可能確定這些基因是否以特定疾病、病癥或其階段的特征性模式被表達(dá)。因此,測定例如來自組織或體液的細(xì)胞中的基因活動(dòng)的變化,已經(jīng)成為用于疾病診斷的有力工具。這種方法具有多種優(yōu)點(diǎn)。通常,從疾病機(jī)體的特定區(qū)域獲得臨床樣本是困難的,可能會(huì)在機(jī)體中產(chǎn)生不期望的侵入,例如,活組織檢查常常被用來獲得癌癥樣本。在有些情況下,如在阿爾茨海默病中,只能在死亡后獲得大腦樣本。此外,獲得的組織樣本常常是異源的(heterogeneous),并且可能含有患病的和未患病的細(xì)胞的混合物,使得對(duì)生成的基因表達(dá)數(shù)據(jù)進(jìn)行分析變得復(fù)雜而困難。一般認(rèn)為,在腫瘤的形態(tài)學(xué)表現(xiàn)上似乎發(fā)病均一(homogeneous)的腫瘤組織可能在分子水平上屬于高度異質(zhì)的(Alizadeh,2000,同上文),并且實(shí)際上可能含有代表實(shí)質(zhì)上不同種類的疾病的腫瘤(Alizadeh,2000,同上文;Golub,1999,同上文)。用于鑒定疾病、病癥或其階段,任何不需要直接來源于疾病組織或細(xì)胞的臨床樣本的方法是十分讓人期望的,因?yàn)榇砑?xì)胞類型均質(zhì)混合物的臨床樣本可以從機(jī)體的容易接近區(qū)域獲得。目前,本發(fā)明人已經(jīng)鑒定一組探針,其具有用于鑒定一種或多種疾病的令人驚訝的用途。因此,本發(fā)明人描述來源于無病細(xì)胞也未與疾病細(xì)胞接觸的細(xì)胞的探針或探針組, 該探針對(duì)應(yīng)于相對(duì)于疾病個(gè)體在正常個(gè)體中具有改變的表達(dá)的基因,該探針用于鑒定、診斷或監(jiān)控特定病癥、特定疾病或其階段的方法中。因此,本發(fā)明提供一組寡核苷酸探針,其對(duì)應(yīng)于在細(xì)胞中、表達(dá)受特定疾病、病癥或其階段的特征性模式影響的基因,其中所述基因系統(tǒng)性地受所述疾病、病癥或其階段影響。優(yōu)選地,所述基因是代謝基因或看家基因,優(yōu)選被組成型中度或高度(moderately or highly)表達(dá)。優(yōu)選地,該基因在樣本的細(xì)胞中被中度或高度表達(dá),但是不在來自疾病細(xì)胞或與這種疾病細(xì)胞接觸的細(xì)胞中表達(dá)。特別地,當(dāng)這種探針從遠(yuǎn)離疾病部位的細(xì)胞中分離得到時(shí),該探針不依賴于疾病發(fā)展到臨床上可識(shí)別的水平,并且可以在所述疾病或病癥發(fā)作后的非常早的時(shí)期,甚至在出現(xiàn)其它主觀的或客觀的癥狀的數(shù)年前,檢測該疾病或病癥或其階段。如在此所用“系統(tǒng)性”受影響的基因是指基因未與疾病細(xì)胞或疾病部位直接接觸并且被研究的細(xì)胞不是疾病細(xì)胞時(shí),該基因在機(jī)體中的表達(dá)受到影響。“接觸”在此是指細(xì)胞相互地緊密鄰近,使得可以觀察到一個(gè)細(xì)胞對(duì)其它細(xì)胞的直接作用,例如,一種免疫反應(yīng),其中這些反應(yīng)不是由第二種分子介導(dǎo),所述第二種分子從第一種細(xì)胞釋放,遠(yuǎn)距離地影響第二種細(xì)胞。優(yōu)選地,接觸是指物理接觸或者空間上盡可能近的接觸,便利地,相互接觸的細(xì)胞存在于同一單位體積中,例如在Icm3中?!凹膊〖?xì)胞”是出現(xiàn)表型變化并且在其生存歷程的某一時(shí)期存在于疾病部位的細(xì)
7胞,例如在腫瘤部位的腫瘤細(xì)胞或者從腫瘤擴(kuò)散的細(xì)胞,或者在大腦異常如阿爾茨海默病情形下的腦細(xì)胞。“代謝的”或“看家的”基因是指那些負(fù)責(zé)表達(dá)參與分化和維持的產(chǎn)物的相應(yīng)基因, 例如非免疫功能相關(guān)基因?!爸卸?moderately)或高度”的被表達(dá)基因是指以超過30-100拷貝/細(xì)胞(假設(shè)每個(gè)細(xì)胞中平均3xl05個(gè)mRNA分子)的拷貝數(shù)存在于靜止細(xì)胞中的那些基因。在此提供了具有上述特性的特定探針。因此,一個(gè)方面,本發(fā)明提供了一組寡核苷酸探針,其中所述探針組包括至少10 種寡核苷酸,其選自在表1中描述的寡核苷酸或來源于表1中描述的序列的寡核苷酸,或者具有互補(bǔ)序列的寡核苷酸或功能性相當(dāng)?shù)墓押塑账?。“?”在此是指表Ia和/或表lb。表Ib包含在此公開的其它克隆和序列的參考。類似地,表2和4包括兩個(gè)部分,a和b。本發(fā)明還提供一種或多種寡核苷酸探針,其中各個(gè)寡核苷酸探針選自列舉在表1 中的、或者來源于表1中描述的序列的寡核苷酸或其互補(bǔ)序列。這種探針在本發(fā)明的產(chǎn)品和方法中的應(yīng)用,構(gòu)成了本發(fā)明的另一個(gè)方面。如在此提及的“寡核苷酸”是在聚合結(jié)構(gòu)中含有至少6個(gè)單體的核酸分子,即,核苷或其修飾形式。核酸分子可以是DNA、RNA或PNA(肽核酸)或其雜交物或其修飾形式,在合成過程中被甲基化或者由修飾的或非天然的堿基構(gòu)成的,只要它們?nèi)员A艚Y(jié)合互補(bǔ)序列的能力,例如化學(xué)修飾形式,例如LNA(鎖定核酸(Locked Nucleic acid))。這種寡核苷酸被用于本發(fā)明中,來探查目標(biāo)序列,因此,在此也被稱作寡核苷酸探針,或簡稱探針?!皝碓从诒? (或任何其它表)的序列的寡核苷酸”涉及表(例如表1-4)中公開的序列的一部分,其滿足在此描述的寡核苷酸探針的要求,例如在長度和功能方面。優(yōu)選地, 所述部分具有下文描述的大小。優(yōu)選地,構(gòu)成所述探針組的寡核苷酸探針至少長15個(gè)堿基,使得可以結(jié)合目標(biāo)分子。特別地,優(yōu)選所述寡核苷酸探針長度為20-200個(gè)堿基,例如30-150個(gè)堿基,優(yōu)選長 50-100個(gè)堿基。如在此提及,術(shù)語“互補(bǔ)序列”是指具有連續(xù)互補(bǔ)堿基(即T:A,G:C)的序列,因此, 該互補(bǔ)序列能夠通過其互補(bǔ)性相互結(jié)合。提及的“10種寡核苷酸”是指10種不同的寡核苷酸。表1的寡核苷酸、表1來源的寡核苷酸及其功能性等價(jià)物被認(rèn)為是不同的寡核苷酸,互補(bǔ)寡核苷酸不被認(rèn)為是不同的。但是,優(yōu)選至少10種寡核苷酸是10種不同的表1的寡核苷酸(或表1來源的寡核苷酸或者它們的功能性等價(jià)物)。因此,所述10種不同的寡核苷酸優(yōu)選能夠結(jié)合到10種不同的轉(zhuǎn)錄物上。優(yōu)選地,所述寡核苷酸如表1所描述或者來源于表1中描述的序列。特別地,優(yōu)選所述寡核苷酸如表2或表4所描述或者來源于在這些表的任何一個(gè)中所描述的的序列。特別地,優(yōu)選所述寡核苷酸(或其衍生的寡核苷酸)具有表3中說明的高發(fā)生率,特別地優(yōu)選 > 40%,例如> 80 或> 90,例如 100%。在此描述的“組(set),,是指獨(dú)特寡核苷酸探針(即具有區(qū)別序列)的集合,并且優(yōu)選由少于1000種寡核苷酸探針組成,特別地少于500種探針,例如優(yōu)選10-500種,例如10-100種,200種或300種,特別地優(yōu)選20-100種,例如30-100種探針。在有些情形下,使用少于10種探針,例如2-9種探針,例如5-9種探針??梢灶A(yù)期,增加探針的數(shù)量,通過與其它會(huì)類似地改變被探查的特定基因的表達(dá)的疾病比較,將會(huì)防止不良分析例如誤診的可能性。也可以使用其它未在此被描述的寡核苷酸探針,特別當(dāng)它們有助于寡核苷酸探針組的最終使用時(shí)。但是,優(yōu)選地,所述探針組僅由所述表1的寡核苷酸、表1來源的寡核苷酸、或其互補(bǔ)序列或功能性等價(jià)的寡核苷酸、或其子集(例如具有上述大小)、優(yōu)選序列在此被提供的子集(參見表1及其腳注)組成。特別地,優(yōu)選所述探針組僅由所述表1的寡核苷酸、表1來源于的寡核苷酸或其互補(bǔ)序列或其子集組成。在各個(gè)探針組中,可以存在多拷貝的每種獨(dú)特的(unique)寡核苷酸探針,例如10 個(gè)或多個(gè)拷貝,但是僅構(gòu)成單一的探針。優(yōu)選將一組寡核苷酸探針固定在固體支持物上,或者用其它的方式進(jìn)行這種固定,所述寡核苷酸探針組包括至少10種選自前文所述的那些探針的寡核苷酸探針。特別地,優(yōu)選從那些具有如表3中描述的和如上提及的具有高出現(xiàn)率的核酸中選擇所述探針。 如上提及,這10種探針必需是獨(dú)特的并且具有不同序列。但是,必需使用識(shí)別相同基因但是反映不同剪切事件的兩種分別的探針。但是,互補(bǔ)并結(jié)合不同基因的寡核苷酸探針是優(yōu)選的。如在此描述,與表1中描述的那些序列或者來源于它們的序列的“功能性等價(jià)的” 寡核苷酸,是指能夠鑒定與表1的寡核苷酸或其來源的寡核苷酸所鑒定的相同的基因,即, 其能夠結(jié)合到與表1寡核苷酸或者表1來源的寡核苷酸(或其互補(bǔ)序列)相同的從基因 (目標(biāo)核酸分子)轉(zhuǎn)錄來的mRNA分子(或DNA)上。優(yōu)選地,所述功能性等價(jià)的寡核苷酸是能夠識(shí)別,即結(jié)合到與表1寡核苷酸或表1來源的寡核苷酸相同的剪切產(chǎn)物上。優(yōu)選地, 所述mRNA分子是全長的mRNA分子,其對(duì)應(yīng)于表1寡核苷酸或表1來源的寡核苷酸。如在此提及,“能夠結(jié)合”或“結(jié)合”是指在下文描述的條件下雜交的能力。如下文所描述,可以表示為,功能性等價(jià)的寡核苷酸(或者互補(bǔ)序列)具有序列同一性,或者會(huì)雜交到目標(biāo)分子的區(qū)域上,表1寡核苷酸或表1來源寡核苷酸或互補(bǔ)的寡核苷酸會(huì)結(jié)合該分子。優(yōu)選地,功能性等價(jià)的寡核苷酸(或其互補(bǔ)序列)在下文描述的條件下雜交到對(duì)應(yīng)于表1寡核苷酸或表1來源的寡核苷酸的mRNA序列之一上,或者與對(duì)應(yīng)于表1寡核苷酸或表 1來源的寡核苷酸的mRNA序列之一的一部分具有序列同一性。在本文中,“部分”是指一條至少5個(gè)堿基的鏈,例如至少10或20個(gè)堿基,例如5-100個(gè),例如10-50個(gè)或15-30個(gè)堿基。特別優(yōu)選方面,功能性等價(jià)的寡核苷酸結(jié)合到靶核酸分子(mRNA或cDNA)的區(qū)域的全部或部分上,表1寡核苷酸或表1衍生的寡核苷酸結(jié)合到該核酸分子上?!澳繕?biāo)”或“靶” 核酸分子是基因轉(zhuǎn)錄物或者相關(guān)產(chǎn)物例如mRNA或cDNA,或其擴(kuò)增產(chǎn)物。所述表1的寡核苷酸或表1來源的寡核苷酸結(jié)合的所述目標(biāo)分子的所述“區(qū)域”是存在互補(bǔ)性的鏈。該區(qū)域最大為全長的表1的寡核苷酸或表1來源的寡核苷酸,但是如果整個(gè)表1的序列或表1來源的寡核苷酸不與該目標(biāo)序列的區(qū)域互補(bǔ)時(shí),該區(qū)域可以短一些。優(yōu)選地,所述目標(biāo)分子的所述區(qū)域的所述部分為至少5個(gè)堿基的鏈,例如,至少10 或20個(gè)堿基,例如5-100堿基,例如10-50個(gè)或15-30個(gè)堿基。例如,這可以通過具有多個(gè)與表1的寡核苷酸或表1來源的寡核苷酸的堿基相同堿基的所述功能性等價(jià)的寡核苷酸來實(shí)現(xiàn)。這些堿基可以在連續(xù)的鏈上相同,例如在功能性等價(jià)的寡核苷酸的部分上,或者可以不連續(xù)地存在,但是具有足夠允許結(jié)合到目標(biāo)序列上的互補(bǔ)性。因此,在優(yōu)選方面,所述功能性等價(jià)的寡核苷酸在高嚴(yán)緊條件下結(jié)合到表1的寡核苷酸或表1來源的寡核苷酸或其互補(bǔ)序列上??梢员硎緸?,所述功能性等價(jià)的寡核苷酸與表1寡核苷酸的全部或部分具有高度序列同一性。優(yōu)選地,所述功能性等價(jià)的寡核苷酸與表1的寡核苷酸的全部或其部分具有至少70%序列同一性,優(yōu)選至少80%,例如至少90、 95、98或99%的序列同一性。如在本文所用,在所述表1的寡核苷酸中,“部分”是指至少 5個(gè)堿基的鏈,例如至少10個(gè)或20個(gè)堿基,例如5-100個(gè),例如10-50個(gè)或15-30個(gè)堿基。 特別優(yōu)選地,當(dāng)僅與所述表1的寡核苷酸的部分具有序列同一性時(shí),序列同一性很高,如上所述,例如至少80%。滿足上面規(guī)定的功能要求的功能性等價(jià)的寡核苷酸包括那些來源于表1的寡核苷酸,以及那些通過一個(gè)或多個(gè)核苷酸堿基(或等價(jià)物)取代、添加和/或刪除修飾的、但是保持功能活性的寡核苷酸,所述活性例如結(jié)合到與表1的寡核苷酸或表1來源的 (derived)寡核苷酸相同的目標(biāo)分子上,自表1的寡核苷酸或表1來源的寡核苷酸它們被進(jìn)一步衍生或修飾。優(yōu)選地,所述修飾為1-50個(gè),例如10-30個(gè),優(yōu)選1-5個(gè)堿基。特別優(yōu)選地,僅存在較小的修飾,例如小于10個(gè)堿基的改變,例如小于5個(gè)堿基的改變?!疤砑印钡葍r(jià)物的含義中包括含有添加的序列的寡核苷酸,該寡核苷酸與目標(biāo)分子上連續(xù)的堿基鏈互補(bǔ),表1的寡核苷酸或表1來源的寡核苷酸結(jié)合到該目標(biāo)分子上。可替代地,該添加包括不同的、不相關(guān)的序列,其可能例如賦予另一種特性,例如提供一種固定方式,例如作為將寡核苷酸探針結(jié)合到固體支持物上的接頭。特別優(yōu)選的是天然的等價(jià)物,例如生物學(xué)變體,例如等位基因的、地理的或同種異型的變體,例如對(duì)應(yīng)于遺傳變體的寡核苷酸,例如在不同種屬中存在的。功能性等價(jià)物包括具有被修飾堿基的寡核苷酸,例如采用非天然的堿基修飾的。 這種衍生物可以在合成過程中或者通過生產(chǎn)后修飾來制備。在低嚴(yán)緊條件下“雜交”的序列是那些在非嚴(yán)緊條件下(例如,室溫下6xSSC/50% 甲酰胺)結(jié)合,并且在低嚴(yán)緊條件下OX SSC,室溫,更加優(yōu)選2XSSC,42°C )洗滌時(shí)仍保持結(jié)合。高嚴(yán)緊條件下的雜交是指上述條件,其中在2X SSC, 650C (其中SSC = O. 15M NaCl, 0. 015M檸檬酸鈉,pH 7. 2)條件下進(jìn)行洗滌。在此提及“序列同一性”是指當(dāng)用ClustalW(Thompson等,1994,Nucl. Acids Res., 22,4673-4680)以如下參數(shù)進(jìn)行評(píng)價(jià)時(shí)獲得的值成對(duì)排列參數(shù)-方法精確,矩陣IUB,缺口開口罰分15. 00,缺口延伸罰分6.66 ;多重排列參數(shù)-矩陣IUB,缺口開口罰分15. 00,延遲的%同一性30,逆矩陣 (Negative matrix)無,缺口延伸罰分6. 66,DNA 變換權(quán)重(transitionsweighting) 0. 5。特定堿基上的序列同一性意欲包括被簡單衍生化的相同堿基。本發(fā)明還涉及由表1的寡核苷酸或表1來源的寡核苷酸所結(jié)合的序列mRNA編碼的多肽。本發(fā)明還涉及結(jié)合任何所述多肽的抗體。
10
如上文所述,便利地,可以將所述組的寡核苷酸探針固定在一個(gè)或多個(gè)固體支持物上。單一的或優(yōu)選多重拷貝的各種獨(dú)特探針被附著到所述固體支持物上,例如存在10個(gè)或更多的,例如至少100個(gè)拷貝的各種獨(dú)特(eachunique)探針。一種或多種獨(dú)特寡核苷酸探針可以與分開的固體支持物結(jié)合,一起形成固定在多個(gè)固體支持物上的一組探針,例如一種或多種獨(dú)特的探針被固定在多種珠、膜、濾器(filter)、生物芯片等上,一起形成一組探針,一起形成下文描述的試劑盒的模塊 (module) 0雖然與各種探針相關(guān)的信號(hào)(如下文所述產(chǎn)生的)必需是分別地被檢測,不同模塊的固體支持物可便利地物理上相聯(lián)在一起。可替代地,探針必需被固定在同一固體支持物的分散部分上,例如各種獨(dú)特的寡核苷酸探針,例如以多拷貝存在,可能被固定在單一的濾器或膜的不同和分散的部分或區(qū)域上,例如生成陣列。這種技術(shù)的組合也可以被使用,例如可以使用數(shù)個(gè)固體支持物,每個(gè)支持物固定了多種獨(dú)特的探針。表述“固體支持物”是指能夠通過疏水鍵、離子鍵或共價(jià)鍵結(jié)合寡核苷酸的任何固體材料。如在此所用“固定”是指探針通過這種結(jié)合可逆地或者不可逆地結(jié)合到所述固體支持物上。如果是可逆的,所述探針保持與固體支持物結(jié)合足夠長的時(shí)間,使得本發(fā)明的方法可以被實(shí)施。許多適合用于固定按照本發(fā)明的成分的固體支持物在本領(lǐng)域是熟知的,并且在文獻(xiàn)中被廣泛描述,總之,固體支持物可以是當(dāng)前被廣泛使用的或者在化學(xué)或生物化學(xué)方法中用于固定、分離等的熟知支持物或材料的任何一種。這種材料包括,但是不限于,任何合成的有機(jī)聚合物,例如聚苯乙烯、聚氯乙烯、聚乙烯;或者硝化纖維和纖維素乙酸酯;或者甲苯磺?;罨砻妫换蛘卟AЩ蚰猃埢蛘呷魏尉哂羞m合共價(jià)偶聯(lián)核酸的基團(tuán)的表面。固定部分可以是顆粒、片、凝膠、濾器、膜、微絲條帶(microfibre strip)、試管或平板、纖維或毛細(xì)管形式,由如聚合材料如瓊脂、纖維素、藻酸鹽、聚四氟乙烯、乳膠或聚苯乙烯或磁珠組成??梢蕴峁╆嚵?優(yōu)選以一維的形式)的固體支持物是優(yōu)選的,例如片、濾器、膜、平板或生物芯片??梢灾苯踊蜷g接地將核酸分子附著到固體支持物上。例如,如果使用濾器,可以通過UV-誘導(dǎo)的交聯(lián)來進(jìn)行附著。可替代地,可以利用寡核苷酸探針和/或固體支持物上攜帶的連接成分,間接進(jìn)行附著,因此,例如可以使用一對(duì)親合結(jié)合配偶體,例如抗生物素蛋白、鏈霉抗生物素或生物素、DNA或DNA結(jié)合蛋白(例如lac I阻遏蛋白或者其結(jié)合的Iac 操縱子序列)、抗體(可以是單克隆抗體或多克隆抗體)、抗體片段或表位或抗體的半抗原。 在這些情況下,結(jié)合對(duì)中的一個(gè)配偶體被附著到固體支持物上(或者是內(nèi)在的一部分),而其它配偶體被連接到核酸分子上(或者是內(nèi)在的一部分)。如在此所用,“親合結(jié)合對(duì)”是指識(shí)別并特異性地相互結(jié)合的兩個(gè)成分(即優(yōu)先結(jié)合另外一個(gè)分子)。當(dāng)這種結(jié)合對(duì)結(jié)合在一起時(shí),形成復(fù)合物??梢酝ㄟ^本領(lǐng)域熟知的方法將適當(dāng)?shù)墓δ苄曰鶊F(tuán)附著到固體支持物上,其包括, 例如通過羥基、羧基、醛基或氨基連接,可以通過處理固體支持物以生成合適的表面包被來提供這些基團(tuán)??梢酝ㄟ^本領(lǐng)域知曉的常規(guī)方法來生產(chǎn)呈遞用于附著結(jié)合配偶體的適當(dāng)成分的固體支持物??梢栽诤铣苫驍U(kuò)增過程中,通過連接或?qū)雽⑦m當(dāng)?shù)墓δ苄曰鶊F(tuán)附著到本發(fā)明的寡核苷酸探針上,例如采用攜帶適當(dāng)成分例如生物素的引物或用于捕獲的特定序列。便利地,上文描述的探針組以試劑盒的形式提供。因此,從還有一個(gè)方面看,本發(fā)明提供一種試劑盒,包括被固定在一種或多種固體支持物上的上文描述的一組寡核苷酸探針。優(yōu)選地,所述探針被固定在單一的固體支持物上,并且各種獨(dú)特探針被附著到所述固體支持物的不同區(qū)域上。但是,當(dāng)被附著到多個(gè)固體支持物上時(shí),所述多個(gè)固體支持物形成構(gòu)成試劑盒的模塊。特別地,優(yōu)選所述固體支持物是片、濾器(filter)、膜、平板或生物
-H-· I I心片??蛇x擇地,該試劑盒還含有由正?;蚣膊颖井a(chǎn)生的信號(hào)的信息(將在下文涉及試劑盒的使用中被更加詳細(xì)地討論),標(biāo)準(zhǔn)化材料,例如用于比較目的的來自正常和/或疾病樣本的mRNA或cDNA,用于結(jié)合到cDNA的標(biāo)記,用于擴(kuò)增目的導(dǎo)入核酸的連接物,用于擴(kuò)增的引物和/或適當(dāng)?shù)拿?,緩沖液和溶液??蛇x擇地,所述試劑盒可能還含有包裝插頁,該插頁描述如何實(shí)施本發(fā)明的方法,可選擇地提供標(biāo)準(zhǔn)曲線、數(shù)據(jù)或者用于解釋實(shí)施本發(fā)明所獲得的結(jié)果的軟件。如下文描述的這種試劑盒用于制備標(biāo)準(zhǔn)的診斷基因轉(zhuǎn)錄本模式 (standarddiagnostic gene transcript pattern)的用i^t勾了*胃明的另一yIvTjHo在此描述的探針組具有各種用途。但是,它們主要地被用于評(píng)價(jià)被檢測細(xì)胞的基因表達(dá)狀態(tài),以提供與來源所述細(xì)胞的生物體相關(guān)的信息。因此,該探針可用于診斷、鑒定或監(jiān)控生物體中的疾病或病癥或其階段。因此,在還有一個(gè)方面,本發(fā)明提供上文所述的一組寡核苷酸探針或試劑盒來確定細(xì)胞的基因表達(dá)模式,該模式反映所述寡核苷酸探針結(jié)合的基因的基因表達(dá)水平,至少包括步驟a)從所述細(xì)胞中分離mRNA,可選擇地將該mRNA反轉(zhuǎn)錄成cDNA ;b)將步驟(a)的mRNA或cDNA雜交到在此定義的一組寡核苷酸探針或試劑盒上; 和c)評(píng)價(jià)雜交到各種所述探針上的mRNA或cDNA的量,以產(chǎn)生所述模式。在本方法以及下文的方法中提及的mRNA和cDNA包括所述分子的衍生物或拷貝, 例如這些分子的拷貝,如那些通過擴(kuò)增生成的或互補(bǔ)鏈制備的,但是仍保持與mRNA序列的同一性,即能夠在至少所述分子的一個(gè)區(qū)上,通過精確的互補(bǔ)性或序列同一性雜交到直接轉(zhuǎn)錄物(或其互補(bǔ)序列)上??梢灶A(yù)期,在整個(gè)區(qū)域上不存在互補(bǔ)性,在該區(qū)域上采用一些技術(shù),例如通過引物擴(kuò)增,截?cái)噢D(zhuǎn)錄物或者導(dǎo)入新序列。為了方便,優(yōu)選在步驟b)之前擴(kuò)增所述mRNA或cDNA。采用在此描述的寡核苷酸,可以修飾所述分子,例如通過在合成過程中使用非天然的堿基,同時(shí)保持互補(bǔ)性。這種分子可能還含有其它成分例如信號(hào)成分或者固定成分。在制備這種模式的方法中包括的各種步驟將在下文被更加詳細(xì)地描述。如在此所用,“基因表達(dá)”是指特定的基因轉(zhuǎn)錄,生成特定的mRNA產(chǎn)物(即特定的剪接產(chǎn)物)。可以通過評(píng)價(jià)被轉(zhuǎn)錄的mRNA分子或從mRNA分子反轉(zhuǎn)錄得到的cDNA分子或者來源于這些分子的產(chǎn)物的量來確定基因表達(dá)水平,例如通過擴(kuò)增。通過這種方法產(chǎn)生的“模式(pattern) ”是指例如通過列表和圖形形式表示的信息,并且傳遞與兩種或多種寡核苷酸相關(guān)信號(hào)的信息。優(yōu)選地,所述模式被表達(dá)成與各種探針關(guān)聯(lián)的表達(dá)水平相關(guān)的數(shù)量的排列。優(yōu)選地,所述模式用如下線性模型來建立y = Xb+f方程式 1其中,X為基因表達(dá)數(shù)據(jù)的矩陣,而y為因變量(response variable),b為回歸系數(shù)向量(regression coefficient vector),而 f 為估計(jì)的殘數(shù)向量(estimated residual vector) 0雖然??梢杂迷S多不同的方法來建立方程式1中提供的關(guān)系,特別優(yōu)選地,采用偏最小二乘回歸(Partial Least SquaresRegression) (PLSR)方法來建立方程式1中的關(guān)系。因此,該探針被用于產(chǎn)生反映細(xì)胞在其分離時(shí)的基因表達(dá)模式。表達(dá)模式表征了細(xì)胞適合存在的環(huán)境,并且取決于該細(xì)胞曾受到的影響。因此,可以制備來自患有特定疾病或病癥的個(gè)體的細(xì)胞的特征性基因轉(zhuǎn)錄模式標(biāo)準(zhǔn)或指紋圖(標(biāo)準(zhǔn)探針模式),并且可以被用于比較檢測細(xì)胞的轉(zhuǎn)錄模式。這顯然可以被用于診斷、監(jiān)控或鑒定一種生物體是否患有特定的疾病、病癥或其階段。通過確定來自一種或多種患有疾病或病癥或其階段的生物體樣本的細(xì)胞的總 mRNA(或cDNA或相關(guān)產(chǎn)物)的結(jié)合到所述探針上的程度,制備標(biāo)準(zhǔn)模式。這反映代表對(duì)應(yīng)于各種獨(dú)特探針的轉(zhuǎn)錄物的量。評(píng)價(jià)結(jié)合到不同探針上的核酸物質(zhì)的量,這些信息一起構(gòu)成該疾病或病癥或其階段的基因轉(zhuǎn)錄模式標(biāo)準(zhǔn)。各種這樣的模式表征該疾病、病癥或其階段。在還有一個(gè)方面,本發(fā)明提供一種制備表征生物體中的疾病或病癥或其階段的標(biāo)準(zhǔn)基因轉(zhuǎn)錄模式(standard gene transcript pattern)的方法,至少包括步驟a)從一種或多種患有疾病或病癥或其階段的生物體中分離mRNA,可選擇地將 mRNA反轉(zhuǎn)錄成cDNA ;b)將步驟(a)的mRNA或cDNA雜交到上文描述的特異于所述生物體及其樣本的疾病或病癥或其階段的一組寡核苷酸或試劑盒上,該生物體和樣本對(duì)應(yīng)于被研究的生物體和樣本;和c)評(píng)價(jià)雜交到各種所述探針上的mRNA或cDNA的量,生成反映在患有疾病、病癥或其階段的樣本中,所述寡核苷酸結(jié)合的基因的基因表達(dá)水平的特征性模式。方便起見,所述寡核苷酸優(yōu)選被固定在一種或多種固體支持物上。采用特定探針確定的大量疾病或病癥以及其不同階段的標(biāo)準(zhǔn)模式被積累在數(shù)據(jù)庫中,可供需要的實(shí)驗(yàn)室獲取。在此提及的“疾病”樣本或生物體是指相對(duì)于正常生物體(或樣本)發(fā)生病理紊亂的生物體(或從此獲得的樣本),有癥狀或無癥狀的生物體,其由例如感染或獲得性或先天性遺傳缺陷產(chǎn)生。這種生物體已知具有或表現(xiàn)出所研究的疾病或病癥或其階段?!安“Y(condition) ”是指生物體的精神上或機(jī)體上的狀態(tài),未在疾病過程中出現(xiàn), 例如機(jī)體中存在一種致病因子(agent),例如毒素、藥物或者污染物,或者妊娠。其“階段(stage) ”是指疾病或病癥的不同階段,其可能具有或不具有特定的生理或代謝改變,但是在基因水平上發(fā)生改變,可以以改變的基因表達(dá)來檢測??梢灶A(yù)期,在疾病或病癥過程中,不同轉(zhuǎn)錄本的表達(dá)是變化的。因此,在不同階段,改變的表達(dá)由于相對(duì)于 “正?!睒颖镜奶囟ㄞD(zhuǎn)錄物而未被展示。但是結(jié)合來自多個(gè)轉(zhuǎn)錄物的信息可以被用于產(chǎn)生指示疾病或病癥的特定階段的特征性模式,該信息顯示在疾病或病癥過程的一個(gè)或多個(gè)階段的改變的表達(dá)。因此,例如可以確定癌癥中的不同階段,如前期1、1期、II期、II或IV期。如在此所用,“正常物”是指用于比較目的的生物體或樣本。優(yōu)選地,從某種意義上說,如果不具有任何跡象表明患有或者被認(rèn)為患有任何影響基因表達(dá)的疾病或病癥,特別是它們將被用作正常標(biāo)準(zhǔn)物的相關(guān)疾病,則它們是“正常的”。但是,還可以預(yù)期,在這種情形下,可以比較疾病或病癥的不同階段,“正常的”樣本對(duì)應(yīng)于疾病或病癥的較早階段。如在此所用,“樣本”是指從生物體中例如被研究的含有細(xì)胞的人或非人的動(dòng)物獲得的任何物質(zhì),包括,組織、體液或機(jī)體廢物,或者在為原核生物體的情況下是生物體本身。 “體液”包括血液、唾液、脊髓液、精液、淋巴。“機(jī)體廢物”包括尿液、咳出的物質(zhì)(肺部患者)、 糞便等?!敖M織樣本”包括通過活組織檢查、手術(shù)介入或者通過其它方法獲得的組織,例如胎盤。但是,優(yōu)選地,被檢測的樣本來自未明顯受疾病或病癥影響的機(jī)體區(qū)域。這些樣本中的細(xì)胞不是疾病細(xì)胞,例如癌細(xì)胞,未與這種疾病細(xì)胞接觸并且不是來源于疾病或病癥部位。 “疾病部位”被認(rèn)為是以可以客觀地被確定的方式顯現(xiàn)出疾病的機(jī)體部位,例如腫瘤或炎癥區(qū)域。因此,例如外周血被用于診斷非造血性癌癥,該血液不需要存在來自血液中的癌癥的惡性或分散的細(xì)胞。類似地,在腦部疾病中,由于血腦屏障,血液中沒有發(fā)現(xiàn)疾病細(xì)胞,但外周血仍可以被用于本發(fā)明的方法中。但是,可以預(yù)期,制備標(biāo)準(zhǔn)轉(zhuǎn)錄模式的方法和本發(fā)明的其它方法也可以被用于真核生物體的活的部分,例如細(xì)胞系和器官培養(yǎng)物和外植體(explant)。如在此所用,提及的“相應(yīng)”樣本等是指優(yōu)選來自同一組織、體液或機(jī)體廢物的細(xì)胞,也包括來自足以類似用于制備標(biāo)準(zhǔn)或檢測模式目的組織、體液或機(jī)體廢物的細(xì)胞。當(dāng)用于涉及“相應(yīng)于”探針的基因時(shí),是指盡管探針可能反映不同的表達(dá)剪切產(chǎn)物,但在序列上與探針相關(guān)的基因(其可能是互補(bǔ)的)。如在此所用,“評(píng)價(jià)”是指定量和定性的評(píng)價(jià),其可以被絕對(duì)或者相對(duì)地確定??梢匀缦聦?shí)施本發(fā)明。為了制備特定疾病、病癥或其階段的標(biāo)準(zhǔn)轉(zhuǎn)錄模式,按照已知技術(shù),從來自疾病個(gè)體或生物體的組織、體液或機(jī)體廢物的細(xì)胞中提取樣本mRNA(參見例如Sambrook等(1989) ,Molecular Cloning :A laboratory manual,第二片反,Cold Spring Harbor Laboratory Press,Cold SpringHarbor,紐約)0由于難以操作RNA,優(yōu)選在該階段反轉(zhuǎn)錄RNA,以形成第一鏈cDNA。在該方法或者本發(fā)明的其它方法中,cDNA的克隆或從cDNA文庫中選擇或使用cDNA文庫不是必需的。優(yōu)選地,合成第一條鏈的cDNA的互補(bǔ)鏈,即第二條鏈的cDNA,但是這取決于在寡核苷酸探針存在哪一條相對(duì)鏈。但是,可替代地,直接使用RNA,而不需要反轉(zhuǎn)錄,如果需要,可進(jìn)行標(biāo)記。優(yōu)選地,通過已知的擴(kuò)增技術(shù)擴(kuò)增cDNA鏈,例如使用適當(dāng)?shù)囊镞M(jìn)行聚合酶鏈?zhǔn)椒磻?yīng)(PCR)??商娲?,可以用載體來克隆cDNA鏈,該載體用于轉(zhuǎn)化細(xì)菌例如大腸桿菌,然后培養(yǎng)細(xì)菌以增加核酸分子。當(dāng)cDNA序列是已知的時(shí),引物可以定向于被導(dǎo)入的核酸分子的某些區(qū)域。因此,例如,可以將連接物連接到cDNA分子以及定向于所述用于擴(kuò)增cDNA分子的這些部位的引物上??商娲?,在為真核生物樣本的情況下,有利地采用polyA尾巴和RNA帽子來制備適當(dāng)?shù)囊?。為了生成特定疾病或病癥或其階段的標(biāo)準(zhǔn)診斷基因轉(zhuǎn)錄模式或指紋圖,上述寡核苷酸探針被用于探查疾病樣本的mRNA或cDNA,以產(chǎn)生雜交到各種特定寡核苷酸探針種類, 即各種獨(dú)特探針上的信號(hào)。如果需要,用來自正常樣本的mRNA或cDNA制備標(biāo)準(zhǔn)的對(duì)照基因轉(zhuǎn)錄模式。因此,在允許雜交的適當(dāng)條件下,將mRNA或cDNA與寡核苷酸探針接觸。當(dāng)多種樣本被探查,可以用同一探針連續(xù)進(jìn)行,例如該探針位于一種或多種固體支持物上,即位于探針試劑盒模塊上,或者通過同時(shí)雜交到相應(yīng)的探針上,例如相應(yīng)的探針試劑盒的模塊。為了確定雜交發(fā)生并獲得結(jié)合到寡核苷酸探針上的轉(zhuǎn)錄物/cDNA分子數(shù)量的指示,有必要確定當(dāng)轉(zhuǎn)錄物(或相關(guān)分子)雜交時(shí)產(chǎn)生的信號(hào)(例如在例如通過洗滌去除未被結(jié)合的分子后,通過檢測雙鏈核酸分子或檢測被結(jié)合的分子數(shù)量)。為了獲得一種信號(hào),雜交的一種或兩種成分(即探針和轉(zhuǎn)錄物)攜帶或形成信號(hào)方式或其部分。這種“信號(hào)方式(signalling means) ”是任何能夠通過產(chǎn)生或呈遞一種信號(hào)而直接或間接檢測的成分。該信號(hào)是任何可檢測的物理特性,例如被賦予放射激發(fā)、散射或吸收特性、磁性特性或現(xiàn)有分子(例如標(biāo)記)或生成的分子(例如氣體發(fā)射等)的其它物理特性,例如電荷、大小和結(jié)合特性。使得信號(hào)擴(kuò)大的方法是優(yōu)選的,例如從單一活性結(jié)合位點(diǎn)上產(chǎn)生多個(gè)信號(hào)事件,例如通過酶的催化作用產(chǎn)生多個(gè)可檢測的產(chǎn)物。便利地,信號(hào)方式可以是一種標(biāo)記,其本身提供一種可檢測的信號(hào)。便利地,這可以用放射性的或其它標(biāo)記來實(shí)現(xiàn),其可以在生產(chǎn)CDNA、制備互補(bǔ)cDNA鏈過程中,在擴(kuò)增目標(biāo)mRNA/cDNA中被加入或被直接添加到目標(biāo)核酸分子上。合適的標(biāo)記是那些允許直接或間接地檢測或測定轉(zhuǎn)錄物/cDNA的存在的那些標(biāo)記。這種標(biāo)記包括例如,放射性標(biāo)記,化學(xué)標(biāo)記,例如發(fā)色團(tuán)或熒光團(tuán)(例如染料如熒光素和羅丹明),或者高電子密度的試劑例如鐵蛋白、血藍(lán)蛋白或膠體金??商娲兀摌?biāo)記可以是酶,例如過氧化物酶或堿性磷酸酶,其中酶的存在通過與合適的實(shí)體例如一種底物相互作用來顯示。該標(biāo)記還可以構(gòu)成信號(hào)對(duì)的一部分,其中該對(duì)的其它成分存在于或者緊密接近于轉(zhuǎn)錄物/cDNA所結(jié)合的寡核苷酸探針,例如,可以使用熒光化合物和淬滅熒光底物??梢栽诓煌瑢?shí)體上提供標(biāo)記,例如一種抗體,其識(shí)別附著到轉(zhuǎn)錄物/cDNA上的肽成分,例如附著到用于合成或擴(kuò)增過程中的堿基上。可以在雜交步驟之前、期間或之后導(dǎo)入標(biāo)記來產(chǎn)生信號(hào)。可替代地,可以通過其它物理特性來確定雜交轉(zhuǎn)錄物的存在,例如它們的吸光率,在這種情形下,信號(hào)方式是復(fù)合物本身。然后評(píng)價(jià)與寡核苷酸探針相關(guān)的信號(hào)量。該評(píng)價(jià)可以是定量的或定性的,并且基于單一的轉(zhuǎn)錄物種類(或相關(guān)cDNA或其它產(chǎn)物)結(jié)合到各種探針上或者多種轉(zhuǎn)錄物種類結(jié)合到多個(gè)拷貝的各種獨(dú)特探針上。可以預(yù)期,定量結(jié)果將會(huì)給疾病的轉(zhuǎn)錄物指紋圖提供更多信息,這些信息被匯集。該數(shù)據(jù)可以絕對(duì)值表示(在巨陣列情形下)或者被相對(duì)于特定的標(biāo)準(zhǔn)或參考值確定,例如相對(duì)于正常對(duì)照樣本。此外,可以預(yù)期,可以用一種或多種疾病樣本(如果使用,正常樣本)進(jìn)行雜交步驟,來獲得基因表達(dá)方面不偏向特定個(gè)體的變化的模式,以制備標(biāo)準(zhǔn)的診斷基因模式轉(zhuǎn)錄物。
15
使用探針來制備標(biāo)準(zhǔn)模式和標(biāo)準(zhǔn)的診斷基因轉(zhuǎn)錄模式,生成這些模式來用于鑒定或診斷或監(jiān)控特定生物體中的特定疾病或病癥或其階段,構(gòu)成了本發(fā)明的另一個(gè)方面。一旦采用所測定的寡核苷酸探針鑒定特定疾病或病癥的標(biāo)準(zhǔn)診斷指紋圖或模式, 該信息可以被用于鑒定不同檢測生物體或個(gè)體中的疾病或病癥的存在、缺乏或嚴(yán)重程度或發(fā)展階段。為了檢查檢測樣本的基因表達(dá)模式,對(duì)應(yīng)于用于制備標(biāo)準(zhǔn)模式的樣本,從患者或被研究的生物體中獲得組織、體液或含有細(xì)胞的機(jī)體廢物的檢測樣本。然后如上文描述的標(biāo)準(zhǔn)模式,制備檢測基因轉(zhuǎn)錄模式。因此,在還有一個(gè)方面,本發(fā)明提供用于制備檢測基因轉(zhuǎn)錄模式的方法,至少包括步驟a)從所檢測的生物體樣本的細(xì)胞中分離mRNA,其可選擇地被反轉(zhuǎn)錄為cDNA ;b)將步驟(a)的mRNA或cDNA雜交到上文描述的特異于生物體及其樣本的疾病或病癥或其階段的寡核苷酸或試劑盒上,該生物體和樣本對(duì)應(yīng)于被研究的生物體和樣本;和c)評(píng)價(jià)雜交到各種所述探針上的mRNA或cDNA的量,生成反映所述寡核苷酸結(jié)合的基因在所述檢測樣本中的基因表達(dá)水平的模式。然后將檢測模式與一種或多種標(biāo)準(zhǔn)模式比較,以評(píng)價(jià)樣本中是否含有患有疾病、 病癥或其階段的細(xì)胞。因此,從還有一個(gè)方面看,本發(fā)明提供診斷、鑒定或監(jiān)控生物體中的疾病或病癥或其階段的方法,包括步驟(a)從所述生物體樣本的細(xì)胞中分離mRNA,其可選擇地被反轉(zhuǎn)錄為cDNA ;(b)將步驟(a)的mRNA或cDNA雜交到上文描述的特異于生物體及其樣本的疾病或病癥或其階段的寡核苷酸或試劑盒上,該生物體和樣本對(duì)應(yīng)于被研究的生物體和樣本; 和(c)評(píng)價(jià)雜交到各種所述探針上的mRNA或cDNA的量,生成反映所述寡核苷酸結(jié)合的基因在所述樣本中的基因表達(dá)水平的特征性模式;和(d)將所述模式與標(biāo)準(zhǔn)診斷模式比較,以確定在被研究的生物體中是否存在所述疾病或病癥或其階段,其中所述標(biāo)準(zhǔn)診斷模式是用來自對(duì)應(yīng)于被研究的生物體和樣本的生物體的樣本按照本發(fā)明的方法制備的。直到和包括步驟(C)的方法是對(duì)上述檢測模式的制備。如在此提及,“診斷”是指確定生物體中的一種疾病或病癥或其階段的出現(xiàn)或存在?!氨O(jiān)控”是指確定疾病或病癥的程度,特別是當(dāng)已知該個(gè)體患有一種疾病或病癥,例如監(jiān)控治療作用或疾病或病癥的發(fā)展,例如確定治療的合適性或提供一種預(yù)后??梢酝ㄟ^確定標(biāo)準(zhǔn)的和檢測的樣本的模式間的相關(guān)程度來確定疾病和病癥或其階段的存在。這有必要考慮從正?;蚣膊颖局蝎@得的數(shù)值的范圍。雖然這可以通過獲得多個(gè)結(jié)合到探針上的代表性樣本的標(biāo)準(zhǔn)偏差來建立,以產(chǎn)生所述標(biāo)準(zhǔn),但可以預(yù)期,如果檢測樣本與標(biāo)準(zhǔn)模式極其密切相關(guān),單一樣本足以生成用于確定疾病的標(biāo)準(zhǔn)模式。便利地,可以通過將指示性探針在檢測樣本中的表達(dá)水平相關(guān)的數(shù)據(jù)插入到按照方程式1建立的標(biāo)準(zhǔn)診斷探針模式中來預(yù)測檢測樣本中的疾病或病癥或其階段的存在、缺乏或疾病的嚴(yán)重程度或病癥或其階段。
16
用上面提及的方法產(chǎn)生的數(shù)據(jù)可以用來自從最基本的直觀表示(例如關(guān)于強(qiáng)度) 到更復(fù)雜的數(shù)據(jù)處理的各種方法來確定潛在的模式,該模式反映不同探針結(jié)合的各種基因的表達(dá)水平的相互關(guān)系,這種關(guān)系可以被量化并用數(shù)學(xué)方法表達(dá)。便利地,可以通過下文描述的數(shù)據(jù)加工和統(tǒng)計(jì)方法來處理生成的原始數(shù)據(jù),特別是規(guī)范化(normalizing)和標(biāo)準(zhǔn)化 (standardizing)數(shù)據(jù),并將該數(shù)據(jù)擬合到分類模型上,以確定所述檢測數(shù)據(jù)是否反映特定疾病、病癥或其階段的模式。本文描述的方法可以被用于鑒定、監(jiān)控和診斷疾病、病癥或失調(diào)或其階段或進(jìn)展,寡核苷酸探針對(duì)它們具有指示作用。在此描述的“指示性”探針是這樣的探針,其反映在質(zhì)疑的疾病或病癥或特定階段中表達(dá)已被改變的基因。本發(fā)明的探針單獨(dú)使用時(shí),對(duì)于診斷目的不具有足夠的指示性,但是被用作多個(gè)探針之一來產(chǎn)生特征性模式時(shí)具有指示性, 例如用于上文描述的探針組中。優(yōu)選地,所述探針對(duì)應(yīng)于系統(tǒng)性地受所述疾病、病癥或其階段影響的基因。特別地,優(yōu)選產(chǎn)生本發(fā)明的探針結(jié)合的轉(zhuǎn)錄物的所述基因是代謝的或看家的基因,并且優(yōu)選其適度地或高度地被表達(dá)。采用定向于中度或高度地被表達(dá)基因的探針的優(yōu)點(diǎn)在于只需較小的臨床樣本來生成必要的基因表達(dá)數(shù)據(jù)集,例如少于Iml的血液樣本。此外,已經(jīng)發(fā)現(xiàn),那些已經(jīng)被活躍轉(zhuǎn)錄的基因傾向于更容易正向或反向地受新刺激的影響。此外,由于已經(jīng)在通常可檢測的水平上產(chǎn)生轉(zhuǎn)錄物,這些水平上的小變化容易被檢測,例如不必達(dá)到特定的可檢測的閾值。在本發(fā)明的優(yōu)選方法中,本發(fā)明的探針組指示各種不同疾病、病癥或其階段。在此公開的探針的子集可以被用于診斷、鑒定和監(jiān)控特定的疾病、病癥或其階段。因此,該探針可以被用于診斷或鑒定或監(jiān)控任何的病癥、失調(diào)、疾病或反應(yīng),該反應(yīng)導(dǎo)致任何或所有真核或原核生物體的指示性基因的活性的相對(duì)增強(qiáng)或減弱,而無論這些變化是否由細(xì)菌、病毒、朊病毒、寄生蟲、真菌、輻射、天然或人工毒素、藥物或過敏原引起, 包括由應(yīng)激、神經(jīng)癥、精神病引起的精神疾患(mental conditions)或者由于生物體老化引起的退化以及未知原因的病癥或疾病,只要在此描述的探針子集能夠指示所述疾病或病癥或其階段。這種疾病包括那些引起代謝的或生理的改變的疾病,例如發(fā)燒相關(guān)的疾病,例如流感或瘧疾。可以被檢測的其它疾病包括例如黃熱病、性傳播疾病例如淋病、纖維性肌痛 (fibromyalgia)、假絲酵母相關(guān)的綜合癥(candida-relatedcomplex)、癌癥(例如胃、肺、 乳腺、前列腺、腸道、皮膚、結(jié)腸或卵巢等)、阿爾茨海默病(Alzheimer’ s disease)、由逆轉(zhuǎn)錄病毒如HIV引起的疾病、老年癡呆癥、多發(fā)性硬化和Creutzfeldt-Jakob病,等等。本發(fā)明還可以被用于確定患有精神病或心理疾病的患者,例如精神分裂癥和飲食紊亂。特別重要的是,用這種方法來檢測用已知診斷方法不容易檢測的疾病、病癥或其階段的用途,例如在HIV感染后的1-4月內(nèi),用已知方法通常是不能檢測到的??梢澡b定的病癥包括例如藥物濫用,例如使用麻醉劑、乙醇、類固醇或提高機(jī)能的藥物。優(yōu)選地,所述被鑒定或監(jiān)控的疾病為癌癥或退行性大腦異常(例如阿爾茨海默病或 Parkinson 病)0特別地,一組寡核苷酸探針被用于診斷或鑒定或監(jiān)控阿爾茨海默病的進(jìn)展,其中所述探針組包括至少10種選自如下的寡核苷酸如表4中描述的寡核苷酸或來源于其中的寡核苷酸或具有互補(bǔ)序列的寡核苷酸,或功能等價(jià)的寡核苷酸。類似地,表2的探針和表2 來源的探針及其功能性等價(jià)物可以被用于診斷、鑒定或監(jiān)控乳腺癌的進(jìn)展。特別地,優(yōu)選用于乳腺癌分析的探針根據(jù)其在表3中列舉或如上文描述的發(fā)生率來選擇。該診斷方法可以被單獨(dú)使用,作為對(duì)其它診斷技術(shù)的替代或者對(duì)這種技術(shù)的補(bǔ)充。例如,本發(fā)明的方法可以被用作采用成像技術(shù)的診斷方法一種替代的或額外的診斷措施,成像技術(shù)如磁共振成像(MRI)、超聲波成像、細(xì)胞核成像或X-射線成像,例如腫瘤的鑒定和/或診斷。本發(fā)明的方法可以在來自原核或真核生物體的細(xì)胞中實(shí)施,可以是任何真核生物體,例如人類、其它的哺乳動(dòng)物和動(dòng)物、鳥類、昆蟲、魚和植物,以及任何原核生物體例如細(xì)菌。在其中實(shí)施本發(fā)明的方法的優(yōu)選非人類動(dòng)物包括,但是不限于哺乳動(dòng)物、特別是靈長類、家畜、牲畜和實(shí)驗(yàn)動(dòng)物。因此,用于診斷的優(yōu)選動(dòng)物包括小鼠、大鼠、豚鼠、貓、狗、 豬、牛、山羊、綿羊、馬。特別優(yōu)選地,診斷、鑒定或監(jiān)控人的疾病狀態(tài)或病癥。如上所述,被研究的樣本可以是任何的便捷的樣本,可以從生物體上獲得。但是如上提及,優(yōu)選地,從遠(yuǎn)離疾病部位的位置上獲得樣本,并且該樣本中的細(xì)胞是非疾病細(xì)胞、 未與疾病細(xì)胞接觸,并且不是來源于疾病或病癥的部位。在這種情形下,雖然優(yōu)選不含有這些細(xì)胞,但是樣本中可能含有不滿足這些標(biāo)準(zhǔn)的細(xì)胞。但是,由于本發(fā)明的探針與轉(zhuǎn)錄物相關(guān),該轉(zhuǎn)錄物的表達(dá)在滿足這些標(biāo)準(zhǔn)的細(xì)胞被改變,即使存在其它的背景細(xì)胞,該探針特定地定向于檢測這些細(xì)胞中的轉(zhuǎn)錄水平的變化。已經(jīng)發(fā)現(xiàn),來自這種樣本的細(xì)胞在大量基因的基因表達(dá)上發(fā)生顯著的和指示性的變化。因此,由于結(jié)合到該探針的轉(zhuǎn)錄物的特定水平或結(jié)合到該探針的程度相對(duì)于結(jié)合到其它探針上的程度的相互關(guān)系,同一探針(或幾個(gè)探針)被發(fā)現(xiàn)指示關(guān)于兩種或多種疾病、 病癥或其階段的確定。結(jié)果,可能使用相對(duì)少的探針來篩選多種異常或疾病。已經(jīng)有關(guān)于探針選擇的結(jié)論,將在下文相對(duì)于探針的隨機(jī)鑒定被討論,但是也將單獨(dú)一組探針用于一種以上的診斷。表9中給出本發(fā)明的優(yōu)選探針,其指示阿爾茨海默病和乳腺癌的探針。因此,本發(fā)明還提供用于診斷、鑒定或監(jiān)控兩種或多種疾病、病癥或其階段的探針組以及使用該探針組的試劑盒和方法,其中至少所述探針之一適合用于所述診斷、鑒定或監(jiān)控至少所述疾病、病癥或其階段中的兩種。優(yōu)選地,至少5種探針,例如5-15種探針被用于至少兩種診斷中。因此,在還有一個(gè)優(yōu)選方面,本發(fā)明提供上文描述的的診斷或鑒定或監(jiān)控的方法, 用于診斷、鑒定或監(jiān)控生物體中的兩種或多種疾病、病癥或其階段,其中在診斷方法的步驟 c)中生成的所述檢測模式在步驟d)中與至少兩種如先前描述制備的標(biāo)準(zhǔn)診斷模式比較, 其中各種標(biāo)準(zhǔn)診斷模式是為不同的疾病或病癥或其階段而制備。同時(shí),在一個(gè)優(yōu)選方面,評(píng)價(jià)方法涉及來自檢測樣本的基因轉(zhuǎn)錄模式的發(fā)展以及該模式與標(biāo)準(zhǔn)模式的比較,可以通過檢查表達(dá)產(chǎn)物以及這些產(chǎn)物的含量來檢查特定標(biāo)記的表達(dá)的增強(qiáng)或抑制。因而生成與被表達(dá)的產(chǎn)物有關(guān)的標(biāo)準(zhǔn)模式。在這種方法中,由表1的寡核苷酸或表1來源的寡核苷酸結(jié)合的基因所表達(dá)的一組多肽的表達(dá)水平被分析??梢杂酶鞣N診斷方法來評(píng)價(jià)存在的多肽(或其片段)的量??梢岳缤ㄟ^將配偶體結(jié)合到可以被固定的多肽(例如抗體)上,從樣本中分離所述多肽,然后確定多肽量,來檢查多肽的存在或其濃度。多肽的“片段”是指所述多肽的結(jié)構(gòu)域或區(qū)域,例如抗原性片段,由于該片段來源于所述多肽,是可識(shí)別的,可以結(jié)合到特定的結(jié)合配偶體上。優(yōu)選地,這種片段包括所述多肽的重要部分,并且對(duì)應(yīng)于正常的合成后加工的產(chǎn)物。因此,在還有一個(gè)方面,本發(fā)明提供用于制備表征生物體中的疾病或病癥或其階段的標(biāo)準(zhǔn)基因轉(zhuǎn)錄模式的方法,至少包括步驟a)從一種或多種患有疾病、病癥或其階段的生物體的樣本中釋放目標(biāo)多肽;b)將所述目標(biāo)多肽與一種或多種結(jié)合配偶體接觸,其中各種結(jié)合配偶體特異于由表1的寡核苷酸(來源于表1中描述的序列)結(jié)合的基因所編碼的標(biāo)志物多肽(marker polypeptide)(或其片段),使得所述結(jié)合配偶體結(jié)合到所述目標(biāo)多肽上,其中所述標(biāo)志物多肽特異于生物體及其樣本中的所述疾病或其狀態(tài),該生物體或其樣本對(duì)應(yīng)于被研究的生物體和樣本;和c)評(píng)價(jià)結(jié)合到所述結(jié)合配偶體上的目標(biāo)多肽,生成反映在具有疾病、病癥或其階段的樣本中,表達(dá)所述標(biāo)志物多肽的基因的基因表達(dá)水平的特征性模式。如在此所用,“目標(biāo)多肽”是指那些存在于被檢測的樣本中的多肽,而“標(biāo)志物多肽”是由表1的寡核苷酸或表1來源的寡核苷酸所結(jié)合的基因編碼的多肽。目標(biāo)多肽和標(biāo)志物多肽是相同的,或者至少具有高相似性的區(qū)域,例如可以識(shí)別和結(jié)合結(jié)合配偶體的表位區(qū)域。目標(biāo)多肽的“釋放”是指適當(dāng)?shù)靥幚順颖疽蕴峁┤菀妆唤Y(jié)合配偶體結(jié)合的形式的多肽,例如通過溶解存在多肽的細(xì)胞。這種情形下所使用的樣本不是必需包含細(xì)胞,因?yàn)槟繕?biāo)多肽可以被從細(xì)胞釋放到周邊組織或流體,并可對(duì)該組織或流體進(jìn)行分析,所述流體例如尿液或血液。但是,優(yōu)選地使用在此描述的優(yōu)選樣本。“結(jié)合配偶體”包括分開的實(shí)體,它們一起形成如上所述的親合結(jié)合對(duì),其中結(jié)合對(duì)的一個(gè)配偶體是目標(biāo)或標(biāo)志物多肽,而另一個(gè)配偶體特異性地結(jié)合該多肽,例如抗體。設(shè)想各種排列來檢測形成的結(jié)合對(duì)的量。在最簡單形式中,可以使用夾層式分析例如免疫分析如ELISA,其中特異于多肽并攜帶標(biāo)記(如本文其它部分描述的)的抗體可以被結(jié)合到結(jié)合對(duì)(例如第一抗體多肽對(duì))并檢測標(biāo)記的量??梢灶愃频馗倪M(jìn)在此描述的其它方法,分析表達(dá)的蛋白質(zhì)產(chǎn)物,而不是基因轉(zhuǎn)錄和相關(guān)的核酸分子。因此,本發(fā)明的另一個(gè)方面提供制備檢測基因轉(zhuǎn)錄模式的方法,至少包括步驟a)從所述檢測生物體的樣本中釋放目標(biāo)多肽;b)將所述目標(biāo)多肽與一種或多種結(jié)合配偶體接觸,其中每種結(jié)合配偶體特異于由表1的寡核苷酸(來源于表1中描述的序列)結(jié)合的基因所編碼的標(biāo)志物多肽(或其片段),使得所述結(jié)合配偶體結(jié)合到所述目標(biāo)多肽上,其中所述標(biāo)志物多肽特異于生物體及其樣本中的所述疾病或其狀態(tài)(condition),該生物體或其樣本對(duì)應(yīng)于被研究的生物體和樣本;和c)評(píng)價(jià)結(jié)合到所述結(jié)合配偶體上的目標(biāo)多肽,以生成反映在所述檢測樣本中,表達(dá)所述標(biāo)志物多肽的基因的基因表達(dá)水平的特征性模式。
還有一個(gè)方面,本發(fā)明提供診斷或鑒定或監(jiān)控生物體中的疾病或病癥或其階段的方法,包括步驟a)從所述生物體的樣本中釋放目標(biāo)多肽;b)將所述目標(biāo)多肽與一種或多種結(jié)合配偶體接觸,其中每種結(jié)合配偶體特異于由表1的寡核苷酸(來源于表1中描述的序列)結(jié)合的基因所編碼的標(biāo)志物多肽(或其片段),使得所述結(jié)合配偶體結(jié)合到所述目標(biāo)多肽上,其中所述標(biāo)志物多肽特異于生物體及其樣本中的所述疾病或其狀態(tài),該生物體或其樣本對(duì)應(yīng)于被研究的生物體和樣本;和c)評(píng)價(jià)結(jié)合到所述結(jié)合配偶體上的目標(biāo)多肽,生成反映在所述樣本中,表達(dá)所述標(biāo)志物多肽的基因的基因表達(dá)水平的特征性模式;和d)將所述模式與標(biāo)準(zhǔn)診斷模式比較,以確定指示在被研究的生物體中存在所述疾病或病癥或其階段的相關(guān)程度,標(biāo)準(zhǔn)診斷模式如上文所述用來自對(duì)應(yīng)于被研究的生物體和樣本的生物體的樣本制備。生成標(biāo)準(zhǔn)模式和檢測模式(standard and test pattern)的方法以及診斷依賴于使用指示性寡核苷酸探針來產(chǎn)生基因表達(dá)數(shù)據(jù)。在某些情況下,有必要從可獲得的探針的挑選中選擇這些指示性探針用于特定方法,例如診斷特定疾病,可獲得的探針如上文描述的探針(表1的寡核苷酸、表1來源的寡核苷酸,其互補(bǔ)序列以及功能性等價(jià)的寡核苷酸)。 如下的方法學(xué)描述了一種用于確定這種指示性探針的便捷方法,或者更加特別地,如何從在此描述的探針中選擇合適的探針子集。用于分析特定疾病或其病癥或其階段的探針可以用大量本領(lǐng)域知曉的方法來鑒定,包括通過差異表達(dá)或通過文庫遞減(library subtraction)(參見,例如W098/49342)。 如下文所述,鑒于大多數(shù)轉(zhuǎn)錄物的高度信息含量,在起始點(diǎn)時(shí),還可以簡單地分析mRNA或 cDNA種類的隨機(jī)子集,并從該子集中挑選最具有指示性的探針。如下方法描述了使用被固定的寡核苷酸探針(例如本發(fā)明的探針),來自不同樣本的mRNA (或相關(guān)分子)結(jié)合到該探針上,鑒定哪種探針對(duì)于確定特定的樣本類型,例如疾病樣本,是最具有指示性的。被固定的探針來源于各種不相關(guān)或相關(guān)的生物體,僅要求被固定的探針應(yīng)當(dāng)特異性地結(jié)合到檢測生物體中的其同源配對(duì)物上。探針還可以來源于商業(yè)上可獲得的或者公共的數(shù)據(jù)庫,并如上所述,被固定在固體支持物上,它們被從cDNA文庫中被隨機(jī)挑選和分離, 并被固定在固體支持物上。被固定在固體支持物上的探針的長度應(yīng)當(dāng)足夠長,足以特異性地結(jié)合到目標(biāo)序列上。被固定的探針可以是DNA、RNA或其被改進(jìn)的產(chǎn)物或PNA(肽核酸)形式。優(yōu)選地,被固定的探針應(yīng)當(dāng)特異性地結(jié)合到其同源配對(duì)物上,該配對(duì)物代表了在檢測生物體中被高度和中度表達(dá)的基因。便利地,所用的探針是在此描述的探針??梢圆捎帽绢I(lǐng)域現(xiàn)有技術(shù)例如如下文描述的微陣列或者巨陣列(macroarray),或者采用在此描述的方法,生成生物樣本中的細(xì)胞的基因表達(dá)模式。目前,幾種技術(shù)已經(jīng)被開發(fā)用于在生物樣本中同時(shí)監(jiān)控大量基因的表達(dá)水平,例如高密度寡陣列(high-density oligoarrays)(Lockhart 等,1996,Nat. Biotech.,14,1675-1680),cDNA 微陣列(Schena
1995, Science, 270,467-470)和 cDNA 巨陣列(Maier E 等,1994,Nucl. Acids Res.,22, 3423-3424 ;Bernard 等,1996,Nucl. Acids Res.,24,1435-1442)。在高密度寡陣列和cDNA微陣列中,成千上萬的探針寡核苷酸或cDNA被打點(diǎn)到玻
20璃載玻片或者尼龍膜上,或者被合成到生物芯片上。從檢測和參考樣本中分離的mRNA通過反轉(zhuǎn)錄用紅色或綠色熒光染料標(biāo)記、混合并雜交到微陣列上。洗滌后,用激光檢測結(jié)合的熒光染料,產(chǎn)生兩種影像,每種染料一種影像。獲得的兩種影像上的紅色和綠色斑點(diǎn)比提供了與基因在檢測樣本和參考樣本中的基因表達(dá)水平的變化相關(guān)的信息??商娲?,還進(jìn)行了單道或多道微陣列研究。在cDNA巨陣列中,不同cDNA被打點(diǎn)到固體支持物上,例如尼龍膜,相對(duì)于能夠雜交到各個(gè)點(diǎn)上的檢測mRNA的含量是過量的。從檢測樣本中分離的mRNA被通過反轉(zhuǎn)錄放射標(biāo)記,并雜交到被固定的探針cDNA上。洗滌后,檢測和量化與特異性雜交到固定的探針 cDNA上的標(biāo)記相關(guān)的信號(hào)。在巨陣列中獲得的數(shù)據(jù)包含關(guān)于存在于檢測樣本中的轉(zhuǎn)錄物的相對(duì)水平的信息。巨陣列僅適合于監(jiān)控有限數(shù)量的基因的表達(dá),而微陣列可以被用于同時(shí)監(jiān)控?cái)?shù)千個(gè)基因的表達(dá),因而是大規(guī)模基因表達(dá)研究的優(yōu)選。用于生成基因表達(dá)數(shù)據(jù)集的巨陣列技術(shù)已經(jīng)被用于示例在此描述的探針確定方法。為了該目的,從感興趣的樣本中分離mRNA,用于制備標(biāo)記的目標(biāo)分子,例如如上所述的 mRNA或cDNA。然后,被標(biāo)記的目標(biāo)分子雜交到固定在固體支持物上的探針。如先前所述, 各種固體支持物可以被用于該目的。雜交后,未被結(jié)合的目標(biāo)分子被去除,量化由目標(biāo)分子雜交到固定探針上產(chǎn)生的信號(hào)。如果采用放射標(biāo)記,用Wiospholmager來產(chǎn)生圖片文件,該文件用于生成原始數(shù)據(jù)集。根據(jù)被選擇用于標(biāo)記目標(biāo)分子的標(biāo)記的性質(zhì),還可以使用其它設(shè)備,例如當(dāng)用熒光素來標(biāo)記時(shí),可以用Fluorolmager來從被雜交的目標(biāo)分子中產(chǎn)生圖片文件??梢圆捎蒙虡I(yè)上可獲得的用于圖片分析的軟件,從圖片文件中獲得對(duì)應(yīng)于各個(gè)點(diǎn)的平均強(qiáng)度、強(qiáng)度中值或者信號(hào)量的原始數(shù)據(jù)。但是,由于數(shù)個(gè)因素會(huì)影響雜交信號(hào)的質(zhì)量和數(shù)量,在分析之前,需要修正所獲得的數(shù)據(jù)的背景信號(hào),并標(biāo)準(zhǔn)化。例如,從樣本中分離的 mRNA的質(zhì)量和數(shù)量在樣本間變化,在各個(gè)反應(yīng)過程中標(biāo)記目標(biāo)分子的效率的微弱變化以及非特異性結(jié)合的量在不同巨陣列之間的變化,都會(huì)在所得到的數(shù)據(jù)集中產(chǎn)生噪聲,必需在分析前修正該噪聲。可以通過多種方法進(jìn)行背景修正。斑點(diǎn)中的最小像素強(qiáng)度被用于背景消減或者斑點(diǎn)輪廓周圍的像素線的平均值或中值可以被用于該目的。還可以根據(jù)從陰性對(duì)照中產(chǎn)生的信號(hào)定義代表背景強(qiáng)度的區(qū)域,將該區(qū)域的平均強(qiáng)度用于背景消減。然后可以轉(zhuǎn)化背景修正后的數(shù)據(jù)來穩(wěn)定數(shù)據(jù)結(jié)構(gòu)中的變異,并標(biāo)準(zhǔn)化探針強(qiáng)度中的差異。文獻(xiàn)中已經(jīng)描述了數(shù)種轉(zhuǎn)化技術(shù),簡要綜述可見于Cui,Kerr和Churchill http//www, jax. orR/research/churchi11/research/expression/Cui-Transform. pdf)0 可以通過用各個(gè)斑點(diǎn)的強(qiáng)度除以巨陣列中的所有斑點(diǎn)或者微陣列中的一組斑點(diǎn)的集體強(qiáng)度、平均強(qiáng)度或中值強(qiáng)度來進(jìn)行標(biāo)準(zhǔn)化,獲得在巨陣列中雜交到固定探針上信號(hào)的相對(duì)強(qiáng)度。數(shù)種方法被描述用于標(biāo)準(zhǔn)化基因表達(dá)數(shù)據(jù)(Richmond和Somerville,2000,Current Opin.Plant Biol.,3,108-116 ;Finkelstein 等,2001,In" Methods of Microarray Data Analysis. Papers from CAMDA,Eds. Lin&Johnsom,Kluwer Academic,57-68 ;Yang等,2001, In" Optical Technologies and Informatics" , Eds. Bittner,Chen,Dorsel&Dougherty, Proceedings of SPIE,4266,141-152 ;Dudoit 等,2000,J.Am. Stat. Ass. ,97,77-87 ;Alter 等2000,同上文;Newton等,2001,J. Comp. Biol.,8,37-52)??傊?,首先計(jì)算出換算系數(shù)(scaling factor)或者函數(shù),來修正強(qiáng)度作用,然后用于標(biāo)準(zhǔn)化該強(qiáng)度。也建議使用外部對(duì)照來提高標(biāo)準(zhǔn)化(normalization)。在大規(guī)模基因表達(dá)分析中遇到的其它主要挑戰(zhàn)為在不同時(shí)間點(diǎn)上進(jìn)行試驗(yàn)中收集的數(shù)據(jù)的標(biāo)準(zhǔn)化。本發(fā)明人已經(jīng)觀察到,在背景修正和標(biāo)準(zhǔn)化之后,從相同試驗(yàn)中獲得的樣本的基因表達(dá)數(shù)據(jù)可以被有效地比較。但是在不同時(shí)間點(diǎn)上進(jìn)行的試驗(yàn)中從樣本中獲得的數(shù)據(jù),在分析之前需要進(jìn)一步標(biāo)準(zhǔn)化。這是因?yàn)椴煌囼?yàn)間的試驗(yàn)參數(shù)的細(xì)微差別,例如在不同時(shí)間點(diǎn)上提取的mRNA的質(zhì)量和數(shù)量的差別,用于目標(biāo)分子標(biāo)記的時(shí)間、雜交時(shí)間或暴露時(shí)間的差別會(huì)影響測定值。此外,一些因素,如被研究的轉(zhuǎn)錄物的序列的性質(zhì)(其GC含量)以及它們之間的含量決定了它們在試驗(yàn)過程中受多大細(xì)微變化的影響。例如,它們決定了在第一條鏈合成過程中,對(duì)應(yīng)于特定轉(zhuǎn)錄物的第一條鏈的cDNA被轉(zhuǎn)錄和標(biāo)記的效率, 或者在雜交過程中相應(yīng)的標(biāo)記目標(biāo)分子結(jié)合到其互補(bǔ)序列上的效率。在印跡過程中,各個(gè)批量之間的差別也是生成的表達(dá)數(shù)據(jù)中發(fā)生變化的主要因素。不能適當(dāng)?shù)卣页霾⑿U@些影響,導(dǎo)致試驗(yàn)系列之間的差別會(huì)掩蓋了在基因表達(dá)數(shù)據(jù)中包含的感興趣的主要信息,即來自不同試驗(yàn)系列的組合數(shù)據(jù)中的差別。附

圖1提供一種這樣的例子,顯示了根據(jù)對(duì)來自兩個(gè)試驗(yàn)系列的組合數(shù)據(jù)的主成分分析(Principal Component Analysis) (PCA)進(jìn)行的分類,其中主要目的是區(qū)分阿爾茨海默病/非阿爾茨海
默病患者。PCA(也被稱作單值分解(singular value decomposition)是用于研究一組變量的依存系數(shù)和潛在關(guān)系的方法。根據(jù)一些重要因子或者主成分(principalcomponents) (PC' s)以及殘數(shù)(residuals),對(duì)這些數(shù)據(jù)建模。PC' s包含主要現(xiàn)象并定義存在于數(shù)據(jù)中的系統(tǒng)性變異性,而殘數(shù)代表被視為噪聲的變異性。對(duì)PCA的詳細(xì)描述可 見 Jollife (1986, Principal Component Analysis, Springer-Verlag, NY)以及 Jackson(1991,A User' s Guide to Principal Components, Wiley, NY)。附圖 1 的結(jié)果表明,形成代表來自兩個(gè)試驗(yàn)系列而不是阿爾茨海默病/非阿爾茨海默病差別的兩個(gè)簇 (cluster)。這是兩系列試驗(yàn)間共有8個(gè)樣本,理想地,如果它們被恰當(dāng)?shù)貥?biāo)準(zhǔn)化,應(yīng)當(dāng)相互指向或者相互接近?,F(xiàn)在,本發(fā)明人發(fā)現(xiàn)不同試驗(yàn)間的基因表達(dá)數(shù)據(jù)可以被有效地標(biāo)準(zhǔn)化,通過在下一個(gè)試驗(yàn)系列中包括來自一個(gè)試驗(yàn)系列的樣本子集并采用直接標(biāo)準(zhǔn)化方法(DS),該方法最初被 Wang 和 Kowalski 描述(Anal. Chem.,1991,63,2750 和 J. Chemometrics,1991,5, 129-14 。雖然DS方法在分析化學(xué)領(lǐng)域是熟知的,其還未在基因表達(dá)數(shù)據(jù)分析領(lǐng)域中被描述和使用過。在DS中,校正代表例如試驗(yàn)系列2的二次數(shù)據(jù)(第二次測量,&),與在第一次測量中測定的代表來自系列I(R1)的最初數(shù)據(jù)的數(shù)據(jù)匹配,而校準(zhǔn)模型仍未改變。在DS中, 通過轉(zhuǎn)化矩陣F將兩個(gè)試驗(yàn)系列的反應(yīng)矩陣相互關(guān)聯(lián),即R1 = R2F(1)^ Φ, F ^(square matrix), S @ X^tS @ ^] ^ (dimensioned gene by gene)。從(1)中,計(jì)算出變換矩陣(transformation matrix)為F = R2tR1(2)用相對(duì)較小的樣本子集計(jì)算方程式O)中的變換矩陣F,所述樣品根據(jù)主要的第一f 禾口.二歹0 (the master primary and the secondary series of data) illj定。 最后,在第二個(gè)系列的rT2,m測定的未知樣本的應(yīng)答被標(biāo)準(zhǔn)化到從第一個(gè)系列預(yù)期的應(yīng)答向量《蘭。 V1^n = rT21,unF(3)從前面的方程式可看出,轉(zhuǎn)化矩陣的列i包含在第二個(gè)系列中測定的一組基因的擴(kuò)增倍數(shù)(multiplication factor),以獲得在修正系列的點(diǎn)i上的強(qiáng)度。在試驗(yàn)系列R1和&中重復(fù)的樣本數(shù)應(yīng)當(dāng)?shù)扔谒鼈兊男?rank),在這種情況下,等于被保留用于解釋R1和&中的變化的主成分的數(shù)量。例如,如果三個(gè)主成分被保留用于解釋數(shù)據(jù)集中的變化,應(yīng)當(dāng)在R1和&之間重復(fù)三個(gè)樣本的最小值。應(yīng)當(dāng)在不同系列中重復(fù)的樣本,理想地應(yīng)當(dāng)是那些在基因表達(dá)模式中顯示基因高杠桿作用(high leverages)的樣本。有時(shí),兩個(gè)樣本就足夠了,而在其它情況下,應(yīng)當(dāng)包括兩種以上樣本,以獲得更好的代表性。在有些情況下,在所有被比較的試驗(yàn)系列中,所選擇的樣本可以是相同的(參考樣本), 而在其它情況下,通過在各個(gè)試驗(yàn)后分析表達(dá)模式繼續(xù)選擇代表性的樣本。然后具有高杠桿作用的所選擇的樣本被包括在下一個(gè)試驗(yàn)系列中。使用直接標(biāo)準(zhǔn)化的結(jié)果被示于附圖1 中。用于規(guī)格化和標(biāo)準(zhǔn)化基因表達(dá)數(shù)據(jù)集的另一種方法是將各個(gè)DNA陣列與從檢測樣本中制備的目標(biāo)分子以及等量的從代表性的參考樣本中制備的標(biāo)記目標(biāo)分子雜交。為了測定雜交到固定探針上的標(biāo)記的目標(biāo)分子的強(qiáng)度,有必要采用不同標(biāo)記,從檢測和參考樣本中制備標(biāo)記分子,例如不同熒光染料可以被用于制備標(biāo)記材料。從參考樣本中制備的標(biāo)記分子可以與從檢測樣本中制備的標(biāo)記材料一起被添加到雜交溶液中。然后獲得代表檢測樣本和參考樣本中的不同基因表達(dá)模式的來自各個(gè)陣列的數(shù)據(jù)文件,通過上述直接標(biāo)準(zhǔn)化方法規(guī)格化和標(biāo)準(zhǔn)化。在雜交過程中,來自參考樣本的包括不同標(biāo)記的目標(biāo)分子的直接優(yōu)點(diǎn)在于,能夠有效地比較新檢測樣本與已經(jīng)存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù)集。監(jiān)控大量基因在數(shù)個(gè)樣本中的表達(dá)會(huì)導(dǎo)致產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)過于復(fù)雜,以至不容易被解釋。已經(jīng)證明,從這些大的數(shù)據(jù)集中提取有意義的生物學(xué)信息時(shí),數(shù)種無監(jiān)控(unsupervised)和被監(jiān)控的(supervised)多元數(shù)據(jù)分析技術(shù)已經(jīng)被證明是有效的。聚類分析(Cluster analysis)是迄今用于基因表達(dá)分析的最常用技術(shù),并且已經(jīng)被實(shí)施來確定以相似方式被調(diào)控的基因,并且用基因表達(dá)模式來確定新的/未知的腫瘤種類(Eisen 等,1998,PNAS,95,14863-14868,Alizadeh 等 2000,同上文,Perou 等 2000,Nature,406, 747-752 ;Ross 等,2000,Nature Genetics, 24 (3),227—235 ;Herwig 等,1999,Genome Res., 9,1093-1105 ;Tamayo 等,1999,Science, PNAS,96,2907-2912)。在聚類方法中,基因根據(jù)其表達(dá)模式被分到功能性類別(簇)中,滿足兩個(gè)標(biāo)準(zhǔn)同質(zhì)性(homogeneity)-相同簇中的基因在表達(dá)方面相互高度相似,和分離性 (s印aration)-不同簇中的基因在表達(dá)方面相互之間具有低的相似性。已經(jīng)被用于基因表達(dá)分析的各種聚類技術(shù)的例子包括等級(jí)聚類(hierarchical clustering) (Eisen 等,1998,同上文;Alizadeh 等 2000,同上文;Perou 等 2000,同上文;Ross 等,2000,同上文)、K-平均值聚類(K-means clustering) (Herwig 等,1999,同上文;Tavazoie 等,1999,Nature Genetics,22 (3),沘1_沘5)、基因修剪(gene shaving)(Hastie 等,2000,Genome Biology, 1 (2), research 0003. 1-0003. 21)、區(qū)段聚類(block clustering) (Tibshirani 1999, Tech repot Univ Stanford.)、格子花模型(Plaid model) (Lazzeroni,2002,Stat. Sinica,12,61-86)以及自組織圖(self-organizing maps) (Tamayo等1999,同上文)。此外,相關(guān)的多元統(tǒng)計(jì)分析方法,例如那些采用單值分解的方法(Alter 等,2000,PNAS, 97 (18),10101-10106 ;Ross 等 2000,同上文)或多維排列 (multidimensional scaling)在減少被研究的對(duì)象的維數(shù)方面是有效的。但是,如聚類分析和單值分解的方法是純粹探索性的,僅提供數(shù)據(jù)中存在的內(nèi)部結(jié)構(gòu)的概略。它們是無監(jiān)控的方法,其中在分析中不使用與被研究的類別的性質(zhì)相關(guān)的可獲信息。通常,特定樣本中發(fā)生的生物紊亂的性質(zhì)是已知的。例如,有時(shí)基因表達(dá)模式正被分析的樣本是否來源于疾病或健康個(gè)體是已知的。在這種情況下,判別分析(discriminant analysis)可以被用于根據(jù)基因表達(dá)數(shù)據(jù)將樣本分類到各個(gè)組中。在這樣一個(gè)分析中,通過整理數(shù)據(jù)建立分類器(classifier),該分類器能夠識(shí)別特定種類的成員或非成員。該通過整理的分類器(trained classifier)可用來預(yù)測未知樣品的類別。已經(jīng)在文獻(xiàn)中描述的識(shí)別方法的例子包括SupportVector Machines (Brown 等,2000,PNAS,97,262-267)、最近鄰居(Nearest Neighbour) (Dudoit 等,2000,同上文),分類樹(Classification trees) (Dudoit 等,2000,同上文)、表決分類(Voted classification) (Dudoit 等,2000,同上文)、權(quán)重基因表決(Weighted Gene voting) (GoIub 等 1999,同上文)以及貝葉斯分類(Bayesian classification) (Keller 等 2000, Tec report Univ of Washington)。此夕卜,最近描述一種方法(Nguyen&Rocke,2002, Bioinformatics,18,39-50 和 1216-1226),其中 PLS (部分最小二乘方(Partial Least Square)回歸分析被首先用來減少基因表達(dá)數(shù)據(jù)集中的維數(shù),接著采用對(duì)數(shù)判別分析和二次(quadratic)判別分析(LD和QDA)進(jìn)行分類。基因表達(dá)數(shù)據(jù)對(duì)經(jīng)典的分類示差方法(classical discriminatory method)的挑戰(zhàn)是,相對(duì)于被分析的樣本的數(shù)量,其表達(dá)被分析的基因的數(shù)量非常大。但是,在大多數(shù)情況下,僅這些基因中的小部分在示差分析問題中是指示性的。而且,存在一種危險(xiǎn),來自無關(guān)基因的噪聲會(huì)掩蓋或扭曲來自指示性基因的信息。在本領(lǐng)域中,多種方法已經(jīng)被建議來確定和選擇在微陣列研究中具有指示性的基因,例如,t-統(tǒng)計(jì)(Dudoit等,2002,J.Am. Stat. Ass.,97,77-87)、變異分析(Kerr 等,2000,PNAS, 98,8961-8965)、鄰居關(guān)系分析 (Neighbourhood analysis) (Golub等,1999,同上文),組間與組內(nèi)的平方和的比例(Ratio of between groups to within groups sum of squares) (Dudoit 等,2002,同上文)、非參數(shù)打分(Non parametric scoring) (Park等,2002, Pacific Symposium on Biocomputing, p52-63)以及似然選擇(Likelihood selection) (Keller 等,2000,同上文)。在此描述的方法中,已經(jīng)被規(guī)格化和標(biāo)準(zhǔn)化的基因表達(dá)數(shù)據(jù)用偏最小二乘回歸 (PLSR)來分析。雖然PLSR起初是一種用于連續(xù)數(shù)據(jù)的回歸分析的方法(參見附件A),但其也可以被用作使用基于二進(jìn)制編碼的虛擬反應(yīng)矩陣(dummy response matrix)來建模和判別分析的方法。類別分配是根據(jù)單一的兩個(gè)級(jí)別(simple dichotomous distinction), 例如乳腺癌(類別1)/健康(類別2),或者根據(jù)基于多重疾病診斷的多級(jí)別(multiple distinction),例如乳腺癌(類別1)/阿爾茨海默病(類別2)/健康(類別3)而進(jìn)行的。 用于分類的疾病的列表可以根據(jù)對(duì)應(yīng)于其它疾病或病癥或其階段的可獲得樣本而增加。
被用作分類方法的PLSR被稱作PLS-DA (Da表示判別分析)。PLS-DA是PLSR運(yùn)算的擴(kuò)展,其中Y-矩陣是含有η行(對(duì)應(yīng)于樣本數(shù)量)和K列(對(duì)應(yīng)于類別數(shù)量)的虛擬矩陣(dummy matrix)。如果X的相應(yīng)第i個(gè)對(duì)象屬于類別k,則通過將1插入到第k列和將-1 插入到所有其它列來構(gòu)建Y-矩陣。通過將Y回歸到X,通過選擇對(duì)應(yīng)于被擬合的最大成分的組來對(duì)新樣本進(jìn)行分類,Kx)=(夕i(x), Mx),...,夕k(x))。因此,在-1/1反應(yīng)矩陣中,小
于0的預(yù)測值意味著該樣本屬于被稱作-1的類別,而大于0的預(yù)測值意味著該樣本屬于被稱作1的類別。PLSR-DA的優(yōu)點(diǎn)在于所獲得的結(jié)果容易以兩種不同圖形、分值和加載圖形 (loading plot)表示。分值圖形表示樣本映射到主成分上,顯示樣本在分類模型中的分布及其它們之間的關(guān)系。加載圖形展示存在于數(shù)據(jù)集中的變量間的相關(guān)性。通常推薦使用PLS-DA作為分類問題的起始點(diǎn),這是由于其能夠處理同線數(shù)據(jù) (collinear data),以及PLSR作為維數(shù)減少技術(shù)的特性。一旦達(dá)到該目的,有可能采用其它方法例如線性判別分析,LDA,已經(jīng)證明LDA在提取更多信息方面是有效的,Indahl等 (1999,Chem. and Intell. Lab. Syst.,49,19-31)。這種方法基于首先用 PLS-DA 分解數(shù)據(jù), 然后采用分值向量(替代最初的變量)作為向LDA的輸入值。關(guān)于LDA的進(jìn)一步描述可見 Duda 禾口 Hart(Classification and Scene Analysis,1973,Wiley,USA)。在建模后的下一個(gè)步驟是模型確認(rèn)。該步驟被認(rèn)為是多變量分析中最重要的方面,并檢測已經(jīng)建立的校準(zhǔn)模型的“優(yōu)度”。在該工作中,一種交叉確認(rèn)方法被用于確認(rèn)。在這種方法中,在各個(gè)節(jié)段,擱置一個(gè)或少量樣本,而模型是根據(jù)剩下的數(shù)據(jù)采用完全交叉確認(rèn)來建立。然后,被擱置的樣本被用于預(yù)測/分類。重復(fù)簡單的交叉確認(rèn)過程數(shù)次,為各個(gè)交叉確認(rèn)保留不同樣本,產(chǎn)生所謂雙交叉確認(rèn)過程。已經(jīng)證明,這種方法對(duì)于有限量的數(shù)據(jù)來說是有效的,在本文描述的一些實(shí)施例中即是這樣的。此外,由于重復(fù)交叉確認(rèn)步驟數(shù)次,模型偏離和過度擬合的風(fēng)險(xiǎn)降低。一旦校準(zhǔn)模型被建立和確認(rèn),如本文他處所提及,可以通過現(xiàn)有技術(shù)中描述的用于變量選擇的方法來選擇具有與在模型中描述期望信息最相關(guān)的基因表達(dá)模式的基因。變量選擇將有助于降低最終模型的復(fù)雜性,提供一種極其簡單的模型,從而產(chǎn)生可被用于預(yù)測的可靠模型。此外,使用較少的基因來進(jìn)行診斷,將會(huì)降低診斷產(chǎn)品的成本。通過這種方式,可以確定將會(huì)結(jié)合到相關(guān)基因上的指示性探針。本發(fā)明人發(fā)現(xiàn),在建立了校準(zhǔn)模型后,基于再采樣方法學(xué)的統(tǒng)計(jì)方法如 Jackknife(Effron, 1982, The Jackknife, the Bootstrap and other resampling plans. Society for Industrial and Applied mathematics,Philadelphia,USA)可以被有效地用于選擇或確認(rèn)重要變量(指示性探針)。PLS回歸系數(shù)B的近1以不確定變量(approximate uncertainty variance)可以通過如下估計(jì)
MS2B= Σ ((B-Bm)g)2
m=l其中S2B = B的估計(jì)的不確定變量;
B =使用全部N個(gè)對(duì)象,在交叉確認(rèn)A行的回歸系數(shù);Bm使用除了在交叉確認(rèn)分段m中擱置的對(duì)象外的所有對(duì)象,在A行的回歸系數(shù);和g =換算系數(shù)(scaling coefficient)(在此g = 1).在本發(fā)明方法中,已經(jīng)將Jackknife與交叉確認(rèn)一起實(shí)施。對(duì)于各個(gè)變量,首先計(jì)算出被交叉確認(rèn)的子模型中的B-系數(shù)Bi與全部模型的Bt。t之間的差異。然后計(jì)算所有子模型中的差的平方的總和,得到變量的Bi估計(jì)的差異的表達(dá)式。用t檢驗(yàn)計(jì)算Bi估計(jì)的顯著性。因此,生成的回歸系數(shù)用對(duì)應(yīng)于2個(gè)標(biāo)準(zhǔn)偏差的不定性限定來表示,由此可以探測到
重要變量。由于該步驟已經(jīng)在商業(yè)上可獲得的軟件The Unscrambler, CAMO ASA,Norway中實(shí)行,在此不對(duì)該步驟的實(shí)施或使用作進(jìn)一步的詳細(xì)描述。此外,關(guān)于用Jackknife進(jìn)行變量選擇的詳細(xì)描述可見 Westad&Martens (2000,J. Near Inf. Spectr.,8,117-124)。如下方法被用于從基因表達(dá)數(shù)據(jù)中選擇指示性探針a)在每個(gè)交叉確認(rèn)分段(per cross-validation segment)中擱置一種獨(dú)特(one unique)的樣本(包括其重復(fù),如果數(shù)據(jù)集中存在該重復(fù));b)采用PLSR-DA,用剩下的樣本建立校準(zhǔn)模型(交叉確認(rèn)分段);c)用Jackknife標(biāo)準(zhǔn)為步驟b)的模型選擇重要基因;d)重復(fù)上面的3個(gè)步驟,直到數(shù)據(jù)集中的所有單個(gè)樣本都被擱置一次(如步驟a 所述)。例如,如果數(shù)據(jù)(data set)集中存在75種獨(dú)有的樣本,則建立75種校準(zhǔn)模型,生成了不同的75組重要探針的集合;e)采用發(fā)生頻率標(biāo)準(zhǔn)(frequency of occurrence criterion),在步驟 d)中生成的重要探針組中選擇最重要的變量。例如,在所有組中出現(xiàn)的一組探針比僅在步驟d)中產(chǎn)生的組的50%中出現(xiàn)的探針更具有指示性。一旦已經(jīng)選擇了一種疾病的指示性探針,則建立和確認(rèn)最終模型。兩種最常用的確認(rèn)模型方式為交叉確認(rèn)(cross-validation) (CV)和測試裝置確認(rèn)(test set validation),在交叉確認(rèn)中,將數(shù)據(jù)分成k個(gè)子集。然后訓(xùn)練該模型k次,每次擱置一個(gè)子集不用于訓(xùn)練,但是僅用該省略的子集來計(jì)算誤差標(biāo)準(zhǔn),RMSEP(預(yù)測的均方根誤差 (Root Mean Square Error of Prediction))。如果k等于樣本大小,這是所謂“擱置一個(gè)(leave-one-out)”的交叉確認(rèn)。僅當(dāng)各個(gè)試驗(yàn)之間的協(xié)方差等于零的情況下,這種在每個(gè)確認(rèn)分段中擱置一個(gè)和少量樣本的方法才是有效的。因此,在含有重復(fù)的情形下,每次一個(gè)樣本的方法(one sample at-a-time approach)不能在包含重復(fù)的情況下被調(diào)整 (justified),因?yàn)閿R置所述重復(fù)之一將會(huì)在本發(fā)明方法中引入系統(tǒng)性偏離。在這種情形下,正確方法是一次擱置同一樣本的所有重復(fù),這將滿足CV-分段之間的協(xié)方差為零的假設(shè)。用于模型確認(rèn)的第二種方法是采用分別的檢測集合(test-set)來確認(rèn)校準(zhǔn)模型。這需要進(jìn)行被用作檢測集合的各組試驗(yàn)。如果可以獲得真實(shí)的檢測數(shù)據(jù),該方法是優(yōu)選的。然后,最終模型被用于在檢測樣本中確認(rèn)疾病、病癥或其階段。對(duì)于該目的,從檢測樣本中產(chǎn)生所選擇的指示性基因的表達(dá)數(shù)據(jù),然后用最終模型來確定該樣本是否屬于疾病的或非疾病的類型或具有一種病癥或其階段。
因而,從還有一個(gè)方面看,本發(fā)明提供鑒定可用于在生物體中診斷或鑒定或監(jiān)控一種疾病或病癥或其階段的探針的方法,包括步驟a)將一組寡核苷酸探針固定在固體支持物上,優(yōu)選為上文所述的寡核酸探針;b)從正常生物體的樣本(正常樣本)中分離mRNA,可選擇地將mRNA反轉(zhuǎn)錄為 cDNA ;c)從來自生物體的樣本中分離mRNA,該生物體對(duì)應(yīng)于步驟(b)中的樣本和生物體,已知其患有疾病或病癥或其階段(疾病樣本),可選擇地將mRNA反轉(zhuǎn)錄為cDNA ;d)將步驟(b)和(c)的mRNA或cDNA雜交到步驟(a)的所述被固定的寡核苷酸探針上;和e)評(píng)價(jià)雜交到所述寡核苷酸探針上的mRNA或cDNA的量,確定在所述正常和疾病樣本中所述寡核苷酸探針結(jié)合的基因的基因表達(dá)水平,生成各個(gè)樣本的基因表達(dá)數(shù)據(jù)集;f)規(guī)格化和標(biāo)準(zhǔn)化步驟(e)的所述數(shù)據(jù);g)構(gòu)建分類校準(zhǔn)模型(calibration model),優(yōu)選采用統(tǒng)計(jì)方法部分最小二乘判別分析(PLS-DA)和線性判別分析(LDA);h)進(jìn)行JackKnife分析,鑒定將所述疾病和正常樣本劃分到其各自組中所需的那些寡核苷酸探針。優(yōu)選地,用與按照上述方法鑒定的探針相關(guān)的數(shù)據(jù)產(chǎn)生用于分類目的的模型。優(yōu)選地,樣本如先前所描述。優(yōu)選地,在步驟(a)中被固定的寡核苷酸如下文所述被隨機(jī)選擇,或者是上文所述的探針。這種寡核苷酸具有相當(dāng)?shù)拈L度,例如當(dāng)使用cDNA時(shí)(其被包括在術(shù)語“寡核苷酸”的范圍內(nèi))。將這種cDNA分子鑒定為有用的探針,使得可以開發(fā)反映 cDNA分子特異性而更容易被加工和操作的較短寡核苷酸。然后,上述模型可以被用于產(chǎn)生和分析檢測樣本的數(shù)據(jù),因此可以被用于本發(fā)明的診斷方法。在這種方法中,從檢測樣本中產(chǎn)生的數(shù)據(jù)提供了基因表達(dá)數(shù)據(jù)集,該數(shù)據(jù)集如上述被規(guī)格化和標(biāo)準(zhǔn)化。然后,將該數(shù)據(jù)集擬合到上述校準(zhǔn)模型中,進(jìn)行分類。在此描述的方法還可以被用于同時(shí)選擇數(shù)種相關(guān)和不相關(guān)疾病或病癥的指示性探針。根據(jù)哪些疾病或病癥已經(jīng)被包括在校準(zhǔn)或整理集合(trainingset)中,為所述疾病或病癥選擇指示性探針。為一種疾病或病癥選擇的指示性探針可以與為另一種感興趣的疾病或病癥選擇的指示性探針相似或不相似。所選擇的基因在疾病、病癥或其階段的過程中彼此相對(duì)表達(dá)的模式,可確定這些基因是否所述指示疾病、病癥或其階段。也就是說,根據(jù)在由所研究的疾病、病癥或其階段產(chǎn)生的反應(yīng)的影響下,指示性基因的表達(dá)如何與其它所選擇的指示性基因的表達(dá)相關(guān),來選擇指示性基因。在下文提供的實(shí)施例1和2中,通過整理(training)代表乳腺癌/非乳腺癌樣本或者阿爾茨海默病/非阿爾茨海默病樣本的1435種或758種隨機(jī)挑選的cDNA克隆的基因表達(dá)數(shù)據(jù)集,選擇139 種指示性探針用于乳腺癌的診斷,選擇182種探針用于阿爾茨海默病的診斷。在選擇用于乳腺癌和阿爾茨海默病的探針中,約10種探針均指示乳腺癌和阿爾茨海默病的診斷。為了分離指示性探針或同時(shí)鑒定數(shù)種相關(guān)和不相關(guān)的疾病、病癥及其階段,基因表達(dá)數(shù)據(jù)集必須包含關(guān)于當(dāng)患者患有所研究的特定疾病、病癥或其階段時(shí),基因如何被表達(dá)的信息。從一組健康的或疾病的樣本中產(chǎn)生數(shù)據(jù)集,其中特定樣本可能含有僅一種疾病、 病癥或其階段的信息,或者也可能含有關(guān)于多種疾病、病癥或其階段的信息。例如,如果為
27了分離阿爾茨海默病、乳腺癌和糖尿病的指示性探針,可以從患有乳腺癌和糖尿病的阿爾茨海默病患者中獲取全血樣本。因此,該方法還教導(dǎo)一種用于減少分離指示性探針?biāo)璧臉颖镜臄?shù)量的有效試驗(yàn)設(shè)計(jì)方法,通過選擇代表不只一種疾病、病癥或其階段的指示性探針。如先前所提及,鑒于大部分轉(zhuǎn)錄物的高信息含量,用于診斷、監(jiān)控或鑒定特定疾病、病癥或其階段的指示性探針的鑒定和選擇可能被顯著地簡化。因此,在其中進(jìn)行選擇以鑒定指示性探針的基因集合被根本性地簡化。不同的是,在現(xiàn)有技術(shù)中,例如在微陣列中,從在細(xì)胞中被表達(dá)的數(shù)千基因的群體中選擇指示性探針,而在此描述的方法中,從有限量的隨機(jī)獲得的基因中選擇指示性探針。 例如隨機(jī)從人全血cDNA文庫中挑選的1435個(gè)cDNA克隆的群體中,可以選擇用于乳腺癌診斷的139種指示性探針(參見實(shí)施例1和表2)。因此,在上面提及的鑒定用于診斷或鑒定或監(jiān)控生物體中的疾病或病癥或其階段的探針的方法的一個(gè)優(yōu)選方面,在步驟(a)中被固定的所述一組寡核苷酸隨機(jī)選自較大組的寡核苷酸,例如選自cDNA文庫或其它寡核苷酸集合,該集合可以、但是優(yōu)選不是選自在此提供的組。優(yōu)選地,所述較大組包括對(duì)應(yīng)于被中度或高度表達(dá)的基因的寡核苷酸。因此,優(yōu)選地,在本發(fā)明的方法中,按照本發(fā)明的寡核苷酸組用隨機(jī)選自例如商業(yè)上可獲得的寡核苷酸或cDNA文庫的一組寡核苷酸替換。如在此提及,“隨機(jī)”是指基于轉(zhuǎn)錄物相對(duì)于疾病、病癥或所研究的生物體所攜帶的信息程度,未被偏離的選擇,即不存在朝向可能被用作為指示性探針的偏向??梢詮霓D(zhuǎn)錄物(或相關(guān)產(chǎn)物)的集合中進(jìn)行隨機(jī)選擇,該集合已經(jīng)偏向例如高度或中度表達(dá)的轉(zhuǎn)錄物, 優(yōu)選地,從未偏離的或者通過基于序列標(biāo)準(zhǔn)選擇的轉(zhuǎn)錄物集合中進(jìn)行隨機(jī)選擇。因此,較大的集合可能含有對(duì)應(yīng)于高度和適度表達(dá)的基因的寡核苷酸,或者可替代地,富集那些對(duì)應(yīng)于高度和適度表達(dá)的基因的寡核苷酸??梢酝ㄟ^各種方式,從高度和適度表達(dá)的基因中進(jìn)行隨機(jī)選擇。在該工作中采用的策略,但是完全無限制,包括從用所研究的生物學(xué)樣本中構(gòu)建的cDNA文庫中隨機(jī)挑選大量cDNA克隆。由于在cDNA文庫中,對(duì)應(yīng)于以高度或中度量存在的轉(zhuǎn)錄物的cDNA克隆以比對(duì)應(yīng)于低量存在的cDNA的轉(zhuǎn)錄物更高的頻率存在,前一種cDNA克隆傾向于較后一種cDNA 克隆更頻繁地被挑選。富集對(duì)應(yīng)于被高度和適度表達(dá)的基因的富集的cDNA集合可以通過這種方法來分離。為了在用于本發(fā)明的方法中的分離群體中鑒定被以高度或中度含量表達(dá)的基因, 可以用數(shù)種現(xiàn)有技術(shù)產(chǎn)生關(guān)于感興趣的樣本中的轉(zhuǎn)錄物的相對(duì)含量的信息。非基于序列的方法如示差展示或RNA指紋以及基于序列的方法如微陣列或巨陣列都可以被用于該目的??商娲?,可以設(shè)計(jì)被高度和適度表達(dá)的基因的特異性引物序列,可以使用方法如定量 RT-PCR來確定被高度和適度表達(dá)的基因的水平。因此,熟練的操作人員可以采用本領(lǐng)域知曉的各種技術(shù)來確定生物學(xué)樣本中的mRNA的相對(duì)含量。特別地,優(yōu)選用于在上述方法中分離mRNA的樣本如先前所描述,并且優(yōu)選不是來自疾病部位,而且所述樣本中的細(xì)胞不是疾病細(xì)胞并且未與疾病細(xì)胞接觸過。如下實(shí)施例僅為了進(jìn)一步闡述而給出,其中提及的附圖如下附圖1顯示直接標(biāo)準(zhǔn)化(此)對(duì)在兩個(gè)不同系列試驗(yàn)中測定的阿爾茨海默病數(shù)據(jù)的影響,其中AD表示阿爾茨海默病樣本和A,B是非阿爾茨海默病樣本。兩個(gè)系列中的樣本被系統(tǒng)地標(biāo)記為(xx_7/xx_8),而來自系列8 (在b,c,d中)的修正樣本被標(biāo)記為(xx_c), 因此,例如,AD2-7表示在試驗(yàn)系列7中編號(hào)2的阿爾茨海默病樣本。畫圈的斑點(diǎn)表示被選擇作為轉(zhuǎn)移樣本(transfersample)的樣本。附圖b,c,d中的連線表示重復(fù)樣本在應(yīng)用DS 后的接近程度。附圖a,c,d中的虛線表示劃分類別的判別邊界。這些不是根據(jù)任何統(tǒng)計(jì)標(biāo)準(zhǔn)畫出的,只是起在視覺上劃分類別的目的。所有四張附圖都顯示來自(a)基于非標(biāo)準(zhǔn)化數(shù)據(jù)的PCA分析的分值圖形(PC1-PC2),(b)使用3種轉(zhuǎn)化樣本直接標(biāo)準(zhǔn)化后的分值圖形, (c)使用4種轉(zhuǎn)化樣本直接標(biāo)準(zhǔn)化后的分值圖形,(d)使用8種轉(zhuǎn)化樣本直接標(biāo)準(zhǔn)化后的分值圖形;附圖2顯示將ιΗ常的(包括良性的)和乳腺癌的樣本映射到用44種指示性基因通過PLSR-DA產(chǎn)生的分類模型上,其中PC為主成分,而N和C分別為正常和乳腺癌樣本;附圖3顯示將患有和未患有阿爾茨海默病的個(gè)體映射到用182種指示性基因通過 PLSR-DA產(chǎn)生的分類模型上,其中PC為主成分,N為非阿爾茨海默病,A為阿爾茨海默?。桓綀D4、6和8是將正常(乳房X線照片存在疑問但是未患有乳腺癌的婦女)和乳腺癌樣本映射到分別用719種、已記錄的111種、和已測序乳腺癌的345種cDNA的數(shù)據(jù)通過 PLSR-DA產(chǎn)生的分類模型上,其中PC是主成分,N表示正常的樣本,而B表示乳腺癌樣本;附圖5、7和9顯示分別用719種、已記錄的111種、和已測序乳腺癌的345種cDNA 的數(shù)據(jù),分別基于3種、4種、和3種主成分,對(duì)所檢測的正常(乳房X線照片存在疑問但是未患乳腺癌的婦女)以及乳腺癌樣本進(jìn)行預(yù)測的圖形。附圖10顯示將非阿爾茨海默病和阿爾茨海默病樣本映射到用520種已測序的 cDNA的數(shù)據(jù)通過PLSR-DA產(chǎn)生的分類模型上,其中PC為主成分,A為非阿爾茨海默病,AD 為阿爾茨海默病患者;和附圖11是用已測序的cDNA的數(shù)據(jù),根據(jù)4種主成分,對(duì)非阿爾茨海默病和阿爾茨海默病樣本進(jìn)行預(yù)測的圖形。實(shí)施例1 乳腺癌的診斷從乳腺癌患者和具有良性腫瘤的患者的手臂上采集全血(挪威的Ullev^醫(yī)院和 Haukland醫(yī)院)。所有患有乳腺癌的患者都具有惡性乳腺腫瘤(疾病樣本)。從上面的兩個(gè)醫(yī)院中收集健康的血液,或者在挪威的人8或者DiaGenicAS的護(hù)理站,從未報(bào)導(dǎo)有乳腺癌體征的雌性供體的手臂上收集健康血液。來自健康個(gè)體或者具有良性腫瘤個(gè)體的血液包括正常樣本。將血液收集到含有EDTA的試管中并立即存儲(chǔ)在-80°C,或者被收集到PAXgene 試管中,在室溫下存儲(chǔ)12-M小時(shí),最后在使用前將它們存儲(chǔ)在-80°C。表5提供對(duì)被采集血液的乳腺癌患者和良性腫瘤患者的進(jìn)一步描述。從四位乳腺癌患者和46位正常供體的血液中分離mRNA,在存在α 33P_dATP時(shí), 通過反轉(zhuǎn)錄制備標(biāo)記探針。正常和疾病樣本的第一鏈cDNA分別結(jié)合到固定在固體支持物 (尼龍膜)上的1435種cDNA克隆上。沒有這些cDNA克隆的基因序列的任何現(xiàn)有知識(shí),從用550位健康個(gè)體的全血構(gòu)建的cDNA文庫中隨機(jī)挑選這些克隆(Clontech,Palo Alto, USA)。這些方法按如下進(jìn)行。對(duì)于插入物的擴(kuò)增,將細(xì)菌性克隆培養(yǎng)在含有150 μ 1具有50μ g/ml羧芐青霉素的LB的微量滴定板中,在37°C攪拌培養(yǎng)過夜。用50 μ 1水稀釋5 μ 1的各種培養(yǎng)物,并在 95°C培養(yǎng)12分鐘,以溶解細(xì)胞。在存在1. 5mM MgCl2時(shí),用20pM的M13正向引物和反向引物對(duì)2μ 1的該混合物進(jìn)行PCR反應(yīng)。用如下的循環(huán)方案進(jìn)行PCR反應(yīng)95°C 4分鐘,接著在 RoboCycler Temperatue Cycler (Stratagene, La Jolla, USA)或 DNA Engine Dyad Peltier Thermal Cycler (MJ Research Inc. ,ffaltham,USA)中進(jìn)行 25 個(gè)循環(huán)的 94°C 1 分鐘,60°C 1分鐘和72°C 3分鐘。通過用NaOH(0. 2M,最終濃度)培養(yǎng)30分鐘來使擴(kuò)增產(chǎn)物變性,并用MicroGridII工作臺(tái)按照生產(chǎn)商的推薦(BioRobotics Ltd,Cambridge Egland) 將其打點(diǎn)到 Hybond-H+膜(Amersham Pharmacia Biothech, Little Chalfont, UK)上。被固定的 cDNA 用 UV 交聯(lián)劑(Hoefer Scientific Instruments, Sanfrancisco, USA)固定。除了 1435種cDNA,印跡的陣列還含有用于評(píng)價(jià)該分析的背景水平、一致性和靈敏性的對(duì)照。這些對(duì)照被打點(diǎn)在多個(gè)位置上,包括對(duì)照例如PCR混合物(物任何插入物); SpotReport 10陣列確認(rèn)系統(tǒng)(Stratagene,La Jolla, USA)的陽性和陰性對(duì)照以及對(duì)應(yīng)于組成性表達(dá)的基因例如b-肌動(dòng)蛋白、g-肌動(dòng)蛋白、GAPDH、HOD和親環(huán)蛋白的cDNA。此夕卜,對(duì)應(yīng)于SIXl、b-微管蛋白、TRP-2、MDM2、肌球蛋白輕鏈C(Myosin Light C)、CD44、乳腺絲抑蛋白、層粘連蛋白和SRP 19的寡核苷酸被包括在檢測分散的癌癥細(xì)胞。來自被收集的EDTA試管中的血液的總RNA用Trizol LS Reagent方案 anvitrogen/Life Technologies)純化。按照供應(yīng)商的推薦(PreAnalytiX, Hombrechtikon, Switzerland),從包含在PAXgene試管中的血液純化總RNA。用不含DNA的試劑盒(Ambion,Inc. Austin, USA),通過DNAase I處理從分離的RNA中去除污染DNA。在瓊脂凝膠電泳后,通過檢查28S和18S核糖體條帶的完整性,從視覺上確定RNA質(zhì)量。通過測定^Onm和280nm下的吸光率,確定被提取的RNA的濃度和純度。用 Dynabeads按照生產(chǎn)商的推薦(Dynal AS, Oslo, Norway),從總RNA中分離mRNA。分批進(jìn)行標(biāo)記和雜交試驗(yàn)。在各個(gè)批量中分析的樣本的數(shù)量在6-9個(gè)之間變化。 在樣本被分析一次以上(平行重復(fù))的情況下,來源于同一 mRNA集合的等分試樣被用于探針合成。對(duì)于探針合成,對(duì)應(yīng)于4-5 μ g總RNA的mRNA的等分試樣與oligodT25NV (0. 5 μ g/ ml)以及SpotR印ort 10的陣列確認(rèn)系統(tǒng)的mRNA峰(IOpg ;峰2,Ipg)混合,加熱到70°C 來去除二級(jí)結(jié)構(gòu),然后在冰上冷卻。從存在50yCi[a33P]dATP,3. 5μΜ dATP,0. 6mM各種 dCTP、dTTP、dGTP,200 個(gè)單位的 Superscript 反轉(zhuǎn)錄酶 Qnvitrogen, LifVTechnologies)和 0. IM DTT時(shí),通過反轉(zhuǎn)錄在35 μ 1的反應(yīng)混合物中制備探針,在42°C標(biāo)記1. 5小時(shí)。合成后,通過在70°C加熱10分值來滅活酶,在37°C在4個(gè)單位Ribo H(Promega,Madison USA) 中培養(yǎng)反應(yīng)混合物20分鐘來去除mRNA。用ProbeQuant G 50柱(Amersham Biosciences, Piscataway, USA)去除未被摻入的核苷酸。雜交前,于室溫在虹SSC中平衡膜2小時(shí),并且在65°C下,在IOml的預(yù)雜交溶液 (4x SSC, 0. IM NaH2PO4, ImM EDTA,8%硫酸葡聚糖,IOxdenhardt 溶液,1 % SDS)中預(yù)雜交過夜。將新制備的探針添加到5ml的同一預(yù)雜交溶液中,在65°C下繼續(xù)雜交過夜。在65°C 下,在逐漸升高的嚴(yán)緊度下洗滌膜Ox 30分鐘。每次在h SSC,0. 1% SDS ;Ix SSC,0. 1% SDS ;0. IxSSC, 0. 1% SDS中進(jìn)行),以除去非特異的信號(hào)。用Wiospholmager評(píng)價(jià)和量化結(jié)合到各個(gè)點(diǎn)上的被標(biāo)記的第一鏈cDNA的含量, 生成基因表達(dá)數(shù)據(jù)集。該數(shù)據(jù)用Wioretix軟件版本3 (Non LinearDynamics, England)生成。從各個(gè)點(diǎn)獲得的總強(qiáng)度中減去各個(gè)點(diǎn)輪廓周圍的像素的線的中值對(duì)生成的數(shù)據(jù)進(jìn)行背景ffl除(background substration)。然后通過從各個(gè)膜上選擇出50個(gè)最弱和50個(gè)最強(qiáng)信號(hào),標(biāo)準(zhǔn)化(normalized)和轉(zhuǎn)化減去背景后的數(shù)據(jù)。該步驟是排除高度變異表達(dá)的基因。由于膜與膜之間的基因是不同的,從數(shù)據(jù)集中去除來自497種基因的表達(dá)數(shù)據(jù)。然后,用不同方法例如外部對(duì)照,標(biāo)準(zhǔn)化剩余的938種基因的數(shù)值,將各個(gè)點(diǎn)除以各個(gè)膜中的觀察信號(hào)的中值強(qiáng)度,排列標(biāo)準(zhǔn)化來自各個(gè)膜的數(shù)據(jù),然后以對(duì)數(shù)(log)轉(zhuǎn)化得到的數(shù)據(jù)。然后,上述獲得的被加工的數(shù)據(jù)被用于分離指示性探針,通過a)在每個(gè)交叉確認(rèn)分段(per cross validation segment)中擱置一個(gè)獨(dú)特的樣本(包括所選擇的樣本的全部重復(fù));b)用PLSR-DA在剩余樣本上建立校準(zhǔn)模型(calibration model)(交叉確認(rèn)的);c)采用Jackknife標(biāo)準(zhǔn),為步驟b的模型選擇重要的基因集合;d)重復(fù)步驟a),b)和C),直到所有獨(dú)特樣本被擱置(ke印out) 一次(因此,全部 75種不同校準(zhǔn)模型建立了(在重復(fù)步驟b后)75次),產(chǎn)生75種不同組的重要探針(在重復(fù)步驟c后)75次);e) ^ffi^^ (frequency of occurrence criterion),$ 75 禾中f 同 的
重要探針中選擇重要變量。基于發(fā)生頻率標(biāo)準(zhǔn)選擇的指示性探針被用于構(gòu)建分類模型。基于在如上所述分離指示性探針的步驟之后生成的集合的至少90%中出現(xiàn)的探針的分類模型的結(jié)果被示于附圖2中,其中這些基因的表達(dá)模式能夠?qū)⒋蟛糠只加腥橄侔┑膵D女和未患有乳腺癌的婦女劃分到不同組中。在該附圖中,PCl和PC2表示兩種在統(tǒng)計(jì)學(xué)上來源于該數(shù)據(jù)的主成分,其最佳地定義存在于該數(shù)據(jù)中的系統(tǒng)性變異。這使得每種樣本,以及來自與樣本的標(biāo)記的第一鏈cDNA結(jié)合的每種指示性探針的數(shù)據(jù)作為單一的點(diǎn)被呈現(xiàn)在分類模型上,這是將樣本映射到主成分-分值圖形上。通過雙交叉確認(rèn)方法(double cross-validation approach),可確定基于分離的指示性探針的生成的模型預(yù)測其它樣本的能力。根據(jù)發(fā)生頻率標(biāo)準(zhǔn)進(jìn)行的對(duì)乳腺癌的診斷性檢測被呈現(xiàn)在表6中。實(shí)現(xiàn)了對(duì)大部分乳腺癌細(xì)胞的正確預(yù)測。這包括從患有原位導(dǎo)管癌(DCIS)的婦女中獲得的所有三個(gè)樣本、11/15個(gè)從患有I期乳腺癌的婦女中獲得的樣本,全部五個(gè)從患有II期乳腺癌的婦女在中獲得的樣本,以及從兩個(gè)患有III期乳腺癌的婦女在中獲得的一個(gè)樣本。有趣的是,兩個(gè)正確預(yù)測的I期樣本從具有直徑< 5mm的腫瘤的婦女中獲得。該模型還正確預(yù)測大部分非癌癥樣本的類型(41/46),包括那些從患有非癌癥性乳腺異常的婦女中獲得的樣本。通過數(shù)種證據(jù)確認(rèn)該基因轉(zhuǎn)錄物不是來源于分散的疾病細(xì)胞。第一,指示性基因在婦女的血液細(xì)胞中被高水平或中度水平組成性地表達(dá),而無論該婦女是否患有癌癥或未患有癌癥。第二,在該實(shí)施例中描述的分析中,為了鑒定轉(zhuǎn)錄物,在血液樣本中需要至少720 個(gè)分散的細(xì)胞(disseminated cell)。因?yàn)樵谌橄侔┑牟煌A段中存在的分散細(xì)胞的平均數(shù)量更加低(器官限制性乳腺癌,0.8細(xì)胞/ml ;僅擴(kuò)散到淋巴結(jié)中的侵入性乳腺癌,2.4細(xì)胞/ml ;和轉(zhuǎn)移性乳腺癌,6細(xì)胞/ml ;SD > 100% ) ( ),本發(fā)明人認(rèn)為,被檢測的信號(hào)來源于外周血細(xì)胞,而不是來源于分散的細(xì)胞。第三,本發(fā)明人未能檢測到任何來自八個(gè)癌癥標(biāo)記的信號(hào),已知這些標(biāo)記在惡性癌細(xì)胞中的表達(dá)被提高,包括分散在血液中的細(xì)胞。實(shí)施例2 阿爾茨海默病的診斷用來自阿爾茨海默病的患者的樣本進(jìn)行類似的試驗(yàn)。在這種方法中,在Ullev^l 大學(xué)醫(yī)院的記憶力門診部(Memory Clinic)中被診斷患有阿爾茨海默病的7位患者被用于該試驗(yàn)中。基于如下標(biāo)準(zhǔn)確認(rèn)患者患有阿爾茨海默病*用IQC0DE、ADL標(biāo)準(zhǔn)(scale)和測量患者的行為的標(biāo)準(zhǔn)(Green scale)與護(hù)理人員進(jìn)行的標(biāo)準(zhǔn)會(huì)晤* 用 MMSE、畫圈測試(Clock drawing test)、軌跡測試 CTrailmaking test) A ^P B(TMT A和B),Kendrick目標(biāo)學(xué)習(xí)測試(視覺記憶測試)、部分Wechsler量表(battery) 和Benton測試,進(jìn)行神經(jīng)心理學(xué)評(píng)價(jià)*用檢測抑郁癥的標(biāo)準(zhǔn)進(jìn)行精神病學(xué)評(píng)價(jià),MADRS用于會(huì)見患者和Cornell標(biāo)準(zhǔn)用于會(huì)見護(hù)理人員*身體檢查*實(shí)驗(yàn)室檢測血液樣本以排除其它疾病*大腦CT掃描* 大腦 SPECT患者的平均年齡為72. 3歲,年齡范圍在69-76歲。平均匪SE值為22. 0 (可獲得的最大值為30)。六名年齡相符的未被診斷為阿爾茨海默病的個(gè)體被用作對(duì)照。他們都進(jìn)行了 MMSE測試,具有為觀的最低分(平均分為觀.4)。正常對(duì)照組的平均年齡為73.0歲,年齡范圍在66-81歲。來自16歲的個(gè)體的樣本,其患阿爾茨海默病的概率最小,也被作為額外的對(duì)照。采用上述的方法(除了雜交到758個(gè)cDNA克隆上,而不是雜交到1435個(gè)cDNA克隆上),根據(jù)發(fā)生頻率標(biāo)準(zhǔn)選擇指示性的探針,用于構(gòu)建分類模型。在用該方法分離指示性探針后,基于探針在生成的集合中至少出現(xiàn)一次的分類模型的結(jié)果被顯示在附圖3中,其中可以看出,這些基因的表達(dá)模式能夠?qū)⒒加泻臀椿加邪柎暮D〉膫€(gè)體劃分到不同組中。在該附圖中,PCl和PC2表示兩種在統(tǒng)計(jì)學(xué)上來源于該數(shù)據(jù)的主成分,其最佳地定義存在于數(shù)據(jù)中的系統(tǒng)性變異。這使得各樣本,以及來自樣本的cDNA所結(jié)合的各指示性探針的數(shù)據(jù)作為單一的點(diǎn)被呈現(xiàn)在分類模型上,這是將樣本映射到主成分上-即形成分值圖形。通過雙交叉確認(rèn)方法,確定基于分離的指示性探針的生成的模型預(yù)測其它樣本的能力。根據(jù)發(fā)生頻率標(biāo)準(zhǔn)進(jìn)行的對(duì)阿爾茨海默病的診斷性檢測被呈現(xiàn)在表7中。附件A偏最小二乘回歸(partial least squares regression) (PLSR)將多變量回歸模型定義為Y = XB+F其中X為具有N個(gè)預(yù)測變量(基因)的NxP矩陣;Y(NxJ)為第J個(gè)被預(yù)測的變量。在這種情況下,Y表示含有虛擬變量的矩陣;
B為回歸系數(shù)的矩陣;和F為殘數(shù)的NxJ矩陣。PLSR模型可以被寫成X = TPt+Ea,禾口Y = TQt+Fa,其中T (NxA)是分值向量矩陣,該向量與χ-變量線性相關(guān)(linear combination);P (PxA)具有χ加載向量(x-loading vector) pa為列的矩陣;Q(JxA)具有y加載向量(y-loading vector) qa為列的矩陣;Ea(NxP)為考慮因素A后的X的矩陣;和Fa(NxJ)為考慮因素A后的Y的矩陣。PLSR中的標(biāo)準(zhǔn)是最大化被解釋的[X,Y]的協(xié)方差。這通過加載加權(quán)向量(weights vector) wa+1來實(shí)現(xiàn),wa+1是EaTFaFaTEa的第一個(gè)特征向(eigenvector) (Ea和Fa是考慮一種因素或PLS成分后的收斂(deflated)的X和Y?;貧w系數(shù)通過如下獲得B = W(PtW)^1Qt滿秩的PLSR模型,即最大數(shù)量的成分(maximum number of components),相當(dāng)于 MLR 方案。對(duì) PLSR 的進(jìn)一步描述可見 Marteus&Naes,1989,Multivariate Calibration, John ffiley&Sons, Inc.,USA 和 Kowalski&Seasholtz, 1991,同上文。實(shí)施例3 :實(shí)施例1的對(duì)乳腺癌的診斷的確認(rèn)通過將實(shí)施例1中確定的指示性探針用于新的乳腺癌和對(duì)照樣本,來確認(rèn)實(shí)施例 1的結(jié)果。方法采用實(shí)質(zhì)上如在實(shí)施例1中所述的方法。同如表8中描述的,從患者中采集血液。 但是,將血液收集在PAXgene試管中,而第一鏈標(biāo)記的cDNA與如實(shí)施例1中描述的其它對(duì)照一起雜交到被打點(diǎn)在尼龍膜上的719種cDNA上。在用對(duì)照斑點(diǎn)消除背景后,用內(nèi)部分位數(shù)排列(inter quantile range)標(biāo)準(zhǔn)化各個(gè)膜的數(shù)據(jù)。如實(shí)施例1中所述分析數(shù)據(jù),通過交叉確認(rèn)(cross validation)證實(shí)該模型。被打點(diǎn)的719種cDNA是在實(shí)施例1中被打點(diǎn)的cDNA的子集,包括111種在表2 中描述的cDNA,并且它們在實(shí)施例1中被發(fā)現(xiàn)具有指示性。MM結(jié)果被顯示在附圖4-9中。附圖4、6和8是類似于附圖2的映射圖形,顯示將正常和乳腺癌患者的樣本映射到用全部719種cDNA生成的分類模型上。附圖6是類似的,但是采用由111種與實(shí)施例1共有的探針生成的分類模型。附圖8使用719種序列中的345 種,這719種序列的序列信息已在此提供。在各種情況下,劃分正常組和乳腺癌組都是可能的。附圖5、7和9顯示反映生成的模型正確診斷乳腺癌的能力的預(yù)測圖形。在所示的3個(gè)預(yù)測圖形中,疾病樣本出現(xiàn)在χ軸的+1處,而非疾病樣本出現(xiàn)在-1處。y軸描述被預(yù)測的類別的關(guān)系。在預(yù)測過程中,如果預(yù)測是正確的,則疾病樣本應(yīng)當(dāng)在0以上,而非疾病樣本應(yīng)當(dāng)在0以下。在各種情況下,幾乎所有樣本都被正確地預(yù)測。實(shí)施例4 實(shí)施例2的對(duì)阿爾茨海默病診斷的確認(rèn)
通過將實(shí)施例2中確定的指示性探針用于新的阿爾茨海默病患者樣本,來確認(rèn)實(shí)施例2的結(jié)果。方法采用實(shí)質(zhì)上如在實(shí)施例2中所述的方法。12名在Ulle^l大學(xué)醫(yī)院的記憶力門診部被診斷患有阿爾茨海默病的女性患者被用于該試驗(yàn)中,根據(jù)實(shí)施例2的標(biāo)準(zhǔn),這些患者被確認(rèn)患有阿爾茨海默病?;颊叩钠骄挲g為72. 3歲,年齡范圍為66-83歲。平均匪SE值為22. 0 (可以得到的最大值為30)。16名未被診斷患有阿爾茨海默病的年齡相符的女性個(gè)體被用作正常的對(duì)照組。都進(jìn)行了匪SE測試,具有四的最小值。正常對(duì)照組的平均年齡為74. 0歲,年齡范圍為66-86 歲ο在將血液轉(zhuǎn)移到PAXgene試管后,按照生產(chǎn)商的推薦(PreAnalytiX, Hombrechtikon, Switzerland),從阿爾茨海默病的血液和對(duì)照組供體的血液中分離總 mRNA。存在α 33P_dATP時(shí),在反轉(zhuǎn)錄過程中標(biāo)記被分離的mRNA,得到被標(biāo)記的第一鏈cDNA。如先前所述雜交到730種cDNA克隆上,這些克隆是從來自550位健康個(gè)體的全血的cDNA文庫中挑選出來的,這些隨機(jī)的cDNA克隆的基因序列是未知的。MM結(jié)果被顯示在附圖10和11中。附圖10是用520種已經(jīng)被測序的探針生成的映射圖形。附圖11是預(yù)測圖形,顯示幾乎所有樣本都被正確預(yù)測。表 Ia用于疾病診斷的指示性探針的列表
權(quán)利要求
1.一組寡核苷酸探針,其中所述組包括至少10種選自如下的寡核苷酸表1中描述的寡核苷酸或來源于表1描述的序列的寡核苷酸,或具有互補(bǔ)序列的寡核苷酸,或功能性等價(jià)的寡核苷酸。
2.權(quán)利要求1中要求保護(hù)的一組寡核苷酸探針,其中所述寡核苷酸探針選自在表2 中描述的寡核苷酸或來源于在表2描述的序列的寡核苷酸,或具有互補(bǔ)序列的寡核苷酸, 或功能性等價(jià)的寡核苷酸。
3.權(quán)利要求1中要求保護(hù)的一組寡核苷酸探針,其中所述寡核苷酸探針選自表4中描述的寡核苷酸或來源于在表4描述的序列的寡核苷酸,或具有互補(bǔ)序列的寡核苷酸,或功能性等價(jià)的寡核苷酸。
4.權(quán)利要求1-3的任何一項(xiàng)中要求保護(hù)的一組寡核苷酸探針,其中所述組中的各種探針結(jié)合到不同轉(zhuǎn)錄物上。
5.權(quán)利要求1-4的任何一項(xiàng)中要求保護(hù)的探針組,由10-500種寡核苷酸探針組成。
6.一種寡核苷酸探針,其中所述探針選自列舉在表1中的寡核苷酸,或來源于在表1中描述的序列的寡核苷酸,或其互補(bǔ)序列。
7.權(quán)利要求1-5的任何一項(xiàng)中要求保護(hù)的一組寡核苷酸探針或權(quán)利要求6中要求保護(hù)的寡核苷酸探針,其中各種所述寡核苷酸探針長度為15-200個(gè)堿基。
8.權(quán)利要求1-5或7的任何一項(xiàng)中要求保護(hù)的一組寡核苷酸探針或權(quán)利要求6或7中要求保護(hù)的寡核苷酸探針,其中所述探針結(jié)合的轉(zhuǎn)錄物來源于被組成型地中度或高度表達(dá)的基因。
9.權(quán)利要求1_5、7或8的任何一項(xiàng)中要求保護(hù)的一組寡核苷酸探針或權(quán)利要求6-8中要求保護(hù)的寡核苷酸探針,其中所述探針被固定在一種或多種固體支持物上。
10.權(quán)利要求9要求保護(hù)的一組寡核苷酸探針或寡核苷酸探針,其中所述固體支持物是片、濾器、膜、平板或生物芯片。
11.由權(quán)利要求6中定義的寡核苷酸結(jié)合的mRNA序列編碼的多肽。
12.權(quán)利要求11中定義的多肽的抗體。
13.包括固定在一種或多種在權(quán)利要求9或10中定義的固體支持物上的一組寡核苷酸探針的試劑盒。
14.權(quán)利要求13要求保護(hù)的試劑盒,其中所述探針被固定在單一的固體支持物上,各種獨(dú)有的探針被附著到所述固體支持物的不同區(qū)域上。
15.如權(quán)利要求13或14要求保護(hù)的試劑盒,還包括進(jìn)行標(biāo)準(zhǔn)化的物質(zhì)。
16.權(quán)利要求1-5或7的任何一項(xiàng)所述的一組探針或者權(quán)利要求13-15中所述的試劑盒在確定細(xì)胞的基因表達(dá)模式中的用途,該模式反映所述寡核苷酸探針結(jié)合的基因的基因表達(dá)水平,其至少包括步驟a)從所述細(xì)胞中分離mRNA,可選擇地將mRNA反轉(zhuǎn)錄為cDNA;b)將步驟(a)的mRNA或cDNA雜交到權(quán)利要求1_5、7_10或13-15的任何一項(xiàng)定義的一組寡核苷酸或試劑盒上;和c)評(píng)價(jià)雜交到所述探針上的mRNA或cDNA的含量,以生成所述模式。
17.一種制備標(biāo)準(zhǔn)基因轉(zhuǎn)錄模式的方法,該標(biāo)準(zhǔn)基因轉(zhuǎn)錄模式是生物體的疾病或病癥或其階段特征性的,該方法至少包括步驟a)從所述一種或多種患有疾病或病癥或其階段的生物體的樣本的細(xì)胞中分離mRNA, 可選擇地將mRNA反轉(zhuǎn)錄為cDNA ;b)將步驟(a)的mRNA或cDNA雜交到特異于所述生物體及其樣本的疾病或病癥或其階段的權(quán)利要求1-5、7-10或13-15的任何一項(xiàng)定義的一組寡核苷酸或試劑盒上,該生物體和樣本對(duì)應(yīng)于被研究的生物體及其樣本;和c)評(píng)價(jià)雜交到各種所述探針上的mRNA或cDNA的量,以生成特征性模式,該模式反映患有疾病、病癥或其階段的樣本中,所述寡核苷酸結(jié)合的基因的基因表達(dá)水平。
18.一種制備檢測基因轉(zhuǎn)錄模式的方法,至少包括步驟a)從所述檢測生物體的樣本的細(xì)胞中分離mRNA,可選擇地將mRNA反轉(zhuǎn)錄為cDNA;b)將步驟(a)的mRNA或cDNA雜交到特異于所述生物體及其樣本的疾病或病癥或其階段的權(quán)利要求1-5、7-10或13-15的任何一項(xiàng)定義的一組寡核苷酸或試劑盒上,該生物體和樣本對(duì)應(yīng)于被研究的生物體及其樣本;和c)評(píng)價(jià)雜交到各種所述探針上的mRNA或cDNA的量,以生成反映所述檢測樣本中,所述寡核苷酸結(jié)合的基因的基因表達(dá)水平的所述模式。
19.一種診斷或鑒定或監(jiān)控生物體的疾病或病癥或其階段的方法,包括步驟a)從所述生物體的樣本的細(xì)胞中分離mRNA,其可選擇地被反轉(zhuǎn)錄為cDNA;b)將步驟(a)的mRNA或cDNA雜交特異于生物體及其樣本的疾病或病癥或其階段的權(quán)利要求1-5、7-10或13-15的任何一項(xiàng)定義的一組寡核苷酸或試劑盒上,該生物體和其樣本對(duì)應(yīng)于被研究的生物體和其樣本;和c)評(píng)價(jià)雜交到各種所述探針上的mRNA或cDNA的量,生成反映所述寡核苷酸結(jié)合的基因在所述樣本中的基因表達(dá)水平的特征性模式;和d)將所述模式與標(biāo)準(zhǔn)診斷模式比較,以確定指示在被研究的生物體中存在所述疾病或病癥或其階段的相關(guān)程度,該標(biāo)準(zhǔn)診斷模式如權(quán)利要求17所述,用來自生物體的樣本來制備,所述生物體和樣本對(duì)應(yīng)于被研究的生物體和樣本。
20.權(quán)利要求17-19的任何一項(xiàng)中要求保護(hù)的方法,其中mRNA或cDNA在步驟b)之前被擴(kuò)增。
21.權(quán)利要求17-20的任何一項(xiàng)中要求保護(hù)的方法,其中寡核苷酸和/或mRNA或cDNA 被標(biāo)記。
22.如權(quán)利要求17-21的任何一項(xiàng)中要求保護(hù)的方法,其中所述探針如權(quán)利要求3中所定義,而所述疾病為阿爾茨海默病。
23.如權(quán)利要求17-21的任何一項(xiàng)中要求保護(hù)的方法,其中所述探針如權(quán)利要求2中所定義,而所述疾病為乳腺癌。
24.如權(quán)利要求17-23的任何一項(xiàng)中要求保護(hù)的方法,其中如權(quán)利要求1-5、7-10或 13-15的任何一項(xiàng)定義的所述寡核苷酸組用一組隨機(jī)選擇的寡核苷酸替換,優(yōu)選從cDNA文庫中選擇。
25.一種制備標(biāo)準(zhǔn)基因轉(zhuǎn)錄模式的方法,該模式是生物體的疾病或病癥或其階段特征性的,該方法至少包括步驟a)從一種或多種患有疾病或病癥或其階段的生物體的樣本中釋放目標(biāo)多肽;b)將所述目標(biāo)多肽與一種或多種結(jié)合配偶體接觸,其中各個(gè)結(jié)合配偶體特異于表1的寡核苷酸(來源于表1描述的序列)結(jié)合的基因所編碼的標(biāo)志物多肽(或其片段),使得所述結(jié)合配偶體結(jié)合到所述目標(biāo)多肽上,其中所述標(biāo)志物多肽特異于生物體及其樣本中的所述疾病或其病癥,該生物體及其樣本對(duì)應(yīng)于被研究的生物體及其樣本;和c)評(píng)價(jià)結(jié)合到所述結(jié)合配偶體上的目標(biāo)多肽,生成反映在具有疾病、病癥或其階段的樣本中,表達(dá)所述標(biāo)志物多肽的基因的基因表達(dá)水平的特征性模式。
26.一種制備檢測基因轉(zhuǎn)錄模式的方法,至少包括步驟a)從所述檢測生物體的樣本中釋放目標(biāo)多肽;b)將所述目標(biāo)多肽與一種或多種結(jié)合配偶體接觸,其中各個(gè)結(jié)合配偶體特異于表1的寡核苷酸(來源于表1描述的序列)結(jié)合的基因所編碼的標(biāo)志物多肽(或其片段),使得所述結(jié)合配偶體結(jié)合到所述目標(biāo)多肽上,其中所述標(biāo)志物多肽特異于生物體及其樣本中的所述疾病或其病癥,該生物體及其樣本對(duì)應(yīng)于被研究的生物體及其樣本;和c)評(píng)價(jià)結(jié)合到所述結(jié)合配偶體上的目標(biāo)多肽,生成反映在檢測樣本中,表達(dá)所述標(biāo)志物多肽的基因的基因表達(dá)水平的特征性模式。
27.診斷或鑒定或監(jiān)控生物體中的疾病或病癥或其階段的方法,包括步驟a)從所述生物體的樣本中釋放目標(biāo)多肽;b)將所述目標(biāo)多肽與一種或多種結(jié)合配偶體接觸,其中各個(gè)結(jié)合配偶體特異于表1的寡核苷酸(來源于表1描述的序列)結(jié)合的基因所編碼的標(biāo)志物多肽(或其片段),使得所述結(jié)合配偶體結(jié)合到所述目標(biāo)多肽上,其中所述標(biāo)志物多肽特異于生物體及其樣本中的所述疾病或其病癥,該生物體及其樣本對(duì)應(yīng)于被研究的生物體及其樣本;和c)評(píng)價(jià)結(jié)合到所述結(jié)合配偶體上的目標(biāo)多肽,生成反映在所述樣本中,表達(dá)所述標(biāo)志物多肽的基因的基因表達(dá)水平的特征性模式;和d)將所述模式與標(biāo)準(zhǔn)診斷模式比較,以確定指示在所研究的生物體中存在所述疾病或病癥或其階段相關(guān)程度,該標(biāo)準(zhǔn)診斷模式如權(quán)利要求25中描述,用來自對(duì)應(yīng)于被研究的生物體及其樣本的生物體的樣本制備。
28.權(quán)利要求17-27的任何一項(xiàng)中要求保護(hù)的方法,所述模式被表示為與各種探針相關(guān)的表達(dá)水平的數(shù)值的陣列。
29.權(quán)利要求17-28的任何一項(xiàng)中要求保護(hù)的方法,其中所述生物體是真核生物體,優(yōu)選為哺乳動(dòng)物。
30.權(quán)利要求四要求保護(hù)的方法,其中所述生物體是人。
31.權(quán)利要求17-30的任何一項(xiàng)中要求保護(hù)的方法,其中組成所述模式的數(shù)據(jù)用數(shù)學(xué)方法映射到分類模型上。
32.權(quán)利要求17-31的任何一項(xiàng)中要求保護(hù)的方法,其中所述疾病是癌癥或退行性大腦異常。
33.權(quán)利要求17-32的任何一項(xiàng)中要求保護(hù)的方法,其中所述樣本是組織、體液或機(jī)體廢物。
34.權(quán)利要求17-33的任何一項(xiàng)中要求保護(hù)的方法,其中所述樣本是外周血。
35.權(quán)利要求17-34的任何一項(xiàng)中要求保護(hù)的方法,其中樣本中的細(xì)胞不是疾病細(xì)胞, 未與疾病細(xì)胞接觸過以及不是來源于疾病或病癥的部位。
36.權(quán)利要求19-35的任何一項(xiàng)中要求保護(hù)的方法,用于診斷、鑒定或監(jiān)控生物體中的兩種或多種疾病、病癥或其階段,其中在步驟c)中生成的所述模式與至少兩種在權(quán)利要求 17或25中描述的標(biāo)準(zhǔn)診斷模式比較,其中各個(gè)標(biāo)準(zhǔn)診斷模式是從不同疾病或病癥或其階段生成的模式。
37. 一種用于鑒定探針的方法,該探針用于診斷或鑒定或監(jiān)控生物體的疾病或病癥或其階段,該方法包括步驟a)將一組寡核苷酸探針,優(yōu)選如先前描述的,固定在固體支持物上;b)從正常生物體(正常樣本)中分離mRNA,可選擇地將mRNA反轉(zhuǎn)錄為cDNA;c)從來自生物體的樣本中分離mRNA,所述樣本和生物體對(duì)應(yīng)于步驟(b)的樣本和生物體,所述生物體已知患有所述疾病或病癥或其階段(疾病樣本),可選擇地將mRNA反轉(zhuǎn)錄為 cDNA ;d)將步驟(b)和(c)的mRNA或cDNA雜交到步驟(a)所述的被固定的寡核苷酸探針組上;和e)評(píng)價(jià)結(jié)合到各種所述寡核苷酸探針上的mRNA或cDNA的量,以確定在所述正常的和疾病的樣本中,所述寡核苷酸探針結(jié)合的基因的基因表達(dá)水平,生成各種樣本的基因表達(dá)數(shù)據(jù)集;f)規(guī)格化和標(biāo)準(zhǔn)化步驟(e)的所述數(shù)據(jù)集;g)構(gòu)建用于分類的校準(zhǔn)模型,優(yōu)選采用統(tǒng)計(jì)學(xué)方法偏最小二乘判別分析(PLS-DA)和線性判別分析(LDA);h)進(jìn)行JackKnife分析,鑒定那些將所述疾病樣本和正常樣本劃分到各自組中所需的寡核苷酸探針。
全文摘要
本發(fā)明涉及用于評(píng)定細(xì)胞中的基因轉(zhuǎn)錄水平的寡核苷酸探針,該寡核苷酸探針可被用于分析方法特別是診斷方法中,本發(fā)明還涉及含有該探針的試劑盒。
文檔編號(hào)G01N33/68GK102191319SQ201110063228
公開日2011年9月21日 申請日期2003年11月21日 優(yōu)先權(quán)日2002年11月21日
發(fā)明者安德斯.朗尼伯格, 普拉維恩.沙馬, 納林德.S.薩尼 申請人:迪亞吉尼克公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1