專利名稱:利用關(guān)于基因組模型的數(shù)據(jù)集成的途徑識別算法(paradigm)的制作方法
利用關(guān)于基因組模型的數(shù)據(jù)集成的途徑識別算法(PARADIGM)
與其它申請的關(guān)系
本申請涉及并要求2010年4月29日提交的美國臨時專利申請序列號 61/343,575、題目為“利用關(guān)于基因組模型的數(shù)據(jù)集成的途徑識別算法(PARADIGM) ”的優(yōu)先權(quán),其通過引用其整體被并入本文。
本發(fā)明部分利用以下美國聯(lián)邦機構(gòu)的基金完成美國國家科學(xué)基金會杰出青年教授獎(NSF CAREER)0845783、美國國家癌癥研究所的合同/授權(quán)號碼5R21CA135937-02和 1U24CA143858-01 以及國立衛(wèi)生培訓(xùn)研究院(Nationallnstitute of Health Training)授權(quán)號碼T32GM070386-01。美國聯(lián)邦政府對本發(fā)明具有一定的權(quán)利。發(fā)明領(lǐng)域
本發(fā)明涉及鑒定個體或?qū)ο笾猩飳W(xué)途徑的成分并確定所述個體或?qū)ο笫欠袷桥R床方案或治療的候選者的方法。本發(fā)明還涉及利用該方法診斷對象是否容易患有癌癥、 自身免疫疾病、細胞周期病癥或其它病癥。
背景
現(xiàn)代癌癥治療的關(guān)鍵前提是患者診斷、預(yù)后、風(fēng)險評估和治療反應(yīng)預(yù)測可以根據(jù)腫瘤的基因組、轉(zhuǎn)錄和外基因組特征和在診斷時搜集的相關(guān)臨床信息(例如,患者病史、腫瘤組織學(xué)和階段)以及隨后的臨床隨訪數(shù)據(jù)(例如,治療方案和疾病復(fù)發(fā)事件)對癌癥分層而被提高。
雖然可以用若干高通量技術(shù)來探查癌癥的分子詳細情況,但根據(jù)該PARADIGM 僅實現(xiàn)了少數(shù)成功。例如,表現(xiàn)為ERBB2生長因子受體酪氨酸激酶的特定擴增或過表達的25%的乳癌患者現(xiàn)在可以用曲妥珠單抗(trastuzumab)治療,所述曲妥珠單抗是革巴向受體的一種單克隆抗體(Vogel C,Cobleigh MA, Tripathy D, Gutheil JC, Harris LN,F(xiàn)ehrenbacher L,Slamon DJj Murphy Mj Novotny WFj Burchmore M,Shak Sj Stewart SJ. First-1ine,single-agent Herceptin (R) (trastuzumab)in metastatic breast cancer. A preliminary report. Eur.J.Cancer 2001Jan. ;37Suppll:25-29)。
然而,即使該成功的情況被患有ERBB2-陽性乳癌的50%以下的患者實際上實現(xiàn)曲妥珠單抗的任何治療益處的事實所遮蓋,突出我們對該充分研究的癌途徑以及ERBB2-陽性乳癌固有的許多治療抵抗機制的不完全理解(Park Jff, Neve RM, Szollosi J, Benz CC. Unraveling the biologic and clinical complexities of HER2. Clin. Breast Cancer 20080ct. :8(5) :392-401)。
這種完全不能將現(xiàn)代進步轉(zhuǎn)到基礎(chǔ)癌癥生物學(xué)中部分歸于我們不能全面認識和結(jié)合現(xiàn)在針對實際上任何類型的癌癥在技術(shù)上可獲得的所有omic特征。盡管有充分的證據(jù)表明組織學(xué)上類似的癌癥事實上是許多分子亞型的復(fù)合物(composite),每一亞型具有明顯不同的臨床表現(xiàn),但該知識很少應(yīng)用于實際中,這是因為缺乏與預(yù)后和治療選項充分相關(guān)的有力特征。
癌癥是一種基因組疾病,其與導(dǎo)致細胞系統(tǒng)失調(diào)的異常變化有關(guān)。現(xiàn)在還不清楚的是基因組變化如何進入到構(gòu)成癌癥表型基礎(chǔ)的遺傳途徑中。高通量功能基因組學(xué)研究在過去十年中已經(jīng)取得巨大的進步(Alizadeh AAj Eisen MB, DavisREj Ma C,Lossos IS, Rosenwald A, Boldrick JCj Sabet H,Tran Tj Yu X,Powell JIj Yang Lj Marti GE,Moore T,Hudson J,Lu Lj Lewis DB,Tibshirani R,SHERLOCK G,Chan WCj Greiner TC,Weisenburger DDj Armitage JOj Warnke Rj Levy Rj Wilson W, Grever MR,Byrd JC,Botstein D,Brown PO,Staudt LM. Distinct types of diffuse largeB-cell lymphoma identified by gene expression profiling. Nature 2000Feb. ;403 (6769):503-511.; Golub TR,Slonim DKj Tamayo P,Huard C,Gaasenbeek Mj Mesirov JP,Coller H,Loh ML, Downing JR,Caligiuri MAj Bloomfield CD,Lander ES. Molecular classification of cancer:class discovery and class prediction by geneexpression monitoring. Science 19990ct. ;286 (5439):531-537. ;van de Vijver MJj HeYDj van t Veer LJj Dai Hj Hart AAMj Voskuil DW, Schreiber GJj PeterseJLj Roberts Cj Marton MJj Parrish M,Atsma Dj Witteveen A,Glas A, Delahaye Lj van der Velde T,Bartelink H,Rodenhuis S,Rutgers ET,F(xiàn)riend SH,Bernards R. A Gene-ExpressionSignature as a Predictor of Survival in Breast Cancer. N Engl J Med 2002Dec. ;347(25) :1999-2009)。
然而,集成多個數(shù)據(jù)源來鑒定腫瘤發(fā)生和發(fā)展的可再生和可解釋分子特征的挑戰(zhàn)仍然令人困惑。最近,由TCGA和其它進行的實驗性研究弄清楚了需要對基因組干擾的途徑水平理解來理解在癌細胞中觀察到的變化。這些發(fā)現(xiàn)表明,即使在患者具有基因組變化或不同基因的異常表達時,這些基因仍常常參與共同的途徑。另外,甚至更引人注目的是,觀察到的變化(例如,缺失對比擴增)常常改變相同方向中的途徑輸出信息(output)-或者都提高或者都降低途徑激活。(參見,Parsons DWj Jones S,ZhangX,Lin JCHj Leary RJ,Angenendt P,Mankoo P,Carter H,Siu I,Gallia GLj Olivi A,McLendon R,Rasheed BA,Keir Sj Nikolskaya Tj Nikolsky Y,Busam DA,Tekleab Hj Diaz LA, Hartigan J,Smith DR,Strausberg RL,Marie SKNj Shinjo SMOj Yan H,Riggins GJ,Bigner DD,Karchin R,Papadopoulos N,Parmigiani G,Vogelstein Bj Velculescu VEj Kinzler KW. An Integrated Genomic Analysis of HumanGlioblastoma Multiforme. Science 2008Sep. ;321 (5897):1807-1812. ;Cancer GenomeAtlas Research Network. Comprehensive genomic characterization defines humangIiobIastoma genes and core pathways. Nature 20080ct. ;455(7216):1061-1068)。
用于解釋全基因組癌癥數(shù)據(jù)的方法著重于鑒定與特定表型或疾病狀態(tài)高度相關(guān)的基因表達概況,并已經(jīng)產(chǎn)生有希望的結(jié)果。已經(jīng)提議利用方差分析、錯誤發(fā)現(xiàn)(false-discovery)的方法和非參數(shù)方法(參見 Troyanskaya 等,2002)。Allison DB,CuiXj Page GP, Sabripour M.Microarray data analysis: from disarray to consolidation andconsensus.Nat.Rev.Genet. 2006Jan. ;7 (I) :55-65. ;Dudoit SjFridlyand J.Aprediction—based resampling method for estimating the number of clusters in a dataset. Genome Biol 2002Jun. ;3(7) :RESEARCH0036-RESEARCH0036.21. ;Tusher VG,Tibshirani R,Chu G. Significance analysis of microarrays applied to the ionizingradiation response.Proc. Natl. Acad. Sci.U. S. A. 2001Apr. 98(9) :5116-5121 ;Kerr MX, Martin M, Churchill GA.Analysis of variance for gene expression microarray data. J. Comput. Biol. 2000;7(6):819-837 ; Storey JD,Tibshirani R.Statistical significance forgenomewide studies. Proc. Natl. Acad. Sci. U. S. A. 2003Aug. ; 100 (16) : 9440-9445 ;和 Troyanskaya 0G, Garber ME, Brown PO, Botstein D, Altman RB. Nonparametricmethods for identifying differentially expressed genes in microarray data.Bioinformatics 2002Nov. ;18 (11):1454-1461)。
若干途徑-水平方法根據(jù)基因集(geneset)的過分表達使用統(tǒng)計學(xué)檢驗來檢測途徑是否在疾病狀況中被感染。在這些方法中,基因根據(jù),例如通過差異表達或拷貝數(shù)變化檢測到的其分化活性的程度被排序。然后指定概率分數(shù),其反映途徑的基因排序接近如在基因集富集分析(GSEA)中使用的分類列表末端的程度(Subramanian A, Tamayo P,Mootha VKj Mukherjee S,Ebert BLj Gillette MAj Paulovich A, Pomeroy SLj Golub TR,Lander ES, Mesirov JP. Gene set enrichmentanalysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc. Natl. Acad. Sci. U. S. A. 20050ct. ;102(43) :15545-15550) o其它方法包括使用基于超幾何檢驗的方法來鑒定基因本體論(Ashburner Mj Ball CA,Blake JAj BotsteinDj Butler H, Cherry JMj Davis AP,Dolinski Kj Dwight SS,Eppig JT,Harris MAj HillDP, Issel-Tarver L,Kasarskis A, Lewis S,Matese JCj Richardson JEj Ringwald M,Rubin GMj SHERLOCK G.Gene ontology: tool for the unification of biology. TheGene Ontology Consortium. Nat Genet 2000May; 25 (I) : 25-29.)或MIPS哺乳動物蛋白質(zhì)-蛋白質(zhì)相互作用(PageI P, Kovac S,Oesterheld M,Brauner B,Dunger-Kaltenbach I,F(xiàn)rishman G, Montrone C,Mark P,Stiimpflen V,Mewes H,Ruepp A,F(xiàn)rishman D. TheMIPS mammalian protein-protein interaction database. Bioinformatics 2005Mar. ; 21 (6) :832-834.)差別表達的基因中富集的種類(Tamayo P,Slonim Dj Mesirov J,Zhu Qj Kitareewan Sj Dmitrovsky E,Lander ES,Golub TR. Interpreting patterns ofgene expression with self-organizing maps:methods and application to hematopoieticdifferentiation. Proc. Natl. Acad. Sci. U. S. A. 1999Mar. ; 96 (6) : 2907-2912.)。
過分表達分析受其效力限制,因為它們并不結(jié)合能增加途徑相關(guān)性檢測信號的、 途徑中已知的基因之間的相互依賴性。另外,它們將所有基因變化都視為相等,這被預(yù)期對于許多生物系統(tǒng)是沒有效的。
更復(fù)雜的問題是這樣的事實,S卩,許多基因(例如,微小RNA)是多效的,以不同的功能在若干途徑中發(fā)揮作用(Maddika S,Ande SR, Panigrahi S,Paranjothy T,Weglarczyk K,Zuse A,Eshraghi Mj Manda KDj Wiechec Ej Los M. Cell survival, celldeath and cell cycle pathways are interconnected:implications for cancer therapy. DrugResist. Updat. 2007Jan. ; 10 (1-2) : 13-29) 0由于這些因素,過分表達分析常常錯過功能-相關(guān)途徑,而該途徑的基因具有臨界差別活性。當在小途徑中只有單個基因被高度改變時,它們也可以產(chǎn)生許多假陽性。我們關(guān)于基因及其表型結(jié)果之間詳細的相互作用的總體知識正在迅速增長。
雖然知識傳統(tǒng)地分散在文獻中,而且難以系統(tǒng)地接近,但是新的嘗試正在將途徑知識編目成公眾可得的數(shù)據(jù)庫。包括途徑拓撲的一些數(shù)據(jù)庫是Reactome (Joshi-Tope G, Gillespie Mj Vastrik I, D! Eustachio P,Schmidt Ej de Bono B,Jassal B,Gopinath GRj Wu GRj Matthews L,Lewis S,Birney E,Stein L.Reactome:aknowledgebase of biological pathways. Nucleic Acids Res. 2005Jan. ;33(Databaseissue):D428_32 ;0gata H,Goto S,Sato K,F(xiàn)ujibuchi W,Bono H,Kanehisa M. KEGG:Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 1999Jan. ; 27 (I) : 29-34.))和 NCI 通路相互作用數(shù)據(jù)庫 (Pathway Interaction Database)。期望對這些數(shù)據(jù)庫的更新通過明確地解碼基因如何彼此調(diào)節(jié)和交流來提高我們對生物系統(tǒng)的理解。關(guān)鍵的假設(shè)是這些途徑的相互作用拓撲可以被釆用,用于解釋高通量數(shù)據(jù)集的目的。
直到現(xiàn)在,只有少數(shù)計算方法可用于結(jié)合途徑知識來解釋高通量數(shù)據(jù)集。然而,已經(jīng)提議若干更加新的方法,其結(jié)合途徑拓撲(Efroni S,Schaefer CF, Buetow KH. Identification of key processes underlying cancer phenotypes using biologic pathwayanalysis. PLoS ONE 2007; 2 (5) :e425.)。有一種方法,稱為信號轉(zhuǎn)導(dǎo)途徑影響分析(Signaling Pathway Impact Analysis) (SPIA),其利用類似于 Google 的網(wǎng)頁級別 (PageRank)的方法來測定基因在途徑中的影響(Tarca AL,Draghici S,Khatri P,HassanSS,Mittal P,Kim Jj Kim CJj Kusanovic JPiRomero R. A novel signalingpathway impact analysis. Bioinformatics 2009Jan. ; 25 (I) : 75-82.)。在 SPIA 中,更多的影響施加在與許多其它基因連接的基因上。SPIA被成功地應(yīng)用到不同的癌癥數(shù)據(jù)集(肺腺癌和乳癌),并顯示對于鑒定已知參與這些癌癥的途徑比過分表達分析和基因集富集分析好。雖然SPIA 代表在利用途徑拓撲解釋癌癥數(shù)據(jù)集中向前邁了一大步,但它限于僅使用單一類型的全基因組數(shù)據(jù)。
需要新的計算方法來聯(lián)系多重基因組變化諸如拷貝數(shù)、DNA甲基化、體細胞突變、 mRNA表達和微小RNA表達。期望結(jié)合的途徑分析提高對大集合觀察結(jié)果的因果解釋的精確性和靈敏性,因為單一數(shù)據(jù)源本身不可能提供全貌。
在過去若干年中,已經(jīng)開發(fā)了概率圖模型中的方法(PGMs),用于獲知與多重觀察水平一致的因果關(guān)系網(wǎng)絡(luò)??梢岳糜行У乃惴▉韽臄?shù)據(jù)中自動獲知途徑(Friedman N, Goldszmidt Μ. (1997) Sequential Update of Bayesian Network Structure. In:Proceedings of the Thirteenth Conference on Uncertainty in Artificial Intelligence(UAI f 97), Morgan Kaufmann Publishers, pp. 165-174 ;Murphy Kj Weiss Y. Loopybelief propagation for approximate inference: An empirical study. In:Proceedings ofUncertainty in Al. 1999),并且所述算法非常適于遺傳網(wǎng)絡(luò)推理中的問題(FriedmanN. Inferring cellular networks using probabilistic graphical models. Science 2004Feb. ; 303 (5659) : 799-805.)。作為實例,圖形模型已被用于鑒定在癌癥生物學(xué)中形成‘模數(shù)’的基因集(Segal Ej Friedman N, Kaminski N, Regev A,Roller D. Fromsignatures to models:understanding cancer using microarrays. Nat Genet 2005Jun. ; 37Suppl:S38-45.) 0它們也已被應(yīng)用于闡明腫瘤基因型和表達表型之間的關(guān)系(Lee S,Pe 1 er Dj Dudley AM, Church GMj Roller D. Identifying regulatory mechanisms usingindividual variation reveals key role for chromatin modification. Proc. Natl. Acad. Sci. U.S.A. 2006Sep. :103(38):14062-14067.)和推測蛋白質(zhì)信號網(wǎng)絡(luò)(Sachs K,Perez 0,Pe ' er Dj Lauffenburger DAj Nolan GP. Causal protein-signaling networks derived frommultiparameter single-celI data. Science 2005Apr. ; 308 (5721) : 523-529.)以及重組基因調(diào)節(jié)代碼(Beer MAj Tavazoie S.Predicting gene expression from sequence. Cell 2004Apr. ;117 (2):185-198.)。具體地,因子圖(factor graph)已被用于模型表達數(shù)據(jù)(Gat-Viks I, ShamirR. Refinement and expansion of signaling pathways: the osmoticresponse network in yeast. Genome Research 2007Mar. ;17 (3):358-367. ;Gat_Viks I,Tanay A,Raijman D,Shamir R. The Factor Graph Network Model for BiologicalSystems. In:Hutchison D,Kanade T,Kittler J,Kleinberg JM,Mattern F,Mitchell JC,Naor Mj Nierstrasz 0,Pandu Rangan C,Steffen B,Sudan Mj Terzopoulos Dj Tygar Dj Vardi MY,Weikum G,Miyano Sj Mesirov JjKasif Sj Istrail S,Pevzner PA,WatermanMj editors. Berlin, Heidelberg:Springer Berlin Heidelberg;2005p.31-47. ;Gat_Viks I,Tanay A,Raijman D,Shamir R. A probabiIistic methodology for integrating knowledgeand experiments on biological networks. J. Comput. Biol. 2006Mar. ; 13 (2) : 165-181.) 0
乳癌是臨床上和基因組學(xué)上異質(zhì)的,其由若干在病理上和分子上不同的亞型組成?;颊邔ΤR?guī)和靶向的治療方法的反應(yīng)在亞型之間不同,激發(fā)對標記物引導(dǎo)的治療策略的開發(fā)。對乳癌細胞系的收集反映在腫瘤中發(fā)現(xiàn)的許多分子亞型和途徑,這表明用候選治療化合物治療細胞系可以指導(dǎo)鑒定分子亞型、途徑和藥物反應(yīng)之間的聯(lián)系。在對77種治療化合物的測試中,幾乎所有的藥物在這些細胞系均顯示差別反應(yīng),并且,大約一半顯示亞型_、途徑和/或基因組異常-特異性反應(yīng)。這些觀察結(jié)果表明反應(yīng)和抵抗的機制,其可以告知臨床藥物部署以及有效組合藥物的努力。
以各種水平積累腫瘤的高通量分子概況是世界范圍內(nèi)一個長期且成本高的過程。 以各種水平對基因調(diào)節(jié)的組合分析可以指出特定的生物學(xué)功能和分子途徑,其在多種上皮癌中被下調(diào),并為新的患者亞群顯示定制(tailored)療法和監(jiān)測。從大約110個乳癌患者,我們已經(jīng)收集了來自原發(fā)性腫瘤、匹配的血液和具有已知微轉(zhuǎn)移狀況的新冰凍樣本的若干分子水平上的高通量數(shù)據(jù)(還被稱為MicMa數(shù)據(jù)集)。這些患者是超過900個乳癌病例的同齡組的一部分,所述病例具有關(guān)于播散腫瘤細胞(DTC)的存在、對復(fù)發(fā)和總存活率長期隨訪的信息。MicMa集已被用于全基因組mRNA表達的平行試驗研究中(INaume,B 等,(2007),Presence of bone marrowmicrometastasis is associated with different recurrence risk within molecular subtypesof breast cancer,1:160-171)、微陣列 _ 比較基因組雜交(arrayCGH) (Russnes HG,Vollan HKMj Lingjaerde OCj Krasnitz A, Lundin P,Naume B, Swlie T, Borgen Ε,RyeIH, Langerod A, Chin S,Teschendorff AE, Stephens PJ, Maner S,Schlichting E, Baumbusch LO, Karesen R,Stratton MP, Wigler M, Caldas C, Zetterberg A, Hicks J, Borresen-Dale A. Genomic architecture characterizes tumor progression paths and fatein breast cancer patients. Sci Transl Med 2010Jun. ; 2 (38) : 38ra47)、DNA 甲基化(R^nncbcig JAjFleischer Tj Solvang HK,Nordgard SHj Edvardsen H,Potapenko I,Nebdal Dj Daviaud C,Gut I,Bukholm I,Naume B,Berresen-Dale A,Tost Jj KristensenV. Methylation profiling with a panel of cancer related genes: association with estrogenreceptor,TP53mutation status and expression subtypes in sporadic breast cancer. MolOncol 2011 Feb. ; 5 (I) :61-76)、全基因組 SNP 和 SNP-CGH(Van, Loo P.等·,(2010), Allele-specific copy number analysis of tumors, 107:16910-169154)、全基因組 miRNA 表達分析 (5Enerly, E.等,(2011), miRNA-mRNA Integrated Analysis RevealsRoles for miRNAs in Primary Breast Tumors, 6: el6915_)、TP53突變狀態(tài)依賴性途徑和高通量配對末端測序 (7 Stephens, P. J.等,(2009), Complex landscapes of somaticrearrangement in human breast cancer genomes, 462:1005-1010)。這是由單個實驗室對乳房原發(fā)性腫瘤的相同集合進行的高通量分子數(shù)據(jù)全面收集。
癌癥研究中極其重要的課題是鑒定驅(qū)使癌癥發(fā)展的基因組異常。利用MicMa同齡組的全基因組拷貝數(shù)和表達概況,我們限定若干過濾步驟,每一步驟均被設(shè)計成在前一步驟中選擇的基因中鑒定最有前景的候選基因。最初兩個步驟包括鑒定一般異常的以及與表達基因順式相關(guān)的基因,即,拷貝數(shù)變化對表達具有實質(zhì)影響的基因。隨后,該方法考慮選擇的基因的反式作用,進一步縮小潛在的新候選驅(qū)動基因的范圍(Miriam Ragle Aure, Israel Steinfeld Lars Oliver Baumbusch Knut Liestol Doron Lipson Bjem Naume Vessela N. Kristensen Anne-Lise Berresen-Dale Ole-Christian Lingjarde and Zohar Yakhini, (2011), A robust novel method for theintegrated analysis of copy number and expression reveals new candidate driver genesin breast cancer)。最近,我們已經(jīng)發(fā)展了一種等位基因-特異性的拷貝數(shù)分析,其使我們能夠精確地仔細分析實體腫瘤的等位基因-特異性拷貝數(shù)(ASCAT),并同時估計和調(diào)整腫瘤倍性和非異常細胞混合物(Van, Loo P.等,(2010),Allele-specif iccopynumber analysis oftumors, 107:16910-169154)。這可以計算全基因組等位基因-特異性拷貝數(shù)概況,從該拷貝數(shù)概況中可以精確地測定獲得、丟失、拷貝數(shù)無關(guān)事件(neutral event)和雜合性丟失 (LOH)。以等位基因特異性方式觀察DNA異常使我們能構(gòu)建乳癌中等位基因偏斜的全基因組圖譜,這指示其中一個等位基因優(yōu)先丟失而其它等位基因優(yōu)先獲得的位點。我們假定這些可選等位基因?qū)θ榘┌l(fā)展具有不同的影響。我們也發(fā)現(xiàn),與其它亞型相比,基底細胞樣乳癌具有明顯高的LOH頻率,并且,它們的ASCAT概況顯示在腫瘤發(fā)展期間大規(guī)模丟失基因組材料,接下來是全基因組復(fù)制,產(chǎn)生近三倍體基因組(Van等(2010),同上)。在正常乳房上皮細胞以及乳房腫瘤中已經(jīng)報道了不同的通用DNA甲基化概況。
現(xiàn)在需要提供可用于表征、診斷、預(yù)防、治療和測定疾病和病癥結(jié)果的方法。
發(fā)明簡述
在一個實施方式中,本發(fā)明提供產(chǎn)生動態(tài)途徑圖(DPM)的方法,該方法包括提供對儲存多個途徑元素的途徑元素數(shù)據(jù)庫的訪問,每一途徑元素表征為其參與至少一個途徑;提供對與途徑元素數(shù)據(jù)庫偶聯(lián)的修正引擎(modification engine)的訪問;利用所述修正引擎將第一途徑元素與至少一個先驗已知的屬性關(guān)聯(lián);利用所述修正引擎將第二途徑元素與至少一個假定屬性關(guān)聯(lián);分別利用已知和假定屬性,應(yīng)用所述修正引擎交叉關(guān)聯(lián)并指定至少一個途徑的第一和第二途徑元素的影響水平,以形成概率途徑模型;和,利用概率途徑模型,通過分析引擎,從患者樣本的多個元素的多個測量的屬性推導(dǎo)DPM,其具有針對特定途徑的參考途徑活性信息(reference pathway activity information)。在一個優(yōu)選的實施方式中,途徑元素是蛋白質(zhì)。在更優(yōu)選的優(yōu)選實施方式中,蛋白質(zhì)選自受體、激素結(jié)合蛋白、激酶、轉(zhuǎn)錄因子、甲基化酶、組蛋白乙酰酶和組蛋白脫乙酰酶。在可選的優(yōu)選實施方式中,途徑元素是核酸。在更優(yōu)選的實施方式中,核酸選自蛋白質(zhì)編碼序列、基因組調(diào)節(jié)序列、調(diào)節(jié)RNA和反式激活序列。在另一更優(yōu)選的實施方式中,參考途徑活性信息對于正常組織、患病組織、衰老組織或恢復(fù)組織是特異的。在優(yōu)選的實施方式中,已知屬性選自化合物屬性、種類屬性、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平和蛋白質(zhì)活性。在另一優(yōu)選的實施方式中,假定屬性選自化合物屬性、種類屬性、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平和蛋白質(zhì)活性。在另一可選的實施方式中,測量的屬性選自突變、差別遺傳序列對象(differential genetic sequence object)、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平、蛋白質(zhì)活性和蛋白質(zhì)相互作用。在優(yōu)選的實施方式中,途徑在調(diào)節(jié)途徑網(wǎng)絡(luò)內(nèi)。在更優(yōu)選的實施方式中,調(diào)節(jié)途徑網(wǎng)絡(luò)選自衰老途徑網(wǎng)絡(luò)、調(diào)亡途徑網(wǎng)絡(luò)、穩(wěn)態(tài)途徑網(wǎng)絡(luò)、代謝途徑網(wǎng)絡(luò)、復(fù)制途徑網(wǎng)絡(luò)和免疫應(yīng)答途徑網(wǎng)絡(luò)。在再一更優(yōu)選的實施方式中,途徑在信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)內(nèi)。在可選的再一更優(yōu)選的實施方式中,途徑在不同途徑網(wǎng)絡(luò)的網(wǎng)絡(luò)內(nèi)。在最優(yōu)選的實施方式中,信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)選自鈣/鈣調(diào)蛋白依賴性信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、細胞因子介導(dǎo)的信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、 趨化因子介導(dǎo)的信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、生長因子信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、激素信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、 MAP激酶信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、磷酸酶介導(dǎo)的信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、Ras超家族介導(dǎo)的信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)和轉(zhuǎn)錄因子介導(dǎo)的信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)。
本發(fā)明還提供產(chǎn)生動態(tài)途徑圖(DPM)的方法,該方法包括提供對儲存概率途徑模型的模型數(shù)據(jù)庫的訪問,所述概率途徑模型包含多個途徑元素;其中,第一數(shù)目的所述多個途徑元素被交叉關(guān)聯(lián)并根據(jù)已知屬性指定至少一個途徑的影響水平;其中,第二數(shù)目的所述多個途徑元素被交叉關(guān)聯(lián),并根據(jù)假定屬性指定至少一個途徑的影響水平;和,利用患者樣本的多個元素的多個測量的屬性,通過分析引擎修正概率途徑模型,以獲得DPM,其中所述DPM具有針對特定途徑的參考途徑活性信息。
在一個優(yōu)選的實施方式中,途徑在調(diào)節(jié)途徑網(wǎng)絡(luò)、信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、或不同途徑網(wǎng)絡(luò)的網(wǎng)絡(luò)內(nèi)。在另一優(yōu)選的實施方式中,途徑元素是蛋白質(zhì),其選自受體、激素結(jié)合蛋白、 激酶、轉(zhuǎn)錄因子、甲基化酶、組蛋白乙酰酶和組蛋白脫乙酰酶,或核酸,其選自基因組調(diào)節(jié)序列、調(diào)節(jié)RNA和反式激活序列。在進一步優(yōu)選的實施方式中,參考途徑活性信息對于正常組織、患病組織、衰老組織或恢復(fù)組織是特異的。在另一優(yōu)選的實施方式中,已知屬性選自化合物屬性、種類屬性、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平和蛋白質(zhì)活性。在另一優(yōu)選的實施方式中,假定屬性選自化合物屬性、種類屬性、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平和蛋白質(zhì)活性。在進一步優(yōu)選的實施方式中,測量的屬性選自突變、差別遺傳序列對象、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平、蛋白質(zhì)活性和蛋白質(zhì)相互作用。
本發(fā)明還提供分析生物學(xué)相關(guān)信息的方法,包括提供對存儲動態(tài)途徑圖(DPM) 的模型數(shù)據(jù)庫的訪問,其中所述DPM通過用第一細胞或患者樣本的多個元素的多個測量的屬性修正概率途徑模型而產(chǎn)生;獲得第二細胞或患者樣本的多個元素的多個測量的屬性; 和,利用DPM以及所述第二細胞或患者樣本的多個元素的多個測量的屬性,通過分析引擎, 測定所述第二細胞或患者樣本的預(yù)測的途徑活性信息。在一個優(yōu)選的實施方式中,所述第一細胞或患者樣本的多個元素的測量的屬性是健康細胞或組織、特定年齡的細胞或組織、 特定疾病的細胞或組織、特定疾病階段的患病細胞或組織、特定性別、特定人種群、特定職業(yè)群和特定種類所特有的。在另一優(yōu)選的實施方式中,所述第二細胞或患者樣本的多個元素的測量的屬性選自突變、差別遺傳序列對象、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平、蛋白質(zhì)活性和蛋白質(zhì)相互作用。在可選的優(yōu)選實施方式中,第一和第二樣本獲自相同的細胞或患者, 并且進一步包括在獲得所述第二細胞或患者樣本的多個元素的多個測量的屬性之前,提供治療給所述細胞或患者。在更優(yōu)選的實施方式中,治療選自放射、施用藥物給所述患者和施用候選分子給所述細胞。在另一更優(yōu)選的實施方式中,候選分子是候選分子文庫中的成員。 在另一優(yōu)選的實施方式中,預(yù)測的途徑活性信息將元素鑒定為至少一個途徑中的分級主導(dǎo) (hierarchical-dominant)元素。在更優(yōu)選的實施方式中,預(yù)測的途徑活性信息將元素鑒定為與疾病有關(guān)的至少一個途徑中的疾病決定元素。在可選實施方式中,該方法還包括產(chǎn)生預(yù)測的途徑活性信息的圖形表示的步驟。在可選實施方式中,該方法還包括產(chǎn)生治療建議的步驟,所述治療建議至少部分基于預(yù)測的途徑活性信息。在可選實施方式中,該方法還包括利用預(yù)測的途徑活性信息表達對疾病的診斷、預(yù)后或?qū)χ委熯x項的選擇和飲食指導(dǎo)建議的步驟。在可選實施方式中,該方法還包括利用預(yù)測的途徑活性信息來鑒定外遺傳因子、脅迫適應(yīng)、生物體的狀態(tài)和修復(fù)或愈合狀態(tài)的步驟。
在另一實施方式中,本發(fā)明提供變換方法,其生成集成途徑活性 (integratedpathway activities) (IPAs)的矩陣,以為需要的個體預(yù)測臨床結(jié)果,所述方法包括以下步驟(i)提供策劃的(curated)途徑集合,其中所述途徑包含多個實體;(ii) 將每一策劃的途徑轉(zhuǎn)換成不同的概率圖模型(PGM),其中所述PGM源自每一策劃的途徑的因子圖;(iii)提供來自個體的生物樣本,其中所述生物樣本包含至少一個內(nèi)源實體,其包含在策劃的途徑之一中;(iv)測定內(nèi)源實體在生物樣本中的水平;(v)將內(nèi)源實體的水平與從另一個體的之前測定的對照樣本中的實體的那些水平進行比較;(vi)測定內(nèi)源實體的水平相對于對照實體水平是否是激活的、標稱的或失活的;(vii)為所述內(nèi)源實體指定數(shù)字狀態(tài),其中表示激活的狀態(tài)是+1,表示標稱活性的狀態(tài)是0,和其中表示失活的狀態(tài)是-I ; (viii)針對另一內(nèi)源實體重復(fù)步驟ii到(vi) ; (X)將每一內(nèi)源實體的數(shù)字狀態(tài)編輯成集成途徑活性(IPAs)的矩陣;(X)其中所述集成途徑活性的矩陣是A,其中Au表示生物樣本j中實體i的推測的活性;該方法產(chǎn)生集成途徑活性的矩陣,用于預(yù)測個體的臨床結(jié)果O
在一個實施方式中,產(chǎn)生IPAs的矩陣的方法包括預(yù)測臨床結(jié)果、提供診斷、提供治療、遞送治療、施用治療、進行治療、管理治療或分配治療給需要的個體。在另一實施方式中,策劃的途徑的集合來自對人生物學(xué)的分析。在另一可選實施方式中,策劃的途徑的集合來自對非人生物學(xué)的分析。在另一實施方式中,測定內(nèi)源實體相對于對照實體水平的水平利用學(xué)生t檢驗進行。在可選實施方式中,測定內(nèi)源實體相對于對照實體水平的水平利用 ANOVA進行。在另一實施方式中,變換方法包括如下步驟其中組合來自一個以上個體的集成途徑活性的多個矩陣,所述組合的多個矩陣產(chǎn)生聚簇(cluster),并且其中測定所得聚簇的單個矩陣之間的距離。在一個實施方式中,測定的距離用K-平均聚簇分析進行分析。在另一可選的實施方式中,測定的距離用K2-平均聚簇分析進行分析。在再一實施方式中,變換方法包括測定生物樣本內(nèi)源實體的水平的步驟,其包括通過抗體檢測內(nèi)源實體,從而測定內(nèi)源實體的水平。在可選實施方式中,測定生物樣本中內(nèi)源實體的水平的步驟包括通過核酸探針檢測內(nèi)源實體,從而測定內(nèi)源實體的水平。在另一可選的實施方式中,測定生物樣本中內(nèi)源實體的水平的步驟包括用有機試劑檢測內(nèi)源實體,其中所述有機試劑結(jié)合內(nèi)源實體,從而產(chǎn)生可檢測的信號,并從而測定內(nèi)源實體的水平。
在再進一步的可選實施方式中,測定生物樣本中內(nèi)源實體的水平的步驟包括用無機試劑檢測內(nèi)源實體,其中所述無機試劑結(jié)合內(nèi)源實體,從而產(chǎn)生可檢測的信號,并從而測定內(nèi)源實體的水平。在另一可選的實施方式中,測定生物樣本中內(nèi)源實體的水平的步驟包括用有機試劑檢測內(nèi)源實體,其中所述有機試劑與內(nèi)源實體反應(yīng),從而產(chǎn)生可檢測的信號, 并從而測定內(nèi)源實體的水平。在另一可選的實施方式中,測定生物樣本中內(nèi)源實體的水平的步驟包括用無機試劑檢測內(nèi)源實體,其中所述無機試劑與內(nèi)源實體反應(yīng),從而產(chǎn)生可檢測的信號,并從而測定內(nèi)源實體的水平。在優(yōu)選的實施方式中,測定生物樣本中內(nèi)源實體的水平的步驟包括在內(nèi)源實體的最佳波長測量內(nèi)源實體的吸光度,并從而測定內(nèi)源實體的水平。在可選的優(yōu)選實施方式中,測定生物樣本中內(nèi)源實體的水平的步驟包括在內(nèi)源實體的最佳波長測量內(nèi)源實體的熒光,并從而測定內(nèi)源實體的水平。在再進一步可選的優(yōu)選實施方式中,測定生物樣本中內(nèi)源實體的水平的步驟包括使內(nèi)源實體與酶反應(yīng),其中所述酶選擇性地消化所述內(nèi)源實體,以產(chǎn)生至少一個產(chǎn)物,檢測所述至少一個產(chǎn)物,并從而測定內(nèi)源實體的水平。在更優(yōu)選的實施方式中,使內(nèi)源實體與酶反應(yīng)的步驟導(dǎo)致產(chǎn)生至少兩種產(chǎn)物。 在再一更優(yōu)選的實施方式中,使內(nèi)源實體與酶反應(yīng)的步驟產(chǎn)生至少兩種產(chǎn)物,接下來是用另一酶處理產(chǎn)物的步驟,其中所述酶選擇性地消化產(chǎn)物中的至少一個,以產(chǎn)生至少第三種產(chǎn)物,并從而測定內(nèi)源實體的水平。
在另一優(yōu)選的實施方式中,個體選自健康個體、無癥狀個體和有癥狀個體。在更優(yōu)選的實施方式中,個體選自被診斷患有狀況的個體,所述狀況選自疾病和病癥。在優(yōu)選的實施方式中,狀況選自獲得性免疫缺陷綜合征(AIDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生、支氣管炎、切-東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎(dermnatomyositis)、糖尿病、氣腫、胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、嚴重聯(lián)合免疫缺陷病(SCID)、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、眼色素層炎、維爾納綜合征、癌癥、血液透析和體外循環(huán)并發(fā)癥、病毒、細菌、真菌、寄生蟲、原生動物和蠕蟲感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺、膀胱、骨、 骨髓、腦、乳房、子宮頸、膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、脾臟、睪丸、胸腺、甲狀腺和子宮的癌癥、靜坐不能癥(akathesia)、 阿爾茨海默病、健忘癥、肌萎縮性側(cè)索硬化癥(ALS)、共濟失調(diào)、雙相性抑郁癥、緊張癥、大腦性麻痹、腦血管疾病、克-雅二氏病、癡呆、抑郁癥、唐氏綜合征、遲發(fā)性運動障礙、張力障礙、癲癇、杭廷頓氏病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森氏病、皮克氏病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情感障礙、老年性癡呆、中風(fēng)、德拉圖雷特綜合征,和癌癥,包括腺癌、黑素瘤和畸胎癌,尤其是腦癌。在可選的優(yōu)選實施方式中,狀況選自癌癥諸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺、膀胱、骨、骨髓、腦、乳房、子宮頸、膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、脾臟、睪丸、胸腺、甲狀腺和子宮的癌癥;免疫病癥諸如獲得性免疫缺陷綜合征(AIDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、發(fā)作性淋巴細胞減少伴淋巴細胞毒性因子(episodic lymphopenia with lymphocytotoxins)、 胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、眼色素層炎、維爾納綜合征、癌癥、血液透析和體外循環(huán)并發(fā)癥、病毒、細菌、真菌、寄生蟲、原生動物和蠕蟲感染、創(chuàng)傷、X連鎖布魯頓無丙種球蛋白血癥(X-linked agammaglobinemia ofBruton)、普通可變性免疫缺陷(CVI)、迪喬治氏綜合征(胸腺發(fā)育不全)、胸腺發(fā)育不全、單一性IgA缺乏癥、嚴重聯(lián)合免疫缺陷病(SCID)、免疫缺陷伴血小板減少和濕疹(威斯科特-奧爾德里奇綜合征)、切-東二氏綜合征、慢性肉芽腫性疾病、遺傳性血管神經(jīng)性水腫和與庫興病有關(guān)的免疫缺陷;和發(fā)育障礙諸如腎小管性酸中毒、貧血、庫興綜合征、軟骨發(fā)育不全性侏儒、杜興和貝克爾肌肉萎縮癥、癲癇、性腺發(fā)育不全、WAGR綜合征(維爾姆斯氏腫瘤、無虹膜、生殖泌尿異常和智力遲鈍)、史-馬二氏(Smith-Magenis)綜合征、骨髓增生異常綜合征、遺傳性粘膜上皮發(fā)育不良、遺傳性皮膚角化病、遺傳性神經(jīng)病侏儒夏-馬-圖三氏病和神經(jīng)纖維瘤、甲狀腺功能減退、腦積水、癲癇病癥諸如西登哈姆氏舞蹈病(Syndenham' s chorea)和大腦性麻痹、脊柱裂、無腦畸形、 顱脊柱裂、先天性青光眼、白內(nèi)障、感覺神經(jīng)性耳聾和與細胞生長和分化有關(guān)的任何病癥、 胚胎發(fā)生和涉及對象的任何組織、器官或系統(tǒng),例如腦、腎上腺、腎、骨骼或生殖系統(tǒng)的形態(tài)發(fā)生。在另一優(yōu)選的實施方式中,狀況選自內(nèi)分泌性病癥諸如與腦下垂體機能減退有關(guān)的病癥,包括性腺功能減退癥、席漢氏(Sheehan)綜合征、尿崩癥、卡爾曼病、漢-許-克三氏病(Hand-Schuller-Christian disease)、累-賽二氏病、肉樣瘤病、空泡蝶鞍綜合征和侏儒癥;垂體功能亢進,包括肢端巨大癥、巨人癥和不適當?shù)目估蚣に?ADH)分泌綜合征 (SIADH);和與甲狀腺功能減退有關(guān)的病癥,包括甲狀腺腫、粘液性水腫、與細菌感染有關(guān)的急性甲狀腺炎、與病毒感染有關(guān)的亞急性甲狀腺炎、自身免疫性甲狀腺炎(橋本氏病)和呆小??;與甲狀腺功能亢進有關(guān)的病癥,包括甲狀腺毒癥及其各種形式、格雷夫斯病、脛骨前粘液水腫、毒性多節(jié)性甲狀腺腫、甲狀腺癌和普魯麥綜合征;和與甲狀旁腺功能亢進有關(guān)的病癥,包括Conn病(慢性高I丐血綜合征(hypercalemia));呼吸病癥諸如變態(tài)反應(yīng)、哮喘、 急性和慢性肺炎疾病、ARDS、氣腫、肺充血和水腫、C0PD、間質(zhì)性肺病和肺癌;癌癥諸如腺癌、 白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺、膀胱、骨、骨髓、腦、乳房、 子宮頸、膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、脾臟、睪丸、胸腺、甲狀腺和子宮的癌癥;和免疫學(xué)病癥諸如獲得性免疫缺陷綜合征(AIDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、發(fā)作性淋巴細胞減少伴淋巴細胞毒性因子、胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、眼色素層炎、維爾納綜合征、癌癥、血液透析和體外循環(huán)并發(fā)癥、病毒、細菌、真菌、寄生蟲、原生動物和蠕蟲感染和創(chuàng)傷。
本發(fā)明還提供本文公開的變換方法,其中矩陣A然后可以替代原始構(gòu)成數(shù)據(jù)集, 以鑒定與臨床結(jié)果的關(guān)聯(lián)。在更優(yōu)選的實施方式中,策劃的途徑選自生物化學(xué)途徑、遺傳途徑、代謝途徑、基因調(diào)節(jié)途徑、基因轉(zhuǎn)錄途徑、基因翻譯途徑。在另一更優(yōu)選的實施方式中, 實體選自核酸、肽、蛋白質(zhì)、肽核酸、糖類、脂類、蛋白聚糖、因子、輔因子、生物化學(xué)代謝物、 有機組合物、無機組合物和鹽。在再其它優(yōu)選的實施方式中,生物樣本選自患者樣本、對照樣本、試驗處理的動物樣本、試驗處理的組織培養(yǎng)物樣本、試驗處理的細胞培養(yǎng)物樣本和試驗處理的體外生物化學(xué)組合物樣本。在更優(yōu)選的實施方式中,生物樣本是患者樣本。
本發(fā)明還提供概率圖模型(PGM)框架,其具有推斷在患者樣本中改變的分子途徑的輸出信息,所述PGM包含多個因子圖,其中所述因子圖代表集成的生物數(shù)據(jù)集,并且其中所述推斷的、在患者樣本中改變的分子途徑包括由數(shù)據(jù)已知的分子途徑,并且其中所述分子途徑影響臨床或非臨床狀況,已知其中所述推斷的分子途徑通過臨床方案或治療而被調(diào)整,和其中所述輸出信息指示臨床方案。在優(yōu)選的實施方式中,數(shù)據(jù)選自試驗數(shù)據(jù)、臨床數(shù)據(jù)、流行病學(xué)數(shù)據(jù)和物候?qū)W數(shù)據(jù)。在另一優(yōu)選的實施方式中,狀況選自疾病和病癥。在更優(yōu)選的實施方式中,狀況選自獲得性免疫缺陷綜合征(AIDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生、支氣管炎、切-東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、 骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、 硬皮病、嚴重聯(lián)合免疫缺陷病(SCDD)、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、 全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、眼色素層炎、維爾納綜合征、癌癥、血液透析和體外循環(huán)并發(fā)癥、病毒、細菌、真菌、寄生蟲、原生動物和蠕蟲感染;和腺癌、白血病、 淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺、膀胱、骨、骨髓、腦、乳房、子宮頸、 膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、 脾臟、睪丸、胸腺、甲狀腺和子宮的癌癥、靜坐不能癥、阿爾茨海默病、健忘癥、肌萎縮性側(cè)索硬化癥(ALS)、共濟失調(diào)、雙相性抑郁癥、緊張癥、大腦性麻痹、腦血管疾病克-雅二氏病、癡呆、抑郁癥、唐氏綜合征、遲發(fā)性運動障礙、張力障礙、癲癇、杭廷頓氏病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森氏病、皮克氏病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情感障礙、老年性癡呆、中風(fēng)、德拉圖雷特綜合征和癌癥,包括腺癌、黑素瘤和畸胎癌,尤其是腦癌。在可選的更優(yōu)選實施方式中,狀況選自癌癥諸如腺癌、白血病、淋巴瘤、 黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺、膀胱、骨、骨髓、腦、乳房、子宮頸、膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、脾臟、 睪丸、胸腺、甲狀腺和子宮的癌癥;免疫病癥諸如獲得性免疫缺陷綜合征(ADDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、 特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、發(fā)作性淋巴細胞減少伴淋巴細胞毒性因子、胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、 硬皮病、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、眼色素層炎、維爾納綜合征、癌癥、血液透析和體外循環(huán)并發(fā)癥、病毒、 細菌、真菌、寄生蟲、原生動物和蠕蟲感染、創(chuàng)傷、X連鎖布魯頓無丙種球蛋白血癥、普通可變性免疫缺陷(CVI)、迪喬治氏綜合征(胸腺發(fā)育不全)、胸腺發(fā)育不全、單一性IgA缺乏癥、 嚴重聯(lián)合免疫缺陷病(SCID)、免疫缺陷伴血小板減少和濕疹(威斯科特-奧爾德里奇綜合征)、切-東二氏綜合征、慢性肉芽腫性疾病、遺傳性血管神經(jīng)性水腫和與庫興病有關(guān)的免疫缺陷;和發(fā)育障礙諸如腎小管性酸中毒、貧血、庫興綜合征、軟骨發(fā)育不全性侏儒、杜興和貝克爾肌肉萎縮癥、癲癇、性腺發(fā)育不全、WAGR綜合征(維爾姆斯氏腫瘤、無虹膜、生殖泌尿異常和智力遲鈍)、史-馬二氏綜合征、骨髓增生異常綜合征、遺傳性粘膜上皮發(fā)育不良、遺傳性皮膚角化病、遺傳性神經(jīng)病諸如夏-馬-圖三氏病和神經(jīng)纖維瘤、甲狀腺功能減退、腦積水、癲癇病癥諸如西登哈姆氏舞蹈病和大腦性麻痹、脊柱裂、無腦畸形、顱脊柱裂、先天性青光眼、白內(nèi)障、感覺神經(jīng)性耳聾和與細胞生長和分化有關(guān)的任何病癥、胚胎發(fā)生和涉及對象的任何組織、器官或系統(tǒng),例如腦、腎上腺、腎、骨骼或生殖系統(tǒng)的形態(tài)發(fā)生。在再其它更優(yōu)選的實施方式中,狀況選自內(nèi)分泌性病癥諸如與腦下垂體機能減退有關(guān)的病癥,包括性腺功能減退癥、席漢氏綜合征、尿崩癥、卡爾曼病、漢-許-克三氏病、累-賽二氏病、肉樣瘤病、空泡蝶鞍綜合征和侏儒癥;垂體功能亢進,包括肢端巨大癥、巨人癥和不適當?shù)目估蚣に?ADH)分泌綜合征(SIADH);和與甲狀腺功能減退有關(guān)的病癥,包括甲狀腺腫、粘液性水腫、與細菌感染有關(guān)的急性甲狀腺炎、與病毒感染有關(guān)的亞急性甲狀腺炎、自身免疫性甲狀腺炎(橋本氏病)和呆小??;與甲狀腺功能亢進有關(guān)的病癥,包括甲狀腺毒癥及其各種形式、格雷夫斯病、脛骨前粘液水腫、毒性多節(jié)性甲狀腺腫、甲狀腺癌和普魯麥綜合征;和與甲狀旁腺功能亢進有關(guān)的病癥,包括Conn病(慢性高鈣血綜合征);呼吸病癥諸如變態(tài)反應(yīng)、 哮喘、急性和慢性炎性肺疾病、ARDS、氣腫、肺充血和水腫、C0PD、間質(zhì)性肺病和肺癌;癌癥諸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺、膀胱、骨、骨髓、 腦、乳房、子宮頸、膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、脾臟、睪丸、胸腺、甲狀腺和子宮的癌癥;和免疫學(xué)病癥諸如獲得性免疫缺陷綜合征(ADDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、發(fā)作性淋巴細胞減少伴淋巴細胞毒性因子、胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、 痛風(fēng)、格雷夫斯病、橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、 重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、眼色素層炎、維爾納綜合征、癌癥、血液透析和體外循環(huán)并發(fā)癥、病毒、細菌、真菌、寄生蟲、原生動物和蠕蟲感染和創(chuàng)傷。附圖簡介
圖I圖解PARADIGM方法的整體圖。PARADIGM使用示意有功能基因組數(shù)據(jù)的途徑, 推斷可用于進一步下游分析的遺傳活性。NCI途徑在TCGAGBM數(shù)據(jù)中相互作用。對于所有 (n=462)對,其中發(fā)現(xiàn)A是NCI-Nature途徑數(shù)據(jù)庫中基因B的上游活化因子,通過TCGA GBM 數(shù)據(jù)計算的皮爾森相關(guān)性(X-軸)以兩種不同方式被計算。柱狀圖描繪A的拷貝數(shù)和B的表達之間(C2E,實心紅色)以及A的表達與B的表達之間(E2E,實心藍色)的相關(guān)性。針對C2E(虛線紅色)和E2E(虛線藍色)顯示隨機配對基因之間的相關(guān)性柱狀圖。箭頭指向針對C2E (紅色)和E2E (藍色)相關(guān)性發(fā)現(xiàn)的正相關(guān)性富集。
圖2圖解將遺傳途徑圖變換成PARADIGM模型。PARADIGM方法的整體圖。PARADIGM 使用示意有功能基因組數(shù)據(jù)的途徑,以推斷可用于進一步下游分析的遺傳活性。A.利用基因的一組四個不同生物實體針對單一基因集成關(guān)于單一患者的數(shù)據(jù),其描述DNA拷貝、 mRNA和蛋白質(zhì)水平以及蛋白質(zhì)活性。B. PARADIGM模型各種類型的相互作用,包括靶的轉(zhuǎn)錄因子(上左)、聚集在復(fù)合體中的亞單位(上右)、翻譯后修飾(下左)和執(zhí)行冗余功能的家族中的基因集合(下右)。C.小亞途徑的玩具實例(Toy example),其包涉及P53、抑制劑MDM2和高水平的處理(high levelprocess)、凋亡,如在模型中所表示的。
圖3 圖解癌癥基因組圖集(Cancer Genome Atlas) (TCGA)項目(http:// cancergenome.nih.gov)多形性成膠質(zhì)細胞瘤(GMB)數(shù)據(jù)中示例性NCI途徑相互作用。對于所有(n=462)對,其中發(fā)現(xiàn)A是NCI-Nature途徑數(shù)據(jù)庫中基因B的上游活化因子,通過 TCGA GMB數(shù)據(jù)計算的皮爾森相關(guān)性(X-軸)以兩種不同的方式被計算。柱狀圖繪制A的拷貝數(shù)和B的表達之間(C2E,實心紅色)以及A的表達和B的表達之間(E2E,實心藍色) 的相關(guān)性。針對C2E (虛線紅色)和E2E (虛線藍色)顯示隨機配對基因之間相關(guān)性的柱狀圖。箭頭指向針對C2E(紅色)和E2E(藍色)相關(guān)性發(fā)現(xiàn)的正相關(guān)性富集。
圖4圖解抗調(diào)亡絲氨酸-蘇氨酸激酶I (AKTI)的示例性學(xué)習(xí)參數(shù)。在最大期望 (EM)算法的每一迭代顯示集成途徑活性(IPA)直到收斂(convergence)。點顯示置換樣本的IPA,和圈顯示真實樣本的IPA。紅線表示真實樣本中的平均IPA,和綠線表示空樣本中的平均(man) IPA。
圖5圖解利用PARADIGM和信號轉(zhuǎn)導(dǎo)途徑影響分析(SPIA)區(qū)分誘餌(decoy)與真實途徑。通過指定新基因名稱給途徑中的每一基因產(chǎn)生誘餌途徑。然后,用PARADIGM和 SPIA計算每一途徑的干擾。每一條線均顯示用于利用干擾排序區(qū)分真實與誘餌途徑的接受者-操作者(receiver-operator)特征。在乳癌中,例如對于PARADIGM和SPIA,曲線下的區(qū)域(AUCs)分別為O. 669和O. 602。在多形性成膠質(zhì)細胞瘤(GBM)中,AUC分別為O. 642 和 O. 604。
圖6針對由乳癌中的Akt介導(dǎo)的I類磷脂酰肌醇-3-激酶(PI3K)信號轉(zhuǎn)導(dǎo)事件圖解與置換內(nèi)的IPA相比的示例性患者樣本IPA。
生物實體通過患者樣本中的平均IPA分類(紅色),并與置換樣本的平均IPA比較。每一平均值周圍的著色區(qū)域表示每一集合的標準差(SD)。右邊的IPA包括AKTI、CHUK 和 MDM2。
圖7圖解ErbB2途徑的示例性CIRCLEMAP展示。對于每一個節(jié)點,雌激素受體 (ER)狀態(tài)、IPA、表達數(shù)據(jù)和拷貝數(shù)數(shù)據(jù)從最里面到最外面分別被顯示為同心圓。凋亡節(jié)點和ErbB2/ErbB3/神經(jīng)調(diào)節(jié)蛋白2復(fù)合節(jié)點僅具有ER狀態(tài)和IPA的圓,因為沒有直接觀察這些實體。每一患者的數(shù)據(jù)沿著從圓中心到邊緣的一個角被展示。
圖8圖解TCGA GBM的IPA的示例性聚簇。每一柱對應(yīng)于單一樣本,并且每一行對應(yīng)于生物分子實體。分級聚類樹下的彩色條表示用于圖9的聚簇。
圖9 圖解圖 8 聚族的 Kaplan-Meier 存活圖(survival plot)。
圖10圖解細胞系,其顯示對治療化合物的寬范圍的應(yīng)答。A.優(yōu)先應(yīng)答AKT抑制的腔和ERBB2AMP細胞系。每一條均代表單一乳癌細胞系對Sigma AKT 1_2抑制劑的應(yīng)答。細胞系通過增加靈敏度被排序(-Iogltl(GI5tl))并根據(jù)亞型進行著色。B.具有相似機制的化合物的GI50值高度相關(guān)。熱圖(Heatmap)顯示用各種化合物處理的乳癌細胞系的應(yīng)答之間相關(guān)性的分級聚類。C.具有相似作用方式的化合物顯示在一組細胞系中相似的應(yīng)答式樣。每一柱代表一個細胞系,每一行代表測試的化合物。GI50值被分級聚類。僅包括具有明顯亞型作用的化合物。相似亞型的細胞系趨于聚類在一起,表明它們響應(yīng)于相同的化合物?;疑砣笔?shù)據(jù)。D. CAN與靈敏性關(guān)聯(lián)??驁D顯示在標注的基因組位點具有異常(A)和正常(N)拷貝數(shù)的細胞系應(yīng)答靈敏性的分布。標注藥物反應(yīng)和CAN之間關(guān)聯(lián)的 FDR P 值。a. 9p21 (CDKN2A)缺失與對伊沙匹隆(ixabepilone)、長春瑞濱(vinerolbine) 和 fascaplysin 的應(yīng)答有關(guān)。b. 20ql3 (STK15/AURKA)擴增與 VX-680 和 GSK1070916 有關(guān)。 c.在llql3 (CCNDl)擴增與對卡鉬和GSK1070916的應(yīng)答有關(guān)。
圖11顯示細胞系和TCGA樣本的非冗余PARADIGM活性的熱圖。聚簇樹狀圖代表樣本之間的歐幾里得距離,其利用艾森聚簇(Eisen Cluster)產(chǎn)生并利用JavaTreeview繪制。樹狀圖下的彩色條代表樣本亞型(頂部)和樣本同齡組(底部)。
圖12圖解細胞系亞型具有獨特的網(wǎng)絡(luò)特征。在所有圖中,圖中的每一個節(jié)點代表不同的途徑“概念”,其或者對應(yīng)于蛋白質(zhì)(圓)、多聚體復(fù)合體(六角形)或者對應(yīng)于抽象細胞過程(方形)。按照與差別活性分數(shù)的比例繪制節(jié)點的大小,以便較大的節(jié)點對應(yīng)于活性與基底細胞系對比非基底細胞系更相關(guān)的途徑概念。顏色表示該概念是否與基底亞型正相關(guān)(紅色)或負相關(guān)(藍色)。連接代表不同的相互作用,包括蛋白質(zhì)-蛋白質(zhì)水平相互作用(虛線)和轉(zhuǎn)錄的相互作用(實線)。只有在它們相互連接差別活性的絕對水平高于平均絕對水平的概念時,相互作用才被包含在圖譜中。A. MYC/MAX和ERK1/2子網(wǎng)優(yōu)先在基底乳癌細胞系中被激活。B. CTTNBl網(wǎng)絡(luò)在密蛋白-低細胞系中被激活。C. F0XA1/F0XA2網(wǎng)絡(luò)在腔亞型中被上調(diào)。D. The ERBB2AMP亞型顯示對RPS6KB1途徑的下調(diào)。
圖13圖解途徑圖如何被用于預(yù)測對治療的應(yīng)答。A.上部圖?;兹榘┘毎祪?yōu)先應(yīng)答于DNA破壞劑(damaging agent)順鉬。下部圖?;准毎碉@示在與DNA破壞應(yīng)答相關(guān)的途徑中活性增強,提供順鉬借助于其在這些細胞系中發(fā)揮作用的可能機制。B.上部圖。ERBB2AMP細胞系對HSP90抑制劑格爾德霉素敏感。下部圖。ERBB2-HSP90網(wǎng)絡(luò)在 ERBBP2AMP細胞系中被上調(diào)。C.上部圖。ERBB2AMP細胞系抵抗極光激酶(aurora kinases) 抑制劑VX-680。下部圖。通過AURKB和CCNBl的共同調(diào)節(jié)可以介導(dǎo)抵抗。如在圖312中的約定(Convention)。
圖14圖解乳癌細胞系的示例性基因組和轉(zhuǎn)錄概況。A. 43個乳癌細胞系的DNA拷貝數(shù)異常通過I-軸上的GISTIC分析的Iogltl(FDR)和χ-軸上的染色體位置進行繪制。拷貝數(shù)增加以正Iogltl(FDR)顯示為紅色,和缺少以負Iogltl(FDR)顯示為綠色。B. 55個乳癌細胞系的分級一致聚類矩陣(Hierarchical concensus clustering matrix),其基于基因表達特征顯示3個聚簇(密蛋白-低、腔、基底)。對于每一細胞系組合,顏色密度與一致性成比例。
圖15圖解GI50計算可高度再現(xiàn)。A.每一條表示對重復(fù)的藥物/細胞系組合頻率的計數(shù)。大部分細胞系針對特定化合物僅測試一次,但一些藥物/細胞系組合被測試多次。 B.每一框圖代表具有3或4次重復(fù)的藥物/細胞系對的中值平均偏差的分布。
圖16顯示倍增時間(doubling time)在細胞系亞型中不同。A.乳癌細胞系亞型的生長速率——作為中值倍增時間以小時被計算——顯示為框圖。與腔和ERBB2AMP亞型相比,基底和密蛋白-低亞型具有較短的中值倍增時間,Kruskal-Wallis p值(p=0. 006)。B.ANCOVA模型顯示兩種亞型和生長速率對于對5' FU的應(yīng)答的強烈影響。腔(黑色)和基底/密蛋白-低(紅色)乳癌系均顯示與生長速率明顯相關(guān),但具有不同的斜率。
圖17顯示推斷的途徑活性在亞型內(nèi)比在同齡組內(nèi)更強烈相關(guān)。顯示的是相同亞型(紅色)的細胞系和TCGA樣本之間計算的由皮爾森相關(guān)性導(dǎo)出的t-統(tǒng)計數(shù)值 (t-statistic)與不同亞型(黑色)細胞系之間的皮爾森相關(guān)性的t-統(tǒng)計數(shù)值相比的柱狀圖。X-軸對應(yīng)于皮爾森相關(guān)性t-統(tǒng)計數(shù)值;y-軸顯示(細胞系,細胞系)或(細胞系, TCGA樣本)對的密度。K-S檢驗(P〈1X10_22)表明相同亞型的細胞系和TCGA樣本比其它亞型的細胞系更相似。
補充圖18-21圖解從超途徑鑒定的4個子網(wǎng)絡(luò)中每一個的示例性網(wǎng)絡(luò)結(jié)構(gòu)。
圖18圖解基底途徑標記的網(wǎng)絡(luò)圖。圖中每一個節(jié)點代表不同的途徑“概念”,其或者對應(yīng)于蛋白質(zhì)(圓)、多聚體復(fù)合體(六角形)或者對應(yīng)于抽象細胞過程(方形)。根據(jù)與差別活性分數(shù)的比例繪制節(jié)點的大小,以便較大的節(jié)點對應(yīng)于活性與基底細胞系對比非基底細胞系更相關(guān)的途徑概念。顏色表示該概念是否與基底亞型正相關(guān)(紅色)或負相關(guān) (藍色)。連接代表不同的相互作用,包括蛋白質(zhì)-蛋白質(zhì)水平相互作用(虛線)和轉(zhuǎn)錄的相互作用(實線)。只有在它們相互連接差別活性的絕對水平高于平均絕對水平的概念時, 相互作用才被包含在圖譜中。
圖19圖解密蛋白-低途徑標記的示例性網(wǎng)絡(luò)圖。如在圖18中的約定。
圖20圖解腔途徑標記的示例性網(wǎng)絡(luò)圖。如在圖18中的約定。
圖21圖解ERBB2AMP途徑標記的示例性網(wǎng)絡(luò)圖。如在圖18中的約定。
圖22圖解腔、密蛋白-低和基底細胞系中的示例性URKB-F0XM1-CCNB I網(wǎng)絡(luò)。 A.在腔細胞系中圍繞AURKB和FOXMl的網(wǎng)絡(luò)。CCNB I并不被明顯下調(diào),因而并不顯示在途徑圖譜上。B.在密蛋白-低細胞系中,AURKB和FOXMl均被上調(diào);CCNB I的活性不明顯。C.AURKB, FOXMl和CCNB I在基底細胞系中均被上調(diào)。如在圖18中的約定。
圖23圖解根據(jù)CAN、mRNA表達、DNA甲基化和miRNA表達的MicMa同齡組患者的無監(jiān)督聚簇和存活曲線的示例性分布。對于每一類型的基因組水平,從左到右繪制每一聚簇的大小,顯示存活曲線。通過兩種方法(見實施例)評估不同存活率的顯著性。
圖24圖解鑒定的PARADIGM聚簇和存活率的示例性分布。A.每一條代表每一聚簇的大小。B. MicMa數(shù)據(jù)集的PARADIGM IPL的熱圖。C.在映射(mapping)到Chin-Naderi-Caldas數(shù)據(jù)集之后,MicMa PARADIGM聚簇的存活率曲線。
圖25圖解每一數(shù)據(jù)集的PARADIGM IPL的示例性熱圖。每一行顯示所有三個同齡組中基因或復(fù)合體的IPL。頂部上著色的條顯示MicMa推導(dǎo)的PARADIGM聚簇,如在圖2中。 感興趣途徑的成員通過其途徑被標記。紅色代表激活的IPL,藍色代表失活的IPL。
圖26圖解FOXMl轉(zhuǎn)錄因子網(wǎng)絡(luò)。上部網(wǎng)絡(luò)圖概述來自聚簇pdgm. 3的數(shù)據(jù),而下部聚簇概述來自其它聚簇的數(shù)據(jù)。節(jié)點形狀表示在每一聚簇中最常被干擾的數(shù)據(jù)類型,和節(jié)點顏色表示干擾的方向。邊緣箭頭表示相互作用的符號,而顏色表示相互作用的類型。
圖27圖解p53調(diào)亡途徑的小片段的玩具實例。將NCI的途徑圖轉(zhuǎn)換成因子圖,其同時包括隱藏和觀察到的狀態(tài)。
圖28圖解推斷的途徑活性(IPA)的示例性熱圖。IPA代表被推斷為激活(紅色) 或失活(藍色)的分子實體的1598個推斷(行),該IPA針對316個患者腫瘤樣本(柱) 中的每一個被繪制。IPA通過途徑實體和腫瘤樣本被分級聚類,并且,右邊的標記顯示富含單個途徑實體的熱圖部分。彩色條圖例是以Iogltl計。
圖29概述所有樣本的FOXMl集成途徑活性(IPA)。腫瘤樣本中FOXMl轉(zhuǎn)錄因子網(wǎng)絡(luò)中每一實體的IPA的算術(shù)平均數(shù)顯示為紅色,其中,較深的紅色陰影指示兩個標準差?;揖€和陰影指示從1000個“零”樣本中推導(dǎo)的IPA的平均值和兩個標準差。
圖30顯示FOXMl的IPA與NCI途徑相互作用數(shù)據(jù)庫(Pathway InteractionDatabase)中其它測試的轉(zhuǎn)錄因子(TF)的那些IPA的比較。A. IPA的柱狀圖,其中非活性(零賦值)IPA被去除。FOXMl目標明顯比其它NCI TF更有活性(P〈10_267 ; Kolmogorov-Smirnov(KS)檢驗)。B.所有IPA——包括非活性IPA的柱狀圖。利用所有 IPA,以稍微高的顯著性(F〈10_3(l1 ;KS檢驗)說明相對于其它TF的FOXMl的活性。
圖31圖解與漿液性卵巢癌相比FOXMl不在法婁皮歐上皮細胞中表達。利用Tone 等(PMID:18593983)的數(shù)據(jù)將輸卵管中FOXMl的表達水平與其在漿液性卵巢癌中的表達水平進行比較。FOXMl的表達在輸卵管,包括在攜帶BRCA1/2突變的樣本中低得多,這表明在 TCGA漿液性卵巢癌中觀察到的F0XM1’提高的表達不僅僅是由于上皮特征。
圖32顯示在高級癌與低級癌中FOXMl轉(zhuǎn)錄因子網(wǎng)絡(luò)基因的表達。針對低級(I ;棕色框;26個樣本)和高級(II/III ;藍色框;296個樣本)卵巢癌,繪制FOXMl和9個選擇的 FOXMl目標(基于NCI-PID)的表達水平的圖。9個目標中的7個被顯示在高級癌中具有明顯高的FOXMl表達(學(xué)生t-檢驗;p值標注在框圖下面)。⑶KN2A也可以被差異表達,但具有臨界t-統(tǒng)計數(shù)值(P=O. 01)。XRCCl被檢測為被差異表達。
圖33顯示細胞系,其顯示對治療化合物的寬范圍的應(yīng)答。A.腔和ERBB2AMP細胞系優(yōu)先應(yīng)答AKT抑制。每一條均代表單一乳癌細胞系對Sigma AKT1-2抑制劑的應(yīng)答。通過增加靈敏性(-Iogici(GI5tl))排序細胞系,并根據(jù)亞型著色。B.具有相似機制的化合物的 GI50值高度相關(guān)。熱圖顯示用各種化合物處理的乳癌細胞系的應(yīng)答之間的相關(guān)性的分級聚類。C.在一組細胞系中,具有相似作用方式的化合物顯示相似的應(yīng)答式樣。每一柱代表一個細胞系,每一行代表測試的化合物。GI50值被分級聚類。僅包含具有明顯亞型作用的化合物。相似亞型的細胞系趨于聚類在一起,表明它們響應(yīng)于相同的化合物?;疑砣笔?shù)據(jù)。D. CAN與靈敏性相關(guān)??驁D顯示在標記的基因組位點具有異常(A)和正常(N)拷貝數(shù)的細胞系的應(yīng)答靈敏性的分布。標注藥物反應(yīng)和CNA之間關(guān)聯(lián)的FDR P值。a. 9p21 (⑶KN2A)缺失與對伊沙匹隆、長春瑞濱和fascaplysin的應(yīng)答有關(guān)。b. 20ql3 (STK15/AURKA)擴增與 VX-680和GSK1070916有關(guān)。c.在llql3 (CCNDl)的擴增與對卡鉬和GSK1070916的應(yīng)答有關(guān)。
圖34。A.細胞系和TCGA樣本的非冗余PARADIGM活性的熱圖。聚簇樹狀圖代表樣本之間的歐幾里得距離,其利用艾森聚簇產(chǎn)生,并利用Java Treeview繪制。樹狀圖下面著色的條代表樣本亞型(頂部)和樣本同齡組(底部)。
圖35顯示細胞系亞型具有獨特的網(wǎng)絡(luò)特征。在所有圖中,圖中的每一個節(jié)點均代表不同的途徑“概念”,其或者對應(yīng)于蛋白(圓)、多聚復(fù)合體(六角形)或者對應(yīng)于抽象細胞過程(方形)。根據(jù)與差別活性分數(shù)的比例繪制節(jié)點的大小,以便較大的節(jié)點對應(yīng)于活性與基底細胞系對比非基底細胞系更相關(guān)的途徑概念。顏色表示該概念是否與基底亞型正相關(guān)(紅色)或負相關(guān)(藍色)。連接代表不同的相互作用,包括蛋白質(zhì)-蛋白質(zhì)水平相互作用(虛線)和轉(zhuǎn)錄的相互作用(實線)。只有在它們相互連接差別活性的絕對水平高于平均絕對水平的概念時,相互作用才被包含在圖譜中。A. MYC/MAX和ERK1/2子網(wǎng)在基底乳癌細胞系中被優(yōu)先激活。B. CTTNBl網(wǎng)絡(luò)在密蛋白-低細胞系中被激活。C. F0XA1/F0XA2網(wǎng)絡(luò)在腔亞型中被上調(diào)。D. TheERBB2AMP亞型顯示對RPS6KB1途徑的下調(diào)。
圖36顯示途徑圖可用于預(yù)測對治療的應(yīng)答。A.上部圖?;兹榘┘毎祪?yōu)先應(yīng)答DNA破壞劑順鉬。下部圖?;准毎碉@示在與DNA破壞應(yīng)答相關(guān)的途徑中活性增強, 這提供順鉬借助于其在這些細胞系中發(fā)揮作用的可能機制。B.上部圖。ERBB2AMP細胞系對 HSP90抑制劑格爾德霉素敏感。下部圖。ERBB2-HSP90網(wǎng)絡(luò)在ERBBP2AMP細胞系中被上調(diào)。C.上部圖。ERBB2AMP細胞系抵抗極光激酶抑制劑VX-680。下部圖。通過AURKB和CCNBl 的共同調(diào)節(jié)可以介導(dǎo)抵抗。如在圖36中的約定。
圖37圖解基因組拷貝數(shù)異常。(a)489個HGS-OvCa的拷貝數(shù)概況,與197個多形性成膠質(zhì)細胞瘤(GBM)腫瘤46的概況比較??截悢?shù)增加(紅色)和減少(藍色)被繪制為沿正常基因組的函數(shù),(b)顯著的、集中擴增的(紅色)和刪除的(藍色)區(qū)域沿著基因組被繪制。注釋包括20個最顯著擴增的和刪除的區(qū)域、具有8個或更少基因的適當定位的區(qū)域和具有已知癌基因或通過全基因組功能缺失篩選鑒定的基因的區(qū)域。每一區(qū)域中包含的基因數(shù)目在括號中示出。(c)顯著擴增的(紅色)和刪除的(藍色)染色體臂。
圖38圖解分子亞型的基因和miRNA表達圖譜以及HGS-OvCa中的結(jié)果預(yù)測。(a) 來自TCGA和Tothill等的腫瘤根據(jù)基因表達分成四個聚簇。(b)利用訓(xùn)練(training) 數(shù)據(jù)集,限定前兆基因特征并應(yīng)用于測試數(shù)據(jù)集。(c)對四個獨立表達概況數(shù)據(jù)集的 Kaplan-Meier分析,比較預(yù)測的較高風(fēng)險對比較低風(fēng)險患者的存活率。包括風(fēng)險指數(shù)的單變量Cox P-值。(d)根據(jù)miRNA表達將腫瘤分成三個聚簇,與所指出的基于基因的聚簇重疊。(e)三個基于miRNA的聚簇之中患者存活率的差異。
圖39圖解HGS-OvCa中改變的途徑。(a)通過策劃的分析鑒定的RB和PI3KRAS途徑,和(b)通過HotNet分析鑒定的NOTCH途徑通常被改變。通過體細胞突變、DNA拷貝數(shù)變化定義變化,或在一些情況下,通過與在二倍體腫瘤中的表達相比明顯的上調(diào)或下調(diào)來定義變化。變化頻率以所有情況下的百分比計;激活的基因是紅色的,失活的基因為藍色。 (C)HR途徑中的基因在高達49%的例子中被改變。針對BRCA突變例子(顯示較好的總存活率)的BRCA狀況的存活分析顯示與BRCA野生型不同的結(jié)果,并且BRCAl表觀遺傳沉默2的例子顯示較差的存活率。(d)在87%的例子中,F(xiàn)OXMl轉(zhuǎn)錄因子網(wǎng)絡(luò)被激活。每一基因被描述為多環(huán)圈,其中其拷貝數(shù)(外環(huán))和基因表達(內(nèi)環(huán))被繪制,以便環(huán)中的每一“輻條 (spoke) ”均代表單一的患者樣本,其中樣本以FOXMl表達的遞增順序分類。刺激性(紅色箭頭)和抑制性相互作用(藍色線)取自NCI途徑相互作用數(shù)據(jù)庫。虛線指示轉(zhuǎn)錄調(diào)節(jié)。
發(fā)明詳述
本文件中公開的實施方式是說明性和示例性的,而并不意圖限制本發(fā)明??梢允褂闷渌鼘嵤┓绞?,并且可以進行結(jié)構(gòu)變化而不背離本發(fā)明權(quán)利要求書的范圍。
如本文和所附權(quán)利要求書中所使用的,單數(shù)形式“一(a,an)”和“該(the)”包括復(fù)數(shù)指代,除非上下文另有明確說明。因此,例如提及“一個miRNA”包括多個這樣的miRNA 和提及“一種藥物載體”是指一種或多種藥物載體及其等同物等等。
如本文所使用的,術(shù)語“策劃的”意為利用本領(lǐng)域中悉知的方法諸如分子生物學(xué)、 生物化學(xué)、生理學(xué)、解剖學(xué)、基因組學(xué)、轉(zhuǎn)錄物組學(xué)、蛋白質(zhì)組學(xué)、代謝物組學(xué)、ADME和生物信息技術(shù)等等,根據(jù)科學(xué)和/或臨床原理檢測、分析和鑒定的一組生物分子和/或非生物分子之間的關(guān)系。該關(guān)系可以是生物化學(xué)關(guān)系諸如生物化學(xué)途徑、遺傳途徑、代謝途徑、基因調(diào)節(jié)途徑、基因轉(zhuǎn)錄途徑、基因翻譯途徑、miRNA-調(diào)節(jié)的途徑、假基因調(diào)節(jié)的途徑等等。
高通量數(shù)據(jù)為癌癥組織中的分子變化提供全面的見解。新的技術(shù)允許對腫瘤樣本和癌細胞系同時進行基因組拷貝數(shù)變化狀態(tài)、基因表達、DNA甲基化和外因遺傳學(xué)的全基因組分析。
針對一系列的腫瘤,在不久的將來計劃進行研究諸如癌癥基因組圖譜(TheCancer Genome Atlas) (TCGA)、站起來對抗癌癥(Stand Up To Cancer) (SU2C)和許多更多的研究。 對當前數(shù)據(jù)集的分析發(fā)現(xiàn)患者之間的遺傳變化可以不同,但常常涉及共同的途徑。因此,鑒定癌癥發(fā)展中涉及的相關(guān)途徑并檢測它們在不同的患者中如何發(fā)生改變是關(guān)鍵的。
我們提出一種新的方法,用于結(jié)合基因之中策劃的途徑相互作用推測患者特異性的遺傳活性。基因通過因子圖被模仿,作為編碼基因及其產(chǎn)物的表達和已知活性的一組相互聯(lián)系的變量,允許結(jié)合許多類型的omic數(shù)據(jù)作為證據(jù)。
該方法利用概率推理預(yù)測途徑的活性(例如,基因內(nèi)狀態(tài)、相互作用或高水平“輸出信息”)在患者中被改變的程度。與競爭途徑活性推斷方法——稱為SPIA——相比,我們的方法以——但不限于——多形性成膠質(zhì)細胞瘤(GBM)和乳癌數(shù)據(jù)集中較少的假陽性鑒定癌癥相關(guān)途徑中改變的活性。
利用關(guān)于基因組模型(PARADIGM)的數(shù)據(jù)集成的途徑識別算法鑒定當認為基因處于隔離時而忽略的GBM患者子集的一致的途徑-水平活性。此外,利用算法,根據(jù)其明顯的途徑干擾而使GBM患者分組將它們分成臨床上相關(guān)的亞組,其具有明顯不同的存活結(jié)果。
這些發(fā)現(xiàn)表明,可以選擇治療方法,其可靶向一組患者或個體的共同被干擾的途徑(一個或多個)中關(guān)鍵點處的基因。
我們描述了基于因子圖的概率圖模型(PGM)框架(Kschischang:2001,同上),其可以集成任何數(shù)目的基因組和功能基因組數(shù)據(jù)集,以推斷在患者樣本中改變的分子途徑。 我們針對惡性膠質(zhì)瘤和乳癌數(shù)據(jù)集,利用拷貝數(shù)變化和基因表達數(shù)據(jù)檢測模型。利用構(gòu)成的途徑模型推斷的活性成功地將惡性膠質(zhì)瘤患者分成臨床上相關(guān)的亞型。結(jié)果表明,途徑-報告的推斷(informed inference)比利用孤立的基因水平數(shù)據(jù)更有教益。
除了提供較好的前兆和診斷之外,集成的途徑激活作用還提供關(guān)于可用于消除疾病發(fā)展的可能治療方法的重要線索。
我們發(fā)展了一種稱作PARADIGM(利用關(guān)于基因組模型的數(shù)據(jù)集成的途徑識別算法)的方法,以從集成的患者數(shù)據(jù)中推斷遺傳途徑的活性。圖I圖解方法的整體圖。 對單一患者樣本的多種基因組范圍的測量結(jié)果被組合,以推斷單一美國國家癌癥研究所(National Cancer Institute) (NCI)途徑的基因活性、產(chǎn)物和抽象過程(abstract process)輸入和輸出信息。PARADIGM產(chǎn)生集成途徑活性(IPA)的矩陣A,其中Aij代表患者樣本j中實體i的推測的活性。矩陣A可用于替代原始構(gòu)成數(shù)據(jù)集,以鑒定與臨床結(jié)果的關(guān)系。
我們首先將每一 NCI途徑轉(zhuǎn)換成不同的概率模型。p53調(diào)亡途徑的小片段的玩具實例顯示在圖2(c)中。將NCI的途徑圖轉(zhuǎn)換成因子圖,其同時包括隱藏的和觀察的狀態(tài) (圖2)。因子圖結(jié)合針對基因-和生物過程-相關(guān)的狀態(tài)信息的觀察結(jié)果與描述實體之中已知相互作用的結(jié)構(gòu)。
為了用因子圖表示生物學(xué)途徑,我們使用變量來描述細胞中實體的狀態(tài),諸如特定的mRNA或復(fù)合體,并利用因子來代表這些實體之間的相互作用和信息流。這些變量代表與“對照”或正常水平而不是分子實體的直接濃度相比每一實體的差別狀態(tài)。該表示允許我們模擬許多高通量數(shù)據(jù)集,諸如通過DNA微陣列檢測的基因表達,所述DNA微陣列常常或者直接測量基因的差別狀態(tài)或者將直接測量結(jié)果轉(zhuǎn)換成相對于匹配的對照的測量結(jié)果。它也允許基因之中許多類型的調(diào)節(jié)關(guān)系。例如,描述介導(dǎo)P53的泛素-依賴性降解的MDM2的相互作用被模仿,作為抑制P53蛋白質(zhì)水平的激活的MDM2。
在一個實施方式中,該方法可用于提供可用于各種診斷和治療應(yīng)用的臨床信息, 所述診斷和治療應(yīng)用諸如檢測癌組織、分期癌組織、檢測轉(zhuǎn)移性組織和類似應(yīng)用;檢測神經(jīng)障礙諸如但不限于阿爾茨海默病、肌萎縮性側(cè)索硬化癥(ALS)、帕金森氏病、精神分裂癥、癲癇及其并發(fā)癥;發(fā)育障礙諸如迪喬治氏綜合征、孤獨癥、自身免疫病癥諸如多發(fā)性硬化癥、 糖尿病和類似病癥;治療感染諸如但不限于病毒感染、細菌感染、真菌感染、利什曼原蟲、血吸蟲病、瘧疾、絳蟲、象皮病、由線蟲、nematine引起的感染和類似感染。
在一個實施方式中,該方法可用于提供臨床信息,以檢測和量化改變的基因表達、 mRNA的不存在/存在對比過量表達,或在治療性干預(yù)過程中監(jiān)測mRNA水平。與改變的表達有關(guān)的狀況、疾病或病癥包括獲得性免疫缺陷綜合征(AIDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生、支氣管炎、切-東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、 骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、 硬皮病、嚴重聯(lián)合免疫缺陷病(SCID)、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、 全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、眼色素層炎、維爾納綜合征、癌癥、血液透析和體外循環(huán)并發(fā)癥、病毒、細菌、真菌、寄生蟲、原生動物和蠕蟲感染;和,腺癌、白血病、 淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺、膀胱、骨、骨髓、腦、乳房、子宮頸、膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、 脾臟、睪丸、胸腺、甲狀腺和子宮的癌癥。診斷分析可使用雜交或擴增技術(shù),來比較在來自患者的生物樣本中的基因表達與標準樣本的基因表達,以檢測改變的基因表達。用于這種比較的定性或定量方法在本領(lǐng)域中是悉知的。
在一個實施方式中,該方法可用于提供臨床信息,以檢測和量化改變的基因表達; mRNA的不存在、存在或過量表達;或在治療性干預(yù)過程中監(jiān)測mRNA水平。與改變的表達有關(guān)的病癥包括靜坐不能癥、阿爾茨海默病、健忘癥、肌萎縮性側(cè)索硬化癥(ALS)、共濟失調(diào)、 雙相性抑郁癥、緊張癥、大腦性麻痹、腦血管疾病克-雅二氏病、癡呆、抑郁癥、唐氏綜合征、 遲發(fā)性運動障礙、張力障礙、癲癇、杭廷頓氏病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森氏病、皮克氏病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情感障礙、老年性癡呆、中風(fēng)、德拉圖雷特綜合征和癌癥,包括腺癌、黑素瘤和畸胎癌,尤其是腦癌。
在一個實施方式中,該方法可用于針對與改變的哺乳動物蛋白質(zhì)的表達或活性有關(guān)的狀況提供臨床信息。這種狀況的實例包括但不限于獲得性免疫缺陷綜合征(AIDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生、支氣管炎、切-東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、 橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、嚴重聯(lián)合免疫缺陷病(SCID)、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、眼色素層炎、維爾納綜合征、癌癥、血液透析和體外循環(huán)并發(fā)癥、病毒、細菌、真菌、寄生蟲、原生動物和蠕蟲感染;和,腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺、膀胱、骨、 骨髓、腦、乳房、子宮頸、膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、脾臟、睪丸、胸腺、甲狀腺和子宮的癌癥、靜坐不能癥、阿爾茨海默病、健忘癥、肌萎縮性側(cè)索硬化癥、共濟失調(diào)、雙相性抑郁癥、緊張癥、大腦性麻痹、腦血管疾病克-雅二氏病、癡呆、抑郁癥、唐氏綜合征、遲發(fā)性運動障礙、張力障礙、癲癇、杭廷頓氏病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森氏病、皮克氏病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情感障礙、老年性癡呆、中風(fēng)、德拉圖雷特綜合征和癌癥, 包括腺癌、黑素瘤和畸胎癌,尤其是腦癌。
在一個實施方式中,本文公開的方法可用于檢測、分期、診斷和/或治療與核酸序列降低的表達或活性有關(guān)的病癥。這種病癥的實例包括但不限于癌癥諸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺、膀胱、骨、骨髓、腦、乳房、子宮頸、膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、脾臟、睪丸、胸腺、甲狀腺和子宮的癌癥;免疫病癥諸如獲得性免疫缺陷綜合征(AIDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、發(fā)作性淋巴細胞減少伴淋巴細胞毒性因子、胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、眼色素層炎、維爾納綜合征、癌癥、血液透析和體外循環(huán)并發(fā)癥、 病毒、細菌、真菌、寄生蟲、原生動物和蠕蟲感染、創(chuàng)傷、X連鎖布魯頓無丙種球蛋白血癥、普通可變性免疫缺陷(CVI)、迪喬治氏綜合征(胸腺發(fā)育不全)、胸腺發(fā)育不全、單一性IgA 缺乏癥、嚴重聯(lián)合免疫缺陷病(SCID)、免疫缺陷伴隨血小板減少和濕疹(威斯科特-奧爾德里奇綜合征)、切-東二氏綜合征、慢性肉芽腫性疾病、遺傳性血管神經(jīng)性水腫和與庫興病有關(guān)的免疫缺陷;和,發(fā)育障礙諸如腎小管性酸中毒、貧血、庫興綜合征、軟骨發(fā)育不全性侏儒、杜興和貝克爾肌肉萎縮癥、癲癇、性腺發(fā)育不全、WAGR綜合征(維爾姆斯氏腫瘤、無虹膜、生殖泌尿異常和智力遲鈍)、史-馬二氏綜合征、骨髓增生異常綜合征、遺傳性粘膜上皮發(fā)育不良、遺傳性皮膚角化病、遺傳性神經(jīng)病諸如夏-馬-圖三氏病和神經(jīng)纖維瘤、甲狀腺功能減退、腦積水、癲癇病癥諸如西登哈姆氏舞蹈病和大腦性麻痹、脊柱裂、無腦畸形、顱脊柱裂、先天性青光眼、白內(nèi)障、感覺神經(jīng)性耳聾和與細胞生長和分化有關(guān)的任何病癥、胚胎發(fā)生和涉及對象的任何組織、器官或系統(tǒng),例如腦、腎上腺、腎、骨骼或生殖系統(tǒng)的形態(tài)發(fā)生。
在一個實施方式中,本文公開的方法可用于檢測、分期、診斷和/或治療與核酸序列的表達有關(guān)的病癥。這種病癥的實例包括但不限于內(nèi)分泌性病癥諸如與腦下垂體機能減退有關(guān)的病癥,包括性腺功能減退癥、席漢氏綜合征、尿崩癥、卡爾曼病、漢-許-克三氏病、累-賽二氏病、肉樣瘤病、空泡蝶鞍綜合征和侏儒癥;垂體功能亢進,包括肢端巨大癥、 巨人癥和不適當?shù)目估蚣に?ADH)分泌綜合征(SIADH);和,與甲狀腺功能減退有關(guān)的病癥,包括甲狀腺腫、粘液性水腫、與細菌感染有關(guān)的急性甲狀腺炎、與病毒感染有關(guān)的亞急性甲狀腺炎、自身免疫性甲狀腺炎(橋本氏病)和呆小??;與甲狀腺功能亢進有關(guān)的病癥, 包括甲狀腺毒癥及其各種形式、格雷夫斯病、脛骨前粘液水腫、毒性多節(jié)性甲狀腺腫、甲狀腺癌和普魯麥綜合征;和,與甲狀旁腺功能亢進有關(guān)的病癥,包括Conn病(慢性高鈣血綜合征);呼吸病癥諸如變態(tài)反應(yīng)、哮喘、急性和慢性炎性肺疾病、ARDS、氣腫、肺充血和水腫、 C0PD、間質(zhì)性肺病和肺癌;癌癥諸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌, 和具體地,腎上腺、膀胱、骨、骨髓、腦、乳房、子宮頸、膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、 肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、脾臟、睪丸、胸腺、甲狀腺和子宮的癌癥;和,免疫學(xué)病癥諸如獲得性免疫缺陷綜合征(AIDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、 糖尿病、氣腫、發(fā)作性淋巴細胞減少伴淋巴細胞毒性因子、胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、 眼色素層炎、維爾納綜合征、癌癥、血液透析和體外循環(huán)并發(fā)癥、病毒、細菌、真菌、寄生蟲、 原生動物和蠕蟲感染和創(chuàng)傷。多核苷酸序列可用于DNA或RNA分析、斑點印記或其它基于膜的技術(shù);用于PCR技術(shù)中;用于試紙(dipstick)、插銷(pin)和ELISA分析;和用于微陣列,其利用來自患者的液體或組織來檢測改變的核酸序列表達。這種定性或定量方法在本領(lǐng)域中是悉知的。
本發(fā)明的表征和最佳方式
PARADIGM :利用PARADIGM,從多維癌基因組數(shù)據(jù)推斷患者特異性途徑活性。
基于途徑方法的一個假設(shè)是在途徑數(shù)據(jù)庫中發(fā)現(xiàn)的遺傳相互作用攜帶用于解釋癌癥中檢測的基因表達變化之間的相關(guān)性的信息。例如,如果癌癥相關(guān)途徑包括轉(zhuǎn)錄活化因子A與目標基因T的連接,我們期望A的表達與T的表達正相關(guān)(E2E相關(guān))。類似地, 我們也期望A的拷貝數(shù)和T的表達之間的正相關(guān)(C2E相關(guān))。此外,我們期望C2E相關(guān)性比E2E相關(guān)性更弱,因為A中的擴增并不一定意味著A以高水平被表達,這反過來對于上調(diào) B是必需的。以這種方式,途徑中的每一連接提供關(guān)于數(shù)據(jù)的預(yù)期;具有許多一致連接的途徑對于進一步的考慮可能是有意義的。我們測試這些假設(shè),發(fā)現(xiàn)NCI途徑包含許多預(yù)測最近的 TCGA GBM 數(shù)據(jù)的相互作用(The TCGA research network 2008)。
我們已經(jīng)發(fā)展了一種稱為PARADIGM(利用關(guān)于基因組模型的數(shù)據(jù)集成的途徑識別算法)的方法,以從集成的患者數(shù)據(jù)中推斷遺傳途徑的活性。
PARADIGM方法結(jié)合各種高通量基因組學(xué)信息與已知的信號轉(zhuǎn)導(dǎo)途徑,以提供關(guān)于基因活性的狀態(tài)、復(fù)合體和細胞過程的患者特異性基因組學(xué)推斷。該方法的核心是使用因子圖來調(diào)整(leverage)推斷,以組合各種數(shù)據(jù)源。將這種推斷取代或結(jié)合原始高通量數(shù)據(jù)集使用提高我們將樣本分類成臨床上相關(guān)亞型的能力。根據(jù)PARADIGM-集成的活性聚類 GBM患者揭示與不同存活概況相關(guān)的患者亞型。相反地,利用表達數(shù)據(jù)或拷貝數(shù)數(shù)據(jù)聚類樣本并不揭示數(shù)據(jù)集中任何顯著的聚簇。
PARADIGM產(chǎn)生對GBM和乳癌腫瘤樣本中明顯改變的基因活性的途徑推斷。與競爭途徑活性推斷方法——稱為SPIA——相比,我們的方法以較少的假陽性鑒定癌癥相關(guān)途徑中改變的活性。為了計算效率,PARADIGM當前使用現(xiàn)在的NCI途徑。
雖然它利用EM推測隱藏量,但它不嘗試推斷尚未存在于NCI途徑中的新相互作用??梢栽O(shè)想擴展該方法,以引進增加似然函數(shù)的新的相互作用。雖然該問題通常是難處理的,但啟發(fā)式方法諸如結(jié)構(gòu)EM(Friedman(1997),同上)可利用計算搜索策略用于鑒定相互作用。
可以通過提出推導(dǎo)自蛋白質(zhì)-蛋白質(zhì)相互作用圖譜的相互作用或相當數(shù)目的表達數(shù)據(jù)集中相關(guān)的基因?qū)盹@著加速搜索,而不是重新搜索新的聯(lián)系(connection)?;谕緩降姆椒ǖ哪芰κ撬梢蕴峁╆P(guān)于解釋觀察存活率中差異的可能機制的線索。有教益的 IPA對于建議治療目標或選擇最合適的患者來進行臨床試驗可能是有用的。例如,ErbB2擴增是悉知的特性形式的乳癌的標記,該乳癌可由藥物曲妥珠單抗治療。然而,具有ErbB2擴增的一些患者具有難以治療的腫瘤。觀察CircleMap顯示可以鑒定具有ErbB2擴增的、但其有由PARADIGM推斷的失活的或未改變的IPA的患者。具有ErbB2擴增而不具有預(yù)測活性的患者可以考慮進行另外的治療。
隨著將來可以利用更多的多維數(shù)據(jù)集,檢測這樣的途徑推斷是否提供普及整個同齡組的有力的生物標記將是有趣的。
乳癌中對抗癌化合物的亞型和途徑特異性應(yīng)答
800種以上的小分子抑制劑和生物正在被開發(fā),用于治療人惡性腫瘤 (NewMedicines Database | PHRMA. http://neMneds. phrma. org/ (2010))。許多這些劑革巴向被認為區(qū)分腫瘤和正常細胞的分子特征,并且,其范圍從廣義的特異性常規(guī)治療劑,包括抗-代謝物和DNA交聯(lián)劑諸如曲妥珠單抗和拉帕替尼(Iapatinib),其選擇性地祀向分子事件(event)和在癌癥子集中被下調(diào)的途徑(見例如,Slamon,D. J.等.Use of chemotherapy plus a monoclonal antibody against HER2 for metastatic breastcancer that overexpresses HER2. N Engl J Med 344,783-792 (2001) ;Vogel, C. L.等.Efficacy and safety of trastuzumab as a single agent in first-line treatment ofHER2-overexpressing metastatic breast cancer. J Clin 0ncol20,719-726 (2002); Rusnakj D.W.等.The effects of the novel,reversible epidermal growth factorreceptor/ErbB-2tyrosine kinase inhibitor, GW2016, on the growth of human normaland tumor-derived cell lines in vitro and in vivo. Mol Cancer Ther 1,85-94 (2001))o Effects of chemotherapy and hormonal therapy for early breast cancer on recurrence andl5-year survival: an overview ofthe randomised trials. Lancet 365,1687-1717(2005)。
現(xiàn)在,藥物開發(fā)的一般趨勢正向顯示比常規(guī)劑功效提高和較低毒性的靶向劑轉(zhuǎn)移(Sawyers,C. Targeted cancer therapy. Nature 432,294-297 (2004))。一些藥物諸如 ERBB2/EGFR抑制劑拉帕替尼顯示高的靶向特異性,而其它藥物諸如SRC抑制劑達沙替尼 (dasatinib)抑制大范圍的激酶(Karaman,M. W.等 A quantitative analysisof kinase inhibitor selectivity. Nat Biotechnol 26,127-132 (2008))
現(xiàn)在不斷認識到臨床試驗必需包括應(yīng)答預(yù)測器并將參與試驗的患者分成不同的等級。雖然許多分子靶向的治療劑提供明顯的分子特征,根據(jù)該分子特征將患者分成不同的等級,但大部分分子并不這樣作。此外,腫瘤之間的分子和生物學(xué)差異、復(fù)雜的交叉結(jié)合 (cross-coupling)和對祀向途徑的反饋調(diào)節(jié)以及不精確的祀向特異性常常使基本的機械預(yù)測變得復(fù)雜。雖然在基于分子標記的臨床試驗過程中可以鑒定響應(yīng)子集,但該方法在邏輯上有困難、昂貴并且不允許試驗化合物在選擇的、最可能應(yīng)答的亞群中進行初始測試。事實上,現(xiàn)在正在開發(fā)的大部分藥物將不再在乳癌中被測試,所以僅在患有乳癌的患者亞群中非常有效的化合物被錯過的概率比較高。一種有前景的方法是應(yīng)用源自臨床前模型的應(yīng)答預(yù)測器將參與臨床試驗的患者分成不同的等級,這會降低開發(fā)成本并鑒定在患者子集中可能特別有效的那些藥物。
在一組細胞系中進行的臨床前測試有希望允許及早和有效鑒定應(yīng)答分子亞型,作為早期臨床試驗的指導(dǎo)。該方法有用性的證據(jù)來自這樣的研究,該研究顯示細胞系組預(yù)測 (a)具有響應(yīng)吉非替尼(gefitinib)的EGFR突變的肺癌(Paez,J. G.等· EGFR mutations in lung cancer:correlation with clinical response to gefitinib therapy. Science 304,1497-1500(2004)),(b)具有作為對曲妥珠單抗和/或拉帕替尼響應(yīng)的HER2/ERBB2 擴增的乳癌(Neve,R. M.等.A collection of breast cancer cell lines forthe study of functionally distinct cancer subtypes. Cancer Cell 10,515-527 (2006); Konecny, G. E.等.Activity of the dual kinase inhibitor lapatinib(GW572016) againstHER-2-overexpressing and trastuzumab-treated breast cancer cells.Cancer Res 66,1630-1639 (2006)),和(c)具有突變或擴增的BCR-ABL作為對甲磺酸伊馬替尼的抵抗的腫瘤(Scappini, B.等· Changes associated with the development of resistance toimatinib (STI571)in two leukemia cell lines expressing p210Bcr/ Abl protein. Cancer 100,1459-1471 (2004))。NCI 的發(fā)現(xiàn)治療計劃(NCI' s Discovery Therapeutic Program)已經(jīng)大規(guī)模地實行該方法,在總計大約60個癌細胞系中鑒定分子特征和對>100,000種化合物的應(yīng)答之間的聯(lián)系(Weinstein, J. N. Spotlight on molecul arprofiling:" Integromic;/ analysis of the NCI_60cancer cell lines. Mol Cancer Ther 5, 2601-2605(2006) ;Bussey,K. J.等· Integrating data on DNA copy number with geneexpression levels and drug sensitivities in the NCI_60cell line panel. Mol Cancer Ther5, 853-867 (2006))。盡管對于檢測具有各種應(yīng)答的化合物有用,但有證據(jù)表明 NCI60組在檢測亞型特異性應(yīng)答中能力有限,這是由于在集合中對特定癌癥亞型的表示相對稀少。例如,集合僅攜帶6個乳癌細胞系,這不足以充分表示已知的異質(zhì)性。我們因此促進約50個乳癌細胞系的集合的應(yīng)用,以在統(tǒng)計學(xué)上更有力地鑒定乳癌中體外治療化合物應(yīng)答和分子亞型以及激活的信號轉(zhuǎn)導(dǎo)途徑之間的聯(lián)系。在本文中我們針對77種化合物報道對定量生長抑制應(yīng)答和限定亞型的分子特征以及激活的途徑之間的聯(lián)系的評估,所述77 種化合物包括FDA批準的藥物和研究化合物。大約一半顯示異?;騺喰吞禺愋?。我們還通過對基因表達和拷貝數(shù)數(shù)據(jù)的集成分析顯示,一些觀察到的亞型-有關(guān)的應(yīng)答可以通過特定途徑活性進行解釋。
集成分子概況揭示原位管癌中被曲解的(Distorted)白細胞介素信號轉(zhuǎn)導(dǎo)和浸潤性乳癌中提高的預(yù)后能力
各種水平的腫瘤高通量分子概況的積累在世界范圍內(nèi)是一個長期且高成本的過程。在各種水平對基因調(diào)節(jié)的組合分析可以表明特定的生物學(xué)功能和在多種上皮癌中被下調(diào)的分子途徑,并揭示新的患者亞群,用于定制療法和監(jiān)測。我們已經(jīng)從大約110個乳癌患者(還被稱為MicMa數(shù)據(jù)集)中在若干分子水平收集了高通量數(shù)據(jù),該數(shù)據(jù)源自來自原發(fā)性腫瘤、匹配的血液和具有已知微轉(zhuǎn)移狀況的新冰凍的樣本。這些患者是900個以上乳癌病例的同齡組中的一部分,具有關(guān)于擴散腫瘤細胞(DTC)的存在、對復(fù)發(fā)和總存活率的長期隨訪的信息。MicMa集已經(jīng)被用于全基因組mRNA表達的平行試驗研究中 (Naume, B.等,(2007), Presence of bonemarrow micrometastasis is associated with different recurrence risk within molecularsubtypes ofbreast cancer, 1:160-17)、 微陣列-比較基因組雜交(arrayCGH) (Russnes, H. G.等,(2010),Genomic architecture characterizes tumor progression paths and fate inbreast cancer patients, 2:38ra472)、DNA 甲基化(Ronneberg, J. A.等,(2011),Methylation profiling with a panel of cancer related genes: association with estrogenreceptor, TP53 mutation status and expression subtypes in sporadic breast cancer, 5:61-76)、全基因組 SNP 和 SNP-CGH(Van, Loo P.等,(2010),Allele-specific copynumber analysis of tumors, 107:16910-169154)、全基因組miRNA表達分析(Enerly E, Steinfeld I, Kleivi K, Leivonen S,Aure MR, Russnes HG, Renneberg JA, Johnsen H, Navon R, Redland E, Makela R, Naume B, Perala M, Kallioniemi 0, Kristensen VN, Yakhini Z, B0rresen-Dale A. miRNA-mRNA integrated analysis reveals roles formiRNAs in primary breasttumors. PLoS ONE 2011; 6 (2) : el6915)。TP53突變狀態(tài)依賴性途徑和高通量配對末端測序 (Stephens, P. J.等,(2009), Complex landscapes ofsomatic rearrangement in human breast cancer genomes, 462:1005-1010)。這是由單個實驗室進行的對乳房原發(fā)性腫瘤的相同集合的高通量分子數(shù)據(jù)全面收集。
下面我們概述這些研究的發(fā)現(xiàn),其中的每一個研究均試圖結(jié)合mRNA表達與DNA拷貝數(shù)、DNA甲基化中的下調(diào)或miRNA表達。雖然過去我們和其它人已經(jīng)看到多種分子水平上的乳癌機制,但很少試圖通過模擬途徑背景下的mRNA、CAN、miRNA和甲基化來結(jié)合這些觀點。在本文中,我們已經(jīng)分析了來自乳癌的這種數(shù)據(jù),同時檢測干擾的途徑和具有不同表型特征的分子亞型。
在本文所述的MicMa數(shù)據(jù)集中,我們已經(jīng)根據(jù)甲基化概況鑒定了三個較大的聚簇 (和一個較小的),較大的聚簇之一主要由肌上皮起源的腫瘤組成,而另外兩個具有主要腔上皮起源的腫瘤。關(guān)于TP53突變和ER和ErbB2表達狀況以及等級,聚簇是不同的。途徑分析鑒定與規(guī)范的(策劃的)途徑的顯著聯(lián)系,包括基因如EGF、NGFR和TNF、樹突細胞成熟和NF-K B信號轉(zhuǎn)導(dǎo)途徑。對原位管癌和浸潤性癌樣本上的候選基因進行焦磷酸測序鑒定ABCB 1、F0XC1、PPP2R2B和PTEN為原位管癌中甲基化的新基因。理解這些表觀改變?nèi)绾螀⑴c觸發(fā)腫瘤發(fā)展對于更好地理解哪種病變處于變成浸潤性的“風(fēng)險”是重要的。
根據(jù)其彼此之間以及與臨床特點的相關(guān)性,我們已經(jīng)研究MicMa數(shù)據(jù)集中miRNA 和mRNA表達之間的關(guān)系。我們能夠顯示若干細胞過程,諸如增殖、細胞黏著和免疫應(yīng)答與某些miRNA強相關(guān)。在分子固有亞型之間和具有不同增殖水平的樣本之間觀察到統(tǒng)計學(xué)上顯著的miRNA的差異表達。我們利用關(guān)于細胞系的高通量溶胞產(chǎn)物-微陣列確認miRNA在調(diào)節(jié)增殖中的作用,并指出該過程的潛在驅(qū)動者(Enerly等(2001),同上)。
根據(jù)該乳癌患者同齡組中l(wèi)Oe-6的p-值截止水平處的TP53突變狀況,鑒定了 40 多個顯示差別富集(differential enrichment)的KEGG途徑。基于兩個不同的微陣列平臺,在由187個乳癌樣本組成的跨平臺(cross-platform)數(shù)據(jù)集上也觀察到途徑的差別富集。差別富集的途徑包括若干已知的癌癥途徑諸如TP53信號轉(zhuǎn)導(dǎo)和細胞周期、信號轉(zhuǎn)導(dǎo)途徑——包括免疫應(yīng)答和細胞因子激活和代謝途徑——包括脂肪酸代謝(Joshi等,2011,同上)。
之前描述的每一研究均試圖以成對方式(CNA/mRNA、miRNA/rnRNA、DNA甲基化/ mRNA、TP53/mRNA)從高通量分子數(shù)據(jù)中推導(dǎo)生物相互作用。在本研究種,我們已經(jīng)試圖集中于下調(diào)的途徑并發(fā)展集成的預(yù)后指數(shù),同時考慮所有分子水平。我們利用關(guān)于基因組模型的數(shù)據(jù)集成的途徑識別算法(PARADIGM),來說明各種遺傳途徑的相對活性,并評價其聯(lián)合預(yù)后潛力。通過PARADIGM鑒定的聚簇和下調(diào)的途徑然后在另一數(shù)據(jù)集中被確認(Chin,S. F.等,(2007), Using array-comparativegenomic hybridization to define molecular portraits of primary breast cancers, 26:26:1959-1970),并且,也在癌前期瘤形成諸如原位管癌(DCIS)的數(shù)據(jù)集中進行研究(Muggerud, A. A.等,(2010), Molecular diversity in ductal carcinoma in situ (DCIS)andearly invasive breast cancer, 4:357-368)。
漿液性卵巢癌中頻繁改變的途徑
為了通過對拷貝數(shù)和基因表達的集成分析來鑒定明顯改變的途徑,我們應(yīng)用當前發(fā)展的途徑活性推斷方法PARADIGM (PMID:20529912)。計算模型結(jié)合拷貝數(shù)變化、基因表達數(shù)據(jù)和途徑結(jié)構(gòu)來針對途徑數(shù)據(jù)庫中存在的每一基因、復(fù)合體和遺傳過程產(chǎn)生集成途徑活性(IPA)。我們使用術(shù)語“實體”來指代途徑中的任何分子,其可以是基因、復(fù)合體或小分子。實體的IPA僅指最終活性。對于基因,IPA僅指蛋白質(zhì)活性狀態(tài)的推測的活性,這由途徑中其它基因的拷貝數(shù)、基因表達和信號轉(zhuǎn)導(dǎo)來推斷。我們應(yīng)用PARADIGM到卵巢樣本,并且,發(fā)現(xiàn)美國國家癌癥研究所的途徑相互作用數(shù)據(jù)庫(NCI-PID)包含的途徑中存在許多不同基因和過程中的變化。我們利用1000次隨機模擬來評估推斷的變化的顯著性,在所述隨機模擬中使用具有相同結(jié)構(gòu)的途徑但任意基因(arbitrary gene)被指定在途徑中的不同點處。換言之,給定途徑的一次隨機模擬保持相互作用的集合固定,以便任意基因集合與途徑的相互作用聯(lián)系在一起。針對相同的零分布評估所有樣本的IPA的顯著性,以獲得每一樣本中每一實體的顯著性水平。標準差至少為O. I的IPA顯示為圖28中的熱圖。
表3顯示相對于PARADIGM發(fā)現(xiàn)的置換樣本改變至少三個標準差的途徑。在所有測試的途徑中,在最大數(shù)量的樣本中FOXMl轉(zhuǎn)錄因子網(wǎng)絡(luò)被改變——當在樣本中取平均值時,67%的實體具有改變的活性。相比較,在卵巢同齡組中具有下一個最高水平的改變活性的途徑包括PLKl信號轉(zhuǎn)導(dǎo)事件(27%)、Aurora B信號轉(zhuǎn)導(dǎo)(24%)和血栓烷A2受體信號轉(zhuǎn)導(dǎo)(20%)。因此,在NCI-PDD中的途徑中,關(guān)于卵巢樣本,F(xiàn)OXMl網(wǎng)絡(luò)具有比其它途徑明顯多的改變活性。
發(fā)現(xiàn)在最高比例的患者樣本中,相比正常對照,F(xiàn)OXMl轉(zhuǎn)錄因子網(wǎng)絡(luò)在腫瘤樣本中被差異改變(圖29)。FOXMl是多功能轉(zhuǎn)錄因子,具有三種已知的顯性剪接形式,每一種均調(diào)節(jié)在細胞增殖和DNA修復(fù)中具有各種作用的不同的基因亞集。FOXMlc同種型直接調(diào)節(jié)在細胞增殖中具有已知作用的若干目標,包括AUKB、PLKl、CDC25和BIRC5 (F MID: 15671063)。 另一方面,F(xiàn)OXMlb同種型調(diào)節(jié)完全不同的基因亞集,所述基因亞集包括DNA修復(fù)基因BRCA2 和XRCCl (PMID: 17101782)。由ATM間接控制的CHEK2直接調(diào)節(jié)FOXMl表達水平。
我們質(zhì)疑FOXMl轉(zhuǎn)錄因子本身的IPA是否相比其它轉(zhuǎn)錄因子的IPA被高度改變。我們比較FOXMl的活性水平與NCI-PID中的所有其它203個轉(zhuǎn)錄因子的活性水平。 甚至與NCI集合中的其它轉(zhuǎn)錄因子進行比較,F(xiàn)OXMl轉(zhuǎn)錄因子具有明顯較高的活性水平 (p<0. 0001 ;K-S檢驗),進一步表明它可能是重要的特征(圖30)。
因為FOXMl也在許多上皮起源的不同正常組織中被表達,所以,我們質(zhì)疑由 PARADIGM鑒定的特征是否是歸于在其它組織中被認為正常的上皮特征。為了回答該問題, 我們從GEO (GSE10971) (PMID: 18593983)中下載了獨立數(shù)據(jù)集,在所述GE0,輸卵管上皮細胞和卵巢腫瘤組織被顯微解剖并且基因表達被分析。我們發(fā)現(xiàn),與正常相比,腫瘤樣本中的 FOXMl水平明顯更高,表明FOXMl調(diào)節(jié)在癌組織中確實被提高超出在正常上皮組織中觀察到的(圖31)。
由于TCGA卵巢的全部同齡組包含源自高級漿液性腫瘤的樣本,我們質(zhì)疑FOXMl 特征是否對于高級漿液是特有的。我們從其中低級和高級漿液性腫瘤均被轉(zhuǎn)錄概況化 的 Etemadmoghadam 等(2009)(Etemadmoghadam D, deFazio A, Beroukhim R, Mermel C,George Jj Getz G,Tothill R,Okamoto A, Raeder MB, AOCSStudy Group, Harnett P, Lade S,Akslen LA,Tinker AV, Locandro B,Alsop Kj ChiewYEj Traficante Nj Fereday S,Johnson Dj Fox S,Sellers Wj Urashima Mj Salvesen HBj Meyerson Mj Bowtell D.Integrated Genome-Wide DNA Copy Number and ExpressionAnalysis IdentifiesDistinct Mechanisms of Primary Chemoresistance in OvarianCarcinomas. Clinical Cancer Research 2009Feb. ; 15 (4) : 1417-1427)的數(shù)據(jù)集中獲得FOXMl和其若干目標的對數(shù)表達。該獨立數(shù)據(jù)證實,F(xiàn)OXMl和其若干目標在漿液性卵巢中相對于低級卵巢癌被明顯上調(diào)(圖32)。為了確定FOXMl轉(zhuǎn)錄因子網(wǎng)絡(luò)中的25個基因在高級疾病中是否包含具有更高表達的明顯比例的基因,我們利用Etemadmoghadam的數(shù)據(jù)進行學(xué)生t_檢驗。發(fā)現(xiàn)基因組中723個基因(5. 4%)在高級癌癥對比低級癌癥中以O(shè). 05的顯著性水平被明顯上調(diào)(利用Benjamini-Hochberg方法針對多重檢驗進行校正)。發(fā)現(xiàn)FOXMl網(wǎng)絡(luò)的基因中有13個 (52%)被差別調(diào)節(jié),根據(jù)超幾何檢驗(P〈3.8*10_12),這是相當大的比例。因此,當與基因組中的典型基因的表達比較時,F(xiàn)OXMl網(wǎng)絡(luò)基因的高表達看起來并不與高級疾病特異關(guān)聯(lián)。
FOXMl在許多不同癌癥,包括乳癌和肺癌中的作用已經(jīng)被很好地證明,但它在卵巢癌中的作用尚未被研究。FOXMl是多功能轉(zhuǎn)錄因子,具有三種已知的剪接形式,每一種均調(diào)節(jié)在細胞增殖和DNA修復(fù)中具有各種作用的不同的基因亞集。與該分析有關(guān)的FOXMl的相互作用網(wǎng)絡(luò)的摘錄顯示在圖27中。FOXMla同種型直接調(diào)節(jié)在細胞增殖中具有已知作用的若干目標,包括AUKB、PLKl、⑶C25和BIRC5。相反地,F(xiàn)OXMlb同種型調(diào)節(jié)完全不同的基因亞集,所述基因亞集包括DNA修復(fù)基因BRCA2和XRCCl。由ATM間接控制的CHEK2直接調(diào)節(jié)FOXMl表達水平。除了在大部分卵巢患者中提高的FOXMl表達之外,小的亞集也具有通過CBS檢測的、提高的拷貝數(shù)擴增(在測量的基因組中,所有基因的前5%分位數(shù)中19%具有拷貝數(shù)增加)。因此,F(xiàn)OXMl的可選剪接調(diào)節(jié)可以參與DNA修復(fù)和細胞增殖之間的控制轉(zhuǎn)換。然而,在這一點上,數(shù)據(jù)不足以支持該主張,因為區(qū)分同種型的外顯子結(jié)構(gòu)和外顯子陣列探針的位置使其難以區(qū)分單個同種型活性。將來對這些樣本的mRNA進行高通量測序可以幫助確定FOXMl同種型的差異水平。PARADIGM檢測以該轉(zhuǎn)錄因子為中心的最高水平的改變活性的觀察表明,F(xiàn)OXMl存在于細胞中的關(guān)鍵調(diào)節(jié)點處。
診斷
本文描述的方法可用于檢測和量化改變的基因表達、mRNA的不存在/存在對比過量表達,以及在治療性干預(yù)期間監(jiān)測mRNA水平。與該改變的表達有關(guān)的狀況、疾病或病癥包括原發(fā)性肺動脈高壓、繼發(fā)性肺高血壓、細胞增殖病癥,尤其是間變性少突神經(jīng)膠質(zhì)瘤、星形細胞瘤、少突星形細胞瘤(OligoastiOcytoma)、惡性膠質(zhì)瘤、腦膜瘤、神經(jīng)節(jié)瘤 (ganglioneuroma)、神經(jīng)元贅生物、多發(fā)性硬化癥、杭廷頓氏病、乳腺癌、前列腺癌、胃腺癌、 轉(zhuǎn)移性神經(jīng)內(nèi)分泌癌、非增殖性纖維囊腫和增殖性纖維囊腫乳房疾病、膽囊炎和膽石病、骨性關(guān)節(jié)炎和類風(fēng)濕性關(guān)節(jié)炎;獲得性免疫缺陷綜合征(AIDS)、阿狄森氏病、成人呼吸窘迫綜合征、變態(tài)反應(yīng)、強直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生、支氣管炎、切-東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒溶血癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本氏甲狀腺炎、嗜伊紅細胞增多癥、過敏性腸綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨性關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、牛皮癬、賴特氏綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、嚴重聯(lián)合免疫缺陷病(SCID)、斯耶格倫氏綜合怔、系統(tǒng)性過敏癥、系統(tǒng)性紅斑狼瘡、全身性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、眼色素層炎、維爾納綜合征、血液透析、體外循環(huán)、病毒、細菌、真菌、寄生蟲、原生動物和蠕蟲感染;促乳素產(chǎn)生病癥、不孕不育癥,包括管疾病、排卵缺陷和子宮內(nèi)膜組織異位、動情周期中斷、月經(jīng)周期中斷、多囊卵巢綜合征、卵巢過度刺激綜合征、子宮內(nèi)膜或卵巢腫瘤、子宮纖維瘤(uterine fibroid)、自身免疫病癥、子宮外孕和畸形發(fā)生;乳癌、纖維囊腫乳房疾病和乳溢;精子發(fā)生的中斷、異常精子生理學(xué)、良性前列腺增生、前列腺炎、佩羅尼病、性無能、男子女性型乳房;光化性角化癥、 動脈硬化、粘液囊炎、硬化、肝炎、混合性締結(jié)組織疾病(MCTD)、骨髓纖維化、陣發(fā)性夜間血紅蛋白尿、真性紅細胞增多癥、原發(fā)性血小板增多、癌癥并發(fā)癥、癌癥,包括腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺、膀胱、骨、骨髓、腦、乳房、子宮頸、膽囊、神經(jīng)節(jié)、胃腸道、心、腎、肝、肺、肌肉、卵巢、胰腺、甲狀旁腺、陰莖、前列腺、唾腺、皮膚、脾臟、睪丸、胸腺、甲狀腺和子宮的癌癥。在另一方面,本發(fā)明的核酸。
本文描述的方法可用于檢測和量化改變的基因表達;mRNA的不存在、存在或過量表達;或在治療性干預(yù)期間監(jiān)測mRNA水平。與改變的表達有關(guān)的病癥包括靜坐不能癥、阿爾茨海默病、健忘癥、肌萎縮性側(cè)索硬化癥、共濟失調(diào)、雙相性抑郁癥、緊張癥、大腦性麻痹、 腦血管疾病克-雅二氏病、癡呆、抑郁癥、唐氏綜合征、遲發(fā)性運動障礙、張力障礙、癲癇、杭廷頓氏病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森氏病、皮克氏病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情感障礙、老年性癡呆、中風(fēng)、德拉圖雷特綜合征和癌癥,包括腺癌、黑素瘤和畸胎癌,尤其是腦癌。
為了提供用于診斷與基因表達有關(guān)的狀況、疾病或病癥的基礎(chǔ),建立正?;驑藴时磉_概況。這可以通過在雜交或擴增條件下結(jié)合取自正常對象——動物或人——的生物樣本與探針來實現(xiàn)。標準雜交可以通過比較利用正常對象獲得的值與來自試驗——其中使用已知量的基本上純化的目標序列——的值來量化。以這種方式獲得的標準值可以與獲自對于特定狀況、疾病或病癥有癥狀的患者樣本的值進行比較。從標準值偏向與特定狀況有關(guān)的那些值被用于診斷該狀況。
這種分析也可以用于評價特定治療方案在動物研究和在臨床試驗中的功效,或用于監(jiān)測對個體患者的治療。一旦狀況的存在被確定并且治療方案開始進行,則可以有規(guī)律地重復(fù)診斷分析,以確定在患者中的表達水平是否開始接近于在正常對象中觀察到的水平。通過連續(xù)分析獲得的結(jié)果可用于顯示在從若干天到數(shù)月的階段中治療的功效。
模型系統(tǒng)
動物模型可被用作生物分析,其中它們顯示類似于人的毒性應(yīng)答,并且,其中暴露狀況與人暴露相關(guān)。哺乳動物是最常見的模型,并且,因為成本低、可用性和豐富的參考毒理學(xué),大部分毒性研究針對嚙齒動物諸如大鼠或小鼠進行。近交(近親交配)嚙齒動物品系提供常規(guī)模型,用于研究感興趣基因低表達或過表達的生理學(xué)結(jié)果和用于發(fā)展診斷和治療疾病的方法。被近交以過表達特定基因(例如,乳中分泌的基因)的哺乳動物也可用作由該基因表達的蛋白質(zhì)的常規(guī)來源。
毒理學(xué)
毒理學(xué)是研究劑對活體系的影響。大部分毒性研究是針對大鼠或小鼠進行的,以幫助預(yù)測這些劑對人健康的影響。對于生理學(xué)、行為、穩(wěn)態(tài)過程和致死率的定性和定量變化的觀察被用于產(chǎn)生毒性概況和用于評估在暴露于劑后對人健康的結(jié)果。
遺傳毒理學(xué)鑒定和分析劑產(chǎn)生遺傳突變的能力?;蚨拘詣┩ㄟ^具有常見的促進與核酸相互作用的化學(xué)或物理性質(zhì),并且,在染色體異常傳遞給后代時是最有害的。如果在受孕前將劑施用給雙親之一、在懷孕期間施用給母親或施用給發(fā)育的生物體,毒理學(xué)研究可以鑒定增加后代中結(jié)構(gòu)或功能異常頻率的劑。小鼠和大鼠最常被用于這些測試,因為它們產(chǎn)生滿足統(tǒng)計學(xué)要求所需要的生物體數(shù)目的生殖周期短。
急性毒性試驗基于給對象單一施用劑,以測定該劑的癥狀或致死率。進行了三個試驗(a)發(fā)現(xiàn)初始劑量范圍的試驗,(b)縮小有效劑量范圍的試驗,和(C)確定劑量-應(yīng)答曲線的最終試驗。
延長的毒性試驗是基于重復(fù)施用劑。大鼠和狗通常被用于這些研究中,以提供不同科物種的數(shù)據(jù)。除了癌發(fā)生以外,有相當多的證據(jù)表明以高劑量濃度每日施用劑達3到 4個月的階段將揭示成年動物中的大部分毒性形式。
慢性毒性試驗——持續(xù)時間為一年或更久——被用于證明劑的毒性不存在或致癌潛能。當針對大鼠進行研究時,使用最小的3個測試組加一個對照組,并在開始時和整個試驗的間隔檢查和監(jiān)測動物。
轉(zhuǎn)基因動物模型
過表達或低表達感興趣基因的轉(zhuǎn)基因嚙齒動物可以被近交,并用于模擬人疾病或用于檢驗治療劑或毒性劑。(見美國專利號4,736,866 ;5,175,383 ;和5,767,337 ;通過引用被并入本文)。在一些情況中,引入的基因可以在胎兒發(fā)育期間或出生后在特定的組織類型中在特定的時間被激活。在挑戰(zhàn)藥物治療法之前、期間和之后,通過分析轉(zhuǎn)基因動物中表型或組織-特異性mRNA表達來監(jiān)測轉(zhuǎn)基因的表達。
胚胎干細胞
分離自嚙齒動物胚胎的胚胎干細胞(ES)保持形成胚胎的潛力。當將ES細胞放入到載體胚胎內(nèi)部時,它們恢復(fù)正常發(fā)育并對活著出生的動物的所有組織有幫助。ES細胞是用于產(chǎn)生試驗敲除和敲入嚙齒動物品系的優(yōu)選細胞。小鼠ES細胞諸如小鼠129/SvJ細胞系衍生自小鼠早期胚胎,并且在本領(lǐng)域中悉知的培養(yǎng)條件下生長。用于敲除品系的載體包含疾病基因候選物,其被修飾成包括破壞體內(nèi)轉(zhuǎn)錄和/或翻譯的標記基因。載體通過本領(lǐng)域中悉知的轉(zhuǎn)化方法諸如電穿孔法、脂質(zhì)體遞送、微注射和類似方法被引入ES細胞。內(nèi)源嚙齒動物基因在細胞分裂過程中通過同源重組和整合被破壞的疾病基因取代。轉(zhuǎn)化的ES 細胞被鑒定并優(yōu)選微注射到小鼠細胞胚泡諸如來自C57BL/6小鼠品系的那些中。胚泡經(jīng)手術(shù)被轉(zhuǎn)移到假孕雌親中,并且,所得嵌合后代被測基因型并雜交,以產(chǎn)生雜合或純和品系。
ES細胞也被用于體外研究各種細胞類型和組織的分化,諸如神經(jīng)細胞、造血譜系和心肌細胞(Bain 等(1995)Dev. Biol. 168:342-357 ;ffiles 和 Keller (1991)Development 111:259-267 ;和 Klug 等(1996) J. Clin. Invest. 98:216-224)。最近的發(fā)展表明,衍生自人胚泡的ES細胞也可以在體外被操作,以分化成8個獨立的細胞譜系,包括內(nèi)胚層、中胚層和外胚層細胞類型(Thomson (1998) Science 282:1145-1147)。
敲除分析
在基因敲除分析中,人疾病基因候選物的區(qū)域被酶促修飾成包括非哺乳動物基因諸如新霉素磷酸轉(zhuǎn)移酶基因(neo ;見,例如,Capecchi (1989) Science 244:1288-1292)。插入的編碼序列中斷目標基因的轉(zhuǎn)錄和翻譯,并防止疾病候選蛋白質(zhì)的生物化學(xué)合成。修飾的基因被轉(zhuǎn)化到培養(yǎng)的胚胎干細胞(上述)中,轉(zhuǎn)化的細胞被注入到嚙齒動物囊胚,并且, 囊胚被植入到假孕雌親中。雜交轉(zhuǎn)基因后代,以獲得純合近交系。
敲入分析
存在于胚胎發(fā)育的早期階段的全能ES細胞可用于產(chǎn)生人疾病的敲入人源化動物(豬)或轉(zhuǎn)基因動物模型(小鼠或大鼠)。通過敲入技術(shù),人基因的區(qū)域被注入到動物ES細胞中,并且,人序列通過重組整合到動物細胞基因組中。含有整合的人基因的全能ES細胞被如上所述地處理。近交動物被研究和處理,以獲得關(guān)于類似的人狀況的信息。這些方法已經(jīng)被用于模擬若干人疾病。(見,例如,Lee等(1998)Proc. Natl. Acad. Sci.95:11371-11376;Baudoin 等(1998)Genes Dev. 12:1202-1216 ;和 Zhuang 等(1998) Mol. Cell Biol. 18:3340-3349)。
非人靈長類動物模型
動物實驗領(lǐng)域處理基本科學(xué)諸如生理學(xué)、遺傳性、化學(xué)、藥理學(xué)和統(tǒng)計學(xué)的數(shù)據(jù)和方法。這些數(shù)據(jù)在評價治療劑對非人靈長類動物的作用中極為重要,因為他們可能與人類健康相關(guān)。猴子在疫苗和藥物評價中被用作人類替代者,并且,它們的反應(yīng)與人暴露在類似條件下有關(guān)。食蟹猴(食蟹猴(Macaca fascicularis)、稱猴(Macaca mu lata))和普通狨 (普通狨(Callithrix jacchus))是這些研究中使用的最常見的非人靈長類動物(NHP)。因為與發(fā)展和維持NHP群體有關(guān)的巨大成本,早期的研究和毒理學(xué)研究通常在嚙齒動物模型中進行。在利用行為測量諸如藥癮的研究中,NHP是首選的測試動物。另外,NHP和獨立的人對許多藥物和毒素顯示差別靈敏性,因而可以被分類為這些劑的“泛代謝者”和“乏代謝有 ο
本發(fā)明的示例性應(yīng)用
個體化藥物(Personalized medicine)有希望給予很可能受益的那些患者特定的治療。我們已經(jīng)證明,大約一半的治療化合物在一種或多種臨床上相關(guān)的轉(zhuǎn)錄或基因組乳癌亞型中優(yōu)先有效。這些發(fā)現(xiàn)支持在乳癌治療中限定應(yīng)答相關(guān)分子亞型的重要性。我們也證明,關(guān)于細胞系的轉(zhuǎn)錄和基因組數(shù)據(jù)的途徑集成揭示子網(wǎng)絡(luò),其為觀察到的亞型特異性應(yīng)答提供機制解釋。對細胞系和腫瘤之間子網(wǎng)活性的比較分析顯示,大部分亞型特異性子網(wǎng)絡(luò)在細胞系和腫瘤之間是保守的。這些分析支持這樣的觀點,即,在良好表征的細胞系組中進行試驗化合物的臨床前篩選可以鑒定與候選物應(yīng)答有關(guān)的分子特征,其可以用于早期臨床試驗中的靈敏性富集。我們提出,該體外評估方法將提高反應(yīng)性腫瘤亞型將在化合物的臨床開發(fā)開始之前被鑒定的可能性,從而降低成本,提高最終FDA批準的概率并可能避免與治療不太可能應(yīng)答的患者有關(guān)的毒性。在該研究中,我們僅評估限定轉(zhuǎn)錄亞型的分子特征和選擇的再發(fā)生的基因組CAN。我們預(yù)期,該方法的能力和精確性將隨著另外的分子特征諸如遺傳突變、甲基化和可選剪接被包括在該分析中而提高。同樣地,增加細胞系組的大小將提高評估組內(nèi)較不常見的分子式樣的能力和提高表現(xiàn)人乳癌中存在的更完整的多樣性范圍的概率。
乳癌發(fā)展的特征在于在先天的和適應(yīng)性免疫細胞同時存在下,隨著代表腫瘤性基質(zhì)中存在的最豐富的白細胞的B細胞、T細胞和巨噬細胞而顯著增加(DeNardoDG, Coussens LM. Inflammation and breast cancer.Balancing immune response crosstalk between adaptive and innate immune celIs during breast cancer progression. Breast Cancer Res. 2007; 9 (4) : 212)。腫瘤基質(zhì)(和血清)中的高免疫球蛋白(Ig)水平和原發(fā)性腫瘤或淋巴結(jié)中的濾泡外B細胞、T調(diào)節(jié)細胞和高比例的⑶4/⑶8或TH2/TH1T淋巴細胞存在的增加已經(jīng)顯示與腫瘤等級、階段和整體患者存活率有關(guān)(Bates, G. J.等,(2006),Quantif ication of regulatory T cells enables the identificationof high-risk breast cancer patients and those at risk of late relapse,24:5373-5380);—些白細胞顯示抗腫瘤活性,包括細胞毒性T淋巴細胞(CTL)和天然殺傷(NK)細胞(34Dunn, G. P. , Koebel, C. M. , and Schreiber, R. D. , (2006), Interferons, immunity andcancer immunoediting, 6:836-848),其它白細胞諸如肥大細胞、B細胞樹突細胞、粒細胞和巨噬細胞通過其妨礙或加強腫瘤發(fā)展的能力顯示更兩極化的作用(35deVisser, K. E. and Coussens, L. Μ. , (2006),The inflammatory tumor microenvironment 和 its impact on cancer development, 13:118-137)。在這些石開究中最突出的發(fā)現(xiàn)是鑒定免疫應(yīng)答(TCR)中的干擾和導(dǎo)致用預(yù)后值對亞類進行分類的白細胞介素信號轉(zhuǎn)導(dǎo)、IL4、IL6、IL12和IL23信號轉(zhuǎn)導(dǎo)。我們在本文提供證據(jù)表明這些事件反映在高通量分子數(shù)據(jù)中,并用乳房腫瘤的分子亞分類進行強干預(yù)。
本公開內(nèi)容還提供對HGS-OvCa中的異常的第一大規(guī)模的綜合觀點(the firstlarge scale integrative view)??偟膩碚f,突變譜異常簡單。TP53中的突變占優(yōu)勢,發(fā)生在至少96%的HGS-OvCa中,而BRCA1/2在22%的腫瘤中突變,這是由于種系和體細胞突變的組合。鑒定了 7個其它明顯突變的基因,但僅存在于2-6%的HGS-OvCa中。相反地,HGS-OvCa顯示顯著程度地基因組混亂(genomic disarray)。頻繁的SCNA與之前通過惡性膠質(zhì)瘤46的TCGA發(fā)現(xiàn)形成強烈對比,其中存在更多再次突變的基因和少得多的染色體臂水平或焦點SCNA (圖37A)。假定DNA修復(fù)基因——包括HR組分——中的高度普遍的突變和啟動子甲基化塊可以解釋高度普遍的SCNA。突變譜將HGS-OvCa標記為與其它OvCa 組織學(xué)亞型完全不同。例如,清楚細胞OvCa具有少量的TP53突變,但具有再發(fā)生的ARID IA和PIK3CA47-49突變;子宮內(nèi)膜樣OvCa具有頻繁的CTTNBl、ARIDIA和PIK3CA突變和和較低速率的TP5348,49,而粘液性O(shè)vCa具有普遍的KRAS突變50。卵巢癌亞型之間的這些差異很可能反映病原和譜系作用的組合,并代表通過亞型-分層護理改進卵巢癌結(jié)果的機八ο
新治療方法的鑒定是TCGA的中心目標。具有HR缺陷的大約50%的HGS-OvCa可以受益于PARP抑制劑。在此之外,通常被下調(diào)的途徑,RB、RAS/PI3K、F0XM1和NOTCH,提供用于治療性攻擊(therapeutic attack)的機會。最后,在頻發(fā)擴增的區(qū)域中已經(jīng)存在22 個基因的抑制劑(見下面的實施例XIII),確保其中目標基因被擴增的HGS-OvCa中的評估。 總的來說,這些發(fā)現(xiàn)為治療HGS-OvCa的方法創(chuàng)造條件,在所述HGS-OvCa中,異?;蚧蚓W(wǎng)絡(luò)被檢測,并被選擇用來有效抵抗這些特定異常的治療方法所靶向。
在另外的實施方式中,多核苷酸核酸可用于尚待開發(fā)的任何分子生物學(xué)技術(shù)中, 倘若新技術(shù)依賴于當前已知的核酸分子特性——包括但不限于這樣的特性諸如三聯(lián)遺傳密碼子和特定堿基對相互作用。
通過參考以下實施例,本發(fā)明將被更容易地理解,所述實施例被包括,僅為了闡釋本發(fā)明的特定方面和實施方式的目的,而不是作為限制。
實施例
實施例I:數(shù)據(jù)源
從NCBI 基因表達匯編(Gene Expression Omnibus) (GEO)以登錄號 GPL5737 獲得Chin(2007,同上)的乳癌拷貝數(shù)數(shù)據(jù),具有來自GSE8757的相關(guān)陣列平臺注釋。
探針注釋被轉(zhuǎn)換成BED15格式,以在UCSC癌癥基因組瀏覽器(CancerGenomics Browser) (Zhu: 2009,同上)中進行展示和隨后分析。陣列數(shù)據(jù)通過探針I(yè)D被映射到探針注釋中。來自Naderi (2007,同上)的匹配的表達數(shù)據(jù)利用登錄號E-UCon-I獲自EBI的 MIAMIExpress。人1A(V2)的平臺注釋信息獲自Agilent網(wǎng)站。表達數(shù)據(jù)為探針水平中值歸一化的,并通過探針I(yè)D被映射到HUGO基因名稱。
所有數(shù)據(jù)均利用排序程序——包括所有樣本-探針值——進行非參數(shù)歸一化,并且,每一基因-樣本對基于排序被給予有符號的P值。最大P值O. 05被用于確定被明顯改變的基因-樣本對。
來自TCGA的惡性膠質(zhì)瘤數(shù)據(jù)獲自TCGA Data Portal,其在Affymetrix U133A 平臺上提供230個患者樣本和10個鄰近正常組織的基因表達?;颊邩颖镜奶结樛ㄟ^減去每一探針的中值標準值被歸一化成正常組織。另外,獲得相同患者組的CBS分段的 (01shen:2004,同上pl618)拷貝數(shù)數(shù)據(jù)。兩個數(shù)據(jù)集均利用與乳癌數(shù)據(jù)相同的程序進行非參數(shù)歸一化。
實施例II :途徑概略(Compendium)
我們收集可從美國國家癌癥研究所途徑相互作用數(shù)據(jù)庫(NCI PID) (Schaefer:2009,同上)得到的策劃的途徑的集合。每一途徑均代表根據(jù)高水平生物分子過程邏輯上被分組在一起的相互作用的集合,所述高水平生物分子過程描述固有的和外在的亞細胞_、細胞_、組織-或生物體-水平的事件和表型。下載BioPAX水平2格式化的途徑。所有實體和相互作用利用Rasqal RDF引擎通過SPARQL查詢來提取。
我們提取5種不同類型的生物實體(一種或多種),包括3種物理實體(編碼蛋白質(zhì)的基因、小分子和復(fù)合體)、基因家族和抽象過程。當BioPAX蛋白質(zhì)的交叉參考列出不同基因的蛋白質(zhì)時,廣生基因家族?;蚣易宕砘虻募?,其中任何單一基因均足以執(zhí)行特定功能。例如,具有多余功能的同系物和被發(fā)現(xiàn)在功能上彼此補償?shù)幕虮唤M成家族。
提取產(chǎn)生途徑中應(yīng)用的每一實體和相互作用的列表,其中注釋描述它們的不同類型。我們還提取抽象過程諸如“凋亡”,其是指可以在NCI集合中發(fā)現(xiàn)的一般過程。例如,詳細描述涉及P53腫瘤抑制基因的相互作用的途徑包括向凋亡和衰老的連接,所述凋亡和衰老可作為機器學(xué)習(xí)分類的特征被調(diào)節(jié)(leveraged)。
如所期望的,C2E相關(guān)性是中等的,但比起由機會所預(yù)期的,其具有激活相互作用之間正相關(guān)的顯著富集(圖3)。E2E相關(guān)性甚至更強,并被類似地富集。因此,即使在具有困惑特性的該癌癥實施例中,明顯的途徑亞集相互作用使基因組變化與基因表達中的調(diào)節(jié)聯(lián)系起來,支持途徑_水平方法值得追求的觀點。
實施例III :建模和預(yù)測生物學(xué)途徑
我們首先將每一 NCI途徑轉(zhuǎn)換成不同的概率模型。小片段p53調(diào)亡途徑的玩具實例顯示在圖2中。來自NCI的途徑圖被轉(zhuǎn)換成因子圖,其同時包括隱藏的和觀察到的狀態(tài)。 因子圖結(jié)合對基因-和生物過程-相關(guān)狀態(tài)信息的觀察與描述實體之中已知相互作用的結(jié)構(gòu)。
為了用因子圖表示生物學(xué)途徑,我們應(yīng)用變量來描述實體在細胞中的狀態(tài),諸如特定mRNA或復(fù)合體,并利用因子來代表這些實體之間的相互作用和信息流。這些變量代表每一實體與“對照”或正常水平而不是分子實體的直接濃度相比的\textit{差別}狀態(tài)。 該表示允許我們模擬許多高通量數(shù)據(jù)集,諸如通過DNA微陣列檢測的基因表達,其常常直接測量基因的差別狀態(tài)或?qū)⒅苯訙y量結(jié)果轉(zhuǎn)換成相對于匹配的對照的測量結(jié)果。它還允許基因之間許多類型的調(diào)節(jié)關(guān)系。例如,描述介導(dǎo)P53的泛素依賴性降解的MDM2的相互作用被模仿為抑制P53的蛋白質(zhì)水平的激活的MDM2。
因子圖利用每一實體的隨機變量X= {Xl,X1,...., Xn,}編碼細胞的狀態(tài)和一組非負函數(shù)或因子,其限制實體采用生物學(xué)有意義的值作為彼此的函數(shù)。j-th因子(^在實體亞組為限定了概率分布。
實體和因子的整體圖編碼所有實體上的聯(lián)合概率分布為
權(quán)利要求
1.產(chǎn)生動態(tài)途徑圖(DPM)的方法,包括 提供對儲存多個途徑元素的途徑元素數(shù)據(jù)庫的訪問,每一途徑元素表征為其參與至少一個途徑; 提供對與所述途徑元素數(shù)據(jù)庫偶聯(lián)的修正引擎的訪問; 利用所述修正引擎將第一途徑元素與至少一個先驗已知的屬性關(guān)聯(lián); 利用所述修正引擎將第二途徑元素與至少一個假定屬性關(guān)聯(lián); 分別利用所述已知和假定屬性,應(yīng)用所述修正引擎交叉關(guān)聯(lián)并指定至少一個途徑的所述第一和第二途徑元素的影響水平,以形成概率途徑模型;和 利用所述概率途徑模型通過分析引擎,從患者樣本的多個元素的多個測量的屬性導(dǎo)出DPM,其具有特定途徑的參考途徑活性信息。
2.權(quán)利要求I所述的方法,其中所述途徑在調(diào)節(jié)途徑網(wǎng)絡(luò)中。
3.權(quán)利要求2所述的方法,其中所述調(diào)節(jié)途徑網(wǎng)絡(luò)選自衰老途徑網(wǎng)絡(luò)、調(diào)亡途徑網(wǎng)絡(luò)、穩(wěn)態(tài)途徑網(wǎng)絡(luò)、代謝途徑網(wǎng)絡(luò)、復(fù)制途徑網(wǎng)絡(luò)和免疫應(yīng)答途徑網(wǎng)絡(luò)。
4.權(quán)利要求I所述的方法,其中所述途徑選自在信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)內(nèi)和在不同的途徑網(wǎng)絡(luò)的網(wǎng)絡(luò)內(nèi)。
5.權(quán)利要求4所述的方法,其中所述信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)選自鈣/鈣調(diào)蛋白依賴性信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、細胞因子介導(dǎo)的信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、趨化因子介導(dǎo)的信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、生長因子信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、激素信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、MAP激酶信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、磷酸酶介導(dǎo)的信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)、Ras超家族介導(dǎo)的信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)和轉(zhuǎn)錄因子介導(dǎo)的信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò)。
6.權(quán)利要求I所述的方法,其中所述途徑元素是蛋白質(zhì)。
7.權(quán)利要求6所述的方法,其中所述蛋白質(zhì)選自受體、激素結(jié)合蛋白、激酶、轉(zhuǎn)錄因子、甲基化酶、組蛋白乙酰酶和組蛋白脫乙酰酶。
8.權(quán)利要求I所述的方法,其中所述途徑元素是核酸。
9.權(quán)利要8所述的方法,其中所述核酸選自蛋白質(zhì)編碼序列、基因組調(diào)節(jié)序列、調(diào)節(jié)RNA和反式激活序列。
10.權(quán)利要求I所述的方法,其中所述參考途徑活性信息對于正常組織、患病組織、衰老組織或恢復(fù)組織是特異的。
11.權(quán)利要求I所述的方法,其中所述已知屬性選自化合物屬性、種類屬性、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平和蛋白質(zhì)活性。
12.權(quán)利要求I所述的方法,其中所述假定屬性選自化合物屬性、種類屬性、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平和蛋白質(zhì)活性。
13.權(quán)利要求I所述的方法,其中所述測量的屬性選自突變、差別遺傳序列對象、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平、蛋白質(zhì)活性和蛋白質(zhì)相互作用。
14.產(chǎn)生動態(tài)途徑圖(DPM)的方法,包括 提供對存儲概率途徑模型的模型數(shù)據(jù)庫的訪問,所述概率途徑模型包含多個途徑元素; 其中,第一數(shù)目的所述多個途徑元素被交叉關(guān)聯(lián)并根據(jù)已知屬性指定至少一個途徑的影響水平;其中,第二數(shù)目的所述多個途徑元素被交叉關(guān)聯(lián),并根據(jù)假定屬性指定至少一個途徑的影響水平;和 利用患者樣本的多個元素的多個測量的屬性,通過分析引擎,修正所述概率途徑模型,以獲得所述DPM,其中所述DPM對于特定途徑具有參考途徑活性信息。
15.權(quán)利要求14所述的方法,其中所述途徑在調(diào)節(jié)途徑網(wǎng)絡(luò)、信號轉(zhuǎn)導(dǎo)途徑網(wǎng)絡(luò),或者是不同途徑網(wǎng)絡(luò)的網(wǎng)絡(luò)內(nèi)。
16.權(quán)利要求14所述的方法,其中所述途徑元素是蛋白質(zhì),其選自受體、激素結(jié)合蛋白、激酶、轉(zhuǎn)錄因子、甲基化酶、組蛋白乙酰酶和組蛋白脫乙酰酶,或者是核酸,其選自基因組調(diào)節(jié)序列、調(diào)節(jié)RNA和反式激活序列。
17.權(quán)利要求14所述的方法,其中所述參考途徑活性信息對于正常組織、患病組織、衰老組織或恢復(fù)組織是特異的。
18.權(quán)利要求14所述的方法,其中所述已知屬性選自化合物屬性、種類屬性、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平和蛋白質(zhì)活性。
19.權(quán)利要求14所述的方法,其中所述假定屬性選自化合物屬性、種類屬性、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平和蛋白質(zhì)活性。
20.權(quán)利要求14所述的方法,其中所述測量的屬性選自突變、差別遺傳序列對象、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平、蛋白質(zhì)活性和蛋白質(zhì)相互作用。
21.分析生物學(xué)相關(guān)信息的方法,包括 提供對存儲動態(tài)途徑圖(DPM)的模型數(shù)據(jù)庫的訪問,其中所述DPM通過用第一細胞或患者樣本的多個元素的多個測量的屬性修正概率途徑模型而產(chǎn)生; 獲得第二細胞或患者樣本的多個元素的多個測量的屬性;和 利用所述DPM和所述第二細胞或患者樣本的所述多個元素的所述多個測量的屬性,通過分析引擎,測定所述第二細胞或患者樣本的預(yù)測的途徑活性信息。
22.權(quán)利要求21所述的方法,其中所述第一細胞或患者樣本的所述多個元素的所述測量的屬性是健康細胞或組織、特定年齡的細胞或組織、特定疾病的細胞或組織、特定疾病階段的患病細胞或組織、特定性別、特定人種群、特定職業(yè)群和特定種類所特有的。
23.權(quán)利要求21所述的方法,其中所述第二細胞或患者樣本的所述多個元素的所述測量的屬性選自突變、差別遺傳序列對象、基因拷貝數(shù)、轉(zhuǎn)錄水平、翻譯水平、蛋白質(zhì)活性和蛋白質(zhì)相互作用。
24.權(quán)利要求21所述的方法,其中所述第一和第二樣本獲自相同的細胞或患者,并進一步包括在獲得所述第二細胞或患者樣本的所述多個元素的所述多個測量的屬性之前提供治療給所述細胞或患者。
25.權(quán)利要求24所述的方法,其中所述治療選自放射、施用藥物給所述患者和施用候選分子給所述細胞。
26.權(quán)利要求25所述的方法,其中所述候選分子是候選分子文庫中的成員。
27.權(quán)利要求21所述的方法,其中所述預(yù)測的途徑活性信息將元素鑒定為至少一個途徑中的分級主導(dǎo)元素。
28.權(quán)利要求21所述的方法,其中所述預(yù)測的途徑活性信息將元素鑒定為關(guān)于疾病的至少一個途徑中的疾病決定元素。原文重復(fù)權(quán)利要求27和權(quán)利要求28,權(quán)利要求21所述的方法,還包括產(chǎn)生預(yù)測的途徑活性信息的圖形表示的步驟。 權(quán)利要求21所述的方法,還包括產(chǎn)生治療建議的步驟,所述治療建議至少部分基于所述預(yù)測的途徑活性信息。
29.權(quán)利要求21所述的方法,還包括利用所述預(yù)測的途徑活性信息表達對疾病的診斷、預(yù)后或選自對治療選項的選擇和飲食指導(dǎo)的建議的步驟。
30.權(quán)利要求21所述的方法,還包括利用所述預(yù)測的途徑活性信息鑒定外遺傳因子、脅迫適應(yīng)、生物體的狀態(tài)和修復(fù)或愈合狀態(tài)的步驟。
全文摘要
本發(fā)明涉及評估用特定臨床方案或療法治療患者的診斷的概率的方法。
文檔編號G06F19/12GK102985927SQ201180032521
公開日2013年3月20日 申請日期2011年4月29日 優(yōu)先權(quán)日2010年4月29日
發(fā)明者C·J·瓦斯科, S·C·本茨, J·M·斯圖爾特, D·豪斯勒 申請人:加利福尼亞大學(xué)董事會