本申請是分案申請,原申請的申請日為2011年5月25日,中國申請?zhí)枮?01180025750.9,國際申請?zhí)枮閜ct/us2011/000939,發(fā)明名稱為“bambam:高通量測序數(shù)據(jù)的平行比較分析”。
與其他申請的關(guān)系
本申請涉及2010年5月25日提交的名為“bambam:高通量測序數(shù)據(jù)的平行比較分析”的美國臨時專利申請序號61/396,356,并且要求其優(yōu)先權(quán),在此將其全部內(nèi)容引入作為參考。
本發(fā)明部分利用下列美國聯(lián)邦機(jī)構(gòu)的資金進(jìn)行:國家癌癥研究所編號1u24ca143858-01。美國聯(lián)邦政府對本發(fā)明擁有一定權(quán)利。
發(fā)明領(lǐng)域
本發(fā)明涉及處理個體或?qū)ο笊锿緩降臄?shù)據(jù)和鑒定其組分從而確定個體或?qū)ο笫欠窬哂胁“Y或疾病危險的方法。本方法可用作利用sam/bam格式的文件中存儲的短閱讀比對(short-readalignment)對個體或?qū)ο蟮哪[瘤和種系測序數(shù)據(jù)進(jìn)行比較分析的工具。數(shù)據(jù)處理方法計算總拷貝數(shù)和等位基因特異性拷貝數(shù),使等位基因失衡區(qū)域的種系序列分階(phase),發(fā)現(xiàn)體細(xì)胞和種系序列變體,和推斷體細(xì)胞和種系的結(jié)構(gòu)變化區(qū)域。本發(fā)明還涉及利用本方法診斷對象是否易患癌癥、自身免疫性疾病、細(xì)胞周期疾病或其他疾病。
背景
現(xiàn)代癌癥治療的核心前提是,患者診斷、預(yù)后、危險評估和治療響應(yīng)預(yù)期可通過癌癥分類(stratification)得到提高,癌癥分類基于腫瘤基因組、轉(zhuǎn)錄和外因基因組特征,同時還有診斷時收集的相關(guān)臨床信息(例如,患者病史、腫瘤組織學(xué)及階段)以及隨后的臨床后續(xù)數(shù)據(jù)(例如,治療方案和疾病復(fù)發(fā)事件)。
隨著諸如癌癥基因組圖譜(tcga)的項目發(fā)布多發(fā)性腫瘤和匹配的正常全基因組序列,極其需要可由這些大數(shù)據(jù)組(tcga,2008)提取盡可能多的基因組信息的計算有效的工具。考慮到高覆蓋(>30x)下單個患者的全基因組序列的壓縮形式可能是數(shù)以百計的千兆字節(jié),比較成對的這些大數(shù)據(jù)組的分析緩慢且難以管理,但對于發(fā)現(xiàn)各個患者腫瘤中存在的多種基因組變化絕對是有必要的。
乳腺癌在臨床上和基因組方面是異質(zhì)的,由幾種病理和分子方面不同的亞型組成。在各亞型中,患者對常規(guī)和目標(biāo)治療劑的響應(yīng)不同,推動了標(biāo)記物引導(dǎo)的治療策略的發(fā)展。乳腺癌細(xì)胞系的集合反映出多種在腫瘤中發(fā)現(xiàn)的分子亞型和途徑,表明用候選治療性化合物治療細(xì)胞系可導(dǎo)致分子亞型、途徑和藥物響應(yīng)之間的關(guān)聯(lián)得到確定。在77種治療性化合物的測試中,幾乎全部藥物在這些細(xì)胞系中顯示差異響應(yīng),約一半顯示亞型、途徑和/或基因組異常-特異性響應(yīng)。這些觀察結(jié)果暗示了可指示臨床藥物調(diào)配的響應(yīng)和抗性機(jī)制以及有效組合藥物的嘗試。
目前需要提供可用于表征、診斷、治療和確定疾病和病癥結(jié)果的方法。
發(fā)明概述
本發(fā)明提供了生成可用于確定個體危險的數(shù)據(jù)庫的方法,該個體危險具體是,例如,但不限于,個體易患疾病、病癥或狀況的危險;個體工作地點、住所、學(xué)校或類似地點的危險;個體暴露于毒素、致癌物質(zhì)、突變劑及類似物的危險;以及個體飲食習(xí)慣的危險。此外,本發(fā)明提供了可用于鑒定具體個體、動物、植物或微生物的方法。
在一個實施方式中,本發(fā)明提供了得到差異遺傳序列對象(目標(biāo))的方法,該方法包括:提供對遺傳數(shù)據(jù)庫的訪問,該遺傳數(shù)據(jù)庫存儲(a)表示第一組織的第一遺傳序列串(sequencestring)和(b)表示第二組織的第二遺傳序列串,其中第一和第二序列串具有多個相應(yīng)的子串(sub-string);提供對與遺傳數(shù)據(jù)庫連接的序列分析引擎(engine)的訪問;通過利用多個相應(yīng)子串中至少一個的已知位置遞增地同步第一和第二序列串,利用序列分析引擎形成局部比對;通過序列分析引擎,利用局部比對生成局部比對中第一與第二序列串之間的局部差異串;和通過序列分析引擎,利用局部差異串更新差異序列數(shù)據(jù)庫中的差異遺傳序列對象。在優(yōu)選實施方式中,第一和第二遺傳序列串分別表示第一和第二組織至少10%的基因組、轉(zhuǎn)錄組或蛋白質(zhì)組。在可選的優(yōu)選實施方式中,第一和第二遺傳序列串分別表示第一和第二組織至少50%的基因組、轉(zhuǎn)錄組或蛋白質(zhì)組。在另一可選的優(yōu)選實施方式中,第一和第二遺傳序列串分別表示第一和第二組織的基本上整個基因組、轉(zhuǎn)錄組或蛋白質(zhì)組。在另一優(yōu)選的實施方式中,相應(yīng)的子串包括純合等位基因。在可選的優(yōu)選實施方式中,相應(yīng)的子串包括雜合等位基因。在另一更優(yōu)選的實施方式中,遺傳序列對象包括文件。在還更優(yōu)選的實施方式中,文件符合標(biāo)準(zhǔn)化格式。在最優(yōu)選的實施方式中,文件符合sam/bam格式。
在優(yōu)選實施方式中,同步步驟包括,基于第一串中的先驗已知位置比對多個子串中的至少一個。在可選的優(yōu)選實施方式中,同步步驟包括,基于已知參考串——包括多個子串中至少一個的已知位置——比對多個子串中的至少一個。在更優(yōu)選的實施方式中,已知參考串是共有序列。
在另一優(yōu)選的實施方式中,同步步驟包括,比對窗口中多個子串中的至少一個,該窗口的長度小于多個子串中至少一個的長度。
在另一優(yōu)選的實施方式中,差異遺傳序列對象表示至少一條染色體的多個局部差異串。
在另一優(yōu)選的實施方式中,差異遺傳序列對象表示第一組織的基本上整個基因組的多個局部差異串。
還有其他優(yōu)選實施方式中,差異遺傳序列對象包括這樣的特征:包括描述差異遺傳序列對象的元數(shù)據(jù)。在更優(yōu)選的實施方式中,特征包括第一和第二組織的至少一種的狀態(tài)。在還更優(yōu)選的實施方式中,狀態(tài)包括第一和第二組織中至少一種的生理狀態(tài)。在最優(yōu)選的實施方式中,生理狀態(tài)包括選自腫瘤生長、凋亡、分化狀態(tài)、組織年齡和治療響應(yīng)性的狀態(tài)。
在可選的更優(yōu)選的實施方式中,狀態(tài)包括遺傳狀況。在最優(yōu)選的實施方式中,遺傳狀況包括選自至少一種倍性、基因拷貝數(shù)、重復(fù)拷貝數(shù)、倒位、缺失、病毒基因插入、體細(xì)胞突變、種系突變、結(jié)構(gòu)重排、易位和雜合性丟失的狀況。
在可選的更優(yōu)選的實施方式中,狀態(tài)包括組織中與信號傳導(dǎo)途徑相關(guān)的途徑模型信息。在最優(yōu)選的實施方式中,信號傳導(dǎo)途徑選自生長因子信號傳導(dǎo)途徑、轉(zhuǎn)錄因子信號傳導(dǎo)途徑、凋亡途徑、細(xì)胞周期途徑和激素響應(yīng)途徑。
在可選的實施方式中,第一和第二組織源自相同的生物實體,生物實體選自患者、健康個體、細(xì)胞系、干細(xì)胞、實驗動物模型、重組細(xì)菌細(xì)胞和病毒。在可選的實施方式中,第一組織是健康組織,并且其中第二組織是患病組織。在更優(yōu)選的實施方式中,患病組織包括腫瘤組織。
本發(fā)明還提供了如本文公開的方法,其中該方法進(jìn)一步包括如下步驟:在第一序列串全長中,迭代地遞增地同步化第一和第二序列串。
本發(fā)明還提供了提供健康護(hù)理服務(wù)的方法,該方法包括:提供對與醫(yī)療記錄存儲設(shè)備在信息上連接的分析引擎的訪問,其中存儲設(shè)備存儲患者的差異遺傳序列對象;利用患者差異遺傳序列對象中存在多個局部差異串的局部差異串或叢(constellation),通過分析引擎產(chǎn)生患者特異的數(shù)據(jù)組;和基于患者特異的數(shù)據(jù)組,通過分析引擎產(chǎn)生患者特異的指示。在優(yōu)選實施方式中,醫(yī)療記錄存儲設(shè)備被配置為智能卡,并由患者攜帶。在另一優(yōu)選的實施方式中,醫(yī)療記錄存儲設(shè)備被健康護(hù)理人員遠(yuǎn)程訪問。還有其它優(yōu)選實施方式中,患者的差異遺傳序列對象包括至少兩條染色體的多個局部差異串。在更進(jìn)一步優(yōu)選的實施方式中,患者的差異遺傳序列對象包括基本上患者整個基因組的多個局部差異串。在另一優(yōu)選的實施方式中,患者的差異遺傳序列對象包括表示至少兩種組織類型或相同組織的至少兩個時間間隔結(jié)果的多個局部差異串。在更優(yōu)選的實施方式中,相同組織的至少兩個時間間隔結(jié)果得自治療開始之前和之后。在最優(yōu)選的實施方式中,相同組織的至少兩個時間間隔結(jié)果得自治療開始之前和之后。
在另一可選的優(yōu)選實施方式中,本文公開的患者特異的指示選自診斷、預(yù)后、治療結(jié)果預(yù)期、治療策略建議和處方。
本發(fā)明還提供了分析群體的方法,該方法包括:在群體醫(yī)療記錄數(shù)據(jù)庫中獲得和存儲多個差異遺傳序列對象,其中該記錄數(shù)據(jù)庫與分析引擎在信息上連接;通過分析引擎鑒定多個差異遺傳序列對象中的多個局部差異串叢,從而產(chǎn)生叢記錄;和通過分析引擎利用叢記錄生成群體分析記錄。在優(yōu)選實施方式中,群體包括多個血親。在可選的優(yōu)選實施方式中,群體包括特征在于共享至少一個共同特征的多個成員,該共同特征選自暴露于病原、暴露于毒性劑、健康史、治療史、治療成功、性別、物種和年齡。在另一可選的優(yōu)選實施方式中,群體包括特征在于共享至少一個共同特征的多個成員,該共同特征選自地理位置、種族和職業(yè)。在更進(jìn)一步可選的優(yōu)選實施方式中,群體分析記錄包括父子關(guān)系或母子關(guān)系的確定。
在可選的實施方式中,本文公開的方法進(jìn)一步包括將個體患者的叢記錄與群體分析記錄進(jìn)行比較的步驟。在優(yōu)選實施方式中,將個體患者的叢記錄與群體分析記錄進(jìn)行比較的步驟生成患者特異的記錄。在更優(yōu)選的實施方式中,患者特異的記錄包括危險評估或鑒定患者屬于指定群體。在可選的更優(yōu)選的實施方式中,患者特異的記錄包括診斷、預(yù)后、治療結(jié)果預(yù)期、治療策略建議和處方。
本發(fā)明進(jìn)一步提供了分析個人的差異遺傳序列對象的方法,該方法包括:在與分析引擎在信息上連接的醫(yī)療記錄數(shù)據(jù)庫中存儲參考差異遺傳序列對象;通過分析引擎計算個人差異遺傳序列對象中的多個局部差異串與參考差異遺傳序列對象中的多個局部差異串之間的偏差,產(chǎn)生偏差記錄;通過分析引擎利用偏差記錄生成個人特異性偏差概況。在優(yōu)選實施方式中,參考差異遺傳序列對象由個人的多個局部差異串計算得到。在另一優(yōu)選的實施方式中,參考差異遺傳序列對象由個人的多個局部差異串計算得到。
關(guān)于本文公開的各種方法,在優(yōu)選實施方式中,患者或個人選自診斷患有狀況的患者或個人,該狀況選自疾病和病癥。在更優(yōu)選的實施方式中,狀況選自獲得性免疫缺陷綜合征(aids)、阿狄森病、成人呼吸窘迫綜合征、過敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生癥、支氣管炎、切東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、重度聯(lián)合免疫缺陷病(scid)、斯耶格倫綜合征、全身過敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲、原生動物和蠕蟲感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌、靜坐不能、阿爾茨海默癥、健忘癥、肌萎縮性側(cè)索硬化(als)、共濟(jì)失調(diào)、雙極性疾病、緊張癥、大腦性麻痹、腦血管疾病、克-雅二氏病、癡呆、抑郁、唐氏綜合征、遲發(fā)性運(yùn)動障礙、張力障礙、癲癇、亨廷頓病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森病、皮克病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情緒疾病、老年癡呆、中風(fēng)、圖雷特綜合征和包括腺癌、黑素瘤和畸胎癌在內(nèi)的癌癥,特別是腦癌。
在另一優(yōu)選的實施方式中,狀況選自癌癥,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌;免疫疾病,如獲得性免疫缺陷綜合征(aids)、阿狄森病、成人呼吸窘迫綜合征、過敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、淋巴細(xì)胞毒素的發(fā)作性淋巴細(xì)胞減少癥、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫綜合征、全身過敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲、原生動物和蠕蟲感染、創(chuàng)傷、布魯頓x-連鎖無丙種球蛋白血癥、常見變異型免疫缺陷(cv1)、迪喬治綜合征(胸腺發(fā)育不全)、胸腺發(fā)育不良、隔離iga缺乏癥(isolatedigadeficiency)、重度聯(lián)合免疫缺陷病(scid)、血小板減少癥和濕疹的免疫缺陷(威-奧氏綜合征)、切東二氏綜合征、慢性肉芽腫性疾病、遺傳性血管神經(jīng)性水腫和庫興病相關(guān)的免疫缺陷;和發(fā)育疾病,如腎小管酸中毒、貧血、庫興綜合征、軟骨發(fā)育不全性侏儒(achondroplasticdwarfism)、杜興和貝克爾肌肉萎縮癥、癲癇、性腺發(fā)育不全、wagr綜合征(威爾姆斯瘤、無虹膜、泌尿生殖系統(tǒng)異常和精神發(fā)育遲滯)、史密斯-馬蓋尼斯綜合征、骨髓增生異常綜合征、遺傳性粘膜上皮異常增生、遺傳性皮膚角化病、遺傳性神經(jīng)病如夏-馬-圖病和神經(jīng)纖維瘤、甲狀腺功能減退癥、腦積水、癲癇病如syndenham舞蹈病和大腦性麻痹、脊柱裂、無腦畸形、顱脊柱裂、先天性青光眼、白內(nèi)障、感覺神經(jīng)性聽力損失;以及與細(xì)胞生長和分化、胚胎發(fā)生和形態(tài)發(fā)生相關(guān)的任何疾病,包括對象的任何組織、器官或系統(tǒng),例如、腦、腎上腺、腎、骨骼或生殖系統(tǒng)。
在更進(jìn)一步可選的優(yōu)選實施方式中,狀況選自內(nèi)分泌疾病,如與垂體功能減退相關(guān)的疾病,包括性腺功能減退、席漢綜合征、尿崩癥、卡爾曼病、漢-許-克三氏病、累-賽二氏病、結(jié)節(jié)病、空蝶鞍綜合征和侏儒癥;垂體功能亢進(jìn),包括肢端肥大癥、巨人癥和抗利尿激素(adh)分泌異常綜合征(siadh);和與甲狀腺功能減退相關(guān)的疾病,包括甲狀腺腫、粘液性水腫、與細(xì)菌感染相關(guān)的急性甲狀腺炎、與病毒感染相關(guān)的亞急性甲狀腺炎、自身免疫性甲狀腺炎(橋本病)和呆小癥;與甲狀腺功能亢進(jìn)相關(guān)的疾病,包括甲狀腺毒癥及其各種形式、格雷夫斯病、脛骨前粘液性水腫、毒性多結(jié)節(jié)性甲狀腺腫、甲狀腺癌和普魯麥??;和與甲狀旁腺功能亢進(jìn)相關(guān)的疾病,包括康恩病(慢性高血鈣);呼吸系統(tǒng)疾病,如過敏、哮喘、急性和慢性炎性肺病、ards、氣腫、肺充血和水腫、copd、間質(zhì)性肺病和肺癌;癌癥,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌;和免疫學(xué)疾病,如獲得性免疫缺陷綜合征(aids)、阿狄森病、成人呼吸窘迫綜合征、過敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、淋巴細(xì)胞毒素的發(fā)作性淋巴細(xì)胞減少癥、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫綜合征、全身過敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲、原生動物和蠕蟲感染以及創(chuàng)傷。
本發(fā)明進(jìn)一步提供了得到差異遺傳序列對象的方法,該方法包括:提供對遺傳數(shù)據(jù)庫的訪問,該遺傳數(shù)據(jù)庫存儲(a)表示第一組織的第一遺傳序列串和(b)表示第二組織的第二遺傳序列串,其中第一和第二序列串具有多個相應(yīng)的子串;提供對與遺傳數(shù)據(jù)庫連接的序列分析引擎的訪問;通過利用多個相應(yīng)子串中至少一個的已知位置遞增地同步第一和第二序列串,利用序列分析引擎形成局部比對;通過序列分析引擎,利用局部比對生成局部比對中第一與第二序列串之間的局部差異串;和通過序列分析引擎,利用局部差異串生成差異序列數(shù)據(jù)庫中的差異遺傳序列對象,從而得到差異序列對象。
本發(fā)明進(jìn)一步提供了生成差異遺傳序列對象的轉(zhuǎn)化方法,差異遺傳序列對象表示第一遺傳序列與第二序列之間的臨床相關(guān)差異,該方法包括步驟:(i)提供對遺傳數(shù)據(jù)庫的訪問,該遺傳數(shù)據(jù)庫存儲(a)表示第一組織的第一遺傳序列串和(b)表示第二組織的第二遺傳序列串,其中第一和第二序列串具有多個相應(yīng)的子串;(ii)提供對與遺傳數(shù)據(jù)庫連接的序列分析引擎的訪問;(iii)通過利用多個相應(yīng)子串中至少一個的已知位置遞增地同步第一和第二序列串,利用序列分析引擎形成局部比對;(iv)通過序列分析引擎,利用局部比對生成局部比對中第一與第二序列串之間的局部差異串;和(v)通過序列分析引擎,利用局部差異串生成差異序列數(shù)據(jù)庫中的差異遺傳序列對象,從而得到差異序列對象,其中差異序列對象向用戶提供目標(biāo)信息。
在優(yōu)選實施方式中,目標(biāo)信息選自遺傳相關(guān)信息、代謝相關(guān)信息、毒理相關(guān)信息、臨床相關(guān)信息、時間相關(guān)信息、地理相關(guān)信息、職業(yè)危險相關(guān)信息、生活史相關(guān)信息及類似信息。
附圖簡述
圖1示例了“bambam”數(shù)據(jù)流的示意圖。
圖2示例了等位基因特異性拷貝數(shù)計算的概括視圖。
圖3示例了結(jié)構(gòu)變化呼叫的概括視圖。
圖4示例了鑒定基因組中發(fā)生結(jié)構(gòu)重排的位置的示例性方法。
圖5示例了示例性腫瘤特異性基因組瀏覽器。
發(fā)明詳述
本文公開的實施方式是說明性和示例性的,并非意為限制本發(fā)明??蓱?yīng)用其他實施方式,并且可進(jìn)行結(jié)構(gòu)變化,而沒有脫離本發(fā)明權(quán)利要求的范圍。
如本文和所附權(quán)利要求所用,單數(shù)形式“一(a)”、“一(an)”和“該(所述,the)”包括復(fù)數(shù)指代,除非上下文明確另外表示。因此,例如,“一等位基因(或等位基因)”的指代包括多個這種等位基因,“一簇(簇)”的指代是指代一個或多個簇及其等同形式,等等。
如本文所用,術(shù)語“管理的(curated)”意為根據(jù)科學(xué)和/或臨床原理利用本領(lǐng)域的公知方法測試、分析和鑒定生物分子組和/或非生物分子組之間的關(guān)系,本領(lǐng)域的公知方法如分子生物學(xué)、生物化學(xué)、生理學(xué)、解剖學(xué)、基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、adme和生物信息學(xué)技術(shù)及類似技術(shù)。該關(guān)系可以是生物化學(xué)性的,如生物化學(xué)途徑、遺傳途徑、代謝途徑、基因調(diào)控途徑、基因轉(zhuǎn)錄途徑、基因翻譯途徑、mirna調(diào)控途徑、假基因調(diào)控途徑及類似途徑。
高通量數(shù)據(jù)提供對癌組織中分子變化的全面觀察。新技術(shù)允許對腫瘤樣本和癌細(xì)胞系的基因組拷貝數(shù)變化、基因表達(dá)、dna甲基化和外遺傳的狀態(tài)進(jìn)行同時基因組范圍分析(genomewideassay)。
計劃在不久的將來對多種腫瘤進(jìn)行研究,如癌癥基因組圖譜(tcga)、抗癌(standuptocancer,su2c)和更多研究。當(dāng)前數(shù)據(jù)組的分析發(fā)現(xiàn),患者之間的遺傳改變可不同,但通常涉及共同的途徑。因此鑒定癌癥進(jìn)程涉及的相關(guān)途徑和檢測其在不同患者中如何改變是非常重要的。
在諸如癌癥基因組圖譜(tcga)的項目發(fā)布了多種完全測序的腫瘤及匹配的正?;蚪M的情況下,非常需要能夠有效分析這些大量數(shù)據(jù)組的工具。
為此目的,我們開發(fā)了bambam,其是利用sam/bam-格式的文件(samtoolslibrary;lih,handsakerb,wysokera,fennellt,ruanj,homern,marthg,abecasisg,durbinr;1000genomeprojectdataprocessingsubgroup.thesequencealignment/mapformatandsamtools.bioinformatics.2009aug15;25(16):2078-9.epub2009jun8)中包含的比對短閱讀據(jù)同時分析患者腫瘤和種系基因組的各基因組位置的工具。bambam連接samtools庫,利用sam/bam-格式文件中的短閱讀比對同時分析患者的腫瘤和種系基因組。在本公開中,bambam工具可以是序列分析引擎,其用于比較序列——包含信息串的序列。在一個實施方式中,信息串包含生物學(xué)信息,例如,多核苷酸序列或多肽序列。在另一實施方式中,生物學(xué)信息可包括表達(dá)數(shù)據(jù),例如mrna轉(zhuǎn)錄子或rrna或trna或肽或多肽或蛋白質(zhì)的相對濃度水平。在另一實施方式中,生物學(xué)信息可以是蛋白質(zhì)修修飾的相對量,該修飾如例如,但不限于,磷酸化、硫酸化、乙?;?、甲基化、糖基化、唾液酸化、用糖基磷脂酰肌醇修飾或用蛋白多糖修飾。
本處理方法使bambam能夠有效計算全部拷貝數(shù)和推斷腫瘤和種系基因組中的結(jié)構(gòu)變化(例如,染色體易位)區(qū)域;有效計算全部和等位基因特異性拷貝數(shù);推斷呈現(xiàn)雜合性丟失(loh)的區(qū)域;和發(fā)現(xiàn)體細(xì)胞和種系序列變體(例如,點突變)和結(jié)構(gòu)重排(例如,染色體融合)。此外,通過同時比較兩個基因組序列,bambam還可直接區(qū)分體細(xì)胞與種系序列變體,計算腫瘤基因組中的等位基因特異性拷貝數(shù)變化,和使種系單倍型在腫瘤基因組中等位基因比例改變的染色體區(qū)域中分階。通過將這些分析全部一起引入單個工具,研究人員可利用bambam發(fā)現(xiàn)患者腫瘤基因組中存在的多種類型的基因組改變,通常是特定基因等位基因,其有助于鑒定腫瘤發(fā)生的潛在驅(qū)動因子。
為確定發(fā)現(xiàn)的變體是體細(xì)胞(即,僅在腫瘤中發(fā)現(xiàn)的變體序列)還是種系(即,遺傳的或可遺傳的變體序列)變體,需要以某種方式比較腫瘤與匹配的正常基因組。這可通過如下相繼進(jìn)行:總結(jié)腫瘤和種系的每個基因組位置的數(shù)據(jù),然后組合結(jié)果用于分析。不幸地是,由于全基因組bam文件其壓縮形式為數(shù)百個千兆字節(jié)(未壓縮是1-2百萬兆字節(jié)),需要存儲用于后續(xù)分析的中間結(jié)果將是極其巨大的,并且合并和分析極其緩慢。
為避免這個問題,bambam同時讀取兩個文件,恒定地保持各bam文件彼此同步,并累積兩文件之間每個共同基因組位置重疊的基因組閱讀。對于每一對累積(pileup),bambam運(yùn)行一系列上述分析,然后舍棄累積,并移至下一個共同基因組位置。通過用本方法處理這些大批量bam文件,計算機(jī)ram被最低限度地使用,并且處理速度主要受限于文件系統(tǒng)可讀取兩文件的速度。這使得bambam能夠快速處理大批量數(shù)據(jù),同時其靈活性足以在單個計算機(jī)上或在整個計算機(jī)組中運(yùn)行。用bambam處理這些文件的另一重要益處是其輸出相當(dāng)小,僅由各文件中發(fā)現(xiàn)的重要差異組成。這產(chǎn)生基本上是患者腫瘤與種系基因組之間的全基因組差異,需要的磁盤存儲器遠(yuǎn)遠(yuǎn)小于若各文件的全基因組信息均單獨存儲所占用的磁盤存儲器。
bambam是計算有效的方法,用于測量大測序數(shù)據(jù)組,以產(chǎn)生一組高質(zhì)量基因組事件,該高質(zhì)量基因組事件存在于相對于其種系的各腫瘤中。這些結(jié)果提供對腫瘤染色體動態(tài)的掃視,提高我們對腫瘤最終狀態(tài)及導(dǎo)致其事件的理解。bambam數(shù)據(jù)流的示例性方案顯示在圖1中。
本發(fā)明的一個具體的示例性實施方式是生成和應(yīng)用差異遺傳序列對象。如本文所用,該對象代表由bambam技術(shù)示例的數(shù)字對象,并反映出參考序列(例如,第一序列)與分析序列(例如,第二序列)之間的差異。對象可被認(rèn)為是多個不同市場的阻礙。從市場的角度來看,人們可能認(rèn)為下列因素與該對象的應(yīng)用和管理有關(guān):
o對象可以是關(guān)于參數(shù)向量(例如,時間、地理區(qū)域、遺傳樹、物種等)的動態(tài)的和變化。
o對象可被認(rèn)為相對于對象或參考序列彼此具有“距離”。該距離可根據(jù)相關(guān)尺寸進(jìn)行測量。例如,該距離可以是與假設(shè)的正常值相距的偏差或相對于時間的趨勢。
o對象可以指示危險:發(fā)生疾病、暴露易感性的危險、在一個地點的工作危險等。
o對象可被管理,用于呈現(xiàn)于利益相關(guān)者:健康護(hù)理人員、保險公司、患者等。
■可顯示為圖形對象
■可顯示為統(tǒng)計學(xué)形式:單個人、群體、標(biāo)準(zhǔn)化人等。
o參考序列可由對象生成,形成標(biāo)準(zhǔn)化序列。標(biāo)準(zhǔn)化序列可基于得自所測對象的共有序列而構(gòu)建。
o對象表示為大型亞基因組或基因組信息,而非單個基因比對,并且被注釋/包含標(biāo)準(zhǔn)軟件可讀的元數(shù)據(jù)。
o對象可具有可檢測到的內(nèi)部樣式(pattern)或結(jié)構(gòu):一個點的突變組可與狀況相關(guān)的另一個點的第二組突變有關(guān);差異樣式叢可能是熱點;利用多變量分析或其它ai技術(shù)來鑒定相關(guān)性;檢測熱點(例如,存在、不存在等)的顯著性。
o與單個人相關(guān)的對象可被用作安全密鑰。
更新差異序列對象:更新包括生成、修飾、改變、缺失等;
o可基于模板。
o可以是重新(denovo)對象。
o可以是已存在的對象。
在可選的示例性實施方式中,本方法可用于確定和預(yù)期患者對治療的響應(yīng)性:預(yù)期的、假設(shè)的、預(yù)測的、實際的,及類似的。
在可選的示例性實施方式中,本方法可用于提供患者特異的指示:處方、建議、預(yù)后及類似指示。
在一個實施方式中,本方法可用于提供臨床信息,該臨床信息可用于多種診斷和治療應(yīng)用,如檢測癌癥組織、對癌癥組織分期、檢測轉(zhuǎn)移組織及類似應(yīng)用;檢測神經(jīng)疾病,如但不限于,阿爾茨海默癥、肌萎縮性側(cè)索硬化(als)、帕金森病、精神分裂癥、癲癇、及其并發(fā)癥;發(fā)育疾病,如digeorge綜合征、孤獨癥;自身免疫性疾病,如多發(fā)性硬化癥、糖尿病、及類似疾??;治療感染,如但不限于,病毒感染、細(xì)菌感染、真菌感染、利什曼原蟲病、血吸蟲病、瘧疾、絳蟲病、象皮病、線蟲感染、nematines及類似疾病。
在一個實施方式中,本方法可用于提供臨床信息,以檢測和定量與基因或蛋白質(zhì)表達(dá)改變相關(guān)的狀況的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使rna(mrna)、核糖體rna(rrna)、轉(zhuǎn)移rna(trna)、微rna(mirna)、反義rna(asrna)及類似物的改變和/或修飾。與表達(dá)改變相關(guān)的狀況、疾病或病癥包括獲得性免疫缺陷綜合征(aids)、阿狄森病、成人呼吸窘迫綜合征、過敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生癥、支氣管炎、切東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、重度聯(lián)合免疫缺陷病(scid)、斯耶格倫綜合征、全身過敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲、原生動物和蠕蟲感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌。診斷分析可利用雜交或擴(kuò)增技術(shù)來比較患者生物樣本與標(biāo)準(zhǔn)樣本中的基因表達(dá),從而檢測改變的基因表達(dá)。這種比較的定性或定量方法在本領(lǐng)域是公知的。
在另一實施方式中,本方法可用于提供臨床信息以檢測和定量與基因或蛋白質(zhì)表達(dá)改變相關(guān)疾病的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使rna(mrna)、核糖體rna(rrna)、轉(zhuǎn)移rna(trna)、微rna(mirna)、反義rna(asrna)及類似物的改變和/或修飾。與表達(dá)改變相關(guān)的疾病包括靜坐不能、阿爾茨海默癥、健忘癥、肌萎縮性側(cè)索硬化(als)、共濟(jì)失調(diào)、雙極性疾病、緊張癥、大腦性麻痹、腦血管疾病、克-雅二氏病、癡呆、抑郁、唐氏綜合征、遲發(fā)性運(yùn)動障礙、張力障礙、癲癇、亨廷頓病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森病、皮克病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情緒疾病、老年癡呆、中風(fēng)、圖雷特綜合征和癌癥——包括腺癌、黑素瘤和畸胎癌,特別是腦癌。
在一個實施方式中,本方法可用于提供與哺乳動物蛋白質(zhì)表達(dá)或活性改變相關(guān)的狀況的臨床信息。這種狀況的實例包括但不限于,獲得性免疫缺陷綜合征(aids)、阿狄森病、成人呼吸窘迫綜合征、過敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生癥、支氣管炎、切東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、重度聯(lián)合免疫缺陷病(scid)、斯耶格倫綜合征、全身過敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲、原生動物和蠕蟲感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌、和具體地、腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子癌、靜坐不能、阿爾茨海默癥、健忘癥、肌萎縮性側(cè)索硬化、共濟(jì)失調(diào)、雙極性疾病、緊張癥、大腦性麻痹、腦血管疾病、克-雅二氏病、癡呆、抑郁、唐氏綜合征、遲發(fā)性運(yùn)動障礙、張力障礙、癲癇、亨廷頓病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森病、皮克病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情緒疾病、老年癡呆、中風(fēng)、圖雷特綜合征和癌癥——包括腺癌、黑素瘤和畸胎癌,特別是腦癌。
在又一實施方式中,本方法可用于提供臨床信息以檢測和定量與基因或蛋白質(zhì)表達(dá)改變相關(guān)疾病的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使rna(mrna)、核糖體rna(rrna)、轉(zhuǎn)移rna(trna)、微rna(mirna)、反義rna(asrna)及類似物的改變和/或修飾。這種疾病的實例包括,但不限于,癌癥,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌;免疫疾病,如獲得性免疫缺陷綜合征(aids)、阿狄森病、成人呼吸窘迫綜合征、過敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、淋巴細(xì)胞毒素的發(fā)作性淋巴細(xì)胞減少癥、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫綜合征、全身過敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲、原生動物和蠕蟲感染、創(chuàng)傷、布魯頓x-連鎖無丙種球蛋白血癥、常見變異型免疫缺陷(cvi)、迪喬治綜合征(胸腺發(fā)育不全)、胸腺發(fā)育不良、隔離iga缺乏癥、重度聯(lián)合免疫缺陷病(scid)、血小板減少癥和濕疹的免疫缺陷(威-奧氏綜合征)、切東二氏綜合征、慢性肉芽腫性疾病、遺傳性血管神經(jīng)性水腫和與庫興病相關(guān)的免疫缺陷;和發(fā)育疾病,如腎小管酸中毒、貧血、庫興綜合征、軟骨發(fā)育不全性侏儒、杜興和貝克爾肌肉萎縮癥、癲癇、性腺發(fā)育不全、wagr綜合征(威爾姆斯瘤、無虹膜、泌尿生殖系統(tǒng)異常和精神發(fā)育遲滯)、史密斯-馬蓋尼斯綜合征、骨髓增生異常綜合征、遺傳性粘膜上皮異常增生、遺傳性皮膚角化病、遺傳性神經(jīng)病如夏-馬-圖病和神經(jīng)纖維瘤、甲狀腺功能減退癥、腦積水、癲癇病如syndenham舞蹈病和大腦性麻痹、脊柱裂、無腦畸形、顱脊柱裂、先天性青光眼、白內(nèi)障、感覺神經(jīng)性聽力損失以及與細(xì)胞生長和分化、胚胎發(fā)生和形態(tài)發(fā)生相關(guān)的任何疾病——涉及對象的任何組織、器官或系統(tǒng),例如,腦、腎上腺、腎、骨骼或生殖系統(tǒng)。
在另一實施方式中,本方法可用于提供臨床信息以檢測和定量基因或蛋白質(zhì)表達(dá)改變相關(guān)疾病的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使rna(mrna)、核糖體rna(rrna)、轉(zhuǎn)移rna(trna)、微rna(mirna)、反義rna(asrna)及類似物的改變和/或修飾。這種疾病的實例包括,但不限于,內(nèi)分泌疾病,如與垂體功能減退相關(guān)的疾病,包括性腺功能減退、席漢綜合征、尿崩癥、卡爾曼病、漢-許-克三氏病、累-賽二氏病、結(jié)節(jié)病、空蝶鞍綜合征和侏儒癥;垂體功能亢進(jìn),包括肢端肥大癥、巨人癥和抗利尿激素(adh)分泌異常綜合征(siadh);和與甲狀腺功能減退相關(guān)的疾病,包括甲狀腺腫、粘液性水腫、與細(xì)菌感染相關(guān)的急性甲狀腺炎、與病毒感染相關(guān)的亞急性甲狀腺炎、自身免疫性甲狀腺炎(橋本病)和呆小癥;與甲狀腺功能亢進(jìn)相關(guān)的疾病,包括甲狀腺毒癥及其各種形式、格雷夫斯病、脛骨前粘液性水腫、毒性多結(jié)節(jié)性甲狀腺腫、甲狀腺癌和普魯麥??;和與甲狀旁腺功能亢進(jìn)相關(guān)的疾病,包括康恩病(慢性高血鈣);呼吸系統(tǒng)疾病,如過敏、哮喘、急性和慢性炎性肺病、ards、氣腫、肺充血和水腫、copd、間質(zhì)性肺病和肺癌;癌癥,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌;和免疫學(xué)疾病,如獲得性免疫缺陷綜合征(aids)、阿狄森病、成人呼吸窘迫綜合征、過敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、淋巴細(xì)胞毒素的發(fā)作性淋巴細(xì)胞減少癥、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫綜合征、全身過敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲、原生動物和蠕蟲感染和創(chuàng)傷。多核苷酸序列可用于dna印跡分析或rna印跡分析,點印跡或其他基于膜的技術(shù);pcr技術(shù);浸漬,點觸(pin)和elisa分析;和微陣列——其利用患者的流體或組織檢測改變的核酸序列表達(dá)。這種定性或定量方法在本領(lǐng)域是公知的。
發(fā)明特征和最佳實施方式
“bambam”是計算有效的方法,用于測量大測序數(shù)據(jù)組,以產(chǎn)生一組高質(zhì)量基因組事件,該高質(zhì)量基因組事件存在于相對于其種系的各腫瘤中。這些結(jié)果提供對腫瘤染色體動態(tài)的掃視,提高對腫瘤最終狀態(tài)及導(dǎo)致其事件的理解。
診斷
本文描述的方法可用于檢測和定量與基因或蛋白質(zhì)表達(dá)改變相關(guān)的狀況、疾病或病癥的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使rna(mrna)、核糖體rna(rrna)、轉(zhuǎn)移rna(trna)、微rna(mirna)、反義rna(asrna)及類似物的改變和/或修飾。本文描述的方法還可用于檢測和定量改變的基因表達(dá)、mrna表達(dá)的不存在/存在相對于過度、或用于在治療干預(yù)過程中監(jiān)測mrna水平。與表達(dá)改變相關(guān)的狀況、疾病或病癥包括特發(fā)性肺動脈高壓、繼發(fā)性肺動脈高壓、細(xì)胞增殖性疾病,特別是間變性少突神經(jīng)膠質(zhì)瘤、星形細(xì)胞瘤、少突星形細(xì)胞瘤、成膠質(zhì)細(xì)胞瘤、腦膜瘤、神經(jīng)節(jié)細(xì)胞瘤、神經(jīng)元腫瘤、多發(fā)性硬化癥、亨廷頓病、乳腺癌、前列腺癌、胃腺癌、轉(zhuǎn)移性神經(jīng)內(nèi)分泌癌、非增殖性纖維囊性和增殖性纖維囊性乳腺疾病、膽囊炎和膽石病、骨關(guān)節(jié)炎和類風(fēng)濕性關(guān)節(jié)炎;獲得性免疫缺陷綜合征(aids)、阿狄森病、成人呼吸窘迫綜合征、過敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生癥、支氣管炎、切東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、重度聯(lián)合免疫缺陷病(scid)、斯耶格倫綜合征、全身過敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、血液透析、體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲、原生動物和蠕蟲感染;催乳素生成疾病、不育,包括輸卵管疾病、排卵缺陷和子宮內(nèi)膜異位、動情周期中斷、月經(jīng)周期中斷、多囊卵巢綜合征、卵巢過度刺激綜合征、子宮內(nèi)膜或卵巢腫瘤、子宮肌瘤、自身免疫性疾病、子宮外孕和畸形發(fā)生;乳腺癌、纖維囊性乳腺疾病和乳溢;精子發(fā)生中斷、精子生理異常、良性前列腺增生癥、前列腺炎、peyronie病、性無能、男子女性型乳房;光化性角膜炎、動脈硬化、滑囊炎、硬變、肝炎、混合性結(jié)締組織疾病(mctd)、骨髓纖維化、陣發(fā)性睡眠性血紅蛋白尿、真性紅細(xì)胞增多癥、原發(fā)性血小板增多癥、癌癥并發(fā)癥、癌癥——包括腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌。另一方面,本發(fā)明的核酸。
本文描述的方法可用于檢測和定量與基因或蛋白質(zhì)表達(dá)改變相關(guān)的疾病的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使rna(mrna)、核糖體rna(rrna)、轉(zhuǎn)移rna(trna)、微rna(mirna)、反義rna(asrna)及類似物的改變和/或修飾。本文描述的方法還可用于檢測和定量改變的基因表達(dá);mrna的表達(dá)不存在、存在或過度;或用于在治療干預(yù)過程中監(jiān)測mrna水平。與表達(dá)改變相關(guān)的疾病包括靜坐不能、阿爾茨海默癥、健忘癥、肌萎縮性側(cè)索硬化、共濟(jì)失調(diào)、雙極性疾病、緊張癥、大腦性麻痹、腦血管疾病、克-雅二氏病、癡呆、抑郁、唐氏綜合征、遲發(fā)性運(yùn)動障礙、張力障礙、癲癇、亨廷頓病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森病、皮克病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情緒疾病、老年癡呆、中風(fēng)、圖雷特綜合征和癌癥——包括腺癌、黑素瘤和畸胎癌,特別是腦癌。
為提供與基因表達(dá)相關(guān)的狀況、疾病或病癥的診斷依據(jù),建立了正?;驑?biāo)準(zhǔn)表達(dá)概況。這可通過在雜交或擴(kuò)增條件下將用探針從正常對象——動物或人類提取生物樣本組合而實現(xiàn)。標(biāo)準(zhǔn)的雜交可通過將利用正常對象獲得的值與實驗值進(jìn)行比較而被定量,該實驗采用已知量的基本上純化的目標(biāo)序列??蓪⑦@種方式下獲得的標(biāo)準(zhǔn)值與得自癥狀顯示為特定狀況、疾病或病癥的患者的樣本的值進(jìn)行比較。利用標(biāo)準(zhǔn)值與特定狀況相關(guān)的值的偏差來診斷該狀況。
這種分析還可用于評價動物研究和臨床試驗中具體治療性處理方案的效力,或監(jiān)測個體患者的治療。在狀況的存在確立并且治療方案啟動后,可定期反復(fù)進(jìn)行診斷分析,以確定患者體內(nèi)的表達(dá)水平是否開始接近正常對象中觀察的水平。該分析還可用于檢測、定量或測量指示和/或鑒定腫瘤存在、腫瘤不存在或進(jìn)行臨床處理或治療的個體的緩解狀態(tài)的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括對信使rna(mrna)、核糖體rna(rrna)、轉(zhuǎn)移rna(trna)、微rna(mirna)、反義rna(asrna)及類似物的改變和/或修飾。由連續(xù)的分析獲得的結(jié)果可用于顯示數(shù)天至數(shù)月范圍時間的治療效力。
本文公開的方法還可用于檢測、定量和關(guān)聯(lián)之前未被鑒定或關(guān)聯(lián)于特定臨床疾病、病癥或狀況的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾的變化,包括信使rna(mrna)、核糖體rna(rrna)、轉(zhuǎn)移rna(trna)、微rna(mirna)、反義rna(asrna)及類似物的改變和/或修飾。在可選方案中,本文公開的方法可用于鑒定新的臨床疾病、病癥或狀況。然后,可將基因結(jié)構(gòu)、基因突變和基因生物化學(xué)修飾的新變化與核酸序列或蛋白質(zhì)序列的已知化學(xué)和生物化學(xué)性質(zhì)進(jìn)行比較,并可利用與臨床疾病、病癥或病癥相關(guān)的上述改變生成關(guān)于細(xì)胞代謝的新數(shù)據(jù)庫和認(rèn)識,用于臨床應(yīng)用。
模型系統(tǒng)
動物模型可被用作生物分析,此時其呈現(xiàn)與人類類似的毒性響應(yīng),并且其中暴露條件是與人類暴露相關(guān)的。哺乳動物是最常見的模型,并且大多數(shù)毒性研究是對嚙齒動物如大鼠或小鼠進(jìn)行的,這是因為低成本、可用性和充足的參考毒理學(xué)。嚙齒動物近交品系提供用于研究目的基因表達(dá)不足或過表達(dá)的生理結(jié)果和發(fā)展疾病診斷和治療方法的便利模型。過表達(dá)特定基因(例如,分泌在乳汁中)的哺乳動物近交品系還可充當(dāng)由該基因表達(dá)的蛋白質(zhì)的便利來源。
毒理學(xué)
毒理學(xué)是試劑對活系統(tǒng)的影響的研究。多數(shù)毒性研究對大鼠或小鼠進(jìn)行,以有助于預(yù)期這些試劑對人類健康的影響。生理、行為、穩(wěn)態(tài)過程和致死性的定性和定量變化的觀察被用于生成毒性概況和評估在暴露于試劑后對人類健康的影響。
遺傳毒理學(xué)鑒定和分析產(chǎn)生遺傳突變的試劑的能力。遺傳毒性試劑通常具有有助于與核酸相互作用的共同化學(xué)或物理性質(zhì),并且在染色體異常傳給后代時最為有害。毒理學(xué)研究可鑒定增加后代結(jié)構(gòu)或功能異常性頻率的試劑——如果在受孕前給予任一親代、在妊娠期間給予母體或給予發(fā)育生物體。小鼠和大鼠最常用于這些測試,因為其繁殖周期短,產(chǎn)生符合統(tǒng)計學(xué)要求所需的生物體數(shù)量。
急性毒性測試基于將試劑單次給予對象以確定試劑的癥狀學(xué)或致死性。進(jìn)行三個實驗:(a)初始劑量范圍調(diào)查實驗、(b)縮窄有效劑量范圍的實驗和(c)建立劑量響應(yīng)曲線的最終實驗。
長期毒性測試基于反復(fù)給予試劑。大鼠和狗常用于這些研究,以提供不同種家族物種的數(shù)據(jù)。除致癌作用外,相當(dāng)多的證據(jù)證明以高劑量濃度每日給予試劑三至四個月的時間將揭示成年動物毒性的大多數(shù)形式。
利用持續(xù)一年或更長時間的慢性毒性測試來證明試劑不存在毒性或具有致癌可能性。在對大鼠進(jìn)行研究時,應(yīng)用最少三個測試組加一個對照組,并且在實驗開始和在整個實驗過程中每隔一段時間檢查和監(jiān)測動物。
轉(zhuǎn)基因動物模型
過表達(dá)目的基因或目的基因表達(dá)不足的轉(zhuǎn)基因嚙齒動物可以是近交的,并用于模擬人類疾病或測試治療劑或毒性劑。(參見美國專利號4,736,866;5,175,383;和5,767,337;引入本文作為參考。)在一些情況下,引入的基因可在胎兒發(fā)育或出生后在特異組織類型中、于特異時間被活化。轉(zhuǎn)基因的表達(dá)通過如下得到監(jiān)測:在用實驗藥物治療進(jìn)行挑戰(zhàn)之前、之中和之后分析轉(zhuǎn)基因動物的表型或組織特異性mrna表達(dá)。
胚胎干細(xì)胞
從嚙齒動物胚胎分離的胚胎干細(xì)胞(es)保持形成胚胎的潛力。當(dāng)將es細(xì)胞置于載體胚胎中時,其恢復(fù)正常發(fā)育,并有助于活的出生動物的全部組織。es細(xì)胞是用于生成實驗敲除和敲入嚙齒動物品系的優(yōu)選細(xì)胞。小鼠es細(xì)胞,如小鼠129/svj細(xì)胞系,得自早期小鼠胚胎,并在本領(lǐng)域公知的培養(yǎng)條件下生長。敲除品系的載體包含候選疾病基因,該疾病基因候選體被修飾以包括標(biāo)記基因,該標(biāo)記基因中斷體內(nèi)轉(zhuǎn)錄和/或翻譯。載體通過轉(zhuǎn)化方法如電穿孔、脂質(zhì)體遞送、微注射及本領(lǐng)域公知的類似方法被引入es細(xì)胞。內(nèi)源嚙齒動物基因在細(xì)胞分裂期間通過同源重組和整合被中斷的疾病基因取代。轉(zhuǎn)化的es細(xì)胞被鑒定,并優(yōu)選被微注入小鼠細(xì)胞胚泡,如來自c57bl/6小鼠品系的小鼠細(xì)胞胚泡。胚泡被外科轉(zhuǎn)移至假孕雌親,并將所得的嵌合后代進(jìn)行基因分型和繁殖,以生成雜合或純合品系。
es細(xì)胞還被用于研究各種細(xì)胞類型和組織的體外分化,如神經(jīng)細(xì)胞、造血譜系和心肌細(xì)胞(bainetal.(1995)dev.biol.168:342-357;wilesandkeller(1991)development111:259-267;和klugetal.(1996)j.clin.invest.98:216-224)。近期的發(fā)展證明,得自人胚細(xì)胞的es細(xì)胞還可在體外操作,分化成為八個單獨的細(xì)胞系,包括內(nèi)胚層、中胚層和外胚層細(xì)胞類型(thomson(1998)science282:1145-1147)。
敲除分析
在基因敲除分析中,候選人類疾病基因區(qū)域經(jīng)酶修飾包括非哺乳動物基因,如新霉素磷酸轉(zhuǎn)移酶基因(neo;參見,例如,capecchi(1989)science244:1288-1292)。插入的編碼序列中斷目標(biāo)基因的轉(zhuǎn)錄和翻譯,并阻止疾病候選蛋白質(zhì)的生物化學(xué)合成。修飾的基因被轉(zhuǎn)化到培養(yǎng)的胚胎干細(xì)胞(上文所述)中,轉(zhuǎn)化的細(xì)胞被注入嚙齒動物囊胚,并且囊胚被植入假孕雌親。轉(zhuǎn)基因后代經(jīng)雜交獲得純合近交系。
敲入分析
全能es細(xì)胞,存在于胚胎發(fā)育早期,可被用于生成人類疾病的敲入型人源化動物模型(豬)或轉(zhuǎn)基因動物模型(小鼠或大鼠)。在敲入技術(shù)下,人類基因區(qū)域被注入動物es細(xì)胞,并且人類序列通過重組整合到動物細(xì)胞基因組中。包含整合的人類基因的全能es細(xì)胞被如上所述處理。對近交動物進(jìn)行研究和處理,以獲得關(guān)于類似的人類狀況的信息。這些方法已被用于模擬數(shù)種人類疾病。(參見,例如,leeetal.(1998)proc.natl.acad.sci.95:11371-11376;baudoinetal.(1998)genesdev.12:1202-1216;和zhuangetal.(1998)mol.cellbiol.18:3340-3349)。
非人類靈長類動物模型
動物測試領(lǐng)域處理基礎(chǔ)科學(xué)如生理學(xué)、遺傳學(xué)、化學(xué)、藥理學(xué)和統(tǒng)計學(xué)的數(shù)據(jù)和方法。這些數(shù)據(jù)在評價治療劑對非人類靈長類動物作用中至關(guān)重要,因為其可能與人類的健康相關(guān)聯(lián)。在疫苗和藥物評價中猴被用作人類替代品,并且其響應(yīng)與人類暴露在類似情況下是相關(guān)的。獼猴(食蟹獼猴(macacafascicularis)、恒河獼猴(macacamulata))和普通狨猴(callithrixjacchus)是用于這些研究的最常見的非人類靈長類動物(nhp)。由于高成本與建立和維持nhp群體有關(guān),早期研究和毒理學(xué)研究通常在嚙齒動物模型中進(jìn)行。在應(yīng)用行為測量如藥物成癮的研究中,nhp是測試動物第一選擇。此外,nhp和個人對多種藥物和毒素呈現(xiàn)不同的敏感性,并且可被分成這些試劑的“廣代謝體”和“弱代謝體”。
發(fā)明的示例性應(yīng)用
個性化藥物保證向最可能獲益的那些患者遞送特定治療(一種或多種)。我們已顯示,約一半的治療性化合物在一種或多種臨床相關(guān)的轉(zhuǎn)錄或基因組乳腺癌亞型中優(yōu)先有效。這些發(fā)現(xiàn)支持確定響應(yīng)相關(guān)分子亞型在乳腺癌治療中的重要性。我們還顯示,關(guān)于細(xì)胞系的轉(zhuǎn)錄和基因組數(shù)據(jù)的途徑整合揭示了子網(wǎng)絡(luò),其為觀察到的亞型特異性響應(yīng)提供機(jī)理解釋。細(xì)胞系與腫瘤之間子網(wǎng)絡(luò)活性的比較分析顯示,多數(shù)亞型特異性子網(wǎng)絡(luò)在細(xì)胞系與腫瘤之間保留。這些分析支持如下觀點:臨床前在充分表征的細(xì)胞系小組中篩選實驗化合物能夠鑒定候選的響應(yīng)相關(guān)分子標(biāo)志,該候選的響應(yīng)相關(guān)分子標(biāo)志能夠用于早期臨床試驗中的敏感性富集。我們提出,這種體外評估方法將增加在化合物臨床開發(fā)開始前鑒定到響應(yīng)性腫瘤亞型的似然(likelihood),從而降低成本,增加最終fda批準(zhǔn)的可能性,和有可能避免與治療不可能響應(yīng)的患者相關(guān)的毒性。在本研究中,我們僅已評估限定轉(zhuǎn)錄亞型的分子標(biāo)志和所選的再現(xiàn)基因組拷貝數(shù)異常(cna)。我們預(yù)期,本方法的能力和精確性將隨著分析中包括額外的分子特征如遺傳突變、甲基化和可選的剪接而增加。同樣,增加細(xì)胞系小組的大小將增加評估小組內(nèi)較不常見的分子樣式的能力和增加代表人類乳腺癌中存在的多樣性的更完整范圍的概率。
在此,我公開了新的軟件工具,我們稱其為bambam,其能夠快速比較腫瘤(體細(xì)胞)與種系匹配的測序數(shù)據(jù)組。bambam輸出的結(jié)果不同,產(chǎn)生各患者樣本包含的體細(xì)胞和種系變體的詳盡目錄。該目錄為研究人員提供了快速發(fā)現(xiàn)腫瘤發(fā)展過程中發(fā)生的重要變化的能力,還提供了患者種系中存在的可指示疾病易患性的高質(zhì)量變體。bambam的進(jìn)一步改進(jìn)將由具體搜索相同的基因組區(qū)域中存在的可指出腫瘤發(fā)生的驅(qū)動因子的多種類型的變體(例如,基因的一個等位基因缺失,另一等位基因包含斷點的截短突變)的方法組成。我們還計劃擴(kuò)展bambam管線(pipeline)的能力。
在另外的實施方式中,多核苷酸核酸可用于待開發(fā)的任何分子生物技術(shù),只要新技術(shù)依賴于當(dāng)前已知的核酸分子的性質(zhì),包括但不限于,諸如三倍體遺傳密碼和具體堿基對的相互作用的性質(zhì)。
參考下面的實施例,本發(fā)明將更容易被理解,該實施例被包括在內(nèi)僅為示例本發(fā)明的某些方面和實施方式,而非限制。
實施例
實施例i:通過參考基因組進(jìn)行的數(shù)據(jù)組同步化
將全部短閱讀均與相同的參考基因組進(jìn)行比對,使參考基因組成為由多個相關(guān)的樣本組織序列數(shù)據(jù)的自然方式。bambam接收兩個短閱讀測序數(shù)據(jù)組——一個來自腫瘤,另一個是來自相同患者的匹配正?;?“種系”)和參考基因組,并讀取這些數(shù)據(jù)組,使得兩數(shù)據(jù)組中重疊相同基因組位置的全部序列可用于同時處理。這是處理這種數(shù)據(jù)的最有效方法,同時還能夠進(jìn)行復(fù)雜分析,該分析將難以或不能以順序方式實現(xiàn),在此各數(shù)據(jù)組被單獨處理,結(jié)果僅在之后組合。
這種方法容易被擴(kuò)展至兩個以上的相關(guān)測序數(shù)據(jù)組。例如,如果將三個樣本——匹配的正常樣本、腫瘤樣本和復(fù)發(fā)樣本——測序,則本方法可用于搜索針對腫瘤&復(fù)發(fā)樣本特異的變化和僅針對復(fù)發(fā)特異的變化,這表明復(fù)發(fā)腫瘤已由其據(jù)推測衍生來源的原腫瘤略微發(fā)生變化。而且,可應(yīng)用這種相同的方法確定兒童基因組的遺傳部分,假設(shè)測序樣本來自兒童、父親和母親。
實施例ii:體細(xì)胞和種系變體呼叫
由于bambam保持整個同步基因組中的序列數(shù)據(jù)同時處于成對文件中,可容易實施需要來自腫瘤和種系bam文件以及人類參考的測序數(shù)據(jù)的復(fù)雜突變模型。該模型旨在最大化種系基因型(假設(shè)種系閱讀和參考核苷酸)和腫瘤基因型(假設(shè)種系基因型、簡單突變模型、腫瘤樣本中污染正常組織的分?jǐn)?shù)的評估和腫瘤序列數(shù)據(jù))的聯(lián)合概率(jointprobability)。
為找到最佳的腫瘤和種系基因型,我們旨在最大化如下限定的似然
p(dg,dt,gg,gt,α,r)
=p(dg|gg)p(gg|r)p(dt|gg,gt,α)p(gt|gg)
其中r是觀察的參考等位基因,α是正常污染的分?jǐn)?shù),并且腫瘤和種系基因型由gt=(t1,t2)和gg=(g1,g2)限定,其中t1,t2,g1,g2∈{a,t,c,g}。腫瘤和種系序列數(shù)據(jù)分別由如下閱讀組限定:
種系等位基因——假設(shè)種系基因型——的概率被模擬為基于四種核苷酸的多項式:
其中n是該位置種系閱讀的總數(shù),na,ng,nc,nt是支持各觀察到的等位基因的閱讀。堿基概率
p(gg|r=a)={μaa;μab;μbb},
其中μaa是該位置作為純合參考的概率,μab是雜合參考,并且μbb是純合非參考。此時,種系先驗不包括關(guān)于已知的遺傳snp的任何信息。
腫瘤閱讀組的概率再次被限定為多項式
其中m是該位置種系閱讀的總數(shù),ma,mg,mc,mt是支持腫瘤數(shù)據(jù)組中各觀察到的等位基因的閱讀,并且各腫瘤閱讀的概率是得自腫瘤和種系基因型的堿基概率的組合,其受控于正常污染的分?jǐn)?shù)α,為
并且腫瘤基因型的概率由種系基因型的簡單突變模型限定
p(gt|gg)=max|p(t1|g1)p(t2|g2),p(t1|g2)p(t2|g1)]
其中無突變的概率(例如,t1=g1)是最大的,并且轉(zhuǎn)換(即,a→g,t→c)的概率比顛換(即,a→t,t→g)的概率可能高四倍。多項分布的所有模型參數(shù)α,μaa,μab,μbb和堿基概率,p(di|g)可由用戶設(shè)定。
選定的腫瘤和種系基因型
可用于評定成對推斷基因型的可信度。如果腫瘤和種系基因型不同,則推定的體細(xì)胞突變(一個或多個)將會連同其各自的可信度被報告。
最大化腫瘤和種系基因型的聯(lián)合似然(jointlikelihood)有助于提高推斷基因型的準(zhǔn)確性,特別是在一個或兩個序列數(shù)據(jù)組具有低覆蓋的特定基因組位置的情況下。其他突變呼叫算法,如分析單個測序數(shù)據(jù)組的maq和snvmix,在非參考或突變體等位基因具有低支持時更有可能產(chǎn)生錯誤(li,h.,etal.(2008)mappingshortdnasequencingreadsandcallingvariantsusingmappingqualityscores,genomeresearch,11,1851-1858;goya,r.etal.(2010)snvmix:predictingsinglenucleotidevariantsfromnext-generationsequencingoftumors,bioinformatics,26,730-736)。
除由給定基因組位置處的全部閱讀收集等位基因支持外,還收集關(guān)于閱讀的信息(如其使讀取圖滯留于、前進(jìn)至或倒退至閱讀中的等位基因位置,等位基因平均質(zhì)量,等),并將其用于選擇性濾出假陽性呼叫。我們預(yù)期,支持變體的所有等位基因的鏈和等位基因位置隨機(jī)分配,并且如果分配顯著偏離此隨機(jī)分配(即,發(fā)現(xiàn)所有變體等位基因接近閱讀尾部),則這表明變體呼叫是可疑的。
實施例iii:全部拷貝數(shù)和等位基因特異的拷貝數(shù)
利用動態(tài)窗口顯示方法計算全部體細(xì)胞拷貝數(shù),該動態(tài)窗口顯示方法根據(jù)腫瘤或種系數(shù)據(jù)的覆蓋擴(kuò)大或縮小窗口基因組寬度。該方法以零寬度的窗口初始。腫瘤或種系序列數(shù)據(jù)的每個單獨閱讀將記錄為腫瘤計數(shù)nt或種系計數(shù)ng。各閱讀的開始和終止位置將限定窗口區(qū)域,該窗口區(qū)域在新閱讀超過現(xiàn)有窗口的界限時擴(kuò)大。在腫瘤或種系計數(shù)超過用戶限定閾時,記錄窗口的尺寸和位置,以及nt、ng和相對覆蓋度nt。根據(jù)局部讀取覆蓋調(diào)整ng窗口尺寸將產(chǎn)生低覆蓋區(qū)域(例如,重復(fù)區(qū)域)大窗口或顯示體細(xì)胞擴(kuò)增區(qū)域的小窗口,從而增加擴(kuò)增子的基因組分辨率和增加我們限定擴(kuò)增界限的能力。
類似地計算等位基因特異性拷貝數(shù)——除僅包括認(rèn)為是種系雜合的位置外,如示(參見圖2)。雜合性被限定為在種系中被認(rèn)為具有兩個不同的等位基因的位置,每個親代貢獻(xiàn)一個等位基因。利用相同的動態(tài)窗口顯示技術(shù)——上文所述用于全部拷貝數(shù),計算多數(shù)和少數(shù)拷貝數(shù),從而匯集相同基因組附近的數(shù)據(jù)。雜合位點的多數(shù)等位基因在本文中被限定為這樣的等位基因:其在腫瘤數(shù)據(jù)組中具有最大數(shù)量的重疊該基因組位置的支持閱讀,而少數(shù)等位基因是具有最少支持的等位基因。腫瘤和種系數(shù)據(jù)中歸因于多數(shù)等位基因的所有計數(shù)均將進(jìn)行多數(shù)拷貝數(shù)計算,少數(shù)等位基因同樣也是。然后通過種系數(shù)據(jù)ng中兩種等位基因的計數(shù),標(biāo)準(zhǔn)化多數(shù)和少數(shù)等位基因的計數(shù),從而計算多數(shù)和少數(shù)拷貝數(shù)。
利用等位基因特異性拷貝數(shù)鑒定顯示雜合性丟失(拷貝中性和拷貝損失)以及單個等位基因特異性擴(kuò)增或缺失的基因組區(qū)域。最后這點對于幫助將引起疾病的等位基因可能地區(qū)分為在腫瘤序列數(shù)據(jù)中擴(kuò)增或未缺失的等位基因尤為重要。此外,經(jīng)受半合損失的區(qū)域(例如,一個親代染色體臂)可用于直接評估測序腫瘤樣本中正常污染物量,其可用于提高上述種系和腫瘤基因型的模擬。
圖2顯示等位基因特異的拷貝數(shù)計算的概括。利用種系和腫瘤測序數(shù)據(jù)確定雜合基因型的位置,如通過種系變體呼叫算法確定。收集所有重疊這些位置的閱讀,并且在腫瘤和種系中發(fā)現(xiàn)雜合基因型兩個等位基因中每一個的閱讀支持。多數(shù)等位基因被確定為具有最高支持的等位基因,并且通過由種系中該位置的閱讀總數(shù)標(biāo)準(zhǔn)化該計數(shù)來計算多數(shù)拷貝數(shù)。
實施例iv:基因型分階
bambam試圖通過利用腫瘤中大規(guī)模的基因組擴(kuò)增或缺失所引起的等位基因失衡,使在種系中發(fā)現(xiàn)的所有雜合位置分階。在腫瘤序列數(shù)據(jù)的每個位置選擇多數(shù)投票基礎(chǔ)呼叫(votebasecall),從而構(gòu)建腫瘤中存在的分階的單倍型。多數(shù)投票選擇短閱讀庫中所觀察到的數(shù)量最多的等位基因,其應(yīng)選擇在缺失事件后仍在腫瘤中的等位基因或擴(kuò)增事件的復(fù)制等位基因。還鑒定各個位置上種系的等位基因狀態(tài),在此如果僅存在一個具有所需閱讀支持的等位基因,則認(rèn)為是純合位置,如果至少兩個等位基因具有所需閱讀支持則認(rèn)為是雜合位置。假設(shè)腫瘤的單倍型代表兩個親代單倍型其中之一,在此得到第二親代單倍型作為不屬于腫瘤單倍型的種系等位基因序列。此程序在基因組范圍被應(yīng)用,而與腫瘤中的等位基因比例無關(guān),因此我們預(yù)期將在多數(shù)和少數(shù)等位基因之間同樣平衡的區(qū)域中基本上隨機(jī)的基因型的單倍型分配。種系序列的準(zhǔn)確分解將僅存在于這樣的區(qū)域:顯示一致的等位基因失衡,該等位基因失衡是由于腫瘤中的單個基因組事件(例如,區(qū)域擴(kuò)增或缺失)。
腫瘤衍生的單倍型的確定可通過比較腫瘤衍生的單倍型與得自hapmap項目(internationalhapmapconsortium(2007),nature,7164:851-861)的分階的基因型實現(xiàn)。
實施例v:利用成對末端聚簇推斷結(jié)構(gòu)變化
為鑒定推定的染色體內(nèi)和染色體間重排,bambam搜索不一致的成對閱讀,在此,配對中的各閱讀映射參考序列的離散區(qū)域。染色體內(nèi)不一致的配對是具有異常大插入尺寸的配對(即,參考序列上分隔成對閱讀的基因組距離超過用戶限定閾值)或以不正確定向映射(即倒位)的配對。染色體間不一致的配對由映射不同染色體的成對閱讀限定。與其他配對比對相同位置的所有不一致的成對末端閱讀被去除,以避免僅由源自短閱讀庫制備中pcr擴(kuò)增步驟的大量閱讀支持的呼叫重排。該過程的概括顯示在圖3中。
所有不一致的成對末端閱讀按照其基因組位置進(jìn)行聚簇,以限定近似的基因組區(qū)域,其中斷點被認(rèn)為存在于此。聚集過程由如下組成:將與推定的斷點兩側(cè)的其他閱讀重疊的單獨閱讀分組在一起。所有重疊閱讀的鏈定向還必須匹配配對簇或不被包括在配對簇中。當(dāng)簇中重疊的不一致配對的數(shù)超過用戶限定閾時,限定描述重排的斷點。如果重排存在于種系和腫瘤數(shù)據(jù)組的相同位置時,則如下將其進(jìn)行比較。種系重排要求,腫瘤和種系數(shù)據(jù)組支持相同的重排,這是因為在種系中觀察到的結(jié)構(gòu)變化在腫瘤中以某種方式被逆轉(zhuǎn)從而精確地符合參考序列,是非常不可能的。另一方面,體細(xì)胞重排必須僅在腫瘤測序數(shù)據(jù)中被觀察到,并且基本上不存在于種系數(shù)據(jù)組中。滿足這些要求的重排被存儲用于后處理分析和可視化,而不滿足這些要求的重排被舍棄,作為測序儀器、樣本制備(如全基因組擴(kuò)增)或所用短閱讀映像算法的系統(tǒng)性偏差造成的人造重排。
圖3顯示結(jié)構(gòu)變化呼叫的概括。推定的結(jié)構(gòu)變體的最初鑒定是通過bambam利用不一致映射的閱讀對確定的,在此兩閱讀完全映射參考基因組,但是以異常的非參考方式。然后通過被稱為bridget的程序、利用任何可用的拆分閱讀,完善由bambam發(fā)現(xiàn)的推定的斷點。
實施例vi:利用拆分閱讀(splitread)完善結(jié)構(gòu)變化
bambam最初發(fā)現(xiàn)的斷點是近似的,這是因為其采用完全映射閱讀,完全映射閱讀其本質(zhì)上不能重疊斷點的實際接合處,因為其表示參考序列(或種系數(shù)據(jù)組,在體細(xì)胞重排的情況下)中不存在的序列。為完善我們對斷點位置的了解,開發(fā)了被稱為bridget的程序,其被概述在圖4中。
bridget被給予由bambam發(fā)現(xiàn)的近似斷點,并通過完全映射配對(mate)搜索錨定在推定的斷點附近的所有未比對的閱讀。這些未映射的閱讀中的每一個均具有成為“拆分閱讀”的潛力,該“拆分閱讀”與重排斷點接合處重疊。斷點兩側(cè)周圍局部化的基因組序列被拆分成一組獨特的片段(tile)(目前片段尺寸=16bp),并且建立片段序列及其在參考基因組中的位置的片段數(shù)據(jù)庫。通過將閱讀拆分為相同尺寸的片段和在閱讀中標(biāo)注其位置,對每個未比對的閱讀構(gòu)建類似的片段數(shù)據(jù)庫。將參考片段數(shù)據(jù)庫與未比對片段數(shù)據(jù)庫進(jìn)行比較,確定各未比對片段在參考中的基因組位置。通過確定在參考閱讀和未比對閱讀——斷點一側(cè)一個——中連續(xù)的的最大組片段,計算這些位置的“雙生成集(dualspanningset)”。
參考坐標(biāo)中“雙生成集”的最小和最大基因組位置精確地確定了斷點的位置以及序列的定向(或鏈型(strandedness))。在具有描述斷點左側(cè)邊限和右側(cè)邊限的信息的情況下,重排的序列被完全限定,即,左側(cè)被(染色體=chrl,位置=1000bp,鏈=正向)限定,右側(cè)被(染色體=chr5,位置=500,000bp,鏈=反向)限定。斷點的序列同源性(即,短序列,如“ca”被觀察到在斷點兩個邊限上是一致的,但僅在兩序列的接合處比對的閱讀中被觀察到一次)也由這些雙生成集確定。
對于每個未比對的閱讀,雙生成集確定可能的斷點位置。由于各未比對的閱讀可確定略微不同的斷點位置(因為斷點附近的序列錯誤、重復(fù)參考等),利用所有由雙生成集確定的斷點位置來生成可能的接合序列。將所有未映射的閱讀與這些可能的接合序列中的每一個重新比對,并且相對于閱讀如何與原序列完美比對來測量其比對的總體提高。導(dǎo)致比對分?jǐn)?shù)最大提高的接合序列被評為真重排的最佳候選。如果此最佳接合序列導(dǎo)致比對分?jǐn)?shù)極少至無提高,則此接合序列被舍棄,因為其不能表示真重排。在這種情況下,還可確定,拆分閱讀確認(rèn)的不存在是證據(jù),證明由bambam發(fā)現(xiàn)的原始結(jié)構(gòu)重排可能是人造的。
圖4顯示精確地鑒定基因組中發(fā)生結(jié)構(gòu)重排的位置的示例性方法。確定可能的拆分閱讀和參考基因組的片段(或kmers)。確定雙生成集(表示為該圖底部的深紅色和紫色框),其完全限定如何構(gòu)建重排序列。雙生成集對于拆分閱讀中序列錯誤或snp是強(qiáng)力的。
實施例vii:腫瘤特異性基因組瀏覽器
為可視化bambam輸出的所有結(jié)果,開發(fā)了腫瘤基因組瀏覽器,其同時顯示在單個腫瘤樣本中發(fā)現(xiàn)的所有基因組變體——相對于其匹配的正常基因組,如圖5所示。其能夠顯示全部&等位基因特異的拷貝數(shù)、染色體內(nèi)和染色體間重排和突變以及小插入/缺失。其以線性和環(huán)形圖顯示數(shù)據(jù),后者遠(yuǎn)明顯更適于顯示染色體間重排。
通過在單個圖像中一起顯示數(shù)據(jù),用戶可快速瀏覽單個樣本的數(shù)據(jù),并了解拷貝數(shù)變化和結(jié)構(gòu)變化之間的關(guān)系。例如,大型的染色體內(nèi)缺失類型的重排在斷點之間的區(qū)域應(yīng)具有一致的拷貝數(shù)下降。而且,用拷貝數(shù)數(shù)據(jù)顯示突變數(shù)據(jù)使用戶能夠了解體細(xì)胞突變是否隨后被擴(kuò)增或野生型等位基因是否在腫瘤中缺失,兩種重要的數(shù)據(jù)點均表明在此樣本的腫瘤發(fā)生中基因組位點的重要性。
圖5顯示示例性腫瘤特異性基因組瀏覽器。該瀏覽器在單個圖像中顯示通過bambam發(fā)現(xiàn)的所有高水平體細(xì)胞差異,使得能夠合成多個不同的數(shù)據(jù)組以給出腫瘤基因組的全部圖片。該瀏覽器能夠快速放大和縮小基因組區(qū)域,如上所示,僅以若干次點擊由完整的基因組視圖變成單堿基分辨率。
實施例viii:計算要求
bambam和bridget均以c編寫,僅需要標(biāo)準(zhǔn)c庫和最新的sam工具源代碼(可得自http://samtools.sourceforge.net)。其可作為單個過程運(yùn)行,或在整個簇中拆分成一系列工作(job)(例如,每條染色體一個工作)。處理各包含數(shù)十億個100bp閱讀的成對250gbbam文件,bambam將在約5小時內(nèi)以單個過程完成其全基因組分析,或在約30分鐘內(nèi)基于適度的簇(24個節(jié)點)完成其全基因組分析。bambam的計算要求可被忽略,僅需要足夠的ram以存儲與單個基因組位置重疊的閱讀數(shù)據(jù)和足夠的盤空間以存儲在腫瘤或種系基因組中發(fā)現(xiàn)的被充分支持的變體。
bridget也具有非常適度的計算要求。在單個機(jī)器上的運(yùn)行時間一般小于1秒,其包括集合參考序列和斷點附近任何潛在的拆分閱讀、建立參考和拆分閱讀的片段數(shù)據(jù)庫、確定所有雙生成集、構(gòu)建潛在的接合序列、將所有拆分閱讀與參考序列和各接合序列重新比對、以及確定最佳接合序列所必需的時間。高度擴(kuò)增的或具有大量未映射閱讀的區(qū)域增加bridget的運(yùn)行時間,但這可通過bridget的易于平行性被緩解。
實施例ix:基因組dna的分離
從患者收集血液或其他組織樣本(2-3ml),并將其在-80℃下儲存在含edta的管中,備用。按照制造商的說明書(puregene,gentrasystems,minneapolismn),利用dna分離試劑盒,從血液樣本提取基因組dna。測量dna純度,為260和280nm下的吸光比(1cm光路;a260/a280),用beckman分光光度計測量。
實施例x:snp的鑒定
通過pcr,利用為該區(qū)域特異設(shè)計的引物擴(kuò)增患者dna樣本的基因區(qū)域。利用本領(lǐng)域技術(shù)人員公知的方法測序pcr產(chǎn)物,如上所述。利用phred/phrap/consed軟件驗證在序列軌跡中鑒定的snp,并將其與ncbisnp數(shù)據(jù)庫中存儲的已知snp進(jìn)行比較。
實施例xi:統(tǒng)計學(xué)分析
值被表示為平均值±sd.χ2分析(webchi平方計算器,georgetownlinguistics,georgetownuniversity,washingtondc)被用于評估正常對象與疾病患者的基因型頻率之間的差異。如所示地,進(jìn)行兼帶事后分析(post-hocanalysis)的單向anova,以比較不同患者組之間的血液動力學(xué)。
本領(lǐng)域技術(shù)人員將理解,上述實施方式的多種改動和修改可被配置而不脫離本發(fā)明的范圍和精神。本領(lǐng)域已知的其他適當(dāng)?shù)募夹g(shù)和方法可以多種具體方式被本領(lǐng)域技術(shù)人員根據(jù)本文所述的本發(fā)明描述而應(yīng)用。因此,要理解的是,本發(fā)明可除本文具體描述以外進(jìn)行實踐。上文描述意為示例性的,而非限制性的?;陂喿x上文描述,多種其他實施方式將對本領(lǐng)域技術(shù)人員而言是顯而易見的。因此,本發(fā)明的范圍應(yīng)參考所附權(quán)利要求以及該權(quán)利要求應(yīng)得的全部等同范圍而確定。