相關(guān)申請的交叉引用
本申請要求2014年11月5日提交的美國臨時專利申請no.62/075,449和2014年11月6日提交的美國臨時專利申請no.62/075,949的權(quán)益,特此將這些美國臨時專利申請的全部內(nèi)容以引用方式并入本文。
背景技術(shù):
基因組序列方法(全外顯子組測序和全基因組測序)已揭示了許多dna序列變異(即,多態(tài)性)。這些遺傳變異包括單核苷酸多態(tài)性(snp)和結(jié)構(gòu)變異,諸如插入/缺失(indel)、拷貝數(shù)變異(cnv)、轉(zhuǎn)座、序列重排。已開展了全基因組關(guān)聯(lián)研究(gwas),以便揭示snp與人類疾病和許多性狀之間的關(guān)聯(lián)性。然而,gwa研究主要關(guān)注常見變體,這些研究僅成功確定了常見人類疾病的少量遺傳組分的意義。
預計全基因組的所謂“下一代測序”可迅速促進對疾病和各種人類性狀的遺傳基礎(chǔ)進行鑒定。迄今為止,全基因組測序已揭示了更多的遺傳變體(已揭示了1m以上的變體)。然而,尚未確定許多遺傳變體的意義與疾病或其他表型的關(guān)聯(lián)性。迄今為止,要正確解讀這些眾多的變體對于臨床醫(yī)生仍然富有挑戰(zhàn)性。
通過測序方法確定的變體被分為以下幾種:“有害變體”,這種變體是高度致病性的;“可能致病變體”;“臨床意義不確定變體”(vus),這種變體是不定的;“可能不致病變體”;以及“不致病變體”或“無臨床意義變體”[plon,se.hummutat.2008november;29(11):1282-1291(plon,se。,《人類突變》,2008年11月,第29卷,第11期,第1282-1291頁)]。中間(vus)類別的患者一般不接受額外測試或隨訪觀察,因此造成患者病癥的狀態(tài)方面的不確定性。所有變體類別的額外數(shù)據(jù)將有助于更準確地評估遺傳變體的臨床意義。
因插入或缺失產(chǎn)生的變體可使蛋白質(zhì)的氨基酸序列發(fā)生移碼,從而造成結(jié)構(gòu)改變(例如,蛋白質(zhì)截短、錯誤折疊等),繼而引起蛋白質(zhì)功能的變化或失活。這些類型的變體可使用功能分析來分類。蛋白質(zhì)編碼區(qū)中的錯義突變可通過序列分析進行解讀,尤其是在錯義突變存在于蛋白質(zhì)的高度保守功能域中的情況下。然而,不是每一種蛋白質(zhì)都有這種信息,而且并非所有蛋白質(zhì)都進行了功能分析。存在用于對功能性致病變體進行預測和優(yōu)先級排序的計算算法和數(shù)據(jù)庫(例如,sift、polyphen、aligngvgd、grantham評分、mutationtaster),但這些算法和數(shù)據(jù)庫并不完全有效。此外,難以評估非編碼序列(例如,外顯子-內(nèi)含子邊界、5’和3’非轉(zhuǎn)錄區(qū)、5’和3’非翻譯區(qū)、調(diào)控序列諸如啟動子、終止序列等)中的變體及小框內(nèi)插入和缺失以及不會引起氨基酸變化的核苷酸置換的病理作用。
當前用于評價遺傳變體(特別是vus)的臨床相關(guān)性的方法需要綜合性研究,諸如vus與疾病的共分離、與有害反式突變的并發(fā)性、攜帶者的個人和家族健康史、系統(tǒng)發(fā)生保守性的計算機評估,以及生化功能分析中蛋白質(zhì)修飾的嚴重性。然而,使用這些方法時,很難評估大量變體的意義,因為通常是按一種蛋白質(zhì)接一種蛋白質(zhì)的方式或一條序列接一條序列的方式逐一進行分析,而非“批量”分析。需要更多關(guān)于遺傳變體的可用信息。
代謝組學逐漸被公認為是一種強大的表型分析工具,其考慮了遺傳學、環(huán)境、微生物群和異源物質(zhì)的影響。代謝物表示將基因功能、非遺傳因素和表型終點聯(lián)系起來的中間生物過程。因此,對代謝物數(shù)據(jù)進行分析可確定或有助于確定遺傳變體的意義。
技術(shù)實現(xiàn)要素:
隨著個體化醫(yī)療診室中出現(xiàn)使用全基因組測序(wgs)和全外顯子組測序(wes)來診斷疾病或確定疾病風險,仍然需要一種評價遺傳序列變體(隨后稱為“遺傳變體”或簡稱為“變體”)的致病(有害)影響并由此確定變體的意義的全面方法。當前方法局限于在單個基因中評價變體的作用,不僅耗時又耗資源,而且不具備檢測序列變體對候選基因的眾多作用的全面篩選能力。因此,迫切需要一種更好的方式來確定具有潛在負面或有害作用的序列變體(即,“有意義的”遺傳變體)并能夠?qū)⑴R床意義不明或不確定的變體從vus狀態(tài)分為良性、致病或有利類別。本文所述方法使用代謝組學和計算機技術(shù)的獨特組合來滿足該需求。
本文描述了使用代謝組學來促進基于基因組序列分析的個體化醫(yī)療的方法。本文描述了使用代謝譜來確定(或有助于確定)遺傳變體的意義并且能夠鑒定用于個體化醫(yī)療的診斷變體(對健康具有有害影響的那些變體)。代謝組譜包括關(guān)于變體中性(良性)作用和有害(致病)作用的數(shù)據(jù)。此外,本文還描述了使用代謝譜來確定可能對患者健康具有正面作用的有利變體的存在。
在一個實施例中,用于鑒定受遺傳變體影響的生化途徑的方法包括:生成具有變體的受試者的小分子譜,并將該小分子譜與不具有所述變體的一個或多個個體的參考小分子譜進行比較;鑒定受該變體影響的小分子譜的生化組分;以及鑒定與所述生化組分相關(guān)聯(lián)的生化途徑,從而鑒定受該變體影響的生化途徑。
在另一個實施例中,鑒定診斷變體的方法包括在計算設(shè)備中提供描述多種生化途徑的數(shù)據(jù)集合。每種生化途徑描述鑒定與所述生化途徑相關(guān)聯(lián)的多種化合物。該方法還包括從具有所述變體的一個或多個受試者獲得樣品,并使用代謝組學分析方法處理樣品,從而獲取指示變體對代謝組譜的作用的結(jié)果數(shù)據(jù)。該結(jié)果數(shù)據(jù)指示變體譜中的至少一種化合物相對于參考(對照)譜的狀況。該方法還使用描述生化途徑的數(shù)據(jù)集合來鑒定受所指示的變體影響的至少一種生化途徑。在與該實施例相關(guān)的一個方面,提供了可對變體進行排序的評分。
在又一個實施例中,鑒定診斷變體的方法包括在計算設(shè)備中提供描述多種生化途徑的數(shù)據(jù)集合這一步驟。每種生化途徑描述鑒定與該生化途徑相關(guān)聯(lián)的多種化合物。該方法還包括對從具有所述變體的受試者獲得的樣品進行分析,并使用代謝組學分析方法處理樣品,從而獲取指示變體對代謝組譜的作用的結(jié)果數(shù)據(jù)。該結(jié)果數(shù)據(jù)指示代謝組譜中的至少一種化合物相對于參考(對照)譜的狀況。該方法還包括在沒有用戶協(xié)助的情況下,使用描述生化途徑的數(shù)據(jù)集合來以編程方式鑒定受變體影響的至少一種生化途徑。在一個方面,提供了可對變體進行排序的評分。
在再一個實施例中,用于確定診斷變體的系統(tǒng)包括描述多種生化途徑的數(shù)據(jù)集合。每種生化途徑描述鑒定與該生化途徑相關(guān)聯(lián)的多種化合物。該系統(tǒng)還包括數(shù)據(jù)獲取裝置,該數(shù)據(jù)獲取裝置使用代謝組學分析方法處理樣品,從而獲取指示變體對代謝組譜的作用的結(jié)果數(shù)據(jù)。使用代謝組學分析方法處理樣品可生成結(jié)果數(shù)據(jù),該結(jié)果數(shù)據(jù)指示所得代謝組譜中的至少一種化合物相對于參考(對照)的狀況。該系統(tǒng)還包括在計算設(shè)備上執(zhí)行的分析設(shè)施。該分析設(shè)施與描述生化途徑的數(shù)據(jù)集合一起用于鑒定受至少一種變體的所指示狀況影響的至少一種生化途徑。在一個方面,該分析設(shè)施提供了可對變體進行排序的評分。在某些實施例中,任何生化途徑可能都不受變體影響。例如,當變體的靶標不存在于所分析的樣品類型(例如,尿液樣品)中時,變體可能不影響代謝組譜中的任何生化途徑并且任何生化途徑都無法被鑒定出。此外,在一些情況下,變體不影響代謝譜中的生化途徑(例如,該變體是中性、良性或沉默變體)并且任何生化途徑都無法被鑒定出。
本文所述的一些實施例包括使用代謝組譜分析來確定遺傳變體的意義的系統(tǒng)、方法和裝置??赏ㄟ^將變體分為多個類別和/或通過對變體進行排序來確定變體的意義。意義的分配基于受遺傳變體影響的生化組分進行,并且還可包括其他因素,諸如遺傳變體的進化保守性、由遺傳變體引起的蛋白質(zhì)結(jié)構(gòu)或功能的變化,或者個人或家族健康史。
可計算每個變體的意義評分。該系統(tǒng)、方法和裝置可將患者或患者群體的評分與標準小分子譜的評分進行比較。
所述方法可用于確定新型遺傳變體的意義,或可用于確定之前鑒定的遺傳變體的意義。還可按意義順序?qū)z傳變體進行排序,或按意義對遺傳變體進行分類。使用本文所述的方法生成的數(shù)據(jù)可用于對遺傳變體進行重新分類(例如,從意義不明的變體(vus)重新分類為可能致病的變體,或從vus重新分類為可能不致病或中性的變體)。此類數(shù)據(jù)可提供用于確定或有助于確定患者的診斷和/或治療的信息,因此對醫(yī)師或其他醫(yī)療服務(wù)人員是有用的。
一個實施例包括用于確定一種遺傳變體或多種變體的意義的方法。該方法包括從具有一種遺傳變體或多種變體的受試者獲得樣品,并生成樣品的小分子譜,包括有關(guān)樣品中的多種小分子中每一者的存在與否或水平的信息。該方法還包括將樣品的小分子譜與參考小分子譜(包括多種小分子中每一者的水平的標準范圍)進行比較,并且鑒定樣品中各自具有異常水平的小分子的亞組。樣品中的小分子異常水平是指超出小分子標準范圍的水平。使用在計算設(shè)備的處理器上執(zhí)行的分析設(shè)施來進行上述比較和鑒定。該方法還包括從基于所鑒定的小分子亞組異常水平的數(shù)據(jù)庫獲得診斷信息。該數(shù)據(jù)庫持有如下信息:其將多種小分子中一種或多種小分子的異常水平與有關(guān)多種遺傳變體中每一者的遺傳變體的信息關(guān)聯(lián)起來。該方法還包括存儲所獲得的診斷信息。所存儲的診斷信息可包括以下一者或多者:與所鑒定的具有異常水平的小分子亞組相關(guān)聯(lián)的至少一種生化途徑的鑒定,與所鑒定的具有異常水平的小分子亞組相關(guān)聯(lián)的至少一種遺傳變體的鑒定,并且還可包括與所鑒定的具有異常水平的小分子亞組相關(guān)聯(lián)的至少一種推薦后續(xù)測試的鑒定。
附圖說明:
本發(fā)明在所附權(quán)利要求中具體指出。參考下面結(jié)合附圖進行的描述,可以更好地理解本發(fā)明的上述優(yōu)點以及本發(fā)明的其他優(yōu)點,在附圖中:
圖1描繪了適用于實施本發(fā)明的實施例的環(huán)境;
圖2描繪了適用于實施本發(fā)明的實施例的替代分布式環(huán)境;
圖3是本發(fā)明的示例性實施例為了鑒定受遺傳變體影響的生化途徑而可遵守的步驟順序的流程圖;
圖4是可通過本發(fā)明的實施例產(chǎn)生的支鏈氨基酸生化途徑的示例性簡潔直觀顯示,其用于顯示受遺傳變體影響的某些生化途徑的代謝物數(shù)據(jù)。
具體實施方式
定義
詞語“小分子譜”包括來自受試者的樣品內(nèi)小分子(有形形式或計算機可讀形式)或其任何衍生級分的庫存,該庫存對于向用戶提供其在本文所述方法內(nèi)的預期用途的信息是必要和/或充分的。該庫存將包括所存在的小分子的數(shù)量和/或類型。必要和/或充分的信息將根據(jù)“小分子譜”的預期用途而變化。例如,對于一種預期用途,“小分子譜”可使用單種技術(shù)確定,但對于另一種預期用途,其可能需要使用多種不同技術(shù),具體取決于諸如所涉及的遺傳變體、所涉及的疾病狀態(tài)、存在于特定樣品中的小分子類型等因素。在再一個實施例中,小分子譜包括有關(guān)至少10、至少25、至少50、至少100、至少200、至少300、至少500、至少1000或至少2000種小分子的信息。術(shù)語“生化譜”、“代謝物譜”、“代謝組譜”可與術(shù)語“小分子譜”互換使用。在一些情況下,術(shù)語“譜”可用來指小分子的所述庫存。
小分子譜可使用hplc(kristal,etal.anal.biochem.263:18-25(1998)(kristal等人,《分析生物化學》,第263卷,第18-25頁,1998年))、薄層色譜法(tlc)或電化學分離技術(shù)(參見wo99/27361、wo92/13273、u.s.5,290,420、u.s.5,284,567、u.s.5,104,639、u.s.4,863,873和u.s.re32,920)獲得。還包括用于確定小分子的存在或確定細胞的小分子種類的其他技術(shù),諸如單獨或組合的折射率光譜法(ri)、紫外光譜法(uv)、熒光分析、放射化學分析、近紅外光譜法(near-ir)、核磁共振波譜法(nmr)、光散射分析(ls)、氣相色譜法-質(zhì)譜法(gc-ms)和液相色譜法-質(zhì)譜法(lc-ms)以及本領(lǐng)域已知的其他方法。
術(shù)語“受影響”包括變體引起的任何調(diào)節(jié)或其他變化。該術(shù)語可包括提高生物途徑或其一部分的活性以及降低生物途徑或其一部分的活性。這包括上調(diào)和下調(diào)以及/或者提高或降低通過路徑的通量,以及/或者提高或降低路徑中的代謝物水平。
“樣品”或“生物樣品”或“試樣”是指從受試者分離的生物材料。生物樣品可含有適用于檢測所需生物標志物的任何生物材料,并且可包含來自受試者的細胞和/或非細胞材料。樣品可分離自任何合適的生物流體、組織或細胞,諸如血液、血漿、血清、羊水、尿液、腦脊液、溝液、胎盤、皮膚、表皮組織、脂肪組織、主動脈組織、肝組織或細胞樣品。樣品可以是例如干血斑,其中將血液樣品點涂在濾紙上并進行干燥。
“受試者”是指任何動物,但優(yōu)選是哺乳動物,諸如人類、猴、非人靈長類、大鼠、小鼠、牛、狗、貓、豬、馬或兔。所述受試者可為有癥狀的(即,所具有的一種或多種特征表明存在或者傾向于發(fā)生疾病、病癥或障礙,包括它們的遺傳指征)或者可為無癥狀的(即,缺少所述特征)。
一種或多種生物標志物的“水平”是指樣品中生物標志物的絕對或相對量或者絕對或相對濃度。
“小分子”、“代謝物”、“生化物質(zhì)”是指存在于細胞中的有機和無機分子。該術(shù)語不包括大的高分子,諸如大的蛋白質(zhì)(例如,分子量超過2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000的蛋白質(zhì))、大的核酸(例如,分子量超過2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000的核酸)或大的多糖(例如,分子量超過2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000的多糖)。細胞的小分子一般以游離形式存在于細胞質(zhì)或其他細胞器(諸如線粒體)的溶液中,它們在這些地方形成中間體庫,該中間體庫可進一步代謝或用于生成稱為高分子的大分子。術(shù)語“小分子”包括將來源于食物的能量轉(zhuǎn)換為可用形式的化學反應(yīng)中的信號分子和中間體。小分子的非限制性例子包括糖、脂肪酸、氨基酸、核苷酸、在細胞進程期間形成的中間體,以及存在于細胞內(nèi)的其他小分子。
“異常”或“異常代謝物”或“異常水平”是指高于或低于所限定的標準范圍的代謝物或所述代謝物的水平。異常代謝物還可包括罕見代謝物和/或缺少代謝物??墒褂萌魏谓y(tǒng)計方法來確定異常代謝物。作為非限制性例子,對于一些代謝物而言,對數(shù)轉(zhuǎn)換水平超出至少1.5*iqr(四分位距)即為異常。又如,對于一些代謝物而言,對數(shù)轉(zhuǎn)換水平超出至少3.0*iqr被認為異常。在一些例子中,分析數(shù)據(jù)時假定對數(shù)轉(zhuǎn)換水平超出至少1.5*iqr即為異常,并且在一些例子中,分析數(shù)據(jù)時假定對數(shù)轉(zhuǎn)換水平超出至少3.0*iqr即為異常。又如,對于一些代謝物而言,代謝物對數(shù)轉(zhuǎn)換水平的z評分>1或<-1即為異常。在一些實施例中,對于一些代謝物而言,代謝物對數(shù)轉(zhuǎn)換水平的z評分>1.5或<-1.5即為異常。在一些實施例中,對于一些代謝物而言,代謝物對數(shù)轉(zhuǎn)換水平的z評分>2.0或<-2.0即為異常。在其他實施例中,不同范圍的z評分用于不同代謝物。在一些實施例中,所定義的標準范圍可基于水平的iqr,而非對數(shù)轉(zhuǎn)換水平的iqr。在其他實施例中,所定義的標準范圍可基于水平的z評分,而非對數(shù)轉(zhuǎn)換水平的z評分。
“離群點”或“離群值”是指水平高于或低于所限定的標準范圍的任何生化物質(zhì)。可使用任何統(tǒng)計方法來確定離群值。作為非限制性例子,可使用以下檢驗來鑒定離群點:t檢驗、z評分、改良z評分、grubbs檢驗、tietjen-moore檢驗、廣義極值學生化分布離差(esd),這些檢驗可執(zhí)行轉(zhuǎn)換后的數(shù)據(jù)(例如,對數(shù)轉(zhuǎn)換)或未轉(zhuǎn)換的數(shù)據(jù)。
“途徑”是通常用于定義彼此聯(lián)系的一系列步驟或反應(yīng)的術(shù)語。例如,一種反應(yīng)的產(chǎn)物是后續(xù)反應(yīng)的底物的生化途徑。生化反應(yīng)不一定是線性的。相反,術(shù)語“生化途徑”應(yīng)被理解為包括代謝中所涉及的互相關(guān)聯(lián)的生化反應(yīng)的網(wǎng)絡(luò),包括生物合成反應(yīng)和分解代謝反應(yīng)。未加修飾語的“途徑”可指“超途徑”和/或“亞途徑”?!俺緩健笔侵复x的大類。“亞途徑”是指較寬泛途徑的任何亞組。例如,谷氨酸代謝是氨基酸代謝生化超途徑的亞途徑?!爱惓M緩健笔侵敢褜⒁环N或多種異常生化物質(zhì)映射到其上的途徑,或者與群體中該途徑的預期生化距離相比,個體中該途徑的生化距離較高(例如,個體途徑的生化距離高出最多10%內(nèi))。
術(shù)語“生化途徑”包括rocheappliedsciences'“metabolicpathwaychart”(羅氏應(yīng)用科學的“代謝途徑圖”)中所述的那些途徑或者已知參與生物體代謝的其他途徑。生化途徑的例子包括但不限于碳水化合物代謝(包括但不限于糖酵解、生物合成、糖異生、克雷布斯循環(huán)、檸檬酸循環(huán)、tca循環(huán)、磷酸戊糖途徑、糖原生物合成、半乳糖途徑、卡爾文循環(huán)、氨基糖代謝、丁酸代謝、丙酮酸代謝、果糖代謝、甘露糖代謝、磷酸肌醇代謝、丙酸代謝、淀粉和蔗糖代謝等)、能量代謝(例如,氧化磷酸化、還原羧酸循環(huán)等)、脂質(zhì)代謝(包括但不限于三酰甘油代謝、脂肪酸的活化、多不飽和脂肪酸的β-氧化、其他脂肪酸的β-氧化、α-氧化途徑、脂肪酸的從頭生物合成、膽固醇生物合成、膽汁酸生物合成、脂肪酸代謝、甘油脂代謝、甘油磷脂代謝、鞘脂代謝等)、氨基酸代謝(包括但不限于谷氨酸反應(yīng)、克雷伯-亨斯雷特尿素循環(huán)、莽草酸途徑、苯丙氨酸和酪氨酸生物合成、色氨酸生物合成、特定氨基酸的代謝和/或降解(例如,丙氨酸、天冬氨酸、精氨酸、脯氨酸、谷氨酸、甘氨酸、絲氨酸、蘇氨酸、組氨酸、半胱氨酸、甲硫氨酸、苯丙氨酸、色氨酸、酪氨酸、纈氨酸、亮氨酸或異亮氨酸代謝和/或降解等)、氨基酸的生物合成(例如,賴氨酸和色氨酸生物合成等)、葉酸生物合成、葉酸一碳單位庫、泛酸和輔酶a生物合成、核黃素代謝、硫胺素代謝、維生素b6代謝、d-丙氨酸代謝、d-谷氨酰胺和d-谷氨酸代謝、谷胱甘肽代謝、氰基氨基酸代謝、n-聚糖生物合成、苯甲酸降解、生物堿生物合成、硒代氨基酸代謝、嘌呤代謝、嘧啶代謝、磷脂酰肌醇信號系統(tǒng)、神經(jīng)活性配體受體相互作用、能量代謝(包括但不限于氧化磷酸化、atp合成、光合作用、甲烷代謝等)、磷酸葡萄糖酸途徑、氧化還原作用、電子傳遞、氧化磷酸化、呼吸代謝(呼吸作用)、hmg-coa還原酶途徑、卟啉合成途徑(血紅素合成)、氮代謝(尿素循環(huán))、核苷酸生物合成、dna復制、轉(zhuǎn)錄和翻譯。其還包括這些途徑的部分和單獨的化學反應(yīng)。
“測試樣品”是指從待分析的個體受試者獲得的樣品。
“參考樣品”是指用于確定小分子水平的標準范圍的樣品。“參考樣品”可指來自個體參考受試者(例如,在所研究的基因或基因區(qū)中僅具有良性變體的參考受試者,或具有有害變體的參考受試者,或沒有序列變體的參考受試者)的個體樣品,可選擇個體參考受試者,使之在年齡、性別、種族和/或遺傳病癥方面非常類似于測試受試者。“參考樣品”也可指這樣的樣品,其包括來自個體參考受試者的參考樣品的合并等分試樣。
“參考小分子譜”或“參考代謝組譜”是指使用“參考樣品”生成的所得譜。此外,詞語“參考小分子譜”包括有關(guān)該譜的小分子的信息,該信息對于向用戶提供其在本文所述方法內(nèi)的預期用途的信息是必要和/或充分的。該參考譜將包括所存在的小分子的數(shù)量和/或類型。普通技術(shù)人員將知道,必要和/或充分的信息將根據(jù)“參考小分子譜”的預期用途而變化。例如,對于一種預期用途,“參考小分子譜”可使用單種技術(shù)確定,但對于另一種預期用途,其可能需要使用多種不同技術(shù),具體取決于諸如存在于特定目標樣品類型、細胞、細胞區(qū)室(測定該細胞區(qū)室本身)中的小分子類型等因素??墒褂玫募夹g(shù)的例子已在上文描述,并包括例如gc-ms、lc-ms、lc-ms/ms、nmr、hplc、uhplc等以及它們的組合。
術(shù)語“鑒定”包括鑒定與參考小分子譜相比異常的樣品小分子譜的生化組分的自動化和非自動化方法。術(shù)語“異?!卑ㄅc參考譜相比樣品小分子譜中存在更多或更少量的化合物。在一些情況下,所述更多或更少量可為統(tǒng)計上顯著的。
術(shù)語“組分”是指與標準小分子譜相比以異常量存在的小分子譜的那些小分子。
在鑒定生化組分之后,使用例如生化途徑的數(shù)據(jù)庫分析所鑒定的生化組分,以找出受特定變體影響的特定途徑。一旦鑒定生化途徑,便可確定調(diào)節(jié)這些途徑的生物學作用,包括例如有害影響和有利影響。
“全基因組測序”或“wgs”是一次性確定生物體基因組的完整dna序列的過程。該過程包括外顯子(編碼蛋白質(zhì)的dna)和內(nèi)含子(非編碼dna)的測序。
“全外顯子組測序”或“wes”是確定生物體中所有編碼蛋白質(zhì)的基因(即,外顯子)的dna序列的過程。
“靶向測序”或“ts”是確定生物體中所關(guān)注的具體分離基因或基因組區(qū)的dna序列的過程。靶向測序是指基因組或外顯子組的任何具體亞組的測序。
“遺傳變體”或“變體”是指dna序列變異(例如,多態(tài)性或突變)。這些遺傳變異包括單核苷酸多態(tài)性(snp)以及結(jié)構(gòu)變體,諸如插入/缺失(indel)、序列重排、拷貝數(shù)變異(cnv)和轉(zhuǎn)座。dna序列存在差異對個體有許多影響,包括對健康的影響、對疾病和障礙的易感性以及對病原體和藥劑(包括治療劑、毒素和有毒物)的響應(yīng)。變體可被分為具有“正面”(有利)作用、“負面”(有害、致病和/或不利)作用、“中性”(良性、不致病、無臨床意義)作用或“不確定”(不明、不定)作用。
“意義不明的變體”或“意義不確定的變體”或“vus”是指臨床效果(如果有的話)不明或不確定的變體。
使用高級代謝組學分析能夠至少部分地提供有關(guān)變體對生化過程的作用的詳細信息。在變體之間進行比較性評價能夠深入理解每種變體的定量和定性特異性。對有害作用已知的變體進行并行分析,得到的結(jié)果可深入預測變體的臨床表現(xiàn),以便診斷或有助于診斷疾病或其風險,并且有利于治療決策和患者管理。
本文描述了能夠提供唯一機會來確證每種變體的推定意義的生化譜分析。使用這些結(jié)果,可確定最有害的變體。這些結(jié)果可用于確定受試者中的疾病或障礙的風險(或在為中性變體的情況下,確定不會有這些風險)。
在一個實施例中,用于鑒定受遺傳變體影響的生化途徑的方法包括:從具有所述變體的受試者獲得樣品的小分子譜,并將該小分子譜與參考wgs小分子譜進行比較;鑒定受該變體影響的小分子譜的生化組分;以及鑒定與所述組分相關(guān)聯(lián)的生化途徑,從而鑒定受該變體影響的生化途徑。此外,可以確定途徑是受負面影響(引起疾病或疾病風險增加)還是受正面影響(具有保護作用,降低對疾病的易感性)。
這些變體可以在現(xiàn)有數(shù)據(jù)中表示,這些數(shù)據(jù)通過對患者的dna進行測序(例如,全基因組測序(wgs)、全外顯子組測序(wes)、靶向測序(ts))而獲得?;颊哌€可提供額外數(shù)據(jù),包括有關(guān)他們被診斷出的相關(guān)疾病和他們在診斷時的年齡的信息,以及他們的家庭成員的對應(yīng)疾病/年齡信息(加上指出與每個這種家庭成員的關(guān)系類型的數(shù)據(jù)(例如,兄弟姐妹、父母、祖父母、伯母/伯父、表親等))。然后可針對密切相關(guān)的疾病列表,通過計算機分析患者個人和家族史。
本文闡述了用于執(zhí)行所述方法的自動化和/或半自動化方法、計算機程序和其他相關(guān)介質(zhì)。
圖1描繪了適用于實施本發(fā)明的實施例的環(huán)境。計算設(shè)備2持有或能夠訪問描述生化途徑的數(shù)據(jù)集合4。計算設(shè)備2可以是配備有一個或多個處理器并能夠執(zhí)行本文所述的分析設(shè)施6的服務(wù)器、工作站、膝上型計算機、個人計算機、pda或其他計算設(shè)備。描述生化途徑的數(shù)據(jù)集合4可存儲在數(shù)據(jù)庫中。描述生化途徑的數(shù)據(jù)集合4描述多種生化途徑,其中每種生化途徑描述可鑒定與特定生化途徑相關(guān)聯(lián)的多種化合物。分析設(shè)施6優(yōu)選在軟件中實現(xiàn),但在替代實施方式中,該邏輯也可在硬件中實現(xiàn)。分析設(shè)施6對接收自數(shù)據(jù)獲取裝置20的結(jié)果數(shù)據(jù)22進行運算和分析。如將在下文進一步闡述,結(jié)果數(shù)據(jù)22指示小分子譜30中的化合物的狀況,該小分子譜通過數(shù)據(jù)獲取裝置20對從具有變體的個體獲得的樣品進行處理而得出。
數(shù)據(jù)獲取裝置20對來自具有變體的一個或多個受試者的樣品進行處理,以便確定變體對小分子譜的作用或無作用。適當?shù)?,?shù)據(jù)獲取裝置20可包括能夠分析變體對小分子譜的作用的氣相色譜法-質(zhì)譜法(gc-ms)、液相色譜法、氣相色譜法、質(zhì)譜法、液相色譜法-質(zhì)譜法(lc-ms)或其他技術(shù),如上所述。通過數(shù)據(jù)獲取裝置20對具有變體30的樣品進行處理,生成了指示測試樣品中的至少一種化合物(例如,小分子譜)相對于對照(例如,標準小分子譜)的狀況的結(jié)果數(shù)據(jù)22。所指示的狀況可反映因變體30的存在而引起的化合物(和相關(guān)生化途徑)的變化?;蛘撸甘镜幕衔餇顩r可反映化合物沒有因所分析的樣品中變體30的存在而變化。應(yīng)當理解,化合物沒有變化可表示預期和/或所需的結(jié)果,具體取決于變體的種類和所分析樣品的類型。將結(jié)果數(shù)據(jù)22提供給在計算設(shè)備2上執(zhí)行的分析設(shè)施6。應(yīng)當理解,有多種方式可以將結(jié)果數(shù)據(jù)傳輸?shù)接嬎阍O(shè)備2,包括但不限于使用數(shù)據(jù)獲取裝置20與計算設(shè)備2之間的直接或網(wǎng)絡(luò)連接,或?qū)⒔Y(jié)果數(shù)據(jù)保存到存儲介質(zhì)諸如光盤,然后傳送到計算設(shè)備2。為了便于說明,圖1描繪了數(shù)據(jù)獲取裝置20與計算設(shè)備2之間的直接連接,可通過該直接連接來傳輸結(jié)果數(shù)據(jù)22。本領(lǐng)域的技術(shù)人員將認識到,在本發(fā)明的范圍內(nèi)許多其他配置也是可行的。
分析設(shè)施6將指示一種或多種化合物的狀況的結(jié)果數(shù)據(jù)22與描述生化途徑的數(shù)據(jù)集合4一起用于鑒定受變體30的存在影響的一種或多種生化途徑。該技術(shù)的有利方面是,其能夠研究變體對大范圍的生化途徑的作用,而非僅僅是如使用常規(guī)技術(shù)進行的針對性很強的研究。這允許在評價過程中更快速且更早地鑒定變體的預期和非預期作用。應(yīng)當理解,在基因組分析過程中確定變體的影響(負面作用或正面作用)可使試圖理解并解讀遺傳變體對健康的作用的患者和醫(yī)師節(jié)省大量資金和時間。
在一個實施方式中,為了鑒定受影響的生化途徑,對結(jié)果數(shù)據(jù)22與描述生化途徑的數(shù)據(jù)集合4以編程方式進行比較,而無需任何用戶輸入。在替代實施方式中,分析設(shè)施6提示用戶進行比較所需的參數(shù)。這些參數(shù)可限制例如在要與描述生化途徑的數(shù)據(jù)集合4進行比較的結(jié)果數(shù)據(jù)22中指示的化合物的數(shù)量?;蛘撸治鲈O(shè)施6從用戶請求的參數(shù)可限制所搜索的描述生化途徑的數(shù)據(jù)集合4的量。本領(lǐng)域技術(shù)人員將會想到分析設(shè)施6可從用戶請求的額外類型的用戶輸入和參數(shù),并且這些類型被視為在本發(fā)明的范圍內(nèi)。
如上所指出,分析設(shè)施6將指示一種或多種化合物的狀況的結(jié)果數(shù)據(jù)22與描述生化途徑的數(shù)據(jù)集合4一起用于鑒定受變體30的存在影響的一種或多種生化途徑。所鑒定的生化途徑的列表42可傳輸?shù)脚c計算設(shè)備2通信的顯示設(shè)備40并在該顯示設(shè)備上顯示。如將在下文進一步討論,所鑒定的生化途徑的列表42還可列出所鑒定的生化途徑40中代謝物變化的詳情42。或者,所鑒定的生化途徑的列表12可存儲在存儲裝置10中以供隨后分析或呈現(xiàn)給用戶。為便于說明,存儲裝置10在圖1中被描繪為位于計算設(shè)備2上。應(yīng)當理解,存儲裝置10也可位于計算設(shè)備2可以訪問的其他位置。
分析設(shè)施6還可包括或有權(quán)訪問預定義標準8,該預定義標準用于解讀受影響的生化途徑的所鑒定狀況的含義。在一個實施方式中,該預定義標準可用于以編程方式提供解讀,而無需用戶輸入。在其他實施方式中,除了預定義標準的編程應(yīng)用程序之外,還可使用不同程度的用戶輸入來解讀所鑒定的生化途徑變化的含義。在其他實施方式中,該解讀可完全由用戶提供,由分析設(shè)施6向用戶呈現(xiàn)所鑒定的生化途徑的列表。如參考下表4中給出的簡潔報告進一步討論,該解讀可提供有關(guān)生化途徑中所鑒定的代謝物或小分子變化的顯著性的信息。預定義標準可保持于分析設(shè)施6可以訪問的數(shù)據(jù)庫中。
圖2描繪了適用于實施本發(fā)明的實施例的替代分布式環(huán)境。第一計算設(shè)備102可用于執(zhí)行分析設(shè)施104。第一計算設(shè)備可通過網(wǎng)絡(luò)150與持有描述生化途徑的數(shù)據(jù)集合112的第二計算設(shè)備110進行通信。網(wǎng)絡(luò)150可以是第一計算設(shè)備102和第二計算設(shè)備110可通過其進行通信的互聯(lián)網(wǎng)、局域網(wǎng)(lan)、廣域網(wǎng)(wan)、內(nèi)聯(lián)網(wǎng)、互聯(lián)網(wǎng)、無線網(wǎng)絡(luò)或某種其他類型的網(wǎng)絡(luò)。第一計算設(shè)備102上的分析設(shè)施104可通過網(wǎng)絡(luò)150與數(shù)據(jù)獲取裝置130進行通信,該數(shù)據(jù)獲取裝置通過對來自具有變體的受試者的樣品140進行處理而生成結(jié)果數(shù)據(jù)132。分析設(shè)施104可將從其獲得樣品的受試者中鑒定的受變體的存在影響的生化途徑的列表124存儲在存儲裝置122中,該列表通過對結(jié)果數(shù)據(jù)132和描述生化途徑的數(shù)據(jù)集合112進行處理而獲得。存儲裝置122可位于可以通過網(wǎng)絡(luò)150訪問的第三計算設(shè)備120上。應(yīng)當認識到,圖2僅描繪了單種分布式配置,并且在本發(fā)明的范圍內(nèi)許多其他分布式配置是可行的。
圖3是本發(fā)明的實施例為鑒定受替代變體形式(即,相同基因內(nèi)的不同變體,諸如不同snp、插入、缺失等;也稱為等位基因)影響的生化途徑而可遵守的步驟序列的流程圖。該序列從訪問描述生化途徑的數(shù)據(jù)集合(步驟162)開始。對來自具有變體的受試者的樣品進行分析以產(chǎn)生代謝組譜(步驟164),并且通過數(shù)據(jù)獲取裝置對該數(shù)據(jù)進行處理以獲得結(jié)果數(shù)據(jù)(步驟166),如上所討論。然后由分析設(shè)施使用結(jié)果數(shù)據(jù)和描述生化途徑的數(shù)據(jù)集合來鑒定從其采集樣品的受試者中受變體的存在影響的生化途徑(步驟168)。然后可將受影響的生化途徑的圖譜或列表顯示給用戶或存儲以供隨后檢索(步驟170)。
本發(fā)明的一個有利方面是,分析設(shè)施能夠生成指示與所研究的變體相關(guān)聯(lián)的作用的直觀顯示。例如,分析設(shè)施可產(chǎn)生生化途徑網(wǎng)絡(luò)(生化網(wǎng)絡(luò))的直觀顯示,其顯示了生化途徑的代謝物數(shù)據(jù),并使分析人員能夠鑒定受變體的存在影響的生化物質(zhì)和生化途徑。在示例性顯示中,矩形可表示酶,圓圈可表示代謝物,箭頭可表示生化途徑中的反應(yīng),并且實心圓圈可表示患者樣品中檢測到的代謝物。此外,圓圈的尺寸可表示生化物質(zhì)水平的變化(如果有的話),其中生化物質(zhì)相對于參考水平的變化(升高或降低)幅值由圓圈的尺寸指示。例如,圓圈越大,所測的代謝物水平與參考水平之間的差值也越大。另外,實心圓圈的顏色可指示生化物質(zhì)相對于參考水平的變化(升高或降低)方向。例如,紅色圓圈可指示生化物質(zhì)的所測水平的升高,而綠色圓圈可指示生化物質(zhì)的所測水平的降低。
圖4提供了示例性簡潔直觀顯示,其著重說明了受所研究的變體影響的生化途徑網(wǎng)絡(luò)的一部分。該簡潔顯示還包括所分析的樣品中受個體中變體的存在影響的生化物質(zhì)的列表(未示出)。在一個實施方式中,可為用戶提供視覺指示器,以指示代謝物變化的類型。例如,一種顏色可用于指示特定生化途徑的代謝物水平的升高,而第二種顏色可用于指示特定生化途徑的代謝物水平的降低。類似地,作為顏色的替代或補充,可使用其他類型的視覺指示器向用戶傳輸信息。視覺指示器的使用是本發(fā)明的額外益處,因為其有利于快速識別變體的總體作用。例如,如果紅色用于指示生化途徑中代謝物(或小分子)水平的升高且變體引起代謝物水平的普遍升高,則用戶快速瀏覽簡潔報告,就能夠迅速確定變體的作用。對于要研究許多受變體影響的生化途徑的情況,視覺指示器因此提供了用于傳輸信息的有效機制。
在圖4中舉例說明的簡潔顯示中,矩形用于表示酶,并且圓圈用于表示代謝物;箭頭用于表示生化途徑中的反應(yīng);實心圓圈用于表示該患者樣品中檢測到的代謝物。圓圈的尺寸用于表示代謝物相對于參考水平的變化幅值(即,圓圈越大,所測的代謝物水平與參考水平相比的差值也越大)。數(shù)字用于指示患者樣品中所測的代謝物:(1)3-羥基異戊酸;(2)亮氨酸;(3)異亮氨酸;(4)纈氨酸;(5)3-甲基-2-氧代戊酸;(6)4-甲基-2-氧代戊酸;(7)α-羥基異己酸;(8)3-甲基-2-氧代丁酸;(9)α-羥基異戊酸;(10)異戊酸;(11)異戊酰肉堿;(12)異戊酰甘氨酸;(13)2-甲基丁酰肉堿(c5);(14)異丁酰肉堿;(15)巴豆酰甘氨酸;(16)甲基巴豆酰肉堿;(17)3-羥基異戊酸;(18)丁酰肉堿;(19)羥基異戊酰肉堿;(20)3-羥基異丁酸;(21)丙酰肉堿;(22)3-氨基異丁酸;(23)3-甲基戊二酰肉堿(c6)。
本發(fā)明的一個有利方面是,分析設(shè)施能夠生成指示與所研究的變體相關(guān)聯(lián)的作用的簡潔報告。下表4中給出了可由分析設(shè)施產(chǎn)生的示例性簡潔報告,以便顯示被鑒定為受變體的存在影響的生化途徑的代謝物數(shù)據(jù)。該簡潔報告包括指示所研究的變體的標題。該簡潔報告還包括所分析的樣品中受個體中變體的存在影響的生化途徑的列表。還可提供對應(yīng)于替代變體形式的附加列。例如,可提供包括與對照相比的有害變體及與對照相比的良性變體的結(jié)果的列。這些列中的結(jié)果數(shù)據(jù)可列出受影響的生化途徑內(nèi)的任何代謝物變化。
該簡潔報告還可包括引用部分解讀的腳注列,該解讀討論了各種生化途徑中所鑒定的代謝物水平變化的含義。該解讀可由分析設(shè)施以編程方式生成,可由查閱簡潔報告其余部分的用戶手動提供,或者可為一部分由分析設(shè)施產(chǎn)生且一部分由用戶產(chǎn)生的混合式。
在一個或多個介質(zhì)之上或之中體現(xiàn)的一個或多個計算機可讀程序可執(zhí)行所述方法。這些介質(zhì)可為軟盤、硬盤、光盤、數(shù)字通用光盤、閃存卡、prom、ram、rom或磁帶。一般來講,計算機可讀程序可用任何編程語言實現(xiàn)??墒褂玫恼Z言的一些例子包括fortran、c、c++、c#或java。軟件程序可作為目標代碼存儲在一個或多個介質(zhì)之上或之中。可使用硬件加速,并且該代碼的全部或一部分可在fpga或asic上運行。該代碼可在虛擬化環(huán)境中(諸如在虛擬機中)運行。運行該代碼的多個虛擬機可駐留在單個處理器上??墒褂酶饔袃蓚€或更多個核的不止一個處理器運行該代碼。
因為可在不脫離本發(fā)明范圍的前提下進行某些改變,所以所有包含在以上說明中或顯示在附圖中的內(nèi)容意在被解釋為示例性的,而不是字面意思。本領(lǐng)域的從業(yè)人員將認識到,可在不脫離本發(fā)明范圍的前提下改變附圖中所描繪的步驟和架構(gòu)的序列,并且本文中包含的舉例說明是本發(fā)明的眾多可能描繪的單一例子。
實例
i.通用方法。
a.代謝組譜分析。
代謝組學平臺由三種獨立方法組成:針對堿性物質(zhì)優(yōu)化的超高效液相色譜法/串聯(lián)質(zhì)譜法(uhlc/ms/ms2)、針對酸性物質(zhì)優(yōu)化的uhlc/ms/ms2以及氣相色譜法/質(zhì)譜法(gc/ms)。
b.樣品制備。
將樣品儲存在-80℃下,需要時取出,并在提取之前置于冰上解凍。使用自動化液體處理機器人(microlabstar,內(nèi)華達州里諾的哈美頓公司(hamiltonrobotics,reno,nv))執(zhí)行提取,其中將450μl甲醇加入到100μl的每種樣品中,使蛋白質(zhì)沉淀。甲醇含有四種回收標準品,以允許確認提取效率。然后在geno/grinder2000(新澤西州克利夫頓的格倫米爾斯公司(glenmillsinc.,clifton,nj))上以675沖程/分鐘混合每種溶液,接著在2000rpm下離心5分鐘。從每種樣品的上清液中取出四份110μl的等分試樣,在氮氣下干燥,然后在真空下干燥過夜。第二天,在50μl的6.5mm碳酸氫銨水溶液(ph8)中重構(gòu)一份等分試樣,并且用50μl0.1%甲酸水溶液重構(gòu)一份等分試樣。兩種重構(gòu)溶劑都包含多組儀器內(nèi)標,以用于標記lc保留指數(shù)并評價lc-ms儀器性能。通過用以下物質(zhì)的50μl混合物進行處理對第三份110μl等分試樣進行衍生化:n,o-雙(三甲基甲硅烷基)三氟乙酰胺和環(huán)己烷:二氯甲烷:乙腈(5:4:1)中的1%三甲基氯硅烷加上5%三乙胺,并加入內(nèi)標,以用于標記gc保留指數(shù)并用于評估該衍生化過程的回收率。然后將該混合物在真空下干燥過夜,接著蓋上經(jīng)干燥的提取物,搖動五分鐘,之后在60℃下加熱一小時。冷卻樣品并短暫離心,以使任何殘余物沉淀,然后進行g(shù)c-ms分析。如果需要,在干燥后將剩余的等分試樣密封并儲存在-80℃下,以用作備份樣品。在三種單獨質(zhì)譜儀上分析提取物:一種采用超高效液相色譜法-質(zhì)譜法檢測正離子的uplc-ms系統(tǒng)、一種檢測負離子的uplc-ms系統(tǒng)以及一種tracegcultragaschromatograph-dsq氣相色譜法-質(zhì)譜法(gc-ms)系統(tǒng)(馬薩諸塞州沃爾瑟姆的賽默科技公司(thermoscientific,waltham,ma))。
c.uplc方法。
使用watersacquityuplc(馬薩諸塞州米爾福德的沃特世公司(waterscorp.,milford,ma))分離經(jīng)lc-ms分析的所有重構(gòu)等分試樣。在0.1%甲酸中重構(gòu)的等分試樣使用由0.1%甲酸的水溶液(a)和0.1%甲酸的甲醇溶液(b)組成的流動相溶劑。在6.5mm碳酸氫銨中重構(gòu)的等分試樣使用由6.5mm碳酸氫銨的水溶液,ph8(a)和6.5mm碳酸氫銨的95/5甲醇/水溶液組成的流動相溶劑。用于甲酸重構(gòu)的提取物和碳酸氫銨重構(gòu)的提取物的梯度分布是在4分鐘內(nèi)從0.5%b到70%b,在0.5分鐘內(nèi)從70%b到98%b,并以98%b保持0.9分鐘,之后在0.2分鐘內(nèi)返回到0.5%b。流速為350μl/min。進樣體積為5μl,并使用2倍針定量環(huán)溢流。在40℃下,在單獨的酸或堿專用2.1mm×100mmwatersbehc181.7μm粒度柱上進行液相色譜法分離。
d.uplc-ms方法。
orbitrapelite(馬薩諸塞州沃爾瑟姆的orbielite賽默科技公司(orbielitethermoscientific,waltham,ma))質(zhì)譜儀用于一些實例。orbielite質(zhì)譜儀使用hesi-ii源,就正離子模式而言,鞘氣被設(shè)定為80,輔助氣被設(shè)定為12,并且電壓被設(shè)定為4.2kv。負離子模式的設(shè)置是處于75的鞘氣,處于15的輔助氣,并且電壓被設(shè)定為2.75kv。兩種模式的源加熱器溫度為430℃,并且毛細管溫度為350℃。質(zhì)量范圍為99-1000m/z,掃描速度為每秒4.6次總掃描,另外一次全掃描與一次ms/ms掃描交替進行,分辨率被設(shè)定為30,000。傅里葉變換質(zhì)譜法(ftms)全掃描自動增益控制(agc)目標被設(shè)定為5×105,截止時間為500ms。離子阱ms/ms的agc目標是3×103,最大充滿時間為100ms。正離子模式的歸一化碰撞能量被設(shè)定為32個任意單位,而負離子模式被設(shè)定為30。對于兩種方法而言,激活q為0.35,激活時間為30ms,同樣采用3m/z隔離質(zhì)量窗。為orbielite啟用3.5秒持續(xù)時間的動態(tài)排除設(shè)置。每周使用piercetmltqvelos電噴霧電離(esi)正離子校準溶液或piercetmesi負離子校準溶液執(zhí)行校準。
對于一些實例而言,lc/ms分析使用watersacquity超高效液相色譜法(uplc)和thermoscientificq-exactive高分辨率/準確性質(zhì)譜儀,其配有加熱電噴霧電離(hesi-ii)源和在35,000質(zhì)量分辨率下操作的orbitrap質(zhì)量分析器。將樣品提取物干燥,然后在酸性或堿性lc相容溶劑中重構(gòu),每種溶劑包含8種或更多種固定濃度的進樣標準品,以確保進樣和色譜分離一致性。在兩次采用單獨專用柱(watersuplcbehc18-2.1×100mm,1.7μm)的獨立進樣中,使用酸性正離子優(yōu)化的條件分析一份等分試樣,并使用堿性負離子優(yōu)化的條件優(yōu)化另一份等分試樣。使用含0.1%甲酸的水和甲醇從c18柱梯度洗脫在酸性條件中重構(gòu)的提取物。類似地使用含6.5mm碳酸氫銨的甲醇和水從c18洗脫堿性提取物。第三份等分試樣在使用由含10mm甲酸銨的水和乙腈組成的梯度從hilic柱(watersuplcbehamide2.1×150mm,1.7μm)洗脫后,通過負電離進行分析。使用動態(tài)排除在ms與數(shù)據(jù)依賴性ms2掃描之間交替進行ms分析,掃描范圍為80-1000m/z。
e.gc-ms方法。
通過gc-ms分析衍生化的樣品。采用分流模式以20:1分流比將1.0μl的樣品體積注入到二苯基二甲基聚硅氧烷固定相,薄膜熔融石英柱,crossbondrtx-5sil,0.18mm內(nèi)徑×20m且膜厚20μm(賓夕法尼亞州貝爾豐特的瑞斯泰克公司(restek,bellefonte,pa))。使用氦氣作為載氣并以由以下組成的溫度梯度對化合物進行洗脫:初始溫度在60℃下保持1分鐘;然后以17.1℃/分鐘的速率升高至220℃;之后以30℃/分鐘的速率升高至340℃,接下來在該溫度下保持3.67分鐘。然后讓溫度降低并穩(wěn)定到60℃以用于后續(xù)進樣。使用電子轟擊電離按照50-750個質(zhì)量單位的掃描范圍,每秒4次掃描、3077amu/s操作質(zhì)譜儀。以290℃的離子源溫度和1865v的倍增器電壓設(shè)定兩級四極桿(dsq)。ms傳輸線保持在300℃下。每天執(zhí)行dsq的調(diào)諧和校準以確保最佳性能。
f.數(shù)據(jù)處理和分析。
對于每臺儀器上設(shè)定的每種生物學矩陣數(shù)據(jù)而言,對每種內(nèi)標計算峰面積的相對標準偏差(rsd),以確認提取效率、儀器性能、柱完整性、色譜分離和質(zhì)量校準。這些內(nèi)標中有幾種用作保留指數(shù)(ri)標記,檢查其保留時間和對齊。uplc-ms和gc-ms系統(tǒng)附帶的軟件的修改版本用于峰值檢測和積分。來自該處理的輸出生成了一系列m/z比率、保留時間和曲線下面積值。軟件指定了峰值檢測的標準,包括信噪比、峰高和峰寬的閾值。
基于利用內(nèi)標分配的固定ri值的保留指數(shù),通過色譜法對齊生物學數(shù)據(jù)集(包括qc樣品)。通過采用值未改變的區(qū)間ri標記之間的線性擬合,確定實驗峰的ri。ri的益處是,其校正了由系統(tǒng)誤差(諸如樣品ph和柱齡)引起的保留時間漂移?;谂c其兩側(cè)保留標記的洗脫關(guān)系來指定每種化合物的ri。使用內(nèi)部軟件包,將積分、對齊的峰與權(quán)威標準品和常規(guī)檢測的未知化合物的內(nèi)部庫(化學庫)進行匹配,該內(nèi)部庫對于所采用的正、負或gc-ms數(shù)據(jù)收集方法是特定的。匹配是基于前瞻性鑒定的150個ri單位內(nèi)的保留指數(shù)值以及在ltq和dsq數(shù)據(jù)的0.4m/z內(nèi)的實驗?zāi)鸽x子質(zhì)量與庫權(quán)威標準品的匹配。將實驗ms/ms與權(quán)威標準品的庫光譜進行比較,并且分配正向和反向評分。完美正向評分將指示實驗光譜中的所有離子以正確比率存在于權(quán)威標準品的庫中,并且完美反向評分將指示所有權(quán)威標準品庫離子以正確比率存在于實驗光譜中。對正向和反向評分進行比較,并且為所提議的匹配給出ms/ms碎裂光譜評分。然后由分析人員手動審核所有匹配,該分析人員基于上述標準批準或拒絕每個檢出項。然而,并不要求分析人員進行手動審核。在一些實施例中,該匹配過程是完全自動化的。
有關(guān)化學庫、為了鑒定指定化合物和常規(guī)檢測的未知化合物而對積分的對齊峰進行匹配的方法、以及用于鑒定樣品中的小分子的計算機可讀代碼的更多詳情可見于美國專利no.7,561,975,該專利全文以引用方式并入本文。
g.質(zhì)量控制。
將來自生物樣品的每種單獨樣品的等分試樣合并以制作技術(shù)重復樣,如上所述的那樣提取這些技術(shù)重復樣。對于每臺儀器上的每個數(shù)據(jù)集而言,將該合并的樣品的提取物注入六次,以評估過程變異性。作為額外的質(zhì)量控制,還提取了五份水等分試樣作為每臺儀器上的樣品組的一部分,以用作偽影鑒定之用的過程空白樣。所有qc樣品包括儀器內(nèi)標,以評估提取效率和儀器性能并用作離子鑒定之用的保留指數(shù)標記。對這些標準品進行同位素標記,或者另行選擇為外源性分子以便不妨礙內(nèi)在離子的檢測。
h.統(tǒng)計分析。
一種統(tǒng)計分析方法是在樣品中檢測到的每種代謝物中鑒定“極限”值(離群點)。基于填充百分比(代謝物中檢測到值的樣品的百分比)來執(zhí)行兩步過程。當該填充小于或等于10%時,給檢測到值的樣品做標記。當該填充大于10%時,用隨機正態(tài)變量估算缺失值,其中平均值等于所觀察到的最小值,標準偏差等于1。然后對數(shù)據(jù)進行對數(shù)轉(zhuǎn)換,并計算四分位距(iqr),其被定義為第3四分位與第1四分位之間的差值。然后給大于第3四分位以上的1.5*iqr或第1四分位以下的1.5*iqr的值做標記。還分析了對數(shù)轉(zhuǎn)換數(shù)據(jù),以計算每個個體中的每種代謝物的z評分。個體的代謝物的z評分表示給定代謝物的平均值以上的標準偏差數(shù)。正z評分意指代謝物水平高于平均值,而負z評分意指代謝物水平低于平均值。
在代謝組學中,不僅關(guān)注各個代謝物的變化,而且也關(guān)注成組的相關(guān)代謝物(例如,生化途徑)的變化。相關(guān)代謝物的分析在這樣的情況下可特別有用,其中使用單變量分析時各個代謝物缺失統(tǒng)計顯著性的截止值,但聚合在一起時存在統(tǒng)計顯著性。例如,假定途徑中有八種代謝物,p值為0.07。如果兩兩相關(guān)性為0.99,則預期聚合的p值將類似于各個p值。然而,如果代謝物不相關(guān),則fisher元分析[1]p值=0.0003。因此聚合的p值可在0.07(所有相關(guān)的=1)至0.0003的范圍內(nèi)。從而,希望正式測試途徑是否改變。
對于基因組學途徑分析而言,數(shù)據(jù)分析的方法通常涉及合并途徑的各個成員的p值以便進行聚合的p值分析(例如,fisher方法、尾強度(tailstrength)、自適應(yīng)秩截斷乘積(adaptiveranktruncatedproduct))。除pca之外,通常不考慮多變量法(例如,霍特林(hotellings)t2、登普斯特檢驗(dempster’stest)、bai-saranadasa檢驗、srivastava-du檢驗)。這些方法中的一些方法,諸如霍特林t2統(tǒng)計量,要求對樣本協(xié)方差矩陣求逆,這在觀察數(shù)小于變量數(shù)(-組學數(shù)據(jù)通常是這種情況)時無法做到。此外,這些結(jié)果中的一些結(jié)果依賴于漸近結(jié)果,這要求甚至更大的樣本量。因此,在基因組學中,這些統(tǒng)計法中的許多統(tǒng)計法將不適用。此外,代謝組學數(shù)據(jù)集通常具有少于1,000種變量,并且許多生化途徑包含少于20種代謝物。因此,這些多變量統(tǒng)計可適用于代謝組學數(shù)據(jù)的許多情況。
我們將這些方法應(yīng)用于胰島素抵抗相關(guān)的人類代謝組學數(shù)據(jù)集。將胰島素抵抗受試者“ir”(n1=261)與胰島素敏感受試者“is”(n2=138)進行比較。該數(shù)據(jù)集代表執(zhí)行途徑分析時面臨的許多挑戰(zhàn)(例如,多種途徑中存在許多代謝物,并且一些途徑中所檢測到的代謝物的百分比高于其他途徑)。對于該實例而言,將每種代謝物分配給由內(nèi)部專家定義的單種途徑,這些內(nèi)部專家利用諸如kegg的公共數(shù)據(jù)庫。從該分析中排除僅具有一種代表性代謝物的途徑。由于該數(shù)據(jù)集具有較大樣本量,因此由10,000種排列確定每一統(tǒng)計量的排列分布。
表1示出了通過對每種代謝物執(zhí)行welch雙樣本t檢驗得出的結(jié)果的匯總。在丟棄僅觀察到一種代謝物的途徑之后,保留39種途徑。表1的列1示出了途徑編號,列2是生化途徑,列3是該研究在生化途徑內(nèi)檢測到的代謝物的數(shù)量,列4是經(jīng)比較發(fā)現(xiàn)顯著改變的代謝物的數(shù)量,并且列5和6表示生化途徑代謝物的p值的范圍。有一種途徑中每一成員都在0.05水平下具有顯著性(p02=苯甲酸代謝)。然而,使用統(tǒng)計方法分析生化途徑的顯著性時,超過一半途徑在0.05水平下具有顯著性(在校正多重比較之前),如表2所示。在表2中,fx=采用卡方分布的fisher統(tǒng)計量;fp=采用排列分布的fisher統(tǒng)計量;ts=尾強度統(tǒng)計量;artp=自適應(yīng)秩截斷乘積;pca,對第一主成分執(zhí)行雙樣本t檢驗得出的結(jié)果;ht=霍特林t2;bsn=采用正態(tài)逼近的bai-saranadasa統(tǒng)計量;bsp=采用排列分布的bai-saranadasa統(tǒng)計量;dm=登普斯特統(tǒng)計量;以及sd=srivastava和du統(tǒng)計量。存在若干統(tǒng)計上顯著的途徑,其中少于一半的各個生化物質(zhì)達到0.05水平。一個實例是p37(色氨酸代謝),其中其八種代謝物中僅有一種的p值小于0.05,但使用除尾強度之外的所有統(tǒng)計學檢驗得出該途徑自身被顯著改變。這一點的主要原因之一是兩兩相關(guān)性極低–絕大多數(shù)兩兩相關(guān)性低于0.3??偟膩碚f,就該實例而言,p值聚合方法和多變量統(tǒng)計得出類似結(jié)果。
表1-結(jié)果匯總:各個代謝物顯著性,welch雙樣本t檢驗
表2-結(jié)果匯總:生化途徑顯著性
實例1-確定正常健康狀況的受試者中遺傳變體的意義:疾病的早期跡象
又如,一名患者的wes數(shù)據(jù)揭示了編碼蛋白質(zhì)前輔脂酶和thad的基因中的突變,前輔脂酶和thad與ii型糖尿病具有已知關(guān)聯(lián)。檢查有關(guān)該患者的臨床信息揭示了ii型糖尿病的家族史(父親和兄弟)。對來自該患者的樣品進行代謝組學分析,并在表3中給出全譜。表3包括對于每種代謝物而言,權(quán)威標準品內(nèi)部化學庫中的生物標記物化合物的內(nèi)部標識符(compid);代謝物的生化名稱;生化途徑(超途徑);生化亞途徑;以及樣品中的代謝物水平的z評分值。
表3-一名示例性患者的代謝物譜
圖4中給出了生化途徑的示例直觀顯示,示出了測試樣品中檢測到的生化物質(zhì)并著重說明了患者樣品中受變體的存在影響的那些生化物質(zhì)。可以看出,通過使用圖4中的直觀顯示,受變體影響的那些生化途徑可以由指示受影響的生化物質(zhì)的深色實心圓圈的存在和尺寸來鑒定。圓圈的尺寸表示測試樣品中的代謝物相對于參考樣品的變化幅值。樣品中顯著改變(即,升高或降低)的代謝物呈現(xiàn)出比具有正常水平的代謝物更大的圓圈,其中變化幅值由圓圈的尺寸指示。
變體對支鏈氨基酸代謝的作用在圖4中給出的顯示上指示。圓圈附近的數(shù)字對應(yīng)于患者樣品中發(fā)生改變的各個生化物質(zhì)。表4中給出了示例簡潔報告,列出了改變的代謝物并解讀了這些變化的生化意義。
如在此舉例說明的,通過對取自該患者的測試樣品進行代謝組學分析,鑒定了與糖尿病和胰島素抵抗相關(guān)聯(lián)的標記。所選擇的受變體影響的代謝物顯示于表4中舉例說明的簡潔報告。這些受影響的生化物質(zhì)包括升高的α‐羥基丁酸、降低的1,5‐脫水葡萄糖醇、降低的甘氨酸以及略微升高的支鏈氨基酸代謝物。另外,升高的葡萄糖和3‐羥基丁酸(脂肪酸β‐氧化和bcaa分解代謝的產(chǎn)物)表明能量代謝改變,這與破壞的糖酵解和升高的脂肪分解相符。這些生化標志共同表明糖尿病的早期跡象,指示變體的有害作用。
表4-一名示例性患者中的生化改變的簡潔報告
對于另一名患者而言,wes顯示了兩種糖尿病風險等位基因mapk81p1(p.d386e)和mc4r(pi251l)上的變體。在該患者中觀察到糖尿病和胰島素抵抗相關(guān)代謝物標記和生化途徑的類似改變。此外,近期的靶向代謝全套檢查(targetedmetabolicpanel)顯示出該患者的空腹血糖處于糖尿病前期范圍。
實例2-變體分析:被確定為良性的變體
在一個實例中,本文所述的方法可用于確定使用全外顯子組測序(wes)檢測到的堿基對改變的重要性,并且有助于患者的診斷(即,“納入”或“排除”障礙)。例如,本文所述的方法的結(jié)果排除了基于wes而報告有意義不明的變體(vus)的患者中障礙的存在,由此確定該變體沒有有害作用。這些變體從vus重新分類為“良性”或“中性”
在一個實例中,在glyctk(甘油酸尿癥中受影響的基因)內(nèi)報告了vus[c.673g>t(p.g225w)]。然而,使用本文所述的方法,確定該患者中的甘油酸水平為正常的。該變體沒有有害作用,并被確定為中性的。
又如,在slc25a15(即,高鳥氨酸血癥-高氨血癥-高瓜氨酸血癥綜合征中受影響的基因)中具有vus[c.730g>a(p.g244r)]的患者中,確定鳥氨酸、谷氨酰胺和高瓜氨酸處于正常水平,從而排除了該障礙。該變體沒有有害作用,并被認為是中性的。
又如,在gldc(甘氨酸腦病中受影響的基因)中檢測到vus[c.718a>g(pt240a)]。依據(jù)代謝物甘氨酸的正常水平,該vus被確定為中性的。
又如,在pah(苯丙酮尿癥中受影響的基因)中檢測到vus[c.1222c>t(p.r408w)]。測得該患者中的苯丙氨酸水平是正常的,因此該vus被確定為中性的。
又如,在polg(線粒體耗竭綜合征中受影響的基因)中檢測到vus[c.1669g>c(p.e557q)]。然而,生化乳酸的水平是正常的,因此該vus被確定為中性的。
實例3-變體分析:被確定為致病/有害的變體
再如,本文所述的方法的結(jié)果有助于支持分子結(jié)果的致病性。
例如,一名患者的wes結(jié)果揭示了sardh(肌氨酸血癥中有缺陷的基因)中的雜合vus[c.455g>a(p.g152d)]。使用本文所述的方法,確定了膽堿、甜菜堿、二甲基甘氨酸和肌氨酸的顯著升高。這些升高的水平與肌氨酸血癥相符,肌氨酸血癥是臨床癥狀的存在尚有爭議的代謝障礙?;谠摲治龅慕Y(jié)果,確定該變體是致病變體。
在另一名患者中,在lrpprc(leigh綜合征中受影響的基因)中報告了vus[c.1903g>t(p.v635f)]。測得該患者具有升高水平的乳酸,這與leigh綜合征的診斷相符,從而指示該vus應(yīng)被歸類為有害的變體。
在另一名患者中,在dpyd(5-氟尿嘧啶毒性中受影響的基因)中報告了vus[c.2846a>t(p.d949v]。測得該患者具有升高水平的尿嘧啶,這與5-氟尿嘧啶毒性的診斷相符。結(jié)果表明該vus應(yīng)被分類為有害變體
又如,在患者中報告了gaa(編碼α-葡萄糖苷酶的基因)中的突變。已在確診為龐貝氏癥的人群中鑒定了gaa中的突變。測得該患者具有升高水平的麥芽四糖、麥芽三糖和麥芽糖,這與龐貝氏癥的診斷相符,從而指示該突變應(yīng)被分類為有害變體。
在另一名患者中,在adsl(編碼腺苷酸琥珀酸裂解酶并在adsl缺陷癥中受影響的基因)中報告了突變。測得該患者具有升高水平的n6-琥珀酰腺苷,這與adsl缺陷癥的診斷相符。結(jié)果表明該變體應(yīng)被歸類為有害變體。
又如,在患者中報告了pex1(編碼過氧化物酶體生物合成因子的基因)中的突變。已在確診為過氧化物酶體生物合成障礙/齊薇格綜合征譜系障礙(pbd/zss)的人群中鑒定了pex1中的突變。測得該患者具有升高水平的甲基哌啶和降低水平的縮醛磷脂(例如,1-(1-烯基-棕櫚酰)-2-油酰-gpc(p-16:0/18:1)、1-(1-烯基-棕櫚酰)-2-肉豆蔻酰-gpc(p-16:0/14:0)、1-(1-烯基-棕櫚酰)-2-花生四烯酰-gpe(p-16:0/20:4)、1-(1-烯基-硬脂酰)-2-花生四烯酰-gpe(p-18:0/20:4)、1-(1-烯基-棕櫚酰)-2-棕櫚酰-gpc(p-16:0/16:0)、1-(1-烯基-棕櫚酰)-2-花生四烯酰-gpc(p-16:0/20:4)、1-(1-烯基-硬脂酰)-2-花生四烯酰-gpc(p-18:0/20:4)、1-(1-烯基-棕櫚酰)-2-棕櫚油酰-gpc(p-16:0/16:1)),這與pbd/zss的診斷相符。結(jié)果表明該變體應(yīng)被歸類為有害變體。