相關(guān)申請(qǐng)案的交叉參考
本申請(qǐng)案主張于2014年10月10日申請(qǐng)的題為“用于識(shí)別拷貝數(shù)變異的系統(tǒng)和方法”的美國(guó)臨時(shí)申請(qǐng)案第62/062,312號(hào)的35u.s.c.§119(e)下的優(yōu)先權(quán),前述申請(qǐng)案的內(nèi)容在此以全文引用的方式并入本文中。
本發(fā)明大體上涉及核酸測(cè)序的領(lǐng)域,其包含用于計(jì)算經(jīng)校正擴(kuò)增子覆蓋度,并且更具體地說(shuō),基于經(jīng)校正擴(kuò)增子覆蓋度識(shí)別拷貝數(shù)變異的系統(tǒng)、方法和計(jì)算機(jī)可讀媒體。
背景技術(shù):
完成人類基因組計(jì)劃之后,測(cè)序行業(yè)的一個(gè)焦點(diǎn)已經(jīng)轉(zhuǎn)換以發(fā)現(xiàn)更高的通量及/或降低核酸測(cè)序技術(shù)(有時(shí)稱作“下一代”測(cè)序(“ngs”)技術(shù))的成本。在增大測(cè)序的通量及/或減小測(cè)序的成本上,制定更易獲得所述技術(shù)的目標(biāo)??梢酝ㄟ^(guò)使用向具有相當(dāng)大復(fù)雜度的樣品提供樣品制備、同時(shí)對(duì)較大數(shù)目的樣品進(jìn)行測(cè)序(例如通過(guò)使用條碼和多重分析)和/或有效地處理大量信息且以及時(shí)方式完成分析的測(cè)序平臺(tái)和方法而達(dá)到此目標(biāo)及其它。進(jìn)化形成各種方法,例如合成測(cè)序、雜交測(cè)序以及連接測(cè)序來(lái)滿足這些挑戰(zhàn)。
并入ngs技術(shù)的超高通量核酸測(cè)序系統(tǒng)通常產(chǎn)生大量短序列讀段。序列處理方法應(yīng)合意地快速且有效地匯編和/或映射大量讀段,以使計(jì)算資源的使用降到最低。舉例來(lái)說(shuō),由對(duì)哺乳動(dòng)物基因組測(cè)序產(chǎn)生的數(shù)據(jù)可以產(chǎn)生數(shù)千萬(wàn)或數(shù)億讀段,所述讀段在其可以進(jìn)一步進(jìn)行分析以確定其生物、診斷和/或治療相關(guān)性之前通常需要加以匯編。
ngs技術(shù)的示范性應(yīng)用包括(但不限于):基因組變異體檢測(cè)(例如,插入/缺失、拷貝數(shù)變異、單核苷酸多態(tài)性等);基因組重測(cè)序;基因表達(dá)分析;以及基因組剖析。
拷貝數(shù)變異(“cnv”)可以指示大規(guī)模染色體重排(例如,大型插入或缺失),其可以通常發(fā)現(xiàn)于癌組織中。在一些情況下,可丟失及/或復(fù)制(整個(gè)染色體非整倍體),這是遺傳病(例如,唐氏綜合癥(21三體綜合癥)、貓眼綜合癥(22三體綜合癥)、威廉斯綜合癥(7單染色體癥)以及各種其它遺傳病)的常見(jiàn)原因。識(shí)別拷貝數(shù)變異可以幫助理解和判斷癌癥和非整倍體遺傳病。
從前述內(nèi)容可理解,需要可識(shí)別且確定拷貝數(shù)變異的系統(tǒng)和方法。
技術(shù)實(shí)現(xiàn)要素:
實(shí)施例公開(kāi)用于經(jīng)校正擴(kuò)增子覆蓋度的設(shè)備、方法、系統(tǒng)和計(jì)算機(jī)可讀媒體。在多個(gè)實(shí)施方案中例示下列方法、系統(tǒng)、計(jì)算機(jī)可讀媒體和裝置,所述多個(gè)實(shí)施方案中的一些在下文及整個(gè)說(shuō)明書中加以概述。
在本發(fā)明的一個(gè)方面中,公開(kāi)用于計(jì)算經(jīng)校正擴(kuò)增子覆蓋度的計(jì)算機(jī)實(shí)施的方法。一個(gè)方法包括:將基于疑具有一或多個(gè)遺傳畸變的樣品的經(jīng)擴(kuò)增靶區(qū)域的多個(gè)擴(kuò)增子的多個(gè)讀段映射到參考序列,所述參考序列包含對(duì)應(yīng)于所述經(jīng)擴(kuò)增靶區(qū)域的一或多個(gè)核酸序列;計(jì)算擴(kuò)增子覆蓋度及總讀段,其中擴(kuò)增子覆蓋度為映射到擴(kuò)增子的多個(gè)讀段,且總讀段為多個(gè)經(jīng)映射讀段;及經(jīng)由應(yīng)用分批效果校正基于所計(jì)算出的擴(kuò)增子覆蓋度及所計(jì)算出的總讀段計(jì)算經(jīng)校正擴(kuò)增子覆蓋度。
在本發(fā)明的一個(gè)方面中,公開(kāi)用于計(jì)算經(jīng)校正擴(kuò)增子覆蓋度的系統(tǒng)。一個(gè)系統(tǒng)包含:存儲(chǔ)用于計(jì)算經(jīng)校正擴(kuò)增子覆蓋度的指令系統(tǒng)的數(shù)據(jù)存儲(chǔ)裝置;及經(jīng)配置以執(zhí)行所述指令以執(zhí)行包含以下各者的方法的處理器:將基于疑具有一或多個(gè)遺傳畸變的樣品的經(jīng)擴(kuò)增靶區(qū)域的多個(gè)擴(kuò)增子的多個(gè)讀段映射到參考序列,所述參考序列包含對(duì)應(yīng)于所述經(jīng)擴(kuò)增靶區(qū)域的一或多個(gè)核酸序列;計(jì)算擴(kuò)增子覆蓋度及總讀段,其中擴(kuò)增子覆蓋度為映射到擴(kuò)增子的多個(gè)讀段,且總讀段為多個(gè)經(jīng)映射讀段;及經(jīng)由應(yīng)用分批效果校正基于所計(jì)算出的擴(kuò)增子覆蓋度及所計(jì)算出的總讀段而計(jì)算經(jīng)校正擴(kuò)增子覆蓋度。
在本發(fā)明的一個(gè)方面中,公開(kāi)存儲(chǔ)當(dāng)由計(jì)算機(jī)執(zhí)行時(shí)使得計(jì)算機(jī)執(zhí)行用于計(jì)算經(jīng)校正擴(kuò)增子覆蓋度的方法的指令的非暫時(shí)性計(jì)算機(jī)可讀媒體。非暫時(shí)性計(jì)算機(jī)可讀媒體的方法包含:將基于疑具有一或多個(gè)遺傳畸變的樣品的經(jīng)擴(kuò)增靶區(qū)域的多個(gè)擴(kuò)增子的多個(gè)讀段映射到參考序列,所述參考序列包含對(duì)應(yīng)于經(jīng)擴(kuò)增靶區(qū)域的一或多個(gè)核酸序列;計(jì)算擴(kuò)增子覆蓋度及總讀段,其中擴(kuò)增子覆蓋度為映射到擴(kuò)增子的多個(gè)讀段,且總讀段為多個(gè)經(jīng)映射讀段;及經(jīng)由應(yīng)用分批效果校正基于所計(jì)算出的擴(kuò)增子覆蓋度及所計(jì)算出的總讀段計(jì)算經(jīng)校正擴(kuò)增子覆蓋度。
所公開(kāi)的實(shí)施例的額外目的和優(yōu)點(diǎn)將在以下描述中部分闡述,且部分將從所述描述顯而易見(jiàn),或可通過(guò)實(shí)踐所公開(kāi)的實(shí)施例習(xí)得。所公開(kāi)的實(shí)施例的目的和優(yōu)點(diǎn)將借助于所附權(quán)利要求書中特別指出的元件和組合來(lái)實(shí)現(xiàn)和獲得。
應(yīng)理解,前文總體描述以及以下詳細(xì)描述都僅僅是示范性以及說(shuō)明性的,并且不限制所公開(kāi)的實(shí)施例的范圍,如權(quán)利要求書所闡述。
附圖說(shuō)明
并入到說(shuō)明書中并且形成說(shuō)明書的一部分的隨附圖式說(shuō)明一個(gè)或多個(gè)示范性實(shí)施例并且用以解釋各個(gè)示范性實(shí)施例的原理。圖式僅是示范性及說(shuō)明性的,并且不應(yīng)理解為以任何方式限制或約束。
圖1描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明示范性計(jì)算機(jī)系統(tǒng)的框圖;
圖2描繪根據(jù)本發(fā)明的各種實(shí)施例的用于確定核酸序列的示范性系統(tǒng)的示意圖;
圖3描繪根據(jù)本發(fā)明的各種實(shí)施例的示范性基因分析系統(tǒng)的示意圖;
圖4描繪說(shuō)明根據(jù)本發(fā)明的各種實(shí)施例的確定分批效果值的示范性方法的流程圖;
圖5描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明識(shí)別拷貝數(shù)變異的示范性方法的流程圖;
圖6描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明基因組座標(biāo)的成對(duì)差長(zhǎng)度的曲線;
圖7a至7e描繪根據(jù)本發(fā)明的各種實(shí)施例的具有各種mapd值的基因組數(shù)據(jù)的實(shí)例;
圖8a描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明gc含量的已知技術(shù)效果的影響的曲線;
圖8b描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明擴(kuò)增子長(zhǎng)度的已知技術(shù)效果對(duì)擴(kuò)增子讀段計(jì)數(shù)的影響的曲線;
圖9描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明分多批進(jìn)行的對(duì)實(shí)驗(yàn)的技術(shù)效果及分批效果的校正的應(yīng)用的mapd曲線;
圖10描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明分多批進(jìn)行的對(duì)實(shí)驗(yàn)的技術(shù)效果及分批效果的校正的應(yīng)用的mapd曲線;
圖11描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明來(lái)自應(yīng)用技術(shù)效果及分批效果的校正的改善的曲線;
圖12描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明來(lái)自應(yīng)用技術(shù)效果及分批效果的校正的改善的曲線;
圖13a至13e描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明具有或不具有分批效果校正的實(shí)例樣品的比較的曲線;
圖14a至14e描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明具有及不具有分批效果校正的實(shí)例樣品的比較的曲線;
圖15a至15e描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明具有及不具有分批效果校正的實(shí)例樣品的比較的曲線;
圖16a至16e描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明具有及不具有分批效果校正的實(shí)例樣品的比較的曲線;
圖17描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明以來(lái)自基因組區(qū)域集特指的陽(yáng)離子過(guò)氧化酶過(guò)度表達(dá)子3(“ocp3”)的多批進(jìn)行的對(duì)實(shí)驗(yàn)應(yīng)用技術(shù)效果及分批效果的校正的mapd曲線;
圖18描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明從對(duì)來(lái)自基因組區(qū)域集合特指的ocp3應(yīng)用技術(shù)效果及分批效果的校正的改善的曲線;
圖19a及19b描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明經(jīng)及不經(jīng)預(yù)預(yù)處理的實(shí)例樣品的比較的曲線;
圖20a及20b描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明經(jīng)及不經(jīng)預(yù)預(yù)處理的實(shí)例樣品的比較的曲線;
圖21a及21b描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明經(jīng)及不經(jīng)預(yù)預(yù)處理的實(shí)例樣品的比較的曲線;
圖22a及22b描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明經(jīng)及不經(jīng)預(yù)預(yù)處理的實(shí)例樣品的比較的曲線;
圖23a及23b描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明具有及不具有分批效果校正的實(shí)例樣品的比較的曲線;及
圖24a及24b描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明具有及不具有分批效果校正的實(shí)例樣品的比較的曲線。
應(yīng)理解,圖式不一定按比例繪制,圖式中的對(duì)象也不一定相對(duì)于彼此按比例繪制。圖式是意圖為本文所公開(kāi)的設(shè)備、系統(tǒng)和方法的各種實(shí)施例帶來(lái)清晰性和理解的描繪。在可能的情況下,將在整個(gè)圖式中使用相同參考編號(hào)來(lái)指代相同或相似部分。此外,應(yīng)了解,附圖并不打算以任何方式限制本教示內(nèi)容的范圍。
具體實(shí)施方式
以下描述及本文所描述的各種實(shí)施例僅為示范性及解釋性的,且不經(jīng)解釋為以任何方式限制或限定性。本發(fā)明教示的其它實(shí)施例、特征、目的及優(yōu)點(diǎn)將從實(shí)施方式及隨附圖式,及從權(quán)利要求顯而易見(jiàn)。在實(shí)施例章節(jié)的此具體描述中,出于解釋的目的,闡述許多特定細(xì)節(jié)以提供所公開(kāi)的實(shí)施例的透徹理解。然而,所屬領(lǐng)域的技術(shù)人員將了解,這些各種實(shí)施例可以在具有或不具有這些特定細(xì)節(jié)的情況下實(shí)踐。在其它情況下,結(jié)構(gòu)和裝置以框圖形式顯示。此外,所屬領(lǐng)域的技術(shù)人員可以容易地了解,用以呈現(xiàn)和執(zhí)行方法的具體順序?yàn)檎f(shuō)明性的,且預(yù)期所述順序可以改變且仍保持在本文中所公開(kāi)的各種實(shí)施例的精神和范圍內(nèi)。
用于檢測(cè)拷貝數(shù)變異的系統(tǒng)和方法的實(shí)施例描述于本文中。
本文所用的章節(jié)標(biāo)題僅用于組織目的并且不應(yīng)理解為以任何方式限制所描述的主題。
本申請(qǐng)中引用的所有文獻(xiàn)和類似材料(包括但不限于專利、專利申請(qǐng)、文章、書籍、論文和因特網(wǎng)網(wǎng)頁(yè))明確以全文引用的方式并入用于任何目的。除非另外描述,否則本文所用的所有技術(shù)和科學(xué)術(shù)語(yǔ)具有與本文所描述的各種實(shí)施例所屬的領(lǐng)域的一般技術(shù)人員通常所了解相同的含義。
應(yīng)了解,在本發(fā)明中論述的溫度、濃度、倍數(shù)、堿基數(shù)目、覆蓋度等之前存在隱含的“約”,使得略微和非實(shí)質(zhì)偏差在本發(fā)明的范圍內(nèi)。在本發(fā)明中,除非另外具體陳述,否則單數(shù)的使用包含復(fù)數(shù)。此外,“包括(comprise/comprises/comprising)”、“含有(contain/contains/containing)”和“包含(include/includes/including)”的使用并不打算是限制性的。應(yīng)理解,前文大體描述以及以下詳細(xì)描述僅是示范性及說(shuō)明性的且未必限制本發(fā)明。
如本文所使用,“一(a或an)”也可指代“至少一個(gè)”或“一或多個(gè)”。另外,使用的“或(or)”為包含性的,使得當(dāng)“a”真實(shí)、“b”真實(shí),或“a”和“b”兩者真實(shí)時(shí),短語(yǔ)“a或b”真實(shí)。
此外,除非上下文另外需要,否則單數(shù)術(shù)語(yǔ)應(yīng)包含復(fù)數(shù)并且復(fù)數(shù)術(shù)語(yǔ)應(yīng)包含單數(shù)。一般來(lái)說(shuō),本文所描述的與細(xì)胞和組織培養(yǎng)、分子生物學(xué)以及蛋白質(zhì)和寡核苷酸或聚核苷酸化學(xué)和雜交結(jié)合使用的命名法和技術(shù)為所屬領(lǐng)域中眾所周知并且常用的命名法和技術(shù)。標(biāo)準(zhǔn)技術(shù)用于例如核酸純化和制備、化學(xué)分析、重組核酸和寡核苷酸合成。酶促反應(yīng)和純化技術(shù)根據(jù)制造商的說(shuō)明書或如所屬領(lǐng)域中通常所實(shí)現(xiàn)或如本文所描述來(lái)執(zhí)行。本文中所述的技術(shù)和程序通常可根據(jù)所屬領(lǐng)域中眾所周知以及如本發(fā)明的說(shuō)明書通篇中所引用和論述的各種一般性和較特定的參考文獻(xiàn)中所述的常規(guī)方法來(lái)執(zhí)行。參看例如sambrook等人,《分子克?。簩?shí)驗(yàn)指南(molecularcloning:alaboratorymanual)》(第三版,coldspringharborlaboratorypress,coldspringharbor,n.y.2000)。本文所描述的實(shí)驗(yàn)程序及技術(shù)及與其相連利用的命名法為在此項(xiàng)技術(shù)中熟知及常用的那些程序、技術(shù)及命名法。
在不同實(shí)施例中,擴(kuò)增效率的現(xiàn)未知系統(tǒng)性差異(還被稱作“分批效果”)可導(dǎo)致不同批次的樣品之間的dna的同一序列的擴(kuò)增效率的變異。這些變異可為樣品制備條件的差異(例如條件的差異,如在樣品制備期間所使用的各種解決方案中的濃度及/或ph的變化,及/或溫度的差異)的結(jié)果。這些變異也可起因于樣品處置條件(如允許樣品擱置隔夜對(duì)立即操作樣品)的差異。
可檢測(cè)分批效果且可使用主成分分析(“pca”)移除分批效果。pca為使用也可應(yīng)用于靶向ngs分析的微陣列的拷貝數(shù)(“cn”)確定的技術(shù)。主成分分析可取決于三個(gè)假設(shè)。首先,對(duì)于pca,可需要有具有已知拷貝數(shù)(例如,非腫瘤正常樣品集)的較大或較小程度呈現(xiàn)這些分批效果的多個(gè)樣品。其次,每一樣品中的大多數(shù)基因組位置具有已知的拷貝數(shù)(例如,常染色體中2個(gè),及性染色體中1個(gè)或2個(gè))。最后,所述樣品中的相鄰位置很可能共享相同的拷貝數(shù)。正常樣品集可用于探索分批效果,在此之后可經(jīng)由估計(jì)分批效果的大小及校正及/或調(diào)整所述大小來(lái)校正及/或調(diào)整每一樣品。在另一實(shí)施例中,非正常樣品集可用于探索分批效果。
對(duì)于任何給定基因組位置,拷貝數(shù)的確定可取決于由那個(gè)位置處的dna的底層拷貝數(shù)所確定的測(cè)得值。如果分析保留給定基因組位置處的輸入樣品中的dna的相對(duì)拷貝數(shù)且讀出為定量的,那么可在輸入樣品中確定拷貝數(shù)。
舉例來(lái)說(shuō),對(duì)于單核苷酸多態(tài)性(“snp”)微陣列,可存在輸入dna的片段,接著為線性擴(kuò)增及定量熒光雜交讀出,其中每一寡核苷酸探針具有到特定基因組位置中的dna的特定結(jié)合。對(duì)于多重?cái)U(kuò)增分析,可存在輸入dna的特定擴(kuò)增子的pcr擴(kuò)增及使用下一代測(cè)序儀(例如,iontorrent個(gè)人基因組機(jī)器(“personalgenomemachine;pgm”))的最終產(chǎn)物的計(jì)數(shù)。每一基因組位置的擴(kuò)增效率可由操作具有已知拷貝數(shù)(即,正常值)的樣品集及由于已知共變量(例如,鳥嘌呤-胞嘧啶含量(“gc含量”))的每樣品調(diào)節(jié)而憑經(jīng)驗(yàn)計(jì)算,及/或可估計(jì)且考慮片段長(zhǎng)度。
但是,可存在具有未知原因的其它分批效果。使用對(duì)樣品集的主成分分析可用于探索此類分批效果。隨后,可在每樣品基礎(chǔ)上經(jīng)由估計(jì)每樣品量值并將每樣品量值減出而移除分批效果。此技術(shù)可對(duì)其大部分基因組位置經(jīng)預(yù)期具有已知拷貝數(shù)的樣品起作用。
在各種實(shí)施例中,擴(kuò)增效率的變異可增大所確定拷貝數(shù)的批次間變率,導(dǎo)致較不可信的確定。針對(duì)分批效果應(yīng)用校正可減小批次間變率且可改善拷貝數(shù)確定的可靠度。在各種實(shí)施例中,可通過(guò)對(duì)樣品制備解決方案及條件施加嚴(yán)格的控制而避免一些分批效果,所述樣品制備解決方案及條件可需要驗(yàn)證每一批樣品制備試劑。對(duì)于分批效果的計(jì)算上校正可降低嚴(yán)格控制及試劑批次的驗(yàn)證的要求,借此減小與精確拷貝數(shù)確定相關(guān)聯(lián)的時(shí)間及成本。此外,即使當(dāng)除批次間試劑變率外的因素不是原因,計(jì)算上的技術(shù)可確??截悢?shù)確定的批次間一致性。
“系統(tǒng)”闡述組件集,其包括每一組件相互作用的整個(gè)組件集或涉及整個(gè)組件集內(nèi)的至少一個(gè)其它組件。
“生物分子”可指通過(guò)生物有機(jī)體產(chǎn)生的任何分子,包括大聚合分子,如蛋白質(zhì)、多糖、脂質(zhì)和核酸(dna和rna)以及小分子,如初級(jí)代謝物、次級(jí)代謝物和其它天然產(chǎn)物。
短語(yǔ)“下一代測(cè)序”或ngs是指相比于傳統(tǒng)的基于桑格(sanger)和毛細(xì)電泳法的方法具有增加的通量,例如具有一次產(chǎn)生數(shù)十萬(wàn)相對(duì)較小序列讀段的能力的測(cè)序技術(shù)。下一代測(cè)序技術(shù)的一些實(shí)例包括(但不限于)合成測(cè)序、連接測(cè)序以及雜交測(cè)序。更確切地說(shuō),生命技術(shù)公司(lifetechnologiescorp.)的個(gè)人基因組機(jī)器(“pgm”)提供具有增強(qiáng)的精確性的大規(guī)模平行測(cè)序。pgm系統(tǒng)和相關(guān)工作流、協(xié)議、化學(xué)反應(yīng)等更詳細(xì)地描述于美國(guó)專利申請(qǐng)公開(kāi)案第2009/0127589號(hào)和第2009/0026082號(hào)中,這些申請(qǐng)中的每一個(gè)的全部?jī)?nèi)容以引用的方式并入本文中。
短語(yǔ)“測(cè)序操作”是指經(jīng)進(jìn)行以確定與至少一個(gè)生物分子(例如核酸分子)相關(guān)的一些信息的測(cè)序?qū)嶒?yàn)的任何步驟或部分。
短語(yǔ)“堿基空間”是指核苷酸序列的表示。短語(yǔ)“流動(dòng)空間”是指特定核苷酸流動(dòng)的并入事件或非并入事件的表示。舉例來(lái)說(shuō),流動(dòng)空間可以是表示特定核苷酸流動(dòng)的核苷酸并入事件(如一,“1”)或非并入事件(如零,“0”)的一系列值。具有非并入事件的核苷酸流可以稱為空流,并且具有核苷酸并入事件的核苷酸流可以稱為正流。應(yīng)理解,零及一為非并入事件及核苷酸并入事件的方便表示。但是,可替代地使用任何其它符號(hào)或指示來(lái)表示及/或識(shí)別這些事件及非事件。確切地說(shuō),當(dāng)多個(gè)核苷酸在給定位置并入時(shí),如對(duì)于均聚物拉伸,值可以與核苷酸并入事件數(shù)目且因此與均聚物拉伸長(zhǎng)度成比例。
脫氧核糖核酸(“dna”)為由4種類型的核苷酸組成的核苷酸鏈;a(腺嘌呤)、t(胸腺嘧啶)、c(胞嘧啶)和g(鳥嘌呤),且核糖核酸(“rna”)包括4種類型的核苷酸;a、u(尿嘧啶)、g和c。某些對(duì)的核苷酸以互補(bǔ)方式特定地彼此結(jié)合(還稱作互補(bǔ)堿基配對(duì))。也就是說(shuō),腺嘌呤(a)與胸腺嘧啶(t)配對(duì)(但是,在rna的情況下,腺嘌呤(a)與尿嘧啶(u)配對(duì)),并且胞嘧啶(c)與鳥嘌呤(g)配對(duì)。當(dāng)?shù)谝缓怂徭溄Y(jié)合到由與第一鏈中的核苷酸互補(bǔ)的核苷酸組成的第二核酸鏈時(shí),兩個(gè)鏈結(jié)合以形成雙鏈。如本文所用,“核酸測(cè)序數(shù)據(jù)”、“核酸測(cè)序信息”、“核酸序列”、“基因組序列”、“基因序列”或“片段序列”或“核酸測(cè)序讀段”表示指示核苷酸堿基(例如腺嘌呤、鳥嘌呤、胞嘧啶以及胸腺嘧啶/尿嘧啶)在dna或rna分子(例如全基因組、全轉(zhuǎn)錄組、外顯子組、寡核苷酸、聚核苷酸、片段等)中的排序的任何信息或數(shù)據(jù)。應(yīng)理解,本發(fā)明教示涵蓋使用包括(但不限于)以下各者的所有可用種類的技術(shù)、平臺(tái)或技藝獲得的序列信息:毛細(xì)電泳法、微陣列、基于連接的系統(tǒng)、基于聚合酶的系統(tǒng)、基于雜交的系統(tǒng)、直接或間接核苷酸識(shí)別系統(tǒng)、焦磷酸測(cè)序、基于離子或ph的檢測(cè)系統(tǒng)、基于電子簽名的系統(tǒng)等。
“聚核苷酸”、“核酸”或“寡核苷酸”是指通過(guò)核苷間鍵接合的核苷(包括脫氧核糖核苷、核糖核苷或其類似物)的線性聚合物。通常,聚核苷酸包含至少三個(gè)核苷。通常,寡核苷酸的大小在幾個(gè)單體單元(例如3-4個(gè))到幾百個(gè)單體單元范圍內(nèi)。每當(dāng)聚核苷酸(如寡核苷酸)由一連串字母,如“atgcctg”表示時(shí),應(yīng)了解,除非另外指出,否則核苷酸按從左到右的5'->3'順序并且“a”表示脫氧腺苷,“c”表示脫氧胞苷,“g”表示脫氧鳥苷,并且“t”表示胸苷。如在所屬領(lǐng)域中標(biāo)準(zhǔn)的,字母a、c、g以及t可用于指堿基本身、核苷或包含堿基的核苷酸。
如本文所使用,“體細(xì)胞變異”或“體細(xì)胞突變”可指代基因序列的變異,包含由非生殖細(xì)胞中發(fā)生的突變產(chǎn)生的拷貝數(shù)變化的變異。變異可以通過(guò)有絲分裂傳遞到子細(xì)胞。這可以產(chǎn)生與有機(jī)體的其余細(xì)胞具有基因差異的一組細(xì)胞。另外,由于變異不出現(xiàn)于生殖細(xì)胞中,突變可能不被后代有機(jī)體繼承。
如本文中所定義,“多重?cái)U(kuò)增”是指樣品內(nèi)的兩種或多于兩種靶序列使用至少一種靶特異性引物的選擇性并且非隨機(jī)的擴(kuò)增。在一些實(shí)施例中,多重?cái)U(kuò)增可經(jīng)執(zhí)行,使得靶序列中的一些或全部在單一反應(yīng)容器內(nèi)擴(kuò)增。給定多重?cái)U(kuò)增的“重?cái)?shù)”或“重”通常是指在所述單一多重?cái)U(kuò)增期間擴(kuò)增的不同靶特異性序列的數(shù)目。在一些實(shí)施例中,重?cái)?shù)可以是約12重、24重、48重、96重、192重、384重、768重、1536重、3072重、6144重或更多重。
多重?cái)U(kuò)增方法:
在各種實(shí)施例中,可以對(duì)由擴(kuò)增來(lái)自核酸分子群體的多個(gè)靶特異性序列產(chǎn)生的靶核酸測(cè)序。在一些實(shí)施例中,擴(kuò)增可包含將一個(gè)或多個(gè)靶特異性引物對(duì)雜交到靶序列,延伸引物對(duì)的第一引物,使來(lái)自核酸分子群體的經(jīng)延伸第一引物產(chǎn)物變性,將引物對(duì)的第二引物雜交到經(jīng)延伸第一引物產(chǎn)物,延伸第二引物以形成雙鏈產(chǎn)物,及遠(yuǎn)離雙鏈產(chǎn)物消化靶特異性引物對(duì)來(lái)產(chǎn)生多個(gè)經(jīng)擴(kuò)增靶序列。
在一些實(shí)施例中,經(jīng)擴(kuò)增靶序列可以連接到一個(gè)或多個(gè)銜接子。在一些實(shí)施例中,銜接子可包含一個(gè)或多個(gè)dna條形碼或標(biāo)記序列。在一些實(shí)施例中,經(jīng)擴(kuò)增靶序列一旦連接到接附子,可以經(jīng)歷切口平移反應(yīng)和/或進(jìn)一步擴(kuò)增來(lái)產(chǎn)生銜接子連接的擴(kuò)增靶序列庫(kù)。多重?cái)U(kuò)增的示范性方法經(jīng)描述于2012年11月22日公開(kāi)的美國(guó)專利申請(qǐng)公開(kāi)案第2012/0295819a1號(hào)(于2012年4月27日申請(qǐng)的美國(guó)申請(qǐng)第13/458,739號(hào))且標(biāo)題為“用于多重pcr的方法和組合物”中。
在各種實(shí)施例中,執(zhí)行多重pcr擴(kuò)增的方法可包含將具有正向及反向引物的多個(gè)靶特異性引物對(duì)與靶序列的群體相接觸以形成多個(gè)模板/引物雙螺旋體;將dna聚合酶及dntp的混合物添加到多個(gè)模板/引物雙螺旋體,以用于在充足的時(shí)間及充足的溫度下經(jīng)由模板依賴性合成延伸每一靶特異性引物對(duì)中的正向或反向引物(或兩者)借此產(chǎn)生多個(gè)經(jīng)延伸引物產(chǎn)物/模板雙螺旋體;將經(jīng)延伸引物產(chǎn)物/模板雙螺旋體變性;將來(lái)自靶特異性引物對(duì)的互補(bǔ)引物退火結(jié)合到經(jīng)延伸引物產(chǎn)物;及在dna聚合酶及dntp的存在下延伸經(jīng)退火結(jié)合的引物以形成多個(gè)靶特異性雙鏈核酸分子。
接附子接合方法:
在本發(fā)明的一些實(shí)施例中,用于制備聚核苷酸構(gòu)建體的庫(kù)的方法可包含銜接子接合步驟。在一些實(shí)施例中,多個(gè)聚核苷酸片段可包含由雜交(例如,具有或不具有引物延伸反應(yīng))或酶接合(例如,接合酶反應(yīng))接合到一個(gè)或多個(gè)核酸銜接子以產(chǎn)生銜接子片斷構(gòu)建體的至少兩個(gè)聚核苷酸片段。在一些實(shí)施例中,聚核苷酸片段的一端或兩端可以接合到至少一種類型的核酸銜接子。聚核苷酸片段的一端或兩端可以接合到至少一個(gè)核酸銜接子,包含帶條形碼的銜接子、測(cè)序引物銜接子、擴(kuò)增引物銜接子、通用銜接子、阻斷寡核苷酸銜接子和/或其它銜接子。
在一些實(shí)施例中,核酸銜接子可包含與測(cè)序引物(例如,p1、p2及/或a)、擴(kuò)增引物、通用序列及/或條形碼序列互補(bǔ)的核苷酸序列。舉例來(lái)說(shuō),經(jīng)釋放配對(duì)構(gòu)建體可在每一末端處接合到不同測(cè)序銜接子以制備用于具有solidtm測(cè)序反應(yīng)(如pct公開(kāi)案第wo2006/084131號(hào)中所公開(kāi))的測(cè)序或具有離子敏感測(cè)序反應(yīng)(例如,來(lái)自生命技術(shù)公司的iontorrentpgmtm及protontm測(cè)序儀,例如見(jiàn)美國(guó)專利申請(qǐng)公開(kāi)案第2010/0301398號(hào)、第2010/0300895號(hào)、第2010/0300559號(hào)、第2010/0197507號(hào)、第2010/0137143號(hào)、第2009/0127589號(hào);及第2009/0026082號(hào),所述公開(kāi)案以全文引用的方式并入)的核酸庫(kù)。
帶條形碼的銜接子序列:
在本發(fā)明的一些實(shí)施例中,用于制備聚核苷酸構(gòu)建體庫(kù)的方法可包含將多個(gè)聚核苷酸片段的至少一端接合到具有條形碼序列的核酸銜接子。條形碼序列可以是用以識(shí)別聚核苷酸鏈和/或?qū)⑵渑c其它聚核苷酸鏈(例如含有不同相關(guān)靶序列的聚核苷酸鏈)區(qū)分開(kāi)的聚核苷酸鏈中的核苷酸堿基(例如腺嘌呤、鳥嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶、肌苷或其類似物)的選擇序列。在一些實(shí)施例中,條形碼銜接子可包含獨(dú)特識(shí)別序列(例如條形碼序列)。條形碼序列可以用于各種目的,如追蹤、分選和/或識(shí)別樣品。
由于不同條形碼序列可以與不同聚核苷酸鏈相關(guān),這些條碼序列可以適用于不同樣品的多重測(cè)序。在一些實(shí)施例中,條形碼銜接子可以用于構(gòu)建多重核酸庫(kù)。在一些實(shí)施例中,一或多個(gè)條形碼序列可以允許在具有不同條形碼序列的不同銜接子的混合物之中識(shí)別特定銜接子。舉例來(lái)說(shuō),混合物可包含2、3、4、5、6、7-10、10-50、50-100、100-200、200-500、500-1000或更多個(gè)具有唯一條形碼序列的不同銜接子。具有條形碼序列的各種銜接子的實(shí)例可發(fā)現(xiàn)于pct公開(kāi)案第wo2012/044847號(hào)(pct申請(qǐng)案第pct/us2011/054053號(hào))中,所述申請(qǐng)案以全文引用的方式并入。
在各種高通量dna測(cè)序技術(shù)(如合成測(cè)序)中,可需要準(zhǔn)許對(duì)匯集在一起用于同步分析的不同樣品測(cè)序(有時(shí)稱為多重測(cè)序)。
當(dāng)進(jìn)行多重測(cè)序時(shí),一般需要識(shí)別每一樣品的來(lái)源,且這可能需要測(cè)序數(shù)據(jù)對(duì)于每一樣品去卷積。確切地說(shuō),可能需要單一地識(shí)別衍生自多重樣品的序列數(shù)據(jù)的來(lái)源(例如以識(shí)別與不同樣品群體相關(guān)的特定核酸種類)。促進(jìn)樣品識(shí)別的一個(gè)方法可為使用嵌入樣品構(gòu)建體內(nèi)的唯一核酸識(shí)別符序列(條形碼銜接子)以使得可恰當(dāng)?shù)刈R(shí)別測(cè)序數(shù)據(jù)或?qū)y(cè)序數(shù)據(jù)與其來(lái)源樣品相關(guān)聯(lián)。
計(jì)算機(jī)執(zhí)行系統(tǒng):
圖1描繪說(shuō)明計(jì)算機(jī)系統(tǒng)100的框圖,本發(fā)明教示的實(shí)施例可以在所述系統(tǒng)上實(shí)施。在各種實(shí)施例中,計(jì)算機(jī)系統(tǒng)100可包含總線102及/或其它傳達(dá)信息的通信機(jī)構(gòu),及與總線102耦合用于處理信息的處理器104。在各種實(shí)施例中,計(jì)算機(jī)系統(tǒng)100還可包含可為耦合至總線102用于確定基站呼叫的隨機(jī)存取存儲(chǔ)器(“ram”)及/或其它動(dòng)態(tài)存儲(chǔ)裝置的存儲(chǔ)器106,及待由處理器104執(zhí)行的指令。存儲(chǔ)器106也可用于在執(zhí)行待通過(guò)處理器104執(zhí)行的指令期間存儲(chǔ)臨時(shí)變量或其它中間信息。在各種實(shí)施例中,計(jì)算機(jī)系統(tǒng)100可進(jìn)一步包含只讀存儲(chǔ)器(“rom”)108及/或耦合至總線102用于存儲(chǔ)用于處理器104的靜態(tài)信息及指令的其它靜態(tài)存儲(chǔ)裝置。存儲(chǔ)裝置110(例如,磁盤或光盤)可經(jīng)提供且耦合到總線102以用于存儲(chǔ)信息及指令。
在各種實(shí)施例中,處理器104可包含多個(gè)邏輯門。邏輯門可以包括“與”門(andgate)、“或”門(orgate)、“非”門(notgate)、“與非”門(nandgate)、“或非”門(norgate)、“異或”門(exorgate)、“異非”門(exnorgate)或其任何組合?!芭c”門僅當(dāng)所有輸入較高時(shí)才產(chǎn)生高輸出。如果輸入中的一個(gè)或多個(gè)高,那么“或”門產(chǎn)生高輸出?!胺恰遍T可以產(chǎn)生輸入與輸出的倒版,如當(dāng)輸入低時(shí)輸出高值?!芭c非”門(nand/not-and)可以產(chǎn)生逆“與”輸出,使得輸出將在任何輸入低時(shí)高。“或非”門(nor/not-or)可產(chǎn)生逆“或”輸出,使得或非門輸出在任何輸入高時(shí)低。“異或”(exor/exclusive-or)門可以在任一輸入,但并非兩個(gè)輸入高時(shí)產(chǎn)生高輸出?!爱惙恰?exnor/exclusive-nor)門可以產(chǎn)生逆“異或”輸出,使得輸出在任一輸入,但并非兩個(gè)輸入高時(shí)低。
表1:邏輯門真值表
所屬領(lǐng)域的技術(shù)人員將了解,邏輯門可以各種組合使用以進(jìn)行比較、運(yùn)算操作等。另外,所屬領(lǐng)域的技術(shù)人員將了解如何對(duì)使用邏輯門的各種組合排序以進(jìn)行復(fù)雜過(guò)程,如本文所描述的過(guò)程。
在一個(gè)實(shí)例中,可以使用“同或”門(xnorgate)進(jìn)行1位二進(jìn)制比較,因?yàn)榻Y(jié)果僅在兩個(gè)輸入相同時(shí)高??赏ㄟ^(guò)使用多個(gè)“同或”門比較每個(gè)位對(duì),及使用“與”門合并“同或”門的輸出而執(zhí)行兩個(gè)多位值的比較,使得結(jié)果僅當(dāng)每個(gè)位對(duì)具有相同值時(shí)可為真。如果任何位對(duì)不具有相同值,那么對(duì)應(yīng)“同或”門的結(jié)果可能低,且接收低輸入的“與”門的輸出可能低。
在另一實(shí)例中,1位加法器可以使用“與”門和“異或”門的組合實(shí)施。確切地說(shuō),1位加法器可以接收三個(gè)輸入,兩個(gè)待相加的位(a和b)和進(jìn)位位(cin),和兩個(gè)輸出,總和(s)和進(jìn)位輸出位(cout)。cin位可以對(duì)于兩個(gè)一位值的相加設(shè)定為0,或可用于將多個(gè)1位加法器耦合在一起以通過(guò)從較低階加法器接收cout將兩個(gè)多位值相加。在示范性實(shí)施例中,s可以通過(guò)將a和b輸入應(yīng)用到“異或”門,并且隨后將結(jié)果和cin應(yīng)用到另一“異或”門而實(shí)施。cout可以通過(guò)將a和b輸入應(yīng)用到“與”門,將來(lái)自總和的a-b“異或”的結(jié)果和cin應(yīng)用到另一“與”,且將“與”門的輸入應(yīng)用到“異或”門。
表2:1位加法器真值表
在各種實(shí)施例中,計(jì)算機(jī)系統(tǒng)100可經(jīng)由總線102耦合到顯示器112,例如,陰極射線管(“crt”)或液晶顯示器(“l(fā)cd”),以用于向計(jì)算機(jī)用戶顯示信息。包括字母數(shù)字鍵和其它鍵的輸入裝置114可以耦合到總線102以用于傳達(dá)信息和命令選擇到處理器104。另一類型的用戶輸入裝置為光標(biāo)控制器116,如鼠標(biāo)、軌跡球或光標(biāo)方向鍵,其用于傳達(dá)方向信息和命令選擇到處理器104和控制顯示器112上的光標(biāo)移動(dòng)。此輸入裝置可具有兩個(gè)軸(第一軸(即,x)及第二軸(即,y))中的二自由度,所述自由度允許裝置指定平面中的位置。
計(jì)算機(jī)系統(tǒng)100可以執(zhí)行本發(fā)明教示。與本教示內(nèi)容的某些實(shí)施方案一致,結(jié)果可以由計(jì)算機(jī)系統(tǒng)100響應(yīng)于處理器104執(zhí)行包含于存儲(chǔ)器106中的一個(gè)或多個(gè)指令的一個(gè)或多個(gè)序列來(lái)提供。此類指令可以從另一計(jì)算機(jī)可讀媒體(例如存儲(chǔ)裝置110)讀取至存儲(chǔ)器106中。執(zhí)行包含于存儲(chǔ)器106中的指令序列可使處理器104進(jìn)行本文所描述的過(guò)程。在各種實(shí)施例中,存儲(chǔ)器中的指令可以對(duì)處理器內(nèi)可用的邏輯門的各種組合的使用排序以執(zhí)行本文描述的過(guò)程?;蛘?,可以使用硬連線電路代替或結(jié)合軟件指令以實(shí)施本發(fā)明教示。在各種實(shí)施例中,硬連線電路可包含所需邏輯門,其以所需順序操作以執(zhí)行本文所描述的過(guò)程。因此,本發(fā)明的實(shí)施方案不限于硬件電路和軟件的任何特定組合。
如本文所用的術(shù)語(yǔ)“計(jì)算機(jī)可讀媒體”是指參與將指令提供到處理器104以供執(zhí)行的任何媒體。此媒體可以呈許多形式,包括但不限于非易失性媒體、易失性媒體和傳輸媒體。非易失性媒體的實(shí)例可包含(但不限于)閃存、光盤及/或磁盤,例如存儲(chǔ)裝置110。易失性媒體的實(shí)例可以包含(但不限于)動(dòng)態(tài)存儲(chǔ)器,如存儲(chǔ)器106。傳輸媒體的實(shí)例可以包含(但不限于)同軸電纜、銅線和光纖,包含包括總線102的電線。
非暫時(shí)性計(jì)算機(jī)可讀媒體的常見(jiàn)形式包含(例如)軟盤、軟磁盤、硬盤、磁帶、或任何其它磁性媒體、cd-rom、任何其他光學(xué)媒體、穿孔卡片、紙帶、具有孔洞圖案的任何其它物理媒體、ram、prom和eprom、閃存eeprom、任何其它存儲(chǔ)器芯片或盒帶、如下文所描述的載波、或計(jì)算機(jī)可以從中進(jìn)行讀取的任何其它有形媒體。
根據(jù)各種實(shí)施例,經(jīng)配置以由處理器執(zhí)行以執(zhí)行方法的指令可存儲(chǔ)于計(jì)算機(jī)可讀媒體上。計(jì)算機(jī)可讀媒體可以是存儲(chǔ)數(shù)字信息的裝置。舉例來(lái)說(shuō),計(jì)算機(jī)可讀媒體可包含用于存儲(chǔ)軟件的如所屬領(lǐng)域中已知的壓縮光盤只讀存儲(chǔ)器(cd-rom)。計(jì)算機(jī)可讀媒體可由適用于執(zhí)行經(jīng)配置以經(jīng)執(zhí)行的指令的處理器存取。
核酸測(cè)序平臺(tái):
可使用各種技術(shù)、平臺(tái)及/或技藝產(chǎn)生核酸序列數(shù)據(jù),包含(但不限于):毛細(xì)電泳法、微陣列、基于連接的系統(tǒng)、基于聚合酶的系統(tǒng)、基于雜交的系統(tǒng)、直接或間接核苷酸識(shí)別系統(tǒng)、焦磷酸測(cè)序、基于離子或ph的檢測(cè)系統(tǒng)、基于電子簽名的系統(tǒng)等。
核酸測(cè)序平臺(tái)的各種實(shí)施例,如核酸測(cè)序儀可包含如圖2的框圖中顯示的組件。根據(jù)各種實(shí)施例,測(cè)序儀器200可包含流體遞送和控制單元202、樣品處理單元204、信號(hào)檢測(cè)單元206以及數(shù)據(jù)采集、分析和控制單元208。用于下一代測(cè)序的儀器、試劑、庫(kù)及方法的各種實(shí)施例描述于美國(guó)專利申請(qǐng)公開(kāi)案第2009/0127589號(hào)及第2009/0026082號(hào)中,所述申請(qǐng)案以引用之方式并入本文中。儀器200的各種實(shí)施例可以提供可用于并行地,如實(shí)質(zhì)上同時(shí)從多個(gè)序列收集序列信息的自動(dòng)化測(cè)序。
在各種實(shí)施例中,流體遞送和控制單元202可包含試劑遞送系統(tǒng)。試劑遞送系統(tǒng)可包含用于存儲(chǔ)各種試劑的試劑儲(chǔ)集器。試劑可以包括基于rna的引物、正向/反向dna引物、用于連接測(cè)序的寡核苷酸混合物、用于合成測(cè)序的核苷酸混合物、任選的ecc寡核苷酸混合物、緩沖劑、洗滌試劑、阻斷試劑、汽提試劑及類似物。此外,試劑遞送系統(tǒng)可包含移液系統(tǒng)或連續(xù)流動(dòng)系統(tǒng),其連接樣品處理單元與試劑儲(chǔ)集器。
在各種實(shí)施例中,樣品處理單元204可包含樣品室,例如,流動(dòng)池、襯底、微陣列、多孔托盤或類似物。樣品處理單元204可包含多個(gè)通道、多個(gè)槽道、多個(gè)孔或其它大體上同時(shí)處理多個(gè)樣品集的裝置。另外,樣品處理單元可包含多個(gè)樣品室以使得能夠同時(shí)處理多個(gè)運(yùn)行。在特定實(shí)施例中,系統(tǒng)可以對(duì)一個(gè)樣品室進(jìn)行信號(hào)檢測(cè),并實(shí)質(zhì)上同時(shí)處理另一個(gè)樣品室。另外,樣品處理單元可包含用于移動(dòng)或操縱樣品室的自動(dòng)化系統(tǒng)。
在各種實(shí)施例中,信號(hào)檢測(cè)單元206可包含成像或檢測(cè)傳感器。舉例來(lái)說(shuō),成像及/或檢測(cè)傳感器可包含電荷耦合裝置(“ccd”)、互補(bǔ)型金屬氧化物半導(dǎo)體(“cmos”)、離子或化學(xué)傳感器,例如覆蓋cmos的離子敏感層,及/或場(chǎng)效應(yīng)晶體管(“fet”)電流及/或電壓檢測(cè)器或類似物。信號(hào)檢測(cè)單元206可包含勵(lì)磁系統(tǒng)以引起探針(如熒光染料)發(fā)射信號(hào)。勵(lì)磁系統(tǒng)可包含照明源,例如弧光燈、激光器、發(fā)光二極管(“l(fā)ed”)或類似物。在特定實(shí)施例中,信號(hào)檢測(cè)單元206可包含用于將光從照明源發(fā)射到樣品或從樣品發(fā)射到成像或檢測(cè)傳感器的光學(xué)系統(tǒng)?;蛘?,信號(hào)檢測(cè)單元206可以提供基于電子及/或非光子的檢測(cè)方法并且因此不包含照明源。在各種實(shí)施例中,基于電子的信號(hào)檢測(cè)可以在測(cè)序反應(yīng)期間產(chǎn)生可檢測(cè)信號(hào)及/或物質(zhì)時(shí)進(jìn)行。舉例來(lái)說(shuō),信號(hào)可以通過(guò)與離子或化學(xué)敏感層相互作用的釋放副產(chǎn)物或部分,如釋放離子(如氫離子)的相互作用產(chǎn)生。在其它實(shí)施例中,可檢測(cè)信號(hào)可以由于如用于焦磷酸測(cè)序(參見(jiàn)例如美國(guó)專利申請(qǐng)公開(kāi)案第2009/0325145號(hào),其全部?jī)?nèi)容以引用的方式并入本文中)中的酶促級(jí)聯(lián)產(chǎn)生,其中焦磷酸酯通過(guò)聚合酶的堿基并入產(chǎn)生,所述聚合酶另外與atp硫酸化酶在腺苷5′磷酰硫酸存在下反應(yīng)來(lái)產(chǎn)生atp,其中產(chǎn)生的atp可以在熒光素酶介導(dǎo)的反應(yīng)中耗盡來(lái)產(chǎn)生化學(xué)發(fā)光信號(hào)。在另一實(shí)例中,電流的變化可以在核酸穿過(guò)納米孔時(shí)在不需要照明源的情況下檢測(cè)。
在各種實(shí)施例中,數(shù)據(jù)獲取、分析和控制單元208可以監(jiān)視各種系統(tǒng)參數(shù)。系統(tǒng)參數(shù)可包含儀器200的各部分(如樣品處理單元及/或試劑儲(chǔ)集器)的溫度;各種試劑的體積;各種系統(tǒng)子組件(如操縱器、步進(jìn)式電機(jī)、泵等)的狀態(tài);或其任何組合。
所屬領(lǐng)域的技術(shù)人員應(yīng)了解,儀器200的各種實(shí)施例可用于實(shí)踐多種測(cè)序方法,包含基于連接的方法、合成測(cè)序、單分子方法、納米孔測(cè)序和其它測(cè)序技術(shù)。
在各種實(shí)施例中,測(cè)序儀器200可確定核酸(例如,聚核苷酸及/或寡核苷酸)的序列。核酸可包含dna及/或rna,并且可以是單鏈,如ssdna及/或rna;或雙鏈,如dsdna及/或rna/cdna對(duì)。在各種實(shí)施例中,核酸可包含及/或衍生自片斷庫(kù)、配對(duì)庫(kù)、染色質(zhì)免疫沉淀(“chip”)片斷或類似物。在特定實(shí)施例中,測(cè)序儀器200可以從單一核酸分子或從大體上相同的核酸分子的群組獲得序列信息。
在各種實(shí)施例中,測(cè)序儀器200可以包含(但不限于)以下各者的多種不同輸出數(shù)據(jù)文件類型/格式輸出核酸測(cè)序讀取數(shù)據(jù):*.bam、*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。
用于識(shí)別序列變異的方法、系統(tǒng)及計(jì)算機(jī)可讀媒體:
圖3描繪根據(jù)各種實(shí)施例的用于識(shí)別變異體的系統(tǒng)的示意圖。如本文中所描繪,變異體分析系統(tǒng)300可包含核酸序列分析裝置304(例如,核酸測(cè)序儀、實(shí)時(shí)/數(shù)字/定量pcr儀器、微陣列掃描儀等)、序列分析計(jì)算機(jī)服務(wù)器/節(jié)點(diǎn)/裝置302及顯示器310。變異體分析系統(tǒng)300還可包含客戶端裝置終端機(jī)308。
在各種實(shí)施例中,序列分析計(jì)算機(jī)服務(wù)器/節(jié)點(diǎn)/裝置302可以通信方式連接到核酸序列分析裝置304,且客戶端裝置終端機(jī)308可經(jīng)由可為“硬接線”物理網(wǎng)絡(luò)連接(例如,因特網(wǎng)、局域網(wǎng)(“l(fā)an”)、廣域網(wǎng)(“wan”)、虛擬專用網(wǎng)絡(luò)(“vpn”)等)及/或無(wú)線網(wǎng)絡(luò)連接(例如,wi-fi、無(wú)線局域網(wǎng)(“wlan”)等)中德任一者的網(wǎng)絡(luò)連接324以通信方式連接到序列分析計(jì)算機(jī)服務(wù)器/節(jié)點(diǎn)/裝置302。
在各種實(shí)施例中,序列分析計(jì)算機(jī)服務(wù)器/節(jié)點(diǎn)/裝置302可為工作站、主機(jī)計(jì)算機(jī)、分布式計(jì)算節(jié)點(diǎn)(例如“云端計(jì)算”及/或分布式網(wǎng)絡(luò)系統(tǒng)的一部分)、個(gè)人計(jì)算機(jī)、移動(dòng)裝置等。在各種實(shí)施例中,核酸序列分析裝置304可為核酸測(cè)序儀、實(shí)時(shí)/數(shù)字/定量pcr儀器、微陣列掃描儀等。但是,應(yīng)理解,核酸序列分析裝置304基本上可以是任何類型的可以從獲自個(gè)體的樣品產(chǎn)生核酸序列數(shù)據(jù)的儀器。
序列分析計(jì)算服務(wù)器/節(jié)點(diǎn)/裝置302可經(jīng)配置以主控任選的預(yù)處理模塊312、映射模塊314及拷貝數(shù)分析模塊316。
預(yù)處理模塊312可經(jīng)配置以從核酸序列分析裝置304接收且執(zhí)行處理步驟,例如,從顏色空間轉(zhuǎn)換到堿基空間或從流動(dòng)空間轉(zhuǎn)換到堿基空間,確定通話質(zhì)量值,制備讀取數(shù)據(jù)以供映射模塊314使用,及類似者。
映射模塊314可經(jīng)配置以將核酸序列讀段比對(duì)(即,映射)到參考序列。一般來(lái)說(shuō),序列讀段的長(zhǎng)度大體上可小于參考序列的長(zhǎng)度。在參考序列映射/比對(duì)中,序列讀段可相對(duì)于現(xiàn)有骨干序列(例如參考序列等)裝配以建立與骨干序列類似但不一定相同的序列。一旦對(duì)于有機(jī)體發(fā)現(xiàn)骨干序列,比較測(cè)序或再測(cè)序可用于表征有機(jī)體物種內(nèi)或緊密相關(guān)物種之間的基因多樣性。在各種實(shí)施例中,參考序列可為全/部分基因組、全/部分外顯子組等。
在各種實(shí)施例中,序列讀數(shù)和參考序列可表示為堿基空間中的一連串核苷酸堿基符號(hào)。在各種實(shí)施例中,序列讀段和參考序列可表示為顏色空間中的一種或多種顏色。在各種實(shí)施例中,序列讀數(shù)和參考序列可表示為在流動(dòng)空間中具有信號(hào)及/或數(shù)值定量分量的核苷酸堿基符號(hào)。
在各種實(shí)施例中,序列片段和參考序列的比對(duì)可包含包含序列片段的堿基與包含參考序列的堿基之間有限數(shù)目的失配。一般來(lái)說(shuō),序列片段可比對(duì)到一部分參考序列以使序列片段與參考序列之間的失配數(shù)目最小化。
拷貝數(shù)分析模塊316可包含處理引擎318、拷貝數(shù)變異體主叫320和任選的后處理引擎322。在各種實(shí)施例中,拷貝數(shù)分析模塊316可與映射模塊314通信,且可從映射模塊314請(qǐng)求并且接收數(shù)據(jù)及信息(經(jīng)由(例如)數(shù)據(jù)流、數(shù)據(jù)文件、文本文件等)。
處理引擎318可經(jīng)配置以從映射模塊314接收經(jīng)映射讀段,確定基因組的靶區(qū)域的覆蓋度(圖塊、可具有重疊靶的ampliseq面板,所述重疊靶可映射到每一擴(kuò)增子靶),及/或基于跨越圖塊及gc含量的覆蓋度的平均值及/或模式將圖塊覆蓋度歸一化。此外,處理引擎318可經(jīng)配置以校正分批效果。在各種實(shí)施例中,處理引擎318可對(duì)于樣品及/或?qū)φ瘴飪烧叽_定歸一化覆蓋度。
拷貝數(shù)變異(“cnv”)主叫320可經(jīng)配置以從處理引擎318接收歸一化的覆蓋度,確定待以各種倍性狀態(tài)存在的擴(kuò)增子的分?jǐn)?shù),例如似然性,經(jīng)由擴(kuò)增子的倍性狀態(tài)確定最大分?jǐn)?shù)路徑及計(jì)算最大分?jǐn)?shù)路徑與所預(yù)期倍性狀態(tài)及最接近計(jì)分相鄰倍性狀態(tài)的分?jǐn)?shù)比率,例如對(duì)數(shù)似然比。此外,cnv主叫320可基于可克服預(yù)設(shè)定倍性過(guò)渡罰值的最大分?jǐn)?shù)倍性狀態(tài)而識(shí)別拷貝數(shù)變異體。過(guò)渡罰值可經(jīng)調(diào)整以實(shí)現(xiàn)算法的所需靈敏度或特異性。
后處理引擎322可經(jīng)配置以接收通過(guò)cnv主叫320確定的拷貝數(shù)變異體和對(duì)數(shù)似然比以及進(jìn)行額外處理步驟,如過(guò)濾拷貝數(shù)變異體,和格式化讀取數(shù)據(jù)以在顯示器310上顯示及/或被客戶端裝置終端機(jī)308使用。
客戶端裝置終端機(jī)308可為瘦客戶端或厚客戶端計(jì)算裝置。在各種實(shí)施例中,客戶端裝置終端機(jī)308可具有網(wǎng)頁(yè)瀏覽器(例如chrome、internetexplorer、firefox、safari等),其可用于傳達(dá)信息到使用瀏覽器的預(yù)處理模塊312、映射模塊314、處理引擎318、cnv主叫320及后處理引擎322和/或控制所述組件的操作以控制其功能。舉例來(lái)說(shuō),取決于特定應(yīng)用的要求,客戶端裝置終端機(jī)308可用于配置操作參數(shù)(例如,匹配計(jì)分參數(shù)、標(biāo)注參數(shù)、過(guò)濾參數(shù)、數(shù)據(jù)安全及保持參數(shù)等)。類似地,客戶端裝置終端機(jī)308還可經(jīng)配置以顯示由拷貝數(shù)分析模塊316及核酸序列分析裝置304執(zhí)行的分析的結(jié)果。
應(yīng)理解,公開(kāi)為變異體分析系統(tǒng)300的一部分的各種數(shù)據(jù)存儲(chǔ)器可表示為基于硬件的存儲(chǔ)裝置(例如,硬碟機(jī)、閃存、ram、rom、網(wǎng)絡(luò)附接存儲(chǔ)器等)及/或存儲(chǔ)于獨(dú)立及/或聯(lián)網(wǎng)計(jì)算裝置上的數(shù)據(jù)庫(kù)的示例。
還應(yīng)了解,取決于特定應(yīng)用或系統(tǒng)架構(gòu),顯示為變異體分析系統(tǒng)300的一部分的各種數(shù)據(jù)存儲(chǔ)器和模塊/引擎可組合或折疊為單一模塊/引擎/數(shù)據(jù)存儲(chǔ)器。此外,在各種實(shí)施例中,變異體分析系統(tǒng)300可包括特定應(yīng)用或系統(tǒng)架構(gòu)需要的額外模塊、引擎、組件或數(shù)據(jù)存儲(chǔ)器。
在各種實(shí)施例中,變異體分析系統(tǒng)300可經(jīng)配置以處理顏色空間中的核酸讀段。在各種實(shí)施例中,變異體分析系統(tǒng)300可經(jīng)配置以處理堿基空間中的核酸讀段。在各種實(shí)施例中,變異體分析系統(tǒng)300可經(jīng)配置以處理流動(dòng)空間中的核酸序列讀段。但是,應(yīng)理解,本文中所公開(kāi)的變異體分析系統(tǒng)300可處理或分析任何模式或格式的核酸序列數(shù)據(jù),只要所述模式或格式可傳達(dá)核酸序列的堿基標(biāo)識(shí)及位置。
分批效果檢測(cè)及校正:
如上文所論述,可使用主成分分析(“pca”)來(lái)檢測(cè)及校正分批效果。在分析面板中,n個(gè)擴(kuò)增子的集合可以基因組順序配置,且n個(gè)擴(kuò)增子的集合可表示正常樣品中的二倍體的基因組位置。隨后,不考慮樣品特定效果,例如鳥嘌呤-胞嘧啶偏倚(“gc偏倚”)及/或長(zhǎng)度偏倚,聚合酶鏈反應(yīng)(“pcr”)中的每擴(kuò)增子效率可將面板中的n個(gè)不同擴(kuò)增子標(biāo)記為指數(shù)i=1,2,…,n。擴(kuò)增子“i”特性可以由a=(a1,a2,…,an),∑ai=1表示。樣品可具有用于這些擴(kuò)增子的等摩爾的dna輸入。因此,擴(kuò)增子j的最終擴(kuò)增的預(yù)期讀段數(shù)可與aj成比例。可通過(guò)組合k樣品集而估計(jì)aj,其中所有擴(kuò)增子具有已知的及相同的每擴(kuò)增子cn。用于估計(jì)aj的組合可為函數(shù),例如,平均值、中值、截尾平均值等。舉例來(lái)說(shuō),針對(duì)aj使用平均值為組合函數(shù),aj將等于樣品k中的擴(kuò)增子j的讀段總和除以樣品k中的總讀取的總和。因此,使用平均值的共混函數(shù)的公式可以由
樣品可不為均勻的具有每擴(kuò)增子讀段的二倍體,且可表達(dá)為(r1,r2,…,rn),其中r為每擴(kuò)增子的讀段及n為整數(shù)。每擴(kuò)增子的讀段總和可為r,且表達(dá)為∑ri=r。每擴(kuò)增子的拷貝數(shù)值可表達(dá)為向量c,所述向量c為(c1,c2,…,cn),其中c為擴(kuò)增子“i”的拷貝數(shù)值。
平均值
將上文公式(1)重寫為對(duì)數(shù)可得到下式:
在公式(2)中,每擴(kuò)增子的拷貝數(shù)可由讀段與每擴(kuò)增子效率及樣品倍性的總調(diào)整讀段的比率來(lái)估計(jì)??杉俣ǜ蓴_擴(kuò)增子效率的倍增分批效果。倍增分批效果可表示為向量b,其中b=(b1,b2,…,bn),及n為整數(shù)。考慮到可能化學(xué)性質(zhì),可假定干擾擴(kuò)增子效率的倍增分批效果倍增。
一些樣品可具有帶較少讀段的擴(kuò)增子,例如,拷貝數(shù)近似0或未能擴(kuò)增。此類樣品中的擴(kuò)增子可分開(kāi)處理,因?yàn)楸对鲂ЧP涂赡懿贿m合。
假定存在k=1,2,…,k樣品可包含此效果的一些分量。樣品k可具有表示為向量(loga+αklogb)的對(duì)數(shù)擴(kuò)增效率。這些樣品不必均勻地為二倍體??紤]k,公式(2)可重寫為:
在不失一般性的情況下,b可由b/b1'中的b替代。ck可為由
logci,k=logri,k/r+ck-logai-αklogbi(4)
可如下重排公式(4):
logri,k/r-logai=logci,k-ck+αklogbi(5)
公式(5)的左邊可從觀測(cè)及估計(jì)知道,及公式(5)的右側(cè)可需要估計(jì)。重新制定公式(5)可為k提供n維度觀測(cè),如下式中所示:
yk=log(c)+αklogb-ck(6)
其中,對(duì)于樣品k,yi,k=logri,k/r-logai,向量1/k=[y1,k,y2,k,…,yn,k],向量log(c)=[logc1,k,logc2,k,…,logcn,k],i=1,…,n,且其中n為整數(shù)。
對(duì)于每基因存在多個(gè)擴(kuò)增子的面板,相鄰基因組位置處的拷貝數(shù)值可能相同,且因此可使用相鄰基因組位置處的拷貝數(shù)值。
使logb1=(logb1,…,logbn-1)且logb2=(logb2,…,logbn),其中n為整數(shù),且針對(duì)y1,k、y2,k、c1,k、c2,k等使用類似符號(hào),則
logc2,k-logc1,k≈0(7)
可得出:
y2,k-y1,k≈αk(logb2,k-logb1,k)(8)
為針對(duì)每一樣品估計(jì)
0=logb1(9)
βi=logbi+1-logbi,i=2,…,n(10)
其可由β的部分總和解決:
可針對(duì)按需要盡可能多的主成分應(yīng)用最終校正以移除分批效果,如下所展示:
可使用未知拷貝數(shù)改變且在進(jìn)行中基礎(chǔ)上應(yīng)用于新樣品的第二訓(xùn)練樣品集來(lái)計(jì)算此類分批效果,或可事后針對(duì)未知拷貝數(shù)改變且用于移除此集合內(nèi)的分批效果的樣品集來(lái)計(jì)算。
圖4描繪根據(jù)各種實(shí)施例的展示用于確定分批效果的方法400的示范性流程圖。在步驟402處,獲得來(lái)自多個(gè)訓(xùn)練樣品的讀段。訓(xùn)練樣品可包含具有已知倍性的正常樣品集。在各種實(shí)施例中,訓(xùn)練樣品可進(jìn)一步包含具有未知倍性的非正常樣品集。在各種實(shí)施例中,從訓(xùn)練樣品獲得的核酸材料可經(jīng)歷多個(gè)擴(kuò)增以選擇性地?cái)U(kuò)增多個(gè)基因組區(qū)域。此外,在各種實(shí)施例中,可將帶條形碼的銜接子加入訓(xùn)練樣品的至少一個(gè)子集的擴(kuò)增子。擴(kuò)增子可經(jīng)測(cè)序以針對(duì)正常樣品中的每一個(gè)產(chǎn)生多個(gè)讀段。
在各種實(shí)施例中,可以不同批次制備所述樣品的至少一部分,使得樣品的樣品制備涉及不同試劑批次、不同制備者、不同樣品制備設(shè)備及類似者中的至少一者。此外,可在不同時(shí)間、不同芯片上、不同儀器上或類似物上分析樣品的至少一部分。理想地,可以基本上相同的方式制備樣品,例如,使用類似的套具及協(xié)議,且以基本上相同的方式分析,例如,使用類似的儀器及芯片。
在404步驟處,讀段可映射到核酸序列以識(shí)別對(duì)應(yīng)的核酸區(qū)域,例如將讀段映射到擴(kuò)增子。在步驟406處,可每樣品計(jì)算擴(kuò)增子覆蓋度(例如,映射到擴(kuò)增子的多個(gè)讀段)及總讀段(例如,多個(gè)經(jīng)映射讀段)。在各種實(shí)施例中,讀段的子集可映射到離開(kāi)靶擴(kuò)增產(chǎn)物。可舍棄映射到離開(kāi)靶擴(kuò)增產(chǎn)物的讀段且總讀段中不包含所述讀段。在各種實(shí)施例中,可使用相鄰區(qū)域或擴(kuò)增子之間的讀段計(jì)數(shù)上的差,而不是個(gè)別區(qū)域或擴(kuò)增子的讀段計(jì)數(shù)上的差。以此方式,可從主成分分析排除由于拷貝數(shù)的差的讀段計(jì)數(shù)的變率。
在步驟408處,主成分分析(“pca”)可用于使用如上文所描述的公式8估計(jì)β及倍率(αk)。pca可用于確定一或多個(gè)分批效果。在步驟410處,可基于β計(jì)算分批效果(logb)。通過(guò)使用上式11,計(jì)算logb可由β的部分總和解決,其中
圖5描繪根據(jù)各種實(shí)施例的展示用于識(shí)別疑含有染色體異常、基因復(fù)制及/或基因缺失的測(cè)試樣本中的拷貝數(shù)變異的方法500的示范性流程圖。在各種實(shí)施例中,測(cè)試樣本可為疑含有基因組的至少一部分中的拷貝數(shù)變異的樣品,所述變異例如,由于染色體異常(染色體的增多及/或缺失,或其部分)。在各種實(shí)施例中,測(cè)試樣本可包含癌細(xì)胞,其中已發(fā)生基因復(fù)制及/或基因缺失,這可導(dǎo)致一或多種基因的拷貝數(shù)的改變。
在步驟502處,可獲得來(lái)自測(cè)試樣本的讀段。測(cè)試樣本可為具有未知倍性的樣品。在各種實(shí)施例中,測(cè)試樣本可經(jīng)歷正常樣品所經(jīng)歷的樣品制備及分析程序。舉例來(lái)說(shuō),從測(cè)試樣本獲得的核酸材料可經(jīng)歷類似的多個(gè)擴(kuò)增以選擇性地?cái)U(kuò)增所述多個(gè)基因組區(qū)域。擴(kuò)增子可經(jīng)測(cè)序以針對(duì)測(cè)試樣本產(chǎn)生多個(gè)讀段。在各種實(shí)施例中,可將帶條形碼的銜接子加入到能夠使多個(gè)樣品基本上同時(shí)經(jīng)測(cè)序的擴(kuò)增子,且來(lái)自帶條形碼的銜接子的序列可用于識(shí)別哪個(gè)讀段對(duì)應(yīng)于哪個(gè)樣品。
在步驟504處,可將所述讀段映射到核酸序列以識(shí)別對(duì)應(yīng)的核酸區(qū)域,例如,將所述讀段映射到含有對(duì)應(yīng)于擴(kuò)增子的核酸序列的參考序列。在步驟506處,可針對(duì)測(cè)試樣本計(jì)算擴(kuò)增子覆蓋度(例如,映射到擴(kuò)增子的多個(gè)讀段)及總讀段(例如,多個(gè)經(jīng)映射讀段)。在各種實(shí)施例中,讀段的子集可映射到離開(kāi)靶擴(kuò)增產(chǎn)物??缮釛売成涞诫x開(kāi)靶擴(kuò)增產(chǎn)物的讀段且總讀段中不包含所述讀段。
在步驟508處,pca可用于使用如上文所描述的公式8估計(jì)倍率(αk)。在各種實(shí)施例中,可先前基于已知的樣品集計(jì)算β,如先前所描述。在步驟510處,可校正測(cè)試樣本的擴(kuò)增子覆蓋度以基于在步驟508中確定的αk及基于已知樣品所計(jì)算的logbi考慮分批效果。在各種實(shí)施例中,可基于經(jīng)校正擴(kuò)增子覆蓋度重新計(jì)算總讀段。在步驟510中,可應(yīng)用校正以基于如上述公式12及如下文所顯示針對(duì)根據(jù)需要盡可能多的主成分移除分批效果:
在一個(gè)實(shí)施例中,可基于所計(jì)算出的經(jīng)校正擴(kuò)增子覆蓋度計(jì)算基因水平拷貝數(shù)置信度分?jǐn)?shù),例如,如下文步驟512及514中所示。在步驟512處,可計(jì)算各種倍性狀態(tài)中的擴(kuò)增子的似然性(概率)。似然性可為分?jǐn)?shù),其可為在真實(shí)倍性狀態(tài)與其它倍性狀態(tài)之間區(qū)分的函數(shù)及/或特設(shè)規(guī)則。在各種實(shí)施例中,在計(jì)算似然性(概率)之前,可(例如)基于總讀段歸一化經(jīng)校正擴(kuò)增子覆蓋度。在各種實(shí)施例中,可針對(duì)倍性狀態(tài)的范圍(例如,1到10的倍性范圍內(nèi))計(jì)算似然性(分?jǐn)?shù))。在示范性實(shí)施例中,倍性狀態(tài)的似然性(分?jǐn)?shù))可使用等式l=n(s-c,0,sd)計(jì)算為似然性,其中s為經(jīng)校正擴(kuò)增子覆蓋度,c為所研究倍性狀態(tài)中的擴(kuò)增子的按比例調(diào)整基線擴(kuò)增子覆蓋度,及sd為擴(kuò)增子覆蓋度的標(biāo)準(zhǔn)差??筛鶕?jù)樣本及對(duì)照擴(kuò)增子覆蓋度得到標(biāo)準(zhǔn)差(sd),且可使用訓(xùn)練樣品復(fù)制的測(cè)序來(lái)預(yù)定標(biāo)準(zhǔn)差(sd)。在各種實(shí)施例中,可以通過(guò)將歸一化基線按比例縮放至研究倍性狀態(tài)而確定按比例縮放基線覆蓋度。舉例來(lái)說(shuō),二倍體區(qū)域的歸一化基線覆蓋度可約為2,且當(dāng)研究3的倍性狀態(tài)(三倍體)時(shí),歸一化基線覆蓋度可乘以3/2,使得按比例調(diào)整基線覆蓋度可約為3。因此,對(duì)于在所述樣品中的三倍體區(qū)域中的圖塊或擴(kuò)增子,歸一化樣品覆蓋度與按比例調(diào)整基線覆蓋度之間的差可在計(jì)分2及/或5的倍性狀態(tài)時(shí)比計(jì)分三的倍性狀態(tài)時(shí)更大。
在各種實(shí)施例中,如當(dāng)針對(duì)來(lái)自癌性腫瘤的樣品確定拷貝數(shù)變異時(shí),細(xì)胞的多個(gè)亞群可能存在于樣品中。舉例來(lái)說(shuō),來(lái)自癌癥活檢的樣品可包含正常細(xì)胞以及癌細(xì)胞且所述樣品可具有表示正常細(xì)胞和癌細(xì)胞的倍性狀態(tài)的加權(quán)平均值的有效倍性狀態(tài)。為了針對(duì)此類樣品中的特定基因識(shí)別拷貝數(shù)變化,可以對(duì)于非整數(shù)倍性狀態(tài)計(jì)算分?jǐn)?shù)。舉例來(lái)說(shuō),可以經(jīng)步長(zhǎng)為十分之一的一系列值,如2.0、2.1、2.2、2.3等計(jì)算分?jǐn)?shù)。
在步驟514處,可以確定每一圖塊貫通倍性狀態(tài)的最大分?jǐn)?shù)路徑。在各種實(shí)施例中,路徑的計(jì)分可包含每一倍性狀態(tài)沿路徑的分?jǐn)?shù)與倍性狀態(tài)改變的每一相鄰圖塊對(duì)的過(guò)渡罰值的求和。在各種實(shí)施例中,路徑的計(jì)分可包含每一倍性狀態(tài)沿路徑的分?jǐn)?shù)與倍性狀態(tài)改變的每一相鄰圖塊對(duì)的過(guò)渡罰值的求和。在示范性實(shí)施例中,最大分?jǐn)?shù)路徑可以是通過(guò)對(duì)沿路徑的倍性狀態(tài)和過(guò)渡罰值的對(duì)數(shù)似然性求和計(jì)算的最大似然路徑。
過(guò)渡罰值可以是改變小片段的拷貝數(shù)狀態(tài)的制止物,除非存在可比過(guò)渡罰值更重要的來(lái)自片段中的圖塊的狀態(tài)似然性的壓倒一切的支持。在各種實(shí)施例中,過(guò)渡罰值可以是任何給定隨機(jī)圖塊的拷貝數(shù)狀態(tài)改變的幾率的對(duì)數(shù)的函數(shù)。使轉(zhuǎn)移概率較小可產(chǎn)生稱為較大拷貝數(shù)變異(“cnv”)的片段,或具有對(duì)于所改變狀態(tài)的較大支持(即,拷貝數(shù)的較大差異)的片段。因此,過(guò)渡罰值可以經(jīng)調(diào)整以實(shí)現(xiàn)所需靈敏度及/或特異性。
過(guò)渡概率可以針對(duì)圖塊之間的較大間隙增加。圖塊之間的間隙可源自可在算法中省略的基因組的非擴(kuò)增(非測(cè)序)部分。在圖塊之間的足夠大間隙之后,在間隙之前的圖塊的拷貝數(shù)狀態(tài)可能不具有關(guān)于在間隙之后的圖塊的拷貝數(shù)狀態(tài)的信息。因此,過(guò)渡概率可以在間隙之后變得對(duì)于所有拷貝數(shù)狀態(tài)相同。此全等概率的增加可以是指數(shù)的并且因此可以通過(guò)對(duì)數(shù)空間中的線性增加估計(jì)。
在各種實(shí)施例中,可通過(guò)將樣品的歸一化覆蓋度與基因組的一部分上的基線的比率平均化而確定拷貝數(shù),而不是確定貫穿多個(gè)倍性狀態(tài)的最大似然路徑。舉例來(lái)說(shuō),為了檢測(cè)基因復(fù)制及/或基因缺失,可從基因內(nèi)的每一圖塊或擴(kuò)增子平均化所述比率。在步驟516處,可對(duì)所述樣品提供拷貝數(shù)變異(“cnv”)呼叫。
對(duì)陽(yáng)離子過(guò)氧化酶的過(guò)度表達(dá)子的示范性拷貝數(shù)分析(“ocp”):
在示范性實(shí)施例中,獲得面板中總計(jì)2530個(gè)擴(kuò)增子包含2個(gè)聚合酶鏈反應(yīng)(“pcr”)池。在各種實(shí)施例中,多個(gè)技術(shù)效果可有助于擴(kuò)增子讀段計(jì)數(shù)中的實(shí)驗(yàn)對(duì)實(shí)驗(yàn)變異,包含pcr池、擴(kuò)增子gc含量及擴(kuò)增子長(zhǎng)度。可通過(guò)將池特定擴(kuò)增子讀段數(shù)中值歸一化而實(shí)現(xiàn)pcr池的校正。對(duì)擴(kuò)增子gc含量及擴(kuò)增子長(zhǎng)度的校正可涉及針對(duì)gc含量及/或擴(kuò)增子長(zhǎng)度中的范圍獲得中間擴(kuò)增子讀段數(shù),將樣條曲線與中間讀段數(shù)擬合,及將所有讀段數(shù)按比例調(diào)整成同一值。
在示范性實(shí)施例中,拷貝數(shù)分析將各種基因作為目標(biāo),包含出于拷貝數(shù)增加目的的45個(gè)基因,及出于拷貝數(shù)損失目的的26個(gè)基因??截悢?shù)分析的目標(biāo)是針對(duì)每一基因確定拷貝數(shù)估計(jì)值(包含關(guān)于信賴區(qū)間的信息)。
基于擴(kuò)增子的拷貝數(shù)分析包含如上文關(guān)于各種方法所描述的步驟。步驟可包含(例如)匯總擴(kuò)增子讀段數(shù),數(shù)據(jù)預(yù)處理,將經(jīng)處理數(shù)據(jù)與參考相比較,及使用統(tǒng)計(jì)/機(jī)器學(xué)習(xí)方法呼叫拷貝數(shù)及/或變化點(diǎn)。
在數(shù)據(jù)預(yù)處理期間,可取決于所接收到的數(shù)據(jù)與參考相比較的方式來(lái)確定不同類型的數(shù)據(jù)。圖6描繪根據(jù)本發(fā)明的實(shí)施例的說(shuō)明基因組座標(biāo)的成對(duì)差長(zhǎng)度的曲線圖。如圖6中所示,成對(duì)差長(zhǎng)度的跳變可較小,且較大的跳變可為罕見(jiàn)的。可基于基因組座標(biāo)的成對(duì)差長(zhǎng)度確定中間絕對(duì)成對(duì)差(“mapd”)。
圖7a至7e描繪根據(jù)本發(fā)明的實(shí)施例的具有各種mapd值的基因組數(shù)據(jù)的實(shí)例。如圖7a至7e中所示,隨著mapd值增大,基因組數(shù)據(jù)的質(zhì)量減小。在各種實(shí)施例中,弱mapd值可為明顯分批效果的結(jié)果,其可反映經(jīng)檢查數(shù)據(jù)與參考數(shù)據(jù)之間的系統(tǒng)性差異。這些系統(tǒng)性差異可不利地影響拷貝數(shù)分析結(jié)果。為了減小對(duì)拷貝數(shù)分析的影響,可執(zhí)行樣本數(shù)據(jù)的預(yù)處理。
圖8a描繪說(shuō)明根據(jù)本發(fā)明的實(shí)施例的gc含量的已知技術(shù)效果的影響的曲線,且圖8b描繪說(shuō)明擴(kuò)增子長(zhǎng)度的已知技術(shù)效果對(duì)擴(kuò)增子讀段數(shù)的影響的曲線。對(duì)于圖8a及8b,y軸表示池校正之后的擴(kuò)增子讀段數(shù)。對(duì)于圖8a,x軸表示擴(kuò)增子gc分率,且對(duì)于圖8b,x軸表示擴(kuò)增子長(zhǎng)度。如圖8a至8b中所示,淺灰色數(shù)據(jù)點(diǎn)對(duì)應(yīng)于擴(kuò)增子,深色圓形數(shù)據(jù)點(diǎn)對(duì)應(yīng)于讀段數(shù)中值,且線表示用于技術(shù)校正的樣條曲線。
圖9及10描繪根據(jù)本發(fā)明的實(shí)施例的說(shuō)明分多批進(jìn)行的對(duì)實(shí)驗(yàn)的技術(shù)效果及分批效果的校正的應(yīng)用的mapd曲線。如圖9至10中所示,經(jīng)由基于池校正、擴(kuò)增子gc校正及插入長(zhǎng)度校正的校正來(lái)改善歸一化之后的mapd。圖10也描繪根據(jù)本發(fā)明的實(shí)施例的說(shuō)明在使用不同參考集對(duì)技術(shù)效果應(yīng)用校正以歸一化圖塊、池及/或長(zhǎng)度效果之后剩余的分批效果的mapd曲線。
如可從圖10中顯而易見(jiàn),分批效果可在校正之后保持,且實(shí)驗(yàn)顯示連續(xù)分批效果的多維空間。在應(yīng)用池校正、擴(kuò)增子gc校正及插入長(zhǎng)度校正之后,可不表征一些分批效果。分批效果可保持,因?yàn)榭赡懿淮嬖谟糜卺槍?duì)每一填充分批效果(空間袋)建構(gòu)“局部”參考的具有正??截悢?shù)的樣品。因此,可需要更多預(yù)處理以考慮額外分批效果。
基于示范性主成分的數(shù)據(jù)校正:
每一實(shí)驗(yàn)可表示擴(kuò)增子讀段數(shù)(在可應(yīng)用一些校正之后)的向量。因此,每一實(shí)驗(yàn)可停留于多維空間中的特定位置中。多維空間中的所有實(shí)驗(yàn)中具有最大變動(dòng)的方向可獲得最顯著的分批效果。可與具有最大變動(dòng)的方向正交的最大變動(dòng)的下一方向可獲得下一水平的顯著分批效果。可重復(fù)此過(guò)程以獲得多個(gè)顯著的分批效果。通過(guò)主成分分析,每一實(shí)驗(yàn)對(duì)第一方向的投射可為對(duì)應(yīng)于分批效果的本征向量??蓪⒈菊飨蛄坑?jì)算且調(diào)整為零,且因此,可校正最顯著的分批效果。
本征向量可不反映用于不同實(shí)驗(yàn)的樣品之間的真實(shí)拷貝數(shù)變異。舉例來(lái)說(shuō),如果分批效果足夠顯著,那么分批效果可主導(dǎo)前幾個(gè)主成分以使得基于前主成分的數(shù)據(jù)校正可不影響真實(shí)拷貝數(shù)變化的信號(hào)。此外通過(guò)執(zhí)行相鄰擴(kuò)增子之間具有讀段數(shù)差異的主成分分析(“pca”)而不是使用其自身擴(kuò)增子讀段數(shù)可能有可能減小前主成分的真實(shí)拷貝數(shù)變化影響。
圖11及12描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明來(lái)自應(yīng)用技術(shù)效果及分批效果的校正的改善的曲線。圖11及12描繪由基因組區(qū)域特指的陽(yáng)離子過(guò)氧化酶的過(guò)度表達(dá)子2(“ocp2”)的各種集合所產(chǎn)生主成分分析。
如圖11中所示,隨著應(yīng)用基于主成分的校正,應(yīng)用分批效果校正改善中間絕對(duì)成對(duì)差(“mapd”)。圖12描繪基于不同參考集合使用標(biāo)準(zhǔn)參考將主成分校正之后的mapd與不具有主成分校正的mapd的比較。
圖13a至13e提供根據(jù)本發(fā)明的實(shí)施例的具有及不具有分批效果校正的實(shí)例樣品的比較。圖13a至13e展示使用多重?cái)U(kuò)增以從基因組區(qū)域集合特指的89gm20022產(chǎn)生多個(gè)擴(kuò)增子而制備的樣品。如圖13a至13d中所示,在沒(méi)有主成分校正的情況下,中間絕對(duì)成對(duì)差(“mapd”)分別為0.11、0.73、0.32及0.63。應(yīng)用分批效果校正將mapd改善為0.11,如圖13e中所示。
圖14a至14e提供根據(jù)本發(fā)明的實(shí)施例的具有及不具有分批效果校正的實(shí)例樣品的比較。圖14a至14e展示使用多重?cái)U(kuò)增以從基因組區(qū)域集合特指的342ocpv1i2μmpr_038r產(chǎn)生多個(gè)擴(kuò)增子而制備的樣品。如圖14a至14d中所示,在沒(méi)有主成分校正的情況下,mapd分別為0.83、0.23、0.64及0.94。應(yīng)用分批效果校正將mapd改善為0.20,如圖14e中所示。
圖15a至15e提供根據(jù)本發(fā)明的實(shí)施例的具有及不具有分批效果校正的實(shí)例樣品的比較。圖15a至15e展示使用多重?cái)U(kuò)增以從基因組區(qū)域集合特指的342ocpv1i2μmpr_025產(chǎn)生多個(gè)擴(kuò)增子而制備的樣品。如圖15a至15d中所示,在沒(méi)有主成分校正的情況下,mapd分別為0.24、0.56、0.16及0.59。應(yīng)用分批效果校正將mapd改善為0.16,如圖15e中所示。
圖16a至16e提供根據(jù)本發(fā)明的實(shí)施例的具有及不具有分批效果校正的實(shí)例樣品的比較。圖16a至16e展示使用多重?cái)U(kuò)增以從基因組區(qū)域集合特指的2drst產(chǎn)生多個(gè)擴(kuò)增子而制備的樣品。如圖16a至16d中所示,在沒(méi)有主成分校正的情況下,mapd分別為0.70、0.89、0.60及0.29。應(yīng)用分批效果校正將mapd改善為0.26,如圖16e中所示。
圖17描繪根據(jù)本發(fā)明的實(shí)施例的說(shuō)明分多批進(jìn)行的對(duì)實(shí)驗(yàn)的技術(shù)效果及分批效果的校正的應(yīng)用的mapd曲線。如圖17中所示,經(jīng)由基于池校正、擴(kuò)增子gc校正及插入長(zhǎng)度校正的校正來(lái)改善歸一化之后的mapd。
圖18描繪根據(jù)本發(fā)明的各種實(shí)施例的說(shuō)明從對(duì)來(lái)自基因組區(qū)域集合特指的ocp3應(yīng)用技術(shù)效果及分批效果的校正的改善的曲線。圖18描繪由各種基因組區(qū)域集合特指的ocp3產(chǎn)生的主成分分析。如圖18中所示,隨著應(yīng)用基于主成分的校正,應(yīng)用分批效果校正改進(jìn)中間絕對(duì)成對(duì)差(“mapd”)。
圖19a及19b提供根據(jù)本發(fā)明的各種實(shí)施例的具有及不具有預(yù)預(yù)處理的實(shí)例樣品的比較。圖19a及19b展示使用多重?cái)U(kuò)增以從基因組區(qū)域集合特指的ocpv1i2_um_66產(chǎn)生多個(gè)擴(kuò)增子而制備的樣品。如圖19a至19b中所示,在整體歸一化之后應(yīng)用預(yù)處理將mapd從0.835改善到0.393。
圖20a及20b提供根據(jù)本發(fā)明的各種實(shí)施例的具有及不具有預(yù)預(yù)處理的實(shí)例樣品的比較。圖20a及20b展示使用多重?cái)U(kuò)增以從基因組區(qū)域集合特指的ocpv1i2_um_66產(chǎn)生多個(gè)擴(kuò)增子而制備的另一樣品。如圖20a至20b中所示,在整體歸一化之后應(yīng)用預(yù)處理將mapd從0.179改善到0.168。
圖21a及21b提供根據(jù)本發(fā)明的各種實(shí)施例的具有及不具有預(yù)預(yù)處理的實(shí)例樣品的比較。圖21a及21b展示使用多重?cái)U(kuò)增以從基因組區(qū)域集合特指的ocpv1i2_um_28產(chǎn)生多個(gè)擴(kuò)增子而制備的樣品。如圖21a至21b中所示,在整體歸一化之后應(yīng)用預(yù)處理將mapd從0.781改善到0.377。
圖22a及22b提供根據(jù)本發(fā)明的各種實(shí)施例的具有及不具有預(yù)預(yù)處理的實(shí)例樣品的比較。圖22a及22b展示使用多重?cái)U(kuò)增以從基因組區(qū)域集合特指的ocpv1i2_um_28產(chǎn)生多個(gè)擴(kuò)增子而制備的另一樣品。如圖22a至22b中所示,在整體歸一化之后應(yīng)用預(yù)處理將mapd從0.172改善到0.168。
圖23a、23b、24a及24b提供根據(jù)本發(fā)明的各種實(shí)施例的具有及不具有分批效果校正的實(shí)例樣品的比較。圖23a及23b展示使用多重?cái)U(kuò)增以從基因組區(qū)域集合特指的ocp2產(chǎn)生多個(gè)擴(kuò)增子而制備的樣品。應(yīng)用分批效果校正將中間絕對(duì)成對(duì)差(mapd)從0.761改善到0.179。圖24a及24b展示使用多重?cái)U(kuò)增以從另一基因組區(qū)域集合特指的ocp3產(chǎn)生多個(gè)擴(kuò)增子而制備的樣品。應(yīng)用分批效果校正將mapd從0.318改善到0.119。
在各種實(shí)施例中,本發(fā)明的方法可以在以如c、c++等的常規(guī)編程語(yǔ)言編寫的軟件程序和應(yīng)用中實(shí)施。
雖然結(jié)合各種實(shí)施例來(lái)描述本發(fā)明,但并不打算將本教示內(nèi)容限制于此類實(shí)施例。相反地,如所屬領(lǐng)域的技術(shù)人員將了解,本發(fā)明涵蓋各種替代方案、修改和等效物。
此外,在描述各種實(shí)施例中,本說(shuō)明書可能將方法和/或過(guò)程呈現(xiàn)為特定順序的步驟。然而,在方法或過(guò)程不依賴于本文中闡述的步驟的特定次序的程度上,所述方法或過(guò)程不應(yīng)限于所描述的步驟的特定順序。如所屬領(lǐng)域的一般技術(shù)人員將了解,步驟的其它順序可以是可能的。因此,在說(shuō)明書中闡述的步驟的特定次序不應(yīng)理解為對(duì)權(quán)利要求書的限制。另外,針對(duì)方法和/或過(guò)程的權(quán)利要求不應(yīng)限于以書寫的次序進(jìn)行其步驟,并且所屬領(lǐng)域的技術(shù)人員可以易于了解的是順序可以變化并且仍保持在各種實(shí)施例的精神和范圍內(nèi)。
本文所描述的實(shí)施例可以用包括以下的其它計(jì)算機(jī)系統(tǒng)配置實(shí)踐:手持式裝置、微處理器系統(tǒng)、基于微處理器或可編程消費(fèi)型電子裝置、微型計(jì)算機(jī)、大型主機(jī)計(jì)算機(jī)及類似者。實(shí)施例也可以在其中任務(wù)通過(guò)經(jīng)網(wǎng)絡(luò)連接的遠(yuǎn)程處理裝置執(zhí)行的分布式計(jì)算環(huán)境中實(shí)踐。
還應(yīng)了解,本文所描述的實(shí)施例可以采用涉及存儲(chǔ)在計(jì)算機(jī)系統(tǒng)中的數(shù)據(jù)的各種計(jì)算機(jī)實(shí)施操作。這些操作是需要物理量的物理操控的那些操作。通常,盡管不一定,但此些量可采用能夠被存儲(chǔ)、傳送、組合、比較或以其它方式操控的電或磁性信號(hào)的形式。另外,進(jìn)行的操控通??梢匀绠a(chǎn)生、識(shí)別、確定或比較的術(shù)語(yǔ)提及。
形成本文所描述的實(shí)施例的一部分的操作中的任一個(gè)可為有用的機(jī)器操作。本文中所描述的實(shí)施例也涉及執(zhí)行這些操作的裝置或設(shè)備。本文所描述的系統(tǒng)和方法可以出于所需目的專門構(gòu)建或其可以是通過(guò)存儲(chǔ)在計(jì)算機(jī)中的計(jì)算機(jī)程序選擇性地激活或配置的通用計(jì)算機(jī)。具體而言,各種通用機(jī)器可以與根據(jù)本文中的教示編寫的計(jì)算機(jī)程序一起使用,或可能更方便的是構(gòu)造更專門裝置以執(zhí)行所需操作。
某些實(shí)施例還可以實(shí)施為計(jì)算機(jī)可讀媒體上的計(jì)算機(jī)可讀代碼。計(jì)算機(jī)可讀媒體可為可存儲(chǔ)其后可以由計(jì)算機(jī)系統(tǒng)讀取的數(shù)據(jù)的任何數(shù)據(jù)存儲(chǔ)裝置。計(jì)算機(jī)可讀媒體的實(shí)例可包含硬盤驅(qū)動(dòng)器、固態(tài)驅(qū)動(dòng)器、網(wǎng)絡(luò)連接存儲(chǔ)器(nas)、只讀存儲(chǔ)器、隨機(jī)存取存儲(chǔ)器、cd-rom、cd-r、cd-rw、磁帶及其它光學(xué)及非光學(xué)數(shù)據(jù)存儲(chǔ)裝置。計(jì)算機(jī)可讀媒體也可以分布在網(wǎng)絡(luò)耦合的計(jì)算機(jī)系統(tǒng)上,以使得計(jì)算機(jī)可讀代碼以分布方式存儲(chǔ)和執(zhí)行。
除非本文中以其它方式特別指出,本文所使用的術(shù)語(yǔ)、技術(shù)及生物化學(xué)、細(xì)胞生物學(xué)、遺傳學(xué)、分子生物學(xué)、核酸化學(xué)性質(zhì)、核酸測(cè)序及有機(jī)化學(xué)性質(zhì)的標(biāo)志可遵守相關(guān)領(lǐng)域中的標(biāo)準(zhǔn)論文及文本的那些標(biāo)準(zhǔn)。
雖然本說(shuō)明書詳細(xì)地描述某些實(shí)施例,但其它實(shí)施例也是可能的且在本發(fā)明的范圍內(nèi)。舉例來(lái)說(shuō),所屬領(lǐng)域的技術(shù)人員可從本說(shuō)明書中理解本發(fā)明教示可以多種形式實(shí)施,且各種實(shí)施例可單獨(dú)或組合地實(shí)施。所屬領(lǐng)域的技術(shù)人員將從本說(shuō)明書的考慮及說(shuō)明書及圖式,及圖式及權(quán)利要求書中所描述的教示的實(shí)踐對(duì)變化及修改顯而易見(jiàn)。