一個(gè)細(xì)胞的DNA通過(guò)限制性?xún)?nèi)切 酶的一種或組合而被立即消化,以及隨后的銜接子連接和通過(guò)PCR擴(kuò)增的大小選擇,或者 任意的序列文庫(kù)生成和/或進(jìn)一步的簡(jiǎn)化方法。
[0295] 26.根據(jù)實(shí)施方案25的方法,其中所述任何序列文庫(kù)生成和/或進(jìn)一步的簡(jiǎn)化方 法是從來(lái)自單個(gè)細(xì)胞裂解之后DNA所生成的擴(kuò)增子測(cè)序文庫(kù)。
[0296] 27.根據(jù)實(shí)施方案24至26中任意的方法,其中所述方法進(jìn)一步包括簡(jiǎn)化代表性文 庫(kù)的深度測(cè)序步驟,以確保每一個(gè)變體位置以高冗余度進(jìn)行采樣。
[0297] 28.根據(jù)實(shí)施方案24至27中任意的方法,其中用于變體檢出的流水線(xiàn)處理是基于 在序列讀取中對(duì)變體等位基因的頻率的檢測(cè),其與使用序列比對(duì),生物信息學(xué)和統(tǒng)計(jì)學(xué)的 流水線(xiàn)處理的測(cè)序和/或擴(kuò)增的不一致相區(qū)別。
[0298] 29.根據(jù)實(shí)施方案28的方法,其中所述變體等位基因的頻率是罕見(jiàn)的變體等位基 因的頻率。
[0299] 30.根據(jù)實(shí)施方案28或29中任意的方法,其中使用序列比對(duì)的流水線(xiàn)處理是使用 參考基因組而實(shí)施的。
[0300] 31.根據(jù)實(shí)施方案24至30中任意的方法,其中所述方法進(jìn)一步包括從檢測(cè)的變體 等位基因的頻率而推測(cè)基因分型檢出的步驟。
[0301] 32.根據(jù)實(shí)施方案24至31中任意的方法,其中所述方法進(jìn)一步包括單體型分型的 評(píng)估和/或至少一個(gè)細(xì)胞的基因型的預(yù)測(cè)。
[0302] 33.根據(jù)實(shí)施方案1的方法,其中所述擴(kuò)增是通過(guò)滾環(huán)擴(kuò)增而在基因組的任意所 需部分上實(shí)施。
[0303] 34.根據(jù)實(shí)施方案33的方法,其中所述滾環(huán)擴(kuò)增是在環(huán)狀線(xiàn)粒體DNA上實(shí)施的。
[0304] 35.根據(jù)上述實(shí)施方案中任意的方法,其中該至少一個(gè)細(xì)胞是人類(lèi)或動(dòng)物卵裂球。
[0305] 36. -種計(jì)算機(jī)程序,包括當(dāng)計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí),適于實(shí)施實(shí)施方案1 至35中任意的方法的所有步驟的計(jì)算機(jī)程序代碼裝置。
[0306] 37.根據(jù)實(shí)施方案36的計(jì)算機(jī)程序,包含在計(jì)算機(jī)可讀介質(zhì)上。
[0307] 38. -種用于單體型分型至少一個(gè)細(xì)胞的系統(tǒng),其中所述系統(tǒng)包括控制單元,所述 控制單元適于:
[0308]-分離并裂解所述至少一個(gè)細(xì)胞,
[0309]-擴(kuò)增所述至少一個(gè)細(xì)胞的DNA片段,
[0310]-通過(guò)深度測(cè)序所述擴(kuò)增產(chǎn)物的簡(jiǎn)化代表性文庫(kù)而大規(guī)模平行(全基因組)遺傳 多態(tài)性分型(基因分型),
[0311]-提供用于變體發(fā)現(xiàn),基因分型和/或單體型分型的流水線(xiàn)處理。
[0312] 本發(fā)明實(shí)施方案中所描述的處理過(guò)程的各種修改和變化是可能的,其在不脫離本 發(fā)明的范圍或精神時(shí)是可行的。其它的實(shí)施方案對(duì)本領(lǐng)域技術(shù)人員在本發(fā)明的實(shí)踐中將是 清楚的,并且本文所描述的示例,實(shí)施例和說(shuō)明書(shū)可以被認(rèn)為是僅僅示例性的。
[0313] 可以理解的是,本發(fā)明并不受限于所描述的該方式的特定特征和/或該方法的實(shí) 施步驟,因?yàn)檫@樣的方式和方法可以變化。也可以理解的是,本文所用的術(shù)語(yǔ)是僅僅為了描 述特定實(shí)施方案的目的,并且不旨在是限制性的。必須注意的是,如在說(shuō)明書(shū)和所附權(quán)利要 求書(shū)中所應(yīng)用的,單數(shù)形式"一"、"一個(gè)"和"該"包括單數(shù)和/或復(fù)數(shù)對(duì)象,除非上下文另 有明確說(shuō)明。也可以理解的是,復(fù)數(shù)形式包括單數(shù)和/或復(fù)數(shù)對(duì)象,除非上下文另有明確說(shuō) 明。此外可以理解的是,通過(guò)數(shù)值分隔給定參數(shù)范圍的情況下,該范圍被認(rèn)為包括這些限制 值。 實(shí)施例
[0314] 實(shí)施例1:在阿拉伯馬中通過(guò)基于測(cè)序的基因分型(GBS)的SNP鑒定
[0315]目的是基于使用GBS的大規(guī)模SNP鑒定,確定阿拉伯純種馬內(nèi)的遺傳多樣性。至 此,我們收集了 56個(gè)血樣。用puregene試劑盒(Qiagen)進(jìn)行DNA提取。使用納米滴檢測(cè) 樣品濃度和在瓊脂糖凝膠上檢測(cè)片段化。
[0316] 使用ApekI的基于EquCab2參考序列的芯片上消化是使用定制的Perl/BioPerl 轉(zhuǎn)錄本而實(shí)施的,并且預(yù)測(cè)2, 937, 656個(gè)片段< =500bp或3, 766, 233個(gè)片段< =lOOObp。 這個(gè)數(shù)字反映出基因組復(fù)雜性降低的效果。然而這并沒(méi)有考慮到發(fā)生甲基化模式。
[0317]如描述的(Elshire 等,PLoS One. 2011 6(5) :el9379. doi:10. 1371/journal-pone. 0019379) 并且稍作修改,制備 DNA 文庫(kù)。 限制性?xún)?nèi)切酶 ApekI 用于簡(jiǎn)化每個(gè)樣品的基 因組復(fù)雜性。ApekI是II型限制性?xún)?nèi)切核酸酶,其識(shí)別DNA靶序列5' -G~CWGC-3'(其中 W = A或T)和在第一個(gè)G之后切割以產(chǎn)生具有3堿基5'-突出端的片段。該銜接子包括 一組56個(gè)不同的含條形碼銜接子和共同的銜接子,且具有0. 3ng/ y 1而不是0. 6ng/ y 1的 濃度。對(duì)4個(gè)樣品進(jìn)行質(zhì)量對(duì)照,馬1,2,9和10。片段尺寸和存在的銜接子二聚體是經(jīng)由 Agilent bioanalyzer 2100 (圖2)而確定。經(jīng)由picogreen試驗(yàn)確定樣品濃度之后,該文 庫(kù)在lllumina HiSeq2000的一個(gè)道上進(jìn)行雙端測(cè)序。
[0318] FASTQ lllumina DNA序列是經(jīng)由我們的數(shù)據(jù)分析流水線(xiàn)處理處理的。通過(guò)基于 聯(lián)機(jī)條形碼(讀取1的前6-8bp)的樣品分類(lèi)自定義轉(zhuǎn)錄本的數(shù)據(jù)。修整后,將讀取用BWA V〇. 6. 2與EquCab2進(jìn)行比對(duì)并且用SNIFER鑒定的峰覆蓋> 5X的區(qū)域和自定義轉(zhuǎn)錄本。
[0319] 測(cè)序結(jié)果顯示在每個(gè)樣品中平均1,8百萬(wàn)的讀取和每個(gè)樣品平均IX覆蓋。表1 提供了在對(duì)56個(gè)阿拉伯馬的標(biāo)準(zhǔn)文庫(kù)測(cè)序后生成的數(shù)據(jù)的概要。樣品號(hào)顯示于第1欄中。 第2欄顯示每個(gè)樣品中原始讀取的數(shù),第3欄顯示每個(gè)樣品中處理后的讀取,其中每個(gè)樣品 中所有區(qū)域計(jì)數(shù)大于80bp。
[0320] 用ApekI處理的這些樣品的片段尺寸分布在所有樣品之間顯示出類(lèi)似的模式(圖 3)。合并所有56個(gè)樣品的存取文件,并且上傳到一體化的基因組瀏覽器(IGV)。通過(guò)肉眼 觀測(cè)分析SNP (圖5)。
[0321]表1:
[0322]
[0323]
[0324] 實(shí)施例2:使用選擇性的引物的基因組復(fù)雜性的進(jìn)一步簡(jiǎn)化改善
[0325] 除了使用ApekI限制性?xún)?nèi)切酶和相同的56個(gè)阿拉伯馬的樣品組所產(chǎn)生的上述簡(jiǎn) 化代表性文庫(kù)(進(jìn)一步稱(chēng)為"標(biāo)準(zhǔn)"庫(kù))之外,我們已經(jīng)通過(guò)使用選擇性引物而進(jìn)一步降低 基因組的復(fù)雜性。這種選擇性引物覆蓋了整個(gè)通用銜接子,3'限制位點(diǎn)并延伸2個(gè)堿基到 插入?yún)^(qū)域中。由于在引物3'末端的所述2個(gè)選擇性堿基,擴(kuò)增僅僅銜接子連接的片段的子 集。
[0326] 選擇性反向引物(5' -3'):
[0327] CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCTCAGCAC
[0328] 標(biāo)準(zhǔn)的反向引物(5' -3'):
[0329] CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT
[0330] 通用的正向引物(5' -3'):
[0331] AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT
[0332] 此外,在lllumina HiSeq2500的一個(gè)單道上進(jìn)行文庫(kù)制備的單端測(cè)序。類(lèi)似于上 述流水線(xiàn)處理實(shí)施原始序列讀取。實(shí)施適當(dāng)?shù)馁|(zhì)量對(duì)照以檢查條形碼和限制性位點(diǎn)正確的 組織。質(zhì)量差的讀取因?yàn)椴环衔覀兊臉?biāo)準(zhǔn)而被丟棄。總的來(lái)說(shuō),結(jié)果表明出與標(biāo)準(zhǔn)文庫(kù) 的基因組復(fù)雜性相比,選擇性文庫(kù)的基因組復(fù)雜性減小了一半(圖4),并且平均覆蓋率達(dá) 到7X測(cè)序深度的改進(jìn)。
[0333] 類(lèi)似于上述實(shí)施例進(jìn)行SNP鑒定,并且隨后在一體化的基因組瀏覽器(IGV)上顯 示(圖5)。在選擇性文庫(kù)中比在標(biāo)準(zhǔn)文庫(kù)中存在較少的檢出區(qū)域,而現(xiàn)實(shí)了引物的功效。
[0334] 實(shí)施例3 :多細(xì)胞和單個(gè)細(xì)胞的基于測(cè)序的基因分型
[0335] 取出雄性馬的皮膚biopt并且培養(yǎng)在37°C和5% C02的標(biāo)準(zhǔn)培養(yǎng)箱中。大的T175 燒瓶的成纖維細(xì)胞進(jìn)行培養(yǎng),洗滌并使用血液和組織試劑盒(Qiagen)提取DNA。經(jīng)由納米 滴檢測(cè)濃度和在瓊脂糖凝膠上檢測(cè)DNA片段。
[0336] 來(lái)自相同細(xì)胞系,單個(gè)成纖維細(xì)胞被用于進(jìn)一步的下游加工。根據(jù)W02011/157846 裂解細(xì)胞和擴(kuò)增DNA。
[0337] 使用PstI限制性?xún)?nèi)切酶進(jìn)行文庫(kù)制備并類(lèi)似如實(shí)施例1的過(guò)程而進(jìn)一步處理。預(yù) 測(cè)PstI生成在馬基因組中的968, 569個(gè)片段(EquCab2參考序列)而ApeKI總計(jì)4461178 個(gè)片段。因?yàn)槲覀兿胍畲笙薅鹊臏y(cè)序能力,我們決定在馬基因組中測(cè)試PstI消化。PstI 酶識(shí)別下列序列CTGCA~G并且其是對(duì)甲基化敏感的。此外,芯片預(yù)測(cè)估計(jì)238405個(gè)片段和 388822個(gè)片段分別小于500bp的和lOOObp。
[0338] 在lllumina HiSeq2000上進(jìn)行多細(xì)胞和單個(gè)細(xì)胞兩者的測(cè)序。這產(chǎn)生多細(xì)胞樣 品的52K雙端100bp讀取和單個(gè)細(xì)胞樣品的144K雙端100bp讀取。如實(shí)施例1中所述處 理序列數(shù)據(jù)。覆蓋分析顯示在多細(xì)胞和單個(gè)細(xì)胞樣品中分別具有至少5X深度的15K和19K 區(qū)域,其中兩個(gè)樣品之間存在2585區(qū)域的重疊。后者是在給定的預(yù)測(cè)范圍內(nèi),預(yù)測(cè)區(qū)域的 總數(shù)將在250K的范圍內(nèi),其中因?yàn)槊總€(gè)樣品測(cè)序的少量堿基,我們僅觀測(cè)到低于10%。盡 管每個(gè)樣品中少量堿基進(jìn)行測(cè)序,它可以通過(guò)應(yīng)用RRL而導(dǎo)致局部深度測(cè)序覆蓋(例如在 該實(shí)施例中>5x)。Samtools V 0. 1. 17用于兩種樣品中的snp檢出。在兩種樣品中觀測(cè) 到的snp檢出的位置為99 %的一致。
【主權(quán)項(xiàng)】
I. 用于靶核酸的分析的方法,所述方法包括下列步驟:
1. 提供樣品,其中靶核酸以少量存在, ii. 通過(guò)使用包括如下的方法生成所述靶核酸的簡(jiǎn)化代表性文庫(kù) *使所述靶核酸片段化; *連接銜接子至所述片段;和 *選擇所述銜接子-連接片段的子集, iii. 進(jìn)行所述簡(jiǎn)化代表性文庫(kù)的大規(guī)模平行測(cè)序,和 iv. 通過(guò)分析由所述測(cè)序獲得的結(jié)果而鑒定在所述靶核酸中的變體。
2. 權(quán)利要求1的方法,其中所述少量是IOOpg或更低的量。
3. 前述權(quán)利要求中任一項(xiàng)的方法,其中所述片段化是使用一種或多種限制性?xún)?nèi)切酶而 實(shí)施的。
4. 前述權(quán)利要求中任一項(xiàng)的方法,其中所述選擇子集是基于所述片段的尺寸。
5. 前述權(quán)利要求中任一項(xiàng)的方法,其中所述選擇子集是使用PCR-擴(kuò)增而實(shí)施的。
6. 前述權(quán)利要求中任一項(xiàng)的方法,其中所述選擇子集包括使用選擇性引物的PCR擴(kuò) 增。
7. 權(quán)利要求1的方法,其中生成簡(jiǎn)化代表性文庫(kù)包括擴(kuò)增片段的子集,當(dāng)組合時(shí),所述 擴(kuò)增片段的子集僅包含靶核酸的一部分。
8. 權(quán)利要求1的方法,進(jìn)一步包括 V.基于在所述靶核酸中鑒定的變體,構(gòu)建基因型和/或單體型。
9. 權(quán)利要求1的方法,進(jìn)一步包括 V.基于在靶核酸中鑒定的變體,在所述樣品中鑒定基因畸變。
10. 權(quán)利要求1的方法,其中所述靶核酸來(lái)源于胚胎或胎兒。 II. 權(quán)利要求1的方法,其中所述靶核酸來(lái)源于癌癥或腫瘤細(xì)胞。
12. 權(quán)利要求1的方法,其中提供樣品包括分離一個(gè)或少數(shù)靶細(xì)胞。
13. 權(quán)利要求15的方法,其中提供樣品進(jìn)一步包括裂解所述一個(gè)或少數(shù)靶細(xì)胞。
14. 權(quán)利要求1的方法,進(jìn)一步包括所述靶核酸的全基因組擴(kuò)增(WGA)。
15. 權(quán)利要求1的方法,其中對(duì)所述簡(jiǎn)化代表性文庫(kù)的測(cè)序確保在所述文庫(kù)中的每個(gè) 變體位置以高冗余度進(jìn)行采樣。
16. 用于生成測(cè)序文庫(kù)的系統(tǒng),所述系統(tǒng)適于接受樣品,靶核酸以少量存在,所述系統(tǒng) 包括控制單元,所述控制單元控制所述靶核酸的簡(jiǎn)化代表性測(cè)序文庫(kù)的生成是通過(guò)控制 *使所述靶核酸片段化; *連接銜接子至所述片段;和 *選擇所述銜接子-連接片段的子集。
17. 用于靶核酸的分析的系統(tǒng),所述系統(tǒng)適于接受樣品,其中靶核酸以少量存在,所述 系統(tǒng)包括一個(gè)或多個(gè)控制單元,所述控制單元控制: *使所述靶核酸片段化, *連接銜接子至所述片段,和 *選擇所述銜接子-連接片段的子集,和 *對(duì)所述子集測(cè)序。
18.設(shè)備的組合,包括: *適于分離1至20個(gè)細(xì)胞的細(xì)胞分離設(shè)備; *通過(guò)包括如下的方法而適于生成簡(jiǎn)化代表性文庫(kù)的樣品處理設(shè)備 -使所述靶核酸片段化, -連接銜接子至所述片段,和 -選擇所述銜接子-連接片段的子集;和 *大規(guī)模平行測(cè)序設(shè)備。
【專(zhuān)利摘要】本發(fā)明提供一種用于分析以少量存在的靶核酸的方法。特別的是,該方法包括下列步驟:i.提供樣品,其中靶核酸以少量存在,ii.通過(guò)如下方法生成所述靶核酸的簡(jiǎn)化代表性文庫(kù),所述方法包括:使所述靶核酸片段化;連接銜接子至所述片段;和選擇所述銜接子-連接片段的子集,iii.進(jìn)行所述簡(jiǎn)化代表性文庫(kù)的大規(guī)模平行測(cè)序,和iv.通過(guò)分析由所述測(cè)序獲得的結(jié)果而鑒定在所述靶核酸中的變體。
【IPC分類(lèi)】C12Q1/68
【公開(kāi)號(hào)】CN104884633
【申請(qǐng)?zhí)枴緾N201380052261
【發(fā)明人】J·維美徐, T·富特, F·漢內(nèi)斯, J·范霍特, G·馬埃斯
【申請(qǐng)人】勒芬天主教大學(xué)研發(fā)中心
【公開(kāi)日】2015年9月2日
【申請(qǐng)日】2013年10月7日
【公告號(hào)】CA2886835A1, EP2904113A1, US20150247184, WO2014053664A1