高雜合基因組的組裝方法

文檔序號(hào)：6620480閱讀：1171來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

高雜合基因組的組裝方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種高雜合基因組的組裝方法。該組裝方法包括根據(jù)待測(cè)物種的體細(xì)胞基因組序列信息構(gòu)建德布魯因圖的步驟和簡(jiǎn)化德布魯因圖的步驟，簡(jiǎn)化德布魯因圖的步驟包括以下步驟：對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測(cè)序；比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞的單細(xì)胞基因組的序列信息，找到體細(xì)胞基因組序列中的雜合位點(diǎn)的序列信息；以及根據(jù)雜合位點(diǎn)的序列信息，簡(jiǎn)化德布魯因圖。本發(fā)明的組裝方法通過(guò)利用生殖細(xì)胞單細(xì)胞的基因組序列信息找出高雜合基因組中的雜合位點(diǎn)，并在簡(jiǎn)化德布魯因圖的時(shí)候進(jìn)行輔助組裝，解決了現(xiàn)有技術(shù)在組裝拼接中的雜合位點(diǎn)難以簡(jiǎn)化的問(wèn)題，從而實(shí)現(xiàn)高雜合基因組的拼接組裝。
【專(zhuān)利說(shuō)明】高雜合基因組的組裝方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物【技術(shù)領(lǐng)域】，具體而言，涉及一種高雜合基因組的組裝方法。

【背景技術(shù)】
[0002] DNA(脫氧核糖核酸）測(cè)序，是廣泛應(yīng)用于生物學(xué)研究中的一種重要的實(shí)驗(yàn)技術(shù)，在DNA雙螺旋結(jié)構(gòu)學(xué)說(shuō)發(fā)表之后就開(kāi)始有相關(guān)的報(bào)道，但是操作流程復(fù)雜而沒(méi)有形成規(guī) 模。在1977年，末端終止測(cè)序法在Sanger的研究努力下誕生了，該方法相對(duì)之前的方法既簡(jiǎn)便又快速，而且通過(guò)后續(xù)不斷的改良，成為了 2007年前DNA測(cè)序的主流。然而Sanger測(cè) 序也存在自身的缺點(diǎn)，費(fèi)用高、通量低和耗時(shí)長(zhǎng)。因此隨著科學(xué)技術(shù)的不斷發(fā)展，借助于化學(xué)和物理等其他學(xué)科的技術(shù)更新，第二代測(cè)序技術(shù)開(kāi)始逐漸取代Sanger測(cè)序的霸主地位，完成了一些模式生物重測(cè)序和非模式生物的基因組測(cè)序。
[0003] 目前，第二代測(cè)序技術(shù)應(yīng)用最廣泛的是要以Illumina測(cè)序平臺(tái)為基礎(chǔ)的測(cè)序技術(shù)。邊合成邊測(cè)序是Illumina測(cè)序平臺(tái)的基本原理，當(dāng)DNA聚合酶合成互補(bǔ)鏈的時(shí)候通過(guò) 添加不同的dNTP (脫氧三磷酸核苷酸）釋放不同的熒光信號(hào)，通過(guò)捕捉和計(jì)算機(jī)軟件處理這些熒光信號(hào)即可以獲得測(cè)序中的DNA的序列信息。
[0004] 利用第二代測(cè)序技術(shù)完成模式生物或非模式生物的基因組測(cè)序的過(guò)程基本包括以下步驟：
[0005] 測(cè)序文庫(kù)構(gòu)建。首先提取待測(cè)物種二倍體體細(xì)胞的基因組DNA，然后將基因組DNA 隨機(jī)片段化，而在基因組測(cè)序中，會(huì)構(gòu)建不同梯度的插入片段大小，以便提供更多片段信息進(jìn)行后續(xù)的組裝。
[0006] 錨定橋接和預(yù)擴(kuò)增。測(cè)序的反應(yīng)是在Illumina測(cè)序平臺(tái)的玻璃管中進(jìn)行，單鏈接頭被固定在表面，上一個(gè)步驟得到的基因組DNA片段經(jīng)過(guò)變性成單鏈后與測(cè)序通道上的接頭引物結(jié)合形成橋狀結(jié)構(gòu)。單鏈橋型待測(cè)片段會(huì)被擴(kuò)增成雙鏈橋型片段，在變性過(guò)程中釋放出互補(bǔ)的單鏈會(huì)被錨定到附件的固相表面，數(shù)次循環(huán)之后，會(huì)在固相表面形成上百萬(wàn)條成簇分布的雙鏈待測(cè)片段。
[0007] 測(cè)序。在固相表面的每一個(gè)測(cè)序簇延伸互補(bǔ)鏈的時(shí)，每次加入一個(gè)被熒光標(biāo)記的 dNTP(脫氧三磷酸核苷酸）會(huì)發(fā)射出不同的熒光，Illumina測(cè)序儀通過(guò)接收這些熒光信號(hào) 和將其用計(jì)算機(jī)軟件處理后，就能準(zhǔn)確地獲得待測(cè)片段的序列信息。
[0008] 數(shù)據(jù)處理。Illumina測(cè)序得到的序列的每一個(gè)堿基都會(huì)有相應(yīng)的測(cè)序質(zhì)量，測(cè)序質(zhì)量低，說(shuō)明該堿基測(cè)錯(cuò)的概率就大。因此，通常在基因組裝之前對(duì)這些原始數(shù)據(jù)進(jìn)行處理，通過(guò)設(shè)置不同的閾值過(guò)濾質(zhì)量較低的序列。
[0009] 基因組組裝。通過(guò)將過(guò)濾得到的測(cè)序數(shù)據(jù)輸入計(jì)算機(jī)軟件中，例如已經(jīng)發(fā)表的針對(duì)二代測(cè)序的組裝軟件SOAPdenovo,這些軟件首先將測(cè)序的DNA片段進(jìn)行打斷及合并處理，通過(guò)序列相似性，構(gòu)建出德布魯因（de Bruijn)圖結(jié)構(gòu)，然后簡(jiǎn)化德布魯因圖，再利用序列之間的配對(duì)關(guān)系構(gòu)建出基因組的組裝序列結(jié)果。
[0010] 現(xiàn)有的技術(shù)主要是針對(duì)簡(jiǎn)單基因組的，簡(jiǎn)單基因組是一般指雜合率不超過(guò)千分之五的基因組，例如哺乳類(lèi)、鳥(niǎo)類(lèi)和一般栽培作物。一般認(rèn)為采用常規(guī)的組裝方法組裝雜合度商達(dá)0. 5%的基因組序列時(shí)有一定難度，而雜合度商達(dá)1 %以上的基因組序列則很難組裝，例如一般的水產(chǎn)類(lèi)基因組的雜合率一般超過(guò)百分之一，而這些高雜合位點(diǎn)在組裝過(guò)程中構(gòu) 建的德布魯因圖難以得到簡(jiǎn)化，針對(duì)二代測(cè)序的組裝軟件會(huì)在這些高雜合位點(diǎn)斷開(kāi)，從而造成組裝得到的序列過(guò)短，難以達(dá)到組裝拼接的要求。因此，急需建立一種能夠適應(yīng)雜合率超過(guò)百分之一的高雜合基因組的組裝方法。

【發(fā)明內(nèi)容】

[0011] 本發(fā)明旨在提供一種商雜合基因組的組裝方法，以解決現(xiàn)有技術(shù)無(wú)法對(duì)商雜合基因組的測(cè)序數(shù)據(jù)進(jìn)行組裝拼接的問(wèn)題。
[0012] 本發(fā)明中的"高雜合基因組"是指雜合度高達(dá)1%以上的基因組。
[0013] 為了實(shí)現(xiàn)上述目的，根據(jù)本發(fā)明的一個(gè)方面，提供了一種高雜合基因組的組裝方法，該組裝方法包括根據(jù)待測(cè)物種的體細(xì)胞基因組序列信息構(gòu)建德布魯因圖的步驟、簡(jiǎn)化德布魯因圖的步驟、以及根據(jù)簡(jiǎn)化后的德布魯因圖，拼接得到高雜合基因組的組裝序列的步驟，簡(jiǎn)化德布魯因圖的步驟包括以下步驟：對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測(cè)序；比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞的單細(xì)胞基因組的序列信息，找到體細(xì)胞基因組序列中的雜合位點(diǎn)的序列信息；以及根據(jù)雜合位點(diǎn)的序列信息，簡(jiǎn)化德布魯因圖。
[0014] 進(jìn)一步地，雜合位點(diǎn)的序列信息包括與生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源一致的雜合位點(diǎn)的序列信息和與生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源不一致的雜合位點(diǎn)的序列信息。
[0015] 進(jìn)一步地，根據(jù)雜合位點(diǎn)的序列信息，簡(jiǎn)化德布魯因圖的步驟中，采用與生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源不一致的雜合位點(diǎn)的序列信息進(jìn)行組裝。
[0016] 進(jìn)一步地，在比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組的序列信息，找到雜合位點(diǎn)的序列信息的步驟之前，進(jìn)一步還包括，分別對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組的序列信息進(jìn)行過(guò)濾低質(zhì)量序列的步驟。
[0017] 進(jìn)一步地，過(guò)濾低質(zhì)量序列的步驟通過(guò)設(shè)置閾值進(jìn)行過(guò)濾。
[0018] 進(jìn)一步地，對(duì)體細(xì)胞基因組序列信息和生殖細(xì)胞單細(xì)胞基因組序列信息通過(guò)設(shè)置相同的閾值進(jìn)行過(guò)濾低質(zhì)量序列。
[0019] 進(jìn)一步地，對(duì)待測(cè)物種的生殖細(xì)胞單細(xì)胞基因組進(jìn)行測(cè)序的步驟之前，進(jìn)一步包括構(gòu)建測(cè)序文庫(kù)的步驟，構(gòu)建測(cè)序文庫(kù)的步驟包括：提取待測(cè)物種的生殖細(xì)胞的單細(xì)胞的基因組DNA ;以及對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞的基因組DNA進(jìn)行直接片段化，形成測(cè)序文庫(kù)；其中，測(cè)序文庫(kù)為不大于500bp的短片段文庫(kù)。
[0020] 進(jìn)一步地，組裝方法在簡(jiǎn)化德布魯因圖的步驟之前，還包括對(duì)待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè)序的步驟；對(duì)待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè)序的步驟包括：提取待測(cè)物種的體細(xì)胞的基因組DNA ;以及對(duì)待測(cè)物種的體細(xì)胞基因組DNA進(jìn)行直接片段化和環(huán)化之后再進(jìn)行片段化，形成測(cè)序文庫(kù)；其中，測(cè)序文庫(kù)包括不大于500bp的短片段文庫(kù)和2Kb? l〇Kb的長(zhǎng)片段文庫(kù)。
[0021] 進(jìn)一步地，不大于500bp的短片段文庫(kù)包括180bp文庫(kù)和500bp文庫(kù)。
[0022] 進(jìn)一步地，2Kb?10Kb的長(zhǎng)片段文庫(kù)包括2Kbp、5Kbp和lOKbp文庫(kù)；
[0023] 進(jìn)一步地，上述組裝方法在根據(jù)簡(jiǎn)化后的所述德布魯因圖，拼接得到高雜合基因組的組裝序列的步驟中利用序列互補(bǔ)配對(duì)的關(guān)系進(jìn)行拼接，得到高雜合基因組的組裝序列。
[0024] 應(yīng)用本發(fā)明的技術(shù)方案，通過(guò)引入生殖細(xì)胞單細(xì)胞測(cè)序技術(shù)來(lái)解決高雜合基因組的組裝拼接問(wèn)題。通過(guò)將生殖細(xì)胞的單細(xì)胞基因組的序列信息與體細(xì)胞的基因組的序列信息進(jìn)行比對(duì)，找出雜合位點(diǎn)及其序列信息，并利用這些雜合位點(diǎn)的序列信息，在簡(jiǎn)化體細(xì)胞測(cè)序數(shù)據(jù)構(gòu)建的德布魯因圖的時(shí)候進(jìn)行輔助組裝，解決了現(xiàn)有技術(shù)在組裝拼接中的雜合位點(diǎn)難以簡(jiǎn)化的問(wèn)題，從而實(shí)現(xiàn)高雜合基因組的拼接組裝。

【專(zhuān)利附圖】

【附圖說(shuō)明】
[0025] 構(gòu)成本申請(qǐng)的一部分的說(shuō)明書(shū)附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解，本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中：
[0026] 圖1示出了本發(fā)明的生殖細(xì)胞的單細(xì)胞基因組DNA和二倍體細(xì)胞的基因組DNA建庫(kù)和測(cè)序步驟；
[0027] 圖2示出了本發(fā)明的生殖細(xì)胞的單細(xì)胞基因組序列信息在輔助組裝中對(duì)雜合位點(diǎn)進(jìn)行分離的過(guò)程；以及
[0028] 圖3示出了現(xiàn)有技術(shù)和本發(fā)明在高雜合基因組裝拼接中解決雜合位點(diǎn)時(shí)的兩種不同方法。

【具體實(shí)施方式】
[0029] 需要說(shuō)明的是，在不沖突的情況下，本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0030] 為了解決現(xiàn)有技術(shù)無(wú)法對(duì)高雜合基因組的測(cè)序數(shù)據(jù)進(jìn)行組裝拼接的問(wèn)題，在本發(fā) 明一種典型的實(shí)施方式中，提供了一種高雜合基因組的組裝方法，上述組裝方法包括根據(jù) 待測(cè)物種的體細(xì)胞基因組序列信息構(gòu)建的布魯因圖的步驟、簡(jiǎn)化德布魯因圖的步驟以及根據(jù)簡(jiǎn)化后的德布魯因圖，拼接得到高雜合基因組的組裝序列的步驟，簡(jiǎn)化上述德布魯因圖的步驟包括以下步驟：對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測(cè)序；比對(duì)上述體細(xì)胞基因組的序列信息與上述生殖細(xì)胞的單細(xì)胞基因組的序列信息，找到雜合位點(diǎn)的序列信息；以及根據(jù)上述雜合位點(diǎn)的序列信息，簡(jiǎn)化上述德布魯因圖。
[0031] 相對(duì)于傳統(tǒng)的基因組測(cè)序數(shù)據(jù)的組裝方法，本發(fā)明的上述組裝方法主要是引入了單細(xì)胞測(cè)序技術(shù)，通過(guò)對(duì)生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測(cè)序，利用得到的生殖細(xì)胞的單細(xì) 胞的基因組序列信息與體細(xì)胞的基因組序列信息進(jìn)行比較，就能夠找出高雜合基因組中的雜合位點(diǎn)，并能區(qū)分包含這些雜合位點(diǎn)的序列的親本來(lái)源。根據(jù)這些雜合位點(diǎn)的序列的親本來(lái)源信息，在簡(jiǎn)化根據(jù)體細(xì)胞的基因組序列信息構(gòu)建的德布魯因圖的時(shí)候，便能夠較方便地選擇出合適的雜合位點(diǎn)的序列，然后拼接得到較長(zhǎng)的重疊群（contig)，從而構(gòu)建出高雜合基因組的組裝序列。
[0032] 在本發(fā)明的上述的組裝方法中，通過(guò)比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞的單細(xì)胞基因組的序列信息，就能很直接、很方便地知道所得到的雜合位點(diǎn)的序列信息至少包與兩個(gè)親本的生殖細(xì)胞中的基因序列來(lái)源一致的序列，還包括體細(xì)胞之間的個(gè)體差異所帶來(lái)的雜合位點(diǎn)的序列信息。在本發(fā)明中，優(yōu)選所述雜合位點(diǎn)的序列信息包括：與上述測(cè)序的生殖細(xì)胞的單細(xì)胞基因組的序列的親本來(lái)源一致的雜合位點(diǎn)的序列信息和與上述測(cè)序的生殖細(xì)胞的單細(xì)胞基因組的序列的親本來(lái)源不一致的雜合位點(diǎn)的序列信息。
[0033] 在利用上述雜合位點(diǎn)的序列信息，進(jìn)行簡(jiǎn)化德布魯因圖的時(shí)候，便能夠根據(jù)上述雜合位點(diǎn)的序列信息的不同親本來(lái)源，準(zhǔn)確地選擇相同親本來(lái)源的序列進(jìn)行組裝拼接。這種組裝方法能夠組裝得到較長(zhǎng)的重疊群片段，而非常規(guī)的打斷處理得到短的重疊群片段。在本發(fā)明一種優(yōu)選的實(shí)施例中，在簡(jiǎn)化上述德布魯因圖的步驟中，采用與上述生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源不一致的雜合位點(diǎn)的序列信息進(jìn)行組裝。
[0034] 由于基于Illumina測(cè)序平臺(tái)得到的序列中，每一個(gè)喊基都會(huì)有相應(yīng)的測(cè)序質(zhì)量值。測(cè)序質(zhì)量值的高低體現(xiàn)了該堿基測(cè)序結(jié)果的可信度的高度。比如，質(zhì)量值為20代表錯(cuò) 誤率為1 %，質(zhì)量值為30代表錯(cuò)誤率為0. 1 %。測(cè)序質(zhì)量值越低，說(shuō)明該堿基測(cè)錯(cuò)的概率就大，可信度就比較低。因此，在進(jìn)行序列比對(duì)或序列組裝之前，通常需要將這些測(cè)序得到的原始數(shù)據(jù)進(jìn)行處理，從而過(guò)濾測(cè)序質(zhì)量值較低的序列，即低質(zhì)量序列以減少測(cè)序錯(cuò)誤對(duì)德布魯因圖構(gòu)建的干擾。
[0035] 需要說(shuō)明的是，本發(fā)明中所提及的低質(zhì)量序列是指堿基質(zhì)量值在20以上的比例低于85 %的序列。在本發(fā)明的上述比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組的序列信息，找到雜合位點(diǎn)的序列信息的步驟之前，進(jìn)一步優(yōu)選還包括，分別對(duì)上述體細(xì)胞基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組的序列信息進(jìn)行過(guò)濾低質(zhì)量序列的步驟。
[0036] 在本發(fā)明的上述過(guò)濾低質(zhì)量序列的步驟通過(guò)設(shè)置閾值進(jìn)行過(guò)濾。根據(jù)不同的測(cè)序數(shù)據(jù)、測(cè)序數(shù)據(jù)的質(zhì)量高低以及對(duì)序列組裝要求的高低，通過(guò)設(shè)置不同的閾值對(duì)低質(zhì)量序列進(jìn)行過(guò)濾。在本發(fā)明中，優(yōu)選對(duì)體細(xì)胞的基因組序列和生殖細(xì)胞單細(xì)胞的基因組序列進(jìn) 行相同閾值的過(guò)濾。通過(guò)設(shè)置相同的閾值進(jìn)行過(guò)濾，對(duì)過(guò)濾后剩余的序列的可信程度較一致，利用這些可信程度一致的序列進(jìn)行對(duì)比，得到的雜合位點(diǎn)的序列信息的可信度也相應(yīng) 地比較高。相反，若對(duì)測(cè)序質(zhì)量高低不一致的體細(xì)胞基因組序列數(shù)據(jù)和生殖細(xì)胞單細(xì)胞基因組序列數(shù)據(jù)進(jìn)行比較，得到的雜合位點(diǎn)的序列信息的可信程度就較低。
[0037] 在本發(fā)明的上述組裝方法中，對(duì)待測(cè)物種的生殖細(xì)胞單細(xì)胞基因組進(jìn)行測(cè)序的步驟之前，進(jìn)一步包括構(gòu)建測(cè)序文庫(kù)的步驟，上述構(gòu)建測(cè)序文庫(kù)的步驟采取常規(guī)Illumina平臺(tái)進(jìn)行建庫(kù)測(cè)序的步驟即可。在本發(fā)明中，優(yōu)選上述構(gòu)建測(cè)序文庫(kù)的步驟包括：提取上述待測(cè)物種的生殖細(xì)胞的單細(xì)胞的基因組DNA;以及對(duì)上述待測(cè)物種的生殖細(xì)胞的單細(xì)胞的基因組DNA進(jìn)行隨機(jī)地直接片段化，形成測(cè)序文庫(kù)；其中，上述測(cè)序文庫(kù)為不大于500bp的短片段文庫(kù)。
[0038] 相比組織樣本測(cè)序或材料多的樣本的測(cè)序，單細(xì)胞測(cè)序技術(shù)有其獨(dú)特的優(yōu)勢(shì)，能夠解決組織樣本或樣本少的時(shí)候測(cè)序所無(wú)法解決的細(xì)胞異質(zhì)性問(wèn)題的獨(dú)特優(yōu)勢(shì)。但由于單細(xì)胞的基因組DNA的量相對(duì)組織樣本或材料多的樣本的基因組DNA的量要少得多，對(duì)于這種量非常少的基因組DNA，在構(gòu)建基于Illumina平臺(tái)的測(cè)序文庫(kù)的時(shí)候，需要注意DNA污染和DNA擴(kuò)增均一性差的問(wèn)題。在單倍體基因組中，尤其是擴(kuò)增均一性差的問(wèn)題，使得在現(xiàn) 階段利用單細(xì)胞測(cè)序技術(shù)得到的序列只能達(dá)到全基因組序列長(zhǎng)度的40%左右，無(wú)法單獨(dú)完成全基因組的組裝拼接工作。但是，通過(guò)嚴(yán)格的質(zhì)量監(jiān)控和改進(jìn)的多重置換擴(kuò)增（MAD)技術(shù)、多次退火循環(huán)擴(kuò)增（MALBAC)技術(shù)能夠在錨定橋接和預(yù)擴(kuò)增步驟中以較低的偏倚性進(jìn) 行DNA擴(kuò)增，從而實(shí)現(xiàn)對(duì)單細(xì)胞基因組進(jìn)行相對(duì)均一地?cái)U(kuò)增。
[0039] 本發(fā)明的上述生殖細(xì)胞的單細(xì)胞的基因組DNA測(cè)序文庫(kù)的構(gòu)建步驟，如圖1中所示，在對(duì)待測(cè)生殖細(xì)胞的單細(xì)胞基因組DNA片段化后，形成150bp?500bp大小的短片段文庫(kù)。將生殖細(xì)胞的單細(xì)胞構(gòu)建成150bp?500bp大小的短片段文庫(kù)的目的，是為了盡可能把段片段的全長(zhǎng)測(cè)通，提高對(duì)短片段上每個(gè)堿基的測(cè)序準(zhǔn)確度，從而提高比對(duì)得到的體細(xì) 胞基因組序列信息中的雜合位點(diǎn)的準(zhǔn)確度。
[0040] 在本發(fā)明的上述生殖細(xì)胞的單細(xì)胞基因組的150bp?500bp大小的短片段文庫(kù)建好后，上機(jī)測(cè)序之前進(jìn)行錨定橋接和預(yù)擴(kuò)增的步驟中，優(yōu)選采用MALBAC技術(shù)進(jìn)行預(yù)擴(kuò)增，這種擴(kuò)增方式通過(guò)形成閉合環(huán)來(lái)抑制DNA片段被重復(fù)地復(fù)制，以保持DNA擴(kuò)增的均勻性，解決了對(duì)單細(xì)胞基因組擴(kuò)增的強(qiáng)烈偏好性問(wèn)題，因而，這種擴(kuò)增方式對(duì)不同片段的擴(kuò)增均一性更好，得到的測(cè)序數(shù)據(jù)的質(zhì)量相對(duì)更高。
[0041] 在本發(fā)明的上述組裝方法中，在具有上述的生殖細(xì)胞的單細(xì)胞基因組的序列信息之后，利用生殖細(xì)胞的單細(xì)胞基因組的序列信息就能夠與體細(xì)胞的基因組序列信息進(jìn)行比對(duì)，找到體細(xì)胞基因組中的雜合位點(diǎn)，并利用這些雜合位點(diǎn)的序列信息，就能夠進(jìn)行簡(jiǎn)化由體細(xì)胞基因組序列信息構(gòu)建的德布魯因圖。而當(dāng)待測(cè)物種的體細(xì)胞的基因組序列信息完全未知的情況下，在簡(jiǎn)化上述德布魯因圖的步驟之前，還包括對(duì)上述待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè)序的步驟。
[0042] 對(duì)本發(fā)明的上述待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè)序的步驟，利用常規(guī)的基因組測(cè) 序流程進(jìn)行即可。在本發(fā)明一種優(yōu)選的實(shí)施例中，上述對(duì)待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè) 序的步驟包括：提取的上述待測(cè)物種的體細(xì)胞的基因組DNA ;以及對(duì)上述待測(cè)物種的體細(xì) 胞基因組DNA進(jìn)行隨機(jī)地直接片段化和環(huán)化之后再進(jìn)行片段化，形成測(cè)序文庫(kù)；其中，上述測(cè)序文庫(kù)包括不大于500bp的短片段文庫(kù)和2Kb?10Kb的長(zhǎng)片段文庫(kù)。
[0043] 本領(lǐng)域技術(shù)人員清楚的是，在基于Illumina平臺(tái)的全基因組測(cè)序文庫(kù)構(gòu)建中，通常構(gòu)建帶有不同插入片段大小的文庫(kù)，然后通過(guò)不同長(zhǎng)度的插入片段之間的重疊序列進(jìn)行拼接。在本發(fā)明構(gòu)建不大于500bp的短片段文庫(kù)和2Kb?10Kb的長(zhǎng)片段文庫(kù)的目的也在于此，用于輔助拼接組裝。
[0044] 不大于 500bp 短片段文庫(kù)通常包括 50bp、100bp、150bp、180bp、200bp、300bp 和 500bp。在本發(fā)明的上述體細(xì)胞的基因組DNA測(cè)序文庫(kù)中，優(yōu)選構(gòu)建180bp和500bp的測(cè)序文庫(kù)。Illumina平臺(tái)的雙端測(cè)序（Paired-End)能夠測(cè)通的相對(duì)較長(zhǎng)的片段在200bp左右，構(gòu)建180bp的短片段文庫(kù)能夠得到短片段的全長(zhǎng)序列。直接利用全長(zhǎng)的短序列片段之間的重疊序列部分就能形成片段相對(duì)較長(zhǎng)的片段（即重疊群contig)。雙端測(cè)序時(shí)能夠測(cè)得兩端各接近l〇〇bp的序列長(zhǎng)度，對(duì)長(zhǎng)度在500bp左右的片段來(lái)講，能夠利用不同片段的末端序列之間的重疊部分進(jìn)行拼接，同樣得到相對(duì)更長(zhǎng)的片段（即scaffold)。
[0045] 在本發(fā)明的上述2Kb?10Kb的長(zhǎng)片段文庫(kù)中，優(yōu)選包括2Kbp、5Kbp和lOKbp文庫(kù)。通過(guò)將體細(xì)胞的基因組隨機(jī)打斷成大小范圍在2Kbp、5Kbp和lOKbp的大片段文庫(kù)，然后通過(guò)對(duì)大片段的兩端進(jìn)行測(cè)序（Paired-End)，得到關(guān)于上述2Kbp、5Kbp和lOKbp的大片段的兩端的序列信息，這些大片段兩端的序列信息有利于后續(xù)大片段之間的拼接。其中，上述大片段文庫(kù)的構(gòu)建步驟，如圖1所示：將體細(xì)胞的基因組隨機(jī)打斷成2Kbp、5Kbp和lOKbp 大小的片段，然后對(duì)大片段進(jìn)行末端修復(fù)，生物素標(biāo)記片段后對(duì)片段進(jìn)行環(huán)化，然后再對(duì)環(huán) 化的片段進(jìn)行二次打斷，選擇其中帶有生物素標(biāo)記的片段進(jìn)行末端修復(fù)、連接頭后進(jìn)行PCR 擴(kuò)增。這樣便能夠得到大片段文庫(kù)兩端的序列信息，這些信息有助于將大片段序列拼接成更大的片段（即框架scaffold)。
[0046] 上述組裝方法在根據(jù)簡(jiǎn)化后的所述德布魯因圖，拼接得到高雜合基因組的組裝序列的步驟中利用序列互補(bǔ)配對(duì)的關(guān)系進(jìn)行拼接，得到高雜合基因組的組裝序列。
[0047] 下面結(jié)合具體的實(shí)施例來(lái)進(jìn)一步說(shuō)明本發(fā)明的有益效果。
[0048] 首先要說(shuō)明的是，下列實(shí)施例中的高雜合二倍體基因組由兩條大腸桿菌完整的基因組序列的組合來(lái)模擬，單倍體基因組以單條大腸桿菌的基因組序列來(lái)模擬；其中這兩條大腸桿菌分別為DH1 (ME8569)菌株和026:Hllstr. 11368菌株的大腸桿菌，大小分別為 4621430bp和5697240bp ;這兩條大腸桿菌為單倍體時(shí)的雜合度均為0,當(dāng)將它們混合在一起模擬大腸桿菌的二倍體基因組時(shí)，這個(gè)二倍體的雜合度高達(dá)1. 47%;以其中DH1 (ME8569) 菌株的大腸桿菌來(lái)模擬單倍體基因組。
[0049] 樣品準(zhǔn)備。如圖1，單獨(dú)提取二倍體體細(xì)胞的基因組DNA和單倍體生殖細(xì)胞的DNA。
[0050] 測(cè)序文庫(kù)構(gòu)建。如圖1，首先利用二倍體體細(xì)胞的基因組DNA，構(gòu)建從180bp、 500bp、2Kbp、5Kbp和lOKbp的不同梯度的插入片段大小的測(cè)序文庫(kù)。其中，180bp和500bp 的短片段測(cè)序文庫(kù)是將基因組DNA直接打斷成相應(yīng)大小的片段而成，而2Kbp、5Kbp和lOKbp 的測(cè)序文庫(kù)是將基因組DNA先進(jìn)行成2Kbp、5Kbp和lOKbp的片段后，再經(jīng)連接酶連接成環(huán) 狀（例如圖1中的環(huán)狀），然后再采用超聲破碎法進(jìn)行片段的打斷，打斷成平均400?600bp 的片段大小，最終完成文庫(kù)的構(gòu)建。而大片段文庫(kù)的序列方向相對(duì)于小片段是相反的，如圖 1中的箭頭所示。而單倍體生殖細(xì)胞的DNA只需要構(gòu)建一個(gè)小片段文庫(kù)，如圖1中的左方顯 /_J、1 〇
[0051] 錨定橋接和預(yù)擴(kuò)增。在二倍體體細(xì)胞的基因組DNA利用HiSeq2000進(jìn)行測(cè)序之前，先將上一個(gè)步驟得到的DNA片段經(jīng)過(guò)變性成單鏈后，固定在測(cè)序通道上的接頭引物而且結(jié) 合形成橋狀結(jié)構(gòu)，再被擴(kuò)增成雙鏈橋型片段，在變性過(guò)程中釋放出互補(bǔ)的單鏈會(huì)被錨定到附件的固相表面，數(shù)次循環(huán)之后，會(huì)在固相表面形成上百萬(wàn)條成簇分布的雙鏈待測(cè)片段。而單倍體生殖細(xì)胞的基因組DNA會(huì)通過(guò)形成閉合環(huán)來(lái)抑制DNA片段被重復(fù)地復(fù)制，以保持DNA 擴(kuò)增的均勻性，解決了對(duì)單細(xì)胞基因組擴(kuò)增的強(qiáng)烈偏好性問(wèn)題。然后再經(jīng)過(guò)錨定和擴(kuò)增，跟二倍體體細(xì)胞的基因組DNA -樣在固相表面形成上百萬(wàn)成簇分布的雙鏈的待測(cè)片段。
[0052] 測(cè)序。在固相表面的每一個(gè)測(cè)序簇延伸互補(bǔ)鏈的時(shí)，每次加入一個(gè)被熒光標(biāo)記的 dNTP(脫氧三磷酸核苷酸）會(huì)發(fā)射出不同的熒光，Illumina測(cè)序儀通過(guò)接受這些熒光信號(hào) 和將其用計(jì)算機(jī)軟件處理后，就能準(zhǔn)確地獲得待測(cè)片段的序列信息。經(jīng)過(guò)上述的處理，就可以的到二倍體體細(xì)胞的基因組DNA和單倍體生殖細(xì)胞的基因組DNA序列信息。
[0053] 數(shù)據(jù)處理。Illumina測(cè)序得到的序列的每一個(gè)堿基都會(huì)有相應(yīng)的測(cè)序質(zhì)量，測(cè)序質(zhì)量低，說(shuō)明該堿基測(cè)錯(cuò)的概率就大。因此會(huì)在基因組裝之前將這些原始數(shù)據(jù)處理，通過(guò)設(shè) 置不同的閾值過(guò)濾質(zhì)量較低的序列。在進(jìn)行基因組組裝之前，對(duì)二倍體體細(xì)胞的基因組DNA 和單倍體生殖細(xì)胞的基因組DNA序列進(jìn)行相同閾值的過(guò)濾，即均對(duì)質(zhì)量值在20以上且比例低于85%的序列進(jìn)行過(guò)濾。
[0054] 生殖細(xì)胞的單細(xì)胞測(cè)序輔助基因組組裝。首先，如圖2,用Kmer是指將一條序列 (reads)連續(xù)切割，沿堿基序列滑動(dòng)單個(gè)堿基得到一條堿基數(shù)為K的核苷酸序列。其中橫坐標(biāo)Kmer的深度是指Kmer在所有某一個(gè)Kmer在reads中出現(xiàn)的次數(shù)；Kmer的個(gè)數(shù)是指在同樣深度的Kmer在所有reads中出現(xiàn)的次數(shù)，其中A部分顯示的是二倍體基因組測(cè)序數(shù) 據(jù)；通過(guò)與B部分中單倍體生殖細(xì)胞的基因組DNA的測(cè)序數(shù)據(jù)進(jìn)行比對(duì)，得到二倍體基因組 DNA序列與單倍體生殖細(xì)胞DNA序列之間的雜合位點(diǎn)（即圖2中的D部分），和將該部分雜合位點(diǎn)分離過(guò)濾后的二倍體基因組序列數(shù)據(jù)，（即圖2中的C部分）。
[0055] 其次，將通過(guò)低質(zhì)量序列過(guò)濾后的二倍體測(cè)序的序列輸入到S0APdenovo2,參考其他已經(jīng)發(fā)表的針對(duì)二代測(cè)序的組裝軟件SOAPdenovo將序列打斷及合并處理，通過(guò)序列相似性，構(gòu)建出德布魯因圖結(jié)構(gòu)。如圖3,在簡(jiǎn)化德布魯因圖的時(shí)候引入上述提取的雜合位點(diǎn) 信息，在遇到雜合位點(diǎn)的分叉圖路上只選取其中與上述單倍體生殖細(xì)胞中的序列不一致的一套進(jìn)行組裝，假設(shè)序列B和D為單倍體生殖細(xì)胞來(lái)源的序列，則選擇二倍體基因組中的A 和C序列來(lái)進(jìn)行組裝，即通過(guò)A-E-C通路（如圖3中的右下方）得到1條長(zhǎng)的序列片段，而不是按照傳統(tǒng)的方法在分叉的圖路上進(jìn)行打斷（如圖3中的左下方），得到5條短的序列片段，從而解決雜合組裝問(wèn)題，再利用序列之間的配對(duì)關(guān)系構(gòu)建出雜合基因組的組裝序列結(jié) 果。
[0056] 本發(fā)明經(jīng)上述模擬數(shù)據(jù)測(cè)試，對(duì)于雜合率在百分之一的基因組，采用常規(guī)的方法進(jìn)行組裝拼接，組裝中最關(guān)鍵的指標(biāo)contig N50(重疊群）只有551bp，scaffold N50為 71，511，而采用本發(fā)明的生殖細(xì)胞單細(xì)胞測(cè)序輔助組裝的方法，其contig N50可以達(dá)到 1761bp，另外 scaffoldN50 達(dá)到 221，503bp。
[0057] 從以上的描述中，可以看出，本發(fā)明上述的實(shí)施例實(shí)現(xiàn)了如下技術(shù)效果：本發(fā)明首次將生殖細(xì)胞的單細(xì)胞擴(kuò)增技術(shù)和單細(xì)胞測(cè)序技術(shù)與體細(xì)胞的常規(guī)二代測(cè)序技術(shù)結(jié)合在一起，通過(guò)二倍體體細(xì)胞的基因組DNA和單倍體生殖細(xì)胞的基因組DNA的測(cè)序差異，準(zhǔn)確找到屬于體細(xì)胞基因組的雜合位點(diǎn)信息，從而解決了常規(guī)的方法不能準(zhǔn)確定位基因組的雜合位點(diǎn)信息的難題；其次，相比常規(guī)的二代測(cè)序組裝拼接方法，在分叉的雜合位點(diǎn)只能選取打斷序列的方法，從而導(dǎo)致序列過(guò)短而無(wú)法組裝的缺陷，本發(fā)明能利用辨認(rèn)的雜合位點(diǎn)信息準(zhǔn)確簡(jiǎn)化雜合位點(diǎn)的分叉路，從而避免將序列打斷，從而能夠?qū)崿F(xiàn)雜合基因組的組裝。
[0058] 以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1. 一種高雜合基因組的組裝方法，所述組裝方法包括根據(jù)待測(cè)物種的體細(xì)胞基因組序列信息構(gòu)建德布魯因圖的步驟、簡(jiǎn)化所述德布魯因圖以及根據(jù)簡(jiǎn)化后的所述德布魯因圖，拼接得到高雜合基因組的組裝序列的步驟，其特征在于，簡(jiǎn)化所述德布魯因圖的步驟包括以下步驟：對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測(cè)序；比對(duì)所述體細(xì)胞基因組的序列信息與所述生殖細(xì)胞的單細(xì)胞基因組的序列信息，找到所述體細(xì)胞基因組序列中的雜合位點(diǎn)的序列信息；以及根據(jù)所述雜合位點(diǎn)的序列信息，簡(jiǎn)化所述德布魯因圖。
2. 根據(jù)權(quán)利要求1所述的組裝方法，其特征在于，所述雜合位點(diǎn)的序列信息包括與所述生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源一致的雜合位點(diǎn)的序列信息和與所述生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源不一致的雜合位點(diǎn)的序列信息。
3. 根據(jù)權(quán)利要求2所述的組裝方法，其特征在于，根據(jù)所述雜合位點(diǎn)的序列信息，簡(jiǎn)化所述德布魯因圖的步驟中，采用與所述生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源不一致的雜合位點(diǎn)的序列信息進(jìn)行組裝。
4. 根據(jù)權(quán)利要求1所述的組裝方法，其特征在于，在所述比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組的序列信息，找到雜合位點(diǎn)的序列信息的步驟之前，進(jìn)一步還包括，分別對(duì)所述體細(xì)胞基因組的序列信息與生殖細(xì)胞的單細(xì)胞基因組的序列信息進(jìn)行過(guò) 濾低質(zhì)量序列的步驟。
5. 根據(jù)權(quán)利要求4所述的組裝方法，其特征在于，所述過(guò)濾低質(zhì)量序列的步驟通過(guò)設(shè) 置閾值進(jìn)行過(guò)濾。
6. 根據(jù)權(quán)利要求5所述的組裝方法，其特征在于，對(duì)所述體細(xì)胞基因組序列信息和所述生殖細(xì)胞單細(xì)胞基因組序列信息通過(guò)設(shè)置相同的閾值進(jìn)行過(guò)濾低質(zhì)量序列。
7. 根據(jù)權(quán)利要求1所述的組裝方法，其特征在于，對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測(cè)序的步驟之前，進(jìn)一步包括構(gòu)建測(cè)序文庫(kù)的步驟，所述構(gòu)建測(cè)序文庫(kù)的步驟包括：提取所述待測(cè)物種的生殖細(xì)胞的單細(xì)胞的基因組DNA ;以及對(duì)所述待測(cè)物種的生殖細(xì)胞的單細(xì)胞的基因組DNA進(jìn)行直接片段化，形成測(cè)序文庫(kù)；其中，所述測(cè)序文庫(kù)為不大于500bp的短片段文庫(kù)。
8. 根據(jù)權(quán)利要求1所述的組裝方法，其特征在于，所述組裝方法在簡(jiǎn)化所述德布魯因圖的步驟之前，還包括對(duì)所述待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè)序的步驟；對(duì)所述待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè)序的步驟包括：提取所述待測(cè)物種的體細(xì)胞的基因組DNA ;以及對(duì)所述待測(cè)物種的體細(xì)胞基因組DNA進(jìn)行直接片段化和環(huán)化之后再進(jìn)行片段化，形成測(cè)序文庫(kù)；其中，所述測(cè)序文庫(kù)包括不大于500bp的短片段文庫(kù)和2Kb?10Kb的長(zhǎng)片段文庫(kù)。
9. 根據(jù)權(quán)利要求7或8所述的組裝方法，其特征在于，所述不大于500bp的短片段文庫(kù) 包括180bp文庫(kù)和500bp文庫(kù)。
10. 根據(jù)權(quán)利要求8所述的組裝方法，其特征在于，所述2Kb?10Kb的長(zhǎng)片段文庫(kù)包括 2Kbp、5Kbp 和 lOKbp 文庫(kù)。
11.根據(jù)權(quán)利要求1所述的組裝方法，其特征在于，所述組裝方法在根據(jù)簡(jiǎn)化后的所述德布魯因圖，拼接得到高雜合基因組的組裝序列的步驟中利用序列互補(bǔ)配對(duì)的關(guān)系進(jìn)行拼接，得到高雜合基因組的組裝序列。
【文檔編號(hào)】G06F19/20GK104091097SQ201410342295
【公開(kāi)日】2014年10月8日申請(qǐng)日期:2014年7月17日優(yōu)先權(quán)日:2014年7月17日
【發(fā)明者】張錦波, 江文愷, 李季, 孫小慶, 張曉杰, 唐新春申請(qǐng)人:北京諾禾致源生物信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張錦波;江文愷;李季;孫小慶;張曉杰;唐新春
技術(shù)所有人：北京諾禾致源生物信息科技有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

比較基因組雜交相關(guān)技術(shù)

微陣列比較基因組雜交相關(guān)技術(shù)

比較基因組雜交技術(shù)相關(guān)技術(shù)

基因組原位雜交技術(shù)相關(guān)技術(shù)

基因組原位雜交相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

高雜合基因組的組裝方法