高雜合基因組的組裝方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種高雜合基因組的組裝方法。該組裝方法包括根據(jù)待測(cè)物種的體細(xì)胞基因組序列信息構(gòu)建德布魯因圖的步驟和簡(jiǎn)化德布魯因圖的步驟,簡(jiǎn)化德布魯因圖的步驟包括以下步驟:對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測(cè)序;比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞的單細(xì)胞基因組的序列信息,找到體細(xì)胞基因組序列中的雜合位點(diǎn)的序列信息;以及根據(jù)雜合位點(diǎn)的序列信息,簡(jiǎn)化德布魯因圖。本發(fā)明的組裝方法通過(guò)利用生殖細(xì)胞單細(xì)胞的基因組序列信息找出高雜合基因組中的雜合位點(diǎn),并在簡(jiǎn)化德布魯因圖的時(shí)候進(jìn)行輔助組裝,解決了現(xiàn)有技術(shù)在組裝拼接中的雜合位點(diǎn)難以簡(jiǎn)化的問(wèn)題,從而實(shí)現(xiàn)高雜合基因組的拼接組裝。
【專(zhuān)利說(shuō)明】高雜合基因組的組裝方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物【技術(shù)領(lǐng)域】,具體而言,涉及一種高雜合基因組的組裝方法。
【背景技術(shù)】
[0002] DNA(脫氧核糖核酸)測(cè)序,是廣泛應(yīng)用于生物學(xué)研究中的一種重要的實(shí)驗(yàn)技術(shù), 在DNA雙螺旋結(jié)構(gòu)學(xué)說(shuō)發(fā)表之后就開(kāi)始有相關(guān)的報(bào)道,但是操作流程復(fù)雜而沒(méi)有形成規(guī) 模。在1977年,末端終止測(cè)序法在Sanger的研究努力下誕生了,該方法相對(duì)之前的方法既 簡(jiǎn)便又快速,而且通過(guò)后續(xù)不斷的改良,成為了 2007年前DNA測(cè)序的主流。然而Sanger測(cè) 序也存在自身的缺點(diǎn),費(fèi)用高、通量低和耗時(shí)長(zhǎng)。因此隨著科學(xué)技術(shù)的不斷發(fā)展,借助于化 學(xué)和物理等其他學(xué)科的技術(shù)更新,第二代測(cè)序技術(shù)開(kāi)始逐漸取代Sanger測(cè)序的霸主地位, 完成了一些模式生物重測(cè)序和非模式生物的基因組測(cè)序。
[0003] 目前,第二代測(cè)序技術(shù)應(yīng)用最廣泛的是要以Illumina測(cè)序平臺(tái)為基礎(chǔ)的測(cè)序技 術(shù)。邊合成邊測(cè)序是Illumina測(cè)序平臺(tái)的基本原理,當(dāng)DNA聚合酶合成互補(bǔ)鏈的時(shí)候通過(guò) 添加不同的dNTP (脫氧三磷酸核苷酸)釋放不同的熒光信號(hào),通過(guò)捕捉和計(jì)算機(jī)軟件處理 這些熒光信號(hào)即可以獲得測(cè)序中的DNA的序列信息。
[0004] 利用第二代測(cè)序技術(shù)完成模式生物或非模式生物的基因組測(cè)序的過(guò)程基本包括 以下步驟:
[0005] 測(cè)序文庫(kù)構(gòu)建。首先提取待測(cè)物種二倍體體細(xì)胞的基因組DNA,然后將基因組DNA 隨機(jī)片段化,而在基因組測(cè)序中,會(huì)構(gòu)建不同梯度的插入片段大小,以便提供更多片段信息 進(jìn)行后續(xù)的組裝。
[0006] 錨定橋接和預(yù)擴(kuò)增。測(cè)序的反應(yīng)是在Illumina測(cè)序平臺(tái)的玻璃管中進(jìn)行,單鏈接 頭被固定在表面,上一個(gè)步驟得到的基因組DNA片段經(jīng)過(guò)變性成單鏈后與測(cè)序通道上的接 頭引物結(jié)合形成橋狀結(jié)構(gòu)。單鏈橋型待測(cè)片段會(huì)被擴(kuò)增成雙鏈橋型片段,在變性過(guò)程中釋 放出互補(bǔ)的單鏈會(huì)被錨定到附件的固相表面,數(shù)次循環(huán)之后,會(huì)在固相表面形成上百萬(wàn)條 成簇分布的雙鏈待測(cè)片段。
[0007] 測(cè)序。在固相表面的每一個(gè)測(cè)序簇延伸互補(bǔ)鏈的時(shí),每次加入一個(gè)被熒光標(biāo)記的 dNTP(脫氧三磷酸核苷酸)會(huì)發(fā)射出不同的熒光,Illumina測(cè)序儀通過(guò)接收這些熒光信號(hào) 和將其用計(jì)算機(jī)軟件處理后,就能準(zhǔn)確地獲得待測(cè)片段的序列信息。
[0008] 數(shù)據(jù)處理。Illumina測(cè)序得到的序列的每一個(gè)堿基都會(huì)有相應(yīng)的測(cè)序質(zhì)量,測(cè)序 質(zhì)量低,說(shuō)明該堿基測(cè)錯(cuò)的概率就大。因此,通常在基因組裝之前對(duì)這些原始數(shù)據(jù)進(jìn)行處 理,通過(guò)設(shè)置不同的閾值過(guò)濾質(zhì)量較低的序列。
[0009] 基因組組裝。通過(guò)將過(guò)濾得到的測(cè)序數(shù)據(jù)輸入計(jì)算機(jī)軟件中,例如已經(jīng)發(fā)表的針 對(duì)二代測(cè)序的組裝軟件SOAPdenovo,這些軟件首先將測(cè)序的DNA片段進(jìn)行打斷及合并處 理,通過(guò)序列相似性,構(gòu)建出德布魯因(de Bruijn)圖結(jié)構(gòu),然后簡(jiǎn)化德布魯因圖,再利用序 列之間的配對(duì)關(guān)系構(gòu)建出基因組的組裝序列結(jié)果。
[0010] 現(xiàn)有的技術(shù)主要是針對(duì)簡(jiǎn)單基因組的,簡(jiǎn)單基因組是一般指雜合率不超過(guò)千分之 五的基因組,例如哺乳類(lèi)、鳥(niǎo)類(lèi)和一般栽培作物。一般認(rèn)為采用常規(guī)的組裝方法組裝雜合度 商達(dá)0. 5%的基因組序列時(shí)有一定難度,而雜合度商達(dá)1 %以上的基因組序列則很難組裝, 例如一般的水產(chǎn)類(lèi)基因組的雜合率一般超過(guò)百分之一,而這些高雜合位點(diǎn)在組裝過(guò)程中構(gòu) 建的德布魯因圖難以得到簡(jiǎn)化,針對(duì)二代測(cè)序的組裝軟件會(huì)在這些高雜合位點(diǎn)斷開(kāi),從而 造成組裝得到的序列過(guò)短,難以達(dá)到組裝拼接的要求。因此,急需建立一種能夠適應(yīng)雜合率 超過(guò)百分之一的高雜合基因組的組裝方法。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明旨在提供一種商雜合基因組的組裝方法,以解決現(xiàn)有技術(shù)無(wú)法對(duì)商雜合基 因組的測(cè)序數(shù)據(jù)進(jìn)行組裝拼接的問(wèn)題。
[0012] 本發(fā)明中的"高雜合基因組"是指雜合度高達(dá)1%以上的基因組。
[0013] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種高雜合基因組的組裝方 法,該組裝方法包括根據(jù)待測(cè)物種的體細(xì)胞基因組序列信息構(gòu)建德布魯因圖的步驟、簡(jiǎn)化 德布魯因圖的步驟、以及根據(jù)簡(jiǎn)化后的德布魯因圖,拼接得到高雜合基因組的組裝序列的 步驟,簡(jiǎn)化德布魯因圖的步驟包括以下步驟:對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行 測(cè)序;比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞的單細(xì)胞基因組的序列信息,找到體細(xì)胞 基因組序列中的雜合位點(diǎn)的序列信息;以及根據(jù)雜合位點(diǎn)的序列信息,簡(jiǎn)化德布魯因圖。
[0014] 進(jìn)一步地,雜合位點(diǎn)的序列信息包括與生殖細(xì)胞的單細(xì)胞基因組的序列信息的親 本來(lái)源一致的雜合位點(diǎn)的序列信息和與生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源 不一致的雜合位點(diǎn)的序列信息。
[0015] 進(jìn)一步地,根據(jù)雜合位點(diǎn)的序列信息,簡(jiǎn)化德布魯因圖的步驟中,采用與生殖細(xì)胞 的單細(xì)胞基因組的序列信息的親本來(lái)源不一致的雜合位點(diǎn)的序列信息進(jìn)行組裝。
[0016] 進(jìn)一步地,在比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組的序列信 息,找到雜合位點(diǎn)的序列信息的步驟之前,進(jìn)一步還包括,分別對(duì)體細(xì)胞基因組的序列信息 與生殖細(xì)胞單細(xì)胞基因組的序列信息進(jìn)行過(guò)濾低質(zhì)量序列的步驟。
[0017] 進(jìn)一步地,過(guò)濾低質(zhì)量序列的步驟通過(guò)設(shè)置閾值進(jìn)行過(guò)濾。
[0018] 進(jìn)一步地,對(duì)體細(xì)胞基因組序列信息和生殖細(xì)胞單細(xì)胞基因組序列信息通過(guò)設(shè)置 相同的閾值進(jìn)行過(guò)濾低質(zhì)量序列。
[0019] 進(jìn)一步地,對(duì)待測(cè)物種的生殖細(xì)胞單細(xì)胞基因組進(jìn)行測(cè)序的步驟之前,進(jìn)一步包 括構(gòu)建測(cè)序文庫(kù)的步驟,構(gòu)建測(cè)序文庫(kù)的步驟包括:提取待測(cè)物種的生殖細(xì)胞的單細(xì)胞的 基因組DNA ;以及對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞的基因組DNA進(jìn)行直接片段化,形成測(cè)序 文庫(kù);其中,測(cè)序文庫(kù)為不大于500bp的短片段文庫(kù)。
[0020] 進(jìn)一步地,組裝方法在簡(jiǎn)化德布魯因圖的步驟之前,還包括對(duì)待測(cè)物種的體細(xì)胞 基因組進(jìn)行測(cè)序的步驟;對(duì)待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè)序的步驟包括:提取待測(cè)物種 的體細(xì)胞的基因組DNA ;以及對(duì)待測(cè)物種的體細(xì)胞基因組DNA進(jìn)行直接片段化和環(huán)化之后 再進(jìn)行片段化,形成測(cè)序文庫(kù);其中,測(cè)序文庫(kù)包括不大于500bp的短片段文庫(kù)和2Kb? l〇Kb的長(zhǎng)片段文庫(kù)。
[0021] 進(jìn)一步地,不大于500bp的短片段文庫(kù)包括180bp文庫(kù)和500bp文庫(kù)。
[0022] 進(jìn)一步地,2Kb?10Kb的長(zhǎng)片段文庫(kù)包括2Kbp、5Kbp和lOKbp文庫(kù);
[0023] 進(jìn)一步地,上述組裝方法在根據(jù)簡(jiǎn)化后的所述德布魯因圖,拼接得到高雜合基因 組的組裝序列的步驟中利用序列互補(bǔ)配對(duì)的關(guān)系進(jìn)行拼接,得到高雜合基因組的組裝序 列。
[0024] 應(yīng)用本發(fā)明的技術(shù)方案,通過(guò)引入生殖細(xì)胞單細(xì)胞測(cè)序技術(shù)來(lái)解決高雜合基因組 的組裝拼接問(wèn)題。通過(guò)將生殖細(xì)胞的單細(xì)胞基因組的序列信息與體細(xì)胞的基因組的序列信 息進(jìn)行比對(duì),找出雜合位點(diǎn)及其序列信息,并利用這些雜合位點(diǎn)的序列信息,在簡(jiǎn)化體細(xì)胞 測(cè)序數(shù)據(jù)構(gòu)建的德布魯因圖的時(shí)候進(jìn)行輔助組裝,解決了現(xiàn)有技術(shù)在組裝拼接中的雜合位 點(diǎn)難以簡(jiǎn)化的問(wèn)題,從而實(shí)現(xiàn)高雜合基因組的拼接組裝。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0025] 構(gòu)成本申請(qǐng)的一部分的說(shuō)明書(shū)附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示 意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0026] 圖1示出了本發(fā)明的生殖細(xì)胞的單細(xì)胞基因組DNA和二倍體細(xì)胞的基因組DNA建 庫(kù)和測(cè)序步驟;
[0027] 圖2示出了本發(fā)明的生殖細(xì)胞的單細(xì)胞基因組序列信息在輔助組裝中對(duì)雜合位 點(diǎn)進(jìn)行分離的過(guò)程;以及
[0028] 圖3示出了現(xiàn)有技術(shù)和本發(fā)明在高雜合基因組裝拼接中解決雜合位點(diǎn)時(shí)的兩種 不同方法。
【具體實(shí)施方式】
[0029] 需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相 互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0030] 為了解決現(xiàn)有技術(shù)無(wú)法對(duì)高雜合基因組的測(cè)序數(shù)據(jù)進(jìn)行組裝拼接的問(wèn)題,在本發(fā) 明一種典型的實(shí)施方式中,提供了一種高雜合基因組的組裝方法,上述組裝方法包括根據(jù) 待測(cè)物種的體細(xì)胞基因組序列信息構(gòu)建的布魯因圖的步驟、簡(jiǎn)化德布魯因圖的步驟以及根 據(jù)簡(jiǎn)化后的德布魯因圖,拼接得到高雜合基因組的組裝序列的步驟,簡(jiǎn)化上述德布魯因圖 的步驟包括以下步驟:對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測(cè)序;比對(duì)上述體細(xì)胞 基因組的序列信息與上述生殖細(xì)胞的單細(xì)胞基因組的序列信息,找到雜合位點(diǎn)的序列信 息;以及根據(jù)上述雜合位點(diǎn)的序列信息,簡(jiǎn)化上述德布魯因圖。
[0031] 相對(duì)于傳統(tǒng)的基因組測(cè)序數(shù)據(jù)的組裝方法,本發(fā)明的上述組裝方法主要是引入了 單細(xì)胞測(cè)序技術(shù),通過(guò)對(duì)生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測(cè)序,利用得到的生殖細(xì)胞的單細(xì) 胞的基因組序列信息與體細(xì)胞的基因組序列信息進(jìn)行比較,就能夠找出高雜合基因組中的 雜合位點(diǎn),并能區(qū)分包含這些雜合位點(diǎn)的序列的親本來(lái)源。根據(jù)這些雜合位點(diǎn)的序列的親 本來(lái)源信息,在簡(jiǎn)化根據(jù)體細(xì)胞的基因組序列信息構(gòu)建的德布魯因圖的時(shí)候,便能夠較方 便地選擇出合適的雜合位點(diǎn)的序列,然后拼接得到較長(zhǎng)的重疊群(contig),從而構(gòu)建出高 雜合基因組的組裝序列。
[0032] 在本發(fā)明的上述的組裝方法中,通過(guò)比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞的 單細(xì)胞基因組的序列信息,就能很直接、很方便地知道所得到的雜合位點(diǎn)的序列信息至少 包與兩個(gè)親本的生殖細(xì)胞中的基因序列來(lái)源一致的序列,還包括體細(xì)胞之間的個(gè)體差異所 帶來(lái)的雜合位點(diǎn)的序列信息。在本發(fā)明中,優(yōu)選所述雜合位點(diǎn)的序列信息包括:與上述測(cè)序 的生殖細(xì)胞的單細(xì)胞基因組的序列的親本來(lái)源一致的雜合位點(diǎn)的序列信息和與上述測(cè)序 的生殖細(xì)胞的單細(xì)胞基因組的序列的親本來(lái)源不一致的雜合位點(diǎn)的序列信息。
[0033] 在利用上述雜合位點(diǎn)的序列信息,進(jìn)行簡(jiǎn)化德布魯因圖的時(shí)候,便能夠根據(jù)上述 雜合位點(diǎn)的序列信息的不同親本來(lái)源,準(zhǔn)確地選擇相同親本來(lái)源的序列進(jìn)行組裝拼接。這 種組裝方法能夠組裝得到較長(zhǎng)的重疊群片段,而非常規(guī)的打斷處理得到短的重疊群片段。 在本發(fā)明一種優(yōu)選的實(shí)施例中,在簡(jiǎn)化上述德布魯因圖的步驟中,采用與上述生殖細(xì)胞的 單細(xì)胞基因組的序列信息的親本來(lái)源不一致的雜合位點(diǎn)的序列信息進(jìn)行組裝。
[0034] 由于基于Illumina測(cè)序平臺(tái)得到的序列中,每一個(gè)喊基都會(huì)有相應(yīng)的測(cè)序質(zhì)量 值。測(cè)序質(zhì)量值的高低體現(xiàn)了該堿基測(cè)序結(jié)果的可信度的高度。比如,質(zhì)量值為20代表錯(cuò) 誤率為1 %,質(zhì)量值為30代表錯(cuò)誤率為0. 1 %。測(cè)序質(zhì)量值越低,說(shuō)明該堿基測(cè)錯(cuò)的概率就 大,可信度就比較低。因此,在進(jìn)行序列比對(duì)或序列組裝之前,通常需要將這些測(cè)序得到的 原始數(shù)據(jù)進(jìn)行處理,從而過(guò)濾測(cè)序質(zhì)量值較低的序列,即低質(zhì)量序列以減少測(cè)序錯(cuò)誤對(duì)德 布魯因圖構(gòu)建的干擾。
[0035] 需要說(shuō)明的是,本發(fā)明中所提及的低質(zhì)量序列是指堿基質(zhì)量值在20以上的比例 低于85 %的序列。在本發(fā)明的上述比對(duì)體細(xì)胞基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組 的序列信息,找到雜合位點(diǎn)的序列信息的步驟之前,進(jìn)一步優(yōu)選還包括,分別對(duì)上述體細(xì)胞 基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組的序列信息進(jìn)行過(guò)濾低質(zhì)量序列的步驟。
[0036] 在本發(fā)明的上述過(guò)濾低質(zhì)量序列的步驟通過(guò)設(shè)置閾值進(jìn)行過(guò)濾。根據(jù)不同的測(cè)序 數(shù)據(jù)、測(cè)序數(shù)據(jù)的質(zhì)量高低以及對(duì)序列組裝要求的高低,通過(guò)設(shè)置不同的閾值對(duì)低質(zhì)量序 列進(jìn)行過(guò)濾。在本發(fā)明中,優(yōu)選對(duì)體細(xì)胞的基因組序列和生殖細(xì)胞單細(xì)胞的基因組序列進(jìn) 行相同閾值的過(guò)濾。通過(guò)設(shè)置相同的閾值進(jìn)行過(guò)濾,對(duì)過(guò)濾后剩余的序列的可信程度較一 致,利用這些可信程度一致的序列進(jìn)行對(duì)比,得到的雜合位點(diǎn)的序列信息的可信度也相應(yīng) 地比較高。相反,若對(duì)測(cè)序質(zhì)量高低不一致的體細(xì)胞基因組序列數(shù)據(jù)和生殖細(xì)胞單細(xì)胞基 因組序列數(shù)據(jù)進(jìn)行比較,得到的雜合位點(diǎn)的序列信息的可信程度就較低。
[0037] 在本發(fā)明的上述組裝方法中,對(duì)待測(cè)物種的生殖細(xì)胞單細(xì)胞基因組進(jìn)行測(cè)序的步 驟之前,進(jìn)一步包括構(gòu)建測(cè)序文庫(kù)的步驟,上述構(gòu)建測(cè)序文庫(kù)的步驟采取常規(guī)Illumina平 臺(tái)進(jìn)行建庫(kù)測(cè)序的步驟即可。在本發(fā)明中,優(yōu)選上述構(gòu)建測(cè)序文庫(kù)的步驟包括:提取上述待 測(cè)物種的生殖細(xì)胞的單細(xì)胞的基因組DNA;以及對(duì)上述待測(cè)物種的生殖細(xì)胞的單細(xì)胞的基 因組DNA進(jìn)行隨機(jī)地直接片段化,形成測(cè)序文庫(kù);其中,上述測(cè)序文庫(kù)為不大于500bp的短 片段文庫(kù)。
[0038] 相比組織樣本測(cè)序或材料多的樣本的測(cè)序,單細(xì)胞測(cè)序技術(shù)有其獨(dú)特的優(yōu)勢(shì),能 夠解決組織樣本或樣本少的時(shí)候測(cè)序所無(wú)法解決的細(xì)胞異質(zhì)性問(wèn)題的獨(dú)特優(yōu)勢(shì)。但由于單 細(xì)胞的基因組DNA的量相對(duì)組織樣本或材料多的樣本的基因組DNA的量要少得多,對(duì)于這 種量非常少的基因組DNA,在構(gòu)建基于Illumina平臺(tái)的測(cè)序文庫(kù)的時(shí)候,需要注意DNA污 染和DNA擴(kuò)增均一性差的問(wèn)題。在單倍體基因組中,尤其是擴(kuò)增均一性差的問(wèn)題,使得在現(xiàn) 階段利用單細(xì)胞測(cè)序技術(shù)得到的序列只能達(dá)到全基因組序列長(zhǎng)度的40%左右,無(wú)法單獨(dú)完 成全基因組的組裝拼接工作。但是,通過(guò)嚴(yán)格的質(zhì)量監(jiān)控和改進(jìn)的多重置換擴(kuò)增(MAD)技 術(shù)、多次退火循環(huán)擴(kuò)增(MALBAC)技術(shù)能夠在錨定橋接和預(yù)擴(kuò)增步驟中以較低的偏倚性進(jìn) 行DNA擴(kuò)增,從而實(shí)現(xiàn)對(duì)單細(xì)胞基因組進(jìn)行相對(duì)均一地?cái)U(kuò)增。
[0039] 本發(fā)明的上述生殖細(xì)胞的單細(xì)胞的基因組DNA測(cè)序文庫(kù)的構(gòu)建步驟,如圖1中所 示,在對(duì)待測(cè)生殖細(xì)胞的單細(xì)胞基因組DNA片段化后,形成150bp?500bp大小的短片段文 庫(kù)。將生殖細(xì)胞的單細(xì)胞構(gòu)建成150bp?500bp大小的短片段文庫(kù)的目的,是為了盡可能 把段片段的全長(zhǎng)測(cè)通,提高對(duì)短片段上每個(gè)堿基的測(cè)序準(zhǔn)確度,從而提高比對(duì)得到的體細(xì) 胞基因組序列信息中的雜合位點(diǎn)的準(zhǔn)確度。
[0040] 在本發(fā)明的上述生殖細(xì)胞的單細(xì)胞基因組的150bp?500bp大小的短片段文庫(kù)建 好后,上機(jī)測(cè)序之前進(jìn)行錨定橋接和預(yù)擴(kuò)增的步驟中,優(yōu)選采用MALBAC技術(shù)進(jìn)行預(yù)擴(kuò)增, 這種擴(kuò)增方式通過(guò)形成閉合環(huán)來(lái)抑制DNA片段被重復(fù)地復(fù)制,以保持DNA擴(kuò)增的均勻性,解 決了對(duì)單細(xì)胞基因組擴(kuò)增的強(qiáng)烈偏好性問(wèn)題,因而,這種擴(kuò)增方式對(duì)不同片段的擴(kuò)增均一 性更好,得到的測(cè)序數(shù)據(jù)的質(zhì)量相對(duì)更高。
[0041] 在本發(fā)明的上述組裝方法中,在具有上述的生殖細(xì)胞的單細(xì)胞基因組的序列信息 之后,利用生殖細(xì)胞的單細(xì)胞基因組的序列信息就能夠與體細(xì)胞的基因組序列信息進(jìn)行比 對(duì),找到體細(xì)胞基因組中的雜合位點(diǎn),并利用這些雜合位點(diǎn)的序列信息,就能夠進(jìn)行簡(jiǎn)化由 體細(xì)胞基因組序列信息構(gòu)建的德布魯因圖。而當(dāng)待測(cè)物種的體細(xì)胞的基因組序列信息完全 未知的情況下,在簡(jiǎn)化上述德布魯因圖的步驟之前,還包括對(duì)上述待測(cè)物種的體細(xì)胞基因 組進(jìn)行測(cè)序的步驟。
[0042] 對(duì)本發(fā)明的上述待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè)序的步驟,利用常規(guī)的基因組測(cè) 序流程進(jìn)行即可。在本發(fā)明一種優(yōu)選的實(shí)施例中,上述對(duì)待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè) 序的步驟包括:提取的上述待測(cè)物種的體細(xì)胞的基因組DNA ;以及對(duì)上述待測(cè)物種的體細(xì) 胞基因組DNA進(jìn)行隨機(jī)地直接片段化和環(huán)化之后再進(jìn)行片段化,形成測(cè)序文庫(kù);其中,上述 測(cè)序文庫(kù)包括不大于500bp的短片段文庫(kù)和2Kb?10Kb的長(zhǎng)片段文庫(kù)。
[0043] 本領(lǐng)域技術(shù)人員清楚的是,在基于Illumina平臺(tái)的全基因組測(cè)序文庫(kù)構(gòu)建中,通 常構(gòu)建帶有不同插入片段大小的文庫(kù),然后通過(guò)不同長(zhǎng)度的插入片段之間的重疊序列進(jìn)行 拼接。在本發(fā)明構(gòu)建不大于500bp的短片段文庫(kù)和2Kb?10Kb的長(zhǎng)片段文庫(kù)的目的也在 于此,用于輔助拼接組裝。
[0044] 不大于 500bp 短片段文庫(kù)通常包括 50bp、100bp、150bp、180bp、200bp、300bp 和 500bp。在本發(fā)明的上述體細(xì)胞的基因組DNA測(cè)序文庫(kù)中,優(yōu)選構(gòu)建180bp和500bp的測(cè)序 文庫(kù)。Illumina平臺(tái)的雙端測(cè)序(Paired-End)能夠測(cè)通的相對(duì)較長(zhǎng)的片段在200bp左右, 構(gòu)建180bp的短片段文庫(kù)能夠得到短片段的全長(zhǎng)序列。直接利用全長(zhǎng)的短序列片段之間的 重疊序列部分就能形成片段相對(duì)較長(zhǎng)的片段(即重疊群contig)。雙端測(cè)序時(shí)能夠測(cè)得兩 端各接近l〇〇bp的序列長(zhǎng)度,對(duì)長(zhǎng)度在500bp左右的片段來(lái)講,能夠利用不同片段的末端序 列之間的重疊部分進(jìn)行拼接,同樣得到相對(duì)更長(zhǎng)的片段(即scaffold)。
[0045] 在本發(fā)明的上述2Kb?10Kb的長(zhǎng)片段文庫(kù)中,優(yōu)選包括2Kbp、5Kbp和lOKbp文 庫(kù)。通過(guò)將體細(xì)胞的基因組隨機(jī)打斷成大小范圍在2Kbp、5Kbp和lOKbp的大片段文庫(kù),然 后通過(guò)對(duì)大片段的兩端進(jìn)行測(cè)序(Paired-End),得到關(guān)于上述2Kbp、5Kbp和lOKbp的大片 段的兩端的序列信息,這些大片段兩端的序列信息有利于后續(xù)大片段之間的拼接。其中,上 述大片段文庫(kù)的構(gòu)建步驟,如圖1所示:將體細(xì)胞的基因組隨機(jī)打斷成2Kbp、5Kbp和lOKbp 大小的片段,然后對(duì)大片段進(jìn)行末端修復(fù),生物素標(biāo)記片段后對(duì)片段進(jìn)行環(huán)化,然后再對(duì)環(huán) 化的片段進(jìn)行二次打斷,選擇其中帶有生物素標(biāo)記的片段進(jìn)行末端修復(fù)、連接頭后進(jìn)行PCR 擴(kuò)增。這樣便能夠得到大片段文庫(kù)兩端的序列信息,這些信息有助于將大片段序列拼接成 更大的片段(即框架scaffold)。
[0046] 上述組裝方法在根據(jù)簡(jiǎn)化后的所述德布魯因圖,拼接得到高雜合基因組的組裝序 列的步驟中利用序列互補(bǔ)配對(duì)的關(guān)系進(jìn)行拼接,得到高雜合基因組的組裝序列。
[0047] 下面結(jié)合具體的實(shí)施例來(lái)進(jìn)一步說(shuō)明本發(fā)明的有益效果。
[0048] 首先要說(shuō)明的是,下列實(shí)施例中的高雜合二倍體基因組由兩條大腸桿菌完整的 基因組序列的組合來(lái)模擬,單倍體基因組以單條大腸桿菌的基因組序列來(lái)模擬;其中這兩 條大腸桿菌分別為DH1 (ME8569)菌株和026:Hllstr. 11368菌株的大腸桿菌,大小分別為 4621430bp和5697240bp ;這兩條大腸桿菌為單倍體時(shí)的雜合度均為0,當(dāng)將它們混合在一 起模擬大腸桿菌的二倍體基因組時(shí),這個(gè)二倍體的雜合度高達(dá)1. 47%;以其中DH1 (ME8569) 菌株的大腸桿菌來(lái)模擬單倍體基因組。
[0049] 樣品準(zhǔn)備。如圖1,單獨(dú)提取二倍體體細(xì)胞的基因組DNA和單倍體生殖細(xì)胞的DNA。
[0050] 測(cè)序文庫(kù)構(gòu)建。如圖1,首先利用二倍體體細(xì)胞的基因組DNA,構(gòu)建從180bp、 500bp、2Kbp、5Kbp和lOKbp的不同梯度的插入片段大小的測(cè)序文庫(kù)。其中,180bp和500bp 的短片段測(cè)序文庫(kù)是將基因組DNA直接打斷成相應(yīng)大小的片段而成,而2Kbp、5Kbp和lOKbp 的測(cè)序文庫(kù)是將基因組DNA先進(jìn)行成2Kbp、5Kbp和lOKbp的片段后,再經(jīng)連接酶連接成環(huán) 狀(例如圖1中的環(huán)狀),然后再采用超聲破碎法進(jìn)行片段的打斷,打斷成平均400?600bp 的片段大小,最終完成文庫(kù)的構(gòu)建。而大片段文庫(kù)的序列方向相對(duì)于小片段是相反的,如圖 1中的箭頭所示。而單倍體生殖細(xì)胞的DNA只需要構(gòu)建一個(gè)小片段文庫(kù),如圖1中的左方顯 /_J、1 〇
[0051] 錨定橋接和預(yù)擴(kuò)增。在二倍體體細(xì)胞的基因組DNA利用HiSeq2000進(jìn)行測(cè)序之前, 先將上一個(gè)步驟得到的DNA片段經(jīng)過(guò)變性成單鏈后,固定在測(cè)序通道上的接頭引物而且結(jié) 合形成橋狀結(jié)構(gòu),再被擴(kuò)增成雙鏈橋型片段,在變性過(guò)程中釋放出互補(bǔ)的單鏈會(huì)被錨定到 附件的固相表面,數(shù)次循環(huán)之后,會(huì)在固相表面形成上百萬(wàn)條成簇分布的雙鏈待測(cè)片段。而 單倍體生殖細(xì)胞的基因組DNA會(huì)通過(guò)形成閉合環(huán)來(lái)抑制DNA片段被重復(fù)地復(fù)制,以保持DNA 擴(kuò)增的均勻性,解決了對(duì)單細(xì)胞基因組擴(kuò)增的強(qiáng)烈偏好性問(wèn)題。然后再經(jīng)過(guò)錨定和擴(kuò)增,跟 二倍體體細(xì)胞的基因組DNA -樣在固相表面形成上百萬(wàn)成簇分布的雙鏈的待測(cè)片段。
[0052] 測(cè)序。在固相表面的每一個(gè)測(cè)序簇延伸互補(bǔ)鏈的時(shí),每次加入一個(gè)被熒光標(biāo)記的 dNTP(脫氧三磷酸核苷酸)會(huì)發(fā)射出不同的熒光,Illumina測(cè)序儀通過(guò)接受這些熒光信號(hào) 和將其用計(jì)算機(jī)軟件處理后,就能準(zhǔn)確地獲得待測(cè)片段的序列信息。經(jīng)過(guò)上述的處理,就可 以的到二倍體體細(xì)胞的基因組DNA和單倍體生殖細(xì)胞的基因組DNA序列信息。
[0053] 數(shù)據(jù)處理。Illumina測(cè)序得到的序列的每一個(gè)堿基都會(huì)有相應(yīng)的測(cè)序質(zhì)量,測(cè)序 質(zhì)量低,說(shuō)明該堿基測(cè)錯(cuò)的概率就大。因此會(huì)在基因組裝之前將這些原始數(shù)據(jù)處理,通過(guò)設(shè) 置不同的閾值過(guò)濾質(zhì)量較低的序列。在進(jìn)行基因組組裝之前,對(duì)二倍體體細(xì)胞的基因組DNA 和單倍體生殖細(xì)胞的基因組DNA序列進(jìn)行相同閾值的過(guò)濾,即均對(duì)質(zhì)量值在20以上且比例 低于85%的序列進(jìn)行過(guò)濾。
[0054] 生殖細(xì)胞的單細(xì)胞測(cè)序輔助基因組組裝。首先,如圖2,用Kmer是指將一條序列 (reads)連續(xù)切割,沿堿基序列滑動(dòng)單個(gè)堿基得到一條堿基數(shù)為K的核苷酸序列。其中橫 坐標(biāo)Kmer的深度是指Kmer在所有某一個(gè)Kmer在reads中出現(xiàn)的次數(shù);Kmer的個(gè)數(shù)是指 在同樣深度的Kmer在所有reads中出現(xiàn)的次數(shù),其中A部分顯示的是二倍體基因組測(cè)序數(shù) 據(jù);通過(guò)與B部分中單倍體生殖細(xì)胞的基因組DNA的測(cè)序數(shù)據(jù)進(jìn)行比對(duì),得到二倍體基因組 DNA序列與單倍體生殖細(xì)胞DNA序列之間的雜合位點(diǎn)(即圖2中的D部分),和將該部分雜 合位點(diǎn)分離過(guò)濾后的二倍體基因組序列數(shù)據(jù),(即圖2中的C部分)。
[0055] 其次,將通過(guò)低質(zhì)量序列過(guò)濾后的二倍體測(cè)序的序列輸入到S0APdenovo2,參考其 他已經(jīng)發(fā)表的針對(duì)二代測(cè)序的組裝軟件SOAPdenovo將序列打斷及合并處理,通過(guò)序列相 似性,構(gòu)建出德布魯因圖結(jié)構(gòu)。如圖3,在簡(jiǎn)化德布魯因圖的時(shí)候引入上述提取的雜合位點(diǎn) 信息,在遇到雜合位點(diǎn)的分叉圖路上只選取其中與上述單倍體生殖細(xì)胞中的序列不一致的 一套進(jìn)行組裝,假設(shè)序列B和D為單倍體生殖細(xì)胞來(lái)源的序列,則選擇二倍體基因組中的A 和C序列來(lái)進(jìn)行組裝,即通過(guò)A-E-C通路(如圖3中的右下方)得到1條長(zhǎng)的序列片段,而 不是按照傳統(tǒng)的方法在分叉的圖路上進(jìn)行打斷(如圖3中的左下方),得到5條短的序列片 段,從而解決雜合組裝問(wèn)題,再利用序列之間的配對(duì)關(guān)系構(gòu)建出雜合基因組的組裝序列結(jié) 果。
[0056] 本發(fā)明經(jīng)上述模擬數(shù)據(jù)測(cè)試,對(duì)于雜合率在百分之一的基因組,采用常規(guī)的方法 進(jìn)行組裝拼接,組裝中最關(guān)鍵的指標(biāo)contig N50(重疊群)只有551bp,scaffold N50為 71,511,而采用本發(fā)明的生殖細(xì)胞單細(xì)胞測(cè)序輔助組裝的方法,其contig N50可以達(dá)到 1761bp,另外 scaffoldN50 達(dá)到 221,503bp。
[0057] 從以上的描述中,可以看出,本發(fā)明上述的實(shí)施例實(shí)現(xiàn)了如下技術(shù)效果:本發(fā)明首 次將生殖細(xì)胞的單細(xì)胞擴(kuò)增技術(shù)和單細(xì)胞測(cè)序技術(shù)與體細(xì)胞的常規(guī)二代測(cè)序技術(shù)結(jié)合在 一起,通過(guò)二倍體體細(xì)胞的基因組DNA和單倍體生殖細(xì)胞的基因組DNA的測(cè)序差異,準(zhǔn)確找 到屬于體細(xì)胞基因組的雜合位點(diǎn)信息,從而解決了常規(guī)的方法不能準(zhǔn)確定位基因組的雜合 位點(diǎn)信息的難題;其次,相比常規(guī)的二代測(cè)序組裝拼接方法,在分叉的雜合位點(diǎn)只能選取打 斷序列的方法,從而導(dǎo)致序列過(guò)短而無(wú)法組裝的缺陷,本發(fā)明能利用辨認(rèn)的雜合位點(diǎn)信息 準(zhǔn)確簡(jiǎn)化雜合位點(diǎn)的分叉路,從而避免將序列打斷,從而能夠?qū)崿F(xiàn)雜合基因組的組裝。
[0058] 以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技 術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1. 一種高雜合基因組的組裝方法,所述組裝方法包括根據(jù)待測(cè)物種的體細(xì)胞基因組序 列信息構(gòu)建德布魯因圖的步驟、簡(jiǎn)化所述德布魯因圖以及根據(jù)簡(jiǎn)化后的所述德布魯因圖, 拼接得到高雜合基因組的組裝序列的步驟,其特征在于,簡(jiǎn)化所述德布魯因圖的步驟包括 以下步驟: 對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測(cè)序; 比對(duì)所述體細(xì)胞基因組的序列信息與所述生殖細(xì)胞的單細(xì)胞基因組的序列信息,找到 所述體細(xì)胞基因組序列中的雜合位點(diǎn)的序列信息;以及 根據(jù)所述雜合位點(diǎn)的序列信息,簡(jiǎn)化所述德布魯因圖。
2. 根據(jù)權(quán)利要求1所述的組裝方法,其特征在于,所述雜合位點(diǎn)的序列信息包括與所 述生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源一致的雜合位點(diǎn)的序列信息和與所述 生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源不一致的雜合位點(diǎn)的序列信息。
3. 根據(jù)權(quán)利要求2所述的組裝方法,其特征在于,根據(jù)所述雜合位點(diǎn)的序列信息,簡(jiǎn)化 所述德布魯因圖的步驟中,采用與所述生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來(lái)源不 一致的雜合位點(diǎn)的序列信息進(jìn)行組裝。
4. 根據(jù)權(quán)利要求1所述的組裝方法,其特征在于,在所述比對(duì)體細(xì)胞基因組的序列信 息與生殖細(xì)胞單細(xì)胞基因組的序列信息,找到雜合位點(diǎn)的序列信息的步驟之前,進(jìn)一步還 包括,分別對(duì)所述體細(xì)胞基因組的序列信息與生殖細(xì)胞的單細(xì)胞基因組的序列信息進(jìn)行過(guò) 濾低質(zhì)量序列的步驟。
5. 根據(jù)權(quán)利要求4所述的組裝方法,其特征在于,所述過(guò)濾低質(zhì)量序列的步驟通過(guò)設(shè) 置閾值進(jìn)行過(guò)濾。
6. 根據(jù)權(quán)利要求5所述的組裝方法,其特征在于,對(duì)所述體細(xì)胞基因組序列信息和所 述生殖細(xì)胞單細(xì)胞基因組序列信息通過(guò)設(shè)置相同的閾值進(jìn)行過(guò)濾低質(zhì)量序列。
7. 根據(jù)權(quán)利要求1所述的組裝方法,其特征在于,對(duì)待測(cè)物種的生殖細(xì)胞的單細(xì)胞基 因組進(jìn)行測(cè)序的步驟之前,進(jìn)一步包括構(gòu)建測(cè)序文庫(kù)的步驟,所述構(gòu)建測(cè)序文庫(kù)的步驟包 括: 提取所述待測(cè)物種的生殖細(xì)胞的單細(xì)胞的基因組DNA ;以及 對(duì)所述待測(cè)物種的生殖細(xì)胞的單細(xì)胞的基因組DNA進(jìn)行直接片段化,形成測(cè)序文庫(kù); 其中,所述測(cè)序文庫(kù)為不大于500bp的短片段文庫(kù)。
8. 根據(jù)權(quán)利要求1所述的組裝方法,其特征在于,所述組裝方法在簡(jiǎn)化所述德布魯因 圖的步驟之前,還包括對(duì)所述待測(cè)物種的體細(xì)胞基因組進(jìn)行測(cè)序的步驟;對(duì)所述待測(cè)物種 的體細(xì)胞基因組進(jìn)行測(cè)序的步驟包括: 提取所述待測(cè)物種的體細(xì)胞的基因組DNA ;以及 對(duì)所述待測(cè)物種的體細(xì)胞基因組DNA進(jìn)行直接片段化和環(huán)化之后再進(jìn)行片段化,形成 測(cè)序文庫(kù); 其中,所述測(cè)序文庫(kù)包括不大于500bp的短片段文庫(kù)和2Kb?10Kb的長(zhǎng)片段文庫(kù)。
9. 根據(jù)權(quán)利要求7或8所述的組裝方法,其特征在于,所述不大于500bp的短片段文庫(kù) 包括180bp文庫(kù)和500bp文庫(kù)。
10. 根據(jù)權(quán)利要求8所述的組裝方法,其特征在于,所述2Kb?10Kb的長(zhǎng)片段文庫(kù)包括 2Kbp、5Kbp 和 lOKbp 文庫(kù)。
11.根據(jù)權(quán)利要求1所述的組裝方法,其特征在于,所述組裝方法在根據(jù)簡(jiǎn)化后的所述 德布魯因圖,拼接得到高雜合基因組的組裝序列的步驟中利用序列互補(bǔ)配對(duì)的關(guān)系進(jìn)行拼 接,得到高雜合基因組的組裝序列。
【文檔編號(hào)】G06F19/20GK104091097SQ201410342295
【公開(kāi)日】2014年10月8日 申請(qǐng)日期:2014年7月17日 優(yōu)先權(quán)日:2014年7月17日
【發(fā)明者】張錦波, 江文愷, 李季, 孫小慶, 張曉杰, 唐新春 申請(qǐng)人:北京諾禾致源生物信息科技有限公司