本發(fā)明屬于生物信息學范疇,涉及基因組拼接領域,尤其涉及一種高效的針對于放線菌基因組拼接的方法。
背景技術:
:放線菌為原核生物中的一個類群,屬于革蘭氏陽性細菌,因其菌落呈放射狀而得名。放線菌大部分是腐生菌,普遍分布于土壤中,一般都是好氣性,有少數是和某些植物共生的,也有是寄生菌,可致病,寄生菌一般是厭氣菌。放線菌有一種土霉味,使水和食物變味,有的放線菌也能和霉菌一樣使棉毛制品或紙張霉變。放線菌主要能促使土壤中的動物和植物遺骸腐爛。放線菌中也有致病菌,如牛放線菌,在口頰、齒齦等部位發(fā)生損傷時能侵入組織內,引起放線菌病。最主要的致病放線菌是結核分枝桿菌和麻風分枝桿菌,可導致人類的結核病和麻風病。放線菌最重要的作用是可以產生、提煉抗菌素,目前世界上已經發(fā)現的2000多中抗菌素中,大約有56%是由放線菌(主要是放線菌屬)產生的,如鏈霉素、土霉素、四環(huán)素、慶大霉素等都是由放線菌產生的。此外有些植物用的農用抗菌素和維生素等也是由放線菌中提煉的。放線菌在甾體的轉化、石油的脫蠟、污水的處理等方面也有廣泛的用途,在自然界的氮素循環(huán)中也起著一定的作用。目前通過分子生物學方法,放線菌的地位被肯定為廣義細菌的一個大分支。放線菌用革蘭氏染色可染成紫色(陽性),和另一類革蘭氏陽性菌——厚壁菌門相比,放線菌的GC含量較高,可至70%。放線菌基因組的研究有利于在基因層面揭示其生理生化特征及代謝規(guī)律,無論在疾病防治還是代謝產物改造等方面有著重要的生物學意義。目前常用的第二代高通量測序平臺,如IlluminaHiseq或者Miseq,采用邊合成邊測序的方式,測序中引入有PCR過程,獲得的是基因簇的整體熒光信號,因而單堿基準確率較高(99%以上),但其易受序列GC和AT含量的影響,GC含量太高或太低都無法獲得較好的測序結果,對后續(xù)基因組拼接產生不利影響,且讀長較短,一般為幾百bp。鑒于放線菌基因組中較高的GC含量,僅僅采用二代測序平臺是無法獲得較好的拼接結果的。第三代測序又稱為單分子測序技術,以PacBioRSⅡ平臺為例,其不同于第二代測序得到整體信號的測序方式,不涉及PCR擴增過程,無堿基偏好性,且讀長更長,有利于跨過高GC區(qū)域以及重復區(qū)域,但其單堿基準確率不高,為90%左右。如何利用現有測序手段,發(fā)揮各平臺的優(yōu)勢以獲得完整的放線菌基因組拼接結果是我們需要解決的問題。技術實現要素:鑒于上述現有技術的不足,本發(fā)明提供一種高效的針對于放線菌基因組拼接的方法,旨在解決如何得到較為完整的放線菌基因組拼接結果的問題。本發(fā)明所采用的技術方案如下:一種高效的針對于放線菌基因組拼接的方法,其中包括步驟:步驟A、采用第三代測序平臺對放線菌進行建庫測序;步驟B、采用第二代測序平臺對放線菌進行建庫測序;步驟C、對第三代測序平臺的下機數據進行拼接;步驟D、對第二代測序平臺的下機數據進行拼接;步驟E、對兩個平臺的拼接結果進行共線性分析以得到各序列之間的連接關系,依賴該連接關系對序列進行連接;步驟F、利用第二代測序平臺下機數據對連接結果進行校正。在本發(fā)明的一個優(yōu)選實施例中,所述步驟A中,所述第三代測序平臺為PacBioRSⅡ。在本發(fā)明的一個優(yōu)選實施例中,所述步驟B中,所述第二代測序平臺為IlluminaMiSeq。在本發(fā)明的一個優(yōu)選實施例中,所述步驟C中,所述拼接軟件為SMRTAnalysis。在本發(fā)明的一個優(yōu)選實施例中,所述步驟D中,所述拼接軟件為Newbler。在本發(fā)明的一個優(yōu)選實施例中,所述步驟E中,共線性分析軟件為MUMMER。在本發(fā)明的一個優(yōu)選實施例中,所述步驟F中,所述序列校正軟件為pilon。本發(fā)明通過結合第三代測序和第二代測序的優(yōu)勢,得到了較完整的放線菌基因組拼接結果,為揭示其生理生化特征及代謝規(guī)律提供基因組學基礎。附圖說明圖1MUMmer分析比對結果示意圖。具體實施方式為使本發(fā)明的目的、技術方案及效果更加清楚、明確,以下對本發(fā)明進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明提供的一種高效的針對于放線菌基因組拼接的方法,其中包括步驟:步驟A、采用第三代測序平臺對放線菌進行建庫測序;步驟B、采用第二代測序平臺對放線菌進行建庫測序;步驟C、對第三代測序平臺的下機數據進行拼接;步驟D、對第二代測序平臺的下機數據進行拼接;步驟E、對兩個平臺的拼接結果進行共線性分析以得到各序列之間的連接關系,依賴該連接關系對序列進行連接;通過上述技術方案,本發(fā)明可成功地完成放線菌基因組完成圖的拼接,為后續(xù)注釋以及生理生化實驗提供基因組方面的參考。步驟A中,第三代測序平臺為PacBioRSⅡ。第三代測序技術又稱作單分子實時測序技術,目前提供第三代測序的廠商包括PacificBiosciences和OxfordNanoporeTechnologies;PacificBiosciences的測序平臺是通過對脫氧核糖核酸標記上不同的熒光,利用ZMW(零模波導孔)技術對DNA序列合成過程中釋放的熒光信號進行檢測;OxfordNanoporeTechnologies則是利用DNA單鏈通過nanopore時產生的電流信號來進行堿基檢測;PacBio平臺同Nanopore平臺相比發(fā)展更為成熟、下機數量大、堿基錯誤率(~15%)較后者低(~40%),適用于較大型基因組的拼接;PacBio目前所有的測序平臺包括RSⅡ和Sequel,雖然Sequel的通量更大,但RSII平臺更穩(wěn)定,測序讀長較有保證,其通量對于放線菌這類物種的基因組是夠用的。步驟B中,第二代測序平臺為IlluminaMiSeq;第二代測序平臺以Illumina公司的平臺為例,其采用邊合成邊測序的方式,通過獲得熒光的整體信號來進行堿基檢測,Illumina平臺包括MiniSeq、MiSeq、NextSeq、HiSeq、HiSeqX等;MiSeq平臺雖然數據通量較HiSeq小,但其讀長更長,對拼接更有利,且其通量對一般的放線菌也夠用。步驟C中,拼接軟件為SMRTAnalysis;SMRTAnalysis為PacBio開發(fā)的一套針對其平臺下機數據分析的一套流程,SMRTAnalysis中的HGAP模塊可對RSⅡ平臺的數據進行高效拼接。步驟D中,所述拼接軟件為Newbler;Newbler軟件最先是針對于二代測序中454平臺長序列的拼接軟件,其也可以用于MiSeq平臺中長讀長模式下機數據的拼接。步驟E中,共線性分析軟件為MUMMer;MUMmer為一套用于快速進行全基因組比對的系統(tǒng)。步驟F中,所述序列校正軟件為pilon。Pilon為一套自動化工具用于校正拼接結果。下面通過具體的實施例對本發(fā)明進行詳細描述。實施例實驗材料一株參考基因組大小為7M的鏈霉菌(放線菌的一種)。(1)第三代測序平臺PacBioRSⅡ對放線菌進行建庫測序,文庫插入片段大小為10K,讀長模式為標準模式。(2)第二代測序平臺IlluminaMiseq對放線菌進行建庫測序,文庫插入片段大小為400bp,測序讀長模式為251bp。(3)對PacbioRSⅡ平臺下機數據進行拼接,使用軟件為HGAP.3(SMRTAnalysis2.3.0)。(4)對IlluminaMiSeq平臺下機數據進行拼接,使用軟件為Newbler(version2.7)。(5)對兩個平臺的拼接結果進行MUMmer(release3.23)分析以得到各條序列之間的連接關系,依賴該連接關系對序列進行連接。(6)利用IlluminaMiseq平臺下機數據對連接結果進行校正,得到最終的拼接結果,使用軟件為pilon(release1.18)。結果表明:(1)第三代測序平臺拼接結果為表1。表1第三代測序平臺拼接結果總序列數21總序列長度(bp)6,935,317GC百分含量73.07大于1kb序列的數量21最短序列的長度(bp)5,705最長序列的長度(bp)2,289,430N20(bp)2,289,430N50(bp)1,484,282N90(bp)127,458(2)第二代測序平臺拼接結果為表2。表2第二代測序平臺拼接結果總序列數41總序列長度(bp)6,863,375GC百分含量73.16大于1kb序列的數量41最短序列的長度(bp)1,471最長序列的長度(bp)1,307,648N20(bp)700,306N50(bp)401,539N90(bp)124,790(3)MUMmer分析以第三代測序數據的拼接結果為參考,對第二代測序數據的拼接結果進行比對,分析結果見圖1;根據該結果確定各系列之間的相對關系,對序列進行連接。(4)利用IlluminaMiseq平臺下機數據對連接結果進行校正,得到最終的拼接結果,使用軟件為pilon(release1.18),最后得到一條長度為6,749,732bp的序列。綜上所述,本發(fā)明提供的一種綜合利用各測序平臺的優(yōu)勢得到完整的放線菌基因組的流程。當前第1頁1 2 3