本發(fā)明涉及一種基于轉(zhuǎn)錄組測(cè)序開(kāi)發(fā)劍麻ssr標(biāo)記引物的方法,屬于分子生物學(xué)技術(shù)領(lǐng)域。
背景技術(shù):
劍麻屬龍舌蘭屬多年生草本植物,原產(chǎn)于墨西哥等熱帶、亞熱帶地區(qū),我國(guó)保存的種質(zhì)資源嚴(yán)重缺乏,僅有100余份?,F(xiàn)有的種質(zhì)資源主要是通過(guò)麻園選育、雜交和引種獲得,遺傳背景模糊,命名極不規(guī)范,給種質(zhì)資源的保存和應(yīng)用以及育種工作帶來(lái)了極大的不便。因此需要一種快速有效的方法對(duì)現(xiàn)有的種質(zhì)資源進(jìn)行遺傳多樣性分析和資源鑒定。
微衛(wèi)星dna(microsatellitedna)又稱(chēng)簡(jiǎn)單重復(fù)序列(simplesequencerepeat,ssr)是由1-6個(gè)核苷酸為重復(fù)單位串聯(lián)而成的長(zhǎng)達(dá)幾十個(gè)核苷酸的重復(fù)序列。其側(cè)翼通常都是保守性高的單拷貝序列,因此可根據(jù)側(cè)翼序列設(shè)計(jì)引物進(jìn)行pcr擴(kuò)增,由于重復(fù)片段大小或重復(fù)次數(shù)的差異,顯示微衛(wèi)星位點(diǎn)的多態(tài)性。與其它分子標(biāo)記相比,ssr標(biāo)記具有多態(tài)性高、共顯性遺傳、技術(shù)簡(jiǎn)單、重復(fù)性好,特異性強(qiáng)以及操作便利等優(yōu)點(diǎn),廣泛應(yīng)用于遺傳多樣性分析、種質(zhì)資源鑒定以及遺傳圖譜構(gòu)建等領(lǐng)域。但對(duì)于ssr標(biāo)記的應(yīng)用前提是,必須首先要從該物種中獲取重復(fù)序列兩側(cè)的序列信息,并設(shè)計(jì)引物,而后才能被應(yīng)用。
ssr標(biāo)記可分為基因組ssr(gssr)和表達(dá)序列標(biāo)簽ssr(est-ssr),與gssr標(biāo)記相比,通過(guò)表達(dá)序列標(biāo)簽(expressedsequencetag,est)序列開(kāi)發(fā)ssr標(biāo)記更經(jīng)濟(jì),效率更高,而且在不同屬內(nèi)的通用性更好。隨著分子生物學(xué)和測(cè)序技術(shù)的快速發(fā)展,est序列數(shù)據(jù)急劇增加,加上生物信息學(xué)的飛速發(fā)展使得大批量數(shù)據(jù)處理成為可能,因此給ssr標(biāo)記的開(kāi)發(fā)提供了大量的序列信息資源和技術(shù)支持。并且est-ssr標(biāo)記是基于某一時(shí)期的表達(dá)標(biāo)簽序列,能直接與功能基因相關(guān),在分子標(biāo)記輔助育種如重要性狀相關(guān)標(biāo)記關(guān)聯(lián)分析、分離和新基因的鑒定等方面均有極高的應(yīng)用價(jià)值。
目前劍麻的全基因組信息未知,ssr標(biāo)記缺乏,劍麻ssr標(biāo)記引物未見(jiàn)報(bào)道。隨著高通量測(cè)序技術(shù)和生物信息學(xué)的飛速發(fā)展,對(duì)于無(wú)參考基因組的轉(zhuǎn)錄組分析,技術(shù)非常成熟。因此,利用某一發(fā)育時(shí)期或逆境脅迫下的劍麻為材料,開(kāi)展劍麻轉(zhuǎn)錄組研究成為可能,這不僅可以挖掘劍麻自身的功能基因,同時(shí)對(duì)解決劍麻種質(zhì)資源背景模糊,ssr標(biāo)記缺乏等實(shí)際問(wèn)題具有十分重要的現(xiàn)實(shí)意義。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于轉(zhuǎn)錄組測(cè)序開(kāi)發(fā)劍麻ssr標(biāo)記引物的方法,通過(guò)轉(zhuǎn)錄組測(cè)序的方法,獲得劍麻某一特定時(shí)期的轉(zhuǎn)錄組序列,然后通過(guò)生物信息學(xué)分析軟件開(kāi)發(fā)劍麻ssr標(biāo)記,為后續(xù)利用ssr標(biāo)記引物進(jìn)行劍麻遺傳多樣性研究、種質(zhì)資源的鑒定提供可靠的技術(shù)手段。
為實(shí)現(xiàn)上述目的,本方法采用的技術(shù)方案是:
一種基于轉(zhuǎn)錄組測(cè)序開(kāi)發(fā)劍麻ssr標(biāo)記引物的方法,包括如下步驟:
(1)totalrna的提取與轉(zhuǎn)錄組文庫(kù)的構(gòu)建
采用trizol裂解法提取劍麻葉片總rna,用帶有oligo(dt)的磁珠富集mrna,反轉(zhuǎn)錄并合成雙鏈cdna,經(jīng)qiaquickpcrpurificationkit純化后,在cdna末端添加腺嘌呤核苷進(jìn)行末端修復(fù)并連接測(cè)序接頭,然后用瓊脂糖凝膠電泳回收目標(biāo)片段,最后對(duì)回收片段進(jìn)行pcr擴(kuò)增,擴(kuò)增產(chǎn)物即為轉(zhuǎn)錄組文庫(kù);
(2)轉(zhuǎn)錄組測(cè)序及序列質(zhì)量分析
用illumina2500測(cè)序平臺(tái)進(jìn)行轉(zhuǎn)錄組測(cè)序,所得原始序列以fastaq格式保存;由于原始序列含有低質(zhì)量的序列,在進(jìn)行數(shù)據(jù)分析之前先對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)量分析和過(guò)濾。
(3)轉(zhuǎn)錄本組裝與ssr分析
利用trinity軟件將所得有效序列拼接成一個(gè)完整的轉(zhuǎn)錄組,作為后續(xù)分析的參考序列,取每條基因中最長(zhǎng)的轉(zhuǎn)錄本作為unigene,采用misa1.0軟件對(duì)每個(gè)unigene進(jìn)行簡(jiǎn)單序列重復(fù)(ssr)分析;
(4)ssr標(biāo)記引物設(shè)計(jì)、擴(kuò)增與檢測(cè)
采用引物設(shè)計(jì)軟件primer3進(jìn)行ssr引物設(shè)計(jì),從所設(shè)計(jì)的ssr引物中隨機(jī)選取100對(duì)引物,首先以熱麻1號(hào)基因組dna為模板,采用touch-downpcr程序進(jìn)行擴(kuò)增,擴(kuò)增產(chǎn)物經(jīng)3%瓊脂糖凝膠電泳,初步篩選有穩(wěn)定產(chǎn)物的ssr引物,然后以6份劍麻種質(zhì)dna為模板,采用touch-downpcr程序,對(duì)有穩(wěn)定產(chǎn)物的ssr引物進(jìn)行pcr擴(kuò)增,擴(kuò)增產(chǎn)物經(jīng)3%瓊脂糖凝膠電泳,進(jìn)一步篩選多態(tài)性的ssr標(biāo)記引物,檢測(cè)ssr標(biāo)記引物的有效性。
步驟(1)所述的接頭序列為seqidno.1-seqidno.2。
步驟(2)所述的低質(zhì)量序列是指不確定堿基n比例大于10%的序列和低質(zhì)量堿基含量大于50%的序列;低質(zhì)量堿基指q≤5的堿基。
步驟(4)所述的ssr標(biāo)記篩選參數(shù)為:?jiǎn)魏塑账岬闹貜?fù)次數(shù)大于或等于10次,二核苷酸重復(fù)次數(shù)大于或等于6次,三核苷酸、四核苷酸、五核苷酸、六核苷酸的重復(fù)次數(shù)大于或等于5次。
步驟(4)所述的ssr標(biāo)記引物設(shè)計(jì)參數(shù)為:引物長(zhǎng)度18-25bp,退火溫度tm56-65℃,預(yù)期產(chǎn)物長(zhǎng)度為100-300bp。
步驟(4)所述的touch-downpcr擴(kuò)增程序?yàn)椋菏紫?4℃15s,60℃15s,72℃30s,16個(gè)循環(huán),每個(gè)循環(huán)退火溫度降低0.7℃;然后進(jìn)入下一個(gè)擴(kuò)增階段:94℃15s,50℃15s,72℃30s,15個(gè)循環(huán),最后72℃延伸60min,擴(kuò)增產(chǎn)物4℃保存?zhèn)溆谩?/p>
步驟(4)所述的有多態(tài)性的18對(duì)ssr標(biāo)記引物組序列為seqidno.3-seqidno.38。
步驟(4)所述的6份劍麻種質(zhì)為熱麻1號(hào)、h.11648、番麻、普通劍麻、桂幅4號(hào)和廣西76416。
本發(fā)明的有益效果為:
(1)通過(guò)轉(zhuǎn)錄組測(cè)序的方法,獲得劍麻某一特定時(shí)期的轉(zhuǎn)錄組序列,然后通過(guò)生物信息學(xué)分析軟件開(kāi)發(fā)劍麻ssr標(biāo)記,開(kāi)發(fā)了一種基于轉(zhuǎn)錄組測(cè)序開(kāi)發(fā)劍麻ssr標(biāo)記引物的方法,開(kāi)發(fā)效率更高。
(2)本發(fā)明為劍麻ssr標(biāo)記開(kāi)發(fā)提供了一條新的有效途徑,填補(bǔ)了目前劍麻ssr標(biāo)記引物稀缺的空白。
附圖說(shuō)明
圖1劍麻ssr標(biāo)記引物開(kāi)發(fā)流程圖;
圖2瓊脂糖凝膠電泳檢測(cè)部分劍麻ssr標(biāo)記引物擴(kuò)增產(chǎn)物;
圖3劍麻ssr標(biāo)記引物多態(tài)性篩選。
具體實(shí)施方式
下面通過(guò)實(shí)例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明,這些實(shí)例僅用來(lái)說(shuō)明本發(fā)明,并不限制本發(fā)明的范圍。未加特殊說(shuō)明,轉(zhuǎn)錄組文庫(kù)構(gòu)建與測(cè)序均按標(biāo)準(zhǔn)流程進(jìn)行,所有試劑盒操作均按試劑盒說(shuō)明書(shū)進(jìn)行,所有的試劑均為生物試劑。
本發(fā)明所提供的18對(duì)ssr標(biāo)記引物組均來(lái)自熱麻1號(hào)轉(zhuǎn)錄組序列,其引物核酸序列分別為seqidno.3-seqidno.38。所用的植物材料為熱麻1號(hào),病原菌為煙草疫霉。
一.rna提取與轉(zhuǎn)錄組文庫(kù)構(gòu)建
取保存于本實(shí)驗(yàn)室的煙草疫霉接種于馬鈴薯培養(yǎng)基(pda)上,28℃培養(yǎng)1周后,接種熱麻1號(hào)葉片,取不同接種時(shí)間的熱麻1號(hào)葉片進(jìn)行轉(zhuǎn)錄組測(cè)序。具體步驟如下:
用滅菌的大頭針將葉片正面刺傷,取直徑為5mm的菌餅,將菌餅的菌絲生長(zhǎng)面貼在傷口的位置,用無(wú)菌濕棉花保濕,然后用保鮮膜包裹葉片,置于25-30℃條件下培養(yǎng),并分別在接種前、接種24小時(shí)、36小時(shí)、48小時(shí)和72小時(shí)取葉片,液氮速凍后保存于-80℃?zhèn)溆谩?/p>
采用trizol裂解法提取熱麻1號(hào)葉片總rna,具體操作按說(shuō)明書(shū)進(jìn)行。采用nanodrop-2000分光光度計(jì)和bioanalyzer2100生物分析儀對(duì)rna質(zhì)量進(jìn)行檢測(cè)。質(zhì)量合格的rna樣品將用于轉(zhuǎn)錄組文庫(kù)構(gòu)建。文庫(kù)構(gòu)建采用illumina公司的文庫(kù)構(gòu)建試劑盒進(jìn)行。首先用帶有oligo(dt)的磁珠富集mrna,并將mrna片段化并反轉(zhuǎn)錄成第一鏈cdna,然后合成雙鏈cdna,經(jīng)qiaquickpcrpurificationkit純化后,在cdna末端添加腺嘌呤核苷進(jìn)行末端修復(fù)并連接測(cè)序接頭,然后用瓊脂糖凝膠電泳回收目標(biāo)片段,最后對(duì)回收片段進(jìn)行pcr擴(kuò)增,擴(kuò)增產(chǎn)物即為轉(zhuǎn)錄組文庫(kù),將用于后續(xù)的轉(zhuǎn)錄組測(cè)序。
二.測(cè)序與轉(zhuǎn)錄組分析
采用illumina2500測(cè)序平臺(tái)進(jìn)行轉(zhuǎn)錄組測(cè)序,所得原始序列以fastaq格式保存。由于原始序列含有接頭污染和低質(zhì)量的序列,因此,為了防止這些序列對(duì)后續(xù)分析產(chǎn)生不利影響,在進(jìn)行序列分析前,先要去掉測(cè)序時(shí)的接頭序列,不確定堿基(n)比例大于10%的序列以及低質(zhì)量堿基(q≤5)含量大于50%的序列,所得序列即為有效的轉(zhuǎn)錄組序列,并用于后續(xù)的序列分析。
利用trinity(版本為v2012-06-08,參數(shù)為默認(rèn)參數(shù))軟件將所得有效序列拼接成一個(gè)完整的轉(zhuǎn)錄組,作為后續(xù)分析的參考序列,取每條基因中最長(zhǎng)的轉(zhuǎn)錄本作為unigene,熱麻1號(hào)總計(jì)獲得了103,326個(gè)轉(zhuǎn)錄本和70,110條unigene序列。轉(zhuǎn)錄本和unigene平均長(zhǎng)度分別為726bp和645bp。轉(zhuǎn)錄本和unigene具體數(shù)目分布如表1所示。
表1轉(zhuǎn)錄本和unigene拼接長(zhǎng)度頻數(shù)分布
三.ssr位點(diǎn)查找及引物設(shè)計(jì)
以熱麻1號(hào)70,110條unigene為材料,利用misa1.0軟件對(duì)unigene序列進(jìn)行ssr位點(diǎn)查找,查找含有1、2、3、4、5和6堿基重復(fù)的ssr位點(diǎn),且重復(fù)次數(shù)依次不小于10、6、5、5、5和5次??傆?jì)查找到了13,175個(gè)ssr位點(diǎn),ssr密度分布出現(xiàn)頻率最高的依次為單核苷酸重復(fù)、二核苷酸重復(fù)和三核苷酸重復(fù),分別為5001個(gè)、4339個(gè)和3676個(gè)。使用primer3.0軟件對(duì)ssr候選位點(diǎn)進(jìn)行引物設(shè)計(jì)。引物設(shè)計(jì)參數(shù)為,引物長(zhǎng)度18-26bp,gc含量40%-60%,退火溫度tm值55-65℃(上下游引物的tm值相差不能大于5℃);pcr目標(biāo)產(chǎn)物在100-300bp;盡量避免產(chǎn)生引物二聚體,發(fā)夾結(jié)構(gòu)、錯(cuò)配等??傆?jì)設(shè)計(jì)了11,946對(duì)ssr引物。其中長(zhǎng)度為20bp的引物最多,為10,270對(duì),占總引物的85.97%。
四.ssr標(biāo)記引物的有效性驗(yàn)證
從10,270對(duì)引物中隨機(jī)選取100對(duì)引物進(jìn)行pcr擴(kuò)增,篩選有穩(wěn)定產(chǎn)物條帶的ssr標(biāo)記引物,然后以6份劍麻種質(zhì)基因組dna為模板,對(duì)有穩(wěn)定產(chǎn)物的ssr標(biāo)記引物進(jìn)行擴(kuò)增,篩選有多態(tài)性的ssr標(biāo)記引物,檢測(cè)ssr標(biāo)記引物的有效性。引物由生工生物工程(上海)有限公司合成,引物序列見(jiàn)核苷酸序列表(序列分別如seqidno.3-42)。
序列說(shuō)明:sedidno.3-38為熱麻1號(hào)ssr標(biāo)記引物序列,其中sedidno.3和4為一對(duì)ssr引物,sedidno.5和6為一對(duì)ssr引物,依次類(lèi)推,18對(duì)引物的退火溫度和擴(kuò)增產(chǎn)物大小見(jiàn)表2。
表218對(duì)劍麻ssr引物的退火溫度和擴(kuò)增產(chǎn)物大小
1.dna提取
采用天澤公司的柱式植物dnaout試劑盒提取熱麻1號(hào)、h.11648、番麻、普通劍麻、桂幅4號(hào)和廣西76416等6份劍麻種質(zhì)的基因組dna。取葉片1克,經(jīng)液氮速凍后快速研磨成粉末,先加入750μl65℃預(yù)熱的裂解液,充分混勻后65℃預(yù)熱5-10分鐘,室溫13,000rpm離心5min,取上清液500μl分別進(jìn)行抽提、漂洗后過(guò)柱,最后用100μl洗脫液洗脫2次,洗脫液即為提取的dna,4℃保存?zhèn)溆谩?/p>
2.pcr反應(yīng)體系的建立
20μlpcr反應(yīng)體系中各組份的濃度及使用量:2×novataq-pluspcrforestmix(江蘇愚公生命科技有限公司):2μl;引物(10μmol/l)f:0.2μl,r:0.2μl;dna:50ng(1μl);滅菌ddh2o:8.6μl。novataq-pluspcrforestmix購(gòu)自江蘇愚公生命科技有限公司。
touch-downpcr擴(kuò)增程序:94℃(15s),60℃(15s)(△℃=-0.7,即每增加一個(gè)循環(huán),退火溫度降低0.7℃),72℃(30s)(16個(gè)循環(huán)),然后進(jìn)入下一個(gè)擴(kuò)增階段,94℃(15s),50℃(15s),72℃(30s)(15個(gè)循環(huán)),最后72℃(60min),擴(kuò)增產(chǎn)物4℃保存?zhèn)溆谩?/p>
3.pcr產(chǎn)物的檢測(cè)
采用3%瓊脂糖凝膠(100ml1xtbe緩沖液中加入3g瓊脂糖)電泳檢測(cè)pcr產(chǎn)物。將20μlpcr產(chǎn)物全部上樣,先150v電泳10min,然后120v電泳40min,電泳結(jié)果于凝膠成像系統(tǒng)拍照保存。
本發(fā)明采用touch-downpcr程序,從100對(duì)熱麻1號(hào)ssr標(biāo)記引物中,用瓊脂糖凝膠電泳篩選出了66對(duì)有穩(wěn)定產(chǎn)物條帶的ssr標(biāo)記引物(附圖2),然后用6份劍麻種質(zhì),從66對(duì)ssr標(biāo)記引物中,篩選出了18對(duì)有多態(tài)性的ssr標(biāo)記引物(附圖3),證實(shí)了通過(guò)轉(zhuǎn)錄組測(cè)序開(kāi)發(fā)劍麻ssr標(biāo)記引物是切實(shí)可行的。
序列表
<110>中國(guó)熱帶農(nóng)業(yè)科學(xué)院南亞熱帶作物研究所
<120>一種基于轉(zhuǎn)錄組測(cè)序開(kāi)發(fā)劍麻ssr引物的方法
<141>2017-07-14
<160>38
<170>siposequencelisting1.0
<210>1
<211>58
<212>dna
<213>人工序列
<400>1
aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatct58
<210>2
<211>57
<212>dna
<213>人工序列
<400>2
gatcggaagagcacacgtctgaactccagtcacatctcgtatgccgtcttctgcttg57
<210>3
<211>20
<212>dna
<213>人工序列
<400>3
tcgcgtgcaccaacaatttc20
<210>4
<211>20
<212>dna
<213>人工序列
<400>4
gtagcggatgtaggagacgc20
<210>5
<211>20
<212>dna
<213>人工序列
<400>5
tgcttcgactcctgcttctg20
<210>6
<211>20
<212>dna
<213>人工序列
<400>6
agtggtggccgtggaaatag20
<210>7
<211>20
<212>dna
<213>人工序列
<400>7
gtgtgtgtgtgtgtgttggg20
<210>8
<211>20
<212>dna
<213>人工序列
<400>8
ggccgaatcctttccactca20
<210>9
<211>20
<212>dna
<213>人工序列
<400>9
cgctcgtcctcttctttcgt20
<210>10
<211>23
<212>dna
<213>人工序列
<400>10
tcccatccaatagtccccca20
<210>11
<211>20
<212>dna
<213>人工序列
<400>11
ggtcatgatgaaggccacca20
<210>12
<211>20
<212>dna
<213>人工序列
<400>12
gcgaacctgcattgctgaat20
<210>13
<211>20
<212>dna
<213>人工序列
<400>13
ccttaggctccctgctgttc20
<210>14
<211>23
<212>dna
<213>人工序列
<400>14
ccacaagagccgctaccatc20
<210>15
<211>20
<212>dna
<213>人工序列
<400>15
aacaaccagagcccaaacca20
<210>16
<211>20
<212>dna
<213>人工序列
<400>16
ggggaggtggtttggtgatc20
<210>17
<211>20
<212>dna
<213>人工序列
<400>17
ggttagggttcttggtgggg20
<210>18
<211>20
<212>dna
<213>人工序列
<400>18
gcttcctgatcttcttgttggc22
<210>19
<211>20
<212>dna
<213>人工序列
<400>19
aaaatccatgaggcggctga20
<210>20
<211>20
<212>dna
<213>人工序列
<400>20
tagtagctaggcccaggcaa20
<210>21
<211>20
<212>dna
<213>人工序列
<400>21
acagcacgagaaatgagctca21
<210>22
<211>20
<212>dna
<213>人工序列
<400>22
ccgatccggcgtaattctct20
<210>23
<211>20
<212>dna
<213>人工序列
<400>23
gccttctcccacggaatcaa20
<210>24
<211>20
<212>dna
<213>人工序列
<400>24
tgtggagtgtgatgggagtg20
<210>25
<211>20
<212>dna
<213>人工序列
<400>25
tggagggtgatggatagggg20
<210>26
<211>20
<212>dna
<213>人工序列
<400>26
gatgaggccatcgttttggt20
<210>27
<211>20
<212>dna
<213>人工序列
<400>27
agagttgccagatgtgtgca20
<210>28
<211>20
<212>dna
<213>人工序列
<400>28
aggtgggattcttgcggatg20
<210>29
<211>20
<212>dna
<213>人工序列
<400>29
tcaaaagcaacgaacagcgg20
<210>30
<211>20
<212>dna
<213>人工序列
<400>30
cgacttcctcatcgatgcga20
<210>31
<211>20
<212>dna
<213>人工序列
<400>31
gcaggccctgtagtttgact20
<210>32
<211>20
<212>dna
<213>人工序列
<400>32
ttcgtgcccagtttctcctc20
<210>33
<211>20
<212>dna
<213>人工序列
<400>33
atcttcaggtttccgctgca20
<210>34
<211>20
<212>dna
<213>人工序列
<400>34
ccgagagagagcgagagaga20
<210>35
<211>20
<212>dna
<213>人工序列
<400>35
accgcattcatcggtctctc20
<210>36
<211>20
<212>dna
<213>人工序列
<400>36
ggtcctcgctctgatcttgg20
<210>37
<211>20
<212>dna
<213>熱人工序列
<400>37
attgcttgaagatggctgct20
<210>38
<211>20
<212>dna
<213>人工序列
<400>38
catgcataccttcctccccc20