本發(fā)明屬于分子標(biāo)記技術(shù)領(lǐng)域,具體涉及一種藜麥二態(tài)性indel分子標(biāo)記及其開發(fā)方法與應(yīng)用。
背景技術(shù):
indel(insertion/deletion)又稱為插入缺失,通常是指相比于一個(gè)基因組,另一個(gè)基因組序列存在一定數(shù)量核苷酸的插入或缺失。根據(jù)基因組插入缺失位點(diǎn)設(shè)計(jì)可以擴(kuò)增這些位點(diǎn)的引物就是indel分子標(biāo)記。該標(biāo)記能夠顯示擴(kuò)增序列的長(zhǎng)度差異,具有穩(wěn)定性高、共顯性等特點(diǎn),可以用于遺傳圖譜構(gòu)建、遺傳多樣性分析、群體結(jié)構(gòu)評(píng)價(jià)以及核心種質(zhì)篩選等。由于基因組中存在較豐富的indel變異,且indel變異可以在基因內(nèi)或基因調(diào)控區(qū)域發(fā)生,因此,indel變異具有發(fā)展成為功能性分子標(biāo)記的潛力。
藜麥(chenopodiumquinoawilld.),是原產(chǎn)于南美安第斯地區(qū)一年生雙子葉草本植物,其在安第斯地區(qū)具有上千年的栽培歷史,具有出色的耐干旱、耐鹽堿的特性,是安第斯地區(qū)的主要食物來(lái)源。由于其種子營(yíng)養(yǎng)均衡,已被聯(lián)合國(guó)糧農(nóng)組織認(rèn)定為單體即可滿足人體基本營(yíng)養(yǎng)需求的唯一植物。藜麥?zhǔn)袌?chǎng)需求逐年擴(kuò)大,種植地已經(jīng)擴(kuò)展到歐美、日本、中國(guó)等地。藜麥?zhǔn)钱愒此谋扼w物種(2n=4x=36),含有兩個(gè)基因組亞組,其基因組大小約為1,448mb。由于關(guān)于藜麥的分子生物學(xué)研究并不深入,已報(bào)道的藜麥分子標(biāo)記并不豐富。常用的分子標(biāo)記為mason等(2005)和jarvis等(2008)鑒定的ssr(simplesequencerepeat)標(biāo)記,但總量只有數(shù)百個(gè)。特別是某些ssr分子標(biāo)記可檢測(cè)的等位基因多達(dá)數(shù)十個(gè),在基因分型過(guò)程中會(huì)產(chǎn)生混淆,造成基因分型的準(zhǔn)確性降低,不方便利用。因此,發(fā)展二態(tài)性indel分子標(biāo)記可大大提高四倍體藜麥基因分型的準(zhǔn)確性和可操作性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明主要提供了一種藜麥二態(tài)性indel分子標(biāo)記及其開發(fā)方法與應(yīng)用,可以針對(duì)現(xiàn)有藜麥分子標(biāo)記在基因分型中的不足,利用這些分子標(biāo)記可極大的提高藜麥基因分型的準(zhǔn)確性。其技術(shù)方案如下:
一種藜麥二態(tài)性indel分子標(biāo)記,包括如下38個(gè)位點(diǎn)所對(duì)應(yīng)的正向、反向
引物:
優(yōu)選的,所述分子標(biāo)記對(duì)藜麥基因組dna進(jìn)行pcr擴(kuò)增后,在純合位點(diǎn)可以擴(kuò)增出一條等位基因,在雜合位點(diǎn)可以擴(kuò)增出兩條等位基因。
一種藜麥二態(tài)性indel分子標(biāo)記的開發(fā)方法,該方法包括以下步驟:
(1)獲取藜麥基因組序列信息;
(2)利用mindel軟件對(duì)藜麥基因組序列進(jìn)行預(yù)處理、組裝、indel分析、引物設(shè)計(jì)及評(píng)價(jià);
(3)篩選較好的二態(tài)性indel分子標(biāo)記pcr擴(kuò)增藜麥基因組dna進(jìn)行驗(yàn)證。
所述藜麥二態(tài)性indel分子標(biāo)記在異源四倍體藜麥基因分型中的應(yīng)用,具體步驟如下:
(1)采用所述indel分子標(biāo)記的引物對(duì)藜麥基因組dna進(jìn)行pcr擴(kuò)增;
(2)對(duì)擴(kuò)增產(chǎn)物進(jìn)行凝膠電泳檢測(cè);
(3)讀取凝膠電泳檢測(cè)的擴(kuò)增條帶確定基因型;
(4)基于基因型結(jié)果對(duì)藜麥種質(zhì)進(jìn)行群體結(jié)構(gòu)評(píng)價(jià)、系統(tǒng)進(jìn)化樹構(gòu)建、遺傳多樣性分析及核心種質(zhì)篩選的應(yīng)用。
采用上述分子標(biāo)記,本發(fā)明具有以下優(yōu)點(diǎn):
本發(fā)明提供的藜麥二態(tài)性indel分子標(biāo)記可以準(zhǔn)確地對(duì)異源四倍體藜麥進(jìn)行基因型分析,極大地降低了高多態(tài)性分子標(biāo)記在藜麥基因分型中的讀帶錯(cuò)誤率。該藜麥二態(tài)性indel分子標(biāo)記是一種穩(wěn)定的遺傳變異,在藜麥基因組中數(shù)量豐富,可大規(guī)模開發(fā)。藜麥二態(tài)性indel分子標(biāo)記的pcr擴(kuò)增產(chǎn)物可以用瓊脂糖凝膠電泳進(jìn)行檢測(cè),使用方便。
附圖說(shuō)明
圖1為藜麥群體的群體結(jié)構(gòu)圖;
圖2為藜麥群體的系統(tǒng)進(jìn)化樹。
具體實(shí)施方式
以下實(shí)施例中的實(shí)驗(yàn)方法如無(wú)特殊規(guī)定,均為常規(guī)方法,所涉及的實(shí)驗(yàn)試劑及材料如無(wú)特殊規(guī)定均為常規(guī)生化試劑和材料。
1、藜麥基因組序列的獲得
收集11份藜麥種質(zhì)的幼苗期地上部分植株用于dna提取。按照illumina公司提供的操作指南構(gòu)建基因組測(cè)序文庫(kù)。利用貝瑞和康公司的illuminahiseq2500測(cè)序平臺(tái)進(jìn)行基因組paired-end測(cè)序如表1所示。
表1藜麥基因組測(cè)序種質(zhì)及其測(cè)序信息
2、藜麥二態(tài)性indel分子標(biāo)記的預(yù)測(cè)及驗(yàn)證
將藜麥基因組測(cè)序數(shù)據(jù)(fastq格式)導(dǎo)入mindel軟件,經(jīng)過(guò)對(duì)測(cè)序數(shù)據(jù)進(jìn)行質(zhì)量控制后,高質(zhì)量的測(cè)序數(shù)據(jù)用于基因組序列的denovo組裝。riobamba的讀長(zhǎng)較長(zhǎng),測(cè)序深度較深,組裝的序列質(zhì)量高。以riobamba的基因組組裝序列為參考序列進(jìn)行indel分析。對(duì)在11份藜麥基因組中只出現(xiàn)兩種長(zhǎng)度的indel片段進(jìn)行引物設(shè)計(jì),篩選出90個(gè)預(yù)測(cè)擴(kuò)增片段差異較大的引物進(jìn)行凝膠電泳驗(yàn)證。經(jīng)過(guò)驗(yàn)證,共得到85個(gè)二態(tài)性indel分子標(biāo)記,其中38個(gè)可用3%的瓊脂糖凝膠電泳檢測(cè)差異(表2),其它47個(gè)可用12%的聚丙烯酰胺凝膠檢測(cè)差異。
表238個(gè)二態(tài)性indel分子標(biāo)記引物序列及其pcr產(chǎn)物預(yù)測(cè)長(zhǎng)度
3、藜麥的基因型分析
利用包括85個(gè)二態(tài)性indel分子標(biāo)記和62個(gè)ssr分子標(biāo)記共計(jì)147個(gè)分子標(biāo)記對(duì)收集到的129份藜麥種質(zhì)進(jìn)行基因型分析。利用karrotendna提取試劑盒提起試驗(yàn)材料的幼苗用于pcr擴(kuò)增。pcr反應(yīng)總體系為25μl,含有2mmol/lmgcl2,100μmol/ldntp,0.2μmol/l引物,1utaq酶及50μngdna。pcr反應(yīng)程序?yàn)椋?4℃3min;94℃30s,58℃35s,72℃45s,38個(gè)循環(huán);72℃3min。pcr擴(kuò)增產(chǎn)物在3%瓊脂糖凝膠上以100v電壓電泳90min或12%聚丙烯酰胺凝膠上以120v電壓電泳120min,eb染色后在紫外透射儀上觀察結(jié)果。
4、藜麥的群體結(jié)構(gòu)評(píng)價(jià)、系統(tǒng)進(jìn)化樹構(gòu)建、遺傳多樣性分析及核心種質(zhì)篩選
藜麥的基因型數(shù)據(jù)用于藜麥群體的相關(guān)分析。利用structure2.3.4軟件的admixture模型對(duì)129份藜麥種質(zhì)的群體結(jié)構(gòu)進(jìn)行了評(píng)價(jià)。通過(guò)△k法可以將藜麥種質(zhì)分成兩個(gè)大群,并發(fā)現(xiàn)部分個(gè)體呈現(xiàn)混合血緣,如附圖1所示。
利用powermarker3.25軟件包將藜麥的基因型數(shù)據(jù)轉(zhuǎn)化成個(gè)體間的遺傳距離(nei,1983),通過(guò)mega7.0.14軟件的nj法構(gòu)建藜麥種質(zhì)的系統(tǒng)進(jìn)化樹,如附圖2所示。該系統(tǒng)進(jìn)化樹顯示的大群結(jié)果與structure分析的結(jié)果相似,可將藜麥群體分成g1和g2兩個(gè)群體,分別代表安第斯高原型和智利沿海型型。系統(tǒng)進(jìn)化樹還進(jìn)一步將g1分成兩個(gè)亞群,分別是g1s1(北部高原型)和g1s2(南部高原型)。
根據(jù)藜麥群體的分群結(jié)果,利用powermarker3.25軟件包對(duì)群體內(nèi)個(gè)體的基因型數(shù)據(jù)進(jìn)行遺傳多樣性分析,發(fā)現(xiàn)g1、g2、g1s1和g1s2的遺傳多樣性分別為0.33、0.38、0.27和0.32。結(jié)果表明與安第斯高原型藜麥群體相比,智利沿海型藜麥群體具有較高的多樣性。在安第斯高原型藜麥群體中,南部高原亞群比北部高原亞群具有更高的多態(tài)性。因此,可以推測(cè)藜麥可能是起源于智利沿海,并向北部高原擴(kuò)散。
藜麥群體的核心種質(zhì)是通過(guò)powermarker3.25軟件包的simulatedannealing算法篩選的。該方法能夠基于基因型數(shù)據(jù)篩選出代表最大遺傳多樣性的最小樣本數(shù)。參數(shù)設(shè)置如下:r=3000,ρ=0.95及t0=1。結(jié)果發(fā)現(xiàn),4個(gè)藜麥核心種質(zhì)即可代表88%的等位基因,16個(gè)藜麥核心種質(zhì)即可代表100%的等位基因,篩選結(jié)果如表3所示。
表3藜麥核心種質(zhì)篩選
對(duì)本領(lǐng)域的技術(shù)人員來(lái)說(shuō),可根據(jù)以上描述的技術(shù)方案以及構(gòu)思,做出其它各種相應(yīng)的改變以及形變,而所有的這些改變以及形變都應(yīng)該屬于本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。
sequencelisting
<110>江蘇省農(nóng)業(yè)科學(xué)院
<120>藜麥二態(tài)性indel分子標(biāo)記及其開發(fā)方法與利用
<130>2017
<160>76
<170>patentinversion3.3
<210>1
<211>23
<212>dna
<213>人工序列
<400>1
aagcaaggtcctaaccagcaatg23
<210>2
<211>20
<212>dna
<213>人工序列
<400>2
gccacctaagctgtcgcaac20
<210>3
<211>22
<212>dna
<213>人工序列
<400>3
actcaggatgctgtgcagcttc22
<210>4
<211>23
<212>dna
<213>人工序列
<400>4
cccagaacaaactgtcccacctc23
<210>5
<211>22
<212>dna
<213>人工序列
<400>5
agccattgcactatgccctctc22
<210>6
<211>21
<212>dna
<213>人工序列
<400>6
tggcccaacacctaagtgacg21
<210>7
<211>22
<212>dna
<213>人工序列
<400>7
atcctgtgctgacgctgaatcc22
<210>8
<211>22
<212>dna
<213>人工序列
<400>8
agatttcgggcttcgagttggg22
<210>9
<211>22
<212>dna
<213>人工序列
<400>9
atgagagccattgcactatgcc22
<210>10
<211>23
<212>dna
<213>人工序列
<400>10
agtgacgaggttgtatctttgcg23
<210>11
<211>23
<212>dna
<213>人工序列
<400>11
caactcgaacaaccctaaactgc23
<210>12
<211>23
<212>dna
<213>人工序列
<400>12
accactaccaccaccaactttcc23
<210>13
<211>23
<212>dna
<213>人工序列
<400>13
ccacaaataaacaaccggaagcc23
<210>14
<211>23
<212>dna
<213>人工序列
<400>14
ttgatgtccagtggtcctgattg23
<210>15
<211>23
<212>dna
<213>人工序列
<400>15
ccttcaagggaactggaaactcc23
<210>16
<211>23
<212>dna
<213>人工序列
<400>16
cagaacaaactgtcccacctcag23
<210>17
<211>23
<212>dna
<213>人工序列
<400>17
cgtccagctcaattacttccaac23
<210>18
<211>23
<212>dna
<213>人工序列
<400>18
gctcaatgcatctaacagaggtg23
<210>19
<211>23
<212>dna
<213>人工序列
<400>19
ctcgatctcaactcgaacaaccc23
<210>20
<211>23
<212>dna
<213>人工序列
<400>20
cactaccaccaccaactttcctg23
<210>21
<211>23
<212>dna
<213>人工序列
<400>21
ctctacactacatcagcgacctg23
<210>22
<211>23
<212>dna
<213>人工序列
<400>22
gggaatggaaagccagaaaggag23
<210>23
<211>23
<212>dna
<213>人工序列
<400>23
ctgacgctgaatcctgagacaac23
<210>24
<211>22
<212>dna
<213>人工序列
<400>24
tttgggtagatttcgggcttcg22
<210>25
<211>23
<212>dna
<213>人工序列
<400>25
gaaaccttctctcccaccatagc23
<210>26
<211>23
<212>dna
<213>人工序列
<400>26
ggagaatcaccatcacacgaaac23
<210>27
<211>23
<212>dna
<213>人工序列
<400>27
gcacataggttgctttcaggaac23
<210>28
<211>23
<212>dna
<213>人工序列
<400>28
ggccttctgaattgagcatggac23
<210>29
<211>21
<212>dna
<213>人工序列
<400>29
gccattgcactatgccctctc21
<210>30
<211>23
<212>dna
<213>人工序列
<400>30
cgaggttgtatctttgcgctatg23
<210>31
<211>23
<212>dna
<213>人工序列
<400>31
gctggaggtgactggtgaataac23
<210>32
<211>23
<212>dna
<213>人工序列
<400>32
gtgagaaagtgctgcatccacag23
<210>33
<211>23
<212>dna
<213>人工序列
<400>33
ggagtggtgaattctcgagttgg23
<210>34
<211>23
<212>dna
<213>人工序列
<400>34
aggaattgaaggtgttggcattc23
<210>35
<211>23
<212>dna
<213>人工序列
<400>35
ggagtgtggacttatggtgtgag23
<210>36
<211>23
<212>dna
<213>人工序列
<400>36
gggcagcttggatacactcattg23
<210>37
<211>23
<212>dna
<213>人工序列
<400>37
ggataactgattgggaccgttgg23
<210>38
<211>19
<212>dna
<213>人工序列
<400>38
gcgttgaggagagcgtcac19
<210>39
<211>23
<212>dna
<213>人工序列
<400>39
ggatcactaacgaacagcaaacc23
<210>40
<211>23
<212>dna
<213>人工序列
<400>40
tgggttgtggtgaagtaaatggc23
<210>41
<211>23
<212>dna
<213>人工序列
<400>41
taatggcggtgttcgtggtaatg23
<210>42
<211>22
<212>dna
<213>人工序列
<400>42
actagcctttccaccatgtagc22
<210>43
<211>20
<212>dna
<213>人工序列
<400>43
tcaaggcgtgcagcagtagc20
<210>44
<211>21
<212>dna
<213>人工序列
<400>44
ccacctaagctgtcgcaacac21
<210>45
<211>23
<212>dna
<213>人工序列
<400>45
tcagtggatcactaacgaacagc23
<210>46
<211>22
<212>dna
<213>人工序列
<400>46
tttgtgctgggttgtggtgaag22
<210>47
<211>23
<212>dna
<213>人工序列
<400>47
tccgatcccatgaaatccaaacc23
<210>48
<211>23
<212>dna
<213>人工序列
<400>48
tgcaaagacttagcctcactagc23
<210>49
<211>23
<212>dna
<213>人工序列
<400>49
tcctactcttcccaaccctcatc23
<210>50
<211>22
<212>dna
<213>人工序列
<400>50
tgctatggaatttgggccacac22
<210>51
<211>23
<212>dna
<213>人工序列
<400>51
tcgcatccactttgggtatcctc23
<210>52
<211>23
<212>dna
<213>人工序列
<400>52
agttggacgaatgttgtgtctcc23
<210>53
<211>23
<212>dna
<213>人工序列
<400>53
tctcgatctcaactcgaacaacc23
<210>54
<211>23
<212>dna
<213>人工序列
<400>54
accaccaccaactttcctgtaag23
<210>55
<211>23
<212>dna
<213>人工序列
<400>55
tgatgatcggatcgggtctgatg23
<210>56
<211>22
<212>dna
<213>人工序列
<400>56
cgccaggctaaaggctagactg22
<210>57
<211>22
<212>dna
<213>人工序列
<400>57
tgctgacgctgaatcctgagac22
<210>58
<211>23
<212>dna
<213>人工序列
<400>58
ggtagatttcgggcttcgagttg23
<210>59
<211>23
<212>dna
<213>人工序列
<400>59
tggaattgcaactgattgtgacc23
<210>60
<211>23
<212>dna
<213>人工序列
<400>60
agggtgaaatgttggcttgttcc23
<210>61
<211>23
<212>dna
<213>人工序列
<400>61
tggattcatcacaacaggctgac23
<210>62
<211>23
<212>dna
<213>人工序列
<400>62
tgctaatgcgtttgcaaggagag23
<210>63
<211>22
<212>dna
<213>人工序列
<400>63
tggcctaaatgcgggcttcttc22
<210>64
<211>23
<212>dna
<213>人工序列
<400>64
agttggtgcttagtgttgctctg23
<210>65
<211>21
<212>dna
<213>人工序列
<400>65
tgtcaaggcgtgcagcagtag21
<210>66
<211>22
<212>dna
<213>人工序列
<400>66
gcactagccacctaagctgtcg22
<210>67
<211>23
<212>dna
<213>人工序列
<400>67
tgtgactgtgataggcaaatcgc23
<210>68
<211>23
<212>dna
<213>人工序列
<400>68
ttaggccaactagcagtctacgc23
<210>69
<211>22
<212>dna
<213>人工序列
<400>69
tgtgctgacgctgaatcctgag22
<210>70
<211>22
<212>dna
<213>人工序列
<400>70
cgggcttcgagttgggtaattg22
<210>71
<211>23
<212>dna
<213>人工序列
<400>71
ttgaattgccgtgaaatggtctc23
<210>72
<211>20
<212>dna
<213>人工序列
<400>72
ggcccaagcgatacctaccc20
<210>73
<211>23
<212>dna
<213>人工序列
<400>73
ttggtatggagcgaggaactaac23
<210>74
<211>23
<212>dna
<213>人工序列
<400>74
gaggaattgaagtggctcacatg23
<210>75
<211>23
<212>dna
<213>人工序列
<400>75
tttatccactcaggatgctgtgc23
<210>76
<211>23
<212>dna
<213>人工序列
<400>76
gtcccacctcagcctattattgc23