本發(fā)明屬于植物分子生物技術(shù)和基因工程領(lǐng)域,具體涉及一種基于動(dòng)態(tài)關(guān)聯(lián)分析挖掘玉米籽粒油脂代謝機(jī)制的方法。
背景技術(shù):
玉米是世界三大主要農(nóng)作物之一,20世紀(jì)90年代以來,世界玉米總產(chǎn)量首次超越水稻和小麥,成為第一位的糧食作物。玉米籽粒中累積了大量的儲(chǔ)存物質(zhì)包括淀粉、油份和蛋白。隨著人們生活水平的提高和膳食結(jié)構(gòu)的變化,以及淀粉和油脂加工業(yè)的發(fā)展,玉米品種由產(chǎn)量型逐漸向質(zhì)量型轉(zhuǎn)變,玉米品質(zhì)及其專用性變得越來越重要。
玉米油富含維生素e等多種微量元素,不飽和脂肪酸的含量達(dá)80%以上。長(zhǎng)期食用玉米油可防治夜盲癥、干眼病等多種疾病,并可降低人體血液中的膽固醇含量,預(yù)防粥樣動(dòng)脈硬化和冠狀動(dòng)脈硬化。因此玉米油享有―健康油的美譽(yù)。高油玉米是指籽粒含油量高于6%的玉米。玉米籽粒中85%左右的油份儲(chǔ)存在胚中,所以高油玉米往往具有一個(gè)較大的胚面,同時(shí)高油玉米具有較高的蛋白質(zhì)、賴氨酸、色氨酸含量。作為飼料,高油玉米可以顯著提高牲畜的產(chǎn)肉率。除籽粒品質(zhì)優(yōu)良外,高油玉米的秸稈含有較高的粗蛋白、粗脂肪等營(yíng)養(yǎng)物質(zhì),可作青飼或青貯,是草食動(dòng)物的優(yōu)良飼料。因此,兼顧產(chǎn)量和抗逆性等重要農(nóng)藝性狀的前提下,提高玉米籽粒含油量成為當(dāng)代玉米育種的重要方向,研究玉米籽粒中油脂合成和累積的遺傳機(jī)理和調(diào)控機(jī)制對(duì)于增加玉米產(chǎn)量、提高籽粒品質(zhì)、培育高油特用型玉米具有重要意義和應(yīng)用前景。
玉米籽粒含油量是復(fù)雜的數(shù)量性狀,受多基因控制,且具有較高的遺傳力。連鎖分析和關(guān)聯(lián)分析是目前較為常見的用來解析玉米油脂代謝遺傳機(jī)理的方法,這兩種分析方法企在通過建立表型與基因型之間的聯(lián)系,挖掘控制油份表型性狀的遺傳位點(diǎn),而這些遺傳位點(diǎn)之間相對(duì)獨(dú)立,它們之間的調(diào)控關(guān)系、遺傳和分子機(jī)制未知,并且傳統(tǒng)分析方法需要多年多點(diǎn)的表型鑒定,費(fèi)時(shí)費(fèi)力。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種基于動(dòng)態(tài)關(guān)聯(lián)分析挖掘玉米籽粒油脂代謝機(jī)制的方法,該方法通過動(dòng)態(tài)關(guān)聯(lián)分析,以已知的玉米籽粒油份關(guān)聯(lián)基因?yàn)槟繕?biāo)基因,鑒定調(diào)控該基因?qū)脖磉_(dá)模式動(dòng)態(tài)關(guān)聯(lián)的調(diào)控基因,從而解析玉米籽粒油脂代謝的調(diào)控機(jī)制以及遺傳和分子機(jī)制,對(duì)高油玉米的遺傳改良提供新的基因資源,以及為玉米其它農(nóng)藝性狀的調(diào)控機(jī)制研究提供思路和方法。
本發(fā)明是通過以下技術(shù)方案來實(shí)現(xiàn)的:
本發(fā)明提供了一種基于動(dòng)態(tài)關(guān)聯(lián)分析挖掘玉米籽粒油脂代謝機(jī)制的方法,所述機(jī)制包括調(diào)控機(jī)制及遺傳和分子機(jī)制,均包括以下步驟:
(1)收集玉米自交系授粉后15天的籽粒轉(zhuǎn)錄本測(cè)序獲得基因表達(dá)量數(shù)據(jù);
(2)收集26個(gè)與玉米籽粒含油量相關(guān)聯(lián)的基因數(shù)據(jù);
(3)收集玉米自交系組成的關(guān)聯(lián)群體的籽粒含油量數(shù)據(jù);
(4)動(dòng)態(tài)關(guān)聯(lián)分析la模型的建立;
(5)全基因組范圍內(nèi)挖掘調(diào)控26個(gè)含油量關(guān)聯(lián)基因共表達(dá)模式動(dòng)態(tài)變化的的調(diào)控基因及全基因范圍內(nèi)鑒定與26個(gè)含油量關(guān)聯(lián)基因共表達(dá)模式動(dòng)態(tài)關(guān)聯(lián)的候選基因;
(6)對(duì)候選基因進(jìn)行功能注釋;
(7)檢測(cè)候選基因是否落在油份性狀的qtl區(qū)間內(nèi);
(8)提取候選基因上下游100kb范圍內(nèi)的所有snp標(biāo)記,與玉米自交系的油份表型數(shù)據(jù)進(jìn)行區(qū)段關(guān)聯(lián)分析。
進(jìn)一步的,所述玉米自交系根據(jù)系譜信息分成了2組:熱帶和亞熱帶、溫帶,小組內(nèi)采用完全隨機(jī)區(qū)組法,設(shè)2個(gè)重復(fù),每個(gè)自交系每個(gè)重復(fù)播種1行,所有材料均進(jìn)行自交,收獲未成熟的授粉后15天的籽粒,每個(gè)自交系的兩個(gè)重復(fù)各取3-4穗,每穗取1-2粒籽粒,混合提取籽粒總rna,隨機(jī)選擇玉米自交系數(shù)量個(gè)樣品用于rna-seq。
上述rna-seq具體通過以下步驟:首先,用ploy(t)寡聚核苷酸從總rna中抽取全部帶ploy(a)尾的rna,主要為mrna,然后將截獲的mrna隨機(jī)打斷成片段,用六堿基隨機(jī)引物合成cdna第一鏈,并加入逆轉(zhuǎn)錄酶合成cdna第二鏈,經(jīng)過試劑盒純化并對(duì)cdna片段進(jìn)行末端修飾,連接測(cè)序接頭,再經(jīng)瓊脂糖凝膠電泳回收目的大小片段,進(jìn)行pcr擴(kuò)增,用illuminagaⅱ基因分析系統(tǒng)進(jìn)行序列測(cè)定及分析,獲得基因的表達(dá)量數(shù)據(jù)。
進(jìn)一步的,所述基因的表達(dá)量數(shù)據(jù),對(duì)其進(jìn)行的缺失值預(yù)處理如下:對(duì)于數(shù)據(jù)集中的每個(gè)基因,如果其表達(dá)值在高于30%的樣本中缺失,則在后續(xù)的分析中舍棄該基因。
進(jìn)一步的,所述調(diào)控機(jī)制的動(dòng)態(tài)關(guān)聯(lián)分析la模型具體采用以下方法建立:la的數(shù)學(xué)定義如下:
la(x,y|z)=eg'(z)公式1
其中,所述x為26個(gè)含油量關(guān)聯(lián)基因的表達(dá)量,y為26個(gè)含油量關(guān)聯(lián)基因的表達(dá)量,z為全基因組基因表達(dá)量;假設(shè)x,y,z是均值為0,方差為1的連續(xù)隨機(jī)變量,則x,y的相關(guān)性表示為e(xy);當(dāng)z=z時(shí),g(z)=e(xy|z=z),g(z)檢測(cè)的是當(dāng)z=z時(shí),xy基因?qū)Φ墓脖磉_(dá)模式。g(z)的導(dǎo)數(shù)表示為g'(z),該值可用于共表達(dá)模式變化的期望測(cè)定,
當(dāng)z符合標(biāo)準(zhǔn)正態(tài)分布時(shí),la值可簡(jiǎn)單的表示為la(x,y|z)=e(xyz)。
x,y,z代表具有正態(tài)分布表達(dá)譜的三個(gè)基因,則la(x,y|z)表示為:e(xyz)=(x1y1z1+x2y2z2+...+xmymzm)/m公式2
la用來反應(yīng)基因?qū)脖磉_(dá)模式的動(dòng)態(tài)變化,即當(dāng)z基因表達(dá)量較高時(shí),xy基因?qū)Φ谋磉_(dá)量呈正相關(guān)(co-regulated),e(xy|z=1)為正數(shù);當(dāng)z基因表達(dá)量較低時(shí),xy基因?qū)Φ谋磉_(dá)量呈負(fù)相關(guān)(contra-regulated,),e(xy|z=0)為負(fù)數(shù),因此基因?qū)Φ谋磉_(dá)調(diào)控模式由正相關(guān)(co-regulated)轉(zhuǎn)變?yōu)樨?fù)相關(guān)(contra-regulated),la值記為正;相反,基因?qū)Φ谋磉_(dá)調(diào)控模式由負(fù)相關(guān)(contra-regulated)轉(zhuǎn)變?yōu)檎嚓P(guān)(co-regulated),la值記為負(fù)。
進(jìn)一步的,所述遺傳和分子機(jī)制的動(dòng)態(tài)關(guān)聯(lián)分析la模型具體采用以下方法建立:la的數(shù)學(xué)定義如下:
la(x,y|z)=eg'(z)公式1
其中,所述x為26個(gè)含油量關(guān)聯(lián)基因的表達(dá)量,y為全基因組基因表達(dá)量,z為全基因組基因表達(dá)量;假設(shè)x,y,z是均值為0,方差為1的連續(xù)隨機(jī)變量,則x,y的相關(guān)性表示為e(xy);當(dāng)z=z時(shí),g(z)=e(xy|z=z),g(z)檢測(cè)的是當(dāng)z=z時(shí),xy基因?qū)Φ墓脖磉_(dá)模式。g(z)的導(dǎo)數(shù)表示為g'(z),該值可用于共表達(dá)模式變化的期望測(cè)定,
當(dāng)z符合標(biāo)準(zhǔn)正態(tài)分布時(shí),la值可簡(jiǎn)單的表示為la(x,y|z)=e(xyz)。
x,y,z代表具有正態(tài)分布表達(dá)譜的三個(gè)基因,則la(x,y|z)表示為:e(xyz)=(x1y1z1+x2y2z2+...+xmymzm)/m公式2
la用來反應(yīng)基因?qū)脖磉_(dá)模式的動(dòng)態(tài)變化,即當(dāng)z基因表達(dá)量較高時(shí),xy基因?qū)Φ谋磉_(dá)量呈正相關(guān)(co-regulated),e(xy|z=1)為正數(shù);當(dāng)z基因表達(dá)量較低時(shí),xy基因?qū)Φ谋磉_(dá)量呈負(fù)相關(guān)(contra-regulated,),e(xy|z=0)為負(fù)數(shù),因此基因?qū)Φ谋磉_(dá)調(diào)控模式由正相關(guān)(co-regulated)轉(zhuǎn)變?yōu)樨?fù)相關(guān)(contra-regulated),la值記為正;相反,基因?qū)Φ谋磉_(dá)調(diào)控模式由負(fù)相關(guān)(contra-regulated)轉(zhuǎn)變?yōu)檎嚓P(guān)(co-regulated),la值記為負(fù)。
上述動(dòng)態(tài)關(guān)聯(lián)分析模型中的顯著性水平評(píng)估步驟如下:混合所有基因的表達(dá)量值;在每次模擬中,用放回隨機(jī)抽樣法隨機(jī)抽取一對(duì)基因(x,y)的表達(dá)量值,z基因取全基因組所有基因,計(jì)算xy基因?qū)υ谌蚪M的la值,可分別得到la的正極大值和負(fù)極小值;重復(fù)模擬一百萬次,分別得到la的正值參考分布和負(fù)值參考分布(圖4),用la正負(fù)參考分布的99%分位數(shù)作為la正負(fù)顯著性閾值。
進(jìn)一步的,所述關(guān)聯(lián)分析采用混合線性模型,統(tǒng)計(jì)模型如下:
y=xβ+sα+zμ+qυ+e
所述y為表型觀察值;β為除標(biāo)記和群體結(jié)構(gòu)以外的未知固定效應(yīng)值;α為標(biāo)記的效應(yīng)值;υ為群體結(jié)構(gòu)的效應(yīng)值;μ為多基因遺傳背景的效應(yīng)值;e為殘差;q為群體結(jié)構(gòu)的矩陣;x、s、z分別為y與β、α、μ相關(guān)的矩陣,關(guān)聯(lián)分析采用tassel3.0軟件進(jìn)行計(jì)算。
進(jìn)一步的,所述區(qū)段關(guān)聯(lián)分析的具體方法如下:提取候選基因5'utr上游50kb和3'utr下游50kb共100kb范圍內(nèi)的所有snp標(biāo)記,結(jié)合關(guān)聯(lián)群體的含油量表型數(shù)據(jù),采用混合線性模型進(jìn)行關(guān)聯(lián)分析。
本發(fā)明采用的是轉(zhuǎn)錄本測(cè)序獲得的368個(gè)玉米自交系中28769個(gè)基因的表達(dá)量數(shù)據(jù),利用la分析方法,全基因組范圍內(nèi)挖掘調(diào)控26個(gè)含油量關(guān)聯(lián)基因的共表達(dá)模式動(dòng)態(tài)關(guān)聯(lián)的調(diào)控基因;通過功能注釋、qtl共定位分析、區(qū)段關(guān)聯(lián)分析,進(jìn)一步闡述玉米籽粒油脂代謝的調(diào)控機(jī)制。我們將創(chuàng)新性的利用基因?qū)脖磉_(dá)模式的動(dòng)態(tài)關(guān)聯(lián)分析的新方法,全基因組范圍內(nèi)挖掘調(diào)控油脂代謝途徑的基因,探索基因轉(zhuǎn)錄調(diào)控關(guān)系,解析籽粒油脂代謝的調(diào)控機(jī)制。該研究思路創(chuàng)新,在植物學(xué)領(lǐng)域該項(xiàng)研究尚無報(bào)道。
本發(fā)明的有益效果為:
(1)本發(fā)明基于表達(dá)模式越相近的基因,其功能相近的可能性越大這一科學(xué)假設(shè),以調(diào)控已知的油份關(guān)聯(lián)基因共表達(dá)模式動(dòng)態(tài)關(guān)聯(lián)為突破口,可快速有效的鑒定調(diào)控籽粒油脂代謝的調(diào)控基因;
(2)通過基因?qū)脖磉_(dá)網(wǎng)絡(luò)的構(gòu)建,可鑒定基因之間的調(diào)控關(guān)系;
(3)本發(fā)明可以為玉米數(shù)量性轉(zhuǎn)的調(diào)控機(jī)制及遺傳和分子機(jī)制鑒定提供新思路。
附圖說明
圖1為本發(fā)明實(shí)施例1分析調(diào)控機(jī)制的流程圖。
圖2為本發(fā)明實(shí)施例2遺傳和分子機(jī)制的流程圖。
圖3為本發(fā)明實(shí)施例1玉米籽粒含油量關(guān)聯(lián)的26個(gè)基因。
圖4為本發(fā)明實(shí)施例1隨機(jī)模擬生成la值評(píng)估la分析的顯著性。
圖5為本發(fā)明實(shí)施例1grmzm2g319022基因的la分析。
圖6為本發(fā)明實(shí)施例1grmzm2g319022基因的基因結(jié)構(gòu)。
圖7為本發(fā)明實(shí)施例1grmzm2g319022基因的區(qū)段關(guān)聯(lián)分析。
圖8為本發(fā)明實(shí)施例2候選基因grmzm2g451672的區(qū)段關(guān)聯(lián)分析。
圖9為本發(fā)明實(shí)施例2grmzm2g451672基因的結(jié)構(gòu)圖和功能域。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明,下述說明僅是實(shí)例性的,不限定本發(fā)明的保護(hù)范圍。
實(shí)施例1
一種基于動(dòng)態(tài)關(guān)聯(lián)分析挖掘玉米籽粒油脂代謝調(diào)控機(jī)制的方法,包括六步,基因表達(dá)量數(shù)據(jù)的收集、26個(gè)油份關(guān)聯(lián)基因的收集、玉米籽粒含油量qtl定位結(jié)果的收集、關(guān)聯(lián)群體籽粒含油量數(shù)據(jù)的收集、油份關(guān)聯(lián)基因的全基因組la分析,具體見圖1。
(1)基因表達(dá)量數(shù)據(jù)的收集:
368份自交系(本發(fā)明所使用的玉米品種可為任意品種,包括中國(guó)農(nóng)業(yè)大學(xué)宋同明教授培育的35份高油玉米自交系(yang等,2010b))于2010年在湖北荊州種植,根據(jù)系譜信息分成了2組(熱帶和亞熱帶、溫帶),小組內(nèi)采用完全隨機(jī)區(qū)組法,設(shè)2個(gè)重復(fù),每個(gè)自交系每個(gè)重復(fù)播種1行。所有材料均進(jìn)行自交,收獲未成熟的授粉后15天(15dap)的籽粒,每個(gè)自交系的兩個(gè)重復(fù)各取3-4穗,每穗取1-2粒籽粒,混合提取籽??俽na,隨機(jī)選擇368個(gè)樣品用于rna-seq。樣品的rna-seq工作是由深圳華大基因研究院(beijinggenomicsinstitute,bgi)完成,測(cè)序方法簡(jiǎn)要描述如下:首先,用ploy(t)寡聚核苷酸從總rna中抽取全部帶ploy(a)尾的rna,主要為mrna,然后將截獲的mrna隨機(jī)打斷成片段,用六堿基隨機(jī)引物(randomhexamers)合成cdna第一鏈,并加入逆轉(zhuǎn)錄酶等合成cdna第二鏈,經(jīng)過試劑盒純化并對(duì)cdna片段進(jìn)行末端修飾,連接測(cè)序接頭,再經(jīng)瓊脂糖凝膠電泳回收目的大小片段,進(jìn)行pcr擴(kuò)增,從而完成整個(gè)文庫(kù)構(gòu)建工作,構(gòu)建好的文庫(kù)用illuminagaⅱ基因分析系統(tǒng)進(jìn)行序列測(cè)定及分析。轉(zhuǎn)錄本測(cè)序獲得的368個(gè)玉米自交系中28769個(gè)基因的表達(dá)量數(shù)據(jù),對(duì)基因表達(dá)量數(shù)據(jù)集進(jìn)行的缺失值預(yù)處理如下:基因表達(dá)數(shù)據(jù)因?yàn)閷?shí)驗(yàn)中的噪聲、檢測(cè)技術(shù)等原因而存在缺失。對(duì)于數(shù)據(jù)集中的每個(gè)基因,如果其表達(dá)值在高于30%的樣本中缺失,則在后續(xù)的分析中舍棄該基因。
(2)26個(gè)油份關(guān)聯(lián)基因的收集:
在前期的一項(xiàng)研究中,我們結(jié)合覆蓋全基因組的最小等位基因頻率≥0.05的55萬個(gè)snp標(biāo)記和368份玉米自交系籽粒含油量性狀的表型值,利用mlm模型挖掘與籽粒含油量顯著關(guān)聯(lián)的snp位點(diǎn)。在全基因組顯著水平下(p<1.89×10-6),共檢測(cè)到26個(gè)遺傳位點(diǎn)與含油量顯著關(guān)聯(lián)(圖3),對(duì)遺傳位點(diǎn)的候選基因進(jìn)行功能注釋,發(fā)現(xiàn)8個(gè)候選基因?yàn)閿M南芥中參與油脂代謝的同源基因,該結(jié)果為含油量關(guān)聯(lián)基因的全基因組la分析提供了目標(biāo)基因。
(3)玉米籽粒含油量qtl定位結(jié)果的收集:
收集玉米籽粒油份性狀qtl定位(表1),如果la分析檢測(cè)到的顯著基因落于控制玉米籽粒含油量的qtl之內(nèi),則表明該基因有qtl的支持和驗(yàn)證。
表1玉米籽粒含油量和組分性狀qtl定位結(jié)果統(tǒng)計(jì)表
(4)關(guān)聯(lián)群體籽粒含油量數(shù)據(jù)的收集
關(guān)聯(lián)群體分別于2009年春在四川雅安、2009年冬在云南西雙版納和海南三亞、2010年春在廣西南寧種植。508份材料根據(jù)系譜信息分成了2組(熱帶和亞熱帶、溫帶),小組內(nèi)采用完全隨機(jī)區(qū)組法,設(shè)2個(gè)重復(fù),每個(gè)自交系每個(gè)重復(fù)播種1行。每個(gè)材料自交5-7穗,成熟后收獲授粉的果穗,自然晾干,每行選擇3個(gè)以上生長(zhǎng)良好的果穗,脫粒后混合取大小均一的50粒,于45℃烘60h以保證所有材料含水量基本一致。該群體每個(gè)環(huán)境只測(cè)定了1個(gè)重復(fù)的表型,一共測(cè)定了10個(gè)脂肪酸組分性狀,所有脂肪酸含量之和作為玉米籽粒含油量(li等,naturegenetics,2013)。脂肪酸的提取參照sukhija等(1988)的方法。
(5)油份關(guān)聯(lián)基因的全基因組la分析
具體按照上述建模步驟進(jìn)行建模;
以x=26個(gè)含油量關(guān)聯(lián)基因,y=26個(gè)含油量關(guān)聯(lián)基因,z=全基因組基因進(jìn)行l(wèi)a分析,發(fā)現(xiàn)grmzm2g319022基因表達(dá)量較低時(shí),grmzm2g176542表達(dá)量與grmzm2g410515的表達(dá)量顯著正相關(guān),而grmzm2g319022基因表達(dá)量較高時(shí),grmzm2g176542表達(dá)量與grmzm2g410515表達(dá)量負(fù)相關(guān)(圖5)。
結(jié)合z基因的功能注釋和區(qū)段關(guān)聯(lián)分析發(fā)現(xiàn)grmzm2g319022編碼鋅脂蛋白結(jié)構(gòu)相對(duì)保守(圖6),區(qū)段關(guān)聯(lián)分析發(fā)現(xiàn)該基因也是和油份性狀顯著關(guān)聯(lián)的。(圖7)
結(jié)合z基因的功能注釋、共定位分析、區(qū)段關(guān)聯(lián)分析(以基因grmzm2g451672為例,結(jié)果見圖8和圖9),共驗(yàn)證2個(gè)與含油量顯著關(guān)聯(lián)的候選基因(表2),這兩個(gè)候選基因均參與油脂代謝途徑。
表2兩個(gè)調(diào)控含油量關(guān)聯(lián)基因共表達(dá)模式動(dòng)態(tài)變化的z候選基因
a該基因區(qū)段關(guān)聯(lián)分析最顯著的snp位點(diǎn),位置信息參照的是5b.60版本的b73基因組序列;b候選基因至少落在其中一個(gè)先前報(bào)道的qtl區(qū)間內(nèi)。
該實(shí)施例發(fā)現(xiàn)第三個(gè)基因表達(dá)量的高低影響基因?qū)Φ墓脖磉_(dá)模式,比如grmzm2g319022基因表達(dá)量較低時(shí),grmzm2g176542表達(dá)量與grmzm2g410515的表達(dá)量顯著正相關(guān),而grmzm2g319022基因表達(dá)量較高時(shí),grmzm2g176542表達(dá)量與grmzm2g410515表達(dá)量負(fù)相關(guān);又比如ac196475.3_fg005基因表達(dá)量較低時(shí),grmzm2g079236表達(dá)量與grmzm2g176542的表達(dá)量顯著正相關(guān),而ac196475.3_fg005基因表達(dá)量較高時(shí),grmzm2g079236表達(dá)量與grmzm2g176542表達(dá)量負(fù)相關(guān);因此基因grmzm2g319022和ac196475.3_fg005調(diào)控含油量關(guān)聯(lián)基因的共表達(dá)模式,推測(cè)這兩個(gè)基因參與調(diào)控油脂代謝途徑。
對(duì)la顯著的候選基因進(jìn)行基因功能預(yù)測(cè),主要用到了兩個(gè)數(shù)據(jù)庫(kù):歐洲生物信息研究所蛋白功能注釋數(shù)據(jù)庫(kù)、蛋白結(jié)構(gòu)與功能注釋數(shù)據(jù)庫(kù)。此外,利用同源基因功能相似的原則,候選基因的蛋白序列還提交到了擬南芥基因數(shù)據(jù)庫(kù)tair中進(jìn)行比對(duì),查看同源基因的功能注釋,并作為玉米候選基因功能預(yù)測(cè)的依據(jù)。
以上的這些結(jié)果證明了本發(fā)明的有效性,通過鑒定調(diào)控已知含油量關(guān)聯(lián)基因的共表達(dá)模式動(dòng)態(tài)變化的調(diào)控基因,并結(jié)合功能注釋、共定位分析和區(qū)段關(guān)聯(lián)分析,從而解析玉米籽粒油脂代謝的調(diào)控機(jī)制,為高油玉米的遺傳改良提供了新的基因資源,為玉米其它數(shù)量性狀的調(diào)控機(jī)制研究提供了新的思路和方法。
實(shí)施例2
一種本發(fā)明所述基于動(dòng)態(tài)關(guān)聯(lián)分析解析玉米籽粒油脂代謝的遺傳和分子機(jī)制的方法,主要包括六步,基因表達(dá)量數(shù)據(jù)的收集、26個(gè)油份關(guān)聯(lián)基因的收集、玉米籽粒含油量qtl定位結(jié)果的收集、關(guān)聯(lián)群體籽粒含油量數(shù)據(jù)的收集、油份關(guān)聯(lián)基因的全基因組la分析,具體流程見圖2。
(1)基因表達(dá)量數(shù)據(jù)的收集:
368份自交系(同實(shí)施例1)于2010年在湖北荊州種植,根據(jù)系譜信息分成了2組(熱帶和亞熱帶、溫帶),小組內(nèi)采用完全隨機(jī)區(qū)組法,設(shè)2個(gè)重復(fù),每個(gè)自交系每個(gè)重復(fù)播種1行。所有材料均進(jìn)行自交,收獲未成熟的授粉后15天(15dap)的籽粒,每個(gè)自交系的兩個(gè)重復(fù)各取3-4穗,每穗取1-2粒籽粒,混合提取籽??俽na,隨機(jī)選擇368個(gè)樣品用于rna-seq;樣品的rna-seq工作是由深圳華大基因研究院(beijinggenomicsinstitute,bgi)完成,測(cè)序方法簡(jiǎn)要描述如下:首先,用ploy(t)寡聚核苷酸從總rna中抽取全部帶ploy(a)尾的rna,主要為mrna,然后將截獲的mrna隨機(jī)打斷成片段,用六堿基隨機(jī)引物(randomhexamers)合成cdna第一鏈,并加入逆轉(zhuǎn)錄酶等合成cdna第二鏈,經(jīng)過試劑盒純化并對(duì)cdna片段進(jìn)行末端修飾,連接測(cè)序接頭,再經(jīng)瓊脂糖凝膠電泳回收目的大小片段,進(jìn)行pcr擴(kuò)增,從而完成整個(gè)文庫(kù)構(gòu)建工作,構(gòu)建好的文庫(kù)用illuminagaⅱ基因分析系統(tǒng)進(jìn)行序列測(cè)定及分析。轉(zhuǎn)錄本測(cè)序獲得的368個(gè)玉米自交系中28769個(gè)基因的表達(dá)量數(shù)據(jù),對(duì)基因表達(dá)量數(shù)據(jù)集進(jìn)行的缺失值預(yù)處理如下:基因表達(dá)數(shù)據(jù)因?yàn)閷?shí)驗(yàn)中的噪聲、檢測(cè)技術(shù)等原因而存在缺失。對(duì)于數(shù)據(jù)集中的每個(gè)基因,如果其表達(dá)值在高于30%的樣本中缺失,則在后續(xù)的分析中舍棄該基因。
(2)26個(gè)油份關(guān)聯(lián)基因的收集:
在前期的一項(xiàng)研究中,我們結(jié)合覆蓋全基因組的最小等位基因頻率≥0.05的55萬個(gè)snp標(biāo)記和368份玉米自交系籽粒含油量性狀的表型值,利用mlm模型挖掘與籽粒含油量顯著關(guān)聯(lián)的snp位點(diǎn)。在全基因組顯著水平下(p<1.89×10-6),共檢測(cè)到26個(gè)遺傳位點(diǎn)與含油量顯著關(guān)聯(lián)(圖3),對(duì)遺傳位點(diǎn)的候選基因進(jìn)行功能注釋,發(fā)現(xiàn)8個(gè)候選基因?yàn)閿M南芥中參與油脂代謝的同源基因,該結(jié)果為含油量關(guān)聯(lián)基因的全基因組la分析提供了目標(biāo)基因。
(3)玉米籽粒含油量qtl定位結(jié)果的收集:
收集玉米籽粒油份性狀qtl定位(表3),如果la分析檢測(cè)到的顯著基因落于控制玉米籽粒含油量的qtl之內(nèi),則表明該基因有qtl的支持和驗(yàn)證。
表3玉米籽粒含油量和組分性狀qtl定位結(jié)果統(tǒng)計(jì)表
(4)關(guān)聯(lián)群體籽粒含油量數(shù)據(jù)的收集
關(guān)聯(lián)群體分別于2009年春在四川雅安、2009年冬在云南西雙版納和海南三亞、2010年春在廣西南寧種植。508份材料根據(jù)系譜信息分成了2組(熱帶和亞熱帶、溫帶),小組內(nèi)采用完全隨機(jī)區(qū)組法,設(shè)2個(gè)重復(fù),每個(gè)自交系每個(gè)重復(fù)播種1行。每個(gè)材料自交5-7穗,成熟后收獲授粉的果穗,自然晾干,每行選擇3個(gè)以上生長(zhǎng)良好的果穗,脫粒后混合取大小均一的50粒,于45℃烘60h以保證所有材料含水量基本一致。該群體每個(gè)環(huán)境只測(cè)定了1個(gè)重復(fù)的表型,一共測(cè)定了10個(gè)脂肪酸組分性狀,所有脂肪酸含量之和作為玉米籽粒含油量352(368份材料中部分材料的表型無效)份總油份含量的標(biāo)準(zhǔn)化處理的表型數(shù)據(jù)見(表4)。脂肪酸的提取參照sukhija等(1988)的方法。
表4,368份玉米自交系總含油量列表
(5)油份關(guān)聯(lián)基因的全基因組la分析
具體按照上述建模步驟進(jìn)行建模;
以x=26個(gè)含油量關(guān)聯(lián)基因,y=全基因組基因,z=全基因組基因進(jìn)行l(wèi)a分析,重點(diǎn)關(guān)注la絕對(duì)值最大的前100個(gè)lap列表。結(jié)合y基因的功能注釋、共定位分析、區(qū)段關(guān)聯(lián)分析和基因組選擇分析(以基因grmzm2g451672為例,結(jié)果見圖7和圖8),共驗(yàn)證2個(gè)與含油量顯著關(guān)聯(lián)的候選基因(表5),這兩個(gè)候選基因均參與油脂代謝途徑。
(6)所述關(guān)聯(lián)分析采用混合線性模型
模型統(tǒng)計(jì)模型如下:
y=xβ+sα+zμ+qυ+e
所述y為表型觀察值;β為除標(biāo)記和群體結(jié)構(gòu)以外的未知固定效應(yīng)值;α為標(biāo)記的效應(yīng)值;υ為群體結(jié)構(gòu)的效應(yīng)值;μ為多基因遺傳背景的效應(yīng)值;e為殘差;q為群體結(jié)構(gòu)的矩陣;x、s、z分別為y與β、α、μ相關(guān)的矩陣,關(guān)聯(lián)分析采用tassel3.0軟件進(jìn)行計(jì)算。所述區(qū)段關(guān)聯(lián)分析的具體方法如下:提取候選基因5'utr上游50kb和3'utr下游50kb共100kb范圍內(nèi)的所有snp標(biāo)記,結(jié)合關(guān)聯(lián)群體的含油量表型數(shù)據(jù),采用混合線性模型進(jìn)行關(guān)聯(lián)分析。
表5grmzm2g426556和grmzm2g451672兩個(gè)基因被qtl驗(yàn)證
a該基因區(qū)段關(guān)聯(lián)分析最顯著的snp位點(diǎn),位置信息參照的是5b.60版本的b73基因組序列;b候選基因至少落在其中一個(gè)先前報(bào)道的qtl區(qū)間內(nèi)。
本實(shí)施例發(fā)現(xiàn)基因?qū)Φ墓脖磉_(dá)模式受到第三個(gè)基因表達(dá)量的影響,比如grmzm5g818791基因表達(dá)量較低時(shí),grmzm2g410515表達(dá)量與grmzm2g426556的表達(dá)量顯著正相關(guān),而grmzm5g818791基因表達(dá)量較高時(shí),grmzm2g410515表達(dá)量與grmzm2g426556表達(dá)量負(fù)相關(guān);再比如grmzm2g375904基因表達(dá)量較低時(shí),grmzm2g410515表達(dá)量與grmzm2g451672的表達(dá)量顯著正相關(guān),而grmzm2g375904基因表達(dá)量較高時(shí),grmzm2g410515表達(dá)量與grmzm2g451672表達(dá)量負(fù)相關(guān);推測(cè)與基因grmzm2g410515共表達(dá)模式動(dòng)態(tài)關(guān)聯(lián)的基因grmzm2g426556和grmzm2g451672可能與控制籽粒含油量有關(guān)。
以上的這些結(jié)果證明了本發(fā)明的有效性,通過鑒定與已知含油量關(guān)聯(lián)基因的共表達(dá)模式的動(dòng)態(tài)關(guān)聯(lián),并結(jié)合功能注釋、共定位分析、區(qū)段關(guān)聯(lián)分析和基因組選擇分析,從而解析玉米籽粒油脂代謝的遺傳和分子機(jī)制,為高油玉米的遺傳改良提供了新的基因資源,為玉米其它數(shù)量性狀的遺傳機(jī)理研究提供了新的思路和方法。