專利名稱:亞洲玉米螟的轉(zhuǎn)錄組及功能基因的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物技術(shù)領(lǐng)域;更具體地,本發(fā)明涉及亞洲玉米螟的轉(zhuǎn)錄組信息、功能基因表達(dá)量及其注釋信息,以及它們的獲得方法。
背景技術(shù):
亞洲玉米螟(Ostrinia furnacalis Guen6e)是重要世界性農(nóng)業(yè)害蟲,主要危害玉米、高粱、向日葵等重要的糧食經(jīng)濟(jì)作物,目前對亞洲玉米螟的防治,仍然是以化學(xué)防治為主,對生態(tài)環(huán)境及糧食 安全生產(chǎn)造成了巨大的損害,而利用傳統(tǒng)抗蟲育種的方法雖然能很好地降低生態(tài)壓力,但是其育種周期長和植物抗性單一,容易產(chǎn)生害蟲抗性。利用分子育種抗蟲的方法是目前較好的解決方案。而目前對玉米螟分子機(jī)制的研究較少,基因信息十分匱乏,使得玉米螟基因?qū)用娴难芯窟M(jìn)展緩慢。因?yàn)闆]有該物種的全基因組序列,一直以來對于該物種的研究還處于傳統(tǒng)生物學(xué)的階段,而分子生物學(xué)層面的研究相對較少,主要是基于近源物種的相似基因進(jìn)行研究。對于缺乏基因組序列的物種,新基因的發(fā)現(xiàn)和功能研究一直是困擾生物學(xué)家研究的主要問題,傳統(tǒng)的基因發(fā)掘的方法一般利用構(gòu)建文庫,SAGE技術(shù),MPSS技術(shù),或者基因組測序的方法獲得,然而這些方法一般均存在成本高,工作量大,獲得大量的雜質(zhì)序列,而且在無參考基因組的情況下很難剔除冗余序列,這些問題嚴(yán)重影響了對動植物基因組水平的研究。因此,需要找到合適的發(fā)掘亞洲玉米螟基因組基因的方法,以期了解盡可能多的亞洲玉米螟基因,為從分子生物學(xué)層面開發(fā)防治亞洲玉米螟的技術(shù)提供有效途徑。
發(fā)明內(nèi)容
本發(fā)明的目的在于獲得亞洲玉米螟的全長基因信息,基因的表達(dá)量及功能基因的發(fā)現(xiàn)和研究方法。在本發(fā)明的第一方面,提供一種獲得亞洲玉米螟的轉(zhuǎn)錄組及功能基因的方法,包括(Bi)獲得亞洲玉米螟全基因組中的各種基因轉(zhuǎn)錄本;(B2)對(Bi)獲得的基因轉(zhuǎn)錄本分別進(jìn)行生物信息學(xué)分析,從而獲得亞洲玉米螟的基因信息(包括基因表達(dá)量信息、基因注釋信息及基因功能信息)及功能基因。在一個(gè)優(yōu)選例中,步驟(Bi)包括(al)提取亞洲玉米螟的總RNA,分離出3’端帶有polyA的mRNA,隨機(jī)打斷mRNA回收200-700bp片段,反轉(zhuǎn)錄并合成雙鏈cDNA ;(bl)對(al)獲得的序列進(jìn)行測序;(cl)將測序結(jié)果進(jìn)行拼接與組裝,獲得Unigene,并確定其方向。在另一優(yōu)選例中,步驟(B2)中,所述的生物信息學(xué)分析包括(但不限于)基因注釋,CDS預(yù)測,差異表達(dá)基因篩選及代謝通路分析。
在另一優(yōu)選例中,所述的基因注釋包括表達(dá)量注釋,功能注釋。在另一優(yōu)選例中,所述的差異表達(dá)基因篩選包括G0功能顯著性富集分析, Pathway顯著性富集分析。本發(fā)明的其它方面由于本文的公開內(nèi)容,對本領(lǐng)域的技術(shù)人員而言是顯而易見的。
圖1、RNA-seq的樣品處理及測序流程示意圖。圖2、RNA-seq數(shù)據(jù)分析流程示意圖。
具體實(shí)施例方式針對目前難以從無基因組參考序列的物種中獲得基因信息的技術(shù)難題,本發(fā)明人經(jīng)過廣泛而深入的研究,首次采用RNA-seq技術(shù)發(fā)掘到很多亞洲玉米螟不同發(fā)育時(shí)期的基因信息、基因功能和表達(dá)情況。RNA-seq 技術(shù)RNA-seq技術(shù)是指將一定時(shí)期一定條件下一個(gè)細(xì)胞中所有轉(zhuǎn)錄本(包括:mRNA、 smallRNA和非編碼RNA)測序并進(jìn)行相對定量。RNA-seq技術(shù)可以獲得特定細(xì)胞、組織一定狀態(tài)下的總RNA,能夠快速地檢測到幾乎所有轉(zhuǎn)錄本,這一技術(shù)為研究某一物種的基因組的表達(dá)情況提供了技術(shù)支持。RNA-seq被用來在轉(zhuǎn)錄本結(jié)構(gòu)(UTR區(qū)域鑒定、intron/exon鑒定、可變剪切、 promoter區(qū)域鑒定等)、非編碼區(qū)功能(non-coding RNA、microRNA等)、基因轉(zhuǎn)錄水平和新轉(zhuǎn)錄區(qū)域的研究。RNA-seq通過mRNA測序得到約75bp的序列,通過組裝拼接得到基因的全長序列。利用該方法可以快速、高通量獲取物種生長期內(nèi)基因組所有的轉(zhuǎn)錄本序列信息及其表達(dá)豐度,然后通過生物信息學(xué)軟件將其序列與現(xiàn)有近源物種數(shù)據(jù)庫(如歐洲玉米螟、家蠶以及果蠅)來進(jìn)行比較,得到基因的注釋信息,并進(jìn)行分類和Pattway分析。對于比對不到的序列,可以進(jìn)行CDS掃描,然后對其功能進(jìn)行預(yù)測。所述的RNA-seq主要包含以下步驟樣品總RNA的提取(包括對總RNA提取進(jìn)行純化,DNA酶處理,得到純度、質(zhì)量均能符合要求的樣品,須達(dá)到Agilent2100檢測要求) ’文庫制備及測序;mRNA的分離及RNA-seq的測序(較佳地利用第二代測序技術(shù));數(shù)據(jù)分析, 剔除雜質(zhì)數(shù)據(jù),對RNA-seq組裝后的結(jié)果進(jìn)行整合;生物信息學(xué)分析(Blast分析、GO注釋、 KEGG注釋,預(yù)測基因功能)。作為本發(fā)明的優(yōu)選實(shí)施方式,采用所述的RNA-seq技術(shù)測定亞洲玉米螟生長期內(nèi)基因組所有轉(zhuǎn)錄本的序列信息及表達(dá)豐度信息,并且基于這些信息對亞洲玉米螟基因組轉(zhuǎn)錄本進(jìn)行了功能注釋和pattway分析,并且高通量地對基因表達(dá)量,表達(dá)差異等進(jìn)行分析。 通過RNA-seq的方法與傳統(tǒng)的基因功能研究相比,無論從得到數(shù)據(jù)的周期、數(shù)據(jù)的數(shù)量、質(zhì)量都得到顯著的優(yōu)化,同時(shí)節(jié)約了大量的工作量和試驗(yàn)成本。將所述的RNA-seq的方法運(yùn)用于亞洲玉米螟研究中,首先通過RNA-seq技術(shù)獲得了亞洲玉米螟全發(fā)育期的cDNA序列的信息,共得到了 97407個(gè)序列信息;46986條 Unigene ;包含RNA-seq名稱、序列長度及表達(dá)數(shù)、COG預(yù)測、COG功能注釋、KEGG注釋、KEGG-pathway, GO注釋的共46884條信息;以及包括對獲得的序列信息進(jìn)行CDS核酸序列預(yù)測的蛋白功能注釋共16443條信息。采用所述的RNA-seq的方法,優(yōu)點(diǎn)如下(1)高通量獲得待測物種(如亞洲玉米螟)基因組所有轉(zhuǎn)錄本序列信息;(2)快速獲得待測物種(如亞洲玉米螟)基因表達(dá)豐度信息及表達(dá)差異;(3)快速大量獲得待測物種(如亞洲玉米螟)基因組轉(zhuǎn)錄本的注釋信息;(4)可對待測物種(如亞洲玉米螟)未知功能基因進(jìn)行結(jié)構(gòu)預(yù)測和功能分析。下面結(jié)合具體實(shí)施例,進(jìn)一步闡述本發(fā)明。應(yīng)理解,這些實(shí)施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。下列實(shí)施例中未注明具體條件的實(shí)驗(yàn)方法,通常按照常規(guī)條件如 Sambrook 等人,分子克隆實(shí)驗(yàn)室指南(New York Co Id Spring Harbor Laboratory Press, 1989)中所述的條件,或按照制造廠商所建議的條件。除非另外說明,否則百分比和份數(shù)按重量計(jì)算。除非另行定義,文中所使用的所有專業(yè)與科學(xué)用語與本領(lǐng)域熟練人員所熟悉的意義相同。此外,任何與所記載內(nèi)容相似或均等的方法及材料皆可應(yīng)用于本發(fā)明中。文中所述的較佳實(shí)施方法與材料僅作示范之用。實(shí)施例1、RNA-seq分析樣品處理及測序流程見圖1。具體方法如下1.亞洲玉米螟Total RNA的提取采用常規(guī)的Trizol法提取,純化,DNA酶處理,獲得濃度彡300ng/ul、總量彡6ug、 0D260/280 為 1. 8 2. 2 的 Total RNA 樣品(須達(dá)到 Agilent 2100 檢測要求)。2. mRNA的分離及隨機(jī)打斷用帶有oligo-dT的磁珠分離出帶有polyA的mRNA,然后利用超聲波隨機(jī)打斷,回收200-700bp的片段。3. cDNA第一鏈和第二鏈的合成cDNA第一鏈的合成是用隨機(jī)6聚物和hvitrogen的Superscript II reversetranscriptase 試劑盒進(jìn)行。cDNA 第二鏈?zhǔn)怯?RNase H(Invitrogen)和 DNA 聚合酶 I (New England BioLabs)完成。4.在cDNA片段上錨定上由Illumina/Solexa測序試劑盒中提供的接頭序列5' RNA Adapter(SEQ ID NO 1)5 ‘ P-GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG ;3' RNA Adapter(SEQ ID NO :2)5' ACACTCTTTCCCTACACGACGCTCTTCCGATCT ;5. PCR 擴(kuò)增用上述接頭序列中的引物進(jìn)行15個(gè)循環(huán)的PCR擴(kuò)增。6.文庫構(gòu)建及檢測利用上述步驟中得到的序列,按照Illumina公司sample prep kit進(jìn)行文庫構(gòu)建及檢測。7. RNA-seq 的測序?qū)⒔ê玫奈膸煲?_7pM的濃度加到Illumina測序儀(Genome Analyzer II)的相應(yīng)通道上,按照制造商提供的方法運(yùn)行36個(gè)循環(huán)。8.數(shù)據(jù)分析簡單流程見圖2。剔除雜質(zhì)數(shù)據(jù),對RNA-seq組裝后的結(jié)果進(jìn)行整合。之前的步驟得到的是原始數(shù)據(jù),其中含有步驟4中加入的接頭序列,將其去除后稱為Clean reads,就可以進(jìn)行拼接與組裝。具體方法是利用將得到的Cleanreads,利用組裝軟件SOAPdenovo, 按照Li等2010年發(fā)表在Genome Res.上第20卷第沈5_272頁上的方法進(jìn)行。SOAPdenovo 首先將具有一定長度overlap的reads連成更長的片段,這些通過reads overlap關(guān)系得到的不含N的組裝片段本發(fā)明人稱之為Contig。然后,將reads比對回Contig,通過 paired-end reads能確定來自同一轉(zhuǎn)錄本的不同Contig以及這些Contig之間的距離, SOAPdenovo將這些Contig連在一起,中間未知序列用N表示,這樣就得到kaffold。進(jìn)一步利用paired-end reads對kaffold做補(bǔ)洞處理,最后得到含N最少,兩端不能再延長的序列,稱之為Unigene。9.生物信息學(xué)分析將上述得到的Unigene序列與蛋白數(shù)據(jù)庫nr、Swiss_Prot、KEGG和COG做blastx 比對(evalue < 0. 00001),取比對結(jié)果最好的蛋白確定Unigene的序列方向。如果不同庫之間的比對結(jié)果有矛盾,則按nr、Swiss-Prot、KEGG和COG的優(yōu)先級確定Unigene的序列方向,跟以上四個(gè)庫皆比不上的Unigene,用軟件ESI^can(Iseli,Jongeneel等1999,Menlo Park ed. (AAAI Press),pp. 138-148.)預(yù)測其編碼區(qū)并確定序列的方向。對于能確定序列方向的Unigene,給出其從5 ’到3 ’方向的序列;對于無法確定序列方向的Unigene,給出組裝軟件得到的序列。實(shí)施例2、RNA-seq分析結(jié)果通過RNA-seq技術(shù)獲得了亞洲玉米螟全發(fā)育期的cDNA序列的信息,共得到了 97407個(gè)序列信息;46986條Unigene ;包含RNA-seq名稱、序列長度及表達(dá)數(shù)、COG預(yù)測、COG 功能注釋、KEGG注釋、KEGG-pattiWay、G0注釋的共46884條信息;以及包括對獲得的序列信息進(jìn)行CDS核酸序列預(yù)測的蛋白功能注釋共16443條信息。部分序列列舉如下表1.亞洲玉米螟的部分Unigenes的表達(dá)量、功能注釋及其代謝通路分析
權(quán)利要求
1.一種獲得亞洲玉米螟(Ostrinia furnacalis Guenee)的轉(zhuǎn)錄組及功能基因的方法, 包括(Bi)獲得亞洲玉米螟全基因組中的各種基因轉(zhuǎn)錄本;(B2)對(Bi)獲得的基因轉(zhuǎn)錄本分別進(jìn)行生物信息學(xué)分析,從而獲得亞洲玉米螟的基因信息及功能基因。
2.如權(quán)利要求1所述的方法,其特征在于,步驟(Bi)包括(al)提取亞洲玉米螟的總RNA,分離出3’端帶有polyA的mRNA,隨機(jī)打斷mRNA回收 200-700bp片段,反轉(zhuǎn)錄并合成雙鏈cDNA ; (bl)對(al)獲得的序列進(jìn)行測序;(cl)將測序結(jié)果進(jìn)行拼接與組裝,獲得Unigene,并確定其方向。
3.如權(quán)利要求1所述的方法,其特征在于,步驟(B2)中,所述的生物信息學(xué)分析包括 基因注釋,CDS預(yù)測,差異表達(dá)基因篩選及代謝通路分析。
4.如權(quán)利要求3所述的方法,其特征在于,所述的基因注釋包括表達(dá)量注釋,功能注釋。
5.如權(quán)利要求3所述的方法,其特征在于,所述的差異表達(dá)基因篩選包括G0功能顯著性富集分析,Pathway顯著性富集分析。
全文摘要
本發(fā)明涉及亞洲玉米螟的轉(zhuǎn)錄組及功能基因及其獲得方法。本發(fā)明所述的方法方便、快捷、準(zhǔn)確且成本低廉??色@得全面的、準(zhǔn)確的亞洲玉米螟的全基因組轉(zhuǎn)錄本信息、功能基因表達(dá)量及其代謝通路信息。
文檔編號C12Q1/68GK102277416SQ20101019734
公開日2011年12月14日 申請日期2010年6月10日 優(yōu)先權(quán)日2010年6月10日
發(fā)明者張 浩, 李海超, 王玉冰, 苗雪霞, 黃勇平 申請人:中國科學(xué)院上海生命科學(xué)研究院