專利名稱:從無基因組參考序列物種獲得基因信息及功能基因的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物技術(shù)領(lǐng)域;更具體地,本發(fā)明涉及從無基因組參考序列物種獲得基因信息及功能基因的方法。
背景技術(shù):
在缺乏基因組參考序列的物種中快速、高通量地發(fā)掘新基因一直是困擾生物學(xué)家研究的主要問題,傳統(tǒng)的基因發(fā)掘的方法一般利用構(gòu)建文庫,SAGE技術(shù),MPSS技術(shù),或者基因組測序的方法獲得,然而這些方法一般均存在成本高,工作量大,獲得大量的龐雜序列, 而且在無參考基因組序列的情況下很難剔除冗余序列,這些問題嚴(yán)重影響了對(duì)動(dòng)植物基因組水平的研究。數(shù)字基因表達(dá)標(biāo)簽(DGE-tag)和高通量轉(zhuǎn)錄組分析(RNA-seq)是基于新一代測序技術(shù)獲得表達(dá)序列標(biāo)簽和基因轉(zhuǎn)錄本序列。DGE-tag基于數(shù)字化表達(dá)譜獲得表達(dá)基因的標(biāo)簽序列(Digital Gene Expression Tag Profile,DGE-tag),利用新一代測序技術(shù)可以快速、全面、高通量檢測特定組織或不同狀態(tài)下的基因表達(dá)情況,以特異的3’末端21bp 的DGE-tag標(biāo)記特異的基因,并以DGE-tag重復(fù)次數(shù)標(biāo)示該基因的表達(dá)量的技術(shù);RNA-seq 針對(duì)特定細(xì)胞一定狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA的總和,能夠快速的檢測幾乎所有轉(zhuǎn)錄本。目前,這兩項(xiàng)技術(shù)分別廣泛應(yīng)用于醫(yī)學(xué)、生物、農(nóng)業(yè)等行業(yè),DGE-tag常被應(yīng)用于分析 Tag序列所代表的基因,基因表達(dá)水平,樣品間基因表達(dá)差異的研究,而RNA-seq則被用來在轉(zhuǎn)錄本結(jié)構(gòu)(UTR區(qū)域鑒定、intron/exon鑒定、可變剪切、promoter區(qū)域鑒定等)、非編碼區(qū)功能(non-coding RNA、microRNA等)、基因轉(zhuǎn)錄水平和新轉(zhuǎn)錄區(qū)域的研究,兩種方法在理論上均可得到單一物種的所有轉(zhuǎn)錄本信息,但是以不同的表現(xiàn)模式呈現(xiàn),DGE-tag以3’ 端21bp的tag序列對(duì)應(yīng)唯一的基因序列,并通過不同的reads數(shù)量呈現(xiàn)該基因在特定時(shí)期和組織的表達(dá)量。RNA-seq通過mRNA測序得到75bp的序列,通過組裝拼接得到基因的全長序列。利用這兩種方法分別發(fā)掘新基因,研究基因功能具有高通量,可重復(fù)性高等優(yōu)點(diǎn),但是也有其不理想的地方,如DGE-tag雖然能快速的找出不同基因或樣品間的表達(dá)差異,但是為了進(jìn)一步的研究基因功能還必須在獲得tag序列之后,結(jié)合GIGI技術(shù)、RACE技術(shù)進(jìn)行進(jìn)一步的擴(kuò)增以得到基因序列,并通過qPCR或Northern blot驗(yàn)證,這些工作無疑需要大量的人力物力才能完成,同時(shí),由于tag序列僅為21bp的序列,在對(duì)其進(jìn)行基因注釋的時(shí)候不可避免地造成缺失或錯(cuò)配。因此,需要開發(fā)更為合理、更為準(zhǔn)確且成本低廉的方法來從基因組中發(fā)掘新的基因信息。亞洲玉米螟(Ostrinia furnacalis Guen6e)是重要世界性農(nóng)業(yè)害蟲,主要危害玉米、高粱、向日葵等重要的糧食經(jīng)濟(jì)作物,目前對(duì)亞洲玉米螟的防治,仍然是以化學(xué)防治為主,對(duì)生態(tài)環(huán)境及糧食安全生產(chǎn)造成了巨大的損害,而利用抗蟲育種的方法雖然能很好地降低生態(tài)壓力,但是其育種周期長和植物抗性單一,容易產(chǎn)生害蟲抗性,利用分子育種抗蟲的方法是目前較好的解決方案。而目前對(duì)玉米螟分子機(jī)制的研究較少,基因信息十分匱乏,使得玉米螟基因?qū)用娴难芯窟M(jìn)展緩慢。因?yàn)闆]有該物種的全基因組序列,一直以來對(duì)于該物種的研究還處于傳統(tǒng)生物學(xué)的階段,而分子生物學(xué)層面的研究相對(duì)較少,主要是基于近源物種的相似基因進(jìn)行研究。對(duì)于缺乏基因組序列的物種,新基因的發(fā)現(xiàn)和功能研究一直是困擾生物學(xué)家研究的主要問題,傳統(tǒng)的基因發(fā)掘的方法一般利用構(gòu)建文庫,SAGE技術(shù), MPSS技術(shù),或者基因組測序的方法獲得,然而這些方法一般均存在成本高,工作量大,獲得大量的雜質(zhì)序列,而且在無參考基因組的情況下很難剔除冗余序列,這些問題嚴(yán)重影響了對(duì)動(dòng)植物基因組水平的研究。因此,需要找到合適的發(fā)掘亞洲玉米螟基因組基因的方法,以期了解盡可能多的亞洲玉米螟基因,為從分子生物學(xué)層面開發(fā)防治亞洲玉米螟的技術(shù)提供有效途徑。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供從無基因組參考序列物種獲得基因信息及功能基因的方法。本發(fā)明的另一目的在于提供獲得亞洲玉米螟的基因表達(dá)譜的方法。本發(fā)明的另一目的在于獲得亞洲玉米螟的基因信息及功能基因的方法。在本發(fā)明的第一方面,提供一種從無基因組參考序列物種發(fā)掘基因信息的方法, 包括(1)獲得待測物種的數(shù)字基因表達(dá)譜(Digital Gene Expression-tag Profile ; DGE-tag),其中包括基因表達(dá)標(biāo)簽(Tag)的序列及豐度;(2)獲得待測物種全基因組轉(zhuǎn)錄本的集合(RNA-Seq),形成序列數(shù)據(jù)庫;(3)將⑴獲得的數(shù)字基因表達(dá)譜中的基因表達(dá)標(biāo)簽分別與(2)獲得的序列數(shù)據(jù)庫進(jìn)行比較,找到與該基因表達(dá)標(biāo)簽匹配的轉(zhuǎn)錄本序列,得到與該基因表達(dá)標(biāo)簽相應(yīng)的基因全長cDNA序列,將該基因全長cDNA序列與已知基因信息的基因序列數(shù)據(jù)庫進(jìn)行比較和分析,獲得該序列對(duì)應(yīng)的基因的潛在功能;同時(shí),根據(jù)(1)獲得的該基因表達(dá)標(biāo)簽豐度獲得其對(duì)應(yīng)基因的表達(dá)量或表達(dá)模式。在一個(gè)優(yōu)選例中,所述的待測物種(動(dòng)物或植物)處于發(fā)育的某一時(shí)期。在另一優(yōu)選例中,所述的物種是動(dòng)物或植物。在另一優(yōu)選例中,步驟(1)包括(a)提取待測物種的總RNA,分離出mRNA,反轉(zhuǎn)錄并合成雙鏈cDNA,利用內(nèi)切酶 NlaIII切斷雙鏈cDNA,連接帶有Mmel酶識(shí)別位點(diǎn)的接頭,然后用Mmel酶切獲得帶有CATG 位點(diǎn)的長度為21bp的片段;(b)利用Illumina平臺(tái)合成基因表達(dá)標(biāo)簽庫并進(jìn)行測序,選擇長度為21bp且拷貝數(shù)高于1的標(biāo)簽;(c)統(tǒng)計(jì)(b)獲得的每個(gè)基因表達(dá)標(biāo)簽的豐度(表達(dá)量)。在另一優(yōu)選例中,步驟⑵包括(a)提取待測物種的總RNA,分離出3’端帶有polyA的mRNA,隨機(jī)打斷mRNA回收 200-700bp片段,反轉(zhuǎn)錄并合成雙鏈cDNA ;(b)對(duì)(a)獲得的序列進(jìn)行測序;(c)將測序結(jié)果進(jìn)行拼接與組裝,獲得Unigene,并確定其方向。在另一優(yōu)選例中,步驟(3)中,所述的比較和分析還包括CDS預(yù)測,表達(dá)分析,轉(zhuǎn)錄本分析。在另一優(yōu)選例中,所述的表達(dá)分析包括基因注釋,差異表達(dá)分析,表達(dá)量分析,表達(dá)模式分析,KEGG功能注釋,GO功能顯著性富集分析,Pathway顯著性富集分析。在另一優(yōu)選例中,所述的物種是亞洲玉米螟(Ostrinia furnacalis Guenee) 在本發(fā)明的另一方面,提供一種獲得亞洲玉米螟的基因表達(dá)譜的方法,包括(Si)獲得亞洲玉米螟某一發(fā)育時(shí)期的數(shù)字基因表達(dá)譜(Digital GeneExpression-tag Profile ;DGE-tag),其中包括基因表達(dá)標(biāo)簽(Tag)的序列及豐度;(S2)對(duì)(Si)獲得的基因表達(dá)標(biāo)簽進(jìn)行生物信息學(xué)分析,從而得知該標(biāo)簽對(duì)應(yīng)的基因、其潛在的功能、其表達(dá)量或表達(dá)模式。在一個(gè)優(yōu)選例中,所述的發(fā)育時(shí)期包括(但不限于)卵期、幼蟲期、蛹期、成蟲期。在另一優(yōu)選例中,步驟(Si)包括(al)提取亞洲玉米螟的總RNA,分離出mRNA,反轉(zhuǎn)錄并合成雙鏈cDNA,利用內(nèi)切酶 NlaIII切斷雙鏈cDNA,連接帶有Mmel酶識(shí)別位點(diǎn)的接頭,然后用Mmel酶切獲得帶有CATG 位點(diǎn)的長度為21bp的片段;(bl)利用Illumina平臺(tái)合成基因表達(dá)標(biāo)簽庫并進(jìn)行測序,選擇長度為21bp且拷貝數(shù)高于1的標(biāo)簽;(cl)統(tǒng)計(jì)(bl)獲得的每個(gè)基因表達(dá)標(biāo)簽的豐度(表達(dá)量)。在另一優(yōu)選例中,步驟(S》中,所述的生物信息學(xué)分析包括(但不限于)基因注釋、標(biāo)準(zhǔn)化(其間或之前還包括Tag表達(dá)量即分布分析、測序飽和度分析、 實(shí)驗(yàn)重復(fù)性分析,共有、特有、差異Tag分析),差異基因篩選(其間或之前還包括基因表達(dá)量統(tǒng)計(jì),反義鏈的轉(zhuǎn)錄分析)。在另一優(yōu)選例中,所述的差異表達(dá)基因篩選包括表達(dá)模式聚類分析,GO功能顯著性富集分析,Pathway顯著性富集分析。在本發(fā)明的另一方面,提供一種獲得亞洲玉米螟的基因信息及功能基因的方法, 包括(Bi)獲得亞洲玉米螟全基因組中的各種基因轉(zhuǎn)錄本;(B2)對(duì)(Bi)獲得的基因轉(zhuǎn)錄本分別進(jìn)行生物信息學(xué)分析,從而獲得亞洲玉米螟的基因信息(包括基因表達(dá)量信息、基因注釋信息及基因功能信息)及功能基因。在一個(gè)優(yōu)選例中,步驟(Bi)包括(al)提取亞洲玉米螟的總RNA,分離出3’端帶有polyA的mRNA,隨機(jī)打斷mRNA回收200-700bp片段,反轉(zhuǎn)錄并合成雙鏈cDNA ;(bl)對(duì)(al)獲得的序列進(jìn)行測序;(cl)將測序結(jié)果進(jìn)行拼接與組裝,獲得Unigene,并確定其方向。在另一優(yōu)選例中,步驟(B》中,所述的生物信息學(xué)分析包括(但不限于)基因注釋,⑶S預(yù)測,差異表達(dá)基因篩選。在另一優(yōu)選例中,所述的基因注釋包括表達(dá)量注釋,功能注釋。在另一優(yōu)選例中,所述的差異表達(dá)基因篩選包括G0功能顯著性富集分析, Pathway顯著性富集分析。本發(fā)明的其它方面由于本文的公開內(nèi)容,對(duì)本領(lǐng)域的技術(shù)人員而言是顯而易見的。
圖1、DGE-tag試驗(yàn)方法的流程示意圖。圖2、DGE-tag的數(shù)據(jù)分析流程示意圖。圖3、RNA-seq的樣品處理及測序流程示意圖。圖4、RNA-seq數(shù)據(jù)分析流程示意圖。圖5、DGE-tag和RNA-seq兩種方法整合的試驗(yàn)方法的流程示意圖。圖6、DGE-tag和RNA-seq兩種方法整合的分析方法的流程示意圖。圖7、采用GO注釋對(duì)一些基因進(jìn)行功能注釋的統(tǒng)計(jì)圖。
具體實(shí)施例方式針對(duì)目前難以從無基因組參考序列的物種中獲得基因信息的技術(shù)難題,本發(fā)明人經(jīng)過廣泛而深入的研究,首次將DGE-tag技術(shù)與RNA-seq技術(shù)相結(jié)合,用于從無基因組參考序列的物種中獲得基因信息,所述方法方便、快捷、準(zhǔn)確且成本低廉。鑒于目前現(xiàn)有技術(shù)中對(duì)于亞洲玉米螟的基因組序列沒有深入研究的問題,本發(fā)明人還分別利用DGE-tag技術(shù)與 RNA-seq技術(shù)以及兩種方法的結(jié)合發(fā)掘到很多亞洲玉米螟不同發(fā)育時(shí)期的基因信息、基因功能和表達(dá)情況。DGE-tag 技術(shù)數(shù)字基因表達(dá)譜(DigitalGene Expression Tag Profile,DGE-tag)是基于第二代測序技術(shù)的全基因組表達(dá)譜技術(shù),以3’末端21bp的Tag-seq標(biāo)記特異表達(dá)的基因。利用高通量測序得到數(shù)百萬個(gè)基因的特異標(biāo)簽,并以Tag-seq重復(fù)次數(shù)標(biāo)示該基因的表達(dá)量, 而數(shù)字的序列信號(hào)可以準(zhǔn)確、特異地反映對(duì)應(yīng)基因的真實(shí)表達(dá)情況。這種技術(shù)可以快速、 全面、高通量檢測特定組織或不同狀態(tài)情況下的基因表達(dá)水平及樣品間基因表達(dá)差異等信息。由于序列無需事先設(shè)計(jì),DGE數(shù)據(jù)具有極佳的實(shí)時(shí)性,可以覆蓋到許多未曾注釋的基因, 更加全面、準(zhǔn)確地把握全基因組的基因表達(dá)情況,為新基因的發(fā)現(xiàn)提供了良好的線索。然而,由于DGE-tag技術(shù)獲得的標(biāo)簽序列只有21bp,基于該短序列來獲得全長基因還需要復(fù)雜的分析步驟,在對(duì)其進(jìn)行基因注釋的時(shí)候可能會(huì)造成缺失或錯(cuò)配。所述的DGE-tag主要包含以下步驟樣品總RNA的提取(包括需對(duì)總RNA提取進(jìn)行純化,DNA酶處理,得到純度、質(zhì)量均能符合要求的樣品(須達(dá)到Agilent 2100檢測要求));mRNA的分離及cDNA的合成;Tag制備及測序(利用第二代測序技術(shù)獲得Tag-seq); 以及生物信息學(xué)分析,例如包括測序評(píng)估,基因表達(dá)注釋,差異表達(dá)基因的篩選,反義鏈的轉(zhuǎn)錄分析,差異基因表達(dá)模式聚類分析,Gene Ontology功能顯著性富集分析,Pattway顯著性富集分析。通過以上方法,快速高效地獲得最大化的tag信息,篩選靶標(biāo)基因,鑒定存在于待測物種不同發(fā)育時(shí)期的不同轉(zhuǎn)錄本并預(yù)測其功能。作為本發(fā)明的優(yōu)選實(shí)施方式,將所述的DGE-tag方法首次運(yùn)用于亞洲玉米螟的研究當(dāng)中。利用DGE-tag技術(shù),從亞洲玉米螟變態(tài)發(fā)育入手,得到四個(gè)發(fā)育時(shí)期(卵期、幼蟲期、蛹期、成蟲期)的全基因組表達(dá)譜,并對(duì)得到的所有信息進(jìn)行生物信息學(xué)分析,篩選差異表達(dá)基因,分析功能基因,并預(yù)測可能的功能基因調(diào)控途徑。采用所述的DGE-tag的方法,首次獲得了亞洲玉米螟卵、幼蟲、蛹、成蟲四個(gè)發(fā)育時(shí)期的320985個(gè)Tag-seq序列;四個(gè)發(fā)育時(shí)期得到注釋的標(biāo)簽數(shù)分別為31504、33081、 33340和37352個(gè)。采用本發(fā)明的方法,在對(duì)亞洲玉米螟所有DGE-tag進(jìn)行功能注釋后, 獲得共35779個(gè)功能基因的注釋,包括卵期8415個(gè)、幼蟲期7988個(gè)、蛹期9123個(gè)、成蟲期 10253個(gè)功能基因。獲得的信息包括基因名稱、注釋信息、GO功能預(yù)測、Blast nr、基因?qū)?yīng)的Tag序列、拷貝數(shù)和標(biāo)準(zhǔn)化值。采用所述的DGE-tag的方法,優(yōu)點(diǎn)如下(1)高通量獲得了待測物種(如亞洲玉米螟)各發(fā)育時(shí)期全基因組表達(dá)譜,通過對(duì)標(biāo)簽序列的統(tǒng)計(jì)分析來確定基因表達(dá)時(shí)期及豐度;(2)快速、低成本、高通量、高時(shí)效地得到待測物種(如亞洲玉米螟)的靶標(biāo)基因信息;(3)獲得了大量待測物種(如亞洲玉米螟)不同發(fā)育時(shí)期的差異表達(dá)基因及反義鏈調(diào)控基因;(4)獲得大量的待測物種(如亞洲玉米螟)基因功能信息及其參與代謝通路的信息,為進(jìn)一步的研究提供參考信息。RNA-seq 技術(shù)RNA-seq技術(shù)是指將一定時(shí)期一定條件下一個(gè)細(xì)胞中所有轉(zhuǎn)錄本(包括:mRNA、 smallRNA和非編碼RNA)測序并進(jìn)行相對(duì)定量。RNA-seq技術(shù)可以獲得特定細(xì)胞、組織一定狀態(tài)下的總RNA,能夠快速地檢測到幾乎所有轉(zhuǎn)錄本,這一技術(shù)為研究某一物種的基因組的表達(dá)情況提供了技術(shù)支持。RNA-seq被用來在轉(zhuǎn)錄本結(jié)構(gòu)(UTR區(qū)域鑒定、intron/exon鑒定、可變剪切、 promoter區(qū)域鑒定等)、非編碼區(qū)功能(non-coding RNA、microRNA等)、基因轉(zhuǎn)錄水平和新轉(zhuǎn)錄區(qū)域的研究,RNA-seq通過mRNA測序得到約75bp的序列,通過組裝拼接得到基因的全長序列。利用該方法可以快速、高通量獲取物種生長期內(nèi)基因組所有的轉(zhuǎn)錄本序列信息及其表達(dá)豐度,然后通過生物信息學(xué)軟件將其序列與現(xiàn)有近源物種數(shù)據(jù)庫(如歐洲玉米螟、 家蠶以及果蠅)來進(jìn)行比較,得到基因的注釋信息,并進(jìn)行分類和Pattway分析。對(duì)于比對(duì)不到的序列,可以進(jìn)行CDS掃描,然后對(duì)其功能進(jìn)行預(yù)測。所述的RNA-seq主要包含以下步驟樣品總RNA的提取(包括對(duì)總RNA提取進(jìn)行純化,DNA酶處理,得到純度、質(zhì)量均能符合要求的樣品,須達(dá)到Agilent2100檢測要求); Tag制備及測序;mRNA的分離及RNA-seq的測序(較佳地利用第二代測序技術(shù));數(shù)據(jù)分析, 剔除雜質(zhì)數(shù)據(jù),對(duì)RNA-seq組裝后的結(jié)果進(jìn)行整合;生物信息學(xué)分析(Blast分析、GO注釋、 KEGG注釋,預(yù)測基因功能)。作為本發(fā)明的優(yōu)選實(shí)施方式,采用所述的RNA-seq技術(shù)測定亞洲玉米螟生長期內(nèi)基因組所有轉(zhuǎn)錄本的序列信息及表達(dá)豐度信息,并且基于這些信息對(duì)亞洲玉米螟基因組轉(zhuǎn)錄本進(jìn)行了功能注釋和pattway分析,并且高通量地對(duì)基因表達(dá)量,表達(dá)差異等進(jìn)行分析。 通過RNA-seq的方法與傳統(tǒng)的基因功能研究相比,無論從得到數(shù)據(jù)的周期、數(shù)據(jù)的數(shù)量、質(zhì)量都得到顯著的優(yōu)化,同時(shí)節(jié)約了大量的工作量和試驗(yàn)成本。 將所述的RNA-seq的方法運(yùn)用于亞洲玉米螟研究中,首先通過RNA-seq技術(shù)獲得了亞洲玉米螟全發(fā)育期的cDNA序列的信息,共得到了 97407個(gè)序列信息;46986條 Unigene ;包含RNA-seq名稱、序列長度及表達(dá)數(shù)、COG預(yù)測、COG功能注釋、KEGG注釋、 KEGG-pathway, GO注釋的共46884條信息;以及包括對(duì)獲得的序列信息進(jìn)行CDS核酸序列預(yù)測的蛋白功能注釋共16443條信息。采用所述的RNA-seq的方法,優(yōu)點(diǎn)如下(1)高通量獲得待測物種(如亞洲玉米螟)基因組所有轉(zhuǎn)錄本序列信息;(2)快速獲得待測物種(如亞洲玉米螟)基因表達(dá)豐度信息及表達(dá)差異;(3)快速大量獲得待測物種(如亞洲玉米螟)基因組轉(zhuǎn)錄本的注釋信息;(4)可對(duì)待測物種(如亞洲玉米螟)未知功能基因進(jìn)行結(jié)構(gòu)預(yù)測和功能分析。DGE-tag和RNA-seq技術(shù)的結(jié)合應(yīng)用利用DGE-tag和RNA-seq技術(shù)的結(jié)合,可方便地發(fā)掘無基因組參考序列物種的基因信息。具體設(shè)計(jì)是利用新一代的測序技術(shù),基于DGE-tag和RNA-seq技術(shù)快速發(fā)掘無基因組參考序列物種的基因信息及功能基因發(fā)現(xiàn)的方法。本發(fā)明人發(fā)現(xiàn),RNA-seq技術(shù)可以彌補(bǔ)DGE-tag技術(shù)的不足,通過mRNA直接測序及對(duì)結(jié)果的分析,可以得到所有轉(zhuǎn)錄本的基因序列信息,將感興趣的tag序列與RNA-seq結(jié)果比對(duì),可直接對(duì)目的基因的信息進(jìn)行分析,而且,由于得到了大量基因序列的信息,在對(duì)其進(jìn)行分析的時(shí)候保證了結(jié)果的準(zhǔn)確性。DGE-tag和RNA-seq技術(shù)的結(jié)合主要包含以下步驟1.樣品總RNA的提取(須達(dá)到Agilent 2100檢測要求)。該步驟需對(duì)總RNA提取進(jìn)行純化,DNA酶處理,得到純度、質(zhì)量均能符合要求的樣品。2. Tag制備及測序。3. mRNA的分離及RNA-seq的測序。4.數(shù)據(jù)分析,剔除雜質(zhì)數(shù)據(jù),Tag序列與RNA-seq組裝后的結(jié)果進(jìn)行整合。通過生物信息學(xué)分析對(duì)數(shù)據(jù)進(jìn)行整合,快速高效的獲得最大化的基因信息。5.從比對(duì)結(jié)果中篩選感興趣的基因或基因組。6.生物信息學(xué)分析(Blast分析、GO注釋、KEGG注釋,預(yù)測基因功能)。
7.發(fā)掘新基因(UTR區(qū)域、內(nèi)顯子/外顯子、可變剪切、啟動(dòng)子區(qū)域等)并進(jìn)行功能研究。其中,步驟5、6、7利用生物信息學(xué)分析發(fā)掘靶標(biāo)基因,鑒定可能存在于動(dòng)物或植物體內(nèi)的位置、發(fā)育時(shí)期并預(yù)測其功能。本發(fā)明可用于無基因組參考序列物種的基因組學(xué)和功能基因組學(xué)研究。通過所述方法能直接獲得尚無基因組序列物種的所有轉(zhuǎn)錄本信息,用于進(jìn)一步的功能研究。本發(fā)明的方法與傳統(tǒng)的基因功能方面的研究相比,無論從獲得數(shù)據(jù)的周期、數(shù)據(jù)的數(shù)量、質(zhì)量上都得到顯著的優(yōu)化,同時(shí)節(jié)約了大量的工作量和試驗(yàn)成本。相對(duì)于現(xiàn)有技術(shù),將DGE-tag和RNA-seq技術(shù)的結(jié)合應(yīng)用具有以下優(yōu)點(diǎn)1)高通量的方法獲得無基因組參考序列物種的轉(zhuǎn)錄本信息;2)快速獲得基因或樣品間的基因表達(dá)差異;3)低成本、高通量、高時(shí)效地獲得靶標(biāo)基因的信息;4)兩種方法相結(jié)合,結(jié)果可以相互補(bǔ)充、相互驗(yàn)證,得到的數(shù)據(jù)更為精確可靠。
作為本發(fā)明的優(yōu)選實(shí)施方式,基于新一代測序技術(shù)的DGE-tag技術(shù)和RNA-seq技術(shù)相結(jié)合獲得未知基因組物種轉(zhuǎn)錄本信息的3’端21bp的tag序列和轉(zhuǎn)錄本的mRNA序列信息,通過生物信息學(xué)分析獲得靶標(biāo)基因的CDS序列、基因表達(dá)量、基因功能注釋等一系列的基因信息。利用本發(fā)明所述的方法,首次運(yùn)用于玉米螟的研究當(dāng)中,首先通過測序獲得了玉米螟全發(fā)育時(shí)期的RNA-seq序列和玉米螟卵、幼蟲、蛹、成蟲四個(gè)時(shí)期的DGE-tag序列,結(jié)合獲得具有cDNA序列的和表達(dá)注釋的基因信息,共35780個(gè)序列信息。并獲得了這些基因在不同發(fā)育時(shí)期的表達(dá)量差異,以及基因功能注釋等信息,為玉米螟功能基因的研究提供了大量的數(shù)據(jù),說明本發(fā)明具有很高的可操作性和可重復(fù)性。下面結(jié)合具體實(shí)施例,進(jìn)一步闡述本發(fā)明。應(yīng)理解,這些實(shí)施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。下列實(shí)施例中未注明具體條件的實(shí)驗(yàn)方法,通常按照常規(guī)條件如 Sambrook 等人,分子克隆實(shí)驗(yàn)室指南(New York Co Id Spring Harbor Laboratory Press, 1989)中所述的條件,或按照制造廠商所建議的條件。除非另外說明,否則百分比和份數(shù)按重量計(jì)算。除非另行定義,文中所使用的所有專業(yè)與科學(xué)用語與本領(lǐng)域熟練人員所熟悉的意義相同。此外,任何與所記載內(nèi)容相似或均等的方法及材料皆可應(yīng)用于本發(fā)明中。文中所述的較佳實(shí)施方法與材料僅作示范之用。實(shí)施例1、獲得DGE-tag以亞洲玉米螟的DGE-tag分析為例,方法步驟如下,簡明的實(shí)驗(yàn)流程見圖1和圖 2。1.亞洲玉米螟總RNA的提取采用常規(guī)Trizol法提取,常規(guī)方法純化,DNA酶處理,獲得濃度> 300ng/ul、總量彡 6ug、0D260/280 為 1. 8 2. 2 的 Total RNA 樣品(須達(dá)到 Agilent 2100 檢測要求)。2. mRNA的分離及cDNA的合成用帶有oligo-dT的磁珠分離出帶有polyA的mRNA,然后用隨機(jī)6聚物和 Invitrogen 白勺 Superscript II reverse transcriptase i式齊[J盒合成 cDNA 第一鏈。cDNA 第二鏈?zhǔn)怯?RNase H(Invitrogen)和 DNA 聚合酶 I (New England BioLabs)完成。3. Tag的制備及測序利用合成好的雙鏈cDNA,本發(fā)明人使用NlaIII,它識(shí)別并切斷cDNA上的 CATG位點(diǎn),利用磁珠沉淀純化帶有cDNA 3’端的片段,將其5’末端連接Illumina接頭 1(5 ‘ P-TCGGACTGTAGAACTCTGAAC(SEQ ID NO 6) ;5 ‘ ACAGGTTCAGAGTTCTACAGTCCGAC ATG(SEQ ID NO :7))。Illumina接頭1與CATG位點(diǎn)的結(jié)合處是MmeI的識(shí)別位點(diǎn),MmeI 是一種識(shí)別位點(diǎn)與酶切位點(diǎn)分離的內(nèi)切酶,酶切CATG位點(diǎn)下游17bp處,這樣就產(chǎn)生了帶有接頭1的Tag。通過磁珠沉淀去除3’片段后,在Tag 3’末端連接Illumina接頭 2(5' CAAGCAGAAGACGGCATACGANN(SEQ ID NO 8) ;5' P-TCGTATGCCGTCTTCTGCTTG(SEQ ID NO :9)),從而獲得兩端連有不同接頭序列的21bp標(biāo)簽文庫。經(jīng)過15個(gè)循環(huán)的PCR線性擴(kuò)增后,通過6% TBE PAGE膠電泳純化85堿基條帶,解鏈后,單鏈分子被加到Solexa測序芯片(flowcell)上并固定,每條分子經(jīng)過原位擴(kuò)增成為一個(gè)單分子簇(cluster)測序模板, 加入4色熒光標(biāo)記的4種核苷酸,采用邊合成邊測序法(sequencing by synthesis, SBS)測序。每個(gè)通道將產(chǎn)生數(shù)百萬條原始Read,Read的測序讀長為35bp。4.數(shù)據(jù)分析分析流程如圖2所示,具體如下(a)對(duì)原始數(shù)據(jù)進(jìn)行基本處理,得到高質(zhì)量的Tag序列原始序列帶有一段 3'adaptor序列,含有未知堿基N的Tag,不符合2Int的過長或過短的Tag以及拷貝數(shù)為1 的Tag等,利用相應(yīng)的識(shí)別軟件進(jìn)行處理,去除這些雜質(zhì)序列后得到的是Clean Tag。(b)通過統(tǒng)計(jì)每個(gè)Clean Tag序列的數(shù)量,得到該Tag標(biāo)簽對(duì)應(yīng)基因的表達(dá)量將雜質(zhì)成份去除后得到的Clean Tag,其中Tag的拷貝數(shù)反映了相應(yīng)基因的表達(dá)量。實(shí)施例2、DGE-tag分析DGE-tag分析接續(xù)實(shí)施例1,繼續(xù)進(jìn)行以下步驟(c)對(duì)Tag進(jìn)行注釋,建立Tag和基因的對(duì)應(yīng)關(guān)系由于亞洲玉米螟沒有參考基因數(shù)據(jù),本發(fā)明人參考同時(shí)完成的亞洲玉米螟RNA-seq數(shù)據(jù),利用軟件檢索亞洲玉米螟RNA-seq數(shù)據(jù)中所有的CATG位點(diǎn),生成CATG+17nt堿基的參考標(biāo)簽數(shù)據(jù)庫。然后將全部Clean Tag與參考標(biāo)簽數(shù)據(jù)庫比對(duì),允許最多一個(gè)堿基錯(cuò)配,對(duì)其中唯一比對(duì)到一個(gè)基因的標(biāo)簽(Unambiguous Tags)進(jìn)行基因注釋,統(tǒng)計(jì)每個(gè)基因?qū)?yīng)的原始Clean Tag數(shù), 然后對(duì)原始Clean Tag數(shù)做標(biāo)準(zhǔn)化處理,獲得標(biāo)準(zhǔn)化的基因表達(dá)量,從而更準(zhǔn)確、科學(xué)地衡量基因的表達(dá)水平。標(biāo)準(zhǔn)化方法為每個(gè)基因包含的原始Clean Tags數(shù)/該樣本中總 clean Tags 數(shù) X 1,000,000 (參見,t Hoen, P. A.,Y. Ariyurek, et al. (2008). “ Deep sequencing-basedexpression analysis shows major advances in robustness, resolution and inter-labportability over five microarray platforms. " Nucleic Acids Res 36(21) :el41 ;Morrissy, A. S. , R. D. Morin, et al. (2009). “ Next-generation tag sequencing forcancer gene expression profiling. " Genome Res.)。(d)基因在樣品間差異表達(dá)分析參照Audic S.等人發(fā)表的數(shù)字化基因表達(dá)譜差異基因檢測方法(Audic, S. and J. Μ. Claverie (1997). “ The significance ofdigital gene expression profiles. " Genome Res 7(10) :986-95),篩選兩樣本間的差異表達(dá)基因。(e)基因在正義鏈和反義鏈上表達(dá)量間的關(guān)系A(chǔ)ense-antisense是基因表達(dá)調(diào)控的一種重要方式。如果測序標(biāo)簽?zāi)鼙葘?duì)到基因的反義鏈,則暗示該基因的反義鏈也包含轉(zhuǎn)錄本,該基因可能存在sense-antisense調(diào)控方式(參見’ t Hoen,P. A. ,Y. Ariyurek, et al. (2008). “ Deep sequencing-based expression analysis showsmaj or advances in robustness, resolution and inter-lab portability over fivemicroarray platforms. “ Nucleic Acids Res 36(21) :el41)。(f)差異表達(dá)基因的聚類分析表達(dá)模式相似的基因通常具有相似的功能。本發(fā)明人利用 cluster 軟件(Eisen, M. B.,P. T. Spellman, et al. (1998). “ Clusteranalysis and display of genome-wide expression patterns. " Proc Natl Acad Sci U SA 95(25) :14863-8),以歐氏距離為距離距陣計(jì)算公式,對(duì)差異表達(dá)基因和實(shí)驗(yàn)條件同時(shí)進(jìn)行等級(jí)聚類分析,聚類結(jié)果用JavaTreeview顯示(參見Saldanha, A. J. (2004). ‘‘ Java Treeview__extensible visualization of microarray data. " Bioinformatics 20(17) :3246-8)。以每列代表一個(gè)實(shí)驗(yàn)條件,每行代表一個(gè)基因,不同表達(dá)變化倍數(shù)用不同顏色表示,紅色表示表達(dá)上調(diào),綠色表示表達(dá)下調(diào)。(g)Gene Ontology(GO)功能顯著性富集分析=GO總共有三個(gè)ontology (本體), 分別描述基因的分子功能(molecular function)、所處的細(xì)胞位置(eellularcomponent)、 參與的生物過程(biological process)。GO的基本單位是term (詞條、節(jié)點(diǎn)),每個(gè)term 都對(duì)應(yīng)一個(gè)屬性。GO功能顯著性富集分析首先把所有差異表達(dá)基因向Gene Ontology數(shù)據(jù)庫(http://www. geneontology. org/)的各term映射,計(jì)算每個(gè)term的基因數(shù)目,然后應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著富集的GO條目。Pattway顯著性富集分析在生物體內(nèi),不同基因相互協(xié)調(diào)行使其生物學(xué),基于 Pathway的分析有助于更進(jìn)一步了解基因的生物學(xué)功能。KEGG是有關(guān)I^ttway的主要公共數(shù)據(jù)庫(Kanehisa,M.,M. Araki,et al. (2008). “ KEGG forlinking genomes to life and the environment. “Nucleic Acids Res 36 (Databaseissue) :D480-4) ,PathwayM^ftg 集分析以KEGG Pattway為單位,應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著性富集的I^ttway。通過I^ttway顯著性富集確定差異表達(dá)基因參與的最主要生化代謝途徑和信號(hào)轉(zhuǎn)導(dǎo)途徑。實(shí)施例3、RNA-Seq分析樣品處理及測序流程見圖3。具體方法如下1.亞洲玉米螟Total RNA的提取采用常規(guī)的Trizol法提取,純化,DNA酶處理,獲得濃度彡300ng/ul、總量彡6ug、 0D260/280 為 1. 8 2. 2 的 Total RNA 樣品(須達(dá)到 Agilent 2100 檢測要求)。2. mRNA的分離及隨機(jī)打斷用帶有oligo-dT的磁珠分離出帶有polyA的mRNA,然后利用超聲波隨機(jī)打斷,回收200-700bp的片段。3. cDNA第一鏈和第二鏈的合成cDNA第一鏈的合成是用隨機(jī)6聚物和hvitrogen的Superscript II reversetranscriptase 試劑盒進(jìn)行。cDNA 第二鏈?zhǔn)怯?RNase H(Invitrogen)和 DNA 聚合酶 I (New England BioLabs)完成。4.在cDNA片段上錨定上由Illumina/Solexa測序試劑盒中提供的接頭序列5' RNA Adapter(SEQ ID NO :10)5' P-GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG ;3' RNA Adapter(SEQ ID NO :11)5' ACACTCTTTCCCTACACGACGCTCTTCCGATCT ;5. PCR 擴(kuò)增用上述接頭序列中的引物進(jìn)行15個(gè)循環(huán)的PCR擴(kuò)增。6.文庫構(gòu)建及檢測利用上述步驟中得到的序列,按照Illumina公司sample prep kit進(jìn)行文庫構(gòu)建及檢測。7.RNA-seq 的測序?qū)⒔ê玫奈膸煲?_7pM的濃度加到Illumina測序儀(Genome Analyzer II)的相應(yīng)通道上,按照制造商提供的方法運(yùn)行36個(gè)循環(huán)。
8.數(shù)據(jù)分析簡單流程見圖4。剔除雜質(zhì)數(shù)據(jù),對(duì)RNA-seq組裝后的結(jié)果進(jìn)行整合。之前的步驟得到的是原始數(shù)據(jù),其中含有步驟4中加入的接頭序列,將其去除后稱為Clean reads,就可以進(jìn)行拼接與組裝。具體方法是利用將得到的Cleanreads,利用組裝軟件SOAPdenovo, 按照Li等2010年發(fā)表在Genome Res.上第20卷第沈5_272頁上的方法進(jìn)行。SOAPdenovo 首先將具有一定長度overlap的reads連成更長的片段,這些通過reads overlap關(guān)系得到的不含N的組裝片段本發(fā)明人稱之為Contig。然后,將reads比對(duì)回Contig,通過 paired-end reads能確定來自同一轉(zhuǎn)錄本的不同Contig以及這些Contig之間的距離, SOAPdenovo將這些Contig連在一起,中間未知序列用N表示,這樣就得到kaffold。進(jìn)一步利用paired-end reads對(duì)kaffold做補(bǔ)洞處理,最后得到含N最少,兩端不能再延長的序列,稱之為Unigene。9.生物信息學(xué)分析將上述得到的Unigene序列與蛋白數(shù)據(jù)庫nr、Swiss_Prot、KEGG和COG做blastx 比對(duì)(evalue < 0. 00001),取比對(duì)結(jié)果最好的蛋白確定Unigene的序列方向。如果不同庫之間的比對(duì)結(jié)果有矛盾,則按nr、Swiss-Prot、KEGG和COG的優(yōu)先級(jí)確定Unigene的序列方向,跟以上四個(gè)庫皆比不上的Unigene,用軟件ESI^can(Iseli,Jongeneel等1999,Menlo Park ed. (AAAI Press),pp. 138-148.)預(yù)測其編碼區(qū)并確定序列的方向。對(duì)于能確定序列方向的Unigene,給出其從5 ’到3 ’方向的序列;對(duì)于無法確定序列方向的Unigene,給出組裝軟件得到的序列。實(shí)施例4、DGE-Tag和RNA-seq相結(jié)合的應(yīng)用實(shí)例分析舉例利用本發(fā)明所述的方法,運(yùn)用于玉米螟的研究當(dāng)中,從而獲得了玉米螟全發(fā)育時(shí)期的RNA-seq序列和玉米螟卵、幼蟲、蛹、成蟲四個(gè)時(shí)期的DGE-tag序列。其中,利用DGE-tag技術(shù),完成在亞洲玉米螟四個(gè)發(fā)育時(shí)期共35779個(gè)功能基因的注釋(卵期8415個(gè)、幼蟲期7988個(gè)、蛹期9123個(gè)、成蟲期10253個(gè))。獲得DGE-tag的方法參見實(shí)施例1的步驟。其中,利用RNA-seq技術(shù)獲得了亞洲玉米螟全發(fā)育期的cDNA序列的信息,共得到了 46986個(gè)Unigene。獲得的方法參見實(shí)施例3的步驟。如何利用這些數(shù)據(jù)是本發(fā)明的核心問題。如下表所示,本發(fā)明人發(fā)現(xiàn)了幾個(gè)在卵期基因的拷貝數(shù)均超過10000次的Tag(如表1所示),它們?cè)谄渌?個(gè)發(fā)育時(shí)期的拷貝數(shù)各不相同,有些Tag其它3個(gè)時(shí)期的表達(dá)量也很高,有些Tag在其它1_3個(gè)時(shí)期不表達(dá)。表1.各時(shí)期拷貝數(shù)超過1萬次的Tag舉例
權(quán)利要求
1.一種從無基因組參考序列物種發(fā)掘基因信息的方法,包括(1)獲得待測物種的數(shù)字基因表達(dá)譜,其中包括基因表達(dá)標(biāo)簽的序列及豐度;(2)獲得待測物種全基因組轉(zhuǎn)錄本的集合,形成序列數(shù)據(jù)庫;(3)將⑴獲得的數(shù)字基因表達(dá)譜中的基因表達(dá)標(biāo)簽分別與(2)獲得的序列數(shù)據(jù)庫進(jìn)行比較,找到與該基因表達(dá)標(biāo)簽匹配的轉(zhuǎn)錄本序列,得到與該基因表達(dá)標(biāo)簽相應(yīng)的基因全長cDNA序列,將該基因全長cDNA序列與已知基因信息的基因序列數(shù)據(jù)庫進(jìn)行比較和分析, 獲得該序列對(duì)應(yīng)的基因的潛在功能;同時(shí),根據(jù)(1)獲得的該基因表達(dá)標(biāo)簽豐度獲得其對(duì)應(yīng)基因的表達(dá)量或表達(dá)模式。
2.如權(quán)利要求1所述的方法,其特征在于,所述的待測物種處于發(fā)育的某一時(shí)期。
3.如權(quán)利要求1所述的方法,其特征在于,步驟(1)包括(a)提取待測物種的總RNA,分離出mRNA,反轉(zhuǎn)錄并合成雙鏈cDNA,利用內(nèi)切酶NlaIII 切斷雙鏈cDNA,連接帶有Mmel酶識(shí)別位點(diǎn)的接頭,然后用Mmel酶切獲得帶有CATG位點(diǎn)的長度為21bp的片段;(b)利用Illumina平臺(tái)合成基因表達(dá)標(biāo)簽庫并進(jìn)行測序,選擇長度為21bp且拷貝數(shù)高于1的標(biāo)簽;(c)統(tǒng)計(jì)(b)獲得的每個(gè)基因表達(dá)標(biāo)簽的豐度。
4.如權(quán)利要求1所述的方法,其特征在于,步驟(2)包括(a)提取待測物種的總RNA,分離出3’端帶有polyA的mRNA,隨機(jī)打斷mRNA回收 200-700bp片段,反轉(zhuǎn)錄并合成雙鏈cDNA ;(b)對(duì)(a)獲得的序列進(jìn)行測序;(c)將測序結(jié)果進(jìn)行拼接與組裝,獲得Unigene,并確定其方向。
5.如權(quán)利要求1所述的方法,其特征在于,步驟C3)中,所述的比較和分析還包括CDS 預(yù)測,表達(dá)分析,轉(zhuǎn)錄本分析。
6.如權(quán)利要求5所述的方法,其特征在于,所述的表達(dá)分析包括基因注釋,差異表達(dá)分析,表達(dá)量分析,表達(dá)模式分析,KEGG功能注釋,GO功能顯著性富集分析,Pattway顯著性富集分析。
7.如權(quán)利要求1所述的方法,其特征在于,所述的物種是亞洲玉米螟(Ostrinia furnacalis Guenee) 0
8.一種獲得亞洲玉米螟的基因表達(dá)譜的方法,包括(51)獲得亞洲玉米螟某一發(fā)育時(shí)期的數(shù)字基因表達(dá)譜,其中包括基因表達(dá)標(biāo)簽的序列及豐度;(52)對(duì)(Si)獲得的基因表達(dá)標(biāo)簽進(jìn)行生物信息學(xué)分析,從而得知該標(biāo)簽對(duì)應(yīng)的基因、 其潛在的功能、其表達(dá)量或表達(dá)模式。
9.如權(quán)利要求8所述的方法,其特征在于,所述的發(fā)育時(shí)期包括卵期、幼蟲期、蛹期、 成蟲期。
10.如權(quán)利要求8所述的方法,其特征在于,步驟(Si)包括(al)提取亞洲玉米螟的總RNA,分離出mRNA,反轉(zhuǎn)錄并合成雙鏈cDNA,利用內(nèi)切酶 NlaIII切斷雙鏈cDNA,連接帶有Mmel酶識(shí)別位點(diǎn)的接頭,然后用Mmel酶切獲得帶有CATG 位點(diǎn)的長度為21bp的片段;(bl)利用Illumina平臺(tái)合成基因表達(dá)標(biāo)簽庫并進(jìn)行測序,選擇長度為21bp且拷貝數(shù)高于1的標(biāo)簽;(cl)統(tǒng)計(jì)(bl)獲得的每個(gè)基因表達(dá)標(biāo)簽的豐度(表達(dá)量)。
11.如權(quán)利要求8所述的方法,其特征在于,步驟(S2)中,所述的生物信息學(xué)分析包括基因注釋、標(biāo)準(zhǔn)化,差異基因篩選。
12.如權(quán)利要求11所述的方法,其特征在于,所述的差異表達(dá)基因篩選包括表達(dá)模式聚類分析,GO功能顯著性富集分析,Pathway顯著性富集分析。
13.一種獲得亞洲玉米螟的基因信息及功能基因的方法,包括 (Bi)獲得亞洲玉米螟全基因組中的各種基因轉(zhuǎn)錄本;(B2)對(duì)(Bi)獲得的基因轉(zhuǎn)錄本分別進(jìn)行生物信息學(xué)分析,從而獲得亞洲玉米螟的基因信息及功能基因。
14.如權(quán)利要求13所述的方法,其特征在于,步驟(Bi)包括(al)提取亞洲玉米螟的總RNA,分離出3’端帶有polyA的mRNA,隨機(jī)打斷mRNA回收 200-700bp片段,反轉(zhuǎn)錄并合成雙鏈cDNA ; (bl)對(duì)(al)獲得的序列進(jìn)行測序;(cl)將測序結(jié)果進(jìn)行拼接與組裝,獲得Unigene,并確定其方向。
15.如權(quán)利要求13所述的方法,其特征在于,步驟(B2)中,所述的生物信息學(xué)分析包括基因注釋,CDS預(yù)測,差異表達(dá)基因篩選。
16.如權(quán)利要求15所述的方法,其特征在于,所述的基因注釋包括表達(dá)量注釋,功能注釋。
17.如權(quán)利要求15所述的方法,其特征在于,所述的差異表達(dá)基因篩選包括G0功能顯著性富集分析,Pathway顯著性富集分析。
全文摘要
本發(fā)明涉及從無基因組參考序列物種獲得基因信息及功能基因的方法。本發(fā)明還公開了獲得亞洲玉米螟的基因表達(dá)譜的方法。本發(fā)明還公開了獲得亞洲玉米螟的轉(zhuǎn)錄組信息及功能基因的方法。本發(fā)明首次將DGE-tag技術(shù)與RNA-seq技術(shù)相結(jié)合,用于從無基因組參考序列的物種中獲得基因的表達(dá)時(shí)期、表達(dá)量、對(duì)應(yīng)的代謝通路及基因功能信息,所述方法方便、快捷、準(zhǔn)確且成本低廉。
文檔編號(hào)C12N15/10GK102277351SQ201010197328
公開日2011年12月14日 申請(qǐng)日期2010年6月10日 優(yōu)先權(quán)日2010年6月10日
發(fā)明者張 浩, 李海超, 王玉冰, 苗雪霞, 黃勇平 申請(qǐng)人:中國科學(xué)院上海生命科學(xué)研究院