專利名稱:人與模式生物功能基因電子克隆的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及遺傳工程技術(shù),具體涉及一種利用EST與人及模式生物基 因組草圖序列信息進行人與模式生物功能基因電子克隆的方法。
背景技術(shù):
電子克隆是近年來伴隨著人類基因組計劃和EST (表達序列標簽)計劃 發(fā)展起來的基因克隆新方法,主要原理是利用日益發(fā)展的生物信息學(xué)技術(shù), 借助電子計算機的巨大運算能力,通過EST或基因組的序列組裝和拼接, 利用RT-PCR(逆轉(zhuǎn)錄-聚合酶鏈式反應(yīng))的方法快速獲得功能基因,具有投 入低、速度快、技術(shù)要求低和針對性強等優(yōu)點。隨著人類基因組計劃的實 施,已有研究人員利用電子克隆的方法克隆了很多人與模式生物的功能基 因。目前利用電子克隆進行生物體功能基因發(fā)掘的方法有兩種
1利用EST數(shù)據(jù)庫信息
利用EST數(shù)據(jù)庫信息進行功能基因的電子克隆是目前最常用的手段。 首先選擇感興趣的目標EST作為查詢探針,搜索dbEST (非冗余EST)數(shù)據(jù)庫, 找到部分重疊的EST進行拼接,然后再以拼接好的EST重疊群((EST contig) 為新的查詢探針,繼續(xù)搜索dbEST庫,直到?jīng)]有新的EST可供拼接為止, 最后根據(jù)拼接好的完整序列設(shè)計PCR引物,通過RT-PCR的方法獲得目的 cDNA(互補脫氧核糖核酸)克隆并進行序列測定驗證,(參見圖1)。
2利用基因組信息
隨著人類基因組以及一大批模式基因組序列測序的完成,并供全世界 免費使用,促進了生物功能基因的電子克隆。它以EST或全長cDNA序列作 為信息探針,搜索GenBank(核苷酸數(shù)據(jù)庫),隨后根據(jù)內(nèi)含子"GU ... AG" 的規(guī)則通過人工拼接或相應(yīng)的計算機軟件處理,可以得到該基因完整的開 放讀碼框(0RF),根據(jù)拼接的序列結(jié)果設(shè)計PCR引物,進一步采取RT-PCR 的方法獲得目的基因的cDNA克隆并進行序列測定,(參見圖2)。
發(fā)明內(nèi)容
本發(fā)明的目的在于利用EST與人及模式生物基因組草圖序列信息進行 功能基因的電子克隆,提出一種具有廣泛適用性的人及模式生物功能基因 電子克隆的方法。
本發(fā)明是按以下步驟實現(xiàn)的。
一種人與模式生物功能基因電子克隆的方法,具體步驟如下
(1) 利用感興趣的EST片段作為查詢探針搜索dbEST庫,找到與該序 列同源的所有EST序列;
(2) 分別將EST序列同源的所有EST片段,通過DNAstar軟件進行EST拼接、延伸獲得大片段或全長cDNA,獲得一致序列其中包括潛在的核香酸 多態(tài)性信息;
(3) 以獲得的一致序列作為查詢序列在UCSC服務(wù)器上執(zhí)行BLAT比對 分析,獲得包括一個新基因所對應(yīng)的完整EST序列、mRNA序列和相應(yīng)基因 組圖譜序列,以及可能的可變剪切體以及EST表達譜的詳細信息;
(4) 綜合上述三個步驟,的結(jié)果,拼接外顯子,最終獲得得到GenBank EST數(shù)據(jù)庫和基因組圖譜雙'重支持,同時包含基因可變剪切體、核苷酸多 態(tài)性以及組織表達等完整信息的cDNA序列;'
(5) 確定新基因編碼區(qū)序列生物信息學(xué)分析包含候選開放讀碼框架 的cDNA典型基因特征,如開放讀碼框架(ORF)前有無終止碼和啟動子, Kozak規(guī)則,加尾信號,polyA等,進行種屬基因的比較基因組分析,通 過種屬內(nèi)同源蛋白的氨基酸序列確定該新基因的翻譯起始點。
(6) 根據(jù)預(yù)測的功能基因設(shè)計PCR引物,通過RT-PCR的方法獲得目的 cDNA克隆并進行序列測定驗證。
所述人與模式生物功能基因電子克隆的方法,其基因組序列與EST序 列一致,直接拼接外顯子。
所述人與模式生物功能基因電子克隆的方法,其基因組序列與EST序 列不一致,則根據(jù)有兩個以上EST序列支持的核苷酸進行拼接外顯子。
所述人與模式生物功能基因電子克隆的方法,對同時存在有兩個以上 EST序列(包括一個EST序列支持基因組序列的情況)支持的核苷酸位點 確定為單核苷酸多態(tài)性;
所述人與模式生物功能基因電子克隆的方法,其外顯子拼接過程中, EST數(shù)據(jù)庫中缺少對應(yīng)的核苦酸序列且已知存在種屬同源基因的氨基酸, 則以該氨基酸序列為查詢序列用TBLASTN程序比對以獲得預(yù)測的編碼序 列。
所述人與模式生物功能基因電子克隆的方法,其生物信息學(xué)分析不符 合上述典型基因特征,則通過種屬同源蛋白的氨基酸序列的比對確定新基 因真實翻譯起始和終止點。
這樣設(shè)計的本發(fā)明對物種并沒有特異性,只要被研究的新基因有足夠 的EST序列信息,且該物種的基因組已經(jīng)測凈,均可以采用該方法進行基 因發(fā)掘,故具有廣泛的適用性。通過該方法,可以方i^更、快捷、完整的得 到新基因及潛在的可變剪切體,而且由于這些功能基因均得到了 EST序列 和基因組序列的雙重支持,故預(yù)測結(jié)果的可靠性較高,是功能基因電子克 隆的一種新方法。
圖l是利用EST數(shù)據(jù)庫進行電子克隆的方法流程圖;圖2是利用基因組信息進行功能基因電子克隆的方法的流程圖3是利用EST與基因組草圖序列信息進行功能基因發(fā)掘的流程圖4是利用本方法克隆的KABE基因兩種可變剪切體;
圖5是KABE基因的外顯子拼接過程。
具體實施例方式
下面以人類新基因克隆為例,具體的操作過程為
1. 利用感興趣的EST片段作為查詢探針到NCBI網(wǎng)站 (http: 〃www. ncbi. nlm. nih. gov),搜索dbEST庫,找到與該序列同源的
所有EST序列;
2. 分別下載與查詢EST序列同源的所有EST片段,通過DNAstar軟件 進行EST拼接、延伸獲得大片段或全長cDNA,獲得一致序列(Contig)其 中包括潛在的核普酸多態(tài)性信息;
3. 以獲得的 一 致序列作為查詢序列在UCSC服務(wù)器 (http: 〃genome. ucsc. edu )上執(zhí)行BLAT比對分析,這樣就獲得了包括一
個新基因所對應(yīng)的完整EST序列、mRNA序列和相應(yīng)人類基因組圖語序列 (genomic
sequence )以及可能的可變剪切體以及EST表達譜的詳細信息;
4、 綜合上述三個步驟的結(jié)果,拼接外顯子,具體過程為 ①如基因組序列與EST序列一致,直接拼接;②如基因組序列與EST
序列不一致,則根據(jù)有兩個以上EST序列支持的核香酸進行拼接;③對同 時存在有多種兩個以上EST序列(包括一個EST序列支持基因組序列的情 況)支持的核苷酸位點確定為單核苷酸多態(tài)性;④4并接過程中如EST數(shù)據(jù) 庫中缺少對應(yīng)的核苷酸序列且已知存在種屬同源基因的氨基酸,則以該氨 基酸序列為查詢序列用TBLASTN程序比對以獲得預(yù)測的編碼序列。通過上 述方法最終獲得通過GenBank EST數(shù)據(jù)庫和人類基因組圖譜雙重支持,同 時包含基因可變剪切體、核苷酸多態(tài)性以及組織表達等完整信息的cDNA序 列。
5、 利用生物信息學(xué)分析確定新基因編碼區(qū)序列生物信息學(xué)分析包含 候選開放讀碼框架(0RF)的cDNA典型基因特征,如0RF前有無終止碼和 啟動子,Kozak規(guī)則,加尾信號,polyA等;如生物信息學(xué)分析不符合上 述典型基因特征,則通過種屬同源蛋白的氨基酸序列的比對確定新基因真 實翻譯起始和終止點。
6、 最后根據(jù)預(yù)測的功能基因設(shè)計PCR引物,通過RT-PCR的方法獲得 目的cDNA克隆并進行序列測定驗證,(參見圖3 )。
本發(fā)明利用該方法電子克隆幾個人與模式生物新基因例如采用電子 克隆技術(shù)結(jié)合分子克隆手段,在國際上首先發(fā)現(xiàn)人類腎臟和腦組織特異表達新基因KABE及其模式生物同源基因序列,基因編號LOC613212, mRNA 序列號為AB219832、 AB219764;采用電子克隆技術(shù)成功克隆了大鼠WDR45L 基因該基因為國際上首次克隆,并已被確認為模式序列,編號 薩-001039587。 '
圖4顯示將Unigene (Hs. 66194 )中的36條EST序列拼接獲得cDNA contig (圖中顯示為Assembled KABE )作為查詢序列進行BLAT比對的結(jié) 果,圖中清晰地顯示了該基因存在兩種可變剪切體,這比傳統(tǒng)的電子克隆 方法更"智能化",獲得了更為準確和完整的基因信息;圖5顯示了 KABE 基因的外顯子拼接過程圖中顯示的外顯子堿基位置對應(yīng)于BLAT比對顯示 的人基因組圖譜序列,同時根據(jù)EST信息還可以獲得基因的表達信息。
權(quán)利要求
1. 一種人與模式生物功能基因電子克隆的方法,具體步驟如下(1)利用感興趣的EST片段作為查詢探針搜索dbEST庫,找到與該序列同源的所有EST序列;(2)分別將EST序列同源的所有EST片段,通過DNAstar軟件進行EST拼接、延伸獲得大片段或全長cDNA,獲得一致序列其中包括潛在的核苷酸多態(tài)性信息;(3)以獲得的一致序列作為查詢序列在UCSC服務(wù)器上執(zhí)行BLAT比對分析,獲得包括一個新基因所對應(yīng)的完整EST序列、mRNA序列和相應(yīng)基因組圖譜序列,以及可能的可變剪切體以及EST表達譜的詳細信息;(4)綜合上述三個步驟的結(jié)果,拼接外顯子,最終獲得得到GenBankEST數(shù)據(jù)庫和基因組圖譜雙重支持,同時包含基因可變剪切體、核苷酸多態(tài)性以及組織表達等完整信息的cDNA序列;(5)確定新基因編碼區(qū)序列生物信息學(xué)分析包含候選開放讀碼框架的cDNA典型基因特征,開放讀碼框架前有無終止碼和啟動子,Kozak規(guī)則,加尾信號,polyA,進行種屬基因的比較基因組分析,通過種屬內(nèi)同源蛋白的氨基酸序列確定該新基因的翻譯起始點。(6)根據(jù)預(yù)測的功能基因設(shè)計PCR引物,通過RT-PCR的方法獲得目的cDNA克隆并進行序列測定驗證。
2. 根據(jù)權(quán)利要求1所述人與模式生物功能基因電子克隆的方法,其 特征在于基因組序列與EST序列一致,直接拼接外顯子。
3. 根據(jù)權(quán)利要求1所述人與模式生物功能基因電子克隆的方法,其 特征在于基因組序列與EST序列不一致,則根據(jù)有兩個以上EST序列 支持的核香酸進行拼接外顯子。 '
4. 根據(jù)權(quán)利要求1所述人與模式生物功能基因電子克隆的方法,其 特征在于對同時存在有兩個以上EST序列支持的核苷酸位點確定為單 核苦酸多態(tài)性。
5. 根據(jù)權(quán)利要求1所述人與模式生物功能基因電子克隆的方法,其 特征在于外顯子拼接過程中,EST數(shù)據(jù)庫中缺少對應(yīng)的核苷酸序列且 已知存在種屬同源基因的氨基酸,則以該氨基酸序列為查詢序列用 TBLASTN程序比對以獲得預(yù)測的編碼序列。
6. 根據(jù)權(quán)利要求1所述人與模式生物功能基因電子克隆的方法,其 特征在于生物信息學(xué)分析不符合上述典型基因特征,則通過種屬同源 蛋白的氨基酸序列的比對確定新基因真實翻譯起始和終止點。
全文摘要
本發(fā)明公開了一種人與模式生物功能基因電子克隆的方法,屬于遺傳工程技術(shù)。該方法包括利用感興趣的EST片段作為查詢探針搜索dbEST庫,DNAstar軟件進行EST拼接、延伸獲得大片段或全長cDNA,獲得一致序列,其中包括潛在的核苷酸多態(tài)性信息,以獲得的一致序列作為查詢序列在UCSC服務(wù)器上執(zhí)行BLAT比對分析,拼接外顯子等步驟,最后根據(jù)預(yù)測的功能基因設(shè)計PCR引物,通過RT-PCR方法獲得cDNA克隆。本發(fā)明方法預(yù)測結(jié)果的可靠性高,對物種并沒有特異性,只要被研究的新基因有足夠的EST序列信息,且該物種的基因組已經(jīng)測序,均可以采用該方法進行基因發(fā)掘,故具有廣泛的適用性。
文檔編號C12N15/10GK101423831SQ20081014415
公開日2009年5月6日 申請日期2008年7月28日 優(yōu)先權(quán)日2007年7月27日
發(fā)明者王海濤, 暢繼武, 志 郭 申請人:天津醫(yī)科大學(xué)附屬腫瘤醫(yī)院