專利名稱:發(fā)現(xiàn)新基因的方法和使用的計(jì)算機(jī)系統(tǒng)平臺以及新基因的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及建立新的生物計(jì)算機(jī)分析方法和途經(jīng),來獲得新的具有功能的基因。結(jié)果證明這種分析方法可以獲得新的基因序列,并與已公開的人類基因組染色體DNA序列吻合。這一方法可用于分析和獲得新的具有生物學(xué)功能,并與人類健康和疾病的診斷、治療相關(guān)的基因,本發(fā)明的目的是旨在發(fā)現(xiàn)新基因,尤其是作為基因藥物或藥靶的基因。
背景技術(shù):
1.功能基因組學(xué)研究基因藥物是以基因組學(xué)研究中發(fā)現(xiàn)的功能性基因或基因的產(chǎn)物為起始材料,通過生物學(xué)、分子生物學(xué)或生物化學(xué)、生物工程等相應(yīng)技術(shù)制成的、并以相應(yīng)分析技術(shù)控制中間產(chǎn)物和成品質(zhì)量的生物活性物質(zhì)產(chǎn)品,臨床上可用于某些疾病的治療、預(yù)防和診斷。重組蛋白質(zhì)藥物、疫苗、DNA藥物、RNA藥物以及基因治療藥物等均屬于基因藥物?;蛩幇惺侵敢曰蚪M學(xué)研究中發(fā)現(xiàn)的功能性基因及基因的產(chǎn)物(功能蛋白)為起始材料,通過生物學(xué)、化學(xué)、物理學(xué)、分子生物學(xué)或生物化學(xué)、生物工程等相應(yīng)技術(shù)制成拮抗物或抑制劑,例如獲得特異性的抗體,通過抗原、抗體結(jié)合使得功能蛋白失去生物活性、或篩選出小分子化合物具有抑制該基因產(chǎn)物的生物學(xué)活性的物質(zhì)(抗體或小分子化合物)作為藥物,用于人類疾病的治療和診斷目的。
“傳統(tǒng)”的基因藥物及藥靶基因發(fā)現(xiàn)步驟是根據(jù)疾病的癥狀進(jìn)行分析,以尋找出正常人與患者在生理生化各項(xiàng)指標(biāo)之間的差異,例如人生長激素是由于患者身高較正常同齡人為矮小,通過各種分析發(fā)現(xiàn)是人生長激素分泌不足而導(dǎo)致的內(nèi)源性缺失而致功能不全,通過人為補(bǔ)充這些缺乏蛋白質(zhì)(如早期是從人尿中提取出人生長激素,然后注射給患者)而達(dá)到治療的臨床目的。隨后隨著科學(xué)技術(shù)的發(fā)展,對分離、純化的天然蛋白質(zhì)進(jìn)行測序,再由蛋白序列推算出DNA序列,合成、復(fù)合、探測(DNA探測),用其“展示”出基因片段,再得到全序列。用基因工程技術(shù)在外源系統(tǒng)(如大腸桿菌)中表達(dá)。制備、純化的重組蛋白質(zhì),通過臨床前試驗(yàn)(動物試驗(yàn))和臨床試驗(yàn)而形成基因工程藥物,這一過程可以稱為“傳統(tǒng)”或“經(jīng)典”的基因藥物發(fā)現(xiàn)程序。
2.用于新基因發(fā)現(xiàn)的技術(shù)與方法生物信息學(xué)的學(xué)科進(jìn)展過去很快,也有很大進(jìn)展,已公開的專利和研究文獻(xiàn)如Zailin Yu et al(2002),WIPO patent publication# WO 02/052047 A2;USPTOpublication#20020155473A1;賀福初等,中國專利公開號CN1657537A;Tang,YTet al.(2002),USPTO Patent6,365,371;Bandman,O et al.(2000),USPTO Patent6,020,164;Hamady M et al.(2006),BMC Bioinformatics,Published online 2006January 410.1186/1471-2105-7-1;Schattner P et al.(2006),RNA 1215-25;Skupski MP et al.(1999),Nucleic Acids Research,27(1)35-38;Aaron Levineet al.(2001),Nucleic Acids Res.29(19)4006-4013,Nishikawa T et al.(2000),Genome Informatics(11)12-23;Legato J et al.(2003),PhysiologicalGenomics(13)179-181;Gary B et al.(2002),Nucleic Acids Res.30(23)5310-5317;Zondervan K et al.(2002),F(xiàn)ertil Steril.78(4)777-781;Kontkanen Oet al(2002),Expert Opin Ther Targets.6(3)363-374;Kumar R et al(2002),J Mol Biol.319(3)593-602.
Chapman MA et al.(2004),Genome Res.14(2)313-318;Uenishi H et al(2004),Nucleic Acids Res.(32)484-488;Bass MP et al(2004),Pac SympBiocomput.(9)93-103;Ritter M et al(2001),GENOMICS.79693-702;YonanAL et al.(2003),Genes Brain Behav.(5)303-320;張德禮,等,遺傳學(xué)報。2004年31卷5期431-443。
李永青,等,生命科學(xué)研究。2001年5卷2期141-145;朱傳炳,等,湖南師范大學(xué)自然科學(xué)學(xué)報2004年27卷3期79-82;祁震宇,等,中華實(shí)驗(yàn)外科雜志。2005年22卷7期849-851;謝正祥,等,中國醫(yī)學(xué)物理學(xué)雜志。2006年23卷1期62-63等分別描述了生物信息的應(yīng)用和新的基因的發(fā)現(xiàn)和分析,作為本發(fā)明的相關(guān)文獻(xiàn)給于引用。
發(fā)明內(nèi)容
本發(fā)明涉及利用計(jì)算機(jī)編制生物信息處理程序和建立的系統(tǒng)平臺技術(shù),特別是這種程序和技術(shù)可以用于發(fā)現(xiàn)新的基因和分析其產(chǎn)物,使得人類可以更清楚地了解基因的表達(dá)和疾病之間的關(guān)系,提高疾病治療的水平。
本發(fā)明采用與上述常規(guī)“傳統(tǒng)”的過程相反的程序“反向”來進(jìn)行基因藥物功能基因組學(xué)研究,目的是大大加快新型基因藥物的篩選工作,本發(fā)明設(shè)計(jì)表明與常規(guī)“傳統(tǒng)”的基因藥物尋找方法相比,與其它已有的基因發(fā)現(xiàn)技術(shù)和方法相比更為簡捷、對計(jì)算機(jī)設(shè)備要求更低、同時便于操作和掌握,可縮短數(shù)年時間來獲得結(jié)果。
本發(fā)明首先自編一個新型計(jì)算機(jī)程序軟件處理系統(tǒng)專一進(jìn)行基因藥物和藥靶基因篩選。自編的程序是利用已公開發(fā)表的人類基因組DNA序列,通過一個系列程序軟件操作Linux系統(tǒng)平臺,預(yù)測新的蛋白質(zhì)(基因)序列(ORF)編碼。這一軟件操作系統(tǒng)將考慮到疾病種類、疾病的發(fā)生、形成機(jī)理、機(jī)制、遺傳學(xué)信息的操作系統(tǒng)與優(yōu)勢相結(jié)合,如利用生物信息技術(shù)來預(yù)測分泌肽、信號肽、跨膜區(qū),并將各種已有功能基因組學(xué)手段與計(jì)算工具,用一個新的自編軟件系統(tǒng)進(jìn)行統(tǒng)合、擴(kuò)增其功能與運(yùn)算手段以達(dá)到可以進(jìn)行新型基因的預(yù)測篩選、拼接。其二,對計(jì)算機(jī)預(yù)測出的可能ORF序列,通過功能基因組學(xué)研究,應(yīng)用高通量篩選方法,步驟是在細(xì)胞水平和動物水平進(jìn)行基因藥物篩選。利用分子生物學(xué)技術(shù)完成基因的拼接克隆和擴(kuò)增。然后對所得到的DNA序列信息利用比較生物學(xué)和藥理學(xué)技術(shù),應(yīng)用基因調(diào)控、基因敲除與插入(Knock out/in)、轉(zhuǎn)染、反義RNA、SiRNA等實(shí)驗(yàn)室方法,來研究基因定位、表達(dá)、過量表達(dá)、低水平表達(dá)、差異表達(dá),用高通量篩選的方法如定量PCR、基因芯片技術(shù),通過對藥靶基因的篩選驗(yàn)證來決定新預(yù)測基因的生物學(xué)功能,從而獲得具有原創(chuàng)性的基因藥物藥靶基因。其三,進(jìn)一步研究候選基因藥物靶基因的生化特性和細(xì)胞功能,通過免疫組織化學(xué)、病理學(xué)和其它預(yù)測方法來進(jìn)行高效、特異性地確定其生物學(xué)、臨床上應(yīng)用價值,從而獲得新的原創(chuàng)性基因藥物候選者,并對它們展開臨床前細(xì)胞學(xué)和動物試驗(yàn)研究及臨床試驗(yàn),來驗(yàn)證所發(fā)現(xiàn)的基因及其產(chǎn)物在臨床上的作用。
本發(fā)明的計(jì)算機(jī)生物信息發(fā)現(xiàn)和分析技術(shù)平臺,可以用于人類新的基因發(fā)現(xiàn),也還可以用于,但不局限于,動物、植物、微生物的基因發(fā)現(xiàn)和分析目的應(yīng)用。
因此,本發(fā)明涉及計(jì)算機(jī)編制的生物信息分析程序和建立可行的平臺技術(shù),即將已有的公開的人類基因組研究資料和信息與本發(fā)明設(shè)計(jì)和運(yùn)行的程序一起對大量的資料、文庫進(jìn)行分析,從中獲得新的預(yù)測基因,目的是解決使用傳統(tǒng)技術(shù)獲得新的基因,在技術(shù)和時間上存在的不足??傊?,與常規(guī)生物信息分析方法比較,本發(fā)明涉及的程序編制具有下列優(yōu)點(diǎn)1)能快速分析和獲得新的可能基因;2)操作程序簡便和高效;3)獲得的新基因具有生物學(xué)功能和具有作為基因藥物和基因藥靶的臨床應(yīng)用的可能。
利用本發(fā)明描述的技術(shù)和方法,實(shí)際用于人已公開基因組序列,進(jìn)行新基因的分析和獲得,結(jié)果顯示計(jì)算機(jī)預(yù)測技術(shù),可使發(fā)明者獲得大量具有生物學(xué)功能的可能基因。本發(fā)明僅以所發(fā)現(xiàn)的兩個與人載脂蛋白A1結(jié)合蛋白(ApolioproteinA1 BindingProtein,APA1BP)類似的、尚未報道的基因?yàn)槔?,來證明本發(fā)明所描述的生物計(jì)算機(jī)模擬預(yù)測模式是可行的。
人血液中有低密度脂蛋白(LDL)和高密度脂蛋白(HDL)。脂蛋白中的蛋白質(zhì)稱為載脂蛋白(Apolipoprotein)。脂蛋白與膽固醇相結(jié)合,形成脂蛋白膽固醇,進(jìn)行膽固醇在細(xì)胞內(nèi)外的運(yùn)轉(zhuǎn)。高密度脂蛋白膽固醇減少的臨床意義可提示易患冠心病。低密度脂蛋白膽固醇增多的臨床意義可提示易患動脈粥樣硬化所導(dǎo)致的冠心病、腦血管病。膽固醇逆向轉(zhuǎn)運(yùn)的關(guān)鍵步驟是將膽固醇從細(xì)胞內(nèi)轉(zhuǎn)移到細(xì)胞外的脂蛋白上,各類脂蛋白的重要組分是載脂蛋白。載脂蛋白負(fù)責(zé)把不同的脂蛋白運(yùn)輸?shù)缴眢w的各個部位。載脂蛋白是位于脂蛋白表面的蛋白質(zhì),由氨基酸按一定順序組合而成。它們以多種形式和不同的比例存在于各類脂蛋白中。各種脂蛋白也因其所含的載脂蛋白的種類不同,而具有不同的功能和不同的代謝途徑。
Ritter,M等2002年公布了其發(fā)現(xiàn)的一個新的載脂蛋白蛋白相互作用蛋白,并將它命名為AI-BP(apoA-I binding protein)。AI-BP編碼的基因,APOA1BP,其位于染色體1q21,由6個外顯子和5個內(nèi)含子構(gòu)成,2.5kb。Northern雜交分析證明APOA1BP mRNA是普遍表達(dá)的,并且在腎,心臟,肝臟,甲狀腺,腎上腺和睪丸中高度表達(dá)。AI-BP蛋白在正常人的血清中沒有發(fā)現(xiàn),但在敗血綜合癥患者的血清樣本中卻有高水平的AI-BP。健康人的AI-BP蛋白在腦脊液和尿中有很顯著的量。用apoA-I或HDL刺激腎近曲小管細(xì)胞,可誘發(fā)濃度依賴性的AI-BP的分泌,如果用apoA-II,BSA,或LDL刺激就不會產(chǎn)生分泌。并且這種情況只發(fā)生在腎近曲小管,在其它的組織中apoA-I不能刺激AI-BP的分泌。試驗(yàn)明了在腎臟管細(xì)胞中,AI-BP對apoA-I降解或再吸收中起重要的作用(Ritter,等,Genomics,79693-702,2002)。發(fā)現(xiàn)新的與載脂蛋白具有相互作用蛋白基因,可能使我們更好地搞清楚與膽固醇代謝相關(guān)的途經(jīng),預(yù)防和控制與心血管相關(guān)疾病的發(fā)生和治療。
因此,本發(fā)明還首次公布了利用此程序和方法獲得的兩個類似載脂蛋白相關(guān)蛋白的新基因,它們坐落在人第19號染色體上。這兩個基因與現(xiàn)已公開的載脂蛋白相互作用蛋白基因不同有1)坐落在不同染色體;2)不具有分泌肽;3)蛋白質(zhì)氨基酸序列與已知ApoA1BP基因相比較,僅有40.0%(BFC06016)和41.5%(BFC06104)的同源性。
1、一種新基因發(fā)現(xiàn)的計(jì)算機(jī)模擬預(yù)測系統(tǒng)平臺本發(fā)明描述了各種已知或公開的生物信息資料、文庫的獲取和其被本地化工作內(nèi)容,所獲得的文庫和資料有,但不局限于,NCBI遠(yuǎn)程數(shù)據(jù)庫,下載所需要的生物信息分析相關(guān)的最新數(shù)據(jù)庫。其中包括了人表達(dá)DNA序列標(biāo)簽數(shù)據(jù)庫,非冗余蛋白質(zhì)序列數(shù)據(jù)庫,核苷酸數(shù)據(jù)庫,專利蛋白質(zhì)序列數(shù)據(jù)庫,人染色體序列數(shù)據(jù)庫等。在本地計(jì)算機(jī)對所有這些下載回來的數(shù)據(jù)庫進(jìn)行格式化處理。將其轉(zhuǎn)化為本地程序可以識別的序列格式數(shù)據(jù)庫。
這些文庫中含有一發(fā)表和公開的人類染色體DNA序列測定結(jié)果和人mRNA、cDNA測序結(jié)果文庫,已公開的蛋白質(zhì)序列數(shù)據(jù)庫。
在本發(fā)明中重點(diǎn)描述的所有所應(yīng)用的數(shù)據(jù)庫,文庫和資料庫均來自公開可以獲得的資料,并經(jīng)驗(yàn)證和本地計(jì)算機(jī)數(shù)字處理,而形成可隨時由本地計(jì)算機(jī)調(diào)取,并能與本發(fā)明的編程融合和程序化。
本發(fā)明所使用的生物信息分析程序主要有,但不局限于,用于序列比對的軟件有blastallNCBI(美國國立生物技術(shù)信息中心)的blast軟件包,可以實(shí)現(xiàn)大致的基因序列的比對工作;Wu-blast華盛頓大學(xué)的blast軟件包,其在新基因的檢索分析方面所做的功能比較優(yōu)秀;Fasta.EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室)的序列比對軟件包;clustalw多序列比對分析軟件;sim4表達(dá)序列和染色體基因組序列比對軟件;用于數(shù)據(jù)庫編輯的軟件有pressdbWu-blast程序?qū)S玫暮塑账嵝蛄袛?shù)據(jù)庫格式化軟件;im_index主要用于對序列數(shù)據(jù)庫建立索引,實(shí)現(xiàn)大數(shù)據(jù)庫的可操作性;setdbWu-blast程序?qū)S玫牡鞍踪|(zhì)序列數(shù)據(jù)庫格式化軟件;用于序列拼接的軟件有Cap4/Phrap華盛頓大學(xué)基因組科學(xué)研究中心的序列拼接軟件;merger簡單的序列拼接軟件;用于氨基酸序列功能預(yù)測的軟件有tmpred預(yù)測蛋白質(zhì)序列的跨膜;signalp.預(yù)測蛋白質(zhì)序列的信號肽;remap序列酶切位點(diǎn)分析軟件;restrict序列酶切信息統(tǒng)計(jì)軟件;showorfDNA序列翻譯軟件;pepinfo圖形方式顯示蛋白質(zhì)序列中各種不同性質(zhì)氨基酸的含量;pepstats統(tǒng)計(jì)蛋白質(zhì)序列中各種氨基酸的含量同時得出分子量,等電點(diǎn),帶電荷以及280nm的光吸收值;pepwheel圖形方式顯示蛋白質(zhì)序列中所有氨基酸殘基的螺旋輪;Proparam主要用于綜合確定蛋白質(zhì)的親水性/疏水性;Tmap圖形顯示蛋白質(zhì)的跨膜區(qū)域;ps_scan蛋白質(zhì)活性位點(diǎn)/功能域分析軟件。
本發(fā)明提供一種獨(dú)立的生物計(jì)算機(jī)程序用于新的基因的預(yù)測和結(jié)果實(shí)例分析。本發(fā)明還包括所有在本地計(jì)算機(jī)上編制可供運(yùn)行的程序,并形成本發(fā)明的新基因發(fā)現(xiàn)和分析技術(shù)系統(tǒng)平臺。特別是,包括,但不局限于,用于序列編輯的軟件有主要有tbl2fasta_n/fasta2tbl_n.序列格式轉(zhuǎn)換軟件,可將fasta格式的序列轉(zhuǎn)為表格格式的序列;gb2fasta序列格式轉(zhuǎn)換軟件,將genbank格式的序列轉(zhuǎn)為fasta格式的序列;tt_comp_dna序列編輯軟件,DNA序列反向互補(bǔ)程序;translate序列編輯軟件,DNA序列翻譯程序;gb2cds序列編輯軟件,獲取GenBank格式的序列文件中的CDS序列;tt_zip_2序列編輯軟件,主要用于合并兩個簡單的序列片斷,并過濾掉他們之間的重復(fù)部分。
用于數(shù)據(jù)庫操作的軟件有im_delete數(shù)據(jù)庫編輯軟件,可以實(shí)現(xiàn)對數(shù)據(jù)庫中任意一個序列的刪除;im_insert數(shù)據(jù)庫編輯軟件,可以實(shí)現(xiàn)對序列數(shù)據(jù)庫的插入增加序列的操作;im_retrieve數(shù)據(jù)庫編輯軟件,批量或單個獲取大型數(shù)據(jù)庫中的某些序列;tt_get對臨時的沒有建立索引的數(shù)據(jù)庫進(jìn)行DNA、蛋白質(zhì)序列獲取操作的軟件;rfetch數(shù)據(jù)庫操作軟件,通過網(wǎng)絡(luò)遠(yuǎn)程直接獲取GenBank上的序列數(shù)據(jù);lfetch數(shù)據(jù)庫操作軟件,由本地網(wǎng)絡(luò)直接獲取本地數(shù)據(jù)庫上的序列數(shù)據(jù);biofaseqindex數(shù)據(jù)庫編輯軟件,針對Fasta格式的數(shù)據(jù)庫建立索引的程序;biogbseqindex數(shù)據(jù)庫編輯軟件,針對GenBank格式的數(shù)據(jù)庫建立索引的程序;tt_subseq_genome對基因組序列進(jìn)行片段序列獲取的軟件;tt_sub_seq序列編輯的軟件,方便獲取序列中的某個片段。
用于序列比對結(jié)果分析做圖的軟件有drawBlastblast結(jié)果做圖程序,可以通過blast的結(jié)果數(shù)據(jù)做出大致的比對示意圖。
用于數(shù)據(jù)解析的軟件有tt_tmpred_p數(shù)據(jù)解析器軟件,專用于解析tt_tmpred生成分析結(jié)果數(shù)據(jù);parser_bx解析器軟件,對blastn,blastp blastx等程序輸出的結(jié)果進(jìn)行解析的軟件;parser_fasta解析器軟件,對fasty比對程序輸出的結(jié)果進(jìn)行解析的軟件;ps_signalp數(shù)據(jù)解析器軟件,解析pepsigp程序產(chǎn)生的結(jié)果數(shù)據(jù);tt_pblastblastn結(jié)果解析軟件,對大量的結(jié)果輸出實(shí)現(xiàn)機(jī)器自動分析;用于輔助其它程序運(yùn)行的軟件有tt_cycle輔助軟件,主要用于配合部分不能實(shí)現(xiàn)自動化操作的程序?qū)崿F(xiàn)全面自動化運(yùn)行;
重新優(yōu)化的軟件有ed_cap4重新編譯的Cap4程序,實(shí)現(xiàn)可以自動完成cap4運(yùn)行環(huán)境的配置;extractcontigs將cap4輸出的得分矩陣數(shù)據(jù)轉(zhuǎn)為fasta格式的文件;pepsigp重新編譯的signalp軟件,對原先只能單個預(yù)測信號肽的程序進(jìn)行改進(jìn),實(shí)現(xiàn)批量自動化全面預(yù)測;primers_for_fulllength_clone批量引物設(shè)計(jì)軟件;tt_fasty_1改進(jìn)的fasty程序,主要目的是實(shí)現(xiàn)方便操作;tt_tmpred重新編譯后的蛋白質(zhì)序列跨膜區(qū)域預(yù)測,改進(jìn)后的序列可以實(shí)現(xiàn)批量分析。
以上部分軟件,尤其是全部軟件的組合與協(xié)調(diào)運(yùn)行構(gòu)成本發(fā)明的基礎(chǔ)。
在本發(fā)明的另一方面,本發(fā)明提供一種發(fā)現(xiàn)新基因的方法,該方法包括以下步驟1)從已公開發(fā)表的蛋白質(zhì)序列數(shù)據(jù)庫中獲取長度小于300AA或400AA或500AA,首選的是300AA、優(yōu)選的是400AA、更優(yōu)選的是500AA的所有蛋白質(zhì)序列,并將這些序列轉(zhuǎn)為統(tǒng)一格式;2)對上述蛋白質(zhì)序列進(jìn)行批量跨膜區(qū)域分析從中排除含有跨膜區(qū)域的所有序列;3)對保留的序列批量進(jìn)行分泌型信號肽分析;4)將獲取的序列片段作為模型對表達(dá)序列標(biāo)簽文庫作比對,獲得具有一定匹配的表達(dá)序列標(biāo)簽;5)對表達(dá)序列標(biāo)簽進(jìn)行拼接;和6)與已知數(shù)據(jù)庫的序列進(jìn)行比較,獲得新的全長基因。
在實(shí)施例中,列舉了從NCBI遠(yuǎn)程數(shù)據(jù)庫下載各種核苷酸序列文庫、專利蛋白質(zhì)文庫、人表達(dá)DNA序列標(biāo)簽數(shù)據(jù)庫,非冗余蛋白質(zhì)序列數(shù)據(jù)庫、人染色體序列文庫、和其它相關(guān)數(shù)據(jù)庫的過程和方法。
在實(shí)施例中,列舉了各種生物信息分析軟件和系統(tǒng)的利用,特別是編制了特殊的計(jì)算機(jī)分析系統(tǒng)平臺,使得各獨(dú)立軟件分析系統(tǒng)可以協(xié)同工作進(jìn)行新基因的發(fā)現(xiàn)和分析工作。
在另一實(shí)施例中,列舉了新基因發(fā)現(xiàn)的計(jì)算機(jī)運(yùn)作分析程序綜合流程框架圖。
依據(jù)實(shí)施例,本發(fā)明完成的計(jì)算機(jī)和編制的軟件工程是一個獨(dú)立和完整的生物信息處理系統(tǒng)平臺,其可以復(fù)制、拷貝和移植,并可用于,但不局限于,新基因的發(fā)現(xiàn)和功能分析,示范、教學(xué)、商業(yè)目的、臨床治療和醫(yī)學(xué)診斷應(yīng)用等。
2.新的類似于載脂蛋白A1BP基因的發(fā)現(xiàn)本發(fā)明中的這一信息處理平臺,實(shí)際應(yīng)用于新的蛋白質(zhì)序列的發(fā)現(xiàn)和分析,(具體操作見實(shí)施例3)獲得了38個可能的新蛋白質(zhì)序列。其中兩個類似于已知的載脂蛋白A1BP基因,作為實(shí)例給予公開。這兩個新的基因?yàn)锽FC06016和BFC06104,具有在Seq ID No.1和Seq ID No.3所示的核苷酸序列;它們在GenBank錄入號分別為DQ778079和DQ778080。由核苷酸序列編碼的氨基酸分別為SEQ ID NO2和SEQ ID NO4所示的序列。利用各種軟件和生物信息分析技術(shù),獲得各種蛋白質(zhì)分析資料,包括蛋白質(zhì)的親/疏水性、分泌肽的存在與否、蛋白質(zhì)可能空間構(gòu)像、跨膜結(jié)構(gòu)分析、蛋白質(zhì)螺旋結(jié)構(gòu)和可能的功能預(yù)測等。
一般來說,新發(fā)現(xiàn)的基因可以通過全DNA序列合成方法獲得,并將其用于生物學(xué)和臨床應(yīng)用研究及產(chǎn)品開發(fā)用途之中。本發(fā)明在實(shí)施例中,詳細(xì)列舉了一個全基因的DNA序列合成方法和技術(shù)。主要是利用PCR方法分布合成DNA片斷然后組裝成全基因序列,并經(jīng)過了DNA測序驗(yàn)證合成結(jié)果。本發(fā)明的這些序列可應(yīng)用于藥物診斷,優(yōu)選是與心血管疾病相關(guān)的診斷和治療目的的藥物或藥靶基因,更優(yōu)選基因藥物或基因治療藥靶。
圖1、用于新基因發(fā)現(xiàn)的計(jì)算機(jī)運(yùn)作分析程序綜合流程框架圖(A)和(B)。
圖2、新發(fā)現(xiàn)的兩個類似于載脂蛋白A1BP的新基因BFC06016(A)的DNA核苷酸序列(A-1)和與之對應(yīng)的氨基酸序列(A-2)和BFC06104(B)的DNA核苷酸序列(B-1)和與之對應(yīng)的氨基酸序列(B-2)。
圖3、利用ProParam軟件對計(jì)算機(jī)預(yù)測的BCF06016(A)和BFC06104(B)進(jìn)行蛋白質(zhì)疏水性/親水性預(yù)測的分析。
圖4、利用tmpred/tmap分析軟件進(jìn)行蛋白質(zhì)跨膜區(qū)域分析BFC06016基因的蛋白質(zhì)跨膜區(qū)域分析結(jié)果,證明其無跨膜區(qū)(圖4A),同理,也證明了BFC06104無跨膜區(qū)(圖4B)。
圖5、利用pepwheel圖形顯示出該蛋白質(zhì)序列中各氨基酸殘基的螺旋輪,圖5A為BFC06016和圖5B為BFC06104蛋白質(zhì)氨基酸螺旋輪分析的結(jié)果。
圖6、利用pepinfo統(tǒng)計(jì)出該蛋白質(zhì)序列中各種不同性質(zhì)的氨基酸的含量及其分布,圖6A顯示了對BFC06016基因分析的結(jié)果,圖6B顯示了對BFC06104基因分析的結(jié)果。
圖7、BFC06016(A)和BFC06104(B)基因定位在人第19號染色體DNA序列上。
圖8、BFC06016和BFC06104與已知載脂蛋白A1BP基因三者間氨基酸同源性比較。星字符號(*)代表三者基因間氨基酸相同;空白符號()表示三者間該氨基酸不相同;下位點(diǎn)符號(.)代表氨基酸不同源,但是屬于同質(zhì)類型氨基酸;上下兩點(diǎn)(:)代表氨基酸不同源,而且屬于不同質(zhì)類型氨基酸。BFC06016與載脂蛋白A1BP間的氨基酸同源性為40.0%;BFC06104與載脂蛋白A1BP間的氨基酸同源性為41.5%。
圖9、全合成由計(jì)算機(jī)預(yù)測的新基因核苷酸序列流程圖。
具體實(shí)施方式
實(shí)施例1、生物信息分析所需要的數(shù)據(jù)庫下載和獲取通過連接NCBI遠(yuǎn)程數(shù)據(jù)庫,下載所需要的生物信息分析相關(guān)的最新數(shù)據(jù)庫。其中包括了人表達(dá)DNA序列標(biāo)簽數(shù)據(jù)庫,非冗余蛋白質(zhì)序列數(shù)據(jù)庫,核苷酸數(shù)據(jù)庫,專利蛋白質(zhì)序列數(shù)據(jù)庫,人染色體序列數(shù)據(jù)庫等。在本地計(jì)算機(jī)對所有這些下載回來的數(shù)據(jù)庫進(jìn)行格式化處理。將其轉(zhuǎn)化為本地程序可以識別的序列格式數(shù)據(jù)庫。
實(shí)施例2、程序搜集與編寫本發(fā)明所使用的生物信息分析程序均是來源于公共渠道或商業(yè)軟件,主要有blastallNCBI(美國國立生物技術(shù)信息中心)的blast軟件包,可以實(shí)現(xiàn)大致的基因序列的比對工作;Wu-blast華盛頓大學(xué)的blast軟件包,其在新基因的檢索分析方面所做的功能比較優(yōu)秀;FastaEMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室)的序列比對軟件包;Cap4/Phrap華盛頓大學(xué)基因組科學(xué)研究中心的序列拼接軟件;tmpred預(yù)測蛋白質(zhì)序列的跨膜;signalp預(yù)測蛋白質(zhì)序列的信號肽;clustalw多序列比對分析軟件;pressdb數(shù)據(jù)庫編輯軟件,wu-blast程序?qū)S玫暮塑账嵝蛄袛?shù)據(jù)庫格式化軟件;sim4表達(dá)序列和染色體基因組序列比對軟件;im_index數(shù)據(jù)庫編輯軟件,主要用于對序列數(shù)據(jù)庫建立索引,實(shí)現(xiàn)大數(shù)據(jù)庫的可操作性;setdb數(shù)據(jù)庫編輯軟件,wu-blast程序?qū)S玫牡鞍踪|(zhì)序列數(shù)據(jù)庫格式化軟件;remap序列酶切位點(diǎn)分析軟件;restrict序列酶切信息統(tǒng)計(jì)軟件;showorfDNA序列翻譯軟件;pepinfo圖形方式顯示蛋白質(zhì)序列中各種不同性質(zhì)氨基酸的含量;pepstats統(tǒng)計(jì)蛋白質(zhì)序列中各種氨基酸的含量同時得出分子量,等電點(diǎn),帶電荷以及280nm的光吸收值;pepwheel圖形方式顯示蛋白質(zhì)序列中所有氨基酸殘基的螺旋輪;Proparam主要用于綜合確定蛋白質(zhì)的親水性/疏水性;Tmap圖形顯示蛋白質(zhì)的跨膜區(qū)域。
為執(zhí)行本發(fā)明編制的計(jì)算機(jī)程序主要有如下軟件tbl2fasta_n/fasta2tbl_n序列格式轉(zhuǎn)換軟件,其可將fasta格式的序列轉(zhuǎn)為表格格式的序列;gb2fasta序列格式轉(zhuǎn)換軟件,可將genbank格式的序列轉(zhuǎn)為fasta格式的序列;drawBlastblast結(jié)果做圖程序,可以通過blast的結(jié)果數(shù)據(jù)做出大致的比對示意圖;ed_cap4重新編譯的Cap4程序,可以實(shí)現(xiàn)自動完成cap4運(yùn)行環(huán)境的配置;extractcontigs將cap4輸出的得分矩陣數(shù)據(jù)轉(zhuǎn)為fasta格式的文件;im_delete數(shù)據(jù)庫編輯軟件,可以實(shí)現(xiàn)對數(shù)據(jù)庫中任意一個序列的刪除;im_insert數(shù)據(jù)庫編輯軟件,可以實(shí)現(xiàn)對序列數(shù)據(jù)庫的插入增加序列的操作;im_retrieve數(shù)據(jù)庫編輯軟件,批量或單個獲取大型數(shù)據(jù)庫中的某些序列;pepsigp重新編譯的signalp軟件,對原先只能單個預(yù)測信號肽的程序進(jìn)行改進(jìn),實(shí)現(xiàn)批量自動化全面預(yù)測;primers_for_fulllength_clone批量引物設(shè)計(jì)軟件;ps_signalp數(shù)據(jù)解析器軟件,解析pepsigp程序產(chǎn)生的結(jié)果數(shù)據(jù);ps_scan蛋白質(zhì)活性位點(diǎn)/功能域分析軟件;translate數(shù)據(jù)庫編輯軟件,DNA序列翻譯程序;tt_comp_dna數(shù)據(jù)庫編輯軟件,DNA序列反向互補(bǔ)程序;tt_cycle輔助軟件,主要用于配合部分不能實(shí)現(xiàn)自動化操作的程序?qū)崿F(xiàn)全面自動化運(yùn)行;tt_fasty_1改進(jìn)的fasty程序,可將復(fù)雜的參數(shù)和一些經(jīng)驗(yàn)值直接賦給fasty程序,使得fasty程序可以和tt_cycle結(jié)合使用,達(dá)到實(shí)現(xiàn)方便操作的目的;tt_get是用于對臨時的沒有建立索引的數(shù)據(jù)庫進(jìn)行DNA、蛋白質(zhì)序列獲取操作的軟件;tt_pblastblastn是用于結(jié)果解析軟件,對大量的結(jié)果輸出實(shí)現(xiàn)機(jī)器自動分析;tt_sub_seq序列編輯的軟件,是用于方便獲取序列中的某個片段;tt_subseq_genome是用于對基因組序列進(jìn)行片段序列獲取的軟件;tt_tmpred是重新優(yōu)化后的蛋白質(zhì)序列跨膜區(qū)域預(yù)測軟件,使得改進(jìn)后的序列可以實(shí)現(xiàn)批量分析;tt_tmpred_p數(shù)據(jù)解析器軟件,是專用于解析tt_tmpred生成分析結(jié)果數(shù)據(jù);tt_zip_2序列編輯軟件,主要用于合并兩個簡單的序列片斷,并過濾掉他們之間的重復(fù)部分biofaseqindex數(shù)據(jù)庫編輯軟件,是用于針對Fasta格式的數(shù)據(jù)庫建立索引的程序;biogbseqindex數(shù)據(jù)庫編輯軟件,是用于針對GenBank格式的數(shù)據(jù)庫建立索引的程序;gb2cds序列編輯軟件,是用于獲取GenBank格式的序列文件中的CDS序列;parser_bx解析器軟件,是用于對blastn,blastp blastx等程序輸出的結(jié)果進(jìn)行解析的軟件;parser_fasta解析器軟件,是用于對fasty比對程序輸出的結(jié)果進(jìn)行解析的軟件;rfetch數(shù)據(jù)庫操作軟件,是用于通過網(wǎng)絡(luò)遠(yuǎn)程直接獲取GenBank上的序列數(shù)據(jù);lfetch數(shù)據(jù)庫操作軟件,是用于由本地網(wǎng)絡(luò)直接獲取本地數(shù)據(jù)庫上的序列數(shù)據(jù)軟件系統(tǒng)構(gòu)成本發(fā)明的基礎(chǔ)。
實(shí)施例3、新的基因獲取操作流程本發(fā)明的新基因發(fā)現(xiàn)的計(jì)算機(jī)運(yùn)作分析程序綜合流程框架圖分列圖1(A)和(B)。首先由腳本解析專利蛋白數(shù)據(jù)庫獲取數(shù)據(jù)庫中長度小于300AA,也可以是300AA至500AA,的所有蛋白質(zhì)序列(程序有fasta2tbl_n,tbl2fasta_n),通過tt_cycle,配合tt_tmpred對所有符合條件,例如小于300AA,的蛋白質(zhì)序列進(jìn)行跨膜區(qū)域的動態(tài)預(yù)測,結(jié)果通過管道直接送給程序tt_tmpred_p進(jìn)行解析,排除掉含有跨膜區(qū)域的所有序列;將保留下來的序列轉(zhuǎn)給pepsigp,進(jìn)行分泌型信號肽分析,結(jié)果轉(zhuǎn)給ps_signalp解析;將獲取到的氨基酸序列片段做為模型對人表達(dá)序列標(biāo)簽數(shù)據(jù)庫做tblastn比對,通過參數(shù)調(diào)整設(shè)置(參數(shù)設(shè)定為B=50000;V=50000;S=300),可以獲取到含有符合參數(shù)要求的全部序列片斷,由管道送給tt_pblast解析,獲取所有符合條件的表達(dá)標(biāo)簽序列,并送給腳本對其進(jìn)行ployA和ployT替換過濾;建立cap4運(yùn)行所必須的環(huán)境。用fastaclust2caml將這些fasta格式的序列全部轉(zhuǎn)成xml數(shù)據(jù)交換格式的文件。與此同時啟動Cap4和Phrap軟件分別對這些序列進(jìn)行全面拼接,之后用extractcontigs將拼接后的數(shù)據(jù)文件還原為FASTA格式的文件,合并序列;通過設(shè)定先對這些序列和非分泌蛋白數(shù)據(jù)庫做blastx比對分析,parser_bx解析排除掉所有完全匹配的序列,再將余下的序列和專利蛋白質(zhì)序列數(shù)據(jù)庫做tt_fasty_1比對分析,parser_fasta解析后獲得余下的序列;通過程序控制循環(huán)將余下的程序和人染色體序列數(shù)據(jù)庫做blastn比對驗(yàn)證分析,和專利核苷酸序列數(shù)據(jù)庫做blastn比對校正序列上的突變或缺失問題,和核苷酸序列數(shù)據(jù)庫以及人類表達(dá)序列標(biāo)簽數(shù)據(jù)庫做blastn比對分析解決序列長度不夠問題,和非冗余蛋白數(shù)據(jù)庫做blastx驗(yàn)證序列的是否已經(jīng)被發(fā)現(xiàn)過;對比這五個反復(fù)運(yùn)行分析所獲得的結(jié)果,可以得出全長基因序列。使用Sim4軟件可以確定該全長基因在染色體上的具體位置;使用ProParam可進(jìn)行蛋白質(zhì)的疏水性/親水性預(yù)測分析;使用signalp可對該蛋白質(zhì)進(jìn)行分泌型信號肽分析;使用tmpred和tmap可進(jìn)行蛋白質(zhì)跨膜區(qū)域分析;使用garnier可分析該蛋白質(zhì)的二級結(jié)構(gòu);使用pepwheel可圖形顯示出該蛋白質(zhì)序列中各氨基酸殘基的螺旋輪;使用pepinfo可統(tǒng)計(jì)出該蛋白質(zhì)序列中各種不同性質(zhì)的氨基酸的含量并以示意圖大致顯示出這些氨基酸的分布;使用pepstat可統(tǒng)計(jì)該蛋白質(zhì)序列中各種氨基酸的含量并得到分子量,等電點(diǎn),帶電荷以及280nm的光吸收值等信息;同時通過PubMed文獻(xiàn)檢索搜集大量相關(guān)文獻(xiàn)對所發(fā)現(xiàn)的基因進(jìn)行生物學(xué)功能方面的預(yù)測。
實(shí)施例4、新的類似于載脂蛋白A1BP的BFC06016和BFC06104基因的獲得按照以上新的基因獲取操作流程在服務(wù)器的終端執(zhí)行實(shí)際操作,我們獲得了計(jì)算機(jī)預(yù)測的38個蛋白質(zhì)序列,屬于可能的新基因候選者。其中與載脂蛋白A1BP基因類似的兩個新基因,現(xiàn)分別編號為BFC06016和BFC06104。Seq ID No.1和Seq ID No.2是BFC06016的DNA序列和氨基酸序列列在圖2-A中。Seq ID No.3和Seq ID No.4是BFC06104的DNA序列和氨基酸序列列在圖2-B中。該兩個基因已經(jīng)存入美國Genbank資料庫,分別獲得Accession ID DQ778079和ID DQ778080。應(yīng)用自編基因分析程序和已知的基因生物信息計(jì)算機(jī)處理軟件,如利用ProParam進(jìn)行蛋白質(zhì)的疏水性/親水性預(yù)測分析,獲得的結(jié)果顯示親水性(+2~-2范圍內(nèi))的GRAVY(Grandaverage of hydropathicity)值分別為-0.015和-0.115;signalp對該蛋白質(zhì)進(jìn)行分泌型信號肽分析(圖3顯示了對BFC06016分泌型信號肽分析的結(jié)果,證明其無分泌型信號肽;同理,也證明BFC06104(圖3B)也無分泌型信號肽);利用tmpred/tmap分析軟件進(jìn)行蛋白質(zhì)跨膜區(qū)域分析BFC06016基因的蛋白質(zhì)跨膜區(qū)域分析結(jié)果,證明其無跨膜區(qū)(圖4A),同理,也證明了BFC06104無跨膜區(qū)(圖4B);利用pepwheel圖形顯示出該蛋白質(zhì)序列中各氨基酸殘基的螺旋輪,圖5A為BFC06016和圖5B為BFC06104蛋白質(zhì)氨基酸螺旋輪分析的結(jié)果;利用pepinfo統(tǒng)計(jì)出該蛋白質(zhì)序列中各種不同性質(zhì)的氨基酸的含量及其分布,圖6A顯示了對BFC06016基因分析的結(jié)果,圖6B顯示了對BFC06104基因分析的結(jié)果。
實(shí)施例5、獲得與載脂蛋白A1結(jié)合蛋白基因類似的人基因BFC06016和BFC06104之間與已知載脂蛋白A1BP間的比較應(yīng)用Sim4軟件確定了該全長基因在染色體上的具體位置;已知的人載脂蛋白A1BP基因是坐落在人第1號染色體(見文獻(xiàn)Ritter et al Genetics,79693-702,2002)。經(jīng)由本發(fā)明設(shè)計(jì)的計(jì)算機(jī)分析方法預(yù)測的BFC06016和BFC06104基因是分別坐落在人第19號染色體上見圖7-A和圖7-B。在人的cDNA文庫中獲得BFC06016和BFC06104基因的全長cDNA序列,分別是Seq ID No.5和Seq ID No.6。與已知人載脂蛋白A1BP的三者之間氨基酸序列比較見圖8。其與載脂蛋白A1BP氨基酸同源性分別為41.5%和40.0%。星字符號(*)代表三者基因間氨基酸相同;空白符號()表示三者間該氨基酸不相同;下位點(diǎn)符號(.)代表氨基酸不同源,但是屬于同質(zhì)類型氨基酸;上下兩點(diǎn)(:)代表氨基酸不同源,而且屬于不同質(zhì)類型氨基酸。BFC06016與載脂蛋白A1BP間的氨基酸同源性為40.0%;BFC06104與載脂蛋白A1BP間的氨基酸同源性為41.5%。
實(shí)施例6、分子克隆技術(shù)簡述常規(guī)分子克隆技術(shù)包括DNA、RNA的提取,瓊脂糖凝膠和聚丙烯酰胺凝膠電泳,DNA片段的連接,限制性內(nèi)切酶酶切反應(yīng)均參照文獻(xiàn)(Maniatis等,“分子克隆實(shí)驗(yàn)手冊”冷泉港實(shí)驗(yàn)室出版,冷泉港,紐約,1982)。DNA聚合酶鏈反應(yīng)(PCR)(參照文獻(xiàn)Saikiet等,科學(xué),2301350,1985)所用的酶及反應(yīng)所需PCR儀均為Perkin Elmer產(chǎn)品。并參照廠家操作程序。DNA測序和DNA擴(kuò)增所需用的寡聚核苷酸引物由專門機(jī)構(gòu)完成。感受態(tài)大腸桿菌由GIBCO/BRL公司購得。質(zhì)粒DNA的純化,DNA片段的回收等均采用商品Qiagen純化柱制備。使用畢氏酵母菌或BL21DE3菌株用于蛋白質(zhì)表達(dá)和制備。
實(shí)施例7、BFC06016和BFC06104基因的全合成以BFC06016基因?yàn)槔?,講述如何設(shè)計(jì)DNA寡聚核苷酸引物片段,利用PCR技術(shù)來進(jìn)行全合成計(jì)算機(jī)預(yù)測的基因,其合成路線見圖9。
Seq ID No.75’-CACATATGAGCAGCGCA GCCGGCCCAG ACCCGTCGGA GGCGCCCGAAGAGCGGC-3’合成1-57正鏈,長54個堿基;Seq ID No.85’-GGGCGGCTGCCTCCGCGGTGCTGAGGAAATGCCGCTCTTCGGGCGCCTCCG-3’合成37-87反向互補(bǔ),長51個堿基;Seq ID No.95’-C CGCGGAGGCA GCCGCCCTGG AGCGGGAGCT GCTGGAGGATTATCGCTTTG GGCGGC-3’70-126正鏈,長57個堿基。
SeqID No.105’-CAGCCACGGCACTAGCATGACCGCACAGCTCCACGAGCTGCTGCCGCCCAAAGCGATA-3’111-168反向互補(bǔ),長58個堿基。
Seq ID No.115’-TGCTAGTGC CGTGGCTGTG ACCAAGGCGT TCCCGTTGCC CGCTCTCTCCCGGAAGCAG-3’152-209正鏈,長58個堿基。
Seq ID No.125’-CTGCCCCGTTCTGCTCCGGGCCACACACGACCAGCACCGTCCTCTGCTTCCGGGAGAG-3’195-252反向互補(bǔ),長58個堿基。
Seq ID No.135’-GC AGAACGGGGC AGTGGGGCTG GTCTGTGCCC GGCACCTGCGGGTGTTTGAG TATGA-3’239-295正鏈,長57個堿基。
Seq ID No.145’-GCAGGTCCAGCGAGCGTGTGGGGTAGAAGATGGTGGGTTCATACTCAAACACCCGC-3’278-333反向互補(bǔ),長56個堿基。
Seq ID No.155’-CACGC TCGCTGGACC TGCTGCATCG GGACCTGACC ACCCAGTGCGAGAAGATGGA C-3’316-371正鏈,長56個堿基。
Seq ID No.165’-ATGAGCTGCACCTCAGTGGGCAGGTAGCTCAGGAAGGGGATGTCCATCTTCTCGC-3’358-412反向互補(bǔ),長55個堿基。
Seq ID No.175’-CC TGCCCACTGA GGTGCAGCTC ATTAACGAAG CCTATGGGCTGGTGGTGGAT GCCGT-3’389-445正鏈,長57個堿基。
Seq ID No.185’-GGGGCCCCCGACCTCGCCCGGCTCCACGCCGGGGCCCAGTACGGCATCCACCACC-3’431-485反向互補(bǔ),長55個堿基。
Seq ID No.195’-GCCGGGC GAGGTCGGGG GCCCCTGCAC CCGCGCGCTG GCCACGCTCAAGCTGCTGTC C-3’464-521正鏈,長58個堿基。
Seq ID No.205’-GCCTGAGGGGATGTCCAGGCTCACGAGGGGGATGGACAGCAGCTTGAGCGTGGCC-3’500-554反向互補(bǔ),長55個堿基。
Seq ID No.215’-CATCCCCTC AGGCTGGGAC GCAGAGACCG GCAGCGATTC GGAGGACGGGCTGCGGCCTG-3’542-600正鏈,長59個堿基。
Seq ID No.225’-GCGCAGCGCTTGGGCGCCGCGAGAGACACCAGCACGTCAGGCCGCAGCCCGTCCTCCGA-3’579-637反向互補(bǔ),長59個堿基。
Seq ID No.235’-CGTGCTGGT GTCTCTCGCG GCGCCCAAGC GCTGCGCTGG CCGCTTCTCCGGGCGCCACC-3’602-660正鏈,長59個堿基。
Seq ID No.245’-CTTGCGGCGCACGTCATCGGGCACGAACCTGCCGGCCACGAAGTGGTGGCGCCCGGAGA-3’646-704反向互補(bǔ),長59個堿基。
Seq ID No.255’-TG ACGTGCGCCG CAAGTTCGCT CTGCGCCTGC CGGGATACACGGGCACCG-3’689-738正鏈,長50個堿基。
Seq ID No.265’-TAGCGGCCGCTCACAGTGCCGCGACGCAGTCGGTGCCCGTGTATCCCGGC-3’719-768反向互補(bǔ),長50個堿基。
Seq ID No.275’-CACATATGAT GAGCAGCGCA G-3’1-21正鏈,長21個堿基。
Seq ID No.285’-TAGCGGCCGCTCACAGTGCCGC-3’747-768反向互補(bǔ),長22個堿基。
具體操作簡述如下以待合成DNA序列的第一個寡核糖酸鏈引物為起始點(diǎn),首先每4個寡核糖酸鏈為一組,利用PCR技術(shù)合成一個長鏈DNA片斷。例如Seq ID No.7、Seq ID No.8、Seq ID No.9和Seq ID No.10為一組。在25微升的PCR緩沖液反應(yīng)體積中,引物的含量分別為100pM1pM1pM100pM的引物,20mM dNTP,適量的水和1u的T4 DNA多聚合成酶(T4 Taq Polymerase)。PCR儀中,以94℃30秒,55℃30秒,72℃30秒重復(fù)25個循環(huán),最后72℃保溫5分鐘,4℃保存至合成DNA片斷進(jìn)行純化程序。此產(chǎn)物為第一組產(chǎn)物。如此制備每一組產(chǎn)物。然后每相鄰兩組的產(chǎn)物等比例混合,在有Taq酶和dNTP存在的PCR緩沖液中,先進(jìn)行5個程序的PCR循環(huán)反應(yīng),然后再加入兩端的寡核糖酸鏈引物(此處,如是第一和第二組產(chǎn)物結(jié)合,就加入SeqID No.7和Seq ID No.14各100pM)。采用同樣的PCR循環(huán)程序進(jìn)行反應(yīng)制備更大DNA片斷。但循環(huán)中的72℃保溫時間可適當(dāng)增加。按操作示意圖9演示即可完成所設(shè)計(jì)的DNA全序列合成工作。應(yīng)用此程序BFC06016和BFC06104計(jì)算機(jī)預(yù)測基因序列獲得合成和制備,其5’末端含有Nde I限制性內(nèi)切酶。PCR合成的全長DNA插入在pTA載體中,并且在插入位點(diǎn)的左右分別含有兩個EcoRI和NotI位點(diǎn)。DNA序列經(jīng)測序檢定證明所合成的DNA序列正確。該質(zhì)粒命名為pTA-BFC06016。
參考文獻(xiàn)Zailin Yu et al(2002),WIPO patent publication# WO 02/052047 A2;USPTOpublication#20020155473A1.
Tang,YT et al.(2002),USPTO Patent6,365,371.
Bandman,O et al.(2000),USPTO Patent6,020,164.
Hamady M et al.(2006),BMC Bioinformatics.2006;71;Published online 2006January 410.1186/1471-2105-7-1.
Schattner P et al.(2006),RNA 1215-25.
Skupski MP et al.(1999),Nucleic Acids Research,27(1)35-38.
Aaron Levine et al.(2001),Nucleic Acids Res.29(19)4006-4013.
Nishikawa T et al.(2000),Genome Informatics(11)12-23Legato J et al.(2003),Physiological Genomics(13)179-181.
Gary B et al.(2002),Nucleic Acids Res.30(23)5310-5317.
Zondervan K et al.(2002),F(xiàn)ertil Steril.78(4)777-781.
Kontkanen O et al(2002),Expert Opin Ther Targets.6(3)363-374.
Kumar R et al(2002),J Mol Biol.319(3)593-602.
Ritter M et al(2001),GENOMICS.79693-702.
Chapman MA et al.(2004),Genome Res.14(2)313-318.
Uenishi H et al(2004),Nucleic Acids Res.(32)484-488.
Bass MP et al(2004),Pac Symp Biocomput.(9)93-103.
Ritter M et al(2001),GENOMICS.79693-702.
Yonan AL et al.(2003),Genes Brain Behav.(5)303-320.
賀福初等,中國專利公開號CN1657537A。
張德禮,等,遺傳學(xué)報。2004年31卷5期431-443。
李永青,等,生命科學(xué)研究。2001年5卷2期141-145。
朱傳炳,等,湖南師范大學(xué)自然科學(xué)學(xué)報2004年27卷3期79-82。
祁震宇,等,中華實(shí)驗(yàn)外科雜志。2005年22卷7期849-851。
謝正祥,等,中國醫(yī)學(xué)物理學(xué)雜志。2006年23卷1期62-63。
序列表<110>北京未名福源基因藥物研究中心有限公司天津溥瀛生物技術(shù)有限公司天津福源集團(tuán)<120>一種用于基因藥物和藥靶的基因發(fā)現(xiàn)與功能確定的計(jì)算機(jī)模擬預(yù)測系統(tǒng)平臺及類似載脂蛋白結(jié)合蛋白新基因的發(fā)現(xiàn)<130>GBI06CN0282<160>28<170>PatentIn version 3.3<210>1<211>750<212>DNA<213>智人(Homo sapiens)<400>1atgagcagcg cagccggccc agacccgtcg gaggcgcccg aagagcggca tttcctcagc 60accgcggagg cagccgccct ggagcgggag ctgctggagg attatcgctt tgggcggcag 120cagctcgtgg agctgtgcgg teatgctagt gccgtggctg tgaccaaggc gttcccgttg 180cccgctctct cccggaagca gaggacggtg ctggtcgtgt gtggcccgga gcagaacggg 240gcagtggggc tggtctgtgc ccggcacctg cgggtgtttg agtatgaacc caccatcttc 300taccccacac gctcgctgga cctgctgcat cgggacctga ccacccagtg cgagaagatg 360gacatcccct tcctgagcta cctgcccact gaggtgcagc tcattaacga agcctatggg 420ctggtggtgg atgccgtact gggccccggc gtggagccgg gcgaggtcgg gggcccctgc 480acccgcgcgc tggccacgct caagctgctg tccatccccc tcgtgagcct ggacatcccc 540tcaggctggg acgcagagac cggcagcgat tcggaggacg ggctgcggcc tgacgtgctg 600gtgtctctcg cggcgcccaa gcgctgcgct ggccgcttct ccgggcgcca ccacttcgtg 660gccggcaggt tcgtgcccga tgacgtgcgc cgcaagttcg ctctgcgcct gccgggatac 720acgggcaccg actgcgtcgc ggcactgtga 750<210>2<211>249<212>PRT<213>智人<400>2Met Ser Ser Ala Ala Gly Pro Asp Pro Ser Glu Ala Pro Glu Glu Arg1 5 10 15
His Phe Leu Ser Thr Ala Glu Ala Ala Ala Leu Glu Arg Glu Leu Leu20 25 30Glu Asp Tyr Arg Phe Gly Arg Gln Gln Leu Val Glu Leu Cys Gly His35 40 45Ala Ser Ala Val Ala Val Thr Lys Ala Phe Pro Leu Pro Ala Leu Ser50 55 60Arg Lys Gln Arg Thr Val Leu Val Val Cys Gly Pro Glu Gln Asn Gly65 70 75 80Ala Val Gly Leu Val Cys Ala Arg His Leu Arg Val Phe Glu Tyr Glu85 90 95Pro Thr Ile Phe Tyr Pro Thr Arg Ser Leu Asp Leu Leu His Arg Asp100 105 110Leu Thr Thr Gln Cys Glu Lys Met Asp Ile Pro Phe Leu Ser Tyr Leu115 120 125Pro Thr Glu Val Gln Leu Ile Asn Glu Ala Tyr Gly Leu Val Val Asp130 135 140Ala Val Leu Gly Pro Gly Val Glu Pro Gly Glu Val Gly Gly Pro Cys145 150 155 160Thr Arg Ala Leu Ala Thr Leu Lys Leu Leu Ser Ile Pro Leu Val Ser165 170 175Leu Asp Ile Pro Ser Gly Trp Asp Ala Glu Thr Gly Ser Asp Ser Glu180 185 190Asp Gly Leu Arg Pro Asp Val Leu Val Ser Leu Ala Ala Pro Lys Arg195 200 205Cys Ala Gly Arg Phe Ser Gly Arg His His Phe Val Ala Gly Arg Phe210 215 220Val Pro Asp Asp Val Arg Arg Lys Phe Ala Leu Arg Leu Pro Gly Tyr225 230 235 240Thr Gly Thr Asp Cys Val Ala Ala Leu245<210>3<211>900<212>DNA<213>智人<400>3atgagcagcg cagccggccc agacccgtcg gaggcgcccg aagagcggca tttcctcagg 60gccttggagc tgcagccccc acttgccgac atgggaagag cggagcttag ctcaaatgct 120accacctccc ttgtccagag gaggaaacag gcctggggaa ggcagtcatg gctagagcag 180atttggaacg cagggcctgt ttgccagagc accgcggagg cagccgccct ggagcgggag 240ctgctggagg attatcgctt tgggcggcag cagctcgtgg agctgtgcgg tcatgctagt 300gccgtggctg tgaccaaggc gttcccgttg cccgctctct cccggaagca gaggacggtg 360ctggtcgtgt gtggcccgga gcagaacggg gcagtggggc tggtctgtgc ccggcacctg 420cgggtgtttg agtatgaacc caccatcttc taccccacac gctcgctgga cctgctgcat 480cgggacctga ccacccagtg cgagaagatg gacatcccct tcctgagcta cctgcccact 540gaggtgcagc tcattaacga agcctatggg ctggtggtgg atgccgtact gggccccggc 600
gtggagccgg gcgaggtcgg gggcccctgc acccgcgcgc tggccacgct caagctgctg 660tccatccccc tcgtgagcct ggacatcccc tcaggctggg acgcagagac cggcagcgat 720tcggaggacg ggctgcggcc tgacgtgctg gtgtctctcg cggcgcccaa gcgctgcgct 780ggccgcttct ccgggcgcca ccacttcgtg gccggcaggt tcgtgcccga tgacgtgcgc 840cgcaagttcg ctctgcgcct gccgggatac acgggcaccg actgcgtcgc ggcactgtga 900<210>4<211>299<212>PRT<213>智人<400>4Met Ser Ser Ala Ala Gly Pro Asp Pro Ser Glu Ala Pro Glu Glu Arg1 5 10 15His Phe Leu Arg Ala Leu Glu Leu Gln Pro Pro Leu Ala Asp Met Gly20 25 30Arg Ala Glu Leu Ser Ser Asn Ala Thr Thr Ser Leu Val Gln Arg Arg35 40 45Lys Gln Ala Trp Gly Arg Gln Ser Trp Leu Glu Gln Ile Trp Asn Ala50 55 60Gly Pro Val Cys Gln Ser Thr Ala Glu Ala Ala Ala Leu Glu Arg Glu65 70 75 80Leu Leu Glu Asp Tyr Arg Phe Gly Arg Gln Gln Leu Val Glu Leu Cys85 90 95Gly His Ala Ser Ala Val Ala Val Thr Lys Ala Phe Pro Leu Pro Ala100 105 110Leu Ser Arg Lys Gln Arg Thr Val Leu Val Val Cys Gly Pro Glu Gln115 120 125Asn Gly Ala Val Gly Leu Val Cys Ala Arg His Leu Arg Val Phe Glu130 135 140Tyr Glu Pro Thr Ile Phe Tyr Pro Thr Arg Ser Leu Asp Leu Leu His145 150 155 160Arg Asp Leu Thr Thr Gln Cys Glu Lys Met Asp Ile Pro Phe Leu Ser165 170 175Tyr Leu Pro Thr Glu Val Gln Leu Ile Asn Glu Ala Tyr Gly Leu Val180 185 190Val Asp Ala Val Leu Gly Pro Gly Val Glu Pro Gly Glu Val Gly Gly195 200 205Pro Cys Thr Arg Ala Leu Ala Thr Leu Lys Leu Leu Ser Ile Pro Leu210 215 220Val Ser Leu Asp Ile Pro Ser Gly Trp Asp Ala Glu Thr Gly Ser Asp225 230 235 240Ser Glu Asp Gly Leu Arg Pro Asp Val Leu Val Ser Leu Ala Ala Pro245 250 255Lys Arg Cys Ala Gly Arg Phe Ser Gly Arg His His Phe Val Ala Gly260 265 270Arg Phe Val Pro Asp Asp Val Arg Arg Lys Phe Ala Leu Arg Leu Pro275 280 285Gly Tyr Thr Gly Thr Asp Cys Val Ala Ala Leu290 295
<210>5<211>944<212>cDNA<213>智人<400>5cctccctcca cggatgcgct taaaaggcgg tggcggtggc ggcagcgccc ggcgcccggg 60ctcacctcgg ccatgagcag cgcagccggc ccagacccgt cggaggcgcc cgaagagcgg 120catttcctca gcaccgcgga ggcagccgcc ctggagcggg agctgctgga ggattatcgc 180tttgggcggc agcagctcgt ggagctgtgc ggtcatgcta tgtgccgtgg ctgtgaccaa 240ggcgttcccg ttgcccgctc tctcccggaa gcagaggacg gtgctggtcg tgtgtggccc 300ggagcagaac ggggcagtgg ggctggtctg tgcccggcac ctgcgggtgt ttgagtatga 360acccaccatc ttctacccca cacgctcgct ggacctgctg catcgggacc tgaccaccca 420gtgcgagaag atggacatcc ccttcctgag ctacctgccc actgaggtgc agctcattaa 480cgaagcctat gggctggtgg tggatgccgt actgggcccc ggcgtggagc cgggcgaggt 540cgggggcccc tgcacccgcg cgctggccac gctcaagctg ctgtccatcc ccctcgtgag 600cctggacatc ccctcaggct gggacgcaga gaccggcagc gattcggagg acgggctgcg 660gcctgacgtg ctggtgtctc tcgcggcgcc caagcgctgc gctggccgct tctccgggcg 720ccacacttcg tggccggcag gtgcgtgccc gatgacgtgc gccgaaagtt cgctctgcgc 780ctgccgggat acacgggcac cgactggcgt cgcggcactt gtgaccgcca cccgggggca 840cacccggatg gaccctcggc aattaaacag cctcccacaa aaaaaaaaaa aaagaacaaa 900aacaaaagaa ggaggaggac ctaagataaa cacagagaga gagc 944<210>6<211>711<212>cDNA<213>智人<400>6agcgggactt gccgacatgg gaagagcgga gcttagctca aatgctacca cctcccttgt 60ccagaggagg aaacaggcct ggggaaggca gtcatggcta gagcagattt ggaacgcagg 120gcctgtttgc cagagcaccg cggaggcagc cgccctggag cgggagctgc tggaggatta 180tcgctttggg cggcagcagc tcgtggagct gtgcggtcat gctagtgccg tggctgtgac 240caaggcgttc ccgttgcccg ctctctcccg gaagcagagg acggtgctgg tcgtgtgtgg 300cccggagcag aacggggcag tggggctggt ctgtgcccgg cacctgcggg tgtttgagta 360
tgaacccacc atcttctacc ccacacgctc gctggacctg ctcatcggga cctgaccacc 420cagtgcgaga agatggacat ccccttcctg agctacctgc ccactgaggt gcagctcatt 480aacgaagcct atgggctggt ggtggatgcc gtactgggcc ccggcgtgga gccgggcgag 540gtcgggggcc cctgcacccg cgcgctggcc acgctcaagc tgctgtccat ccccctcgtg 600agcctggaca tcccctcagg ctgggacgca gagaccggca gcgattcgga gggacgggct 660gcggcctgac gtgctggtgt ctctcgcggc gcccaagcgc ttcgctggcc a 711<210>7<211>54<212>DNA<213>人工序列<220>
<223>1-57正鏈<400>7cacatatgag cagcgcagcc ggcccagacc cgtcggaggc gcccgaagag cggc 54<210>8<211>51<212>DNA<213>人工序列<220>
<223>37-87反向互補(bǔ)<400>8gggcggctgc ctccgcggtg ctgaggaaat gccgctcttc gggcgcctcc g 51<210>9<211>57<212>DNA<213>人工序列<220>
<223>70-126正鏈<400>9ccgcggaggc agccgccctg gagcgggagc tgctggagga ttatcgcttt gggcggc 57<210>10<211>58<212>DNA<213>人工序列<220>
<223>111-168反向互補(bǔ)<400>10cagccacggc actagcatga ccgcacagct ccacgagctg ctgccgccca aagcgata 58
<210>11<211>58<212>DNA<213>人工序列<220>
<223>152-209正鏈<400>11tgctagtgcc gtggctgtga ccaaggcgtt cccgttgccc gctctctccc ggaagcag 58<210>12<211>58<212>DNA<213>人工序列<220>
<223>195-252反向互補(bǔ)<400>12ctgccccgtt ctgctccggg ccacacacga ccagcaccgt cctctgcttc cgggagag 58<210>13<211>57<212>DNA<213>人工序列<220>
<223>239-295正鏈<400>13gcagaacggg gcagtggggc tggtctgtgc ccggcacctg cgggtgtttg agtatga 57<210>14<211>56<212>DNA<213>人工序列<220>
<223>278-333反向互補(bǔ)<400>14gcaggtccag cgagcgtgtg gggtagaaga tggtgggttc atactcaaac acccgc 56<210>15<211>56<212>DNA<213>人工序列<220>
<223>316-371正鏈<400>15cacgctcgct ggacctgctg catcgggacc tgaccaccca gtgcgagaag atggac 56
<210>16<211>55<212>DNA<213>人工序列<220>
<223>358-412反向互補(bǔ)<400>16atgagctgca cctcagtggg caggtagctc aggaagggga tgtccatctt ctcgc 55<210>17<211>57<212>DNA<213>人工序列<220>
<223>389-445正鏈<400>17cctgcccact gaggtgcagc tcattaacga agcctatggg ctggtggtgg atgccgt 57<210>18<211>55<212>DNA<213>人工序列<220>
<223>431-485反向互補(bǔ)<400>18ggggcccccg acctcgcccg gctccacgcc ggggcccagt acggcatcca ccacc 55<210>19<211>58<212>DNA<213>人工序列<220>
<223>464-521正鏈<400>19gccgggcgag gtcgggggcc cctgcacccg cgcgctggcc acgctcaagc tgctgtcc 58<210>20<211>55<212>DNA<213>人工序列<220>
<223>500-554反向互補(bǔ)<400>20gcctgagggg atgtccaggc tcacgagggg gatggacagc agcttgagcg tggcc 55<210>21
<211>59<212>DNA<213>人工序列<220>
<223>542-600正鏈<400>21catcccctca ggctgggacg cagagaccgg cagcgattcg gaggacgggc tgcggcctg 59<210>22<211>59<212>DNA<213>人工序列<220>
<223>579-637反向互補(bǔ)<400>22gcgcagcgct tgggcgccgc gagagacacc agcacgtcag gccgcagccc gtcctccga 59<210>23<211>59<212>DNA<213>人工序列<220>
<223>602-660正鏈<400>23cgtgctggtg tctctcgcgg cgcccaagcg ctgcgctggc cgcttctccg ggcgccacc 59<210>24<211>59<212>DNA<213>人工序列<220>
<223>646-704反向互補(bǔ)<400>24cttgcggcgc acgtcatcgg gcacgaacct gccggccacg aagtggtggc gcccggaga 59<210>25<211>50<212>DNA<213>人工序列<220>
<223>689-738正鏈<400>25tgacgtgcgc cgcaagttcg ctctgcgcct gccgggatac acgggcaccg 50<210>26<211>50
<212>DNA<213>人工序列<220>
<223>719-768反向互補(bǔ)<400>26tagcggccgc tcacagtgcc gcgacgcagt cggtgcccgt gtatcccggc 50<210>27<211>21<212>DNA<213>人工序列<220>
<223>1-21正鏈<400>27cacatatgat gagcagcgca g 21<210>28<211>22<212>DNA<213>人工序列<220>
<223>747-768反向互補(bǔ)<400>28tagcggccgc tcacagtgcc gc 22
權(quán)利要求
1.一種發(fā)現(xiàn)新基因的方法,該方法包括以下步驟1)從已公開發(fā)表的蛋白質(zhì)序列數(shù)據(jù)庫中獲取長度小于300AA或400AA或500AA,首選的是300AA、優(yōu)選的是400AA、更優(yōu)選的是500AA的所有蛋白質(zhì)序列,并將這些序列轉(zhuǎn)為統(tǒng)一格式;2)對上述蛋白質(zhì)序列進(jìn)行批量跨膜區(qū)域分析從中排除含有跨膜區(qū)域的所有序列;3)對保留的序列批量進(jìn)行分泌型信號肽分析;4)將獲取的序列片段作為模型對表達(dá)序列標(biāo)簽文庫作比對,獲得具有一定匹配的表達(dá)序列標(biāo)簽;5)對表達(dá)序列標(biāo)簽進(jìn)行拼接;和6)與已知數(shù)據(jù)庫的序列進(jìn)行比較,獲得新的全長基因。
2.用于新基因發(fā)現(xiàn)和功能分析的計(jì)算機(jī)系統(tǒng)平臺,該系統(tǒng)基于Linux操作系統(tǒng),其包括(a)、本地服務(wù)器網(wǎng)絡(luò)化的生物信息和基因分析程序;(b)、tbl2fasta_n/fasta2tbl_n序列格式轉(zhuǎn)換軟件,能將fasta格式的序列轉(zhuǎn)為表格格式的序列;gb2fasta序列格式轉(zhuǎn)換軟件,將genbank格式的序列轉(zhuǎn)為fasta格式的序列;drawBlastblast結(jié)果做圖程序,能通過blast的結(jié)果數(shù)據(jù)做出大致的比對示意圖;ed_cap4重新編譯的Cap4程序,能實(shí)現(xiàn)自動完成cap4運(yùn)行環(huán)境的配置;extractcontigs將cap4輸出的得分矩陣數(shù)據(jù)轉(zhuǎn)為fasta格式的文件;im_delete數(shù)據(jù)庫編輯軟件,能實(shí)現(xiàn)對數(shù)據(jù)庫中任意一個序列的刪除;im_insert數(shù)據(jù)庫編輯軟件,能實(shí)現(xiàn)對序列數(shù)據(jù)庫的插入增加序列的操作;im_retrieve數(shù)據(jù)庫編輯軟件,批量或單個獲取大型數(shù)據(jù)庫中的某些序列;pepsigp重新編譯的signalp軟件,對原先只能單個預(yù)測信號肽的程序進(jìn)行改進(jìn),實(shí)現(xiàn)批量自動化全面預(yù)測;primers_for_fulllength_clone批量引物設(shè)計(jì)軟件;ps_signalp數(shù)據(jù)解析器軟件,解析pepsigp程序產(chǎn)生的結(jié)果數(shù)據(jù);ps_scan蛋白質(zhì)活性位點(diǎn)/功能域分析軟件;translate數(shù)據(jù)庫編輯軟件,DNA序列翻譯程序;tt_comp_dna數(shù)據(jù)庫編輯軟件,DNA序列反向互補(bǔ)程序;tt_cycle輔助軟件,主要用于配合部分不能實(shí)現(xiàn)自動化操作的程序?qū)崿F(xiàn)全面自動化運(yùn)行;tt_fasty_1改進(jìn)的fasty程序,主要目的是實(shí)現(xiàn)方便操作;tt_get對臨時的沒有建立索引的數(shù)據(jù)庫進(jìn)行DNA、蛋白質(zhì)序列獲取操作的軟件;tt_pblastblastn結(jié)果解析軟件,對大量的結(jié)果輸出實(shí)現(xiàn)機(jī)器自動分析;tt_sub_seq序列編輯的軟件,方便獲取序列中的某個片段;tt_subseq_genome對基因組序列進(jìn)行片段序列獲取的軟件;tt_tmpred重新編譯后的蛋白質(zhì)序列跨膜區(qū)域預(yù)測軟件,改進(jìn)后的序列能實(shí)現(xiàn)批量分析;tt_tmpred_p數(shù)據(jù)解析器軟件,專用于解析tt_tmpred生成分析結(jié)果數(shù)據(jù);tt_zip_2序列編輯軟件,主要用于合并兩個簡單的序列片斷,并過濾掉他們之間的重復(fù)部分;biofaseqindex數(shù)據(jù)庫編輯軟件,針對Fasta格式的數(shù)據(jù)庫建立索引的程序;biogbseqindex數(shù)據(jù)庫編輯軟件,針對GenBank格式的數(shù)據(jù)庫建立索引的程序;gb2cds序列編輯軟件,獲取GenBank格式的序列文件中的CDS序列;parser_bx解析器軟件,對blastn,blastp blastx等程序輸出的結(jié)果進(jìn)行解析的軟件;parser_fasta解析器軟件,對fasty比對程序輸出的結(jié)果進(jìn)行解析的軟件;rfetch數(shù)據(jù)庫操作軟件,通過網(wǎng)絡(luò)遠(yuǎn)程直接獲取GenBank上的序列數(shù)據(jù);1fetch數(shù)據(jù)庫操作軟件,由本地網(wǎng)絡(luò)直接獲取本地數(shù)據(jù)庫上的序列數(shù)據(jù)軟件。
3.權(quán)利要求
2所述的系統(tǒng)平臺在新基因的發(fā)現(xiàn)和分析中的應(yīng)用。
4.權(quán)利要求
3所述的應(yīng)用,其用于人、動物、植物、微生物的新基因發(fā)現(xiàn)和分析。
5.兩個類似載脂蛋白A1BP基因的新基因,BFC06016和BFC06104,分別具有Seq ID No.1和Seq ID No.3所示的核苷酸序列。
6.權(quán)利要求
5所述的新基因在藥物領(lǐng)域診斷中的應(yīng)用。
7.如權(quán)利要求
6所述的應(yīng)用,其特征在于用作與心血管疾病相關(guān)的診斷和治療目的的藥物或藥靶基因。
8.如權(quán)利要求
7所述的應(yīng)用,其中所說的藥物或藥靶為基因藥物或基因治療藥靶。
9.權(quán)利要求
5所述的基因編碼的蛋白質(zhì),其分別具有Seq ID No.2和Seq ID No.4所示的氨基酸序列。
10.權(quán)利要求
9所述的蛋白質(zhì)在制備心血管疾病相關(guān)的治療藥物和診斷試劑中的應(yīng)用。
專利摘要
本發(fā)明涉及一個利用生物信息學(xué)分析,計(jì)算機(jī)模擬預(yù)測技術(shù)和分子生物學(xué)技術(shù)來發(fā)現(xiàn)新基因的計(jì)算機(jī)分析系統(tǒng)平臺。特別是本發(fā)明利用已知的人類基因組序列資料,通過自編程序和分析途經(jīng),獲得了一種便捷和有效的計(jì)算機(jī)分析和預(yù)測手段,發(fā)現(xiàn)和制備了一系列的具有生物學(xué)功能的新基因。本發(fā)明同時還公開了兩個新發(fā)現(xiàn)的類似于人載脂蛋白A1BP的基因,命名為BFC06016和BFC06104,它們在GenBank的登錄號分別為DQ778079和DQ778080。這兩個基因及所編碼的蛋白質(zhì)可能與膽固醇在體內(nèi)代謝相關(guān),可作為人類心血管疾病診斷與治療的候選藥靶基因或作為基因藥物而具有臨床應(yīng)用意義。
文檔編號C12N15/12GKCN1884521SQ200610089339
公開日2006年12月27日 申請日期2006年6月21日
發(fā)明者于在林, 鄭志華, 唐元華, 富巖 申請人:北京未名福源基因藥物研究中心有限公司, 天津溥瀛生物技術(shù)有限公司, 美國福源集團(tuán)導(dǎo)出引文BiBTeX, EndNote, RefMan