專利名稱::基因組水平轉(zhuǎn)移基因預(yù)測(cè)方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種預(yù)測(cè)水平轉(zhuǎn)移基因的方法,具體涉及一種利用仿生模式識(shí)別原理構(gòu)建同類基因訓(xùn)練網(wǎng)絡(luò)對(duì)水平轉(zhuǎn)移基因進(jìn)行預(yù)測(cè)的方法。
背景技術(shù):
:水平基因轉(zhuǎn)移(horizontalgenetransfer,HGT),又稱側(cè)向基因轉(zhuǎn)移(lateralgenetransfer,LGT),是指在差異生物個(gè)體之間,或單個(gè)細(xì)胞內(nèi)部細(xì)胞器之間所進(jìn)行的遺傳物質(zhì)的交流。差異生物個(gè)體可以是同種但含有不同的遺傳信息的生物個(gè)體,也可以是遠(yuǎn)緣的,甚至沒有親緣關(guān)系的生物個(gè)體。隨著人類及其它生物基因組測(cè)序工作相繼完成,人們發(fā)現(xiàn)不同物種之間,甚至親緣關(guān)系很遠(yuǎn)的生物之間基因組上有大量同源基因存在,進(jìn)一步證實(shí)了水平基因轉(zhuǎn)移的普遍性和遠(yuǎn)緣性。水平轉(zhuǎn)移基因的預(yù)測(cè)對(duì)于生物進(jìn)化過程中的理解和物種之間遺傳物質(zhì)進(jìn)行定性和定量的估計(jì)都有重要的意義。而近年來,發(fā)現(xiàn)自然環(huán)境中存在大量具有轉(zhuǎn)化活性的DNA分子以及能主動(dòng)攝取外源DNA的感受態(tài)細(xì)胞,使得人們對(duì)環(huán)境中發(fā)生的水平基因轉(zhuǎn)移有了新的認(rèn)識(shí)。對(duì)水平基因轉(zhuǎn)移及其產(chǎn)生的生態(tài)效應(yīng)的深入研究,將有助于對(duì)基因工程生物做出新的評(píng)價(jià),使得基因工程技術(shù)及轉(zhuǎn)基因生物的應(yīng)用發(fā)揮更大的作用?,F(xiàn)在識(shí)別水平轉(zhuǎn)移基因的方法有很多種,比較典型的是利用不同物種基因之間異常高的BLAST命中來預(yù)測(cè)和通過構(gòu)建系統(tǒng)發(fā)生進(jìn)化樹的方法來判別,然而這兩種方法都需要當(dāng)基因組數(shù)據(jù)足夠多時(shí)才比較有效。另外還有一類方法是基于基因序列特征的。這些方法都是基于這樣一個(gè)假設(shè)基因組的某個(gè)特征是這個(gè)基因組特有的,如果這個(gè)基因組中與這特有的特征是背離的話那就是水平轉(zhuǎn)移基因?,F(xiàn)在常用的是一種基于八聯(lián)核苷酸頻率打分法(W8)來預(yù)測(cè)水平轉(zhuǎn)移基因,這種方法對(duì)于不同的基因組可以自動(dòng)設(shè)定閾值,并且比以往的算法命中率有很大的提高。還有一種基于支撐向量機(jī)(SVM)的水平轉(zhuǎn)移基因預(yù)測(cè)方法,其命中率比W8算法有一定的提高。但是這兩種算法的命中率都不是很理想,特別是W8算法,命中率在一些細(xì)菌組中很低。而支撐向量機(jī)需要采用分鏈預(yù)測(cè)才能提高一些命中率。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種新的水平轉(zhuǎn)移基因預(yù)測(cè)方法。為實(shí)現(xiàn)上述目的,本發(fā)明采用基于仿生模式識(shí)別原理來預(yù)測(cè)水平轉(zhuǎn)移基因,用統(tǒng)計(jì)方法提取基因序列特征,把基因轉(zhuǎn)化成高維空間的點(diǎn),分析同類樣本在高維空間分布的流形,確定覆蓋樣本子空間的幾何形體構(gòu)建網(wǎng)絡(luò),對(duì)水平轉(zhuǎn)移基因進(jìn)行預(yù)測(cè)。其處理方法包括如下步驟步驟l:采用基于統(tǒng)計(jì)方法來提取基因序列特征;步驟2:把一個(gè)基因組中的所有基因按照步驟1操作轉(zhuǎn)化成特征向量,每個(gè)基因映射成高維空間的一個(gè)點(diǎn);步驟3:分析同一個(gè)基因組中基因在高維空間的點(diǎn)分布,確定覆蓋樣本子空間,構(gòu)建訓(xùn)練網(wǎng)絡(luò);步驟4:用構(gòu)建的網(wǎng)絡(luò)對(duì)水平轉(zhuǎn)移基因進(jìn)行預(yù)測(cè)。進(jìn)一步,所述的采用統(tǒng)計(jì)方法提取序列特征,其中,統(tǒng)計(jì)方法有很多種,比如基于統(tǒng)計(jì)堿基單詞頻率的WF方法、基于統(tǒng)計(jì)絕對(duì)密碼子使用頻率FCU方法等。進(jìn)一步,所述的把基因轉(zhuǎn)化成特征向量,其中,由于基因序列是由A,T,G,C組成的,那么只要是統(tǒng)計(jì)這4個(gè)字符各種組合構(gòu)成的單詞出現(xiàn)的頻率。如果統(tǒng)計(jì)的單詞長(zhǎng)度為l,那么就是4種情況,特征向量就是4維的。如果統(tǒng)計(jì)的單詞長(zhǎng)度為2,那么就有16種情況,特征向量就是16維。因此一般得到的特征向量的維數(shù)是4r,其中r是單詞的長(zhǎng)度。進(jìn)一步,所述的分析基因在高維空間的點(diǎn)分布,主要是計(jì)算點(diǎn)之間的歐氏距離,確定樣本點(diǎn)的排序。進(jìn)一步,所述覆蓋樣本子空間采用幾何形體。進(jìn)一步,所述的覆蓋樣本子空間的幾何形體,其中,一般我們采用不同維數(shù)最簡(jiǎn)單的單形與超球的拓?fù)涑朔e構(gòu)成。如一維單形是直線,那么它和超球拓?fù)涑朔e后就是類似于香腸的形狀了,其實(shí)我們就是用超香腸神經(jīng)元命名這種幾何形體。進(jìn)一步,所述用構(gòu)建的網(wǎng)絡(luò)對(duì)水平轉(zhuǎn)移基因進(jìn)行預(yù)測(cè)為當(dāng)測(cè)試樣本中基因被網(wǎng)絡(luò)覆蓋時(shí),所述基因不是水平轉(zhuǎn)移基因;當(dāng)測(cè)試樣本中基因沒有被網(wǎng)絡(luò)覆蓋時(shí),所述基因是水平轉(zhuǎn)移基因。本發(fā)明將仿生模式識(shí)別(BPR)的方法應(yīng)用到水平轉(zhuǎn)移基因預(yù)測(cè)上,采用統(tǒng)計(jì)方法提取基因序列特征,把基因轉(zhuǎn)化成高維空間的點(diǎn),分析同類樣本在高維空間分布的流形,確定覆蓋樣本子空間的幾何形體構(gòu)建網(wǎng)絡(luò),用構(gòu)建的網(wǎng)絡(luò)對(duì)水平轉(zhuǎn)移基因進(jìn)行預(yù)測(cè)。結(jié)果優(yōu)于W8方法和SVM方法,提高了命中率。圖1是超香腸神經(jīng)元不同半徑的二維空間示意圖;圖2是本發(fā)明提出的算法流程圖。具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。本發(fā)明是一種利用仿生模式識(shí)別理論預(yù)測(cè)水平轉(zhuǎn)移基因的方法。其中,首先采用統(tǒng)計(jì)方法提取基因序列特征,然后把基因轉(zhuǎn)化成高維空間的點(diǎn),接著分析同類樣本在高維空間分布的流形,然后確定覆蓋樣本子空間的幾何形體,接著構(gòu)建網(wǎng)絡(luò),然后使用構(gòu)建的網(wǎng)絡(luò)對(duì)水平轉(zhuǎn)移基因進(jìn)行預(yù)對(duì)于基因序列我們采用統(tǒng)計(jì)的方法提取序列特征,實(shí)驗(yàn)中采用基于統(tǒng)計(jì)絕對(duì)密碼子使用頻率FCU方法來提取序列特征,主要是由于它既包含了基因密碼子使用偏性的信息,也包含了基因所編碼蛋白質(zhì)的氨基酸組成的信息。絕對(duì)密碼子統(tǒng)計(jì)頻率主要是統(tǒng)計(jì)二聯(lián)核苷酸的頻率(FD),F(xiàn)D的計(jì):公式是AT其中」=0,1,2,3。當(dāng)」'=0時(shí)統(tǒng)計(jì)連續(xù)二聯(lián)核苷酸的頻率,當(dāng)j二l時(shí)統(tǒng)計(jì)密碼子前兩個(gè)二連核苷酸的頻率,當(dāng)戶2時(shí),統(tǒng)計(jì)密碼子后兩個(gè)二連核苷酸的頻率,當(dāng)J、3時(shí)統(tǒng)計(jì)密碼子第一個(gè)和第三個(gè)二連核苷酸的頻率,這樣我們可以得到一個(gè)64維的向量。通過上述特征提取方法,對(duì)于每一個(gè)基因我們都可以得到一個(gè)64維的向量,把它映射到高維空間,那么每個(gè)基因都對(duì)應(yīng)成64維特征空間中的一個(gè)點(diǎn),分析同類基因高維空間的點(diǎn)分布,采用以下算法構(gòu)建網(wǎng)絡(luò)1)初始化特征集合Sa為空、Sb包含所有用于確定網(wǎng)絡(luò)結(jié)構(gòu)的樣本特征向量,神經(jīng)元集合S自為空;2)從Sb任選一個(gè)特征向量放入Sa;3)從Sa選擇一個(gè)特征向量Pa,從Sb選擇一個(gè)特征向量Pb,保證||^-aI最小,將Pb也加入Sa中;4)重復(fù)3直至Sb為空,S腳即為構(gòu)建網(wǎng)絡(luò)的神經(jīng)元集合。該算法生成了一顆最小生成樹。用生成的最小生成樹和超球拓?fù)涑朔e構(gòu)成超香腸神經(jīng)元網(wǎng)絡(luò),對(duì)水平轉(zhuǎn)移基因進(jìn)行識(shí)別。超香腸神經(jīng)元模型如圖l所示,它是超球和空間中某個(gè)一維流形的拓?fù)涑朔e。直觀上講,這個(gè)高維幾何形體可以看作是超球沿著某個(gè)一維流形所指定的軌跡滾動(dòng)而經(jīng)過的區(qū)域的總和。考慮實(shí)現(xiàn)方便,這個(gè)一維流形可以用一條由若干段首尾相連的折線段組成的鏈來近似。令某個(gè)超球的球心沿著其中一段線段滾動(dòng),可以得到一種類似于香腸的高維幾何基本形狀單元,將相鄰的每?jī)蓚€(gè)神經(jīng)元彼此連接,可以構(gòu)成一條超香腸鏈,每一條超香腸鏈可以在特征空間中描述某一個(gè)類別的樣本區(qū)域。該模型的描述方程如下-,)=sgn其中r為神經(jīng)元半徑,而點(diǎn)X到線段XA的距離的計(jì)算方法如下2—-o.:乂<formula>formulaseeoriginaldocumentpage7</formula>如果測(cè)試樣本和訓(xùn)練樣本同類的話,f(x)〉二o,否則f(x)〈o(本發(fā)明應(yīng)用實(shí)例是對(duì)于細(xì)菌基因組水平轉(zhuǎn)移基因的預(yù)測(cè),其具體實(shí)現(xiàn)步驟如下1)選取基因數(shù)據(jù)。由于在細(xì)菌基因組中已知的水平轉(zhuǎn)移基因數(shù)據(jù)很少,所以我們采用人工的方法模擬在細(xì)菌組中插入水平轉(zhuǎn)移基因。因?yàn)樗睫D(zhuǎn)移到細(xì)菌基因組中的事件是在自然界中客觀存在的,所以一般選用噬菌體基因或細(xì)菌基因作為給體基因。本發(fā)明申請(qǐng),選取27種噬菌體基因組中共1615個(gè)基因作為給體基因數(shù)據(jù)集,而對(duì)象基因數(shù)據(jù)集我們選用大腸桿菌(EscherichiacoliK12)、包氏螺方定體(Borreliaburgdorferi)、以及蠟狀芽苞桿菌(BacilluscereusZK)。這三種都是常見的病原性細(xì)菌,它們的基因組序列都來自于GenBank數(shù)據(jù)庫(kù),登記號(hào)分別是NC—000913,NC一001318,和NC一006274。我們隨機(jī)的從給體基因數(shù)據(jù)集中挑出給體基因插入到對(duì)象基因數(shù)據(jù)集中作為水平轉(zhuǎn)移基因,選取給體基因數(shù)量是對(duì)象基因數(shù)量的2。/。。2)對(duì)每種對(duì)象基因組分別進(jìn)行預(yù)測(cè),我們采用超香腸神經(jīng)元網(wǎng)絡(luò)訓(xùn)練對(duì)象基因樣本,人工插入的基因序列作為測(cè)試樣本。由于我們現(xiàn)在識(shí)別的水平轉(zhuǎn)移基因是人為的插入細(xì)菌基因組的,而細(xì)菌基因組本身也是有自己的水平轉(zhuǎn)移基因的。倘若算法合理的話,除了能預(yù)測(cè)人為插入的以外還應(yīng)該能預(yù)測(cè)出細(xì)菌基因組原本的水平轉(zhuǎn)移基因,但是對(duì)這部分我們沒有辦法判斷它的識(shí)別準(zhǔn)確率的。所以我們一般用命中率來衡量算法的好壞,也就是計(jì)算我們?nèi)藶椴迦氲幕蚰苡袔讉€(gè)能被算法識(shí)別出來。在本發(fā)明申請(qǐng)中,我們對(duì)每個(gè)細(xì)菌基因組100次插入取平均值。7i100^^T^刀7^(。,G代表某個(gè)細(xì)菌基因組表1是BPR,SVM與W8在預(yù)測(cè)細(xì)菌組水平轉(zhuǎn)移基因上的比較,即通過十倍交叉驗(yàn)證的結(jié)果。其中網(wǎng)絡(luò)的泛化性為88%,并且和W8方法以及SVM方法作比較。如表所示,我們的方法在對(duì)水平轉(zhuǎn)移基因上有很大的提高,特別是在對(duì)大腸桿菌(EscherichiacoliK12)命中率上我們比W8提高了42.3%,比SVM方法提高了30.5%,其中SVM方法采用的也是FCU方法提取序列特征。<table>tableseeoriginaldocumentpage8</column></row><table>表13)仿生模式識(shí)別算法預(yù)測(cè)HGT的實(shí)際檢驗(yàn)。目前,己經(jīng)證實(shí)的在糞腸球菌(Enterococcusfaecalis)基因組存在著通過水平轉(zhuǎn)移得到的耐萬古霉術(shù)(Vancomycin-resistance)相關(guān)基因,一共有7條。這些基因在NCBI數(shù)據(jù)庫(kù)"locus-tag"為EF2293-EF2299,在糞腸球菌基因組中的位置分別為2212353-2212961,2212967-2213995,2213988-2214959,2214956-2215783,2215801-221607,2216783-2218126,2218126-2218788。我們把這7條基因當(dāng)作測(cè)試樣本,用糞腸球菌基因組中剩余的基因做為訓(xùn)練樣本構(gòu)建網(wǎng)絡(luò),結(jié)果我們把這7條基因全部都識(shí)別出來了,這也進(jìn)一步證實(shí)了仿生模式識(shí)別在水平轉(zhuǎn)移基因預(yù)測(cè)上的有效性。仿生模式識(shí)別是基于同調(diào)連續(xù)性原理的,在基因組中的基因序列有著本身固有的特征,這些特征映射到高維空間是滿足同調(diào)連續(xù)性,而基于序列特征預(yù)測(cè)水平轉(zhuǎn)移基因就是找到背離整個(gè)基因組特征的基因,因此我們采用基于仿生模式識(shí)別方法對(duì)細(xì)菌組水平轉(zhuǎn)移基因預(yù)測(cè)能取得不錯(cuò)的效果。本發(fā)明只是闡述利用仿生模式識(shí)別理論預(yù)測(cè)水平轉(zhuǎn)移基因的新方法,相信隨著進(jìn)一步的研究,此方法能在基因識(shí)別其他領(lǐng)域有更加廣泛的應(yīng)用。以上所述,僅為本發(fā)明中的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。權(quán)利要求1.一種基因組水平轉(zhuǎn)移基因預(yù)測(cè)方法,其特征在于,包括以下步驟1)采用基于統(tǒng)計(jì)方法來提取基因序列特征;2)把一個(gè)基因組中的所有基因按照步驟1)操作轉(zhuǎn)化成特征向量,每個(gè)基因映射成高維空間的一個(gè)點(diǎn);3)分析同一個(gè)基因組中基因在高維空間的點(diǎn)分布,確定覆蓋樣本子空間,構(gòu)建訓(xùn)練網(wǎng)絡(luò);4)用構(gòu)建的網(wǎng)絡(luò)對(duì)水平轉(zhuǎn)移基因進(jìn)行預(yù)測(cè)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述統(tǒng)計(jì)方法包括基于統(tǒng)計(jì)堿基單詞頻率的WF方法和基于統(tǒng)計(jì)絕對(duì)密碼子使用頻率FCU方法。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基因轉(zhuǎn)化成特征向量步驟中,基因序列是由A,T,G,C組成的,得到的特征向量的維數(shù)是4、其中i"是單詞的長(zhǎng)度。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分析基因在高維空間的點(diǎn)分布是指分析點(diǎn)與點(diǎn)之間的分布關(guān)系,計(jì)算點(diǎn)之間的歐式距離,確定樣本點(diǎn)的排序。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述覆蓋樣本子空間采用幾何形體。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述覆蓋樣本子空間的幾何形體是采用不同維數(shù)最簡(jiǎn)單的單形與超球的拓?fù)涑朔e構(gòu)成。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述幾何形體為超香腸神經(jīng)元。8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述用構(gòu)建的網(wǎng)絡(luò)對(duì)水平轉(zhuǎn)移基因進(jìn)行預(yù)測(cè)為當(dāng)測(cè)試樣本中基因被網(wǎng)絡(luò)覆蓋時(shí),所述基因不是水平轉(zhuǎn)移基因;當(dāng)測(cè)試樣本中基因沒有被網(wǎng)絡(luò)覆蓋時(shí),所述基因是水平轉(zhuǎn)移基因。全文摘要本發(fā)明是一種利用仿生模式識(shí)別原理對(duì)基因組水平轉(zhuǎn)移基因進(jìn)行預(yù)測(cè)的方法。采用基于同調(diào)連續(xù)性仿生模式識(shí)別原理預(yù)測(cè)基因組水平轉(zhuǎn)移基因,提取基因序列特征,把基因轉(zhuǎn)化成高維空間的點(diǎn),分析同類樣本在高維空間的點(diǎn)分布的,確定覆蓋樣本子空間的幾何形體構(gòu)建網(wǎng)絡(luò),對(duì)水平轉(zhuǎn)移基因進(jìn)行預(yù)測(cè)。文檔編號(hào)G06N3/00GK101533484SQ20081010178公開日2009年9月16日申請(qǐng)日期2008年3月12日優(yōu)先權(quán)日2008年3月12日發(fā)明者王守覺,陽陳申請(qǐng)人:中國(guó)科學(xué)院半導(dǎo)體研究所