本發(fā)明涉及生物信息學(xué)領(lǐng)域,具體涉及物種間基因家族親緣關(guān)系計(jì)算方法。
背景技術(shù):
物種進(jìn)化關(guān)系或親緣關(guān)系研究是生物信息學(xué)領(lǐng)域的重要研究內(nèi)容之一,研究物種進(jìn)化的重要方法是對物種間重要的直系同源基因或保守基因進(jìn)行氨基酸或核酸序列比對,根據(jù)序列的變化情況來推測基因間的進(jìn)化關(guān)系或親緣關(guān)系,進(jìn)而推測物種間的進(jìn)化關(guān)系或親緣關(guān)系。
基因家族是具有相同結(jié)構(gòu)域序列(一段保守的氨基酸序列)的多個(gè)基因的集合,物種中有的基因家族甚至包含上百或上千個(gè)基因,屬于一個(gè)大家族。同一基因家族的基因由于具有相同的結(jié)構(gòu)域,因此往往具有相似的生物學(xué)功能。當(dāng)然,基因之間序列相似性越高,基因的功能越相近。然而,目前的進(jìn)化研究中,不管是單個(gè)或少量的直系同源基因或保守基因,還是一個(gè)基因家族內(nèi)的基因的進(jìn)化分析,往往都是通過序列比對后構(gòu)建進(jìn)化樹展示“單個(gè)”基因之間的進(jìn)化關(guān)系或親緣關(guān)系。各個(gè)物種是一個(gè)獨(dú)立的整體,物種之間均具有某一相同的基因家族是常見的,而把物種內(nèi)的某一基因家族看做一個(gè)整體,不同物種同一基因家族間的進(jìn)化研究或關(guān)系研究還未見報(bào)道。一個(gè)物種任一形態(tài)發(fā)育特征往往不是單個(gè)基因的作用,通常是基因家族或不同基因家族之間共同作用的結(jié)果,因此對物種間單個(gè)或少量直系同源基因或保守基因的進(jìn)化分析或關(guān)系分析不如對基因家族之間的進(jìn)化分析或關(guān)系分析能更真實(shí)反映物種進(jìn)化關(guān)系及物種間形態(tài)發(fā)育特征異同。由于同一基因家族的基因往往具有相似的功能,那么物種間同一基因家族相似性水平越高則表明該物種間同一基因家族親緣關(guān)系越近,則相應(yīng)的基因功能表現(xiàn)水平或物種形態(tài)發(fā)育特征具有更近的相似性,可應(yīng)用于推斷基因功能表現(xiàn)水平及相應(yīng)形態(tài)發(fā)育特征的物種篩選。比如,nbs基因家族為熟知的植物抗病相關(guān)基因家族,假設(shè)已知a物種具有很強(qiáng)的抗病性,又假設(shè)有未知物種b、c、d,要想了解b、c、d中哪一個(gè)物種具有更強(qiáng)的抗病性,那么,通過本發(fā)明不同物種間基因家族親緣關(guān)系計(jì)算方法,就可以從b、c、d中篩選出與a具有最近的nbs基因家族親緣關(guān)系的具有較強(qiáng)抗病性的物種,避免了繁瑣的、長時(shí)間的、大規(guī)模的、高花費(fèi)的生物技術(shù)實(shí)驗(yàn)的篩選,節(jié)約人力物力,可以極大促進(jìn)物種育種篩選效率,較快獲得優(yōu)秀品種、目的品種。隨著基因組測序技術(shù)的進(jìn)步,越來越多的物種的全基因組被測序,那么獲得更多物種的完整的基因家族成為可能,則通過本發(fā)明基因家族親緣關(guān)系計(jì)算方法,可以更快篩選到具有特定形態(tài)發(fā)育特征的和具有特定應(yīng)用價(jià)值的物種。另外,對于異源雜交物種可反映其與2個(gè)親本物種的某基因家族的遺傳進(jìn)化關(guān)系,對于近緣物種可反映近緣物種間某基因家族的進(jìn)化關(guān)系。
技術(shù)實(shí)現(xiàn)要素:
為了發(fā)現(xiàn)不同物種同一基因家族間的進(jìn)化關(guān)系或親緣關(guān)系,并了解物種間某一基因家族的功能表現(xiàn)水平,提高特定形態(tài)發(fā)育特征的物種篩選,提出了本發(fā)明一種物種間基因家族親緣關(guān)系計(jì)算方法。
一種物種間基因家族親緣關(guān)系計(jì)算方法,包括:
確定一個(gè)待分析的基因家族作為指定基因家族,通常一個(gè)基因家族所包含的基因均具有相同的結(jié)構(gòu)域,結(jié)構(gòu)域?yàn)橐欢伪容^保守的氨基酸序列;
選擇參考物種,獲取其所述指定基因家族所包含的基因作為參考基因,指定基因家族的基因的獲取可以通過將物種的基因序列提交給一些在線網(wǎng)站或軟件去分析所包含的結(jié)構(gòu)域,如果包含指定基因家族的結(jié)構(gòu)域,則該基因?qū)儆谥付ɑ蚣易?,在線網(wǎng)站如ncbi的結(jié)構(gòu)域分析工具(https://www.ncbi.nlm.nih.gov/structure/cdd/wrpsb.cgi)、embl-ebi的pfam搜索工具(http://pfam.xfam.org/search)等,軟件如embl-ebi提供的本地hmmer安裝程序等;
確定第一考察物種,獲取其所述指定基因家族所包含的基因作為第一考察基因,獲取方法見上述參考物種指定基因家族基因的獲??;
確定第二考察物種,獲取其所述指定基因家族所包含的基因作為第二考察基因,獲取方法見上述參考物種指定基因家族基因的獲?。?/p>
將參考基因與第一考察基因進(jìn)行兩兩序列比對,從該序列比對結(jié)果中獲取大于閾值條件的參考物種的非冗余基因數(shù)量作為第一考察物種的參考物種非冗余基因數(shù)量,所述閾值條件為匹配序列長度和匹配序列相似性值的組合,所述大于閾值條件為大于匹配序列長度且大于匹配序列相似性值,所述閾值條件的數(shù)量大于等于2個(gè)。序列比對可以使用clustalx、clustalw或者blast軟件進(jìn)行,序列比對的結(jié)果通常包含兩兩序列間的匹配序列長度和匹配序列相似性值或匹配序列距離值,匹配序列相似性值與匹配序列距離值的關(guān)系為它們的和等于1,當(dāng)比對結(jié)果數(shù)據(jù)量大時(shí)可以通過perl程序編程獲取參考物種非冗余基因數(shù)量,非冗余基因指不重復(fù)的基因;
將參考基因與第二考察基因進(jìn)行兩兩序列比對,從該序列比對結(jié)果中獲取大于所述閾值條件的參考物種的非冗余基因數(shù)量作為第二考察物種的參考物種非冗余基因數(shù)量;
計(jì)算相同閾值條件時(shí)第一考察物種的參考物種非冗余基因數(shù)量與第二考察物種的參考物種非冗余基因數(shù)量的差值,確定差值的絕對值最大且參考物種非冗余基因個(gè)數(shù)較大的考察物種為與參考物種指定基因家族的親緣關(guān)系更近。
優(yōu)選地,參考物種和考察物種均已被全基因組測序,全基因組測序后得到的基因家族的基因信息更完整的,則后續(xù)分析的結(jié)果更可靠。
優(yōu)選地,所述序列為氨基酸序列。
優(yōu)選地,所述閾值條件中的匹配序列長度為所述指定基因家族的結(jié)構(gòu)域序列長度的三分之二,匹配序列長度閾值設(shè)置太小會降低后續(xù)分析結(jié)果的可信度,而通常結(jié)構(gòu)域序列長度的三分之二可以認(rèn)為該結(jié)構(gòu)域比較完整。
優(yōu)選地,所述閾值條件中的匹配序列相似性值為至少30%以上,通常序列相似性達(dá)30%可以認(rèn)為兩條序列可能具有相似的功能。
優(yōu)選地,所述匹配序列相似性值為至少30%以上包括30%,40%,50%,60%,70%,80%和90%。
優(yōu)選地,所述閾值條件的數(shù)量大于等于2個(gè)為7個(gè)閾值條件,所述7個(gè)閾值條件的匹配序列相似性值分別為30%,40%,50%,60%,70%,80%和90%,匹配序列長度均為所述指定基因家族的結(jié)構(gòu)域序列長度的三分之二。
優(yōu)選地,所述非冗余基因數(shù)量為非冗余基因的個(gè)數(shù)或非冗余基因的個(gè)數(shù)占參考物種的指定基因家族基因總數(shù)的比例。
當(dāng)然考察物種可以大于2個(gè),通過本發(fā)明的方法可以從所有考察物種中獲得與參考物種指定基因家族親緣關(guān)系最近的物種,如先從任意兩個(gè)考察物種中計(jì)算出與參考物種指定基因家族親緣關(guān)系更近的考察物種,然后計(jì)算此考察物種與另一考察物種誰與參考物種指定基因家族親緣關(guān)系更近,以此類推,獲得與參考物種指定基因家族親緣關(guān)系最近的考察物種。
與不同物種間或同種物種內(nèi)單個(gè)基因之間的親緣關(guān)系或進(jìn)化關(guān)系相比,不同物種同一基因家族之間的親緣關(guān)系具有更重要的應(yīng)用價(jià)值,前者僅僅表現(xiàn)基因之間的親緣關(guān)系或進(jìn)化關(guān)系,后者可以應(yīng)用于對不同物種中同一基因家族的功能表現(xiàn)水平的比較和了解,由此了解或預(yù)測物種間該基因家族對應(yīng)的形態(tài)發(fā)育特征的程度,從而更快更準(zhǔn)更高效地篩選優(yōu)勢物種或目的物種。另外,對于異源雜交物種可反應(yīng)其與2個(gè)親本物種的某基因家族的遺傳進(jìn)化關(guān)系,對于近緣物種可反映近緣物種間某基因家族的進(jìn)化關(guān)系。
附圖說明
圖1為本發(fā)明物種間基因家族親緣關(guān)系計(jì)算方法優(yōu)選實(shí)施例流程示意圖。
具體實(shí)施方式
下面將結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明,這些實(shí)施例僅起說明性作用,并不局限于本發(fā)明的應(yīng)用范圍。本發(fā)明不限于下述實(shí)施方式或?qū)嵤├?,凡不違背本發(fā)明精神所做出的修改及變形,均應(yīng)包括在本發(fā)明范圍之內(nèi)。
實(shí)驗(yàn)例1:海島棉、陸地棉與雷蒙德氏棉間nbs基因家族的親緣關(guān)系計(jì)算
1.材料來源:陸地棉和雷蒙德氏棉的基因組數(shù)據(jù)來自于中國農(nóng)業(yè)科學(xué)院棉花研究所(http://cgp.genomics.org.cn/),分別包含76,943和40,976個(gè)基因;海島棉的基因組數(shù)據(jù)來自于華中農(nóng)業(yè)大學(xué)(http://cotton.cropdb.org/),包含109,918個(gè)基因。
2.方法與步驟
第一,將海島棉、陸地棉與雷蒙德氏棉基因組數(shù)據(jù)中的全部基因的蛋白序列(也是氨基酸序列)提交embl-ebi的pfam搜索工具(http://pfam.xfam.org/search)預(yù)測每一條基因所包含的結(jié)構(gòu)域信息。
第二,由于nbs基因家族為包含nb-arc結(jié)構(gòu)域(結(jié)構(gòu)域編號或pfam編號為pf00931)的基因,于是通過perl程序編程分別從第一步中獲取海島棉、陸地棉與雷蒙德氏棉基因中結(jié)構(gòu)域信息包含pf00931或nb-arc的基因,即為nbs基因家族成員,獲取的海島棉、陸地棉與雷蒙德氏棉的nbs基因家族分別包含682、588和365個(gè)nbs基因。
第三,設(shè)置7個(gè)閾值條件,閾值條件的匹配序列相似性值分別為90%、80%、70%、60%、50%、40%和30%,閾值條件的匹配序列長度均為200(由于nbs基因家族的nb-arc結(jié)構(gòu)域大約有300個(gè)氨基酸,設(shè)定兩兩序列比對的匹配序列長度閾值為結(jié)構(gòu)域的三分之二,即200)。
第四,將雷蒙德氏棉(參考物種)的nbs基因與海島棉(第一考察物種)的nbs基因使用clustalx軟件進(jìn)行兩兩序列比對,生成的nj文件包含兩兩序列間的匹配序列長度和匹配序列距離值,匹配序列相似性值即為1減去匹配序列距離值的得數(shù),再通過perl程序編程分別獲取大于第三步所述的7個(gè)閾值條件的雷蒙德氏棉的非冗余基因數(shù)量,并叫做海島棉的雷蒙德氏棉非冗余基因數(shù)量,由于第三步所述閾值條件為7個(gè),因此獲得相應(yīng)的7個(gè)海島棉的雷蒙德氏棉非冗余基因數(shù)量,結(jié)果如表1所示,從相似性90%至30%,海島棉的雷蒙德氏棉非冗余基因個(gè)數(shù)分別為216、310、339、345、348、350和352,占雷蒙德氏棉nbs基因總數(shù)的比例分別為59%、85%、93%、95%、95%、96%和96%。
第五,將雷蒙德氏棉(參考物種)的nbs基因與陸地棉(第二考察物種)的nbs基因進(jìn)行兩兩序列比對,并獲取陸地棉的雷蒙德氏棉非冗余基因個(gè)數(shù),比對方法和獲取方法與第四步所述的方法相同,獲得相應(yīng)的7個(gè)陸地棉的雷蒙德氏棉非冗余基因數(shù)量,結(jié)果如表1所示,從相似性90%至30%,陸地棉的雷蒙德氏棉非冗余基因個(gè)數(shù)分別為189、259、280、284、293、296和315,占雷蒙德氏棉nbs基因總數(shù)的比例分別為52%、71%、77%、78%、80%、81%和86%。
第六,計(jì)算相同閾值條件時(shí)海島棉和陸地棉間的雷蒙德氏棉非冗余基因數(shù)量的差值,如表1所示,差值最大的是相似性大于60%條件下海島棉比陸地棉的雷蒙德氏棉非冗余基因個(gè)數(shù)多61個(gè)(所占比例多17%),并且,在各閾值條件下海島棉的雷蒙德氏棉非冗余基因數(shù)量均比陸地棉的多,從比例的差值看均比較大,表明海島棉的nbs基因家族與雷蒙德氏棉的nbs基因家族的親緣關(guān)系更近。
表1不同閾值條件下海島棉與陸地棉的雷蒙德氏棉非冗余基因的數(shù)量
由于nbs基因?yàn)榭共∠嚓P(guān)基因,而黃萎病是影響棉花產(chǎn)量最嚴(yán)重的植物疾病,可稱得上是棉花的“癌癥”。事實(shí)上,研究表明,雷蒙德氏棉和海島棉均具有較強(qiáng)的抗棉花黃萎病的能力,而陸地棉卻易受黃萎病菌的侵染,本發(fā)明方法的分析結(jié)果顯示海島棉的nbs基因家族與雷蒙德氏棉的nbs基因家族的親緣關(guān)系更近,表明海島棉與雷蒙德氏棉具有更相近的nbs基因家族對應(yīng)的形態(tài)發(fā)育特征,即抗病水平,與棉花抗病現(xiàn)實(shí)情況一致。另外,由于海島棉和陸地棉均為雷蒙德氏棉和亞洲棉間異源雜交形成的新物種,根據(jù)本發(fā)明的結(jié)果表明,雷蒙德氏棉將更多的nbs基因家族基因遺傳給了海島棉,推測海島棉的抗病能力與雷蒙德氏棉更相近,與棉花抗病的現(xiàn)實(shí)情況一致??梢?,不同物種間同一基因家族的進(jìn)化關(guān)系或親緣關(guān)系跟基因家族功能表現(xiàn)水平和物種相應(yīng)形態(tài)發(fā)育特征水平具有密切的關(guān)系,表明本發(fā)明方法具有較高的應(yīng)用可信度。
實(shí)驗(yàn)例2:海島棉、陸地棉與亞洲棉間nbs基因家族的親緣關(guān)系計(jì)算
1材料來源:陸地棉和亞洲棉的基因組數(shù)據(jù)來自于中國農(nóng)業(yè)科學(xué)院棉花研究所(http://cgp.genomics.org.cn/),分別包含76,943和40,134個(gè)基因;海島棉的基因組數(shù)據(jù)來自于華中農(nóng)業(yè)大學(xué)(http://cotton.cropdb.org/),包含109,918個(gè)基因。
2方法與步驟
第一,將海島棉、陸地棉與亞洲棉基因組數(shù)據(jù)中的全部基因的蛋白序列(也是氨基酸序列)提交embl-ebi的pfam搜索工具(http://pfam.xfam.org/search)預(yù)測每一條基因所包含的結(jié)構(gòu)域信息。
第二,由于nbs基因家族為包含nb-arc結(jié)構(gòu)域(結(jié)構(gòu)域編號或pfam編號為pf00931)的基因,于是通過perl程序編程分別從第一步中獲取海島棉、陸地棉與亞洲棉基因中結(jié)構(gòu)域信息包含pf00931或nb-arc的基因,即為nbs基因家族成員,獲取的海島棉、陸地棉與亞洲棉的nbs基因家族分別包含682、588和246個(gè)nbs基因。
第三,設(shè)置7個(gè)閾值條件,閾值條件的匹配序列相似性值分別為90%、80%、70%、60%、50%、40%和30%,閾值條件的匹配序列長度均為200(由于nbs基因家族的nb-arc結(jié)構(gòu)域大約有300個(gè)氨基酸,設(shè)定兩兩序列比對的匹配序列長度閾值為結(jié)構(gòu)域的三分之二,即200)。
第四,將亞洲棉(參考物種)的nbs基因與海島棉(第一考察物種)的nbs基因使用clustalx軟件進(jìn)行兩兩序列比對,生成的nj文件包含兩兩序列間的匹配序列長度和匹配序列距離值,匹配序列相似性值即為1減去匹配序列距離值的得數(shù),再通過perl程序編程分別獲取大于第三步所述的7個(gè)閾值條件的亞洲棉的非冗余基因數(shù)量,并叫做海島棉的亞洲棉非冗余基因數(shù)量,由于第三步所述閾值條件為7個(gè),因此獲得相應(yīng)的7個(gè)海島棉的亞洲棉非冗余基因數(shù)量,結(jié)果如表2所示,從相似性90%至30%,海島棉的亞洲棉非冗余基因個(gè)數(shù)分別為115、185、212、219、222、225和226,占亞洲棉nbs基因總數(shù)的比例分別為47%、75%、86%、89%、90%、91%和92%。
第五,將亞洲棉(參考物種)的nbs基因與陸地棉(第二考察物種)的nbs基因進(jìn)行兩兩序列比對,并獲取陸地棉的亞洲棉非冗余基因個(gè)數(shù),比對方法和獲取方法與第四步所述的方法相同,獲得相應(yīng)7個(gè)陸地棉的亞洲棉非冗余基因數(shù)量,結(jié)果如表2所示,從相似性90%至30%,陸地棉的亞洲棉非冗余基因個(gè)數(shù)分別為140、202、211、214、219、221和225,占亞洲棉nbs基因總數(shù)的比例分別為57%、82%、86%、87%、89%、90%和91%。
第六,計(jì)算相同閾值條件時(shí)海島棉和陸地棉間的亞洲棉非冗余基因數(shù)量的差值,如表2所示,差值最大的是相似性大于90%條件下陸地棉比海島棉的亞洲棉非冗余基因個(gè)數(shù)多25個(gè)(所占比例多10%),次之為相似性大于80%條件下陸地棉比海島棉的亞洲棉非冗余基因個(gè)數(shù)多17個(gè)(所占比例多7%),雖然在剩余的閾值條件下海島棉的亞洲棉非冗余基因數(shù)量均比陸地棉的多,但差值相當(dāng)小,沒有顯著性,因此確定以差值最大且亞洲棉非冗余基因數(shù)量較大的陸地棉為與亞洲棉的nbs基因家族的親緣關(guān)系更近。
表2不同閾值條件下海島棉與陸地棉的亞洲棉非冗余基因的數(shù)量
由于nbs基因?yàn)榭共∠嚓P(guān)基因,事實(shí)上,研究表明,亞洲棉和陸地棉均易受黃萎病菌的侵染,而海島棉卻能夠免疫,本發(fā)明方法的分析結(jié)果顯示陸地棉的nbs基因家族與亞洲棉的nbs基因家族的親緣關(guān)系更近,表明陸地棉與亞洲棉具有更相近的nbs基因家族對應(yīng)的形態(tài)發(fā)育特征,即抗病水平,與棉花抗病現(xiàn)實(shí)情況一致。另外,由于海島棉和陸地棉均為雷蒙德氏棉和亞洲棉間異源雜交形成的新物種,根據(jù)本發(fā)明的結(jié)果表明,亞洲棉將更多的nbs基因家族基因遺傳給了陸地棉,推測陸地棉的抗病能力與亞洲棉更相近,與棉花抗病的現(xiàn)實(shí)情況一致。同樣表明,不同物種間同一基因家族的進(jìn)化關(guān)系或親緣關(guān)系跟基因家族功能表現(xiàn)水平和物種相應(yīng)形態(tài)發(fā)育特征水平具有密切的關(guān)系,表明本發(fā)明方法具有較高的應(yīng)用可信度。
實(shí)驗(yàn)例3:可可、雷蒙德氏棉與亞洲棉間nbs基因家族的親緣關(guān)系計(jì)算
1材料來源:雷蒙德氏棉和亞洲棉的基因組數(shù)據(jù)來自于中國農(nóng)業(yè)科學(xué)院棉花研究所(http://cgp.genomics.org.cn/),分別包含40,976和40,134個(gè)基因;可可的基因組數(shù)據(jù)來自于可可基因組中心(http://cocoagendb.cirad.fr./),包含46,143個(gè)基因。
2方法與步驟
第一,將可可、雷蒙德氏棉與亞洲棉基因組數(shù)據(jù)中的全部基因的蛋白序列(也是氨基酸序列)提交embl-ebi的pfam搜索工具(http://pfam.xfam.org/search)預(yù)測每一條基因所包含的結(jié)構(gòu)域信息。
第二,由于nbs基因家族為包含nb-arc結(jié)構(gòu)域(結(jié)構(gòu)域編號或pfam編號為pf00931)的基因,于是通過perl程序編程分別從第一步中獲取可可、雷蒙德氏棉與亞洲棉基因中結(jié)構(gòu)域信息包含pf00931或nb-arc的基因,即為nbs基因家族成員,獲取的海島棉、陸地棉與亞洲棉的nbs基因家族分別包含298、365和246個(gè)nbs基因。
第三,設(shè)置7個(gè)閾值條件,閾值條件的匹配序列相似性值分別為90%、80%、70%、60%、50%、40%和30%,閾值條件的匹配序列長度均為200(由于nbs基因家族的nb-arc結(jié)構(gòu)域大約有300個(gè)氨基酸,設(shè)定兩兩序列比對的匹配序列長度閾值為結(jié)構(gòu)域的三分之二,即200)。
第四,將可可(參考物種)的nbs基因與雷蒙德氏棉(第一考察物種)的nbs基因使用clustalx軟件進(jìn)行兩兩序列比對,生成的nj文件包含兩兩序列間的匹配序列長度和匹配序列距離值,匹配序列相似性值即為1減去匹配序列距離值的得數(shù),再通過perl程序編程分別獲取大于第三步所述的7個(gè)閾值條件的可可的非冗余基因數(shù)量,并叫做雷蒙德氏棉的可可非冗余基因數(shù)量,由于第三步所述閾值條件為7個(gè),因此獲得相應(yīng)的7個(gè)雷蒙德氏棉的可可非冗余基因數(shù)量,結(jié)果如表3所示,從相似性90%至30%,雷蒙德氏棉的可可非冗余基因個(gè)數(shù)分別為0、13、38、51、224、259和279,占可可nbs基因總數(shù)的比例分別為0%、4%、13%、17%、75%、87%和94%。
第五,將可可(參考物種)的nbs基因與亞洲棉(第二考察物種)的nbs基因進(jìn)行兩兩序列比對,并獲取亞洲棉的可可非冗余基因個(gè)數(shù),比對方法和獲取方法與第四步所述的方法相同,獲得相應(yīng)7個(gè)亞洲棉的可可非冗余基因數(shù)量,結(jié)果如表3所示,從相似性90%至30%,亞洲棉的可可非冗余基因個(gè)數(shù)分別為0、10、30、110、221、257和281,占可可nbs基因總數(shù)的比例分別為0%、3%、10%、37%、75%、86%和94%。
第六,計(jì)算相同閾值條件時(shí)雷蒙德氏棉和亞洲棉間的可可非冗余基因數(shù)量的差值,如表3所示,差值最大的是相似性大于60%條件下亞洲棉比雷蒙德氏棉的可可非冗余基因個(gè)數(shù)多59個(gè)(所占比例多20%),雖然在剩余的閾值條件下雷蒙德氏棉的可可非冗余基因數(shù)量均比亞洲棉的多,但差值相當(dāng)小,沒有顯著性,因此確定以差值最大且可可非冗余基因數(shù)量較大的陸地棉為與可可的nbs基因家族的親緣關(guān)系更近。
表3不同閾值條件下雷蒙德氏棉與亞洲棉的可可非冗余基因的數(shù)量
由于nbs基因?yàn)榭共∠嚓P(guān)基因,事實(shí)上,研究表明,亞洲棉和可可均易受黃萎病菌的侵染,而雷蒙德氏棉卻能夠免疫,本發(fā)明方法的分析結(jié)果顯示可可的nbs基因家族與亞洲棉的nbs基因家族的親緣關(guān)系更近,表明可可與亞洲棉具有更相近的nbs基因家族對應(yīng)的形態(tài)發(fā)育特征,即抗病水平,與棉花抗病現(xiàn)實(shí)情況一致。另外,由于可可是雷蒙德氏棉與亞洲棉的近緣物種,本發(fā)明方法得到的亞洲棉與可可的nbs基因家族親緣關(guān)系更近,推測:雷蒙德氏棉和亞洲棉的共同祖先應(yīng)為易受黃萎病菌侵染,雷蒙德氏棉為與亞洲棉分離后通過nbs基因家族的快速進(jìn)化獲得了抗黃萎病的能力,雷蒙德氏棉的nbs基因比可可和亞洲棉的多很多,可能是與亞洲棉分離后nbs基因的復(fù)制擴(kuò)大了家族成員改變了抗病能力,然而nbs基因數(shù)量更多的陸地棉的抗病能力并沒有由于數(shù)量的增多而增強(qiáng),說明雷蒙德氏棉的nbs基因家族的進(jìn)化和復(fù)制不是隨機(jī)的,而是為了適應(yīng)環(huán)境生存具有較強(qiáng)抗病能力的那些nbs基因發(fā)生了復(fù)制,從而增強(qiáng)了抗病能力。因此,本發(fā)明方法可以應(yīng)用于基因家族的進(jìn)化研究和相關(guān)功能基因的篩選。本實(shí)驗(yàn)例同樣表明,不同物種間同一基因家族的進(jìn)化關(guān)系或親緣關(guān)系跟基因家族功能表現(xiàn)水平和物種相應(yīng)形態(tài)發(fā)育特征水平具有密切的關(guān)系,表明本發(fā)明方法具有較高的應(yīng)用可信度。