本發(fā)明涉及生物信息學(xué)領(lǐng)域,具體涉及基于相似基因比例的基因家族關(guān)系判定方法。
背景技術(shù):
物種進(jìn)化關(guān)系或親緣關(guān)系研究是生物信息學(xué)領(lǐng)域的重要研究內(nèi)容之一,研究物種進(jìn)化的重要方法是對物種間重要的直系同源基因或保守基因進(jìn)行氨基酸或核酸序列比對,根據(jù)序列的變化情況來推測基因間的進(jìn)化關(guān)系或親緣關(guān)系,進(jìn)而推測物種間的進(jìn)化關(guān)系或親緣關(guān)系,二者進(jìn)化關(guān)系或親緣關(guān)系越近表明二者關(guān)系更密切。
基因家族是具有相同結(jié)構(gòu)域序列(一段保守的氨基酸序列)的多個基因的集合,物種中有的基因家族甚至包含上百或上千個基因,屬于一個大家族。同一基因家族的基因由于具有相同的結(jié)構(gòu)域,因此往往具有相似的生物學(xué)功能。當(dāng)然,基因之間序列相似性越高,基因的功能越相近。然而,目前的進(jìn)化研究中,不管是單個或少量的直系同源基因或保守基因,還是一個基因家族內(nèi)的基因的進(jìn)化分析,往往都是通過序列比對后構(gòu)建進(jìn)化樹展示“單個”基因之間的進(jìn)化關(guān)系或親緣關(guān)系。各個物種是一個獨(dú)立的整體,物種之間均具有某一相同的基因家族是常見的,而把物種內(nèi)的某一基因家族看做一個整體,不同物種同一基因家族間的進(jìn)化研究或關(guān)系研究還未見報(bào)道。一個物種任一形態(tài)發(fā)育特征往往不是單個基因的作用,通常是基因家族或不同基因家族之間共同作用的結(jié)果,因此對物種間單個或少量直系同源基因或保守基因的進(jìn)化分析或關(guān)系分析不如對基因家族之間的進(jìn)化分析或關(guān)系分析能更真實(shí)反映物種進(jìn)化、物種間形態(tài)發(fā)育特征的關(guān)系。由于同一基因家族的基因往往具有相似的功能,那么物種間同一基因家族相似性水平越高則表明該物種間同一基因家族的關(guān)系越密切,則相應(yīng)的基因功能表現(xiàn)水平或物種形態(tài)發(fā)育特征具有更近的相似性,可應(yīng)用于推斷基因功能表現(xiàn)水平及相應(yīng)形態(tài)發(fā)育特征的物種篩選。比如,nbs基因家族為熟知的植物抗病相關(guān)基因家族,假設(shè)已知a物種具有很強(qiáng)的抗病性,又假設(shè)有未知物種b、c、d,要想了解b、c、d中哪一個物種具有更強(qiáng)的抗病性,那么,通過本發(fā)明基于相似基因比例的基因家族關(guān)系判定方法,就可以從b、c、d中篩選出與a具有最近的nbs基因家族親緣關(guān)系的具有較強(qiáng)抗病性的物種,避免了繁瑣的、長時間的、大規(guī)模的、高花費(fèi)的生物技術(shù)實(shí)驗(yàn)的篩選,節(jié)約人力物力,可以極大促進(jìn)物種育種篩選效率,較快獲得優(yōu)秀品種、目的品種。隨著基因組測序技術(shù)的進(jìn)步,越來越多的物種的全基因組被測序,那么獲得更多物種的完整的基因家族成為可能,則通過本發(fā)明基于相似基因比例的基因家族關(guān)系判定方法,可以更快篩選到具有特定形態(tài)發(fā)育特征的和具有特定應(yīng)用價值的物種。另外,對于異源雜交物種,可反映其與2個親本物種的某基因家族的遺傳進(jìn)化關(guān)系;對于近緣物種,可反映近緣物種間某基因家族的進(jìn)化關(guān)系。
技術(shù)實(shí)現(xiàn)要素:
為了比較不同物種同一基因家族間的關(guān)系密切程度,并了解物種間某一基因家族的功能表現(xiàn)水平,提高特定形態(tài)發(fā)育特征的物種篩選,提出了本發(fā)明基于相似基因比例的基因家族關(guān)系判定方法。
基于相似基因比例的基因家族關(guān)系判定方法,包括:
確定一個待分析的基因家族作為指定基因家族,通常一個基因家族所包含的基因均具有相同的結(jié)構(gòu)域,結(jié)構(gòu)域?yàn)橐欢伪容^保守的氨基酸序列;
選擇參考物種,獲取其所述指定基因家族所包含的基因作為參考基因,指定基因家族的基因的獲取可以通過將物種的基因序列提交給一些在線網(wǎng)站或軟件去分析所包含的結(jié)構(gòu)域,如果包含指定基因家族的結(jié)構(gòu)域,則該基因?qū)儆谥付ɑ蚣易?,在線網(wǎng)站如ncbi的結(jié)構(gòu)域分析工具(https://www.ncbi.nlm.nih.gov/structure/cdd/wrpsb.cgi)、embl-ebi的pfam搜索工具(http://pfam.xfam.org/search)等,軟件如embl-ebi提供的本地hmmer安裝程序等;
確定第一考察物種,獲取其所述指定基因家族所包含的基因作為第一考察基因,獲取方法見上述參考物種指定基因家族基因的獲??;
確定第二考察物種,獲取其所述指定基因家族所包含的基因作為第二考察基因,獲取方法見上述參考物種指定基因家族基因的獲?。?/p>
將參考基因與第一考察基因進(jìn)行兩兩序列比對,從序列比對結(jié)果中獲取大于閾值條件的第一考察物種的非冗余基因個數(shù)及該個數(shù)占第一考察基因總數(shù)的比例,將該比例作為參考物種的第一考察物種非冗余基因比例,所述閾值條件為匹配序列長度和匹配序列相似性值的組合,所述大于閾值條件為大于匹配序列長度且大于匹配序列相似性值,所述閾值條件的數(shù)量大于等于2個。序列比對可以使用clustalx、clustalw或者blast軟件進(jìn)行,序列比對的結(jié)果通常包含兩兩序列間的匹配序列長度和匹配序列相似性值或匹配序列距離值,匹配序列相似性值與匹配序列距離值的關(guān)系為它們的和等于1,當(dāng)比對結(jié)果數(shù)據(jù)量大時可以通過perl程序編程獲取參考物種非冗余基因數(shù)量,非冗余基因指不重復(fù)的基因;
將參考基因與第二考察基因進(jìn)行兩兩序列比對,從序列比對結(jié)果中獲取大于所述閾值條件的第二考察物種的非冗余基因個數(shù)及該個數(shù)占第二考察基因總數(shù)的比例,將該比例作為參考物種的第二考察物種非冗余基因比例;
計(jì)算相同閾值條件時參考物種的第一考察物種非冗余基因比例與參考物種的第二考察物種非冗余基因比例的差值,確定差值的絕對值最大且非冗余基因比例較大的考察物種為與參考物種指定基因家族的關(guān)系更密切。
優(yōu)選地,參考物種和考察物種均已被全基因組測序,全基因組測序后得到的基因家族的基因信息更完整的,則后續(xù)分析的結(jié)果更可靠。
優(yōu)選地,所述序列為氨基酸序列。
優(yōu)選地,所述閾值條件中的匹配序列長度為所述指定基因家族的結(jié)構(gòu)域序列長度的三分之二,匹配序列長度閾值設(shè)置太小會降低后續(xù)分析結(jié)果的可信度,而通常結(jié)構(gòu)域序列長度的三分之二可以認(rèn)為該結(jié)構(gòu)域比較完整。
優(yōu)選地,所述閾值條件中的匹配序列相似性值為至少30%以上,通常序列相似性達(dá)30%可以認(rèn)為兩條序列可能具有相似的功能。
優(yōu)選地,所述匹配序列相似性值為至少30%以上包括30%,40%,50%,60%,70%,80%和90%。
優(yōu)選地,所述閾值條件的數(shù)量大于等于2個為7個閾值條件,所述7個閾值條件的匹配序列相似性值分別為30%,40%,50%,60%,70%,80%和90%,匹配序列長度均為所述指定基因家族的結(jié)構(gòu)域序列長度的三分之二。
當(dāng)然考察物種可以大于2個,通過本發(fā)明的方法可以從所有考察物種中獲得與參考物種指定基因家族關(guān)系最密切的物種,如先從任意兩個考察物種中計(jì)算出與參考物種指定基因家族關(guān)系更密切的考察物種,然后計(jì)算此考察物種與另一考察物種誰與參考物種指定基因家族關(guān)系更密切,以此類推,獲得與參考物種指定基因家族關(guān)系最密切的考察物種。
與不同物種間或同種物種內(nèi)單個基因之間的親緣關(guān)系或進(jìn)化關(guān)系相比,不同物種同一基因家族之間的關(guān)系密切程度具有更重要的應(yīng)用價值,前者僅僅表現(xiàn)基因之間的親緣關(guān)系或進(jìn)化關(guān)系,后者密程度越高表明基因家族的功能表現(xiàn)水平更相近,物種相應(yīng)的形態(tài)發(fā)育特征更相似,從而可應(yīng)用于更快更準(zhǔn)更高效地篩選優(yōu)勢物種或目的物種。另外,對于異源雜交物種可反應(yīng)其與2個親本物種的某基因家族的遺傳進(jìn)化關(guān)系,對于近緣物種可反映近緣物種間某基因家族的進(jìn)化關(guān)系。
附圖說明
圖1為本發(fā)明基于相似基因比例的基因家族關(guān)系判定方法優(yōu)選實(shí)施例流程示意圖。
具體實(shí)施方式
下面將結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明,這些實(shí)施例僅起說明性作用,并不局限于本發(fā)明的應(yīng)用范圍。本發(fā)明不限于下述實(shí)施方式或?qū)嵤├?,凡不違背本發(fā)明精神所做出的修改及變形,均應(yīng)包括在本發(fā)明范圍之內(nèi)。
實(shí)驗(yàn)例1:海島棉、亞洲棉與雷蒙德氏棉間nbs基因家族的親緣關(guān)系計(jì)算
1.材料來源:亞洲棉和雷蒙德氏棉的基因組數(shù)據(jù)來自于中國農(nóng)業(yè)科學(xué)院棉花研究所(http://cgp.genomics.org.cn/),分別包含40,134和40,976個基因;海島棉的基因組數(shù)據(jù)來自于華中農(nóng)業(yè)大學(xué)(http://cotton.cropdb.org/),包含109,918個基因。
2.方法與步驟
第一,將海島棉、亞洲棉與雷蒙德氏棉基因組數(shù)據(jù)中的全部基因的蛋白序列(也是氨基酸序列)提交embl-ebi的pfam搜索工具(http://pfam.xfam.org/search)預(yù)測每一條基因所包含的結(jié)構(gòu)域信息。
第二,由于nbs基因家族為包含nb-arc結(jié)構(gòu)域(結(jié)構(gòu)域編號或pfam編號為pf00931)的基因,于是通過perl程序編程分別從第一步中獲取海島棉、亞洲棉與雷蒙德氏棉基因中結(jié)構(gòu)域信息包含pf00931或nb-arc的基因,即為nbs基因家族成員,獲取的海島棉、亞洲棉與雷蒙德氏棉的nbs基因家族分別包含682、246和365個nbs基因。
第三,設(shè)置7個閾值條件,閾值條件的匹配序列相似性值分別為90%、80%、70%、60%、50%、40%和30%,閾值條件的匹配序列長度均為200(由于nbs基因家族的nb-arc結(jié)構(gòu)域大約有300個氨基酸,設(shè)定兩兩序列比對的匹配序列長度閾值為結(jié)構(gòu)域的三分之二,即200)。
第四,將海島棉(參考物種)的nbs基因與亞洲棉(第一考察物種)的nbs基因使用clustalx軟件進(jìn)行兩兩序列比對,生成的nj文件包含兩兩序列間的匹配序列長度和匹配序列距離值,匹配序列相似性值即為1減去匹配序列距離值的得數(shù),再通過perl程序編程分別獲取大于第三步所述的7個閾值條件的亞洲棉的非冗余基因個數(shù)及其占亞洲棉nbs基因家族基因總數(shù)的比例,并將此比例叫做海島棉的亞洲棉非冗余基因比例,由于第三步所述閾值條件為7個,因此獲得相應(yīng)的7個海島棉的亞洲棉非冗余基因個數(shù)及其比例,結(jié)果如表1所示,從相似性90%至30%,海島棉的亞洲棉非冗余基因個數(shù)分別為216、310、339、345、348、350和352,占亞洲棉nbs總數(shù)的比例分別為59%、85%、93%、95%、95%、96%和96%。
第五,將海島棉(參考物種)的nbs基因與雷蒙德氏棉(第二考察物種)的nbs基因進(jìn)行兩兩序列比對,并獲取海島棉的雷蒙德氏棉非冗余基因個數(shù)及其占雷蒙德氏棉nbs基因家族基因總數(shù)的比例,將此比例叫做海島棉的雷蒙德氏棉非冗余基因比例,比對方法和獲取方法與第四步所述的方法相同,獲得相應(yīng)的7個海島棉的雷蒙德氏棉非冗余基因個數(shù)及其比例,結(jié)果如表1所示,從相似性90%至30%,海島棉的雷蒙德氏棉非冗余基因個數(shù)分別為115、185、212、219、222、225和226,占雷蒙德氏棉nbs基因總數(shù)的比例分別為47%、75%、86%、89%、90%、91%和92%。
第六,計(jì)算相同閾值條件時海島棉的亞洲棉非冗余基因比例與雷蒙德氏棉非冗余基因比例的差值,如表1所示,差值絕對值最大的是相似性大于90%條件下海島棉的雷蒙德氏棉非冗余基因比例比亞洲棉非冗余基因比例大12%,并且,在各閾值條件下海島棉的雷蒙德氏棉非冗余基因比例均比亞洲棉非冗余基因比例大,表明雷蒙德氏棉的nbs基因家族與海島棉的nbs基因家族的關(guān)系更密切。
表1不同閾值條件下海島棉的雷蒙德氏棉非冗余基因與亞洲棉非冗余基因數(shù)量
由于nbs基因?yàn)榭共∠嚓P(guān)基因,而黃萎病是影響棉花產(chǎn)量最嚴(yán)重的植物疾病,可稱得上是棉花的“癌癥”。事實(shí)上,研究表明,雷蒙德氏棉和海島棉均具有較強(qiáng)的抗棉花黃萎病的能力,而亞洲棉卻易受黃萎病菌的侵染,本發(fā)明方法的分析結(jié)果顯示海島棉的nbs基因家族與雷蒙德氏棉的nbs基因家族的關(guān)系更密切,表明海島棉與雷蒙德氏棉具有更相近的nbs基因家族對應(yīng)的形態(tài)發(fā)育特征,即抗病水平,與棉花抗病現(xiàn)實(shí)情況一致。另外,由于海島棉為雷蒙德氏棉和亞洲棉間異源雜交形成的新物種,根據(jù)本發(fā)明的結(jié)果表明,海島棉從雷蒙德氏棉中遺傳到了更多的nbs基因家族基因,推測海島棉的抗病能力與雷蒙德氏棉更相近,與棉花抗病的現(xiàn)實(shí)情況一致。可見,不同物種間同一基因家族的密切關(guān)系程度跟基因家族功能表現(xiàn)水平和物種相應(yīng)形態(tài)發(fā)育特征水平具有緊密的關(guān)系,表明本發(fā)明方法具有較高的應(yīng)用可信度。
實(shí)驗(yàn)例2:陸地棉、亞洲棉與雷蒙德氏棉間nbs基因家族的親緣關(guān)系計(jì)算
1材料來源:陸地棉、亞洲棉與雷蒙德氏棉的基因組數(shù)據(jù)均來自于中國農(nóng)業(yè)科學(xué)院棉花研究所(http://cgp.genomics.org.cn/),分別包含76,943、40,134和40,976個基因。
2方法與步驟
第一,將陸地棉、亞洲棉與雷蒙德氏棉基因組數(shù)據(jù)中的全部基因的蛋白序列(也是氨基酸序列)提交embl-ebi的pfam搜索工具(http://pfam.xfam.org/search)預(yù)測每一條基因所包含的結(jié)構(gòu)域信息。
第二,由于nbs基因家族為包含nb-arc結(jié)構(gòu)域(結(jié)構(gòu)域編號或pfam編號為pf00931)的基因,于是通過perl程序編程分別從第一步中獲取陸地棉、亞洲棉與雷蒙德氏棉基因中結(jié)構(gòu)域信息包含pf00931或nb-arc的基因,即為nbs基因家族成員,獲取的陸地棉、亞洲棉與雷蒙德氏棉的nbs基因家族分別包含682、588和365個nbs基因。
第三,設(shè)置7個閾值條件,閾值條件的匹配序列相似性值分別為90%、80%、70%、60%、50%、40%和30%,閾值條件的匹配序列長度均為200(由于nbs基因家族的nb-arc結(jié)構(gòu)域大約有300個氨基酸,設(shè)定兩兩序列比對的匹配序列長度閾值為結(jié)構(gòu)域的三分之二,即200)。
第四,將陸地棉(參考物種)的nbs基因與亞洲棉(第一考察物種)的nbs基因使用clustalx軟件進(jìn)行兩兩序列比對,生成的nj文件包含兩兩序列間的匹配序列長度和匹配序列距離值,匹配序列相似性值即為1減去匹配序列距離值的得數(shù),再通過perl程序編程分別獲取大于第三步所述的7個閾值條件的亞洲棉的非冗余基因個數(shù)及其占亞洲棉nbs基因家族基因總數(shù)的比例,并將此比例叫做陸地棉的亞洲棉非冗余基因比例,由于第三步所述閾值條件為7個,因此獲得相應(yīng)的7個陸地棉的亞洲棉非冗余基因個數(shù)及其比例,結(jié)果如表2所示,從相似性90%至30%,陸地棉的亞洲棉非冗余基因個數(shù)分別為189、259、280、284、293、296和315,占亞洲棉nbs基因總數(shù)的比例分別為52%、71%、77%、78%、80%、81%和86%。
第五,將陸地棉(參考物種)的nbs基因與雷蒙德氏棉(第二考察物種)的nbs基因進(jìn)行兩兩序列比對,并獲取陸地棉的雷蒙德氏棉非冗余基因及其占雷蒙德氏棉nbs基因家族基因總數(shù)的比例,將此比例叫做陸地棉的雷蒙德氏棉非冗余基因比例,比對方法和獲取方法與第四步所述的方法相同,獲得相應(yīng)7個陸地棉的雷蒙德氏棉非冗余基因個數(shù)及比例,結(jié)果如表2所示,從相似性90%至30%,陸地棉的雷蒙德氏棉非冗余基因個數(shù)分別為140、202、211、214、219、221和225,占雷蒙德氏棉nbs基因總數(shù)的比例分別為57%、82%、86%、87%、89%、90%和91%。
第六,計(jì)算相同閾值條件時陸地棉的亞洲棉非冗余基因比例與雷蒙德氏棉非冗余基因比例的差值,如表2所示,差值絕對值最大的是相似性大于80%條件下陸地棉的亞洲棉非冗余基因比例比雷蒙德氏棉非冗余基因比例大11%,并且,在各閾值條件下陸地棉的亞洲棉非冗余基因比例均比雷蒙德氏棉非冗余基因比例大,表明亞洲棉的nbs基因家族與陸地棉的nbs基因家族的關(guān)系更密切。
表2不同閾值條件陸地棉的的雷蒙德氏棉非冗余基因與亞洲棉非冗余基因數(shù)量
由于nbs基因?yàn)榭共∠嚓P(guān)基因,事實(shí)上,研究表明,亞洲棉和陸地棉均易受黃萎病菌的侵染,而雷蒙德氏棉卻能夠免疫,本發(fā)明方法的分析結(jié)果顯示陸地棉的nbs基因家族與亞洲棉的nbs基因家族的關(guān)系更密切,表明陸地棉與亞洲棉具有更相近的nbs基因家族對應(yīng)的形態(tài)發(fā)育特征,即抗病水平,與棉花抗病現(xiàn)實(shí)情況一致。另外,由于陸地棉均為雷蒙德氏棉和亞洲棉間異源雜交形成的新物種,根據(jù)本發(fā)明的結(jié)果表明,陸地棉從亞洲棉中遺傳到了更多的nbs基因家族基因,推測陸地棉的抗病水平與亞洲棉更相近,與棉花抗病的現(xiàn)實(shí)情況一致。同樣表明,不同物種間同一基因家族的關(guān)系密切程度跟基因家族功能表現(xiàn)水平和物種相應(yīng)形態(tài)發(fā)育特征水平具有緊密的關(guān)系,表明本發(fā)明方法具有較高的應(yīng)用可信度。
實(shí)驗(yàn)例3:可可、雷蒙德氏棉與亞洲棉間nbs基因家族的親緣關(guān)系計(jì)算
1材料來源:雷蒙德氏棉和亞洲棉的基因組數(shù)據(jù)來自于中國農(nóng)業(yè)科學(xué)院棉花研究所(http://cgp.genomics.org.cn/),分別包含40,976和40,134個基因;可可的基因組數(shù)據(jù)來自于可可基因組中心(http://cocoagendb.cirad.fr./),包含46,143個基因。
2方法與步驟
第一,將可可、雷蒙德氏棉與亞洲棉基因組數(shù)據(jù)中的全部基因的蛋白序列(也是氨基酸序列)提交embl-ebi的pfam搜索工具(http://pfam.xfam.org/search)預(yù)測每一條基因所包含的結(jié)構(gòu)域信息。
第二,由于nbs基因家族為包含nb-arc結(jié)構(gòu)域(結(jié)構(gòu)域編號或pfam編號為pf00931)的基因,于是通過perl程序編程分別從第一步中獲取可可、雷蒙德氏棉與亞洲棉基因中結(jié)構(gòu)域信息包含pf00931或nb-arc的基因,即為nbs基因家族成員,獲取的海島棉、陸地棉與亞洲棉的nbs基因家族分別包含298、365和246個nbs基因。
第三,設(shè)置7個閾值條件,閾值條件的匹配序列相似性值分別為90%、80%、70%、60%、50%、40%和30%,閾值條件的匹配序列長度均為200(由于nbs基因家族的nb-arc結(jié)構(gòu)域大約有300個氨基酸,設(shè)定兩兩序列比對的匹配序列長度閾值為結(jié)構(gòu)域的三分之二,即200)。
第四,將可可(參考物種)的nbs基因與雷蒙德氏棉(第一考察物種)的nbs基因使用clustalx軟件進(jìn)行兩兩序列比對,生成的nj文件包含兩兩序列間的匹配序列長度和匹配序列距離值,匹配序列相似性值即為1減去匹配序列距離值的得數(shù),再通過perl程序編程分別獲取大于第三步所述的7個閾值條件的雷蒙德氏棉的非冗余基因個數(shù)及其占雷蒙德氏棉nbs基因家族基因總數(shù)的比例,并將此比例叫做可可的雷蒙德氏棉非冗余基因比例,由于第三步所述閾值條件為7個,因此獲得相應(yīng)的7個可可的雷蒙德氏棉非冗余基因個數(shù)及其比例,結(jié)果如表3所示,從相似性90%至30%,可可的雷蒙德氏棉非冗余基因個數(shù)分別為0、14、43、91、262、338和346,占雷蒙德氏棉nbs基因總數(shù)的比例分別為0%、4%、12%、25%、72%、93%和95%。
第五,將可可(參考物種)的nbs基因與亞洲棉(第二考察物種)的nbs基因進(jìn)行兩兩序列比對,并獲取可可的亞洲棉非冗余基因個數(shù)及其占亞洲棉nbs基因家族基因總數(shù)的比例,比對方法和獲取方法與第四步所述的方法相同,獲得相應(yīng)7個可可的亞洲棉非冗余基因個數(shù)及其比例,結(jié)果如表3所示,從相似性90%至30%,可可的亞洲棉非冗余基因個數(shù)分別為0、14、32、99、171、217和222,占亞洲棉nbs基因總數(shù)的比例分別為0%、4%、13%、40%、69%、88%和90%。
第六,計(jì)算相同閾值條件時可可的雷蒙德氏棉非冗余基因比例與亞洲棉非冗余基因比例的差值,如表3所示,差值最大的是相似性大于60%條件下可可的亞洲棉非冗余基因比例比雷蒙德氏棉非冗余基因比例大15%,雖然在相似性大于50、40、30%的閾值條件下可可的雷蒙德氏棉非冗余基因比例均比亞洲棉非冗余基因比例大,但差值相當(dāng)小,沒有顯著性,因此確定以差值絕對值最大且非冗余基因比例較大的亞洲棉為與可可的nbs基因家族的關(guān)系更密切。
表3不同閾值條件下雷蒙德氏棉與亞洲棉的可可非冗余基因的數(shù)量
由于nbs基因?yàn)榭共∠嚓P(guān)基因,事實(shí)上,研究表明,亞洲棉和可可均易受黃萎病菌的侵染,而雷蒙德氏棉卻能夠免疫,本發(fā)明方法的分析結(jié)果顯示可可的nbs基因家族與亞洲棉的nbs基因家族的關(guān)系更密切,表明可可與亞洲棉具有更相近的nbs基因家族對應(yīng)的形態(tài)發(fā)育特征,即抗病水平,與棉花抗病現(xiàn)實(shí)情況一致,表明本發(fā)明方法具有較高的應(yīng)用可信度。