改良的分子育種方法
【專利摘要】本發(fā)明提供了用于改良作為育種計(jì)劃一部分的育種個體選擇的方法,其中通過選擇來自候選者集的用于表型分型的候選者(基因型信息對其也可用),以及將這些候選者放入所述評估數(shù)據(jù)集中,然后針對每個候選者評估基因型估計(jì)育種值的準(zhǔn)確性(即基因組預(yù)測準(zhǔn)確性)以構(gòu)建優(yōu)化的評估數(shù)據(jù)集。然后將所述優(yōu)化的評估數(shù)據(jù)集用作模型,以完全基于基因型信息確定育種個體的基因組估計(jì)育種值。
【專利說明】
改良的分子育種方法
[0001] 相關(guān)申請的交叉引用
[0002] 本專利申請要求2013年12月27日提交的美國臨時專利申請61 /921,216的權(quán)益,該 臨時專利申請全文W引用方式并入本文。
技術(shù)領(lǐng)域
[0003] 本技術(shù)領(lǐng)域設(shè)及分子遺傳學(xué)和育種,尤其設(shè)及使用基因組預(yù)測用于做出作為植物 或動物育種計(jì)劃的一部分的選擇。
【背景技術(shù)】
[0004] 基因組預(yù)測(GP)(Meuwissen 等人,2001,Genetics 157:1819-1829(《遺傳學(xué)》, 2001年,第157卷,第1819-1829頁))用于植物和動物育種W預(yù)測用于所選目的的育種值,并 用于人類遺傳學(xué)W預(yù)測疾病風(fēng)險。它由兩個步驟組成。首先,使用針對數(shù)量性狀進(jìn)行表型分 型并且在遺傳標(biāo)記上進(jìn)行基因型分型的個體來評估標(biāo)記效應(yīng)。運(yùn)些個體被稱為訓(xùn)練個體; 所有個體的數(shù)據(jù)集被稱為訓(xùn)練或評估數(shù)據(jù)集;同時該步驟被稱為訓(xùn)練或評估。然后,將被評 估的標(biāo)記效應(yīng)與(所選)候選者的標(biāo)記基因型結(jié)合使用,W預(yù)測它的育種值或疾病風(fēng)險。該 步驟被稱為預(yù)測。育種值的準(zhǔn)確性強(qiáng)烈取決于訓(xùn)練個體和所選候選者之間的親緣關(guān)系,如 化 abier 等人,2013.Genetics 194:597-607(《遺傳學(xué)》,2013年,第194卷,第597-607頁))中 所證明,并且使用所有表型可降低特定家系的準(zhǔn)確性,如化bier等人(2013年,出處同上)所 證明。運(yùn)可通過對連鎖不平衡和共分離進(jìn)行建模的改進(jìn)的統(tǒng)計(jì)方法進(jìn)行緩解,如化bier等 人(2013年,出處同上)所提出的。然而,利用觀測數(shù)據(jù)的統(tǒng)計(jì)模型均不能夠補(bǔ)償可能得自更 好地匹配特定預(yù)測集所需信息的評估集的較高準(zhǔn)確性。
[0005] 基因組預(yù)測大大促進(jìn)了育種計(jì)劃,因?yàn)槟M和實(shí)證研究已展示了它比標(biāo)記輔助選 擇和傳統(tǒng)表型選擇更具優(yōu)勢(Meuwi ssen等人,2001年,出處同上;Bernardo和化,2007.化op Science 47 :1082-1090 (《作物科學(xué)》,2007年,第47卷,第 1082-1090頁);Lorenzana和 Bernardo,2009.Theor Appl Genet 120:151-161(《理論與應(yīng)用遺傳學(xué)》,2009年,第 120卷, 第151-161頁))。在不久的將來,動物和植物育種計(jì)劃將更多注重于基因組預(yù)測,因?yàn)榕咛?的基因型分型會更加可行并更具成本效益。因此,需要用W增加基因組預(yù)測準(zhǔn)確性的方法。
【發(fā)明內(nèi)容】
[0006] 本文提供了用于在育種計(jì)劃中選擇個體的方法,其中所述方法包括通過W下步驟 構(gòu)建優(yōu)化的評估數(shù)據(jù)集:(i)從候選者集中選擇候選者用于表型分型,并將候選者置于評估 數(shù)據(jù)集內(nèi),其中所述基因型信息可用于該候選者;(ii)評估候選者的基因組估計(jì)育種值的 準(zhǔn)確性,(iii)僅在該候選者的基因組估計(jì)育種值的準(zhǔn)確性高于候選者集中其它候選者的 準(zhǔn)確性時,將該候選者移入優(yōu)化的評估數(shù)據(jù)集中;W及(iv)繼續(xù)進(jìn)行步驟(i)-(iii)直至產(chǎn) 生優(yōu)化的評估數(shù)據(jù)集;在優(yōu)化的評估數(shù)據(jù)集中對候選者進(jìn)行表型分型;W多個標(biāo)記對育種 個體進(jìn)行基因型分型;利用優(yōu)化的評估數(shù)據(jù)集中候選者的表型和基因型,得到育種個體的 基因組估計(jì)育種值;w及基于基因組估計(jì)育種值選擇育種個體。
[0007] 該方法可還包括使所選育種個體雜交。可使用計(jì)算機(jī)來構(gòu)建優(yōu)化的評估數(shù)據(jù)集。
[0008] 可通過基因型分型或使用Monte Carlo模擬來獲得針對每個候選者的基因型信 息。
[0009] 育種個體可W是純合的,部分純合的或雜合的。育種個體可W是植物或動物。如果 是植物,該植物可選自:玉米、大豆、向日葵、高梁、卡諾拉、小麥、首猜、棉花、稻、大麥、粟、甘 薦和柳枝稷。
[0010] 可使用數(shù)學(xué)公式代入來自候選者集中候選者的標(biāo)記信息,W及來自組成預(yù)測祀標(biāo) 的一個或多個群體親本的標(biāo)記信息,從而獲得基因組估計(jì)育種值的準(zhǔn)確性。所用的數(shù)學(xué)公 式取決于預(yù)測祀標(biāo)。如果預(yù)測祀標(biāo)由一個群體組成,那么可使用W下公式來確定基因組預(yù) 測準(zhǔn)確性或基因組估計(jì)育種值的準(zhǔn)確性:
[0011]
[001^ 其中σ;,是SNP效應(yīng)的方差,Gi是由群體(全同胞家系)i的連鎖不平衡加權(quán)的基因組 關(guān)系矩陣,V。!是評估數(shù)據(jù)集中個體的性狀表型的方差-協(xié)方差矩陣的倒數(shù),Ni是群體i中分 離基因座的數(shù)量。
[0013] 如果預(yù)測祀標(biāo)由一個W上群體組成,則可使用下列公式確定基因組預(yù)測準(zhǔn)確性或 基因組估計(jì)育種值的準(zhǔn)確性:
[0014]
[0015] 此為預(yù)測祀標(biāo)的所有化群體中的近交群體中準(zhǔn)確性的平均值。
[0016] 或者
[0017]
[0018] 其中5£[0,1]被稱為社會福利經(jīng)濟(jì)學(xué)中的風(fēng)險規(guī)避參數(shù)。如果5 = 〇,則戶^6與 相同,但是隨著δ增加,具有高準(zhǔn)確性的群體被加權(quán)降低W有利于具有較低準(zhǔn)確性的 群體。如果預(yù)測祀標(biāo)變得太大,則后一個公式可用于防止不同群體準(zhǔn)確性之間的差異。
[0019] 如果預(yù)測祀標(biāo)由大量群體(家系)組成,則可在后兩個等式中由%的可靠性取代基 因組預(yù)測準(zhǔn)確性或基因組估計(jì)育種值的準(zhǔn)確性,W使計(jì)算更加可行。該等式可定義為:
[0020]
【具體實(shí)施方式】
[0021] 本公開提供了用于通過建立優(yōu)化的評估數(shù)據(jù)集而優(yōu)化基因組預(yù)測的方法。理念是 使用數(shù)學(xué)公式捕獲基因組預(yù)測的訓(xùn)練和預(yù)測步驟,并返回育種群體中基因組估計(jì)育種值的 準(zhǔn)確性,或預(yù)測祀標(biāo)的所有群體中的育種群體中準(zhǔn)確性的平均值,從而鑒定用于訓(xùn)練的最 優(yōu)雜交體。
[0022] 本文給出的每個參考文獻(xiàn)的公開內(nèi)容據(jù)此全文W引用方式并入本文。
[0023] 如本文中和所附權(quán)利要求書中所用的,單數(shù)形式"一個"、"一種"和"所述"包括復(fù) 數(shù)指代,除非上下文清楚表明并非如此。因此,例如,提及"一株植物"包括多株此類植物,提 及"一個細(xì)胞"則包括一個或者多個細(xì)胞W及本領(lǐng)域技術(shù)人員已知的其等同物,W此類推。
[0024] 如本文所用:
[0025] 設(shè)及基因組估計(jì)育種值時,"準(zhǔn)確性"可在本文中被定義為群體中實(shí)際育種值和估 計(jì)育種值之間的相關(guān)性。
[00%]在本文中,"基因組預(yù)測的準(zhǔn)確性"與"基因組估計(jì)育種值"的準(zhǔn)確性可互換使用。
[0027] 如本文所用,術(shù)語"等位基因"是指基因座處的變體或替代序列形式。在二倍體中, 單個等位基因由分別來自每個基因座的每個親本的子代個體繼承。雖然本領(lǐng)域普通技術(shù)人 員理解到,任一個特定個體中的等位基因不一定代表存在于物種中的所有等位基因,但是 存在于二倍體生物體中的給定基因座的兩個等位基因占據(jù)一對同源染色體上的相應(yīng)位置。
[0028] 如本文所用,短語"與...相關(guān)聯(lián)"是指兩個實(shí)體之間的可辨認(rèn)和/或可分析的關(guān) 系。例如,短語"與性狀相關(guān)聯(lián)"是指基因座、基因、等位基因、標(biāo)記、表型等或它們的表達(dá),它 們的存在或缺失可能影響性狀在一個或多個個體中表達(dá)的范圍、程度和/或速率。
[0029] 如本文所用,術(shù)語"回交"及其語法變化形式是指育種者將子代個體與其親本之一 進(jìn)行雜交的過程,例如,第一代Fi與Fi個體的親本基因型中的一個雜交。
[0030] 如本文所用,短語"育種群體"是指從中選擇潛在育種個體和育種對的個體集合。 育種群體可W是分離群體。
[0031] "候選者集"是針對用于基因組預(yù)測的標(biāo)記基因座進(jìn)行基因型分型的一組個體。 "候選者"可W是雜交體。
[0032] 如本文所用,術(shù)語"染色體其本領(lǐng)域公認(rèn)的含義使用,即為包含基因組DNA,并 且在其核酸序列中攜帶基因線性陣列的自我復(fù)制的遺傳結(jié)構(gòu)。
[0033] 如本文所用,術(shù)語"栽培品種"和"品種"是指在結(jié)構(gòu)和/或遺傳特征和/或性狀表現(xiàn) 上可與相同物種的其它成員區(qū)分開來的一組類似植物。
[0034] 如本文所用,短語個體的"基因型確定"是指確定個體的遺傳組成的至少一部分, 并且尤其可指確定可用作個體中相應(yīng)表型的指示因子或預(yù)測因子的遺傳變異。確定基因型 可包括確定一種或多種單倍型或確定一種或多種多態(tài)性,后者展示出對于具有基因型值的 至少一個多態(tài)性或單倍型的連鎖不平衡。確定個體的基因型還可包括識別至少一個基因 和/或至少一個基因座的至少一種多態(tài)性、識別至少一個基因和/或至少一個基因座的至少 一個單倍型、或識別對至少一個基因和/或至少一個基因座的至少一個單倍型來說是獨(dú)特 的至少一種多態(tài)性。
[0035] "雙單倍體植物"是通過使染色體的單倍體組加倍而開發(fā)的植物。雙單倍體植物是 純合的。
[0036] 如本文所用,短語"骨干品系"是指大體上是純合的,并且由針對優(yōu)秀農(nóng)藝性狀表 現(xiàn)而育種并選擇得到的任何品系。
[0037] -般而言,"評估數(shù)據(jù)集"或"訓(xùn)練數(shù)據(jù)集"是既針對遺傳標(biāo)記進(jìn)行基因型分型又針 對數(shù)量性狀或質(zhì)量性狀進(jìn)行表型分型的個體的集。運(yùn)些個體用于評估那些標(biāo)記的效應(yīng)。然 而,對于我們的優(yōu)化過程來講,運(yùn)些個體還不需要進(jìn)行表型分型,因?yàn)檎业綉?yīng)該進(jìn)行表型分 型的個體才是該方法的目的所在。
[0038] 如本文所用,術(shù)語"基因"是指包括占據(jù)染色體上具體位置并包含針對生物體中具 體特征或性狀的遺傳指令的DNA序列的遺傳單位。
[0039] 如本文所用,短語"遺傳增益"是指通過人工遺傳改良計(jì)劃獲得的在性狀表現(xiàn)上增 加的量。術(shù)語"遺傳增益"可W指經(jīng)過一代后獲得的性狀表現(xiàn)上增加(參見Allard, 1960年)。
[0040] 如本文所用,短語"遺傳圖譜"是指通常與基因座在特定染色體上的相對位置相關(guān) 的有序基因座列表。
[0041] 如本文所用,短語"遺傳標(biāo)記"是指已被識別為與所關(guān)注的性狀、基因座和/或等位 基因相關(guān)聯(lián),并且指示和/或可用于確定細(xì)胞或生物體中所關(guān)注的性狀、基因座和/或等位 基因的存在或缺失的核酸序列(例如,多態(tài)性核酸序列)。遺傳標(biāo)記的示例包括但不限于基 因、DNA或RNA來源的序列(例如,對于給定染色體上的具體位點(diǎn)來說是特異的染色體亞序 列)、啟動子、基因的任何非翻譯區(qū)、微RNA、短抑制性RNA(siRNA;也被稱為小抑制性RNA)、數(shù) 量性狀基因座(0化)、轉(zhuǎn)基因、mRNA、雙鏈RNA、轉(zhuǎn)錄模式和甲基化模式。
[0042] 如本文所用,"基因組估計(jì)育種值"(GEBV)可W指一個或多個單倍型和/或基因型 對與性狀相關(guān)聯(lián)的表型的表達(dá)的可測影響程度,并且它可被視為單倍型和/或基因型對性 狀的貢獻(xiàn)。
[0043] 短語"基因組預(yù)測"是指用于增加物種的遺傳增益的方法,該方法使用遍布整個物 種基因組的標(biāo)記來預(yù)測個體的基因組估計(jì)育種值(GEBV)?;蚪M預(yù)測不基于使用先前已被 識別為與同任一給定的所關(guān)注的性狀相關(guān)的基因座(例如,Q化)連鎖的標(biāo)記。相反,通常,每 個標(biāo)記被視為推定QTL,并且所有標(biāo)記與子代的預(yù)測基因組估計(jì)育種值(G邸V)相組合。
[0044] 如本文所用,術(shù)語"基因型"是指生物體的基因構(gòu)成?;蛐偷谋磉_(dá)可產(chǎn)生生物體 的表型(即生物體的可觀察的性狀)。當(dāng)與參考基因型或一個或多個其它受試者的基因型相 比較時,受試者的基因型可提供與當(dāng)前表型或預(yù)測表型相關(guān)的寶貴信息。因此,術(shù)語"基因 型"是指一個所關(guān)注表型、多個所關(guān)注表型和/或整個細(xì)胞或生物體的遺傳組分。
[0045] 如本文所用,"單倍型"是指可作為單元被遺傳的特定基因或基因組中多個緊密連 鎖的基因座的集體特征或特征。例如,在一些實(shí)施方案中,單倍型可包括一組緊密相關(guān)的多 態(tài)性(例如,單核巧酸多態(tài)性;SNP)。單倍型也可W是一對同源染色體的單條染色體(或其區(qū) 域)上的多個基因座的表征,其中該表征指示了該單條染色體(或其區(qū)域)上所存在的具體 基因座和/或等位基因。
[0046] 如本文所用,術(shù)語"雜合的"是指當(dāng)不同等位基因居于同源染色體上的相應(yīng)基因座 時,存在于細(xì)胞或生物體中的遺傳條件。
[0047] 如本文所用,術(shù)語"純合的"是指當(dāng)相同的等位基因居于同源染色體上的相應(yīng)基因 座時存在的遺傳條件。需注意的是,W上兩個術(shù)語都可指單核甘酸位置、多個核甘酸位置 (無論連續(xù)與否)和/或同源染色體上的整個基因座。
[0048] 如本文所用,當(dāng)用于植物語境中時,術(shù)語"雜交體"是指因雜交至少兩個遺傳上不 同的植物親本而得的種子和此類種子所長成的植物。
[0049] 如本文所用,術(shù)語"近交體"是指大體上或完全純合的個體或品系。需注意的是,該 術(shù)語可指在它們的整個基因組中大體上或完全純合的個體或品系,或相對于它們特別受關(guān) 注的基因組的子序列大體上或完全純合的個體或品系。
[0050] 如本文所用,術(shù)語"基因滲入"(introgress)及其語法變化形式(包括但不限于 "introgression"、"introgressed"和 "introgressing")是指一個個體的一個或多個基因 組區(qū)域憑借其移入另一個個體的基因組中而創(chuàng)造具有遺傳基因座、單倍型和/或等位基因 的新組合的種質(zhì)的天然和人工過程。用于基因滲入所關(guān)注性狀的方法可包括但不限于,將 具有所關(guān)注性狀的個體與不具有所關(guān)注性狀的個體雜交,并將具有所關(guān)注性狀的個體與輪 回親本回交。
[0051] 如本文所用,"連鎖不平衡"(LD)是指推導(dǎo)出的兩個不同遺傳標(biāo)記的關(guān)聯(lián)強(qiáng)度或共 現(xiàn)強(qiáng)度的統(tǒng)計(jì)學(xué)量度。雖然可使用多種統(tǒng)計(jì)方法來概括兩個標(biāo)記之間的LD,但在實(shí)施過程 中僅有兩種方法是廣泛使用的,其命名為〇/和r2(參見,例如,Devlin和Risch,1995年; 化rde,2000年)。同樣地,短語"連鎖不平衡"是指單世代中很多個體的群體中的配子類型與 期望的相對頻率相比的變化,使得兩個或更多個基因座用作基因連鎖的基因座。
[0052] 如本文所用,短語"連鎖群"是指位于同一染色體上的全部基因或基因性狀。在連 鎖群中,那些物理上充分緊密聯(lián)合起來的基因座可W在遺傳雜交中展示出連鎖效果。因?yàn)?兩個基因座之間發(fā)生交換的概率隨著染色體上的兩個基因座之間物理距離的增加而增加, 所W連鎖群內(nèi)的彼此相互遠(yuǎn)離的基因座可能不會在直接基因檢測中展示出任何可檢測的 連鎖。術(shù)語"連鎖群"多用于指在尚未進(jìn)行染色體定位的遺傳系統(tǒng)中展示出連鎖行為的遺傳 基因座。因此,在當(dāng)前語境中,盡管本領(lǐng)域普通技術(shù)人員會理解到連鎖群還可被限定為與給 定染色體的區(qū)域(即小于整體)相對應(yīng),但是術(shù)語"連鎖群"與染色體物理實(shí)體同義。
[0053] 如本文所用,術(shù)語"基因座"是指物種染色體上的位置,其可涵蓋特定基因組區(qū)域 中的單個核巧酸、若干核甘酸或更多核甘酸。
[0054] 如本文所用,可互換使用的術(shù)語"標(biāo)記"和"分子標(biāo)記"是指其遺傳可被監(jiān)測的染色 體上的可辨認(rèn)位置,和/或用于顯現(xiàn)存在于染色體上運(yùn)類可識別位置處的核酸序列的差異 的方法的試劑。標(biāo)記可包括已知的或可檢測的核酸序列。標(biāo)記的示例包括但不限于遺傳標(biāo) 記、蛋白質(zhì)組成、膚水平、蛋白質(zhì)水平、油組成、油水平、碳水化合物組成、碳水化合物水平、 脂肪酸組成、脂肪酸水平、氨基酸組成、氨基酸水平、生物聚合物、淀粉組成、淀粉水平、可發(fā) 酵淀粉、發(fā)酵收率、發(fā)酵效率、能量收率、次生化合物、代謝產(chǎn)物、形態(tài)特征和農(nóng)藝特征。分子 標(biāo)記包括但不限于限制性片段長度多態(tài)性(RFLP)、隨機(jī)擴(kuò)增多態(tài)性DNA(RAPD)、擴(kuò)增片段長 度多態(tài)性(AFLP)、單鏈構(gòu)象多態(tài)性(SSCP)、單核甘酸多態(tài)性(SNP)、插入/缺失突變(indel)、 簡單重復(fù)序列(SSR)、微衛(wèi)星重復(fù)序列、序列特征性擴(kuò)增區(qū)域(SCAR)、酶切擴(kuò)增多態(tài)性序列 (CAP S )標(biāo)記、W及同工酶標(biāo)記、基于微陣列的技術(shù)、T AQMAN . RTM .標(biāo)記、 化LUMINA. RTM. G化DENGATE. RTM、測定標(biāo)記、核酸序列或本文所述的可用于明確具體遺傳 和/或染色體位置的標(biāo)記組合。
[0055] 標(biāo)記可對應(yīng)于采用一個或多個寡核巧酸對核酸進(jìn)行擴(kuò)增(例如通過聚合酶鏈?zhǔn)椒?應(yīng)(PCR))而產(chǎn)生的擴(kuò)增產(chǎn)物。如本文所用,短語"與擴(kuò)增產(chǎn)物相對應(yīng)"在標(biāo)記語境中是指運(yùn) 樣一種標(biāo)記,其具有的核巧酸序列與用具體寡核巧酸集擴(kuò)增核酸產(chǎn)生的擴(kuò)增產(chǎn)物的序列相 同或反向互補(bǔ)(允許通過其自身的擴(kuò)增反應(yīng)和/或自然發(fā)生和/或人工等位基因差異引入突 變)。在一些實(shí)施方案中,通過PCR進(jìn)行擴(kuò)增,并且寡核巧酸為PCR引物,該P(yáng)CR引物被設(shè)計(jì)用 W與基因組DNA分子的相反鏈雜交從而擴(kuò)增基因組DNA序列,該基因組DNA序列存在于與PCR 引物在基因組DNA中雜交的序列之間。由使用運(yùn)種排列方式的引物進(jìn)行的一輪或更多輪擴(kuò) 增產(chǎn)生的擴(kuò)增片段是雙鏈核酸,其中一條鏈具有如下核巧酸序列,其從5/至3?頓序包含引 物中的一個的序列、位于引物之間的基因組DNA的序列、W及第二引物的反向互補(bǔ)序列。通 常,"正向"引物被指定為具有與待擴(kuò)增雙鏈核酸的(任意指定的)"頂"鏈的子序列相同的序 列的引物,使得擴(kuò)增片段的"頂"鏈包括在5/至3/方向與正向引物序列(位于基因組片段 "頂"鏈的正向引物和反向引物之間的序列一一反向引物的反向互補(bǔ)序列)相等的核酸序 列。因此,"對應(yīng)于"擴(kuò)增片段的標(biāo)記為具有與擴(kuò)增片段雙鏈之一相同序列的標(biāo)記。
[0056] 術(shù)語"表型"是指通過生物體的基因型和環(huán)境的相互作用產(chǎn)生的生物體的任意可 觀察的屬性。表型可涵蓋表型的表現(xiàn)變異性和外顯率。示例性表型包括但不限于可見表型、 生理表型、易感性表型、細(xì)胞表型、分子表型W及它們的組合。
[0057] 如本文所用,術(shù)語"植物"是指整個植物、植物器官(即葉、莖、根、花等)、種子、植物 細(xì)胞和它們的子代。術(shù)語"植物細(xì)胞"包括但不限于種子、懸浮培養(yǎng)物、胚芽、分生區(qū)域、愈傷 組織、葉、苗、配子體、抱子體、花粉和小抱子內(nèi)的細(xì)胞。短語"植物部分"是指植物的一部分, 包括單個細(xì)胞和細(xì)胞組織,諸如完整存在于植物、細(xì)胞叢和組織培養(yǎng)物(植物能夠通過該組 織培養(yǎng)物再生)中的植物細(xì)胞。植物部分的示例包括但不限于來自花粉、胚珠、葉、胚芽、根、 根尖、花藥、花、果實(shí)、莖、苗和種子;W及來自接穗、根莖、原生質(zhì)體、愈傷組織等的單細(xì)胞和 組織。
[0058] 如本文所用,術(shù)語"多態(tài)性"是指在一個或多個個體的群體中,某一基因座上存在 核酸序列的一種或更多種變異。序列變異可W是不同的、插入的或缺失的一個或多個堿基。 多態(tài)性可W是,例如,單核巧酸多態(tài)性(SNP)、簡單重復(fù)序列(SSR)和插入缺失(即插入且缺 失)。另外,變異可W是轉(zhuǎn)錄模式或甲基化模式??赏ㄟ^比較與兩個或更多個種質(zhì)資源中一 個或多個基因座上的核酸序列來確定核酸序列的多態(tài)性位點(diǎn)。同樣地,在一些實(shí)施方案中, 術(shù)語"多態(tài)性"是指群體中出現(xiàn)了兩個或更多個由遺傳決定的供選擇的變體序列(即等位基 因)。多態(tài)性標(biāo)記是指發(fā)生變異的基因座。示例性標(biāo)記具有至少兩個(或在一些實(shí)施方案中 更多個)等位基因,每一個的出現(xiàn)頻率大于1%。多態(tài)性基因座可W如一個堿基對一樣小(例 如,單核巧酸多態(tài)性;SNP)。
[0059] 如本文所用,術(shù)語"群體"是指植物的具有遺傳異質(zhì)性的集合,所述植物在一些實(shí) 施方案中共享共同的遺傳衍化。
[0060] "預(yù)測祀標(biāo)"是來自全同胞近交群體的所選候選者的集,其中它們的親本在遺傳標(biāo) 記上進(jìn)行基因型分型。
[0061] 術(shù)語"前TCr是指正好產(chǎn)生近交體(諸如例如雙單倍體)后并且產(chǎn)生頂交數(shù)據(jù)前 (即當(dāng)來自它們?nèi)桶胪臄?shù)據(jù)不可用的時候)的時間。
[0062] 如本文所用,術(shù)語"子代"是指由一個或多個植物經(jīng)自然育種或輔助育種產(chǎn)生的任 意植物。例如,子代植物可通過使兩種植物雜交產(chǎn)生(包括但不限于兩種不相關(guān)的植物的雜 交,使植物與親本植株回交,兩種植物的互交等),但也可通過植物自交,建立近交體(例如 雙單倍體)或本領(lǐng)域普通技術(shù)人員已知的其它技術(shù)來產(chǎn)生。同樣地,"子代植物"可W是一個 或多個親本植物或其后代經(jīng)無性生殖或有性生殖而產(chǎn)生子代的任意植物。例如,子代植物 可通過親本植物的克隆或自交或者使兩種親本植物雜交獲得,并且包括自交和Fi或F2或還 有世代。Fi是由親本產(chǎn)生的第一代子代,其親本中的至少一者是第一次作為性狀供體,而在 一些實(shí)施方案中第二代(F2)或后續(xù)世代(F3、F4等)的子代是自交(包括但不限于雙單倍化)、 互交、回交或Fi個體、F2個體等的其它雜交產(chǎn)生的樣本。因此,F(xiàn)i可W是(并且在一些實(shí)施方 案中是)由兩個純育親本(即每個純育親本就所關(guān)注性狀或其等位基因而言是純合的,并且 在一些實(shí)施方案中是近交的)雜交產(chǎn)生的雜交體,而F2可W是(并且在一些實(shí)施方案中是) 由Fi雜交體經(jīng)自花授粉產(chǎn)生的子代。
[0063] 如本文所用,短語"單核巧酸多態(tài)性"或"SNP"是指構(gòu)成兩個核巧酸序列之間單堿 基對差異的多態(tài)性。如本文所用,術(shù)語"SNP"也指兩個核巧酸序列之間的差異,其由一個序 列相對于另一個在序列中的單個位點(diǎn)發(fā)生的簡單改變產(chǎn)生。例如,術(shù)語"SNP"不僅意指與另 一個序列相比,在一個序列中由核酸取代而產(chǎn)生的具有單個不同核巧酸的序列,也意指與 另一個序列相比,在一個序列中由于單個位點(diǎn)處缺失1個、2個、3個或更多個核巧酸而產(chǎn)生 的具有1個、2個、3個或更多個不同核巧酸的序列。應(yīng)當(dāng)理解,在兩個序列僅因序列之一的單 位點(diǎn)處相比另一個序列缺失了 1個、2個、3個或更多個核巧酸而彼此不同的情況下,取決于 兩個序列中的哪一個被認(rèn)為是參考序列,也可認(rèn)為序列之一的單位點(diǎn)處相比另一個序列添 加了 1個、2個、3個或更多個核巧酸屬于同一情形。因此,也可認(rèn)為單位點(diǎn)插入和/或缺失由 術(shù)語"SNP"所涵蓋。
[0064] 術(shù)語"測試并擱置"是指不為田間試驗(yàn)選擇/精選近交體,但是保持近交體直至可 獲得來自它們的全同胞和/或半同胞的數(shù)據(jù)的狀態(tài)。
[0065] 如本文所用,術(shù)語"測驗(yàn)種"是指用于一個或多個其它品系測交中的品系,其中測 驗(yàn)種和被測品系基因相異。測驗(yàn)種可W是雜交品系的同基因系。
[0066] 術(shù)語"頂交"是指被測親本和測驗(yàn)種(通常是純合品系)之間的雜交。"頂交測試"是 通過每一個親本與相同測驗(yàn)種(通常是純合品系)進(jìn)行雜交衍生出的子代測試。被測親本可 W是自由授粉品種、雜交品系或近交品系。
[0067] 如本文所用,術(shù)語"性狀"和"所關(guān)注的性狀"是指所關(guān)注的表型、有助于產(chǎn)生所關(guān) 注表型的基因,W及與有助于產(chǎn)生所關(guān)注表型的基因相關(guān)聯(lián)的核酸序列。被期望在后續(xù)世 代中篩選得到或去除的任意性狀都可W是所關(guān)注性狀。
[0068] "性狀"可W指植物或具體植物體或植物細(xì)胞的生理、形態(tài)、生物化學(xué)或物理特性。 在一些情況下,運(yùn)些特性是肉眼可見的或可通過生物化學(xué)技術(shù)進(jìn)行測量。
[0069] 玉米中所關(guān)注的示例性非限制性性狀包括收率、抗病性、農(nóng)藝性狀、非生物性狀、 核組分(包括但不限于蛋白、油和/或淀粉組分)、抗蟲性、能育性、青膽和形態(tài)性狀。在一些 實(shí)施方案中,在子代個體中篩選得到和/或去除所關(guān)注的兩個或更多個性狀(單獨(dú)地或共同 地)。
[0070] 下文轉(zhuǎn)而描述實(shí)施方案:
[0071] 本文中提供了通過優(yōu)化基因組預(yù)測而選擇作為育種計(jì)劃一部分的個體的方法,其 中所述方法包括從候選者集中選擇用于表型分型的候選者,從而構(gòu)建優(yōu)化的評估數(shù)據(jù)集; 將候選者放入該評估數(shù)據(jù)集內(nèi);W及評估每個候選者的基因組估計(jì)育種值的準(zhǔn)確性(即基 因組預(yù)測準(zhǔn)確性)。該優(yōu)化方法所依賴的原則是:育種值的準(zhǔn)確性強(qiáng)烈取決于訓(xùn)練個體和所 選候選者之間的親緣關(guān)系化abier等人,2013年,出處同上)??墒褂糜?jì)算機(jī)構(gòu)建優(yōu)化的評估 數(shù)據(jù)集。
[0072] 可使用標(biāo)記對候選者進(jìn)行基因型分型,但是如果沒有進(jìn)行基因型分型,可使用 Monte Carlo模擬來評估特定個體類型或個體組得到準(zhǔn)確基因組預(yù)測的可能性。候選者可 W或者可W不與預(yù)測祀標(biāo)中的群體相關(guān)。
[0073] 如果候選者相比于候選者集中的其它候選者,基因組估計(jì)育種值的準(zhǔn)確性更高, 那么僅將該候選者永久性地移入優(yōu)化的評估數(shù)據(jù)集中。利用包括基因組預(yù)測的評估和預(yù)測 步驟并返回基因組估計(jì)育種值的準(zhǔn)確性的數(shù)學(xué)公式獲得基因組估計(jì)育種值的準(zhǔn)確性,并測 量群體內(nèi)的個體和預(yù)測祀標(biāo)中所有群體的基因組估計(jì)育種值的準(zhǔn)確性。運(yùn)種準(zhǔn)確性關(guān)聯(lián)或 設(shè)及包含來源于候選者集的個體的評估數(shù)據(jù)集。因此,可將數(shù)學(xué)公式視為從代入的預(yù)測祀 標(biāo)的候選者集和群體中取得個體的集,并為預(yù)測祀標(biāo)的個體返回基因組預(yù)測準(zhǔn)確性或基因 組估計(jì)育種值的準(zhǔn)確性。
[0074] 在數(shù)學(xué)-遺傳術(shù)語中描述了預(yù)測祀標(biāo)的育種群體,即近交親本的標(biāo)記基因型,標(biāo)記 的遺傳圖距用于推導(dǎo)預(yù)測祀標(biāo)中每個群體的標(biāo)記基因座之間的連鎖不平衡(LD)的模式。因 為每個雜交具有不同親本并且每個親本具有不同標(biāo)記基因型,所W每個育種群體具有獨(dú)特 的LD模式。公式中LD的使用自然由數(shù)學(xué)公式的推導(dǎo)W及由親本產(chǎn)生近交后代的過程中等位 基因的LD和共分離兩種狀態(tài)的定義得出,如下文實(shí)施例中所示。僅使用親本的標(biāo)記基因型 的優(yōu)勢在于,可使用優(yōu)化方法來識別Fi或F2衍生的未來育種雜交群體的最佳訓(xùn)練數(shù)據(jù)集。另 夕h使用運(yùn)些LD模式可W避免在其它優(yōu)化方法中遇到的問題(Maenhout等人,2010Theor Appl Genet. 120:415-427;Rincent等人,2012.Genetics 192:715-728),運(yùn)決定了將基因 型分型的近交系中的哪些宣布為選擇候選者或用于訓(xùn)練的候選者。使用連鎖不平衡意味著 運(yùn)個優(yōu)化方法不需要對來自預(yù)測祀標(biāo)中群體的未來選擇候選者進(jìn)行基因型分型。因此,允 許在那些群體(被實(shí)際上構(gòu)建)可供選擇的數(shù)年前便優(yōu)化訓(xùn)練數(shù)據(jù)集;并且與其它方法一 樣,既不需要也不受限于基因型分型個體在候選者和選擇候選者中的任意分配。
[0075] 優(yōu)化方法的核屯、是用于預(yù)測祀標(biāo)群體中的基因組估計(jì)育種值的準(zhǔn)確性的數(shù)學(xué)公 式,該數(shù)學(xué)公式采用如下基因組預(yù)測過程,包括組合評估數(shù)據(jù)集、通過基因組預(yù)測軟件運(yùn)行 評估數(shù)據(jù)集,并使用評估得到的單核巧酸多態(tài)性效應(yīng)和預(yù)測祀標(biāo)的標(biāo)記一起評估基因組估 計(jì)育種值。根據(jù)預(yù)測祀標(biāo)確定數(shù)學(xué)公式的使用。
[0076] 如果預(yù)測祀標(biāo)由一個群體(例如一個全同胞家系)組成,那么可使用W下公式來確 定基因組預(yù)測準(zhǔn)確性或基因組估計(jì)育種值的準(zhǔn)確性:
[0077]
[007引其中任^是5肥效應(yīng)的方差,61是由群體(全同胞家系)1的連鎖不平衡加權(quán)的基因組 關(guān)系矩陣,V,;i是評估數(shù)據(jù)集中個體的性狀表型的方差-協(xié)方差矩陣的倒數(shù),Ni是群體沖分 離基因座的數(shù)量。
[0079] 如果預(yù)測祀標(biāo)由多于一個群體(即一個W上全同胞家系)組成,那么可使用W下公 式來確定基因組預(yù)測準(zhǔn)確性或基因組估計(jì)育種值的準(zhǔn)確性:
[0080]
(1)
[0081 ]此為預(yù)測祀標(biāo)的所有化群體中的近交群體中準(zhǔn)確性的平均值。
[0082]
[0083] 其中5£[0,1]被稱為社會福利經(jīng)濟(jì)學(xué)中的風(fēng)險規(guī)避參數(shù)。如果5 = 〇,則/^^與 相同,但是隨著δ增加,具有高準(zhǔn)確性的群體被加權(quán)降低W有利于具有較低準(zhǔn)確性的群 體。后一個公式可用于防止預(yù)測祀標(biāo)中不同群體準(zhǔn)確性之間的差異變得太大。
[0084] 如果預(yù)測祀標(biāo)由大量群體(家系)組成,則可在后兩個等式中由爲(wèi)的可靠性取代基 因組預(yù)測準(zhǔn)確性或基因組估計(jì)育種值的準(zhǔn)確性,W使計(jì)算更加可行。該等式可定義為:
[0085]
[0086] 針對一種或多種性狀獲得優(yōu)化的評估數(shù)據(jù)集中的候選者的表型,并且優(yōu)化的評估 數(shù)據(jù)集中候選者的表型和基因型可用于獲得育種個體的基因組估計(jì)育種值?;旧?,優(yōu)化 的評估數(shù)據(jù)集中的候選者的表型和基因型用于參數(shù)化統(tǒng)計(jì)模型,使得用包含在優(yōu)化的評估 數(shù)據(jù)集中的信息并通過育種個體的基因型來確定基因組估計(jì)育種值。
[0087] 育種個體是育種計(jì)劃中待進(jìn)行選擇的個體。(重要的是需注意,優(yōu)化的評估數(shù)據(jù)集 中的育種個體和候選者屬于相同物種。)育種個體可W是純合的、部分純合的或雜合的。如 果是純合的,則育種個體可W是近交體或者雙單倍體。
[0088] W多個標(biāo)記對育種個體進(jìn)行基因型分型,并使用優(yōu)化基因組預(yù)測程序?yàn)橛N個體 給出基因組估計(jì)育種值,所述基因組估計(jì)育種值可用作在育種個體之間進(jìn)行比較的手段 (并且允許對育種個體進(jìn)行分類)。可選擇具有所需基因組估計(jì)育種值的育種個體W供進(jìn)一 步的植物改良,運(yùn)既可W是選擇作為雜交親本的個體,也可W是選擇進(jìn)行生長W供進(jìn)一步 評估的一個或多個個體。結(jié)合整個育種個體庫和育種個體各自的基因組估計(jì)育種值,所選 育種個體可 W 是前 25%、24%、23%、22%、21%、20%、19%、18%、17%、16%、15%、14%、 13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%或1%。如果選擇用于雜交的育 種個體,則可(諸如例如,在玉米中)進(jìn)行雜交W產(chǎn)生雜交體。
[0089] 應(yīng)用
[0090] 所述方法不僅適用于植物育種,還適用于動物育種。該方法是使用優(yōu)化規(guī)劃工具 作出育種個體選擇的改良方法,所述優(yōu)化規(guī)劃工具允許單獨(dú)基于標(biāo)記使用來選擇育種個 體,從而能夠更加高效地使用領(lǐng)域資源(即對于所用相同量的資源具有較高準(zhǔn)確性,或?qū)τ?所用減少量的資源具有相似準(zhǔn)確性)。
[0091] 例如,在玉米中,該方法可用于產(chǎn)物發(fā)育的所有選擇階段,但因?yàn)橄底V信息不能區(qū) 分全同胞和表型信息,所W在近交系發(fā)育的早期階段中雙單倍體的家系內(nèi)分類的最大效用 受限或尚不可用。在選擇的第一階段(前TC1),育種者從大量雙單倍體群體中選擇TC1資源, 其中每個家系包含幾十甚至幾百個雙單倍體。最初僅使用數(shù)據(jù)本身來選擇TC1資源,但之后 育種者可使用前幾年的TCI數(shù)據(jù)或標(biāo)記增強(qiáng)型系譜選擇(MEPS)實(shí)驗(yàn),按照最大多樣性或者 基因組預(yù)測來隨機(jī)地選擇TC1資源。前TC1中的基因組預(yù)測還可用于直接選擇TC2資源并 "跳"過TC1。
[0092] 本文所公開的方法中的任一個可與美國專利申請?zhí)?4/473,183、14/473,074和 14/473,183中所公開的方法中的任一個組合使用。
[0093] 另一些實(shí)施方案包括如下方法:用于全基因組增強(qiáng)預(yù)測,W選擇具有耐旱性的近 交體和雜交體,從而提高干旱條件下的作物收率和更有利的環(huán)境條件下的同等收率表現(xiàn)的 方法;用于多性狀全基因組增強(qiáng)預(yù)測,W針對具體目標(biāo)環(huán)境選擇收率和農(nóng)藝性狀表現(xiàn)提高 的近交體和雜交體的方法;用于全基因組增強(qiáng)預(yù)測,W針對其中基因型-環(huán)境互作非常重要 的目標(biāo)地理區(qū)域,選擇收率和農(nóng)藝性狀表現(xiàn)提高的近交體和雜交體的方法;W及針對上述 的每一種方法,用于全基因組增強(qiáng)預(yù)測轉(zhuǎn)基因和天然遺傳變異對近交體和雜交體的收率和 農(nóng)藝性狀表現(xiàn)的組合效應(yīng)的方法。
[0094] 實(shí)施例
[0095] W下實(shí)施例進(jìn)一步說明本發(fā)明,其中份數(shù)和百分比是按重量計(jì),度是指攝氏度,除 非另行指出。應(yīng)當(dāng)理解,運(yùn)些實(shí)施例雖然說明本發(fā)明的各實(shí)施方案,但僅W舉例說明的方式 給出。由W上討論和運(yùn)些實(shí)施例,本領(lǐng)域技術(shù)人員可確定本發(fā)明的必要特征,并且在不脫離 本發(fā)明的實(shí)質(zhì)和范圍的前提下,可作出本發(fā)明的各種變化和修改W使本發(fā)明適合于各種應(yīng) 用和條件。因此,根據(jù)前文的描述,除了本文示出和描述的那些修改之外,本發(fā)明的各種修 改對于本領(lǐng)域技術(shù)人員而言是顯而易見的。此類修改形式也旨在落入所附權(quán)利要求的范圍 內(nèi)。
[0096] 實(shí)施例1
[0097] 優(yōu)化判據(jù)的推導(dǎo)
[00側(cè)近交群體內(nèi)的準(zhǔn)確性
[0099] 本文將群體內(nèi)準(zhǔn)確性定義為從近交群體i中隨機(jī)抽取的個體j的真實(shí)育種值和估 計(jì)育種值(分別為gU和鳥)之間的相關(guān)性,并且可被描述為
[0100]
[0101] 假設(shè)統(tǒng)計(jì)模型與將在下文中詳述的真實(shí)遺傳模型相同(=府''(4)), 那么上述公式簡化為
[0102]
[010引在下文中,推導(dǎo)出邑。和4的方差。
[0104] 遺傳和統(tǒng)計(jì)模型
[0105] 在數(shù)量遺傳學(xué)中區(qū)分用于統(tǒng)計(jì)分析訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)模型和真實(shí)遺傳模型是一種 很好的實(shí)踐方法。雖然研究者可明確指定統(tǒng)計(jì)模型,但真實(shí)遺傳模型代表對數(shù)據(jù)的真實(shí)但 未知的性質(zhì)(諸如,數(shù)量性狀基因座數(shù)量、遺傳方式、基因作用和基因互作)的假定。在大多 數(shù)遺傳研究中,假設(shè)運(yùn)兩種類型的模型相同。就本文所述的優(yōu)化方法而言,假設(shè)遺傳模型和 統(tǒng)計(jì)模型相同。為了簡便起見,本文所提出的推導(dǎo)適用于Fi來源的近交體,但是本領(lǐng)域普通 技術(shù)人員將會理解,該推導(dǎo)也可適用于預(yù)測祀標(biāo)中的其它群體。
[0酒]真實(shí)育種值的遺傳模型和方差
[0107] 來自預(yù)測祀標(biāo)中近交群體i的選擇候選者j的真實(shí)育種值gu可被描述為
[0108] gy =化'ijP,
[0109] 其中表示K SNP處等位基因狀態(tài)的向量。等位基因狀態(tài)可取值0或1,并通過雙 親Fi來源的近交群體內(nèi)期望的等位基因頻率來調(diào)整,從而使得的期望值為零。在兩個親 本呈現(xiàn)多態(tài)(即,一個親本的等位基因狀態(tài)為0,另一個親本的等位基因狀態(tài)為1)的基因座 處,期望的等位基因頻率為0.5,而在兩個親本呈現(xiàn)單態(tài)(即,兩個親本的等位基因狀態(tài)相 同)時,期望的等位基因頻率為0或1。調(diào)整后的等位基因狀態(tài)的方差在多態(tài)基因座處為 0.25,在其它位置為0。向量β包含均值為0、方差為Ισ;:的隨機(jī)SNP效應(yīng)。給出統(tǒng)計(jì)模型后,稍 后將詳細(xì)說明方差在統(tǒng)計(jì)中指定隨機(jī)變量或模型的期望值和方差也是一種很好的實(shí) 踐方法;因此,gu的期望值為
[0110]
[01因?yàn)镋(Zij)=0和6化)=0。糾的方差為 [0112]
[011引其中Ni為近交群體i的多態(tài)性SNP的數(shù)量。
[0114] 推廣
[0115] 如果SNP效應(yīng)的平均值為μρ且方差-協(xié)方差矩陣為%,那么
[0116]
[0117] 其中
[011 引
[0119] 化;r(Zijk)等于0.25或0,并且Coy(Zijk,Zijk')由下文推導(dǎo)得出。如果40 = 〇,并且^^為 對角矩陣〇曰=的Λ那么
[0120]
[0121] 其中IpDiy在SNP k呈現(xiàn)多態(tài)時表示1,否則表示0。
[01。] 統(tǒng)計(jì)模型
[0123] 用于N雜交表型的統(tǒng)計(jì)模型可被描述為
[0124] y=Xb+Z0+e,
[0125] 其中y為表型的向量,X為向量b中固定環(huán)境效應(yīng)的已知關(guān)聯(lián)矩陣,Z為觀察到的基 因型得分的NXK矩陣,β為被視為平均值為零、方差為的隨機(jī)值的SNP效應(yīng)的KX1向量, 并且e為包含平均值為零、方差為ICg2的隨機(jī)殘余效應(yīng)的向量。因此,y的期望值和方差分別 為E(y) =Xb和!'"/·(>') = = ΖΖ'σ;;, + 。所有SNP效應(yīng)的公方差oj被假設(shè)為雜交體性能的 加性-遺傳方差σ。2的函數(shù),二者關(guān)系表示如下
[0126]
[0127]其中,C是需要被指定的常數(shù)。該常數(shù)確定了每個SNP效應(yīng)在統(tǒng)計(jì)分析中向0縮小多 少,因此,可對評估效應(yīng)具有決定性影響,從而對選擇的準(zhǔn)確性具有決定性影響。
[01巧]統(tǒng)計(jì)方法
[0129] 選擇候選者j的基因組估計(jì)育種值可通過最佳線性無偏預(yù)測(BLUP)估計(jì)為
[0130]
[0131] 其中,v^gy為選擇候選者j和訓(xùn)練個體之間的親緣關(guān)系的行向量。假設(shè)觀察到選擇 候選者和訓(xùn)練個體二者的SNP基因型,則/gy推導(dǎo)為
[0132] Cov(gij,y' )=Cov(化'ijP'P'Z')
[0133] =化'。\^2'.
[0134] 因此,
[0135]
[0136] 通常在基因組化UP中假定為第一種實(shí)例(HABI邸等人,2013年,出處同上),而第二 種實(shí)例更類似于貝葉斯A和貝葉斯B(MEUWIS沈N等人,2001年Genetics 157:1819-1829)。項(xiàng) 礎(chǔ)網(wǎng)被重新描述為
[0137]
[013引因此,
[0139] 急y=v'wPy.
[0140] 估計(jì)育種值的方差
[0141] 首先,表(給定z'ij)的方差可被描述為
[0142]
[01創(chuàng)并且因?yàn)镻Xb = 0,所W島(給定z'u)的期望值兩(務(wù)|z")為零。因此,
[0147]其中,zijk和zijk'分別表示在SNPk和k'下,群體i的個體j的等位基因狀態(tài)。4的期 望值針對單態(tài)基因座為0,并且針對多態(tài)基因座為化r(Zi化)=0.25。在兩個單態(tài)基因座的等 位基因狀態(tài)之間的交叉乘積為0,而在兩個多態(tài)SNPk和下該交叉乘積可表示為群體中的 連鎖不平衡(LD),所述連鎖不平衡可在此估計(jì)為 [014引 Dikk^ =Cov(z:yk,z:Ljk')
[0149] =E(ZijkZijk〇,
[0150] 運(yùn)是因?yàn)榈任换驙顟B(tài)通過其期望值和等位基因頻率進(jìn)行調(diào)整。LD完全由在從親 本到產(chǎn)生近交后代的過程中在不同基因座處等位基因的共分離狀態(tài)而產(chǎn)生。因此,可如下 由近交體的等位基因起源狀態(tài)推導(dǎo)出運(yùn)種家系內(nèi)LD。因?yàn)槲凑{(diào)整的等位基因狀態(tài)2;^和 為伯努利隨機(jī)變量,所WE(zukZukO的推導(dǎo)只需要集中于 <;=秦=1的實(shí)例。根據(jù)近交親 本的未調(diào)整的等位基因狀態(tài),存在4種概述于表1中的不同實(shí)例。
[0巧1] 表1:?兩個親本的未調(diào)整等位基因狀態(tài)為條件,來自雙親本Fi來源的群體的近交 體在SNPk和下的未調(diào)整等位基因狀態(tài)的期望交叉乘積。〇1化和化化'表示群體i的近交體j 的等位基因狀態(tài)的親本等位基因起源,并且ckk'表示SNPk和之間的重組頻率。
[0152]
[0153] 然后,可在親本具有已知SNP基因型的情況下計(jì)算雙親本群體中、分離基因座之間 的LD,具體如下
[0154]
[0155] 如果SNPk和k'不連鎖,即ckk' = 0.5,則Dikk' = 0;但如果它們緊密連鎖,即ckk' 一0, 則
[0156]
[0157] 并且作為讀測量的LD等于1,運(yùn)是因?yàn)榛?;r(Zijk)=Va;r(Zijk' )=0.25。一般來講,使 用化Idane基因定位函數(shù)將重組頻率ckk'替換為0.5(l-e-2'd),得出
[015 引
[0159]其中,d表示SNPk和之間的圖距,單位為摩爾根。作為一個方面,圖距按下式計(jì)算 4 結(jié)果得到,
[0163] 最后得到,
[0164] 喃與:)=4化腳V聲z'p\y>'趴月}'
[01化]如果使用選擇指數(shù)法替代BLUP并且= Ισ^,則公式簡化為
[0166]
,
[0167]運(yùn)減少了計(jì)算量,進(jìn)而縮短了運(yùn)行時間,但是對準(zhǔn)確性影響不大。需注意,針對預(yù) 測祀標(biāo)中的每個近交群體,需要計(jì)算不同化。矩陣積ZDiZ^可被認(rèn)為是基因組關(guān)系矩陣Gi,該 基因組關(guān)系矩陣由加權(quán)標(biāo)記得分與Di得到,從而該基因組關(guān)系矩陣特定于每個群體i。在迭 代優(yōu)化算法開始(如下文所述)前,計(jì)算每個群體i的Gi。
[01側(cè)優(yōu)化判據(jù)
[0169] 爲(wèi)的準(zhǔn)確性現(xiàn)在可描述為
[0170]
[0171] 如果在預(yù)測祀標(biāo)中存在多于一個群體,則優(yōu)化判據(jù)為
[0172] (1)
[0173] 此為預(yù)測祀標(biāo)的所有化群體中的近交群體中準(zhǔn)確性的平均值。使用此平均值可產(chǎn) 生的問題是一些群體可能具有較高準(zhǔn)確性,而其它群體可能具有較低準(zhǔn)確性,運(yùn)是一種可 見于社會福利經(jīng)濟(jì)學(xué)中的問題。因此,等式(1)可由等彈性函數(shù)替換得到
[0174]
[0175] 其中5£[0,1]被稱為社會福利經(jīng)濟(jì)學(xué)中的風(fēng)險規(guī)避參數(shù)。如果5 = 〇,則戶^;;^。.與 相同,但是隨著δ增加,具有高準(zhǔn)確性的群體被加權(quán)降低W有利于具有較低準(zhǔn)確性的群 體。
[0176] 使用的另一個問題是必須針對每個群體儲存Gi,并且必須在優(yōu)化算法的每次 迭代中估計(jì)每個群體的跡函數(shù),隨著群體數(shù)量的增加運(yùn)二者將造成巨大的計(jì)算負(fù)擔(dān)。為分 析解決運(yùn)個問題,備;的準(zhǔn)確性可替換為如下定義的新的可靠性
[0177]
[0178] 然后,\烏的平均值可被描述為
[0179]
[0180] 現(xiàn)在只需要儲存召,并且每次迭代只需估計(jì)一次跡函數(shù)而不用考慮預(yù)測祀標(biāo)中的 群體數(shù)量。雖然可靠性已代替準(zhǔn)確性被廣泛接受和普遍用于育種應(yīng)用中,但是因?yàn)樗枋?了通過估計(jì)育種值解釋的遺傳方差的量,所W它并不再是所需的優(yōu)化判據(jù)。然而,使用運(yùn)兩 個判據(jù)的分析表明,優(yōu)化性能受影響不大。
[0181] 實(shí)施例2 [01劇優(yōu)化方法
[0183] 為鑒定最佳雜交體,從空評估數(shù)據(jù)集開始實(shí)施迭代前向選擇算法。在每次迭代中, 將候選者集的雜交體逐個放入評估數(shù)據(jù)集內(nèi),并針對每個雜交體記錄預(yù)測祀標(biāo)的基因組估 計(jì)育種值準(zhǔn)確性的增加。將導(dǎo)致準(zhǔn)確性增加最多的雜交體永久性地移入評估數(shù)據(jù)集中,而 將所有其它雜交體保留在候選者集中。運(yùn)樣重復(fù)直至達(dá)到所需評估數(shù)據(jù)集大小。
[0184] 描述預(yù)測祀標(biāo)所需的數(shù)據(jù)為育種雜交的親本的標(biāo)記基因型。運(yùn)樣的好處是可進(jìn)行 對未來雜交的優(yōu)化。描述雜交體候選者所需的數(shù)據(jù)是它們的近交親本的基因型。然而,即使 不能獲得運(yùn)些基因型,也可使用實(shí)際標(biāo)記數(shù)據(jù)通過模擬來進(jìn)行先驗(yàn)研究。好處是考慮到其 對于增加基因組估計(jì)育種值準(zhǔn)確性的可能性,可評估任何類型的雜交。
[01化]實(shí)施例3 [01化]實(shí)際數(shù)據(jù)結(jié)果
[0187] 將包括來自16個雙親本非剛性莖桿群體的約1000個雜交體的元數(shù)據(jù)集用于研究 優(yōu)化的評估數(shù)據(jù)集與隨機(jī)組合的評估數(shù)據(jù)集。使用實(shí)施例1所述的數(shù)學(xué)公式并按實(shí)施例2所 述執(zhí)行獲得優(yōu)化評估數(shù)據(jù)集的步驟,W確定預(yù)測祀標(biāo)的群體中基因組估計(jì)育種值的準(zhǔn)確 性。
[0188] 將群體分成候選者集和驗(yàn)證集,并且演示兩種單獨(dú)的情形。在第一情形中,分別優(yōu) 化每個群體,并且候選者是全同胞或半同胞。在第二情形中,同時優(yōu)化所有群體,并且存在 來自所有群體的約800個候選者。對于來自第一情形和第二情形的收率,其基因組估計(jì)育種 值的準(zhǔn)確性分別示于表2和表3中。還針對谷粒水分性狀執(zhí)行情形2。結(jié)果示于表4中。
[01例 表2:情形1:在群體中觀察到的收率和預(yù)測的收率之間的相關(guān)性
[0190]
[0196] 結(jié)果顯示,優(yōu)化的評估數(shù)據(jù)集給出較高的基因組估計(jì)育種值準(zhǔn)確性(結(jié)合收率性 狀的較小評估數(shù)據(jù)集大小的情形2除外)。一個原因是所述方法鑒定了預(yù)測祀標(biāo)中雙單倍體 的信息量最大的全同胞的雜交體,所述雙單倍體為其中基因組的一半來自雙親本育種雜交 的一個親本而另一半來自另一親本的雙單倍體。另一個原因是,優(yōu)化方法通過選擇母本和 父本半同胞(如果有的話)鑒定用于評估的最佳半同胞。最終,優(yōu)化方法通過將那些使預(yù)測 祀標(biāo)的盡可能多的群體的準(zhǔn)確性增加的候選者選入評估數(shù)據(jù)集中,來利用預(yù)測祀標(biāo)中的家 系結(jié)構(gòu)。
[0197] 實(shí)施例4
[0刪模擬結(jié)果
[0199] 進(jìn)行模擬,W針對800的評估數(shù)據(jù)集大小,比較通過優(yōu)化方法獲得的前TC1雙單倍 體和測試并擱置雙單倍體二者的基因組預(yù)測準(zhǔn)確性,并與通過最大多樣性選擇和隨機(jī)選擇 獲得的兩種雙單倍體的基因組預(yù)測準(zhǔn)確性進(jìn)行比較。另外,當(dāng)將基因組預(yù)測應(yīng)用于具有來 自前一年的評估數(shù)據(jù)集的前TC1時,分析測試并擱置的基因組預(yù)測的準(zhǔn)確性。
[0200] 預(yù)測祀標(biāo)由包括25個Fi來源的雙單倍體群體、18個F2來源的雙單倍體群體、2個Ξ 元雜交和3個四元雜交的48個雙單倍體的群體組成。前TC1研究的候選者集由比預(yù)測祀標(biāo)的 群體構(gòu)建早兩年構(gòu)建的雙單倍體群體組成,而測試并擱置研究的候選者集由預(yù)測祀標(biāo)的群 體組成。為了評估來自骨干近交系的雜交體的信息價值,使用在預(yù)測祀標(biāo)中最經(jīng)常使用的6 個近交體由那些近交體的所有可能的二元和四元組合,即15個Fi來源的雙單倍體群體和15 個四元雙單倍體群體來構(gòu)建雜交體。候選者集中的每個群體具有80個雜交體。
[0201] 就作為整個群體中基因組估計(jì)育種值和模擬真實(shí)育種值之間的相關(guān)性測量的前 TC1期間的基因組估計(jì)育種值的準(zhǔn)確性而言,與隨機(jī)評估數(shù)據(jù)集相比,優(yōu)化的評估數(shù)據(jù)集的 準(zhǔn)確性高0.02。此外,將來自四元雜交的雜交體加入評估數(shù)據(jù)集中使基因組估計(jì)育種值的 準(zhǔn)確性就優(yōu)化的評估數(shù)據(jù)集而言提高了 4%-6%,但是所述準(zhǔn)確性就隨機(jī)評估數(shù)據(jù)集而言 降低。
[0202]與隨機(jī)評估數(shù)據(jù)集相比,優(yōu)化的評估數(shù)據(jù)集的測試并擱置的準(zhǔn)確性高0.03,并且 當(dāng)基因組選擇應(yīng)用于前TC1時,隨機(jī)評估數(shù)據(jù)集的準(zhǔn)確性比OPT低0.1-0.13。將來自四元雜 交的雜交體包括在候選者集內(nèi),使準(zhǔn)確性提高了4%-6%。
[020;3] 實(shí)施例5
[0204] 針對大豆中近交群體的評估集優(yōu)化
[0205] 在當(dāng)前大豆育種計(jì)劃中,選擇候選者來自通過兩個近交體雜交和其后續(xù)世代的自 交產(chǎn)生的群體,運(yùn)使得只有兩個近交配子的染色體片段在群體中循環(huán)。Fi雜交體產(chǎn)生自近 交雜交,其中每一個均包含兩個親本配子的拷貝。運(yùn)些配子通過多個減數(shù)分裂重組直至形 成新的選擇候選者的集。然后,使用近交親本的新一代的所選品系重復(fù)運(yùn)些步驟。
[0206] 為了使用優(yōu)化方法,必須針對每個群體推導(dǎo)出基因組上的標(biāo)記之間的連鎖不平衡 (LD)。運(yùn)通過W下方式完成。建立優(yōu)化方法的理論基礎(chǔ)的來自群體i的個體j的真實(shí)育種值 和估計(jì)育種值可分別描述為gu = zi/i3和知二Zy震其中ZU是SNP基因型的向量。標(biāo)記之間 的LD被測量為直接進(jìn)入優(yōu)化公式的zu、Var(zu),的方差-協(xié)方差矩陣。由于多次減數(shù)分裂 W及每個單群體中固有的子結(jié)構(gòu),很難推導(dǎo)出精確公式。因此,使用發(fā)生在減數(shù)分裂期間的 系譜和重組的Monte Carlo模擬憑經(jīng)驗(yàn)計(jì)算Var(zu)。為了產(chǎn)生穩(wěn)定、良態(tài)的和可能正定的 方差-協(xié)方差矩陣,方差-協(xié)方差矩陣被估計(jì)夫
其中大于zij中SNP基 因型數(shù)量的N=20,000個個體。一旦建立運(yùn)個矩陣,與玉米實(shí)施例一樣,進(jìn)行優(yōu)化算法。
[0207] 用于證明大豆育種中評估集的優(yōu)化優(yōu)勢的數(shù)據(jù)集包括具有至少168個個體的19個 群體。運(yùn)些群體大于玉米育種中的典型群體,從而產(chǎn)生了與隨機(jī)組合的集相比,優(yōu)化評估集 的準(zhǔn)確性增益的較高可能性。對于交叉驗(yàn)證,群體隨機(jī)分成預(yù)測集和大小為100的候選者 集。運(yùn)重復(fù)10次。將優(yōu)化算法應(yīng)用于相應(yīng)的包含來自相同群體的個體的候選者集和預(yù)測集 的對。根據(jù)預(yù)測集的準(zhǔn)確性的最高期望增加,運(yùn)個結(jié)果是候選者集的100個個體的分類。為 了評估不同評估集大小下優(yōu)化方法和隨機(jī)化方法之間準(zhǔn)確性的差異,由最終優(yōu)化結(jié)果產(chǎn)生 大小為5、10、15、20和25的子集。針對優(yōu)化方法,保存分類,而針對隨機(jī)化方法,從候選者集 中隨機(jī)抽取子集。評估集用于使用貝葉斯A評估標(biāo)記效應(yīng),然后將該標(biāo)記效應(yīng)用于預(yù)測來自 與評估集中相同群體的個體的GEBV。
[0208] 表5示出了對于隨機(jī)和使用優(yōu)化方法產(chǎn)生的不同評估集大小,對所有群體取平均 值而觀察到的表型和預(yù)測的表型之間的相關(guān)性。除了評估集大小為5的情況,優(yōu)化產(chǎn)生了比 隨機(jī)設(shè)計(jì)大的相關(guān)性。特別地,25和30個個體的評估集大小顯示出比針對玉米育種大的優(yōu) 勢,運(yùn)最可能歸因于較大的群體大小。
[0209] 表5:根據(jù)用于優(yōu)化評估集和隨機(jī)評估集的評估集大小,對整個群體取平均值而觀 察到的表型和預(yù)測的表型之間的相關(guān)性。
[0210]
【主權(quán)項(xiàng)】
1. 一種用于在育種計(jì)劃中選擇個體的方法,所述方法包括: a. 通過以下步驟構(gòu)建優(yōu)化的評估數(shù)據(jù)集:(i)從候選者集中選擇候選者用于表型分型, 并將所述候選者置于所述評估數(shù)據(jù)集中,其中所述基因型信息能夠用于所述候選者;(ii) 評估所述候選者的基因組估計(jì)育種值的準(zhǔn)確性,(iii)僅在所述候選者的基因組估計(jì)育種 值的準(zhǔn)確性高于所述候選者集中其它候選者的準(zhǔn)確性時,將所述候選者移入所述優(yōu)化的評 估數(shù)據(jù)集中;以及(iv)繼續(xù)進(jìn)行步驟(i)-(iii)直至產(chǎn)生優(yōu)化的評估數(shù)據(jù)集; b. 在所述優(yōu)化的評估數(shù)據(jù)集中對候選者進(jìn)行表型分型; c. 以多個標(biāo)記對育種個體進(jìn)行基因型分型; d. 利用所述優(yōu)化的評估數(shù)據(jù)集中所述候選者的表型和基因型,獲得所述育種個體的基 因組估計(jì)育種值;以及 e. 基于所述基因組估計(jì)育種值選擇育種個體。2. 根據(jù)權(quán)利要求1所述的方法,還包括使所述所選育種個體雜交。3. 根據(jù)權(quán)利要求1所述的方法,其中通過基因型分型或使用Monte Carlo模擬獲得所述 候選者的所述基因型信息。4. 根據(jù)權(quán)利要求1所述的方法,其中所述育種個體是純合的。5. 根據(jù)權(quán)利要求1所述的方法,其中所述育種個體是植物。6. 根據(jù)權(quán)利要求5所述的方法,其中所述植物選自:玉米、大豆、向日葵、高粱、卡諾拉、 小麥、苜蓿、棉花、稻、大麥、粟、甘鹿和柳枝稷。7. 根據(jù)權(quán)利要求1所述的方法,其中所述育種個體是動物。8. 根據(jù)權(quán)利要求1所述的方法,其中使用數(shù)學(xué)公式計(jì)算基因組估計(jì)育種值的所述準(zhǔn)確 性,所述數(shù)學(xué)公式代入來自所述候選者集中的候選者的標(biāo)記信息和來自組成預(yù)測靶標(biāo)的一 個或多個群體的親本的標(biāo)記信息。9. 根據(jù)權(quán)利要求8所述的方法,其中所述預(yù)測靶標(biāo)由一個群體組成。10. 根據(jù)權(quán)利要求9所述的方法,其中使用下列公式確定基因組估計(jì)育種值的所述準(zhǔn)確 性.11. 根據(jù)權(quán)利要求8所述的方法,其中所述預(yù)測靶標(biāo)由多于一個群體組成。12. 根據(jù)權(quán)利要求11所述的方法,其中使用以下公式確定基因組估計(jì)育種值的所述準(zhǔn) 確性:13. 根據(jù)權(quán)利要求8所述的方法,其中所述預(yù)測靶標(biāo)由大量群體組成。14. 根據(jù)權(quán)利要求13所述的方法,其中&的準(zhǔn)確性替換為如下定義的i,的可靠性
【文檔編號】C12Q1/68GK106028794SQ201480076351
【公開日】2016年10月12日
【申請日】2014年12月22日
【發(fā)明人】D.哈比爾
【申請人】先鋒國際良種公司