背景
估計集大小是基因組預(yù)測準(zhǔn)確度的重要決定因素。特別是在群體中,植物育種計劃的特征在于高度的結(jié)構(gòu)化。這阻礙了每個群體的大量估計集的建立。
在動物和植物育種中基因組選擇的使用是基于產(chǎn)生準(zhǔn)確的基因組估計育種值(gebv)的能力。預(yù)測準(zhǔn)確度的重要決定因素是估計集的大小。在動物育種方面,對于奶牛品種像迄今為止應(yīng)用基因組選擇最為成功的荷斯坦奶牛(holsteinfriesian),匯編大的單品種估計集比較直截了當(dāng)。然而,對于一些奶牛品種,特別是對于肉牛品種,匯編足夠大小的單品種估計集往往是不可能的。因此,通過將來自幾個品種的數(shù)據(jù)合并在一起創(chuàng)建多品種估計集具有重大意義并且是主動研究的主題。
植物育種也存在類似的情況,其特征在于育種者誘導(dǎo)結(jié)構(gòu)的程度高。這種結(jié)構(gòu)起因于保持不同雜種優(yōu)勢群以最大限度利用雜種優(yōu)勢的重要性,起因于不同的雙親育種群體的使用以及針對特異性性狀或環(huán)境的專門育種計劃的需要。這要求將育種計劃可用的表型分型和基因型分型資源必須分配給多個群體,這可以防止為每個群體創(chuàng)建大的估計集。因此,幾項研究調(diào)查了組合多個群體或甚至雜種優(yōu)勢群的合并估計集的優(yōu)點。
然而,合并估計集由于群體間遺傳性質(zhì)的差異(例如與連鎖不平衡、等位基因頻率或關(guān)系結(jié)構(gòu)有關(guān)的)而變得復(fù)雜。這可能是在植物和動物育種中使用合并估計集在一些應(yīng)用中未能增加預(yù)測準(zhǔn)確度的原因。
附圖說明
圖1是多水平模型(a)和傳統(tǒng)的bayesa模型(b)的圖形可視化。
圖2是用于評估預(yù)測準(zhǔn)確度的測試策略的圖形可視化。估計集包括來自群體p1和p2的λ1和λ2(集п)。從λ1和λ2計算在估計集(rπ)中表示的來自群體的系的預(yù)測準(zhǔn)確度,來自p3和p4中的系的估計集(集
詳細(xì)說明
已經(jīng)提出為每個群體使用單獨的估計集,但是使用來自其他群體的數(shù)據(jù)來導(dǎo)出基因組位置特異性先驗。以這種方式,可以考慮每個群體的獨特的基因組特征,同時仍然使用來自其他群體的信息。類似的,更正式的方法是由貝葉斯多水平模型促成的部分合并。在多水平模型中,針對每個群體估計特異性標(biāo)記效應(yīng)。然而,與非特異性標(biāo)記效應(yīng)同時地,從所有群體的數(shù)據(jù)估計可能被解釋為總體或非特異性標(biāo)記效應(yīng)的這些特異性標(biāo)記效應(yīng)的先驗平均值。由于特異性標(biāo)記效應(yīng)在總體效應(yīng)上收縮,所以前者在一定程度上依然通過來自其他群體的數(shù)據(jù)獲知。因此部分合并采取了一種中間路線,其介于無合并(僅從特異性群體的數(shù)據(jù)估計的特異性標(biāo)記效應(yīng))和完全合并(從合并估計集估計的共同標(biāo)記效應(yīng))之間。
合并群體增加估計集大小,但忽略每個群體的獨特遺傳特征。一個可能的解決方案是用多水平模型進(jìn)行部分合并,這樣允許估算群體特異性標(biāo)記效應(yīng),同時仍然利用群體間的信息。
目的是(i)證明使用貝葉斯多水平全基因組回歸模型可進(jìn)行基因組預(yù)測,以及(ii)調(diào)查部分合并可能優(yōu)于估計集的無合并或完全合并的情境。這些調(diào)查是基于兩個公開可獲得的玉米育種數(shù)據(jù)集,并由模擬研究提供支持。
材料和方法
多水平全基因組回歸模型
擬合數(shù)據(jù)的統(tǒng)計模型是
其中yij是來自第j個群體的第i個個體的觀測的表型值,且μij是其線性預(yù)測值。表型數(shù)據(jù)yij以平均值零為中心,并縮放為單位方差。用作數(shù)據(jù)模型的正態(tài)密度函數(shù)表示為n,
分層先驗分布設(shè)置的圖形顯示如圖1a所示。ujk的先驗是
其中uk是第k個標(biāo)記的總體效應(yīng),而方差參數(shù)
對于方差參數(shù)
γk~n(m,d2,0<a,b=∞)3)
這是關(guān)于γk的正態(tài)分布先驗,其中平均值參數(shù)為m且標(biāo)準(zhǔn)偏差為d,左截尾為零。作為m、d和截尾點a和b的函數(shù)的截尾分布n(m,d2,0<a,b=∞)的平均值可以被解釋為來自uk的特異性標(biāo)記效應(yīng)ujk的“典型”偏差。n(m,d2,0<a,b=∞)的平均值的較高值表示較大的偏差,反之亦然。因此,此參數(shù)可以用于量化群體散度。
對于超參數(shù)s2、m和d,使用均勻先驗uni(0.001,0.5)。截距β0的先驗是具有平均值0和非常大的方差的正態(tài)分布。對于剩余方差
來自后驗分布的樣本用吉布斯(gibbs)采樣繪制,在jags吉布斯采樣環(huán)境中實施。用于推斷的樣本總數(shù)為1000,從長度為510000的單個鏈抽取。將前10000個樣本作為退火(burnin)丟棄,并且僅將每第500個隨后的樣本進(jìn)行存儲。這些設(shè)置確保了所有參數(shù)(uk和ujk的ess通常>500)的收斂和>100的有效樣本大小(ess)。
ess用r程序包coda計算,該r程序包coda也用于使用診斷圖監(jiān)測收斂。
常規(guī)全基因組回歸模型
使用貝葉斯全基因組回歸方法“bayesa”,對超參數(shù)s2進(jìn)行修改(參見圖1b的圖解表示)。線性模型是
其與模型(1)相同,除了將群體指數(shù)j從標(biāo)記效應(yīng)uk除去。對于無合并,該模型依次應(yīng)用于每個群體,用于完全合并到聯(lián)合數(shù)據(jù)集。對于σe2,使用了自由度為-1和尺度等于零的不當(dāng)縮放逆卡方先驗。這相當(dāng)于關(guān)于σe的均勻先驗,如同用于多水平模型,但是利用共軛。
將bayesa吉布斯采樣器作為與r統(tǒng)計軟件環(huán)境兼容的c程序?qū)嵤?。再次,用于推斷的樣本總?shù)為1000,從長度為510000的單個鏈中抽取,退火為10000,稀疏(thinning)間隔為500。
估計、預(yù)測和測試程序
п表示在估計集中表示的p個群體的集且在п中來自群體的np個個體的集為λp,其中p指示п中的群體。在圖2給出了圖解表示。而且,將來自п中的、不存在于λp中的群體的那些個體表示為
在每個群體中,預(yù)測準(zhǔn)確度被計算為在測試集中個體的gebv與觀測到的表型值之間的相關(guān)性。隨后,對于п和
當(dāng)使用部分合并時,使用針對相應(yīng)群體估計的標(biāo)記效應(yīng)(即,ujk)的后驗平均值預(yù)測λp中的個體的gebv。使用總體(非特異性)標(biāo)記效應(yīng)uk的后驗平均值預(yù)測來自
當(dāng)使用完全合并時,測試集中所有個體的gebv從用模型(4)的聯(lián)合數(shù)據(jù)集估計的標(biāo)記效應(yīng)uk的后驗平均值進(jìn)行預(yù)測。
最后,當(dāng)使用無合并時,λp中的個體的gebv使用在將模型(4)應(yīng)用于相應(yīng)集λp的估計數(shù)據(jù)之后獲得的標(biāo)記效應(yīng)uk的后驗平均值進(jìn)行預(yù)測。無合并方法沒有提供預(yù)測來自
應(yīng)用于嵌套關(guān)聯(lián)映射(nam)玉米群體
nam數(shù)據(jù)集從http://www.panzea.org獲得。它包括從遺傳多樣化的一組玉米近交系和b73系作為共同親本之間的25個雙親雜交的4699個重組近交系(ril)。平均群體大小為188。用覆蓋整個基因組的1106個多態(tài)性snp標(biāo)記對ril進(jìn)行基因分型。將非b73等位基因被定義為參考等位基因。所有snp均為雙等位基因,因此參考等位基因?qū)?yīng)于所有25個群體中相同的核苷酸。為了方便計算,使用了285個標(biāo)記的稀疏集(thinnedset),以平均每5cm間隔有一個標(biāo)記的這樣的方式進(jìn)行選擇。每10cm間隔有一個標(biāo)記的密度對于nam群體中的基因組預(yù)測是足夠的。多環(huán)境田間試驗中,對性狀吐絲期(ds)、果穗高度(eh)、果穗長度(el)、小斑病抗性(slb)、近紅外淀粉測量(ns)和上葉角(ula)進(jìn)行了分析和表型分型。用于擬合模型的表型記錄是單環(huán)境表型的平均值。ds、eh、el、slb、ns和ula的環(huán)境數(shù)量分別為10、11、8、3、7和9。所選擇的性狀代表可獲得的主要性狀類別:產(chǎn)量組分(el)、農(nóng)藝學(xué)(eh)、抗病性(slb)、開花(ds)、質(zhì)量(ns)和形態(tài)學(xué)(ula)。
為了調(diào)查估計集中的系的總數(shù)n、群體數(shù)量p和每個群體中系的數(shù)量np對合并方法的預(yù)測準(zhǔn)確度和相對性能的影響,考慮了p和np的以下組合:p=5且np=50和100,p=10且np=25、50和100,p=20且np=12.5、25和50。對于p=20且np=12.5,我們抽取了19個群體,每個群體具有12個個體,且一個群體有22個個體,這導(dǎo)致平均np為12.5。因此,p和np組合產(chǎn)生了250、500或1000的n。對于性狀的每個組合p和np,如上所述通過重復(fù)п和λp的抽樣產(chǎn)生50個估計測試數(shù)據(jù)集。自始至終,將三種合并方法應(yīng)用于相同的數(shù)據(jù)集。因此,不同數(shù)據(jù)集之間的抽樣變化不會進(jìn)入合并方法之間的比較。
應(yīng)用于相互聯(lián)系的雙親(ib)玉米群體
該數(shù)據(jù)集從riedelsheimer等人(2013)的補(bǔ)充信息中獲得。它包括來自五個平均大小為127的雙親群體的635個雙單倍體(dh)系。群體來自四個歐洲硬粒型自交系之間的雜交。對于所有dh系,可獲得16741個群體間多態(tài)性的snp標(biāo)記。缺失的標(biāo)記基因型以兩倍于參考等位基因的頻率被替換,該參考等位基因是具有較低頻率的等位基因。當(dāng)分析數(shù)據(jù)時,我們使用了285個標(biāo)記的稀疏集。因為數(shù)據(jù)集不包括標(biāo)記的圖譜,所以隨機(jī)地選擇標(biāo)記。
dh系在多環(huán)境田間試驗中針對giberella穗腐病嚴(yán)重性(ger)(由禾谷鐮刀菌(fusariumgraminearum)引起的真菌病)、脫氧雪腐鐮刀菌烯醇含量(don,由真菌產(chǎn)生的主要霉菌毒素)、果穗長度(el)、粒行數(shù)(kr)和每行粒數(shù)(kpr)進(jìn)行表型分型。該數(shù)據(jù)集的更詳細(xì)的描述可以在riedelsheimer等人(2013)和martin等人(2012)中找到。
如上所述,將群體隨機(jī)分為λp和
集λp包括每個群體中25%、50%和75%的系,其分別對應(yīng)于31、63和95的平均np。對于估計個體的每個性狀和百分比值,產(chǎn)生100個估計測試數(shù)據(jù)集,每次還是重新抽樣285個標(biāo)記的子集。
應(yīng)用于模擬的數(shù)據(jù)集
進(jìn)行了模擬研究來專門調(diào)查群體中在qtl效應(yīng)的差異水平增加的情況下合并方法的性能。模擬的基礎(chǔ)是nam群體中系的標(biāo)記基因型。為了模擬遺傳值,隨機(jī)地選擇20個標(biāo)記位點作為qtl,其隨后從觀測到的標(biāo)記的集中移除。從標(biāo)準(zhǔn)正態(tài)分布中提取累加總體效應(yīng)aq。然后,群體特異性qtl效應(yīng)ajq從n(aq,τq2)中抽樣。選擇方差參數(shù)τ2使得相對標(biāo)準(zhǔn)偏差(rsd)即τq/aq等于2、1、0.5、0.25和0.0。rsd越大,群體特異性qtl效應(yīng)越不相似。根據(jù)每個個體的qtl基因型通過對qtl效應(yīng)ajq進(jìn)行求和獲得真實的遺傳值。最后,通過將正態(tài)分布的噪聲變量相加到真實的遺傳值來模擬表型值。選擇噪聲變量的方差使得群體間的遺傳力等于0.70。家族遺傳力的平均值必然隨著rsd的降低而增加,在rsd2、1、0.5、0.25和0.0處分別為0.53、0.58、0.64、0.68和0.70。
集п包括p=10個群體且集λp具有大小np=25。對于每個rsd值,產(chǎn)生了50個估計測試數(shù)據(jù)集。對于每個數(shù)據(jù)集,重新隨機(jī)產(chǎn)生qtl位置和效應(yīng)。在這種情況下也使用了285個標(biāo)記的稀疏集。因為真實的遺傳值是已知的,rп和
結(jié)果
nam玉米群體
趨勢通常在性狀之間保持。因此,提供和討論的結(jié)果適用于所有性狀,除非另有說明。
在保持n恒定的同時增加np(即在估計集中具有較少但較大的群體)通常增加rп并減少
當(dāng)增加np且p為常數(shù)時或當(dāng)增加p且np為常數(shù)時,rп和
對于低p和高np,例如p=5且np=100,無合并達(dá)到最高rп且完全合并達(dá)到最低(表1)。對于高p和低np,例如p=20且np=25,部分合并達(dá)到最高rп。這里無合并導(dǎo)致最低rп。對此唯一的例外是性狀ds,該ds中對于低np無合并具有等于或高于部分和完全合并的rπ。
對于新群體,部分和完全合并實現(xiàn)了幾乎相同的預(yù)測準(zhǔn)確度
表1:nam玉米群體的群體內(nèi)測準(zhǔn)確度平均值。顯示的值是測試個體的群體內(nèi)預(yù)測準(zhǔn)確度平均值,對超過50個隨機(jī)估計-測試數(shù)據(jù)分割進(jìn)行了平均。標(biāo)準(zhǔn)誤差為<0.013。p給出了集п的大小,即估計集中表示的群體數(shù),列np給出了用于估計的п中每個群體的個體數(shù),即集λp的大小。性狀為:吐絲期(ds)、果穗高度(eh)、果穗長度(el)、小斑病抗性(slb)、近紅外淀粉測量(ns)和上葉角(ula)。
ib玉米群體
對于所有性狀和合并方法,預(yù)測準(zhǔn)確度r∏隨著np的增加而增加(表2)。在性狀上的平均,無合并的增加最大,其中準(zhǔn)確度從在np=31時的平均值0.35增加到在np=95時的0.48。部分和完全合并方法的準(zhǔn)確度分別從在np=31時的0.39和0.38增加到在np=95時的0.48。
在np=31時,對于性狀el、kpr部分合并最高,對于性狀don和kr,完全合并最高rп。對于ger,兩者都具有相同的準(zhǔn)確度。無合并方法具有最低的rп,除了el和kpr之外,在el和kpr中其與完全合并具有相同的準(zhǔn)確度。對于95的最高np,合并方法之間的準(zhǔn)確度差異減小。部分合并對于el和kpr仍然具有最高的準(zhǔn)確度,與對于don和ger的完全合并相同。雖然不比部分合并更好,但是對于el和kpr,無合并比完全合并具有更高的預(yù)測準(zhǔn)確度。
表2:在相互關(guān)聯(lián)的雙親玉米群體中的群體內(nèi)預(yù)測準(zhǔn)確度平均值。顯示的值是測試個體的群體內(nèi)預(yù)測準(zhǔn)確度平均值,對超過100個隨機(jī)估計-測試數(shù)據(jù)分割進(jìn)行了平均。標(biāo)準(zhǔn)誤差為<0.01。np表示估計集中每個群體的個體平均數(shù)量。性狀是果穗長度(el)、脫氧雪腐鐮刀菌烯醇含量(don)、giberella穗腐病嚴(yán)重性(ger)、粒行數(shù)(kr)和每行粒數(shù)(kpr)。
模擬的玉米群體
對于所有合并方法,rπ隨著rsd減少而增加(表3)。然而,無合并的增加相對較小,是隨著rsd減少而家庭遺傳力增加的結(jié)果。合并方法的相對性能也取決于rsd。對于考慮的最高rsd值,無合并具有最高rπ,對于1.0的中間rsd值,部分合并具有。對于較低的rsd值,完全和部分合并實現(xiàn)了類似的高rп。
對于部分和完全合并兩者,
對于參數(shù)γk的截尾的正態(tài)分布先驗n(m,d2,0<a,b=∞)的平均值隨著rsd的增加而增加。對于0.0、0.25、0.5、1.0和2.0的rsd,其平均值分別為0.0111、0.0153、0.0190、0.0269和0.0296。
表3:模擬的玉米群體的平均預(yù)測準(zhǔn)確度。顯示的值是測試個體的群體內(nèi)預(yù)測準(zhǔn)確度平均值,對超過50個隨機(jī)估計-測試數(shù)據(jù)分割進(jìn)行了平均。標(biāo)準(zhǔn)誤差為<0.015。rsd是模擬的群體特異性qtl效應(yīng)的相對標(biāo)準(zhǔn)偏差。
討論
合并方法的比較
部分合并允許估計群體特異性標(biāo)記效應(yīng),同時仍然促進(jìn)群體間信息的“借用”。因此,它是無合并和完全合并之間的折衷,無合并模擬了每個群體的獨特特征但忽略了共享信息,完全合并則恰恰相反。
當(dāng)群體大小np足夠大時,從來自相同群體(rπ)的新個體獲得高預(yù)測準(zhǔn)確度不需要從其他群體借用信息。那么,通過與其他群體合并進(jìn)一步擴(kuò)大估計集可能甚至是有害的。這就解釋了為什么當(dāng)np很大(例如>=50)時,特別是在nam群體中,無合并是最準(zhǔn)確的方法,以及為什么其最有益于np的增加。因此,如果由于預(yù)算或其他限制np很小,則估計集的合并是最有前途的。據(jù)觀測,當(dāng)np很小(例如,<50)時,合并比無合并更加準(zhǔn)確。由于可獲得來自更多群體的信息(其不用于無合并方法中),兩種合并方法中任一種相對于無合并的優(yōu)勢也隨著p的增加而增加。因此,當(dāng)p比較高且np很低時,預(yù)期合并最為有利。部分合并或完全合并是否是更好的方法將取決于合并群體的相似性。相似性越大,預(yù)期執(zhí)行完全合并相對更好,因為估計群體特異性標(biāo)記效應(yīng)的能力變得不那么重要。在這種情況下,部分合并甚至可能是不利的,因為它需要估計多得多的效應(yīng),這可能導(dǎo)致與不可識別性相關(guān)的問題。ib群體的親本來自相同的育種計劃,而nam群體的非共同親本被選擇以最大化多樣性,且包括溫帶、熱帶和特產(chǎn)(甜玉米和爆粒玉米)玉米種質(zhì)。因此,適應(yīng)群體的獨特特征在nam中比在ib中更為重要,這可能解釋了為什么在前者中完全合并總是不如部分合并,而在后者中通常相等甚至更優(yōu),以及為什么在ib中即使對于大的np無合并從未達(dá)到最高預(yù)測準(zhǔn)確度。
在nam數(shù)據(jù)集中性狀之間的合并方法的相對性能非常穩(wěn)定,除了ds之外。即使在高p和低np下,對于這種性狀,無合并方法通常更優(yōu)越。buckler等人(2009)發(fā)現(xiàn)在nam群體中用于ds鑒定的qtl等位基因系列的證據(jù)。因此,雖然qtl的位置在群體之間是保守的,但它們的效應(yīng)非常不同??赡艿脑蚴峭ㄟ^遺傳背景相互作用存在多個等位基因或qtl。在這種情況下,預(yù)期數(shù)據(jù)的合并不具有超過無合并的優(yōu)勢。這個實例還表明,關(guān)于是否合并數(shù)據(jù)的決定必須以性狀為基礎(chǔ)進(jìn)行,并且應(yīng)該結(jié)合有關(guān)遺傳結(jié)構(gòu)的先驗知識(如果有的話)。
來自模擬研究的結(jié)果也加強(qiáng)了合并方法的相對性能對群體間遺傳效應(yīng)相似性的依賴性。還據(jù)觀測,
對群體的獨特特征建模需要在估計集中表示這些群體。因此,在部分和完全合并兩者中,來自п的新群體的個體的預(yù)測必須依賴于總體、非特異性標(biāo)記效應(yīng)uk。因此,預(yù)期兩者對新群體實現(xiàn)了非常相似的預(yù)測準(zhǔn)確度
這些結(jié)果表明,部分合并能夠模擬估計集中的群體的獨特特征,而不會在來自新群體的個體的預(yù)測能力方面折衷。
這項研究例證了在多群體(與植物和動物育種高度相關(guān)的情境)背景下可使用多水平模式進(jìn)行部分合并。然而,該概念容易適用于廣泛的情境。實例是跨越多個頂交測試者或環(huán)境的合并數(shù)據(jù),這在植物育種中特別相關(guān)。將模型擴(kuò)展到兩個以上的水平也是簡單的,例如用于從多個雜種優(yōu)勢群或育種程序合并多個群體。
估計集的組成
增加估計集中群體的個體數(shù)量(np)總是增加來自相同群體的未經(jīng)測試個體的預(yù)測準(zhǔn)確性(rπ),無論是(部分和完全合并)否(不合并)通過來自其他群體的個體進(jìn)一步擴(kuò)大估計集。
然而,由于植物育種計劃必須在預(yù)算約束下運(yùn)作,所以資源的最佳分配對于最大化基因組選擇的潛力是非常重要的。使用用于表型分型的、與n成比例的固定預(yù)算,在n=p·np的約束下,必須優(yōu)化群體數(shù)量p和每個群體中個體數(shù)量np??梢允褂藐P(guān)于對選擇的響應(yīng)和在估計集(分別為rπ和