一種基于snpldb標記的限制性二階段全基因組關聯(lián)分析方法
【技術領域】
[0001] 本發(fā)明屬于分子數量遺傳和分子育種技術領域,具體涉及一種基于SNPLDB標記 的限制性二階段全基因組關聯(lián)分析方法。
【背景技術】
[0002] 綠色革命通過群體株型改造育成高產品種是常規(guī)育種技術發(fā)展的成功。常規(guī)育種 主要是創(chuàng)造超親重組型,但以往育種家只能通過表型評估來設計組合并間接追蹤超親重組 型。分子技術的快速發(fā)展為直接鑒別超親重組基因型提供了可能。
[0003] 基于種質資源群體的全基因組關聯(lián)分析(GWAS)為全面解析農藝性狀的遺傳基礎 提供了方法。以往植物中的GWAS研宄主要目的是發(fā)掘主效基因,但是通過提高顯著水平來 盡可能降低假陽性的同時卻導致了檢測功效大大降低。植物育種家為了準確檢測全基因 組數量性狀基因座(QTL),他們的GWAS策略必須符合種質資源中廣泛存在復等位基因的情 況,并需要在缺失遺傳率和遺傳率過高估計之間進行平衡,以及矯正由近交和迀移導致的 群體偏差。
[0004] 現(xiàn)有GWAS廣泛使用的單核苷酸多態(tài)性(SNP)分子標記僅有兩個等位變異,無法估 計資源群體中大量存在的復等位基因效應,這進一步限制了其在常規(guī)育種中的應用。另外, GWAS的精度依賴于連鎖不平衡(LD)的衰減距離。隨機交配群體的LD衰減距離通常較短, GWAS的精度也較高。但自花授粉作物自然群體往往嚴重偏離隨機交配群體,高度自交導致 了群體較長的LD衰減距離,GWAS的精度也隨之降低。
[0005] GWAS-直飽受高假陽性的困擾,現(xiàn)有GWAS方法研宄也主要針對如何通過控制群 體結構來降低假陽性。群體結構推斷和主成分分析是GWAS中兩種廣泛使用的降低假陽性 的方法,這兩種方法均通過將推斷的群體結構特征作為協(xié)變量引入GWAS統(tǒng)計模型以降低 群體結構的影響。但已有報道顯示群體內個體間的親緣關系也會導致GWAS中的假陽性, GWAS應同時考慮群體結構和親緣關系。相應地,研宄者提出了一系列基于混合線性模型 (LMM)的GWAS方法將個體間兩兩親屬關系考慮進來。LMM方法假定每個個體均抽樣自不同 的群體,并將群體背景作為隨機效應,群體結構作為固定效應擬合到GWAS統(tǒng)計模型,并將 群體的親本系數(kinship)矩陣作為隨機效應的協(xié)方差結構。目前,LMM方法被認為比基于 群體結構和PCA的GWAS假陽性更低,已被廣泛應用于動植物遺傳研宄。但是,大量基于LMM 的GWAS研宄結果僅能檢測到少數幾個位點,并且僅解釋表型變異的很少部分,而實際上數 量性狀通常由許多效應大小不等的位點控制。因此,較高的假陰性率導致了GWAS的失蹤遺 傳率問題,即關聯(lián)位點的總遺傳貢獻率遠低于性狀遺傳率。LMM方法主要依賴的kinship 矩陣通常是由全基因組分子標記估計得到的,該矩陣實際上是個體間狀態(tài)同樣的估計。實 際研宄通常使用所有的分子標記來估計這種kinship矩陣,但是最新研宄表明kinship估 計中所用分子標記如果包含遺傳位點SNP標記時,GWAS的功效將會降低,反之,假陽性會升 高。研宄者也相應的提出了幾種方法來解決基于LMM方法的GWAS中kinship敏感的問題, 但是對于解決失蹤遺傳率問題幫助甚微。
【發(fā)明內容】
[0006] 本發(fā)明目的在于提供一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分析方 法,該方法結合基于單倍型區(qū)塊構建的SNPLDB標記、近交群體關聯(lián)分析模型偏差矯正和多 位點模型下二階段關聯(lián)分析策略,建立了適合于近交作物常規(guī)育種應用的GWAS方法。
[0007] 本發(fā)明解決其技術問題所采取的技術方案是:一種基于SNPLDB標記的限制性二 階段全基因組關聯(lián)分析方法,包括如下步驟:
[0008] a)構建全基因組SNPLDB標記:首先對已有種質資源群體的全基因組SNP基因型 數據進行連鎖不平衡分析,然后利用Haploview軟件定義全基因組SNP分子標記的單倍型 區(qū)塊,閾值為D' >0. 7,窗口設為估計的LD衰減距離;最后將單倍型區(qū)塊內的SNP分子標記 合并為新的標記,即SNPLDB標記,也就是將單倍型區(qū)塊內的每一個單倍型視為位點的一個 等位變異并進行編碼;對于頻率較低的單倍型(頻率小于1% ),通過單倍型的聚類分析使 用最為相似的單倍型替換低頻率的單倍型。
[0009] 近交群體較長的LD衰減距離說明基因型呈現(xiàn)出區(qū)塊結構,即基因組可以分割為 長度不等的區(qū)塊,區(qū)塊間重組頻繁,區(qū)塊內重組較少,一般的解釋是染色體上存在著大量的 重組熱點。本發(fā)明發(fā)現(xiàn)由于重組熱點區(qū)域頻繁的重組導致了重組不頻繁的區(qū)域呈現(xiàn)出區(qū)塊 的模式。這種區(qū)塊內豐富的單倍型變異提供了類似復等位基因的變異特征,相比SNP分子 標記更符合具有廣泛遺傳變異的種質資源群體的遺傳特征,可利用此特性來估計自然群體 中的復等位基因信息。
[0010] 單倍型區(qū)塊定義所用的Haploview軟件參數為:_minMAF0. 01、-hwcutoff 0、-maxDistance200、_blockoutputGAB、_blockMAFThresh0.01,其中-maxDistance200 指窗口大小為200kb;
[0011] b)近交群體關聯(lián)分析模型偏差的矯正:直接基于構建的全基因組SNPLDB標記,計 算其遺傳相似系數矩陣作為親屬關系的估計,這種方法一定程度上反映了群體內個體間的 遺傳關系以及自然群體偏離隨機交配群體的程度,可以用于矯正由近交導致的GWAS模型 偏差。
[0012] 假定群體包含n個個體,關聯(lián)分析中對單個標記位點的假設測驗的線性模型一般 可以表示為
[0013]
【主權項】
1. 一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分析方法,其特征在于,所述方 法包括如下步驟: a) 構建全基因組SNPLDB標記:首先對全基因組分子標記進行單倍型區(qū)塊分析,根據連 鎖不平衡分析結果對全基因組標記進行單倍型區(qū)塊的定義,然后根據單倍型區(qū)塊通過合并 區(qū)塊內的標記將原始分子標記數據轉換為SNPLDB標記; b) 近交群體關聯(lián)分析模型偏差的矯正:直接基于構建的全基因組SNPLDB標記,計算其 遺傳相似系數矩陣作為親屬關系的估計,用于矯正由近交導致的GWAS模型偏差; c) 多位點模型下二階段關聯(lián)分析:第一階段基于單位點模型使用〇. 05的顯著水平進 行篩選候選位點;第二階段基于多元逐步回歸分析方法構建包含多個位點的最終遺傳模 型。
2. 如權利要求1所述的一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分析方法, 其特征在于,所述構建全基因組SNPLDB標記的具體步驟為:首先對已有種質資源群體的全 基因組SNP基因型數據進行連鎖不平衡分析,然后利用Haploview軟件定義全基因組SNP 分子標記的單倍型區(qū)塊,閾值為D' >0. 7,窗口設為估計的LD衰減距離;最后將單倍型區(qū)塊 內的SNP分子標記合并為新的標記SNPLDB,就是將單倍型區(qū)塊內的每一個單倍型視為位點 的一個等位變異并進行編碼,對于頻率小于1 %的單倍型,通過單倍型的聚類分析使用最為 相似的單倍型替換低頻率的單倍型。
3. 如權利要求1所述的一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分析方法, 其特征在于,所述近交群體關聯(lián)分析模型偏差的矯正的具體步驟為:直接基于構建的全基 因組SNPLDB標記,計算其遺傳相似系數矩陣作為親屬關系的估計,該方法為EigenIBS ;二 倍體群體中,基于SNPLDB標記的個體間遺傳相似系數簡單定義為狀態(tài)同樣位點的比例,即 Σ nk/2m,取值范圍為[0, 1],其中nk為在第k個標記上兩個體共有的等位基因數目,m為總 標記數目;對于包含η個個體的群體,該相似系數矩陣為一個nXn的對稱矩陣,使用該遺傳 相似矩陣的部分特征向量作為群體結構的估計用于關聯(lián)分析群體偏差的矯正。
4. 如權利要求1所述的一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分析 方法,其特征在于,所述多位點模型下二階段關聯(lián)分析的具體步驟為:第一階段基于模型 J L 乃=,+ Σν? + ΣΧ〃Α + ?的EigenIBS方法,使用P = 0. 05的顯著水平對所有標記進行 j=l I=I 初步篩選,篩選到的標記作為候選位點納入第二階段分析;第二階段使用標準的多元逐步 回歸方法對候選位點進行第二輪篩選,逐步回歸中使用EigenIBS方法來矯正群體偏差:首 先在已入選位點條件計算所有剩余位點顯著性測驗的P值;然后選擇低于顯著水平P值最 小的位點作為新位點加入模型,并重復該過程直到沒有顯著的位點可供選擇;最后根據模 型久擬合包含所有入選位點的遺傳模型,刪除大于顯著水平 y-i k=i /=1 P值最大的位點,并重復該過程直到模型中所有位點均顯著。
5. 如權利要求1所述的一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分析方法, 其特征在于:所述的SNPLDB標記是指單核苷酸多態(tài)性分子標記連鎖不平衡區(qū)塊。
6. 如權利要求1所述的一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分 析方法,其特征在于:所述單倍型區(qū)塊定義所用的Haploview軟件參數為:-minMAF 0.01、-hwcutoff 0、-maxDistance 200、_blockoutput GAB、_blockMAFThresh 0.01,其 中-maxDistance 200 指窗口大小為 200kb。
7. 如權利要求1所述的一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分析方法, 其特征在于,所述多位點模型下二階段關聯(lián)分析的兩個階段中均使用相似系數矩陣特征向 量矯正由近交導致的模型偏差。
8. 如權利要求1所述的一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分析方法, 其特征在于,所述多位點模型下二階段關聯(lián)分析過程中有3種矯正多元逐步回歸多重測驗 的方法:使用Bonferroni矯正后的顯著水平a /m作為多元逐步回歸中每一步的顯著水平, 其中α和m分別為顯著水平和候選標記個數或基于Holm矯正方法將多元逐步回歸中第i 步的顯著水平調整為a Am-i+l)或基于假發(fā)現(xiàn)率控制過程將多元逐步回歸中第i步的顯 著水平調整為a i/m。
9. 如權利要求1所述的一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分析方法, 其特征在于:所述二階段關聯(lián)分析的第二階段將性狀遺傳率作為最終模型表型解釋率的上 限,通過禁用多重測驗矯正和調整顯著水平來進行模型選擇,使得GWAS能夠解析全基因組 的遺傳位點。
【專利摘要】本發(fā)明公開了一種基于SNPLDB標記的限制性二階段全基因組關聯(lián)分析方法,以解決傳統(tǒng)方法無法估計復等位基因信息、假陽性率高以及在近交作物中檢測功效低的問題。本發(fā)明結合基于單倍型區(qū)塊構建的SNPLDB標記、近交群體關聯(lián)分析模型偏差的矯正和多位點模型下二階段關聯(lián)分析策略,建立了適合于近交作物常規(guī)育種的GWAS方法。該方法將SNPLDB標記用于GWAS,為復等位基因估計提供了方法,第一階段基于單位點模型來篩選候選位點,第二階段基于多位點模型下的逐步回歸分析方法作進一步篩選以平衡缺失遺傳率和遺傳率估計過高的問題,從而將最終遺傳模型的解釋率控制到性狀遺傳率。GWAS使用由SNPLDB標記估計的相似系數矩陣的特征向量和合適的顯著水平來提高定位的準確性和功效。
【IPC分類】C12Q1-68, G06F19-18
【公開號】CN104651517
【申請?zhí)枴緾N201510092169
【發(fā)明人】蓋鈞鎰, 賀建波, 孟珊, 管榮展, 趙團結
【申請人】南京農業(yè)大學
【公開日】2015年5月27日
【申請日】2015年3月2日