一種作物育種評價的性狀特征選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及作物育種技術(shù)領(lǐng)域,具體涉及一種作物育種評價的性狀特征選擇方 法。
【背景技術(shù)】
[0002] 作物育種技術(shù)是一種通過改良作物的遺傳特性,選擇培育高產(chǎn)優(yōu)質(zhì)品種的技術(shù)。 作物育種技術(shù)對種植業(yè)生產(chǎn)的發(fā)展具有十分重要的意義,一直以來受到國家、農(nóng)業(yè)部門及 相關(guān)從業(yè)者的廣泛重視。在作物育種中,評價選育品種是否滿足作物育種目標是一個重要 的環(huán)節(jié)。但是作物育種評價總體上還停留在依靠育種家經(jīng)驗為主的階段,缺乏對信息技術(shù) 的使用。
[0003] 在作物育種評價的性狀特征選擇環(huán)節(jié),目前的選擇方法主要包含兩種類型。一是 育種家依經(jīng)驗選擇關(guān)注的重點性狀特征;二是利用統(tǒng)計學的方法分析不同性狀間的相關(guān)程 度,根據(jù)相關(guān)度選擇關(guān)注性狀特征。但是這些方法都未與評價結(jié)果直接進行關(guān)聯(lián)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明所要解決的技術(shù)問題是現(xiàn)有的作物育種評價的性狀特征選擇方法未與評 價結(jié)果直接進行關(guān)聯(lián)的問題。
[0005] 為此目的,本發(fā)明提出一種作物育種評價的性狀特征選擇方法,所述方法包括:
[0006] S1、構(gòu)建作物育種評價數(shù)據(jù)集,所述數(shù)據(jù)集中的每個數(shù)據(jù)均包括:實驗材料編號、 育種目標集合G、性狀特征集合T、所屬實驗e以及實驗結(jié)果r;
[0007] S2、對所述數(shù)據(jù)集中的性狀特征集合T進行預處理,得到預處理后的數(shù)據(jù)集;
[0008] S3、根據(jù)所述預處理后的數(shù)據(jù)集中每個數(shù)據(jù)的育種目標集合G,從所述預處理后的 數(shù)據(jù)集中篩選訓練樣本集及候選性狀特征集合;
[0009] S4、利用所述訓練樣本集中的數(shù)據(jù),計算所述候選性狀特征集合中每個性狀特征 與實驗結(jié)果1之間的相關(guān)性;
[0010] S5、利用所述訓練樣本集中的數(shù)據(jù),計算所述候選性狀特征集合中性狀特征間的 排序相似性;
[0011] S6、根據(jù)所述相關(guān)性以及排序相似性的計算結(jié)果,選擇性狀特征。
[0012] 可選的,所述步驟S2具體包括:
[0013] S21、對所述數(shù)據(jù)集中的性狀特征集合T中的每種性狀進行規(guī)范化處理,所述規(guī)范 化處理包括統(tǒng)一量化方式和/或統(tǒng)一計量單位和/或統(tǒng)一表現(xiàn)形式;
[0014] S22、對經(jīng)過所述規(guī)范化處理之后的性狀特征集合T進行去噪處理;
[0015] S23、對經(jīng)過所述去噪處理之后的性狀特征集合T進行歸一化處理,所述歸一化處 理的公式為:
[0016]
【主權(quán)項】
1. 一種作物育種評價的性狀特征選擇方法,其特征在于,所述方法包括: 51、 構(gòu)建作物育種評價數(shù)據(jù)集,所述數(shù)據(jù)集中的每個數(shù)據(jù)均包括:實驗材料編號、育種 目標集合G、性狀特征集合T、所屬實驗e以及實驗結(jié)果r; 52、 對所述數(shù)據(jù)集中的性狀特征集合T進行預處理,得到預處理后的數(shù)據(jù)集; 53、 根據(jù)所述預處理后的數(shù)據(jù)集中每個數(shù)據(jù)的育種目標集合G,從所述預處理后的數(shù)據(jù) 集中篩選訓練樣本集及候選性狀特征集合; 54、 利用所述訓練樣本集中的數(shù)據(jù),計算所述候選性狀特征集合中每個性狀特征與實 驗結(jié)果1之間的相關(guān)性; 55、 利用所述訓練樣本集中的數(shù)據(jù),計算所述候選性狀特征集合中性狀特征間的排序 相似性; 56、 根據(jù)所述相關(guān)性以及排序相似性的計算結(jié)果,選擇性狀特征。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2具體包括: 521、 對所述數(shù)據(jù)集中的性狀特征集合T中的每種性狀進行規(guī)范化處理,所述規(guī)范化處 理包括統(tǒng)一量化方式和/或統(tǒng)一計量單位和/或統(tǒng)一表現(xiàn)形式; 522、 對經(jīng)過所述規(guī)范化處理之后的性狀特征集合T進行去噪處理; 523、 對經(jīng)過所述去噪處理之后的性狀特征集合T進行歸一化處理,所述歸一化處理的 公式為:
其中,1\為性狀特征集合T中第i個性狀特征,i為不大于性狀特征集合T中元素個數(shù) 的任一正整數(shù),T/為1\經(jīng)歸一化處理后的結(jié)果,min〇\)和max(凡)分別為性狀特征凡的 最小值和最大值。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟S22具體包括: 5221、 將不在預設(shè)的性狀參考值范圍內(nèi)的性狀特征所對應(yīng)的數(shù)據(jù)從所述數(shù)據(jù)集中剔 除; 5222、 將離群性狀特征對應(yīng)的數(shù)據(jù)從所述數(shù)據(jù)集中剔除,所述離群性狀特征為滿足下 式的性狀特征:
其中,^為L的平均值,。為性狀特征L的標準差,K為預設(shè)參數(shù),L為離群性狀特 征,j為不大于性狀特征集合T中元素個數(shù)的任一正整數(shù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3,包括: 531、 從育種目標集合G中選取任一育種目標,獲取所述育種目標對應(yīng)數(shù)據(jù)的集合%; 532、 根據(jù)所述集合%,從性狀特征集合T中獲取性狀特征并集I;; 533、 根據(jù)所述集合%,統(tǒng)計所述性狀特征并集I中性狀特征t^勺數(shù)據(jù)缺失比例Mpi 為不大于所述性狀特征并集L中元素個數(shù)的任一正整數(shù),所述M,滿足: Mf(h為空的數(shù)據(jù)的個數(shù)V(集合D。中元素的個數(shù)); 534、 根據(jù)預設(shè)的數(shù)據(jù)缺失比例閾值MD篩選候選性狀特征集合,所述候選性狀特征集合 1\為{tilMiSMD:}; 535、 根據(jù)所述候選性狀特征集合,統(tǒng)計所述集合%中數(shù)據(jù)dk的性狀特征缺失比例 Mk,k為不大于所述集合%中元素個數(shù)的任一正整數(shù),所述Mk滿足: Mk=(dk對應(yīng)的所述候選性狀特征集合Ti中性狀特征為空的性狀特征個數(shù))八所述候 選性狀特征集合1\中元素的個數(shù)); 536、 根據(jù)預設(shè)的性狀特征缺失比例閾值MT篩選訓練樣本集Di,所述訓練樣本集0:為 {dk|Mk彡MT}; 537、 根據(jù)所述訓練樣本集Di,統(tǒng)計所述候選性狀特征集合中性狀特征tz的數(shù)據(jù)缺失 比例Mz,z為不大于所述候選性狀特征集合中元素個數(shù)的任一正整數(shù),所述Mz滿足: Mz= (tz為空的數(shù)據(jù)的個數(shù)V(所述訓練樣本集Di中元素的個數(shù)); 若所述Mz>所述MD,則將所述訓練樣本集Di命名為D^,將所述候選性狀特征集合1\命 名為I;,重新執(zhí)行步驟S33至S37 ;若所述Mz<所述MD,則得到訓練樣本集Di和候選性狀特 征集合1\。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S4,包括: 541、 根據(jù)所述訓練樣本集Di,得到所屬實驗e的個數(shù)k,并將所述訓練樣本集0:中 的數(shù)據(jù)按所屬實驗e劃分到k個子集,每個子集中的數(shù)據(jù)是同一次實驗的數(shù)據(jù),記為SKp 1 ^i^k; 542、 從所述候選性狀特征集合1\中選擇性狀特征tj; 543、 將所述SKp1 <i<k中的數(shù)據(jù)依據(jù)所述性狀特征\的大小進行排序,將升序排 序結(jié)果記為SK:1,將降序排序結(jié)果記為SK); 544、 根據(jù)實驗結(jié)果r,分別對所述SK〗和SK)中\(zhòng)取值相同的數(shù)據(jù)進行降序微調(diào); 345、根據(jù)所述8^>和81^,分別計算所述51^,1彡1^^中數(shù)據(jù)的性狀特征\與實驗 結(jié)果r的相關(guān)性,計算方法如下式所示:
其中,m是所述SKp1彡i彡k中實驗材料的編號,r(p)是所述SI(p或SK)中第p位 置的實驗材料對應(yīng)的實驗結(jié)果,r*(p)是所述SKp1 <i<k中實驗材料依據(jù)實驗結(jié)果降序 排序時第P位置對應(yīng)的實驗結(jié)果,《 (j,i)依其使用所述SK丨1或SK,1中的排序結(jié)果分別記 為《°(j,i)或wYj,i); S46、計算所述訓練樣本集Di中性狀特征的相關(guān)性《 (j),計算方法如下: ? (j) =max{?0(j),o1。)}
其中,ISKj是SKi中實驗材料的個數(shù); S47、重復步驟S42至S46直至完成所述候選性狀特征集合1\中所有候選性狀特征的 相關(guān)性計算。
6. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S5,包括: 551、 將所述訓練樣本集Di中實驗材料分別按照所述候選性狀特征集合Ti中各性狀特 征進彳T排序; 552、 從所述候選性狀特征集合中任選兩個性狀特征13和tb,所述ta對應(yīng)的實驗材 料序列為Sa,所述tb對應(yīng)的實驗材料序列為sb; 553、 計算所述訓練樣本集0:中所有實驗材料在所述S3和Sb中的位置差值di: di=Sa(i)-Sb(i) 其中,Sa⑴和Sb⑴分別為所述訓練樣本集Di中第i個實驗材料在SJPSb中的位置; 554、 計算所述性狀特征、和tb的相似性:
其中,n是所述訓練樣本集0:中數(shù)據(jù)的個數(shù)。 555、 重復步驟S52至S54直至完成所有候選性狀特征對的相似性計算。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S6,包括: 561、 以所述候選性狀特征集合中各性狀特征為頂點,各性狀特征的相關(guān)性為頂點權(quán) 重,頂點之間邊的權(quán)重為所述頂點之間的相似性,構(gòu)建無向圖心; 562、 構(gòu)建已選性狀特征集合TS,使用空集進行初始化,即TS〇=0; 563、 從所述無向圖G。中選擇權(quán)重最大的頂點vk; 564、 依vk與其它頂點間邊的權(quán)重,更新無向圖G^中其它頂點權(quán)重值,具體更新方法如 下式所示: ?』一《j_Sim(k,j)X2c,j辛k 565、 將vk從所述無向圖中移至所述已選性狀特征集合TS: TSi+1=TSiU{vk} Gi+i=GAW 566、 判斷所述已選性狀特征集合TS中是否已有預設(shè)個數(shù)的性狀特征,若有,則將當前 集合TSjt為結(jié)果輸出;若不足,則重復步驟S63至S65,繼續(xù)選擇新特征。
【專利摘要】本發(fā)明公開一種作物育種評價的性狀特征選擇方法,該方法包括:S1、構(gòu)建作物育種評價數(shù)據(jù)集,數(shù)據(jù)集中的每個數(shù)據(jù)均包括:實驗材料編號、育種目標集合G、性狀特征集合T、所屬實驗e以及實驗結(jié)果r;S2、對數(shù)據(jù)集中的性狀特征集合T進行預處理;S3、根據(jù)預處理后的數(shù)據(jù)集中每個數(shù)據(jù)的育種目標集合G,從預處理后的數(shù)據(jù)集中篩選訓練樣本集及候選性狀特征集合;S4、利用訓練樣本集中的數(shù)據(jù),計算候選性狀特征集合中每個性狀特征與實驗結(jié)果r之間的相關(guān)性;S5、利用訓練樣本集中的數(shù)據(jù),計算候選性狀特征集合中性狀特征間的排序相似性;S6、根據(jù)相關(guān)性以及排序相似性的計算結(jié)果,選擇性狀特征。
【IPC分類】G06F17-30
【公開號】CN104572900
【申請?zhí)枴緾N201410827260
【發(fā)明人】趙向宇, 劉忠強, 黃珊, 王開義, 劉超
【申請人】北京農(nóng)業(yè)信息技術(shù)研究中心
【公開日】2015年4月29日
【申請日】2014年12月25日