專利名稱:玉米良種選育方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種玉米良種選育方法。
背景技術(shù):
原始的數(shù)據(jù)難以直接地應(yīng)用到數(shù)據(jù)挖掘的處理過程中,需在分析之前將數(shù)據(jù)進(jìn)行某種變換,以轉(zhuǎn)換成對算法有用的特征,這個步驟就叫做原始數(shù)據(jù)集的準(zhǔn)備和變換。它廣泛地應(yīng)用于數(shù)據(jù)挖掘的各個環(huán)節(jié)中,是較為重要的一步。傳統(tǒng)的處理手段有很多,有簡單的變換操作,例如變量的標(biāo)準(zhǔn)化、離散化等;有基于降維的特征提取、選擇和構(gòu)造方法,例如主成分分析法(PCA)、非線性區(qū)別分析、Kohonen匹配、Sammon投影等;有結(jié)合其他領(lǐng)域知識的處理方法,例如分形技術(shù)、聚類和支持向量機等??梢姅?shù)據(jù)的預(yù)處理步驟方法眾多,適用范圍廣泛。 聚類是一種常見的數(shù)據(jù)挖掘分析工具,它基于“物以類聚”的思想,把大量數(shù)據(jù)點的集合分成若干類或簇,使得每個類中的數(shù)據(jù)之間最大程度地相似,而不同類中的數(shù)據(jù)最大程度地不同。聚類分析屬于一種無指導(dǎo)的學(xué)習(xí)方法,它的一個突出特點是能處理大型復(fù)雜的數(shù)據(jù)集,而且可作為其他算法的預(yù)處理步驟。傳統(tǒng)的聚類方法可分為四個方面基于劃分、層次、密度和網(wǎng)格的聚類方式。常見的經(jīng)典算法包括K-MEANS劃分算法;CURE[1]、BIRCH、CHAMELEON 層次算法;DBSCAN密度算法;STING、WaVeCluSter、CLIQUE網(wǎng)格算法等。其中,K-MEANS算法簡單易懂,不需要繁復(fù)的先驗條件,且對于小規(guī)模數(shù)據(jù)的聚類效果較好;CURE算法采用了固定數(shù)目個樣本點代表簇類,可捕捉任意形狀的樣本集;BIRCH算法對于統(tǒng)一大小的凸面和球狀數(shù)據(jù)集較為有效,但對部分參數(shù)敏感;DBSCAN算法靈活,無需知道聚類數(shù)目,對于噪聲和高維數(shù)據(jù)的處理效果較好,只是對密度參數(shù)等較為敏感;STING算法多用于其它算法的并行處理步驟,可提高算法的處理效率…由此可見,傳統(tǒng)的聚類算法在伸縮性能、數(shù)據(jù)類型的處理、參數(shù)的敏感、發(fā)現(xiàn)的簇類形狀等方面都或多或少地存在一些缺陷,而且在處理日趨增長的高維數(shù)據(jù)方面也遇到了一定的瓶頸。因此,改進(jìn)傳統(tǒng)的聚類算法,注入新鮮的領(lǐng)域知識,形成現(xiàn)代的聚類方法,對于我們處理大規(guī)模的高維數(shù)據(jù)是必不可少的。例如,基于模型的COBWEB統(tǒng)計模型、神經(jīng)網(wǎng)絡(luò)模型以及超圖模型、基于譜圖的譜聚類方法、針對流數(shù)據(jù)的聚類方法以及結(jié)合其他領(lǐng)域知識所得的聚類方法(基于遺傳算法的蟻群算法和人工魚群算法、基于模糊理論的模糊聚類算法等)。每種聚類算法都有自己的優(yōu)缺點和適用環(huán)境,所以我們在選擇聚類算法時,需針對具體的目標(biāo)要求和自身特點,選擇最適合的聚類算法,以便我們能挖掘出潛在的有用規(guī)律。決策樹算法作為分類方法的一個分支,是應(yīng)用較為廣泛的邏輯方法之一,其最大優(yōu)點就是在學(xué)習(xí)過程中不需要太多背景知識,只需通過分類信息即可訓(xùn)樣本,并用屬性-結(jié)論的形式表示出來。這種類似于流程圖的表述,能直觀地反映出數(shù)據(jù)的特征關(guān)系。對于不需太多專家知識的數(shù)據(jù)集來說,運用決策樹算法對數(shù)據(jù)集進(jìn)行分析,效果較好。目前較為著名的有ID3、C4. 5、CART、SLIQ、SPRINT、CHAID等。但這些算法或多或少都存在一些問題,比如采用信息增益的方式會導(dǎo)致屬性偏向的問題;屬性劃分時最優(yōu)閾值的確定;建樹過程不能回溯,只能尋找局部最優(yōu)結(jié)果;不同的剪枝策略會導(dǎo)致不同的決策樹等。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種簡便、效果好的玉米良種選育方法。本發(fā)明的技術(shù)解決方案是一種玉米良種選育方法,其特征是包括下列步驟(I)選取樣本集選取原始玉米樣本集中的多個子類玉米、多個重要屬性作為分析對象,以應(yīng)用融合的數(shù)據(jù)挖掘算法;(2)橫向降維I)標(biāo)準(zhǔn)化所選樣本集;2)計算所選擇的多個屬性的相關(guān)系數(shù)矩陣,分析相關(guān)系數(shù)矩陣,并標(biāo)記關(guān)聯(lián)屬性集Ml ;3)通過計算系數(shù)因子,可得到主成分的前幾列系數(shù)矩陣,并標(biāo)記關(guān)聯(lián)屬性集M2 ;4)合并關(guān)聯(lián)屬性集Ml、M2中相關(guān)的集合,得到幾組相關(guān)性較強的屬性組,且每一組屬性組中的屬性也分別高關(guān)聯(lián);5)根據(jù)所得的關(guān)聯(lián)屬性組,選擇相應(yīng)的主成分式子,并根據(jù)屬性在主成分式子中的系數(shù)因子,確定該屬性在相應(yīng)成分中所占的比重,作為權(quán)重,可得新的特征值集合,用于后續(xù)算法的處理;(3)縱向約簡I)異常點檢測;檢測新的特征集中超過[_1.5,1.5]范圍的特殊樣本點,并進(jìn)行異常分析;2)劃分網(wǎng)格;利用網(wǎng)格技術(shù),選擇劃分參數(shù),對新形成的特征集合進(jìn)行網(wǎng)格劃分,代替原先的等份劃分;3)改進(jìn)的 k-means 方法;分別對劃分的網(wǎng)格中的數(shù)據(jù)點進(jìn)行改進(jìn)的k-means進(jìn)行聚類;該改進(jìn)k_means算法如下首先通過最遠(yuǎn)距離來實現(xiàn)初始聚類中心的選擇,其次再對數(shù)據(jù)集進(jìn)行傳統(tǒng)k-means算法的聚類。這樣的聚類方法計算量小,迭代次數(shù)少,且能有效地緩解聚類中心選取的盲目性,提高算法的聚類精度。通過引入該k-means算法進(jìn)行小范圍的局部聚類,不僅可以充分發(fā)揮k-means算法對于小規(guī)模數(shù)據(jù)聚類的效果,而且能降低運算消耗量,較好地實現(xiàn)局部聚類的效果。4)合并局部簇類,形成最終的聚類結(jié)果。對于網(wǎng)格中聚類得到的很多小的簇類,采用原始CURE聚類算法的merge方法,用固定數(shù)目個代表點代替原始單一的數(shù)據(jù)點,通過堆這一數(shù)據(jù)結(jié)構(gòu)查找最近的簇類,進(jìn)而合并上一步得到的小型簇類,得到最終的聚類結(jié)果;(4)分類預(yù)測I)輸入判斷屬性;
輸入一個玉米判斷屬性,對此樣本點進(jìn)行橫向降維處理,得到新的特征值組,對樣本點進(jìn)行后續(xù)的決策樹分析;2)確定分類屬性;3)設(shè)置默認(rèn)的規(guī)模閾值;4)連續(xù)屬性離散化;將特征值按數(shù)值由小到大排序,當(dāng)對應(yīng)樣本的分類屬性發(fā)生變化時,則將上下兩個樣本極為劃分點。通過計算每個劃分點的期望,找出值最小的劃分點,則可確定為最優(yōu)劃分閾值;5)決策樹根節(jié)點的確定;A.按C4. 5分類規(guī)則進(jìn)行根節(jié)點的確定;6)最終決策樹的建立;按照第4、5步的方法,繼續(xù)建立決策樹的下層子樹,直到所有的樣本點都分類完畢為止,由此可得最終的分類決策樹;7)最優(yōu)玉米雙親的確定根據(jù)最終的決策樹模型,根據(jù)歐幾里德距離,選擇與該樣本點最為相似的一個玉米品種,并將該品種的父類玉米作為培育良種的最優(yōu)雙親。根據(jù)原始玉米樣本集的基本特點以及不同數(shù)據(jù)挖掘算法的適用環(huán)境,提出了一種融合的數(shù)據(jù)挖掘算法。該算法由三種方法構(gòu)成降維、聚類和決策樹,且可分別實現(xiàn)屬性的降維、屬性的約簡以及樣本的分類預(yù)測功能。其結(jié)構(gòu)圖如圖1。為了避免不同量綱以及研究對象對方法融合的影響,該融合算法分別選擇了 PCA、CURE和C4. 5算法,并進(jìn)行了相應(yīng)的改進(jìn)。1. PCA算法改進(jìn)的主要思想包括以下兩個方面(I)關(guān)聯(lián)屬性的確定在PCA中,特征值的貢獻(xiàn)率大小可以代表屬性包含原始信息的重要程度,體現(xiàn)屬性與目標(biāo)之間的關(guān)系,而相關(guān)系數(shù)則顯示了屬性與屬性之間的關(guān)聯(lián)程度。若能結(jié)合特征值、特征向量和相關(guān)系數(shù),則可有效地選擇出對目標(biāo)有益的重要屬性,降低特征的冗余度,實現(xiàn)數(shù)據(jù)集的橫向降維。(2)特征集的描述這里綜合考慮了特征向量以及相關(guān)系數(shù)所得的關(guān)聯(lián)屬性組,以確定出合適的關(guān)聯(lián)屬性,并將這些關(guān)聯(lián)屬性在主成分中所占的比重作為權(quán)重信息引入,從而簡化主成分的表達(dá)式,形成新的與目標(biāo)相關(guān)聯(lián)的特征集,降低屬性的冗余度。2.⑶RE算法改進(jìn)的主要思想包括以下兩個方面(I)異常點檢測由于對數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化和權(quán)重處理后,數(shù)據(jù)基本上集中在[-1. 5,1. 5]范圍內(nèi)。若是屬性值超過此范圍,則證明這個樣本點是異常的。(2)局部劃分的聚類算法改進(jìn)原始的局部聚類算法是在每個等分劃分的范圍內(nèi),選擇固定數(shù)目個代表點,分別進(jìn)行⑶RE算法聚類的。這么做雖然能確保局部劃分的聚類效率,但也導(dǎo)致了整個運算量的增大。由此,在局部范圍內(nèi),引入一種改進(jìn)的k-means算法,即可改善這一問題。通過引入該k-means算法進(jìn)行小范圍的局部聚類,不僅可以充分發(fā)揮k-means算法對于小規(guī)模數(shù)據(jù)聚類的效果,而且能降低運算消耗量,較好地實現(xiàn)局部聚類的效果。3. C4. 5算法改進(jìn)的主要思想包括以下兩個方面(I)重要屬性的選擇當(dāng)樣本集規(guī)模過大時,可將樣本均勻劃分至三個分類器中同時進(jìn)行重要屬性的選擇,其度量方法依次為C4. 5方法、gin1-1ndex和x 2統(tǒng)計。(2)連續(xù)屬性最優(yōu)閾值的劃分傳統(tǒng)算法在處理連續(xù)屬性最優(yōu)閥值劃分的問題上,大多采用自定義的動態(tài)劃分,或者通過對原始屬性值進(jìn)行排序,確定所有可能的閾值,并選擇增益最大的劃分來對相應(yīng)的屬性進(jìn)行離散化的。但是,前者準(zhǔn)確性不高,后者計算復(fù)雜度較高。這對我們處理數(shù)據(jù)帶來了較大困難。由此,我們可根據(jù)文獻(xiàn)提到的閥值劃分方法,簡化閾值的確定,并通過計算每個分界點的信息增益,找出最優(yōu)的閥值,來離散化相應(yīng)的連續(xù)屬性。本發(fā)明方法簡便,極大的減少了人工良種選育中勞動強度,提高了玉米良種選育的決策效率和準(zhǔn)確性。
下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步說明。圖1是融合數(shù)據(jù)挖掘算法的結(jié)構(gòu)圖。圖2是最終決策樹不意圖。
具體實施例方式一種玉米良種選育方法,包括下列步驟(I)選取樣本集選取原始玉米樣本集中的多個子類玉米、多個重要屬性作為分析對象,以應(yīng)用融合的數(shù)據(jù)挖掘算法;(2)橫向降維I)標(biāo)準(zhǔn)化所選樣本集;2)計算所選擇的多個屬性的相關(guān)系數(shù)矩陣,分析相關(guān)系數(shù)矩陣,并標(biāo)記關(guān)聯(lián)屬性集Ml ;3)通過計算系數(shù)因子,可得到主成分的前幾列系數(shù)矩陣,并標(biāo)記關(guān)聯(lián)屬性集M2 ;4)合并關(guān)聯(lián)屬性集Ml、M2中相關(guān)的集合,得到幾組相關(guān)性較強的屬性組,且每一組屬性組中的屬性也分別高關(guān)聯(lián);5)根據(jù)所得的關(guān)聯(lián)屬性組,選擇相應(yīng)的主成分式子,并根據(jù)屬性在主成分式子中的系數(shù)因子,確定該屬性在相應(yīng)成分中所占的比重,作為權(quán)重,可得新的特征值集合,用于后續(xù)算法的處理;(3)縱向約簡I)異常點檢測;檢測新的特征集中超過[_1.5,1.5]范圍的特殊樣本點,并進(jìn)行異常分析;
2)劃分網(wǎng)格;利用網(wǎng)格技術(shù),選擇劃分參數(shù),對新形成的特征集合進(jìn)行網(wǎng)格劃分,代替原先的等份劃分;3)改進(jìn)的 k-means 方法;分別對劃分的網(wǎng)格中的數(shù)據(jù)點進(jìn)行改進(jìn)的k-means進(jìn)行聚類;該改進(jìn)k-means算法如下首先通過最遠(yuǎn)距離來實現(xiàn)初始聚類中心的選擇,其次再對數(shù)據(jù)集進(jìn)行傳統(tǒng)k-means算法的聚類。這樣的聚類方法計算量小,迭代次數(shù)少,且能有效地緩解聚類中心選取的盲目性,提高算法的聚類精度。通過引入該k-means算法進(jìn)行小范圍的局部聚類,不僅可以充分發(fā)揮k-means算法對于小規(guī)模數(shù)據(jù)聚類的效果,而且能降低運算消耗量,較好地實現(xiàn)局部聚類的效果。4)合并局部簇類,形成最終的聚類結(jié)果。對于網(wǎng)格中聚類得到的很多小的簇類,采用原始CURE聚類算法的merge方法,用固定數(shù)目個代表點代替原始單一的數(shù)據(jù)點,通過堆 這一數(shù)據(jù)結(jié)構(gòu)查找最近的簇類,進(jìn)而合并上一步得到的小型簇類,得到最終的聚類結(jié)果;(4)分類預(yù)測I)輸入判斷屬性;輸入一個玉米判斷屬性,對此樣本點進(jìn)行橫向降維處理,得到新的特征值組,對樣本點進(jìn)行后續(xù)的決策樹分析;2)確定分類屬性;3)設(shè)置默認(rèn)的規(guī)模閾值;4)連續(xù)屬性離散化;將特征值按數(shù)值由小到大排序,當(dāng)對應(yīng)樣本的分類屬性發(fā)生變化時,則將上下兩個樣本極為劃分點。通過計算每個劃分點的期望,找出值最小的劃分點,則可確定為最優(yōu)劃分閾值;5)決策樹根節(jié)點的確定;B.按C4. 5分類規(guī)則進(jìn)行根節(jié)點的確定;6)最終決策樹的建立;按照第4、5步的方法,繼續(xù)建立決策樹的下層子樹,直到所有的樣本點都分類完畢為止,由此可得最終的分類決策樹;7)最優(yōu)玉米雙親的確定根據(jù)最終的決策樹模型,根據(jù)歐幾里德距離,選擇與該樣本點最為相似的一個玉米品種,并將該品種的父類玉米作為培育良種的最優(yōu)雙親。各部分算法描述(I) PCA算法步驟具體描述I)標(biāo)準(zhǔn)化原始數(shù)據(jù)集;2)計算數(shù)據(jù)集的相關(guān)系數(shù)矩陣,并找出關(guān)聯(lián)性較大的屬性集合,標(biāo)記為Ml ;其中計算屬性X與I的相關(guān)系數(shù)公式如下所示
「 Σ(Λ·-復(fù)卜·》)(Λ 1、
Πr\ Π I /1 ****** I I
J """'i ,-J """i ,x, y為屬性值, , i分別為屬性值X與y的均值。
3)計算出原始數(shù)據(jù)集的特征值和貢獻(xiàn)率的大小,確定主成分的個數(shù),同時計算出主成分中各成分的系數(shù)因子pu,即主要特征值對應(yīng)的不同特征向量。通過分析主成分中系數(shù)因子的大小,即可找出每個主成分中的重要關(guān)聯(lián)屬性,將它們歸為一類,并記作M2;4)綜合考慮標(biāo)記的主要屬性和關(guān)聯(lián)性較大的屬性,即可智能化地確定出所需考慮的主要屬性有哪些,原則如下若Ml和M2中有2個或兩個以上的相同的屬性,就合并這一組關(guān)聯(lián)屬性,若少于2個,將這組關(guān)聯(lián)屬性單獨作為一組考慮。未出現(xiàn)的屬性即可不做考慮。5)將所得關(guān)聯(lián)屬性的成分系數(shù)因子所占的比重作為權(quán)重引入,以形成新的特征集。公式如下
權(quán)利要求
1.一種玉米良種選育方法,其特征是包括下列步驟(1)選取樣本集選取原始玉米樣本集中的多個子類玉米、多個重要屬性作為分析對象,以應(yīng)用融合的數(shù)據(jù)挖掘算法;(2)橫向降維1)標(biāo)準(zhǔn)化所選樣本集;2)計算所選擇的多個屬性的相關(guān)系數(shù)矩陣,分析相關(guān)系數(shù)矩陣,并標(biāo)記關(guān)聯(lián)屬性集Ml ;3)通過計算系數(shù)因子,可得到主成分的前幾列系數(shù)矩陣,并標(biāo)記關(guān)聯(lián)屬性集M2;4)合并關(guān)聯(lián)屬性集Ml、M2中相關(guān)的集合,得到幾組相關(guān)性較強的屬性組,且每一組屬性組中的屬性也分別高關(guān)聯(lián);5)根據(jù)所得的關(guān)聯(lián)屬性組,選擇相應(yīng)的主成分式子,并根據(jù)屬性在主成分式子中的系數(shù)因子,確定該屬性在相應(yīng)成分中所占的比重,作為權(quán)重,可得新的特征值集合,用于后續(xù)算法的處理;(3)縱向約簡1)異常點檢測;檢測新的特征集中超過[-1.5,1. 5]范圍的特殊樣本點,并進(jìn)行異常分析;2)劃分網(wǎng)格;利用網(wǎng)格技術(shù),選擇劃分參數(shù),對新形成的特征集合進(jìn)行網(wǎng)格劃分,代替原先的等份劃分;3)改進(jìn)的k-means方法,分別對劃分的網(wǎng)格中的數(shù)據(jù)點進(jìn)行改進(jìn)的k_means進(jìn)行聚類;該改進(jìn)k-means算法如下首先通過最遠(yuǎn)距離來實現(xiàn)初始聚類中心的選擇,其次再對數(shù)據(jù)集進(jìn)行傳統(tǒng)k-means算法的聚類;4)合并局部簇類,形成最終的聚類結(jié)果。對于網(wǎng)格中聚類得到的很多小的簇類,采用原始CURE聚類算法的merge方法,用固定數(shù)目個代表點代替原始單一的數(shù)據(jù)點,通過堆這一數(shù)據(jù)結(jié)構(gòu)查找最近的簇類,進(jìn)而合并上一步得到的小型簇類,得到最終的聚類結(jié)果;(4)分類預(yù)測1)輸入判斷屬性;輸入一個玉米判斷屬性,對此樣本點進(jìn)行橫向降維處理,得到新的特征值組,對樣本點進(jìn)行后續(xù)的決策樹分析;2)確定分類屬性;3)設(shè)置默認(rèn)的規(guī)模閾值;4)連續(xù)屬性離散化;將特征值按數(shù)值由小到大排序,當(dāng)對應(yīng)樣本的分類屬性發(fā)生變化時,則將上下兩個樣本極為劃分點。通過計算每個劃分點的期望,找出值最小的劃分點,則可確定為最優(yōu)劃分閾值;5)決策樹根節(jié)點的確定;A.按C4. 5分類規(guī)則進(jìn)行根節(jié)點的確定;6)最終決策樹的建立;按照第4、5步的方法,繼續(xù)建立決策樹的下 層子樹,直到所有的樣本點都分類完畢為止,由此可得最終的分類決策樹;7)最優(yōu)玉米雙親的確定根據(jù)最終的決策樹模型,根據(jù)歐幾里德距離,選擇與該樣本點最為相似的一個玉米品種,并將該品種的父類玉米作為培育良種的最優(yōu)雙親。
全文摘要
本發(fā)明公開了一種玉米良種選育方法,包括選取樣本集、橫向降維、縱向約簡、分類預(yù)測等步驟。本發(fā)明方法簡便,極大的減少了人工良種選育中勞動強度,提高了玉米良種選育的決策效率和準(zhǔn)確性。
文檔編號G06Q50/02GK103020864SQ201210521228
公開日2013年4月3日 申請日期2012年12月7日 優(yōu)先權(quán)日2012年12月7日
發(fā)明者邱建林, 顧翔, 陳建平, 季丹, 陳燕云, 卞彩峰 申請人:南通大學(xué)