基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法
【專利摘要】本發(fā)明公開了一種基于模型集群分析思想適用于支持向量機(jī)的變量選擇方法,其通過蒙特卡洛采樣從全光譜數(shù)據(jù)矩陣中獲取子數(shù)據(jù)集,針對(duì)每個(gè)子數(shù)據(jù)集建立一個(gè)SVM子模型并預(yù)測(cè)分類,然后使用Mann-WhitneyU檢驗(yàn)對(duì)所有子模型的預(yù)測(cè)正確率進(jìn)行統(tǒng)計(jì)分析,挑選出對(duì)模型預(yù)測(cè)能力有顯著作用的有用變量。該方法不以一次性建模結(jié)果為依據(jù),而是通過有放回的重采樣最大限度地有效利用數(shù)據(jù)信息,充分考察數(shù)據(jù)集中各變量間的內(nèi)在關(guān)系,對(duì)不同結(jié)果的統(tǒng)計(jì)分布進(jìn)行分析,因此具有更好的普遍性和穩(wěn)定性。
【專利說明】基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,屬于光譜分析【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]激光誘導(dǎo)擊穿光譜(laser-1nducedbreakdown spectroscopy, LIBS)是一種基于原子發(fā)射光譜的檢測(cè)物質(zhì)組分與含量的分析技術(shù)。強(qiáng)激光脈沖聚焦在樣品上形成等離子體,在等離子體冷卻過程中,樣品中處于激發(fā)態(tài)的原子和離子向低能級(jí)或基態(tài)躍遷產(chǎn)生特定頻率的特征發(fā)射譜線。LIBS分析簡便、快速,不需要樣品預(yù)處理并能同時(shí)進(jìn)行多元素測(cè)定,因此在多個(gè)領(lǐng)域被廣泛應(yīng)用。由于特征發(fā)射譜線和被測(cè)樣品的元素組成成分之間有著一一對(duì)應(yīng)的關(guān)系,因此根據(jù)不同種類物質(zhì)LIBS光譜的特征譜線,借助化學(xué)計(jì)量學(xué)方法能夠判別物質(zhì)所屬類別從而實(shí)現(xiàn)對(duì)物質(zhì)的分類,即化學(xué)模式識(shí)別。
[0003]支持向量機(jī)(Support vector machine, SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法。它以訓(xùn)練誤差作為優(yōu)化問題的約束條件,以置信范圍值最小化作為優(yōu)化目標(biāo),即SVM是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的學(xué)習(xí)方法,其推廣能力明顯優(yōu)于基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的傳統(tǒng)機(jī)器學(xué)習(xí)方法。支持向量機(jī)通過引入核函數(shù)將輸入樣本空間非線性映射到新的高維特征空間,在高維空間中進(jìn)行相應(yīng)的線性操作,從而實(shí)現(xiàn)非線性關(guān)系向線性關(guān)系的轉(zhuǎn)化,在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)。因此將支持向量機(jī)和激光誘導(dǎo)擊穿光譜技術(shù)相結(jié)合能夠很好地對(duì)物質(zhì)進(jìn)行判別分類。
[0004]通常LIBS光譜都是高維數(shù)據(jù),而且在光譜中存在大量的無用變量。這些無用變量主要是噪音和測(cè)試中的波動(dòng)信號(hào),與元素成分組成沒有關(guān)系,對(duì)判別分析也沒有幫助。因此使用全光譜會(huì)影響到分類效果,同時(shí)過大的數(shù)據(jù)量對(duì)計(jì)算成本也提出了很高的要求,不利于現(xiàn)場(chǎng)快速分析。另一方面,全光譜中包含測(cè)試環(huán)境中的大量信息,這些信息也會(huì)對(duì)建模分類產(chǎn)生影響。當(dāng)測(cè)試環(huán)境改變時(shí),環(huán)境信息也會(huì)變化從而嚴(yán)重影響分類模型的穩(wěn)定性。因此使用一種專屬于支持向量機(jī)的變量選擇方法將光譜中真正能夠代表物質(zhì)成分特征并對(duì)分類有重要作用的變量挑選出來就顯得很有必要了。
[0005]但目前還沒有一種普遍能被接受和認(rèn)可并適用于支持向量機(jī)的變量選擇方法,傳統(tǒng)的遺傳算法、粒子群算法等優(yōu)化算法雖然也能用于提取變量,但這些算法計(jì)算繁瑣、耗時(shí)較長,還需要設(shè)置大量初始參數(shù),而且容易出現(xiàn)局部最優(yōu)解。本發(fā)明提出的基于模型集群分析的變量選擇方法通過重采樣對(duì)各種變量組合情況統(tǒng)計(jì)分析,直接分析各變量對(duì)預(yù)測(cè)結(jié)果的影響,不會(huì)陷入局部最優(yōu)解,且原理簡單,計(jì)算速度快,結(jié)果穩(wěn)定可靠。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是使用一種基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法來挑選真正能夠代表物質(zhì)成分特征并對(duì)分類效果有促進(jìn)作用的有用變量,避免噪音、環(huán)境信息、冗余數(shù)據(jù)等無用變量對(duì)分類的影響,同時(shí)大大減少數(shù)據(jù)量,顯著降低計(jì)算成本。[0007]為實(shí)現(xiàn)上述目的本發(fā)明采用的技術(shù)方案是:
一種基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,包括以下步驟:
(1)利用激光誘導(dǎo)擊穿光譜系統(tǒng)對(duì)不同牌號(hào)的鋼材樣品分別在不同的測(cè)量位點(diǎn)進(jìn)行光譜數(shù)據(jù)采集獲得全光譜數(shù)據(jù);
(2)對(duì)全光譜數(shù)據(jù)矩陣進(jìn)行蒙特卡洛采樣
將全光譜波段劃分為若干變量,每個(gè)變量為包含一定波長點(diǎn)數(shù)的波段,對(duì)于全光譜數(shù)據(jù)Xnixn,其中m為光譜個(gè)數(shù),η為變量數(shù),每次采樣無放回地從Xnixn中抽取s個(gè)光譜和q個(gè)變量組成一個(gè)子數(shù)據(jù)矩陣RsXq,從Xmxn余下的數(shù)據(jù)中抽取同樣的q個(gè)變量組成T (m_s) Xq,重復(fù)進(jìn)行N次采樣可得到N個(gè)子數(shù)據(jù)矩陣;
(3)子數(shù)據(jù)矩陣建模分類
將每個(gè)經(jīng)蒙特卡洛采樣得到的子數(shù)據(jù)矩陣Rsxq作為訓(xùn)練集,對(duì)應(yīng)的T (ffl_s)Xq作為測(cè)試集,用一種改進(jìn)的支持向量機(jī)分類方法——組合模型——對(duì)訓(xùn)練集建立子模型,然后用測(cè)試集預(yù)測(cè)分類并計(jì)算預(yù)測(cè)正確率;最后N次采樣共得到N個(gè)子模型和N個(gè)預(yù)測(cè)正確率;
(4)挑選候選有用變量
對(duì)每一個(gè)變量依次進(jìn)行統(tǒng)計(jì)分析檢驗(yàn)其是否是有用變量,對(duì)于變量i,將N個(gè)子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為兩組:包含變量i的子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為A組,不包含變量i的子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為B組;兩組預(yù)測(cè)正確率的平均值之差Dmeani=MeanijA-Meani;B,如果DmeaniX),則將變量i作為候選有用變量,否則變量i被認(rèn)為是無用變量;
(5)通過無參數(shù)檢驗(yàn)確定真實(shí)有用變量
如果變量i是候選有用變量,利用Mann-Whitney U檢驗(yàn)變量i的A組預(yù)測(cè)正確率和B組預(yù)測(cè)正確率進(jìn)行分析并計(jì)算P值,如果P值小于預(yù)設(shè)閾值,則認(rèn)為變量i是真正有用變量,否則判定變量i為無用變量。
[0008]上述步驟(2)中進(jìn)行蒙特卡洛采樣時(shí)需要確定三個(gè)參數(shù),蒙特卡洛采樣次數(shù)N,每次采樣抽取光譜個(gè)數(shù)s和每次采樣抽取變量個(gè)數(shù)q,為了充分獲取各種變量組合的情況,N越大越好,但考慮到計(jì)算成本,N通常為5000—10000,s值取光譜總數(shù)m的1/2—2/3,q值往往會(huì)對(duì)預(yù)測(cè)結(jié)果造成影響,因此設(shè)置一系列取值范圍,通過對(duì)比選擇最適合本組數(shù)據(jù)的q值,通常q值的取值范圍為5-500。
[0009]上述步驟(3)中,所述的組合模型先將數(shù)據(jù)進(jìn)行一對(duì)多建模模糊分類篩選出候選類別,然后在候選類別范圍內(nèi)進(jìn)行一對(duì)一精細(xì)分類,通過循環(huán)迭代,逐步縮小候選類別,最終確定預(yù)測(cè)類別。
[0010]上述在步驟(5)中,利用Mann-Whitney U檢驗(yàn)對(duì)A組預(yù)測(cè)正確率和B組預(yù)測(cè)正確率進(jìn)行統(tǒng)計(jì)分析,其中P值是評(píng)估兩組預(yù)測(cè)正確率是否有顯著性差異的參數(shù),當(dāng)P值小于預(yù)設(shè)閾值,說明變量i的加入對(duì)預(yù)測(cè)能力有顯著提高,是真正有用變量,否則認(rèn)為變量i對(duì)模型預(yù)測(cè)沒有影響或者有消極影響,是無用變量,其中閾值通常為0.01-0.05。
[0011 ] 本發(fā)明的優(yōu)點(diǎn)與積極效果:
(I)本發(fā)明基于模型集群分析思想,通過蒙特卡洛采樣獲得子模型,對(duì)子模型進(jìn)行建模,然后統(tǒng)計(jì)分析模型預(yù)測(cè)正確率的分布得出結(jié)果,通過隨機(jī)重采樣計(jì)算得到穩(wěn)定結(jié)果比一次性建模分析的結(jié)果更具有可靠性和普遍性;(2)使用一種改進(jìn)的支持向量機(jī)分類方法:組合模型。先將數(shù)據(jù)進(jìn)行一對(duì)多建模模糊分類篩選出候選類別,避免無用類別的干擾。然后在候選類別范圍內(nèi)進(jìn)行一對(duì)一精細(xì)分類,由于沒有無用類別的干擾,而且一對(duì)一分類考慮到所有候選類別間的差異,通過循環(huán)迭代,逐步縮小候選類別,最終確定預(yù)測(cè)結(jié)果,因此模型預(yù)測(cè)能力被顯著提高;
(3)通過Mann-WhitneyU檢驗(yàn)統(tǒng)計(jì)分析各種變量組合對(duì)模型預(yù)測(cè)的影響,挑選出能夠顯著性提高模型預(yù)測(cè)能力的變量,這樣得到的結(jié)果相比于傳統(tǒng)尋優(yōu)算法是具有統(tǒng)計(jì)學(xué)意義,且不會(huì)陷入局部最優(yōu)解的情況。
【專利附圖】
【附圖說明】
[0012]圖1是本發(fā)明操作流程圖;
圖2是有用變量和無用變量預(yù)測(cè)正確率分布圖;
圖3是不同q值時(shí)本專利選擇變量的預(yù)測(cè)正確率;
圖4是實(shí)例中鋼鐵樣品20#的LIBS全光譜圖;
圖5是只包含有用變量的20#LIBS光譜圖。
【具體實(shí)施方式】
[0013]如圖1所示,本發(fā)明基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法包括以下步驟:
(I)利用激光誘導(dǎo)擊穿光譜系統(tǒng)對(duì)不同牌號(hào)的鋼材樣品分別在不同的測(cè)量位點(diǎn)進(jìn)行光譜數(shù)據(jù)采集獲得全光譜數(shù)據(jù)。
`[0014](2)對(duì)全光譜數(shù)據(jù)矩陣進(jìn)行蒙特卡洛采樣
將全光譜波段劃分為若干變量,每個(gè)變量為包含一定波長點(diǎn)數(shù)的波段,對(duì)于全光譜數(shù)據(jù)Xnixn,其中m為光譜個(gè)數(shù),η為變量數(shù),每次采樣無放回地從Xnixn中抽取S個(gè)光譜和q個(gè)變量組成一個(gè)子數(shù)據(jù)矩陣RsXq,從Xmxn余下的數(shù)據(jù)中抽取同樣的q個(gè)變量組成T (m_s) Xq,重復(fù)進(jìn)行N次采樣可得到N個(gè)子數(shù)據(jù)矩陣。此步驟需要確定三個(gè)參數(shù):蒙特卡洛采樣次數(shù)N,每次采樣抽取光譜個(gè)數(shù)s和每次采樣抽取變量個(gè)數(shù)q。為了充分獲取各種變量組合的情況,N越大越好,但考慮到計(jì)算成本,N通常為5000—10000,s值取光譜總數(shù)m的1/2—2/3,q值往往會(huì)對(duì)預(yù)測(cè)結(jié)果造成影響,因此設(shè)置一系列取值范圍,通過對(duì)比選擇最適合本組數(shù)據(jù)的q值,通常q值的取值范圍為5-500。
[0015](3)子數(shù)據(jù)矩陣建模分類
將每個(gè)經(jīng)蒙特卡洛采樣得到的子數(shù)據(jù)矩陣Rsxq作為訓(xùn)練集,對(duì)應(yīng)的T (ffl_s)Xq作為測(cè)試集,用一種改進(jìn)的支持向量機(jī)分類方法——組合模型——對(duì)訓(xùn)練集建立子模型,用測(cè)試集數(shù)據(jù)預(yù)測(cè)分類并計(jì)算預(yù)測(cè)正確率,N次采樣共得到N個(gè)子模型和N個(gè)預(yù)測(cè)正確率。
[0016]組合模型的建模預(yù)測(cè)具體步驟如下:
A.一對(duì)多建模模糊分類:對(duì)于第a類,將訓(xùn)練集數(shù)據(jù)中屬于第^類的數(shù)據(jù)設(shè)為正標(biāo)簽,其他所有類別的數(shù)據(jù)都設(shè)為負(fù)標(biāo)簽,并建立針對(duì)第a類的二元分類器,總共A類數(shù)據(jù)共需建立左個(gè)二元分類器。然后將測(cè)試集數(shù)據(jù)依次帶入各分類器預(yù)測(cè),綜合A個(gè)分類器的預(yù)測(cè)值得出一對(duì)多模型的模糊分類預(yù)測(cè)結(jié)果,如果一對(duì)多模型判斷該數(shù)據(jù)屬于某一類別,則整個(gè)預(yù)測(cè)過程結(jié)束;如果預(yù)測(cè)結(jié)果出現(xiàn)多分類情況,則把數(shù)據(jù)可能屬于的類別作為候選類別;B.一對(duì)一建模精細(xì)分類:將所有候選類別兩兩組合,每兩個(gè)候選類別建立一個(gè)二元分類器,對(duì)于f個(gè)候選類別,則共需建立/(/-1) /2個(gè)二元分類器。然后測(cè)試數(shù)據(jù)被所有二元分類器依次預(yù)測(cè),每個(gè)二元分類器做出判斷后按如下方法投票:對(duì)于a—6類二元分類器,如果該分類器判斷測(cè)試數(shù)據(jù)為第a類,則第a類得票數(shù)加1,否則第6類得票數(shù)加I。所有分類器均按上述方法判斷并投票后,統(tǒng)計(jì)各類別總得票數(shù),以得票數(shù)最高的類別為最終預(yù)測(cè)結(jié)果。如果最高得票數(shù)的類別不止一種,則將最高得票數(shù)的所有類別作為新的候選類別,然后重復(fù)迭代步驟6中一對(duì)一建模分類方法直至最終確定唯一類別,即為最終預(yù)測(cè)類別;或者連續(xù)兩次候選類別完全相同,此時(shí)判定該數(shù)據(jù)“無法分類”。
[0017](4)挑選候選有用變量
對(duì)每一個(gè)變量依次進(jìn)行統(tǒng)計(jì)分析檢驗(yàn)其是否是有用變量。對(duì)于變量i,將N個(gè)子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為兩組:包含變量i的子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為A組,不包含變量i的子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為B組。兩組預(yù)測(cè)正確率的平均值之差Dmeani=Meanij A-Meani;B,如果Dmeani>0 ,說明變量i加入模型可能對(duì)SVM的預(yù)測(cè)能力有所提升,因此將其作為候選有用變量。如果Dmeani含0,則可認(rèn)為加入變量i對(duì)模型的預(yù)測(cè)能力沒有影響或者會(huì)降低預(yù)測(cè)能力,此時(shí)認(rèn)為變量i是無用變量。
[0018](5)通過無參數(shù)檢驗(yàn)確定真實(shí)有用變量
如果變量i是候選有用變量,說明加入變量i的模型預(yù)測(cè)正確率平均值高于沒有變量i的模型預(yù)測(cè)正確率平均值。為了驗(yàn)證這種提高是否具有顯著性,利用Mann-Whitney U檢驗(yàn)對(duì)變量i的A組預(yù)測(cè)正確率和B組預(yù)測(cè)正確率進(jìn)行分析并計(jì)算P值,如果P值小于預(yù)設(shè)閾值,則認(rèn)為變量i對(duì)預(yù)測(cè)能力有顯著提高,是真實(shí)有用變量,否則判定變量i為無用變量。
[0019]實(shí)施例1
以下以對(duì)九種不同牌號(hào)的圓`鋼樣品的建模分類過程中的變量選擇為例,結(jié)合附圖和實(shí)例來進(jìn)一步說明本發(fā)明的操作流程,但本發(fā)明不限于此例。
[0020]本實(shí)例使用的的LIBS系統(tǒng)主要由調(diào)Q脈沖Nd: YAG激光器,中階梯光譜儀(ARYELLE-UV-VIS, LTB150, German),可移動(dòng)樣品臺(tái)和計(jì)算機(jī)等組成。激光能量為61mJ,基頻光波長1064nm,脈寬10為ns,重復(fù)頻率為IOHz,光譜范圍為220nm-800nm,共有29888個(gè)波長點(diǎn)。
[0021]選擇九種不同牌號(hào)的圓鋼樣品:20#(Φ20Χ900πιπι),20Cr(Φ20X900mm), 20CrMηΤ?(Φ30Χ 900mm),20CrMo (Φ 20 X 900mm),20CrNiMo (Φ 20 X 900mm),35# (Φ 20 X 900mm),35CrMo (Φ 20 X 900mm), 40Cr (Φ 20 X 900mm), 42CrMo (Φ 25 X 900mm)(西寧特殊鋼股份有限公
司)。每一類樣品在不同位置截取三個(gè)6mm高的鋼柱,經(jīng)打磨處理后放置在樣品臺(tái)上,利用激光誘導(dǎo)擊穿光譜系統(tǒng)對(duì)樣品進(jìn)行測(cè)量。
[0022]在每個(gè)鋼柱的每個(gè)截面上隨機(jī)挑選五十個(gè)測(cè)量點(diǎn),在每個(gè)測(cè)量點(diǎn)經(jīng)20次連續(xù)激光脈沖打擊后得到一個(gè)測(cè)量光譜,每五個(gè)測(cè)量光譜經(jīng)平均得到一個(gè)分析光譜,最終九類鋼材共獲得540個(gè)分析光譜(一類鋼材三個(gè)樣品,一個(gè)樣品兩個(gè)截面,一個(gè)截面10個(gè)分析光譜)。
[0023]考慮到鋼材樣品具有整體成分不均一,局部成分均勻的特點(diǎn),如果將所有光譜隨機(jī)分為訓(xùn)練集和測(cè)試集則容易出現(xiàn)過擬合導(dǎo)致預(yù)測(cè)準(zhǔn)確率虛高。因此,每類樣品中隨機(jī)選擇4個(gè)截面的光譜數(shù)據(jù)作為訓(xùn)練集,其余為測(cè)試集。[0024]為了避免過擬合,變量選擇過程中只使用訓(xùn)練集,待確定真實(shí)有用變量后再用測(cè)試集數(shù)據(jù)檢驗(yàn)效果。
[0025]另外,如果以每一個(gè)波長點(diǎn)為一個(gè)變量,則計(jì)算量過大且沒有意義,因此將29888個(gè)波長點(diǎn)中每30個(gè)波長點(diǎn)做一個(gè)變量,最后不足30個(gè)波長點(diǎn)的用O補(bǔ)足。
[0026]這樣整個(gè)光譜共有997個(gè)變量,每個(gè)變量為包含30個(gè)波長點(diǎn)的光譜波段。
[0027]按圖1所示流程進(jìn)行變量提取,對(duì)于全光譜數(shù)據(jù)X36cix997,每次采樣無放回地從X360X997中抽取240個(gè)光譜和q個(gè)變量組成一個(gè)子數(shù)據(jù)矩陣R24tixq,其中q值分別為5、10、30、50、100、150、200。
[0028]從X36tix997余下的數(shù)據(jù)中抽取同樣的q個(gè)變量組成T12tixqt5重復(fù)進(jìn)行5000次采樣可得到5000個(gè)子數(shù)據(jù)矩陣。
[0029]將每個(gè)經(jīng)蒙特卡洛采樣得到的子數(shù)據(jù)矩陣R24tixq作為訓(xùn)練集,對(duì)應(yīng)的T12tixq作為測(cè)試集,用一種改進(jìn)的支持向量機(jī)分類方法——組合模型——對(duì)訓(xùn)練集建立子模型。
[0030]建模過程中選擇多項(xiàng)式核函數(shù),使用訓(xùn)練集數(shù)據(jù)通過網(wǎng)格法對(duì)多項(xiàng)式參數(shù)d(l—10)和懲罰因子C(10_5 — IO5)進(jìn)行尋優(yōu),最終確定最優(yōu)參數(shù)d=l,C=I,然后用測(cè)試集數(shù)據(jù)預(yù)測(cè)分類并計(jì)算預(yù)測(cè)正確率。5000次采樣共得到5000個(gè)子模型和5000個(gè)預(yù)測(cè)正確率。對(duì)每一個(gè)變量依次進(jìn)行統(tǒng)計(jì)分析檢驗(yàn)其是否是有用變量。
[0031]對(duì)于變量i,將5000個(gè)子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為兩組:包含變量i的子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為A組,不包含變量i的子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為B組。
[0032]兩組預(yù)測(cè)正確率的平均值之差Dmeani=Meanu-Meani,如果DmeaniX),則將變量i作為候選有用變量,否則變量i被認(rèn)為是無用變量。
[0033]如果變量i是候選有用變量,利用Mann-Whitney U檢驗(yàn)對(duì)變量i的A組預(yù)測(cè)正確率和B組預(yù)測(cè)正確率進(jìn)行分析并計(jì)算P值。
[0034]如果P值小于預(yù)設(shè)閾值0.05,則認(rèn)為變量i對(duì)預(yù)測(cè)能力有顯著提高,是真實(shí)有用變量,否則仍然判定變量i為無用變量。
[0035]挑選出真實(shí)有用變量后,從原數(shù)據(jù)矩陣中抽取真實(shí)有用變量組成新的矩陣,然后建模對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè)并計(jì)算預(yù)測(cè)正確率。
[0036]圖2A是典型的有用變量(第303號(hào)變量,q=50)對(duì)預(yù)測(cè)正確率分布的影響,其中條紋是A組預(yù)測(cè)正確率分布圖,黑色是B組預(yù)測(cè)正確率分布圖。從圖中可以看出當(dāng)?shù)?03號(hào)變量加入模型后,預(yù)測(cè)正確率的分布明顯右移,說明該變量使SVM的預(yù)測(cè)能力有所提高,而且這種提高是顯著的(P值=2.28X 10_21)。
[0037]圖2B是典型的無用變量(第544號(hào)變量,q=50)對(duì)預(yù)測(cè)正確率分布的影響,其中條紋是A組預(yù)測(cè)正確率分布圖,黑色是B組預(yù)測(cè)正確率分布圖??梢钥吹降?44號(hào)變量加入模型后,預(yù)測(cè)正確率并沒有明顯變化,因此該變量對(duì)SVM分類沒有幫助,是無用變量。
[0038]由于變量選擇的過程是基于蒙特卡洛采樣,采樣過程具有隨機(jī)性,因此每次運(yùn)行本專利進(jìn)行變量選擇的結(jié)果都會(huì)存在一定的差異。
[0039]為了檢驗(yàn)這種差異對(duì)結(jié)果穩(wěn)定性造成的影響,選擇一系列q值,在每一個(gè)q值下運(yùn)行本專利20次,用每次挑選出的有用變量組成新的數(shù)據(jù)矩陣建模預(yù)測(cè),然后計(jì)算20次預(yù)測(cè)正確率的平均值和標(biāo)準(zhǔn)偏差。表1列出了不同q值時(shí)運(yùn)行本專利20次挑選出的有用變童信息
平均預(yù)測(cè)平均有用平均訓(xùn)練時(shí)間平坶測(cè)試時(shí)間斤少)q 正確率變童個(gè)數(shù)(360個(gè)光譜)(18 Q個(gè)光譜)
5 1193661322.0774L3163
10 0.9583941.19120.?260
30 0.9747520.60320,2200
50 0.9802350.40480.1520
100 0.9711260.32380.2260
150 0,9547220.28080.1850
200 0.9233180.25800.2155
全光譜 0.927899714.8621.65
[0040]通過圖3可看到,隨著q值的增加,預(yù)測(cè)正確率顯著升高,當(dāng)q=50時(shí),達(dá)到最大值
98.03%,然后開始下降,而標(biāo)準(zhǔn)偏差的變化趨勢(shì)和預(yù)測(cè)正確率的變化趨勢(shì)相反,q=50時(shí),標(biāo)
準(zhǔn)偏差最小。
[0041]這表明通過本專利挑選有用變量對(duì)提高SVM預(yù)測(cè)能力有顯著幫助,而選擇合理的
變量采樣數(shù)q能夠降低蒙特卡洛采樣隨機(jī)性造成的偏差,提高本專利的穩(wěn)定性。
[0042]結(jié)合表1和圖3可確定對(duì)于本數(shù)據(jù)最優(yōu)q值為50。
[0043]對(duì)q=50時(shí)運(yùn)行本專利20次挑選的有用信息進(jìn)行統(tǒng)計(jì),將被選中作為真實(shí)有用變
量次數(shù)最多的前35個(gè)變量當(dāng)做本專利變量提取的最終結(jié)果。
[0044]圖4是20#的全光譜譜圖,圖5是只包含有用變量的光譜圖。
【權(quán)利要求】
1.基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,其特征在于包括以下步驟: (1)利用激光誘導(dǎo)擊穿光譜系統(tǒng)對(duì)不同牌號(hào)的鋼材樣品分別在不同的測(cè)量位點(diǎn)進(jìn)行光譜數(shù)據(jù)采集獲得全光譜數(shù)據(jù); (2)對(duì)全光譜數(shù)據(jù)矩陣進(jìn)行蒙特卡洛采樣 將全光譜波段劃分為若干變量,每個(gè)變量為包含一定波長點(diǎn)數(shù)的波段,對(duì)于全光譜數(shù)據(jù)Xnixn,其中m為光譜個(gè)數(shù),η為變量數(shù),每次采樣無放回地從Xnixn中抽取s個(gè)光譜和q個(gè)變量組成一個(gè)子數(shù)據(jù)矩陣RsXq,從Xmxn余下的數(shù)據(jù)中抽取同樣的q個(gè)變量組成T (m_s) Xq,重復(fù)進(jìn)行N次采樣可得到N個(gè)子數(shù)據(jù)矩陣; (3)子數(shù)據(jù)矩陣建模分類 將每個(gè)經(jīng)蒙特卡洛采樣得到的子數(shù)據(jù)矩陣Rsxq作為訓(xùn)練集,對(duì)應(yīng)的T (ffl_s)Xq作為測(cè)試集,用一種改進(jìn)的支持向量機(jī)分類方法——組合模型——對(duì)訓(xùn)練集建立子模型,然后用測(cè)試集預(yù)測(cè)分類并計(jì)算預(yù)測(cè)正確率;最后N次采樣共得到N個(gè)子模型和N個(gè)預(yù)測(cè)正確率; (4)挑選候選有用變量 對(duì)每一個(gè)變量依次進(jìn)行統(tǒng)計(jì)分析檢驗(yàn)其是否是有用變量,對(duì)于變量i,將N個(gè)子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為兩組:包含變量i的子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為A組,不包含變量i的子模型對(duì)應(yīng)的預(yù)測(cè)正確率分為B組;兩組預(yù)測(cè)正確率的平均值之差Dmeani=MeanijA-Meani;B,如果DmeaniX),則將變量i作為候選有用變量,否則變量i被認(rèn)為是無用變量; (5)通過無參數(shù)檢驗(yàn)確定真實(shí)有用變量 如果變量i是候選有用變量,利用Mann-Whitney U檢驗(yàn)變量i的A組預(yù)測(cè)正確率和B組預(yù)測(cè)正確率進(jìn)行分析并計(jì)算P值,如果P值小于預(yù)設(shè)閾值,則認(rèn)為變量i是真正有用變量,否則判定變量i為無用變量。
2.根據(jù)權(quán)利要求1所述的基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,其特征在于:步驟(2)中進(jìn)行蒙特卡洛采樣時(shí)需要確定三個(gè)參數(shù),蒙特卡洛采樣次數(shù)N,每次采樣抽取光譜個(gè)數(shù)s和每次采樣抽取變量個(gè)數(shù)q,其中N通常為5000—10000,s值取光譜總數(shù)m的1/2 — 2/3,q值的取值范圍為5-500。
3.根據(jù)權(quán)利要求1所述的基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,其特征在于:步驟(3)中,所述的組合模型先將數(shù)據(jù)進(jìn)行一對(duì)多建模模糊分類篩選出候選類另O,然后在候選類別范圍內(nèi)進(jìn)行一對(duì)一精細(xì)分類,通過循環(huán)迭代,逐步縮小候選類別,最終確定預(yù)測(cè)類別。
4.根據(jù)權(quán)利要求1所述的基于模型集群分析的激光誘導(dǎo)擊穿光譜變量選擇方法,其特征在于,在步驟(5)中,利用Mann-Whitney U檢驗(yàn)對(duì)A組預(yù)測(cè)正確率和B組預(yù)測(cè)正確率進(jìn)行統(tǒng)計(jì)分析,其中P值是評(píng)估兩組預(yù)測(cè)正確率是否有顯著性差異的參數(shù),當(dāng)P值小于預(yù)設(shè)閾值,說明變量i的加入對(duì)預(yù)測(cè)能力有顯著提高,是真正有用變量,否則認(rèn)為變量i對(duì)模型預(yù)測(cè)沒有影響或者有消極影響,是無用變量,其中閾值通常為0.01-0.05。
【文檔編號(hào)】G01N21/63GK103487410SQ201310388287
【公開日】2014年1月1日 申請(qǐng)日期:2013年9月1日 優(yōu)先權(quán)日:2013年9月1日
【發(fā)明者】李華, 梁龍, 湯宏勝, 王康, 張?zhí)忑? 孫昆侖, 李吉光, 盛麗雯 申請(qǐng)人:西北大學(xué)