本發(fā)明涉及紅外光譜分析領(lǐng)域,具體而言,涉及一種基于紅外光譜分析物質(zhì)成分含量的方法。
背景技術(shù):
通過紅外光譜分析可獲知物質(zhì)成分含量。通過測量紅外光譜,對其進(jìn)行分析,從而獲知物質(zhì)成分含量,不僅可以定性分析,也可定量分析。但是在現(xiàn)有的紅外光譜測量過程中,測量儀器或測量條件的改變,都將導(dǎo)致原有標(biāo)定模型失效,重新建立模型將浪費(fèi)大量的時(shí)間和成本,造成分析結(jié)果不準(zhǔn)確,分析效率低下的情況。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為了解決現(xiàn)有的重新建模效率低的問題,提出了一種基于紅外光譜分析物質(zhì)成分含量的方法,包括以下步驟:
S1,根據(jù)源域紅外光譜數(shù)據(jù)和與所述源域紅外光譜數(shù)據(jù)對應(yīng)的源域物質(zhì)成分含量建立第一回歸模型,求取所述第一回歸模型中的參數(shù);
S2,獲取目標(biāo)域紅外光譜數(shù)據(jù),建立目標(biāo)域紅外光譜數(shù)據(jù)與源域紅外光譜數(shù)據(jù)之間的轉(zhuǎn)移模型,求取所述轉(zhuǎn)移模型中的參數(shù);
S3,根據(jù)所述目標(biāo)域紅外光譜數(shù)據(jù)、所述轉(zhuǎn)移模型,利用所述第一回歸模型獲取與所述目標(biāo)域紅外光譜數(shù)據(jù)對應(yīng)的目標(biāo)域物質(zhì)成分含量。
進(jìn)一步地,所述第一回歸模型為偏最小二乘回歸模型,所述步驟S1包括,對所述源域紅外光譜數(shù)據(jù)進(jìn)行特征提取獲取第一光譜特征,根據(jù)所述第一光譜特征和源域物質(zhì)成分含量建立所述偏最小二乘回歸模型,求出回歸系數(shù)。
進(jìn)一步地,所述目標(biāo)域紅外光譜數(shù)據(jù)包括目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)和目標(biāo)域紅外光譜測試數(shù)據(jù),所述步驟S2包括根據(jù)所述目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行特征提取獲取第二標(biāo)準(zhǔn)光譜特征;根據(jù)所述第一光譜特征和所述第二標(biāo)準(zhǔn)光譜特征建立所述轉(zhuǎn)移模型,求出轉(zhuǎn)移矩陣。
進(jìn)一步地,所述步驟S3包括,根據(jù)所述目標(biāo)域紅外光譜測試數(shù)據(jù)獲取第三光譜特征,將所述第三光譜特征和所述轉(zhuǎn)移模型帶入到所述最小偏二乘回歸模型中獲取所述目標(biāo)域物質(zhì)成分含量。
進(jìn)一步地,所述對所述源域紅外光譜數(shù)據(jù)進(jìn)行特征提取獲取第一光譜特征的步驟包括,對所述源域紅外光譜數(shù)據(jù)和源域物質(zhì)成分含量進(jìn)行中心化處理,根據(jù)中心化處理后的源域紅外光譜數(shù)據(jù)和源域物質(zhì)成分含量建立最小二乘回歸模型獲取所述第一光譜特征。
進(jìn)一步地,還獲取包括目標(biāo)域標(biāo)準(zhǔn)物質(zhì)成分含量,所述根據(jù)所述目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行特征提取獲取第二標(biāo)準(zhǔn)光譜特征的步驟包括:對所述目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)和所述目標(biāo)域標(biāo)準(zhǔn)物質(zhì)成分含量進(jìn)行中心化處理,根據(jù)中心化處理后的目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)和目標(biāo)域標(biāo)準(zhǔn)物質(zhì)成分含量建立偏最小二乘回歸模型獲取第二標(biāo)準(zhǔn)光譜特征。
進(jìn)一步地,所述步驟S2獲取第二標(biāo)準(zhǔn)光譜特征的同時(shí),還獲取了第二標(biāo)準(zhǔn)投影數(shù)據(jù)和第二標(biāo)準(zhǔn)載荷數(shù)據(jù);所述步驟S3中根據(jù)所述目標(biāo)域紅外光譜測試數(shù)據(jù)獲取第三光譜特征的步驟包括,利用所述目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)的均值對所述目標(biāo)域紅外光譜測試數(shù)據(jù)進(jìn)行中心化處理,利用中心化處理后的目標(biāo)域紅外光譜測試數(shù)據(jù)按照下式依次遞推獲取第三光譜特征:其中,i大于等于1且小于等于k,TT_test為第三光譜特征,k為第三光譜特征的個(gè)數(shù),為第二標(biāo)準(zhǔn)投影數(shù)據(jù)的第i個(gè)分量,為中心化處理后的目標(biāo)域紅外光譜測試數(shù)據(jù)的第i個(gè)殘差項(xiàng),為第二標(biāo)準(zhǔn)載荷數(shù)據(jù)的第i個(gè)分量。
進(jìn)一步地,通過求解下式的最優(yōu)化問題,其中,B表示基于源域特征回歸模型的系數(shù),M表示目標(biāo)域特征到源域特征的轉(zhuǎn)移矩陣,WS和WT分別表示源域和目標(biāo)域的投影矩陣;通過TS=XS*WS求解第一光譜特征,其中第一光譜特征為i大于等于1且小于等于k,k為第一光譜特征的個(gè)數(shù);通過計(jì)算回歸系數(shù)ΒT=[b1,b2,...,bk],y表示源域物質(zhì)成分含量。
進(jìn)一步地,通過下式求取第二標(biāo)準(zhǔn)光譜特征,TT=XT*WT,其中第二標(biāo)準(zhǔn)光譜特征為i大于等于1且小于等于k,k為第二光譜特征的個(gè)數(shù)。
進(jìn)一步地,利用第二標(biāo)準(zhǔn)光譜特征和第一光譜特征通過下式獲取轉(zhuǎn)移矩陣Μ=[m1,m2,...,mk],i大于等于1且小于等于k,k為第二標(biāo)準(zhǔn)光譜特征的個(gè)數(shù),其中從中選取。
通過上述實(shí)施例的技術(shù)方案,本發(fā)明的基于紅外光譜分析物質(zhì)成分含量的方法建立源域和目標(biāo)域樣本特征之間的轉(zhuǎn)移關(guān)系,一方面可以去除冗余信息,獲得更加準(zhǔn)確簡單的轉(zhuǎn)移關(guān)系,進(jìn)而可以獲得較好的預(yù)測效果,另一方面對于高維小樣本數(shù)據(jù)集可以很大程度上減少運(yùn)算量。
附圖說明
通過參考附圖會(huì)更加清楚的理解本發(fā)明的特征和優(yōu)點(diǎn),附圖是示意性的而不應(yīng)理解為對本發(fā)明進(jìn)行任何限制,在附圖中:
圖1為本發(fā)明實(shí)施例基于紅外光譜分析物質(zhì)成分含量的方法的流程示意圖;
圖2為本發(fā)明實(shí)施例基于紅外光譜分析物質(zhì)成分含量的方法的流程示意圖;
圖3為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米數(shù)據(jù)集的主從光譜及偏差光譜;
圖4為本發(fā)明的分析方法進(jìn)行驗(yàn)證的藥片數(shù)據(jù)集的主從光譜及偏差光譜;
圖5為本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米的PLS模型的主成分?jǐn)?shù)選取過程;
圖6為本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米的PDS模型的窗口大小選擇過程;
圖7為本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米中水份在各個(gè)模型下真實(shí)值與預(yù)測值的比較示意圖;
圖8為本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米中油份在各個(gè)模型下真實(shí)值與預(yù)測值的比較示意圖;
圖9為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米中蛋白質(zhì)含量在各個(gè)模型下真實(shí)值與預(yù)測值的比較示意圖;
圖10為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米中淀粉含量在各個(gè)模型下真實(shí)值與預(yù)測值的比較示意圖;
圖11為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米中水份含量在標(biāo)定遷移前后的預(yù)測值和真實(shí)值的比較示意圖;
圖12為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米中油份含量在標(biāo)定遷移前后的預(yù)測值和真實(shí)值的比較示意圖;
圖13為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米中蛋白質(zhì)含量在標(biāo)定遷移前后的預(yù)測值和真實(shí)值的比較示意圖;
圖14為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米中淀粉含量在標(biāo)定遷移前后的預(yù)測值和真實(shí)值的比較示意圖;
圖15為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米的PLS模型的主成分?jǐn)?shù)選取過程示意圖;
圖16為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的玉米的PDS模型的窗口大小選擇過程示意圖;
圖17為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的藥片中第一種活性成分在不同模型下的預(yù)測值與真實(shí)值的比較示意圖;
圖18為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的藥片中第二種活性成分在不同模型下的預(yù)測值與真實(shí)值的比較示意圖;
圖19為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的藥片中第三種活性成分在不同模型下的預(yù)測值與真實(shí)值的比較示意圖;
圖20為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的藥片中活性成分1含量在標(biāo)定遷移前后的預(yù)測值和真實(shí)值的比較示意圖;
圖21為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的藥片中活性成分2含量在標(biāo)定遷移前后的預(yù)測值和真實(shí)值的比較示意圖;
圖22為對本發(fā)明的分析方法進(jìn)行驗(yàn)證的藥片中活性成分3含量在標(biāo)定遷移前后的預(yù)測值和真實(shí)值的比較示意圖。
具體實(shí)施方式
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請的實(shí)施例及實(shí)施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。
實(shí)施例一
如圖1所示,本發(fā)明提供了一種基于紅外光譜分析物質(zhì)成分含量的方法,包括以下步驟:
S101,根據(jù)源域紅外光譜數(shù)據(jù)和與所述源域紅外光譜數(shù)據(jù)對應(yīng)的源域物質(zhì)成分含量建立第一回歸模型,求取所述第一回歸模型中的參數(shù);所述第一回歸模型例如為偏最小二乘回歸模型,對所述源域紅外光譜數(shù)據(jù)進(jìn)行特征提取獲取第一光譜特征,根據(jù)所述第一光譜特征和源域物質(zhì)成分含量建立所述偏最小二乘回歸模型,求出回歸系數(shù);具體地,所述對所述源域紅外光譜數(shù)據(jù)進(jìn)行特征提取獲取第一光譜特征的步驟包括,對所述源域紅外光譜數(shù)據(jù)和源域物質(zhì)成分含量進(jìn)行中心化處理,根據(jù)中心化處理后的源域紅外光譜數(shù)據(jù)和源域物質(zhì)成分含量建立最小二乘回歸模型獲取所述第一光譜特征。中心化處理的操作為,用源域紅外光譜數(shù)據(jù)減去源域紅外光譜數(shù)據(jù)的均值,用源域物質(zhì)成分含量減去源域物質(zhì)成分含量的均值,減少偏差對建立模型的影響。
具體地,通過求解下式的最優(yōu)化問題,其中,B表示基于源域特征回歸模型的系數(shù),M表示目標(biāo)域特征到源域特征的轉(zhuǎn)移矩陣,WS和WT分別表示源域和目標(biāo)域的投影矩陣。通過TS=XS*WS求解第一光譜特征,其中第一光譜特征為i大于等于1且小于等于k,k為第一光譜特征的個(gè)數(shù);通過計(jì)算回歸系數(shù)ΒT=[b1,b2,...,bk],y表示源域物質(zhì)成分含量。
S102,獲取目標(biāo)域紅外光譜數(shù)據(jù),建立目標(biāo)域紅外光譜數(shù)據(jù)與源域紅外光譜數(shù)據(jù)之間的轉(zhuǎn)移模型,求取所述轉(zhuǎn)移模型中的參數(shù);所述目標(biāo)域紅外光譜數(shù)據(jù)包括目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)和目標(biāo)域紅外光譜測試數(shù)據(jù),根據(jù)所述目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行特征提取獲取第二標(biāo)準(zhǔn)光譜特征;根據(jù)所述第一光譜特征和所述第二標(biāo)準(zhǔn)光譜特征建立所述轉(zhuǎn)移模型,求出轉(zhuǎn)移矩陣,為了提高準(zhǔn)確性,可從所述第一光譜特征中選取部分光譜特征與所述第二標(biāo)準(zhǔn)光譜特征建立轉(zhuǎn)移模型,選取時(shí)對應(yīng)按照物質(zhì)濃度相對應(yīng)選取,如可采取,源域物質(zhì)成分含量與目標(biāo)域標(biāo)準(zhǔn)物質(zhì)濃度相同的數(shù)據(jù)集來進(jìn)行運(yùn)算。
具體地,通過下式求取第二標(biāo)準(zhǔn)光譜特征,TT=XT*WT,其中第二標(biāo)準(zhǔn)光譜特征為i大于等于1且小于等于k,k為第二光譜特征的個(gè)數(shù)。
利用第二標(biāo)準(zhǔn)光譜特征和第一光譜特征通過下式獲取轉(zhuǎn)移矩陣Μ=[m1,m2,...,mk],i大于等于1且小于等于k,k為第二標(biāo)準(zhǔn)光譜特征的個(gè)數(shù),其中從中選取。
S103,根據(jù)所述目標(biāo)域紅外光譜數(shù)據(jù)、所述轉(zhuǎn)移模型,利用所述第一回歸模型獲取與所述目標(biāo)域紅外光譜數(shù)據(jù)對應(yīng)的目標(biāo)域物質(zhì)成分含量;根據(jù)所述目標(biāo)域紅外光譜測試數(shù)據(jù)獲取第三光譜特征,將所述第三光譜特征和所述轉(zhuǎn)移模型帶入到所述最小偏二乘回歸模型中獲取所述目標(biāo)域物質(zhì)成分含量。
本發(fā)明實(shí)施例還包括獲取目標(biāo)域標(biāo)準(zhǔn)物質(zhì)成分含量,所述根據(jù)所述目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行特征提取獲取第二標(biāo)準(zhǔn)光譜特征的步驟包括:對所述目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)和所述目標(biāo)域標(biāo)準(zhǔn)物質(zhì)成分含量進(jìn)行中心化處理,根據(jù)中心化處理后的目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)和目標(biāo)域標(biāo)準(zhǔn)物質(zhì)成分含量建立偏最小二乘回歸模型獲取第二標(biāo)準(zhǔn)光譜特征。中心化處理的步驟與上述對源于紅外光譜數(shù)據(jù)的處理步驟類似。
本發(fā)明實(shí)施例中所述步驟S102獲取第二標(biāo)準(zhǔn)光譜特征的同時(shí),還獲取了第二標(biāo)準(zhǔn)投影數(shù)據(jù)和第二標(biāo)準(zhǔn)載荷數(shù)據(jù);所述步驟S103中根據(jù)所述目標(biāo)域紅外光譜測試數(shù)據(jù)獲取第三光譜特征的步驟包括,利用所述目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)的均值對所述目標(biāo)域紅外光譜測試數(shù)據(jù)進(jìn)行中心化處理,利用中心化處理后的目標(biāo)域紅外光譜測試數(shù)據(jù)按照下式依次遞推獲取第三光譜特征:其中,i大于等于1且小于等于k,TT_test為第三光譜特征,k為第三光譜特征的個(gè)數(shù),為第二標(biāo)準(zhǔn)投影數(shù)據(jù)的第i個(gè)分量,為中心化處理后的目標(biāo)域紅外光譜測試數(shù)據(jù)的第i個(gè)殘差項(xiàng),為第二標(biāo)準(zhǔn)載荷數(shù)據(jù)的第i個(gè)分量。
本發(fā)明的基于紅外光譜分析物質(zhì)成分含量的方法建立源域和目標(biāo)域樣本特征之間的轉(zhuǎn)移關(guān)系,一方面可以去除冗余信息,獲得更加準(zhǔn)確簡單的轉(zhuǎn)移關(guān)系,因此可以獲得較好的預(yù)測效果,另一方面對于高維小樣本數(shù)據(jù)集可以很大程度上減少運(yùn)算量。此外,僅有偏最小二乘算法(PLS算法)的潛變量一個(gè)參數(shù)需要設(shè)置,實(shí)現(xiàn)過程十分簡單。需要說明的是,本發(fā)明中采用了“紅外光譜”一詞,可理解成包括了近紅外光譜,也可包括中紅外光譜、遠(yuǎn)紅外光譜。
實(shí)施例二
本發(fā)明的基于紅外光譜分析物質(zhì)成分含量的方法結(jié)合遷移學(xué)習(xí)和PLS算法,形成了一種遷移標(biāo)定算法(CT_pls算法),其基礎(chǔ)思想來源于基于特征的遷移學(xué)習(xí)方法,將目標(biāo)域特征映射至源域特征空間,進(jìn)而可以利用源域的模型對目標(biāo)域的數(shù)據(jù)進(jìn)行處理。該方法首先利用PLS算法對源域樣本和目標(biāo)樣本進(jìn)行特征提取,然后建立基于源域特征的多元標(biāo)定模型以及源域和目標(biāo)域特征之間的線性轉(zhuǎn)移模型,最后在以相同的方式對未知的目標(biāo)域樣本進(jìn)行特征提取后轉(zhuǎn)移后,利用源域標(biāo)定模型對轉(zhuǎn)移后的特征進(jìn)行預(yù)測。
假設(shè)分別存在源域數(shù)據(jù)集{XS,y}和目標(biāo)域數(shù)據(jù)集{XT,y},其中XS和XT分別由主光譜儀和從光譜儀測得,建立源域和目標(biāo)域之間的標(biāo)定遷移模型,實(shí)際上是求解公式(3.1)的最優(yōu)化問題。
在公式(3.1)中,B表示基于源域特征回歸模型的系數(shù),M表示目標(biāo)域特征到源域特征的轉(zhuǎn)移矩陣,WS和WT分別表示源域和目標(biāo)域的投影矩陣。本文選擇偏最小二乘算法作為主體算法,WS和WT分別通過建立{XS,y}和{XS,y}的PLS模型求得,源域的特征TS和目標(biāo)域的特征TT通過公式(3.2)求得。
在獲得源域特征TS后,利用源域特征數(shù)據(jù){TS,yS}建立多元標(biāo)定模型,其中計(jì)算回歸系數(shù)ΒT=[b1,b2,...,bk],k表示提取的主特征個(gè)數(shù)。
為了實(shí)現(xiàn)源域模型對目標(biāo)域數(shù)據(jù)的有效預(yù)測,需要利用標(biāo)準(zhǔn)集進(jìn)行光譜空間進(jìn)行變換,公式(3.4)(3.5)表明光譜特征從目標(biāo)域變換到源域的實(shí)現(xiàn)方法。
Τ'S←ΤTΜ (3.4)
其中,Τ'S和TT分別是源域和目標(biāo)域樣本集的特征,Τ'S從中獲得TS,用于計(jì)算轉(zhuǎn)移矩陣Μ=[m1,m2,...,mk]。
在建立源域的標(biāo)定模型以及源域和目標(biāo)域之間的轉(zhuǎn)移模型后,即可實(shí)現(xiàn)對目標(biāo)域樣本的有效預(yù)測,如公式(3.6)所示。
yT=TT*M*B (3.6)
具體地,如圖2所示,本發(fā)明的基于紅外光譜分析物質(zhì)成分含量的方法包括獲取源域訓(xùn)練集,即獲取源域紅外光譜數(shù)據(jù)和源域物質(zhì)成分含量;獲取目標(biāo)域標(biāo)準(zhǔn)集,即獲取目標(biāo)域紅外光譜標(biāo)準(zhǔn)數(shù)據(jù)和目標(biāo)域標(biāo)準(zhǔn)物質(zhì)成分含量;獲取目標(biāo)域測試集,即獲取目標(biāo)域紅外光譜測試數(shù)據(jù)和目標(biāo)域測試物質(zhì)成分含量;對源域數(shù)據(jù)進(jìn)行中心化處理,對目標(biāo)域數(shù)據(jù)進(jìn)行中心化處理;對源域數(shù)據(jù)利用pls模型進(jìn)行第一光譜特征提取,形成組合特征數(shù)據(jù)集,從中抽取與標(biāo)準(zhǔn)集對應(yīng)的特征(即物質(zhì)成分含量對應(yīng)),利用組合特征數(shù)據(jù)集和pls算法建立第一回歸模型,目標(biāo)域標(biāo)準(zhǔn)集利用pls進(jìn)行特征提取獲取第二標(biāo)準(zhǔn)光譜特征,通過pls模型求取挑選后的第一光譜特征和第二標(biāo)準(zhǔn)光譜特征之間的轉(zhuǎn)移矩陣,對目標(biāo)域測試數(shù)據(jù)利用pls模型求取第三光譜特征,將第三光譜特征和轉(zhuǎn)移矩陣帶入到第一回歸模型中,從而獲取與目標(biāo)域測試數(shù)據(jù)相對應(yīng)的物質(zhì)成分含量。具體實(shí)現(xiàn)過程,包括數(shù)據(jù)預(yù)處理、特征提取、建立源域標(biāo)定模型、計(jì)算轉(zhuǎn)移關(guān)系、對未知目標(biāo)域數(shù)據(jù)進(jìn)行預(yù)測等步驟。
具體地,可通過載有計(jì)算機(jī)程序的處理器電路來實(shí)現(xiàn),計(jì)算機(jī)程序流程如下:
本發(fā)明實(shí)施例的基于紅外光譜分析物質(zhì)成分含量的方法采用了偏最小二乘回歸分析,偏最小二乘回歸分析(PLS)提供一種多對多線性回歸建模的方法,特別當(dāng)兩組變量的很多,且都存在多重相關(guān)性,而觀測數(shù)據(jù)的數(shù)量(樣本量)有較少時(shí),用偏最小二乘回歸分析建立的模型具有傳統(tǒng)的經(jīng)典回歸分析等方法所沒有的優(yōu)點(diǎn)。當(dāng)同一物品的兩組測量樣本來自不同測量儀器或測量狀態(tài)時(shí),兩組樣本不相同卻相關(guān),所以可以將來自新空間的樣本遷移至參考空間,進(jìn)而可以直接利用參考空間的模型對新樣本進(jìn)行預(yù)測。重新利用了原有模型,減小了建模成本。
1.建立基于光譜特征的PLS回歸模型
首先對紅外光譜數(shù)據(jù)及其對應(yīng)的成分濃度建立偏最小二乘回歸模型,用于獲取光譜特征,光譜特征的個(gè)數(shù)通過交叉驗(yàn)證方法進(jìn)行選取。然后對光譜特征及其對應(yīng)的成分濃度重新建立PLS模型,用于計(jì)算模型的回歸系數(shù),此時(shí)的主特征(光譜特征)個(gè)數(shù)依然通過交叉驗(yàn)證方法進(jìn)行選擇。對紅外光譜數(shù)據(jù)兩次建立PLS模型與一次直接建立PLS模型在預(yù)測精度上基本沒有影響,使用光譜特征計(jì)算的回歸系數(shù)可直接對轉(zhuǎn)移后目標(biāo)域的光譜特征進(jìn)行預(yù)測。
2.實(shí)現(xiàn)光譜特征間的遷移學(xué)習(xí)
不同光譜儀測得紅外光譜數(shù)據(jù)的條件概率或邊緣概率分布可能不同,使得原有的多元標(biāo)定模型無法對目標(biāo)域的紅外光譜數(shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測,往往會(huì)存在很大的預(yù)測偏差,由于重新建模成本很高,因此需要將目標(biāo)域的光譜特征遷移至源域,進(jìn)而縮小源域和目標(biāo)域在分布上差異。首先對源域和目標(biāo)域中的標(biāo)準(zhǔn)光譜樣本進(jìn)行特征提取,然后建立特征對特征的PLS模型,計(jì)算轉(zhuǎn)移矩陣。使目標(biāo)域特征與轉(zhuǎn)移矩陣相乘,即可實(shí)現(xiàn)特征的遷移。
3.對目標(biāo)域光譜數(shù)據(jù)進(jìn)行預(yù)測
將目標(biāo)域的特征遷移至源域的特征空間后,即可直接利用源域基于特征的回歸模型,對目標(biāo)域的特征進(jìn)行預(yù)測。從而避免了對目標(biāo)域樣本重新建立模型,很大程度上減小了建模成本。
針對本發(fā)明中的分析方法分別對玉米和藥片數(shù)據(jù)進(jìn)行了分析,具體如下:
1.玉米數(shù)據(jù)集
玉米數(shù)據(jù)集有80個(gè)樣本,對應(yīng)著水分、油分、蛋白質(zhì)、淀粉四種物質(zhì)的含量,可以從(http://www.eigenvector.com/Data/Data_sets.html)獲得。對于紅外光譜數(shù)據(jù)集分別由m5,mp5,mp6三種不同的儀器在波長范圍1100–2498nm以2nm為間隔測得,共700個(gè)頻道。本實(shí)驗(yàn)中將m5測得的光譜作為主光譜,光譜數(shù)據(jù)作為源域數(shù)據(jù)集XS,由于mp6測得的光譜與m5測得的差異大些,被選為從光譜,對應(yīng)的數(shù)據(jù)集作為目標(biāo)域數(shù)據(jù)集XT。光譜圖如圖3所示,其中子圖(A)、(B)、(C)分別表示主光譜圖,從光譜圖,以及主光譜與從光譜之間的光譜差異圖。
實(shí)驗(yàn)中,利用Kennard-Stone(KS)算法對數(shù)據(jù)集進(jìn)行劃分,首先從源域和目標(biāo)域數(shù)據(jù)集中分別抽取20%的數(shù)據(jù)作為測試樣本,分別為16個(gè),其中目標(biāo)域的測試樣本用于測試標(biāo)定遷移模型。剩余的80%樣本作為訓(xùn)練樣本,分別為64個(gè),其中源域的訓(xùn)練樣本用于建立參考模型,可對目標(biāo)域的遷移樣本進(jìn)行預(yù)測,目標(biāo)域的用于建立目標(biāo)域的標(biāo)準(zhǔn)模型,以便于對比其他遷移模型的性能。再從源域和目標(biāo)域的訓(xùn)練樣本中通過KS算法分別抽取若干樣本作為標(biāo)準(zhǔn)樣本集,用于建立源域樣本和目標(biāo)域樣本之間的轉(zhuǎn)移關(guān)系。標(biāo)準(zhǔn)樣本的數(shù)量對轉(zhuǎn)移關(guān)系影響較大,標(biāo)準(zhǔn)樣本數(shù)量太少,無法獲取充分的樣本信息,數(shù)量太多,容易引入冗余信息,這兩種情況都無法獲得準(zhǔn)確的轉(zhuǎn)移關(guān)系。為了兼顧二者,本實(shí)驗(yàn)利用KS算法從源域和目標(biāo)域的訓(xùn)練樣本中分別抽取50%的樣本作為標(biāo)準(zhǔn)樣本集,分別為32個(gè)。
2.藥片數(shù)據(jù)集
2002年,在國際漫反射會(huì)議(IDRC)上發(fā)布的”Shootout”數(shù)據(jù)集包含由兩臺光譜儀分別在波長范圍600-1898nm以2nm間隔測得的藥片樣本的紅外光譜數(shù)據(jù),分別作為源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù),均包含650個(gè)變量,用于分析藥片中三種活性成分的含量。這些樣本分別被劃分為源域標(biāo)定樣本集和目標(biāo)域標(biāo)定樣本集,各包含155個(gè)樣本,源域測試集和目標(biāo)域測試集,各包含460個(gè)樣本。通過KS算法從源域和目標(biāo)域的標(biāo)定集中分別抽取50%的樣本作為標(biāo)準(zhǔn)集,分別為78個(gè)。藥片的紅外光譜圖在圖4中給出,其中圖4(A)表示主光譜,圖4(B)表示從光譜,圖4(C)表示主光譜與從光譜之間的光譜差異圖。從圖4(C)中中可以看出在波數(shù)和的范圍,主光譜和從光譜存在著差異且在前端的差異存在著較大的波動(dòng),而在其他波數(shù)范圍,存在的差異較小。說明在光譜的兩端更容易引入噪聲。由于主光譜和從光譜之間的差異并不大,因此可以猜想到,在模型遷移前后,預(yù)測的性能不會(huì)有太大的轉(zhuǎn)變。
具體過程如下:
1.數(shù)據(jù)預(yù)處理方法
在訓(xùn)練模型前,選擇中心化的方法對數(shù)據(jù)進(jìn)行預(yù)處理,可以避免由于數(shù)值差異較大引起的偏差。
2.參數(shù)選擇
模型的參數(shù)選擇對模型性能可以產(chǎn)生很大的影響,選擇一個(gè)最佳的參數(shù),可以使得模型獲得最優(yōu)的性能。例如,對于PLS算法,選擇最佳的主成分?jǐn)?shù),可以使模型獲得最好的預(yù)測效果。本發(fā)明實(shí)驗(yàn)中,SBC(斜率和偏差校正方法),MSC(多元散射校正),PDS(分段直接標(biāo)準(zhǔn)),CT_pls均采用PLS算法建立主光譜數(shù)據(jù)的多元標(biāo)定模型,因此在確定標(biāo)準(zhǔn)樣本數(shù)量之后,SBC和CT_pls算法僅有主成分?jǐn)?shù)一個(gè)參數(shù)需要被設(shè)置,PDS算法除主成分?jǐn)?shù)之外還需要對窗口大小進(jìn)行設(shè)置。本發(fā)明中,選擇10折交叉驗(yàn)證的方法對PLS算法的主成分個(gè)數(shù)進(jìn)行選擇,設(shè)置主成分?jǐn)?shù)從1到5,間隔為1,分別計(jì)算其對應(yīng)的交叉驗(yàn)證誤差(RMSECV),選取最小的RMSECV對應(yīng)的主成分?jǐn)?shù)為最佳主成分?jǐn)?shù)。對于PDS算法,由于標(biāo)準(zhǔn)數(shù)據(jù)集樣本數(shù)較少,在對各個(gè)窗口建立PLS子模型時(shí),采用5折交叉驗(yàn)證,設(shè)置窗口大小從3到20,間隔為2,窗口大小應(yīng)為不小于3的奇數(shù),計(jì)算每個(gè)窗口大小對應(yīng)的RMSECV,對應(yīng)最小RMSECV的抽口為最佳窗口。模型評估
本發(fā)明實(shí)驗(yàn)中,以均方根誤差(RMSE)作為參數(shù)選擇及模型評估的指標(biāo)。RMSE的計(jì)算方法如公式(3.11)。
其中,為預(yù)測值,為參考值(真實(shí)值或比較值),為測試樣本數(shù)。
RMSEC表示標(biāo)定集的訓(xùn)練誤差,RMSEP表示測試集的預(yù)測誤差,RMSECV表示交叉驗(yàn)證誤差。對于PLS算法的交叉驗(yàn)證誤差,表示真實(shí)值。對于PDS算法,選取窗口大小的交叉驗(yàn)證誤差,表示主光譜標(biāo)準(zhǔn)集的預(yù)測值。
為了更加直觀地比較本發(fā)明提出的CT_pls模型與其他經(jīng)典模型以及PLS基準(zhǔn)模型的在預(yù)測性能上的差異程度,使用公式(3.12)計(jì)算CT_pls算法相對其他算法性能的改善率或下降率。
在公式(3.12)中,RMSEPCT_pls表示CT_pls算法的預(yù)測誤差,表示其他對比算法的預(yù)測的誤差。
此外,本發(fā)明利用秩和檢驗(yàn)方法來檢驗(yàn)CT_pls方法與其他算法之間是否存在顯著性差異,使用python中scipy包中的wilcoxon函數(shù)直接計(jì)算預(yù)測值之間的p值,若p>0.05,則說明兩種算法之間不存在顯著性差異,否則說明存在顯著性差異。
本發(fā)明選用玉米數(shù)據(jù)集、藥片數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。對于SBC、PDS、CT_pls算法均采用PLS算法作為主體算法,使用源域數(shù)據(jù)建立多元標(biāo)定模型作為參考模型,用于對遷移的目標(biāo)域預(yù)測樣本進(jìn)行預(yù)測。同時(shí),采用PLS算法,建立目標(biāo)域訓(xùn)練樣本的多元標(biāo)定模型,用于對比標(biāo)定遷移模型的預(yù)測性能,便于對SBC、PDS、CT_pls標(biāo)定遷移方法做出更全面、準(zhǔn)確的評估。實(shí)驗(yàn)結(jié)果主要包含以下幾個(gè)部分:
(1)PLS算法的主成分?jǐn)?shù)選取過程以及RMSEC、RMSEP、RMSECV的結(jié)果展示。
(2)PDS算法窗口大小的選擇過程。
(3)在不同的標(biāo)準(zhǔn)樣本數(shù)下,SBC、PDS、CT_pls三種遷移算法的RMSEP的變化情況。
(4)設(shè)置固定的標(biāo)準(zhǔn)樣本數(shù),SBC、PDS、CT_pls三種遷移算法預(yù)測能力的比較。
(5)標(biāo)定遷移前后,模型預(yù)測能力的比較及參數(shù)設(shè)置。
采用玉米數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。表3.1展示了直接使用玉米的目標(biāo)域訓(xùn)練集建立對應(yīng)水份、油分、蛋白質(zhì)、淀粉含量的PLS模型的訓(xùn)練誤差、交叉驗(yàn)證誤差、預(yù)測誤差以及主成分?jǐn)?shù)。
表3.1玉米的目標(biāo)域數(shù)據(jù)集PLS模型的誤差及參數(shù)
從表3.1中可以看出,玉米中每種成分的RMSEC、RMSECV、RMSEP沒有很大的差別,說明未出現(xiàn)過擬合現(xiàn)象,且RMSEP較小,說明也未出現(xiàn)欠擬合現(xiàn)象,進(jìn)而可以說明主成分?jǐn)?shù)選取的合理。本發(fā)明采用10折交叉驗(yàn)證方法對PLS算法的主成分進(jìn)行選取,圖5(A)(B)(C)(D)分別給出了關(guān)于玉米中水份、油份、蛋白質(zhì)、淀粉含量的PLS模型的RMSECV隨主成分?jǐn)?shù)的變化過程,分別在主成分?jǐn)?shù)為5,5,5,5時(shí),取得RMSECV的最小值,因此關(guān)于玉米中各個(gè)組分含量的PLS模型的最佳主成分?jǐn)?shù)分別為5,5,5,5。雖然設(shè)置最大主成分?jǐn)?shù)為5,玉米數(shù)據(jù)集各個(gè)組分RMSECV未隨著主成分?jǐn)?shù)的變化而收斂,無法取得全局的最小值,但是如果主成分?jǐn)?shù)選取過大會(huì)出現(xiàn)過擬合現(xiàn)象,且會(huì)增加PLS模型的復(fù)雜度,通過多次實(shí)驗(yàn)分析,選取最大主成分為5可以獲得較為滿意的效果。
對于PDS算法,需要對窗口大小進(jìn)行合理選擇,本發(fā)明通過5折交叉驗(yàn)證的方法對窗口大小進(jìn)行選擇,圖6(A)(B)(C)(D)分別給出了關(guān)于玉米中水份、油份、蛋白質(zhì)、淀粉含量的PDS模型的窗口大小選擇過程,選取最小RMSECV對應(yīng)的窗口大小為PDS模型的最佳窗口。從圖6中對于水份含量的PDS模型,最佳窗口大小為13,而其他三種成分的PDS模型,最佳窗口大小為3。
對于SBC、PDS、CT_pls算法,其預(yù)測性能受標(biāo)準(zhǔn)樣本數(shù)量影響。因?yàn)闃?biāo)準(zhǔn)樣本的數(shù)量影響著轉(zhuǎn)移關(guān)系,轉(zhuǎn)移關(guān)系又直接影響著預(yù)測精度,所以標(biāo)準(zhǔn)樣本的數(shù)量影響著標(biāo)定遷移模型的預(yù)測性能。表3.2-表3.5展示了在標(biāo)準(zhǔn)樣本數(shù)不同的情況下,玉米中水分、油分、蛋白質(zhì)、淀粉四種物質(zhì)含量在不同模型下的預(yù)測誤差,其中第一行的N表示標(biāo)準(zhǔn)樣本數(shù)。此處的PLS模型表示直接使用目標(biāo)域訓(xùn)練數(shù)據(jù)建立的基準(zhǔn)模型,因此在對目標(biāo)域測試樣本進(jìn)行預(yù)測時(shí),不需要對樣本進(jìn)行遷移,所以預(yù)測誤差與標(biāo)準(zhǔn)樣本數(shù)無關(guān)。
表3.2玉米中水分含量的預(yù)測誤差
從表3.2中可以看出,對于SBC算法,最小的預(yù)測誤差為0.3081,與PLS方法的預(yù)測誤差為0.1916,二者相差較大。由于SBC僅適用于系統(tǒng)化誤差的情況下,說明對于水分的預(yù)測,SBC方法并不適合。對于PDS算法,最小的預(yù)測誤差在N=45處獲得,RMSECP=0.1767,對于CT_pls算法,最小的預(yù)測誤差在N=13處獲得,RMSEP=0.1678,二者的較小的預(yù)測誤差均在N=32處取得,分別為0.1860,0.1831。由此可見,標(biāo)準(zhǔn)樣本數(shù)過多或過少都不能獲得最佳的轉(zhuǎn)移關(guān)系。
從表3.3中可以看出,SBC方法在N=52時(shí)獲得最小的預(yù)測誤差0.0668,但在除N=26外的其他的標(biāo)準(zhǔn)樣本數(shù)下的預(yù)測誤差都與其接近,且都接近PLS的預(yù)測誤差0.0624,說明SBC方法適合油分的預(yù)測。PDS算法的最小預(yù)測誤差在N=52處取得,RMSEP=0.0787,CT_pls算法的最小預(yù)測誤差在N=45處取得,RMSEP=0.0723,較小值都在N=32處取得,分別為0.0832和0.0740,且自N=32以后,PDS和CT_pls的RMSEP變化都不大。
表3.3玉米中油分含量的預(yù)測誤差
表3.4玉米中蛋白質(zhì)含量的預(yù)測誤差
從表3.4可以看出,SBC方法在N=39處取得最小預(yù)測誤差,RMSEP=0.2552,且在整個(gè)標(biāo)準(zhǔn)樣本數(shù)變化的過程中,RMSEP的變化并不大。PDS算法,在N=45處取得最小值0.2296,且自N=32以后,RMSEP相對穩(wěn)定。CT_pls算法在N=45處取得最小預(yù)測誤差0.2093,且自N=26以后,RMSEP相對穩(wěn)定。
表3.5玉米中淀粉含量的預(yù)測誤差
從表3.5可以看出,SBC算法的最小預(yù)測誤差在N=39處取得,RMSEP=0.5775,且RMSEP相對穩(wěn)定。PDS算法在N=32處取得,RMSEP=0.4964,較小值在N=26和N=39處取得,分別為0.5101,0.5270。CT_pls算法在N=52處取得預(yù)測誤差最小值0.4592,且在N=(26,32,39,45)處取得較小值。
通過對表3.2-表3.5進(jìn)行分析,可以得出以下結(jié)論:第一,標(biāo)準(zhǔn)樣本數(shù)的變化對SBC算法的預(yù)測能力并不大,且SBC算法的預(yù)測能力并不穩(wěn)定。例如,對于油份的預(yù)測取得很好的效果,稍好于PDS和CT_pls算法,且接近PLS算法,但是對于水份的預(yù)測的效果卻很差,遠(yuǎn)不及PDS和CT_pls算法,又與PLS的預(yù)測誤差相差較大。第二,對于PDS和CT_pls算法的預(yù)測誤差受標(biāo)準(zhǔn)樣本數(shù)影響較大,大體上,在N<32時(shí),預(yù)測誤差較大,且隨著樣本數(shù)的增加,RMSEP會(huì)下降,在N=32處取得最小值或較小值,此后,隨著樣本數(shù)增加RMSEP變化不大或者下降,因此選擇32個(gè)標(biāo)準(zhǔn)樣本(即訓(xùn)練樣本的50%)可以獲得較好的遷移效果。第三,綜合比較SBC、PDS、CT_pls算法的預(yù)測性能,CT_pls的預(yù)測性能最佳,其次是PDS算法,再次是SBC算法。
為了更加公平、直觀地比較標(biāo)定遷移算法的預(yù)測效果,本發(fā)明均選擇32個(gè)標(biāo)準(zhǔn)樣本建立源域和目標(biāo)域之間的轉(zhuǎn)移關(guān)系,圖7-圖10給出了對應(yīng)于玉米中各種組分的各個(gè)算法預(yù)測值與真實(shí)值的比較圖,預(yù)測值越接近真實(shí)值,相應(yīng)的標(biāo)注點(diǎn)則越接近y=x這條直線,因此可以根據(jù)每種算法對應(yīng)的標(biāo)注點(diǎn)在直線y=x附近的集中程度,來判斷算法的預(yù)測性能,進(jìn)而可以更加直觀地觀察它們的預(yù)測效果。
由于PDS、CT_pls模型的預(yù)測誤差差別不大,通過圖7-圖10無法根據(jù)標(biāo)注點(diǎn)的集中程度對比出兩種算法優(yōu)劣,因此在表3.6中展示了對應(yīng)于圖7-圖10預(yù)測值的預(yù)測誤差。同時(shí)表3.7-表3.10給出了CT_pls對PLS、SBC、PDS算法的預(yù)測誤差改善率或下降率以及它們之間進(jìn)行秩和檢驗(yàn)的p值。
表3.6玉米數(shù)據(jù)集各個(gè)成分濃度在不同模型下的預(yù)測誤差
表3.7玉米中水份含量CT_pls算法對其他算法的改善率和秩和檢驗(yàn)的p值
表3.8玉米中油份含量CT_pls算法對其他算法的改善率和秩和檢驗(yàn)的p值
表3.9玉米中蛋白質(zhì)含量CT_pls算法對其他算法的改善率和秩和檢驗(yàn)的p值
表3.10玉米中淀粉含量CT_pls算法對其他算法的改善率和秩和檢驗(yàn)的p值
從表3.6-表3.10,進(jìn)一步說明了SBC、PDS、CT_pls三種遷移算法中,CT_pls算法的預(yù)測性能最優(yōu),PDS算法次之,SBC算法最差。并且,由于表3.7-3.10中的p值均大于0.05,說明CT_pls算法與其他算法之間不存在顯著性差異。
最后,利用直接利用源域模型對未進(jìn)行轉(zhuǎn)移目標(biāo)域測試樣本進(jìn)行預(yù)測,并與使用CT_pls算法進(jìn)行的預(yù)測進(jìn)行比較,進(jìn)而可以直觀地對CT_pls模型的遷移能力進(jìn)行評估。圖11-圖14給出了未進(jìn)行標(biāo)定遷移的模型的預(yù)測值和真實(shí)值的比較圖和使用CT_pls算法進(jìn)行標(biāo)定遷移的預(yù)測值和真實(shí)值的比較圖。
在圖11-圖14中,圓點(diǎn)表示未進(jìn)行標(biāo)定遷移時(shí),目標(biāo)域測試樣本真實(shí)值與預(yù)測值之間的關(guān)系點(diǎn),五角星表示使用CT_pls算法進(jìn)行標(biāo)定遷移后的目標(biāo)域預(yù)測值和真實(shí)值之間的關(guān)系點(diǎn)。從圖11-圖14可以看出,深色的圓點(diǎn)都嚴(yán)重偏離直線y=x,而五角星都集中在直線y=x附近,說明直接使用源域模型對目標(biāo)域數(shù)據(jù)進(jìn)行預(yù)測會(huì)出現(xiàn)很大的偏差,這種偏差由不同的測量儀器引入,而在使用CT_pls算法進(jìn)行標(biāo)定遷移后,可以在很大程度上縮小源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)之間的偏差,進(jìn)而可以直接使用源域模型對轉(zhuǎn)移后的目標(biāo)與數(shù)據(jù)進(jìn)行預(yù)測,并且獲得和很好的預(yù)測效果。
采用藥片數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。表11展示了直接使用藥片的目標(biāo)域訓(xùn)練集建立對應(yīng)三種活性成分含量的PLS模型的訓(xùn)練誤差、交叉驗(yàn)證誤差、預(yù)測誤差以及主成分?jǐn)?shù)。
表3.11藥片的目標(biāo)域數(shù)據(jù)集PLS模型的誤差及參數(shù)
從表3.11中可以看出,藥片中每種成分的RMSEC、RMSECV、RMSEP都在相同的數(shù)量級上,說明未出現(xiàn)過擬合現(xiàn)象,且RMSEP較小,說明也未出現(xiàn)欠擬合現(xiàn)象,進(jìn)而可以說明主成分?jǐn)?shù)選取的合理。本發(fā)明的實(shí)施例采用10折交叉驗(yàn)證方法對PLS算法的主成分進(jìn)行選取,圖15(A)(B)(C)分別給出了關(guān)于藥片中三種活性成分含量的PLS模型的RMSECV隨主成分?jǐn)?shù)的變化過程,分別在主成分?jǐn)?shù)為3,2,5時(shí),取得RMSECV的最小值,因此關(guān)于藥片中各個(gè)組分含量的PLS模型的最佳主成分?jǐn)?shù)分別為3,2,5。
對于PDS算法,本發(fā)明的實(shí)施例通過5折交叉驗(yàn)證的方法對窗口大小進(jìn)行選擇,圖16(A)(B)(C)分別給出了關(guān)于藥片三種活性成分含量的PDS模型的窗口大小選擇過程。從圖16中可以看出,對應(yīng)第一種活性成分的PDS模型,最佳窗口大小為19,而其兩種活性成分的PDS模型,最佳窗口大小分別為3和13。
對于SBC、PDS、CT_pls算法,表12-表14展示了在標(biāo)準(zhǔn)樣本數(shù)不同的情況下,藥片中三種活性成分含量在不同模型下的預(yù)測誤差,其中第一行的N表示標(biāo)準(zhǔn)樣本數(shù),PLS模型為目標(biāo)域訓(xùn)練數(shù)據(jù)建立的模型。
表3.12藥片中第一種活性成分含量的預(yù)測誤差
表3.13藥片中第二種活性成分含量的預(yù)測誤差
表3.14藥片中第三種活性成分含量的預(yù)測誤差
從表3.12-表3.14中可以看出,在標(biāo)準(zhǔn)樣本數(shù)的變化過程中,CT_pls算法可以預(yù)測誤差基本上都稍低于PDS算法的預(yù)測誤差,且SBC算法的預(yù)測誤差往往高于PDS算法的預(yù)測誤差。說明CT_pls算法的預(yù)測性能優(yōu)于PDS算法,PDS算法的預(yù)測性能優(yōu)于SBC算法,并且CT_pls和PDS算法的預(yù)測誤差都接近PLS算法的預(yù)測誤差,說明二者都有較好的標(biāo)定遷移能力。此外SBC算法在對第二種活性成分的預(yù)測誤差也接近PLS算法的預(yù)測誤差,但對第一種活性成分的預(yù)測誤差與PLS算法的相差較大,進(jìn)一步說明了SBC算法應(yīng)用的不廣泛性。
圖17、圖18、圖19分別展示了在N=78時(shí)(即訓(xùn)練集的50%的樣本),對應(yīng)于三種活性成分的PLS、SBC、PDS、CT_pls四種模型的真實(shí)值與預(yù)測值的比較圖。
通過圖17、圖18、圖19無法很明確地根據(jù)標(biāo)注點(diǎn)的集中程度對比出兩種算法優(yōu)劣,因此在表3.14中展示了對應(yīng)于圖17、圖18、圖19預(yù)測值的預(yù)測誤差。同時(shí)表3.16、表3.17、表3.18給出了CT_pls對PLS、SBC、PDS算法的預(yù)測誤差改善率或下降率以及它們之間進(jìn)行秩和檢驗(yàn)的p值。
表3.15藥片數(shù)據(jù)集各個(gè)活性成分含量在不同模型下的預(yù)測誤差
表3.16藥片中活性成分1含量的CT_pls模型對其他模型的改善率和秩和檢驗(yàn)的p值
表3.17藥片中活性成分2含量的CT_pls模型對其他模型的改善率和秩和檢驗(yàn)的p值
表3.18藥片中活性成分3含量的CT_pls模型對其他模型的改善率和秩和檢驗(yàn)的p值
從表3.15-表3.17中可以看出,對于藥片數(shù)據(jù)活性成分含量的預(yù)測,CT_pls算法的預(yù)測性能達(dá)到最佳,甚至優(yōu)于直接使用目標(biāo)域數(shù)據(jù)建立的PLS模型,PDS算法的預(yù)測性能十分接近PLS模型,SBC模型的預(yù)測性能最差。并且每組p值都小于0.05,說明CT_pls算法和其他算法之間存在著顯著性差異。
圖20、圖21、圖22給出了未進(jìn)行標(biāo)定遷移的模型的預(yù)測值和真實(shí)值的比較圖和使用CT_pls算法進(jìn)行標(biāo)定遷移的預(yù)測值和真實(shí)值的比較圖。
從圖20、圖21、圖22中可以看出,五角星型的標(biāo)注點(diǎn)比圓點(diǎn)型的標(biāo)注點(diǎn)更加接近且集中于直線y=x附近,說明使用CT_pls算法進(jìn)行標(biāo)定遷移后,獲得了更好的預(yù)測效果。然而,與玉米數(shù)據(jù)集相比,藥片數(shù)據(jù)集的遷移效果并不明顯,這是因?yàn)樗幤瑪?shù)據(jù)集的主光譜和從光譜差異并不太大,這一點(diǎn)從圖4可以看出。
本發(fā)明的分析方法使用目標(biāo)域訓(xùn)練樣本建立PLS模型作為基準(zhǔn)模型,用于對比SBC、PDS、CT_pls三種標(biāo)定遷移模型的遷移能力。實(shí)驗(yàn)結(jié)果表明,PDS和CT_pls模型的預(yù)測誤差都接近PLS的預(yù)測誤差,說明二者都具有較好的遷移能力,并且CT_pls模型的預(yù)測誤差小于PDS模型的預(yù)測誤差。而SBC模型不是總能獲得好的預(yù)測效果,說明其穩(wěn)定性及預(yù)測能力遠(yuǎn)不及PDS和CT_pls模型。因此,綜合來看,三種遷移模型中,CT_pls模型具有最佳的預(yù)測性能,PDS次之,SBC最差。
在本發(fā)明中,術(shù)語“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對重要性。術(shù)語“多個(gè)”指兩個(gè)或兩個(gè)以上,除非另有明確的限定。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。