應(yīng)用智能支持向量機(jī)對(duì)多環(huán)芳烴性質(zhì)/毒性的預(yù)測(cè)方法
【專利摘要】本發(fā)明涉及應(yīng)用智能支持向量機(jī)對(duì)多環(huán)芳烴性質(zhì)/毒性的預(yù)測(cè)方法,該方法根據(jù)已測(cè)的多環(huán)芳烴的分子結(jié)構(gòu),利用定量構(gòu)效關(guān)系技術(shù),建立多環(huán)芳烴環(huán)化指標(biāo)預(yù)測(cè)模型和多環(huán)芳烴致癌性預(yù)測(cè)模型,應(yīng)用支持向量機(jī)算法,實(shí)現(xiàn)了對(duì)小樣本、非線性、高維問題的處理。并采用網(wǎng)格搜索法、遺傳算法、粒子群算法優(yōu)化模型,避免了參數(shù)的影響,進(jìn)一步增加模型的準(zhǔn)確性。本發(fā)明利用智能優(yōu)化支持向量機(jī)可以快速的預(yù)測(cè)未知多環(huán)芳烴的性質(zhì)和毒性,相比傳統(tǒng)的毒理性測(cè)試實(shí)驗(yàn)提高了測(cè)試效率,相比于傳統(tǒng)的統(tǒng)計(jì)預(yù)測(cè)法提高了泛化能力。相比正常算法避免了參數(shù)影響。實(shí)現(xiàn)了程序化,能為多環(huán)芳烴的環(huán)境評(píng)價(jià)提供可參考的決策性依據(jù)。
【專利說明】
應(yīng)用智能支持向量機(jī)對(duì)多環(huán)芳烴性質(zhì)/毒性的預(yù)測(cè)方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種分子定量結(jié)構(gòu)-性質(zhì)/活性相關(guān)研究方法,特別是一種智能優(yōu)化方法的應(yīng)用與比較,即一種應(yīng)用智能優(yōu)化支持向量機(jī)對(duì)多環(huán)芳烴性質(zhì)/毒性定量構(gòu)效的預(yù)測(cè)方法。
【背景技術(shù)】
[0002]隨著全球發(fā)展進(jìn)程的加快,大氣受污染的程度進(jìn)一步加劇,大氣懸浮顆粒物是影響大氣環(huán)境質(zhì)量和危害人體健康的重要大氣污染物之一。大氣顆粒物與臭氧層破壞、全球變暖、酸雨等環(huán)境問題都有很高的關(guān)聯(lián)性,而且與沙塵暴、光化學(xué)煙霧等嚴(yán)重大氣污染都有密切關(guān)系。流行病學(xué)的調(diào)查與研究表明,可吸入顆粒物隨著暴露水平的增加,由急性病、心血管疾病、呼吸系統(tǒng)疾病引發(fā)的死亡率隨之增加(參見Indoor and Outdoor Exposure toUltrafine, Fine and Microb1logically Derived Particulate Matter Related toCard1vascular and Respiratory Effects in a Panel of Elderly Urban Citizens,Dorina G K, Michal S,Marie F, et al.2015.)。并能引起哮喘、肺功能下降、呼吸系統(tǒng)炎癥,甚至累及心血管系統(tǒng)、神經(jīng)系統(tǒng)、免疫系統(tǒng),促使癌癥發(fā)生。大氣顆粒物對(duì)人體健康的危害主要跟其理化性質(zhì)有關(guān),包括顆粒物的粒徑、化學(xué)組分、數(shù)量、結(jié)構(gòu)等,其中有機(jī)化學(xué)組分是主要影響因素。有機(jī)物是大氣顆粒的重要化學(xué)組分,約占其干重的10?70%(參見Persistent Organic Pollutants (POPs) on Fine and Coarse Atmospheric ParticlesMeasured at Two (Urban and Industrial) Sites,Mustafa 0, Banu C, AbdurrahmanB.2015.)。其中,在健康影響中最為關(guān)注的是多環(huán)芳烴(PAHs),及其衍生物等。近年來,研究表明城市顆粒物尤其是交通源顆粒物表面含有大量且多種多環(huán)芳烴及多環(huán)芳烴的衍生物。因此,研究多環(huán)芳烴及多環(huán)芳烴衍生物對(duì)人體的影響也成為無法忽略的方向,促使更多的學(xué)者認(rèn)識(shí)到多環(huán)芳烴類化合物在大氣顆粒物生物毒性方面的重要作用,并在控制大氣污染物排放時(shí),需重視PAHs的控制。
[0003]現(xiàn)有的多環(huán)芳烴的毒性測(cè)試多用于動(dòng)物實(shí)驗(yàn),但動(dòng)物實(shí)驗(yàn)存在著高成本、人畜共患病、倫理問題等眾多弊端(參見Toxici ty of sediment-associated unresolvedcomplex mixture and its impact on b1availability ofpolycyclic aromatichydrocarbons, Juan D, ff.T Mr, Michael J.L, et al.2012.)。為解決動(dòng)物實(shí)驗(yàn)的檢測(cè)瓶頸問題,定量構(gòu)效技術(shù)出現(xiàn)于世并逐漸發(fā)展起來。定量構(gòu)效關(guān)系(Quant i tat iveStructure Property / Activity Relat1nship,QSP/AR),其核心思想是利用理論計(jì)算方法來描述化合物的結(jié)構(gòu)特征,以生物學(xué)來獲取化合物的毒性數(shù)據(jù)及任何化合物的致毒機(jī)理(參見Large-Scale Quantitative Structure-Property Relat1nship (QSPR) Analysisof Methane Storage in Metal-Organic Frameworks,Michael F, Tom K.ff, Cr E.WiImer, et al.2013)。通過模型的建立以分子結(jié)構(gòu)來表征化合物的性質(zhì)或毒性。通常定量構(gòu)效建模方法分為傳統(tǒng)統(tǒng)計(jì)預(yù)測(cè)、經(jīng)驗(yàn)非線性預(yù)測(cè)和機(jī)器學(xué)習(xí)等幾類途徑。由此可以看到,用來進(jìn)行定量構(gòu)效的建模方法經(jīng)歷了一個(gè)由簡(jiǎn)單到復(fù)雜,從線性到非線性的變化過程,并且正向著高維度、貧信息等方向發(fā)展。然而,支持向量機(jī)方法的應(yīng)用中,僅僅是與其他方法進(jìn)行對(duì)比研究,沒有很好地考慮到支持向量機(jī)參數(shù)的選擇好壞,這樣就造成了不準(zhǔn)確的參數(shù)的引入導(dǎo)致泛化能力的下降。如何確立最佳的支持向量參數(shù),建立一種智能優(yōu)化的支持向量機(jī)方法,并將其應(yīng)用到多環(huán)芳烴的性質(zhì)/毒性的預(yù)測(cè)成為發(fā)展趨勢(shì)。
[0004]基于以上現(xiàn)狀,為了解決上述問題,本發(fā)明的目的是提供了一種應(yīng)用智能優(yōu)化支持向量機(jī)對(duì)多環(huán)芳烴性質(zhì)/毒性定量構(gòu)效的預(yù)測(cè)方法。該方法能夠?qū)χС窒蛄繖C(jī)的參數(shù)進(jìn)行智能優(yōu)化,擇最佳參數(shù)建立模型,用于多環(huán)芳烴的定量結(jié)構(gòu)-性質(zhì)/毒性相關(guān)研究,可預(yù)測(cè)出多環(huán)芳烴性質(zhì)/毒性值。
【發(fā)明內(nèi)容】
[0005]本發(fā)明是通過以下技術(shù)方案來解決的:
應(yīng)用智能支持向量機(jī)對(duì)多環(huán)芳烴性質(zhì)/毒性的預(yù)測(cè)方法,該方法包括下述步驟:
1)通過相關(guān)的毒性試驗(yàn)或者已有的數(shù)據(jù)庫和文獻(xiàn),獲取67個(gè)多環(huán)芳烴的致癌性呈陰性或陽性數(shù)據(jù),15個(gè)多環(huán)芳烴空氣-正辛醇分配系數(shù)Koa;
2)使用ChemDraw化學(xué)軟件構(gòu)建多環(huán)芳經(jīng)的分子結(jié)構(gòu),利用量子化學(xué)軟件Hyperchem對(duì)構(gòu)造出的分子結(jié)構(gòu)進(jìn)行結(jié)構(gòu)優(yōu)化,首先采用分子力學(xué)方法,在MM+力場(chǎng)下對(duì)所建幾何構(gòu)型進(jìn)行初步優(yōu)化,然后在此基礎(chǔ)上通過半經(jīng)驗(yàn)的AMI量子化學(xué)方法進(jìn)行精優(yōu)化,以獲得能量最低的穩(wěn)定構(gòu)型。為在合理的時(shí)間內(nèi)獲得精確的分子模型,優(yōu)化均在嚴(yán)格的Hartree-Fock水平上進(jìn)行,采用Polak-Ribiere算法,直至梯度達(dá)到0.01 ;
3)再將優(yōu)化后的分子結(jié)構(gòu)輸入Dragon軟件計(jì)算相應(yīng)的描述符,獲得量子化學(xué)參數(shù):分子最高占據(jù)軌道能Eh_、分子最低空軌道能Elumc1、分子剛性h、分子極性α ;以及經(jīng)驗(yàn)參數(shù)分子量MW、分子體積V、分子長(zhǎng)度L、分子寬度B、和拓?fù)鋮?shù)分子連接性指數(shù)Randic,共同作為結(jié)構(gòu)描述符;
4)將所獲取的數(shù)據(jù)為了便于代入MATLAB軟件中,進(jìn)行格式轉(zhuǎn)化。建立致癌性PAHs_svc_scale, mat文件,包含67個(gè)多環(huán)芳經(jīng)致癌性數(shù)據(jù),分為47個(gè)訓(xùn)練集,20個(gè)測(cè)試集;建立空氣一正辛醇分配系數(shù)PAHs_svr_scale.mat文件,包含15個(gè)多環(huán)芳經(jīng)Kqa數(shù)據(jù),分為11個(gè)訓(xùn)練集,4個(gè)測(cè)試集;
5)在多環(huán)芳烴實(shí)測(cè)的實(shí)驗(yàn)致癌性值與其分子結(jié)構(gòu)參數(shù)化計(jì)算值間運(yùn)用支持向量機(jī)分類算法進(jìn)行數(shù)學(xué)建模,Koa與其分子描述符間運(yùn)用支持向量機(jī)回歸算法進(jìn)行數(shù)學(xué)建模;
6)對(duì)于所構(gòu)建的數(shù)學(xué)模型,為進(jìn)一步增加其預(yù)測(cè)的準(zhǔn)確性,用網(wǎng)格搜索法、遺傳算法、粒子群算法對(duì)支持向量機(jī)進(jìn)行智能優(yōu)化其參數(shù),然后用最佳的尋優(yōu)參數(shù)再進(jìn)行模型的建立;
7)在回歸模型的建立上,主要依據(jù)相關(guān)系數(shù)R和均方誤差MES進(jìn)行預(yù)測(cè)性能評(píng)價(jià),對(duì)于分類模型的建立,主要依據(jù)分類準(zhǔn)確率Accuracy進(jìn)行預(yù)測(cè)性評(píng)價(jià);
8)模型的驗(yàn)證是利用交叉檢驗(yàn)最常見的“留一法”Q2。分別對(duì)訓(xùn)練集和測(cè)試集進(jìn)行內(nèi)部檢驗(yàn)和外部檢驗(yàn),檢測(cè)所建模的穩(wěn)定性、預(yù)測(cè)能力和泛化能力;
9)由檢驗(yàn)指標(biāo)最佳的優(yōu)化方法,確定最佳對(duì)多環(huán)芳烴性質(zhì)/毒性的預(yù)測(cè)模型,用于預(yù)測(cè)沒有經(jīng)過實(shí)驗(yàn)測(cè)定的同類型有機(jī)毒物的相關(guān)性質(zhì)/毒性。
[0006]有益效果: 1.本發(fā)明應(yīng)用定量構(gòu)效關(guān)系技術(shù),實(shí)現(xiàn)了對(duì)多環(huán)芳烴的毒性檢測(cè),建立分子結(jié)構(gòu)與其性質(zhì)/毒性的關(guān)系,快速且有效的進(jìn)行毒性預(yù)測(cè),保證了對(duì)其致毒機(jī)理預(yù)測(cè)的準(zhǔn)確性;
2.本發(fā)明通過支持向量機(jī)算法建立數(shù)學(xué)模型,可針對(duì)小樣本、非線性、高維問題,進(jìn)行模型建立。避免了傳統(tǒng)預(yù)測(cè)的局部尋優(yōu),增強(qiáng)了預(yù)測(cè)的泛化能力,保證了模型建立的準(zhǔn)確性;
3.本發(fā)明通過網(wǎng)格搜索法、遺傳算法、粒子群算法三種智能優(yōu)化算法對(duì)所建模型進(jìn)行優(yōu)化處理。避免了支持向量參數(shù)對(duì)模型預(yù)測(cè)效果的影響。通過模型的精度檢驗(yàn),保證了模型的最佳準(zhǔn)確率,代入實(shí)例取得了良好的預(yù)測(cè)效果。
[0007]【附圖說明】。
[0008]附圖1為預(yù)測(cè)多環(huán)芳烴性質(zhì)/活性的流程示意圖。
[0009]附圖2為網(wǎng)格搜索優(yōu)化模型流程圖。
[0010]附圖3為遺傳算法優(yōu)化模型流程圖。
[0011 ]附圖4為粒子群算法優(yōu)化模型流程圖。
[0012]附圖5為網(wǎng)格搜索對(duì)參數(shù)的尋優(yōu)結(jié)果,并顯示了最佳的C和g的取值以及針對(duì)訓(xùn)練集的均方誤差值。
[0013]附圖6為遺傳算法對(duì)參數(shù)的尋優(yōu)結(jié)果,并顯示了最佳的C和g、P的取值以及針對(duì)訓(xùn)練集的均方誤差值。
[0014]附圖7為粒子群算法對(duì)參數(shù)的尋優(yōu)結(jié)果,并顯示了最佳的C和g的取值以及針對(duì)訓(xùn)練集的均方誤差值。
[0015]附圖8為網(wǎng)格尋優(yōu)后15個(gè)多環(huán)芳烴正辛醇/空氣配系數(shù)(1gKoA)的預(yù)測(cè)值和實(shí)驗(yàn)值折現(xiàn)圖。
[0016]附圖9為遺傳算法尋優(yōu)后15個(gè)多環(huán)芳烴正辛醇/空氣配系數(shù)(1gKoA)的預(yù)測(cè)值和實(shí)驗(yàn)值折現(xiàn)圖。
[0017]附圖10為粒子群算法尋優(yōu)后15個(gè)多環(huán)芳烴正辛醇/空氣配系數(shù)(1gKoA)的預(yù)測(cè)值和實(shí)驗(yàn)值折現(xiàn)圖。
[0018]【具體實(shí)施方式】:
實(shí)施例1:
下面以預(yù)測(cè)多環(huán)芳烴空氣-正辛醇分配系數(shù)Koa的定量構(gòu)效模型作為實(shí)例,對(duì)本發(fā)明進(jìn)行進(jìn)一步解釋。
[0019]根據(jù)實(shí)驗(yàn)結(jié)果獲得已知空氣-正辛醇分配系數(shù)Koa的多環(huán)芳烴數(shù)據(jù),共15個(gè),根據(jù)ChemDraw化學(xué)軟件構(gòu)建分子結(jié)構(gòu)并優(yōu)化,用Dragon軟件計(jì)算相應(yīng)的分子描述符分別為分子量(W)、分子體積(V)、分子長(zhǎng)度(L)、分子寬度(B)。從中抽取11個(gè)數(shù)據(jù)作為訓(xùn)練集建立預(yù)測(cè)模型,其余4個(gè)數(shù)據(jù)作為測(cè)試集進(jìn)行驗(yàn)證。
[0020]利用Iibsvm工具箱添加到MATLAB軟件中,并進(jìn)行文件編譯。將步驟(I)所獲得的數(shù)據(jù),進(jìn)行格式轉(zhuǎn)化,編譯成文件PAHs_SVr_SCale.mat,該文件主要包含四個(gè)矩陣數(shù)據(jù)文件:^^;[11_1里是一個(gè)11\3的矩陣,代表用于訓(xùn)練集的11個(gè)數(shù)據(jù)的屬性;1^&;[11_7里是一個(gè)11\I的列向量,代表用于訓(xùn)練集的11個(gè)數(shù)據(jù)的標(biāo)簽,即性;仏^_1里是一個(gè)4X3的矩陣,代表用于測(cè)試集的4個(gè)數(shù)據(jù)的屬性;仏^_7里是一個(gè)4X1的列向量,代表用于訓(xùn)練集的4個(gè)數(shù)據(jù)的標(biāo)簽。[0021 ]利用網(wǎng)格劃分進(jìn)行支持向量機(jī)的參數(shù)尋優(yōu),確立最佳的參數(shù)C=90.51,g=0.0039,并進(jìn)行可視化處理,網(wǎng)格尋優(yōu)結(jié)果的三維等高圖如圖5所示;利用遺傳算法進(jìn)行參數(shù)尋優(yōu),確立的最佳參數(shù)為C=51.6167,g=0.44031,尋優(yōu)結(jié)果如圖6所示;利用粒子群算法進(jìn)行參數(shù)尋優(yōu),確立的最佳參數(shù)為C=51.6167,g=0.44031,粒子群迭代效果如圖7所示。
[0022]分別應(yīng)用三種優(yōu)化算法所選擇的最優(yōu)參數(shù),對(duì)訓(xùn)練集進(jìn)行支持向量機(jī)回歸預(yù)測(cè)模型的建立,并將所建好的模型代入測(cè)試集再進(jìn)行預(yù)測(cè),來驗(yàn)證模型的準(zhǔn)確性。預(yù)測(cè)結(jié)果如圖
8、圖 9、圖 10。
[0023]利用步驟(4)所得的回歸預(yù)測(cè)值,建立模型分析Koa與實(shí)際Koa的相關(guān)系數(shù)、均方誤差,對(duì)多環(huán)芳烴Koa定量構(gòu)效關(guān)系模型進(jìn)行評(píng)價(jià)。最佳的優(yōu)化模型為網(wǎng)格尋優(yōu)建立的模型預(yù)測(cè)模型效果最好,R為0.913,MES為0.0597。
【主權(quán)項(xiàng)】
1.應(yīng)用智能支持向量機(jī)對(duì)多環(huán)芳烴性質(zhì)/毒性的預(yù)測(cè)方法,該方法包括下述步驟: 1)通過相關(guān)的毒性試驗(yàn)或者已有的數(shù)據(jù)庫和文獻(xiàn),獲取67個(gè)多環(huán)芳烴的致癌性呈陰性或陽性數(shù)據(jù),15個(gè)多環(huán)芳烴空氣-正辛醇分配系數(shù)Koa; 2)使用ChemDraw化學(xué)軟件構(gòu)建多環(huán)芳經(jīng)的分子結(jié)構(gòu),利用量子化學(xué)軟件Hyperchem對(duì)構(gòu)造出的分子結(jié)構(gòu)進(jìn)行結(jié)構(gòu)優(yōu)化,首先采用分子力學(xué)方法,在MM+力場(chǎng)下對(duì)所建幾何構(gòu)型進(jìn)行初步優(yōu)化,然后在此基礎(chǔ)上通過半經(jīng)驗(yàn)的AMI量子化學(xué)方法進(jìn)行精優(yōu)化,以獲得能量最低的穩(wěn)定構(gòu)型;為在合理的時(shí)間內(nèi)獲得精確的分子模型,優(yōu)化均在嚴(yán)格的Hartree-Fock水平上進(jìn)行,采用Polak-Ribiere算法,直至梯度達(dá)到0.01 ; 3)再將優(yōu)化后的分子結(jié)構(gòu)輸入Dragon軟件計(jì)算相應(yīng)的描述符,獲得量子化學(xué)參數(shù):分子最高占據(jù)軌道能Eh_、分子最低空軌道能Elumc1、分子剛性h、分子極性α ;以及經(jīng)驗(yàn)參數(shù)分子量MW、分子體積V、分子長(zhǎng)度L、分子寬度B、和拓?fù)鋮?shù)分子連接性指數(shù)Randic,共同作為結(jié)構(gòu)描述符; 4)將所獲取的數(shù)據(jù)為了便于代入MATLAB軟件中,進(jìn)行格式轉(zhuǎn)化,建立致癌性PAHs_svc_scale, mat文件,包含67個(gè)多環(huán)芳經(jīng)致癌性數(shù)據(jù),分為47個(gè)訓(xùn)練集,20個(gè)測(cè)試集;建立空氣一正辛醇分配系數(shù)PAHs_svr_scale.mat文件,包含15個(gè)多環(huán)芳經(jīng)Kqa數(shù)據(jù),分為11個(gè)訓(xùn)練集,4個(gè)測(cè)試集; 5)在多環(huán)芳烴實(shí)測(cè)的實(shí)驗(yàn)致癌性值與其分子結(jié)構(gòu)參數(shù)化計(jì)算值間運(yùn)用支持向量機(jī)分類算法進(jìn)行數(shù)學(xué)建模,Koa與其分子描述符間運(yùn)用支持向量機(jī)回歸算法進(jìn)行數(shù)學(xué)建模; 6)對(duì)于所構(gòu)建的數(shù)學(xué)模型,為進(jìn)一步增加其預(yù)測(cè)的準(zhǔn)確性,用網(wǎng)格搜索法、遺傳算法、粒子群算法對(duì)支持向量機(jī)進(jìn)行智能優(yōu)化其參數(shù),然后用最佳的尋優(yōu)參數(shù)再進(jìn)行模型的建立; 7)在回歸模型的建立上,主要依據(jù)相關(guān)系數(shù)R和均方誤差MES進(jìn)行預(yù)測(cè)性能評(píng)價(jià),對(duì)于分類模型的建立,主要依據(jù)分類準(zhǔn)確率Accuracy進(jìn)行預(yù)測(cè)性評(píng)價(jià); 8)模型的驗(yàn)證是利用交叉檢驗(yàn)最常見的“留一法”Q2,分別對(duì)訓(xùn)練集和測(cè)試集進(jìn)行內(nèi)部檢驗(yàn)和外部檢驗(yàn),檢測(cè)所建模的穩(wěn)定性、預(yù)測(cè)能力和泛化能力; 9)由檢驗(yàn)指標(biāo)最佳的優(yōu)化方法,確定最佳對(duì)多環(huán)芳烴性質(zhì)/毒性的預(yù)測(cè)模型,用于預(yù)測(cè)沒有經(jīng)過實(shí)驗(yàn)測(cè)定的同類型有機(jī)毒物的相關(guān)性質(zhì)/毒性。2.根據(jù)權(quán)利要求1所述的應(yīng)用智能支持向量機(jī)對(duì)多環(huán)芳烴性質(zhì)/毒性的預(yù)測(cè)方法,其特征在于: 1)實(shí)現(xiàn)對(duì)多環(huán)芳烴的環(huán)化指標(biāo)和致癌性的兩方面預(yù)測(cè),亦可適用于其他有機(jī)化合物,且模型都基于MATLAB軟件實(shí)現(xiàn),更利于工程使用; 2)應(yīng)用網(wǎng)格搜索法、遺傳算法、粒子群算法三種智能優(yōu)化方法進(jìn)行參數(shù)尋優(yōu),再建立模型,通過檢驗(yàn)指標(biāo)比較各優(yōu)化模型的預(yù)測(cè)結(jié)果,確立最佳的優(yōu)化模型,可進(jìn)一步增加定量構(gòu)效模型的準(zhǔn)確性,提升預(yù)測(cè)能力。
【文檔編號(hào)】G06K9/62GK105868540SQ201610176440
【公開日】2016年8月17日
【申請(qǐng)日】2016年3月25日
【發(fā)明人】周真, 楊旭, 牛訦琛, 陳鑫
【申請(qǐng)人】哈爾濱理工大學(xué)