本發(fā)明具體涉及一種有機(jī)化合物分子結(jié)構(gòu)參數(shù)化表征方法,屬于揮發(fā)性有機(jī)污染物qsrr(定量結(jié)構(gòu)-色譜保留關(guān)系)研究方法技術(shù)領(lǐng)域。
背景技術(shù):
揮發(fā)性有機(jī)污染物沸點(diǎn)低、種類繁多,是水體中常見和重要的污染物。大多數(shù)揮發(fā)性有機(jī)物在大氣中具有反應(yīng)活性,是光化學(xué)煙霧的反應(yīng)物,見論文:大氣揮發(fā)性有機(jī)物的日變化特征及在臭氧生成中的作用-以廣州夏季為例[j].環(huán)境科學(xué)學(xué)報(bào),2009,29(1):54-62。大氣中揮發(fā)性有機(jī)污染物危害動植物生長、威脅人類健康,進(jìn)入水體后造成飲用水污染。對飲用水中有機(jī)污染物的種類和性質(zhì)進(jìn)行研究具有重要意義。見論文:水中57中vocs的快速gcms分析[j].凈水技術(shù),2016,35(s1):83-88,112,采用氣相色譜-質(zhì)譜聯(lián)用技術(shù)分析了飲用水中的揮發(fā)性有機(jī)污染物,最后在飲用水中鑒定出50多種有機(jī)化合物。有機(jī)化合物qsrr研究對于預(yù)測化合物色譜保留時(shí)間、解釋保留機(jī)理、輔助鑒定化合物等具有重要意義,在有機(jī)化合物qsrr/qsar(定量結(jié)構(gòu)-性質(zhì)/活性關(guān)系)研究中,首先需要將分子結(jié)構(gòu)進(jìn)行參數(shù)化表達(dá),然后選用合適的方法構(gòu)建結(jié)構(gòu)與性質(zhì)之間的關(guān)系模型,研究者們在這方面做過許多工作,但是目前還沒有非常有效簡便的方法出現(xiàn)。
技術(shù)實(shí)現(xiàn)要素:
因此,針對現(xiàn)有技術(shù)的上述不足,本發(fā)明目的是選用部分飲用水中揮發(fā)性有機(jī)化合物為研究樣本,以化合物非氫原子及非氫原子之間的關(guān)系構(gòu)建新的結(jié)構(gòu)描述符,對化合物結(jié)構(gòu)進(jìn)行參數(shù)化表達(dá),采用逐步回歸(smr)與偏最小二乘回歸(pls)相結(jié)合的方法構(gòu)建化合物結(jié)構(gòu)與氣相色譜保留時(shí)間(tr)之間的關(guān)系模型,用于預(yù)測揮發(fā)性有機(jī)污染物的色譜保留時(shí)間(tr)、輔助鑒定揮發(fā)性有機(jī)污染物。
本發(fā)明的方法包括以下步驟:
步驟一選取樣本
選取56個(gè)飲用水中揮發(fā)性化合物為研究樣本,化合物氣相色譜保留時(shí)間以tr表示;
步驟二化合物分子結(jié)構(gòu)表征
將樣本中與1、2、3、4個(gè)其它非氫原子直接相連的非氫原子分別規(guī)定為第一、二、三、四類非氫原子,然后按公式一將非氫原子進(jìn)行參數(shù)化染色,
式中,i為非氫原子在分子中的編碼,ni為非氫原子i的主量子數(shù),xi為電負(fù)性,xc為碳原子的電負(fù)性,mi為最外層電子數(shù),hi為與其直接連接的氫原子數(shù),
對于不同類型非氫原子自身對化合物性質(zhì)的影響,按公式二進(jìn)行分類累加,
式中,k表示非氫原子i的原子類型,zi按公式一計(jì)算,根據(jù)非氫原子的分類,對于一個(gè)有機(jī)化合物分子中最多含有4類非氫原子,因此最終可得到4個(gè)非氫原子自身對化合物性質(zhì)貢獻(xiàn)項(xiàng),用x1、x2、x3和x4表示,
對于非氫原子之間的關(guān)系對分子性質(zhì)的影響,采用gaussian形距離關(guān)系函數(shù)即公式三計(jì)算,
zi、zj按公式一計(jì)算;dij是非氫原子i、j之間的相對距離,即鍵長之和與碳碳單鍵鍵長的比值,如果i、j之間有多條路徑,則以最短的為準(zhǔn),n和l為原子所屬類型,α取0.5,化合物分子中4類非氫原子可以組合出以下10種關(guān)系項(xiàng):m11、m12、…、m44,簡寫為x5、x6、…、x14,這樣最多將有14個(gè)變量。
步驟三變量篩選及建模
將步驟二所獲得的變量,首先采用逐步回歸依據(jù)變量顯著性對變量進(jìn)行篩選,然后以篩選出的變量組合為因變量x,以化合物氣相色譜保留時(shí)間(tr)為因變量y,運(yùn)用偏最小二乘回歸(pls)建立模型。
本發(fā)明的有益效果在于:本發(fā)明提供一種有機(jī)化合物分子結(jié)構(gòu)參數(shù)化表征方法,將分子中的非氫原子進(jìn)行分類并參數(shù)化染色,將非氫原子自身及不同非氫原子之間的關(guān)系作為分子結(jié)構(gòu)描述符,對部分飲用水中揮發(fā)性有機(jī)化合物結(jié)構(gòu)進(jìn)行了參數(shù)化表征。采用逐步回歸與偏最小二乘相結(jié)合的方法(smr-pls)構(gòu)建了化合物結(jié)構(gòu)與氣相色譜保留時(shí)間(tr)的關(guān)系模型,模型相關(guān)系數(shù)(r2)及交互檢驗(yàn)的相關(guān)系數(shù)(q2)均較為理想,一定程度上揭示了影響化合物氣相色譜保留時(shí)間(tr)的結(jié)構(gòu)因素。模型可以較準(zhǔn)確地預(yù)測飲用水中揮發(fā)性有機(jī)化合物的氣相色譜保留時(shí)間(tr),對于有機(jī)污染物的qspr/qsar研究具有很高的參考價(jià)值。
附圖說明
圖1為實(shí)施例中56個(gè)樣本在pls前兩個(gè)主成分得分空間散點(diǎn)分布圖;
圖2為實(shí)施例中偏最小二乘x空間規(guī)格化模型距離示意圖;
圖3為實(shí)施例中pls中變量重要性(vip)投影圖;
圖4為實(shí)施例中樣本在前兩個(gè)主成分的載荷圖;
圖5為實(shí)施例預(yù)測值與實(shí)驗(yàn)值相關(guān)圖;
圖6為實(shí)施例預(yù)測誤差分布圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行說明:
實(shí)驗(yàn)材料
選取56個(gè)飲用水中揮發(fā)性化合物為研究樣本,化合物氣相色譜保留時(shí)間以tr表示,實(shí)驗(yàn)值取自論文:水中57中vocs的快速gcms分析[j].凈水技術(shù),2016,35(s1):83-88,112。化合物及其氣相色譜保留時(shí)間(tr)列于表1。
表1
化合物分子結(jié)構(gòu)表征
有機(jī)化合物的色譜保留時(shí)間(tr)除了與測量因素有關(guān)外,還與分子的結(jié)構(gòu)相關(guān)。構(gòu)成化合物原子種類、數(shù)目、原子之間的連接方式等都會對tr產(chǎn)生影響。在分子結(jié)構(gòu)隱氫圖中,不同非氫原子及非氫原子之間的關(guān)系對化合物性質(zhì)具有重要影響,而氫原子的影響可以忽略。首先將非氫原子分為4類,與1、2、3、4個(gè)其它非氫原子直接相連的非氫原子分別規(guī)定為第一、二、三、四類非氫原子,如與2個(gè)非氫原子相連的仲碳原子屬于第二類非氫原子。然后將非氫原子進(jìn)行參數(shù)化染色。
式中,i為非氫原子在分子中的編碼,ni為非氫原子i的主量子數(shù),xi為電負(fù)性,xc為碳原子的電負(fù)性(pauling標(biāo)度),mi為最外層電子數(shù),hi為與其直接連接的氫原子數(shù)。
對于不同類型非氫原子自身對化合物性質(zhì)的影響,按式(2)進(jìn)行分類累加。
式中,k表示非氫原子i的原子類型,zi按式(1)計(jì)算。根據(jù)非氫原子的分類,對于一個(gè)有機(jī)化合物分子中最多含有4類非氫原子,因此最終可得到4個(gè)非氫原子自身對化合物性質(zhì)貢獻(xiàn)項(xiàng),用x1、x2、x3和x4表示。
對于非氫原子之間的關(guān)系對分子性質(zhì)的影響,采用gaussian形距離關(guān)系函數(shù)式(3)計(jì)算,這種關(guān)系不是原子之間的具體作用方式,而是要反映出非氫原子之間的相關(guān)程度隨距離增減呈反向變化以及隨原子性質(zhì)改變呈正向變化。
zi、zj按式(1)計(jì)算;dij是非氫原子i、j之間的相對距離(即鍵長之和與碳碳單鍵鍵長的比值,如果i、j之間有多條路徑,則以最短的為準(zhǔn));n和l為原子所屬類型;α取0.5?;衔锓肿又?類非氫原子可以組合出以下10種關(guān)系項(xiàng):m11、m12、…、m44,簡寫為x5、x6、…、x14。這樣最多將有14個(gè)變量(結(jié)構(gòu)描述符)來描述化合物結(jié)構(gòu)信息。
qsrr建模與檢驗(yàn)
對于一個(gè)樣本集,并非每一個(gè)結(jié)構(gòu)描述子都含與化合物保留時(shí)間相關(guān)的信息,對于那些相關(guān)性不大的描述符即噪聲,若將它們留在模型中不僅會影響回歸效果,而且還會大大降低預(yù)測能力。因此,建模前對變量進(jìn)行篩選就顯得尤為必要,而逐步回歸(stepwiseregression,smr)是篩選變量的常用方法。偏最小二乘回歸(partialleastsquares,pls)是目前較流行的一種建模方法,該方法可有效解決變量間的多重共線性問題。采用逐步回歸(smr)與偏最小二乘回歸(pls)相結(jié)合的方法進(jìn)行建模分析,運(yùn)用“留一法”對模型預(yù)測能力進(jìn)行檢驗(yàn)。一般認(rèn)為,建模相關(guān)系數(shù)(r2)在0.64-1.0之間,表明模型高度相關(guān);標(biāo)準(zhǔn)偏差(sd)與數(shù)值范圍的比例小于10%時(shí),表明模型預(yù)測準(zhǔn)確性良好;交互檢驗(yàn)相關(guān)系數(shù)q2≥0.5,表明模型具有良好的穩(wěn)健性和預(yù)測能力。
將化合物結(jié)構(gòu)進(jìn)行參數(shù)化表征得到結(jié)構(gòu)描述符,首先采用逐步回歸(smr)依據(jù)變量顯著性大小依次提取變量。然后以挑選出的變量組合為因變量x,以化合物氣相色譜保留時(shí)間(tr)為因變量y,然后運(yùn)用偏最小二乘回歸(pls)建立模型。最終smr共挑選出12個(gè)變量組合用于建模,變量篩選及相應(yīng)的pls結(jié)果見表2。
表2
一個(gè)好的預(yù)測模型不但對內(nèi)部樣本具有較好的擬合能力,而且還應(yīng)該對外部樣本具有較強(qiáng)的預(yù)測能力。因此在選擇模型時(shí),在保證對內(nèi)部樣本具有良好擬合效果的情況下,盡量選擇交互檢驗(yàn)相關(guān)系數(shù)(q2)較大的模型,以確保模型具有較強(qiáng)的預(yù)測能力。表2中可以看出,應(yīng)該選擇由逐步回歸(smr)第八步挑選的變量組合(所選結(jié)構(gòu)描述符列于表1)建模所得模型,此時(shí)化合物氣相色譜保留時(shí)間(tr)與原始自變量回歸方程式為:tr=-4.602+1.735·x1+0.995·x2+1.573·x3+1.906·x4-1.659·x5-0.820·x6-0.818·x7-0.734·x8。建模相關(guān)系數(shù)(r2)達(dá)到0.955(接近最大值0.959),而交互檢驗(yàn)相關(guān)系數(shù)(q2)達(dá)到最大值0.894。r2處于0.64-1.0之間、q2≥0.5,說明此模型高度相關(guān)、穩(wěn)健性好、預(yù)測能力強(qiáng)。建模標(biāo)準(zhǔn)偏差(sd)為0.803,樣本的數(shù)值范圍(最大值15.236-最小值1.300)為13.936,而標(biāo)準(zhǔn)偏差(0.803)與數(shù)值范圍(13.936)的比例為5.76%,遠(yuǎn)小于10%的標(biāo)準(zhǔn),說明預(yù)測準(zhǔn)確性良好。
圖1為56個(gè)樣本在pls前兩個(gè)主成分得分空間散點(diǎn)分布圖,90%以上的樣本點(diǎn)都落在95%置信度hotellingt2橢圓置信圈內(nèi),說明結(jié)構(gòu)描述符能夠恰當(dāng)表現(xiàn)揮發(fā)性有機(jī)化合物分子結(jié)構(gòu)特征,并在統(tǒng)計(jì)模型中得到正確反映。為了考察樣本在x空間的擬合情況,對樣本在x空間的規(guī)格化模型距離作了分析(圖2),可以看到,95%以上的樣本規(guī)格化模型距離都在95%的置信區(qū)間內(nèi)(只有1個(gè)樣本超出此范圍),小于臨界值2.414,同樣說明模型質(zhì)量良好。超出此范圍的是42號樣本,42號樣本中含有一個(gè)叔丁基,而其它化合物不含此基團(tuán),具有一定的特殊性。
圖3為pls中變量重要性(vip)投影圖,通常認(rèn)為vip大于1的變量與y之間具有較大的相關(guān)性,對y影響顯著。圖3中可以發(fā)現(xiàn)x3、x2的vip值大于1,說明這兩個(gè)變量對化合物的氣相色譜保留時(shí)間(tr)影響顯著,而變量x3對應(yīng)于第三類非氫原子的自身貢獻(xiàn)項(xiàng),變量x2對應(yīng)于第二類非氫原子的自身貢獻(xiàn)項(xiàng),
因而第三類原子、第二類原子越多,化合物可能具有較大的保留時(shí)間(tr)值;其次是x7對化合物保留時(shí)間(tr)亦一定的影響,x7對應(yīng)于第一類原子與第三類原子的關(guān)系,以上都說明取代基種類、數(shù)量及分布情況對化合物的色譜保留時(shí)間(tr)有重要的影響。
圖4為樣本在前兩個(gè)主成分的載荷圖。圖4可以發(fā)現(xiàn)x3、x2、x7處在圖的右上方區(qū)域,即在兩個(gè)主成分中都有較大的值,并且與y呈正相關(guān),同樣說明x3、x2、x7對y影響顯著,與上述分析結(jié)果一致。x1、x4、x5、x8在第一主成分中與y呈負(fù)相關(guān),在第二主成分中與y呈正相關(guān);x6處在圖的左下方區(qū)域,即在兩個(gè)主成分中與y均呈負(fù)相關(guān)。x1、x2、x3、x4、x5、x6、x7、x8在圖中所處位置之間有一定的距離,說明所選變量沒有多大的相似性,變量之間共線性小。
模型對樣本的氣相色譜保留時(shí)間(tr)進(jìn)行了預(yù)測,預(yù)測值列于表1的cal.列,誤差列于err.列。圖5為模型預(yù)測值與實(shí)驗(yàn)值之間的相關(guān)圖,圖6為預(yù)測誤差分布圖。從圖5可以看出,所有樣本點(diǎn)都分布在45°對角線上或者緊靠對角線,說明預(yù)測值與實(shí)驗(yàn)值非常接近,總體預(yù)測效果好。同樣,從圖6可以看出模型的預(yù)測準(zhǔn)確性高、誤差小,絕大部分樣本的預(yù)測誤差都處在±2sd范圍內(nèi),僅4個(gè)樣本的誤差略超出此范圍,同樣說明總體誤差可以接受。其中52號樣本誤差最大,可能與其含有最多的氯原子(6個(gè))有關(guān),當(dāng)然也有可能實(shí)驗(yàn)數(shù)據(jù)本身存在較大誤差從而影響計(jì)算結(jié)果。
與現(xiàn)有技術(shù)相比,構(gòu)建的結(jié)構(gòu)描述符無需進(jìn)行分子結(jié)構(gòu)優(yōu)化,簡單易懂、計(jì)算量小,并且非氫原子染色值考慮了主量子數(shù)、電負(fù)性、最外層電子數(shù)、連接的氫原子數(shù)等豐富的信息。
將分子中的非氫原子進(jìn)行分類并參數(shù)化染色,將非氫原子自身及不同非氫原子之間的關(guān)系作為分子結(jié)構(gòu)描述符,對部分飲用水中揮發(fā)性有機(jī)化合物結(jié)構(gòu)進(jìn)行了參數(shù)化表征。采用逐步回歸與偏最小二乘相結(jié)合的方法(smr-pls)構(gòu)建了化合物結(jié)構(gòu)與氣相色譜保留時(shí)間(tr)的關(guān)系模型,模型相關(guān)系數(shù)(r2)及交互檢驗(yàn)的相關(guān)系數(shù)(q2)均較為理想,一定程度上揭示了影響化合物氣相色譜保留時(shí)間
(tr)的結(jié)構(gòu)因素。模型可以較準(zhǔn)確地預(yù)測飲用水中揮發(fā)性有機(jī)化合物的氣相色譜保留時(shí)間(tr),對于有機(jī)污染物的qspr/qsar研究具有較高的參考價(jià)值。
以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。