定量結(jié)構(gòu)活性關(guān)系預(yù)測有機(jī)化學(xué)品魚類生物富集因子的制作方法
【專利摘要】本發(fā)明的采用定量結(jié)構(gòu)活性關(guān)系預(yù)測有機(jī)化學(xué)品的魚類生物富集因子,屬于生態(tài)風(fēng)險評價測試策略領(lǐng)域。從公開的數(shù)據(jù)庫或已發(fā)表論文中搜集了780種有機(jī)化合物的生物富集因子數(shù)據(jù),采用密度泛函理論對有機(jī)化合物的分子結(jié)構(gòu)進(jìn)行優(yōu)化,基于優(yōu)化后的分子結(jié)構(gòu),從780種有機(jī)化合物的4885種分子描述符中初步篩選得到3480個描述符;將有機(jī)化合物按照4:1的比例分成訓(xùn)練集和驗證集,訓(xùn)練集用于構(gòu)建預(yù)測模型,驗證集用于建模后的外部驗證。模型應(yīng)用域明確,涵蓋新興污染物,具有良好的擬合效果、穩(wěn)健性和預(yù)測能力,能夠有效預(yù)測多種類不同有機(jī)化合物的生物富集因子,為有機(jī)化學(xué)品風(fēng)險評價和管理提供重要數(shù)據(jù)支持,對生態(tài)風(fēng)險評價具有重要意義。
【專利說明】定量結(jié)構(gòu)活性關(guān)系預(yù)測有機(jī)化學(xué)品魚類生物富集因子
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種采用多元線性回歸算法建立定量結(jié)構(gòu)活性關(guān)系(QSAR)來預(yù)測有機(jī)化學(xué)品生物富集因子的技術(shù),屬于生態(tài)風(fēng)險評價測試策略領(lǐng)域。
【背景技術(shù)】
[0002]一些有毒害作用的物質(zhì)可被生物富集,并通過食物鏈的傳遞,對人類自身健康構(gòu)成潛在的威脅。生物富集是化學(xué)物質(zhì)在生物體與環(huán)境介質(zhì)之間的一種平衡分配過程,是指生物通過非吞食的方式,從周圍環(huán)境中蓄積某種元素或難降解性物質(zhì),使其在機(jī)體內(nèi)的濃度超過周圍環(huán)境中濃度的現(xiàn)象。生物富集因子(BCF)能夠有效的評估污染物質(zhì)潛在的富集能力,它被定義為污染物達(dá)到平衡狀態(tài)時,其在生物體內(nèi)濃度與環(huán)境介質(zhì)中濃度的比值。了解并確定化學(xué)物質(zhì)在生物體內(nèi)的富集規(guī)律,能夠幫助人們較早的對潛在有害污染問題提出質(zhì)疑,更加合理地制定有害污染物的環(huán)境管理標(biāo)準(zhǔn),因此獲取生物富集因子(BCF)數(shù)據(jù)對化學(xué)品風(fēng)險評價與管理,維護(hù)環(huán)境安全和人類健康等都具有重要的意義。
[0003]實驗測定是目前獲取化合物生物富集因子(BCF)數(shù)據(jù)的一個途徑,經(jīng)濟(jì)合作與發(fā)展組織(0E⑶)在1996年發(fā)布了流水式魚類生物富集測試指南(0E⑶指南305)。但實驗方法周期長(通常28-60天)、費(fèi)用高(歐盟REACH法規(guī)制定化學(xué)品基本檢測費(fèi)用約8.5萬歐元,其中生物富集性屬于基本檢測中非常重要的檢測指標(biāo)之一),違反動物保護(hù)原則(一次實驗約需實驗用魚100尾),所以無法滿足對現(xiàn)有14多萬種商用化學(xué)品進(jìn)行風(fēng)險評價和數(shù)據(jù)管理的需求。因此,有必要發(fā)展實驗替代技術(shù)獲取BCF數(shù)據(jù),如定量結(jié)構(gòu)-活性/性質(zhì)關(guān)系(QSAR)預(yù)測化學(xué)品生物富集因子。
[0004]QSAR研究的理論基礎(chǔ)是化合物分子結(jié)構(gòu)及分子間組合方式等結(jié)構(gòu)信息決定了化合物的性質(zhì)。具有類似分子結(jié)構(gòu)的物質(zhì),可能具有類似物質(zhì)的理化性質(zhì)、環(huán)境行為、生態(tài)毒理學(xué)效應(yīng)等。早在二十世紀(jì)初,Hammett等人提出的線性自由能關(guān)系(LFER),為QSAR奠定了熱力學(xué)基礎(chǔ),開啟了 QSAR的理論基礎(chǔ)研究。Hansch在線性自由能關(guān)系(LFER)基礎(chǔ)上,把QSAR研究范圍擴(kuò)展到生物活性領(lǐng)域。之后Kamlet等人又在線性自由能關(guān)系(LFER)基礎(chǔ)上拓展出線性溶解能關(guān)系模型(LSER)。作為一種可信的技術(shù)工具,QSAR方法已成功應(yīng)用于污染物環(huán)境行為參數(shù)和毒理學(xué)指標(biāo)的預(yù)測。
[0005]目前已有研究者應(yīng)用QSAR方法建立了一些有機(jī)化合物生物富集因子的預(yù)測模型。由于物質(zhì)從水相進(jìn)入脂質(zhì)相與污染物從水相進(jìn)入魚體是兩個相似的分配過程,所以最早的生物富集模型往往是通過1gKw建立的。如文獻(xiàn)“J Fish Res.BoardCan.,1979,36,1040-1048.”最早提出了基于正辛醇-水分配系數(shù)(Kqw)并包含55個化合物的線性預(yù)測模型,該模型的多元回歸相關(guān)系數(shù)R2為0.90,但對模型穩(wěn)健性及預(yù)測能力方面沒有進(jìn)行評估。文獻(xiàn)“SAR QSAR Environ.Res.,1993,I, 29-39.”首次建立了包含154個化合物的1gBCF-1ogKw非線性模型。結(jié)果表明雙線性模型比拋物線模型具有更優(yōu)的擬合度。文獻(xiàn)“Environ.Toxicol.Chem.,1999,18 (4),664-672.”則建立了一個涵蓋多種化合物的1gBCF-1ogKw模型,雖涵蓋694個化合物,但模型包含了 4個方程式,不便于實際應(yīng)用。以Kw為理化參數(shù)所建立的BCF模型較為簡潔,但Kw實驗數(shù)據(jù)本身的可獲得性限制了該類模型的應(yīng)用。與此同時,生物富集與正辛醇水分配雖是兩個相似過程,但僅通過1gKw構(gòu)建模型,不足以充分表征生物富集過程。
[0006]隨著QSAR技術(shù)的不斷更新與發(fā)展,模型描述符獲取和建模方法等都得到進(jìn)一步發(fā)展。如文獻(xiàn)“Chemosphere,2000, 41,1675-1688.”采用分子連接性指數(shù)及極性校正因子,建立了 239種BCF的QSAR模型。但有研究表明模型中包含的分子連接性指數(shù)描述符之間可能存在較強(qiáng)的共線性。文獻(xiàn) “SAR QSAR Environ.Res., 2010, 7-8, (21),671-680.” 選擇疏水性描述符,氫鍵,分子拓?fù)湫灾笖?shù)等共7個描述符,以624個化合物,通過人工神經(jīng)網(wǎng)絡(luò)(ANN)方法建立QSAR模型,該模型沒有明確的表達(dá)式,不便于機(jī)理解釋。文獻(xiàn)“SAR QSAREnviron.Res., 2010, 21, (7-8),711-729.” 通過最佳多兀線性回歸(best mult1-linearregression)方法,以473個化合物構(gòu)建模型,并以161個化合物進(jìn)行外部驗證,但驗證結(jié)果不理想。
[0007]在已有研究中,有些模型是針對某種特定種類化合物構(gòu)建的。如文獻(xiàn)“Bioorgan.Med.Chem.,2003,11,5045-5050.”基于分子圖論提出 PI 狀態(tài)指數(shù),建立了一個包含16種多氯聯(lián)苯的生物富集因子QSAR模型。同1gKtjw所建模型相比,雖然PI指數(shù)建立的QSAR模型優(yōu)于1gKtjw建立的模型,但模型相關(guān)系數(shù)不高(r=0.753)。文獻(xiàn)"Mol.Divers.,2010,14:67 - 80.”根據(jù)非氫原子類型、原子屬性、非氫原子相對電性及相對鍵長等進(jìn)行計算,提出分子電性距離矢量(MEDV)描述符,采用該描述符建立了非極性有機(jī)物的QSAR模型。但該種方法在描述符計算方面不夠簡便。文獻(xiàn)“Chemosphere, 2012,89,433-444.”通過21個多溴聯(lián)苯醚(PBDEs)分子建立多元線性回歸模型,模型僅包含2個描述符較為簡潔。文獻(xiàn)“Ecotox.Environ.Safe.,2012, 75,213-222.”以58個多氯聯(lián)苯(PCBs),通過5種描述符,以偏最小二乘(PLS)建立QSAR模型,進(jìn)行了內(nèi)部外部驗證,模型擬合能力較好。但這些局域模型所涵蓋化合物均為特定種類,模型適用的化合物也較單一,在化學(xué)品風(fēng)險評價與管理的應(yīng)用中具有一定局限性。
[0008]綜上所述,目前QSAR模型主要包含兩大類,局域模型和通用模型。局域模型的擬合效果和預(yù)測能力相對較高,但由于其是針對特定種類的化合物構(gòu)建的,所以無法滿足對大量不同種類化學(xué)品數(shù)據(jù)的獲取需求。通用模型雖然符合化學(xué)品管理快速獲取不同種類化合物的需求,但目前尚缺少涵蓋的化合物種類多,模型簡潔、預(yù)測規(guī)則透明、易于機(jī)理解釋、具有良好的擬合度、穩(wěn)健性、預(yù)測能力,而且進(jìn)行了應(yīng)用域表征的BCF-QSAR模型。所以,很有必要按照OECD提出的QSAR模型構(gòu)建和使用準(zhǔn)則:(1)具有明確定義的環(huán)境指標(biāo),(2)具有明確的算法,(3)定義了模型的應(yīng)用域,(4)模型具有適當(dāng)?shù)臄M合度,穩(wěn)定性和預(yù)測能力,
(5)最好能夠進(jìn)行機(jī)理解釋,建立一個涵蓋多種化合物的BCF-QSAR模型,使其能夠在化學(xué)品風(fēng)險評價與管理的實際應(yīng)用中發(fā)揮作用。
【發(fā)明內(nèi)容】
[0009]本發(fā)明目的是發(fā)展一種快速預(yù)測有機(jī)化學(xué)品生物富集因子的方法。該方法可以直接根據(jù)化合物分子結(jié)構(gòu)預(yù)測生物富集因子,能夠彌補(bǔ)實驗方法的不足,進(jìn)而為化學(xué)品風(fēng)險評價和管理提供必要的基礎(chǔ)數(shù)據(jù)。
[0010]本發(fā)明的定量結(jié)構(gòu)活性關(guān)系預(yù)測有機(jī)化學(xué)品魚類生物富集因子,本發(fā)明共搜集了780種有機(jī)化合物的生物富集因子數(shù)據(jù),所收集數(shù)據(jù)均來自公開的數(shù)據(jù)庫或已發(fā)表論文中,有機(jī)化合物包括多氯聯(lián)苯、多溴聯(lián)苯、全氟烷基酸、二惡英類、內(nèi)分泌干擾物、農(nóng)藥。魚體種類包括鯉魚、虹鱒魚、青鏘魚、黑頭呆魚、斑馬魚。是目前涵蓋化合物數(shù)量及種類最多的生物富集因子QSAR模型。
[0011]首先采用密度泛函理論優(yōu)化780種有機(jī)化合物的分子結(jié)構(gòu),基于優(yōu)化后的分子結(jié)構(gòu),從780種有機(jī)化合物的4885種分子描述符,初步篩選得到3480個描述符,其中初步篩選即去掉常數(shù)和近似常數(shù)的描述符,去掉至少有一個缺失值的描述符。
[0012]然后將780種有機(jī)化合物按照4:1的比例分成訓(xùn)練集和驗證集。訓(xùn)練集用于構(gòu)建預(yù)測模型,驗證集用于建模后的外部驗證。采用逐步回歸方法構(gòu)建多元線性回歸模型。
[0013]依據(jù)模型的表征參數(shù)、描述符個數(shù)與變量膨脹因子,同時參考回歸結(jié)果最終選取模型如下:
[0014]logBCF = 2.137 + 0.061X MLOGP 2 + 0.034XF02[C-Cl]-0.3 I 2 X nROH-1.282 X P-1 1 7 + 0.323 X Mor25m-0.0 52 X N% + 0.080 X X4v-0.289 XO-058-1.137XLLS_01-1.387XH4v+0.071 X SM12_AEA (dm) -0.269X0-057
[0015]其中,1gBCF為生物富集因子的對數(shù)值,ML0GP2代表logKQW的平方,F(xiàn)02[C_C1]代表原子對C和Cl拓?fù)渚嚯x為2時出現(xiàn)的頻率,nROH代表羥基的個數(shù),P-117代表分子中“X3-P=X”結(jié)構(gòu)的數(shù)量,Mor25m代表加權(quán)質(zhì)量計算出的散射函數(shù)值,N%代表N原子的百分比,X4v是四價連接性指數(shù),0-058代表分子中“=0”結(jié)構(gòu)的數(shù)量,LLS_01是一個類藥指數(shù),H4v代表氫加權(quán)范德華體積滯后4的自相關(guān)函數(shù)值,SM12_AEA(dm)代表加權(quán)偶極矩的12譜距增廣邊緣鄰接矩陣值,0-057代表酚、醇分子中“0H”的數(shù)量。
[0016]所得模型訓(xùn)練集化`合物個數(shù)為n=624,每個描述符的變量膨脹因子(VIF)均小于5,自變量與因變量組成的矩陣Myx以及自變量矩陣Mx的K相關(guān)指數(shù)Kxy和Kxx滿足Kxx(0.358)<KXY(0.397),都表明模型不存在多重相關(guān)性;模型的擬合能力由經(jīng)自由度調(diào)整的(R2adj)和均方根誤差(RMSE)表征,R2adj=0.809, RMSE=0.612,表明該模型具有良好的擬合能力;模型穩(wěn)健性由內(nèi)部驗證的交叉驗證系數(shù)(Q2LtM)和Bootstrapping方法所得Q2mot評價,Q2L00=0.871,Q2boot=0.797,R2和Q2之差遠(yuǎn)小于0.3,可認(rèn)為該模型不存在過擬合現(xiàn)象,具有良好的穩(wěn)健性;在模型的外部驗證過程中,驗證集數(shù)據(jù)個數(shù)next=156,外部預(yù)測相關(guān)系數(shù)R2ext=0.738,Q2ext=0.732, RMSEext=0.736,表明該模型具有良好的外部預(yù)測能力,能有效預(yù)測化合物的生物富集因子。
[0017]模型應(yīng)用域表征采用歐幾里德距離方法,某一化合物特征向量(描述符參數(shù))的歐幾里德距離是其到描述符空間中心點(diǎn)的特征向量的距離,中心點(diǎn)特征向量的第k個參數(shù)(描述符)Xk為訓(xùn)練集所有化合物第k個描述符的平均值,即:
[0018]Xk = ~hk⑴
[0019]其中Xjk為化合物j的第k個描述符值,η為訓(xùn)練集化合物總數(shù)。則某一化合物i在M維空間(M為所采用分子結(jié)構(gòu)描述符個數(shù))的特征向量的歐幾里德距離屯可表示為:
[0020]dt = -XS'(2)
[0021]式中Xik為化合物i的第k個描述符值。由公式(2)計算得到訓(xùn)練集化合物特征向量到中心點(diǎn)特征向量的歐幾里德距離范圍為0.192~1.438,因此特征向量歐幾里德距離不大于1.438的化合物適用于本模型。
[0022]本發(fā)明的有益效果是:模型涵蓋780種不同種類的有機(jī)化合物,如新興污染物雙酚A,優(yōu)先控制污染物多氯聯(lián)苯、多溴聯(lián)苯及環(huán)境領(lǐng)域重點(diǎn)關(guān)注的有機(jī)物二惡英類物質(zhì)、有機(jī)農(nóng)藥。模型應(yīng)用域廣,并進(jìn)行了應(yīng)用域表征,可用于預(yù)測不同種類化合物的生物富集因子,能為化學(xué)品風(fēng)險評價和管理工作提供基礎(chǔ)數(shù)據(jù);采用多元線性回歸方法,選取12種描述符構(gòu)建了預(yù)測模型,模型簡潔、預(yù)測規(guī)則透明,便于分析理解和實際應(yīng)用;依照OECD關(guān)于QSAR模型構(gòu)建和使用導(dǎo)則進(jìn)行建模,所建模型具有良好的擬合效果、穩(wěn)健性和預(yù)測能力。采用此發(fā)明的方法可以快速、有效地預(yù)測有機(jī)化學(xué)品生物富集因子。該方法成本低廉、簡便快速,能夠節(jié)省實驗測試所需的人力、費(fèi)用和時間。所建模型為目前所有BCF-QSAR模型中涵蓋化合物數(shù)量最多的模型,而且模型具有良好的擬合度、穩(wěn)健性及預(yù)測能力,同時模型進(jìn)行了應(yīng)用域的表征,完全滿足OECD模型構(gòu)建及使用導(dǎo)則。因此使用本發(fā)明專利的生物富集因子預(yù)測結(jié)果,可以快捷的為有機(jī)化學(xué)品風(fēng)險評價和管理提供重要的數(shù)據(jù)支持,對生態(tài)風(fēng)險評價具有重要的意義。
【專利附圖】
【附圖說明】
[0023]圖1為訓(xùn)練集和驗證集的實測值與預(yù)測值的擬合圖。
[0024]圖2表征模型應(yīng)用域的歐幾里德距離圖。
【具體實施方式】
[0025]實施例1
[0026]隨機(jī)給定化合物1,2,3,6,7,8_六氯二苯并-對-二惡英(CAS號57653_85_7),預(yù)測其生物富集因子。首先優(yōu)化1,2,3,6,7,8-六氯二苯并-對-二惡英的分子結(jié)構(gòu),然后基于優(yōu)化的分子結(jié)構(gòu),計算出12種描述符ML0GP2,F(xiàn)02[C-C1], nROH, P-117,Mor25m,N%, X4v, 0-058,LLS_01, H4v, SM12_AEA(dm),0-057 的數(shù)值,分別為 20.902,12,0,0,
1.239,0,2.907,0,0.67,0.24,8.004,00根據(jù)公式(2)計算得到特征向量的歐幾里德距離為0.514 ?1.438),在模型應(yīng)用域范圍內(nèi),可以運(yùn)用本模型預(yù)測1,2,3,6,7,8-六氯二苯并-對-二惡英的生物富集因子,將描述符值代入所建模型有1gBCF的值為3.926,其中實驗值為3.927,預(yù)測結(jié)果良好。
[0027]實施例2
[0028]隨機(jī)給定化合物雙酚A (CAS號80-05-7),預(yù)測其生物富集因子。首先優(yōu)化雙酚A的分子結(jié)構(gòu),然后基于優(yōu)化的分子結(jié)構(gòu),計算出12種描述符見06?2,?02[(:-(:1],111?0!1,?-117,Mor25m, N%, X4v, 0-058,LLS_01, H4v, SM12_AEA(dm),0-057 的數(shù)值,分別為 10.928,0,0,0,
0.375,0,1.923,0,0.83,0.285,6.164,2。根據(jù)公式(2)計算得到特征向量的歐幾里德距離為0.645 ?1.438),在模型應(yīng)用域范圍內(nèi),可以運(yùn)用本模型預(yù)測雙酚A的生物富集因子,將描述符值代入所建模型有1gBCF的值為1.639,其中實驗值為1.641,預(yù)測結(jié)果良好。
[0029]實施例3
[0030]隨機(jī)給定化合物2,4,6-三氯苯胺(CAS號634_93_5),預(yù)測其生物富集因子。首先優(yōu)化2,4,6-三氯苯胺的分子結(jié)構(gòu),然后基于優(yōu)化的分子結(jié)構(gòu),計算出12種描述符ML0GP2,F(xiàn)02[C-C1],nROH, P-117,Mor25m, N%, X4v, 0-058,LLS_01, H4v, SM12_AEA(dm),0-057 的數(shù)值,分別為 10.982,6,0,0,0.191,7.1,1.37,0,0.83,0.077,5.225,0o 根據(jù)公式(2)計算得到特征向量的歐幾里德距離為0.267 ?1.438),在模型應(yīng)用域范圍內(nèi),可以運(yùn)用本模型預(yù)測2,4,6-三氯苯胺的生物富集因子,將描述符值代入所建模型有1gBCF的值為2.133,其中實驗值為2.001,預(yù)測結(jié)果良好。
[0031]實施例4
[0032]隨機(jī)給定化合物2,3,3’,4,4’,5_六氯聯(lián)苯(CAS號38380-08-4),預(yù)測其生物富集因子,首先優(yōu)化2,3,3’,4,4’,5-六氯聯(lián)苯的分子結(jié)構(gòu),然后基于優(yōu)化的分子結(jié)構(gòu),計算出12 種描述符 ML0GP2, F02[C-C1],nROH, P-117,Mor25m, N%, X4v, 0-058,LLS_01, H4v, SMl2_AEA(dm),0-057 的數(shù)值,分別為 41.857,12,0,0,0.485,0,2.656,0,0.67,0.08,7.763,0。根據(jù)公式(2)計算得到特征向量的歐幾里德距離為0.695(〈1.438),在模型應(yīng)用域范圍內(nèi),可以運(yùn)用本模型預(yù)測2,3,3’,4,4’,5-六氯聯(lián)苯的生物富集因子,將描述符值代入所建模型有1gBCF的值為5.146,其中實驗值為5.390,預(yù)測結(jié)果良好。
[0033]實施例5
[0034]隨機(jī)給定化合物五氯硝基苯(CAS號82-68-8),預(yù)測其生物富集因子,首先優(yōu)化五氯硝基苯的分子結(jié)構(gòu),然后基于優(yōu)化的分子結(jié)構(gòu),計算出12種描述符ML0GP2,F(xiàn)02[C-C1],nROH, P-117, Mor25m, N%, X4v, 0-058,LLS_01, H4v, SM12_AEA(dm),0-057 的數(shù)值,分別為18.405,10,0,0,-0.048,7.100,2.020,0,0.830,0.206,7.292,0。根據(jù)公式(2)計算得到特征向量的歐幾里德距離為0.398(〈1.438),在模型應(yīng)用域范圍內(nèi),可以運(yùn)用本模型預(yù)測五氯硝基苯的生物富集因子,將描述符值代入所建模型有1gBCF的值為2.665,其中實驗值為
2.738,預(yù)測結(jié)果良好。`
[0035]實施例6
[0036]隨機(jī)給定化合物2,4,6-三溴聯(lián)苯(CAS號59080_33_0),預(yù)測其生物富集因子,首先優(yōu)化2,4,6-三溴聯(lián)苯的分子結(jié)構(gòu),然后基于優(yōu)化的分子結(jié)構(gòu),計算出12種描述符ML0GP2, F02[C-C1],nROH, P-117,Mor25m,N%,X4v,0-058,LLS_01,H4v,SM12_AEA(dm),0-057的數(shù)值,分別為 34.143,0,0,0,0.742,0,4.139,0,0.67,0.295,5.225,0。根據(jù)公式(2)計算得到特征向量的歐幾里德距離為0.446 ?1.438),在模型應(yīng)用域范圍內(nèi),可以運(yùn)用本模型預(yù)測2,4,6-三溴聯(lián)苯的生物富集因子,將描述符值代入所建模型有1gBCF的值為3.991,其中實驗值為3.873,預(yù)測結(jié)果良好。
[0037]實施例7
[0038]隨機(jī)給定化合物全氟己基磺酸(CAS號355-46-4),預(yù)測其生物富集因子,首先優(yōu)化全氟己基磺酸的分子結(jié)構(gòu),然后基于優(yōu)化的分子結(jié)構(gòu),計算出12種描述符ML0GP2,F(xiàn)02[C-C1],nROH, P-117,Mor25m, N%, X4v, 0-058,LLS_01, H4v, SM12_AEA(dm),0-057 的數(shù)值,分別為 8.139,0,1,0,1.144,0,1.369,2,0.5,0.266,13.351,0。根據(jù)公式(2)計算得到特征向量的歐幾里德距離為0.663(〈1.438),在模型應(yīng)用域范圍內(nèi),可以運(yùn)用本模型預(yù)測全氟己基磺酸的生物富集因子,將描述符值代入所建模型有1gBCF的值為2.233,其中實驗值為2.000,預(yù)測結(jié)果良好。
【權(quán)利要求】
1.一種采用定量結(jié)構(gòu)活性關(guān)系預(yù)測有機(jī)化學(xué)品的魚類生物富集因子,其特征在于,搜集780種有機(jī)化合物的生物富集因子數(shù)據(jù),采用密度泛函理論對780種有機(jī)化合物的分子結(jié)構(gòu)進(jìn)行優(yōu)化,基于優(yōu)化后的分子結(jié)構(gòu),從780種有機(jī)化合物的4885種分子描述符中初步篩選得到3480個描述符;其中初步篩選是去掉常數(shù)和近似常數(shù)的描述符,去掉至少有一個缺失值的描述符; 然后將上述的780種有機(jī)化合物按照4:1的比例分成訓(xùn)練集和驗證集,訓(xùn)練集用于構(gòu)建預(yù)測模型,驗證集用于建模后的外部驗證;采用逐步回歸方法構(gòu)建多元線性回歸模型,該模型如下:
logBCF = 2.1 37 + 0.06 I X ML0GP2 + 0.034 X F02[C-C1]-0.3 I 2 X nROH-1.282 X P-1 I 7 + 0.323 X Mor25m-0.052 X N% + 0.080 X X4v-0.289 X 0 -058-1.137XLLS_01-1.387XH4v+0.071 X SM12_AEA (dm) -0.269X0-057 其中,1gBCF代表生物富集因子的對數(shù),ML0GP2代表logKQW的平方,F(xiàn)02 [C-C1]代表原子對C和Cl拓?fù)渚嚯x為2時出現(xiàn)的頻率,nROH代表羥基的個數(shù),P_117代表分子中“X3_P=X”結(jié)構(gòu)的數(shù)量,Mor25m代表加 權(quán)質(zhì)量計算出的散射函數(shù)值,N%代表N原子的百分比,X4v是四價連接性指數(shù),0-058代表分子中“=0”結(jié)構(gòu)的數(shù)量,LLS_01是一個類藥指數(shù),H4v代表氫加權(quán)范德華體積滯后4的自相關(guān)函數(shù)值,SM12_AEA(dm)代表加權(quán)偶極矩的12譜距增廣邊緣鄰接矩陣值,0-057代表酚、醇分子中“0H”的數(shù)量。
2.根據(jù)權(quán)利要求1所述的采用定量結(jié)構(gòu)活性關(guān)系預(yù)測有機(jī)化學(xué)品的魚類生物富集因子,其特征在于,所述的有機(jī)化合物包括多氯聯(lián)苯、多溴聯(lián)苯、全氟烷基酸、二惡英類、內(nèi)分泌干擾物、農(nóng)藥。
【文檔編號】G06F19/00GK103761431SQ201410013562
【公開日】2014年4月30日 申請日期:2014年1月10日 優(yōu)先權(quán)日:2014年1月10日
【發(fā)明者】喬顯亮, 鄭玉婷, 李雪花, 陳景文, 楊先海 申請人:大連理工大學(xué)