本發(fā)明涉及過渡金屬非致癌eds的預測技術,具體涉及過渡金屬保護人體健康水質(zhì)基準的非致癌生物效應劑量的預測方法。
背景技術:
::usepa在2000年首次頒布了人體健康水質(zhì)基準指南《推導保護人體健康水質(zhì)基準方法學》,并首次系統(tǒng)地介紹了人體健康基準基本的理論與方法。指南中針對不同污染物,分別設定了兩類毒性效應終點,即致癌和非致癌效應終點。對于非致癌效應來說,毒性的效應閾值的表征方法有三種:無觀察有害效應水平(no-observed-adverse-effectlevel,noael)、最低觀察有害效應水平(lowest-observed-adverse-effectlevel,loael)和基準劑量(benchmarkdoselevel,bmdl)。noael是指受試物在一定時間內(nèi),按一定方式與機體接觸,用靈敏的現(xiàn)代檢測方法和觀察指標未發(fā)現(xiàn)有害作用的最高劑量。loael是指在規(guī)定的試驗條件下,受試樣品引起實驗動物形態(tài)、功能、生長發(fā)育等發(fā)生有害改變的最低染毒劑量或濃度。傳統(tǒng)上,主要由實驗得到noael和loael。bmd是指相對于背景值來說,產(chǎn)生指定有害效應發(fā)生率的物質(zhì)的劑量或濃度。包括noael、loael、bmd等都是基于科學實驗的動物毒性數(shù)據(jù)或者可接受范圍內(nèi)的人體流行病學臨床實驗數(shù)據(jù),這里統(tǒng)一稱為關鍵效應劑量水平值(criticaleffectdoselevel),簡稱為效應劑量(effectdoses,eds)。保護人體健康的非致癌效應水質(zhì)基準值主要是基于eds值,并使用不確定因子或者變異因子得到參考劑量值(referencedoses,rfds),從而推導保護人體健康非致癌效應水質(zhì)基準值。因此,eds值的確定是推導保護人體健康基準過程中的關鍵步驟。eds值可以直接地表明單個元素對實驗動物健康、臨床醫(yī)學或者流行病學調(diào)查中人類健康的影響。同時,最小風險水平值的noael和bmd值一定程度上補充了數(shù)據(jù)的來源并驗證了數(shù)據(jù)的可靠性。所以經(jīng)常會直接采用eds值作為閾值來評價元素對人體健康的影響。目前,已知的金屬或類金屬人體健康基準eds值有25種金屬或類金屬,其中包含12種優(yōu)先控制污染物和13種非優(yōu)先控制污染物,還有60余種金屬沒有eds值。傳統(tǒng)上,通過標準化的動物實驗測試手段,是目前獲得eds值和進行人體健康風險評估的唯一手段。但是,用于基準推導的大量動物毒理實驗或者可接受范圍內(nèi)的人體流行病學臨床實驗需要耗費大量人力,物力、財力和時間,并且復雜生物體系中金屬或類金屬的形態(tài)難于被準確測定,因此極大地阻礙了金屬保護人體健康水質(zhì)基準研究的發(fā)展,這也是大量金屬或類金屬沒有eds值和對應的rfds參考值的主要原因。另外,大部分鑭系和錒系金屬本來地殼含量就很少、毒性也較大,并不適宜進行臨床實驗;放射性元素也會造成化學品污染,不符合環(huán)境保護的初衷。但是對金屬或類金屬對人體健康潛在不良影響的研究十分依賴毒性終點eds值。因此,嘗試建立不依賴于實驗測定的能夠預測eds值的數(shù)學模型,將有助于金屬保護人體健康水質(zhì)基準的研究。美國有毒物質(zhì)和疾病登記處(agencyfortoxicsubstancesanddiseaseregistry,atsdr)已經(jīng)開始開發(fā)和應用先進的計算模型來增強傳統(tǒng)毒理學方法與多級跨外推(cross-extrapolation)技術。技術實現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術中存在的不足,提供過渡金屬保護人體健康水質(zhì)基準的非致癌eds預測方法。本發(fā)明的技術方案為:過渡金屬保護人體健康水質(zhì)基準的非致癌eds預測方法,包括以下步驟:s1、數(shù)據(jù)選擇從數(shù)據(jù)庫中獲取25種金屬/類金屬元素的健康閾值,所述數(shù)據(jù)庫包括(a)usepa的綜合風險信息系統(tǒng)(iris);(b)臨時同行評議毒性值(pprtv);(c)其他毒性值,包括有毒物質(zhì)和疾病登記署(atsdr)得出的最小風險水平(mrl),加利福尼亞州環(huán)保局(calepa)毒性值以及usepa健康效應評估總結(jié)表(healtheffectsassessmentsummarytable,heast);將25種金屬/類金屬劃分為訓練集和驗證集,以建立有驗證的模型;其中,數(shù)據(jù)劃分的標準為:(1)選擇較早發(fā)布的、理化參數(shù)齊全的金屬/類金屬作為訓練集;(2)訓練集和驗證集都選擇不同族的元素;s2、聚類分析(1)將金屬/類金屬健康閾值數(shù)據(jù)按公式1進行標準化變換,其中,代表標準化變換后的i金屬/類金屬的j理化性質(zhì)的值,xij代表標準化變換前的i金屬/類金屬的j理化性質(zhì)的值,代表所有樣本金屬/類金屬的j理化性質(zhì)的平均值,sj代表所有樣本金屬/類金屬的j理化性質(zhì)的標準差;(2)聚類分析根據(jù)分類對象的不同分為r型和q型兩大類,r型是對變量(指標)進行分類處理,q型是對樣品進行分類處理;采用r型聚類分析處理金屬/類金屬的理化參數(shù),尋找出與eds值關系最密切的理化性質(zhì)參數(shù),再根據(jù)得到的理化性質(zhì)參數(shù),利用q型聚類分析對25種金屬/類金屬eds值進行分類,即采用聚類分析方法里的最短距離(歐氏距離)法分類;(3)使用統(tǒng)計軟件進行聚類分析;s3、qsars建模(1)分析金屬/類金屬的理化參數(shù)與所述數(shù)據(jù)庫中的eds之間的相關關系,即以選定的結(jié)構(gòu)參數(shù)為自變量,eds為因變量,作pearson相關系數(shù)檢驗,得到變量間的線性相關程度;對滿足p值小于0.1的條件的參數(shù)進一步做線性擬合構(gòu)建生物的金屬/類金屬理化性質(zhì)-效應劑量(eds)關系模型(physicochemicalproperties-edsrelationships,pper),得到?jīng)Q定系數(shù)r2;(2)利用r型聚類分析后得到的與eds值關系最密切的理化性質(zhì)參數(shù),分別同q型聚類分析得到不同的金屬/類金屬類進行線性擬合,建立多組pper模型;根據(jù)決定系數(shù)r2和p值,選擇擬合度高的一類qsars建模,進行內(nèi)部和外部驗證;(3)使用統(tǒng)計軟件進行數(shù)據(jù)處理與模型構(gòu)建;s4、內(nèi)部驗證,擬合優(yōu)度和穩(wěn)健性檢驗(1)內(nèi)部驗證采用殘差標準誤rse、r2、f統(tǒng)計量和調(diào)整過的r2四種統(tǒng)計量描述參數(shù)模型的擬合程度;r2和rse的計算公式如公式2和公式3所示;其中,yi是第i種金屬/類金屬的eds值,是第i種金屬/類金屬的預測eds值,n是訓練集的金屬/類金屬個數(shù);當模型擁有最小rse值和最大r2的模型被認為是最佳模型;(2)采用k折交叉驗證法檢驗模型的穩(wěn)健性;交叉驗證計算因變量預測值與原抽出樣本的因變量的觀測值yi之間的相關系數(shù)q2cv及交叉驗證均方根誤差(rmsecv)評價模型內(nèi)部預測能力;(3)使用統(tǒng)計軟件進行統(tǒng)計分析;s5、外部驗證和預測能力確定(1)利用具有驗證集來對模型進行驗證,該驗證集的預測值可以和觀測值相比較;(2)使用外部驗證的決定系數(shù)q2ext和預測的均方根誤差rseext對模型外部預測能力進行評價;采用公式4和公式5計算外部驗證的決定系數(shù)q2ext和預測的均方根誤差rseext;其中,是第j種驗證集(v)金屬/類金屬的eds觀測值,是第j種驗證集(v)金屬/類金屬的eds預測值,是訓練集(t)eds觀測值的平均值,m是驗證集的金屬/類金屬個數(shù);(3)使用統(tǒng)計軟件進行統(tǒng)計分析;s6、判別分析利用對訓練集的樣本得到的聚類結(jié)果,選擇fisher判別法對驗證集的樣本分類,隨后進行預測;利用q型聚類分析的結(jié)果作為歸類規(guī)則,判別驗證集中各金屬/類金屬的分類,并計算誤判率以說明判別結(jié)果的準確性;使用統(tǒng)計軟件進行判別分析;s7、最優(yōu)預測空間的評價使用williamplot驗證最優(yōu)預測空間;williamplot是指文獻(jaworskaj,nikolova-jeliazkovan,aldenbergt.qsarapplicabilitydomainestimationbyprojectionofthetrainingsetdescriptorspace:areview[j].atal-nottingham,2005,33(5):445.)中的方法,具體是指橫坐標為模型中樣本的杠桿值,縱坐標為模型中樣本的標準殘差值的圖;利用公式6計算杠桿值hij,利用公式7計算hi*;如果hij超過hi*,則說明該金屬/類金屬的eds值超出最優(yōu)預測空間;其中,hij是指第i類第j個金屬/類金屬的杠桿值,xij代表qsars模型中第i類第j個金屬/類金屬的理化性質(zhì)值排列成一行的行向量,代表xijx的轉(zhuǎn)置向量,x代表xij的逆向量,xt代表x的轉(zhuǎn)置向量,hi*代表第i類所有金屬/類金屬不超出最優(yōu)預測空間的杠桿值最大值;pi是第i類qsars模型中使用的變量個數(shù),ni是第i類訓練集的樣本個數(shù);使用統(tǒng)計軟件進行統(tǒng)計分析。進一步的,所述數(shù)據(jù)庫為iris、atsdr和pprtv。進一步地,所述數(shù)據(jù)劃分標準還包括:(3)所述訓練集和驗證集選擇涵蓋所述三大數(shù)據(jù)來源。進一步地,所述理化參數(shù)包括以下31種:原子序數(shù)、相對原子質(zhì)量、原子半徑、離子半徑、離子電荷、電離勢變化、軟指數(shù)、最大穩(wěn)定常數(shù)、電化學勢、第一水解常數(shù)、電負性、電荷密度、原子的離子能量、熔點、沸點、形成氣態(tài)原子的焓、氧化能、電離勢、密度、vdw半徑、共價半徑、熱熔j/gk、熱熔j/gmol、電負性km/p、共價常數(shù)、相對柔軟度、極化力參數(shù)一、極化力參數(shù)二、、極化力參數(shù)三、類極化力參數(shù)一和類極化力參數(shù)二。金屬或類金屬可使用的理化參數(shù)很多,本申請優(yōu)選了以上31種。通過對金屬/類金屬健康閾值數(shù)據(jù)進行標準化變換,使不同量綱,不同取值范圍的數(shù)據(jù)能放在一起進行比較,變換后每個變量的樣本均值為0,標準差為1,而且標準化變換后的數(shù)據(jù)與變量的量綱無關。r型聚類分析可以了解變量間及變量組合間的親疏關系,對變量分類后,根據(jù)分類結(jié)果及它們之間的關系,利用少數(shù)幾個重要變量進一步作分析計算,如回歸分析和q型聚類分析。q型聚類分析可以對樣品分類,找到有相同“特征”的金屬/類金屬。進一步地,所述聚類分析的軟件為sas、matlab和開源和免費的r語言軟件中的一種。進一步地,所述穩(wěn)健性檢驗還包括采用y隨機化方法驗證模型的穩(wěn)定性。采用y隨機化方法檢驗因變量和自變量之間的偶然相關;以防止建模的訓練集數(shù)據(jù)較多,而可能出現(xiàn)過度擬合和偶然相關。在y隨機化驗證中,因變量y被隨機排序并使用原始自變量x建立新的模型,該過程重復25次,可以期望,產(chǎn)生的qsars模型通常應該具有低的y隨機化相關系數(shù)r2yrand和低的k折交叉驗證y隨機化q2化的q2yrand值。如果y隨機化得到的所有模型都具有高的r2yrand和q2yrand值,那么意味著對于給定的數(shù)據(jù)集,用當前的建模方法不可能得到一個可接受的qsars模型。本發(fā)明對人體健康效應劑量與金屬或類金屬的理化性質(zhì)之間的關系進行了探索,利用qsars方法對公布人體健康eds值的25種金屬/類金屬進行分類及擬合,以對其他金屬或類金屬的人體健康eds值預測,為保護人體健康的水質(zhì)基準制定和風險評估提供參考依據(jù)。具體實施方式實施例1過渡金屬保護人體健康水質(zhì)基準的非致癌eds預測方法,包括以下步驟:s1、數(shù)據(jù)選擇一般地,如果存在毒物對人類直接造成毒性效應的相關數(shù)據(jù)或信息,則優(yōu)先選用,不過這些數(shù)據(jù)或信息主要用于定性評估毒物對暴露人群的有害效應,動物毒性數(shù)據(jù)作為補充信息。但是如果選擇了恰當?shù)男K點,直接有關人類研究的毒性數(shù)據(jù)包括流行病學的研究數(shù)據(jù)也可以用于劑量-效應的評估過程,這樣就避免了從動物到人類毒性效應當量劑量的一個推斷過程。從數(shù)據(jù)庫(a)usepa的綜合風險信息系統(tǒng)(iris);(b)臨時同行評議毒性值(pprtv);(c)其他毒性值,包括有毒物質(zhì)和疾病登記署(atsdr)得出的最小風險水平(mrl),加利福尼亞州環(huán)保局(calepa)毒性值以及usepa健康效應評估總結(jié)表(healtheffectsassessmentsummarytable,heast)中獲取25種金屬/類金屬元素的健康閾值;所得健康閾值大多數(shù)是基于小鼠、大鼠、狗、兔子和豬等動物實驗,也有部分來源于人體實驗、臨床醫(yī)學研究、流行病學以及地方性疾病的調(diào)查研究,毒物動力學的模型在獲取健康閾值的過程中也有重要應用:(a)動物實驗所基于的暴露途徑基本都是口,通過飲食或飲水暴露,兩類數(shù)據(jù)都有的情況下取其中較小的值;(b)暴露時間滿足慢性毒性實驗或者亞慢性毒性實驗要求。(c)一般采取元素的可溶性無機物形式,比如氯化物或者硫酸鹽形式,并且基本控制了非研究元素之外的離子對受試動物的毒性效應,將獲得的數(shù)據(jù)結(jié)果換算成金屬元素的當量值。(d)對于多種價態(tài)的元素,考慮人類容易接觸并且毒性最強的價態(tài)對受試動物的毒性效應值。(e)個別數(shù)據(jù)來源于臨床醫(yī)學結(jié)果或者人體實驗,人體實驗主要是針對毒性不強的元素(例如鋅)征集志愿者做相關實驗。(f)流行病學調(diào)查主要針對長期暴露某種污染物的人群進行健康水平追蹤。(g)地方性疾病研究主要針對某元素地方濃度較高的地區(qū)進行的人體取樣調(diào)查或?qū)嶒?,例如關于碘的研究。所述數(shù)據(jù)優(yōu)選從數(shù)據(jù)庫integratedriskinformationsystem(iris)、agencyfortoxicsubstancesanddiseaseregistry(atsdr)、provisionalpeer-reviewedtoxicityvalue(pprtv)三大數(shù)據(jù)庫中獲取25種金屬/類金屬元素的健康閾值;將25種金屬/類金屬劃分為訓練集和驗證集,建立有驗證的模型;其中,數(shù)據(jù)劃分的標準為:(1)選擇較早發(fā)布的、31種理化參數(shù)齊全的金屬/類金屬作為訓練集;(2)訓練集和驗證集都選擇不同族的元素;(3)所述訓練集和驗證集選擇涵蓋所述iris、atsdr和pprtv三大數(shù)據(jù)來源。表1給出了訓練集與驗證集的eds值、來源及實驗對象。其中,31種理化參數(shù)是指原子序數(shù)、相對原子質(zhì)量、原子半徑、離子半徑、離子電荷、電離勢變化、軟指數(shù)、最大穩(wěn)定常數(shù)、電化學勢、第一水解常數(shù)、電負性、電荷密度、原子的離子能量、熔點、沸點、形成氣態(tài)原子的焓、氧化能、電離勢、密度、vdw半徑、共價半徑、熱熔j/gk、熱熔j/gmol、電負性km/p、共價常數(shù)、相對柔軟度、極化力參數(shù)一、極化力參數(shù)二、、極化力參數(shù)三、類極化力參數(shù)一和類極化力參數(shù)二。表1.訓練集與驗證集的eds值、來源及實驗對象s2、聚類分析(1)將金屬/類金屬健康閾值數(shù)據(jù)按公式1進行標準化變換,通過對健康閾值數(shù)據(jù)進行標準化變換,使不同量綱,不同取值范圍的數(shù)據(jù)能放在一起進行比較,變換后每個變量的樣本均值為0,標準差為1,而且標準化變換后的數(shù)據(jù)與變量的量綱無關。(2)聚類分析根據(jù)分類對象的不同分為r型和q型兩大類,r型是對變量(指標)進行分類處理,q型是對樣品進行分類處理;r型聚類分析可以了解變量間及變量組合間的親疏關系,對變量分類后,根據(jù)分類結(jié)果及它們之間的關系,利用少數(shù)幾個重要變量進一步作分析計算,如回歸分析和q型聚類分析。q型聚類分析可以對樣品分類,找到有相同“特征”的金屬/類金屬;采用r型聚類分析處理31種金屬/類金屬理化參數(shù),尋找出與eds值關系最密切的理化性質(zhì)參數(shù),再根據(jù)得到的理化性質(zhì)參數(shù),利用q型聚類分析對25種金屬/類金屬eds值進行分類,即采用聚類分析方法里的最短距離(歐氏距離)法分類;(3)使用r3.1.2軟件進行聚類分析;s3、qsars建模(1)分析31種理化參數(shù)與數(shù)據(jù)庫中的eds之間的相關關系,即以選定的結(jié)構(gòu)參數(shù)為自變量,eds為因變量,作pearson相關系數(shù)檢驗,得到變量間的線性相關程度;對滿足p值小于0.1的條件的參數(shù)進一步做線性擬合構(gòu)建生物的金屬/類金屬理化性質(zhì)-效應劑量(eds)關系模型(physicochemicalproperties-edsrelationships,pper),得到?jīng)Q定系數(shù)r2;(2)利用r型聚類分析后得到的與eds值關系最密切的理化性質(zhì)參數(shù),分別同q型聚類分析得到不同金屬/類金屬類進行線性擬合,建立多組pper模型;根據(jù)決定系數(shù)r2和p值,優(yōu)先選擇擬合度高的一類qsars建模,進行內(nèi)部和外部驗證;(3)使用r3.1.2軟件進行數(shù)據(jù)處理與模型構(gòu)建;s4、內(nèi)部驗證,擬合優(yōu)度和穩(wěn)健性檢驗(1)內(nèi)部驗證采用殘差標準誤rse、r2、f統(tǒng)計量和調(diào)整過的r2四種統(tǒng)計量描述參數(shù)模型的擬合程度;r2和rse的計算公式如公式2和公式3所示;其中,yi是第i種金屬/類金屬的eds值,是第i種金屬/類金屬的預測eds值,n是訓練集的金屬/類金屬個數(shù);當模型擁有最小rse值和最大r2的模型被認為是最佳模型;(2)采用k折交叉驗證法檢驗模型的穩(wěn)健性;交叉驗證計算因變量預測值與原抽出樣本的因變量的觀測值yi之間的相關系數(shù)q2cv及交叉驗證均方根誤差(rmsecv)以評價模型內(nèi)部預測能力;穩(wěn)健性檢驗還包括采用y隨機化方法驗證模型的穩(wěn)定性。采用y隨機化方法檢驗因變量和自變量之間的偶然相關;以防止建模的訓練集數(shù)據(jù)較多,而可能出現(xiàn)過度擬合和偶然相關。在y隨機化驗證中,因變量y被隨機排序并使用原始自變量x建立新的模型,該過程重復25次,可以期望,產(chǎn)生的qsars模型通常應該具有低的y隨機化相關系數(shù)r2yrand和低的k折交叉驗證y隨機化q2化的q2yrand值。如果y隨機化得到的所有模型都具有高的r2yrand和q2yrand值,那么意味著對于給定的數(shù)據(jù)集,用當前的建模方法不可能得到一個可接受的qsars模型。(3)使用r3.1.2軟件進行統(tǒng)計分析;s5、外部驗證和預測能力確定(1)利用驗證集來對模型進行驗證,該驗證集的預測值可以和觀測值相比較;(2)使用外部驗證的決定系數(shù)q2ext和預測的均方根誤差rseext對模型外部預測能力進行評價;采用公式4和公式5計算外部驗證的決定系數(shù)q2ext和預測的均方根誤差的rseext;其中,是第j種驗證集(v)金屬/類金屬的eds觀測值,是第j種驗證集(v)金屬/類金屬的eds預測值,是訓練集(t)eds觀測值的平均值,m是驗證集的金屬/類金屬個數(shù);(3)使用r3.1.2軟件進行統(tǒng)計分析;s6、判別分析利用對訓練集的樣本得到的聚類結(jié)果,選擇fisher判別法對驗證集的樣本分類,隨后進行預測;利用q型聚類分析的結(jié)果作為歸類規(guī)則,判別驗證集中各金屬/類金屬的分類,并計算誤判率以說明判別結(jié)果的準確性;使用r3.1.2軟件進行判別分析;s7、最優(yōu)預測空間的評價使用williamplot驗證最優(yōu)預測空間;利用公式6計算杠桿值hij,利用公式7計算hi*;其中,hij是指第i類第j個金屬/類金屬的杠桿值,xij是行向量,如果hij超過hi*,則說明該金屬/類金屬的eds值超出最優(yōu)預測空間;其中,hij是指第i類第j個金屬/類金屬的杠桿值,xij代表qsars模型中第i類第j個金屬/類金屬的理化性質(zhì)值排列成一行的行向量,代表xijx的轉(zhuǎn)置向量,x代表xij的逆向量,xt代表x的轉(zhuǎn)置向量,hi*代表第i類所有金屬/類金屬不超出最優(yōu)預測空間的杠桿值最大值;pi是第i類qsars模型中使用的變量個數(shù),ni是第i類訓練集的樣本個數(shù);使用r3.1.2軟件進行統(tǒng)計分析。過渡金屬保護人體健康水質(zhì)基準的非致癌eds預測結(jié)果見表2。表2.過渡金屬保護人體健康水質(zhì)基準的非致癌eds預測結(jié)果實施例2過渡金屬保護人體健康水質(zhì)基準的非致癌eds預測方法,包括以下步驟:s1、數(shù)據(jù)選擇從數(shù)據(jù)庫中獲取25種金屬/類金屬元素的健康閾值,所述數(shù)據(jù)庫包括(a)usepa的綜合風險信息系統(tǒng)(iris);(b)臨時同行評議毒性值(pprtv);(c)其他毒性值,包括有毒物質(zhì)和疾病登記署(atsdr)得出的最小風險水平(mrl),加利福尼亞州環(huán)保局(calepa)毒性值以及usepa健康效應評估總結(jié)表(healtheffectsassessmentsummarytable,heast);將25種金屬/類金屬劃分為訓練集和驗證集,以建立有驗證的模型;其中,數(shù)據(jù)劃分的標準為:(1)選擇較早發(fā)布的、理化參數(shù)齊全的金屬/類金屬作為訓練集;(2)訓練集和驗證集都選擇不同族的元素;s2、聚類分析(1)將金屬/類金屬健康閾值數(shù)據(jù)按公式1進行標準化變換,其中,代表標準化變換后的i金屬/類金屬的j理經(jīng)性質(zhì)的值,xij代表標準化變換前的i金屬/類金屬的j理化性質(zhì)的值,代表所有樣本金屬/類金屬的j理化性質(zhì)的平均值,sj代表所有樣本金屬/類金屬的j理化性質(zhì)的標準差;(2)聚類分析根據(jù)分類對象的不同分為r型和q型兩大類,r型是對變量(指標)進行分類處理,q型是對樣品進行分類處理;采用r型聚類分析處理金屬/類金屬的理化參數(shù),尋找出與eds值關系最密切的理化性質(zhì)參數(shù),再根據(jù)得到的理化性質(zhì)參數(shù),利用q型聚類分析對25種金屬/類金屬eds值進行分類,即采用聚類分析方法里的最短距離(歐氏距離)法分類;(3)使用統(tǒng)計軟件進行聚類分析;s3、qsars建模(1)分析金屬/類金屬的理化參數(shù)與所述數(shù)據(jù)庫中的eds之間的相關關系,即以選定的結(jié)構(gòu)參數(shù)為自變量,eds為因變量,作pearson相關系數(shù)檢驗,得到變量間的線性相關程度;對滿足p值小于0.1的條件的參數(shù)進一步做線性擬合構(gòu)建生物的金屬/類金屬理化性質(zhì)-效應劑量(eds)關系模型(physicochemicalproperties-edsrelationships,pper),得到?jīng)Q定系數(shù)r2;(2)利用r型聚類分析后得到的與eds值關系最密切的理化性質(zhì)參數(shù),分別同q型聚類分析得到不同的金屬/類金屬類進行線性擬合,建立多組pper模型;根據(jù)決定系數(shù)r2和p值,選擇擬合度高的一類qsars建模,進行內(nèi)部和外部驗證;(3)使用統(tǒng)計軟件進行數(shù)據(jù)處理與模型構(gòu)建;s4、內(nèi)部驗證,擬合優(yōu)度和穩(wěn)健性檢驗(1)內(nèi)部驗證采用殘差標準誤rse、r2、f統(tǒng)計量和調(diào)整過的r2四種統(tǒng)計量描述參數(shù)模型的擬合程度;r2和rse的計算公式如公式2和公式3所示;其中,yi是第i種金屬/類金屬的eds值,是第i種金屬/類金屬的預測eds值,n是訓練集的金屬/類金屬個數(shù);當模型擁有最小rse值和最大r2的模型被認為是最佳模型;(2)采用k折交叉驗證法檢驗模型的穩(wěn)健性;交叉驗證計算因變量預測值與原抽出樣本的因變量的觀測值yi之間的相關系數(shù)q2cv及交叉驗證均方根誤差(rmsecv)評價模型內(nèi)部預測能力;(3)使用統(tǒng)計軟件進行統(tǒng)計分析;s5、外部驗證和預測能力確定(1)利用具有驗證集來對模型進行驗證,該驗證集的預測值可以和觀測值相比較;(2)使用外部驗證的決定系數(shù)q2ext和預測的均方根誤差rseext對模型外部預測能力進行評價;采用公式4和公式5計算外部驗證的決定系數(shù)q2ext和預測的均方根誤差rseext;其中,是第j種驗證集(v)金屬/類金屬的eds觀測值,是第j種驗證集(v)金屬/類金屬的eds預測值,是訓練集(t)eds觀測值的平均值,m是驗證集的金屬/類金屬個數(shù);(3)使用統(tǒng)計軟件進行統(tǒng)計分析;s6、判別分析利用對訓練集的樣本得到的聚類結(jié)果,選擇fisher判別法對驗證集的樣本分類,隨后進行預測;利用q型聚類分析的結(jié)果作為歸類規(guī)則,判別驗證集中各金屬/類金屬的分類,并計算誤判率以說明判別結(jié)果的準確性;使用統(tǒng)計軟件進行判別分析;s7、最優(yōu)預測空間的評價使用williamplot驗證最優(yōu)預測空間;williamplot是指文獻(jaworskaj,nikolova-jeliazkovan,aldenbergt.qsarapplicabilitydomainestimationbyprojectionofthetrainingsetdescriptorspace:areview[j].atal-nottingham,2005,33(5):445.)中的方法,具體是指橫坐標為模型中樣本的杠桿值,縱坐標為模型中樣本的標準殘差值的圖;利用公式6計算杠桿值hij,利用公式7計算hi*;如果hij超過hi*,則說明該金屬/類金屬的eds值超出最優(yōu)預測空間;其中,hij是指第i類第j個金屬/類金屬的杠桿值,xij代表qsars模型中第i類第j個金屬/類金屬的理化性質(zhì)值排列成一行的行向量,代表xijx的轉(zhuǎn)置向量,x代表xij的逆向量,xt代表x的轉(zhuǎn)置向量,hi*代表第i類所有金屬/類金屬不超出最優(yōu)預測空間的杠桿值最大值;pi是第i類qsars模型中使用的變量個數(shù),ni是第i類訓練集的樣本個數(shù);使用統(tǒng)計軟件進行統(tǒng)計分析。實施例3過渡金屬保護人體健康水質(zhì)基準的非致癌eds預測方法,包括以下步驟:s1、數(shù)據(jù)選擇從數(shù)據(jù)庫中獲取25種金屬/類金屬元素的健康閾值,所述數(shù)據(jù)庫為iris、atsdr和pprtv。將25種金屬/類金屬劃分為訓練集和驗證集,以建立有驗證的模型;其中,數(shù)據(jù)劃分的標準為:(1)選擇較早發(fā)布的、理化參數(shù)齊全的金屬/類金屬作為訓練集;(2)訓練集和驗證集都選擇不同族的元素;(3)所述訓練集和驗證集選擇涵蓋所述iris、atsdr和pprtv三大數(shù)據(jù)庫來源;s2、聚類分析(1)將金屬/類金屬健康閾值數(shù)據(jù)按公式1進行標準化變換,其中,代表標準化變換后的i金屬/類金屬的j理化性質(zhì)的值,xij代表標準化變換前的i金屬/類金屬的j理化性質(zhì)的值,代表所有樣本金屬/類金屬的j理化性質(zhì)的平均值,sj代表所有樣本金屬/類金屬的j理化性質(zhì)的標準差;(2)聚類分析根據(jù)分類對象的不同分為r型和q型兩大類,r型是對變量(指標)進行分類處理,q型是對樣品進行分類處理;采用r型聚類分析處理金屬/類金屬的理化參數(shù),尋找出與eds值關系最密切的理化性質(zhì)參數(shù),再根據(jù)得到的理化性質(zhì)參數(shù),利用q型聚類分析對25種金屬/類金屬eds值進行分類,即采用聚類分析方法里的最短距離(歐氏距離)法分類;(3)使用sas軟件進行聚類分析;s3、qsars建模(1)分析金屬/類金屬的理化參數(shù)與所述數(shù)據(jù)庫中的eds之間的相關關系,即以選定的結(jié)構(gòu)參數(shù)為自變量,eds為因變量,作pearson相關系數(shù)檢驗,得到變量間的線性相關程度;對滿足p值小于0.1的條件的參數(shù)進一步做線性擬合構(gòu)建生物的金屬/類金屬理化性質(zhì)-效應劑量(eds)關系模型(physicochemicalproperties-edsrelationships,pper),得到?jīng)Q定系數(shù)r2;(2)利用r型聚類分析后得到的與eds值關系最密切的理化性質(zhì)參數(shù),分別同q型聚類分析得到不同的金屬/類金屬類進行線性擬合,建立多組pper模型;根據(jù)決定系數(shù)r2和p值,選擇擬合度高的一類qsars建模,進行內(nèi)部和外部驗證;(3)使用sas軟件進行數(shù)據(jù)處理與模型構(gòu)建;s4、內(nèi)部驗證,擬合優(yōu)度和穩(wěn)健性檢驗(1)內(nèi)部驗證采用殘差標準誤rse、r2、f統(tǒng)計量和調(diào)整過的r2四種統(tǒng)計量描述參數(shù)模型的擬合程度;r2和rse的計算公式如公式2和公式3所示;其中,yi是第i種金屬/類金屬的eds值,是第i種金屬/類金屬的預測eds值,n是訓練集的金屬/類金屬個數(shù);當模型擁有最小rse值和最大r2的模型被認為是最佳模型;(2)采用k折交叉驗證法檢驗模型的穩(wěn)健性;交叉驗證計算因變量預測值與原抽出樣本的因變量的觀測值yi之間的相關系數(shù)q2cv及交叉驗證均方根誤差(rmsecv)評價模型內(nèi)部預測能力;穩(wěn)健性檢驗還包括采用y隨機化方法驗證模型的穩(wěn)定性;采用y隨機化方法檢驗因變量和自變量之間的偶然相關;以防止建模的訓練集數(shù)據(jù)較多,而可能出現(xiàn)過度擬合和偶然相關;(3)使用sas軟件進行統(tǒng)計分析;s5、外部驗證和預測能力確定(1)利用具有驗證集來對模型進行驗證,該驗證集的預測值可以和觀測值相比較;(2)使用外部驗證的決定系數(shù)q2ext和預測的均方根誤差rseext對模型外部預測能力進行評價;采用公式4和公式5計算外部驗證的決定系數(shù)q2ext和預測的均方根誤差rseext;其中,是第j種驗證集(v)金屬/類金屬的eds觀測值,是第j種驗證集(v)金屬/類金屬的eds預測值,是訓練集(t)eds觀測值的平均值,m是驗證集的金屬/類金屬個數(shù);(3)使用sas軟件進行統(tǒng)計分析;s6、判別分析利用對訓練集的樣本得到的聚類結(jié)果,選擇fisher判別法對驗證集的樣本分類,隨后進行預測;利用q型聚類分析的結(jié)果作為歸類規(guī)則,判別驗證集中各金屬/類金屬的分類,并計算誤判率以說明判別結(jié)果的準確性;使用sas軟件進行判別分析;s7、最優(yōu)預測空間的評價使用williamplot驗證最優(yōu)預測空間;williamplot是指文獻(jaworskaj,nikolova-jeliazkovan,aldenbergt.qsarapplicabilitydomainestimationbyprojectionofthetrainingsetdescriptorspace:areview[j].atal-nottingham,2005,33(5):445.)中的方法,具體是指橫坐標為模型中樣本的杠桿值,縱坐標為模型中樣本的標準殘差值的圖;利用公式6計算杠桿值hij,利用公式7計算hi*;如果hij超過hi*,則說明該金屬/類金屬的eds值超出最優(yōu)預測空間;其中,hij是指第i類第j個金屬/類金屬的杠桿值,xij代表qsars模型中第i類第j個金屬/類金屬的理化性質(zhì)值排列成一行的行向量,代表xijx的轉(zhuǎn)置向量,x代表xij的逆向量,xt代表x的轉(zhuǎn)置向量,hi*代表第i類所有金屬/類金屬不超出最優(yōu)預測空間的杠桿值最大值;pi是第i類qsars模型中使用的變量個數(shù),ni是第i類訓練集的樣本個數(shù);使用sas軟件進行統(tǒng)計分析。上述詳細說明是針對本發(fā)明其中之一可行實施例的具體說明,該實施例并非用以限制本發(fā)明的專利范圍,凡未脫離本發(fā)明所為的等效實施或變更,均應包含于本發(fā)明技術方案的范圍內(nèi)。當前第1頁12當前第1頁12