專利名稱:污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,即在建立定量結(jié)構(gòu)活性相關(guān)模型時(shí),采用交叉驗(yàn)證的方法對(duì)模型進(jìn)行內(nèi)部樣本驗(yàn)證,構(gòu)建交叉驗(yàn)證相關(guān)系數(shù)Q1和模型修正相關(guān)系數(shù)爐_的乘積QRadj作為模型結(jié)構(gòu)描述符篩選的終止表征, 用以描述模型的穩(wěn)定性和預(yù)測(cè)能力,判斷模型預(yù)測(cè)性能的優(yōu)劣。
背景技術(shù):
污染物的定量結(jié)構(gòu)活性相關(guān)(QuantitativeStructure and Activity Relationship, QSAR)模型已經(jīng)被廣泛應(yīng)用于成為污染物環(huán)境生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)和人體健康風(fēng)險(xiǎn)評(píng)價(jià)中(王連生,韓朔睽.有機(jī)污染物的定量結(jié)構(gòu)-活性相關(guān).1993,北京中國(guó)環(huán)境科學(xué)出版社)。隨著QSAR研究的深入,分子結(jié)構(gòu)表征技術(shù)已經(jīng)越來越成熟,開發(fā)的分子結(jié)構(gòu)描述符越來越多(Todeschini R. , Consonni V. Molecular Descriptors for Chemoinformatics. New York: Wiley VCH, 2009.)。然而結(jié)構(gòu)描述符之間因?yàn)橛?jì)算原理不一致,相互之間包含的信息重疊相當(dāng)嚴(yán)重,導(dǎo)致嚴(yán)重的共線性關(guān)系。雖然通過變量的預(yù)篩選可去除大量的冗余信息和部分共線性變量,但是描述符的數(shù)量還是太多。奧卡姆剃刀原則要求模型應(yīng)該盡可能簡(jiǎn)單的原則,一般模型參數(shù)越多模型越復(fù)雜,過擬合的可能性越大,即QSAR模型的結(jié)構(gòu)描述符不能太多(Bell D. , Wang H. A Formalism for Relevance and Its Application in Feature Subset Selection. Machine Learning, 2000, 41(2), 175-195. Wolpert D. The Relationship between Occam' s Razor and Convergent Guessing. Complex systems, 1990, 4(2), 319-368.)。同時(shí)研究結(jié)果表明隨著模型復(fù)雜程度的增加,過擬合的概率和模型預(yù)測(cè)誤差隨之增大(Brown S., Tauler R., Walczak B. Comprehensive Chemometries Chemical and Biochemical Data Analysis. Elsevier Amsterdam, 2009. )。Gonzcilez等和Tsygankova等曾分析評(píng)價(jià)了 QSAR研究中的變量篩選方法,不可否認(rèn),污染物QSAR結(jié)構(gòu)描述符篩選面臨全回歸方法可獲得全局最優(yōu)子集但不能處理大變量集,而隨機(jī)型篩選方法理論上可達(dá)此目的但其算法原理決定了其無法保證找至丨J最優(yōu)子集的困境(Kapetanios G. Variable Selection in Regression Models Using Nonstandard Optimisation of Information Criteria. Comput. Stat. Data Anal., 2007, 52(1),4-15. Gonzalez M. P. , Teran C. , Sai ζ-Urra L. , Teijeir Μ. Variable Selection Methods in QSAR: An Overview. Curr. Top. Med. Chem. , 2008, 8(18), 1606-1627. Tsygankova I. G. Variable Selection in QSAR Models for Drug Design. Curr. Comput. -Aided. Drug Des. , 2008,4(2), 132-142.)??梢姡Y(jié)構(gòu)描述符篩選已經(jīng)成為QSAR研究中一個(gè)重要的技術(shù)難題。QSAR模型結(jié)構(gòu)描述符篩選終止標(biāo)準(zhǔn)是描述符篩選時(shí)描述模型性能優(yōu)劣的指標(biāo),但目前對(duì)統(tǒng)計(jì)模型優(yōu)劣的描述并沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。研究者提出了很多確定模型優(yōu)劣的統(tǒng)計(jì)參數(shù)標(biāo)準(zhǔn),如修正復(fù)相關(guān)系數(shù)爐_、均方根差湖S£\預(yù)測(cè)偏差的方差JJp、平均預(yù)測(cè)均方差 Sp, Cp統(tǒng)計(jì)量、預(yù)測(cè)平方和/ ^ AIC準(zhǔn)則等基于建模樣本的統(tǒng)計(jì)參數(shù)(方開泰;全輝;陳慶云,實(shí)用回歸分析.科學(xué)出版社北京,1988.),以及近年來常用的交叉驗(yàn)證(或刀切法)相關(guān)系數(shù)《2或者均方根差膽等(Ronchetti E.,F(xiàn)ield C.,Blanchard W. Robust Linear Model Selection by Cross-Validation. J. Am. Stat. Assoc. 1997, 92 (439), 1017-1023.)。這些參數(shù)或多或少地存在一些問題,如Sp和Cp等參數(shù)都是基于模型對(duì)響應(yīng)值的估計(jì)而得到的,并不能說明模型對(duì)外部樣本的預(yù)測(cè)能力;通常采用的交叉驗(yàn)證相關(guān)系數(shù)7或者均方根差^MST等統(tǒng)計(jì)參數(shù),因其是通過采用其中的一部分樣本建模, 再預(yù)測(cè)另外的一部分樣本,并且每個(gè)樣本都預(yù)測(cè)過一次,所以成為污染物QSAR研究領(lǐng)域比較得到公認(rèn)的能夠說明模型預(yù)測(cè)能力的統(tǒng)計(jì)參數(shù)。但是目前已經(jīng)發(fā)現(xiàn)7與湖S£T存在諸多問題,如GolbraiW1等中指出Q1僅僅是模型是否具有預(yù)測(cè)的能力的必要條件,而不是充分條件(Golbraikh A. , Tropsha A. Beware of q2\ J. Mol. Graph. Mod. 2002,20 (4), 269-276.) ;Hawkins則明確指出變量篩選時(shí)對(duì)7的不當(dāng)使用會(huì)導(dǎo)致過擬合現(xiàn)象的出現(xiàn); 實(shí)際上,很多變量子集具有很高的Qi值,但模型自身的相關(guān)系數(shù)r2值很低,甚至接近0,即單獨(dú)使用《2或膽S£T并不能說明模型的穩(wěn)定性和預(yù)測(cè)能力(Hawkins D. The problem of overfitting. J. Chem. Inf. Comput. Sci. 2004,44 (1),1-12.) 因此,提出并建立能夠用于描述污染物QSAR模型優(yōu)劣的新標(biāo)準(zhǔn)并將之作為污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法對(duì)突破結(jié)構(gòu)描述符篩選這一瓶頸問題具有重要意義。文獻(xiàn)檢索結(jié)果表明,在本發(fā)明完成之前,未發(fā)現(xiàn)在建立定量結(jié)構(gòu)活性相關(guān)模型時(shí), 采用交叉驗(yàn)證的方法對(duì)模型進(jìn)行內(nèi)部樣本驗(yàn)證,構(gòu)建交叉驗(yàn)證相關(guān)系數(shù)7和模型修正相關(guān)系數(shù)浐a(U的乘積諷W7作為模型結(jié)構(gòu)描述符篩選的終止表征,用以描述模型的穩(wěn)定性和預(yù)測(cè)能力,判斷模型預(yù)測(cè)性能的優(yōu)劣。
發(fā)明內(nèi)容
1、發(fā)明要解決的技術(shù)問題
目前QSAR研究采用交互驗(yàn)證的相關(guān)系數(shù)為模型結(jié)構(gòu)描述符篩選終止標(biāo)準(zhǔn),但是高Q1 僅僅是模型預(yù)測(cè)性能的必要非充分條件,單獨(dú)使用Q2并不能說明模型的穩(wěn)定性和預(yù)測(cè)能力,如何構(gòu)建合理的污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法是目前QSAR 研究亟待解決的難題。本發(fā)明針對(duì)以上技術(shù)難題,提供污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,不僅能夠保證所獲模型具有較高的交叉驗(yàn)證相關(guān)系數(shù)7,而且可以避免過擬合現(xiàn)象的出現(xiàn),杜絕篩選出低r2值高7值的QSAR模型變量組合,科學(xué)描述模型的穩(wěn)定性和預(yù)測(cè)能力。2、技術(shù)方案
本發(fā)明的原理是將交叉驗(yàn)證相關(guān)系數(shù)7和模型修正相關(guān)系數(shù)爐__進(jìn)行整合,提供污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法。即在建立定量結(jié)構(gòu)活性相關(guān)模型時(shí),采用交叉驗(yàn)證的方法對(duì)模型進(jìn)行內(nèi)部樣本驗(yàn)證,構(gòu)建交叉驗(yàn)證相關(guān)系數(shù)7和模型修正相關(guān)系數(shù)浐a(U的乘積諷作為模型結(jié)構(gòu)描述符篩選的終止表征,用以描述模型的穩(wěn)定性和預(yù)測(cè)能力,判斷模型預(yù)測(cè)性能的優(yōu)劣。采用的技術(shù)方案如下
污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,其獲取步驟包括
(1)將交叉驗(yàn)證相關(guān)系數(shù)7和模型修正相關(guān)系數(shù)浐a(U進(jìn)行整合,提供污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法;
(2)對(duì)某一變量子集建立統(tǒng)計(jì)模型,獲得觀測(cè)值與模型估計(jì)值之間的相關(guān)系數(shù)r2、修正相關(guān)系數(shù)爐_,各參數(shù)的計(jì)算公式如下
權(quán)利要求
1.污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,包括以下步驟(1)將交叉驗(yàn)證相關(guān)系數(shù)7和模型修正相關(guān)系數(shù)浐a(U進(jìn)行整合,提供污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法;(2)對(duì)某一變量子集建立統(tǒng)計(jì)模型,獲得觀測(cè)值與模型估計(jì)值之間的相關(guān)系數(shù)r2、修正相關(guān)系數(shù)爐_,各參數(shù)的計(jì)算公式如下
2.根據(jù)權(quán)利要求1中所述的污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法, 其特征在于將交叉驗(yàn)證相關(guān)系數(shù)7和模型修正相關(guān)系數(shù)浐__進(jìn)行整合構(gòu)建新標(biāo)準(zhǔn),新參數(shù) QRadj不僅能夠保證所獲模型具有較高的交叉驗(yàn)證相關(guān)系數(shù)而且可以避免過擬合現(xiàn)象的出現(xiàn),杜絕篩選出低r2值高7值的QSAR模型變量組合,科學(xué)描述模型的穩(wěn)定性和預(yù)測(cè)能力。
3.根據(jù)權(quán)利要求1中所述的污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,其特征在于步驟(1)中將交叉驗(yàn)證相關(guān)系數(shù)q2和模型修正相關(guān)系數(shù)Padj進(jìn)行整合,提供污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法。
4.根據(jù)權(quán)利要求1中所述的污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,其特征在于步驟(2)中觀測(cè)值與模型估計(jì)值之間的相關(guān)系數(shù)r2、修正相關(guān)系數(shù)Patlj由以下計(jì)算公式獲得
5.根據(jù)權(quán)利要求1中所述的污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,其特征在于步驟(3)中由LOOCV或LMOCV進(jìn)行模型內(nèi)部驗(yàn)證,獲得交叉驗(yàn)證相關(guān)系數(shù)7。
6.根據(jù)權(quán)利要求1中所述的污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,其特征在于步驟(3)中交叉驗(yàn)證相關(guān)系數(shù)7由以下計(jì)算公式獲得
7.根據(jù)權(quán)利要求1中所述的污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,其特征在于步驟(4)中新參數(shù)由交叉驗(yàn)證相關(guān)系數(shù)7和模型修正相關(guān)系數(shù)爐adj的乘積表達(dá),一方面保證所獲描述符子集構(gòu)建的QSAR模型具有較高的交叉驗(yàn)證相關(guān)系數(shù)cf, 另一方面避免篩選出低r2值高7值的QSAR模型變量組合,科學(xué)描述模型的穩(wěn)定性和預(yù)測(cè)能力,計(jì)算公式如下Q^ = g7 。
8.根據(jù)權(quán)利要求ι中所述的污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,其特征在于步驟(5)中新參數(shù)的數(shù)值越大,說明QSAR模型的穩(wěn)定性越高,預(yù)測(cè)能力越強(qiáng),目前QSAR研究采用交互驗(yàn)證的相關(guān)系數(shù)為模型結(jié)構(gòu)描述符篩選終止標(biāo)準(zhǔn),但是高 Q2僅僅是模型預(yù)測(cè)性能的必要非充分條件,單獨(dú)使用Q1并不能說明模型的穩(wěn)定性和預(yù)測(cè)能力,本發(fā)明通過QRadj最大化,達(dá)到Qi和浐adj的平衡,實(shí)現(xiàn)模型的擬合與預(yù)測(cè)能力的平衡。
9.根據(jù)權(quán)利要求1 8中任一項(xiàng)所述的污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法,其特征在于采用交互驗(yàn)證相關(guān)系數(shù)Q1和模型修正相關(guān)系數(shù)浐a(U對(duì)QSAR模型優(yōu)劣進(jìn)行合理判斷。
全文摘要
本發(fā)明公開了污染物定量結(jié)構(gòu)活性相關(guān)模型結(jié)構(gòu)描述符篩選終止的方法。本發(fā)明將交叉驗(yàn)證相關(guān)系數(shù)q2和模型修正相關(guān)系數(shù)R2adj進(jìn)行整合;對(duì)某一變量子集建立統(tǒng)計(jì)模型,獲得觀測(cè)值與模型估計(jì)值之間的相關(guān)系數(shù)r2、修正相關(guān)系數(shù)R2adj;對(duì)上述過程中的變量子集進(jìn)行交叉驗(yàn)證,獲得模型的交叉驗(yàn)證相關(guān)系數(shù)q2,所用的交叉驗(yàn)證方法有兩種留一法交互驗(yàn)證和留多法交互驗(yàn)證;根據(jù)上述過程得到的統(tǒng)計(jì)參數(shù)構(gòu)造新參數(shù)QRadj;對(duì)同一系統(tǒng)新參數(shù)QRadj的數(shù)值越大,說明模型的穩(wěn)定性越高,預(yù)測(cè)能力越強(qiáng)。本發(fā)明中的新標(biāo)準(zhǔn)QRadj不僅能夠保證所獲模型具有較高的交叉驗(yàn)證相關(guān)系數(shù)q2,而且可以避免過擬合現(xiàn)象的出現(xiàn),杜絕篩選出低r2值高q2值的QSAR模型變量組合,科學(xué)描述模型的穩(wěn)定性和預(yù)測(cè)能力。
文檔編號(hào)G06F17/50GK102156791SQ201110110058
公開日2011年8月17日 申請(qǐng)日期2011年4月29日 優(yōu)先權(quán)日2011年4月29日
發(fā)明者張愛茜, 易忠勝, 李富華, 穆云松, 藺遠(yuǎn), 高常安 申請(qǐng)人:南京大學(xué)