專利名稱::基于廣義原子加和模型的分子水溶解性預(yù)測(cè)方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種新型的基于廣義原子加和模型的分子水溶解性預(yù)測(cè)方法,適用于根據(jù)有機(jī)化合物分子結(jié)構(gòu)信息預(yù)測(cè)化合物在水溶液中25°C的溶解度。
背景技術(shù):
:在傳統(tǒng)的藥物設(shè)計(jì)流程中,人們最為關(guān)心的往往是候選化合物對(duì)于特定靶點(diǎn)的活性以及對(duì)于相關(guān)靶點(diǎn)的選擇性。然而從上世紀(jì)九十年代開始,隨著大規(guī)模高通量篩選和組合化學(xué)等技術(shù)的飛速發(fā)展,人們逐漸認(rèn)識(shí)到發(fā)現(xiàn)對(duì)某個(gè)靶點(diǎn)具有體外或體內(nèi)活性的候選化合物可能并不困難,但如何將其進(jìn)一步成功開發(fā)成為藥物仍然是一項(xiàng)極為艱巨的挑戰(zhàn)。新藥研發(fā)過程費(fèi)用昂貴、時(shí)間冗長(zhǎng)、淘汰率高。平均一個(gè)新藥的研發(fā)需要花費(fèi)10億美元以上,耗時(shí)約12年時(shí)間。大約有90%的候選藥物在臨床期間被淘汰,這是研發(fā)過程費(fèi)用昂貴的主要因素。造成這種研發(fā)后期的失敗主要源自化合物的藥代動(dòng)力學(xué)性質(zhì)不良(圖l),例如口服吸收性差,生物利用度低。而傳統(tǒng)的新藥研發(fā)流程中,藥物動(dòng)力學(xué)的研究又處于研發(fā)的中后期。這種藥物開發(fā)后期的失敗代價(jià)非常大,常常導(dǎo)致前功盡棄,使得藥物研發(fā)項(xiàng)目被迫放棄,或者尋找新的先導(dǎo)化合物從頭再來,這對(duì)制藥公司來說是一個(gè)難以承受的財(cái)政負(fù)擔(dān)。合理的解決方法是通過增加相對(duì)需要較少花費(fèi)的早期研發(fā)的損耗率來增加效率并減少整體藥物研發(fā)的開銷。這種所謂的"失敗越早,代價(jià)越小"的策略正在被越來越多藥物公司所接受。因此有必要在藥物研發(fā)的較早階段進(jìn)行化合物的藥代動(dòng)力學(xué)性質(zhì)及毒性研究。另一方面,高通量篩選技術(shù)和組合化學(xué)的發(fā)展,也使得需要進(jìn)行藥代動(dòng)力學(xué)性質(zhì)評(píng)估的化合物數(shù)量急劇增加,又推動(dòng)了體外高通量吸收、分布、代謝、排泄等(A匿E)篩選技術(shù)的發(fā)展。藥物分子的水溶性是影響其ADME性質(zhì)和高通量篩選中可篩選性(screenability)的重要物理性質(zhì)。水是所有生物的結(jié)構(gòu)和功能的組成部分,人體質(zhì)量約60%是水_生物學(xué)在某種意義上可以理解為"水環(huán)境科學(xué)"。對(duì)藥物行業(yè)來說,藥物在水中的行為決定了其在體內(nèi)(如口服吸收然后通過血液轉(zhuǎn)運(yùn)和分布)吸收、轉(zhuǎn)運(yùn)和排泄性質(zhì),從而影響早期的篩選及后期開發(fā)丄ipinski指出組合化學(xué)庫研究中遇到的很多困難都與所產(chǎn)生的化合物溶解性差有關(guān)。更具體的說,藥物的水溶解性是影響藥物分子在胃腸道的吸收的一個(gè)關(guān)鍵理化性質(zhì)。這里的吸收是指藥物由用藥部位進(jìn)入血液循環(huán)的轉(zhuǎn)運(yùn)過程。應(yīng)用生理模型對(duì)該性質(zhì)進(jìn)行模擬,可以用來預(yù)測(cè)吸收程度和吸收效率,模擬藥物劑型對(duì)藥物吸收的影響,從而指導(dǎo)藥物劑型的設(shè)計(jì)。另外,藥物的水溶解性還影響藥物進(jìn)入血液后,隨血液分布到機(jī)體各組織中的比例。通過這種對(duì)藥物分布的模擬,可以用來預(yù)測(cè)分布容積(結(jié)合清除率可以預(yù)測(cè)藥物的半衰期)及藥物在靶組織的濃度與時(shí)間的關(guān)系。因此,藥物的水溶解性是早期藥物設(shè)計(jì)和篩選,尤其是用于指導(dǎo)化合物定購和合成的一項(xiàng)重要A匿E性質(zhì)相關(guān)指標(biāo)。—個(gè)分子的水溶性通常表達(dá)為logS(lgS),S為分子在飽和溶液中的濃度(mo1/L)。85%的藥物分子的水溶性一般在[-5,-l]之間。當(dāng)化合物的水溶性大于-l時(shí),其極性3很大,透膜能力會(huì)比較差,比如糖類和小肽。水溶性的理論預(yù)測(cè)方法主要包括兩類基于分子參數(shù)的預(yù)測(cè)模型和基于片斷加和法的預(yù)測(cè)模型。1)、基于分子參數(shù)的預(yù)測(cè)模型這類預(yù)測(cè)模型是最為常見的一類水溶性預(yù)測(cè)模型。早在1968年,Hansch等就注意到液態(tài)有機(jī)化合物的水溶性和脂水分布系數(shù)之間呈現(xiàn)很好的線性關(guān)系,但不適于對(duì)于固態(tài)有機(jī)化合物水溶性的預(yù)測(cè)。后來使用的與水溶性有關(guān)的分子參數(shù)主要包括熔點(diǎn)、摩爾折射率、氫鍵、分子體積、分子與溶液的平均非鍵相互作用、平均溶劑可及表面積、氫鍵數(shù)目以及其他拓?fù)鋮?shù)。2)、基于片斷加和的方法從原理上講,水溶性被假定為組成這個(gè)分子的所有片斷貢獻(xiàn)的加和,如公式(eq.1)所示:<formula>formulaseeoriginaldocumentpage4</formula>式中n為所有片斷的個(gè)數(shù);ai為第i個(gè)片斷水溶性常數(shù);B為常數(shù)。研究表明,在水合自由能的預(yù)測(cè)中采用片斷加和模型可以給出很好的數(shù)據(jù)擬合結(jié)果,但由于片斷劃分的主觀性和有限性,這類方法的擴(kuò)展性不是很強(qiáng)。另一種較為常見替代方法是原子加和法。由于采用了原子作為最小單元,可完全避免碎片類型預(yù)定義不足的問題。但原子加和法也有其固有的缺陷,如不能較好的考慮以基團(tuán)為單位中不同組分之間的相互作用。面對(duì)傳統(tǒng)藥物開發(fā)中費(fèi)用高、淘汰率高、時(shí)間長(zhǎng)的現(xiàn)狀,以及現(xiàn)有的水溶性的理論預(yù)測(cè)方法的種種弊端和不足。計(jì)算機(jī)模擬藥物動(dòng)力學(xué)正在為全球各大制藥公司應(yīng)用,并將會(huì)在藥物的研發(fā)過程中起到越來越重要的作用。
發(fā)明內(nèi)容本發(fā)明的目的主要是提供一種適合高通量篩選,同時(shí)預(yù)測(cè)準(zhǔn)確、適用范圍廣泛的有機(jī)分子溶解性評(píng)價(jià)方法,特別是一種基于廣義原子加和模型的分子水溶解性的預(yù)測(cè)方法。為了實(shí)現(xiàn)上述目的,本發(fā)明主要是通過采用新型的廣義原子加和方法,對(duì)現(xiàn)有分子結(jié)構(gòu)和相關(guān)溶解度數(shù)據(jù)進(jìn)行訓(xùn)練而達(dá)到的。在本發(fā)明中,我們采用新型的廣義原子加和模型進(jìn)行水溶性的預(yù)測(cè)。傳統(tǒng)原子加和模型具有與片斷加和法(eq.1)相同的表述形式<formula>formulaseeoriginaldocumentpage4</formula>廣義原子加和模型用一個(gè)函數(shù)&GO表述每個(gè)原子&對(duì)整體性質(zhì)的貢獻(xiàn),其中x為描述原子性質(zhì)的描述符,因此對(duì)響應(yīng)值Y可以由下式進(jìn)行預(yù)測(cè)<formula>formulaseeoriginaldocumentpage4</formula>在本發(fā)明中,對(duì)于藥物分子的溶解度logS,我們認(rèn)為每個(gè)原子的部分貢獻(xiàn)值&的差別主要來自于原子類型,原子凈電荷qi和該原子的溶劑可接觸表面積ei(或溶劑可接觸表面積分?jǐn)?shù)eMti。)的變化,即&=f(ai,qi,e》(叫4)則最后計(jì)算logS的模型公式可以表述為logS='=i(eq.5)其中f(ai,qi,e》為原子i對(duì)整體溶解度貢獻(xiàn)函數(shù),反映了原子貢獻(xiàn)值對(duì)凈電荷和原子的溶劑可接觸表面積的依賴關(guān)系,對(duì)于這種依賴關(guān)系,發(fā)明人提出8種可能的數(shù)學(xué)模型進(jìn)行擬合,如下模型1)f=a(傳統(tǒng)原子累加模型)模型2)f=a+e9(用溶劑可接觸表面積作為校正項(xiàng)的傳統(tǒng)原子累加模型)模型3)f=a+bq(電荷的線性函數(shù))模型4)f=(a+bq)9Mti。(溶劑可接觸表面積作為權(quán)重的電荷線性函數(shù))模型5)f=a+bq+e9(溶劑可接觸表面積作校正項(xiàng)的電荷線性函數(shù))模型6)f=a+bq+cq2(電荷的二次函數(shù))模型7)f=(a+bq+cq2)9Mti。(溶劑可接觸表面積為權(quán)重的電荷二次函數(shù))模型8)f=a+bq+Cq2+e9(溶劑可接觸表面積為校正項(xiàng)的電荷二次函數(shù))其中a,b,c,e為待定參數(shù),由對(duì)已知溶解度化合物訓(xùn)練得到。分子溶解度數(shù)據(jù)主要來自ChemicalPropertiesHandbook和Yaw'sHandbookofThermodynamicandPhysicalPropertiesofChemicalCompounds,以及部分有實(shí)驗(yàn)溶解度數(shù)據(jù)的中等分子量的殺蟲劑分子和大分子量的藥物分子共包括1894個(gè)化合物,隨機(jī)抽取90%作為訓(xùn)練集共1715個(gè)化合物,179個(gè)作為外部測(cè)試集。原子凈電荷計(jì)算使用Gasteiger-Marsili模型,原子溶劑可及表面積使用MSMS程序計(jì)算得到。用多元線性回歸方法來確定廣義原子加和模型中不同函數(shù)的系數(shù),使用免費(fèi)統(tǒng)計(jì)學(xué)軟件包R完成,結(jié)果表明模型6(Mod.6)和模型8(Mod.8)具有最好的數(shù)據(jù)擬合和預(yù)測(cè)效果。具體地,本發(fā)明提供的一種新型的基于廣義原子加和模型的分子水溶解性的預(yù)測(cè)方法包括如下步驟a.首先將溶解度的原子貢獻(xiàn)表述為該原子溶劑可接觸表面積校正的原子凈電荷二次函數(shù)即構(gòu)建函數(shù)模型步驟對(duì)于有機(jī)分子的溶解度logS,每個(gè)原子的部分貢獻(xiàn)值&的差別主要來自于原子類型,原子凈電荷&和該原子的溶劑可接觸表面積9i或溶劑可接觸表面積分?jǐn)?shù)eMti。的變化,即fi=f(ai,Qi,ei);這種依賴關(guān)系可以用溶解度對(duì)分子溶劑可接觸表面積為校正項(xiàng)的原子靜電荷二次函數(shù)進(jìn)行表征,即lGgS=2/(",,《,,《)其中f(ai,Qi,9》為原子i對(duì)整體溶解度貢獻(xiàn)函數(shù),反映了原子貢獻(xiàn)值對(duì)凈電荷和原子的溶劑可接觸表面積的依賴關(guān)系,對(duì)于這種依賴關(guān)系可以用原子靜電荷和以溶劑可接觸表面積為權(quán)重的電荷二次函數(shù)形式進(jìn)行表征為f=a+bq+cq2(1)f=(a+bq+cq2)9rati。(2)其中a,b,c為待定參數(shù),由對(duì)已知溶解度化合物訓(xùn)練得到;b.收集來自ChemicalPropertiesHandbook禾口Yaw'sHandbookofThermodynamicandPhysicalPropertiesofChemicalCompounds,以及部分中等分子量的殺蟲劑分子和大分子量的藥物分子共包括1894個(gè)化合物實(shí)驗(yàn)溶解度數(shù)據(jù),隨機(jī)抽取90X作為訓(xùn)練集,以多重線性回歸確定待定參數(shù)a,b,c的取值,構(gòu)建上述函數(shù)模型對(duì)應(yīng)的參數(shù)表;c.對(duì)于給定分子結(jié)構(gòu),先使用原子類型匹配,確定該分子中所有原子對(duì)應(yīng)的部分溶解度貢獻(xiàn)函數(shù)&;由參數(shù)表中查得各函數(shù)的參數(shù)取值a,b,c,確定具體函數(shù)形式;根據(jù)部分溶解度貢獻(xiàn)函數(shù)fi計(jì)算得到每個(gè)原子的溶解度貢獻(xiàn);最后對(duì)所有原子的貢獻(xiàn)進(jìn)行加和,求得該分子的預(yù)測(cè)溶解度。本發(fā)明的方法既可以保持基團(tuán)加和方法數(shù)據(jù)擬合能力強(qiáng),模型物理意義強(qiáng)的特點(diǎn),同時(shí)可以較好的避免現(xiàn)有方法碎片類型預(yù)定義不足,擴(kuò)展性不強(qiáng)的問題。本發(fā)明中提出一種新型的基于廣義原子加和模型的分子水溶解性預(yù)測(cè)方法,可以快速準(zhǔn)確的根據(jù)有機(jī)化合物分子結(jié)構(gòu)信息對(duì)該化合物在水溶液中25t:的溶解度(logS)進(jìn)行計(jì)算,適用于藥物研發(fā)早期階段的虛擬A匿E評(píng)價(jià)。該項(xiàng)技術(shù)的應(yīng)用有助于在新藥開發(fā)過程中對(duì)化合物,尤其是獲得實(shí)體化合物之前,進(jìn)行高通量篩選,并能對(duì)臨床試驗(yàn)的設(shè)計(jì)進(jìn)行指導(dǎo)作用,以達(dá)到提高藥物研發(fā)的效率、降低藥物研發(fā)成本的目的。圖1、藥物研發(fā)失敗的關(guān)鍵因素。圖2、模型8的訓(xùn)練集溶解度預(yù)測(cè)值與實(shí)驗(yàn)值的相關(guān)性散點(diǎn)圖。圖3、模型8的訓(xùn)練集溶解度預(yù)測(cè)殘差分布圖。圖4、模型8的測(cè)試集溶解度預(yù)測(cè)值與實(shí)驗(yàn)值的相關(guān)性散點(diǎn)圖。圖5、模型8的測(cè)試集溶解度預(yù)測(cè)殘差分布圖。具體實(shí)施例實(shí)施例18個(gè)候選模型的統(tǒng)計(jì)性能比較。收集來自ChemicalPropertiesHandbook禾口Yaw'sHandbookofThermodynamicandPhysicalPropertiesofChemicalCompounds,以及部分中等分子量的殺蟲劑分子禾口大分子量的藥物分子共包括1894個(gè)化合物實(shí)驗(yàn)溶解度數(shù)據(jù),隨機(jī)抽取90%作為訓(xùn)練集,以多重線性回歸確定待定參數(shù)a,b,c的取值,構(gòu)建上述函數(shù)模型對(duì)應(yīng)的參數(shù)表。表1、8個(gè)候選模型的統(tǒng)計(jì)性能比較。R2R2"adjustSEFPdfq2SEpred1.f=a0.72620.72351.069264.8<2.2e-16170.79540.95012.f=a+e90.76660.76190.992162.3<2.2e-16340.79420.9533.f=a+bq0.78840.78410.9447184.1<2.2e-16340.82880.8696<table>tableseeoriginaldocumentpage7</column></row><table>從上表的統(tǒng)計(jì)結(jié)果可以看出模型6(Mod.6)和模型8(Mod.8)具有最好的數(shù)據(jù)擬合和預(yù)測(cè)效果。接下來,我們對(duì)多元線性回歸后確定的方程又進(jìn)行了因子分析和逐步回歸,并剔除對(duì)模型預(yù)測(cè)性貢獻(xiàn)較小的變量,簡(jiǎn)化模型形式,模型6得到以下參數(shù)表2、模型6(f=a+bq+cq2)參數(shù)表。<table>tableseeoriginaldocumentpage7</column></row><table><table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>經(jīng)優(yōu)化后模型6的多重回歸系數(shù)R2為0.839,F(xiàn)值242.9>>F36/1678.對(duì)179個(gè)化合物的測(cè)試集預(yù)測(cè)R2為0.8399,預(yù)測(cè)標(biāo)準(zhǔn)偏差0.8405?;貧w分析表明我們的模型具有顯著性,外部驗(yàn)證也顯示了良好的預(yù)測(cè)性能。對(duì)于測(cè)試集和訓(xùn)練集的預(yù)測(cè)結(jié)果散點(diǎn)圖和殘差分析結(jié)果如圖3所示。表3、模型8(f=a+bq+cq2+e9)參數(shù)表。參數(shù)原子類型估計(jì)值標(biāo)準(zhǔn)偏差T值Pr(>|t|)顯著性aH0.353020.050257.0263.11E-12女女女bH-2.543550.82279-3.0910.002026女女cH10.993192.349424.6793.12E-06女女女6H-0.185990.02505-7.4251.80E-13女女女a(chǎn)sp3C-0.34150.03736-9.14<2e-16女女女bsp3C5.600950.4992211.219<2e-16女女女csp3C-28.6551.86555-15.36<2e-16女女女6sp3C-0.543710.13222-4.1124.12E-05女女女a(chǎn)sp2C-0.372880.02032-18.346<2e-16女女女csp2C-10.8760.86657-12.551<2e-16女女女6sp3N-0.7570.25029-3.0240.002529女女a(chǎn)planaryN1.371570.622132.2050.027619女bsp2N-5.205211.2236-4.2542.22E-05女女女csp2N-11.77863.09664-3.8040.000148女女女a(chǎn)sp303.912842.191011.7860.074306bsp3022.1762811.397961.9460.0518689<table>tableseeoriginaldocumentpage10</column></row><table>本發(fā)明中涉及的水溶解性預(yù)測(cè)模型,數(shù)據(jù)集來自ChemicalPropertiesHandbook禾口Yaw'sHandbookofThermodynamicandPhysicalPropertiesofChemicalCompounds,以及部分有實(shí)驗(yàn)溶解度數(shù)據(jù)的中等分子量的殺蟲劑分子和大分子量的藥物分子共包括1894個(gè)化合物,涵蓋廣闊的化學(xué)多樣性空間,保證了該模型具有良好的泛化性能。表4、模型的統(tǒng)計(jì)性能比較。<table>tableseeoriginaldocumentpage11</column></row><table>從上表的統(tǒng)計(jì)結(jié)果可以看出模型6和模型8都具有良好的數(shù)據(jù)擬合和預(yù)測(cè)效果。模型8對(duì)測(cè)試的177個(gè)化合物,預(yù)測(cè)相關(guān)系數(shù)(q2)值達(dá)到0.85,預(yù)測(cè)標(biāo)準(zhǔn)偏差(SE)僅為0.81個(gè)對(duì)數(shù)單位。對(duì)于測(cè)試集和訓(xùn)練集的預(yù)測(cè)結(jié)果散點(diǎn)圖和殘差分析結(jié)果如圖5所示。權(quán)利要求一種新型的基于廣義原子加和模型的分子水溶解性的預(yù)測(cè)方法,其特征在于,該方法包括如下步驟a.首先將溶解度的原子貢獻(xiàn)表述為該原子溶劑可接觸表面積校正的原子凈電荷二次函數(shù)即構(gòu)建函數(shù)模型步驟對(duì)于有機(jī)分子的溶解度logS,每個(gè)原子的部分貢獻(xiàn)值fi的差別主要來自于原子類型,原子凈電荷qi和該原子的溶劑可接觸表面積θi或溶劑可接觸表面積分?jǐn)?shù)θratio的變化,即fi=f(ai,qi,θi);這種依賴關(guān)系用溶解度對(duì)分子溶劑可接觸表面積為校正項(xiàng)的原子靜電荷二次函數(shù)進(jìn)行表征為其中f(ai,qi,θi)為原子i對(duì)整體溶解度貢獻(xiàn)函數(shù),反映了原子貢獻(xiàn)值對(duì)凈電荷和原子的溶劑可接觸表面積的依賴關(guān)系,對(duì)于這種依賴關(guān)系用原子靜電荷和以溶劑可接觸表面積為權(quán)重的電荷二次函數(shù)形式進(jìn)行表征為f=a+bq+cq2(1)f=(a+bq+cq2)θratio(2)其中a,b,c為待定參數(shù),由對(duì)已知溶解度化合物訓(xùn)練得到;b.收集包括1894個(gè)化合物實(shí)驗(yàn)溶解度數(shù)據(jù),隨機(jī)抽取90%作為訓(xùn)練集,以多重線性回歸確定待定參數(shù)a,b,c的取值,構(gòu)建上述函數(shù)模型對(duì)應(yīng)的參數(shù)表;c.對(duì)于給定分子結(jié)構(gòu),先使用原子類型匹配,確定該分子中所有原子對(duì)應(yīng)的部分溶解度貢獻(xiàn)函數(shù)fi;由參數(shù)表中查得各函數(shù)的參數(shù)取值a,b,c,確定具體函數(shù)形式;根據(jù)部分溶解度貢獻(xiàn)函數(shù)fi計(jì)算得到每個(gè)原子的溶解度貢獻(xiàn);最后對(duì)所有原子的貢獻(xiàn)進(jìn)行加和,求得該分子的預(yù)測(cè)溶解度。F2008102017603C0000011.tif2.根據(jù)權(quán)利要求1所述的分子水溶解性預(yù)測(cè)方法,其特征在于,根據(jù)上述步驟a:使用形如F=^/(",,x,)的廣義原子加和模型描述響應(yīng)值Y對(duì)原子類型和原子屬性的依賴性,函數(shù)f(A,Xi)表述每個(gè)原子ai對(duì)整體性質(zhì)的貢獻(xiàn),其中x為描述原子性質(zhì)的描述符。全文摘要本發(fā)明涉及一種新型的基于廣義原子加和模型的分子水溶解性預(yù)測(cè)方法,適用于根據(jù)有機(jī)化合物分子結(jié)構(gòu)信息預(yù)測(cè)其在水溶液中25℃的溶解度。該方法首先將溶解度的原子貢獻(xiàn)表述為該原子溶劑可接觸表面積校正的原子凈電荷二次函數(shù)即構(gòu)建函數(shù)模型步驟;然后構(gòu)建函數(shù)模型對(duì)應(yīng)的參數(shù)表;最后由參數(shù)表中查得待預(yù)測(cè)化合物參數(shù)取值,帶入構(gòu)建的函數(shù)式即得該化合物的水溶性預(yù)測(cè)值。經(jīng)驗(yàn)證該方法具有良好的預(yù)測(cè)效果對(duì)測(cè)試的177個(gè)化合物,預(yù)測(cè)相關(guān)系數(shù)(q2)值達(dá)到0.85,預(yù)測(cè)標(biāo)準(zhǔn)偏差(SE)僅為0.81個(gè)對(duì)數(shù)單位。文檔編號(hào)G01N33/15GK101726566SQ200810201760公開日2010年6月9日申請(qǐng)日期2008年10月24日優(yōu)先權(quán)日2008年10月24日發(fā)明者朱維良,羅小民,蔣華良,鄭明月,陳凱先申請(qǐng)人:中國科學(xué)院上海藥物研究所