亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于分子結(jié)構(gòu)的輸入集合的相互作用參數(shù)的制作方法

文檔序號(hào):11288691閱讀:925來(lái)源:國(guó)知局
用于分子結(jié)構(gòu)的輸入集合的相互作用參數(shù)的制造方法與工藝

本發(fā)明涉及一種用于對(duì)受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)進(jìn)行建模的方法、一種用于對(duì)受體-配體復(fù)合物中受體和配體之間的相互作用進(jìn)行建模的方法、一種用于確定評(píng)分向量w的方法(其中評(píng)分向量w是量化和/或限定受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的相互作用的數(shù)學(xué)向量)、一種用于確定在一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的位置的結(jié)合親和力或結(jié)合自由能的方法、以及一種用于對(duì)在一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的空間位置的結(jié)合親和力或結(jié)合自由能進(jìn)行排序的方法。所有這些方法都包括由計(jì)算機(jī)實(shí)現(xiàn)或輔助的一個(gè)或多個(gè)步驟。本發(fā)明還涉及分子結(jié)構(gòu)的計(jì)算機(jī)輔助設(shè)計(jì)或表示,尤其是分子相互作用的計(jì)算機(jī)輔助設(shè)計(jì)或表示。本發(fā)明還涉及實(shí)現(xiàn)或有助于實(shí)現(xiàn)所述方法的任何設(shè)備,即,對(duì)應(yīng)的軟件和硬件。本發(fā)明的應(yīng)用是其中精確的分子相互作用對(duì)于性能是重要的或至關(guān)重要的所有應(yīng)用,諸如計(jì)算機(jī)輔助藥物設(shè)計(jì)、藥學(xué)科學(xué)、醫(yī)學(xué)、物理學(xué)和生物學(xué)。此外,本發(fā)明可以為計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)等中的機(jī)器學(xué)習(xí)應(yīng)用提供優(yōu)點(diǎn)。

使用標(biāo)準(zhǔn)實(shí)驗(yàn)分析方法“結(jié)構(gòu)分析關(guān)系”(sar)開(kāi)發(fā)新的活性分子(通常是藥物)所需的平均時(shí)間約為10-15年,并且成本約為12億美元?;诮Y(jié)構(gòu)的藥物設(shè)計(jì)(sbdd)將藥物設(shè)計(jì)周期降至7-12年,并且成本約為10億美元,從而既節(jié)省時(shí)間又節(jié)省金錢(qián)。因此,存在減少開(kāi)發(fā)新活性分子的持續(xù)時(shí)間、開(kāi)發(fā)新活性分子的成本或者甚至優(yōu)選地減少這兩者的巨大需要。

特別地,本發(fā)明提供了對(duì)潛在的藥物分子執(zhí)行快速、準(zhǔn)確和高效的虛擬篩選的方式,這是藥物設(shè)計(jì)流水線(xiàn)的初始步驟。

給定相互作用的分子的復(fù)合物,在技術(shù)上難以量化相互作用的分子之間的相互作用,該相互作用理想地對(duì)應(yīng)于結(jié)合自由能或結(jié)合親和力的實(shí)驗(yàn)值。因此,非常難以預(yù)測(cè)受體-配體復(fù)合物的結(jié)合親和力,從而難以對(duì)最佳(最小)結(jié)合自由能或結(jié)合親和力進(jìn)行排序和選擇,以便選擇藥物設(shè)計(jì)的(一個(gè)或多個(gè))最佳候選者。需要克服這些技術(shù)問(wèn)題。

盡管用于獲得評(píng)分函數(shù)(sf)的方法種類(lèi)繁多,但是它們可以被分為三個(gè)主要的類(lèi)別:基于力場(chǎng)的sf、經(jīng)驗(yàn)sf和統(tǒng)計(jì)sf。

-基于力場(chǎng)(ff)的sf將分?jǐn)?shù)呈現(xiàn)為自由能到單獨(dú)的基于物理學(xué)的相互作用項(xiàng)(諸如范德華能、靜電能、鍵伸縮能、彎曲能等)的分解。經(jīng)典的分子機(jī)械力場(chǎng)(諸如amber或charmm)被廣泛用于此目的?;诹?chǎng)的sf的主要挑戰(zhàn)是:1)考慮溶劑分子;2)考慮熵效應(yīng);以及3)將結(jié)合自由能分解成相互作用項(xiàng)的線(xiàn)性組合的可能性。gold::goldscore和sybyl::g-score/d-score是由cheng等人1評(píng)估的基于力場(chǎng)的sf。ff評(píng)分函數(shù)還被用于dock和autodock軟件包中??傮w而言,ff評(píng)分函數(shù)具有相當(dāng)差的性能1并且不存在調(diào)整不同相互作用項(xiàng)之間的權(quán)重的嚴(yán)格的方法。

-經(jīng)驗(yàn)sf被構(gòu)造為諸如去溶劑、靜電相互作用、氫鍵、疏水相互作用等之類(lèi)的項(xiàng)的加權(quán)和,αi:e=∑iαiei。然后,系數(shù)αi被調(diào)整,以匹配一些實(shí)驗(yàn)數(shù)據(jù)(諸如結(jié)合親和力),或者以獲得已知天然結(jié)構(gòu)上的評(píng)分函數(shù)的最小值?;貧w分析通常被用于這些目的。經(jīng)驗(yàn)評(píng)分函數(shù)與ff評(píng)分函數(shù)相比計(jì)算效率高得多2:glide、icm、ludi、plp、chemscore、x-score、surflex、sybyl/f-score、medusascore、alscore、sfcscore是基于經(jīng)驗(yàn)的評(píng)分函數(shù)的一些示例??傮w而言,經(jīng)驗(yàn)sf與ff評(píng)分函數(shù)相比而言性能更好1,但是具有調(diào)整它們的相互作用項(xiàng)之間的權(quán)重的相同問(wèn)題。

-另一方面,統(tǒng)計(jì)評(píng)分函數(shù)基于實(shí)驗(yàn)確定的結(jié)構(gòu)中原子之間的距離遵循玻爾茲曼分布的觀察。更精確地說(shuō),使用液體統(tǒng)計(jì)學(xué)理論的思想,使用逆波爾茲曼關(guān)系eij(r)=-kbtln(pij(r)/z)來(lái)提取原子之間的有效勢(shì)能,其中kbt是玻爾茲曼常數(shù),pij(r)表示發(fā)現(xiàn)類(lèi)型i和j的兩個(gè)原子距離為r的概率,并且z表示參考狀態(tài)下的概率分布。參考狀態(tài)是當(dāng)原子之間的所有相互作用被設(shè)置為零時(shí)蛋白質(zhì)的熱力學(xué)平衡狀態(tài)。然后給出作為所有原子對(duì)之間的有效勢(shì)能之和的蛋白質(zhì)構(gòu)型(conformation)的得分。雖然這個(gè)概念是舊的(它源自于tanaka和scheraga3、miyazawa和jernigan4以及sippl5的工作),但是它仍然在爭(zhēng)論之中。特別地,參考狀態(tài)的計(jì)算是一個(gè)有挑戰(zhàn)性的問(wèn)題,并且僅僅在最近才進(jìn)行了嚴(yán)格證明和計(jì)算它的嘗試。itscore、pmf、drugscore、dfire、bleep、mscore、gold/asp是一些基于知識(shí)的評(píng)分函數(shù)。在cheng等人的比較評(píng)估1中評(píng)估了gold::asp、ds::pmf、sybyl::pmf和drugscore??傮w而言,統(tǒng)計(jì)sf是所有類(lèi)型的基準(zhǔn)和競(jìng)爭(zhēng)的獲勝者1,但是它們通常具有數(shù)千個(gè)參數(shù),這些參數(shù)對(duì)于分子結(jié)構(gòu)的訓(xùn)練集和優(yōu)化算法的參數(shù)極其敏感。

盡管有這些改進(jìn),但是仍然需要發(fā)現(xiàn)對(duì)潛在的藥物分子執(zhí)行更快、更準(zhǔn)確和更高效的虛擬篩選的新的方式。

因此,本發(fā)明的目的是解決上文描述的問(wèn)題。

更精確地說(shuō),如在許多不同的基準(zhǔn)上驗(yàn)證的那樣,本發(fā)明的方法和相關(guān)聯(lián)的算法非??焖?、健壯、通用并且對(duì)初始結(jié)構(gòu)中的噪聲穩(wěn)定。因此,本發(fā)明代表了用于建模受體-配體復(fù)合物界面的幾何結(jié)構(gòu)、用于建模受體-配體復(fù)合物中受體和配體之間的相互作用、用于確定量化和/或限定受體-配體復(fù)合物界面的幾何結(jié)構(gòu)的相互作用的評(píng)分向量、用于確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的位置的結(jié)合親和力或結(jié)合自由能以及用于對(duì)一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的空間位置的結(jié)合親和力或結(jié)合自由能進(jìn)行排序的重要改進(jìn)。

下面更詳細(xì)地描述本發(fā)明。

本發(fā)明涉及一種用于建模受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的方法,其中第一化學(xué)分子被定義為受體并且第二化學(xué)分子被定義為配體,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟由計(jì)算機(jī)實(shí)現(xiàn)或輔助:

(a)從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供受體和配體的集合,其中受體-配體復(fù)合物呈現(xiàn)出包括不同原子類(lèi)型的界面,其中原子類(lèi)型k位于受體上并且原子類(lèi)型l位于配體相互作用上,k和l依賴(lài)于原子類(lèi)型而變化;

(b)從所述受體和配體的受體-配體復(fù)合物界面選擇原子;

(c)向每個(gè)所選擇的原子指派k和l之中的原子類(lèi)型;

(d)為受體-配體復(fù)合物提供受體的具有特定原子類(lèi)型k的原子i與配體的具有特定原子類(lèi)型l的原子j之間的距離rij,其中i索引在原子類(lèi)型k之中的特定原子上運(yùn)行(run),并且其中j索引在原子類(lèi)型l之中的特定原子上運(yùn)行;

(e)對(duì)于所有或其它原子類(lèi)型k和l,可選地重復(fù)步驟(c);

(f)將距離rij指派為原子類(lèi)型的函數(shù);以及

(g)提供作為距離rij的函數(shù)的受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的建模。

在一個(gè)實(shí)施例中,界面是其距離小于截?cái)嗑嚯xrmax,以使得每對(duì)ij中的第一原子i屬于受體并且每對(duì)ij中的第二原子j屬于配體的所有原子對(duì)ij的集合。

例如,界面是使用標(biāo)準(zhǔn)的鏈接單元(linked-cell)算法確定的原子的集合。更精確地說(shuō),使用利用受體的原子初始化的網(wǎng)格,受體-配體界面的原子以線(xiàn)性時(shí)間被選擇為其中距離rij小于截?cái)嗑嚯x的原子。

在一個(gè)實(shí)施例中,原子類(lèi)型由所有重原子(即,除氫之外的所有原子)的根據(jù)它們的元素符號(hào)、芳香性、雜化和極性的分類(lèi)來(lái)定義。例如,可以使用sybyl原子類(lèi)型6。在這種情況下,原子類(lèi)型可以由sybyl、openbabel或其它廣泛使用的分子軟件(諸如dock)來(lái)計(jì)算??商娲?,在文獻(xiàn)中(例如,在csd系統(tǒng)包中的rpiuto用戶(hù)指南中)提供手動(dòng)轉(zhuǎn)換表。

受體和配體可以被表示為位于原子核中心處的離散相互作用位點(diǎn)的集合,從而形成相互作用界面。

根據(jù)對(duì)應(yīng)的原子核的特性(元素類(lèi)型、電荷、疏水性等),所有原子可以被劃分成例如m個(gè)原子類(lèi)型。由此,每個(gè)原子具有相關(guān)聯(lián)的位置和原子類(lèi)型。這種原子也可以被定義為相互作用位點(diǎn)。

這些導(dǎo)致總共m×(m+1)/2種原子類(lèi)型對(duì)。

原子類(lèi)型例如根據(jù)它們的環(huán)境和它們組成的官能團(tuán)被指派給原子。為此,可以使用例如fconv庫(kù)(fconvlibrary)7進(jìn)行原子分類(lèi),該fconv庫(kù)提供158個(gè)內(nèi)部原子類(lèi)型。然后,通過(guò)測(cè)量訓(xùn)練數(shù)據(jù)集中不同原子類(lèi)型之間的對(duì)分布函數(shù)的統(tǒng)計(jì)相似度,將原子類(lèi)型聚類(lèi)成48組。雖然事實(shí)上蛋白質(zhì)總是包含僅一些特定類(lèi)型的原子,但是被用于描述蛋白質(zhì)和配體的原子類(lèi)型集合可以是相同的。在一個(gè)實(shí)施例中,參數(shù)化由48種原子類(lèi)型組成。更精確地說(shuō),這些原子類(lèi)型是:用于氮的17種類(lèi)型、用于氧的9種類(lèi)型、用于碳的8種類(lèi)型、用于硫的4種類(lèi)型、用于磷的2種類(lèi)型、以及用于鹵素的8種類(lèi)型。

優(yōu)選地,所述幾何結(jié)構(gòu)被定義為包括作為原子類(lèi)型的函數(shù)的坐標(biāo)距離rij的結(jié)構(gòu)向量x。

在一個(gè)實(shí)施例中,所述結(jié)構(gòu)向量x依賴(lài)于受體-配體復(fù)合物中的各種原子類(lèi)型并且依賴(lài)于受體-配體復(fù)合物中各種原子類(lèi)型之間的距離。這可以根據(jù)等式(11)獲得:

在一個(gè)實(shí)施例中,受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的所述建模考慮距離rij的確定中的不準(zhǔn)確性。在一個(gè)實(shí)施例中,距離rij中的不準(zhǔn)確性在本發(fā)明的方法中被考慮。

在一個(gè)實(shí)施例中,受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的作為距離rij的函數(shù)的建模由數(shù)密度nkl(r)定義,其中所述數(shù)密度nkl(r)被定義為:

其中每個(gè)距離分布由具有恒定方差σ2的、中心在rij處的高斯分布表示,并且其中距離rij小于所確定的截?cái)嗑嚯xrmax。

在一個(gè)實(shí)施例中,所述線(xiàn)性評(píng)分函數(shù)f由等式(1)定義:

其中未知的“評(píng)分勢(shì)能”(scoringpotential)函數(shù)ukl(r)可以從天然復(fù)合物的訓(xùn)練集確定。

有利地,截?cái)嗑嚯x被設(shè)置在1埃和20埃之間,優(yōu)選地在6埃和之間。有利地,截?cái)嗑嚯x為

在一個(gè)實(shí)施例中,σ的值被假設(shè)為對(duì)于所有類(lèi)型的位點(diǎn)相互作用是相等的并且從交叉驗(yàn)證過(guò)程確定。

在一個(gè)實(shí)施例中,附加信息被用于方差的更精確的參數(shù)化或者甚至代替等式(4)中的高斯近似被使用。這樣的附加信息是例如:個(gè)體距離分布,例如,debye-waller因子、分子動(dòng)力學(xué)軌跡等。

本發(fā)明還涉及生成虛擬的非天然受體-配體復(fù)合物的方法,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟由計(jì)算機(jī)實(shí)現(xiàn)或輔助:

(a)從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供天然受體-配體復(fù)合物的集合,其中受體-配體復(fù)合物呈現(xiàn)其中受體的位點(diǎn)k和配體的位點(diǎn)l相互作用的界面;

(b)生成d個(gè)非天然受體-配體復(fù)合物j=1,…,d,其中j索引在生成的假目標(biāo)(decoy)上運(yùn)行,并且d表示所生成的非天然受體-配體復(fù)合物的總數(shù),其中非天然受體-配體復(fù)合物是通過(guò)相對(duì)于受體在空間上移動(dòng)配體或通過(guò)從天然受體-配體復(fù)合物沿空間方向局部變形而生成的。

在一個(gè)實(shí)施例中,非天然受體-配體復(fù)合物是通過(guò)在受體表面上滾動(dòng)配體生成的。例如,這可以使用十六進(jìn)制算法執(zhí)行。

在一個(gè)實(shí)施例中,非天然受體-配體復(fù)合物是通過(guò)以下步驟生成的:

-將配體視為一個(gè)剛體,

-圍繞一個(gè)或多個(gè)旋轉(zhuǎn)軸旋轉(zhuǎn)配體,以及

-沿坐標(biāo)軸平移配體。

參考圖2,對(duì)于小分子或化學(xué)藥物,優(yōu)選的是通過(guò)在對(duì)應(yīng)于它的二十面體曲面細(xì)分(icosahedraltessellation)的單位球體內(nèi)設(shè)置軸(例如6個(gè)軸);然后通過(guò)圍繞這些軸旋轉(zhuǎn)配體以使得rmsd保持恒定,然后通過(guò)沿坐標(biāo)軸設(shè)置六個(gè)平移;以及使配體平移rmsd量來(lái)生成對(duì)應(yīng)的假目標(biāo)。小分子被定義為呈現(xiàn)出在900道爾頓以下的分子量的分子。小分子一般具有小于10-9米的尺寸。

在一個(gè)實(shí)施例中,非天然受體-配體復(fù)合物是通過(guò)模式{vi}的如下線(xiàn)性組合生成的:

其中xnative和xdecoy分別是對(duì)應(yīng)于天然構(gòu)型和非天然構(gòu)型的坐標(biāo)向量,ri是對(duì)于每種模式的從-1到1范圍內(nèi)的隨機(jī)權(quán)重,并且ωi是模式vi的頻率。

參考圖3,蛋白質(zhì)-蛋白質(zhì)相互作用優(yōu)選地收縮(contract)hessian矩陣并且計(jì)算它的特征向量li(例如,前10個(gè)特征向量),然后生成假目標(biāo)(例如15個(gè))。

在一個(gè)實(shí)施例中,通過(guò)hessian矩陣h的對(duì)角化來(lái)獲得模式,hessian矩陣h是例如相對(duì)于原子位置的opls勢(shì)能(potential)函數(shù)的二階導(dǎo)數(shù)的矩陣,如h=v∧vt。在這里,v是由h的特征向量vi組成的單位矩陣,并且∧是特征值λi的對(duì)角矩陣。模式的頻率和形狀分別由它的特征值和特征向量表示。模式的頻率ωi被給出為對(duì)應(yīng)特征值的平方根,ωi=√λi。

在一個(gè)實(shí)施例中,在受體表面上滾動(dòng)配體是由hex蛋白質(zhì)對(duì)接軟件8執(zhí)行的。

在一個(gè)實(shí)施例中,如果對(duì)應(yīng)配體距離它的天然位置的均方根偏差(rmsd)小于確定值(例如,),那么受體-配體復(fù)合物被標(biāo)記為“天然的”。否則,受體-配體復(fù)合物被標(biāo)記為“非天然的”或“假目標(biāo)”。

本發(fā)明還涉及一種用于對(duì)受體-配體復(fù)合物中受體和配體之間的相互作用進(jìn)行建模的方法,

其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟是由計(jì)算機(jī)實(shí)現(xiàn)或輔助的:

(a)從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供受體和配體的集合;

(b)向每個(gè)受體-配體復(fù)合物指派特定結(jié)構(gòu)向量x,特定結(jié)構(gòu)向量x是表示特定受體-配體復(fù)合物中受體和配體之間的界面的特定幾何結(jié)構(gòu)的數(shù)學(xué)向量;

(c)計(jì)算作為所有特定結(jié)構(gòu)向量x或向量x的函數(shù)的線(xiàn)性凸評(píng)分函數(shù)f,其中向量x是其所有向量x的拼接(concatenation),優(yōu)選地所述線(xiàn)性凸評(píng)分函數(shù)f也是評(píng)分向量w的函數(shù);

(d)在正交多項(xiàng)式子空間中投影所述評(píng)分函數(shù)f;由此對(duì)受體-配體復(fù)合物中受體和配體之間的相互作用進(jìn)行建模。

根據(jù)一個(gè)實(shí)施例,所述方法包括:

(a1)從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供受體-配體復(fù)合物配置的集合,i=1…n,其中pnat是天然受體-配體復(fù)合物配置,并且i是被指派給受體-配體復(fù)合物配置的整數(shù)。

(a2)計(jì)算用于不同的受體-配體復(fù)合物的評(píng)分函數(shù)f,其中對(duì)于每個(gè)天然復(fù)合物i以及它的非天然假目標(biāo)j,以下不等式成立:

其中f是依賴(lài)于受體和配體之間的幾何界面的線(xiàn)性凸函數(shù),

其中受體和配體被表示為在(一個(gè)或多個(gè))受體-配體復(fù)合物的界面處的離散相互作用的集合,以及

其中界面是其距離小于截?cái)嗑嚯xrmax,以使得每對(duì)中的第一原子屬于受體并且每對(duì)中的第二原子屬于配體的所有原子對(duì)的集合。

在一個(gè)實(shí)施例中,f被表示為由(3)表示的界面的原子之間的距離的分布的函數(shù):

f(p)≡f(n11(r),..,nkl(r),..,nmm(r))≡f(n(r))(4)

其中nkl(r)是兩個(gè)原子類(lèi)型k和l之間的距離為r的原子-原子的數(shù)密度,其中原子類(lèi)型k在受體上并且原子類(lèi)型l在配體上,其中m是受體-配體復(fù)合物界面中的不同原子的總數(shù)。

本發(fā)明還涉及一種用于確定評(píng)分向量w的方法,評(píng)分向量w是量化和/或限定受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的相互作用的數(shù)學(xué)向量,其中受體-配體復(fù)合物呈現(xiàn)在相互作用下的界面,其中所述相互作用需要被量化和/或限定,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟由計(jì)算機(jī)實(shí)現(xiàn)或輔助:

(a)從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供受體和配體的集合;

(b)向受體-配體復(fù)合物的界面的每個(gè)幾何結(jié)構(gòu)指派特定結(jié)構(gòu)向量x,特定結(jié)構(gòu)向量x是表示界面的特定幾何結(jié)構(gòu)的數(shù)學(xué)向量;

(c)計(jì)算作為所有特點(diǎn)結(jié)構(gòu)向量x和評(píng)分向量w的函數(shù)的線(xiàn)性凸評(píng)分函數(shù)f;

(e)在正交多項(xiàng)式子空間中投影所述評(píng)分函數(shù)f;

(f)用公式表示凸優(yōu)化問(wèn)題;

(g)求解凸優(yōu)化問(wèn)題,由此確定評(píng)分向量w。

在一個(gè)實(shí)施例中,所述方法包括使用以下等式(4)來(lái)計(jì)算每個(gè)構(gòu)型的得分:

score=∑ijγkl(rij)(5)

其中總和是針對(duì)由小于閾值rmax的距離rij分開(kāi)的所有原子對(duì)i和j取得的,其中類(lèi)型k的原子i在受體上,并且類(lèi)型l的原子j在配體上,以及

在一個(gè)實(shí)施例中,函數(shù)γkl(r)是作為卷積γkl=f*ukl計(jì)算的。

在一個(gè)實(shí)施例中,函數(shù)γkl(r)是評(píng)分勢(shì)能ukl(x)的高斯變換(5):

在一個(gè)實(shí)施例中,所述評(píng)分函數(shù)f在正交多項(xiàng)式子空間中投影。

在一個(gè)特定實(shí)施例中,評(píng)分函數(shù)f(n(r))的多項(xiàng)式展開(kāi)由(6)定義:

其中函數(shù)ξp(r)在區(qū)間[r1;r2]上正交,并且非負(fù)權(quán)重函數(shù)ω(r)由(7)定義:

其中δp1p2是kroneckerdelta函數(shù),評(píng)分勢(shì)能ukl(r)和數(shù)密度nkl(r)可以在區(qū)間[r1;r2]上被展開(kāi)為

其中展開(kāi)系數(shù)可以從正交條件(7)確定為

在一個(gè)實(shí)施例中,評(píng)分函數(shù)f的所述多項(xiàng)式展開(kāi)由等式(13)

定義:

其中向量w是評(píng)分向量,并且向量x是結(jié)構(gòu)向量。

其中是從受體-配體復(fù)合物的投影的評(píng)分空間。

在一個(gè)實(shí)施例中,凸優(yōu)化問(wèn)題是從由(12)定義的評(píng)分函數(shù)f的多項(xiàng)式展開(kāi)用公式表示的。

更具體地,用公式表示光滑凸優(yōu)化問(wèn)題或者用公式表示核心化的光滑優(yōu)化問(wèn)題。

本發(fā)明還涉及用于找出用于對(duì)受體-配體復(fù)合物配置進(jìn)行建模的最優(yōu)評(píng)分向量的方法,其中所述評(píng)分向量被定義為評(píng)分向量w,

其中

并且其中

或者,等價(jià)地,

這在中定義了n×d個(gè)半空間公式的集合,其中n個(gè)平行的分離超平面由法線(xiàn)(normal)w定義。

在這樣的實(shí)施例中,找出評(píng)分向量等價(jià)于找出由公式(14)定義的n個(gè)平面的公共法線(xiàn)。

在一個(gè)實(shí)施例中,通過(guò)最小化由(15)定義的光滑且凸的函數(shù)來(lái)給出解:

其中損失是依賴(lài)于w、x和b的損失函數(shù),

其中w是評(píng)分向量,并且向量x是由(10-11)定義的結(jié)構(gòu)向量。

其中bj是偏移量參數(shù),它確定超平面從原點(diǎn)沿著評(píng)分向量w的偏移量。

在一個(gè)實(shí)施例中,評(píng)分向量w是支持向量的線(xiàn)性組合。

在一個(gè)實(shí)施例中,本發(fā)明使用光滑凸優(yōu)化問(wèn)題的核心化版本。

在一個(gè)實(shí)施例中,所述步驟(a)包括提供天然受體-配體復(fù)合物和非天然受體-配體復(fù)合物其中i索引在不同的蛋白質(zhì)復(fù)合物上運(yùn)行。

在一個(gè)實(shí)施例中,所述步驟(b)包括實(shí)現(xiàn)如本發(fā)明定義的、用于對(duì)受體-配體復(fù)合物界面的幾何結(jié)構(gòu)進(jìn)行建模的方法。

在一個(gè)實(shí)施例中,在步驟(e)中,正交多項(xiàng)式子空間是矩形,legendre、laguerre或傅立葉正交基。

在一個(gè)實(shí)施例中,步驟(f)包括使用應(yīng)用到原始輸入數(shù)據(jù)的、人為生成的噪聲。

在一個(gè)實(shí)施例中,所述噪聲由輸入數(shù)據(jù)的具有方差σ的高斯距離分布表示,其中σ是常數(shù)并且不依賴(lài)于原子類(lèi)型。如果輸入數(shù)據(jù)被表示為1d信號(hào),那么這種噪聲可以被認(rèn)為是應(yīng)用于輸入數(shù)據(jù)的高斯濾波器。

在一個(gè)實(shí)施例中,步驟(f)包括用公式表示凸優(yōu)化問(wèn)題,以便最小化凸函數(shù)。

在一個(gè)實(shí)施例中,(求解凸優(yōu)化問(wèn)題,由此確定評(píng)分向量w的)步驟(g)包括實(shí)現(xiàn)從包括坐標(biāo)下降求解器,nesterov下降求解器,隨機(jī)梯度求解器、準(zhǔn)牛頓族求解器(例如,bfgs)及其任何組合的組中選擇的至少一個(gè)求解器。

優(yōu)選地,所述方法還包括找出評(píng)分向量w。

本發(fā)明還涉及一種用于確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的位置的結(jié)合親和力或結(jié)合自由能的方法,其中所述受體-配體復(fù)合物呈現(xiàn)包括不同原子類(lèi)型的界面,其中位于受體上的原子類(lèi)型k和位于配體上的原子類(lèi)型l相互作用,k和l依賴(lài)于原子類(lèi)型而變化,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟由計(jì)算機(jī)實(shí)現(xiàn)或輔助:

(i)對(duì)一個(gè)或多個(gè)受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)進(jìn)行建模,所述建模如本發(fā)明中所定義;

(ii)通過(guò)參考數(shù)據(jù)庫(kù)向受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)指派結(jié)合親和力或結(jié)合自由能,可選地其中所述結(jié)合親和力或結(jié)合自由能被確定為結(jié)構(gòu)向量x與如在本發(fā)明中定義的用于確定評(píng)分向量w的方法中所定義的評(píng)分向量w的標(biāo)量積。

本發(fā)明還涉及一種用于在一個(gè)或多個(gè)受體-配體復(fù)合物中對(duì)配體相對(duì)于受體的空間位置的結(jié)合親和力或結(jié)合自由能進(jìn)行排序的方法,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟由計(jì)算機(jī)實(shí)現(xiàn)或輔助:

(i)實(shí)現(xiàn)用于確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的位置的結(jié)合親和力或結(jié)合自由能的方法,以確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的兩個(gè)或更多個(gè)空間位置的結(jié)合親和力或結(jié)合自由能,

(ii)基于所述結(jié)合親和力或結(jié)合自由能來(lái)對(duì)配體相對(duì)于受體的空間位置進(jìn)行排序是通過(guò)提供空間位置集合之間的嚴(yán)格關(guān)系,以使得對(duì)于任何兩個(gè)位置,如果第一位置的結(jié)合能量分別小于、等于或高于第二位置的能量,那么第一位置的排序或者高于、或者低于或者等于第二位置。

有利地,基于所述結(jié)合親和力或結(jié)合自由能的排序來(lái)確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的最佳空間位置。

有利地,基于所述結(jié)合親和力或結(jié)合自由能的排序來(lái)確定若干受體-配體復(fù)合物之間的最佳結(jié)合親和力或結(jié)合自由能。

在過(guò)去幾年中,已經(jīng)提出了得出不同類(lèi)型和特性的評(píng)分函數(shù)的若干方法,如上文所描述的。用于這些方法的輸入信息(結(jié)構(gòu)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù))從實(shí)驗(yàn)(x射線(xiàn)晶體學(xué)、nmr、結(jié)合親和力測(cè)量等)中取得。然而,實(shí)驗(yàn)數(shù)據(jù)總是偏向于某些實(shí)驗(yàn)條件,并且總是包含不同類(lèi)型的標(biāo)準(zhǔn)實(shí)現(xiàn)誤差。本發(fā)明的主要有利區(qū)別之一包括通過(guò)在訓(xùn)練過(guò)程期間引入不確定性(如在統(tǒng)計(jì)內(nèi)核中實(shí)現(xiàn)的)來(lái)考慮實(shí)驗(yàn)誤差??梢允褂貌煌?lèi)型的內(nèi)核,例如,本發(fā)明可以使用高斯內(nèi)核,高斯內(nèi)核允許通過(guò)將實(shí)驗(yàn)數(shù)據(jù)表示為以準(zhǔn)確實(shí)驗(yàn)測(cè)量結(jié)果為中心的“圓頂(dome)”(例如,等式(23))來(lái)處理實(shí)驗(yàn)數(shù)據(jù)中的不確定性。因此,建立在核心化的實(shí)驗(yàn)數(shù)據(jù)上的、根據(jù)本發(fā)明的結(jié)構(gòu)向量健壯得多,這意味著它們?cè)跊](méi)有統(tǒng)計(jì)偏差的情況下更準(zhǔn)確地表示真實(shí)的、無(wú)偏離的數(shù)據(jù)。因此,得出的評(píng)分函數(shù)對(duì)于實(shí)驗(yàn)偏差也是健壯和穩(wěn)定的,從而與現(xiàn)有技術(shù)的評(píng)分函數(shù)相比,提供了更好的性能,如下面的示例所證明的。

本發(fā)明還涉及一種用于對(duì)受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)進(jìn)行建模的軟件,其中該軟件被體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)中,并且所述軟件當(dāng)被執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本發(fā)明的用于對(duì)受體-配體復(fù)合物界面的幾何結(jié)構(gòu)進(jìn)行建模的方法。

本發(fā)明還涉及用于生成虛擬的非天然受體-配體復(fù)合物的軟件,其中該軟件被體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)中,并且所述軟件當(dāng)被執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本發(fā)明的用于生成虛擬的非天然受體-配體復(fù)合物的方法。

本發(fā)明還涉及用于對(duì)受體-配體復(fù)合物中受體和配體之間的相互作用進(jìn)行建模的軟件,其中該軟件被體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)中,并且所述軟件當(dāng)被執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本發(fā)明的用于對(duì)受體-配體復(fù)合物中受體和配體之間的相互作用進(jìn)行建模的方法。

本發(fā)明還涉及一種用于確定評(píng)分向量w的軟件,評(píng)分向量w是量化和/或限定受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的相互作用的數(shù)學(xué)向量,其中該軟件被體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)中,并且所述軟件當(dāng)被執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本發(fā)明的用于確定評(píng)分向量w的方法,其中評(píng)分向量w是量化和/或限定受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的相互作用的數(shù)學(xué)向量。

本發(fā)明還涉及用于確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的位置的結(jié)合親和力或結(jié)合自由能的軟件,其中該軟件被體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)中,并且所述軟件當(dāng)被執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本發(fā)明的用于確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的位置的結(jié)合親和力或結(jié)合自由能的方法。

本發(fā)明還涉及一種用于對(duì)一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的空間位置的結(jié)合親和力或結(jié)合自由能進(jìn)行排序的軟件,其中該軟件被體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)中,并且所述軟件當(dāng)被執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本發(fā)明的用于對(duì)一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的空間位置的結(jié)合親和力或結(jié)合自由能進(jìn)行排序的方法。

本發(fā)明還涉及包括如本說(shuō)明書(shū)中描述的至少一種軟件的硬件。

本發(fā)明還涉及一種用于生成虛擬的非天然受體-配體復(fù)合物的系統(tǒng),所述系統(tǒng)包括根據(jù)本發(fā)明的用于生成虛擬的非天然受體-配體復(fù)合物的裝置。

本發(fā)明還涉及一種用于對(duì)受體-配體復(fù)合物界面的幾何結(jié)構(gòu)進(jìn)行建模的系統(tǒng),所述系統(tǒng)包括:

(a)用于從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供受體和配體的集合的裝置,其中受體-配體復(fù)合物呈現(xiàn)出包括不同原子類(lèi)型的界面,其中原子類(lèi)型k位于受體上并且原子類(lèi)型l位于配體上,k和l依賴(lài)于原子類(lèi)型而變化;

(b)用于從所述受體和配體的受體-配體復(fù)合物界面選擇原子的裝置;

(c)用于向每個(gè)所選擇的原子指派k和l之中的原子類(lèi)型的裝置;

(d)用于為受體-配體復(fù)合物提供受體的具有特定原子類(lèi)型k的原子i與配體的具有特定原子類(lèi)型l的原子j之間的距離rij的裝置,其中i索引在原子類(lèi)型k中的特定原子上運(yùn)行,并且其中j索引在原子類(lèi)型l中的特定原子上運(yùn)行;

(e)可選地用于對(duì)所有或其它原子類(lèi)型k和l重復(fù)步驟(c)的裝置;

(f)用于將距離rij指派為原子類(lèi)型的函數(shù)的裝置;以及

(g)用于提供受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的作為距離rij的函數(shù)的建模的裝置,優(yōu)選地所述幾何結(jié)構(gòu)被定義為包括在正交多項(xiàng)式基中計(jì)算的作為原子類(lèi)型的函數(shù)的坐標(biāo)距離rij的多項(xiàng)式系數(shù)的結(jié)構(gòu)向量x。

本發(fā)明還涉及一種用于確定評(píng)分向量w的系統(tǒng),評(píng)分向量w是量化和/或限定受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的相互作用的數(shù)學(xué)向量,所述系統(tǒng)包括:

(a)用于從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供天然受體-配體復(fù)合物的集合的裝置,其中受體-配體復(fù)合物呈現(xiàn)其中受體的位點(diǎn)k和配體的位點(diǎn)l相互作用的界面;以及

(b)用于生成d個(gè)非天然受體-配體復(fù)合物j=1…d的裝置,其中j索引在生成的假目標(biāo)上運(yùn)行,并且d表示生成的非天然受體-配體復(fù)合物的總數(shù),其中非天然受體-配體復(fù)合物是通過(guò)相對(duì)于受體在空間上移動(dòng)配體或通過(guò)從天然受體-配體復(fù)合物沿著空間方向的局部變形生成的。

本發(fā)明還涉及一種用于對(duì)受體-配體復(fù)合物中受體和配體之間的相互作用進(jìn)行建模的系統(tǒng),其中所述系統(tǒng)包括:

(a)用于從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供受體和配體的集合的裝置;

(b)用于向每個(gè)受體-配體復(fù)合物指派特定結(jié)構(gòu)向量x的裝置,特定結(jié)構(gòu)向量x是表示特定受體-配體復(fù)合物中受體和配體之間的界面的特定幾何結(jié)構(gòu)的數(shù)學(xué)向量;

(c)用于計(jì)算作為所有特定結(jié)構(gòu)向量x或向量x的函數(shù)的線(xiàn)性凸評(píng)分函數(shù)f的裝置,其中向量x是其所有向量x的拼接,優(yōu)選地所述線(xiàn)性凸評(píng)分函數(shù)f也是評(píng)分向量w的函數(shù);以及

(d)用于在正交多項(xiàng)式子空間中投影所述評(píng)分函數(shù)f的裝置;由此建模受體-配體復(fù)合物中受體和配體之間的相互作用。

本發(fā)明還涉及一種用于確定評(píng)分向量w的系統(tǒng),評(píng)分向量w是量化和/或限定受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的相互作用的數(shù)學(xué)向量,其中所述系統(tǒng)包括:

(a)用于從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供受體和配體的集合的裝置;

(b)用于向受體-配體復(fù)合物的界面的每個(gè)幾何結(jié)構(gòu)指派特定結(jié)構(gòu)向量x的裝置,特定結(jié)構(gòu)向量x是表示界面的特定幾何結(jié)構(gòu)的數(shù)學(xué)向量;

(c)用于計(jì)算作為所有特定結(jié)構(gòu)向量x和評(píng)分向量w的函數(shù)的線(xiàn)性凸評(píng)分函數(shù)f的裝置;

(e)用于在正交多項(xiàng)式子空間中投影所述評(píng)分函數(shù)f的裝置;

(f)用于用公式表示凸優(yōu)化問(wèn)題的裝置;以及

(g)用于求解凸優(yōu)化問(wèn)題,由此確定評(píng)分向量w的裝置。

本發(fā)明還涉及一種用于確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的位置的結(jié)合親和力或結(jié)合自由能的系統(tǒng),其中所述系統(tǒng)包括:

(i)用于對(duì)一個(gè)或多個(gè)受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)進(jìn)行建模的裝置,所述建模如根據(jù)本發(fā)明所定義的;

(ii)用于通過(guò)參考數(shù)據(jù)庫(kù)向受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)指派結(jié)合親和力或結(jié)合自由能的裝置,可選地,其中所述結(jié)合親和力或結(jié)合自由能是使用如在用于確定評(píng)分向量w的方法中定義的評(píng)分向量w來(lái)確定的,評(píng)分向量w是量化和/或限定受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的相互作用的數(shù)學(xué)向量。

本發(fā)明還涉及一種用于對(duì)一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的空間位置的結(jié)合親和力或結(jié)合自由能進(jìn)行排序的系統(tǒng),其中所述系統(tǒng)包括:

(i)用于實(shí)現(xiàn)根據(jù)本發(fā)明的、確定在一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的位置的結(jié)合親和力或結(jié)合自由能的方法,以確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的兩個(gè)或更多個(gè)空間位置的結(jié)合親和力或結(jié)合自由能的裝置,以及

(ii)用于對(duì)配體相對(duì)于受體的位置集合進(jìn)行排序的裝置,根據(jù)本發(fā)明,對(duì)配體相對(duì)于受體的位置集合進(jìn)行排序是通過(guò)提供集合之間的嚴(yán)格關(guān)系以使得對(duì)于任何兩個(gè)位置,如果在一個(gè)或多個(gè)受體-配體復(fù)合物中第一位置的所述結(jié)合自由能分別小于、等于或高于第二位置的能量,那么第一位置的排序或者高于、或者小于、或者等于第二位置的排序,以確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的最佳結(jié)合姿態(tài)。

本發(fā)明還涉及對(duì)應(yīng)的軟件和參數(shù)數(shù)據(jù)集。

本發(fā)明還涉及一種用于預(yù)測(cè)分子-分子相互作用的方法,該分子-分子相互作用例如蛋白質(zhì)-蛋白質(zhì)相互作用、蛋白質(zhì)-藥物相互作用,尤其是蛋白質(zhì)-小分子相互作用,其中所述方法包括實(shí)現(xiàn)如根據(jù)本發(fā)明定義的至少一種方法。

本發(fā)明還涉及用于設(shè)計(jì)例如藥物、蛋白質(zhì)、肽、多肽或其它小分子的分子的方法,其中所述方法包括實(shí)現(xiàn)根據(jù)本發(fā)明的至少一種方法。

本發(fā)明還具有其中精確的分子相互作用對(duì)于性能至關(guān)重要的應(yīng)用,諸如計(jì)算機(jī)輔助藥物設(shè)計(jì)、藥學(xué)科學(xué)、醫(yī)學(xué)、物理學(xué)和生物學(xué)。此外,本發(fā)明還涉及例如在計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)等中的機(jī)器學(xué)習(xí)應(yīng)用。

目前,本發(fā)明為公司,尤其是為一般而言從事生物和醫(yī)學(xué)研究的組織和制藥公司提供了解決方案。特別地,本發(fā)明提供了對(duì)潛在藥物分子執(zhí)行快速、準(zhǔn)確和高效的虛擬篩選的方式,這是藥物設(shè)計(jì)流水線(xiàn)的初始步驟。

根據(jù)本發(fā)明的方法是非??焖俚牟⑶蚁鄬?duì)于輸入分子的類(lèi)別是通用的。

在附圖中:

圖1表示根據(jù)本發(fā)明的方法的主要步驟的流程圖,所述方法包括以下步驟:

(1)天然復(fù)合物的i=1...n結(jié)構(gòu)的加載,

(2)對(duì)于每個(gè)復(fù)合物i執(zhí)行以下步驟(3)至(7):

(3)向每個(gè)原子指派相關(guān)聯(lián)的原子類(lèi)型;

(4)找出被分開(kāi)小于10埃的所有配體-受體原子對(duì),

(5)計(jì)算一個(gè)天然結(jié)構(gòu)向量

(6)生成假目標(biāo);

(7)構(gòu)建近乎天然的構(gòu)型:對(duì)于每個(gè)構(gòu)型,找出被分開(kāi)小于10埃的所有配體-受體原子對(duì);

然后,

(8)計(jì)算非天然結(jié)構(gòu)向量xijnonnat

(9)給定天然結(jié)構(gòu)向量和非天然結(jié)構(gòu)向量,用公式表示優(yōu)化問(wèn)題;以及

(10)求解對(duì)于向量w的優(yōu)化問(wèn)題。

圖2是表示包括生成用于蛋白質(zhì)-小藥物相互作用的假目標(biāo)的方法的流程圖,其中圖1的步驟(6)被進(jìn)一步詳細(xì)描述,并且步驟(6)包括用于配體(小藥物)的以下步驟:

(6.1)在對(duì)應(yīng)于其二十面體曲面細(xì)分的單位球體內(nèi)設(shè)置六個(gè)軸,以及(6.2)圍繞這些軸旋轉(zhuǎn)配體,以使得rmsd被保持恒定,以及沿坐標(biāo)軸設(shè)置六個(gè)平移;以及使配體平移rmsd量。

圖3是表示包括生成用于蛋白質(zhì)-蛋白質(zhì)相互作用的假目標(biāo)的方法的流程圖,其中圖1的步驟(6)被進(jìn)一步詳細(xì)描述,并且步驟(6)包括以下步驟:

對(duì)于配體:(6.1)構(gòu)造hessian矩陣并且計(jì)算它的特征向量li,優(yōu)選地是前十個(gè)特征向量,以及(6.2)然后生成假目標(biāo)xdecoy,其中這樣的假目標(biāo)根據(jù)等式(16)定義。

對(duì)于受體:(6.1a)構(gòu)建hessian矩陣并且計(jì)算它的特征向量li,優(yōu)選地是前十個(gè)特征向量,以及(6.2a)然后生成假目標(biāo)xdecoy,其中這樣的假目標(biāo)根據(jù)等式(16)定義。

圖4表示兩種類(lèi)型的正交函數(shù)。左:在區(qū)間[0;10]上正交的被移動(dòng)的legendre多項(xiàng)式。右:被移動(dòng)的矩形函數(shù)。

圖5表示用于單個(gè)復(fù)合物的兩類(lèi)結(jié)構(gòu)向量。天然結(jié)構(gòu)向量被繪制為圓形。非天然結(jié)構(gòu)向量被繪制為正方形。a)無(wú)窮多個(gè)超平面可以分離這兩個(gè)類(lèi)的情況。b)不存在最優(yōu)分離超平面的情況。添加了用于被錯(cuò)誤分類(lèi)的結(jié)構(gòu)向量的松弛變量ξi和ξj,它們是到對(duì)應(yīng)的邊際(margin)超平面的距離。將兩個(gè)類(lèi)之間的間隔最大化的最優(yōu)超平面被繪制為虛線(xiàn)。兩個(gè)邊際超平面被繪制為實(shí)線(xiàn)。

圖6表示揭示對(duì)于蛋白質(zhì)-藥物相互作用的優(yōu)化問(wèn)題的最優(yōu)rmsd和正則化參數(shù)的交叉驗(yàn)證過(guò)程。

圖7表示作為光滑參數(shù)σ和正則化參數(shù)c的函數(shù)的蛋白質(zhì)-蛋白質(zhì)評(píng)分勢(shì)能的預(yù)測(cè)性能。a)如果在整個(gè)數(shù)據(jù)庫(kù)上訓(xùn)練評(píng)分函數(shù)并且在同一個(gè)數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證所獲得的性能。b)如果在200個(gè)蛋白質(zhì)復(fù)合物上訓(xùn)練評(píng)分函數(shù)并且在來(lái)自訓(xùn)練數(shù)據(jù)庫(kù)的其它650個(gè)復(fù)合物上進(jìn)行驗(yàn)證所獲得的性能。在這里,在和c=106...107的情況下獲得最佳性能。

圖8表示在兩個(gè)不同的多項(xiàng)式基中訓(xùn)練的評(píng)分函數(shù)。實(shí)線(xiàn)對(duì)應(yīng)于使用矩形基函數(shù)獲得的勢(shì)能。虛線(xiàn)對(duì)應(yīng)于使用legendre基函數(shù)獲得的勢(shì)能。左:僅與碳或氫鍵合的脂肪族碳之間的勢(shì)能。右:具有兩個(gè)氫的胍氮與羧基中的氧之間的勢(shì)能。

圖9表示當(dāng)評(píng)分最佳的結(jié)合姿態(tài)與真實(shí)結(jié)合姿態(tài)分別相差rmsd<(亮條)<(較暗條)或<(最暗條)時(shí)評(píng)分函數(shù)的成功率的比較。評(píng)分函數(shù)按當(dāng)配體結(jié)合姿態(tài)被發(fā)現(xiàn)在rmsd<內(nèi)時(shí)的成功率排序。

圖10表示對(duì)于天然結(jié)合姿態(tài)被包括(暗條)或沒(méi)有被包括(亮條)到評(píng)估中的情況的評(píng)分函數(shù)的成功率的比較。接受截?cái)鄏msd為評(píng)分函數(shù)按較暗的條排序。

圖11表示如果考慮前一個(gè)(亮條)、前兩個(gè)(較暗條)或前三個(gè)(最暗條)最佳評(píng)分的結(jié)合姿態(tài),那么當(dāng)配體結(jié)合姿態(tài)被發(fā)現(xiàn)距離真實(shí)結(jié)合姿態(tài)在rmsd<內(nèi)時(shí)評(píng)分函數(shù)的成功率的比較。評(píng)分函數(shù)按當(dāng)考慮前三個(gè)結(jié)合姿態(tài)時(shí)的成功率排序。

圖12表示195個(gè)基準(zhǔn)復(fù)合物的實(shí)驗(yàn)測(cè)量的結(jié)合常數(shù)(以-logkd為單位)與所預(yù)測(cè)的結(jié)合常數(shù)之間的相關(guān)性。pearson相關(guān)系數(shù)為rp=0:59。

圖13表示在考慮三種方法的情況下基于zdock基準(zhǔn)的成功率對(duì)最高(top)預(yù)測(cè)的數(shù)量的依賴(lài)性。

圖14表示在考慮三種方法的情況下基于rosettadock基準(zhǔn)的成功率對(duì)最高預(yù)測(cè)的數(shù)量的依賴(lài)性。

以下根據(jù)具體實(shí)施例對(duì)本發(fā)明進(jìn)行描述。

這些方法使用c++編程語(yǔ)言實(shí)現(xiàn),并且使用優(yōu)化級(jí)別為-o3的g++編譯器版本4.6和clang編譯器進(jìn)行編譯。該程序在具有intel(r)xeon(r)cpux5650@2.67ghz的64位linuxfedora操作系統(tǒng)上運(yùn)行,并且在具有intel(r)corei7cpu@2.7ghz的64位macos系統(tǒng)版本10.9上運(yùn)行。

下文相對(duì)于蛋白質(zhì)-蛋白質(zhì)相互作用或蛋白質(zhì)-藥物相互作用(藥物是小分子)的生成來(lái)描述這樣的方法的示例。

示例1–生成非天然受體-配體復(fù)合物

考慮n個(gè)天然受體-配體復(fù)合物(例如,蛋白質(zhì)-蛋白質(zhì)或蛋白質(zhì)-藥物復(fù)合物)配置i=1…n。對(duì)于每個(gè)受體復(fù)合物編號(hào)i,生成d個(gè)假目標(biāo)j=1…d,其中第一個(gè)索引在不同的蛋白質(zhì)復(fù)合物上運(yùn)行,并且第二個(gè)索引在所生成的假目標(biāo)上運(yùn)行。

示例1.1蛋白質(zhì)-蛋白質(zhì)相互作用

給定接近平衡狀態(tài)的每個(gè)蛋白質(zhì),構(gòu)造勢(shì)能的hessian矩陣并且計(jì)算用于縮減基正則模式計(jì)算的傅立葉子空間。來(lái)自傅立葉基的第一低頻模式被挑選,以生成蛋白質(zhì)復(fù)合物的不同局部柔性變形。決定排除對(duì)應(yīng)于剛體運(yùn)動(dòng)的前六個(gè)模式。更精確地,用于每個(gè)蛋白質(zhì)的十五個(gè)假目標(biāo)是使用模式{vi}的線(xiàn)性組合形成的,如下所示:

雖然一般而言溫度因子對(duì)于每個(gè)單體(monomer)是單獨(dú)的,但是我們使它對(duì)于所有單體是恒定的并且選擇它的最佳值。為此,我們使用如下文中詳述的交叉驗(yàn)證過(guò)程來(lái)掃描溫度因子的若干值,即,5;10;20;40;60(kcal/mol)1/2。溫度因子影響變形的振幅,因此過(guò)高的溫度導(dǎo)致單體明顯變形,從而破壞共價(jià)鍵。為了確保沒(méi)有不相關(guān)的假目標(biāo)構(gòu)型,我們測(cè)量用于的每個(gè)值的天然結(jié)構(gòu)和假目標(biāo)結(jié)構(gòu)之間的rmsd。表1列出了rmsd的對(duì)應(yīng)值??梢钥闯觯瑢?shí)際上,絕大多數(shù)假目標(biāo)都在以?xún)?nèi)。相對(duì)于對(duì)應(yīng)的天然分子的rmsd,這意味著(具有給定的溫度因子的)天然狀態(tài)的正則模式擾動(dòng)保持所有假目標(biāo)構(gòu)型接近天然。在最后一步,假目標(biāo)從表示一個(gè)蛋白質(zhì)復(fù)合物的兩個(gè)分子組合,產(chǎn)生15×15=225個(gè)假目標(biāo)??偠灾?,組成了對(duì)應(yīng)于溫度因子的不同值的五個(gè)訓(xùn)練集。每個(gè)訓(xùn)練集包含844個(gè)塊,這些塊表示不同的非同源蛋白質(zhì)復(fù)合物,并且每個(gè)塊由一個(gè)天然結(jié)構(gòu)和用正則模式生成的225個(gè)假目標(biāo)組成(注意:如果產(chǎn)生的蛋白質(zhì)復(fù)合物對(duì)于正則模式分析太大,那么將它們從訓(xùn)練集中移除)。因此,每個(gè)訓(xùn)練集由844×(225+1)=190744個(gè)分子條目組成,我們進(jìn)一步使用這些分子條目來(lái)得出統(tǒng)計(jì)評(píng)分函數(shù)。還可以使用例如彈性網(wǎng)絡(luò)、高斯網(wǎng)絡(luò)模型、塊的旋轉(zhuǎn)-平移方法等以更簡(jiǎn)單的方式來(lái)計(jì)算正則模式。這些方法將蛋白質(zhì)描述為由彈性彈簧的網(wǎng)絡(luò)互連的粒子的集合。

表1.對(duì)應(yīng)于若干溫度因子的rmsd

依賴(lài)于模型的細(xì)節(jié)的級(jí)別,粒子可以對(duì)應(yīng)于蛋白質(zhì)的原子、原子的子集、或者對(duì)應(yīng)于代表點(diǎn)(諸如殘基或側(cè)鏈的質(zhì)心)。然后通過(guò)hessian矩陣h的對(duì)角化來(lái)找出正則模式,其中hessian矩陣h是相對(duì)于原子位置的勢(shì)能函數(shù)的二階導(dǎo)數(shù)的矩陣,如h=v∧vt

所有生成的假目標(biāo)都表示接近天然的蛋白質(zhì)結(jié)構(gòu)。實(shí)際上,正則模式振蕩被用來(lái)使分子局部變形,然而,分子相對(duì)于彼此的朝向是固定的。由于如由它們的rmsd值(參見(jiàn)表1)所驗(yàn)證的,所有假目標(biāo)分子與天然單體略有差異,因此所有假目標(biāo)復(fù)合物的相互作用界面經(jīng)歷適度的變化并且保持天然接觸的至少某個(gè)部分。綜合考慮,訓(xùn)練集僅基于關(guān)于天然界面的局部信息,而不使用其它信息。

示例1.2蛋白質(zhì)-配體相互作用:

假目標(biāo)構(gòu)型的生成以以下方式執(zhí)行。配體分子被認(rèn)為是剛體,并且圍繞某些軸旋轉(zhuǎn)以使得rmsd距離保持固定。為此,在對(duì)應(yīng)于它的二十面體曲面細(xì)分的單位球體內(nèi)選擇六個(gè)軸。對(duì)于具有慣性張量i的總質(zhì)量m的分子圍繞軸n以角度α的純旋轉(zhuǎn)的加權(quán)rmsd是:

其中配體分子被認(rèn)為是剛體,配體分子的相對(duì)于穿過(guò)它的質(zhì)心的軸n的慣性張量如下給出:

i(n)=ntin(19)

為了從天然結(jié)構(gòu)獲得具有某個(gè)rmsd的假目標(biāo),天然結(jié)構(gòu)首先圍繞每個(gè)旋轉(zhuǎn)軸旋轉(zhuǎn)±α,然后沿著坐標(biāo)軸平移長(zhǎng)度±rmsd。因此,對(duì)于每個(gè)天然結(jié)構(gòu),生成18個(gè)假目標(biāo)構(gòu)型,這意味著訓(xùn)練結(jié)構(gòu)向量的總數(shù)為(18+1)×6004=114,076。為了確定假目標(biāo)rmsd的最優(yōu)值,執(zhí)行使用訓(xùn)練數(shù)據(jù)的交叉驗(yàn)證過(guò)程。更精確地說(shuō),訓(xùn)練數(shù)據(jù)被分成兩個(gè)集合,并且在掃描正則化常量c和rmsd的不同參數(shù)的同時(shí)求解等式(19)。圖6示出了在訓(xùn)練集的第二部分上獲得的成功率。可以在2倍交叉驗(yàn)證測(cè)試上看出成功率的良好區(qū)分的峰。可以看出,原則上,假定正則化參數(shù)c的值被相應(yīng)地選擇,那么在區(qū)間中的用于假目標(biāo)生成的rmsd的任何值都可以被使用。

為了定義原子的類(lèi)型,可以使用連同mol2分子格式一起給出并且由openbabel分子庫(kù)9確定的sybyl原子類(lèi)型、或者更擴(kuò)展的類(lèi)型集合,例如由fconvlibrary7提供的類(lèi)型集合。

示例2–用公式表示優(yōu)化問(wèn)題

目標(biāo)是找出如下這樣的評(píng)分函數(shù)f:評(píng)分函數(shù)f針對(duì)所有可能的復(fù)合物結(jié)構(gòu)(集合)定義,使得對(duì)于每個(gè)天然復(fù)合物i及其非天然假目標(biāo)j,以下不等式成立:

一般而言,這是非常困難的問(wèn)題。然而,在某些適當(dāng)?shù)募僭O(shè)下,該問(wèn)題可以被大大簡(jiǎn)化。為了簡(jiǎn)化它,假設(shè)以下:

1.f僅依賴(lài)于受體和配體之間的界面。

2.f僅依賴(lài)于相互作用位點(diǎn)之間的距離的分布(處于某個(gè)距離的位點(diǎn)對(duì)的數(shù)量),

f(p)≡f(n11(r),..,nkl(r),..,nmm(r))≡f(n(r)),

(21)

其中,如前面所定義的,nkl(r)是數(shù)密度函數(shù)。對(duì)于諸如液體之類(lèi)的均相(homogeneous)系統(tǒng),函數(shù)nkl(r)可以經(jīng)由位點(diǎn)-位點(diǎn)徑向分布函數(shù)gkl(r)來(lái)表示,gkl(r)可以以實(shí)驗(yàn)方式獲得,如nkl(r)=4πr2ρgkl(r)n,其中ρ是數(shù)密度,并且n是系統(tǒng)中的原子的總數(shù)。然而,對(duì)于蛋白質(zhì)和小分子,情況不是如此。

3.f是線(xiàn)性函數(shù),

f(αn1(r)+βn2(r))=αf(n1(r))+βf(n2(r))(22)

滿(mǎn)足這些假設(shè)的最簡(jiǎn)單的函數(shù)之一f(n(r))可以被寫(xiě)為:

它包含可以從天然復(fù)合物的訓(xùn)練集確定的未知函數(shù)ukl(r)。這些函數(shù)被定義為評(píng)分勢(shì)能。一旦評(píng)分函數(shù)已知,則為了計(jì)算f的值,需要指定位點(diǎn)-位點(diǎn)數(shù)密度nkl(r)。在實(shí)踐中,考慮結(jié)構(gòu)確定中可能的不準(zhǔn)確性,位點(diǎn)-位點(diǎn)數(shù)密度可以經(jīng)由下式被計(jì)算為給定的蛋白質(zhì)復(fù)合物中所有k-l距離的和:

其中每個(gè)距離分布由中心在rij并且標(biāo)準(zhǔn)差為σ的高斯分布表示。假設(shè)標(biāo)準(zhǔn)差獨(dú)立于原子類(lèi)型并且因此是恒定的。該和是對(duì)由小于某個(gè)閾值rmax的距離rij分開(kāi)的所有k-l位點(diǎn)對(duì)i和j取得的,其中位點(diǎn)k在受體上,位點(diǎn)l在配體上。在標(biāo)準(zhǔn)差趨于零的極限情況下,等式(23)變成diracdelta函數(shù)的和。在本發(fā)明中,假設(shè)σ的值對(duì)于所有類(lèi)型的位點(diǎn)-位點(diǎn)分布都是相等的。然而,如果具有關(guān)于單獨(dú)的距離分布的附加信息,例如,debye-waller因子、分子動(dòng)力學(xué)軌跡等,那么該附加信息可以被用于標(biāo)準(zhǔn)差的更精確的參數(shù)化或者甚至代替等式(23)中的高斯近似被使用。最后,每個(gè)構(gòu)型的得分使用以下等式來(lái)計(jì)算:

score=∑ijγkl(rij)

(25)

其中該和是對(duì)由小于閾值rmax的距離rij分開(kāi)的所有原子對(duì)i和j取得的,其中類(lèi)型k的原子i在受體上,并且類(lèi)型l的原子j在配體上。函數(shù)γkl(r)是評(píng)分勢(shì)能ukl(x)的高斯變換:

更一般而言,如果距離分布具有非高斯形狀,nkl(r)=∑ijf(r-rij),那么函數(shù)γkl(r)將被計(jì)算為卷積γkl=f*ukl。

2.1多項(xiàng)式展開(kāi)

給定在區(qū)間[r1;r2]上正交的具有非負(fù)加權(quán)函數(shù)ω(r)的函數(shù)ξp(r)的集合,

其中是kroneckerdelta函數(shù),評(píng)分勢(shì)能ukl(r)和數(shù)密度nkl(r)可以在區(qū)間[r1;r2]上展開(kāi)為

展開(kāi)系數(shù)可以從正交條件(7)被確定為

使用展開(kāi)式(8)和(9),函數(shù)f(n(r))可以被重寫(xiě)為

使用在區(qū)間[0;10]上正交的、具有單位權(quán)重的兩種類(lèi)型的函數(shù)ξp(r):(i)被移動(dòng)的legendre多項(xiàng)式和(ii)傳統(tǒng)使用的被移動(dòng)的矩形函數(shù)來(lái)說(shuō)明本發(fā)明。在圖4中繪制了這兩種類(lèi)型的函數(shù)。

還可以使用其它類(lèi)型的正交函數(shù)(諸如傅立葉、legendre、hermite或laguerre)。如果函數(shù)ξp(r)被選擇為在區(qū)間[0;rmax]之外小得可忽略不計(jì)或者如果它們的正交區(qū)間[r1;r2]與區(qū)間[0;rmax]一致(根據(jù)本發(fā)明的兩個(gè)函數(shù)集合的情況就是如此),那么評(píng)分函數(shù)f(n(r))可以被展開(kāi)為多達(dá)某個(gè)階p

向量w被稱(chēng)為評(píng)分向量,并且向量x被稱(chēng)為結(jié)構(gòu)向量。公式(23)和(30)提供了從蛋白質(zhì)復(fù)合物結(jié)構(gòu)到評(píng)分空間的投影。通過(guò)使用這些公式可以將每個(gè)蛋白質(zhì)復(fù)合物的結(jié)構(gòu)信息投影到上的某個(gè)結(jié)構(gòu)向量x。

2.2問(wèn)題的公式表示

使用由等式(32)提供的評(píng)分函數(shù)f的展開(kāi),可以如下重新用公式表示最初的評(píng)分問(wèn)題(19):給定n個(gè)天然結(jié)構(gòu)向量和n×d個(gè)非天然結(jié)構(gòu)向量找出評(píng)分向量使得

或等價(jià)地,

這是中具有由法線(xiàn)w定義的n個(gè)平行的分離超平面的n×d個(gè)半空間公式的集合。因此,找出評(píng)分向量等價(jià)于找出由公式(34)定義的n個(gè)平面的公共法線(xiàn)。

在訓(xùn)練集中,一些假目標(biāo)結(jié)構(gòu)可以非常接近于天然結(jié)構(gòu)。在實(shí)踐中,天然結(jié)構(gòu)被定義為具有小于某個(gè)閾值距離的配體均方根偏差(lrmsd)的結(jié)構(gòu)。因此,對(duì)于每個(gè)復(fù)合物,可以具有若干天然結(jié)構(gòu)向量連同若干非天然結(jié)構(gòu)向量?,F(xiàn)在的問(wèn)題是:如何確定圖4中示出的具有公共法線(xiàn)w的分離超平面集合?為了回答這個(gè)問(wèn)題,首先考慮以下給出的兩個(gè)特殊情況。

2.2.1情況1.存在許多解

圖5a是單個(gè)復(fù)合物的示例,其中無(wú)限多個(gè)超平面可以分離兩類(lèi)結(jié)構(gòu)向量。對(duì)于多個(gè)復(fù)合物的情況可以容易地構(gòu)建類(lèi)似的示例。在兩類(lèi)向量的情況下,vapnik提出使用特殊種類(lèi)的分離器,所謂的最優(yōu)分離超平面10,該最優(yōu)分離超平面是唯一的并且最大化從任一類(lèi)到最近點(diǎn)的距離。根據(jù)本發(fā)明用公式表示以下二次規(guī)劃優(yōu)化問(wèn)題:

subjecttoyij[w·xij-bj]-1≥0,i=1...n,j=1...d(36)

其中,當(dāng)結(jié)構(gòu)向量xij是天然的時(shí),yij=-1,而在其它情況下yij=1。然后,制定引理1:

引理1如果存在正確地區(qū)分用于所有復(fù)合物的天然結(jié)構(gòu)向量(公式34)的具有形式(32)的線(xiàn)性評(píng)分函數(shù),那么最優(yōu)評(píng)分向量是唯一的并且由問(wèn)題(35)的解給出。

評(píng)分向量在最大化天然結(jié)構(gòu)向量和非天然結(jié)構(gòu)向量之間的間隔的意義上是最優(yōu)的。

一般而言,(具有展開(kāi)階p的固定值的)這樣的線(xiàn)性評(píng)分函數(shù)可能不存在,如下面所證明的。因此,優(yōu)化問(wèn)題(35)必須被修改。

2.2.2情況2.沒(méi)有解存在

圖5b表示沒(méi)有超平面可以分離單個(gè)復(fù)合物的兩類(lèi)結(jié)構(gòu)向量的示例。對(duì)于這種情況,cortes和vapnik提出放寬用于最優(yōu)分離超平面的條件11,包括附加的項(xiàng),該項(xiàng)常常被稱(chēng)為損失函數(shù),

這個(gè)項(xiàng)可以具有一般形式,然而,對(duì)于實(shí)際應(yīng)用來(lái)說(shuō),它總是被選為凸函數(shù)。在原始的公式表示中,這個(gè)項(xiàng)最小化對(duì)于被錯(cuò)誤分類(lèi)的向量的懲罰的總和。對(duì)于每個(gè)假目標(biāo)集合j=1...d,松弛變量ξij已經(jīng)被引入并且對(duì)于被錯(cuò)誤分類(lèi)的結(jié)構(gòu)向量松弛變量ξij為正,否則為零。ξij的非零值以與ξij的值成比例的代價(jià)來(lái)允許結(jié)構(gòu)向量xij克服公式(35)中的不等式條件(參見(jiàn)圖5b)。然后,新的軟邊際二次優(yōu)化問(wèn)題是:

這個(gè)問(wèn)題的解提供每個(gè)復(fù)合物的兩類(lèi)結(jié)構(gòu)向量之間的間隔將多大與在該解中將有多少被錯(cuò)誤分類(lèi)的向量之間的權(quán)衡。參數(shù)cij可以被視為正則化參數(shù)。公式(37)的解趨向于使得對(duì)于cij的小值的結(jié)構(gòu)向量間隔最大化并且使得對(duì)于cij的大值的被錯(cuò)誤分類(lèi)的結(jié)構(gòu)向量的數(shù)量最小化。參數(shù)cij已被選擇為對(duì)于每個(gè)復(fù)合物的天然結(jié)構(gòu)向量和非天然結(jié)構(gòu)向量是不同的,因?yàn)檩^少的天然結(jié)構(gòu)向量應(yīng)當(dāng)具有較大的權(quán)重。以下引理為在本工作中使用的數(shù)值方案提供了基礎(chǔ):

引理2最佳評(píng)分向量是唯一的并且由問(wèn)題(37)的解給出。

在這里,評(píng)分向量在最大化天然結(jié)構(gòu)向量和非天然結(jié)構(gòu)向量之間的間隔(separation)和最小化被錯(cuò)誤分類(lèi)的向量的數(shù)量的意義上是最優(yōu)的。(37)中的正則化參數(shù)cij調(diào)整任一因子的重要性。

引文(1、2)的證明可以在例如12中找到??傮w而言,優(yōu)化問(wèn)題(37)的公式表示與軟邊際支持向量機(jī)(svm)問(wèn)題11的公式表示非常相似。因此,為了求解問(wèn)題(37),已經(jīng)使用了針對(duì)svm開(kāi)發(fā)的技術(shù)。

示例3-求解優(yōu)化問(wèn)題

在凸優(yōu)化理論中已經(jīng)廣泛研究了與上面(37)陳述的優(yōu)化問(wèn)題類(lèi)似的二次優(yōu)化問(wèn)題的特性和解??梢砸詫?duì)偶形式和原始形式來(lái)求解它們。例如,使用lagrangian形式論,優(yōu)化問(wèn)題(37)可以被轉(zhuǎn)換成它的對(duì)偶形式,并且得到的對(duì)偶優(yōu)化問(wèn)題是凸的:

subjectto:0≤λij≤cij

其中最大化是相對(duì)于lagrangian乘數(shù)λij執(zhí)行的。這個(gè)對(duì)偶問(wèn)題類(lèi)似于軟邊際svm優(yōu)化問(wèn)題11。對(duì)于其λij>0的向量xij被稱(chēng)為支持向量。一旦對(duì)偶問(wèn)題(38)被求解并且lagrangian乘數(shù)λij被找出,可以將最初的原始問(wèn)題(37)(評(píng)分向量)的解表示為支持向量的線(xiàn)性組合:

w=∑supportvectorsyijλijxij(40)

根據(jù)本發(fā)明的問(wèn)題的公式表示把求解器所需的ram量減少n2倍。

因此,這表示重要的技術(shù)優(yōu)點(diǎn)。

示例4-生成蛋白質(zhì)-蛋白質(zhì)復(fù)合物:

使用了hex蛋白質(zhì)對(duì)接軟件。

使用了徑向搜索步長(zhǎng)為并且形狀函數(shù)的展開(kāi)階等于31的初始化的hex窮盡搜索算法??梢?xún)H使用來(lái)自hex的形狀互補(bǔ)性能量函數(shù)(即,省略靜電作用)。然后使用由hex表面互補(bǔ)性函數(shù)排序的前200個(gè)群集,加上天然蛋白質(zhì)-蛋白質(zhì)復(fù)合物構(gòu)型(總共給出201個(gè)結(jié)構(gòu))來(lái)評(píng)估距離分布函數(shù)(23)。然后,如果對(duì)應(yīng)配體距它的天然位置的均方根偏差(rmsd)<那么使用公式(30)的結(jié)構(gòu)向量被標(biāo)記為“天然的”。否則,結(jié)構(gòu)向量被標(biāo)記為“非天然的”或“假目標(biāo)”。平均而言,每蛋白質(zhì)-蛋白質(zhì)復(fù)合物獲得大約2.5個(gè)天然結(jié)構(gòu)向量(以及,對(duì)應(yīng)地,大約198.5個(gè)非天然結(jié)構(gòu)向量)。向每個(gè)結(jié)構(gòu)向量xij根據(jù)下式指派正則化參數(shù)cij

其中dj是對(duì)于每個(gè)蛋白質(zhì)-蛋白質(zhì)復(fù)合物的結(jié)構(gòu)向量的總數(shù)(在我們的情況下為201),是對(duì)于復(fù)合物j的天然結(jié)構(gòu)向量的數(shù)量,并且是對(duì)于復(fù)合物j的非天然結(jié)構(gòu)向量的數(shù)量。對(duì)來(lái)自訓(xùn)練數(shù)據(jù)庫(kù)的每個(gè)蛋白質(zhì)-蛋白質(zhì)復(fù)合物重復(fù)相同的過(guò)程。在這個(gè)示例中,基于由huang和zou提供的原子類(lèi)型定義13,m=20個(gè)以原子為中心的相互作用位點(diǎn)。這些原子類(lèi)型由在20種標(biāo)準(zhǔn)氨基酸中的所有重原子的根據(jù)它們的元素符號(hào)、芳香性、雜化和極性的分類(lèi)來(lái)定義。這20種原子類(lèi)型產(chǎn)生總共m×(m+1)=210對(duì)勢(shì)能。訓(xùn)練集具有與來(lái)自?xún)蓚€(gè)廣泛使用的對(duì)接基準(zhǔn)(rosetta和zdock)的蛋白質(zhì)同源的若干蛋白質(zhì),這兩個(gè)對(duì)接基準(zhǔn)在下文中被用來(lái)驗(yàn)證本發(fā)明的結(jié)果。如果對(duì)于第一復(fù)合物中的每個(gè)鏈,在第二復(fù)合物中存在具有大于60%的序列同一性的鏈,那么這兩種蛋白質(zhì)復(fù)合物被定義為同源的。我們使用fasta36程序來(lái)確定序列同一性。

示例5-生成蛋白質(zhì)-藥物復(fù)合物:

pdbbind數(shù)據(jù)庫(kù)14為儲(chǔ)存在蛋白質(zhì)數(shù)據(jù)庫(kù)(proteindatabank)中的復(fù)合物提供實(shí)驗(yàn)測(cè)量的結(jié)合親和力數(shù)據(jù)。版本pdbbind2011的“一般集合”包含用于6051個(gè)蛋白質(zhì)-配體復(fù)合物的具有等于或優(yōu)于的分辨率的三維結(jié)構(gòu)和結(jié)合數(shù)據(jù)(kd,ki&ic50值)。為了得出用于蛋白質(zhì)-藥物相互作用的評(píng)分函數(shù),使用該信息。

示例6–用于蛋白質(zhì)-蛋白質(zhì)相互作用的訓(xùn)練集

為了預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)相互作用,我們使用由huang和zou13收集的851個(gè)非冗余蛋白質(zhì)-蛋白質(zhì)復(fù)合物結(jié)構(gòu)的訓(xùn)練數(shù)據(jù)庫(kù)。這個(gè)數(shù)據(jù)庫(kù)包含從pdb15提取的蛋白質(zhì)-蛋白質(zhì)復(fù)合物并且包括655個(gè)同源二聚體和196個(gè)異源二聚體。來(lái)自原始訓(xùn)練數(shù)據(jù)庫(kù)的三個(gè)pdb結(jié)構(gòu)被更新:2q33取代1n98,2zoy取代1v7b,3kkj取代1yvv。訓(xùn)練數(shù)據(jù)庫(kù)僅包含由x射線(xiàn)晶體學(xué)以?xún)?yōu)于的分辨率確定的晶體二聚體結(jié)構(gòu)。二聚體結(jié)構(gòu)的每個(gè)鏈具有至少10個(gè)氨基酸,并且相互作用的殘基對(duì)(被定義為在內(nèi)具有至少1個(gè)的重原子)的數(shù)量至少為30。每個(gè)蛋白質(zhì)-蛋白質(zhì)界面僅包括20個(gè)標(biāo)準(zhǔn)氨基酸。訓(xùn)練數(shù)據(jù)庫(kù)中不包括同源復(fù)合物。如果受體-受體對(duì)之間和配體-配體對(duì)之間的序列同一性>70%,那么這兩種蛋白質(zhì)復(fù)合物被視為同源的。最后,huang和zou手動(dòng)檢查了訓(xùn)練數(shù)據(jù)庫(kù)并且僅留下沒(méi)有結(jié)晶偽象(artifact)的那些結(jié)構(gòu)。

本發(fā)明的算法要求天然結(jié)構(gòu)向量和非天然結(jié)構(gòu)向量作為輸入(參見(jiàn)例如公式(14))。可以使用公式(11)從訓(xùn)練數(shù)據(jù)庫(kù)中的天然蛋白質(zhì)-蛋白質(zhì)接觸計(jì)算天然結(jié)構(gòu)向量。然而,對(duì)于從訓(xùn)練數(shù)據(jù)庫(kù)計(jì)算每個(gè)蛋白質(zhì)-蛋白質(zhì)復(fù)合物的非天然結(jié)構(gòu)向量,為每個(gè)復(fù)合物生成假目標(biāo)。由于本發(fā)明的優(yōu)化算法非常通用,并且對(duì)非天然蛋白質(zhì)-蛋白質(zhì)接觸沒(méi)有特殊要求,因此通過(guò)使用hex蛋白質(zhì)對(duì)接軟件8在較大蛋白質(zhì)(受體)的表面上“滾動(dòng)”較小的蛋白質(zhì)(配體)來(lái)生成非天然蛋白質(zhì)-蛋白質(zhì)。為此,hex窮盡搜索算法用的徑向搜索步長(zhǎng)以及展開(kāi)階等于31的形狀函數(shù)被初始化。僅使用來(lái)自hex的形狀互補(bǔ)性能量函數(shù)(即,省略靜電作用)。然后使用由hex表面互補(bǔ)性函數(shù)排序的前200個(gè)群集加上天然蛋白質(zhì)-蛋白質(zhì)復(fù)合物構(gòu)型(給出總共201個(gè)結(jié)構(gòu))來(lái)評(píng)估距離分布函數(shù)(23)。然后,根據(jù)示例4計(jì)算和標(biāo)記使用公式(11)的結(jié)構(gòu)向量。

對(duì)于蛋白質(zhì)-蛋白質(zhì)相互作用的優(yōu)化,我們使用以下參數(shù):c=105。最大展開(kāi)階p被設(shè)置為p=40。圖8示出了評(píng)分函數(shù)γkl(r)(參見(jiàn)等式(5))的兩個(gè)示例。

示例7–用于蛋白質(zhì)-藥物相互作用的訓(xùn)練集

pdbbind數(shù)據(jù)庫(kù)為儲(chǔ)存在蛋白質(zhì)數(shù)據(jù)庫(kù)中的復(fù)合物提供實(shí)驗(yàn)測(cè)量的結(jié)合親和力數(shù)據(jù)。版本pdbbind2011的“一般集合”包含對(duì)于6051個(gè)蛋白質(zhì)-配體復(fù)合物的分辨率等于或優(yōu)于的三維結(jié)構(gòu)和結(jié)合數(shù)據(jù)(kd,ki&ic50值)。為了得出用于蛋白質(zhì)-藥物相互作用的評(píng)分函數(shù),使用該信息。

假目標(biāo)構(gòu)型的生成以以下方式執(zhí)行。配體分子被認(rèn)為是剛體并且圍繞某些軸旋轉(zhuǎn),以使得rmsd距離保持固定。根據(jù)示例5執(zhí)行假目標(biāo)的這種生成。

對(duì)于蛋白質(zhì)-藥物相互作用的優(yōu)化,使用以下參數(shù):c=105最大展開(kāi)階p被設(shè)置為p=25。

示例8-基于梯度的結(jié)構(gòu)優(yōu)化

注意,被用于展開(kāi)評(píng)分勢(shì)能的正交多項(xiàng)式(等式8)可以是非光滑函數(shù),例如,矩形多項(xiàng)式。因此,一般而言,評(píng)分勢(shì)能ukl(r)可以是不可微分的。然而,由于應(yīng)用的高斯變換,函數(shù)ykl(r)(等式(4))作為解析的局部可積分函數(shù)的卷積是光滑的。這個(gè)事實(shí)允許使用函數(shù)ykl(r)的一階或更高階導(dǎo)數(shù)將函數(shù)ykl(r)的功能從評(píng)分?jǐn)U展到結(jié)構(gòu)優(yōu)化。更準(zhǔn)確地說(shuō),對(duì)于距離為rij的給定k-l原子對(duì),負(fù)梯度等于作用于該對(duì)中的原子的力。因此,假定對(duì)于每對(duì)原子得到的函數(shù)ykl(r)的集合可以以力場(chǎng)的方式被使用,從而優(yōu)化特定復(fù)合物的結(jié)構(gòu),直到達(dá)到局部最小值。

由于需要對(duì)勢(shì)能函數(shù)進(jìn)行特殊校準(zhǔn)來(lái)保留復(fù)合物的結(jié)構(gòu)完整性,因此更相關(guān)的應(yīng)用將是剛體優(yōu)化,其中,不是使針對(duì)每對(duì)原子的力最小化,而是使作用于復(fù)合物的凈力最小化。因此,在局部最小值處,成立。利用函數(shù)ykl(r)的剛體優(yōu)化在作為處理對(duì)接預(yù)測(cè)的細(xì)化步驟的局部剛體最小化中可以是有用的。已經(jīng)示出,這種細(xì)化可以顯著地改善對(duì)接預(yù)測(cè)。與我們的函數(shù)ykl(r)相反,大多數(shù)現(xiàn)代的統(tǒng)計(jì)成對(duì)勢(shì)能是不可微分的(itscore、dope、dfire、rapdf等)。由此,為了利用這樣的勢(shì)能執(zhí)行優(yōu)化,或者后驗(yàn)地使它們光滑,這使勢(shì)能質(zhì)量惡化,或者使用各種無(wú)導(dǎo)數(shù)的優(yōu)化策略,例如,nelder-mead或powell方法以及它們的修改,在這些方法中收斂速度與一階或更高階優(yōu)化策略相比要慢得多。

示例9-交叉驗(yàn)證研究

為了調(diào)整自由正則化參數(shù)c和σ,以及在假目標(biāo)生成期間使用的rmsd參數(shù)的值,我們執(zhí)行一系列交叉驗(yàn)證計(jì)算實(shí)驗(yàn),其中我們將訓(xùn)練數(shù)據(jù)集劃分為兩部分,對(duì)第一部分進(jìn)行訓(xùn)練并且對(duì)第二部分進(jìn)行驗(yàn)證。對(duì)于蛋白質(zhì)-蛋白質(zhì)相互作用的交叉驗(yàn)證結(jié)果在圖7中示出。在這里,最佳性能是利用和c=105...106獲得的。對(duì)于蛋白質(zhì)-藥物相互作用的交叉驗(yàn)證結(jié)果在圖6中示出。我們可以看出,最優(yōu)參數(shù)屬于c=104...106的范圍。對(duì)于生產(chǎn)運(yùn)行優(yōu)化,我們使用以下參數(shù):并且

高斯參數(shù)σ的寬度指示足以對(duì)勢(shì)能的形狀進(jìn)行編碼的多項(xiàng)式系數(shù)的數(shù)量。更精確地說(shuō),我們使最大展開(kāi)階p為p=rmax/σ。使用的值,我們得出結(jié)論,最大展開(kāi)階為p=25。通過(guò)使用legendre多項(xiàng)式基,我們已經(jīng)從數(shù)值上驗(yàn)證了假定參數(shù)rmax和σ保持恒定,那么較高展開(kāi)階對(duì)重建的勢(shì)能的質(zhì)量沒(méi)有貢獻(xiàn)。

示例10-蛋白質(zhì)-蛋白質(zhì)和蛋白質(zhì)-藥物結(jié)構(gòu)的排序

如果不需要結(jié)構(gòu)優(yōu)化,就像在其它對(duì)接程序生成的假目標(biāo)的評(píng)分中發(fā)生的那樣,那么使用等式(12)執(zhí)行排序。更精確地說(shuō),對(duì)于蛋白質(zhì)-蛋白質(zhì)或蛋白質(zhì)-網(wǎng)格復(fù)合物的每個(gè)結(jié)構(gòu),使用等式(11)來(lái)計(jì)算結(jié)構(gòu)向量然后,這些結(jié)構(gòu)向量與根據(jù)等式(12)的預(yù)計(jì)算的評(píng)分向量相乘并且獲得結(jié)合自由能的線(xiàn)性近似。現(xiàn)在,可以根據(jù)這種自由能近似來(lái)對(duì)復(fù)合物的結(jié)構(gòu)進(jìn)行排序。如果需要結(jié)構(gòu)優(yōu)化,那么實(shí)踐中我們使用等式(4-5)用于基于梯度的結(jié)構(gòu)優(yōu)化。在優(yōu)化期間,相對(duì)于受體和配體的六個(gè)剛體坐標(biāo)計(jì)算評(píng)分函數(shù)(4)的梯度。然后,迭代地優(yōu)化結(jié)構(gòu),直到達(dá)到某種收斂。最后,根據(jù)優(yōu)化的結(jié)合姿態(tài)的得分來(lái)對(duì)不同的結(jié)構(gòu)進(jìn)行排序。

這里應(yīng)當(dāng)注意的是,結(jié)合自由能f和結(jié)合親和力項(xiàng)是同義的。兩者都與實(shí)驗(yàn)測(cè)量的解離常數(shù)kd有關(guān),f=rtlogkd/c,其中r是理想氣體常數(shù),t是溫度,并且標(biāo)準(zhǔn)參考濃度c=1mol/l。

示例11–對(duì)于蛋白質(zhì)-藥物相互作用的結(jié)果

11.1對(duì)接能力(power)

評(píng)分函數(shù)的評(píng)估的第一種一般方法是看它可以多好地預(yù)測(cè)真實(shí)的結(jié)合姿態(tài)。更精確地說(shuō),如果排序最佳的配體姿態(tài)足夠接近已知的真實(shí)姿態(tài)(在的rmsd范圍內(nèi)),那么評(píng)分函數(shù)被稱(chēng)為在某個(gè)rmsd閾值內(nèi)正確地猜測(cè)該真實(shí)姿態(tài)。圖9中示出了根據(jù)本發(fā)明的評(píng)分函數(shù)與其它評(píng)分函數(shù)相比的成功率。圖10表示當(dāng)假目標(biāo)集合中包括或排除了天然構(gòu)型時(shí)的結(jié)果差異??梢钥闯?,對(duì)于所有評(píng)分函數(shù),差異不超過(guò)5%,這不是很顯著。因此,天然姿態(tài)被包括在來(lái)自基準(zhǔn)的假目標(biāo)集合中,以便能夠?qū)⑿阅芘c先前公布的結(jié)果進(jìn)行比較。在上面的比較中,僅考慮了排序最好的配體姿態(tài)。在實(shí)踐中,在結(jié)合姿態(tài)的預(yù)測(cè)期間,提交很少的姿態(tài)是適當(dāng)?shù)摹D11示出了在考慮一個(gè)、兩個(gè)或三個(gè)排序最佳的姿態(tài)的情況下的成功率。對(duì)于許多評(píng)分函數(shù),可以注意到的是,與圖9相比,當(dāng)考慮若干姿態(tài)時(shí),預(yù)測(cè)能力顯著增加。表2中給出了包括dsx16評(píng)分函數(shù)的成功率的對(duì)接能力評(píng)估結(jié)果的另一種表示。dsx的結(jié)果引自16,其余的(不包括convexpl)引自1。最后一列對(duì)應(yīng)于當(dāng)從假目標(biāo)集中排除真實(shí)的晶體學(xué)確定的配體姿態(tài)時(shí),發(fā)現(xiàn)排序最高的配體姿態(tài)距晶體學(xué)確定的配體姿態(tài)在rmsd<2.0a內(nèi)的成功率。

convexpl是根據(jù)本發(fā)明的評(píng)分函數(shù)。

表2:對(duì)接能力評(píng)估中的成功率

11.2.評(píng)分能力

對(duì)于評(píng)分函數(shù)的第二個(gè)評(píng)估標(biāo)準(zhǔn)是它可以多好地預(yù)測(cè)蛋白質(zhì)-藥物復(fù)合物的結(jié)合親和力。表3示出了真實(shí)結(jié)合常數(shù)(kd)與利用評(píng)分函數(shù)獲得的結(jié)合得分之間的相關(guān)性,它對(duì)應(yīng)于來(lái)自1的表2。

與配體對(duì)接相比,預(yù)測(cè)正確的結(jié)合親和力的問(wèn)題以及下一個(gè)問(wèn)題——配體排序是挑戰(zhàn)性大得多的問(wèn)題。配體的尺寸(表3中的重原子數(shù)-nha)與其結(jié)合親和力之間存在相關(guān)性。對(duì)于測(cè)試集,用于根據(jù)本發(fā)明的函數(shù)(“convexpl”)的pearson相關(guān)性的值為0.431。像配體尺寸一樣簡(jiǎn)單的測(cè)量結(jié)果提供了比評(píng)分函數(shù)中的一些評(píng)分函數(shù)更好的相關(guān)性系數(shù)。即使在對(duì)接能力上顯示出最佳結(jié)果的評(píng)分函數(shù)也沒(méi)有實(shí)現(xiàn)在結(jié)合得分和真實(shí)的結(jié)合親和力之間的高相關(guān)性。反之亦然,如果函數(shù)顯示出良好的相關(guān)性,那么它在對(duì)接中仍然可能實(shí)現(xiàn)中等(modest)的結(jié)果。

如上面所提到的,測(cè)試集是非常多樣化的-集合中包括的復(fù)合物的最高和最低的結(jié)合親和力之間存在很大差異,如從圖10中明顯的。可能這是所有評(píng)分函數(shù)的這樣的中等成功率的原因之一,并且如果僅考慮特定的蛋白質(zhì)-配體復(fù)合物族,那么可以實(shí)現(xiàn)更好的結(jié)果。參見(jiàn)1及其附加的測(cè)試集。

在訓(xùn)練集中存在195個(gè)測(cè)試蛋白質(zhì)-配體復(fù)合物對(duì)一些函數(shù)來(lái)說(shuō)可能是個(gè)問(wèn)題。為了評(píng)估它,在表3中對(duì)于convexpl和x-score提供了當(dāng)測(cè)試集被包括到訓(xùn)練集中或者從訓(xùn)練集排除時(shí)的成功率(具有被排除的測(cè)試集的版本被命名為1.3)。最好的三個(gè)結(jié)果由基于經(jīng)驗(yàn)的x-score、基于知識(shí)的dsxcsd:all和convexpl示出。

表3:實(shí)驗(yàn)測(cè)量的結(jié)合常數(shù)和結(jié)合得分之間的相關(guān)性

11.3排序能力

最后,由1研究的對(duì)于評(píng)分函數(shù)的最后一個(gè)評(píng)估標(biāo)準(zhǔn)是配體排序能力。我們考慮給定的蛋白質(zhì)目標(biāo)和配體分子的列表。cheng等人將評(píng)分函數(shù)的排序能力定義為當(dāng)配體的真實(shí)結(jié)合模式已知時(shí)對(duì)通過(guò)它們的結(jié)合親和力結(jié)合到公共目標(biāo)的已知配體進(jìn)行正確排序的能力。

表4示出了若干評(píng)分函數(shù)的成功率。對(duì)于排序最好的四個(gè)函數(shù)是x-score、dsxcsd::all、ds::plp2、convexpl。這些最佳函數(shù)的成功率與評(píng)分能力評(píng)估中的成功率是可比的。這個(gè)事實(shí)看起來(lái)很有趣,因?yàn)槿藗兛梢云诖潴w排序是比評(píng)分更容易的問(wèn)題。再次,最佳結(jié)果是由基于經(jīng)驗(yàn)的函數(shù),比如x-score和ds::plp2實(shí)現(xiàn)的。從根據(jù)本發(fā)明的函數(shù)的訓(xùn)練集中排除195個(gè)測(cè)試復(fù)合物導(dǎo)致成功率提高大約1.6%(convexpl測(cè)試集被排除)。

表4:配體排序評(píng)估中的成功率

如圖9、圖10和圖11上所呈現(xiàn)的,利用本發(fā)明獲得的參數(shù)優(yōu)于所有學(xué)術(shù)和工業(yè)評(píng)分函數(shù)(總共35個(gè)不同的函數(shù))。

而且,本發(fā)明不僅確保對(duì)接姿態(tài)的極佳預(yù)測(cè)能力,而且確保得分和結(jié)合親和力數(shù)據(jù)之間的非常好的相關(guān)性。

示例12–對(duì)于蛋白質(zhì)-蛋白質(zhì)相互作用的結(jié)果

12.1zdock基準(zhǔn)

我們?cè)诘鞍踪|(zhì)-蛋白質(zhì)對(duì)接基準(zhǔn)版本3.0上測(cè)試了convexpp評(píng)分函數(shù)。蛋白質(zhì)-蛋白質(zhì)對(duì)接基準(zhǔn)版本3.0由從pdb數(shù)據(jù)庫(kù)17提取的124個(gè)蛋白質(zhì)-蛋白質(zhì)復(fù)合物的晶體結(jié)構(gòu)組成。這些晶體結(jié)構(gòu)被劃分為三組:剛性情況、中等情況和困難情況。劃分標(biāo)準(zhǔn)是在結(jié)合時(shí)蛋白質(zhì)構(gòu)型改變的尺度:從剛性情況的微小變化到困難情況的重大變化。基準(zhǔn)的非冗余性被設(shè)置在族-族(family-family)對(duì)的級(jí)別上。

使用具有等于6度的采樣步長(zhǎng)的zdock3.0來(lái)生成用于評(píng)分的假目標(biāo)。我們稱(chēng)這個(gè)對(duì)接位置集合為zdock基準(zhǔn)。對(duì)接程序zdock3.0生成剛體蛋白質(zhì)-蛋白質(zhì)對(duì)接預(yù)測(cè)以及對(duì)應(yīng)的得分。這個(gè)程序中使用的評(píng)分函數(shù)包括形狀互補(bǔ)性、統(tǒng)計(jì)對(duì)勢(shì)能和靜電。zrank是用于對(duì)zdock3.0預(yù)測(cè)進(jìn)行重新排序的程序。除了zdock3.0中使用的因子之外,它還計(jì)算詳細(xì)的靜電、估算去溶劑以及使用附加的范德華勢(shì)能來(lái)重新給假目標(biāo)評(píng)分?;鶞?zhǔn)3.0具有與訓(xùn)練集中的某些蛋白質(zhì)復(fù)合物同源的若干復(fù)合物。因此,我們既在將同源物從訓(xùn)練集中排除的情況下訓(xùn)練了我們的勢(shì)能,又在保持同源物不變的情況下訓(xùn)練了我們的勢(shì)能。表5示出了zdock3.0、zrank和我們的評(píng)分函數(shù)在zdock3.0基準(zhǔn)上的結(jié)果。

利用原始zdock函數(shù)、zrank和根據(jù)本發(fā)明的評(píng)分勢(shì)能對(duì)由zdock3.0生成的2000個(gè)假目標(biāo)進(jìn)行排序。命中是irmsd小于的預(yù)測(cè)的接近天然的假目標(biāo)。irmsd參數(shù)是在界面殘基的骨架原子的最佳疊加之后預(yù)測(cè)的結(jié)構(gòu)和天然結(jié)構(gòu)之間的界面區(qū)域的rmsd。如果該殘基的任何原子距離另一個(gè)配偶體(partner)在以?xún)?nèi),那么該殘基被認(rèn)為是界面殘基。當(dāng)僅考慮最高的一個(gè)預(yù)測(cè)(top1)時(shí),zrank獲得的命中次數(shù)高于convexpp勢(shì)能獲得的命中次數(shù)(15次命中vs12次命中)。但是,如果考慮最高的10個(gè)預(yù)測(cè),那么根據(jù)本發(fā)明的評(píng)分函數(shù)優(yōu)于zrank(32次命中vs26次命中)。從訓(xùn)練集中排除同源物導(dǎo)致結(jié)果略有改善(表5)。

表5:zdock基準(zhǔn)3.0結(jié)果。比較三個(gè)評(píng)分函數(shù):zdock、zrank和convexpp。以粗體示出與訓(xùn)練集中的蛋白質(zhì)同源的蛋白質(zhì)。用連字符示出在前2000個(gè)預(yù)測(cè)中沒(méi)有命中。irmsd參數(shù)表示姿態(tài)的質(zhì)量,它是在天然構(gòu)型和假目標(biāo)構(gòu)型中的受體已經(jīng)被最佳地疊加之后配體的骨架原子的rmsd。irmsd參數(shù)是在界面殘基的骨架原子的最佳疊加之后,預(yù)測(cè)的結(jié)構(gòu)和天然結(jié)構(gòu)之間的界面區(qū)域的rmsd。如果殘基的任何原子距離另一個(gè)配偶體在以?xún)?nèi),那么這個(gè)殘基被認(rèn)為是界面殘基。fnat參數(shù)是預(yù)測(cè)的復(fù)合物中天然殘基-殘基接觸數(shù)與晶體結(jié)構(gòu)中殘基-殘基接觸數(shù)之比。

表5:zdock基準(zhǔn)3.0結(jié)果

圖13示出了roc曲線(xiàn)(成功率相對(duì)于所考慮的最高預(yù)測(cè)的數(shù)量)??梢钥闯鋈绻紤]的預(yù)測(cè)的數(shù)量超過(guò)八,那么convexpp評(píng)分函數(shù)優(yōu)于zrank和zdock。

12.2-rosetta基準(zhǔn)

baker、gray等人使用靈活的對(duì)接協(xié)議(它是rosettadock套件19的一部分)使用蛋白質(zhì)-蛋白質(zhì)對(duì)接基準(zhǔn)版本0.018的54個(gè)復(fù)合物生成rosetta基準(zhǔn)。該協(xié)議的第一步是構(gòu)成復(fù)合物的蛋白質(zhì)之一的隨機(jī)平移和旋轉(zhuǎn)。之后,側(cè)鏈與剛體移位被同時(shí)優(yōu)化。最后,進(jìn)行完整原子的最小化,以細(xì)化構(gòu)型。對(duì)于每個(gè)復(fù)合物,baker和gray遵循所描述的協(xié)議生成1000個(gè)假目標(biāo)。rosettadock的成功率是使用與“相互作用預(yù)測(cè)的臨界評(píng)估”20相同的質(zhì)量標(biāo)準(zhǔn)來(lái)計(jì)算的。rosetta基準(zhǔn)包含與訓(xùn)練集中存在的復(fù)合物同源的5個(gè)復(fù)合物。因此,使用具有這些同源物的訓(xùn)練集以及沒(méi)有這些同源物的訓(xùn)練集來(lái)訓(xùn)練根據(jù)本發(fā)明的評(píng)分函數(shù)。表6比較rosettadock19、itscore-pp13和我們的convexpp評(píng)分函數(shù)的結(jié)果。

表6示出相比于itscore-pp和rosettadock評(píng)分函數(shù),根據(jù)本發(fā)明的勢(shì)能顯著改善top1預(yù)測(cè)率,同時(shí)根據(jù)其它標(biāo)準(zhǔn)(top1和質(zhì)量1等)也優(yōu)于它們。對(duì)于其的第一個(gè)可接受預(yù)測(cè)被排序在最高預(yù)測(cè)內(nèi)的結(jié)構(gòu)的百分比針對(duì)每個(gè)復(fù)合物被計(jì)算,并且在圖14上被繪制。根據(jù)該圖,本發(fā)明的評(píng)分函數(shù)(convexpp)比itscore-pp和rosettadock為更多復(fù)合物輸出合理的結(jié)構(gòu)(質(zhì)量≥3)。與zdock基準(zhǔn)上的結(jié)果不同,當(dāng)從訓(xùn)練集中移除同源復(fù)合物時(shí),rosetta未結(jié)合基準(zhǔn)上的結(jié)果略有下降。在預(yù)測(cè)質(zhì)量標(biāo)準(zhǔn)中,預(yù)測(cè)的高質(zhì)量結(jié)構(gòu)數(shù)量改變最多。另一方面,top1預(yù)測(cè)率幾乎保持相同。這種觀察意味著預(yù)測(cè)的高質(zhì)量結(jié)構(gòu)的數(shù)量適用于過(guò)度擬合。因此,與top1標(biāo)準(zhǔn)不同,它不能充當(dāng)評(píng)分函數(shù)預(yù)測(cè)能力的可靠度量。

表6:rosetta未結(jié)合基準(zhǔn)結(jié)果。以粗體示出與訓(xùn)練集中的蛋白質(zhì)同源的蛋白質(zhì)。lrmsd參數(shù)表示姿態(tài)的質(zhì)量,它是天然構(gòu)型和假目標(biāo)構(gòu)型中的受體已經(jīng)被最優(yōu)地疊加之后配體的骨架原子的rmsd。irmsd參數(shù)是在界面殘基的骨架原子的最佳疊加之后預(yù)測(cè)的結(jié)構(gòu)和天然結(jié)構(gòu)之間的界面區(qū)域的rmsd。如果殘基的任何原子在距離另一個(gè)配偶體以?xún)?nèi),那么這個(gè)殘基被認(rèn)為是界面殘基。fnat參數(shù)是預(yù)測(cè)的復(fù)合物中天然殘基-殘基接觸數(shù)與晶體結(jié)構(gòu)中殘基-殘基接觸數(shù)之比。為了向?qū)宇A(yù)測(cè)指派質(zhì)量,我們使用來(lái)自“相互作用預(yù)測(cè)的臨界評(píng)估”(capri)的標(biāo)準(zhǔn)。

表6:rosetta未結(jié)合基準(zhǔn)結(jié)果

實(shí)施例1.一種用于對(duì)受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)進(jìn)行建模的方法,其中第一化學(xué)分子被定義為受體并且第二化學(xué)分子被定義為配體,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟由計(jì)算機(jī)實(shí)現(xiàn)或輔助:

(a)從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供受體和配體的集合,其中受體-配體復(fù)合物呈現(xiàn)出包括不同原子類(lèi)型的界面,其中原子類(lèi)型k位于受體上并且原子類(lèi)型l位于配體相互作用上,k和l依賴(lài)于原子類(lèi)型而變化;

(b)從所述受體和配體的受體-配體復(fù)合物界面選擇原子;

(c)向每個(gè)所選擇的原子指派k和l之中的原子類(lèi)型;

(d)為受體-配體復(fù)合物提供受體的特定原子類(lèi)型k的原子i與配體的特定原子類(lèi)型l的原子j之間的距離rij,其中i索引在原子類(lèi)型k中的特定原子上運(yùn)行,并且其中j索引在原子類(lèi)型l中的特定原子上運(yùn)行;

(e)對(duì)于所有或其它原子類(lèi)型k和l,可選地重復(fù)步驟(c);

(f)將距離rij指派為原子類(lèi)型的函數(shù);以及

(g)提供作為距離rij的函數(shù)的對(duì)受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的建模。

實(shí)施例2.實(shí)施例1的方法,其中對(duì)受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的所述建??紤]了距離rij的確定中的不準(zhǔn)確性。

實(shí)施例3.實(shí)施例1的方法,其中作為距離rij的函數(shù)的對(duì)受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)的所述建模由數(shù)密度nkl(r)定義,其中所述數(shù)密度nkl(r)被定義為:

其中每個(gè)距離分布由具有恒定方差σ2、中心在rij處的高斯分布表示,并且其中距離rij小于所確定的截?cái)嗑嚯xrmax。

實(shí)施例4.一種用于生成虛擬的非天然受體-配體復(fù)合物的方法,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟由計(jì)算機(jī)實(shí)現(xiàn)或輔助:

(a)從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供天然受體-配體復(fù)合物的集合,其中受體-配體復(fù)合物呈現(xiàn)其中受體的位點(diǎn)k和配體的位點(diǎn)l相互作用的界面;

(b)生成d個(gè)非天然受體-配體復(fù)合物j=1…d,其中j索引在生成的假目標(biāo)上運(yùn)行,并且d表示所生成的非天然受體-配體復(fù)合物的總數(shù),其中非天然受體-配體復(fù)合物是通過(guò)相對(duì)于受體在空間上移動(dòng)配體或通過(guò)從天然受體-配體復(fù)合物沿空間方向的局部變形生成的。

實(shí)施例5.實(shí)施例4的方法,其中非天然受體-配體復(fù)合物是通過(guò)在受體表面上滾動(dòng)配體生成的。

實(shí)施例6.實(shí)施例4的方法,其中非天然受體-配體復(fù)合物是通過(guò)以下步驟生成的:

-將配體視為剛體,

-圍繞一個(gè)或多個(gè)旋轉(zhuǎn)軸旋轉(zhuǎn)配體,以及

-沿坐標(biāo)軸平移配體。

實(shí)施例7.實(shí)施例6的方法,其中非天然受體-配體復(fù)合物是通過(guò)模式{vi}的如下線(xiàn)性組合生成的:

其中xnative和xdecoy分別是對(duì)應(yīng)于天然構(gòu)型和非天然構(gòu)型的坐標(biāo)向量,ri是用于每個(gè)模式的從-1到1范圍內(nèi)的隨機(jī)權(quán)重,并且ωi是模式vi的頻率。

實(shí)施例8.一種用于對(duì)受體-配體復(fù)合物中受體和配體之間的相互作用進(jìn)行建模的方法,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟是由計(jì)算機(jī)實(shí)現(xiàn)或輔助的:

(a)從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供受體和配體的集合;

(b)向每個(gè)受體-配體復(fù)合物指派特定結(jié)構(gòu)向量x,特定結(jié)構(gòu)向量x是表示特定受體-配體復(fù)合物中受體和配體之間的界面的特定幾何結(jié)構(gòu)的數(shù)學(xué)向量;

(c)計(jì)算作為所有特定結(jié)構(gòu)向量x或向量x的函數(shù)的線(xiàn)性凸評(píng)分函數(shù)f,其中向量x是其所有向量x的拼接,優(yōu)選地所述線(xiàn)性凸評(píng)分函數(shù)f也是評(píng)分向量w的函數(shù);

(d)在正交多項(xiàng)式子空間中投影所述評(píng)分函數(shù)f;由此對(duì)受體-配體復(fù)合物中受體和配體之間的相互作用進(jìn)行建模。

實(shí)施例9.一種用于確定評(píng)分向量w的方法,評(píng)分向量w是量化和/或限定受體-配體復(fù)合物界面的幾何結(jié)構(gòu)的相互作用的數(shù)學(xué)向量,其中受體-配體復(fù)合物呈現(xiàn)在相互作用下的界面,其中所述相互作用需要被量化和/或限定,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟由計(jì)算機(jī)實(shí)現(xiàn)或輔助:

(a)從至少一個(gè)計(jì)算機(jī)數(shù)據(jù)庫(kù)提供受體和配體的集合;

(b)向受體-配體復(fù)合物的界面的每個(gè)幾何結(jié)構(gòu)指派特定結(jié)構(gòu)向量x,特定結(jié)構(gòu)向量x是表示界面的特定幾何結(jié)構(gòu)的數(shù)學(xué)向量;

(c)計(jì)算作為所有特定結(jié)構(gòu)向量x和評(píng)分向量w的函數(shù)的線(xiàn)性凸評(píng)分函數(shù)f;

(e)在正交多項(xiàng)式子空間中投影所述評(píng)分函數(shù)f;

(f)用公式表示凸優(yōu)化問(wèn)題;

(g)求解凸優(yōu)化問(wèn)題,由此確定評(píng)分向量w。

實(shí)施例10.實(shí)施例9的方法,其中步驟(a)包括提供天然受體-配體復(fù)合物和非天然受體-配體復(fù)合物其中i索引在不同的蛋白質(zhì)復(fù)合物上運(yùn)行。

實(shí)施例11.實(shí)施例9的方法,其中步驟(b)包括實(shí)現(xiàn)如由實(shí)施例1至3中任一項(xiàng)定義的方法。

實(shí)施例12.實(shí)施例9的方法,其中在步驟(e)中,正交多項(xiàng)式子空間是矩形、legendre、laguerre或傅里葉正交基。

實(shí)施例13.實(shí)施例9的方法,其中步驟(f)包括使用應(yīng)用到原始輸入數(shù)據(jù)的、人為生成的噪聲,其中所述噪聲由具有方差σ的輸入數(shù)據(jù)的高斯距離分布表示,其中σ是常數(shù)并且不依賴(lài)于原子類(lèi)型,并且如果將輸入數(shù)據(jù)表示為1d信號(hào),那么可以將σ視為應(yīng)用于輸入數(shù)據(jù)的高斯濾波器。

實(shí)施例14.實(shí)施例9的方法,其中步驟(f)包括用公式表示凸優(yōu)化問(wèn)題,以便最小化凸函數(shù)。

實(shí)施例15.實(shí)施例9至14中任一項(xiàng)所述的方法,其中所述方法還包括找出評(píng)分向量w。

實(shí)施例16.一種用于確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的位置的結(jié)合親和力或結(jié)合自由能的方法,其中所述受體-配體復(fù)合物呈現(xiàn)出包括不同原子類(lèi)型的界面,其中位于受體上的原子類(lèi)型k和位于配體上的原子類(lèi)型l相互作用,k和l依賴(lài)于原子類(lèi)型而變化,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟由計(jì)算機(jī)實(shí)現(xiàn)或輔助:

(i)對(duì)一個(gè)或多個(gè)受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)進(jìn)行建模,所述建模如實(shí)施例1到7中任一項(xiàng)所定義;

(ii)通過(guò)參考數(shù)據(jù)庫(kù)向受體-配體復(fù)合物的界面的幾何結(jié)構(gòu)指派結(jié)合親和力或結(jié)合自由能,可選地其中所述結(jié)合親和力或結(jié)合自由能被確定為結(jié)構(gòu)向量x與如在實(shí)施例9的方法中定義的評(píng)分向量w的標(biāo)量積。

實(shí)施例17.一種用于在一個(gè)或多個(gè)受體-配體復(fù)合物中對(duì)配體相對(duì)于受體的空間位置的結(jié)合親和力或結(jié)合自由能進(jìn)行排序的方法,其中所述方法包括以下步驟,其中以下步驟中的至少一個(gè)步驟由計(jì)算機(jī)實(shí)現(xiàn)或輔助:

(i)實(shí)現(xiàn)實(shí)施例16的方法,以確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的兩個(gè)或更多個(gè)空間位置的結(jié)合親和力或結(jié)合自由能,

(ii)基于所述結(jié)合親和力或結(jié)合自由能來(lái)對(duì)配體相對(duì)于受體的空間位置進(jìn)行排序是通過(guò)提供空間位置集合之間的嚴(yán)格關(guān)系,以使得對(duì)于任何兩個(gè)位置,如果第一位置的結(jié)合能量分別小于、等于或高于第二位置的能量,那么第一位置的排序或者高于、或者低于或者等于第二位置。

實(shí)施例18.實(shí)施例17的方法,其中基于所述結(jié)合親和力或結(jié)合自由能的排序來(lái)確定一個(gè)或多個(gè)受體-配體復(fù)合物中配體相對(duì)于受體的最佳空間位置。

實(shí)施例19.實(shí)施例17的方法,其中基于所述結(jié)合親和力或結(jié)合自由能的排序來(lái)確定若干受體-配體復(fù)合物之間的最佳結(jié)合親和力或自由結(jié)合能。

參考文獻(xiàn):

1.cheng,t.,li,x.,li,y.,liu,z.,&wang,r.2009,journalofchemicalinformationandmodeling,49,1079-1093.

2.rarey,m.,kramer,b.,lengauer,t.,&klebe,g.1996,journalofmolecularbiology.261,470-489.

3.tanaka,s.&scheraga,h.a.1976,macromolecules,9,945-950.

4.miyazawa,s.&jernigan,r.l.1985,macromolecules,18,534-552.

5.sippl,m.j.1990,journalofmolecularbiology,213,859-883.

6.clark,m.,cramer,r.d.,&vanopdenbosch,n.1989,journalofcomputationalchemistry,10,982-1012.

7.neudert,g.&klebe,g.2011,bioinformatics(oxford,england),27,1021.

8.ritchie,d.w.&kemp,g.j.l.2000,proteins:structure,function,andbioinformatics,39,178-194.

9.olboyle,n.m.,banck,m.,james,c.a.,morley,c.,vandermeersch,t.,&hutchison,g.r.2011,journalofcheminformatics,3,33.

10.vapnik,v.1999,thenatureofstatisticallearningtheory.

11.cortes,c.&vapnik,v.1995,machinelearning,20,273-297.

12.burges,c.j.c.&crisp,d.j.2000,inadvancesinneuralinformationprocessingsystems,vol.12,223-229.

13.huang,s.y.&zou,x.2008,proteins:structure,function,andbioinformatics,72,557-579.

14.wang,r.,fang,x.,lu,y.,&wang,s.2004,journalofmedicinalchemistry,47,2977-2980.

15.berman,h.m.,westbrook,j.,feng,z.,gilliland,g.,bhat,t.,weissig,h.,shindyalov,i.n.,&bourne,p.e.2000,nucleicacidsresearch,28,235-242.

16.neudert,g.&klebe,g.2011,journalofchemicalinformationandmodeling,51,2731-45.

17.hwang,h.,pierce,b.,mintseris,j.,janin,j.,&weng,z.2008,proteins:structure,function,andbioinformatics,73,705-709.

18.chen,r.&weng,z.2002,proteins:structure,function,andbioinformatics,47,281-294.

19.gray,j.j.,moughon,s.,wang,c.,schueler-furman,o.,kuhlman,b.,rohl,c.a.,&baker,d.2003,journalofmolecularbiology,331,281-300.

20.méndez.r.,leplae,r.,demaria,l.,&wodak,s.j.2003,proteins:structure,function,andbioinformatics,52,51-67.

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1