一種基于簡(jiǎn)約空間抽象凸下界估計(jì)的蛋白質(zhì)構(gòu)象優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物信息學(xué)、計(jì)算機(jī)應(yīng)用領(lǐng)域,尤其涉及的是一種基于簡(jiǎn)約空間抽象 凸下界估計(jì)的蛋白質(zhì)構(gòu)象優(yōu)化方法。
【背景技術(shù)】
[0002] 生物信息學(xué)是生命科學(xué)和計(jì)算機(jī)科學(xué)交叉領(lǐng)域的一個(gè)研宄熱點(diǎn)。目前,根據(jù) Anf insen假設(shè),直接從氨基酸序列出發(fā),基于勢(shì)能模型,采用全局優(yōu)化方法,搜索分子系統(tǒng) 的最小能量狀態(tài),從而高通量、廉價(jià)地預(yù)測(cè)肽鏈的天然構(gòu)象,已經(jīng)成為生物信息學(xué)最重要的 研宄課題之一。對(duì)于序列相似度低或多肽(〈10個(gè)殘基的小蛋白)來(lái)說(shuō),從頭預(yù)測(cè)方法是唯 一的選擇。從頭預(yù)測(cè)方法必須考慮以下兩個(gè)因素:(1)蛋白質(zhì)結(jié)構(gòu)能量函數(shù);(2)構(gòu)象空間 搜索方法。第一個(gè)因素本質(zhì)上屬于分子力學(xué)問(wèn)題,主要是為了能夠計(jì)算得到每個(gè)蛋白質(zhì)結(jié) 構(gòu)對(duì)應(yīng)的能量值。目前已經(jīng)存在一些較為有效的結(jié)構(gòu)能量函數(shù),如:簡(jiǎn)單網(wǎng)格模型HP及更 實(shí)際的經(jīng)驗(yàn)力場(chǎng)模型MM3, AMBER,CHARMM,GR0M0S,DISCOVER,ECEPP/3等;第二個(gè)因素本質(zhì) 上屬于全局優(yōu)化問(wèn)題,通過(guò)選擇一種合適的優(yōu)化方法,對(duì)構(gòu)象空間進(jìn)行快速搜索,得到與某 一全局最小能量對(duì)應(yīng)的構(gòu)象。其中,蛋白質(zhì)構(gòu)象空間優(yōu)化屬于一類非常難解的NP-Hard問(wèn) 題。2005年,D. Baker在Science中指出,構(gòu)象空間優(yōu)化方法是制約蛋白質(zhì)從頭預(yù)測(cè)方法預(yù) 測(cè)精度的一個(gè)瓶頸因素。
[0003] 因此,現(xiàn)有的構(gòu)象空間優(yōu)化方法存在采樣效率、復(fù)雜度及預(yù)測(cè)精度方面存在不足, 需要改進(jìn)。
【發(fā)明內(nèi)容】
[0004] 為了克服現(xiàn)有的蛋白質(zhì)構(gòu)象優(yōu)化方法的采樣效率較低、復(fù)雜度較高、預(yù)測(cè)精度較 低的不足,本發(fā)明提出一種采樣效率較高、復(fù)雜度較低、預(yù)測(cè)精度較高的基于簡(jiǎn)約空間抽象 凸下界估計(jì)的蛋白質(zhì)構(gòu)象優(yōu)化方法。
[0005] 本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:
[0006] -種基于簡(jiǎn)約空間抽象凸下界估計(jì)的蛋白質(zhì)構(gòu)象優(yōu)化方法,所述構(gòu)象空間優(yōu)化方 法包括以下步驟:
[0007] 1)根據(jù)粗粒度能量模型,采用基于知識(shí)的Rosetta Score3能量模型作為目標(biāo)函 數(shù),
[0008] 如式(1)所示,并初始化種群:
[0009] (11
[?σι?] 其中#表示n,c,c^pcf原子的總數(shù),r表示第i個(gè)原子的坐標(biāo)κ34),?=ι, 2,…,及;
[0011] 2)對(duì)1)中的目標(biāo)函數(shù)進(jìn)行模型轉(zhuǎn)換:
[0012] 2. 1)采用坐標(biāo)變換方法,將計(jì)算模型轉(zhuǎn)化為二面角優(yōu)化空間能量模型f2:
[0013] f2{r)= ^or(Oi) (2)
[0014] 其中Γ = (h h,…,^Vsss)=祕(mì)肩,M U = 1,2,…,乂£5}為骨架二面角向量,Nkes表示殘 基個(gè)數(shù),Φ?,仍,Wi分別表示第i個(gè)殘基中原子C-N-Ca-N, N-Ca-C-N, Ca-C-N-Ca的二面 角;
[0015] 2.2)采用超速形狀識(shí)別方法,提取蛋白質(zhì)結(jié)構(gòu)的4個(gè)特征點(diǎn),分別是:分子質(zhì)心 CTD,離CTD最近的原子CST,離CTD最遠(yuǎn)的原子FCT,離FCT最遠(yuǎn)的原子FTF,通過(guò)計(jì)算蛋白質(zhì) 分子粗粒度骨架模型中所有原子與四個(gè)特征點(diǎn)的平均距離,距離方差,以及距離偏差指標(biāo), 組成蛋白質(zhì)結(jié)構(gòu)的12維特征向量及 綜合考慮精度和復(fù)雜度的因素,選擇作為蛋白質(zhì)結(jié)構(gòu)特征坐標(biāo),基 于模型(1),得到如下特征空間能量模型f3:
[0016] (3)
[0017] 其中/Τ,Ο/?"表示蛋白質(zhì)粗粒度骨架模型中所有原子與特征點(diǎn) CTD, CST, FCT, FTF 的平均距離;
[0018] 2. 3)基于Karmarker攝影變換,將模型(3)轉(zhuǎn)換為單位單純形S約束下的非線性 優(yōu)化問(wèn)題f4:
[0019] ./4 (·ν,) = ./4 (·νι' ·ν:' ·γ'' ·γ4' ·ν?)' s-r- χ! - X^ ! .Vf = I, / = 1,2,3,4,5 (4)
[0020] 2. 4)針對(duì)f4,采用嚴(yán)格遞增射凸函數(shù)變換方法,在目標(biāo)函數(shù)項(xiàng)增加一個(gè)正常數(shù),將 其轉(zhuǎn)換為單位單純形約束下的嚴(yán)格遞增射凸函數(shù)f 5(?);
[0021] 2. 5)對(duì)于K個(gè)采樣點(diǎn),針對(duì)第i個(gè)采樣點(diǎn)X 1,計(jì)算其抽象凸次微分,構(gòu)建f5(?) 在采樣點(diǎn)X 的支撐弱函數(shù)h(,i):
[0022]
【主權(quán)項(xiàng)】
1. 一種基于簡(jiǎn)約空間抽象凸下界估計(jì)的蛋白質(zhì)構(gòu)象優(yōu)化方法,其特征在于:所述構(gòu)象 空間優(yōu)化方法包括以下步驟: 1) 根據(jù)粗粒度能量模型,采用基于知識(shí)的Rosetta Sc〇re3能量模型作為目標(biāo)函數(shù),如 式(1)所示,并初始化種群: (1) 其中#表示N,C,0和Cf原子的總數(shù),表示第i個(gè)原子的坐標(biāo)?Π Ji),/ = 1,2,···,沒; 2) 對(duì)1)中的目標(biāo)函數(shù)進(jìn)行模型轉(zhuǎn)換: 2. 1)采用坐標(biāo)變換方法,將計(jì)算模型轉(zhuǎn)化為二面角優(yōu)化空間能量模型f2: ./;(γ)ξ (2) 其中r = (η,r:,…,)三祕(mì)肩,崎I / = 1,2,…,}為骨架二面角向量,Nkes表示殘基個(gè) 數(shù),φρ仍,Wi分別表示第i個(gè)殘基中原子C-N-C a-N,N-Ca-C-N, Ca-C-N-Ca的二面角; 2. 2)采用超速形狀識(shí)別方法,提取蛋白質(zhì)結(jié)構(gòu)的4個(gè)特征點(diǎn),分別是:分子質(zhì)心CTD,離 CTD最近的原子CST,離CTD最遠(yuǎn)的原子FCT,離FCT最遠(yuǎn)的原子FTF,通過(guò)計(jì)算蛋白質(zhì)分子 粗粒度骨架模型中所有原子與四個(gè)特征點(diǎn)的平均距離,距離方差,以及距離偏差指標(biāo),組成 蛋白質(zhì)結(jié)構(gòu)的12維特征向量及= ,,淖,/^),綜合 考慮精度和復(fù)雜度的因素,選擇)作為蛋白質(zhì)結(jié)構(gòu)特征坐標(biāo),基于模 型(1),得到如下特征空間能量模型f3: 久(汾「)=石(Orwr) (3) 其中/廣,/表示蛋白質(zhì)粗粒度骨架模型中所有原子與特征點(diǎn) CTD, CST, FCT, FTF 的平均距離; 2. 3)基于Karmarker攝影變換,將模型(3)轉(zhuǎn)換為單位單純形S約束下的非線性優(yōu)化 問(wèn)題 ./4 (·ν,) = ./4 (·νι' ·ν:' ·γ'' ·γ4' ·ν?)'Λ'··'· χ! - X^ ! .t7 = I, / = 1,2,3,4,5 (4) 2. 4)針對(duì)f4,采用嚴(yán)格遞增射凸函數(shù)變換方法,在目標(biāo)函數(shù)項(xiàng)增加一個(gè)正常數(shù),將其轉(zhuǎn) 換為單位單純形約束下的嚴(yán)格遞增射凸函數(shù)&(?); 2.5)對(duì)于K個(gè)采樣點(diǎn),針對(duì)第i個(gè)采樣點(diǎn)X S計(jì)算其抽象凸次微分,構(gòu)建f5(x')在 采樣點(diǎn)X 的支撐弱函數(shù)h(,〇 : t f s^max-min
I6U ): f6 (X' ) = maxh (x D,i = 1,2,…,K (6) 2. 7)考慮K+l維支撐向量矩陣L : / · \
2. 8)建立N叉樹來(lái)保存下界估計(jì)信息; 3) 構(gòu)建簡(jiǎn)約空間低估模型: 3. 1)對(duì)初始種群中的每個(gè)構(gòu)象建立支撐向量; 3. 2)找出N叉樹中不滿足條件Vv e Λλ \ H e / ://· 2 v,_ (M)的葉子節(jié)點(diǎn),用構(gòu)建的支撐 向量替換; 3. 3)判斷替換后的節(jié)點(diǎn)是否滿足V/,./,./e/,(I),滿足,則保留這個(gè)節(jié)點(diǎn), 不滿足,則刪除; 4) 執(zhí)行搜索過(guò)程: 4. 1)設(shè)置終止條件; 4. 2)在種群中隨機(jī)選出兩個(gè)不同的個(gè)體; 4. 3)通過(guò)交叉變異產(chǎn)生新的個(gè)體:隨機(jī)選擇所選父代個(gè)體中相同長(zhǎng)度的片段進(jìn)行交 換,再對(duì)其做片段組裝,生成新的個(gè)體; 4. 4)判斷新生成的個(gè)體落在哪一個(gè)搜索區(qū)域; 4. 5)計(jì)算其下界估計(jì)值E' 4. 6)計(jì)算E' c與所選父代個(gè)體中能量值較小的個(gè)體的能量值的差值δ 1,如果δ 1>〇, 則跳出本次計(jì)算,若S 1〈〇,計(jì)算其真實(shí)能量Ε。; 4.7)計(jì)算Ec與所選父代個(gè)體中能量值較小的個(gè)體的能量值的差值δ 2,若δ 2〈0,則用 其替換種群中所選父代能量值較高的個(gè)體; 5) 判斷是否滿足終止條件,如否,轉(zhuǎn)4.2);如是,則結(jié)束。
2.如權(quán)利要求1所述的基于簡(jiǎn)約空間抽象凸下界估計(jì)的蛋白質(zhì)構(gòu)象優(yōu)化方法,其特征 在于:所述終止條件為迭代次數(shù)達(dá)到設(shè)置值。
【專利摘要】一種基于簡(jiǎn)約空間抽象凸下界估計(jì)的蛋白質(zhì)構(gòu)象優(yōu)化方法,包括以下步驟:根據(jù)粗粒度能量模型,以Rosetta Score3為優(yōu)化目標(biāo)函數(shù),將能量計(jì)算模型轉(zhuǎn)換為二面角優(yōu)化空間能量模型;通過(guò)特征向量提取,將高維二面角優(yōu)化問(wèn)題轉(zhuǎn)換為實(shí)際可操作的笛卡兒空間優(yōu)化問(wèn)題;基于Karmarker射影變換,將笛卡兒空間能量模型轉(zhuǎn)換成單位單純形約束下的非線性優(yōu)化問(wèn)題,如此構(gòu)建抽象凸下界支撐面,并進(jìn)行更新;結(jié)合片段組裝和Monte Carlo算法獲得一系列亞穩(wěn)態(tài)構(gòu)象;最后,通過(guò)Rosetta服務(wù)器提供的Refinement服務(wù)獲得高分辨率的蛋白質(zhì)構(gòu)象。本發(fā)明采樣效率較高、復(fù)雜度較低、預(yù)測(cè)精度較高。
【IPC分類】G06F19-16
【公開號(hào)】CN104732115
【申請(qǐng)?zhí)枴緾N201410686664
【發(fā)明人】張貴軍, 郝小虎, 周曉根, 程凱, 梅珊, 俞旭鋒, 李章維
【申請(qǐng)人】浙江工業(yè)大學(xué)
【公開日】2015年6月24日
【申請(qǐng)日】2014年11月25日