本發(fā)明涉及生物醫(yī)學領域,尤其涉及一種基于多目標粒子群優(yōu)化的蛋白質結構預測方法。
背景技術:
蛋白質結構指的是三級結構,即指一條多肽鏈在二級結構或者結構域的基礎上,進一步盤繞、折疊,依靠次級鍵的維系固定所形成的特定空間結構。研究蛋白質結構,有助于了解蛋白質的作用,了解蛋白質如何行使其生物功能,認識蛋白質與蛋白質(或其它分子)之間的相互作用,這無論是對于生物學還是對于醫(yī)學和藥學,都是非常重要的。目前通過實驗方法確定蛋白質結構的過程仍然非常復雜,代價較高,需要耗費大量的成本和時間。近年來數據采集技術的飛速發(fā)展產生了海量的生物數據,因此需要發(fā)展計算性的方法來預測蛋白質結構,彌補生物數據產生能力和理解速度之間的差距。
蛋白質結構預測優(yōu)化是指將初始的、精度不高的預測結構通過合適的搜索優(yōu)化方法得到精度更高的蛋白質結構。當前蛋白質結構優(yōu)化的方法主要可以分為兩類:基于分子動力學模擬和蒙特卡洛模擬方法?;诜肿觿恿W模擬的優(yōu)化方法的基本原理是應用立場函數所描述的分子內和分子間相互作用,根據牛頓運動力學計算蛋白質在相空間中的軌跡,搜索出力場最低態(tài)。這種方法的精確性主要依賴于力場函數的精確性和模擬時間的長短?;诿商乜迥M的基本思想是使用玻爾茲曼分布函數實現在能量空間的搜索,同樣也依賴于能量函數的精確性。
在蛋白質結構預測優(yōu)化中,不論是基于分子動力學模擬還是蒙特卡洛模擬都依賴于力場函數或能量函數的精確性,但是目前我們缺乏準確的能量函數來有效的搜索。對于蛋白質而言,分子的力場包含許多參數包括原子的電荷、分子間的作用勢等,由于復雜性導致目前存在的很多立場函數和能量函數沒有能夠得到廣泛的應用。在蛋白質結構預測中,我們通過分子動力學模擬或者蒙特卡洛模擬等方法來搜索能量最低態(tài)的結構,而能量最低態(tài)的結構通常是接近于原始結構的,所以如果描述蛋白質結構能量的能量函數不準確,那么就難以搜索到接近于原始結構的狀態(tài)。
技術實現要素:
針對上述現有技術中的不足,本發(fā)明提供一種基于多目標粒子群優(yōu)化的蛋白質結構預測方法,采用多目標粒子群方法,針對力場函數或能量函數不準確的問題采用兩個能量函數進行多目標搜索,具有有效性高和預測準確性高的優(yōu)點。
為了實現上述目的,本發(fā)明提供一種基于多目標粒子群優(yōu)化的蛋白質結構預測方法,包括步驟:
s1:在一待預測的蛋白質序列中選擇需要優(yōu)化的n個不同初始結構作為n個目標粒子,并將每一所述目標粒子的位置坐標以構象表示的形式表示,n為大于零的自然數;
s2:對一更新公式進行參數設置;
s3:根據所述更新公式對三目標能量公式進行迭代,并獲得一更優(yōu)解集;
s4:處理所述最優(yōu)解集獲得一最優(yōu)解,并將所述最優(yōu)解作為所述目標粒子的預測位置。
優(yōu)選地,所述更新公式包括公式(1)和公式(2):
其中,w為慣性系數,k為迭代次數,c1為認知系數,c2為社會系數;
優(yōu)選地,所述s2步驟中,初始化每一所述目標粒子的所述更新速度為0,并對一最大迭代次數、所述慣性系數、所述認知系數和所述社會系數進行設置。
優(yōu)選地,所述目標能量公式包括rosetta能量函數、quark能量函數和charmm能量函數。
優(yōu)選地,所述s3步驟進一步包括步驟:
s31:分別利用所述目標能量公式計算獲得各所述初始粒子的一第一能量函數值、一第二能量函數值和一第三能量函數值;
s32:確定并選擇各所述目標粒子中的非支配粒子,并將所述非支配粒子加入一更優(yōu)解集;所述非支配粒子所對應的第一能量函數值為各所述第一能量函數值中的最小值,所述非支配粒子所對應的第二能量函數值為各所述第二能量函數值中的最小值,所述非支配粒子所對應的第三能量函數值為各所述第三能量函數值中的最小值,且所述第一能量函數值為各所述第一能量函數值中唯一的最小值或所述第二能量函數值為各所述第二能量函數值中唯一的最小值或所述第三能量函數值為各所述第三能量函數值中唯一的最小值;
s33:根據所述公式(1)更新各所述目標粒子所對應的所述更新速度;
s34:根據所述公式(2)更新各所述目標粒子的所述位置坐標;
s35:分別利用兩所述目標能量公式計算獲得各所述目標粒子的一所述第一能量函數值、一所述第二能量函數值和一所述第三能量函數值;
s36:確定并選擇各當前所述目標粒子中的非支配粒子,并將該非支配粒子加入所述更優(yōu)解集;
s37:判斷迭代次數是否達到所述最大迭代次數;如否,返回步驟s33;如是,繼續(xù)后續(xù)步驟。
優(yōu)選地,所述s4進一步包括步驟:
s41:構建一效用函數,u=λ1f1+λ2f2+λ3f3,其中f1為所述第一能量函數值、f2為所述第二能量函數值、f3為所述第三能量函數值,λ1為第一權重、λ2為第二權重、λ3為第三權重,λ1、λ2和λ3的取值范圍分別為[0,1]且λ1+λ2+λ3=1;
s42:對λ1、λ2進行n次隨機采樣,計算所述更優(yōu)解集中每個非支配粒子所對應的期望效用e(u);
選取數值最大的一所述期望效用所對應的一所述非支配粒子作為所屬最優(yōu)解。
本發(fā)明由于采用了以上技術方案,使其具有以下有益效果:
對三目標能量公式進行迭代,通過多目標的優(yōu)化方法,有效改善了采用單一能量函數不精確的問題。通過改進的粒子群算法,能夠更有效地搜索。同時,本方法提高了整體檢測的準確度。
附圖說明
圖1為本發(fā)明實施例的帶有基于多目標粒子群優(yōu)化的蛋白質結構預測方法的流程圖。
具體實施方式
下面根據附圖1,給出本發(fā)明的較佳實施例,并予以詳細描述,使能更好地理解本發(fā)明的功能、特點。
請參閱圖1,本發(fā)明實施例的一種基于多目標粒子群優(yōu)化的蛋白質結構預測方法,包括步驟:
s1:在一待預測的蛋白質序列中選擇需要優(yōu)化的n個不同初始結構作為n個目標粒子,并將每一目標粒子的位置坐標以構象表示的形式表示,具體表現形式為
s2:對一更新公式進行參數設置。
其中,s2步驟中,初始化每一目標粒子的更新速度為0,并對一最大迭代次數、慣性系數、認知系數和社會系數進行設置。
s3:根據更新公式對三目標能量公式進行迭代,并獲得一更優(yōu)解集;
目標能量公式采用目前已有的用來描述蛋白質結構的能量函數,本實施例中,目標能量公式采用rosetta能量函數、quark能量函數和charmm能量函數。
其中,s3步驟進一步包括步驟:
s31:分別利用三目標能量公式計算獲得各初始粒子的一第一能量函數值、一第二能量函數值和一第三能量函數值;
s32:確定并選擇各目標粒子中的非支配粒子,并將非支配粒子加入一更優(yōu)解集;非支配粒子所對應的第一能量函數值為各第一能量函數值中的最小值,非支配粒子所對應的第二能量函數值為各第二能量函數值中的最小值,且第一能量函數值為各第一能量函數值中唯一的最小值或第二能量函數值為各第二能量函數值中唯一的最小值;
s33:根據公式(1)更新各目標粒子所對應的更新速度:
其中,w為慣性系數,k為迭代次數,c1為認知系數,c2為社會系數;
s34:根據公式(2)更新各目標粒子的位置坐標:
s35:分別利用三目標能量公式計算獲得各目標粒子的一第一能量函數值和一第二能量函數值和一第三能量函數值;
s36:確定并選擇各當前目標粒子中的非支配粒子,并將該非支配粒子加入更優(yōu)解集;
s37:判斷迭代次數是否達到最大迭代次數;如否,返回步驟s33;如是,繼續(xù)后續(xù)步驟。
s4:處理最優(yōu)解集獲得一最優(yōu)解,并將最優(yōu)解作為目標粒子的預測位置。
其中,s4進一步包括步驟:
s41:以第一能量函數值、第二能量函數值和第三能量函數值的線性和構建一效用函數,u=λ1f1+λ2f2+λ3f3,其中f1為第一能量函數值、f2為第二能量函數值、f3為第三能量函數值,λ1為第一權重、λ2為第二權重、λ3為第三權重,λ1、λ2和λ3的取值范圍分別為[0,1]且λ1+λ2+λ3=1;
s42:對λ1、λ2進行n次隨機采樣,計算更優(yōu)解集中每個非支配粒子所對應的期望效用e(u);本實施例中,n大于等于10000;
選取數值最大的一所述期望效用所對應的一非支配粒子作為所屬最優(yōu)解。
本發(fā)明的方法可通過一種基于多目標粒子群優(yōu)化的蛋白質結構預測系統(tǒng)實現,該系統(tǒng)包括:一初始結構表示模塊、一多目標粒子群優(yōu)化模塊和一后續(xù)決策模塊,初始結構表示模塊與多目標粒子群優(yōu)化模塊相連,多目標粒子群優(yōu)化模塊與后續(xù)決策模塊相連。
其中,初始結構表示模塊用于將蛋白質結構通用的pdb(蛋白質三維結構數據文件)表示轉化為便于計算的向量x,也即在一待預測的蛋白質序列中選擇需要優(yōu)化的n個不同初始結構作為n個目標粒子,并將每一目標粒子的位置坐標以構象表示的形式表示。
多目標粒子群優(yōu)化模塊用于對預設的一更新公式進行參數設置,根據更新公式對三目標能量公式進行迭代,并獲得一更優(yōu)解集;
后續(xù)決策模塊用于處理最優(yōu)解集獲得一最優(yōu)解,并將最優(yōu)解作為目標粒子的預測位置,即從更優(yōu)解集中通過計算期望效用的方法選擇最終的輸出結構。
以上結合附圖實施例對本發(fā)明進行了詳細說明,本領域中普通技術人員可根據上述說明對本發(fā)明做出種種變化例。因而,實施例中的某些細節(jié)不應構成對本發(fā)明的限定,本發(fā)明將以所附權利要求書界定的范圍作為本發(fā)明的保護范圍。