本發(fā)明涉及一種生物學(xué)信息學(xué)、智能優(yōu)化、計(jì)算機(jī)應(yīng)用領(lǐng)域,尤其涉及的是一種多域蛋白模板無(wú)縫比對(duì)方法。
背景技術(shù):
一個(gè)蛋白可能包含一個(gè)結(jié)構(gòu)域和多個(gè)結(jié)構(gòu)域,僅包含一個(gè)結(jié)構(gòu)域的蛋白成為單域蛋白,包含兩個(gè)以上結(jié)構(gòu)域的蛋白稱為多域蛋白。多域蛋白的三維結(jié)構(gòu)預(yù)測(cè)是了解全長(zhǎng)蛋白功能的重要步驟,由于多域蛋白一般比單域蛋白規(guī)模更大,從而增加了多域蛋白結(jié)構(gòu)預(yù)測(cè)的難度。目前,最常用的多域蛋白結(jié)構(gòu)預(yù)測(cè)方法都是同多域蛋白中的單域結(jié)構(gòu)出發(fā),通過對(duì)域和域之間的連接區(qū)域進(jìn)行采樣或者域和域結(jié)構(gòu)的剛性對(duì)接來預(yù)測(cè)多域蛋白的三維結(jié)構(gòu)。
從目前的研究結(jié)果可以看出,在基于模板的多域蛋白結(jié)構(gòu)預(yù)測(cè)方法中,由于模板可以提供域和域之間的方向信息,因此預(yù)測(cè)精度較高?;谀0宓念A(yù)測(cè)方法通常包括模板搜索、模板比對(duì)以及組裝構(gòu)象的采樣等步驟,其中,模板比對(duì)的質(zhì)量直接決定著最后的預(yù)測(cè)精度。如果模板比對(duì)不精確,即使找到很優(yōu)秀的模板,也無(wú)法預(yù)測(cè)得到精度較高的結(jié)構(gòu)。由于多域蛋白由多個(gè)單域蛋白組成,而且各單域蛋白之間的連接對(duì)應(yīng)到模板上連接的長(zhǎng)度無(wú)法提前知道,因此無(wú)法采用單域蛋白的比對(duì)方法進(jìn)行比對(duì)。
目前,常用的多域蛋白比對(duì)方法以穿線比對(duì)方法為主,然而穿線比對(duì)是從蛋白的整條序列出發(fā),在比對(duì)過程中無(wú)法通過調(diào)整域和域之間連接長(zhǎng)度使得比對(duì)達(dá)到最佳,從而使得與查詢蛋白結(jié)構(gòu)相似但連接長(zhǎng)度不同的模板無(wú)法比對(duì)到最佳位置,從而影響比對(duì)精度。
因此,現(xiàn)有的多域蛋白模板比對(duì)方法在比對(duì)精度上存在缺陷,需要改進(jìn)。
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有的多域蛋白比對(duì)方法在比對(duì)精度方面的不足,本發(fā)明提供一種比對(duì)精度較高、效率較高的多域蛋白模板無(wú)縫比對(duì)方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種多域蛋白模板無(wú)縫比對(duì)方法,所述方法包括以下步驟:
1)參數(shù)初始化:設(shè)置相鄰域之間的最大允許間隙mgap,模板左邊的最大允許空白lgap,模板右邊的最大允許空白rgap;
2)輸入查詢蛋白的各單域三維結(jié)構(gòu)以及需要比對(duì)的模板;
3)在模板左邊加上長(zhǎng)度為lgap的空白序列,并在模板右邊加上長(zhǎng)度為rgap的空白序列;
4)從模板的第一個(gè)空白位置開始,根據(jù)蛋白質(zhì)模板比對(duì)工具tm-align搜索第一個(gè)單域的最佳比對(duì)位置,并記錄最后一個(gè)序列的比對(duì)位置;
5)從第一個(gè)單域蛋白的最后一個(gè)比對(duì)位置后的第一個(gè)位置開始,根據(jù)tm-align搜索第二個(gè)單域的最佳比對(duì)位置,并記錄最后一個(gè)序列的比對(duì)位置;
6)若第二個(gè)單域蛋白和第一個(gè)單域蛋白的比對(duì)部分之間的間隙大于mgap,則繼續(xù)步驟7);
7)無(wú)縫滑動(dòng)比對(duì),過程如下:
7.1)從第一個(gè)單域蛋白的最后一個(gè)比對(duì)位置后的第一個(gè)位置開始,將第二個(gè)單域蛋白比對(duì)到模板上,采用tm-align計(jì)算第二個(gè)單域蛋白和模板之間的比對(duì)得分;
7.2)將第二個(gè)單域蛋白向右滑動(dòng)一個(gè)序列位置,并重新采用tm-align計(jì)算第二個(gè)單域蛋白和模板之間的比對(duì)得分;
7.3)繼續(xù)滑動(dòng),直到第一個(gè)域和第二個(gè)域蛋白之間的間隙達(dá)到mgap為止,每次滑動(dòng)一個(gè)位置,并重新采用tm-align計(jì)算第二個(gè)單域蛋白和模板之間的比對(duì)得分;
7.4)取滑動(dòng)過程中第二個(gè)單域蛋白和模板之間的得分最高的比對(duì)為第二個(gè)蛋白的最佳比對(duì);
8)按照步驟4)-7)搜索其它單域蛋白的最佳比對(duì)位置,每次搜索一個(gè)單域蛋白,直到所有單域蛋白的最佳比對(duì)位置都搜索到為止;
9)以步驟8)中各單域蛋白的比對(duì)為當(dāng)前查詢蛋白和模板蛋白之間的最佳比對(duì)。
本發(fā)明的技術(shù)構(gòu)思為:從各單域蛋白的三維結(jié)構(gòu)出發(fā),首先,對(duì)模板的兩端加上允許長(zhǎng)度的空白序列;然后,采用蛋白質(zhì)模板比對(duì)工具tm-align搜索第一個(gè)單域蛋白在模板上的最佳比對(duì)位置,并從最后一個(gè)比對(duì)位置后的模板中搜索第二個(gè)單域蛋白的最佳比對(duì)位置,如果兩者比對(duì)部分之間的間隙大于最大允許值,則采用無(wú)縫滑動(dòng)窗口的方法搜索第二個(gè)單域蛋白的最佳比對(duì)位置,當(dāng)?shù)诙€(gè)單域蛋白的最佳比對(duì)位置確定后,繼續(xù)采用同樣的方法搜索第三個(gè)單域蛋白的最佳比對(duì)位置,以此類推,直到所有單域蛋白的最佳比對(duì)位置被確定為止;最后,以各單域蛋白的最佳比對(duì)位置為當(dāng)前查詢蛋白與目標(biāo)之間的最佳比對(duì)。
本發(fā)明的有益效果表現(xiàn)在:采用蛋白質(zhì)模板比對(duì)工具tm-align和無(wú)縫滑動(dòng)窗口結(jié)合的方法搜索各單域蛋白的最佳比對(duì)位置,以獲得整個(gè)多域蛋白的最佳比對(duì)位置,可以提高比對(duì)精度和效率。
附圖說明
圖1是多域蛋白模板無(wú)縫比對(duì)方法的無(wú)縫滑動(dòng)窗口搜索示意圖。
圖2是實(shí)施例的多域蛋白質(zhì)與模板蛋白3rgfb之間的比對(duì)結(jié)果示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步描述。
參照?qǐng)D1,一種多域蛋白模板無(wú)縫比對(duì)方法,包括以下步驟:
1)參數(shù)初始化:設(shè)置相鄰域之間的最大允許間隙mgap,模板左邊的最大允許空白lgap,模板右邊的最大允許空白rgap;
2)輸入查詢蛋白的各單域三維結(jié)構(gòu)以及需要比對(duì)的模板;
3)在模板左邊加上長(zhǎng)度為lgap的空白序列,并在模板右邊加上長(zhǎng)度為rgap的空白序列;
4)從模板的第一個(gè)空白位置開始,根據(jù)蛋白質(zhì)模板比對(duì)工具tm-align搜索第一個(gè)單域的最佳比對(duì)位置,并記錄最后一個(gè)序列的比對(duì)位置;
5)從第一個(gè)單域蛋白的最后一個(gè)比對(duì)位置后的第一個(gè)位置開始,根據(jù)tm-align搜索第二個(gè)單域的最佳比對(duì)位置,并記錄最后一個(gè)序列的比對(duì)位置;
6)若第二個(gè)單域蛋白和第一個(gè)單域蛋白的比對(duì)部分之間的間隙大于mgap,則繼續(xù)步驟7);
7)無(wú)縫滑動(dòng)比對(duì),過程如下:
7.1)從第一個(gè)單域蛋白的最后一個(gè)比對(duì)位置后的第一個(gè)位置開始,將第二個(gè)單域蛋白比對(duì)到模板上,采用tm-align計(jì)算第二個(gè)單域蛋白和模板之間的比對(duì)得分;
7.2)將第二個(gè)單域蛋白向右滑動(dòng)一個(gè)序列位置,并重新采用tm-align計(jì)算第二個(gè)單域蛋白和模板之間的比對(duì)得分;
7.3)繼續(xù)滑動(dòng),直到第一個(gè)域和第二個(gè)域蛋白之間的間隙達(dá)到mgap為止,每次滑動(dòng)一個(gè)位置,并重新采用tm-align計(jì)算第二個(gè)單域蛋白和模板之間的比對(duì)得分;
7.4)取滑動(dòng)過程中第二個(gè)單域蛋白和模板之間的得分最高的比對(duì)為第二個(gè)蛋白的最佳比對(duì);
8)按照步驟4)-7)搜索其它單域蛋白的最佳比對(duì)位置,每次搜索一個(gè)單域蛋白,直到所有單域蛋白的最佳比對(duì)位置都搜索到為止;
9)以步驟8)中各單域蛋白的比對(duì)為當(dāng)前查詢蛋白和模板蛋白之間的最佳比對(duì)。
本實(shí)施例序列長(zhǎng)度為254的多域蛋白質(zhì)2i53a為實(shí)施例,一種多域蛋白模板無(wú)縫比對(duì)方法,包括以下步驟:
1)參數(shù)初始化:設(shè)置相鄰域之間的最大允許間隙mgap=5,模板左邊的最大允許空白lgap=20,模板右邊的最大允許空白rgap=20;
2)輸入查詢蛋白的各單域三維結(jié)構(gòu)以及需要比對(duì)的模板;
3)在模板左邊加上長(zhǎng)度為lgap的空白序列,并在模板右邊加上長(zhǎng)度為rgap的空白序列;
4)從模板的第一個(gè)空白位置開始,根據(jù)蛋白質(zhì)模板比對(duì)工具tm-align搜索第一個(gè)單域的最佳比對(duì)位置,并記錄最后一個(gè)序列的比對(duì)位置;
5)從第一個(gè)單域蛋白的最后一個(gè)比對(duì)位置后的第一個(gè)位置開始,根據(jù)tm-align搜索第二個(gè)單域的最佳比對(duì)位置,并記錄最后一個(gè)序列的比對(duì)位置;
6)若第二個(gè)單域蛋白和第一個(gè)單域蛋白的比對(duì)部分之間的間隙大于mgap,則繼續(xù)步驟7);
7)無(wú)縫滑動(dòng)比對(duì),過程如下:
7.1)從第一個(gè)單域蛋白的最后一個(gè)比對(duì)位置后的第一個(gè)位置開始,將第二個(gè)單域蛋白比對(duì)到模板上,采用tm-align計(jì)算第二個(gè)單域蛋白和模板之間的比對(duì)得分;
7.2)將第二個(gè)單域蛋白向右滑動(dòng)一個(gè)序列位置,并重新采用tm-align計(jì)算第二個(gè)單域蛋白和模板之間的比對(duì)得分;
7.3)繼續(xù)滑動(dòng),直到第一個(gè)域和第二個(gè)域蛋白之間的間隙達(dá)到mgap為止,每次滑動(dòng)一個(gè)位置,并重新采用tm-align計(jì)算第二個(gè)單域蛋白和模板之間的比對(duì)得分;
7.4)取滑動(dòng)過程中第二個(gè)單域蛋白和模板之間的得分最高的比對(duì)為第二個(gè)蛋白的最佳比對(duì);
8)按照步驟4)-7)搜索其它單域蛋白的最佳比對(duì)位置,每次搜索一個(gè)單域蛋白,直到所有單域蛋白的最佳比對(duì)位置都搜索到為止;
9)以步驟8)中各單域蛋白的比對(duì)為當(dāng)前查詢蛋白和模板蛋白之間的最佳比對(duì)。
以序列長(zhǎng)度為254的包含兩個(gè)域的多域蛋白質(zhì)2i53a為實(shí)施例,運(yùn)用以上方法組裝得到了該多域蛋白質(zhì)與模板蛋白3rgfb之間的比對(duì)結(jié)果,如圖2所示,兩者之間的總模板比對(duì)得分為0.80。
以上說明是本發(fā)明以2i53a蛋白質(zhì)為實(shí)例所得出的模板比對(duì)效果,并非限定本發(fā)明的實(shí)施范圍,在不偏離本發(fā)明基本內(nèi)容所涉及范圍的的前提下對(duì)其做各種變形和改進(jìn),不應(yīng)排除在本發(fā)明的保護(hù)范圍之外。