,1表示含有對(duì) 應(yīng)的特征,〇表示不含有對(duì)應(yīng)的特征。
[0034] 具體的,所述序列間隔特征中,可將相應(yīng)的序列間隔特征000000000置0或置1來 表示該特征,0表示不在該區(qū)間,1表示在該區(qū)間。
[0035] 所述殘基類型特征中,20種氨基酸R基的極性性質(zhì)可分為酸性氨基酸(谷氨酸及 天冬氨酸)、堿性氨基酸(賴氨酸、精氨酸及組氨酸)和中性氨基酸,其中中性氨基酸又可分 為極性氨基酸(甘氨酸、絲氨酸、半胱氨酸、蘇氨酸、酪氨酸、天冬酰胺及谷氨酰胺)和非極 性氨基酸(丙氨酸、亮氨酸、異亮氨酸、苯丙氨酸、甲硫氨酸、色氨酸、纈氨酸及脯氨酸)。根 據(jù)這4種不同的氨基酸類型,一個(gè)殘基作用對(duì)(對(duì)應(yīng)兩個(gè)氨基酸)可以產(chǎn)生10種不同的組 合,以二進(jìn)制碼〇〇〇〇〇〇〇〇〇〇分別置0或置1來代表不同的組合類型,計(jì)為10個(gè)殘基類型特 征。
[0036] 所述a螺旋個(gè)數(shù)特征中,以二進(jìn)制向量0000置〇或置1來表示該特征,即〇表示 不在該區(qū)間,1表示在該區(qū)間。
[0037] 所述序列長(zhǎng)度特征中,以二進(jìn)制向量0000置0或置1來表示該特征,即0表示不 在該區(qū)間,1表示在該區(qū)間。
[0038] 本發(fā)明實(shí)施例使用隨機(jī)森林算法構(gòu)建預(yù)測(cè)模型,所述隨機(jī)森林算法使用R語言 中隨機(jī)森林(randomForest)算法程序包來實(shí)現(xiàn)。對(duì)所述隨機(jī)森林算法的參數(shù)進(jìn)行設(shè)置, 其中,隨機(jī)森林算法中決策樹的數(shù)量(ntree)設(shè)置為100,內(nèi)部節(jié)點(diǎn)隨機(jī)選擇屬性的個(gè)數(shù) (mtry)采用默認(rèn)值。
[0039] 上述步驟S03中,根據(jù)所述目標(biāo)a跨膜蛋白的一級(jí)結(jié)構(gòu),使用MEMSAT3軟件確定 所述a跨膜蛋白的二級(jí)結(jié)構(gòu)。將所述目標(biāo)a跨膜蛋白的一級(jí)結(jié)構(gòu)、二級(jí)結(jié)構(gòu)分別進(jìn)行輸 入,并獲取a螺旋中的殘基對(duì)特征信息,其中,所述PSSM特征信息調(diào)用PSI-BLAST軟件完 成。然后,將所述a跨膜蛋白螺旋上所有的殘基對(duì)分別按特征矩陣編號(hào)為相應(yīng)的行,將特 征信息構(gòu)建成特征矩陣相應(yīng)的列,形成特征矩陣。然后使用所述預(yù)測(cè)模型中生成的特征矩 陣中的各行所表示的殘基對(duì)進(jìn)行二分類,將符合預(yù)測(cè)模型中相互作用的殘基對(duì)信息的所 述殘基對(duì)作為一類,將符合預(yù)測(cè)模型中非相互作用的殘基對(duì)信息的所述殘基對(duì)作為另一 類。
[0040] 上述步驟S04中,所述預(yù)測(cè)結(jié)果經(jīng)預(yù)測(cè)模型進(jìn)行預(yù)測(cè)后,對(duì)所述目標(biāo)a跨膜蛋白 鏈中的各殘基對(duì)進(jìn)行二分類,并輸出相互作用的殘基對(duì),根據(jù)輸出的預(yù)測(cè)結(jié)果,從而判斷所 述殘基對(duì)所在的a螺旋的相互作用關(guān)系。
[0041] 對(duì)于一個(gè)一級(jí)結(jié)構(gòu)序列已知,但三維結(jié)構(gòu)序列未知的蛋白質(zhì),可靠的殘基作用關(guān) 系可以有效地提高a螺旋相互作用以及三維結(jié)構(gòu)等預(yù)測(cè)的效率和精度。本發(fā)明實(shí)施例提 供的基于隨機(jī)森林算法基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法,預(yù)測(cè) a螺旋上的殘基作用關(guān)系,繼而得到a螺旋_a螺旋相互作用關(guān)系。預(yù)測(cè)結(jié)果可直接用于 膜蛋白三維結(jié)構(gòu)預(yù)測(cè),并大大減少三維結(jié)構(gòu)預(yù)測(cè)中算法對(duì)蛋白質(zhì)構(gòu)象的搜索空間。
[0042] 本發(fā)明實(shí)施例中,所述a跨膜蛋白即指a螺旋跨膜蛋白,所述a跨膜蛋白的螺 旋即指a螺旋跨膜蛋白中的a螺旋;此外,所述英文縮寫及其意思表達(dá)如下:
[0043] :收錄蛋白質(zhì)和核算三維結(jié)構(gòu)資料的數(shù)據(jù)庫;
[0044] PDBTM:-個(gè)從PDB蛋白數(shù)據(jù)庫中選擇的跨膜蛋白數(shù)據(jù)庫;
[0045] PISCES:AProteinSequenceCullingServer服務(wù)器;
[0046] PSSM:位置特異性得分矩陣;
[0047] PSI-BLAST:NCBI上的對(duì)比搜索工具一蛋白質(zhì)的數(shù)據(jù)庫搜索程序;
[0048] MEMSAT3 :膜蛋白二級(jí)結(jié)構(gòu)和跨膜區(qū)域預(yù)測(cè)軟件。
[0049] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法,包括下述步驟: 收集具有確定三維結(jié)構(gòu)的a跨膜蛋白鏈構(gòu)建訓(xùn)練集; 基于所述的訓(xùn)練集,分別提取所述a跨膜蛋白鏈中螺旋上相互作用的殘基對(duì)和非相 互作用的殘基對(duì)特征信息,使用隨機(jī)森林算法構(gòu)建預(yù)測(cè)模型; 收集用于測(cè)試的、具有確定一級(jí)結(jié)構(gòu)的目標(biāo)a跨膜蛋白,提取其a螺旋中的殘基對(duì)特 征信息,基于所述預(yù)測(cè)模型進(jìn)行預(yù)測(cè); 根據(jù)預(yù)測(cè)結(jié)果判斷所述目標(biāo)a跨膜蛋白中的螺旋是否存在相互作用的殘基對(duì)。
2. 如權(quán)利要求1所述的基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法, 其特征在于,所述a跨膜蛋白鏈和所述a跨膜蛋白螺旋中的殘基對(duì)特征,包括下述六類特 征: (1) PSSM特征:PSSM中的每個(gè)殘基都由一個(gè)20維的向量表示,表示20種氨基酸在PSSM 相應(yīng)位置出現(xiàn)的頻率;PSSM特征分為兩類:第一類是以殘基對(duì)(i,j)中的殘基i和殘基j 分別為中心取一個(gè)大小為7的滑動(dòng)窗口,即對(duì)每個(gè)殘基對(duì)可得到2X7X20 = 280個(gè)PSSM 特征;第二類是以殘基對(duì)(i,j)的中間位置(i+j)/2為中心取一個(gè)大小為3的滑動(dòng)窗口,即 可獲得3X20 = 60個(gè)PSSM特征,兩類PSSM特征的總數(shù)為280+60 = 340個(gè); (2) 殘基在a螺旋中相對(duì)距離特征:假設(shè)p為殘基對(duì)中的一個(gè)殘基在長(zhǎng)度為1的螺旋 上的相對(duì)位置,那么殘基在a螺旋中相對(duì)距離特征就定義為p/1,對(duì)于每個(gè)殘基對(duì)可以提 取2個(gè)該特征; (3) 序列間隔特征:根據(jù)a跨膜蛋白中a螺旋一級(jí)序列中氨基酸個(gè)數(shù),將其劃分為九 個(gè)區(qū)間,即< 25、25-50、50-75、75-100、100-125、125-150、150-175、175-200 和> 200,分析 殘基對(duì)在的位置間隔分別位于哪個(gè)區(qū)間,形成序列間隔特征,對(duì)于每個(gè)殘基對(duì)而言,序列間 隔特征共9個(gè); (4) 殘基類型特征:組成蛋白質(zhì)的氨基酸共20種,根據(jù)氨基酸R基的極性性質(zhì)可分為 酸性氨基酸、堿性氨基酸和中性氨基酸,其中,中性氨基酸又可分為極性氨基酸和非極性氨 基酸,根據(jù)這4種不同的氨基酸類型,一個(gè)殘基作用對(duì)對(duì)應(yīng)兩個(gè)氨基酸,可以產(chǎn)生10種不同 的組合計(jì)為10個(gè)殘基類型特征; (5) a螺旋個(gè)數(shù)特征:根據(jù)a跨膜蛋白中所包含的a螺旋個(gè)數(shù),可分為2-4、5-7、8_1、 > 10這4個(gè)區(qū)間,每個(gè)殘基對(duì)特征向量包含4個(gè)該類特征; (6) 序列長(zhǎng)度特征:根據(jù)a跨膜蛋白中一級(jí)序列的長(zhǎng)度,可分為〈100、100_400、 400-800、> 800這4個(gè)區(qū)間,每個(gè)殘基對(duì)特征向量包含4個(gè)該類特征。
3. 如權(quán)利要求1所述的基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法,其 特征在于,所述訓(xùn)練集中,所述相互作用的殘基對(duì)和非相互作用的殘基對(duì)的數(shù)量比為1 :6。
4. 如權(quán)利要求1所述的基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法,其 特征在于,所述使用訓(xùn)練集構(gòu)建預(yù)測(cè)模型的步驟中,對(duì)所述隨機(jī)森林算法的參數(shù)進(jìn)行設(shè)置, 其中,決策樹的數(shù)量設(shè)置為1〇〇。
5. 如權(quán)利要求1所述的基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法,其 特征在于,所述使用預(yù)測(cè)模型對(duì)目標(biāo)a跨膜蛋白進(jìn)行預(yù)測(cè)的步驟中,由所述目標(biāo)a跨膜蛋 白的一級(jí)結(jié)構(gòu)使用軟件獲取其二級(jí)結(jié)構(gòu),將所述目標(biāo)a跨膜蛋白的一級(jí)結(jié)構(gòu)、二級(jí)結(jié)構(gòu)分 別進(jìn)行輸入,并獲取a螺旋中的殘基對(duì)特征信息后,將所述a跨膜蛋白螺旋上所有的殘基 對(duì)分別按特征矩陣編號(hào)為相應(yīng)的行,將特征信息構(gòu)建成特征矩陣相應(yīng)的列,形成特征矩陣; 然后使用所述預(yù)測(cè)模型中生成的特征矩陣中的各行所表示的殘基對(duì)進(jìn)行二分類,將符合預(yù) 測(cè)模型中相互作用的殘基對(duì)信息的所述殘基對(duì)作為一類,將符合預(yù)測(cè)模型中非相互作用的 殘基對(duì)信息的所述殘基對(duì)作為另一類。
6. 如權(quán)利要求1所述的基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法,其 特征在于,所述構(gòu)建訓(xùn)練集的步驟中,選取TOBTM中,a跨膜蛋白中a螺旋個(gè)數(shù)在2以上、 序列相似度小于35%、分辨率小于3. 0、且已于2012年或之前三維結(jié)構(gòu)得到確認(rèn)的95個(gè)a 跨膜蛋白作為訓(xùn)練集。
7. 如權(quán)利要求1所述的基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法, 其特征在于,所述構(gòu)建預(yù)測(cè)模型的步驟中,根據(jù)所述目標(biāo)a跨膜蛋白的一級(jí)結(jié)構(gòu),使用 MEMSAT3確定所述a跨膜蛋白的二級(jí)結(jié)構(gòu)。
8. 如權(quán)利要求2所述的基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法,其 特征在于,所述構(gòu)建預(yù)測(cè)模型的步驟中,將所述a跨膜蛋白鏈中螺旋上相互作用的殘基對(duì) 和非相互作用的殘基對(duì)的序列間隔特征、殘基類型特征、a螺旋個(gè)數(shù)特征、序列長(zhǎng)度特征以 二進(jìn)制碼分別設(shè)置〇或1,其中,1表示含有對(duì)應(yīng)的特征,〇表示不含有對(duì)應(yīng)的特征。
9. 如權(quán)利要求2所述的基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法,其 特征在于,所述PSSM特征是通過運(yùn)行PSI-BLAST程序獲得,運(yùn)行所述PSI-BLAST程序時(shí)采 用的數(shù)據(jù)庫為UNIREF90數(shù)據(jù)庫。
10. 如權(quán)利要求1所述的基于隨機(jī)森林預(yù)測(cè)a跨膜蛋白的螺旋相互作用關(guān)系的方法, 其特征在于,所述預(yù)測(cè)結(jié)果經(jīng)預(yù)測(cè)模型進(jìn)行預(yù)測(cè)后,對(duì)所述目標(biāo)a跨膜蛋白鏈中螺旋上的 各殘基對(duì)進(jìn)行二分類,并輸出相互作用的殘基對(duì),從而判斷所述殘基對(duì)所在的a螺旋的相 互作用關(guān)系。
【專利摘要】本發(fā)明適用于生物計(jì)算領(lǐng)域,提供了一種基于隨機(jī)森林預(yù)測(cè)α跨膜蛋白的螺旋相互作用關(guān)系的方法。該方法包括下述步驟:收集具有確定三維結(jié)構(gòu)的α跨膜蛋白鏈構(gòu)建訓(xùn)練集;基于所述的訓(xùn)練集,分別提取所述α跨膜蛋白鏈中螺旋上相互作用的殘基對(duì)和非相互作用的殘基對(duì)特征信息,使用隨機(jī)森林算法構(gòu)建預(yù)測(cè)模型;收集用于測(cè)試的、具有確定一級(jí)結(jié)構(gòu)的目標(biāo)α跨膜蛋白,提取其α螺旋中的殘基對(duì)特征信息,基于所述預(yù)測(cè)模型進(jìn)行預(yù)測(cè);根據(jù)預(yù)測(cè)結(jié)果判斷所述目標(biāo)α跨膜蛋白中的螺旋對(duì)是否存在相互作用的殘基對(duì)。該方法不僅計(jì)算速度快,且準(zhǔn)確率高。
【IPC分類】G06F19-18
【公開號(hào)】CN104615910
【申請(qǐng)?zhí)枴緾N201410842077
【發(fā)明人】張慧玲, 貝振東, 魏彥杰
【申請(qǐng)人】中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院
【公開日】2015年5月13日
【申請(qǐng)日】2014年12月30日