亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種人類蛋白質(zhì)亞細胞位置預測方法與流程

文檔序號:12467403閱讀:來源:國知局

技術(shù)特征:

1.一種人類蛋白質(zhì)亞細胞位置預測方法,基于人類蛋白質(zhì)序列預測蛋白質(zhì)亞細胞位置,其特征在于,包括以下步驟:

第一步:利用人類蛋白質(zhì)序列信息分別提取序列全長,序列N端,C端多個蛋白質(zhì)序列片段的殘基統(tǒng)計特征,其中包括氨基酸組成成分特征和利用蛋白質(zhì)同源信息所獲得的特異性打分矩陣特征并對該特征進行歸一化處理,在綜合這兩個特征之后使用Correlation-based Feature Selection這種有監(jiān)督的特征選擇算法進行降維;

第二步:通過提取蛋白質(zhì)數(shù)據(jù)庫中所有人類蛋白質(zhì)的GO特征,利用GOSSTO獲取GO(BP,MF,CC)特征空間三個相似度矩陣;

第三步:通過blast方法在Swiss-Prot數(shù)據(jù)庫中搜索同源蛋白,提取所述同源蛋白的GO特征,同時用相同的方法獲取訓練集中蛋白質(zhì)的GO特征;

第四步:將蛋白質(zhì)GO特征的三個部分(BP,MF,CC)通過一元組,二元組,三元組劃分為7個部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);

第五步:通過蛋白質(zhì)GO特征的相關(guān)性,分成七個部分來計算兩個蛋白質(zhì)的相關(guān)性,并通過參數(shù)優(yōu)化,提取訓練集中十個相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個亞細胞位置上的概率值;

第六步:通過rps-blast來獲得Swiss-Prot數(shù)據(jù)庫中所有人類蛋白質(zhì)的保守域特征,并通過信息差計算特征之間的相關(guān)性,得到保守域特征相似度矩陣,然后通過rps-blast來獲得目標蛋白質(zhì)的保守域特征來計算兩個蛋白質(zhì)的相關(guān)性,并通過參數(shù)優(yōu)化,提取訓練集中十個相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個亞細胞位置上的概率值;

第七步:融合所獲得的序列特征,GO七個部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建可以預測中心體,細胞質(zhì),細胞骨架,內(nèi)質(zhì)網(wǎng),內(nèi)體,分泌途徑,高爾基體,溶酶體,線粒體,細胞核,過氧化物酶體和細胞膜這12個亞細胞位置的SVM分類器。

2.一種人類蛋白質(zhì)亞細胞位置預測方法,基于人類蛋白質(zhì)序列預測蛋白質(zhì)亞細胞位置,其特征在于,包括以下步驟:

S101,利用人類蛋白質(zhì)序列信息分別提取序列全長,N端前10到60,C端前10到100長度蛋白質(zhì)序列片段的氨基酸組成成分特征,歸一化后的PSSM矩陣特征,并使用CFS降維,其中PSSM矩陣歸一化并在每部分轉(zhuǎn)化為20維特征的公式為:

其中Si,j表示出現(xiàn)在序列的第i個(1≤i≤L)位置上的氨基酸在進化過程中演變成第j種(1≤j≤20)氨基酸的概率評分,L表示蛋白質(zhì)序列的長度,

<mrow> <msubsup> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mn>0</mn> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mrow> <msqrt> <mrow> <mfrac> <mn>1</mn> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

S0i,j表示了歸一化后這個特異性打分矩陣的分數(shù),N表示了氨基酸的數(shù)目,在公式(2)中N=20,

<mrow> <mover> <msubsup> <mi>S</mi> <mi>j</mi> <mn>0</mn> </msubsup> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mn>1</mn> <mi>L</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <msubsup> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mn>0</mn> </msubsup> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中表示的是對每列分數(shù)進行相加并求取平均后的值;

<mrow> <mover> <msub> <mi>S</mi> <mrow> <mi>P</mi> <mi>S</mi> <mi>S</mi> <mi>M</mi> </mrow> </msub> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mo>&lsqb;</mo> <mover> <msubsup> <mi>S</mi> <mn>1</mn> <mn>0</mn> </msubsup> <mo>&OverBar;</mo> </mover> <mo>,</mo> <mover> <msubsup> <mi>S</mi> <mn>2</mn> <mn>0</mn> </msubsup> <mo>&OverBar;</mo> </mover> <mo>,</mo> <mover> <msubsup> <mi>S</mi> <mn>3</mn> <mn>0</mn> </msubsup> <mo>&OverBar;</mo> </mover> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mover> <msubsup> <mi>S</mi> <mn>20</mn> <mn>0</mn> </msubsup> <mo>&OverBar;</mo> </mover> <mo>&rsqb;</mo> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

就是經(jīng)過歸一化處理后的PSSM矩陣特征;

S102,通過提取Swiss-Prot數(shù)據(jù)庫中所有人類蛋白質(zhì)的GO特征,利用GOSSTO獲取GO(BP,MF,CC)特征空間三個相似度矩陣;

S103,通過blast方法在Swiss-Prot數(shù)據(jù)庫中搜索同源蛋白,提取他們的GO特征,同時用相同的方法獲取訓練集中蛋白質(zhì)的GO特征;

S104,將蛋白質(zhì)GO特征的三個部分(BP,MF,CC)通過一元組,二元組,三元組劃分為7個部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);

S105,通過蛋白質(zhì)GO特征的相關(guān)性,分成七個部分來計算兩個蛋白質(zhì)的相關(guān)性:

<mrow> <mi>C</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>K</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>i</mi> <mo>&le;</mo> <mi>m</mi> </mrow> </munder> <mi>C</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中Cor(xi,K)代表了xi所代表的GO注釋特征與第K個蛋白質(zhì)在這個部分下的相關(guān)性,

<mrow> <msub> <mi>Sim</mi> <mi>k</mi> </msub> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>C</mi> <mi>o</mi> <mi>r</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>K</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

其中Simk表示訓練集中第K個蛋白質(zhì)與我們所預測的蛋白質(zhì)之間的相關(guān)性,

在得到所有訓練集中蛋白質(zhì)與所預測的蛋白質(zhì)之間的相關(guān)性之后,提取訓練集中十個相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個亞細胞位置上的概率值:

<mrow> <msub> <mi>pro</mi> <mi>a</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <msub> <mi>I</mi> <msub> <mi>N</mi> <mi>a</mi> </msub> </msub> </mrow> </msub> <msub> <mi>sim</mi> <mi>j</mi> </msub> <mo>+</mo> <mfrac> <mrow> <msub> <mi>num</mi> <mi>a</mi> </msub> </mrow> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow> </mfrac> </mrow> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <msub> <mi>I</mi> <mi>N</mi> </msub> </mrow> </msub> <msub> <mi>sim</mi> <mi>i</mi> </msub> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中numa和num分別表示在訓練集中,蛋白質(zhì)處于第a個亞細胞位置的個數(shù)和訓練集中蛋白質(zhì)的總個數(shù)。而proa則表示所預測的蛋白質(zhì)處在第a個亞細胞位置的概率。

S106,通過rps-blast來獲得Swiss-Prot數(shù)據(jù)庫中所有人類蛋白質(zhì)的保守域特征,并通過信息差計算特征之間的相關(guān)性:

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mrow> <mi>c</mi> <mi>d</mi> <mi>d</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mrow> <mi>c</mi> <mi>d</mi> <mi>d</mi> </mrow> </msubsup> <mo>=</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mrow> <mi>c</mi> <mi>d</mi> <mi>d</mi> </mrow> </msubsup> <mo>=</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mi>c</mi> <mi>d</mi> <mi>d</mi> </mrow> </msubsup> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>H</mi> <mo>(</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mrow> <mi>c</mi> <mi>d</mi> <mi>d</mi> </mrow> </msubsup> <mo>)</mo> <mo>+</mo> <mi>H</mi> <mo>(</mo> <msubsup> <mi>f</mi> <mi>j</mi> <mrow> <mi>c</mi> <mi>d</mi> <mi>d</mi> </mrow> </msubsup> <mo>)</mo> <mo>-</mo> <mi>H</mi> <mo>(</mo> <mrow> <msubsup> <mi>f</mi> <mi>i</mi> <mrow> <mi>c</mi> <mi>d</mi> <mi>d</mi> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>f</mi> <mi>j</mi> <mrow> <mi>c</mi> <mi>d</mi> <mi>d</mi> </mrow> </msubsup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>H</mi> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mrow> <mi>c</mi> <mi>d</mi> <mi>d</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <mi>H</mi> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>j</mi> <mrow> <mi>c</mi> <mi>d</mi> <mi>d</mi> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

其中H(ficdd)表示第i個CDD特征的熵,p(ficdd=1)表示第i個CDD特征存在于蛋白質(zhì)訓練集中的概率。H(fjcdd,ficdd)表示第i個特征和第j個特征他們的微分熵,Si,jcdd代表了第i個CDD特征與第j個CDD特征之間的相關(guān)性,

得到保守域特征相似度矩陣,然后通過rps-blast來獲得目標蛋白質(zhì)的保守域特征來計算兩個蛋白質(zhì)的相關(guān)性,并提取訓練集中十個相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個亞細胞位置上的概率值;

S107,融合所獲得的序列特征,GO七個部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建12個SVM分類器預測蛋白質(zhì)的亞細胞位置,和在每個亞細胞位置上的概率。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1