一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法及其系統(tǒng)的制作方法

文檔序號(hào)：6336000閱讀：272來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱：一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及蛋白質(zhì)鑒定技術(shù)，特別是涉及一種用后綴數(shù)組(SA，SuffixArray)加速大規(guī)模蛋白質(zhì)鑒定的方法及其系統(tǒng)。
背景技術(shù)：
基于串聯(lián)質(zhì)譜的蛋白質(zhì)鑒定已經(jīng)成為蛋白質(zhì)組學(xué)的主流技術(shù)，參考文獻(xiàn)1 《Aebersold，R. and Mann, Μ. Mass spectrometry-based proteomics，Nature，2003，422 198-207》中有較為詳細(xì)的說(shuō)明。而數(shù)據(jù)庫(kù)搜索已經(jīng)成為鑒定串聯(lián)質(zhì)譜數(shù)據(jù)的主流技術(shù)，參考文獻(xiàn) 2《Eng, J. K. , McCormack, A. L. and Yates, J. R. An approachto correlate tandem mass spectral data of peptides with amino acid sequences in 已protein database. J Am Soc Mass Spectrom, 1994,5 :976_989》；# # t ■ 3 《Perkins， D. N. ， Pappin, D. J. , Creasy, D. M. and Cottrel1, J. S. Probability-basedprotein identification by searching sequence databases using mass spectrometrydata. Electrophoresis, 1999,20 :3551-3567》；參考文獻(xiàn) 4《Field，H. I.，F(xiàn)enyo, D. andBeavis, R. C. RADARS, a bioinformatics solution that automates proteome massspectral analysis, optimises protein identification, and archives data in a relationaldatabase. Proteomics, 2002, 2 :36-47))有較為詳細(xì)的說(shuō)明。數(shù)據(jù)庫(kù)搜索技術(shù)的基本步驟如下將數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列按照生物學(xué)的酶切規(guī)則模擬酶切為許多較短的序列(稱為肽)，并且計(jì)算出肽的質(zhì)量。鑒定時(shí)，設(shè)定一個(gè)質(zhì)量誤差范圍，串聯(lián)質(zhì)譜(簡(jiǎn)稱為譜)與這個(gè)質(zhì)量誤差范圍之內(nèi)的肽，都進(jìn)行匹配打分。對(duì)每個(gè)譜，選取得分最高的肽，再根據(jù)一定的規(guī)則評(píng)價(jià)這個(gè)肽的正確性。如果正確，再根據(jù)肽找到相應(yīng)的蛋白質(zhì)。在數(shù)據(jù)庫(kù)中，20種氨基酸分別由20種英文字母表示。蛋白質(zhì)序列是由氨基酸序列組成，在數(shù)據(jù)庫(kù)中表示為英文字母序列，如“MLPYMDQVLRAFYQSTK”這樣的序列。所謂酶切則是將比較長(zhǎng)的蛋白質(zhì)序列切成較短的序列(稱為肽)，這樣才能讓質(zhì)譜儀檢測(cè)到。酶切又分為不同的情況，如非特異性酶切，只要求肽的長(zhǎng)度和質(zhì)量在一定范圍之內(nèi)，蛋白質(zhì)序列的任何一段都是合法的肽。而特異性酶切，則對(duì)肽的兩端或前后有一定的限制，如C端的 Trypsin酶切，肽序列只有它N端(在序列中為左端)前一個(gè)字母為‘K’或‘R’，并且C端 (在序列中為右端)的第一個(gè)字母也為‘K’或‘R’時(shí)，這個(gè)肽才是合法的肽，如蛋白質(zhì)序列 “MLPYMDQVLRAFYQSTK”中。對(duì)N端的Trypsin酶切，肽序列只有它N端第一個(gè)字母為‘K’或 ‘R’，并且C端的后一個(gè)字母也為‘K’或‘R’時(shí)，這個(gè)肽才是合法的肽。非特異酶切介于特異與半特異之間，它對(duì)肽的一端有限制，而另一端沒(méi)有限制。目前，影響這種蛋白質(zhì)數(shù)據(jù)庫(kù)搜索進(jìn)一步發(fā)展的主要問(wèn)題之一就是速度問(wèn)題，因?yàn)閿?shù)據(jù)庫(kù)在不斷增大，半特異，非特異酶切，翻譯后修飾導(dǎo)致候選肽急劇增加。為了提高速度，大部分引擎和軟件都通過(guò)重組數(shù)據(jù)庫(kù)來(lái)提高速度。因?yàn)樵诘鞍踪|(zhì)酶切到肽段的過(guò)程中，產(chǎn)生了許多冗余肽。在較大的數(shù)據(jù)庫(kù)中，如IPI-Human，肽的冗余比甚至達(dá)到了 50%。同時(shí)，隨著數(shù)據(jù)庫(kù)的不斷增大，快速?gòu)牡鞍踪|(zhì)數(shù)據(jù)庫(kù)中提取肽段，也成為提高速度的一個(gè)方式。許多搜索引擎都采用了重組數(shù)據(jù)庫(kù)的方法來(lái)提高鑒定速度，在這其中，應(yīng)用最為廣泛的是倒排索引。但是，倒排索引消耗了太多的時(shí)間和空間來(lái)創(chuàng)建索引，同時(shí)，索引的在線使用也不方便。本發(fā)明提出了一種使用后綴數(shù)組來(lái)重組蛋白質(zhì)序列數(shù)據(jù)庫(kù)的方法，以達(dá)到去掉冗余的肽和快速查詢的目的，從而提高蛋白質(zhì)的鑒定。同時(shí)，這種方法所需要的時(shí)間和空間都很少，并且使用比較方便。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法及其系統(tǒng)，用于解決目前大規(guī)模蛋白質(zhì)鑒定中基于串聯(lián)質(zhì)譜的數(shù)據(jù)庫(kù)搜索速度過(guò)慢，以及廣泛應(yīng)用的倒排索引創(chuàng)建需要的時(shí)間和空間太大并且使用不方便的問(wèn)題。為了實(shí)現(xiàn)上述目的，本發(fā)明提供一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其特征在于，包括步驟1，根據(jù)數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組，并根據(jù)所述后綴數(shù)組推斷與所述蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴；步驟2，基于最長(zhǎng)公共前綴和酶切規(guī)則，對(duì)所述蛋白質(zhì)序列進(jìn)行在線酶切，得到非冗余肽；步驟3，根據(jù)串聯(lián)質(zhì)譜、所述非冗余肽進(jìn)行肽譜匹配鑒定，并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其中，所述步驟1中，還包括根據(jù)酶切的類(lèi)型確定是否需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整，當(dāng)酶切的類(lèi)型為特異性酶切時(shí)，則需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其中，所述步驟1中，還包括將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值，并把符合特異性酶切規(guī)則的后綴作為特殊后綴。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其中，所述步驟1中，當(dāng)酶切的類(lèi)型為C端特異性Trypsin酶切時(shí)，還包括當(dāng)所述后綴的前一個(gè)字符是K或R，或所述后綴為蛋白質(zhì)序列本身時(shí)，所述后綴為特殊后綴，將所述后綴間的最長(zhǎng)公共前綴的值調(diào)整為特殊后綴間的最長(zhǎng)公共前綴的值。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其中，對(duì)每一個(gè)所述后綴數(shù)組的后綴，將所述最長(zhǎng)公共前綴的值調(diào)整為所述特殊后綴之間最長(zhǎng)公共前綴的值。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其中，所述步驟2中，當(dāng)酶切的類(lèi)型為N端特異性Trypsin酶切時(shí)，還包括反轉(zhuǎn)所述蛋白質(zhì)序列，按照C端特異性酶切的方式產(chǎn)生合法的子串，再反轉(zhuǎn)該子串得到合法的肽。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其中，
所述步驟1中，當(dāng)酶切的類(lèi)型為非特異性酶切時(shí)，還包括對(duì)于每一個(gè)i e
的部分前綴作為整個(gè)輸入的字符串的子串，該部分前綴是從長(zhǎng)度區(qū)間為(LCP[i]+l)到整個(gè)后綴Suffix[i]長(zhǎng)度的前綴；其中，η為數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列的長(zhǎng)度，i為數(shù)據(jù)庫(kù)中蛋白質(zhì)序列第i個(gè)位置， Suffix[i]為蛋白質(zhì)序列第i個(gè)后綴，LCP[i]為Suffix[i]對(duì)應(yīng)的最長(zhǎng)公共前綴。為了實(shí)現(xiàn)上述目的，本發(fā)明提供一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其特征在于，包括最長(zhǎng)公共前綴模塊，用于根據(jù)數(shù)據(jù)庫(kù)的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組，并根據(jù)所述后綴數(shù)組推斷與所述蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴；非冗余肽獲取模塊，連接所述最長(zhǎng)公共前綴模塊，用于基于所述最長(zhǎng)公共前綴和酶切規(guī)則，對(duì)所述蛋白質(zhì)序列進(jìn)行在線酶切，得到非冗余肽；蛋白質(zhì)序列推斷模塊，連接所述非冗余肽獲取模塊，用于根據(jù)串聯(lián)質(zhì)譜、所述非冗余肽進(jìn)行肽譜匹配鑒定，并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其中，所述最長(zhǎng)公共前綴模塊，還用于根據(jù)酶切的類(lèi)型確定是否需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整，如酶切的類(lèi)型為特異性酶切時(shí)，則需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整，并將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值，并把符合特異性酶切規(guī)則的后綴作為特殊后綴。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其中，所述最長(zhǎng)公共前綴模塊，包括后綴數(shù)組創(chuàng)建模塊，用于為所述數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建所述后綴數(shù)組；LCP推導(dǎo)模塊，連接所述后綴數(shù)組創(chuàng)建模塊，用于根據(jù)所述后綴數(shù)組推導(dǎo)出所述最長(zhǎng)公共前綴。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其中，所述最長(zhǎng)公共前綴模塊，還包括LCP調(diào)整模塊，連接所述LCP推導(dǎo)模塊，用于根據(jù)酶切的類(lèi)型對(duì)所述最長(zhǎng)公共前綴進(jìn)行調(diào)整。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其中，所述LCP調(diào)整模塊，還用于當(dāng)酶切的類(lèi)型是特異性酶切時(shí)，將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其中，所述LCP調(diào)整模塊，還用于當(dāng)酶切的類(lèi)型為C端特異性Trypsin酶切時(shí)，且當(dāng)所述后綴的前一個(gè)字符是K或R，或所述后綴為蛋白質(zhì)序列本身時(shí)，將所述后綴作為特殊后綴，并將所述后綴間的最長(zhǎng)公共前綴的值調(diào)整為特殊后綴間的最長(zhǎng)公共前綴的值。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其中，所述非冗余肽獲取模塊，還用于當(dāng)酶切的類(lèi)型為N端特異性Trypsin酶切時(shí)，反轉(zhuǎn)所述蛋白質(zhì)序列，按照C端特異性酶切的方式產(chǎn)生合法的子串，再反轉(zhuǎn)該子串得到合法的肽，并由所述蛋白質(zhì)序列推斷模塊根據(jù)該合法的肽進(jìn)行肽譜匹配。與現(xiàn)有技術(shù)相比，本發(fā)明的有益技術(shù)效果在于
本發(fā)明提出了一種使用后綴數(shù)組來(lái)重組蛋白質(zhì)序列數(shù)據(jù)庫(kù)的方法，解決了目前大規(guī)模蛋白質(zhì)鑒定中基于串聯(lián)質(zhì)譜的數(shù)據(jù)庫(kù)搜索速度過(guò)慢，而廣泛應(yīng)用的倒排索引創(chuàng)建需要的時(shí)間和空間太大并且使用不方便的問(wèn)題，達(dá)到了去掉冗余的肽和快速查詢的目的，提高了蛋白質(zhì)的鑒定速度。同時(shí)，這種方法所需要的時(shí)間和空間都很少，并且使用比較方便，具體是1.去掉了蛋白質(zhì)數(shù)據(jù)庫(kù)中的所有重復(fù)肽，減少了肽和譜進(jìn)行比較和打分的次數(shù)，從而減少了計(jì)算的時(shí)間。在如IPI-Human數(shù)據(jù)庫(kù)等大數(shù)據(jù)庫(kù)上，它能夠減少50%的計(jì)算時(shí)間；2.對(duì)精度沒(méi)有任何損失，雖然特異性酶切導(dǎo)致后綴數(shù)組算法中數(shù)據(jù)結(jié)構(gòu)數(shù)組最長(zhǎng)公共前綴(Longest Common I^ref ix，LCP)不能直接使用，但是經(jīng)過(guò)改進(jìn)后，本發(fā)明中的方法還是能生成所有非冗余子串；3.創(chuàng)建后綴數(shù)組所需要額外的時(shí)間和空間相對(duì)其他算法比較?。?.使用比較方便，后綴數(shù)組的創(chuàng)建只依賴于酶和數(shù)據(jù)庫(kù)，不依賴于如遺漏位點(diǎn)數(shù)，肽段長(zhǎng)度等其它信息。

圖1是本發(fā)明的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法流程圖；圖2是采用本發(fā)明中算法產(chǎn)生所有非冗余子串的示意圖，蛋白質(zhì)序列是 {MSQVQVQV$}，LCP 的值是{0，0，4，3，2，1，0，0}；圖3是本發(fā)明的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)結(jié)構(gòu)圖。
具體實(shí)施例方式以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述，但不作為對(duì)本發(fā)明的限定。如圖1所示，是本發(fā)明的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法流程圖，該方法主要應(yīng)用于大規(guī)模蛋白質(zhì)鑒定中基于串聯(lián)質(zhì)譜的數(shù)據(jù)庫(kù)搜索方法。該方法流程的具體步驟包括步驟101，根據(jù)數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組SA,并根據(jù)SA推斷與蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴LCP ；步驟102，基于LCP和酶切規(guī)則，將蛋白質(zhì)序列進(jìn)行在線酶切，得到所有非冗余肽；步驟103，根據(jù)串聯(lián)質(zhì)譜、非冗余肽進(jìn)行肽譜匹配鑒定，并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。在本發(fā)明的一實(shí)施例中，步驟101具體為步驟1-1，為數(shù)據(jù)庫(kù)中蛋白質(zhì)序列創(chuàng)建后綴數(shù)組SA ；創(chuàng)建后綴數(shù)組的算法有很多，本發(fā)明使用一些實(shí)際運(yùn)行比較快，同時(shí)內(nèi)存消耗比較少的算法，以下以世界上第一次提出后綴數(shù)組算法的論文為例，介紹后綴數(shù)組的創(chuàng)建算法。在介紹之前，首先介紹一些基本概念后綴數(shù)組SA是1990年提出的，它是后綴樹(shù)的一種替代方法，但是后綴數(shù)組SA的空間效率更高。一個(gè)字符串，如τ = T
對(duì)任意下標(biāo)i e
表示 T[i，η) =、、+1· · · V1，后綴數(shù)組 SA
= i時(shí)，按字母序字符串T的所有后綴中第j名的后綴是Suffix [i]。數(shù)組Rank
=i時(shí)，Rank[i] = j，這兩個(gè)等式都表示Suffix[i]按照字母序是字符串T的所有后綴的第j名。后綴數(shù)組的創(chuàng)建實(shí)際上是將字符串的所有后綴進(jìn)行排序，得到SA。這個(gè)排序過(guò)程需要進(jìn)行ceil(l0&(n))步。在第一步，所有后綴根據(jù)它們的第一字符進(jìn)行桶排序。接下來(lái)，將所有后綴根據(jù)前面兩個(gè)字符進(jìn)行排序，以此類(lèi)推到第ceil (10 (η))步。簡(jiǎn)單來(lái)說(shuō)，這個(gè)思路就是按長(zhǎng)度為1，2，4，8. . . η，對(duì)后綴進(jìn)行排序。根據(jù)數(shù)學(xué)歸納法來(lái)說(shuō)明這個(gè)過(guò)程。在第一步，根據(jù)后綴們的第一個(gè)字符進(jìn)行桶排序，這些后綴被分進(jìn)了 Hi1個(gè)桶，每個(gè)桶保存第一個(gè)字符相等的后綴。假設(shè)到了第H步，所有的后綴被分進(jìn)了 mH個(gè)桶，每個(gè)桶保存了前2H 個(gè)字符相等的后綴們。接下來(lái)說(shuō)明怎么將后綴們根據(jù)前2H+1個(gè)字符排序。假設(shè)后綴Suffix [i]和Suffix [j]在第H步后屬于同一個(gè)桶，需要對(duì)Suffix [i] 和Suffix[j]比較前2H個(gè)字符后面的2H個(gè)字符。實(shí)際上，這后面的2H個(gè)字符就是后綴 Suffix[i+2H]和Suffix[j+2H]的前2H個(gè)字符。而根據(jù)假設(shè)，所有后綴的前2H個(gè)字符的關(guān)系是已知的，那么Suffix[i+2H]和Suffix[j+2H]的前2H個(gè)字符之間的關(guān)系也是可以直接得到的。所以 Suffix[i] ^P Suffix [j]的關(guān)系可以通過(guò) Suffix [i+2H]和 Suffix[j+2H]的關(guān)系直接得到。更進(jìn)一步的說(shuō)明及證明可以參考文獻(xiàn)《Manber U，Myers G =Suffix arrays Anew method for on—line string searches.In.Society for Industrial and AppliedMathematics Philadelphia, PA, USA ；1990 :319-327.》。步驟1-2，在SA的基礎(chǔ)上推導(dǎo)出最長(zhǎng)公共前綴LCP。LCP表示按字母序相鄰兩個(gè)后綴間的最長(zhǎng)公共前綴的長(zhǎng)度。對(duì)任意i e
表示Suffix [SA [Rank [i]_l]]和 Suffix [i]這兩個(gè)相鄰后綴間的最長(zhǎng)公共前綴LCP的長(zhǎng)度。定義Icp (y，z)為兩個(gè)字符串y 和ζ的最長(zhǎng)公共前綴的長(zhǎng)度，那么LCP [i] = Icp (Τ [SA [Rank [i] -1]. . . η)，T [i. . . η))，定義 LCP [SA
]的值為 0。LCP推導(dǎo)算法比較多，下面以第一個(gè)時(shí)間復(fù)雜度為O(n)的算法介紹LCP的創(chuàng)建。輸入蛋白質(zhì)序列字符串T，字符串T的長(zhǎng)度是n，前面定義的數(shù)組LCP，SA, Rank ；輸出經(jīng)過(guò)調(diào)整的數(shù)組LCP。For(i = 0 ;i < η ；++i){If (n-1 == Rank[t])LCP[t] = 0 ；Else{If (t == 0 LCP[t-1] <= l)j = 0 ；Elsej = LCP [t-1]-1 ;For(tmp = SA[Rank[t]+l] ；T[t+j] == T[tmp+j] ；++j)；LCP [t] = j ；
}}更進(jìn)一步的說(shuō)明及證明可以參考文獻(xiàn)《Kasai Τ, Lee G，Arimura H，ArikawaS， Park K :Linear_time longest-common-prefix computation in suffix arrays and itsapplications. Lecture Notes in Computer Science 2001,2089:181-192·〉〉。在本發(fā)明的一實(shí)施例中，步驟101中，還包括步驟1-3，根據(jù)酶切的類(lèi)型確定是否需要對(duì)LCP的值進(jìn)行調(diào)整，當(dāng)酶切的類(lèi)型是特異性酶切時(shí)，則需要對(duì)LCP的值做調(diào)整，將LCP的值調(diào)整為符合特異性酶切規(guī)則的特殊后綴間的LCP的值。對(duì)于特異性酶切，并不是每個(gè)后綴都能產(chǎn)生子串。例如，對(duì)于C端的Trypsin酶切，只有當(dāng)后綴的前一個(gè)字符是‘K’或‘R’，或者后綴就是蛋白質(zhì)序列本身的時(shí)候，這個(gè)后綴的前綴才可能是合法的。本發(fā)明定義這種能夠產(chǎn)生合法子串的后綴為特殊后綴(簡(jiǎn)稱為SS， Special Suffix)，所以LCP的值需要調(diào)整為特殊后綴之間最長(zhǎng)公共前綴的值。使用前面定義的相關(guān)概念，根據(jù)以下公式得到LCP的值IcpiSuffixiSAix}}, Suffi^[SA[z}}) = mm{lcp(Suffix[SA[y - ^,SuffiASAiy}})}
x<y<z具體的證明在參考文獻(xiàn) 5《Manber U, Myers G =Suffix arrays :A new methodfor on-line string searches. In. Society for Industrial and Applied MathematicsPhiladelphia, PA, USA ；1990 :319_327》中有較為詳細(xì)的說(shuō)明。所以根據(jù)前面的定義，這個(gè)調(diào)整過(guò)程如下所示輸入蛋白質(zhì)序列字符串T，字符串T的長(zhǎng)度是n，前面定義的數(shù)組LCP，SA, Rank ；輸出經(jīng)過(guò)調(diào)整的數(shù)組LCP。For(i = 0 ;i < η ；++i){If Suffix[i]is in SS{For (k = Rank[i]-l ;k > 0 ;—k){If Suffix[SA[k]]is in SSbreakElse{If LCP [SA[k]] < LCP [i]LCP [i] = LCP [SA [k]]}}
}
} 在本發(fā)明的一實(shí)施例中，步驟102分為兩種情況
情況2-1 對(duì)于非特異性酶切，將蛋白質(zhì)序列進(jìn)行在線酶切；情況2-2 對(duì)于特異性酶切，將蛋白質(zhì)序列進(jìn)行在線酶切。情況2-1，對(duì)于非特異性酶切，因?yàn)閿?shù)據(jù)庫(kù)中的蛋白質(zhì)序列都是用字符串表示的，所以這個(gè)問(wèn)題可以看成是從一個(gè)原字符串生成所有的非冗余子串。這個(gè)問(wèn)題的具體處理就是，對(duì)于每一個(gè)i e
的部分前綴可以作為整個(gè)輸入的字符串T的子串，這部分前綴是從長(zhǎng)度為(LCP[i]+l)到整個(gè)后綴Suffix[i]長(zhǎng)度的前綴。具體如下所示輸入蛋白質(zhì)序列字符串T，字符串T的長(zhǎng)度是n，最長(zhǎng)公共前綴數(shù)組LCP ；輸出所有的非冗余子串substrings。For i = 0: (n-1)For length = (LCP[i]+l) : (n_i)subSrings. push_back(T[i, i+length))EndEnd一個(gè)示范例子如圖2所示。情況2-2，模型與情況2-1 —樣，但是有三點(diǎn)需要注意1、對(duì)于那些不是特殊后綴的后綴，不生成任何子串，直接忽略；當(dāng)且僅當(dāng)后綴為特殊后綴時(shí)，才生成合法的子串。2、在基于LCP做在線酶切時(shí)，需要使用在步驟101中調(diào)整過(guò)的LCP。3、對(duì)于C端的特異性酶切，基于情況2-1的算法從前往后生成非冗余子序列即可。對(duì)于N端的特異性酶切，把蛋白質(zhì)序列反轉(zhuǎn)過(guò)來(lái)，按照C端特異性酶切的方式產(chǎn)生合法的子串，再將子串反轉(zhuǎn)過(guò)來(lái)，得到合法的肽。如圖3所示，是本發(fā)明的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)結(jié)構(gòu)圖。該系統(tǒng)300包括最長(zhǎng)公共前綴模塊10，用于根據(jù)數(shù)據(jù)庫(kù)的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組SA，再根據(jù)后綴數(shù)組SA推斷其相應(yīng)的最長(zhǎng)公共前綴LCP，還進(jìn)一步根據(jù)酶切的類(lèi)型確定是否對(duì) LCP的值進(jìn)行調(diào)整；非冗余肽獲取模塊20，連接最長(zhǎng)公共前綴模塊10，用于基于LCP和酶切規(guī)則，將蛋白質(zhì)序列進(jìn)行在線酶切，得到所有非冗余肽；蛋白質(zhì)序列推斷模塊30，連接非冗余肽獲取模塊20，用于根據(jù)串聯(lián)質(zhì)譜、非冗余肽進(jìn)行肽譜匹配鑒定，并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。在本發(fā)明的一實(shí)施例中，最長(zhǎng)公共前綴模塊10包括后綴數(shù)組創(chuàng)建模塊110，用于為數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建后綴數(shù)組SA，具體創(chuàng)建方式見(jiàn)上述蛋白質(zhì)鑒定的方法中的描述；LCP推導(dǎo)模塊120，連接后綴數(shù)組創(chuàng)建模塊110，用于在后綴數(shù)組SA的基礎(chǔ)上推導(dǎo)出LCP，具體推導(dǎo)方式采用上述蛋白質(zhì)鑒定的方法中的描述。在本發(fā)明的一實(shí)施例中，最長(zhǎng)公共前綴模塊10還包括LCP調(diào)整模塊130，連接LCP推導(dǎo)模塊120，用于根據(jù)酶切的類(lèi)型對(duì)推導(dǎo)出的LCP進(jìn)行調(diào)整
當(dāng)酶切的類(lèi)型是特異性酶切時(shí)，LCP調(diào)整模塊130需要對(duì)LCP的值做調(diào)整，將LCP 的值調(diào)整為符合特異性酶切規(guī)則的后綴間的LCP的值。LCP調(diào)整模塊130，還用于當(dāng)酶切的類(lèi)型為C端特異性Trypsin酶切時(shí)，當(dāng)后綴的前一個(gè)字符是K或R，或后綴為蛋白質(zhì)序列本身時(shí)，后綴為特殊后綴，將后綴間的LCP的值調(diào)整為特殊后綴間的最長(zhǎng)公共前綴的值。LCP調(diào)整模塊130，還用于對(duì)每一個(gè)后綴數(shù)組的后綴，將LCP的值調(diào)整為特殊后綴之間最長(zhǎng)公共前綴的值。非冗余肽獲取模塊20，還用于當(dāng)酶切的類(lèi)型為N端特異性Trypsin酶切時(shí)，反轉(zhuǎn)蛋白質(zhì)序列，按照C端特異性酶切的方式產(chǎn)生合法的子串，再反轉(zhuǎn)該子串得到合法的肽，并由蛋白質(zhì)序列推斷模塊30根據(jù)該合法的肽進(jìn)行肽譜匹配。非冗余肽獲取模塊20，還用于當(dāng)酶切的類(lèi)型為非特異性酶切時(shí)，對(duì)于每一個(gè) i e
的部分前綴作為整個(gè)輸入的字符串的子串，這部分前綴是從長(zhǎng)度區(qū)間為(LCP[i]+l)到整個(gè)后綴Suffix[i]長(zhǎng)度的前綴；其中，η為數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列的長(zhǎng)度，i為數(shù)據(jù)庫(kù)中蛋白質(zhì)序列第i個(gè)位置， Suffix[i]為蛋白質(zhì)序列第i個(gè)后綴，LCP[i]為Suffix[i]對(duì)應(yīng)的最長(zhǎng)公共前綴。本發(fā)明解決了目前大規(guī)模蛋白質(zhì)鑒定中基于串聯(lián)質(zhì)譜的數(shù)據(jù)庫(kù)搜索速度過(guò)慢，而廣泛應(yīng)用的倒排索引創(chuàng)建需要的時(shí)間和空間太大并且使用不方便的問(wèn)題，提出了一種基于后綴數(shù)組的方法及其系統(tǒng)，從而達(dá)到以較少的時(shí)間和空間作為預(yù)計(jì)算，提高鑒定速度的目的。當(dāng)然，本發(fā)明還可有其它多種實(shí)施例，在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下，熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明做出各種相應(yīng)的改變和變形，但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其特征在于，包括步驟1，根據(jù)數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組，并根據(jù)所述后綴數(shù)組推斷與所述蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴；步驟2，基于最長(zhǎng)公共前綴和酶切規(guī)則，對(duì)所述蛋白質(zhì)序列進(jìn)行在線酶切，得到非冗余肽；步驟3，根據(jù)串聯(lián)質(zhì)譜、所述非冗余肽進(jìn)行肽譜匹配鑒定，并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。
2.根據(jù)權(quán)利要求1所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其特征在于，所述步驟1中，還包括根據(jù)酶切的類(lèi)型確定是否需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整，當(dāng)酶切的類(lèi)型為特異性酶切時(shí)，則需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整。
3.根據(jù)權(quán)利要求2所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其特征在于，所述步驟1中，還包括將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值，并把符合特異性酶切規(guī)則的后綴作為特殊后綴。
4.根據(jù)權(quán)利要求2或3所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其特征在于，所述步驟1中，當(dāng)酶切的類(lèi)型為C端特異性Trypsin酶切時(shí)，還包括當(dāng)所述后綴的前一個(gè)字符是K或R，或所述后綴為蛋白質(zhì)序列本身時(shí)，所述后綴為特殊后綴，將所述后綴間的最長(zhǎng)公共前綴的值調(diào)整為特殊后綴間的最長(zhǎng)公共前綴的值。
5.根據(jù)權(quán)利要求3所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其特征在于，對(duì)每一個(gè)所述后綴數(shù)組的后綴，將所述最長(zhǎng)公共前綴的值調(diào)整為所述特殊后綴之間最長(zhǎng)公共前綴的值。
6.根據(jù)權(quán)利要求4所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其特征在于，所述步驟2中，當(dāng)酶切的類(lèi)型為N端特異性Trypsin酶切時(shí)，還包括反轉(zhuǎn)所述蛋白質(zhì)序列，按照C端特異性酶切的方式產(chǎn)生合法的子串，再反轉(zhuǎn)該子串得到合法的肽。
7.根據(jù)權(quán)利要求2、3、5或6所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法，其特征在于，所述步驟1中，當(dāng)酶切的類(lèi)型為非特異性酶切時(shí)，還包括對(duì)于每一個(gè)i e
的部分前綴作為整個(gè)輸入的字符串的子串，該部分前綴是從長(zhǎng)度區(qū)間為(LCP[i]+l)到整個(gè)后綴Suffix[i]長(zhǎng)度的前綴；其中，η為數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列的長(zhǎng)度，i為數(shù)據(jù)庫(kù)中蛋白質(zhì)序列第i個(gè)位置， Suffix[i]為蛋白質(zhì)序列第i個(gè)后綴，LCP[i]為Suffix[i]對(duì)應(yīng)的最長(zhǎng)公共前綴。
8.一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其特征在于，包括最長(zhǎng)公共前綴模塊，用于根據(jù)數(shù)據(jù)庫(kù)的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組，并根據(jù)所述后綴數(shù)組推斷與所述蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴；非冗余肽獲取模塊，連接所述最長(zhǎng)公共前綴模塊，用于基于所述最長(zhǎng)公共前綴和酶切規(guī)則，對(duì)所述蛋白質(zhì)序列進(jìn)行在線酶切，得到非冗余肽；蛋白質(zhì)序列推斷模塊，連接所述非冗余肽獲取模塊，用于根據(jù)串聯(lián)質(zhì)譜、所述非冗余肽進(jìn)行肽譜匹配鑒定，并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。
9.根據(jù)權(quán)利要求8所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其特征在于，所述最長(zhǎng)公共前綴模塊，還用于根據(jù)酶切的類(lèi)型確定是否需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整，如酶切的類(lèi)型為特異性酶切時(shí)，則需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整，并將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值，并把符合特異性酶切規(guī)則的后綴作為特殊后綴。
10.根據(jù)權(quán)利要求8或9所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其特征在于，所述最長(zhǎng)公共前綴模塊，包括后綴數(shù)組創(chuàng)建模塊，用于為所述數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建所述后綴數(shù)組； LCP推導(dǎo)模塊，連接所述后綴數(shù)組創(chuàng)建模塊，用于根據(jù)所述后綴數(shù)組推導(dǎo)出所述最長(zhǎng)公共前綴。
11.根據(jù)權(quán)利要求10所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其特征在于，所述最長(zhǎng)公共前綴模塊，還包括LCP調(diào)整模塊，連接所述LCP推導(dǎo)模塊，用于根據(jù)酶切的類(lèi)型對(duì)所述最長(zhǎng)公共前綴進(jìn)行調(diào)整。
12.根據(jù)權(quán)利要求11所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其特征在于，所述LCP調(diào)整模塊，還用于當(dāng)酶切的類(lèi)型是特異性酶切時(shí)，將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值。
13.根據(jù)權(quán)利要求12所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其特征在于，所述LCP調(diào)整模塊，還用于當(dāng)酶切的類(lèi)型為C端特異性Trypsin酶切時(shí)，且當(dāng)所述后綴的前一個(gè)字符是K或R，或所述后綴為蛋白質(zhì)序列本身時(shí)，將所述后綴作為特殊后綴，并將所述后綴間的最長(zhǎng)公共前綴的值調(diào)整為特殊后綴間的最長(zhǎng)公共前綴的值。
14.根據(jù)權(quán)利要求13所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)，其特征在于，所述非冗余肽獲取模塊，還用于當(dāng)酶切的類(lèi)型為N端特異性Trypsin酶切時(shí)，反轉(zhuǎn)所述蛋白質(zhì)序列，按照C端特異性酶切的方式產(chǎn)生合法的子串，再反轉(zhuǎn)該子串得到合法的肽，并由所述蛋白質(zhì)序列推斷模塊根據(jù)該合法的肽進(jìn)行肽譜匹配。
全文摘要
本發(fā)明公開(kāi)了一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法及其系統(tǒng)，其中該方法包括步驟1，根據(jù)數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組，并根據(jù)所述后綴數(shù)組推斷與所述蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴；步驟2，基于最長(zhǎng)公共前綴和酶切規(guī)則，對(duì)所述蛋白質(zhì)序列進(jìn)行在線酶切，得到非冗余肽；步驟3，根據(jù)串聯(lián)質(zhì)譜、所述非冗余肽進(jìn)行肽譜匹配鑒定，并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。本發(fā)明達(dá)到了去掉冗余的肽和快速查詢的目的，提高了蛋白質(zhì)的鑒定速度，同時(shí)，這種方法無(wú)損精度，所需要的時(shí)間和空間都很少，并且使用比較方便。
文檔編號(hào)G06F17/30GK102467616SQ20101054647
公開(kāi)日2012年5月23日申請(qǐng)日期2010年11月15日優(yōu)先權(quán)日2010年11月15日
發(fā)明者付巖, 吳研潔, 周郴, 孫瑞祥, 李由, 王樂(lè)珩, 賀思敏, 遲浩申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周郴;遲浩;王樂(lè)珩;李由;吳研潔;付巖;孫瑞祥;賀思敏
技術(shù)所有人：中國(guó)科學(xué)院計(jì)算技術(shù)研究所
我是此專(zhuān)利的發(fā)明人

上一篇：鼠標(biāo)裝置的制作方法
上一篇：一種基于Hadoop的海量流數(shù)據(jù)存儲(chǔ)和查詢方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

后綴數(shù)組相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法及其系統(tǒng)的制作方法