專(zhuān)利名稱:一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及蛋白質(zhì)鑒定技術(shù),特別是涉及一種用后綴數(shù)組(SA,SuffixArray)加速大規(guī)模蛋白質(zhì)鑒定的方法及其系統(tǒng)。
背景技術(shù):
基于串聯(lián)質(zhì)譜的蛋白質(zhì)鑒定已經(jīng)成為蛋白質(zhì)組學(xué)的主流技術(shù),參考文獻(xiàn)1 《Aebersold,R. and Mann, Μ. Mass spectrometry-based proteomics,Nature,2003,422 198-207》中有較為詳細(xì)的說(shuō)明。而數(shù)據(jù)庫(kù)搜索已經(jīng)成為鑒定串聯(lián)質(zhì)譜數(shù)據(jù)的主流技術(shù),參考文獻(xiàn) 2《Eng, J. K. , McCormack, A. L. and Yates, J. R. An approachto correlate tandem mass spectral data of peptides with amino acid sequences in 已protein database. J Am Soc Mass Spectrom, 1994,5 :976_989》;# # t ■ 3 《Perkins, D. N. , Pappin, D. J. , Creasy, D. M. and Cottrel1, J. S. Probability-basedprotein identification by searching sequence databases using mass spectrometrydata. Electrophoresis, 1999,20 :3551-3567》;參考文獻(xiàn) 4《Field,H. I.,F(xiàn)enyo, D. andBeavis, R. C. RADARS, a bioinformatics solution that automates proteome massspectral analysis, optimises protein identification, and archives data in a relationaldatabase. Proteomics, 2002, 2 :36-47))有較為詳細(xì)的說(shuō)明。數(shù)據(jù)庫(kù)搜索技術(shù)的基本步驟如下將數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列按照生物學(xué)的酶切規(guī)則模擬酶切為許多較短的序列(稱為肽),并且計(jì)算出肽的質(zhì)量。鑒定時(shí),設(shè)定一個(gè)質(zhì)量誤差范圍,串聯(lián)質(zhì)譜(簡(jiǎn)稱為譜)與這個(gè)質(zhì)量誤差范圍之內(nèi)的肽,都進(jìn)行匹配打分。對(duì)每個(gè)譜, 選取得分最高的肽,再根據(jù)一定的規(guī)則評(píng)價(jià)這個(gè)肽的正確性。如果正確,再根據(jù)肽找到相應(yīng)的蛋白質(zhì)。在數(shù)據(jù)庫(kù)中,20種氨基酸分別由20種英文字母表示。蛋白質(zhì)序列是由氨基酸序列組成,在數(shù)據(jù)庫(kù)中表示為英文字母序列,如“MLPYMDQVLRAFYQSTK”這樣的序列。所謂酶切則是將比較長(zhǎng)的蛋白質(zhì)序列切成較短的序列(稱為肽),這樣才能讓質(zhì)譜儀檢測(cè)到。酶切又分為不同的情況,如非特異性酶切,只要求肽的長(zhǎng)度和質(zhì)量在一定范圍之內(nèi),蛋白質(zhì)序列的任何一段都是合法的肽。而特異性酶切,則對(duì)肽的兩端或前后有一定的限制,如C端的 Trypsin酶切,肽序列只有它N端(在序列中為左端)前一個(gè)字母為‘K’或‘R’,并且C端 (在序列中為右端)的第一個(gè)字母也為‘K’或‘R’時(shí),這個(gè)肽才是合法的肽,如蛋白質(zhì)序列 “MLPYMDQVLRAFYQSTK”中。對(duì)N端的Trypsin酶切,肽序列只有它N端第一個(gè)字母為‘K’或 ‘R’,并且C端的后一個(gè)字母也為‘K’或‘R’時(shí),這個(gè)肽才是合法的肽。非特異酶切介于特異與半特異之間,它對(duì)肽的一端有限制,而另一端沒(méi)有限制。目前,影響這種蛋白質(zhì)數(shù)據(jù)庫(kù)搜索進(jìn)一步發(fā)展的主要問(wèn)題之一就是速度問(wèn)題,因?yàn)閿?shù)據(jù)庫(kù)在不斷增大,半特異,非特異酶切,翻譯后修飾導(dǎo)致候選肽急劇增加。為了提高速度,大部分引擎和軟件都通過(guò)重組數(shù)據(jù)庫(kù)來(lái)提高速度。因?yàn)樵诘鞍踪|(zhì)酶切到肽段的過(guò)程中, 產(chǎn)生了許多冗余肽。在較大的數(shù)據(jù)庫(kù)中,如IPI-Human,肽的冗余比甚至達(dá)到了 50%。同時(shí),隨著數(shù)據(jù)庫(kù)的不斷增大,快速?gòu)牡鞍踪|(zhì)數(shù)據(jù)庫(kù)中提取肽段,也成為提高速度的一個(gè)方式。許多搜索引擎都采用了重組數(shù)據(jù)庫(kù)的方法來(lái)提高鑒定速度,在這其中,應(yīng)用最為廣泛的是倒排索引。但是,倒排索引消耗了太多的時(shí)間和空間來(lái)創(chuàng)建索引,同時(shí),索引的在線使用也不方便。本發(fā)明提出了一種使用后綴數(shù)組來(lái)重組蛋白質(zhì)序列數(shù)據(jù)庫(kù)的方法,以達(dá)到去掉冗余的肽和快速查詢的目的,從而提高蛋白質(zhì)的鑒定。同時(shí),這種方法所需要的時(shí)間和空間都很少,并且使用比較方便。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法及其系統(tǒng), 用于解決目前大規(guī)模蛋白質(zhì)鑒定中基于串聯(lián)質(zhì)譜的數(shù)據(jù)庫(kù)搜索速度過(guò)慢,以及廣泛應(yīng)用的倒排索引創(chuàng)建需要的時(shí)間和空間太大并且使用不方便的問(wèn)題。為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法, 其特征在于,包括步驟1,根據(jù)數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組,并根據(jù)所述后綴數(shù)組推斷與所述蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴;步驟2,基于最長(zhǎng)公共前綴和酶切規(guī)則,對(duì)所述蛋白質(zhì)序列進(jìn)行在線酶切,得到非冗余肽;步驟3,根據(jù)串聯(lián)質(zhì)譜、所述非冗余肽進(jìn)行肽譜匹配鑒定,并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其中,所述步驟1中,還包括根據(jù)酶切的類(lèi)型確定是否需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整,當(dāng)酶切的類(lèi)型為特異性酶切時(shí),則需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其中,所述步驟1中,還包括將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值,并把符合特異性酶切規(guī)則的后綴作為特殊后綴。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其中,所述步驟1中,當(dāng)酶切的類(lèi)型為C端特異性Trypsin酶切時(shí),還包括當(dāng)所述后綴的前一個(gè)字符是K或R,或所述后綴為蛋白質(zhì)序列本身時(shí),所述后綴為特殊后綴,將所述后綴間的最長(zhǎng)公共前綴的值調(diào)整為特殊后綴間的最長(zhǎng)公共前綴的值。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其中,對(duì)每一個(gè)所述后綴數(shù)組的后綴,將所述最長(zhǎng)公共前綴的值調(diào)整為所述特殊后綴之間最長(zhǎng)公共前綴的值。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其中,所述步驟2中,當(dāng)酶切的類(lèi)型為N端特異性Trypsin酶切時(shí),還包括反轉(zhuǎn)所述蛋白質(zhì)序列,按照C端特異性酶切的方式產(chǎn)生合法的子串,再反轉(zhuǎn)該子串得到合法的肽。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其中,
所述步驟1中,當(dāng)酶切的類(lèi)型為非特異性酶切時(shí),還包括對(duì)于每一個(gè)i e
的部分前綴作為整個(gè)輸入的字符串的子串,該部分前綴是從長(zhǎng)度區(qū)間為(LCP[i]+l)到整個(gè)后綴Suffix[i]長(zhǎng)度的前綴;其中,η為數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列的長(zhǎng)度,i為數(shù)據(jù)庫(kù)中蛋白質(zhì)序列第i個(gè)位置, Suffix[i]為蛋白質(zhì)序列第i個(gè)后綴,LCP[i]為Suffix[i]對(duì)應(yīng)的最長(zhǎng)公共前綴。為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng), 其特征在于,包括最長(zhǎng)公共前綴模塊,用于根據(jù)數(shù)據(jù)庫(kù)的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組,并根據(jù)所述后綴數(shù)組推斷與所述蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴;非冗余肽獲取模塊,連接所述最長(zhǎng)公共前綴模塊,用于基于所述最長(zhǎng)公共前綴和酶切規(guī)則,對(duì)所述蛋白質(zhì)序列進(jìn)行在線酶切,得到非冗余肽;蛋白質(zhì)序列推斷模塊,連接所述非冗余肽獲取模塊,用于根據(jù)串聯(lián)質(zhì)譜、所述非冗余肽進(jìn)行肽譜匹配鑒定,并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其中,所述最長(zhǎng)公共前綴模塊,還用于根據(jù)酶切的類(lèi)型確定是否需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整,如酶切的類(lèi)型為特異性酶切時(shí),則需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整,并將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值,并把符合特異性酶切規(guī)則的后綴作為特殊后綴。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其中,所述最長(zhǎng)公共前綴模塊,包括后綴數(shù)組創(chuàng)建模塊,用于為所述數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建所述后綴數(shù)組;LCP推導(dǎo)模塊,連接所述后綴數(shù)組創(chuàng)建模塊,用于根據(jù)所述后綴數(shù)組推導(dǎo)出所述最長(zhǎng)公共前綴。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其中,所述最長(zhǎng)公共前綴模塊,還包括LCP調(diào)整模塊,連接所述LCP推導(dǎo)模塊,用于根據(jù)酶切的類(lèi)型對(duì)所述最長(zhǎng)公共前綴進(jìn)行調(diào)整。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其中,所述LCP調(diào)整模塊,還用于當(dāng)酶切的類(lèi)型是特異性酶切時(shí),將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其中,所述LCP調(diào)整模塊,還用于當(dāng)酶切的類(lèi)型為C端特異性Trypsin酶切時(shí),且當(dāng)所述后綴的前一個(gè)字符是K或R,或所述后綴為蛋白質(zhì)序列本身時(shí),將所述后綴作為特殊后綴, 并將所述后綴間的最長(zhǎng)公共前綴的值調(diào)整為特殊后綴間的最長(zhǎng)公共前綴的值。所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其中,所述非冗余肽獲取模塊,還用于當(dāng)酶切的類(lèi)型為N端特異性Trypsin酶切時(shí),反轉(zhuǎn)所述蛋白質(zhì)序列,按照C端特異性酶切的方式產(chǎn)生合法的子串,再反轉(zhuǎn)該子串得到合法的肽,并由所述蛋白質(zhì)序列推斷模塊根據(jù)該合法的肽進(jìn)行肽譜匹配。與現(xiàn)有技術(shù)相比,本發(fā)明的有益技術(shù)效果在于
本發(fā)明提出了一種使用后綴數(shù)組來(lái)重組蛋白質(zhì)序列數(shù)據(jù)庫(kù)的方法,解決了目前大規(guī)模蛋白質(zhì)鑒定中基于串聯(lián)質(zhì)譜的數(shù)據(jù)庫(kù)搜索速度過(guò)慢,而廣泛應(yīng)用的倒排索引創(chuàng)建需要的時(shí)間和空間太大并且使用不方便的問(wèn)題,達(dá)到了去掉冗余的肽和快速查詢的目的,提高了蛋白質(zhì)的鑒定速度。同時(shí),這種方法所需要的時(shí)間和空間都很少,并且使用比較方便,具體是1.去掉了蛋白質(zhì)數(shù)據(jù)庫(kù)中的所有重復(fù)肽,減少了肽和譜進(jìn)行比較和打分的次數(shù), 從而減少了計(jì)算的時(shí)間。在如IPI-Human數(shù)據(jù)庫(kù)等大數(shù)據(jù)庫(kù)上,它能夠減少50%的計(jì)算時(shí)間;2.對(duì)精度沒(méi)有任何損失,雖然特異性酶切導(dǎo)致后綴數(shù)組算法中數(shù)據(jù)結(jié)構(gòu)數(shù)組最長(zhǎng)公共前綴(Longest Common I^ref ix,LCP)不能直接使用,但是經(jīng)過(guò)改進(jìn)后,本發(fā)明中的方法還是能生成所有非冗余子串;3.創(chuàng)建后綴數(shù)組所需要額外的時(shí)間和空間相對(duì)其他算法比較?。?.使用比較方便,后綴數(shù)組的創(chuàng)建只依賴于酶和數(shù)據(jù)庫(kù),不依賴于如遺漏位點(diǎn)數(shù), 肽段長(zhǎng)度等其它信息。
圖1是本發(fā)明的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法流程圖;圖2是采用本發(fā)明中算法產(chǎn)生所有非冗余子串的示意圖,蛋白質(zhì)序列是 {MSQVQVQV$},LCP 的值是{0,0,4,3,2,1,0,0};圖3是本發(fā)明的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)結(jié)構(gòu)圖。
具體實(shí)施例方式以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述,但不作為對(duì)本發(fā)明的限定。如圖1所示,是本發(fā)明的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法流程圖,該方法主要應(yīng)用于大規(guī)模蛋白質(zhì)鑒定中基于串聯(lián)質(zhì)譜的數(shù)據(jù)庫(kù)搜索方法。該方法流程的具體步驟包括步驟101,根據(jù)數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組SA,并根據(jù)SA推斷與蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴LCP ;步驟102,基于LCP和酶切規(guī)則,將蛋白質(zhì)序列進(jìn)行在線酶切,得到所有非冗余肽;步驟103,根據(jù)串聯(lián)質(zhì)譜、非冗余肽進(jìn)行肽譜匹配鑒定,并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。在本發(fā)明的一實(shí)施例中,步驟101具體為步驟1-1,為數(shù)據(jù)庫(kù)中蛋白質(zhì)序列創(chuàng)建后綴數(shù)組SA ;創(chuàng)建后綴數(shù)組的算法有很多, 本發(fā)明使用一些實(shí)際運(yùn)行比較快,同時(shí)內(nèi)存消耗比較少的算法,以下以世界上第一次提出后綴數(shù)組算法的論文為例,介紹后綴數(shù)組的創(chuàng)建算法。在介紹之前,首先介紹一些基本概念后綴數(shù)組SA是1990年提出的,它是后綴樹(shù)的一種替代方法,但是后綴數(shù)組SA的空間效率更高。一個(gè)字符串,如τ = T
對(duì)任意下標(biāo)i e
表示 T[i,η) =、、+1· · · V1,后綴數(shù)組 SA
= i時(shí),按字母序字符串T的所有后綴中第j名的后綴是Suffix [i]。數(shù)組Rank
=i時(shí),Rank[i] = j,這兩個(gè)等式都表示Suffix[i]按照字母序是字符串T的所有后綴的第j名。后綴數(shù)組的創(chuàng)建實(shí)際上是將字符串的所有后綴進(jìn)行排序,得到SA。這個(gè)排序過(guò)程需要進(jìn)行ceil(l0&(n))步。在第一步,所有后綴根據(jù)它們的第一字符進(jìn)行桶排序。接下來(lái),將所有后綴根據(jù)前面兩個(gè)字符進(jìn)行排序,以此類(lèi)推到第ceil (10 (η))步。簡(jiǎn)單來(lái)說(shuō), 這個(gè)思路就是按長(zhǎng)度為1,2,4,8. . . η,對(duì)后綴進(jìn)行排序。根據(jù)數(shù)學(xué)歸納法來(lái)說(shuō)明這個(gè)過(guò)程。 在第一步,根據(jù)后綴們的第一個(gè)字符進(jìn)行桶排序,這些后綴被分進(jìn)了 Hi1個(gè)桶,每個(gè)桶保存第一個(gè)字符相等的后綴。假設(shè)到了第H步,所有的后綴被分進(jìn)了 mH個(gè)桶,每個(gè)桶保存了前2H 個(gè)字符相等的后綴們。接下來(lái)說(shuō)明怎么將后綴們根據(jù)前2H+1個(gè)字符排序。假設(shè)后綴Suffix [i]和Suffix [j]在第H步后屬于同一個(gè)桶,需要對(duì)Suffix [i] 和Suffix[j]比較前2H個(gè)字符后面的2H個(gè)字符。實(shí)際上,這后面的2H個(gè)字符就是后綴 Suffix[i+2H]和Suffix[j+2H]的前2H個(gè)字符。而根據(jù)假設(shè),所有后綴的前2H個(gè)字符的關(guān)系是已知的,那么Suffix[i+2H]和Suffix[j+2H]的前2H個(gè)字符之間的關(guān)系也是可以直接得到的。所以 Suffix[i] ^P Suffix [j]的關(guān)系可以通過(guò) Suffix [i+2H]和 Suffix[j+2H]的關(guān)系直接得到。更進(jìn)一步的說(shuō)明及證明可以參考文獻(xiàn)《Manber U,Myers G =Suffix arrays Anew method for on—line string searches.In.Society for Industrial and AppliedMathematics Philadelphia, PA, USA ;1990 :319-327.》。步驟1-2,在SA的基礎(chǔ)上推導(dǎo)出最長(zhǎng)公共前綴LCP。LCP表示按字母序相鄰兩個(gè)后綴間的最長(zhǎng)公共前綴的長(zhǎng)度。對(duì)任意i e
表示Suffix [SA [Rank [i]_l]]和 Suffix [i]這兩個(gè)相鄰后綴間的最長(zhǎng)公共前綴LCP的長(zhǎng)度。定義Icp (y,z)為兩個(gè)字符串y 和ζ的最長(zhǎng)公共前綴的長(zhǎng)度,那么LCP [i] = Icp (Τ [SA [Rank [i] -1]. . . η),T [i. . . η)),定義 LCP [SA
]的值為 0。LCP推導(dǎo)算法比較多,下面以第一個(gè)時(shí)間復(fù)雜度為O(n)的算法介紹LCP的創(chuàng)建。輸入蛋白質(zhì)序列字符串T,字符串T的長(zhǎng)度是n,前面定義的數(shù)組LCP,SA, Rank ;輸出經(jīng)過(guò)調(diào)整的數(shù)組LCP。For(i = 0 ;i < η ;++i){If (n-1 == Rank[t])LCP[t] = 0 ;Else{If (t == 0 LCP[t-1] <= l)j = 0 ;Elsej = LCP [t-1]-1 ;For(tmp = SA[Rank[t]+l] ;T[t+j] == T[tmp+j] ;++j);LCP [t] = j ;
}}更進(jìn)一步的說(shuō)明及證明可以參考文獻(xiàn)《Kasai Τ, Lee G,Arimura H,ArikawaS, Park K :Linear_time longest-common-prefix computation in suffix arrays and itsapplications. Lecture Notes in Computer Science 2001,2089:181-192·〉〉。在本發(fā)明的一實(shí)施例中,步驟101中,還包括步驟1-3,根據(jù)酶切的類(lèi)型確定是否需要對(duì)LCP的值進(jìn)行調(diào)整,當(dāng)酶切的類(lèi)型是特異性酶切時(shí),則需要對(duì)LCP的值做調(diào)整,將LCP的值調(diào)整為符合特異性酶切規(guī)則的特殊后綴間的LCP的值。對(duì)于特異性酶切,并不是每個(gè)后綴都能產(chǎn)生子串。例如,對(duì)于C端的Trypsin酶切, 只有當(dāng)后綴的前一個(gè)字符是‘K’或‘R’,或者后綴就是蛋白質(zhì)序列本身的時(shí)候,這個(gè)后綴的前綴才可能是合法的。本發(fā)明定義這種能夠產(chǎn)生合法子串的后綴為特殊后綴(簡(jiǎn)稱為SS, Special Suffix),所以LCP的值需要調(diào)整為特殊后綴之間最長(zhǎng)公共前綴的值。使用前面定義的相關(guān)概念,根據(jù)以下公式得到LCP的值IcpiSuffixiSAix}}, Suffi^[SA[z}}) = mm{lcp(Suffix[SA[y - ^,SuffiASAiy}})}
x<y<z具體的證明在參考文獻(xiàn) 5《Manber U, Myers G =Suffix arrays :A new methodfor on-line string searches. In. Society for Industrial and Applied MathematicsPhiladelphia, PA, USA ;1990 :319_327》中有較為詳細(xì)的說(shuō)明。所以根據(jù)前面的定義,這個(gè)調(diào)整過(guò)程如下所示輸入蛋白質(zhì)序列字符串T,字符串T的長(zhǎng)度是n,前面定義的數(shù)組LCP,SA, Rank ;輸出經(jīng)過(guò)調(diào)整的數(shù)組LCP。For(i = 0 ;i < η ;++i){If Suffix[i]is in SS{For (k = Rank[i]-l ;k > 0 ;—k){If Suffix[SA[k]]is in SSbreakElse{If LCP [SA[k]] < LCP [i]LCP [i] = LCP [SA [k]]}}
}
} 在本發(fā)明的一實(shí)施例中,步驟102分為兩種情況
情況2-1 對(duì)于非特異性酶切,將蛋白質(zhì)序列進(jìn)行在線酶切;情況2-2 對(duì)于特異性酶切,將蛋白質(zhì)序列進(jìn)行在線酶切。情況2-1,對(duì)于非特異性酶切,因?yàn)閿?shù)據(jù)庫(kù)中的蛋白質(zhì)序列都是用字符串表示的, 所以這個(gè)問(wèn)題可以看成是從一個(gè)原字符串生成所有的非冗余子串。這個(gè)問(wèn)題的具體處理就是,對(duì)于每一個(gè)i e
的部分前綴可以作為整個(gè)輸入的字符串T的子串,這部分前綴是從長(zhǎng)度為(LCP[i]+l)到整個(gè)后綴Suffix[i]長(zhǎng)度的前綴。具體如下所示輸入蛋白質(zhì)序列字符串T,字符串T的長(zhǎng)度是n,最長(zhǎng)公共前綴數(shù)組LCP ;輸出所有的非冗余子串substrings。For i = 0: (n-1)For length = (LCP[i]+l) : (n_i)subSrings. push_back(T[i, i+length))EndEnd一個(gè)示范例子如圖2所示。情況2-2,模型與情況2-1 —樣,但是有三點(diǎn)需要注意1、對(duì)于那些不是特殊后綴的后綴,不生成任何子串,直接忽略;當(dāng)且僅當(dāng)后綴為特殊后綴時(shí),才生成合法的子串。2、在基于LCP做在線酶切時(shí),需要使用在步驟101中調(diào)整過(guò)的LCP。3、對(duì)于C端的特異性酶切,基于情況2-1的算法從前往后生成非冗余子序列即可。 對(duì)于N端的特異性酶切,把蛋白質(zhì)序列反轉(zhuǎn)過(guò)來(lái),按照C端特異性酶切的方式產(chǎn)生合法的子串,再將子串反轉(zhuǎn)過(guò)來(lái),得到合法的肽。如圖3所示,是本發(fā)明的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng)結(jié)構(gòu)圖。該系統(tǒng)300包括最長(zhǎng)公共前綴模塊10,用于根據(jù)數(shù)據(jù)庫(kù)的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組SA,再根據(jù)后綴數(shù)組SA推斷其相應(yīng)的最長(zhǎng)公共前綴LCP,還進(jìn)一步根據(jù)酶切的類(lèi)型確定是否對(duì) LCP的值進(jìn)行調(diào)整;非冗余肽獲取模塊20,連接最長(zhǎng)公共前綴模塊10,用于基于LCP和酶切規(guī)則,將蛋白質(zhì)序列進(jìn)行在線酶切,得到所有非冗余肽;蛋白質(zhì)序列推斷模塊30,連接非冗余肽獲取模塊20,用于根據(jù)串聯(lián)質(zhì)譜、非冗余肽進(jìn)行肽譜匹配鑒定,并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。在本發(fā)明的一實(shí)施例中,最長(zhǎng)公共前綴模塊10包括后綴數(shù)組創(chuàng)建模塊110,用于為數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建后綴數(shù)組SA,具體創(chuàng)建方式見(jiàn)上述蛋白質(zhì)鑒定的方法中的描述;LCP推導(dǎo)模塊120,連接后綴數(shù)組創(chuàng)建模塊110,用于在后綴數(shù)組SA的基礎(chǔ)上推導(dǎo)出LCP,具體推導(dǎo)方式采用上述蛋白質(zhì)鑒定的方法中的描述。在本發(fā)明的一實(shí)施例中,最長(zhǎng)公共前綴模塊10還包括LCP調(diào)整模塊130,連接LCP推導(dǎo)模塊120,用于根據(jù)酶切的類(lèi)型對(duì)推導(dǎo)出的LCP進(jìn)行調(diào)整
當(dāng)酶切的類(lèi)型是特異性酶切時(shí),LCP調(diào)整模塊130需要對(duì)LCP的值做調(diào)整,將LCP 的值調(diào)整為符合特異性酶切規(guī)則的后綴間的LCP的值。LCP調(diào)整模塊130,還用于當(dāng)酶切的類(lèi)型為C端特異性Trypsin酶切時(shí),當(dāng)后綴的前一個(gè)字符是K或R,或后綴為蛋白質(zhì)序列本身時(shí),后綴為特殊后綴,將后綴間的LCP的值調(diào)整為特殊后綴間的最長(zhǎng)公共前綴的值。LCP調(diào)整模塊130,還用于對(duì)每一個(gè)后綴數(shù)組的后綴,將LCP的值調(diào)整為特殊后綴之間最長(zhǎng)公共前綴的值。非冗余肽獲取模塊20,還用于當(dāng)酶切的類(lèi)型為N端特異性Trypsin酶切時(shí),反轉(zhuǎn)蛋白質(zhì)序列,按照C端特異性酶切的方式產(chǎn)生合法的子串,再反轉(zhuǎn)該子串得到合法的肽,并由蛋白質(zhì)序列推斷模塊30根據(jù)該合法的肽進(jìn)行肽譜匹配。非冗余肽獲取模塊20,還用于當(dāng)酶切的類(lèi)型為非特異性酶切時(shí),對(duì)于每一個(gè) i e
的部分前綴作為整個(gè)輸入的字符串的子串,這部分前綴是從長(zhǎng)度區(qū)間為(LCP[i]+l)到整個(gè)后綴Suffix[i]長(zhǎng)度的前綴;其中,η為數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列的長(zhǎng)度,i為數(shù)據(jù)庫(kù)中蛋白質(zhì)序列第i個(gè)位置, Suffix[i]為蛋白質(zhì)序列第i個(gè)后綴,LCP[i]為Suffix[i]對(duì)應(yīng)的最長(zhǎng)公共前綴。本發(fā)明解決了目前大規(guī)模蛋白質(zhì)鑒定中基于串聯(lián)質(zhì)譜的數(shù)據(jù)庫(kù)搜索速度過(guò)慢,而廣泛應(yīng)用的倒排索引創(chuàng)建需要的時(shí)間和空間太大并且使用不方便的問(wèn)題,提出了一種基于后綴數(shù)組的方法及其系統(tǒng),從而達(dá)到以較少的時(shí)間和空間作為預(yù)計(jì)算,提高鑒定速度的目的。當(dāng)然,本發(fā)明還可有其它多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明做出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其特征在于,包括步驟1,根據(jù)數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組,并根據(jù)所述后綴數(shù)組推斷與所述蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴;步驟2,基于最長(zhǎng)公共前綴和酶切規(guī)則,對(duì)所述蛋白質(zhì)序列進(jìn)行在線酶切,得到非冗余肽;步驟3,根據(jù)串聯(lián)質(zhì)譜、所述非冗余肽進(jìn)行肽譜匹配鑒定,并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。
2.根據(jù)權(quán)利要求1所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其特征在于, 所述步驟1中,還包括根據(jù)酶切的類(lèi)型確定是否需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整,當(dāng)酶切的類(lèi)型為特異性酶切時(shí),則需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整。
3.根據(jù)權(quán)利要求2所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其特征在于, 所述步驟1中,還包括將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值, 并把符合特異性酶切規(guī)則的后綴作為特殊后綴。
4.根據(jù)權(quán)利要求2或3所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其特征在于, 所述步驟1中,當(dāng)酶切的類(lèi)型為C端特異性Trypsin酶切時(shí),還包括當(dāng)所述后綴的前一個(gè)字符是K或R,或所述后綴為蛋白質(zhì)序列本身時(shí),所述后綴為特殊后綴,將所述后綴間的最長(zhǎng)公共前綴的值調(diào)整為特殊后綴間的最長(zhǎng)公共前綴的值。
5.根據(jù)權(quán)利要求3所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其特征在于,對(duì)每一個(gè)所述后綴數(shù)組的后綴,將所述最長(zhǎng)公共前綴的值調(diào)整為所述特殊后綴之間最長(zhǎng)公共前綴的值。
6.根據(jù)權(quán)利要求4所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其特征在于, 所述步驟2中,當(dāng)酶切的類(lèi)型為N端特異性Trypsin酶切時(shí),還包括反轉(zhuǎn)所述蛋白質(zhì)序列,按照C端特異性酶切的方式產(chǎn)生合法的子串,再反轉(zhuǎn)該子串得到合法的肽。
7.根據(jù)權(quán)利要求2、3、5或6所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法,其特征在于,所述步驟1中,當(dāng)酶切的類(lèi)型為非特異性酶切時(shí),還包括對(duì)于每一個(gè)i e
的部分前綴作為整個(gè)輸入的字符串的子串,該部分前綴是從長(zhǎng)度區(qū)間為(LCP[i]+l)到整個(gè)后綴Suffix[i]長(zhǎng)度的前綴;其中,η為數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列的長(zhǎng)度,i為數(shù)據(jù)庫(kù)中蛋白質(zhì)序列第i個(gè)位置, Suffix[i]為蛋白質(zhì)序列第i個(gè)后綴,LCP[i]為Suffix[i]對(duì)應(yīng)的最長(zhǎng)公共前綴。
8.一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其特征在于,包括最長(zhǎng)公共前綴模塊,用于根據(jù)數(shù)據(jù)庫(kù)的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組,并根據(jù)所述后綴數(shù)組推斷與所述蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴;非冗余肽獲取模塊,連接所述最長(zhǎng)公共前綴模塊,用于基于所述最長(zhǎng)公共前綴和酶切規(guī)則,對(duì)所述蛋白質(zhì)序列進(jìn)行在線酶切,得到非冗余肽;蛋白質(zhì)序列推斷模塊,連接所述非冗余肽獲取模塊,用于根據(jù)串聯(lián)質(zhì)譜、所述非冗余肽進(jìn)行肽譜匹配鑒定,并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。
9.根據(jù)權(quán)利要求8所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其特征在于,所述最長(zhǎng)公共前綴模塊,還用于根據(jù)酶切的類(lèi)型確定是否需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整,如酶切的類(lèi)型為特異性酶切時(shí),則需要對(duì)所述最長(zhǎng)公共前綴的值進(jìn)行調(diào)整,并將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值,并把符合特異性酶切規(guī)則的后綴作為特殊后綴。
10.根據(jù)權(quán)利要求8或9所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其特征在于,所述最長(zhǎng)公共前綴模塊,包括后綴數(shù)組創(chuàng)建模塊,用于為所述數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建所述后綴數(shù)組; LCP推導(dǎo)模塊,連接所述后綴數(shù)組創(chuàng)建模塊,用于根據(jù)所述后綴數(shù)組推導(dǎo)出所述最長(zhǎng)公共前綴。
11.根據(jù)權(quán)利要求10所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其特征在于, 所述最長(zhǎng)公共前綴模塊,還包括LCP調(diào)整模塊,連接所述LCP推導(dǎo)模塊,用于根據(jù)酶切的類(lèi)型對(duì)所述最長(zhǎng)公共前綴進(jìn)行調(diào)整。
12.根據(jù)權(quán)利要求11所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其特征在于, 所述LCP調(diào)整模塊,還用于當(dāng)酶切的類(lèi)型是特異性酶切時(shí),將所述最長(zhǎng)公共前綴的值調(diào)整為符合特異性酶切規(guī)則的后綴間的最長(zhǎng)公共前綴的值。
13.根據(jù)權(quán)利要求12所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其特征在于, 所述LCP調(diào)整模塊,還用于當(dāng)酶切的類(lèi)型為C端特異性Trypsin酶切時(shí),且當(dāng)所述后綴的前一個(gè)字符是K或R,或所述后綴為蛋白質(zhì)序列本身時(shí),將所述后綴作為特殊后綴,并將所述后綴間的最長(zhǎng)公共前綴的值調(diào)整為特殊后綴間的最長(zhǎng)公共前綴的值。
14.根據(jù)權(quán)利要求13所述的用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的系統(tǒng),其特征在于, 所述非冗余肽獲取模塊,還用于當(dāng)酶切的類(lèi)型為N端特異性Trypsin酶切時(shí),反轉(zhuǎn)所述蛋白質(zhì)序列,按照C端特異性酶切的方式產(chǎn)生合法的子串,再反轉(zhuǎn)該子串得到合法的肽,并由所述蛋白質(zhì)序列推斷模塊根據(jù)該合法的肽進(jìn)行肽譜匹配。
全文摘要
本發(fā)明公開(kāi)了一種用后綴數(shù)組加速大規(guī)模蛋白質(zhì)鑒定的方法及其系統(tǒng),其中該方法包括步驟1,根據(jù)數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列創(chuàng)建相應(yīng)的后綴數(shù)組,并根據(jù)所述后綴數(shù)組推斷與所述蛋白質(zhì)序列相應(yīng)的最長(zhǎng)公共前綴;步驟2,基于最長(zhǎng)公共前綴和酶切規(guī)則,對(duì)所述蛋白質(zhì)序列進(jìn)行在線酶切,得到非冗余肽;步驟3,根據(jù)串聯(lián)質(zhì)譜、所述非冗余肽進(jìn)行肽譜匹配鑒定,并利用鑒定到的肽推斷對(duì)應(yīng)的蛋白質(zhì)序列。本發(fā)明達(dá)到了去掉冗余的肽和快速查詢的目的,提高了蛋白質(zhì)的鑒定速度,同時(shí),這種方法無(wú)損精度,所需要的時(shí)間和空間都很少,并且使用比較方便。
文檔編號(hào)G06F17/30GK102467616SQ20101054647
公開(kāi)日2012年5月23日 申請(qǐng)日期2010年11月15日 優(yōu)先權(quán)日2010年11月15日
發(fā)明者付巖, 吳研潔, 周郴, 孫瑞祥, 李由, 王樂(lè)珩, 賀思敏, 遲浩 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所