結(jié)合二級質(zhì)譜和機(jī)器學(xué)習(xí)算法的蛋白質(zhì)組無標(biāo)記定量方法
【專利摘要】本發(fā)明涉及一種結(jié)合二級質(zhì)譜強(qiáng)度和機(jī)器學(xué)習(xí)算法的蛋白質(zhì)組無標(biāo)記定量方法,用于蛋白質(zhì)組水平的絕對和相對定量分析。該方法首先需要在液相色譜-串級質(zhì)譜系統(tǒng)上分析用于建立訓(xùn)練數(shù)據(jù)集的蛋白質(zhì)組實際樣品的酶解肽段混合物以及待分析的蛋白質(zhì)組樣品的酶解肽段混合物。樣品總量可以通過細(xì)胞計數(shù)或測定蛋白濃度得知,根據(jù)上一步算得的百分比和樣品總量即可以計算每一個蛋白的絕對量。將同一個蛋白在不同樣品中的絕對量進(jìn)行比較即可以獲得該蛋白在不同樣品中的相對定量信息。該方法無論是在絕對定量還是相對定量上都具有良好的準(zhǔn)確度。
【專利說明】結(jié)合二級質(zhì)譜和機(jī)器學(xué)習(xí)算法的蛋白質(zhì)組無標(biāo)記定量方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于基于質(zhì)譜技術(shù)的蛋白質(zhì)組學(xué)定量方法,具體地涉及了一種結(jié)合二級質(zhì)譜強(qiáng)度和機(jī)器學(xué)習(xí)算法的蛋白質(zhì)組無標(biāo)記絕對和相對定量方法。
【背景技術(shù)】
[0002]基于質(zhì)譜的蛋白質(zhì)組學(xué)技術(shù)已逐漸由定性轉(zhuǎn)為定量。定量蛋白質(zhì)組學(xué)對于疾病生物標(biāo)志物的發(fā)現(xiàn)等具有重要作用。組學(xué)規(guī)模的絕對定量可以讓我們動態(tài)監(jiān)測樣品中的蛋白質(zhì)在時空中的變化情況。目前單個或幾個蛋白質(zhì)的量可以通過加入已知量同位素標(biāo)記的肽段或蛋白獲得,但蛋白質(zhì)組學(xué)規(guī)模的絕對定量仍然只能由無標(biāo)記的實驗策略結(jié)合新型的計算方法來實現(xiàn)。
[0003]絕對定量的計算方法經(jīng)歷了幾個階段的發(fā)展:從最初基于序列覆蓋率的emPAI方法到基于二級質(zhì)譜圖計數(shù)(SC)的NSAF方法,再到后來基于二級質(zhì)譜中匹配上理論碎片的離子強(qiáng)度加和的SIn方法。但這些方法都沒有考慮到不同性質(zhì)的肽段在液質(zhì)聯(lián)用系統(tǒng)上響應(yīng)不同的問題。Lu等在2007年發(fā)表了 APEX方法(Lu Peng, Vogel Christine, WangRong, Yao Xin, and Marcotte Edward M, Nat.Biotechnol.,2007,1,117-124),第一次將肽段在液質(zhì)聯(lián)用系統(tǒng)上的響應(yīng)概率引入到蛋白質(zhì)組絕對定量中。他首先根據(jù)肽段的序列計算每條肽段的不同理化性質(zhì),再結(jié)合肽段在質(zhì)譜上是否被檢測到,利用這些信息構(gòu)建訓(xùn)練數(shù)據(jù)集,然后用機(jī)器學(xué)習(xí)算法對訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練并生成預(yù)測模型用以預(yù)測定量數(shù)據(jù)集中的理論肽段在同一系統(tǒng)上的響應(yīng)概率,然后將一個蛋白所有理論肽段的響應(yīng)概率累加作為該蛋白的校正因子。最后采用SC作為定量依據(jù),結(jié)合校正因子、蛋白的鑒定概率和樣品中的蛋白總量計算每個蛋白的絕對量。目前該方法已由Braisted等用 Java 編程語言封裝成軟件,稱之為 APEX Quantitative Proteomics Tool (BraistedJohn, Kuntumalla Srilatha, Vogel Christine, Marcotte Edward, Rodrigues Alan, WangRong, Huang Shih—Ting, Ferlanti Erik, Saeed Alexander, Fleischmann Robert, PetersonScott, Pieper Rembert, BMC Bioinformatics, 2008, 9:529do1:10.1186/1471-2105-9-529)。但是,基于SC的方法存在著各種缺點(diǎn)例如準(zhǔn)確度不高、對計數(shù)過小的蛋白難以定量等。Asara(Asara John M, Christofk Heather R,Freimark Lisa M and Cantley LewisC,Proteomics,2008,5,994-999)等發(fā)現(xiàn)采用歸屬于一個蛋白的所有二級質(zhì)譜圖中的全部碎片離子強(qiáng)度加和再除以此蛋白的SC比單純使用SC作為定量依據(jù)能增大定量的線性范圍。但是這種方法沒有考慮肽段在液質(zhì)聯(lián)用系統(tǒng)上的響應(yīng)差異問題,導(dǎo)致相同量的不同蛋白的計算值差異較大,即定量結(jié)果不夠準(zhǔn)確。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是結(jié)合現(xiàn)有方法的優(yōu)點(diǎn)并克服它們各自的缺點(diǎn),進(jìn)一步提高定量的準(zhǔn)確度。本發(fā)明提供了一種采用二級質(zhì)譜強(qiáng)度作為定量依據(jù)并引入機(jī)器學(xué)習(xí)算法校正不同性質(zhì)的肽段在液質(zhì)聯(lián)用系統(tǒng)上響應(yīng)差異問題的新方法用于蛋白質(zhì)組水平的絕對和相對定量。相比已有方法,該方法能明顯提高定量的準(zhǔn)確度。
[0005]本發(fā)明中的方法包括如下步驟(圖1):
[0006](I)將用于構(gòu)建訓(xùn)練數(shù)據(jù)集的已知蛋白質(zhì)實際樣品的酶解肽段混合物在液相色譜-串級質(zhì)譜系統(tǒng)上運(yùn)行獲得原始質(zhì)譜數(shù)據(jù)文件(采用不同廠商的質(zhì)譜儀器所產(chǎn)生的原始數(shù)據(jù)文件格式不一致,例如Thermo公司的RAW文件,Agilent公司的d文件夾等),原始數(shù)據(jù)文件經(jīng)過Mascot數(shù)據(jù)庫搜索(數(shù)據(jù)庫搜索時加入反庫、隨機(jī)庫或偽庫序列以控制假陽性率)后獲得樣品中的蛋白列表,以及歸屬于每個蛋白的肽段列表和歸屬于每個肽段的二級質(zhì)譜圖列表,再經(jīng)過Trans Proteomic Pipeline (TPP)處理得到存儲鑒定列表和蛋白鑒定概率的 XML 文件,然后用 SINQ 軟件(Trudgian David C,Ridlova Gabriela, FischerRoman, Mackeen Mukram M, Ternette Nicola, Acuto Oreste, Kessler Benedikt M, ThomasBenjamin, Proteomics, 2011, 14, 2790-2797)中用于計算 PSM 的 q 值的 Perl 源代碼處理XML文件將鑒定結(jié)果的假陽性率(q值即假陽性率)控制到合理范圍內(nèi)即獲得篩選后的蛋白列表及其鑒定概率,同時也包含篩選后的歸屬于每個蛋白的肽段列表和篩選后的歸屬于每個肽段的二級質(zhì)譜圖列表。以篩選后的所有肽段的序列為起點(diǎn),采用APEX QuantitativeProteomics Tool中用于構(gòu)建訓(xùn)練數(shù)據(jù)集的Java代碼計算每條肽段的若干個物理化學(xué)性質(zhì)并以數(shù)字表示,然后在理化性質(zhì)的后面附上肽段在質(zhì)譜上是否被檢測到(檢測到為Obs,未檢測到為Not),這樣一個包含肽段序列、理化性質(zhì)以及在質(zhì)譜上檢測到與否的列表即是訓(xùn)練數(shù)據(jù)集(arff文件)。在同一個液相色譜-串級質(zhì)譜系統(tǒng)上運(yùn)行待分析樣品的酶解肽段混合物,所采用的酶和構(gòu)建訓(xùn)練數(shù)據(jù)集時使用的酶一致。原始數(shù)據(jù)文件同樣經(jīng)過上述的Mascot數(shù)據(jù)庫搜索、TPP處理和假陽性率控制后獲得篩選后的蛋白質(zhì)鑒定列表,同樣也包括篩選后的歸屬于每個蛋白的肽段序列列表和篩選后的歸屬于每個肽段的二級質(zhì)譜圖列表;
[0007](2)將步驟(I)中獲得的訓(xùn)練數(shù)據(jù)集arff文件導(dǎo)入機(jī)器學(xué)習(xí)算法Weka工具包中進(jìn)行預(yù)測并生成預(yù)測模型(model文件);
[0008](3)米用 APEX Quantitative Proteomics Tool 中用于計算蛋白校正因子的 Java代碼對待分析樣品的蛋白質(zhì)序列數(shù)據(jù)庫fasta文件按照步驟(I)中所采用酶的特異性進(jìn)行理論酶切獲得理論肽段列表并計算它們的若干個理化性質(zhì),將它們導(dǎo)入步驟(2)中生成的預(yù)測模型即可輸出每條理論肽段在該液相色譜-串級質(zhì)譜系統(tǒng)上的響應(yīng)概率(為一個O到I之間的數(shù)),將一個蛋白所有理論肽段在此液相色譜-串級質(zhì)譜系統(tǒng)上的響應(yīng)概率累加作為該蛋白的校正因子;
[0009](4)采用Xcalibur軟件(Thermo Fisher公司)將歸屬于每個鑒定到蛋白的所有二級質(zhì)譜中的全部碎片離子強(qiáng)度加和作為定量依據(jù),除以步驟(3)中獲得的校正因子后再乘以蛋白的鑒定概率,然后以其對待分析樣品中的全部鑒定蛋白做歸一化,得到每個蛋白相對于樣品總量的百分比;通過細(xì)胞計數(shù)或蛋白濃度測定獲知樣品中的蛋白質(zhì)總量,乘以該百分比即可以算得每個蛋白的絕對量;
[0010](5)對于兩個及以上樣品做蛋白含量的差異分析時,首先需要將每個樣品均進(jìn)行兩次及以上平行的液相色譜-串級質(zhì)譜分析,采用步驟(1)-(4)描述的方法計算每次平行分析中每個樣品中所有蛋白的絕對量。然后采用Power Law Global Error Model (PLGEM)統(tǒng)計學(xué)模型的R工具包在合理的P值(0〈p ( 0.1)下進(jìn)行差異蛋白的檢測;輸入所有鑒定到的蛋白在多份樣品中多次進(jìn)樣計算得到的絕對量,PLGEM模型即可判斷哪些蛋白具有顯著性差異,且該顯著性差異正確的概率為(1-P)。
[0011]本發(fā)明具有如下優(yōu)點(diǎn):
[0012]1.結(jié)合了作為定量依據(jù)的二級質(zhì)譜強(qiáng)度動態(tài)范圍寬和采用機(jī)器學(xué)習(xí)算法校正定量依據(jù)后減小不同肽段在液質(zhì)聯(lián)用系統(tǒng)上響應(yīng)差異這兩方面的優(yōu)點(diǎn),獲得更準(zhǔn)確的定量結(jié)果O
[0013]2.在搜庫結(jié)果的后處理步驟中加入了采用反庫、隨機(jī)庫或偽庫序列控制假陽性率的方法,可以獲得更可靠的鑒定結(jié)果。
[0014]3.此方法不僅可以用于絕對定量,也可結(jié)合PLGEM統(tǒng)計學(xué)工具進(jìn)行差異蛋白檢測即相對定量的分析。
【專利附圖】
【附圖說明】
[0015]圖1為該方法的流程示意圖。
[0016]圖2為UPS2蛋白在LTQ XL和Orbitrap Velos上采用酵母和鼠腦兩個訓(xùn)練數(shù)據(jù)集訓(xùn)練得到的定量結(jié)果圖。
[0017]圖3為UPSl蛋白在相對定量的測試樣品D和E中比值的密度分布曲線。
【具體實施方式】
[0018]下面通過實施例對本發(fā)明進(jìn)行具體描述,有必要在此指出的是本實施例只用于對本發(fā)明進(jìn)行進(jìn)一步說明,不能理解為對本發(fā)明保護(hù)范圍的限制,該領(lǐng)域的技術(shù)熟練人員可以根據(jù)上述發(fā)明的內(nèi)容做出一些非本質(zhì)的改進(jìn)和調(diào)整。
[0019]實施例1
[0020]1.采用酵母和鼠腦提取蛋白的胰蛋白酶酶解產(chǎn)物作為訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)來源,分別在一維nano-RPLC-MS/MS系統(tǒng)上運(yùn)行5次。質(zhì)譜儀為Thermo公司的LTQ XL和OrbitrapVelos。采用購自Sigma公司的UPS2標(biāo)準(zhǔn)蛋白混合物作為定量數(shù)據(jù)集測試方法的效果。UPS2標(biāo)準(zhǔn)蛋白混合物由48個來源于人的標(biāo)準(zhǔn)蛋白混合而成,其濃度跨越6個數(shù)量級,在每個數(shù)量級上有8個性質(zhì)各異的蛋白。將UPS2的胰蛋白酶酶解產(chǎn)物在相同的系統(tǒng)上運(yùn)行5次。UPS2在柱上的絕對量從5amol到500fmol,跨越6個數(shù)量級。
[0021 ] 將原始數(shù)據(jù)RAW文件用TPP (version4.6)中的msconvert.exe組件轉(zhuǎn)換成mgf格式,再采用Mascot (version2.3.02)數(shù)據(jù)庫搜索引擎對mgf文件進(jìn)行搜索。搜索三個樣品采用的數(shù)據(jù)庫分別是:(I)酵母:2012年8月31日從Swissprot數(shù)據(jù)庫中下載的酵母序列加上它們的反序列;(2)鼠腦:RAT的IPI數(shù)據(jù)庫3.87版加上它們的反序列;(3)UPS2:48個UPS2蛋白序列加上前述酵母的反序列。對于兩種質(zhì)譜儀的其他搜庫參數(shù)相同的部分還有:只考慮+2、+3及+4價的母離子;固定修飾為C(Carbamidomethylation),可變修飾為M(Oxidation)。針對LTQ XL的母離子質(zhì)量容忍度為2Da而子離子質(zhì)量容忍度為IDa ;針對Orbitrap Velos的質(zhì)量容忍度分別是:母離子IOppm而子離子0.5Da0
[0022]將酵母和鼠腦蛋白5次進(jìn)樣的搜庫結(jié)果合并,依次經(jīng)過TPP的組件P印tideProphet和ProteinProphet處理,得到未經(jīng)篩選的鑒定結(jié)果;再利用SINQ軟件中的Perl源代碼篩選鑒定結(jié)果,使得搜庫結(jié)果中來源于反序列PSM的q值小于等于1%,即假陽性率小于等于1%。采用APEX Quantitative Proteomics Tool中的源代碼將搜索酵母或鼠腦數(shù)據(jù)時使用的數(shù)據(jù)庫中的全部蛋白序列理論酶切,再選取鑒定結(jié)果中蛋白概率為I且SC >50 (LTQXL)或70 (Orbitrap Velos)酶解產(chǎn)生的理論肽段計算它們的35個物理化學(xué)性質(zhì),并結(jié)合它們的鑒定信息構(gòu)建出兩個訓(xùn)練數(shù)據(jù)集。
[0023]對于UPS2蛋白5次進(jìn)樣的搜庫結(jié)果,分別進(jìn)行PeptideProphet和ProteinProphet處理以及采用SINQ軟件的Perl源代碼控制假陽性率后,從最終的導(dǎo)出結(jié)果文件.pep.xml和.prot.xml中獲得歸屬于每個鑒定到蛋白的肽段列表和歸屬于每個肽段的二級質(zhì)譜圖列表。同一個UPS2蛋白至少在3次進(jìn)樣中被鑒定到則認(rèn)為是可靠鑒定。鑒定結(jié)果如下:在LTQ XL上共鑒定到22個UPS2蛋白,分布在3個數(shù)量級上,500fmol8個,50fmol8個,5fmol6個;在Orbitrap Velos上共鑒定到30個UPS2蛋白,分布在4個數(shù)量級上:500fmol8 個,50fmol8 個,5fmol8 個,500amol6 個。
[0024]2.采用 Weka Machine Learning Software 的 Java 源代碼對剛才獲得的兩個訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,所采用的機(jī)器學(xué)習(xí)算法用weka代碼表示具體是:weka.classifiers, meta.CostSensitiveClassifier-cost-matrix " [cost matrix] " -Sl-ff
weka.classifiers, meta.Bagging---PlOO-Sl-110-ff weka.classifiers, trees.RandomForest---110-K5-S1。得到由酵母和鼠腦分別生成的兩個預(yù)測模型。
[0025]3.采用Weka Machine Learning Software的Java源代碼對搜索定量數(shù)據(jù)的數(shù)據(jù)庫進(jìn)行理論胰蛋白酶酶切,采用上一步中生成的兩個預(yù)測模型分別預(yù)測每條肽段在該液相色譜-串級質(zhì)譜系統(tǒng)上的響應(yīng)概率,將每個UPS2蛋白所有理論肽段在系統(tǒng)上的響應(yīng)概率累加作為該蛋白的校正因子。每個蛋白的校正因子有兩個,分別來源于酵母和鼠腦產(chǎn)生的預(yù)測模型。
[0026]4.采用Xcalibur軟件,從UPS2蛋白5次進(jìn)樣的詳細(xì)鑒定列表以及它們對應(yīng)的二級質(zhì)譜mgf文件中提取二級質(zhì)譜碎片離子強(qiáng)度計算歸屬于每個UPS2蛋白所有二級質(zhì)譜中的全部碎片離子強(qiáng)度加和作為定量依據(jù),規(guī)定蛋白總量C為1,再按照公式(a)所示的方法計算每個蛋白的APEX-SMT。將每個可靠鑒定蛋白(至少在3次進(jìn)樣中被鑒定到)的APEX-SMT求平均(不管鑒定到幾次,都除以5)則算得此蛋白的最終絕對量。每個蛋白的最終絕對量的計算值有四個,分別來源于兩種質(zhì)譜儀器以及兩種預(yù)測模型的組合。將同一摩爾量級上的多個蛋白的最終計算絕對量按照不同儀器和預(yù)測模型對應(yīng)求平均值和標(biāo)準(zhǔn)偏差,以實際進(jìn)樣量的1glO為X軸,計算值的1glO為y軸,以及標(biāo)準(zhǔn)偏差為y的誤差棒作圖,如圖2所示。從圖中可以看到,無論在哪種儀器上計算值與實際進(jìn)樣量都保持著高度一致(最低摩爾量級的一致性稍差,這主要是由質(zhì)譜本身的檢測動態(tài)范圍所限制),且誤差棒的大小也在合理的范圍內(nèi);通過比較圖2A與圖2B以及圖2C與圖2D可以看到,采用不同物種構(gòu)建的訓(xùn)練數(shù)據(jù)集對定量結(jié)果幾乎沒有影響。
[0027]實施例2
[0028]1.相對定量的測試數(shù)據(jù)集來源于 Clinical Proteomic Technology Assessmentfor Cancer (CPTAC),從 http: //www.proteomecommons.0rg/ 網(wǎng)站下載得至丨J (hash:NGX3cBUAZXSffvc+6XFNIdVhpLPJT0871zAxUQmwwR2KHUwffDrdFwVldso3bvxf7H eXZ4C/juqwEUIz4boC9H3HcLrxEAAAAAAAAmDw==),數(shù)據(jù)集的名稱為 Study60rbitrap@086。該數(shù)據(jù)集中含有5個樣品A-E,每個樣品中含等量的酵母提取蛋白^Ong/yL),并依次含有0.24,0.74,2.2,6.7,20fmol/μ L的UPSl標(biāo)準(zhǔn)蛋白混合物,使得每兩個相鄰樣品中的UPSl蛋白的變化倍數(shù)為3倍而酵母蛋白含量不變。UPSl與UPS2相似,只是48個標(biāo)準(zhǔn)蛋白是等摩爾混合。每個樣品在Orbitrap XL質(zhì)譜儀上重復(fù)進(jìn)樣3次。由于樣品A和B中的UPSl蛋白含量極低,故將它們中的酵母蛋白作為訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)來源;以樣品D和E中的UPSl蛋白作為定量數(shù)據(jù)集。數(shù)據(jù)庫檢索以及后處理的流程和實施例1絕大部分相同,不同之處有3點(diǎn):
[0029](I)搜索定量數(shù)據(jù)時采用的數(shù)據(jù)庫,為48個UPSl蛋白序列加上酵母蛋白的序列再加上它們兩者的反序列。
[0030](2)選取酵母鑒定結(jié)果中鑒定概率為I且SC≤30的蛋白的理論肽段構(gòu)建訓(xùn)練數(shù)據(jù)集。
[0031](3)對于樣品D和Ε,蛋白被任一次進(jìn)樣鑒定到都算作有效鑒定,共鑒定到44個UPSl蛋白和1074個酵母蛋白。
[0032]2.采用和實施例1中一樣的weka代碼對訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練并生成預(yù)測模型。
[0033]3.對搜索定量數(shù)據(jù)的數(shù)據(jù)庫進(jìn)行理論酶切,采用上一步中生成的預(yù)測模型預(yù)測每條肽段在該液相色譜-串級質(zhì)譜系統(tǒng)上的響應(yīng)概率,將每個UPSl蛋白所有理論肽段在系統(tǒng)上的響應(yīng)概率累加作為該蛋白的校正因子。
[0034]4.從樣品D和E各3次進(jìn)樣的鑒定結(jié)果和它們對應(yīng)的二級譜圖mgf文件中提取二級質(zhì)譜碎片離子強(qiáng)度計算歸屬于每個鑒定到的蛋白所有二級質(zhì)譜中的全部碎片離子強(qiáng)度加和作為定量依據(jù),規(guī)定蛋白總量C為1,再按照公式(a)所示的方法計算每個蛋白的APEX-SMT。
[0035]采用窮盡式的計算 方法計算UPSl蛋白在樣品D和E之間的變化倍數(shù):將兩樣品各3次進(jìn)樣的定量結(jié)果命名為Dl,D2,D3和El,E2,E3。對同一個UPSl蛋白計算所有9組定量比值 El/Dl, E2/D1, E3 /D1, E1/D2, E2/D2, E3/D2, E1/D3, E2/D3, E3/D3。將所有的定量比值經(jīng)過I og2轉(zhuǎn)換成用Matlab (version R2010b)的ksdensity函數(shù)(參數(shù)均默認(rèn))畫密度分布曲線,如圖3所示。圖中的豎虛線表示理論的變化倍數(shù),可以看到概率密度基本上平均分布在理論值的兩側(cè),說明該方法在計算蛋白的變化倍數(shù)上具有較高的準(zhǔn)確性。
[0036]將同一個蛋白在兩樣品中3次進(jìn)樣的APEX-SMT數(shù)據(jù)做成PLGEM要求的expression data的形式傳入PLGEMR package來檢測差異蛋白信息。PLGEM的具體參數(shù)設(shè)置如下:P = 0.1 ;trimAlIZeroRows=TRUE ;zeroMeanOrSD= " trim " ;number ofiterations of the permutation=2000。最終計算得到共239個差異蛋白,其中30個是UPSl蛋白,209個是酵母蛋白。根據(jù)前面的闡述,UPSl蛋白的確是差異蛋白而酵母蛋白則不是,說明在P = 0.1的情況下方法的靈敏度為30/44=68.2%,而方法的錯誤率為209/1074=19.5%,且上述結(jié)論正確 的概率為90%,顯示出該方法在差異蛋白檢測方面的優(yōu)良性能。
【權(quán)利要求】
1.結(jié)合二級質(zhì)譜和機(jī)器學(xué)習(xí)算法的蛋白質(zhì)組無標(biāo)記定量方法,其特征在于,包括以下步驟: (1)將用于構(gòu)建訓(xùn)練數(shù)據(jù)集的已知蛋白質(zhì)實際樣品的酶解肽段混合物在液相色譜-串級質(zhì)譜系統(tǒng)上運(yùn)行獲得原始質(zhì)譜數(shù)據(jù)文件,原始數(shù)據(jù)文件經(jīng)過Mascot數(shù)據(jù)庫搜索后獲得樣品中的蛋白列表,以及歸屬于每個蛋白的肽段列表和歸屬于每個肽段的二級質(zhì)譜圖列表,再經(jīng)過Trans Proteomic Pipeline (TPP)處理得到存儲鑒定列表和蛋白鑒定概率的XML文件,將它們導(dǎo)入SINQ軟件中用于計算肽段與譜圖匹配(PSM)q值的Perl源代碼計算每個PSM的q值將假陽性率控制到合理范圍內(nèi)(q值即是假陽性率)即獲得篩選后的蛋白列表及其鑒定概率,同時也包含篩選后的歸屬于每個蛋白的肽段列表和篩選后的歸屬于每個肽段的二級質(zhì)譜圖列表;以篩選后的所有肽段的序列為起點(diǎn),采用APEX QuantitativeProteomics Tool中用于構(gòu)建訓(xùn)練數(shù)據(jù)集的Java代碼計算每條肽段的1_35個物理化學(xué)性質(zhì)并以數(shù)字表示,然后在理化性質(zhì)的后面附上肽段在質(zhì)譜上是否被檢測到(檢測到為Obs,未檢測到為Not),這樣一個包含肽段序列、理化性質(zhì)以及在質(zhì)譜上檢測到與否的列表即是訓(xùn)練數(shù)據(jù)集(arff文件); 在同一個液相色譜-串級質(zhì)譜系統(tǒng)上運(yùn)行待分析樣品的酶解肽段混合物,所采用的酶和構(gòu)建訓(xùn)練數(shù)據(jù)集時使用的酶一致;原始數(shù)據(jù)文件同樣經(jīng)過上述的Mascot數(shù)據(jù)庫搜索、TPP處理和假陽性率控制后獲得篩選后的蛋白質(zhì)鑒定列表,同樣也包括篩選后的歸屬于每個蛋白的肽段序列列表和篩選后的歸屬于每個肽段的二級質(zhì)譜圖列表; (2)將步驟(1)中獲得的訓(xùn)練數(shù)據(jù)集arff文件導(dǎo)入機(jī)器學(xué)習(xí)算法Weka軟件中進(jìn)行預(yù)測并生成數(shù)學(xué)預(yù)測模型(model文件); (3)采用APEXQuantitative Proteomics Tool中用于計算蛋白校正因子的Java代碼對待分析 樣品的蛋白質(zhì)序列數(shù)據(jù)庫fasta文件按照步驟(1)中所采用酶的特異性進(jìn)行理論酶切獲得理論肽段列表并計算它們的1-35個物理化學(xué)性質(zhì),性質(zhì)的種類和構(gòu)建訓(xùn)練數(shù)據(jù)集時相同;將肽段及它們的物理化學(xué)性質(zhì)導(dǎo)入步驟(2)中生成的數(shù)學(xué)預(yù)測模型(model文件)即可輸出每條理論肽段在該液相色譜-串級質(zhì)譜系統(tǒng)上的響應(yīng)概率(為一個O到I之間的數(shù)),將歸屬于每個蛋白的所有理論肽段在此液相色譜-串級質(zhì)譜系統(tǒng)上的響應(yīng)概率累加作為該蛋白的校正因子; (4)采用Xcalibur軟件將歸屬于待分析樣品中鑒定到的每個蛋白所有二級質(zhì)譜圖中的全部碎片離子強(qiáng)度加和作為定量依據(jù),除以步驟(3)中獲得的蛋白校正因子再乘以TPP給出的蛋白鑒定概率得到對該蛋白含量的表征值;對所有蛋白均計算該表征值,每個蛋白的表征值除以所有蛋白表征值的總和即是該蛋白相對于樣品中所有蛋白含量的百分比,乘以樣品中的蛋白總量即可以算得每個蛋白的絕對量。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于: (5)對于兩個及以上樣品做蛋白含量的差異分析時,首先需要將每個樣品均進(jìn)行兩次及以上平行的液相色譜-串級質(zhì)譜分析,采用步驟(1)-(4)描述的方法計算每次平行分析中每個樣品中所有蛋白的絕對量; 然后采用統(tǒng)計學(xué)方法判斷在兩份或多份樣品中哪些蛋白存在顯著性差異。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟(1)中用于建立訓(xùn)練數(shù)據(jù)集的實際樣品不能是待分析樣品本身;MaSCot數(shù)據(jù)庫搜索時加入反庫、隨機(jī)庫或偽庫序列以控制鑒定結(jié)果的假陽性率,假陽性率是指來源于反庫、隨機(jī)庫或偽庫序列的PSM與來源于正庫序列的PSM的比值,假陽性率的合理范圍是指在0-10%之間;肽段的35個物理化學(xué)性質(zhì)包括:分子量、氨基酸個數(shù)、丙氨酸的出現(xiàn)頻率、半胱氨酸的出現(xiàn)頻率、天冬氨酸的出現(xiàn)頻率、谷氨酸的出現(xiàn)頻率、苯丙氨酸的出現(xiàn)頻率、甘氨酸的出現(xiàn)頻率、組氨酸的出現(xiàn)頻率、異亮氨酸的出現(xiàn)頻率、賴氨酸的出現(xiàn)頻率、亮氨酸的出現(xiàn)頻率、甲硫氨酸的出現(xiàn)頻率、天冬酰胺的出現(xiàn)頻率、脯氨酸的出現(xiàn)頻率、谷氨酰胺的出現(xiàn)頻率、精氨酸的出現(xiàn)頻率、絲氨酸的出現(xiàn)頻率、蘇氨酸的出現(xiàn)頻率、纈氨酸的出現(xiàn)頻率、色氨酸的出現(xiàn)頻率、酪氨酸的出現(xiàn)頻率、被包埋在蛋白質(zhì)內(nèi)部的氨基酸個數(shù)、疏水性、等電點(diǎn)、pH=7時的凈電荷、平均凈電荷、總的正電荷、平均正電荷、α螺旋的總歸一化頻率、α螺旋的平均歸一化頻率、β卷曲的總歸一化頻率、β卷曲的平均歸一化頻率、β折疊的總歸一化頻率、β折疊的平均歸一化頻率; 訓(xùn)練樣品和待分析樣品的最終鑒定結(jié)果列表都是通過對原始數(shù)據(jù)文件依次經(jīng)過數(shù)據(jù)庫檢索、檢索結(jié)果后處理以及假陽性率控制這三步產(chǎn)生。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟(4)的四個參數(shù)的具體結(jié)合方式為:將歸屬于每個鑒定到蛋白的所有二級質(zhì)譜中的全部碎片離子強(qiáng)度加和作為定量依據(jù),除以步驟(3)中獲得的校正因子后再乘以蛋白的鑒定概率,然后以其對待分析樣品中的全部鑒定蛋白做歸一化,得到每個蛋白相對于樣品總量的百分比;通過細(xì)胞計數(shù)或蛋白濃度測定獲知樣品中的蛋白質(zhì)總量,乘以該百分比即可以算得每個蛋白的絕對量,可用公式(a)表示為:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于:步驟(5)的顯著性差異蛋白的檢測采用Power Law Global Error Model (PLGEM)統(tǒng)計學(xué)模型的R工具包在合理的p值(0〈p < 0.I)下進(jìn)行;Wexpression data的格式(PLGEM的固定輸入格式)輸入所有鑒定到的蛋白在多份樣品中多次進(jìn)樣計算得到的絕對量,PLGEM模型即可判斷哪些蛋白具有顯著性差異,且該顯著性差異正確的概率為(1-P)。
【文檔編號】G01N30/86GK103884806SQ201210563271
【公開日】2014年6月25日 申請日期:2012年12月21日 優(yōu)先權(quán)日:2012年12月21日
【發(fā)明者】張麗華, 吳琪, 梁振, 曲焱焱, 蔣好, 張玉奎 申請人:中國科學(xué)院大連化學(xué)物理研究所