專利名稱:一種質(zhì)譜數(shù)據(jù)處理中噪音基線識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及質(zhì)譜數(shù)據(jù)預(yù)處理以及信息提取的方法,特別涉及一種基于統(tǒng)計(jì)方法的質(zhì)譜中噪音基線識(shí)別方法。
背景技術(shù):
在生物實(shí)驗(yàn)中,待鑒定的多肽在串聯(lián)質(zhì)譜儀中經(jīng)誘導(dǎo)碰撞碎裂為碎片離子,這些碎片離子的質(zhì)量和豐度被質(zhì)譜儀器測(cè)量出來(lái),形成串聯(lián)質(zhì)譜。每一個(gè)碎片離子以及其同位素離子都在串聯(lián)質(zhì)譜中形成相應(yīng)的譜峰。生物實(shí)驗(yàn)室每天都產(chǎn)生大量的質(zhì)譜數(shù)據(jù),而能夠鑒定出多肽序列的質(zhì)譜僅約為總數(shù)的10-30%左右,大量的質(zhì)譜在數(shù)據(jù)庫(kù)搜索時(shí)不能得到可信的鑒定結(jié)果。一個(gè)很重要的原因是對(duì)質(zhì)譜數(shù)據(jù)的預(yù)處理不夠理想。質(zhì)譜中對(duì)鑒定有用的譜峰是離子的單同位素峰,而通常一個(gè)質(zhì)譜中對(duì)鑒定有用的譜峰只占譜峰總數(shù)的1~5%左右,絕大部分的譜峰是儀器產(chǎn)生的物理噪音,或者是離子的同位素峰(稱為同位素噪音),這些噪音給鑒定造成混淆。因此預(yù)處理的一個(gè)重要問(wèn)題就是進(jìn)行質(zhì)譜有效峰挑取,或者說(shuō)質(zhì)譜去噪,其目的是盡量把質(zhì)譜中的離子的單同位素峰挑選出來(lái)。
質(zhì)譜去噪的困難之一是不同質(zhì)譜中的儀器物理噪音分布不同,同一質(zhì)譜不同質(zhì)量區(qū)間的噪音分布也不同。再者,很多主要離子的譜峰的強(qiáng)度很低,和噪音混在一起,很難對(duì)其進(jìn)行判斷?,F(xiàn)有技術(shù)中,常用的識(shí)別噪音的方法主要有閾值法和小波分析去噪法,比如文獻(xiàn)1J.K.Eng,A.L.McCormack and J.R.Yates,“An approachto correlate tandem mass spectral data of peptides with amino acid sequencesin a protein database”,J Am Soc Mass Spectrom.,1994,5,976-989.,和文獻(xiàn)2J.Grossmann,F(xiàn).F.Roos,M.Cieliebak,Z.Liptak,L.K.Mathis,M.Muller,W.Gruissem,and S.Baginsky,“AuDeNSA Tool for Automatic De Novo PeptideSequencing”,J.Proteome.Res.,2005,4(5),1768-74.,以及文獻(xiàn)3M.Cannataro,P.H.Guzzi,T.Mazza,and P.Veltri,“Preprocessing,Management,and Analysis of Mass Spectrometry Proteomics Data”,In workshop Workflowsmanagementnew abilities for the biological information overflow-NETTAB2005.中公開(kāi)的技術(shù)就是采用閾值法,即在一個(gè)特定的m/z區(qū)間中,挑選那些高于給定的強(qiáng)度閾值的譜峰或者挑選一定數(shù)量強(qiáng)度值排名靠前的譜峰作為下一步鑒定之用。由于強(qiáng)度不是噪聲和離子譜峰的最根本的區(qū)別,許多重要的b-系列離子強(qiáng)度就很低,簡(jiǎn)單地利用閾值法,不管是固定閾值法還是有選擇性的閾值法,往往會(huì)丟掉重要的離子質(zhì)量信息。此外,一些常用的過(guò)程,比如小波變換,被用來(lái)去除原始串聯(lián)譜中的噪聲,如文獻(xiàn)4T.Rejtar,H.S.Chen,V.Andreev,E.Moskovets,andB.L.Karger,“Increased Identification of Peptides by Enhanced DataPreprocessing of High-Resolution MALDI TOF/TOF Mass Spectra Prior toDatabase Searching”,Anal.Chem.,2004,76,6017-6028,和文獻(xiàn)5E.Lange,C.Gropl,K.Reinert,O.Kohlbacher,and R.Hildebrandt,“High-Accuracy PeakPicking of Proteomics Data Using Wavelet Techniques”,PSB 2006 OnlineProceedings中公開(kāi)的技術(shù)。但是,文獻(xiàn)中也指出,變換過(guò)程的參數(shù),如小波變換的基函數(shù)、順序、分解水平等都影響了去噪的可靠性。
針對(duì)現(xiàn)有技術(shù)的不足,人們希望有一種識(shí)別質(zhì)譜中噪音的新方法,特別是按照譜峰強(qiáng)度分布性質(zhì)進(jìn)行噪音識(shí)別的方法,或者說(shuō)利用一種廣義噪音基線進(jìn)行噪音識(shí)別的方法。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種質(zhì)譜數(shù)據(jù)處理中噪音基線識(shí)別方法。
為了達(dá)到上述目的,本發(fā)明采取如下技術(shù)方案。
一種質(zhì)譜數(shù)據(jù)處理中噪音基線識(shí)別方法,包括步驟1)按照譜峰強(qiáng)度分布性質(zhì)將質(zhì)譜譜峰至少分成兩類;2)對(duì)上一步驟中的不同類別的譜峰分別計(jì)算其強(qiáng)度的分布參數(shù);3)用譜峰類別的強(qiáng)度分布參數(shù)來(lái)刻畫廣義的噪音基線。
4)對(duì)質(zhì)譜中的每個(gè)譜峰,計(jì)算其與噪音基線的距離來(lái)判斷其是否為有效的離子譜峰。
在上述技術(shù)方案中,所述步驟1)中所述分類是按照質(zhì)譜中的譜峰的強(qiáng)度的分布趨勢(shì)對(duì)譜峰進(jìn)行分類,包括高斯(Guass)分布、或者伽馬(Gamma)分布等。所述分布趨勢(shì)是通過(guò)對(duì)質(zhì)譜的譜峰進(jìn)行統(tǒng)計(jì)而得到。
在上述技術(shù)方案中,所述步驟1)中所述至少分成兩類是指按強(qiáng)度將譜峰分成兩個(gè)不同類別,分別表示噪音類和離子譜峰類??梢愿鶕?jù)需要增加類別數(shù),類別數(shù)越多,則對(duì)譜峰的劃分越細(xì)致。分類的最根本的目的是,通過(guò)分類獲得噪音譜峰與其它類別譜峰的分界線。
在上述技術(shù)方案中,所述步驟3)中,用譜峰類別的強(qiáng)度分布參數(shù)來(lái)刻畫廣義的噪音基線;對(duì)于高斯分布類,平均值mean和標(biāo)準(zhǔn)偏差deviation就可以用來(lái)表示噪音基線,均值描述了整個(gè)類別的譜峰強(qiáng)度的平均值,標(biāo)準(zhǔn)偏差描述了整個(gè)類別的譜峰的強(qiáng)度偏離平均值的程度,也可以理解為分布的寬度。對(duì)于伽馬分布類,用參數(shù)(α,β,γ)來(lái)表示噪音基線,其中,α是伽馬分布的形狀參數(shù),β是分布的刻度參數(shù),γ則是分布的位置參數(shù)。
在上述技術(shù)方案中,所述步驟4)中,將譜峰的強(qiáng)度與噪音基線的距離作為判斷噪音的一個(gè)標(biāo)準(zhǔn),顯然,離噪音類別越遠(yuǎn),則是有效峰的可能性越大。因此,距離的大或小相應(yīng)地表示譜峰是有效峰的可能性的小或大;本發(fā)明提出了一種識(shí)別噪音基線的方法。本發(fā)明按照譜峰強(qiáng)度分布來(lái)識(shí)別質(zhì)譜噪音的基本強(qiáng)度水平,也稱為噪音基線;與閾值過(guò)濾方法不同,本發(fā)明采用統(tǒng)計(jì)學(xué)習(xí)的方法,識(shí)別質(zhì)譜中的不同的基線,并且將這些基線作為一個(gè)而不是全部的特征來(lái)區(qū)分噪聲和離子譜峰。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于1)克服了從經(jīng)驗(yàn)上或者啟發(fā)式地確定噪音基線的缺點(diǎn),而是通過(guò)統(tǒng)計(jì)分類的方法,更能反映質(zhì)譜噪音峰在強(qiáng)度上的真實(shí)分布。
2)與已有的找出一個(gè)確定的噪音基線的方法不同,本方法是通過(guò)一個(gè)廣義的噪音基線來(lái)描述質(zhì)譜中的噪音的分布,形式靈活,可根據(jù)不同儀器、不同實(shí)驗(yàn)室、不同樣品所產(chǎn)生的不同的質(zhì)譜的特性而進(jìn)行調(diào)整。
3)采用本方法極大地提高了鑒定軟件的搜索速度。
具體實(shí)施例方式
下面結(jié)合附圖
和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述實(shí)施例1
本實(shí)施例試圖將質(zhì)譜中譜峰的強(qiáng)度分為三個(gè)層次1)高強(qiáng)度的碎片離子譜峰;雖然對(duì)應(yīng)的碎片離子的身份可能未知,但強(qiáng)度足夠高的譜峰是離子譜峰的可能性非常大;2)低強(qiáng)度的噪音,并且這些噪音沿著m/z軸無(wú)處不在,而其強(qiáng)度則服從正態(tài)分布;該部分噪音與儀器的物理噪音相關(guān);3)高強(qiáng)度的噪音和低強(qiáng)度的碎片離子譜峰的混合物。
因此,本實(shí)施例要識(shí)別質(zhì)譜中的兩類噪音基線a)低強(qiáng)度的噪音的強(qiáng)度上限;為了表述方便,后文中也用global baseline表示低強(qiáng)度的噪音的強(qiáng)度上限;b)高強(qiáng)度的碎片離子譜峰的強(qiáng)度下限;為了表述方便,后文中也用local baseline表示高強(qiáng)度的碎片離子譜峰的強(qiáng)度下限。在識(shí)別這兩類噪音基線后,將質(zhì)譜中這兩類噪音基線作為判斷譜峰是否為有效峰的一個(gè)特征。因此,基于統(tǒng)計(jì)學(xué)習(xí)的方法,比如采用混合高斯模型對(duì)質(zhì)譜中譜峰按強(qiáng)度進(jìn)行分類,將譜峰分成不同的正態(tài)子集,且采用正態(tài)子集的均值和標(biāo)準(zhǔn)差代表噪音基線,這種噪音基線不同于閾值法中的強(qiáng)度閾值基線,而是一種廣義噪音基線。
盡管在質(zhì)譜中強(qiáng)度很低的譜峰通常都是噪音,但是很多重要的碎片離子的譜峰的強(qiáng)度也不高,常常容易和噪音混淆。因此,本實(shí)施例將質(zhì)譜中的譜峰按照其強(qiáng)度分布特性為三類一類是高強(qiáng)度的離子譜峰,一類是低強(qiáng)度的噪音,另一類則是高強(qiáng)度的噪音和低強(qiáng)度的離子譜峰的混合體。
由于噪聲是在誘導(dǎo)碰撞碎裂(CID)過(guò)程中由質(zhì)譜隨機(jī)產(chǎn)生的,噪聲的強(qiáng)度服從正態(tài)分布,而碎片離子的強(qiáng)度分布也近似服從正態(tài)分布,因此可以GMM混合高斯模型對(duì)質(zhì)譜中譜峰進(jìn)行分類,將質(zhì)譜中的譜峰分為三類。通過(guò)對(duì)質(zhì)譜中譜峰的分類,可以識(shí)別出高強(qiáng)度的離子譜峰,以及低強(qiáng)度的噪音,同時(shí)給出高強(qiáng)度的噪音和低強(qiáng)度的離子譜峰的混合體在強(qiáng)度上的閾限,對(duì)后續(xù)的鑒定很有幫助,本領(lǐng)域技術(shù)人員是清楚這一點(diǎn)的。
具體說(shuō),本實(shí)施例分兩個(gè)層次首先,將質(zhì)譜中的譜峰分成兩個(gè)正態(tài)分布的成員,分別表示高強(qiáng)度離子峰和噪音峰的分布;然后,將高強(qiáng)度碎片離子譜峰中的低峰和噪音峰集合再次劃分成兩個(gè)正態(tài)分布的成員,分別表示低強(qiáng)度的噪音峰和高強(qiáng)度噪音與低強(qiáng)度碎片離子譜峰的混合體。
采用第二個(gè)層次的正態(tài)成員的均值和標(biāo)準(zhǔn)差來(lái)刻畫一種廣義噪音基線,或者說(shuō),計(jì)算兩種基線全局的基線(global baseline)和局部基線(local baseline),記為Ibaseline=(GImean,GIdeviation,LImean,LIdeviation)。且Ibaseline的各分量的值通過(guò)EM(Expectation-Maximization)算法計(jì)算得到。Ibaseline的分量實(shí)際上是混合模型中的兩個(gè)正態(tài)成員的均值mean和標(biāo)準(zhǔn)差deviation的參數(shù)。并且,Ibaseline中全局的基線代表高強(qiáng)度離子峰在強(qiáng)度上的下限,局部基線則代表低強(qiáng)度的噪音峰在強(qiáng)度上的上限。在全局和局部基線之間的譜峰則即可能是噪音也可能是碎片離子譜峰,需要采用其它的公知方法進(jìn)行區(qū)分。
為了便于理解本發(fā)明,此處進(jìn)一步介紹一下譜峰強(qiáng)度與噪音基線的距離。在確定了噪音基線以后,將譜峰的強(qiáng)度與噪音基線的距離作為判斷噪音的一個(gè)標(biāo)準(zhǔn),距離越大說(shuō)明離噪音越遠(yuǎn),越可能是有效峰。本實(shí)施例中,可以采用如下兩公式表示譜峰的強(qiáng)度與噪音基線的距離FRA1=A1*(Ipeak-B1*GImean)/GIdeviation(1)FRA2=A2(Ipeak-B2*LImean)/LIdeviation(2)其中,A1,B1,A2,B2分別為權(quán)重值。這個(gè)距離實(shí)際上反映了質(zhì)譜中一個(gè)譜峰離噪音基線的中心的距離與噪音整個(gè)類別的分布寬度的比率。A1,B1,A2,B2可以均等于1,或者在實(shí)際應(yīng)用中,以根據(jù)統(tǒng)計(jì)的結(jié)果確定各個(gè)參數(shù)的權(quán)重值,以更好地符合實(shí)際情況。
將本實(shí)施例應(yīng)用在不同的數(shù)據(jù)集上,采用pFind和MASCOT軟件測(cè)試的結(jié)果表明,本發(fā)明的性能超越現(xiàn)有的商用軟件ProteinLynxTMGlobal Server 2.0.5版本的預(yù)處理功能。在8個(gè)蛋白質(zhì)數(shù)據(jù)上的測(cè)試結(jié)果表明,經(jīng)本方法處理的數(shù)據(jù)能鑒定出可靠的多肽的個(gè)數(shù)比經(jīng)ProteinLynxTMGlobal Server2.0.5軟件處理的數(shù)據(jù)的鑒定個(gè)數(shù)平均多50%,最高可多180%。
本方法極大地提高了鑒定軟件的搜索速度,比如pFind1.5版的測(cè)試結(jié)果表明,經(jīng)過(guò)本方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,速度能提高5~10倍,MASCOT 2.0版的測(cè)試結(jié)果表明,速度能提高2~4倍。
實(shí)施例2本實(shí)施例試圖將質(zhì)譜中譜峰的強(qiáng)度分為兩個(gè)層次1)碎片離子譜峰,其強(qiáng)度服從伽馬分布;2)噪音峰,其強(qiáng)度則服從正態(tài)分布;因此,本實(shí)施例要識(shí)別質(zhì)譜中的一類噪音基線噪音的強(qiáng)度上限;為了表述方便,后文中也用global baseline表示低強(qiáng)度的噪音的強(qiáng)度上限;在識(shí)別了噪音基線后,將其作為判斷譜峰是否為有效峰的一個(gè)特征。因此,基于統(tǒng)計(jì)學(xué)習(xí)的方法,采用高斯、Gamma混合模型對(duì)質(zhì)譜中譜峰按強(qiáng)度進(jìn)行分類,將譜峰分成兩個(gè)子集,一個(gè)服從正態(tài)分布,一個(gè)服從Gamma分布,而其中正態(tài)分布子集的均值和標(biāo)準(zhǔn)差則代表噪音基線。
其余部分同實(shí)施例1。
最后所應(yīng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1.一種質(zhì)譜數(shù)據(jù)處理中噪音基線識(shí)別方法,包括步驟1)按照譜峰強(qiáng)度分布性質(zhì)將質(zhì)譜譜峰至少分成兩類;2)對(duì)步驟1)中的不同類別的譜峰分別計(jì)算其強(qiáng)度的分布參數(shù);3)用譜峰類別的強(qiáng)度分布參數(shù)來(lái)刻畫廣義的噪音基線。4)對(duì)質(zhì)譜中的每個(gè)譜峰,計(jì)算其與噪音基線的距離來(lái)判斷其是否為有效的離子譜峰。
2.根據(jù)權(quán)利要求1所述質(zhì)譜數(shù)據(jù)處理中噪音基線識(shí)別方法,其特征在于,所述步驟1)中所述分類是按照質(zhì)譜中的譜峰的強(qiáng)度的分布趨勢(shì)對(duì)譜峰進(jìn)行分類,所述分布趨勢(shì)是通過(guò)對(duì)質(zhì)譜的譜峰進(jìn)行統(tǒng)計(jì)而得到。
3.根據(jù)權(quán)利要求2所述質(zhì)譜數(shù)據(jù)處理中噪音基線識(shí)別方法,其特征在于,所述分布趨勢(shì)包括高斯分布、或者Gamma分布。
4.根據(jù)權(quán)利要求1所述質(zhì)譜數(shù)據(jù)處理中噪音基線識(shí)別方法,其特征在于,所述步驟1)中所述至少分成兩類是指按強(qiáng)度將譜峰分成兩個(gè)不同類別,分別表示噪音類和離子譜峰類。
5.根據(jù)權(quán)利要求1所述質(zhì)譜數(shù)據(jù)處理中噪音基線識(shí)別方法,其特征在于,所述步驟3)中用譜峰類別的強(qiáng)度分布參數(shù)來(lái)刻畫廣義的噪音基線,對(duì)于高斯分布類,平均值和標(biāo)準(zhǔn)偏差用來(lái)表示噪音基線,均值描述了整個(gè)類別的譜峰強(qiáng)度的平均值,標(biāo)準(zhǔn)偏差描述了整個(gè)類別的譜峰的強(qiáng)度偏離平均值的程度;對(duì)于Gama分布類,用參數(shù)(α,β,γ)來(lái)表示噪音基線,其中,α是Gama分布的形狀參數(shù),β是分布的刻度參數(shù),γ則是分布的位置參數(shù)。
6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述質(zhì)譜數(shù)據(jù)處理中噪音基線識(shí)別方法,其特征在于,所述步驟4)中,將譜峰的強(qiáng)度與噪音基線的距離作為判斷噪音的一個(gè)標(biāo)準(zhǔn),距離的大或小相應(yīng)地表示譜峰是有效峰的可能性的小或大。
全文摘要
本發(fā)明公開(kāi)了一種基于統(tǒng)計(jì)方法的質(zhì)譜中噪音基線識(shí)別方法。該方法,包括步驟1)按照譜峰強(qiáng)度分布性質(zhì)將質(zhì)譜譜峰至少分成兩類;2)對(duì)上一步驟中的不同類別的譜峰分別計(jì)算其強(qiáng)度的分布參數(shù);3)用譜峰類別的強(qiáng)度分布參數(shù)來(lái)刻畫廣義的噪音基線;4)對(duì)質(zhì)譜中的每個(gè)譜峰,計(jì)算其與噪音基線的距離來(lái)判斷其是否為有效的離子譜峰。本發(fā)明通過(guò)統(tǒng)計(jì)分類的方法,更能反映質(zhì)譜噪音峰在強(qiáng)度上的真實(shí)分布,通過(guò)一個(gè)廣義的噪音基線來(lái)描述質(zhì)譜中的噪音的分布,形式靈活,提高了鑒定軟件的搜索速度。
文檔編號(hào)G06F19/00GK101055559SQ200610072169
公開(kāi)日2007年10月17日 申請(qǐng)日期2006年4月14日 優(yōu)先權(quán)日2006年4月14日
發(fā)明者高文, 張京芬, 賀思敏 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所