本發(fā)明屬于生物信息學(xué)領(lǐng)域,具體涉及一種基于蛋白質(zhì)質(zhì)譜數(shù)據(jù)注釋真核生物基因組的生物信息學(xué)方法。
背景技術(shù):
基因組測序只能測出整個(gè)dna的堿基對(duì)排列順序,不能直接測出dna上的基因及其功能,必須通過生物信息學(xué)方法,結(jié)合蛋白組學(xué)、轉(zhuǎn)錄組學(xué),對(duì)測出來的序列進(jìn)行分析,將基因及其功能加以挖掘、注釋,這稱作基因注釋。
基因組注釋(genomeannotation)是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)。
基因結(jié)構(gòu)的預(yù)測對(duì)于發(fā)現(xiàn)新基因、了解基因組結(jié)構(gòu)規(guī)律具有重要意義,是各類基因組計(jì)劃的重要內(nèi)容。目前,無論是對(duì)于原核生物還是真核生物,對(duì)基因組的預(yù)測注釋方法主要有三種:第一種是利用已有的轉(zhuǎn)錄數(shù)據(jù)來識(shí)別基因組中基因編碼區(qū)的轉(zhuǎn)錄作圖法;第二種方法是利用計(jì)算算法從統(tǒng)計(jì)學(xué)的角度來預(yù)測基因和調(diào)節(jié)元件的基因結(jié)構(gòu)統(tǒng)計(jì)建模法;第三種是比較其它物種基因組序列中的保守區(qū)域進(jìn)行基因預(yù)測的同源建模法。
1、轉(zhuǎn)錄作圖法(transcriptionmapping)
轉(zhuǎn)錄作圖法是利用已有的轉(zhuǎn)錄數(shù)據(jù)來識(shí)別基因組中的基因編碼區(qū)。將反轉(zhuǎn)錄的cdna進(jìn)行測序分析,以mrna轉(zhuǎn)錄本作為基因結(jié)構(gòu)注釋的依據(jù),被認(rèn)為是基因序列結(jié)構(gòu)注釋的“金標(biāo)準(zhǔn)”。但該方法存在一些不足:如由于mrna具有不穩(wěn)定性,部分基因很難獲得全長mrna序列;某些物種中轉(zhuǎn)錄本編碼的是操縱子而不是基因;由于翻譯框的不確定性以及翻譯起始位點(diǎn)易受多種因素的影響,依靠mrna來決定起始密碼子和終止密碼子比較困難。也是由于上述原因,轉(zhuǎn)錄信息在大多數(shù)基于基因序列特征的統(tǒng)計(jì)建模的基因預(yù)測軟件中僅作為補(bǔ)充。
2、基因結(jié)構(gòu)統(tǒng)計(jì)建模法
基因結(jié)構(gòu)統(tǒng)計(jì)建模法是利用計(jì)算算法從統(tǒng)計(jì)學(xué)的角度來預(yù)測基因和調(diào)節(jié)元件,是以從頭計(jì)算(abinitio)為基礎(chǔ)的軟件直接從序列本身提取有關(guān)基因的信息,基于廣義隱馬爾可夫模型(generalizedhiddenmarkovmodel,ghmm)的數(shù)據(jù)結(jié)構(gòu),并通過使用機(jī)器學(xué)習(xí)所構(gòu)建的方法,例如glimmer、gfenesh、genemarks、mgene、evigan和genemark等方法。
3、同源建模法
同源建模法是基于基因組中的功能元件在進(jìn)化過程中保守的特點(diǎn),通過比較其它物種基因組序列中的保守區(qū)域進(jìn)行基因預(yù)測,是整合了數(shù)據(jù)庫中已經(jīng)存在的外部信息來進(jìn)行預(yù)測注釋,例如augustus、jigsaw、eugene、geneid和critica等方法。
現(xiàn)今注釋流水線(annotationpipeline)已經(jīng)被普遍采用,例如ensembl的流水線,ncbi的gnomon和ucsc的knowngenes。但是當(dāng)同時(shí)使用多個(gè)基因組注釋軟件時(shí)就會(huì)出現(xiàn)注釋的差異性。排除基因組測序質(zhì)量因素,此類差異首先與給定的注釋的證據(jù)的支持強(qiáng)度有關(guān),如某一段序列的長度和上下游信息不充足就會(huì)使得小基因、短外顯子和讀碼框移碼的預(yù)測變得很困難;某些特殊密碼子的使用也可能造成基因預(yù)測的錯(cuò)誤;非標(biāo)準(zhǔn)的起始和終止密碼子可以用來標(biāo)定orfs,然而在某些情況下,標(biāo)準(zhǔn)終止密碼在真核生物中編碼硒代半胱氨酸或古細(xì)菌中編碼吡咯賴氨酸。某些時(shí)候,即使預(yù)測是正確的,有些類型的基因僅僅編碼rna而不會(huì)翻譯,其最終產(chǎn)物可能是非編碼的rna(ncrna)或者可以部分激活的假基因,其rnas沒有編碼蛋白質(zhì)的功能并會(huì)很快被降解。最后,由于不同的物種具有不同的基因組,導(dǎo)致使用從頭計(jì)算工具需要為每一個(gè)新的基因組進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練。
而傳統(tǒng)的基因組注釋方法(例如生物信息學(xué)預(yù)測和同源信息比對(duì)等)在鑒定精度和深度上受到了較大的限制。相對(duì)于基因組學(xué)和轉(zhuǎn)錄組學(xué),基于質(zhì)譜技術(shù)的蛋白質(zhì)組學(xué)直接研究編碼基因翻譯出的蛋白質(zhì)產(chǎn)物,比轉(zhuǎn)錄組學(xué)注釋基因組獲得的結(jié)果更直接,而且可以發(fā)現(xiàn)由于知識(shí)不足導(dǎo)致的基因從頭預(yù)測算法遺漏的基因和基因結(jié)構(gòu)注釋的錯(cuò)誤。因此,為了完善基因組注釋,使用蛋白質(zhì)組學(xué)數(shù)據(jù)注釋基因組,即蛋白基因組學(xué)(proteogenomics),是繼基因組學(xué)和轉(zhuǎn)錄組學(xué)之后發(fā)展起來的又一項(xiàng)新興高通量基因組注釋技術(shù)。”蛋白質(zhì)基因組學(xué)“一詞由jaffe等于2004年首次提出,作者采用串聯(lián)質(zhì)譜數(shù)據(jù)匹配dna翻譯得到氨基酸序列的研究方法成功應(yīng)用于運(yùn)動(dòng)型支原體(mycoplasmamobile)基因組的注釋過程中。后來這種分析方法被應(yīng)用到注釋病毒基因組,原核生物基因組以及真核生物基因組。
蛋白基因組學(xué)直接對(duì)編碼基因的表達(dá)產(chǎn)物--蛋白質(zhì)進(jìn)行研究,不僅能在蛋白質(zhì)水平上驗(yàn)證基因表達(dá)和基因精細(xì)模式,還能提供蛋白質(zhì)組層面特有的信息,如翻譯后修飾、信號(hào)肽等。該方法有別于基因組學(xué)、轉(zhuǎn)錄組學(xué)和功能基因組學(xué),對(duì)解釋基因組注釋結(jié)果和理解生命現(xiàn)象來說是非常重要的。在無法獲得轉(zhuǎn)錄組數(shù)據(jù)的研究內(nèi)容中,比如動(dòng)物的血液和其他組織液中,蛋白質(zhì)基因組學(xué)更是起到了不可替代的作用。另外,基于蛋白質(zhì)基因組學(xué)的策略還可以被用在通過分析蛋白質(zhì)水平來鑒定一些基于個(gè)體的序列變異導(dǎo)致的癌癥,并確定其中最相關(guān)的變異上。2011年國際人類蛋白質(zhì)研究組織(hupo)啟動(dòng)人類蛋白質(zhì)組計(jì)劃,通過整合多組學(xué)數(shù)據(jù)對(duì)可變剪接、snp以及三類主要翻譯后修飾(磷酸化、乙?;?、糖基化)進(jìn)行注釋以加深人們對(duì)蛋白質(zhì)(基因)功能的理解,從而指導(dǎo)疾病的研究,這是蛋白質(zhì)基因組學(xué)一個(gè)重要的嘗試和應(yīng)用。而2014年在nature雜志上發(fā)布的人類蛋白質(zhì)組草圖的工作標(biāo)志著蛋白基因組學(xué)已成為目前基因組注釋和功能研究的有力工具。越來越多的研究人員提倡在基因組注釋工程中加入標(biāo)準(zhǔn)蛋白質(zhì)組分析作為互補(bǔ),甚至直接采用蛋白質(zhì)基因組學(xué)的方法對(duì)完成測序的基因組進(jìn)行注釋,體現(xiàn)了蛋白質(zhì)基因組學(xué)在蛋白質(zhì)組層面上注釋基因組特有的優(yōu)勢。
自2004年蛋白基因組學(xué)的概念被首次提出,10多年的時(shí)間已經(jīng)過去了。這些年間,得益于質(zhì)譜技術(shù)的重大突破及蛋白質(zhì)分離和富集方法的進(jìn)步和rna-seq等轉(zhuǎn)錄組學(xué)研究的飛速發(fā)展,使得蛋白質(zhì)組學(xué)研究中的關(guān)鍵問題靈敏性和準(zhǔn)確性得到很大的解決。這也推動(dòng)蛋白基因組學(xué)分析方法、流程設(shè)計(jì)的發(fā)展,以及各種流程化和系統(tǒng)化分析軟件的產(chǎn)生。這些方法流程已被應(yīng)用于一些物種基因組的重注釋。盡管能從這些方法流程的建立中獲益,但目前蛋白基因組學(xué)分析方法的研究尚處于起步階段,其分析方法在計(jì)算上仍具有挑戰(zhàn),不可避免的存在一些問題:a.數(shù)據(jù)搜索的局限性:直接使用基因組構(gòu)建真核生物蛋白基因組數(shù)據(jù)庫,加上其他搜索條件帶來的搜索空間的迅速膨脹,不可避免的會(huì)拉長搜索時(shí)間并降低質(zhì)譜匹配的敏感性(鑒定數(shù)目)和特異性(正確鑒定數(shù)目)。面對(duì)真核生物龐大的基因組數(shù)據(jù),通過何種方法構(gòu)建蛋白基因組搜索數(shù)據(jù)庫,才能應(yīng)對(duì)數(shù)據(jù)膨脹帶來的負(fù)面效應(yīng)?b.精準(zhǔn)鑒定:數(shù)據(jù)分析后端缺乏可靠而深入的信息學(xué)分析和評(píng)估策略,錯(cuò)誤注釋沒有被有效地過濾,直接影響了基因組注釋質(zhì)量。尤其對(duì)于真核蛋白基因組分析,關(guān)注重點(diǎn)在新肽段的鑒定,搜索結(jié)果混合有已注釋肽段和新肽段,傳統(tǒng)的全局發(fā)現(xiàn)錯(cuò)誤率評(píng)估未考慮新肽段類別錯(cuò)誤率問題,致使研究結(jié)果帶有較高的假陽性。雖然考慮了新肽段類別錯(cuò)誤率問題,但數(shù)據(jù)分析端仍缺少準(zhǔn)確評(píng)估新肽段類別錯(cuò)誤率的策略。因此,如何正確的評(píng)估新肽段與已注釋肽段的發(fā)現(xiàn)錯(cuò)誤率、提高鑒定結(jié)果的精準(zhǔn)度仍然是一個(gè)具有挑戰(zhàn)性的問題。c.深度分析:目前的蛋白基因組學(xué)研究主要集中在核酸層(即編碼基因注釋和基因結(jié)構(gòu)注釋),而更深入的、對(duì)蛋白功能研究更重要的蛋白組層面特有的現(xiàn)象卻很少觸及。比如翻譯后修飾-對(duì)基因組功能注釋具有重要的作用。翻譯后修飾的分析能開啟蛋白基因組學(xué)研究新的方向嗎?如何實(shí)現(xiàn)翻譯后修飾的大規(guī)模鑒定?d.標(biāo)準(zhǔn)化的應(yīng)用:除了過高的新肽段發(fā)現(xiàn)錯(cuò)誤率,數(shù)據(jù)分析端鑒定結(jié)果篩選標(biāo)準(zhǔn)的寬松性,也會(huì)使研究結(jié)果中混入過多的錯(cuò)誤注釋。同時(shí),由于篩選標(biāo)準(zhǔn)的多樣化,使得同一種分析手段確得到不同的研究結(jié)果。因此,建立蛋白質(zhì)組基因?qū)W研究共同的數(shù)據(jù)分析的標(biāo)準(zhǔn)是極其有必要的。標(biāo)準(zhǔn)的蛋白基因組分析流程能提升研究結(jié)果的準(zhǔn)確性和一致性,然而研究人員常常需要手動(dòng)綜合多種工具來完成整個(gè)流程的數(shù)據(jù)分析,極大加重了研究人員的工作負(fù)擔(dān)。自動(dòng)化的流程處理能為新物種的蛋白基因組分析帶來便利,如何將理論和實(shí)際分析的經(jīng)驗(yàn)想結(jié)合,開發(fā)一套完整而標(biāo)準(zhǔn)的適用于真核生物的蛋白基因組分析軟件來支持分析工作,是目前從事相關(guān)分析的研究人員急切希望解決的。此外,該領(lǐng)域內(nèi)還存在著一些亟待解決的問題,比如,哪些新的剪切變異體片段可以被翻譯成穩(wěn)定的有功能的蛋白質(zhì)?dna變異的數(shù)據(jù)如何在蛋白質(zhì)組水平調(diào)控發(fā)揮提供有價(jià)值的信息?
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是為了克服上述現(xiàn)有技術(shù)的缺陷和問題而提供一種基于蛋白質(zhì)質(zhì)譜數(shù)據(jù)注釋真核生物基因組的生物信息學(xué)方法。具體方法包括(1)構(gòu)建高覆蓋度的真核生物多組學(xué)序列數(shù)據(jù)庫;(2)去除真核蛋白序列數(shù)據(jù)庫冗余;(3)質(zhì)譜原始數(shù)據(jù)格式轉(zhuǎn)換;(4)采用多種不同算法的數(shù)據(jù)庫搜索引擎,分別對(duì)質(zhì)譜數(shù)據(jù)進(jìn)行檢索;(5)對(duì)檢索及處理后的結(jié)果分別進(jìn)行肽段圖譜匹配打分;(6)對(duì)經(jīng)類別fdr體系評(píng)估后的結(jié)果數(shù)據(jù)進(jìn)行篩選;(7)驗(yàn)證已注釋編碼基因;(8)鑒定未注釋新基因;(9)可變剪接的鑒定;(10)功能性點(diǎn)突變的鑒定;(11)針對(duì)蛋白質(zhì)翻譯后修飾進(jìn)行大規(guī)模鑒定;(12)新基因和翻譯后修飾的功能性注釋。
1.構(gòu)建高覆蓋度的真核生物多組學(xué)序列數(shù)據(jù)庫
(a)建立六閱讀框翻譯數(shù)據(jù)庫
使用真核生物的基因組序列進(jìn)行六閱讀框翻譯。建庫時(shí)充分考慮真核生物的翻譯特性,例如采用真核生物的標(biāo)準(zhǔn)密碼子表和物種特異性的密碼子表進(jìn)行數(shù)據(jù)庫序列翻譯。按照中心法則和終止子-終止子(stop-to-stop)翻譯方式,在真核基因組上三個(gè)連續(xù)堿基翻譯成一種氨基酸,以三位為周期,加上dna雙鏈因素,翻譯出六種不同的、長度大于38的全酶切肽段,構(gòu)建六閱讀框翻譯序列數(shù)據(jù)庫。
(b)建立n端肽段數(shù)據(jù)庫
已有文獻(xiàn)報(bào)道真核生物中存在除了以atg翻譯起始密碼子外的其他翻譯起始密碼子(比如gtg和ttg)。三連密碼子作為翻譯起始密碼子,只會(huì)翻譯成甲硫氨酸。所以同一種密碼子在一條蛋白序列中可能對(duì)于兩種不同的氨基酸,即起始的氨基酸和中間序列的氨基酸。且翻譯過程中無法確定蛋白的翻譯起始位點(diǎn)。為了校正已注釋基因的翻譯起始位點(diǎn)注釋錯(cuò)誤或鑒定新的翻譯起始位點(diǎn),我們在六閱讀框翻譯數(shù)據(jù)庫建立的基礎(chǔ)上,考慮多種起始密碼子,枚舉所有長度大于38且以甲硫氨酸開頭的全酶切肽段。
(c)建立從頭預(yù)測蛋白序列數(shù)據(jù)庫
為了提高鑒定翻譯起始位點(diǎn)的鑒定,同時(shí)為新基因的鑒定提供證據(jù),我們使用開源的genemarks軟件包的隱馬爾可夫模型算法結(jié)合蛋白編碼模型、非編碼區(qū)域集和基因調(diào)控位點(diǎn)集,產(chǎn)生編碼蛋白基因的從頭預(yù)測序列,來構(gòu)建從頭預(yù)測蛋白序列數(shù)據(jù)庫。
(d)建立轉(zhuǎn)錄組翻譯序列數(shù)據(jù)庫
考慮到不同的數(shù)據(jù)來源,擬通過兩種方式構(gòu)建轉(zhuǎn)錄本翻譯序列數(shù)據(jù)庫。第一種方式,ncbi、ensemble、ucsc等公共數(shù)據(jù)庫上有該物種組裝好的轉(zhuǎn)錄本數(shù)據(jù),直接下載到本地。逐一對(duì)其轉(zhuǎn)錄本序列,按照中心法則和終止子-終止子翻譯方式,考慮真核生物的特異性的密碼子,僅考慮單鏈因素,翻譯出三種不同的、長度大于38的全酶切肽段,構(gòu)建三閱讀框翻譯的轉(zhuǎn)錄組序列數(shù)據(jù)庫。第二種方式,公共數(shù)據(jù)庫上沒有該物種組裝好的轉(zhuǎn)錄本數(shù)據(jù),則可在ncbi上下載該物種的轉(zhuǎn)錄組測序數(shù)據(jù),使用開源軟件trinity將轉(zhuǎn)錄組測序片段自組裝成轉(zhuǎn)錄組序列。根據(jù)(a)步驟的建庫策略,繼續(xù)構(gòu)建三閱讀框翻譯的轉(zhuǎn)錄組序列數(shù)據(jù)庫。
(e)整合多組學(xué)數(shù)據(jù)庫
建立多組學(xué)數(shù)據(jù)庫會(huì)出現(xiàn)不同數(shù)據(jù)庫之間序列的重復(fù),則需將其重復(fù)序列去除,降低數(shù)據(jù)庫的冗余性。氨基酸序列相同而命名編號(hào)不同的序列,則保留一條氨基酸序列,命名編號(hào)需按單斜杠重新拼接成。同時(shí)由于基因組測序和組裝中存在準(zhǔn)確性和完整性的局限,基因組序列中不可避免的會(huì)出現(xiàn)“n”,建庫過程中被翻譯成“x”。為了提高后續(xù)分析的精準(zhǔn)性,出現(xiàn)三個(gè)以上“x”數(shù)據(jù)庫序列被過濾。
2.去除真核蛋白序列數(shù)據(jù)庫冗余
(a)從對(duì)應(yīng)的公共數(shù)據(jù)庫上下載該物種的非編碼rna、假基因、未編碼基因序列和est序列數(shù)據(jù),分別按照中心法則和終止子-終止子翻譯方式,考慮雙鏈因素,翻譯成六種不同的、長度大于38的全酶切肽段序列。
(b)按照第一點(diǎn)(e)步驟的整合策略,將上一步驟中創(chuàng)建的四類數(shù)據(jù)庫,整合成去冗余數(shù)據(jù)庫。
(c)對(duì)構(gòu)建的真核蛋白序列數(shù)據(jù)庫進(jìn)行過濾。假如真核蛋白序列數(shù)據(jù)庫中出現(xiàn)與去冗余數(shù)據(jù)庫相同的序列,這些序列將從真核蛋白序列數(shù)據(jù)庫中移除,縮減其數(shù)據(jù)庫容量。
(d)對(duì)去冗余的真核蛋白序列數(shù)據(jù)庫,根據(jù)序列長度和氨基酸字母排序,創(chuàng)建數(shù)據(jù)字典、建立序列索引,重建并優(yōu)化其數(shù)據(jù)庫的存儲(chǔ)結(jié)構(gòu),為后續(xù)進(jìn)一步的高效率的數(shù)據(jù)庫搜索和數(shù)據(jù)分析打下基礎(chǔ)。
3.質(zhì)譜原始數(shù)據(jù)格式轉(zhuǎn)換
由于不同品牌的質(zhì)譜儀產(chǎn)生的下機(jī)原始數(shù)據(jù)格式不同,為了提升后續(xù)數(shù)據(jù)庫搜索和數(shù)據(jù)分析的統(tǒng)一性與效用性,我們擬使用開源的proteowizard質(zhì)譜數(shù)據(jù)轉(zhuǎn)換軟件,將每一個(gè)質(zhì)譜原始數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)的mgf數(shù)據(jù)格式。proteowizard軟件可以處理來自不同格式的質(zhì)譜原始數(shù)據(jù),也方便集成至現(xiàn)有的流程軟件中(比如gape軟件)。轉(zhuǎn)換后的mgf格式數(shù)據(jù),使用來自openms的peakpickerhires工具進(jìn)行質(zhì)心校正,然后被openms中的filemerger工具統(tǒng)一進(jìn)行數(shù)據(jù)融合。
4.復(fù)合式搜索引擎策略
為了提升蛋白基因組學(xué)肽段鑒定的靈敏性,擬采用多種不同算法的數(shù)據(jù)庫搜索引擎,分別對(duì)質(zhì)譜數(shù)據(jù)進(jìn)行檢索。比如,x!tandem(搜索算法基于超幾何分布模型),msamanda(基于累積二項(xiàng)分布函數(shù)來確定顯著性的譜圖肽段匹配),ms-gf+(使用標(biāo)量積打分功能去評(píng)估計(jì)算譜圖肽段匹配),omssa(使用泊松分布算法來確定顯著性的譜圖肽段匹配),comet(則使用基于不同屬性的參數(shù)的經(jīng)驗(yàn)打分算法)等等。數(shù)據(jù)庫檢索完成之后,分別對(duì)五種搜索引擎的結(jié)果進(jìn)行格式歸一化,處理并整合成統(tǒng)一的結(jié)果數(shù)據(jù)格式。
5.建立新肽段類別發(fā)現(xiàn)錯(cuò)誤率評(píng)估方法
對(duì)檢索及處理后的結(jié)果分別進(jìn)行肽段圖譜匹配打分。將打分后的結(jié)果肽段使用內(nèi)建的blastp算法回帖到物種蛋白庫和基因組上,并將結(jié)果肽段分類為已注釋肽段譜圖匹配(能夠比對(duì)到蛋白庫上)和廣義新肽段譜圖匹配(未能比對(duì)到蛋白庫上)。針對(duì)已注釋肽段譜圖匹配結(jié)果,根據(jù)打分結(jié)果利用靶標(biāo)-誘餌數(shù)據(jù)庫搜索來計(jì)算全局fdr,對(duì)鑒定結(jié)果進(jìn)一步的評(píng)價(jià),以獲得可靠的肽段譜圖匹配結(jié)果;針對(duì)鑒定到的廣義新肽段譜圖匹配結(jié)果(突變肽段、可變剪接肽段、未注釋肽段等)建立假發(fā)現(xiàn)率評(píng)估技術(shù)體系,主要結(jié)合全局fdr去推算各類別fdr,建立更加可信的適合蛋白質(zhì)基因組學(xué)研究的肽譜匹配打分和評(píng)價(jià)方法,提高鑒定結(jié)果精準(zhǔn)度。
6.建立嚴(yán)苛過濾標(biāo)準(zhǔn)
我們擬采用一套嚴(yán)苛的篩選標(biāo)準(zhǔn)體系,對(duì)經(jīng)類別fdr體系評(píng)估后的結(jié)果數(shù)據(jù)進(jìn)行篩選。首先,擬采用以下標(biāo)準(zhǔn)對(duì)其結(jié)果數(shù)據(jù)進(jìn)行全局性過濾:(a)過濾同一張譜圖匹配到被不同搜索引擎鑒定到的不同肽段序列的肽段譜圖匹配結(jié)果;(b)一個(gè)肽段比對(duì)到不同的基因組位置的肽段譜圖匹配結(jié)果(共享肽段),也被過濾掉;(c)過濾掉長度小于7的肽段結(jié)果;(d)過濾污染庫序列以及反庫序列。其次,針對(duì)鑒定到的廣義新肽段結(jié)果(突變肽段、可變剪接肽段、未注釋肽段等)擬使用以下過濾標(biāo)準(zhǔn):(e)過濾掉長度大于29aa的肽段結(jié)果;(f)僅保留全酶切的肽段結(jié)果;(g)含有脫酰胺化修飾或者脲甲基化修飾的肽段譜圖匹配被過濾掉;(h)過濾單肽段序列(一個(gè)肽段序列只對(duì)應(yīng)一個(gè)蛋白)。
7.驗(yàn)證已注釋編碼基因
已注釋肽段的結(jié)果經(jīng)過嚴(yán)苛過濾標(biāo)準(zhǔn)過濾后,被回溯到基因組上用于驗(yàn)證已注釋編碼基因的表達(dá)和結(jié)構(gòu)。
8.鑒定未注釋新基因
建立轉(zhuǎn)錄本數(shù)據(jù)與基因組數(shù)據(jù)之間的索引文件,將經(jīng)過第六步驟嚴(yán)苛篩選標(biāo)準(zhǔn)過濾后的廣義新肽段的結(jié)果比對(duì)到索引文件上,比對(duì)上的結(jié)果被用來篩選未注釋新肽段。該類肽段不包含在原注釋蛋白數(shù)據(jù)庫中,但可與核酸序列信息匹配(genomesearchspecificpeptide,gssp),它們被回溯至基因組進(jìn)行重注釋并分類,同時(shí)通過自主研發(fā)的基因預(yù)測算法鑒定新基因和校正已注釋基因的結(jié)構(gòu)。最后,綜合多組學(xué)的信息對(duì)重注釋的新基因結(jié)果進(jìn)行驗(yàn)證(如利用mrna表達(dá)數(shù)據(jù)輔助蛋白確認(rèn)),提高注釋結(jié)果的可信度。
9.可變剪接的鑒定
廣義新肽段的結(jié)果經(jīng)上一步篩選后,另一部分的新肽段集合首先被用來在肽段水平上鑒定跨越剪接位點(diǎn)的肽段。擬對(duì)該部分新肽段按位置從左至右依次循環(huán)分割成兩段氨基酸片段,通過直接枚舉的方法比對(duì)到六閱讀框翻譯數(shù)據(jù)庫上,參考標(biāo)準(zhǔn)剪接位點(diǎn)的組合形式(gt/ag,gc/ag或at/ac)在規(guī)定長度內(nèi)枚舉可能的外顯子剪接位點(diǎn),并確認(rèn)跨越剪接位點(diǎn)的肽段。該種算法鑒定到的跨越剪接位點(diǎn)的肽段,可能會(huì)因字符排列上的隨機(jī)性和偶然性導(dǎo)致錯(cuò)配。因此我們通過延長新肽段分割的兩段氨基酸片段分別匹配到的六閱讀框翻譯序列,建立一種評(píng)估方法來從鑒定的跨越剪接位點(diǎn)肽段中,篩選高可信度的可變剪接肽段。之后,基于自主研發(fā)的基因預(yù)測算法,針對(duì)篩選的高可信度可變剪接肽段集合進(jìn)行新基因鑒定,以發(fā)現(xiàn)因可變剪接而未能預(yù)測到的新基因以及校正已注釋基因的結(jié)構(gòu)。同時(shí)也會(huì)綜合多組學(xué)的信息(如mrna表達(dá)數(shù)據(jù))對(duì)重注釋的新基因結(jié)果進(jìn)行驗(yàn)證。
10.功能性點(diǎn)突變的鑒定
擬對(duì)廣義新肽段集合過濾未注釋新肽段集合與跨越剪接位點(diǎn)肽段集合,來獲得可能存在功能性點(diǎn)突變的新肽段集合。點(diǎn)突變新肽段集合中長度小于10的肽段被過濾掉。之后,點(diǎn)突變的新肽段被比對(duì)到六閱讀框翻譯數(shù)據(jù)庫上,通過自主研發(fā)的功能性點(diǎn)突變搜索算法,搜索最多任意兩個(gè)點(diǎn)突變的新肽段。該點(diǎn)突變搜索算法在比對(duì)中可能會(huì)因氨基酸字符排列上的隨機(jī)性和偶然性導(dǎo)致錯(cuò)配。所以我們通過上一步所述的評(píng)估方法從鑒定到的功能性點(diǎn)突變肽段中,篩選高可信度的點(diǎn)突變肽段。
11.針對(duì)蛋白質(zhì)翻譯后修飾進(jìn)行大規(guī)模鑒定
擬建立海量質(zhì)譜數(shù)據(jù)中蛋白質(zhì)非限制性翻譯后修飾分析的新算法,結(jié)合unimod蛋白質(zhì)翻譯后修飾類型數(shù)據(jù)庫,通過開放式蛋白序列數(shù)據(jù)庫檢索,鑒定不同類型的已知和未知的蛋白質(zhì)翻譯后修飾,并對(duì)翻譯后修飾位點(diǎn)實(shí)施精準(zhǔn)定位評(píng)估,提升質(zhì)譜數(shù)據(jù)鑒定的準(zhǔn)確度,實(shí)現(xiàn)真核生物翻譯后修飾的快速大規(guī)模發(fā)現(xiàn)和精準(zhǔn)解析。同時(shí),建立質(zhì)譜數(shù)據(jù)中蛋白質(zhì)非特異酶切肽段鑒定的新算法,結(jié)合非特異酶切肽段檢索鑒定結(jié)果和預(yù)測工具(如signalp、predisi等),對(duì)蛋白質(zhì)n端的信號(hào)肽進(jìn)行注釋與驗(yàn)證。
12.新基因和翻譯后修飾的功能性注釋
新基因(包括未被注釋肽段和可變剪接肽段注釋的新基因)的注釋通過執(zhí)行g(shù)o(geneontology)功能注釋來完成。鑒定到的新基因通過使用blastp算法比對(duì)到來自于ncbi的uniref數(shù)據(jù)庫上,并通過得到的每個(gè)新基因的e-value值來篩選。然后,再將其結(jié)果比對(duì)到go功能數(shù)據(jù)庫上,挑選最合適的功能標(biāo)簽對(duì)新基因進(jìn)行注釋。翻譯后修飾結(jié)果的注釋使用cog(clusteroforthologousgroupsofproteins)功能注釋來完成。鑒定到的翻譯后修飾蛋白被比對(duì)到cog數(shù)據(jù)庫上,同時(shí)進(jìn)行數(shù)據(jù)轉(zhuǎn)換、處理和整合來實(shí)現(xiàn)翻譯后修飾的注釋。
附圖說明
為了更清楚地說明本發(fā)明專利的技術(shù)方案,下面將對(duì)本方法的技術(shù)路線以附圖的形式作簡單地介紹。
圖1為一種基于蛋白質(zhì)質(zhì)譜數(shù)據(jù)注釋真核生物基因組的生物信息學(xué)方法的路線圖。
具體實(shí)施方式
展示一下實(shí)例來具體說明發(fā)明的某些實(shí)施例,且不應(yīng)解釋為限制本發(fā)明的范圍。對(duì)本發(fā)明公開的內(nèi)容可以同時(shí)從材料、方法和反應(yīng)條件進(jìn)行改進(jìn),所有這些改進(jìn),均應(yīng)落入本發(fā)明的的精神和范圍之內(nèi)。
實(shí)施案例
黃曲霉菌質(zhì)譜數(shù)據(jù)10g,建立六閱讀框翻譯數(shù)據(jù)庫、n端肽段數(shù)據(jù)庫、從頭預(yù)測蛋白序列數(shù)據(jù)庫、轉(zhuǎn)錄組翻譯序列數(shù)據(jù)庫、整合多組學(xué)數(shù)據(jù)庫,構(gòu)建高覆蓋度的真核生物多組學(xué)序列數(shù)據(jù)庫。
從對(duì)應(yīng)的公共數(shù)據(jù)庫上下載該物種的非編碼rna、假基因、未編碼基因序列和est序列數(shù)據(jù),分別按照中心法則和終止子-終止子翻譯方式,考慮雙鏈因素,翻譯成六種不同的、長度大于38的全酶切肽段序列。
(b)按照第一點(diǎn)(e)步驟的整合策略,將上一步驟中創(chuàng)建的四類數(shù)據(jù)庫,整合成去冗余數(shù)據(jù)庫。
(c)對(duì)構(gòu)建的真核蛋白序列數(shù)據(jù)庫進(jìn)行過濾。假如真核蛋白序列數(shù)據(jù)庫中出現(xiàn)與去冗余數(shù)據(jù)庫相同的序列,這些序列將從真核蛋白序列數(shù)據(jù)庫中移除,縮減其數(shù)據(jù)庫容量。
(d)對(duì)去冗余的真核蛋白序列數(shù)據(jù)庫,根據(jù)序列長度和氨基酸字母排序,創(chuàng)建數(shù)據(jù)字典、建立序列索引,重建并優(yōu)化其數(shù)據(jù)庫的存儲(chǔ)結(jié)構(gòu)。
用x!tandem(搜索算法基于超幾何分布模型),msamanda(基于累積二項(xiàng)分布函數(shù)來確定顯著性的譜圖肽段匹配),ms-gf+(使用標(biāo)量積打分功能去評(píng)估計(jì)算譜圖肽段匹配),omssa(使用泊松分布算法來確定顯著性的譜圖肽段匹配),comet(則使用基于不同屬性的參數(shù)的經(jīng)驗(yàn)打分算法)進(jìn)行數(shù)據(jù)庫檢索。數(shù)據(jù)庫檢索完成之后,分別對(duì)五種搜索引擎的結(jié)果進(jìn)行格式歸一化,處理并整合成統(tǒng)一的結(jié)果數(shù)據(jù)格式。
對(duì)檢索及處理后的結(jié)果分別進(jìn)行肽段圖譜匹配打分。將打分后的結(jié)果肽段使用內(nèi)建的blastp算法回帖到物種蛋白庫和基因組上,并將結(jié)果肽段分類為已注釋肽段譜圖匹配(能夠比對(duì)到蛋白庫上)和廣義新肽段譜圖匹配(未能比對(duì)到蛋白庫上)。針對(duì)已注釋肽段譜圖匹配結(jié)果,根據(jù)打分結(jié)果利用靶標(biāo)-誘餌數(shù)據(jù)庫搜索來計(jì)算全局fdr,對(duì)鑒定結(jié)果進(jìn)一步的評(píng)價(jià),以獲得可靠的肽段譜圖匹配結(jié)果;
(a)過濾同一張譜圖匹配到被不同搜索引擎鑒定到的不同肽段序列的肽段譜圖匹配結(jié)果;(b)一個(gè)肽段比對(duì)到不同的基因組位置的肽段譜圖匹配結(jié)果(共享肽段),也被過濾掉;(c)過濾掉長度小于7的肽段結(jié)果;(d)過濾污染庫序列以及反庫序列。其次,針對(duì)鑒定到的廣義新肽段結(jié)果(突變肽段、可變剪接肽段、未注釋肽段等)擬使用以下過濾標(biāo)準(zhǔn):(e)過濾掉長度大于29aa的肽段結(jié)果;(f)僅保留全酶切的肽段結(jié)果;(g)含有脫酰胺化修飾或者脲甲基化修飾的肽段譜圖匹配被過濾掉;(h)過濾單肽段序列(一個(gè)肽段序列只對(duì)應(yīng)一個(gè)蛋白)。
最后,通過該方法鑒定到黃曲霉菌93.8%的全部預(yù)測的編碼基因,鑒定到的肽段序列覆蓋了81.2%的編碼基因序列,發(fā)現(xiàn)了39種蛋白質(zhì)的翻譯后修飾,發(fā)現(xiàn)了219個(gè)新基因,校正了47個(gè)預(yù)測的基因。
綜上所述,本發(fā)明解決了常規(guī)方法注釋真核生物基因組效率低,準(zhǔn)確度低、覆蓋度低等一系列問題,全面提升蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析的準(zhǔn)確度和靈敏度,實(shí)現(xiàn)了對(duì)真核生物基因組的深度解析和注釋,具體有高效、準(zhǔn)確、全面的特點(diǎn)。
雖然已經(jīng)針對(duì)具體特征對(duì)本發(fā)明作了詳細(xì)描述,然而本領(lǐng)域技術(shù)人員明顯可知,該描述僅是優(yōu)選的實(shí)施方式,并不限制本發(fā)明的范圍,因此,本發(fā)明的實(shí)質(zhì)范圍將通過所附權(quán)利要求及其等同體來限定。