亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種優(yōu)化的16SrDNA高通量測序物種比對方法與流程

文檔序號:11729641閱讀:2210來源:國知局

本發(fā)明涉及一種優(yōu)化的16srdna高通量測序物種比對方法。



背景技術(shù):

隨著測序技術(shù)的成熟和成本的降低,人體微生物菌群研究積累了越來越多的微生物基因序列及微生物菌群方便特征與人類健康、疾病的關(guān)系數(shù)據(jù)。但這些微生物檢驗(yàn)序列數(shù)據(jù)、菌群特征及其與人類健康的關(guān)系等數(shù)據(jù)分散在不同的科學(xué)文獻(xiàn)、公共數(shù)據(jù)庫里,數(shù)據(jù)存儲(chǔ)、呈現(xiàn)方式給不相同,很難實(shí)現(xiàn)不同數(shù)據(jù)來源直接數(shù)據(jù)的比較及集成歸納。有必要建立一個(gè)對不同來源的數(shù)據(jù)進(jìn)行統(tǒng)一化處理、集中儲(chǔ)存管理的數(shù)據(jù)庫,實(shí)現(xiàn)以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)比對及分析。

細(xì)菌中包括有三種核糖體rna,分別為5srrna、16srrna、23srrna,rrna基因由保守區(qū)和可變區(qū)組成。16srrna對應(yīng)于基因組dna上的一段基因序列稱為16srdna。16srdna鑒定是指用利用細(xì)菌16srdna序列測序的方法對細(xì)菌進(jìn)行種屬鑒定。包括細(xì)菌基因組dna提取、16srdna特異引物pcr擴(kuò)增、擴(kuò)增產(chǎn)物純化、dna測序、序列比對等步驟,是一種快速獲得細(xì)菌種屬信息的方法。16srdna普遍存在于原核生物中。rdna參與生物蛋白質(zhì)的合成過程,其功能是任何生物都必不可少的,而且在生物進(jìn)化的漫長歷程中保持不變,可看作為生物演變的時(shí)間鐘。在16srdna分子中,既含有高度保守的序列區(qū)域,又有中度保守和高度變化的序列區(qū)域,因而它適用于進(jìn)化距離不同的各類生物親緣關(guān)系的研究。16srdna的相對分子量大小適中,約1540個(gè)核苷酸,便于序列分析??勺儏^(qū)序列因細(xì)菌不同而異,恒定區(qū)序列基本保守,所以可利用恒定區(qū)序列設(shè)計(jì)引物,將16srdna片段擴(kuò)增出來,利用可變區(qū)序列的差異來對不同菌屬、菌種的細(xì)菌進(jìn)行分類鑒定。

現(xiàn)有技術(shù)的缺點(diǎn):現(xiàn)有的16srdna高通量測序分析方法中序列比對方法和比對數(shù)據(jù)庫存在不足,各數(shù)據(jù)庫數(shù)據(jù)不完整、分散,導(dǎo)致高通量測序結(jié)果比對信息不完整,獲得菌種較少,不能得到真實(shí)的實(shí)驗(yàn)數(shù)據(jù)結(jié)果。



技術(shù)實(shí)現(xiàn)要素:

為了克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的是提供一種以基因序列為單位,將每個(gè)種所有可獲得的16srdna基因序列進(jìn)行搜集整理和多序列比對的16srdna高通量測序物種比對方法。

為達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案一種優(yōu)化的16srdna高通量測序物種比對方法,按照以下步驟進(jìn)行:

1)、建立greengenes數(shù)據(jù)庫、rdp數(shù)據(jù)庫、silva數(shù)據(jù)庫和ncbi16srdna數(shù)據(jù)庫;

2)、將greengenes數(shù)據(jù)庫中taxonomy信息轉(zhuǎn)化為字符串信息;

3)、分別將步驟1)中的ncbi16srdna數(shù)據(jù)庫,rdp數(shù)據(jù)庫,silva數(shù)據(jù)庫中taxonomy信息轉(zhuǎn)化為字符串信息;

4)、分別將步驟3)中得到的字符串信息與步驟2)中得到的字符串信息進(jìn)行對比,如步驟3)中得到的字符串信息與步驟2)得到的字符串信息完全一致,則將ncbi16srdna數(shù)據(jù)庫,rdp數(shù)據(jù)庫,silva數(shù)據(jù)庫中的taxonomy信息去除,如步驟3)中得到的字符串信息與步驟步驟2)得到的字符串信息不一致,則將ncbi16srdna數(shù)據(jù)庫,rdp數(shù)據(jù)庫,silva數(shù)據(jù)庫中的taxonomy信息導(dǎo)入到greengenes數(shù)據(jù)庫中形成新的greengenes數(shù)據(jù)庫。

所述步驟3)中的轉(zhuǎn)化后的字符串信息首先進(jìn)行格式化處理,格式化處理后的字符串信息與步驟2)中得到的字符串信息的格式相同。

所述的ncbi16srdna數(shù)據(jù)庫,rdp數(shù)據(jù)庫,silva數(shù)據(jù)庫定期自動(dòng)檢索ncbi數(shù)據(jù)庫,并將ncbi數(shù)據(jù)庫中的數(shù)據(jù)信息導(dǎo)入到自身的數(shù)據(jù)庫中。

所述的ncbi數(shù)據(jù)庫中的數(shù)據(jù)是通過web搜索來進(jìn)行更新的。

本發(fā)明的有益效果是:利用改良的序列比對方法和信息全面的比對數(shù)據(jù)庫,能夠從高通量數(shù)據(jù)中獲得更加詳實(shí)的實(shí)驗(yàn)結(jié)果。分析者能夠根據(jù)結(jié)果找到與更多實(shí)驗(yàn)密切相關(guān)的菌種,有利于推進(jìn)醫(yī)療,衛(wèi)生,環(huán)境科學(xué)的發(fā)展。

附圖說明

圖1是本發(fā)明原理示意框圖;

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)行詳細(xì)的描述。

如圖1所示的一種優(yōu)化的16srdna高通量測序物種比對方法,按照以下步驟進(jìn)行:

1)、建立greengenes數(shù)據(jù)庫、rdp數(shù)據(jù)庫、silva數(shù)據(jù)庫和ncbi16srdna數(shù)據(jù)庫;

2)、將將greengenes數(shù)據(jù)庫中taxonomy信息轉(zhuǎn)化為字符串信息;

3)、分別將步驟1)中的ncbi16srdna數(shù)據(jù)庫、rdp數(shù)據(jù)庫、silva數(shù)據(jù)庫中taxonomy信息轉(zhuǎn)化為字符串信息;

4)、分別將步驟3)中得到的字符串信息與步驟2)中得到的字符串信息進(jìn)行對比,如步驟3)中得到的字符串信息與步驟2)得到的字符串信息完全一致,則將ncbi16srdna數(shù)據(jù)庫,rdp數(shù)據(jù)庫,silva數(shù)據(jù)庫中的taxonomy信息去除,如步驟3)中得到的字符串信息與步驟步驟2)得到的字符串信息不一致,則將ncbi16srdna數(shù)據(jù)庫,rdp數(shù)據(jù)庫,silva數(shù)據(jù)庫中的taxonomy信息導(dǎo)入到greengenes數(shù)據(jù)庫中形成新的greengenes數(shù)據(jù)庫。

所述步驟3)中的轉(zhuǎn)化后的字符串信息首先進(jìn)行格式化處理,格式化處理后的字符串信息與步驟2)中得到的字符串信心的格式相同。

所述的ncbi16srdna數(shù)據(jù)庫,rdp數(shù)據(jù)庫,silva數(shù)據(jù)庫每天自動(dòng)檢索ncbi數(shù)據(jù)庫,并將ncbi數(shù)據(jù)庫中的數(shù)據(jù)信息導(dǎo)入到自身的數(shù)據(jù)庫中。

所述的ncbi數(shù)據(jù)庫中的數(shù)據(jù)是通過web搜索來進(jìn)行更新的。

具體的是,對測序序列精確的解釋依賴標(biāo)準(zhǔn)數(shù)據(jù)庫,目前流行的標(biāo)準(zhǔn)數(shù)據(jù)庫有rdp,greengenes及silva.這些數(shù)據(jù)庫主要是依靠一代測序的結(jié)果建立起來的,現(xiàn)在公用數(shù)據(jù)庫中不僅有一代測序16srdna基因序列,用高通量測序得到的數(shù)據(jù)也越來越多,為了能更合理地組織這些日益增多的這兩種技術(shù)的序列數(shù)據(jù),本專利建立16srdna基因序列比對數(shù)據(jù)庫(precisiongenedatabase,簡稱prs-db)。該數(shù)據(jù)庫以基因序列為單位,將每個(gè)種所有可獲得的16srdna基因序列進(jìn)行搜集整理和多序列比對。數(shù)據(jù)庫以greengenes數(shù)據(jù)庫為基礎(chǔ),通過以下的步驟進(jìn)行

1)將greengenes數(shù)據(jù)庫中taxonomy信息轉(zhuǎn)化為字符串信息.2)分別將ncbi16srdna數(shù)據(jù)庫,rdp數(shù)據(jù)庫,silva數(shù)據(jù)庫中taxonomy信息轉(zhuǎn)化為字符串信息。3)分別將上述3個(gè)數(shù)據(jù)庫的taxonomy信息與greengenes數(shù)據(jù)庫中taxonomy信息進(jìn)行對比,如何完全一致,則去除。將不一致的導(dǎo)入到greengenes數(shù)據(jù)庫中形成新的數(shù)據(jù)庫。將ncbi16srdna數(shù)據(jù)庫,rdp數(shù)據(jù)庫,silva數(shù)據(jù)庫中g(shù)reengenes數(shù)據(jù)庫沒有的的taxonomy信息進(jìn)行整合,建立完善的16srdna基因序列比對數(shù)據(jù)庫,使得在相同的比對方法下,新建立的16srdna基因序列比對數(shù)據(jù)庫能夠比對到更多的物種信息。

本方案中利用獨(dú)特的方法(precisiongenedatabasetool)整合ncbi中細(xì)菌16srdna數(shù)據(jù)庫,rdp數(shù)據(jù)庫和silva數(shù)據(jù)庫。該方法能夠以grengene數(shù)據(jù)庫為模板,將來自不同數(shù)據(jù)庫的物種信息字符串的轉(zhuǎn)化形成特定的格式,從而轉(zhuǎn)化為相同的格式,再通過去重的方法,分別將上述3個(gè)數(shù)據(jù)庫的taxonomy信息與greengenes數(shù)據(jù)庫中taxonomy信息進(jìn)行對比,如果完全一致,則去除。將不一致的導(dǎo)入到greengenes數(shù)據(jù)庫中形成新的數(shù)據(jù)庫。去除greengenes數(shù)據(jù)庫已有的信息,僅僅保留其他各數(shù)據(jù)庫特有的信息。該方法還可以每天自動(dòng)檢索ncbi數(shù)據(jù)庫通過一段代碼每天瀏覽ncbi官方數(shù)據(jù)庫,通過上述方法比較,將新發(fā)布的數(shù)據(jù)信息導(dǎo)入到自己的數(shù)據(jù)庫中,再形成新的數(shù)據(jù)庫,及時(shí)的更新最新的物種信息。

通過上述方法得到的新的數(shù)據(jù)庫(prs-db)含有更豐富的物種信息,相比greengenes數(shù)據(jù)庫,在6個(gè)分類水平上的數(shù)量明顯增加,其中種水平的增幅達(dá)到19倍左右。從而可以得到更多更加詳細(xì)的分類信息,使得科研工作者,醫(yī)生能夠得到精準(zhǔn)的分析結(jié)果,達(dá)到精準(zhǔn)治療的效果(表1)。

表1:改進(jìn)的數(shù)據(jù)庫(prs-db)與greengenes的區(qū)別

使用prs-db對16srdna測序數(shù)據(jù)進(jìn)行比對分析的實(shí)施例:

這個(gè)例子對10個(gè)健康志愿者的糞便樣品,進(jìn)行16srdna高通量測序,得到大約800萬個(gè)16srdna序列,在去重、質(zhì)控等步驟后,使用qiime流程,將這些序列與prs-db進(jìn)行比對,賦予分類信息;結(jié)果發(fā)現(xiàn),利用2個(gè)數(shù)據(jù)庫對比10個(gè)正常人16srdna數(shù)據(jù),從上面表中可以看出,prs-db相比greengenes數(shù)據(jù)庫雖然少了一個(gè)目(order)的分類,但其屬和種水平上的數(shù)量明顯增加,其中種水平的增幅達(dá)到2倍左右,因此此實(shí)施結(jié)果可以得到更多更加詳細(xì)的分類信息,發(fā)現(xiàn)了更多的物種,得到了精準(zhǔn)的分析結(jié)果。

利用改良數(shù)據(jù)庫進(jìn)行比對可以獲得更多的菌種信息,在門綱目科屬種這6個(gè)分類層次上,改良的數(shù)據(jù)庫對比到的結(jié)果均得到不同程度的提升,尤其是種分類水平上的。這就使得原先不能區(qū)分的種信息得以區(qū)分,為科研工作者提供更加準(zhǔn)確的結(jié)果(表2)。

表2:10個(gè)樣品與兩個(gè)數(shù)據(jù)庫prs-db、greengenes比對獲得的結(jié)果比較

以上實(shí)施例僅僅是對本發(fā)明的舉例說明,并不構(gòu)成對本發(fā)明的保護(hù)范圍的限制,凡是與本發(fā)明相同或相似的設(shè)計(jì)均屬于本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1