亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于大樹構(gòu)建子樹的系統(tǒng)進化樹重建方法

文檔序號:8259276閱讀:1062來源:國知局
一種基于大樹構(gòu)建子樹的系統(tǒng)進化樹重建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于應(yīng)用生物信息學(xué)技術(shù)領(lǐng)域,尤其涉及一種基于大樹構(gòu)建子樹的系統(tǒng)進 化樹重建方法,主要應(yīng)用于生物系統(tǒng)發(fā)育、生物條形碼、生物物種鑒定、生態(tài)樣方進化樹重 建等相關(guān)領(lǐng)域的根據(jù)大數(shù)據(jù)的系統(tǒng)進化基礎(chǔ)大樹重建系統(tǒng)進化子樹并可視化的方法。
【背景技術(shù)】
[0002] 系統(tǒng)發(fā)育樹也稱系統(tǒng)進化樹(phylogenetic tree),它是用類似樹狀分支的圖來 表示各種(類)生物之間的親緣關(guān)系,通過對生物序列的研宄來推測物種的進化歷史。主 要是通過DNA序列,蛋白質(zhì)序列,蛋白質(zhì)結(jié)構(gòu)等來構(gòu)建系統(tǒng)發(fā)育樹,或者通過蛋白質(zhì)結(jié)構(gòu)比 較包括剛體結(jié)構(gòu)疊合和多結(jié)構(gòu)特征比較等方法建立結(jié)構(gòu)進化樹。研宄系統(tǒng)發(fā)育樹的目的 可以重建祖先序列P性狀;估計來自于同一個祖先的不同生物之間的分歧時間;識別和疾 病關(guān)聯(lián)的突變等?;诜肿拥倪M化研宄已經(jīng)應(yīng)用到許多方面,如基因進化、物群劃分、交配 系統(tǒng)、物種鑒定、父親身份測試,環(huán)境監(jiān)視以及已經(jīng)轉(zhuǎn)移物種的疾病源的研宄等(Francesca D. Ciccarelli, et al. , ^Toward Automatic Reconstruction of a Highly Resolved Tree of Life,SCIENCE,vol. 311,p. 1283, 2006. ;I. Wapinski, et al. , ^Automatic genome-wide reconstruction of phylogenetic gene trees,''Bioinformatics,vol. 23, pp. i549-i558, 2007. ;Zhen Meng,et al.,''Construction of the Platform for PhylogeneticAnalysis,''Data Driven e-Science,pp. 507-514, 201L ) 〇
[0003] DNA條形碼技術(shù)是利用標(biāo)準(zhǔn)的、有足夠變異的、易擴增且相對較短的DNA片段(分 子標(biāo)記)自身在物種種內(nèi)的特異性和種間的多樣性而創(chuàng)建的一種新的生物身份識別系統(tǒng), 它可以對物種進行快速的自動鑒定。DNA條形碼技術(shù)可以彌補傳統(tǒng)分類方法的不足,該技 術(shù)將是今后生物物種鑒定發(fā)展的必然趨勢(Schindel,D. and S.E. Miller, DNA barcoding a useful tool for taxonomists. Nature, 2005.)。中國陸地植物的系統(tǒng)進化樹(Tree of life for the genera of Chinese vascular plants)是以《中國植物志》中的陸地植物植 物為對象在屬的水平上,通過合理取樣策略(最大限度的屬種覆蓋以減少數(shù)據(jù)丟失),并采 用5個分子標(biāo)記(4個葉綠體基因:ATPB基因、matK基因、ndhF基因和rbcL基因;一種線粒 體基因:matR基因)為分子標(biāo)記進行構(gòu)建的。在國內(nèi)首次采用6106種代表3118屬構(gòu)建的 中國陸地植物(維管植物)系統(tǒng)進化大樹,將為中國陸地植物在基因進化、物群劃分等方面 應(yīng)用提供參考標(biāo)準(zhǔn)。
[0004] 相關(guān)的系統(tǒng)發(fā)育樹的關(guān)系一般使用newick格式(Olsen G. 1990. "Newick' s 8:45〃Tree Format Standard)存放。其文本文件的特點,在實際應(yīng)用中,特別像在中國陸地 植物系統(tǒng)進化基礎(chǔ)大樹這樣的大數(shù)據(jù)中,其檢索利用相當(dāng)不便。并且面對諸如根據(jù)名錄快 速構(gòu)建生物樣方中植物系統(tǒng)進化關(guān)系的需求等就更加無能為力。
[0005] 因此,為了充分挖掘利用類似中國陸地植物的系統(tǒng)進化樹這類系統(tǒng)進化基礎(chǔ)大樹 上的進化信息、滿足根據(jù)名錄快速構(gòu)建生物樣方中生物進化關(guān)系的需要,本發(fā)明提出一種 基于大樹構(gòu)建子樹的系統(tǒng)進化樹重建方法,并基于中國陸地植物系統(tǒng)進化基礎(chǔ)大樹進行了 相關(guān)的方案實施。

【發(fā)明內(nèi)容】

[0006] 針對現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明的目的在于提供一種基于系統(tǒng)進化基礎(chǔ) 大樹構(gòu)建子樹的系統(tǒng)進化樹重建方法,其具體過程為:
[0007] 步驟A:系統(tǒng)進化基礎(chǔ)大樹的解析分割:對系統(tǒng)進化基礎(chǔ)大樹的文件進行分割重 構(gòu),記錄分割次數(shù)、分割權(quán)值,轉(zhuǎn)化為二叉樹數(shù)據(jù)結(jié)構(gòu),并記錄每個元素的關(guān)系鏈,接下來執(zhí) 行步驟B;
[0008] 步驟B:系統(tǒng)進化基礎(chǔ)大樹的重構(gòu)存儲:對所述分割次數(shù)、分割權(quán)值、關(guān)系鏈等數(shù) 據(jù)存到數(shù)據(jù)庫中,并建立相關(guān)索引,以供執(zhí)行步驟D,E時使用;
[0009] 步驟C:物種子名錄標(biāo)準(zhǔn)化:對需要基于步驟A所述的系統(tǒng)進化基礎(chǔ)大樹進行子樹 構(gòu)建的物種子名錄標(biāo)準(zhǔn)化,首先根據(jù)物種子名錄確定物種子名錄列表,然后進行匹配查詢 獲得節(jié)點元素列表以及物種子名錄列表與該節(jié)點元素列表的映射關(guān)系(即匹配關(guān)系),以 供執(zhí)行步驟D;
[0010] 步驟D :檢索每個節(jié)點元素的關(guān)系鏈:對所述得到的標(biāo)準(zhǔn)化名錄中的每個節(jié)點元 素在數(shù)據(jù)庫中進行信息檢索獲得每個節(jié)點元素的關(guān)系鏈,以供執(zhí)行步驟E;
[0011] 步驟E :構(gòu)建節(jié)點元素分組關(guān)系:對所得到的所有關(guān)系鏈從葉子節(jié)點開始進行比 對匹配以形成節(jié)點元素的分組關(guān)系,接下來執(zhí)行步驟F;
[0012] 步驟F :計算生成權(quán)值:依據(jù)對應(yīng)的每個節(jié)點元素在系統(tǒng)進化基礎(chǔ)大樹中的節(jié)點 權(quán)值和物種分組關(guān)系,計算每個節(jié)點元素及其所在分組在系統(tǒng)進化子樹中對應(yīng)的新權(quán)值, 接下來執(zhí)行步驟G;
[0013] 步驟G:輸出系統(tǒng)進化子樹:循環(huán)遞歸步驟E、F可以輸出任意子樹并轉(zhuǎn)化為 newick格式,接下來執(zhí)行步驟H;
[0014] 步驟H:系統(tǒng)樹數(shù)據(jù)的可視化:對上述步驟獲得的系統(tǒng)進化子樹數(shù)據(jù)進行可視化。
[0015] 上述步驟A中的系統(tǒng)進化基礎(chǔ)大樹是指大范圍的系統(tǒng)進化樹,能夠代表一定領(lǐng)域 或一定級別的基礎(chǔ)物種名錄的進化關(guān)系,步驟C標(biāo)準(zhǔn)化后的名錄是上述基礎(chǔ)物種名錄的子 集;
[0016] 上述步驟A中權(quán)值即節(jié)點間的枝長差值或最末端葉子節(jié)點的枝長,枝長代表的是 物種間的系統(tǒng)進化的分歧時間;
[0017] ( ( a : n I,b:n2):n3, (c:n4,d:n5) :n6) ; ............................................................Setl
[0018] ((a:nl,b:n2) :n3, (c:n4, d:n5) :n6) :0............................................................Set2
[0019] 上述步驟A中的系統(tǒng)進化基礎(chǔ)大樹的格式為newick格式,例如:Setl。其中:"a"、 " b "、" c "和" d "為物種名錄;" n 1"、" n2 "、" n3 "、" n4 "、" n5 "和" n6 "為物種或物種類群的枝 長;分隔符逗號","分割有且僅有兩個子集合;除了最外層的唯一集合外,其它的任意集合 和元素都有其枝長,枝長表述為該集合(物種類群)或者元素(物種)的一個權(quán)值。
[0020] 上述步驟A中的解析重構(gòu)方法用所述舉例數(shù)據(jù)進行說明,其相關(guān)解析后數(shù)據(jù)如 表1所示:(1)首先將Setl轉(zhuǎn)化為Set2的形式;(2)對上述字符進行以最中間的逗號遞歸 依次分割,并記錄當(dāng)前分割次數(shù)以及當(dāng)前分割集合的權(quán)值。(3)依據(jù)(2)所述過程分割直 至完成并記錄每個元素的關(guān)系鏈:"a = [si, s2] "、"b = [si, s2] "、"c = [si, s3] "、"d = [sl,s3]"。其中,關(guān)系鏈記錄了每個元素即葉子節(jié)點的分割次序關(guān)系,從關(guān)系可以追溯其分 割過程,即可追溯葉子節(jié)點的各級父節(jié)點。
[0021] 上述步驟B中的系統(tǒng)進化基礎(chǔ)大樹的重構(gòu)存儲方法即對步驟A中所述分割次 數(shù)、分割權(quán)值、關(guān)系鏈等元素數(shù)據(jù)依據(jù)其鍵值對"Key :Value"的NOSQL數(shù)據(jù)特點存儲到 MongoDB(http://www.mongodb. org/)數(shù)據(jù)庫中,并建立相關(guān)索引,以供執(zhí)行步驟D,E時使 用。
[0022] 上述步驟C中的物種子名錄標(biāo)準(zhǔn)化方法即對需要基于步驟A所述的系統(tǒng)進化大樹 進行子樹構(gòu)建的輸入物種子名錄進行標(biāo)準(zhǔn)化,其方法包括:(1)首先,判定輸入物種子名錄 中的每個物種是否在步驟A中所述系統(tǒng)進化基礎(chǔ)大樹所代表的物種名錄(可以為接受名或 異名)中:如果為"是",統(tǒng)一轉(zhuǎn)換為物種子名錄列表(如果其為接受名將其添加到所述物 種子名錄列表中;如果其為異名,則根據(jù)異名與接受名對應(yīng)關(guān)系轉(zhuǎn)換為接受名后將其添加 到所述物種子名錄列表中。);如果為"否",返回列表供用
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1