一種分析微生物群落結(jié)構(gòu)所需測序量的預(yù)測方法
【技術(shù)領(lǐng)域】:
[0001] 本發(fā)明屬于微生物生態(tài)學(xué)領(lǐng)域,具體設(shè)及一種分析微生物群落結(jié)構(gòu)所需測序量的 預(yù)測方法,尤其是在生態(tài)學(xué)研究中預(yù)測環(huán)境中微生物群落結(jié)構(gòu)解析所需最小測序量的方 法。
【背景技術(shù)】:
[0002] 目前,各種環(huán)境中的微生物群落受到廣泛關(guān)注。隨著分析手段的不斷發(fā)展,我們對 同一個樣品中的微生物群落組成分析的深度不斷加深,從最初一個微生物群落構(gòu)建幾十個 細菌16S rRNA基因克隆進行測序分析到目前通過高通量測序技術(shù)分析到幾萬甚至幾十萬 條16S rRNA基因序列。運極大地拓展了我們對環(huán)境中微生物多樣性的認識。然而,盡管高通 量測序技術(shù)能夠做到對每個樣品中上百萬的細菌16S rRNA基因序列進行測序分析,并成為 目前微生物群落結(jié)構(gòu)解析的主流手段,但是考慮到測序成本,目前多數(shù)分析還處于對每個 樣品進行上萬到十幾萬條細菌16S rRNA基因序列測序的深度。
[0003] 自然環(huán)境中,微生物具有極高的多樣性,如1克±壤中預(yù)計含有107-1〇11個細菌細 胞,幾千甚至上萬種細菌。運些微生物在群落中的分布極不均勻,通常少數(shù)幾種優(yōu)勢種占據(jù) 微生物群落中總細胞數(shù)的80% W上。另外,通常作為分子標記用于解析細菌群落結(jié)構(gòu)的細 菌16S rRNA基因在基因組中的拷貝數(shù)有1-15個不等。W上因素都增加了通過16S rRNA基因 序列的測序解析微生物群落結(jié)構(gòu)的難度。盡管目前普遍認為測序深度越深,對微生物群落 結(jié)構(gòu)的解析越充分,但究竟最少需要對多少16S rRNA基因序列進行測序才能夠代表性地解 析微生物群落中的物種組成目前尚不清楚,運就導(dǎo)致我們難W判斷所獲得的微生物群落結(jié) 構(gòu)是否能夠真實反映它們在自然條件下的情況。
【發(fā)明內(nèi)容】
:
[0004] 為了克服目前無法判斷獲取具有代表意義的微生物群落所需要的最少測序量,本 發(fā)明的目的是提供一種分析微生物群落結(jié)構(gòu)所需測序量的預(yù)測方法,該方法能夠通過對同 一樣品進行最少Ξ次較低深度的重復(fù)測序來準確預(yù)測要獲得擬分析的微生物群落組成的 有效信息時所需要的測序量。
[0005] 本發(fā)明的分析微生物群落結(jié)構(gòu)所需測序量的預(yù)測方法,其特征在于,包括W下步 驟:
[0006] -、校正函數(shù)PSb/AS = a' · logi〇(PSb)+b'中a'和b'的獲得
[0007] a、選擇不少于10個已有16S rRNA基因測序信息且與擬分析的微生物群落結(jié)構(gòu)生 境接近的微生物群落,命名為微生物群落Mi、M2、M3、……、Μη,η含10,每個微生物群落含有的 16S rRNA序列數(shù)為AS;
[000引對于上述化、M2、M3、……、Mn微生物群落,確定不少于5個隨機抽樣深度進行抽樣獲 得16S rRNA基因序列組,分別命名為Di、化、03、……、D。序列數(shù)目的16S rRNA基因序列組,η >5,運些16S rRNA基因序列組滿足W下特點:(1)運η組序列數(shù)目的16S rRNA基因序列組的 序列數(shù)量各不相同但最多的序列數(shù)量不超過所選擇的微生物群落中AS最少的16S rRNA基 因序列數(shù),即Di 辛02 辛03 辛……辛Dn,且mix{Di,D2,D3,……,Dn} <min{AS} ; (2)Di、D2、 03、……、Dn序列數(shù)目的16S rRNA基因序列組,每個微生物群落每個序列數(shù)目的16S rRNA基 因序列組具有3個W上的重復(fù)樣,即Di序列數(shù)目的16S rRNA基因序列組具有3個W上的重復(fù) 樣,化序列數(shù)目的16S rRNA基因序列組具有3個W上的重復(fù)樣,依此類推;(3)分別從Mi、M2、 M3、……、Μη微生物群落抽取的化、02、化、……、Dn序列數(shù)目的16S rRNA基因序列組,它們的 Di.D2.D3.……、Dn序列數(shù)目是一致的,即所有微生物群落抽取的3個化序列數(shù)目的16S rRNA 基因序列組的序列數(shù)目是相同的,都是化;所有微生物群落抽取的3個D2序列數(shù)目的16S rRNA基因序列組的序列數(shù)目是相同的,都是D2;依此類推;
[0009] b、在相同的抽樣深度條件下,分別計算每個微生物群落中化、〇2、化、……、Dn序列 數(shù)目的16S rRNA基因序列組中抽取的3個重復(fù)樣的群落間距離d,然后對每個微生物群落單 獨擬合序列數(shù)目Di、D2、D3、……、Dn的10為底的對數(shù)函數(shù)值與群落間距離d之間的相關(guān)方程d =a · logioD+b,上述所述D為序列數(shù)目,獲得式中的a值和b值;
[0010] C、令d = 0,計算每個微生物群落預(yù)測的測序深度PSb,即方程d = a · logi日D+b中d = 0時伽值;
[001。 d、比較每個微生物群落預(yù)測的測序深度PSb與AS之間的差異,并通過擬合方程PSb/ AS = a' · logi0(PSb)+b'獲得a'和b'的值;
[0012] 二、預(yù)測群落所需最少測序量
[0013] 對擬分析的微生物群落中的16S rRNA基因進行若干次重復(fù)的隨機PCR擴增,并進 行測序,得到若干個數(shù)據(jù)集,分別從每個測序的數(shù)據(jù)集中抽取ai、曰2、曰3、……、an序列數(shù)的序 列,由各個數(shù)據(jù)集中抽取的ai組成{ai}數(shù)據(jù)集,32組成{32}數(shù)據(jù)集,W此類推,分別計算相同 序列數(shù)D的數(shù)據(jù)集之間的群落間距離d,所述的若干次指3次W上,所述的曰1、曰2、曰3、……、an 序列數(shù)滿足ai辛日2辛日3辛......辛an,所述的η
[0014] 根據(jù)得到的D和相對應(yīng)的d擬合方程d = a · logioD+b,并獲得式中的a值和b值;
[001 引根據(jù)公式PSa = PSb/(PSb/PSa) sPSb/(PSb/AS) = (l0-b/aV(b'-a' · b/a),代入a'、 b'、a和b值,計算獲得分析微生物群落結(jié)構(gòu)所需測序量PSa。
[0016] 本發(fā)明通過擬合因測序量不足引起的群落間距離與測序量之間的回歸關(guān)系,獲得 兩者之間的回歸方程,并通過預(yù)測誤差與測序量之間的回歸關(guān)系對該回歸方程進行校正。 隨著測序量的增加,因測序量不足引起的群落間距離會逐漸變?。划斣摼嚯x接近0時,多次 重復(fù)采樣獲得的群落結(jié)構(gòu)的相似性就接近100%,該群落結(jié)構(gòu)就能夠代表環(huán)境中的微生物 群落組成。因此,通過設(shè)定所獲得的線性方程中的群落間距離為0,根據(jù)校正后的回歸方程 可W較為準確地預(yù)測出能夠反映環(huán)境微生物群落組成所需要的測序量。
[0017] 本發(fā)明的有益效果為:可W通過對擬分析的微生物群落進行Ξ次較低測序深度的 測序分析,根據(jù)測序結(jié)果通過本發(fā)明的方法就能預(yù)測該微生物群落結(jié)構(gòu)時所需的最少測序 量,操作簡單方便。
【附圖說明】:
[001引圖1是本發(fā)明的基礎(chǔ)理論模型。
[0019]圖2是4個不同微生物群落11個測序樣品獲得的測序量DW10為底的對數(shù)值與同一 測序量的多個群落間距離d相關(guān)關(guān)系圖。
[0020] 圖3是校正前(A)和校正后(B)所需測序量預(yù)測值和真實值的比值與預(yù)測值之間的 關(guān)系圖。
【具體實施方式】:
[0021] W下實施例是對本發(fā)明的進一步說明,而不是對本發(fā)明的限制。
[0022] 實施例1:
[0023] 如圖1所示,因測序量不足引起的微生物群落間距離隨測序量的增加而變小,當同 一樣品多次采樣獲得的群落間距離接近0時,多次重復(fù)采樣獲得的微生物群落結(jié)構(gòu)的相似 性就接近100%,那么該微生物群落結(jié)構(gòu)就能夠代表環(huán)境中的微生物群落組成。并且因測序 量不足引起的群落間距離與測序量之間存在d = a · logioD+b的相關(guān)關(guān)系,當因測序量不足 弓旭的群落間距離d = 0時,預(yù)測的測序量PSb=l(Tb/a。
[0024] 本實施例擬分析的微生物群落為污染河涌底泥中的微生物群落,即為表1中的L。
[0025] 分析該微生物群落結(jié)構(gòu)所需測序量的預(yù)測方法,包括W下步驟:
[0026] -、校正函數(shù)PSb/AS = a' · logio(PSb)+b'中a'和b'的獲得
[0027] a、選擇11個已有16S rRNA基因測序信息且與擬分析的微生物群落L結(jié)構(gòu)生境接近 的微生物群落,命名為微生物群落A、B、C、D、E、F、G、H、I、J和K,每個微生物群落含有的16S rRNA序列數(shù)為AS,各個微生物群落含有的16S rRNA序列數(shù)的如表1所示;
[0028] 對于上述微生物群落4、8、(:、0、6少、6、山1、1和1(,確定100、500、1000、5000和9600 共5個抽樣深度進行3次抽樣獲得16S rRNA基因序列組,即從微生物群落A中分別抽取3個含 100條16S rRNA基因序列組、3個含500條16S rRNA基因序列組、3個含1000條16S rRNA基因 序列組、3個含5000條16S rRNA基因序列組和3個含9600條16S rRNA基因序列組的樣品;從 微生物群落B中分別抽取3個含100條16S rRNA基因序列組、3個含500條16S rRNA基因序列 組、3個含1000條16S rRNA基因序列組、3個含5000條16S rRNA基因序列組和3個含9600條 16S rRNA基因序列組的樣品,W此類推。
[00巧]6、分別計算每個微生物群落4、8、(:、0、6少、6、山1、1和1(中3個含100條168誠酷基 因序列組、3個含500條16S rRNA基因序列組、3個含1000條16S rRNA基因序列組、3個含5000 條16S rRNA基因序列組和3個含9600條16