相關(guān)申請(qǐng)的交叉引用
無(wú)。
本發(fā)明涉及用于預(yù)測(cè)與微生物群有關(guān)疾病(特別是結(jié)直腸癌(crc)相關(guān)疾病)的風(fēng)險(xiǎn)的生物標(biāo)志物及方法。
背景技術(shù):
在西方國(guó)家,結(jié)直腸癌(crc)是第三大常見(jiàn)癌癥,也是第二大致死的癌癥(schetteraj,harriscrc(2011)alterationsofmicrornascontributetocoloncarcinogenesis.seminoncol38:734–742,通過(guò)引用并入此處)。在全世界范圍內(nèi),每年都有很多人被診斷出患有crc,也有很多患者死于此病。盡管現(xiàn)有的治療手段(包括手術(shù)、放射療法、化學(xué)療法)對(duì)crc具有顯著的臨床治療價(jià)值,然而,手術(shù)后癌癥的復(fù)發(fā)和轉(zhuǎn)移使得這些治療手段不能成功治愈結(jié)直腸癌。因此,對(duì)crc早期的診斷不僅可以降低死亡率,還可以減少手術(shù)治療的費(fèi)用。
現(xiàn)在診斷crc的手段,如可屈性乙狀結(jié)腸鏡檢查和結(jié)腸鏡檢查是侵入式檢查,被檢查的患者在受檢過(guò)程中可能會(huì)感覺(jué)不舒服甚至厭惡。
crc的發(fā)展是受遺傳、生理和環(huán)境因素影響的多因素過(guò)程。對(duì)于環(huán)境因素,生活方式特別是飲食攝入可能會(huì)影響到crc發(fā)生的風(fēng)險(xiǎn)。西方飲食含有豐富的動(dòng)物脂肪但是缺乏纖維,其通常與crc的風(fēng)險(xiǎn)增加有關(guān)。因此,據(jù)推測(cè)飲食和crc之間的關(guān)聯(lián)可能是飲食對(duì)結(jié)腸微生物群和細(xì)菌代謝的影響,從而使得這兩者均是疾病病因?qū)W中的相關(guān)因素(mcgarrse,ridlonjm,hylemonpb(2005).diet,anaerobicbacterialmetabolism,andcoloncancer.jclingastroenterol.39:98–109;hatakkak,holmar,el-nezamih,suomalainent,kuismam,saxelinm,poussat,
概述
本公開(kāi)內(nèi)容的實(shí)施方案旨在至少在一定程度上解決現(xiàn)有技術(shù)中存在的至少一個(gè)問(wèn)題。
本發(fā)明基于發(fā)明人的以下發(fā)現(xiàn):
糞便dna的腸道微生物群分析具有作為非侵入式檢測(cè)方法的潛力,用來(lái)尋找特異性生物標(biāo)志物,而這些標(biāo)志物可以作為crc患者早期診斷的篩選工具,從而延長(zhǎng)壽命,提高生活質(zhì)量。為了分析crc患者的腸道微生物群,本發(fā)明人基于對(duì)128個(gè)中國(guó)人(群體i)的腸道微生物dna的深度鳥(niǎo)槍法測(cè)序,執(zhí)行了宏基因組關(guān)聯(lián)研究(mgwas)(qin,j.etal.ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes.nature490,55–60(2012),通過(guò)引用并入此處)的方案。發(fā)明人鑒定并驗(yàn)證了140,455個(gè)與crc關(guān)聯(lián)的基因標(biāo)志物。為了開(kāi)發(fā)利用腸道微生物群進(jìn)行crc分類(lèi)的潛在能力,發(fā)明人基于通過(guò)最小冗余-最大關(guān)聯(lián)(mrmr)特征選擇方法定義為最優(yōu)基因集的20個(gè)基因標(biāo)志物,開(kāi)發(fā)了一種疾病分類(lèi)系統(tǒng)。為了基于這些20個(gè)腸道微生物群基因標(biāo)志物直觀(guān)地評(píng)估crc疾病的風(fēng)險(xiǎn),發(fā)明人計(jì)算了健康指數(shù)(crc指數(shù))。發(fā)明人的數(shù)據(jù)為表征與crc風(fēng)險(xiǎn)有關(guān)的腸道宏基因組提供了具有洞察力的見(jiàn)解,也為以后研究腸道宏基因組在其他相關(guān)疾病的病理生理學(xué)中的作用提供了一個(gè)范例,同時(shí)還揭示了基于腸道微生物群的方法在評(píng)估處于這樣的疾病風(fēng)險(xiǎn)的個(gè)體中的潛在用途。
據(jù)信腸道微生物群的基因標(biāo)志物對(duì)于增加癌癥的早期檢測(cè)具有重要的價(jià)值,原因如下:首先,本發(fā)明的標(biāo)志物相對(duì)于傳統(tǒng)癌癥標(biāo)志物更特異、更靈敏。其次,采用糞便進(jìn)行分析的結(jié)果準(zhǔn)確、安全、便宜并且患者較易服從。糞便樣品是方便運(yùn)輸?shù)?。與需要腸道準(zhǔn)備的結(jié)腸鏡檢查相比,基于聚合酶鏈?zhǔn)椒磻?yīng)(pcr)的分析方法是舒適的和無(wú)創(chuàng)的,所以人們將更容易參與指定的篩選程序。第三,本發(fā)明的標(biāo)志物還可作為癌癥患者中監(jiān)測(cè)治療的工具,以檢測(cè)對(duì)治療的反應(yīng)。
附圖說(shuō)明
下面結(jié)合附圖說(shuō)明,本發(fā)明公開(kāi)的各個(gè)方面及其優(yōu)勢(shì)將變得顯而易見(jiàn),從而更容易被理解。
圖1示出了本研究中所有微生物基因關(guān)聯(lián)分析的p值分布。crcp值分布的關(guān)聯(lián)分析鑒定了在較低p值下強(qiáng)關(guān)聯(lián)標(biāo)志物不成比例地過(guò)度代表,其中在零假設(shè)下,大部分基因符合預(yù)期的p值分布。這表明,顯著的標(biāo)志物可能代表真實(shí)而不是虛假的關(guān)聯(lián)。
圖2示出了在結(jié)直腸癌中與腸道微生態(tài)失調(diào)有關(guān)的物種。使用三種不同方法(mlg、motu和img數(shù)據(jù)庫(kù))一致地鑒定兩種crc關(guān)聯(lián)的微生物物種和一個(gè)對(duì)照關(guān)聯(lián)的微生物物種的差別相對(duì)豐度。
圖3示出了莫氏細(xì)小桿菌(solobacteriummoorei)和胃消化鏈球菌(peptostreptococcusstomatis)在crc患者微生物群組中的富集情況。
圖4示出了利用隨機(jī)森林方法和三種不同物種注釋方法進(jìn)行crc特異性物種標(biāo)志物篩選接受者工作特征曲線(xiàn)(roc)。a,利用img400版本對(duì)清潔讀長(zhǎng)進(jìn)行注釋得到的img物種。b,利用已發(fā)表的方法(e.m.
圖5示出了利用三種物種注釋方法(mlg、img和motu)得到的在疾病第二階段及以后的階段富集的三種物種的階段特異性豐度。
圖6示出了在結(jié)直腸癌中與腸道微生態(tài)失調(diào)有關(guān)的物種。在crc的不同階段中,三種在crc關(guān)聯(lián)的微生物群組中富集的細(xì)菌物種的相對(duì)豐度(利用三種不同的物種注釋方法)。
圖7示出了最小冗余-最大關(guān)聯(lián)(mrmr)方法來(lái)識(shí)別區(qū)分結(jié)直腸癌病例與對(duì)照的20個(gè)基因標(biāo)志物。使用生成連續(xù)數(shù)量子集的mrmr方法進(jìn)行增量搜索。對(duì)于每個(gè)子集,錯(cuò)誤率通過(guò)線(xiàn)性判別分類(lèi)器的留一交叉驗(yàn)證方法(loocv)來(lái)估計(jì)。具有最低錯(cuò)誤率的最佳子集包含20個(gè)基因標(biāo)志物。
圖8示出了基于20個(gè)基因標(biāo)志物的特征譜區(qū)分crc病例和對(duì)照個(gè)體的主成分分析(pca)。第一和第二主要成分與crc狀態(tài)關(guān)聯(lián)(pc1和pc2分別解釋了31.9%和13.3%的變異)。將其與基于210萬(wàn)個(gè)基因的分析(其中不能觀(guān)察到所述分別)進(jìn)行比較。
圖9示出了發(fā)現(xiàn)與crc關(guān)聯(lián)的腸道微生物基因標(biāo)志物。來(lái)自本研究的crc患者(黑色)和對(duì)照個(gè)體(灰色)計(jì)算的crc指數(shù),與來(lái)自早期對(duì)2型糖尿病和炎癥性腸病研究中的患者和對(duì)照個(gè)體(灰色)一起顯示。該框描繪了第一和第三的四分位數(shù)之間的四分位數(shù)范圍,內(nèi)部的線(xiàn)表示中位數(shù)。crc患者微生物群組的crc指數(shù)與其余患者有顯著差異。
圖10示出了從中國(guó)人群體i中20個(gè)基因標(biāo)志物中得到的crc指數(shù)的roc分析,其顯示出優(yōu)異的分類(lèi)潛力,其曲線(xiàn)下面積為0.99。
圖11示出了128個(gè)樣品中使用20個(gè)基因標(biāo)志物得到的crc指數(shù)。
圖12示出了crc指數(shù),其以0.97的接受者工作特性(roc)曲線(xiàn)下面積進(jìn)行分類(lèi)。
圖13示出了宏基因組方法定量與四種基因標(biāo)志物的定量聚合酶鏈反應(yīng)(qpcr)之間的相關(guān)性。
圖14-1示出,roc分析顯示使用crc指數(shù)進(jìn)行分類(lèi)的中等潛力,曲線(xiàn)下面積為0.71。
圖14-2示出了crc指數(shù),其分類(lèi)以0.85的接受者工作特征(roc)曲線(xiàn)下面積進(jìn)行分類(lèi)。
圖15示出了與crc關(guān)聯(lián)的強(qiáng)壯基因標(biāo)志物的驗(yàn)證。在第二群體(由47個(gè)病例和109個(gè)健康對(duì)照組成)中測(cè)量?jī)蓚€(gè)基因標(biāo)志物(m1704941:來(lái)自具核梭桿菌的丁酰輔酶a脫氫酶;m1696299:來(lái)自微小小單胞菌的rna聚合酶β亞基,rpob)的定量pcr豐度(log10比例,豐度為0的以-8進(jìn)行作圖)。(a)基于這兩個(gè)基因的crc指數(shù)可以清楚地分別crc微生物群組和對(duì)照。(b)crc指數(shù)以0.84的接受者工作特征(roc)曲線(xiàn)下面積進(jìn)行分類(lèi);(c,d)相對(duì)于對(duì)照和第一階段微生物群組,這兩個(gè)標(biāo)志物基因從crc第二階段和第三階段開(kāi)始顯示相對(duì)較高的出現(xiàn)率和豐度。
圖16示出了crc指數(shù)(僅使用1696299),其以0.80的接受者工作特性(roc)曲線(xiàn)下面積進(jìn)行分類(lèi)。
圖17示出了crc指數(shù)(僅使用1704941),其以0.69的接受者工作特性(roc)曲線(xiàn)下面積進(jìn)行分類(lèi)。
發(fā)明詳述
本文所用的術(shù)語(yǔ)具有本發(fā)明相關(guān)領(lǐng)域的普通技術(shù)人員所通常理解的含義。術(shù)語(yǔ)如“一個(gè)”、“一種”和“所述”不旨在僅指單數(shù)的實(shí)體,而是包括可用于說(shuō)明特定實(shí)施方案的一般類(lèi)別。本文的術(shù)語(yǔ)用于描述本發(fā)明的具體實(shí)施方案,但它們的使用并不限定本發(fā)明,除非在權(quán)利要求中指出。
一方面,本發(fā)明涉及用于預(yù)測(cè)受試者中結(jié)直腸癌(crc)風(fēng)險(xiǎn)的基因標(biāo)志物集,其包含seqidno:1至20所示的一種或多種基因。
在另一方面,本發(fā)明涉及本發(fā)明的基因標(biāo)志物集用于預(yù)測(cè)受試者中結(jié)直腸癌(crc)風(fēng)險(xiǎn)的用途,其包括步驟:
1)從受試者收集樣品j并從樣品中提取dna;
2)確定基因標(biāo)志物集中每個(gè)基因標(biāo)志物的豐度信息;和
3)通過(guò)以下公式計(jì)算樣品j的指數(shù):
aij是樣品j中標(biāo)志物i的相對(duì)豐度,其中i指所述基因標(biāo)志物集中的每個(gè)基因標(biāo)志物;
n是基因標(biāo)志物集中所有crc富集標(biāo)志物的子集;
m是基因標(biāo)志物集中所有對(duì)照富集標(biāo)志物的子集;
和|n|和|m|分別是這兩個(gè)子集中生物標(biāo)志物的大小(數(shù)量)
其中大于臨界值的指數(shù)表明受試者患有結(jié)直腸癌(crc)或處于發(fā)生結(jié)直腸癌(crc)的風(fēng)險(xiǎn)中。
在另一方面,本發(fā)明涉及本發(fā)明的基因標(biāo)志物集用于制備用于預(yù)測(cè)受試者中結(jié)直腸癌(crc)風(fēng)險(xiǎn)的試劑盒的用途,所述預(yù)測(cè)通過(guò)以下步驟:
1)從受試者收集樣品j并從樣品中提取dna;
2)確定基因標(biāo)志物集中每個(gè)基因標(biāo)志物的豐度信息;和
3)通過(guò)以下公式計(jì)算樣品j的指數(shù):
aij是樣品j中標(biāo)志物i的相對(duì)豐度,其中i指所述基因標(biāo)志物集中的每個(gè)基因標(biāo)志物;
n是基因標(biāo)志物集中所有crc富集標(biāo)志物的子集;
m是基因標(biāo)志物集中所有對(duì)照富集標(biāo)志物的子集;
和|n|和|m|分別是這兩個(gè)子集中生物標(biāo)志物的大小(數(shù)量)
其中大于臨界值的指數(shù)表明受試者患有結(jié)直腸癌(crc)或處于發(fā)生結(jié)直腸癌(crc)的風(fēng)險(xiǎn)中。
另一方面,本發(fā)明涉及用于診斷受試者是否患有結(jié)直腸癌或處于發(fā)生結(jié)直腸癌風(fēng)險(xiǎn)中的方法,其包括:
1)從受試者收集樣品j并從樣品中提取dna;
2)確定基因標(biāo)志物集中每個(gè)基因標(biāo)志物的豐度信息,所述基因標(biāo)志物集包含seqidno:1至20所示的一個(gè)或多個(gè)基因;和
3)通過(guò)以下公式計(jì)算樣品j的指數(shù):
aij是樣品j中標(biāo)志物i的相對(duì)豐度,其中i指所述基因標(biāo)志物集中的每個(gè)基因標(biāo)志物;
n是基因標(biāo)志物集中所有crc富集標(biāo)志物的子集;
m是基因標(biāo)志物集中所有對(duì)照富集標(biāo)志物的子集;
和|n|和|m|分別是這兩個(gè)子集中生物標(biāo)志物的大小(數(shù)量)
其中大于臨界值的指數(shù)表明受試者患有結(jié)直腸癌(crc)或處于發(fā)生結(jié)直腸癌(crc)的風(fēng)險(xiǎn)中。
在一個(gè)具體實(shí)施方案中,豐度信息是通過(guò)測(cè)序方法測(cè)定的基因標(biāo)志物集中的每個(gè)基因標(biāo)志物的基因相對(duì)豐度。
在另一個(gè)具體實(shí)施方案中,豐度信息是通過(guò)qpcr方法測(cè)定的基因標(biāo)志物集中每個(gè)基因標(biāo)志物的基因相對(duì)豐度。
在另一個(gè)具體實(shí)施方案中,通過(guò)接受者操作特征(roc)方法獲得臨界值,其中臨界值對(duì)應(yīng)于auc(曲線(xiàn)下面積)達(dá)到其最大值。
在優(yōu)選的實(shí)施方案中,本發(fā)明的基因標(biāo)志物集由seqidno:1至20組成,更優(yōu)選本發(fā)明的基因標(biāo)志物集由seqidno:1、9、13和16組成,最優(yōu)選本發(fā)明的基因標(biāo)志物集由seqidno:13和16組成。在另一優(yōu)選實(shí)施方案中,基因標(biāo)志物集由seqidno:13組成。
另一方面,本發(fā)明涉及如seqidno:13所示的標(biāo)志物或編碼rna聚合酶亞單位β的rpob基因作為預(yù)測(cè)受試者中結(jié)直腸癌(crc)風(fēng)險(xiǎn)的基因標(biāo)志物的用途,其中相對(duì)于對(duì)照樣品,所述受試者樣品中所述基因標(biāo)志物的富集指示受試者中結(jié)直腸癌的風(fēng)險(xiǎn)。
下面將結(jié)合非限制性實(shí)施方案對(duì)本發(fā)明進(jìn)行進(jìn)一步說(shuō)明。除非另有說(shuō)明,份數(shù)和百分比以重量計(jì),溫度以攝氏度表示。本領(lǐng)域技術(shù)人員將理解,下列實(shí)施方案雖然指出了本發(fā)明的優(yōu)選實(shí)施方案,但僅以舉例說(shuō)明的方式給出,所用試劑均可以通過(guò)商業(yè)途徑得到。
實(shí)施例1.鑒定20個(gè)生物標(biāo)志物并使用腸健康指數(shù)來(lái)評(píng)估其結(jié)直腸癌風(fēng)險(xiǎn)
1.1樣品采集
1.1.1中國(guó)樣品采集
群體i(表1,實(shí)施例1中使用,由74個(gè)結(jié)直腸癌患者和54個(gè)對(duì)照受試者組成)和群體ii(表13,實(shí)施例3中使用,由47個(gè)結(jié)直腸癌患者和109個(gè)對(duì)照受試者組成):在香港威爾斯親王醫(yī)院采集2002年至2012年間的糞便樣品。所有樣品的納入標(biāo)準(zhǔn)是:1)不服用抗生素或其他藥物,沒(méi)有特定飲食(糖尿病患者,素食者等),至少3個(gè)月生活方式正常(無(wú)額外壓力);2)醫(yī)療干預(yù)后至少3個(gè)月;3)沒(méi)有結(jié)腸直腸手術(shù)史、任何種類(lèi)的癌癥或腸道的炎性或傳染性疾病。要求受試者在家中收集糞便樣品至標(biāo)準(zhǔn)容器中,并立即存放在家用冰箱中。然后在絕緣聚苯乙烯泡沫容器中將冷凍的樣品送到醫(yī)院,立即儲(chǔ)存在-80℃直到進(jìn)一步分析。
1.1.2丹麥樣品采集
群體iii(表15,實(shí)施例3中使用,由16個(gè)結(jié)直腸癌患者和24個(gè)對(duì)照受試者組成):從由于與結(jié)直腸癌相關(guān)的癥狀而被推薦結(jié)腸鏡檢查或從被診斷患有結(jié)直腸癌的患者而被推薦針對(duì)其原發(fā)性癌癥的大腸切除術(shù)的個(gè)體采集糞便樣品。所有個(gè)體均是在其訪(fǎng)問(wèn)門(mén)診診療所時(shí)(在結(jié)腸鏡檢查前或在手術(shù)前,且總是在腸排空前)被納入的。個(gè)體收到一個(gè)糞便采集套件,其中包括沒(méi)有穩(wěn)定緩沖液的試管,并被指示在大腸排空開(kāi)始前一或兩天在家里采集糞便樣品。每個(gè)被納入的個(gè)體將樣品冷藏在-18℃,并與采集樣品的研究護(hù)士聯(lián)系。在實(shí)驗(yàn)室,糞便樣品立即在液氮中快速冷凍,隨后在-80℃下以24/7電子監(jiān)控方式儲(chǔ)存,直到分析。
所有被納入的個(gè)體因此經(jīng)過(guò)完全結(jié)腸鏡檢查,或作為初始的檢查或在后來(lái)的手術(shù)之后。排除標(biāo)準(zhǔn)是先前的腺瘤、先前的結(jié)直腸癌和先前或目前的其他惡性疾病。
根據(jù)helsinkiii宣言采集糞便樣品和記錄所包括的個(gè)體的資料。該協(xié)議經(jīng)丹麥?zhǔn)锥紖^(qū)倫理委員會(huì)(h-3-2009-110)和丹麥數(shù)據(jù)保護(hù)局(2008-41-2252)批準(zhǔn)。
表1:群體i中結(jié)直腸癌(crc)病例和對(duì)照的基線(xiàn)特征。fbg:空腹血糖;alt/gpt:丙氨酸轉(zhuǎn)氨酶/谷氨酸丙酮酸轉(zhuǎn)氨酶;bmi:體重指數(shù);dm:2型糖尿??;hdl:高密度脂蛋白;tg:甘油三酸酯;egfr:表皮生長(zhǎng)因子受體;tcho:總膽固醇;cr:肌酐;ldl:低密度脂蛋白;tnm:腫瘤淋巴結(jié)轉(zhuǎn)移分期系統(tǒng)。
1.2dna提取
中國(guó)樣品:將糞便樣品在冰上解凍,并根據(jù)制造商的說(shuō)明書(shū)使用qiagenqiaampdnastoolminikit(qiagen)進(jìn)行dna提取。提取物用無(wú)dna酶的rna酶處理以消除rna污染。使用nanodrop分光光度計(jì),qubit熒光計(jì)(使用quant-ittmdsdnabr測(cè)定試劑盒)和凝膠電泳測(cè)定dna量。
丹麥樣品:將每個(gè)糞便樣品的冷凍等分試樣(200mg)懸浮于250μl的4m硫氰酸胍-0.1mtris(ph7.5)和40μl的10%n-月桂酰肌氨酸中。然后,如前所述使用珠研磨法進(jìn)行dna提取(j.j.godon,e.zumstein,p.dabert,f.habouzit,r.moletta,molecularmicrobialdiversityofananaerobicdigestorasdeterminedbysmall-subunitrdnasequenceanalysis.appliedandenvironmentalmicrobiology63,2802(jul,1997),其通過(guò)引用并入本文)。通過(guò)nanodrop(thermoscientific)和瓊脂糖凝膠電泳估計(jì)dna濃度及其分子大小。
1.3dna文庫(kù)構(gòu)建和測(cè)序
按照制造商的說(shuō)明(illuminahiseq2000平臺(tái))進(jìn)行dna文庫(kù)構(gòu)建。本發(fā)明人使用與前述相同的工作流程來(lái)進(jìn)行簇生成,模板雜交,等溫?cái)U(kuò)增,線(xiàn)性化,阻斷和變性,以及測(cè)序引物的雜交(qin,j.等人ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes.nature490,55–60(2012),通過(guò)引用并入本文)。
本發(fā)明人為每個(gè)樣品構(gòu)建了具有350bp的插入片段的一個(gè)配對(duì)末端(pe)文庫(kù),然后進(jìn)行高通量測(cè)序以獲得長(zhǎng)度為2x100bp的約3000萬(wàn)個(gè)pe讀長(zhǎng)。通過(guò)從來(lái)自illumina原始讀長(zhǎng)過(guò)濾具有模糊“n”堿基的低質(zhì)量讀長(zhǎng)、接頭污染和人類(lèi)dna污染以及通過(guò)同時(shí)修剪讀長(zhǎng)的低質(zhì)量末端堿基來(lái)獲得高質(zhì)量的讀長(zhǎng)。產(chǎn)生了7.51億個(gè)宏基因組讀長(zhǎng)(高質(zhì)量讀長(zhǎng))(平均每個(gè)體586萬(wàn)個(gè)讀長(zhǎng))
1.4img基因組的物種注釋
對(duì)于每個(gè)img基因組,通過(guò)使用由img提供的ncbi分類(lèi)標(biāo)識(shí)符,發(fā)明人使用ncbi分類(lèi)轉(zhuǎn)儲(chǔ)文件在種和屬水平上鑒定了相應(yīng)的ncbi分類(lèi)學(xué)分類(lèi)。沒(méi)有相應(yīng)的ncbi物種名稱(chēng)的基因組使用其原始的img名稱(chēng),其中大部分是未分類(lèi)的。
1.5數(shù)據(jù)譜構(gòu)建
1.5.1基因、keggortholog(ko)和屬特征譜
發(fā)明人將基因集的高質(zhì)量讀長(zhǎng)映射到由歐洲和中國(guó)成年人(同一性>=90%)建立的公開(kāi)的參考腸道基因集((qin等人,2012,同上),基于此,發(fā)明人使用與已發(fā)表的t2d論文(qin等,2012,同上)相同的方法得出基因、ko和屬特征譜。
1.5.2motu特征譜
清潔讀長(zhǎng)與默認(rèn)參數(shù)的motu參考序列(總共79268序列)(s.sunagawa等人,metagenomicspeciesprofilingusinguniversalphylogeneticmarkergenes.naturemethods10,1196(dec,2013),通過(guò)引用并入本文)比對(duì)。鑒定了549個(gè)物種水平的motu,包括307個(gè)注釋物種和242個(gè)無(wú)代表性基因組的motu連鎖群,這些群體被推定為厚壁菌或類(lèi)桿菌屬。
1.5.3img物種和img屬特征譜。
從由http://ftp.jgi-psf.org下載的imgv400參考數(shù)據(jù)庫(kù)(v.m.markowitz等人,img:theintegratedmicrobialgenomesdatabaseandcomparativeanalysissystem.nucleicacidsresearch40,d115(jan,2012),通過(guò)引用并入本文)提取細(xì)菌、古細(xì)菌和真菌序列。總共獲得了522,093個(gè)序列,并且基于原始特征譜的7個(gè)相等大小的塊構(gòu)建了soap參考索引。使用soap對(duì)齊器2.22版本(r.li等人,soap2:animprovedultrafasttoolforshortreadalignment.bioinformatics25,1966(aug1,2009),通過(guò)引用并入本文)將清潔讀長(zhǎng)比對(duì)至參考序列,參數(shù)“-m4-s32-r2-n100-x600-v8-c0.9-p3”。然后,使用soap覆蓋軟件計(jì)算每個(gè)基因組的讀長(zhǎng)覆蓋率,用基因組長(zhǎng)度標(biāo)準(zhǔn)化,并進(jìn)一步標(biāo)準(zhǔn)化至每個(gè)個(gè)體樣品的相對(duì)豐度。該特征譜僅基于唯一映射的讀長(zhǎng)生成。
1.6影響腸道微生物群基因譜的因素分析
根據(jù)參考基因集(qin等人,2012,同上),本發(fā)明人得出了在128個(gè)香港樣品中至少6個(gè)樣品中出現(xiàn)的2.1m(2,110,489)基因子集,并使用這210萬(wàn)個(gè)基因生成了128個(gè)基因豐度譜。本發(fā)明人使用置換多元方差分析(permanova)檢驗(yàn)來(lái)評(píng)估不同特征,包括年齡,bmi,egfr,tcho,ldl,hdl,tg,性別,dm,crc狀態(tài)和位置,對(duì)2.1m基因的基因譜的影響。發(fā)明人利用r中的“vegan”工具包進(jìn)行分析,經(jīng)過(guò)10000次置換,得到置換p值。發(fā)明人還利用r中的“p.adjust”工具包對(duì)多重檢驗(yàn)進(jìn)行校正,利用benjamini-hochberg方法得到每個(gè)基因的q值。
當(dāng)發(fā)明人在19個(gè)不同協(xié)變量上進(jìn)行置換多元方差分析(permanova)時(shí),只有crc狀態(tài)和crc階段與這些基因譜顯著相關(guān)(q<0.05,表2)。因此,數(shù)據(jù)表明crc患者微生物群中改變的基因組成不能被其他記錄的因素所解釋。
表2群體i中微生物基因譜的permanova分析。進(jìn)行分析,以檢驗(yàn)臨床參數(shù)和crc狀態(tài)對(duì)腸道微生物群是否有顯著影響,q<0.05。bmi:體重指數(shù);dm:2型糖尿?。籪bg:空腹血糖;hdl:高密度脂蛋白;tg:甘油三酸酯;egfr:表皮生長(zhǎng)因子受體;tnm:腫瘤淋巴結(jié)轉(zhuǎn)移分期系統(tǒng);tcho:總膽固醇;cr:肌酐;ldl;低密度脂蛋白;alt/gpt:丙氨酸轉(zhuǎn)氨酶/谷氨酸丙酮酸轉(zhuǎn)氨酶。
1.7mgwas鑒定的crc關(guān)聯(lián)基因
1.7.1結(jié)直腸癌相關(guān)基因的鑒定
發(fā)明人利用宏基因組廣泛關(guān)聯(lián)研究(mgwas)來(lái)鑒定促成crc中基因組成發(fā)生改變的基因。為了鑒定宏基因組特征譜與crc的關(guān)聯(lián)性,發(fā)明人利用雙側(cè)wilcoxon秩和檢驗(yàn)方法對(duì)2.1m個(gè)基因譜進(jìn)行分析。利用這種方法,發(fā)明人共得到140455個(gè)基因標(biāo)志物,其在病例或在對(duì)照中富集(p<0.01)(圖1)。
1.7.2估計(jì)錯(cuò)誤發(fā)現(xiàn)率(fdr)
為了評(píng)估錯(cuò)誤發(fā)現(xiàn)率(fdr),發(fā)明人沒(méi)有使用連續(xù)p值拒絕方法,而是使用了“q值”方法,該方法在以前的一個(gè)研究中提出(j.d.storey,r.tibshirani,statisticalsignificanceforgenomewidestudies.proceedingsofthenationalacademyofsciencesoftheunitedstatesofamerica100,9440(aug5,2003),通過(guò)引用并入此處)。在此分析中,統(tǒng)計(jì)假設(shè)檢驗(yàn)是在140,455個(gè)基因的大量的特征數(shù)據(jù)上進(jìn)行的。錯(cuò)誤發(fā)現(xiàn)率(fdr)為11.03%。
1.8crc微生物群的分類(lèi)學(xué)改變
發(fā)明人檢查了對(duì)照和crc關(guān)聯(lián)微生物群之間的分類(lèi)學(xué)差異,以鑒定促成生態(tài)失調(diào)的微生物分類(lèi)群。為此,本發(fā)明人使用從三種不同方法得到的分類(lèi)特征譜,因?yàn)閬?lái)自多種方法的支持證據(jù)將加強(qiáng)關(guān)聯(lián)性。首先,發(fā)明人將宏基因組讀長(zhǎng)映射到img數(shù)據(jù)庫(kù)中的4650個(gè)微生物基因組(v.m.markowitz等人,img:theintegratedmicrobialgenomesdatabaseandcomparativeanalysissystem.nucleicacidsresearch40,d115(jan,2012),其通過(guò)引用并入本文)(版本400),并估計(jì)該數(shù)據(jù)庫(kù)中的微生物物種(表示為img物種)的豐度。第二,本發(fā)明人使用通用系統(tǒng)發(fā)育標(biāo)志物基因(s.sunagawa等人,metagenomicspeciesprofilingusinguniversalphylogeneticmarkergenes.naturemethods10,1196(dec,2013),其通過(guò)引用并入本文)估計(jì)了物種水平的分子操作分類(lèi)單位(motu)的豐度。第三,本發(fā)明人將由mgwas鑒定的140,455個(gè)基因組織成代表源自相同基因組的基因簇的宏基因組連鎖群(mlg)(qin等人,2012,同上),在可能的情況下,使用img數(shù)據(jù)庫(kù)注釋物種水平的mlg,基于這些物種注釋分組mlg,然后估計(jì)這些物種(表示為mlg物種)的豐度。
1.8.1鑒定結(jié)直腸癌相關(guān)mlg物種
基于鑒定出的與結(jié)直腸癌關(guān)聯(lián)的140455個(gè)標(biāo)志物基因譜,發(fā)明人利用之前ii型糖尿病研究(qin等人,2012,同上)里描述的方法構(gòu)建結(jié)直腸癌關(guān)聯(lián)的mlg。將所有的基因?qū)Ρ鹊絠mg數(shù)據(jù)庫(kù)v400中的參考基因組以獲取基因組水平的注釋。如果大于50%的組成性基因被注釋到一個(gè)基因組,則將mlg歸屬于該基因組,否則將其稱(chēng)為未分類(lèi)??偣?7個(gè)基因數(shù)目超過(guò)100個(gè)的mlg被選擇為與結(jié)直腸癌相關(guān)聯(lián)的mlg?;谶@些基因組的物種注釋將這些mlg分組,從而構(gòu)建出mlg物種。
為了評(píng)估m(xù)lg物種的相對(duì)豐度,發(fā)明人首先去除豐度最高的5%基因和豐度最低的5%基因,然后評(píng)估m(xù)lg物種的基因的平均豐度。通過(guò)計(jì)算屬于該物種的img基因組的豐度之和,從而評(píng)估img物種的相對(duì)豐度。通過(guò)類(lèi)似地計(jì)算物種豐度之和來(lái)估計(jì)屬豐度。
1.8.2crc關(guān)聯(lián)物種
以上分析鑒定了28個(gè)img物種、21個(gè)motu和85個(gè)mlg物種與通過(guò)結(jié)腸鏡檢查分層為混雜因素的crc狀態(tài)顯著相關(guān)(wilcoxon秩和檢驗(yàn),q<0.05;見(jiàn)表3)。凸腹真桿菌(eubacteriumventriosum)在所有三種方法中均在對(duì)照微生物群組中富集(wilcoxon秩和檢驗(yàn)-img:q=0.002;motu:q=0.0049;mlg:q=3.33x10-4)。另一方面,微小小單胞菌(parvimonasmicra)(q<7.73x10-6),莫氏細(xì)小桿菌(solobacteriummoorei)(q<0.011)和具核梭桿菌(fusobacteriumnucleatum)(q<0.00279)在所有三種方法中均在crc患者微生物群組中富集(圖2,圖3),而根據(jù)三種方法中的兩種,胃消化鏈球菌(peptostreptococcusstomatis)(q<7.73x10-6)富集。permanova分析顯示,只有crc狀態(tài)(所有三種方法p≤0.013)和結(jié)腸鏡檢查(兩種方法的p=0.079)解釋了三種crc富集物種的定量變異。所有其他非crc特異性因子無(wú)法解釋具有統(tǒng)計(jì)學(xué)意義的變異(p>0.18;表4)。胃消化鏈球菌最近已顯示與crc顯著相關(guān),而莫氏細(xì)小桿菌先前已顯示與菌血癥相關(guān)。結(jié)果證實(shí)了在具有不同遺傳和文化起源的新群組中的關(guān)聯(lián)性。然而,在crc關(guān)聯(lián)微生物群中,高度顯著富集的微小小單胞菌(類(lèi)似具核梭桿菌的一種可以引起口腔感染的專(zhuān)一性厭氧細(xì)菌)是一個(gè)新的發(fā)現(xiàn)。微小小單胞菌參與了牙周病的病因,并且產(chǎn)生廣泛的蛋白水解酶,并使用蛋白胨和氨基酸作為能源。已知其產(chǎn)生硫化氫,其促進(jìn)結(jié)腸癌細(xì)胞的腫瘤生長(zhǎng)和增殖。微小小單胞菌可能代表crc的非侵入性診斷生物標(biāo)志物的機(jī)會(huì)。
1.9物種水平分析
為了評(píng)估這些分類(lèi)學(xué)關(guān)聯(lián)分析的預(yù)測(cè)功效,發(fā)明人利用隨機(jī)森林系統(tǒng)學(xué)習(xí)法(d.knights,e.k.costello,r.knight,supervisedclassificationofhumanmicrobiota.femsmicrobiologyreviews35,343(mar,2011),通過(guò)引用并入此處)鑒定三種不同方法得到的物種譜中的關(guān)鍵物種標(biāo)志物。該分析顯示,17個(gè)img物種、7個(gè)物種水平motu和27個(gè)mlg物種高度預(yù)測(cè)crc狀態(tài)(表5),roc分析中的預(yù)測(cè)能力分別為0.86、0.89和0.96(圖4)。從所有三種方法中鑒定出微小小單胞菌為關(guān)鍵物種,從三種方法中的兩種鑒定出具核酸桿菌、胃消化鏈球菌和莫氏細(xì)小桿菌,提供其與crc狀態(tài)的關(guān)聯(lián)性的進(jìn)一步統(tǒng)計(jì)支持。
1.9.1mlg物種標(biāo)志物鑒定
基于構(gòu)建的基因數(shù)目超過(guò)100個(gè)的87個(gè)mlg,發(fā)明人采用benjamini-hochberg調(diào)整法對(duì)每一個(gè)mlg進(jìn)行wilcoxon秩和檢驗(yàn),85個(gè)mlg被篩選出作為與crc相關(guān)的mlg(q<0.05)?;谶@85個(gè)結(jié)直腸癌相關(guān)的mlg物種,發(fā)明人采用r(2.10版)中的“randomforest4.5-36”工具包來(lái)鑒定mlg物種標(biāo)志物。首先,發(fā)明人根據(jù)“randomforest”方法得出的重要性對(duì)所有85個(gè)mlg物種進(jìn)行排序。通過(guò)創(chuàng)建排名高的mlg物種的遞增子集,從包含1個(gè)mlg物種開(kāi)始至包含所有85個(gè)mlg物種結(jié)束,從而構(gòu)建mlg標(biāo)志物集。對(duì)于每個(gè)mlg標(biāo)志物集,發(fā)明人計(jì)算出其在128個(gè)中國(guó)人群體(第一群體)中的錯(cuò)誤預(yù)測(cè)率。最后,選取錯(cuò)誤預(yù)測(cè)率最低的mlg物種集作為mlg物種標(biāo)志物。此外,發(fā)明人利用基于篩選出來(lái)的mlg物種標(biāo)志物得到的疾病發(fā)生概率繪制roc曲線(xiàn)。
1.9.2img物種標(biāo)志物和motu物種標(biāo)志物鑒定
基于img物種譜和motu物種譜,發(fā)明人同樣采用benjamini-hochberg調(diào)整法進(jìn)行wilcoxon秩和檢驗(yàn),從而篩選出與crc顯著相關(guān)(q<0.05)的img物種和motu物種。接著,利用與篩選mlg物種標(biāo)志物相同的方法,即采用隨機(jī)森林法篩選img物種標(biāo)志物和motu物種標(biāo)志物。
1.9.3mlg、img和motu物種的階段富集分析
由于三種方法預(yù)測(cè)的與crc狀態(tài)關(guān)聯(lián)的物種相一致,而且發(fā)明人記錄了crc患者的疾病階段(表1),因此,發(fā)明人對(duì)物種譜進(jìn)行了探索,以尋求鑒定早期crc的特異性標(biāo)記。發(fā)明人推測(cè),這種努力可能揭示很難在全局分析中進(jìn)行鑒定的階段特異性關(guān)聯(lián)。為了確定在crc的四個(gè)階段或健康對(duì)照中有哪些物種富集,發(fā)明人對(duì)基因數(shù)目超過(guò)100的mlg物種和q<0.05(采用benjamini-hochberg調(diào)整法的wilcoxon秩和檢驗(yàn))的所有img物種和motu物種進(jìn)行kruskal檢驗(yàn),利用在crc四個(gè)階段和健康對(duì)照中最高的秩平均獲得物種富集信息。發(fā)明人還利用成對(duì)wilcoxon軼和檢驗(yàn)對(duì)各組兩兩之間的顯著性進(jìn)行比較。
在中國(guó)人群體i中,有幾個(gè)物種在不同的階段顯示顯著不同的豐度。其中,相較于所有其它階段和對(duì)照樣品,發(fā)明人沒(méi)有鑒定出在第一階段富集的任何物種。相較于對(duì)照樣品,胃消化鏈球菌(peptostreptococcusstomatis),變黑普雷沃氏菌(prevotellanigrescens)和共生梭菌(clostridiumsymbiosum)在第二階段或更晚以后富集,表明它們?cè)赾rc形成之后開(kāi)始在結(jié)腸/直腸定殖(圖5)。然而,相較于對(duì)照,具核梭桿菌動(dòng)物亞種(fusobacteriumnucleatum),微小小單胞菌(parvimonasmicra),和莫氏細(xì)小桿菌(solobacteriummoorei)在所有四個(gè)階段均有富集,在第二階段豐度最高(圖6),表明它們可能在crc病因?qū)W和發(fā)病機(jī)制中發(fā)揮作用,也意味著它們可以作為早期crc的潛在生物標(biāo)志物。
1.10crc生物標(biāo)志物發(fā)現(xiàn)
發(fā)明人從使用最小冗余-最大關(guān)聯(lián)(mrmr)特征選擇方法(h.peng,f.long,c.ding,featureselectionbasedonmutualinformation:criteriaofmax-dependency,max-relevance,andmin-redundancy.ieeetransactionsonpatternanalysisandmachineintelligence27,1226(aug,2005),其通過(guò)引用并入本文)的mgwas方法鑒定的140,455個(gè)基因中鑒定出crc的潛在生物標(biāo)志物。為了消除結(jié)腸鏡檢查的混雜效應(yīng),本發(fā)明人選擇了即使在分層結(jié)腸鏡檢查之后也是顯著的基因,其產(chǎn)生了102,514個(gè)基因。然而,由于mrmr方法的計(jì)算復(fù)雜度不允許我們使用所有102,514個(gè)基因,本發(fā)明人必須減少候選基因的數(shù)量。首先,本發(fā)明人選擇了更嚴(yán)格的24,960個(gè)基因集,其具有較高的統(tǒng)計(jì)顯著性(p<0.001;fdr≤5.23%)。然后本發(fā)明人確定了彼此高度相關(guān)的基因組(kendallτ>0.9),并選擇每組中最長(zhǎng)的基因,以產(chǎn)生11,128個(gè)顯著基因的統(tǒng)計(jì)學(xué)上非冗余的組。最后,發(fā)明人使用mrmr方法,并確定了與crc狀態(tài)強(qiáng)相關(guān)的20個(gè)基因的最佳集合(圖7,表6和表7)。使用這20個(gè)基因的pca(主成分分析)顯示crc患者與對(duì)照組的良好分離(圖8)。permanova分析顯示,只有crc狀態(tài)、分期和空腹血糖解釋了20個(gè)標(biāo)志物基因豐度的統(tǒng)計(jì)顯著的變化(p≤0.01;見(jiàn)表8)。雖然發(fā)明人不能排除其他混雜因素,但結(jié)果表明20個(gè)標(biāo)記基因表征crc與對(duì)照微生物群之間的差異。本發(fā)明人基于這20種標(biāo)志物相對(duì)豐度的未加權(quán)對(duì)數(shù)計(jì)算了簡(jiǎn)單的crc指數(shù),其將crc患者微生物群與對(duì)照微生物群以及與來(lái)自之前對(duì)中國(guó)個(gè)體的2型糖尿病(qin等人2012,同上)和歐洲個(gè)體的炎癥性腸病(j.qin等人,ahumangutmicrobialgenecatalogue,bymetagenomicsequencing.nature464,59(2010年3月4日),以引用方式并入本文)的兩個(gè)研究的490個(gè)糞便微生物清楚地分離開(kāi)(圖9,本研究中患者和對(duì)照的中值crc指數(shù)分別為7.31和-5.56;wilcoxon秩和檢驗(yàn),所有五個(gè)比較q<6x10-11,參見(jiàn)表9)。使用crc指數(shù)對(duì)74例crc患者微生物相較于54種對(duì)照微生物群的分類(lèi)顯示接受者工作特征(roc)曲線(xiàn)下面積為0.99(圖10),而相較于相應(yīng)對(duì)照對(duì)2型糖尿病和ibd患者的分類(lèi)的曲線(xiàn)下面積(auc)分別為0.658和0.738,表明該指數(shù)所捕獲的模式主要為crc特異性的。在圖10的0.7383臨界值中,真陽(yáng)性率(tpr)為0.99,假陽(yáng)性率(fpr)為0.07,表明20個(gè)基因標(biāo)志物可用于對(duì)crc個(gè)體進(jìn)行準(zhǔn)確分類(lèi)。
1.10.1最小冗余-最大關(guān)聯(lián)(mrmr)特征選擇框架
為了僅通過(guò)腸道宏基因組學(xué)標(biāo)志物建立結(jié)直腸癌分類(lèi),本發(fā)明人采用mrmr方法進(jìn)行特征選擇。本發(fā)明人使用來(lái)自r的“sidechannelattack”工具包進(jìn)行增量搜索,并發(fā)現(xiàn)128個(gè)有序標(biāo)志物集。對(duì)于每個(gè)有序集,發(fā)明人利用留一交叉驗(yàn)證方法(loocv)評(píng)估線(xiàn)性鑒別分類(lèi)器的錯(cuò)誤率。選取錯(cuò)誤率最低的作為最優(yōu)標(biāo)志物集。在本研究中,發(fā)明人對(duì)一組102,514例結(jié)直腸癌相關(guān)基因標(biāo)志物進(jìn)行了特征選擇。由于沒(méi)有對(duì)所有基因進(jìn)行mrmr分析的計(jì)算能力,發(fā)明人構(gòu)建了統(tǒng)計(jì)上非冗余的基因集。首先,發(fā)明人預(yù)先分組了彼此高度相關(guān)(kendall相關(guān)系數(shù)>0.9)的102,514個(gè)結(jié)直腸癌相關(guān)基因。然后發(fā)明人選擇了最長(zhǎng)的基因作為該組的代表性基因,因?yàn)檩^長(zhǎng)的基因具有較高的功能注釋機(jī)率,并且在定位程序時(shí)將抓取更多的讀長(zhǎng)。這產(chǎn)生了11,128個(gè)顯著基因的非冗余組。隨后,本發(fā)明人將mrmr特征選擇方法應(yīng)用于11,128個(gè)顯著基因,從而確定出與結(jié)直腸癌強(qiáng)關(guān)聯(lián)的20個(gè)基因標(biāo)志物的最優(yōu)集,用于結(jié)直腸癌鑒別,如表6和表7所示?;騣d來(lái)自出版的參考基因集(qin等人2012,同上)。
1.10.2crc指數(shù)的定義
為了利用腸道微生物群的潛在的疾病分類(lèi)能力,本發(fā)明人開(kāi)發(fā)了基于發(fā)明人確定的基因標(biāo)志物的疾病分類(lèi)系統(tǒng)。為了基于這些腸道微生物基因標(biāo)志物對(duì)疾病風(fēng)險(xiǎn)進(jìn)行直觀(guān)評(píng)價(jià),本發(fā)明人計(jì)算出腸健康指數(shù)(crc指數(shù))。
為了評(píng)價(jià)腸道宏基因組對(duì)結(jié)直腸癌的作用,本發(fā)明人通過(guò)mrmr方法基于所選擇的20個(gè)腸宏基因組標(biāo)志物定義并計(jì)算了每個(gè)個(gè)體的crc指數(shù)。對(duì)于每個(gè)單獨(dú)的樣品,由以下公式計(jì)算由ij表示的樣品j的crc指數(shù):
aij是樣品j中標(biāo)志物i的相對(duì)豐度,其中i指所述基因標(biāo)志物集中的每個(gè)基因標(biāo)志物;
n是這些所選腸道宏基因組標(biāo)志物中所有crc富集標(biāo)志物的子集(即所選生物標(biāo)志物中與異常狀態(tài)相關(guān)的所有患者富集標(biāo)志物的子集);
m是這些所選腸道宏基因組標(biāo)志物中所有對(duì)照富集標(biāo)志物的子集(即所選生物標(biāo)志物中所與異常狀態(tài)相關(guān)的有對(duì)照富集標(biāo)志物的子集);
其中crc富集標(biāo)志物子集和對(duì)照富集標(biāo)志物子集顯示在表7中。
和|n|和|m|分別是這兩個(gè)子集的大小(數(shù)量),其中|n|是8和|m|是12。
crc指數(shù)越大,患病風(fēng)險(xiǎn)越高。crc指數(shù)越小,個(gè)人越健康?;谝粋€(gè)大群體,發(fā)明人能夠建立最優(yōu)的crc指數(shù)臨界值。如果測(cè)試樣品的crc指數(shù)大于該臨界值,則該受試者患病風(fēng)險(xiǎn)較高;而如果測(cè)試樣品的crc指數(shù)小于該臨界值,則該受試者較健康,患病風(fēng)險(xiǎn)較小。其中所述最優(yōu)的crc指數(shù)臨界值可由roc方法在曲線(xiàn)下面積(auc)達(dá)到最大值時(shí)來(lái)確定。
1.10.3接收者操作特征(roc)分析
本發(fā)明人應(yīng)用roc分析來(lái)評(píng)估基于宏基因組標(biāo)志物的結(jié)直腸癌分類(lèi)的性能?;谏鲜鲞x擇的20個(gè)腸道宏基因標(biāo)志物,本發(fā)明人計(jì)算出每個(gè)樣品的crc指數(shù)。發(fā)明人然后使用r中的“daim”工具包來(lái)繪制roc曲線(xiàn)。
1.10.4crc指數(shù)驗(yàn)證
在建立crc指數(shù)后,本發(fā)明人計(jì)算了128名個(gè)體以及來(lái)自先前對(duì)ii型糖尿病中國(guó)人(qin等人(2012),同上)和炎癥性腸病歐洲人(j.qinetal.,ahumangutmicrobialgenecatalogueestablishedbymetagenomicsequencing.nature464,59(mar4,2010),通過(guò)引用并入此處)的兩個(gè)研究中的490名個(gè)體的中國(guó)群體i的crc指數(shù)(圖11,表10)。使用benjamini-hochberg調(diào)整法的wilcoxon秩和檢驗(yàn)來(lái)比較crc指數(shù)在中國(guó)crc群體、t2d群體和ibd群體中區(qū)分crc患者和其余患者的能力。
表9:crc、t2d和ibd患者和健康群體中估計(jì)的crc指數(shù)。
表10:128個(gè)樣品的計(jì)算的crc指數(shù)(crc患者和非crc對(duì)照)
實(shí)施例2.驗(yàn)證20個(gè)生物標(biāo)志物
發(fā)明人使用另一個(gè)新的獨(dú)立研究小組驗(yàn)證了crc分類(lèi)器的區(qū)分力,該組中包括在威爾斯親王醫(yī)院采集的15例crc患者和15例非crc對(duì)照。
對(duì)于每個(gè)樣品,提取dna,如實(shí)施例1所述構(gòu)建dna文庫(kù),然后進(jìn)行高通量測(cè)序。本發(fā)明人使用與qin等人(2012,同上)所述相同的方法計(jì)算了這些樣品的基因豐度分布。然后確定如seqidno:1-20所示的每個(gè)標(biāo)志物的基因相對(duì)豐度。然后通過(guò)以下公式計(jì)算每個(gè)樣品的指數(shù):
aij是樣品j中標(biāo)志物i的相對(duì)豐度,其中i指seqidno:1至20所示基因標(biāo)志物集中的每個(gè)基因標(biāo)志物;
n是這些20個(gè)所選腸道宏基因組標(biāo)志物中所有crc富集標(biāo)志物的子集(即所選生物標(biāo)志物中與異常狀態(tài)相關(guān)的所有患者富集標(biāo)志物的子集);
m是這些20個(gè)所選腸道宏基因組標(biāo)志物中所有對(duì)照富集標(biāo)志物的子集(即所選生物標(biāo)志物中所與異常狀態(tài)相關(guān)的有對(duì)照富集標(biāo)志物的子集);
其中crc富集標(biāo)志物子集和對(duì)照富集標(biāo)志物子集顯示在表7中。
和|n|和|m|分別是這兩個(gè)子集的大小(數(shù)量),其中|n|是8和|m|是12。
表11示出了每個(gè)樣品的計(jì)算的指數(shù),表12示出了代表性樣品v1和v30的相關(guān)基因相對(duì)豐度。在該評(píng)估分析中,分類(lèi)的曲線(xiàn)下面積(auc)為0.9733(圖12)。在臨界值0.9945,真陽(yáng)性率(tpr)為1,假陽(yáng)性率(fpr)為0.2,從而驗(yàn)證了20個(gè)基因標(biāo)志物可用于準(zhǔn)確分類(lèi)crc個(gè)體。
表11.30個(gè)樣品的計(jì)算crc指數(shù)
表12:樣品v1和v30的基因相對(duì)豐度
因此,發(fā)明人已經(jīng)基于140,455個(gè)crc關(guān)聯(lián)標(biāo)志物,通過(guò)最小冗余-最大關(guān)聯(lián)(mrmr)特征選擇方法來(lái)鑒定和驗(yàn)證了20個(gè)標(biāo)志物。本發(fā)明人建立了腸道健康指標(biāo),以基于這20種腸道微生物基因標(biāo)志物評(píng)估crc疾病風(fēng)險(xiǎn)。
實(shí)施例3通過(guò)qpcr驗(yàn)證基因標(biāo)志物
使用基于taqman探針的qpcr,在測(cè)序了的群體(51個(gè)病例和45個(gè)對(duì)照,群體i的一個(gè)子集)的96個(gè)糞便樣品和156個(gè)樣品的群體ii(47個(gè)病例和109個(gè)對(duì)照)中進(jìn)一步評(píng)估四個(gè)隨機(jī)選擇的基因標(biāo)志物的豐度,包括兩個(gè)對(duì)照富集的(m181682(seqidno:4)和m370640(seqidno:6))和兩個(gè)患者富集的(m482585(seqidno:11)和m1704941(seqidno:16))。引物和探針使用primerexpressv3.0(appliedbiosystems,fostercity,ca,usa)進(jìn)行設(shè)計(jì)。使用
3.1使用靶向定量pcr評(píng)估crc生物標(biāo)志物
生物標(biāo)志物是使用公認(rèn)昂貴的深度宏基因組測(cè)序方法得出的。將其轉(zhuǎn)化為診斷性生物標(biāo)志物將需要通過(guò)簡(jiǎn)單、經(jīng)濟(jì)和靶向的方法如定量pcr(qpcr)進(jìn)行可靠的測(cè)量。為了驗(yàn)證這一點(diǎn),本發(fā)明人隨機(jī)選擇兩個(gè)病例富集和兩個(gè)對(duì)照富集的基因標(biāo)志物,并通過(guò)qpcr在選自群體i(51個(gè)病例和45個(gè)對(duì)照)的96個(gè)樣品的子集中測(cè)量其豐度。通過(guò)兩個(gè)平臺(tái)(宏基因組測(cè)序和qpcr)對(duì)四個(gè)基因中的每一個(gè)的定量顯示出強(qiáng)相關(guān)性(spearmanr=0.81-0.95,圖13),這表明也可以使用qpcr可靠地測(cè)量基因標(biāo)志物。接下來(lái),為了驗(yàn)證先前未見(jiàn)的樣品中的標(biāo)志物,本發(fā)明人使用qpcr在來(lái)自獨(dú)立的中國(guó)人群體(群體ii;參見(jiàn)表13)的156個(gè)糞便樣品(47個(gè)病例和109個(gè)對(duì)照)中測(cè)量了這四種基因標(biāo)志物的豐度。兩個(gè)對(duì)照富集基因沒(méi)有顯示顯著的關(guān)聯(lián)(p>0.31;表14)。另一方面,crc富集的基因標(biāo)志物(m1704941,來(lái)自具核梭桿菌的丁酰-coa脫氫酶;m482585,來(lái)自未知微生物的rna定向dna聚合酶)與結(jié)腸鏡檢查分層后的crc狀態(tài)顯著關(guān)聯(lián)(分別地,p=0.0015和p=0.045,見(jiàn)表14)。然而,在針對(duì)結(jié)腸鏡檢查調(diào)整的mantel-haenszel檢驗(yàn)后,只有來(lái)自具核梭桿菌的基因保持顯著(優(yōu)勢(shì)比=18.5,p=0.0051)。基于四個(gè)基因的豐度的crc指數(shù)僅將crc微生物群與對(duì)照微生物群進(jìn)行適度分類(lèi)(auc=0.73),也許表明從20個(gè)生物標(biāo)志物列表中隨機(jī)選擇不是有效的策略。然而,來(lái)自具核梭桿菌的基因僅存在于109個(gè)對(duì)照微生物群中的4個(gè)中,表明有可能使用糞便樣品進(jìn)行crc的特異性診斷測(cè)試。
3.2通過(guò)在獨(dú)立的宏基因組群體中驗(yàn)證確定的準(zhǔn)確的qpcr生物標(biāo)志物
為了鑒定可以具有更普遍適用性的強(qiáng)壯生物標(biāo)志物,本發(fā)明人使用來(lái)自具有不同遺傳背景和生活方式的群體(來(lái)自丹麥的16名crc患者和24名對(duì)照個(gè)體(群體iii))的糞便宏基因組評(píng)估所有20個(gè)基因標(biāo)志物。這些是被推薦參與結(jié)腸鏡檢查的有癥狀的個(gè)體,所有樣品在dna提取和分析前都是不知情的(見(jiàn)表15)。當(dāng)映射至430萬(wàn)個(gè)腸道微生物基因時(shí),40個(gè)丹麥微生物群在病例(wilcoxon秩和檢驗(yàn),基因計(jì)數(shù):p=1.94x10-5;shannon指數(shù):p=5.85x10-5)和對(duì)照(基因計(jì)數(shù):p=0.0017;shannon指數(shù):p=9.34x10-4;表16)中表現(xiàn)出顯著較高的基因豐度和基因α多樣性,與最近的研究一致,并表明中國(guó)和丹麥人群腸道微生物群落結(jié)構(gòu)的差異(j.li等人,anintegratedcatalogofreferencegenesinthehumangutmicrobiome.naturebiotechnology32,834(aug,2014),通過(guò)引用并入本文)。在中國(guó)群體i中與crc狀態(tài)相關(guān)的102,514個(gè)基因中,只有1,498個(gè)基因可以在丹麥微生物群中得到驗(yàn)證。然而,crc富集的基因在兩個(gè)群體之間比對(duì)照富集基因顯著更多地共有(在35,735個(gè)crc富集中為1,452個(gè),而在對(duì)照富集中為66,779個(gè)中的46個(gè);雙尾卡方檢驗(yàn),卡方=2576.57,p<0.0001)。1,452個(gè)crc富集基因中超過(guò)一半(53.6%)僅來(lái)自三個(gè)物種:微小小單胞菌(389個(gè)基因),莫氏細(xì)小桿菌(204個(gè)基因)和共生梭菌(177個(gè)基因)(見(jiàn)表17)。在物種水平上,微小小單胞菌在所有三種方法中均在crc微生物中富集,而胃消化鏈球菌,麻疹孿生球菌,和莫氏細(xì)小桿菌在兩種方法中在crc微生物中富集(wilcoxon秩和檢驗(yàn),q<0.05;表18)。值得注意的是,所有物種在至少一種方法驗(yàn)證中在crc中富集。這些結(jié)果表明,crc發(fā)展和進(jìn)展期間結(jié)直腸環(huán)境的變化可能有助于兩種人群中類(lèi)似物種的生長(zhǎng),這可能導(dǎo)致crc患者中觀(guān)察到的微生物多樣性減少,這與其他人早期的觀(guān)察一致(j.ahn等人,humangutmicrobiomeandriskforcolorectalcancer.journalofthenationalcancerinstitute105,1907(dec18,2013),通過(guò)引用并入本文)。使用中國(guó)群體i中發(fā)現(xiàn)的20個(gè)基因標(biāo)志物的crc指數(shù)將丹麥患者微生物群與對(duì)照組或多或少地區(qū)分(wilcoxon秩和檢驗(yàn),p=0.029),并顯示適度的分類(lèi)潛能(roc曲線(xiàn)下面積為0.71,圖14-1)。在丹麥群體iii中,20個(gè)基因中只有4個(gè)(2個(gè)來(lái)自厭氧消化鏈球菌和2個(gè)來(lái)自微小小單胞菌和具核梭桿菌)與crc狀態(tài)相關(guān)(wilcoxon秩和檢驗(yàn),q≤0.06;所有是crc富集,見(jiàn)表19)。在發(fā)明人記錄的因素中,只有crc狀態(tài)可以解釋這4個(gè)基因的變異(permanovap≤0.0001;見(jiàn)表20),表明這些特征是crc特異性的。使用這四種基因的crc指數(shù)可以按照roc曲線(xiàn)下面積(0.85)進(jìn)行crc患者準(zhǔn)確分類(lèi)(圖14-2,表21)。在臨界值-16.68,真陽(yáng)性率(tpr)為0.75,假陽(yáng)性率(fpr)為0.08333。這個(gè)較高的auc驗(yàn)證了4種基因標(biāo)志物可用于對(duì)crc個(gè)體進(jìn)行分類(lèi)。四個(gè)基因中的兩個(gè)是來(lái)自厭氧消化鏈球菌的轉(zhuǎn)座酶。第三個(gè)基因(m1704941,來(lái)自具核梭桿菌的丁酰基-coa脫氫酶)是在中國(guó)群體ii中使用qpcr成功驗(yàn)證的兩個(gè)基因中的一個(gè)。來(lái)自微小小單胞菌的第四個(gè)基因是編碼rna聚合酶亞基β的高度保守的rpob基因(即m1696299(seqidno:13,同一性為99.78%)),通常用作系統(tǒng)發(fā)育標(biāo)志物(f.d.ciccarelli等人,towardautomaticreconstructionofahighlyresolvedtreeoflife.science311,1283(mar3,2006),其通過(guò)引用并入本文)。
對(duì)于每個(gè)樣品,提取dna,如實(shí)施例1所述構(gòu)建dna文庫(kù),然后進(jìn)行高通量測(cè)序。本發(fā)明人使用與qin等人(2012,同上)所述相同的方法計(jì)算了這些樣品的基因豐度分布。然后測(cè)定如seqidno:1,seqidno:9,seqidno:13和seqidno:16所示的每種標(biāo)志物的基因相對(duì)豐度。然后通過(guò)以下公式計(jì)算每個(gè)樣品的指數(shù):
aij是樣品j中標(biāo)志物i的相對(duì)豐度,其中i指所述基因標(biāo)志物集中的每個(gè)基因標(biāo)志物;
n是這些4個(gè)所選腸道宏基因組標(biāo)志物中所有crc富集(病例)標(biāo)志物的子集(即所選生物標(biāo)志物中與異常狀態(tài)相關(guān)的所有患者富集標(biāo)志物的子集);
其中crc富集標(biāo)志物子集是如seqidno:1,seqidno:9,seqidno:13和seqidno:16所示的標(biāo)志物;
|n|是子集中生物標(biāo)志物的大小(數(shù)量),其中|n|是4。
其中大于臨界值的指數(shù)表明受試者患有結(jié)直腸癌或處于發(fā)生結(jié)直腸癌的風(fēng)險(xiǎn)中。
表21.40個(gè)樣品的基因相對(duì)豐度和計(jì)算的crc指數(shù)
本發(fā)明人決定使用qpcr評(píng)估獨(dú)立的中國(guó)群體ii中兩種非轉(zhuǎn)座酶基因的診斷潛力。由于這些最初是在中國(guó)群體i中發(fā)現(xiàn)的,并在丹麥群體iii中驗(yàn)證,群體ii作為這些基因的合適獨(dú)立驗(yàn)證群體,特別是在不同的平臺(tái)中。本發(fā)明人對(duì)來(lái)自微小小單胞菌的rpob進(jìn)行了額外的qpcr測(cè)量,其示出了在群體ii中的crc患者微生物群中的顯著富集(wilcoxon秩和檢驗(yàn),通過(guò)結(jié)腸鏡檢查分層,p=8.97x10-8)。針對(duì)結(jié)腸鏡檢查調(diào)整的mantel-haenszel優(yōu)勢(shì)比為20.17(95%置信區(qū)間為4.59-88.6,p=3.36x10-7)。兩個(gè)基因(1696299(seqidno:13)和1704941(seqidno:16))的組合qpcr測(cè)量(表22中的引物)在中國(guó)群體ii中清楚分開(kāi)病例與對(duì)照樣品(結(jié)腸鏡檢查分層的wilcoxon秩和檢驗(yàn),p=1.404x10-8,圖15a)。他們的組合豐度準(zhǔn)確分類(lèi)了中國(guó)群體ii中的crc樣品,改善的roc曲線(xiàn)下面積為0.84(臨界值-13.38,真陽(yáng)性率=0.723,假陽(yáng)性率=0.073;圖15b,表23),驗(yàn)證了2個(gè)基因標(biāo)志物可用于對(duì)crc個(gè)體進(jìn)行分類(lèi)。精確度略高于最近的研究(auc=0.836,真陽(yáng)性率=0.58,假陽(yáng)性率=0.08),盡管它們使用了使用宏基因組測(cè)序的22種物種的豐度組合(g.zeller等人,potentialoffecalmicrobiotaforearly-stagedetectionofcolorectalcancer.molecularsystemsbiology10,766(2014),通過(guò)引用并入本文)。在crc患者中通過(guò)qpcr檢測(cè)兩種標(biāo)志物中的至少一種的mantel-haenszel優(yōu)勢(shì)比(針對(duì)結(jié)腸鏡檢查調(diào)整的)為22.99(p=5.79x10-8,95%置信區(qū)間5.83-90.8)。當(dāng)將群體分為早期(i-ii期)和晚期(iii-iv期)癌癥患者時(shí),分類(lèi)潛力和優(yōu)勢(shì)比仍然很大(見(jiàn)表24)。從crc的ii期開(kāi)始,這兩個(gè)基因的豐度顯著高于對(duì)照樣品(圖15c-d),與物種豐度的結(jié)果一致,并提供糞便宏基因組可能攜帶用于鑒定早期crc的非侵入性生物標(biāo)志物的原則證明。
對(duì)于每個(gè)樣品,如實(shí)施例1所述提取dna。本發(fā)明人如上所述進(jìn)行qpcr。然后測(cè)定如seqidno:13和seqidno:16所示的每個(gè)標(biāo)記的基因相對(duì)豐度。然后通過(guò)以下公式計(jì)算每個(gè)樣品的指數(shù):
aij是樣品j中標(biāo)志物i的相對(duì)豐度,其中i指所述基因標(biāo)志物集中的每個(gè)基因標(biāo)志物;
n是這些2個(gè)所選腸道宏基因組標(biāo)志物中所有crc富集(病例)標(biāo)志物的子集(即所選生物標(biāo)志物中與異常狀態(tài)相關(guān)的所有患者富集標(biāo)志物的子集);
其中crc富集標(biāo)志物子集是如seqidno:13和seqidno:16所示的標(biāo)志物;
|n|是子集中生物標(biāo)志物的大小(數(shù)量),其中|n|是2。
其中大于臨界值的指數(shù)表明受試者患有結(jié)直腸癌或處于發(fā)生結(jié)直腸癌的風(fēng)險(xiǎn)中。
本發(fā)明人還使用兩種基因標(biāo)志物之一分別計(jì)算crc指數(shù)(表23)。僅使用1696299的roc曲線(xiàn)下面積為0.80(臨界-6.762,真陽(yáng)性率=0.6383,假陽(yáng)性率=0.05505,圖16),僅使用1704941的roc曲線(xiàn)下面積為0.69(圖17)。結(jié)果表明,基因標(biāo)志物1696299(seqidno:13)是強(qiáng)壯的生物標(biāo)志物,也可用于對(duì)crc個(gè)體進(jìn)行唯一的分類(lèi)。
本發(fā)明人首次通過(guò)用于糞便樣品中的微生物生物標(biāo)志物的負(fù)擔(dān)得起的靶向檢測(cè)方法證明了crc診斷的潛力。最近的兩項(xiàng)研究報(bào)告了使用糞便微生物群的宏基因組測(cè)序的潛在crc診斷,其準(zhǔn)確度與我們相同(在接受者操作曲線(xiàn)下面積方面)。雖然基于16s核糖體rna基因的研究使用5個(gè)操作分類(lèi)單位來(lái)分類(lèi)群體中的crc與健康樣品,特別是沒(méi)有任何交叉驗(yàn)證(j.p.zackular,m.a.rogers,m.t.t.ruffin,p.d.schloss,thehumangutmicrobiomeasascreeningtoolforcolorectalcancer.cancerpreventionresearch7,1112(nov,2014),通過(guò)引用并入本文),但宏基因組鳥(niǎo)槍研究使用22個(gè)物種水平分類(lèi)單位,以在獨(dú)立的群體中精確地分類(lèi)crc患者(g.zeller等人,potentialoffecalmicrobiotaforearly-stagedetectionofcolorectalcancer.molecularsystemsbiology10,766(2014),通過(guò)引用并入本文)。本發(fā)明人已經(jīng)顯示,僅使用128個(gè)中國(guó)人中發(fā)現(xiàn)并在40個(gè)丹麥人中進(jìn)行驗(yàn)證的兩個(gè)基因標(biāo)志物,本發(fā)明人可以在156名中國(guó)人的獨(dú)立qpcr驗(yàn)證群體中準(zhǔn)確分類(lèi)crc患者與對(duì)照個(gè)體。通過(guò)使用在丹麥群體中驗(yàn)證的基因(來(lái)自微小小單胞菌的rpob基因)的分類(lèi)潛力(從auc=0.73至auc=0.84)的顯著改善重申了驗(yàn)證新發(fā)現(xiàn)的具有不同遺傳和環(huán)境背景的獨(dú)立群體的生物標(biāo)志物的重要性。
表22.所選2個(gè)基因標(biāo)志物的引物和探針的序列信息
表23156個(gè)樣品的qpcr基因相對(duì)豐度和計(jì)算的crc指數(shù)
表3與crc關(guān)聯(lián)的img、motu和mlg物種,q值<0.05。對(duì)具有多于100個(gè)基因的106個(gè)mlg進(jìn)行分組后,如果可以進(jìn)行物種注釋?zhuān)纬?5個(gè)mlg物種。
盡管已示出和描述了說(shuō)明性實(shí)施方案,但本領(lǐng)域技術(shù)人員將理解,上述實(shí)施方案不應(yīng)當(dāng)被理解為對(duì)本公開(kāi)內(nèi)容進(jìn)行限制,并且可在不背離本公開(kāi)內(nèi)容的精神、原則和范圍的情況下進(jìn)行變化、替換和修改。
序列表
<110>bgishenzhenco.,limited
bgishenzhen
<120>用于結(jié)直腸癌相關(guān)疾病的生物標(biāo)志物
<130>idc170059
<160>20
<170>patentinversion3.5
<210>1
<211>816
<212>dna
<213>厭氧消化鏈球菌653-l
<220>
<223>分離自腸道,厭氧消化鏈球菌653-l
<400>1
atggccaaaacacctatcgtagataaggggtgcttcatatcgaatgatgttaaaaggtca60
atagttttaaacctatgtgagactaagtcaatggatctaattgcaagagaacactgtgta120
tctcctagtagtgttgccagaatacttcgtttaactgaagataggagaagaaaaaattat180
cttcctaggattctatcaatagacgaattcaagtcagtaaatacagttgatgcgtctatg240
agtgtaaatttaactgatttagaaggcggtcatatttttgatatcctggtggataggagg300
caaagatacctctttgagtactttaattcctatcccttgaaggtcagaaaaagggtagaa360
tatgtgactacagacatgtataagccatatattgatcttgccaagaaggtctttccaaat420
gccaatattgtggtagataaattccatatagtacagctcttgacaagagagctaaacaag480
ttaaggataaatgagatgaagaagcttaataccaggtctagagagtataaaatactgaag540
agatactggaaaataccccttaggaagaagagagacttaaacagtatatatttttacaag600
aataggcactttaaaaatatgaccagttcaattgatatattagactatatgttaaaggaa660
tttcccaacttaaaagaggcctatgatttttatcaaaacttcctattaagtatatctaat720
aatgatgtcgctatgcttgaagacattctaaatactaggactgatgaaattcccatgtgt780
tttaggaagagtataaaaagccttaaaaagcttaga816
<210>2
<211>594
<212>dna
<213>未知的
<220>
<223>分離自腸道,未鑒定的
<400>2
atggcaatgctcactgtagaaaatatcaatgtatattacggcgtgatccacgcccttaaa60
gacatctcctttcaggtaaacgaaggcgagatcgtcgcactgatcggcgcaaacggtgcc120
ggcaaaaccaccaccctgcagactgtcagcggcatgctgagcgcaaagtccggttcgatc180
cgatttcaggatcaggagatttccagaatgccggagcacaaaatcgtgaagcagggaatt240
tcccacgtccccgaaggacgccggatgttctccaatctgacggttttggaaaacctgaaa300
atgggcgcttacaccagaaaagacaagcaggaaatcaacaattccctggaaatggtttat360
gagcggtttccccgcttaaaggaacgtacccgccagctggcaggaactctttccggcggt420
gaacagcagatgcttgcaatgggacgtgcactgatgtctcatccgaagatcatccttctg480
gatgaaccgtctatgggactttcaccgatttttgtaaatgagattttcgaaattatcaag540
aaagtcagtgcagccggcacgaccgtacttctggtagagcagaatgcaaagaaa594
<210>3
<211>873
<212>dna
<213>未知的
<220>
<223>分離自腸道,未鑒定的
<400>3
atgaaacgtattttattaactggagcaagtggatttataggtaaaaacattaaagagaca60
ttaaacagtaaatatgacatatggagcccgtcaagccaggagctggatttaaaagatacc120
gaatgcgttgaagcatatttgaagcagcattctttcgatgtaatattgcatgcagcaaat180
tgtaatgatacaaggaattccatatcagcatacgatgtactcaatggaaatctcagaatg240
ttttttaacctagagagatgttctcactattatggaaaaatgatttattttgggtctggg300
gcagaatatgacagaagtaataacatccctaatatgtcagaggactattttgataccagt360
gttccgaaagatgcttacggactttcaaaatatattatggcaaaagcctgtttaaatcag420
aagaacatttatgaattgtgtttatttggagtatacggaaaatatgaggaatgggagaga480
agatttatctctaatgcgatatgtcgtgcattaaagggtatggatattacgcttcataaa540
aatgtatactttgattatttgtgggtagatgacctcataaaaattatttcttttttcatt600
gagaaagataacttgaggtacaagaggtacaatgtgtgtagaggcgagaaggttgatcta660
tattcgctggcagtacaggtaaagaagactttggatagcgaatgttcaatattagttggt720
gagcctggatggaagagggagtatactgcggataacaatagaatgttgaacgaaatgaat780
ggtttatcttttacaaaactggaagtgacgatagctgaattgtgtgaatattataaagag840
catttatcagaaatagttactgaaaaattgtaa873
<210>4
<211>1062
<212>dna
<213>腸道羅斯拜瑞氏菌xb6b4
<220>
<223>分離自腸道,腸道羅斯拜瑞氏菌xb6b4
<400>4
atggaaaaagtaaaggcattttgtaaacggaaaaacattgagatatccgtcaagcgctac60
ctgattgatgcacttggtgcgatggcacagggattatttgcatcgcttttgatcggaacg120
atcatcagtacacttggaacgcagcttaatattccgattcttgtgacagtcgggacttac180
gcgaaagcggcagtcggaccggcaatggcgatcgcaatcggatatgcactgcaggcagcg240
cctttagtactgttttcacttgcggcagtcggtgcggcggcaaatgaacttggcggggca300
ggcggaccgcttgcggtacttgtggttgcaatttttgcagcagaatttggaaaagcagtt360
tccaaagagacaaaaatcgatattattgtcactccgtttgtgaccatttttgtcggggtc420
gcgctttctatctggtgggctccggcgatcggtgcggcagcgagtgcagtcggtaatgcg480
atcatgtgggcaaccgagctgcagccgtttttcatgggaatcattgtatctgtgatcgtc540
gggattgcactgacactgccgatcagcagcgcagcaatctgtgcagcacttggactgacc600
ggattagccggtggtgcagcacttgccggatgctgtgcgcagatggtcggatttgcagtg660
gcaagtttccgtgaaaataaatggggcggattgtttgcacagggaatcggtacatccatg720
cttcagatgggtaatatcgtgaaaaatccgcgcatctggctgccggcgacattggcgtct780
gcaatcaccggaccgatcgcaatgtgtctgttccatttacagatgaatggtgcagcagtt840
tcctccggtatgggaacctgtggactggtcggacagattggtgtctatacgggatggatc900
gcagatattgaagcgggaagcaaagctgccattacaccgatggactggatcggactgatt960
ttcgtaagctttcttctgccgggcgttttatcatggctttttagtgtgttattccgtaag1020
atcggctggatcaaagaaggcgatatgaggctggacttataa1062
<210>5
<211>627
<212>dna
<213>哈氏梭菌dsm13479
<220>
<223>分離自腸道,哈氏梭菌dsm13479
<400>5
atgcctatacttcagcagcttctcacattagtagagcagcacttcggtaacaaatgcgaa60
atcgtgcttcatgatctgacaaaggattacaaccataccattgtcgatatccgaaacgga120
gacattacccatcgttccatcgggggctgcggaagcaacttagggctggaagtcctgcgc180
ggaaccgtgctggatggggatcgttttaactatgttaccaccacacaggacggaaagatt240
ctccgttcctcatcgatctatctaaaaaatgatcagggcgaggtcatcggatcgatctgc300
gtgaacctggatatcacagagacacttcagtttgaagggtatttacgccagtttaaccag360
tttgacagctttacttccaacgacgaggagattttcgctcccgacgtgaataatcttctc420
agccatctgattcagatgggacaggaacagatcggaaagcctgcgctggagatgaacaag480
aacgagaagattgagtttatccgtttccttgaccagaaaggagcattcctcatcacgaag540
tccggggaacagatctgtgaacttctgggaatcagcaaatttaccttttataattacctt600
gaaagcagccgcagccagtcggattcg627
<210>6
<211>1161
<212>dna
<213>未知的
<220>
<223>分離自腸道,未鑒定的
<400>6
atgaaaatcaaacaattagcgaaaagcgcatcattcttgctggtggcaggttttatcagt60
tttactattccgtcgtgtagcagtgaagaagaaatcatcatccttcaggatgtaaaagta120
aacagtgaaagcttcaatctggccgaagacggcagtacgaccatagaagtcaaggtagta180
cccgaaaatactccaatagccaaagccgtactcagcacatcattatttaatgaaagcggt240
gttttcgaagtaacccgactcactcccaaaggtaacggtgtatggcagatagcagcaaaa300
gtaaaggacttctcacgcattcaaaacggtcaggacgtaatactttccgtctatcaggaa360
gataatatgtatatccaaaccacattgaaaataaacgacccatatagcatcgagggtaaa420
tatacaccggtccatccgcaagcctttactttctacagtgccgaagacggcaaactgatg480
gagattccgttcatcatcacagccgacaacgcagccgaccttgccgccatcagctacgac540
aatataaaggtagtcaatggcaccggaagctctacacccagcataagtatcacacatttc600
gcaatagctccgatgacaggtaaaacaggcttctatctgcaagtggataacgcccaactc660
gaaacggtaaaaaaagccatcacaaccatcgcttttttggactgccgggttatgataacc720
ggccctaacggccgtgttgcctatactcctgtgcgcctcattgtttcttctccgaagtgc780
atcatcaaggacgaccaactcagcctgctgcatacagaattgtccgccccggagtttaat840
agacaaatcaccatagatatgacccacgatttttatcgtttgggcaaacagaatgataaa900
acaacctttgaggcgtttgaaaaccgaggcttgtataactcacaaggagaaatggcagat960
gcagaccctcagttcatttcgttgggttataccactcagggcaaaaatacaacatgtaac1020
gtaactttaaaacatgatgccacaattcctgcaatcggcacttaccacatggtagaacgc1080
ctaaaaggatattgggaatatgacggaaagaaatatccgaccgtttgtacagacctgcaa1140
ttccaaatcacgattaaataa1161
<210>7
<211>336
<212>dna
<213>糞桿菌屬29_1
<220>
<223>分離自腸道,糞桿菌屬29_1
<400>7
atggcgattgatactgaattagcaaaaagattacgttcatatcgtaattttaaacattta60
acacaaaaagatgttgctgcgcatttaaatgttcctcattctgcaatttccgatatagaa120
aatggtaaaagagacattactgttagcgagttaaaagtgttttcaaatttatatggtaga180
agtgtagaagaaattatgagcgggaaaaaatatgactattataatattgccaatatcgct240
cgtttacttactgaacttcctgatgatgatttaaaagaaatcatgtttattattgaatat300
aaaagaaaaagaaatgaagaacgtcatttgaaataa336
<210>8
<211>945
<212>dna
<213>普氏棲糞桿菌l2-6
<220>
<223>分離自腸道,普氏棲糞桿菌l2-6
<400>8
atgaacagagaaacggtgaacatggtgcgcagtccgatttctgtggaggggaacatccgg60
cttgttccgtattatccggcctacgatacagcacttgcgtggtatcaggatgcacagctc120
tgcaaacaggtagataacagggacttcgtttatgatttgccgctgctgaagcggatgtat180
cattatctggacacacacggggaactgttttatattgagtatcggggtgtgctttgtggt240
gacgtcagcctgcggacgaccggcgagctggccatcgtcatctgcaaggagtaccagaat300
aaacacatcgggcggaaggtcatcgaaaaaatgctggagctggctcgggaaaggggcttg360
gcggagtgcttcgcgcacatctattctttcaatacccagtcgcagaaaatgtttgaatcc420
attggctttgtcccacaggacgaagaacgctatatctacaaattgcaaaaaggagaaccg480
actatgacaaaactgactctggaagaaaagcaggagctcatccggatggcccttgcggcc540
agggagagggcttacgtgccttacagcgactttatggtgggcgctgccctgcgcgccgag600
gatggccgtgtctttaccggctgccatgtggagaatgccgcctttacccccaccagctgc660
gccgagcgcaccgcgctgttcaaagccgtgagcgagggcgtgaccaaatttacggacatc720
gccgtggtaggctcccgccggggcgagatcaatcagcagatcacctcgccctgcggcgtc780
tgccgtcaggcactgtttgagtttggcggcccggagctgaacgtcatcatggccaaaacg840
ccggatgatttcatggagcgcagcatggatgagctgctgccctttggcttcggtccctcc900
aatgtggcgggcaacaaggccgtggaagaggaagaaaaaggctga945
<210>9
<211>432
<212>dna
<213>厭氧消化鏈球菌653-l
<220>
<223>分離自腸道,厭氧消化鏈球菌653-l
<400>9
tatttttacaagaataggcactttaaaaatatgaccagttcagttgatatattagattat60
atgttaaaagaatttcccaacttaaaagatgcctatgatttttatcaaaacttcctatta120
agtatatctaataatgatgtggctatgcttgaagatattctaaatactaggactgataaa180
ataccaatgtgttttaggaagagtataaaaagccttaaaaagtttagaaagtatgtggta240
aattcactgaaatatgactatacgaatgccatggtggagggtaaaaacaacaagataaag300
gtaattaaaagagtatcctacggatataggagttttaggaattttaaggcaaggataatg360
ctaatggaaaggtataaaatacaaaagggcaacatccatagttatcagtttgctatggat420
gctgccgcataa432
<210>10
<211>777
<212>dna
<213>未知的
<220>
<223>分離自腸道,未鑒定的
<400>10
atgaagaatatgataaaaatatttgaaaatgacgaattcggaaaagtgagaacagtcatt60
aaggacggcgaaccgtggcttgtaggaaaagatgttgcggaaattttagggtattccaac120
acaagggacgctctttcacgtcatgtggataccgaggataaaaccaccgtcgtgatttcc180
gacagtggttcaaattacaagagcaagaccactattatcaatgaaagcggcttttacagc240
ttagttctctcaagcaaaatgccgagagccaaagagttcaggcgttgggtgaccgccgaa300
gtcctccccaccatcagacgcaccggcggctacgtttccaacgaggatatgttcatcaaa360
aactatctcccctttctcgacgagccataccgtgacctgttccgacttcaaatgaccatt420
atcaacaagctgaatgaacgtatccgccacgatcagccgctggtggagtttgcgaatcag480
gtgtcaaataccgataatcttatcgacatgaacgcaatggcaaagcttgcgagagcggaa540
aatatccccgtcggcagaaacaagctttacggctggctgaaaggaaaaggtgtgcttatg600
gcaaacaatctgccgtatcaggcttttatcgaccgcggatatttttccgtaaaggagtcg660
gtgtttgaaactgcgactatgacaaagacttatcagcagacgtttgttacgggcaggggg720
cagcagttcgtcataaatttgctgaagaaatattatgggaaggaggttttgcaataa777
<210>11
<211>1935
<212>dna
<213>未知的
<220>
<223>分離自腸道,未鑒定的
<400>11
aatatccgatatggcaacggagctctggtagtagtccgggcaagggaaaaccttgtacat60
ggcgaagcagagcagattaccttcaatactaaaatattagaaaggtgcgtgaggcatttg120
agaaatccgattgaagtattgaaaactctacaagagaaagcaggcaacgagaactatcaa180
tttgaacgcctgtaccgaaatctgtacaacgaggagtttttcctattggcatacggaaat240
ctctctgcaaaagagggaaatctgaccaagggaacagacggcgccacaatagacggaatg300
ggaatggagcggattcgcaagctgattgaaagcctgcggaaccacagttaccagccgtcc360
cctgcgagacgtgcctatatcccaaaatctaatggaaaacggcgtccgttaggcataccc420
tctgttgacgataagctggtgcaggaagttgtgaggttaattctcgaaagtgtgtatgaa480
agcaatttttctgaacattcgcatggttttagaccgaacaggagctgtcacacggcactg540
acccagattcaaagaaacttcacaggggttaaatggttcattgagggggacatcaaaggt600
tattttgacaccatcgaccaccatatccttgtggatattttaagaaggcgcataaaggac660
gaatacctaatctcgctgatatggaaatttctgaaagccggatacttagaagactggaaa720
ttcaatcctacctattccggcactccgcaaggctcggtcatcagtccaatacttgccaat780
atctaccttaacgaattcgatacctatgttgaagaatacatagagaaattcaaccgtggt840
aaaagacgtgaaagaaacagtgagtatcgcttttatagtgatggcgcatcgaaactgagg900
gtaaagtaccgcgggttatgggaaataatgacagccgatgaaaaagaaaaagccaaatgt960
gaagtaaatgagctcatgaaaaaagcaaaacagattccagctatgaatccgatggacagc1020
aattaccgccgtctgctctattgcaggtatgcggatgattttatttgcggagtaatcgga1080
agcaaggaagatgcagaaaccatcaaggctgattttagccggtacctgaaagaaaagctg1140
ggactggatatgtcggaagaaaagacactgattacacactcaaacgaaaaagcggcgttc1200
cttggctacgaaatcgctgtttccagaagcaatgaatacaaaaagataagcaacggacag1260
aaggcaagaacctttaatgggcgtgttcatctatttatgccacataataaatgggttaag1320
aagctgaccagttgcggagcaatggaaatcaaacagcaggacggcaaagaaatatggaaa1380
ccgcaggcgaggaaagacctcatcaacaaagagccgattgaaatcctaagcatttacaat1440
gccgaaattcgtgggctgtacaattattattgtttggcaagcaacgtatgcaagctgcag1500
aaatattactacatcatggaatacagcatgtaccagacgtttgcagcgaagtaccgtgat1560
aatttgcggaaaacgattaacaagcatacccgaaacggcgtgtttggtgtcagctacact1620
acaaaaaccggcaacgagaaacgggcgacattcgtgaaaggaagcttccaaaaacggact1680
gtcagcttagattacagtgatgaaatcccctcttatcctgccgcaaaatatagtcggaaa1740
aacggcttaattgagcggttacagggtggaaaatgtgaactatgcggacagcagaccgac1800
aatgtaaaagttcatcatgtcaggaagctgaaagaattagccggtatgaaagaatgggaa1860
agaaaaatggttcagatgaacagaaaaactctggttgtttgtaatacatgttatggaaac1920
ataacaggcaagtaa1935
<210>12
<211>750
<212>dna
<213>卵瘤胃球菌atcc29174
<220>
<223>分離自腸道,卵瘤胃球菌atcc29174
<400>12
atgaaaggaaaaagagttattgcaggcattctgcttgcaggaattttagcagttaccctg60
gcagggtgtaaaaacacagataacactaaagaagaatcagaaaagccggttattaccctc120
ggcagcgatagctatccaccatacaattatctgaatgaggatggtgtaccgacgggcata180
gatgtggaactagctacagaagctttcaaaagaatgggatatcaggtgaatgtcgtccaa240
atcaactgggaggagaaaaaagaactggtagagagtggaaagatcgattgtatcatgggt300
tgtttttctatggaaggacgtcttgacgattaccgctgggcaggggcgtacatagcaagc360
cgtcaggttgtagcggtaaatgaggacagtgatatttataaattgagtgaccttgaggga420
aagaacctggctgtccagtccacaactaaaccggaagttatatttctgaaccggttggat480
aagagaatccacaaactgggaaatctgatcagtcttggacaccgcgagctgatatataca540
tttcttgggaaaggatatgtagatgcagttgccgcacatgaggaatcaatcatccagtat600
atgaaggattatgacatagacttccgtatcctggaagaatcgctgatgattacggggata660
ggtgttgctttcgcaaaagatgatgacagaggaattgtgagcagatggaccagacccttg720
aagaaatgcgtaaggatggcacgtctttga750
<210>13
<211>930
<212>dna
<213>微小小單胞菌atcc33270
<220>
<223>分離自腸道,微小小單胞菌atcc33270
<400>13
aatcaatttagaattggtttatcaagaatggagagagttgttagagaaagaatgtcaact60
caagatccagaccttgctacgcctcaaggacttattaatataagacctcttgttgcgtct120
ttaaaagaattcttcggttcttcacaattatcacaattcatggatcaaaacaatccactt180
gcagaacttactcataagagaagattatcagcattaggacctggtggtcttagtagagat240
agagcaggatacgaagtaagagacgttcatgaaagtcactacggaagaatttgtccgata300
gaaactccagaaggtccaaacatcggtcttattacttctcttacaacttatgcaagagtt360
gatcaatatggatttattgaaacaccatatcgtgttgtaaataatggaattgctacaaag420
gacattgtttatttaactgctgatgaagaagatgaagttattatcgctcaagccaatgaa480
ccacttgatgaaaatggacgttttgtaaacgaaagagtaagtggtcgtggtattaatggc540
gaaaatgatatttatccaagagatacaattcaacttatggacgtttctcctcaacaaatt600
gtatcagttggtacagcaatgattcctttccttgaaaatgacgatgctactcgtgcgttg660
atgggttcaaacatgcaaagacaagcagtgcctctacttgttactgaagctcctattgta720
ggaaccggtatagaacataaagcggcaagagatagtggtgttgttatcattgctaaaaat780
tcaggaattgttacaaaagttgatagtgatgaaattcatattaaaagagatttagataat840
gtagttgataaatatagattacttaaatttaaacgttcaaatcaaggaacaacaattaat900
caaagacctatagttaatgaaaatgacaga930
<210>14
<211>858
<212>dna
<213>普氏棲糞桿菌kle1255
<220>
<223>分離自腸道,普氏棲糞桿菌kle1255
<400>14
atctccaaactggaaaaaacgctgcgggcacggttcccgaaaacgcagcagggcgaactg60
ctggccggggcggtgctggccttctgcctgccggtgggcacctttctgctcacaagcgcc120
gtgtgccttctggcggcaaaaatcagcccctggctcggccttgccgtgcagatgttctgg180
tgcgggcaggcgctggcggcaaagggacttgtgcaggagagccggaacgtttacaacaag240
ctggtaaagcccgacctgcccgccgcccgcaaggccgtgagccgcatcgtggggcgggac300
accgagaacctgaccgccgagggcgtgaccaaggctgccgtggagactgtggccgagaat360
gccagcgacggcgtgattgcgccgctgctgtacatgctgctgggcggcgcgccgctggcg420
ctgacctacaaggccgtcaacaccatggacagcatggtgggctacaaaaacgagacctat480
ctctacttcggccgggcggcggcaaagctggacgatatggcaaactacattcccagccgc540
cttgccgccctgctgtgggcggcggctgctgccctgaccggcaacgatgccaaaggcgcg600
tggcgcatctggcggcgggaccggcgcaatcacgccagccccaacagcgcccagaccgaa660
agcgcctgcgccggtgcgctgggcgtgcagctggccgggccggcctactactttggcgaa720
tactacccgaaacccaccatcggcgatgccctgcgccccattgagccgcaggacatcctg780
cgggccgaccgcatgatgtacgccgccagcattctggcgctggtgctcgggcttgtgata840
cgggggttcgttgtatga858
<210>15
<211>1206
<212>dna
<213>未知的
<220>
<223>分離自腸道,未鑒定的
<400>15
atgaggttattttttgatatggtatgtaacggcagggcattgcaaaatgtacaaatgtat60
aaattgaatatggttttagatgtacacccctatgctattacagcaccgtcaaaaactggt120
ggccgttggcagacatatgtaaaggaaggtgataagcgtaagattataagggcttcttca180
aaggaaaaactaatggacaaattatatactgcctattttgttcaaaatggtgtttctggt240
atgaccatggacaagctttttctcgaatggttagcttataaggaatgtatcacaaatagt300
atgaatacgattcgcagacatgaacaacactggaaaaagtattttcaggatatttcccca360
aataaggtatcttcctatgatcgtctggaattgcagaaagaatgtaatcagttaataaaa420
gttaataacctttcttccaaagaatggcagaatgtaaaaacaattcttttaggtatgttt480
gactatgcctttgaaaaaggatatattaatacaaaccccatgcccagtattaaaatcact540
gttaaattccgtcaggtcaataaaaagagtggtaggactgaaacatatcagacagacgaa600
tacaaagcacttatgcaatatctagatgcagaatatacagctacagaagaccttgcttta660
ttggctgttaaatttgatttttttattggatgccgtgttgctgagttggtagctctcaag720
tggtgtgatgttgaaaatctacggcatttacatatttgtagggaagaggttaaagagtct780
gtccgtgttggtgatacctggaaagatgtttataccgtttcagagcatactaagacatat840
acagaccggtctataaatttagttcctaatgcgattgctattttaaatcatatccgtctt900
aaaatggcttataatgtatctgacgatgattatatctttacccggaacggttcccggatc960
acttcacgccagattaattatattcttgaaaaagcatgtacaaaactgggaattatgatt1020
aagaggtcgcataaggtaagaaaaacggttgcaagtcgtctcaatgtcggtgaggttccg1080
ttagattctattcgtgagctgttaggtcatgcaaatttaagcactacactaagttatatt1140
tataatccgttatcggaaaaagaaacctataacctgatgtccagagccttggggaaagtt1200
caatag1206
<210>16
<211>687
<212>dna
<213>具核梭桿菌文森亞種atcc49256
<220>
<223>分離自腸道,具核梭桿菌文森亞種atcc49256
<400>16
tctgcaaaagaaaaagttgctgcattagttgctgcattaaaagcagatggatatgatttt60
actgttggtatccctcttgatacaccaataggaaaatctgaaagagttgtaagtgctggt120
aaagggattggagataaaaagaatatgaagctaattgaaaacttagcaaaacaagctgga180
gcttctattggttcttctcgtccagtggcagaaacattgcaatatgtacctcttgaccgt240
tatgtaggaatgtcaggacaaaaatttgttggaaacctttatatagcttgtggaatttca300
ggagctttacaacatttaaaaggaattaaagatgcaacaacaatagttgctataaataca360
aactcaaatgctccaatatttaagaatgcagactatggaatagttggagatttagcagaa420
attttacctttattaactaaggaattagataatggagaagctaaaaaagatgcaccacct480
atgaagaaaatgaagagagttatacctagagtagtgtatagtcctcatgtatatgtatgt540
agtggttgtggacatgaatacaatcctgatttaggagatgaagattctgacataaaacca600
ggaactagatttaaagatttaccagaagattggacttgtcctgattgtggagatccaaaa660
tctggatatatagatgcaaaaaaataa687
<210>17
<211>1401
<212>dna
<213>普氏棲糞桿菌m21/2
<220>
<223>分離自腸道,普氏棲糞桿菌m21/2
<400>17
atgccgaacgaacgacattactccaatgaactgaatctggaaagcgtgggcatcaatctg60
ccctacaacatgcaggccgagcagagcgtgctgggtgcggtgctgctcaagccggaaaca120
ctgaccgacctggttgagatcatccggccggaaatgttctacacccggcagaacgcccaa180
atttattcggaaatgctccggctgttcaccagcgaccagaccattgatttcgtcaccctg240
ctggacgcggtcatctcagacggcgtgtttcccagcgcggacgaggcgaaagtctacctg300
accggtctggccgagacggtgcccagcatctccaacgtgaaagcctacgcccagatcgtg360
caggaaaaatatctggtccgccagctcatgggtgtggcgaaagatatcttgcaggatgcg420
ggcgacgagccggacgcggacctgctgctggaaaacgccgagcagcgcatttatgagatc480
cgctccgggcgggattccagcgccctgacgcccctttcttccagcatggtggaaacgctg540
accaatctgcagaagatcagcggcccggatgccgataagtacaagggcatccctacaggc600
ttccgcctgctggacaccgtgctcaccggccttggccgcggcgaccttattattctggct660
gcccgccccggtatgggcaagaccagttttgcgctgaacattgccacccgcgtggccatg720
cagcagaaagtaccggtggccatcttcagcctcgaaatgaccaaggagcagctgaccaac780
cggatcctctcggcggaggccggcatcgacagccaggcgttccgcaccggcgccctccgg840
gcggaggactgggagtacctggcccttgccaccgagaagctccatgacgcgcccatttat900
atggatgacacctcgggcatcaccatcaccgagatgaaagccaagatccgccgggtgaac960
caggaccccagccgccccaatgtggggctcatcgtcatcgactatctgcagctgatgacc1020
acgggccagcgcaccgagaaccgtgtacaggagatcagctccatcacccgaaacctcaag1080
atcatggccaaagagatgaatgtgcccatcattgcgctgagccagctgtcccgtgcggtg1140
gaaaagcagggcaacaactcctcccaccgcccccagctgtccgacctgcgtgattccggt1200
tccatcgagcaggacgccgactgcgtgctgttcctctaccgtgattcttattacgccagc1260
cagaacccggacggtgccgaggtggacgccgacacggccgagtgcatcgtggccaaaaac1320
cgccacggtgagaccagtaccgtgccgctgggctgggatggtgcccacacccgctttatg1380
gatgtggacttcaaacgctga1401
<210>18
<211>504
<212>dna
<213>共生梭菌wal-14163
<220>
<223>分離自腸道,共生梭菌wal-14163
<400>18
atggttgcacttgtatggctactgattgaaatgaaatataaaatcagtgtcccatctcca60
ctgttgctcagcatggtttacaaacttttgcttccggctatgcctgcctatcttctggct120
aaaatcccctctgggaaattaacggccagcttgagaagaatgccgatttctacccatatc180
atgcttgtattgatcgtcatgctccgctttgcgccgactgtgctgcatgaatttggagaa240
gtcagggaagccatgaaaattcgtggcttcttaaaatcggtcggtaatgttttgaggcat300
ccaatggacacgttggaatacgccattgttccgatggtgttccgctccttaaagatcgcg360
gacgagttagcagcttctgccatagtcaggggaattgaaagcccctacaagaaagaaagc420
tactatgtcagccggatcgctgcgctggattactttttgattgttgtcagcgtgggagct480
gccgtgtgctgctgtcttttatag504
<210>19
<211>1305
<212>dna
<213>未知的
<220>
<223>分離自腸道,未鑒定的
<400>19
atgttagcaatcgtaggtttattaactatcctggtcgtaatgtttctgattatgacaaaa60
aaatgttcgactctggtcgcactgattgcagttcccatgattgcatgtgttattgtgggt120
cagggcgccgatatgggagggtacataacggccggtatcaaaagtgtggccgccaccgga180
gtcatgtttatttttgcagtggcctttttcggtgtcatgggtgatgtgggtgcatttgaa240
atcgtagtgaataaaatactcaggattattgggaaagatcctttgaaaatctgtatcggc300
acgctgattatcacattgatgacccacctggacggctccggcgcaacgacatttttgatc360
acaataccggcgctgctgccgatatacgataaattgaagatggatcggcgtgtgctggca420
actatagtggcggcaggagcaggaaccatgaatctcgtcccttggggagggccgacgatc480
cgagcagcgacggcactggaggtctcactgaccgagctttacaatcctatgattgtccct540
cagctttgcggagtcgccgcctgcgtgacagtggcggtgatgtttggcctgaaggaacgg600
aaacgtttaaaagggactctggaatctgtttcggtagagcctccgaaatttgaggactta660
ccggaggaggagagagtgaaacgccgtccccaccttgtctggtttaacattctgctcatt720
atagttacaattgtgtcattggttatggagcttttgccgccggccggctgttttatggcg780
gcgctgtgcatcgcaatgctggttaactaccgtgatttaaaggatcagggaaaacggatg840
gacgagcatgcggtagcggccatgatgatggcatccaccctgtttggcgcaggctgcttt900
accggtatcctgggaggctgcggcatgctggaagcgatggcccagggactctgtgatatt960
ctcccggtagccattatgggtcacattgcgattttggtggcagttttctccatgcctctg1020
tcgctgatgttcgatccggacagcttctactatgcagtacttccggtaattgcagtggcg1080
gccgaggtggccggtgttccggcattggcagtgggccgcgcggcgatatgcggacagatt1140
actgttggattccccatttcaccactgactccatccaccttccttctgacaggactaacg1200
ggcgtggatctcggggaccatcagaagcacagtttcgtgtggctgtggctgatttccctg1260
acgattgtgctggttgccgtggtgatgggcgtaattccggtatag1305
<210>20
<211>708
<212>dna
<213>凸腹真桿菌atcc27560
<220>
<223>分離自腸道,凸腹真桿菌atcc27560
<400>20
gcagcttcaaactacgacctttgtacaacaatccttagaaatgaatggggatacgatggt60
atcgtaatgactgactggtgggccaagatgaacgacgttgtagaaggtggcgaagaatca120
aatcaggatacaagagatatggttcgctcacagaacgacgtatatatggttgtaaacaat180
aacggcgcagaagttaactcaaacaacgacaacacagagaaatcaattaaagagggaaga240
cttacaatcggagaacttcagcgagctgcaatcaacatctgcaacttcattctttcagca300
cctgttattgaaagagaattagttgacacagacgttgcaaaacattacgattcagttcca360
aatgatcaggccaagtatgaagtatttaacattgaaaaagacaataaggtaatgttcaat420
agcggagcagaagcaacattggaagttgaagacgaaggggaatacacaattattgttaac480
atctcatttgacaagtccaacttatcacagtcaacagtaaacgttaatgccaacggcaca540
acaatggtagtaatccagactaatggaacagacggcaactggattacacagaagctttgc600
aaggttaaacttgacaagggtgtatacaacttaaaacttgaagaagtattagcaggaatc660
aaagttaaatatattcagtttaagaagattcctaagaaaaataaataa708