檢測人體腸道宏基因組的細菌群落及豐度的方法
【技術領域】
[0001] 本發(fā)明屬于生物信息鑒定領域。
【背景技術】
[0002] 人體腸道定植有上百萬億細菌,這占到了人體細菌總量的絕大多數。一旦腸道菌 群失調,就會產生一系列疾病。然而,99%的腸道細菌群落都是不能通過傳統(tǒng)方法培養(yǎng)的,也 就不能通過傳統(tǒng)的基因組學方法獲取它們的基因信息。宏基因組學技術(Metagenomics), 為我們提供了充分挖掘腸道中細菌群落的技術手段,該技術不需要對菌群進行傳統(tǒng)培養(yǎng), 而是直接測序腸道樣品中的DNA。這種技術測序所得到的不是一種細菌的完整基因組,而是 腸道中所有菌群的混雜基因,其中大量是以前無法認識的新細菌。傳統(tǒng)的通過生物實驗(提 取宏基因組中微生物菌株16sRNA)來鑒定DNA片段歸屬的方法,無論在人力、物力還是時間 上都顯得力不從心。怎樣設計生物信息學方法來檢測人體腸道宏基因組中的細菌群落,是 需要解決的一個關鍵問題。
【發(fā)明內容】
[0003] 本發(fā)明的目的是利用已測序細菌的基因組作為參考基因組,基于支持向量數據描 述(SVDD)模型檢測腸道宏基因組中未知DNA片段細菌群落的檢測人體腸道宏基因組的細 菌群落及豐度的方法。
[0004] 本發(fā)明的步驟是: a、利用SVDD模型對已知細菌的DNA序列進行分類訓練:從下載的每個細菌中隨機切割 出100段長度為1000 bp的不重疊 DNA片段,對每一段DNA片段,計算其k-mer頻率與它們 的反向互補k-mer頻率之商作為數字特征向量; 設每類細菌X能描述為:
,其中
]是從每一段DNA片段中提取的數字特征向 量,#是每類細菌的樣本數d是數字特征向量的維數,提取每類細菌X的所有DNA序列片段 的數字特征向量之后,利用支持向量數據描述SVDD模型對其進行分類訓練,就是在核空間 尋求一個包含幾乎所有的&且體積達到最小的超球體,用來對每類細菌Z進行數據描述, 所求超球可通過解如下所示的凸約束二次規(guī)劃得到: ^ \Jy :: I::. .丄
? :V 式中:£?為球心,r為半徑:
k對稱的非線性映射函數,
是一個松弛變量; b、根據分類訓練結果檢測腸道宏基因組中包含的DNA片段來自的細菌群落及豐度:對 每個輸入的待檢測DNA片段,先計算其數字特征向量X,然后用下面的函數來決定所屬細菌 群落:
式中0/、G分別是是所訓練的第J個細菌群落的超球球心和半徑。
[0005] 本發(fā)明所述的基于支持向量數據描述模型的人體腸道宏基因組細菌群落檢測,是 提取DNA片段的數字特征,即k-mer頻率與它們的反向互補k-mer頻率組合而成的綜合頻 率,其優(yōu)勢在于不需要生物實驗提取細菌的16sRNA作為物種特征標簽。本發(fā)明所述的方法 具有快速、方便的特點。是利用一種有監(jiān)督的學習方法SVDD模型,對已知細菌的DNA信息 進行分類訓練,來完成對未知DNA片段細菌群落的檢測。最終是要檢測腸道宏基因組中的 DNA片段來自的細菌群落及相應豐度。
【附圖說明】
[0006] 圖1是本發(fā)明檢測流程圖。
【具體實施方式】
[0007] 本發(fā)明的步驟是: a、利用SVDD模型對已知細菌的DNA序列進行分類訓練:從下載的每個細菌中隨機切割 出100段長度為1000 bp的不重疊 DNA片段,對每一段DNA片段,計算其k-mer頻率與它們 的反向互補k-mer頻率之商作為數字特征向量; 設每類細菌X能描述為:
其中 _ __ ________
_ I從每一段DNA片段中提取的數字特征向 量,#是每類細菌的樣本數d是數字特征向量的維數,提取每類細菌X的所有DNA序列片段 的數字特征向量之后,利用支持向量數據描述SVDD模型對其進行分類訓練,就是在核空間 尋求一個包含幾乎所有的且體積達到最小的超球體,用來對每類細菌Z進行數據描述, 所求超球可通過解如下所示的凸約束二次規(guī)劃得到: ;.-* ? ~
:' 式中考為球心,r為半徑,
是2-范數,是對稱的非線性映射函數,
一個松弛變量; b、根據分類訓練結果檢測腸道宏基因組中包含的DNA片段來自的細菌群落及豐度:對 每個輸入的待檢測DNA片段,先計算其數字特征向量X,然后用下面的函數來決定所屬細菌 群落:
式中巧、$:分別是是所訓練的第J個細菌群落的超球球心和半徑。
[0008] 以下對本發(fā)明做進一步詳細描述: 本發(fā)明所述的基于支持向量數據描述模型的人體腸道宏基因組細菌群落檢測,其具體 流程如下:先分別從已知的細菌DNA序列和腸道宏基因組DNA序列中提取數字特征。然后 利用SVDD分類器訓練已知細菌的數字特征,使每個細菌可以由一個超球對其進行數據描 述,并將訓練結果存入數據庫。在識別階段,對來自于待鑒定腸道宏基因組的DNA序列與存 儲的已有細菌特征進行匹配,判斷其來自的細菌群落。最后,輸出腸道宏基因組中的DNA序 列分別來自什么細菌群落及相應的豐度等信息。
[0009] 所述的基于支持向量數據描述模型的人體腸道細菌群落檢測包括如下幾個步 驟: 實驗基因組數據的獲取 實驗所用的500個細菌的全基因組序列均是從美國國家生物技術信息中心(NCBI :US National Center for Biotechnology Information)下載,實驗所用的人體腸道宏基因組 數據是由深圳華大基因研究所提供,可從網站http://gutmeta. genomics, org. cn/下載。
[0010] 數字特征向量的提取 基因序列是由4種核苷酸A、T、G、C構成的線性序列,首先將細菌的全基因組序列切割 成長度為1000 bp長的不重疊 DNA片段,對每一段DNA片段,計算其k-mer頻率與它們的反 向互補k-mer頻率組合而成的綜合頻率,如當k參數取5時即是5-mer頻率,其頻率為所有 5個堿基點與其反向互補序列的頻率