本發(fā)明涉及分析化學(xué)和代謝組學(xué)領(lǐng)域。是一種用于大規(guī)模代謝組學(xué)數(shù)據(jù)校正的方法。
背景技術(shù):
代謝組學(xué)是研究生物體內(nèi)源性小分子代謝物動態(tài)變化的一門學(xué)科,是繼基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)后,系統(tǒng)生物學(xué)的又一重要分支。代謝物是基因調(diào)控的最終產(chǎn)物,是聯(lián)系基因型和生物表型的紐帶,通過對小分子代謝物的定性和定量分析可直接反映機體當(dāng)前的生理狀態(tài)。近年來,隨著分析技術(shù)的發(fā)展,代謝組學(xué)應(yīng)用已拓展至疾病的早期診斷和治療、臨床標(biāo)記物的發(fā)現(xiàn)、藥物篩選和毒性評價、藥物質(zhì)量控制、功能基因組學(xué)、植物學(xué)等多個生命科學(xué)研究領(lǐng)域。為了更深入地研究和驗證與疾病、藥物治療等相關(guān)的代謝變化,今年來大規(guī)模樣品的分析越來越受到重視。而大量樣品的分析需要消耗較長的分析時間,長時間的分析會造成儀器靈敏度的下降,因此通常需要將大量的樣品分成多個批次進行測試,每個批次間根據(jù)儀器響應(yīng)的狀態(tài),需要更換一些必須的配件(如進樣墊、襯管等)、色譜柱及不同的儀器等。在這些操作過程中,通常會造成不同批次間的代謝數(shù)據(jù)存在隨機誤差及系統(tǒng)誤差,而難以實現(xiàn)大規(guī)模數(shù)據(jù)整合;為了實現(xiàn)來自不同批次,不同儀器的多個批次數(shù)據(jù)的整合,我們建立了一種大規(guī)模數(shù)據(jù)校正的方法,該方法可以同時校正隨機誤差和系統(tǒng)誤差,實現(xiàn)多個批次的整合,滿足大規(guī)模代謝組學(xué)分析的要求。
本發(fā)明通過計算相鄰兩個QC樣本中代謝物響應(yīng)強度的比值,將其從小到大排序后,篩選總比值個數(shù)的5%作為離散點,將這5%的離散點平均分配到排序后比值的兩端,從而篩選出代謝組數(shù)據(jù)中的隨機誤差,利用比值的線性擬合模型對隨機誤差進行校正。然后利用線性回歸模型構(gòu)建虛擬QC方法,實現(xiàn)大規(guī)模代謝數(shù)據(jù)集的系統(tǒng)誤差校正。通過對上述過程的集成化處理,可以準(zhǔn)確、高效、高通量的校正大規(guī)模代謝組數(shù)據(jù)的隨機誤差和系統(tǒng)誤差,改善代謝組學(xué)數(shù)據(jù)的質(zhì)量,實現(xiàn)大規(guī)模數(shù)據(jù)的整合。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于建立一種通用的大規(guī)模代謝組學(xué)數(shù)據(jù)的校正方法。該方法可以同時校正隨機誤差和系統(tǒng)誤差,具有校正過程簡單、結(jié)果準(zhǔn)確、通路高等特點,可廣泛地應(yīng)用于大規(guī)模代謝組學(xué)的研究中。為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
一種通用的大規(guī)模代謝組學(xué)數(shù)據(jù)的校正方法,首先通過計算相鄰兩個QC樣本中代謝物響應(yīng)強度的比值,建立模型篩選隨機誤差,然后利用線性擬合模型對隨機誤差進行校正。最后利用線性回歸模型構(gòu)建虛擬QC方法,實現(xiàn)大規(guī)模代謝組數(shù)據(jù)集的系統(tǒng)誤差校正。
具體步驟如附圖1所示:
1)QC樣本的制作:分別從所有將進行化學(xué)輪廓分析的樣本中準(zhǔn)確稱量或移
取等量樣本并均勻混合成一個大的樣本,即QC樣本;
2)代謝組學(xué)數(shù)據(jù)的獲?。好?-20個待測樣本插入一個QC樣本,QC樣本和代測樣本按照完全相同條件進行樣本預(yù)處理和基于色譜-質(zhì)譜方法的代謝組學(xué)分析;
3)相鄰兩個QC樣品中代謝組數(shù)據(jù)比值的獲取:計算同一個代謝物在相鄰兩個QC樣品中的響應(yīng)強度的比值;
4)構(gòu)建模型篩選隨機誤差(附圖2):將相鄰兩個QC樣品中代謝物的比值從小到大排序后,篩選總比值個數(shù)的5%作為離散點,將這5%的離散點平均分配到排序后比值的兩端,從而篩選出隨機誤差;
5)兩個相鄰QC樣品中正常比值的獲?。汉Y選到隨機誤差后,去除含有隨機誤差的代謝特征,計算不含有隨機誤差的正常代謝特征在相鄰兩個QC樣品中的比值;
6)線性擬合模型的構(gòu)建:將正常代謝特征在兩個相鄰QC樣本中的比值,進行從小到大排序,并進行線性擬合,獲得線性擬合模型的公式,將含有隨機誤差的代謝特征j帶入線性擬合模型的公式中,獲得校正因子其中AQCnj和AQC'(n-1)j分別代表特征j在QCn中未校正的響應(yīng)值和在QC(n-1)中校正后的響應(yīng)值;
7)校正隨機誤差:某一含有隨機誤差的代謝物j在QCn中響應(yīng)值為AQnj,其校正后的響應(yīng)值A(chǔ)QC'nj可以通過如下公式獲得;
8)利用所建立的篩選和校正代謝組學(xué)數(shù)據(jù)隨機誤差的方法對所有的QC樣本進行隨機誤差的篩選和校正;
9)線性回歸模型的構(gòu)建:應(yīng)用每個代謝特征在相鄰兩個QC樣品中的響應(yīng)強度值,構(gòu)建代謝特征的線性回歸模型;
10)虛擬QC方法(附圖3)的建立:根據(jù)兩個相鄰QC樣本間,實際分析地樣本的個數(shù),將上述所構(gòu)建的某一代謝特征j的線性回歸模型進行均等分,每個實際樣品i均獲得一個虛擬的QC樣品,其響應(yīng)值A(chǔ)QCv_ij的計算公式如下:
式中,a和b代表線性回歸模型的斜率和節(jié)距,i代表實際樣品在線性回歸模型中的位置;
11)系統(tǒng)誤差校正:利用上述所得到的實際樣品i中代謝特征j的虛擬QC的響應(yīng)值A(chǔ)QCv_ij,對其實測響應(yīng)強度Axij進行系統(tǒng)誤差的校正,校正后的響應(yīng)值A(chǔ)x'ij,可以通過如下公式獲得:
本發(fā)明具有的效果是:有效、準(zhǔn)確地校正代謝組學(xué)數(shù)據(jù)中的隨機誤差和系統(tǒng)誤差,該數(shù)據(jù)處理過程簡單方便、通量高、校正效果明顯,可以顯著地改善代謝組數(shù)據(jù)的質(zhì)量。
附圖說明
從下面結(jié)合附圖的詳細描述中,本發(fā)明的上述特征和優(yōu)點將更明顯,其中:
圖1隨機誤差和系統(tǒng)誤差校正方法的基本流程示意圖。
圖2篩選隨機誤差的示意圖。
圖3虛擬QC校正方法的示意圖。
圖4是實施例中的實驗設(shè)計。
圖5是實施列中我們建立的校正隨機誤差和系統(tǒng)誤差的方法與傳統(tǒng)的內(nèi)標(biāo)校正和總峰面積校正方法比較的結(jié)果。其中(A)PCA分析中QC樣品的歐式距離和皮爾森相關(guān)系數(shù),(B)QC樣本的RSD分布圖,圖(B)中,使用圓圈對曲線進行標(biāo)記,圓圈曲線從上至下依次為隨機+系統(tǒng)誤差校正;內(nèi)標(biāo)校正;總峰面積校正。
具體實施方式
下面通過實例進一步闡釋本發(fā)明,實例僅限于說明本發(fā)明以便于理解,而非對本發(fā)明的限定。
實施例1
采用氣相色譜-單四級桿串聯(lián)質(zhì)譜(GC-Q-MS)測定來自云南、河南、貴州三個產(chǎn)地的新鮮中部煙葉共1197個。所有的樣品在2臺不同的GC-MS儀器(GC-MS QP2010和QP2010-plus)及9個不同批次的實驗中被分析,其中批次1有188個樣本,批次2有209個樣本,批次3有25個樣,批次4有25個樣,批次5有156個樣,批次6有97個樣,批次7有84個樣,批次8有354個樣,批次9有59個樣本,不同的批次間進行了儀器配件的更換、質(zhì)譜參數(shù)的調(diào)諧及色譜柱的更換等操作。附圖4列出了本實施例的實驗設(shè)計。
1.樣品
以新鮮煙葉樣本為例,采集不同產(chǎn)地的新鮮中部煙葉,-196℃液氮保存,運輸,液氮條件下研磨,低溫凍干,-80℃冰箱儲存。每個煙末樣本中分別稱量0.5g,均勻混合,生成一個新的樣本,即質(zhì)量控制(QC)樣本。QC樣本可以用于建立氣相色譜質(zhì)譜聯(lián)用(GC-MS)擬靶標(biāo)代謝組學(xué)方法、評價分析方法的重復(fù)性及校正實際樣品代謝組數(shù)據(jù)的誤差。
2.隨機誤差的篩選和校正方法:
2.1GC-MS代謝組學(xué)分析
(1)樣品預(yù)處理:
煙草鮮葉樣本從-80℃冰箱中取出,4℃冰箱過夜放置后,室溫下放置1小時。準(zhǔn)確稱取10mg煙草鮮葉樣本,加入1.5mL乙腈/異丙醇/水(3/3/2,v/v/v),此時內(nèi)標(biāo)十三酸的的濃度相當(dāng)于1.3μg/ml,渦旋振蕩提取4分鐘后,14000rpm離心10分鐘,取0.5mL上清,低溫減壓干燥。衍生采用肟化反應(yīng)和硅烷化反應(yīng)兩步法,第一步加入100μL甲氧胺鹽酸鹽-吡啶溶液(20mg/mL),37℃水浴衍生90分鐘;第二步加入80mL N-甲基-N-(三甲基硅基)三氟乙酰胺進行硅烷化反應(yīng),反應(yīng)時間60分鐘。取上清1μL用于進樣。
(2)GC-MS分析條件:氣相色譜質(zhì)譜聯(lián)用的分析在島津QP2010氣質(zhì)聯(lián)用系統(tǒng)完成;色譜柱為安捷倫DB-5MS毛細管柱(30m×0.25mm×0.25μm);氦氣作為載氣,流量1.2mL/min;進樣口溫度300℃,分流比10:1;程序升溫:初始70℃,保持3分鐘,5℃/min升至310℃,保持5分鐘。進樣量1μL。EI電離模式(70eV),傳輸線溫度280℃,離子源240℃,質(zhì)量掃描范圍33-600m/z,GC-MS擬靶標(biāo)分析方法的建立流程主要包括以下幾個方面,首先采用ChromaTOF(Leco)和AMDIS(NIST)軟件對QC樣品的GC-MS全掃描數(shù)據(jù)進行去卷積和峰識別,確定輪廓分析的目標(biāo)化合物,通過計算相鄰化合物的保留時間,對所有待分析的化合物進行分組,進行組內(nèi)特征離子的選擇。根據(jù)化合物的特征離子、保留時間和分組信息建立基于GC-MS擬靶標(biāo)代謝組學(xué)分析方法,該方法包括50個分組,319個代謝物。擬靶標(biāo)分析方法的其他參數(shù)與全掃描模式相同。
2.2代謝組輪廓數(shù)據(jù)的生成
采集的原始代謝組輪廓數(shù)據(jù)由ChromaTOF(Leco)和AMDIS(NIST)軟件進行去卷積和峰識別。隨后,采用島津Postrun軟件進行色譜峰的匹配,保留時間窗口設(shè)為0.2min。
2.3構(gòu)建模型篩選隨機誤差
將相鄰兩個QC樣品中代謝物響應(yīng)強度的比值從小到大排序后,篩選總比值個數(shù)的5%作為離散點,將這5%的離散點平均分配到排序后比值的兩端(附圖2),從而篩選出隨機誤差。
2.4構(gòu)建線性擬合模型校正隨機誤差
篩選到隨機誤差后,去除含有隨機誤差的代謝特征,計算不含有隨機誤差的正常代謝特征在相鄰兩個QC樣品中的比值,并對其進行從小到大排序,
然后建立線性擬合模型,獲得擬合模型的公式,將含有隨機誤差的代謝特征j帶入線性擬合模型的公式中,獲得校正因子其中AQC nj和AQC'(n-1)j分別代表特征j在QCn中未校正的響應(yīng)值和在QC(n-1)中校正后的響應(yīng)值。最后,某一含有隨機誤差的代謝物j在QCn中響應(yīng)值為AQnj,其校正后的響應(yīng)值A(chǔ)QC'nj的可以通過如下公式獲得;
2.5構(gòu)型虛擬QC方法校正系統(tǒng)誤差
應(yīng)用每個代謝特征在相鄰兩個QC樣品中的響應(yīng)強度值,構(gòu)建代謝特征的線性回歸模型(附圖3)。根據(jù)兩個相鄰QC樣本間,分析地實際樣本的個數(shù),將上述所構(gòu)建的某一代謝特征j的線性回歸模型進行均等分,每個實際樣品i均獲得一個虛擬的QC樣品,其響應(yīng)值A(chǔ)QCv_ij的計算公式如下:
式中,a和b代表線性回歸模型的斜率和節(jié)距,i代表實際樣品在線性回歸模型中的位置。
利用上述所得到的實際樣品i中代謝特征j的虛擬QC的響應(yīng)值A(chǔ)QCv_ij,對其實測響應(yīng)強度Axij進行系統(tǒng)誤差的校正,校正后的響應(yīng)值A(chǔ)x'ij,可以通過如下公式獲得:
2.6與常用的內(nèi)標(biāo)校正和總峰面積校正的結(jié)果比較
與實施例1類似。將實驗所獲得的GC-MS擬靶標(biāo)代謝組數(shù)據(jù)用內(nèi)標(biāo)校正和總峰面積校正,輸出結(jié)果,并對所計算的結(jié)果進行比較。結(jié)果發(fā)現(xiàn),與內(nèi)標(biāo)校正和總峰面積校正相比,我們建立的校正隨機誤差和系統(tǒng)誤差的方法,可以使所有的QC樣品,展現(xiàn)出較大的皮爾森相關(guān)系數(shù)、較小的歐式距離和RSD值(附圖5),說明應(yīng)用我們建立的校正方法可以使所有的QC樣品在PCA中聚集的更緊密,并顯著地改善QC的重復(fù)性??傊?,本發(fā)明給出了一種通用的大規(guī)模代謝組學(xué)數(shù)據(jù)的校正方法。與傳統(tǒng)的內(nèi)標(biāo)校正和總峰面積校正方法相比,本發(fā)明同時校正了隨機誤差和系統(tǒng)誤差,可以實現(xiàn)不同批次、不同儀器大規(guī)模代謝數(shù)據(jù)的整合。首次采用相鄰兩組質(zhì)量控制樣品的比值篩選隨機誤差,然后利用線性擬合模型對隨機誤差進行校正。最后利用線性回歸模型構(gòu)建虛擬QC方法,實現(xiàn)大規(guī)模代謝組數(shù)據(jù)集的系統(tǒng)誤差校正。采用本發(fā)明方法比傳統(tǒng)的內(nèi)標(biāo)校正和總峰面積校正方法有更好的校正效果,校正后數(shù)據(jù)重復(fù)性好、歐式距離小和皮爾森相關(guān)系數(shù)大。