專利名稱:一種用于中藥復(fù)雜成分分析的實(shí)時(shí)特征提取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于制藥領(lǐng)域,涉及中藥復(fù)雜成分分析的實(shí)時(shí)在線特征提取方法。
背景技術(shù):
中藥是中華民族的瑰寶,已有2000多年的臨床實(shí)踐,在中華民族的繁衍生息過程 中起到了不可磨滅的作用。隨著國家在中藥科技方面的不斷投入,中藥現(xiàn)代化的進(jìn)程取得 了可喜進(jìn)展,一些藥物的療效再次被科學(xué)實(shí)驗(yàn)證明,有的甚至超過化學(xué)藥物。當(dāng)今西方國家 在化藥的研究和開發(fā)方面具有絕對優(yōu)勢,并且很難在短期內(nèi)有所改觀,故大力發(fā)展中藥事 業(yè)對我國的制藥行業(yè)具有極其重要的意義。但中藥成分及其復(fù)雜,且長期以來基礎(chǔ)研究不 夠深入,這雖然有歷史性的原因,但現(xiàn)有技術(shù)的局限,顯得尤其突出。在液相色譜質(zhì)譜聯(lián)用 (LC-MS)技術(shù)成熟之前,對中藥的研究,需先用植物化學(xué)的分離手段從中藥中分離到單體化 合物,然后經(jīng)過四大光譜分析,才能了解其中化合物的結(jié)構(gòu)信息。然而,LC-MS技術(shù)完全改觀 了傳統(tǒng)的中藥物質(zhì)基礎(chǔ)研究模式,在提高結(jié)構(gòu)確證速度的同時(shí),也使以前不能分離提取得 到的微量成分的鑒定成為可能。但是,現(xiàn)有LC-MS數(shù)據(jù)的分析主要靠人工完成,成為當(dāng)前質(zhì) 譜應(yīng)用的一個(gè)瓶頸問題,尤其是在需要分析大量的中藥組分庫樣品時(shí)。目前,主流的LC-MS 生產(chǎn)商(如熱電集團(tuán),應(yīng)用生物公司和Waters公司)提供的工作站,只能在數(shù)據(jù)采集完畢 后,進(jìn)行簡單的一維數(shù)據(jù)分析,用戶要設(shè)定多個(gè)參數(shù),一套參數(shù)也僅能適用于特定的樣本, 不同的樣本需做相應(yīng)調(diào)整,故數(shù)據(jù)的分析成為當(dāng)前大批LC-MS應(yīng)用的限速步驟。
LC-MS采集的信號(hào)由時(shí)間維和質(zhì)量維構(gòu)成,而一般的液相色譜與紫外檢測器 (LC-UV)連接采集的信號(hào)只有一個(gè)時(shí)間維度。通常人們將從LC-UV中,化合物洗脫的一段 時(shí)間內(nèi)強(qiáng)度的變化稱為"色譜峰";而在二維LC-MS中化合物洗脫時(shí),不僅有時(shí)間過程,還 有質(zhì)量的分布,我們稱同時(shí)含有兩維信息的區(qū)域成為化合物的"特征",那么用于尋找這些 區(qū)域的算法稱為特征提取算法或方法。由于LC-MS所采集數(shù)據(jù)維度的增加,大大增加了從 其中提取信息的難度。在中藥領(lǐng)域,研究LC-MS特征提取的方法很少,而在生物信息學(xué)領(lǐng) 域,卻是一個(gè)非常熱門的方向,這得益于蛋白組學(xué)、代謝組學(xué)研究中需要處理大量LC-MS數(shù) 據(jù)的需求推動(dòng)。比較著名的開源工具包括XCMS, MZmine等;商業(yè)軟件包括AnalyzerPro, ProTrawler等。這些工具僅用于LC-MS采集以后數(shù)據(jù)的離線分析,其算法是建立在整個(gè)分 析時(shí)間內(nèi)的數(shù)據(jù)的基礎(chǔ)上的,比如XCMS要先對采集完畢以后的數(shù)據(jù)就某個(gè)質(zhì)量數(shù)范圍的 信號(hào)合并,然后才能從其中進(jìn)行峰檢測,并且這些軟件都需要設(shè)定多個(gè)參數(shù),一些參數(shù)沒有 實(shí)際的物理意義,比如小波的尺度、系數(shù)等,難以被一般用戶所理解。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的不足和缺陷,提供一種用于中藥復(fù)雜成分分析的實(shí)時(shí)特征 提取方法。該方法基于LC-MS的時(shí)間維和質(zhì)量維的兩維特征信息,通過二維特征鏈檢測,局 部噪音和基線估計(jì),以及特征分辨來實(shí)現(xiàn),不僅假陽性低,而且運(yùn)算速度快,可實(shí)現(xiàn)實(shí)時(shí)分 析。本發(fā)明通過以下步驟實(shí)現(xiàn)
1.質(zhì)譜數(shù)據(jù)采集中藥復(fù)雜樣品首先經(jīng)色譜單元進(jìn)行分離,然后質(zhì)譜儀在一定的 采樣頻率(f)下,順序以全掃描模式分析色譜洗脫的流份,采集的數(shù)據(jù)以centroid(棒狀 圖)格式存儲(chǔ)(這是現(xiàn)有質(zhì)譜儀都支持的格式)。每一時(shí)間點(diǎn)(1/f的整數(shù)倍)采集的數(shù)據(jù) 為一張質(zhì)譜圖,對應(yīng)于質(zhì)譜維的數(shù)據(jù);不同的時(shí)間點(diǎn)采集的數(shù)據(jù)構(gòu)成色譜維信息,比如每一 時(shí)間點(diǎn)采集的質(zhì)譜圖中所有離子的強(qiáng)度相加,得到每一時(shí)間點(diǎn)的響應(yīng)強(qiáng)度,那么所有時(shí)間 點(diǎn)的響應(yīng)強(qiáng)度就構(gòu)成了總離子流色譜圖。本發(fā)明中色譜包括液相色譜(HPLC)和超高壓液 相色譜(UPLC);質(zhì)譜包括能進(jìn)行高分辨和低分辯全掃描,并通過大氣壓電離源與前述色譜 聯(lián)用的質(zhì)譜儀,如單重四級(jí)桿質(zhì)譜,三重四級(jí)桿質(zhì)譜,離子阱質(zhì)譜或飛行時(shí)間質(zhì)譜;
2. 二維特征鏈檢測BNN(minWidth, CC) 質(zhì)譜儀每采集到一個(gè)時(shí)間點(diǎn)的質(zhì)譜圖,即傳給BNN模塊進(jìn)行分析。首先質(zhì)譜圖中 的質(zhì)荷比和強(qiáng)度信息,分別賦值給質(zhì)荷比數(shù)組MZ和強(qiáng)度數(shù)組INTEN,然后依時(shí)間順序用雙 向最近鄰算法檢測含有化合物信息的二維特征鏈,檢測到的二維特征鏈存儲(chǔ)在CC中,可被 其他模塊隨時(shí)獲?。?3.局部噪音和局部基線估計(jì)De_Noise_Baseline(minWidth) 隨著采集數(shù)據(jù)的增多,若CC中的某個(gè)二維特征鏈CCk的長度Nk大于minWidth,則
可對其進(jìn)行噪音和基線的估計(jì)。二維特征鏈包含色譜維和質(zhì)譜維雙重信息,分別由時(shí)間與
MZ和INTEN構(gòu)成。將二維特征鏈的響應(yīng)強(qiáng)度信息與高通濾波器進(jìn)行線性巻積,并應(yīng)用3倍
總體標(biāo)準(zhǔn)差過濾掉脈沖信號(hào),即為色譜維的噪音估計(jì)。為了估算色譜維中的基線,本發(fā)明依
據(jù)二維特征鏈質(zhì)譜維中組分區(qū)與零組分區(qū)質(zhì)量波動(dòng)的差異,設(shè)計(jì)以下算法 (l)在二維特征鏈CCk中找到強(qiáng)度最大的時(shí)間點(diǎn),然后計(jì)算其臨近區(qū)域的平均質(zhì)量
波動(dòng)(相鄰質(zhì)荷比的差值)mzMin ; (2)以5倍mzMin為閾值,找到所有質(zhì)量波動(dòng)大于此閾值的位置,將這些位置和CCk 的第一個(gè)點(diǎn)定義為關(guān)鍵點(diǎn); (3)這些關(guān)鍵點(diǎn)也對應(yīng)于色譜維上的關(guān)鍵點(diǎn),在色譜維上,將這些關(guān)鍵點(diǎn)用直線連 接,即為基線B(x)的估計(jì),若最后一個(gè)關(guān)鍵點(diǎn)不是CCk的最后一點(diǎn),則該關(guān)鍵點(diǎn)水平延伸到 最后的線即為對應(yīng)區(qū)域的基線估計(jì)。 4.特征分辨FeatureReslove(minWidth, minSN, feature_list)
當(dāng)二維特征鏈CCk的局部噪音和基線估計(jì)完成后(指當(dāng)前時(shí)間,特征鏈在后繼的 時(shí)間可能還會(huì)延長,相應(yīng)的噪音和基線會(huì)被重新估算),即可進(jìn)行特征分辨。由于特征檢測 的實(shí)時(shí)性,一般當(dāng)時(shí)只有部分特征被洗脫,特征分辨的目的即判斷當(dāng)前時(shí)間點(diǎn)處于色譜峰 (特征)洗脫的什么位置起點(diǎn)、終點(diǎn)等。從原始信號(hào)強(qiáng)度中減去噪音e (x)和基線B(x) (x 為時(shí)間點(diǎn)),得到近似的真實(shí)信號(hào)估計(jì)NS (x)。若是首次對CCk進(jìn)行特征分辨,則需初始化 特征檢測狀態(tài)s = O,具體算法參看實(shí)施例1。檢測到的特征保存在feature—list(特征列 表)中, 定義CCk中任意一點(diǎn)的信噪比為
SiV(x) = ——^——^
丄幼 其中LSD為位置x附近的標(biāo)準(zhǔn)差,CCk中的最后一個(gè)點(diǎn)即為當(dāng)前采集的數(shù)據(jù)點(diǎn),計(jì) 算其信噪比SN。
5
5.以上四步,每采集一張質(zhì)譜圖,即為一個(gè)運(yùn)算周期;每周期僅對可進(jìn)入二維特 征鏈的數(shù)據(jù)進(jìn)行運(yùn)算,其他信號(hào)被認(rèn)為是噪音;每一時(shí)間點(diǎn)被處理的最大二維特征鏈數(shù)為 上一張質(zhì)譜圖中所有離子的個(gè)數(shù),而實(shí)際大部分情況下遠(yuǎn)遠(yuǎn)小于這個(gè)數(shù)值,這也是算法運(yùn) 算快的原因之一。當(dāng)所有質(zhì)譜數(shù)據(jù)采集完畢時(shí),特征檢測也相應(yīng)結(jié)束,從而實(shí)現(xiàn)了特征的實(shí) 時(shí)檢測。 本發(fā)明優(yōu)點(diǎn)如下 (1) 二維特征鏈契合了色譜質(zhì)譜聯(lián)用數(shù)據(jù)的分布特征,一般一個(gè)數(shù)據(jù)集中所有二
維特征鏈的數(shù)據(jù)量僅占總數(shù)據(jù)量的一小部分(< 1% ),從本質(zhì)上提高了特征檢測算法的效 率; (2)本發(fā)明設(shè)計(jì)的三點(diǎn)高通濾波器,能準(zhǔn)確估算色譜信號(hào)中的隨機(jī)噪音,具有方差 不變的特性; (3)本發(fā)明的基線估計(jì)方法利用了質(zhì)譜維中的質(zhì)量波動(dòng)信息,克服了單純從色譜 維信息難以準(zhǔn)確估算基線的缺點(diǎn); (4)本發(fā)明設(shè)計(jì)的算法,參數(shù)少且優(yōu)化簡單,具有實(shí)際物理意義, 一套參數(shù)可適用 于不同復(fù)雜度的樣本; (5)本發(fā)明設(shè)計(jì)的算法,實(shí)現(xiàn)了樣品采集與特征提取的同步進(jìn)行,特別適于數(shù)字化 中藥組分庫大量樣品的分析。
圖1是LC-MS實(shí)時(shí)特征提取示意圖。 圖2是含有高斯白噪音和不同采樣頻率(d)的模擬信號(hào)(A)以及應(yīng)用高通濾波 器以后的信號(hào)(綠線)與原始高斯白噪音(藍(lán)線)的疊加圖,其中虛線為3倍標(biāo)準(zhǔn)差位置 (B)。 圖3是比較本發(fā)明與Savitzky-Golay平滑算法對噪音的估計(jì)A圖為采樣率從1 到20時(shí),不同的算法估算值與實(shí)際噪音的標(biāo)準(zhǔn)差比較;B圖和C圖為取樣率在5和15時(shí), 噪音水平從1%到10%時(shí),不同算法的比較;藍(lán)線為理論噪音標(biāo)準(zhǔn)差,綠線為本發(fā)明估算的 標(biāo)準(zhǔn)差,紅線為Savitzky-Golay估算的標(biāo)準(zhǔn)差。 圖4是一個(gè)二維特征鏈實(shí)例,來自胃復(fù)春片A圖為二維特征鏈的時(shí)間維,B圖為其 質(zhì)量維,C圖為質(zhì)量波動(dòng)與時(shí)間的關(guān)系(虛線為5倍mzMin);紅色星號(hào)為關(guān)鍵點(diǎn)位置,基線 用綠線連接。 圖5是胃復(fù)春片中柚皮蕓香苷和柚皮素的特征檢測A圖為柚皮蕓香苷和柚皮素 的準(zhǔn)分子離子及其同位素峰的選擇離子色譜圖;B圖為柚皮蕓香苷和柚皮素的二維特征區(qū) 域,棕色的線為二維特征鏈,其中檢測到的"特征"用綠色方框指示,頂點(diǎn)用紅色星號(hào)指示。
圖6是胃復(fù)春片的總離子流色譜圖(A圖),由檢測到的特征重構(gòu)的色譜圖(B圖) 以及殘留信號(hào)和噪音重構(gòu)的色譜圖(C圖)。
圖7是雙丹顆粒的總離子流色譜圖。 圖8是雙丹顆粒中丹酚酸E、丹酚酸B及一未知化合物(m/z 719)特征檢測A圖 為m/z 719的選擇離子色譜圖,B圖為m/z 718的選擇離子色譜圖,C圖為m/z 717的選擇 離子色譜圖,D圖為丹酚酸E和丹酚酸B的二維特征區(qū)域,棕色的線為二維特征鏈,其中檢
6測到的"特征"用綠色方框指示,頂點(diǎn)用紅色星號(hào)指示。 圖9是燈盞細(xì)辛注射液的總離子流色譜圖(A圖),基峰(base-peak)色譜
圖(B圖)以及由檢測到的特征重構(gòu)的色譜圖(C圖)。
具體實(shí)施例方式
本發(fā)明結(jié)合附圖和實(shí)施例作進(jìn)一步的說明。 實(shí)施例1本發(fā)明的一種用于中藥復(fù)雜成分分析的實(shí)時(shí)特征提取方法
1.通訊模塊MS_Communication (acq_mode, cur_ms_data) 該函數(shù)負(fù)責(zé)與質(zhì)譜進(jìn)行通訊,若采集模式(acq_mode)為profile,當(dāng)從質(zhì)譜獲取 到當(dāng)前數(shù)據(jù)后,則將其用分水嶺算法轉(zhuǎn)化為centroid格式后,通過curjiis—data參數(shù)返回; 若采集模式為centroid,則直接返回?cái)?shù)據(jù)。參數(shù)cur_mS_data為包含質(zhì)荷比及其對應(yīng)強(qiáng)度 的二維數(shù)據(jù)。 2. 二維特征鏈檢測BNN(minWidth, CC) 在BNN模塊中通過調(diào)用MS—Communication,可以得到當(dāng)前采集的質(zhì)譜數(shù)據(jù),賦值 給質(zhì)荷比數(shù)組MZ和強(qiáng)度數(shù)組INTEN。順序采集到的數(shù)據(jù),用雙向最近鄰算法(Bilateral Nearest Neighbor,BNN)檢測二維特征鏈。BNN算法的原理是依次取當(dāng)前質(zhì)譜圖中的一個(gè) 離子MZi,j(i為掃描數(shù)scan—皿mber,相當(dāng)于當(dāng)前采集的第i張質(zhì)譜圖;j為MZt中的第j個(gè) 離子),然后在上一時(shí)間點(diǎn)采集的質(zhì)譜圖中尋找與其質(zhì)量最接近的離子MZ卜l j ;若在當(dāng)前質(zhì) 譜圖中與MZi—u最接近的離子也為MZi,j,則連接MZi,j與MZi—u。隨著采集質(zhì)譜數(shù)據(jù)的增多, 有的二維特征鏈會(huì)延長,有的會(huì)中斷,只有長度len(CCk)大于minWidth的二維特征鏈才會(huì) 被認(rèn)為其中可能含有真實(shí)信號(hào),并被存儲(chǔ)在CC中,否則,被認(rèn)為是噪音。CC為全局變量,可 被其他模塊訪問。 3.局部噪音和局部基線估計(jì)De_Noise_Baseline(minWidth)
當(dāng)某個(gè)二維特征鏈CCk(k為已檢測到的特征鏈的序號(hào))的長度大于minWidth時(shí), 即可以開始估算局部的噪音和基線。二維特征鏈的時(shí)間維相當(dāng)于一張色譜圖,一般認(rèn)為由 真實(shí)信號(hào)、高斯白噪音和基線構(gòu)成(F(x) =B(x)+NS(x)+e (x))。其中高斯白噪音e (x)用
原始信號(hào)與三點(diǎn)高通濾波器進(jìn)行線性巻積估計(jì)
s(x) = F(x) / 由圖2中的模擬信號(hào)可知,當(dāng)真實(shí)信號(hào)的采樣率小于5時(shí),色譜峰區(qū)域會(huì)殘留部分 信號(hào),導(dǎo)致高估此區(qū)域的噪音水平。殘留的信號(hào)具有脈沖噪音特性,并且強(qiáng)度比整體的標(biāo)準(zhǔn) 差大的多,故用3倍整體標(biāo)準(zhǔn)差作為閾值,將大于此閾值的信號(hào)置零。經(jīng)上面巻積和閾值操 作以后的向量即為高斯白噪音的估計(jì),它可準(zhǔn)確反應(yīng)真實(shí)白噪音的局部方差,如圖2所示。 通過比較不同的采樣率和不同的噪音水平,本發(fā)明的噪音估算方法與實(shí)際值非常接近,優(yōu) 于常用的平滑濾波方法,相應(yīng)的結(jié)果見圖3。 二維特征鏈的質(zhì)量維反映了相應(yīng)的質(zhì)量波動(dòng)(圖4),當(dāng)化合物洗脫時(shí),也即檢測 到真實(shí)信號(hào)時(shí),相應(yīng)的質(zhì)量波動(dòng)趨向于一個(gè)極小值mzMin(此值與質(zhì)譜儀的質(zhì)量精密度有 關(guān)),而在沒有真實(shí)信號(hào)的區(qū)域,質(zhì)量波動(dòng)成隨機(jī)特征,遠(yuǎn)遠(yuǎn)大于mzMin ;同時(shí),質(zhì)量波動(dòng)最小的區(qū)域也是響應(yīng)強(qiáng)度最大的區(qū)域。具體基線估計(jì)方法如下 (1)在CCk中找到強(qiáng)度最大的位置,然后其對應(yīng)位置附近(本發(fā)明中的"附近"意義 為以指定位置為中心,寬度為minWidth的區(qū)域,或指定位置前面寬度為minWidth的區(qū)域) 的質(zhì)量質(zhì)量波動(dòng)為mzMin ; (2)以5倍mzMin為閾值(圖4C),找到所有質(zhì)量波動(dòng)大于此閾值的位置,將這些 位置和CCk的第一個(gè)點(diǎn)定義為關(guān)鍵點(diǎn); (3)這些關(guān)鍵點(diǎn)也對應(yīng)于色譜維上的關(guān)鍵點(diǎn),在色譜維上,將這些關(guān)鍵點(diǎn)用直線連 接,即為基線B(x)的估計(jì)(圖4A) 。 4.時(shí)間維上的特征分辨FeatureReslove(minWidth, minSN, feature—list) 從原始信號(hào)中減去第3步估算的e (x)和B (x),得到近似的真實(shí)信號(hào)估計(jì)NS (x), 其中仍含有一些不規(guī)則基線波動(dòng)殘留的成分。定義CCk中任意一點(diǎn)的信噪比為 5W(x)^"^-^——^~^ 其中LSD為位置x附近的標(biāo)準(zhǔn)差,CCk中的最后一個(gè)點(diǎn)即為當(dāng)前采集的數(shù)據(jù)點(diǎn),計(jì) 算其信噪比SN。用線性最小二乘法擬合CCk的最后minWidth個(gè)點(diǎn),定義其斜率slope為最 后一點(diǎn)的斜率,然后進(jìn)行如下判斷(若是首次對CCk進(jìn)行特征分辨,則需初始化特征檢測狀 態(tài)s = 0): (1)若slope*minWidth > minSN,且s = O,則此處為一個(gè)"特征"的開始,記錄在
feature_list (特征列表)中; (2)若slope < 0,則置s = 1 ; (3)若slope*minWidth > -minSN,且s = 1,則此處為一個(gè)"特征"的結(jié)束,記錄在 feature_list中,并置s = 0。 5.本發(fā)明算法具有實(shí)時(shí)特性,質(zhì)譜采集的數(shù)據(jù),立即被BNN等模塊進(jìn)行分析,特征 起點(diǎn)的檢測最大可能被延遲minWidth/f (約幾秒鐘),而一般從色譜柱洗脫的色譜峰都比 這個(gè)時(shí)間長的多,并不影響特征的檢測。本發(fā)明用¥0++6.0實(shí)現(xiàn)系統(tǒng)原型,用戶只需提供 minWidth和minSN兩個(gè)具有實(shí)際物理意義的參數(shù)。
實(shí)施例2胃復(fù)春片中復(fù)雜成分分析
A.制備胃復(fù)春片總提物 取胃復(fù)春片20片,除去薄膜衣,研成細(xì)粉。精密稱取0. 5g置于50mL具塞錐形瓶 中,準(zhǔn)確加入甲醇10mL,超聲提取45分鐘。提取結(jié)束后將錐形瓶取出,冷卻后用甲醇溶液補(bǔ) 足重量。提取液搖勻后以12000rpm轉(zhuǎn)速離心15min,上清液經(jīng)0. 45 y m濾膜濾過后供HPLC 分析。 B. LC-MS分析的色譜和質(zhì)譜條件 液相為AgilentllOO型高效液相色譜儀(美國Agilent公司),配二元梯度泵、 DAD紫外檢測器、柱溫箱、自動(dòng)進(jìn)樣器。色譜柱ZORBAX SB-(^色譜柱(4. 6mmX 250mm, 5 y m, Agilent),前置Agilent (:18預(yù)柱。流動(dòng)相A相0.05%甲酸水;B相乙腈。線性洗脫梯度 (min/% B) :0/5, 15/20, 30/20, 55/30, 75/50, 90/95。流速0. 5mL/min ;柱溫30。C ;進(jìn)樣量 為10ii L。質(zhì)譜為Finnigan LCQ-DECA XP Plus離子阱質(zhì)譜儀(美國Thermo公司),配電 噴霧離子源及Xcaliburl. 3控制系統(tǒng),采用ESI負(fù)離子模式檢測。掃描范圍100-1500Da ;噴霧電壓4. 5kV ;鞘氣和輔助氣為氮?dú)?,分別為30和10單位。 C.特征檢測參數(shù),最小峰寬(minWidth)為9,最小信噪比(minSN)為4。 D.特征檢測結(jié)果在90分鐘的分析時(shí)間內(nèi),總共檢測到1827個(gè)特征,其所占方差
為總方差的96. 1%。在圖5柚皮蕓香苷(tK = 38min)和柚皮素(tK = 42. 3min)的特征區(qū)
域,可見本發(fā)明的二維特征鏈涵蓋了所有可能存在化合物特征的區(qū)域,不僅強(qiáng)度高的準(zhǔn)分
子離子[M-H] —(m/z 579)可正確檢測,連豐度極低的同位素峰[M-H+3] —(m/z 582)也可正確
檢測,說明本方法的檢測靈敏度很高。 為了比較直觀的評(píng)價(jià)本發(fā)明的特征檢測效果,將所有檢測到的特征重構(gòu)成時(shí)間維
的色譜圖,與所有信號(hào)構(gòu)成的總離子流色譜圖進(jìn)行比較,同時(shí)非特征區(qū)域的信號(hào)構(gòu)成的色
譜圖為噪音或殘留色譜圖,如圖6所示。從圖6中可知,幾乎所有的真實(shí)信號(hào)都被正確檢測,
而在剩余的殘留色譜圖中沒有明顯的特征信號(hào)。 實(shí)施例3雙丹顆粒復(fù)雜成分分析 A.制備雙丹顆粒樣品 精密稱取0. 05g研細(xì)以后的雙丹顆粒(山東孔圣堂制藥有限公司,批號(hào)040201, 031001),加娃哈哈純凈水lmL,超聲提取20min,然后10000rpm離心10min,取上清液 0. 5mL,用甲醇-水-甲酸(50 : 50 : 1)稀釋1倍。
B. LC-MS分析的色譜和質(zhì)譜條件 Agilent 1100型液相色譜系統(tǒng),包括二元高壓泵,自動(dòng)進(jìn)樣器,柱溫箱和DAD檢測 器。色譜柱:Agilent SB-C18(2. lX250線3.5m)。流動(dòng)相0. 1%甲酸乙腈(A)-O. 1%甲酸 水(B) , A相在0 5min從10%線性升到20%, 5 7min線性升到40%, 7 20min線性 升到95% ;流速0. 3mL/min,柱溫35°C 。所有分析樣品均進(jìn)樣IOL。 Finnigan離子阱質(zhì)譜儀(LCQ Deca XP plus, CA),配有ESI電離源;負(fù)離子檢測, 鞘氣和輔助氣均為N2,流量分別為30和10arb,噴霧電壓4. 5kV,源內(nèi)裂解電壓15V,加熱毛 細(xì)管溫度350°C ,掃描方式為一級(jí)全掃描,掃描范圍100-800Da。
C.特征檢測參數(shù)最小峰寬minWidth = 9,最小信噪比minSN = 4。
D.特征檢測結(jié)果 實(shí)施例2中的樣本經(jīng)90分鐘的梯度洗脫后,主要成分得到了良好的分離,在這種 情況下,特征檢測相對容易;而在本實(shí)施例中,雙丹顆粒的樣品經(jīng)一個(gè)20分鐘的快速梯度 洗脫,人為的將多個(gè)成分的特征壓縮在一起,大大增加了特征檢測的難度,以此來考察算法 在極端條件下的應(yīng)用情況。從圖7可以看出,雙丹顆粒中的主要成分堆積在保留時(shí)間10至 13分鐘的區(qū)域。應(yīng)用與實(shí)施例2相同的檢測參數(shù),即可得到良好的特征檢測結(jié)果,共檢測到 510個(gè)特征,占所有信號(hào)方差的98.5%。下面舉例說明,本發(fā)明對復(fù)雜體系中不完全分離成 分的檢測情況。 當(dāng)復(fù)雜體系中的化合物質(zhì)荷比不同時(shí),即便保留時(shí)間相同,它們在LC/MS的二維 投影面上,仍是不同的特征,可被本發(fā)明正確檢測,與成分被完全分離的結(jié)果一樣;若不同 化合物的質(zhì)荷比相同時(shí),就會(huì)出現(xiàn)多個(gè)特征重疊的現(xiàn)象。圖8為丹酚酸B(11.3min)和丹酚 酸E(IO. 9min)的準(zhǔn)分子離子m/z 717,及其同位素離子m/z 718, 719的特征區(qū)域。由圖8A 可見, 一個(gè)未知成分m/z 719插到了丹酚酸B與丹酚酸E的同位素離子之間,使3個(gè)特征部分重疊在一起。本發(fā)明仍可正確分辨這類重疊的特征,它們被分辨為3個(gè)不同的特征。另
外,丹酚酸B的峰形嚴(yán)重拖尾,信號(hào)波動(dòng)較大,在其峰頂點(diǎn)到完全洗脫之間,出現(xiàn)很多毛剌
類的偽峰,用質(zhì)譜工作站自帶的峰檢測算法(Avalon)分析時(shí),丹酚酸B的色譜峰被分成7
個(gè)峰,而本發(fā)明的算法,僅用兩個(gè)參數(shù),即可正確檢測這些特征。 實(shí)施例4燈盞細(xì)辛注射液復(fù)雜成分分析 A.分析樣品制備 精密吸取燈盞細(xì)辛注射液0. 5ml,上樣于經(jīng)活化(甲醇lml, 1 %甲酸水lml活化) 的Waters OASIS HLB固相小柱上,用0. 5ml 1 %甲酸水洗,棄去洗液,加0. 5ml甲醇洗,收集 洗脫液,備用。 B. LC-MS分析的色譜和質(zhì)譜條件 Agilent 1100型液相色譜系統(tǒng),包括二元高壓泵,自動(dòng)進(jìn)樣器,柱溫箱和DAD檢測 器。色譜柱YMC-(^250mmX4.6mm,5m;流動(dòng)相A相0. 1%甲酸水;B相0. 1%甲酸乙腈, 線性洗脫梯度為:0min :10% B ;20min :17. 5% B ;40min :17. 5% B ;80min :45% B ;90min : 45% B。分流比l : 3。柱溫35。C。進(jìn)樣量10L。質(zhì)譜為Finnigan LCQ-DECA XP Plus離子阱質(zhì)譜儀(美國Thermo公司),配電噴霧 離子源及Xcaliburl. 3控制系統(tǒng),采用ESI負(fù)離子模式檢測。ESI源電壓4. 5kV ;鞘氣(N2) 流速:30arb ;輔助氣(N2)流速:10arb ;毛細(xì)管溫度350。C ;毛細(xì)管電壓廣15V(-) , 19V(+); 采用全離子掃描方式,掃描范圍m/z :100 800。
C.特征檢測參數(shù)最小峰寬minWidth = 9,最小信噪比minSN = 4。
D.特征檢測結(jié)果 本實(shí)例分析的為中藥注射液,其中主要為水溶性的酚酸類成分。由于流動(dòng)相 添加劑的緣故,產(chǎn)生大量高背景化學(xué)噪音,使很多強(qiáng)度低的信號(hào)被淹沒,即便在基峰 (base-peak)色譜圖中仍不能看到低豐度的信號(hào),如圖9A和9B所示。應(yīng)用與前面實(shí)施例 2和實(shí)施例3相同的特征檢測參數(shù),共檢測到571個(gè)特征,從由這些特征重構(gòu)的色譜圖中可 以發(fā)現(xiàn),已沒有高背景噪音的干擾,不僅強(qiáng)度高的信號(hào)被正確檢測,強(qiáng)度低的信號(hào)也顯現(xiàn)出 來。這說明本發(fā)明不僅可以濾除隨機(jī)分布的白噪音,即便有明顯異方差的有色噪音也可以 自動(dòng)濾除。
權(quán)利要求
一種用于中藥復(fù)雜成分分析的實(shí)時(shí)特征提取方法,該方法基于LC-MS的時(shí)間維和質(zhì)量維的兩維特征信息,通過二維特征鏈檢測,局部噪音和基線估計(jì),以及特征分辨實(shí)現(xiàn),具體步驟為(1)質(zhì)譜數(shù)據(jù)采集中藥復(fù)雜樣品首先經(jīng)色譜單元進(jìn)行分離,然后質(zhì)譜儀在一定的采樣頻率(f)下,順序以全掃描模式分析色譜洗脫的流份,采集的數(shù)據(jù)以棒狀圖格式存儲(chǔ),每一時(shí)間點(diǎn)(1/f的整數(shù)倍)采集的數(shù)據(jù)為一張質(zhì)譜圖,對應(yīng)于質(zhì)譜維的數(shù)據(jù),不同的時(shí)間點(diǎn)采集的數(shù)據(jù)構(gòu)成色譜維信息;(2)二維特征鏈檢測質(zhì)譜儀每采集到一個(gè)時(shí)間點(diǎn)的質(zhì)譜圖,即傳給BNN模塊進(jìn)行分析,首先質(zhì)譜圖中的質(zhì)荷比和強(qiáng)度信息,分別賦值給質(zhì)荷比數(shù)組MZ和強(qiáng)度數(shù)組INTEN,然后依時(shí)間順序用雙向最近鄰算法檢測含有化合物信息的二維特征鏈,檢測到的二維特征鏈存儲(chǔ)在CC中,可被其他模塊隨時(shí)獲?。?3)局部噪音和局部基線估計(jì)隨著采集數(shù)據(jù)的增多,若CC中的某個(gè)二維特征鏈CCk的長度Nk大于minWidth,則對其進(jìn)行噪音和基線的估計(jì),二維特征鏈包含色譜維和質(zhì)譜維雙重信息,分別由時(shí)間與MZ和INTEN構(gòu)成,將二維特征鏈的響應(yīng)強(qiáng)度信息與高通濾波器進(jìn)行線性卷積,并應(yīng)用3倍總體標(biāo)準(zhǔn)差過濾掉脈沖信號(hào),即為色譜維的噪音估計(jì),真實(shí)信號(hào)、高斯白噪音和基線構(gòu)成F(x)=B(x)+NS(x)+ε(x),其中高斯白噪音ε(x)用原始信號(hào)與三點(diǎn)高通濾波器進(jìn)行線性卷積估計(jì) <mrow><mi>ϵ</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>=</mo><mi>F</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>⊗</mo><mi>f</mi> </mrow> <mrow><mi>f</mi><mo>=</mo><mo>[</mo><mo>-</mo><mn>1</mn><mo>/</mo><msqrt> <mn>6</mn></msqrt><mo>,</mo><mn>2</mn><mo>/</mo><msqrt> <mn>6</mn></msqrt><mo>,</mo><mo>-</mo><mn>1</mn><mo>/</mo><msqrt> <mn>6</mn></msqrt><mo>]</mo><mo>;</mo> </mrow>(4)特征分辨當(dāng)二維特征鏈CCk的局部噪音和基線估計(jì)完成后(指當(dāng)前時(shí)間,特征鏈在后繼的時(shí)間可能還會(huì)延長,相應(yīng)的噪音和基線會(huì)被重新估算),進(jìn)行特征分辨,檢測到的特征保存在特征列表,定義CCk中任意一點(diǎn)的信噪比為 <mrow><mi>SN</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><mi>F</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>-</mo><mi>B</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>-</mo><mi>ϵ</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow> </mrow> <mi>LSD</mi></mfrac> </mrow>其中LSD為位置x附近的標(biāo)準(zhǔn)差,CCk中的最后一個(gè)點(diǎn)即為當(dāng)前采集的數(shù)據(jù)點(diǎn),計(jì)算其信噪比SN;(5)實(shí)時(shí)檢測以上四步,每采集一張質(zhì)譜圖,即為一個(gè)運(yùn)算周期,每周期僅對可進(jìn)入二維特征鏈的數(shù)據(jù)進(jìn)行運(yùn)算,其他信號(hào)被認(rèn)為是噪音;每一時(shí)間點(diǎn)被處理的最大二維特征鏈數(shù)為上一張質(zhì)譜圖中所有離子的個(gè)數(shù),當(dāng)所有質(zhì)譜數(shù)據(jù)采集完畢時(shí),特征檢測也相應(yīng)結(jié)束,從而實(shí)現(xiàn)了特征的實(shí)時(shí)檢測。
2.根據(jù)權(quán)利要求1所述的一種用于中藥復(fù)雜成分分析的實(shí)時(shí)特征提取方法,其特征在 于,步驟(3)為了估算色譜維中的基線,依據(jù)二維特征鏈質(zhì)譜維中組分區(qū)與零組分區(qū)質(zhì)量 波動(dòng)的差異,設(shè)計(jì)以下算法(a)在二維特征鏈CCk中找到強(qiáng)度最大的時(shí)間點(diǎn),然后計(jì)算其臨近區(qū)域的平均質(zhì)量波 動(dòng),即相鄰質(zhì)荷比的差值mzMin ;(b) 以5倍mzMin為閾值,找到所有質(zhì)量波動(dòng)大于此閾值的位置,將這些位置和CCk的 第一個(gè)點(diǎn)定義為關(guān)鍵點(diǎn);(c) 這些關(guān)鍵點(diǎn)也對應(yīng)于色譜維上的關(guān)鍵點(diǎn),在色譜維上,將這些關(guān)鍵點(diǎn)用直線連接, 即為基線B(x)的估計(jì),若最后一個(gè)關(guān)鍵點(diǎn)不是CCk的最后一點(diǎn),則該關(guān)鍵點(diǎn)水平延伸到最 后的線即為對應(yīng)區(qū)域的基線估計(jì)。
3. 根據(jù)權(quán)利要求1所述的一種用于中藥復(fù)雜成分分析的實(shí)時(shí)特征提取方法,其特征在 于,步驟(4)由于特征檢測的實(shí)時(shí)性,一般當(dāng)時(shí)只有部分特征被洗脫,特征分辨的目的即判 斷當(dāng)前時(shí)間點(diǎn)處于色譜峰洗脫的起點(diǎn)或終點(diǎn)位置。
4. 根據(jù)權(quán)利要求1所述的一種用于中藥復(fù)雜成分分析的實(shí)時(shí)特征提取方法,其特征在 于,步驟(3)所述的高通濾波器由三個(gè)數(shù)據(jù)點(diǎn)組成,三點(diǎn)的和為O,三點(diǎn)的平方和為1。
5. 根據(jù)權(quán)利要求1所述的一種用于中藥復(fù)雜成分分析的實(shí)時(shí)特征提取方法,其特征 在于,所用色譜包括液相色譜和超高壓液相色譜,質(zhì)譜包括單重四級(jí)桿質(zhì)譜、三重四級(jí)桿質(zhì) 譜、離子阱質(zhì)譜和飛行時(shí)間質(zhì)譜。
全文摘要
本發(fā)明提供一種用于中藥復(fù)雜成分分析的實(shí)時(shí)特征提取方法,由數(shù)據(jù)通訊模塊、二維特征鏈檢測、局部噪音和局部基線校正、以及特征分辨四個(gè)模塊構(gòu)成,順序分析質(zhì)譜儀采集的質(zhì)譜數(shù)據(jù),判斷與上一個(gè)時(shí)間點(diǎn)采集的數(shù)據(jù)是否有連續(xù)特征,從而動(dòng)態(tài)的完成二維特征鏈的檢測;利用二維特征鏈中所含有的質(zhì)荷比和時(shí)間信息,可快速去除時(shí)間維中的噪音和基線,克服了以往算法單純利用時(shí)間維難以準(zhǔn)確估算基線的缺點(diǎn);由于所估算的噪音和基線具有局部特征,所以局部的信噪比是特征鏈中是否含有組分的特征,簡化了特征檢測的實(shí)現(xiàn)。本發(fā)明方法設(shè)計(jì)合理,數(shù)據(jù)處理系統(tǒng)不僅具有實(shí)時(shí)的特點(diǎn),而且用戶自定義參數(shù)少,運(yùn)算速度快,尤其適用于液相色譜質(zhì)譜聯(lián)用儀。
文檔編號(hào)G01N30/86GK101776671SQ20101003954
公開日2010年7月14日 申請日期2010年1月5日 優(yōu)先權(quán)日2010年1月5日
發(fā)明者張玉峰, 程翼宇, 范驍輝 申請人:浙江大學(xué)