本發(fā)明涉及生物技術(shù)領(lǐng)域,尤其涉及一種利用脂質(zhì)生物標(biāo)志物預(yù)測(cè)乳腺癌的方法,能夠準(zhǔn)確預(yù)測(cè)乳腺癌。
背景技術(shù):
與其他大多數(shù)國(guó)家一樣,乳腺癌也成為了中國(guó)女性最常見的癌癥;每年中國(guó)乳腺癌新發(fā)數(shù)量和死亡數(shù)量分別占全世界的12.2%和9.6%。中國(guó)對(duì)全球的“貢獻(xiàn)率”逐步增加,主要?dú)w因于中國(guó)社會(huì)經(jīng)濟(jì)地位的提高和特殊的生育模式。
90年代以來(lái),中國(guó)的乳腺癌發(fā)病率增長(zhǎng)速度是全球的兩倍多,城市地區(qū)尤為顯著。目前,乳腺癌是中國(guó)女性發(fā)病率最高的癌癥,癌癥死亡原因位居第六。截至2008年,中國(guó)總計(jì)169452例新發(fā)乳腺癌,44908例死于乳腺癌,分別占到全世界的12.2%和9.6%。如果這一趨勢(shì)保持不變,到2021年,中國(guó)乳腺癌患者將高達(dá)250萬(wàn),發(fā)病率將從不到60例/10萬(wàn)女性(年齡在55歲到69歲之間)增加到超過(guò)100例/10萬(wàn)女性。
目前對(duì)乳腺癌的篩查,主要通過(guò)x線檢查。然而,中國(guó)57%的患者都在一個(gè)年齡段發(fā)作。這一結(jié)果也暗示乳腺x線檢查,不是非常有效的篩查手段,并且具有無(wú)法實(shí)施的障礙,包括:缺乏令人信服的成本效果分析數(shù)據(jù);人群分布廣泛;器材設(shè)備缺乏;醫(yī)療保險(xiǎn)未覆蓋此項(xiàng)目。同時(shí),中國(guó)還沒(méi)有全國(guó)范圍內(nèi)的篩查項(xiàng)目;所以,開發(fā)快速而且高效的乳腺癌生物標(biāo)志物,具有重要的意義和市場(chǎng)前景。
研究表明,脂質(zhì)代謝與組織病變有非常直接的聯(lián)系,也包括乳腺癌。迄今為止,利用脂質(zhì)和代謝組的分析手段,發(fā)現(xiàn)了39個(gè)代謝物與乳腺癌發(fā)生有關(guān),包括:黃嘌呤(xanthine),葡萄糖6-磷酸(glucose-6-phosphate),甘露糖-6-磷酸(mannose-6-phosphate),鳥嘌呤(guanine),腺嘌呤(adenine)等等。另外,研究也發(fā)現(xiàn),大部分的磷脂含量在乳腺癌細(xì)胞中都顯著升高。特別地,磷脂酰絲氨酸phosphatidylserine(ps)18:0/20:4,磷脂酰肌醇phosphatidylinositol(pi)18:0/20:4,磷脂酰膽堿phosphatidylcholine(pc)18:0/20:4,在乳腺癌細(xì)胞中顯著增加;而磷脂酰乙醇胺phosphatidylethanolamine(pe)18:1/18:1和磷脂酰肌醇pi18:0/18:1顯著降低.
但是,目前為止,還沒(méi)有出現(xiàn)能夠利用這些標(biāo)志物準(zhǔn)確預(yù)測(cè)乳腺癌的預(yù)測(cè)模型,尤其是針對(duì)中國(guó)人群的乳腺癌預(yù)測(cè)模型。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的一個(gè)目的是解決至少上述問(wèn)題,并提供至少后面將說(shuō)明的優(yōu)點(diǎn)。
本發(fā)明還有一個(gè)目的是提供一種利用脂質(zhì)生物標(biāo)志物預(yù)測(cè)乳腺癌的方法,能夠快捷、準(zhǔn)確、高效地預(yù)測(cè)乳腺癌。
本發(fā)明還有一個(gè)目的是提供一種針對(duì)中國(guó)人群的利用脂質(zhì)生物標(biāo)志物預(yù)測(cè)乳腺癌的方法。
本發(fā)明還有一個(gè)目的是提供一組針對(duì)中國(guó)人群的與乳腺癌密切相關(guān)的化合物。
為了實(shí)現(xiàn)根據(jù)本發(fā)明的這些目的和其它優(yōu)點(diǎn),提供了以下技術(shù)方案:
一種利用脂質(zhì)生物標(biāo)志物預(yù)測(cè)乳腺癌的方法,其中,主要包括以下步驟:
步驟1、篩選出正常人組群和乳腺癌組群之間vip值大于5的排名前9位的差異性化合物r1-r9,分別為表1所示:
表1
步驟2、利用邏輯回歸模型2進(jìn)行計(jì)算,得到tc值,所述邏輯回歸模型2的計(jì)算公式為:
tc=3.564+6.135*r6+5.375*r7-1.814*r8-2.943*r9+1.151*r10;
步驟3、根據(jù)所得tc值進(jìn)行判斷,tc=0為否;tc=1為是。
優(yōu)選的是,步驟1中利用opls-da模型對(duì)差異性化合物進(jìn)行篩選,篩選條件vip>1。
優(yōu)選的是,步驟1中篩選的具體方法為:
步驟1.1將樣品進(jìn)行超高效液相色譜和質(zhì)譜分析,得到脂質(zhì)組學(xué)數(shù)據(jù),將正常人組群和乳腺癌組群分別計(jì)為ck及rc;
步驟1.2對(duì)脂質(zhì)組學(xué)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作,利用opls-da模型對(duì)ck及rc進(jìn)行s-plot分布得到s形曲線,并進(jìn)行強(qiáng)制分組,計(jì)算影響ck及rc分組的變量重要性,即得vip值;
步驟1.3按照vip值大于1的標(biāo)準(zhǔn)得到10個(gè)化合物,并將該10個(gè)化合物作為與乳腺癌相關(guān)度最高的差異性化合物;
步驟1.4將所得10個(gè)化合物按照vip值大小從高到低排列,取前9位,即得步驟1中所述差異性化合物r1-r9。
優(yōu)選的是,步驟2中tc值或者用邏輯回歸模型1進(jìn)行計(jì)算,所述邏輯回歸模型1的計(jì)算公式為:
tc=-8.673-32.803*r1+19.399*r2+8.738*r3-20.88*r8+2.217*r9+1.607*r10。
優(yōu)選的是,步驟2中tc值或者用邏輯回歸模型3進(jìn)行計(jì)算,所述邏輯回歸模型3的計(jì)算公式為:
tc=0.7564-2.6459*r8+2.524*r9+1.5554*r10。
本發(fā)明至少包括以下有益效果:
本發(fā)明通過(guò)篩選,首次發(fā)現(xiàn)與乳腺癌相關(guān)的一組化合物,即與乳腺癌相關(guān)的脂質(zhì)生物標(biāo)志物,并通過(guò)構(gòu)建邏輯回歸模型,得到根據(jù)這些脂質(zhì)標(biāo)志物預(yù)測(cè)乳腺癌的方法,快捷方便,準(zhǔn)確度高。通過(guò)aic值初步判斷,并進(jìn)行roc曲線繪制,auc值達(dá)到0.939。
本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過(guò)下面的說(shuō)明體現(xiàn),部分還將通過(guò)對(duì)本發(fā)明的研究和實(shí)踐而為本領(lǐng)域的技術(shù)人員所理解。
附圖說(shuō)明
圖1為本發(fā)明中所述的opls-da模型的s-plot分布圖;
圖2為本發(fā)明中利用opls-da模型對(duì)ck和rc進(jìn)行強(qiáng)制分組的結(jié)果;
圖3為本發(fā)明中用來(lái)考察篩選出的化合物的火山圖;
圖4為本發(fā)明中roc曲線圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說(shuō)明,以令本領(lǐng)域技術(shù)人員參照說(shuō)明書文字能夠據(jù)以實(shí)施。
應(yīng)當(dāng)理解,本文所使用的諸如“具有”、“包含”以及“包括”術(shù)語(yǔ)并不配出一個(gè)或多個(gè)其它元件或其組合的存在或添加。
一種利用脂質(zhì)生物標(biāo)志物預(yù)測(cè)乳腺癌的方法,其中,主要包括以下步驟:
步驟1、篩選出正常人組群和乳腺癌組群之間vip值大于5的排名前9位的差異性化合物r1-r9,分別為表1所示。其中,所述vip值表示差異性的大小,所述r1-r9按照vip值從高到低順次排列。
表1
步驟2、利用邏輯回歸模型2進(jìn)行計(jì)算,得到tc值,所述邏輯回歸模型2的計(jì)算公式為:
tc=3.564+6.135*r6+5.375*r7-1.814*r8-2.943*r9+1.151*r10;
經(jīng)過(guò)roc曲線繪制,模型2的auc值為0.939,準(zhǔn)確度高達(dá)93.9%。
步驟3、根據(jù)所得tc值進(jìn)行判斷,tc=0為否;tc=1為是。
繪制roc曲線,模型1所得auc值為0.939,即準(zhǔn)確度為93.9%,準(zhǔn)確度高。其中,公式中r1-r10均為測(cè)量樣品中各種脂質(zhì)的含量。
一個(gè)優(yōu)選方案中,步驟1中利用opls-da模型對(duì)差異性化合物進(jìn)行篩選,篩選條件vip>1。
一個(gè)優(yōu)選方案中,步驟1中篩選的具體方法為:
步驟1.1將樣品進(jìn)行超高效液相色譜和質(zhì)譜分析,得到脂質(zhì)組學(xué)數(shù)據(jù),將正常人組群和乳腺癌組群分別計(jì)為ck及rc;
步驟1.2對(duì)脂質(zhì)組學(xué)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作,利用opls-da模型對(duì)ck及rc進(jìn)行s-plot分布得到s形曲線,并進(jìn)行強(qiáng)制分組,計(jì)算影響ck及rc分組的變量重要性,即得vip值;
步驟1.3按照vip值大于1的標(biāo)準(zhǔn)得到10個(gè)化合物,并將該10個(gè)化合物作為與乳腺癌相關(guān)度最高的差異性化合物;
步驟1.4將所得10個(gè)化合物按照vip值大小從高到低排列,取前9位,即得步驟1中所述差異性化合物r1-r9。
一個(gè)優(yōu)選方案中,步驟2中tc值或者用邏輯回歸模型1進(jìn)行計(jì)算,繪制roc曲線,模型1所得auc值為0.939。所述邏輯回歸模型1的計(jì)算公式為:
tc=-8.673-32.803*r1+19.399*r2+8.738*r3-20.88*r8+2.217*r9+1.607*r10。
經(jīng)過(guò)roc曲線繪制,模型1的auc值為0.907,準(zhǔn)確度90.7%。
一個(gè)優(yōu)選方案中,步驟2中tc值或者用邏輯回歸模型3進(jìn)行計(jì)算,繪制roc曲線,模型3所得auc值為0.899。所述邏輯回歸模型3的計(jì)算公式為:
tc=0.7564-2.6459*r8+2.524*r9+1.5554*r10。
經(jīng)過(guò)roc曲線繪制,模型3的auc值為0.899,準(zhǔn)確度89.9%。
本發(fā)明通過(guò)篩選,首次發(fā)現(xiàn)與乳腺癌相關(guān)的一組化合物,即與乳腺癌相關(guān)的脂質(zhì)生物標(biāo)志物,并通過(guò)構(gòu)建邏輯回歸模型,得到根據(jù)這些脂質(zhì)標(biāo)志物預(yù)測(cè)乳腺癌的方法,快捷方便,準(zhǔn)確度高。通過(guò)aic值初步判斷,并進(jìn)行roc曲線繪制,auc值達(dá)到0.939。
實(shí)施例1
材料和方法
1.實(shí)驗(yàn)對(duì)象(均選自中國(guó)人):14位正常人,28位乳腺癌患者,抽取靜脈血5ml。準(zhǔn)確量取100μl的血液,加入0.9ml的提取液(100%異丙醇),轉(zhuǎn)入2ml離心管(進(jìn)口離心管,塑料不易溶于有機(jī)溶劑中;axygen品牌)中,漩渦振蕩10s以上,超聲10min,然后在-20度冰箱中冷凍1小時(shí),取出后在室溫下漩渦振蕩,用冷凍離心機(jī)10000rpm離心10min,然后去上清液1ml并過(guò)0.22μm的有機(jī)相濾膜到玻璃進(jìn)樣品種,保存在冰箱中待測(cè)。
2.主要儀器
2.1.1冷凍離心機(jī):型號(hào)d3024r,scilogex公司,美國(guó)
2.1.2漩渦振蕩器:型號(hào)mx-s,scilogex公司,美國(guó)
2.1.3高分辨質(zhì)譜儀:esi-qtof/ms;型號(hào):xevog2-sq-tof;廠家:waters
2.1.4超高效液相色譜:uplc;型號(hào):acquityuplci-class系統(tǒng);廠家:waters
2.1.4數(shù)據(jù)采集軟件:masslynx4.1;廠家:waters
2.1.5分析鑒定軟件:progenesisqi;廠家:water
2.1.6作圖軟件:ezinfo;hemi;simca-p
3.主要試劑
甲醇、乙腈、甲酸、甲酸銨、亮氨酸腦啡肽、甲酸鈉。廠家均為fisher。
4.實(shí)驗(yàn)設(shè)置
以提取液(100%異丙醇)作為空白對(duì)照(blank)樣品;從每個(gè)樣品的進(jìn)樣品種取出100μl混合到新的進(jìn)樣品種作為質(zhì)控(qc)樣品;正式樣品按照每組樣品間隔進(jìn)樣,例如先是blank1,然后是qc1,然后是w1,然后是w2這個(gè)順序,然后再進(jìn)行下一輪進(jìn)樣。
液相方法
色譜柱:acquityuplccshc18column,
柱溫:55度
流速:0.4ml/min
流動(dòng)相:
a:acn/h2o(60%/40%),含有10mm甲酸銨和0.1%甲酸
b:ipa/acn(90%/10%),含有10mm甲酸銨和0.1%甲酸
(注:acn為乙腈,ipa為異丙醇)
進(jìn)樣體積:0.2μl
洗脫程序:
質(zhì)譜方法
數(shù)據(jù)采集方式:mse;分子量掃描范圍:50-1500m/z;分辨率模式(輪廓圖)。
正負(fù)離子模式各采集一次。
離子源:電噴霧電離源(esi)
毛細(xì)管電壓:3kv
錐孔電壓為:25v
碰撞能:15-60v
源溫度:120度
脫溶劑溫度:500度
錐孔氣體速度:50l/h
脫溶劑氣體速度:500l/h
掃描時(shí)間:0.2s
使用亮氨酸腦啡肽(m/z556.2771,正離子;554.2615,負(fù)離子)進(jìn)行實(shí)時(shí)校正。使用甲酸鈉進(jìn)行校正。
脂質(zhì)組學(xué)數(shù)據(jù)分析
progenesisqi軟件(waters,massachusetts,usa)用于結(jié)果分析,抽提非靶向脂質(zhì)分子的特征峰,進(jìn)行比對(duì)和篩選。同時(shí),用qc(quantifyingcontrol)和blank(空白)來(lái)篩選背景數(shù)據(jù)。最終的數(shù)據(jù),導(dǎo)入ezinfo3.0,并進(jìn)行principalcomponentanalysis(pca)分析,orthogonalsignalcorrectionpartialleastsquarediscriminationanalysis(opls-da)建模,variableimportanceinprojection(vip)的計(jì)算,同時(shí)得到火山圖(coefficientsvs.vipspots)。其中,邏輯回歸模型以及roc曲線通過(guò)r語(yǔ)言進(jìn)行建設(shè)和繪制。
結(jié)果描述
正常人群與乳腺癌人群脂質(zhì)差異物質(zhì)的鑒定。
我們首先建立opls-da模型,對(duì)正常人(ck)和乳腺癌(rc)組群進(jìn)行分類,并研究造成他們出現(xiàn)差異的原因。我們看到在opls-da模型中,利用相關(guān)性(correlation)和協(xié)方差(covarience)的p值作出的s-plot形成了非常好的s形曲線,如圖1所示。
利用opls-da將兩組數(shù)據(jù)進(jìn)行強(qiáng)制分組,如圖2所示。
計(jì)算影響ck和rc分組的變量重要性,即vip(variableimportanceinprojection)值。一共篩選到132個(gè)化合物,他們的vip值大于1;我們挑選vip>5,貢獻(xiàn)率大的10個(gè)化合物,如表2所示。
表2.變量重要性投影
我們通過(guò)vip>1篩選出來(lái)的化合物在s-plot上用紅色方框標(biāo)出,發(fā)現(xiàn)他們均勻的分布在兩側(cè)。同時(shí),我們利用火山圖,如圖3所示,來(lái)考察篩選出的化合物的分布,如圖所示,發(fā)現(xiàn)篩選出來(lái)的化合物都分布在火山圖的外圍。這些結(jié)果都說(shuō)明,借由opls-da模型,我們成功篩選出造成ck和rc差異的化合物。
建立邏輯回歸模型以及roc曲線。
我們對(duì)脂質(zhì)組學(xué)的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作(rproject:scale)。然后將vip>1的排名前9位變量的數(shù)據(jù)提取出來(lái),建立邏輯回歸模型和roc曲線。
公式中,tc:是否患有腫瘤,0為否,1為是
r1:pc(16:0/18:2)
r2:pe(p-20:0/22:6)
r3:pa(21:0/18:1)
r4:pa(p-16:0/21:0)
r5:pa(19:0/18:0)
r6:pc(16:0/18:1)
r7:sm(d18:1/24:1)
r8:sm(d18:1/16:0)
r9:ps(o-20:0/18:1)
r10:pe(22:0/18:4)
模型2:
tc=3.564+6.135*r6+5.375*r7-1.814*r8-2.943*r9+1.151*r10
aic:35.898
signif.codes:‘***’0.001;‘**’0.01;‘*’0.05;‘.’0.1;
模型1:
tc=-8.673-32.803*r1+19.399*r2+8.738*r3-20.88*r8+2.217*r9+1.607*r10
aic:39.564
signif.codes:‘***’0.001;‘**’0.01;‘*’0.05;‘.’0.1;
模型3:
tc=0.7564-2.6459*r8+2.524*r9+1.5554*r10
aic:37.067
signif.codes:‘***’0.001;‘**’0.01;‘*’0.05;‘.’0.1;
針對(duì)以上三個(gè)邏輯回歸模型,進(jìn)行roc曲線繪制,如圖4所示,模型1為m1,auc值為0.907;模型2為m2,auc值為0.939;模型3為m3,auc值為0.899。我們發(fā)現(xiàn)模型2最靠近左上角定點(diǎn),同時(shí)auc值最高,最終,確定模型2為基于脂質(zhì)指標(biāo)來(lái)預(yù)測(cè)糖尿病血脂異常較好的預(yù)測(cè)模型。也可以根據(jù)所測(cè)樣品數(shù)據(jù)情況,選擇模型1或者模型3進(jìn)行計(jì)算預(yù)測(cè),或者優(yōu)先選擇模型2進(jìn)行計(jì)算,同時(shí)使用1和3模型進(jìn)行輔助驗(yàn)證,協(xié)同分析預(yù)測(cè)。
本發(fā)明利用opls-da模型,首次發(fā)現(xiàn)與乳腺癌相關(guān)的10個(gè)biomarker。利用邏輯回歸模型以及roc曲線,首次提出了基于脂質(zhì)生物標(biāo)志物的乳腺癌預(yù)測(cè)模型。
盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說(shuō)明書和實(shí)施方式中所列運(yùn)用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對(duì)于熟悉本領(lǐng)域的人員而言,可容易地實(shí)現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。