本發(fā)明屬于生物檢測(cè)方法領(lǐng)域,具體涉及一種一種基于比率的生物標(biāo)記物對(duì)及其選擇方法,更具體的涉及一種選擇血漿中ncrnas對(duì)的方法,尤其涉及一種能夠區(qū)分健康對(duì)照和肺腺癌的ncrnas對(duì)及其具體選擇方法。
背景技術(shù):
mirnas是內(nèi)生的,小非編碼rnas,通常18-25個(gè)核苷酸長(zhǎng)度。它們被發(fā)現(xiàn)在mrna轉(zhuǎn)錄后調(diào)節(jié)起著至關(guān)重要的作用。mirnas在細(xì)胞分化、增殖、凋亡中發(fā)揮關(guān)鍵作用,并且參與許多類型的疾病包括癌癥,糖尿病,心腦血管和神經(jīng)疾病。除了mirnas,還有一些其它小非編碼rnas,在調(diào)節(jié)基因表達(dá)的很多層面中發(fā)揮重要作用,如染色質(zhì)結(jié)構(gòu)、轉(zhuǎn)錄、mrna穩(wěn)定及翻譯,ncrnas包括小snornas,piwi-相互作用rnas(pirnas),短干擾rnas(sirnas)及trnas,這些ncrnas在癌癥和其他疾病中被擾亂。例如,snornas包含一個(gè)高度豐富的小ncrnas組,和一個(gè)在基因剪接和沉默中有ncrna-相似功能的數(shù)量有限的snornas組。近期有報(bào)道指出3個(gè)snornas在非小細(xì)胞肺癌病人中顯示差異表達(dá),在腫瘤形成中最近的研究表明,三個(gè)snornas顯示改變表達(dá)式在非小細(xì)胞肺癌(nsclc)患者,和snora42在肺腫瘤發(fā)生中可能作為癌基因。
近年來(lái),一系列研究表明mirnas在如血清,血漿,唾液,乳液,痰液和尿液這些體液中能被檢測(cè)到,循環(huán)mirnas被探測(cè)到被外來(lái)物質(zhì)或微泡包裹,或者與特異蛋白如ago-2綁定。一旦在細(xì)胞外空間,mirnas能被其他細(xì)胞(細(xì)胞間通信)占據(jù),由rnases退化,或排泄。盡管mirnas的分泌和整合機(jī)制并沒(méi)有被完全認(rèn)識(shí),循環(huán)mirnas可能參與生理和病理活動(dòng)。
這些發(fā)現(xiàn)為循環(huán)ncrnas作為不同種類疾病的非侵入性診斷和預(yù)測(cè)生物標(biāo)志物打開(kāi)了一扇門(mén)。由于靈敏度高,特異性強(qiáng)和模板要求量少,目前大多數(shù)研究使用測(cè)量循環(huán)mirnasis逆轉(zhuǎn)錄定量pcr(rt-qpcr)方法。因?yàn)轶w液中循環(huán)rnas濃度非常低,準(zhǔn)確地測(cè)量循環(huán)mirna的表達(dá)是一個(gè)巨大挑戰(zhàn)。此外,與基因表達(dá)相似,系統(tǒng)因素如原始材料數(shù)量的變化,樣品收集,rna提取,反轉(zhuǎn)錄,pcr,這些都會(huì)影響最終結(jié)果并且引起偏差和定量誤差。所以當(dāng)前,標(biāo)準(zhǔn)化參考對(duì)照分子被用于標(biāo)準(zhǔn)化循環(huán)mirnapcr數(shù)據(jù),目的是公正的評(píng)估循環(huán)mirna的表達(dá)。目前參考對(duì)照分子包括內(nèi)源和外源對(duì)照。許多研究者選擇使用激增合成rna序列(像c.線蟲(chóng)mir-39和mir-54,或植物mirnas)作為極值參考對(duì)照,用于標(biāo)準(zhǔn)化循環(huán)mirnaqpcr分析。一系列的內(nèi)部對(duì)照被采用。比如,小核仁rnas(snornas)成員之一,如rnu6b是最早被用于循環(huán)mirna數(shù)據(jù)標(biāo)準(zhǔn)化,但后來(lái)被取消了,由于特殊疾病和腫瘤預(yù)后。許多研究考慮mirna參照,像mir-16,它在癌癥病人血漿樣本中顯示差異。因?yàn)槿狈舛葰w一化方法,這會(huì)影響不同研究的數(shù)據(jù)一致性和再現(xiàn)性。因此,當(dāng)務(wù)之急是尋找循環(huán)mirna數(shù)據(jù)的最佳標(biāo)準(zhǔn)化方法。
血漿/血清ncrnart-qpcr實(shí)驗(yàn)數(shù)據(jù)標(biāo)準(zhǔn)化是一個(gè)挑戰(zhàn)。拿mirna舉例,因?yàn)閺男◇w積血漿或血清樣本(i.e.,100或200μl)中獲得的總rna的產(chǎn)量低于分光光度法準(zhǔn)確定量的極限值,樣品收集,貯存和處理中的誤差也影響循環(huán)mirna定量分析的精確度和可靠性。鑒于內(nèi)源或外源參考對(duì)照分子中的雜質(zhì),當(dāng)前的實(shí)驗(yàn)推薦在rna恢復(fù)程序中調(diào)整技術(shù)差異。對(duì)于循環(huán)mirnaqpcr分析的標(biāo)準(zhǔn)化,很多研究人員選擇在樣本中加入合成rna序列(如c.線蟲(chóng)mir-39和mir-54,或植物mirnas)。我們?cè)谇捌谘芯恐?,選擇c.線蟲(chóng)cel-mir-54作為一個(gè)外部控制,然而發(fā)現(xiàn)在測(cè)序和rt-qpcr數(shù)據(jù)中,它不是一個(gè)很好的參照。原因在于這些合成的mirnas直接加到血漿中很快被降解,且它加入血漿中后比的內(nèi)源mirnas穩(wěn)定性差,因?yàn)樗鼈儾皇軆?nèi)源rnase活性的保護(hù)。而且,循環(huán)mirnas相對(duì)穩(wěn)定,因?yàn)樗鼈兪軆?nèi)源rnase活性的保護(hù),也因?yàn)樗鼈円唇Y(jié)合于蛋白或包含在核內(nèi)體之中。
一些研究者為尋求合適的內(nèi)源參照mirnas(ecm)做出了努力;不管怎樣,對(duì)于血液mirna定量分析,目前尚未鑒定出足夠理想的ecms.比如,mir-16經(jīng)常被用作參照,但是血清中mir-16的高水平與乳腺癌病人的骨轉(zhuǎn)移相關(guān),并且報(bào)道表明內(nèi)源的mir-16是很差的標(biāo)準(zhǔn)化因子。自chenx等報(bào)道let-7d/g/i對(duì)于循環(huán)mirna數(shù)據(jù)的標(biāo)準(zhǔn)化是一個(gè)很好的內(nèi)源參照,在實(shí)驗(yàn)中我們采用let-7d/g/i進(jìn)行了測(cè)量。我們發(fā)現(xiàn)它們?cè)谖覀兊臉颖局胁荒芊€(wěn)定表達(dá)。chen的樣本來(lái)自中國(guó)人,盡管肺癌樣本包含在其中,這可能是我們沒(méi)有得到相似結(jié)果的一個(gè)原因。廣泛使用的內(nèi)源參照has-mir-19130在我們的實(shí)驗(yàn)中也不是一個(gè)很好的參照。我們可以不斷的測(cè)試更多的內(nèi)源對(duì)照如u637,rnu4438,rnu4839,mir-1640,mir-10330,和mir-23a41,它們是當(dāng)下被普遍使用的。然而,chen的研究已經(jīng)發(fā)現(xiàn)這些參照得出的結(jié)果比let-7d/g/i還差。眾所周知,理想的內(nèi)源參考對(duì)照至少滿足的條件是:它們?cè)谒袠颖竞蛯?shí)驗(yàn)條件中能穩(wěn)定表達(dá)。這很難證明哪個(gè)候選內(nèi)源分子滿足這個(gè)條件。
使用比率作為分子標(biāo)記已經(jīng)被用于一些疾病中。然而,還沒(méi)有特別的方法研究提到基于比率的方法應(yīng)用于循環(huán)ncrna測(cè)序和rt-qpcr數(shù)據(jù)標(biāo)準(zhǔn)化。目前,關(guān)于循環(huán)ncrnas(mirnas)的論文大約99%仍然使用外源或內(nèi)源參考對(duì)照分子來(lái)進(jìn)行循環(huán)pcr數(shù)據(jù)的標(biāo)準(zhǔn)化。一些研究仍在極度尋求循環(huán)mirna數(shù)據(jù)標(biāo)準(zhǔn)化的更好參考對(duì)照。
技術(shù)實(shí)現(xiàn)要素:
近期有研究已經(jīng)表明循環(huán)ncrna,如mirnas,是穩(wěn)定的且可被作為分子標(biāo)記用于人類疾病診斷與預(yù)后。然而,由于血液中的循環(huán)ncrnas濃度很低,使用新一代測(cè)序和定量實(shí)時(shí)rt-pcr進(jìn)行血漿/血清ncrna實(shí)驗(yàn)中,數(shù)據(jù)標(biāo)準(zhǔn)化是一個(gè)挑戰(zhàn)。目前標(biāo)準(zhǔn)化方法基于合成外源性標(biāo)準(zhǔn)對(duì)照或?qū)ふ覂?nèi)源性mirna對(duì)照是不合適的,因?yàn)樗麄儧](méi)有穩(wěn)定表達(dá),從而沒(méi)有找到可靠的差異表達(dá)顯著的ncrnas。
針對(duì)上述現(xiàn)有技術(shù)的缺陷,本發(fā)明提供了一種基于比率的標(biāo)準(zhǔn)化方法,用于代替以單個(gè)ncrnas作為生物標(biāo)志物,對(duì)相同的樣本我們計(jì)算任意兩個(gè)ncrnas的比率,并使用產(chǎn)生的比率作為生物標(biāo)志。
一方面,本發(fā)明提供一種選擇生物標(biāo)記物對(duì)的方法,包括以下步驟
(1)確定生物樣品中ncrnas的種類;
(2)確定生物樣品中ncrnas的含量;
(3)計(jì)算每個(gè)生物樣品中任意兩種ncrna之間的比率;
(4)根據(jù)多個(gè)生物樣品組中每種ncrna的組平均值,計(jì)算任意兩種ncrna組平均值之間的比率;
(5)采用支持向量機(jī)循環(huán)特性選擇(svm-rfe)算法選擇最佳ncrnas對(duì);
(6)以ncrnas對(duì)的比率作為將樣品分組的指標(biāo)。
本發(fā)明所述的選擇生物標(biāo)記物對(duì)的方法,其中所述生物樣品為血漿;所述生物樣品組至少包括正常樣品組、疾病樣品組,優(yōu)選所述疾病樣品組包括癌癥樣品組、良性腫瘤樣品組;所述ncrna包括mirna、snorna、pirna、sirna及trna。
本發(fā)明所述的選擇生物標(biāo)記物對(duì)的方法,其中所述步驟(1)包括rna提取和小分子rna測(cè)序。
本發(fā)明所述的選擇生物標(biāo)記物對(duì)的方法,其中所述rna提取是將血漿用trizol試劑提取,加入二氧化硅膜封閉柱內(nèi)吸附,清洗后收集吸附的rna。
本發(fā)明所述的選擇生物標(biāo)記物對(duì)的方法,其中通過(guò)smartersmrna-seq法進(jìn)行測(cè)序,具體包括將rna樣本進(jìn)行3’接頭連接、5’rt引物退火、5’接頭連接、反轉(zhuǎn)錄、pcr擴(kuò)增。
本發(fā)明所述的選擇生物標(biāo)記物對(duì)的方法,其中所述步驟(2)中通過(guò)反轉(zhuǎn)錄和pcr定量(rt-qpcr)確定血漿ncrnas的含量,優(yōu)選使用taqmanmirna試劑盒進(jìn)行qrt-pcr檢測(cè)。
本發(fā)明所述的選擇生物標(biāo)記物對(duì)的方法,其中所述步驟(3)根據(jù)rt-qpcr的數(shù)據(jù),同一樣品中2個(gè)小分子ncrna含量的比率(ncrna1/ncrna2)采用比較ct法(2-δct)進(jìn)行計(jì)算,δct=ctncrna1-ctncrna2。
本發(fā)明所述的選擇生物標(biāo)記物對(duì)的方法,其中所述步驟(4)包括將血漿ncrna濃度通過(guò)log2轉(zhuǎn)換,采用spss20.0軟件進(jìn)行非配對(duì)t檢驗(yàn),比較不同生物樣品組之間平均ncrna比率,顯著p-值設(shè)置為0.05。
本發(fā)明所述的選擇生物標(biāo)記物對(duì)的方法,其中所述步驟(5)中支持向量機(jī)循環(huán)特性選擇(svm-rfe)算法包括:
a、初始化數(shù)據(jù)集包含的特征;
b、訓(xùn)練數(shù)據(jù)集的svm;
c、根據(jù)ci=(wi)2排名特征;
d、剔除低等級(jí)特征的50%;
e、返回步驟b。
本發(fā)明所述的選擇生物標(biāo)記物對(duì)的方法,其特征在于:所述的ncrna還可以用其他生物標(biāo)記物替換,所述其他生物標(biāo)記物包括mrna、dna、蛋白質(zhì)、代謝產(chǎn)物。
第二方面,本發(fā)明提供一種由所述的選擇生物標(biāo)記物對(duì)的方法選擇獲得的生物標(biāo)記物對(duì)。
本發(fā)明所述生物標(biāo)記物對(duì)其選自以下的組mir378a-3p/mir126-5p、sno-dr119/trna-thr-acg、sno-aca33/mir378a-3p、trna-thr-acg/sno-u57、trna-thr-acg/mir378a-3p。
第三方面,本發(fā)明提供所述生物標(biāo)記物對(duì)在制備肺腺癌診斷試劑中的用途。
值得注意的是,本發(fā)明所述選擇生物標(biāo)記物對(duì)的方法是以離體的生物樣本為實(shí)施對(duì)象,但其直接目的是為了選出生物標(biāo)記物對(duì)(以便于后續(xù)的研究或應(yīng)用),而并非對(duì)生物樣品來(lái)源的個(gè)體進(jìn)行診斷或治療,因?yàn)檫x擇生物標(biāo)記物對(duì)的方法中所使用的生物樣本其來(lái)源個(gè)體的健康狀況(如肺腺癌患病情況)是已經(jīng)通過(guò)其他方法診斷確定了的。因此本發(fā)明所述選擇生物標(biāo)記物對(duì)的方法本身就是非臨床診斷目的的方法。
雖然根據(jù)本發(fā)明的原理,本發(fā)明選出的生物標(biāo)記物對(duì)能夠用于將生物樣本材料按來(lái)源個(gè)體的健康狀況進(jìn)行分類并具有巨大的臨床應(yīng)用價(jià)值;但這僅表明本發(fā)明所述方法獲得的生物標(biāo)記物對(duì)的臨床應(yīng)用可能涉及臨床診斷方法,而選擇生物標(biāo)記物對(duì)的方法本身,則不屬于任何臨床診斷方法。
與現(xiàn)有技術(shù)相比,本發(fā)明取得了以下有益的技術(shù)效果:
(1)本發(fā)明提出的基于比率的標(biāo)準(zhǔn)化循環(huán)ncrna數(shù)據(jù)的方法,采用ncrnas的比率作為分類依據(jù),相比于采用單一ncrna,ncrnas的比率數(shù)量更多、差異更顯著、能更準(zhǔn)確的反應(yīng)真實(shí)值。例如對(duì)相同的樣本,我們首先計(jì)算任意兩個(gè)ncrnas的比率,然后比較不同組之間的比率表達(dá)水平而不是單個(gè)ncrna水平進(jìn)行比較。因?yàn)?個(gè)ncrnas采用相同的樣本,在同等條件下同時(shí)表達(dá),2個(gè)ncrnas比值的相對(duì)表達(dá)水平將反映比較的真實(shí)值。
(2)本發(fā)明在數(shù)學(xué)邏輯上證明了本發(fā)明所述方法是正確的,它獨(dú)立于任何外部或內(nèi)部參考控制分子,并優(yōu)于任何現(xiàn)有基于外部或內(nèi)部控制標(biāo)準(zhǔn)化方法。這一比率策略將在臨床應(yīng)用循環(huán)ncrna作為人類疾病的生物標(biāo)記方面提供一個(gè)實(shí)際的方法。本發(fā)明在數(shù)學(xué)上證明基于比率的方法優(yōu)于任何基于內(nèi)源或外源對(duì)照的標(biāo)準(zhǔn)化因子的方法?;趦?nèi)源或外源對(duì)照的標(biāo)準(zhǔn)化方法有兩個(gè)假設(shè)。首先,假設(shè)在相同樣本中的待測(cè)mirna和內(nèi)部控制受到相同的系統(tǒng)因子影響;第二,假設(shè)不同樣本中真實(shí)內(nèi)控值一樣。而基于比率的方法僅僅假設(shè)相同樣本中的不同mirnas有相同的系統(tǒng)因子,因此,從數(shù)學(xué)上清楚地證明了基于比率的標(biāo)準(zhǔn)化方法優(yōu)于基于參考對(duì)照的標(biāo)準(zhǔn)化方法,因?yàn)楹茈y了解第二個(gè)假設(shè)真實(shí)與否。
(3)基于比率的生物標(biāo)記引物對(duì)增加了尋找有臨床意義生物標(biāo)記的幾率?;诒嚷实臉?biāo)準(zhǔn)化方法能夠在不同疾病組中發(fā)現(xiàn)更重要的不同ncrna候選標(biāo)記。這在邏輯上也易于理解,比如,在健康正常組和癌癥組中給定mirna1/mirna2的比值,如果在癌癥組對(duì)比正常組中有一個(gè)上調(diào)的倍數(shù)改變,而mirna2在癌癥組對(duì)比正常組中有一個(gè)下調(diào)的倍數(shù)改變。這樣的話癌癥組和正常組之間的mirna1/mirna2倍數(shù)改變比單獨(dú)mirna1或mirna2更大。因此當(dāng)我們不能找到有重大變化的單一標(biāo)記時(shí),基于比率的方法將增加我們尋找有臨床意義生物標(biāo)記的機(jī)率。
(4)本發(fā)明運(yùn)用所述方法找到了5個(gè)循環(huán)ncrna比率,這5個(gè)ncrna組合有100%預(yù)測(cè)準(zhǔn)確性來(lái)區(qū)分肺腺癌與正常人,并且本發(fā)明不僅測(cè)試mirnas,也測(cè)試其它類型的ncrnas,如snornas和trnas。
附圖說(shuō)明
圖1:外源性對(duì)照cel-mir-54的閱讀數(shù)。
7個(gè)血漿樣本集合(15樣本/集合)被用于小分子rna的測(cè)序,在rna提取和測(cè)序前,合成的外源性cel-mir-54等量添加到7個(gè)血漿樣本集合中。lc代表正常健康對(duì)照(2個(gè)樣本集),be代表良性(2個(gè)樣本集),ad代表肺腺癌(2個(gè)樣本集)并且sc代表鱗狀細(xì)胞肺癌(1個(gè)樣本集)。
圖2:癌癥和非癌癥樣本中外源和內(nèi)源性參考對(duì)照的rt-qpcrct值。ct值的分類是基于總數(shù)為129的血漿樣本量,這些樣本包括肺癌,良性和正常健康對(duì)照。(a)129例樣本中外源c.線蟲(chóng)cel-mir-54ct值。(b)129例樣本中內(nèi)源參考對(duì)照has-mir-191ct值。(c)129例樣本中內(nèi)源參考對(duì)照平均has-let-mir-let7d,g,ict值。
圖3:存在差異的單個(gè)ncrna數(shù)量和ncrna比值的數(shù)量。
x軸代表所有的可測(cè)量特性(mirna比率或mirna),正常健康對(duì)照vs肺腺癌中可區(qū)分?jǐn)?shù)量,正常健康對(duì)照vs良性及良性vs肺腺癌。非配對(duì)t-test被用于鑒定可區(qū)分mirna或mirna比率。pvalue<=0.05且倍數(shù)改變切斷為2.0。
圖4:正常樣本和肺腺癌樣本中代表性ncrna比率的表達(dá)值。
adenocarcinoma:肺腺癌;normal:正常。血漿中每一個(gè)個(gè)體ncrna采用實(shí)時(shí)定量rt-pcr被測(cè)量,相同樣本中2個(gè)ncrnas的比率被計(jì)算成(2-δct),其中δct=ctncrna1–ctncrna2,所以-δct=log2(ncrna1/ncrna2)。(a)mir378a-3p/mir126-5p.(b)sno-dr119/trna-thr-acg.(c)trna-thr-acg/sno-u57.(d)trna-thr-acg/mir378a-3p.(***p<0.001)。
圖5:肺腺癌與正常對(duì)照組血漿樣本通過(guò)5個(gè)配對(duì)ncrna比率標(biāo)記的區(qū)分。
基于5個(gè)配對(duì)標(biāo)記的雙向分級(jí)群聚被執(zhí)行來(lái)展現(xiàn)群體聚類。50例肺腺癌樣本(adeno)和29例正常健康對(duì)照(normal)被用來(lái)進(jìn)行實(shí)時(shí)rt-qpcr。彩條表示標(biāo)記的表達(dá)值。
具體實(shí)施方式
以下結(jié)合具體實(shí)施例,進(jìn)一步闡述本發(fā)明。這些實(shí)施例僅用于說(shuō)明本發(fā)明而不用于限制本發(fā)明的范圍。下列實(shí)施例中未注明具體條件的實(shí)驗(yàn)方法,通常按照常規(guī)條件或按照制造廠商所建議的條件。除非另行定義,文中所使用的所有專業(yè)與科學(xué)用語(yǔ)與本領(lǐng)域熟練人員所熟悉的意義相同。此外,任何與所記載內(nèi)容相似或均等的方法及材料皆可應(yīng)用于本發(fā)明方法中。文中所述的較佳實(shí)施方法與材料僅作示范之用。
實(shí)施例中未注明具體技術(shù)或條件者,按照本領(lǐng)域內(nèi)的文獻(xiàn)所描述的技術(shù)或條件,或者按照產(chǎn)品說(shuō)明書(shū)進(jìn)行。所用試劑或儀器未注明生產(chǎn)廠商者,均為可通過(guò)正規(guī)渠道商購(gòu)獲得的常規(guī)產(chǎn)品。
實(shí)施例1
樣本組和血漿樣本收集
在北京大學(xué)人民醫(yī)院,在肺癌生物庫(kù)中我們收集大約1250名肺癌患者標(biāo)本,從這些標(biāo)本中我們選擇了一個(gè)包括130名患者的小組用于此次研究,這130例標(biāo)本例包括50例早期階段(階段i,ii)肺腺癌,和15例鱗狀細(xì)胞肺癌(scc),35例良性,30例正常。早期腺癌和鱗狀細(xì)胞肺癌scc樣本入選標(biāo)準(zhǔn)包括:僅患未有遠(yuǎn)端轉(zhuǎn)移的胸??;我們開(kāi)始采血前1年內(nèi)未有術(shù)前化療或放療;至少2年的臨床跟蹤數(shù)據(jù)。良性樣本候選病人入選需經(jīng)低劑量計(jì)算機(jī)掃描顯示(ldct)患一系列非腫瘤的肺小病(如息肉,錯(cuò)構(gòu)瘤,和炎性病變)。所有入選良性病人和正常人接下來(lái)每年都進(jìn)行l(wèi)dct,并且至少2年內(nèi)不患癌。這些病人和對(duì)照的人口統(tǒng)計(jì)信息如補(bǔ)充表1。癌癥,良性和正常樣本在年齡,種族,性別和吸煙狀況方面盡可能的匹配。正常組也被稱為高風(fēng)險(xiǎn)組,這組人在隨機(jī)取樣前有30年以上吸煙史并且戒煙史低于15年。所有病人數(shù)據(jù)都獲得書(shū)面正式同意,并且符合北京大學(xué)人民醫(yī)院倫理審查委員會(huì)的相關(guān)要求。
所有血漿樣本用edta抗凝管收集,4000rpm離心10min,接著12,000rpm高速離心15min完全去除細(xì)胞碎片。上層血漿在分析前貯存在-80℃。所有樣本在首次診斷時(shí)收集。
實(shí)施例2
rna提取和測(cè)序
rna提取如前所述。血漿總rna,包括血漿小分子rnas的提取采用小份mirneasykit(qiagen,valenciz,ca)。簡(jiǎn)言之,0.5ml血漿用無(wú)rnase的水1:1稀釋(總共1ml),完全分層后每1ml樣本體積加入3ml
在此研究中,我們采用加利福尼亞希望市的一種下一代測(cè)序來(lái)研究血漿樣本,這種技術(shù)如前所述。簡(jiǎn)言之,為節(jié)約成本和樣本,我們首先分析小分子rna測(cè)序(smrna-seq),從而鑒定micrornas和其它一些循環(huán)小分子非編碼rnas(sncrnas)。我們選用7個(gè)樣本集,這7個(gè)樣本集中包括30例高風(fēng)險(xiǎn)健康對(duì)照(正常),30例良性結(jié)節(jié)病灶(良性),30例肺腺癌,和15例鱗狀細(xì)胞肺癌。正常,良性和癌癥樣本在年齡,性別,種族和吸煙狀況方面都是匹配的。訓(xùn)練集樣本(來(lái)自北京大學(xué)人民醫(yī)院,但很不幸,我在進(jìn)行pcr時(shí)丟失了一例正常樣本)按預(yù)期收集。驗(yàn)證集樣本按預(yù)期收集。除鱗狀細(xì)胞癌組,每組兩個(gè)樣本集(每個(gè)樣本集15例)都進(jìn)行smrna測(cè)序,每個(gè)樣本集中同等混勻500μl血漿。每個(gè)樣本2000萬(wàn)讀取與約90%的讀取與人類基因組比對(duì)。
文庫(kù)構(gòu)建預(yù)備實(shí)驗(yàn),6μl血清rna提取洗脫液,預(yù)備實(shí)驗(yàn)按照指示草案進(jìn)行了少量修改后進(jìn)行。一個(gè)mirna文庫(kù)構(gòu)建是由每個(gè)rna樣本通過(guò)3′接頭連接,5′rt引物退火,5′接頭連接,反轉(zhuǎn)錄,和pcr擴(kuò)增。12份樣本文庫(kù)等量混合,聚合后用cbot(illumina)讀取每個(gè)通道的單一讀取流動(dòng)細(xì)胞的濃度為10.5pmol。hiseq2500(illumina)測(cè)序設(shè)置為50個(gè)循環(huán)。多路分解原始測(cè)序數(shù)據(jù)并使用casavav.1.8.2生成fastq文件。
從fastq文件,通過(guò)將接頭與測(cè)序閱讀框局部比對(duì),3'測(cè)序接頭將被移除。我們采用切除接頭軟件來(lái)移除3'接頭。接頭移除后,所有序列都有少于15bps長(zhǎng)度的缺失。每個(gè)文庫(kù)的讀取將總結(jié)成量化fasta格式的標(biāo)簽。因?yàn)閎owtie,fasta閱讀將被映射到基因組。為消除模糊映射記錄,只有最少的比對(duì)不匹配的獨(dú)特映射位點(diǎn)將會(huì)被記述,最多允許兩個(gè)不匹配。不同文庫(kù)的表達(dá)譜將將取決于人類ncrnas映射清潔讀回。對(duì)于每一個(gè)映射軌跡注釋來(lái)自多個(gè)ncrna數(shù)據(jù)庫(kù)。
實(shí)施例3
反轉(zhuǎn)錄和實(shí)時(shí)pcr
使用taqmanmirna實(shí)驗(yàn)試劑盒(appliedbiosystems,美國(guó)),根據(jù)制造商提供的草案,ncrnas將被測(cè)量。簡(jiǎn)言之,大約30ng豐度的rna使用taqmanncrna反轉(zhuǎn)錄試劑盒(appliedbiosystems,美國(guó))被反轉(zhuǎn)錄,反應(yīng)體積為15μl。ncrnas的表達(dá)水平被一式三份進(jìn)行qrt-pcr定量分析,使用taqmanmicrorna實(shí)驗(yàn)試劑盒(appliedbiosystems,美國(guó)),eppendorfiplex4系統(tǒng)(eppendorfnorthamerica,hauppauge,ny)。為繞過(guò)標(biāo)準(zhǔn)化問(wèn)題,我們采用相同比率策略來(lái)替代標(biāo)準(zhǔn)化,從而減少實(shí)驗(yàn)誤差。
實(shí)施例4
統(tǒng)計(jì)分析
對(duì)于相同樣本,我們計(jì)算任意兩個(gè)ncrnas的測(cè)序和rt-qpcr數(shù)據(jù)比率。對(duì)于rt-qpcr數(shù)據(jù),2個(gè)小分子ncrna(ncrna1/ncrna2)比率的表達(dá)水平的計(jì)算采用比較ct法(2-δct),對(duì)相同的樣本,δct=ctncrna1–ctncrna2。血漿ncrna濃度被log2轉(zhuǎn)換后,我們采用spss20.0軟件進(jìn)行非配對(duì)t-檢驗(yàn),比較腺癌組,良性病人和正常對(duì)照組之間平均ncrna比率,顯著p-值設(shè)置為0.05。用spss20.0軟件進(jìn)行卡方檢驗(yàn),比較訓(xùn)練和驗(yàn)證階段樣本性別,種族和癌癥分期的分布,年齡用t-檢驗(yàn),顯著p-值設(shè)置為0.05。采用支持向量機(jī)循環(huán)特性選擇(svm-rfe)算法來(lái)選擇最佳ncrnas。svm-rfe48是為特定學(xué)習(xí)目標(biāo)選擇特征子集的一種算法。它的基本算法是:(1)初始化數(shù)據(jù)集包含的特征,(2)訓(xùn)練數(shù)據(jù)集的svm,(3)根據(jù)ci=(wi)2排名特征,(4)剔除低等級(jí)特征的50%,(5)返回步驟2。在每個(gè)rfe步驟4,一些特征因svm分類模型的主動(dòng)變量被舍棄。特征根據(jù)相關(guān)標(biāo)準(zhǔn)被消除,這一標(biāo)準(zhǔn)與它們支持判別函數(shù)相關(guān),在每一步svm被再訓(xùn)練。根據(jù)特征選擇算法選擇的ncrna比率被用于使用支持向量機(jī)(svms)的分類。5倍十字交叉驗(yàn)證過(guò)程包括內(nèi)部和外部驗(yàn)證。我們使用了預(yù)測(cè)性能指標(biāo),包括敏感性,特異性,陽(yáng)性預(yù)測(cè)值(ppv),陰性預(yù)測(cè)值(npv)和roc曲線下面積(auc)來(lái)判斷預(yù)測(cè)精度。
實(shí)施例5
基于比率的對(duì)循環(huán)ncrna剖面數(shù)據(jù)標(biāo)準(zhǔn)化的方法獨(dú)立于任何內(nèi)部或外部標(biāo)準(zhǔn)對(duì)照
因?yàn)橥庠春蛢?nèi)源對(duì)照對(duì)循環(huán)ncrna剖面數(shù)據(jù)標(biāo)準(zhǔn)化都不可信(圖2),我們測(cè)試了一個(gè)基于比率的,用于循環(huán)ncrna剖面數(shù)據(jù)標(biāo)準(zhǔn)化的方法。首先,我們計(jì)算相同樣本中任意兩個(gè)ncrnas的比率,接著比較不同組別中表達(dá)水平比率而不是比較單一ncrna的表達(dá)水平。拿mirna和內(nèi)控(ic)舉個(gè)例(表1)。
表1基于歸一化方法的率
*正值代表在癌癥中上調(diào),負(fù)值代表在癌癥中下調(diào)。
mirna1的表達(dá)值在正常樣本和癌癥樣本中分別是4和8,兩組間倍數(shù)變化為2(行1);內(nèi)部對(duì)照1(ic1)的表達(dá)值在正常樣本和癌癥樣本中分別是2和4(行2)。如果mirna1通過(guò)ic1標(biāo)準(zhǔn)化,正常樣本和癌癥樣本之間的倍數(shù)改變是1(行5);如果mirna1通過(guò)內(nèi)控2(ic2)標(biāo)準(zhǔn)化,正常樣本和癌癥樣本之間的倍數(shù)改變是-4(平均下調(diào)4倍)。可以看到,沒(méi)有標(biāo)準(zhǔn)(行1)或使用不同的內(nèi)控(ic1或ic2),正常樣本和癌癥樣本之間的倍數(shù)改變不一樣。與mirna2相似,我們得到不同的倍數(shù)改變結(jié)果(如行2,6和8)。如果我們首先通過(guò)ic1來(lái)標(biāo)準(zhǔn)化mirna1和mirna2,然后計(jì)算ic1標(biāo)準(zhǔn)化mirna1和mirna2的值的比率,正常樣本的值為0.5,而癌癥樣本的值為2,倍數(shù)改變?yōu)?(行9)。有趣的是,如果我們通過(guò)ic2來(lái)標(biāo)準(zhǔn)化mirna2(行10)或不用任何對(duì)照(行11),然后計(jì)算相同樣本同兩個(gè)mirnas的比率,正常樣本的比率值仍然為0.5(行10和11),而癌癥樣本的值也為2(行10和11),倍數(shù)改變?nèi)詾?(行10和11)。結(jié)果顯示,不管我們用哪種內(nèi)控方法,相同樣本中任意兩個(gè)mirnas的比率不變。所以,對(duì)于mirna剖面數(shù)據(jù)的標(biāo)準(zhǔn)化,我們只能計(jì)算相同樣本中任意兩個(gè)mirnas的比率(行11),這是完全獨(dú)立于任何內(nèi)源或外源對(duì)照的。
實(shí)施例6
基于比率的數(shù)據(jù)標(biāo)準(zhǔn)化方法在數(shù)學(xué)邏輯上是正確的
從表1,我們已經(jīng)了解到,基于比率的標(biāo)準(zhǔn)化方法是有意義的。在此,我期望從數(shù)學(xué)邏輯上證明該法是正確的。此外,我們采用mirna作為一個(gè)例子,我們的最終目標(biāo)是試圖發(fā)現(xiàn)生物學(xué)上真實(shí)mirna值(turemirna),然而,通常我們從實(shí)驗(yàn)中得到的觀察mirna(obsmirna)值不是真值。事實(shí)上,obsmirna值是truemirna被嵌入不同的系統(tǒng)因子得到的結(jié)果。rt-qpcr實(shí)驗(yàn)中,系統(tǒng)因子可能包括rna提取(i),反轉(zhuǎn)錄(r),pcr(p),不同時(shí)間(t)等等。因此,在一個(gè)具體案例中如s1,設(shè)置如下:
(1)obsmirna1=truemirna1*is1*rs1*ps1*ts1
同理,我們假設(shè)在相同樣本中對(duì)于mirna2的系統(tǒng)因子一樣,在同一s1中的obsmirna2同樣設(shè)置如下:
(2)obsmirna2=truemirna2*is1*rs1*ps1*ts1
因此,(3)obsmirna1/obsmirna2=truemirna1/truemirna2
從(3)行,我們可以清楚看到,在相同樣本中,2個(gè)觀察mirnas值的比率等于2個(gè)真實(shí)mirnas值的比率。因此,我們從數(shù)學(xué)上證明,在相同樣本中,2個(gè)觀察mirnas比值能夠真實(shí)反映2個(gè)mirnas生物學(xué)價(jià)值,這個(gè)生物學(xué)價(jià)值是我們期望測(cè)量的。
因此,pcr值是ct值,ct值實(shí)際上是對(duì)數(shù)值。從公式(4),我們了解到,2個(gè)mirnas的對(duì)數(shù)比值實(shí)際上是2個(gè)mirnas的2個(gè)ct值的差值,這使得計(jì)算更簡(jiǎn)單并且使得臨床上使用這些基于rt-qpcr的數(shù)據(jù)更方便。(4)log2(obsmirna1/obsmirna2)=log2(2-ctmirna1/2-ctmirna2)=log2(2-ctmirna1/2-ctmirna2)=log2(2-ctmirna1+ctmirna2)=ctmirna2-ctmirna1
實(shí)施例7
數(shù)學(xué)上,基于比率的標(biāo)準(zhǔn)化方法優(yōu)于內(nèi)源或外源對(duì)照標(biāo)準(zhǔn)化方法
雖然,我們從數(shù)學(xué)角度證明基于比率的標(biāo)準(zhǔn)化方法在數(shù)學(xué)邏輯上是證確的,人們可能有疑問(wèn),因?yàn)槲覀兗僭O(shè)在相同樣本中,對(duì)不同的mirnas系統(tǒng)因子是一樣的。在理論上它是對(duì)的,因?yàn)槟莾蓚€(gè)mirnas是在相同樣本中,應(yīng)該嵌入相同的系統(tǒng)因子。實(shí)際上,基于標(biāo)準(zhǔn)化方法的參考對(duì)照也做了同樣設(shè)置。
從數(shù)學(xué)角度進(jìn)一步分析比較基于比率的標(biāo)準(zhǔn)化方法與內(nèi)源或外源對(duì)照標(biāo)準(zhǔn)化方法:
(1)obsmirna1s1=truemirna1s1*is1*rs1*ps1*ts1
可如下設(shè)置
(2)is1*rs1*ps1*ts=factor1
然后,樣本1(s1)中的mirna1真實(shí)值為
(3)truemirna1s1=obsmirna1s1/factor1
同樣地,樣本2(s2)中的mirna1真實(shí)值為
(4)truemirna1s2=obsmirna1s2/factor2
同樣地,樣本1(s1)和樣本2中的內(nèi)控(ic)真實(shí)值為
(5)trueics1=obsics1/factor1
(6)trueics2=obsics2/factor2
因此基于(5)和(6),我們得到
(7)factor1=obsics1/trueics1
(8)factor2=obsics2/trueics2
用(7)中factor1代替(3)中factor1,(8)中factor2代替(4)中factor2,我們得到
(9)truemirna1s1=(obsmirna1s1/obsics1)*trueics1
(10)truemirna1s2=(obsmirna1s2/obsics2)*trueics2
假設(shè)(11)trueics1=trueics2
因此
(12)truemirna1s1=obsmirna1s1/obsics1
(13)truemirna1s2=obsmirna1s2/obsics2
(12)和(13)中公式是目前基于內(nèi)源性或外源性對(duì)照的標(biāo)準(zhǔn)化方法。它考慮到在相同樣本中,通過(guò)內(nèi)部參照(ic)得到的一個(gè)觀察mirna的歸一化值是mirna的真實(shí)值。為得到這個(gè)值,這里有兩個(gè)假設(shè):第一,假設(shè)在相同樣本中,待測(cè)mirna和內(nèi)控受相同系統(tǒng)因素的影響(如(2)和(5)或(4)和(6)),第二,假設(shè)在不同樣本中,真實(shí)內(nèi)控值是一樣的(如(11))。然而,這很難了解到第二個(gè)假設(shè)是對(duì)的或錯(cuò)的?;诒戎档姆椒▋H僅假設(shè)在相同樣本中不同mirnas有相同的系統(tǒng)因子,因此,我從數(shù)學(xué)角度很清楚地證明了,基于比率的標(biāo)準(zhǔn)化方法優(yōu)于基于參考對(duì)照的標(biāo)準(zhǔn)化方法。
實(shí)施例8
基于比率的標(biāo)準(zhǔn)化方法能在不同疾病組中找到更多重要的可作為候選標(biāo)記的差異ncrna
最初我們假設(shè),對(duì)于循環(huán)rt-qpcr數(shù)據(jù)采用基于比率的標(biāo)準(zhǔn)化方法,因?yàn)榧尤胪庠葱詫?duì)照對(duì)測(cè)序數(shù)據(jù)的標(biāo)準(zhǔn)化失敗了。拿mirna作為一個(gè)例子,一個(gè)mirna至少20次閱讀,在測(cè)序樣本中我們找到了631個(gè)成熟mirnas。接著,我們計(jì)算相同樣本中任意兩個(gè)mirnas的比率,我們意外地得到198765個(gè)比率(圖3),在充分地增加了我們?cè)诓煌膊〗M中尋找候選mirnas的數(shù)量,這些候選mirnas是差異表達(dá)的配對(duì)比值分子。為得到一個(gè)差異表達(dá)mirna比值表,我們?cè)跇颖炯羞M(jìn)行癌癥與正常組,癌癥與良性組,良性與正常組差異表達(dá)分析。倍數(shù)改變>=2且p值<=0.05,我們發(fā)現(xiàn)了大量顯著改變的成熟的mirna比率(mirna/mirna),其中正常與癌癥對(duì)比組中有30,989個(gè),正常與良性對(duì)比組中有12,701個(gè),良性與癌癥對(duì)比組中有7,044個(gè)。這些顯著改變的比率的數(shù)量比3個(gè)組別中單一mirnas改變的數(shù)量要多,單一mirna數(shù)據(jù)標(biāo)準(zhǔn)化是基于全局中值的(圖3)。
實(shí)施例9
基于比率的ncrna生物標(biāo)記用于區(qū)分健康對(duì)照與肺腺癌
為測(cè)試這些基于比率的可以區(qū)分肺癌與非肺癌樣本的候選ncrnas,從測(cè)序數(shù)據(jù)中,首先我們選擇大約20對(duì)配對(duì)明顯的ncrna比率來(lái)比較正常組與癌癥組,29例正常樣本,50例肺腺癌早期樣本,這些肺腺癌樣本在種族,性別和吸煙狀況方面配對(duì)。使用支持向量機(jī)回歸特征消除(svm-rfe)特征選擇和svm分類算法,我們發(fā)現(xiàn)一個(gè)由5個(gè)ncrna比率的組合,可使所有測(cè)量參數(shù)達(dá)到預(yù)測(cè)準(zhǔn)確度100%,測(cè)量參數(shù)包括敏感性,特異性,陽(yáng)性預(yù)測(cè)值(ppv),陰性預(yù)測(cè)值(npv)和roc曲線下面積(auc)。圖4顯示代表性ncrna比率分子標(biāo)記在50例肺腺癌和29例正常樣本中的表達(dá)值。圖5描述的是即使使用無(wú)監(jiān)督的分級(jí)聚類,肺腺癌與正常樣本可以區(qū)分且沒(méi)有一個(gè)單一樣本的錯(cuò)分。
對(duì)比例1
外加c.線蟲(chóng)cel-mir-54對(duì)循環(huán)小分子rna測(cè)序不是好的標(biāo)準(zhǔn)控制
為了確定循環(huán)小分子ncrna標(biāo)記對(duì)肺癌的檢測(cè),我們執(zhí)行全部基因組水平的小分子ncrna測(cè)序(smrna-seq),使用基于人類血漿樣品的樣品集來(lái)節(jié)省成本和樣品。我們首先進(jìn)行smrna-seq來(lái)確定血漿中小分子核糖核酸micrornas和其他一些循環(huán)小分子非編碼rnas(sncrnas),使用的7個(gè)樣品集包括30例高危健康個(gè)體(健康對(duì)照),30例良性結(jié)節(jié)病變,30例早期肺腺癌和15例鱗狀細(xì)胞肺癌(scc)。每個(gè)樣本集包含15例樣本。正常對(duì)照、良性和癌癥樣本在年齡、性別、種族和吸煙狀況方面相匹配。樣本在拉什大學(xué)醫(yī)學(xué)中心按預(yù)期采集。對(duì)照組,良性組和腺癌組采用兩個(gè)樣本集,scc用一個(gè)樣本集。每個(gè)樣本集包含500μl等量混合血漿,被用于smrna-seq。這一過(guò)程在希望市(ca)illumina下一代測(cè)序平臺(tái)完成。大約2000萬(wàn)讀取樣本生成數(shù)據(jù)的90%與人類基因組比對(duì)。
自從c-線蟲(chóng)cel-mir-5429是人體沒(méi)有的,在測(cè)序中,它可作為一個(gè)外部加入對(duì)照。rna提取前,每個(gè)樣本集中添加等量cel-mir54。所有樣本集中,我們希望讀取到等量cel-mir-54。如圖1所示,7個(gè)樣品集中每個(gè)集讀取到的cel-mir-54數(shù)據(jù)大不同。一個(gè)肺腺癌組讀取到最大數(shù)值是200。scc組讀取到數(shù)值為0。由此,我們認(rèn)為外加cel-mir-54對(duì)照,對(duì)smrna-測(cè)序數(shù)據(jù)的標(biāo)準(zhǔn)化不達(dá)標(biāo)。
對(duì)比例2
外加c.線蟲(chóng)cel-mir-54作為小分子ncrna循環(huán)定量rt-pcr(rt-qpcr)的對(duì)照所得數(shù)據(jù)的標(biāo)準(zhǔn)化也不達(dá)標(biāo)
假設(shè)外源c.線蟲(chóng)cel-mir-54是小分子ncrna循環(huán)rt-pcr(rt-qpcr)數(shù)據(jù)標(biāo)準(zhǔn)化的一個(gè)外加對(duì)照。我們挑選129例樣品(29例健康對(duì)照,50例肺腺癌,35例良性和15例scc),進(jìn)行cel-mir-54的rt-qpcr。等量cel-mir-54添加到等量血漿(200μl)中,這些血漿中單個(gè)血漿樣本是在rna提取前。如圖2a所示,我們發(fā)現(xiàn)已經(jīng)發(fā)布的外控cel–mir-54的ct值是非常不穩(wěn)定的;ct值大致范圍在14—34。最高和最低ct值相關(guān)在約20個(gè)ct,與原始數(shù)據(jù)有40倍的差異。因?yàn)樘砑恿说攘縞el-mir-54,我們期望對(duì)同一樣本有相似ct值。因此,我們認(rèn)為外加c.線蟲(chóng)cel-mir-54作為小分子ncrna循環(huán)定量rt-pcr(rt-qpcr)的對(duì)照所得數(shù)據(jù)的標(biāo)準(zhǔn)化也不達(dá)標(biāo)。
對(duì)比例3
內(nèi)源性對(duì)照對(duì)小分子ncrna循環(huán)定量rt-pcr(rt-qpcr)數(shù)據(jù)的標(biāo)準(zhǔn)化不達(dá)標(biāo)
我們用外源加入對(duì)照如cel-mir-54對(duì)循環(huán)ncrnart-qpcr數(shù)據(jù)的標(biāo)準(zhǔn)化失敗了,我們想是否可用內(nèi)源對(duì)照來(lái)標(biāo)準(zhǔn)化循環(huán)ncrnart-qpcr數(shù)據(jù)?;谝呀?jīng)發(fā)布的報(bào)告,我們選擇has-mir-19130和has-mirnas,let-7d,let-7g和let-7i31作為我們的內(nèi)源性對(duì)照。我們使用與做外源對(duì)照cel-mir-54(圖2)時(shí)相同的血漿,從相同體積(200μl)血漿樣本提取等量體積rna(約2μl),并對(duì)相同129份樣本,采用內(nèi)源性對(duì)照來(lái)進(jìn)行rt-qpcr。如圖2所示,已發(fā)布的內(nèi)源對(duì)照包括has-mir-191ct值(圖2b)和has-mirnas,let-7d,let-7g和let-7i(圖2c)的平均值同樣分布不同且不穩(wěn)定。因此,我們認(rèn)為選擇參考對(duì)照作為循環(huán)ncrnart-qpcr數(shù)據(jù)的標(biāo)準(zhǔn)化不合適。
上述說(shuō)明并非對(duì)本發(fā)明的限制,本發(fā)明也并不限于上述舉例。本技術(shù)領(lǐng)域的普通技術(shù)人員在本發(fā)明的實(shí)質(zhì)范圍內(nèi),作出的變化、改型、添加或替換,也應(yīng)屬于本發(fā)明的保護(hù)范圍,本發(fā)明的保護(hù)范圍以權(quán)利要求書(shū)為準(zhǔn)。