本發(fā)明涉及一種基于人類遺傳基因組常見拷貝數(shù)變異(“CNV”)的方法,用于預(yù)測(cè)受試者的患癌風(fēng)險(xiǎn)。方法是從同種族DNA樣品群中識(shí)別常見性遺傳CNVs,樣本包括非癌患者的非癌組織DNA(簡(jiǎn)稱“非癌DNA”樣品)和癌患者的非癌組織DNA(簡(jiǎn)稱“癌DNA”樣品);通過機(jī)器學(xué)習(xí)過程及相對(duì)比較,識(shí)別同族群中分別富集于非癌患者或患癌者的特定CNVs,以制定一組具診斷性的常見CNV特征。繼而,將這一組能對(duì)“非癌DNA”或“癌DNA”起分類作用的診斷性常見CNVs進(jìn)行鑒定;經(jīng)確認(rèn)后,會(huì)用作分析同種族受試者的遺傳基因組CNVs,鑒定是否存在一些該組診斷性常見CNV特征,并由此評(píng)估受試者的癌癥易感水平。
無論是非癌患者、癌患者或任何受試者,其基因組DNA中的遺傳CNVs,可利用不同方法進(jìn)行檢測(cè),如人類基因組DNA單核苷酸多態(tài)性(SNP)微陣列、定量PCR,個(gè)人全基因組測(cè)序、“WES”外顯子組區(qū)域測(cè)序或“AluScan”基因組區(qū)域序列測(cè)序,包括Alu轉(zhuǎn)座子之間和/或接近Alu的基因組區(qū)域序列。而從任何DNA樣品中發(fā)現(xiàn)的CNVs,可依據(jù)它們的發(fā)生頻率和統(tǒng)計(jì)準(zhǔn)則,被分類為“常見性”CNVs或“罕見性”CNVs。迄今,只發(fā)現(xiàn)某些“罕見性”遺傳CNVs與特定癌癥類別相關(guān),但沒有任何常見性遺傳CNV與癌癥關(guān)聯(lián)的信息,可應(yīng)用于預(yù)測(cè)癌癥易感性。
所述方法是需要從非癌患者群組和癌患者群組的非癌組織遺傳基因組中,分別鑒定出屬“非癌DNA”及“癌DNA”的常見CNVs,再?gòu)闹羞x出一組具診斷性的常見CNV特征,用于預(yù)測(cè)受試者的癌癥易感風(fēng)險(xiǎn)。因此,選擇過程將運(yùn)用多種統(tǒng)計(jì)方法,以機(jī)器學(xué)習(xí)輔助進(jìn)行,但并不限于以下方法:(I)相關(guān)性特征選擇法(Correlation based Feature Selection;相關(guān)法):選擇分別與“非癌DNA”或“癌DNA”類別高度關(guān)聯(lián),但互相之間并不相關(guān)的常見性CNVs;如采用WEKA機(jī)器學(xué)習(xí)工具包中的CfsSubsetEval,并配合BestFirst搜尋方法(Hall MA and Smith LA,F(xiàn)eature subset selection:A correlation based filter approach.International Conference on Neural Information Processing and Intelligent Information Systems.New Zealand;1997:8555-858;Dagliyan O et al,Optimization based tumor classification from microarray gene expression data.PLoS One 2011,6:e14579)進(jìn)行特征選擇;(II)頻率選擇法(Frequency-based Method;頻率法):在選擇某一CNV特征時(shí),它的發(fā)生頻率于“非癌DNA”和“癌DNA”類別之間必須有著顯著不同;及(III)分類器選擇(Classifier-basedMethod;分類法):利用分類器進(jìn)行CNV特征分析,列如WEKA機(jī)器學(xué)習(xí)工具包中的ClassifierSubsetEval屬性鑒別器和BestFirst搜尋方法(Hall MA et al,The WEKA Data Mining Software:An Update.SIGKDD Explorations 2009,11:10-18)。
利用樸素貝葉斯分類法(Bayes classification method)及接受器操作特性分析(Receiver Operating Characteristic,ROC),以機(jī)器學(xué)習(xí)模式評(píng)估診斷性常見CNV特征的分類功能,看是否能有效地將DNA樣品識(shí)別為“非癌DNA”或“癌DNA”類別。ROC是源于區(qū)分雷達(dá)信號(hào)與噪聲,及后在不同臨床醫(yī)學(xué)領(lǐng)域中均有應(yīng)用(Zweig MH and Campbell G.Receiver-operating characteristic(ROC)plots:a fundamental evaluation tool in clinical medicine.Clinical Chemistry 1993,39:561-577;Zhou X Statistical Methods in Diagnostic Medicine.New York,USA;Wiley&Sons 2002)。
從一特定種族“非癌DNA”和“癌DNA”樣品群中,要尋找到一組具診斷性的常見CNV特征,其ROC-AUC值(ROC曲線下面積)必須大于0.5。這表示該特征可作為分類工具,能有效地將DNA樣品識(shí)別為“非癌DNA”或“癌DNA”類別,預(yù)測(cè)同族群受試者DNA的癌癥易感性。
在[0005]中所術(shù)的預(yù)測(cè)方法,原理是:首先要組合一學(xué)習(xí)群,其中包括標(biāo)記遺傳DNA樣品(即樣品類別屬“非癌DNA”或“癌DNA”是已知的)。然后,從這DNA群選取一組具診斷性的常見CNV特征,用作識(shí)別未標(biāo)記DNA樣品(即樣品類別屬“非癌DNA”或“癌DNA”是未知的),以確定該特征對(duì)“非癌DNA”或“癌DNA”的分類成效。經(jīng)確認(rèn)后的CNV特征,將用于檢測(cè)學(xué)習(xí)群中各遺傳DNA樣品,是否存在診斷性常見CNVs。最后,利用以下公式計(jì)算B值,并按各樣品相對(duì)B值排名:
公式一
B為癌癥特征性CNV概率[Pr(cancer|features)]和非癌癥特征性CNV概率[Pr(noncancer|features)]的比率對(duì)數(shù)。Pr(cancer|features)是根據(jù)所提供CNV數(shù)據(jù)算出的歸屬癌類成員的貝葉斯后驗(yàn)概率,而Pr(noncancer|features)是根據(jù)所提供CNV數(shù)據(jù)算出的歸屬非癌類成員的貝葉斯后驗(yàn)概率;Pr(features|cancer)及Pr(features|noncancer)分別指根據(jù)癌及非癌類別成員算出的CNV數(shù)據(jù)的概率。另外,Pr(cancer)和Pr(noncancer)則分別是學(xué)習(xí)群中癌樣品和非癌樣品的先驗(yàn)分布概率。被檢測(cè)樣品會(huì)按其B值作預(yù)期分類,B>0屬于“癌”概率高,B<0屬于“非癌”概率高,或B=0為不確定。因此,學(xué)習(xí)群中的B值刻度排名,“非癌DNA”樣品會(huì)偏低,相反“癌DNA”則傾向高排名。此特定B值刻度表,將為該人種所有“非癌DNA”和“癌DNA”樣品,提供一個(gè)B值對(duì)照標(biāo)準(zhǔn)。利用這個(gè)標(biāo)準(zhǔn),測(cè)試同一人種受試者遺傳DNA的拷貝數(shù)變異,以確定是否存在B值表中的診斷性常見CNVs,并按公式一,計(jì)算受試者的B值,并與學(xué)習(xí)群中各“非癌DNA”和“癌DNA”樣品B值進(jìn)行比較,評(píng)估受試者的患癌風(fēng)險(xiǎn)為高(B值刻度表上高位),中(B值刻度表上中游位置),或低(B值刻度表上低位)。
概要
本發(fā)明涉及用于預(yù)測(cè)人類患癌風(fēng)險(xiǎn)的遺傳基因組拷貝數(shù)變異(“CNV”)的方法。是對(duì)同種族DNA樣品群的遺傳性常見CNVs進(jìn)行分析,當(dāng)中包含非癌患者的非癌組織DNA(稱為“非癌DNA”樣品)和癌患者的非癌組織DNA(稱為“癌DNA”樣品);通過機(jī)器學(xué)習(xí)過程,鑒定分別富集于同族群的非癌患者群組和癌患者群組的特定常見CNVs,以制定一組具診斷性的常見CNV特征。繼而,測(cè)試該組特征能否將“非癌DNA”和“癌DNA”分類;經(jīng)確實(shí)后,將用作識(shí)別同族群受試者的遺傳基因組CNVs,是否存在一些該組診斷性常見CNV特征,并由此評(píng)估其癌癥易感水平。
如[0007]所述,要選擇一組具診斷性的常見CNV特征,可通過以下方法以機(jī)器學(xué)習(xí)模式進(jìn)行,但不限于:(I)相關(guān)性特征選擇法(相關(guān)法);(II)頻率特征選擇法(頻率法);和(III)分類器特征選擇法(分類法)。選定后,可以樸素貝葉斯等分類方法,測(cè)試該組特征的分類功能,是否能夠?qū)ⅰ胺前〥NA”和“癌DNA”樣品分為“非癌DNA”和“癌DNA”類別,再以接受器操作特性分析(ROC)進(jìn)行分類準(zhǔn)確率評(píng)估。
當(dāng)ROC-AUC值(是指ROC曲線下面積)大于0.5,證實(shí)該組診斷性常見CNV特征的可用性后,便可用于預(yù)測(cè)受試者DNA的癌癥易感性。條件是受試者所屬人種,應(yīng)該與構(gòu)成該組診斷性常見CNV特征的“非癌DNA”和“癌DNA”樣品,源自同一人種。
不同癌癥類型患者的“癌DNA”,其診斷性常見CNVs的分布頻率均有著差異。因此,本發(fā)明不僅可以用于預(yù)測(cè)受試者的一般患癌易感性,還可以預(yù)測(cè)對(duì)某特定癌癥類型的易感性。
附圖簡(jiǎn)述
以下附圖為發(fā)明的部分說明及對(duì)某特定范疇作進(jìn)一步闡述。通過參考以下一或多個(gè)附圖,并配合具體實(shí)施例描述,將更能清楚了解本發(fā)明。
經(jīng)Affymetrix SNP6.0數(shù)組芯片檢測(cè),圖1分別顯示了兩組人種(A)高加索及(B)高麗人種的非癌患者和癌患者的非癌性白血細(xì)胞常見性拷貝數(shù)變異。在這些實(shí)施例中,只選取長(zhǎng)度界乎1kb和10Mb之間且q值<0.25的CNV進(jìn)行分析。圖上方為“拷貝增加”q值,而下方是“拷貝減少”q值。q值是通過GISTIC2.0評(píng)估,高“-log q值”表示高度非隨機(jī)性變異?;谙嚓P(guān)性方法選擇方法,圖2和圖3分別顯示了高加索和高麗人種被納入診斷性CNV特征中的拷貝增加特征(標(biāo)示為A系列)和拷貝減少特征(標(biāo)示為D系列)。
圖2展示了一組通過Affymetrix SNP6.0數(shù)組芯片鑒定的診斷性常見CNV特征,是從高加索人種非癌患者群組和癌患者群組的非癌性白血細(xì)胞核基因組DNA中選擇出來?!鞍╊l率”是指“癌DNA”樣品的CNV特征頻率,而“對(duì)照頻率”是“非癌DNA”對(duì)照樣品的CNV特征頻率,另“癌/非癌(Can/Con)比率”則是指它們的比率。CNVG(CN-Gain)=拷貝增加;CNVL(CN-Loss)=拷貝減少。圖1(A)所列出A系列和D系列的編號(hào),有助顯示各CNV特征的位置。
圖3展示了一組通過Affymetrix SNP6.0數(shù)組芯片鑒定的診斷性常見CNV特征,是從高麗人種非癌患者群組和癌患者群組的非癌性白血細(xì)胞核基因組DNA中選擇出來的?!鞍╊l率”是指“癌DNA”樣品的CNV特征頻率,而“對(duì)照頻率”是“非癌DNA”對(duì)照樣品的CNV特征頻率,另“癌/非癌(Can/Con)比率”則是指它們的比率。CNVG(CN-Gain)=拷貝增加;CNVL(CN-Loss)=拷貝減少。圖1(B)所列出A系列和D系列的編號(hào),有助顯示各CNV特征的位置。
圖4顯示了從(A)高加索和(B)高麗人種癌患者組和非癌對(duì)照組,以相關(guān)法、頻率法和分類法三種不同方法選擇特征性CNVs。實(shí)心三角:同時(shí)被相關(guān)法和頻率法選擇;實(shí)心圓:僅僅被相關(guān)法選擇;空心三角:僅僅被頻率法選擇;實(shí)心三角加實(shí)心倒三角:被相關(guān)法、頻率法和分類法共同選擇;空心三角加空心倒三角:同時(shí)被頻率法和分類法選擇;空心圓:沒有被任何方法選擇。假如癌患者組和非癌對(duì)照組的卡方檢驗(yàn)概率P值相等,其位置是位于兩條P=0.05虛線之間的,即P>0.05區(qū)域;而位于兩虛線之外則表示P<0.05。另兩條實(shí)線代表P'=0.05,其中P'是Bonferroni校正后的P值,這兩條實(shí)線區(qū)分了P'>0.05的內(nèi)區(qū)域和P'<0.05的外區(qū)域。
圖表5顯示,從高加索和高麗人種以三種不同CNV特征選擇方法選擇出來的CNV特征,用來分辨癌癥與非癌DNA樣品所得到的ROC-AUC值。
圖6表明了(A)高加索人及(B)高麗人族群以相關(guān)法選出的CNV特征預(yù)測(cè)患癌風(fēng)險(xiǎn)的準(zhǔn)確率。步驟是將每個(gè)族群的DNA樣品隨機(jī)分為學(xué)習(xí)群和測(cè)試群,各包含數(shù)量相等或大致相等的非癌DNA和癌DNA樣品?;谙嚓P(guān)法從學(xué)習(xí)群選擇出的CNV特征,以[0006]中公式1計(jì)算的B值,預(yù)測(cè)測(cè)試群中每個(gè)樣品的類別,屬非癌或是癌癥類別。分類準(zhǔn)則是B>0屬于“癌”概率高,B<0屬于“非癌”概率高,或B=0為不確定。通過重復(fù)將樣品隨機(jī)分到學(xué)習(xí)群或測(cè)試群1000次,每次均對(duì)測(cè)試群中每個(gè)樣品進(jìn)行預(yù)測(cè),并采用公式2評(píng)估每次預(yù)測(cè)的準(zhǔn)確率,共1000次:
公式2
圖(A)和(B)分別展示高加索及高麗族群1000次預(yù)測(cè)準(zhǔn)確率的分布,及每個(gè)族群1000次預(yù)測(cè)準(zhǔn)確率的平均值。
圖7顯示(A)高加索和(B)高麗人種癌患者的診斷性常見CNV特征在各種不同腫瘤患者的非腫瘤白細(xì)胞DNA中的分布,運(yùn)用相關(guān)法從非腫瘤白細(xì)胞DNA中選擇出來。圖2及圖3分別描述了所用的高加索人種與高麗人種的診斷性常見CNV特征。計(jì)算分布的步驟是采用R工具包kmean功能,獲取各相關(guān)法CNV特征的K平均值,將不同癌癥類型患者的CNVs聚類(Suzuki R,Shimodaira H.Pvclust:an R package for assessing the uncertainty in hierarchical clustering.Bioinformatics 2006,22:1540-1542)。由于相關(guān)法CNV 特征數(shù)量大于2,我們應(yīng)用了R工具包CLUSPLOT群集功能(Pison G et al.Displaying a clustering with CLUSPLOT.Comput Stat Data An 1999,30:381-392),以主要成分分析法(PCA)簡(jiǎn)化數(shù)據(jù)集,將輸出圖形限于首二個(gè)主要成分。不同類型的癌癥患者包括大腸癌(圓),神經(jīng)膠質(zhì)瘤(綠三角),骨髓瘤(紅方塊),胃癌(藍(lán)方塊)和肝細(xì)胞癌(紅三角)。
表8顯示中國(guó)族群各相關(guān)性方法常見CNV特征。采用AluScan測(cè)序,從非癌對(duì)照和患癌者的非癌癥白細(xì)胞DNA中識(shí)別?!鞍┌Y頻率”表示“癌DNA”的CNV特征頻率,“對(duì)照頻率”是“非癌DNA”的CNV特征頻率,而“Can/Con比率”是指癌癥頻率/對(duì)照頻率的比率。CNVG=CNV-增加;CNVL=CNV-減少。
圖9顯示了中國(guó)族群常見CNV特征的發(fā)生頻率,包括非癌對(duì)照和癌患者,并以相關(guān)性方法選擇法識(shí)別。被選定的常見CNV特征,如圖8中所示,由實(shí)心三角表示,而未被選中的則以空心圓表示。
圖10展示了中國(guó)人種癌癥發(fā)生的預(yù)測(cè)準(zhǔn)確率。將非癌DNA和癌DNA樣品,如圖6所述,隨機(jī)分成學(xué)習(xí)群和測(cè)試群;然后,基于CSF方法從學(xué)習(xí)群鑒定診斷性常見CNV特征,用作預(yù)測(cè)測(cè)試群中每個(gè)樣品的類別,屬癌癥或是非癌癥。重復(fù)這樣的隨機(jī)分組及分類預(yù)測(cè)達(dá)100次,獲取預(yù)測(cè)精確度的分布情況及其平均值。
圖11展示了本發(fā)明預(yù)測(cè)患癌風(fēng)險(xiǎn)的過程摘要。N代表非癌患者的非癌組織遺傳DNA樣品,C是癌患者非癌組織遺傳DNA樣品。
詳細(xì)描述
在不背離本發(fā)明公開精神的前提下,對(duì)本發(fā)明技術(shù)領(lǐng)域范圍所作出的各種替換和修飾,均納入本發(fā)明范圍之內(nèi)。
術(shù)語:
在說明書中使用的術(shù)語“一”是指一個(gè)或多個(gè)。至于權(quán)利要求中的“一”是指一個(gè)或一個(gè)以上,而本文所用的“另一個(gè)”是指至少第二個(gè)或更多。
術(shù)語“拷貝數(shù)變異”,或CNV,是指人類基因組常染色體及女性X染色體DNAs的拷貝數(shù)目變異,正常為兩個(gè)拷貝(即“雙倍體”)。如果一DNA片段存在多于或小于兩個(gè)拷貝,它便成為一個(gè)CNV。而男性的X和Y染色體DNAs均只有一個(gè)拷貝(即“單倍體”),所以DNA片段存在多于或小于一個(gè)拷貝的,便成為一個(gè)CNV。多于標(biāo)準(zhǔn)拷貝數(shù)目的是拷貝增加。相反,少于標(biāo)準(zhǔn)拷貝數(shù)目的是拷貝減少。
術(shù)語“常見性CNV”是指那些并不罕見的CNVs,能被應(yīng)用于預(yù)測(cè)癌癥易感性用途。鑒別常見性CNVs,可用方法例如Rueda,O.M.&Diaz-Uriarte,R.Finding recurrent regions of copy number variation.Collection of Biostatistics Research Archive 2008,Paper 42,The Berkeley Electronic Press,其中包括MSA,RAE,MAR,CMAR,cghMCR,CGHregions,Master HMMs,STAC,Interval Scores,CoCoA,KC SMART,SIRAC,GEAR等方法及其相關(guān)軟件。
本發(fā)明中的術(shù)語“診斷性常見CNV特征”是指遺傳性常見CNVs,從同一人種基因組DNA,包括非癌受試者(即非患癌個(gè)體)和癌癥受試者(即癌癥病人)的非癌組織基因組DNA的常見CNVs中選擇出來,具有能力分辨非患癌個(gè)體及癌癥病人遺傳DNA的CNV。通常CNV特征的富集情況是偏向顯現(xiàn)于非癌DNA比癌DNA相對(duì)較多,或反過來偏向顯現(xiàn)于癌DNA比非癌DNA較多。因此,檢測(cè)同人種受試者遺傳DNA中,是否含有這些診斷性常見CNV特征的偏向,將可以預(yù)測(cè)被檢者的癌癥易感性。CNV特征的選擇,可應(yīng)用但不限于以下統(tǒng)計(jì)方法:(I)基于相關(guān)性的特征選擇方法(相關(guān)法),(II)基于頻率的特征選擇方法(頻率法)和(III)基于分類的特征選擇方法(分類法)。每個(gè)方法均會(huì)產(chǎn)生一系列診斷性常見CNV特征,可用作對(duì)非癌DNA及癌DNA樣品的分類,并配合不同機(jī)器學(xué)習(xí)程序進(jìn)行鑒定,例如Fisher線性判別、邏輯回歸、樸素貝葉斯分類、判定樹和神經(jīng)網(wǎng)絡(luò)等。當(dāng)一組常見CNV特征被認(rèn)定為具有診斷能力,例如其ROC-AUC值大于0.5,便可用作預(yù)測(cè)任一個(gè)同一人種受試者的癌癥易感程度。
在本發(fā)明的一個(gè)實(shí)施例中,采用Affymetrix SNP 6.0高密度芯片,對(duì)51名高加索癌癥患者和47名同人種非癌對(duì)照的血樣品進(jìn)行檢測(cè),并依據(jù)基因表達(dá)綜合數(shù)據(jù)庫(GEO)[http://www.ncbi.nlm.nih.gov/geo/]及caArray[https://array.nci.nih.gov/caarray]的檢索結(jié)果,獲取CNV數(shù)據(jù)。另外,應(yīng)用APT軟件工具(Affymetrix Power Tools)中的拷貝數(shù)檢測(cè)流程和默認(rèn)值[http://www.affymetrix.com/partners_programs/programs/developer/tools/powert ools.affx],并從270個(gè)HapMap基因組Affymetrix SNP 6.0微陣列綜合分析得到參考模板序列,對(duì)這些癌癥和非癌樣本進(jìn)行CNV檢測(cè)。利用R程序DNACopy中的環(huán)狀二元片段分割算法(Circular Binary Segmentation,CBS),將鄰近拷貝數(shù)變異區(qū)域分割出拷貝增加和拷貝減少片段(Olshen AB et al.Circular binary segmentation for the analysis of array-based DNA copy number data.Biostatistics 2004,5:557-572)。本研究采用了人類參照基因hg19/GRCh37坐標(biāo)和SNP6.0平臺(tái)注釋文件版本32。為了識(shí)別顯著常見CNVs,采用GISTIC2.0方法(Mermel C.H.et al,Genome Biol.12(4):R41,2011)下述選項(xiàng)“-smallmem 1-broad 1-brlen 0.5-conf 0.9-ta 0.2-td 0.2-twosides 1-genegistic 1”進(jìn)行檢測(cè)。任何CNVs的log2比率變化為>0.2或<-0.2的話,則會(huì)被視為常見CNVs(Ding X et al.Application of machine learning to development of copy number variation-based prediction of cancer risk.Genomics Insights 2014,7:1-10)。圖1(A)展示了已被確定的常見CNVs。
在本發(fā)明的這個(gè)實(shí)施例中,將[0025]所述的高加索癌癥與非癌微陣列數(shù)據(jù),同時(shí)采用相關(guān)性方法、頻率和分類三種選擇分法,分別產(chǎn)生三組診斷性常見CNV特征。為評(píng)估這三組診斷性常見CNV特征是否能將樣品區(qū)分為癌癥和非癌類別,我們采用了WEKA工具包的樸素貝葉斯分類法,以其中一組特征為訓(xùn)練模型,進(jìn)行1000次兩重迭代交叉驗(yàn)證。然后,將原數(shù)據(jù)集內(nèi)每個(gè)樣品的標(biāo)記(‘非癌’對(duì)‘癌癥’)隨機(jī)置換,組成一新數(shù)據(jù)集,并重復(fù)上述分類過程。按這樣產(chǎn)生共10,000組數(shù)據(jù)集,以測(cè)試該模型的穩(wěn)健性。至于各分類的重要性,會(huì)根據(jù)正確預(yù)測(cè)百分比的分布計(jì)算。圖5顯示了以三組CNV特征為訓(xùn)練模型的樸素貝葉斯分類結(jié)果,用作決定樣本分為“非癌'或'癌癥”類別?;谙嚓P(guān)法、頻率法和分類法的高加索樣品CNV特征,其ROC-AUV值分別是0.996±0.001,0.991±0.007,和0.986±0.014。這些高ROC-AUC值顯示,三組CNV特征均能準(zhǔn)確地把“非癌DNA”和“癌DNA”分類,并可作為預(yù)測(cè)高加索族群癌癥易感性的基礎(chǔ),見圖4(A)。被選定的所有CNV特征均顯示高偏性分布,就是富集于癌DNA但少見于非癌對(duì)照DNA,或富集于非癌對(duì)照DNA但少見于癌DNA。結(jié)論是,它們都具潛力應(yīng)用于癌癥與非癌對(duì)照遺傳基因組DNA的分辨。
為要確實(shí)被選擇的CNV特征能應(yīng)用于預(yù)測(cè)癌癥易感性,高加索族群的非癌對(duì)照DNA樣品(N)被隨機(jī)分為學(xué)習(xí)群和測(cè)試群兩個(gè)組別;當(dāng)樣品數(shù)量為偶數(shù)的話,每組數(shù)量便相等,但要是樣品數(shù)量為奇數(shù),額外的一個(gè)將隨機(jī)配給其中一組,使兩組數(shù)量相差一個(gè)。同樣地,大腸癌患者DNA樣品(C)被隨機(jī)分為學(xué)習(xí)群和測(cè)試群兩個(gè)組別,每組數(shù)量是相等或只相差一個(gè);而神經(jīng)膠質(zhì)瘤和骨髓瘤患者的樣品也以同樣方式分組,最終分別獲得含[N+C]樣品的學(xué)習(xí)群和測(cè)試群,當(dāng)中N和C的數(shù)量是相等或近乎相同。然后,從學(xué)習(xí)群CNVs中使用相關(guān)法選出一組CNV特征。并使用該組CNV特征對(duì)測(cè)試群中的每個(gè)樣品進(jìn)行檢測(cè),并利用公式1將樣品分配到非癌或癌癥類別。最后,以公式2計(jì)算對(duì)測(cè)試群全部樣品的預(yù)測(cè)準(zhǔn)確率:
公式2
通過這樣1,000次重復(fù)隨機(jī)分組,獲得1,000個(gè)預(yù)測(cè)準(zhǔn)確率數(shù)據(jù)。它們的分布見于圖6(A),平均值為93.6%,這數(shù)值確定該診斷性常見CNV特征能有效預(yù)測(cè)高加索人種的癌癥易感性。
本發(fā)明的一個(gè)實(shí)施例中,采用Affymetrix SNP 6.0高密度芯片,對(duì)347名高麗人種癌癥患者和195名同人種的非癌對(duì)照的血樣品進(jìn)行檢測(cè),并依據(jù)基因表達(dá)綜合數(shù)據(jù)庫(GEO)[http://www.ncbi.nlm.nih.gov/geo/]及腫瘤矩陣信息數(shù)據(jù)庫(caArray databases)[https://array.nci.nih.gov/caarray/]的檢索結(jié)果,獲取CNV數(shù)據(jù)。另外,通過[0028]and[0029]所述的程序,從非癌對(duì)照和癌癥DNA樣品,獲取包含拷貝增加和拷貝減少的常見CNVs;并采用相關(guān)法、頻率法和分類法三種選擇方法,分別從非癌DNA和癌DNA選擇出三組診斷性常見CNV特征。然后,按樸素貝葉斯分類法,將這三組特征納入訓(xùn)練模型,評(píng)估它們是否能將樣品正確區(qū)分為癌癥和非癌類別。圖5展示的是,高麗人種樣品采用相關(guān)法、頻率法和分類法選擇的CNV特征,其ROC-AUV值分別是0.975±0.002,0.958±0.009,和0.867±0.016。這些高ROC-AUC值顯示,三組CNV特征均能相當(dāng)準(zhǔn)確地把樣品分為“非癌”和“癌癥”類別,為高麗人種癌癥易感性預(yù)測(cè)提供了實(shí)用基礎(chǔ),見圖4(B)。被選定的所有CNV特征均顯示高偏性分布,即富集于癌DNA而少見于非癌對(duì)照DNA,或富集于非癌對(duì)照DNA但少見于癌DNA。結(jié)論是,它們可以有效地分辨開癌癥DNA與非癌DNA。
另外,像[0030]中高加索人種一樣,高麗人種非癌對(duì)照和癌癥受試者,被隨機(jī)分割為學(xué)習(xí)群和測(cè)試群1000次。然后,從學(xué)習(xí)群中使用相關(guān)性方法選擇出的CNV特征,用來鑒定測(cè)試群中每個(gè)樣品的類別,以計(jì)算預(yù)測(cè)的準(zhǔn)確率。圖6(B)顯示了該1000次的預(yù)測(cè)準(zhǔn)確率,其平均值為86.5%,確定了這些常見CNV特征對(duì)預(yù)測(cè)高麗人種患癌風(fēng)險(xiǎn)的實(shí)用性。
在[0028]中所述的高加索人種癌癥樣本是來自三種癌癥類型,分別是腦膠質(zhì)瘤、骨髓瘤和大腸癌。圖7A顯示了這三批癌癥患者的遺傳基因組中,它們的CNV特征不完全相似。由此可見,用于選擇診斷性常見CNV特性的樣品,不一定需要集合多種癌癥類型,可以是非癌受試者的非癌組織DNA,與一種或少數(shù)特定癌癥的非癌組織DNA,這樣便可集中預(yù)測(cè)一種或少數(shù)特定類型癌癥的易感性,而不是一般患癌風(fēng)險(xiǎn)。同樣地,[0031]所述的高麗人種癌癥樣品也是來自三種癌癥類型,分別是:胃癌,肝細(xì)胞癌和結(jié)直腸癌。如圖7B所示,這三類癌癥患者的遺傳基因組中,其CNV特征是不完全相似。因此,若用非癌患者的DNA,與一種或少數(shù)特定類型癌癥的非癌組織DNA,而不是多種類型癌癥患者的非癌組織DNA,則可以預(yù)測(cè)一種或少數(shù)特定類型癌癥的易感性,而不只是一般的患癌風(fēng)險(xiǎn)。這些實(shí)施例表明,集合診斷性常見CNV特性可用于預(yù)測(cè)一般患癌易感性或任何特定類別癌癥的易感性。
在前述實(shí)施例中,常見CNVs(包括CNV-增加和CNV-減少)是從人基因組數(shù)據(jù),通過高辨析Affymetrix SNP6.0平臺(tái)讀取。在另一個(gè)本發(fā)明的實(shí)施例中,常見CNVs(包括CNV-增加和CNV-減少)是從28名患有不同癌癥的中國(guó)病人(14肝癌,4胃癌,3肺癌,4膠質(zhì)瘤和3白血病)和22名同種族非癌對(duì)照的基因組數(shù)據(jù),通過AluScan新一代測(cè)序平臺(tái)獲取(Mei L,Ding X,Tsang SY,Pun FW,Ng SK,Yang J,Zhao C,Li D,Wan W,Yu CH et al:AluScan:a method for genome-wide scanning of sequence and structure variations in the human genome.BMC genomics 2011,12:564)。將AluScan序列數(shù)據(jù),通過AluScanCNV窗口算法(窗口大小為350kb)分析,識(shí)別常見CNVs(Yang,J.F.et al.Copy number variation analysis based on AluScan sequences.J Clin Bioinformatics 4,15,2014);繼而,采用相關(guān)法特征選擇法選定一組具診斷性的常見CNV特征(見圖8)。
如圖9所示,從28個(gè)癌癥和22個(gè)非癌癥中國(guó)人種DNA樣品所鑒定的常見CNVs,也被發(fā)現(xiàn)于其它各類癌癥和非癌DNA樣品,且具廣闊發(fā)生頻率(見圖9空心圓)。相反,該組基于相關(guān)性方法從所有CNVs選擇的診斷性常見CNV特征(見圖8),表現(xiàn)出高偏向頻率;要不是相對(duì)富集于非癌DNA樣品,就是相對(duì)富集于癌DNA樣品(見圖9實(shí)心三角)。按等式1計(jì)算,應(yīng)用此組CNV特征將這28個(gè)癌癥和22個(gè)非癌癥中國(guó)人種DNA分為“癌癥”和“非癌癥”類別,得到的平均ROC-AUC值為0.993±0.001,顯示該CNV特征能夠精確地將“癌癥”和“非癌癥”分類,成為預(yù)測(cè)中國(guó)族群癌癥易感性的基礎(chǔ),見圖9。被選定的所有CNV特征均顯示高偏性分布,即富集于癌DNA而見稀于非癌癥對(duì)照DNA,或富集于非癌癥對(duì)照DNA但見稀于癌DNA。結(jié)論是,它們具潛力成為分辨癌癥或非癌DNA的標(biāo)記。
按照[0030]所述步驟,中國(guó)族群28個(gè)癌癥和22個(gè)非癌癥樣品會(huì)被隨機(jī)分到學(xué)習(xí)群和測(cè)試群。然后,基于CSF方法從學(xué)習(xí)群鑒定診斷性常見CNV特征,用作評(píng)估對(duì)測(cè)試群中每個(gè)樣品預(yù)測(cè)的精確度,這個(gè)過程重復(fù)達(dá)100次。圖10展示了100次精確度預(yù)測(cè)的分布情況,及其83.7%平均值,證實(shí)了這些診斷性常見性CNV特征能有效預(yù)測(cè)中國(guó)族群的癌癥易感性。