本發(fā)明屬于拷貝數(shù)變異
技術(shù)領(lǐng)域:
,尤其涉及一種多樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法。
背景技術(shù):
:新一代測序技術(shù)提供了更全面、更豐富的基因組變異數(shù)據(jù),為深入理解生命機(jī)理、癌細(xì)胞發(fā)展機(jī)制提供了重要平臺(tái)??截悢?shù)變異(CopyNumberVariation,CNV)是基因組中重要的變異現(xiàn)象與癌癥的發(fā)生、發(fā)展有密切關(guān)系。為此,對(duì)新一代測序平臺(tái)上的CNV數(shù)據(jù)進(jìn)行系統(tǒng)的分析為發(fā)現(xiàn)癌癥基因、研究癌細(xì)胞分子機(jī)理提供了重要途徑,其難點(diǎn)是如何從高分辨率、低測序深度的讀段數(shù)據(jù)中準(zhǔn)確地檢測出多樣化的CNV模式。現(xiàn)有技術(shù)方案:目前國內(nèi)外已有專家提出不同的拷貝數(shù)變異檢測方案,大致可以分為基于單個(gè)tumor樣本和基于tumor-normal配對(duì)樣本的檢測方案,如SegSeq[D.Y.Chiangetal.,“High-resolutionmappingofcopy-numberalterationswithmassivelyparallelsequencing,”NatMethods,vol.6,no.1,pp.99-103,Jan,2009],EWT[S.T.Yoonetal.,“Sensitiveandaccuratedetectionofcopynumbervariantsusingreaddepthofcoverage,”GenomeResearch,vol.19,no.9,pp.1586-1592,Sep,2009],BIC-seq[R.Xietal.,“Copynumbervariationdetectioninwhole-genomesequencingdatausingtheBayesianinformationcriterion,”ProcNatlAcadSciUSA,vol.108,no.46,pp.E1128-36,Nov15,2011],CNVnator[A.Abyzovetal.,“CNVnator:anapproachtodiscover,genotype,andcharacterizetypicalandatypicalCNVsfromfamilyandpopulationgenomesequencing,”GenomeRes,vol.21,no.6,pp.974-84,Jun,2011],ReadDepth[C.A.Milleretal.,“ReadDepth:aparallelRpackagefordetectingcopynumberalterationsfromshortsequencingreads,”PLoSOne,vol.6,no.1,pp.e16327,2011],Control-FREEC[V.Boevaetal.,“Control-freecallingofcopynumberalterationsindeep-sequencingdatausingGC-contentnormalization,”Bioinformatics,vol.27,no.2,pp.268-9,Jan15,2011],CNV-TV[J.Duanetal.,“CNV-TV:arobustmethodtodiscovercopynumbervariationfromshortsequencingreads,”BMCBioinformatics,vol.14,pp.150,2013],CNVeM[Z.Wangetal.,“CNVeM:copynumbervariationdetectionusinguncertaintyofreadmapping,”JComputBiol,vol.20,no.3,pp.224-36,Mar,2013],m-HMM[H.Wangetal.,“Copynumbervariationdetectionusingnextgenerationsequencingreadcounts,”BmcBioinformatics,vol.15,Apr14,2014]等方法。這些方法多數(shù)利用測序深度計(jì)算基因位點(diǎn)的讀段數(shù),進(jìn)而在全基因組或全染色體范圍內(nèi)依據(jù)讀段數(shù)變化情況預(yù)測拷貝數(shù)變異區(qū)域。這類方法的特點(diǎn)是實(shí)現(xiàn)相對(duì)容易,對(duì)于高測序深度的數(shù)據(jù)有較好的檢測效果;其缺點(diǎn)在于對(duì)讀段數(shù)有直接依賴性,而讀段數(shù)本身存在不穩(wěn)定性,即讀段數(shù)存在一定的隨機(jī)變化,這種隨機(jī)變化往往會(huì)被誤認(rèn)為是拷貝數(shù)變異引起的,特別是對(duì)于低測序深度的數(shù)據(jù),其隨機(jī)變化幅度與拷貝數(shù)變異幅度的比值較高,從而使得這類方法難以獲得較好的拷貝數(shù)變異檢測效果。另外,有部分專家提出了基于多樣本的拷貝數(shù)變異檢測方法,如cnvHiTSeq[E.Bellosetal.,“cnvHiTSeq:integrativemodelsforhigh-resolutioncopynumbervariationdetectionandgenotypingusingpopulationsequencingdata,”GenomeBiol,vol.13,no.12,pp.R120,2012],VarScan2+CMDS[D.C.Koboldtetal.,“VarScan2:somaticmutationandcopynumberalterationdiscoveryincancerbyexomesequencing,”GenomeRes,vol.22,no.3,pp.568-76,Mar,2012,Q.Zhangetal.,“CMDS:apopulation-basedmethodforidentifyingrecurrentDNAcopynumberaberrationsincancerfromhigh-resolutiondata,”Bioinformatics,vol.26,no.4,pp.464-9,Feb15,2010],JointSLM[A.Magietal.,“Detectingcommoncopynumbervariantsinhigh-throughputsequencingdatabyusingJointSLMalgorithm,”NucleicAcidsResearch,vol.39,no.10,May,2011],cn.MOPS[G.Klambaueretal.,“cn.MOPS:mixtureofPoissonsfordiscoveringcopynumbervariationsinnext-generationsequencingdatawithalowfalsediscoveryrate,”NucleicAcidsRes,vol.40,no.9,pp.e69,May,2012],CBSBR[J.Duanetal.,“Commoncopynumbervariationdetectionfrommultiplesequencedsamples,”IEEETransBiomedEng,vol.61,no.3,pp.928-37,Mar,2014],CODEX[Y.Jiangetal.,“CODEX:anormalizationandcopynumbervariationdetectionmethodforwholeexomesequencing,”NucleicAcidsRes,vol.43,no.6,pp.e39,Mar31,2015]等。這類方法多數(shù)是基于拷貝數(shù)變異位點(diǎn)間關(guān)聯(lián)性或樣本間差異性檢測一致性拷貝數(shù)變異區(qū)域,其優(yōu)勢在于能夠把握拷貝數(shù)結(jié)構(gòu)性變異的生物特性,用以區(qū)分一致性拷貝數(shù)變異區(qū)域和隨機(jī)性的拷貝數(shù)變異。其缺點(diǎn)是難以檢測弱顯著的一致性拷貝數(shù)變異區(qū)域。同時(shí)這些方法在多樣本拷貝數(shù)變異檢測中,往往對(duì)樣本數(shù)量有一定的限制,這對(duì)于檢測某類癌癥或者泛癌的高度一致性拷貝數(shù)變異區(qū)域的能力顯得有限。綜上所述,現(xiàn)有樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法過于依賴測序讀段數(shù)的變化,難以獲得具有統(tǒng)計(jì)意義的檢測效果;樣本量不能過大,計(jì)算復(fù)雜度較高,不利于檢測多樣本中拷貝數(shù)一致性變異區(qū)域。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于提供一種多樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法,旨在解決現(xiàn)有樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法過于依賴測序讀段數(shù)的變化,難以獲得具有統(tǒng)計(jì)意義的檢測效果;樣本量不能過大,計(jì)算復(fù)雜度較高,不利于檢測多樣本中拷貝數(shù)一致性變異區(qū)域的問題。本發(fā)明是這樣實(shí)現(xiàn)的,一種多樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法,所述多樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法基于拷貝數(shù)位點(diǎn)的關(guān)系系數(shù)擬合成曲線,以此計(jì)算每個(gè)位點(diǎn)的導(dǎo)數(shù)值,通過假設(shè)檢驗(yàn)方法檢測顯著的導(dǎo)數(shù)值,從而確定拷貝數(shù)斷點(diǎn),建立拷貝數(shù)變異候選區(qū)域;通過在全基因組及樣本兩個(gè)方向上隨機(jī)置換CNVs的方式構(gòu)建假設(shè)檢驗(yàn)零分布,檢測多樣本中拷貝數(shù)一致性變異區(qū)域。進(jìn)一步,所述關(guān)系系數(shù)曲線擬合之前需要進(jìn)行對(duì)測序數(shù)據(jù)文件的預(yù)處理,具體包括:在對(duì)測序數(shù)據(jù)文件比對(duì)的基礎(chǔ)上,計(jì)算每個(gè)位點(diǎn)的讀段數(shù);依據(jù)樣本讀段數(shù)均值對(duì)讀段數(shù)進(jìn)行規(guī)整化,以獲得樣本間具有可比性的讀段數(shù)信號(hào),計(jì)算公式為:其中,mean_RCn和mean_RC分別指第n個(gè)樣本的讀段數(shù)均值和多個(gè)樣本讀段數(shù)的均值,xnm指第n個(gè)樣本第m個(gè)位點(diǎn)的讀段數(shù),x'nm指相應(yīng)位點(diǎn)規(guī)整后的讀段數(shù)。進(jìn)一步,定義等長的bins,將樣本位點(diǎn)的讀段數(shù)轉(zhuǎn)化為以bin為單位的讀段數(shù),對(duì)拷貝數(shù)變異的檢測將以bin為單位元進(jìn)行。進(jìn)一步,基于預(yù)處理數(shù)據(jù)矩陣M,M中每一行表示一個(gè)樣本,每一列表示一個(gè)bin;采用Pearson相關(guān)分析方法計(jì)算bins之間的關(guān)系系數(shù),并擬合成曲線,以此求解每個(gè)bin的導(dǎo)數(shù)值。進(jìn)一步,以導(dǎo)數(shù)值為背景,建立假設(shè)檢驗(yàn)零分布,檢驗(yàn)顯著性的導(dǎo)數(shù)值,其顯著性意味著在該bin的位置中存在斷點(diǎn),獲得拷貝數(shù)變異候選區(qū)域。進(jìn)一步,拷貝數(shù)變異候選區(qū)域采用循環(huán)迭代過程檢測顯著的CNVs,具體包括:通過在全基因組中隨機(jī)置換CNV候選區(qū)域構(gòu)造假設(shè)檢驗(yàn)零分布,對(duì)CNV候選區(qū)域進(jìn)行檢驗(yàn),若發(fā)現(xiàn)顯著性的CNV,便將其從基因組中去除,重新構(gòu)造假設(shè)檢驗(yàn)零分布并重新檢驗(yàn)CNV候選區(qū)域,直到?jīng)]有發(fā)現(xiàn)新的CNVs為止。進(jìn)一步,檢測多樣本拷貝數(shù)一致性變異區(qū)域包括:通過在全基因組及樣本中隨機(jī)置換CNVs以構(gòu)造置換數(shù)據(jù)矩陣Mt,計(jì)算隨機(jī)CNVs在多樣本中發(fā)生的頻率f;重復(fù)該過程n次,n>1000,獲得一個(gè)頻率f的分布,即假設(shè)檢驗(yàn)零分布;對(duì)置換前數(shù)據(jù)矩陣的CNVs頻率進(jìn)行檢驗(yàn),計(jì)算每個(gè)CNV的p值,根據(jù)顯著性水平閾值確定多樣本一致性變異的CNVs。本發(fā)明的另一目的在于提供一種應(yīng)用所述多樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法的癌癥基因。本發(fā)明的另一目的在于提供一種應(yīng)用所述多樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法的癌細(xì)胞分子。本發(fā)明提供的多樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法,建立以統(tǒng)計(jì)理論為基礎(chǔ)的計(jì)算方法,檢測多個(gè)樣本中一致性的拷貝數(shù)變異區(qū)域,為發(fā)現(xiàn)潛在癌癥基因提供直接的、可行的技術(shù)手段。本發(fā)明在對(duì)讀段數(shù)進(jìn)行規(guī)整化的基礎(chǔ)上,求出bins,以此為基元,在多樣本空間中計(jì)算bins之間的關(guān)系系數(shù)并擬合成曲線,以此計(jì)算各bin的導(dǎo)數(shù)。通過對(duì)導(dǎo)數(shù)值進(jìn)行顯著性檢驗(yàn),檢測拷貝數(shù)斷點(diǎn),從而獲得CNV候選區(qū)域。通過循環(huán)迭代過程在單樣本中對(duì)CNV區(qū)域進(jìn)行檢測,即針對(duì)CNV候選區(qū)域,采取隨機(jī)置換過程構(gòu)建零分布,以此對(duì)CNV顯著性進(jìn)行檢驗(yàn),將檢測為顯著的CNV剔除,重新構(gòu)建零分布,直到?jīng)]有檢測到新的CNV終止循環(huán)。這樣做的好處是能夠檢測到弱顯著的CNVs。在單樣本CNV檢測的基礎(chǔ)上,在多樣本空間中依據(jù)CNV頻率檢測拷貝數(shù)一致性變異區(qū)域,即利用CNV在多樣本中的發(fā)生頻率構(gòu)建統(tǒng)計(jì)量,通過多樣本的置換檢驗(yàn)方法檢測拷貝數(shù)一致性變異區(qū)域?,F(xiàn)有大多數(shù)方法過于依賴測序讀段數(shù)的變化,由于測序技術(shù)本身存在誤差且讀段存在較強(qiáng)噪聲,使得這些方法對(duì)于低測序深度的樣本難以獲得具有統(tǒng)計(jì)意義的檢測效果。為此,本發(fā)明提出利用拷貝數(shù)變異位點(diǎn)之間的關(guān)系系數(shù)構(gòu)建擬合成曲線,然后計(jì)算每個(gè)基因位點(diǎn)的導(dǎo)數(shù)值,進(jìn)而將對(duì)拷貝數(shù)變異區(qū)域的檢測問題轉(zhuǎn)化為對(duì)該導(dǎo)數(shù)值顯著性檢驗(yàn)的問題;這樣不直接依賴于測序讀段數(shù)的大小,能夠容納一定的測序錯(cuò)誤及噪聲?,F(xiàn)有針對(duì)多樣本的拷貝數(shù)變異檢測方法對(duì)樣本數(shù)量或特征有一定的限制,如CBSBR方法要求樣本量不能過大,其算法默認(rèn)6個(gè)樣本,且計(jì)算復(fù)雜度較高;cn.MOPS要求樣本間存在明顯的差異性,不利于檢測多樣本中拷貝數(shù)一致性變異區(qū)域;為此,本發(fā)明建立新的統(tǒng)計(jì)檢驗(yàn)?zāi)P?,采用循環(huán)剔除過程檢測多樣化的拷貝數(shù)變異模式,且對(duì)樣本規(guī)模沒有限制,計(jì)算復(fù)雜度可控,如表1列出方法的比較。表1.4種方法的計(jì)算復(fù)雜度的比較方法DCCCBSBRFREECcn.MOPS運(yùn)行時(shí)間22s1721s50s38s時(shí)間復(fù)雜度O(mn)O(mnk)O(n)O(mn)空間復(fù)雜度O(mn)O(m2n2)O(n)O(mn)軟件平臺(tái)C++MATLABC++R其中DCC是本發(fā)明的方法,該實(shí)驗(yàn)是對(duì)長度為5Gb的基因組進(jìn)行檢測的結(jié)果。本發(fā)明基于關(guān)系系數(shù)的擬合成曲線計(jì)算導(dǎo)數(shù)值,以檢驗(yàn)拷貝數(shù)斷點(diǎn),從而確定拷貝數(shù)變異候選區(qū)域;一方面避免直接使用測序讀段數(shù),能夠容納一定的測序錯(cuò)誤及噪聲,另一方面能夠較準(zhǔn)確地定位拷貝數(shù)變異區(qū)域的邊界;基于全基因組及樣本兩個(gè)方向上隨機(jī)置換CNVs,相比在單個(gè)方向上的置換,此策略能夠獲得更真實(shí)的假設(shè)檢驗(yàn)領(lǐng)分布;同時(shí),有利于檢測多樣化的一致性變異CNVs,即多樣本子類中存在的拷貝數(shù)一致性變異區(qū)域。附圖說明圖1是本發(fā)明實(shí)施例提供的多樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法流程圖。圖2是本發(fā)明實(shí)施例提供的本發(fā)明(DCC)與cn.MOPS方法的性能比較示意圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。下面結(jié)合附圖對(duì)本發(fā)明的應(yīng)用原理作詳細(xì)的描述。如圖1所示,本發(fā)明實(shí)施例提供的多樣本拷貝數(shù)一致性變異區(qū)域的統(tǒng)計(jì)檢驗(yàn)方法包括以下步驟:S101:在對(duì)測序數(shù)據(jù)文件(即Fastq文件)比對(duì)的基礎(chǔ)上,計(jì)算每個(gè)位點(diǎn)的讀段數(shù);依據(jù)樣本讀段數(shù)均值對(duì)讀段數(shù)進(jìn)行規(guī)整化,以獲得樣本間具有可比性的讀段數(shù)信號(hào);S102:基于預(yù)處理數(shù)據(jù)矩陣M(其中每一行表示一個(gè)樣本,每一列表示一個(gè)bin),采用Pearson相關(guān)分析方法計(jì)算bins之間的關(guān)系系數(shù),構(gòu)建該關(guān)系系數(shù)的擬合成曲線,以此求解每個(gè)bin的導(dǎo)數(shù)值;以導(dǎo)數(shù)值為背景,建立假設(shè)檢驗(yàn)零分布,檢驗(yàn)顯著性的導(dǎo)數(shù)值,其顯著性意味著在該bin的位置中存在斷點(diǎn),從而獲得拷貝數(shù)變異候選區(qū)域;S103:基于單樣本定義的CNVs,通過多樣本的置換策略構(gòu)造假設(shè)檢驗(yàn)零分布;對(duì)置換前數(shù)據(jù)矩陣的CNVs頻率進(jìn)行檢驗(yàn),計(jì)算每個(gè)CNV的p值,根據(jù)顯著性水平閾值確定多樣本一致性變異的CNVs。下面結(jié)合具體實(shí)施例對(duì)本發(fā)明的應(yīng)用原理作進(jìn)一步的描述。(1)數(shù)據(jù)預(yù)處理在對(duì)測序數(shù)據(jù)文件(即Fastq文件)比對(duì)的基礎(chǔ)上,計(jì)算每個(gè)位點(diǎn)的讀段數(shù);依據(jù)樣本讀段數(shù)均值對(duì)讀段數(shù)進(jìn)行規(guī)整化,以獲得樣本間具有可比性的讀段數(shù)信號(hào),具體如公式(1)所示。其中,mean_RCn和mean_RC分別指第n個(gè)樣本的讀段數(shù)均值和多個(gè)樣本讀段數(shù)的均值,xnm指第n個(gè)樣本第m個(gè)位點(diǎn)的讀段數(shù),x'nm指相應(yīng)位點(diǎn)規(guī)整后的讀段數(shù)。在規(guī)整化數(shù)據(jù)的基礎(chǔ)上,為了降低數(shù)據(jù)維度并減少由于隨機(jī)因素帶來的位點(diǎn)間的差異性,本發(fā)明定義等長的bins,將樣本位點(diǎn)的讀段數(shù)轉(zhuǎn)化為以bin為單位的讀段數(shù)。這樣,對(duì)拷貝數(shù)變異的檢測將以bin為單位元進(jìn)行。(2)檢驗(yàn)導(dǎo)數(shù)值并針對(duì)單個(gè)樣本檢測拷貝數(shù)變異基于預(yù)處理數(shù)據(jù)矩陣M(其中每一行表示一個(gè)樣本,每一列表示一個(gè)bin),采用Pearson相關(guān)分析方法計(jì)算bins之間的關(guān)系系數(shù),構(gòu)建該關(guān)系系數(shù)的擬合成曲線,以此求解每個(gè)bin的導(dǎo)數(shù)值。以導(dǎo)數(shù)值為背景,建立假設(shè)檢驗(yàn)零分布,檢驗(yàn)顯著性的導(dǎo)數(shù)值,其顯著性意味著在該bin的位置中存在斷點(diǎn),從而獲得拷貝數(shù)變異候選區(qū)域。這樣做的特點(diǎn)是充分利用拷貝數(shù)變異位點(diǎn)的固有關(guān)聯(lián)性,即同一拷貝數(shù)變異區(qū)域內(nèi)的位點(diǎn)間具有類似水平的關(guān)系系數(shù),通過檢驗(yàn)導(dǎo)數(shù)值的方式發(fā)現(xiàn)關(guān)系系數(shù)突變位點(diǎn),從而獲取長度不等的拷貝數(shù)變異候選區(qū)域。針對(duì)拷貝數(shù)變異候選區(qū)域,采用循環(huán)迭代過程檢測顯著的CNVs,具體做法如下:通過在全基因組中隨機(jī)置換CNV候選區(qū)域構(gòu)造假設(shè)檢驗(yàn)零分布,以此對(duì)CNV候選區(qū)域進(jìn)行檢驗(yàn),若發(fā)現(xiàn)顯著性的CNV,便將其從基因組中去除,重新構(gòu)造假設(shè)檢驗(yàn)零分布并重新檢驗(yàn)CNV候選區(qū)域,直到?jīng)]有發(fā)現(xiàn)新的CNVs為止。(3)檢測多樣本拷貝數(shù)一致性變異區(qū)域基于單樣本定義的CNVs,通過多樣本的置換策略構(gòu)造假設(shè)檢驗(yàn)零分布:即通過在全基因組及樣本中隨機(jī)置換CNVs以構(gòu)造置換數(shù)據(jù)矩陣Mt,以此計(jì)算隨機(jī)CNVs在多樣本中發(fā)生的頻率f;重復(fù)該過程n次(n>1000),從而獲得一個(gè)頻率f的分布,即假設(shè)檢驗(yàn)零分布。以此對(duì)置換前數(shù)據(jù)矩陣的CNVs頻率進(jìn)行檢驗(yàn),計(jì)算每個(gè)CNV的p值,根據(jù)顯著性水平閾值確定多樣本一致性變異的CNVs。性能的比較。圖2是本發(fā)明(DCC)與cn.MOPS方法的性能比較,該實(shí)驗(yàn)測試的是不同癌細(xì)胞純度(Tumorpurity)下測序DNA的CNV檢測性能。圖2顯示出本發(fā)明方法有相對(duì)較高的性能。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3