本發(fā)明涉及離體組織的基因信息分析領(lǐng)域,具體地,涉及一種檢測(cè)流產(chǎn)組織dna拷貝數(shù)變異和嵌合體的方法。
背景技術(shù):
:流行病學(xué)證據(jù)顯示基因的因素在流產(chǎn)發(fā)生中起重要作用。染色體異常例如三體,單體,多倍體是用傳統(tǒng)方法檢測(cè)出的常見(jiàn)致流產(chǎn)原因,為50~70%小于10周妊娠的流產(chǎn)做出了解釋。由于傳統(tǒng)方法的分辨率有限,-30~40%的流產(chǎn)胚胎的具有正常的檢測(cè)結(jié)果即二倍體,沒(méi)有更多發(fā)現(xiàn)用于解釋流產(chǎn)的原因。染色體嵌合體在不同的樣本中發(fā)生率不同。在羊水樣本中約0.20%~0.25%,在絨毛組織樣本中約0.8%~0.2%。由于染色體基因芯片用于檢測(cè)嵌合體只能檢出25~70%的嵌合,以及嵌合體的檢測(cè)收樣本采集的影響很大。所以在分析流產(chǎn)的原因時(shí),嵌合體的發(fā)生率是被低估了。尤其是低比例的嵌合體。分子核型分析的方法,如多重?zé)晒庠浑s交(mfish),多重連接依賴(lài)探針擴(kuò)增(mlpa)和實(shí)時(shí)定量酶連反應(yīng)(qpcr),克服了傳統(tǒng)核型分析的劣勢(shì),提供了比傳統(tǒng)核型分析更好的分辨率。但是這些分子核型方法的缺點(diǎn)是通量低、分辨率有限,對(duì)于衡量全部染色體的變異情況能力有限。在目前現(xiàn)有檢測(cè)方法中,g帶染色體核型分析技術(shù)是檢測(cè)染色體異常的“金標(biāo)準(zhǔn)”。g帶核型分析是一種傳統(tǒng)的染色體分析方法,在自發(fā)性流產(chǎn)原因的探索中占重要地位。但是細(xì)胞培養(yǎng)失敗,母源細(xì)胞污染,染色體制備失敗等因素在很大程度上限制了g帶核型分析的應(yīng)用。微陣列比較基因組雜交技術(shù)是一種新型高效的分子核型分析技術(shù),其優(yōu)勢(shì)在于省去了細(xì)胞培養(yǎng),一定程度上避免了母體細(xì)胞污染??梢灾苯釉赿na水平上進(jìn)行分析并將分析結(jié)果比對(duì)數(shù)據(jù)庫(kù)做出診斷。很大程度上又要依賴(lài)于細(xì)胞樣品的質(zhì)量。如果樣本細(xì)胞量小或被污染,則很難或不能檢測(cè)出結(jié)果。利用高通量測(cè)序技術(shù)對(duì)流產(chǎn)組織進(jìn)行檢測(cè)的方法相比傳統(tǒng)方法具有明顯優(yōu)勢(shì)。該方法最低起始量只需3ngdna樣本,相比于微陣列比較基因組雜交技術(shù)對(duì)樣本量要求少,對(duì)樣本質(zhì)量要求不如微陣列方法嚴(yán)格。檢測(cè)的準(zhǔn)確性、靈敏度及可靠性都大大提高。通過(guò)低深度測(cè)序,能夠?qū)α鳟a(chǎn)組織dna的拷貝數(shù)變化進(jìn)行準(zhǔn)確檢測(cè),可以克服傳統(tǒng)檢測(cè)方法耗時(shí)長(zhǎng),需要細(xì)胞培養(yǎng),分辨率低等缺點(diǎn)。目前,市場(chǎng)上基于高通量基因測(cè)序法檢測(cè)流產(chǎn)組織的診斷產(chǎn)品都是基于illumina測(cè)序平臺(tái),沒(méi)有針對(duì)iontorrent平臺(tái)開(kāi)發(fā)的配套的生物信息學(xué)算法。本發(fā)明旨在提供一套用于iontorrent測(cè)序平臺(tái)檢測(cè)流產(chǎn)組織中染色體dna拷貝數(shù)變異和嵌合體的算法。技術(shù)實(shí)現(xiàn)要素:本發(fā)明為了克服現(xiàn)有技術(shù)的上述不足,提供一種基于iontorrent測(cè)序平臺(tái)檢測(cè)流產(chǎn)組織dna拷貝數(shù)變異和嵌合體的方法。為了實(shí)現(xiàn)上述目的,本發(fā)明是通過(guò)以下技術(shù)方案予以實(shí)現(xiàn)的:一種基于iontorrent測(cè)序平臺(tái)檢測(cè)流產(chǎn)組織dna拷貝數(shù)變異的方法,包括數(shù)據(jù)質(zhì)控、數(shù)據(jù)校正、確定拷貝數(shù)變異、結(jié)果展示、確定參考范圍;所述確定拷貝數(shù)變異包括:(1)校正后的數(shù)據(jù)根據(jù)circularbinarysegmentation算法確定拷貝數(shù)變異數(shù)值,(2)根據(jù)隱馬爾科夫模型hiddenmarkovmodel算法確定拷貝數(shù)變異數(shù)值,(3)根據(jù)z-score對(duì)區(qū)間內(nèi)拷貝數(shù)變異顯著性進(jìn)行進(jìn)一步統(tǒng)計(jì);所述確定參考范圍為:r值的參考范圍在[-0.2,0.2]之間,z值的參考范圍是[-3,3],對(duì)于r值大于0.2或小于-0.2,z值大于或小于3的區(qū)間,則提示該染色體區(qū)域存在拷貝數(shù)重復(fù)或缺失的情況。隱馬爾科夫模型是生物信息學(xué)中比較流行的機(jī)器學(xué)習(xí)和模式識(shí)別方法,具有對(duì)模型中一些隱性參數(shù)識(shí)別優(yōu)化的能力,可以隨著訓(xùn)練深入提高識(shí)別精度,能夠自適應(yīng)的實(shí)現(xiàn)檢測(cè)過(guò)程中的參數(shù)優(yōu)化,進(jìn)一步提高檢測(cè)靈敏度。所述數(shù)據(jù)質(zhì)控包括:(1)去除低質(zhì)量的reads:包括大于q15的堿基比例不小于80%、reads長(zhǎng)度不小于50bp;(2)去重:同一條reads被多次復(fù)制的當(dāng)作一條reads;(3)比對(duì)reads唯一性:對(duì)于多次比對(duì)到基因組不同部位的reads,將其從結(jié)果中去除。所述數(shù)據(jù)校正包括:(1)基因組的端粒、著絲粒、衛(wèi)星、微衛(wèi)星區(qū)域進(jìn)行掩蓋;(2)將基因組切割成50kb一個(gè)的窗口,統(tǒng)計(jì)落在每一個(gè)窗口中的reads個(gè)數(shù);(3)窗口內(nèi)如果參考基因組的n堿基的比例大于10%,直接去除該窗口,否者對(duì)reads進(jìn)行中位數(shù)校正;(4)對(duì)窗口內(nèi)的reads根據(jù)每個(gè)窗口的gc百分?jǐn)?shù)進(jìn)行l(wèi)oess校正;(5)對(duì)窗口內(nèi)的reads根據(jù)每個(gè)窗口的實(shí)際比對(duì)率進(jìn)行l(wèi)owess校正;(6)根據(jù)女性或者男性樣本的基線(xiàn)數(shù)據(jù)分別根據(jù)性別進(jìn)行校正。一種基于iontorrent測(cè)序平臺(tái)檢測(cè)流產(chǎn)組織嵌合體的存在和比例的方法,包括數(shù)據(jù)質(zhì)控、數(shù)據(jù)校正、采用人工模擬染色體嵌合體配比樣本log2ratio值和嵌合體比例之間的關(guān)系,具體如下:設(shè)立了7個(gè)梯度的模擬嵌合體比例,分別為12.5%,35%,47.5%,50%,62.5%,75%,87.5%。經(jīng)過(guò)測(cè)序數(shù)據(jù)分析得出不同比例的嵌合體log2ratio值。然后將log2ratio值轉(zhuǎn)化為標(biāo)準(zhǔn)化讀長(zhǎng)頻率。做標(biāo)準(zhǔn)曲線(xiàn)。根據(jù)標(biāo)準(zhǔn)曲線(xiàn)從標(biāo)準(zhǔn)化讀長(zhǎng)頻率可以推測(cè)出樣本是否存在嵌合體以及嵌合體比例。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:本發(fā)明提供的基于iontorrent測(cè)序平臺(tái)檢測(cè)流產(chǎn)組織dna拷貝數(shù)變異和嵌合體的方法,可以用于流產(chǎn)原因分析,進(jìn)一步具體地闡述基因因素在流產(chǎn)發(fā)生中的重要作用。附圖說(shuō)明圖1為樣本基因組dna打斷后2100質(zhì)控圖。圖2為樣本基因組dna片段選擇后質(zhì)控圖。圖3為染色體具體區(qū)間拷貝數(shù)變異圖。圖4為染色體拷貝數(shù)變異的核型圖。圖5為采用人工模擬染色體嵌合體配比樣本log2ratio值和嵌合體比例之間的關(guān)系做的標(biāo)準(zhǔn)曲線(xiàn);上圖為圖a,下圖為圖b,其中a為按人工配的不同比例嵌合做拷貝數(shù)擴(kuò)增的標(biāo)準(zhǔn)曲線(xiàn),b為按人工配的不同比例嵌合做拷貝數(shù)缺失的標(biāo)準(zhǔn)曲線(xiàn)。具體實(shí)施方式下面結(jié)合說(shuō)明書(shū)附圖和具體實(shí)施例對(duì)本發(fā)明作出進(jìn)一步地詳細(xì)闡述,所述實(shí)施例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。下述實(shí)施例中所使用的試驗(yàn)方法如無(wú)特殊說(shuō)明,均為常規(guī)方法;所使用的材料、試劑等,如無(wú)特殊說(shuō)明,為可從商業(yè)途徑得到的試劑和材料。實(shí)施例1一種基于iontorrent測(cè)序平臺(tái)檢測(cè)流產(chǎn)組織dna拷貝數(shù)變異和嵌合體的方法,具體步驟如下:1、全血基因組dna提?。喊凑誨neasyblood&tissuekit(50)(廠(chǎng)家:qiagen,貨號(hào):69504)試劑盒操作說(shuō)明書(shū)進(jìn)行全血基因組dna提取。dna溶液可置于-20℃保存。2、dna打斷:將從健康未孕女性混合血細(xì)胞中提取的基因組dna用covarism220超聲波打斷,設(shè)置10個(gè)重復(fù),用qubit2.0和dsdnahsassaykit測(cè)定dna的濃度,agilent2100bioanalyzer測(cè)定dna片段長(zhǎng)度分布,見(jiàn)圖1。3、回收100~200bp長(zhǎng)度的dna片段:往以上打斷的基因組dna中加入相應(yīng)比例的磁珠(ampurexpbeads),去除大片段和小片段,用超純水洗脫,回收目的dna片段。用qubit2.0和dsdnahsassaykit測(cè)定dna的濃度,agilent2100bioanalyzer測(cè)定dna片段長(zhǎng)度分布,見(jiàn)圖2。4、文庫(kù)構(gòu)建(1)將末端補(bǔ)平試劑置于冰上溶解,根據(jù)實(shí)驗(yàn)樣本數(shù)計(jì)算各反應(yīng)體系的具體用量,并配置反應(yīng)混合液。渦旋混勻,離心機(jī)低速離心數(shù)秒,使管壁和蓋子上無(wú)明顯液滴。每個(gè)樣本所需的末端反應(yīng)體系如下:試劑體積(μl)h2o9.55xendrepairbuffer10endrepairenzyme0.5總體積20磁珠純化末端修復(fù)產(chǎn)物dna片段末端加接頭2)將接頭連接試劑置于冰上溶解。3)將p1母液及1~32號(hào)接頭母液分別與無(wú)核酸酶水以1:5的比例稀釋備用。4)按根據(jù)操作說(shuō)明。根據(jù)實(shí)驗(yàn)樣本數(shù)計(jì)算各反應(yīng)體系的具體用量,并配置反應(yīng)混合液。每個(gè)樣本所需的末端反應(yīng)體系如下:金屬浴中25℃反應(yīng)20min。5)磁珠純化連接產(chǎn)物6)pcr擴(kuò)增dna片段根據(jù)實(shí)驗(yàn)樣本數(shù)計(jì)算各反應(yīng)體系的具體用量,并配置反應(yīng)混合液。每個(gè)樣本所需的末端反應(yīng)體系如下:試劑1x(μl)platinumpcrsupermixhighfidelity47.5libraryamplificationprimermix2.5總體積507)磁珠純化pcr產(chǎn)物8)文庫(kù)質(zhì)檢采用qubit2.0和2100bioanalyzer分別進(jìn)行dna初步濃度和片段大小檢測(cè)。5、按照ionpgmtmhiqtmot2reagents200(廠(chǎng)家:lifetechnologies,貨號(hào):a26428)和ionpgmtmhiqtmot2solutions200(廠(chǎng)家:lifetechnologies,貨號(hào):a26429)的試劑盒操作說(shuō)明書(shū)進(jìn)行模板制備和模板富集。6、按照ionpgmitmhiqtmsequencing200reagents(廠(chǎng)家:lifetechnologies,貨號(hào):a26431)、ionpgmtmhiqtmsequencing200solutions(廠(chǎng)家:lifetechnologies,貨號(hào):a26430)和ionpgmtmsequencingnucleotides(廠(chǎng)家:lifetechnologies,貨號(hào):a26432)的試劑盒操作說(shuō)明書(shū)進(jìn)行上機(jī)測(cè)序。二、iontorrent平臺(tái)開(kāi)發(fā)的配套的生物信息學(xué)算法如下:1、數(shù)據(jù)質(zhì)控(1)去除低質(zhì)量的reads:包括大于q15的堿基比例不小于80%、reads長(zhǎng)度不小于50bp;(2)去重:由于建庫(kù)過(guò)程中擴(kuò)增步驟而導(dǎo)致的同一條reads被多次復(fù)制的當(dāng)作一條reads;(3)比對(duì)reads唯一性:對(duì)于多次比對(duì)到基因組不同部位的reads,將其從結(jié)果中去除;2、數(shù)據(jù)校正(1)基因組的端粒、著絲粒、衛(wèi)星、微衛(wèi)星區(qū)域進(jìn)行掩蓋;(2)將基因組切割成50kb一個(gè)的窗口,統(tǒng)計(jì)落在每一個(gè)窗口中的reads個(gè)數(shù);(3)窗口內(nèi)如果參考基因組的n堿基的比例大于10%,直接去除該窗口,否者對(duì)reads進(jìn)行中位數(shù)校正;(4)對(duì)窗口內(nèi)的reads根據(jù)每個(gè)窗口的gc百分?jǐn)?shù)進(jìn)行l(wèi)oess校正;(5)對(duì)窗口內(nèi)的reads根據(jù)每個(gè)窗口的實(shí)際比對(duì)率進(jìn)行l(wèi)owess校正;(6)根據(jù)女性或者男性樣本的基線(xiàn)數(shù)據(jù)分別根據(jù)性別進(jìn)行校正;3、確定拷貝數(shù)變異(1)校正后的數(shù)據(jù)根據(jù)circularbinarysegmentation(cbs)算法確定拷貝數(shù)變異數(shù)值;(2)同樣根據(jù)hiddenmarkovmodel(hmm)算法確定拷貝數(shù)變異數(shù)值;(3)根據(jù)z-score對(duì)區(qū)間內(nèi)拷貝數(shù)變異顯著性進(jìn)行進(jìn)一步統(tǒng)計(jì),并綜合以上的結(jié)果給出明確的判定;4、結(jié)果展示(1)所有染色體拷貝數(shù)變異的核型圖;(2)每條染色體具體區(qū)間拷貝數(shù)發(fā)生變異的詳細(xì)圖;(3)變異結(jié)果的圖標(biāo)展示;(4)變異結(jié)果的遺傳學(xué)解讀;5、參考范圍的確定:通過(guò)對(duì)88例明確拷貝數(shù)位點(diǎn)區(qū)域的測(cè)序結(jié)果評(píng)估,計(jì)算假陽(yáng)性、假陰性并給出特異性和敏感性的roc曲線(xiàn)后可以確定r值的參考范圍在[-0.2,0.2]之間,高于或者低于以上范圍則是拷貝數(shù)變異的位點(diǎn)。同時(shí)結(jié)合z值對(duì)拷貝數(shù)進(jìn)一步確定,z值的參考范圍是[-3,3]。對(duì)于r值大于0.2(或小于-0.2),z值大于(或小于)3的區(qū)間,則提示該染色體區(qū)域存在拷貝數(shù)重復(fù)(或缺失)的情況,需要進(jìn)一步的臨床診斷確認(rèn),進(jìn)一步確診方法主要是對(duì)該區(qū)域進(jìn)行核型分析或fish等其他方法進(jìn)行驗(yàn)證。6、判斷嵌合體的存在和比例:上機(jī)后的數(shù)據(jù)按照前面步驟1、2的數(shù)據(jù)質(zhì)控和數(shù)據(jù)校正后,采用人工模擬染色體嵌合體配比樣本log2ratio值和嵌合體比例之間的關(guān)系,具體如下:設(shè)立了7個(gè)梯度的模擬嵌合體比例,分別為12.5%,35%,47.5%,50%,62.5%,75%,87.5%。經(jīng)過(guò)測(cè)序數(shù)據(jù)分析得出不同比例的嵌合體log2ratio值。然后將log2ratio值轉(zhuǎn)化為標(biāo)準(zhǔn)化讀長(zhǎng)頻率。做標(biāo)準(zhǔn)曲線(xiàn)(見(jiàn)圖5)。根據(jù)標(biāo)準(zhǔn)曲線(xiàn)從標(biāo)準(zhǔn)化讀長(zhǎng)頻率可以推測(cè)出樣本是否存在嵌合體以及嵌合體比例。通過(guò)對(duì)88例樣本中的116個(gè)染色體缺失或重復(fù)片段檢測(cè)和9例核型分析驗(yàn)證過(guò)的嵌合體樣本中嵌合比例的測(cè)序結(jié)果評(píng)估,結(jié)果顯示大于1mb的染色體缺失重復(fù)可以100%檢測(cè),并且和微陣列芯片驗(yàn)證結(jié)果一致。9例嵌合體樣本嵌合體全部檢出。表1為88例樣本中116個(gè)拷貝數(shù)變異大小和檢出情況以及與微陣列芯片驗(yàn)證的符合率表2為ngs檢測(cè)嵌合體與核型分析比較a指ngs檢測(cè)嵌合體與核型分析檢測(cè)嵌合體兩者結(jié)果的變異系數(shù)。當(dāng)前第1頁(yè)12