本發(fā)明屬于分子生物學檢測領(lǐng)域,具體涉及FFPE樣本拷貝數(shù)變異檢測裝置及檢測方法。
背景技術(shù):
福爾馬林固定石蠟包埋(Formalin-fixed and Paraffin-embedded,F(xiàn)FPE)方法制備的組織標本稱為福爾馬林固定石蠟包埋組織樣本,簡稱FFPE樣本。FFPE樣本能夠長時間保存,特別是,有大量的腫瘤組織切片被以FFPE樣本的形式保存。FFPE樣本常用于臨床病理檢驗、腫瘤基因檢測和醫(yī)學科學研究,為闡明疾病機制、發(fā)現(xiàn)治療靶標和指示預后等方面提供了寶貴的資源。
基因的拷貝數(shù)變異(Copy Number Variation,CNV)是一類在臨床上非常重要的結(jié)構(gòu)變異,與多種腫瘤的預后,靶向藥物的敏感性相關(guān)??煽康腃NV檢測結(jié)果可以為臨床用藥以及病情評估等提供十分重要的依據(jù)。目前臨床上所使用的CNV檢測技術(shù)大多為基于PCR或免疫組化的實驗手段(如FISH,IHC等)。此類方法單次檢測僅可覆蓋一個基因,且檢測結(jié)果靈敏度較低。
基于新一代測序(Next-Generation Sequencing,NGS)平臺的CNV檢測,可以在保證檢測性能的前提下一次性給出多個基因的CNV檢測結(jié)果。傳統(tǒng)的NGS平臺CNV檢測技術(shù)大多基于全基因組測序技術(shù)平臺完成研發(fā),隨著NGS技術(shù)的不斷進步,基于目標區(qū)域捕獲的高深度測序技術(shù)在臨床檢測的應用場景下逐漸表現(xiàn)出優(yōu)勢。
但是,由于全基因組測序數(shù)據(jù)與目標區(qū)域捕獲測序數(shù)據(jù)存在根本差別,目前傳統(tǒng)NGS平臺的CNV檢測方法對于目標區(qū)域捕獲測序數(shù)據(jù)并不適用,在檢測CNV的準確性上難以保證,且檢測靈敏度有待提高。這一問題在FFPE樣本中表現(xiàn)尤為明顯。FFPE樣本的DNA片段化較為嚴重,會對目標基因DNA捕獲以及NGS測序等過程產(chǎn)生影響,并最終影響到目標區(qū)域的有效深度等關(guān)鍵技術(shù)指標。因此,低質(zhì)量FFPE樣本所產(chǎn)生的低深度測序數(shù)據(jù)的可用性,成為了較大的技術(shù)挑戰(zhàn)。
技術(shù)實現(xiàn)要素:
鑒于上述現(xiàn)有技術(shù)中存在的不足,本發(fā)明的目的在于提供一種對FFPE樣本的CNV的檢測靈敏度更高的檢測裝置及檢測方法。
本發(fā)明的發(fā)明人為解決上述技術(shù)問題進行了深入研究,結(jié)果發(fā)現(xiàn):在FFPE樣本的CNV檢測方法中,是否對數(shù)據(jù)進行合理的降噪處理,是否使用了合適的背景庫,會直接影響到檢測結(jié)果,特別是在捕獲測序中此種影響尤為顯著。通過更為合理全面的降噪處理,動態(tài)背景庫的應用,能夠提高FFPE樣本CNV檢測的靈敏度,從而完成了本發(fā)明。
即,本發(fā)明包括:
一種用于FFPE樣本拷貝數(shù)變異(所述拷貝數(shù)變異可以發(fā)生在基因區(qū)域,也可以發(fā)生在非基因區(qū)域)檢測的裝置,其包括:
測序數(shù)據(jù)獲取模塊,用于獲取來自待檢FFPE樣本的捕獲測序數(shù)據(jù)以及來自健康人群樣本的測序數(shù)據(jù),所述健康人群樣本為多個健康人(健康正常人)樣本;
序列比對模塊,其與所述測序數(shù)據(jù)獲取模塊連接,用于將所述測序數(shù)據(jù)獲取模塊獲得的測序數(shù)據(jù)與參考基因組序列進行比對,得到比對結(jié)果(包含例如,每條可以與參考基因組比對上的短序列所在的染色體,坐標,短序列與參考基因組的匹配情況等信息),根據(jù)該比對結(jié)果計算每一個位點(指基因組上的每個位點,但捕獲測序中可能有一些位點的深度值為0)的深度值;
前期數(shù)據(jù)處理模塊,其與所述序列比對模塊連接,用于將目標區(qū)域(100k~100M,全基因組或者重點關(guān)注區(qū)域)劃分為一定長度(50~1000bp)的有重疊(10~70%)的窗口,去掉窗口內(nèi)位點的深度極值(極大值和極小值)并計算深度均值或中值,且計算該窗口內(nèi)的參考基因組序列的GC含量;
歸一化模塊,其與所述前期數(shù)據(jù)處理模塊連接,用于對所述前期數(shù)據(jù)處理模塊所得到的每一個窗口內(nèi)的深度均值或中值進行歸一化,計算得到待檢FFPE樣本和健康人群樣本每個窗口內(nèi)的Z值;
背景庫篩選模塊,其與所述歸一化模塊連接,用于根據(jù)待檢FFPE樣本與健康人群樣本的Z值,篩選出n個健康人樣本(每個健康人樣本對應一個健康人),得到n個健康人樣本的背景庫樣本集,然后使用該n個健康人樣本在m個窗口內(nèi)的Z值構(gòu)建m行n列的矩陣Xm×n;
數(shù)據(jù)波動消除模塊,其與所述背景庫篩選模塊連接,用于消除捕獲測序帶來的固有數(shù)據(jù)波動;
GC校正模塊,其與所述數(shù)據(jù)波動消除模塊連接,用于根據(jù)各窗口內(nèi)的GC含量進行GC矯正;
輸出模塊,其與所述GC校正模塊連接,用于輸出CNV檢測結(jié)果(包括例如,用于展示CNV檢測結(jié)果的圖,CNV變異的陰性/陽性的判定結(jié)果等)。
本發(fā)明的用于FFPE樣本拷貝數(shù)變異檢測的裝置的測序數(shù)據(jù)獲取模塊獲取采用二代測序方法對待檢FFPE樣本中的DNA進行測序而得到的測序數(shù)據(jù)。二代測序的主流平臺一般均采用邊合成邊測序(Sequencing By Synthesis,SBS)技術(shù)進行核酸測序。測序前,需要對核酸(DNA或RNA)樣本進行測序文庫的構(gòu)建,基本流程如下:首先將片段化后的DNA進行片段的末端修復,之后在修復后的片段3'端加“A”堿基,然后將上述DNA片段與含有測序引物結(jié)合位點的DNA接頭(Adapter)連接,最后通過PCR進行擴增,完成測序文庫構(gòu)建。對于具體的二代測序方法沒有特殊限制,可以采用任何本領(lǐng)域技術(shù)人員已知的二代測序方法。
優(yōu)選地,所述測序數(shù)據(jù)是采用捕獲測序方法獲得的測序數(shù)據(jù);
所述捕獲測序的目標基因可以因不同的目標疾病而異。所述目標疾病可以是例如實體癌(例如胃癌、乳腺、結(jié)腸直腸癌、肺癌等)。
具體例如,在所述目標疾病是乳腺癌的情況下,所述目標基因可以是例如EGFR基因、ERBB2基因、FGFR1基因、KIT基因、PIK3CA基因或/和PTEN基因;在所述目標疾病是結(jié)腸直腸癌的情況下,所述目標基因可以是例如EGFR基因、ERBB2基因、FGFR2基因、KRAS基因、MET基因、PTEN基因;在所述目標疾病是胃癌的情況下,所述目標基因可以是例如EGFR基因、ERBB2基因、FGFR1基因、FGFR2基因、KRAS基因、MET基因、PIK3CA基因或/和PTEN基因;在所述目標疾病是肺癌的情況下,所述目標基因可以是例如ALK基因、BRAF基因、EGFR基因、ERBB2基因、FGFR1基因、KRAS基因、MET基因、PIK3CA或/和PTEN。
優(yōu)選地,所述前期數(shù)據(jù)處理模塊采用滑動窗口法劃分所述窗口。
優(yōu)選地,所述歸一化模塊依據(jù)下述公式(1)計算得到待檢樣本每個窗口內(nèi)的Z值,公式(1)中Zi表示第i個窗口的Z值,
Zi=trimScale(Zi,Zi)……(1)。
優(yōu)選地,定義公式(2):
定義
其中,chr表示染色體,St表示待檢生物樣本,SN表示健康人群樣本;
所述背景庫篩選模塊根據(jù)待檢FFPE樣本與健康人群樣本的Z值,篩選出使得所述d值最小的n個健康人樣本,得到篩選后的背景庫樣本集S1,S2,S3,…,Sn(N和n均為自然數(shù)且n<N)。
優(yōu)選地,所述數(shù)據(jù)波動消除模塊對背景庫矩陣Xm×n做奇異值分解,得到m行r列因子矩陣Um×r,r為因子個數(shù),然后取貢獻率最大的k個因子(即排名靠前的k個因子,k一般為4-10)進行LOESS回歸,得到殘差Zp。
優(yōu)選地,所述GC校正模塊根據(jù)各窗口內(nèi)的GC含量,對Zp基于LOESS回歸做GC矯正,得到殘差Zpg。
優(yōu)選地,所述FFPE樣本拷貝數(shù)變異檢測裝置還包括:
數(shù)據(jù)質(zhì)檢模塊,其與所述測序模塊和所述序列比對模塊連接,用于對所述測序模塊獲得的測序數(shù)據(jù)進行質(zhì)檢。質(zhì)檢包括但不限于例如去除低質(zhì)量的短序列、去除N含量較高的短序列、去除與Adapter相關(guān)的短序列、并最終統(tǒng)計各項相關(guān)的質(zhì)控指標。
此外,本發(fā)明還包括:
一種用于FFPE樣本拷貝數(shù)變異(所述拷貝數(shù)變異可以發(fā)生在基因區(qū)域,也可以發(fā)生在非基因區(qū)域)檢測的方法,其包括:
測序數(shù)據(jù)獲取步驟,獲取來自待檢FFPE樣本的捕獲測序數(shù)據(jù)以及來自健康人群樣本的測序數(shù)據(jù),所述健康人群樣本為多個健康人樣本;
序列比對步驟,將所述測序數(shù)據(jù)獲取步驟獲得的測序數(shù)據(jù)與參考基因組序列進行比對,得到比對結(jié)果(包含例如,每條可以與參考基因組比對上的短序列所在的染色體,坐標,短序列與參考基因組的匹配情況等信息),根據(jù)該比對結(jié)果計算每一個位點(指基因組上的每個位點,但捕獲測序中可能有一些位點的深度值為0)的深度值;
前期數(shù)據(jù)處理步驟,將目標區(qū)域(100k~100M,全基因組或者重點關(guān)注區(qū)域)劃分為一定長度(50~1000bp)的有重疊(10~70%)的窗口,去掉窗口內(nèi)位點的深度極值(極大值和極小值)并計算深度均值或中值,且計算該窗口內(nèi)的參考基因組序列的GC含量;
歸一化步驟,對前期數(shù)據(jù)處理步驟所得到的每一個窗口內(nèi)的深度均值或中值進行歸一化,計算得到待檢FFPE樣本和健康人群樣本每個窗口內(nèi)的Z值;
背景庫篩選步驟,根據(jù)待檢FFPE樣本與健康人群樣本的Z值,篩選出n個健康人樣本(健康人樣本,每個背景庫樣本對應一個健康人),得到背景庫樣本集,然后使用該n個健康人樣本在m個窗口內(nèi)的Z值構(gòu)建m行n列的矩陣Xm×n;
數(shù)據(jù)波動消除步驟,消除捕獲測序帶來的固有數(shù)據(jù)波動;
GC校正步驟,根據(jù)各窗口內(nèi)的GC含量進行GC矯正;以及
輸出步驟,輸出CNV檢測結(jié)果(包括例如,用于展示CNV檢測結(jié)果的圖,CNV變異的陰性/陽性的判定結(jié)果等)。
本發(fā)明的用于FFPE樣本拷貝數(shù)變異檢測的方法的測序數(shù)據(jù)獲取步驟獲取采用二代測序方法對待檢FFPE樣本中的DNA進行測序而得到的測序數(shù)據(jù)。二代測序的主流平臺一般均采用邊合成邊測序(Sequencing By Synthesis,SBS)技術(shù)進行核酸測序。測序前,需要對核酸(DNA或RNA)樣本進行測序文庫的構(gòu)建,基本流程如下:首先將片段化后的DNA進行片段的末端修復,之后在修復后的片段3'端加“A”堿基,然后將上述DNA片段與含有測序引物結(jié)合位點的DNA接頭(Adapter)連接,最后通過PCR進行擴增,完成測序文庫構(gòu)建。對于具體的二代測序方法沒有特殊限制,可以采用任何本領(lǐng)域技術(shù)人員已知的二代測序方法。
優(yōu)選地,所述測序數(shù)據(jù)是采用捕獲測序方法獲得的測序數(shù)據(jù);
所述捕獲測序的目標基因可以因不同的目標疾病而異。所述目標疾病可以是例如實體癌(例如胃癌、乳腺、結(jié)腸直腸癌、肺癌等)。
具體例如,在所述目標疾病是乳腺癌的情況下,所述目標基因可以是例如EGFR基因、ERBB2基因、FGFR1基因、KIT基因、PIK3CA基因或/和PTEN基因;在所述目標疾病是結(jié)腸直腸癌的情況下,所述目標基因可以是例如EGFR基因、ERBB2基因、FGFR2基因、KRAS基因、MET基因、PTEN基因;在所述目標疾病是胃癌的情況下,所述目標基因可以是例如EGFR基因、ERBB2基因、FGFR1基因、FGFR2基因、KRAS基因、MET基因、PIK3CA基因或/和PTEN基因;在所述目標疾病是肺癌的情況下,所述目標基因可以是例如ALK基因、BRAF基因、EGFR基因、ERBB2基因、FGFR1基因、KRAS基因、MET基因、PIK3CA或/和PTEN。
優(yōu)選地,所述前期數(shù)據(jù)處理步驟采用滑動窗口法劃分所述窗口。
優(yōu)選地,所述歸一化步驟依據(jù)下述公式(1)計算得到待檢樣本每個窗口內(nèi)的Z值,公式(1)中Zi表示第i個窗口的Z值,
Zi=trimScale(Zi,Zi)……(1)。
優(yōu)選地,定義公式(2):
定義
其中,chr表示染色體,ST表示待檢FFPE樣本,SN表示健康人群樣本;
所述背景庫篩選步驟根據(jù)待檢FFPE樣本與健康人群樣本的Z值,篩選出使得所述d值最小的n個健康人樣本,得到篩選后的背景庫樣本集S1,S2,S3,…,Sn(N,n均為自然數(shù)且n<N)。
優(yōu)選地,所述數(shù)據(jù)波動消除步驟對背景庫矩陣Xm×n做奇異值分解,得到m行r列因子矩陣Um×r,r為因子個數(shù),然后取貢獻率最大的k個因子(即排名靠前的k個因子,k一般為4-10)進行LOESS回歸,得到殘差Zp。
優(yōu)選地,所述GC校正步驟根據(jù)各窗口內(nèi)的GC含量,對Zp基于LOESS回歸做GC矯正,得到殘差Zpg。
優(yōu)選地,所述拷貝數(shù)變異檢測方法還包括:
數(shù)據(jù)質(zhì)檢步驟,對所述測序步驟獲得的測序數(shù)據(jù)進行質(zhì)檢。質(zhì)檢包括但不限于例如去除低質(zhì)量的短序列、去除N含量較高的短序列、去除與Adapter相關(guān)的短序列、并最終統(tǒng)計各項相關(guān)的質(zhì)控指標。
其中,上述各步驟的優(yōu)選實施方式可參照前述。
根據(jù)本發(fā)明,提供一種對FFPE樣本CNV的檢測靈敏度更高的檢測裝置及檢測方法。
附圖說明
圖1為本發(fā)明的用于FFPE樣本拷貝數(shù)變異檢測的裝置的示意圖。
圖2為實施例1對乳腺癌多個基因的CNV檢測結(jié)果的圖。
發(fā)明的具體實施方式
本說明書中提及的科技術(shù)語具有與本領(lǐng)域技術(shù)人員通常理解的含義相同的含義,如有沖突以本說明書中的定義為準。
定義
參考基因組:一個細胞或者生物體所攜帶的一套完整的單倍體序列,包括全套基因和間隔序列。
比對:一般指序列比對,指為確定兩個或多個序列之間的相似性以至于同源性,而將它們按照一定的規(guī)律排列的過程。
深度值:對于基因組上的某個位點,根據(jù)比對結(jié)果,覆蓋到該位點的短序列數(shù)量即為該位點的深度值。
窗口(滑動窗口):一般指基因組上的一段固定長度的區(qū)域。
背景庫:由多例(一般認為≥20例)健康人樣本所組成的樣本庫。
捕獲測序:通過預先設(shè)計好的探針,對基因組上的特定區(qū)域(感興趣的區(qū)域)進行DNA片段抓取,并最終對抓取到的DNA片段進行NGS測序的過程。
NGS(高通量測序):高通量測序技術(shù)(High-throughput sequencing)又稱“下一代”測序技術(shù)("Next-generation"sequencing technology),以能一次并行對幾十萬到幾百萬條DNA分子進行序列測定和一般讀長較短等為標志。
歸一化(Z值):
trimScale(w,v):定義w為某個需要進行歸一化的值,v為某個數(shù)據(jù)集
a.去掉v上下一定百分比的數(shù)據(jù)得到
b.計算的均值μ和標準差σ
c.計算得到作為最終結(jié)果
SVD(奇異值分解):SVD是線性代數(shù)中一種重要的矩陣分解,是矩陣分析中正規(guī)矩陣酉對角化的推廣。在信號處理、統(tǒng)計學等領(lǐng)域有重要應用。其作用是把數(shù)據(jù)集映射到低維空間中去。數(shù)據(jù)集的特征值(在SVD中用奇異值表征)按照重要性排列,降維的過程就是舍棄不重要的特征向量的過程,而剩下的特征向量組成的空間即為降維后的空間。
實施例
以下通過實施例對本發(fā)明進行更具體的說明。應當理解,此處所描述的實施例是用于解釋本發(fā)明,而非用于限定本發(fā)明。
實施例1
采用本發(fā)明的用于FFPE樣本拷貝數(shù)變異檢測的裝置對一例女性乳腺癌患者的組織FFPE樣本的CNV情況進行檢測。
1.1提取FFPE樣本的DNA
采用GeneRead DNA FFPE Kit(QIAGEN公司),按照手冊說明進行提取操作,得到FFPE樣本DNA。
1.2樣本打斷
使用Biorupter打斷儀器進行打斷,設(shè)定打斷條件30個循環(huán),30s ON/30s OFF,將FFPE樣本DNA打斷成200bp左右的片段,得到打斷后的DNA片段。
1.3末端修復(End Repair)
(1)預先從-20℃保存的試劑盒中取出所需試劑,單個樣本配制量參見表1。
表1
(2)末端修復反應:加入DNA樣本后將1.5mL離心管置于Thermomixer中20℃溫浴30分鐘。反應結(jié)束后使用1.8×核酸純化磁珠回收純化反應體系中的DNA,溶于32μLEB。
1.4末端加“A”(A-Tailing)
(1)預先從-20℃保存的試劑盒中取出所需試劑,單個樣本配制量參見表2:
表2
(2)末端加“A”反應:加入32μL上一步純化回收的DNA后將1.5mL離心管置于Thermomixer中37℃溫浴30分鐘。使用1.8×核酸純化磁珠回收純化反應體系中的DNA,溶于18μL EB中。
1.5接頭的連接(Adapter Ligation)
(1)預先從-20℃保存的試劑盒中取出所需試劑,單個樣本配制量參見表3:
表3
(2)接頭的連接反應:加入18μL上一步純化回收的DNA后將樣本管置于Thermomixer中20℃溫浴15分鐘。使用1.8×核酸純化磁珠回收純化反應體系中的DNA,溶于30μL的EB中。
1.6 PCR反應
(1)從-20℃保存的試劑盒中取出所需試劑,2mL的PCR管中配制PCR反應體系:
表4
(2)設(shè)定PCR程序,PCR反應的程序設(shè)定如下:
反應結(jié)束及時將樣品取出放入4℃冰箱保存并按要求退出或關(guān)閉儀器。
(3)用0.9×核酸純化磁珠回收純化反應體系中的DNA,純化后的文庫溶于20μL的ddH2O中。對文庫進行Qubit檢測,將文庫送檢安捷倫2100。
1.7乳腺癌目標區(qū)域捕獲芯片文庫雜交
(1)本實驗中,用于提供雜交捕獲反應的離子環(huán)境的緩沖液、以及用于洗脫物理吸附或非特異性雜交的清洗液、漂洗液均可從商業(yè)途徑獲得。
(2)準備雜交文庫:將待雜交的DNA文庫在冰上融化,取總質(zhì)量1μg(在后續(xù)操作步驟中將此DNA文庫稱為樣本文庫)。
(3)制備Ann引物Pool:將樣本文庫Index對應的標簽引物In1(100μM)及公共引物(1000μM)各取1000pmol混合,(在后續(xù)操作步驟中將此混合物稱為Ann引物pool)。
(4)雜交樣本的制備:向1.5mL EP管中加入5μL COT DNA(Human Cot-1DNA,Life technologies,1mg/mL)、1μg樣本文庫、Ann引物pool。用封口膜密封制備好的雜交樣本EP管,將盛有樣本文庫pool/COT DNA/Ann引物pool的EP管置于真空裝置中直到完全干燥。
(5)雜交樣本的溶液:向樣本文庫pool/COT DNA/Ann引物pool的干粉中加入:
7.5μL 2×雜交緩沖液
3μL 雜交組分A
(6)充分混勻后將上述混合物置于預先準備好的95℃加熱模塊上變性10分鐘。
(7)將上述混合物轉(zhuǎn)移至含有4.5μL捕獲芯片的0.2mL平蓋PCR管中。充分渦旋震蕩3秒,將雜交樣品混合物置于47℃加熱模塊上16小時。加熱模塊的熱蓋溫度需設(shè)定為57℃,雜交后產(chǎn)物需進行后續(xù)洗脫回收操作。
(8)將10×清洗液(Ⅰ,Ⅱ與Ⅲ)、10×漂洗液和2.5×磁珠清洗液配置成1×工作液。
表5
(9)將下列試劑在47℃加熱模塊中預熱:
400μL 1×漂洗液
100μL 1×清洗液I
1.8制備親和吸附磁珠
(1)將鏈霉親和素磁珠(Dynabeads M-280Streptavidin,以下簡稱磁珠)在室溫下平衡30分鐘后,將磁珠充分渦旋混勻15秒。
(2)向1.5mL離心管中分裝100μL磁珠,將盛有100μL磁珠的離心管置于磁力架上,約5分鐘后小心吸棄上清,加兩倍于磁珠初始體積的1×磁珠清洗液,渦旋混勻10秒。將盛有磁珠的離心管放回磁力架,吸附磁珠。待溶液澄清,吸棄上清。重復次步驟,共洗滌兩次。
(3)洗滌完畢后吸棄磁珠清洗液,用磁珠初始體積的1×磁珠清洗液渦旋重懸磁珠轉(zhuǎn)入0.2mL的PCR管中。將PCR管置于磁力架上吸附磁珠澄清后吸棄上清。
1.9 DNA與親和吸附磁珠的結(jié)合及漂洗
(1)將雜交的樣本文庫轉(zhuǎn)入盛有親和吸附磁珠的0.2mL PCR管中,渦旋振蕩混勻。
(2)將0.2mL PCR管置于47℃加熱模塊45分鐘,每隔15分鐘渦旋混勻一次,使DNA與磁珠結(jié)合。
(3)45分鐘孵育后,向15μL捕獲的DNA樣本中加入47℃預熱的1×清洗液I 100μL。渦旋混勻10秒。將0.2mL PCR管中的全部組分轉(zhuǎn)入1.5mL離心管中。將1.5mL離心管置于磁力架上吸附磁珠,棄上清。
(4)將1.5mL離心管從磁力架上取下,加入200μL預熱47℃的1×漂洗液。吸打混勻10次(需迅速操作,防止試劑、樣品溫度低于47℃)?;靹蚝髽颖局糜?7℃加熱模塊上5分鐘。重復此步驟,用47℃的1×漂洗液共洗滌兩次。將1.5mL的離心管置于磁力架上,吸附磁珠,棄上清。
(5)向上述1.5mL離心管中加入200μL室溫的1×清洗液I,渦旋混勻2分鐘。將離心管置于磁力架上,吸附磁珠,棄上清。向上述1.5mL離心管中加入200μL室溫的1×清洗液Ⅱ,渦旋混勻1分鐘。將離心管置于磁力架上,吸附磁珠,棄上清。向上述1.5mL離心管中加入200μL室溫的1×清洗液Ⅲ,渦旋混勻30秒。將離心管置于磁力架上,吸附磁珠,棄上清。
(6)1.5mL離心管從磁力架上取下,加入45μL PCR水,溶解洗脫磁珠捕獲樣本。
1.10捕獲DNA的PCR擴增
(1)按下表制備捕獲后PCR mix,制備好后渦旋震蕩混勻。富集引物F和富集引物R均購自英濰捷基公司。
(2)磁珠吸附DNA PCR的擴增程序設(shè)定如下:
(3)雜交捕獲DNA PCR產(chǎn)物的回收純化:用核酸純化磁珠回收純化反應體系中的DNA,磁珠使用量為0.9×,純化后的文庫溶于30μL的ddH2O中。
1.11文庫定量
對文庫進行2100 Bio Analyzer(Agilent)/LabChip GX(Caliper)及QPCR檢測,記錄文庫濃度。
1.12文庫上機測序
構(gòu)建好的文庫用NextSeq 550AR進行測序。
1.13數(shù)據(jù)處理及分析
采用本發(fā)明的FFPE樣本拷貝數(shù)變異檢測裝置對1.12文庫上機測序的結(jié)果進行處理分析。
實施例1的FFPE樣本拷貝數(shù)變異檢測裝置包括下述模塊。
測序數(shù)據(jù)獲取模塊:
用于獲取使用乳腺癌目標區(qū)域捕獲芯片對待檢測的乳腺癌FFPE樣本進行捕獲測序獲得測序數(shù)據(jù)。
數(shù)據(jù)質(zhì)檢模塊:
對測序數(shù)據(jù)進行數(shù)據(jù)質(zhì)檢,過濾掉平均質(zhì)量值低的短序列,過濾掉N含量高的短序列,過濾掉與Adapter相關(guān)的短序列,得到過濾的測序數(shù)據(jù)C。
序列比對模塊:
使用經(jīng)過過濾的測序數(shù)據(jù)C,與人參考基因組HG19進行短序列比對,獲得比對結(jié)果A。根據(jù)該比對結(jié)果A計算基因組上的每個位點的深度值,得到結(jié)果D。
前期數(shù)據(jù)處理模塊:
將癌癥目標區(qū)域劃分為一定長度且有重疊的窗口,去掉窗口內(nèi)的深度極值并計算深度中值,且計算該窗口內(nèi)的參考基因組序列的GC含量,得到結(jié)果X。
歸一化模塊:
結(jié)合結(jié)果X與D,依據(jù)公式Zi=trimScale(Zi,Zi)計算得到待檢測基因組DNA每個窗口內(nèi)的Z值。
背景庫篩選模塊:
定義
chr是染色體的意思,St表示待檢測樣本,Sn表示背景庫樣本。
根據(jù)待檢基因組DNA與背景庫的Z值,篩選出使得d值最小的背景庫樣本,得到篩選后的背景庫樣本集S1,S2,S3,…,Sn。
使用這n個樣本在m個窗口內(nèi)的Z值構(gòu)建矩陣Xm×n作為背景庫待用。
數(shù)據(jù)波動消除模塊:
對背景庫矩陣Xm×n做奇異值分解,得到m行n列因子矩陣Um×n,n為因子個數(shù)。取貢獻率最大的幾個因子進行LOESS回歸,得到殘差Zp。
GC校正模塊:
根據(jù)m個窗口內(nèi)的GC含量,對Zp基于LOESS回歸做GC矯正,得到殘差Zpg。
輸出模塊:
輸出模塊用于展示CNV檢測結(jié)果的圖。
檢測結(jié)果如圖2所示,圖中的每一個小圓點為一個窗口的Zpg值。其中,PIK3CA與ERBB2兩個基因均檢出拷貝數(shù)增加。
1.14結(jié)果驗證
同一患者原腫瘤新鮮組織提取RNA后進行反轉(zhuǎn)錄,使用QPCR方法驗證PIK3CA和ERBB2基因的表達量是否升高,驗證結(jié)果與1.13檢測結(jié)果一致。本發(fā)明的檢測裝置能夠成功檢出FFPE樣本的拷貝數(shù)變異。
工業(yè)實用性
本發(fā)明的FFPE樣本CNV檢測裝置及檢測方法能夠顯著地提高CNV的檢測靈敏度。