一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法
【專利摘要】本發(fā)明提供了一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法,包括如下步驟,(1)計(jì)算單細(xì)胞基因組突變的假陽性率;(2)計(jì)算在單細(xì)胞樣本測(cè)序中的等位基因丟失率;(3)挖掘體細(xì)胞突變,過濾體細(xì)胞突變;(4)分析單細(xì)胞間的異質(zhì)性。本發(fā)明通過對(duì)單細(xì)胞突變位點(diǎn)假陽性率、等位基因丟失率的計(jì)算,過濾腫瘤中的體細(xì)胞突變,并分析單細(xì)胞之間的異質(zhì)性,本發(fā)明根據(jù)單細(xì)胞基因組突變的假陽性情況論證測(cè)序結(jié)果的可靠性,能夠檢測(cè)單細(xì)胞實(shí)驗(yàn)技術(shù)的可靠性,能夠?qū)罄m(xù)結(jié)果進(jìn)行多功能分析。
【專利說明】
一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于基因測(cè)序領(lǐng)域,尤其是涉及一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢 測(cè)方法。
【背景技術(shù)】
[0002] 在過去的基因組學(xué)研究中我們只能關(guān)注一塊組織整體的基因組情況,但是成千上 萬個(gè)細(xì)胞混在一起進(jìn)行研究,會(huì)模糊我們對(duì)大腦、血液系統(tǒng)、免疫系統(tǒng),及其組成這些系統(tǒng) 的細(xì)胞之間異質(zhì)性(heterogeneity)的認(rèn)識(shí)。可對(duì)于每個(gè)細(xì)胞的基因組情況的研究進(jìn)展緩 慢,這是由于一個(gè)細(xì)胞里的DNA僅僅處在皮克(picograms)級(jí)的水平,這么少的量遠(yuǎn)遠(yuǎn)達(dá)不 到現(xiàn)有測(cè)序儀的最低上樣需求。從2013年至今,多種單細(xì)胞測(cè)序擴(kuò)增技術(shù)(例如:多重置換 擴(kuò)增技術(shù)MDA、多重退火環(huán)狀擴(kuò)增循環(huán)技術(shù)MALBAC)的逐漸完善得以讓我們對(duì)一個(gè)細(xì)胞的基 因組進(jìn)行系統(tǒng)的分析。通過單細(xì)胞擴(kuò)增技術(shù)結(jié)合已有的外顯子測(cè)序,深入到一個(gè)腫瘤細(xì)胞 的層面進(jìn)行疾病的致病變異檢測(cè),挖掘不同細(xì)胞間的關(guān)系是今后的一個(gè)熱點(diǎn)方向。在此基 礎(chǔ)上的體細(xì)胞突變分析算法的設(shè)計(jì)是一個(gè)非常關(guān)鍵的問題。
[0003] 現(xiàn)有的突變檢測(cè)方法可以檢測(cè)到所有樣本中的突變位點(diǎn),但是這些位點(diǎn)的可靠性 分析卻很少針對(duì)單細(xì)胞數(shù)據(jù)進(jìn)行優(yōu)化。在單細(xì)胞突變位點(diǎn)檢測(cè)中主要面對(duì)的兩個(gè)問題,一 個(gè)是假陽性結(jié)果,另一個(gè)是等位基因丟失。假陽性結(jié)果是指在組織混合測(cè)序中無法檢測(cè)到 的位點(diǎn),在單細(xì)胞中確檢測(cè)到了,這種結(jié)果可能是由于測(cè)序時(shí)的誤差導(dǎo)致。等位基因丟失是 在單細(xì)胞擴(kuò)增時(shí)只對(duì)于等位基因中的一條進(jìn)行了擴(kuò)增,對(duì)另一條沒有擴(kuò)增,從而導(dǎo)致一個(gè) 突變位點(diǎn)的純合、雜合情況改變。根據(jù)不同數(shù)據(jù)的假陽性和等位基因丟失情況,單細(xì)胞突變 結(jié)果的篩選條件要適當(dāng)變化,以確保其準(zhǔn)確性。因此,需要設(shè)計(jì)開發(fā)一種單細(xì)胞外顯子測(cè)序 腫瘤體細(xì)胞突變檢測(cè)方法,根據(jù)體細(xì)胞突變結(jié)果和突變檢測(cè)結(jié)果,著重分析單細(xì)胞突變位 點(diǎn)的假陽性、等位基因丟失率,采用針對(duì)單細(xì)胞的篩選條件過濾腫瘤中的體細(xì)胞突變。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明旨在提出一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法,以 獲得高可靠性的體細(xì)胞突變,高可靠性的單細(xì)胞體細(xì)胞突變篩選需要參考假陽性、等位基 因丟失率,結(jié)合單個(gè)細(xì)胞樣本的過濾結(jié)果來確定。
[0005] 為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
[0006] -種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法,包括如下步驟,
[0007] (1)計(jì)算單細(xì)胞基因組突變的假陽性率;
[0008] (2)計(jì)算在單細(xì)胞樣本測(cè)序中的等位基因丟失率;
[0009] (3)挖掘體細(xì)胞突變,過濾體細(xì)胞突變;
[0010] (4)分析單細(xì)胞間的異質(zhì)性。
[0011] 進(jìn)一步的,所述步驟(1)中,通過組織測(cè)序和單細(xì)胞測(cè)序獲得在組織樣本和單細(xì)胞 樣本中的突變位點(diǎn)信息,首先定義在組織測(cè)序和單細(xì)胞測(cè)序中都發(fā)現(xiàn)的突變?yōu)檎骊栃酝蛔?(TP mutation),在組織測(cè)序中發(fā)現(xiàn)但是在單細(xì)胞中沒有發(fā)現(xiàn)的突變是假陰性突變(FN mutation),在單細(xì)胞中發(fā)現(xiàn)但是沒有在組織測(cè)序中發(fā)現(xiàn)的突變是假陽性突變(FP mutation),在組織測(cè)序中沒有被識(shí)別成突變的位點(diǎn)為真陽性突變(TN mutation),根據(jù)上 述數(shù)據(jù)計(jì)算假陽性率FPR = FP/(FP+TN)。
[0012]進(jìn)一步的,所述步驟⑵中具體包括如下步驟,
[0013] (al)首先定義在組織數(shù)據(jù)中突變頻率小于95%的位點(diǎn)是雜合性突變;
[0014] (bl)提取所有已知的普通SNP在組織中是雜合性突變的位點(diǎn);
[0015] (cl)根據(jù)組織中提取的雜合性突變位點(diǎn),找其對(duì)應(yīng)的單細(xì)胞中是否變?yōu)榧兒闲酝?變(突變頻率大于或等于95%),并計(jì)算在單細(xì)胞中變?yōu)榧兒闲屯蛔兊谋壤摫壤礊榈?位基因丟失率,等位基因丟失率越高,突變位點(diǎn)的可靠性越低。
[0016] 進(jìn)一步的,所述步驟(3)具體包括如下步驟,
[0017] (a2)首先在腫瘤組織測(cè)序結(jié)果中短序列覆蓋深度大于等于5的位置分析突變位 點(diǎn),將在腫瘤樣本中的突變位點(diǎn)頻率大于等于10%的位點(diǎn)作為候選集合;
[0018] (b2)其次在癌旁/血液樣本的測(cè)序結(jié)果中分析短序列覆蓋深度大于等于5的突變 位點(diǎn),在對(duì)照樣本中突變位點(diǎn)頻率小于等于5%的位點(diǎn)是生殖細(xì)胞突變;
[0019] (c2)通過Fisher精確性檢驗(yàn)來判斷在腫瘤樣本和對(duì)照樣本中突變位點(diǎn)的頻率差 異性,差異大的位點(diǎn)即為體細(xì)胞突變;
[0020] (d2)根據(jù)假陽性率、等位基因丟失率確定在幾個(gè)單細(xì)胞重復(fù)中出現(xiàn)的體細(xì)胞突變 是可靠的體細(xì)胞突變,在單細(xì)胞包個(gè)數(shù)較少的情況下,突變位點(diǎn)至少要在2個(gè)細(xì)胞中重復(fù)出 現(xiàn)。
[0021] 進(jìn)一步的,所述步驟(4)中,分析每個(gè)樣本中突變基因型之間的差異性,
[0022] (1)按照下式計(jì)算兩兩細(xì)胞間的Jaccard距離,計(jì)算公式為
[0023] 其中,A是細(xì)胞A的所有突變位點(diǎn)頻率信息,B是細(xì)胞B的所有突變位點(diǎn)頻率信息,根 據(jù)Jaccard距離,細(xì)胞間距離大的異質(zhì)性強(qiáng),反之異質(zhì)性弱;
[0024] (2)對(duì)單細(xì)胞進(jìn)行主成分分析,計(jì)算單細(xì)胞在第一主成分和第二主成分所組成的 平面上的位置,位置近的細(xì)胞間突變情況相似,異質(zhì)性弱,反之,突變情況差異大異質(zhì)性強(qiáng)。
[0025] 相對(duì)于現(xiàn)有技術(shù),本發(fā)明所述的一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法 具有以下優(yōu)勢(shì):本發(fā)明通過對(duì)單細(xì)胞突變位點(diǎn)假陽性率、等位基因丟失率的計(jì)算,過濾腫瘤 中的體細(xì)胞突變,并分析單細(xì)胞之間的異質(zhì)性。
[0026] 本發(fā)明首先根據(jù)單細(xì)胞基因組突變的假陽性情況論證測(cè)序結(jié)果的可靠性。單細(xì)胞 測(cè)序由于技術(shù)的有限性,通常都會(huì)比組織測(cè)序結(jié)果的假陽性高。我們已知整體數(shù)據(jù)的假陽 性越高,突變位點(diǎn)的可靠性越低,需要綜合多個(gè)細(xì)胞的結(jié)果來篩選可靠的體細(xì)胞突變位點(diǎn)。 現(xiàn)有的突變檢測(cè)方法可以檢測(cè)到所有樣本中的突變位點(diǎn),但不提供假陽性情況的分析,無 法掌握數(shù)據(jù)的整體質(zhì)量情況。
[0027] 其次,本發(fā)明能夠檢測(cè)單細(xì)胞實(shí)驗(yàn)技術(shù)的可靠性,在單細(xì)胞擴(kuò)增時(shí)等位基因丟失 會(huì)導(dǎo)致突變位點(diǎn)的基因型(純合、雜合)發(fā)生改變,這會(huì)導(dǎo)致將一些雜合性突變誤判成純合 性突變,造成對(duì)突變危害的誤判。
[0028] 第三,體細(xì)胞突變?cè)谒型蛔冎械谋壤^少,在單細(xì)胞中由于每個(gè)樣本的測(cè)序數(shù) 據(jù)量比組織測(cè)序要小,精篩時(shí)要通過假設(shè)檢驗(yàn)來排除不可信的位點(diǎn)。并根據(jù)假陽性和等位 基因丟失率來確定在幾個(gè)單細(xì)胞重復(fù)中出現(xiàn)的體細(xì)胞突變是可靠的體細(xì)胞突變。在單細(xì)胞 包個(gè)數(shù)較少的情況下,默認(rèn)突變位點(diǎn)至少要在2個(gè)細(xì)胞中重復(fù)出現(xiàn)。
[0029] 最后對(duì)于多組織單細(xì)胞數(shù)據(jù)的進(jìn)行異質(zhì)性分析,本發(fā)明不僅能夠篩選體細(xì)胞突 變,而是能夠?qū)罄m(xù)研究分析結(jié)果進(jìn)行一定的多功能分析。
【附圖說明】
[0030] 構(gòu)成本發(fā)明的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0031] 圖1為本發(fā)明實(shí)施例所述的一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法的流 程圖;
[0032] 圖2為本發(fā)明實(shí)施例所述的不同組織樣本中單細(xì)胞的假陽性率;
[0033] 圖3為本發(fā)明實(shí)施例所述的不同組織樣本中單細(xì)胞的等位基因丟失率;
[0034]圖4為本發(fā)明實(shí)施例所述的每個(gè)樣本中單細(xì)胞同義突變以及非同義突變的數(shù)目; [0035]圖5為本發(fā)明實(shí)施例所述的不同組織樣本中單細(xì)胞間的基因型距離分布圖;
[0036] 圖6為本發(fā)明實(shí)施例所述的不同組織樣本中單細(xì)胞間PCA分析結(jié)果圖。
【具體實(shí)施方式】
[0037] 需要說明的是,在不沖突的情況下,本發(fā)明中的實(shí)施例及實(shí)施例中的特征可以相 互組合。
[0038]在本發(fā)明的描述中,需要理解的是,術(shù)語"中心"、"縱向"、"橫向"、"上"、"下"、 "前"、"后"、"左"、"右"、"豎直"、"水平"、"頂"、"底"、"內(nèi)"、"外"等指示的方位或位置關(guān)系為 基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡(jiǎn)化描述,而不是指示或暗 示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對(duì) 本發(fā)明的限制。此外,術(shù)語"第一"、"第二"等僅用于描述目的,而不能理解為指示或暗示相 對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有"第一"、"第二"等的特征可 以明示或者隱含地包括一個(gè)或者更多個(gè)該特征。在本發(fā)明的描述中,除非另有說明,"多個(gè)" 的含義是兩個(gè)或兩個(gè)以上。
[0039]在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語"安裝"、"相 連"、"連接"應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可 以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是 兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以通過具體情況理解上述術(shù)語 在本發(fā)明中的具體含義。
[0040] 下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0041] 如圖1所示,為本發(fā)明實(shí)施例所述的一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè) 方法的流程圖。
[0042]本發(fā)明通過單細(xì)胞MDA方法擴(kuò)增后的全外顯子組測(cè)序數(shù)據(jù)為例,在3各腫瘤組織 (Tissuel,11881162,11881163)中分別做了組織測(cè)序和單細(xì)胞測(cè)序,并用血樣作為正常對(duì)照。 外顯子組測(cè)序流程處理結(jié)果統(tǒng)計(jì)如表4.1所示,
[0045]首先,計(jì)算單細(xì)胞數(shù)據(jù)的假陽性率,單細(xì)胞基因組突變的假陽性體現(xiàn)了測(cè)序可靠 性。通過組織測(cè)序和單細(xì)胞測(cè)序我們能獲得在組織樣本和單細(xì)胞樣本中的突變位點(diǎn)信息。 通常,我們定義在組織測(cè)序和單細(xì)胞測(cè)序中都發(fā)現(xiàn)的突變?yōu)檎骊栃酝蛔?TP mutation),在 組織測(cè)序中發(fā)現(xiàn)但是在單細(xì)胞中沒有發(fā)現(xiàn)的突變是假陰性突變(FN mutation),在單細(xì)胞 中發(fā)現(xiàn)但是沒有在組織測(cè)序中發(fā)現(xiàn)的突變是假陽性突變(FP mutation),真陰性突變則是 在組織測(cè)序中沒有被識(shí)別成突變的位點(diǎn)(TN mutation)。根據(jù)上述四個(gè)數(shù)據(jù)可以計(jì)算假陽 性率FPR = FP/(FP+TN),在這里要強(qiáng)調(diào)計(jì)算時(shí)TN是組織測(cè)序中沒有被識(shí)別成突變的位點(diǎn),而 不是單細(xì)胞中沒有被識(shí)別成突變的位點(diǎn)。單細(xì)胞假陽性越高,每個(gè)突變位點(diǎn)的可靠性越低, 需要綜合多個(gè)細(xì)胞的結(jié)果來篩選可靠的體細(xì)胞突變位點(diǎn)。圖2展示了三個(gè)腫瘤組織中單細(xì) 胞突變的假陽性比例大約在萬分之二到萬分之五之間,即一個(gè)單細(xì)胞的所有突變位點(diǎn)中有 萬分之二到萬分之五是假突變;
[0046]其次,計(jì)算單細(xì)胞的等位基因丟失率,等位基因丟失率體現(xiàn)了單細(xì)胞擴(kuò)增方法的 可靠性,等位基因丟失會(huì)導(dǎo)致突變位點(diǎn)的基因型(純合、雜合)發(fā)生改變,這會(huì)導(dǎo)致在后續(xù)的 分析中將一些雜合性突變誤判成純合性突變。在生物學(xué)中雜合性突變的危害程度要比純合 性突變低。等位基因的丟失率必須通過單細(xì)胞同組織數(shù)據(jù)的比較而得到。通常定義在組織 數(shù)據(jù)中突變頻率小于95 %的位點(diǎn)是雜合性突變,頻率大于等于95 %是純合性突變,提取所 有已知的普通SNP在組織中是雜合性突變的位點(diǎn);根據(jù)組織中提取的雜合性突變位點(diǎn),找其 對(duì)應(yīng)的單細(xì)胞中是否變?yōu)榧兒闲酝蛔?突變頻率大于或等于95% ),并計(jì)算在單細(xì)胞中變?yōu)?純合型突變的比例,該比例即為等位基因丟失率;圖3展示了三個(gè)腫瘤樣本中的單細(xì)胞等位 基因丟失率在20 %到60 %之間,這說明所有的單細(xì)胞純合突變中有20 %到60 %是假純合, 如果需要排除假純合情況需要統(tǒng)計(jì)至少三個(gè)單細(xì)胞中都出現(xiàn)的體細(xì)胞突變位點(diǎn);
[0047]再次,過濾體細(xì)胞突變位點(diǎn),篩選可信度高的突變,得出每個(gè)樣本的體細(xì)胞突變, 統(tǒng)計(jì)每個(gè)樣本非同義突變個(gè)數(shù)和總個(gè)數(shù),體細(xì)胞突變?cè)谒型蛔冎械谋壤^少,在單細(xì)胞 中由于每個(gè)樣本的測(cè)序數(shù)據(jù)量比組織測(cè)序要小,精篩時(shí)要通過假設(shè)檢驗(yàn)來排除不可信的位 點(diǎn)。
[0048] 條件如下:
[0049] 1.在腫瘤樣本和對(duì)照樣本中的測(cè)序短序列覆蓋深度要大于等于5。
[0050] 2.在對(duì)照樣本中的突變位點(diǎn)頻率小于等于5%。
[0051] 3.在腫瘤樣本中的突變位點(diǎn)頻率大于等于10%。
[0052]通過Fisher精確性檢驗(yàn)來判斷在腫瘤樣本和對(duì)照樣本中突變位點(diǎn)的頻率有很大 差異,并對(duì)假設(shè)檢驗(yàn)的P值進(jìn)行矯正,根據(jù)假陽性率和等位基因丟失率來確定在幾個(gè)單細(xì)胞 重復(fù)中出現(xiàn)的體細(xì)胞突變是可靠的體細(xì)胞突變。
[0053] 每個(gè)樣本中的同義突變和非同義突變比例如圖4所示,可以看到每個(gè)單細(xì)胞樣本 中找到的體細(xì)胞突變的比例在20個(gè)左右,其中同義突變總數(shù)要高于非同義突變;
[0054] 根據(jù)上述分析,可以看出該樣本中的等位基因丟失率較高,在確定可靠的體細(xì)胞 突變時(shí),要保證這個(gè)突變至少在3到4個(gè)單細(xì)胞中都出現(xiàn)。接下來根據(jù)最后確定的體細(xì)胞突 變結(jié)果,分析組織內(nèi)部的細(xì)胞異質(zhì)性情況,分析每個(gè)樣本中突變基因型之間的差異性,計(jì)算 兩兩細(xì)胞間的Jaccard距離:
[0055] 其中,A是細(xì)胞A的所有突變位點(diǎn)頻率信息,B是細(xì)胞B的所有突變位點(diǎn)頻率信息,根 據(jù)Jaccard距離,細(xì)胞間距離大的異質(zhì)性強(qiáng),反之異質(zhì)性弱,不同組織樣本中單細(xì)胞間的基 因型距離分布如圖5所示;對(duì)單細(xì)胞進(jìn)行主成分分析,計(jì)算單細(xì)胞在第一主成分和第二主成 分所組成的平面上的位置,位置近的細(xì)胞間突變情況相似,異質(zhì)性弱,反之,突變情況差異 大異質(zhì)性強(qiáng),不同組織樣本中單細(xì)胞間PCA分析結(jié)果如圖6所示;可以發(fā)現(xiàn)這三類細(xì)胞的突 變位點(diǎn)有很大差異。
[0056]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法,其特征在于:包括如下步驟, (1) 計(jì)算單細(xì)胞基因組突變的假陽性率; (2) 計(jì)算在單細(xì)胞樣本測(cè)序中的等位基因丟失率; (3) 挖掘體細(xì)胞突變,過濾體細(xì)胞突變; (4) 分析單細(xì)胞間的異質(zhì)性。2. 根據(jù)權(quán)利要求1所述的一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法,其特征在 于:所述步驟(1)中,通過組織測(cè)序和單細(xì)胞測(cè)序獲得在組織樣本和單細(xì)胞樣本中的突變位 點(diǎn)信息,首先定義在組織測(cè)序和單細(xì)胞測(cè)序中都發(fā)現(xiàn)的突變?yōu)檎骊栃酝蛔?TP mu化tion), 在組織測(cè)序中發(fā)現(xiàn)但是在單細(xì)胞中沒有發(fā)現(xiàn)的突變是假陰性突變(FN mutation),在單細(xì) 胞中發(fā)現(xiàn)但是沒有在組織測(cè)序中發(fā)現(xiàn)的突變是假陽性突變(FP mutation),在組織測(cè)序中 沒有被識(shí)別成突變的位點(diǎn)為真陽性突變(TN mu化tion),根據(jù)上述數(shù)據(jù)計(jì)算假陽性率FPR = FP/(FP巧N),假陽性率越高,突變位點(diǎn)的可靠性越低。3. 根據(jù)權(quán)利要求1所述的一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法,其特征在 于:所述步驟(2)中具體包括如下步驟, (al)首先定義在組織數(shù)據(jù)中突變頻率小于95%的位點(diǎn)是雜合性突變; (bl)提取所有已知的普通SNP在組織中是雜合性突變的位點(diǎn); (cl)根據(jù)組織中提取的雜合性突變位點(diǎn),找其對(duì)應(yīng)的單細(xì)胞中是否變?yōu)榧兒闲酝蛔?(突變頻率大于或等于95%),并計(jì)算在單細(xì)胞中變?yōu)榧兒闲屯蛔兊谋壤摫壤礊榈任?基因丟失率,等位基因丟失率越高,突變位點(diǎn)的可靠性越低。4. 根據(jù)權(quán)利要求1所述的一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法,其特征在 于:所述步驟(3)具體包括如下步驟, (a2)首先在腫瘤組織測(cè)序結(jié)果中短序列覆蓋深度大于等于5的位置分析突變位點(diǎn),將 在腫瘤樣本中的突變位點(diǎn)頻率大于等于10%的位點(diǎn)作為候選集合; (b2)其次在癌旁/血液樣本的測(cè)序結(jié)果中分析短序列覆蓋深度大于等于5的突變位點(diǎn), 在對(duì)照樣本中突變位點(diǎn)頻率小于等于5%的位點(diǎn)是生殖細(xì)胞突變; (c2)通過Fisher精確性檢驗(yàn)來判斷在腫瘤樣本和對(duì)照樣本中突變位點(diǎn)的頻率差異性, 差異大的位點(diǎn)即為體細(xì)胞突變; (d2)根據(jù)假陽性率、等位基因丟失率確定在幾個(gè)單細(xì)胞重復(fù)中出現(xiàn)的體細(xì)胞突變是可 靠的體細(xì)胞突變,在單細(xì)胞包個(gè)數(shù)較少的情況下,突變位點(diǎn)至少要在2個(gè)細(xì)胞中重復(fù)出現(xiàn)。5. 根據(jù)權(quán)利要求1所述的一種單細(xì)胞外顯子測(cè)序腫瘤體細(xì)胞突變檢測(cè)方法,其特征在 于:所述步驟(4)中,分析每個(gè)樣本中突變基因型之間的差異性, (1) 按照下式計(jì)算兩兩細(xì)胞間的Jaccard距離,計(jì)算公式為W U. 6) = .1. - /(1. 6) = -^ ^ ^-- 其中,A是細(xì)胞A的所有突變位點(diǎn)頻率信息,B是細(xì)胞B的所有突變位點(diǎn)頻率信息,根據(jù) Jaccard距離,細(xì)胞間距離大的異質(zhì)性強(qiáng),反之異質(zhì)性弱; (2) 對(duì)單細(xì)胞進(jìn)行主成分分析,計(jì)算單細(xì)胞在第一主成分和第二主成分所組成的平面 上的位置,位置近的細(xì)胞間突變情況相似,異質(zhì)性弱,反之,突變情況差異大異質(zhì)性強(qiáng)。
【文檔編號(hào)】G06F19/22GK105969856SQ201610319414
【公開日】2016年9月28日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】薛成海, 劉宇, 俞麗佳
【申請(qǐng)人】萬康源(天津)基因科技有限公司