靶向的測序讀取值的準確且快速的定位的制作方法
【專利說明】靶向的測序讀取值的準確且快速的定位 發(fā)明領域
[0001] 本公開總體涉及使用基因組測序分析生物樣品,并且更具體地涉及準確且快速定 位從靶向測序方法獲得的測序讀取值。
[0002] 背景 對于特定患者,醫(yī)生可想要分析患者基因組的一個或多個特定(目標)區(qū)域(例如,每 個區(qū)域100-500個堿基)。例如,患者的基因的特定部分可用于測試突變。因為只有某些區(qū) 域待分析,所以已經(jīng)開發(fā)了技術用于增加樣品中來自目標區(qū)域的基因組區(qū)段(例如,DNA片 段)的百分比。此類技術包括目標區(qū)域的擴增和富集。
[0003] 在擴增中,雜交至目標區(qū)域的引物用于擴增具有對應于目標區(qū)域的序列的基因組 區(qū)段。期望的結果是,樣品將含有目標區(qū)域的許多基因組區(qū)段,并且因此當測序該基因組區(qū) 段時,高百分比的讀取值將對應于目標區(qū)域。因此,在從基因組的非目標區(qū)域測序基因組區(qū) 段中沒有浪費顯著的測序努力。在富集中,雜交至目標區(qū)域的探針可用于捕獲對應于目標 區(qū)域的基因組區(qū)段,從而增加對應于目標區(qū)域的讀取值的百分比。
[0004] 然而,在擴增和富集兩者中,仍然讀取來自基因組的其他部分的基因組區(qū)段。因 此,目前的技術將讀取值比對(定位)至整個基因組以確保準確性,尤其當分析目標區(qū)域相 對于參考基因組的突變時。即,一旦獲得序列讀取值,將該序列與參考基因組比較以發(fā)現(xiàn)與 該讀取值最佳匹配的基因組位置。已經(jīng)比對讀取值之后,然后分析與目標區(qū)域比對的讀取 值。這種與整個基因組的比對在計算上是昂貴的。
[0005] 因此,期望提供在計算上更有效的改進的方法、系統(tǒng)和裝置。
[0006] 概述 實施方案可提供從靶向測序獲得的測序讀取值的準確且快速的定位。例如,一旦選擇 目標區(qū)域,則可以鑒定與目標區(qū)域足夠類似的基因組的替代區(qū)域。如果測序讀取值相比于 替代區(qū)域更類似于目標區(qū)域,則可以確定讀取值與目標區(qū)域序列匹配。然后可以分析與目 標區(qū)域序列匹配的讀取值以確定目標區(qū)域中是否存在突變。因此,然后可以將測序讀取值 與目標區(qū)域和相應的替代區(qū)域(而不是與整個基因組)比較,由此提供計算效率。
[0007] 根據(jù)一個實施方案,一種方法檢測生物的樣品基因組的目標區(qū)域中的變體。接收 多個序列讀取值。序列讀取值獲得自測序從生物獲得的樣品中的基因組區(qū)段,其中所述測 序包括靶向來自目標區(qū)域的基因組區(qū)段。鑒定了與參考基因組的目標區(qū)域相比具有各自第 一數(shù)目的變化的一個或多個替代區(qū)域。每個各自第一數(shù)目大于一,并且小于第一閾值數(shù)目。 計算機系統(tǒng)進行多個序列讀取值與參考基因組的目標區(qū)域的比對,以鑒定與參考基因組的 目標區(qū)域序列匹配且具有小于第二閾值數(shù)目的變化的序列讀取值的組??梢詮脑摻M中去除 與替代區(qū)域之一序列匹配且具有小于第三閾值數(shù)目的第二數(shù)目的變化的序列讀取值。分析 該組的剩余序列讀取值以確定樣品基因組的目標區(qū)域中的變體。
[0008] 其他實施方案涉及與本文描述的方法相關的系統(tǒng)、裝置和計算機可讀介質。
[0009] 可以參考以下詳述和附圖獲得本發(fā)明的性質和優(yōu)點的更好理解。
[0010] 定義 如本文所使用,"生物學樣品"包括來自獲得樣品的生物的基因組的核酸分子。例如, 所述樣品可包括含有染色體中編碼的基因組的細胞。"基因組區(qū)段"是全部或部分測序的核 酸分子,其中所述分子來自生物的基因組。該區(qū)段可以通過將基因組的較大段片段化來生 成,例如,通過使細胞經(jīng)受聲波??梢詼y序基因組區(qū)段以提供"測序讀取值"(也稱為"序列 讀取值"或者僅"讀取值")。測序讀取值可以是整個基因組區(qū)段或僅區(qū)段的部分。
[0011] "目標區(qū)域"是基因組的區(qū)域,其中片段已經(jīng)使用引物和擴增方法擴增或已經(jīng)使用 探針富集。"替代區(qū)域"是類似于目標區(qū)域的區(qū)域,例如,通過具有少于指定數(shù)目的變化,其 可以被指定為序列的總堿基的百分比。"參考基因組"(也簡稱"參考")是與之比對序列讀 取值的任何已知序列。參考基因組可以對應于生物的基因組的所有或僅部分。參考基因組 還可以包括多于一種生物的基因組。例如,也可以將序列讀取值針對病毒的數(shù)據(jù)庫進行比 較,因為此類病毒可以在生物樣品中。
[0012] 變化(也稱為變體或突變)是指兩個序列之間的差異。例如,序列讀取值和參考 基因組的目標區(qū)域之間的差異可以得到計數(shù),并且可鑒定突變(例如,如果足夠的序列讀 取值顯示突變)。變化可以,例如,是一個堿基改變至一個或多個其他堿基,一個或多個堿基 的插入,或一個或多個堿基的缺失。變化可以發(fā)生在一個或兩個染色體中。實施方案可用 于確定序列讀取值是否是突變或實際上來自基因組的相似部分的基因組區(qū)段的證據(jù)。
[0013] 附圖簡述 圖1是說明檢測生物的樣品基因組的目標區(qū)域中的變體的方法100的流程圖。
[0014] 圖2A顯示基因組的目標區(qū)域的參考序列(SEQIDNO: 1)。圖2B顯示根據(jù)本發(fā)明 的實施方案通過MCF過濾掉的序列讀取值(SEQIDN0:2)。
[0015] 圖3顯示根據(jù)本發(fā)明的實施方案的序列讀取值310(SEQIDNO: 3)相對于目標序 列(即目標區(qū)域)320(SEQIDN0:4)的比較。
[0016] 圖4顯示根據(jù)本發(fā)明的實施方案的序列讀取值410(SEQIDNO:6)相對于目標序 列(即目標區(qū)域)420(SEQIDNO: 5)的比較的另一個實例。
[0017] 圖5顯示根據(jù)本發(fā)明的實施方案的序列讀取值510(SEQIDN0:8)相對于目標序 列(即目標區(qū)域)520(SEQIDN0:7)的比較的另一個實例。
[0018] 圖6是說明根據(jù)本發(fā)明的實施方案檢測生物的樣品基因組的目標區(qū)域中的變體 的方法的流程圖。
[0019] 圖7是用于根據(jù)本發(fā)明的實施方案鑒定對應于目標區(qū)域的替代區(qū)域的方法700的 流程圖。
[0020] 圖8顯示可與根據(jù)本發(fā)明的實施方案的系統(tǒng)和方法使用的實例計算機系統(tǒng)800的 方框圖。
[0021] 圖9是顯示根據(jù)本發(fā)明的實施方案在多個樣品和多次運行中出現(xiàn)的復雜突變的 表格。
[0022] 詳述 可以使用靶向測序有效地分析基因組的特定區(qū)域。例如,生物樣品的基因組區(qū)段的百 分比可以通過以下來增加:克隆對應于目標區(qū)域的區(qū)段(例如,在擴增過程、諸如聚合酶鏈 式反應(PCR)中使用引物)和/或使用優(yōu)先捕獲對應于目標區(qū)域的區(qū)段的探針??梢詼y序 和分析目標-增加樣品中的基因組區(qū)段(生物樣品的一個實例),以研宄目標區(qū)域中的可能 突變。
[0023]由于僅對目標區(qū)域感興趣,所以可以僅將序列讀取值與目標區(qū)域比對。這相對于 將讀取值與整個參考基因組比對將減少計算工作量。然而,此類過程可導致誤差。例如,在 使用具有擴增或富集的先前步驟的高通量下一代測序的變體檢測中,可能擴增子/富集的 文庫(目標-增加的樣品)含有假陽性讀取值,g卩,對應于基因組區(qū)段(所述基因組區(qū)段不 對應于預定目標區(qū)域)的讀取值。這些讀取值可導致不正確的突變報道,并且可以提供產(chǎn)品 開發(fā)的誤導性信息,或者甚至錯誤的診斷結論。假陽性可以通過各種方法來降低,諸如適當 設計引物和開發(fā)高保真酶。然而,假陽性仍然存在。
[0024]實施方案可以提供解決方案以便以有效的方式排除假陽性讀取值。作為實例,對 于顯著不同于目標的讀取值,用于鑒定和排除顯著不同于目標的讀取值的突變計數(shù)過濾器 (MCF)。另一個實例是鑒定對應于類似于目標區(qū)域的替代區(qū)域的假陽性讀取值。
[0025] 在一個實施方案中,具體鑒定基因組的替代(非目標)區(qū)域??梢蕴貏e指出替代 區(qū)域和目標區(qū)域之間的變化。當序列讀取值與目標區(qū)域匹配(除了特定數(shù)目的鑒定的替代 區(qū)域特有的變化特征)時,該序列讀取值可以從目標區(qū)域的分析中丟棄。以這種方式,該序 列讀取值僅需要與目標區(qū)域比對,并且丟棄假陽性。
[0026] 替代區(qū)域可以提前鑒定,并且存儲在數(shù)據(jù)庫中。一旦選擇目標區(qū)域,則可以讀出替 代區(qū)域。在確定鑒定區(qū)域的一個實施中,復雜突變的報道(例如,相對于目標區(qū)域的多于一 個變化)可用于發(fā)現(xiàn)出現(xiàn)在多次運行和/或多個樣品中的變體組合。如果復雜突變的序列 是共有的(即,檢測到足夠量的次數(shù)),則可以將復雜突變序列與參考基因組比對,以鑒定 它是否對應于替代區(qū)域。因此,對應于特定變體組合的讀取值(即,由相對于目標區(qū)域的替 代區(qū)域給出的變體組合)可以從針對目標區(qū)域的突變的分析中丟棄。
[0027] 在一些實施方案中,多個目標區(qū)域可以同時進行分析。在此類實施方案中,可以將 測序讀取值與所有目標區(qū)域和對應的替代區(qū)域比較。但是,由于區(qū)域的數(shù)目與整個參考基 因組相比相對小,所以比對仍然是有效的。例如,已經(jīng)在癌癥基因小組項目(CancerGene Panelproject)的數(shù)據(jù)上用與癌癥相關的12種基因的多達60個擴增子成功地使用了實施 方案。
[0028]I?靶向測序 測序運行可生成數(shù)百萬的讀取值。在計算時間和存儲器資源方面將所有讀取值定位至 整個基因組是非常有挑戰(zhàn)性的。對于目標-增加的運行(例如,用擴增或富集),主要興趣 是定位至目標區(qū)域(例如,基因的特定區(qū)域或整個基因)的讀取值。然而,如果計算機系統(tǒng) 僅定位至這些目標區(qū)域的參考,則它可以通過錯過一些讀取值可以更好地定位至基因組的 其他部分而高估在目標區(qū)域的讀取值的覆蓋范圍。但是,定位至整個基因組是昂貴的。因 此,實施方案可以定位至基因組的僅某些部分,同時提供準確的結果。
[0029] 圖1是說明檢測生物的樣品基因組的目標區(qū)域中的變體的方法100的流程圖。正 如其他方法,實施方案可以包括所述步驟的所有或部分,并且一些步驟可以用計算機系統(tǒng) 進行。方法100的結果可以由醫(yī)生用于確定生物的診斷中。
[0030] 在方框110中,接收生物樣品。所述生物樣品包括DNA,其可以是在染色體的基因 組區(qū)段中或作為完整染色體。例如,一些細胞可以獲得自正在測試基因組的特定區(qū)域中的 突變的患者。所述細胞可以獲得自正在測試癌癥的腫瘤的活檢樣品。
[0031]樣品的DNA可以進行片段化,例如,通過超聲處理或其他合適的方法,以獲得較小 的基因組區(qū)段。例如,可以獲得200-500個堿基長的基因組區(qū)段。對于某些測序程序,約該 長度的基因組區(qū)段是優(yōu)選的。然而,實施方案可以使用任何長度的基因組區(qū)段。
[0032]所述基因組區(qū)段可以用條形碼或多重標識符(MID)標記。例如,可以將10個堿基 的序列添加(例如,使用連接酶)至基因組區(qū)段的末端。以這種方式,來自各種樣品的區(qū)段 可以在相同的測序運行過程中使用ID來平行測序以多重化。所述ID可以閱讀為序列讀取 值的部分,并且具有相同ID的讀取值可以歸因于相同樣品,并且作為組進行分析。不同樣 品可以來自不同人或相同人(例如,不同的活檢樣品),并且可以使用不同的實驗條件。
[0033]在方框120,來自樣品中的目標區(qū)域的基因組區(qū)段的百分比得到增加。在各個實施 方案中,所述百分比可以通過擴增和/或富集樣品的來自基因組的一個或多個靶向區(qū)域的 DNA而增加。所得樣品可以被稱為目標-增加的樣品。通常,目標區(qū)域將具有診斷相關性, 例如,以查看是否