相關(guān)申請(qǐng)
本申請(qǐng)與2015年2月25日提交的標(biāo)題為“systemsandmethodsforvisualizingstructuralvariationandphasinginformation”的美國(guó)專(zhuān)利申請(qǐng)no.62/120,873相關(guān),所述美國(guó)專(zhuān)利申請(qǐng)?zhí)卮艘匀囊玫姆绞讲⑷氡疚闹小?/p>
本申請(qǐng)還與2015年1月13日提交的標(biāo)題為“systemsandmethodsforvisualizingstructuralvariationandphasinginformation”的美國(guó)專(zhuān)利申請(qǐng)no.62/102,926相關(guān),所述美國(guó)專(zhuān)利申請(qǐng)?zhí)卮艘匀囊玫姆绞讲⑷氡疚闹小?/p>
本說(shuō)明書(shū)描述了與使核酸測(cè)序數(shù)據(jù)中的結(jié)構(gòu)變異和相位信息可視化有關(guān)的技術(shù)。
背景
根據(jù)從使用大規(guī)模并行測(cè)序方法進(jìn)行測(cè)序的人類(lèi)基因組獲得的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行的單倍型組裝已成為基因數(shù)據(jù)的重要來(lái)源。此類(lèi)數(shù)據(jù)用作實(shí)現(xiàn)基于遺傳學(xué)的診斷以及人疾病研究、檢測(cè)和個(gè)性化治療的劃算方式。
通過(guò)此類(lèi)大規(guī)模并行測(cè)序方法提供的大范圍信息(long-rangeinformation)(例如)在2014年10月29日提交的標(biāo)題為“analysisofnucleicacidsequences”的美國(guó)專(zhuān)利申請(qǐng)no.62/072,214中公開(kāi)。此類(lèi)技術(shù)極大地方便了對(duì)基因組的大規(guī)模結(jié)構(gòu)變異(諸如易位、大片段缺失或基因融合)的檢測(cè)。其它實(shí)例包括但不限于邊合成邊測(cè)序平臺(tái)(sequencing-by-synthesisplatform)(illumina),bentley等人,2008,“accuratewholehumangenomesequencingusingreversibleterminatorchemistry”,nature456:53-59”;邊連接邊測(cè)序平臺(tái)(sequencing-by-litigationplatform)(polonator;abisolid),shendure等人,2005,“accuratemultiplexpolonysequencingofanevolvedbacterialgenome”,science309:1728-1732;焦磷酸測(cè)序平臺(tái)(roche454),margulies等人,2005,“genomesequencinginmicrofabricatedhigh-densitypicoliterreactors”,nature437:376-380;以及單分子測(cè)序平臺(tái)(helicosheliscape);pushkarev等人,2009,“single-moleculesequencingofanindividualhumangenome”,naturebiotech17:847-850”;(pacificbiosciences)eid等人,“real-timesequencingformsinglepolymerasemolecules”,science323:133-138,每篇參考文獻(xiàn)都特此以全文引用的方式并入。
鑒于跨越了人類(lèi)基因組的大部分的單倍型數(shù)據(jù)的可用性,需要用于有效地處理此數(shù)據(jù)以便推進(jìn)上述診斷、發(fā)現(xiàn)和治療等目標(biāo)的方法,尤其是在個(gè)人基因組的全基因組測(cè)序的成本降到$1000以下時(shí)。為了根據(jù)此類(lèi)數(shù)據(jù)在計(jì)算上組裝單倍型,需要找出來(lái)自樣本中存在的兩個(gè)單倍型的讀段并且推斷出該兩個(gè)單倍型的共有序列。此類(lèi)問(wèn)題已被展示為np難題。參見(jiàn)lippert等人,2002,“algorithmicstrategiesforthesinglenucleotidepolymorphismhaplotypeassemblyproblem,”brief.bionform3:23-31,該篇參考文獻(xiàn)特此以引用方式并入。
組裝查看器consed支持通過(guò)上述測(cè)序方法獲得的讀段的可視化。參見(jiàn)gordon1998,“consed:agraphicaltoolforsequencingfinishing,”genomeresearch8:198-202。
另一種可視化工具是eagleview。參見(jiàn)huang和marth,2008,“eagleview:agenomeassemblyviewerfornext-generationsequencingtechnologies,”genomeresearch18:1538-1543。
另一種此類(lèi)查看器是hapedit。參見(jiàn)kim等人,“hapedit:anaccuracyassessmentviewerforhaplotypeassemblyusingmassivelyparalleldna-sequencingtechnologies.”nucleicacidsresearch,2011,1-5。hapedit提供了用于評(píng)估單倍型組裝的準(zhǔn)確性的工具并且準(zhǔn)許用戶(hù)通過(guò)眾多不同的測(cè)序技術(shù)來(lái)適應(yīng)讀段序列的組合率。
雖然以上公開(kāi)的程序各自本身都是顯著的進(jìn)步,但是所述程序并未充分地解決本領(lǐng)域中對(duì)用于在視覺(jué)上評(píng)估測(cè)序數(shù)據(jù)中的結(jié)構(gòu)變異(例如,缺失、重復(fù)、拷貝數(shù)目變異、插入、倒位、易位、長(zhǎng)末端重復(fù)(ltr)、短串聯(lián)重復(fù)(str)和各種其它有用表征)的工具的需要。
技術(shù)實(shí)現(xiàn)要素:
提供用于在視覺(jué)上評(píng)估結(jié)構(gòu)變異的技術(shù)解決方案(例如,計(jì)算系統(tǒng)、方法和非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì))。通過(guò)一些平臺(tái),諸如2014年10月29日提交的標(biāo)題為“analysisofnucleicacidsequences”的美國(guó)專(zhuān)利申請(qǐng)no.62/072,214(所述申請(qǐng)?zhí)卮艘砸玫姆绞讲⑷?中公開(kāi)的那些平臺(tái),在進(jìn)行靶標(biāo)識(shí)別之前對(duì)基因組進(jìn)行分段和分區(qū)并編制條形碼。因此,在基因組上保持了條形碼信息的完整性。使用條形碼信息通過(guò)刪除基因組的展示出明顯條形碼重疊的區(qū)來(lái)識(shí)別可能的結(jié)構(gòu)變異斷點(diǎn)。還使用條形碼信息來(lái)獲得相位信息。
下文呈現(xiàn)了本發(fā)明的概述,以便提供對(duì)本發(fā)明的一些方面的基本理解。此概述不是本發(fā)明的廣泛概括。它不旨在識(shí)別本發(fā)明的重要/關(guān)鍵元件或描繪本發(fā)明的范圍。它的唯一目的是以簡(jiǎn)化形式呈現(xiàn)本發(fā)明的一些概念,作為之后呈現(xiàn)的更詳細(xì)描述的前序。
本公開(kāi)的一個(gè)方面是一種用于經(jīng)由網(wǎng)絡(luò)連接將結(jié)構(gòu)變異或相位信息提供至遠(yuǎn)程客戶(hù)端計(jì)算機(jī)的系統(tǒng)。所述系統(tǒng)包括一個(gè)或多個(gè)微處理器、持久存儲(chǔ)器和非持久存儲(chǔ)器。所述持久存儲(chǔ)器(例如硬盤(pán))和所述非持久存儲(chǔ)器(例如ram存儲(chǔ)器)共同地存儲(chǔ)一個(gè)或多個(gè)核酸序列數(shù)據(jù)集。所述一個(gè)或多個(gè)核酸序列數(shù)據(jù)集中的每一相應(yīng)核酸測(cè)序數(shù)據(jù)集對(duì)應(yīng)于多個(gè)樣本中的相應(yīng)樣本中的至少一個(gè)靶核酸。所述相應(yīng)樣本與物種的參考基因組相關(guān)聯(lián),在一些實(shí)施方案中,所述參考基因組可以作為所述相應(yīng)樣本的分析的基準(zhǔn)。舉例來(lái)說(shuō),在一些實(shí)施方案中,將相應(yīng)樣本映射至參考基因組,并且參考基因組由此用作用于對(duì)查詢(xún)進(jìn)行剖析的模板(參考)以使相應(yīng)樣本的部分可視化。舉例來(lái)說(shuō),在一些實(shí)施方案中,樣本來(lái)自人受試者。在此類(lèi)情況下,人類(lèi)基因組(與來(lái)自不同物種的基因組相對(duì))用作參考基因組,并且將相應(yīng)樣本映射至人類(lèi)基因組。這樣,可以基于至參考基因組的此類(lèi)映射,使用所公開(kāi)的系統(tǒng)和方法來(lái)解釋和處理使來(lái)自所述樣本的某些人染色體或者其部分中的序列或序列變化可視化的請(qǐng)求。
所述相應(yīng)核酸測(cè)序數(shù)據(jù)集包括(i)標(biāo)頭、(ii)概要和(iii)數(shù)據(jù)段。所述數(shù)據(jù)段包括來(lái)自所述樣本的多個(gè)比對(duì)的序列讀段和關(guān)于所作的每一變異識(shí)別(variantcall)的信息。有利地,所述數(shù)據(jù)段是可擴(kuò)展的并且可以存儲(chǔ)額外數(shù)據(jù)。所述多個(gè)測(cè)序讀段中的每一相應(yīng)測(cè)序讀段包括與所述相應(yīng)樣本中的至少一個(gè)靶核酸的子集對(duì)應(yīng)的第一部分以及對(duì)多個(gè)識(shí)別符中所述相應(yīng)測(cè)序讀段的相應(yīng)識(shí)別符進(jìn)行編碼的第二部分。每一相應(yīng)識(shí)別符獨(dú)立于所述至少一個(gè)靶核酸的序列。所述多個(gè)測(cè)序讀段中的測(cè)序讀段共同地包括所述多個(gè)識(shí)別符。
所述持久存儲(chǔ)器和所述非持久存儲(chǔ)器進(jìn)一步共同地存儲(chǔ)一個(gè)或多個(gè)程序,所述程序使用所述一個(gè)或多個(gè)微處理器來(lái)將單倍型可視化工具提供至客戶(hù)端以便安裝在所述遠(yuǎn)程客戶(hù)端計(jì)算機(jī)上。所述系統(tǒng)接收經(jīng)由網(wǎng)絡(luò)連接(例如因特網(wǎng))從所述客戶(hù)端發(fā)送的對(duì)使用所述一個(gè)或多個(gè)數(shù)據(jù)集中的第一數(shù)據(jù)集的結(jié)構(gòu)變異或相位信息的請(qǐng)求。響應(yīng)于接收到所述請(qǐng)求,通過(guò)執(zhí)行一種方法來(lái)對(duì)所述請(qǐng)求進(jìn)行自動(dòng)篩選,所述方法包括:如果所述第一數(shù)據(jù)集的所述標(biāo)頭和所述概要還沒(méi)有載入至所述非持久存儲(chǔ)器中,那么將所述第一數(shù)據(jù)集的所述標(biāo)頭和所述概要載入至所述非持久存儲(chǔ)器中,同時(shí)將所述數(shù)據(jù)段保持在持久存儲(chǔ)器中。在所述方法中,將所述請(qǐng)求與所述第一數(shù)據(jù)集的所述概要進(jìn)行比較(對(duì)照所述概要來(lái)進(jìn)行分析),由此識(shí)別所述第一數(shù)據(jù)集的所述數(shù)據(jù)段的一個(gè)或多個(gè)部分。轉(zhuǎn)而將所述數(shù)據(jù)段的這一個(gè)或多個(gè)經(jīng)識(shí)別部分載入至非持久存儲(chǔ)器中。使用所述第一數(shù)據(jù)集對(duì)結(jié)構(gòu)變異或相位信息進(jìn)行格式化以便在所述客戶(hù)端計(jì)算機(jī)上顯示。之后經(jīng)由所述網(wǎng)絡(luò)連接將所述經(jīng)格式化的結(jié)構(gòu)變異或相位信息傳輸至所述客戶(hù)端裝置以便在所述客戶(hù)端裝置上顯示。
在一些實(shí)施方案中,所述標(biāo)頭描述了所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中的多個(gè)組成部分。在一些實(shí)施方案中,所述多個(gè)組成部分包括選自由以下各者組成的組中的兩個(gè)或更多個(gè)組成部分、三個(gè)或更多個(gè)組成部分、四個(gè)或更多個(gè)組成部分或五個(gè)或更多個(gè)組成部分:概述、變異識(shí)別數(shù)據(jù)的索引、相位塊軌跡、參考序列索引軌跡、基因軌跡、外顯子軌跡、讀段數(shù)據(jù)的索引、結(jié)構(gòu)變異數(shù)據(jù)集軌跡、靶數(shù)據(jù)集的索引、以及片段數(shù)據(jù)集的索引。
在一些實(shí)施方案中,所述多個(gè)組成部分包括所述概述,并且此概述包括由以下各者組成的組中的兩個(gè)或更多個(gè)項(xiàng)、三個(gè)或更多個(gè)項(xiàng)、四個(gè)或更多個(gè)項(xiàng)、五個(gè)或更多個(gè)項(xiàng)、或六個(gè)或更多個(gè)項(xiàng):所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中已定相的已知snp的百分?jǐn)?shù);所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中的最長(zhǎng)相位塊;所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中所使用的唯一條形碼的數(shù)目;所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中的平均片段長(zhǎng)度;所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中的所述平均片段長(zhǎng)度的均值;所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中大于下限閾值的片段的百分?jǐn)?shù);所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中的片段長(zhǎng)度柱狀圖;所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中的n50相位塊大?。凰鱿鄳?yīng)核酸測(cè)序數(shù)據(jù)集中的相位塊柱狀圖;由所述相應(yīng)核酸測(cè)序數(shù)據(jù)集表示的序列讀段的數(shù)目;所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中的中值插入大?。凰鱿鄳?yīng)核酸測(cè)序數(shù)據(jù)集中的中值深度;所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中具有零覆蓋的目標(biāo)基因組的百分?jǐn)?shù);所述相應(yīng)核酸測(cè)序數(shù)據(jù)集的經(jīng)映射讀段的百分?jǐn)?shù);所述相應(yīng)核酸測(cè)序數(shù)據(jù)集的pcr復(fù)制百分?jǐn)?shù);所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中的覆蓋柱狀圖;形成所述相應(yīng)核酸測(cè)序數(shù)據(jù)集的基礎(chǔ)的測(cè)試核酸的識(shí)別碼;所述相應(yīng)核酸測(cè)序數(shù)據(jù)集的基因組來(lái)源;產(chǎn)生所述相應(yīng)核酸測(cè)序數(shù)據(jù)集的所述至少一個(gè)測(cè)試核酸的生物體的性別;產(chǎn)生所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中的所述相應(yīng)樣本的所述生物體的性別;所述相應(yīng)核酸測(cè)序數(shù)據(jù)集中的數(shù)據(jù)集文件格式版本;以及指向?qū)λ鱿鄳?yīng)核酸測(cè)試數(shù)據(jù)集所進(jìn)行的多個(gè)結(jié)構(gòu)變異識(shí)別的指針。有利地,如信息列表的此非限制性實(shí)例所指示,所公開(kāi)的核酸測(cè)序數(shù)據(jù)集可能含有可能是用戶(hù)感興趣的任意位的元數(shù)據(jù)(例如注釋數(shù)據(jù))以及測(cè)序數(shù)據(jù)。
在一些實(shí)施方案中,所述多個(gè)組成部分包括所述變異識(shí)別數(shù)據(jù)的索引,所述索引提供所述物種的基因組的相應(yīng)范圍與在其中找到針對(duì)所述相應(yīng)范圍的變異識(shí)別數(shù)據(jù)的所述數(shù)據(jù)段中的偏移之間的對(duì)應(yīng)關(guān)系。
在一些實(shí)施方案中,所述多個(gè)組成部分包括所述相位塊軌跡。所述相位塊軌跡包括(i)詞典和(ii)軌跡數(shù)據(jù)段,所述軌跡數(shù)據(jù)段包括所述物種的基因組中的一個(gè)或多個(gè)染色體的相位信息。在一些實(shí)施方案中,所述詞典包括多個(gè)名稱(chēng)以及對(duì)于所述多個(gè)名稱(chēng)中的每一相應(yīng)名稱(chēng)在其中找到針對(duì)所述對(duì)應(yīng)名稱(chēng)的記錄的所述軌跡數(shù)據(jù)中的偏移。在一些實(shí)施方案中,所述軌跡數(shù)據(jù)段包括多個(gè)記錄,并且其中所述多個(gè)記錄中的每一記錄表示所述靶核酸中的相位塊。在一些實(shí)施方案中,所述軌跡數(shù)據(jù)段是json文件格式。
在一些實(shí)施方案中,所述多個(gè)記錄中的每一相應(yīng)記錄指定(i)與所述相應(yīng)記錄對(duì)應(yīng)的染色體數(shù)目、(ii)所述染色體上所述相位塊開(kāi)始的位置、(iii)所述相位塊結(jié)束的位置、(iv)所述記錄的唯一名稱(chēng)、以及(v)關(guān)于所述相位塊的相位信息。
在一些實(shí)施方案中,所述多個(gè)記錄中的每一相應(yīng)記錄由多個(gè)區(qū)間樹(shù)中的相應(yīng)區(qū)間樹(shù)中的多個(gè)節(jié)點(diǎn)中的節(jié)點(diǎn)表示,并且所述多個(gè)區(qū)間樹(shù)中的每一區(qū)間樹(shù)表示所述物種的多個(gè)染色體中的染色體。在一些此類(lèi)實(shí)施方案中,所述多個(gè)區(qū)間樹(shù)中的第一區(qū)間樹(shù)的所述多個(gè)節(jié)點(diǎn)中的節(jié)點(diǎn)存儲(chǔ)所述節(jié)點(diǎn)的中點(diǎn),所述節(jié)點(diǎn)的所述中點(diǎn)是與所述節(jié)點(diǎn)對(duì)應(yīng)的所述相位塊的中點(diǎn)在對(duì)應(yīng)染色體上的位置,所述第一區(qū)間樹(shù)的所述多個(gè)節(jié)點(diǎn)中的每一相應(yīng)節(jié)點(diǎn)具有至左子節(jié)點(diǎn)的鏈接,所述左子節(jié)點(diǎn)對(duì)應(yīng)于在所述物種的基因組中緊靠在由所述相應(yīng)節(jié)點(diǎn)表示的所述相位塊左邊(即,在數(shù)值上小于)的相位塊,所述第一區(qū)間樹(shù)的所述多個(gè)節(jié)點(diǎn)中的每一相應(yīng)節(jié)點(diǎn)具有至右子節(jié)點(diǎn)的鏈接,所述右子節(jié)點(diǎn)對(duì)應(yīng)于在所述物種的基因組中緊靠在由所述相應(yīng)節(jié)點(diǎn)表示的所述相位塊右邊(即,在數(shù)值上大于)的相位塊,所述第一區(qū)間樹(shù)的所述多個(gè)節(jié)點(diǎn)中的每一相應(yīng)節(jié)點(diǎn)具有節(jié)點(diǎn)的有序集合,所述節(jié)點(diǎn)表示與所述相應(yīng)節(jié)點(diǎn)的中點(diǎn)重疊的相位塊,所述相位塊是按此類(lèi)相位塊的左側(cè)位置進(jìn)行排序,并且所述第一區(qū)間樹(shù)的所述多個(gè)節(jié)點(diǎn)中的每一相應(yīng)節(jié)點(diǎn)具有節(jié)點(diǎn)的有序集合,所述節(jié)點(diǎn)表示與所述相應(yīng)節(jié)點(diǎn)的中點(diǎn)重疊的相位塊,所述相位塊是按此類(lèi)相位塊的右側(cè)位置進(jìn)行排序。在一些此類(lèi)實(shí)施方案中,所述第一區(qū)間樹(shù)的所述多個(gè)節(jié)點(diǎn)中的每一相應(yīng)節(jié)點(diǎn)進(jìn)一步包括名稱(chēng),所述名稱(chēng)是所述軌跡數(shù)據(jù)段中相對(duì)于所述多個(gè)記錄中的含有與所述相應(yīng)節(jié)點(diǎn)對(duì)應(yīng)的所述相位塊的相位信息的記錄的偏移。
在一些實(shí)施方案中,所述標(biāo)頭進(jìn)一步包括所述核酸測(cè)序數(shù)據(jù)集所使用的數(shù)據(jù)集結(jié)構(gòu)的版本。在一些實(shí)施方案中,所述多個(gè)組成部分包括參考序列索引,并且所述參考序列索引包括所述樣本中被識(shí)別的多個(gè)分子變化識(shí)別符的索引。在一些此類(lèi)實(shí)施方案中,所述多個(gè)分子變化識(shí)別符中的每一相應(yīng)分子變化識(shí)別符是dbsnp識(shí)別符。
在一些實(shí)施方案中,所述多個(gè)組成部分包括所述基因軌跡。在此類(lèi)實(shí)施方案中,所述基因軌跡包括多個(gè)基因以及對(duì)于所述多個(gè)基因中的每一相應(yīng)基因的所述相應(yīng)基因中的單核苷酸多態(tài)性的數(shù)目。
本公開(kāi)的另一方面提供一種用于經(jīng)由網(wǎng)絡(luò)連接使用本地計(jì)算機(jī)處理程序輸出的系統(tǒng),其中所述本地計(jì)算機(jī)包括一個(gè)或多個(gè)微處理器和存儲(chǔ)一個(gè)或多個(gè)程序的存儲(chǔ)器。所述一個(gè)或多個(gè)程序使用所述一個(gè)或多個(gè)微處理器來(lái)根據(jù)在所述本地計(jì)算機(jī)上運(yùn)行的第一操作系統(tǒng)來(lái)執(zhí)行一種方法。在所述方法中,調(diào)用第一程序的第一實(shí)例。之后,通過(guò)所述第一程序的所述第一實(shí)例從用戶(hù)獲得遠(yuǎn)程計(jì)算機(jī)上的用戶(hù)賬戶(hù)的登錄和密碼。這用于經(jīng)由所述本地計(jì)算機(jī)與所述遠(yuǎn)程計(jì)算機(jī)之間的網(wǎng)絡(luò)連接使所述用戶(hù)自動(dòng)登錄(使用通過(guò)所述第一程序的所述第一實(shí)例提供的所述登錄和所述密碼)到所述遠(yuǎn)程計(jì)算機(jī)上的所述用戶(hù)賬戶(hù)。響應(yīng)于在所述遠(yuǎn)程計(jì)算機(jī)上成功登錄,在無(wú)人工干預(yù)的情況下自動(dòng)發(fā)送所述第一程序的第二實(shí)例,所述第二實(shí)例被配置成在所述遠(yuǎn)程計(jì)算機(jī)還沒(méi)有使所述第一程序在所述用戶(hù)賬戶(hù)中可用時(shí)在傳輸至所述遠(yuǎn)程計(jì)算機(jī)后自動(dòng)安裝在所述遠(yuǎn)程計(jì)算機(jī)上。接下來(lái),從所述遠(yuǎn)程計(jì)算機(jī)接收在所述第一程序的所述第一實(shí)例內(nèi)打開(kāi)面板的請(qǐng)求。所述面板是通過(guò)在所述遠(yuǎn)程計(jì)算機(jī)上運(yùn)行的所述第一程序的所述第二實(shí)例產(chǎn)生。所述面板向所述用戶(hù)請(qǐng)求用于控制所述第一程序的所述第二實(shí)例的輸入。響應(yīng)于在所述本地計(jì)算機(jī)上在所述面板中從所述用戶(hù)接收到用于控制所述第一程序的所述第二實(shí)例的輸入,經(jīng)由所述網(wǎng)絡(luò)連接(例如無(wú)線或有線連接)將所述輸入發(fā)送至所述遠(yuǎn)程計(jì)算機(jī)上的所述第一程序的所述第二實(shí)例。接下來(lái),經(jīng)由所述網(wǎng)絡(luò)連接從所述遠(yuǎn)程計(jì)算機(jī)接收響應(yīng)于所述輸入來(lái)自所述第一程序的所述第二實(shí)例的輸出。在所述本地計(jì)算機(jī)處顯示此輸出。
本公開(kāi)的另一方面提供一種用于查看核酸測(cè)序數(shù)據(jù)的系統(tǒng)。所述系統(tǒng)包括一個(gè)或多個(gè)微處理器和存儲(chǔ)器。所述存儲(chǔ)器存儲(chǔ)一個(gè)或多個(gè)程序,所述程序使用所述一個(gè)或多個(gè)微處理器來(lái)獲得與樣本中的至少一個(gè)靶核酸對(duì)應(yīng)的核酸測(cè)序數(shù)據(jù)集。所述核酸測(cè)序數(shù)據(jù)集包括來(lái)自所述樣本的多個(gè)測(cè)序讀段。所述多個(gè)測(cè)序讀段中的每一相應(yīng)測(cè)序讀段包括與所述樣本中的至少一個(gè)靶核酸的子集對(duì)應(yīng)的第一部分以及對(duì)多個(gè)識(shí)別符中的所述相應(yīng)測(cè)序讀段的相應(yīng)識(shí)別符(例如條形碼)進(jìn)行編碼的第二部分。每一相應(yīng)識(shí)別符獨(dú)立于所述至少一個(gè)靶核酸的序列。所述多個(gè)測(cè)序讀段共同地包括所述多個(gè)識(shí)別符。顯示可視化工具。通過(guò)所述可視化工具獲得來(lái)自用戶(hù)的請(qǐng)求。所述請(qǐng)求指定了由所述核酸測(cè)序數(shù)據(jù)集表示的基因組區(qū)。響應(yīng)于獲得所述請(qǐng)求,通過(guò)從所述核酸測(cè)序數(shù)據(jù)集中獲得所述基因組區(qū)內(nèi)的多個(gè)測(cè)序讀段來(lái)剖析所述請(qǐng)求。針對(duì)所述多個(gè)測(cè)序讀段運(yùn)行掃描窗口,由此產(chǎn)生多個(gè)窗口,所述多個(gè)窗口中的每一相應(yīng)窗口對(duì)應(yīng)于所述基因組區(qū)的不同區(qū)并且包括所述核酸測(cè)序數(shù)據(jù)集中的所述基因組區(qū)的所述不同區(qū)中的每一測(cè)序讀段的每一識(shí)別符的識(shí)別碼。顯示表示所述多個(gè)窗口中的每一可能窗口對(duì)的二維熱點(diǎn)圖。每一相應(yīng)窗口對(duì)在所述二維熱點(diǎn)圖中顯示為基于所述相應(yīng)窗口對(duì)中共同的識(shí)別符的數(shù)目從配色方案中選擇的顏色。
在所附權(quán)利要求書(shū)的范圍內(nèi)的系統(tǒng)、方法和裝置的各種實(shí)施方案各自具有若干方面,其中沒(méi)有單獨(dú)一者獨(dú)自負(fù)責(zé)本文所描述的所要屬性。在不限制所附權(quán)利要求書(shū)的范圍的情況下,在本文中描述一些顯著特征。在考慮此論述之后,并且尤其是在閱讀了標(biāo)題為“具體實(shí)施方式”的部分之后,將理解如何使用各種實(shí)施方案的特征。
以引用方式并入
本說(shuō)明書(shū)中提及的所有公開(kāi)、專(zhuān)利和專(zhuān)利申請(qǐng)以全文引用的方式并入本文中,其程度如同每一單獨(dú)的公開(kāi)、專(zhuān)利或?qū)@暾?qǐng)被明確地并且單獨(dú)地指示為以引用方式并入。
附圖簡(jiǎn)述
在附圖的諸圖中以舉例方式而非以限制方式來(lái)示出本文公開(kāi)的實(shí)現(xiàn)方式。相同的參照符號(hào)在諸圖中指代對(duì)應(yīng)部件。
圖1是示出了根據(jù)一些實(shí)現(xiàn)方式的計(jì)算裝置的示例框圖。
圖2示出了根據(jù)本公開(kāi)的實(shí)施方案的示例性構(gòu)造。
圖3提供了對(duì)根據(jù)本公開(kāi)的實(shí)施方案的核酸測(cè)序數(shù)據(jù)集的概括。
圖4示出了根據(jù)一些實(shí)施方案的在核酸測(cè)序數(shù)據(jù)集內(nèi)的示例相位塊軌跡的數(shù)據(jù)結(jié)構(gòu)。
圖5示出了根據(jù)一些實(shí)施方案的示例相位塊軌跡。
圖6示出了根據(jù)一些實(shí)施方案的示例基因軌跡的數(shù)據(jù)結(jié)構(gòu)。
圖7示出了根據(jù)一些實(shí)施方案的示例基因軌跡。
圖8示出了根據(jù)一些實(shí)施方案的在核酸測(cè)序數(shù)據(jù)集內(nèi)的示例結(jié)構(gòu)變異數(shù)據(jù)集軌跡的數(shù)據(jù)結(jié)構(gòu)。
圖9示出了根據(jù)一些實(shí)施方案的示例結(jié)構(gòu)變異數(shù)據(jù)集軌跡。
圖10示出了根據(jù)一些實(shí)施方案的在核酸測(cè)序數(shù)據(jù)集內(nèi)的目標(biāo)、片段和序列讀段數(shù)據(jù)。
圖11示出了根據(jù)一些實(shí)施方案的在核酸測(cè)序數(shù)據(jù)集內(nèi)的變異識(shí)別數(shù)據(jù)。
圖12示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的概述模塊。
圖13示出了根據(jù)額外實(shí)施方案的單倍型可視化工具中的概述模塊。
圖14a示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的相位可視化模塊的屏幕截圖。
圖14b示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的相位可視化模塊的另一屏幕截圖。
圖15示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的相位可視化模塊的另一屏幕截圖。
圖16示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的相位可視化模塊的另一屏幕截圖。
圖17示出了根據(jù)一些實(shí)施方案的單倍型可視化工具的搜索功能特征。
圖18示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的結(jié)構(gòu)變異模塊的屏幕截圖。
圖19示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的結(jié)構(gòu)變異模塊的另一屏幕截圖。
圖20示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的結(jié)構(gòu)變異模塊的另一屏幕截圖。
圖21示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的結(jié)構(gòu)變異模塊的額外屏幕截圖。
圖22示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的讀段可視化模塊的屏幕截圖。
圖23示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的結(jié)構(gòu)變異模塊的另一屏幕截圖。
圖24示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的結(jié)構(gòu)變異模塊的另一屏幕截圖。
圖25示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的結(jié)構(gòu)變異模塊的另一屏幕截圖。
圖26示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的相位可視化模塊。
圖27示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的相位可視化模塊的另一方面。
圖28a示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的相位可視化模塊的另一方面。
圖28b示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的相位可視化模塊的另一方面。
圖29示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的相位可視化模塊的另一方面。
圖30示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的相位可視化模塊的另一方面。
圖31是示出了根據(jù)一些實(shí)現(xiàn)方式的計(jì)算系統(tǒng)的示例框圖。
圖32是根據(jù)所公開(kāi)的實(shí)施方案的關(guān)于對(duì)單倍型可視化工具的實(shí)例的遠(yuǎn)程開(kāi)始的認(rèn)證挑戰(zhàn)的實(shí)例。
圖33示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的結(jié)構(gòu)變異模型,其中序列讀段過(guò)濾器關(guān)閉。
圖34示出了根據(jù)一些實(shí)施方案的單倍型可視化工具中的結(jié)構(gòu)變體模型,其中序列讀段過(guò)濾器開(kāi)啟。
具體實(shí)施方式
現(xiàn)在將詳細(xì)地參考實(shí)施方案,在附圖中示出了所述實(shí)施方案的實(shí)例。在以下詳細(xì)描述中,陳述眾多具體細(xì)節(jié)以便提供對(duì)本公開(kāi)的徹底理解。然而,本領(lǐng)域的普通技術(shù)人員將清楚本公開(kāi)可以在沒(méi)有這些具體細(xì)節(jié)的情況下進(jìn)行實(shí)踐。在其它情況下,未詳細(xì)地描述熟知的方法、程序、組成部分、電路和網(wǎng)絡(luò),以免不必要地掩蓋所述實(shí)施方案的方面。
還將理解,雖然在本文中可以使用術(shù)語(yǔ)第一、第二等來(lái)描述各種元件,但是這些元件不應(yīng)受這些術(shù)語(yǔ)限制。這些術(shù)語(yǔ)僅用于將一個(gè)元件與另一個(gè)元件區(qū)分開(kāi)。舉例來(lái)說(shuō),第一受試者可以被稱(chēng)作第二受試者,并且,類(lèi)似地,第二受試者可以被稱(chēng)作第一受試者,而不會(huì)偏離本公開(kāi)的范圍。第一受試者與第二受試者都是受試者,但他們不是同一個(gè)受試者。
本公開(kāi)中所使用的術(shù)語(yǔ)僅用于描述特定實(shí)施方案而不打算限制本發(fā)明。如本發(fā)明的說(shuō)明書(shū)和所附權(quán)利要求書(shū)中所使用,單數(shù)形式“一”、“一個(gè)”和“所述”打算也包括復(fù)數(shù)形式,除非上下文另外清楚地指示。還將理解,如本文中所使用,術(shù)語(yǔ)“和/或”指代并且涵蓋相關(guān)聯(lián)的所列項(xiàng)目中的一者或多者的任何和所有的可能組合。將進(jìn)一步理解,術(shù)語(yǔ)“包括”和/或“包括了”在本說(shuō)明書(shū)中使用時(shí)指定了所述特征、整體、步驟、操作、元件和/或組成部分的存在,但不排除一個(gè)或多個(gè)其它特征、整體、步驟、操作、元件、組成部分和/或其組的存在或增加。
如本文中所使用,術(shù)語(yǔ)“如果”可以被理解為表示“在……時(shí)”或“在……后”或“響應(yīng)于確定”或“響應(yīng)于檢測(cè)到”,具體取決于上下文。類(lèi)似地,短語(yǔ)“如果確定”或“如果檢測(cè)到[所述條件或事件]”可以被理解為表示“在確定……后”或“響應(yīng)于確定”或“在檢測(cè)到(所述條件或事件(后”或“響應(yīng)于檢測(cè)到(所述條件或事件)”,具體取決于上下文。
本文中描述的實(shí)現(xiàn)方式提供了用于檢測(cè)從生物樣本獲得的測(cè)試核酸的測(cè)序數(shù)據(jù)中的結(jié)構(gòu)變體(例如,缺失、重復(fù)、拷貝數(shù)目變異、插入、倒位、易位、長(zhǎng)末端重復(fù)(ltr)、短串聯(lián)重復(fù)(str)和各種其它有用表征)的各種技術(shù)解決方案?,F(xiàn)在參看諸圖來(lái)描述實(shí)現(xiàn)方式的詳情。
圖1是示出了根據(jù)一些實(shí)現(xiàn)方式的結(jié)構(gòu)變體和相位可視化系統(tǒng)100的框圖。在一些實(shí)現(xiàn)方式中,裝置100包括一個(gè)或多個(gè)處理單元cpu102(也被稱(chēng)作處理器)、一個(gè)或多個(gè)網(wǎng)絡(luò)接口104、用戶(hù)接口106、存儲(chǔ)器112和用于將這些組件互連的一個(gè)或多個(gè)通信總線114。通信總線114任選地包括將系統(tǒng)組件互連并且控制系統(tǒng)組件之間的通信的電路(有時(shí)被稱(chēng)作芯片集)。存儲(chǔ)器112通常包括高速隨機(jī)存取存儲(chǔ)器,諸如dram、sram、ddrram、rom、eeprom、快閃存儲(chǔ)器、cd-rom、數(shù)字影音光碟(dvd)或其它光存儲(chǔ)裝置、盒式磁帶、磁帶、磁盤(pán)存儲(chǔ)或其它磁性存儲(chǔ)裝置、其它隨機(jī)存取固態(tài)存儲(chǔ)裝置或可用于存儲(chǔ)所要信息的任何其它介質(zhì);以及任選地包括非易失性存儲(chǔ)器,諸如一個(gè)或多個(gè)磁盤(pán)存儲(chǔ)裝置、光盤(pán)存儲(chǔ)裝置、快閃存儲(chǔ)裝置或其它非易失性固態(tài)存儲(chǔ)裝置。存儲(chǔ)器112任選地包括位于cpu102遠(yuǎn)處的一個(gè)或多個(gè)存儲(chǔ)裝置。存儲(chǔ)器112或者存儲(chǔ)器112內(nèi)的非易失性存儲(chǔ)器裝置包括非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。在一些實(shí)現(xiàn)方式中,存儲(chǔ)器112或者非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)以下程序、模塊和數(shù)據(jù)結(jié)構(gòu),或其子集:
·任選的操作系統(tǒng)116,所述操作系統(tǒng)包括用于處置各種基本系統(tǒng)服務(wù)和用于執(zhí)行硬體相關(guān)任務(wù)的程序;
·用于將裝置100與其它裝置或通信網(wǎng)絡(luò)連接的任選的網(wǎng)絡(luò)通信模塊(或指令)118;
·用于處理測(cè)序讀段的任選的測(cè)序讀段處理模塊120,包括用于識(shí)別來(lái)自物種的單個(gè)生物體的基因樣本中的結(jié)構(gòu)變異的結(jié)構(gòu)變異確定子模塊120和用于識(shí)別所述基因樣本的每一測(cè)序讀段的單倍型的定相子模塊124;
·一個(gè)或多個(gè)核酸測(cè)序數(shù)據(jù)集126,每一此類(lèi)數(shù)據(jù)集是使用來(lái)自物種的單個(gè)生物體的基因樣本獲得;
·基因注釋數(shù)據(jù),任選地呈基因軌跡間隔樹(shù)128的形式;
·外顯子注釋數(shù)據(jù),任選地呈外顯子軌跡間隔樹(shù)142的形式;
·注釋數(shù)據(jù)的一個(gè)或多個(gè)額外源,任選地呈間隔樹(shù)146的形式;
·用于使核酸測(cè)序數(shù)據(jù)中的結(jié)構(gòu)變異和定相信息可視化的單倍型可視化工具148,包括概述模塊150、相位可視化模塊152、結(jié)構(gòu)變異(可視化)模塊154和讀段可視化模塊156中的一者或多者的任何組合。
在一些實(shí)現(xiàn)方式中,用戶(hù)接口106包括用于讓用戶(hù)與系統(tǒng)100和顯示器108交互的輸入裝置(例如,鍵盤(pán)、鼠標(biāo)、觸摸板、跟蹤板和/或觸摸屏)100。
在一些實(shí)現(xiàn)方式中,以上經(jīng)識(shí)別的元件中的一者或多者存儲(chǔ)于之前提及的存儲(chǔ)器裝置中的一者或多者中,并且對(duì)應(yīng)于用于執(zhí)行上述功能的一組指令。以上經(jīng)識(shí)別的模塊或程序(例如,指令集)無(wú)需實(shí)現(xiàn)為單獨(dú)的軟件程序、過(guò)程或模塊,并且因此這些模塊的各種子集在各種實(shí)現(xiàn)方式中可以進(jìn)行組合或以其它方式重新布置。在一些實(shí)現(xiàn)方式中,存儲(chǔ)器112任選地存儲(chǔ)以上經(jīng)識(shí)別的模塊和數(shù)據(jù)結(jié)構(gòu)的子集。此外,在一些實(shí)施方案中,存儲(chǔ)器存儲(chǔ)上文未描述的額外模塊和數(shù)據(jù)結(jié)構(gòu)。在一些實(shí)施方案中,以上經(jīng)識(shí)別的元件中的一者或多者存儲(chǔ)于除了系統(tǒng)100之外的計(jì)算機(jī)系統(tǒng)中,所述計(jì)算機(jī)系統(tǒng)可通過(guò)系統(tǒng)100尋址,使得在需要時(shí),系統(tǒng)100可以檢索此類(lèi)數(shù)據(jù)的所有或一部分。
雖然圖1示出了“結(jié)構(gòu)變異和相位可視化系統(tǒng)100”,但是該圖更多地是打算作為對(duì)計(jì)算機(jī)系統(tǒng)中可能存在的各種特征的功能描述而不是作為本文中描述的實(shí)現(xiàn)方式的結(jié)構(gòu)示意圖。實(shí)際上,并且如本領(lǐng)域的普通技術(shù)人員所認(rèn)識(shí)到的,單獨(dú)地示出的項(xiàng)目可以進(jìn)行組合并且一些項(xiàng)目可以分開(kāi)。
有利地,因?yàn)楹怂嵝蛄袛?shù)據(jù)集126在典型實(shí)施方案中較大(例如,1吉字節(jié)或更大、5吉字節(jié)或更大、或10吉字節(jié)或更大),所以在一些實(shí)施方案中,結(jié)構(gòu)變異和相位可視化系統(tǒng)100是系統(tǒng)的一部分,所述系統(tǒng)包括經(jīng)由通信網(wǎng)絡(luò)3106與圖1的結(jié)構(gòu)變異和相位可視化系統(tǒng)100電子通信的一個(gè)或多個(gè)客戶(hù)端裝置3102。此類(lèi)網(wǎng)絡(luò)拓?fù)湓试S科學(xué)家和其他用戶(hù)使用若干種基于網(wǎng)絡(luò)的技術(shù)中的一種來(lái)在系統(tǒng)100上運(yùn)行單倍型可視化工具148,但是在客戶(hù)端裝置3102上觀看結(jié)果,其中所述系統(tǒng)在典型實(shí)施方案中是強(qiáng)大的服務(wù)器計(jì)算機(jī),所述客戶(hù)端裝置可以是(例如)膝上型計(jì)算機(jī)。任何形式的用于實(shí)現(xiàn)這種網(wǎng)絡(luò)拓?fù)涞木W(wǎng)絡(luò)技術(shù)包含在本公開(kāi)之內(nèi)。舉例來(lái)說(shuō),在一些實(shí)施方案中使用x窗口會(huì)話轉(zhuǎn)發(fā)(圖31中未示)。在其它實(shí)施方案中,使用因特網(wǎng)(網(wǎng)絡(luò))。明確地說(shuō),瀏覽器應(yīng)用程序在客戶(hù)端裝置3102上運(yùn)行。
在遠(yuǎn)程計(jì)算機(jī)(例如,在系統(tǒng)3100中,結(jié)構(gòu)變異和相位可視化系統(tǒng)100被認(rèn)為是遠(yuǎn)程的)上運(yùn)行程序以及在客戶(hù)端裝置3102(例如,桌上型或膝上型計(jì)算機(jī))上觀看結(jié)果的過(guò)程是麻煩的。用戶(hù)一般必須(i)在其計(jì)算機(jī)3102以及服務(wù)器100的其它部分上安裝程序的某些部分,(ii)使用ssh或防火墻軟件來(lái)創(chuàng)建將兩個(gè)計(jì)算機(jī)連接(系統(tǒng)3102連接至客戶(hù)端裝置100)的開(kāi)放網(wǎng)絡(luò)端口,以及(iii)獨(dú)立地開(kāi)始所述程序在不同系統(tǒng)上的不同部分。舉例來(lái)說(shuō),特此以引用方式并入的urlblog.trackets.com/2014/05/17/ssh-tunnel-local-and-remote-port-forwardingexplained-with-examples.html解釋了設(shè)置轉(zhuǎn)發(fā)的一種方式。再舉例來(lái)說(shuō),urlitg.chem.indiana.edu/inc/wiki/software/openssh/200.html解釋了設(shè)置轉(zhuǎn)發(fā)的另一種方式。本公開(kāi)合并了此類(lèi)技術(shù)。然而,有利地,在一些實(shí)施方案中,本公開(kāi)提供對(duì)上文公開(kāi)的網(wǎng)絡(luò)技術(shù)的解決方案,所述解決方案設(shè)法使上文描述的過(guò)程自動(dòng)化并且改進(jìn)上文描述的過(guò)程。一旦用戶(hù)已在其客戶(hù)端裝置3102上安裝單倍型可視化工具148,那么他們僅需要向工具148提供其用于遠(yuǎn)程計(jì)算機(jī)(結(jié)構(gòu)變異和相位可視化系統(tǒng)100)的憑證(例如,用戶(hù)名和密碼),所述遠(yuǎn)程計(jì)算機(jī)具有用于運(yùn)行單倍型可視化工具148的數(shù)據(jù)和計(jì)算設(shè)施。舉例來(lái)說(shuō),在一些實(shí)施方案中,參看圖32,將向在客戶(hù)端3102上運(yùn)行單倍型可視化工具148的用戶(hù)提供挑戰(zhàn)3200,所述挑戰(zhàn)包括對(duì)服務(wù)器名稱(chēng)或地址3204、用戶(hù)名3206、任選的ssh密鑰文件(以實(shí)現(xiàn)加密連接)3208、任選的ssh密鑰密碼3210和服務(wù)器上的工作位置3212的查詢(xún)。在其客戶(hù)端裝置3102上的單倍型可視化工具148的實(shí)例之后連接至遠(yuǎn)程計(jì)算機(jī)100并且使用所提供的憑證以用戶(hù)的身份來(lái)進(jìn)行鑒認(rèn)。使用該連接,在遠(yuǎn)程計(jì)算機(jī)上安裝單倍型可視化工具148、啟動(dòng)所述工具并且配置任何必需的網(wǎng)絡(luò)端口轉(zhuǎn)發(fā)。一旦單倍型可視化工具已做完了這件事,那么在客戶(hù)端裝置3102上打開(kāi)新的窗口,所述窗口“連接”至在遠(yuǎn)程的結(jié)構(gòu)變異和相位可視化系統(tǒng)上運(yùn)行的單倍型可視化工具。特別要注意的是,在此類(lèi)實(shí)施方案中,客戶(hù)端裝置3102上的單倍型可視化工具148包括在其自身的拷貝中,所述拷貝打算在結(jié)構(gòu)變異和相位可視化系統(tǒng)100上運(yùn)行。在一些實(shí)施方案中,結(jié)構(gòu)變異和相位可視化系統(tǒng)100運(yùn)行第一操作系統(tǒng),并且客戶(hù)端裝置3102運(yùn)行第二操作系統(tǒng)。在一些實(shí)施方案中,第一操作系統(tǒng)與第二操作系統(tǒng)是相同的。在一些實(shí)施方案中,第一操作系統(tǒng)與第二操作系統(tǒng)是不同的。在一些實(shí)施方案中,第一操作系統(tǒng)是ios、darwin、rtxc、linux、unix、osx或windows中的一者,并且第二操作系統(tǒng)不同于第一操作系統(tǒng)并且是ios、darwin、rtxc、linux、unix、osx或windows中的一者。在所公開(kāi)的實(shí)施方案中,在客戶(hù)端裝置3102上運(yùn)行的單倍型可視化工具148將單倍型可視化工具148的歸檔拷貝復(fù)制至結(jié)構(gòu)變異和相位定相系統(tǒng)100并且在設(shè)置過(guò)程期間安裝(如果之前沒(méi)有安裝的話)。將了解,針對(duì)遠(yuǎn)程計(jì)算機(jī)上的單倍型可視化工具148的遠(yuǎn)程開(kāi)始而公開(kāi)的系統(tǒng)和方法適用于大范圍的應(yīng)用,所述應(yīng)用需要遠(yuǎn)程服務(wù)器的計(jì)算資源,其中伴隨的視覺(jué)可視接口在本地計(jì)算機(jī)上操作以便控制此類(lèi)應(yīng)用并且實(shí)時(shí)地或近實(shí)時(shí)地使數(shù)據(jù)和計(jì)算結(jié)果可視化。
再次參看圖1、圖31和圖32,本公開(kāi)的一個(gè)方面提供用于使用本地計(jì)算機(jī)3102經(jīng)由網(wǎng)絡(luò)連接3106(例如,有線的或無(wú)線的)處理程序輸出的系統(tǒng)3100。本地計(jì)算機(jī)3102包括一個(gè)或多個(gè)微處理器(未示出)以及存儲(chǔ)一個(gè)或多個(gè)程序(例如,單倍型可視化工具148)的存儲(chǔ)器(未示出)。所述一個(gè)或多個(gè)程序使用所述一個(gè)或多個(gè)微處理器來(lái)根據(jù)在本地計(jì)算機(jī)上運(yùn)行的第一操作系統(tǒng)來(lái)執(zhí)行一種方法。在所述方法中,調(diào)用第一程序的第一實(shí)例(例如,在客戶(hù)端裝置3102上調(diào)用單倍型可視化工具148的第一實(shí)例)。通過(guò)第一程序的所調(diào)用的第一實(shí)例,從用戶(hù)獲得訪問(wèn)遠(yuǎn)程計(jì)算機(jī)(例如,結(jié)構(gòu)變異和相位可視化系統(tǒng)100)上的用戶(hù)賬戶(hù)的登錄和密碼。用戶(hù)之后使用由第一程序的第一實(shí)例提供的登錄和密碼、經(jīng)由本地計(jì)算機(jī)與遠(yuǎn)程計(jì)算機(jī)之間的網(wǎng)絡(luò)連接(例如,通信網(wǎng)絡(luò)3106)自動(dòng)地登錄到遠(yuǎn)程計(jì)算機(jī)上的用戶(hù)賬戶(hù)。響應(yīng)于在遠(yuǎn)程計(jì)算機(jī)100上的成功登錄,所述方法繼續(xù)進(jìn)行,在無(wú)人干預(yù)的情況下自動(dòng)地發(fā)送第一程序148的第二實(shí)例,所述第二實(shí)例被配置成在傳輸至遠(yuǎn)程計(jì)算機(jī)后自動(dòng)安裝在遠(yuǎn)程計(jì)算機(jī)100上。在一些實(shí)施方案中,遠(yuǎn)程計(jì)算機(jī)已經(jīng)安裝有第一程序148的第二實(shí)例,并且在一些此類(lèi)實(shí)施方案中,第一程序的第二實(shí)例因此不會(huì)為了安裝而傳輸至遠(yuǎn)程計(jì)算機(jī)。一旦第一程序的第二實(shí)例安裝在遠(yuǎn)程計(jì)算機(jī)100上,那么從遠(yuǎn)程計(jì)算機(jī)接收打開(kāi)面板(未示出)的請(qǐng)求。此面板是通過(guò)在遠(yuǎn)程計(jì)算機(jī)100上運(yùn)行的第一程序的第二實(shí)例產(chǎn)生。所述面板向用戶(hù)請(qǐng)求用于控制第一程序的第二實(shí)例的輸入。舉例來(lái)說(shuō),在一些實(shí)施方案中,此面板是呈圖12-21中的任一者中所示的形式。在一些實(shí)施方案中,所述面板較簡(jiǎn)單,例如,含有用于數(shù)據(jù)集名稱(chēng)的提示或用于在指定數(shù)據(jù)集中進(jìn)行搜索的搜索查詢(xún)。響應(yīng)于在本地計(jì)算機(jī)上在面板中從用戶(hù)接收到用于控制第一程序的第二實(shí)例的輸入,經(jīng)由網(wǎng)絡(luò)連接將所述輸入發(fā)送至在遠(yuǎn)程計(jì)算機(jī)100上運(yùn)行的第一程序的第二實(shí)例。遠(yuǎn)程計(jì)算機(jī)經(jīng)由網(wǎng)絡(luò)連接接收此輸入,并且隨后將響應(yīng)于所述輸入的來(lái)自所述第一程序的第二實(shí)例的輸出在本地計(jì)算機(jī)上(例如,在第一程序的第一實(shí)例內(nèi)或在單獨(dú)的網(wǎng)絡(luò)瀏覽器中)作為輸出來(lái)顯示。
參看圖2,根據(jù)所公開(kāi)的系統(tǒng)和方法,使用來(lái)自受試者的生物樣本的測(cè)試(靶)核酸206來(lái)獲得多個(gè)測(cè)序讀段(未全部示出于圖2中)。在典型實(shí)施方案中,測(cè)試(靶)核酸206是生物樣本的基因組的片段。在一些實(shí)施方案中,在分區(qū)中有單個(gè)測(cè)試(靶)核酸206(片段)。在一些實(shí)施方案中,在分區(qū)中有兩個(gè)或更多個(gè)測(cè)試核酸206(片段),每一核酸對(duì)應(yīng)于生物樣本的物種的基因組的不同部分。在一些實(shí)施方案中,在分區(qū)中有五個(gè)或更多個(gè)核酸206(片段),每一核酸對(duì)應(yīng)于生物樣本的物種的基因組的不同部分。在一些實(shí)施方案中,在分區(qū)中有十個(gè)或更多個(gè)核酸206,每一核酸對(duì)應(yīng)于生物樣本的物種的基因組的不同部分。在一些實(shí)施方案中,生物樣本是混合物并且包括表示物種中的兩個(gè)或更多個(gè)個(gè)體的基因組的核酸數(shù)據(jù)。在一些實(shí)施方案中,生物樣本是混合物并且包括表示兩個(gè)或更多個(gè)物種的基因組的核酸數(shù)據(jù)。舉例來(lái)說(shuō),在一些實(shí)施方案中,生物樣本感染了逆轉(zhuǎn)錄酶病毒。在另一實(shí)例中,生物樣本含有宏基因組,因?yàn)闃颖臼菑纳匙踊驂m土或某其它位置取得的并且目標(biāo)是找到樣本中存在的所有不同基因組。
測(cè)序測(cè)序讀段最終形成核酸測(cè)序數(shù)據(jù)集126的基礎(chǔ)。多個(gè)測(cè)序讀段中的每一相應(yīng)測(cè)序讀段202包括與測(cè)試核酸的子集對(duì)應(yīng)的第一部分以及對(duì)相應(yīng)測(cè)序讀段的識(shí)別信息進(jìn)行編碼的第二部分。所述識(shí)別信息獨(dú)立于測(cè)試核酸的測(cè)序數(shù)據(jù)。
在一些實(shí)施方案中,測(cè)序讀段長(zhǎng)度具有n50(其中大于所述n50數(shù)目的測(cè)序讀段長(zhǎng)度的總和是所有測(cè)序讀段長(zhǎng)度的總和的50%)。在典型實(shí)施方案中,測(cè)序讀段的長(zhǎng)度是數(shù)十或數(shù)百個(gè)堿基,所述讀段又經(jīng)過(guò)比對(duì)而形成至少約10kb、至少約20kb或至少約50kb的構(gòu)建體。在更優(yōu)選的方面中,測(cè)序讀段的長(zhǎng)度是數(shù)十或數(shù)百個(gè)堿基,所述讀段又經(jīng)過(guò)比對(duì)而形成具有至少約100kb、至少約150kb、至少約200kb并且在許多情況中是至少250kb、至少約300kb、至少約350kb、至少約400kb并且在一些情況中是至少約500kb或更多的構(gòu)建體。
在一些實(shí)施方案中,為了從受試者的生物樣本中獲得多個(gè)測(cè)序讀段,對(duì)測(cè)試核酸206分段并且將這些片段劃分或分區(qū)成離散的隔室或分區(qū)(本文中可互換地稱(chēng)作分區(qū))。在一些實(shí)施方案中,測(cè)試核酸是多染色體生物體(諸如人)的基因組。在典型實(shí)施方案中,從長(zhǎng)度是數(shù)十或數(shù)百個(gè)堿基的每一此類(lèi)隔室或分區(qū)中測(cè)得多個(gè)測(cè)序讀段。來(lái)自同一隔室或分區(qū)的、具有相同條形碼的測(cè)序讀段可以經(jīng)比對(duì)而形成長(zhǎng)度是至少約25kb、至少約50kb、100kb、至少約150kb、至少約200kb并且在許多情況中是至少約250kb、至少約300kb、至少約350kb、至少約400kb并且在一些情況中是至少約500kb或更多的序列構(gòu)建體。
每一分區(qū)保持其自身內(nèi)容與其它分區(qū)的內(nèi)容的分離。如本文中所使用,分區(qū)是指可以包括各種不同形式(例如,孔、管、微孔或納米孔、通孔等等)的器皿或容器。然而,在優(yōu)選方面中,分區(qū)在流體流內(nèi)是可流動(dòng)的。在一些實(shí)施方案中,這些容器包括(例如)微囊或微泡,所述微囊或微泡具有環(huán)繞內(nèi)流體中心或核心的外障壁或具有能夠?qū)⒉牧辖亓艉?或持留在其基質(zhì)內(nèi)的多孔基質(zhì)。然而,在優(yōu)選方面中,這些分區(qū)包括非水連續(xù)相(例如,油相)內(nèi)的水性流體的小滴。各種不同容器描述于(例如)2013年8月13日提交的美國(guó)專(zhuān)利申請(qǐng)no.13/966,150中,所述申請(qǐng)?zhí)卮艘匀囊玫姆绞讲⑷氡疚闹?。同樣地,用于在非水或油連續(xù)相中產(chǎn)生穩(wěn)定小滴的乳液體系詳細(xì)地描述于(例如)公開(kāi)的美國(guó)專(zhuān)利申請(qǐng)no.2010-0105112中,所述申請(qǐng)?zhí)卮艘匀囊玫姆绞讲⑷氡疚闹小T谀承?shí)施方案中,微流體通道網(wǎng)絡(luò)尤其適合于產(chǎn)生如本文所描述的分區(qū)。此類(lèi)微流體裝置的實(shí)例包括在2014年4月4日提交的臨時(shí)美國(guó)專(zhuān)利申請(qǐng)no.61/977,804中以及在pct/us15/025197中詳細(xì)描述的那些微流體裝置,所述申請(qǐng)的全部公開(kāi)內(nèi)容為了所有目的以全文引用的方式并入本文中。在單獨(dú)細(xì)胞的分區(qū)中還可以采用替代機(jī)制,包括用于將細(xì)胞的水性混合物擠壓成非水流體的多孔膜。此類(lèi)系統(tǒng)一般可購(gòu)自(例如)nanomi,inc。
在乳液中小滴的情況中,將測(cè)試核酸片段分區(qū)至離散分區(qū)中大體上可以通過(guò)以下步驟來(lái)完成:使水性的含樣本的流流入接合點(diǎn)中,分區(qū)流體(例如,氟化油)的非水性流也流入到所述接合點(diǎn)中,使得在流動(dòng)中的流分區(qū)流體內(nèi)產(chǎn)生水性小滴,其中此類(lèi)小滴包含樣本材料。如下文所描述,分區(qū)(例如小滴)還通常包含經(jīng)共分區(qū)的條形碼寡核苷酸。
可以通過(guò)控制所述系統(tǒng)的各種不同參數(shù)來(lái)調(diào)整任何特定分區(qū)內(nèi)的樣本材料的相對(duì)量,所述參數(shù)包括(例如)水性流中的測(cè)試核酸片段的濃度、水性流和/或非水流的流量等。本文中描述的分區(qū)的特征通常是具有以下總體積:小于1000pl、小于900pl、小于800pl、小于700pl、小于600pl、小于500pl、小于400pl、小于300pl、小于200pl、小于100pl、小于50pl、小于20pl、小于10pl或甚至小于1pl。當(dāng)與珠粒一起進(jìn)行共分區(qū)時(shí),將了解,分區(qū)內(nèi)的樣本流體體積可以小于上述體積的90%、小于上述體積的80%、小于上述體積的70%、小于上述體積的60%、小于上述體積的50%、小于上述體積的40%、小于上述體積的30%、小于上述體積的20%或甚至小于上述體積的10%。在一些情況下,低反應(yīng)體積分區(qū)的使用在與極小量的起始試劑(例如,輸入測(cè)試核酸片段)進(jìn)行反應(yīng)時(shí)特別有利。用于用低輸入核酸分析樣本的方法和系統(tǒng)提供于2014年6月26日的美國(guó)臨時(shí)專(zhuān)利申請(qǐng)no.62/017,580中,所述申請(qǐng)的全部公開(kāi)內(nèi)容特此以全文引用的方式并入。
一旦將測(cè)試核酸片段引入其相應(yīng)分區(qū)中,一般會(huì)向分區(qū)內(nèi)的測(cè)試核酸片段提供唯一的識(shí)別符,使得在對(duì)那些核酸片段進(jìn)行表征后,所述測(cè)試核酸片段可以被認(rèn)為是得自其相應(yīng)分區(qū)。此類(lèi)唯一識(shí)別符可以在之前、在之后或同時(shí)地遞送至容納經(jīng)劃分或經(jīng)分區(qū)的測(cè)試核酸片段的分區(qū),以使得可以在之后將特性(例如,核酸序列信息)歸于特定隔室內(nèi)包含的樣本核酸并且尤其是歸于可能原來(lái)沉積至分區(qū)中的連續(xù)樣本核酸的相對(duì)較長(zhǎng)節(jié)段。
因此,測(cè)試核酸片段通常是與唯一識(shí)別符(例如條形碼序列)一起共分區(qū)。在特別優(yōu)選的方面中,所述唯一識(shí)別以寡核苷酸的形式提供,所述寡核苷酸包括附接至分區(qū)中的測(cè)試核酸片段的核酸條形碼序列。對(duì)寡核苷酸進(jìn)行分區(qū),使得如在給定分區(qū)中的寡核苷酸之間,其中含有的核酸條形碼序列相同,但如在不同分區(qū)之間,寡核苷酸可以具有并且優(yōu)選地具有不同的條形碼序列。在一些實(shí)施方案中,僅一個(gè)核酸條形碼序列與給定分區(qū)相關(guān)聯(lián),但在一些實(shí)施方案中,在給定分區(qū)中存在兩個(gè)或更多個(gè)不同的條形碼序列。
核酸條形碼序列將通常包括寡核苷酸的序列內(nèi)的6個(gè)至約20個(gè)或更多個(gè)核苷酸。這些核苷酸可以是完全連續(xù)的,即,在相鄰核苷酸的單個(gè)節(jié)段中,或它們可以被分開(kāi)到由一個(gè)或多個(gè)核苷酸分開(kāi)的兩個(gè)或更多個(gè)單獨(dú)子序列中。通常,分開(kāi)的子序列的長(zhǎng)度通常可能是約4個(gè)至約16個(gè)核苷酸。
測(cè)試核酸通常經(jīng)過(guò)分區(qū),使得核酸是以連續(xù)核酸分子的相對(duì)較長(zhǎng)片段或節(jié)段的形式存在于分區(qū)中。這些片段通常表示待分析的全部測(cè)試核酸的多個(gè)重疊片段,例如,整個(gè)染色體、外顯子組或其它大的基因組片段。此測(cè)試核酸可以包括全體基因組、個(gè)別染色體、外顯子組、擴(kuò)增子、或各種不同的目標(biāo)核酸中的任一者。通常,經(jīng)分區(qū)的測(cè)試核酸的片段長(zhǎng)于1kb、長(zhǎng)于5kb、長(zhǎng)于10kb、長(zhǎng)于15kb、長(zhǎng)于20kb、長(zhǎng)于30kb、長(zhǎng)于40kb、長(zhǎng)于50kb、長(zhǎng)于60kb、長(zhǎng)于70kb、長(zhǎng)于80kb、長(zhǎng)于90kb或甚至長(zhǎng)于100kb。
測(cè)試核酸還通常按某一水平進(jìn)行分區(qū),借此使給定分區(qū)包括起始測(cè)試核酸的兩個(gè)重疊片段的概率極低。這通常是通過(guò)在分區(qū)過(guò)程期間將測(cè)試核酸以低輸入量和/或濃度提供來(lái)完成。結(jié)果,在優(yōu)選情況中,給定分區(qū)包括起始測(cè)試核酸的多個(gè)長(zhǎng)的但非重疊的片段。之后將不同分區(qū)中的核酸片段與唯一識(shí)別符相關(guān)聯(lián),其中對(duì)于任何給定分區(qū),其中含有的核酸具有相同的唯一識(shí)別符,但其中不同分區(qū)包括不同的唯一識(shí)別符。此外,因?yàn)榉謪^(qū)步驟將樣本組份分配到極小體積的分區(qū)或小滴中,所以將了解,為了實(shí)現(xiàn)如上文陳述的所要分配,不需要像在較高體積過(guò)程(例如在管、或多孔板的孔中)中要求的那樣進(jìn)行樣本的大量稀釋。另外,因?yàn)楸疚闹忻枋龅南到y(tǒng)采用此類(lèi)高水平的條形碼多樣性,所以可以在較大量的基因組等效物(如上文所提供)中分配不同的條形碼。在一些實(shí)施方案中,使用10,000、100,000、500,000等以上的不同條形碼類(lèi)型來(lái)實(shí)現(xiàn)約1:50或更小、1:100或更小、1:1000或更小、或甚至更小比率的基因組:(條形碼類(lèi)型)比率,同時(shí)還允許載入較大量的基因組(例如,約每次測(cè)定大于100個(gè)基因組、每次測(cè)定大于500個(gè)基因組、每次測(cè)定1000個(gè)基因組、或甚至更多)同時(shí)還實(shí)現(xiàn)了每基因組大大改進(jìn)的條形碼多樣性。此處,每一此類(lèi)基因組是測(cè)試核酸的實(shí)例。
參看圖2中的圖a和b,通常,上述分區(qū)是通過(guò)將含有測(cè)試核酸的樣本與一組寡核苷酸標(biāo)記(含有條形碼)組合來(lái)進(jìn)行,所述標(biāo)記在分區(qū)步驟之前可釋放地附接至珠粒308。寡核苷酸可以至少包括引物區(qū)216和條形碼214區(qū)。在給定分區(qū)內(nèi)的寡核苷酸之間,條形碼區(qū)214基本上為相同的條形碼序列,但如在不同分區(qū)之間,條形碼區(qū)在大多數(shù)情況下是不同的條形碼序列。在一些實(shí)施方案中,引物區(qū)216是用于對(duì)分區(qū)內(nèi)的樣本內(nèi)的核酸進(jìn)行引發(fā)的n-mer(隨機(jī)n-mer或經(jīng)設(shè)計(jì)以靶向特定序列的n-mer)。在n-mer是針對(duì)特定序列的一些情況中,引物區(qū)216經(jīng)設(shè)計(jì)以靶向特定染色體(例如,人染色體1、13、18或21)或染色體的區(qū)(例如,外顯子組或其它靶向區(qū))。在一些情況中,n-mer經(jīng)設(shè)計(jì)以靶向特定基因或基因區(qū)(諸如與疾病或病癥(例如癌癥)相關(guān)聯(lián)的基因或區(qū))。在一些情況中,n-mer經(jīng)設(shè)計(jì)以靶向特定結(jié)構(gòu)變異。在分區(qū)內(nèi),使用引物序列216(例如n-mer)來(lái)在核酸的長(zhǎng)度上的不同位置處對(duì)核酸樣本進(jìn)行引發(fā)來(lái)進(jìn)行擴(kuò)增反應(yīng)。由于擴(kuò)增,每一分區(qū)含有核酸202的擴(kuò)增產(chǎn)物,所述擴(kuò)增產(chǎn)物附接至相同的或幾乎相同的條形碼并且表示每一分區(qū)中的核酸的重疊的、較小的片段。條形碼214因此用作表示源自同一分區(qū)并且因此可能還是源自測(cè)試核酸的同一鏈的一組核酸的標(biāo)記。在擴(kuò)增之后,使用測(cè)序算法對(duì)核酸進(jìn)行匯集、測(cè)序以及比對(duì)。因?yàn)檩^短的序列讀段可以借助其相關(guān)聯(lián)的條形碼序列而進(jìn)行比對(duì)并歸于測(cè)試核酸的單個(gè)長(zhǎng)片段,所以該序列上的所有識(shí)別出的變異都可以歸于測(cè)試核酸的單個(gè)起源片段和單個(gè)起源染色體。另外,通過(guò)對(duì)多個(gè)長(zhǎng)片段中多個(gè)在同一位置的變異進(jìn)行比對(duì),可以進(jìn)一步表征該染色體貢獻(xiàn)。因此,之后可以得出關(guān)于特定基因變異的定相的結(jié)論。此類(lèi)信息可以用于識(shí)別單倍型,單倍型大體上是駐留于同一核酸鏈或不同核酸鏈上的指定的一組基因變異。此外,另外或其它,識(shí)別結(jié)構(gòu)變異。
在一些實(shí)施方案中,除了分區(qū)內(nèi)的樣本內(nèi)的核酸的條形碼區(qū)214和引物區(qū)216區(qū)之外,經(jīng)共分區(qū)的寡核苷酸還包括功能序列。參見(jiàn)(例如)關(guān)于對(duì)寡核苷酸和相關(guān)聯(lián)的條形碼和其它功能序列的共分區(qū)以及樣本材料的公開(kāi),如(例如)2014年2月7日提交的美國(guó)專(zhuān)利申請(qǐng)no.61/940,318和2014年5月9日提交的美國(guó)專(zhuān)利申請(qǐng)no.61/991,018、和2014年6月26日提交的美國(guó)專(zhuān)利申請(qǐng)no.14/316,383(代理人案號(hào)43487-708.201)以及2014年2月7日提交的美國(guó)專(zhuān)利申請(qǐng)no.14/175,935中所描述,以上各案的全部公開(kāi)內(nèi)容特此以全文引用的方式并入。
在一個(gè)示例性過(guò)程中,提供珠粒,其中每一此類(lèi)珠粒包括大量可釋放地附接至珠粒的上述寡核苷酸。在此類(lèi)實(shí)施方案中,附接至特定珠粒的所有寡核苷酸包括相同的核酸條形碼序列,但在所使用的珠粒群上呈現(xiàn)大量不同的條形碼序列。通常,珠粒群提供不同條形碼序列庫(kù),所述庫(kù)包括至少1000個(gè)不同的條形碼序列、至少10,000個(gè)不同的條形碼序列、至少100,000個(gè)不同的條形碼序列,或在一些情況中為至少1,000,000個(gè)不同的條形碼序列。另外,每一珠粒通常具有所附接的大量寡核苷酸分子。具體地說(shuō),單獨(dú)珠粒上包括條形碼序列的寡核苷酸的分子的數(shù)目可以是至少約10,000個(gè)寡核苷酸、至少100,000個(gè)寡核苷酸分子、至少1,000,000個(gè)寡核苷酸分子、至少100,000,000個(gè)寡核苷酸分子并且在一些情況中是至少十億個(gè)寡核苷酸分子。
在一些實(shí)施方案中,寡核苷酸是在對(duì)珠粒施加特定刺激后可從珠粒釋放。在一些情況中,所述刺激可以是光刺激,例如,通過(guò)光不穩(wěn)定鍵的斷裂,所述斷裂可以釋放寡核苷酸。在一些情況中,可以使用熱刺激,其中珠粒環(huán)境的溫度的升高可能會(huì)導(dǎo)致鍵的斷裂或寡核苷酸從珠粒的其它釋放。在一些情況中,可以使用化學(xué)刺激,所述化學(xué)刺激使寡核苷酸與珠粒的鍵斷裂或者可能會(huì)導(dǎo)致寡核苷酸從珠粒的釋放。
根據(jù)本文所描述的方法和系統(tǒng),包括所附接的寡核苷酸的珠粒可以與單獨(dú)樣本一起進(jìn)行共分區(qū),使得單個(gè)珠粒與單個(gè)樣本容納于單獨(dú)分區(qū)內(nèi)。在單珠粒分區(qū)是所要的一些情況中,可能希望控制流體的相對(duì)流量,使得平均來(lái)說(shuō)該等分區(qū)中每分區(qū)含有小于一個(gè)珠粒,以便確保被占用的那些分區(qū)基本上是被單個(gè)占用。同樣地,有人可能想要控制流量以使得較高百分?jǐn)?shù)的分區(qū)被占用,例如,允許存在僅小百分?jǐn)?shù)的未占用分區(qū)。在優(yōu)選方面中,控制流量和通道結(jié)構(gòu)以便確保所要數(shù)目的單占用分區(qū)、小于某一水平的未占用分區(qū)以及小于某一水平的多占用分區(qū)。
2014年10月29日提交的標(biāo)題為“analysisofnucleicacidsequences”的美國(guó)專(zhuān)利申請(qǐng)no.62/072,214(所述申請(qǐng)?zhí)卮艘砸梅绞讲⑷?的圖3以及其中說(shuō)明書(shū)中描述圖3的部分提供了根據(jù)本公開(kāi)的一個(gè)實(shí)施方案的用于對(duì)測(cè)試核酸(在所述參考文獻(xiàn)中被稱(chēng)作“樣本核酸”)編制條形碼以及隨后進(jìn)行測(cè)序的一種方法的詳細(xì)實(shí)例。如上文所指出,雖然單珠粒占用可能是最想要的狀態(tài),但是將了解,多占用分區(qū)或未占用分區(qū)通常也可能存在。2014年10月29日提交的標(biāo)題為“analysisofnucleicacidsequences”的美國(guó)專(zhuān)利申請(qǐng)no.62/072,214(所述申請(qǐng)?zhí)卮艘砸梅绞讲⑷?的圖4以及其中說(shuō)明書(shū)中描述圖4的部分提供了根據(jù)本公開(kāi)的一個(gè)實(shí)施方案的用于對(duì)樣本與包括條形碼寡核苷酸的珠粒進(jìn)行共分區(qū)的微流體通道結(jié)構(gòu)的詳細(xì)實(shí)例。
一旦進(jìn)行共分區(qū),安置于珠粒上的寡核苷酸可以用于對(duì)經(jīng)分區(qū)的樣本編制條形碼并進(jìn)行擴(kuò)增。用于在對(duì)樣本進(jìn)行擴(kuò)增和編制條形碼的過(guò)程中使用這些條形碼寡核苷酸的一種方法詳細(xì)地描述于2014年2月7日提交的美國(guó)專(zhuān)利申請(qǐng)no.61/940,318、2014年5月9日提交的美國(guó)專(zhuān)利申請(qǐng)no.61/991,018和2014年6月26日提交的美國(guó)專(zhuān)利申請(qǐng)no.14/316,383(代理人案號(hào)43487-708.201)中,以上各案的全部公開(kāi)內(nèi)容特此以全文引用的方式并入。簡(jiǎn)要地說(shuō),在一個(gè)方面中,與樣本一起進(jìn)行共分區(qū)的珠粒上存在的寡核苷酸從其珠粒釋放進(jìn)入具有樣本的分區(qū)中。除了條形碼序列之外,寡核苷酸通常還包括在其5’端處的引物序列。此引物序列可以是旨在用于對(duì)樣本的許多不同的區(qū)隨機(jī)地進(jìn)行引發(fā)的隨機(jī)寡核苷酸序列,或所述引物序列可以是專(zhuān)門(mén)用于在樣本的特定目標(biāo)區(qū)的上游進(jìn)行引發(fā)的特定引物序列。
一旦被釋放,寡核苷酸的引物部分可以與樣本的互補(bǔ)區(qū)退火。也與樣本和珠粒一起進(jìn)行共分區(qū)的延伸反應(yīng)劑(例如,dna聚合酶、三磷酸核苷、輔因子(例如,mg2+或mn2+等))之后使用樣本作為模板來(lái)延伸引物序列,以產(chǎn)生所述引物退火至的、所述模板的鏈的互補(bǔ)片段,其中互補(bǔ)片段包括寡核苷酸以及其相關(guān)聯(lián)條形碼序列。多個(gè)引物退火和延伸至樣本的不同部分可能會(huì)導(dǎo)致樣本的重疊互補(bǔ)片段的大集合,其中每一片段具有其自身的條形碼序列,所述條形碼序列指示在其中產(chǎn)生所述條形碼序列的分區(qū)。在一些情況中,這些互補(bǔ)片段自身可以用作通過(guò)分區(qū)中存在的寡核苷酸引發(fā)的模板以產(chǎn)生同樣包括條形碼序列的互補(bǔ)序列的互補(bǔ)序列。在一些情況中,此復(fù)制過(guò)程經(jīng)配置使得在復(fù)制第一互補(bǔ)序列時(shí),會(huì)在其末端處或附近產(chǎn)生兩個(gè)互補(bǔ)的序列,以允許形成發(fā)夾結(jié)構(gòu)或部分發(fā)夾結(jié)構(gòu),所述結(jié)構(gòu)降低了分子成為用于產(chǎn)生其它重復(fù)拷貝的基礎(chǔ)的能力。這種情況的一個(gè)實(shí)例的示意圖展示于圖2中。
如圖2中所示,包括條形碼序列214的寡核苷酸202與樣本測(cè)試核酸片段206一起被共分區(qū)到(例如)乳液中的小滴204中。在一些實(shí)施方案中,寡核苷酸202設(shè)置于與測(cè)試核酸片段206一起進(jìn)行共分區(qū)的珠粒208上,所述寡核苷酸優(yōu)選地是可從珠粒208釋放,如圖2中的圖(a)所示。如圖2中的圖(b)所示,除了一個(gè)或多個(gè)功能序列(例如,序列212、214和216)之外,寡核苷酸202還包括條形碼序列214。舉例來(lái)說(shuō),寡核苷酸202如圖所示進(jìn)一步包括序列212,所述序列可以充當(dāng)給定測(cè)序系統(tǒng)的附接或固定序列,例如,用于在illumina、hiseq或miseq系統(tǒng)的流動(dòng)池中進(jìn)行附接的p5序列。換句話說(shuō),在一些實(shí)施方案中,使用附接序列212來(lái)將寡核苷酸202可逆地附接至珠粒208。如圖2中的圖b所示,寡核苷酸202還包括引物序列216,所述引物序列可以包括用于引發(fā)樣本測(cè)試核酸片段206的部分的復(fù)制的隨機(jī)或靶向n-mer(上文論述)。圖2中的圖b的示例性寡核苷酸202內(nèi)還包括序列210,所述序列可以提供測(cè)序引發(fā)區(qū),諸如“讀段1”或r1引發(fā)區(qū),所述引發(fā)區(qū)用于在測(cè)序系統(tǒng)中引發(fā)通過(guò)合成反應(yīng)進(jìn)行的聚合酶介導(dǎo)的、模板指導(dǎo)的測(cè)序。在許多情況中,條形碼序列214、固定(附接)序列212和示例性r1序列214可能是附接至給定珠粒的所有寡核苷酸202共有的。引物序列216對(duì)于隨機(jī)n-mer引物可能是變化的,或?qū)τ谀承┠繕?biāo)應(yīng)用可能是給定珠粒上的寡核苷酸共有的。2014年2月9日提交的標(biāo)題為“systemsandmethodsfordeterminingstructuralvariation”的美國(guó)臨時(shí)申請(qǐng)no.62/113,693中的圖3b至圖3e以及描述這些圖的說(shuō)明書(shū)詳述了寡核苷酸202如何形成樣本測(cè)試核酸的測(cè)序讀段,其中每一此類(lèi)測(cè)序讀段包括為樣本測(cè)試核酸的測(cè)序讀段的第一部分以及為寡核苷酸202的第二部分。此類(lèi)測(cè)序讀段以及對(duì)此類(lèi)測(cè)序讀段的分析形成所公開(kāi)的核酸測(cè)序數(shù)據(jù)集126的基礎(chǔ)。
在一些實(shí)施方案中,處理核酸測(cè)序數(shù)據(jù)集126中的測(cè)序讀段以便對(duì)至少一個(gè)靶核酸進(jìn)行測(cè)序。在一些實(shí)施方案中,使用常規(guī)方法來(lái)處理核酸序列讀段以便建立所述至少一個(gè)靶核酸的序列。在一些實(shí)施方案中,使用2015年6月26日提交的標(biāo)題為“processesandsystemsfornucleicacidsequenceassembly”的pct申請(qǐng)pct/us2015/038175(所述申請(qǐng)?zhí)卮艘砸梅绞讲⑷?中公開(kāi)的新型方法來(lái)處理核酸序列讀段以便建立所述至少一個(gè)靶核酸的序列。在一些實(shí)施方案中,此類(lèi)測(cè)序涉及將測(cè)序讀段映射至參考基因組,諸如從中取得樣本的物種的基因組。在一些實(shí)施方案中,預(yù)計(jì)或懷疑樣本含有多個(gè)基因組(例如,樣本(諸如人樣本)感染了逆轉(zhuǎn)錄酶病毒的情況)。在此類(lèi)情況中,可以同時(shí)使用來(lái)自不同物種的多個(gè)參考基因組。
在一些實(shí)施方案中,通過(guò)對(duì)測(cè)序讀段進(jìn)行定相以及通過(guò)查找結(jié)構(gòu)變異來(lái)處理測(cè)序讀段。在一些實(shí)施方案中,使用常規(guī)的定相方法和結(jié)構(gòu)變異方法。在一些實(shí)施方案中,使用新型的定相方法和結(jié)構(gòu)變異方法,諸如2015年10月6日提交的標(biāo)題為“systemsandmethodfordeterminingstructuralvariationusingprobabilisticmodels”的美國(guó)臨時(shí)申請(qǐng)no.62,238,077中公開(kāi)的那些方法,所述申請(qǐng)?zhí)卮艘砸梅绞讲⑷搿km然這個(gè)參考文獻(xiàn)中沒(méi)有公開(kāi),但是在一些實(shí)施方案中,所述參考文獻(xiàn)的教導(dǎo)經(jīng)過(guò)擴(kuò)展而在樣本可能含有來(lái)自多個(gè)參考基因組的核酸的情況下合并多個(gè)參考基因組。舉例來(lái)說(shuō),在樣本是人但有可能樣本感染了逆轉(zhuǎn)錄酶病毒的情況中,將逆轉(zhuǎn)錄酶病毒的基因組看作額外染色體。這樣,有可能將本公開(kāi)中公開(kāi)的可視化方法擴(kuò)展到識(shí)別核酸構(gòu)建體(諸如逆轉(zhuǎn)錄酶病毒)至正在研究的樣本的基因組中的插入。
因此,舉例來(lái)說(shuō),所公開(kāi)的技術(shù)可以使用條形碼來(lái)辨別以下兩種情形。一種情形是人樣本,其中hpv病毒在樣本中自由漂浮但病毒還沒(méi)有插入人dna中。它們是自由漂浮的分子-單獨(dú)的分子、單獨(dú)的病毒、單獨(dú)的人dna。在那種情況中,測(cè)得的序列讀段將會(huì)包括映射至hpv和人類(lèi)基因組的讀段,但是hpv和人類(lèi)基因組沒(méi)有一樣的條形碼,這表示人類(lèi)基因組與hpv是不同的。另一方面,如果hpv分子已插入到一個(gè)人染色體或兩個(gè)人染色體中,那么將測(cè)得的是同時(shí)映射至人染色體與hpv并且共享相同條形碼的序列讀段,這表示與單獨(dú)的分子相反它們存在于同一分子中(例如,hpv已合并至人染色體中)。此外,可以使用條形碼來(lái)定位hpv插入于人染色體中的精確位置。
圖3示出了從受試者(例如,特定的人)的生物樣本中獲得的數(shù)據(jù)。此數(shù)據(jù)是以核酸序列數(shù)據(jù)集126的形式進(jìn)行概括。在一些情況中,上述類(lèi)型的全基因組系列產(chǎn)生30-40吉字節(jié)的數(shù)據(jù)。根據(jù)本公開(kāi)的一些方面,此類(lèi)原始數(shù)據(jù)被簡(jiǎn)縮成為原始數(shù)據(jù)大小的分?jǐn)?shù)的核酸序列數(shù)據(jù)集126。在一些實(shí)施方案中,雖然原始數(shù)據(jù)被簡(jiǎn)縮而形成核酸序列數(shù)據(jù)集126,但是數(shù)據(jù)集126仍過(guò)大而無(wú)法載入至典型計(jì)算機(jī)的ram中。舉例來(lái)說(shuō),在一些實(shí)施方案中,核酸序列數(shù)據(jù)集126是五吉字節(jié)或更大、十吉字節(jié)或更大、或者十五吉字節(jié)或更大。
如圖3中所示,示例性核酸測(cè)序數(shù)據(jù)集126被組織成三個(gè)部分,即,標(biāo)頭302、概要308和數(shù)據(jù)段340。標(biāo)頭302的目的是描述數(shù)據(jù)集126的組成部分304以及任選地提供數(shù)據(jù)集126結(jié)構(gòu)的版本306,例如版本1.7。在一些實(shí)施方案中,標(biāo)頭302被格式化為json結(jié)構(gòu)以方便使用基于網(wǎng)絡(luò)的應(yīng)用程序(例如網(wǎng)絡(luò)瀏覽器)來(lái)進(jìn)行載入。參見(jiàn)urljson.org,其特此以引用的方式并入。舉例來(lái)說(shuō),在一些實(shí)施方案中,標(biāo)頭被格式化為json對(duì)象:以{(左括號(hào))開(kāi)始并且以}(右括號(hào))結(jié)束,其中每一名稱(chēng)后跟著:(冒號(hào))并且名稱(chēng)/值對(duì)是由,(逗號(hào))隔開(kāi)。在一個(gè)示例性實(shí)施方案中,指定測(cè)序數(shù)據(jù)集具有126的標(biāo)頭302具有以下組成部分:片段軌跡(例如,數(shù)據(jù)集中的所有片段的長(zhǎng)度、位置、條形碼和相位)、目標(biāo)軌跡(由在處理期間所使用的俘獲協(xié)議選擇的基因組的區(qū))、結(jié)構(gòu)變異軌跡(樣本中被識(shí)別出的所有結(jié)構(gòu)變異的列表)、目標(biāo)數(shù)據(jù)集的索引、vcf_索引(將基因組的范圍與數(shù)據(jù)集126文件中的位置相關(guān)的索引)、標(biāo)記、相位塊概述(對(duì)測(cè)試核酸206中的各種相位塊的描述)、基因軌跡(對(duì)所有人基因的描述,在每一基因中用多個(gè)snp作標(biāo)記)、bam數(shù)據(jù)(將基因組的范圍與文件中含有關(guān)于該范圍的讀段信息的位置相關(guān)聯(lián))、概述(從測(cè)序數(shù)據(jù)中提取的高級(jí)量度)、以及參考序列索引(含有在樣本中被識(shí)別出的snp的dbsnp識(shí)別符(rsid)的列表的索引,由此將rsid與其在基因組中的位置相關(guān)聯(lián))。
概要段308含有在存取數(shù)據(jù)集126時(shí)通過(guò)單倍型可視化工具148讀取至易失性(例如,隨機(jī)存取)存儲(chǔ)器中的數(shù)據(jù),通常是全部讀取。此數(shù)據(jù)由數(shù)據(jù)段340的索引以及可視化工具148經(jīng)常引用的其它數(shù)據(jù)組成。如圖3中所示,概要段308被分裂成幾個(gè)組成部分,所述組成部分對(duì)應(yīng)于標(biāo)頭段302中的“索引”陣列(例如組成部分列表302)。
概述310提供從所述數(shù)據(jù)中提取的高級(jí)度量。在一些實(shí)施方案中,概述310由概述模塊150使用來(lái)提供概述數(shù)據(jù),諸如圖12和圖13中所示的概述數(shù)據(jù)。這包括已定相的已知snp(例如人snp)的百分?jǐn)?shù)1202、最長(zhǎng)相位塊1204、有效條形碼計(jì)數(shù)1206(例如,數(shù)據(jù)集126中所使用的唯一條形碼的數(shù)目)、平均片段長(zhǎng)度1208、平均片段長(zhǎng)度的均值1210、大于下限閾值(例如20kb)的片段的百分?jǐn)?shù)1212、片段長(zhǎng)度柱狀圖或其它形式的片段長(zhǎng)度度量1214、n50相位塊大小1216、相位塊長(zhǎng)度柱狀圖或其它形式的相位塊長(zhǎng)度度量1218、由數(shù)據(jù)集表示的序列讀段的數(shù)目1220、中值插入大小1222、中值深度1224、具有零覆蓋的目標(biāo)基因組的百分?jǐn)?shù)1226、所映射讀段的百分?jǐn)?shù)1228、pcr復(fù)制百分?jǐn)?shù)1230、有效堿基(百分?jǐn)?shù))1232、覆蓋柱狀圖或其它形式的覆蓋度量1234、存儲(chǔ)器112中的數(shù)據(jù)集的源(1234)、測(cè)試核酸的識(shí)別碼(1236)、基因組源(1238)、供體生物體的性別(1240)、數(shù)據(jù)集文件格式版本1242以及指向針對(duì)數(shù)據(jù)集126所作的結(jié)構(gòu)變異識(shí)別1244的指針(1244)。
對(duì)變異識(shí)別數(shù)據(jù)的索引312是見(jiàn)于在概述中找到的索引的實(shí)例,并且它將靶核酸的基因組的相應(yīng)范圍214與對(duì)應(yīng)數(shù)據(jù)段340中、在其中找到所述相應(yīng)范圍內(nèi)的變異識(shí)別數(shù)據(jù)的偏移316相關(guān)。
在一些實(shí)施方案中,相位塊軌跡318存儲(chǔ)于核酸測(cè)序數(shù)據(jù)集126的概要段308中。示例性相位塊軌跡318的結(jié)構(gòu)的更多細(xì)節(jié)見(jiàn)于圖4中。參看圖4,在一些實(shí)施方案中,相位塊軌跡318包括詞典段402和軌跡數(shù)據(jù)段408。所述軌跡數(shù)據(jù)段包括多個(gè)記錄410。在一些實(shí)施方案中,所述多個(gè)記錄中的每一記錄包括對(duì)應(yīng)染色體的相位信息。在一些實(shí)施方案中,所述一個(gè)或多個(gè)數(shù)據(jù)段中的每一者存儲(chǔ)一個(gè)或多個(gè)對(duì)應(yīng)染色體的相位信息。在一些實(shí)施方案中,所述一個(gè)或多個(gè)數(shù)據(jù)段中的每一者將對(duì)應(yīng)染色體的相位信息按區(qū)間樹(shù)422格式來(lái)存儲(chǔ)。
相位塊軌跡318的詞典402包括多個(gè)名稱(chēng)404以及對(duì)于每一名稱(chēng)404,在其中找到對(duì)應(yīng)名稱(chēng)404的記錄的軌跡數(shù)據(jù)408中的偏移406。在一些實(shí)施方案中,相位塊軌跡318的詞典402含有單個(gè)名稱(chēng),例如“相位_數(shù)據(jù)”。
在一些實(shí)施方案中,軌跡數(shù)據(jù)408是json格式。在一些實(shí)施方案中,每一記錄410表示靶核酸中的相位塊。因而,在一些實(shí)施方案中,每一記錄410指定上面有相位塊的染色體的數(shù)目412以及在染色體412上相位塊開(kāi)始的位置414和在染色體412上相位塊結(jié)束的位置416。此外,對(duì)于關(guān)于相位塊的每一記錄和定位信息420,存在唯一名稱(chēng)418。在一些實(shí)施方案中,信息420的目的是提供相位塊的定相信息的細(xì)節(jié)。在一些實(shí)施方案中,相位塊包括關(guān)于與兩個(gè)親代對(duì)應(yīng)的兩個(gè)單倍型(例如,分別被表示為單倍型“a”和單倍型“b”)的信息。因此,在一些實(shí)施方案中,相位信息包括相位asnp422(相位塊中計(jì)數(shù)的單倍型“a”上的單核苷酸多態(tài)性的數(shù)目)、未定相snp424(相位塊中計(jì)數(shù)的未知單倍型的單核苷酸多態(tài)性的數(shù)目)和相位bsnp(相位塊中計(jì)數(shù)的單倍型“b”上的單核苷酸多態(tài)性的數(shù)目)。因而,軌跡數(shù)據(jù)408保留了核酸測(cè)序數(shù)據(jù)集126的某些相位塊數(shù)據(jù)(例如,snp計(jì)數(shù))。用于對(duì)基因組數(shù)據(jù)和相位塊定相的技術(shù)描述于browning和browning,“haplotypephasing:existingmethodsandnewdevelopments,”natrevgenet.;12(10):703–714.doi:10.1038/nrg3054中,所述參考文獻(xiàn)特此以全文引用的方式并入。
在一些實(shí)施方案中,通過(guò)對(duì)應(yīng)的區(qū)間樹(shù)422將軌跡數(shù)據(jù)408放入背景中。因而,每一記錄410通過(guò)由區(qū)間樹(shù)422中的節(jié)點(diǎn)424來(lái)表示。每一此類(lèi)區(qū)間樹(shù)422是三叉樹(shù),其中所述樹(shù)的每一節(jié)點(diǎn)424存儲(chǔ)節(jié)點(diǎn)的中點(diǎn)xmed432。此中點(diǎn)432是與所述節(jié)點(diǎn)對(duì)應(yīng)的相位塊的中點(diǎn)在對(duì)應(yīng)染色體上的位置。每一相應(yīng)節(jié)點(diǎn)424具有至左子節(jié)點(diǎn)428的鏈接,所述左子節(jié)點(diǎn)對(duì)應(yīng)于在目標(biāo)(遺傳基因源)生物體的物種的基因組中緊靠在由相應(yīng)節(jié)點(diǎn)424表示的相位塊左邊的相位塊。每一相應(yīng)節(jié)點(diǎn)424具有至右子節(jié)點(diǎn)430的鏈接,所述右子節(jié)點(diǎn)對(duì)應(yīng)于緊靠在由相應(yīng)節(jié)點(diǎn)424表示的相位塊右邊的相位塊。每一相應(yīng)節(jié)點(diǎn)424具有節(jié)點(diǎn)的有序集合425,所述節(jié)點(diǎn)表示與相應(yīng)節(jié)點(diǎn)424的xmed432重疊的相位塊,所述相位塊是按此類(lèi)相位塊的左側(cè)位置進(jìn)行排序。每一相應(yīng)節(jié)點(diǎn)424具有節(jié)點(diǎn)的有序集合436,所述節(jié)點(diǎn)表示與相應(yīng)節(jié)點(diǎn)424的xmed432重疊的相位塊,所述相位塊是按此類(lèi)相位塊的右側(cè)位置進(jìn)行排序。在一些實(shí)施方案中,有序集合425和436在節(jié)點(diǎn)424中按陣列或鏈表來(lái)表示。每一相應(yīng)節(jié)點(diǎn)424進(jìn)一步包括名稱(chēng)426,所述名稱(chēng)是軌跡數(shù)據(jù)410中與記錄410的偏移,所述記錄含有與相應(yīng)節(jié)點(diǎn)424對(duì)應(yīng)的相位塊的相位信息420。
如圖4中所示,在一些實(shí)施方案中,相位塊軌跡中的每一染色體有單獨(dú)的區(qū)間樹(shù)422。此類(lèi)區(qū)間樹(shù)有利地提供識(shí)別與目標(biāo)基因組的用戶(hù)指定區(qū)有關(guān)的所有記錄410的快速方式。相位塊軌跡318的實(shí)例見(jiàn)于圖5中。在圖5中,示出了與圖4所示數(shù)據(jù)結(jié)構(gòu)對(duì)應(yīng)的示例性元素。
參看圖3,在一些實(shí)施方案中,概要308進(jìn)一步包括參考序列索引319,所述索引是含有分子變化(例如snp)識(shí)別符的索引,所述識(shí)別符是在與核酸測(cè)序數(shù)據(jù)集對(duì)應(yīng)的樣本中被識(shí)別出。參考序列索引319將每一此類(lèi)識(shí)別符與其在目標(biāo)生物體的基因組中的位置相關(guān)聯(lián)。在一些實(shí)施方案中,參考序列索引319按json數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)。在一些實(shí)施方案中,參考序列索引319中的每一多態(tài)性識(shí)別符是見(jiàn)于國(guó)家生物技術(shù)信息中心(ncbi)數(shù)據(jù)庫(kù)中的dbsnp識(shí)別符。參見(jiàn)wheeler等人,2007,“databaseresourcesofthenationalcenterforbiotechnologyinformation,”nucleicacidsres.35(databaseissue):d5–12,所述參考文獻(xiàn)特此以引用方式并入。此類(lèi)dbsnp識(shí)別符被稱(chēng)作參考snp集群id(rsid)。
在一些實(shí)施方案中,概要308進(jìn)一步包括基因軌跡320,所述基因軌跡提供用見(jiàn)于每一基因中的snp的數(shù)目標(biāo)記的人基因的參考。示例性基因軌跡320的結(jié)構(gòu)的更多細(xì)節(jié)見(jiàn)于圖6中。參看圖6,在一些實(shí)施方案中,基因軌跡320包括詞典段602、軌跡數(shù)據(jù)段608和一個(gè)或多個(gè)數(shù)據(jù)段628。在一些實(shí)施方案中,所述一個(gè)或多個(gè)數(shù)據(jù)段中的每一者存儲(chǔ)對(duì)應(yīng)染色體的基因信息。在一些實(shí)施方案中,所述一個(gè)或多個(gè)數(shù)據(jù)段中的每一者存儲(chǔ)一個(gè)或多個(gè)對(duì)應(yīng)染色體的基因信息。在一些實(shí)施方案中,所述一個(gè)或多個(gè)數(shù)據(jù)段中的每一者將對(duì)應(yīng)染色體的基因信息按區(qū)間樹(shù)628格式來(lái)存儲(chǔ)。
基因軌跡320的詞典602包括多個(gè)名稱(chēng)604以及對(duì)于每一名稱(chēng)604,在其中找到對(duì)應(yīng)名稱(chēng)604的記錄的軌跡數(shù)據(jù)608中的偏移606。在一些實(shí)施方案中,詞典602中的每一名稱(chēng)604是目標(biāo)基因組中的染色體的名稱(chēng)。
在一些實(shí)施方案中,基因軌跡320的軌跡數(shù)據(jù)608包括多個(gè)基因記錄610。在一些實(shí)施方案中,軌跡數(shù)據(jù)608是json格式。在一些實(shí)施方案中,每一基因記錄610表示靶核酸的物種中的基因。因而,在一些實(shí)施方案中,每一基因記錄610指定其上有對(duì)應(yīng)基因的染色體的數(shù)目612、在染色體612上基因開(kāi)始的位置614以及在染色體612上基因結(jié)束的位置616。此外,對(duì)于關(guān)于基因的每一基因記錄和基因信息620,存在唯一名稱(chēng)618。在一些實(shí)施方案中,信息620的目的是提供關(guān)于基因的基因信息,諸如,例如,基因的替代名稱(chēng)622、基因上的單核苷酸多態(tài)性的計(jì)數(shù)624以及基因的方向(例如,加或減)626。
在一些實(shí)施方案中,通過(guò)對(duì)應(yīng)的區(qū)間樹(shù)628將軌跡數(shù)據(jù)608放入背景中。每一基因記錄610形成區(qū)間樹(shù)628中的節(jié)點(diǎn)630。每一區(qū)間樹(shù)628是三叉樹(shù),其中每一節(jié)點(diǎn)630存儲(chǔ)節(jié)點(diǎn)的中點(diǎn)xmed642。此中點(diǎn)642是與所述節(jié)點(diǎn)對(duì)應(yīng)的基因的中點(diǎn)在對(duì)應(yīng)染色體上的位置。每一相應(yīng)節(jié)點(diǎn)630具有至左子節(jié)點(diǎn)638的鏈接,所述左子節(jié)點(diǎn)對(duì)應(yīng)于在目標(biāo)生物體的物種中緊靠在由相應(yīng)節(jié)點(diǎn)630表示的基因左邊(染色體上的較小位置)的基因。每一相應(yīng)節(jié)點(diǎn)630具有至右子節(jié)點(diǎn)640的鏈接,所述右子節(jié)點(diǎn)對(duì)應(yīng)于在目標(biāo)生物體的物種中緊靠在由相應(yīng)節(jié)點(diǎn)630表示的基因右邊(染色體上的較大位置)的基因。每一相應(yīng)節(jié)點(diǎn)620具有節(jié)點(diǎn)的有序集合632,所述節(jié)點(diǎn)分別表示與相應(yīng)節(jié)點(diǎn)620的xmed632重疊的基因,所述基因是按左側(cè)位置進(jìn)行排序。每一相應(yīng)節(jié)點(diǎn)630具有節(jié)點(diǎn)630的有序集合,所述節(jié)點(diǎn)分別表示與相應(yīng)節(jié)點(diǎn)630的xmed642重疊的基因,所述基因是按右側(cè)位置進(jìn)行排序。在一些實(shí)施方案中,有序集合632和644在節(jié)點(diǎn)630中按陣列或鏈表來(lái)表示。每一相應(yīng)節(jié)點(diǎn)630進(jìn)一步包括名稱(chēng)636,所述名稱(chēng)是軌跡數(shù)據(jù)608中與基因記錄610的偏移,所述記錄含有與相應(yīng)節(jié)點(diǎn)630對(duì)應(yīng)的基因的基因信息620。
如圖6中所示,在一些實(shí)施方案中,基因軌跡320中的每一染色體有單獨(dú)的區(qū)間樹(shù)628。此類(lèi)區(qū)間樹(shù)有利地提供識(shí)別與目標(biāo)基因組的用戶(hù)指定區(qū)有關(guān)的所有記錄610的快速方式。基因軌跡320的實(shí)例見(jiàn)于圖7中。在圖7中,示出了與圖6所示數(shù)據(jù)結(jié)構(gòu)對(duì)應(yīng)的示例性元素。
在一些實(shí)施方案中,概要308進(jìn)一步包括外顯子軌跡322。在一些實(shí)施方案中,外顯子軌跡322具有與基因軌跡320相同的結(jié)構(gòu),除了基因軌跡320表示目標(biāo)生物體的物種中的基因的基因信息,而外顯子軌跡320提供目標(biāo)生物體的物種中的外顯子的基因信息之外。
在一些實(shí)施方案中,概要308進(jìn)一步包括讀段數(shù)據(jù)的索引324。此索引324提供核酸測(cè)序集的數(shù)據(jù)段340中的序列/讀段數(shù)據(jù)1048的索引,在下文參看圖10對(duì)此進(jìn)行更詳細(xì)的描述。參看圖3,索引324包括將識(shí)別符與數(shù)據(jù)集中使用的條形碼(未示出)相關(guān)聯(lián)的數(shù)據(jù)庫(kù)。將識(shí)別符與數(shù)據(jù)集中使用的條形碼相關(guān)聯(lián)的數(shù)據(jù)庫(kù)(查找表)是用于壓縮讀段數(shù)據(jù)1048的大小的有用方式,因?yàn)樽R(shí)別符可以用來(lái)替代較長(zhǎng)的實(shí)際條形碼。這是因?yàn)閷?duì)于給定程度的信息內(nèi)容,在給定數(shù)據(jù)集126中并未使用所有理論上可能的條形碼。
索引324進(jìn)一步包括讀段數(shù)據(jù)1048中染色體偏移-->文件偏移關(guān)聯(lián)的按染色體組織的陣列328以及每一此類(lèi)數(shù)據(jù)元素的長(zhǎng)度,由此允許查找特定基因組范圍的對(duì)應(yīng)數(shù)據(jù)。在一些實(shí)施方案中,讀段數(shù)據(jù)是以分塊索引的形式來(lái)存儲(chǔ),并且每一記錄328是合并至數(shù)據(jù)集126中的bam文件中的每一條目的固定位記錄。bam文件中的每一此類(lèi)條目被組織成所述文件的數(shù)據(jù)段340內(nèi)的塊。概要308中的索引324有助于在數(shù)據(jù)段340內(nèi)找到要讀取的正確的塊。參看圖10,公開(kāi)了通過(guò)索引324指引的序列/讀段數(shù)據(jù)1048的對(duì)應(yīng)結(jié)構(gòu)。對(duì)于每一染色體,讀段數(shù)據(jù)1048存儲(chǔ)于塊1050中。在一些實(shí)施方案中,每一數(shù)據(jù)塊1050是按照以下格式的64位結(jié)構(gòu)1052的陣列:
其中o一直都是o,x指示讀段質(zhì)量低于閾值(例如,低于60),l指示讀段是來(lái)自親代單倍型a,r指示讀段是來(lái)自親代單倍型b,i是與讀段中的條形碼對(duì)應(yīng)的數(shù)值識(shí)別符,e是讀段的“結(jié)束”長(zhǎng)度,以及s是相對(duì)于塊1050的開(kāi)始此讀段的“開(kāi)始”位置。更一般來(lái)說(shuō),參看圖10,每一結(jié)構(gòu)1052對(duì)應(yīng)于來(lái)自物種的單個(gè)生物體的靶核酸的單個(gè)讀段并且包括開(kāi)始(偏移)、長(zhǎng)度、條形碼的指示符以及某些標(biāo)志。在一些實(shí)施方案中,結(jié)構(gòu)1052內(nèi)的開(kāi)始是染色體上的實(shí)際位置減去在索引324的記錄328的染色體偏移字段中針對(duì)塊1050存儲(chǔ)的開(kāi)始值。有利地,此使得可以避免在結(jié)構(gòu)1052中基因組坐標(biāo)的較大重復(fù)。此類(lèi)坐標(biāo)可以是數(shù)以十億計(jì)并且因此將需要用30個(gè)位來(lái)進(jìn)行存儲(chǔ)。有利地,通過(guò)分塊,如序列/讀段數(shù)據(jù)1048中所公開(kāi),每一塊覆蓋高達(dá)約一百萬(wàn)個(gè)堿基對(duì)并且因此塊中的每一結(jié)構(gòu)1052中的每一開(kāi)始(偏移)僅需要20個(gè)位,因?yàn)槿魏谓o定塊的范圍是由存儲(chǔ)在概要308中的索引324中的對(duì)應(yīng)記錄328的染色體偏移/長(zhǎng)度部分指定。類(lèi)似地,如上文所概述,在優(yōu)選實(shí)施方案中,結(jié)構(gòu)1052中的條形碼字段不存儲(chǔ)實(shí)際條形碼。在一些實(shí)施方案中,結(jié)構(gòu)1052中的條形碼指示符是存儲(chǔ)于索引324中的條形碼表的24位索引。因此,當(dāng)需要與特定讀段相關(guān)聯(lián)的實(shí)際條形碼時(shí),存取與所述讀段對(duì)應(yīng)的結(jié)構(gòu)1052,并且針對(duì)索引324中的條形碼表查詢(xún)結(jié)構(gòu)1052中的24位條形碼指示符以獲得條形碼。這樣,避免了結(jié)構(gòu)1052中的30位條形碼。在一些實(shí)施方案中,所述條形碼大于30位(例如,32位、34位、36位或更大),并且結(jié)構(gòu)1052中的條形碼的指示符大于20位(例如,22位、24位、26位或更大)。在一些實(shí)施方案中,所述條形碼少于30位(例如,28位、26位、24位或更少),并且結(jié)構(gòu)1052中的條形碼的指示符少于20位(例如,18位、16位、14位或更少)。在一些實(shí)施方案中,每一數(shù)據(jù)塊1050是具有相同預(yù)定大小(例如,128位、64位、32位或某其它固定位大小)的結(jié)構(gòu)1052的陣列。
在一些實(shí)施方案中,概要308進(jìn)一步包括結(jié)構(gòu)變異數(shù)據(jù)集軌跡330。在一些實(shí)施方案中,結(jié)構(gòu)變異數(shù)據(jù)集軌跡330包括樣本中由數(shù)據(jù)集126表示的被識(shí)別結(jié)構(gòu)變異的列表。示例性結(jié)構(gòu)變異數(shù)據(jù)集軌跡330的結(jié)構(gòu)的更多細(xì)節(jié)見(jiàn)于圖8中。參看圖8,在一些實(shí)施方案中,結(jié)構(gòu)變異數(shù)據(jù)集330包括詞典段802、軌跡數(shù)據(jù)段808和一個(gè)或多個(gè)數(shù)據(jù)段840。在一些實(shí)施方案中,所述一個(gè)或多個(gè)數(shù)據(jù)段840中的每一者存儲(chǔ)對(duì)應(yīng)染色體的結(jié)構(gòu)變異識(shí)別信息。在一些實(shí)施方案中,所述一個(gè)或多個(gè)數(shù)據(jù)段840中的每一者存儲(chǔ)一個(gè)或多個(gè)對(duì)應(yīng)染色體的結(jié)構(gòu)變異識(shí)別信息。在一些實(shí)施方案中,所述一個(gè)或多個(gè)數(shù)據(jù)段840中的每一者將對(duì)應(yīng)染色體的基因信息按區(qū)間樹(shù)格式來(lái)存儲(chǔ)。
結(jié)構(gòu)變異數(shù)據(jù)結(jié)構(gòu)變異數(shù)據(jù)集軌跡330的詞典802包括多個(gè)名稱(chēng)804以及對(duì)于每一名稱(chēng)804,在其中找到針對(duì)對(duì)應(yīng)名稱(chēng)804的記錄的軌跡數(shù)據(jù)808中的偏移606。在一些實(shí)施方案中,詞典802中的每一名稱(chēng)804是目標(biāo)基因組中的染色體的名稱(chēng)。
結(jié)構(gòu)變異數(shù)據(jù)集軌跡330的軌跡數(shù)據(jù)808包括多個(gè)結(jié)構(gòu)變異記錄810。在一些實(shí)施方案中,軌跡數(shù)據(jù)808是json格式。在一些實(shí)施方案中,每一結(jié)構(gòu)變異記錄810表示針對(duì)由數(shù)據(jù)集126表示的單個(gè)生物體的靶核酸進(jìn)行的結(jié)構(gòu)變異識(shí)別。因而,在一些實(shí)施方案中,每一結(jié)構(gòu)變異記錄810指定染色體數(shù)目812、由結(jié)構(gòu)變異化表示的開(kāi)始位置814、染色體812上由結(jié)構(gòu)變異表示的停止位置816、結(jié)構(gòu)變異的位置唯一名稱(chēng)818以及關(guān)于結(jié)構(gòu)變異的信息820。在一些實(shí)施方案中,結(jié)構(gòu)變異數(shù)據(jù)集軌跡330包括類(lèi)似的、與之對(duì)應(yīng)的或按bedpe格式的信息,以有利地簡(jiǎn)單地描述不相連的基因組特征,諸如結(jié)構(gòu)變異或成對(duì)末端序列比對(duì)。參見(jiàn)urlbedtools.readthedocs.org/en/latest/content/general-usage.html,所述url特此以引用方式并入本文中。因此,在一些實(shí)施方案中,每一結(jié)構(gòu)變異記錄810中的信息段820包括染色體1名稱(chēng)822,所述名稱(chēng)是所述特征的第一端存在于其上的染色體的名稱(chēng)。在一些實(shí)施方案中,染色體1名稱(chēng)822是按字符串格式,例如,“chr1”、“iii”、“mychrom”或“contig1112.23”。
在一些實(shí)施方案中,每一記錄810中的信息段820進(jìn)一步包括開(kāi)始1位置830,所述位置是染色體1名稱(chēng)822上特征的第一端的大于等于零的開(kāi)始位置。
在一些實(shí)施方案中,每一記錄810中的信息段820進(jìn)一步包括停止1(結(jié)束1)位置826,所述位置是染色體1名稱(chēng)822上由記錄810表示的特征(例如結(jié)構(gòu)變異)的第一端的大于等于1的結(jié)束位置。
在一些實(shí)施方案中,每一記錄810中的信息段820進(jìn)一步包括染色體2名稱(chēng)836,所述名稱(chēng)是由記錄810表示的特征的第二端存在于其上的染色體的名稱(chēng)。在一些實(shí)施方案中,染色體2名稱(chēng)836是按字符串格式,例如,“chr1”、“iii”、“mychrom”或“contig1112.23”。
在一些實(shí)施方案中,每一記錄810中的信息段820進(jìn)一步包括開(kāi)始2位置828,所述位置是染色體2名稱(chēng)836上由記錄810表示的特征的第二端的大于等于零的開(kāi)始位置。
在一些實(shí)施方案中,每一記錄810中的信息段820進(jìn)一步包括停止2(結(jié)束2)位置824,所述位置是染色體2名稱(chēng)836上由記錄810表示的特征(例如結(jié)構(gòu)變異)的第二端的大于等于1的結(jié)束位置。
在一些實(shí)施方案中,每一記錄810中的信息段820進(jìn)一步包括結(jié)構(gòu)變異字段的名稱(chēng)834,所述名稱(chēng)是由記錄810表示的特征(例如結(jié)構(gòu)變異)的名稱(chēng)。在一些實(shí)施方案中,結(jié)構(gòu)變異834的名稱(chēng)是按字符串格式,例如,“l(fā)ine”、“exon3”、“hwieas_0001:3:1:0:266#0/1”或“my_feature”。
在一些實(shí)施方案中,每一記錄810中的信息段820進(jìn)一步包括質(zhì)量(得分)字段832,所述字段是對(duì)由記錄810表示的特征(例如結(jié)構(gòu)變異)的質(zhì)量進(jìn)行打分的任何度量。在一些實(shí)施方案中,質(zhì)量832是按字符串格式,由此準(zhǔn)許所述特征的質(zhì)量用任何科學(xué)度量(例如,p-值、平均豐值等)來(lái)表達(dá)。
在一些實(shí)施方案中,每一記錄810中的信息段820進(jìn)一步包括關(guān)于由記錄81表示的特征的其它信息838,諸如排列的每一端的編輯距離、或“缺失”、“倒位”等)。
繼續(xù)參看圖8,在一些實(shí)施方案中,通過(guò)對(duì)應(yīng)的區(qū)間樹(shù)840將軌跡數(shù)據(jù)808放入背景中。每一記錄810形成區(qū)間樹(shù)840中的節(jié)點(diǎn)842。每一區(qū)間樹(shù)840是三叉樹(shù),其中每一節(jié)點(diǎn)842存儲(chǔ)節(jié)點(diǎn)的中點(diǎn)xmed852。此中點(diǎn)852是與所述節(jié)點(diǎn)對(duì)應(yīng)并且由對(duì)應(yīng)記錄810表示的特征(例如結(jié)構(gòu)變異)的中點(diǎn)在對(duì)應(yīng)染色體上的位置。每一相應(yīng)節(jié)點(diǎn)842具有至左子節(jié)點(diǎn)848的鏈接,所述左子節(jié)點(diǎn)對(duì)應(yīng)于在數(shù)據(jù)集126中緊靠在由相應(yīng)節(jié)點(diǎn)842表示的特征左邊(染色體上的較小位置)的特征(例如結(jié)構(gòu)變異)。每一相應(yīng)節(jié)點(diǎn)842具有至右子節(jié)點(diǎn)850的鏈接,所述右子節(jié)點(diǎn)對(duì)應(yīng)于在數(shù)據(jù)集126中緊靠在由相應(yīng)節(jié)點(diǎn)842表示的特征右邊(染色體上的較大位置)的特征(例如結(jié)構(gòu)變異)。每一相應(yīng)節(jié)點(diǎn)842具有節(jié)點(diǎn)的有序集合854,所述節(jié)點(diǎn)分別表示與相應(yīng)節(jié)點(diǎn)842的xmed852重疊的特征(例如結(jié)構(gòu)變異),所述特征是按左側(cè)位置進(jìn)行排序。每一相應(yīng)節(jié)點(diǎn)842具有節(jié)點(diǎn)的有序集合844,所述節(jié)點(diǎn)分別表示與相應(yīng)節(jié)點(diǎn)842的xmed852重疊的特征,所述特征是按右側(cè)位置進(jìn)行排序。在一些實(shí)施方案中,有序集合844和854在節(jié)點(diǎn)840中按陣列或鏈表來(lái)表示。每一相應(yīng)節(jié)點(diǎn)840進(jìn)一步包括名稱(chēng)846,所述名稱(chēng)是軌跡數(shù)據(jù)808中與記錄810的偏移,所述記錄含有與相應(yīng)節(jié)點(diǎn)840對(duì)應(yīng)的特征(例如結(jié)構(gòu)變異)的信息820。
如圖8中所示,在一些實(shí)施方案中,結(jié)構(gòu)變異數(shù)據(jù)集軌跡330中的每一染色體有單獨(dú)的區(qū)間樹(shù)840。此類(lèi)區(qū)間樹(shù)有利地提供識(shí)別與目標(biāo)基因組的用戶(hù)指定區(qū)有關(guān)的所有記錄810的快速方式。結(jié)構(gòu)變異數(shù)據(jù)集軌跡330的部分的實(shí)例見(jiàn)于圖9中。在圖9中,示出了與圖8所示數(shù)據(jù)結(jié)構(gòu)對(duì)應(yīng)的示例性元素。
參看圖3,在一些實(shí)施方案中,概要308進(jìn)一步包括目標(biāo)數(shù)據(jù)集342的索引332。目標(biāo)數(shù)據(jù)集342包括樣本中的至少一個(gè)靶核酸的、被選來(lái)用于在核酸測(cè)序數(shù)據(jù)集中進(jìn)行測(cè)序的區(qū)。在一些實(shí)施方案中,索引332和目標(biāo)數(shù)據(jù)集342存儲(chǔ)于分塊json索引中。分塊json索引包括概要段中的單個(gè)json對(duì)象(索引332)和數(shù)據(jù)段中的多個(gè)json對(duì)象(目標(biāo)數(shù)據(jù)集342)。索引332用于計(jì)算為了完成特定查詢(xún)必須要讀取哪些數(shù)據(jù)組成部分。在一些實(shí)施方案中,索引332是按染色體來(lái)分開(kāi)。對(duì)于每一染色體,索引332存儲(chǔ)將該染色體上的范圍與在其中可以找到針對(duì)該范圍的特定數(shù)據(jù)的、目標(biāo)數(shù)據(jù)集中的偏移相關(guān)聯(lián)的陣列(記錄)334。在一些實(shí)施方案中,目標(biāo)數(shù)據(jù)集342含有許多獨(dú)立陣列。每一陣列含有基因組的一個(gè)連續(xù)范圍內(nèi)的所有范圍(和相關(guān)聯(lián)數(shù)據(jù))。目標(biāo)數(shù)據(jù)集342中的每一陣列對(duì)應(yīng)于索引332中的單個(gè)陣列(條目)334。在一些實(shí)施方案中,目標(biāo)數(shù)據(jù)集中的每一此類(lèi)陣列被定尺寸以容納約1,000個(gè)條目。因?yàn)樘囟ǚ秶锌赡芘c多個(gè)“塊”重疊,所以相同的數(shù)據(jù)可能會(huì)被寫(xiě)入至多個(gè)連續(xù)陣列中。參看圖3,在一些實(shí)施方案中,概要308進(jìn)一步包括片段數(shù)據(jù)集344的索引336。片段數(shù)據(jù)集344包括核酸測(cè)序數(shù)據(jù)集中的所有片段的長(zhǎng)度、位置、條形碼和相位。如上文所描述,片段是來(lái)自單個(gè)分區(qū)的核酸。在一些實(shí)施方案中,索引336和片段數(shù)據(jù)集344存儲(chǔ)于分塊json索引中。分塊json索引包括概要段中的單個(gè)json對(duì)象(索引336)和數(shù)據(jù)段中的多個(gè)json對(duì)象(片段數(shù)據(jù)集344)。索引336用于計(jì)算為了完成特定查詢(xún)必須要讀取哪些數(shù)據(jù)組成部分。在一些實(shí)施方案中,索引336是按染色體來(lái)分開(kāi)。對(duì)于每一染色體,索引336存儲(chǔ)將該染色體上的范圍與在其中可以找到針對(duì)該范圍的特定數(shù)據(jù)的、片段數(shù)據(jù)集344中的偏移相關(guān)聯(lián)的陣列338。片段數(shù)據(jù)集344中的數(shù)據(jù)塊的實(shí)例是:
因此,如上文提供的,本公開(kāi)的所公開(kāi)的核酸測(cè)序數(shù)據(jù)集126提供了將常規(guī)上見(jiàn)于單獨(dú)文件中的幾種形式的數(shù)據(jù)與僅具有次要價(jià)值的數(shù)據(jù)組合的簡(jiǎn)化文件格式。有利地,核酸測(cè)序數(shù)據(jù)集126文件格式是自含式的并且具有支持單倍型可視化工具148的特征所需的所有數(shù)據(jù)。
圖12-30示出了讀取核酸測(cè)序數(shù)據(jù)集126的單倍型可視化工具148的實(shí)施方案。在一些實(shí)施方案中,單倍型可視化工具148是面向變異以及單倍型感知基因組瀏覽器。為了產(chǎn)生此類(lèi)視圖,單倍型可視化工具148將來(lái)自若干源的數(shù)據(jù)以軌跡的形式重疊至單個(gè)統(tǒng)一核酸測(cè)序數(shù)據(jù)集126中以便顯示,其中可以對(duì)所述軌跡進(jìn)行滾動(dòng)和縮放。在一些實(shí)施方案中,所存儲(chǔ)的軌跡包括呈軌跡形式的定相變異識(shí)別、相位塊、基因、外顯子、結(jié)構(gòu)變異斷點(diǎn)和讀段計(jì)數(shù)(覆蓋)。此類(lèi)信息如何存儲(chǔ)的一個(gè)此類(lèi)實(shí)施方案在圖3中公開(kāi)并且在上文進(jìn)行描述。有利地,核酸測(cè)序集中的不同信息可以在單個(gè)顯示器中顯示。單倍型可視化工具148因?yàn)槠淠軌蛘故鞠辔恍畔⒍鴧^(qū)別于其它基因組瀏覽器。參看圖12和13,從圖12和圖13中顯示的概述模塊中,用戶(hù)可以有利地使用搜索提示1250來(lái)選擇核酸測(cè)序數(shù)據(jù)集的區(qū)來(lái)進(jìn)行進(jìn)一步分析。在一些實(shí)施方案中,通過(guò)搜索提示1250,單倍型可視化工具148支持大范圍的有效搜索句法,諸如chr1:1000000(選擇染色體1的第一百萬(wàn)個(gè)核苷酸)、chr1:1000000-2000000(選擇染色體1的第二百萬(wàn)個(gè)核苷酸)、brca1,brca2(選擇brca1和brca2)以及chr1:1000000-2000000,chr2:5000000-6000000(選擇染色體1的第二百萬(wàn)個(gè)核苷酸以及染色體2的第五百萬(wàn)個(gè)核苷酸)。在一些實(shí)施方案中,用戶(hù)提供基因的符號(hào)名稱(chēng),并且單倍型可視化工具148通過(guò)使用將符號(hào)名稱(chēng)轉(zhuǎn)換成基因組坐標(biāo)的一個(gè)或多個(gè)查找表來(lái)將此符號(hào)名稱(chēng)轉(zhuǎn)換成適當(dāng)?shù)幕蚪M坐標(biāo)。有利地,用戶(hù)可以在單個(gè)搜索中提供絕對(duì)坐標(biāo)范圍與基因名稱(chēng)的混合。在一些實(shí)施方案中,用戶(hù)提供包括多個(gè)基因座的單個(gè)搜索查詢(xún)。響應(yīng)于此類(lèi)查詢(xún),單倍型可視化工具148對(duì)所述多個(gè)基因座進(jìn)行剖析并且提供每一此類(lèi)查詢(xún)的結(jié)果。在一些實(shí)施方案中,用戶(hù)提供句法為x1:n1-n2的搜索查詢(xún),其中x1是所選的第一染色體或所選的第一重疊群序列的識(shí)別碼,n1是所述第一染色體或所選的第一重疊群序列內(nèi)的所選的開(kāi)始位置,并且n2是所述第一染色體或所選的第一重疊群序列內(nèi)的所選的結(jié)束位置。如本上下文中所使用,術(shù)語(yǔ)“重疊群”表示來(lái)自參考基因組的任何“重疊群”,所述基因組可能對(duì)應(yīng)于目標(biāo)分離分子,所述分子不是染色體或染色體的未完全組裝的部分。在一些實(shí)施方案中,用戶(hù)提供句法為x1:n1-n2的搜索查詢(xún),其中x1是所選的第一染色體或所選的第一重疊群序列的識(shí)別碼,n1是所述第一染色體或所選的第一重疊群序列內(nèi)的所選的開(kāi)始位置,并且n2是所述第一染色體或所選的第一重疊群序列內(nèi)的所選的結(jié)束位置。在一些實(shí)施方案中,用戶(hù)提供句法為x1:n1的搜索查詢(xún),其中x1是所選的第一染色體或所選的第一重疊群序列的識(shí)別碼,并且n1是從所述第一染色體或所選的第一重疊群序列的起點(diǎn)處開(kāi)始算起的核苷酸的數(shù)目。
在一些實(shí)施方案中,用戶(hù)提供句法為y1,y2,…,yn的搜索查詢(xún),其中y1,y2,…,yn中的每一yi是所選基因、染色體區(qū)的選段、或重疊群序列的區(qū)的選段的字母數(shù)字識(shí)別。在一些此類(lèi)實(shí)施方案中,y1,y2,…,yn中的第一yi是具有句法x1:n1-n2的第一染色體或第一重疊群序列的識(shí)別碼,其中x1是所述第一染色體或第一重疊群序列的識(shí)別碼,n1是所述第一染色體或第一重疊群序列內(nèi)的所選的開(kāi)始位置,以及n2是所述第一染色體或第一重疊群序列內(nèi)的所選的結(jié)束位置,并且y1,y2,…,yn中的第二yi是所選基因的字母數(shù)字識(shí)別。在其它此類(lèi)實(shí)施方案中,y1,y2,…,yn中的第一yi是具有句法x1:n1-n2的第一染色體或第一重疊群序列的識(shí)別碼,其中x1是所述第一染色體或第一重疊群序列的識(shí)別碼,n1是所述第一染色體或第一重疊群序列內(nèi)的所選的開(kāi)始位置,以及n2是所述第一染色體或第一重疊群序列內(nèi)的所選的結(jié)束位置,并且y1,y2,…,yn中的第二yi是所選基因的字母數(shù)字識(shí)別。在一些實(shí)施方案中,在無(wú)人工干預(yù)的情況下,通過(guò)將請(qǐng)求與一個(gè)或多個(gè)查找表進(jìn)行比較來(lái)將所述請(qǐng)求轉(zhuǎn)換成基因組坐標(biāo),所述查找表將基因的字母數(shù)字條目與基因組坐標(biāo)匹配。在一些實(shí)施方案中,所述請(qǐng)求包括一個(gè)或多個(gè)基因名稱(chēng)、一個(gè)或多個(gè)基因組坐標(biāo)、或其組合。
有利地,可以在各種不同的系統(tǒng)拓?fù)渲姓{(diào)用單倍型可視化工具148。舉例來(lái)說(shuō),參看圖31,在一些實(shí)施方案中,單倍型可視化工具148在客戶(hù)端計(jì)算機(jī)3102上運(yùn)行并且經(jīng)由網(wǎng)絡(luò)連接遠(yuǎn)程存取核酸序列數(shù)據(jù)集。舉例來(lái)說(shuō),參看圖31,在一些實(shí)施方案中,單倍型可視化工具148工具是在客戶(hù)端計(jì)算機(jī)系統(tǒng)3102上,所述系統(tǒng)經(jīng)由網(wǎng)絡(luò)連接3106與結(jié)構(gòu)變異和相位可視化系統(tǒng)100通信。本公開(kāi)的一個(gè)此類(lèi)實(shí)施方案提供了用于經(jīng)由網(wǎng)絡(luò)連接將結(jié)構(gòu)變異或定相信息3100提供至遠(yuǎn)程客戶(hù)端計(jì)算機(jī)3102的系統(tǒng)3100。參看圖1和32,系統(tǒng)3100包括服務(wù)器100,所述服務(wù)器具有一個(gè)或多個(gè)微處理器102、持久存儲(chǔ)器(例如硬盤(pán))和非持久存儲(chǔ)器(例如隨機(jī)存取存儲(chǔ)器)。本領(lǐng)域的技術(shù)人員將了解,持久存儲(chǔ)器是即便在系統(tǒng)100掉電時(shí)也能存儲(chǔ)信息的存儲(chǔ)器,而非持久存儲(chǔ)器在系統(tǒng)100掉電時(shí)無(wú)法存儲(chǔ)信息。此外,本領(lǐng)域的技術(shù)人員將了解,對(duì)存儲(chǔ)于持久存儲(chǔ)器中的數(shù)據(jù)的存取時(shí)間要慢于對(duì)存儲(chǔ)于非持久存儲(chǔ)器中的數(shù)據(jù)的存取時(shí)間。更進(jìn)一步,非持久存儲(chǔ)器比持久存儲(chǔ)器貴。因而,所公開(kāi)的核酸數(shù)據(jù)集126因?yàn)檩^大而通常被放到持久存儲(chǔ)器中存儲(chǔ)。在一些實(shí)施方案中,核酸測(cè)序數(shù)據(jù)集是1吉字節(jié)或更大、5吉字節(jié)或更大、或10吉字節(jié)或更大。
在一些實(shí)施方案中,持久存儲(chǔ)器和非持久存儲(chǔ)器(在圖1中被統(tǒng)稱(chēng)為存儲(chǔ)器112)存儲(chǔ)一個(gè)或多個(gè)核酸序列數(shù)據(jù)集126。所述一個(gè)或多個(gè)核酸序列數(shù)據(jù)集中的每一相應(yīng)核酸測(cè)序數(shù)據(jù)集126對(duì)應(yīng)于多個(gè)樣本中的相應(yīng)樣本中的至少一個(gè)靶核酸。所述相應(yīng)樣本與物種的基因組相關(guān)聯(lián)。參看圖3,相應(yīng)核酸測(cè)序數(shù)據(jù)集126包括(i)標(biāo)頭302、(ii)概要308和(iii)數(shù)據(jù)段340。
數(shù)據(jù)段340包括多個(gè)測(cè)序讀段并且是數(shù)據(jù)集126中的最大組成部分。所述多個(gè)測(cè)序讀段中的每一相應(yīng)測(cè)序讀段包括與相應(yīng)樣本中的至少一個(gè)靶核酸的子集對(duì)應(yīng)的第一部分以及對(duì)多個(gè)識(shí)別符中的、相應(yīng)測(cè)序讀段的相應(yīng)識(shí)別符進(jìn)行編碼的第二部分。每一相應(yīng)識(shí)別符獨(dú)立于所述至少一個(gè)靶核酸的序列。所述多個(gè)測(cè)序讀段共同地包括所述多個(gè)識(shí)別符。
持久存儲(chǔ)器和非持久存儲(chǔ)器進(jìn)一步共同地存儲(chǔ)一個(gè)或多個(gè)程序,所述程序使用一個(gè)或多個(gè)微處理器102來(lái)將單倍型可視化工具148提供至客戶(hù)端以便安裝在遠(yuǎn)程客戶(hù)端計(jì)算機(jī)上。轉(zhuǎn)而,接收經(jīng)由網(wǎng)絡(luò)連接從客戶(hù)端發(fā)送的、對(duì)使用所述一個(gè)或多個(gè)數(shù)據(jù)集中的第一數(shù)據(jù)集126的結(jié)構(gòu)變異或相位信息的請(qǐng)求。響應(yīng)于接收到所述請(qǐng)求,通過(guò)將第一數(shù)據(jù)集的標(biāo)頭302和概要308載入至非持久存儲(chǔ)器中(如果還沒(méi)有載入至非持久存儲(chǔ)器中的話)同時(shí)將數(shù)據(jù)段340保持在持久存儲(chǔ)器中來(lái)自動(dòng)地對(duì)所述請(qǐng)求進(jìn)行篩選。這樣,使非持久存儲(chǔ)器的量最小化。將所述請(qǐng)求與第一數(shù)據(jù)集的概要308進(jìn)行比較,由此識(shí)別第一數(shù)據(jù)集的數(shù)據(jù)段的一個(gè)或多個(gè)部分。明確地說(shuō),如下文更詳細(xì)地描述,使用概要308的各種組成部分來(lái)識(shí)別為了完成所述請(qǐng)求需要數(shù)據(jù)340的哪些部分。在一些實(shí)施方案中,所述請(qǐng)求識(shí)別特定數(shù)據(jù)集126和基因組的區(qū)。在一些實(shí)施方案中,所述請(qǐng)求識(shí)別特定數(shù)據(jù)集126和一個(gè)或多個(gè)基因。在一些實(shí)施方案中,所述請(qǐng)求識(shí)別特定數(shù)據(jù)集126和一個(gè)或多個(gè)外顯子。一旦識(shí)別出完成所述請(qǐng)求所需要的數(shù)據(jù)段的部分,那么將所述部分載入至非持久存儲(chǔ)器中,并且使用第一數(shù)據(jù)集對(duì)所請(qǐng)求的結(jié)構(gòu)變異和相位信息進(jìn)行格式化以便在客戶(hù)端計(jì)算機(jī)3102上顯示。接著經(jīng)由網(wǎng)絡(luò)連接3106將此經(jīng)格式化的結(jié)構(gòu)變異或相位信息發(fā)送至客戶(hù)端裝置以便在客戶(hù)端裝置上顯示。在一些實(shí)施方案中,如圖1中所公開(kāi),不使用客戶(hù)端計(jì)算機(jī),并且單倍型可視化工具存在于結(jié)構(gòu)變異和相位可視化系統(tǒng)100上。
既然已經(jīng)闡釋了分裂核酸序列數(shù)據(jù)集126的優(yōu)點(diǎn),那么將更詳細(xì)地描述單倍型可視化工具148的圖形用戶(hù)界面特征以及其組成模塊(例如,概述模塊150、相位可視化模塊152、結(jié)構(gòu)變異模塊154等)。轉(zhuǎn)向圖12,一旦用戶(hù)已在面板1250中輸入查詢(xún),那么就可以使用相位可視化模塊152來(lái)查看所述查詢(xún)的相位,如圖14至圖16中所示。舉例來(lái)說(shuō),在輸入查詢(xún)chr1+10000000-chr1+10500000(或chr1:10000000-chr1:10500000)后,在圖14a中所示的基因組瀏覽器(相位可視化模塊152)中示出所選區(qū)。此處,有利地以反映所選區(qū)的實(shí)際物理結(jié)構(gòu)的方式來(lái)展示基因組的所選區(qū):存在所述基因組的兩個(gè)拷貝,并且這是通過(guò)展示兩條軌跡(每一單倍型各一條,單倍型1(1402)和單倍型2(1404))以及未確定親代單倍型的中間區(qū)域1406來(lái)反映。基于定相算法將小的插入和缺失映射至每一單倍型。所選區(qū)的已定相至第一單倍型的部分在第一單倍型1區(qū)1402的對(duì)應(yīng)部分中展示為條,所選區(qū)的已定相至第二單倍型的部分在第二單倍型1區(qū)1404的對(duì)應(yīng)部分中展示為條,并且所選區(qū)的還沒(méi)定相至單倍型的部分在中間區(qū)域1406中展示為條。
在單倍型視圖中,所選區(qū)的已定相部分被圍在黑色方框1440中。圖14a中所示的整個(gè)區(qū)是在單個(gè)相位塊1440-1中。對(duì)于圖14b、圖15、和圖16的染色體1和2來(lái)說(shuō),情況也是這樣。然而,圖16中的染色體4的所顯示的區(qū)包括五個(gè)不同的相位塊,每一相位塊是由黑色方框來(lái)標(biāo)記出。這些框?qū)Χㄏ鄩K(即,通過(guò)定相算法確定的、染色體的連續(xù)定相區(qū))進(jìn)行劃界。
單體型單倍型1(1402)、單倍型2(1404)和中間區(qū)域1406中的垂直條表示單核苷酸多態(tài)性、小的插入和缺失。在一些實(shí)施方案中,這些條是用表示參考基因型的第一顏色(例如灰色)和表示替代基因型的第二顏色(例如綠色)來(lái)進(jìn)行色彩編碼。
純合snp將具有跨越兩個(gè)單倍型軌跡和中間區(qū)域(未定相軌跡)的垂直條,因?yàn)闊o(wú)法對(duì)純合性變異定相。這在圖26中示出為元素2602。
將已定相的純合snp放置于單倍型軌跡1402/1404上。這在圖26中示出為元素2604。
當(dāng)純合snp未定相時(shí),將所述純合snp放置于夾在單倍型軌跡1402/1404之間的中間區(qū)域1405(未定相軌跡)中。這在圖26中示出為元素2606。
最后,如果兩個(gè)已定相的單核苷酸多態(tài)性是替代基因型,那么將在單倍型軌跡1402/1404中顯示第二種顏色(例如綠色)的兩個(gè)垂直條,每一軌跡一個(gè)垂直條。這在圖26中示出為元素2608。
單倍型軌跡的暗區(qū)(諸如圖27的區(qū)2710)表示具有高snp密度的區(qū)域。點(diǎn)擊區(qū)2710會(huì)放大區(qū)2710內(nèi)的個(gè)別snp。此外,在一些實(shí)施方案中,當(dāng)完成這件事時(shí),將會(huì)出現(xiàn)彈出框2712,所述彈出框具有允許用戶(hù)對(duì)snp群組放大的鏈接。一般來(lái)說(shuō),框2712提供關(guān)于snp的額外信息,諸如位置、參考基因型、樣本中的單倍型1和2的觀察到的基因型、在其中找到snp(如果與基因相關(guān)聯(lián)的話)的基因、定相質(zhì)量以及所述兩個(gè)觀察到的基因型的等位基因計(jì)數(shù)??梢酝ㄟ^(guò)點(diǎn)擊框2712的角上的x來(lái)關(guān)閉框2712。在一些實(shí)施方案中,為snp提供的定相質(zhì)量是用于定量snp的定相質(zhì)量的類(lèi)phred得分。
參看圖28a,當(dāng)用戶(hù)點(diǎn)擊等位基因中的一者以發(fā)現(xiàn)變異時(shí),方框(例如方框2802)突出顯示該變異。緊靠突出顯示的變異顯示的數(shù)字2804表示與針對(duì)該變異的所選等位基因相關(guān)聯(lián)的條形碼的數(shù)目。舉例來(lái)說(shuō),在圖28a中,數(shù)字“31”緊靠著框2802顯示,指示與針對(duì)該變異的所選等位基因相關(guān)聯(lián)的條形碼的數(shù)目是31。在與框2802相鄰的變異的頂部和/或底部上也顯示數(shù)字。每一此類(lèi)數(shù)字表示在所選等位基因與相鄰變異的兩個(gè)等位基因中的一者之間重疊的條形碼的數(shù)目。用第一顏色(例如黑色)顯示的數(shù)字與變異2802的定相識(shí)別相符,而用第二顏色(例如紅色)顯示的數(shù)字與所述識(shí)別不相符。鄰近變異之間條形碼重疊程度越大,變異的定相的置信度就越高。舉例來(lái)說(shuō),對(duì)于圖28a的chr7:117,216,030處的參考識(shí)別,在單倍型1面板1402的頂部上有31(2804),指示存在與該位置處的參考等位基因相關(guān)聯(lián)的31個(gè)條形碼。參看圖28b,當(dāng)選擇同一位置2802處的變異snv時(shí),13個(gè)條形碼支持定相,并且?guī)?biāo)簽的鄰近snv改變,如圖28b中所見(jiàn)。
在一些實(shí)施方案中,基因組瀏覽器進(jìn)一步提供染色體圖1424以及正在顯示的染色體上的位置1426。參看圖14a,在瀏覽器的頂部處,展示了著絲粒是由暗矩形標(biāo)記的微型染色體1424,其中染色體帶是由亮矩形標(biāo)記。三角形1426指示目前在縮放的位置,向用戶(hù)給予關(guān)于染色體的其余部分使用搜索條1250選擇的區(qū)的總體視圖。
所公開(kāi)的基因組瀏覽器進(jìn)一步提供處于所顯示的基因組區(qū)中的每一基因的圖形表示1408。此基因軌跡1408顯示帶注釋的參考基因??梢酝ㄟ^(guò)輸入目標(biāo)基因使用搜索條1250來(lái)顯示多個(gè)基因。每一基因的方向用箭頭指示。雖然圖14a中未示出,但外顯子是用暗色陰影來(lái)突出顯示。此特征在圖26-28中示出。在一些實(shí)施方案中,重疊基因展示在基因軌跡1408中的最多三個(gè)軌跡上,但是可以使用搜索條來(lái)顯示許多基因。
所公開(kāi)的基因組瀏覽器進(jìn)一步提供處于所顯示的基因組區(qū)中的外顯子的圖形表示1410。
所公開(kāi)的基因組瀏覽器進(jìn)一步提供所顯示的基因組區(qū)中的覆蓋的覆蓋軌跡1412。比對(duì)的序列讀段顯示于覆蓋軌跡上。覆蓋軌跡1412中的每一垂直條展示了所述條下面的基因組的區(qū)域的每堿基平均覆蓋。對(duì)高度進(jìn)行縮放,使得最大高度是中值覆蓋的四倍。在一些實(shí)施方案中,當(dāng)用戶(hù)點(diǎn)擊覆蓋軌跡1412的一部分時(shí),所述覆蓋軌跡的該部分的每堿基對(duì)平均讀段和讀段的總數(shù)顯示于覆蓋細(xì)節(jié)彈出黑框中。
所公開(kāi)的基因組瀏覽器進(jìn)一步提供所顯示的區(qū)中的斷點(diǎn)軌跡1414。結(jié)構(gòu)變異(包括染色體間易位、基因融合、倒位和缺失)在斷點(diǎn)軌跡1414中突出顯示。結(jié)構(gòu)變異在所述顯示中被任意地編號(hào)。結(jié)構(gòu)變異識(shí)別在斷點(diǎn)軌跡1414中用第一顏色(例如橙色)指示,并且結(jié)構(gòu)變異候選者在斷點(diǎn)軌跡1414中用第二顏色(例如灰色)指明。為了顯示結(jié)構(gòu)變異斷點(diǎn)對(duì),用戶(hù)可以點(diǎn)擊針對(duì)所述基因顯示的結(jié)構(gòu)變異,如圖29中所示。結(jié)構(gòu)變異顯示于細(xì)節(jié)框2902中。通過(guò)選擇細(xì)節(jié)框2902中的“放大此斷點(diǎn)”2094,將斷點(diǎn)的另一側(cè)上提并作為額外單倍型軌跡,縮放所述斷點(diǎn),如圖30中所示。
有利地,在所公開(kāi)的基因組瀏覽器的顯示模式的一些實(shí)施方案(示出于圖14a中)中并未顯示堿基識(shí)別、錯(cuò)誤率、特定讀段和比對(duì)。而是,所公開(kāi)的基因組瀏覽器以較高水平運(yùn)行以便提供對(duì)所選區(qū)中將要進(jìn)行的活動(dòng)的更概念化的指示以及以易于理解的方式來(lái)提供此信息。為此,所公開(kāi)的瀏覽器的一些實(shí)施方案提供其中未展示全部序列讀段數(shù)據(jù)的顯示模式,諸如圖14a中所示的顯示模式。
參看圖14a,可以使用縮放可供性1420來(lái)放大通過(guò)搜索條1250識(shí)別的區(qū)的子集,并且可以使用縮放可供性1422來(lái)縮小所述區(qū)。另外,用戶(hù)可以通過(guò)點(diǎn)擊區(qū)1408中表示特定基因的圖標(biāo)來(lái)放大所述特定基因。
在一些實(shí)施方案中,所公開(kāi)的基因組瀏覽器的搜索條1250提供智能自動(dòng)完成特征。舉例來(lái)說(shuō),當(dāng)用戶(hù)開(kāi)始在搜索條1250中鍵入基因名稱(chēng)時(shí),基因組瀏覽器對(duì)所述基因進(jìn)行自動(dòng)完成。在一些實(shí)施方案中,基因組瀏覽器通過(guò)將用戶(hù)輸入的部分搜索查詢(xún)與核酸測(cè)序數(shù)據(jù)集中存儲(chǔ)的基因組信息(諸如基因軌跡中的基因的名稱(chēng))進(jìn)行比較來(lái)完成此舉。有利地,在此類(lèi)實(shí)施方案中,搜索條1250對(duì)基因名稱(chēng)進(jìn)行自動(dòng)完成。舉例來(lái)說(shuō),參看圖17,當(dāng)用戶(hù)將表達(dá)“atp”輸入搜索條中時(shí),顯示核酸序列數(shù)據(jù)集126內(nèi)找到的若干可能匹配1702-1至1702-10。
如圖12至圖30中所示,單倍型可視化工具148提供核酸序列數(shù)據(jù)集的結(jié)構(gòu)變異或相位(例如單倍型)信息。
明確地說(shuō),參看圖12和圖13,選擇單倍型可視化工具148的相位/單倍型切換1252會(huì)調(diào)用相位可視化模塊152,如圖14-17和圖26-30中所示。如圖14-17和圖26-30中所示,提供單倍型的視覺(jué)上分開(kāi)的軌跡以及可能未指派給任一單倍型的變異的虛擬軌跡。定相變異可以具有許多分類(lèi),包括:未定相的、純合的、和/或不具有參考的雜合讀段、具有參考的雜合讀段。單倍型可視化工具148將視覺(jué)上不同的式樣應(yīng)用于這些不同配置,使得用戶(hù)可以快速地將它們分開(kāi)。單倍型可視化工具148可以顯示用于將變異指派給特定相位塊的條形碼證據(jù)的量。在一些實(shí)施方案中,當(dāng)用戶(hù)“點(diǎn)擊”變異時(shí),用與所選變異重疊的條形碼的計(jì)數(shù)來(lái)修飾每個(gè)其它可視變異。突出顯示與所識(shí)別的單倍型不一致的數(shù)據(jù)。單倍型可視化工具148還允許用戶(hù)一次查看多個(gè)區(qū)。這被顯示為在屏幕的不同區(qū)域中的單獨(dú)單倍型。在此模式下,在所顯示的每一區(qū)之間共享“計(jì)數(shù)”,從而允許用戶(hù)查看基因組的不同區(qū)之間的條形碼重疊。
再次參看圖12和圖13,選擇單倍型可視化工具148的結(jié)構(gòu)變異切換1254會(huì)調(diào)用結(jié)構(gòu)變異模塊154,如圖23-25和圖33-34中所示。由結(jié)構(gòu)變異模塊154提供的矩陣視圖涵蓋了用于使候選結(jié)構(gòu)變異可視化的方法??梢暬峭ㄟ^(guò)將基因組(測(cè)試核酸數(shù)據(jù))的兩個(gè)(可能重疊的)區(qū)量化成每塊100至10,000個(gè)堿基對(duì)的塊來(lái)起作用。計(jì)算每對(duì)塊中的讀段之間的共享?xiàng)l形碼的數(shù)目。如圖23-25以及圖33-34中所示,所得矩陣(其中來(lái)自一個(gè)區(qū)的塊作為行并且來(lái)自另一區(qū)的塊作為列)可以顯示為二位圖像(熱點(diǎn)圖)。在一些實(shí)施方案中,像素的顏色對(duì)應(yīng)于每一區(qū)的特定塊(例如窗口)之間的不同的重疊條形碼的數(shù)目。舉例來(lái)說(shuō),考慮具有連續(xù)塊的兩個(gè)區(qū),所述連續(xù)塊具有以下條形碼:
(1)aaa,acaaca,agtgtg
(2)gtg,aaacccaca,aaa
區(qū)(1)與區(qū)(2)之間有九對(duì)塊,所述九對(duì)塊可以置于矩陣中,諸如下文在表1中陳述的矩陣。
表1-區(qū)(1)與區(qū)(2)之間的塊的對(duì)的矩陣。
計(jì)算每一單元格中的兩組條形碼之間的重疊會(huì)得到在表2中陳述的值。
表2-區(qū)(1)與區(qū)(2)之間的矩陣值。
表2可以通過(guò)結(jié)構(gòu)變異模塊154顯示為熱點(diǎn)圖,所述熱點(diǎn)圖有效地向用戶(hù)展示低與高條形碼相關(guān)性的區(qū)域。在一些實(shí)施方案中,結(jié)構(gòu)變異模塊154提供額外信息,諸如與矩陣重疊的基因和外顯子邊界,以允許數(shù)據(jù)與已知的相關(guān)位置容易地比對(duì)。在一些實(shí)施方案中,結(jié)構(gòu)變異模塊154還允許下載矩陣的文本拷貝以便用其它計(jì)算機(jī)程序來(lái)進(jìn)行分析。在一些實(shí)施方案中,用戶(hù)可以通過(guò)實(shí)時(shí)地進(jìn)行滾動(dòng)或縮放來(lái)調(diào)整在結(jié)構(gòu)變異模塊154中可視化的基因組的區(qū)。在一些實(shí)施方案中,在查看基因組的極小或極大區(qū)域時(shí),用戶(hù)可以調(diào)整分辨率(塊大小/窗口大小)以避免混疊或過(guò)載。
本公開(kāi)的一些實(shí)施方案提供用于查看核酸測(cè)序數(shù)據(jù)(例如,從核酸測(cè)序數(shù)據(jù)集126獲得的信息)的系統(tǒng)100。系統(tǒng)100包括一個(gè)或多個(gè)微處理器102和存儲(chǔ)器112。所述存儲(chǔ)器存儲(chǔ)與樣本中的至少一個(gè)靶核酸對(duì)應(yīng)的核酸序列數(shù)據(jù)集126。所述存儲(chǔ)器進(jìn)一步存儲(chǔ)一個(gè)或多個(gè)程序(例如單倍型可視化工具148),所述程序使用所述一個(gè)或多個(gè)微處理器來(lái)獲得包括來(lái)自樣本的多個(gè)測(cè)序讀段的核酸測(cè)序數(shù)據(jù)集。之后,從用戶(hù)獲得請(qǐng)求(例如,通過(guò)圖12和圖13中所示的單倍型可視化工具148的搜索條1250),所述請(qǐng)求指定了由核酸測(cè)序數(shù)據(jù)集表示的基因組區(qū)。有利地,此請(qǐng)求可以是按照本公開(kāi)中公開(kāi)的任何句法。在一些實(shí)施方案中,所述請(qǐng)求中的基因組區(qū)是整個(gè)染色體。在一些實(shí)施方案中,所述請(qǐng)求中的基因組區(qū)是所述染色體的100至10000個(gè)堿基。在一些實(shí)施方案中,所述請(qǐng)求中的基因組區(qū)是所述染色體的10至1×105個(gè)堿基。在一些實(shí)施方案中,所述請(qǐng)求中的基因組區(qū)是所述染色體的10至1×106個(gè)堿基。在一些實(shí)施方案中,所述請(qǐng)求中的基因組區(qū)是所述染色體的10至1×107個(gè)堿基。在一些實(shí)施方案中,所述請(qǐng)求是針對(duì)樣本的基因組中的基因。響應(yīng)于獲得所述請(qǐng)求,通過(guò)從核酸測(cè)序數(shù)據(jù)集126獲得所述請(qǐng)求的基因組區(qū)內(nèi)的多個(gè)測(cè)序讀段1048來(lái)對(duì)所述請(qǐng)求進(jìn)行剖析。接下來(lái),對(duì)所述多個(gè)測(cè)序讀段運(yùn)行掃描窗口,由此產(chǎn)生多個(gè)窗口,所述多個(gè)窗口中的每一相應(yīng)窗口對(duì)應(yīng)于所述請(qǐng)求中的基因組區(qū)的不同區(qū)并且包括核酸測(cè)序數(shù)據(jù)集中的基因組區(qū)的不同區(qū)中的每一測(cè)序讀段的每一識(shí)別符(例如條形碼)的識(shí)別碼。另外,參看(例如)圖34,顯示了表示所述多個(gè)窗口中的每一可能窗口對(duì)的二維熱點(diǎn)圖3312。每一相應(yīng)窗口對(duì)在二維熱點(diǎn)圖中顯示為基于相應(yīng)窗口對(duì)中共同的識(shí)別符的數(shù)目從配色方案中選擇的顏色。將了解,窗口大小將取決于用戶(hù)請(qǐng)求進(jìn)行可視化的基因組的量。在一些實(shí)施方案中,當(dāng)用戶(hù)已請(qǐng)求對(duì)基因組的較小區(qū)可視化時(shí),使用較小窗口大小,而當(dāng)用戶(hù)請(qǐng)求對(duì)基因組的較大區(qū)可視化時(shí),使用較大窗口大小。
參看圖33和圖34,可供性3302和3304提供用于闡明所顯示的信息的唯一工具。首先,選擇“隱藏預(yù)計(jì)重疊”可供性3302會(huì)產(chǎn)生條形碼重疊信號(hào),所述信號(hào)預(yù)計(jì)來(lái)自處于正常狀態(tài)的基因組,其中條形碼與彼此靠近的讀段相關(guān)聯(lián),因?yàn)樗鲎x段應(yīng)該是要被隱藏的。將圖33(其中未選擇可供性3302)與圖34(其中選擇了可供性3302)進(jìn)行比較。在選擇可供性3302時(shí)提供的視圖旨在強(qiáng)調(diào)基因組的、未預(yù)計(jì)到但現(xiàn)在彼此接觸的那些部分。舉例來(lái)說(shuō),此視圖突出顯示結(jié)構(gòu)變異,即,從一個(gè)染色體至另一染色體的易位,基于參考基因組,沒(méi)有預(yù)計(jì)到此處會(huì)出現(xiàn)易位,但是突然條形碼現(xiàn)在展示了所述關(guān)聯(lián)。因而,可供性3302激活隱藏正常信號(hào)并且突出顯示意外信號(hào)的過(guò)濾器。換句話說(shuō),相應(yīng)窗口對(duì)中共同的識(shí)別符的數(shù)目被降低權(quán)重以移除從基于參考基因組序列預(yù)計(jì)會(huì)彼此接近的條形碼產(chǎn)生的條形碼信號(hào)。在一些實(shí)施方案中,與可供性3302相關(guān)聯(lián)的過(guò)濾器考慮已測(cè)序的靶核酸的片段的平均長(zhǎng)度(例如50kb)。在激活可供性3302時(shí),在片段的平均長(zhǎng)度的此閾值距離之內(nèi)的條形碼對(duì)熱點(diǎn)圖沒(méi)有貢獻(xiàn)。在一些實(shí)施方案中,通過(guò)在核酸測(cè)序數(shù)據(jù)集126中取得與參考基因組比對(duì)的條形碼的整個(gè)集合來(lái)啟用過(guò)濾器。之后,僅顯示沿著參考基因組的、展現(xiàn)出比平均片段長(zhǎng)度大的間隙的那些區(qū)。因而,可供性3302過(guò)濾器用于濾除預(yù)計(jì)事物并且突出顯示條形碼數(shù)據(jù)與參考基因組之間的差異。
參考可供性3304,將每一相應(yīng)序列讀段1048以某置信值映射至參考基因組上的位置,所述置信值表示相應(yīng)序列讀段被正確映射的概率。默認(rèn)情況是在此置信值滿足嚴(yán)格(高)的閾值時(shí)展示序列讀段的數(shù)據(jù),使得不顯示誤導(dǎo)性信息。但是有時(shí),用戶(hù)仍想要查看不滿足嚴(yán)格的閾值置信度的序列讀段的信息。舉例來(lái)說(shuō),有時(shí),當(dāng)基于置信閾值濾除了過(guò)多數(shù)據(jù)時(shí),在熱點(diǎn)圖中可能會(huì)出現(xiàn)不尋常的偽影。舉例來(lái)說(shuō),熱點(diǎn)圖的區(qū)將看似沒(méi)有數(shù)據(jù)。實(shí)際上,此類(lèi)區(qū)可能剛好是序列讀段1048的定位的置信度較低的區(qū)(例如,基因組的、展現(xiàn)大范圍重復(fù)的區(qū))。為了確定是否真的沒(méi)有數(shù)據(jù)(或許是指示大范圍的結(jié)構(gòu)變異),可供性3304允許用戶(hù)移除(或降低)嚴(yán)格的閾值并且準(zhǔn)許顯示來(lái)自序列讀段1048的數(shù)據(jù),所述序列讀段已以較低置信值映射至參考基因組。這樣,用戶(hù)可以確定是否在啟用嚴(yán)格的閾值時(shí)在缺失數(shù)據(jù)的位點(diǎn)處實(shí)際上存在結(jié)構(gòu)變異,或者是否基因組區(qū)僅表示序列讀段的置信值較低的區(qū)。
在與可供性3304相關(guān)聯(lián)的典型用例情形中,將不滿足質(zhì)量閾值的序列讀段1084丟棄,因此在下游的定相算法和結(jié)構(gòu)變異算法中將不會(huì)使用所述序列讀段。丟棄此類(lèi)序列讀段的結(jié)果是這可能會(huì)在圖33和圖34中所示的熱點(diǎn)圖中引入看似結(jié)構(gòu)的事物。舉例來(lái)說(shuō),所述圖的一些區(qū)可能會(huì)變亮并且可能會(huì)引入一些線,由此引起了一個(gè)疑問(wèn),即,在實(shí)際樣本中是否發(fā)生了什么而引起這種情況從而改變信號(hào)。通過(guò)選擇可供性3304,將所丟棄的讀段放回至定相和/或結(jié)構(gòu)變異算法中而不管其質(zhì)量得分是多少,以便查看這是否會(huì)導(dǎo)致在所述圖中觀察到的偽影的移除。這樣,可以挑出數(shù)據(jù)的偽影,使得當(dāng)所述圖的區(qū)缺失時(shí),在應(yīng)用可供性3304之前和之后,確認(rèn)觀察到的偽影表示相應(yīng)樣本中的至少一個(gè)靶核酸中的偽影(例如結(jié)構(gòu)變異)或由于丟棄了來(lái)自序列讀段1048的數(shù)據(jù)而產(chǎn)生的偽影。
參看圖34,靶核酸的相應(yīng)區(qū)之間的條形碼重疊的程度是在色彩表3406上由重疊的條形碼(來(lái)自局限在靶核酸的相應(yīng)區(qū)內(nèi)的序列讀段)的數(shù)目表示。因此,在一些實(shí)施方案中,使用配色方案,其中所述配色方案中的每一特定顏色唯一地表示重疊條形碼的某一數(shù)目。舉例來(lái)說(shuō),如果靶核酸的第一和第二段有第一數(shù)目的條形碼是共同的,那么配色方案中與所述第一數(shù)目相關(guān)聯(lián)的顏色用于表示靶核酸的第一和第二段的組合。如圖34中所示,x軸3308和y軸3310各自表示靶核酸,并且因此靶核酸的第一和第二段在靶核酸內(nèi)的坐標(biāo)限定二維柵格中的x,y位置,并且與條形碼的所述第一數(shù)目的值相關(guān)聯(lián)的顏色用于根據(jù)所述配色方案給所述二維柵格中的此x,y位置涂色。在一些實(shí)施方案中,當(dāng)靶核酸的第一與第二段不具有共同的條形碼,那么所述配色方案指示用于表示靶核酸的第一與第二段的組合的x,y位置的顏色是白色。在一些實(shí)施方案中,當(dāng)靶核酸的第一和第二段僅有少許條形碼是共同時(shí)(例如在各種實(shí)施方案中,僅一個(gè)條形碼是共同的、僅兩個(gè)條形碼是共同的、僅三個(gè)條形碼是共同的、僅四個(gè)條形碼是共同的或僅五個(gè)條形碼是共同的),所述配色方案指示用于表示靶核酸的第一與第二段的組合的x,y位置的顏色是灰色。就是說(shuō),在此類(lèi)實(shí)施方案中,所述第一位置在所述配色方案中是白色,表示沒(méi)有共享的條形碼,并且所述第二位置在所述配色方案中是灰色,表示最少的一組條形碼是共同的。在一些實(shí)施方案中,在配色方案中有10個(gè)不同的值對(duì)應(yīng)于共享序列讀段的10個(gè)不同的值。在一些實(shí)施方案中,在配色方案中有11個(gè)不同的值對(duì)應(yīng)于共享序列讀段的11個(gè)不同的值。在一些實(shí)施方案中,在配色方案中有12個(gè)不同的值對(duì)應(yīng)于共享序列讀段的12個(gè)不同的值。在一些實(shí)施方案中,在配色方案中有13個(gè)不同的值對(duì)應(yīng)于共享序列讀段的13個(gè)不同的值。在一些實(shí)施方案中,在配色方案中有14個(gè)不同的值對(duì)應(yīng)于共享序列讀段的14個(gè)不同的值。在一些實(shí)施方案中,在配色方案中有15個(gè)不同的值對(duì)應(yīng)于共享序列讀段的15個(gè)不同的值。在一些實(shí)施方案中,配色方案中有五個(gè)至一百個(gè)不同的值對(duì)應(yīng)于共享序列讀段的五個(gè)至一百個(gè)不同的值。
參看圖34,可以使用可供性3308來(lái)對(duì)最初通過(guò)搜索字段1250選擇的視圖進(jìn)行平移(pan)(所述視圖的平移移動(dòng)),使得可以查看參考基因組的不同區(qū)。參看圖34,可以使用可供性3310來(lái)縮放最初通過(guò)搜索字段1250選擇的視圖,使得可以查看參考基因組的不同量。
在一些實(shí)施方案中,由單倍型可視化工具148提供的不同視圖(例如單倍型/相位152、結(jié)構(gòu)變異154和讀段156)都被鏈接起來(lái)。舉例來(lái)說(shuō),用戶(hù)可以從一個(gè)視圖導(dǎo)覽到另一個(gè)視圖以使用替代可視化來(lái)查看同一數(shù)據(jù),而不需要使用可供性1252、1254和1256重新輸入信息。舉例來(lái)說(shuō),用戶(hù)可以在結(jié)構(gòu)變異模塊154的矩陣視圖與相位可視化模塊152的單倍型視圖之間切換。
在各種視圖中采用“智能”搜索可供性1250。參看圖17,在用戶(hù)在搜索可供性1250中打字時(shí),所述程序?qū)L試實(shí)時(shí)地用實(shí)際基因名稱(chēng)或其它形式的染色體位置來(lái)自動(dòng)完成所述部分查詢(xún)。在一些實(shí)施方案中,每當(dāng)用戶(hù)在搜索可供性1250中輸入另一字符時(shí),對(duì)照標(biāo)的核酸測(cè)序數(shù)據(jù)集126中的查找表來(lái)查詢(xún)搜索可供性1250中的部分查詢(xún)。在一些實(shí)施方案中,此查找表是基因軌跡320和/或外顯子軌跡322。有利地,在一些實(shí)施方案中,單倍型可視化工具148保留過(guò)去的用戶(hù)查詢(xún)的歷史。因此,當(dāng)用戶(hù)開(kāi)始輸入新查詢(xún)時(shí),還向用戶(hù)顯示與之前的查詢(xún)的匹配(或部分匹配)以供選擇。假如在一些實(shí)施方案中搜索欄1250支持復(fù)雜的查詢(xún)句法,那么這尤其有用。舉例來(lái)說(shuō),如上文所論述,用戶(hù)可以通過(guò)用各種標(biāo)點(diǎn)將查詢(xún)分區(qū)開(kāi)來(lái)一次查詢(xún)多個(gè)區(qū)。用戶(hù)還可以按許多格式直接輸入基因組坐標(biāo)。
在一些實(shí)施方案中,系統(tǒng)100將待顯示的基因組數(shù)據(jù)按定制的文件格式(例如,核酸測(cè)序數(shù)據(jù)集126的格式)存儲(chǔ)。文件是通過(guò)“預(yù)處理器”生成,所述預(yù)處理器將參考數(shù)據(jù)、vcf文件、bam文件和結(jié)構(gòu)變異文件看作是輸入并且產(chǎn)生單個(gè)輸出核酸測(cè)序數(shù)據(jù)集126。核酸測(cè)序數(shù)據(jù)集126含有顯示給定數(shù)據(jù)集所需的所有信息。將文件組織成若干段。約25mb的小概要段308和大得多的數(shù)據(jù)段340(100mb至20gb)。這些段如上文所描述再進(jìn)行細(xì)分。當(dāng)載入核酸測(cè)序數(shù)據(jù)集126時(shí),僅將索引段載入至存儲(chǔ)器中。系統(tǒng)100使用該數(shù)據(jù)來(lái)找到所述數(shù)據(jù)段的適當(dāng)范圍以按需載入存儲(chǔ)器中。變異識(shí)別和讀段信息存儲(chǔ)在數(shù)據(jù)段中,loupe需要的其余數(shù)據(jù)小到足以存儲(chǔ)在索引段中。
所述數(shù)據(jù)段被組織成塊,在一些實(shí)施方案中,所述塊是約250kb。當(dāng)系統(tǒng)100需要存儲(chǔ)于數(shù)據(jù)段中的信息時(shí),所述系統(tǒng)查閱概要段中的相關(guān)索引(例如基因軌跡、外顯子軌跡等)以找到將具有所述數(shù)據(jù)的塊并且將整個(gè)塊載入存儲(chǔ)器中。在一些實(shí)施方案中,用于所述變異數(shù)據(jù)的塊是含有所述變異數(shù)據(jù)以及支持條形碼信息的json編碼結(jié)構(gòu)。在一些實(shí)施方案中,用于讀段數(shù)據(jù)的塊具有小(8字節(jié))數(shù)據(jù)結(jié)構(gòu)的陣列,在所述陣列中,每一結(jié)構(gòu)含有單個(gè)讀段的位置、長(zhǎng)度和條形碼。在一些實(shí)施方案中,變異數(shù)據(jù)與讀段數(shù)據(jù)按基因位置進(jìn)行排序,使得一般來(lái)說(shuō),系統(tǒng)100將僅進(jìn)行少量磁盤(pán)上讀取以獲得其所需要的所有數(shù)據(jù)以顯示所述數(shù)據(jù)的給定子集。在一些實(shí)施方案中,系統(tǒng)100需要用于可視化的數(shù)據(jù)的其余部分(諸如基因位置、結(jié)構(gòu)變異斷點(diǎn)等)以“itree”形式存儲(chǔ)于核酸測(cè)序數(shù)據(jù)集126文件的索引(概要)段中。itree是區(qū)間樹(shù)的實(shí)現(xiàn)方式。它是用于對(duì)基因組的范圍進(jìn)行加注的可再用數(shù)據(jù)結(jié)構(gòu)(通常按json來(lái)編碼)。因此,外顯子、基因、相位塊和結(jié)構(gòu)變異斷點(diǎn)都是用相同的機(jī)制進(jìn)行編碼,即便它們是以不同方式顯示。
可以為本文中作為單個(gè)實(shí)例描述的組成部分、操作或結(jié)構(gòu)提供復(fù)數(shù)個(gè)實(shí)例。最后,各種組成部分、操作和數(shù)據(jù)存儲(chǔ)之間的邊界稍稍任意,并且在特定說(shuō)明性配置的背景中說(shuō)明特定操作。功能性的其它分配是可設(shè)想到的并且可以屬于實(shí)現(xiàn)方式的范圍內(nèi)。一般來(lái)說(shuō),在示例配置中作為單獨(dú)組成部分呈現(xiàn)的結(jié)構(gòu)和功能性可以實(shí)現(xiàn)為組合的結(jié)構(gòu)或組成部分。類(lèi)似地,作為單個(gè)組成部分呈現(xiàn)的結(jié)構(gòu)和功能性可以實(shí)現(xiàn)為單獨(dú)組成部分。這些和其它變化、修改、增添和改進(jìn)屬于實(shí)現(xiàn)方式的范圍內(nèi)。
還將理解,雖然在本文中可以使用術(shù)語(yǔ)“第一”、“第二”等來(lái)描述各種元件,但是這些元件不應(yīng)受這些術(shù)語(yǔ)所限制。這些術(shù)語(yǔ)僅用于將一個(gè)元件與另一個(gè)元件區(qū)分開(kāi)。舉例來(lái)說(shuō),第一物體可以被稱(chēng)作第二物體,并且類(lèi)似地,第二物體可以被稱(chēng)作第一物體,而不會(huì)改變所述描述的含義,只要“第一物體”的所有出現(xiàn)被一致地重命名,并且“第二物體”的所有出現(xiàn)被一致地重命名。所述第一物體與所述第二物體都是物體,但是它們不是同一個(gè)物體。
本文所使用的術(shù)語(yǔ)是僅用于描述特定實(shí)現(xiàn)方式而不旨在限制權(quán)利要求書(shū)。如具體實(shí)現(xiàn)方式和所附權(quán)利要求書(shū)中所使用,單數(shù)形式“一”、“一個(gè)”和“所述”旨在也包括復(fù)數(shù)形式,除非上下文另外清楚地指示。還將理解,如本文中所使用,術(shù)語(yǔ)“和/或”指代并且涵蓋相關(guān)聯(lián)的所列項(xiàng)目中的一者或多者的任何和所有的可能組合。將進(jìn)一步理解,術(shù)語(yǔ)“包括”和/或“包括了”在本說(shuō)明書(shū)中使用時(shí)指定了所述特征、整體、步驟、操作、元件和/或組成部分的存在,但不排除一個(gè)或多個(gè)其它特征、整體、步驟、操作、元件、組成部分和/或其組的存在或增添。
如本文所使用,術(shù)語(yǔ)“如果”可以被理解為表示“在所述前提條件成立時(shí)”或“在所述前提條件成立后”或“響應(yīng)于確定所述前提條件成立”或“根據(jù)所述前提條件成立的確定”或“響應(yīng)于檢測(cè)到所述前提條件成立”,具體取決于上下文。類(lèi)似地,短語(yǔ)“如果確定(所述前提條件成立)”或“如果(所述前提條件成立)”或“當(dāng)(所述前提條件成立)時(shí)”可以被理解為表示“在確定所述前提條件成立后”或“響應(yīng)于確定所述前提條件成立”或“根據(jù)所述前提條件成立的確定”或“在檢測(cè)到所述前提條件成立后”或“響應(yīng)于檢測(cè)到所述前提條件成立”,具體取決于上下文。
前文的描述包括具體實(shí)現(xiàn)說(shuō)明性實(shí)現(xiàn)方式的示例系統(tǒng)、方法、技術(shù)、指令序列和計(jì)算機(jī)器程序產(chǎn)品。為了進(jìn)行闡釋?zhuān)愂霰姸嗑唧w細(xì)節(jié)以便提供對(duì)創(chuàng)新主題的各種實(shí)現(xiàn)方式的理解。然而,本領(lǐng)域的技術(shù)人員將明顯看到創(chuàng)新目標(biāo)的實(shí)現(xiàn)可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。一般來(lái)說(shuō),沒(méi)有詳細(xì)展示熟知的指令實(shí)例、協(xié)議、結(jié)構(gòu)和技術(shù)。
為了進(jìn)行闡釋?zhuān)褏⒖继囟▽?shí)現(xiàn)方式來(lái)描述前文的描述。然而,上文的說(shuō)明性論述不旨在為詳盡的或不旨在將實(shí)現(xiàn)方式限于所公開(kāi)的精確形式。鑒于以上教導(dǎo),許多修改和變化是可能的。選擇并描述實(shí)現(xiàn)方式以便最好地闡釋原理以及其實(shí)際應(yīng)用,由此使本領(lǐng)域的其他技術(shù)人員能夠最好地利用所述實(shí)現(xiàn)方式以及為了適合于所預(yù)期的特定使用而作出了各種修改的各種實(shí)現(xiàn)方式。