用于功能證實(shí)癌癥突變的RNA分析的系統(tǒng)和方法與流程

文檔序號(hào)：12701263閱讀：323來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

發(fā)明領(lǐng)域

本發(fā)明的領(lǐng)域是組學(xué)分析，且尤其是當(dāng)本發(fā)明的領(lǐng)域涉及癌癥診斷和治療中的RNA組學(xué)。

發(fā)明背景

本背景描述包括可以用于理解本發(fā)明的信息。本背景并不是承認(rèn)本文提供的任何信息是現(xiàn)有技術(shù)或與目前要求保護(hù)的本發(fā)明相關(guān)，或不承認(rèn)具體或隱含引用的出版物是現(xiàn)有技術(shù)。

隨著可負(fù)擔(dān)得起的且相對(duì)快速的全基因組測(cè)序的出現(xiàn)，已經(jīng)獲得了有關(guān)DNA層面上的大量詳實(shí)的知識(shí)。然而，在大多數(shù)情形中，因數(shù)量龐大的信息以及缺乏基礎(chǔ)結(jié)構(gòu)和計(jì)算算法阻礙了對(duì)數(shù)據(jù)進(jìn)行有意義的分析。如果額外的組學(xué)信息可用于分析，且尤其是組織水平的且甚至細(xì)胞水平的RNA組學(xué)和蛋白組學(xué)，那么這樣的困難被進(jìn)一步加重。因而，整合這種額外的數(shù)據(jù)在許多預(yù)測(cè)、診斷和治療方法中成為限速步驟。

最近，且例如，如US 2012/0059670和US 2012/0066001中描述的，用于基因組數(shù)據(jù)的高處理量的序列分析通過(guò)增量差分比對(duì)(incremental differential alignment)和患者腫瘤與匹配的健康組織的比較已經(jīng)變得明顯更有效。這樣的信息隨后可以使用如先前也描述在WO/2011/139345和WO/2013/062505中的通路識(shí)別算法被進(jìn)一步分析。然而，即使借助這些先進(jìn)的工具，腫瘤基因組中存在特定系列的突變也不一定能預(yù)測(cè)到突變基因?qū)嶋H上被表達(dá)，且如果這樣，也不一定能預(yù)測(cè)到突變可能具有的影響。雖然來(lái)自RNA組學(xué)的發(fā)現(xiàn)本身可能是有幫助的，但這樣的獨(dú)立的結(jié)果通常將不具有高的信息價(jià)值且沒(méi)有來(lái)自基因組學(xué)和蛋白組學(xué)的上下文的額外數(shù)據(jù)。

因而，即使用于分析組學(xué)數(shù)據(jù)的許多系統(tǒng)和方法是本領(lǐng)域已知的，但是仍存在對(duì)改善組學(xué)分析和整合從不同組學(xué)平臺(tái)搜集的信息的需求。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明主題涉及整合RNA組學(xué)信息與各種分析系統(tǒng)且尤其是基因組學(xué)分析以及識(shí)別用于腫瘤疾病的各種標(biāo)記的系統(tǒng)和方法。更具體地，發(fā)明人已經(jīng)發(fā)現(xiàn)基因組或外顯子組水平的患者和腫瘤特異性突變可以用相應(yīng)的RNA的轉(zhuǎn)錄水平的分析而被文字化，如果突變是具有與惡性腫瘤已知的關(guān)聯(lián)性的選定基因內(nèi)的無(wú)義突變時(shí)尤其如此。

在本發(fā)明主題的一個(gè)方面中，一種處理組學(xué)數(shù)據(jù)的方法，包括步驟：使數(shù)據(jù)庫(kù)與分析引擎在信息上連接(informationally coupling)，其中數(shù)據(jù)庫(kù)存儲(chǔ)基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合。在通常設(shè)想的方法中，基因組數(shù)據(jù)集合代表患者的患病組織(如癌組織)中的至少一個(gè)基因的突變，其中突變是相對(duì)于患者的正常組織，且轉(zhuǎn)錄組數(shù)據(jù)集合代表患者的患病組織中的至少一個(gè)基因的突變和表達(dá)水平，其中突變和表達(dá)水平是相對(duì)于患者的正常組織。在所設(shè)想的方法的另一個(gè)步驟中，序列分析引擎用于使用突變(如，當(dāng)突變處于同一位置時(shí))使轉(zhuǎn)錄組數(shù)據(jù)集合與基因組數(shù)據(jù)集合相關(guān)聯(lián)，并用于識(shí)別突變?yōu)闊o(wú)義突變。當(dāng)識(shí)別突變?yōu)闊o(wú)義突變時(shí)，序列分析引擎被進(jìn)一步用于識(shí)別在至少一個(gè)基因的3’-端部分內(nèi)的突變位置，且用于識(shí)別至少一個(gè)基因的表達(dá)水平。在所設(shè)想的方法的另一個(gè)步驟中，分析引擎利用突變的位置和表達(dá)水平更新或生成組學(xué)數(shù)據(jù)庫(kù)中的組學(xué)記錄。

雖然不限于本發(fā)明的主題，進(jìn)一步設(shè)想的方法可以包括步驟：使序列數(shù)據(jù)庫(kù)或測(cè)序設(shè)備與序列分析引擎在信息上連接，和使用序列分析引擎生成轉(zhuǎn)錄組數(shù)據(jù)集合和基因組數(shù)據(jù)集合的另一個(gè)步驟。更通常但不一定地，轉(zhuǎn)錄組數(shù)據(jù)集合和基因組數(shù)據(jù)集合是不同的序列對(duì)象。通常進(jìn)一步設(shè)想的，轉(zhuǎn)錄組數(shù)據(jù)由cDNA或多聚A⁺RNA獲得。

在所設(shè)想的方法的另外的方面，當(dāng)所識(shí)別的位置是在基因的3-端部分(如端3外顯子、端2外顯子)中的位置時(shí)和/或當(dāng)所識(shí)別的表達(dá)水平在高于相對(duì)于正常組織的表達(dá)水平時(shí)，將更新組學(xué)記錄。在被設(shè)想的其他基因中，示例性的合適的基因包括CDKN2A、ARID1A、FAT1、TP53、PTEN、AHNAK、SRRM2、RASA1、PIK3R1以及MRPL32。

因此，且從另一個(gè)角度看，組學(xué)記錄計(jì)算機(jī)系統(tǒng)將包括至少一個(gè)處理器和與處理器連接的至少一個(gè)存儲(chǔ)器且存儲(chǔ)器被配置成存儲(chǔ)(1)代表患者的患病組織中的至少一個(gè)基因的突變的基因組數(shù)據(jù)集合，其中突變是相對(duì)于患者的正常組織，和(2)代表患者的患病組織中的至少一個(gè)基因的突變和表達(dá)水平的轉(zhuǎn)錄組數(shù)據(jù)集合，其中突變和表達(dá)水平是相對(duì)于患者的正常組織。所設(shè)想的系統(tǒng)還將包括分析引擎，該分析引擎在信息上連接于組學(xué)數(shù)據(jù)庫(kù)，且能夠根據(jù)存儲(chǔ)在至少一個(gè)存儲(chǔ)器中的軟件指令在至少一個(gè)處理器上執(zhí)行，且處理器配置成(a)利用突變使基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合相關(guān)聯(lián)；(b)識(shí)別突變?yōu)闊o(wú)義突變，且當(dāng)識(shí)別突變?yōu)闊o(wú)義突變時(shí)：識(shí)別在至少一個(gè)基因的3’-端部分內(nèi)的突變位置；且識(shí)別至少一個(gè)基因的表達(dá)水平；(c)利用所識(shí)別的位置和表達(dá)水平來(lái)更新組學(xué)數(shù)據(jù)庫(kù)中的組學(xué)記錄。

在所設(shè)想的計(jì)算機(jī)系統(tǒng)的另外的方面，轉(zhuǎn)錄組數(shù)據(jù)集合和基因組數(shù)據(jù)集合中的至少一個(gè)是不同的序列對(duì)象，和/或患病組織是癌組織。更通常地，轉(zhuǎn)錄組數(shù)據(jù)集合基于多聚A⁺RNA或cDNA的分析。正如上面已經(jīng)注意到的，當(dāng)所識(shí)別的位置是基因的3-端部分中的位置時(shí)和/或當(dāng)所識(shí)別的表達(dá)水平在高于相對(duì)于正常組織的表達(dá)水平時(shí)，可以更新組學(xué)記錄。

還設(shè)想基因是癌癥相關(guān)的基因，例如CDKN2A、ARID1A、FAT1、TP53、PTEN、AHNAK、SRRM2、RASA1、PIK3R1和/或MRPL32。因此，組學(xué)記錄可以被更新以證實(shí)診斷(如腫瘤疾病的)或提議治療選項(xiàng)(如，對(duì)于腫瘤疾病)。

從下面的優(yōu)選實(shí)施方案的詳細(xì)描述以及附圖，本發(fā)明主題的各種目的、特征、方面以及優(yōu)勢(shì)將變得更明顯，在附圖中相同的數(shù)字表示相同的部件。

附圖說(shuō)明

圖1是根據(jù)本發(fā)明主題的組學(xué)記錄計(jì)算機(jī)系統(tǒng)的示例性示意圖。

圖2是闡釋了選定癌癥的體細(xì)胞突變曲線的圖。

圖3是提供了特定癌癥的選定基因中的突變類(lèi)型和發(fā)生的詳細(xì)視圖的圖。

圖4是描繪了同義突變相對(duì)于所有突變的突變等位基因分?jǐn)?shù)(DNA對(duì)RNA)的散點(diǎn)圖。

圖5是描繪了錯(cuò)義突變相對(duì)于所有突變的突變等位基因分?jǐn)?shù)(DNA對(duì)RNA)的散點(diǎn)圖。

圖6是描繪了無(wú)義突變相對(duì)于所有突變的突變等位基因分?jǐn)?shù)(DNA對(duì)RNA)的散點(diǎn)圖。

圖7是闡釋了同義突變的表達(dá)水平隨突變位置變化的圖。

圖8是闡釋了錯(cuò)義突變的表達(dá)水平隨突變位置變化的圖。

圖9是闡釋了無(wú)義突變的表達(dá)水平隨突變位置變化的圖。

圖10是繪制了具有無(wú)義突變的高表達(dá)RNA相對(duì)于CDKN2A基因中的無(wú)義突變的位置的圖。

圖11是繪制了具有無(wú)義突變的高表達(dá)RNA相對(duì)于ARID1A基因中的無(wú)義突變的位置的圖。

圖12是繪制了具有無(wú)義突變的高表達(dá)RNA相對(duì)于FAT1基因中的無(wú)義突變的位置的圖。

圖13是繪制了具有無(wú)義突變的高表達(dá)RNA相對(duì)于TP53基因中的無(wú)義突變的位置的圖。

圖14是繪制了具有無(wú)義突變的高表達(dá)RNA相對(duì)于PTEN基因中的無(wú)義突變的位置的圖。

具體實(shí)施方式

發(fā)明人發(fā)現(xiàn)癌組織中的基因組突變并不同等地轉(zhuǎn)錄成RNA，而是癌癥相關(guān)基因中的選定突變類(lèi)型，且尤其是無(wú)義突變以較高的比率被轉(zhuǎn)錄，如果突變位于癌癥相關(guān)基因的3-端部分內(nèi)尤其如此。甚至更值得注意的，發(fā)現(xiàn)這樣高轉(zhuǎn)錄的基因涉及了不止一種癌癥種類(lèi)。因此，發(fā)明人設(shè)想了基于整合的基因組信息和轉(zhuǎn)錄組信息來(lái)檢測(cè)用于診斷并治療各種癌癥的分子標(biāo)記的系統(tǒng)和方法。從另一個(gè)角度看，患者特異性的高轉(zhuǎn)錄的突變RNA(且尤其是無(wú)義突變RNA)可以被識(shí)別為和/或被用作針對(duì)各種癌癥的存在、治療和/或預(yù)防的診斷工具。為此，下面更詳細(xì)地設(shè)想并討論了處理組學(xué)數(shù)據(jù)的各種方法和組學(xué)記錄計(jì)算機(jī)系統(tǒng)。

應(yīng)注意到，涉及計(jì)算機(jī)的任何表述應(yīng)該被理解為包括計(jì)算設(shè)備的任何合適的組合，計(jì)算設(shè)備包括服務(wù)器、接口、系統(tǒng)、數(shù)據(jù)庫(kù)、代理、同位體(peer)、引擎、控制器、模塊或單獨(dú)操作或集中操作的其它類(lèi)型的計(jì)算設(shè)備。應(yīng)理解，計(jì)算設(shè)備包括處理器，該處理器被配置成執(zhí)行存儲(chǔ)在有形的、永久性的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(如硬驅(qū)、FPGA、PLA、固態(tài)驅(qū)動(dòng)器、RAM、flash、ROM等)上的軟件指令。軟件指令配置或另外編程計(jì)算設(shè)備以提供正如下面關(guān)于所公開(kāi)的裝置所討論的作用、職責(zé)或其它功能。此外，所公開(kāi)的技術(shù)可以具體體現(xiàn)為包括永久性計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)程序產(chǎn)品，該計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)使處理器執(zhí)行所公開(kāi)的與基于計(jì)算機(jī)的算法、過(guò)程、方法或其它指令的執(zhí)行相關(guān)的步驟的軟件指令。在一些實(shí)施方案中，各種服務(wù)器、系統(tǒng)、數(shù)據(jù)庫(kù)或接口使用可能基于HTTP、HTTPS、AES、公鑰-私鑰交換、web服務(wù)API、已知的財(cái)務(wù)交易協(xié)議或其它電子信息交換方法的標(biāo)準(zhǔn)協(xié)議或算法來(lái)交換數(shù)據(jù)。設(shè)備中的數(shù)據(jù)交換可以通過(guò)下述網(wǎng)絡(luò)進(jìn)行：分組交換網(wǎng)絡(luò)、互聯(lián)網(wǎng)、LAN、WAN、VPN或其它類(lèi)型的分組交換網(wǎng)絡(luò)；電路交換網(wǎng)絡(luò)；蜂窩交換網(wǎng)絡(luò)；或其它類(lèi)型的網(wǎng)絡(luò)。

正如在本文的說(shuō)明書(shū)和下面的整個(gè)權(quán)利要求中使用的，當(dāng)系統(tǒng)、引擎、服務(wù)器、設(shè)備、模塊或其他計(jì)算元件被描述為配置成對(duì)存儲(chǔ)器中的數(shù)據(jù)施行或執(zhí)行功能，“配置成”或“編程為”被定義為由存儲(chǔ)在計(jì)算元件的存儲(chǔ)器中的軟件指令集合編程的計(jì)算元件的一個(gè)或多個(gè)處理器或核以執(zhí)行功能集合或?qū)Υ鎯?chǔ)在存儲(chǔ)器中的目標(biāo)數(shù)據(jù)或數(shù)據(jù)對(duì)象操作。

例如，圖1顯示了組學(xué)記錄計(jì)算機(jī)系統(tǒng)和處理組學(xué)數(shù)據(jù)的方法的一種所設(shè)想的實(shí)施。此處，組學(xué)記錄計(jì)算機(jī)系統(tǒng)100包括存儲(chǔ)器110和連接至存儲(chǔ)器的處理器140。存儲(chǔ)器110中存儲(chǔ)的是基因組數(shù)據(jù)集合120和轉(zhuǎn)錄組數(shù)據(jù)集合130?？蛇x擇地或另外，基因組和/或轉(zhuǎn)錄組數(shù)據(jù)集合還可以由分析引擎150的數(shù)據(jù)集合生成器151提供。在這樣的情形中，原始序列數(shù)據(jù)可以由序列數(shù)據(jù)庫(kù)和/或產(chǎn)生組學(xué)數(shù)據(jù)的測(cè)序設(shè)備170提供。不考慮基因組數(shù)據(jù)集合120和轉(zhuǎn)錄組數(shù)據(jù)集合130的來(lái)源，設(shè)想軟件指令112被存儲(chǔ)在用于存儲(chǔ)器中以便對(duì)處理器140執(zhí)行以將處理器配置成作為分析引擎150來(lái)操作，分析引擎150提供對(duì)數(shù)據(jù)集合的各種功能和操作。例如，分析引擎150包括用于數(shù)據(jù)集合相關(guān)聯(lián)152的模塊以利用突變使基因組數(shù)據(jù)集合與轉(zhuǎn)錄組數(shù)據(jù)集合相關(guān)聯(lián)(如使數(shù)據(jù)集合與基因組內(nèi)的共同位置中的突變成對(duì)或以其他方式使兩者相關(guān)聯(lián))。分析引擎還可以包括識(shí)別突變類(lèi)型(如為同義突變或無(wú)義突變)的突變識(shí)別模塊154、識(shí)別基因或轉(zhuǎn)錄物內(nèi)的突變位置的位置識(shí)別模塊156以及識(shí)別突變的轉(zhuǎn)錄物的表達(dá)水平(如，相對(duì)于同一患者的匹配的未突變的轉(zhuǎn)錄物)的表達(dá)水平識(shí)別模塊158。當(dāng)識(shí)別的突變?yōu)闊o(wú)義突變時(shí)，突變位置被識(shí)別(如位于基因的3'-端部分內(nèi))且基因的表達(dá)水平被識(shí)別。最后，識(shí)別位置和表達(dá)水平隨后用于更新組學(xué)數(shù)據(jù)庫(kù)160中的組學(xué)記錄。

本文設(shè)想的基因組數(shù)據(jù)集合可以包括各種信息且可以以多種方式被格式化。因此，合適的基因組數(shù)據(jù)集合可以包括來(lái)自測(cè)序設(shè)備或原始數(shù)據(jù)存儲(chǔ)設(shè)備的原始數(shù)據(jù)。當(dāng)然，應(yīng)理解，原始數(shù)據(jù)可以以多種方式被處理。例如，原始數(shù)據(jù)可以被預(yù)處理以便改進(jìn)數(shù)據(jù)傳輸(如，正如PCT/US14/65562中描述的)和/或被格式化以有利于下游處理。特別優(yōu)選的格式包括BAM、SAM以及FASTA格式。如果原始數(shù)據(jù)或預(yù)處理的數(shù)據(jù)被提供，那么數(shù)據(jù)集合生成器可以將這樣的數(shù)據(jù)轉(zhuǎn)換成如上所述的合適的格式。在一些方面中，基因組數(shù)據(jù)集合是包括患病組織和健康組織兩者的匹配的DNA序列信息的數(shù)據(jù)集合。雖然這樣的數(shù)據(jù)集合中的特定序列長(zhǎng)度并不被限制到本發(fā)明的主題，但是應(yīng)注意到，數(shù)據(jù)集合可以包括相對(duì)小的片段(如30直至100、30直至300、30直至500、30直至700等)，或較長(zhǎng)的片段(如lkb直至10kb、l0kb直至100kb、100kb直至500kb、500kb直至2mb、2mb直至10mb等。)的比對(duì)。在其他方面，基因組數(shù)據(jù)集合是不同的序列對(duì)象，通常從正如在US20120059670和US20120066001中討論的BAM文件的同步且增量的比對(duì)獲得的。特別設(shè)想的不同的序列對(duì)象將包括突變(如轉(zhuǎn)換、顛換、缺失、插入、重排等)的識(shí)別，通常關(guān)于基因組或外顯子組中的特定位置(如關(guān)于染色體上的堿基位置、特定基因內(nèi)的位置、特定外顯子內(nèi)的位置等)，其中突變是相對(duì)于來(lái)自同一位患者的匹配的相應(yīng)樣品(如突變是同一供體的患病組織對(duì)相應(yīng)的健康組織)。應(yīng)進(jìn)一步認(rèn)識(shí)到，基因組數(shù)據(jù)集合可以從許多來(lái)源材料生成，且優(yōu)選的來(lái)源材料包括全基因組序列和富集外顯子組的基因組序列(或經(jīng)由電腦模擬計(jì)算的外顯子組序列)。不考慮來(lái)源材料，所設(shè)想的基因組數(shù)據(jù)集合將包括至少一種，且更通常至少兩種序列信息、位置信息、基因信息、參考基因組的參考信息、拷貝數(shù)、讀長(zhǎng)支撐(read support)以及質(zhì)量分?jǐn)?shù)?；蚪M數(shù)據(jù)集合將優(yōu)選包括匹配序列的這樣的信息，匹配序列即患病組織的序列和健康組織的相應(yīng)序列。從不同的角度看，基因組數(shù)據(jù)集合將提供關(guān)于從同一位患者的健康組織和患病組織獲得的DNA序列的差異的特異性的不同信息。

類(lèi)似地，設(shè)想轉(zhuǎn)錄組數(shù)據(jù)集合可以顯著變化，且可以包括來(lái)自測(cè)序設(shè)備或原始數(shù)據(jù)存儲(chǔ)設(shè)備的原始數(shù)據(jù)。正如之前的，這樣的數(shù)據(jù)可以被預(yù)處理用于分組，正如描述在PCT/US14/65562中的或被格式化以有利于下游處理。特別優(yōu)選的格式包括BAM、SAM以及FASTA格式。如果提供原始數(shù)據(jù)或預(yù)處理過(guò)的數(shù)據(jù)，數(shù)據(jù)集合生成器可以將這樣的數(shù)據(jù)轉(zhuǎn)換成如上所述的合適的格式。在一些方面，轉(zhuǎn)錄組數(shù)據(jù)集合是包括患病組織和健康組織兩者的匹配的RNA序列信息的數(shù)據(jù)集合。雖然在這樣的數(shù)據(jù)集合中的特定的序列長(zhǎng)度并未被限制到本發(fā)明的主題，但是應(yīng)注意到，數(shù)據(jù)集合可以包括相對(duì)小的片段(如30直至100、30直至300、30直至500、30直至700等)或較長(zhǎng)的片段(如lkb直至5kb、5kb直至20kb、20kb直至100kb等)的比對(duì)。在其他方面，基因組數(shù)據(jù)集合是不同的序列對(duì)象，通常從正如在US20120059670和US20120066001中討論的BAM文件的同步且增量的比對(duì)獲得的。正如上文，特別設(shè)想的不同序列對(duì)象將包括突變(如轉(zhuǎn)換、顛換、缺失、插入、重排等)的識(shí)別，通常關(guān)于RNA、mRNA或原發(fā)性RNA轉(zhuǎn)錄物中的特定位置(如關(guān)于染色體或原發(fā)性轉(zhuǎn)錄物上的堿基位置、特定基因內(nèi)的位置、特定外顯子內(nèi)的位置，特定剪接變異體等)，其中突變是相對(duì)于來(lái)自同一患者的匹配的相應(yīng)樣品(如，突變是同一供體的患病組織對(duì)相應(yīng)的健康組織)。轉(zhuǎn)錄組數(shù)據(jù)集合可以從許多源材料產(chǎn)生，優(yōu)選的材料是(優(yōu)選逆轉(zhuǎn)錄的)mRNA和原發(fā)性轉(zhuǎn)錄物(hnRNA)。RNA序列信息從逆轉(zhuǎn)錄多聚A⁺-RNA獲得，這又從同一位患者的腫瘤樣品和匹配的正常(健康)樣品獲得。此外，應(yīng)注意到，同一位患者樣品還可以被用于DNA分析以及基于組織或細(xì)胞的蛋白組學(xué)分析。類(lèi)似地，應(yīng)注意到，雖然多聚A⁺-RNA是通常優(yōu)選的轉(zhuǎn)錄組的代表，但其他形式的RNA(hn-RNA、非聚腺苷酸化的RNA、siRNA、miRNA等)也被適合于用在本文。不考慮材料，轉(zhuǎn)錄組數(shù)據(jù)集合將包括至少序列信息、位置信息、基因信息、參考基因組的參考信息、拷貝數(shù)、讀長(zhǎng)支撐以及質(zhì)量分?jǐn)?shù)等。此外，轉(zhuǎn)錄組數(shù)據(jù)集合通常將包括匹配序列的這樣的信息，匹配序列即同一位患者的患病組織的序列和健康組織的相應(yīng)序列。

在仍另外設(shè)想的方面，基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合可以被合并成包括患病組織和對(duì)應(yīng)的健康組織(通常來(lái)自同一供體/患者)的DNA和RNA序列信息的單個(gè)數(shù)據(jù)集合。在這樣的情形中，特別優(yōu)選的是合并的組學(xué)數(shù)據(jù)集合由位置同步增量比對(duì)中的各自的DNA BAM文件和RNA BAM文件制備，產(chǎn)生了含有患病組織和匹配的健康組織的DNA序列和RNA序列兩者的關(guān)于至少序列、突變位置、拷貝數(shù)、表達(dá)水平等的特定序列或基因的差異的不同的序列對(duì)象。

關(guān)于生成基因組數(shù)據(jù)集合和/或轉(zhuǎn)錄組數(shù)據(jù)集合的特別設(shè)想的方面，因此，設(shè)想利用如描述在US 2012/0059670和US 2012/0066001(它們?cè)诖送ㄟ^(guò)引用并入)中的算法和方法來(lái)優(yōu)先進(jìn)行腫瘤和匹配的RNA的同時(shí)分析。此外，應(yīng)理解腫瘤和匹配的DNA分析可以利用同一位患者的樣品來(lái)進(jìn)行，因而提供了同一位患者的且來(lái)自同一份樣品的基因組數(shù)據(jù)和轉(zhuǎn)錄組(RNA組學(xué))數(shù)據(jù)。這些數(shù)據(jù)隨后可以利用如描述在WO/2011/139345和WO/2013/062505(它們?cè)诖送ㄟ^(guò)引用并入)中的系統(tǒng)和方法被進(jìn)一步處理以獲得通路相關(guān)的數(shù)據(jù)。因而，應(yīng)注意到，針對(duì)一位患者的單通路分析可以由單個(gè)患者的樣品和匹配的對(duì)照來(lái)進(jìn)行，這將比單個(gè)組學(xué)分析顯著改善并完善分析數(shù)據(jù)。此外，同樣的分析方法可以借助額外的組學(xué)數(shù)據(jù)(如蛋白組學(xué)數(shù)據(jù))和/或患者特異性的歷史數(shù)據(jù)(如先前的組學(xué)數(shù)據(jù)、當(dāng)前的或過(guò)去的藥物治療等)被進(jìn)一步完善。此外，應(yīng)注意到，還可以從多種其它來(lái)源獲得進(jìn)一步的數(shù)據(jù)，這些來(lái)源包括各種商業(yè)測(cè)序中心和/或?qū)W術(shù)機(jī)構(gòu)?；谶@些數(shù)據(jù)，可以做出更準(zhǔn)確的診斷或預(yù)測(cè)，以及基于完善的通路分析的治療選項(xiàng)。

關(guān)于本文的系統(tǒng)和方法中使用的相應(yīng)的組織，通常設(shè)想至少兩種不同的組織來(lái)用于生成基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合。例如，如果第一組織是患病組織(如，腫瘤的、癌癥的、受感染的、受創(chuàng)傷的等)，那么第二組織是可以從或可以不從同一個(gè)器官或組織類(lèi)型獲得的非患病組織?？蛇x擇地或另外，第一組織和第二組織可以都是患病的且來(lái)自不同的部位，以便及時(shí)識(shí)別或表征治療效果、疾病進(jìn)展或逆轉(zhuǎn)等。

所設(shè)想的分析引擎通常將包括用于數(shù)據(jù)集合相關(guān)聯(lián)的模塊，該模塊利用突變使基因組數(shù)據(jù)集合與轉(zhuǎn)錄組數(shù)據(jù)集合相關(guān)聯(lián)(如，使基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合與基因組內(nèi)的共同位置中的突變成對(duì)或以其他方式使兩者相關(guān)聯(lián))。從另一角度看，基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合被比對(duì)，從而可以比較基因組數(shù)據(jù)集合與轉(zhuǎn)錄組數(shù)據(jù)集合之間對(duì)應(yīng)的序列或位置，且從而基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合包括共同的突變。因而，相關(guān)聯(lián)模塊使患病組織和健康組織兩者的DNA信息通常與相應(yīng)的RNA信息保持一致，或如果提供不同的序列對(duì)象，那么相關(guān)聯(lián)模塊使患病組織的DNA和健康組織的DNA之間的不同序列對(duì)象中的相應(yīng)突變與患病組織的相應(yīng)RNA序列和健康組織的相應(yīng)RNA序列之間的不同序列對(duì)象保持一致。這樣，應(yīng)理解，關(guān)于特定位置的特異性突變的所有相關(guān)的信息(如突變類(lèi)型、突變的序列信息、拷貝數(shù)信息、轉(zhuǎn)錄水平信息等)可以被相關(guān)聯(lián)以便用于進(jìn)一步的分析。

所設(shè)想的分析引擎還將包括用于突變識(shí)別的模塊，該模塊識(shí)別和/或分類(lèi)基因組數(shù)據(jù)集合和轉(zhuǎn)錄組數(shù)據(jù)集合中的任何突變，其中識(shí)別和分類(lèi)包括識(shí)別至少無(wú)義突變，且進(jìn)一步識(shí)別錯(cuò)義突變和/或同義突變。當(dāng)然，應(yīng)注意到，也可以識(shí)別和/或分類(lèi)與突變相關(guān)聯(lián)的額外的信息，且這樣的額外信息的典型示例包括移碼信息、易位信息、選擇性剪接信息、重排信息等。

在本發(fā)明主題的進(jìn)一步設(shè)想的方面中，分析引擎將包括被配置成識(shí)別在受突變影響的基因內(nèi)的所識(shí)別的突變的位置的模塊和被配置成識(shí)別攜帶突變的基因的表達(dá)(轉(zhuǎn)錄)水平的另外的模塊(通常利用轉(zhuǎn)錄組數(shù)據(jù)集合中提供的信息)。例如，且正如下面更詳細(xì)描述的，位置識(shí)別可能與評(píng)估突變是無(wú)義突變時(shí)的突變的重要性相關(guān)。因此，位置信息可以包括識(shí)別或證實(shí)突變位于基因和/或轉(zhuǎn)錄物的3'-端部分內(nèi)。正如在本文中使用的，術(shù)語(yǔ)“在3'-端部分內(nèi)”指的是具有序列的3'-端50％、或3'-端40％、或3'-端30％、或3'-端20％或3'-端10％的位置。從另一個(gè)角度看，術(shù)語(yǔ)“在3'-端部分內(nèi)”還可以指3'-端外顯子或最后兩個(gè)3'-端外顯子或最后三個(gè)3'-端外顯子。

基于下面的發(fā)明人的發(fā)現(xiàn)，患者的組學(xué)記錄可以基于從相配合的基因組/轉(zhuǎn)錄物組學(xué)分析獲得的信息來(lái)更新或生成。例如，如果基因組和轉(zhuǎn)錄組中的突變是基因中的無(wú)義突變且如果該基因的轉(zhuǎn)錄水平大于相應(yīng)的未突變基因的轉(zhuǎn)錄水平，那么可以更新組學(xué)記錄。合適的組學(xué)數(shù)據(jù)庫(kù)通常將包括來(lái)自多位患者的組學(xué)記錄且可以用于存儲(chǔ)組學(xué)原始數(shù)據(jù)或處理過(guò)的數(shù)據(jù)、基因組數(shù)據(jù)集合、轉(zhuǎn)錄組數(shù)據(jù)集合、不同的序列對(duì)象、BAM文件等。

因此，鑒于上文和下面的實(shí)施例，應(yīng)該認(rèn)識(shí)到，所設(shè)想的系統(tǒng)和方法將易于提供一條新的途徑來(lái)基于基因組信息和轉(zhuǎn)錄組信息識(shí)別用于治療和診斷癌癥的潛在的分子標(biāo)記。從不同的角度看，發(fā)明人設(shè)想通過(guò)患者特異性地識(shí)別基因組突變和相應(yīng)的RNA表達(dá)水平，那么高轉(zhuǎn)錄的突變RNA(且尤其是無(wú)義突變RNA)可以被證實(shí)作為和/或用作各種癌癥的存在、治療或預(yù)防的診斷工具。

例如，正如表1中示例性顯示的，TCGA提供了針對(duì)13種不同種類(lèi)癌癥的大量的外顯子對(duì)數(shù)據(jù)(總共>5,000)以及相應(yīng)的RNA序列(總共>3,900)。利用這些數(shù)據(jù)，可以進(jìn)行正如下面更詳細(xì)描述的許多DNA/匹配的RNA的分析。

表1

來(lái)自TCGA的數(shù)據(jù)的進(jìn)一步分析提供了上面的表1中列出的癌癥的各種體細(xì)胞突變曲線，且每Mb的突變頻率示例性地描繪在圖2中。正如可以看到的，大多數(shù)突變頻率在一個(gè)數(shù)量級(jí)內(nèi)且具有基本上類(lèi)似的s形分布圖案。圖3示例性地提供了癌癥種類(lèi)內(nèi)的選定基因的體細(xì)胞突變曲線的更詳細(xì)視圖，矩形圖中列出了具有各突變類(lèi)型(錯(cuò)義、無(wú)義、移碼、整碼)的每一種腫瘤類(lèi)型的受影響最大的基因。此外，圖3還闡釋了在受影響最大的基因中的單個(gè)腫瘤種類(lèi)中的突變類(lèi)型的潛在關(guān)聯(lián)。正如可以看到的，在整個(gè)所有腫瘤種類(lèi)中，沒(méi)有看到明顯的偏倚或特異性的關(guān)聯(lián)。

關(guān)于轉(zhuǎn)錄，發(fā)明人注意到，正如從下面的表2獲得的，基因組中的大量(>80％)的突變也被表達(dá)/存在于轉(zhuǎn)錄組中，且沒(méi)有對(duì)特定類(lèi)型(如同義、錯(cuò)義、無(wú)義)的突變具有表觀上明顯的偏好或反對(duì)。正如可以從表2獲得的，無(wú)義突變的總分?jǐn)?shù)是全部檢測(cè)到的突變的約5％，同義突變的總分?jǐn)?shù)是全部檢測(cè)到的突變的約28％以及錯(cuò)義突變的總分?jǐn)?shù)是全部檢測(cè)到的突變的約67％。正如本文中使用的，術(shù)語(yǔ)“檢測(cè)到的”意指在RNA-序列數(shù)據(jù)中存在至少一個(gè)支持突變等位基因的讀長(zhǎng)，而術(shù)語(yǔ)“不存在”意指在RNA-序列數(shù)據(jù)中未檢測(cè)到突變等位基因。此外，表2中的數(shù)據(jù)僅僅考慮了具有置信度>＝20的突變，且至少20個(gè)讀長(zhǎng)覆蓋RNA-序列中的位置。

表2

圖4-6提供了同義突變(圖4)、錯(cuò)義突變(圖5)以及無(wú)義突變(圖6)的DNA突變等位基因分?jǐn)?shù)(MAF)對(duì)RNA的基因組寬度分析，表明與所有突變相比，在轉(zhuǎn)錄中沒(méi)有對(duì)無(wú)義突變和錯(cuò)義突變明顯的偏好。然而，應(yīng)注意到，正如從上面的表2中反映出來(lái)的，一部分突變DNA并未被轉(zhuǎn)錄成RNA，正如在圖5中也具體標(biāo)示的。值得注意的是，圖6描繪了對(duì)較低轉(zhuǎn)錄/不轉(zhuǎn)錄的突變DNA的中等偏好，這引導(dǎo)發(fā)明人對(duì)這樣明顯的偏好分析可能的機(jī)理。令人驚奇地，當(dāng)繪制轉(zhuǎn)錄比率對(duì)每一種突變類(lèi)型的突變位置的圖時(shí)，發(fā)明人注意到，正如可以從圖7-9看到的，觀察到對(duì)同義突變和錯(cuò)義突變同樣缺乏顯著的偏好，但正如圖9中顯示的，在無(wú)義突變的情形中，在基因的3'-端部分內(nèi)且尤其是最后兩個(gè)端外顯子，無(wú)義突變是明顯高表達(dá)的。

在更密切的研究后，且當(dāng)研究涉及基因組寬度的轉(zhuǎn)錄時(shí)，與表觀上缺乏偏好的突變類(lèi)型相比，癌癥樣品中的若干個(gè)選定基因的確顯示出明顯高表達(dá)的圖案，其中基因具有無(wú)義突變，正如下面的表3中列出的。

表3

令人驚奇地，這些突變基因中的大部分與鱗狀細(xì)胞惡性腫瘤相關(guān)聯(lián)。圖10-14示例性地描繪了轉(zhuǎn)錄比率高于正常值且這樣的高表達(dá)與位于基因/轉(zhuǎn)錄物的3-端部分內(nèi)的無(wú)義突變相關(guān)聯(lián)的選定基因的分析。在這些附圖中，虛線表示高表達(dá)基因的閾值，(即突變體讀長(zhǎng)支撐排名高于參考的50％)。基于這些數(shù)據(jù)，應(yīng)理解，上述突變基因?qū)⒁子谄鸬较嚓P(guān)癌癥的預(yù)測(cè)或診斷標(biāo)記的作用。因此，應(yīng)理解，高轉(zhuǎn)錄的無(wú)義突變(尤其是突變位于基因的3-端部分內(nèi)時(shí))可以被用在檢測(cè)用于診斷和治療各種癌癥的分子標(biāo)記的系統(tǒng)和方法中。

因而，已經(jīng)公開(kāi)了組學(xué)分析方法的具體實(shí)施方案和應(yīng)用。對(duì)本領(lǐng)域技術(shù)人員應(yīng)該明顯的是，除了已經(jīng)描述的之外的許多更多的改變是可能的而并不偏離本文的本發(fā)明的構(gòu)想。因此，除了在所附權(quán)利要求的范圍內(nèi)，本發(fā)明的主題并不受限制。此外，在解釋說(shuō)明書(shū)和權(quán)利要求時(shí)，所有的術(shù)語(yǔ)應(yīng)該以與上下文一致的、盡可能寬泛的方式被解釋。具體地，術(shù)語(yǔ)“包括(comprises)”和“包括(comprising)”應(yīng)該被解釋為以非唯一的方式涉及要素、部件或步驟，表示所涉及的要素、部件或步驟可以存在或利用或與未明確涉及的其他要素、部件或步驟結(jié)合。如果說(shuō)明書(shū)和權(quán)利要求涉及選自由A、B、C…以及N組成的組中的至少一者的情況下，那么該文字應(yīng)被解釋為僅要求該組中的一個(gè)要素，而不是A加上N或B加上N等。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：J·Z·桑伯恩
技術(shù)所有人：凡弗3基因組有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種連續(xù)自動(dòng)上料裝置的制作方法
上一篇：清掃樹(shù)葉環(huán)衛(wèi)車(chē)的制作方法與工藝

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于功能證實(shí)癌癥突變的RNA分析的系統(tǒng)和方法與流程