來自基于序列的測試的DNA變體的有效和準確的解釋是對臨床實驗室的挑戰(zhàn)。通過由于每個測試要測定更大數(shù)目的基因、致病性的新證據(jù)和不精確的臨床表型而增加了測試復雜性,這使得這種挑戰(zhàn)被復雜化。
通常,當醫(yī)生為例如患者的癌性腫瘤訂購基于序列的測試時,基于序列的測試工作流程開始?;谛蛄械臏y試用于更好地理解腫瘤和哪些藥物可能最有效地治療患者。在測試被訂購之后,收集樣品、生成序列數(shù)據(jù),并為該癌癥樣品生成DNA序列信息。然后,應用信息學和分析來確定一個或多個變體。變體是相對于參考(諸如參考基因組)存在于該患者樣品中的DNA改變。臨床基因?qū)W家查看一個或多個變體。有時,在特定樣品的場境中對特定變體的觀察可以被稱為變體觀察。在查看變體時,基因?qū)W家評估例如哪些變體更可能是一個或多個感興趣的疾病或表型的病因,其中變體是致病的或可能致病的,和/或哪些變體與經(jīng)修改的藥物反應或藥物毒性相關聯(lián)。然后基于醫(yī)師的訂購準備報告。例如,作為現(xiàn)場專家的實驗室主任可以簽出測試報告,并且結(jié)果將被發(fā)送回醫(yī)師以幫助他們更好地治療患者。
這種典型的工作流程存在若干缺陷。首先,用于解釋序列結(jié)果的文獻通常需要取得和查看。為了取得和查看生物醫(yī)學論文和其它文獻,例如,基因?qū)W家或研究者將獲得并閱讀論文并解釋觀察到的不同變體。然而,在訂購測試的時間和結(jié)果返回醫(yī)生的時間之間的過程可能花費長時間-否則可以花費在治療患者上。在某些情況下,該時間延遲實際上降低了成功治療患者疾病的幾率。
第二,隨著有序的基于序列的測試的數(shù)目的增加,存在可伸縮性挑戰(zhàn)。隨著測試體積增加,跟隨測試解釋的速度變得越來越困難。此外,隨著測試的數(shù)目增加,所查看的變體和文章的數(shù)目也增加,從而使問題復雜化。
第三,測試本身變得越來越大以及越來越復雜。測試正在從考慮在基因中的少數(shù)突變(諸如使婦女易患乳腺癌的BRCA1或BRCA2基因)的簡單測試,改變?yōu)榭紤]幾十個、幾百個或甚至幾千個基因的測試。在某些情況下,實驗室實際上對患者基因組中的所有已知基因外顯子或甚至整個基因組進行測序。這樣的序列在其中具有如此多的信息,其導致大數(shù)據(jù)問題,其中解釋和從序列中提取相關見解變得極具挑戰(zhàn)性。
一般來說,對進行用于研究變體的臨床試驗感興趣的實體花費大量資源來尋找和招募患者進行臨床試驗。例如,制藥公司可能對研究具有(或缺乏)特定基因改變或基因改變的群集的患者感興趣,并且,期望具有(或缺乏)那些改變或變體的患者可以被預期對于特定的治療做出更有利地或不太有利地反應。該公司招募了幾個試驗位點,其測試基因改變的潛在候選人。根據(jù)具有(或缺乏)期望的變體或變體的群集的感興趣的表型的患者的罕見性,可能需要測試許多候選患者以找到實際具有(或缺乏)期望的變體或變體的群集的相對少數(shù)候選。甚至有可能沒有識別用于研究的足夠的候選以確保充分的實驗。
在一些情況下,已經(jīng)公布了與變體相關的文章,但是出版物太近期,以致于在請求感興趣變體的文獻的時候還沒有被策展(curate)。經(jīng)策展的文章所需的時間量可以根據(jù)可用于策展的資源而變化。例如,所需的時間可以至少與人閱讀文章所需的時間一樣長,并且在許多情況下可能更長。然而,文獻可能包括關于特定感興趣變體的相關信息。如果這些文件在測試解釋之前未被策展或部分被策展,那么患者可能無法從中獲得有價值的信息。在一些情況下,可以使用文本搜索技術(諸如自然語言處理)或通過為感興趣的一個或多個變體構(gòu)建“即時(just-in-time)”文獻來識別未經(jīng)策展的內(nèi)容中的相關信息。然而,關于未經(jīng)策展的內(nèi)容的文本搜索技術通常不能提供與被策展內(nèi)容所提供的相關或有用的結(jié)果。
關于信息本身,單個基因組變體的存在或不存在通常不是表型效應的完全決定性。然而,通常僅評估單個變體或單個DNA改變,并且通常在基因組其余部分的場境之外。例如,由美國國家生物技術信息中心運行的ClinVar數(shù)據(jù)庫提供了與特定DNA改變的臨床意義有關的信息。然而,在不理解其它基因改變和修改劑變體的場境的情況下,這種在一次性的基礎上解釋變體的模式是過于簡單化的。
基因測試解釋中的另一個當前問題發(fā)生在當臨床醫(yī)生解釋用于個體的基于序列的測試的基因組并發(fā)現(xiàn)看起來極其罕見的DNA改變時。改變的罕見性和其發(fā)生在與特定疾病相關的(linked to)基因中的事實使得迫切地得出結(jié)論,該變體是影響患者的罕見疾病表型的病因。然而,已經(jīng)提交到公共領域的許多測序研究可以極端地偏向歐洲人的后裔。因此,由于變體在一個群體或種族群體中的稀少性,所述變體可能被錯誤地分類為病因,即使它們在沒有相同量的測序調(diào)查的群體中不太稀少。
通常,與特定基因組變體有關的知識被不斷地更新。更新可以來自臨床試驗、研究、監(jiān)管批準、治療患者的經(jīng)驗或其它源。然而,即使在他們建議改變治療或監(jiān)測條件時,這些更新的效果、影響或發(fā)生并不總是清楚的。通常,患者可以基于具有特定基因組變體接收診斷,但不知道對基因組變體的理解的后續(xù)發(fā)展。
附圖說明
附圖并入本文并形成說明書的一部分。
圖1是根據(jù)實施例的系統(tǒng)的框圖。
圖2描繪了根據(jù)實施例的示例儀表板。
圖3描繪了根據(jù)實施例的示例文獻。
圖4進一步描繪根據(jù)實施例的示例儀表板。
圖5描繪了根據(jù)實施例的示例治療視圖。
圖6是根據(jù)實施例的用于確定臨床試驗候選的流程圖。
圖7是根據(jù)實施例的用于提供文獻的流程圖。
圖8是根據(jù)實施例的用于眾包變體評估的流程圖。
圖9A和圖9B描繪了用于包括由用戶所提供的反饋的示例屏幕截屏。
圖10是根據(jù)實施例的多變體分類的流程圖。
圖11是根據(jù)實施例的用于驗證評估的流程圖。
圖12是根據(jù)實施例的用于將基因型與表型相關聯(lián)的流程圖。
圖13描繪了根據(jù)實施例的包括用戶的分類的示例報告。
圖14是根據(jù)實施例的用于評估等位基因頻率的流程圖。
圖15是根據(jù)實施例的對變體進行打分的流程圖。
圖16是根據(jù)實施例的用于提供變體分類警報的流程圖。
圖17描繪了根據(jù)實施例的示例警報報告。
圖18是根據(jù)實施例的用于提供患者門戶的流程圖。
圖19描繪了根據(jù)實施例的示例患者門戶。
圖20是根據(jù)實施例的用于改進變體分類規(guī)則的流程圖。
圖21是根據(jù)實施例的用于改進變體分類規(guī)則的流程圖。
圖22是可用于實現(xiàn)各種實施例的示例計算機系統(tǒng)。
在附圖中,相同的附圖標記通常指示相同或相似的元素。另外,通常,附圖標記的最左邊的數(shù)字指示其中該附圖標記首次出現(xiàn)的附圖。
具體實施方式
本文提供了用于評估基因組變體并允許一個或多個用戶與知識庫交互的系統(tǒng)、方法和/或計算機程序產(chǎn)品實施例、和/或其組合和子組合。
詞匯表
如在以下描述中所使用的:
“疾病(disease)”是指所關注的任何表型或表型性狀(phenotype trait),包括例如疾病或疾病狀態(tài),對疾病的易患性(predisposition)或易感性(susceptibility)或異常藥物反應。疾病狀態(tài)的說明性和非限制性示例包括癌癥、高膽固醇水平、充血性心力衰竭、高血壓、糖尿病、葡萄糖不耐受、抑郁、焦慮、感染性疾病、毒性狀態(tài)、藥物治療副作用、藥物治療無效、酒精中毒、成癮、創(chuàng)傷等。
“治療(Therapy)”和“治療性(therapeutic)”包括預防(prophylaxis)和預防性(prophylactic),并且包括預防(prevention)以及改善與疾病狀態(tài)相關聯(lián)的癥狀,抑制或延遲疾病狀態(tài)的進展和治療疾病狀態(tài)。
“蛋白質(zhì)(Protein)”或“基因產(chǎn)物(gene product)”是指所翻譯的或可以在翻譯后被修改的肽、寡肽、多肽或蛋白質(zhì)?;虍a(chǎn)物也可以是RNA分子。
“文獻(Literature)”是用于構(gòu)建信息數(shù)據(jù)庫的數(shù)據(jù)。該數(shù)據(jù)可以來自公共源,諸如數(shù)據(jù)庫和科學和/或臨床出版物,但它也可以包括專有數(shù)據(jù)或?qū)S袛?shù)據(jù)和公共數(shù)據(jù)的混合。在各種實施例中,文獻是從自然語言(例如,英語語言)形式化的文本內(nèi)容中導出的。文章、論文和其它參考都被認為是“文獻”的類型。
“變體(Variant)”是指核苷酸或核苷酸序列相對于所建立的參考核苷酸或核苷酸序列的任何特定改變,包括但不限于單核苷酸變體、插入、缺失、重復和重排。這也包括但不限于核酸修改,例如甲基化,以及基因組中核苷酸或核苷酸序列的異常拷貝數(shù)目。
“突變(Mutation)”和“DNA改變(DNA change)”各自通常指變體。
“患者(Patient)”通常是指具有相關序列信息的生物有機體,其可包括但不限于來自一個或多個患者組織的構(gòu)建DNA序列信息和/或來自一個或多個患者腫瘤的序列信息,以及選擇性地包括表型信息。
“用戶(User)”是指正在利用本文所描述的一個或多個方法和/或系統(tǒng)與本文所述的知識庫和/或一個或多個方法、系統(tǒng)或設備直接或間接交互的人。
“過濾(Filtering)”意味著注釋或更改一個或多個數(shù)據(jù)集。過濾可以表示從數(shù)據(jù)集中保留、添加、減去或添加數(shù)據(jù)點。過濾可以意味著屏蔽(mask)數(shù)據(jù)集內(nèi)的一個或多個數(shù)據(jù)點。過濾可以意味著在數(shù)據(jù)集中取消屏蔽數(shù)據(jù)點。在一些實施例中,過濾是迭代過程。在一些實施例中,利用一個或多個過濾器執(zhí)行過濾。在一些實施例中,由一個過濾器移除或屏蔽的數(shù)據(jù)點被第二過濾器添加回或取消屏蔽。在一些實施例中,在變體列表上執(zhí)行過濾。經(jīng)過濾的數(shù)據(jù)集可以小于或大于原始數(shù)據(jù)集。在一些實施例中,經(jīng)過濾的數(shù)據(jù)集包括未從原始數(shù)據(jù)集移除的數(shù)據(jù)點。在一些實施例中,經(jīng)過濾的數(shù)據(jù)集包括比原始數(shù)據(jù)集更多的信息。例如,經(jīng)過濾的數(shù)據(jù)集可以包括以下中的一個或多個:原始數(shù)據(jù)集、與每個數(shù)據(jù)點當前是否被屏蔽有關的信息、與每個數(shù)據(jù)點是否先前被屏蔽有關的信息以及與先前過濾有關的信息。與先前過濾器有關的信息可以是應用的過濾器的類型、為過濾器的應用所選擇的任何變量、由過濾器所做出的任何假設和/或過濾器所依賴的任何信息(例如,來自數(shù)據(jù)庫的信息)。
概述
提供了旨在幫助解釋在臨床測序數(shù)據(jù)中觀察到的變體的基于知識的系統(tǒng)和方法。本發(fā)明的一個實施例是符合HIPAA的,并且在臨床文獻和當前基因和疾病知識的深層專家策展的場境下評估基因組變體,以提供所公開的臨床病例、藥物適應癥和綜合指南的綜合體,諸如NCCN(國家綜合癌癥網(wǎng)絡)、ASCO(美國臨床腫瘤學會)和ACMG(美國醫(yī)學基因?qū)W院)附帶發(fā)現(xiàn)。在一個實施例中,提供分類邏輯以基于標準ACMG準則或用戶定義的記分邏輯自動地建議變體分類。這為臨床基因?qū)W家、變體科學家和分子病理學家針對變體解釋提供了基于證據(jù)的基礎。專家所策展的內(nèi)容和分析工具通過將表型信息和最新內(nèi)容合并到可伸縮、可再生產(chǎn)、自動化的決策支持工作流程中,簡化和縮放變體分類。本發(fā)明的實施例還使能有效基于知識識別患者(和/或能夠訪問所述患者的部位),其將理想地適合于在臨床試驗中被招募,其中患者基于一個或多個基因標準被優(yōu)先分層、選擇或招募。
基于組織成所構(gòu)造信息的經(jīng)策展內(nèi)容對變體(諸如DNA變體)進行歸類,從而對實施例中的本體加以杠桿。例如,可以在來自患者的基于測序的測試中觀察變體,用來自知識庫的相關所構(gòu)造信息注釋變體,并使用一組規(guī)則對變體進行分類。這種策展可以將一個或多個變體直接與疾病或其它表型相關聯(lián)。也就是說,通過策展對從文獻中捕獲的所構(gòu)造內(nèi)容的分析可以與其它信息一起使用,諸如在不受感興趣的表型影響的個體群體中的等位基因頻率,以確定該變體非常可能是致病性或特定的表型的病因。另一方面,考慮先前在具有特定罕見疾病(例如,在50000活產(chǎn)中發(fā)生少于1例的疾病)的個體中發(fā)現(xiàn)的基因中的變體,但是也存在于所有歐洲血統(tǒng)患者的52%中。在52%的所有歐洲人中存在的變體不太可能是因為存在于50,000個活產(chǎn)中的少于1的罕見疾病的病因。如果變體對特定隱性疾病是致病性的,并且變體存在于特定群體的52%中,則預期在約26%的群體中可以發(fā)現(xiàn)特定的疾病。如果變體極不可能致病,在一個實施例中,該變體被分類為良性。變體的自動評分或分類的特定方法、系統(tǒng)或介質(zhì)在PCT公開號No.WO 2013/070634中討論,其全部內(nèi)容通過引用合并于此。
本發(fā)明的實施例基于該疾病場境概述了用于解釋數(shù)據(jù)集的相關信息。該系統(tǒng)可以允許用戶鉆入特定變體(例如,BBS1變體),并從文獻和各種數(shù)據(jù)庫接收概述與該變體、其相關疾病或其它表型、及其患者案例場境相關的數(shù)據(jù)的信息的儀表板。
在實施例中,一個或多個用戶可以包括一個或多個策展人。策展人是查看來自知識庫的信息并從其組織信息的用戶。一個或多個策展人可以包括例如但不限于醫(yī)生、具有相關主題(例如PH.D.、M.S.、B.S.等)的學位的個人、專家或其任何組合。策展人可以單獨或團隊工作,以查看來自文獻的信息池以捕獲洞察、事實、發(fā)現(xiàn)等,并將它們組織為所構(gòu)造信息以用于并入知識庫。
例如,可以根據(jù)使用工具的本體來構(gòu)造信息,所述工具諸如PCT公開號No.WO 2013/070634中描述的系統(tǒng)、方法或介質(zhì),其全部內(nèi)容通過引用合并于此。本體是知識的經(jīng)構(gòu)造形式。本體可以包括基因和表型信息之間的關系。通過將來自知識庫的信息包括在本體的經(jīng)構(gòu)造形式中,可以利用本體元素之間的關系來導出附加信息。
本體可以使得更容易找到相關信息。例如,如果用諸如疾病或表型的概念查詢知識庫,則本體從本體中的關系理解所查詢的概念與本體中的其它概念相關或并入本體中的其它概念。例如,在知識庫中利用本體搜索“乳腺癌”的概念可以揭示與乳腺癌相關的一個或多個基因的相關概念,或者描述乳腺或乳腺腫瘤或原位導管癌的論文。以這種方式,即使相關概念不以任何方式直接重疊,系統(tǒng)理解概念之間的關系。如果一篇文章涉及乳腺癌,并且用戶錄入了請求與乳腺癌相關的突變的查詢,則該用戶將不僅從該文章接收到相關的結(jié)果和見解,還有由于本體中的鏈接而被識別為與該文章相關的其它文章。雖然這是更簡單的例子,但是它說明了使用本體來發(fā)現(xiàn)和利用相關概念的力量。
作為如何根據(jù)本體構(gòu)造的知識庫可以使得更容易找到相關信息的另一示例,用戶可以使用多個屬性來查詢。例如,用戶可能對EGFR(表皮生長因子受體)中的特定突變感興趣,并且希望看到所有相關文獻證據(jù),其討論該特定突變和對患者對治療的響應之間的關系。使用傳統(tǒng)關鍵字搜索文章并讀取返回的結(jié)果是查找信息的典型方法。但由于關鍵詞的限制和研究者在吸收整篇文章以收集相關信息的時間,這種典型的搜索是耗時且低效的,并且可能不能捕獲所有相關信息。當使用知識庫和本體時,這種搜索和分析變得更容易。
在一個實施例中,使用來自知識庫的信息來執(zhí)行一個或多個分析。例如,來自知識庫的信息可以用于人類DNA序列解釋的翻譯應用,諸如找到對于人類疾病是病因的DNA改變。來自知識庫的信息也可以用于基于序列的測試的臨床解釋。越來越多的實驗室正在研究DNA改變或DNA變體。這樣的測試的結(jié)果可以幫助醫(yī)生做出疾病的診斷、識別患者的腫瘤可能易受影響的藥物、識別什么藥物可能最適合治療特定患者等。相反,測試可以指示哪些藥物可能不能基于序列信息治療特定患者,例如,存在于腫瘤中的突變。
在知識庫中收集、搜索或分析患者特異性信息可能需要該患者的同意,并且在一個實施例中可以是符合HIPAA。該患者同意可以在各種時間獲取并且具有特定范圍。例如,患者可以為患者測試信息的任何使用或僅特定使用提供同意??稍跍y試、樣品提取或另一時間獲得患者同意。例如,患者同意書或調(diào)查問卷可能會問,“您希望未來獲得通知,以便基于您的測試信息,臨床試驗可能對您有所幫助嗎?這樣的問題可以例如包括在電子問卷中的復選框。如果患者同意,則患者的測試信息可以用于臨床試驗匹配。例如,可以將患者的基因測試信息與制藥公司正在進行的藥物試驗進行比較,以查看該患者是否適合于試驗。對于藥物公司,基因信息對于預測哪些患者會或可能不會對藥物有反應非常有用。此外,實際上具有藥物公司感興趣的那些基因改變的患者將通過知道該藥物出現(xiàn)而獲益,并且他們可能有資格進行試驗場境下的療法,特別是如果他們的當前治療未成功。因此,患者可能相當感興趣地提供對患者的測試信息的使用的同意以用于臨床試驗匹配。
獲得這種預先同意的好處是顯著的。如本文所討論的,通過在研究期間隨機抽樣群體中的個體來找到具有特定基因組變體或變體群集的患者是非常困難的。維持已經(jīng)被觀察到的攜帶基因組變體的患者的數(shù)據(jù)庫生成了有價值的人類目錄,使得試驗和試驗地點能夠更快地被招募,通過提供更快速地訪問靶向治療而使患者受益,并且通過幫助他們將新的療法更快推到市場。
門戶
圖1是用戶可以通過其與云上的知識庫交互的系統(tǒng)100的框圖。這樣的系統(tǒng)允許來自不同位置的用戶利用公共數(shù)據(jù)集,并將其自己的信息貢獻給知識庫。
系統(tǒng)100包括通過網(wǎng)絡106與客戶端104通信的計算系統(tǒng)102。計算系統(tǒng)102可以具有服務器功能。計算系統(tǒng)102包括引擎108和儲存器110。引擎108可以被配置為執(zhí)行過程,諸如本文所討論的任何過程。儲存器110可以存儲諸如從計算系統(tǒng)102所接收的信息的數(shù)據(jù)。儲存器110可以包括數(shù)據(jù)庫、知識庫、任何形式的計算機存儲器或其任何組合。
客戶端104可以是任何類型的計算設備,諸如但不限于個人計算機、移動電話、平板電腦、PDA、工作站、嵌入式系統(tǒng)、游戲機、電視機、機頂盒或任何其它計算設備。在實施例中,用戶可以操作客戶端104上的界面或門戶105以訪問位于計算系統(tǒng)102上的信息。門戶105可以是特定于由客戶端104運行的特定計算設備平臺的本地應用。可替選地,門戶105可以經(jīng)由在客戶端104上運行的瀏覽器(諸如網(wǎng)絡瀏覽器)來訪問。
網(wǎng)絡106可以是可以攜帶數(shù)據(jù)通信的任何網(wǎng)絡或網(wǎng)絡的組合。這樣的網(wǎng)絡106可以包括但不限于局域網(wǎng)、城域網(wǎng)和/或諸如互聯(lián)網(wǎng)的廣域網(wǎng)。
在實施例中,計算系統(tǒng)102從客戶端104接收請求112。請求112可以包括例如但不限于對報告、測試、測試結(jié)果或其任何組合的請求。計算系統(tǒng)102可以基于存儲在儲存器110中的信息來處理請求112以產(chǎn)生結(jié)果114。計算系統(tǒng)102然后可以將結(jié)果114傳送到客戶端104。
圖2描繪了根據(jù)示例實施例的示例儀表板200。在一個實施例中,儀表板200中的信息由計算系統(tǒng)102提供給客戶端104以經(jīng)由門戶105顯示。儀表板200提供關于特定基因組變體是否與特定表型相關的信息。在該實施例中,基因是BBS1(Bardet-Beid1綜合征1),變體是c.1169T>G,并且表型是Bardet-Beid1綜合征。該基因、變體和表型組合僅用于說明示例。在不脫離本發(fā)明的精神和范圍的情況下,本領域技術人員將認識到儀表板可以包括其它基因、變體和表型的任何組合。
在儀表板200中,在基因場境中基因組變體的位置在位置202處示出。如行204中所示,該基因(BBS1)具有多個外顯子。指示符206識別基因內(nèi)的DNA突變的位置。行208顯示基于位于知識庫中的信息已經(jīng)識別基因損傷性突變的其它位置。該顯示給用戶快速的視圖,以看到這個變體是否位于可能導致疾病的其它DNA改變的熱點中。
儀表板200的“報告的臨床病例”部分提供與位于知識庫中的變體相關的臨床病例的綜合。例如,這可以包括與該表型相關的生物醫(yī)學文獻中存儲在計算設備102的知識庫中的所有特定變體患者病例。通過該綜合,用戶可以快速地看到具有兩個感興趣的表型和具有該變體的基因的患者群組。還可以快速地看到具有該特定變體但沒有表現(xiàn)出表型的患者。這樣的患者在儀表板200的界面中突出顯示。具有這種基因組變體但不表現(xiàn)表型的患者可能感興趣以確定該變體是否與表型并不是有因果關系地相關,和/或確定是否存在即使當存在該特定變體時抑制表型的變體的組合。人們可以經(jīng)由鏈接210非??焖俚卦L問文獻和與該變體相關的文獻。在一個實施例中,這樣的鏈接嵌入在作為所報告的臨床病例的一部分示出的圖標中。
圖3描繪了根據(jù)實施例的示例文獻界面300。在實施例中,當用戶選擇儀表板200中的鏈接210時,計算系統(tǒng)102提供文獻界面300。文獻界面300示出是否存在與疾病和感興趣變體之間的基因交互相關的出版物。通過文獻界面300,諸如實驗室指導者或基因?qū)W家的用戶可以快速評估與該變體和該表型相關的文獻證據(jù)。用戶可以選擇要包括在報告上回給醫(yī)生的特定文章。文獻界面300可以將單獨的相關文獻分成多個標簽。例如,可以在一個標簽中提供支持儀表板200上示出的分析的文獻,而在另一個標簽中提供從分析中排除的文獻。如果文獻被識別為例如不可信的或與感興趣的變體或表型實際上不相關,則可以將其從分析中排除。當用戶正在審閱文獻時,用戶可以添加針對特定結(jié)果的筆記,或者可以請求從相關文檔的列表中排除特定結(jié)果。
圖4描繪了根據(jù)示例實施例的由儀表板200提供的進一步信息。例如,儀表板200還可以提供在其它實驗室中觀察到的臨床病例證據(jù),在儀表板200中示出的標題“Clinical cases from other laboratories.(來自其它實驗室的臨床病例)”。在圖4的示例中,存在名為“ClinVar”的數(shù)據(jù)庫,其包括來自其它實驗室的評估。這可能是對用戶的有用的保證。在圖4的示例中,如果實驗室計劃簽出說明BBS1變體對該患者是致病性的測試,則可以保證一個或多個其它實驗室將該變體分類為致病性。來自其它實驗室的信息可以由計算設備102通過例如咨詢來自這種實驗室的信息庫和/或通過計算設備102與那些實驗室之間的直接鏈接來獲得。
儀表板200還提供對該變體在一般群體中的稀有性的評估。如上所述,如果變體在給定群體中是常見的,那么變體不可能是罕見疾病的病因。另一方面,如果變體在給定群體中是罕見的,則其與變體是罕見疾病的病因一致。在圖4所示的示例中,所示的罕見百分比示出該變體在群體中的流行與一般群體中的疾病(表型)的表達一致。這加強了變體(BBS1)與疾病(Bardet-Beid1綜合征)有因果關系地相關的發(fā)現(xiàn),因為它是在對于疾病預期的范圍內(nèi)的頻率下觀察到的。
在一個實施例中,儀表板200可以提供由于變體引起的DNA改變的生物化學影響的評估。儀表板200可以提供到文章的一個或多個鏈接,其中用戶(例如,科學家)可以探索這種特定DNA蛋白質(zhì)改變的生化影響,并也預測生化影響。例如,各種工具可以預測給定的DNA改變是否損害或可能不損害蛋白質(zhì)的功能。這樣的工具可以包括,例如但不限于,SIFT(從容忍中排序不允許(Sorting Intolerant from Tolerant))算法;PolyPhen(多態(tài)性表型(Polymorphism Phenotyping))算法;Blosum矩陣;PhyloP模型;和B-SIFT(雙向SIFT)算法。這些工具的示例標準可包括給定的DNA或蛋白質(zhì)改變是保守性還是非保守性氨基酸取代,是否在跨哺乳動物的高度保守區(qū)域觀察到變體,即使變體的效果是未知的。特定變體影響在跨所有哺乳動物物種高度保守的核苷酸或蛋白質(zhì)位置可以表明該變體正在做重要的事情。該信息和這些算法可以用于預測該DNA改變是否可能干擾基因或蛋白質(zhì)功能,可替選地,以某種方式例如通過基因融合增強或加強功能或創(chuàng)建新功能。
圖5描繪了示例療法視圖500,其包括可能與具有特定基因組變體或變體的群集的患者相關的藥物和/或治療的概要。視圖500可以經(jīng)由來自儀表板200(未示出)的鏈接來訪問。在圖5的示例中,療法視圖500描繪了在知識庫中所識別的與由特定基因突變(EGFR外顯子19缺失)引起的肺癌相關的藥物療法。在該實例中,證據(jù)已經(jīng)從FDA的網(wǎng)站進行策展,并且處方信息指示該療法與具有腫瘤的患者,特別是在EGFR中具有外顯子19缺失的癌癥相關。如果用戶選擇鏈接,則用戶將被定向到底層參考或數(shù)據(jù)源。例如,如果用戶選擇圖5所示的“U.S.Food and Drug Administration(美國食品和藥物管理局)”鏈接,用戶將被帶到FDA的網(wǎng)站,以查看該藥物的處方信息,通過其策展數(shù)據(jù)。
在一個實施例中,療法視圖500還可以描繪正在進行的臨床試驗。例如,制藥公司可能正在進行試驗,尋找在某種疾病場境下具有某些突變的患者,因為他們正在測試可以幫助這些患者的新療法。當由具有特定患者信息知識(或者如果患者信息包括在知識庫中)的醫(yī)生或研究者觀察時,在療法視圖中識別這樣的臨床試驗可以使預期參與者能夠與相關公司接觸(經(jīng)由醫(yī)生、實驗室或直接)參加臨床試驗。如果預期參加者已用盡其它治療性選擇,則該列表還可以告知患者可能有益于患者的后期發(fā)展。
增強的預分析
隨著越來越多的患者測試信息被收集在知識庫中,知識庫可以用于不僅僅從文獻和臨床試驗中提取相關信息。在實施例中,如果患者授權(quán),則可以使用在知識庫中所包括的大量患者基因信息來識別可用臨床試驗的候選。來自多個位點和組織的數(shù)據(jù)可以在知識庫中組合并被搜索以識別有資格進行特定靶向臨床試驗的位點和患者,使得那些位點和/或患者可以更快地參與試驗。這可以簡化和加快試驗招募,使患者能夠更快速地獲得更有可能有效治療其疾病的生命治療,同時還使制藥公司能夠更快地將新的治療方法推向市場,并相對于常規(guī)方法顯著降低成本。圖6是根據(jù)實施例的用于確定臨床試驗的候選的方法600的流程圖。方法600可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法600由計算系統(tǒng)102執(zhí)行。
在框602中,從用戶接收臨床試驗招募標準。在實施例中,計算系統(tǒng)102經(jīng)由客戶端104上的門戶105從用戶接收臨床試驗招募標準。臨床試驗招募標準可以包括基因靶向標準、患者測試信息參數(shù)、患者序列變體參數(shù)、患者表型參數(shù)、患者同意參數(shù)等。
在框604中,對患者測試信息的知識庫(和/或與患者接觸的位點)搜索與臨床試驗招募標準匹配的患者。在實施例中,計算系統(tǒng)102在位于儲存器110中的知識庫中搜索這樣的患者。例如,可以對知識庫搜索具有藥物或治療非??赡茼憫淖凅w的特定群集的試驗候選。
在實施例中,搜索包括訪問患者電子醫(yī)療記錄或患者電子醫(yī)療記錄的派生物中的至少一個。計算設備102可以通過網(wǎng)絡(諸如網(wǎng)絡106)與電子醫(yī)療記錄提供者或數(shù)據(jù)庫連接,以便獲得對患者信息的訪問。
在實施例中,患者測試信息位于儲存器110中的知識庫中。例如,患者測試信息可以由計算設備102經(jīng)由網(wǎng)絡(諸如網(wǎng)絡106)從多個獨立的客戶實體接收。例如,多個測試位點可以收集患者的測試信息(諸如它們何時被測試時以及該測試的結(jié)果),而不管該測試是否用于感興趣的特定臨床試驗。在過程期間的任何點,諸如在測試之前,患者可以提供同意以允許測試信息的后續(xù)使用,諸如確定患者是否可能是臨床試驗的候選者。這樣的患者測試信息和同意可以由計算機102存儲在儲存器110中。然后可以將患者測試信息和/或同意與所接收的患者測試信息參數(shù)和/或所接收的患者同意參數(shù)進行比較,以查看患者是否與臨床試驗匹配。
在實施例中,患者表型信息位于計算機系統(tǒng)102上,并且根據(jù)本體被構(gòu)造和可搜索。例如,知識庫可以包括將患者表型信息與一個或多個變體(諸如通過基于序列的測試可發(fā)現(xiàn)的變體)相關聯(lián)的信息。當計算設備102接收到患者表型信息時,計算設備102可以使用引擎108處理信息,并將該信息存儲在位于儲存器110中的本體知識庫中。然后可以將該患者表型和基因型信息與包括期望的基因型信息的所接收的期望患者臨床試驗參數(shù)進行比較,以查看患者是否與臨床試驗匹配。
在框606中,通過例如計算系統(tǒng)102向用戶(例如,搜索臨床試驗參與者的實驗室或公司)提供與臨床試驗招募標準匹配的已同意患者的搜索結(jié)果。搜索結(jié)果可以包括與患者有關的信息的任何組合,例如,人口統(tǒng)計學信息、患者表型、基因組變體或?qū)τ谄ヅ浠驈呐R床試驗中排除患者有用的任何其它信息。另外或可替選地,搜索結(jié)果可以按位點聚合。例如,搜索結(jié)果可以列出已經(jīng)同意滿足招募標準的患者的前五個位點和/或在每個位點的匹配臨床試驗招募標準的患者數(shù)目。
在實施例中,提供了使一個或多個患者能夠查看測試信息的患者門戶。例如,患者可以經(jīng)由在客戶端104上運行的門戶105訪問計算系統(tǒng)102。本領域的技術人員將認識到,門戶105可以具有不同的能力,這取決于其是否旨在由實驗室/研究者使用,或是否旨在由患者使用?;颊唛T戶可以由患者授權(quán)的個人或?qū)嶓w訪問,諸如患者、患者家屬、護理提供者(例如醫(yī)師或基因?qū)W家)、研究者、保險公司或其任何組合。關于患者門戶的進一步細節(jié)在下面關于圖18和圖19描述。圖19示出了示例患者門戶,實施例支持使一個或多個患者能夠查看測試信息的任何患者門戶。
在實施例中,可以基于患者與患者門戶的交互來獲得各種數(shù)據(jù)。這樣的數(shù)據(jù)可以包括,例如但不限于,患者是否可能仍活著(基于患者與系統(tǒng)的一致的或持續(xù)的交互)、患者的地理位置、患者對臨床試驗的興趣或其它患者表型信息。例如,當患者登錄患者門戶時,這可以指示患者活著,仍然具有尋求療法的條件,并且對接收關于其它治療或療法選項的信息感興趣。類似地,如果患者正在輸入(或提供者代表他們輸入)新的測試信息或表型信息,則其可以指示患者是否受相關表型影響。此外,患者或其提供者可以輸入健康記錄信息,其可以幫助評估患者是否適合于特定臨床試驗,例如患者已經(jīng)暴露于什么療法方案,患者已經(jīng)被診斷有特定表型持續(xù)了多長時間,以及表型是否被認為成功治療。
在實施例中,將匹配臨床試驗招募標準的一個或多個患者招募到臨床試驗中。在實施例中,基于以下事實,選擇能夠訪問患者的一個或多個位點或獨立組織用于在試驗中激活/招募:他們已經(jīng)看到大量具有期望的試驗特征的患者,包括但不限于期望的基因型特征,其使得它們非常適合于試驗。在一個實施例中,基于患者具有使其不適合于特定臨床試驗的測試信息(包括基因型特征)的事實,排除患者。
促進患者的基因型評估以識別一個或多個試驗的感興趣的患者和/或位點解決了傳統(tǒng)上涉及進行臨床研究的若干問題,并且可以減少與發(fā)現(xiàn)潛在候選患者招募相關聯(lián)的許多費用和風險。獲得關于潛在候選的基因信息可以消除或至少減少研究提供者必須等待個體對關于臨床試驗的廣告或推薦做出響應的情況。此外,傳統(tǒng)上,不能保證響應這樣的廣告或推薦的個人實際上具有要研究的特定變體。另外,在患者的知識庫中搜索如本文所討論的從多個組織編譯的測試信息降低了測試大量人的風險、時間延遲和成本,僅為了發(fā)現(xiàn)具有感興趣的基因組變體的足夠的人尚未被識別。
文獻
為了最大化有用性和相關性,可以在常規(guī)基礎上更新與給定變體相關聯(lián)的引用的文獻,以確保關于變體的最近知識包括在用戶的結(jié)果集中。參考的文獻也可以在收到與某些生物醫(yī)學文獻相關的測試信息時或在預期接收與某些生物醫(yī)學文獻相關的測試信息時由系統(tǒng)根據(jù)請求更新。在實施例中,當用戶從儀表盤200請求文獻時,實時地生成文獻。這種類型的“即時”文獻有助于捕獲盡可能多的相關信息,而不會丟失最新的信息,因為它是未經(jīng)策展或僅部分策展的。在另一實施例中,當包括一個或多個變體的測試信息被上載到系統(tǒng)中時,文獻被實時地更新。圖7是根據(jù)實施例的用于提供文獻的方法700的流程圖。方法700可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法700由計算系統(tǒng)102執(zhí)行。
文獻(諸如文獻500)可以包括經(jīng)策展的和未經(jīng)策展的或部分策展內(nèi)容。部分策展的內(nèi)容可以指經(jīng)歷了一些策展,但尚未完全策展的內(nèi)容。部分策展的內(nèi)容可以被包括在知識庫中,即使它不包括經(jīng)策展的內(nèi)容的細節(jié)水平。在一個非限制性實例中,部分策展的內(nèi)容可以包括已經(jīng)被驗證為涉及特定變體和特定疾病表型的文章。在另一個非限制性實例中,已經(jīng)對部分策展的內(nèi)容進行了分類,以確定該論文是否包括功能性證據(jù)和/或臨床病例證據(jù)。這允許向用戶提供更相關的文章證據(jù),不僅是在生物醫(yī)學文獻中被策展為與在患者的測試信息中觀察到的一個或多個變體有關的文章,而且還有來自知識庫、文獻庫的附加文章或引用,其尚未被策展或者已經(jīng)被部分策展但是預期與基于例如參考內(nèi)的關鍵字的變體相關。
在框702中,接收測試信息。在實施例中,計算系統(tǒng)102接收測試信息??梢詮囊粋€或多個源接收測試信息。例如但不限于,可以從測試對象、實驗室、護理提供者、保險公司等接收測試信息。
在實施例中,經(jīng)由自動管線接收測試信息。自動管線可以包括用于自動接收、排隊或作用于測試信息的過程。例如,可以從基因數(shù)據(jù)庫、出版物數(shù)據(jù)庫、客戶工具或其它源自動獲得測試信息。如本文所討論的,例如,測試信息可以被合并到知識庫中,經(jīng)歷一個或多個分析,包括在文獻中等。
在框704中,從知識庫中選擇一個或多個經(jīng)策展的文章。在實施例中,計算系統(tǒng)102從知識庫中選擇一個或多個經(jīng)策展的文章。一個或多個經(jīng)策展的文章可以與通過測試信息所識別的一個或多個基因組變體相關。例如,可以選擇與BBS1基因相關的經(jīng)策展的文章。在另一個示例中,諸如圖5所示的示例,可以選擇與EGFR外顯子19缺失相關的經(jīng)策展的文章。
在實施例中,根據(jù)本體在知識庫中組織一個或多個經(jīng)策展的文章??梢允褂帽倔w的特征來查詢知識庫,以找到與一個或多個基因組變體相關的一個或多個文章。
在框706中,選擇一個或多個未經(jīng)策展的或部分策展的文章。在實施例中,計算系統(tǒng)102選擇一個或多個未經(jīng)策展的或部分策展的文章??梢灶A期一個或多個未經(jīng)策展的或部分策展的文章與測試信息中所識別的一個或多個基因組變體的解釋相關。
在實施例中,從知識庫中選擇一個或多個未經(jīng)策展的或部分策展的文章包括確定一個或多個未經(jīng)策展的或部分策展的文章指示與一個或多個基因組變體相對應的基因標識符,以及一個或多個基因組變體的蛋白質(zhì)或核酸標識符。例如,可以選擇在BBS1基因中包括提到一個或多個特定變體的未經(jīng)策展的或部分策展的文章,其使得看起來文章涉及該特定DNA或蛋白質(zhì)改變。
在實施例中,選擇一個或多個未經(jīng)策展的或部分策展的文章包括使用自然語言處理確定一個或多個未經(jīng)策展的或部分策展的文章與一個或多個基因組變體相對應。在一個實施例中,利用生物醫(yī)學本體來執(zhí)行自然語言處理。
在框708中,將文獻提供給用戶。在實施例中,計算系統(tǒng)102向用戶提供文獻。文獻可以包括一個或多個經(jīng)策展的文章和一個或多個未經(jīng)策展的文章。以這種方式,“即時”文獻不僅包括已經(jīng)被策展的論文,而且包括最新的有趣信息,其具有在其中建議與感興趣變體的解釋相關的文本。
接收經(jīng)策展的和未經(jīng)策展的或部分策展的內(nèi)容對于解釋特定患者的測試信息可能是非常有用的。雖然由于它已被策展的事實策展內(nèi)容可能被認為是更相關或可靠的,但是在信息變得可用和當該信息被策展時之間存在時間滯后。如果該信息被確定為與測試信息合理相關,則分析人員仍然有興趣接收仍未能夠被策展的最近已發(fā)布的信息。例如,如果昨天一篇關于病人測試的文章才出來,則醫(yī)生和實驗室想知道那篇文章。醫(yī)生和實驗室可能不在乎是否已經(jīng)過了合理的時間來完全地策展該文章;相反,他們希望看到任何潛在相關的、最新的信息,并且確定該信息是否是與該患者的療法相關的信息。
在實施例中,接收來自一個或多個用戶的與在文獻中呈現(xiàn)的文章有關的反饋。因為用戶可能正在閱讀文章并簽署患者測試報告,所以一個或多個用戶可以提供與文章有關的有意義的信息。例如,用戶可以指定文獻中的文章與感興趣變體如何相關。例如,用戶可以拉起文獻并指示論文名義上與特定變體或特定表型相關、論文不滿足質(zhì)量標準、或者論文具有足夠的信息來指示變體是特定表型的病因。用戶可以例如通過選擇包括或排除來自報告的論文或者在變體的自動化評估中將其包括在分析中或排除在分析之外來指示這一點。用戶還可以建議可能與在文獻目錄中不顯示的一個或多個變體相關的附加論文。在一個實施例中,對于所述用戶或?qū)λ鲆粋€或多個變體感興趣的其它用戶,這些文章被優(yōu)先化以用于策展和/或被包括在用于所述一個或多個變體的文獻中。
眾包變體評估
在實施例中,知識庫中的數(shù)據(jù)是靜態(tài)的,因為用戶不能改變或挑戰(zhàn)信息。然而,許多時候,用戶(諸如醫(yī)師或?qū)嶒炇已芯空?處于用于評估知識庫數(shù)據(jù)的良好位置,因為用戶可能在當前感興趣的場境中訪問和分析數(shù)據(jù)。因此,在另一實施例中,可以通過允許用戶主動地或被動地(即,作為其工作流程的自然部分)編輯或注釋數(shù)據(jù)來增強知識庫中的數(shù)據(jù)。這種通過網(wǎng)絡從用戶收集的數(shù)據(jù)在這里被稱為眾包。圖8是根據(jù)實施例的用于眾包變體評估的方法800的流程圖。方法800可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法800由計算系統(tǒng)102執(zhí)行。
在框802中,從用戶接收測試信息。在實施例中,計算系統(tǒng)102接收測試信息。
在框804中,評估在測試信息中所包括的一個或多個基因組變體。在實施例中,計算系統(tǒng)102評估一個或多個基因組變體??梢允褂迷u估方法的任何組合來評估一個或多個基因組變體,例如本文或PCT公開號No.WO2013/070634所討論的,其全部內(nèi)容通過引用合并于此。
在實施例中,評估包括將一個或多個基因組變體分類為臨床意義類別??梢允褂米凅w評分邏輯對一個或多個基因組變體進行分類。臨床意義類別的示例包括但不限于致病性、可能致病性、不確定的意義、可能良性和良性。
在框806中,從用戶接收反饋。在實施例中,計算系統(tǒng)102從用戶接收對評估的反饋。反饋可以作為來自與門戶網(wǎng)頁、本地應用或其它輸入源交互的用戶的輸入來接收??梢砸愿鞣N方式接收反饋。例如,在實施例中,接收反饋包括接收對一個或多個經(jīng)評估的基因組變體的選擇,以及接收一個或多個所選變體的分類。在另一個實施例中,接收反饋包括接收用于評估一個或多個變體的參考的值或相關性的指示。例如,可以以“拇指向下”或“拇指向上”按鈕的形式提供反饋。在另一示例中,反饋可以包括用戶是否從報告包括或排除了參考。在又一個實施例中,接收反饋包括接收未經(jīng)策展的或不完全策展的文章的指示,以及優(yōu)先化未經(jīng)策展的或不完全策展的文章的策展。在進一步的實施例中,接收反饋包括從用戶接收未經(jīng)策展的或不完全策展的文章的策展。在另一實施例中,接收反饋是被動的,例如,一個或多個用戶人工地建議不同于由決策支持系統(tǒng)生成的機器預測分類的一個或多個變體的臨床分類。這可以觸發(fā)與變體或評論相關的證據(jù)的評估和/或策展,并且潛在地調(diào)整機器預測的支持評分邏輯以改進決策支持系統(tǒng)的未來預測能力。策展可以包括變體的表型信息,其中表型信息根據(jù)本體被構(gòu)造。在任何實施例中,反饋可以指示未經(jīng)策展的或不完全策展的文章與評估在測試信息中所包括的一個或多個基因組變體相關。
在實施例中,測試信息包括根據(jù)本體所構(gòu)造的變體的表型信息。
在實施例中,由用戶所提供的反饋用于一個或多個基因組變體的隨后評估。該反饋是由變體解釋領域的技術人員進行的對計算機化系統(tǒng)的訓練,并且可以用于隨時間(例如,如在機器學習中)持續(xù)地改進評估。也就是說,隨著更多的人分數(shù)和評估變體,評估改善,因為訓練使得預測算法和內(nèi)容更強。
在框808中,向一個或多個其它用戶提供反饋。在實施例中,計算系統(tǒng)102向一個或多個其它用戶提供反饋。
使用文獻特征,一個用戶可以看到與一個或多個變體相關的文章,并鉆研它們以獲得更多信息。用戶還可以建議在文獻中包括另一個參考,諸如用于評估變體的用戶最喜歡的參考。當下一個用戶訪問與相同變體相關聯(lián)的文獻時,下一個用戶可以添加關于該參考的信息,并為用戶的報告選擇該參考。這些迭代努力可以提高用戶可用的參考的數(shù)量和質(zhì)量。
在實施例中,向第二用戶提供與一個或多個基因組變體有關的第一用戶的反饋。例如,計算系統(tǒng)102可以從第二用戶接收第二測試信息,其中第二測試信息包括一個或多個基因組變體。當向第二用戶提供第二測試信息的評估時,計算系統(tǒng)102還可以提供來自第一用戶的反饋。
圖9A和圖9B描繪了圖示出由用戶提供錄入到文獻中的反饋的示例屏幕截屏900和950。截屏900包括來自其它實驗室的臨床病例、一般人群中基因變體的稀有性、已知生化影響的參考和所預測的生化影響??梢葬槍σ粋€或多個源顯示一般群體中的變體的稀有性,其可以使用下拉902來選擇。
內(nèi)部實驗室變體分類和注釋數(shù)據(jù)庫可以被集成到由工具使用的私有實例中。然后,一個或多個用戶可以注釋分類或注釋的私有實例。屏幕截屏950包括用于編輯評估(例如,屏幕截屏900中提供的評估)的多個域。在屏幕截屏950中,用戶可以查看或編輯表型、評估、可報告性、筆記和用于評估的先前注釋。可報告性可以指編輯是否是可報告的或不可報告的。
圖9A和圖9B提供示例屏幕截屏900和950,本發(fā)明的實施例支持用于查看或編輯用戶反饋的其它類型或布置屏幕,其中與用戶反饋相關的任何信息可以呈現(xiàn)給患者或其它用戶,包括但不限于本文討論的任何信息。
多變體分類
如上所述,單個變體可以與特定表型相連,使得具有變體的患者可能表達特定表型。但是并不總是那么簡單:許多患者表現(xiàn)出多種基因突變,并且可能需要考慮那些突變(或缺乏)的組合效應,例如,以獲得該患者的健康和/或療法選擇的真實圖像。修改劑變體和基因背景可以顯著影響特定變體與特定患者中給定表型的表現(xiàn)相關的程度,諸如疾病或?qū)λ幬锆煼ǖ姆磻?。圖10是根據(jù)實施例的用于多變體分類的方法1000的流程圖。方法1000可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法1000由計算系統(tǒng)102執(zhí)行。
在框1002中,接收患者的測試信息。在實施例中,計算系統(tǒng)102接收測試信息??梢詮囊粋€或多個源接收測試信息。例如但不限于,可以從測試對象、實驗室、護理提供者、保險公司等接收測試信息。
在框1004中,部分地基于患者中基因組變體與一個或多個其它基因組變體的同現(xiàn)來確定測試信息中所包括的基因組變體的臨床評估或意義類別。在實施例中,計算系統(tǒng)102確定意義類別。可替選地或另外地,可以基于患者中基因組變體與一個或多個其它基因組變體的共現(xiàn)來修改測試信息中所包括的基因組變體的現(xiàn)有意義類別。
在實施例中,確定意義類別使用關于基因組變體和一個或多個其它基因組變體的知識庫中的信息??梢愿鶕?jù)本體來構(gòu)造信息。知識庫可以識別基因組變體和一個或多個其它基因組變體之間的鏈接。在實施例中,這樣的修改劑變體信息從根據(jù)本體構(gòu)造的生物醫(yī)學文獻策展的證據(jù)導出。在實施例中,這樣的修改劑變體信息從能夠使基因型信息和表型信息相關的患者測試信息的數(shù)據(jù)庫導出,以識別非??赡苄薷谋硇偷膰乐匦?或存在/不存在)的變體。例如,討論變體之間的交互的參考可以影響給定變體的臨床評估,并且基于在該患者中觀察到的其它變體或隨時間進入知識庫的新文獻或數(shù)據(jù)庫證據(jù)而經(jīng)受改變。這與使用單獨的變體獨立地而不考慮患者的測試信息中其它修改劑變體存在或不存在的臨床評估在根本上是不同的。
例如,當特定基因組變體單獨出現(xiàn)時可以是相當良性的,但是與其它基因組變體組合時是致病性的??商孢x地,變體可以在一個患者中是致病性的,但在具有減輕第一變體的潛在負面影響的一個或多個其它變體的另一個患者中是良性的。因此,可以將自身識別特定變體的患者測試信息指派給一個意義類別,但是與獨立評估所述變體的情況相比,識別與其它變體組合中的相同變體的患者測試信息可以被指派到不同的意義類別。在實施例中,具有一個或多個已知修改劑變體的第一變體的臨床評估將被指派給不僅基于與所述第一變體相關的證據(jù)的臨床意義類別,而且基于該變體與該患者的測試信息中存在或不存在的修改劑的組合的綜合評價??梢曰谂c從知識庫獲得的多變體關系有關的信息來確定所指派的具體意義類別。
在一個實施例中,可以根據(jù)用于變體評分的美國醫(yī)學基因?qū)W學院的指南評估感興趣的給定的變體。評分指南可以被實現(xiàn)為一系列基于計算機的規(guī)則,其中規(guī)則可以被指派各種權(quán)重或意義水平。然后可以將該基于計算機的評分邏輯擴展為包括用于其它修改劑變體位點的知識庫中的文獻的基于計算機的評估,所述其它修改劑變體位點已知與感興趣的變體交互以修改表型??梢圆樵兘?jīng)策展的文獻的知識庫以確定病例是否已被記錄,其中患者具有感興趣的變體以及在已知或被認為修改由感興趣的變體引起的表型的嚴重性或性質(zhì)的其它位點處的一個或多個序列。
例如,如果可以對CFTR delta-F508突變進行評分以評估患者的囊性纖維化的風險,但是該患者在已經(jīng)記錄在文獻中的基因組中的另一位置處具有序列變體(或缺乏變體)以減輕或消除患有純合的delta-F508突變的患者的囊性纖維化表型,根據(jù)支持修改劑變體的文獻或數(shù)據(jù)庫證據(jù)的質(zhì)量和數(shù)量,規(guī)則將觸發(fā)將delta-F508突變的變體分類從“致病性”改變?yōu)椴惶珖乐氐念悇e。修改劑變體可以在與感興趣的變體相同的基因中,或者它可以在不同的基因中。
在實施例中,可以分析囊性纖維化患者隊列的數(shù)據(jù)庫以評估是否對delta-F508純合的未受影響的個體具有修改劑序列,以及該修改劑是否與具有純合的delta-F508突變的患者中的無疾病狀態(tài)共分離,其通常被評估為致病性。例如“Exome sequencing of extreme phenotypes identify DCTN4as a modifier of chronic Pseudomonas aeruginosa infection in cystic fibrosis,”的論文可以指示這樣的修改劑變體可能存在。本文討論的多變體分類的技術能夠利用來自根據(jù)本體構(gòu)造的生物醫(yī)學文獻的經(jīng)策展的證據(jù),以基于規(guī)則集修改感興趣變體的分類。
在實施例中,可以評估患者的癌癥療法選擇,但是修改劑序列或序列(諸如其變體或缺失)可以修改該患者的經(jīng)評估的療法選擇。例如,晚期黑色素瘤患者可能對BRAF V600E變體測試為陽性,其通常與用vemurafenib療法時更有利的結(jié)果相關聯(lián)。然而,可以通過在BRAF中或已知或被認為在生物醫(yī)學文獻、臨床試驗和/或由一個或多個監(jiān)管機構(gòu)批準的處方信息中改變患者對vemurafenib的反應的其它基因中的一個或多個其它變體(或缺乏變體),來修改評估。修改劑變體在患者測試信息中的存在可以修改變體評估和/或測試結(jié)果,包括但不限于修改測試結(jié)果文獻以包括與感興趣變體和其它序列變體之間的(或缺乏)交互相關的論文,其修改通常由感興趣的變體引起的表型。
在實施例中,確定意義類別使用基于規(guī)則的評估。基于規(guī)則的評估可以處理一個或多個規(guī)則以分類基因組變體。例如,用于評估基因性疾病變體的規(guī)則集可以用于將變體分類為致病性、可能致病性、未知的意義、可能是良性的或良性的。這樣的規(guī)則集可以包括變化權(quán)重的規(guī)則。規(guī)則可以聲明在不受相關表型影響的群體中具有等位基因頻率的感興趣的變體不太可能是該表型的病因。這樣的規(guī)則可能是有利于良性或可能良性分類的有力證據(jù)??商孢x地,規(guī)則集的分類類別可以為醫(yī)生、個人或機構(gòu)定制和自定義感興趣的特定應用。例如,規(guī)則集可用于評估變體在治療特定形式的癌癥中的臨床意義的程度。在一個非限制性示例中,基于癌癥序列的測試解釋應用的分類類別可以包括臨床相關(相同組織)、臨床相關(不同組織)、臨床試驗相關或相關的癌途徑。
在實施例中,用于解釋癌癥變體的規(guī)則可以聲明,如果變體直接參考由適當?shù)墓芾頇C構(gòu)(例如,F(xiàn)DA)批準的用于在感興趣的組織中治療癌癥的藥物的處方信息,則該變體應該被分類為相對于該樣品臨床相關的(相同的組織)。例如,F(xiàn)DA的網(wǎng)站包括基于在EGFR基因中觀察到的突變的藥物的描述。這可能是一個非常強的證據(jù)線。系統(tǒng)評估這些規(guī)則及其證據(jù)強度,并將所計算的分類返回給用戶或?qū)忛喺摺?/p>
例如,由系統(tǒng)基于知識庫中可用的信息計算的分類可以將變體標記為潛在良性或可能良性。這樣的評估基于知識庫中的證據(jù),其示出第一變體與具有減輕通常與第一變體相關聯(lián)的表型的第二變體在相同患者中共存。也就是說,該患者中的另一DNA突變導致該患者可能不患有第一變體的典型疾病或有害作用。盡管第一變體在99%的人中是致病的,但是已知第一變體在基于現(xiàn)有證據(jù)的這樣的多變體患者中不是致病性的。
在實施例中,已知一個或多個其它基因組變體給予對基因組變體的表型效應的附加的敏感性或抗性。例如,知識庫可以具有討論基因變體之間的關系的參考,其證明了對表型效應的附加的敏感性或抗性。這些關系可以作為所構(gòu)造信息(例如根據(jù)本體所構(gòu)造的)被存儲在知識庫中。在實施例中,變體是腫瘤學中的體細胞變體或使患者易患基因失調(diào)的遺傳性變體中的至少一個。
在框1006中,向用戶提供意義類別。在實施例中,計算系統(tǒng)102向用戶提供意義類別。用戶可以同意或不同意所計算的意義類別。在實施例中,如果審閱者不同意所計算的意義類別,則審閱者可以修改它。繼續(xù)上述返回“可能良性”的類別的示例,查看者可以建議另一種分類,諸如“可能致病的”,并且仍然將其包括在他的報告中,但是另外注釋了為什么審閱者同意或不同意分類。
提供測試信息的專家評估
用戶可以使用門戶105來請求專家評估患者的測試信息。圖1100是根據(jù)實施例的用于向用戶提供專家評估的方法1100的流程圖。方法1100可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法1100由計算系統(tǒng)102執(zhí)行。
在框1102中,從用戶接收幫助解釋測試信息的請求。請求可以包括特定患者的測試信息??商孢x地或另外地,請求可以引用已經(jīng)存儲在知識庫中的測試信息。在實施例中,計算系統(tǒng)102接收該請求。
在框1104中,將該請求指派給一個或多個合格的變體評估專家。在實施例中,計算系統(tǒng)102指派請求,該請求可以由專家通過網(wǎng)絡106訪問。合格的變體評估專家可以是已經(jīng)在準備、執(zhí)行或查看變體評估中獲得特定專門知識的個體??梢酝ㄟ^認證主體或通過滿足一組標準來認證專家。本領域技術人員將認識到,待滿足的標準集可以取決于例如變體或正在被評估的變體和/或取決于影響患者的表型而改變。計算系統(tǒng)102可以在已經(jīng)將評估指派給專家時通知專家。
在框1106中,從一個或多個合格的變體評估專家接收完成的評估報告。在實施例中,計算系統(tǒng)102通過網(wǎng)絡106從專家接收評估報告。評估報告可以包括測試信息中所包括的一個或多個基因組變體的一個或多個臨床意義評估。專家可能已準備了報告的全部或部分內(nèi)容。
在框1108中,將評估報告返回給請求用戶。
在實施例中,如上所述,可以由組織招募和認證專家。該組織可以建立專家網(wǎng)絡,并收取查找者費用,用于將用戶與適當?shù)恼J證專家鏈接,以幫助他們進行所需的解釋。例如,用戶可以經(jīng)由門戶105將測試信息加載到系統(tǒng)中,并且用戶可以例如經(jīng)由提示請求解釋測試信息的專家?guī)椭?。然后可以將測試指派給一個或多個合格的專家進行評估。在實施例中,專家自己進行分析。在另一實施例中,專家通過在系統(tǒng)的場境中共享測試信息和/或與用戶通信來與用戶并行進行分析。然后,專家可以向用戶提供報告,包括由專家評估的測試信息中所包括的變體的評估。
將基因型與表型相關
隨著向知識庫提供更多的信息,可以確定數(shù)據(jù)中的大規(guī)模模式,將特定的基因簽名鏈接到表型。圖12是根據(jù)示例實施例的用于將基因型與表型相關聯(lián)的方法1200的流程圖。方法1200可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法1200由計算系統(tǒng)102執(zhí)行。
基因型或表型相關性可以包括將基因改變鏈接到表型。例如,這包括確定突變與特定疾病相關聯(lián)或與對特定藥物療法的良好響應相關聯(lián)??梢噪S時間和從多個組織收集測試信息用于分析。
在框1202中,接收包括患者樣本的基因信息和表型信息的測試信息。在實施例中,計算系統(tǒng)102通過網(wǎng)絡106從多個客戶端104接收測試信息??梢愿鶕?jù)本體來構(gòu)造表型信息,使得可以進行在非構(gòu)造知識收集中非常困難的互相關?;颊邩颖局械拿總€患者可能需要已經(jīng)提供在這種類型的分析中使用他們的測試信息的同意?;颊咄庖部梢园ㄔ谒邮盏臏y試信息中。
在方框1204中,建立基因或變體水平的基因改變和樣品中的表型之間的相關性。在實施例中,計算系統(tǒng)102通過識別測試數(shù)據(jù)中的模式來建立路徑、基因或變體水平基因改變之間的相關性。
在框1206中,基于統(tǒng)計學顯著的相關性構(gòu)建生物標記分類器。在實施例中,計算系統(tǒng)102構(gòu)建生物標記分類器。在實施例中,一個或多個用戶監(jiān)督并通知生物標記分類器的構(gòu)造。生物標記分類器可以被配置為將群體分層成多個子群體。例如,生物標記分類器可應用于每個患者的測試信息以確定患者所屬的子群體??梢允褂靡粋€或多個以下技術來創(chuàng)建生物標記分類器。生物標記分類器可以使用統(tǒng)計方法(諸如序列核心關聯(lián)測試(SKAT))開發(fā)。可替選地或另外地,可以使用諸如k-均值或分層聚類的聚類方法來創(chuàng)建生物標記分類器。這些技術可以在變體、基因和/或路徑水平處應用以識別基因改變和所觀察到的表型之間的統(tǒng)計學顯著的關聯(lián)。這些技術可用于跨多個數(shù)據(jù)集和群體從多個用戶獲取表型和基因型信息。對于具有適當同意的樣品,系統(tǒng)可以識別跨由多個用戶執(zhí)行的多個研究中進行的元數(shù)據(jù)分析中具有統(tǒng)計學意義的基因型與表型關聯(lián)。
在實施例中,子群體包括在治療性療法后對罕見不良事件更敏感的子群體和在治療性療法后對罕見不良事件不太敏感的子群體。在另一個實施例中,子群體包括可能是對治療的反應者的子群體和不太可能是對治療的反應者的子群體。在另一個實施例中,子群體包括更可能受疾病影響的個體的子群體和不太可能受疾病影響的個體子群體。在另一個實施例中,子群體是種族族群。本領域技術人員將認識到,群體可以分成與上述那些群體不同的附加群體或其它群體。
在實施例中,向用戶提供具有分類結(jié)果的報告。報告還可以包括所使用的生物標記分類器、分類器的置信水平等。
圖13描繪了包括用戶的分類的示例報告1300。報告1300包括與所執(zhí)行的測試、高級解釋、可報告變體以及與可報告變體相關聯(lián)的療法有關的信息。盡管圖13提供示例報告1300,本發(fā)明的實施例支持報告的其它類型或布置,其中與用戶分類相關的任何信息可以被呈現(xiàn)給患者或其它用戶,包括但不限于本文討論的任何信息。
種族匹配控制
許多臨床試驗或研究參與者的多樣性低于一般群體。另外,基因組變體可以通常在來自第一種族背景的個體中觀察到,而不在來自第二種族背景的個體中觀察到。因此,如果用戶真正希望知道變體是否是給定患者中給定表型的病因(與良性多態(tài)性相反),則該用戶必須針對不受感興趣表型影響的多種個體評價變體,包括大量的個體,其理想地具有與患者相同的種族背景。這允許用戶相對確信在患有罕見疾病的患者中所觀察到的稀有變體實際上在該患者的種族人群中罕見(相對于在一般人群中罕見,而在患者的種族人群中相對常見)。圖14是根據(jù)示例實施例的用于評估等位基因頻率的方法1400的流程圖。方法1400可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法1400由計算系統(tǒng)102執(zhí)行。
在框1402中,接收測試信息和測試信息中的一個或多個變體的意義分類??梢詮囊粋€或多個源(例如測試對象、實驗室、護理提供者、保險公司等)接收測試信息和意義分類。
在框1404中,評估等位基因頻率數(shù)據(jù)庫中的一個或多個變體的等位基因頻率。在實施例中,等位基因頻率數(shù)據(jù)庫位于儲存器110中。
在實施例中,等位基因數(shù)據(jù)庫具有至少最小數(shù)目的數(shù)據(jù)點。例如,可能需要數(shù)據(jù)庫包括從至少10000個個體所導出的序列信息,包括來自至少10個不同群體的至少500個個體。
在實施例中,等位基因頻率數(shù)據(jù)庫包括多個子群體的一個或多個變體的頻率。子群體可以包括,例如但不限于以下種族族群:高加索人、西班牙裔、印第安人、菲律賓人、波多黎各人、非洲人、太平洋島民、美洲土著人、土耳其人、海灣\中東人、帕西人、中國人、馬來西亞人、德系猶太人、新西蘭人、韓國人、日本人或澳大利亞土著人。
在框1406中,向用戶提供等位基因頻率。在實施例中,計算系統(tǒng)102向用戶提供等位基因頻率。
在實施例中,從基于等位基因頻率的規(guī)范中修改一個或多個變體的意義分類。分類可以被修改為更嚴重或更不嚴重。可以將所評估的變體的頻率與群體中的一般頻率進行比較。可以向用戶提供當前測試信息和真實頻率數(shù)據(jù)庫的真實頻率。將測試結(jié)果置于種族場境中導致歸因于基因組變體的表型的病因校正。例如,對于在未患病群體中以太高而不能合理地解釋患者的表型的等位基因頻率存在的變體,變體的分類可以從更嚴重的分類修改為良性。
例如,考慮特定的BBS1變體,其是導致Bardet-Biedl綜合征(BBS)的變體。BBS1是當突變時可引起稱為Bardet-Biedl綜合征的疾病的基因?;陬l率,這種變體發(fā)生在0.2%的個體中,并且該疾病的流行率為約70000之一。從這個信息,最多的人預計要在一般人群中看到的這個變體在0.3%。這與0.2%的變體的觀察一致。但是如果數(shù)據(jù)庫不包括來自特定族群的統(tǒng)計學意義信息,那么將不清楚該變體是否在該種族族群中與一般群體具有相同的發(fā)生水平,或者該種族族群是否存在一些基因上特別的。例如,考慮系統(tǒng)在波多黎各人群中返回20%的變體觀察的情況,其中一般人群的最大值預期為0.3%。它提出了以下問題,即變體在波多黎各人中是否更普遍,或者在數(shù)據(jù)庫中是否沒有足夠的波多黎各人進行統(tǒng)計學上的重要分析。使用對來自多個種族族群的數(shù)據(jù)點具有特定要求的等位基因頻率數(shù)據(jù)庫,包括但不限于表示臨床評估治療這些問題的患者的種族族群的大量的有序個體。
對變體評分
基于序列的測試可能在單個患者中生成數(shù)百萬個觀察到的變體。確定哪些變體在患者的評估或療法中最可能相關或重要的可能是復雜的??梢詫ψ凅w評估進行評分以向用戶提供反映與感興趣的特定變體相關的信息的深度的置信度。圖15是根據(jù)實施例的用于對變體打分的方法1500的流程圖。方法1500可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法1500由計算系統(tǒng)102執(zhí)行。
在框1502中,接收患者的測試信息。在實施例中,計算系統(tǒng)102從一個或多個源接收測試信息。例如,可以從例如但不限于測試對象、實驗室、護理提供者、保險公司等接收測試信息。
在框1504中,基于加權(quán)輸入來生成測試信息中的一個或多個變體的置信度分數(shù)。在實施例中,計算系統(tǒng)102生成置信分數(shù)。加權(quán)的輸入可以包括例如但不限于以下的任何組合:包括種族匹配個體的不受患者疾病表型影響的個體群體中的一個或多個變體的頻率、一個或多個變體與知識庫中的表型的關聯(lián)、一個或多個變體的位點處的測序覆蓋以及變體調(diào)用軟件報告的一個或多個變體的調(diào)用置信度。給予每個輸入的權(quán)重可以使用預定值、基于輸入的強度所調(diào)整的值或其任何組合來設置。例如,如果頻率與疾病相關的高置信度值相關聯(lián),則不受患者疾病表型影響的個體群體中的一個或多個變體的頻率(包括種族匹配的個體)可以是決定性的。如上所述,如果變體非常常見,特別是在患者的種族子群體中,則該變體是所述患者中罕見疾病的病因的可能性低。
知識庫中一個或多個變體與表型的關聯(lián)可以包括知識庫中文獻中變體與表型相關的頻率的度量。一個或多個變體的位點處的測序覆蓋可以指變體已經(jīng)被取樣多少次的測量,其中變體僅是基因組中其它核苷酸的一部分。例如,在1X覆蓋中,僅存在該變體存在的一個數(shù)據(jù)點,這可以指示極差的質(zhì)量。另一方面,隨著覆蓋增加(例如,100X覆蓋、1000X覆蓋或3000X覆蓋),可以越來越多地依賴結(jié)果。
在實施例中,可以通過對齊和/或變體調(diào)用軟件報告一個或多個變體的調(diào)用置信度,其通常生成由軟件執(zhí)行的分析的可信賴性的質(zhì)量分數(shù)。例如,對齊和變體調(diào)用軟件可以是CLC Bio Genomics Workbench。作為另一個實例,對齊和變體調(diào)用軟件可以是BWA/GATK(Burrows-Wheeler Aligner/Genome Analysis Toolkit)。
在實施例中,可以根據(jù)決策樹對輸入進行加權(quán)。在一些情況下,決策樹可以防止輸入對置信分數(shù)做出貢獻。
提供變體分類警報
當與特定基因組變體有關的信息在知識庫中被添加、更新或改變時,例如關于臨床評估意義類別、臨床試驗信息、療法信息和/或文獻,用戶可能希望接收警報。圖16是根據(jù)實施例的用于提供變體分類警報的方法1600的流程圖。方法1600可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法1600由計算系統(tǒng)102執(zhí)行。
在框1602中,接收包括一個或多個基因組變體的測試信息。在實施例中,計算系統(tǒng)102從一個或多個源接收測試信息。例如,可以從例如但不限于測試對象、實驗室、護理提供者、保險公司等接收測試信息。
在框1604中,從用戶接收對警報報告的請求。警報報告可以識別用戶感興趣的特定基因組變體。對于警報報告的請求可以由計算系統(tǒng)102連同來自相同或不同用戶的其它警報報告請求一起存儲。
在框1606中,響應于檢測知識庫中的改變而生成警報報告,所述改變與一個或多個基因組變體相對應。在實施例中,計算系統(tǒng)102監(jiān)視儲存器110的知識庫中的信息,并且當檢測到添加、改變或更新事件時生成警報報告。
在實施例中,可以以任何間隔生成報告。例如,可以以至少每兩年一次的頻率或以每天一次的頻率或以每周一次的頻率或以每月一次的頻率或以每年一次的頻率生成警報報告。在實施例中,當與一個或多個感興趣變體相關的知識發(fā)生顯著改變時,可以生成報告。在實施例中,可以基于與用戶的測試信息中所包括的表型相關聯(lián)的變體來推斷用戶感興趣的變體。
在實施例中,警報報告總結(jié)了對一個或多個變體的分類的改變,因為先前的變體分類作為臨床報告的一部分被生成或以其它方式提供給第三方。
在實施例中,例如通過計算系統(tǒng)102將警報報告提供給用戶。提供警報報告可以指促進向用戶遞送警報報告的任何動作。例如,提供警報報告可以通過通知用戶已經(jīng)生成警報報告,向用戶電子地發(fā)送警報報告,在計算系統(tǒng)102處向用戶提供警報報告,提醒用戶訪問患者門戶或其任何組合來執(zhí)行。
圖17描繪了示例警報報告1700。警報報告1700包括變體標識符、變體的先前分類、變體的新的或經(jīng)更新的分類、經(jīng)更新的日期以及導致分類改變的證據(jù)的摘要。盡管圖17提供了示例警報報告1700,但是本發(fā)明的實施例支持警報報告的其它類型或布置,其中與變體改變相關的任何信息可以被呈現(xiàn)給患者或其它用戶,包括但不限于所討論的任何信息。
患者門戶
大部分之前的討論涉及其中用戶是醫(yī)生、研究者、實驗室技術人員、制藥公司等的示例。然而,患者本身可能對訪問存儲在知識庫中的信息感興趣。圖18是根據(jù)實施例的用于提供患者門戶的方法1800的流程圖。方法1800可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法1800由計算系統(tǒng)102執(zhí)行。
在框1802中,例如由計算系統(tǒng)102接收患者的測試信息。測試信息可以被存儲在知識庫中。測試信息可以從任何源所接收,例如患者或授權(quán)的提供商。
在框1804中,向用戶提供通過門戶對測試信息的訪問。在實施例中,計算系統(tǒng)102通知患者或授權(quán)的提供者已經(jīng)準予對測試信息的訪問。在實施例中,用戶可以是訪問門戶的任何一個,諸如患者、提供者、患者的家庭成員、朋友、代理或代表、醫(yī)生、保險公司或其任何組合。
在框1806中,通過門戶從用戶接收同意以使用測試信息。同意可以是使用測試信息用于分析、疾病研究、臨床試驗匹配、治療性研究、治療性開發(fā)、療效研究、公開發(fā)布、向請求方發(fā)布或任何目的中的至少一個。在實施例中,計算系統(tǒng)102從用戶接收同意。
在實施例中,在被提供對門戶的訪問之前,用戶被認證。認證可以包括例如登錄到系統(tǒng)中。
在實施例中,與用戶相關聯(lián)的測試信息包括基因信息、在生成測試信息之后變得可用的支持注釋等等。該信息可以在其在門戶上可用時被提供給用戶。例如,該實施例可以被提供作為門戶上的警報報告。
可以基于滿足條件來提供對門戶的訪問。在一個實施例中,通過支付訂閱費來管理對門戶的訪問。在另一個實施例中,對門戶的訪問基于對于與用戶相關聯(lián)的測試信息的使用條款的同意。在另一個實施例中,對門戶的訪問基于同意基于測試信息接收目標廣告或提議。在另一個實施例中,對門戶的訪問基于同意釋放基于患者的測試信息所計算的匿名概要統(tǒng)計量,諸如一般群體和/或特定種族子群體內(nèi)的等位基因頻率信息。
用戶與門戶的交互可以用于確定關于用戶的信息。在實施例中,監(jiān)視用戶對門戶的訪問??梢曰诒O(jiān)視訪問來確定用戶將有資格在臨床試驗中被招募。例如,用戶對門戶的訪問可以指示關于例如但不限于用戶的健康狀態(tài)、用戶的位置、用戶的可用性以及用戶對這種信息的興趣的某些事情。這種類型的狀態(tài)信息可能不是從門戶以外的源容易地獲得的,并且除了其它因素之外,可以是用于在臨床試驗中被招募的資格。用戶還可以將療法歷史和基因型信息上載到門戶中,其可以用于將用戶與可能有益于用戶的臨床試驗匹配。
圖19描繪了示例患者門戶1900。在實施例中,患者門戶1900由計算系統(tǒng)102提供?;颊唛T戶1900顯示與患者相關的測試信息。例如,患者門戶1900示出患者是否具有FDA批準的靶向治療的相關EGFR突變?;颊唛T戶1900還顯示幾種藥物治療,包括療法、療法成功的表征和與療法相關聯(lián)的指示。患者門戶1900還顯示與基因組變體相關聯(lián)的臨床試驗。
雖然圖19提供了患者門戶1900的示例,但是本發(fā)明的實施例支持患者門戶的其它類型或布置,其中與患者相關的任何信息可以被呈現(xiàn)給患者或其它用戶,包括但不限于所討論的任何信息。
變體分類規(guī)則改進
圖20是根據(jù)示例實施例的用于改進變體分類規(guī)則的方法2000的流程圖。方法2000可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法2000由計算系統(tǒng)102執(zhí)行。
在框2002中,接收患者的測試信息。在實施例中,計算系統(tǒng)102接收患者的測試信息??梢詮囊粋€或多個源接收測試信息。例如,可以從例如但不限于測試對象、實驗室、護理提供者、保險公司等接收測試信息。
在框2004中,接收對測試信息的一個或多個變體的多個專家變體評估??梢詮囊粋€或多個源接收專家變體評估,所述源包括例如但不限于實驗室、護理提供者、保險公司、研究機構(gòu)等。專家變體評估可以使用任何評分邏輯來評估變體,例如用于變體評估的美國醫(yī)學基因?qū)W學院(ACMG)規(guī)則、本文討論的任何評分邏輯、任何其它評分邏輯或其任何組合。在實施例中,專家變體評估是變體的人工評估。
在框2006中,接收用于變體評估的評分邏輯的選擇。用于變體評估的評分邏輯可以是任何類型的評分邏輯,例如變體評估的ACMG規(guī)則、本文討論的任何評分邏輯、任何其它評分邏輯或其任何組合。在實施例中,事先選擇評分邏輯。在實施例中,基于特定測試提供來選擇評分邏輯。
在框2008中,根據(jù)評分邏輯將多個專家變體評估與一個或多個變體的評分進行比較。
在框2010中,將比較的結(jié)果提供給用戶。比較的結(jié)果可以包括多個專家變體評估與根據(jù)評分邏輯的評分之間的相關程度。這種相關程度可以證明評分邏輯與專家評估的相似或不相似。該結(jié)果還可以用于反饋回路中,以使用例如標準機器學習過程來改進計算系統(tǒng)102的評分邏輯。
將等位基因計數(shù)或頻率入池
隨著變體分析技術變得更加復雜,它們越來越依賴于更大數(shù)目和更多樣化的變體樣品數(shù)據(jù)集,以弄清變體和表型之間的有意義的關系。然而,變體數(shù)據(jù)的傳統(tǒng)源受到樣本集太小、種族偏見或兩者的困擾。例如,Exome Variant Server(EVS)項目和1,000Genomes項目等項目目前的基因組信息編號為數(shù)千,但不超過10000。數(shù)據(jù)集在種族上偏向白種人,其中族裔子群體(例如波多黎各)的數(shù)據(jù)集太小,無法識別這些子群體中的常見多態(tài)性。更大和更多樣的等位基因統(tǒng)計量數(shù)據(jù)庫,例如已入池的頻率和觀察計數(shù),使得更容易區(qū)分潛在的罕見疾病引起的變體與良性變體。因此,這樣的數(shù)據(jù)庫可以有益于基于序列的測試的臨床解釋,以及具有例如識別新的致病的變體和用于診斷和患者分層的基因生物標記的目標的翻譯研究。傳統(tǒng)數(shù)據(jù)庫的問題部分是由于共享人類基因信息的限制和不愿意引起的。由于公共變體數(shù)據(jù)的傳統(tǒng)源的限制,導致使用該數(shù)據(jù)的任何分析具有在作為在公共序列數(shù)據(jù)庫中代表性不足的種族群體的一部分的患者中的錯誤解釋變體的高風險。
本文所述的技術通過組合來自更寬范圍的同意樣品的等位基因統(tǒng)計量來克服這些缺陷,以提供增強的等位基因計數(shù)或頻率覆蓋。在變體分析工作流程期間收集數(shù)據(jù)使得研究人員和臨床實驗室更方便地以有用的方式共享信息,因此更大量的樣品成為用于解釋基因型的內(nèi)容本身。此外,通過提供用于用戶共享匿名、已入池的等位基因統(tǒng)計量(諸如計數(shù)或頻率)而不是更完整的基因組信息的機制,實施例可以使用戶更舒適地共享基因組信息。用戶通常不太舒服地共享完整的基因組信息和更舒適地共享已入池的和匿名的基因組信息。實施例還向用戶提供共享基因組信息的激勵,其被設計為克服囤積數(shù)據(jù)而不回饋社區(qū)的傾向。例如,如果該用戶還同意“貢獻”并允許其自己的基因組數(shù)據(jù)集對池做出貢獻,則系統(tǒng)可以僅許可用已入池的等位基因統(tǒng)計量來注釋給定用戶的基因組數(shù)據(jù)集,由此增強該用戶以及其數(shù)據(jù)集“選擇加入”或同意參與社區(qū)的所有其它用戶的發(fā)現(xiàn)能力。利用來自用戶社區(qū)的數(shù)據(jù)集的組合提供關于變體分布(諸如等位基因計數(shù)或頻率)的更完整和代表性的信息。這使得能夠增強分析基因信息的能力,諸如更有效的基于臨床序列的測試解釋和更快、更準確地識別致病變體。此外,使得能夠以已入池的水平共享減輕了基于個體患者對池的貢獻將個人識別個體患者的風險。因為這種共享水平風險較低,用戶更舒適,更有可能共享他們的基因信息。在一個實施例中,已入池的變體統(tǒng)計量被分成子池,例如以樣品表型或種族/祖先為依據(jù)。在該實施例中,分析對波多黎各人血統(tǒng)的患者的基于序列的測試的用戶可以被提供有等位基因統(tǒng)計量,其示出雖然感興趣的特定變體在全球人群中是極其罕見的,但事實上在波多黎各人口中非常常見,因此不太可能在這個病人中致病。
如本文所使用的,術語“匿名的”是指由于其性質(zhì)而不是個人可識別的并且因此是匿名的信息。本領域普通技術人員將認識到,來自沒有個人可識別信息的多個個體的等位基因統(tǒng)計量的池是匿名或本質(zhì)上匿名的,并且盡管可以采取附加步驟來確保個人隱私,從個體池中計算等位基因統(tǒng)計量的行為本身能夠產(chǎn)生匿名的等位基因統(tǒng)計量。
圖21是根據(jù)示例實施例的用于構(gòu)建等位基因計數(shù)的社區(qū)數(shù)據(jù)庫的方法2100的流程圖。方法2100可以由包括硬件(例如,電路、專用邏輯、可編程邏輯、微代碼等)、軟件(例如,在處理設備上運行的指令)或其組合的處理邏輯執(zhí)行。在實施例中,方法2100由計算系統(tǒng)102執(zhí)行。
在框2102處,接收從不同用戶所生成的樣本所導出的人類變體數(shù)據(jù)集。在實施例中,計算系統(tǒng)102從多個用戶接收人類變體數(shù)據(jù)集。樣品可以從相對大量(諸如10000或更多)的生物樣品導出。此外,樣本可以來自多種(諸如10個或更多)不同的用戶。大量的樣品和多種源導致上述許多益處。不同的用戶可以包括已經(jīng)從參與者接受同意以從其共享其變體分析或已入池的統(tǒng)計量的實驗室或項目。
在實施例中,在變體數(shù)據(jù)集的解釋工作流期間收集和同意變體數(shù)據(jù)集。例如,當實驗室對樣品執(zhí)行測試時,實驗室可以在過程期間將結(jié)果傳送到計算系統(tǒng)102,在該計算系統(tǒng)102處,可以使用工具來收集、處理或解釋結(jié)果。在另一個實施例中,可以從用戶前端接收同意,或者當他們最感興趣時在查看分析時查看已入池的等位基因統(tǒng)計量。
將數(shù)據(jù)提供給池的用戶已經(jīng)同意,主動地或被動地與其它用戶共享已入池的等位基因計數(shù)信息。主動同意可以包括例如用戶通過呈現(xiàn)在界面上的對話框的明確同意,接受包括同意的許可協(xié)議等。被動同意可以包括例如使用工具或工作流,特別是當用戶知道該工具的使用將被視為同意與其它用戶共享已入池的等位基因計數(shù)信息。此外,可以在變體分析工作流程中的一個或多個階段處獲取同意。例如,在新用戶注冊使用在線工具時,可以向新用戶呈現(xiàn)同意的選項,在當現(xiàn)有用戶登錄在線工具時可以向現(xiàn)有用戶呈現(xiàn)同意的選項作為使用或比較已入池的等位基因數(shù)據(jù)的條件或其任何組合。
可以向用戶提供一個或多個激勵,用于同意或提供他們的信息用于在已入池的數(shù)據(jù)中共享。例如,如上所述,同意可以用作使用或比較已入池的數(shù)據(jù)的條件。另一個激勵可以是訪問一個或多個池的計數(shù)或頻率。另一個激勵可以是訪問社區(qū)已入池的等位基因頻率或計數(shù)以用于解釋變體數(shù)據(jù)??梢韵蛴脩羰谟鑼Τ匦畔⒌母笤L問,以返回用于提交更高質(zhì)量或數(shù)量的樣本。這些非限制性示例激勵是為了說明的目的而呈現(xiàn)的,但是應當理解,可以使用任何其它類型的激勵。
在實施例中,所接收的人類變體數(shù)據(jù)集被存儲在根據(jù)諸如上面描述的本體而構(gòu)造的患者測試信息的知識庫中。
在框2104處,確定其中樣品或變體中的一個或多個對等位基因庫做出貢獻。在實施例中,計算系統(tǒng)102通過搜索知識庫來確定一個或多個樣本對等位基因池做出貢獻??梢曰谂c給定樣品相對應的患者信息是否滿足特定池的一個或多個要求或包括標準來做出確定。可以例如基于種族、表型等來定義池。如果樣品的患者信息被確定為滿足池要求或包括標準,則可以將樣品添加到等位基因池。
一個或多個樣品或變體或用戶數(shù)據(jù)集也可以被確定為不對等位基因池做出貢獻,并且因此可以基于排除標準從池中排除。樣品的排除或包括標準可以包括例如樣品的基因組覆蓋的寬度、樣品的覆蓋深度、樣品的質(zhì)量、發(fā)現(xiàn)樣品的序列的質(zhì)量、變體調(diào)用質(zhì)量、與樣品相關聯(lián)的表型、樣品冗余、變體計數(shù)、用于數(shù)據(jù)源的信任度量、社區(qū)反饋、包括良好建立的致病的變體、人工或自動QC或其任何組合?;谧凅w調(diào)用質(zhì)量、讀取深度或與常見技術錯誤或失敗模式、人工或自動QC或其任何組合的已知關聯(lián),可以排除或包括樣品數(shù)據(jù)集中的變體。當使用從多個源收集的數(shù)據(jù)時,這種質(zhì)量控制是有益的,因為它有助于防止重復樣品被多次計數(shù),排除不正確稱呼的變體,并且防止社區(qū)依賴于質(zhì)量不足的樣品。用于包括和/或排除的標準可以用于定義池,并且可以隨時間調(diào)整標準以修改池。
在實施例中,可以注釋一個或多個樣品的種族或疾病狀態(tài)??梢酝ㄟ^使用主成分分析(PCA)、用戶提供的注釋、基于生物標記的分析或其任何組合中的至少一個來注釋樣品。例如,用戶可以提供樣本的種族的注釋,并且PCA可以用于驗證注釋,反之亦然。在實施例中,樣品的可能種族可以用作建立用于特定種族子群體的等位基因頻率數(shù)據(jù)庫的包括標準。在另一個實施例中,樣品的注釋或推斷的疾病狀態(tài)可用于建立等位基因頻率數(shù)據(jù)庫,其具有不受基因疾病或其它感興趣的表型影響的樣品。這些特征可以組合以使得能夠構(gòu)建社區(qū)等位基因頻率數(shù)據(jù)庫,其特別適合于過濾出在特定種族背景的患者中不太可能是罕見基因疾病的病因的常見變體,因為這些變體通常在與感興趣的患者相同種族人群的健康成員中被觀察到。在實施例中,基于來自已入池的、匿名的等位基因統(tǒng)計量知識庫(諸如頻率、所估算的頻率或計數(shù))的此證據(jù),可以在感興趣的患者中將這些變體分類為“良性”或“可能良性”。
在框2106處,計算等位基因統(tǒng)計量,例如在池內(nèi)已經(jīng)觀察到給定變體的次數(shù)。在實施例中,計算系統(tǒng)102計算在池內(nèi)觀察到給定變體的次數(shù)??梢酝ㄟ^一個或多個樣品的種族或表型、上述討論的包括或排除標準或其任何組合中的至少一個來定義庫。此外,可以基于在池中已經(jīng)觀察到變體的次數(shù)生成等位基因頻率。等位基因頻率可以是給定變體的觀察到的發(fā)生率的數(shù)目與據(jù)信具有測量給定變體的潛力的池中樣品的總數(shù)的比率。可以基于變體覆蓋來估算該比率中的樣本的總數(shù)。例如,估算可以包括通過檢測通常發(fā)生在樣品中的區(qū)域中的其它變體來確定是否對感興趣的基因組的該部分的測序信息進行取樣。在框2106中還可以計算其它等位基因統(tǒng)計量。
得到的等位基因統(tǒng)計量可以以一個或多個方式使用。統(tǒng)計量可以提供給貢獻樣本的用戶。統(tǒng)計量可以在變體過濾中使用或者通過變體分類邏輯(諸如本文討論的那些)使用??梢越?jīng)由基于網(wǎng)絡的資源(諸如本文所描述的工具)向用戶提供對統(tǒng)計信息的訪問。
一些個人可能不同意將他們的信息或他們的信息的至少一部分添加到池中。然而,部分數(shù)據(jù)可能降低池的完整性,因為不能調(diào)查與關于用戶的其它信息的相關性。在實施例中,可能需要用戶提供與一個或多個變體相關的個人的整個數(shù)據(jù)集,或根本不提交數(shù)據(jù)集。也就是說,在這樣的實施例中,不允許提交部分數(shù)據(jù)集。這允許用戶保持某些個人或其信息被提供給池,同時保持對池有貢獻的數(shù)據(jù)集的完整性。
計算系統(tǒng)示例
可以例如使用一個或多個計算機系統(tǒng)(諸如圖22所示的計算機系統(tǒng)2200)來實現(xiàn)各種實施例。計算機系統(tǒng)2200可以是能夠執(zhí)行本文所描述的功能的任何計算機。
計算機系統(tǒng)2200包括一個或多個處理器(也稱為中央處理單元或CPU),諸如處理器2204。處理器2204被連接到通信基礎設施或總線2206。
一個或多個處理器2204可以各自是圖形處理單元(GPU)。在實施例中,GPU是處理器,其是被設計為處理數(shù)學密集型應用的專用電子電路。GPU可具有對大數(shù)據(jù)塊的并行處理有效的并行結(jié)構(gòu),諸如計算機圖形應用、圖像、視頻等常見的數(shù)學密集數(shù)據(jù)。
計算機系統(tǒng)2200還包括通過用戶輸入/輸出接口2202與通信基礎設施2206通信的用戶輸入/輸出設備2203,諸如監(jiān)視器、鍵盤、指針設備等。
計算機系統(tǒng)2200還包括主存儲或主存儲器2208,諸如隨機存取存儲器(RAM)。主存儲器2208可以包括一個或多個級別的高速緩存。主存儲器2208中存儲有控制邏輯(即,計算機軟件)和/或數(shù)據(jù)。
計算機系統(tǒng)2200還可以包括一個或多個輔助存儲設備或存儲器2210。輔助存儲器2210可以包括例如硬盤驅(qū)動器2212和/或可移動存儲設備或驅(qū)動器2214。可移動存儲驅(qū)動器2214可以是軟盤驅(qū)動器、磁帶驅(qū)動器、光盤驅(qū)動器、光學存儲設備、磁帶備份設備和/或任何其它存儲設備/驅(qū)動器。
可移動存儲驅(qū)動器2214可以與可移除存儲單元2218交互。可移除存儲單元2218包括在其上存儲有計算機軟件(控制邏輯)和/或數(shù)據(jù)的計算機可用或可讀存儲設備??梢瞥鎯卧?218可以是軟盤、磁帶、光盤、DVD、光存儲盤和/或任何其它計算機數(shù)據(jù)存儲設備??梢苿哟鎯︱?qū)動器2214以公知的方式從可移除存儲單元2218讀取和/或?qū)懭肟梢瞥鎯卧?218。
根據(jù)示例性實施例,輔助存儲器2210可以包括用于允許計算機程序和/或其它指令和/或數(shù)據(jù)被計算機系統(tǒng)2200訪問的其它裝置、工具或其它方法。這樣的裝置、工具或其它方法可以包括例如可移除存儲單元2222和接口2220??梢瞥鎯卧?222和接口2220的示例可以包括程序盒和盒接口(諸如在視頻游戲設備中找到的)、可移動存儲器芯片(諸如EPROM或PROM)和相關聯(lián)的插座、存儲棒和USB端口、存儲卡和相關聯(lián)的存儲卡插槽和/或任何其它可移除存儲單元和相關聯(lián)的接口。
計算機系統(tǒng)2200可以進一步包括通信或網(wǎng)絡接口2224。通信接口2224使計算機系統(tǒng)2200能夠與遠程設備、遠程網(wǎng)絡、遠程實體等的任何組合(單獨地和共同地由附圖標記2228引用)通信并交互。例如,通信接口2224可以允許計算機系統(tǒng)2200通過通信路徑2226與遠程設備2228通信,通信路徑2226可以是有線和/或無線的,并且可以包括LAN、WAN、互聯(lián)網(wǎng)等的任何組合。控制邏輯和/或數(shù)據(jù)可以經(jīng)由通信路徑2226被傳送到計算機系統(tǒng)2200和從計算機系統(tǒng)2200傳送。
在實施例中,包括在其上存儲有控制邏輯(軟件)的有形計算機可用或可讀介質(zhì)的有形裝置或制品在本文中也被稱為計算機程序產(chǎn)品或程序存儲設備。這包括但不限于計算機系統(tǒng)2200、主存儲器2208、輔助存儲器2210以及可移除存儲單元2218和2222以及實現(xiàn)前述的任何組合的有形產(chǎn)品。這樣的控制邏輯當由一個或多個數(shù)據(jù)處理設備(諸如計算機系統(tǒng)2200)執(zhí)行時,使得這樣的數(shù)據(jù)處理設備如本文所描述的那樣操作。
基于本公開內(nèi)容中所包括的教導,對于相關領域的技術人員來說,如何使用數(shù)據(jù)處理設備,計算機系統(tǒng)和/或除此之外的計算機架構(gòu)來實現(xiàn)和使用本發(fā)明的實施例是顯而易見的如圖22所示。具體地,實施例可以用除了本文所描述的那些之外的軟件,硬件和/或操作系統(tǒng)實施方式來操作。
結(jié)論
應當理解,具體實施方式部分而不是
技術實現(xiàn)要素:
和摘要部分(如果有的話)旨在用于解釋權(quán)利要求。發(fā)明內(nèi)容和摘要部分(如果有的話)可以提出本發(fā)明人所設想的本發(fā)明的一個或多個但不是所有的示例性實施例,并且因此不旨在以任何方式限制本發(fā)明或所附權(quán)利要求。
雖然本文已經(jīng)參照示例性領域和應用的示例性實施例描述了本發(fā)明,但是應當理解,本發(fā)明不限于此。其它實施例及其修改是可能的,并且在本發(fā)明的范圍和精神內(nèi)。例如,并且不限制本段落的一般性,實施例不限于圖中所示和/或本文所描述的軟件、硬件、固件和/或?qū)嶓w。此外,實施例(無論是否在本文中明確描述)對于本文所描述的示例之外的領域和應用具有重要的效用。
在此已經(jīng)借助于示出特定功能及其關系的實施方式的功能構(gòu)建塊描述了實施例。為了方便描述,本文已經(jīng)任意地定義了這些功能構(gòu)建塊的邊界??梢远x替選邊界,只要適當?shù)貓?zhí)行指定的功能和關系(或其等同物)即可。此外,替選實施例可以使用與本文所描述的順序不同的順序來執(zhí)行功能塊、步驟、操作、方法等。
本文對“一個實施例”、“實施例”、“示例實施例”或類似短語的引用指示所描述的實施例可包括特定特征、結(jié)構(gòu)或特性,但每個實施例可不必包括特定特征、結(jié)構(gòu)或特性。此外,這樣的短語不一定指的是相同的實施例。此外,當結(jié)合實施例描述特定特征、結(jié)構(gòu)或特性時,將在相關領域的技術人員的知識范圍內(nèi)將這樣的特征、結(jié)構(gòu)或特性并入其它實施例中,無論是否明確提及或描述。
本發(fā)明的寬度和范圍不應由任何上述示例性實施例限制,而是應僅根據(jù)所附權(quán)利要求及其等同物來限定。