本發(fā)明屬于醫(yī)藥衛(wèi)生行業(yè)領域,一種精準醫(yī)學知識搜索系統(tǒng)的實現(xiàn)方法,具體地說,是一種基于病例多組學變異特征的精準醫(yī)學知識搜索系統(tǒng)的實現(xiàn)方法。
背景技術:
精準醫(yī)療依賴于生物標志物對疾病風險、預后和治療響應的分類。組學技術的快速發(fā)展大大豐富了分子水平的生物標記物數(shù)量,為疾病診斷、判斷疾病分期或評價新療法在目標人群中的安全性與有效性提供了更加全面細致的判斷依據(jù)。
當前“分子水平標記物或病理組學變異特征-干預響應(包括藥物響應)”的關聯(lián)信息主要可以從伴隨診斷、細胞系水平的高通量藥物篩選實驗、精準醫(yī)療臨床試驗等幾個渠道獲得。伴隨診斷提供的關聯(lián)信息是在大樣本人群即群體水平的觀測下獲得的,信息直接易獲取。但細胞系藥物篩選實驗與精準醫(yī)療試驗提供的關聯(lián)信息需要對原始信息進行處理,通過對組學數(shù)據(jù)進行多組學變異特征提取才能建立分子水平的變異和干預響應之間的關聯(lián)。因此不同來源和不同類型的關聯(lián)信息混雜難分的現(xiàn)況增加了不少臨床工作者對組學變異特征生理意義的解讀和臨床價值的利用的困難。
此外,組學數(shù)據(jù)的整合和臨床轉化還需要考慮到數(shù)據(jù)穩(wěn)定性的問題,實驗平臺(如不同實驗室或機構),觀測尺度(如細胞系水平,組織水平,個體水平等),觀測方式(如轉錄組層面,蛋白組層面,或基因組層面等),觀測手段(如單核苷酸多態(tài)芯片,二代測序技術等)等因素都可能造成觀測到的同一生物標記物行為的不穩(wěn)定。因此如何最大程度地整合這些關聯(lián)信息,讓它們發(fā)揮出最大的作用仍亟待解決。
技術實現(xiàn)要素:
本發(fā)明的目的是利用可觀察到的個體多組學變異特征,快速搜索知識庫中和新病例匹配成功的多組學變異-干預響應關聯(lián)模型,將所有匹配成功的模型對應的干預策略和是否成功響應的記錄以一種易讀和整合緊密的形式呈現(xiàn)給用戶,本發(fā)明是通過以下技術方案來實現(xiàn)的:
本發(fā)明公開了一種基于病例多組學變異特征的精準醫(yī)學知識搜索系統(tǒng),系統(tǒng)包括:
一個精準醫(yī)學知識庫,用于收集多組學變異-干預響應關聯(lián)模型,實現(xiàn)了對不同水平的“組學變異特征-干預響應”信息的收集整合;
可優(yōu)化的匹配算法,用于判斷病例與知識庫中的模型是否匹配及匹配程度;
匹配算法的評估算法,用于通過評估匹配算法對知識庫模型的聚類結果,與模型根據(jù)干預響應的標簽分類得到的結果進行對比,可評估匹配算法的優(yōu)劣,對算法不斷進行優(yōu)化;
搜索系統(tǒng)直接生成的包含了病例組學分析數(shù)據(jù)和系統(tǒng)搜索結果的報表,用于為醫(yī)生提供組學數(shù)據(jù)的生理意義參考,輔助治療方案的擬定。
作為進一步地改進,本發(fā)明所述不同水平包括群體水平、個體水平、組織水平和細胞系水平。
本發(fā)明還公開了一種基于病例多組學變異特征的精準醫(yī)學知識搜索系統(tǒng)的實現(xiàn)方法,是通過如下步驟實現(xiàn):
1)、建立基于多組學變異-干預響應關聯(lián)模型的多精準醫(yī)學知識庫;
2)、當新病例出現(xiàn)時,提取新病例的多組學變異特征;
3)、建立新病例與模型(已知的多組學變異特征-干預響應關聯(lián))之間的匹配算法;
4)、產(chǎn)生病例匹配系統(tǒng)的分析報告;
5)、知識庫的數(shù)據(jù)更新和匹配算法的自進化。
作為進一步地改進,本發(fā)明所述的步驟1)中,多組學變異信息包括轉錄活躍的基因組區(qū)域內單堿基突變(單核苷酸多態(tài)性和堿基插入缺失),染色體變異(如基因融合)和用來判斷基因是否表達異常的基準基因表達量。
作為進一步地改進,本發(fā)明所述的步驟1)中,一個多組學變異-干預響應關聯(lián)模型是一組有伴隨診斷藥物響應注釋和多組學變異特征的“伴隨診斷關聯(lián)模型”,或是藥物篩選實驗中包含藥物響應信息和多組學變異特征的“細胞系關聯(lián)模型”,或是臨床觀察到的包含干預響應結果和多組學變異特征的“病例關聯(lián)模型”,或是包含藥物篩選結果信息和多組學變異特征的“個體化疾病模型關聯(lián)模型”。所述的個體化模型包括但不限于pdx小鼠、pdo類器官模型。
作為進一步地改進,本發(fā)明所述的步驟2)中,所述的多組學變異特征包括轉錄活躍的基因組區(qū)域內單堿基突變、染色體結構變異、基因表達異常信息。
作為進一步地改進,本發(fā)明所述的步驟2)中,建立一套標準化的組學數(shù)據(jù)分析流程提取多組學變異,從樣本采集、測序、數(shù)據(jù)分析,到知識庫匹配全過程進行質控和質保。
作為進一步地改進,本發(fā)明所述的步驟3)中,搜索系統(tǒng)提供了一個起始匹配算法和針對匹配算法的評估方法,評估方法會根據(jù)使用不同匹配算法對知識庫中關聯(lián)模型的聚類表現(xiàn)來評估現(xiàn)有算法是否優(yōu)于新算法,決定是否需要對算法升級優(yōu)化。
作為進一步地改進,本發(fā)明所述的步驟4)中,所述的報告分為兩部分:第一部分是對病例生理相關的多組學變異特征的統(tǒng)計信息展現(xiàn),從單堿基突變、染色體變異和差異表達基因等方面給出病變組織的組學變異信息;第二部分是在完成對知識庫的搜索后,依據(jù)系統(tǒng)中模型與病例的相似性從高到低排序展現(xiàn)模型的匹配證據(jù)和用藥信息。
作為進一步地改進,本發(fā)明所述的步驟5)中,當病例完成步驟2)組學特征提取后,跟蹤病例用藥治療效果,將病例數(shù)據(jù)作為一個病例類模型加入精準醫(yī)學知識庫,擴增知識庫的覆蓋范圍和提高知識庫的匹配精度;當知識庫中沒有搜索到可匹配的關聯(lián)模型時,直接根據(jù)醫(yī)生經(jīng)驗治療,同時可發(fā)展病例建立個體化疾病模型,并跟蹤病例治療效果和個體化疾病模型的試藥結果,構建對應的“病例關聯(lián)模型”或“個體化疾病模型關聯(lián)模型”加入精準醫(yī)學知識庫。
本發(fā)明的優(yōu)點在于:
1)本發(fā)明搜索范圍廣,可檢索不同觀測尺度下的關聯(lián)模型。本發(fā)明系統(tǒng)地整合了已知組學變異和干預響應之間的關聯(lián),通過定義了一個廣義的多組學變異-干預響應關聯(lián)模型類的框架,將不同水平和來源的干預響應和組學變異信息整合進了一個知識庫。
2)本發(fā)明可用的匹配特征和匹配策略豐富。一方面,從單堿基變異、染色體變異、差異表達基因等多個方面對多組學變異特征協(xié)同匹配保證了匹配結果的可靠性,降低了單一變異類型與生理表型關聯(lián)分析中的噪音。另一方面,本發(fā)明對知識庫中不同尺度的干預響應模型分別提供了特異性的可優(yōu)化的匹配策略,通過關聯(lián)模型為病例-干預響應之間的關系提供了多角度的證據(jù)支持。
3)本發(fā)明具有自進化能力。該能力表現(xiàn)在兩方面:一、精準醫(yī)學知識庫中模型數(shù)量將隨著搜索系統(tǒng)的運行不斷擴充。新病例進入后,系統(tǒng)會記錄病例的多組學變異特征,結合病例的后續(xù)治療方案和干預響應結果或病例的個體化疾病模型的用藥結果,生成病例的關聯(lián)模型加入多精準醫(yī)學知識庫。二、系統(tǒng)的匹配算法可以不斷優(yōu)化。本發(fā)明針對匹配算法建立了對應的評價方法。一旦更新匹配算法,可以使用新的匹配算法對知識庫中的模型進行重新聚類,與基于干預響應標簽的分類方式進行比較,通過評價新算法是否優(yōu)于現(xiàn)有算法來決定是否需要更新系統(tǒng)。
4)本發(fā)明填補了組學變異信息提取環(huán)節(jié)和臨床指導用藥環(huán)節(jié)之間的空白,輔助了臨床工作人員對組學變異生理意義的系統(tǒng)性解讀和臨床價值的挖掘。
附圖說明
圖1是本發(fā)明技術方案實現(xiàn)流程示意圖。
具體實施方式
本發(fā)明建立了一種基于個體病例多組學變異協(xié)同匹配方法的精準醫(yī)學知識搜索系統(tǒng)。本發(fā)明系統(tǒng):一、包含一個精準醫(yī)學知識庫。知識庫通過收集多組學變異-干預響應關聯(lián)模型,實現(xiàn)了對不同水平(群體水平、個體水平、組織水平、細胞系水平等)的“組學變異特征-干預響應”信息的收集整合。進入系統(tǒng)的個體病例可被作為新模型,用于知識庫的擴增;二、包含了可優(yōu)化的匹配算法。系統(tǒng)提供的起始匹配算法并沒有最大程度地發(fā)揮出豐富的組學變異的優(yōu)勢,但本發(fā)明提供了一個匹配算法的評估方法,通過評估匹配算法對知識庫模型的聚類結果,與模型根據(jù)干預響應的標簽分類得到的結果進行對比,可評估匹配算法的優(yōu)劣,對算法不斷進行優(yōu)化;三、搜索系統(tǒng)直接生成一個易讀的包含了病例組學分析數(shù)據(jù)和系統(tǒng)搜索結果的報表,可以為醫(yī)生提供組學數(shù)據(jù)的生理意義參考,輔助治療方案的擬定。
這一發(fā)明的基本模式是:一、建立基于多組學變異-干預響應關聯(lián)模型的多精準醫(yī)學知識庫。多組學變異信息包括單堿基突變(單核苷酸多態(tài)性和堿基插入缺失),染色體變異(如基因融合)和用來判斷基因是否表達異常的基準基因表達量三方面內容。一個多組學變異-干預響應關聯(lián)模型可以是一組有伴隨診斷藥物響應注釋和多組學變異特征的“伴隨診斷關聯(lián)模型”;也可以是藥物篩選實驗中包含藥物響應信息和多組學變異特征的“細胞系關聯(lián)模型”;也可以是臨床觀察到的包含干預響應結果和多組學變異特征的“病例關聯(lián)模型”;也可以是包含藥物篩選結果信息和多組學變異特征的“個體化疾病關聯(lián)模型”(包括但不限于pdx小鼠、pdo類器官模型)。二、當新病例出現(xiàn)時,提取新病例的多組學變異特征(包括但不限于單堿基突變、染色體結構變異、基因表達譜信息)。建立一套標準化的組學數(shù)據(jù)分析流程提取多組學變異,從樣本采集、測序、數(shù)據(jù)分析,到知識庫匹配全過程進行質控和質保。三、建立新病例與關聯(lián)模型之間的匹配算法。搜索系統(tǒng)提供了一個起始匹配算法和針對匹配算法的評估方法,評估方法會根據(jù)使用不同匹配算法對知識庫中關聯(lián)模型的聚類表現(xiàn)來評估現(xiàn)有算法是否優(yōu)于新算法,決定是否需要對算法升級優(yōu)化。四、生成病例的個性化報告。報告分為兩部分:第一部分是對病例生理相關的多組學變異特征的統(tǒng)計信息展現(xiàn),從單堿基突變、染色體變異和差異表達基因等方面給出病變組織的組學變異信息;第二部分是在完成對知識庫的搜索后,依據(jù)系統(tǒng)中模型與病例的相似性從高到低排序展現(xiàn)模型的匹配證據(jù)和用藥信息。五、如果病例沒有匹配上現(xiàn)有模型,則直接依據(jù)醫(yī)生經(jīng)驗用藥,同時可發(fā)展基于該病例的個體化疾病治療模型進行藥物篩選,根據(jù)反饋結果對該病例構建“病例關聯(lián)模型”和“個體化疾病關聯(lián)模型”,加入知識庫。
圖1是本發(fā)明技術方案實現(xiàn)流程示意圖,具體實現(xiàn)步驟如下:
1)構建基于多組學變異-干預響應關聯(lián)模型的精準醫(yī)學知識庫:建立不同尺度(包括但不限于群體水平、個體水平、組織水平、細胞系水平)的干預響應模型,包括但不限于從“群體組學變異特征-干預響應”、“個體病例組學變異特征-干預響應”、“個體化疾病模型(如pdx小鼠和pdo模型等)組學變異特征-干預響應”、“細胞系組學變異特征-干預響應”幾個角度,收集多組學變異特征與對應的干預及干預響應信息。本知識庫中的數(shù)據(jù)通過網(wǎng)絡爬蟲抓取、公開數(shù)據(jù)庫下載,以及本地數(shù)據(jù)導入(病例及個體化疾病模型)等方式獲得。獲得的數(shù)據(jù)需要經(jīng)過分詞,語義分析,正則匹配等技術提取核心關鍵詞和數(shù)據(jù)后進行格式轉化,將原始信息映射到具有臨床干預設計參考價值的信息標準化接口,人工校正后加入數(shù)據(jù)庫。數(shù)據(jù)庫中同一類關聯(lián)模型的數(shù)據(jù)有統(tǒng)一的信息儲存格式;
2)搭建提取病例多組學變異特征的流程:搭建基于二代測序技術的生物信息學分析流程,從組學數(shù)據(jù)中提取與生理變化密切相關的單堿基突變、基因組結構突變以及轉錄水平表達異常的基因,作為病例的多組學變異特征,用于與多組學變異特征數(shù)據(jù)庫中的模型進行匹配。病例的數(shù)據(jù)分析過程使用嚴格的質控,在正常對照樣本可獲得的情況下,利用正常樣本和已知的疾病-組學變異信息對病例組學變異進行篩選,增加病例多組學變異特征與生理表型關聯(lián)的可靠性;
3)實現(xiàn)病例-模型多組學變異協(xié)同匹配算法:精準醫(yī)學知識庫整合了多數(shù)據(jù)來源,多組學角度的關聯(lián)模型的變異特征信息。當病例完成多組學變異特征的提取,進入病例匹配系統(tǒng)時,需要根據(jù)知識庫中模型的類型,對病例與模型進行匹配。在與某一特定的關聯(lián)模型進行匹配時,需要針對不同的組學變異特征,分別使用不同的方法對從病例中提取到的變異特征與模型的變異特征進行匹配打分,最后將不同變異特征的打分根據(jù)公式生成病例-藥物響應模型的匹配總分,根據(jù)總分判斷病例與模型是否能匹配上;
4)產(chǎn)生病例匹配系統(tǒng)的分析報告:報告分為兩個層面:第一層:個體病例的組學信息報告。包括但不限于原始數(shù)據(jù)測序質量信息、數(shù)據(jù)分析流程介紹、多組學變異特征的統(tǒng)計信息;第二層:病例與精準醫(yī)學知識庫中模型的匹配結果。根據(jù)搜索結果,按系統(tǒng)中模型與病例的相似性從高到低排序展現(xiàn)模型的干預策略、響應結果以及匹配證據(jù)等信息。第二層提供了易讀的“個體病例組學變異特征-模型組學變異特征-干預響應”信息,提供了病例的潛在干預響應信息來輔助醫(yī)生解讀組學變異特征的生理意義和挖掘組學數(shù)據(jù)的臨床價值;
5)搜索系統(tǒng)的更新:系統(tǒng)的更新分為知識庫的數(shù)據(jù)更新和匹配算法的自進化兩個部分。
一、知識庫的更新:當病例匹配上知識庫中模型時,跟蹤病例用藥治療效果,將病例數(shù)據(jù)作為一個病例類模型加入精準醫(yī)學知識庫,擴增知識庫的覆蓋范圍和提高知識庫的匹配精度。當知識庫中沒有搜索到可匹配的關聯(lián)模型時,直接根據(jù)醫(yī)生經(jīng)驗治療,同時可發(fā)展病例建立個體化疾病模型(如pdx小鼠或pdo類器官模型等),并跟蹤病例干預響應結果和個體疾病模型的試藥結果,構建對應的病例關聯(lián)模型或個體疾病關聯(lián)模型加入精準醫(yī)學知識庫。
二、匹配算法的自進化:本系統(tǒng)建立了用于比較新舊匹配算法優(yōu)劣的一個評估方法來優(yōu)化系統(tǒng)匹配算法。本系統(tǒng)投入運轉時,首先提供一個有待優(yōu)化的起始匹配算法。隨著新病例的擴充,精準醫(yī)學知識庫中的模型會不斷增加,為優(yōu)化匹配算法提供了資源。根據(jù)知識庫中模型對干預的響應分類,本發(fā)明可隨機選取m個關聯(lián)模型,對選取的模型兩兩之間分別使用新舊匹配算法進行打分,得到由這些模型所組成的兩個相似性打分矩陣。進一步對矩陣聚類,可獲得分別用新舊匹配算法獲得的模型分類情況,和真實的根據(jù)藥物響應信息進行分類的結果進行比較,從而判斷新算法是否表現(xiàn)更出眾,能取代系統(tǒng)當前算法。
以下通過具體實施例對本發(fā)明的技術方案作進一步地說明:
實施例1:一個基于病例轉錄組變異特征的癌癥病例快速匹配系統(tǒng)
本實施例由五大步驟組成:
1)多精準醫(yī)學知識庫的構建:知識庫以關聯(lián)模型為存儲對象,從美國食品藥品監(jiān)督局(fda)批準的伴隨診斷藥物列表、mycancergenome提供的精準化癌癥醫(yī)學資訊、桑格研究所的gdsc數(shù)據(jù)庫三個數(shù)據(jù)源收集藥物響應信息所關聯(lián)的多組學變異特征。伴隨診斷藥物和mycancergenome提供了群體水平的組學變異特征-藥物響應信息,gdsc數(shù)據(jù)庫提供了細胞系水平特異性的組學變異特征-藥物響應信息。不同格式的數(shù)據(jù),通過國際標準數(shù)據(jù)庫提供的命名方式進行統(tǒng)一管理。在本實例中,不同來源的單堿基突變都映射到cosmic數(shù)據(jù)庫中對應名稱,以該數(shù)據(jù)庫中的命名作為標準輸出。同樣地,基因名以ncbi的entrezid作為標準,疾病名以omimid作為標準。
2)病例多組學變異特征的提?。捍罱ɑ谵D錄組測序(rna-seq)數(shù)據(jù)的生物信息學分析流程,從轉錄組數(shù)據(jù)中提取與生理變化密切相關的單堿基突變、染色體結構突變以及轉錄水平表達異常的基因,作為病例的多組學變異特征,用于與多組學變異特征數(shù)據(jù)庫中的模型進行匹配。
在本實例中,變異的提取流程可以被分為以下幾個部分:rna-seq數(shù)據(jù)預處理,單堿基突變檢測(單核苷酸多態(tài)性、小片段插入缺失),染色體結構變異檢測(基因融合),基因表達和異常表達基因檢測,結果可視化展示。
一、rna-seq數(shù)據(jù)預處理:
原始數(shù)據(jù)使用質量控制工具檢查數(shù)據(jù)質量,通過檢測的數(shù)據(jù)隨后使用去接頭軟件對讀段中的接頭序列和頭尾低質量堿基進行切除。清洗后的讀段用于接下來的序列比對。在此處,本實例使用了快速短片段比對軟件以及人類基因組作為參考基因組進行比對。
二、檢測病例的單堿基突變:
本實例在這一步依照了gatk提供的rna-seq變異檢測最佳實踐流程(http://gatkforums.broadinstitute.org/gatk/discussion/3892/the-gatk-best-practices-for-variant-calling-on-rnaseq-in-full-detail)進行操作。首先對1.中比對得到的文件去除冗余的讀段,再對讀段進行裁尾處理,將讀段按外顯子區(qū)段拆開,執(zhí)行堿基校正,對單核苷酸多態(tài)性和單核苷酸插入缺失進行檢測,最后利用人類基因組變異數(shù)據(jù)庫資源,使用變異注釋軟件對檢測到的單堿基變異進行注釋和過濾。
三、檢測病例的染色體變異:
轉錄組測序數(shù)據(jù)所能檢測到的結構變異主要為基因融合。在此處對1.中比對結果使用基因融合軟件檢測轉錄組上能看到的基因融合事件。
四、檢測基因表達量:
這一步驟也使用了1.中的比對文件作為片段拼接組裝軟件的輸入文件,用于轉錄本的拼接和表達量的計算。在該實施例中我們只考慮沒有提供癌旁組織且公開的癌癥轉錄組數(shù)據(jù)庫中也沒有癌旁組織的情況。
五、病例組學數(shù)據(jù)結果可視化展示:
個體病例的整體多組學變異特征用圈圖展示。圈圖由里向外由四部分組成,最里面顯示了基因融合事件的發(fā)生位置,然后顯示的是單堿基突變事件的發(fā)生位置,其次是基因在整個轉錄組的表達情況,最外層是帶注釋的染色體位置信息。
在分析過程中產(chǎn)生的各類統(tǒng)計圖,如散點圖、直方圖、餅圖等通過統(tǒng)計軟件r實現(xiàn)可視化輸出。
3)病例-模型多組學變異協(xié)同匹配算法的實現(xiàn):多組學變異特征數(shù)據(jù)庫整合了多數(shù)據(jù)來源,多組學角度的關聯(lián)模型的變異特征信息。當病例完成多組學變異特征的提取,進入病例匹配系統(tǒng)時,需要根據(jù)數(shù)據(jù)庫中模型的類型,提供病例-模型的匹配算法。
在本實例中,知識庫提供了三類模型:1.伴隨診斷關聯(lián)模型;2.細胞系關聯(lián)模型;3.病例關聯(lián)模型。
群體水平的關聯(lián)模型給出的干預結果通常是針對某一或某幾個特定的組學變異特征在大群體樣本中對藥物響應的影響。因此實例對該模型采用的策略是,進行比對時如果病例和一個群體模型具有完全相同的組學變異特征,報告病例與該群體模型匹配成功,否則匹配失敗。
細胞系水平的關聯(lián)模型和個體水平的關聯(lián)模型均提供了完整的單堿基突變、染色體結構突變和基因表達譜信息。因此本實例采用了一個綜合了這三方面信息的相似性打分方法來度量病例和模型的相似性。其中使用細胞系水平的關聯(lián)模型和個體水平的關聯(lián)模型與病例進行匹配的區(qū)別在于最終決定是否匹配成功的閾值參數(shù)不同。以下為打分方法的實現(xiàn)步驟:
一、針對單堿基突變:本實例使用dann方法來度量病例和模型中單堿基突變的功能重要性,分別對病例和模型中每個基因上發(fā)生顯著單堿基功能突變的位點的dann值進行求和,度量該基因上單堿基功能突變對生理的影響。病例與模型中該基因功能突變的相似性分值可通過公式1-|csnv-msnv|/max{csnv,msnv}獲得,其中csnv為病例中某一基因的功能突變影響值,msnv為模型的功能突變影響值。該分值可以作為衡量病例和模型的基因功能相似性的一個指標v1。
二、針對染色體結構變異:目前還沒有直接度量基因融合對生理影響程度的方法??紤]到通常結構變異對基因生理功能的影響非常嚴重,本實例用一個自定義的指標v2(0或1)來衡量病例和樣本在基因融合事件上的相似性。若在病例和模型中,某一基因均發(fā)生了基因融合或均未發(fā)生基因融合,則v2值為1,否則v2值為0。
三、針對異常表達基因:本實例定義了一個指標v3來衡量基因表達量異常,公式為v3=1-|cexp-mexp|/max{cexp,mexp},其中cexp和mexp分別為表達譜經(jīng)過標準化處理后病例和模型中某一基因的表達量。
在本實例中,考慮到基因表達異常反應了轉錄水平上的變異,單堿基突變或染色體結構變異反應了基因組上的變異,因此在整合這些指標時需要綜合兩者的效應。實例中病例與模型最終針對某一基因的相似性分值定義為v=min{v3*v1,v3*v2},其中v1,v2,v3為說明書上文中所提到的三個相似性指標。對某一特定基因,若相似性分值高于0.5,則認為該基因在病例和模型中表現(xiàn)一致。當病例中有超過半數(shù)的基因表現(xiàn)與它們在模型中的表現(xiàn)一致,則認為病例與模型匹配成功,否則認為匹配失敗。
4)根據(jù)病例的匹配結果產(chǎn)生分析報告:
分析報告展示主要分為兩個部分:個體病例信息和知識庫搜索結果展示。
在本實例中個體病例信息展示包含:
1.測序樣品基本信息(包含樣品名,送樣時間,測序時間,測序儀型號,樣品標簽,數(shù)據(jù)飽和度評估參數(shù));
2.組學數(shù)據(jù)整體展示圖,轉錄組測序數(shù)據(jù)統(tǒng)計信息(包含樣品原始讀段數(shù),清洗后讀段數(shù),比對到參考基因組上的讀段數(shù),特異性比對上的讀段數(shù)信息);
3.檢測到表達的基因的表達分布直方圖,差異表達基因的圖表;
4.基因組上單堿基變異和結構變異的數(shù)量統(tǒng)計及變異文件格式解讀;
5.原始數(shù)據(jù)qc報告位置,基因和轉錄本的表達文件位置,差異表達基因的文件位置,單堿基變異信息的文件位置,基因融合信息的文件位置。
知識庫搜索結果展示包含:
1.匹配上的模型的基本信息(模型類型、原始數(shù)據(jù)來源、模型名稱、疾病名稱等);
2.支持病例匹配上模型的證據(jù)(模型和病例中匹配上的指標的類型、指標名稱、指標的度量值等);
3.匹配上的模型的臨床用藥參考信息(藥物名稱、模型對藥物是否響應等)
5)搜索系統(tǒng)的自進化:
一、精準醫(yī)學知識庫的更新:對進入知識庫分析的病例進行跟蹤,根據(jù)病例遵醫(yī)治療效果和長期結局,建立病例組學變異特征-干預響應關聯(lián)模型,加入知識庫。對初次進入知識庫沒有搜索到匹配模型的病例,考慮建立個體化疾病模型(pdx小鼠模型或pdo類器官模型),根據(jù)體外個體化疾病模型對不同藥物的反應,建立個體化疾病模型組學變異特征-藥物響應關聯(lián)模型,加入知識庫。
二、匹配算法的自進化:當搜索系統(tǒng)內知識庫中某一類模型數(shù)量累積到一定值時,可以隨機選擇m個該類模型,依據(jù)它們對藥物的響應進行分類,用于針對該類模型的匹配算法的評估。當實現(xiàn)了一個新的病例與該類模型的匹配算法的時候,可以比較新匹配算法和舊匹配算法的評估結果。如果新方法與根據(jù)藥物的響應進行分類的一致性更高,說明新匹配算法在真實情景下的應用效果更佳,更新該匹配算法,否則說明原算法表現(xiàn)更好,放棄更新算法。
以上列舉的僅是本發(fā)明的具體實施例。顯然,本發(fā)明不限于以上實施例,還可以有許多變形,本領域的普通技術人員能從本發(fā)明公開的內容直接導出或聯(lián)想到的所有變形,均應認為是本發(fā)明的保護范圍。