相關(guān)申請(qǐng)的交叉引用
本發(fā)明涉及于2014年10月17日提交的共同待決的美國臨時(shí)申請(qǐng)no.62/065367,在此通過引用將其完整公開內(nèi)容并入,如同其完整地在本文中被闡述。
本發(fā)明的實(shí)施例總體涉及基因表達(dá)數(shù)據(jù)的使用,并且具體涉及跨過不同譜分析平臺(tái)使用基因表達(dá)數(shù)據(jù)。
背景技術(shù):
基因表達(dá)的動(dòng)態(tài)范圍根據(jù)譜分析平臺(tái)的選擇而可能可觀地變化。因此,預(yù)測(cè)性基因標(biāo)志一般是平臺(tái)特異性的。一般來說,由不同種類的平臺(tái)生成的表達(dá)數(shù)據(jù)不能被直接組合用于計(jì)算分析,因此限制舊數(shù)據(jù)的使用并且妨礙新的譜分析技術(shù)的采用。更具體地,會(huì)難以將從極大量的舊微陣列研究得到的知識(shí)和見解轉(zhuǎn)移到新平臺(tái)(諸如下一代測(cè)序(ngs)系統(tǒng))上。
已經(jīng)提出許多方法來處理表達(dá)數(shù)據(jù)的跨平臺(tái)兼容性。一種方法涉及將探測(cè)結(jié)果/讀數(shù)映射到通用基因組目標(biāo),然后針對(duì)每個(gè)目標(biāo)調(diào)用平臺(tái)水平的表達(dá)(針對(duì)微陣列的rma和針對(duì)rna-seq的rpkm),并且最后應(yīng)用分位數(shù)歸一化,假設(shè)跨平臺(tái)的表達(dá)分布僅在樣本特異性比例因子上不同。另一方法涉及應(yīng)用逐基因因子分析以利用預(yù)期最大化(em)算法從多個(gè)平臺(tái)獲得統(tǒng)一的表達(dá)測(cè)量結(jié)果。又一方法使用功能測(cè)量誤差模型的系統(tǒng)來對(duì)基因表達(dá)測(cè)量結(jié)果進(jìn)行建模,并且使用針對(duì)基因的子集的據(jù)稱更可靠但是低通量qrt-pcr表達(dá)來對(duì)平臺(tái)進(jìn)行校準(zhǔn)。然而,像因子分析一樣,該模型僅可以對(duì)適合所有三個(gè)平臺(tái)的表達(dá)范圍適用,并且具有極限表達(dá)的基因被排除。又一方法涉及對(duì)與rna-seq數(shù)據(jù)中的探針區(qū)域交疊的讀數(shù)的數(shù)量進(jìn)行計(jì)數(shù),使用經(jīng)驗(yàn)貝葉斯方法估計(jì)探針區(qū)域表達(dá),并且隨后將修改的rma算法(即,沒有背景修正步驟)應(yīng)用在探針區(qū)域表達(dá)上以獲得基因水平的表達(dá)。然而,該方法涉及關(guān)于映射的讀數(shù)的更復(fù)雜的計(jì)算,并且在平臺(tái)的選擇方面(即針對(duì)輸入的rna-seq和針對(duì)輸出的rma)是硬性的。
考慮到這些現(xiàn)有方法的限制,將期望具有支持測(cè)量結(jié)果從一個(gè)基因表達(dá)平臺(tái)到另一基因表達(dá)平臺(tái)的轉(zhuǎn)換的一般化方法。
技術(shù)實(shí)現(xiàn)要素:
提供此發(fā)明內(nèi)容來以簡化的形式介紹一些概念,這些概念在下文詳細(xì)說明部分中被進(jìn)一步描述。此發(fā)明內(nèi)容并不旨在識(shí)別所要求保護(hù)的主題的關(guān)鍵特征或重要特征,也不旨在被用作確定所要求保護(hù)的主題的范圍的輔助手段。
本發(fā)明的方面涉及一種數(shù)據(jù)驅(qū)動(dòng)的通用的基于回歸的架構(gòu),所述架構(gòu)支持測(cè)量結(jié)果在寬動(dòng)態(tài)范圍內(nèi)從一個(gè)平臺(tái)到另一平臺(tái)的轉(zhuǎn)換,其可應(yīng)用于但不限于基因表達(dá),其中,選定的總結(jié)統(tǒng)計(jì)/特征值作為用于模型參數(shù)的預(yù)測(cè)指標(biāo)。該架構(gòu)包括初級(jí)模型訓(xùn)練和轉(zhuǎn)換以及額外水平的分類回歸和轉(zhuǎn)換過程。
本發(fā)明的實(shí)施例消除了為了組合的分析的不必要的樣本的重新譜分析,解決了向后兼容性問題,并且通過允許舊數(shù)據(jù)被容易地轉(zhuǎn)換以便與來自更新平臺(tái)的數(shù)據(jù)一起使用而促進(jìn)新的譜分析技術(shù)的采用。此外,通過將輸入數(shù)據(jù)轉(zhuǎn)換到主要平臺(tái)或通過針對(duì)替代性平臺(tái)調(diào)整標(biāo)簽的參數(shù),平臺(tái)特異的基因標(biāo)簽?zāi)軌驍U(kuò)展以便在來自多個(gè)平臺(tái)的表達(dá)數(shù)據(jù)上使用。
根據(jù)本公開的一個(gè)方面,本發(fā)明的實(shí)施例涉及一種用于對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行轉(zhuǎn)換的方法。在一些實(shí)施例中,所述方法包括構(gòu)建使用樣本表達(dá)數(shù)據(jù)來將基因表達(dá)數(shù)據(jù)從第一譜分析平臺(tái)轉(zhuǎn)換到第二譜分析平臺(tái)的初級(jí)模型,使得經(jīng)轉(zhuǎn)換的數(shù)據(jù)的總體分布類似于所述第二平臺(tái)的數(shù)據(jù)總體分布。
在一些實(shí)施例中,構(gòu)建所述初級(jí)模型包括,識(shí)別在利用第一譜分析平臺(tái)得到的核酸表達(dá)數(shù)據(jù)的第一集合與利用第二譜分析平臺(tái)得到的核酸表達(dá)數(shù)據(jù)的第二集合之間的至少一個(gè)共同表達(dá),其中,每個(gè)共同表達(dá)與所述第一集合和所述第二集合兩者中都存在的樣本相關(guān)聯(lián)。在一些實(shí)施例中,構(gòu)建所述模型包括,對(duì)所述至少一個(gè)共同表達(dá)執(zhí)行回歸分析,得到針對(duì)每個(gè)樣本的回歸參數(shù)的一個(gè)集合。在一些實(shí)施例中,構(gòu)建所述模型包括,從所述第一譜分析平臺(tái)選擇預(yù)測(cè)所述至少一個(gè)集合回歸參數(shù)的至少一個(gè)候選特征。在一些實(shí)施例中,構(gòu)建所述模型包括,識(shí)別針對(duì)與所選擇的所述至少一個(gè)候選特征中的每個(gè)相關(guān)聯(lián)的逐樣本的數(shù)據(jù)轉(zhuǎn)換的初級(jí)模型。在一些實(shí)施例中,構(gòu)建所述模型還包括,利用譜分析平臺(tái)生成表達(dá)數(shù)據(jù)的至少一個(gè)集合,所述表達(dá)數(shù)據(jù)的至少一個(gè)集合是表達(dá)數(shù)據(jù)的所述第一集合和第二集合中的至少一個(gè)集合。
在一些實(shí)施例中,所述方法包括利用所述構(gòu)建的初級(jí)模型轉(zhuǎn)換所述樣本表達(dá)數(shù)據(jù)。在一些實(shí)施例中,所述方法包括通過根據(jù)以下中的至少一個(gè)進(jìn)行回歸分析來構(gòu)建分類模型:(a)經(jīng)轉(zhuǎn)換的樣本表達(dá)數(shù)據(jù)中的至少一些和(b)共同表達(dá)中的至少一些。在一些實(shí)施例中,以下中的至少一項(xiàng)是基于表型數(shù)據(jù)或己知引入跨平臺(tái)偏差的任何因子的:(a)對(duì)經(jīng)轉(zhuǎn)換的樣本表達(dá)數(shù)據(jù)中的至少一些的選擇和(b)對(duì)共同表達(dá)中的至少一些的選擇。在一些實(shí)施例中,所述方法包括使用根據(jù)經(jīng)轉(zhuǎn)換的樣本表達(dá)數(shù)據(jù)構(gòu)建的所述分類模型來對(duì)經(jīng)轉(zhuǎn)換的樣本表達(dá)數(shù)據(jù)進(jìn)行轉(zhuǎn)換并從其構(gòu)建另一分類模型來對(duì)該過程進(jìn)行迭代。在一些實(shí)施例中,所述方法包括通過以構(gòu)建的分類模型的構(gòu)建的順序應(yīng)用所述構(gòu)建的分類模型而將表達(dá)數(shù)據(jù)的集合從所述第一譜分析平臺(tái)轉(zhuǎn)換到所述第二譜分析平臺(tái)。
在一些實(shí)施例中,所述第一譜分析平臺(tái)或所述第二譜分析平臺(tái)選自包括但不限于以下項(xiàng)的組:agilentgeneexpressionmicroarrays、affymetrixgeneprofilingarraycgmpu133p2/humangenomeu133plus2.0/u133a2.0、illuminagenomeanalyzer/miseq/nextseq/hiseq、nanostringncountersprint/max/flex、以及oxfordnanoporeminion/promethion/gridion。在一些實(shí)施例中,所述至少一個(gè)共同表達(dá)通過以下中的至少一種來識(shí)別:匹配基因組位置、匹配外顯子、匹配亞型(isoform)和匹配轉(zhuǎn)錄。在一些實(shí)施例中,所述至少一個(gè)候選特征選自包括以下項(xiàng)的組平均轉(zhuǎn)錄表達(dá)、平均歸一化探針強(qiáng)度、檢測(cè)到的基因的數(shù)量、每個(gè)樣本的讀數(shù)的總數(shù)量、每個(gè)外顯子/基因/亞型的讀數(shù)的平均數(shù)量、讀數(shù)范圍和每個(gè)樣本的任何其他適當(dāng)統(tǒng)計(jì)。在一些實(shí)施例中,所述模型中的每個(gè)選自包括以下項(xiàng)的組:線性模型、對(duì)數(shù)模型、分段線性模型和回歸模型。
根據(jù)本公開的另一方面,本發(fā)明的實(shí)施例涉及一種用于對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行轉(zhuǎn)換的裝置。在一些實(shí)施例中,所述裝置包括處理器。在一些實(shí)施例中,所述裝置包括接口。在一些實(shí)施例中,所述裝置包括可在所述處理器上運(yùn)行的計(jì)算機(jī)可執(zhí)行指令。在一些實(shí)施例中,所述計(jì)算機(jī)可執(zhí)行指令在所述處理器上運(yùn)行,以利用樣本表達(dá)數(shù)據(jù)構(gòu)建用于將基因表達(dá)數(shù)據(jù)從第一譜分析平臺(tái)轉(zhuǎn)換到第二譜分析平臺(tái)的初級(jí)模型,使得所述轉(zhuǎn)換的數(shù)據(jù)的總體分布類似于所述第二平臺(tái)的數(shù)據(jù)總體分布。
在一些實(shí)施例中,用于構(gòu)建所述初級(jí)模型的所述計(jì)算機(jī)可執(zhí)行指令包括用于以下的計(jì)算機(jī)可執(zhí)行指令:識(shí)別利用第一譜分析平臺(tái)得到的核酸表達(dá)數(shù)據(jù)的第一集合與利用第二譜分析平臺(tái)得到的核酸表達(dá)數(shù)據(jù)的第二集合之間的至少一個(gè)共同表達(dá),每個(gè)共同表達(dá)與所述第一集合和第二集合兩者中都存在的樣本相關(guān)聯(lián)。在一些實(shí)施例中,用于構(gòu)建模型的所述計(jì)算機(jī)可執(zhí)行指令包括用于以下的計(jì)算機(jī)可執(zhí)行指令:對(duì)所述至少一個(gè)共同表達(dá)執(zhí)行回歸分析,得到針對(duì)每個(gè)樣本的回歸參數(shù)的一個(gè)集合。在一些實(shí)施例中,用于構(gòu)建模型的所述計(jì)算機(jī)可執(zhí)行指令包括用于以下的計(jì)算可執(zhí)行指令:從所述第一譜分析平臺(tái)選擇預(yù)測(cè)所述至少一個(gè)集合回歸參數(shù)的至少一個(gè)候選特征。在一些實(shí)施例中,用于構(gòu)建模型的所述計(jì)算機(jī)可執(zhí)行指令包括用于以下的計(jì)算可執(zhí)行指令:識(shí)別與所選擇的所述至少一個(gè)候選特征中的每個(gè)相關(guān)聯(lián)的初級(jí)模型。
在一些實(shí)施例中,所述接口被配置為從譜分析平臺(tái)接收表達(dá)數(shù)據(jù)的至少一個(gè)集合,所述表達(dá)數(shù)據(jù)的至少一個(gè)集合是表達(dá)數(shù)據(jù)所述第一集合和所述第二集合中的至少一個(gè)集合。
在一些實(shí)施例中,所述裝置還包括可在所述處理器上運(yùn)行的用于以下的計(jì)算機(jī)可執(zhí)行指令:利用所構(gòu)建的初級(jí)模型轉(zhuǎn)換所述樣本表達(dá)數(shù)據(jù)。在一些實(shí)施例中,所述裝置還包括可在所述處理器上運(yùn)行的用于以下的計(jì)算機(jī)可執(zhí)行指令:通過回歸分析來從以下中的至少一個(gè)來構(gòu)建分類模型:(a)經(jīng)轉(zhuǎn)換的樣本表達(dá)數(shù)據(jù)中的至少一些和(b)共同表達(dá)中的至少一些。在一些實(shí)施例中,以下中的至少一個(gè)基于表型數(shù)據(jù)或已知引入跨平臺(tái)偏差的任何其他因子:(a)對(duì)經(jīng)轉(zhuǎn)換的樣本表達(dá)數(shù)據(jù)中的至少一些的選擇和(b)對(duì)共同表達(dá)中的至少一些的選擇。在一些實(shí)施例中,所述裝置還包括可在所述處理器上運(yùn)行的用于以下的計(jì)算機(jī)可執(zhí)行指令:使用根據(jù)經(jīng)轉(zhuǎn)換的樣本表達(dá)數(shù)據(jù)構(gòu)建的所述分類模型來對(duì)經(jīng)轉(zhuǎn)換的樣本表達(dá)數(shù)據(jù)進(jìn)行轉(zhuǎn)換并從其構(gòu)建另一分類模型來對(duì)該過程進(jìn)行迭代。在一些實(shí)施例中,所述裝置還包括可在所述處理器上運(yùn)行用于以下的計(jì)算機(jī)可執(zhí)行指令:通過以所構(gòu)建的分類模型構(gòu)建的順序應(yīng)用所構(gòu)建的分類模型而將表達(dá)數(shù)據(jù)的集合從所述第一譜分析平臺(tái)轉(zhuǎn)換到所述第二譜分析平臺(tái)。
在一些實(shí)施例中,所述第一譜分析平臺(tái)或所述第二譜分析平臺(tái)選自包括但不限于以下項(xiàng)的組:agilentgeneexpressionmicroarrays、affymetrixgeneprofilingarraycgmpu133p2/humangenomeu133plus2.0/u133a2.0、illuminagenomeanalyzer/miseq/nextseq/hiseq、nanostringncountersprint/max/flex、以及oxfordnanoporeminion/promethion/gridion。
在一些實(shí)施例中,用于識(shí)別至少一個(gè)共同表達(dá)的所述計(jì)算機(jī)可執(zhí)行指令包括用于以下的計(jì)算機(jī)可執(zhí)行指令:通過以下中的至少一種來識(shí)別所述至少一個(gè)共同表達(dá):匹配基因組位置、匹配外顯子、匹配亞型和匹配轉(zhuǎn)錄。在一些實(shí)施例中,所述至少一個(gè)候選特征選自包括以下項(xiàng)的組:平均轉(zhuǎn)錄表達(dá)、平均歸一化探針強(qiáng)度、檢測(cè)到的基因的數(shù)量、每個(gè)樣本的讀數(shù)的數(shù)量、每個(gè)外顯子/基因/亞型的讀數(shù)的平均數(shù)量、讀數(shù)范圍和每個(gè)樣本的任何其他適當(dāng)統(tǒng)計(jì)。在一些實(shí)施例中,所述模型中的每個(gè)選自包括以下項(xiàng)的組:線性模型、對(duì)數(shù)模型、分段線性模型、以及回歸模型。
根據(jù)對(duì)以下詳細(xì)描述的閱讀和對(duì)相關(guān)聯(lián)的附圖的查閱,以非限制性實(shí)施例為特征的這些及其他特征和優(yōu)點(diǎn)將會(huì)是顯而易見的。應(yīng)理解,前述一般描述和以下詳細(xì)描述兩者都僅是解釋性的,并不對(duì)要求保護(hù)的非限制性實(shí)施例進(jìn)行限定。
附圖說明
附圖并非旨在按比例進(jìn)行繪制。在附圖中,在各個(gè)圖中圖示的每個(gè)完全相同或幾乎完全相同的部件可以由相同數(shù)字來表示。為了清楚的目的,不是每個(gè)部件都在每個(gè)附圖中進(jìn)行標(biāo)記。本發(fā)明的各種實(shí)施例現(xiàn)在將會(huì)參照附圖以范例的方式進(jìn)行描述,其中:
圖1是用于將基因表達(dá)數(shù)據(jù)從第一平臺(tái)轉(zhuǎn)換到第二平臺(tái)的過程的流程圖;
圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的模型訓(xùn)練過程的流程圖;
圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的初級(jí)模型構(gòu)建過程的流程圖;
圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于利用初級(jí)模型來轉(zhuǎn)換樣本數(shù)據(jù)的過程的流程圖;
圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的分類回歸過程的流程圖;
圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于使用模型來轉(zhuǎn)換額外數(shù)據(jù)的過程的流程圖;
圖6是根據(jù)本發(fā)明的一個(gè)實(shí)施例的發(fā)展并應(yīng)用的多個(gè)轉(zhuǎn)換模型的圖示;
圖7呈現(xiàn)了在本發(fā)明的一個(gè)實(shí)施例中發(fā)展的平均表達(dá)水平與回歸參數(shù)之間的線性模型;
圖8示出了針對(duì)每個(gè)樣本的預(yù)測(cè)的分段線性模型;
圖9分別示出了在(a)第一水平的逐樣本轉(zhuǎn)換之后以及(b)第二水平的逐基因轉(zhuǎn)換之后轉(zhuǎn)換的表達(dá)與原始的微陣列表達(dá)之間的關(guān)系;并且
圖10呈現(xiàn)了根據(jù)本發(fā)明的用于基因表達(dá)數(shù)據(jù)的跨平臺(tái)轉(zhuǎn)換的裝置的實(shí)施例的方框圖。
具體實(shí)施方式
基因表達(dá)數(shù)據(jù)的跨平臺(tái)兼容性是研究的關(guān)鍵和活躍的主題。管理和分析源于混合的平臺(tái)的樣本數(shù)據(jù)會(huì)是效率低的。例如,癌癥基因組圖譜(tcga)目前有五個(gè)不同的平臺(tái)用于rna表達(dá):agilentg4502a、affymetrixht-hg_u133a、hg-u133_plus_2、illuminaga、以及illuminahiseq2000,因此使得難以通過組合的分析利用數(shù)據(jù)的全部潛力。此外,基因表達(dá)的動(dòng)態(tài)范圍能夠依據(jù)譜分析平臺(tái)的選擇而相當(dāng)大地變化。
由于多年來基于在前技術(shù)生成的大量舊數(shù)據(jù)、現(xiàn)有平臺(tái)的多樣性和新平臺(tái)的出現(xiàn),提供跨各種平臺(tái)的數(shù)據(jù)的兼容性能夠是有利的。打破平臺(tái)屏障意味著節(jié)省樣本的重新譜分析的成本,以便執(zhí)行組合的分析。它還能夠解決向后兼容性問題,并且通過允許舊數(shù)據(jù)被容易地轉(zhuǎn)換以便與來自更新平臺(tái)的數(shù)據(jù)一起使用而促進(jìn)新的譜分析技術(shù)的采用。具體地,極大資源已經(jīng)花費(fèi)在微陣列研究上,并且希望將來自這些研究的知識(shí)和見解轉(zhuǎn)移到新平臺(tái)(諸如下一代測(cè)序(ngs)技術(shù))上。
本發(fā)明的實(shí)施例使用將表達(dá)數(shù)據(jù)從一個(gè)平臺(tái)轉(zhuǎn)換到另一平臺(tái)的模型來促進(jìn)基因表達(dá)數(shù)據(jù)的跨平臺(tái)兼容性。這些實(shí)施例也能夠在臨床研究設(shè)置中跨臨床研究人員可用的不同隊(duì)列被應(yīng)用,以便通過將輸入數(shù)據(jù)轉(zhuǎn)換到主平臺(tái)或通過使標(biāo)簽的參數(shù)適應(yīng)替代性平臺(tái)而評(píng)估新的隊(duì)列上的許多標(biāo)簽。
參照?qǐng)D1,根據(jù)本發(fā)明的用于對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行轉(zhuǎn)換的方法的一個(gè)實(shí)施例以初級(jí)模型的構(gòu)建(步驟100)開始,所述初級(jí)模型用于直接將表達(dá)數(shù)據(jù)從第一譜分析平臺(tái)轉(zhuǎn)換到第二譜分析平臺(tái)而無需中間轉(zhuǎn)換。所述初級(jí)模型然后可以用來將表達(dá)數(shù)據(jù)從第一平臺(tái)轉(zhuǎn)換到第二平臺(tái)(步驟104)。
然而,在一些實(shí)施例中,模型構(gòu)建過程可包括額外水平的迭代。在這些實(shí)施例中,額外的模型(例如,分類回歸模型)可以根據(jù)經(jīng)轉(zhuǎn)換的表達(dá)數(shù)據(jù)來構(gòu)建(步驟108)。該額外的模型反過來可以用來對(duì)額外的表達(dá)數(shù)據(jù)進(jìn)行轉(zhuǎn)換(步驟104)。可以通過額外的多輪分類模型構(gòu)建(步驟108)并且應(yīng)用那些分類模型以轉(zhuǎn)換數(shù)據(jù)(步驟104)來對(duì)該過程進(jìn)行迭代,所述表達(dá)數(shù)據(jù)然后可以用來構(gòu)建額外的分類模型(步驟108)等。當(dāng)多個(gè)分類模型被構(gòu)建并且隨后被用于轉(zhuǎn)換表達(dá)數(shù)據(jù)時(shí),所述模型以其構(gòu)建的順序被應(yīng)用–即,被構(gòu)建的第一模型是用來轉(zhuǎn)換數(shù)據(jù)的第一模型,被構(gòu)建的第二模型用來對(duì)第一模型轉(zhuǎn)換的數(shù)據(jù)進(jìn)行轉(zhuǎn)換等。
初級(jí)模型的構(gòu)建
如在上面討論的,本發(fā)明的實(shí)施例通常構(gòu)建用于在平臺(tái)之間轉(zhuǎn)換數(shù)據(jù)集的初級(jí)模型(步驟100)。參照?qǐng)D2,模型訓(xùn)練過程開始于識(shí)別針對(duì)平臺(tái)x的表達(dá)數(shù)據(jù)(即,xi={xgj}i,j=1…k,其中g(shù)j表示針對(duì)平臺(tái)x的k個(gè)基因目標(biāo))與針對(duì)平臺(tái)y的表達(dá)數(shù)據(jù)(yi={ygj}i,j=1…l,具有針對(duì)平臺(tái)y的l個(gè)基因目標(biāo))之間的至少一個(gè)共同基因目標(biāo)(步驟200)。
如果不存在兩組目標(biāo)之間的直接映射,則目標(biāo)可以按其基因組位置而從一個(gè)集合被映射到另一集合。例如,如果源數(shù)據(jù)是rna-seq外顯子表達(dá)而目的數(shù)據(jù)是微陣列基因表達(dá),那么與微陣列探針集交疊的外顯子能夠被識(shí)別,并且在應(yīng)用回歸之前被總結(jié)為基因表達(dá)。
給定{si}i=1…n表示可用于構(gòu)建用于將基因表達(dá)數(shù)據(jù)從平臺(tái)x轉(zhuǎn)換到平臺(tái)y的模型的n個(gè)訓(xùn)練樣本,對(duì)于每個(gè)樣本si,使用在兩個(gè)平臺(tái)上檢測(cè)到的表達(dá)在xi與yi之間執(zhí)行回歸(步驟204)。
用于回歸過程的目標(biāo)模型被先驗(yàn)地假設(shè)為由m個(gè)參數(shù)來定義。取決于觀察到的來自源平臺(tái)與目的平臺(tái)的訓(xùn)練數(shù)據(jù)之間的關(guān)系,能夠選擇得到最小誤差的任何回歸模型,諸如非線性、對(duì)數(shù)、loess(局部回歸)或變量帶誤差(errors-in-variables)(eiv)模型。此外,優(yōu)化函數(shù)能夠被應(yīng)用以選擇具有最小誤差的模型。這種選擇可以是人類操作者的決定,或它可以是自動(dòng)或半自動(dòng)過程的結(jié)果。在適當(dāng)?shù)哪P捅贿x擇的情況下,回歸過程的輸出是n組參數(shù)ri={rk}i,k=1…m。
給定針對(duì)每個(gè)樣本si的回歸參數(shù)ri,從由平臺(tái)x生成的能夠?yàn)獒槍?duì)回歸參數(shù)的良好預(yù)測(cè)指標(biāo)的數(shù)據(jù)中選擇候選特征f(步驟208)。例如,如果平臺(tái)x是微陣列平臺(tái),則候選f可以包括平均表達(dá)、平均歸一化探針強(qiáng)度等。如果平臺(tái)x是rna-seq平臺(tái),則候選f可以包括平均表達(dá)、檢測(cè)到的基因的數(shù)量、讀數(shù)的總數(shù)量、讀數(shù)范圍等。關(guān)于回歸模型的選擇,候選特征f的識(shí)別可以由人類操作者或由自動(dòng)或半自動(dòng)過程來執(zhí)行。
不一定僅從源數(shù)據(jù)提取預(yù)測(cè)特征。有時(shí)來自目標(biāo)數(shù)據(jù)的特征可以在預(yù)測(cè)回歸參數(shù)時(shí)具有良好性能。在一些實(shí)施例中,這樣的目標(biāo)平臺(tái)特征也可以被包括在模型中,并且例如被分配有用于轉(zhuǎn)換過程的訓(xùn)練數(shù)據(jù)中的特征的平均值。
已經(jīng)從平臺(tái)x識(shí)別可能的候選特征f(步驟208),實(shí)際上預(yù)測(cè)回歸參數(shù)ri的那些特征fk必須從該組可能的候選特征f被識(shí)別(步驟212)。在一個(gè)實(shí)施例中,預(yù)測(cè)特征可以借助于例如逐步回歸或其他自動(dòng)、手動(dòng)、或半自動(dòng)方法來識(shí)別。如果目標(biāo)是要針對(duì)單個(gè)參數(shù)而非子集選擇單個(gè)預(yù)測(cè)特征,則與參數(shù)具有最高相關(guān)的特征能夠被選擇。
模型構(gòu)建過程的輸出包括所識(shí)別的預(yù)測(cè)特征fk和其對(duì)應(yīng)的用于預(yù)測(cè)針對(duì)每個(gè)樣本的si的回歸模型參數(shù)ri的模型γk(步驟216)。
在一些實(shí)施例中,針對(duì)具體平臺(tái)(例如,針對(duì)平臺(tái)x的xi,針對(duì)平臺(tái)y的yi等)的具有適當(dāng)歸一化的表達(dá)數(shù)據(jù)在識(shí)別共同表達(dá)(步驟200)之前針對(duì)訓(xùn)練樣本{si}(未示出)被生成。
初級(jí)模型轉(zhuǎn)換
一旦初級(jí)模型已經(jīng)被產(chǎn)生,它就可以用來將隨后的樣本從平臺(tái)x轉(zhuǎn)換到平臺(tái)y。對(duì)于以下討論來說假設(shè)存在針對(duì)新樣本pn的在平臺(tái)x上生成的數(shù)據(jù)。該數(shù)據(jù)包括表達(dá)譜zn和在上面關(guān)于圖2討論的預(yù)測(cè)特征{fk}k=1,…,m的多組預(yù)測(cè)特征值{vk}n。
參照?qǐng)D3,與pn相關(guān)聯(lián)的新數(shù)據(jù)的轉(zhuǎn)換開始于預(yù)測(cè)特征值{vk}n代入其相應(yīng)模型{γk}得到針對(duì)si的回歸模型參數(shù)rn(步驟300)。
預(yù)測(cè)的回歸模型參數(shù)rn能夠被應(yīng)用于預(yù)定的回歸模型(步驟304),使得表達(dá)譜能夠估計(jì)為針對(duì)樣本pn的
分類模型構(gòu)建和轉(zhuǎn)換
在一些實(shí)施例中,初級(jí)模型可以足以在譜分析平臺(tái)之間轉(zhuǎn)換表達(dá)數(shù)據(jù)。如在上面討論的,在其他實(shí)施例中,額外水平的分類建模和轉(zhuǎn)換可以用來在平臺(tái)之間轉(zhuǎn)換數(shù)據(jù)。
具體地,如果存在引入額外的跨平臺(tái)差異的一個(gè)或多個(gè)因子,那么可以執(zhí)行對(duì)與所述因子相關(guān)的額外水平的回歸,其中來自之前水平的回歸的轉(zhuǎn)換的數(shù)據(jù)充當(dāng)?shù)较乱凰降幕貧w的輸入。
例如,假設(shè)在在定義明確的類別
參照?qǐng)D4,分類建模過程開始于接收來自初級(jí)模型或來自之前水平的分類建模的經(jīng)轉(zhuǎn)換的數(shù)據(jù)(步驟400)。其次,對(duì)所有接收的經(jīng)轉(zhuǎn)換的值執(zhí)行按類別分層的回歸(步驟404)。對(duì)于每個(gè)類別,顯著改善準(zhǔn)確性(例如,均方根誤差)的那些模型被識(shí)別并且被保留(步驟408)。那些模型的識(shí)別針對(duì)能夠提供轉(zhuǎn)換的數(shù)據(jù)的準(zhǔn)確性的類別中的每個(gè)產(chǎn)生額外的多組回歸參數(shù){qm}l(步驟412)。
參照?qǐng)D5,與pn相關(guān)聯(lián)的經(jīng)轉(zhuǎn)換的數(shù)據(jù)的進(jìn)一步轉(zhuǎn)換開始于回歸參數(shù){qm}l代入其相應(yīng)的回歸模型(步驟500)。這些模型然后能夠用于針對(duì)樣本pn在第l級(jí)的轉(zhuǎn)換處將表達(dá)譜估計(jì)為
在圖4和5中示出的訓(xùn)練數(shù)據(jù)的分類建模和轉(zhuǎn)換的這種過程能夠針對(duì)多個(gè)獨(dú)立因子進(jìn)行重復(fù)以提高轉(zhuǎn)換準(zhǔn)確性。結(jié)果是依賴于順序的回歸模型的“棧”,其中初級(jí)逐樣本回歸在底部處而針對(duì)每個(gè)類別因子的額外層在彼此之上。圖6呈現(xiàn)了針對(duì)o個(gè)獨(dú)立因子的這種布置的一個(gè)范例。應(yīng)當(dāng)注意,當(dāng)應(yīng)用轉(zhuǎn)換模型的棧時(shí),被應(yīng)用的模型的順序必須與模型構(gòu)建過程中遵循的構(gòu)建的順序相同。
示例性實(shí)施例
根據(jù)一個(gè)實(shí)施例,提供了用于使用具有在相應(yīng)平臺(tái)中的每個(gè)上生成的數(shù)據(jù)的545個(gè)tcga樣本將基因表達(dá)數(shù)據(jù)(以log2標(biāo)尺)從affymetrixgenechiphthumangenomeu133arrayplatset(rma)轉(zhuǎn)換到illuminahiseq1000rna-seq(rsem)的系統(tǒng)和方法。一些逐樣本統(tǒng)計(jì)在表1中針對(duì)兩個(gè)平臺(tái)進(jìn)行總結(jié)。每個(gè)樣本的平均相關(guān)性為0.713,并且總的來說更高的表達(dá)示出更強(qiáng)的相關(guān)性。
表1–具有在affymetrix微陣列和illuminarna-seq平臺(tái)兩者上生成的表達(dá)數(shù)據(jù)的tcga樣本的總結(jié)統(tǒng)計(jì)
通過針對(duì)每個(gè)樣本生成rna-seq與微陣列表達(dá)的散點(diǎn)圖,能夠看出它們的關(guān)系能夠由分段線性模型合適地近似。在使用r編程語言的示例性實(shí)施方式中,線性回歸的‘lm’函數(shù)和‘分段’包的‘分段’函數(shù)被應(yīng)用于斷點(diǎn)(xb)估計(jì)。這得到在估計(jì)的斷點(diǎn)之前和之后針對(duì)線性模型四個(gè)回歸參數(shù){m1,c1,m2,c2}:y1=m1x1+c1,對(duì)于x≤xb,以及y2=m2x2+c2,對(duì)于x>xb。在下面的表2中總結(jié)了回歸的分段線性模型的總結(jié)統(tǒng)計(jì)。
表2–回歸的分段線性模型的總結(jié)統(tǒng)計(jì)。
接下來,生成用于預(yù)測(cè)四個(gè)回歸模型參數(shù)的候選特征的小的集合,并且能夠確定平均表達(dá)水平可行的單線性預(yù)測(cè)指標(biāo),其中具有r=-0.55對(duì)于m1和r=0.74對(duì)于c2的中等的強(qiáng)相關(guān)性,但是r=-0.27對(duì)于c1和r=0.19對(duì)于m2的更小相關(guān)性,其具有小的方差0.04。圖7(a)斜率1、7(b)截距1、7(c)斜率2和7(d)截距2中示出了平均表達(dá)水平與四個(gè)回歸參數(shù)之間的線性模型。
使用平均表達(dá)水平作為預(yù)測(cè)指標(biāo),能夠預(yù)測(cè)針對(duì)每個(gè)樣本的分段線性模型。圖8(a)和8(b)示出了針對(duì)兩個(gè)樣本的基于直接回歸和預(yù)測(cè)方法的分段線性模型,即,針對(duì)兩個(gè)tcga樣本的利用回歸模型和預(yù)測(cè)模型的跨平臺(tái)散點(diǎn)圖。
如所圖示的,對(duì)于中到高微陣列表達(dá),預(yù)測(cè)的rna-seq表達(dá)具有均方根誤差erms=1.4,其非常接近基于通過直接回歸得到的估計(jì)的值的1.39的均方根誤差。為了進(jìn)一步改善準(zhǔn)確性,額外水平的回歸和轉(zhuǎn)換能夠被應(yīng)用在使用如上面描述的分類方法跨所有樣本通過基因進(jìn)行分層的經(jīng)初級(jí)轉(zhuǎn)換的值上。圖9(a)和9(b)示出了針對(duì)一個(gè)樣本分別在第一水平的逐樣本轉(zhuǎn)換和第二水平的逐基因轉(zhuǎn)換之后的經(jīng)轉(zhuǎn)換的表達(dá)與原始的微陣列表達(dá)之間的關(guān)系。
參照?qǐng)D10,圖示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行轉(zhuǎn)換的系統(tǒng)的示意表示1000。系統(tǒng)1000包括用于接收樣本表達(dá)數(shù)據(jù)1004的接收器1002、被配置為存儲(chǔ)接收的樣本表達(dá)數(shù)據(jù)1004的存儲(chǔ)器1006、和處理器1008。
處理器1008被配置為如上所述地建立初級(jí)模型和分類模型,用于將基因表達(dá)數(shù)據(jù)從第一譜分析平臺(tái)轉(zhuǎn)換到第二譜分析平臺(tái),使得經(jīng)轉(zhuǎn)換的數(shù)據(jù)的總體分布類似于第二平臺(tái)的數(shù)據(jù)總體分布。
應(yīng)用
本發(fā)明的實(shí)施例可以被擴(kuò)展到從由多個(gè)平臺(tái)測(cè)量的數(shù)據(jù)來計(jì)算統(tǒng)一的表達(dá)。例如,所有數(shù)據(jù)都可以利用例如eiv回歸模型被轉(zhuǎn)換到一個(gè)特定平臺(tái),并且然后針對(duì)每個(gè)目標(biāo)將經(jīng)轉(zhuǎn)換的值利用加權(quán)平均進(jìn)行組合,所述加權(quán)平均使用與相應(yīng)源平臺(tái)的估計(jì)的噪聲方差成反比的權(quán)重。
雖然本發(fā)明的以上實(shí)施例關(guān)于對(duì)基因組平臺(tái)執(zhí)行的測(cè)量結(jié)果進(jìn)行描述,但是相同的過程和程序能夠被應(yīng)用于生理建模、成像、個(gè)人連續(xù)健康數(shù)據(jù)以及其他。
盡管本發(fā)明的以上實(shí)施例關(guān)于基因表達(dá)數(shù)據(jù)進(jìn)行描述,但是本文中描述的過程和程序可應(yīng)用于解決跨任何數(shù)字讀數(shù)的不同平臺(tái)或解析流水線的兼容性問題。例如,甲基化水平、蛋白表達(dá)或甚至傳感器測(cè)量結(jié)果由于底層系統(tǒng)的固有差別而具有結(jié)構(gòu)差異。
等價(jià)方案、定義等
盡管本文中描述和圖示了本發(fā)明的多個(gè)實(shí)施方式,但本領(lǐng)域普通技術(shù)人員可容易地想到用于執(zhí)行本文中描述的功能以及/或獲得本文中描述的結(jié)果和/或一個(gè)或多個(gè)優(yōu)點(diǎn)的眾多其它裝置和/或結(jié)構(gòu),并且這樣的變化和/或修改中的每個(gè)均被認(rèn)為落在本發(fā)明的范圍內(nèi)。更一般而言,本領(lǐng)域技術(shù)人員可容易地理解本文中描述的所有參數(shù)、尺寸、材料和配置均旨在作為示例性的,且實(shí)際的參數(shù)、尺寸、材料和/或配置將取決于本發(fā)明的教導(dǎo)所用于的具體應(yīng)用。本領(lǐng)域技術(shù)人員使用不超過常規(guī)的試驗(yàn)就可認(rèn)識(shí)或能夠確定與本文中描述的本發(fā)明的具體實(shí)施方式的許多等同方案。因此,應(yīng)理解上述實(shí)施方式僅作為示例來介紹的,并且,在所附權(quán)利要求和其等同方案的范圍內(nèi),可與具體描述和要求保護(hù)的不同地來實(shí)踐本發(fā)明。本發(fā)明被指向本文中描述的每個(gè)單個(gè)特征、系統(tǒng)、物品、材料、部件和/或方法。另外,如果這樣的特征、系統(tǒng)、物品、材料、部件和/或方法相互不矛盾的話,兩個(gè)或更多這樣的特征、系統(tǒng)、物品、材料、部件和/或方法的任意組合被包括在本發(fā)明的范圍內(nèi)。
除非明確地作出相反指示,否則在本說明書和權(quán)利要求中所用的詞語“一”和“一個(gè)”應(yīng)被理解為指的是“至少一個(gè)”。
在本說明書和權(quán)利要求中所用的短語“和/或”應(yīng)被理解為指的是如此結(jié)合的元素“之一或兩者”,即在一些情況下元素結(jié)合存在而在其它情況下分離存在。除非明確地作出相反指示,否則除了具體由“和/或”分句標(biāo)識(shí)出的元素之外,其它元素可以可選地存在,而無論與這些具體標(biāo)識(shí)出的元素有無關(guān)聯(lián)。因此,作為一個(gè)非限制性示例,對(duì)“a和/或b”而言,當(dāng)與比如“包括”的開放式語言結(jié)合起來使用時(shí),在一種實(shí)施方式中可指的a而沒有b(可選地包括除b以外的元素);在另一實(shí)施例中,指的b而沒有a(可選地包括除a以外的元素);在又一實(shí)施例中,指的a和b這兩者(可選地包括其它元素);等。
在本說明書和權(quán)利要求中所用的“或”應(yīng)被理解為與以上定義的“和/或”具有相同的含義。例如,當(dāng)在列舉中分隔項(xiàng)目時(shí),“或”或“和/或”應(yīng)解讀為包含的,即,包括多個(gè)元素或元素列舉中的至少一個(gè),但還可包括多于一個(gè),并且可選地包括額外的未列舉的項(xiàng)目。只有明確作出相反指示的術(shù)語,比如“僅一個(gè)”或“確切地一個(gè)”(或,當(dāng)用于權(quán)利要求中時(shí)的“由……組成”),將指稱包含多個(gè)元素或元素列舉中的確切地一個(gè)元素。總體而言,對(duì)本文中所用的術(shù)語“或”而言,當(dāng)被用在比如“其一”、“之一”、“僅一個(gè)”或“確切地一個(gè)”的排他術(shù)語后面時(shí),應(yīng)僅僅解讀為指示排他的選擇(即“一個(gè)或另一個(gè),而不是兩者都”)。對(duì)“主要由……組成”而言,當(dāng)在權(quán)利要求中使用時(shí),應(yīng)具有其在專利法范圍內(nèi)使用時(shí)的常規(guī)含義。
在本說明書和權(quán)利要求中所用的引用一種或多種元素的列舉的短語“至少一個(gè)”應(yīng)理解為指的是從元素列舉中的任意一種或多種元素中選擇至少一個(gè)元素,但不一定包括在元素列舉中具體列出的每一元素的至少一個(gè),并且不排除元素列表中的元素的任意組合。該定義還允許可以任選地存在不同于短語“至少一個(gè)”所引用的元素列舉中的被具體標(biāo)識(shí)出的元素的其它元素,而無論其與這些具體標(biāo)識(shí)出的元素有無關(guān)聯(lián)。因此,作為一個(gè)非限制性示例,對(duì)“a和b中的至少一個(gè)”(或等同地,“a或b中的至少一個(gè)”,或等同地“a和/或b中的至少一個(gè)”)而言,在一個(gè)實(shí)施例中可以是指至少一個(gè)(任選地包含多于一個(gè))a而沒有b存在(并且任選地包括不同于b的元素);在另一實(shí)施例中可以是指至少一個(gè)(任選地包含多于一個(gè))b而沒有a存在(并且任選地包括不同于a的元素);在又一實(shí)施例中,是指至少一個(gè)(任選地包括多于一個(gè))a,以及至少一個(gè)(并且任選地包括多于一個(gè))b(并且任選地包括其它元素);等。
在權(quán)利要求中,以及在上述說明書中,所有比如“包含”、“包括”、“承載”、“具有”、“含有”、“涉及”、“持有”等的過渡詞均應(yīng)被理解為開放式的,即應(yīng)被理解為指的是包括但不限于。
只有“由……組成”和“主要由……組成”等過渡詞會(huì)分別是封閉式或半封閉連接詞,與美國專利局專利審查程序指南第2111.03節(jié)中所闡述。
在權(quán)利要求中使用諸如“第一”、“第二”、“第三”等序數(shù)術(shù)語來修飾權(quán)利要求要素本身并不暗示一個(gè)權(quán)利要求要素具有優(yōu)于另一權(quán)利要求要素的任何優(yōu)先性、在先性或順序或執(zhí)行方法的動(dòng)作的時(shí)間順序,而僅用作區(qū)分具有某一名稱的一個(gè)權(quán)利要求要素與具有同一名稱(除了序數(shù)術(shù)語的使用)的另一要素以區(qū)分權(quán)利要求要素的標(biāo)志。
還應(yīng)當(dāng)理解,除非明確指示相反情形,在本文中要求保護(hù)的包括多于一個(gè)步驟或動(dòng)作的任何方法中,該方法的步驟或動(dòng)作的順序不一定受限于該方法所列舉的步驟或動(dòng)作的順序。