用于鑒定具有期望生物活性的劑的方法
【專利摘要】本發(fā)明提供了用于鑒定具有期望生物活性的劑的方法、系統(tǒng)和裝置。具體地,所述方法、系統(tǒng)和裝置鑒定多種劑之間和/或一種或多種劑與所關(guān)注狀況之間的功能關(guān)系。多個(gè)實(shí)驗(yàn)批次的數(shù)據(jù)被歸一化,導(dǎo)致批次效應(yīng),并且所述經(jīng)調(diào)節(jié)的數(shù)據(jù)用于創(chuàng)建投射矩陣或函數(shù)。所述投射矩陣用于將所述數(shù)據(jù)投射到投射空間中,其中可確定在查詢劑或查詢狀況和多種候選劑之間的距離。
【專利說(shuō)明】用于鑒定具有期望生物活性的劑的方法
【背景技術(shù)】
[0001] 連接映射是一種熟知的假說(shuō)產(chǎn)生和測(cè)試工具,在運(yùn)籌學(xué)、計(jì)算機(jī)聯(lián)網(wǎng)和電信領(lǐng)域 具有成功的應(yīng)用。人類基因組計(jì)劃(Human Genome Project)的進(jìn)展和完成與平行發(fā)展的 極高通量的高密度DNA微陣列技術(shù)導(dǎo)致多個(gè)基因數(shù)據(jù)庫(kù)的產(chǎn)生。同時(shí),經(jīng)由計(jì)算機(jī)方法如 分子建模和對(duì)接研究對(duì)于新藥物活性物質(zhì)的探索刺激了潛在的小分子活性物質(zhì)大文庫(kù)的 產(chǎn)生。關(guān)聯(lián)疾病與遺傳特征圖、遺傳特征圖與藥物、和疾病與藥物的信息量以指數(shù)增加,并 且應(yīng)用連接映射作為假說(shuō)測(cè)試工具在藥物科學(xué)中成熟了。
[0002] 可精確地測(cè)定之前未表征的基因功能、和藥劑的潛在靶標(biāo)可通過(guò)連接映射在藥物 處理細(xì)胞的基因表達(dá)譜數(shù)據(jù)庫(kù)中鑒定的一般觀念首先在2000年隨著T. R. Hughes等人的開 創(chuàng)性論文("Functional discovery via a compendium of expression profiles,'Cell 102,109-126(2000))的公布而被提出,隨后不久隨著Justin Lamb和MIT的研究者的 The Connectivity Map Project ( ^Connectivity Map:Gene Expression Signatures to Connect Small Molecules,Genes,and Disease,,'Science,Vol 313(2006)而被提出。在 2006年,Lamb的團(tuán)隊(duì)開始公布"C-Map"構(gòu)造的結(jié)構(gòu)、用于創(chuàng)建第一代C-Map的基因表達(dá)譜 的參考集合的形成、和持續(xù)大規(guī)模C-Map項(xiàng)目的啟動(dòng)的詳細(xì)摘要,其可用的支持材料超鏈 接為 http://www. sciencemag. org/content/313/5795/1929/suppl/DCl。
[0003] 現(xiàn)代連接映射具有嚴(yán)密的數(shù)學(xué)支持并且受到現(xiàn)代計(jì)算機(jī)技術(shù)的輔助,已經(jīng)產(chǎn)生了 得到證實(shí)的醫(yī)學(xué)成就,鑒定了用于治療多種疾?。òò┌Y)的新劑。盡管如此,某些限 制性的假設(shè)挑戰(zhàn)連接映射對(duì)于復(fù)合酶起源的疾病或特征在于各種不同的和常常明顯不相 關(guān)的細(xì)胞表型表現(xiàn)的綜合征狀況的應(yīng)用。根據(jù)Lamb,構(gòu)建可用的連接映射的挑戰(zhàn)在于輸 入?yún)⒖紨?shù)據(jù)的選擇,其允許在查詢時(shí)生成臨床顯著的并且可用的輸出。對(duì)于Lamb的藥物 相關(guān)的C-Map,強(qiáng)結(jié)合包括引用結(jié)合,并且強(qiáng)結(jié)合是鑒定為hits的期望輸出。盡管注意到 高通量、高密度表達(dá)譜平臺(tái)的有益效果,Lamb仍警告說(shuō):"[e]ven this much firepower is insufficient to enable the analysis of every one of the estimated 200 different cell types exposed to every known perturbagen at every possible concentration for every possible duration··· compromises are therefore required,'(第 54 頁(yè),第 3行,最后一段)。從而,Lamb將他的C-Map限制為來(lái)自非常少數(shù)量的確定細(xì)胞系的數(shù)據(jù)。 Lamb也強(qiáng)調(diào)如果參考連接是極其敏感的并且同時(shí)難以檢測(cè)(弱),會(huì)遇到特別的困難,并且 Lamb對(duì)于最小化多個(gè)擴(kuò)散的結(jié)合采取了妥協(xié)。
[0004] 基于標(biāo)記的C-Map查詢通過(guò)鑒定對(duì)應(yīng)于響應(yīng)例如所關(guān)注狀況的顯著上調(diào)或下調(diào) 的基因的探針組列表而進(jìn)行。將探針組的這種列表稱為狀況標(biāo)記。該標(biāo)記對(duì)于C-Map數(shù)據(jù) 庫(kù)計(jì)分以鑒定最好地復(fù)制或逆反標(biāo)記的劑?;跇?biāo)記的查詢方法已經(jīng)被成功地用于鑒定許 多新技術(shù)。然而,所關(guān)注的狀況可能涉及復(fù)雜的過(guò)程,其涉及多種已知的和未知的外部和內(nèi) 部因素,并且對(duì)此類因素的響應(yīng)可能隨時(shí)間而變化。這與在藥物篩選方法中通常觀察到的 結(jié)果相反,其中研究特定的對(duì)象、基因、或機(jī)制。假定細(xì)胞的復(fù)雜性響應(yīng)于刺激,產(chǎn)生生物狀 況的準(zhǔn)確標(biāo)記并且區(qū)分可歸于干擾原(perturbagen)或狀況的基因表達(dá)數(shù)據(jù)與背景基因 表達(dá)數(shù)據(jù)可能是挑戰(zhàn)性的。因此,對(duì)于基于標(biāo)記的查詢,查詢標(biāo)記應(yīng)被仔細(xì)地溯源,因?yàn)轭A(yù) 測(cè)值可能取決于基因標(biāo)記的質(zhì)量。
[0005] 能夠影響查詢標(biāo)記的一個(gè)因素是標(biāo)記中包括的基因數(shù)量。必須選擇足夠數(shù)量的基 因以反映與對(duì)干擾原或狀況的細(xì)胞響應(yīng)相關(guān)聯(lián)的顯著和關(guān)鍵生物學(xué)。然而,基因組優(yōu)選地 不包括表現(xiàn)出統(tǒng)計(jì)意義上顯著的表達(dá)波動(dòng)(由于隨機(jī)機(jī)率)的大量基因。對(duì)于一些數(shù)據(jù)架 構(gòu)和連接映射,過(guò)少的基因(例如多于20, 000個(gè)測(cè)量探針組中的500個(gè)探針組)可能產(chǎn)生 對(duì)于最高計(jì)分實(shí)例不穩(wěn)定的標(biāo)記;查詢標(biāo)記小的改變可能導(dǎo)致最高計(jì)分實(shí)例中的顯著差異 (即,查詢標(biāo)記中小的改變可能顯著改變查詢結(jié)果)。與基于標(biāo)記的C-Map查詢的探針的子 集的選擇相關(guān)聯(lián)的挑戰(zhàn)限制了該技術(shù)在一些情況下的效果。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提供用于鑒定具有期望生物活性和/或作用機(jī)制的劑的新型方法、設(shè)備、 和系統(tǒng)。具體地,本公開提供一種工具,用于測(cè)試和產(chǎn)生關(guān)于劑(即,"干擾原")和基于經(jīng) 多個(gè)批次收集的基因表達(dá)數(shù)據(jù)的生物狀況的假說(shuō)。本發(fā)明的方法、設(shè)備、和系統(tǒng)適于例如鑒 定在不同狀況的處理中有效的劑。
[0007] 本【具體實(shí)施方式】描述了多個(gè)實(shí)施例,它們廣泛地包括用于確定多種干擾原之間的 關(guān)系的方法、設(shè)備、和系統(tǒng)。本【具體實(shí)施方式】也描述了多個(gè)實(shí)施例,它們廣泛地包括用于確 定所關(guān)注的生物狀況和一種或多種干擾原之間的關(guān)系的方法、設(shè)備、和系統(tǒng)。該方法可用于 鑒定干擾原,其影響在不詳細(xì)了解造成該狀況的生物過(guò)程情況下的生物狀況的表現(xiàn)、與該 狀況相關(guān)聯(lián)的全部基因、或與該狀況相關(guān)聯(lián)的細(xì)胞類型。
[0008] 用于構(gòu)建數(shù)據(jù)架構(gòu)的計(jì)算機(jī)實(shí)現(xiàn)的方法保存在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,其以通信 方式聯(lián)接至處理器。該方法包括從計(jì)算機(jī)可讀介質(zhì)的第一數(shù)據(jù)庫(kù)中檢索多個(gè)實(shí)例。每個(gè)實(shí) 例對(duì)應(yīng)于多個(gè)批次之一且包括多個(gè)探針中的每個(gè)的表達(dá)值。多個(gè)批次中每個(gè)產(chǎn)生多個(gè)對(duì)照 實(shí)例和多個(gè)測(cè)試實(shí)例,所述多個(gè)對(duì)照實(shí)例對(duì)應(yīng)于與對(duì)照相關(guān)的基因表達(dá)譜(GEP),所述多個(gè) 測(cè)試實(shí)例對(duì)應(yīng)于與干擾原相關(guān)的GEP。該方法也包括從多個(gè)探針中選擇探針的子集(其可 為全部探針)。該方法還包括利用處理器來(lái)確定每個(gè)批次的平均對(duì)照GEP。平均對(duì)照GEP 僅包括選擇的探針的子集,并且對(duì)于每個(gè)探針的子集通過(guò)計(jì)算探針經(jīng)多個(gè)對(duì)照實(shí)例的平均 表達(dá)值來(lái)確定。另外,該方法包括利用處理器確定批次中每個(gè)測(cè)試實(shí)例經(jīng)調(diào)節(jié)的GEP。每個(gè) 經(jīng)調(diào)節(jié)的GEP對(duì)于每個(gè)探針的子集通過(guò)確定每批測(cè)試實(shí)例中的表達(dá)值和對(duì)照實(shí)例中探針 的平均表達(dá)值之間的差異來(lái)確定。另外,該方法包括在計(jì)算機(jī)可讀介質(zhì)的第二數(shù)據(jù)庫(kù)中存 儲(chǔ)多個(gè)經(jīng)調(diào)節(jié)的實(shí)例,每個(gè)經(jīng)調(diào)節(jié)的實(shí)例對(duì)應(yīng)于在全部多個(gè)批次中由全部測(cè)試實(shí)例確定的 經(jīng)調(diào)節(jié)的GEP之一。
[0009] 數(shù)據(jù)結(jié)構(gòu)包括經(jīng)調(diào)節(jié)的GEP矩陣。經(jīng)調(diào)節(jié)的GEP從多個(gè)批次的測(cè)試實(shí)例中確定。 每個(gè)批次包括多個(gè)對(duì)照實(shí)例和多個(gè)測(cè)試實(shí)例。每個(gè)經(jīng)調(diào)節(jié)的GEP對(duì)于多個(gè)探針中的每個(gè)在 特定批次探針經(jīng)多個(gè)對(duì)照實(shí)例的平均表達(dá)值和在特定批次內(nèi)的測(cè)試實(shí)例中的探針表達(dá)值 之間包括不同的值。
[0010] 用于鑒定處理一種狀況的候選干擾原的方法包括訪問(wèn)與多個(gè)批次的GEP實(shí)驗(yàn)相 關(guān)的數(shù)據(jù)。每個(gè)批次與多個(gè)測(cè)試實(shí)例相關(guān)聯(lián),測(cè)試實(shí)例與干擾原和多個(gè)對(duì)照實(shí)例相關(guān)聯(lián)。每 個(gè)實(shí)例包括多個(gè)探針中的每個(gè)的表達(dá)值。該方法也包括確定每個(gè)批次的平均對(duì)照GEP。平 均對(duì)照GEP通過(guò)將全部對(duì)照實(shí)例中每個(gè)探針的子集的表達(dá)值平均化來(lái)確定。該方法還包括 確定一批中每個(gè)測(cè)試實(shí)例的經(jīng)調(diào)節(jié)的測(cè)試GEP。每個(gè)經(jīng)調(diào)節(jié)的GEP通過(guò)從對(duì)應(yīng)批次的平均 對(duì)照GEP中的對(duì)應(yīng)探針表達(dá)值中減去測(cè)試實(shí)例中每個(gè)探針的子集的表達(dá)值來(lái)確定。數(shù)據(jù)矩 陣通過(guò)組合來(lái)自全部多個(gè)批次中全部經(jīng)調(diào)節(jié)的測(cè)試GEP產(chǎn)生。通過(guò)從數(shù)據(jù)矩陣中移除任何 干擾原經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建約簡(jiǎn)數(shù)據(jù)矩陣,對(duì)于干擾原在數(shù)據(jù)矩陣中僅存在單個(gè)經(jīng)調(diào)節(jié) 的測(cè)試GEP。該方法還包括對(duì)約簡(jiǎn)數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計(jì)分析以創(chuàng)建限定投射空間的投 射矩陣或投射函數(shù),并且使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建經(jīng) 投射的矩陣。另外,該方法還包括確定維度數(shù)量以保持經(jīng)投射的矩陣(該數(shù)量可為全部維 度)。確定經(jīng)調(diào)節(jié)的狀況GEP,并且利用突出矩陣或投射函數(shù)將經(jīng)調(diào)節(jié)的狀況GEP投射到投 射空間上。經(jīng)調(diào)節(jié)的狀況GEP在投射空間中的位置與經(jīng)調(diào)節(jié)的測(cè)試GEP在投射空間中的位 置進(jìn)行比較以鑒定一種或多種干擾原。
[0011] 在用于鑒定具有類似生物活性的干擾原的方法中,該方法包括訪問(wèn)多個(gè)批次與 GEP實(shí)驗(yàn)相關(guān)的數(shù)據(jù)。每個(gè)批次與多個(gè)對(duì)照實(shí)例和多個(gè)測(cè)試實(shí)例相關(guān)聯(lián)。多個(gè)對(duì)照實(shí)例中 的每個(gè)對(duì)于對(duì)照細(xì)胞包括與GEP相關(guān)的信息,包括多個(gè)測(cè)試實(shí)例中的每個(gè)包括與暴露于對(duì) 應(yīng)干擾原的細(xì)胞相關(guān)的信息。每個(gè)實(shí)例包括多個(gè)探針中的每個(gè)的表達(dá)值。該方法也包括確 定每個(gè)批次的平均對(duì)照GEP。批次的平均對(duì)照GEP通過(guò)將全部對(duì)照GEP中每個(gè)探針的子集 的表達(dá)值平均化來(lái)確定。該方法還包括確定一批中每個(gè)測(cè)試實(shí)例的經(jīng)調(diào)節(jié)的測(cè)試GEP。每 個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP通過(guò)從對(duì)應(yīng)批次的平均對(duì)照GEP的表達(dá)值中減去測(cè)試實(shí)例中每個(gè)探針 的子集的表達(dá)值來(lái)確定。數(shù)據(jù)矩陣通過(guò)組合來(lái)自全部多個(gè)批次的全部經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng) 建,并且約簡(jiǎn)數(shù)據(jù)矩陣通過(guò)從數(shù)據(jù)矩陣中移除任何干擾原經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建,對(duì)于干 擾原在數(shù)據(jù)矩陣中僅存在單個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP。對(duì)約簡(jiǎn)數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計(jì)分析以 創(chuàng)建限定投射空間的投射矩陣或投射函數(shù)。利用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投 射空間上以創(chuàng)建經(jīng)投射的矩陣。另外,該方法包括確定維度數(shù)量以保持經(jīng)投射的矩陣。比 較經(jīng)調(diào)節(jié)的測(cè)試GEP在投射空間中的位置以鑒定具有相似生物活性的干擾原。
[0012] 用于鑒定處理一種狀況的候選干擾原的系統(tǒng)包括存儲(chǔ)多個(gè)GEP記錄的第一數(shù)據(jù) 庫(kù)。每個(gè)GEP記錄對(duì)應(yīng)于多個(gè)批次中的一個(gè),并且對(duì)于批次中以實(shí)驗(yàn)方法確定的多個(gè)GEP中 的每個(gè)包括多個(gè)探針中的每個(gè)的表達(dá)值。多個(gè)批次中的每個(gè)包括多個(gè)對(duì)照GEP和多個(gè)測(cè)試 GEP。每個(gè)測(cè)試GEP用于暴露于一種干擾原的細(xì)胞("干擾原GEP")或暴露于一種狀況的 細(xì)胞("狀況GEP")。該系統(tǒng)還包括以通信方式聯(lián)接至數(shù)據(jù)庫(kù)和存儲(chǔ)器設(shè)備的計(jì)算機(jī)處理 器。存儲(chǔ)器設(shè)備存儲(chǔ)可由處理器執(zhí)行的指令以從計(jì)算機(jī)可讀介質(zhì)的第一數(shù)據(jù)庫(kù)中檢索多個(gè) GEP記錄。指令還是可執(zhí)行的,用于確定每個(gè)批次的平均對(duì)照GEP。批次的平均對(duì)照GEP僅 包括選擇的探針的子集,并且對(duì)于每個(gè)探針的子集通過(guò)計(jì)算探針經(jīng)多個(gè)對(duì)照GEP的平均表 達(dá)值來(lái)確定。指令還是可執(zhí)行的,用于確定批次中每個(gè)干擾原GEP的經(jīng)調(diào)節(jié)的測(cè)試GEP。每 個(gè)經(jīng)調(diào)節(jié)的GEP對(duì)于每個(gè)探針的子集通過(guò)確定干擾原GEP中的表達(dá)值和對(duì)應(yīng)批次對(duì)照GEP 中探針的平均表達(dá)值之間的差異來(lái)確定。另外,指令是可執(zhí)行的以創(chuàng)建數(shù)據(jù)矩陣,該矩陣通 過(guò)組合來(lái)自全部多個(gè)批次的全部經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建,并且約簡(jiǎn)數(shù)據(jù)矩陣通過(guò)從數(shù)據(jù)矩 陣中移除任何干擾原經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建,對(duì)于干擾原在數(shù)據(jù)矩陣中僅存在單個(gè)經(jīng)調(diào)節(jié) 的測(cè)試GEP。指令是可執(zhí)行的以對(duì)約簡(jiǎn)數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計(jì)分析以創(chuàng)建限定投射空間 的投射矩陣或投射函數(shù),并且使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng) 建經(jīng)投射的矩陣。另外,指令是可執(zhí)行的,用于確定維度數(shù)量以保持經(jīng)投射的矩陣、確定經(jīng) 調(diào)節(jié)的狀況GEP載體、并且利用投射矩陣或投射函數(shù)將經(jīng)調(diào)節(jié)的狀況GEP載體投射到投射 空間上。指令還是可執(zhí)行的以比較經(jīng)調(diào)節(jié)的狀況GEP中投射空間中的位置與經(jīng)調(diào)節(jié)的測(cè)試 GEP在投射空間中的位置,從而鑒定一種或多種干擾原。
[0013] 系統(tǒng)包括存儲(chǔ)多個(gè)GEP記錄的第一數(shù)據(jù)庫(kù)。每個(gè)GEP記錄對(duì)應(yīng)于多個(gè)批次中的 一個(gè),并且對(duì)于批次中以實(shí)驗(yàn)方法確定的多個(gè)GEP中的每個(gè)包括多個(gè)探針中的每個(gè)的表達(dá) 值。多個(gè)批次中的每個(gè)包括多個(gè)對(duì)照GEP和多個(gè)干擾原GEP。每個(gè)干擾原GEP用于暴露于 干擾原的細(xì)胞。該系統(tǒng)也包括以通信方式聯(lián)接至數(shù)據(jù)庫(kù)和通過(guò)處理器存儲(chǔ)可執(zhí)行指令的存 儲(chǔ)器設(shè)備的計(jì)算機(jī)處理器。指令是可執(zhí)行的以從計(jì)算機(jī)可讀介質(zhì)的第一數(shù)據(jù)庫(kù)中檢索多個(gè) GEP記錄。指令還是可執(zhí)行的,用于確定每個(gè)批次的平均對(duì)照GEP。批次的平均對(duì)照GEP僅 包括選擇的探針的子集,并且對(duì)于每個(gè)探針的子集通過(guò)計(jì)算探針經(jīng)多個(gè)對(duì)照GEP的平均表 達(dá)值來(lái)確定。此外,指令是可執(zhí)行的以確定批次中每個(gè)干擾原GEP的經(jīng)調(diào)節(jié)的測(cè)試GEP。每 個(gè)經(jīng)調(diào)節(jié)的GEP對(duì)于每個(gè)探針的子集通過(guò)確定干擾原GEP中的表達(dá)值和對(duì)應(yīng)批次對(duì)照GEP 中探針的平均表達(dá)值之間的差異來(lái)確定。另外,指令是可執(zhí)行的以創(chuàng)建數(shù)據(jù)矩陣,該矩陣通 過(guò)組合來(lái)自全部多個(gè)批次的全部經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建,并且約簡(jiǎn)數(shù)據(jù)矩陣通過(guò)從數(shù)據(jù)矩 陣中移除任何干擾原經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建,對(duì)于干擾原在數(shù)據(jù)矩陣中僅存在單個(gè)經(jīng)調(diào)節(jié) 的測(cè)試GEP。另外,指令是可執(zhí)行的以對(duì)約簡(jiǎn)數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計(jì)分析以創(chuàng)建限定投射 空間的投射矩陣或投射函數(shù),并且使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上 以創(chuàng)建經(jīng)投射的矩陣。指令還是可執(zhí)行的,用于確定維度數(shù)量以保持經(jīng)投射的矩陣、接收對(duì) 應(yīng)于查詢干擾原的經(jīng)調(diào)節(jié)的測(cè)試GEP選擇;并且用于比較對(duì)應(yīng)于查詢干擾原的經(jīng)調(diào)節(jié)的測(cè) 試GEP在投射空間中的位置與每個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP在投射空間中的位置。
[0014] 計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)一組指令,該組指令通過(guò)聯(lián)接到計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的 處理器可執(zhí)行。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括用于獲取多個(gè)批次的GEP實(shí)驗(yàn)數(shù)據(jù)的指令。每個(gè) 批次產(chǎn)生包括與干擾原相關(guān)的信息的多個(gè)測(cè)試實(shí)例和多個(gè)對(duì)照實(shí)例。每個(gè)實(shí)例包括多個(gè)探 針中的每個(gè)的表達(dá)值。存儲(chǔ)介質(zhì)也包括用于確定每個(gè)批次的平均對(duì)照GEP的指令。批次的 平均對(duì)照GEP通過(guò)將全部對(duì)照GEP中每個(gè)探針的子集的表達(dá)值平均化來(lái)確定。另外,存儲(chǔ)介 質(zhì)包括用于確定批次中每個(gè)測(cè)試實(shí)例經(jīng)調(diào)節(jié)的測(cè)試GEP的指令。每個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP通 過(guò)從對(duì)應(yīng)批次的平均對(duì)照GEP的表達(dá)值中減去測(cè)試實(shí)例中每個(gè)探針的子集的表達(dá)值來(lái)確 定。另外,存儲(chǔ)介質(zhì)包括用于通過(guò)組合來(lái)自全部多個(gè)批次的全部經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建數(shù) 據(jù)矩陣的指令和用于通過(guò)從數(shù)據(jù)矩陣中移除任何干擾原經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建約簡(jiǎn)數(shù)據(jù) 矩陣的指令,對(duì)于干擾原在數(shù)據(jù)矩陣中僅存在單個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP。另外,存儲(chǔ)介質(zhì)包括 對(duì)約簡(jiǎn)數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計(jì)分析以創(chuàng)建限定投射空間的投射矩陣或投射函數(shù)的指令、 使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建經(jīng)投射的矩陣的指令、和用 于確定維度數(shù)量以保持經(jīng)投射的矩陣的指令。存儲(chǔ)介質(zhì)還包括比較經(jīng)調(diào)節(jié)的測(cè)試GEP在投 射空間中的位置以鑒定具有相似生物活性的干擾原的指令。
[0015] 計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)一組指令,該組指令通過(guò)聯(lián)接到計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的 處理器可執(zhí)行。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括用于獲取多個(gè)批次的GEP實(shí)驗(yàn)數(shù)據(jù)的指令。每個(gè) 批次產(chǎn)生包括與干擾原相關(guān)的信息的多個(gè)測(cè)試實(shí)例和多個(gè)對(duì)照實(shí)例。每個(gè)實(shí)例包括多個(gè)探 針中的每個(gè)的表達(dá)值。存儲(chǔ)介質(zhì)也包括用于確定每個(gè)批次的平均對(duì)照GEP的指令。批次的 平均對(duì)照GEP通過(guò)將全部對(duì)照實(shí)例中每個(gè)探針的子集的表達(dá)值平均化來(lái)確定。另外,存儲(chǔ) 介質(zhì)包括用于確定批次中每個(gè)測(cè)試實(shí)例經(jīng)調(diào)節(jié)的測(cè)試GEP的指令。每個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP 通過(guò)從對(duì)應(yīng)批次的平均對(duì)照GEP的表達(dá)值中減去測(cè)試實(shí)例中每個(gè)探針的子集的表達(dá)值來(lái) 確定。另外,存儲(chǔ)介質(zhì)包括用于通過(guò)組合來(lái)自全部多個(gè)批次的全部經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建 數(shù)據(jù)矩陣的指令和用于通過(guò)從數(shù)據(jù)矩陣中移除任何干擾原經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建約簡(jiǎn)數(shù) 據(jù)矩陣的指令,對(duì)于干擾原在數(shù)據(jù)矩陣中僅存在單個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP。另外,存儲(chǔ)介質(zhì)包 括對(duì)約簡(jiǎn)數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計(jì)分析以創(chuàng)建限定投射空間的投射矩陣或投射函數(shù)的指 令、使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建經(jīng)投射的矩陣的指令、 和用于確定維度數(shù)量以保持經(jīng)投射的矩陣的指令。存儲(chǔ)介質(zhì)還包括用于確定經(jīng)調(diào)節(jié)的狀況 GEP的指令、利用投射矩陣將經(jīng)調(diào)節(jié)的狀況GEP投射到投射空間上的指令、和用于比較經(jīng)調(diào) 節(jié)的狀況GEP在投射空間中的位置與經(jīng)調(diào)節(jié)的測(cè)試GEP在投射空間中的位置以鑒定一種或 多種干擾原的指令。
[0016] 用于鑒定具有相反生物活性的干擾原的方法包括訪問(wèn)多個(gè)批次與GEP實(shí)驗(yàn)相關(guān) 的數(shù)據(jù)。每個(gè)批次與多個(gè)對(duì)照實(shí)例和多個(gè)測(cè)試實(shí)例相關(guān)聯(lián)。多個(gè)對(duì)照實(shí)例中的每個(gè)包括與 對(duì)照細(xì)胞的GEP相關(guān)的信息。多個(gè)測(cè)試實(shí)例中的每個(gè)包括與暴露于相應(yīng)干擾原的細(xì)胞相關(guān) 的信息。每個(gè)實(shí)例包括多個(gè)探針中的每個(gè)的表達(dá)值。平均對(duì)照GEP針對(duì)每個(gè)批次進(jìn)行確定。 批次的平均對(duì)照GEP通過(guò)將全部對(duì)照GEP中每個(gè)探針的子集的表達(dá)值平均化來(lái)確定。該方 法還包括確定一批中每個(gè)測(cè)試實(shí)例的經(jīng)調(diào)節(jié)的測(cè)試GEP。每個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP通過(guò)從對(duì) 應(yīng)批次的平均對(duì)照GEP的表達(dá)值中減去測(cè)試實(shí)例中每個(gè)探針的子集的表達(dá)值來(lái)確定。數(shù)據(jù) 矩陣通過(guò)組合來(lái)自全部多個(gè)批次的全部經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建,并且約簡(jiǎn)數(shù)據(jù)矩陣通過(guò)從 數(shù)據(jù)矩陣中移除任何干擾原經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建,對(duì)于干擾原在數(shù)據(jù)矩陣中僅存在單個(gè) 經(jīng)調(diào)節(jié)的測(cè)試GEP。對(duì)約簡(jiǎn)數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計(jì)分析以創(chuàng)建限定投射空間的投射矩陣 或投射函數(shù)。該方法還包括利用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建 經(jīng)投射的矩陣、以及確定維度數(shù)量以保持經(jīng)投射的矩陣。另外,該方法還包括比較經(jīng)調(diào)節(jié)的 測(cè)試GEP在投射空間中的位置以鑒定具有相反生物活性的干擾原。
[0017] 通過(guò)鑒定暴露于不同干擾原的細(xì)胞的基因表達(dá)譜之間的相似性來(lái)配制組合物的 方法包括訪問(wèn)與多個(gè)批次的GEP實(shí)驗(yàn)相關(guān)的數(shù)據(jù)。每個(gè)批次與多個(gè)對(duì)照實(shí)例和多個(gè)測(cè)試實(shí) 例相關(guān)聯(lián)。多個(gè)對(duì)照實(shí)例中的每個(gè)對(duì)于對(duì)照細(xì)胞包括與GEP相關(guān)的信息,包括多個(gè)測(cè)試實(shí) 例中的每個(gè)包括與暴露于對(duì)應(yīng)干擾原的細(xì)胞相關(guān)的信息。每個(gè)實(shí)例包括多個(gè)探針中的每個(gè) 的表達(dá)值。該方法也包括確定每個(gè)批次的平均對(duì)照GEP。批次的平均對(duì)照GEP通過(guò)將全部 對(duì)照GEP中每個(gè)探針的子集的表達(dá)值平均化來(lái)確定。該方法還包括確定一批中每個(gè)測(cè)試實(shí) 例的經(jīng)調(diào)節(jié)的測(cè)試GEP。每個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP通過(guò)從對(duì)應(yīng)批次的平均對(duì)照GEP的表達(dá)值 中減去測(cè)試實(shí)例中每個(gè)探針的子集的表達(dá)值來(lái)確定。數(shù)據(jù)矩陣通過(guò)組合來(lái)自全部多個(gè)批次 的全部經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建,并且約簡(jiǎn)數(shù)據(jù)矩陣通過(guò)從數(shù)據(jù)矩陣中移除任何干擾原經(jīng)調(diào) 節(jié)的測(cè)試GEP創(chuàng)建,對(duì)于干擾原在數(shù)據(jù)矩陣中僅存在單個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP。對(duì)約簡(jiǎn)數(shù)據(jù)矩 陣執(zhí)行多變量統(tǒng)計(jì)分析以創(chuàng)建限定投射空間的投射矩陣或投射函數(shù),并且使用投射矩陣或 投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建投射矩陣。該方法還包括確定維度數(shù)量以保 持經(jīng)投射的矩陣、比較經(jīng)調(diào)節(jié)的測(cè)試GEP在投射空間中的位置以鑒定具有相似生物活性的 干擾原、以及配制包含可接受載體和根據(jù)其與第二干擾原在投射空間中的接近程度選擇的 至少一種干擾原的組合物。
[0018] 通過(guò)鑒別暴露于一種干擾原的細(xì)胞的基因表達(dá)譜和暴露于一種狀況的細(xì)胞的基 因表達(dá)譜之間的差異來(lái)配制組合物的方法包括訪問(wèn)與多個(gè)批次的GEP實(shí)驗(yàn)相關(guān)的數(shù)據(jù)。每 個(gè)批次與多個(gè)測(cè)試實(shí)例相關(guān)聯(lián),測(cè)試實(shí)例與干擾原和多個(gè)對(duì)照實(shí)例相關(guān)聯(lián)。每個(gè)實(shí)例包括 多個(gè)探針中的每個(gè)的表達(dá)值。該方法也包括確定每個(gè)批次的平均對(duì)照GEP。批次的平均對(duì) 照GEP通過(guò)將全部對(duì)照實(shí)例中每個(gè)探針的子集的表達(dá)值平均化來(lái)確定。該方法還包括確定 一批中每個(gè)測(cè)試實(shí)例的經(jīng)調(diào)節(jié)的測(cè)試GEP。每個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP通過(guò)從對(duì)應(yīng)批次的平均 對(duì)照GEP中的對(duì)應(yīng)探針表達(dá)值中減去測(cè)試實(shí)例中每個(gè)探針的子集的表達(dá)值來(lái)確定。數(shù)據(jù)矩 陣通過(guò)組合來(lái)自全部多個(gè)批次的全部經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建,并且約簡(jiǎn)數(shù)據(jù)矩陣通過(guò)從數(shù) 據(jù)矩陣中移除任何干擾原經(jīng)調(diào)節(jié)的測(cè)試GEP創(chuàng)建,對(duì)于干擾原在數(shù)據(jù)矩陣中僅存在單個(gè)經(jīng) 調(diào)節(jié)的測(cè)試GEP。對(duì)約簡(jiǎn)數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計(jì)分析以創(chuàng)建限定投射空間的投射矩陣或 投射函數(shù),并且使用投射矩陣或投射函數(shù)將數(shù)據(jù)矩陣投射到投射空間上以創(chuàng)建投射矩陣。 另外,該方法還包括確定維度數(shù)量以保持經(jīng)投射的矩陣、確定經(jīng)調(diào)節(jié)的狀況GEP、以及利用 投射矩陣將經(jīng)調(diào)節(jié)的狀況GEP投射到投射空間上。另外,該方法還包括比較經(jīng)調(diào)節(jié)的狀況 GEP在投射空間中的位置與經(jīng)調(diào)節(jié)的測(cè)試GEP在投射空間中的位置以鑒定一種或多種干擾 原,以及配制包含可接受載體與根據(jù)位置比較選擇的至少一種干擾原的組合物。
[0019] 這些以及本發(fā)明的附加對(duì)象、實(shí)施例和方面參見下面的【專利附圖】
【附圖說(shuō)明】和【具體實(shí)施方式】 將變得顯而易見。
【專利附圖】
【附圖說(shuō)明】
[0020] 雖然本說(shuō)明書通過(guò)特別指出并清楚地要求被視為本發(fā)明的主題作出結(jié)論,但據(jù)信 由下列說(shuō)明和附圖可充分地理解本發(fā)明。為了更清楚地顯示其它元件,某些附圖可通過(guò)省 略所選擇的元件進(jìn)行簡(jiǎn)化。在任何示例性實(shí)施例中,在某些附圖中如此省略元件均不一定 指示存在或不存在特定元件,除非在相應(yīng)的文字說(shuō)明中清楚地描述確實(shí)如此。所有附圖均 未必按比例繪制。
[0021] 圖1是適用于本發(fā)明的計(jì)算機(jī)系統(tǒng)的示意圖;
[0022] 圖2是與圖1計(jì)算機(jī)系統(tǒng)的計(jì)算機(jī)可讀介質(zhì)相關(guān)聯(lián)的實(shí)例的示意圖;
[0023] 圖3是根據(jù)本【具體實(shí)施方式】適用的可編程計(jì)算機(jī)的示意圖;
[0024] 圖4是用于產(chǎn)生實(shí)例的示例性系統(tǒng)的示意圖;
[0025] 圖5示出根據(jù)本【具體實(shí)施方式】鑒定相似劑的方法;
[0026] 圖6示出鑒定用于處理狀況的候選劑的方法;
[0027] 圖7示出根據(jù)圖5和6的方法準(zhǔn)備數(shù)據(jù)的方法;
[0028] 圖8A示出根據(jù)圖5和6的方法執(zhí)行多變量統(tǒng)計(jì)分析的方法;
[0029] 圖8B示出根據(jù)圖8A的方法在多變量統(tǒng)計(jì)分析中使用正則化Fisher判別分析確 定投射空間的方法;
[0030] 圖9示出根據(jù)圖5的方法查詢化學(xué)相似性的方法;
[0031] 圖10示出根據(jù)圖6的方法查詢期望機(jī)制的方法;
[0032] 圖11示出根據(jù)圖7的方法選擇探針的方法;
[0033] 圖12示出根據(jù)圖7的方法確定經(jīng)調(diào)節(jié)的基因表達(dá)譜的方法;
[0034] 圖13示出與本【具體實(shí)施方式】的各種實(shí)施例相關(guān)聯(lián)的示例性數(shù)據(jù)結(jié)構(gòu);
[0035] 圖14示出查詢與查詢劑化學(xué)類似的劑的示例性結(jié)果;
[0036] 圖15示出涉及查詢?cè)诘谝患?xì)胞系中具有類似于查詢劑的生物活性的劑的示例性 結(jié)果;
[0037] 圖16示出涉及查詢?cè)诘诙?xì)胞系中具有類似于相同查詢劑的生物活性的劑的示 例性結(jié)果;并且
[0038] 圖17示出涉及查詢?cè)诩?xì)胞系中具有與查詢條件差異最大的基因表達(dá)譜的劑的示 例性結(jié)果。
【具體實(shí)施方式】
[0039] 現(xiàn)在將偶爾參照本發(fā)明的具體實(shí)施例來(lái)描述本發(fā)明。然而,這個(gè)發(fā)明可按不同的 形式來(lái)實(shí)施并且不應(yīng)當(dāng)被理解為只限于本文所示的實(shí)施例。相反,提供這些實(shí)施例使得本 公開成為徹底和完全的,因而向本領(lǐng)域的技術(shù)人員充分傳達(dá)本發(fā)明的范圍。
[0040] 除非另外限定,本文所用的所有科技術(shù)語(yǔ)同本發(fā)明所屬領(lǐng)域的普通技術(shù)人員一般 理解的術(shù)語(yǔ)具有相同的含義。本發(fā)明說(shuō)明書中所用的術(shù)語(yǔ)僅用于描述具體實(shí)施例并不旨在 限制本發(fā)明。如本發(fā)明的說(shuō)明書和所附權(quán)利要求中所用,除非上下文另外清楚地指明,單數(shù) 形式"一個(gè)"、"一種"和"所述"旨在也包括復(fù)數(shù)形式。除非另外指明,所有數(shù)值將被理解為 在所有情況下由術(shù)語(yǔ)"約"來(lái)修飾。另外,公開的任何范圍將被理解為包括范圍本身和其中 包括的任何值、以及端值。所有數(shù)值范圍是包括端值在內(nèi)的較窄的范圍;描述的范圍上限和 下限是可互換的,以創(chuàng)建沒(méi)有明確描述的范圍。
[0041] 如本文所用,術(shù)語(yǔ)"基因表達(dá)譜"和"基因表達(dá)譜實(shí)驗(yàn)"是指使用任何合適的表達(dá) 譜技術(shù)在生物樣本中測(cè)量多個(gè)基因的表達(dá)。示例性的基因表達(dá)生物分子代表(即,"生物 標(biāo)記")包括蛋白、核酸(例如mRNA或cDNA)、蛋白片段或代謝物、和/或由基因轉(zhuǎn)錄物編 碼的蛋白編碼的酶活性產(chǎn)物,并且本文所述的任何生物標(biāo)記的檢測(cè)和/或測(cè)量適用于本發(fā) 明的情況。在一個(gè)實(shí)施例中,該方法包括測(cè)量由一個(gè)或多個(gè)基因編碼的mRNA。如果需要, 該方法包括反轉(zhuǎn)錄由一個(gè)或多個(gè)基因編碼的mRNA并測(cè)量對(duì)應(yīng)的cDNA??墒褂萌魏味亢?酸分析。例如,存在多種定量雜交、Northern印跡、和聚合酶鏈反應(yīng)方法用于定量測(cè)量生物 樣本中 mRNA 轉(zhuǎn)錄物或 cDNA 的量。參見例如 Current Protocols in Molecular Biology, Ausubel等人編輯,John Wiley&Sons(2007),包括全部補(bǔ)充內(nèi)容。任選地,mRNA或cDNA在 雜交前通過(guò)聚合酶鏈反應(yīng)(PCR)進(jìn)行擴(kuò)增。mRNA或cDNA樣品隨后通過(guò)例如與由一個(gè)或多 個(gè)基因板編碼的mRNA或cDNA特異性的寡核苷酸雜交進(jìn)行檢查,所述基因任選地固定在基 板(例如陣列或微陣列)上。mRNA或cDNA特異性的一個(gè)或多個(gè)合適探針的選擇、以及雜交 或PCR條件的選擇是從事核酸工作的科學(xué)家所掌握的。mRNA或cDNA與mRNA或cDNA特異 性的寡核苷酸探針的結(jié)合允許鑒定并量化基因表達(dá)。例如,幾千個(gè)基因的mRNA表達(dá)可使用 微陣列技術(shù)來(lái)測(cè)定。出現(xiàn)的其它可使用的技術(shù)包括RNA-Seq或利用NextGen測(cè)序技術(shù)的全 轉(zhuǎn)錄組測(cè)序。
[0042] 如本文所用,術(shù)語(yǔ)"微陣列"廣義上是指核酸、寡核苷酸、蛋白、小分子、大分子、 和/或它們的組合在基板上任何有序的陣列,其能夠檢測(cè)和/或量化生物樣本中的基 因表達(dá)(即,基因表達(dá)譜)。微陣列的非限制性例子購(gòu)自Affymetrix,Inc. ;Agilent Technologies, Inc. ;Ilumina,Inc. ;GE Healthcare, Inc. ;Applied Biosystems, Inc.;和 Beckman Coulter,Inc〇
[0043] 如本文所用,術(shù)語(yǔ)"干擾原"是指在基因表達(dá)譜實(shí)驗(yàn)用作挑戰(zhàn)以產(chǎn)生基因表達(dá)數(shù) 據(jù)的刺激物。示例性的干擾原包括但不限于天然產(chǎn)物如植物或哺乳動(dòng)物提取物;合成化 學(xué)制品;小分子;肽;蛋白(如抗體或其片段);擬肽;多核苷酸(DNA或RNA);藥物(如 Sigma-Aldrich LOPAC (Library of Pharmacologically Active Compounds)集合);以及 它們的組合。干擾原的其它非限制性例子包括植物物質(zhì)(其可來(lái)源于植物的根、樹皮、葉、 種子或果實(shí)中的一種或多種)。一些植物物質(zhì)可使用一種或多種溶劑從植物生物質(zhì)(例如 根、莖、樹皮、葉等)中提取。干擾原組合物(例如植物組合物)可包含化合物的復(fù)雜混合 物并且不含不同的活性成分。
[0044] 以舉例的非限制性方式,干擾原在本發(fā)明的多個(gè)方面是由美國(guó)食品和藥物管理 局(Food and Drug Administration) -般認(rèn)為是安全(Generally Recognized as Safe, GRAS)的物質(zhì)、食品添加劑、或在包括非處方藥在內(nèi)的消費(fèi)品中使用的物質(zhì)。適用作干擾原 的一些劑的例子可見于:PubChem database associated with the National Institutes of Health, USA(http://pubchem. ncbi. nlm. nih. gov) ;Ingredient Database of the Personal Care Products Council (http://online, personalcarecouncil. org/jsp/Home. jsp);和 2010International Cosmetic Ingredient Dictionary and Handbook,第 13 版, 公布自 Personal Care Products Council ;EU Cosmetic Ingredients and Substances list ;Japan Cosmetic Ingredients List ;Personal Care Products Council, SkinDeep database(URL:http://www. cosmeticsdatabase. com) ;FDA Approved Excipients List ; FDA OTC List ;Japan Quasi Drug List ;US FDA Everything Added to Food database ; EU Food Additive list ;Japan Existing Food Additives, Flavor GRAS list;US FDA Select Committee on GRAS Substances ;US Household Products Database ;Global New Products Database(GNPD)Personal Care, Health Care, Food/Drink/Pet and Household database (URL:http://www. gnpd. com);以及化妝品成分和植物物質(zhì)的供應(yīng)商。在各種實(shí)施 例中,干擾原是病原體(如微生物或病毒)、輻射、加熱、pH、滲透壓等等。
[0045] 如本文所用,術(shù)語(yǔ)"實(shí)例"和"基因表達(dá)譜記錄"是指涉及基因表達(dá)譜實(shí)驗(yàn)的數(shù)據(jù)。 例如,在一些實(shí)施例中,將干擾原施用于細(xì)胞,檢測(cè)和/或定量基因表達(dá),并且將所得基因 表達(dá)數(shù)據(jù)存儲(chǔ)為數(shù)據(jù)架構(gòu)中的實(shí)例。實(shí)例可為"測(cè)試實(shí)例,"其包括來(lái)自施用干擾原的細(xì)胞 的基因表達(dá)數(shù)據(jù);"狀況實(shí)例",其包括來(lái)自在檢查中具有特定表型或生物狀況的細(xì)胞的基 因表達(dá)數(shù)據(jù)(例如與失調(diào)相關(guān)聯(lián)的細(xì)胞,諸如癌癥細(xì)胞、人體中受鼻病毒感染影響的細(xì)胞、 或被病毒或細(xì)菌感染的細(xì)胞);或"對(duì)照實(shí)例",其包括來(lái)自未暴露于干擾原并且未表現(xiàn)出 所關(guān)注狀況的細(xì)胞的基因表達(dá)數(shù)據(jù)(即,來(lái)自對(duì)照細(xì)胞的數(shù)據(jù))。在一些實(shí)施例中,基因表 達(dá)數(shù)據(jù)包括代表作為基因表達(dá)譜實(shí)驗(yàn)一部分的基因的標(biāo)識(shí)符列表。標(biāo)識(shí)符可包括基因名 稱、基因符號(hào)、微陣列探針I(yè)D、或任何其它標(biāo)識(shí)符。在一些實(shí)施例中,基因表達(dá)數(shù)據(jù)包括測(cè)量 使用一個(gè)或多個(gè)探針(例如寡核苷酸探針)檢測(cè)的兩個(gè)或更多個(gè)基因的基因表達(dá)。在一些 實(shí)施例中,一個(gè)實(shí)例包括來(lái)自微陣列實(shí)驗(yàn)的數(shù)據(jù)并且包括按探針靶基因相對(duì)于在對(duì)照條件 下基因表達(dá)的不同表達(dá)程度排序的微陣列探針I(yè)D列表?;虮磉_(dá)數(shù)據(jù)也可包括元數(shù)據(jù),包 括但不限于與一種或多種干擾原、基因表達(dá)譜測(cè)試條件、細(xì)胞、和微陣列有關(guān)的數(shù)據(jù)。
[0046] 如本文所用,術(shù)語(yǔ)"計(jì)算機(jī)可讀介質(zhì)"是指任何電子存儲(chǔ)介質(zhì)并包括但不限于在任 何方法或技術(shù)中用于存儲(chǔ)信息(諸如計(jì)算機(jī)可讀的指令、數(shù)據(jù)和數(shù)據(jù)結(jié)構(gòu)、數(shù)字文件、軟件 程序和應(yīng)用程序、或其它數(shù)字信息)的任何易失性的、非易失性的、可移除的、和不可移除 的介質(zhì)。計(jì)算機(jī)可讀介質(zhì)包括但不限于專用集成電路(ASIC)、光盤(CD)、數(shù)字多功能光盤 (DVD)、隨機(jī)存取存儲(chǔ)器(RAM)、同步RAM (SRAM)、動(dòng)態(tài)RAM (DRAM)、同步DRAM (SDRAM)、雙倍數(shù) 據(jù)速率SDRAM (DDR SDRAM)、直接RAM總線RAM (DRRAM)、只讀存儲(chǔ)器(ROM)、可編程只讀存儲(chǔ) 器(PROM)、電可擦可編程只讀存儲(chǔ)器(EEPR0M)、盤、載波、和記憶棒。易失性存儲(chǔ)器的例子 包括但不限于隨機(jī)存取存儲(chǔ)器(RAM)、同步RAM (SRAM)、動(dòng)態(tài)RAM (DRAM)、同步DRAM (SDRAM)、 雙倍數(shù)據(jù)速率SDRAM (DDR SDRAM)、和直接RAM總線RAM (DRRAM)。非易失性存儲(chǔ)器的例 子包括但不限于只讀存儲(chǔ)器(ROM)、可編程只讀存儲(chǔ)器(PROM)、可擦可編程只讀存儲(chǔ)器 (EPROM)、和電可擦可編程只讀存儲(chǔ)器(EEPR0M)。存儲(chǔ)器能夠存儲(chǔ)過(guò)程和/或數(shù)據(jù)。其它 計(jì)算機(jī)可讀介質(zhì)包括任何合適的盤介質(zhì),包括但不限于磁盤驅(qū)動(dòng)器、軟盤驅(qū)動(dòng)器、磁帶驅(qū)動(dòng) 器、極碟驅(qū)動(dòng)器、閃存存儲(chǔ)卡、記憶棒、光盤ROM (⑶-ROM)、⑶可記錄驅(qū)動(dòng)器(⑶-R驅(qū)動(dòng)器)、 CD可復(fù)寫驅(qū)動(dòng)器(CD-RW驅(qū)動(dòng)器)、和數(shù)字多功能ROM驅(qū)動(dòng)器(DVD ROM)。如本文所用、術(shù)語(yǔ) "計(jì)算機(jī)可讀存儲(chǔ)媒體"是指除載波和其它瞬態(tài)信號(hào)之外的任何計(jì)算機(jī)可讀存儲(chǔ)媒體。
[0047] 如本文所用,術(shù)語(yǔ)"軟件"和"軟件應(yīng)用程序"是指一個(gè)或多個(gè)計(jì)算機(jī)可讀和/或 可執(zhí)行指令,所述指令導(dǎo)致計(jì)算裝置或其它電子裝置執(zhí)行功能、動(dòng)作、和/或以所需方式運(yùn) 轉(zhuǎn)。指令可以一種或多種不同形式體現(xiàn),例如例程、算法、模塊、庫(kù)、方法、和/或程序。軟件 可以多種可執(zhí)行的和/或可裝載的形式實(shí)現(xiàn)并且可位于一個(gè)計(jì)算機(jī)組件中和/或分布在兩 個(gè)或更多個(gè)連通的、協(xié)作的、和/或并行處理的計(jì)算機(jī)組件之間,并且因此可以串行、并行、 和其它方式被載入和/或執(zhí)行??蓪④浖鎯?chǔ)在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)上,并且可全 部或部分地實(shí)現(xiàn)本發(fā)明的方法和功能。
[0048] 如本文所用,術(shù)語(yǔ)"數(shù)據(jù)架構(gòu)" 一般是指一種或多種數(shù)字?jǐn)?shù)據(jù)結(jié)構(gòu),其包括有組織 的數(shù)據(jù)集合。在一些實(shí)施例中,可將數(shù)字?jǐn)?shù)據(jù)結(jié)構(gòu)在計(jì)算機(jī)可讀介質(zhì)上存儲(chǔ)為數(shù)字文件 (例如電子表格文件、文本文件、文字處理文件、數(shù)據(jù)庫(kù)文件等)。在一些實(shí)施例中,數(shù)據(jù)架 構(gòu)以數(shù)據(jù)庫(kù)形式提供,其可通過(guò)數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)進(jìn)行管理,該系統(tǒng)用于訪問(wèn)、組織、 和選擇存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)(例如基因表達(dá)譜數(shù)據(jù))。在一些實(shí)施例中,可將數(shù)據(jù)庫(kù)存儲(chǔ) 在單獨(dú)的計(jì)算機(jī)可讀介質(zhì)上,然而在其它實(shí)施例中,可將數(shù)據(jù)庫(kù)存儲(chǔ)在不止一個(gè)計(jì)算機(jī)可 讀介質(zhì)上和/或跨它們存儲(chǔ)。
[0049] I.系統(tǒng)和裝置
[0050] 參見圖1、2、和4,現(xiàn)在將描述根據(jù)本發(fā)明用于識(shí)別干擾原、狀況、和基因之間的關(guān) 系的系統(tǒng)和裝置的一些例子。系統(tǒng)10包括計(jì)算裝置12、14、與計(jì)算裝置12相關(guān)聯(lián)的計(jì)算機(jī) 可讀介質(zhì)16、和通信網(wǎng)絡(luò)18中的一個(gè)或多個(gè)。
[0051] 可以硬盤驅(qū)動(dòng)器形式提供的計(jì)算機(jī)可讀介質(zhì)16包括諸如數(shù)據(jù)庫(kù)文件的數(shù)字文件 20,其包括多個(gè)實(shí)例22、24、和26,它們存儲(chǔ)在與數(shù)字文件20相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)中。多個(gè)實(shí) 例可存儲(chǔ)在關(guān)系表和索引或其它類型的計(jì)算機(jī)可讀介質(zhì)中。實(shí)例22、24、和26也可跨多個(gè) 數(shù)字文件分布;單個(gè)數(shù)字文件20本文僅為簡(jiǎn)單起見進(jìn)行例示。
[0052] 數(shù)字文件20可以廣泛多種格式提供,包括但不限于文字處理文件格式(例如 Microsoft Word)、電子表格文件格式(例如Microsoft Excel)、和數(shù)據(jù)庫(kù)文件格式(例 如GIF、PNG)。合適文件格式的一些常見例子包括但不限于與文件擴(kuò)展名如*. xls、*. xld、 *· xlk、*· xll、*· xlt、*· xlxs、*· dif、*· db、*· dbf、*· accdb、*· mdb、*· mdf、*· cdb、*· fdb、 氺· csv、氺sql、氺· xml、氺· doc、氺· txt、氺· rtf、氺· log、氺· docx、氺· ans、氺· pages、矛口氺· wps 才西 的那些。
[0053] 參見圖2,在一些實(shí)施例中實(shí)例22可包括微陣列探針I(yè)D的排序列表和相應(yīng)的 表達(dá)值,其中N的值等于微陣列上探針的總數(shù)。通用微陣列包括Affymetrix基因芯片和 Illumina基因芯片,它們均包括探針組和定制探針組。合適的微陣列芯片包括但不限于設(shè) 計(jì)用于表征人類基因組的那些,諸如Affymetrix型號(hào)HG-U132和U133(例如Affymetrix HG-U133APlus2)。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解任何微陣列,無(wú)論其特有來(lái)源如何,只 要根據(jù)本發(fā)明用于構(gòu)建數(shù)據(jù)架構(gòu)的探針組基本上類似,是合適的。
[0054] 來(lái)源于微陣列分析的實(shí)例可包括基因探針I(yè)D (和對(duì)應(yīng)的表達(dá)值)的排序列表,其 中列表包括例如22, 000個(gè)或更多的探針I(yè)D (也預(yù)期包括更少的探針I(yè)D)。排序列表可存儲(chǔ) 在數(shù)字文件20的數(shù)據(jù)結(jié)構(gòu)中并且排列數(shù)據(jù)使得當(dāng)數(shù)字文件由軟件應(yīng)用程序28讀取時(shí),復(fù) 制多個(gè)字符串,代表探針I(yè)D的排序列表。在各種實(shí)施例中,每個(gè)實(shí)例包括探針I(yè)D的完全列 表,但是預(yù)期一個(gè)或多個(gè)實(shí)例可包括少于全部的微陣列探針I(yè)D。也預(yù)期實(shí)例可包括除探針 ID的排序列表之外或取代它們的其它數(shù)據(jù)。例如,相同基因名稱和/或基因符號(hào)的排序列 表可被取代為探針I(yè)D的排序列表。附加的數(shù)據(jù)可用實(shí)例和/或數(shù)字文件20存儲(chǔ)。在一些 實(shí)施例中,附加的數(shù)據(jù)稱之為元數(shù)據(jù)并且可包括細(xì)胞系標(biāo)識(shí)、批號(hào)、暴露時(shí)間、和其它經(jīng)驗(yàn) 數(shù)據(jù)、以及與實(shí)例ID相關(guān)聯(lián)的任何其它描述素材中的一個(gè)或多個(gè)。排序列表也可包括與每 個(gè)標(biāo)識(shí)符相關(guān)聯(lián)的數(shù)值,其代表標(biāo)識(shí)符在排序列表中的排序位置。
[0055] 再次參見圖1、2、和3,計(jì)算機(jī)可讀介質(zhì)16也可具有存儲(chǔ)在其上的第二數(shù)字文件 30。第二數(shù)字文件30包括與一個(gè)或多個(gè)狀況相關(guān)聯(lián)的微陣列探針I(yè)D的一個(gè)或多個(gè)序列32。 微陣列探針I(yè)D的列表32任選地包括比第一數(shù)字文件20的實(shí)例更小的探針I(yè)D列表。在一 些實(shí)施例中,列表包括2至1000個(gè)探針I(yè)D。在其它具體實(shí)施例中,列表包括50至400個(gè)探 針I(yè)D。然而,在一些實(shí)施例中,列表包括5, 000至10, 000個(gè)探針I(yè)D,5, 000至20, 000個(gè)探 針 ID,10, 000 至 20, 000 個(gè)探針 ID,10, 000 至 50, 000 個(gè)探針 ID,20, 000 至 50, 000 個(gè)探針 ID,或全部探針I(yè)D。第二數(shù)字文件30的探針I(yè)D的列表32包括探針I(yè)D列表和相應(yīng)的表達(dá) 值,其代表選擇用于代表受關(guān)注狀況的上調(diào)和/或下調(diào)基因。在一些實(shí)施例中,第一列表可 代表上調(diào)基因并且第二列表可代表基因表達(dá)譜的下調(diào)基因。列表可存儲(chǔ)在數(shù)字文件30的 數(shù)據(jù)結(jié)構(gòu)中并且排列數(shù)據(jù)使得當(dāng)數(shù)字文件由軟件應(yīng)用程序28讀取時(shí),復(fù)制多個(gè)字符串,代 表探針I(yè)D的列表。與探針I(yè)D相反,相同的基因名稱和/或基因符號(hào)(或另一個(gè)命名)可 被取代為探針組ID的列表。附加的數(shù)據(jù)可用數(shù)字文件30存儲(chǔ),并且這常稱為元數(shù)據(jù),其可 包括任何相關(guān)聯(lián)的信息,例如細(xì)胞系或樣本源、以及微陣列標(biāo)識(shí)。在一些實(shí)施例中,可將一 個(gè)或多個(gè)基因表達(dá)譜存儲(chǔ)在多個(gè)數(shù)字文件中和/或存儲(chǔ)在多個(gè)計(jì)算機(jī)可讀介質(zhì)上。在其它 實(shí)施例中,可將多個(gè)基因表達(dá)譜(例如32、34)存儲(chǔ)在相同數(shù)字文件(例如30)中或存儲(chǔ)在 包括實(shí)例22、24、和26的相同數(shù)字文件或數(shù)據(jù)庫(kù)中。
[0056] 存儲(chǔ)在第一和第二數(shù)字文件中的數(shù)據(jù)可以廣泛多種數(shù)據(jù)結(jié)構(gòu)和/或格式存儲(chǔ),例 如本文所述的數(shù)據(jù)結(jié)構(gòu)和/或格式。在一些實(shí)施例中,將數(shù)據(jù)存儲(chǔ)在一個(gè)或多個(gè)可搜索數(shù) 據(jù)庫(kù)中,例如免費(fèi)數(shù)據(jù)庫(kù)、商業(yè)數(shù)據(jù)庫(kù)、或公司的內(nèi)部專有數(shù)據(jù)庫(kù)??筛鶕?jù)任何模型提供或 結(jié)構(gòu)化數(shù)據(jù)庫(kù),例如并且非限制地包括平面模型、分層模型、網(wǎng)絡(luò)模型、關(guān)系模型、維度模 型、或面向?qū)ο蟮哪P?。在一些?shí)施例中,至少一個(gè)可搜索數(shù)據(jù)庫(kù)是專有數(shù)據(jù)庫(kù)。系統(tǒng)10 的使用者可使用與數(shù)據(jù)庫(kù)管理系統(tǒng)相關(guān)聯(lián)的圖形用戶界面訪問(wèn)以通信方式聯(lián)接至系統(tǒng)的 一個(gè)或多個(gè)數(shù)據(jù)庫(kù)或其它數(shù)據(jù)來(lái)源并從中檢索數(shù)據(jù)。在一些實(shí)施例中,以第一數(shù)據(jù)庫(kù)形式 提供第一數(shù)字文件20并且以第二數(shù)據(jù)庫(kù)形式提供第二數(shù)字文件30。在其它實(shí)施例中,可合 并第一和第二數(shù)字文件并以單個(gè)文件形式提供。
[0057] 在一些實(shí)施例中,第一數(shù)字文件20可包括通過(guò)通信網(wǎng)絡(luò)18從存儲(chǔ)在計(jì)算機(jī)可讀 介質(zhì)38上的數(shù)字文件36中傳輸?shù)臄?shù)據(jù)。在一個(gè)實(shí)施例中,第一數(shù)字文件20可包括獲取自 細(xì)胞系(例如鼻上皮細(xì)胞系、癌細(xì)胞系等等)的基因表達(dá)數(shù)據(jù)以及來(lái)自數(shù)字文件36的數(shù) 據(jù),諸如來(lái)自其它細(xì)胞系或細(xì)胞類型的基因表達(dá)數(shù)據(jù)、干擾原信息、臨床實(shí)驗(yàn)數(shù)據(jù)、科學(xué)文 獻(xiàn)、化學(xué)數(shù)據(jù)庫(kù)、藥物數(shù)據(jù)庫(kù)、和其它數(shù)據(jù)與元數(shù)據(jù)。數(shù)字文件36可以數(shù)據(jù)庫(kù)形式提供,包 括但不限于Sigma-Aldrich L0PAC集合、Broad Institute CMAP集合、GE0集合、和Chemical Abstracts Service (CAS)數(shù)據(jù)庫(kù)。
[0058] 計(jì)算機(jī)可讀介質(zhì)16 (或另一種計(jì)算機(jī)可讀介質(zhì)如16)也可具有存儲(chǔ)在其上的一個(gè) 或多個(gè)數(shù)字文件28,其包括計(jì)算機(jī)可讀的指令或軟件用于讀取、編寫、或換句話講管理和/ 或訪問(wèn)數(shù)字文件20、30。計(jì)算機(jī)可讀介質(zhì)16也可包括軟件或計(jì)算機(jī)可讀的和/或可執(zhí)行 的指令,其引起計(jì)算裝置12執(zhí)行本文所述的一種或多種方法,例如并且非限制地包括與比 較存儲(chǔ)在數(shù)字文件30中的基因表達(dá)譜數(shù)據(jù)與存儲(chǔ)在數(shù)字文件20中的實(shí)例22、24、和26相 關(guān)聯(lián)的方法(或部分方法)、用于比較與一種或多種干擾原相關(guān)聯(lián)的基因表達(dá)譜數(shù)據(jù)的方 法(或部分方法)、和/或用于比較(i)涉及一種狀況的基因表達(dá)譜數(shù)據(jù)與(ii)涉及一種 或多種治療劑基因表達(dá)譜數(shù)據(jù)的方法(或部分方法)。在一些實(shí)施例中,一個(gè)或多個(gè)數(shù)字文 件28形成部分?jǐn)?shù)據(jù)庫(kù)管理系統(tǒng),用于管理數(shù)字文件20、28。數(shù)據(jù)庫(kù)管理系統(tǒng)的非限制性例 子在美國(guó)專利序列號(hào)4, 967, 341和5, 297, 279中有所描述。
[0059] 計(jì)算機(jī)可讀介質(zhì)16可形成部分或換句話講連接至計(jì)算裝置12。計(jì)算裝置12可以 廣泛多種形式提供,包括但不限于任何通用或?qū)S糜?jì)算機(jī)如服務(wù)器、臺(tái)式計(jì)算機(jī)、膝上型計(jì) 算機(jī)、塔式計(jì)算機(jī)、微型計(jì)算機(jī)、迷你計(jì)算機(jī)、平板電腦、智能電話、和大型計(jì)算機(jī)。雖然多種 計(jì)算裝置可適用于本發(fā)明,一種計(jì)算裝置12在圖3中示出。計(jì)算裝置12可包括一個(gè)或多 個(gè)組件,其選自處理器40、系統(tǒng)存儲(chǔ)器42、和系統(tǒng)總線44。系統(tǒng)總線44提供用于系統(tǒng)組件 的界面,系統(tǒng)組件包括但不限于系統(tǒng)存儲(chǔ)器42和處理器40。系統(tǒng)總線36可為幾種類型總 線結(jié)構(gòu)中的任何一種,總線結(jié)構(gòu)還可互連至存儲(chǔ)器總線(具有或不具有存儲(chǔ)器控制器)、外 圍總線、和使用多種可商購(gòu)獲得的總線架構(gòu)中的任何一種的局部總線。局部總線的例子包 括工業(yè)標(biāo)準(zhǔn)架構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、擴(kuò)展ISA (EISA)總線、外圍元件互連 (PCI)總線、通用串行(USB)總線、和小型計(jì)算機(jī)系統(tǒng)界面(SCSI)總線。處理器40可選自 任何合適的處理器,包括但不限于雙微處理器和其它多處理器架構(gòu)。處理器執(zhí)行與一個(gè)或 多個(gè)應(yīng)用程序或軟件相關(guān)聯(lián)的一組存儲(chǔ)的指令。
[0060] 系統(tǒng)存儲(chǔ)器42可包括非易失性存儲(chǔ)器46 (例如只讀存儲(chǔ)器(ROM)、可擦可編程只 讀存儲(chǔ)器(EPROM)、電可擦可編程只讀存儲(chǔ)器(EEPR0M)等等)和/或易失性存儲(chǔ)器48 (例 如隨機(jī)存取存儲(chǔ)器(RAM))。基本輸入/輸出系統(tǒng)(BIOS)可存儲(chǔ)在非易失性存儲(chǔ)器38中, 并且可包括基本例程,其有助于在計(jì)算裝置12內(nèi)的元件之間傳遞信息。易失性存儲(chǔ)器48 也可包括高速RAM,如用于高速緩存數(shù)據(jù)的靜態(tài)RAM。
[0061] 計(jì)算裝置12還可包括存儲(chǔ)器44,其可包括例如內(nèi)部硬盤驅(qū)動(dòng)器(HDD)(例如增強(qiáng) 型電子集成驅(qū)動(dòng)器(EIDE)或串行高級(jí)技術(shù)附件(SATA))用于儲(chǔ)存。計(jì)算裝置12還可包括 一個(gè)光盤驅(qū)動(dòng)器46 (例如用于讀?、?ROM或DVD-ROM 48)。驅(qū)動(dòng)器和相關(guān)聯(lián)的計(jì)算機(jī)可讀 介質(zhì)提供數(shù)據(jù)、本發(fā)明的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)架構(gòu)、計(jì)算機(jī)可執(zhí)行指令等等的非易失性存儲(chǔ)裝 置。對(duì)于計(jì)算裝置12,驅(qū)動(dòng)器和介質(zhì)適于儲(chǔ)存合適數(shù)字格式的任何數(shù)據(jù)。雖然上述計(jì)算機(jī) 可讀介質(zhì)是指HDD和光學(xué)介質(zhì)如CD-ROM或DVD-ROM,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解也可使用 計(jì)算機(jī)可讀的其它類型介質(zhì)如極碟、磁帶盒、閃存存儲(chǔ)卡、存儲(chǔ)盒等等,并且此外任何此類 介質(zhì)可含有用于執(zhí)行本發(fā)明方法的計(jì)算機(jī)可執(zhí)行指令。
[0062] 多個(gè)軟件應(yīng)用程序可存儲(chǔ)在驅(qū)動(dòng)器44和易失性存儲(chǔ)器48上,包括操作系統(tǒng)和一 個(gè)或多個(gè)軟件應(yīng)用程序,它們?nèi)炕虿糠值貙?shí)現(xiàn)本文所述的功能和/或方法。應(yīng)當(dāng)理解實(shí) 施例可利用多個(gè)可商購(gòu)獲得的操作系統(tǒng)或操作系統(tǒng)組合實(shí)現(xiàn)。中央處理單元40結(jié)合在易 失性存儲(chǔ)器48中的軟件應(yīng)用程序可用作計(jì)算裝置12的控制系統(tǒng),其被構(gòu)造用于或適用于 實(shí)現(xiàn)本文所述的功能。
[0063] 使用者能夠通過(guò)一個(gè)或多個(gè)有線或無(wú)線輸入設(shè)備50輸入命令和信息到計(jì)算裝置 12中,例如鍵盤、指向設(shè)備如鼠標(biāo)(未示出)、或觸摸屏。這些和其它輸入設(shè)備常常通過(guò)聯(lián) 接到系統(tǒng)總線44上的輸入裝置接口 52被連接到中央處理單元40上,但是也可通過(guò)其它接 口連接,例如平行端口、IEEE1394串行端口、游戲端口、通用串行總線(USB)端口、IR接口等 等。計(jì)算裝置12可驅(qū)動(dòng)單獨(dú)的或集成的顯示裝置54,其也可經(jīng)由接口如視頻端口 56連接 至系統(tǒng)總線44。
[0064] 計(jì)算裝置12、14可在網(wǎng)絡(luò)18的網(wǎng)絡(luò)環(huán)境中利用有線和/或無(wú)線網(wǎng)絡(luò)通信接口 58 工作。網(wǎng)絡(luò)接口端口 58可有利于有線和/或無(wú)線通信。網(wǎng)絡(luò)接口端口可為網(wǎng)絡(luò)接口卡、網(wǎng) 絡(luò)接口控制器(NIC)、網(wǎng)絡(luò)適配器、或LAN適配器的一部分。通信網(wǎng)絡(luò)18可為廣域網(wǎng)(WAN) 如互聯(lián)網(wǎng),或者可為局域網(wǎng)(LAN)。通信網(wǎng)絡(luò)18可包括光纖網(wǎng)絡(luò)、雙絞線網(wǎng)絡(luò)、基于T1/E1 線的網(wǎng)絡(luò)或T-載體/E載體協(xié)議的其它鏈路,或者無(wú)線局域網(wǎng)或廣域網(wǎng)(通過(guò)多個(gè)協(xié)議如 超移動(dòng)寬帶(UMB)、長(zhǎng)期演進(jìn)(LTE)等等)。另外,通信網(wǎng)絡(luò)18可包括用于無(wú)線通信的基站, 其包括收發(fā)器、用于調(diào)制/解調(diào)的相關(guān)電子設(shè)備、和開關(guān)及用于連接回程通信(例如分組交 換通信的情況)主干網(wǎng)絡(luò)的端口。
[0065] II.產(chǎn)牛多個(gè)實(shí)例的方法
[0066] 在一些實(shí)施例中,本發(fā)明方法包括生成至少第一數(shù)字文件20與包括來(lái)源于多個(gè) 基因表達(dá)譜實(shí)驗(yàn)的數(shù)據(jù)的多個(gè)實(shí)例(例如22, 24, 26),其中一個(gè)或多個(gè)實(shí)驗(yàn)包括使細(xì)胞暴 露于至少一種干擾原。為便于討論,下文中所討論的基因表達(dá)譜將為在微陣列實(shí)驗(yàn)的情況 下。
[0067] 參見圖4,示出了本發(fā)明方法的一個(gè)實(shí)施例。方法58包括使細(xì)胞60和/或細(xì)胞62 暴露于干擾原64。在暴露后,從暴露于干擾原的細(xì)胞中提取mRNA。任選地,從未暴露于干 擾原的參考細(xì)胞66(如對(duì)照細(xì)胞)中提取mRNA用于比較??蓪RNA 68、70、72反轉(zhuǎn)錄成 cDNA 64、76、78,并且如果將執(zhí)行雙色微陣列分析,用不同的熒光染料(例如紅色和綠色) 進(jìn)行標(biāo)記。作為另外一種選擇,可制備樣品用于單色微陣列分析。如果需要,可進(jìn)行多個(gè)平 行測(cè)定。cDNA樣品可共雜交到包括多個(gè)探針81的微陣列80上。微陣列可包括幾千個(gè)探針 81。在一些實(shí)施例中,在微陣列80上存在10, 000至50, 000個(gè)基因探針81。微陣列80用 掃描儀83進(jìn)行掃描,該儀器激活染料并測(cè)量熒光量。使用計(jì)算裝置85分析原始圖以測(cè)定樣 品中的cDNA(或mRNA)量,其代表細(xì)胞60、62中的基因表達(dá)水平,它與參考細(xì)胞66中觀察 到的基因表達(dá)水平進(jìn)行比較。掃描儀83可具有計(jì)算裝置85的功能。表達(dá)水平包括:i)上 調(diào)(例如與參考材料相比在測(cè)試材料中存在更多的mRNA或cDNA,導(dǎo)致與結(jié)合到探針上的參 考材料(例如CDNA78)量相比更多的測(cè)試材料(例如cDNA 74、76)與探針結(jié)合),或者ii) 下調(diào)(例如與結(jié)合到探針上的測(cè)試材料(例如cDNA 74、76)量相比更多的參考材料(例如 cDNA 78)與探針結(jié)合),iii)無(wú)差異的表達(dá)(例如相似量的參考材料(例如cDNA 78)和 測(cè)試材料(例如cDNA 7476)結(jié)合到探針上),和iv)無(wú)可檢出的信號(hào)或噪音。將上調(diào)或下 調(diào)的基因稱為"差異表達(dá)的。"
[0068] 微陣列和微陣列分析技術(shù)是本領(lǐng)域熟知的,并且預(yù)期除本文例示的那些之外的微 陣列技術(shù)適用于本發(fā)明的方法、裝置和系統(tǒng)??墒褂萌魏芜m用的商業(yè)或非商業(yè)微陣列技術(shù) 及相關(guān)技術(shù),例如Affymetrix GeneChip1'技術(shù)和Illumina BeadChip?技術(shù)。本領(lǐng)域的技 術(shù)人員將會(huì)知道本發(fā)明不限于例示實(shí)施例的方法和也預(yù)期在本發(fā)明的范圍之內(nèi)的其它方 法和技術(shù)。
[0069] 作為另外一種選擇,探針I(yè)D可在未整理列表中排序,或者可根據(jù)多個(gè)實(shí)例的平均 表達(dá)值排序。在一些實(shí)施例中,探針I(yè)D和表達(dá)值以標(biāo)準(zhǔn)順序列出,例如通過(guò)微陣列限定,并 且根據(jù)下述方法操縱。例如,可根據(jù)平均表達(dá)值,對(duì)于全部實(shí)例和/或多個(gè)計(jì)算和/或?qū)κ?關(guān)注的探針I(yè)D進(jìn)行的分析選擇探針I(yè)D子集。這種實(shí)例數(shù)據(jù)也可進(jìn)一步包括元數(shù)據(jù)如干擾 原標(biāo)識(shí)、干擾原濃度、細(xì)胞系或樣品來(lái)源、和微陣列標(biāo)識(shí)。在一些實(shí)施例中,數(shù)據(jù)庫(kù)包括至少 約 50、100、250、500、或 1000 個(gè)實(shí)例和/或少于約 50,000、20,000、15,000、10,000、7,500、 5, 000、或2, 500個(gè)實(shí)例。可創(chuàng)建實(shí)例的平行測(cè)定,并且可使用相同干擾原以從第一類細(xì)胞 中獲得第一實(shí)例,并且從第二類細(xì)胞中獲得第二實(shí)例,以及從第三類細(xì)胞中獲得第三實(shí)例。
[0070] III.用于杳詢干擾原的無(wú)標(biāo)記方法
[0071] 在查詢中使用大探針組的巨大挑戰(zhàn)是在C-Map數(shù)據(jù)庫(kù)中存在批次效應(yīng)。批次效應(yīng) 是大規(guī)模數(shù)據(jù)收集中常見的問(wèn)題,它可能使分析朝著標(biāo)識(shí)基于批次的人工痕跡而非相關(guān)的 生物活性出現(xiàn)顯著偏差。具體地,干擾原處理細(xì)胞、對(duì)照細(xì)胞、或暴露于狀況的細(xì)胞的平行 測(cè)定樣品可在略微變化的條件下產(chǎn)生,導(dǎo)致在表達(dá)譜實(shí)驗(yàn)期間進(jìn)行的測(cè)量存在輕微差異。 已經(jīng)觀察到在微陣列實(shí)驗(yàn)中導(dǎo)致批次效應(yīng)的一些因素包括使用的擴(kuò)增試劑批次、進(jìn)行分析 的天數(shù)、以及甚至大氣臭氧含量(Fare等人,2003)。因此,在不同批次中處理并運(yùn)行的樣品 常常含有系統(tǒng)的非生物變化,其可能導(dǎo)致在相同實(shí)驗(yàn)批中測(cè)試的不同干擾原或狀況看起來(lái) 比在不同實(shí)驗(yàn)批中的相同干擾原或狀況在作用結(jié)構(gòu)或機(jī)構(gòu)中彼此更接近。相似地,批次效 應(yīng)差異可能引導(dǎo)致類似的干擾原或狀況看起來(lái)明顯人為地不同。
[0072] -般來(lái)講,通過(guò)本文所述的無(wú)標(biāo)記查詢方法實(shí)現(xiàn)的技術(shù)方法分析數(shù)據(jù)如C-Map數(shù) 據(jù)庫(kù)存在的基因表達(dá)譜。如果未經(jīng)歸一化,通過(guò)使用一般已知的多種歸一化技術(shù)之一將數(shù) 據(jù)歸一化。以舉例的方式并且非限制地,在一些實(shí)施例中,使用的歸一化技術(shù)是MAS5算法 或穩(wěn)健多陣列平均(RMA)算法。歸一化的輸出應(yīng)包括在基因表達(dá)譜實(shí)驗(yàn)中分析的每個(gè)探針 的表達(dá)值。從而,在一些實(shí)施例中,現(xiàn)有的C-Map數(shù)據(jù)庫(kù)將包括歸一化數(shù)據(jù)。在其它實(shí)施例 中,可執(zhí)行一個(gè)或多個(gè)基因表達(dá)譜實(shí)驗(yàn),并且將數(shù)據(jù)歸一化以產(chǎn)生多個(gè)實(shí)例(即,來(lái)自基因 表達(dá)譜實(shí)驗(yàn)的數(shù)據(jù))。每個(gè)實(shí)例可包括在實(shí)驗(yàn)中分析的全部探針的表達(dá)值數(shù)據(jù)。實(shí)例可包 括對(duì)照實(shí)例、測(cè)試實(shí)例、和/或狀況實(shí)例。
[0073] 還可處理實(shí)例以確定分析中使用的探針的子集。對(duì)于每個(gè)探針,對(duì)全部干擾原和 對(duì)照實(shí)例平均化表達(dá)值,并且整理平均表達(dá)值。相應(yīng)地選擇探針的子集。在一些實(shí)施例中, 探針的子集可包括具有最高平均表達(dá)值的5, 000-10, 000個(gè)探針。在其它實(shí)施例中,探針的 子集可包括更多或更少的探針,包括全部探針(即,子集可為整個(gè)組)。探針的子集,在一些 實(shí)施例中,可根據(jù)具有高于預(yù)定閾值的平均表達(dá)值的探針進(jìn)行選擇。在一些實(shí)施例中,在任 何進(jìn)一步處理發(fā)生前可將表達(dá)值進(jìn)行對(duì)數(shù)轉(zhuǎn)化。在其它實(shí)施例中,對(duì)原始的歸一化表達(dá)值 執(zhí)行進(jìn)一步處理。在任何情況下,對(duì)于在特定批次中的每個(gè)對(duì)照實(shí)例,計(jì)算每個(gè)探針的平均 表達(dá)值。對(duì)于批次中的每個(gè)測(cè)試實(shí)例,發(fā)現(xiàn)在探針的平均表達(dá)值和測(cè)試實(shí)例中探針的表達(dá) 值之間存在差異。來(lái)自全部批次的全部測(cè)試實(shí)例組合成單個(gè)數(shù)據(jù)矩陣。
[0074] 使用多變量統(tǒng)計(jì)分析分析數(shù)據(jù)矩陣。雖然本文所述參照利用投射矩陣的內(nèi)核版本 的正則化Fisher判別分析,本領(lǐng)域的普通技術(shù)人員將容易認(rèn)識(shí)到,在其它實(shí)施例中也可使 用其它形式的多變量統(tǒng)計(jì)分析。以舉例的方式并且非限制地,可使用投射矩陣的非內(nèi)核版 本、非正則化的Fisher判別分析、線性判別分析、或廣義線性判別分析。在任何情況下,通 過(guò)移除非平行測(cè)定的實(shí)例(例如用于僅有單獨(dú)一個(gè)基因表達(dá)譜的干擾原的實(shí)例)減小數(shù)據(jù) 矩陣。利用多變量統(tǒng)計(jì)分析了解投射矩陣(或函數(shù)),并且利用投射矩陣(或函數(shù))將整個(gè) 數(shù)據(jù)矩陣(即,未減小的矩陣)投射到投射空間上。(當(dāng)利用Fisher判別分析的內(nèi)核版本 時(shí),結(jié)果是利用內(nèi)核函數(shù)計(jì)算投射的投射函數(shù)。所得矩陣具有顯著減少的維度。類似于主 要的組件分析,可進(jìn)一步將不重要的維度降維以改善所得矩陣的性能。正則化Fisher判別 分析的參數(shù)和用于保持最終經(jīng)投射的矩陣的維度數(shù)通過(guò)交叉驗(yàn)證來(lái)確定。
[0075] 所得矩陣可用于測(cè)定干擾原之間的相似度或相異度。具體地,可選擇在新矩陣中 的干擾原,并且可使用余弦距離或歐幾里得距離計(jì)算所選干擾原和每種其它干擾原之間的 投射空間的距離。隨后可根據(jù)每種干擾原距所選干擾原的距離將其排序。也可使用所得矩 計(jì)算全部測(cè)試干擾原之中的相似度(距離)矩陣??衫枚喾N方法將類似化學(xué)物質(zhì)分組或 將它們組織成樹樣結(jié)構(gòu)。
[0076] 作為另外一種選擇,可確定平均狀況譜并用作對(duì)干擾原數(shù)據(jù)的查詢??扇缟纤?相對(duì)于干擾原的基因表達(dá)譜歸一化狀況的基因表達(dá)譜。狀況的歸一化基因表達(dá)譜(例如存 儲(chǔ)為狀況實(shí)例)可進(jìn)行平均化,以通過(guò)尋找用于研究投射矩陣的每個(gè)探針的子集的平均表 達(dá)值確定平均狀況譜。同樣地,對(duì)應(yīng)對(duì)照實(shí)例的歸一化基因表達(dá)譜可以相同方式測(cè)定,并且 每個(gè)探針發(fā)現(xiàn)在對(duì)照實(shí)例中探針的平均表達(dá)值和狀況實(shí)例中探針的平均表達(dá)值之間存在 差異。所得載體(其可稱為平均狀況譜)可使用投射矩陣投射到投射空間上。在平均狀況 譜和每種干擾原之間的投射空間中的距離可使用余弦距離或歐幾里得距離來(lái)計(jì)算。隨后可 根據(jù)每種干擾原距平均狀況譜的距離來(lái)給它們排序。
[0077] 現(xiàn)在參見圖5至13,描述了用于無(wú)標(biāo)記鑒定生物劑的計(jì)算機(jī)實(shí)現(xiàn)的方法。本文所 述方法減輕批次效應(yīng),允許甚至當(dāng)相應(yīng)樣品被處理并在不同實(shí)驗(yàn)批中運(yùn)行時(shí)分析大量探針 組。所述方法或其部分可體現(xiàn)為存儲(chǔ)在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)上的指令。
[0078] 簡(jiǎn)單地參見圖13、表160和162,它們可對(duì)應(yīng)例如文件20的數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù),每 個(gè)示出與相應(yīng)批次相關(guān)聯(lián)的多個(gè)實(shí)例164。表160、162每個(gè)分別包括Y和Z實(shí)例164,并且 每個(gè)實(shí)例164包括每個(gè)N探針I(yè)D 168的表達(dá)值166,其中值N在一些實(shí)施例中等于微陣列 上探針的總數(shù)。在一些實(shí)施例中,數(shù)據(jù)結(jié)構(gòu)160、162可存儲(chǔ)為一組定界的值。例如,在數(shù)據(jù) 結(jié)構(gòu)160U62中的第一值170是索引"0",并且之后的N值168分別識(shí)別與Y或Z實(shí)例164 的每個(gè)相應(yīng)表達(dá)值166相關(guān)聯(lián)的N探針I(yè)D 168。在數(shù)據(jù)結(jié)構(gòu)160、162中的每個(gè)實(shí)例164 包括每個(gè)N探針I(yè)D 168的表達(dá)值166。每個(gè)批次以及每個(gè)數(shù)據(jù)結(jié)構(gòu)因此可含有對(duì)照實(shí)例 172(例如實(shí)例認(rèn)、24、18、28)、狀況實(shí)例174(例如實(shí)例3八-1(^、實(shí)例38-1(?)、和測(cè)試實(shí)例 176(例如實(shí)例 11A-YA、11B-ZB)。
[0079] 圖5示出用于鑒定類似于查詢劑的生物劑的方法100。在方法100中,如上所述進(jìn) 行基因表達(dá)譜實(shí)驗(yàn)(數(shù)據(jù)塊102)。在一些實(shí)施例中,基因表達(dá)譜實(shí)驗(yàn)包括多個(gè)批次,并且 每個(gè)批次包括干擾原處理細(xì)胞和對(duì)照細(xì)胞。在其它實(shí)施例中,基因表達(dá)譜實(shí)驗(yàn)包括多個(gè)批 次,并且每個(gè)批次包括干擾原處理細(xì)胞、對(duì)照細(xì)胞、和暴露于狀況的細(xì)胞(例如在對(duì)應(yīng)于圖 13中的表160和162的批次中)。在其它實(shí)施例中,基因表達(dá)譜實(shí)驗(yàn)包括一個(gè)或多個(gè)批次, 它們包括暴露于狀況的細(xì)胞,以及一個(gè)或多個(gè)批次,它們不包括暴露于狀況的細(xì)胞。在其它 實(shí)施例中,一個(gè)或多個(gè)批次可不包括任何干擾原處理的細(xì)胞。隨后如上文所簡(jiǎn)述(數(shù)據(jù)塊 104)并如下文所詳述(參見圖7)準(zhǔn)備從基因表達(dá)譜實(shí)驗(yàn)中獲得的數(shù)據(jù)。該方法還包括執(zhí) 行多變量分析(數(shù)據(jù)塊106)(如下所述參見圖8A和8B)。在多變量分析后,提交其中一種 基因表達(dá)譜(查詢劑)對(duì)分析數(shù)據(jù)進(jìn)行查詢以尋找類似于查詢劑(數(shù)據(jù)塊108)的劑,如下 所述參見圖9。
[0080] 相似地,圖6示出用于鑒定生物劑的方法110,該生物劑是用于處理查詢狀況的候 選。在方法110中,如上所述執(zhí)行基因表達(dá)譜實(shí)驗(yàn)(數(shù)據(jù)塊102)。基因表達(dá)譜實(shí)驗(yàn)產(chǎn)生涉 及至少對(duì)照細(xì)胞、干擾原處理細(xì)胞、和暴露于查詢狀況的細(xì)胞的數(shù)據(jù)。在一些實(shí)施例中,基 因表達(dá)譜實(shí)驗(yàn)包括多個(gè)批次,并且每個(gè)批次包括干擾原處理細(xì)胞和對(duì)照細(xì)胞。在其它實(shí)施 例中,基因表達(dá)譜實(shí)驗(yàn)包括多個(gè)批次,并且每個(gè)批次包括干擾原處理細(xì)胞、對(duì)照細(xì)胞、和暴 露于狀況的細(xì)胞。在一些實(shí)施例中,基因表達(dá)譜實(shí)驗(yàn)包括一個(gè)或多個(gè)批次,它們包括暴露于 狀況的細(xì)胞,以及一個(gè)或多個(gè)批次,它們不包括暴露于狀況的細(xì)胞。在一些實(shí)施例中,一個(gè) 或多個(gè)批次可不包括任何干擾原處理的細(xì)胞。隨后如上文所簡(jiǎn)述(數(shù)據(jù)塊104)并如下文 所詳述(參見圖7)準(zhǔn)備從基因表達(dá)譜實(shí)驗(yàn)中獲得的數(shù)據(jù)。該方法還包括執(zhí)行多變量分析 (數(shù)據(jù)塊106)(如下所述參見圖8A和8B)。在多變量分析后,提交查詢狀況的平均基因表 達(dá)譜對(duì)分析干擾原數(shù)據(jù)進(jìn)行查詢以尋找最可能逆反狀況的劑,例如,通過(guò)鑒定與查詢狀況 的基因表達(dá)譜(數(shù)據(jù)塊112)距離最遠(yuǎn)(并且因此最相異)的基因表達(dá)譜相關(guān)聯(lián)的劑,如下 所述參見圖10。
[0081] 現(xiàn)在轉(zhuǎn)向圖7,其示出了用于數(shù)據(jù)準(zhǔn)備的方法120,對(duì)應(yīng)于方法100和110中的數(shù) 據(jù)準(zhǔn)備實(shí)施例(即,對(duì)應(yīng)于數(shù)據(jù)塊104的實(shí)施例)。在方法120中,使用一般已知的表達(dá)歸 一化技術(shù)將每個(gè)基因表達(dá)譜歸一化(數(shù)據(jù)塊122)。在一些實(shí)施例中,使用的歸一化技術(shù)是 MAS5算法。在一些實(shí)施例中,使用的歸一化技術(shù)是RMA技術(shù)。在各種實(shí)施例中,歸一化包括 尋找基因表達(dá)譜中每個(gè)探針的探針表達(dá)值對(duì)數(shù)。
[0082] 在一些實(shí)施例中,方法120繼續(xù)選擇探針進(jìn)行進(jìn)一步分析(數(shù)據(jù)塊124)。圖11示 出用于選擇探針的方法160,對(duì)應(yīng)于數(shù)據(jù)準(zhǔn)備方法120中的探針的選擇(數(shù)據(jù)塊124)。參 見圖11和13,對(duì)于用于生成基因表達(dá)譜的每個(gè)N探針(S卩,在實(shí)例164中),全部需分析的 實(shí)例164將表達(dá)值166平均化(數(shù)據(jù)塊162)。S卩,如果100個(gè)(例如Y+Z)實(shí)例164中的每 個(gè)包括1000個(gè)探針中的每個(gè)的表達(dá)值166,確定1000個(gè)探針中的每個(gè)的平均表達(dá)值。例 如,參見圖13,在一個(gè)實(shí)施例中,探針I(yè)D1的平均表達(dá)值可通過(guò)平均化在每個(gè)實(shí)例11Α-ΥΑ和 11Β-ΖΒ中的探針I(yè)D1的表達(dá)值166進(jìn)行計(jì)算,探針I(yè)D2的平均表達(dá)值可通過(guò)平均化在每個(gè) 實(shí)例11Α-ΥΑ和11Β-ΖΒ中的探針I(yè)D2表達(dá)值166等等。可整理和/或排序平均表達(dá)值。探 針的子集可根據(jù)探針的平均最高表達(dá)(數(shù)據(jù)塊166)進(jìn)行選擇。在一些實(shí)施例中,探針的子 集可為全部探針(例如探針I(yè)D ID1至IDX)。在一些實(shí)施例中,探針的子集可為5, 000至 10, 000個(gè)探針。在各種實(shí)施例中子集可包括:約5, 000個(gè)探針至約15, 000個(gè)探針;約5, 000 個(gè)探針至約25, 000個(gè)探針;約10, 000個(gè)探針至約20, 000個(gè)探針;約10, 000個(gè)探針至約 25, 000個(gè)探針;約25, 000個(gè)探針至約50, 000個(gè)探針;超過(guò)10, 000個(gè)探針;超過(guò)25, 000個(gè) 探針;超過(guò)50, 000個(gè)探針等等。在一些實(shí)施例中,探針的子集可根據(jù)具有高于預(yù)定閾值的 平均表達(dá)值的探針進(jìn)行選擇。
[0083] 再次參見圖7,在選擇探針后(數(shù)據(jù)塊124),確定每個(gè)實(shí)例經(jīng)調(diào)節(jié)的基因表達(dá)譜 (數(shù)據(jù)塊126),其在圖12的方法170中更詳細(xì)地示出。分析中包括的每批均實(shí)施方法170。 選擇一個(gè)批次(例如具有在數(shù)據(jù)結(jié)構(gòu)160中的數(shù)據(jù)的批次)(數(shù)據(jù)塊172),并且對(duì)全部選擇 批次中的對(duì)照實(shí)例(數(shù)據(jù)塊174)計(jì)算每個(gè)探針的平均表達(dá)值(或子集中的每個(gè)探針,在其 中選擇探針的子集的實(shí)施例中)。全部對(duì)照實(shí)例的探針的平均表達(dá)值一起構(gòu)成平均對(duì)照基 因表達(dá)譜。例如,參照數(shù)據(jù)結(jié)構(gòu)160中的數(shù)據(jù),可計(jì)算對(duì)照實(shí)例中每個(gè)X探針I(yè)D的平均表 達(dá)值(例如實(shí)例1A和1B)。數(shù)據(jù)結(jié)構(gòu)160中示出的批次中探針I(yè)D1的平均表達(dá)值將為:
[0084] (CNTl1A+CNTl2A)/2
[0085] 其中:
[0086] CNT11A是實(shí)例1A的表達(dá)值CNT1,并且
[0087] CNT12A是實(shí)例2A的表達(dá)值CNT1 ;
[0088] 對(duì)于探針I(yè)D2將為:
[0089] (CNT21A+CNT22A) /2
[0090] 其中:
[0091] CNT21A是實(shí)例1A的表達(dá)值CNT2,并且
[0092] CNT22A是實(shí)例2A的表達(dá)值CNT2 ;等。
[0093] 接下來(lái),通過(guò)測(cè)定每個(gè)探針的平均表達(dá)值(或子集中的每個(gè)探針)和干擾原實(shí)例 (例如實(shí)例11A-YAU1B-ZB)中相應(yīng)探針的表達(dá)值166(數(shù)據(jù)塊176)之間的差異,對(duì)于批次 中的每個(gè)干擾原實(shí)例測(cè)定差異表達(dá)值(本文也稱為"經(jīng)調(diào)節(jié)的測(cè)試基因表達(dá)譜"或"經(jīng)調(diào)節(jié) 的基因表達(dá)譜")。繼續(xù)之前的例子,實(shí)例11A的探針I(yè)D1的差異表達(dá)值將為:
[0094] CNT111A- [(CNT11a+CNT12A)/2];
[0095] 實(shí)例11A的探針I(yè)D2的差異表達(dá)值將為:
[0096] CNT211A - [ (CNT21A+CNT22A) /2];
[0097] 實(shí)例12A的探針I(yè)D1的差異表達(dá)值將為:
[0098] CNT112A_ [(CNTl1A+CNTl2A)/2];等。
[0099] 如果存在一個(gè)附加批次(例如在數(shù)據(jù)結(jié)構(gòu)162中示出的批次)(數(shù)據(jù)塊178),對(duì)照 再選擇下一批次(數(shù)據(jù)塊172)并且再實(shí)施方法170直至全部待分析批次實(shí)施了方法170。 經(jīng)調(diào)節(jié)的基因表達(dá)譜對(duì)于每個(gè)實(shí)例包括全部差異表達(dá)值,它們組合成數(shù)據(jù)矩陣(數(shù)據(jù)塊 128,圖7)。這個(gè)數(shù)據(jù)矩陣下文將稱為數(shù)據(jù)矩陣或干擾原數(shù)據(jù)矩陣,雖然它將是清楚的:數(shù) 據(jù)矩陣可包括干擾原處理細(xì)胞、暴露于狀況的細(xì)胞等的實(shí)例數(shù)據(jù)??蓪⒏蓴_原數(shù)據(jù)矩陣存 儲(chǔ)在例如計(jì)算機(jī)可讀介質(zhì)16和/或計(jì)算機(jī)可讀介質(zhì)38中。
[0100] 在方法100和方法110中,執(zhí)行多變量分析(數(shù)據(jù)塊106)在一些實(shí)施例中涉及執(zhí) 行方法130,在圖8A中示出。為了研究投射矩陣,從干擾原數(shù)據(jù)矩陣中移除僅具有單個(gè)基 因表達(dá)譜的干擾原實(shí)例以創(chuàng)建減小的干擾原數(shù)據(jù)矩陣(數(shù)據(jù)塊132)(有時(shí)簡(jiǎn)稱為"約簡(jiǎn)數(shù) 據(jù)矩陣"),也可將其存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)16、38中的一個(gè)或兩個(gè)上。根據(jù)多變量統(tǒng)計(jì)分 析,使用減小的干擾原數(shù)據(jù)矩陣研究投射矩陣,并且具體地,可利用正則化Fisher判別分 析進(jìn)行研究(數(shù)據(jù)塊134)。在方法135中,如圖8B所示,例如使用正則化Fisher判別分析 (RFDA)確定投射空間(數(shù)據(jù)塊134)。計(jì)算內(nèi)-和間-化學(xué)散射矩陣(數(shù)據(jù)塊137)。正則 化總散射矩陣并且產(chǎn)生廣義本征值問(wèn)題(數(shù)據(jù)塊138)。解決廣義本征值問(wèn)題以確定投射空 間(數(shù)據(jù)塊139)。在一些實(shí)施例中,投射矩陣可為RBF內(nèi)核投射矩陣,描述于Z. Zhang等 人,"Regularized Discriminant Analysis, Ridge Regression and Beyond,';Journal of Machine Learning Research 11(2010) 2199-2228, 2010年8月)。隨后使用投射矩陣將整 個(gè)矩陣(即,在數(shù)據(jù)塊128中創(chuàng)建的干擾原數(shù)據(jù)矩陣)投射到投射空間上,創(chuàng)建具有顯著減 少維度的投射空間矩陣(數(shù)據(jù)塊136)。類似于本文所述的其它矩陣,可將投射空間矩陣存 儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)16、38中的一個(gè)或兩個(gè)上。
[0101] 利用投射空間矩陣,測(cè)定投射空間中的基因表達(dá)譜之間的相似度(或差異)是可 能的。方法100和110,例如,通過(guò)查看在投射空間矩陣中示出的實(shí)例間的距離分別對(duì)相似 的生物活性(數(shù)據(jù)塊108)和生物相異度(S卩,最可能逆反臨床終點(diǎn)的劑)(數(shù)據(jù)塊112)進(jìn) 行查詢。首先轉(zhuǎn)向方法100,圖9示出用于查詢?cè)谟成渫渡淇臻g中兩個(gè)點(diǎn)的實(shí)例間的相似生 物活性的方法140 (例如查詢干擾原之間的相似活性)(數(shù)據(jù)塊108)。在一些實(shí)施例中,該 方法包括接受選擇的細(xì)胞系進(jìn)行分析(數(shù)據(jù)塊142)。例如,使用者可選擇在其上已經(jīng)測(cè)試 了多種干擾原的第一細(xì)胞系(例如TERT角質(zhì)細(xì)胞),或者可選擇在其上已經(jīng)測(cè)試了多種干 擾原的第二細(xì)胞系(例如BJ成纖維細(xì)胞)。相同或不同組的干擾原可能已經(jīng)對(duì)第一和第二 細(xì)胞系中的每個(gè)進(jìn)行了測(cè)試。另外,在一些實(shí)施例中,該方法可包括接受涉及處理平行測(cè)定 實(shí)例的選擇。即,每個(gè)化學(xué)實(shí)例(即,包括每個(gè)干擾原基因表達(dá)譜的每個(gè)平行測(cè)定)可在投 射空間中檢查,或者化學(xué)平行測(cè)定的實(shí)例可被平均化?;瘜W(xué)平行測(cè)定的平均化在不同實(shí)施 例中可發(fā)生在投射到投射空間矩陣中之前或之后。
[0102] 隨后從投射空間矩陣內(nèi)的干擾原中選擇查詢干擾原(也稱為查詢劑)(數(shù)據(jù)塊 144)。當(dāng)然,雖然本文描述為查詢"干擾原,"查詢劑可為投射空間矩陣中的任何載體,包括 干擾原載體、假設(shè)的化學(xué)結(jié)構(gòu)載體、對(duì)應(yīng)于暴露于狀況的細(xì)胞的基因表達(dá)譜的載體等等。計(jì) 算投射空間矩陣(數(shù)據(jù)塊146)中每個(gè)實(shí)例(或選擇的實(shí)例子集)在投射空間中距查詢干 擾原的距離。在一些實(shí)施例中,將距離計(jì)算為余弦距離。在一些實(shí)施例中,將距離計(jì)算為歐 幾里得距離。在任何情況下,在投射空間矩陣中的各種干擾原(或其它數(shù)據(jù))根據(jù)它們每 個(gè)距查詢干擾原的距離進(jìn)行排序(數(shù)據(jù)塊148)。最接近(即,具有最短距離)投射空間中 的查詢干擾原的干擾原產(chǎn)生最類似查詢干擾原的基因表達(dá)譜。除了排序之外,用于確定查 詢干擾原和投射空間中的其它實(shí)例之間的相對(duì)距離的方法可在一些實(shí)施例中使用。
[0103] 圖14示出具有查詢干擾原182的示例性查詢的結(jié)果180??梢钥闯觯ú⑶铱梢灶A(yù) 知),查詢干擾原182具有距自身0.0的距離184。在示出的例子中,結(jié)果180也指示芯片 ID 186和相應(yīng)的化學(xué)名188。示例性結(jié)果示出相同化學(xué)物質(zhì)(鄰-菲咯啉)(例如化學(xué)物 質(zhì)排序2和3)的平行測(cè)定具有距查詢干擾原的最小距離。結(jié)果180中的干擾原固定排序 4和5是2, 6-Di (2-吡啶基)吡啶??梢钥闯觯?菲咯啉的化學(xué)結(jié)構(gòu)187類似于2, 6-二 (2-吡啶基)吡啶的化學(xué)結(jié)構(gòu)189A。4, 4'-二甲基-2, 2'-二吡啶和3, 4, 7, 8-四甲基菲咯 啉的化學(xué)結(jié)構(gòu)189B和189C分別略少地類似于鄰-菲咯啉的化學(xué)結(jié)構(gòu),并且根據(jù)距鄰-菲 咯啉的距離分別排序?yàn)?-7和8-9。
[0104] 參見圖15和16,不同干擾原對(duì)不同細(xì)胞類型在轉(zhuǎn)錄水平上的效應(yīng)是非常明顯的。 在圖15中,表200示出頂部的五種和底部的五種化學(xué)物質(zhì),它們?cè)诩?xì)胞系MCF7206中根據(jù) 距查詢干擾原204(雌二醇)的距離202進(jìn)行排序。在頂部的五種化學(xué)物質(zhì)中,最相似的化 學(xué)實(shí)例208是雌二醇平行測(cè)定。在相對(duì)端(最相異的)是抗雌激素劑氯米芬(Clomifene) 和氟維司群(Ful Vestrant)210。這種表現(xiàn)符合以下事實(shí):MCF7細(xì)胞系表達(dá)雌激素受體和頂 部與底部列出的化學(xué)物質(zhì)208、210,它們分別用作激動(dòng)劑和拮抗劑。然而,如圖16所示,表 212示出頂部10種化學(xué)物質(zhì)根據(jù)在不同細(xì)胞系PC3218中距相同查詢干擾原216 (雌二醇) 的距離214排序,顯示當(dāng)查看在缺乏雌激素受體的PC3(前列腺癌癥)細(xì)胞中的雌二醇處理 時(shí),發(fā)現(xiàn)氟維司群類似于雌二醇。雌二醇和氟維司群的結(jié)構(gòu)220、222是類似的,并且所述劑 在缺乏雌激素受體的PC3細(xì)胞系中誘導(dǎo)類似的轉(zhuǎn)錄響應(yīng)。這些結(jié)果驗(yàn)證本文所述的方法、 系統(tǒng)、和裝置的能力,它們能夠從基因表達(dá)噪聲數(shù)據(jù)中提取有意義的信號(hào),甚至在存在依賴 所考慮的細(xì)胞系作用機(jī)制的情況下依然如此。
[0105] 接下來(lái)轉(zhuǎn)向方法110,圖10示出方法150,其用于查詢引起生物學(xué)應(yīng)答的干擾原, 它與狀況引起的應(yīng)答相異(例如可能逆反細(xì)胞中的特定狀況的化學(xué)物質(zhì))(數(shù)據(jù)塊112)。該 方法包括確定如上所述用作查詢的平均狀況譜(數(shù)據(jù)塊152)。具體地,平均狀況譜(也稱 為"經(jīng)調(diào)節(jié)的狀況基因表達(dá)譜")可通過(guò)尋找用于研究表達(dá)矩陣的每個(gè)探針的子集的平均表 達(dá)值進(jìn)行計(jì)算。即,如果全部探針I(yè)D1_IDN(參見圖13)用于研究表達(dá)矩陣,在實(shí)例3A-10A 和3B-10B中測(cè)試的狀況的平均表達(dá)譜將包括探針I(yè)D1的平均表達(dá)值:
[0106] (CON13a+CON1...a+CON110a+CON13b+CON1... b+CON110b) /16 ;
[0107] 探針I(yè)D2的平均表達(dá)值:
[0108] (CON23A+CON2...A+CON210A+CON2 3B+CON2...B+CON210B) /16 ;
[0109] 等。當(dāng)然,這假定實(shí)例3A-10A和3B-10B中的每個(gè)用于表現(xiàn)相同狀況的細(xì)胞,其未 必如此。如上所述從平均狀況譜中減去所關(guān)注狀況的平均對(duì)照表達(dá)譜。
[0110] 將平均狀況譜投射到投射空間上(數(shù)據(jù)塊154)。測(cè)定平均狀況譜距在投射空間矩 陣中每個(gè)干擾原的距離(數(shù)據(jù)塊156),并且至少在一些實(shí)施例中,干擾原根據(jù)每個(gè)在投射 空間中距平均狀況譜的距離進(jìn)行排序(數(shù)據(jù)塊158)。在一些實(shí)施例中,將距離計(jì)算為余弦 距離。在一些實(shí)施例中,將距離計(jì)算為歐幾里得距離。用作查詢的在投射空間中距平均狀 況譜最遠(yuǎn)(即,具有最大距離)的干擾原最可能逆反平均狀況譜的表達(dá)模式。
[0111] 圖17是結(jié)果232的表230,其對(duì)應(yīng)于逆反(或模擬)臨床結(jié)果的化學(xué)實(shí)例。查詢 狀況234 (例如頭皮屑)對(duì)應(yīng)于狀況處理細(xì)胞的平均狀況譜。距離查詢狀況234較遠(yuǎn)的干 擾原的排序,包括甘寶素和酮康唑,指示干擾原用于處理查詢狀況的潛在用途。具體地,甘 寶素和酮康唑是熟知的去頭皮屑劑。相似地,如果任何受關(guān)注狀況的基因表達(dá)數(shù)據(jù)(以及 相關(guān)聯(lián)的對(duì)照數(shù)據(jù))是可用的,可使用本文所述的方法、系統(tǒng)、和裝置分析數(shù)據(jù),從而進(jìn)行 無(wú)標(biāo)記查詢,鑒定最好地模擬或逆反與狀況相關(guān)聯(lián)的差異基因表達(dá)模式的處理。
[0112] 雖然上述方法和系統(tǒng)相對(duì)于基因表達(dá)譜數(shù)據(jù)的分析進(jìn)行描述,應(yīng)當(dāng)理解該方法能 夠容易地應(yīng)用于除基因表達(dá)譜數(shù)據(jù)之外的數(shù)據(jù)組分析,以舉例的方式并且無(wú)限制地包括涉 及其它生物標(biāo)記的數(shù)據(jù)組。
[0113] 除非明確地排除或以其它方式限制,本文所引用的每個(gè)文獻(xiàn)均以引用方式全文并 入本文。對(duì)任何文獻(xiàn)的引用均不是承認(rèn)其為本文公開的或受權(quán)利要求書保護(hù)的任何發(fā)明的 現(xiàn)有技術(shù)、或承認(rèn)其獨(dú)立地或以與任何其它一個(gè)或多個(gè)參考文獻(xiàn)的任何組合的方式提出、 建議或公開任何此類發(fā)明。此外,當(dāng)本文件中術(shù)語(yǔ)的任何含義或定義與以引用方式并入的 文件中相同術(shù)語(yǔ)的任何含義或定義矛盾時(shí),應(yīng)當(dāng)服從在本發(fā)明中賦予該術(shù)語(yǔ)的含義或定 義。
[0114] 本文所公開的值不應(yīng)被理解為嚴(yán)格限于所引用的精確值。相反,除非另外指明,每 個(gè)這樣的值旨在表示所述值以及該值附近的函數(shù)等效范圍。
[0115] 本發(fā)明不應(yīng)認(rèn)為受限于本文所述的特定例子,而是應(yīng)理解為包括本發(fā)明的所有方 面。本發(fā)明可適用的各種修改形式、等同方法、以及多種結(jié)構(gòu)和裝置對(duì)于本領(lǐng)域的技術(shù)人員 將是顯而易見的。本領(lǐng)域的技術(shù)人員將理解可在不脫離本發(fā)明范圍的情況下進(jìn)行多個(gè)改 變,其不被認(rèn)為是受限于本說(shuō)明書的描述。
【權(quán)利要求】
1. 一種計(jì)算機(jī)實(shí)現(xiàn)的方法,所述計(jì)算機(jī)實(shí)現(xiàn)的方法用于構(gòu)建存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介 質(zhì)中的數(shù)據(jù)架構(gòu),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以通信方式聯(lián)接至處理器,所述方法包括: 從所述計(jì)算機(jī)可讀介質(zhì)的第一數(shù)據(jù)庫(kù)中檢索多個(gè)實(shí)例,每個(gè)實(shí)例對(duì)應(yīng)于多個(gè)批次之一 且包括多個(gè)探針中的每個(gè)的表達(dá)值,所述多個(gè)批次中的每個(gè)產(chǎn)生對(duì)應(yīng)于與對(duì)照相關(guān)的基因 表達(dá)譜(GEP)的多個(gè)對(duì)照實(shí)例和對(duì)應(yīng)于與干擾原相關(guān)的GEP的多個(gè)測(cè)試實(shí)例; 從所述多個(gè)探針中選擇探針的子集; 使用所述處理器來(lái)確定每個(gè)批次的平均對(duì)照GEP,所述平均對(duì)照GEP僅包括所選擇的 探針的子集且通過(guò)針對(duì)所述探針的子集中的每個(gè)計(jì)算在所述多個(gè)對(duì)照實(shí)例中探針的平均 表達(dá)值來(lái)確定; 使用所述處理器來(lái)確定在某一批次中每個(gè)測(cè)試實(shí)例的經(jīng)調(diào)節(jié)的GEP,每個(gè)經(jīng)調(diào)節(jié)的 GEP通過(guò)針對(duì)所述探針的子集中的每個(gè)確定所述批次的所述測(cè)試實(shí)例中的探針的表達(dá)值與 所述對(duì)照實(shí)例中的探針的平均表達(dá)值之間的差異來(lái)確定;以及 在所述計(jì)算機(jī)可讀介質(zhì)的第二數(shù)據(jù)庫(kù)中存儲(chǔ)多個(gè)經(jīng)調(diào)節(jié)的實(shí)例,每個(gè)經(jīng)調(diào)節(jié)的實(shí)例對(duì) 應(yīng)于在全部所述多個(gè)批次中由全部所述測(cè)試實(shí)例確定的經(jīng)調(diào)節(jié)的GEP之一。
2. 根據(jù)權(quán)利要求1所述的方法,其中從所述多個(gè)探針中選擇探針的子集包括: 確定在所述多個(gè)實(shí)例中每個(gè)探針的平均表達(dá)值; 整理在所述多個(gè)實(shí)例中探針的平均表達(dá)值;以及 選擇一定數(shù)量的最高表達(dá)的探針,優(yōu)選地其中所述數(shù)量為2000至10, 000,包括端值在 內(nèi)。
3. 根據(jù)權(quán)利要求1所述的方法,其中從所述多個(gè)探針中選擇探針的子集包括根據(jù)所 述探針的相對(duì)表達(dá)值來(lái)選擇預(yù)定數(shù)量的探針,優(yōu)選地其中所述預(yù)定數(shù)量的探針為2000至 1000個(gè)探針,包括端值在內(nèi)。
4. 根據(jù)權(quán)利要求1所述的方法,其中從所述多個(gè)探針中選擇探針的子集包括選擇高于 預(yù)定閾值表達(dá)水平的探針的子集。
5. 根據(jù)權(quán)利要求1所述的方法,還包括從用干擾原處理過(guò)的相應(yīng)的多個(gè)細(xì)胞中提取多 個(gè)生物樣品并對(duì)所述生物樣品進(jìn)行微陣列分析。
6. -種數(shù)據(jù)結(jié)構(gòu),包括: 經(jīng)調(diào)節(jié)的基因表達(dá)譜(GEP)的矩陣,所述經(jīng)調(diào)節(jié)的GEP由多個(gè)批次的測(cè)試實(shí)例確定,每 個(gè)批次包括多個(gè)對(duì)照實(shí)例和多個(gè)測(cè)試實(shí)例,其中所述經(jīng)調(diào)節(jié)的GEP中的每個(gè)針對(duì)多個(gè)探針 中的每個(gè)包括在特定批次的所述多個(gè)對(duì)照實(shí)例的探針的平均表達(dá)值與在所述特定批次內(nèi) 的測(cè)試實(shí)例中探針的表達(dá)值之間的差值。
7. -種鑒定用于處理狀況的候選干擾原的方法,所述方法包括: 訪問(wèn)與多個(gè)批次的基因表達(dá)譜(GEP)實(shí)驗(yàn)相關(guān)的數(shù)據(jù),每個(gè)批次與多個(gè)測(cè)試實(shí)例相關(guān) 的每個(gè)實(shí)例包括多個(gè)探針中的每個(gè)的表達(dá)值; 針對(duì)每個(gè)批次,確定所述批次的平均對(duì)照GEP,所述批次的平均對(duì)照GEP通過(guò)將全部所 述對(duì)照實(shí)例中探針的子集中的每個(gè)的表達(dá)值進(jìn)行平均來(lái)確定; 確定在某一批次中每個(gè)測(cè)試實(shí)例的經(jīng)調(diào)節(jié)的測(cè)試GEP,每個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP通過(guò)從 所述對(duì)應(yīng)批次的平均對(duì)照GEP中的對(duì)應(yīng)探針的表達(dá)值中減去所述測(cè)試實(shí)例中探針的子集 中的每個(gè)的表達(dá)值來(lái)確定; 通過(guò)組合來(lái)自全部所述多個(gè)批次的全部所述經(jīng)調(diào)節(jié)的測(cè)試GEP來(lái)創(chuàng)建數(shù)據(jù)矩陣; 通過(guò)從所述數(shù)據(jù)矩陣中移除任何干擾原的經(jīng)調(diào)節(jié)的測(cè)試GEP來(lái)創(chuàng)建約簡(jiǎn)數(shù)據(jù)矩陣,對(duì) 于干擾原在所述數(shù)據(jù)矩陣中僅存在單個(gè)經(jīng)調(diào)節(jié)的測(cè)試GEP ; 對(duì)所述約簡(jiǎn)數(shù)據(jù)矩陣執(zhí)行多變量統(tǒng)計(jì)分析以創(chuàng)建限定投射空間的投射矩陣或投射函 數(shù); 使用所述投射矩陣或所述投射函數(shù)來(lái)將所述數(shù)據(jù)矩陣投射到所述投射空間上以創(chuàng)建 經(jīng)投射的矩陣; 確定維度數(shù)量以保持所述經(jīng)投射的矩陣; 確定經(jīng)調(diào)節(jié)的狀況GEP ; 使用所述投射矩陣或所述投射函數(shù)來(lái)將所述經(jīng)調(diào)節(jié)的狀況GEP投射到所述投射空間 上;以及 將所述經(jīng)調(diào)節(jié)的狀況GEP在所述投射空間中的位置與所述經(jīng)調(diào)節(jié)的測(cè)試GEP在所述投 射空間中的位置進(jìn)行比較以鑒定一種或多種干擾原。
8. 根據(jù)權(quán)利要求7所述的方法,其中確定經(jīng)調(diào)節(jié)的狀況GEP包括: 確定第二批次的第二平均對(duì)照GEP,所述第二批次包括對(duì)照細(xì)胞的GEP和暴露于所述 狀況的細(xì)胞的GEP ; 確定所述第二批次的平均狀況GEP ;以及 確定所述經(jīng)調(diào)節(jié)的狀況GEP,所述確定針對(duì)所述探針的子集中的每個(gè)通過(guò)確定在所述 第二平均對(duì)照GEP中的探針的表達(dá)值和在所述平均狀況GEP中的探針的表達(dá)值之間的差異 來(lái)進(jìn)行,優(yōu)選地其中確定所述第二批次的平均狀況GEP包括針對(duì)所述探針的子集中的每個(gè) 確定在多個(gè)狀況GEP中的探針的平均表達(dá)值。
9. 根據(jù)權(quán)利要求7所述的方法,其中將所述經(jīng)調(diào)節(jié)的狀況GEP在所述投射空間中的位 置與所述經(jīng)調(diào)節(jié)的測(cè)試GEP在所述投射空間中的位置進(jìn)行比較以鑒定一種或多種干擾原 包括: 計(jì)算在所述投射空間中從所述平均狀況譜到所述數(shù)據(jù)矩陣中的所述經(jīng)調(diào)節(jié)的測(cè)試GEP 中的每個(gè)的距離,優(yōu)選地其中計(jì)算所述投射空間中的距離包括計(jì)算歐幾里得距離或余弦距 離。
10. 根據(jù)權(quán)利要求9所述的方法,其中將所述經(jīng)調(diào)節(jié)的狀況GEP在所述投射空間中的位 置與所述經(jīng)調(diào)節(jié)的測(cè)試GEP在所述投射空間中的位置進(jìn)行比較以鑒定一種或多種干擾原 還包括: 根據(jù)在所述投射空間中從所述平均狀況譜到每種干擾原的經(jīng)調(diào)節(jié)的測(cè)試GEP的距離 來(lái)將所述一種或多種干擾原排序。
11. 根據(jù)權(quán)利要求7所述的方法,其中所選擇的探針的子集通過(guò)包括下列的方法來(lái)確 定: 確定在所述多個(gè)對(duì)照和測(cè)試實(shí)例中每個(gè)探針的平均表達(dá)值; 整理所述平均表達(dá)值;以及 選擇一定數(shù)量的最高表達(dá)的探針。
12. 根據(jù)權(quán)利要求7所述的方法,其中所選擇的探針的子集通過(guò)包括下列的方法來(lái)確 定:根據(jù)所述探針的相對(duì)表達(dá)來(lái)選擇預(yù)定數(shù)量的探針。
13. 根據(jù)權(quán)利要求7所述的方法,其中所選擇的探針的子集通過(guò)包括下列的方法來(lái)確 定:選擇高于預(yù)定閾值表達(dá)水平的探針的子集。
14. 根據(jù)權(quán)利要求7所述的方法,其中執(zhí)行多變量統(tǒng)計(jì)分析包括執(zhí)行Fisher判別分析。
15. 根據(jù)權(quán)利要求7所述的方法,還包括從用干擾原處理過(guò)的相應(yīng)的多個(gè)細(xì)胞中提取 多個(gè)生物樣品并對(duì)所述生物樣品進(jìn)行微陣列分析。
【文檔編號(hào)】G06F19/24GK104115151SQ201380009808
【公開日】2014年10月22日 申請(qǐng)日期:2013年2月22日 優(yōu)先權(quán)日:2012年2月22日
【發(fā)明者】徐雋, R·M·凱恩卡彥 申請(qǐng)人:寶潔公司