使用基于樹的空間數(shù)據(jù)結(jié)構(gòu)對基因數(shù)據(jù)集的群體分類的制作方法
【技術(shù)領(lǐng)域】
[0001]下文總體上涉及基因分析領(lǐng)域、醫(yī)學(xué)領(lǐng)域,并且涉及基因分析領(lǐng)域、醫(yī)學(xué)領(lǐng)域的應(yīng)用,例如包括腫瘤學(xué)領(lǐng)域、獸醫(yī)學(xué)領(lǐng)域等的醫(yī)學(xué)領(lǐng)域的應(yīng)用。
【背景技術(shù)】
[0002]能夠使用諸如微陣列和“下一代”測序系統(tǒng)的技術(shù)來采集針對個體的大的基因數(shù)據(jù)集,其中,微陣列能夠生成數(shù)萬到數(shù)十萬的基因數(shù)據(jù)點,例如,每個對應(yīng)于目標(biāo)蛋白等的表達(dá)水平,“下一代”測序系統(tǒng)能夠輸出構(gòu)成數(shù)百萬或更大基數(shù)的大的序列以及甚至整個基因組序列。根據(jù)這樣的數(shù)據(jù)集,能夠識別諸如單核苷酸多態(tài)性(SNP)、拷貝數(shù)變異(CNV)等的各種基因標(biāo)記物,該基因標(biāo)記物是醫(yī)學(xué)檢驗的,例如指示特定類型的癌癥。
[0003]已知,對這樣的基因標(biāo)記物的解讀通過按種族、性別或其他群體分組對個體的分類的知識得到促進或者在一些情況下需要按種族、性別或其他群體分組對個體的分類的知識。例如,基于群體,一些基因組變異體(注意,如本文中所使用的,“基因”和“基因組”被認(rèn)為是可互換的)已經(jīng)與超過一個不同的基因失調(diào)相關(guān)聯(lián)。在一些情況下,等位基因在一個群體中是主要等位基因,而在另一個群體中是次要(以及疾病指示性)等位基因。因此,對于對基因變異體的適當(dāng)解讀而言,獲知適當(dāng)?shù)娜后w是有用的或者甚至是必須的。
[0004]在一些情況下,能夠基于現(xiàn)有的知識和/或觀測到的表現(xiàn)型來對基因數(shù)據(jù)集進行分類。例如,患者的性別或種族可以是已知的或自報告的。然而,該方法能夠易于出錯。一些分類對于對象和處置醫(yī)學(xué)人員而言也可以是未知的。例如,患者可以未知地屬于由未確診的醫(yī)學(xué)狀況或由指示對特定疾病的傾向的基因標(biāo)識定義的群體組。當(dāng)一些處置的效力在群體之間可以不同時,對群體的適當(dāng)識別在疾病管理中也是重要的。此外,由于筆誤或遺漏、或者個人隱私或文化敏感性考慮,基因數(shù)據(jù)集可能沒有標(biāo)記有可用的分類信息。
[0005]能夠備選地基于諸如基因型、表達(dá)/甲基化狀態(tài)等的群體特異性基因標(biāo)記物來將基因數(shù)據(jù)集分配給群體。該方法有利地從基因數(shù)據(jù)集自身導(dǎo)出群體分組信息。
[0006]當(dāng)對新個體執(zhí)行基因分析時,所采集的基因數(shù)據(jù)集經(jīng)受該群體分類。類似地,當(dāng)執(zhí)行對在個體的群體內(nèi)的子群體的基因分析時,這樣的分類同樣是初步操作。對基因數(shù)據(jù)集的群體分類通常是耗費時間的過程,并且必須針對分析下的(例如,每個新患者)每個新的基因數(shù)據(jù)集被執(zhí)行。
[0007]此外,依賴于觀測基因數(shù)據(jù)集中的離散基因標(biāo)記物(例如,特異性群體指示性等位基因)的群體分類方法在群體分類過程中不利用完整基因數(shù)據(jù)集。
[0008]下文預(yù)見克服上述限制和其他限制的改進的裝置和方法。
【發(fā)明內(nèi)容】
[0009]根據(jù)一個方面,一種非暫態(tài)存儲介質(zhì)存儲能由電子數(shù)據(jù)處理設(shè)備運行以執(zhí)行包括以下的方法的指令:對表示參考群體的基因數(shù)據(jù)集的特征向量執(zhí)行特征約簡以生成將所述特征向量映射到與所述特征向量的維度相比降低的維度的向量空間的映射;使用所述映射來生成所述參考群體的所述基因數(shù)據(jù)集的降低的維度的向量表示;并且將所述參考群體的所述基因數(shù)據(jù)集的所述降低的維度的向量表示存儲為基于樹的空間數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)點。所述映射是適當(dāng)?shù)木€性變換,并且可以是Y = M(X),其中,X是表示基因數(shù)據(jù)集的特征向量,Y是所述基因數(shù)據(jù)集的所述降低的維度的向量表示,并且M是變換矩陣。所述特征約簡可以采用主成分分析(PCA)。所述方法還可以包括:利用與從其采集所述參考群體的所述基因數(shù)據(jù)集的對象有關(guān)的信息來標(biāo)注所述基于樹的空間數(shù)據(jù)結(jié)構(gòu)中的所述數(shù)據(jù)點;并且基于數(shù)據(jù)點的分布和所述數(shù)據(jù)點的標(biāo)注來將所述基于樹的空間數(shù)據(jù)結(jié)構(gòu)的空間區(qū)域與在所述參考群體內(nèi)的群體相關(guān)聯(lián),例如,通過執(zhí)行對由所述基于樹的空間數(shù)據(jù)結(jié)構(gòu)索引的所述空間中的所述標(biāo)注的數(shù)據(jù)點的聚類。所述方法還包括:使用所述映射來生成先證者基因數(shù)據(jù)集的先證者降低的維度的向量表示;將所述先證者降低的維度的向量表示定位在所述基于樹的空間數(shù)據(jù)結(jié)構(gòu)中;并且基于所述先證者基因數(shù)據(jù)集在所述基于樹的空間數(shù)據(jù)結(jié)構(gòu)中的位置來對所述先證者基因數(shù)據(jù)集進行分類。
[0010]根據(jù)另一方面,一種裝置包括如前一段所述的非暫態(tài)存儲介質(zhì),以及電子數(shù)據(jù)處理設(shè)備,所述電子數(shù)據(jù)處理設(shè)備被配置為讀取并運行在所述非暫態(tài)存儲介質(zhì)上存儲的指令。
[0011]根據(jù)另一方面,一種方法包括:構(gòu)建表示基因數(shù)據(jù)集的特征向量;使用線性變換來降低所述特征向量的維度以生成所述基因數(shù)據(jù)集的降低的維度的向量表示;將所述基因數(shù)據(jù)集的所述降低的維度的向量表示定位在基于樹的空間數(shù)據(jù)結(jié)構(gòu)中;并且基于所述基因數(shù)據(jù)集的降低的維度的向量表示在所述基于樹的空間數(shù)據(jù)結(jié)構(gòu)中的位置來將所述基因數(shù)據(jù)集分配給一個或多個群體。至少所述構(gòu)建、所述生成和所述定位適當(dāng)?shù)厥怯呻娮訑?shù)據(jù)處理設(shè)備執(zhí)行的。
[0012]根據(jù)另一方面,一種裝置包括電子數(shù)據(jù)處理設(shè)備,所述電子數(shù)據(jù)處理設(shè)備被編程為:構(gòu)建表示參考群體的參考基因數(shù)據(jù)集的參考特征向量;使用線性變換來對所述特參考征向量進行變換以生成所述參考群體的所述參考基因數(shù)據(jù)集的降低的維度的向量表示;并且構(gòu)建基于樹的空間數(shù)據(jù)結(jié)構(gòu)以將所述參考基因數(shù)據(jù)集索引為數(shù)據(jù)點,所述數(shù)據(jù)點由所述參考群體的所述參考基因數(shù)據(jù)集的所述降低的維度的向量表示的至少一些維定義??梢酝ㄟ^對所述參考特征向量執(zhí)行特征約簡來生成所述線性變換。
[0013]一個優(yōu)點在于對基因數(shù)據(jù)集的更有效的群體分類或分組。
[0014]另一優(yōu)點在于對基因數(shù)據(jù)集的更準(zhǔn)確的群體分類或分組。
[0015]另一優(yōu)點在于提供了可容易擴展的以更精細(xì)分辨的群體分組(即,可擴展以定義子群體)的群體分類架構(gòu)。
[0016]另一優(yōu)點在于基于聚集的基因數(shù)據(jù)集而不是基于預(yù)先定義的離散基因標(biāo)記物來執(zhí)行對基因數(shù)據(jù)集的群體分類或分組。
[0017]另一優(yōu)點在于以降低的計算復(fù)雜性例如使用預(yù)先計算的線性變換而不對要分類的每個樣本重新執(zhí)行特征約簡來執(zhí)行群體分組。
[0018]對本領(lǐng)域的普通技術(shù)人員而言,在閱讀下文詳細(xì)描述后,許多額外的優(yōu)點和益處將變得顯而易見。
【附圖說明】
[0019]本發(fā)明可以采取各種部件和部件的布置,以及各種過程操作和過程操作的安排的形式。附圖僅出于圖示優(yōu)選實施例的目的,并且不得被解釋為對本發(fā)明的限制。
[0020]圖1以圖解的方式示出用于生成采用基于樹的空間數(shù)據(jù)結(jié)構(gòu)(SDS)的群體分類器的系統(tǒng)。
[0021]圖2以圖解的方式示出當(dāng)使用二維數(shù)據(jù)點時由圖1的系統(tǒng)適當(dāng)?shù)厣傻恼f明性四叉樹結(jié)構(gòu)。
[0022]圖3以圖解的方式示出當(dāng)使用三維數(shù)據(jù)點時由圖1的系統(tǒng)適當(dāng)?shù)厣傻恼f明性八叉樹SDS。
[0023]圖4以圖解的方式示出由圖1的系統(tǒng)生成的群體分類器的操作。
【具體實施方式】
[0024]參考圖1,以圖解的方式示出了用于生成用于對基因數(shù)據(jù)集進行分類的群體分類器的系統(tǒng)。該系統(tǒng)適當(dāng)?shù)赜杀痪幊虨閳?zhí)行所公開的處理操作的計算機或其他電子數(shù)據(jù)處理設(shè)備10來實施,并且該系統(tǒng)接收針對參考群體的成員的多個基因數(shù)據(jù)集12作為輸入。基因數(shù)據(jù)集能夠例如包括使用微陣列或其他實驗室處理生成的基因測序數(shù)據(jù)(核DNA數(shù)據(jù)、線粒體DNA數(shù)據(jù)、RNA數(shù)據(jù)、甲基化數(shù)據(jù)等)、蛋白質(zhì)表達(dá)數(shù)據(jù)。在一些實施例中,基因數(shù)據(jù)集12包括全基因組序列WGS數(shù)據(jù)集或由下一代測序裝置生成的其他大量基因序列。基因數(shù)據(jù)集12任選地可以包括超過一種類型的基因數(shù)據(jù),例如,測序數(shù)據(jù)和微陣列數(shù)據(jù)兩者?;驍?shù)據(jù)集12基本上是重疊的(即,包括相同的基因區(qū)域、產(chǎn)生自相同的標(biāo)準(zhǔn)微陣列等)并且經(jīng)歷標(biāo)準(zhǔn)化過濾和/或處理14。通過“標(biāo)準(zhǔn)化”,其意味著基因數(shù)據(jù)集12全部經(jīng)歷相同的過濾和/或處理14,該過濾和/或處理可以通過說明性舉例的方式包括對單核苷酸多態(tài)性(SNP)或諸如拷貝數(shù)變異(CNV)等的其他基因變異體的識別、對基因表達(dá)數(shù)量的歸一化、對數(shù)據(jù)的二值化(或更一般地,離散化)、對異常值的去除等