的新的信息。
[0049]在前面的描述中,已經(jīng)總體上假設每個基因數(shù)據(jù)集對應于個體對象。然而,應認識到,在一些情況下,單個個體可以是兩個或更多個不同基因數(shù)據(jù)集的源。例如,癌癥患者可以具有從健康組織采集的基因樣本以生成健康組織基因數(shù)據(jù)集,以及從惡性腫瘤采集的基因樣本以生成疾病基因數(shù)據(jù)集。在這樣的情況下,健康基因數(shù)據(jù)集和疾病基因數(shù)據(jù)集單獨地被處理,并且定義每個能夠被定位在基于樹的SDS中的單獨的數(shù)據(jù)點,其中,它們之間的距離指示健康組織與疾病組織之間的基因差異。
[0050]在說明性圖1和圖4中,由計算機或其他電子數(shù)據(jù)處理設備10實施所描述的系統(tǒng)。還應當理解,能夠由非暫態(tài)存儲介質(zhì)來實施這些系統(tǒng)和所公開的群體分配技術,所述非暫態(tài)存儲介質(zhì)存儲能由電子數(shù)據(jù)處理設備運行以執(zhí)行所公開的操作的指令。例如,所述非暫態(tài)存儲介質(zhì)可以是硬盤驅(qū)動器或其他磁性存儲介質(zhì)、或光盤或其他光學存儲介質(zhì)、或隨機存取存儲器(RAM)、只讀存儲器(ROM)、閃速存儲器或其他電子存儲介質(zhì);其各種組合等。
[0051]所公開的群體分配技術提供用于存儲群體聚簇數(shù)據(jù)的有效機制,即基于樹的SDS,并且借助于該存儲機制,提供對新的測序的、基因型的或以其他方式采集的基因數(shù)據(jù)集進行快速分類的魯棒方法。在其中可以有利地獲知哪些個體在群體來源方面與先證者個體基因相似的研宄或臨床應用的情況下,所公開的方法提供呈現(xiàn)這樣的信息而不泄露參考個體的實際基因序列或標識的方式,這對于基因數(shù)據(jù)的隱私是期望的。
[0052]當所公開的方法被采用于將來自相同的組織來源的疾病樣本與正常樣本進行比較時,對基于樹的SDS中的鄰居樣本的基因分析可以闡述在先證者樣本中的發(fā)病機理的可能模式。例如,如果相同通路的不同基因被包含在鄰居樣本中,則相同通路可以被包含在先證者樣本中。
[0053]在所公開的方法中,不需要為了對樣本進行分類而重新運行整個工藝過程,從而節(jié)省時間和計算資源。具體而言,僅執(zhí)行一次計算密集的特征約簡操作18 ;此后,應用計算有效的線性變換M。鑒于該計算效率,所公開的方法容易被應用為用于確定樣本是否屬于與群體信息相耦合的疾病類別的快速篩選方法。
[0054]在下文中,描述了一些另外的說明性范例。
[0055]在一個范例中,收集來自多種全局群體的多個個體的基因組序列信息,并且在在公認的規(guī)則下提取的選擇位置處進行SNP訪問。例如,在每個群體中這樣的SNP的次要等位基因頻率(MAF)應當在閾值以上,不應當存在許多遺漏的訪問,SNP應當是充分分開的,從而沒有在它們自身之間的連鎖不平衡等。使用公認的規(guī)則在數(shù)值上記錄基因數(shù)據(jù)以生成特征向量X。之后使該全局數(shù)據(jù)集經(jīng)受PCA或諸如多維尺度分析(MDS)、核PCA (KPCA)等的其他維度降低(例如,因子分析)流程,以生成映射M,該映射M之后被應用到特征向量X以生成降低的維度的向量表示Y。Y貢獻于數(shù)據(jù)集中的最大變化的前幾維(或者Y的所有維,如果維降低是激進的)被選擇(在一些實施例中預見三到四個維)并且被存儲在基于樹的空間數(shù)據(jù)結構(SDS)中,基于樹的空間數(shù)據(jù)結構(SDS)例如k-d樹結構、八叉樹結構、UB樹結構等中。該處理生成群體分類器。
[0056]對于新的測序的樣本而言,使用從高維數(shù)據(jù)到較低維度變換的數(shù)據(jù)集的相同映射M(已經(jīng)針對參考數(shù)據(jù)集對其進行了計算)。在參考數(shù)據(jù)集是適當?shù)木C合數(shù)據(jù)集(即,“全局”數(shù)據(jù)集)的假設下,新的樣本將屬于原始群體聚簇中的一個,并且將不在數(shù)據(jù)集中引入太多額外的變化,并且映射將近似正確地將新的樣本放置在所變換的空間中,因此避免了重新進行維度降低流程的復雜計算。使用新的樣本的降低的維度的向量表示,原始(即,參考)數(shù)據(jù)集被查詢并且諸如該樣本的群體成員關系、其最近的鄰居個體等的信息被檢索。
[0057]樣本基因型的群體通常被預期為非均勻地被分布在降低的維度的向量空間中。這樣的非均勻分布容易由基于樹的SDS容納,因為能夠定制遞歸劃分以容納空間分布。適當?shù)幕跇涞腟DS包括用于三個主成分選擇的八叉樹或用于>3個主成分選擇的超樹。
[0058]在下文中,描述了處理工作流程范例。
[0059]第一,收集來自不同全局群體的多個不相關個體,從而不排除稍后要測試的潛在新來者可以源自于其的任何顯著群體。這些個體形成參考數(shù)據(jù)。
[0060]第二,針對全基因組SNP,采集這些個體的測序或基因型信息。
[0061]第三,過濾SNP使得在每個子群體中每個SNP: (a)具有彡0.05的MAF (次要/最小等位基因頻率)(不包括實際上是異常并且扭曲分析的罕見SNP) ;(b)具有〈10%的遺漏的基因型(在信息來自測序時是冗余的:理想地,在該情況下不應當存在遺漏信息);并且(c)是在哈迪-溫伯格平衡(HWE)中的(以僅包括在群體中穩(wěn)定的SNP,S卩,沒有顯著選擇壓力并且與明顯生存性狀不相關聯(lián))。
[0062]第四,使用下面的轉(zhuǎn)換在數(shù)值上記錄SNP:[AA,AD,DD] — [2,1,0];其中,‘A’是針對SNP的考慮到全部參考個體的主要等位基因,并且‘D’是次要等位基因。在諸如具有超過三個可能的二倍體基因型的CNV的變異體的情況下,這些變異體類似地被離散化;例如,[拷貝數(shù)狀態(tài)0,1,2,3,4,5]->[0,1,2,3,4,5]
[0063]第五,如果存在m個個體以及η個SNP基因型,則數(shù)據(jù)能夠被表示為mXn矩陣X,其中,沿X的一行表示一個個體基因型。
[0064]第六,針對每個數(shù)字編碼的SNP,計算均值并且利用關系X-Xm= X’ (其中,Xm是均值)將X均值中心化為X’。
[0065]第七,執(zhí)行主成分分析(PCA)以獲得mXl矩陣Y,其中,I彡I彡η。選擇在數(shù)據(jù)中貢獻于最大變化的前幾個主成分(常用標準例如特征值>1或通過篩選分析)以用于存儲,例如,存儲為Y’,如果僅存儲前三個主成分,則Y’是mX3矩陣。
[0066]或者,當M是從X到Y’的映射時,第五到第七操作被表示為Y’=M(X)。(這適用于其他維度降低流程,例如,EFA/MDS、KPCA等)。
[0067]第九,矩陣Y’被用于存儲針對個體的標注信息,例如,諸如群體來源、地理來源等的人口統(tǒng)計信息,使用來自Y’的三個主成分值作為在三維的基于樹的空間數(shù)據(jù)結構(SDS)中的坐標。八叉樹結構適用于三個主成分值。這之后被用作參考數(shù)據(jù)庫,新的數(shù)據(jù)與參考數(shù)據(jù)庫相比較。在具有m個聚簇表示的集(質(zhì)心/中心)的基于樹的SDS中的數(shù)據(jù)點上計算或確定聚簇ICpC2,…,cm}。
[0068]第十,當新來者個體基因型G可用時,利用如G’ =M(G)的映射M將該新來者個體基因型G變換到主成分空間,其中,M與在Y’ =M(Y)中的M完全相同。因為避免了 PCA(或其他特征約簡),并且僅涉及具有預先計算的值的矩陣代數(shù),所以該變換是計算有效的并且耗費近似恒定的時間。
[0069]第十一,根據(jù)在G’中獲得的坐標,有效地查詢在基于樹的SDS中存儲的數(shù)據(jù)以提供各種信息,例如:(a)如果有的話,則聚簇G屬于哪個群體(此處,查詢基于樹的SDS以確定G是否屬于聚簇IC1, C2,…,CJ中的一個)和/或(b)哪些個體離G最近(此處,使用在基于樹的SDS上執(zhí)行的K-NN搜索算法來確定離G的k個最近個體)和/或鄰居個體的人口統(tǒng)計標注信息和/或等等。
[0070]第十二,在個體來自不同群體的情況下,我們具有來自相同的組織來源的正常樣本和不同癌癥樣本或其他疾病(例如,退行性疾病)樣本的基因型信息,可以采用類似的方法。
[0071]第十三,如果新來者個體來自新的群體,則可以再次執(zhí)行PCA并且計算誤差矩陣(參見 S.Narasimhan 和 S.L.Shah 的文章“Model identificat1n and error covariancematrix estimat1n from noisy data using PCA