本發(fā)明涉及數(shù)據(jù)挖掘,更具體地,涉及一種基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘方法及系統(tǒng)。
背景技術(shù):
1、復(fù)雜遺傳病如阿爾茨海默病和帕金森病的研究面臨諸多挑戰(zhàn)。這些疾病的致病機(jī)制十分復(fù)雜,并且由于數(shù)據(jù)收集和積累過程緩慢,樣本量通常較小,使得研究進(jìn)展較為緩慢。此外,這些疾病常涉及多種遺傳變異和遺傳模式,在不同個體中可能由于不同的突變而呈現(xiàn)相似的疾病表型。遺傳異質(zhì)性使得識別潛在的致病基因難度加大。傳統(tǒng)的全基因組關(guān)聯(lián)研究(gwas)主要關(guān)注單個snp(single?nucleotide?polymorphism,單核苷酸多態(tài)性)位點(diǎn)的線性效應(yīng),通常忽略snp位點(diǎn)之間的復(fù)雜非線性相互作用。
2、現(xiàn)有的snp挖掘技術(shù)通常依賴于線性統(tǒng)計模型,旨在識別與疾病相關(guān)的單個snp位點(diǎn)。然而,這種方法在處理復(fù)雜遺傳病時存在顯著缺陷。由于復(fù)雜疾病多由多個基因之間的非線性相互作用引發(fā),傳統(tǒng)線性模型往往無法捕捉小數(shù)據(jù)集中snp位點(diǎn)與表型之間的非線性關(guān)聯(lián),無法通過小數(shù)據(jù)集準(zhǔn)確捕捉snp位點(diǎn)與表型之間的線性和非線性關(guān)聯(lián)從而發(fā)現(xiàn)相關(guān)snp位點(diǎn),這導(dǎo)致在探測與疾病相關(guān)的snp位點(diǎn)時,準(zhǔn)確率和效率低。
技術(shù)實現(xiàn)思路
1、本發(fā)明為克服現(xiàn)有snp挖掘技術(shù)存在的準(zhǔn)確率和效率低的缺陷,提出如下技術(shù)方案:
2、第一個方面,本發(fā)明提出一種基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘方法,包括:
3、獲取包含染色體snp位點(diǎn)的遺傳數(shù)據(jù),并對遺傳數(shù)據(jù)進(jìn)行篩選處理;
4、將經(jīng)過篩選的遺傳數(shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集;
5、利用訓(xùn)練集和驗證集,構(gòu)建基于transformer模型的基礎(chǔ)分類器;
6、對基礎(chǔ)分類器進(jìn)行解析,得到顯著snp位點(diǎn);
7、利用測試集對基礎(chǔ)分類器進(jìn)行集成學(xué)習(xí),構(gòu)建并篩選出最優(yōu)的元分類器;
8、利用最優(yōu)的元分類器對顯著snp位點(diǎn)進(jìn)行分類處理,篩選出與遺傳疾病相關(guān)的顯著snp位點(diǎn)。
9、作為優(yōu)選的技術(shù)方案,對遺傳數(shù)據(jù)進(jìn)行篩選處理,包括:
10、對遺傳數(shù)據(jù)依次進(jìn)行包括統(tǒng)一坐標(biāo)、刪除異常值和插補(bǔ)修復(fù)的預(yù)處理。
11、計算經(jīng)過預(yù)處理后的遺傳數(shù)據(jù)中每條染色體的snp位點(diǎn)的p值。
12、對于每條染色體,提取每條染色體中p值最小的前128個snp位點(diǎn)作為經(jīng)過篩選的遺傳數(shù)據(jù)。
13、作為優(yōu)選的技術(shù)方案,在得到顯著snp位點(diǎn)之后,所述方法還包括:
14、對與顯著snp位點(diǎn)相關(guān)的基因進(jìn)行匯集處理,得到基因集合。
15、對基因集合進(jìn)行富集分析,構(gòu)建與遺傳疾病相關(guān)的生物通路。
16、作為優(yōu)選的技術(shù)方案,利用訓(xùn)練集和驗證集,構(gòu)建基于transformer模型的基礎(chǔ)分類器,包括:
17、計算訓(xùn)練集和驗證集中遺傳數(shù)據(jù)的特征表示。
18、根據(jù)snp位點(diǎn)在染色體上的絕對位置信息,對所述特征表示進(jìn)行位置嵌入,得到帶有snp位點(diǎn)位置信息的特征表示。
19、以transformer模型作為深度學(xué)習(xí)架構(gòu)構(gòu)建22個基礎(chǔ)分類器,22個基礎(chǔ)分類器分別對應(yīng)處理22條常染色體數(shù)據(jù)。
20、利用帶有snp位點(diǎn)位置信息的特征表示對基礎(chǔ)分類器進(jìn)行訓(xùn)練,直至滿足預(yù)設(shè)的條件,得到訓(xùn)練好的基礎(chǔ)分類器。
21、作為優(yōu)選的技術(shù)方案,根據(jù)下式,計算訓(xùn)練集和驗證集中遺傳數(shù)據(jù)的特征表示:
22、h=w1·nehot(x)+1
23、x=concat(xtype,xsite)
24、其中,w1和b1分別為線性層的權(quán)重矩陣和偏置向量,onehot(·)表示熱編碼操作,h為經(jīng)過線性變換后的特征向量。xtype表示snp位點(diǎn)的突變類型向量,xsite表示突變snp位點(diǎn)個數(shù)向量,concat(·)表示合并處理,x為經(jīng)過合并處理的特征向量。
25、作為優(yōu)選的技術(shù)方案,根據(jù)snp位點(diǎn)在染色體上的絕對位置信息,對所述特征表示進(jìn)行位置嵌入,其表達(dá)式如下所示:
26、
27、其中,i表示位置索引,j表示嵌入向量的維度索引,pos_idx[i]表示第i個snp位點(diǎn)在染色體上的位置的索引,embedding_dim為嵌入向量的維度。
28、作為優(yōu)選的技術(shù)方案,對基礎(chǔ)分類器進(jìn)行解析,得到顯著snp位點(diǎn),包括:
29、計算基礎(chǔ)分類器第d層和第h頭的自注意力矩陣,其表達(dá)式如下所示:
30、ad,h∈r(l+1)×(l+1)
31、其中,l是輸入遺傳數(shù)據(jù)中snp位點(diǎn)的數(shù)量,1表示cls標(biāo)記。
32、對所有自注意力矩陣依次在頭維度和層維度上進(jìn)行平均操作,得到基礎(chǔ)分類器的最終自注意力矩陣a,其表達(dá)式如下所示:
33、
34、其中,h為頭的數(shù)量,表示基礎(chǔ)分類器在處理數(shù)據(jù)時并行處理的路徑數(shù),d為層的數(shù)量,表示基礎(chǔ)分類器的深度。
35、從最終自注意力矩陣a的第一行中提取cls標(biāo)記與每個snp位點(diǎn)之間的關(guān)聯(lián)得分sl,并基于正態(tài)分布計算關(guān)聯(lián)得分sl的p值pl,其表達(dá)式如下所示:
36、sl=al,l=1,2,…,l
37、at∈r1×(l+1)
38、pl=p(x>sl),x~n(0,1)
39、其中,at∈r1×(l+1)表示從自注意力矩陣中提取的與cls標(biāo)記相關(guān)的行向量,每個元素al表示cls標(biāo)記與第l個snp位點(diǎn)的關(guān)聯(lián)得分。
40、給定顯著性水平α,若pl<α,則認(rèn)為第l個snp位點(diǎn)為顯著snp位點(diǎn)。
41、作為優(yōu)選的技術(shù)方案,利用測試集對基礎(chǔ)分類器進(jìn)行集成學(xué)習(xí),構(gòu)建并篩選出最優(yōu)的元分類器,包括:
42、計算每個基礎(chǔ)分類器在測試集上的z-score得分。
43、設(shè)置若干個遞減的概率值,并使用累積分布函數(shù)計算每個概率值對應(yīng)的z-score得分閾值。
44、依次使用每個z-score得分閾值篩選基礎(chǔ)分類器,生成若干個基礎(chǔ)分類器集合,其中包括一個包含所有基礎(chǔ)分類器的基礎(chǔ)分類器集合。
45、利用每個基礎(chǔ)分類器集合構(gòu)建對應(yīng)的元分類器,并將包含所有基礎(chǔ)分類器的元分類器作為基準(zhǔn)元分類器。
46、計算每個元分類器的auc得分,選擇所包含的基礎(chǔ)分類器最少且auc得分與基準(zhǔn)元分類器最接近的元分類器作為最優(yōu)元分類器。
47、作為優(yōu)選的技術(shù)方案,利用每個基礎(chǔ)分類器集合構(gòu)建對應(yīng)的元分類器,包括:
48、所述元分類器通過提取基礎(chǔ)分類器集合中每個基礎(chǔ)分類器輸出的特征向量并進(jìn)行特征融合,得到集成特征向量。集成特征向量再依次通過一個全連接層和softmax激活函數(shù)進(jìn)行激活,得到分類結(jié)果。
49、第二個方面,本發(fā)明還提出一種基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘系統(tǒng),應(yīng)用于如第一個方面任一方案所述的基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘方法中,包括:
50、獲取模塊,獲取包含染色體snp位點(diǎn)的遺傳數(shù)據(jù),并對遺傳數(shù)據(jù)進(jìn)行篩選處理;
51、劃分模塊,用于將遺傳數(shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集;
52、構(gòu)建模塊,用于利用訓(xùn)練集和驗證集,構(gòu)建基于transformer模型的基礎(chǔ)分類器;
53、解析模塊,用于對基礎(chǔ)分類器進(jìn)行解析,得到顯著snp位點(diǎn);
54、集成學(xué)習(xí)模塊,用于利用測試集對基礎(chǔ)分類器進(jìn)行集成學(xué)習(xí),構(gòu)建并篩選出最優(yōu)的元分類器;
55、分類模塊,用于利用最優(yōu)的元分類器對顯著snp位點(diǎn)進(jìn)行分類處理,篩選出與遺傳疾病相關(guān)的顯著snp位點(diǎn)。
56、本發(fā)明的有益效果至少包括:
57、本發(fā)明通過對遺傳數(shù)據(jù)進(jìn)行篩選處理和合理劃分,充分考慮了數(shù)據(jù)的生物學(xué)能夠充分考慮數(shù)據(jù)的生物學(xué)性質(zhì)和特點(diǎn)并最大程度利用關(guān)鍵數(shù)據(jù)信息,為后續(xù)挖掘任務(wù)奠定了基礎(chǔ)?;趖ransformer模型構(gòu)建的基礎(chǔ)分類器利用snp位點(diǎn)的位置信息,減少了訓(xùn)練樣本量需求。通過對基礎(chǔ)分類器的解析獲得顯著snp位點(diǎn),并利用測試集進(jìn)行集成學(xué)習(xí),構(gòu)建最優(yōu)元分類器,充分整合了各分類器的特征信息。最后,利用最優(yōu)的元分類器對顯著snp位點(diǎn)進(jìn)行分類處理,篩選出與遺傳疾病相關(guān)的顯著snp位點(diǎn),這一系列步驟不僅降低了算法的計算復(fù)雜度和存儲需求,提高了挖掘效率和準(zhǔn)確率,同時能夠發(fā)掘更多相關(guān)遺傳位點(diǎn),為遺傳疾病研究提供了有力支持。