亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于Transformer模型集成學(xué)習(xí)的SNP位點(diǎn)挖掘方法及系統(tǒng)

文檔序號:40377311發(fā)布日期:2024-12-20 11:59閱讀:7來源:國知局
一種基于Transformer模型集成學(xué)習(xí)的SNP位點(diǎn)挖掘方法及系統(tǒng)

本發(fā)明涉及數(shù)據(jù)挖掘,更具體地,涉及一種基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘方法及系統(tǒng)。


背景技術(shù):

1、復(fù)雜遺傳病如阿爾茨海默病和帕金森病的研究面臨諸多挑戰(zhàn)。這些疾病的致病機(jī)制十分復(fù)雜,并且由于數(shù)據(jù)收集和積累過程緩慢,樣本量通常較小,使得研究進(jìn)展較為緩慢。此外,這些疾病常涉及多種遺傳變異和遺傳模式,在不同個體中可能由于不同的突變而呈現(xiàn)相似的疾病表型。遺傳異質(zhì)性使得識別潛在的致病基因難度加大。傳統(tǒng)的全基因組關(guān)聯(lián)研究(gwas)主要關(guān)注單個snp(single?nucleotide?polymorphism,單核苷酸多態(tài)性)位點(diǎn)的線性效應(yīng),通常忽略snp位點(diǎn)之間的復(fù)雜非線性相互作用。

2、現(xiàn)有的snp挖掘技術(shù)通常依賴于線性統(tǒng)計模型,旨在識別與疾病相關(guān)的單個snp位點(diǎn)。然而,這種方法在處理復(fù)雜遺傳病時存在顯著缺陷。由于復(fù)雜疾病多由多個基因之間的非線性相互作用引發(fā),傳統(tǒng)線性模型往往無法捕捉小數(shù)據(jù)集中snp位點(diǎn)與表型之間的非線性關(guān)聯(lián),無法通過小數(shù)據(jù)集準(zhǔn)確捕捉snp位點(diǎn)與表型之間的線性和非線性關(guān)聯(lián)從而發(fā)現(xiàn)相關(guān)snp位點(diǎn),這導(dǎo)致在探測與疾病相關(guān)的snp位點(diǎn)時,準(zhǔn)確率和效率低。


技術(shù)實現(xiàn)思路

1、本發(fā)明為克服現(xiàn)有snp挖掘技術(shù)存在的準(zhǔn)確率和效率低的缺陷,提出如下技術(shù)方案:

2、第一個方面,本發(fā)明提出一種基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘方法,包括:

3、獲取包含染色體snp位點(diǎn)的遺傳數(shù)據(jù),并對遺傳數(shù)據(jù)進(jìn)行篩選處理;

4、將經(jīng)過篩選的遺傳數(shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集;

5、利用訓(xùn)練集和驗證集,構(gòu)建基于transformer模型的基礎(chǔ)分類器;

6、對基礎(chǔ)分類器進(jìn)行解析,得到顯著snp位點(diǎn);

7、利用測試集對基礎(chǔ)分類器進(jìn)行集成學(xué)習(xí),構(gòu)建并篩選出最優(yōu)的元分類器;

8、利用最優(yōu)的元分類器對顯著snp位點(diǎn)進(jìn)行分類處理,篩選出與遺傳疾病相關(guān)的顯著snp位點(diǎn)。

9、作為優(yōu)選的技術(shù)方案,對遺傳數(shù)據(jù)進(jìn)行篩選處理,包括:

10、對遺傳數(shù)據(jù)依次進(jìn)行包括統(tǒng)一坐標(biāo)、刪除異常值和插補(bǔ)修復(fù)的預(yù)處理。

11、計算經(jīng)過預(yù)處理后的遺傳數(shù)據(jù)中每條染色體的snp位點(diǎn)的p值。

12、對于每條染色體,提取每條染色體中p值最小的前128個snp位點(diǎn)作為經(jīng)過篩選的遺傳數(shù)據(jù)。

13、作為優(yōu)選的技術(shù)方案,在得到顯著snp位點(diǎn)之后,所述方法還包括:

14、對與顯著snp位點(diǎn)相關(guān)的基因進(jìn)行匯集處理,得到基因集合。

15、對基因集合進(jìn)行富集分析,構(gòu)建與遺傳疾病相關(guān)的生物通路。

16、作為優(yōu)選的技術(shù)方案,利用訓(xùn)練集和驗證集,構(gòu)建基于transformer模型的基礎(chǔ)分類器,包括:

17、計算訓(xùn)練集和驗證集中遺傳數(shù)據(jù)的特征表示。

18、根據(jù)snp位點(diǎn)在染色體上的絕對位置信息,對所述特征表示進(jìn)行位置嵌入,得到帶有snp位點(diǎn)位置信息的特征表示。

19、以transformer模型作為深度學(xué)習(xí)架構(gòu)構(gòu)建22個基礎(chǔ)分類器,22個基礎(chǔ)分類器分別對應(yīng)處理22條常染色體數(shù)據(jù)。

20、利用帶有snp位點(diǎn)位置信息的特征表示對基礎(chǔ)分類器進(jìn)行訓(xùn)練,直至滿足預(yù)設(shè)的條件,得到訓(xùn)練好的基礎(chǔ)分類器。

21、作為優(yōu)選的技術(shù)方案,根據(jù)下式,計算訓(xùn)練集和驗證集中遺傳數(shù)據(jù)的特征表示:

22、h=w1·nehot(x)+1

23、x=concat(xtype,xsite)

24、其中,w1和b1分別為線性層的權(quán)重矩陣和偏置向量,onehot(·)表示熱編碼操作,h為經(jīng)過線性變換后的特征向量。xtype表示snp位點(diǎn)的突變類型向量,xsite表示突變snp位點(diǎn)個數(shù)向量,concat(·)表示合并處理,x為經(jīng)過合并處理的特征向量。

25、作為優(yōu)選的技術(shù)方案,根據(jù)snp位點(diǎn)在染色體上的絕對位置信息,對所述特征表示進(jìn)行位置嵌入,其表達(dá)式如下所示:

26、

27、其中,i表示位置索引,j表示嵌入向量的維度索引,pos_idx[i]表示第i個snp位點(diǎn)在染色體上的位置的索引,embedding_dim為嵌入向量的維度。

28、作為優(yōu)選的技術(shù)方案,對基礎(chǔ)分類器進(jìn)行解析,得到顯著snp位點(diǎn),包括:

29、計算基礎(chǔ)分類器第d層和第h頭的自注意力矩陣,其表達(dá)式如下所示:

30、ad,h∈r(l+1)×(l+1)

31、其中,l是輸入遺傳數(shù)據(jù)中snp位點(diǎn)的數(shù)量,1表示cls標(biāo)記。

32、對所有自注意力矩陣依次在頭維度和層維度上進(jìn)行平均操作,得到基礎(chǔ)分類器的最終自注意力矩陣a,其表達(dá)式如下所示:

33、

34、其中,h為頭的數(shù)量,表示基礎(chǔ)分類器在處理數(shù)據(jù)時并行處理的路徑數(shù),d為層的數(shù)量,表示基礎(chǔ)分類器的深度。

35、從最終自注意力矩陣a的第一行中提取cls標(biāo)記與每個snp位點(diǎn)之間的關(guān)聯(lián)得分sl,并基于正態(tài)分布計算關(guān)聯(lián)得分sl的p值pl,其表達(dá)式如下所示:

36、sl=al,l=1,2,…,l

37、at∈r1×(l+1)

38、pl=p(x>sl),x~n(0,1)

39、其中,at∈r1×(l+1)表示從自注意力矩陣中提取的與cls標(biāo)記相關(guān)的行向量,每個元素al表示cls標(biāo)記與第l個snp位點(diǎn)的關(guān)聯(lián)得分。

40、給定顯著性水平α,若pl<α,則認(rèn)為第l個snp位點(diǎn)為顯著snp位點(diǎn)。

41、作為優(yōu)選的技術(shù)方案,利用測試集對基礎(chǔ)分類器進(jìn)行集成學(xué)習(xí),構(gòu)建并篩選出最優(yōu)的元分類器,包括:

42、計算每個基礎(chǔ)分類器在測試集上的z-score得分。

43、設(shè)置若干個遞減的概率值,并使用累積分布函數(shù)計算每個概率值對應(yīng)的z-score得分閾值。

44、依次使用每個z-score得分閾值篩選基礎(chǔ)分類器,生成若干個基礎(chǔ)分類器集合,其中包括一個包含所有基礎(chǔ)分類器的基礎(chǔ)分類器集合。

45、利用每個基礎(chǔ)分類器集合構(gòu)建對應(yīng)的元分類器,并將包含所有基礎(chǔ)分類器的元分類器作為基準(zhǔn)元分類器。

46、計算每個元分類器的auc得分,選擇所包含的基礎(chǔ)分類器最少且auc得分與基準(zhǔn)元分類器最接近的元分類器作為最優(yōu)元分類器。

47、作為優(yōu)選的技術(shù)方案,利用每個基礎(chǔ)分類器集合構(gòu)建對應(yīng)的元分類器,包括:

48、所述元分類器通過提取基礎(chǔ)分類器集合中每個基礎(chǔ)分類器輸出的特征向量并進(jìn)行特征融合,得到集成特征向量。集成特征向量再依次通過一個全連接層和softmax激活函數(shù)進(jìn)行激活,得到分類結(jié)果。

49、第二個方面,本發(fā)明還提出一種基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘系統(tǒng),應(yīng)用于如第一個方面任一方案所述的基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘方法中,包括:

50、獲取模塊,獲取包含染色體snp位點(diǎn)的遺傳數(shù)據(jù),并對遺傳數(shù)據(jù)進(jìn)行篩選處理;

51、劃分模塊,用于將遺傳數(shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集;

52、構(gòu)建模塊,用于利用訓(xùn)練集和驗證集,構(gòu)建基于transformer模型的基礎(chǔ)分類器;

53、解析模塊,用于對基礎(chǔ)分類器進(jìn)行解析,得到顯著snp位點(diǎn);

54、集成學(xué)習(xí)模塊,用于利用測試集對基礎(chǔ)分類器進(jìn)行集成學(xué)習(xí),構(gòu)建并篩選出最優(yōu)的元分類器;

55、分類模塊,用于利用最優(yōu)的元分類器對顯著snp位點(diǎn)進(jìn)行分類處理,篩選出與遺傳疾病相關(guān)的顯著snp位點(diǎn)。

56、本發(fā)明的有益效果至少包括:

57、本發(fā)明通過對遺傳數(shù)據(jù)進(jìn)行篩選處理和合理劃分,充分考慮了數(shù)據(jù)的生物學(xué)能夠充分考慮數(shù)據(jù)的生物學(xué)性質(zhì)和特點(diǎn)并最大程度利用關(guān)鍵數(shù)據(jù)信息,為后續(xù)挖掘任務(wù)奠定了基礎(chǔ)?;趖ransformer模型構(gòu)建的基礎(chǔ)分類器利用snp位點(diǎn)的位置信息,減少了訓(xùn)練樣本量需求。通過對基礎(chǔ)分類器的解析獲得顯著snp位點(diǎn),并利用測試集進(jìn)行集成學(xué)習(xí),構(gòu)建最優(yōu)元分類器,充分整合了各分類器的特征信息。最后,利用最優(yōu)的元分類器對顯著snp位點(diǎn)進(jìn)行分類處理,篩選出與遺傳疾病相關(guān)的顯著snp位點(diǎn),這一系列步驟不僅降低了算法的計算復(fù)雜度和存儲需求,提高了挖掘效率和準(zhǔn)確率,同時能夠發(fā)掘更多相關(guān)遺傳位點(diǎn),為遺傳疾病研究提供了有力支持。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1