一種基于Transformer模型集成學(xué)習(xí)的SNP位點(diǎn)挖掘方法及系統(tǒng)

文檔序號：40377311發(fā)布日期：2024-12-20 11:59閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>醫(yī)藥醫(yī)療技術(shù)的改進(jìn);醫(yī)療器械制造及應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)挖掘，更具體地，涉及一種基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘方法及系統(tǒng)。

背景技術(shù)：

1、復(fù)雜遺傳病如阿爾茨海默病和帕金森病的研究面臨諸多挑戰(zhàn)。這些疾病的致病機(jī)制十分復(fù)雜，并且由于數(shù)據(jù)收集和積累過程緩慢，樣本量通常較小，使得研究進(jìn)展較為緩慢。此外，這些疾病常涉及多種遺傳變異和遺傳模式，在不同個體中可能由于不同的突變而呈現(xiàn)相似的疾病表型。遺傳異質(zhì)性使得識別潛在的致病基因難度加大。傳統(tǒng)的全基因組關(guān)聯(lián)研究(gwas)主要關(guān)注單個snp(single?nucleotide?polymorphism，單核苷酸多態(tài)性)位點(diǎn)的線性效應(yīng)，通常忽略snp位點(diǎn)之間的復(fù)雜非線性相互作用。

2、現(xiàn)有的snp挖掘技術(shù)通常依賴于線性統(tǒng)計模型，旨在識別與疾病相關(guān)的單個snp位點(diǎn)。然而，這種方法在處理復(fù)雜遺傳病時存在顯著缺陷。由于復(fù)雜疾病多由多個基因之間的非線性相互作用引發(fā)，傳統(tǒng)線性模型往往無法捕捉小數(shù)據(jù)集中snp位點(diǎn)與表型之間的非線性關(guān)聯(lián)，無法通過小數(shù)據(jù)集準(zhǔn)確捕捉snp位點(diǎn)與表型之間的線性和非線性關(guān)聯(lián)從而發(fā)現(xiàn)相關(guān)snp位點(diǎn)，這導(dǎo)致在探測與疾病相關(guān)的snp位點(diǎn)時，準(zhǔn)確率和效率低。

技術(shù)實現(xiàn)思路

1、本發(fā)明為克服現(xiàn)有snp挖掘技術(shù)存在的準(zhǔn)確率和效率低的缺陷，提出如下技術(shù)方案：

2、第一個方面，本發(fā)明提出一種基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘方法，包括：

3、獲取包含染色體snp位點(diǎn)的遺傳數(shù)據(jù)，并對遺傳數(shù)據(jù)進(jìn)行篩選處理；

4、將經(jīng)過篩選的遺傳數(shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集；

5、利用訓(xùn)練集和驗證集，構(gòu)建基于transformer模型的基礎(chǔ)分類器；

6、對基礎(chǔ)分類器進(jìn)行解析，得到顯著snp位點(diǎn)；

7、利用測試集對基礎(chǔ)分類器進(jìn)行集成學(xué)習(xí)，構(gòu)建并篩選出最優(yōu)的元分類器；

8、利用最優(yōu)的元分類器對顯著snp位點(diǎn)進(jìn)行分類處理，篩選出與遺傳疾病相關(guān)的顯著snp位點(diǎn)。

9、作為優(yōu)選的技術(shù)方案，對遺傳數(shù)據(jù)進(jìn)行篩選處理，包括：

10、對遺傳數(shù)據(jù)依次進(jìn)行包括統(tǒng)一坐標(biāo)、刪除異常值和插補(bǔ)修復(fù)的預(yù)處理。

11、計算經(jīng)過預(yù)處理后的遺傳數(shù)據(jù)中每條染色體的snp位點(diǎn)的p值。

12、對于每條染色體，提取每條染色體中p值最小的前128個snp位點(diǎn)作為經(jīng)過篩選的遺傳數(shù)據(jù)。

13、作為優(yōu)選的技術(shù)方案，在得到顯著snp位點(diǎn)之后，所述方法還包括：

14、對與顯著snp位點(diǎn)相關(guān)的基因進(jìn)行匯集處理，得到基因集合。

15、對基因集合進(jìn)行富集分析，構(gòu)建與遺傳疾病相關(guān)的生物通路。

16、作為優(yōu)選的技術(shù)方案，利用訓(xùn)練集和驗證集，構(gòu)建基于transformer模型的基礎(chǔ)分類器，包括：

17、計算訓(xùn)練集和驗證集中遺傳數(shù)據(jù)的特征表示。

18、根據(jù)snp位點(diǎn)在染色體上的絕對位置信息，對所述特征表示進(jìn)行位置嵌入，得到帶有snp位點(diǎn)位置信息的特征表示。

19、以transformer模型作為深度學(xué)習(xí)架構(gòu)構(gòu)建22個基礎(chǔ)分類器，22個基礎(chǔ)分類器分別對應(yīng)處理22條常染色體數(shù)據(jù)。

20、利用帶有snp位點(diǎn)位置信息的特征表示對基礎(chǔ)分類器進(jìn)行訓(xùn)練，直至滿足預(yù)設(shè)的條件，得到訓(xùn)練好的基礎(chǔ)分類器。

21、作為優(yōu)選的技術(shù)方案，根據(jù)下式，計算訓(xùn)練集和驗證集中遺傳數(shù)據(jù)的特征表示：

22、h＝w1·nehot(x)+1

23、x＝concat(xtype,xsite)

24、其中，w1和b1分別為線性層的權(quán)重矩陣和偏置向量，onehot(·)表示熱編碼操作，h為經(jīng)過線性變換后的特征向量。xtype表示snp位點(diǎn)的突變類型向量，xsite表示突變snp位點(diǎn)個數(shù)向量，concat(·)表示合并處理，x為經(jīng)過合并處理的特征向量。

25、作為優(yōu)選的技術(shù)方案，根據(jù)snp位點(diǎn)在染色體上的絕對位置信息，對所述特征表示進(jìn)行位置嵌入，其表達(dá)式如下所示：

26、

27、其中，i表示位置索引，j表示嵌入向量的維度索引，pos_idx[i]表示第i個snp位點(diǎn)在染色體上的位置的索引，embedding_dim為嵌入向量的維度。

28、作為優(yōu)選的技術(shù)方案，對基礎(chǔ)分類器進(jìn)行解析，得到顯著snp位點(diǎn)，包括：

29、計算基礎(chǔ)分類器第d層和第h頭的自注意力矩陣，其表達(dá)式如下所示：

30、ad,h∈r(l+1)×(l+1)

31、其中，l是輸入遺傳數(shù)據(jù)中snp位點(diǎn)的數(shù)量，1表示cls標(biāo)記。

32、對所有自注意力矩陣依次在頭維度和層維度上進(jìn)行平均操作，得到基礎(chǔ)分類器的最終自注意力矩陣a，其表達(dá)式如下所示：

33、

34、其中，h為頭的數(shù)量，表示基礎(chǔ)分類器在處理數(shù)據(jù)時并行處理的路徑數(shù)，d為層的數(shù)量，表示基礎(chǔ)分類器的深度。

35、從最終自注意力矩陣a的第一行中提取cls標(biāo)記與每個snp位點(diǎn)之間的關(guān)聯(lián)得分sl，并基于正態(tài)分布計算關(guān)聯(lián)得分sl的p值pl，其表達(dá)式如下所示：

36、sl＝al,l＝1,2,…,l

37、at∈r1×(l+1)

38、pl＝p(x>sl)，x～n(0,1)

39、其中，at∈r1×(l+1)表示從自注意力矩陣中提取的與cls標(biāo)記相關(guān)的行向量，每個元素al表示cls標(biāo)記與第l個snp位點(diǎn)的關(guān)聯(lián)得分。

40、給定顯著性水平α，若pl<α，則認(rèn)為第l個snp位點(diǎn)為顯著snp位點(diǎn)。

41、作為優(yōu)選的技術(shù)方案，利用測試集對基礎(chǔ)分類器進(jìn)行集成學(xué)習(xí)，構(gòu)建并篩選出最優(yōu)的元分類器，包括：

42、計算每個基礎(chǔ)分類器在測試集上的z-score得分。

43、設(shè)置若干個遞減的概率值，并使用累積分布函數(shù)計算每個概率值對應(yīng)的z-score得分閾值。

44、依次使用每個z-score得分閾值篩選基礎(chǔ)分類器，生成若干個基礎(chǔ)分類器集合，其中包括一個包含所有基礎(chǔ)分類器的基礎(chǔ)分類器集合。

45、利用每個基礎(chǔ)分類器集合構(gòu)建對應(yīng)的元分類器，并將包含所有基礎(chǔ)分類器的元分類器作為基準(zhǔn)元分類器。

46、計算每個元分類器的auc得分，選擇所包含的基礎(chǔ)分類器最少且auc得分與基準(zhǔn)元分類器最接近的元分類器作為最優(yōu)元分類器。

47、作為優(yōu)選的技術(shù)方案，利用每個基礎(chǔ)分類器集合構(gòu)建對應(yīng)的元分類器，包括：

48、所述元分類器通過提取基礎(chǔ)分類器集合中每個基礎(chǔ)分類器輸出的特征向量并進(jìn)行特征融合，得到集成特征向量。集成特征向量再依次通過一個全連接層和softmax激活函數(shù)進(jìn)行激活，得到分類結(jié)果。

49、第二個方面，本發(fā)明還提出一種基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘系統(tǒng)，應(yīng)用于如第一個方面任一方案所述的基于transformer模型集成學(xué)習(xí)的snp位點(diǎn)挖掘方法中，包括：

50、獲取模塊，獲取包含染色體snp位點(diǎn)的遺傳數(shù)據(jù)，并對遺傳數(shù)據(jù)進(jìn)行篩選處理；

51、劃分模塊，用于將遺傳數(shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集；

52、構(gòu)建模塊，用于利用訓(xùn)練集和驗證集，構(gòu)建基于transformer模型的基礎(chǔ)分類器；

53、解析模塊，用于對基礎(chǔ)分類器進(jìn)行解析，得到顯著snp位點(diǎn)；

54、集成學(xué)習(xí)模塊，用于利用測試集對基礎(chǔ)分類器進(jìn)行集成學(xué)習(xí)，構(gòu)建并篩選出最優(yōu)的元分類器；

55、分類模塊，用于利用最優(yōu)的元分類器對顯著snp位點(diǎn)進(jìn)行分類處理，篩選出與遺傳疾病相關(guān)的顯著snp位點(diǎn)。

56、本發(fā)明的有益效果至少包括：

57、本發(fā)明通過對遺傳數(shù)據(jù)進(jìn)行篩選處理和合理劃分，充分考慮了數(shù)據(jù)的生物學(xué)能夠充分考慮數(shù)據(jù)的生物學(xué)性質(zhì)和特點(diǎn)并最大程度利用關(guān)鍵數(shù)據(jù)信息，為后續(xù)挖掘任務(wù)奠定了基礎(chǔ)?；趖ransformer模型構(gòu)建的基礎(chǔ)分類器利用snp位點(diǎn)的位置信息，減少了訓(xùn)練樣本量需求。通過對基礎(chǔ)分類器的解析獲得顯著snp位點(diǎn)，并利用測試集進(jìn)行集成學(xué)習(xí)，構(gòu)建最優(yōu)元分類器，充分整合了各分類器的特征信息。最后，利用最優(yōu)的元分類器對顯著snp位點(diǎn)進(jìn)行分類處理，篩選出與遺傳疾病相關(guān)的顯著snp位點(diǎn)，這一系列步驟不僅降低了算法的計算復(fù)雜度和存儲需求，提高了挖掘效率和準(zhǔn)確率，同時能夠發(fā)掘更多相關(guān)遺傳位點(diǎn)，為遺傳疾病研究提供了有力支持。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曾安,朱炫安,潘丹,劉軍
技術(shù)所有人：廣東工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種可折疊式摘果筐的制作方法
上一篇：一種堤壩防護(hù)加固設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細(xì)化工與化學(xué) 3.生物質(zhì)精煉 4.天然產(chǎn)物化學(xué)
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學(xué)研究 2.酵母生物學(xué)與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價及糖類疫苗的研制 2.功能糖類的化學(xué)酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開發(fā)及應(yīng)用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評價 3.中藥組方配伍機(jī)制研究
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于Transformer模型集成學(xué)習(xí)的SNP位點(diǎn)挖掘方法及系統(tǒng)