本發(fā)明涉及生物信息,特別涉及一種基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)預(yù)測(cè)pirna-疾病關(guān)聯(lián)性方法、裝置及設(shè)備。
背景技術(shù):
1、pirna是一類(lèi)獨(dú)特的非編碼小rna,主要在生殖細(xì)胞中表達(dá)。因?yàn)樗鼈冊(cè)诟鞣N生物過(guò)程中發(fā)揮著重要作用,并與無(wú)數(shù)疾病(包括癌癥、神經(jīng)退行性疾病和其他老年疾病)存在關(guān)聯(lián)。pirna長(zhǎng)度約為24-35個(gè)核苷酸,與piwi-亞家族argonaute蛋白結(jié)合,在轉(zhuǎn)座元件沉默、基因組防御和組蛋白修飾等功能中發(fā)揮關(guān)鍵作用。因此,發(fā)現(xiàn)pirna與疾病之間的關(guān)系對(duì)于醫(yī)學(xué)研究者更深入地了解疾病復(fù)雜的病理過(guò)程至關(guān)重要。在傳統(tǒng)的預(yù)測(cè)方法中,是通過(guò)生物實(shí)驗(yàn)推斷pirna與疾病之間的相關(guān)性,其存在著設(shè)備要求特殊、操作復(fù)雜、實(shí)驗(yàn)周期長(zhǎng)和高花費(fèi)等缺點(diǎn),所以可以設(shè)計(jì)一個(gè)高效準(zhǔn)確的計(jì)算方法可以為生物實(shí)驗(yàn)提供指導(dǎo),使得發(fā)現(xiàn)pirna-疾病關(guān)聯(lián)關(guān)系更有效率。
2、例如zhang等人2022年在《plos?computational?biology》公開(kāi)了一種pirna-疾病關(guān)聯(lián)關(guān)系預(yù)測(cè)方法ipida-ltr,ipida-ltr結(jié)合了成分法和學(xué)習(xí)排序法來(lái)識(shí)別已知pirna與疾病之間的關(guān)聯(lián)。zhang等人2022年在《plos?computational?biology》公開(kāi)了一種pirna-疾病關(guān)聯(lián)關(guān)系預(yù)測(cè)方法ipida-gcn,ipida-gcn利用兩個(gè)gcn從pirna-疾病相互作用網(wǎng)絡(luò)和兩個(gè)相似網(wǎng)絡(luò)提取pirna和疾病的特征,并利用全連接網(wǎng)絡(luò)和內(nèi)部生產(chǎn)作為輸出模塊預(yù)測(cè)pirna-疾病關(guān)聯(lián)評(píng)分。chen等人2024年在《briefings?in?bioinformatics》公開(kāi)了一種pirna-疾病關(guān)聯(lián)關(guān)系預(yù)測(cè)方法putransgcn,putransgcn利用注意機(jī)制自動(dòng)調(diào)整聚合異構(gòu)節(jié)點(diǎn)特征的權(quán)重參數(shù)。為了解決不平衡數(shù)據(jù)集問(wèn)題,采用由pu?bagging、兩步和間諜技術(shù)組成的組合正無(wú)標(biāo)記學(xué)習(xí)(pul)方法來(lái)選擇可靠的負(fù)關(guān)聯(lián),并使用異構(gòu)圖卷積網(wǎng)絡(luò)來(lái)發(fā)現(xiàn)潛在的pirna與疾病的關(guān)聯(lián)。
3、盡管上述方法對(duì)pirna-疾病關(guān)聯(lián)的研究是有效的,但仍存在很多不足的地方。一方面,一些方法對(duì)pirna-疾病預(yù)測(cè)有用的信息利用不充分,沒(méi)有綜合考慮各種相似性數(shù)據(jù);另一方面,一些方法在學(xué)習(xí)pirna、疾病嵌入特征時(shí)未能較好地聚合鄰居節(jié)點(diǎn)信息,導(dǎo)致預(yù)測(cè)效果不理想。
4、鑒于此,有必要提供一種新的方法解決上述技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問(wèn)題是提供一種基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)預(yù)測(cè)pirna-疾病關(guān)聯(lián)性方法,能有效提高pirna-疾病關(guān)聯(lián)預(yù)測(cè)的準(zhǔn)確性,從而解決現(xiàn)有技術(shù)中存在的預(yù)測(cè)準(zhǔn)確率較低的技術(shù)問(wèn)題。其技術(shù)方案如下:
2、本發(fā)明的一種基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)預(yù)測(cè)pirna-疾病關(guān)聯(lián)性方法,包括如下步驟:
3、s1,利用pirna相似性矩陣和疾病相似性矩陣構(gòu)建pirna相似同構(gòu)圖和疾病相似同構(gòu)圖,并利用pirna-疾病關(guān)聯(lián)關(guān)系數(shù)據(jù)構(gòu)建pirna-疾病關(guān)聯(lián)異構(gòu)圖;
4、s2,利用圖卷積神經(jīng)網(wǎng)絡(luò)分別從所述pirna相似同構(gòu)圖和所述疾病相似同構(gòu)圖學(xué)習(xí)pirna的同構(gòu)嵌入特征和疾病的同構(gòu)嵌入特征,并利用基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)從pirna-疾病關(guān)聯(lián)異構(gòu)圖學(xué)習(xí)pirna的異構(gòu)嵌入特征和疾病的異構(gòu)嵌入特征;
5、s3,利用注意力機(jī)制分別融合所述pirna的同構(gòu)嵌入特征和所述疾病的同構(gòu)嵌入特征以及所述pirna的異構(gòu)嵌入特征和所述疾病的異構(gòu)嵌入特征,獲得pirna的融合嵌入特征和疾病的融合嵌入特征;
6、s4,將所述pirna的融合嵌入特征和所述疾病的融合嵌入特征水平拼接構(gòu)成pirna-疾病對(duì)特征,利用多層感知機(jī)預(yù)測(cè)所述pirna-疾病對(duì)的關(guān)聯(lián)性。
7、進(jìn)一步地,步驟s1中,從mndr?4.0數(shù)據(jù)庫(kù)下載人類(lèi)已知的pirna與疾病相關(guān)聯(lián)的數(shù)據(jù),構(gòu)建pirna-疾病關(guān)聯(lián)矩陣并轉(zhuǎn)化為所述pirna-疾病關(guān)聯(lián)異構(gòu)圖。
8、進(jìn)一步地,步驟s1中,利用pirna序列相似性和pirna高斯核相似性構(gòu)建所述pirna相似同構(gòu)圖;利用疾病語(yǔ)義相似性和疾病高斯核相似性構(gòu)建所述疾病相似同構(gòu)圖。
9、進(jìn)一步地,構(gòu)建所述pirna相似同構(gòu)圖,包括如下步驟:
10、第一,通過(guò)smith–waterman算法計(jì)算pirna?pi和pj之間的序列相似性,并得到pirna序列相似性矩陣公式如下:
11、
12、其中,sw(pi,pj)表示基于smith-waterman算法的第i和第j個(gè)pirna之間的序列比對(duì)得分;
13、第二,計(jì)算pirna?pi和pj之間的高斯核相似性,并得到pirna高斯核相似性矩陣公式如下:
14、pgs(pi,pj)=exp(-γp||ip(pi)-ip(pj)||2),
15、
16、其中,ip(pi)表示pirna-疾病關(guān)聯(lián)矩陣中pirna?pi對(duì)應(yīng)的行,參數(shù)γp用來(lái)控制核帶寬;參數(shù)γ,p是通過(guò)所有疾病與pirna之間的平均相關(guān)數(shù)來(lái)測(cè)量的,值為1;np表示pirna-疾病關(guān)聯(lián)矩陣中pirna的數(shù)量;
17、第三,將pirna序列相似性矩陣和pirna高斯核相似性矩陣求平均,從而計(jì)算出pirnami和mj之間的集成相似性,然后得到pirna集成相似性矩陣計(jì)算公式如下:
18、
19、第四,在pirna集成相似性矩陣中選取每個(gè)pirna的k個(gè)最相似的鄰居,其中k=2;基于此,得到最終的pirna集成相似性矩陣并轉(zhuǎn)化為pirna相似同構(gòu)圖,同構(gòu)圖用二元矩陣表示,公式如下:
20、
21、其中,表示矩陣ap第i行第j列的元素,是pirna?pi包括pi在內(nèi)的k個(gè)近鄰的集合,nk(pi)是pi?k個(gè)最近的鄰居。
22、進(jìn)一步地,構(gòu)建所述疾病相似同構(gòu)圖,包括如下步驟:
23、第一,從mesh數(shù)據(jù)庫(kù)獲取疾病的有向無(wú)環(huán)圖dag,其中節(jié)點(diǎn)代表疾病,疾病之間的連接描述疾病之間的關(guān)系;并基于dag計(jì)算疾病語(yǔ)義相似度矩陣
24、
25、其中,表示疾病di的語(yǔ)義值,t(di)表示由節(jié)點(diǎn)di及其祖先節(jié)點(diǎn)組成的節(jié)點(diǎn)集合;表示疾病di對(duì)疾病di的語(yǔ)義貢獻(xiàn),計(jì)算公式如下:
26、
27、其中δ為語(yǔ)義貢獻(xiàn)衰減因子,設(shè)為0.5;
28、第二,計(jì)算疾病di和dj之間的高斯核相似性,并得到疾病高斯核相似性矩陣公式如下:
29、dgs(di,dj)=exp(-γd||ip(di)-ip(dj)||2),
30、
31、其中,ip(di)表示pirna-疾病關(guān)聯(lián)矩陣中疾病di對(duì)應(yīng)的列,參數(shù)γd用來(lái)控制核帶寬;參數(shù)γ’d是通過(guò)所有疾病與pirna之間的平均相關(guān)數(shù)來(lái)測(cè)量的,值為1;nd表示pirna-疾病關(guān)聯(lián)矩陣中疾病的數(shù)量;
32、第三,將疾病語(yǔ)義相似性矩陣和疾病高斯核相似性矩陣求平均,從而計(jì)算出疾病di和dj之間的集成相似性,然后得到疾病集成相似性矩陣計(jì)算公式如下:
33、
34、第四,在疾病集成相似性矩陣中選取每個(gè)疾病的k個(gè)最相似的鄰居,其中k=2;基于此,得到最終的疾病集成相似性矩陣并轉(zhuǎn)化為疾病相似同構(gòu)圖,同構(gòu)圖用二元矩陣表示,公式如下:
35、
36、其中,表示矩陣ad第i行第j列的元素,是疾病di包括di在內(nèi)的k個(gè)近鄰的集合,nk(di)是di?k個(gè)最近的鄰居。
37、進(jìn)一步地,步驟s2包括如下步驟:
38、s21,利用gcn分別從pirna相似同構(gòu)圖和疾病相似同構(gòu)圖中學(xué)習(xí)pirna和疾病的同構(gòu)嵌入特征,公式如下:
39、
40、
41、其中,和分別是pirna和疾病在第l層的信息,和分別是pirna和疾病所在gcn第l層的權(quán)重矩陣,relu是激活函數(shù),dp和dd分別是ap和ad的對(duì)角矩陣,將pirna和疾病的最后一層輸出嵌入分別表示為和
42、s22,利用基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)從pirna-疾病關(guān)聯(lián)異構(gòu)圖學(xué)習(xí)pirna和疾病的異構(gòu)嵌入特征;在pirna-疾病關(guān)聯(lián)異構(gòu)圖中,已知和未知的pirna-疾病關(guān)聯(lián)被視為不同的邊緣類(lèi)型,并為每種邊緣類(lèi)型t∈{0,1}分配單獨(dú)的處理通道;具體地說(shuō),圖卷積的每個(gè)邊類(lèi)型都可以看作是消息傳遞的一種形式,其中向量值消息在圖的邊上傳遞和轉(zhuǎn)換;在上述模型中,為每一種邊緣類(lèi)型分配了一個(gè)特定的轉(zhuǎn)換,從而得到從疾病dj到pirna?pi邊緣類(lèi)型的消息mj→i,t形式如下:
43、
44、其中,n(pi)表示節(jié)點(diǎn)pi的鄰居集合,n(dj)表示節(jié)點(diǎn)dj的鄰居集合,wt為邊緣類(lèi)型特定參數(shù)矩陣,xj為疾病節(jié)點(diǎn)dj的特征向量;從pirna?pi到疾病dj的消息mi→j,t以類(lèi)似的方式處理;在消息傳遞步驟之后,通過(guò)對(duì)由特定邊類(lèi)型t連接的所有鄰居nt(dj)求和,并將每種邊類(lèi)型的結(jié)果累加到單個(gè)向量表示中,來(lái)累積每個(gè)節(jié)點(diǎn)的傳入消息:
45、
46、其中,sum表示累加操作,σ表示tanh激活函數(shù),為了得到pirna的最終表示,用一個(gè)線(xiàn)性算子對(duì)中間輸出zi進(jìn)行變換:
47、zi=whi,
48、疾病嵌入的zj也使用類(lèi)似的方法計(jì)算;在線(xiàn)性算子中,pirna的參數(shù)矩陣w疾病相同,將上述變換應(yīng)用于pirna-疾病關(guān)聯(lián)異構(gòu)圖的所有節(jié)點(diǎn),可以得到pirna和疾病在異構(gòu)圖中的最終表示。
49、進(jìn)一步地,步驟s3包括如下步驟:
50、s31,使用注意機(jī)制自適應(yīng)地學(xué)習(xí)藥物嵌入和疾病嵌入的相應(yīng)重要性如下:
51、
52、
53、其中,att是一個(gè)執(zhí)行注意力操作的神經(jīng)網(wǎng)絡(luò),和分別表示pirna和疾病嵌入和的注意力值;
54、s32,根據(jù)這些注意力值將這些嵌入組合得到最終的pirna嵌入zp和疾病嵌入zd:
55、
56、
57、進(jìn)一步地,步驟s4包括如下步驟:
58、s41,將兩個(gè)得到的嵌入連接起來(lái)表示pirna-疾病對(duì),并將pirna-疾病對(duì)的嵌入送入到一個(gè)mlp進(jìn)行預(yù)測(cè):
59、
60、其中,表示pirna?i的嵌入,表示疾病j的嵌入,mlp是一個(gè)三層mlp神經(jīng)網(wǎng)絡(luò),表示pirna?i-疾病j對(duì)關(guān)聯(lián)的可能性;
61、s42,計(jì)算預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的二元交叉熵?fù)p失:
62、
63、其中,(i,j)表示pirna?i-疾病j對(duì),yij表示真實(shí)標(biāo)簽;考慮到同構(gòu)圖和異構(gòu)圖之間的共同語(yǔ)義,利用一致性約束來(lái)增強(qiáng)它們的通用性;對(duì)于pirna嵌入,為了捕獲pirna在不同圖之間的相似性,給出如下約束:
64、
65、同樣地,計(jì)算疾病的嵌入約束lcd,將交叉熵?fù)p失lbce、一致性約束lcp和lcd加權(quán)結(jié)合得到最終損失l:
66、l=lbce+λlcp+λlcd
67、其中λ是平衡這三項(xiàng)的超參數(shù)。
68、本發(fā)明的一種基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)預(yù)測(cè)pirna-疾病關(guān)聯(lián)性裝置,包括:
69、圖構(gòu)建模塊,利用pirna相似性矩陣和疾病相似性矩陣構(gòu)建pirna相似同構(gòu)圖和疾病相似同構(gòu)圖,并利用pirna-疾病關(guān)聯(lián)關(guān)系數(shù)據(jù)構(gòu)建pirna-疾病關(guān)聯(lián)異構(gòu)圖;
70、特征學(xué)習(xí)模塊,利用圖卷積神經(jīng)網(wǎng)絡(luò)分別從pirna相似同構(gòu)圖和疾病相似同構(gòu)圖學(xué)習(xí)pirna和疾病的同構(gòu)嵌入特征,并利用基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)從pirna-疾病關(guān)聯(lián)異構(gòu)圖學(xué)習(xí)pirna和疾病的異構(gòu)嵌入特征;
71、注意力融合模塊,利用注意力機(jī)制分別融合pirna和疾病的同構(gòu)嵌入特征和異構(gòu)嵌入特征,獲得pirna和疾病的融合嵌入特征;
72、關(guān)聯(lián)預(yù)測(cè)模塊,將pirna和疾病的融合嵌入特征水平拼接構(gòu)成pirna-疾病對(duì)特征,利用多層感知機(jī)預(yù)測(cè)pirna-疾病對(duì)的關(guān)聯(lián)性。
73、本發(fā)明的一種基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)預(yù)測(cè)pirna-疾病關(guān)聯(lián)性設(shè)備,其特征在于,包括存儲(chǔ)器、處理器以及儲(chǔ)存在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)執(zhí)行權(quán)利要求1-8中任一項(xiàng)所述的方法步驟。
74、本發(fā)明提供的基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)預(yù)測(cè)pirna-疾病關(guān)聯(lián)性方法有益效果在于:
75、一、本發(fā)明提供的基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)預(yù)測(cè)pirna-疾病關(guān)聯(lián)性方法,充分利用了pirna和疾病的各種相似數(shù)據(jù),并充分考慮了鄰居節(jié)點(diǎn)信息,有效提高了pirna-疾病關(guān)聯(lián)預(yù)測(cè)的準(zhǔn)確性。
76、二、本發(fā)明提供的基于異構(gòu)圖的多邊類(lèi)型圖卷積網(wǎng)絡(luò)預(yù)測(cè)pirna-疾病關(guān)聯(lián)性方法,使用五折交叉驗(yàn)證和案例驗(yàn)證來(lái)評(píng)估,五折交叉驗(yàn)證中實(shí)現(xiàn)了0.9292的auc和0.5006的aupr。