本發(fā)明涉及計(jì)算機(jī)輔助藥物設(shè)計(jì),特別是涉及基于鄰域增強(qiáng)圖對(duì)比學(xué)習(xí)的藥物靶點(diǎn)相互作用預(yù)測(cè)方法及系統(tǒng)。
背景技術(shù):
1、藥物靶點(diǎn)相互作用驗(yàn)證是藥物開(kāi)發(fā)流程中的一個(gè)關(guān)鍵步驟,包括藥物重新定位、藥物發(fā)現(xiàn)和副作用,它涉及識(shí)別與特定藥物相結(jié)合的生物分子靶標(biāo)。這一過(guò)程對(duì)于理解藥物的作用機(jī)制、指導(dǎo)藥物的重新定位以及預(yù)測(cè)潛在副作用至關(guān)重要。藥物和靶點(diǎn)之間的相互作用可以通過(guò)影響特定的生物學(xué)途徑來(lái)發(fā)揮治療作用,因此,準(zhǔn)確預(yù)測(cè)這些相互作用能夠顯著提高藥物研發(fā)的效率和安全性。
2、然而,用于dti檢測(cè)的傳統(tǒng)生物實(shí)驗(yàn)通常是昂貴且耗時(shí)的。目前的解決方法是使用1d-cnn或rnn進(jìn)行特征提取,同時(shí)使用圖神經(jīng)網(wǎng)絡(luò)與對(duì)比學(xué)習(xí)相結(jié)合進(jìn)行藥物-靶點(diǎn)相互作用預(yù)測(cè)。
3、雖然1d-cnn或rnn可以進(jìn)行特征提取,但它們受到某些限制。1d-cnn著重于從序列信息中提取局部特征,在有效捕捉全局特征方面存在限制。rnn能夠通過(guò)網(wǎng)絡(luò)傳播處理整個(gè)序列,但它存在隨著時(shí)間的推移忘記信息的問(wèn)題?,F(xiàn)有的對(duì)比學(xué)習(xí)方法大多采用手工圖增強(qiáng)來(lái)構(gòu)建對(duì)比條件,而沒(méi)有考慮如何構(gòu)建更有意義的對(duì)比學(xué)習(xí)任務(wù)進(jìn)行藥物靶點(diǎn)相互作用預(yù)測(cè)。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明提供了基于鄰域增強(qiáng)圖對(duì)比學(xué)習(xí)的藥物靶點(diǎn)相互作用預(yù)測(cè)方法及系統(tǒng),以克服現(xiàn)有藥物靶點(diǎn)相互作用預(yù)測(cè)方案的局限性,提高藥物靶點(diǎn)相互作用預(yù)測(cè)準(zhǔn)確度。
2、為此,本發(fā)明采用以下技術(shù)方案:
3、一方面,本發(fā)明提供了一種基于鄰域增強(qiáng)圖對(duì)比學(xué)習(xí)的藥物靶點(diǎn)相互作用預(yù)測(cè)方法,包括:
4、分別對(duì)藥物化學(xué)文本和靶點(diǎn)序列進(jìn)行特征編碼,將序列信息轉(zhuǎn)成文本向量;
5、通過(guò)transformer編碼器分別對(duì)編碼后的藥物和靶點(diǎn)文本向量進(jìn)行文本特征提??;
6、將transformer編碼器提取出的藥物和靶點(diǎn)的文本特征作為圖卷積神經(jīng)網(wǎng)絡(luò)gcn的節(jié)點(diǎn)特征,采用gcn網(wǎng)絡(luò)學(xué)習(xí)分子間的相互作用信息,提取出藥物和靶點(diǎn)的網(wǎng)絡(luò)特征;
7、利用藥物或靶點(diǎn)相似性網(wǎng)絡(luò)中的鄰接關(guān)系,尋找鄰域密集的藥物或靶點(diǎn),以其作為聚類(lèi)中心對(duì)藥物或靶點(diǎn)進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果分別對(duì)藥物和靶點(diǎn)的網(wǎng)絡(luò)特征進(jìn)行鄰域增強(qiáng)圖對(duì)比學(xué)習(xí),得到藥物和靶點(diǎn)的對(duì)比學(xué)習(xí)特征;
8、基于藥物和靶點(diǎn)的對(duì)比學(xué)習(xí)特征,通過(guò)雙線性解碼器預(yù)測(cè)藥物和靶點(diǎn)之間的相互作用概率。
9、進(jìn)一步地,分別對(duì)藥物和靶點(diǎn)進(jìn)行聚類(lèi)對(duì)比學(xué)習(xí),得到藥物和靶點(diǎn)的對(duì)比學(xué)習(xí)特征,包括:
10、根據(jù)藥物靶點(diǎn)相互作用矩陣得到藥物和靶點(diǎn)的高斯核相似性矩陣;
11、設(shè)置兩個(gè)閾值分別將藥物和靶點(diǎn)的相似性矩陣轉(zhuǎn)換為關(guān)聯(lián)矩陣;
12、通過(guò)關(guān)聯(lián)矩陣的平均度數(shù)和方差得到一個(gè)閾值,如果節(jié)點(diǎn)的度數(shù)大于這個(gè)閾值,將其標(biāo)記為強(qiáng)關(guān)聯(lián)點(diǎn),每一個(gè)強(qiáng)關(guān)聯(lián)點(diǎn)代表一個(gè)簇中心;
13、將強(qiáng)關(guān)聯(lián)點(diǎn)的一階鄰居以及高階鄰居劃分到其所在簇中,如果某個(gè)節(jié)點(diǎn)是多個(gè)強(qiáng)關(guān)聯(lián)點(diǎn)的鄰居,那么就將節(jié)點(diǎn)劃分到與其相似度最高的強(qiáng)關(guān)聯(lián)點(diǎn)所在簇中;
14、將還未劃分到簇中的節(jié)點(diǎn)劃分到與其相似度最高的強(qiáng)關(guān)聯(lián)點(diǎn)所在簇中;
15、基于聚類(lèi)結(jié)果進(jìn)行對(duì)比學(xué)習(xí),每個(gè)節(jié)點(diǎn)與其所在簇的強(qiáng)關(guān)聯(lián)點(diǎn)為正樣本,與其他簇的強(qiáng)關(guān)聯(lián)點(diǎn)為負(fù)樣本。
16、進(jìn)一步地,所述高階鄰居的最高階為六階。
17、進(jìn)一步地,對(duì)于藥物,處理其smiles序列,以獲取化學(xué)文本信息;對(duì)于靶點(diǎn),將其fasta序列作為文本信息。
18、進(jìn)一步地,分別對(duì)藥物化學(xué)文本和靶點(diǎn)序列進(jìn)行特征編碼,將序列信息轉(zhuǎn)成文本向量,包括:
19、使用k-gram方法對(duì)文本序列進(jìn)行分詞,將文本序列劃分為長(zhǎng)度為k的短語(yǔ),并建立一個(gè)字典來(lái)記錄短語(yǔ)出現(xiàn)的順序;使用字典的數(shù)字詞序替換原始單詞,對(duì)所述數(shù)字進(jìn)行嵌入以獲取表示。
20、又一方面,本發(fā)明還提供了一種基于鄰域增強(qiáng)圖對(duì)比學(xué)習(xí)的藥物靶點(diǎn)相互作用預(yù)測(cè)系統(tǒng),包括:
21、初始特征模塊,用于分別對(duì)藥物化學(xué)文本和靶點(diǎn)序列進(jìn)行特征編碼,將序列信息轉(zhuǎn)成文本向量;
22、深度特征提取模塊,用于通過(guò)transformer編碼器分別對(duì)編碼后的藥物和靶點(diǎn)文本向量進(jìn)行文本特征提?。徊ransformer編碼器提取出的藥物和靶點(diǎn)的文本特征作為圖卷積神經(jīng)網(wǎng)絡(luò)gcn的節(jié)點(diǎn)特征,采用gcn網(wǎng)絡(luò)學(xué)習(xí)分子間的相互作用信息,提取出藥物和靶點(diǎn)的網(wǎng)絡(luò)特征;
23、聚類(lèi)對(duì)比學(xué)習(xí)模塊,用于利用藥物或靶點(diǎn)相似性網(wǎng)絡(luò)中的鄰接關(guān)系,尋找鄰域密集的藥物或靶點(diǎn),以其作為聚類(lèi)中心對(duì)藥物或靶點(diǎn)進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果分別對(duì)藥物和靶點(diǎn)的網(wǎng)絡(luò)特征進(jìn)行鄰域增強(qiáng)圖對(duì)比學(xué)習(xí),得到藥物和靶點(diǎn)的對(duì)比學(xué)習(xí)特征;
24、藥物靶點(diǎn)相互作用預(yù)測(cè)模塊,用于基于藥物和靶點(diǎn)的對(duì)比學(xué)習(xí)特征,通過(guò)雙線性解碼器預(yù)測(cè)藥物和靶點(diǎn)之間的相互作用概率。
25、本發(fā)明的優(yōu)點(diǎn)和積極效果:本發(fā)明提供的技術(shù)方案首先通過(guò)對(duì)藥物和靶點(diǎn)序列進(jìn)行特征編碼,將序列信息轉(zhuǎn)成數(shù)字向量,通過(guò)transformer編碼器和gcn網(wǎng)絡(luò)進(jìn)行深度特征提取,使用聚類(lèi)對(duì)比學(xué)習(xí)更好地學(xué)習(xí)藥物和靶點(diǎn)的特征。與常見(jiàn)的深度學(xué)習(xí)方法相比,本發(fā)明不但可以提取復(fù)雜的分子序列,而且融入了網(wǎng)絡(luò)信息,最重要的是本發(fā)明使用一種新穎的聚類(lèi)算法來(lái)進(jìn)行對(duì)比學(xué)習(xí),最后雙線性解碼器用于的藥物-靶點(diǎn)相互作用預(yù)測(cè)。本發(fā)明方法有助于提高藥物靶點(diǎn)相互作用預(yù)測(cè)準(zhǔn)確度,有利于緩解標(biāo)簽稀疏性問(wèn)題,對(duì)于實(shí)際疾病診斷與治療以及后續(xù)藥物的研發(fā)存在一定價(jià)值。
1.一種基于鄰域增強(qiáng)圖對(duì)比學(xué)習(xí)的藥物靶點(diǎn)相互作用預(yù)測(cè)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于鄰域增強(qiáng)圖對(duì)比學(xué)習(xí)的藥物靶點(diǎn)相互作用預(yù)測(cè)方法,其特征在于,分別對(duì)藥物和靶點(diǎn)進(jìn)行聚類(lèi)對(duì)比學(xué)習(xí),得到藥物和靶點(diǎn)的對(duì)比學(xué)習(xí)特征,包括:
3.根據(jù)權(quán)利要求2所述的一種基于鄰域增強(qiáng)圖對(duì)比學(xué)習(xí)的藥物靶點(diǎn)相互作用預(yù)測(cè)方法,其特征在于,所述高階鄰居的最高階為六階。
4.根據(jù)權(quán)利要求1所述的一種基于鄰域增強(qiáng)圖對(duì)比學(xué)習(xí)的藥物靶點(diǎn)相互作用預(yù)測(cè)方法,其特征在于,對(duì)于藥物,處理其smiles序列,以獲取化學(xué)文本信息;對(duì)于靶點(diǎn),將其fasta序列作為文本信息。
5.根據(jù)權(quán)利要求4所述的一種基于鄰域增強(qiáng)圖對(duì)比學(xué)習(xí)的藥物靶點(diǎn)相互作用預(yù)測(cè)方法,其特征在于,分別對(duì)藥物化學(xué)文本和靶點(diǎn)序列進(jìn)行特征編碼,將序列信息轉(zhuǎn)成文本向量,包括:
6.一種基于鄰域增強(qiáng)圖對(duì)比學(xué)習(xí)的藥物靶點(diǎn)相互作用預(yù)測(cè)系統(tǒng),其特征在于,包括: