本發(fā)明屬于人工智能藥物,具體涉及一種基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法及裝置。
背景技術(shù):
1、新藥研發(fā)是一項(xiàng)專業(yè)性高、周期漫長(zhǎng)、耗資巨大且失敗風(fēng)險(xiǎn)極高的工程,其流程包含了藥物作用靶點(diǎn)的確定、苗頭化合物的發(fā)現(xiàn)、先導(dǎo)化合物的優(yōu)化、臨床前候選化合物的確定以及臨床研究、審批上市和上市后監(jiān)測(cè)等各個(gè)階段。作為整個(gè)新藥研發(fā)流程的起點(diǎn),苗頭化合物只具備了初步活性,需要使用先導(dǎo)化合物優(yōu)化的方法來(lái)將其改造為生物活性更高、成藥性更好的先導(dǎo)化合物。在先導(dǎo)化合物優(yōu)化的過(guò)程中,藥物分子自身的性質(zhì)和其與靶標(biāo)相互作用的方式尤為重要,需要被不斷測(cè)定和驗(yàn)證。
2、深度學(xué)習(xí)技術(shù)的迅猛發(fā)展為先導(dǎo)化合物的優(yōu)化帶來(lái)了新的可能。通過(guò)構(gòu)建模型學(xué)習(xí)海量的分子活性數(shù)據(jù),模型能夠精準(zhǔn)地預(yù)測(cè)未知分子的活性,高效地探索化學(xué)結(jié)構(gòu)空間,篩選到具有更高活性的改造后的先導(dǎo)化合物分子。如公布號(hào)為cn115331750a的專利申請(qǐng)公開(kāi)了一種基于深度學(xué)習(xí)的新靶點(diǎn)化合物活性預(yù)測(cè)方法,通過(guò)構(gòu)建cnn、bilstm等模型學(xué)習(xí)分子的表征,實(shí)現(xiàn)了對(duì)分子活性的預(yù)測(cè)。但此類方法由于沒(méi)有考慮蛋白質(zhì)靶標(biāo)和分子間的相互作用關(guān)系,預(yù)測(cè)準(zhǔn)確性不足。再如公布號(hào)為cn114822717a的專利申請(qǐng)公開(kāi)了一種基于人工智能的藥物分子處理方法,通過(guò)對(duì)多個(gè)候選藥物分子以及目標(biāo)蛋白進(jìn)行活性預(yù)測(cè)處理,得到了每個(gè)候選藥物分子的活性信息,但此類方法只是將蛋白質(zhì)特征和分子特征通過(guò)拼接或加和的方式簡(jiǎn)單融合,沒(méi)有利用到候選分子間的活性差異,損失了一部分信息和訓(xùn)練效率。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述,本發(fā)明的目的是提供一種基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法及裝置,實(shí)現(xiàn)對(duì)分子的活性預(yù)測(cè)。
2、為實(shí)現(xiàn)上述發(fā)明目的,實(shí)施例提供的一種基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法,包括以下步驟:
3、構(gòu)建包含蛋白質(zhì)靶標(biāo)的分子對(duì)活性數(shù)據(jù)集,每對(duì)分子對(duì)活性數(shù)據(jù)包括一分子活性數(shù)據(jù)、另一分子活性數(shù)據(jù)、以及蛋白質(zhì)靶標(biāo);
4、分別提取兩個(gè)分子的初始嵌入表示和蛋白質(zhì)靶標(biāo)的初始嵌入表示;
5、構(gòu)建具有孿生神經(jīng)網(wǎng)絡(luò)架構(gòu)的多視圖分子對(duì)活性預(yù)測(cè)模型,包括多視圖特征增強(qiáng)提取模塊,活性預(yù)測(cè)模塊,其中,多視圖特征增強(qiáng)提取模塊用于基于每個(gè)分子的初始嵌入表示和蛋白質(zhì)靶標(biāo)的初始嵌入表示進(jìn)行局部視圖和全局視圖的特征增強(qiáng)提取得到每個(gè)分子對(duì)應(yīng)的局部特征和全局特征,活性預(yù)測(cè)模塊用于基于兩個(gè)分子對(duì)應(yīng)的局部特征和全局特征預(yù)測(cè)兩個(gè)分子的活性差值,或者在已知一分子活性時(shí)預(yù)測(cè)另一分子活性;
6、利用每對(duì)分子對(duì)活性數(shù)據(jù)對(duì)多視圖分子對(duì)活性預(yù)測(cè)模型進(jìn)行預(yù)訓(xùn)練任務(wù)和微調(diào)任務(wù)的參數(shù)優(yōu)化,其中,預(yù)訓(xùn)練任務(wù)為預(yù)測(cè)兩個(gè)分子的活性差值,微調(diào)任務(wù)包括基于已知一分子活性預(yù)測(cè)另一分子活性;
7、使用參數(shù)優(yōu)化后的多視圖分子對(duì)活性預(yù)測(cè)模型進(jìn)行分子對(duì)活性預(yù)測(cè)。
8、優(yōu)選地,所述多視圖特征增強(qiáng)提取模塊包括局部視圖模塊和全局視圖模塊,其中,局部視圖模塊用于基于每個(gè)分子的初始嵌入表示提取分子內(nèi)相互作用的局部特征,全局視圖模塊用于基于每個(gè)分子的初始嵌入表示和蛋白質(zhì)靶標(biāo)的初始嵌入表示提取分子與蛋白質(zhì)間相互作用的全局特征。
9、優(yōu)選地,局部視圖模塊包括多個(gè)局部特征提取層,每個(gè)局部特征提取層包括自注意力層和第一非線性層,每個(gè)分子的初始嵌入表示依次經(jīng)過(guò)自注意力層和第一非線性層來(lái)提取內(nèi)部相互作用的局部特征;
10、全局視圖模塊包括與局部特征提取層相同層數(shù)的全局特征提取層,每個(gè)全局特征提取層包括交叉注意力層和第二非線性層,還共用局部特征提取層中的自注意力層,每個(gè)分子的初始嵌入表示經(jīng)過(guò)自注意力層提取特征后在交叉注意力層中與蛋白質(zhì)靶標(biāo)的初始嵌入表示進(jìn)行交叉關(guān)注來(lái)提取分子特征與蛋白質(zhì)相互作用的全局上下文信息,再經(jīng)過(guò)第二非線性層映射得到全局特征。
11、優(yōu)選地,所述還包括;多視圖特征提取模塊提取的局部特征和全局特征進(jìn)行各自的歸一化加權(quán)處理后輸入至活性預(yù)測(cè)模塊進(jìn)行活性預(yù)測(cè)。
12、優(yōu)選地,活性預(yù)測(cè)模塊中,基于兩分子對(duì)應(yīng)的局部特征和全局預(yù)測(cè)兩個(gè)分子的活性差值,包括:
13、兩個(gè)分子的局部特征之差輸入至多層感知機(jī),兩個(gè)分子的全局特征之差同樣輸入至多層感知機(jī),多層感知機(jī)計(jì)算輸出兩個(gè)分子的活性差值。
14、優(yōu)選地,活性預(yù)測(cè)模塊中,在已知一分子活性時(shí)預(yù)測(cè)另一分子活性,包括:
15、基于獲得的兩分子活性差值,已知一分子活性,則另一分子活性為已知一分子活性與兩分子活性差值之和。
16、優(yōu)選地,對(duì)多視圖分子對(duì)活性預(yù)測(cè)模型進(jìn)行參數(shù)優(yōu)化時(shí)采用監(jiān)督學(xué)習(xí)方式,針對(duì)預(yù)訓(xùn)練任務(wù),基于預(yù)測(cè)的活性差值與真實(shí)活性差值之間的差值來(lái)構(gòu)建損失函數(shù)進(jìn)行參數(shù)優(yōu)化,針對(duì)微調(diào)任務(wù),基于預(yù)測(cè)的另一分子活性與另一分子的真實(shí)活性之差來(lái)構(gòu)建損失函數(shù)進(jìn)行參數(shù)優(yōu)化。
17、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明實(shí)施例還提供了一種基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)裝置,包括:
18、數(shù)據(jù)構(gòu)建單元,其用于構(gòu)建包含蛋白質(zhì)靶標(biāo)的分子對(duì)活性數(shù)據(jù)集,每對(duì)分子對(duì)活性數(shù)據(jù)包括第一分子活性數(shù)據(jù)、第二分子活性數(shù)據(jù)、以及蛋白質(zhì)靶標(biāo);
19、嵌入表示單元,其用于分別提取兩個(gè)分子的初始嵌入表示和蛋白質(zhì)靶標(biāo)的初始嵌入表示;
20、模型構(gòu)建單元,其用于構(gòu)建具有孿生神經(jīng)網(wǎng)絡(luò)架構(gòu)的多視圖分子對(duì)活性預(yù)測(cè)模型,包括多視圖特征增強(qiáng)提取模塊,活性預(yù)測(cè)模塊,其中,多視圖特征增強(qiáng)提取模塊用于基于每個(gè)分子的初始嵌入表示和蛋白質(zhì)靶標(biāo)的初始嵌入表示進(jìn)行局部視圖和全局視圖的特征增強(qiáng)提取得到每個(gè)分子對(duì)應(yīng)的局部特征和全局特征,活性預(yù)測(cè)模塊用于基于兩個(gè)分子對(duì)應(yīng)的局部特征和全局特征預(yù)測(cè)兩個(gè)分子的活性差值,或者在已知一分子活性時(shí)預(yù)測(cè)另一分子活性;
21、參數(shù)優(yōu)化單元,其用于利用每對(duì)分子對(duì)活性數(shù)據(jù)對(duì)多視圖分子對(duì)活性預(yù)測(cè)模型進(jìn)行預(yù)訓(xùn)練任務(wù)和微調(diào)任務(wù)的參數(shù)優(yōu)化,其中,預(yù)訓(xùn)練任務(wù)為預(yù)測(cè)兩個(gè)分子的活性差值,微調(diào)任務(wù)包括基于已知一分子活性預(yù)測(cè)另一分子活性;
22、推理應(yīng)用單元,其用于使用參數(shù)優(yōu)化后的多視圖分子對(duì)活性預(yù)測(cè)模型進(jìn)行分子對(duì)活性預(yù)測(cè)。
23、為實(shí)現(xiàn)上述發(fā)明目的,實(shí)施例還提供了一種計(jì)算設(shè)備,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于實(shí)現(xiàn)上述基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法。
24、為實(shí)現(xiàn)上述發(fā)明目的,實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法。
25、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果至少包括:
26、通過(guò)多視圖分子對(duì)活性預(yù)測(cè)模型獲取分子內(nèi)相互作用表征和蛋白質(zhì)-配體分子間的相互作用表征,并利用孿生神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分子對(duì)間的活性差異,最終實(shí)現(xiàn)對(duì)分子活性的高效、精準(zhǔn)預(yù)測(cè),以用于更好地指導(dǎo)先導(dǎo)化合物優(yōu)化。
1.一種基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法,其特征在于,所述多視圖特征增強(qiáng)提取模塊包括局部視圖模塊和全局視圖模塊,其中,局部視圖模塊用于基于每個(gè)分子的初始嵌入表示提取分子內(nèi)相互作用的局部特征,全局視圖模塊用于基于每個(gè)分子的初始嵌入表示和蛋白質(zhì)靶標(biāo)的初始嵌入表示提取分子與蛋白質(zhì)間相互作用的全局特征。
3.根據(jù)權(quán)利要求2所述的基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法,其特征在于,局部視圖模塊包括多個(gè)局部特征提取層,每個(gè)局部特征提取層包括自注意力層和第一非線性層,每個(gè)分子的初始嵌入表示依次經(jīng)過(guò)自注意力層和第一非線性層來(lái)提取內(nèi)部相互作用的局部特征;
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法,其特征在于,所述方法還包括;多視圖特征提取模塊提取的局部特征和全局特征進(jìn)行各自的歸一化加權(quán)處理后輸入至活性預(yù)測(cè)模塊進(jìn)行活性預(yù)測(cè)。
5.根據(jù)權(quán)利要求1所述的基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法,其特征在于,活性預(yù)測(cè)模塊中,基于兩分子對(duì)應(yīng)的局部特征和全局預(yù)測(cè)兩個(gè)分子的活性差值,包括:
6.根據(jù)權(quán)利要求5所述的基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法,其特征在于,活性預(yù)測(cè)模塊中,在已知一分子活性時(shí)預(yù)測(cè)另一分子活性,包括:
7.根據(jù)權(quán)利要求1所述的基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法,其特征在于,對(duì)多視圖分子對(duì)活性預(yù)測(cè)模型進(jìn)行參數(shù)優(yōu)化時(shí)采用監(jiān)督學(xué)習(xí)方式,針對(duì)預(yù)訓(xùn)練任務(wù),基于預(yù)測(cè)的活性差值與真實(shí)活性差值之間的差值來(lái)構(gòu)建損失函數(shù)進(jìn)行參數(shù)優(yōu)化,針對(duì)微調(diào)任務(wù),基于預(yù)測(cè)的另一分子活性與另一分子的真實(shí)活性之差來(lái)構(gòu)建損失函數(shù)進(jìn)行參數(shù)優(yōu)化。
8.一種基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)裝置,其特征在于,包括:
9.一種計(jì)算設(shè)備,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,其特征在于,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的基于孿生神經(jīng)網(wǎng)絡(luò)的多視圖分子對(duì)活性預(yù)測(cè)方法。