亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

藥物篩選中基于深度哈希的配體分子指紋生成方法與流程

文檔序號(hào):12467253閱讀:1763來源:國知局
藥物篩選中基于深度哈希的配體分子指紋生成方法與流程

本發(fā)明涉及一種藥物篩選中基于深度哈希的配體分子指紋生成設(shè)計(jì)方法,屬于計(jì)算機(jī)輔助藥物設(shè)計(jì)的技術(shù)領(lǐng)域。



背景技術(shù):

分子指紋(Molecular Fingerprint)將化學(xué)分子表示成“位串”(bit string),用于刻畫化學(xué)分子的結(jié)構(gòu)或功能相似性,由于其使用的簡便性以及在子結(jié)構(gòu)和相似性搜索中的高效性,在藥物發(fā)現(xiàn)和虛擬篩選中得到了廣泛應(yīng)用。

目前,已經(jīng)提出了很多的分子指紋生成方法,不同的方法反映了分子不同方面的信息。分子指紋生成方法主要包括:基于關(guān)鍵子結(jié)構(gòu)的分子指紋生成方法、基于路徑的分子指紋生成方法、環(huán)形指紋生成方法、藥效團(tuán)指紋生成方法和混合指紋生成方法等。基于關(guān)鍵子結(jié)構(gòu)的分子指紋生成方法根據(jù)是否存在給定列表中的子結(jié)構(gòu)將化學(xué)分子表示成位串,如MACCS、PubChem等?;诼窂降姆肿又讣y生成方法根據(jù)分子的拓?fù)浣Y(jié)構(gòu),順著分子化學(xué)鍵的不同路徑產(chǎn)生子結(jié)構(gòu),并哈希產(chǎn)生分子位串,其長度可變,可用于快速子結(jié)構(gòu)搜索,如Daylight指紋和OpenEye樹形指紋。環(huán)形指紋生成方法利用分子的拓?fù)浣Y(jié)構(gòu),考慮每個(gè)原子的周邊原子和鍵的信息生成位串,已為廣泛應(yīng)用于分子的整體結(jié)構(gòu)相似性搜索,如Molprint2D、ECFP、FCFP等。藥效團(tuán)指紋生成方法,它與基于關(guān)鍵子結(jié)構(gòu)的指紋相似,但它除了考慮與藥效相關(guān)的關(guān)鍵子結(jié)構(gòu),還考慮了這些子結(jié)構(gòu)間的距離因素?;旌现讣y生成方法同時(shí)結(jié)合上述多種分子指紋信息,如UNITY 2G同時(shí)考慮了關(guān)鍵子結(jié)構(gòu)和子結(jié)構(gòu)連接路徑信息。除了上述分子指紋生成方法,最近還有不少全新的方法涌現(xiàn)。例如,LINGO為基于文本的分子指紋工具,PLIF分子指紋生成方法主要考慮蛋白質(zhì)-配體相互作用信息,包括氫鍵、離子鍵等,SIFt分子指紋生成方法主要考慮分子結(jié)構(gòu)間的相互作用信息。

現(xiàn)有的分子指紋生成方法依賴于開發(fā)者的手工特征提取,這對開發(fā)者提出了很高的要求,開發(fā)者需要對領(lǐng)域知識(shí)有很深的了解。同時(shí)發(fā)現(xiàn)分子結(jié)構(gòu)式的可視化顯示是了解分子性質(zhì)最直觀的方式,可以將其結(jié)構(gòu)圖轉(zhuǎn)化成圖像格式,使用成熟的圖像處理技術(shù)來生成分子指紋。深度哈希將特征自動(dòng)生成和哈希編碼學(xué)習(xí)通過深度學(xué)習(xí)框架結(jié)合到一起,憑借其強(qiáng)大的特征學(xué)習(xí)能力和標(biāo)記監(jiān)督信息,迅速超越了基于手工設(shè)計(jì)特征的傳統(tǒng)哈希方法。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于解決傳統(tǒng)分子指紋技術(shù)需要開發(fā)者對領(lǐng)域知識(shí)有較深了解,技術(shù)門檻較高的難題。本發(fā)明將分子結(jié)構(gòu)式轉(zhuǎn)換成圖像文件,采用DPSH深度哈希算法自動(dòng)學(xué)習(xí)分子指紋。本發(fā)明從全新的角度設(shè)計(jì)第一個(gè)“端到端”的分子指紋生成框架,開發(fā)者無需手工設(shè)計(jì)特征,模型將自動(dòng)生成分子指紋。

為達(dá)到上述目的,本發(fā)明的技術(shù)方案為一種藥物篩選中基于深度哈希的配體分子指紋生成設(shè)計(jì)方法,包括如下步驟:

步驟1:生成分子結(jié)構(gòu)式圖像文件;

步驟2:定義配體分子對的配對標(biāo)記;

步驟3:訓(xùn)練DPSH深度哈希學(xué)習(xí)模型;

步驟4:預(yù)測新配體分子的分子指紋。

進(jìn)一步,步驟1通過現(xiàn)有分子軟件讀取配體分子SMILES,并調(diào)用軟件中的構(gòu)圖函數(shù),生成固定尺寸為300*300像素的配體分子結(jié)構(gòu)式圖像文件,用于表示配體分子的結(jié)構(gòu)特征。

如果兩配體分子與共同的藥物靶標(biāo)作用,則兩分子之間的配對標(biāo)記為1;若兩分子分別與不同的藥物靶標(biāo)作用,則兩分子之間的配對標(biāo)記為0,DPSH深度哈希分子指紋生成模型的目的在于:配對標(biāo)記為1的兩個(gè)配體分子,通過模型生成的分子指紋盡可能相似;配對標(biāo)記為0的兩分子,其分子指紋之間差距較大。

步驟3將步驟1得到的配體分子結(jié)構(gòu)式圖像進(jìn)行預(yù)處理,轉(zhuǎn)換成像素大小為224*224的圖像形式,并結(jié)合步驟2生成的配對標(biāo)記,一同輸入DPSH深度哈希學(xué)習(xí)模型,提取配體分子結(jié)構(gòu)深層次的特征,進(jìn)行配體分子指紋自動(dòng)編碼,更新網(wǎng)絡(luò)參數(shù)。

步驟4中當(dāng)要預(yù)測新的配體分子的哈希指紋時(shí),只需將配體分子的結(jié)構(gòu)式圖像輸入DPSH深度哈希學(xué)習(xí)模型處理,就能在輸出端得到指定長度的指紋向量。

本發(fā)明的有益效果:

1、本發(fā)明提出的方法將實(shí)現(xiàn)第一個(gè)“端到端”、自動(dòng)的分子指紋生成框架,開發(fā)者無需手工設(shè)計(jì)特征,解決了“開發(fā)者需要對領(lǐng)域知識(shí)有較深的了解”的難題。

2、本發(fā)明從一個(gè)全新的角度來生成分子指紋,將捕獲不同的分子信息,可作為現(xiàn)有分子指紋生成方法的重要補(bǔ)充,也將推動(dòng)分子指紋在藥物發(fā)現(xiàn)和虛擬篩選中更廣泛的應(yīng)用。

附圖說明

圖1為本發(fā)明基于深度哈希的分子指紋生成系統(tǒng)的架構(gòu)圖。

圖2為本發(fā)明基于深度哈希的分子指紋生成方法流程圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)例對本發(fā)明做進(jìn)一步的說明。

本發(fā)明提出的方法只需要輸入分子結(jié)構(gòu)式文件,它將被轉(zhuǎn)換成圖像文件,利用DPSH深度哈希算法,通過優(yōu)化目標(biāo)損失函數(shù)來自動(dòng)生成最優(yōu)的分子指紋。本發(fā)明提出的方法將實(shí)現(xiàn)第一個(gè)“端到端”的分子指紋生成框架,開發(fā)者無需手工設(shè)計(jì)特征,解決了“開發(fā)者需要對領(lǐng)域知識(shí)有較深的了解”的難題。本發(fā)明從一個(gè)全新的角度來提供分子指紋生成的通用框架,可以作為現(xiàn)有的分子指紋生成方法重要的補(bǔ)充,也將推動(dòng)分子指紋在藥物發(fā)現(xiàn)和虛擬篩選中更廣泛的應(yīng)用。

本發(fā)明主要包含兩部分內(nèi)容:分子的圖像文件生成和分子指紋自動(dòng)生成。

分子的圖像文件生成:結(jié)構(gòu)式是用元素符號(hào)和短線表示化合物(或單質(zhì))分子中原子的排列和結(jié)合方式的式子,是一簡單描述分子式的方法。本發(fā)明通過現(xiàn)有的軟件,例如RDkit,將分子結(jié)構(gòu)式轉(zhuǎn)換成圖像格式的文件。

分子指紋自動(dòng)生成:上面得到的圖像作為DPSH深度哈希模型的輸入,通過優(yōu)化目標(biāo)損失函數(shù)來生成最優(yōu)的分子指紋。

方法流程:

步驟1:將配體化學(xué)分子式(SMILES格式)輸入RDkit工具,轉(zhuǎn)換為300*300像素的圖像;

步驟2:定義配體分子對的配對標(biāo)記(pairwise label)。如果兩個(gè)配體分子與同一個(gè)藥物靶標(biāo)作用,則這兩個(gè)配體分子的配對標(biāo)記為1,否則為0;

步驟3:訓(xùn)練DPSH深度哈希學(xué)習(xí)模型。將配體分子對的兩個(gè)配體分子的圖像文件(由步驟1產(chǎn)生)和配對標(biāo)記作為DPSH深度哈希模型的輸入,訓(xùn)練DPSH深度哈希學(xué)習(xí)模型,使得相似的配體分子的哈希碼(配體標(biāo)記為1)盡量相似,不同的配體分子的哈希碼(配體標(biāo)記為0)盡量不同;

步驟4:應(yīng)用訓(xùn)練好的DPSH深度哈希模型,預(yù)測新的配體分子的分子指紋。

本發(fā)明的具體實(shí)施步驟,如圖2所示,包括:

1、配體分子圖像文件生成

已知與疾病相關(guān)、具有特定藥效功能的藥物靶標(biāo)和與之作用的配體分子(SMILES格式)。SMILES(Simplified molecular input line entry specification),簡化分子線性輸入規(guī)范,是一種用字符串明確描述分子結(jié)構(gòu)的規(guī)范。SMILES用一串字符來描述一個(gè)三維化學(xué)結(jié)構(gòu),SMILES字符串可以被大多數(shù)分子編輯軟件導(dǎo)入并轉(zhuǎn)換成二維圖形或分子的三維模型。

調(diào)用RDkit中的Draw.MolToFile函數(shù),可根據(jù)配體分子SMILES產(chǎn)生結(jié)構(gòu)式圖像,大小為300*300像素。

2、基于DPSH深度學(xué)習(xí)模型的配體分子指紋自動(dòng)生成

2.1、定義屬性

如果兩配體分子與共同的藥物靶標(biāo)作用,則兩配體分子之間的配對標(biāo)記為1;若兩配體分子分別與不同的藥物靶標(biāo)作用,則兩配體分子之間的配對標(biāo)記為0。指紋生成模型的目的在于:配對標(biāo)記為1的兩個(gè)配體分子,生成的分子指紋盡可能相似;配對標(biāo)記為0的兩配體分子,其分子指紋之間差距較大。

2.2、建模與訓(xùn)練

在這個(gè)步驟中,本發(fā)明將特征學(xué)習(xí)和目標(biāo)函數(shù)學(xué)習(xí)兩部分融合到統(tǒng)一的框架之中。圖1為哈希指紋生成的完整模型。模型的特征學(xué)習(xí)部分采用預(yù)訓(xùn)練過的卷積神經(jīng)網(wǎng)絡(luò)VGG-F,如圖1所示,上下兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)具有相同的結(jié)構(gòu)并且權(quán)值共享。這意味著:系統(tǒng)的輸入和損失函數(shù)的計(jì)算是基于成對的配體分子結(jié)構(gòu)式圖像。

2.2.1、特征學(xué)習(xí)部分

將步驟1中得到的分子結(jié)構(gòu)式圖像使用Matlab預(yù)處理,轉(zhuǎn)換成224*224像素的圖像形式,輸入卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過卷積、池化、激活等處理,在全連接層輸出固定長度(4096維)的特征向量。

2.2.2、目標(biāo)函數(shù)學(xué)習(xí)部分

在步驟3中,DPSH深度哈希學(xué)習(xí)模型提出一個(gè)函數(shù)將特征學(xué)習(xí)部分和目標(biāo)函數(shù)部分結(jié)合到統(tǒng)一框架。如下所示:

公式(1)中,θ代表神經(jīng)網(wǎng)絡(luò)中所有層的參數(shù);表示第i個(gè)分子結(jié)構(gòu)式圖片輸入卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的向量;W為一個(gè)4096*n維的權(quán)重矩陣,將全連接層輸出的4096維向量轉(zhuǎn)化為長度為n的分子指紋編碼;v代表偏移向量。

現(xiàn)已知每個(gè)配體分子的指紋編碼ui,以及配體分子對之間的配對標(biāo)記sij,根據(jù)步驟2提出的目標(biāo):配對標(biāo)記為1的兩個(gè)分子通過編碼后的指紋之間的漢明距離盡可能小;配對標(biāo)記為0的兩分子編碼指紋的漢明距離大。構(gòu)造如下函數(shù):

其中

Ωij是兩編碼的點(diǎn)乘,即對應(yīng)位相乘再相加,代表指紋編碼之間的漢明距離;σ是一個(gè)限制函數(shù),使輸出值在0,1范圍之間,且單調(diào)遞增。當(dāng)兩分子配對標(biāo)記為1時(shí),Ωij值較大,σ值較大;兩分子配對標(biāo)記為0時(shí),σ值較小,則1-σ值越大。結(jié)果使p(sij|U)在兩種不同的相似性條件下總能得到較大值。于是DPSH深度哈希學(xué)習(xí)模型使用的損失函數(shù)為:

式中即利用已知的樣本分布,找到最大概率導(dǎo)致這種分布的參數(shù)值。由于log函數(shù)單調(diào)遞增,因而log p(sij|U)會(huì)達(dá)到最大值,因此添加負(fù)號(hào)之后,最大化p(sij|U)等價(jià)于最小化J。

2.2.3、優(yōu)化損失函數(shù)

本發(fā)明中DPSH深度學(xué)習(xí)模型采用mini-batch方法對損失函數(shù)(3)進(jìn)行優(yōu)化求導(dǎo),如下所示:

式中對于其他三個(gè)參數(shù)W,v,使用后向傳播(BP)算法,對J求導(dǎo)進(jìn)行更新。BP算法實(shí)質(zhì)是求取誤差函數(shù)的最小值,把誤差信號(hào)按原來傳播的通路反向傳回,并對每個(gè)隱層的各個(gè)神經(jīng)元的權(quán)系數(shù)進(jìn)行修改,使得誤差信號(hào)趨向最小。公式如下:

2.2.4、使用模型進(jìn)行預(yù)測

當(dāng)特征學(xué)習(xí)部分和目標(biāo)函數(shù)學(xué)習(xí)部分參數(shù)全部優(yōu)化結(jié)束,基于DPSH深度哈希的分子指紋生成模型便構(gòu)建完成。預(yù)測某一配體分子的哈希指紋,只需要將分子結(jié)構(gòu)式圖像輸入模型進(jìn)行處理,輸出端就得到指定長度的指紋向量。

本發(fā)明提出的方法將實(shí)現(xiàn)第一個(gè)“端到端”、自動(dòng)的分子指紋生成框架。大部分傳統(tǒng)分子指紋生成方法依賴于開發(fā)者的手工特征提取,這意味著,生成準(zhǔn)確的分子指紋,需要開發(fā)者對分子特征領(lǐng)域的相關(guān)信息有很深的了解。本發(fā)明使用較為成熟的卷積神經(jīng)網(wǎng)絡(luò)技術(shù),提取分子結(jié)構(gòu)內(nèi)部深層次的特征信息,比手工設(shè)計(jì)的特征更加全面和準(zhǔn)確。因此開發(fā)者無需手工設(shè)計(jì)特征,解決了“開發(fā)者需要對領(lǐng)域知識(shí)有較深的了解”的難題。

本發(fā)明從一個(gè)全新的角度即以輸入分子結(jié)構(gòu)式圖像,來生成分子指紋。這是傳統(tǒng)指紋生成方法所不具備,這種方法將捕獲更多不同的分子的結(jié)構(gòu)信息,既可作為現(xiàn)有分子指紋生成方法的重要補(bǔ)充,也將推動(dòng)分子指紋在藥物發(fā)現(xiàn)和虛擬篩選中更廣泛的應(yīng)用。基于DPSH深度哈希方法生成的指紋,可用于海量分子數(shù)據(jù)庫中的快速近似搜索,大大降低了藥物設(shè)計(jì)前期工作的成本與時(shí)間。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1