亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于機(jī)器學(xué)習(xí)的藥物活性預(yù)測方法與流程

文檔序號:11973072閱讀:246來源:國知局
一種基于機(jī)器學(xué)習(xí)的藥物活性預(yù)測方法與流程
本發(fā)明屬于生物醫(yī)藥技術(shù)領(lǐng)域,尤其涉及一種基于機(jī)器學(xué)習(xí)的藥物活性預(yù)測方法。

背景技術(shù):
藥物研究與開發(fā)是一項(xiàng)周期長、耗資大、風(fēng)險(xiǎn)高、競爭激烈、利潤高的系統(tǒng)工程。據(jù)統(tǒng)計(jì),一個(gè)新藥從概念產(chǎn)生、實(shí)驗(yàn)室先導(dǎo)化合物的確定、優(yōu)化、臨床試驗(yàn)到最終上市,需要花費(fèi)10-15年時(shí)間,研發(fā)費(fèi)用高達(dá)8億美元以上(DiMasi,J.A.,Hansen,R.W.,andGrabowski,H.G.(2003).Thepriceofinnovation:newestimatesofdrugdevelopmentcosts.J.HealthEcon.22:151-185.),并且這個(gè)費(fèi)用仍在逐年增長,根據(jù)塔夫茨藥物研發(fā)中心(TuftsCenterfortheStudyofDrugDevelopment,CSDD)2014年的報(bào)告,這個(gè)數(shù)字現(xiàn)在已經(jīng)增長到了25.58億美元(http://csdd.tufts.edu/news/complete_story/pr_tufts_csdd_2014_cost_study)。然而,如此巨大的投資并沒有獲得預(yù)期的回報(bào)。1996年FDA批準(zhǔn)上市的新分子藥物為53個(gè),2007年的這一數(shù)值僅為15,創(chuàng)歷史新低(Hughes,B.(2008).2007FDAdrugapprovals:ayearofflux.Nat.Rev.DrugDiscov.7:107–109;Editorial.(2008).Raisingthegame.Nat.Biotech.26:137.)。在針對精神分裂等遺傳性復(fù)雜疾病的新藥研發(fā)方面,所遇到的困難比過去更大、失敗率更高(王真真;張有志,李云峰.(2013).抗精神分裂癥藥物的研究進(jìn)展.軍事醫(yī)學(xué)37(8):628-640.)??梢哉f藥物設(shè)計(jì)和開發(fā)面臨著前所未有的“高投入、低產(chǎn)出”的艱難境地。隨著強(qiáng)調(diào)整體聯(lián)系和動(dòng)態(tài)過程并整合現(xiàn)代生物學(xué)、化學(xué)、藥理學(xué)和計(jì)算機(jī)信息學(xué)最新成果的新興學(xué)科的興起,如系統(tǒng)生物學(xué)(Ideker,T.,Galitski,T.,Hood,L.(2001).Anewapproachtodecodinglife:systemsbiology.Annu.Rev.GenomicsHum.Genet.2:343–372.)、蛋白質(zhì)組學(xué)(Aebersold,R.andMann,M.(2003).MassSpectrometry–basedproteomics.Nature422:198–207.)、代謝組學(xué)(Rochfort,S.(2005).Metabolomicsreviewed:anew“omics”platformtechnologyforsystemsbiologyandimplicationsfornaturalproductsresearch.J.Nat.Prod.68:1813–1820.)、化學(xué)生物學(xué)(周興旺.(2003).化學(xué)生物學(xué)新前沿——化學(xué)蛋白質(zhì)組學(xué).化學(xué)進(jìn)展15:518–522.)、生物信息學(xué)(計(jì)算機(jī)生物學(xué))(8–522.)等,科學(xué)家開始從新的視角看待藥物研發(fā)。2015年,Matthew等人在遺傳學(xué)研究領(lǐng)域頂級雜志《NatureGenetics》中指出遺傳致病基因研究有利于提高藥物研發(fā)效率,作者將臨床前(Preclinical)、1~3期臨床(PhaseI~I(xiàn)II)和批準(zhǔn)的(Approved)藥物信息,與基因的風(fēng)險(xiǎn)性疾病相關(guān)信息(復(fù)雜疾病相關(guān)變異數(shù)據(jù)庫GWASdb和孟德爾遺傳病相關(guān)的數(shù)據(jù)庫OMIM)相互比較,結(jié)果發(fā)現(xiàn)藥物靶標(biāo)與待治療疾病之間有遺傳證據(jù)支持的比例從2.0%上升到8.2%。上述研究結(jié)果表明,我們可以充分利用藥物靶標(biāo)基因與遺傳疾病的關(guān)聯(lián)信息,從而提高藥物研發(fā)的成功率(Matthew,N.(2015).Thesupportofhumangeneticevidenceforapproveddrugindications.NatGenet.47(8):856-60.)。

技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有藥物篩選技術(shù)的缺陷而提供一種基于機(jī)器學(xué)習(xí)的藥物活性預(yù)測方法,本發(fā)明的藥物預(yù)測方法可用于藥物篩選且具有成本低、效率高的優(yōu)點(diǎn),該方法在藥物的重定位和結(jié)構(gòu)優(yōu)化、設(shè)計(jì)領(lǐng)域具有廣闊的應(yīng)用前景。本發(fā)明采用的技術(shù)方案為:一種基于機(jī)器學(xué)習(xí)的藥物活性預(yù)測方法,包括以下步驟:(1)根據(jù)藥物靶標(biāo)數(shù)據(jù)庫中的信息,獲取樣本藥物對應(yīng)的藥物靶標(biāo);(2)根據(jù)遺傳病相關(guān)數(shù)據(jù)庫中的信息,獲取遺傳性疾病對應(yīng)的相關(guān)基因信息;(3)根據(jù)步驟(2)中獲取的遺傳性疾病對應(yīng)的相關(guān)基因信息從步驟(1)得到的藥物靶標(biāo)中篩選出與遺傳性疾病關(guān)聯(lián)的靶標(biāo)基因;(4)獲取每個(gè)樣本藥物的特征屬性,所述特征屬性為樣本藥物對應(yīng)的藥物靶標(biāo)與遺傳性疾病關(guān)聯(lián)的靶標(biāo)基因的相關(guān)關(guān)系;以每個(gè)樣本藥物的特征屬性為輸入向量,以樣本藥物的活性為輸出,建立模型;(5)根據(jù)步驟(1)、(2)和(3)獲取待測藥物的特征屬性,帶入步驟(4)中的模型,即可預(yù)測待測藥物的活性。在上述技術(shù)方案中,所述步驟(1)中,藥物靶標(biāo)含所有類型的靶標(biāo),不限基因,蛋白,核糖。這些藥物靶標(biāo)可以分為三類:1與遺傳性疾病強(qiáng)關(guān)聯(lián)靶標(biāo);2與遺傳性疾病相關(guān)靶標(biāo);3與遺傳性疾病無關(guān)靶標(biāo)。優(yōu)選地,所述與遺傳性疾病關(guān)聯(lián)的靶標(biāo)基因包括遺傳性疾病強(qiáng)相關(guān)基因和遺傳性疾病相關(guān)基因;所述特征屬性是指藥物對應(yīng)的藥物靶標(biāo)中遺傳性疾病強(qiáng)相關(guān)基因的個(gè)數(shù)、遺傳性疾病強(qiáng)相關(guān)基因占該藥物對應(yīng)的藥物靶標(biāo)總數(shù)的比例、遺傳性疾病相關(guān)基因的個(gè)數(shù)以及遺傳性疾病相關(guān)基因占該藥物對應(yīng)的藥物靶標(biāo)總數(shù)的比例。優(yōu)選地,所述步驟(1)中的藥物靶標(biāo)數(shù)據(jù)庫為DGIdb數(shù)據(jù)庫。優(yōu)選地,所述步驟(2)中的遺傳病相關(guān)數(shù)據(jù)庫包含SZGene、PDGene、GAD、DiseaseInt、GWASdb和OMIM。優(yōu)選地,所述步驟(4)中,通過支持向量機(jī)方法、樸素貝葉斯法或邏輯回歸法建立模型。更優(yōu)選地,通過支持向量機(jī)方法建立模型,所述支持向量機(jī)方法為C-分類機(jī)方法,所述模型為:其中C表示懲罰參數(shù),其值為1;(xi,yi)分別表示第i個(gè)樣品的特征和標(biāo)簽,K(xi,xj)表示核函數(shù),所述核函數(shù)為線性核函數(shù),即更優(yōu)選地,所述步驟(3)中,通過邏輯回歸法建立模型,所述模型為:其中p=P{Y=1|X1,X2,…,Xk},1-p=P{Y=0|X1,X2,…,Xk},表示p的邏輯變換。這里的模型指的是邏輯回歸法的建模原理。優(yōu)選地,所述樣本藥物包括作為正樣本的樣本藥物和作為負(fù)樣本的樣本藥物,所述正樣本與待測藥物的治療疾病相同,所述負(fù)樣本與待測藥物的治療疾病不同,所述樣本藥物均為活性藥物。更優(yōu)選地,所述正樣本和負(fù)樣本的數(shù)量相同。相對于現(xiàn)有技術(shù),本發(fā)明的有益效果為:本發(fā)明提出通過分析藥物靶標(biāo)與遺傳性疾病相關(guān)基因的聯(lián)系,采用機(jī)器學(xué)習(xí)方法對藥物活性進(jìn)行預(yù)測,能夠有效地提高藥物研發(fā)的效率;本發(fā)明的藥物預(yù)測方法可用于藥物篩選且具有成本低、效率高的優(yōu)點(diǎn),該方法在藥物的重定位和結(jié)構(gòu)優(yōu)化、設(shè)計(jì)領(lǐng)域具有廣闊的應(yīng)用前景。附圖說明圖1為本發(fā)明基于機(jī)器學(xué)習(xí)的藥物活性預(yù)測方法的一個(gè)實(shí)施例的流程圖;圖2為本發(fā)明基于機(jī)器學(xué)習(xí)的藥物活性預(yù)測方法的一個(gè)實(shí)施例的流程示意圖。具體實(shí)施方式為更好的說明本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn),下面將結(jié)合具體實(shí)施例對本發(fā)明作進(jìn)一步說明。為了更好地理解本發(fā)明,下面提供相關(guān)的解釋和說明:DGIdb表示藥物靶標(biāo)數(shù)據(jù)庫;PPI:蛋白質(zhì)相互作用網(wǎng)絡(luò);活性藥物:能夠治療疾病的藥物,即該藥物對該疾病有活性。疾病強(qiáng)關(guān)聯(lián)基因:用meta分析得到的遺傳性疾病強(qiáng)關(guān)聯(lián)基因,也稱為遺傳性疾病強(qiáng)相關(guān)基因;疾病關(guān)聯(lián)基因:遺傳性疾病關(guān)聯(lián)基因,也稱為遺傳性疾病相關(guān)基因;OMIM:疾病相關(guān)基因數(shù)據(jù)庫;DiseaseInt:疾病相關(guān)基因數(shù)據(jù)庫;GAD:遺傳相關(guān)數(shù)據(jù)庫;GWASdb:全基因關(guān)聯(lián)分析數(shù)據(jù)庫;SVM:SupportVectorMachine,支持向量機(jī)方法;NB:Bayes,樸素貝葉斯方法;LR:LogisticRegression,邏輯回歸模型。圖1為本發(fā)明基于機(jī)器學(xué)習(xí)的藥物活性預(yù)測方法的一個(gè)實(shí)施例的流程圖,本發(fā)明基于機(jī)器學(xué)習(xí)的藥物活性預(yù)測方法,包括以下步驟:S1、根據(jù)藥物靶標(biāo)數(shù)據(jù)庫中的信息,獲取樣本藥物對應(yīng)的藥物靶標(biāo);其中,藥物靶標(biāo)數(shù)據(jù)庫為DGIdb數(shù)據(jù)庫;所述樣本藥物包括作為正樣本的樣本藥物和作為負(fù)樣本的樣本藥物,所述正樣本為與待測藥物的治療疾病相同的活性藥物,所述負(fù)樣本為與待測藥物的治療疾病不同的活性藥物;所述正樣本藥物和負(fù)樣本藥物的數(shù)量相同;且優(yōu)選地,正樣本藥物選取為根據(jù)DGIdb數(shù)據(jù)庫獲取的所有能夠治療目標(biāo)疾病的活性藥物,這里的目標(biāo)疾病即待測藥物的治療疾??;在這些作為樣本數(shù)據(jù)的樣本藥物中,選擇部分(如樣本藥物的三分之二)作為訓(xùn)練樣本,用于建立預(yù)測模型;剩余部分(如樣本藥物的三分之一)作為預(yù)測樣本,用于對所建模型進(jìn)行評價(jià)和驗(yàn)證;S2、根據(jù)遺傳病相關(guān)數(shù)據(jù)庫中的信息,獲取遺傳性疾病對應(yīng)的相關(guān)基因信息;為了獲取更為準(zhǔn)確、全面的信息,所述遺傳學(xué)數(shù)據(jù)庫優(yōu)選為SZGene、PDGene、GAD、DiseaseInt、GWASdb和OMIM;遺傳性疾病關(guān)聯(lián)的基因是分別從這些遺傳學(xué)數(shù)據(jù)庫中獲取網(wǎng)站數(shù)據(jù),然后根據(jù)疾病和基因的關(guān)聯(lián)分析而得來的。S3、根據(jù)S2中獲取的遺傳性疾病對應(yīng)的相關(guān)基因信息從步驟S1得到的藥物靶標(biāo)中篩選出與遺傳性疾病關(guān)聯(lián)的靶標(biāo)基因;所述根據(jù)S2中獲取的遺傳性疾病對應(yīng)的相關(guān)基因包括遺傳性疾病強(qiáng)相關(guān)基因和遺傳性疾病相關(guān)基因;其中遺傳性疾病強(qiáng)相關(guān)基因是由SZGene和PDGene數(shù)據(jù)庫提供的。所述遺傳性疾病關(guān)聯(lián)的靶標(biāo)基因包括藥物靶標(biāo)中的遺傳性疾病強(qiáng)相關(guān)基因和遺傳性疾病相關(guān)基因。遺傳性疾病對應(yīng)的相關(guān)基因通過如下方式獲取:首先,從GWASdb(http://jjwanglab.org/gwasdb)和NHGRIGWASCatalog(http://www.genome.gov/GWAStudies/)中收集與疾病相關(guān)是所有GWAS位點(diǎn);通過HapMap(http://hapmap.ncbi.nlm.nih.gov/)數(shù)據(jù)庫中的連鎖不平衡信息找到與這些GWAS位點(diǎn)遺傳強(qiáng)相關(guān)的LD(linkagedisequilibrium)位點(diǎn)(r2≥0.5);匯總這些突變位點(diǎn),一方面通過物理上,如突變位點(diǎn)的上下游5kb覆蓋了某個(gè)基因的編碼區(qū),從而定位到遺傳性疾病對應(yīng)的相關(guān)基因,另一方面從表達(dá)調(diào)控上的關(guān)聯(lián),如expressionquantitativetraitloci(eQTL)和DNaseI–hypersensitivesite(DHS)peak中提供的表達(dá)調(diào)控基因?qū)χ姓业竭z傳性疾病對應(yīng)的相關(guān)基因。其中eQTL信息來自eQTLresourcesfromtheGilad/Pritchardgroup(http://eqtl.uchicago.edu/Home.html)和RegulomeDB(http://www.regulomedb.org/)數(shù)據(jù)庫。最后,利用GAD、DiseaseInt和OMIM等遺傳學(xué)數(shù)據(jù)庫中提供的信息,根據(jù)獲取的遺傳性疾病對應(yīng)的相關(guān)基因和遺傳性疾病強(qiáng)相關(guān)基因,即可獲取遺傳性疾病相關(guān)基因。S4、獲取每個(gè)樣本藥物的特征屬性,所述特征屬性為樣本藥物對應(yīng)的藥物靶標(biāo)與遺傳性疾病關(guān)聯(lián)的靶標(biāo)基因的相關(guān)關(guān)系;以每個(gè)樣本藥物的特征屬性為輸入向量,以樣本藥物的活性為輸出,建立模型。優(yōu)選地,其中藥物活性用0/1表示:0代表沒活性,1代表有活性;即0代表該藥不能治病,1代表該藥能夠治療該疾病。所述特征屬性是指藥物對應(yīng)的藥物靶標(biāo)中遺傳性疾病強(qiáng)相關(guān)基因的個(gè)數(shù)、遺傳性疾病強(qiáng)相關(guān)基因占該藥物對應(yīng)的藥物靶標(biāo)總數(shù)的比例、遺傳性疾病相關(guān)基因的個(gè)數(shù)以及遺傳性疾病相關(guān)基因占該藥物對應(yīng)的藥物靶標(biāo)總數(shù)的比例;所述模型可通過支持向量機(jī)方法、樸素貝葉斯法或邏輯回歸法建立;以支持向量機(jī)方法為例,采用C-分類機(jī)(C-SVM),即下述最優(yōu)化問題:其中C表示懲罰參數(shù),(xi,yi)分別表示第i個(gè)樣品的特征和標(biāo)簽,K(xi,xj)表示核函數(shù);決定支持向量機(jī)建模性能的相關(guān)參數(shù)主要包括:核函數(shù)、核函數(shù)的參數(shù)、懲罰系數(shù)C及不敏感損失函數(shù)中的ε;核函數(shù)選用線性核函數(shù),即向量xi與xj的內(nèi)積,因?yàn)樗哂休^高的學(xué)習(xí)效率和學(xué)習(xí)速率;其他參數(shù)通過“格點(diǎn)搜索”方法確定;參數(shù)搜索范圍如下:懲罰系數(shù)C:0-1024;ε:0-1024;搜索方法為“留一法”(或3,5,10折)交叉檢驗(yàn)的最小均方根誤差;“留一法”(或3,5,10折)交叉檢驗(yàn)是指從建模樣本中每次剔除總樣本的1個(gè)樣本做測試集,用其余的樣本做訓(xùn)練集建模,來預(yù)測測試集,這樣循環(huán)總樣本數(shù),即可得到一個(gè)交叉驗(yàn)證后的預(yù)測值評價(jià)模型性能的好壞;通過多次重復(fù)抽樣得到正負(fù)樣本為1:1的建模樣本,應(yīng)用支持向量機(jī)原理,建立相應(yīng)的預(yù)測模型,確定最終預(yù)測模型。S5、根據(jù)步驟S1、S2和S3獲取待測藥物的特征屬性,帶入步驟S4中的模型,即可預(yù)測待測藥物的活性。實(shí)施例1使用本發(fā)明的方法對治療精神分裂的藥物活性進(jìn)行預(yù)測一、收集人類成功上市或者在研藥物及其靶標(biāo)查找藥物靶標(biāo)數(shù)據(jù)庫(包含DGIdb:http://dgidb.genome.wustl.edu/),得到一批有藥物對應(yīng)的成藥靶標(biāo)。本實(shí)驗(yàn)以DGIdb為出發(fā)點(diǎn),找到有明確藥物作用活性(藥物對應(yīng)治療疾病)的靶標(biāo)共2,271個(gè),以及與上述靶標(biāo)對應(yīng)的3,678個(gè)藥物。二、查找精神分裂癥遺傳信息相關(guān)基因精神分裂癥遺傳信息相關(guān)基因由兩部分信息組合構(gòu)成。第一部分是通過SZGene(http://www.szgene.org/)數(shù)據(jù)庫查找到精神分裂相關(guān)基因共940個(gè),第二部分是通過GWASdb(http://jjwanglab.org/gwasdb)、GAD(http://geneticassociationdb.nih.gov/)、DiseaseInt(http://www.yulab.org/DiseaseInt/)和OMIM(http://www.omim.org),中與精神分裂相關(guān)的基因合并得到1894個(gè)。綜合這幾部分基因后,其中包含遺傳性疾病強(qiáng)相關(guān)基因(即圖2中的疾病強(qiáng)關(guān)聯(lián)基因)43個(gè);其余遺傳性疾病相關(guān)基因(即圖2中的疾病關(guān)聯(lián)基因)共2243個(gè)。在圖2中,由于遺傳性疾病相關(guān)基因的相關(guān)成因較復(fù)雜,有可能是突變后的蛋白產(chǎn)物,有時(shí)候是基因本身,但是數(shù)據(jù)庫中僅僅注釋的是關(guān)鍵基因,所以標(biāo)注的藥物靶標(biāo)中被注釋的也只有基因。三、藥物靶標(biāo)與疾病關(guān)聯(lián)的基因的特征屬性上述藥物活性預(yù)測方法中,特征屬性包括:藥物對應(yīng)靶標(biāo)中遺傳性疾病強(qiáng)相關(guān)基因的個(gè)數(shù),藥物靶標(biāo)中遺傳性疾病強(qiáng)相關(guān)基因的個(gè)數(shù)占該藥物對應(yīng)靶標(biāo)總數(shù)的比例,藥物靶標(biāo)中遺傳性疾病相關(guān)基因的個(gè)數(shù),藥物靶標(biāo)中遺傳性疾病相關(guān)基因的個(gè)數(shù)占該藥物對應(yīng)靶標(biāo)總數(shù)的比例。四、建立預(yù)測模型藥物靶標(biāo)的遺傳性特征屬性分別作為特征向量。在DGIdb中查找已證實(shí)具有治療精神分裂的活性的藥物(通過TTD(http://bidd.nus.edu.sg/group/ttd/ttd.asp);Drugbank(http://www.drugbank.ca/);ClinicalTrails(http://www.clinicaltrials.gov)對藥物的活性進(jìn)行注釋)有253個(gè),作為正樣本。在所有活性的藥物中,其余3,425個(gè)非治療精神分裂的活性的藥物為負(fù)樣本。支持向量機(jī)方法(SupportVectorMachine,SVM)建立的機(jī)器學(xué)習(xí)模型可以處理非線性的小樣本數(shù)據(jù)。它針對線性可分的情況進(jìn)行分析,對于線性不可分的情況,它使用核技巧(kerneltrick)將低維空間中線性不可分樣本轉(zhuǎn)化為高維特征空間中使其線性可分。由于它的分類間隔面僅依賴于部分的支持向量(supportvector),復(fù)雜程度根據(jù)向量決定,所以應(yīng)用SVM方法建立的模型具有較好的泛化和推廣能力,可以對藥物活性預(yù)測模型給出較好的學(xué)習(xí)結(jié)果。本文所采用的是支持向量機(jī)中的C-分類機(jī)(C-SVM),即下述最優(yōu)化問題:其中C表示懲罰參數(shù),(xi,yi)分別表示第i個(gè)樣品的特征和標(biāo)簽,K(xi,xj)表示核函數(shù)。在我們的問題中,選用了線性核函數(shù),即向量xi與xj的內(nèi)積。懲罰參數(shù)選用的是C=1。樸素貝葉斯(Bayes,NB)法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法。由于NB方法從數(shù)據(jù)的先驗(yàn)概率出發(fā),根據(jù)訓(xùn)練參數(shù)進(jìn)行預(yù)測,簡單高效。應(yīng)用NB方法建立的模型具有較好的推廣能力,可以對藥物活性預(yù)測模型給出較好的學(xué)習(xí)結(jié)果。邏輯回歸(LogisticRegression,LR)模型是通過分類標(biāo)簽的后驗(yàn)概率的邏輯變換與其特征之間的回歸建立的一種分類方法,其特點(diǎn)的是利用回歸方程的優(yōu)點(diǎn),能夠反映特征的重要性,而且有顯著的方程表達(dá)式。LR模型能較好應(yīng)用于藥物活性預(yù)測。LR模型即是如下的回歸模型其中p=P{Y=1|X1,X2,…,Xk},1-p=P{Y=0|X1,X2,…,Xk},表示p的邏輯(logit)變換。本質(zhì)上是p的邏輯變換與特征X之間線性方程。為了評價(jià)模型的預(yù)測能力,我們選用k折交叉驗(yàn)證(k-foldcrossvalidation)及留一法(Leaveoneout,LOO)進(jìn)行模型預(yù)測能力的評估。k折交叉驗(yàn)證是把樣本隨機(jī)分成k組近似相等容量的樣本,保留其中一組當(dāng)作測試樣本,其余k-1組樣本當(dāng)作訓(xùn)練樣本。交叉驗(yàn)證重復(fù)k次,每組樣本都驗(yàn)證一次,平均k次的驗(yàn)證結(jié)果作為評價(jià)指標(biāo)。而留一法是每次留下一個(gè)樣本做測試,其余樣本訓(xùn)練,重復(fù)進(jìn)行,每個(gè)樣本都測試一次,最后平均這些驗(yàn)證的結(jié)果作為評價(jià)指標(biāo)。為了能讓正負(fù)樣本均衡及評估模型的預(yù)測能力,我們采取了如下策略:先從負(fù)樣本中隨機(jī)抽取253個(gè)負(fù)樣本,與253個(gè)正樣本組成一個(gè)數(shù)據(jù)集,然后基于此數(shù)據(jù)分別采用SVM、NB及LR模型進(jìn)行3折、5折、10折及留一法交叉驗(yàn)證,得到評價(jià)模型的指標(biāo);再重復(fù)上述步驟1,000次,用這些指標(biāo)的平均值來評估模型的預(yù)測效果。五、評估預(yù)測效果我們利用三種模型建立預(yù)測模型,分別采取3折、5折、10折和留一法(LOO)的交叉驗(yàn)證,重復(fù)1,000次的結(jié)果進(jìn)行評估(結(jié)果詳見表1)。表1三種分類器分別在3折、5折、10折和留一法交叉驗(yàn)證重復(fù)1,000次的平均值其中AUC表示ROC(ReceiveOperatingCharacteristic)曲線下面積(Areaundercurveofroc);ACC表示準(zhǔn)確率(Accuracy),表示被預(yù)測的樣品中,預(yù)測正確的比例;Precision為模型的精度,也稱命中率,表示被預(yù)測為陽性的樣品中,真正陽性的比例;Recall稱為召回率,也稱靈敏度(Sensitivity),表示在真實(shí)的陽性樣本中能正確預(yù)測為陽性的比例;Specificity為特異性,表示正確識別負(fù)樣本的比例。從結(jié)果(表1)中可看出,三種常見的機(jī)器學(xué)習(xí)分類模型(SVM,NB,LR)的整體預(yù)測準(zhǔn)確率ACC超過76%,能正確識別負(fù)樣本的比例特異性超過88%,其中樸素貝葉斯方法的特異性超過90%,而能正確識別正樣本的比例僅有61%,這可能是由于靶標(biāo)基因與疾病的關(guān)聯(lián)信息還不完全;另外從整體上看這三種模型具有良好的預(yù)測效果,其中AUC超過0.8;三種模型的精度(Precision)表明在預(yù)測為有活性的藥物中有超過80%以上的藥物具有活性。從上述分析可知,通過利用常用的機(jī)器學(xué)習(xí)模型進(jìn)行進(jìn)一步驗(yàn)證我們選擇的特征能夠很好地反映藥物是否具有活性,說明本發(fā)明提出的篩選藥物方法的可行性。最后所應(yīng)當(dāng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對本發(fā)明保護(hù)范圍的限制,盡管參照較佳實(shí)施例對本發(fā)明作了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實(shí)質(zhì)和范圍。實(shí)施例2使用本發(fā)明的方法對治療帕金斯綜合癥的藥物活性進(jìn)行預(yù)測一、收集人類成功上市或者在研藥物及其靶標(biāo)查找藥物靶標(biāo)數(shù)據(jù)庫(包含DGIdb:http://dgidb.genome.wustl.edu/),得到一批有藥物對應(yīng)的成藥靶標(biāo)。本實(shí)驗(yàn)以DGIdb為出發(fā)點(diǎn),找到有明確藥物作用活性(藥物對應(yīng)治療疾病)的靶標(biāo)共2,348個(gè),以及與上述靶標(biāo)對應(yīng)的3,678個(gè)藥物。二、查找帕金斯綜合癥遺傳信息相關(guān)基因帕金斯綜合癥遺傳信息相關(guān)基因由兩部分信息組合構(gòu)成。第一部分是通過PDGene(http://www.pdgene.org/)數(shù)據(jù)庫查找到帕金斯綜合癥相關(guān)基因共87個(gè),第二部分是通過GWASdb(http://jjwanglab.org/gwasdb)、GAD(http://geneticassociationdb.nih.gov/)、DiseaseInt(http://www.yulab.org/DiseaseInt/)和OMIM(http://www.omim.org),中與帕金斯綜合癥相關(guān)的基因合并得到1084個(gè)。綜合這幾部分基因后,其中包含遺傳性疾病強(qiáng)相關(guān)基因(即圖2中的疾病強(qiáng)關(guān)聯(lián)基因)31個(gè);其余遺傳性疾病相關(guān)基因(即圖2中的疾病關(guān)聯(lián)基因)共1339個(gè)。三、藥物靶標(biāo)與疾病關(guān)聯(lián)的基因的特征屬性上述藥物活性預(yù)測方法中,特征屬性包括:藥物對應(yīng)靶標(biāo)中遺傳性疾病強(qiáng)相關(guān)基因的個(gè)數(shù),藥物靶標(biāo)中遺傳性疾病強(qiáng)相關(guān)基因的個(gè)數(shù)占該藥物對應(yīng)靶標(biāo)總數(shù)的比例,藥物靶標(biāo)中遺傳性疾病相關(guān)基因的個(gè)數(shù),藥物靶標(biāo)中遺傳性疾病相關(guān)基因的個(gè)數(shù)占該藥物對應(yīng)靶標(biāo)總數(shù)的比例。四、建立預(yù)測模型藥物靶標(biāo)的遺傳性特征屬性分別作為特征向量。在DGIdb中查找已證實(shí)具有治療帕金斯綜合癥的活性的藥物(通過TTD(http://bidd.nus.edu.sg/group/ttd/ttd.asp);Drugbank(http://www.drugbank.ca/);ClinicalTrails(http://www.clinicaltrials.gov)對藥物的活性進(jìn)行注釋)有143個(gè),作為正樣本。在所有活性的藥物中,其余3,535個(gè)非治療帕金斯綜合癥的活性的藥物為負(fù)樣本。支持向量機(jī)方法(SupportVectorMachine,SVM)建立的機(jī)器學(xué)習(xí)模型可以處理非線性的小樣本數(shù)據(jù)。它針對線性可分的情況進(jìn)行分析,對于線性不可分的情況,它使用核技巧(kerneltrick)將低維空間中線性不可分樣本轉(zhuǎn)化為高維特征空間中使其線性可分。由于它的分類間隔面僅依賴于部分的支持向量(supportvector),復(fù)雜程度根據(jù)向量決定,所以應(yīng)用SVM方法建立的模型具有較好的泛化和推廣能力,可以對藥物活性預(yù)測模型給出較好的學(xué)習(xí)結(jié)果。本文所采用的是支持向量機(jī)中的C-分類機(jī)(C-SVM),即下述最優(yōu)化問題:其中C表示懲罰參數(shù),(xi,yi)分別表示第i個(gè)樣品的特征和標(biāo)簽,K(xi,xj)表示核函數(shù)。在我們的問題中,選用了線性核函數(shù),即向量xi與xj的內(nèi)積。懲罰參數(shù)選用的是C=1。樸素貝葉斯(Bayes,NB)法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法。由于NB方法從數(shù)據(jù)的先驗(yàn)概率出發(fā),根據(jù)訓(xùn)練參數(shù)進(jìn)行預(yù)測,簡單高效。應(yīng)用NB方法建立的模型具有較好的推廣能力,可以對藥物活性預(yù)測模型給出較好的學(xué)習(xí)結(jié)果。邏輯回歸(LogisticRegression,LR)模型是通過分類標(biāo)簽的后驗(yàn)概率的邏輯變換與其特征之間的回歸建立的一種分類方法,其特點(diǎn)的是利用回歸方程的優(yōu)點(diǎn),能夠反映特征的重要性,而且有顯著的方程表達(dá)式。LR模型能較好應(yīng)用于藥物活性預(yù)測。LR模型即是如下的回歸模型其中p=P{Y=1|X1,X2,…,Xk},1-p=P{Y=0|X1,X2,…,Xk},表示p的邏輯(logit)變換。本質(zhì)上是p的邏輯變換與特征X之間線性方程。為了評價(jià)模型的預(yù)測能力,我們選用k折交叉驗(yàn)證(k-foldcrossvalidation)及留一法(Leaveoneout,LOO)進(jìn)行模型預(yù)測能力的評估。k折交叉驗(yàn)證是把樣本隨機(jī)分成k組近似相等容量的樣本,保留其中一組當(dāng)作測試樣本,其余k-1組樣本當(dāng)作訓(xùn)練樣本。交叉驗(yàn)證重復(fù)k次,每組樣本都驗(yàn)證一次,平均k次的驗(yàn)證結(jié)果作為評價(jià)指標(biāo)。而留一法是每次留下一個(gè)樣本做測試,其余樣本訓(xùn)練,重復(fù)進(jìn)行,每個(gè)樣本都測試一次,最后平均這些驗(yàn)證的結(jié)果作為評價(jià)指標(biāo)。為了能讓正負(fù)樣本均衡及評估模型的預(yù)測能力,我們采取了如下策略:先從負(fù)樣本中隨機(jī)抽取143個(gè)負(fù)樣本,與143個(gè)正樣本組成一個(gè)數(shù)據(jù)集,然后基于此數(shù)據(jù)分別采用SVM、NB及LR模型進(jìn)行3折、5折、10折及留一法交叉驗(yàn)證,得到評價(jià)模型的指標(biāo);再重復(fù)上述步驟1,000次,用這些指標(biāo)的平均值來評估模型的預(yù)測效果。五、評估預(yù)測效果我們利用三種模型建立預(yù)測模型,分別采取3折、5折、10折和留一法(LOO)的交叉驗(yàn)證,重復(fù)1,000次的結(jié)果進(jìn)行評估(結(jié)果詳見表2)。表2三種分類器分別在3折、5折、10折和留一法交叉驗(yàn)證重復(fù)1,000次的平均值其中AUC表示ROC(ReceiveOperatingCharacteristic)曲線下面積(Areaundercurveofroc);ACC表示準(zhǔn)確率(Accuracy),表示被預(yù)測的樣品中,預(yù)測正確的比例;Precision為模型的精度,也稱命中率,表示被預(yù)測為陽性的樣品中,真正陽性的比例;Recall稱為召回率,也稱靈敏度(Sensitivity),表示在真實(shí)的陽性樣本中能正確預(yù)測為陽性的比例;Specificity為特異性,表示正確識別負(fù)樣本的比例。從結(jié)果(表2)中可看出,三種常見的機(jī)器學(xué)習(xí)分類模型(SVM,NB,LR)的整體預(yù)測準(zhǔn)確率ACC分別超過68.6%、58.2%和68.1%;能正確識別負(fù)樣本的比例特異性超過72%,其中樸素貝葉斯方法的特異性超過97%。如表2所示,三種預(yù)測模型的精度(Precision)均超過70%,表明在本發(fā)明中預(yù)測為有活性的藥物中有超過70%以上的藥物具有活性,這個(gè)結(jié)果進(jìn)一步說明本發(fā)明提出的藥物活性預(yù)測方法具有良好的預(yù)測效果。從上述分析可知,通過利用常用的機(jī)器學(xué)習(xí)模型進(jìn)行進(jìn)一步驗(yàn)證我們選擇的特征能夠很好地反映藥物是否具有活性,說明本發(fā)明提出的篩選藥物方法的可行性。最后所應(yīng)當(dāng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對本發(fā)明保護(hù)范圍的限制,盡管參照較佳實(shí)施例對本發(fā)明作了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實(shí)質(zhì)和范圍。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1