本發(fā)明涉及醫(yī)藥處方優(yōu)化領域,具體為一種基于機器學習和多目標遺傳算法的緩釋制劑處方優(yōu)化方法。
背景技術:
1、隨著現(xiàn)代藥物制劑技術的迅速發(fā)展,緩釋制劑作為第三代藥物制劑越來越受到醫(yī)學專業(yè)人員以及科研工作者廣泛的關注。緩釋制劑系指在規(guī)定的釋放介質(zhì)中,按要求緩慢地非恒速釋放藥物的制劑(徐雯.中藥緩釋、控釋制劑的研究進展[j].全科口腔醫(yī)學電子雜志,2019,6(25):11+20)。由于其理論與技術發(fā)展的日臻成熟,有越來越多的緩釋藥物作為常用藥出現(xiàn)在生活中,如:氨茶堿緩釋片、布洛芬緩釋膠囊等。其優(yōu)點在于給藥頻次減少,使用方便;藥物釋放速率平穩(wěn),可以延長藥物在體內(nèi)的作用時間,降低血藥濃度峰值,有效控制血藥濃度波動;定時、定位釋放,可使藥物療效達到最大化,減少不良反應的發(fā)生。與緩釋制劑相比,普通制劑在藥物治療中存在給藥頻次高(是緩釋制劑的1.5~3倍)、半衰期短、血藥濃度峰谷比值大及安全系數(shù)低等缺點,易形成不良反應或毒副作用(費城,姚親.臨床應用中緩控釋制劑的特點及存在的問題[j].臨床合理用藥雜志,2020,13(31):177-179)。然而,緩釋制劑制備工藝較復雜,為了獲得可靠療效,研制必須嚴格控制設計,模型建立及條件優(yōu)化三個環(huán)節(jié)。緩釋制劑各時點累積釋放度達到釋放標準的程度會因研制時輔料配比的不同而產(chǎn)生差異,因此如何選擇最佳的處方配比,確定最佳工藝,是藥物學界一直關注的熱點話題。
2、在建立模型時,我們一般研究的是一個標量的響應變量與眾多相關的協(xié)變量的回歸關系,但是隨著試驗因素的增加,進入模型的變量較多,協(xié)變量就會出現(xiàn)高維的情況。然而協(xié)變量的個數(shù)并不是越多越好,過多的變量可能會導致模型穩(wěn)定性下降,或者解釋性和應用性差等問題出現(xiàn),這時候就需要對協(xié)變量進行篩選,以提高模型的預測性和可解釋性。因此如何正確有效的進行變量篩選一直是統(tǒng)計建模過程中的熱點問題。變量篩選主要是通過一定的挑選標準,從眾多的協(xié)變量中選取部分變量,從而達到降低協(xié)變量維度的目的。子集選擇法作為變量篩選的傳統(tǒng)方法,就是依據(jù)各種不同的規(guī)則掃描變量,然后建立包含不同變量的回歸模型。為了比較回歸模型到底包含哪些變量時的擬合效果最好,這里事先規(guī)定不同模型間優(yōu)劣的比較準則,例如mallows(mallows?c?l.some?comments?on?cp[j].technometrics,1973,15(4):661-675)提出的cp統(tǒng)計量準則、akaike[7]提出的aic準則以及schwarz(schwarz?g.estimating?the?dimension?of?a?mod[j].annals?ofstatistics,1978,6:461-464)提出的bic準則等。為了克服子集選擇法通過某一種步驟過程來找到最優(yōu)子集的缺點,許多收縮算法被提出,以便可以自動且一次性地選擇重要變量,例如嶺回歸、lasso等,這些算法通過將估計系數(shù)向0的方向壓縮進而實現(xiàn)變量篩選。但是如果進入模型的變量太多,運用子集選擇法不僅會增大計算量和算法復雜度,數(shù)據(jù)集的細微變化會使變量篩選的結果發(fā)生較大的改變。
3、在緩釋制劑開發(fā)研制中,為了保證藥物緩慢釋放,防止突釋,中國藥典規(guī)定測量三個及以上時點的累積釋放度評價緩釋制劑的質(zhì)量優(yōu)劣。目前國內(nèi)外針對緩釋制劑優(yōu)化建模多采用二次型回歸模型、多重線性回歸模型等,但是這些傳統(tǒng)的建模方法要求數(shù)據(jù)具有“獨立性”。累積釋放度是藥物在不同時點釋放的累積量,因此不同時點的累積釋放度不是獨立的,前一個時點的釋放度會影響后一個時點的釋放度,屬于重復測量數(shù)據(jù)。對于數(shù)值變量的重復測量資料,我們常采用重復測量數(shù)據(jù)的方差分析,然而重復測量數(shù)據(jù)方差分析要求數(shù)據(jù)符合正態(tài)分布,不能有缺失值,一旦有缺失值,則該個案只能做刪除處理,對樣本量來說是一大損失。另外1986年liang和zeger提出的廣義估計方程(gee)(liang?ky,zegersl.longitudinal?data?analysis?using?generalized?inear?models[j].biometrics,1986,73(1):13-22)也是常用于處理縱向數(shù)據(jù)的統(tǒng)計模型。該方法通過引入討厭參數(shù)來刻畫響應變量各分量之間的條件相關結構(通常稱該條件相關結構為工作相關矩陣),然后構造包含討厭參數(shù)的估計方程,并通過求解聯(lián)立方程組得到模型回歸參數(shù)的估計量。當工作相關矩陣指定正確時,gee通常是邊際模型最有效的參數(shù)估計方法.然而當工作相關矩陣指定錯誤時,gee估計的效率可能會比較低。并且gee存在不能進行模型選擇,估計效率不高穩(wěn)健性不夠、難以用于模型檢驗、缺乏概率解釋性等缺點。
4、緩釋制劑建立模型之后需進行處方篩選,處方優(yōu)化時,要求各時點的累積釋放度在處方允許的范圍內(nèi)越接近目標釋放度越好。因此,該評價指標是一個基于多時點的多目標優(yōu)化的問題,傳統(tǒng)優(yōu)化方法往往將多個目標合成一個目標,例如響應面法(姜麗嬌,陶貴斌,宋媛等.星點設計——效應面法優(yōu)化復方制劑sy片的制劑工藝[j].現(xiàn)代中藥研究與實踐,2015,29(03):50-52+55.doi:10.13728/j.1673-6427.2015.03.017以及patel?a,shelat?p,lalwani?a.development?and?optimization?of?solid?self-nanoemulsifyingdrug?delivery?system(s-snedds)using?scheffe's?design?for?improvement?of?oralbioavailability?of?nelfinavir?mesylate[j].drug?delivery?and?translationalresearch,2014,4(2):171-186)、綜合評分法(鄧剛,梁可文,黃健軍等.多指標綜合評分法結合box-behnken響應面法優(yōu)選梔子茯苓壓片糖果的提取工藝[j/ol].化工科技:1-15[2024-03-22])、目標規(guī)劃法(陳誠,孫環(huán)欣,李曉娟.基于目標規(guī)劃法的分組教學模式設計與實踐[j].物流科技,2021,44(12):163-167.doi:10.13714/j.cnki.1002-3100.2021.12.025)等。等高線圖法和綜合評分法都存在極大的主觀性和局部最優(yōu)問題,目標規(guī)劃法雖然可以克服主觀性的缺點,但仍容易陷入局部最優(yōu),且這些傳統(tǒng)方法只能提供唯一的最優(yōu)解。
技術實現(xiàn)思路
1、本發(fā)明為了解決緩釋制劑的開發(fā)研制中,多種方法在處方優(yōu)化時所存在的計算量和算法復雜度大,不能進行模型選擇,效率不高穩(wěn)健性不夠,難以用于模型檢驗、缺乏概率解釋性且還存在主觀性以及易陷入局部最優(yōu)的問題,提供了一種基于機器學習和多目標遺傳算法的緩釋制劑處方優(yōu)化方法。
2、作為變量篩選的傳統(tǒng)方法,子集選擇法就是依據(jù)各種不同的規(guī)則掃描變量,然后建立包含不同變量的回歸模型。一般采用cp統(tǒng)計量準則、aic準則、bic準則等來比較不同模型間的優(yōu)劣,最后把準則最小所對應的模型作為最優(yōu)的模型。最優(yōu)子集選擇和逐步選擇是兩種常用的子集選擇方法,但最優(yōu)子集法存在當變量數(shù)呈指數(shù)增長,出現(xiàn)高維或超高維的情況時,會大大增大計算量和算法復雜度的缺陷。而逐步選擇法的缺點就是所選擇的模型的預測方差大,精度低。對于變量篩選,目前采用較多的是可同時進行參數(shù)估計及變量選擇的系數(shù)壓縮法。其中l(wèi)asso法被廣泛應用,它的原理是根據(jù)模型中系數(shù)的絕對值函數(shù)來壓縮模型中的系數(shù),這樣可以使一些與評價指標y的效應非常弱的變量的系數(shù)被壓縮到一個很小的值,直到變?yōu)?,此時即可刪除對應變量。總的來說,lasso法能夠篩選影響較大的變量,并得到相應的最優(yōu)模型,從而降低實驗時間和成本,提高實驗效率。相比傳統(tǒng)的逐步回歸法、向前法等子集選擇法的過程是離散、無序及高方差。lasso則是連續(xù)、有序的一個過程,且方差較小,能快速計算,減少整個模型的預測誤差。但由于lasso在估計系數(shù)時,對于所有自變量的系數(shù)都無差別的使用了一樣的懲罰程度,變量間沒有主次之分,很有可能會使某些重要的變量被刪除出去。而自適應lasso是根據(jù)傳統(tǒng)lasso的估計值的大小適應性的調(diào)整其權重系數(shù)。當lasso估計的系數(shù)很小時,自適應lasso會給它一個較大的權重,使其快速壓縮到0,因此它克服了傳統(tǒng)lasso對于系數(shù)較大的變量給出的壓縮程度很大的缺點,較lasso而言能夠篩選出更少且合理的變量。因此,本發(fā)明將采用自適應lasso對緩釋制劑試驗數(shù)據(jù)進行協(xié)變量篩選。
3、緩釋制劑的數(shù)據(jù)類型屬于重復測量數(shù)據(jù),其特點是同一個體在不同時間點間的觀測值具有相關性,且不同個體間又存在差異性,這就使得每個個體的觀測向量的分量之間存在某種相關性,比如自相關、可交換相關、獨立相關等結構,這樣重復測量數(shù)據(jù)就形成了特殊的協(xié)方差結構矩陣,就導致了其建模時的困難性。對于緩釋制劑累積釋放度的建模方法,目前國內(nèi)外多采用二次型回歸模型、多重線性回歸模型等,由于緩釋制劑的累積釋放度具有相關性而傳統(tǒng)的建模方法不能揭示其特點,得出的結論會失效。廣義估計方程(gee)是用于分析具有非獨立特點的數(shù)據(jù)時采用的統(tǒng)計分析方法,在用gee建立模型時,需要用三種工作相關矩陣(可交換相關、自相關、無結構相關)分別建模,采用均方誤差(mse)和平均絕對誤差(mad)兩個指標對三種矩陣結果進行評價,進而選出適當?shù)墓ぷ飨嚓P矩陣。雖然廣義估計方程在建模時考慮了數(shù)據(jù)相關性的問題,但是其沒有真實的似然函數(shù),很難用基于似然的信息準則aic、bic來進行模型的選擇。2000年qu等人對廣義估計方程進行改進,提出二次推斷函數(shù)(qif),它彌補了gee的不足,能做擬合優(yōu)度檢驗,并且能用aic、bic指標評價模型效果,選擇最優(yōu)模型。qif將工作相關矩陣的逆矩陣進行基矩陣展開,避免了對討厭參數(shù)的估計,當工作相關矩陣指定錯誤時,qif估計的參數(shù)也是最優(yōu)的,而廣義估計方程則不是最優(yōu),且qif估計參數(shù)更加有效穩(wěn)健。因此本發(fā)明將在協(xié)變量篩選的基礎上采用qif建立重復測量數(shù)據(jù)模型。
4、對于基于多時點的多目標優(yōu)化問題,傳統(tǒng)優(yōu)化方法例如等高線圖法、綜合評分法、目標規(guī)劃法等往往將多個目標合成一個目標,這些方法都存在極大的主觀性且易導致局部最優(yōu),只能給出單目標的唯一解,違背了多目標解的原則。近些年發(fā)展起來的遺傳算法(genetic?algorithm)則可以很好地解決上述問題,這是一種隨機化的搜索方法,隨機的過程借鑒了生物界的進化規(guī)律。因為緩釋制劑各時點的累積釋放度是相互制約,相互排斥的,優(yōu)化時需對各目標進行協(xié)調(diào)和折中處理,尋找所有目標都相對較優(yōu)的解方案集,即pareto非劣解集,該集合可為決策者提供一組可人為選擇的、合理、可行的方案。改進非劣分類遺傳算法(nsga-ⅱ)是由deb等人于2000年提出一種改進的多目標遺傳算法,在多目標優(yōu)化方面表現(xiàn)出很強的優(yōu)勢。nsga-ⅱ算法的基本思想為:首先,隨機產(chǎn)生規(guī)模為n的初始種群,非支配排序后通過遺傳算法的選擇、交叉、變異三個基本操作得到第一代子代種群;其次,從第二代開始,將父代種群與子代種群合并,進行快速非支配排序,同時對每個非支配層中的個體進行擁擠度計算,根據(jù)非支配關系以及個體的擁擠度選取合適的個體組成新的父代種群;最后,通過遺傳算法的基本操作產(chǎn)生新的子代種群:依此類推,直到滿足程序結束的條件。其特點是引入快速非支配排序算法、精英策略、采用擁擠度和擁擠度比較算子,降低了計算的復雜度,使得pareto最優(yōu)解中相對前沿的個體可以均勻穩(wěn)定地擴展到整個解集,即pareto域,從而保證了種群的多樣性。因此本發(fā)明使用改進非劣分類遺傳算法進行緩釋制劑處方尋優(yōu)。
5、目前國內(nèi)外對緩釋制劑及重復測量數(shù)據(jù)均有很多理論研究,但是將遺傳算法用于緩釋制劑處方優(yōu)化少有研究,并且將機器學習算法和重復測量數(shù)據(jù)模型建立方法應用于緩釋制劑處方優(yōu)化尚未見報道。綜上,本發(fā)明將采用自適應lasso進行協(xié)變量篩選,采用qif建立模型解決試驗數(shù)據(jù)包含重復測量特征的問題,最后利用課題組編碼的nsga-ⅱ工具包實現(xiàn)優(yōu)化,創(chuàng)建緩釋制劑處方優(yōu)化系統(tǒng),為緩釋制劑處方優(yōu)化研究提供分析策略。
6、本發(fā)明是通過如下技術方案來實現(xiàn)的:一種基于機器學習和多目標遺傳算法的緩釋制劑處方優(yōu)化方法,包括如下步驟:
7、s1:采用自適應lasso對緩釋制劑數(shù)據(jù)進行協(xié)變量篩選,具體如下:
8、在自適應lasso的估計系數(shù)時,將懲罰權重加入到lasso的懲罰項中,即:
9、
10、對于n組觀察結果,每一組觀察結果由一個響應變量yi和p個相關自變量xi組成;另外,xij為解釋變量,為凸損失函數(shù),為懲罰函數(shù);其中,λn為非負調(diào)整參數(shù),自適應權重選取j=1,2,…,p,正值γ是自適應權重的一個次冪,并與階數(shù)相關。自適應lasso可以保持估計結果的一致性,并且易于計算。模型估計的預測值往往精度較高。
11、s2:基于不同時點累積釋放度和藥物處方建立模型;具體如下:
12、s2-1:模型構建:工作相關矩陣的逆矩陣采用多個基矩陣的線性組合來近似表達:
13、
14、ai,…,am為常數(shù)項,m1則為單位矩陣,m2,…,mm則由假定的工作相關矩陣結構決定;包括兩種情況:①假定r(α)是一個可交換矩陣,那么公式(2)表示為r-1=a1m1+a2m2,其中m1是單位矩陣,m2是一個對角元素為0,其他位置為1的矩陣;②假定r(α)是一階自回歸相關矩陣時,r-1表示為r-1=a1m1+a2m2+a3m3,其中,m1仍是單位矩陣,m2則是對角元素為0,其他位置元素為1的矩陣,在矩陣m3中,除位置(1,1),(n,n)上元素為1,其余均為0;
15、將公式(2)代入準似然估計方程:得到以下的估計方程:
16、
17、在此方程中,未直接對參數(shù)a1,a2,…,am進行估計,而是在gee的基礎上,引入了擴展得分函數(shù):
18、
19、由于在擴展得分函數(shù)中,待估計參數(shù)的數(shù)量q少于估計方程數(shù)量r,如果將每個方程都等于0,那對于回歸系數(shù)來說,就無法得到一致性估計;因此利用廣義矩估計的思想:即當r>q時,通過將中r個估計方程的指定線性組合設置為盡可能接近0,從而得到回歸系數(shù)β的估計量,對公式(4)中的方程進行組合優(yōu)化,并定義了二次推斷函數(shù):
20、
21、公式(5)為二次推斷函數(shù),當它取最小值時,就可以達到最優(yōu)的參數(shù)估計;
22、s2-2:構建評價指標:使用赤池信息量準則aic、貝葉斯信息準則bic,對模型的好壞進行判別:
23、s2-2-1:在樣本量較小時,aic是一種用于評估模型擬合效果和優(yōu)劣的指標,其公式如下:
24、aic=-2logl(θ|z)+2m?(6)
25、其中,m代表參數(shù)的個數(shù);是對數(shù)似然函數(shù),是所有觀測值對數(shù)似然函數(shù)之和;aic指標數(shù)值越低,表示所建立模型優(yōu)良,擬合效果更佳。因此在可供選擇的多個模型中,選擇aic值最小的模型;當樣本量太大時,由于其似然函數(shù)值過大,模型參數(shù)m的真實影響被掩蓋,aic準則一般來說是會失效的。
26、s2-2-2:當樣本量太大時,schwarz提出了bic,以克服aic準則的不足,bic應用于統(tǒng)計模型的選取中,具體公式如下:
27、bic=-2log(θ|z)+mlnn?(7)
28、m代表參數(shù)個數(shù),n代表樣本量,且使用mlnn代替了aic中的2m;由于bic考慮到了數(shù)據(jù)的樣本量,因此更具優(yōu)越性。同樣,當bic越低時,模型的擬合度越高。二次推斷函數(shù)能夠得出似然比檢驗結果,如q統(tǒng)計量、aic、bic等。在擬合優(yōu)度檢驗中,h0假設為模型成立,p>0.05則說明模型擬合良好;本發(fā)明同時采用aic和bic兩項指標來初步評價qif的建模效果。
29、s3:將步驟s2所建立的模型與nsga-ⅱ結合以實現(xiàn)多目標優(yōu)化過程。
30、遺傳算法(ga)是一類模擬生物自然選擇與自然進化的隨機搜索算法,因其適用于求解高度復雜的非線性問題而得到了非常廣泛的應用,同時它又具有較好的通用性。在解決只有單個目標的復雜系統(tǒng)優(yōu)化問題時,遺傳算法的優(yōu)勢得到了充分展現(xiàn)。然而,現(xiàn)實世界中的優(yōu)化問題通常是多屬性的,被同時優(yōu)化的多個目標之間是相互作用且相互沖突的,如一種藥物在體內(nèi)各時點的累積釋放度,為了達到總目標的最優(yōu)化,通常需要對相互沖突的子目標進行綜合考慮,即對各子目標進行折衷。由此,針對多個目標的優(yōu)化問題,出現(xiàn)了多目標遺傳算法。步驟s3具體如下:
31、nsga-ⅱ的算法流程為:首先隨機產(chǎn)生規(guī)模為n的父代種群pn,非支配排序后通過選擇、交叉、變異得到子代種群qn;之后將兩個種群聯(lián)合并得到規(guī)模為2n的種群rn,并對其進行非劣分類操作;最后計算每一非劣等級中所有個體的擁擠度;按照擁擠度選擇算子的原則產(chǎn)生下一代種群pn+1,進化代數(shù)為n+1,判斷該種群進化代數(shù)是否大于最大進化代數(shù);如果是,那么該算法結束,否則繼續(xù)進化;如此循環(huán),直到進化到指定的最大進化代數(shù),滿足程序結束的條件。
32、步驟s3中,為解決nsga計算復雜度高且耗時,無精英策略,共享半徑需人為指定,容易受主觀影響等缺陷,nsga-ⅱ應運而生。主要做了以下3個方面的改進:采用了一種快速的非支配排序方法,使算法的計算復雜度有所降低。從o(mn3)降至o(mn2),m代表目標函數(shù)的個數(shù),n代表種群的大?。挥脫頂D度以及擁擠度比較算子替換人為調(diào)整選定的共享半徑的共享策略,然后在快速排序后的同級比較中作為獲勝標準,使個體在pareto域中可以擴展,并且均勻分布,種群的多樣性得以保持;采用精英策略,其具體思路是將父代種群和它的子代種群放在一起競爭,通過競爭選擇較好的下一代種群,這樣就會將優(yōu)秀的父代被保留到下一代中,以此擴大種群的多樣性和采樣的空間。所以nsga-ⅱ在多目標優(yōu)化的問題上,是一種效率比較高的優(yōu)化方法。
33、與現(xiàn)有技術相比本發(fā)明具有以下有益效果:本發(fā)明所提供的一種基于機器學習和多目標遺傳算法的緩釋制劑處方優(yōu)化方法,首次將協(xié)變量選擇方法與重復測量數(shù)據(jù)模型建立方法及多目標遺傳算法結合,創(chuàng)建基于機器學習和多目標遺傳算法的緩釋制劑處方優(yōu)化系統(tǒng),該系統(tǒng)為緩釋制劑配方優(yōu)化提供一套合理可行的方案,可以大大減少用預實驗來探索最佳制備條件的次數(shù),節(jié)約人力、物力和財力,對于解決醫(yī)藥學領域中多目標尋優(yōu)問題具有實際的指導意義及應用價值,且可推廣至其他領域多目標優(yōu)化問題的應用中。