亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基因編碼序列的優(yōu)化方法及裝置與流程

文檔序號(hào):11729634閱讀:376來(lái)源:國(guó)知局
一種基因編碼序列的優(yōu)化方法及裝置與流程

本發(fā)明涉及利用計(jì)算機(jī)優(yōu)化基因編碼序列技術(shù)領(lǐng)域,具體涉及一種基因編碼序列的優(yōu)化方法及裝置。



背景技術(shù):

基因編碼序列(codingsequence,簡(jiǎn)稱為cds)是編碼一段蛋白產(chǎn)物的序列,是結(jié)構(gòu)基因組學(xué)術(shù)語(yǔ),dna轉(zhuǎn)錄成mrna,mrna經(jīng)剪接等加工后翻譯出蛋白質(zhì),所謂cds就是與蛋白質(zhì)序列一一對(duì)應(yīng)的dna序列,且該序列中間不含其它非該蛋白質(zhì)對(duì)應(yīng)的序列,不考慮mrna加工等過(guò)程中的序列變化,總之,就是與蛋白質(zhì)的密碼子完全對(duì)應(yīng)。

為了能夠得到更優(yōu)的基因表達(dá),往往需要對(duì)基因編碼序列進(jìn)行優(yōu)化。然而,現(xiàn)有技術(shù)中的優(yōu)化方式,往往是不定向的,也即是無(wú)法根據(jù)用戶的需求進(jìn)行定向優(yōu)化,需要反復(fù)優(yōu)化才能滿足用戶需求,導(dǎo)致優(yōu)化效率低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明要解決的技術(shù)問(wèn)題在于現(xiàn)有技術(shù)中無(wú)法根據(jù)用戶的需求進(jìn)行定向優(yōu)化,需要反復(fù)優(yōu)化才能滿足用戶需求,優(yōu)化效率低,從而提供一種基因編碼序列的優(yōu)化方法及裝置。

本發(fā)明實(shí)施例的一方面,提供了一種基因編碼序列的優(yōu)化方法,包括:生成m個(gè)基因編碼序列,作為初代群體p(0),其中,m為大于1的整數(shù);采用如下公式計(jì)算當(dāng)代群體中每個(gè)基因編碼序列的適應(yīng)度:

其中,n表示根據(jù)用戶需求設(shè)置的用于計(jì)算每個(gè)基因編碼序列的適應(yīng)度的參數(shù)的數(shù)量,n大于等于2,ni表示第i個(gè)參數(shù)對(duì)應(yīng)的值,wi表示第i個(gè)參數(shù)對(duì)應(yīng)的權(quán)重;判斷是否達(dá)到終止計(jì)算條件;當(dāng)未達(dá)到所述終止計(jì)算條件時(shí),對(duì)第t代群體p(t)中每個(gè)基因編碼序列采用選擇、交叉、變異運(yùn)算,得到第t+1代群體p(t+1),返回執(zhí)行計(jì)算當(dāng)代群體中每個(gè)基因編碼序列的適應(yīng)度的步驟,t取0、1、2…;當(dāng)達(dá)到所述終止計(jì)算條件時(shí),選擇適應(yīng)度最大的基因編碼序列作為優(yōu)化后的基因編碼序列。

可選地,所述n大于或等于5,計(jì)算基因編碼序列的適應(yīng)度的公式具體為:

f=w1·n1+w2·n2+w3·n3+w4·n4+w5·n5

其中,n1=∑fsc/m,m表示對(duì)應(yīng)基因編碼序列中密碼子的數(shù)量,fsc表示對(duì)應(yīng)基因編碼序列中單個(gè)密碼子的適應(yīng)度,w1表示其權(quán)重;n2=patscoredp/(1+patscoredp+patscoreup),其中,patscoredp表示對(duì)應(yīng)基因編碼序列中用戶期望出現(xiàn)的序列的總長(zhǎng)度,patscoreup對(duì)應(yīng)基因編碼序列中用戶不期望出現(xiàn)的序列的總長(zhǎng)度,w2表示對(duì)應(yīng)的權(quán)重;n3表示對(duì)應(yīng)基因編碼序列中g(shù)c含量,w3表示其權(quán)重;n4表示對(duì)應(yīng)基因編碼序列中每個(gè)密碼子第三個(gè)位置出現(xiàn)gc的比率,w4表示其權(quán)重;n5表示基因編碼序列二級(jí)結(jié)構(gòu)的最小自由能,w5表示其權(quán)重。

可選地,判斷是否達(dá)到終止計(jì)算條件包括:判斷群體的進(jìn)化代數(shù)是否達(dá)到最大代數(shù);當(dāng)所述群體的進(jìn)化代數(shù)未達(dá)到所述最大代數(shù)時(shí),確定為未達(dá)到終止計(jì)算條件;當(dāng)所述群體的進(jìn)化代數(shù)達(dá)到所述最大代數(shù)時(shí),確定為達(dá)到所述終止計(jì)算條件。

可選地,判斷是否達(dá)到所述終止計(jì)算條件包括:判斷連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值是否均小于預(yù)設(shè)閾值,其中,j為大于等于2的整數(shù);當(dāng)連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值均大于或等于所述預(yù)設(shè)閾值,確定為未達(dá)到所述終止計(jì)算條件;當(dāng)連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值均小于所述預(yù)設(shè)閾值,確定為達(dá)到所述終止計(jì)算條件。

可選地,在選擇適應(yīng)度最大的基因編碼序列作為優(yōu)化后的基因編碼序列之后,還包括:將所述優(yōu)化后的基因編碼序列中重復(fù)的序列去除。

本發(fā)明實(shí)施例的一方面,提供了一種基因編碼序列的優(yōu)化裝置,包括:序列生成單元,用于生成m個(gè)基因編碼序列,作為初代群體p(0),其中,m為大于1的整數(shù);計(jì)算單元,用于采用如下公式計(jì)算當(dāng)代群體中每個(gè)基因編碼序列的適應(yīng)度:

其中,n表示根據(jù)用戶需求設(shè)置的用于計(jì)算每個(gè)基因編碼序列的適應(yīng)度的參數(shù)的數(shù)量,n大于等于2,ni表示第i個(gè)參數(shù)對(duì)應(yīng)的值,wi表示第i個(gè)參數(shù)對(duì)應(yīng)的權(quán)重;判斷單元,用于判斷是否達(dá)到終止計(jì)算條件;群體生成單元,用于當(dāng)未達(dá)到所述終止計(jì)算條件時(shí),對(duì)第t代群體p(t)中每個(gè)基因編碼序列采用選擇、交叉、變異運(yùn)算,得到第t+1代群體p(t+1),返回執(zhí)行計(jì)算當(dāng)代群體中每個(gè)基因編碼序列的適應(yīng)度的步驟,t取0、1、2…;選擇單元,用于當(dāng)達(dá)到所述終止計(jì)算條件時(shí),選擇適應(yīng)度最大的基因編碼序列作為優(yōu)化后的基因編碼序列。

可選地,所述n大于或等于5,計(jì)算基因編碼序列的適應(yīng)度的公式具體為:

f=w1·n1+w2·n2+w3·n3+w4·n4+w5·n5

其中,n1=∑fsc/m,m表示對(duì)應(yīng)基因編碼序列中密碼子的數(shù)量,fsc表示對(duì)應(yīng)基因編碼序列中單個(gè)密碼子的適應(yīng)度,w1表示其權(quán)重;n2=patscoredp/(1+patscoredp+patscoreup),其中,patscoredp表示對(duì)應(yīng)基因編碼序列中用戶期望出現(xiàn)的序列的總長(zhǎng)度,patscoreup對(duì)應(yīng)基因編碼序列中用戶不期望出現(xiàn)的序列的總長(zhǎng)度,w2表示對(duì)應(yīng)的權(quán)重;n3表示對(duì)應(yīng)基因編碼序列中g(shù)c含量,w3表示其權(quán)重;n4表示對(duì)應(yīng)基因編碼序列中每個(gè)密碼子第三個(gè)位置出現(xiàn)gc的比率,w4表示其權(quán)重;n5為基因編碼序列二級(jí)結(jié)構(gòu)的最小自由能,w5表示其權(quán)重。

可選地,所述判斷單元包括:第一判斷模塊,用于判斷群體的進(jìn)化代數(shù)是否達(dá)到最大代數(shù);第一確定模塊,用于當(dāng)所述群體的進(jìn)化代數(shù)未達(dá)到所述最大代數(shù)時(shí),確定為未達(dá)到終止計(jì)算條件;第二確定模塊,用于當(dāng)所述群體的進(jìn)化代數(shù)達(dá)到所述最大代數(shù)時(shí),確定為達(dá)到所述終止計(jì)算條件。

可選地,所述判斷單元包括:第二判斷模塊,判斷連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值是否均小于預(yù)設(shè)閾值,其中,j為大于等于2的整數(shù);第三確定模塊,用于當(dāng)連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值均大于或等于所述預(yù)設(shè)閾值,確定為未達(dá)到所述終止計(jì)算條件;第四確定模塊,用于當(dāng)連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值均小于所述預(yù)設(shè)閾值,確定為達(dá)到所述終止計(jì)算條件。

可選地,還包括:去除模塊,在選擇適應(yīng)度最大的基因編碼序列作為優(yōu)化后的基因編碼序列之后,將所述優(yōu)化后的基因編碼序列中重復(fù)的序列去除。

根據(jù)本發(fā)明實(shí)施例,通過(guò)采用遺傳算法對(duì)基因編碼序列進(jìn)行優(yōu)化,對(duì)于根據(jù)用戶需求設(shè)置的參數(shù)采用加權(quán)求和的方式計(jì)算基因編碼序列的適應(yīng)度,從而使得優(yōu)化后的基因編碼序列滿足用戶的需求。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明具體實(shí)施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)具體實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施方式,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例中基因編碼序列的優(yōu)化方法的一個(gè)具體示例的流程圖;

圖2為本發(fā)明實(shí)施例中基因編碼序列的優(yōu)化裝置的一個(gè)具體示例的原理框圖。

具體實(shí)施方式

下面將結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

下面所描述的本發(fā)明不同實(shí)施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互結(jié)合。

本實(shí)施例提供一種基因編碼序列的優(yōu)化方法,需要說(shuō)明的是,本發(fā)明實(shí)施例的優(yōu)化方法是借助計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)的優(yōu)化方式,而非對(duì)實(shí)際基因編碼序列進(jìn)行拼接優(yōu)化。本實(shí)施例中所述的基因編碼序列的優(yōu)化方法可以應(yīng)用于計(jì)算機(jī)設(shè)備,如圖1所示,包括:

步驟s101,生成m個(gè)基因編碼序列,作為初代群體p(0),其中,m為大于1的整數(shù)。

先對(duì)優(yōu)化過(guò)程初始化,可以隨機(jī)生成至少一個(gè)基因編碼序列,作為初代群體。以初代群體作為優(yōu)化的基礎(chǔ)數(shù)據(jù),進(jìn)行逐步優(yōu)化。

步驟s102,采用如下公式計(jì)算當(dāng)代群體中每個(gè)基因編碼序列的適應(yīng)度:

其中,n表示根據(jù)用戶需求設(shè)置的用于計(jì)算每個(gè)基因編碼序列的適應(yīng)度的參數(shù)的數(shù)量,n大于等于2,ni表示第i個(gè)參數(shù)對(duì)應(yīng)的值,wi表示第i個(gè)參數(shù)對(duì)應(yīng)的權(quán)重。

對(duì)于當(dāng)代群體包括經(jīng)過(guò)選擇、交叉、變異運(yùn)算后得到的群體,例如,當(dāng)從初代群體得到第1代群體后,該第1代群體作為當(dāng)代群體,進(jìn)行適應(yīng)度計(jì)算,第2、3、4……代同理,不再贅述。

適應(yīng)度是指在某種環(huán)境條件下,某已知基因型的個(gè)體將其基因傳遞到其后代基因庫(kù)中的相對(duì)能力,是衡量個(gè)體存活和繁殖機(jī)會(huì)的尺度。也可以稱為適合度,指生物體或生物群體對(duì)環(huán)境適應(yīng)的量化特征,是分析估計(jì)生物所具有的各種特征的適應(yīng)性,以及在進(jìn)化過(guò)程中繼續(xù)往后代傳遞的能力的指標(biāo)。

本發(fā)明實(shí)施例中,對(duì)至少兩個(gè)參數(shù)采用加權(quán)求和的方式計(jì)算得到相應(yīng)個(gè)體的適應(yīng)度,其中,每個(gè)計(jì)算參數(shù)均是用戶根據(jù)需求所設(shè)置的,因此,計(jì)算得到的適應(yīng)度最大的基因編碼序列越滿足用戶的需求。另外,本實(shí)施例中,由于采用的是加權(quán)求和的方式進(jìn)行計(jì)算,每個(gè)參數(shù)與適應(yīng)度正相關(guān),均對(duì)最終結(jié)果產(chǎn)生影響。當(dāng)需要增加新的參數(shù)時(shí),只需要重新確定權(quán)重參數(shù),計(jì)算方式具有較強(qiáng)的擴(kuò)展性,能夠適應(yīng)不同的用戶和用戶需求。

步驟s103,判斷是否達(dá)到終止計(jì)算條件。

終止計(jì)算條件可以用于確定是否需要再做下一代的優(yōu)化,表示優(yōu)化終止的條件。

步驟s104,當(dāng)未達(dá)到終止計(jì)算條件時(shí),對(duì)第t代群體p(t)中每個(gè)基因編碼序列采用選擇、交叉、變異運(yùn)算,得到第t+1代群體p(t+1),返回執(zhí)行計(jì)算當(dāng)代群體中每個(gè)基因編碼序列的適應(yīng)度的步驟,t取0、1、2…。

在未達(dá)到終止計(jì)算條件時(shí),由當(dāng)代群體生成下一代群體,具體地,將選擇、交叉重組運(yùn)算、變異運(yùn)算應(yīng)用于群體,生成下一代群體,也即是采用遺傳算法實(shí)現(xiàn)基因編碼序列的優(yōu)化過(guò)程。其中,選擇運(yùn)算可以采用輪盤(pán)賭算法。生成下一代群體之后,再采用相同的公式計(jì)算出下一代群體的適應(yīng)度,也即是計(jì)算每一代群體的適應(yīng)度,以便于從中選出最優(yōu)的基因編碼序列。

步驟s105,當(dāng)達(dá)到終止計(jì)算條件時(shí),選擇適應(yīng)度最大的基因編碼序列作為優(yōu)化后的基因編碼序列。

當(dāng)達(dá)到終止計(jì)算條件時(shí),由于已經(jīng)對(duì)每一代群體中的每個(gè)基因編碼序列計(jì)算出對(duì)應(yīng)的適應(yīng)度,因此,可以從中確定出適應(yīng)度最大的基因編碼序列,作為優(yōu)化后的基因編碼序列,也即是用戶所需的基因編碼序列。

根據(jù)本發(fā)明實(shí)施例,通過(guò)采用遺傳算法對(duì)基因編碼序列進(jìn)行優(yōu)化,對(duì)于根據(jù)用戶需求設(shè)置的參數(shù)采用加權(quán)求和的方式計(jì)算基因編碼序列的適應(yīng)度,從而使得優(yōu)化后的基因編碼序列滿足用戶的需求。

作為一種可選的實(shí)施方式,本實(shí)施例中n大于或等于5,也即是,用于計(jì)算適應(yīng)度的參數(shù)至少包括5個(gè)。其中,上述步驟s102中計(jì)算基因編碼序列的適應(yīng)度的公式具體為:

f=w1·n1+w2·n2+w3·n3+w4·n4+w5·n5

其中,n1=∑fsc/m,m表示對(duì)應(yīng)基因編碼序列中密碼子的數(shù)量,fsc表示對(duì)應(yīng)基因編碼序列中單個(gè)密碼子的適應(yīng)度,w1表示其權(quán)重,也即是n1表示對(duì)應(yīng)基因編碼序列的密碼子的平均適應(yīng)度;

n2=patscoredp/(1+patscoredp+patscoreup),其中,patscoredp表示對(duì)應(yīng)基因編碼序列中用戶期望出現(xiàn)的序列的總長(zhǎng)度,patscoreup對(duì)應(yīng)基因編碼序列中用戶不期望出現(xiàn)的序列的總長(zhǎng)度,w2表示對(duì)應(yīng)的權(quán)重;

n3表示對(duì)應(yīng)基因編碼序列中g(shù)c含量,w3表示其權(quán)重;

n4表示對(duì)應(yīng)基因編碼序列中每個(gè)密碼子第三個(gè)位置出現(xiàn)gc的比率,w4表示其權(quán)重,g表示鳥(niǎo)嘌呤,c表示胞嘧啶;

n5表示基因編碼序列二級(jí)結(jié)構(gòu)的最小自由能,w5表示其權(quán)重。其中,二級(jí)結(jié)構(gòu)可以是發(fā)夾等二級(jí)結(jié)構(gòu)。

根據(jù)本發(fā)明實(shí)施例,不僅考慮了單個(gè)密碼子的共享,還考慮了gc含量、用戶期望和不期望的序列、二級(jí)結(jié)構(gòu)等重要特征,從而使計(jì)算結(jié)果符合用戶的需求,具有更強(qiáng)的適應(yīng)能力。

本發(fā)明實(shí)施例中,在計(jì)算適應(yīng)度之前,將適應(yīng)度函數(shù)的各指標(biāo)參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,從而使得各指標(biāo)參數(shù)處于同一尺度上,避免由于各指標(biāo)參數(shù)標(biāo)準(zhǔn)不一,導(dǎo)致各指標(biāo)參數(shù)的貢獻(xiàn)比例不平衡。

對(duì)于各指標(biāo)參數(shù)的權(quán)重,可以通過(guò)數(shù)值模擬來(lái)實(shí)現(xiàn)。具體地,可以取多組權(quán)重值,對(duì)于每組值,對(duì)多條序列進(jìn)行優(yōu)化,然后統(tǒng)計(jì)優(yōu)化序列的平均密碼子使用頻率、gc含量等,通過(guò)這種統(tǒng)計(jì)對(duì)比,可以得出一組合適的權(quán)重值,使得密碼子的使用頻率、gc含量等都達(dá)到理想的值。

作為一種可選實(shí)施方式,本發(fā)明實(shí)施例中判斷是否達(dá)到終止計(jì)算條件包括:判斷群體的進(jìn)化代數(shù)是否達(dá)到最大代數(shù);當(dāng)群體的進(jìn)化代數(shù)未達(dá)到最大代數(shù)時(shí),確定為未達(dá)到終止計(jì)算條件;當(dāng)群體的進(jìn)化代數(shù)達(dá)到最大代數(shù)時(shí),確定為達(dá)到終止計(jì)算條件。

本實(shí)施例中,設(shè)置最大進(jìn)化代數(shù),當(dāng)進(jìn)化的群體代數(shù)達(dá)到該最大代數(shù)時(shí),停止進(jìn)化;反之,則繼續(xù)生成下一代群體。

作為另一種可替換的實(shí)施方式,本實(shí)施例中判斷是否達(dá)到終止計(jì)算條件包括:判斷連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值是否均小于預(yù)設(shè)閾值,其中,j為大于等于2的整數(shù);當(dāng)連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值均大于或等于預(yù)設(shè)閾值,表示基因編碼序列還在進(jìn)一步優(yōu)化過(guò)程中,確定為未達(dá)到終止計(jì)算條件;當(dāng)連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值均小于預(yù)設(shè)閾值,表示基因編碼序列的優(yōu)化程度逐漸降低,確定為達(dá)到終止計(jì)算條件。

本發(fā)明實(shí)施例可以以上述兩種終止條件同時(shí)進(jìn)行判斷,以提高優(yōu)化效率:

判斷當(dāng)前的進(jìn)化代數(shù)是否到達(dá)了最大代數(shù)上限,并判斷連續(xù)幾代內(nèi)最大適應(yīng)度的提高是否小于某個(gè)閾值。若連續(xù)幾代內(nèi)最大適應(yīng)度的提高大于或等于某個(gè)閾值,并且未達(dá)到最大代數(shù)上限,則確定其不滿足終止計(jì)算條件;否則以進(jìn)化過(guò)程中所得到的具有最大適應(yīng)度的個(gè)體作為最優(yōu)解輸出,終止計(jì)算。

作為一種可選的實(shí)施方式,本實(shí)施例中在選擇適應(yīng)度最大的基因編碼序列作為優(yōu)化后的基因編碼序列之后,還包括:將優(yōu)化后的基因編碼序列中重復(fù)的序列去除。

對(duì)優(yōu)化后的基因編碼序列進(jìn)行處理,將重復(fù)的基因編碼序列刪除,實(shí)現(xiàn)對(duì)基因編碼序列的進(jìn)一步精簡(jiǎn)優(yōu)化。

本發(fā)明實(shí)施例提供了一種基因編碼序列的優(yōu)化裝置,該裝置可以用于執(zhí)行本發(fā)明實(shí)施例的基因編碼序列的優(yōu)化方法,如圖2所示,該優(yōu)化裝置包括:序列生成單元10、計(jì)算單元20、判斷單元30、群體生成單元40和選擇單元50。

序列生成單元10用于生成m個(gè)基因編碼序列,作為初代群體p(0),其中,m為大于1的整數(shù)。

先對(duì)優(yōu)化過(guò)程初始化,可以隨機(jī)生成至少一個(gè)基因編碼序列,作為初代群體。以初代群體作為優(yōu)化的基礎(chǔ)數(shù)據(jù),進(jìn)行逐步優(yōu)化。

計(jì)算單元20用于采用如下公式計(jì)算當(dāng)代群體中每個(gè)基因編碼序列的適應(yīng)度:

其中,n表示根據(jù)用戶需求設(shè)置的用于計(jì)算每個(gè)基因編碼序列的適應(yīng)度的參數(shù)的數(shù)量,n大于等于2,ni表示第i個(gè)參數(shù)對(duì)應(yīng)的值,wi表示第i個(gè)參數(shù)對(duì)應(yīng)的權(quán)重。

對(duì)于當(dāng)代群體包括經(jīng)過(guò)選擇、交叉、變異運(yùn)算后得到的群體,例如,當(dāng)從初代群體得到第1代群體后,該第1代群體作為當(dāng)代群體,進(jìn)行適應(yīng)度計(jì)算,第2、3、4……代同理,不在贅述。

適應(yīng)度是指在某種環(huán)境條件下,某已知基因型的個(gè)體將其基因傳遞到其后代基因庫(kù)中的相對(duì)能力,是衡量個(gè)體存活和繁殖機(jī)會(huì)的尺度。也可以稱為適合度,指生物體或生物群體對(duì)環(huán)境適應(yīng)的量化特征,是分析估計(jì)生物所具有的各種特征的適應(yīng)性,以及在進(jìn)化過(guò)程中繼續(xù)往后代傳遞的能力的指標(biāo)。

本發(fā)明實(shí)施例中,對(duì)至少兩個(gè)參數(shù)采用加權(quán)求和的方式計(jì)算得到相應(yīng)個(gè)體的適應(yīng)度,其中,每個(gè)計(jì)算參數(shù)均是用戶根據(jù)需求所設(shè)置的,因此,計(jì)算得到的適應(yīng)度最大的基因編碼序列越滿足用戶的需求。另外,本實(shí)施例中,由于采用的是加權(quán)求和的方式進(jìn)行計(jì)算,每個(gè)參數(shù)與適應(yīng)度正相關(guān),均對(duì)最終結(jié)果產(chǎn)生影響。當(dāng)需要增加新的參數(shù)時(shí),只需要重新確定權(quán)重參數(shù),計(jì)算方式具有較強(qiáng)的擴(kuò)展性,能夠適應(yīng)不同的用戶和用戶需求。

判斷單元30用于判斷是否達(dá)到終止計(jì)算條件。

終止計(jì)算條件可以用于確定是否需要再做下一代的優(yōu)化,表示優(yōu)化終止的條件。

群體生成單元40用于當(dāng)未達(dá)到終止計(jì)算條件時(shí),對(duì)第t代群體p(t)中每個(gè)基因編碼序列的密碼子采用選擇、交叉、變異運(yùn)算,得到第t+1代群體p(t+1),返回執(zhí)行計(jì)算當(dāng)代群體中每個(gè)基因編碼序列的適應(yīng)度的步驟,t取0、1、2…。

在未達(dá)到終止計(jì)算條件時(shí),由當(dāng)代群體生成下一代群體,具體地,將選擇允許、交叉重組運(yùn)算、變異運(yùn)算應(yīng)用于群體,生成下一代群體,也即是采用遺傳算法實(shí)現(xiàn)基因編碼序列的優(yōu)化過(guò)程。其中,選擇運(yùn)算可以采用輪盤(pán)賭算法。生成下一代群體之后,再采用相同的公式計(jì)算出下一代群體的適應(yīng)度,也即是計(jì)算每一代群體的適應(yīng)度,以便于從中選出最優(yōu)的基因編碼序列。

選擇單元50用于當(dāng)達(dá)到終止計(jì)算條件時(shí),選擇適應(yīng)度最大的基因編碼序列作為優(yōu)化后的基因編碼序列。

當(dāng)達(dá)到終止計(jì)算條件時(shí),由于已經(jīng)對(duì)每一代群體中的每個(gè)基因編碼序列計(jì)算出對(duì)應(yīng)的適應(yīng)度,因此,可以從中確定出適應(yīng)度最大的基因編碼序列,作為優(yōu)化后的基因編碼序列,也即是用戶所需的基因編碼序列。

根據(jù)本發(fā)明實(shí)施例,通過(guò)采用遺傳算法對(duì)基因編碼序列進(jìn)行優(yōu)化,對(duì)于根據(jù)用戶需求設(shè)置的參數(shù)采用加權(quán)求和的方式計(jì)算基因編碼序列的適應(yīng)度,從而使得優(yōu)化后的基因編碼序列滿足用戶的需求。

作為一種可選的實(shí)施方式,本實(shí)施例中n大于或等于5,也即是,用于計(jì)算適應(yīng)度的參數(shù)至少包括5個(gè)。其中,計(jì)算基因編碼序列的適應(yīng)度的公式具體為:

f=w1·n1+w2·n2+w3·n3+w4·n4+w5·n5

其中,n1=∑fsc/m,m表示對(duì)應(yīng)基因編碼序列中密碼子的數(shù)量,fsc表示對(duì)應(yīng)基因編碼序列中單個(gè)密碼子的適應(yīng)度,w1表示其權(quán)重,也即是n1表示對(duì)應(yīng)基因編碼序列的密碼子的平均適應(yīng)度;

n2=patscoredp/(1+patscoredp+patscoreup),其中,patscoredp表示對(duì)應(yīng)基因編碼序列中用戶期望出現(xiàn)的序列的總長(zhǎng)度,patscoreup對(duì)應(yīng)基因編碼序列中用戶不期望出現(xiàn)的序列的總長(zhǎng)度,w2表示對(duì)應(yīng)的權(quán)重;

n3表示對(duì)應(yīng)基因編碼序列中g(shù)c含量,w3表示其權(quán)重;

n4表示對(duì)應(yīng)基因編碼序列中每個(gè)密碼子第三個(gè)位置出現(xiàn)gc的比率,w4表示其權(quán)重,g表示鳥(niǎo)嘌呤,c表示胞嘧啶;

n5表示基因編碼序列二級(jí)結(jié)構(gòu)的最小自由能,w5表示其權(quán)重。

其中,二級(jí)結(jié)構(gòu)可以是發(fā)夾等二級(jí)結(jié)構(gòu)。

根據(jù)本發(fā)明實(shí)施例,不僅考慮了單個(gè)密碼子的共享,還考慮了gc含量、用戶期望和不期望的序列、二級(jí)結(jié)構(gòu)等重要特征,從而使計(jì)算結(jié)果符合用戶的需求,具有更強(qiáng)的適應(yīng)能力。

本發(fā)明實(shí)施例中,在計(jì)算適應(yīng)度之前,將適應(yīng)度函數(shù)的各指標(biāo)參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,從而使得各指標(biāo)參數(shù)處于同一尺度上,避免由于各指標(biāo)參數(shù)標(biāo)準(zhǔn)不一,導(dǎo)致各指標(biāo)參數(shù)的貢獻(xiàn)比例不平衡。

對(duì)于各指標(biāo)參數(shù)的權(quán)重,可以通過(guò)數(shù)值模擬來(lái)實(shí)現(xiàn)。具體地,可以取多組權(quán)重值,對(duì)于每組值,對(duì)多條序列進(jìn)行優(yōu)化,然后統(tǒng)計(jì)優(yōu)化序列的平均密碼子使用頻率、gc含量等,通過(guò)這種統(tǒng)計(jì)對(duì)比,可以得出一組合適的權(quán)重值,使得密碼子的使用頻率、gc含量等都達(dá)到理想的值。

作為一種可選實(shí)施方式,本發(fā)明實(shí)施例中判斷單元包括:第一判斷模塊,用于判斷群體的進(jìn)化代數(shù)是否達(dá)到最大代數(shù);第一確定模塊,用于當(dāng)群體的進(jìn)化代數(shù)未達(dá)到最大代數(shù)時(shí),確定為未達(dá)到終止計(jì)算條件;第二確定模塊,用于當(dāng)群體的進(jìn)化代數(shù)達(dá)到最大代數(shù)時(shí),確定為達(dá)到終止計(jì)算條件。

本實(shí)施例中,設(shè)置最大進(jìn)化代數(shù),當(dāng)進(jìn)化的群體代數(shù)達(dá)到該最大代數(shù)時(shí),停止進(jìn)化;反之,則繼續(xù)生成下一代群體。

作為另一種可替換的實(shí)施方式,本實(shí)施例中判斷單元包括:第二判斷模塊,判斷連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值是否均小于預(yù)設(shè)閾值,其中,j為大于等于2的整數(shù);第三確定模塊,用于當(dāng)連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值均大于或等于預(yù)設(shè)閾值,表示基因編碼序列還在進(jìn)一步優(yōu)化過(guò)程中,確定為未達(dá)到終止計(jì)算條件;第四確定模塊,用于當(dāng)連續(xù)j代群體的基因編碼序列的適應(yīng)度的提高值均小于預(yù)設(shè)閾值,表示基因編碼序列的優(yōu)化程度逐漸降低,確定為達(dá)到終止計(jì)算條件。

本發(fā)明實(shí)施例可以以上述兩種終止條件同時(shí)進(jìn)行判斷,以提高優(yōu)化效率:

判斷當(dāng)前的進(jìn)化代數(shù)是否到達(dá)了最大代數(shù)上限,并判斷連續(xù)幾代內(nèi)最大適應(yīng)度的提高是否小于某個(gè)閾值。若連續(xù)幾代內(nèi)最大適應(yīng)度的提高大于或等于某個(gè)閾值,并且未達(dá)到最大代數(shù)上限,則確定其不滿足終止計(jì)算條件;否則以進(jìn)化過(guò)程中所得到的具有最大適應(yīng)度的個(gè)體作為最優(yōu)解輸出,終止計(jì)算。

作為一種可選的實(shí)施方式,本實(shí)施例中優(yōu)化裝置還包括:去除模塊,在選擇適應(yīng)度最大的基因編碼序列作為優(yōu)化后的基因編碼序列之后,將優(yōu)化后的基因編碼序列中重復(fù)的序列去除。

對(duì)優(yōu)化后的基因編碼序列進(jìn)行處理,將重復(fù)的基因編碼序列刪除,實(shí)現(xiàn)對(duì)基因編碼序列的進(jìn)一步精簡(jiǎn)優(yōu)化。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

顯然,上述實(shí)施例僅僅是為清楚地說(shuō)明所作的舉例,而并非對(duì)實(shí)施方式的限定。對(duì)于所屬領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在上述說(shuō)明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無(wú)需也無(wú)法對(duì)所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見(jiàn)的變化或變動(dòng)仍處于本申請(qǐng)的保護(hù)范圍之中。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1