本發(fā)明涉及序列優(yōu)化,尤其涉及一種跨物種的密碼子優(yōu)化方法、系統(tǒng)、電子設(shè)備、計算機可讀存儲介質(zhì)及計算機程序產(chǎn)品。
背景技術(shù):
1、蛋白質(zhì)在醫(yī)藥、工業(yè)酶制劑和農(nóng)業(yè)等多個領(lǐng)域中具有廣泛應(yīng)用,而高質(zhì)量的蛋白質(zhì)折疊和修飾對于其功能的發(fā)揮至關(guān)重要。
2、為了提高蛋白質(zhì)的表達(dá)水平,通常會進(jìn)行核酸序列(主要是mrna或dna序列)的優(yōu)化。
3、傳統(tǒng)的核酸序列優(yōu)化方法,如替換同義密碼子,旨在通過不改變蛋白質(zhì)氨基酸序列的前提下,提高蛋白質(zhì)的表達(dá)量。然而,上述優(yōu)化方法與生物相關(guān)性低,因此,在進(jìn)行跨物種的核酸序列優(yōu)化上,上述優(yōu)化方法的適用性不高。
4、因此,需提出一種跨物種的密碼子優(yōu)化方法、系統(tǒng)、電子設(shè)備、計算機可讀存儲介質(zhì)及計算機程序產(chǎn)品。
技術(shù)實現(xiàn)思路
1、本說明書提供一種跨物種的密碼子優(yōu)化方法、系統(tǒng)、電子設(shè)備、計算機可讀存儲介質(zhì)及計算機程序產(chǎn)品,可以基于原始物種的原始氨基酸序列和目標(biāo)物種的類別信息,進(jìn)行密碼子優(yōu)化,生成其他同物種對應(yīng)的核酸序列,提高了蛋白表達(dá)效率。
2、本技術(shù)提供的一種跨物種的密碼子優(yōu)化方法采用如下的技術(shù)方案,包括:
3、獲取基本信息,所述基本信息包括:原始物種的原始氨基酸序列和目標(biāo)物種的類別信息;
4、確定所述原始氨基酸序列中的當(dāng)前序列位置;基于所述基本信息和預(yù)測序列集合,構(gòu)建當(dāng)前輸入信息;結(jié)合所述當(dāng)前輸入信息和預(yù)設(shè)預(yù)測策略,預(yù)測并生成下一序列位置的密碼子向量;將所述下一序列位置作為新的當(dāng)前序列位置,將所述當(dāng)前序列位置的密碼子向量加入至預(yù)測序列集合中,循環(huán)執(zhí)行本步驟直至達(dá)到輸出條件;
5、基于所述預(yù)測序列集合,生成若干個候選核酸序列,將所述候選核酸序列作為與所述目標(biāo)物種對應(yīng)的優(yōu)化結(jié)果。
6、可選的,所述基于所述基本信息和預(yù)測序列集合,構(gòu)建當(dāng)前輸入信息,包括:
7、基于所述目標(biāo)物種的標(biāo)識信息查找對應(yīng)的物種類別單元;
8、將所述原始氨基酸序列、所述物種類別單元、標(biāo)識單元、所述預(yù)測序列集合進(jìn)行順序組合,得到所述當(dāng)前輸入信息。
9、可選的,所述結(jié)合所述當(dāng)前輸入信息和預(yù)設(shè)預(yù)測策略,預(yù)測并生成下一序列位置的密碼子向量,包括:
10、基于所述當(dāng)前輸入信息和/或上一層解碼器的輸出結(jié)果,構(gòu)建當(dāng)前層解碼器的輸入結(jié)果;
11、基于所述當(dāng)前層解碼器的輸入結(jié)果,生成注意力輸出矩陣,作為當(dāng)前層解碼器的輸出結(jié)果;
12、將所述下一層解碼器作為新的當(dāng)前層解碼器。
13、可選的,所述基于所述當(dāng)前層解碼器的輸入結(jié)果,生成注意力輸出矩陣,作為當(dāng)前層解碼器的輸出結(jié)果,包括:
14、對所述輸入結(jié)果中的每一個詞嵌入向量進(jìn)行線性變換,得到變換結(jié)果;變換結(jié)果包括:查詢向量、鍵向量和值向量;
15、將旋轉(zhuǎn)編碼矩陣應(yīng)用于查詢向量和鍵向量,對其進(jìn)行旋轉(zhuǎn)編碼,得到新的查詢向量和新的鍵向量;
16、根據(jù)查詢向量、鍵向量和值向量,得到注意力輸出矩陣;
17、將所有頭的注意力輸出矩陣進(jìn)行拼接,對拼接結(jié)果進(jìn)行線性變換,得到最終的多頭注意力輸出,將其作為當(dāng)前層解碼器的輸出結(jié)果。
18、可選的,輸出條件包括:當(dāng)前序列位置是原始氨基酸序列的最后一個序列位置。
19、可選的,還包括:對所述候選序列進(jìn)行篩選,確定目標(biāo)密碼子序列;
20、所述對所述候選序列進(jìn)行篩選,確定目標(biāo)密碼子序列,包括:
21、按照序列篩選條件對若干個所述候選序列進(jìn)行篩選,得到優(yōu)選密碼子序列;
22、測定所述優(yōu)選密碼子序列對應(yīng)的蛋白表達(dá)水平,選擇蛋白表達(dá)水平最高的優(yōu)選密碼子序列作為目標(biāo)密碼子序列。
23、本技術(shù)提供的一種跨物種的密碼子優(yōu)化系統(tǒng)采用如下的技術(shù)方案,包括:
24、獲取模塊,用于獲取基本信息,所述基本信息包括:原始物種的原始氨基酸序列和目標(biāo)物種的類別信息;
25、預(yù)測模塊,用于將所述基本信息輸入至跨物種的密碼子優(yōu)化模型,得到預(yù)測序列集合;
26、優(yōu)化模塊,基于所述預(yù)測序列集合,生成若干個候選核酸序列,將所述候選核酸序列作為與所述目標(biāo)物種對應(yīng)的優(yōu)化結(jié)果。
27、可選的,預(yù)測模塊,包括:
28、位置確定子模塊,用于確定所述原始氨基酸序列中的當(dāng)前序列位置;
29、信息構(gòu)建子模塊,用于基于所述基本信息和預(yù)測序列集合,構(gòu)建當(dāng)前輸入信息;
30、預(yù)測子模塊,用于結(jié)合所述當(dāng)前輸入信息和預(yù)設(shè)預(yù)測策略,預(yù)測并生成下一序列位置的密碼子向量;
31、循環(huán)子模塊,用于將所述下一序列位置作為新的當(dāng)前序列位置,將所述當(dāng)前序列位置的密碼子向量加入至預(yù)測序列集合中,循環(huán)執(zhí)行本步驟直至達(dá)到輸出條件;
32、可選的,所述信息構(gòu)建子模塊,包括:
33、第一構(gòu)建單元,用于基于所述目標(biāo)物種的標(biāo)識信息查找對應(yīng)的物種類別單元;
34、第二構(gòu)建單元,用于將所述原始氨基酸序列、所述物種類別單元、標(biāo)識單元、所述預(yù)測序列集合進(jìn)行順序組合,得到所述當(dāng)前輸入信息。
35、可選的,所述預(yù)測子模塊,包括:
36、第一預(yù)測單元,用于基于所述當(dāng)前輸入信息和/或上一層解碼器的輸出結(jié)果,構(gòu)建當(dāng)前層解碼器的輸入結(jié)果;
37、第二預(yù)測單元,用于基于所述當(dāng)前層解碼器的輸入結(jié)果,生成注意力輸出矩陣,作為當(dāng)前層解碼器的輸出結(jié)果;
38、將所述下一層解碼器作為新的當(dāng)前層解碼器。
39、可選的,所述第二預(yù)測單元,包括:
40、變換子單元,用于對所述輸入結(jié)果中的每一個詞嵌入向量進(jìn)行線性變換,得到變換結(jié)果;變換結(jié)果包括:查詢向量、鍵向量和值向量;
41、旋轉(zhuǎn)編碼子單元,用于將旋轉(zhuǎn)編碼矩陣應(yīng)用于查詢向量和鍵向量,對其進(jìn)行旋轉(zhuǎn)編碼,得到新的查詢向量和新的鍵向量;
42、注意力計算子單元,用于根據(jù)查詢向量、鍵向量和值向量,得到注意力輸出矩陣;
43、輸出子單元,用于將所有頭的注意力輸出矩陣進(jìn)行拼接,對拼接結(jié)果進(jìn)行線性變換,得到最終的多頭注意力輸出,將其作為當(dāng)前層解碼器的輸出結(jié)果。
44、可選的,輸出條件包括:當(dāng)前序列位置是原始氨基酸序列的最后一個序列位置。
45、可選的,還包括:篩選模塊,用于對所述候選序列進(jìn)行篩選,確定目標(biāo)密碼子序列;
46、可選的,所述篩選模塊,包括:
47、第一篩選子模塊,用于按照序列篩選條件對若干個所述候選序列進(jìn)行篩選,得到優(yōu)選密碼子序列;
48、第二篩選子模塊,用于測定所述優(yōu)選密碼子序列對應(yīng)的蛋白表達(dá)水平,選擇蛋白表達(dá)水平最高的優(yōu)選密碼子序列作為目標(biāo)密碼子序列。
49、本說明書還提供一種電子設(shè)備,其中,該電子設(shè)備包括:
50、處理器;以及,
51、存儲計算機可執(zhí)行指令的存儲器,所述可執(zhí)行指令在被執(zhí)行時使所述處理器執(zhí)行上述任一項方法。
52、本說明書還提供一種計算機可讀存儲介質(zhì),其中,所述計算機可讀存儲介質(zhì)存儲一個或多個程序,所述一個或多個程序當(dāng)被處理器執(zhí)行時,實現(xiàn)上述任一項方法。
53、本說明書還提供一種計算機程序產(chǎn)品,其中,所述計算機程序產(chǎn)品包括:計算機程序/指令,所述計算機程序/指令被處理器執(zhí)行時,實現(xiàn)上述任一項方法。
54、本技術(shù)中,通過獲取基本信息,所述基本信息包括:原始物種的原始氨基酸序列和目標(biāo)物種的類別信息;確定所述原始氨基酸序列中的當(dāng)前序列位置;基于所述基本信息和預(yù)測序列集合,構(gòu)建當(dāng)前輸入信息;結(jié)合所述當(dāng)前輸入信息和預(yù)設(shè)預(yù)測策略,預(yù)測并生成下一序列位置的密碼子向量;將所述下一序列位置作為新的當(dāng)前序列位置,將所述當(dāng)前序列位置的密碼子向量加入至所述預(yù)測序列集合中,循環(huán)執(zhí)行本步驟直至達(dá)到輸出條件;基于所述預(yù)測序列集合,生成若干個候選核酸序列,將所述候選核酸序列作為與所述目標(biāo)物種對應(yīng)的優(yōu)化結(jié)果,提高了優(yōu)化結(jié)果的生物相關(guān)性,提高了蛋白表達(dá)效率和表達(dá)的穩(wěn)定性。