亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于大語言模型與多視角深度學(xué)習(xí)的化學(xué)修飾小核酸藥物零樣本預(yù)測(cè)方法及系統(tǒng)

文檔序號(hào):40389518發(fā)布日期:2024-12-20 12:12閱讀:3來源:國知局
基于大語言模型與多視角深度學(xué)習(xí)的化學(xué)修飾小核酸藥物零樣本預(yù)測(cè)方法及系統(tǒng)

本技術(shù)涉及生物信息學(xué)和藥物設(shè)計(jì)領(lǐng)域,特別涉及基于深度學(xué)習(xí)的rna干擾(rnai)化學(xué)修飾小核酸藥物效率預(yù)測(cè)技術(shù)。


背景技術(shù):

1、rna干擾(rnai)技術(shù)作為一種革命性的基因表達(dá)調(diào)控機(jī)制,在疾病治療領(lǐng)域展現(xiàn)出巨大潛力。隨著rnai技術(shù)的不斷發(fā)展,化學(xué)修飾小核酸藥物的設(shè)計(jì)和開發(fā)成為了生物醫(yī)藥研究的熱點(diǎn)。這些化學(xué)修飾對(duì)rnai分子的穩(wěn)定性、特異性和治療效果起著關(guān)鍵作用。然而,隨著新型化學(xué)修飾的不斷涌現(xiàn),研究人員面臨著一系列挑戰(zhàn)。

2、首先,傳統(tǒng)的rnai效率預(yù)測(cè)模型主要依賴于已有的化學(xué)修飾數(shù)據(jù)進(jìn)行訓(xùn)練,這導(dǎo)致它們?cè)诿鎸?duì)全新的化學(xué)修飾時(shí)表現(xiàn)不佳。這種局限性嚴(yán)重阻礙了rnai技術(shù)的創(chuàng)新和應(yīng)用,因?yàn)檠芯咳藛T無法快速、準(zhǔn)確地評(píng)估新型修飾的效果。

3、其次,現(xiàn)有模型在處理化學(xué)修飾信息時(shí)往往采用簡單的編碼方式或特征提取方法,難以充分捕捉分子結(jié)構(gòu)的復(fù)雜化學(xué)特性。這種表征能力的不足在處理結(jié)構(gòu)多樣性較高的修飾時(shí)尤為明顯,影響了預(yù)測(cè)的準(zhǔn)確性和可靠性。

4、另一個(gè)關(guān)鍵問題是化學(xué)修飾在rna序列中位置的影響?,F(xiàn)有模型往往忽視或簡化了這一重要因素,導(dǎo)致無法準(zhǔn)確理解每個(gè)修飾在特定位置上對(duì)rnai效率的影響。這種精確性的缺失直接影響了藥物設(shè)計(jì)的指導(dǎo)價(jià)值。

5、此外,現(xiàn)有方法在整合多模態(tài)信息方面存在不足。rna序列、化學(xué)修飾結(jié)構(gòu)以及修飾位置等信息之間存在復(fù)雜的相互作用,但現(xiàn)有模型難以全面捕捉這些關(guān)系,從而限制了預(yù)測(cè)性能的提升。

6、模型的擴(kuò)展性和適應(yīng)性也是一個(gè)亟待解決的問題。隨著rnai技術(shù)的快速發(fā)展,新型化學(xué)修飾不斷出現(xiàn),而現(xiàn)有模型在面對(duì)這些變化時(shí)往往需要重新訓(xùn)練或大幅調(diào)整,缺乏靈活性和持續(xù)適應(yīng)能力。

7、最后,rnai藥物開發(fā)過程中,傳統(tǒng)的實(shí)驗(yàn)篩選方法耗時(shí)長、成本高,嚴(yán)重制約了創(chuàng)新藥物的研發(fā)速度。缺乏高效、準(zhǔn)確的預(yù)測(cè)工具,使得研究人員難以快速評(píng)估和篩選潛在的候選藥物,延緩了新型rnai治療方案進(jìn)入臨床應(yīng)用的進(jìn)程。

8、面對(duì)這些挑戰(zhàn),亟需一種創(chuàng)新的技術(shù)方案,能夠?qū)崿F(xiàn)對(duì)新型化學(xué)修飾的高精度零樣本預(yù)測(cè),增強(qiáng)化學(xué)修飾信息的表征能力,優(yōu)化修飾位置信息的整合,實(shí)現(xiàn)多模態(tài)信息的深度融合,提高模型的擴(kuò)展性和適應(yīng)性,并最終加速rnai藥物的開發(fā)進(jìn)程。這樣的技術(shù)突破將為rnai藥物的設(shè)計(jì)、開發(fā)和篩選提供強(qiáng)有力的支持,推動(dòng)rnai技術(shù)在生物醫(yī)藥領(lǐng)域的廣泛應(yīng)用。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)的目的在于提供一種基于大語言模型與多視角深度學(xué)習(xí)的化學(xué)修飾小核酸藥物零樣本預(yù)測(cè)方法及系統(tǒng),以解決上述背景技術(shù)中提出的問題。

2、本技術(shù)公開了一種基于大語言模型與多視角深度學(xué)習(xí)的化學(xué)修飾小核酸藥物零樣本預(yù)測(cè)方法,包括以下步驟:

3、收集并整理化學(xué)修飾rna數(shù)據(jù),包括rna序列、化學(xué)修飾類型、修飾位置及其對(duì)應(yīng)的smiles分子式;采用smiles?token正則表達(dá)式對(duì)smiles分子式進(jìn)行token化處理;使用預(yù)訓(xùn)練的大型語言模型對(duì)token化后的smiles分子式進(jìn)行嵌入,生成表征化學(xué)修飾結(jié)構(gòu)特征的smiles嵌入向量;獲取所述化學(xué)修飾在rna序列中的位置信息,并將該位置信息進(jìn)行嵌入,生成位置嵌入向量;將所述smiles嵌入向量與位置嵌入向量結(jié)合,形成綜合嵌入向量;對(duì)rna序列進(jìn)行嵌入,生成rna序列嵌入向量;

4、利用所述綜合嵌入向量,捕捉化學(xué)修飾與其位置之間的關(guān)系;采用交叉注意力機(jī)制,將所述rna序列嵌入向量與綜合嵌入向量進(jìn)行融合,得到多模態(tài)融合特征;

5、使用三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述多模態(tài)融合特征進(jìn)行特征提取和降維;將所述特征輸入全連接層,預(yù)測(cè)化學(xué)修飾小核酸藥物的效率,從而實(shí)現(xiàn)對(duì)所述化學(xué)修飾小核酸分子的零樣本預(yù)測(cè),其中包括對(duì)未見過的新型化學(xué)修飾的預(yù)測(cè)。

6、在一個(gè)優(yōu)選例中,所述方法能夠?qū)ξ匆娺^的新型化學(xué)修飾進(jìn)行零樣本預(yù)測(cè),無需對(duì)模型進(jìn)行重新訓(xùn)練。

7、在一個(gè)優(yōu)選例中,所述預(yù)訓(xùn)練的大型語言模型專門針對(duì)化學(xué)結(jié)構(gòu)進(jìn)行了預(yù)訓(xùn)練,選自下組:chemberta、llama。

8、在一個(gè)優(yōu)選例中,所述smiles?token正則表達(dá)式能夠以原子為單位對(duì)smiles分子式進(jìn)行token化處理,如將"cc(=o)o"分解為["c","c","(","=","o",")","o"],從而提高對(duì)分子結(jié)構(gòu)的細(xì)粒度理解。

9、在一個(gè)優(yōu)選例中,所述獲取所述化學(xué)修飾在rna序列中的位置信息,并將該位置信息進(jìn)行嵌入,生成位置嵌入向量的步驟中,將smiles嵌入向量與位置嵌入向量結(jié)合形成的綜合嵌入向量,能夠同時(shí)捕捉化學(xué)修飾的結(jié)構(gòu)特征和在rna序列中的位置信息,該綜合嵌入向量的維度為818維,其中包含768維smiles嵌入信息和50維位置嵌入信息。

10、在一個(gè)優(yōu)選例中,所述對(duì)rna序列進(jìn)行嵌入,生成rna序列嵌入向量的步驟中,rna序列嵌入采用one-hot編碼或預(yù)訓(xùn)練的rna序列嵌入模型,以提高模型對(duì)rna序列信息的理解。

11、在一個(gè)優(yōu)選例中,所述方法通過多模態(tài)信息融合,同時(shí)處理化學(xué)修飾結(jié)構(gòu)信息、位置信息和rna序列信息,以提高模型對(duì)不同特征之間復(fù)雜相互作用的理解能力。

12、在一個(gè)優(yōu)選例中,所述方法處理結(jié)構(gòu)不同但生物學(xué)效應(yīng)相近的化學(xué)修飾,以體現(xiàn)出化學(xué)結(jié)構(gòu)和生物功能之間的高度相關(guān)性。

13、在一個(gè)優(yōu)選例中,所述利用所述綜合嵌入向量,捕捉化學(xué)修飾與其位置之間的關(guān)系的步驟中,自注意力機(jī)制采用多頭自注意力機(jī)制,包含8個(gè)注意力頭,并使用正弦位置編碼或可學(xué)習(xí)的位置嵌入,以進(jìn)一步提高對(duì)化學(xué)修飾位置的捕捉能力。

14、在一個(gè)優(yōu)選例中,所述采用交叉注意力機(jī)制,將所述rna序列嵌入向量與綜合嵌入向量進(jìn)行融合,得到多模態(tài)融合特征的步驟中,交叉注意力機(jī)制采用多頭交叉注意力機(jī)制,包含4個(gè)注意力頭。

15、在一個(gè)優(yōu)選例中,所述使用三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述多模態(tài)融合特征進(jìn)行特征提取和降維,其中所述三維卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小為3×3×3,并包括池化核大小為2×2×2的最大池化層和批量歸一化層。

16、在一個(gè)優(yōu)選例中,所述將所述特征輸入全連接層,預(yù)測(cè)化學(xué)修飾小核酸藥物的效率,從而實(shí)現(xiàn)對(duì)所述化學(xué)修飾小核酸分子的零樣本預(yù)測(cè),包括對(duì)未見過的新型化學(xué)修飾的預(yù)測(cè)的步驟中,全連接層采用帶有丟棄法的多層感知機(jī),以防止過擬合并提高模型的泛化能力。

17、在一個(gè)優(yōu)選例中,該方法還包括對(duì)預(yù)測(cè)結(jié)果進(jìn)行可解釋性分析的步驟,以揭示不同化學(xué)修飾結(jié)構(gòu)與其生物學(xué)效應(yīng)之間的關(guān)系。

18、在一個(gè)優(yōu)選例中,還包括使用主成分分析(pca)對(duì)smiles嵌入結(jié)果進(jìn)行可視化分析的步驟。

19、在一個(gè)優(yōu)選例中,所述方法還包括對(duì)預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證的步驟,包括將預(yù)測(cè)結(jié)果與實(shí)驗(yàn)數(shù)據(jù)進(jìn)行比較。

20、在一個(gè)優(yōu)選例中,所述方法還包括基于預(yù)測(cè)結(jié)果對(duì)rnai藥物進(jìn)行優(yōu)化設(shè)計(jì)的步驟。

21、在一個(gè)優(yōu)選例中,在步驟100之后,還包括數(shù)據(jù)增強(qiáng)步驟,通過對(duì)收集的數(shù)據(jù)進(jìn)行變換、組合或模擬生成新的樣本,以擴(kuò)充訓(xùn)練數(shù)據(jù)集。

22、在一個(gè)優(yōu)選例中,還包括遷移學(xué)習(xí)步驟,利用在相關(guān)任務(wù)上預(yù)訓(xùn)練的模型初始化網(wǎng)絡(luò)參數(shù),以提高模型在目標(biāo)任務(wù)上的性能。

23、在一個(gè)優(yōu)選例中,在訓(xùn)練過程中采用多任務(wù)學(xué)習(xí)策略,同時(shí)預(yù)測(cè)多個(gè)相關(guān)的藥物特性,如sirna效率、脫靶效應(yīng)和穩(wěn)定性,以提高模型的泛化能力。

24、在一個(gè)優(yōu)選例中,還包括對(duì)預(yù)測(cè)結(jié)果進(jìn)行后處理的步驟,包括但不限于閾值篩選、概率校準(zhǔn)或置信區(qū)間估計(jì),以提高預(yù)測(cè)結(jié)果的可靠性。

25、在一個(gè)優(yōu)選例中,所述方法還可應(yīng)用于其他類似的分子設(shè)計(jì)任務(wù),如小分子藥物、蛋白質(zhì)工程等領(lǐng)域,通過適當(dāng)?shù)恼{(diào)整和遷移學(xué)習(xí)實(shí)現(xiàn)跨領(lǐng)域的知識(shí)遷移。

26、在一個(gè)優(yōu)選例中,所述自注意力機(jī)制的計(jì)算包括:

27、a)計(jì)算query(q),key(k)和value(v)矩陣:

28、q=xwq,k=xwk,v=xwv

29、其中wq,wk,wv是可訓(xùn)練的權(quán)重矩陣;

30、b)計(jì)算注意力得分:

31、

32、其中dk是k的維度,softmax用于歸一化權(quán)重。

33、在一個(gè)優(yōu)選例中,所述交叉注意力機(jī)制的計(jì)算包括:

34、a)對(duì)兩個(gè)輸入矩陣x1和x2,分別計(jì)算交叉query,key和value矩陣;

35、b)計(jì)算交叉注意力得分;

36、c)將得到的z_1和z_2進(jìn)行拼接,得到最終輸出

37、z=concat(z1,z2)

38、在一個(gè)優(yōu)選例中,還包括在心血管相關(guān)的細(xì)胞模型中對(duì)預(yù)測(cè)結(jié)果進(jìn)行生物學(xué)效應(yīng)驗(yàn)證,包括:

39、a)通過熒光定量pcr(qpcr)和western?blot方法,評(píng)估sirna對(duì)靶基因表達(dá)的抑制效果;

40、b)比較不同化學(xué)修飾的sirna分子在生物學(xué)效應(yīng)上的差異,篩選出最優(yōu)的修飾組合。

41、本技術(shù)還公開了一種基于大語言模型與多視角深度學(xué)習(xí)的化學(xué)修飾小核酸藥物零樣本預(yù)測(cè)系統(tǒng),包括:

42、數(shù)據(jù)收集模塊,用于收集并整理化學(xué)修飾rna數(shù)據(jù),包括rna序列、化學(xué)修飾類型、修飾位置及其對(duì)應(yīng)的smiles分子式;

43、smiles嵌入模塊,用于采用smiles?token正則表達(dá)式對(duì)smiles分子式進(jìn)行token化處理,以提高對(duì)分子結(jié)構(gòu)的細(xì)粒度理解;并使用預(yù)訓(xùn)練的大型語言模型對(duì)token化后的smiles分子式進(jìn)行嵌入,生成表征化學(xué)修飾結(jié)構(gòu)特征的smiles嵌入向量;

44、位置嵌入模塊,用于獲取所述化學(xué)修飾在rna序列中的位置信息,并將該位置信息進(jìn)行嵌入,生成位置嵌入向量;并將smiles嵌入向量與位置嵌入向量結(jié)合,形成綜合嵌入向量;

45、rna序列嵌入模塊,用于對(duì)rna序列進(jìn)行嵌入,生成rna序列嵌入向量;

46、自注意力處理模塊,用于利用自注意力機(jī)制處理綜合嵌入向量,捕捉化學(xué)修飾與其位置之間的關(guān)系;

47、交叉注意力融合模塊,用于采用交叉注意力機(jī)制,將rna序列嵌入向量與自注意力處理后的綜合嵌入向量進(jìn)行融合,得到多模態(tài)融合特征;

48、特征提取模塊,用于使用三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)多模態(tài)融合特征進(jìn)行特征提取和降維;

49、預(yù)測(cè)模塊,用于將特征提取模塊得到的特征輸入全連接層,預(yù)測(cè)化學(xué)修飾小核酸藥物的效率,從而實(shí)現(xiàn)對(duì)所述化學(xué)修飾小核酸分子的零樣本預(yù)測(cè),包括對(duì)未見過的新型化學(xué)修飾的預(yù)測(cè)。

50、本技術(shù)實(shí)施方式具有以下技術(shù)效果:

51、實(shí)現(xiàn)新型化學(xué)修飾的高精度零樣本預(yù)測(cè):通過引入基于大型語言模型的smiles嵌入技術(shù),本技術(shù)能夠有效捕捉分子結(jié)構(gòu)的細(xì)微差異,實(shí)現(xiàn)對(duì)從未見過的新型化學(xué)修飾的準(zhǔn)確預(yù)測(cè)。這一創(chuàng)新極大地提升了模型的泛化能力,使其能夠在沒有先驗(yàn)數(shù)據(jù)的情況下,對(duì)包含新修飾的rnai分子進(jìn)行高效率預(yù)測(cè),為rnai藥物的創(chuàng)新設(shè)計(jì)提供了強(qiáng)有力的工具支持。

52、增強(qiáng)化學(xué)修飾信息的表征能力:采用smiles?token正則表達(dá)式進(jìn)行分子式token化,本技術(shù)實(shí)現(xiàn)了對(duì)分子結(jié)構(gòu)更加精細(xì)的理解。這種方法顯著提高了模型對(duì)復(fù)雜化學(xué)特性的捕捉能力,特別是在處理結(jié)構(gòu)多樣性較高的修飾時(shí)表現(xiàn)出優(yōu)異的性能,從而大幅提升了預(yù)測(cè)的準(zhǔn)確性和可靠性。

53、優(yōu)化修飾位置信息的整合:通過結(jié)合位置嵌入和自注意力機(jī)制,本技術(shù)成功解決了化學(xué)修飾在rna序列不同位置影響不同的問題。這種創(chuàng)新設(shè)計(jì)使得模型能夠精確理解每個(gè)修飾在特定位置的作用,顯著提高了rnai效率預(yù)測(cè)的精度,為藥物設(shè)計(jì)提供了更加精確的指導(dǎo)。

54、實(shí)現(xiàn)多模態(tài)信息的深度融合:本技術(shù)通過交叉注意力機(jī)制,實(shí)現(xiàn)了對(duì)rna序列、化學(xué)修飾信息及其位置關(guān)系的多模態(tài)深度融合。這一策略使得模型能夠全面理解不同特征之間的復(fù)雜相互作用,從而在預(yù)測(cè)性能上取得了顯著的提升,為rnai小分子的設(shè)計(jì)和篩選提供了更加全面和準(zhǔn)確的評(píng)估依據(jù)。

55、提高模型的擴(kuò)展性和適應(yīng)性:本技術(shù)的模型結(jié)構(gòu)具有良好的擴(kuò)展性和適應(yīng)性,不僅能夠?qū)Ξ?dāng)前已知的修飾進(jìn)行預(yù)測(cè),還可以通過簡單的拓展實(shí)現(xiàn)對(duì)新修飾的無縫集成和預(yù)測(cè)。這一特性確保了模型在rnai技術(shù)快速發(fā)展的背景下,能夠持續(xù)保持其預(yù)測(cè)能力的領(lǐng)先地位,為長期的藥物研發(fā)提供穩(wěn)定可靠的支持。

56、加速rnai藥物開發(fā)進(jìn)程:通過提供對(duì)新型化學(xué)修飾的準(zhǔn)確預(yù)測(cè),本技術(shù)顯著減少了傳統(tǒng)實(shí)驗(yàn)篩選所需的時(shí)間和資源投入。這種高效的預(yù)測(cè)方法大大加速了rnai藥物的開發(fā)進(jìn)程,有助于更快地將創(chuàng)新性治療方案推向臨床應(yīng)用,最終為患者帶來更多治療選擇。

57、綜上所述,本技術(shù)通過創(chuàng)新的技術(shù)方案,有效解決了現(xiàn)有rnai效率預(yù)測(cè)模型面臨的關(guān)鍵挑戰(zhàn),為化學(xué)修飾小核酸藥物的設(shè)計(jì)、開發(fā)和篩選提供了一個(gè)強(qiáng)大而靈活的工具,具有顯著的科學(xué)價(jià)值和應(yīng)用前景。

58、本技術(shù)的說明書中記載了大量的技術(shù)特征,分布在各個(gè)技術(shù)方案中,如果要羅列出本技術(shù)所有可能的技術(shù)特征的組合(即技術(shù)方案)的話,會(huì)使得說明書過于冗長。為了避免這個(gè)問題,本技術(shù)上述
技術(shù)實(shí)現(xiàn)要素:
中公開的各個(gè)技術(shù)特征、在下文各個(gè)實(shí)施方式和例子中公開的各技術(shù)特征、以及附圖中公開的各個(gè)技術(shù)特征,都可以自由地互相組合,從而構(gòu)成各種新的技術(shù)方案(這些技術(shù)方案均因視為在本說明書中已經(jīng)記載),除非這種技術(shù)特征的組合在技術(shù)上是不可行的。例如,在一個(gè)例子中公開了特征a+b+c,在另一個(gè)例子中公開了特征a+b+d+e,而特征c和d是起到相同作用的等同技術(shù)手段,技術(shù)上只要擇一使用即可,不可能同時(shí)采用,特征e技術(shù)上可以與特征c相組合,則,a+b+c+d的方案因技術(shù)不可行而應(yīng)當(dāng)不被視為已經(jīng)記載,而a+b+c+e的方案應(yīng)當(dāng)視為已經(jīng)被記載。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1