本發(fā)明屬于生物醫(yī)學,具體涉及一種neobert模型及其在鑒別腫瘤新抗原中的應用。
背景技術:
1、hla即人類白細胞抗原,是人類主要組織相容性復合體(majorhistocompatibility?complex,mhc)的表達產物,有超過200個編碼基因,均位于第6號染色體上。腫瘤特異性抗原(tsa),也稱為腫瘤新抗原,是由腫瘤細胞表面的主要組織相容性復合體展示的短肽抗原。這些獨特的tsa在正常組織中不存在,在異常組織中可與hla結合,從而變得可被t細胞識別為外來抗原,具有引發(fā)腫瘤特異性t細胞反應的能力,使其成為癌癥疫苗有希望的候選者。目前識別這些經典新抗原的傳統方法嚴重依賴于全基因組/全外顯子組測序的數據,幾個廣泛研究的經典新抗原數據庫,包括cedar、caped(https://caped.icp.ucl.ac.be)、tantigen、nepdb、dbpepneo、neodb和tsnadb,已被廣泛探索其在癌癥免疫治療中的實用性。
2、雖然基因組的編碼區(qū)域僅占整個基因組的40%,剩下的60%是非編碼區(qū)的,但越來越多的證據表明,非經典機制,包括轉錄變異體(例如可變剪接、內含子保留、隱形內含子和轉座子衍生的嵌合轉錄本)和蛋白酶體隱秘肽(順式/反式蛋白酶體加工),有助于形成更大的非經典新抗原庫。然而,非經典新抗原數據的收集和管理仍然很有限。對于通過rna-seq鑒定的非編碼上游開放閱讀框(uorf)衍生的新抗原,目前只存在一個數據庫,即spencer,它包含了來自55項研究的2806個質譜數據。然而,該數據集并非源自免疫蛋白質組學,它預測非編碼rna(ncrna)翻譯并使用滑動窗口算法將每個非編碼肽分割成8-14聚體片段。關于蛋白質蛋白酶體加工新抗原,proteomedb數據庫包含此類實體。盡管如此,它需要體外合成80種肽,然后進行蛋白酶體消化并使用各種質譜方法檢測。肽段的檢測采用一種稱為invitrospi的開發(fā)方法進行,因此這些新抗原并不存在于腫瘤樣本中。
3、通過液相色譜串聯質譜法(lc-ms/ms)檢測和測序與hla結合的肽提供了一個獨特的優(yōu)勢,即可以直接學習到細胞內源性加工和呈遞肽的信息。我們收集并整理了一個涵蓋非冗余的非經典新抗原肽的大數據集,包含來自不同類型rna和基于蛋白的35574個配對的新抗原-hla,這些數據來源于14篇文獻。這種全面的編譯使我們能夠將它們的抗原特性與源自體細胞突變的肽(由cedar表示)、與腫瘤相關的肽(由hlathena表示)以及源自傳染性疾病的新抗原(由iedb表示)進行比較,包括長度、基序、熵和疏水性等方面。
4、這些差異促使我們對肽-hla(phla)結合的預測方法進行訓練。目前,phla結合的預測方法大致分為四類:基于結構的方法、基于評分函數的方法、基于機器學習的方法以及結合多種因素的綜合方法。基于結構的方法剖析hla和肽的結合結構,而基于評分功能的技術則根據基于序列的屬性評估肽?;跈C器學習的方法從肽或hla中提取特征,并訓練模型進行結合預測。深度學習方法,包括cnns、rnns和注意力機制,由于其較好的準確性和效率而具有良好的性能。最近,開發(fā)了一種基于轉換器的模型,模型可用于預測肽-hla?i類結合并用于疫苗設計的突變肽。然而,它只對經典肽進行訓練,也不能完全解釋hla和肽序列之間復雜的相互作用。因此,我們整合了經典和非經典的新抗原數據,訓練并得到了本發(fā)明的neobert模型。
技術實現思路
1、本發(fā)明收集數據后,采用70%的數據對neobert模型進行訓練,剩余30%的數據用于neobert模型的驗證以及比較,模型通過判斷肽是否可以與hla結合從而判斷肽是否為腫瘤新抗原?;诖耍瓿闪吮景l(fā)明。
2、第一方面,本發(fā)明提供了一種neobert模型,所述模型由四個連續(xù)組件組成,包括:
3、序列輸入器:掩碼hla和肽序列被打包成一個句子(即<masked?hla,maskedpeptide>)用于輸入;
4、嵌入塊:將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入,以生成序列嵌入;
5、編碼器塊:包含12個bertlayers,每個bertlayers包含掩碼多頭自注意力機制和一個用于學習表示的特征優(yōu)化塊;
6、預測塊:使用聚合序列表示來預測結合概率,而掩碼氨基酸模型根據每個對應位置的表示來預測掩碼氨基酸。
7、進一步,所述序列輸入器中,每一對hla和肽序列表示為一個句子,例如即x=([cls],hla?sequence,[sep],peptide?sequence)。
8、進一步,所述序列輸入器中,第一個標記([cls])的最終隱藏特征用作分類的序列表示,而([sep])標記則區(qū)分這兩個序列,兩個序列的隨機掩碼氨基酸用于訓練深度雙向表示。
9、進一步,所述序列輸入器中,輸入的肽和hla序列被填充為128的長度以適應可變的輸入長度。
10、進一步,所述嵌入塊中,對于每個token,加入學習過的嵌入(ea?or?eb∈rh)來表示是屬于hla還是肽,從而便于對這兩個序列進行分割,其中h是嵌入的維度,使用wordpiece嵌入來對氨基酸嵌入進行編碼(eaior?ebj∈rh)。
11、進一步,所述嵌入塊中,還通過加入位置嵌入(ei∈rh)來編碼句子中氨基酸的位置(x)。
12、進一步,所述嵌入塊中,token中的輸入表示(或hla中的token)是通過將其token、段和位置嵌入相加來創(chuàng)建的,如下所示:
13、ei=ea+earn+ei
14、進一步,所述編碼器塊中,利用多頭自注意技術,通過串聯序列將兩個序列之間的雙向交叉注意結合起來。
15、進一步,所述編碼器塊中,機制包括將查詢q映射到一組鍵值(k-v)對,并獲得輸出,其中k-v對將序列元素存儲在內存中。
16、進一步,所述編碼器塊中,注意力得分是基于q和k之間的相關性或相似性,表示信息的重要性,注意力得分越高(即v)表示對相應信息的關注越強。
17、進一步,所述編碼器塊中,特征優(yōu)化模塊結合了全連接層與layernorm和dropout,以學習增強的表示(hi)用于第i個標記。
18、進一步,所述編碼器塊中,對于長度小于128的hla和肽的連接序列,用0~128填充。
19、進一步,所述預測塊中,采用了兩項任務來微調neobert模型:hla肽結合預測和掩蔽氨基酸預測。
20、再進一步,所述hla肽結合預測是將每個hla-肽對的聚合序列表征輸入到s型層來預測標簽:
21、y′=sigmoid(w(2)(tanh(w(1)h0+b(1))))
22、其中,w(1),w(2),和b(1)是可學習的參數,h0表示特殊標記[cls]的表示,相應的損失函數概述如下:
23、
24、其中,n表示包含陽性結合數據和陰性數據的hla肽對集合,生成的數據與之前的研究類似[34]。
25、再進一步,一個掩碼氨基酸模型根據其序列的表示來預測20種不同氨基酸在序列的位置概率:
26、pi=softmax(whi+b)
27、其中,w和b是可學習的參數,hi表示token的表示。其損失函數總結如下:
28、
29、其中,mask表示所有被掩蔽氨基酸的位置集合,pos表示正結合對的集合,neobert模型的總損失函數總結如下:
30、
31、第二方面,本發(fā)明提供如第一方面所述的neobert模型在鑒別腫瘤新抗原中的應用,所述模型通過判斷肽是否可以與hla結合從而判斷肽是否為腫瘤新抗原。
32、進一步,若肽與hla結合,則預測該肽為腫瘤新抗原。
33、第三方面,一種用于鑒別腫瘤新抗原的方法,所述方法包括如下步驟:
34、1)在序列輸入器中輸入肽和hla序列,掩碼hla和肽序列被打包成一個句子(即<masked?hla,masked?peptide>)用于輸入;
35、2)嵌入塊將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入,以生成序列嵌入;
36、3)編碼器塊利用多頭自注意技術,通過串聯序列將兩個序列之間的雙向交叉注意結合起來;
37、4)預測塊使用聚合序列表示來預測結合概率,而掩碼氨基酸模型根據每個對應位置的表示來預測掩碼氨基酸;
38、5)判斷肽是否可以與hla結合。
39、進一步,所述序列輸入器中,每一對hla和肽序列表示為一個句子,例如即x=([cls],hla?sequence,[sep],peptide?sequence)。
40、進一步,所述序列輸入器中,第一個標記([cls])的最終隱藏特征用作分類的序列表示,而([sep])標記則區(qū)分這兩個序列,兩個序列的隨機掩碼氨基酸用于訓練深度雙向表示。
41、進一步,所述序列輸入器中,輸入的肽和hla序列被填充為128的長度以適應可變的輸入長度。
42、進一步,所述嵌入塊中,對于每個token,加入學習過的嵌入(ea?or?eb∈rh)來表示是屬于hla還是肽,從而便于對這兩個序列進行分割,其中h是嵌入的維度,使用wordpiece嵌入來對氨基酸嵌入進行編碼(eai?or?ebj∈rh)。
43、進一步,所述嵌入塊中,還通過加入位置嵌入(ei∈rh)來編碼句子中氨基酸的位置(x)。
44、進一步,所述嵌入塊中,token中的輸入表示(或hla中的token)是通過將其token、段和位置嵌入相加來創(chuàng)建的,如下所示:
45、ei=ea+eam+ei
46、進一步,所述編碼器塊中,利用多頭自注意技術,通過串聯序列將兩個序列之間的雙向交叉注意結合起來。
47、進一步,所述編碼器塊中,機制包括將查詢q映射到一組鍵值(k-v)對,并獲得輸出,其中k-v對將序列元素存儲在內存中。
48、進一步,所述編碼器塊中,注意力得分是基于q和k之間的相關性或相似性,表示信息的重要性,注意力得分越高(即v)表示對相應信息的關注越強。
49、進一步,所述編碼器塊中,特征優(yōu)化模塊結合了全連接層與layernorm和dropout,以學習增強的表示(hi)用于第i個標記。
50、進一步,所述編碼器塊中,對于長度小于128的hla和肽的連接序列,用0~128填充。
51、進一步,所述預測塊中,采用了兩項任務來微調neobert模型:hla肽結合預測和掩蔽氨基酸預測。
52、再進一步,所述hla肽結合預測是將每個hla-肽對的聚合序列表征輸入到s型層來預測標簽:
53、y′=sigmoid(w(2)(tanh(w(1)h0+b(1))))
54、其中,w(1),w(2),和b(1)是可學習的參數,h0表示特殊標記[cls]的表示,相應的損失函數概述如下:
55、
56、其中,n表示包含陽性結合數據和陰性數據的hla肽對集合,生成的數據與之前的研究類似[34]。
57、再進一步,一個掩碼氨基酸模型根據其序列的表示來預測20種不同氨基酸在序列的位置概率:
58、pi=softmax(whi+b)
59、其中,w和b是可學習的參數,hi表示token的表示。其損失函數總結如下:
60、
61、其中,mask表示所有被掩蔽氨基酸的位置集合,pos表示正結合對的集合,neobert模型的總損失函數總結如下:
62、
63、進一步,若肽與hla結合,則預測該肽為腫瘤新抗原;若肽不與hla結合,則預測該肽不是腫瘤新抗原。
64、第四方面,本發(fā)明提供了一種用于鑒別腫瘤新抗原的系統,所述系統包括:
65、序列輸入模塊,用于輸入肽和hla序列,掩碼hla和肽序列被打包成一個句子;
66、序列處理模塊,用于處理輸入的序列;
67、結合概率預測模塊,使用聚合序列表示來預測結合概率,而掩碼氨基酸模型根據每個對應位置的表示來預測掩碼氨基酸;
68、結果輸出模塊,通過判斷肽是否可以與hla結合從而判斷肽是否為腫瘤新抗原。
69、進一步,所述序列處理模塊中,嵌入塊將位置嵌入添加到氨基酸(即token)嵌入和片段嵌入,以生成序列嵌入,編碼器塊利用多頭自注意技術,通過串聯序列有效地將兩個序列之間的雙向交叉注意結合起來。
70、進一步,結合概率預測模塊中,線性二元分類器使用聚合序列表示來預測結合概率,而掩碼氨基酸模型根據每個對應位置的表示來預測掩碼氨基酸。
71、進一步,若肽與hla結合,則預測該肽為腫瘤新抗原。
72、第五方面,本發(fā)明提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現如第三方面所述方法的步驟。
73、有益效果
74、本發(fā)明訓練的neobert模型在多肽-hla結合預測方面的準確率為93%,明顯優(yōu)于netmhcpan,而netmhcpan的準確率為75%,提供了一種新的腫瘤新抗原的預測模型。