一種影響rna剪接的snv檢測方法
【專利摘要】本發(fā)明提供了一種影響RNA剪接的SNV檢測方法,包括以下步驟:1)根據(jù)SNP文件的位點信息和基因組序列信息,提取突變前后該位點上下游100bp的序列和反向互補序列;2)用步驟1)提取的序列,基于最大熵原理、馬爾科夫模型、人工神經(jīng)網(wǎng)絡(luò)三種不同的方法分別預(yù)測剪接位點;3)根據(jù)三種方法的預(yù)測評分結(jié)果進行整合,篩選對RNA剪接產(chǎn)生影響的SNV。本發(fā)明通過整合這三種方法,以SNV數(shù)據(jù)作為輸入,來預(yù)測突變前后RNA剪接的變化,獲得影響RNA剪接的SNV,有效的提高預(yù)測的準(zhǔn)確性,為生物實驗和臨床研究提供參考。
【專利說明】
一種影響RNA剪接的SNV檢測方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于基因信息數(shù)據(jù)處理領(lǐng)域,特別是涉及到一種影響RNA剪接的SNV檢測方法。
【背景技術(shù)】
[0002]RNA剪接是在前體mRNA中,刪除內(nèi)含子連接外顯子,生成成熟mRNA的過程。RNA剪接是基因調(diào)控中的一個重要部分。調(diào)控RNA剪接的機制很復(fù)雜,涉及許多RNA結(jié)合蛋白。剪接過程需要識別外顯子內(nèi)含子的邊界。發(fā)生在外顯子內(nèi)含子邊界的SNV,可導(dǎo)致RNA剪接發(fā)生改變,影響mRNA的有效翻譯,導(dǎo)致人類疾病的發(fā)生。因此,研究SNV對RNA剪接的影響至關(guān)重要。
[0003]大多數(shù)真核生物中,內(nèi)含子的5’端邊界或donor剪接位點通常包含二核苷酸GT,而內(nèi)含子的3’端邊界或acceptor剪接位點通常包含二核苷酸AG。除了這些二聚體,一個富含啼啶的區(qū)域通常出現(xiàn)在acceptor剪接位點AG之前,剪接分支點在acceptor上游?30nt的區(qū)域。
[0004]目前,有許多用于識別剪接位點的軟件,例如,genefinders,HumanSpl icingFinder。這要求我們提高剪接位點預(yù)測準(zhǔn)確性,同時也給我們提供了一個整合不同算法的軟件來預(yù)測剪接位點的機會,使得我們能夠準(zhǔn)確的預(yù)測SNV對RNA剪接的影響。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明提出一種影響RNA剪接的SNV檢測方法,預(yù)測突變前后RNA剪接的變化,獲得影響RNA剪接的SNV,有效的提高預(yù)測的準(zhǔn)確性,為生物實驗和臨床研究提供參考。
[0006]為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:一種影響RNA剪接的SNV檢測方法,包括以下步驟:
[0007]I)根據(jù)SNP文件的位點信息和基因組序列信息,提取突變前后該位點上下游10bp的序列和反向互補序列;
[0008]2)用步驟I)提取的序列,基于最大熵原理、馬爾科夫模型、人工神經(jīng)網(wǎng)絡(luò)三種不同的方法分別預(yù)測剪接位點;
[0009]3)根據(jù)三種方法的預(yù)測評分結(jié)果進行整合,篩選對RNA剪接產(chǎn)生影響的SNV。
[0010]進一步的,步驟2)所述的基于最大熵原理預(yù)測剪接位點的方法是使用Maxentscan軟件進行計算。
[0011]進一步的,步驟2)所述的基于馬爾科夫模型預(yù)測剪接位點的方法是使用GeneSplicer軟件進行計算。
[0012]進一步的,步驟2)所述的基于人工神經(jīng)網(wǎng)絡(luò)預(yù)測剪接位點的方法是使用NetGene2軟件進行計算。
[0013]進一步的,步驟3)對三種方法的得分情況整合生成剪接位點評估表,然后進行篩選。
[0014]相對于現(xiàn)有技術(shù),本發(fā)明所述的一種影響RNA剪接的SNV檢測方法具有以下優(yōu)勢:
[0015]本發(fā)明整合不同算法的軟件來預(yù)測剪接位點的機會,MaxEntScan、GeneSplicer、NetGene2分別是基因最大信息熵、馬爾科夫模型、人工神經(jīng)網(wǎng)絡(luò)三個不同的方法預(yù)測剪接位點的軟件,本發(fā)明通過整合這三個軟件以SNV數(shù)據(jù)作為輸入,來預(yù)測突變前后RNA剪接的變化,獲得影響RNA剪接的SNV,有效的提高預(yù)測的準(zhǔn)確性,為生物實驗和臨床研究提供參考。
【附圖說明】
[0016]構(gòu)成本發(fā)明的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0017]圖1為本發(fā)明的流程示意圖。
[0018]圖2為本發(fā)明的輸入文件實例。
[0019]圖3為本發(fā)明的MaxEntScan預(yù)測donor site實例。
[0020]圖4為本發(fā)明的GeneSplicer預(yù)測實例。
[0021]圖5為本發(fā)明的NetGene2預(yù)測結(jié)果實例。
[0022]圖6為本發(fā)明的結(jié)果文件格式。
【具體實施方式】
[0023]需要說明的是,在不沖突的情況下,本發(fā)明的實施例及實施例中的特征可以相互組合。
[0024]下面將參考附圖并結(jié)合實施例來詳細(xì)說明本發(fā)明。
[0025]本發(fā)明的方法原理:
[0026]本發(fā)明預(yù)測SNV對RNA剪接的影響,整合了三個基于不同算法預(yù)測RNA剪接位點的軟件,以SNV信息的文件作為輸入,提取突變前后發(fā)生SNV的位點上下游10bp的序列和它們的方向互補序列預(yù)測剪接位點,從而,得到突變前后DNA正鏈和負(fù)鏈RNA剪接位點的變化信息。
[0027]首先,提取序列,本發(fā)明不僅提取了基因組中無突變發(fā)生時正常的序列片段作為對照,還提取了這些序列的反向互補序列,本發(fā)明可以預(yù)測出突變位點的相反鏈的RNA剪接現(xiàn)象是否收到影響。
[0028]然后,預(yù)測剪接位點,用上面描述的方法提取的序列,作為三個軟件的輸入(其中Maxentscan需要做滑窗處理)。需要強調(diào)的是,Maxentscan,Genesplicer,NetGene2這三個軟件分別是基于最大熵原理、馬爾科夫模型、人工神經(jīng)網(wǎng)絡(luò)三個不同的方法來預(yù)測剪接位點的。本發(fā)明整合了這三個軟件可以提高預(yù)測的準(zhǔn)確性,降低假陽性率。
[0029]最后,根據(jù)三個軟件的評分結(jié)果,篩選對RNA剪接產(chǎn)生影響的SNV。
[0030]下面結(jié)合附圖作詳細(xì)說明:
[0031](I)提取序列
[0032]本發(fā)明的輸入文件為常見的SNP文件,如圖2所示。根據(jù)SNP的位點信息和基因組序列信息,提取突變前后該位點上下游10bp的序列和反向互補序列。
[0033](2)計算剪接位點得分
[0034]MaxEntScan軟件,預(yù)測donor site要求輸入9bp的序列(3個核苷酸位于外顯子中,6個核苷酸位于內(nèi)含子中),預(yù)測acceptor site需要輸入23bp的序列(20個核苷酸位于內(nèi)含子中,3個核苷酸位于外顯子中)。本軟件采用滑窗處理201bp長度的序列,作為輸入計算MaxEntScan得分,結(jié)果如圖3所示。結(jié)果文件是兩列的txt文件,第一列為序列,第二列為得分,得分越高的位點是真實的剪接位點的可能性越高。
[0035]GeneSplicer軟件是基于馬爾科夫模型預(yù)測剪接位點的軟件,它的輸出結(jié)果如圖4所示。結(jié)果為4列的文件,前兩列分別為剪接位點的在序列5’和3’的位置,第三列為剪接位點的預(yù)測得分,第四列,為預(yù)測的置信度,第五列為剪接位點的類型(donor或acceptor)。
[0036]NetGene2是基于人工神經(jīng)網(wǎng)絡(luò)預(yù)測剪接位點得分的軟件。結(jié)果文件如圖5所示。第一條序列沒有預(yù)測出剪接位點,而第二條序列的5’端開始的第102個核苷酸位置為donor位點,并且置信度為0.34。
[0037](3)整合結(jié)果
[0038]對三個軟件的得分情況整合生成剪接位點評估表,如圖6所示。前四列分別為SNP的信息(染色體號、位置、突變前堿基、突變后堿基),中間幾列MaxEnt Scan,GeneSplicer,Ne tGene2三個軟件就突變前后RNA剪接位點的預(yù)測得分,最后一列是整合三個軟件分析后的結(jié)果。
[0039]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種影響RNA剪接的SNV檢測方法,其特征在于,包括以下步驟: 1)根據(jù)SNP文件的位點信息和基因組序列信息,提取突變前后該位點上下游10bp的序列和反向互補序列; 2)用步驟I)提取的序列,基于最大熵原理、馬爾科夫模型、人工神經(jīng)網(wǎng)絡(luò)三種不同的方法分別預(yù)測剪接位點; 3)根據(jù)三種方法的預(yù)測評分結(jié)果進行整合,篩選對RNA剪接產(chǎn)生影響的SNV。2.根據(jù)權(quán)利要求1所述的一種影響RNA剪接的SNV檢測方法,其特征在于,步驟2)所述的基于最大熵原理預(yù)測剪接位點的方法是使用Maxentscan軟件進行計算。3.根據(jù)權(quán)利要求1所述的一種影響RNA剪接的SNV檢測方法,其特征在于,步驟2)所述的基于馬爾科夫模型預(yù)測剪接位點的方法是使用GeneSplicer軟件進行計算。4.根據(jù)權(quán)利要求1所述的一種影響RNA剪接的SNV檢測方法,其特征在于,步驟2)所述的基于人工神經(jīng)網(wǎng)絡(luò)預(yù)測剪接位點的方法是使用NetGene2軟件進行計算。5.根據(jù)權(quán)利要求1所述的一種影響RNA剪接的SNV檢測方法,其特征在于,步驟3)對三種方法的得分情況整合生成剪接位點評估表,然后進行篩選。
【文檔編號】G06F19/22GK105975809SQ201610318326
【公開日】2016年9月28日
【申請日】2016年5月13日
【發(fā)明人】薛成海, 馬熹, 李連碩
【申請人】萬康源(天津)基因科技有限公司