一種預測蛋白質(zhì)在rna病毒基因中的結(jié)合位點的方法
【專利摘要】本發(fā)明涉及一種預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法,用于獲取RNA病毒基因序列被選為蛋白質(zhì)結(jié)合位點的概率,該方法包括以下步驟:1)獲取多條RNA病毒基因序列;2)以設定的單位長度對每條所述RNA病毒基因序列進行位點信息量計算并比較,獲得最大位點信息量及該最大位點信息量所對應的位點信息,根據(jù)所述位點信息獲得結(jié)合位點。與現(xiàn)有技術相比,本發(fā)明能夠迅速地、準確地預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法,為探究RNA病毒的復制機制提供幫助。
【專利說明】
一種預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法
技術領域
[0001 ]本發(fā)明涉及生物信息技術領域,尤其是涉及一種預測蛋白質(zhì)在RNA病毒基因中的 結(jié)合位點的方法。
【背景技術】
[0002] 從1868年F.Miescher發(fā)現(xiàn)核素到1953年沃森和克里克正式提出DNA分子的雙螺旋 結(jié)構,再到2005年人類基因組計劃測序工作的完成,人類在探索生命奧秘的道路上留下了 一串串堅實的腳印。然而近年來隨著對RNA分子研究的不斷深入,人們逐步意識到RNA具有 遠比DNA復雜得多的結(jié)構和功能上的多樣性,RNA研究已經(jīng)成為新的熱點,一個嶄新的RNA世 界正在逐漸展現(xiàn)在人們的面前。
[0003] 病毒是地球上最豐富的微生物之一,它是由一個核酸分子與蛋白質(zhì)構成的非細胞 結(jié)構形態(tài)的靠寄生生活的生命體,根據(jù)遺傳物質(zhì)的不同可以分為:DAN病毒和RAN病毒。近年 來,由RNA病毒引起的新發(fā)或再發(fā)性流行病經(jīng)常成為全球性公共衛(wèi)生問題,例如輪狀病毒、 艾滋病病毒、SARS病毒、埃博拉病毒(EB0V)、甲型H1N1流感病毒等。病毒基因組的復制與表 達是研究病毒致病機理及研制抗病毒藥物的核心,RNA病毒特別是單鏈RNA病毒,依靠其遺 傳物質(zhì)不穩(wěn)定、基因組進化速度非常快的特點,給疫苗的研制帶來巨大的挑戰(zhàn)。據(jù)悉,從 1967年在德國的馬爾堡首次發(fā)現(xiàn)埃博拉病毒到如今已接近五十年,埃博拉病毒曾造成多次 大爆發(fā),人體感染初期出現(xiàn)頭痛,肌痛、惡心、嘔吐、腹瀉等,隨后可能出現(xiàn)體內(nèi)外出血、中樞 神經(jīng)紊亂,最終導致死亡,嚴重威脅著人類的健康和生命。
[0004] 生物信息學是將計算機科學和數(shù)學應用于分子生物學而形成的交叉學科,在基因 組的研究中發(fā)揮著重要的作用。它將從實驗室得到的生物學信息轉(zhuǎn)化為計算機能夠處理的 數(shù)字信息,通過對實驗數(shù)據(jù)加工、存儲、檢索與分析,進而揭示數(shù)據(jù)所蘊含的生物學意義。信 息量是用于分析蛋白質(zhì)與核酸相互作用的信息理論,可以應用到調(diào)節(jié)位點的分析,它首先 是由Schneider等提出的,后經(jīng)Berg和Stormo等人進行了補充完善,其核心是具有相同親和 性的序列在進化過程中有相同的概率被與之作用的蛋白質(zhì)或酶選為結(jié)合位點,而結(jié)合的自 由能與親和性直接相關,即尋找與目標病毒類似的病毒核苷酸序列,將其兩兩比對,若兩序 列有同樣的自由能,就有同樣的結(jié)合蛋白質(zhì)的親和性,而結(jié)合的自由能直接與堿基利用率 相關。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術存在的缺陷而提供一種能夠迅速地、準 確地預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法,為探究RNA病毒的復制機制提供幫 助。
[0006] 本發(fā)明的目的可以通過以下技術方案來實現(xiàn):
[0007] -種預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法,用于獲取RNA病毒基因序列 被選為蛋白質(zhì)結(jié)合位點的概率,該方法包括以下步驟:
[0008] 1)獲取多條RNA病毒基因序列;
[0009] 2)以設定的單位長度對每條所述RNA病毒基因序列進行位點信息量計算并比較, 獲得最大位點信息量及該最大位點信息量所對應的位點信息,根據(jù)所述位點信息獲得結(jié)合 位點,其中,所述位點信息量的計算公式為:
[0010] Hi=~ Z lAbi)\n[p{bf)!p\bi)\
[0011] l=\
[0012]式中,Hi是位點中每個位置的信息量,Hseq是位點信息量,bl表示堿基,有A、C、G、T 四種堿基,P(bl)是各位置中堿基出現(xiàn)的概率,pYbl)是基因組中堿基出現(xiàn)的概率,S是位點 中位置的個數(shù)。
[0013] 所述步驟1)中,RNA病毒基因序列通過基因組測序得到或由GenBank數(shù)據(jù)庫中獲 取。
[0014]所述步驟1)中,多條RNA病毒基因序列為同一個屬或者同一個科的單股正鏈RNA病 毒基因序列。
[0015]所述步驟1)中,多條RNA病毒基因序列的序列長度差在1 %以內(nèi)。
[0016]所述步驟2)中的比較過程具體為:
[0017] 201)任意選取一條RNA病毒基因序列作為目標序列,所述目標序列的長度為L,其 它序列作為比較序列,將所述目標序列中由第一個堿基開始的一個分析單位與所有比較序 列末尾的一個分析單位進行位點信息量比較,獲得一個4 X S的堿基概率矩陣,S為單位長 度;
[0018] 202)從所述目標序列的第二個堿基依次開始截取一分析單位,將所截取的分析單 位與所有比較序列末尾的一個分析單位進行位點信息量比較,直至目標序列所有堿基均比 較完成,獲得L-S+1個4 X S的堿基頻率矩陣。
[0019]所述堿基頻率矩陣含有單位長度堿基的位置、每個位置相應的信息量值以及最大 位點信息量。
[0020] 與現(xiàn)有技術相比,本發(fā)明具有以下有益效果:
[0021] (1)本發(fā)明通過對序列的分析單位進行位點信息量比對,從而獲得RNA病毒基因序 列被選為蛋白質(zhì)結(jié)合位點的概率,預測最有可能的結(jié)合位點,不僅能快速從眾多序列中抽 提出結(jié)合位點,而且能預測出結(jié)合位點中重要的位置。
[0022] (2)本發(fā)明在選取RNA病毒基因序列選擇同一個屬或者同一個科的單股正鏈RNA病 毒基因序列,且序列長度相近,有效提高了預測的準確性。
[0023] (3)利用本發(fā)明方法能預測調(diào)節(jié)蛋白在病毒基因內(nèi)的結(jié)合位點,為定點突變等分 子生物學實驗提供方向,為弄清蛋白質(zhì)與RNA病毒基因相互作用奠定基礎、最終揭示RNA病 毒復制機理做出貢獻。
【附圖說明】
[0024]圖1為本發(fā)明的流程示意圖;
[0025]圖2為本發(fā)明結(jié)果文本示意圖。
【具體實施方式】
[0026] 下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細說明。本實施例以本發(fā)明技術方案 為前提進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于 下述的實施例。
[0027] 如圖1所示,本實施例提供一種預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法, 用于獲取RNA病毒基因序列被選為蛋白質(zhì)結(jié)合位點的概率,該方法包括:
[0028] 步驟S1:獲取多條RNA病毒基因序列。RNA病毒基因序列可通過基因組測試得到,也 可登錄NCBI網(wǎng)站的GenBank數(shù)據(jù)庫下載的相關病毒基因的序列進行整理獲取。
[0029]優(yōu)選地,多條RNA病毒基因序列為同一個屬或者同一個科的單股正鏈RNA病毒基因 序列。
[0030] 更進一步地,多條RNA病毒基因序列的序列長度相近,長度差在1%以內(nèi)。
[0031] 步驟S2:以設定的單位長度對每條所述RNA病毒基因序列進行位點信息量計算并 比較,其中,所述位點信息量的計算公式為:
[0032] "/=- Z /物叫/物)//々/)')] 況=A,C,G,T
[0033] M
[0034]式中,Hi是位點中每個位置的信息量,Hseq是位點信息量,bl表示堿基,有A、C、G、T 四種堿基,P(bl)是各位置中堿基出現(xiàn)的概率,pYbl)是基因組中堿基出現(xiàn)的概率,S是位點 中位置的個數(shù)。
[0035] 步驟S3:獲得最大位點信息量及該最大位點信息量所對應的位點信息;
[0036] 步驟S4:根據(jù)所述位點信息獲得結(jié)合位點。按照熵的原則,具有最大信息熵的位置 在基因組的功能中起最重要的作用,當幾個這樣的位置毗連形成一個位點時該位點可能是 基因組的關鍵區(qū)域,具有作為病毒蛋白質(zhì)與基因序列的結(jié)合位點的可能性。
[0037]步驟S2中的比較過程具體為:
[0038] 201)任意選取一條RNA病毒基因序列作為目標序列,所述目標序列的長度為L,其 它序列作為比較序列,將所述目標序列中由第一個堿基開始的一個分析單位與所有比較序 列末尾的一個分析單位進行位點信息量比較,獲得一個4 X S的堿基概率矩陣,S為單位長 度,所述堿基頻率矩陣含有單位長度堿基的位置、每個位置相應的信息量值以及最大位點 信息量;
[0039] 202)從所述目標序列的第二個堿基依次開始截取一分析單位,將所截取的分析單 位與所有比較序列末尾的一個分析單位進行位點信息量比較,直至目標序列所有堿基均比 較完成,獲得L-S+1個4 X S的堿基頻率矩陣。
[0040] 在進行RNA病毒基因序列選擇時,若所選取的N條為等長序列,則設置一個單位長 度獲取分析單位(即為一個word寬度),這個分析單位所包含的連續(xù)堿基的數(shù)量稱單位長 度,單位長度根據(jù)具體的分析對象將有所不同;若所選取的N條為不等長序列,則單位長度 就等于最短序列的堿基數(shù),從而使最后獲得的堿基頻率矩陣包含對該序列的功能所必須的 位置。
[0041]根據(jù)上述預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法的原理進行編程,獲得 一利用信息量預測RNA病毒蛋白質(zhì)結(jié)合位點的軟件,命名為RSST,該軟件的操作流程為: [0042] 步驟一:將通過基因組測序得到的病毒基因序列或者登錄NCBI網(wǎng)站的GenBank數(shù) 據(jù)庫下載的相關病毒基因的序列進行整理,以純序列文本.txt格式保存,測定或者下載整 理的序列需要統(tǒng)一轉(zhuǎn)化為小寫字母的形式;
[0043] 從GenBank中下載到17條蛋白質(zhì)編碼序列,如表1為它們的登錄號:
[0044] 表 1
[0046]步驟二:新建文件夾,在此舉例命名為data,將測序或下載并整理好的序列文本統(tǒng) 一保存在data文件夾中;
[0047] 步驟三:在data文件夾中創(chuàng)建一個新的文本out-data. text,首先輸入比對序列總 數(shù)M,然后逐一列出需要比對的序列輸出文件名及輸入文件名,例如out\\19.sk3' .txt和 data\\19?sk3 '?txt;
[OO48] 步驟四:將軟件rsst.exe與data文件夾放置在同一個新建文件夾中;
[0049]步驟五:雙擊鼠標左鍵,打開軟件rsst.exe,將文件夾data中的規(guī)定輸入與輸出格 式的文本out-data. text拖拽到軟件rsst ? exe中,點擊計算,Calculate Alt+C;
[0050]步驟六:在步驟五彈出的對話框中分別輸入所需要比對的序列數(shù)量M和word的寬 度S,其中word寬度S指的是蛋白質(zhì)在基因中結(jié)合位點的堿基數(shù),程序?qū)凑找韵鹿綄π?列的位點信息量進行計算,并保留各位點的信息量及位點信息;
[0051 ] lp = E [(%+0] /(/V-t-4)]%>2[4(^ +1.5)/(7V + 4 5)] b=A,t\GS S
[_ ,,工人 i=i
[0053]注:IP是位點中每個位置(position)的信息量,Is是位點(site)的信息量,等于該 位點中每個位置信息量的和,b表示A、C、G、T四個堿基,nib是位置中某個堿基出現(xiàn)的頻率,N 為某個位置所具有的總堿基數(shù),實際上,它等于待分析的序列的條數(shù),1表示位置,S則為位 點的長度,在這里等于word的寬度。
[0054]步驟七:軟件將自動把以上保留的各位點的信息量及位點的信息以文本格式輸出 并保存,打開文本可以看到軟件將具有最大位點信息量的位點信息保存在文本結(jié)果的中的 最后位置,可以取此最優(yōu)結(jié)果作為實驗的最終結(jié)果。
[0055]將上述序列輸入軟件,在輸出的結(jié)果文本的最后有如下最優(yōu)結(jié)果如圖2所示。以圖 2所示最優(yōu)結(jié)果為實驗最終結(jié)果,其中上半部分顯示蛋白質(zhì)在個序列上可能的結(jié)合位點信 息,下半部分顯示了結(jié)合位點的堿基信息及各位置和位點的信息量。
【主權項】
1. 一種預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法,用于獲取RNA病毒基因序列被 選為蛋白質(zhì)結(jié)合位點的概率,其特征在于,該方法包括W下步驟: 1) 獲取多條RNA病毒基因序列; 2. W設定的單位長度對每條所述RNA病毒基因序列進行位點信息量計算并比較,獲得 最大位點信息量及該最大位點信息量所對應的位點信息,根據(jù)所述位點信息獲得結(jié)合位 點,其中,所述位點信息管?式中,Hl是位點中每個位置的信息量,出eq是位點信息量,bl表示堿基,有A、C、G、T四種堿 基,口化1)是各位置中堿基出現(xiàn)的概率,口*^化1)是基因組中堿基出現(xiàn)的概率,5是位點中位置 的個數(shù)。2. 根據(jù)權利要求1所述的預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法,其特征在 于,所述步驟1)中,RNA病毒基因序列通過基因組測序得到或由GenBank數(shù)據(jù)庫中獲取。3. 根據(jù)權利要求1所述的預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法,其特征在 于,所述步驟1)中,多條RNA病毒基因序列為同一個屬或者同一個科的單股正鏈RNA病毒基 因序列。4. 根據(jù)權利要求3所述的預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法,其特征在 于,所述步驟1)中,多條RNA病毒基因序列的序列長度差在1 % W內(nèi)。5. 根據(jù)權利要求1所述的預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法,其特征在 于,所述步驟2)中的比較過程具體為: 201) 任意選取一條RNA病毒基因序列作為目標序列,所述目標序列的長度為L,其它序 列作為比較序列,將所述目標序列中由第一個堿基開始的一個分析單位與所有比較序列末 尾的一個分析單位進行位點信息量比較,獲得一個4 X S的堿基概率矩陣,S為單位長度; 202) 從所述目標序列的第二個堿基依次開始截取一分析單位,將所截取的分析單位與 所有比較序列末尾的一個分析單位進行位點信息量比較,直至目標序列所有堿基均比較完 成,獲得kS+l個4 X S的堿基頻率矩陣。6. 根據(jù)權利要求5所述的預測蛋白質(zhì)在RNA病毒基因中的結(jié)合位點的方法,其特征在 于,所述堿基頻率矩陣含有單位長度堿基的位置、每個位置相應的信息量值W及最大位點 信息量。
【文檔編號】G06F19/20GK105912886SQ201610187739
【公開日】2016年8月31日
【申請日】2016年3月29日
【發(fā)明人】蘇翠珠, 肖明
【申請人】上海師范大學