專利名稱:包含假結(jié)的rna結(jié)構(gòu)預(yù)測方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物信息工程領(lǐng)域,涉及一種對核糖核酸(在下文中,簡稱為RNA)的進行預(yù)測的方法,尤其涉及包含假結(jié)的RNA結(jié)構(gòu)預(yù)測方法。
背景技術(shù):
假結(jié)(pseudoknot,亦稱偽結(jié))是包含至少兩個莖環(huán)結(jié)構(gòu)的核酸三級結(jié)構(gòu),其中,兩個莖環(huán)之一的一半插在另一莖環(huán)的兩半之間。1982年首次在蕪菁花葉病毒(turnip yellowmosaic virus)中發(fā)現(xiàn)了假結(jié)。假結(jié)折疊成結(jié)形的三維立體構(gòu)象,但不是真正的拓撲結(jié)。實際上,預(yù)測帶假結(jié)的最小自由能RNA結(jié)構(gòu)的一般問題已被證明是NP完全問題。然而,許多重要的生物方法依賴于對帶假結(jié)的RNA結(jié)構(gòu)的預(yù)測。例如,端粒酶RNA組分(Telomerase RNA component,參考
圖1)包含對其活性至關(guān)重要的假結(jié)。許多病毒使用假結(jié)結(jié)構(gòu)形成類似tRNA基序(tRNA-like motif )滲透到宿主細胞。具有廣泛的三級結(jié)構(gòu)的RNA分子往往有大量的假結(jié)。然而,由于假結(jié)結(jié)構(gòu)的上下文敏感性(context-sensitivity)或“重疊”的特性,難于對它進行生物計算檢測。假結(jié)的堿基配對沒有很好的嵌套,換而言之,堿基對在序列中彼此重疊出現(xiàn)。這使得現(xiàn)有的動態(tài)規(guī)劃的標準方法(standard method of dynamicprogramming)難于預(yù)設(shè)核糖核酸(在下文中,簡稱為RNA)中的假結(jié)序列。較新的隨機上下文無關(guān)方法(method of stochastic context-free grammars)也遇到了同樣的問題。在較流行的Mfold和Pfold等二級結(jié)構(gòu)預(yù)測方法中,甚至不會去預(yù)測的RNA序列中存在的假結(jié)結(jié)構(gòu)。因此,如何盡量提高對帶假結(jié)的RNA結(jié)構(gòu)系列的預(yù)測的敏感性和特異性,是一個亟待解決的科學(xué)難題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題之一是需要提供一種能夠降低時間和空間復(fù)雜度的對包含假結(jié)的RNA結(jié)構(gòu)進行預(yù)測的方法。為了解決上述技術(shù)問題,本發(fā)明提供了一種包含假結(jié)的RNA結(jié)構(gòu)預(yù)測方法。該方法包括:步驟S10,確定待預(yù)測RNA序列中的所有結(jié)構(gòu)單元,包括假結(jié),把所有已知存在的結(jié)構(gòu)單元放入結(jié)構(gòu)單元池Stl=Is1, S2, S3,…sn}, η為結(jié)構(gòu)單元總數(shù),Sn表示第η個結(jié)構(gòu)單元;步驟S20,基于待預(yù)測RNA序列中的所有結(jié)構(gòu)單元,通過迭代確定U= (U1, U2,..., Ur,…,UE}, Ur表示第r次迭代得到的RNA結(jié)構(gòu)能量較小的RNA結(jié)構(gòu),R為總迭代次數(shù);步驟S30,根據(jù)Ur中各元素的自由能及其在RNA結(jié)構(gòu)中結(jié)構(gòu)單元出現(xiàn)頻率的總和,分別確定Ur中各元素與實際RNA結(jié)構(gòu)的相似值;步驟S40,將U中相似值高的元素預(yù)測為該待預(yù)測RNA序列的RNA結(jié)構(gòu)。其中,所述基于待預(yù)測RNA序列中的所有結(jié)構(gòu)單元,通過迭代確定U= (U17U2,…,Ur, -,Ue)的步驟,進一步包括 :子步驟S201,對結(jié)構(gòu)單元Ur賦空值,Ur表示第r次折疊得到的RNA結(jié)構(gòu);將迭代次數(shù)K初始化為I ;子步驟S202,通過子步驟S203至子步驟S204執(zhí)行K次折疊處理;子步驟S203,逐個判斷S中的結(jié)構(gòu)單元Si是否能夠使得當前的RNA結(jié)構(gòu)Ur的自由能減少且Si與Ur中的結(jié)構(gòu)單元不重疊,若判斷為是,則K=K+1,將Si并入^,然后返回子步驟S202以進行下一次折疊,反之,若判斷為否,則繼續(xù)判斷S中的si+1是否能夠使得當前的RNA結(jié)構(gòu)Ur的自由能減少且Si與Ur中的結(jié)構(gòu)單元不重疊,直到對S中的所有元素進行了判斷;子步驟S204,若對S中的所有元素進行了判斷,表示S中已經(jīng)不存在能夠減少RNA結(jié)構(gòu)Ur的自由能量的結(jié)構(gòu)單元,則本次迭代結(jié)束。進一步,所述子步驟S203利用下述表達式來計算當前的RNA結(jié)構(gòu)Ur的自由能:
權(quán)利要求
1.一種包含假結(jié)的RNA結(jié)構(gòu)預(yù)測方法,其特征在于,包括: 步驟S10,確定待預(yù)測RNA序列中的所有結(jié)構(gòu)單元,包括假結(jié),把所有已知存在的結(jié)構(gòu)單元放入結(jié)構(gòu)單元池Stl=Is1, S2, S3,…sn}, η為結(jié)構(gòu)單元總數(shù),Sn表示第η個結(jié)構(gòu)單元;步驟S20,基于待預(yù)測RNA序列中的所有結(jié)構(gòu)單元,通過迭代確定U= {U1;U2,-,Ur,…,UE}, Ur表示第r次迭代得到的RNA結(jié)構(gòu)能量較小的RNA結(jié)構(gòu),R為總迭代次數(shù); 步驟S30,根據(jù)Ur中各元素的自由能及其在RNA結(jié)構(gòu)中結(jié)構(gòu)單元出現(xiàn)頻率的總和,分別確定Ur中各元素與實際RNA結(jié)構(gòu)的相似值; 步驟S40,將U中相似值高的元素預(yù)測為該待預(yù)測RNA序列的RNA結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于待預(yù)測RNA序列中的所有結(jié)構(gòu)單元,通過迭代確定U= (U1, U2,..., Ur,..., υκ}的步驟,進一步包括: 子步驟S201,對結(jié)構(gòu)單元Ur賦空值,Ur表示第r次折疊得到的RNA結(jié)構(gòu);將迭代次數(shù)K初始化為I ; 子步驟S202,通過子步驟S203至子步驟S204執(zhí)行K次折疊處理; 子步驟S203,逐個判斷S中的結(jié)構(gòu)單元Si是否能夠使得當前的RNA結(jié)構(gòu)Ur的自由能減少且Si與I中的結(jié)構(gòu)單元不重疊,若判斷為是,則K=K+1,將Si并入I,然后返回子步驟S202以進行下一次折疊,反之,若判斷為否,則繼續(xù)判斷S中的si+1是否能夠使得當前的RNA結(jié)構(gòu)Ur的自由能減少且Si與Ur中的結(jié)構(gòu)單元不重疊,直到對S中的所有元素進行了判斷;子步驟S204,若對S中的所有元素進行了判斷,表示S中已經(jīng)不存在能夠減少RNA結(jié)構(gòu)Ur的自由能量的結(jié)構(gòu)單元,則本次迭代結(jié)束。
3.根據(jù)權(quán)利要 求2所述的方法,其特征在于,所述子步驟S203利用下述表達式來計算當前的RNA結(jié)構(gòu)I的自由能: Enest Emuitii00p+Estem+Ebuige+Einteri00p +Ehai_+EA,其中, E表示RNA結(jié)構(gòu)的自由能; Enest表示RNA結(jié)構(gòu)中嵌套結(jié)構(gòu)的能量,Emultiloop是RNA結(jié)構(gòu)中多分枝環(huán)的能量,Estem是RNA結(jié)構(gòu)中莖區(qū)的能量,Ebulge是RNA結(jié)構(gòu)中凸起的能量,Einteltrap是RNA結(jié)構(gòu)中內(nèi)環(huán)的能量,Ehairpin是RNA結(jié)構(gòu)中發(fā)卡環(huán)的能量,Ea是各結(jié)構(gòu)單元的補償連接參數(shù); Epseudo表示RNA結(jié)構(gòu)中假結(jié)的能量。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,通過如下表達式來計算RNA結(jié)構(gòu)Ur中假結(jié)的能量: Epseudo =A1Sb+A2Pb+A3Nb+A4+A5 A1是產(chǎn)生一個假結(jié)結(jié)構(gòu)中子假結(jié)的能量值,Sb是假結(jié)結(jié)構(gòu)中子假結(jié)的個數(shù),Pb是假結(jié)內(nèi)部邊界上的配對堿基對個數(shù),Nb是假結(jié)內(nèi)部未配對的堿基個數(shù),A2、A3分別是Pb和Nb的能量值,可由實驗測出,A4是假結(jié)中的同軸堆積能權(quán)值,A5是RNA結(jié)構(gòu)單元之間的連接參數(shù),連接參數(shù)表示RNA假結(jié)與RNA結(jié)構(gòu)單元之間的連接修正值。
5.根據(jù)權(quán)利要求1至4中任一項所述的方法,其特征在于,步驟S30中,依據(jù)以下表達式來計算U中各元素與實際RNA結(jié)構(gòu)的相似值:Function (Ur) =E (Ur) X a/n+P (Ur) Xb+c, r e [1,k] 其中,F(xiàn)unction(Ur)表示U1^與實際RNA結(jié)構(gòu)的相似值; E(Ur)表示結(jié)構(gòu)單元14的自由能; a,b、C、k是常數(shù); η表示RNA堿基序列長度; P(Ur)表示Ur中的結(jié)構(gòu)單元在RNA結(jié)構(gòu)中出現(xiàn)頻率的總和。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,a∈[5,15],b∈[l,8],c∈[l,10],k∈ [90,110]。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,a=10,b=3, c=5, k=100。
全文摘要
本發(fā)明公開了一種包含假結(jié)的RNA結(jié)構(gòu)預(yù)測方法。該方法包括確定待預(yù)測RNA序列中的所有結(jié)構(gòu)單元,包括假結(jié),把所有已知存在的結(jié)構(gòu)單元放入結(jié)構(gòu)單元池S0={s1,s2,s3,…sn},n為結(jié)構(gòu)單元總數(shù),sn表示第n個結(jié)構(gòu)單元;基于待預(yù)測RNA序列中的所有結(jié)構(gòu)單元,通過迭代確定U={U1,U2,…,Ur,…,UR},Ur表示第r次迭代得到的RNA結(jié)構(gòu)能量較小的RNA結(jié)構(gòu),R為總迭代次數(shù);根據(jù)Ur中各元素的自由能及其在所有的RNA結(jié)構(gòu)中出現(xiàn)頻率的總和,分別確定Ur中各元素與實際RNA結(jié)構(gòu)的相似值;將U中相似值高的元素預(yù)測為該待預(yù)測RNA序列的RNA結(jié)構(gòu)。本發(fā)明能夠降低RNA結(jié)構(gòu)的預(yù)測的時間、空間復(fù)雜度,提高預(yù)測敏感性和特異性。
文檔編號G06F19/18GK103235902SQ20131013638
公開日2013年8月7日 申請日期2013年4月18日 優(yōu)先權(quán)日2013年4月18日
發(fā)明者劉振棟, 張鵬, 崔巍, 張志軍, 李躍軍, 柳楠, 徐功文 申請人:山東建筑大學(xué)