專利名稱:基于ARM微處理器的siRNA干擾效率預(yù)測新方法
技術(shù)領(lǐng)域:
本發(fā)明屬生物信息學(xué)研究領(lǐng)域,尤其涉及在RNA干擾(RNA干擾是指由雙鏈RNA誘發(fā)同源mRNA高效特異性降解的現(xiàn)象)技術(shù)中進行SiRNA分子設(shè)計時預(yù)測siRNA干擾效率的方法。
背景技術(shù):
RNA干擾技術(shù)是近年來發(fā)展起來的一種有效基因研究工具,它的廣泛應(yīng)用加快了功能基因組學(xué)的研究步伐,同時也推動了基因治療等相關(guān)領(lǐng)域的研究,影響RNA干擾效率的關(guān)鍵因素之一是siRNA序列(siRNA序列是由A、U、G、C四種堿基組成的長度為19或21的一串字符)設(shè)計。RNA干擾技術(shù)要求siRNA序列與靶點處的mRNA序列嚴格匹配,單個堿基錯配可能使RNA干擾失效,因此,設(shè)計有效的siRNA序列能夠提聞基因沉默的效率。大量實驗表明,針對同一靶mRNA設(shè)計的siRNA作用效果差別大,原因是siRNA的沉默效率受到靶mRNA序列和自身序列等因素影響。對于一個靶基因,按照傳統(tǒng)的設(shè)計規(guī)則,會有成百上千個候選的siRNA序列,從中找到最有效的序列是siRNA設(shè)計領(lǐng)域中的難題之一。由于采用生物實驗方法進行siRNA設(shè)計需要大量的人力物力,實驗成本高、周期長、效率低,所以通過生物信息學(xué)與計算機輔助手段來優(yōu)化siRNA設(shè)計,成為實現(xiàn)RNA干擾的有效手段。由于RNA干擾的廣泛應(yīng)用,近年來出現(xiàn)了多個預(yù)測siRNA效率的方法,分為兩類第一類是基于規(guī)則的效率預(yù)測方法;第二類是基于機器學(xué)習(xí)的效率預(yù)測方法。在第一種方法中,研究者們比較、分析了高效siRNA序列與低效siRNA序列的差異,總結(jié)出能提高siRNA設(shè)計效率的規(guī)則,對候選的siRNA序列按照其滿足規(guī)則的情況進行打分,一般情況下,得分較高的認為會有較高的沉默效率。但這種方法將每條規(guī)則的權(quán)重視為相同,沒有區(qū)別對待;此外,這種方法還不能定量評估侯選siRNA序列的效率,只能區(qū)分siRNA有效或無效。因此,此類方法效率較低。第二類是基于機器學(xué)習(xí)的效率預(yù)測方法,這類方法能定量的預(yù)測siRNA的效率,提高了設(shè)計的準確性。所以本方法也采用機器學(xué)習(xí)的方法來進行siRNA干擾效率預(yù)測。目前siRNA效率預(yù)測大多數(shù)都考慮siRNA的特征、雙鏈的能量特征等,但是沒有考慮mRNA的motif特征、結(jié)構(gòu)特征。我們認為mRNA全局的序列特征、結(jié)構(gòu)特征對siRNA的干擾效率有影響,所以提出基于mRNA全局特征的siRNA干擾效率預(yù)測方法。隨機森林(random forest)是2001年Breiman提出的一種新的組合分類器算法。它的特點如下具有較高的準確率,且不容易出現(xiàn)過擬合;采用bootstrap重抽樣方法和隨機選擇特征進行分裂相結(jié)合,使該算法能較好地容忍噪聲;可采用有效的估計方法來處理有缺失的數(shù)據(jù),即使缺失數(shù)據(jù)的比重較大,也可以有很高的準確率。結(jié)合隨機森林的特點,我們采用隨機森林對siRNA的效率進行回歸預(yù)測。這里Bootstrap抽樣方法是指對于一個含有N個樣本的數(shù)據(jù)集,有放回的隨機抽取N次,每一次都從N個樣本中抽一個,由于每一次都是隨機抽取,每一個樣本被抽取的概率是一樣的,所以有的樣本可能被抽中多次,有的可能一次也沒有被抽中。一次也沒有被抽中的樣本稱為袋外數(shù)據(jù)00B(out-of-bag)數(shù)據(jù),采用00B數(shù)據(jù)來估計模型的性能稱為00B估計。對于每一棵樹,我們都可以得到它的00B 誤差估計,取森林中所有樹的OOB誤差估計的均值,即可得到隨機森林的泛化誤差估計。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能快速、準確地預(yù)測siRNA干擾效率的方法。該方法所需要的硬件設(shè)備包括處理器、內(nèi)存、主板。本發(fā)明包括下列步驟1.將 siRNA 序列輸入 CPLD。CPLD (Complex Programmable Logic Device)為復(fù)雜可編程邏輯器件,從PAL和GAL器件發(fā)展而來,相對而言規(guī)模大,結(jié)構(gòu)復(fù)雜,屬于大規(guī)模集成電路范圍,是一種用戶根據(jù)各自需要而自行構(gòu)造邏輯功能的數(shù)字集成電路。CPLD基本設(shè)計方法借助集成開發(fā)軟件平臺,用原理圖、硬件描述語言等方法,生成相應(yīng)的目標文件,通過下載電纜(“在系統(tǒng)”編程)將代碼傳送到目標芯片中來實現(xiàn)設(shè)計。PAL指可編程陣列邏輯,是70年代末由MMI公司率先推出的一種低密度、一次性可編程邏輯器件。GAL為通用陣列邏輯,從PAL發(fā)展而來,因為采用了 EECMOS工藝使得該器件的編程非常方便。2. CPLD通過特征提取規(guī)則表(存放的是特征對應(yīng)的編碼,通過查此表,即可獲得相應(yīng)siRNA的編碼序列),將siRNA序列以編碼的形式存儲于SRAM中,特征提取規(guī)則表存在于計算機系統(tǒng)中,由于數(shù)據(jù)存在存儲器中,我們可以根據(jù)需要,實時調(diào)用它,它將所獲取的siRNA序列,轉(zhuǎn)換為易于系統(tǒng)分析的數(shù)字模式(通過查特征提取規(guī)則表,即可得到siRNA序列所對應(yīng)的數(shù)字編碼)。SRAM是靜態(tài)存儲器,它是一種具有靜止存取功能的內(nèi)存,不需要刷新電路即能保存它內(nèi)部存儲的數(shù)據(jù)。本方法所提取的特征包括兩大類第一類siRNA序列特征I) siRNA序列中每位堿基的數(shù)字化編碼,A為O. 1,U為O. 2,G為O. 3,C為O. 4 ;2) siRNA 序列中 motif (l_3mer)的頻率,Imer 頻率指喊基 A、U、G、C 在 siRNA 序列中的頻率,2mer頻率指堿基組合AA、AU、AG、AC等16個堿基組合在siRNA序列中的頻率,3mer頻率指AAA、AAU、AAG、AAC等64個堿基組合在siRNA序列中的頻率;3)由能量表示的祀序列與siRNA反義鏈形成的雙鏈穩(wěn)定性,按Watson-Crick堿基結(jié)合能量規(guī)則計算雙鏈結(jié)合能,每次取相鄰兩對堿基結(jié)合能量,最后將所有能量求和;4) siRNA雙鏈5’端能量差,反義鏈5’端4對堿基能量和與正義鏈5’端4對堿基能量和之間的差。第二類mRNA序列特征和結(jié)構(gòu)特征I) mRNA序列中motif (l_3mer)的頻率,Imer頻率指喊基A、U、G、C在mRNA序列中的頻率,2mer頻率指堿基組合AA、AU、AG、AC等16個堿基組合在mRNA序列中的頻率,3mer頻率指AAA、AAU、AAG、AAC等64個堿基組合在mRNA序列中的頻率;2) mRNA的GC含量,計算堿基G、C在mRNA序列所占比例;3) mRNA長度,mRNA中堿基個數(shù);4) mRNA莖比率,mRNA通過結(jié)構(gòu)預(yù)測得到的莖區(qū)比例。3.選用ARM微處理器進行siRNA干擾效率預(yù)測。ARM微處理器具有強大的處理能力和極低的功耗,現(xiàn)在越來越多的公司在產(chǎn)品選型的時候使用它。用ARM微處理器進行siRNA干擾效率預(yù)測,具體包括下列步驟
I)將siRNA序列對應(yīng)的數(shù)字化信息,載入到隨機森林模型中。2)根據(jù)已知樣本的siRNA序列對應(yīng)的數(shù)字化信息,建立優(yōu)化的隨機森林模型,通過調(diào)解相應(yīng)的參數(shù),使模型的泛化誤差(即分類器對訓(xùn)練集之外數(shù)據(jù)的誤分率)最小。A、首先采用bootstrap重抽樣方法從初始樣本集中隨機抽取ntree個訓(xùn)練集,每個訓(xùn)練集的大小約為初始樣本集的三分之二,為每一個訓(xùn)練集分別建立分類回歸樹,則會產(chǎn)生由ntree棵決策樹構(gòu)成的一片森林,每棵決策樹都不進行剪枝。由于隨機森林不裁剪回歸樹,所以樹的總個數(shù)ntree默認為500。B、假設(shè)初始樣本有M個特征,則在每棵回歸樹的每個內(nèi)部節(jié)點處隨機抽取mtry個特征作為候選特征(mtry << M),選擇這mtry個特征上最好的分裂方式對節(jié)點進行分裂。在回歸模型中,默認參數(shù)mtry = M/3,在整個森林的生長過程中,mtry的值保持不變。C、每棵回歸樹開始自頂向下的遞歸分枝,一般情況下,設(shè)定葉節(jié)點包含樣本的個數(shù)nodesize為5 (回歸問題),將此作為終止回歸樹生長的條件。D、隨機森林采用bootstrap重抽樣方法來抽取訓(xùn)練樣本,大約有三分之一的數(shù)據(jù)未被抽中,這些數(shù)據(jù)稱為袋外(out-of-bag)數(shù)據(jù)。將由ntree棵回歸樹組成的隨機森林回歸模型,其回歸效果評價采用袋外數(shù)據(jù)(00B)預(yù)測的殘差均方。3)輸入需要預(yù)測的siRNA序列對應(yīng)的數(shù)字化信息到已建立的隨機森林模型中,進行干擾效率預(yù)測,最后將預(yù)測的結(jié)果輸出到LCD液晶顯示器。本發(fā)明首先將siRNA序列進行編碼,編碼時既考慮siRNA的序列特征也考慮mRNA序列和結(jié)構(gòu)信息,將編碼后的數(shù)字化信息,載入到隨機森林中進行效率預(yù)測。首先通過調(diào)解相應(yīng)的參數(shù),使模型的泛化誤差達到最小,從而建立優(yōu)化的預(yù)測模型;然后再把需要預(yù)測的siRNA序列相對應(yīng)的數(shù)字化信息輸入到已建好的模型中,進行siRNA干擾效率的預(yù)測。本發(fā)明使用并行技術(shù)將siRNA的干擾效率更快速準確的預(yù)測出來,本發(fā)明還能對國際公共數(shù)據(jù)庫中隨機選取的siRNA序列進行測試與分析。
圖1為基于ARM微處理器的siRNA干擾效率預(yù)測新方法流程2為基于ARM微處理器的siRNA干擾效率預(yù)測新方法的系統(tǒng)結(jié)構(gòu)示意3為100條負樣本中堿基A在每一列中出現(xiàn)的頻率圖4為100條負樣本中堿基U在每一列中出現(xiàn)的頻率圖5為100條負樣本中堿基G在每一列中出現(xiàn)的頻率圖6為100條負樣本中堿基C在每一列中出現(xiàn)的頻率圖7為100條正樣本中堿基A在每一列中出現(xiàn)的頻率圖8為100條正樣本中堿基U在每一列中出現(xiàn)的頻率圖9為100條正樣本中堿基G在每一列中出現(xiàn)的頻率圖10為100條正樣本中堿基C在每一列中出現(xiàn)的頻率從圖3和圖7可以看出堿基A在正負樣本中出現(xiàn)的頻率有很大差異,在正樣本每列中出現(xiàn)的頻率相對穩(wěn)定;由圖4和圖8可以看出,堿基U在負樣本中出現(xiàn)的頻率在0. 2左右,在正樣本中出現(xiàn)的頻率在0. 28左右;由圖5和圖9可以看出,堿基G在負樣本中出現(xiàn)的頻率在0. 25左右,在正樣本中出現(xiàn)的頻率在0. 175左右;由圖6和圖10可以看出,堿基C在負樣本中出現(xiàn)的頻率在O. 25左右,在正樣本中出現(xiàn)的頻率在O. 2左右。
具體實施例方式本發(fā)明是一種基于ARM微處理器的siRNA干擾效率預(yù)測新方法,如圖1所示,將所得siRNA序列輸入CPLD,通過特征提取規(guī)則表把siRNA序列進行編碼,使siRNA序列以編碼序列的形式存儲于SRAM中,然后用ARM微處理器,進行siRNA干擾效率預(yù)測,在預(yù)測前需要先建立基于隨機森林的回歸模型,通過調(diào)解參數(shù),使模型的泛化誤差達到最小,然后把需要預(yù)測的siRNA序列相對應(yīng)的數(shù)字化信息載入到已建立的隨機森林模型中,進行干擾效率預(yù)測,最后將預(yù)測的結(jié)果輸出到LCD液晶顯示器。
權(quán)利要求
1.基于ARM微處理器的siRNA干擾效率預(yù)測新方法,其特征在于包括下列步驟1)進行siRNA序列預(yù)處理(siRNA序列是由A、U、G、C四種堿基組成的長度為19或21 的一串字符);2)進行siRNA干擾效率的預(yù)測。
2.按權(quán)利要求1所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法,其特征在于步驟I)所述的siRNA序列預(yù)處理包括下列步驟1)將siRNA序列輸入CPLD(CPLD是復(fù)雜可編程邏輯器件,屬于大規(guī)模集成電路范圍,用戶能夠根據(jù)需要自行構(gòu)造邏輯功能);2)通過特征提取規(guī)則表(存放的是特征對應(yīng)的編碼,通過查此表,即可獲得相應(yīng)siRNA 的編碼序列)將siRNA序列以編碼的形式存儲于SRAM (SRAM是靜態(tài)存儲器)中。
3.按權(quán)利要求1所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法,其特征在于步驟2)所述的siRNA序列干擾效率預(yù)測包括下列步驟1)將siRNA序列對應(yīng)的數(shù)字化信息,載入到隨機森林模型中;2)根據(jù)已知樣本的siRNA序列對應(yīng)的數(shù)字化信息,建立優(yōu)化的隨機森林模型,通過調(diào)解相應(yīng)的參數(shù),使模型的泛化誤差(泛化誤差是分類器對訓(xùn)練集之外數(shù)據(jù)的誤分率)最3)輸入需要預(yù)測的siRNA序列對應(yīng)的數(shù)字化信息到已建立的隨機森林模型中,進行干擾效率預(yù)測,最后將預(yù)測的結(jié)果輸出到LCD液晶顯示器。
4.按權(quán)利要求2所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法,其特征在于步驟2)所述的特征提取規(guī)則表中所用特征如下1)siRNA序列特征;2)mRNA序列特征和結(jié)構(gòu)特征。
5.按權(quán)利要求2所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法,其特征在于步驟2)所述的特征提取規(guī)則表存在于計算機系統(tǒng)中,并可實時調(diào)用,它將所獲取的siRNA 序列,轉(zhuǎn)換為易于系統(tǒng)分析的數(shù)字模式。
6.按權(quán)利要求3所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法,其特征在于步驟2),采用bootstrap抽樣方法產(chǎn)生OOB (out-of-bag)數(shù)據(jù),進行OOB估計,得到隨機森林的泛化誤差估計。
7.按權(quán)利要求4所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法,其特征在于所用特征I)中提取了下列特征1)siRNA序列中每位堿基的數(shù)字化編碼,A為O. 1,U為O. 2,G為O. 3,C為O. 4 ;2)siRNA序列中motif (l_3mer)的頻率,Imer頻率指喊基A、U、G、C在siRNA序列中的頻率,2mer頻率指堿基組合AA、AU、AG、AC等16個堿基組合在siRNA序列中的頻率,3mer頻率指AAA、AAU、AAG、AAC等64個堿基組合在siRNA序列中的頻率;3)由能量表示的祀序列與siRNA反義鏈形成的雙鏈穩(wěn)定性,按Watson-Crick堿基結(jié)合能量規(guī)則計算雙鏈結(jié)合能,每次取相鄰兩對堿基結(jié)合能量,最后將所有能量求和;4)siRNA雙鏈5’端能量差,反義鏈5’端4對堿基能量和與正義鏈5’端4對堿基能量和之間的差。
8.按權(quán)利要求4所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法,其特征在于所用特征2)提取了下列特征 1)mRNA序列中motif(l_3mer)的頻率,Imer頻率指喊基A、U、G、C在mRNA序列中的頻率,2mer頻率指堿基組合AA、AU、AG、AC等16個堿基組合在mRNA序列中的頻率,3mer頻率指AAA、AAU、AAG、AAC等64個堿基組合在mRNA序列中的頻率;2)mRNA的GC含量,計算堿基G、C在mRNA序列所占比例;3)mRNA長度,mRNA中堿基個數(shù);4)mRNA莖比率,mRNA通過結(jié)構(gòu)預(yù)測得到的莖區(qū)比例。
全文摘要
本發(fā)明提供一種RNA干擾時預(yù)測siRNA干擾效率的方法,涉及生物信息學(xué)研究領(lǐng)域,其目的在于解決現(xiàn)有預(yù)測siRNA干擾效率方法中準確率不高的問題。本發(fā)明包括如下的步驟將siRNA序列輸入CPLD;按照特征提取規(guī)則表將siRNA序列重新編碼,由于靶mRNA的序列和結(jié)構(gòu)特征也對siRNA干擾效率有影響,故對siRNA序列編碼的同時,也對靶mRNA進行編碼;最后用隨機森林模型進行siRNA干擾效率預(yù)測,在預(yù)測時首先用已知樣本建立優(yōu)化的模型,采用bootstrap抽樣方法產(chǎn)生的OOB數(shù)據(jù)進行OOB估計,通過不斷的調(diào)解模型的參數(shù),使模型的泛化誤差達到最小,然后再用優(yōu)化的模型進行siRNA干擾效率預(yù)測。
文檔編號G06F19/18GK103020489SQ20131000011
公開日2013年4月3日 申請日期2013年1月4日 優(yōu)先權(quán)日2013年1月4日
發(fā)明者劉元寧, 張 浩, 段云娜, 常亞萍, 張曉旭, 韓燁 申請人:吉林大學(xué)