亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

<span id="zb4ad"></span>

基于ARM微處理器的siRNA干擾效率預(yù)測新方法

文檔序號：6397134閱讀：478來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于ARM微處理器的siRNA干擾效率預(yù)測新方法
技術(shù)領(lǐng)域：
本發(fā)明屬生物信息學(xué)研究領(lǐng)域，尤其涉及在RNA干擾(RNA干擾是指由雙鏈RNA誘發(fā)同源mRNA高效特異性降解的現(xiàn)象)技術(shù)中進行SiRNA分子設(shè)計時預(yù)測siRNA干擾效率的方法。
背景技術(shù)：
RNA干擾技術(shù)是近年來發(fā)展起來的一種有效基因研究工具，它的廣泛應(yīng)用加快了功能基因組學(xué)的研究步伐，同時也推動了基因治療等相關(guān)領(lǐng)域的研究，影響RNA干擾效率的關(guān)鍵因素之一是siRNA序列(siRNA序列是由A、U、G、C四種堿基組成的長度為19或21的一串字符)設(shè)計。RNA干擾技術(shù)要求siRNA序列與靶點處的mRNA序列嚴格匹配，單個堿基錯配可能使RNA干擾失效,因此,設(shè)計有效的siRNA序列能夠提聞基因沉默的效率。大量實驗表明，針對同一靶mRNA設(shè)計的siRNA作用效果差別大，原因是siRNA的沉默效率受到靶mRNA序列和自身序列等因素影響。對于一個靶基因，按照傳統(tǒng)的設(shè)計規(guī)則，會有成百上千個候選的siRNA序列，從中找到最有效的序列是siRNA設(shè)計領(lǐng)域中的難題之一。由于采用生物實驗方法進行siRNA設(shè)計需要大量的人力物力，實驗成本高、周期長、效率低，所以通過生物信息學(xué)與計算機輔助手段來優(yōu)化siRNA設(shè)計，成為實現(xiàn)RNA干擾的有效手段。由于RNA干擾的廣泛應(yīng)用，近年來出現(xiàn)了多個預(yù)測siRNA效率的方法，分為兩類第一類是基于規(guī)則的效率預(yù)測方法；第二類是基于機器學(xué)習(xí)的效率預(yù)測方法。在第一種方法中，研究者們比較、分析了高效siRNA序列與低效siRNA序列的差異，總結(jié)出能提高siRNA設(shè)計效率的規(guī)則，對候選的siRNA序列按照其滿足規(guī)則的情況進行打分，一般情況下，得分較高的認為會有較高的沉默效率。但這種方法將每條規(guī)則的權(quán)重視為相同，沒有區(qū)別對待；此外，這種方法還不能定量評估侯選siRNA序列的效率，只能區(qū)分siRNA有效或無效。因此，此類方法效率較低。第二類是基于機器學(xué)習(xí)的效率預(yù)測方法，這類方法能定量的預(yù)測siRNA的效率，提高了設(shè)計的準確性。所以本方法也采用機器學(xué)習(xí)的方法來進行siRNA干擾效率預(yù)測。目前siRNA效率預(yù)測大多數(shù)都考慮siRNA的特征、雙鏈的能量特征等，但是沒有考慮mRNA的motif特征、結(jié)構(gòu)特征。我們認為mRNA全局的序列特征、結(jié)構(gòu)特征對siRNA的干擾效率有影響，所以提出基于mRNA全局特征的siRNA干擾效率預(yù)測方法。隨機森林(random forest)是2001年Breiman提出的一種新的組合分類器算法。它的特點如下具有較高的準確率，且不容易出現(xiàn)過擬合；采用bootstrap重抽樣方法和隨機選擇特征進行分裂相結(jié)合，使該算法能較好地容忍噪聲；可采用有效的估計方法來處理有缺失的數(shù)據(jù)，即使缺失數(shù)據(jù)的比重較大，也可以有很高的準確率。結(jié)合隨機森林的特點，我們采用隨機森林對siRNA的效率進行回歸預(yù)測。這里Bootstrap抽樣方法是指對于一個含有N個樣本的數(shù)據(jù)集，有放回的隨機抽取N次，每一次都從N個樣本中抽一個，由于每一次都是隨機抽取，每一個樣本被抽取的概率是一樣的，所以有的樣本可能被抽中多次，有的可能一次也沒有被抽中。一次也沒有被抽中的樣本稱為袋外數(shù)據(jù)00B(out-of-bag)數(shù)據(jù)，采用00B數(shù)據(jù)來估計模型的性能稱為00B估計。對于每一棵樹，我們都可以得到它的00B 誤差估計，取森林中所有樹的OOB誤差估計的均值，即可得到隨機森林的泛化誤差估計。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能快速、準確地預(yù)測siRNA干擾效率的方法。該方法所需要的硬件設(shè)備包括處理器、內(nèi)存、主板。本發(fā)明包括下列步驟1.將 siRNA 序列輸入 CPLD。CPLD (Complex Programmable Logic Device)為復(fù)雜可編程邏輯器件，從PAL和GAL器件發(fā)展而來，相對而言規(guī)模大，結(jié)構(gòu)復(fù)雜，屬于大規(guī)模集成電路范圍，是一種用戶根據(jù)各自需要而自行構(gòu)造邏輯功能的數(shù)字集成電路。CPLD基本設(shè)計方法借助集成開發(fā)軟件平臺，用原理圖、硬件描述語言等方法，生成相應(yīng)的目標文件，通過下載電纜(“在系統(tǒng)”編程)將代碼傳送到目標芯片中來實現(xiàn)設(shè)計。PAL指可編程陣列邏輯，是70年代末由MMI公司率先推出的一種低密度、一次性可編程邏輯器件。GAL為通用陣列邏輯，從PAL發(fā)展而來，因為采用了 EECMOS工藝使得該器件的編程非常方便。2. CPLD通過特征提取規(guī)則表(存放的是特征對應(yīng)的編碼，通過查此表，即可獲得相應(yīng)siRNA的編碼序列)，將siRNA序列以編碼的形式存儲于SRAM中，特征提取規(guī)則表存在于計算機系統(tǒng)中，由于數(shù)據(jù)存在存儲器中，我們可以根據(jù)需要，實時調(diào)用它，它將所獲取的siRNA序列，轉(zhuǎn)換為易于系統(tǒng)分析的數(shù)字模式(通過查特征提取規(guī)則表，即可得到siRNA序列所對應(yīng)的數(shù)字編碼)。SRAM是靜態(tài)存儲器，它是一種具有靜止存取功能的內(nèi)存，不需要刷新電路即能保存它內(nèi)部存儲的數(shù)據(jù)。本方法所提取的特征包括兩大類第一類siRNA序列特征I) siRNA序列中每位堿基的數(shù)字化編碼，A為O. 1，U為O. 2，G為O. 3，C為O. 4 ;2) siRNA 序列中 motif (l_3mer)的頻率，Imer 頻率指喊基 A、U、G、C 在 siRNA 序列中的頻率，2mer頻率指堿基組合AA、AU、AG、AC等16個堿基組合在siRNA序列中的頻率，3mer頻率指AAA、AAU、AAG、AAC等64個堿基組合在siRNA序列中的頻率；3)由能量表示的祀序列與siRNA反義鏈形成的雙鏈穩(wěn)定性,按Watson-Crick堿基結(jié)合能量規(guī)則計算雙鏈結(jié)合能，每次取相鄰兩對堿基結(jié)合能量，最后將所有能量求和；4) siRNA雙鏈5’端能量差，反義鏈5’端4對堿基能量和與正義鏈5’端4對堿基能量和之間的差。第二類mRNA序列特征和結(jié)構(gòu)特征I) mRNA序列中motif (l_3mer)的頻率，Imer頻率指喊基A、U、G、C在mRNA序列中的頻率，2mer頻率指堿基組合AA、AU、AG、AC等16個堿基組合在mRNA序列中的頻率，3mer頻率指AAA、AAU、AAG、AAC等64個堿基組合在mRNA序列中的頻率；2) mRNA的GC含量，計算堿基G、C在mRNA序列所占比例；3) mRNA長度，mRNA中堿基個數(shù)；4) mRNA莖比率，mRNA通過結(jié)構(gòu)預(yù)測得到的莖區(qū)比例。3.選用ARM微處理器進行siRNA干擾效率預(yù)測。ARM微處理器具有強大的處理能力和極低的功耗，現(xiàn)在越來越多的公司在產(chǎn)品選型的時候使用它。用ARM微處理器進行siRNA干擾效率預(yù)測，具體包括下列步驟
I)將siRNA序列對應(yīng)的數(shù)字化信息，載入到隨機森林模型中。2)根據(jù)已知樣本的siRNA序列對應(yīng)的數(shù)字化信息，建立優(yōu)化的隨機森林模型,通過調(diào)解相應(yīng)的參數(shù)，使模型的泛化誤差(即分類器對訓(xùn)練集之外數(shù)據(jù)的誤分率)最小。A、首先采用bootstrap重抽樣方法從初始樣本集中隨機抽取ntree個訓(xùn)練集,每個訓(xùn)練集的大小約為初始樣本集的三分之二，為每一個訓(xùn)練集分別建立分類回歸樹，則會產(chǎn)生由ntree棵決策樹構(gòu)成的一片森林，每棵決策樹都不進行剪枝。由于隨機森林不裁剪回歸樹，所以樹的總個數(shù)ntree默認為500。B、假設(shè)初始樣本有M個特征，則在每棵回歸樹的每個內(nèi)部節(jié)點處隨機抽取mtry個特征作為候選特征(mtry << M),選擇這mtry個特征上最好的分裂方式對節(jié)點進行分裂。在回歸模型中，默認參數(shù)mtry = M/3,在整個森林的生長過程中，mtry的值保持不變。C、每棵回歸樹開始自頂向下的遞歸分枝，一般情況下，設(shè)定葉節(jié)點包含樣本的個數(shù)nodesize為5 (回歸問題)，將此作為終止回歸樹生長的條件。D、隨機森林采用bootstrap重抽樣方法來抽取訓(xùn)練樣本，大約有三分之一的數(shù)據(jù)未被抽中，這些數(shù)據(jù)稱為袋外(out-of-bag)數(shù)據(jù)。將由ntree棵回歸樹組成的隨機森林回歸模型，其回歸效果評價采用袋外數(shù)據(jù)(00B)預(yù)測的殘差均方。3)輸入需要預(yù)測的siRNA序列對應(yīng)的數(shù)字化信息到已建立的隨機森林模型中，進行干擾效率預(yù)測，最后將預(yù)測的結(jié)果輸出到LCD液晶顯示器。本發(fā)明首先將siRNA序列進行編碼，編碼時既考慮siRNA的序列特征也考慮mRNA序列和結(jié)構(gòu)信息，將編碼后的數(shù)字化信息，載入到隨機森林中進行效率預(yù)測。首先通過調(diào)解相應(yīng)的參數(shù)，使模型的泛化誤差達到最小，從而建立優(yōu)化的預(yù)測模型；然后再把需要預(yù)測的siRNA序列相對應(yīng)的數(shù)字化信息輸入到已建好的模型中，進行siRNA干擾效率的預(yù)測。本發(fā)明使用并行技術(shù)將siRNA的干擾效率更快速準確的預(yù)測出來，本發(fā)明還能對國際公共數(shù)據(jù)庫中隨機選取的siRNA序列進行測試與分析。

圖1為基于ARM微處理器的siRNA干擾效率預(yù)測新方法流程2為基于ARM微處理器的siRNA干擾效率預(yù)測新方法的系統(tǒng)結(jié)構(gòu)示意3為100條負樣本中堿基A在每一列中出現(xiàn)的頻率圖4為100條負樣本中堿基U在每一列中出現(xiàn)的頻率圖5為100條負樣本中堿基G在每一列中出現(xiàn)的頻率圖6為100條負樣本中堿基C在每一列中出現(xiàn)的頻率圖7為100條正樣本中堿基A在每一列中出現(xiàn)的頻率圖8為100條正樣本中堿基U在每一列中出現(xiàn)的頻率圖9為100條正樣本中堿基G在每一列中出現(xiàn)的頻率圖10為100條正樣本中堿基C在每一列中出現(xiàn)的頻率從圖3和圖7可以看出堿基A在正負樣本中出現(xiàn)的頻率有很大差異，在正樣本每列中出現(xiàn)的頻率相對穩(wěn)定；由圖4和圖8可以看出，堿基U在負樣本中出現(xiàn)的頻率在0. 2左右，在正樣本中出現(xiàn)的頻率在0. 28左右；由圖5和圖9可以看出，堿基G在負樣本中出現(xiàn)的頻率在0. 25左右，在正樣本中出現(xiàn)的頻率在0. 175左右；由圖6和圖10可以看出，堿基C在負樣本中出現(xiàn)的頻率在O. 25左右，在正樣本中出現(xiàn)的頻率在O. 2左右。
具體實施例方式本發(fā)明是一種基于ARM微處理器的siRNA干擾效率預(yù)測新方法，如圖1所示，將所得siRNA序列輸入CPLD，通過特征提取規(guī)則表把siRNA序列進行編碼，使siRNA序列以編碼序列的形式存儲于SRAM中，然后用ARM微處理器，進行siRNA干擾效率預(yù)測，在預(yù)測前需要先建立基于隨機森林的回歸模型，通過調(diào)解參數(shù)，使模型的泛化誤差達到最小，然后把需要預(yù)測的siRNA序列相對應(yīng)的數(shù)字化信息載入到已建立的隨機森林模型中，進行干擾效率預(yù)測，最后將預(yù)測的結(jié)果輸出到LCD液晶顯示器。
權(quán)利要求
1.基于ARM微處理器的siRNA干擾效率預(yù)測新方法，其特征在于包括下列步驟1)進行siRNA序列預(yù)處理(siRNA序列是由A、U、G、C四種堿基組成的長度為19或21 的一串字符)；2)進行siRNA干擾效率的預(yù)測。
2.按權(quán)利要求1所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法，其特征在于步驟I)所述的siRNA序列預(yù)處理包括下列步驟1)將siRNA序列輸入CPLD(CPLD是復(fù)雜可編程邏輯器件，屬于大規(guī)模集成電路范圍，用戶能夠根據(jù)需要自行構(gòu)造邏輯功能)；2)通過特征提取規(guī)則表(存放的是特征對應(yīng)的編碼，通過查此表，即可獲得相應(yīng)siRNA 的編碼序列)將siRNA序列以編碼的形式存儲于SRAM (SRAM是靜態(tài)存儲器)中。
3.按權(quán)利要求1所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法，其特征在于步驟2)所述的siRNA序列干擾效率預(yù)測包括下列步驟1)將siRNA序列對應(yīng)的數(shù)字化信息，載入到隨機森林模型中；2)根據(jù)已知樣本的siRNA序列對應(yīng)的數(shù)字化信息，建立優(yōu)化的隨機森林模型，通過調(diào)解相應(yīng)的參數(shù)，使模型的泛化誤差(泛化誤差是分類器對訓(xùn)練集之外數(shù)據(jù)的誤分率)最3)輸入需要預(yù)測的siRNA序列對應(yīng)的數(shù)字化信息到已建立的隨機森林模型中，進行干擾效率預(yù)測，最后將預(yù)測的結(jié)果輸出到LCD液晶顯示器。
4.按權(quán)利要求2所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法，其特征在于步驟2)所述的特征提取規(guī)則表中所用特征如下1)siRNA序列特征；2)mRNA序列特征和結(jié)構(gòu)特征。
5.按權(quán)利要求2所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法，其特征在于步驟2)所述的特征提取規(guī)則表存在于計算機系統(tǒng)中，并可實時調(diào)用，它將所獲取的siRNA 序列，轉(zhuǎn)換為易于系統(tǒng)分析的數(shù)字模式。
6.按權(quán)利要求3所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法，其特征在于步驟2),采用bootstrap抽樣方法產(chǎn)生OOB (out-of-bag)數(shù)據(jù),進行OOB估計,得到隨機森林的泛化誤差估計。
7.按權(quán)利要求4所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法，其特征在于所用特征I)中提取了下列特征1)siRNA序列中每位堿基的數(shù)字化編碼，A為O. 1，U為O. 2，G為O. 3，C為O. 4 ;2)siRNA序列中motif (l_3mer)的頻率,Imer頻率指喊基A、U、G、C在siRNA序列中的頻率，2mer頻率指堿基組合AA、AU、AG、AC等16個堿基組合在siRNA序列中的頻率，3mer頻率指AAA、AAU、AAG、AAC等64個堿基組合在siRNA序列中的頻率；3)由能量表示的祀序列與siRNA反義鏈形成的雙鏈穩(wěn)定性,按Watson-Crick堿基結(jié)合能量規(guī)則計算雙鏈結(jié)合能，每次取相鄰兩對堿基結(jié)合能量，最后將所有能量求和；4)siRNA雙鏈5’端能量差，反義鏈5’端4對堿基能量和與正義鏈5’端4對堿基能量和之間的差。
8.按權(quán)利要求4所述的基于ARM微處理器的siRNA干擾效率預(yù)測新方法，其特征在于所用特征2)提取了下列特征 1)mRNA序列中motif(l_3mer)的頻率，Imer頻率指喊基A、U、G、C在mRNA序列中的頻率，2mer頻率指堿基組合AA、AU、AG、AC等16個堿基組合在mRNA序列中的頻率，3mer頻率指AAA、AAU、AAG、AAC等64個堿基組合在mRNA序列中的頻率；2)mRNA的GC含量，計算堿基G、C在mRNA序列所占比例；3)mRNA長度，mRNA中堿基個數(shù)；4)mRNA莖比率，mRNA通過結(jié)構(gòu)預(yù)測得到的莖區(qū)比例。
全文摘要
本發(fā)明提供一種RNA干擾時預(yù)測siRNA干擾效率的方法，涉及生物信息學(xué)研究領(lǐng)域，其目的在于解決現(xiàn)有預(yù)測siRNA干擾效率方法中準確率不高的問題。本發(fā)明包括如下的步驟將siRNA序列輸入CPLD；按照特征提取規(guī)則表將siRNA序列重新編碼，由于靶mRNA的序列和結(jié)構(gòu)特征也對siRNA干擾效率有影響，故對siRNA序列編碼的同時，也對靶mRNA進行編碼；最后用隨機森林模型進行siRNA干擾效率預(yù)測，在預(yù)測時首先用已知樣本建立優(yōu)化的模型，采用bootstrap抽樣方法產(chǎn)生的OOB數(shù)據(jù)進行OOB估計，通過不斷的調(diào)解模型的參數(shù)，使模型的泛化誤差達到最小，然后再用優(yōu)化的模型進行siRNA干擾效率預(yù)測。
文檔編號G06F19/18GK103020489SQ20131000011
公開日2013年4月3日申請日期2013年1月4日優(yōu)先權(quán)日2013年1月4日
發(fā)明者劉元寧, 張浩, 段云娜, 常亞萍, 張曉旭, 韓燁申請人:吉林大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉元寧;張浩;段云娜;常亞萍;張曉旭;韓燁
技術(shù)所有人：吉林大學(xué)
我是此專利的發(fā)明人

上一篇：一種倉庫庫區(qū)條形碼標簽及其編碼方法
上一篇：天線裝置以及通信終端裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

1

精彩留言，會給你點贊！

微處理器相關(guān)技術(shù)

intel微處理器相關(guān)技術(shù)

嵌入式微處理器相關(guān)技術(shù)

微處理器的主要功能相關(guān)技術(shù)

8086微處理器相關(guān)技術(shù)

微處理器具有相關(guān)技術(shù)

arm微處理器相關(guān)技術(shù)

<rt id="xfv0q"></rt>

<ol id="xfv0q"></ol>