亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于CRISPR/Cas9的sgRNA的設(shè)計(jì)方法與流程

文檔序號(hào)：12271987閱讀：1898來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于CRISPR/Cas9的sgRNA的設(shè)計(jì)方法與流程

本發(fā)明涉及基因編輯研究領(lǐng)域，尤其是一種基于CRISPR/Cas9基因編輯技術(shù)的sgRNA的設(shè)計(jì)方法。
背景技術(shù)：
：隨著分子生物學(xué)的發(fā)展，人們對(duì)于生命的構(gòu)成元素有了更深一層的理解，但是生命過(guò)程的機(jī)制，尤其是某些疾病的治病機(jī)理還存在很多不解?；蚺c表型之間的關(guān)系，基因與基因之間的相互影響，迫切需要一種能在活體內(nèi)快速敲除和插入基因的工程技術(shù)。CRISPR/Cas9系統(tǒng)應(yīng)時(shí)出現(xiàn)，滿足了科研工作者的這個(gè)需求。CRISPR/Cas9系統(tǒng)(Clusteredregularlyinterspacedshortpalindromicrepeats/CRISPR-associatedprotein9)是一種操作簡(jiǎn)單，適用性廣泛的基因編輯工具。整個(gè)系統(tǒng)主要由一個(gè)核酸切割酶(Cas9)和一個(gè)起引導(dǎo)識(shí)別作用的RNA(sgRNA)組成。sgRNA通過(guò)堿基互補(bǔ)配對(duì)與靶基因位點(diǎn)識(shí)別，然后招募Cas9進(jìn)行酶切，產(chǎn)生雙鏈斷裂，從而實(shí)現(xiàn)在DNA水平的基因編輯。因?yàn)槠溥m用性廣，方便省時(shí)，很快應(yīng)用于各個(gè)方面，尤其在癌癥模型建立和基因治療的探究方面，有著很大的優(yōu)越性。然而，在科學(xué)家的不斷探索中發(fā)現(xiàn)，同一細(xì)胞中針對(duì)同一基因設(shè)計(jì)的不同sgRNA的酶切效率有很大的差異，如果不能設(shè)計(jì)高效率的sgRNA，只能通過(guò)增加濃度來(lái)彌補(bǔ)，這樣將會(huì)給細(xì)胞帶來(lái)很多的基因垃圾，同時(shí)產(chǎn)生高比例的脫靶，給科研人員的研究帶來(lái)很大的不便，因此設(shè)計(jì)一個(gè)高酶切效率的sgRNA對(duì)于基因方面的研究非常重要。目前，已有的sgRNA的設(shè)計(jì)軟件有近30種，主要分為兩類：一類是從實(shí)驗(yàn)中總結(jié)sgRNA的一些規(guī)則，例如配對(duì)的sgRNA序列一端必需含有PAM序列，5’末端應(yīng)該為GG，GC含量應(yīng)該保持在60％左右，種子序列不能容忍錯(cuò)配等，然后通過(guò)設(shè)置條件直接篩選，；另一類主要通過(guò)運(yùn)用統(tǒng)計(jì)學(xué)方法給每個(gè)堿基賦予一個(gè)權(quán)重來(lái)計(jì)算sgRNA的特異性，如CRISPRDesign。這兩種類型的軟件都建立的是一個(gè)通用性的模型，然而由于不同物種和不同細(xì)胞之間有很大的異質(zhì)性，導(dǎo)致現(xiàn)存軟件的預(yù)測(cè)效能并不是很好，且因?yàn)椴煌瑢?shí)驗(yàn)條件下的異質(zhì)性對(duì)sgRNA的酶切效率有一定的影響，通用的模型評(píng)估準(zhǔn)確率比較低。因此，考慮不同平臺(tái)物種數(shù)據(jù)之間的異質(zhì)性，用不同平臺(tái)或者物種的數(shù)據(jù)建立個(gè)性化的模型以提高sgRNA的特異性和高效性，對(duì)于CRISPR/Cas9系統(tǒng)脫靶問(wèn)題的研究極為重要。技術(shù)實(shí)現(xiàn)要素：本發(fā)明的目的是針對(duì)上述問(wèn)題提供一種準(zhǔn)確率高、應(yīng)用范圍廣的基于CRISPR/Cas9的sgRNA的設(shè)計(jì)方法。為實(shí)現(xiàn)本發(fā)明所述目的，本發(fā)明提供一種基于CRISPR/Cas9的sgRNA的設(shè)計(jì)方法，該方法包括下列步驟：1)獲取sgRNA和對(duì)應(yīng)的Cas9的酶切效率的值，具體為：11)從文獻(xiàn)中獲取sgRNA以及對(duì)應(yīng)的Cas9的酶切效率的值；12)從SRA數(shù)據(jù)庫(kù)中獲取sgRNA，計(jì)算獲取對(duì)應(yīng)的Cas9的酶切效率的值；13)按照物種、細(xì)胞類型和實(shí)驗(yàn)條件將步驟11)和12)中獲取到的數(shù)據(jù)分類成不同的參考基因組，每個(gè)參考基因組中都列出一份第一列為sgRNA名稱、第二列為sgRNA序列以及第三列為對(duì)應(yīng)的Cas9的酶切效率的表格；2)建立個(gè)性化sgRNA設(shè)計(jì)模型，具體為：21)根據(jù)需求從相應(yīng)的參考基因組中，提取步驟1)中獲取的sgRNA的序列信息；22)對(duì)步驟21)中提取的sgRNA序列信息按照二進(jìn)制規(guī)則進(jìn)行二進(jìn)制編碼；23)對(duì)步驟21)中獲取的sgRNA，判斷其Cas9的酶切效率的數(shù)據(jù)類型，若為數(shù)值型則進(jìn)入步驟24)，若為分類型則進(jìn)入步驟25)；24)對(duì)步驟22)中編碼后的sgRNA序列信息，用Lasso模型進(jìn)行特征提取，根據(jù)標(biāo)準(zhǔn)線性回歸建立個(gè)性化sgRNA設(shè)計(jì)模型；25)對(duì)步驟22)中編碼后的sgRNA序列信息，用二分類邏輯回歸中的L1正則化進(jìn)行特征選擇，再根據(jù)二分類邏輯回歸中的L2正則化建立個(gè)性化sgRNA設(shè)計(jì)模型；3)運(yùn)用NDCG算法衡量步驟2)中建立的個(gè)性化sgRNA設(shè)計(jì)模型的質(zhì)量并更新SRA數(shù)據(jù)庫(kù)，具體為：31)計(jì)算步驟2)中建立的個(gè)性化sgRNA設(shè)計(jì)模型的NDCG值；32)判斷現(xiàn)有SRA數(shù)據(jù)庫(kù)中是否有對(duì)應(yīng)的個(gè)性化sgRNA模型，若否則將其添加進(jìn)SRA數(shù)據(jù)庫(kù)，若是則進(jìn)入步驟33)；33)比較該個(gè)性化sgRNA模型與對(duì)應(yīng)的SRA數(shù)據(jù)庫(kù)中的sgRNA模型，選擇NDCG值大的一個(gè)存儲(chǔ)在SRA數(shù)據(jù)庫(kù)中；4)設(shè)計(jì)sgRNA并給出每個(gè)sgRNA的評(píng)估值，具體為：41)根據(jù)用戶給出的基因組區(qū)域，從SRA數(shù)據(jù)庫(kù)中選取合適的參考基因組，從中搜索所有符合設(shè)計(jì)規(guī)則的sgRNA，將其作為設(shè)計(jì)的sgRNA；42)對(duì)步驟41)中設(shè)計(jì)的sgRNA，運(yùn)用步驟2)中建立的個(gè)性化sgRNA模型進(jìn)行評(píng)估。優(yōu)選地，所述步驟12)中計(jì)算得到對(duì)應(yīng)的Cas9的酶切效率的值具體為：121)把sgRNA和相對(duì)應(yīng)的二代測(cè)序的讀長(zhǎng)比對(duì)到參考基因組上；122)取出包含sgRNA的讀長(zhǎng)；123)判斷在切割點(diǎn)是否產(chǎn)生DNA上的插入或刪除以及DNA上的插入或刪除是否為移碼突變；124)統(tǒng)計(jì)每個(gè)sgRNA的移碼突變率，具體為：125)將步驟124)中計(jì)算得到的移碼突變率作為Cas9的酶切效率的值。優(yōu)選地，所述步驟21)中sgRNA的序列信息包括sgRNA序列、sgRNA識(shí)別DNA必需的標(biāo)志片段以及sgRNA的spacer的上下游的堿基，所述sgRNA的spacer的上下游的堿基長(zhǎng)度為平臺(tái)默認(rèn)值或用戶設(shè)置的值。優(yōu)選地，所述步驟22)中的二進(jìn)制規(guī)則具體為：A對(duì)應(yīng)1000，C對(duì)應(yīng)0100，G對(duì)應(yīng)0010，T對(duì)應(yīng)0001，N對(duì)應(yīng)0000。優(yōu)選地，所述步驟24)中用Lasso模型進(jìn)行特征提取是通過(guò)提取非零權(quán)重來(lái)選擇特征向量，具體為：其中，w是被估計(jì)的特征向量的權(quán)重，x是被選擇的sgRNA的特征向量，n是sgRNA的數(shù)量，y是sgRNA對(duì)應(yīng)的Cas9的酶切效率的值；α是一個(gè)常數(shù)，||w||1是參數(shù)向量的矩陣；Lasso模型通過(guò)增加α||w||1來(lái)解這個(gè)最小二乘損失函數(shù)，通過(guò)遍歷正則化矩陣，非零權(quán)重的特征被提取出來(lái)。優(yōu)選地，所述步驟25)中的L1正則化具體為：其中，w和c是被估計(jì)的特征的權(quán)重和截距，X是編碼的sgRNA的二進(jìn)制矩陣，n是sgRNA的數(shù)量，y是sgRNA對(duì)應(yīng)的Cas9的酶切效率的值。優(yōu)選地，所述L2正則化具體為：優(yōu)選地，所述步驟31)中計(jì)算建立的個(gè)性化sgRNA設(shè)計(jì)模型的NDCG值具體為：其中，DCG是用預(yù)測(cè)排序計(jì)算的數(shù)值，IDCG是用真實(shí)排序計(jì)算所得的理想的DCG，reli是第i位置預(yù)測(cè)的排序值。優(yōu)選地，所述步驟41)中設(shè)計(jì)規(guī)則具體為：20bp+PAM其中，bp為表示DNA長(zhǎng)度的單位，PAM為sgRNA識(shí)別DNA必需的標(biāo)志片段。與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果：(1)針對(duì)不同物種不同類型細(xì)胞，使用了個(gè)性化的策略，并用數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)算法進(jìn)行建模，評(píng)估準(zhǔn)確率有很大程度的提高。(2)使用新的編碼規(guī)則，使得找到的特征更加完整，不僅限于PAM和spacer之間。(3)賦予了用戶自己構(gòu)建模型的流程，使得應(yīng)用范圍更廣，不僅限于數(shù)據(jù)庫(kù)中僅有的一些物種。(4)使用NGS數(shù)據(jù)的OTF率作為酶切率，擴(kuò)大了可分析數(shù)據(jù)的范圍；(5)用戶可以上傳自己的數(shù)據(jù)來(lái)擴(kuò)充數(shù)據(jù)庫(kù)，加速了數(shù)據(jù)的積累，有利于解決現(xiàn)在因數(shù)據(jù)量不足導(dǎo)致不能很好設(shè)計(jì)最優(yōu)sgRNA的困境。附圖說(shuō)明圖1為建立個(gè)性化sgRNA模型與模型評(píng)估的方法流程圖；圖2為設(shè)計(jì)和評(píng)估sgRNA的方法流程圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。本實(shí)施例以本發(fā)明技術(shù)方案為前提進(jìn)行實(shí)施，給出了詳細(xì)的實(shí)施方式和具體的操作過(guò)程，但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。縮寫(xiě)詞說(shuō)明：CRISPR：Clusteredregularlyinterspacedshortpalindromicrepeats成簇的規(guī)律的間隔的小回文重復(fù)序列Cas9：跟CRISPRII型系統(tǒng)相關(guān)的酶NGS：NextGenerationSequencing，二代測(cè)序PAM：Protospacer-adjacentmotif，sgRNA識(shí)別DNA必需的標(biāo)志片段sgRNA：CRISPR/Cas9系統(tǒng)中起引導(dǎo)作用的RNAindel：CRISPR/Cas9編輯引起的DNA上的插入、刪除spacer：sgRNA中起堿基互補(bǔ)配對(duì)的20個(gè)左右的堿基OTF：outofframe，移碼突變。Read：讀長(zhǎng)，是高通量測(cè)序中一個(gè)反應(yīng)獲得的測(cè)序序列。本實(shí)施例提供一種基于CRISPR/Cas9的sgRNA的設(shè)計(jì)方法，針對(duì)不同物種不同類型細(xì)胞建立自己個(gè)性化sgRNA設(shè)計(jì)模型的流程，可以根據(jù)不同需求建立模型并設(shè)計(jì)sgRNA，具體包括下列四個(gè)步驟：(1)數(shù)據(jù)收集：從文獻(xiàn)中收集到的收據(jù)一般為兩類：sgRNA與相對(duì)應(yīng)的酶切效率數(shù)值型或者sgRNA與相對(duì)應(yīng)的酶切效率分類型(如有效或者無(wú)效二分類)；從SRA數(shù)據(jù)庫(kù)中下載的NGS則只有數(shù)值型一種。因?yàn)镹GS數(shù)據(jù)通過(guò)統(tǒng)計(jì)OTF率后的流程與文獻(xiàn)中收集的數(shù)值型一致，故本實(shí)施例只對(duì)文獻(xiàn)分類型和NGS兩種數(shù)據(jù)的進(jìn)行闡述。分類型數(shù)據(jù)：針對(duì)從文獻(xiàn)中收集的分類型數(shù)據(jù)，本實(shí)施例規(guī)定有效為1，無(wú)效為0，整理成如表1的格式。表1sgIDSequenceScoresgRNA_1CGCAACCTGCTCAGCGCCTACGG1sgRNA_2CAGTCTACATAACACGCCCATGG1sgRNA_3CGCAACCTGCTCAGCGCCTACGG1………………sgRNA_1_1GGCAACCGTGGCGGCAATCGAGG0sgRNA_2_2CTTCTCGGAATTCGGTGAAGGTGG0sgRNA_3_3AACCTCCCGGCTTCTCGGAATTCGG0………………數(shù)值型數(shù)據(jù)：針對(duì)NGS的數(shù)值型數(shù)據(jù)，首先通過(guò)BWA分別把sgRNA的序列和NGS的reads比對(duì)到人類參考基因組上，取出包含sgRNA的reads，并判斷在切割點(diǎn)是否產(chǎn)生indel以及indel是否是OTF，然后統(tǒng)計(jì)每個(gè)sgRNA的OTF率(OTF率＝包含該sgRNA并且是OTF的reads的總數(shù)除以包含該sgRNA的總reads數(shù))。最后整理為如表2的格式。表2sgIDSequenceScoresgRNA_1CGCAACCTGCTCAGCGCCTACGG0.2345sgRNA_2CAGTCTACATAACACGCCCATGG0.7846sgRNA_3CGCAACCTGCTCAGCGCCTACGG0.2367………………(2)建立模型：如圖1所示，從相應(yīng)的參考基因組提取收集到的sgRNA的序列信息。假設(shè)設(shè)置上下游序列分別為35和32個(gè)堿基，則取出的序列為90(35+20+3+32)個(gè)堿基。CACCTGGTATGTTCGTATCGGGCAGAATATCGCAACCTGCTCAGCGCCTACGGTCCATCTCGCTCAGGTACGACTGACCGACCCAGTCTA。對(duì)提取的sgRNA信息進(jìn)行二進(jìn)制編碼，規(guī)則如表3所示。表3則以上取出90個(gè)堿基可編碼為：010010000100010000010010001000011000000100100001000101000010000110000001010000100010001001001000001010001000000110000001010000100100100010000100010000010010010000010100100000100100001001000100000110000100001000100001010001001000000101000001010000100100000101001000001000100001100001000010100001000001001010000100010000101000010001000100100000100001010000011000用機(jī)器學(xué)習(xí)方法提取特征，建立個(gè)性化sgRNA設(shè)計(jì)模型。針對(duì)分類型數(shù)據(jù)，用邏輯回歸來(lái)選擇特征和建立預(yù)測(cè)模型。二分類邏輯回歸有兩個(gè)可選的正則化，本發(fā)明用L1正則化進(jìn)行特征選擇，L2正則化建立模型。L1正則化邏輯回歸解下列稀疏特征選擇的最優(yōu)化問(wèn)題：其中，w和c是被估計(jì)的特征的權(quán)重和截距，X是訓(xùn)練樣本的特征表示，n是訓(xùn)練樣本的數(shù)量，y是sgRNA相對(duì)應(yīng)的酶切效率值。用L2懲罰邏輯回歸解最小化價(jià)值函數(shù)：針對(duì)數(shù)值型數(shù)據(jù)，用Lasso模型來(lái)做特征選擇，標(biāo)準(zhǔn)線性回歸來(lái)建立預(yù)測(cè)模型。Lasso是估計(jì)稀疏相關(guān)系數(shù)的線性模型，主要通過(guò)提取非零權(quán)重來(lái)選擇特征向量。最小化目標(biāo)函數(shù)為：其中，w是被估計(jì)的特征向量的權(quán)重，x是被選擇的sgRNA的特征向量，n是訓(xùn)練樣本的數(shù)量，y是sgRNA相對(duì)應(yīng)的酶切效率值；α是一個(gè)常數(shù)，||w||1是參數(shù)向量的矩陣；Lasso模型通過(guò)增加α||w||1來(lái)解這個(gè)最小二乘損失函數(shù)，通過(guò)遍歷正則化矩陣，非零權(quán)重的特征被提取出來(lái)，這些特征被認(rèn)為是重要的影響sgRNA酶切效率的元素。選到這些特征后，然后用一個(gè)標(biāo)準(zhǔn)線性回歸建立一個(gè)評(píng)估模型。數(shù)值型和分類型的建模結(jié)果都產(chǎn)生兩個(gè)文件：一個(gè)是xml文件，內(nèi)容包含有選擇的特征，和交叉驗(yàn)證的結(jié)果；另一個(gè)文件是pkl文件，內(nèi)容為建立的預(yù)測(cè)模型，二進(jìn)制文件。xml文件內(nèi)容如下：(3)評(píng)估模型：采用NDCG算法衡量預(yù)測(cè)模型的質(zhì)量，NDCG(NormalizedDiscountedCumulativeGain，歸一化折損累積增益)是主要用來(lái)衡量一個(gè)排序模型的效能，它的值代表著預(yù)測(cè)的排序結(jié)果和實(shí)際的排序之間的相似性，范圍在0和1之間，1表示完全一致，數(shù)值越大代表著這個(gè)模型越好。具體公式如下：DCG(DiscountedCumulativeGain，折損累積增益)是用預(yù)測(cè)排序計(jì)算的數(shù)值，IDCG(idealDCG)，是理想的DCG，用真實(shí)排序計(jì)算所得。DCG的數(shù)學(xué)定義如下：其中，reli是第i位置預(yù)測(cè)的排序值。如下表所示，sgID為sgRNA的名稱，seq為sgRNA的spacer序列，BenchmarkScore為基準(zhǔn)分?jǐn)?shù)，BS_rank為BenchmarkScore的排序，Cage為本發(fā)明預(yù)測(cè)模型評(píng)估的分?jǐn)?shù)，C_rank為Cage的排序如表4所示。表4sgIDseqBenchmarkScoreBS_rankCageScoreC_ranksg1000GCAGGTACCCTGCAACGTCGCGG0.78945686510.69051sg1001CTCCACTAGTCCCCGCGCCGCGG0.50642216620.60262sg1GTAATGGCTTCCTCGTGAGTTGG0.32573832630.55483sg1002GACTCCGTTGGGATCCGCGCCGG0.09207899140.50954sg10ATCTTAAGCAAACGCTTACCAGG0.07225557550.49595sg1003CCCGAAACGGTTGACTCCGTTGG0.03755237560.44736sg1004AGGCGCGCGATCCAGGTAGCTGG0.01992247770.32818sg100AAAAAGCTGATGAAGTTGTTTGG0.01729653980.33577sg1005CGGGGCCACCGCGACGTTGCAGG0.00220678790.30569………………………………TOP50NDCG＝0.876322904TOP10％NDCG＝0.84340749如果數(shù)據(jù)庫(kù)中沒(méi)有此模型，則更新到數(shù)據(jù)庫(kù)，否則算出兩組的NDCG值進(jìn)行比較，若新的模型比已有模型的NDCG值大，則可更新到數(shù)據(jù)庫(kù)。(4)設(shè)計(jì)和評(píng)估：如圖2所示，針對(duì)用戶已設(shè)計(jì)好的sgRNA進(jìn)行評(píng)估或者針對(duì)用戶給出的基因組區(qū)域(如chromosome1,1,000,000to1,002,000,hg19)，進(jìn)行sgRNA的設(shè)計(jì)，首先確定要評(píng)估的sgRNA的物種或者細(xì)胞類型，然后選擇適合的模型進(jìn)行評(píng)估，如果沒(méi)有合適的模型，可選擇相類似的模型，本實(shí)施例提供了涉及3個(gè)物種8種細(xì)胞的10個(gè)模型以供選擇使用。結(jié)果輸出如表5所示。表5至此，用戶可以選擇適合自己需求的sgRNA進(jìn)行下一步的研究。當(dāng)前第1頁(yè)1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉琦;啜國(guó)暉;陳亞男;閆紀(jì)芳;
技術(shù)所有人：同濟(jì)大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

1

精彩留言，會(huì)給你點(diǎn)贊！