本發(fā)明涉及基因編輯研究領(lǐng)域,尤其是一種基于CRISPR/Cas9基因編輯技術(shù)的sgRNA的設(shè)計(jì)方法。
背景技術(shù):
:隨著分子生物學(xué)的發(fā)展,人們對(duì)于生命的構(gòu)成元素有了更深一層的理解,但是生命過(guò)程的機(jī)制,尤其是某些疾病的治病機(jī)理還存在很多不解?;蚺c表型之間的關(guān)系,基因與基因之間的相互影響,迫切需要一種能在活體內(nèi)快速敲除和插入基因的工程技術(shù)。CRISPR/Cas9系統(tǒng)應(yīng)時(shí)出現(xiàn),滿足了科研工作者的這個(gè)需求。CRISPR/Cas9系統(tǒng)(Clusteredregularlyinterspacedshortpalindromicrepeats/CRISPR-associatedprotein9)是一種操作簡(jiǎn)單,適用性廣泛的基因編輯工具。整個(gè)系統(tǒng)主要由一個(gè)核酸切割酶(Cas9)和一個(gè)起引導(dǎo)識(shí)別作用的RNA(sgRNA)組成。sgRNA通過(guò)堿基互補(bǔ)配對(duì)與靶基因位點(diǎn)識(shí)別,然后招募Cas9進(jìn)行酶切,產(chǎn)生雙鏈斷裂,從而實(shí)現(xiàn)在DNA水平的基因編輯。因?yàn)槠溥m用性廣,方便省時(shí),很快應(yīng)用于各個(gè)方面,尤其在癌癥模型建立和基因治療的探究方面,有著很大的優(yōu)越性。然而,在科學(xué)家的不斷探索中發(fā)現(xiàn),同一細(xì)胞中針對(duì)同一基因設(shè)計(jì)的不同sgRNA的酶切效率有很大的差異,如果不能設(shè)計(jì)高效率的sgRNA,只能通過(guò)增加濃度來(lái)彌補(bǔ),這樣將會(huì)給細(xì)胞帶來(lái)很多的基因垃圾,同時(shí)產(chǎn)生高比例的脫靶,給科研人員的研究帶來(lái)很大的不便,因此設(shè)計(jì)一個(gè)高酶切效率的sgRNA對(duì)于基因方面的研究非常重要。目前,已有的sgRNA的設(shè)計(jì)軟件有近30種,主要分為兩類:一類是從實(shí)驗(yàn)中總結(jié)sgRNA的一些規(guī)則,例如配對(duì)的sgRNA序列一端必需含有PAM序列,5’末端應(yīng)該為GG,GC含量應(yīng)該保持在60%左右,種子序列不能容忍錯(cuò)配等,然后通過(guò)設(shè)置條件直接篩選,;另一類主要通過(guò)運(yùn)用統(tǒng)計(jì)學(xué)方法給每個(gè)堿基賦予一個(gè)權(quán)重來(lái)計(jì)算sgRNA的特異性,如CRISPRDesign。這兩種類型的軟件都建立的是一個(gè)通用性的模型,然而由于不同物種和不同細(xì)胞之間有很大的異質(zhì)性,導(dǎo)致現(xiàn)存軟件的預(yù)測(cè)效能并不是很好,且因?yàn)椴煌瑢?shí)驗(yàn)條件下的異質(zhì)性對(duì)sgRNA的酶切效率有一定的影響,通用的模型評(píng)估準(zhǔn)確率比較低。因此,考慮不同平臺(tái)物種數(shù)據(jù)之間的異質(zhì)性,用不同平臺(tái)或者物種的數(shù)據(jù)建立個(gè)性化的模型以提高sgRNA的特異性和高效性,對(duì)于CRISPR/Cas9系統(tǒng)脫靶問(wèn)題的研究極為重要。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是針對(duì)上述問(wèn)題提供一種準(zhǔn)確率高、應(yīng)用范圍廣的基于CRISPR/Cas9的sgRNA的設(shè)計(jì)方法。為實(shí)現(xiàn)本發(fā)明所述目的,本發(fā)明提供一種基于CRISPR/Cas9的sgRNA的設(shè)計(jì)方法,該方法包括下列步驟:1)獲取sgRNA和對(duì)應(yīng)的Cas9的酶切效率的值,具體為:11)從文獻(xiàn)中獲取sgRNA以及對(duì)應(yīng)的Cas9的酶切效率的值;12)從SRA數(shù)據(jù)庫(kù)中獲取sgRNA,計(jì)算獲取對(duì)應(yīng)的Cas9的酶切效率的值;13)按照物種、細(xì)胞類型和實(shí)驗(yàn)條件將步驟11)和12)中獲取到的數(shù)據(jù)分類成不同的參考基因組,每個(gè)參考基因組中都列出一份第一列為sgRNA名稱、第二列為sgRNA序列以及第三列為對(duì)應(yīng)的Cas9的酶切效率的表格;2)建立個(gè)性化sgRNA設(shè)計(jì)模型,具體為:21)根據(jù)需求從相應(yīng)的參考基因組中,提取步驟1)中獲取的sgRNA的序列信息;22)對(duì)步驟21)中提取的sgRNA序列信息按照二進(jìn)制規(guī)則進(jìn)行二進(jìn)制編碼;23)對(duì)步驟21)中獲取的sgRNA,判斷其Cas9的酶切效率的數(shù)據(jù)類型,若為數(shù)值型則進(jìn)入步驟24),若為分類型則進(jìn)入步驟25);24)對(duì)步驟22)中編碼后的sgRNA序列信息,用Lasso模型進(jìn)行特征提取,根據(jù)標(biāo)準(zhǔn)線性回歸建立個(gè)性化sgRNA設(shè)計(jì)模型;25)對(duì)步驟22)中編碼后的sgRNA序列信息,用二分類邏輯回歸中的L1正則化進(jìn)行特征選擇,再根據(jù)二分類邏輯回歸中的L2正則化建立個(gè)性化sgRNA設(shè)計(jì)模型;3)運(yùn)用NDCG算法衡量步驟2)中建立的個(gè)性化sgRNA設(shè)計(jì)模型的質(zhì)量并更新SRA數(shù)據(jù)庫(kù),具體為:31)計(jì)算步驟2)中建立的個(gè)性化sgRNA設(shè)計(jì)模型的NDCG值;32)判斷現(xiàn)有SRA數(shù)據(jù)庫(kù)中是否有對(duì)應(yīng)的個(gè)性化sgRNA模型,若否則將其添加進(jìn)SRA數(shù)據(jù)庫(kù),若是則進(jìn)入步驟33);33)比較該個(gè)性化sgRNA模型與對(duì)應(yīng)的SRA數(shù)據(jù)庫(kù)中的sgRNA模型,選擇NDCG值大的一個(gè)存儲(chǔ)在SRA數(shù)據(jù)庫(kù)中;4)設(shè)計(jì)sgRNA并給出每個(gè)sgRNA的評(píng)估值,具體為:41)根據(jù)用戶給出的基因組區(qū)域,從SRA數(shù)據(jù)庫(kù)中選取合適的參考基因組,從中搜索所有符合設(shè)計(jì)規(guī)則的sgRNA,將其作為設(shè)計(jì)的sgRNA;42)對(duì)步驟41)中設(shè)計(jì)的sgRNA,運(yùn)用步驟2)中建立的個(gè)性化sgRNA模型進(jìn)行評(píng)估。優(yōu)選地,所述步驟12)中計(jì)算得到對(duì)應(yīng)的Cas9的酶切效率的值具體為:121)把sgRNA和相對(duì)應(yīng)的二代測(cè)序的讀長(zhǎng)比對(duì)到參考基因組上;122)取出包含sgRNA的讀長(zhǎng);123)判斷在切割點(diǎn)是否產(chǎn)生DNA上的插入或刪除以及DNA上的插入或刪除是否為移碼突變;124)統(tǒng)計(jì)每個(gè)sgRNA的移碼突變率,具體為:125)將步驟124)中計(jì)算得到的移碼突變率作為Cas9的酶切效率的值。優(yōu)選地,所述步驟21)中sgRNA的序列信息包括sgRNA序列、sgRNA識(shí)別DNA必需的標(biāo)志片段以及sgRNA的spacer的上下游的堿基,所述sgRNA的spacer的上下游的堿基長(zhǎng)度為平臺(tái)默認(rèn)值或用戶設(shè)置的值。優(yōu)選地,所述步驟22)中的二進(jìn)制規(guī)則具體為:A對(duì)應(yīng)1000,C對(duì)應(yīng)0100,G對(duì)應(yīng)0010,T對(duì)應(yīng)0001,N對(duì)應(yīng)0000。優(yōu)選地,所述步驟24)中用Lasso模型進(jìn)行特征提取是通過(guò)提取非零權(quán)重來(lái)選擇特征向量,具體為:其中,w是被估計(jì)的特征向量的權(quán)重,x是被選擇的sgRNA的特征向量,n是sgRNA的數(shù)量,y是sgRNA對(duì)應(yīng)的Cas9的酶切效率的值;α是一個(gè)常數(shù),||w||1是參數(shù)向量的矩陣;Lasso模型通過(guò)增加α||w||1來(lái)解這個(gè)最小二乘損失函數(shù),通過(guò)遍歷正則化矩陣,非零權(quán)重的特征被提取出來(lái)。優(yōu)選地,所述步驟25)中的L1正則化具體為:其中,w和c是被估計(jì)的特征的權(quán)重和截距,X是編碼的sgRNA的二進(jìn)制矩陣,n是sgRNA的數(shù)量,y是sgRNA對(duì)應(yīng)的Cas9的酶切效率的值。優(yōu)選地,所述L2正則化具體為:優(yōu)選地,所述步驟31)中計(jì)算建立的個(gè)性化sgRNA設(shè)計(jì)模型的NDCG值具體為:其中,DCG是用預(yù)測(cè)排序計(jì)算的數(shù)值,IDCG是用真實(shí)排序計(jì)算所得的理想的DCG,reli是第i位置預(yù)測(cè)的排序值。優(yōu)選地,所述步驟41)中設(shè)計(jì)規(guī)則具體為:20bp+PAM其中,bp為表示DNA長(zhǎng)度的單位,PAM為sgRNA識(shí)別DNA必需的標(biāo)志片段。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:(1)針對(duì)不同物種不同類型細(xì)胞,使用了個(gè)性化的策略,并用數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)算法進(jìn)行建模,評(píng)估準(zhǔn)確率有很大程度的提高。(2)使用新的編碼規(guī)則,使得找到的特征更加完整,不僅限于PAM和spacer之間。(3)賦予了用戶自己構(gòu)建模型的流程,使得應(yīng)用范圍更廣,不僅限于數(shù)據(jù)庫(kù)中僅有的一些物種。(4)使用NGS數(shù)據(jù)的OTF率作為酶切率,擴(kuò)大了可分析數(shù)據(jù)的范圍;(5)用戶可以上傳自己的數(shù)據(jù)來(lái)擴(kuò)充數(shù)據(jù)庫(kù),加速了數(shù)據(jù)的積累,有利于解決現(xiàn)在因數(shù)據(jù)量不足導(dǎo)致不能很好設(shè)計(jì)最優(yōu)sgRNA的困境。附圖說(shuō)明圖1為建立個(gè)性化sgRNA模型與模型評(píng)估的方法流程圖;圖2為設(shè)計(jì)和評(píng)估sgRNA的方法流程圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。本實(shí)施例以本發(fā)明技術(shù)方案為前提進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過(guò)程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。縮寫(xiě)詞說(shuō)明:CRISPR:Clusteredregularlyinterspacedshortpalindromicrepeats成簇的規(guī)律的間隔的小回文重復(fù)序列Cas9:跟CRISPRII型系統(tǒng)相關(guān)的酶NGS:NextGenerationSequencing,二代測(cè)序PAM:Protospacer-adjacentmotif,sgRNA識(shí)別DNA必需的標(biāo)志片段sgRNA:CRISPR/Cas9系統(tǒng)中起引導(dǎo)作用的RNAindel:CRISPR/Cas9編輯引起的DNA上的插入、刪除spacer:sgRNA中起堿基互補(bǔ)配對(duì)的20個(gè)左右的堿基OTF:outofframe,移碼突變。Read:讀長(zhǎng),是高通量測(cè)序中一個(gè)反應(yīng)獲得的測(cè)序序列。本實(shí)施例提供一種基于CRISPR/Cas9的sgRNA的設(shè)計(jì)方法,針對(duì)不同物種不同類型細(xì)胞建立自己個(gè)性化sgRNA設(shè)計(jì)模型的流程,可以根據(jù)不同需求建立模型并設(shè)計(jì)sgRNA,具體包括下列四個(gè)步驟:(1)數(shù)據(jù)收集:從文獻(xiàn)中收集到的收據(jù)一般為兩類:sgRNA與相對(duì)應(yīng)的酶切效率數(shù)值型或者sgRNA與相對(duì)應(yīng)的酶切效率分類型(如有效或者無(wú)效二分類);從SRA數(shù)據(jù)庫(kù)中下載的NGS則只有數(shù)值型一種。因?yàn)镹GS數(shù)據(jù)通過(guò)統(tǒng)計(jì)OTF率后的流程與文獻(xiàn)中收集的數(shù)值型一致,故本實(shí)施例只對(duì)文獻(xiàn)分類型和NGS兩種數(shù)據(jù)的進(jìn)行闡述。分類型數(shù)據(jù):針對(duì)從文獻(xiàn)中收集的分類型數(shù)據(jù),本實(shí)施例規(guī)定有效為1,無(wú)效為0,整理成如表1的格式。表1sgIDSequenceScoresgRNA_1CGCAACCTGCTCAGCGCCTACGG1sgRNA_2CAGTCTACATAACACGCCCATGG1sgRNA_3CGCAACCTGCTCAGCGCCTACGG1………………sgRNA_1_1GGCAACCGTGGCGGCAATCGAGG0sgRNA_2_2CTTCTCGGAATTCGGTGAAGGTGG0sgRNA_3_3AACCTCCCGGCTTCTCGGAATTCGG0………………數(shù)值型數(shù)據(jù):針對(duì)NGS的數(shù)值型數(shù)據(jù),首先通過(guò)BWA分別把sgRNA的序列和NGS的reads比對(duì)到人類參考基因組上,取出包含sgRNA的reads,并判斷在切割點(diǎn)是否產(chǎn)生indel以及indel是否是OTF,然后統(tǒng)計(jì)每個(gè)sgRNA的OTF率(OTF率=包含該sgRNA并且是OTF的reads的總數(shù)除以包含該sgRNA的總reads數(shù))。最后整理為如表2的格式。表2sgIDSequenceScoresgRNA_1CGCAACCTGCTCAGCGCCTACGG0.2345sgRNA_2CAGTCTACATAACACGCCCATGG0.7846sgRNA_3CGCAACCTGCTCAGCGCCTACGG0.2367………………(2)建立模型:如圖1所示,從相應(yīng)的參考基因組提取收集到的sgRNA的序列信息。假設(shè)設(shè)置上下游序列分別為35和32個(gè)堿基,則取出的序列為90(35+20+3+32)個(gè)堿基。CACCTGGTATGTTCGTATCGGGCAGAATATCGCAACCTGCTCAGCGCCTACGGTCCATCTCGCTCAGGTACGACTGACCGACCCAGTCTA。對(duì)提取的sgRNA信息進(jìn)行二進(jìn)制編碼,規(guī)則如表3所示。表3則以上取出90個(gè)堿基可編碼為:010010000100010000010010001000011000000100100001000101000010000110000001010000100010001001001000001010001000000110000001010000100100100010000100010000010010010000010100100000100100001001000100000110000100001000100001010001001000000101000001010000100100000101001000001000100001100001000010100001000001001010000100010000101000010001000100100000100001010000011000用機(jī)器學(xué)習(xí)方法提取特征,建立個(gè)性化sgRNA設(shè)計(jì)模型。針對(duì)分類型數(shù)據(jù),用邏輯回歸來(lái)選擇特征和建立預(yù)測(cè)模型。二分類邏輯回歸有兩個(gè)可選的正則化,本發(fā)明用L1正則化進(jìn)行特征選擇,L2正則化建立模型。L1正則化邏輯回歸解下列稀疏特征選擇的最優(yōu)化問(wèn)題:其中,w和c是被估計(jì)的特征的權(quán)重和截距,X是訓(xùn)練樣本的特征表示,n是訓(xùn)練樣本的數(shù)量,y是sgRNA相對(duì)應(yīng)的酶切效率值。用L2懲罰邏輯回歸解最小化價(jià)值函數(shù):針對(duì)數(shù)值型數(shù)據(jù),用Lasso模型來(lái)做特征選擇,標(biāo)準(zhǔn)線性回歸來(lái)建立預(yù)測(cè)模型。Lasso是估計(jì)稀疏相關(guān)系數(shù)的線性模型,主要通過(guò)提取非零權(quán)重來(lái)選擇特征向量。最小化目標(biāo)函數(shù)為:其中,w是被估計(jì)的特征向量的權(quán)重,x是被選擇的sgRNA的特征向量,n是訓(xùn)練樣本的數(shù)量,y是sgRNA相對(duì)應(yīng)的酶切效率值;α是一個(gè)常數(shù),||w||1是參數(shù)向量的矩陣;Lasso模型通過(guò)增加α||w||1來(lái)解這個(gè)最小二乘損失函數(shù),通過(guò)遍歷正則化矩陣,非零權(quán)重的特征被提取出來(lái),這些特征被認(rèn)為是重要的影響sgRNA酶切效率的元素。選到這些特征后,然后用一個(gè)標(biāo)準(zhǔn)線性回歸建立一個(gè)評(píng)估模型。數(shù)值型和分類型的建模結(jié)果都產(chǎn)生兩個(gè)文件:一個(gè)是xml文件,內(nèi)容包含有選擇的特征,和交叉驗(yàn)證的結(jié)果;另一個(gè)文件是pkl文件,內(nèi)容為建立的預(yù)測(cè)模型,二進(jìn)制文件。xml文件內(nèi)容如下:(3)評(píng)估模型:采用NDCG算法衡量預(yù)測(cè)模型的質(zhì)量,NDCG(NormalizedDiscountedCumulativeGain,歸一化折損累積增益)是主要用來(lái)衡量一個(gè)排序模型的效能,它的值代表著預(yù)測(cè)的排序結(jié)果和實(shí)際的排序之間的相似性,范圍在0和1之間,1表示完全一致,數(shù)值越大代表著這個(gè)模型越好。具體公式如下:DCG(DiscountedCumulativeGain,折損累積增益)是用預(yù)測(cè)排序計(jì)算的數(shù)值,IDCG(idealDCG),是理想的DCG,用真實(shí)排序計(jì)算所得。DCG的數(shù)學(xué)定義如下:其中,reli是第i位置預(yù)測(cè)的排序值。如下表所示,sgID為sgRNA的名稱,seq為sgRNA的spacer序列,BenchmarkScore為基準(zhǔn)分?jǐn)?shù),BS_rank為BenchmarkScore的排序,Cage為本發(fā)明預(yù)測(cè)模型評(píng)估的分?jǐn)?shù),C_rank為Cage的排序如表4所示。表4sgIDseqBenchmarkScoreBS_rankCageScoreC_ranksg1000GCAGGTACCCTGCAACGTCGCGG0.78945686510.69051sg1001CTCCACTAGTCCCCGCGCCGCGG0.50642216620.60262sg1GTAATGGCTTCCTCGTGAGTTGG0.32573832630.55483sg1002GACTCCGTTGGGATCCGCGCCGG0.09207899140.50954sg10ATCTTAAGCAAACGCTTACCAGG0.07225557550.49595sg1003CCCGAAACGGTTGACTCCGTTGG0.03755237560.44736sg1004AGGCGCGCGATCCAGGTAGCTGG0.01992247770.32818sg100AAAAAGCTGATGAAGTTGTTTGG0.01729653980.33577sg1005CGGGGCCACCGCGACGTTGCAGG0.00220678790.30569………………………………TOP50NDCG=0.876322904TOP10%NDCG=0.84340749如果數(shù)據(jù)庫(kù)中沒(méi)有此模型,則更新到數(shù)據(jù)庫(kù),否則算出兩組的NDCG值進(jìn)行比較,若新的模型比已有模型的NDCG值大,則可更新到數(shù)據(jù)庫(kù)。(4)設(shè)計(jì)和評(píng)估:如圖2所示,針對(duì)用戶已設(shè)計(jì)好的sgRNA進(jìn)行評(píng)估或者針對(duì)用戶給出的基因組區(qū)域(如chromosome1,1,000,000to1,002,000,hg19),進(jìn)行sgRNA的設(shè)計(jì),首先確定要評(píng)估的sgRNA的物種或者細(xì)胞類型,然后選擇適合的模型進(jìn)行評(píng)估,如果沒(méi)有合適的模型,可選擇相類似的模型,本實(shí)施例提供了涉及3個(gè)物種8種細(xì)胞的10個(gè)模型以供選擇使用。結(jié)果輸出如表5所示。表5至此,用戶可以選擇適合自己需求的sgRNA進(jìn)行下一步的研究。當(dāng)前第1頁(yè)1 2 3