本發(fā)明涉及生物信息學、蛋白質組學、轉錄組學及基因工程領域,具體地說,涉及CRISPR-Cas9系統(tǒng)sgRNA作用靶點的篩選方法及裝置。
背景技術:
隨著DNA測序技術的發(fā)展,許多模式生物的基因組序列信息已被公布,隨后科研工作者將研究重點轉向對基因功能信息的挖掘上?;蚯贸齽游锬P鸵恢币詠硎窃诨铙w動物上從事基因功能研究、尋找合適藥物作用靶點的重要工具。但是傳統(tǒng)的基因敲除方法需要通過復雜的打靶載體構建、胚胎干細胞(ES細胞)的篩選、嵌合體繁育等一系列步驟,不僅操作流程繁瑣,對實驗人員的技術要求很高,而且費用昂貴,耗時較長,且成功率也受到多方面因素的影響。即使對于技術相對成熟的實驗室,利用傳統(tǒng)技術構建基因敲除大、小鼠模型一般也需要很長時間。
2013年,美國兩個實驗室在《Science》雜志發(fā)表了基于CRISPR-Cas9系統(tǒng)在細胞系中進行基因編輯的新方法,該系統(tǒng)的原理是crRNA(CRISPR-derived RNA)通過堿基互補配對與tracrRNA(trans-activating RNA)結合形成tracrRNA/crRNA的復合物,該復合物可以引導核酸內切酶Cas9蛋白在與crRNA配對的序列靶位點切割雙鏈DNA。而通過人工設計這兩種RNA,可以改造形成具有引導作用的sgRNA(short guide RNA),即可引導Cas9對DNA的定點切割,一旦切割完成,細胞會啟動各種修復方式來修補被剪掉的部分,其中最常見的是非同源末端連接(NHEJ)的修復方式,該種修復方式使得修復過程很容易出錯,這就很大概率地引入使基因功能喪失的變異 (如插入或者缺失部分堿基序列以造成移碼突變),這使得研究者能通過突變體來了解被編輯的基因的功能。該項技術已經(jīng)被迅速應用到基因敲除斑馬魚、小鼠和大鼠等動物模型的構建之中。CRISPR-Cas9技術是繼鋅指核酸酶(ZFN)和TALEN等技術之后可用于定點構建基因敲除動物的新方法,具有效率高、速度快、生殖系傳遞能力強及簡單經(jīng)濟的特點,在動植物模型構建的應用前景非常廣闊。
目前在動物研究領域,有很多基于單個功能基因進行設計的Cas9靶點,但還缺乏一套篩查全基因組靶點的成熟方法。本發(fā)明根據(jù)Cas9在基因組中編輯靶點的偏好性,開發(fā)了一套獲取動物全基因組水平Cas9靶點序列的方法。通過此方法設計出來的靶點文庫,使得CRISPR可以同時針對全基因組水平的基因靶向,獲得高通量的基因突變體庫,該方法在基礎研究中(例如藥物研發(fā)和農業(yè))將發(fā)揮巨大作用。
技術實現(xiàn)要素:
本發(fā)明的目的是提供一種CRISPR-Cas9系統(tǒng)sgRNA作用靶點的篩選方法。
本發(fā)明的另一目的是提供一種篩選CRISPR-Cas9系統(tǒng)sgRNA作用靶點的裝置。
為了實現(xiàn)本發(fā)明目的,本發(fā)明提供的CRISPR-Cas9系統(tǒng)sgRNA作用靶點的篩選方法,包括以下步驟:
(1)利用已公布物種的全基因組序列及基因注釋信息,獲取基因組中具有5’-Nx-NGG-3’序列的區(qū)段,作為CRISPR-Cas9系統(tǒng)sgRNA的候選靶點;其中,x為19~22之間的整數(shù),N代表堿基A、T、G或C;
(2)將基因組打斷成22~25bp的片段并篩選以NGG結尾的,且在基因組上無重復的序列;
(3)將步驟(1)的候選靶點序列與步驟(2)中篩到的序列進行比對,根據(jù)錯配信息及評選公式對相應的優(yōu)選序列進行篩選及排序,獲取最優(yōu)的全基因組sgRNA作用靶點集合。
前述的方法,步驟(1)中篩選符合條件的候選靶點序列的要求是:①靶點必須落在基因的CDS區(qū)內,即起始密碼子之后;②盡可能靠近基因的5’端(實驗表明,靠近5’端的外顯子,其功能性更強);③優(yōu)選地,每個基因提取兩個外顯子(選取兩個外顯子是為了保證基因被修飾后其功能盡可能地發(fā)生變化),具體步驟為:以轉錄本為單位(若以轉錄本為單位,一個基因有可能重復取到同一個外顯子,下文有去重復的步驟),從基因組注釋文件中獲取轉錄本、基因ID,CDS、外顯子區(qū)的起始和終止位置以及染色體號等相關信息,以每個轉錄本的起始密碼子所在位置為標準,提取其后兩個外顯子的始末位置,若起始密碼子后只有一個外顯子,則只取一個,得到候選外顯子的始末位置后,利用bedtools軟件中的fastaFromBed程序獲取這些外顯子的序列信息,保留作為外顯子NGG候選靶點序列(保存為fasta格式文件)。候選外顯子的篩選設計見圖1。
其中,fastaFromBed程序中的-s參數(shù)的作用是獲取反向互補序列,這樣就得到了所有外顯子的編碼鏈序列信息,便于篩選NGG位點(不用考慮負鏈,但要注意位置信息)。所有外顯子的編碼鏈序列提取它們的前19~22bp序列保存成fasta格式(注意此時的始末位置信息,正負鏈的情況有所區(qū)別,另外由于最終在與基因組水平的NGG序列進行比對時,需去除自比的比對結果,因此就需要詳盡了解每一個外顯子上的NGG序列所在的基因組始末位置,正負鏈信息等。因此要進行相應的格式調整)。鑒于上文提到的以轉錄本為單位會重復取得外顯子的情況,進一步對獲取的序列進行了去重復處理。最后獲得的基因組中所有基因上的候選靶點5’-Nx-NGG-3’序列,統(tǒng)計其覆蓋的基因數(shù)目,外顯子數(shù)目,以及候選外顯子上獲得的NGG位點個數(shù)。
前述的方法,步驟(2)中篩選中符合條件的序列的具體步驟為:全基因組篩選采用k-mer打斷、再比對找回位置的方法來定位基因組中的NGG序列。首先用jellyfish軟件將基因組打斷成22~25bp的片段, 考慮到正負鏈不同,分別篩選正鏈以NGG結尾和負鏈以CCN開頭的序列,保留作為基因組NGG候選靶點序列(保存為fasta格式文件);由于利用jellyfish軟件將基因組打斷成22~25bp的片段后沒有位置信息,因此需利用bowtie軟件比對找回上述22~25bp片段所在基因組中的位置。正負鏈分別進行比對,比對結束后,將NGG三個堿基從正鏈中去除,同時將CCN三個堿基從負鏈中去除,保存為19~22bp的含位置信息的fasta格式文件。
前述的方法,步驟(3)中比對的具體步驟為:
①將步驟(1)的外顯子NGG候選靶點序列與步驟(2)的基因組NGG候選靶點序列進行比對,將所有自比結果過濾掉;
②篩選步驟①過濾后的比對結果中,外顯子NGG候選靶點在基因組中其它位置上沒有比對結果的序列,這些外顯子NGG靶點在基因組中是唯一的,將這些靶點序列作為最佳候選靶點序列優(yōu)先被提取出來,標注為unique reads;
③篩選步驟①過濾后的比對結果中,外顯子NGG候選靶點在基因組中其它位置上仍存在比對結果的序列,若出現(xiàn)錯配0個堿基(即在基因組其它位置完全比對上)或錯配1個堿基(即在基因組其它位置比對上,且只有1個堿基錯配),表明這些序列在基因組中有重復序列存在,將這些靶點序列全部刪除;
④篩選步驟①過濾后的比對結果中,外顯子NGG候選靶點在基因組中其它位置上仍存在比對結果的序列,若出現(xiàn)錯配2個堿基(即在基因組其它位置比對上,但有2個堿基錯配)或錯配3個堿基(即在基因組其它位置比對上,但有3個堿基錯配),將這些靶點序列標注為candidate reads,這些reads的所有比對結果通過公式進行打分,打分公式如下:
其中,MS代表錯配罰分,a、b、c分別代表發(fā)生錯配的堿基位置(以該條NGG候選靶點的3’端堿基記為1位,從3’端向5’端依次計數(shù),例如,a為NGG候選靶點3’端上游5bp位置的堿基發(fā)生錯配,則a等于5),S(ab)代表a與b的代數(shù)和,S(bc)代表b與c的代數(shù)和,S(ac)代表a與c的代數(shù)和,D(ab)代表兩個錯配堿基a與b的相對位置之差,D(bc)代表兩個錯配堿基b與c的相對位置之差,D(ac)代表兩個錯配堿基a與c的相對位置之差;
當n=3時,若S(ab)×D(ab)<S(bc)×D(bc),公式則變?yōu)椋?/p>
若S(ab)×D(ab)>S(bc)×D(bc),公式則變?yōu)椋?/p>
所有reads按照打分從低到高排序,將分數(shù)低的前10萬條左右的reads作為候選序列(根據(jù)下游基因芯片的容量,目前芯片最多容納10萬條序列),即打分通過的candidate reads;
⑤步驟②的unique reads和步驟④打分通過的candidate reads即為最優(yōu)的全基因組sgRNA作用靶點集合,即初步得到全基因組的Cas9sgRNA Oligo Library。
本發(fā)明篩選CRISPR-Cas9系統(tǒng)sgRNA作用靶點的流程圖見圖2。
本發(fā)明的目的還可以采用以下的技術措施來進一步實現(xiàn)。
(1)利用已公布物種的全基因組序列及基因注釋信息,獲取基因組中具有5’-Nx-NGG-3’序列的區(qū)段,作為CRISPR-Cas9系統(tǒng)sgRNA的候選靶點;其中,x為20,N代表堿基A、T、G或C;
(2)將基因組打斷成20bp的片段并篩選以NGG結尾的,且在基因組上無重復的序列;
(3)將步驟(1)的候選靶點序列與步驟(2)中篩到的序列進 行比對,根據(jù)錯配信息及評選公式對相應的優(yōu)選序列進行篩選及排序,獲取最優(yōu)的全基因組sgRNA作用靶點集合。
其中,步驟(1)中篩選符合條件的候選靶點序列的要求是:i.靶點必須落在基因的CDS區(qū)內,即起始密碼子之后;ii.盡可能靠近基因的5’端;iii.優(yōu)選地,每個基因提取兩個外顯子,具體步驟為:以轉錄本為單位,從基因組注釋文件中獲取轉錄本、基因ID,CDS、外顯子區(qū)的起始和終止位置以及染色體號相關信息,以每個轉錄本的起始密碼子所在位置為標準,提取其后兩個外顯子的始末位置,若起始密碼子后只有一個外顯子,則只取一個,得到候選外顯子的始末位置后,利用bedtools軟件中的fastaFromBed程序獲取這些外顯子的序列信息,保留作為外顯子NGG候選靶點序列。
步驟(2)中篩選中符合條件的序列的具體步驟為:首先用jellyfish軟件將基因組打斷成20bp的片段,考慮到正負鏈不同,分別篩選正鏈以NGG結尾和負鏈以CCN開頭的序列,保留作為基因組NGG候選靶點序列;由于利用jellyfish軟件將基因組打斷成20bp的片段后沒有位置信息,因此需利用bowtie軟件比對找回上述20bp片段所在基因組中的位置。
步驟(3)中比對的具體步驟為:
iv.將步驟(1)的外顯子NGG候選靶點序列與步驟(2)的基因組NGG候選靶點序列進行比對,將自比的結果過濾掉;
v.篩選在步驟①過濾后的比對結果中,外顯子NGG候選靶點在基因組中沒有比對結果的序列,這些外顯子NGG靶點在基因組中是唯一的,這些靶點序列作為最佳候選靶點序列優(yōu)先被提取出來,標注為unique reads;
vi.篩選在步驟①過濾后的比對結果中,外顯子NGG候選靶點在基因組中有比對結果的序列,若出現(xiàn)錯配0個堿基或錯配1個堿基,表明這些序列在基因組中有重復序列存在,將這些靶點序列全部刪除;
vii.篩選在步驟①過濾后的比對結果中,外顯子NGG候選靶點在基因組中有比對結果的序列,若出現(xiàn)錯配2個堿基或錯配3個堿基,將這些靶點序列標注為candidate reads,這些reads的所有比對結果通過公式進行打分,打分公式如下:
其中,MS代表錯配罰分,a、b、c分別代表發(fā)生錯配的堿基位置,S(ab)代表a與b的代數(shù)和,S(bc)代表b與c的代數(shù)和,S(ac)代表a與c的代數(shù)和,D(ab)代表兩個錯配堿基a與b的相對位置之差,D(bc)代表兩個錯配堿基b與c的相對位置之差,D(ac)代表兩個錯配堿基a與c的相對位置之差;
當n=3時,若S(ab)×D(ab)<S(bc)×D(bc),公式則變?yōu)椋?/p>
若S(ab)×D(ab)>S(bc)×D(bc),公式則變?yōu)椋?/p>
所有reads按照打分從低到高排序,將分數(shù)低的前10萬條reads作為候選序列,即打分通過的candidate reads;
viii.步驟v.的unique reads和步驟vii.打分通過的candidate reads即為最優(yōu)的全基因組sgRNA作用靶點集合。
本發(fā)明還提供上述方法獲得的CRISPR-Cas9系統(tǒng)sgRNA作用靶點在構建基因敲除突變體文庫或基因敲除動物模型中的應用。
本發(fā)明還提供一種基因芯片,所述芯片含有根據(jù)上述方法獲得的CRISPR-Cas9系統(tǒng)sgRNA作用靶點的序列集合。
本發(fā)明進一步提供一種篩選CRISPR-Cas9系統(tǒng)sgRNA作用靶點的裝置,包括以下模塊:
A.全基因組外顯子序列提取模塊:用于上述步驟(1)中提取全基因組的外顯子中具有5’-Nx-NGG-3’序列的區(qū)段;
B.外顯子NGG序列優(yōu)選模塊:用于上述步驟(1)中所有外顯子中具有5’-Nx-NGG-3’序列區(qū)段的優(yōu)選篩查;
C.基因組序列打斷比對模塊:用于上述步驟(2)中將全基因組序列打斷成相應大小的片段,并比對進行位置錨定;
D.外顯子NGG候選序列與基因組NGG候選序列比對模塊:用于上述步驟(3)中外顯子NGG候選序列與基因組NGG候選序列之間的比對;
E.候選sgRNA靶點序列打分模塊:用于上述步驟(3)中所有候選序列的評估排序。
本發(fā)明提供的方法可應用于所有已知基因組及其基因注釋信息的物種當中,通過快速高效獲得其全基因組水平的sgRNA序列全集來構建基因敲除突變體文庫或基因敲除動物模型。另外,這種高通量的CRISPR-Cas9系統(tǒng)sgRNA作用靶點篩選方法極大降低了成本,克服了單個制備基因敲除細胞,所導致的時間和勞動成本高的問題。
附圖說明
圖1為本發(fā)明候選外顯子的篩選設計流程圖。其設計原理在于:對位于起始密碼子后面的外顯子進行設計,如果起始密碼子后面有兩個以上的外顯子,則將這兩個外顯子全部獲取,若起始密碼子后面只有一個外顯子,則僅取一個外顯子;某些起始密碼子位于外顯子內部,若其后面還有外顯子,則從其下一個外顯子開始計數(shù),若其后面沒有外顯子,則從其本身開始計數(shù);負鏈候選外顯子的設計規(guī)則同正鏈。
圖2為本發(fā)明篩選CRISPR-Cas9系統(tǒng)sgRNA作用靶點的流程圖。
具體實施方式
以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。若未特別指明,實施例中所用的技術手段為本領域技術人員所熟知的常規(guī) 手段,所用原料均為市售商品。
實施例1針對雞設計的CRISPR-Cas9系統(tǒng)sgRNA作用靶點的篩選方法
本實施例以禽類代表動物--雞為例,進行全基因組Cas9靶點文庫的設計。
首先在Ensembl數(shù)據(jù)庫(http://www.ensembl.org/index.html)中下載雞的參考基因組(版本號Galgal4,GCA_000002315.2)及其對應的基因注釋文件。利用全基因組序列及基因注釋信息,獲取基因組中所有基因的候選靶點5’-(N20)NGG-3’序列(N代表A/T/C/G),統(tǒng)計可知,雞中的候選靶點序列一共獲得380,459條,覆蓋的基因為16,821個,覆蓋的外顯子數(shù)為28,915個。然后將基因組打斷成23bp的片段并篩選以NGG結尾的,且在基因組上無重復的序列,將其與外顯子上的候選靶點序列進行比對,根據(jù)錯配信息及評選公式對相應的優(yōu)選序列進行篩選及排序,根據(jù)下游芯片合成設計容量,共設計了96000條靶點序列,最終篩選結果,覆蓋的基因數(shù)目為16,569個,每個基因上設計的靶點序列約為7-8個。
實施例2針對豬設計的CRISPR-Cas9系統(tǒng)sgRNA作用靶點的篩選方法
本實施例以哺乳動物類代表動物—豬為例,進行全基因組Cas9靶點文庫的設計。
首先在Ensembl數(shù)據(jù)庫中(http://www.ensembl.org/index.html)下載豬的參考基因組(版本號Sscrofa10.2,GCA_000003025.4)及其對應的基因注釋文件。利用全基因組序列及基因注釋信息,獲取基因組中所有基因的候選靶點5’-(N20)NGG-3’序列(N代表A/T/C/G),統(tǒng)計可知,豬中的候選靶點序列一共獲得626,236條,覆蓋的基因為24,734個,覆蓋的外顯子數(shù)為43,049個。然后將基因組打斷成23bp的片段并篩選以NGG結尾的,且在基因組上無重復的序列,將其與外顯 子上的候選靶點序列進行比對,根據(jù)錯配信息及評選公式對相應的優(yōu)選序列進行篩選及排序,根據(jù)下游芯片合成設計容量,共設計了96000條靶點序列,最終篩選過后,覆蓋的基因數(shù)目為22,731個,每個基因上設計的靶點序列約為4-5個。
雖然,上文中已經(jīng)用一般性說明及具體實施方案對本發(fā)明作了詳盡的描述,但在本發(fā)明基礎上,可以對之作一些修改或改進,這對本領域技術人員而言是顯而易見的。因此,在不偏離本發(fā)明精神的基礎上所做的這些修改或改進,均屬于本發(fā)明要求保護的范圍。