本發(fā)明屬于分子生物信息檢測(cè)與分析領(lǐng)域,具體涉及一種有效提高DNase高通量測(cè)序數(shù)據(jù)的檢測(cè)信息準(zhǔn)確性的濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法。
背景技術(shù):
目前,DNA蛋白結(jié)合位點(diǎn)的檢測(cè)主要采用染色質(zhì)免疫共沉淀技術(shù)(Chromatin Immunoprecipitation,ChIP)。而將ChIP實(shí)驗(yàn)結(jié)果與高通量測(cè)序技術(shù)相結(jié)合的ChIP-Seq技術(shù),則能有效地在全基因組范圍內(nèi)檢測(cè)目的功能蛋白在DNA上的結(jié)合位點(diǎn)。ChIP-Seq的原理是:首先通過(guò)染色質(zhì)免疫共沉淀技術(shù)(ChIP)利用與目的蛋白特異性結(jié)合的酶來(lái)富集結(jié)合有目的蛋白的DNA片段,并對(duì)其進(jìn)行純化與文庫(kù)構(gòu)建。然后對(duì)富集得到的DNA片段進(jìn)行高通量測(cè)序,再將測(cè)序獲得的數(shù)百萬(wàn)條讀數(shù)序列精確定位到基因組上,從而獲得全基因組范圍內(nèi)結(jié)合有目的蛋白的DNA區(qū)段信息,進(jìn)而通過(guò)各種分析算法得到目的蛋白DNA結(jié)合位點(diǎn)。
然而,ChIP-Seq技術(shù)也有諸多不足之處,首先是富集目的蛋白的結(jié)合酶具有特異性,從而導(dǎo)致某些蛋白因找不到合適的特異結(jié)合酶而無(wú)法進(jìn)行檢測(cè);其次,一次實(shí)驗(yàn)只能檢測(cè)一種蛋白,耗時(shí)耗力,成本高,無(wú)法大規(guī)模使用;第三,更為重要的是,由于實(shí)驗(yàn)獲取的與目的蛋白結(jié)合的DNA片段較長(zhǎng),測(cè)序時(shí)只能對(duì)其兩端進(jìn)行部分測(cè)序,由于測(cè)序區(qū)域并不是結(jié)合位點(diǎn)本身,因此,ChIP-Seq技術(shù)對(duì)DNA蛋白結(jié)合位點(diǎn)的檢測(cè)分辨率無(wú)法達(dá)到單堿基。
針對(duì)上述問(wèn)題,近幾年產(chǎn)生了一種新的DNA蛋白結(jié)合位點(diǎn)檢測(cè)技術(shù)--基于DNase高通測(cè)序信息的DNA蛋白結(jié)合位點(diǎn)檢測(cè)技術(shù),即DNase-Seq技術(shù)。DNase-Seq的原理是:首先利用DNase核酸剪切酶對(duì)DNA進(jìn)行酶切處理。則沒(méi)有DNA蛋白結(jié)合的DNA區(qū)域?qū)⒈籇Nase核酸剪切酶隨機(jī)地切斷,而有DNA蛋白結(jié)合的DNA區(qū)域由于受到結(jié)合蛋白的阻礙特異性不被切斷。隨后,對(duì)酶切處理過(guò)的DNA片段進(jìn)行純化與文庫(kù)構(gòu)建,再進(jìn)行測(cè)序,從而獲得全基因組范圍內(nèi)DNase核酸剪切酶的酶切信息。在酶切信息中,蛋白結(jié)合位點(diǎn)處的酶切信息將特異性減弱,就像在DNA上留下一個(gè)個(gè)足跡一樣,從而可以精確鑒定DNA結(jié)合蛋白在DNA分子上的結(jié)合位點(diǎn)。
與ChIP-Seq技術(shù)相比,DNase-Seq技術(shù)的優(yōu)點(diǎn)非常突出。首先,由于不具有特異性,DNase-Seq可一次性在全基因組范圍內(nèi)同時(shí)檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn);其次,由于一次性檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn),DNase-Seq大幅提高了檢測(cè)效率并降低了檢測(cè)成本,使大規(guī)模進(jìn)行DNA蛋白結(jié)合位點(diǎn)檢測(cè)成為可能;第三,更為重要的是,由于測(cè)序起始位置就是酶切位置,DNase-Seq對(duì)DNA蛋白結(jié)合位點(diǎn)的檢測(cè)分辨率可達(dá)單堿基。
然而,近期發(fā)現(xiàn)DNase核酸剪切酶在切割DNA時(shí)存在一定的DNA堿基傾向性,這將對(duì) DNA蛋白結(jié)合位點(diǎn)的識(shí)別產(chǎn)生不利的影響。如何去除該傾向性已成為基于DNase-Seq的DNA蛋白結(jié)合位點(diǎn)識(shí)別的一個(gè)關(guān)鍵問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法。
本發(fā)明的目的是這樣實(shí)現(xiàn)的:
(1)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)區(qū)域DNA堿基獲取
依據(jù)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)在基因組中的位置,提取每一個(gè)實(shí)驗(yàn)數(shù)據(jù)對(duì)應(yīng)酶切位點(diǎn)附近區(qū)域的DNA堿基。本發(fā)明選用酶切位點(diǎn)附近6個(gè)位點(diǎn)的堿基,即以酶切位點(diǎn)為中心,左右各取3個(gè)堿基。
(2)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)DNA堿基傾向性獲取
本發(fā)明選用酶切位點(diǎn)附近6個(gè)位點(diǎn)的堿基,每個(gè)堿基有A、C、G、T等4種取值,則6個(gè)位點(diǎn)堿基共有4096種堿基組合。通過(guò)統(tǒng)計(jì)整個(gè)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)處這4096種堿基組合出現(xiàn)的頻次,即可獲得DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性。
(3)DNA堿基傾向性去除
設(shè)有m個(gè)蛋白結(jié)合位點(diǎn),每個(gè)結(jié)合位點(diǎn)包含n個(gè)堿基,則:第i個(gè)結(jié)合位點(diǎn)的DNase檢測(cè)信號(hào)為:[Si1,Si2,…,Sin]。其值和為:
考慮DNase的DNA堿基傾向性,則第i個(gè)結(jié)合位點(diǎn)第j列的DNase檢測(cè)信號(hào)為:Sij=[(1-w)Pij+wBij]Ri。其中,Pij為第i個(gè)結(jié)合位點(diǎn)第j列處與DNA結(jié)合蛋白的蛋白結(jié)構(gòu)相對(duì)應(yīng)的DNase的固有切割概率,Bij為第i個(gè)結(jié)合位點(diǎn)第j列處與該處DNA堿基傾向性相對(duì)應(yīng)的DNase的切割概率。Pij是穩(wěn)定的,可用于DNA蛋白結(jié)合位點(diǎn)識(shí)別,而B(niǎo)ij是不穩(wěn)定的,應(yīng)予以濾除。
具體濾除方法如下:
其中,Sij,Ri可從實(shí)驗(yàn)數(shù)據(jù)中直接得到。Bij則根據(jù)前一步驟獲取的DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性得到。w為權(quán)值,取值范圍為[0,1]之間,需要進(jìn)一步確定。
對(duì)于m個(gè)蛋白結(jié)合位點(diǎn),當(dāng)權(quán)值w取不同值時(shí),會(huì)得到不同的[Pi1,Pi2,…,Pin],1≤i≤m。設(shè)則當(dāng)m個(gè)[Pi1,Pi2,…,Pin]與[P1,P2,...,Pn]之間的m個(gè)相關(guān)性值的中位值最大時(shí), 此時(shí)的w值為最優(yōu)值。
本發(fā)明的有益效果在于:通過(guò)所發(fā)明的方法可以精確地濾除DNase高通量測(cè)序數(shù)據(jù)中含有的DNA堿基傾向性偏差,以生成更加準(zhǔn)確的DNase-Seq測(cè)序結(jié)果,從而為后續(xù)更高層次的應(yīng)用分析提供數(shù)據(jù)保障。
附圖說(shuō)明
圖1為DNase-Seq實(shí)驗(yàn)數(shù)據(jù)DNA堿基傾向性直方圖。
圖2為w權(quán)值的評(píng)價(jià)值變化曲線。
圖3為本發(fā)明流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步描述。
作為DNA蛋白結(jié)合位點(diǎn)檢測(cè)的新技術(shù),DNase-Seq技術(shù)具有眾多突出的優(yōu)點(diǎn)。由于不具有特異性,DNase-Seq可一次性在全基因組范圍內(nèi)同時(shí)檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn);由于一次性檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn),DNase-Seq大幅提高了檢測(cè)效率并降低了檢測(cè)成本,使大規(guī)模進(jìn)行DNA蛋白結(jié)合位點(diǎn)檢測(cè)成為可能;由于測(cè)序起始位置就是酶切位置,DNase-Seq對(duì)DNA蛋白結(jié)合位點(diǎn)的檢測(cè)分辨率可達(dá)單堿基。
然而,近期發(fā)現(xiàn)DNase核酸剪切酶在切割DNA時(shí)存在一定的DNA堿基傾向性,這將對(duì)DNA蛋白結(jié)合位點(diǎn)的識(shí)別產(chǎn)生不利的影響。本發(fā)明即是針對(duì)該問(wèn)題提出的一種濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法。
1、DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)區(qū)域DNA堿基獲取
依據(jù)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)在基因組中的位置,提取每一個(gè)實(shí)驗(yàn)數(shù)據(jù)對(duì)應(yīng)酶切位點(diǎn)附近區(qū)域的DNA堿基。本發(fā)明選用酶切位點(diǎn)附近6個(gè)位點(diǎn)的堿基,即以酶切位點(diǎn)為中心,左右各取3個(gè)堿基。
2、DNase-Seq實(shí)驗(yàn)數(shù)據(jù)DNA堿基傾向性獲取
本發(fā)明選用酶切位點(diǎn)附近6個(gè)位點(diǎn)的堿基,每個(gè)堿基有A、C、G、T等4種取值,則6個(gè)位點(diǎn)堿基共有4096種堿基組合。通過(guò)統(tǒng)計(jì)整個(gè)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)處這4096種堿基組合出現(xiàn)的頻次,即可獲得DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性。
3、DNA堿基傾向性去除
設(shè)有m個(gè)蛋白結(jié)合位點(diǎn),每個(gè)結(jié)合位點(diǎn)包含n個(gè)堿基,則:第i個(gè)結(jié)合位點(diǎn)的DNase檢測(cè)信號(hào)為:[Si1,Si2,…,Sin]。其值和為:
考慮DNase的DNA堿基傾向性,則第i個(gè)結(jié)合位點(diǎn)第j列的DNase檢測(cè)信號(hào)為: Sij=[(1-w)Pij+wBij]Ri。其中,Pij為第i個(gè)結(jié)合位點(diǎn)第j列處與DNA結(jié)合蛋白的蛋白結(jié)構(gòu)相對(duì)應(yīng)的DNase的固有切割概率,Bij為第i個(gè)結(jié)合位點(diǎn)第j列處與該處DNA堿基傾向性相對(duì)應(yīng)的DNase的切割概率。Pij是穩(wěn)定的,可用于DNA蛋白結(jié)合位點(diǎn)識(shí)別,而B(niǎo)ij是不穩(wěn)定的,應(yīng)予以濾除。
具體濾除方法如下:
其中,Sij,Ri可從實(shí)驗(yàn)數(shù)據(jù)中直接得到。Bij則根據(jù)前一步驟獲取的DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性得到。w為權(quán)值,取值范圍為[0,1]之間,通過(guò)下述方法確定:
對(duì)于m個(gè)蛋白結(jié)合位點(diǎn),當(dāng)權(quán)值w取不同值時(shí),會(huì)得到不同的[Pi1,Pi2,…,Pin],1≤i≤m。設(shè)則當(dāng)m個(gè)[Pi1,Pi2,…,Pin]與[P1,P2,...,Pn]之間的m個(gè)相關(guān)性值的中位值最大時(shí),此時(shí)的w值為最優(yōu)值。
4、實(shí)驗(yàn)驗(yàn)證
從UCSC國(guó)際生物信息網(wǎng)站下載人類(lèi)基因組堿基序列數(shù)據(jù),以及國(guó)際ENCODE計(jì)劃UW大學(xué)測(cè)得的人類(lèi)K562細(xì)胞系DNase-Seq測(cè)序數(shù)據(jù)和NFYA轉(zhuǎn)錄因子ChIP-Seq測(cè)序數(shù)據(jù)。
根據(jù)每個(gè)DNase-Seq測(cè)序數(shù)據(jù)酶切位點(diǎn)在人類(lèi)基因組中的位置,提取附近6個(gè)位點(diǎn)的堿基,即以酶切位點(diǎn)為中心,左右各取3個(gè)堿基。統(tǒng)計(jì)酶切位點(diǎn)處4096種堿基組合出現(xiàn)的頻次,獲得DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性。該傾向性的直方圖如圖1所示(橫軸為堿基組合,縱軸為頻次)。由圖1可見(jiàn),DNase-Seq實(shí)驗(yàn)數(shù)據(jù)存在明顯的DNA堿基傾向性。
根據(jù)NFYA轉(zhuǎn)錄因子的ChIP-Seq測(cè)序數(shù)據(jù),識(shí)別出953個(gè)NFYA蛋白結(jié)合位點(diǎn)。每個(gè)結(jié)合位點(diǎn)包含201個(gè)堿基。
利用本發(fā)明方法對(duì)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)進(jìn)行DNA堿基傾向性濾除。當(dāng)w取某一權(quán)值時(shí),每個(gè)結(jié)合位點(diǎn)濾除DNA堿基傾向性的DNase檢測(cè)信號(hào)為[Pi1,Pi2,…,Pin],1≤i≤953。計(jì)算每個(gè)結(jié)合位點(diǎn)[Pi1,Pi2,…,Pin]與[P1,P2,...,Pn]之間的Pearson相關(guān)值,這里n取值為201。選取953個(gè)相關(guān)值的中位值作為該w值是否優(yōu)異的評(píng)價(jià)值。讓w值由0到1變化,獲得如圖2所示的w值的評(píng)價(jià)值變化曲線(橫軸為w值,縱軸評(píng)價(jià)值)。由圖2可見(jiàn),當(dāng)w值為0.15時(shí),評(píng)價(jià)值達(dá)到最大并不再增加,此時(shí)的w值應(yīng)為最優(yōu)值,并進(jìn)而得到與之對(duì)應(yīng)的濾除DNA堿基傾向性的DNase-Seq檢測(cè)信息。
作為DNA蛋白結(jié)合位點(diǎn)檢測(cè)的新技術(shù),DNase-Seq技術(shù)具有突出優(yōu)點(diǎn)。由于不具有特異性,DNase-Seq可一次性在全基因組范圍內(nèi)同時(shí)檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn);由于一次性檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn),DNase-Seq大幅提高了檢測(cè)效率并降低了檢測(cè)成本,使大規(guī)模進(jìn)行DNA蛋白結(jié)合位點(diǎn)檢測(cè)成為可能;由于測(cè)序起始位置就是酶切位置,DNase-Seq對(duì)DNA蛋白結(jié)合位點(diǎn)的檢測(cè)分辨率可達(dá)單堿基。然而,DNase核酸剪切酶在切割DNA時(shí)存在一定的DNA堿基傾向性,這將對(duì)DNA蛋白結(jié)合位點(diǎn)的識(shí)別產(chǎn)生不利的影響。本發(fā)明即是針對(duì)該問(wèn)題提出的一種濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法。