一種濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法與流程

文檔序號(hào)：11156061閱讀：1357來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法與制造工藝

本發(fā)明屬于分子生物信息檢測(cè)與分析領(lǐng)域，具體涉及一種有效提高DNase高通量測(cè)序數(shù)據(jù)的檢測(cè)信息準(zhǔn)確性的濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法。

背景技術(shù)：

目前，DNA蛋白結(jié)合位點(diǎn)的檢測(cè)主要采用染色質(zhì)免疫共沉淀技術(shù)(Chromatin Immunoprecipitation，ChIP)。而將ChIP實(shí)驗(yàn)結(jié)果與高通量測(cè)序技術(shù)相結(jié)合的ChIP-Seq技術(shù)，則能有效地在全基因組范圍內(nèi)檢測(cè)目的功能蛋白在DNA上的結(jié)合位點(diǎn)。ChIP-Seq的原理是：首先通過(guò)染色質(zhì)免疫共沉淀技術(shù)(ChIP)利用與目的蛋白特異性結(jié)合的酶來(lái)富集結(jié)合有目的蛋白的DNA片段，并對(duì)其進(jìn)行純化與文庫(kù)構(gòu)建。然后對(duì)富集得到的DNA片段進(jìn)行高通量測(cè)序，再將測(cè)序獲得的數(shù)百萬(wàn)條讀數(shù)序列精確定位到基因組上，從而獲得全基因組范圍內(nèi)結(jié)合有目的蛋白的DNA區(qū)段信息，進(jìn)而通過(guò)各種分析算法得到目的蛋白DNA結(jié)合位點(diǎn)。

然而，ChIP-Seq技術(shù)也有諸多不足之處，首先是富集目的蛋白的結(jié)合酶具有特異性，從而導(dǎo)致某些蛋白因找不到合適的特異結(jié)合酶而無(wú)法進(jìn)行檢測(cè)；其次，一次實(shí)驗(yàn)只能檢測(cè)一種蛋白，耗時(shí)耗力，成本高，無(wú)法大規(guī)模使用；第三，更為重要的是，由于實(shí)驗(yàn)獲取的與目的蛋白結(jié)合的DNA片段較長(zhǎng)，測(cè)序時(shí)只能對(duì)其兩端進(jìn)行部分測(cè)序，由于測(cè)序區(qū)域并不是結(jié)合位點(diǎn)本身，因此，ChIP-Seq技術(shù)對(duì)DNA蛋白結(jié)合位點(diǎn)的檢測(cè)分辨率無(wú)法達(dá)到單堿基。

針對(duì)上述問(wèn)題，近幾年產(chǎn)生了一種新的DNA蛋白結(jié)合位點(diǎn)檢測(cè)技術(shù)--基于DNase高通測(cè)序信息的DNA蛋白結(jié)合位點(diǎn)檢測(cè)技術(shù)，即DNase-Seq技術(shù)。DNase-Seq的原理是：首先利用DNase核酸剪切酶對(duì)DNA進(jìn)行酶切處理。則沒(méi)有DNA蛋白結(jié)合的DNA區(qū)域?qū)⒈籇Nase核酸剪切酶隨機(jī)地切斷，而有DNA蛋白結(jié)合的DNA區(qū)域由于受到結(jié)合蛋白的阻礙特異性不被切斷。隨后，對(duì)酶切處理過(guò)的DNA片段進(jìn)行純化與文庫(kù)構(gòu)建，再進(jìn)行測(cè)序，從而獲得全基因組范圍內(nèi)DNase核酸剪切酶的酶切信息。在酶切信息中，蛋白結(jié)合位點(diǎn)處的酶切信息將特異性減弱，就像在DNA上留下一個(gè)個(gè)足跡一樣，從而可以精確鑒定DNA結(jié)合蛋白在DNA分子上的結(jié)合位點(diǎn)。

與ChIP-Seq技術(shù)相比，DNase-Seq技術(shù)的優(yōu)點(diǎn)非常突出。首先，由于不具有特異性，DNase-Seq可一次性在全基因組范圍內(nèi)同時(shí)檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn)；其次，由于一次性檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn)，DNase-Seq大幅提高了檢測(cè)效率并降低了檢測(cè)成本，使大規(guī)模進(jìn)行DNA蛋白結(jié)合位點(diǎn)檢測(cè)成為可能；第三，更為重要的是，由于測(cè)序起始位置就是酶切位置，DNase-Seq對(duì)DNA蛋白結(jié)合位點(diǎn)的檢測(cè)分辨率可達(dá)單堿基。

然而，近期發(fā)現(xiàn)DNase核酸剪切酶在切割DNA時(shí)存在一定的DNA堿基傾向性，這將對(duì) DNA蛋白結(jié)合位點(diǎn)的識(shí)別產(chǎn)生不利的影響。如何去除該傾向性已成為基于DNase-Seq的DNA蛋白結(jié)合位點(diǎn)識(shí)別的一個(gè)關(guān)鍵問(wèn)題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于提供一種濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法。

本發(fā)明的目的是這樣實(shí)現(xiàn)的：

(1)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)區(qū)域DNA堿基獲取

依據(jù)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)在基因組中的位置，提取每一個(gè)實(shí)驗(yàn)數(shù)據(jù)對(duì)應(yīng)酶切位點(diǎn)附近區(qū)域的DNA堿基。本發(fā)明選用酶切位點(diǎn)附近6個(gè)位點(diǎn)的堿基，即以酶切位點(diǎn)為中心，左右各取3個(gè)堿基。

(2)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)DNA堿基傾向性獲取

本發(fā)明選用酶切位點(diǎn)附近6個(gè)位點(diǎn)的堿基，每個(gè)堿基有A、C、G、T等4種取值，則6個(gè)位點(diǎn)堿基共有4096種堿基組合。通過(guò)統(tǒng)計(jì)整個(gè)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)處這4096種堿基組合出現(xiàn)的頻次，即可獲得DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性。

(3)DNA堿基傾向性去除

設(shè)有m個(gè)蛋白結(jié)合位點(diǎn)，每個(gè)結(jié)合位點(diǎn)包含n個(gè)堿基，則：第i個(gè)結(jié)合位點(diǎn)的DNase檢測(cè)信號(hào)為：[S_i1,S_i2,…,S_in]。其值和為：

考慮DNase的DNA堿基傾向性，則第i個(gè)結(jié)合位點(diǎn)第j列的DNase檢測(cè)信號(hào)為：S_ij＝[(1-w)P_ij+wB_ij]R_i。其中，P_ij為第i個(gè)結(jié)合位點(diǎn)第j列處與DNA結(jié)合蛋白的蛋白結(jié)構(gòu)相對(duì)應(yīng)的DNase的固有切割概率，B_ij為第i個(gè)結(jié)合位點(diǎn)第j列處與該處DNA堿基傾向性相對(duì)應(yīng)的DNase的切割概率。P_ij是穩(wěn)定的，可用于DNA蛋白結(jié)合位點(diǎn)識(shí)別，而B(niǎo)_ij是不穩(wěn)定的，應(yīng)予以濾除。

具體濾除方法如下：

其中，S_ij,R_i可從實(shí)驗(yàn)數(shù)據(jù)中直接得到。B_ij則根據(jù)前一步驟獲取的DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性得到。w為權(quán)值，取值范圍為[0,1]之間，需要進(jìn)一步確定。

對(duì)于m個(gè)蛋白結(jié)合位點(diǎn)，當(dāng)權(quán)值w取不同值時(shí)，會(huì)得到不同的[P_i1,P_i2,…,P_in]，1≤i≤m。設(shè)則當(dāng)m個(gè)[P_i1,P_i2,…,P_in]與[P₁,P₂,...,P_n]之間的m個(gè)相關(guān)性值的中位值最大時(shí)，此時(shí)的w值為最優(yōu)值。

本發(fā)明的有益效果在于：通過(guò)所發(fā)明的方法可以精確地濾除DNase高通量測(cè)序數(shù)據(jù)中含有的DNA堿基傾向性偏差，以生成更加準(zhǔn)確的DNase-Seq測(cè)序結(jié)果，從而為后續(xù)更高層次的應(yīng)用分析提供數(shù)據(jù)保障。

附圖說(shuō)明

圖1為DNase-Seq實(shí)驗(yàn)數(shù)據(jù)DNA堿基傾向性直方圖。

圖2為w權(quán)值的評(píng)價(jià)值變化曲線。

圖3為本發(fā)明流程圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步描述。

作為DNA蛋白結(jié)合位點(diǎn)檢測(cè)的新技術(shù)，DNase-Seq技術(shù)具有眾多突出的優(yōu)點(diǎn)。由于不具有特異性，DNase-Seq可一次性在全基因組范圍內(nèi)同時(shí)檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn)；由于一次性檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn)，DNase-Seq大幅提高了檢測(cè)效率并降低了檢測(cè)成本，使大規(guī)模進(jìn)行DNA蛋白結(jié)合位點(diǎn)檢測(cè)成為可能；由于測(cè)序起始位置就是酶切位置，DNase-Seq對(duì)DNA蛋白結(jié)合位點(diǎn)的檢測(cè)分辨率可達(dá)單堿基。

然而，近期發(fā)現(xiàn)DNase核酸剪切酶在切割DNA時(shí)存在一定的DNA堿基傾向性，這將對(duì)DNA蛋白結(jié)合位點(diǎn)的識(shí)別產(chǎn)生不利的影響。本發(fā)明即是針對(duì)該問(wèn)題提出的一種濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法。

1、DNase-Seq實(shí)驗(yàn)數(shù)據(jù)酶切位點(diǎn)區(qū)域DNA堿基獲取

2、DNase-Seq實(shí)驗(yàn)數(shù)據(jù)DNA堿基傾向性獲取

3、DNA堿基傾向性去除

考慮DNase的DNA堿基傾向性，則第i個(gè)結(jié)合位點(diǎn)第j列的DNase檢測(cè)信號(hào)為： S_ij＝[(1-w)P_ij+wB_ij]R_i。其中，P_ij為第i個(gè)結(jié)合位點(diǎn)第j列處與DNA結(jié)合蛋白的蛋白結(jié)構(gòu)相對(duì)應(yīng)的DNase的固有切割概率，B_ij為第i個(gè)結(jié)合位點(diǎn)第j列處與該處DNA堿基傾向性相對(duì)應(yīng)的DNase的切割概率。P_ij是穩(wěn)定的，可用于DNA蛋白結(jié)合位點(diǎn)識(shí)別，而B(niǎo)_ij是不穩(wěn)定的，應(yīng)予以濾除。

具體濾除方法如下：

其中，S_ij,R_i可從實(shí)驗(yàn)數(shù)據(jù)中直接得到。B_ij則根據(jù)前一步驟獲取的DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性得到。w為權(quán)值，取值范圍為[0,1]之間，通過(guò)下述方法確定：

4、實(shí)驗(yàn)驗(yàn)證

從UCSC國(guó)際生物信息網(wǎng)站下載人類(lèi)基因組堿基序列數(shù)據(jù)，以及國(guó)際ENCODE計(jì)劃UW大學(xué)測(cè)得的人類(lèi)K562細(xì)胞系DNase-Seq測(cè)序數(shù)據(jù)和NFYA轉(zhuǎn)錄因子ChIP-Seq測(cè)序數(shù)據(jù)。

根據(jù)每個(gè)DNase-Seq測(cè)序數(shù)據(jù)酶切位點(diǎn)在人類(lèi)基因組中的位置，提取附近6個(gè)位點(diǎn)的堿基，即以酶切位點(diǎn)為中心，左右各取3個(gè)堿基。統(tǒng)計(jì)酶切位點(diǎn)處4096種堿基組合出現(xiàn)的頻次，獲得DNase-Seq實(shí)驗(yàn)數(shù)據(jù)的DNA堿基傾向性。該傾向性的直方圖如圖1所示(橫軸為堿基組合，縱軸為頻次)。由圖1可見(jiàn)，DNase-Seq實(shí)驗(yàn)數(shù)據(jù)存在明顯的DNA堿基傾向性。

根據(jù)NFYA轉(zhuǎn)錄因子的ChIP-Seq測(cè)序數(shù)據(jù)，識(shí)別出953個(gè)NFYA蛋白結(jié)合位點(diǎn)。每個(gè)結(jié)合位點(diǎn)包含201個(gè)堿基。

利用本發(fā)明方法對(duì)DNase-Seq實(shí)驗(yàn)數(shù)據(jù)進(jìn)行DNA堿基傾向性濾除。當(dāng)w取某一權(quán)值時(shí)，每個(gè)結(jié)合位點(diǎn)濾除DNA堿基傾向性的DNase檢測(cè)信號(hào)為[P_i1,P_i2,…,P_in]，1≤i≤953。計(jì)算每個(gè)結(jié)合位點(diǎn)[P_i1,P_i2,…,P_in]與[P₁,P₂,...,P_n]之間的Pearson相關(guān)值，這里n取值為201。選取953個(gè)相關(guān)值的中位值作為該w值是否優(yōu)異的評(píng)價(jià)值。讓w值由0到1變化，獲得如圖2所示的w值的評(píng)價(jià)值變化曲線(橫軸為w值，縱軸評(píng)價(jià)值)。由圖2可見(jiàn)，當(dāng)w值為0.15時(shí)，評(píng)價(jià)值達(dá)到最大并不再增加，此時(shí)的w值應(yīng)為最優(yōu)值，并進(jìn)而得到與之對(duì)應(yīng)的濾除DNA堿基傾向性的DNase-Seq檢測(cè)信息。

作為DNA蛋白結(jié)合位點(diǎn)檢測(cè)的新技術(shù)，DNase-Seq技術(shù)具有突出優(yōu)點(diǎn)。由于不具有特異性，DNase-Seq可一次性在全基因組范圍內(nèi)同時(shí)檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn)；由于一次性檢測(cè)多種DNA蛋白的結(jié)合位點(diǎn)，DNase-Seq大幅提高了檢測(cè)效率并降低了檢測(cè)成本，使大規(guī)模進(jìn)行DNA蛋白結(jié)合位點(diǎn)檢測(cè)成為可能；由于測(cè)序起始位置就是酶切位置，DNase-Seq對(duì)DNA蛋白結(jié)合位點(diǎn)的檢測(cè)分辨率可達(dá)單堿基。然而，DNase核酸剪切酶在切割DNA時(shí)存在一定的DNA堿基傾向性，這將對(duì)DNA蛋白結(jié)合位點(diǎn)的識(shí)別產(chǎn)生不利的影響。本發(fā)明即是針對(duì)該問(wèn)題提出的一種濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮偉興;賀波;宋艷霞;徐斯文;趙森;陳多嬌;劉歡;
技術(shù)所有人：哈爾濱工程大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

高通量測(cè)序數(shù)據(jù)分析相關(guān)技術(shù)

高通量測(cè)序數(shù)據(jù)處理相關(guān)技術(shù)

高通量測(cè)序數(shù)據(jù)上傳相關(guān)技術(shù)

高通量測(cè)序相關(guān)技術(shù)

高通量基因測(cè)序相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種濾除DNase高通量測(cè)序數(shù)據(jù)中DNA堿基傾向性偏差的方法與流程