本發(fā)明屬于基因組數(shù)據(jù)挖掘技術(shù)領(lǐng)域,涉及一種基于基因組表觀調(diào)控元件特征的復(fù)雜疾病易感基因的挖掘方法。
背景技術(shù):
目前,隨著高通量技術(shù)的迅速發(fā)展,生物醫(yī)學(xué)領(lǐng)域積累了海量的人類基因組數(shù)據(jù)。利用這些數(shù)據(jù),現(xiàn)已發(fā)現(xiàn)了許多疾病易感基因。然而,對(duì)于特定的復(fù)雜疾病,所發(fā)現(xiàn)的疾病易感基因累積起來(lái)解釋的疾病遺傳變異不足15%,這是所有復(fù)雜疾病遺傳學(xué)研究中碰到的一個(gè)共有現(xiàn)象,即“丟失的遺傳力”,這反映出對(duì)現(xiàn)有的海量數(shù)據(jù)資源的利用和挖掘遠(yuǎn)遠(yuǎn)不足。面對(duì)這些數(shù)據(jù),如何尋找復(fù)雜疾病“丟失的遺傳力”是當(dāng)前亟待解決的難題,需要采用有效方法尋找數(shù)據(jù)中隱藏的大量有價(jià)值的遺傳信息,預(yù)測(cè)疾病易感基因,從而用于疾病的診斷治療。深入挖掘復(fù)雜疾病易感基因成為疾病研究中的一項(xiàng)重要挑戰(zhàn),其結(jié)果對(duì)于揭示疾病發(fā)病機(jī)理和生物學(xué)基礎(chǔ)、設(shè)計(jì)藥物靶點(diǎn)、以及疾病的臨床早期篩查和個(gè)體化防治,都將產(chǎn)生十分重要的理論和現(xiàn)實(shí)意義。
已有的復(fù)雜疾病易感基因預(yù)測(cè)的方法多種多樣,大多是基于基因自身的預(yù)測(cè)。根據(jù)DNA序列的信息,結(jié)合功能、所在通路、生物分子網(wǎng)絡(luò)等信息進(jìn)行預(yù)測(cè)。然而,復(fù)雜疾病是由多個(gè)遺傳因素和環(huán)境因素共同交互作用而發(fā)生發(fā)展的,僅考慮DNA序列信息,難以真實(shí)反映出復(fù)雜疾病的狀態(tài),表觀遺傳學(xué)效應(yīng)不容忽視。
基因組包括兩類遺傳信息:即DNA序列遺傳信息和表觀遺傳學(xué)信息。表觀遺傳效應(yīng)不依賴基因序列的改變,人體及細(xì)胞功能的維持是這兩種信息相互作用、保持平衡的結(jié)果。目前,表觀遺傳學(xué)的研究成果已經(jīng)應(yīng)用于一些疾病的研究和治療中。因此,在進(jìn)行疾病易感基因預(yù)測(cè)時(shí),非常有必要納入表觀遺傳學(xué)的信息,將會(huì)為疾病研究帶來(lái)新的契機(jī)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明解決的問(wèn)題在于提供一種基于基因組表觀調(diào)控元件特征的復(fù)雜疾病易感基因的挖掘方法,將表觀遺傳學(xué)信息和基因組DNA序列信息有機(jī)結(jié)合,通過(guò)提取表觀調(diào)控元件特征,從全局上預(yù)測(cè)疾病特征性易感基因。
本發(fā)明是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
一種基于基因組表觀調(diào)控元件特征的復(fù)雜疾病易感基因的挖掘方法,包括以下操作:
S1:收集待分析病癥的已知易感基因,以及已知易感基因的所有表觀調(diào)控元件信息;利用表觀調(diào)控元件信息,根據(jù)基因組的物理位置對(duì)所有已知易感基因的啟動(dòng)子區(qū)域進(jìn)行注釋,若啟動(dòng)子區(qū)域與某個(gè)調(diào)控元件識(shí)別的物理位置有重疊,則認(rèn)為該啟動(dòng)子區(qū)域被注釋到;
S2:以已知易感基因啟動(dòng)子注釋集合作為目標(biāo)集合,以全基因組所有基因啟動(dòng)子注釋集合作為參考集合,采用富集分析的方法比對(duì)目標(biāo)集合與參考集合,找出已知易感基因中顯著富集的調(diào)控元件,進(jìn)行已知易感基因表觀調(diào)控元件的特征提??;
S3:根據(jù)提取出的表觀調(diào)控元件特征進(jìn)行反向預(yù)測(cè),對(duì)所有已知易感基因重新進(jìn)行打分,得到最終的判決結(jié)果,篩選排名靠前的已知易感基因作為優(yōu)先關(guān)注的潛在易感基因。
所述步驟S1具體包括以下操作:
S11:利用公共數(shù)據(jù)庫(kù)GWAS catalog和PubMed相關(guān)文獻(xiàn)收集某一疾病的已知易感基因;
S12:從UCSC數(shù)據(jù)庫(kù)獲取基因組所有表觀調(diào)控元件信息,包括轉(zhuǎn)錄因子結(jié)合位點(diǎn)、組蛋白修飾位點(diǎn)和染色質(zhì)分割狀態(tài);每種調(diào)控元件存儲(chǔ)為一個(gè)文本文件;
S13:利用獲取的表觀調(diào)控元件信息,根據(jù)基因組的物理位置對(duì)所有已知的疾病易感基因的啟動(dòng)子區(qū)域進(jìn)行注釋,啟動(dòng)子區(qū)域如和某個(gè)調(diào)控元件的物理位置有重疊,則認(rèn)為被注釋到。
所述步驟S2具體包括以下操作:
S21:針對(duì)S1注釋后的結(jié)果,采用富集分析的方法,比對(duì)目標(biāo)集合與參考集合,找出顯著富集的調(diào)控元件,提取其特征;
在注釋完成后,跟疾病相關(guān)基因的注釋情況進(jìn)行比對(duì),采用Fisher精確檢驗(yàn)法,確定調(diào)控元件的顯著富集;
針對(duì)某個(gè)元件,n次采樣的注釋數(shù)據(jù)分布下:
然后計(jì)算P值:
S22:將獲得的P值進(jìn)行十進(jìn)制對(duì)數(shù)變換。
為反映出全基因組的注釋分布狀況,還進(jìn)行N次抽樣,并計(jì)算所有抽樣的加和均值來(lái)代表全基因組的啟動(dòng)子的注釋狀況。
對(duì)于疾病基因集合中比例顯著升高的調(diào)控元件,轉(zhuǎn)換后P值為:Transformed P=-log10(P);
疾病基因集合中比例顯著降低的調(diào)控元件,轉(zhuǎn)換后P值為:Transformed P=log10(P)。
所述步驟S3具體操作包括:
S31:分析所有基因的轉(zhuǎn)換后P值;
S32:對(duì)所有基因進(jìn)行反向預(yù)測(cè)評(píng)分:假設(shè)富集分析得到了n個(gè)顯著富集的功能元件,第i個(gè)元件的轉(zhuǎn)換后P值記為tPi,某個(gè)基因注釋到這些元件的次數(shù)為Si,則該基因的反向分析評(píng)分為:
S33:根據(jù)反向預(yù)測(cè)評(píng)分對(duì)所有基因進(jìn)行排序,數(shù)值S越大,排序越高,其作為疾病易感基因的可能性就越高,將排序靠前的基因作為此疾病潛在的易感基因。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益的技術(shù)效果:
本發(fā)明的目的在于提供一種基于基因組表觀調(diào)控元件特征的復(fù)雜疾病易感基因的挖掘方法,將表觀遺傳學(xué)信息和基因組DNA序列信息有機(jī)結(jié)合,通過(guò)提取表觀調(diào)控元件特征,從全局上預(yù)測(cè)疾病特征性易感基因,可顯著提供發(fā)現(xiàn)新易感基因的功效,為后續(xù)針對(duì)關(guān)鍵調(diào)控元件設(shè)計(jì)藥物靶點(diǎn)奠定了重要基礎(chǔ)。
本發(fā)明提出的一種基于基因組表觀調(diào)控元件特征的復(fù)雜疾病易感基因的挖掘方法,同時(shí)結(jié)合了DNA序列信息和表觀遺傳學(xué)信息,通過(guò)尋找疾病易感基因的表觀調(diào)控元件規(guī)律進(jìn)行新易感基因的預(yù)測(cè),可顯著提高發(fā)現(xiàn)新易感基因的統(tǒng)計(jì)功效。通過(guò)對(duì)潛在基因進(jìn)行綜合排序,得到全局最優(yōu)決策結(jié)果,為疾病易感基因的篩選提供最佳結(jié)果。預(yù)測(cè)出的遺傳標(biāo)記富含生物學(xué)功能,為進(jìn)一步的生物學(xué)功能評(píng)價(jià)和藥物靶向開發(fā)奠定了重要基礎(chǔ)。
附圖說(shuō)明
圖1為本發(fā)明的方法流程示意圖。
具體實(shí)施方式
下面結(jié)合具體的實(shí)施例對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說(shuō)明,所述是對(duì)本發(fā)明的解釋而不是限定。
參見圖1,一種基于基因組表觀調(diào)控元件特征的復(fù)雜疾病易感基因的挖掘方法,包括以下步驟:
S1:收集待分析病癥的已知易感基因,以及已知易感基因的所有表觀調(diào)控元件信息;利用表觀調(diào)控元件信息,根據(jù)基因組的物理位置對(duì)所有已知易感基因的啟動(dòng)子區(qū)域進(jìn)行注釋,若啟動(dòng)子區(qū)域與某個(gè)調(diào)控元件識(shí)別的物理位置有重疊,則認(rèn)為該啟動(dòng)子區(qū)域被注釋到;
S2:以已知易感基因啟動(dòng)子注釋集合作為目標(biāo)集合,以全基因組所有基因啟動(dòng)子注釋集合作為參考集合,采用富集分析的方法比對(duì)目標(biāo)集合與參考集合,找出已知易感基因中顯著富集的調(diào)控元件,進(jìn)行已知易感基因表觀調(diào)控元件的特征提??;
S3:根據(jù)提取出的表觀調(diào)控元件特征進(jìn)行反向預(yù)測(cè),對(duì)所有已知易感基因重新進(jìn)行打分,得到最終的判決結(jié)果,篩選排名靠前的已知易感基因作為優(yōu)先關(guān)注的潛在易感基因。
所述步驟S1具體包括:
S11:利用公共數(shù)據(jù)庫(kù)GWAS catalog和PubMed相關(guān)文獻(xiàn)收集某一疾病的已知易感基因;
S12:從UCSC數(shù)據(jù)庫(kù)獲取基因組所有表觀調(diào)控元件信息,包括轉(zhuǎn)錄因子結(jié)合位點(diǎn)、組蛋白修飾位點(diǎn)和染色質(zhì)分割狀態(tài);每種調(diào)控元件存儲(chǔ)為一個(gè)文本文件;
S13:利用獲取的表觀調(diào)控元件信息,根據(jù)基因組的物理位置對(duì)所有已知的疾病易感基因的啟動(dòng)子區(qū)域進(jìn)行注釋。對(duì)應(yīng)原則是啟動(dòng)子區(qū)域如何和某個(gè)調(diào)控元件的物理位置有重疊,則認(rèn)為被注釋到。
所述步驟S2具體包括:
S21:針對(duì)上述注釋后的結(jié)果,采用富集分析的方法,比對(duì)所研究的目標(biāo)集合(已知易感基因啟動(dòng)子注釋集合)與參考集合(全基因組所有基因啟動(dòng)子注釋集合),找出顯著富集的調(diào)控元件,提取其特征。為了更好地反映出全基因組的分布狀況,進(jìn)行了1000次抽樣,并計(jì)算這1000次抽樣的加和均值來(lái)代表全基因組的啟動(dòng)子的注釋狀況。在注釋完成后,跟疾病相關(guān)基因的注釋情況進(jìn)行比對(duì),采用Fisher精確檢驗(yàn)法,確定調(diào)控元件的顯著富集。針對(duì)某一個(gè)元件,數(shù)據(jù)分布如表1所示:
表1富集分析所用數(shù)據(jù)分布狀況
P值計(jì)算公式:
S22:為了便于可視化和比較,將獲得的P值進(jìn)行十進(jìn)制對(duì)數(shù)變換。對(duì)于疾病基因集合中比例顯著升高的調(diào)控元件,轉(zhuǎn)換后P值(Transformed P)為:Transformed P=-log10(P);
比例顯著降低的調(diào)控元件,轉(zhuǎn)換后P值為:Transformed P=log10(P)。
所述步驟S3具體包括:
S31:分析所有基因的轉(zhuǎn)換后P值;
S32:對(duì)所有基因進(jìn)行反向預(yù)測(cè)評(píng)分:假設(shè)富集分析得到了n個(gè)顯著富集的功能元件,第i個(gè)元件的轉(zhuǎn)換后P值記為tPi,某個(gè)基因注釋到這些元件的次數(shù)為Si,則該基因的反向分析評(píng)分為:
S33:根據(jù)反向預(yù)測(cè)評(píng)分對(duì)所有基因進(jìn)行排序,數(shù)值S越大,排序越高,其作為疾病易感基因的可能性就越高,將排序前十位的基因作為此疾病潛在的易感基因。
本發(fā)明所述基于表觀調(diào)控元件特征預(yù)測(cè)復(fù)雜疾病易感基因的方法,適用于任何一種復(fù)雜疾病,例如各種癌癥、內(nèi)分泌疾病、心血管疾病、免疫類疾病等。
作為本發(fā)明實(shí)施方式之一,本發(fā)明所述方法驟S33中的疾病易感基因的判定,包括但不限于排序的前十位基因。本領(lǐng)域技術(shù)人員也可以根據(jù)實(shí)驗(yàn)情況自行選擇排序靠前的基因作為易感基因。
下面以復(fù)雜疾病骨質(zhì)疏松癥為例,利用本發(fā)明的方法,進(jìn)行骨質(zhì)疏松癥易感基因的預(yù)測(cè),以下進(jìn)行詳細(xì)說(shuō)明。
如圖1所示,本發(fā)明提供一種基于表觀調(diào)控元件特征預(yù)測(cè)復(fù)雜疾病易感基因的方法,包括以下步驟S1-S3。
S1:收集已知的骨質(zhì)疏松癥易感基因,并進(jìn)行表觀調(diào)控元件的注釋。
具體包括:從公共數(shù)據(jù)庫(kù)GWAS catalog收集骨質(zhì)疏松癥已知的易感基因,共259個(gè),作為基因集。從UCSC數(shù)據(jù)庫(kù)獲取基因組所有表觀調(diào)控元件信息,包括161種轉(zhuǎn)錄因子結(jié)合位點(diǎn),273種組蛋白修飾位點(diǎn)和135種染色質(zhì)分割狀態(tài)。利用這些表觀調(diào)控元件信息對(duì)所有基因的啟動(dòng)子區(qū)域進(jìn)行注釋。
S2:進(jìn)行骨質(zhì)疏松癥易感基因表觀調(diào)控元件的特征提取。
具體包括:利用富集分析,比對(duì)已知骨質(zhì)疏松易感基因集合的注釋與全基因組所有基因啟動(dòng)子的注釋,發(fā)現(xiàn)一共有52種表觀調(diào)控元件顯著富集在已知的骨質(zhì)疏松易感基因集合中。對(duì)比隨機(jī)抽取的基因集合,具有明顯的調(diào)控特征。
S3:根據(jù)表觀調(diào)控元件特征進(jìn)行基因反向預(yù)測(cè)。
具體包括:根據(jù)富集分析的結(jié)果,對(duì)所有基因進(jìn)行綜合評(píng)分。依據(jù)分值大小對(duì)所有基因進(jìn)行由高到低的排序。
實(shí)驗(yàn)結(jié)果:基因評(píng)分的分值越高,認(rèn)為其作為骨質(zhì)疏松易感基因的可能性越大。以基因評(píng)分為權(quán)重進(jìn)行通路分析,發(fā)現(xiàn)基因顯著富集在Wnt signaling,calcium signaling,Hedgehog signaling,MAPK signaling,和TGF-βsignaling等通路中,這些通路都是公認(rèn)的骨質(zhì)疏松癥相關(guān)通路,這說(shuō)明基于表觀調(diào)控元件特征預(yù)測(cè)骨質(zhì)疏松易感基因的方法是可行的。
按照打分排名最靠前的20個(gè)基因如下所示:
以上給出的實(shí)施例是實(shí)現(xiàn)本發(fā)明較優(yōu)的例子,本發(fā)明不限于上述實(shí)施例。本領(lǐng)域的技術(shù)人員根據(jù)本發(fā)明技術(shù)方案的技術(shù)特征所做出的任何非本質(zhì)的添加、替換,均屬于本發(fā)明的保護(hù)范圍。