專利名稱:一種尋找調控一組相關基因的轉錄因子的計算方法
技術領域:
本發(fā)明屬于計算生物學領域,具體涉及一種尋找調控一組相關基因的轉錄因子的計算方法。
背景技術:
尋找調控一組相關基因的轉錄因子一直是功能基因組學關心的熱點問題,目前由于缺乏簡便、快速、有效的研究方法,該問題也是研究轉錄調控網(wǎng)絡的難點。通過轉錄因子結合位點分析預測調控一組基因的轉錄因子是計算生物學的一個重要研究內容,如發(fā)表在《基因組生物學》的文獻1提供的方法。對于尋找調控一組相關基因的轉錄因子,現(xiàn)有的計算生物學的解決方法是,提取這些基因的調控序列,利用轉錄因子的位點權重矩陣算法(文獻2)分析這組序列中可能出現(xiàn)的轉錄因子結合位點,統(tǒng)計在這組序列中同時出現(xiàn)的結合位點,這些位點上的轉錄因子可能就是調控這一組基因的轉錄因子,如在《基因組信息學》發(fā)表的文獻3的方法。該方法的主要缺點在于由于利用位點權重矩陣估計轉錄因子結合位點的假陽性非常高,大量的假陽性預測產生的共調控的轉錄因子中真實的調控因子個數(shù)太少。此外,該方法也沒有考慮相關基因中被特定轉錄因子調控的比例。由于在實際工作中,確定一組相關基因實驗方法和分析方法都存在一定誤差,同時生物體中也只有一部分相關基因是共調控的,如文獻4(《生物信息學》)對基因表達的分析。因此,籠統(tǒng)地認為相關基因就是共調控基因是有失偏頗的,這也使得現(xiàn)有的計算方法失去部分效用。相關文獻有1.Bulyk,M.L.2003.Computational prediction of transcription-factor binding sitelocations.Genome Biol.5201.
2.Quandt,K.,K.Frech,H.Karas,E.Wingender,and T.Werner.1995.MatInd andMatInspectornew fast and versatile tools for detection of consensus matchesin nucleotide sequence data.Nucleic Acids Res.234878-4884.
3.Kielbase,S.M.,N.Bluthgen,C.Sers,R.Schafer,and H.Herzel.2004.Predictionof cis-regulatory elements of coregulated genes.Genome Inform.Ser.WorkshopGenome Inform.15117-124.
4.Ihmels,J.,S.Bergmann,and N.Barkai.2004.Defining transcription modulesusing large-scale gene expression data.Bioinformatics.201993-2003.
發(fā)明內容
本發(fā)明的目的是提供一種尋找調控一組相關基因的轉錄因子的計算方法,該方法通過計算轉錄因子在一組相關基因中結合位點的實際個數(shù)與期望個數(shù)的比值,來判定轉錄因子與這組基因的關系。如果比值不低于預先計算的共調控顯著性閾值,則認為轉錄因子與這組基因有關。其中,共調控顯著性閾值是由位點權重矩陣算法的特異性(以下簡稱算法的特異性)、這組相關基因的共調控比和轉錄因子的總體調控率確定的。
本發(fā)明通過以下步驟實現(xiàn)(1)確定一組相關基因,提取這組基因的調控序列,并利用位點權重矩陣算法計算這些序列上的轉錄因子結合位點。
確定一組相關基因的方法是根據(jù)基因的生物學特性,判斷一組基因是否具有相關性,如具有相同表達譜的基因、具有相同基因本體(GeneOntology)注釋的基因、處于同一生物通路中的基因或進化上的同源基因,只要這些基因有共同的生物學特性,都可以認為是相關基因。
調控序列的范圍可以涉及基因內和基因間的各個部分,提取方法是在各種基因組序列的公共數(shù)據(jù)庫中查詢相關基因的目的序列。
位點權重矩陣算法可以參考文獻2(1995年《核酸研究》)提供的方法。
(2)算法的特異性。
對于特定轉錄因子,算法的特異性是真陽性預測位點數(shù)占預測總位點數(shù)的百分比,主要由位點權重矩陣算法和相似性閾值決定,不同算法的特異性存在差異,對于同一算法,相似性閾值越高,特異性越強,算法的特異性一般在15%到40%之間。計算方法是根據(jù)位點權重矩陣算法計算轉錄因子在已知靶序列上的結合位點,已知調控位點數(shù)占預測的總位點數(shù)的百分比就是該轉錄因子位點權重矩陣算法的特異性。
由于算法的特異性主要決定于位點權重矩陣算法和相似性閾值,受轉錄因子的影響較小,可以預先計算不同算法在不同相似性閾值的特異性,做出不同算法的特異性對相似性閾值的變化曲線,在以后的分析中,只要根據(jù)相似性閾值,選擇合適的算法,可確定相應的特異性,不必重復計算。
(3)在步驟(1)得到的在調控序列上存在結合位點的轉錄因子中,選擇一個待測轉錄因子。
(4)計算步驟(3)所選的待測轉錄因子的平均結合密度。轉錄因子的平均結合密度是指單位長度的基因組序列上出現(xiàn)的該轉錄因子的結合位點個數(shù)。計算方法是提取基因組序列,利用位點權重矩陣算法計算轉錄因子在基因組序列上的結合位點,用總的位點個數(shù)除以這些基因組序列的總長,得到該轉錄因子的平均結合密度。為了減少計算量、簡化計算流程,可以預先計算已知轉錄因子在各種基因組中的平均結合密度,每次尋找調控相關基因的轉錄因子時,只需查找相應的記錄,不必重新計算。
(5)計算待測轉錄因子的期望位點的個數(shù)。計算方法是用這組相關基因的調控序列總長乘以待測轉錄因子的平均結合密度。
(6)估計待測轉錄因子的總體調控率和共調控比。
總體調控率是在基因組的全部基因中,被特定轉錄因子調控的基因所占的比率,可以根據(jù)轉錄因子的表達特異性和功能來估計。一般地,廣泛表達的轉錄因子的總體調控率高于組織細胞特異性轉錄因子的總體調控率,參與多種細胞反應的轉錄因子的總體調控率較高。一般轉錄因子的總體調控率在5-10%之間。
共調控比是在一組相關基因中被特定轉錄因子調控的基因所占的比例,與基因的相關性和該轉錄因子的總體調控率有關?;蜷g的相關性高,轉錄因子的總體調控率大,共調控比就大。一組相關基因的共調控比一般在0.2-0.5之間。
(7)計算共調控顯著性閾值 (8)判斷轉錄因子的預測位點數(shù)與期望位點數(shù)之比與共調控顯著性閾值的關系,如果預測位點數(shù)與期望位點數(shù)之比不小于共調控顯著性閾值,則待測轉錄因子與這組基因有調控關系,否則,沒有調控關系。
(9)判斷是否還有待測轉錄因子,如果還有轉錄因子沒有檢測,返回步驟(3),選擇待測轉錄因子,重復步驟(4)-(8),判斷轉錄因子與這組相關基因的關系,直到檢測完步驟(1)得到的所有的轉錄因子。
(10)結束。
本發(fā)明方法的流程示意圖。
具體實施例方式
本發(fā)明是一種尋找調控一組相關基因的轉錄因子的計算方法,該方法有下列步驟(1)確定一組相關基因,提取這組基因的調控序列,利用位點權重矩陣算法計算這些序列上的轉錄因子結合位點。
(2)做算法的特異性曲線。提取已知靶基因的調控序列,用位點權重矩陣算法計算調控序列上的結合位點,用已知調控位點占預測的總位點的百分比作為算法的特異性,計算不同的相似性閾值下的特異性,做出算法的特異性對相似性閾值的變化曲線。
(3)在步驟(1)得到的在調控序列上存在結合位點的轉錄因子中,選擇一個待測的轉錄因子。
(4)計算步驟(3)所選的待測轉錄因子的平均結合密度。計算方法是提取基因組序列,利用位點權重矩陣算法計算轉錄因子在基因組序列上的結合位點,用總的位點個數(shù)除以這些基因組序列的總長,得到該轉錄因子的平均結合密度。
(5)計算待測轉錄因子的期望位點的個數(shù)。計算方法是用這組相關基因的調控序列總長乘以待測轉錄因子的平均結合密度。
(6)根據(jù)轉錄因子的表達特異性和功能估計待測轉錄因子的總體調控率和共調控比。一般轉錄因子的總體調控率在5-10%之間,共調控比一般在0.2-0.5之間。
(7)根據(jù)等式(I)計算共調控顯著性閾值。
(8)判斷轉錄因子的預測位點數(shù)與期望位點數(shù)之比與共調控顯著性閾值的關系,如果預測位點數(shù)與期望位點數(shù)之比不小于共調控顯著性閾值,則待測轉錄因子與這組基因有調控關系,否則,沒有調控關系。
(9)判斷是否還有待測轉錄因子,如果還有轉錄因子沒有檢測,返回步驟(3),選擇待測轉錄因子,重復步驟(4)-(8),判斷轉錄因子與這組相關基因的關系,直到檢測完步驟(1)得到的所有的轉錄因子。
(10)結束。
下面結合一個已證實的實例具體說明本發(fā)明的計算過程,測試方法的準確性。
計算目的在人、大鼠、小鼠的39個肌肉組織特異性基因中尋找調控這些基因的轉錄因子。39個基因為ITGA7,ACHE,CHRNA1,CHRNB1,CHRND,CHRNE,SLC25A4,ALDOA,ACTA1,ACTA2,NPR3,ITGB7,ACTB,CALD1,F(xiàn)OS,COX8A,CSF2,DES,DMD,ENO1,TNNT3,ACTG2,MB,VIM,IGFBP5,MEOX2,CKM,MYH5,MYH7,MYH3,MYH11,MYL1,MYL4,MYOG,MYF5,MYOD1,TNNC1,SLC2A4。
實施過程1.在本實例中,相關基因已確定,屬于具有相同組織特異性的基因。提取這39個基因轉錄起始位點上游1.1kb序列,利用位點權重矩陣算法計算這組序列上的轉錄因子結合位點。
2.算法的特異性。用位點權重矩陣算法計算調控序列上的結合位點,用已知調控位點占預測的總位點的百分比作為算法的特異性,計算不同的相似性閾值下的特異性,做出算法的特異性對相似性閾值的變化曲線。這里特異性以15%計算。
3.在步驟1得到的在調控序列上存在結合位點的轉錄因子中,選擇一個待測轉錄因子。
4.計算待測轉錄因子的平均結合密度。提取人、大鼠、小鼠的基因組序列,利用位點權重矩陣算法計算轉錄因子結合位點,用總的位點個數(shù)除以這些序列的總長,得到平均結合密度。建立已知轉錄因子在基因組中的平均結合密度表,在以后的步驟中只要查表即可。
5.計算待測轉錄因子的期望位點的個數(shù)。計算方法是用這組相關基因的調控序列總長乘以待測轉錄因子的平均結合密度。
6.根據(jù)轉錄因子的表達特異性和功能估計待測轉錄因子的總體調控率和共調控比。本實例中,轉錄因子的總體調控率以5%計算,共調控比以0.9計算。
7.根據(jù)等式(I)計算共調控顯著性閾值。
共調控顯著性閾值=1-15%+15%×0.9/5%=3.558.計算待測轉錄因子的結合位點數(shù)與預期個數(shù)的比值,若這個比值不小于3.55,則這個轉錄因子與肌肉特異性基因的表達調控有關,否則,沒有調控關系。
9.判斷是否還有待測轉錄因子,如果還有轉錄因子沒有檢測,返回步驟3,選擇待測轉錄因子,重復步驟4-8,判斷轉錄因子與這組相關基因的關系,直到檢測完步驟1得到的所有的轉錄因子。
10.結束。
表1列出了轉錄因子的結合位點數(shù)與預期個數(shù)比大于3.55的轉錄因子、結合位點數(shù)、預期個數(shù)。
在表1列出的轉錄因子中,以*標記已經(jīng)被實驗證實的調控肌肉組織特異性基因的轉錄因子,包括SRF、MEF-2和Sp1。在11個轉錄因子中有7個屬于SRF、MEF-2和Sp1,預測的準確性為63%。
表1.結合位點數(shù)與預期個數(shù)比大于共調控顯著性閾值的轉錄因子。
表2.按照原有方法得到的轉錄因子。
按照原有方法,得到表2列出的轉錄因子,但未發(fā)現(xiàn)這些轉錄因子與肌肉特異性基因有關。因為按照原有的計算方法,必須在所有的基因上都找到轉錄因子的結合位點,這個轉錄因子才調控這組基因,這樣既有可能漏掉只調控部分基因的轉錄因子,也可能由于位點權重矩陣算法過高的假陽性出現(xiàn)許多無關的轉錄因子。
在這個實例中,應用本發(fā)明方法計算調控一組相關基因的轉錄因子的準確性為63%,而按照原有的計算方法準確性為0。結果證明本發(fā)明可以有效地發(fā)現(xiàn)調控一組相關基因的轉錄因子。
權利要求
1.一種尋找調控一組相關基因的轉錄因子的計算方法,其特征是根據(jù)一組相關基因來確定與調控這組基因的轉錄因子。
2.按照權利要求1所述的尋找調控一組相關基因的轉錄因子的計算方法,其特征是所述的一組相關基因是具有共同的生物學特征的一組基因。
3.按照權利要求1所述的尋找調控一組相關基因的轉錄因子的計算方法,其特征是所述的調控這組基因的轉錄因子是能調控這組相關基因中一部分基因的轉錄因子。
4.按照權利要求1,2和3所述的尋找調控一組相關基因的轉錄因子的計算方法,其特征是通過下述步驟進行,(1)確定一組相關基因,提取這組基因的調控序列,利用位點權重矩陣算法計算這些序列上的轉錄因子結合位點。(2)算法的特異性。提取已知靶基因的調控序列,用位點權重矩陣算法計算調控序列上的結合位點,用已知調控位點占預測的總位點的百分比作為算法的特異性。(3)在步驟(1)得到的在調控序列上存在結合位點的轉錄因子中,選擇一個待測的轉錄因子。(4)計算步驟(3)所選的待測轉錄因子的平均結合密度。計算方法是提取基因組序列,利用位點權重矩陣算法計算轉錄因子在基因組序列上的結合位點,用總的位點個數(shù)除以這些基因組序列的總長,得到該轉錄因子的平均結合密度。(5)計算待測轉錄因子的期望位點的個數(shù)。計算方法是用這組相關基因的調控序列總長乘以待測轉錄因子的平均結合密度。(6)根據(jù)轉錄因子的表達特異性和功能估計待測轉錄因子的總體調控率和共調控比。一般轉錄因子的總體調控率在5-10%之間,共調控比一般在0.2-0.5之間。(7)計算共調控顯著性閾值. (8)判斷轉錄因子的預測位點數(shù)與期望位點數(shù)之比與共調控顯著性閾值的關系,如果預測位點數(shù)與期望位點數(shù)之比不小于共調控顯著性閾值,則待測轉錄因子與這組基因有調控關系,否則,沒有調控關系。(9)判斷是否還有待測轉錄因子,如果還有轉錄因子沒有檢測,返回步驟(3),選擇待測轉錄因子,重復步驟(4)-(8),判斷轉錄因子與這組相關基因的關系,直到檢測完步驟(1)得到的所有的轉錄因子。(10)結束。
5.按照權利要求4所述的尋找調控一組相關基因的轉錄因子的計算方法,其特征是所述的轉錄因子的平均結合密度的計算方法是提取基因組序列,利用位點權重矩陣算法計算轉錄因子在基因組序列上的結合位點,用總的位點個數(shù)除以這些基因組序列的總長,得到該轉錄因子的平均結合密度。
6.按照權利要求4所述的尋找調控一組相關基因的轉錄因子的計算方法,其特征是所述的轉錄因子的總體調控率的估計方法是被轉錄因子調控的基因占基因組的全部基因的比率。
7.按照權利要求4所述的尋找調控一組相關基因的轉錄因子的計算方法,其特征是所述的共調控比的計算方法是估計在這組相關基因中被轉錄因子調控的基因所占的比例。
8.按照權利要求4所述的尋找調控一組相關基因的轉錄因子的計算方法,其特征是所述的共調控顯著性域值由位點權重矩陣算法的特異性、轉錄因子的總體調控率和這組相關基因的共調控比決定。計算方法是
9.按照權利要求4所述的尋找調控一組相關基因的轉錄因子的計算方法,其特征是所述的期望位點個數(shù)的計算方法是用相關基因的調控序列總長乘以轉錄因子的平均結合密度。
10.按照權利要求4所述的尋找調控一組相關基因的轉錄因子的計算方法,其特征是所述的篩選轉錄因子是指若轉錄因子的結合位點個數(shù)與預期個數(shù)的比值大于或等于共調控顯著性域值,則確定該轉錄因子調控這組相關基因,否則無調控關系。
全文摘要
本發(fā)明屬于計算生物學領域,具體涉及一種尋找調控一組相關基因的轉錄因子的計算方法。通過計算轉錄因子在一組相關基因中結合位點的實際個數(shù)與期望個數(shù)的比值,來判定轉錄因子與這組基因的關系。如果比值高于預先計算的共調控顯著性閾值,則認為轉錄因子與這組基因有關。共調控顯著性閾值則是位點權重矩陣算法的特異性、共調控比和總體調控率確定的。該方法大大提高了預測調控相關基因的轉錄因子的準確性,從生物學特征出發(fā)界定相關基因的關系和共調控的比例,涉及參數(shù)少且計算方法簡單,便于生物學家應用。
文檔編號G06F19/00GK1881225SQ20051007532
公開日2006年12月20日 申請日期2005年6月16日 優(yōu)先權日2005年6月16日
發(fā)明者莊海濱, 張凌慧, 劉湘軍, 劉德培, 梁植權 申請人:清華大學, 中國醫(yī)學科學院基礎醫(yī)學研究所