基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集鑒定方法
【專利摘要】本發(fā)明涉及一種基因【技術(shù)領(lǐng)域】的基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集鑒定方法,所述方法包括如下步驟:從“數(shù)據(jù)集B”中找出和“集合A”發(fā)生直接相互作用的基因/蛋白,并命名為“節(jié)點集B”;統(tǒng)計“節(jié)點集B”中每個基因/蛋白和“集合A”發(fā)生直接相互作用的數(shù)目,命名為維度“i”;用具有不同最小維度“i”的“節(jié)點集B[i]”從“集合A”中調(diào)出那些相互作用的基因/蛋白,并被命名為“集合A[i]”;計算“集合A[i]”的聚集z值;具有最大聚集z值的“集合A[i]”為所得基因集。本發(fā)明的方法能夠鑒定出和生物過程更加相關(guān)的基因集,有助于相關(guān)研究人員開展相關(guān)研究工作。
【專利說明】基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集鑒定方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于基因【技術(shù)領(lǐng)域】,具體涉及一種基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集鑒定方法。
【背景技術(shù)】
[0002]轉(zhuǎn)錄組/蛋白組的動態(tài)變化引起細(xì)胞功能的改變?;?蛋白不是獨立的發(fā)揮作用,而是在蛋白-蛋白相互作用網(wǎng)絡(luò)中通過與其它蛋白的相互作用而發(fā)揮作用。因此,基于蛋白-蛋白相互作用網(wǎng)絡(luò)的組學(xué)數(shù)據(jù)挖掘能夠發(fā)現(xiàn)一些新的生物信息?;诖?,如果組學(xué)數(shù)據(jù)能夠在蛋白-蛋白相互作用信息的輔助下進(jìn)行分析,分析結(jié)果將更加具有生物相關(guān)性。
[0003]目前,對于顯著調(diào)變基因/蛋白的相互作用網(wǎng)絡(luò)分析主要依賴于這些基因/蛋白之間的直接相互作用信息。但是,多個基因/蛋白的表達(dá)表明其可能和一個關(guān)鍵節(jié)點基因/蛋白(未發(fā)生顯著調(diào)變)相互作用。該關(guān)鍵節(jié)點基因/蛋白同時亦可能和其它多個基因/蛋白相互作用?;陲@著調(diào)變基因/蛋白直接相互作用的分析可能導(dǎo)致丟失那些通過關(guān)鍵節(jié)點基因/蛋白而間接相互作用的顯著調(diào)變基因/蛋白。因此,進(jìn)行基于蛋白-蛋白相互作用網(wǎng)絡(luò)的組學(xué)數(shù)據(jù)分析,不能忽略那些關(guān)鍵節(jié)點基因/蛋白。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集鑒定方法。本發(fā)明的方法能夠鑒定出和生物過程更加相關(guān)的基因集,有助于相關(guān)研究人員開展相關(guān)研究工作。
[0005]本發(fā)明是通過以下的技術(shù)方案實現(xiàn)的,本發(fā)明涉及一種基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集鑒定方法,包括如下步驟:
[0006]步驟一,從“數(shù)據(jù)集B”中找出和“集合A”發(fā)生直接相互作用的基因/蛋白,并命名為“節(jié)點集B” ;“節(jié)點集B”中的基因/蛋白來自于“數(shù)據(jù)集B”,且和“集合A”沒有共有基因/蛋白;
[0007]步驟二,統(tǒng)計“節(jié)點集B”中每個基因/蛋白和“集合A”發(fā)生直接相互作用的數(shù)目,該數(shù)目被命名為“節(jié)點集B”中基因/蛋白的維度“i”,“節(jié)點集B”中的基因/蛋白具有不同的維度;
[0008]步驟三,用具有不同最小維度“i”的“節(jié)點集B[i]”從“集合A”中調(diào)出那些相互作用的基因/蛋白,并被命名為“集合A[i] ”,“集合A”中剩余的基因/蛋白被命名為“集合A[i]余”;
[0009]步驟四,計算“集合A [i] ”的聚集z值;
[0010]步驟五,具有最大聚集z值的“集合A[i] ”為所鑒定的基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集。
[0011]優(yōu)選地,步驟一中,所述數(shù)據(jù)集B為公共數(shù)據(jù)庫中蛋白-蛋白相互作用數(shù)據(jù)。
[0012]優(yōu)選地,步驟一中,所述集合A為從相關(guān)全基因轉(zhuǎn)錄組研究數(shù)據(jù)獲得的顯著調(diào)變,且具有生物功能富集的基因集。
[0013]優(yōu)選地,步驟四中,所述聚集z值的計算包括如下步驟:
[0014]a)計算每個基因/蛋白的表達(dá)顯著性,即生物樣本感興趣不同處理之間顯著性比較的校正P值;
[0015]b)用I減去該校正P值,進(jìn)而除以正態(tài)累積分布函數(shù),生成z值;
[0016]c)相加“集合A[i] ”中所有基因/蛋白的z值,并除以“集合A[i] ”基因/蛋白數(shù)目的平方根,得到聚集Z值;通過聚集z值可以比較具有不同基因/蛋白數(shù)目“集合A[i] ”的相對表達(dá)變化,聚集z值越高,“集合A[i] ”表達(dá)越顯著。
[0017]與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
[0018]本發(fā)明的技術(shù)方案綜合考慮了生物過程本身,即功能緊密相關(guān)的基因在應(yīng)答信號刺激時,這些基因的調(diào)變可能受到某個關(guān)鍵基因(即“關(guān)鍵節(jié)點基因/蛋白”)的影響,而該關(guān)鍵基因可能未發(fā)生顯著調(diào)變。關(guān)鍵節(jié)點基因/蛋白的關(guān)鍵性則通過其與顯著調(diào)變基因/蛋白相互作用的數(shù)目,即維度“i”體現(xiàn)出來。維度“i”愈大,其愈關(guān)鍵。同時,亦綜合考慮了所鑒定基因的整體表達(dá)調(diào)變信息,即聚集z值。聚集z值愈大,基因集調(diào)變愈顯著。毫無疑問,無論是關(guān)鍵節(jié)點基因/蛋白的維度“i”,還是基因集的聚集Z值,都客觀直接的反應(yīng)了生物過程中的重要指標(biāo),利用了生物學(xué)中涉及的自然規(guī)律。
[0019]本發(fā)明的方法鑒定的基因集具有如下效果:鑒定出和生物過程更加相關(guān)的基因集。和基因集相互作用的節(jié)點基因/蛋白亦具有重要生物功能。基于該基因集和/或節(jié)點基因/蛋白,有助于相關(guān)研究人員開展下一步相關(guān)研究工作。比如基因功能分析、疾病診斷、疾病治療預(yù)后等。
【專利附圖】
【附圖說明】
[0020]通過閱讀參照以下附圖對非限制性實施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0021]圖1為基于蛋白-蛋白相互作用網(wǎng)路基因集鑒定的分析流程。
[0022]圖2為結(jié)核分枝桿菌(Mtb)感染THP-1細(xì)胞后,THP-1細(xì)胞轉(zhuǎn)錄譜的基于蛋白-蛋白相互作用數(shù)據(jù)的基因集鑒定的主要策略。
[0023]圖3為采用不同最小維度的節(jié)點時,所鑒定基因集THPlr2Mtb_iNet[i]的聚集z值(A)及采用最小維度為14的節(jié)點時,所鑒定基因集TMtb-1Net,對應(yīng)剩余基因集TMtb-1Ex,及原始基因集THPlr2Mtb-1nduced表達(dá)量的箱型圖展示(B)。
[0024]圖4為THPlr2Mtb-1Net[i]和THPlr2Mtb_iEx[i]基因啟動子區(qū)的轉(zhuǎn)錄因子結(jié)合位點富集分析(A-C),以及采用最小維度為14的節(jié)點時,所鑒定基因集TMtb-1Net,對應(yīng)剩余基因集TMtb-1Ex基因啟動子區(qū)的轉(zhuǎn)錄因子結(jié)合位點富集分析(D)。
[0025]圖5 為 THPlr2Mtb-1nduced 和 TMtb-1Net 的生物通路分析。
[0026]圖6 為 THPlr2Mtb-1nduced (A)、TMtb-1Net (B)、和 TMtb-1Ex (C)與干擾素模塊基因(M3.1)的基因重疊分析。
[0027]圖7為THPlr2Mtb-1nduced、TMtb_iNet、和TMtb-1Ex與肺結(jié)核病人相關(guān)表達(dá)譜數(shù)據(jù)的相關(guān)性分析。
【具體實施方式】
[0028]下面結(jié)合具體實施例,進(jìn)一步闡述本發(fā)明。這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。下列實施例中未注明具體條件的實驗方法,通常按照常規(guī)條件,例如 Sambrook 等分子克隆:實驗室手冊(New York:Cold Spring Harbor LaboratoryPress, 1989)中所述的條件,或按照制造廠商所建議的條件。
[0029]對于顯著調(diào)變基因/蛋白的相互作用網(wǎng)絡(luò)分析主要依賴于這些基因/蛋白之間的直接相互作用信息。但是,多個基因/蛋白的表達(dá)表明其可能和一個關(guān)鍵節(jié)點基因/蛋白(雖然未發(fā)生顯著調(diào)變)相互作用。本發(fā)明綜合考慮基因/蛋白的調(diào)變程度及其與關(guān)鍵節(jié)點基因/蛋白的相互作用情況,從通量數(shù)據(jù)中鑒定和生物過程更加相關(guān)的基因集?;蚣b定具體考慮關(guān)鍵節(jié)點基因/蛋白與顯著調(diào)變基因/蛋白的相互作用程度(維度)以及所鑒定基因集的整體表達(dá)情況(聚集z值)。表達(dá)最明顯(最大聚集z值)的基因集為所鑒定的基因集。
[0030]本發(fā)明通過綜合蛋白-蛋白相互作用信息和轉(zhuǎn)錄組基因調(diào)變信息,并綜合考慮顯著調(diào)變基因/蛋白和關(guān)鍵節(jié)點基因/蛋白(未發(fā)生顯著調(diào)變)的相互作用情況,鑒定與生物過程更加相關(guān)的基因集。
[0031]在實施本發(fā)明的技術(shù)方案之前,需獲得:1)相關(guān)全基因轉(zhuǎn)錄組研究數(shù)據(jù)的基因表達(dá)調(diào)變信息,并且獲得了顯著調(diào)變且具有一定生物功能富集的基因集,該基因集命名為“集合A”,且集合A的基因/蛋白在感興趣狀態(tài)下(具體時間點,具體處理等)或者一致上調(diào);或者一致下調(diào)。如實施例中的“THPlr2Mtb-1nduced”,其基因在Mtb感染后18h都顯著上調(diào)(相對于4h) ;2)公共數(shù)據(jù)庫中蛋白-蛋白相互作用數(shù)據(jù),該數(shù)據(jù)命名為“數(shù)據(jù)集B”,如實施例中的“STRING蛋白-蛋白相互作用數(shù)據(jù)”。
[0032]圖1為基于蛋白-蛋白相互作用網(wǎng)路基因集鑒定的分析流程:
[0033]I)從“數(shù)據(jù)集B”中找出和“集合A”發(fā)生直接相互作用的基因/蛋白,即“數(shù)據(jù)集B”中的蛋白-蛋白相互作用對中只有一個蛋白來自于“集合A”,并命名為“節(jié)點集B”?!肮?jié)點集B”中的基因/蛋白來自于“數(shù)據(jù)集B”,和“集合A”沒有共有基因/蛋白。
[0034]2)統(tǒng)計“節(jié)點集B”中每個基因/蛋白和“集合A”發(fā)生直接相互作用的數(shù)目,即“節(jié)點集B”中的某個基因/蛋白和“集合A”中多少個基因/蛋白發(fā)生直接相互作用,該數(shù)目被命名為“節(jié)點集B”中基因/蛋白的維度“i”?!肮?jié)點集B”中的基因/蛋白具有不同的維度。
[0035]3)用具有不同最小維度“i”的“節(jié)點集B[i] ”從“集合A”中調(diào)出那些相互作用的基因/蛋白,并被命名為“集合A[i]”,如實施例中的“THPlr2Mtb-1Net[i]”?!凹螦[i]”中的基因/蛋白可能彼此直接發(fā)生相互作用,或通過具有不同最小維度“i”的“節(jié)點集B[i] ”而間接發(fā)生相互作用。對應(yīng)的,“集合A”中剩余的基因/蛋白被命名為“集合A[i]余”,如實施例中的 “THPlr2Mtb-1Ex[i] ”。
[0036]4)計算“集合A[i] ”的聚集z值(aggregate z-score)1。具體的,聚集z值的計算如下:a)計算每個基因/蛋白的表達(dá)顯著性,即生物樣本感興趣不同處理之間顯著性比較的校正P值;b)用I減去該校正P值,進(jìn)而除以正態(tài)累積分布函數(shù)(normal cumulativedistribut1n funct1n, normal CDF),生成 z 值;c)相加“集合 A[i] ” 中所有基因 / 蛋白的Z值,并除以“集合A[i] ”基因/蛋白數(shù)目的平方根,得到聚集z值。通過聚集z值可以比較具有不同基因/蛋白數(shù)目“集合A[i] ”的相對表達(dá)變化。聚集z值越高,“集合A[i] ”表達(dá)越顯著;反之亦然。
[0037]5)具有最大聚集z值的“集合A[i]”為所鑒定的基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集。
[0038]以下進(jìn)行具體闡述,下述實施例中的數(shù)據(jù)基于宿主巨噬細(xì)胞(THP-1細(xì)胞)抗結(jié)核分枝桿菌感染后的干擾素相關(guān)基因集(THPlrfMtb-1nduced,即權(quán)利要求書中的“集合A”)2,通過結(jié)合STRING蛋白-蛋白相互作用數(shù)據(jù),及權(quán)利要求書中的“數(shù)據(jù)集B”3’4,進(jìn)一步挖掘出的一個基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集,即TMtb-1Net,并進(jìn)一步進(jìn)行了相關(guān)驗證。
[0039]實施例
[0040]I 方法
[0041]1.1蛋白-蛋白相互作用數(shù)據(jù)
[0042]蛋白-蛋白相互作用數(shù)據(jù)來自于STRING數(shù)據(jù)庫3’4。STRING數(shù)據(jù)庫包含多個物種的蛋白-蛋白物理和功能相互作用數(shù)據(jù)。發(fā)明人從中提取人特異的蛋白-蛋白相互作用數(shù)據(jù),并且其相互作用的組合數(shù)值(combined socre)至少為0.7。該標(biāo)準(zhǔn)即保證了數(shù)據(jù)的高覆蓋率,亦保證了數(shù)據(jù)的高質(zhì)量性。
[0043]1.2從THPlr2Mtb_induced衍生基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集
[0044]首先,從STING蛋白-蛋白相互作用數(shù)據(jù)中找出和THPlr2Mtb-1nduced發(fā)生直接相互作用的基因/蛋白,命名為“節(jié)點集”,即前述的“節(jié)點集B”。節(jié)點集中的基因/蛋白來自于蛋白-蛋白相互作用數(shù)據(jù),和THPlr2Mtb-1nduced沒有共有基因/蛋白。其次,統(tǒng)計節(jié)點集中每個基因/蛋白和THPlr2Mtb-1nduced發(fā)生直接相互作用的數(shù)目,該數(shù)目被命名為節(jié)點集中基因/蛋白的維度“i”。如圖2中所示的兩個節(jié)點,一個節(jié)點的維度為3,另一個節(jié)點的維度為4。節(jié)點集中的基因/蛋白具有不同的維度。用具有不同最小維度“i”的節(jié)點集[i]從THPlr2Mtb-1nduced中調(diào)出那些相互作用的基因/蛋白,其被命名為“THPlr2Mtb-1Net[i]”,即權(quán)利要求書中的“集合A[i]”。THPlr2Mtb_iNet [i]中的基因/蛋白可能彼此直接發(fā)生相互作用,或通過具有不同最小維度“i”的節(jié)點集[i]間接發(fā)生相互作用。對應(yīng)的,THPlr2Mtb-1nduced中剩余的基因/蛋白被命名為“THPlr2Mtb_iEx[i] ”,即權(quán)利要求書中的“集合A[i]余”。計算THPlr2Mtb-1Net[i]的聚集z值(aggregatez-score) 具體的,聚集z值的計算如下:a)計算每個基因/蛋白的表達(dá)顯著性,即校正P值;b)用I減去該校正P值,進(jìn)而除以正態(tài)累積分布函數(shù)(normal cumulativedistribut1n funct1n, normal CDF),生成 z 值;c)相加 THPlr2Mtb_iNet [i]中所有基因/蛋白的z值,并除以THPlr2Mtb-1Net [i]中基因/蛋白數(shù)目的平方根,得到聚集z值。通過聚集z值可以比較具有不同基因/蛋白數(shù)目THPlr2Mtb-1Net [i]的相對表達(dá)變化。聚集z值越高,THPlr2Mtb-1Net[i]表達(dá)越顯著;反之亦然。具有最大聚集z值的THPlr2Mtb_iNet[i]為所鑒定的基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集。
[0045]2.3轉(zhuǎn)錄因子結(jié)合位點富集分析
[0046]PRomoter Integrat1n in Microarray Analysis (PRIMA)被用于相關(guān)基因集TFBS富集分析5。所分析啟動子區(qū)域為轉(zhuǎn)錄起始位點上游2000bp到下游200bp。用全基因組基因作為背景。Bonferroni校正p值〈0.01被認(rèn)為具有統(tǒng)計顯著性。
[0047]2.4KEGG信號通路富集分析
[0048]通過在線數(shù)據(jù)庫Database for Annotat1n, Visualizat1n and IntegratedDiscovery (DAVID) v6.7進(jìn)行信號通路富集分析6?;贐enjamini and Hochberg校正的錯誤發(fā)現(xiàn)率(False Discovery Rate, FDR)進(jìn)行統(tǒng)計分析。
[0049]2.5 針對肺結(jié)核(pulmonary tuberculosis, PTB)的基因集富集分析(gene setenrichment analysis, GSEA)
[0050]GSEA可以判斷基因集在一個已經(jīng)排序(根據(jù)表達(dá)量由高到低排序)的數(shù)據(jù)集中是主要分布在上面還是主要分布在下面7。發(fā)明人從NCBI GEO下載得到轉(zhuǎn)錄譜數(shù)據(jù)集GSE194918。
[0051]GSE19491 包含來自大量 PTB,潛伏感染(latent tuberculosis, LTB),和健康人(healthy control, HC)的全血表達(dá)譜數(shù)據(jù)。這些志愿者被分為多個組:1)訓(xùn)練組(training set),包括PTB、LTB、HC,其都來自于英國倫敦;2)檢測組(test set),包括PTB、LTB、HC,其亦來自于英國倫敦;3)驗證組(validat1n set),包括PTB、LTB,其來自于南非開普敦;4)檢測組_分離(test set_seperated),包括分離自PTB和HC的中性粒細(xì)胞(neut)、單核細(xì)胞(mono)、CD4+(CD4)和 CD8+(CD8) T 細(xì)胞;5)治療組(longitudinal),包括PTB治療前、藥物開始治療2月(PTB_2m)、藥物開始治療12月(PTB_12m),以及HC。
[0052]GSEA 結(jié)果通過 NES (Normalized Enrichment Score)和 FDR(false discoveryrate)進(jìn)行判斷。正NES表明基因集在表達(dá)譜數(shù)據(jù)集的上方富集,說明該基因集和該表達(dá)譜數(shù)據(jù)集正相關(guān),即在表達(dá)譜數(shù)據(jù)集中主要上調(diào)表達(dá);負(fù)NES表明該基因集在表達(dá)譜數(shù)據(jù)集的下方富集,說明該基因集和該表達(dá)譜數(shù)據(jù)集負(fù)相關(guān),即在表達(dá)譜數(shù)據(jù)集中主要下調(diào)表達(dá)。FDR< = 0.05表明NES具有統(tǒng)計顯著性7。
[0053]2 結(jié)果
[0054]2.1從THPlr2Mtb-1nduced鑒定基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集,其體現(xiàn)了THPlr2Mtb-1nduced 的主要特征
[0055]基因/蛋白在分子網(wǎng)絡(luò)中發(fā)揮作用,并且分子網(wǎng)絡(luò)的擾動會影響細(xì)胞的表型9。因此通過整合蛋白-蛋白相互作用數(shù)據(jù),THPlr2Mtb-1nduced可以進(jìn)一步被精煉。如圖2所示,發(fā)明人進(jìn)一步從THPlrfMtb-1nduced中提取彼此相互作用的基因/蛋白,或者提取通過節(jié)點集間接相互作用的基因/蛋白。相互作用的基因集、剩余的基因集,以及
[0056]THPlr2Mtb-1nduced,進(jìn)一步被用于針對病人相關(guān)表達(dá)譜數(shù)據(jù)的GSEA (圖2)。從蛋白-蛋白相互作用數(shù)據(jù)庫中挑選和THPlrfMtb-1nduced發(fā)生相互作用的基因/蛋白,即節(jié)點集。節(jié)點集中每個基因/蛋白和THPlr2Mtb-1nduced發(fā)生相互作用基因/蛋白的數(shù)目被命名為節(jié)點的維度,即i。THPlr2Mtb-1nduced中彼此相互作用或者通過最小維度為i的節(jié)點集[i]間接發(fā)生相互作用的一類基因/蛋白被命名為THPlr2Mtb-1Net[i]。
[0057]THPlr2Mtb-1nduced中剩余的基因被命名為THPlr2Mtb_iEx[i]。因為不同節(jié)點的維度不同,因此針對一系列的THPlr2Mtb-1Net[i],發(fā)明人分別計算其聚集z值。如圖3A所示,當(dāng)節(jié)點集的最小維度為14時,即節(jié)點集[i = 14],對應(yīng)THPlr2Mtb-1Net[i = 14]的聚集z 值最大。發(fā)明人將 THPlr2Mtb-1Net[i = 14]簡稱為 TMtb-1Net,對應(yīng)的 THPlr2Mtb_iEx[i=14]簡稱為TMtb-1Ex ο相比于TMtb-1Ex, TMtb-1Net上調(diào)表達(dá)更加顯著(圖3B)。
[0058]THPlr2Mtb-1nduced的基因啟動子區(qū)顯著富集三個和干擾素相關(guān)的轉(zhuǎn)錄因子結(jié)合位點,即 ISRE(IFN-stimulated response element)、 IRF-1(interferonregulatory factorl)、IRF-72。相一致的,發(fā)明人也詳細(xì)分析了這三個轉(zhuǎn)錄因子結(jié)合位點在THPlr2Mtb-1Net[i]和THPlr2Mtb_iEx[i]基因啟動子區(qū)的富集程度。如圖4A、4B和4D所示,無論使用任何最小維度的節(jié)點集,ISRE和IRF-7都更加顯著的富集在THPlr2Mtb-1Net[i]的基因啟動子區(qū)。相反的,IRF-1在THPlr2Mtb_iNet [i]和THPlr2Mtb-1Ex[i]基因啟動子區(qū)都顯著富集,和節(jié)點集的維度無關(guān)(圖4C和4D)。
[0059]相比于THPlr2Mtb_induced, TMtb-1Net 更加顯著的富集 cytokine-cytokinereceptor interactoin、chemokine signalling、NOD-like receptor signalling 信號通路(圖5)。TMtb-1Ex不富集任何信號通路。
[0060]綜上所述,通過應(yīng)用最小維度為14的節(jié)點集,發(fā)明人鑒定出一個基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集,即TMtb-1Net。TMtb-1Net表達(dá)調(diào)變最顯著(最高的聚集z值),同時亦在其基因啟動子區(qū)顯著富集ISRE、IRF-7和IRF-1這三個轉(zhuǎn)錄因子結(jié)合位點。
[0061]2.2TMtb-1Net比TMtb-1Ex含有更多的干擾素相關(guān)基因
[0062]THPlr2Mtb-1nduced和干擾素過程相關(guān)2。同時,TMtb-1Net繼承了THPlr2Mtb-1nduced的主要生物特征(圖4和圖5)。基于此,發(fā)明人進(jìn)一步分析TMtb-1Net是否比TMtb-1Ex含有更多的干擾素相關(guān)基因。Chaussabel D等基于對多個疾病病人外周血單個核細(xì)胞的表達(dá)譜數(shù)據(jù)分析,構(gòu)建了一系列基因模塊。這些基因模塊在多個疾病中呈現(xiàn)特異的一致表達(dá)。并且基于文獻(xiàn)研究,作者將多個基因模塊做了功能注釋,其中包括一個干擾素相關(guān)模塊,即M3.lm'THPlrfMtb-1nduced包含干擾素基因模塊中將近一半的基因,級95個基因中的44個2。比較發(fā)現(xiàn),TMtb-1Net包含了其中33個基因,而TMtb-1Ex只包含了其中11個基因(P = 4.32X 1-6)(圖6)。該結(jié)果表明,基于蛋白_蛋白相互作用網(wǎng)絡(luò)鑒定的基因集,即TMtb-1Net,比TMtb-1Ex包含更多的干擾素相關(guān)基因。并且證實了基于蛋白-蛋白相互作用網(wǎng)絡(luò)鑒定基因集方法的合理性。
[0063]2.3 和 THPlr2Mtb-1nduced 或 TMtb-1Ex 相比,TMtb-1Net 和 PTB 病人的正相關(guān)程度較一致,但是和分離自PTB病人的特異細(xì)胞群的正相關(guān)程度較高
[0064]如圖7的PTB_1&2所示,不論P(yáng)TB來自于訓(xùn)練組還是測試組,TMtb-1Net和THPlr2Mtb-1nduced與PTB的正相關(guān)程度基本相當(dāng)。而TMtb-1Ex與PTB的正相關(guān)程度則較低。該結(jié)果表明,基于蛋白-蛋白相互作用網(wǎng)絡(luò)鑒定的TMtb-1Net與THPlr2Mtb-1nduced相比,在PTB病人全血中具有相似的上調(diào)表達(dá)程度。
[0065]發(fā)明人進(jìn)一步分析TMtb-1Net與分離自PTB病人的中性粒細(xì)胞、單核細(xì)胞、⑶4+和⑶8+細(xì)胞的正相關(guān)程度。結(jié)果表明TMtb-1Net和這四種細(xì)胞亦呈顯著性正相關(guān)。
[0066]TMtb-1Net 和 CD4+、CD8+T 細(xì)胞的正相關(guān)程度高于 THPlr2Mtb-1nduced。因為TMtb-1Net與中性粒細(xì)胞、單核細(xì)胞的正相關(guān)程度相似于THPlr2Mtb-1nduced,因此TMtb-1Net與⑶4+、⑶8+的更高正相關(guān)具有特異性。TMtb-1Ex與中性粒細(xì)胞、單核細(xì)胞的正相關(guān)程度較低;與⑶4+、⑶8+T細(xì)胞無顯著性相關(guān)(圖7的PTB_3-6)。
[0067]綜上所述,和THPlr2Mtb_induced和TMtb-1Ex相比,基于蛋白-蛋白相互作用網(wǎng)絡(luò)鑒定的基因集TMtb-1Net和PTB病人的正相關(guān)程度較一致,但是和分離自PTB病人的特異細(xì)胞群的正相關(guān)程度較高。
[0068]2.4 在 PTB 的治療過程中,TMtb-1Net 比 THPlr2Mtb_induced 或 TMtb-1Ex 下降更快
[0069]如圖7的PTB_7_9所示,在治療開始兩月后,TMtb-1Net與PTB的正相關(guān)性有所下降,但仍然具有顯著性。但是在治療開始12個月后,TMtb-1Net與PTB的相關(guān)性則不具有顯著性。而不論是在治療開始前,治療開始兩個月,還是治療開始12個月,THPlr2Mtb-1nduced和TMtb-1Ex與PTB的正相關(guān)性確一直具有統(tǒng)計顯著性。這些結(jié)果表明,基于蛋白-蛋白相互作用網(wǎng)絡(luò)鑒定的基因集TMtb-1Net對PTB的治療更加具有應(yīng)答性。
[0070]綜上所述,本發(fā)明綜合考慮了生物過程本身,即功能緊密相關(guān)的基因在應(yīng)答信號刺激時,這些基因的調(diào)變可能受到某個關(guān)鍵基因(即“關(guān)鍵節(jié)點基因/蛋白”)的影響,而該關(guān)鍵節(jié)點基因/蛋白可能未發(fā)生顯著調(diào)變;
[0071]關(guān)鍵節(jié)點基因/蛋白的關(guān)鍵性則通過其與顯著調(diào)變基因/蛋白相互作用的數(shù)目,即維度“i”體現(xiàn)出來。維度“i”愈大,其愈關(guān)鍵。同時,亦綜合考慮了所鑒定基因的整體表達(dá)調(diào)變信息,即聚集z值。聚集z值愈大,基因集調(diào)變愈顯著。毫無疑問,無論是關(guān)鍵節(jié)點基因/蛋白的維度“i”,還是基因集的聚集z值,都客觀直接的反應(yīng)了生物過程中的重要指標(biāo)。
[0072]本發(fā)明的方法鑒定的基因集具有如下效果:鑒定出和生物過程更加相關(guān)的基因集。和基因集相互作用的節(jié)點基因/蛋白亦具有重要生物功能?;谠摶蚣?或節(jié)點基因/蛋白,有助于相關(guān)研究人員開展下一步相關(guān)研究工作。比如基因功能分析、疾病診斷、疾病治療預(yù)后等。
[0073]本發(fā)明涉及的參考文件列表如下:
[0074]1.1deker Tj Ozier O, Schwikowski B,Siegel AF.Discovering regulatory andsignalling circuits in molecular interact1n networks.B1informatics 2002 ;18Suppll:S233-S240.
[0075]2.Wu K,Dong D,F(xiàn)ang H et al.An interferon-related signature inthe transcript1nal core response of human macrophages to Mycobacteriumtuberculosis infect1n.PLoS One 2012 ;7 (6):e38367.
[0076]3.Snel Bj Lehmann Gj Bork Pj Huynen MA.STRING:a web-server to retrieve anddisplay the repeatedly occurring neighbourhood of a gene.Nucleic Acids Res2000 ;28(18):3442-3444.
[0077]4.Franceschini A, Szklarczyk Dj Franki I d S et al.STRINGv9.1:protein-protein interact1n networks, with increased coverage andintegrat1n.Nucleic Acids Res2013 ;41 (Database issue):D808_D815.
[0078]5.Ulitsky I, Maron-Katz A, Shavit S et al.Expander: from express1nmicroarrays to networks and funct1ns.Nat Protoc 2010 ;5 (2):303-322.
[0079]6.Huang dW, Sherman BT,Lempicki RA.Systematic and integrative analysisof large gene lists using DAVID b1informatics resources.Nat Protoc 2009 ;4(1):44-57.
[0080]7.Subramanian A, Tamayo Pj Mootha VK et al.Gene set enrichment analysis:aknowledge-based approach for interpreting genome-wide express1n profiles.ProcNatl Acad Sci U S A 2005 ; 102 (43):15545-15550.
[0081]8.Berry MPj Graham CM,McNab FW et al.An interferon-1nducibleneutrophil-driven blood transcript1nal signature in human tuberculosis.Nature2010 ;466(7309):973-977.
[0082]9.Vidal M,Cusick ME, Barabasi AL.1nteractome networks and humandisease.Cell2011 ;144(6):986-998.
[0083]10.Chaussabel D,Quinn C,Shen J et al.A modular analysis frameworkfor blood genomics studies: applicat1n to systemic lupus erythematosus.1mmunity2008 ;29(1):150-164.
[0084]11.Chaussabel D,Sher A.Mining microarray express1n data by literatureprofiling.Genome B1l 2002 ;3 (10): RESEARCH0055.
[0085]以上對本發(fā)明的具體實施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。
【權(quán)利要求】
1.一種基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集鑒定方法,其特征在于,包括如下步驟: 步驟一,從“數(shù)據(jù)集B”中找出和“集合A”發(fā)生直接相互作用的基因/蛋白,并命名為“節(jié)點集B” 節(jié)點集B”中的基因/蛋白來自于“數(shù)據(jù)集B”,且和“集合A”沒有共有基因/蛋白; 步驟二,統(tǒng)計“節(jié)點集B”中每個基因/蛋白和“集合A”發(fā)生直接相互作用的數(shù)目,該數(shù)目被命名為“節(jié)點集B”中基因/蛋白的維度“i”,“節(jié)點集B”中的基因/蛋白具有不同的維度; 步驟三,用具有不同最小維度“i”的“節(jié)點集B[i]”從“集合A”中調(diào)出那些相互作用的基因/蛋白,并被命名為“集合A[i]”,“集合A”中剩余的基因/蛋白被命名為“集合A[i]余”; 步驟四,計算“集合A[i] ”的聚集z值; 步驟五,具有最大聚集z值的“集合A[i]”為所鑒定的基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集。
2.如權(quán)利要求1所述的基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集鑒定方法,其特征在于,步驟一中,所述數(shù)據(jù)集B為公共數(shù)據(jù)庫中蛋白-蛋白相互作用數(shù)據(jù)。
3.如權(quán)利要求1所述的基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集鑒定方法,其特征在于,步驟一中,所述集合A為從相關(guān)全基因轉(zhuǎn)錄組研究數(shù)據(jù)獲得的顯著調(diào)變,且具有生物功能富集的基因集。
4.如權(quán)利要求1所述的基于蛋白-蛋白相互作用網(wǎng)絡(luò)的基因集鑒定方法,其特征在于,步驟四中,所述聚集z值的計算包括如下步驟: a)計算每個基因/蛋白的表達(dá)顯著性,即生物樣本感興趣不同處理之間顯著性比較的校正P值; b)用I減去該校正P值,進(jìn)而除以正態(tài)累積分布函數(shù),生成z值; c)相加“集合A[i]”中所有基因/蛋白的z值,并除以“集合A[i]”基因/蛋白數(shù)目的平方根,得到聚集z值;通過聚集z值可以比較具有不同基因/蛋白數(shù)目“集合A[i] ”的相對表達(dá)變化,聚集z值越高,“集合A[i] ”表達(dá)越顯著。
【文檔編號】G06F19/18GK104182654SQ201410370730
【公開日】2014年12月3日 申請日期:2014年7月30日 優(yōu)先權(quán)日:2014年7月30日
【發(fā)明者】吳康, 黃家穎, 范小勇 申請人:上海市公共衛(wèi)生臨床中心