本發(fā)明涉及基因檢測(cè)
技術(shù)領(lǐng)域:
,具體地,涉及一種通過(guò)檢測(cè)目標(biāo)基因的表達(dá)量來(lái)評(píng)價(jià)人體免疫狀態(tài)的檢測(cè)系統(tǒng)。
背景技術(shù):
:免疫反應(yīng)是人體對(duì)外源微生物入侵和內(nèi)源機(jī)體異常的生理反應(yīng),表現(xiàn)在激活或抑制某些生物通路,因此人體免疫狀態(tài)的異??梢灾甘救梭w受到外源微生物入侵或機(jī)體內(nèi)有癌癥等病變。檢測(cè)人體免疫系統(tǒng)狀態(tài)最常用的技術(shù)手段是血細(xì)胞計(jì)數(shù),比如某種類(lèi)型的白細(xì)胞數(shù)量。也有對(duì)血清中個(gè)別免疫相關(guān)蛋白的定量檢測(cè)。無(wú)論是血細(xì)胞計(jì)數(shù),還是免疫相關(guān)蛋白量檢測(cè),都只能大方向指示免疫失調(diào)。當(dāng)今的精準(zhǔn)醫(yī)療對(duì)免疫狀態(tài)的檢測(cè)有著更高的要求,需要對(duì)重要的分子通路進(jìn)行檢測(cè),以利于疾病的精準(zhǔn)分型。外周血作為一種微創(chuàng)源的檢測(cè)方法,被廣泛用于生物標(biāo)志物的發(fā)現(xiàn)。文獻(xiàn)中已經(jīng)報(bào)道過(guò)一些不同的方法,例如:過(guò)敏性休克(septicshock)分類(lèi)的問(wèn)題。有文獻(xiàn)報(bào)道過(guò)使用機(jī)器學(xué)習(xí)的方法對(duì)過(guò)敏性休克三種亞型的差異基因進(jìn)行聚類(lèi)。然而,對(duì)于機(jī)器學(xué)習(xí)的方法,如果不能有效的使用,很容易出現(xiàn)過(guò)擬合的現(xiàn)象。通常研究中都會(huì)采用機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的方法,將研究在多個(gè)數(shù)據(jù)集中進(jìn)行,其中一部分?jǐn)?shù)據(jù)用于構(gòu)建模型,而另一部分?jǐn)?shù)據(jù)用于驗(yàn)證。在一個(gè)研究中,采用這種方法,發(fā)現(xiàn)11個(gè)基因在感染炎癥(infectiousinflammation)中區(qū)分出無(wú)菌炎癥(sterileinflammation)的分型中,效果良好。另外一種提高可重復(fù)性的方法是,拋棄使用個(gè)體基因,轉(zhuǎn)而使用基因模型。這種方法在系統(tǒng)性紅斑狼瘡(systemiclupuserythematosus,sle)和一些其它疾病中被證明有很好的效果。為了從個(gè)體疾病中發(fā)現(xiàn)生物標(biāo)記物,申請(qǐng)人猜想在更廣泛的疾病類(lèi)中可以觀測(cè)到免疫系統(tǒng)的反饋。廣泛的疾病類(lèi)型指不限于感染免疫類(lèi)疾病。事實(shí)上,免疫系統(tǒng)的功能紊亂在包括腦神經(jīng)失調(diào)等在內(nèi)的多種疾病類(lèi)型中均有發(fā)現(xiàn)。一些免疫系統(tǒng)的紊亂可能以基因失調(diào)的方式反應(yīng)在外周血中。在許多疾病中表現(xiàn)出的基因失調(diào)可能所揭示出的潛在的機(jī)理即是免疫應(yīng)答。另外,申請(qǐng)人對(duì)發(fā)現(xiàn)有多大的潛在的臨床應(yīng)用更加感興趣。臨床應(yīng)用包括疾病分類(lèi)、疾病階段、診斷以及治療監(jiān)測(cè)等多個(gè)方面。在這個(gè)方向上,gibson和他的同事們提出了“血液信息記錄”的概念,該概念由10個(gè)從9條軸線(xiàn)中選出的具有代表性的基因。然而,申請(qǐng)人旨在找到檢測(cè)更方便,花費(fèi)更低,數(shù)量更少的基因集作為生物標(biāo)記物。技術(shù)實(shí)現(xiàn)要素:本發(fā)明目的在于提供一種檢測(cè)人體免疫狀態(tài)的檢測(cè)系統(tǒng)。本發(fā)明提供的一種檢測(cè)人體免疫狀態(tài)的檢測(cè)系統(tǒng),其檢測(cè)包括如下基因的表達(dá)量:ifi27、isg15、ifi44l、rsad2、herc5、ifitm3、ifi44、ifit3、epsti1、ifit1、hp、anxa3、arg1、fcgr1b、s100a12、mmp9、il18r1、tlr5、gyg1、fcgr1a;前述任一或多個(gè)基因的表達(dá)量上調(diào),則預(yù)示人體免疫狀態(tài)不佳。本發(fā)明提供一種診斷/檢測(cè)系統(tǒng),能夠檢測(cè)如下任一或多個(gè)基因的表達(dá)量:ifi27、isg15、ifi44l、rsad2、herc5、ifitm3、ifi44、ifit3、epsti1、ifit1、hp、anxa3、arg1、fcgr1b、s100a12、mmp9、il18r1、tlr5、gyg1、fcgr1a,并將其應(yīng)用于評(píng)價(jià)人體免疫狀態(tài)或疾病診斷或愈后評(píng)估或用藥評(píng)價(jià),所述的疾病為感染類(lèi)疾病、自免疫類(lèi)疾病、癌癥和腦血管疾病。。本發(fā)明提供的上述診斷/檢測(cè)系統(tǒng)中,具體地,ifi27、isg15、ifi44l、rsad2、herc5、ifitm3、ifi44、ifit3、epsti1、ifit1任一或多個(gè)基因表達(dá)量的上調(diào),提示機(jī)體罹患病毒類(lèi)感染疾病;hp、anxa3、arg1、fcgr1b、s100a12、mmp9、il18r1、tlr5、gyg1、fcgr1a任一或多個(gè)基因表達(dá)量的上調(diào),提示機(jī)體罹患細(xì)菌類(lèi)感染疾病。進(jìn)一步地,所述的疾病優(yōu)選系統(tǒng)性紅斑狼瘡,前列腺癌、結(jié)直腸癌、川崎病、幼年特發(fā)性關(guān)節(jié)炎、腦血管病、艾滋病和/或肺結(jié)核。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,采用real-timercr、微陣列芯片、rna-seq測(cè)序、定制芯片和靶向測(cè)序等技術(shù)手段實(shí)現(xiàn)上述20個(gè)基因的表達(dá)量的檢測(cè)并用于人體免疫狀態(tài)或疾病診斷或愈后評(píng)估或用藥評(píng)價(jià)的儀器或系統(tǒng)均屬于本申請(qǐng)的保護(hù)范圍。本發(fā)明提供了vrg基因和brg基因在制備檢測(cè)病毒類(lèi)感染和細(xì)菌類(lèi)感染的檢測(cè)試劑盒中的應(yīng)用或在制備檢測(cè)人體免疫狀態(tài)的檢測(cè)系統(tǒng)中的應(yīng)用,所述vrg基因包括ifi27、isg15、ifi44l、rsad2、herc5、ifitm3、ifi44、ifit3、epsti1、ifit1;所述brg基因包括hp、anxa3、arg1、fcgr1b、s100a12、mmp9、il18r1、tlr5、gyg1、fcgr1a。進(jìn)一步地,若待測(cè)機(jī)體外周血液中vrg基因任一或多個(gè)基因的表達(dá)量顯著上調(diào),提示待測(cè)機(jī)體罹患病毒類(lèi)感染疾病,若待測(cè)機(jī)體外周血液中brg基因的任一或多個(gè)基因的表達(dá)量顯著上調(diào),提示待測(cè)機(jī)體罹患細(xì)菌類(lèi)感染疾病。本發(fā)明提供了vrg基因在制備系統(tǒng)性紅斑狼瘡鑒定試劑盒中的應(yīng)用或在制備檢測(cè)人體免疫狀態(tài)的檢測(cè)系統(tǒng)中的應(yīng)用,所述vrg基因包括ifi27、isg15、ifi44l、rsad2、herc5、ifitm3、ifi44、ifit3、epsti1、ifit1。進(jìn)一步地,若待測(cè)機(jī)體外周血液中vrg基因任一或多個(gè)基因的表達(dá)量顯著上調(diào),提示待測(cè)機(jī)體罹患sle(系統(tǒng)性紅斑狼瘡)而非細(xì)菌類(lèi)感染。本發(fā)明提供了hp基因在制備燒傷、創(chuàng)傷、敗血癥鑒別診斷試劑盒或制備中的應(yīng)用或在制備檢測(cè)人體免疫狀態(tài)的檢測(cè)系統(tǒng)中的應(yīng)用。進(jìn)一步地,若待測(cè)機(jī)體外周血液中hp基因表達(dá)量顯著上調(diào),則提示待測(cè)機(jī)體罹患燒傷、創(chuàng)傷、或敗血癥。本發(fā)明提供了hp基因在制備前列腺癌和結(jié)直腸癌鑒別診斷試劑盒中的應(yīng)用。進(jìn)一步地,若待測(cè)機(jī)體外周血液中hp基因表達(dá)量顯著上調(diào),則提示待測(cè)機(jī)體罹患晚期前列腺癌或結(jié)直腸癌。本發(fā)明提供了anxa3基因在制備川崎病診斷試劑盒中的應(yīng)用或在制備檢測(cè)人體免疫狀態(tài)的檢測(cè)系統(tǒng)中的應(yīng)用。進(jìn)一步地,若待測(cè)機(jī)體外周血液中anxa3基因表達(dá)量顯著上調(diào),則提示待測(cè)機(jī)體罹患川崎病。本發(fā)明提供了anxa3基因在制備系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎和非系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎的鑒別診斷試劑盒中的應(yīng)用。進(jìn)一步地,若待測(cè)機(jī)體外周血液中anxa3基因表達(dá)量顯著上調(diào),則提示待測(cè)機(jī)體罹患系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎。本發(fā)明提供了anxa3基因在制備幼年特發(fā)性關(guān)節(jié)炎療效評(píng)估試劑盒中的應(yīng)用。進(jìn)一步地,若待測(cè)機(jī)體外周血液中anxa3基因表達(dá)量顯著下降,則提示幼年特發(fā)性關(guān)節(jié)炎療效較好。本發(fā)明提供了arg1基因在制備腦血管病診斷試劑盒中的應(yīng)用或在制備檢測(cè)人體免疫狀態(tài)的檢測(cè)系統(tǒng)中的應(yīng)用。進(jìn)一步地,若待測(cè)機(jī)體外周血液中arg1基因表達(dá)量顯著上調(diào),則提示待測(cè)機(jī)體罹患腦血管病。本發(fā)明提供了isg15基因在制備hiv-1病毒感染出現(xiàn)明顯癥狀和非明顯癥狀的檢測(cè)試劑盒中的應(yīng)用或在制備檢測(cè)人體免疫狀態(tài)的檢測(cè)系統(tǒng)中的應(yīng)用。進(jìn)一步地,若待測(cè)機(jī)體外周血液中isg15基因表達(dá)量顯著上調(diào),則提示待測(cè)機(jī)體hiv-1病毒感染者有明顯癥狀。本發(fā)明提供了isg15基因在制備艾滋病療效評(píng)估試劑盒中的應(yīng)用或在制備檢測(cè)人體免疫狀態(tài)的檢測(cè)系統(tǒng)中的應(yīng)用。進(jìn)一步地,若待測(cè)機(jī)體外周血液中isg15基因表達(dá)量顯著或下降,則提示hiv-1病毒感染者療效較好。本發(fā)明提供了fcgr1a基因在制備鑒定活躍型肺結(jié)核和潛伏型肺結(jié)核試劑盒中的應(yīng)用或在制備檢測(cè)人體免疫狀態(tài)的檢測(cè)系統(tǒng)中的應(yīng)用。進(jìn)一步地,若待測(cè)機(jī)體外周血液中fcgr1a基因表達(dá)量顯著上調(diào),則提示待測(cè)機(jī)體罹患活躍型肺結(jié)核。本發(fā)明提供了fcgr1a基因在制備肺結(jié)核療效評(píng)估試劑盒中的應(yīng)用。進(jìn)一步地,若待測(cè)機(jī)體外周血液中fcgr1a基因表達(dá)量顯著下調(diào),則提示活躍型肺結(jié)核患者療效較好。本發(fā)明的有益效果在于:本發(fā)明所聲明的基因在外周血的表達(dá)水平可以指導(dǎo)多種疾病的精準(zhǔn)分型、預(yù)后和療效評(píng)估等方面。附圖說(shuō)明圖1的上面3幅圖為表1中10個(gè)vrg基因在3組sle(系統(tǒng)性紅斑狼瘡)數(shù)據(jù)中的整體變化倍數(shù),其中,左上第一幅為外周血單核細(xì)胞的數(shù)據(jù),第二幅為外周血全血數(shù)據(jù),第三幅為rnaseq的數(shù)據(jù);下面兩幅為sle和其它疾病對(duì)比的vrgs的分布。圖中sojia為系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎,staph為細(xì)菌性感染,psle為幼年系統(tǒng)性紅斑狼瘡。圖2自左向右,左、中兩幅為中風(fēng)病人中arg1基因的變化倍數(shù)的分布;右圖為arg1的變化倍數(shù)在顱內(nèi)破裂動(dòng)脈瘤病人中的分布。圖3上面兩幅為isg15基因變化倍數(shù)在進(jìn)展和無(wú)進(jìn)展型hiv病人中的分布情況;下面兩幅為hiv病人給藥處理后isg15變化倍數(shù)的分布情況。圖中chloroq為一種藥物名稱(chēng);placebo為一種安慰劑。圖4的左上和右上兩幅圖為fcgr1a基因的變化倍數(shù)在活動(dòng)型和潛伏型肺結(jié)核病人中的分布;左下圖為肺結(jié)核病人治療前和治療26周后fcgr1a變化倍數(shù)的分布;右下圖為肺結(jié)核病人病中和康復(fù)后fcgr1a變化倍數(shù)的分布。圖5左圖為系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎和其它類(lèi)疾病對(duì)比中anx3基因變化倍數(shù)的分布;右圖為幼年特發(fā)性關(guān)節(jié)炎病人給藥后anx3變化倍數(shù)的分布。圖中,canakinumab為藥物名稱(chēng);placebo為一種安慰劑。圖6上圖為不同hp基因變化倍數(shù)的前列腺癌病人的生存曲線(xiàn);下圖左一為hp基因變化倍數(shù)在結(jié)直腸癌不同階段病人中的分布;下圖中間圖為前列腺癌病人治療反饋不同,hp變化倍數(shù)的分布;下圖右一為不同數(shù)目腫瘤病人中hp變化倍數(shù)的分布。具體實(shí)施方式以下實(shí)施例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍。在不背離本發(fā)明精神和實(shí)質(zhì)的情況下,對(duì)本發(fā)明方法、步驟或條件所作的修改或替換,均屬于本發(fā)明的范圍。若未特別指明,實(shí)施例中所用的化學(xué)試劑均為常規(guī)市售試劑,實(shí)施例中所用的技術(shù)手段為本領(lǐng)域技術(shù)人員所熟知的常規(guī)手段。實(shí)施例1公共數(shù)據(jù)的收集本發(fā)明用到的所有數(shù)據(jù)集均為公共數(shù)據(jù)集,且全部來(lái)自于美國(guó)生物技術(shù)信息中心(nationalcenterforbiotechnologyinformation,ncbi)的基因表達(dá)數(shù)據(jù)倉(cāng)庫(kù)(geneexpressionomnibus,geo)。研究主要包含兩個(gè)階段:甄選候選基因和驗(yàn)證測(cè)試候選基因,所用的數(shù)據(jù)集也分為兩個(gè)批次:1、甄選候選基因用到的數(shù)據(jù)集候選基因的甄選作為本發(fā)明的研究基礎(chǔ),數(shù)據(jù)集的選擇必須有嚴(yán)格的篩選標(biāo)準(zhǔn):(1)數(shù)據(jù)必須通過(guò)預(yù)處理的過(guò)濾,即,數(shù)據(jù)質(zhì)量必須過(guò)關(guān),盡可能從數(shù)據(jù)源頭上降低誤差;(2)在保證數(shù)據(jù)質(zhì)量的前提下,盡可能多的獲取感染或自身免疫類(lèi)疾病的數(shù)據(jù);(3)數(shù)據(jù)必須是全血數(shù)據(jù);(4)為保證后續(xù)差異表達(dá)基因篩選時(shí),每種疾病數(shù)據(jù)貢獻(xiàn)出的權(quán)重盡量平衡,對(duì)于對(duì)應(yīng)疾病類(lèi)型篩選出多組數(shù)據(jù)的疾病,本發(fā)明選取一組具有代表性的數(shù)據(jù)。代表性有以下幾個(gè)方面的考慮:①數(shù)據(jù)樣本量盡量大,以降低數(shù)據(jù)噪聲;②檢測(cè)時(shí)間盡量和現(xiàn)在接近,隨著檢測(cè)技術(shù)的越來(lái)越好,相信離現(xiàn)在越近的數(shù)據(jù),檢測(cè)也越準(zhǔn)確;③數(shù)據(jù)樣本盡可能純凈,即樣本或是健康人,或是僅患有研究對(duì)應(yīng)的疾病,保證數(shù)據(jù)的純凈也是為了降低數(shù)據(jù)噪聲。經(jīng)過(guò)以上幾步的篩選后,最終,本發(fā)明第一批用于甄選候選基因的數(shù)據(jù)集共包含18組數(shù)據(jù),20種疾病類(lèi)型(其中,數(shù)據(jù)集gse33341和gse72810各包含兩種疾病類(lèi)型),如表1。需要說(shuō)明的是,數(shù)據(jù)集gse68310和gse45536是時(shí)間序列的數(shù)據(jù),本發(fā)明均是選用了數(shù)據(jù)樣本第一個(gè)時(shí)間點(diǎn)作為試驗(yàn)組數(shù)據(jù)的。對(duì)于表1中的前10個(gè)疾病,將其分為兩大類(lèi):①細(xì)菌感染類(lèi)疾病和②病毒感染類(lèi)疾病,每類(lèi)包含5組數(shù)據(jù)。在候選基因篩選中,基因失調(diào)頻率在每一類(lèi)中的表現(xiàn)也是本發(fā)明選取的一個(gè)重要參考。2、驗(yàn)證測(cè)試候選基因用到的數(shù)據(jù)集選取候選基因后,需要在多組獨(dú)立的數(shù)據(jù)中進(jìn)行驗(yàn)證。用于驗(yàn)證的數(shù)據(jù)集一樣需要通過(guò)預(yù)處理的過(guò)濾。本實(shí)施例主要介紹6個(gè)方面驗(yàn)證使用到的數(shù)據(jù)集:(1)用于區(qū)分細(xì)菌感染和病毒感染所用到的數(shù)據(jù)集:gse72829、gse60244、gse6269和gse42026。每組數(shù)據(jù)選取細(xì)菌感染和病毒感染的樣本用于聚類(lèi);(2)對(duì)系統(tǒng)性紅斑狼瘡(systemiclupuserythematosus,sle)疾病驗(yàn)證中共用到6組數(shù)據(jù),分別是:gse11907、gse49454、gse72509、gse17755、gse29536和gse22098。其中g(shù)se11907為外周血單核細(xì)胞(peripheralbloodmononuclearcell,pbmc)基因表達(dá)的數(shù)據(jù),其它均為全血基因表達(dá)的數(shù)據(jù);而gse72509為rnaseq二代測(cè)序的數(shù)據(jù),其它為芯片數(shù)據(jù);(3)單個(gè)基因建模在獨(dú)立數(shù)據(jù)中驗(yàn)證,此模塊共使用4類(lèi)疾病(燒傷,敗血病,創(chuàng)傷,川崎病),8組數(shù)據(jù):gse37069和gse19743、gse69528和gse80496、gse36809和gse11375、gse63881和gse68004;(4)單基因標(biāo)志物在艾滋病毒(humanimmunodeficiencyvirus,hiv)感染數(shù)據(jù)中的驗(yàn)證;共包含4組數(shù)據(jù):gse6740、gse56837、gse71063和gse44228。其中,前兩組數(shù)據(jù)是艾滋病毒在樣本中有無(wú)進(jìn)展的數(shù)據(jù),后兩組數(shù)據(jù)是對(duì)艾滋病病人藥物治療的數(shù)據(jù);(5)在肺結(jié)核(tuberculosis,tb)中驗(yàn)證基因fcgr1a的標(biāo)志作用;共收集4組數(shù)據(jù):gse37250、gse40553、gse31348和gse56153。其中前兩組是活動(dòng)性肺結(jié)核(activetb)和潛伏性肺結(jié)核(latenttb)數(shù)據(jù),后兩組是肺結(jié)核病人治療或治愈的數(shù)據(jù);(6)對(duì)于系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎(systemicjuvenileidiopathicarthritis,sjia),本發(fā)明收集了兩組數(shù)據(jù):gse13501和gse80060。前一組用于系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎和其它疾病的對(duì)比,后一組是此類(lèi)疾病的治療數(shù)據(jù)。一些用于其它驗(yàn)證所用到的數(shù)據(jù),由于不是本次研究的重點(diǎn),這里就不一一列舉了。上面列舉出來(lái)的數(shù)據(jù)有近50組,一些未被列舉出來(lái)的和一些預(yù)處理后被過(guò)濾掉數(shù)據(jù),本實(shí)施例沒(méi)有一一展示,研究中處理的數(shù)據(jù)有近百組,可謂是數(shù)據(jù)量極大,且覆蓋全面。針對(duì)本表1中所涉及疾病的20個(gè)基因和4個(gè)在外周血穩(wěn)定表達(dá)的對(duì)照基因(actb、b2m、ubc和gusb),本發(fā)明設(shè)立健康對(duì)照組和相關(guān)疾病組,確定標(biāo)本采集和實(shí)驗(yàn)所需試劑盒的規(guī)模。使用paxgene采血管采集健康對(duì)照人群和本專(zhuān)利所涉及疾病患者外周靜脈血,并轉(zhuǎn)移至凍存管-80℃凍存。將paxgenebloodrna管4℃下5000rpm離心10min,棄上清后加350μlbufferbr1溶解沉淀,將溶解后的樣品轉(zhuǎn)移至1.5mleppendorf管中,再加300μlbufferbr2和40μl蛋白酶k,漩渦震蕩混勻5秒,然后在55℃1000rpm搖床中孵育10min。裂解后將液體轉(zhuǎn)移至套有paxgeneshredderspincolumn的2ml離心管中,15000rpm離心3min,小心將上清轉(zhuǎn)移至新的1.5mleppendorf管中。詳細(xì)步驟參照paxgenebloodrnakit試劑盒說(shuō)明書(shū)。用紫外分光光度計(jì)檢測(cè)提取總rna的260/280比值和rna濃度。提取總rna260/280比值在1.7-2.3之間時(shí)可按照ncounterxtcodesetgeneexpressionassays說(shuō)明書(shū)操作要求進(jìn)行檢測(cè)。首先在包含reportercodeset的管中加入70μlhybridizationbuffer,翻轉(zhuǎn)混勻而制成初始混合反應(yīng)液。然后在每個(gè)雜交反應(yīng)管中分別加入8μl初始混合反應(yīng)液和1.5-5μl提取的樣本總rna。再向每個(gè)反應(yīng)管中加入2μl捕獲probeset并翻轉(zhuǎn)混勻,制成15μl雜交反應(yīng)體系,立即放入預(yù)熱至65℃的熱循環(huán)加熱器中,孵育至少16h。詳細(xì)步驟參照xtassay說(shuō)明書(shū)。用ncounter分析系統(tǒng)和配套軟件nanostring’sfreensolvertm分析軟件分析雜交后反應(yīng)液的探針熒光強(qiáng)度影像,為保證數(shù)據(jù)的可靠性,將樣品濃度稀釋一倍進(jìn)行分析。實(shí)施例2數(shù)據(jù)的處理方法1、本發(fā)明中所有的芯片數(shù)據(jù)處理流程由于數(shù)據(jù)量非常大,本發(fā)明并沒(méi)有使用原始芯片數(shù)據(jù),而是使用各個(gè)研究中提供的表達(dá)值矩陣數(shù)據(jù)。這些表達(dá)值矩陣都是各個(gè)研究組預(yù)處理過(guò)的,然而,由于芯片平臺(tái)不同,研究的實(shí)驗(yàn)室不同,試驗(yàn)環(huán)境不同,以及各個(gè)實(shí)驗(yàn)室預(yù)處理的方式不同,拿到的數(shù)據(jù)并不能直接使用,而要經(jīng)過(guò)嚴(yán)格的篩選和過(guò)濾。對(duì)于這些數(shù)據(jù)的再次預(yù)處理及過(guò)濾,有幾個(gè)嚴(yán)格的過(guò)濾標(biāo)準(zhǔn),具體如下:(1)所有表達(dá)值需對(duì)數(shù)(log)處理;(2)每一個(gè)探針在所有樣本中的不合格值(包括缺失,或不合理)比例不得高于設(shè)定的閾值(本研究中使用50%),否則過(guò)濾掉此探針;(3)每個(gè)樣本不合格的探針(包括缺失值,或不合理值)的比例不得高于設(shè)定的閾值(50%),否則過(guò)濾掉此樣本;(4)對(duì)所有表達(dá)值進(jìn)行下界截?cái)?。通常情況下,一個(gè)研究的數(shù)據(jù)要么是全部表達(dá)值均取過(guò)對(duì)數(shù)的,要么是全部表達(dá)值均沒(méi)有取過(guò)對(duì)數(shù),針對(duì)沒(méi)有取過(guò)對(duì)數(shù)的數(shù)據(jù),只需全部對(duì)數(shù)處理,然后繼續(xù)后面的過(guò)濾。當(dāng)然,還有一些數(shù)據(jù),從形式上看,應(yīng)該是部分取了對(duì)數(shù),部分沒(méi)有取對(duì)數(shù)。對(duì)于這樣的數(shù)據(jù),由于對(duì)于數(shù)據(jù)質(zhì)量有所保留,本發(fā)明的做法是舍棄。凡是這樣的數(shù)據(jù),一律不用。(2)(3)步中的不合理值指,由于芯片數(shù)據(jù)的采集是通過(guò)測(cè)量熒光值獲取的,而表達(dá)值若過(guò)小,則已被背景所掩蓋,從而測(cè)量的表達(dá)值將嚴(yán)重失真。因而在處理過(guò)程中,表達(dá)值較小的稱(chēng)為不合理值,本發(fā)明中,選用的標(biāo)準(zhǔn)是【log2(100)】。第(4)步截?cái)嘀?,?jīng)過(guò)(2)(3)步過(guò)濾后,僅僅過(guò)濾了探針和樣本,對(duì)于有些探針,其在全部樣本中,不合理值得比例不足50%,因而此探針并未被過(guò)濾掉,對(duì)于這樣的情況,使用上面的基準(zhǔn)值log2(100)。為了避免不同實(shí)驗(yàn)室測(cè)量和處理過(guò)程中的不同,本發(fā)明堅(jiān)持絕不混用數(shù)據(jù),即使兩組數(shù)據(jù)樣本目標(biāo)一致,均是針對(duì)同一種疾病的數(shù)據(jù)。需要特別說(shuō)明的是,有一些數(shù)據(jù)是以0為中心標(biāo)準(zhǔn)化的,這樣的數(shù)據(jù)都是已經(jīng)對(duì)數(shù)處理過(guò)的,通常也不需要做第(4)步的截?cái)嗵幚怼?、差異表達(dá)選用r語(yǔ)言中rankprod包中的rp方法對(duì)數(shù)據(jù)進(jìn)行差異表達(dá)分析。rp是一種非參數(shù)統(tǒng)計(jì)的方法,對(duì)于具有重復(fù)實(shí)驗(yàn)的數(shù)據(jù),可以檢測(cè)出一致失調(diào)的變量(基因、探針、代謝分子等),被廣泛用于生物組學(xué)數(shù)據(jù)。該方法對(duì)于數(shù)據(jù)有一些假設(shè):(1)在所有測(cè)量的特征中,失調(diào)的特征只占總數(shù)的一小部分;(2)在多次的重復(fù)實(shí)驗(yàn)中,檢測(cè)是獨(dú)立的;(3)所有的變異是獨(dú)立的;(4)所有檢測(cè)的檢測(cè)方差穩(wěn)定。在以上這些假設(shè)的基礎(chǔ)上,該方法會(huì)計(jì)算每一個(gè)變量在所用重復(fù)實(shí)驗(yàn)中變異倍數(shù)(foldchange,fc)的排名(rank),對(duì)這些排名計(jì)算幾何平均數(shù),得到rp值,rp值越小越有可能是失調(diào)變量。為了最大可能的降低數(shù)據(jù)噪聲,對(duì)于rp計(jì)算出的差異表達(dá)基因做了進(jìn)一步的篩選,主要有兩個(gè)指標(biāo):p值:所有差異表達(dá)基因的p值必須小于0.05;變異倍數(shù):變異倍數(shù)的選取有兩個(gè)階段,對(duì)于差異表達(dá)基因的初步過(guò)濾時(shí),選用閾值為1.5或0.7;在進(jìn)一步候選基因的選取時(shí),為了限制基因個(gè)數(shù),降低噪聲,改用閾值2或者0.5。3、使用到的機(jī)器學(xué)習(xí)模型本發(fā)明共使用到兩個(gè)基本的機(jī)器學(xué)習(xí)模型:邏輯回歸(logisticregression)模型和k均值(k-means)聚類(lèi)模型。邏輯回歸模型是一種廣義線(xiàn)性回歸模型(generalizedlinearmodel),但不同于一般的回歸模型,邏輯回歸模型主要用于數(shù)據(jù)分類(lèi)問(wèn)題,經(jīng)典的邏輯回歸模型用于二分類(lèi)問(wèn)題。對(duì)數(shù)幾率函數(shù)是一種sigmoid函數(shù),它將公式中的z的值轉(zhuǎn)化為一個(gè)接近0或1的y值,并且其輸出的值在z=0附近變化很陡峭。邏輯回歸模型有許多優(yōu)點(diǎn):模型直接對(duì)分類(lèi)可能性進(jìn)行建模,不需要對(duì)數(shù)據(jù)分布有事先的假設(shè);模型不僅可以預(yù)測(cè)出數(shù)據(jù)的類(lèi)別,而且可以得到對(duì)應(yīng)類(lèi)別的預(yù)測(cè)概率,對(duì)于需要利用概率輔助決策的任務(wù),這個(gè)信息尤為重要;此外,該模型可任意階可導(dǎo),其決定了其有非常優(yōu)秀的數(shù)學(xué)性質(zhì),可以方便的求取最優(yōu)解。邏輯回歸是一種監(jiān)督學(xué)習(xí)的方法。對(duì)于表3中幾種具有獨(dú)立數(shù)據(jù)集驗(yàn)證的疾病類(lèi)型,采用該模型對(duì)相應(yīng)的數(shù)據(jù)建模驗(yàn)證,收到了良好的效果。從字面上也可以看出,k均值聚類(lèi)是一種聚類(lèi)模型。聚類(lèi)是一種無(wú)監(jiān)督的學(xué)習(xí),上述的邏輯回歸分類(lèi)是一種監(jiān)督學(xué)習(xí)的模型。聚類(lèi)和分類(lèi)最大的不同在于,分類(lèi)的目標(biāo)事先已知,而聚類(lèi)則不一樣。聚類(lèi)模型幾乎可以應(yīng)用于所有對(duì)象,簇內(nèi)的對(duì)象越相似,聚類(lèi)的效果越好。之所以稱(chēng)為k均值聚類(lèi)是因?yàn)樗梢园l(fā)現(xiàn)k個(gè)不同的簇,且每個(gè)簇的中心采用簇中所含的值得均值計(jì)算而來(lái)。具體工作流程如下:首先,隨機(jī)確定k個(gè)初始點(diǎn)為質(zhì)心;然后,對(duì)沒(méi)個(gè)點(diǎn)對(duì)k個(gè)質(zhì)心計(jì)算距離,其中離那個(gè)質(zhì)心的距離最小,該點(diǎn)就分配到該質(zhì)心所在的類(lèi);接著,等所有點(diǎn)分配完,對(duì)每一簇計(jì)算均值,從新指定為該簇的質(zhì)心;重復(fù)上面的步驟,直到每簇包含的數(shù)據(jù)穩(wěn)定。本發(fā)明中所用到的是二分的k均值算法,采用發(fā)明人找到的一些候選因子做向量,運(yùn)用k均值算法,觀測(cè)是否病毒感染類(lèi)疾病的樣本和細(xì)菌感染類(lèi)疾病的樣本確有不同,能夠聚集在不同的類(lèi)別中。實(shí)施例3候選基因的選擇對(duì)于基于實(shí)施例1中表1披露的20組數(shù)據(jù)初步得到的差異表達(dá)基因,需要進(jìn)一步的篩選,獲取研究的候選基因。首先,對(duì)每一組的差異表達(dá)基因進(jìn)行fc的過(guò)濾,選出fc>2或者fc<0.5的失調(diào)基因??梢钥闯鍪褂玫拈撝到蹩量痰模@是因?yàn)橄M业降暮蜻x基因有很強(qiáng)的抗干擾性。然后,將20組數(shù)據(jù)的差異表達(dá)基因計(jì)數(shù)合并,并按計(jì)數(shù)大小倒序排名。最后,基于以上的排名,結(jié)合對(duì)兩類(lèi)數(shù)據(jù)集(細(xì)菌相關(guān)疾病數(shù)據(jù)和病毒相關(guān)疾病數(shù)據(jù))中基因表達(dá)的一致性的觀察,最終選出10個(gè)brgs的基因和10個(gè)vrgs的基因。如表2。表2使用brgs和vrgs區(qū)分細(xì)菌感染和病毒感染.數(shù)據(jù)集因子tpfnfptnf1gse72829ng_v;ng_b2715180.90gse60244ng_v;ng_b55116210.87gse6269ng_v;ng_b61312150.89gse42026ng_v;ng_b3378110.81注:使用k-means聚類(lèi);tp:真陽(yáng)性;fn:假陰性;fp:假陽(yáng)性;tn:真陰性;f1:f1標(biāo)準(zhǔn);ng_v:vrgs中變化倍數(shù)大于2的個(gè)數(shù);ng_b:brgs中變化倍數(shù)大于2的個(gè)數(shù)。收集關(guān)于感染和自身免疫類(lèi)的血液轉(zhuǎn)錄組的公共數(shù)據(jù)。依據(jù)數(shù)據(jù)質(zhì)量,每一種疾病選出一組代表性的數(shù)據(jù)(必須是全血的數(shù)據(jù),見(jiàn)表1)。首先對(duì)此20組數(shù)據(jù)進(jìn)行差異表達(dá)分析(病人對(duì)健康人)。為了減少顯著差異基因的數(shù)目,選用的非常嚴(yán)格的篩選條件——倍數(shù)變化(foldchange,fc)必須大于2(上調(diào)基因),或者小于0.5(下調(diào)基因)。而后,將這些顯著的基因在上面的20組數(shù)據(jù)中出現(xiàn)的頻率排序。觀察到在這些疾病類(lèi)中表現(xiàn)出顯著的功能失調(diào)的,且出現(xiàn)頻率高的這些基因,基本上都是上調(diào)的基因。在進(jìn)一步的基因篩選中,本發(fā)明的目標(biāo)是將基因數(shù)目縮減至20個(gè),從而可以得到方便實(shí)惠的檢測(cè)。由于在細(xì)菌感染疾病類(lèi)和病毒感染疾病類(lèi)中,基因的失調(diào)表現(xiàn)出很強(qiáng)的一致性,所以本發(fā)明選取了病毒感染類(lèi)疾病相關(guān)的10個(gè)上調(diào)基因和細(xì)菌感染類(lèi)疾病相關(guān)的10個(gè)上調(diào)基因。這些和病毒感染類(lèi)疾病相關(guān)的上調(diào)基因多和干擾素信號(hào)有關(guān),這其中包括了ifi27、ifi44l、rsad2、herc5、ifitm3、ifi44、ifit3、epsti1、ifit1和isg15。而和細(xì)菌感染類(lèi)疾病相關(guān)的上調(diào)基因多和各種通路相關(guān),這其中包括hp、anxa3、fcgr1b、s100a12、mmp9、il18r1、tlr5、gyg1、fcgr1a和arg1。此10個(gè)“病毒類(lèi)基因(virus-responsegenes,vrgs)”在病毒感染類(lèi)疾病中的平均倍數(shù)變化可到達(dá)4.61到29.13。對(duì)于10個(gè)“細(xì)菌類(lèi)基因(bacteria-responsegenes,brgs)”在細(xì)菌感染類(lèi)疾病中的倍數(shù)變化也可到達(dá)4.44到14.28。本發(fā)明還觀察到,無(wú)論是“病毒類(lèi)基因”還是“細(xì)菌類(lèi)基因”都只在自身所對(duì)應(yīng)的疾病類(lèi)中有更高的表達(dá),而在對(duì)方的疾病類(lèi)中變化倍數(shù)均小于2。本發(fā)明收集了四種同時(shí)包含病毒感染和細(xì)菌感染的數(shù)據(jù)集,從表2可以看出,使用這些基因,對(duì)兩類(lèi)疾病分類(lèi)非常的精確,f1值可以達(dá)到0.81到0.91。對(duì)除了病毒感染或者細(xì)菌感染的10組數(shù)據(jù)外的10組數(shù)據(jù)對(duì)應(yīng)的疾病的驗(yàn)證中,本發(fā)明發(fā)現(xiàn)無(wú)論是“病毒類(lèi)基因”或是“細(xì)菌類(lèi)基因”在這些疾病類(lèi)中,多是上調(diào)基因,如表3。在燒傷和一般性創(chuàng)傷(injury)的樣本中,和其他疾病類(lèi)不同,本發(fā)明發(fā)現(xiàn)“細(xì)菌類(lèi)基因”表現(xiàn)出明顯的上調(diào),而“病毒類(lèi)基因”卻有幾個(gè)表現(xiàn)出了下調(diào)。在硬皮病(scleroderma)和原發(fā)性干燥綜合癥(primarysyndrome)樣本中,“病毒類(lèi)基因”表現(xiàn)出明顯上調(diào);在肉狀瘤病和常見(jiàn)變異免疫缺陷疾病樣本中,“病毒類(lèi)基因”表現(xiàn)出適度的上調(diào),同時(shí)伴隨著“細(xì)菌類(lèi)基因”中fcgr1a和fcgr1b的上調(diào);在川崎病和系統(tǒng)性少年特發(fā)性關(guān)節(jié)炎的樣本中,除了fcgr1a和fcgr1b,其它的“細(xì)菌類(lèi)基因”均表現(xiàn)出顯著的上調(diào);另外,在風(fēng)濕性關(guān)節(jié)炎樣本中,“細(xì)菌類(lèi)基因”也被觀測(cè)到適度的上調(diào);肺結(jié)核是唯一一個(gè)“病毒類(lèi)基因”和“細(xì)菌類(lèi)基因”均表現(xiàn)為上調(diào)的一種疾病,然而,“細(xì)菌類(lèi)基因”中的fcgr1a和fcgr1b卻表現(xiàn)出了異常突出的上調(diào)??傮w上,20個(gè)包括“病毒類(lèi)基因”和“細(xì)菌類(lèi)基因”在感染和自身免疫疾病中表現(xiàn)出頻繁的失調(diào),而這些觀察到的不同模式值得增加額外的研究對(duì)其深入理解。在尿毒癥(uremia),牛皮癬(psoriasis),強(qiáng)直性脊柱炎(ankylosingspondylitis)以及慢性阻塞性肺病(chronicobstructivepulmonarydisease,copd)的數(shù)據(jù)集中,并沒(méi)有觀測(cè)到這些基因的失調(diào)。sle疾病中的基因失調(diào)系統(tǒng)性紅斑狼瘡是極少數(shù)具有高質(zhì)量數(shù)據(jù)的一個(gè)疾病,因此,這個(gè)疾病成為一個(gè)比較好的可以用于測(cè)試的候選疾病。在系統(tǒng)性紅斑狼瘡全血的數(shù)據(jù)中,本發(fā)明觀察到前述“病毒類(lèi)基因”vrg有非常顯著的上調(diào),一些基因的變異倍數(shù)可達(dá)10倍之多,如圖1。在外周血單細(xì)胞數(shù)據(jù)中同樣出現(xiàn)了這樣的極具夸張的上調(diào)圖1,并且,在rna-seq的微芯片數(shù)據(jù)中,這樣的上調(diào)模式依然存在。由于“病毒類(lèi)基因”在系統(tǒng)性紅斑狼瘡疾病中表達(dá)上調(diào)多層次的高度一致性,很容易的使用“病毒類(lèi)基因”將具有此種疾病的樣本從包含有細(xì)菌感染和自身免疫的疾病中區(qū)分出來(lái),如圖1??梢杂^察到,超過(guò)90%的病人樣本中,變異系數(shù)達(dá)2倍以上的“病毒類(lèi)基因”個(gè)數(shù)至少在5個(gè)以上,而在其它類(lèi)疾病中并沒(méi)有這樣的現(xiàn)象。單基因作為疾病下條件下的生物標(biāo)志物從系統(tǒng)性紅斑狼瘡的案例中,觀察到了“病毒類(lèi)基因”和“細(xì)菌類(lèi)基因”失調(diào)的共調(diào)節(jié)模式,經(jīng)過(guò)多次的嘗試,本發(fā)明找到4種同時(shí)具有訓(xùn)練集和測(cè)試集的數(shù)據(jù),僅由1個(gè)基因的變異倍數(shù)便可以達(dá)到非常優(yōu)秀的分型效果。其中,敗血病、燒傷和一般性受傷僅由基因hp在區(qū)分病人和健康人樣本在測(cè)試集中f1可達(dá)0.99-1。對(duì)于川崎病,僅由基因anxa3的表達(dá)變異就可以使病人和健康人的區(qū)分的f1達(dá)到0.97。如表3。表3在幾類(lèi)感染和自身免疫類(lèi)疾病中的單基因生物標(biāo)志物疾病訓(xùn)練集測(cè)試集基因tpfnfptnf1燒傷gse37069gse19743hp11221620.99敗血病gse69528gse80496hp2400211.00創(chuàng)傷gse36809gse11375hp15530260.99川崎病gse63881gse68004anxa37514330.97注:使用了邏輯回歸模型用單基因做生物標(biāo)志物并不限于感染和自身免疫的疾病。本發(fā)明發(fā)現(xiàn)在腦血管類(lèi)的一些疾病中,包括中風(fēng)、顱內(nèi)破裂動(dòng)脈瘤等,前述的“細(xì)菌類(lèi)基因brg”有一致的失調(diào)。在這些“細(xì)菌類(lèi)基因”中,arg1的表達(dá)對(duì)患者和健康人有一個(gè)可靠的區(qū)分。如圖2。在這幾組數(shù)據(jù)中,有72-74%的患者的arg1的表達(dá)變異倍數(shù)超過(guò)的2。而有87-100%健康人的arg1的表達(dá)變異倍數(shù)卻小于2。因而,arg1也許可以對(duì)腦血管疾病的恢復(fù)起到指示作用。hiv疾病的單基因生物標(biāo)志物hiv感染會(huì)導(dǎo)致“病毒類(lèi)基因”的明顯上調(diào)(如圖3)。由于ifi27在許多疾病,尤其是病毒感染相關(guān)的疾病中,有很顯著的表達(dá)上調(diào),因而,在數(shù)據(jù)中混雜的疾病較多時(shí),ifi27就不適合作為生物標(biāo)志物了。本發(fā)明發(fā)現(xiàn)isg15可以是一個(gè)可靠的標(biāo)志物。使用isg15的表達(dá),對(duì)進(jìn)展型和無(wú)進(jìn)展型的hiv感染患者有非常好的區(qū)分。在gse6740和gse56837兩組驗(yàn)證數(shù)據(jù)中,91-95%的進(jìn)展型hiv患者的isg15表達(dá)變異倍數(shù)超過(guò)2,而無(wú)進(jìn)展型hiv感染樣本中有87-100%的患者isg15的變異倍數(shù)小于2。另外,在給藥治療的數(shù)據(jù)中,isg15的表達(dá)也有明顯的指示作用。從gse71063和gse44228兩組數(shù)據(jù)中,可以看出,有50-67%的病人給藥后,isg15的表達(dá)下調(diào)達(dá)2倍之多,而僅服用placebo的樣本中,沒(méi)有任何樣本的isg15表達(dá)下調(diào)達(dá)到2。肺結(jié)核疾病的單基因生物標(biāo)志物肺結(jié)核是一種非常特異的疾病,“病毒類(lèi)”和“細(xì)菌類(lèi)”兩類(lèi)基因均表現(xiàn)出了失調(diào)現(xiàn)象。然而,所有的“病毒類(lèi)基因”vrg在病人樣本中上調(diào)表達(dá)沒(méi)有一致性,從而找到合適的單基因生物標(biāo)志物。而在“細(xì)菌類(lèi)基因”brg中,本發(fā)明發(fā)現(xiàn)fcgr1a可以作為一個(gè)可靠的生物標(biāo)志物(圖4)。使用fcgr1a的表達(dá),可以準(zhǔn)確的區(qū)分開(kāi)活動(dòng)性肺結(jié)核和潛伏性肺結(jié)核。在gse37250數(shù)據(jù)中,87%的活動(dòng)性肺結(jié)核病人的fcgr1a的表達(dá)變異倍數(shù)高于5,而在gse40553數(shù)據(jù)中,所有的活動(dòng)性肺結(jié)核病人的fcgr1a的表達(dá)高于4,而兩組數(shù)據(jù)中,潛伏性肺結(jié)核病人的fcgr1a的表達(dá)在對(duì)應(yīng)的閾值下,只有2-3%。在給藥治療的數(shù)據(jù)中,fcgr1a的表達(dá)依然有標(biāo)志性作用。從gse31348和gse56153兩組數(shù)據(jù)中可以看到,經(jīng)過(guò)一段時(shí)間的治療后,有85-96%的病人的fcgr1a表達(dá)有顯著下調(diào)。系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎疾病的單基因生物標(biāo)志物系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎病人往往伴隨著“細(xì)菌類(lèi)基因”的上調(diào)。本發(fā)明在所收集到的幾組數(shù)據(jù)中發(fā)現(xiàn)anxa3可以作為此類(lèi)疾病的生物標(biāo)志物。如圖5。在系統(tǒng)性和非系統(tǒng)性的幼年特發(fā)性關(guān)節(jié)炎的樣本中,僅用anxa3的表達(dá)不同作為區(qū)分,就能得到很高的準(zhǔn)確率。在gse13501這組數(shù)據(jù)中,81%的系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎病人的anxa3的表達(dá)變異倍數(shù)大于3,而非系統(tǒng)幼年特發(fā)性關(guān)節(jié)炎患者卻有高于91%的樣本中,anxa3的表達(dá)變異倍數(shù)小于3。anxa3的表達(dá)也可以用于檢測(cè)此類(lèi)病人給藥治療的情況。gse80060是一組系統(tǒng)性幼年特發(fā)性關(guān)節(jié)炎病人給藥處理的數(shù)據(jù),通過(guò)觀察基因anxa3的表達(dá),有42%的病人在給藥后anxa3的表達(dá)下調(diào)超過(guò)2.5倍,而服用placebo的病人也沒(méi)有發(fā)現(xiàn)anxa3的表達(dá)下調(diào)。癌癥的單基因生物標(biāo)志物癌癥病人的外周血中免疫應(yīng)答系統(tǒng)相關(guān)基因一樣表現(xiàn)為上調(diào)。在本發(fā)明收集到的癌癥相關(guān)的數(shù)據(jù)中,基因hp表現(xiàn)出了很好的生物標(biāo)記物的性質(zhì)。如圖6。在這組結(jié)直腸癌的數(shù)據(jù)中,從圖中可以看到,處于cd階段的病人中,50%的病人hp基因的變異倍數(shù)大于5,而ab階段的病人卻沒(méi)有變異倍數(shù)大于5的。在另一組原發(fā)性腫瘤數(shù)據(jù)中,只有雙原發(fā)性腫瘤的樣本中約有30%的樣本的hp基因變異倍數(shù)大于2?;騢p的表達(dá)也可以用于臨床診斷。在兩組前列腺癌的數(shù)據(jù)中,hp的越高表達(dá)對(duì)應(yīng)了越差的診斷。從圖中的存活曲線(xiàn)中,清楚的看到一個(gè)現(xiàn)象:hp的越高表達(dá),其樣本最終的存活的時(shí)間反而越短。綜上幾個(gè)數(shù)據(jù)集中基因hp的表現(xiàn),基因hp在這幾類(lèi)癌癥中是可以做生物的標(biāo)志物。多細(xì)胞類(lèi)型組織的研究中,當(dāng)細(xì)胞組分發(fā)生變化時(shí),研究的復(fù)雜度和難度也大大的增加。因此,上述所描述的失調(diào)現(xiàn)象若有細(xì)胞組分發(fā)生變化,有可能會(huì)導(dǎo)致所找出的差異表達(dá)基因有偏差。然而,本發(fā)明在幾組包含不同細(xì)胞組分的數(shù)據(jù)中,發(fā)現(xiàn)了相同的失調(diào)模式。例如,gse11907是一組系統(tǒng)性紅斑狼瘡疾病的pbmc數(shù)據(jù),在這組數(shù)據(jù)的分析中,同樣發(fā)現(xiàn)了“病毒類(lèi)基因”的失調(diào)現(xiàn)象,見(jiàn)圖1。在hiv感染數(shù)據(jù)的分析中,無(wú)論是全血的數(shù)據(jù),又或是cd4+和cd8+的數(shù)據(jù),均可以發(fā)現(xiàn)在進(jìn)展型hiv樣本和無(wú)進(jìn)展型hiv樣本在“病毒類(lèi)基因”中的差異。盡管區(qū)分細(xì)胞組分的研究可以獲得更多的細(xì)節(jié)信息,然而,從上述分析中,可以看到,對(duì)于許多疾病,僅僅使用全血的數(shù)據(jù)的分析可能已經(jīng)足夠。血液中的管家基因管家基因通常會(huì)作為實(shí)驗(yàn)的一種自檢驗(yàn)標(biāo)準(zhǔn),比如rt-pcr。本發(fā)明發(fā)現(xiàn)有一些基因在這些疾病的數(shù)據(jù)中都有非常穩(wěn)定的表達(dá),包括一些大家都比較熟悉的基因:actb、b2m、ubc和gusb。因此,發(fā)明人猜想是否可以使用20個(gè)基因和管家基因的表達(dá)比,替換上述工作中的變異倍數(shù)用于分類(lèi)、診斷和治療評(píng)估。作為一種驗(yàn)證,發(fā)明人使用b2m作為對(duì)照,在肺結(jié)核和癌癥中做了一些驗(yàn)證。最后分析的結(jié)果和上述用健康人作對(duì)照的分析結(jié)果是非常一致的。這個(gè)結(jié)果非常的有意義,因?yàn)樽鳛閷?duì)照組的選用是比較復(fù)雜,或者選取的可能不合適,這些都會(huì)對(duì)后續(xù)的分析結(jié)果都是有影響的,而選用管家基因作為對(duì)照會(huì)使分析結(jié)果更加的穩(wěn)定。雖然,上文中已經(jīng)用一般性說(shuō)明及具體實(shí)施方案對(duì)本發(fā)明作了詳盡的描述,但在本發(fā)明基礎(chǔ)上,可以對(duì)之作一些修改或改進(jìn),這對(duì)本領(lǐng)域技術(shù)人員而言是顯而易見(jiàn)的。因此,在不偏離本發(fā)明精神的基礎(chǔ)上所做的這些修改或改進(jìn),均屬于本發(fā)明要求保護(hù)的范圍。當(dāng)前第1頁(yè)12