專利名稱:結(jié)直腸癌的預(yù)后的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于生物樣品基因表達(dá)模式的結(jié)直腸癌的預(yù)后方法。
背景技術(shù):
結(jié)直腸癌是一種起源復(fù)雜的異源疾病。一旦患者接受結(jié)直腸癌治療,復(fù)發(fā)的可能性與腫瘤穿透腸壁的程度和淋巴結(jié)累及的存在或缺乏有關(guān)。這些特征構(gòu)成了目前杜克分類定義的分期系統(tǒng)的基礎(chǔ),杜克A類疾病被定義為結(jié)腸或直腸的黏膜下層。杜克B類腫瘤通過(guò)固有肌層侵入,而且能穿透結(jié)腸或直腸壁。杜克C類疾病包括具有區(qū)域淋巴結(jié)轉(zhuǎn)移而致的任何程度的腸壁侵入。
外科切除術(shù)對(duì)早期的結(jié)直腸癌是很有效的,它對(duì)杜克A類患者和B類患者分別能提供95%和75%的治愈率。在杜克C類患者中存在陽(yáng)性淋巴結(jié)預(yù)計(jì)在5年內(nèi)復(fù)發(fā)的可能性為60%。手術(shù)后階段對(duì)杜克C類患者進(jìn)行化療,可把復(fù)發(fā)率降至40%-50%,它是現(xiàn)階段治療杜克C類患者的標(biāo)準(zhǔn)治療方法。由于相對(duì)低的復(fù)發(fā)率,手術(shù)后的化療在杜克B類患者中的益處很難檢測(cè),而且還存有爭(zhēng)議。但是,杜克B分類并不完善,因?yàn)榇蠹s有20-30%的杜克B類患者其表現(xiàn)更類似于杜克C類患者,而且在5年時(shí)間內(nèi)復(fù)發(fā)。很顯然有必要確定比淋巴結(jié)累及更好的預(yù)后因子,來(lái)指導(dǎo)篩選杜克B類患者中可能復(fù)發(fā)和將存活的人。
發(fā)明內(nèi)容
本發(fā)明涉及一種評(píng)估在診斷患有結(jié)直腸癌或?qū)Y(jié)直腸癌進(jìn)行治療的患者中結(jié)直腸癌復(fù)發(fā)的可能性的方法。該方法涉及基因表達(dá)模式(profile)的分析。
在本發(fā)明的一個(gè)方面,所述的基因的表達(dá)模式包括至少三個(gè)基因。
在本發(fā)明的另一個(gè)方面,所述的基因表達(dá)描述包括至少四個(gè)基因。
用于實(shí)施本發(fā)明的方法的制品也是本發(fā)明的一個(gè)方面。這些制品包括固定于機(jī)器可讀介質(zhì)如計(jì)算機(jī)可讀介質(zhì)上的基因表達(dá)模式,或基因表達(dá)模式的表示物(representations)。
用于鑒定基因表達(dá)模式的制品,也包括用于捕獲和/或顯示基因表達(dá)的存在,缺乏或程度的基體或表面,如微陣列。
本發(fā)明的另一個(gè)方面為一種試劑盒,其包括進(jìn)行結(jié)直腸癌復(fù)發(fā)預(yù)后的基因表達(dá)分析的試劑。
圖1是患者樣品(x-軸)中人脂肪酸結(jié)合蛋白基因1強(qiáng)度的測(cè)量值(y-軸)的圖示。強(qiáng)度越大,表明基因表達(dá)越強(qiáng),該圖說(shuō)明在復(fù)發(fā)患者中這些基因被下調(diào)。
圖2是患者樣品(x-軸)中人腸肽相關(guān)轉(zhuǎn)運(yùn)基因強(qiáng)度的測(cè)量值(y-軸)的圖示。強(qiáng)度越大,表明基因表達(dá)越強(qiáng),該圖說(shuō)明在復(fù)發(fā)患者中這些基因被下調(diào)。
圖3a是患者樣品(x-軸)中MHC II類抗原(HLA-DRB1)基因強(qiáng)度的測(cè)量值(y-軸)的圖示。強(qiáng)度越大,表明基因表達(dá)越強(qiáng),該圖說(shuō)明在復(fù)發(fā)患者中這些基因被下調(diào)。
圖3b是患者樣品(x-軸)中免疫球蛋白樣轉(zhuǎn)錄蛋白5基因強(qiáng)度的測(cè)量值(y-軸)的圖示。強(qiáng)度越大,表明基因表達(dá)越強(qiáng),該圖說(shuō)明在復(fù)發(fā)患者中這些基因被下調(diào)。
圖4是根據(jù)實(shí)施例中描述的訓(xùn)練組的患者資料構(gòu)建的標(biāo)準(zhǔn)Kaplan-Meier圖。
圖5是根據(jù)實(shí)施例中描述的測(cè)試組的患者資料構(gòu)建的標(biāo)準(zhǔn)Kaplan-Meier圖。
圖6是根據(jù)實(shí)施例中描述的所有的患者資料構(gòu)建的標(biāo)準(zhǔn)Kaplan-Meier圖。
圖7是標(biāo)準(zhǔn)的ROC曲線。
具體實(shí)施例方式
組織樣品中,僅僅是特定核苷酸序列的存在或缺乏很少被認(rèn)為具有診斷或預(yù)后的價(jià)值。另一方面,各種蛋白質(zhì),肽或mRNA表達(dá)的信息正越來(lái)越受到重視。僅僅基因組內(nèi)具有表達(dá)蛋白質(zhì),肽或mRNA潛能的核酸序列(這種序列被稱為“基因”)的存在,本身不能確定蛋白質(zhì),肽或mRNA是否在特定細(xì)胞中表達(dá)。能表達(dá)蛋白質(zhì),肽或mRNA的一個(gè)特定基因是否表達(dá)蛋白質(zhì),肽或mRNA以及如果表達(dá),這種表達(dá)發(fā)生的程度,由多種復(fù)雜因素決定。不考慮理解和評(píng)估這些因素的困難,測(cè)定基因表達(dá)能為如腫瘤發(fā)生,轉(zhuǎn)移,細(xì)胞凋亡及其它臨床相關(guān)現(xiàn)象等重要事件的出現(xiàn)提供有用信息。在基因表達(dá)模式中可以發(fā)現(xiàn)基因激活或失活程度的相對(duì)指標(biāo)。本發(fā)明的基因表達(dá)模式用于為結(jié)直腸癌提供預(yù)后和治療。
樣品制備需要收集患者樣品。本發(fā)明方法中使用的患者樣品是那些被懷疑含有患病細(xì)胞,如從結(jié)腸樣品或手術(shù)野邊緣得到的上皮細(xì)胞的樣品。一種獲得被懷疑樣品的有用的技術(shù)是激光捕獲顯微切割法(LCM)。LCM技術(shù)提供了一種篩選要研究的細(xì)胞的方法,并最小化了由細(xì)胞類型的不均一導(dǎo)致的變異。因此,正常細(xì)胞和癌癥細(xì)胞間基因表達(dá)的中度或細(xì)小的差異都可以被容易地檢測(cè)到。在一種優(yōu)選的方法中,所述樣品包括從外周血中提取的循環(huán)表皮細(xì)胞。這些樣品可以根據(jù)多種方法獲得,但是最優(yōu)選的方法為磁分離技術(shù),該技術(shù)描述于Imunivest公司的美國(guó)專利6136182中,該專利在此引入作為參考。一旦獲得了含有感興趣細(xì)胞的樣品,就可以提取RNA并進(jìn)行擴(kuò)增,獲得處于合適的文庫(kù)(portfolios)中的基因的基因表達(dá)模式,優(yōu)選的是通過(guò)微陣列獲得。
建立基因表達(dá)模式的優(yōu)選的方法,包括確定編碼蛋白質(zhì)或肽的基因產(chǎn)生的RNA的量。這可通過(guò)逆轉(zhuǎn)錄酶PCR(RT-PCR),競(jìng)爭(zhēng)性RT-PCR,實(shí)時(shí)RT-PCR,差異展示RT-PCR,Northern印跡分析和其它的相關(guān)實(shí)驗(yàn)來(lái)完成。盡管可能使用各個(gè)PCR反應(yīng)完成這些技術(shù),最好擴(kuò)增mRNA產(chǎn)生的互補(bǔ)DNA(cDNA)或互補(bǔ)RNA(cRNA),并通過(guò)微陣列法進(jìn)行分析。各種不同的陣列構(gòu)型和生產(chǎn)方法,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)是已知的,并描述于美國(guó)專利,如5445934;5532128;5556752;5242974;5384261;5405783;5412087;5424186;5429807;5436327;5472672;5527681;5529756;5545531;5554501;5561071;5571639;5593839;5559695;5624711;5658734;和5700637;在此引入它們的公開(kāi)內(nèi)容作為參考。
微陣列技術(shù)可以同時(shí)測(cè)量成千的基因的處于穩(wěn)態(tài)mRNA水平,由此為確定如失控的細(xì)胞增殖的啟動(dòng),阻止,或調(diào)節(jié)的作用提供了一個(gè)強(qiáng)有力的工具。目前廣泛使用的為兩種微陣列技術(shù)。第一種是cDNA陣列,第二種是寡核苷酸陣列。雖然這些芯片存在構(gòu)造差異,但是基本上所有的下游數(shù)據(jù)分析和輸出是相同的。這些分析的結(jié)果,典型地是從用于檢測(cè)與微陣列中已知位置的核苷酸序列雜交的樣品中的cDNA序列的標(biāo)記探針接收的信號(hào)強(qiáng)度的測(cè)量值。典型地,信號(hào)強(qiáng)度與在樣品細(xì)胞中表達(dá)的cDNA以及的mRNA的量成比例。大量的這種技術(shù)是可以獲得和有用的。確定基因表達(dá)的優(yōu)選的方法參見(jiàn),Linsley等的美國(guó)專利6271002;Friend等的美國(guó)專利6218122;Peck等的美國(guó)專利6218114;Wang等的美國(guó)專利6004755,在此引入它們的公開(kāi)內(nèi)容作為參考。
可以通過(guò)比較所述強(qiáng)度來(lái)分析表達(dá)水平。最好建立一個(gè)測(cè)試樣品與對(duì)照樣品中基因表達(dá)強(qiáng)度的比值矩陣。例如,可以把患病組織的基因表達(dá)強(qiáng)度,與從相同類型的正常組織中得到的表達(dá)強(qiáng)度進(jìn)行比較(例如,患病的結(jié)腸組織樣品與正常結(jié)腸組織樣品)。這些表達(dá)強(qiáng)度的比值顯示了測(cè)試樣品與對(duì)照樣品之間在基因表達(dá)方面的成倍改變。
基因表達(dá)模式也可用很多方式顯示。最常用的方法是將原始熒光強(qiáng)度或比值矩陣排列為樹(shù)狀圖,其中的列表示測(cè)試樣品,行表示基因。這樣排列數(shù)據(jù)以便具有相似表達(dá)模式的基因能彼此接近。每個(gè)基因的表達(dá)比用一種顏色顯示。例如,小于1的比值(表示下調(diào))可以用圖譜的藍(lán)色部分表示,而大于1的比例(表示上調(diào))可用圖譜的紅色部分來(lái)表示。商業(yè)化的計(jì)算機(jī)軟件程序可用于顯示這種數(shù)據(jù),這些軟件包括來(lái)自Silicon Genetics公司的“GENESPRINT”,以及來(lái)自Partek公司的“DISCOVERY”和“INFER”軟件。
實(shí)施例中描述了本發(fā)明的方法中使用的受調(diào)節(jié)基因。差異表達(dá)的基因在結(jié)直腸癌復(fù)發(fā)的患者中相對(duì)于那些無(wú)復(fù)發(fā)的患者是上調(diào)或下調(diào)的。上調(diào)和下調(diào)是相對(duì)的術(shù)語(yǔ),其含義為在相對(duì)于特定基線的基因表達(dá)量中的可檢測(cè)到差異(超出檢測(cè)系統(tǒng)的噪音影響)。在這種情況下,基線是非復(fù)發(fā)患者的測(cè)量的基因表達(dá)量。用同樣方法測(cè)量,患病細(xì)胞(來(lái)自復(fù)發(fā)患者)中感興趣的基因,相對(duì)于基線水平是上調(diào)或者下調(diào)的。在上下文中,患病的,是指機(jī)體狀態(tài)發(fā)生改變,從而打斷或干擾,或者可能干擾機(jī)體功能的正常表現(xiàn),并伴隨有細(xì)胞的不受孔增殖現(xiàn)象的出現(xiàn)。當(dāng)某人的基因型或表型的某個(gè)方面和某種疾病存在一致的時(shí)候,他就被診斷為患了該病。但是,進(jìn)行診斷或預(yù)后的行為包括疾病/狀況問(wèn)題的測(cè)定,如測(cè)定復(fù)發(fā)的可能性和治療的監(jiān)測(cè)。在治療監(jiān)測(cè)中,通過(guò)比較隨時(shí)間的基因表達(dá),來(lái)確定基因表達(dá)模式是否已經(jīng)改變了,或者正在改變到和正常組織更一致的模式來(lái)考慮一個(gè)確定療程的效果,從而作出臨床判斷。
更優(yōu)選地,可以根據(jù)雜交微陣列探針的強(qiáng)度測(cè)量值的成倍改變來(lái)辨別上調(diào)和下調(diào)的水平。一個(gè)2.0倍差異或p值小于0.5優(yōu)選用于作出這種區(qū)分。也就是說(shuō),當(dāng)一個(gè)基因被認(rèn)為在患病/復(fù)發(fā)細(xì)胞中相對(duì)正常/非復(fù)發(fā)細(xì)胞中差異表達(dá)前,患病細(xì)胞中應(yīng)產(chǎn)生比正常細(xì)胞至少多2倍,或少2倍的強(qiáng)度。倍數(shù)差異越大,越優(yōu)選用該基因作為診斷或預(yù)后的工具。本發(fā)明的基因表達(dá)模式中選用的基因具有能產(chǎn)生可以區(qū)別于正常或未調(diào)節(jié)基因的信號(hào)的表達(dá)水平,其表達(dá)量超過(guò)了臨床試驗(yàn)儀器的背景。
統(tǒng)計(jì)值可信賴地用于將受調(diào)節(jié)的基因與未調(diào)節(jié)基因和噪音區(qū)分開(kāi)。統(tǒng)計(jì)試驗(yàn)發(fā)現(xiàn)在不同組樣品之間基因差異顯著。斯氏t檢驗(yàn)是可用于發(fā)現(xiàn)兩組之間有顯著差異的有效統(tǒng)計(jì)檢驗(yàn)的一個(gè)例子。P值越低,就越能說(shuō)明不同組之間基因的差異。不過(guò),由于微陣列能一次測(cè)量多個(gè)基因,那么就需要同時(shí)進(jìn)行數(shù)萬(wàn)個(gè)統(tǒng)計(jì)檢驗(yàn)。因此,不可能僅由于偶然看到小的p值,為了進(jìn)行校正,可以使用Sidak校正和隨機(jī)化/置換實(shí)驗(yàn)。通過(guò)t檢驗(yàn)得到的p值小于0.05表明基因存在顯著差異。在進(jìn)行Sidak校正后p值小于0.05是更強(qiáng)有力的證據(jù)。對(duì)于每組中具有大量的樣品來(lái)說(shuō),在隨機(jī)化/置換實(shí)驗(yàn)后p值小于0.05是差異顯著的最強(qiáng)有力的證據(jù)。
可以用于選擇產(chǎn)生比未調(diào)節(jié)基因或噪音更強(qiáng)的信號(hào)的基因的另一個(gè)參數(shù)為絕對(duì)信號(hào)差異測(cè)量值。優(yōu)選地,受調(diào)節(jié)基因表達(dá)產(chǎn)生的信號(hào),與正常的或未調(diào)節(jié)基因(以絕對(duì)值為基礎(chǔ))相比至少有20%差異。更優(yōu)選的是,這種基因的表達(dá)模式與正常的或未調(diào)節(jié)基因的表達(dá)模式相比至少有30%的差異。
將基因分組,以便獲得的關(guān)于關(guān)于組中的一系列基因的信息可以為臨床相關(guān)判斷,如診斷,預(yù)后,或治療選擇等提供可靠的基礎(chǔ)。這些基因系列構(gòu)成了本發(fā)明的文庫(kù)。在此,由這些文庫(kù)支持的判斷涉及結(jié)直腸癌。對(duì)于大多數(shù)的診斷標(biāo)記來(lái)說(shuō),常常希望用最少的標(biāo)記就足以作出一個(gè)正確的醫(yī)學(xué)判斷。這就防止了需要進(jìn)一步的分析導(dǎo)致的治療延誤以及時(shí)間和資源的不合理使用。
更優(yōu)選地,建立文庫(kù),從而文庫(kù)中的這些基因組合,顯示出比單個(gè)基因或隨機(jī)選擇的基因組合具有更好的靈敏度和特異性。在本發(fā)明中,文庫(kù)的靈敏度可以由基因在患病狀態(tài)相對(duì)于正常狀態(tài)的表達(dá)中顯示的成倍變化反應(yīng)出來(lái)。特異性可以基因表達(dá)信號(hào)與感興趣條件的相關(guān)性的統(tǒng)計(jì)學(xué)測(cè)量值反應(yīng)出來(lái)。例如,標(biāo)準(zhǔn)差可用作這種測(cè)量值。在考慮到包括在一個(gè)文庫(kù)中的一組基因時(shí),表達(dá)測(cè)量值中標(biāo)準(zhǔn)差越小其特異性越大。其它變量的測(cè)量值如相關(guān)系數(shù)在這里也可使用。
建立基因表達(dá)文庫(kù)的一個(gè)優(yōu)選的方法是通過(guò)使用最優(yōu)化算法,如廣泛用于建立股票投資組合的平均方差算法。這種方法的詳細(xì)描述見(jiàn)Tim Jatkoe等,2003年3月21日提交的名為“文庫(kù)選擇”(“Portfolio Selection”)的專利申請(qǐng)。實(shí)質(zhì)上,這種方法要求建立一系列輸入值(金融應(yīng)用中的股票,這里指通過(guò)強(qiáng)度檢測(cè)的表達(dá)),該輸入值將優(yōu)化使用其接受的返回值(例如形成的信號(hào)),同時(shí)使返回值的變異最小。很多商業(yè)軟件程序可以用來(lái)進(jìn)行這種操作。在整個(gè)說(shuō)明書(shū)中稱為“Wagner軟件”的“Wagner聯(lián)合均值—方差優(yōu)化應(yīng)用程序”是優(yōu)選的。這個(gè)軟件使用“Wagner聯(lián)合均值—方差優(yōu)化庫(kù)”的功能來(lái)測(cè)定有效的邊界,同時(shí)在Markowitz意義上的優(yōu)化文庫(kù)是優(yōu)選。
使用這種類型的軟件要求轉(zhuǎn)換微陣列數(shù)據(jù),以便當(dāng)該軟件用于金融分析目的時(shí),數(shù)據(jù)能以使用股票返回值和風(fēng)險(xiǎn)測(cè)量值的方式作為輸入值而處理。例如,當(dāng)Wagner軟件與微陣列強(qiáng)度測(cè)量值聯(lián)合使用時(shí),使用下面的數(shù)據(jù)轉(zhuǎn)換方法。
首先通過(guò)確定那些至少顯示出有細(xì)微表達(dá)水平差異的基因而對(duì)基因進(jìn)行預(yù)選。優(yōu)選的預(yù)選過(guò)程如下。選擇基線類(baseline class)。典型地,它包括來(lái)自一個(gè)不具有感興趣條件的群體的基因。例如,如果要選擇用于對(duì)復(fù)發(fā)性結(jié)直腸癌進(jìn)行預(yù)后的基因文庫(kù),來(lái)自沒(méi)有復(fù)發(fā)的患者的樣品可用于構(gòu)成基線類。一旦選擇了基線類,就要計(jì)算出算術(shù)平均值和標(biāo)準(zhǔn)差,作為基線類樣品每個(gè)基因的基因表達(dá)的指標(biāo)。該指標(biāo)典型的是微陣列讀數(shù)的熒光強(qiáng)度。然后用計(jì)算出的統(tǒng)計(jì)數(shù)據(jù)計(jì)算每個(gè)基因的基線值(X*標(biāo)準(zhǔn)差+平均值)。這是基因的基線讀數(shù),所有其它樣品可以和它比較。X是一個(gè)人為選擇的嚴(yán)格變量,用以組成文庫(kù)。高的X值比低的X值更嚴(yán)格。優(yōu)選地,X值的范圍為0.5到3,更優(yōu)選的是2到3,最優(yōu)選的為3。
然后計(jì)算每個(gè)試驗(yàn)樣品(顯示了感興趣的條件)與基線讀數(shù)的比值。為了易于軟件進(jìn)行數(shù)據(jù)處理,這些比值被轉(zhuǎn)換為底數(shù)為10的對(duì)數(shù)值。這可使基因下調(diào)以顯示負(fù)數(shù)值,它對(duì)使用Wagner軟件根據(jù)Markman平均方差算法進(jìn)行最優(yōu)化是必須的。
當(dāng)用于金融分析目的時(shí),將包含這些轉(zhuǎn)換比值的預(yù)處理數(shù)據(jù)作為輸入值,從而替代在Wagner軟件中通常使用的資產(chǎn)返回值。
一旦確定出了一個(gè)有效的邊界,選擇對(duì)一個(gè)給定的輸入值(返回值)或?qū)?yīng)于邊界上某個(gè)點(diǎn)的方差的最優(yōu)化文庫(kù)。這些輸入值或方差是建文庫(kù)的人預(yù)先設(shè)定的標(biāo)準(zhǔn)。換句話說(shuō),尋找最優(yōu)化文庫(kù)的人確定一個(gè)可接受的輸入水平(表明敏感度)或一個(gè)給定水平的方差(表明特異性),并選擇沿著與該輸入水平或方差相應(yīng)的有效邊界的基因。當(dāng)選擇了輸入水平或方差時(shí),Wagner軟件就能選擇出這些基因。Wagner軟件可以像對(duì)股票組合中每個(gè)股票所做的那樣,分配基因庫(kù)中每個(gè)基因的權(quán)重。
將患者樣品的文庫(kù)中的基因表達(dá),與用于建立該文庫(kù)的差異表達(dá)基因的計(jì)算值相比較,就可以確定該樣品是否具有該文庫(kù)所診斷的狀況。優(yōu)選地,首先通過(guò)將文庫(kù)中每個(gè)基因的強(qiáng)度值與文庫(kù)選擇過(guò)程中該基因分配的權(quán)重的乘積求和而產(chǎn)生文庫(kù)值。然后可以通過(guò)(Y*標(biāo)準(zhǔn)差+基線組文庫(kù)值的平均值)來(lái)計(jì)算邊界值,其中Y是和上述的X有相同含義的嚴(yán)格性值。一個(gè)樣品具有的文庫(kù)值大于基線類的文庫(kù)值時(shí),此樣品就被歸為具有該狀況。如果需要,為了提高置信水平,可以依照已知的統(tǒng)計(jì)方法來(lái)重復(fù)該過(guò)程。
任選的,可以重復(fù)這個(gè)過(guò)程直到獲得最佳的預(yù)測(cè)準(zhǔn)確性。
文庫(kù)選擇的過(guò)程和未知量的鑒定概述如下1.選擇基線類2.計(jì)算基線組樣品中的每個(gè)基因的平均值和標(biāo)準(zhǔn)差3.計(jì)算每個(gè)基因的(X*標(biāo)準(zhǔn)差+平均值)。這是基線讀數(shù),所有其它的樣品將和它進(jìn)行比較。X是一個(gè)嚴(yán)格性變量,高的X值比低的X值更嚴(yán)格。
4.計(jì)算每個(gè)試驗(yàn)樣品與在步驟3中計(jì)算的基線讀數(shù)的比值。
5.轉(zhuǎn)換比值,使比值小于1的為負(fù)數(shù)(如使用底數(shù)為10的對(duì)數(shù))(下調(diào)基因校正為具有MV優(yōu)化所必須的負(fù)值)。
6.這些轉(zhuǎn)換的比值用作輸入值,來(lái)替代軟件應(yīng)用中通常使用的資產(chǎn)返回值。
7.該軟件將標(biāo)繪出有效的邊界,并沿著該有效邊界的任何點(diǎn)返回優(yōu)化的文庫(kù)。
8.在有效邊界上選擇理想的返回值或方差。
9.通過(guò)對(duì)每個(gè)基因的強(qiáng)度與文庫(kù)選擇算法產(chǎn)生的權(quán)重的乘積求和,計(jì)算每個(gè)樣品的文庫(kù)值。
10.將基線組的平均文庫(kù)值加上Y與基線組的文庫(kù)值的標(biāo)準(zhǔn)差的乘積計(jì)算得到邊界值。比該邊界值大的比值將被劃分到試驗(yàn)組。
11.任選的,可以重復(fù)該過(guò)程直到獲得最佳的預(yù)測(cè)準(zhǔn)確性。
可選擇地,可以通過(guò)確定那些有細(xì)小表達(dá)差異的基因來(lái)預(yù)先選擇基因。在這種可選擇的方法中,預(yù)選過(guò)程優(yōu)選的是基于1≤|(μt-μn)(σt+σn)|]]>給定的閾值,其中μt是已知有疾病或狀況的子集的平均值,μn是正常樣品的子集的平均值,σt+σn代表聯(lián)合的標(biāo)準(zhǔn)差。在根據(jù)如0.5≤|(μt-MAXn)(σt+σn)|]]>所述的關(guān)系來(lái)預(yù)選數(shù)據(jù)過(guò)程中,也可以使用信噪比截止值。這保證基于差異調(diào)節(jié)預(yù)選的基因具有臨床上的顯著差異。也就是,超過(guò)了適于測(cè)定各種診斷參數(shù)的儀器產(chǎn)生的噪音水平。對(duì)根據(jù)這些標(biāo)準(zhǔn)預(yù)選的每一個(gè)標(biāo)記,構(gòu)建了一個(gè)矩陣,其中列代表樣品,行代表標(biāo)記,而且每個(gè)元件都是根據(jù) 對(duì)該標(biāo)記的表達(dá)進(jìn)行標(biāo)準(zhǔn)化后所得到的強(qiáng)度測(cè)量值,其中I是強(qiáng)度測(cè)量值。
也能設(shè)置附加的邊界條件來(lái)限定最優(yōu)文庫(kù)。例如,文庫(kù)大小可以限定到一個(gè)固定范圍或數(shù)量的標(biāo)記。這可以通過(guò)制定更嚴(yán)格的數(shù)據(jù)預(yù)選標(biāo)準(zhǔn)(如以0.8≤|(μt-MAXn)(σt+σn)|]]>代替0.5≤|(μt-MAXn)(σt+σn)|),]]>或通過(guò)使用編程特征如限制文庫(kù)大小來(lái)實(shí)現(xiàn)。例如,可以設(shè)置邊界條件,僅從最優(yōu)的10個(gè)基因中選擇有效的邊界。也可以使用所有的預(yù)選基因來(lái)確定有效邊界,然后限定選擇的基因的數(shù)量(例如,不超過(guò)10)。
選擇文庫(kù)的過(guò)程也包括啟發(fā)式規(guī)則的應(yīng)用。優(yōu)選地,這些規(guī)則是基于生物學(xué)和用于得到臨床結(jié)果的技術(shù)的理解而制定的。更優(yōu)選地,它們也可用于從優(yōu)化的方法中輸出數(shù)據(jù)。例如,文庫(kù)選擇的平均方差方法能用于結(jié)直腸癌患者中大量差異表達(dá)基因的微陣列數(shù)據(jù)。從該方法中得到的輸出值將是一系列優(yōu)化的基因,其包括一些既在外周血液中也在患病組織中表達(dá)的基因。如果用于測(cè)試方法中的樣品是獲自外周血液,而且在乳癌中差異表達(dá)的某些基因也能在外周血中差異表達(dá),那么就可以應(yīng)用啟發(fā)式規(guī)則,其中從排除了那些在外周血液中差異表達(dá)的基因的有效邊界選擇文庫(kù)。當(dāng)然,通過(guò)例如在數(shù)據(jù)預(yù)選中運(yùn)用該規(guī)則,可以在形成有效邊界前運(yùn)用該規(guī)則。
也可以運(yùn)用與所討論的生物學(xué)問(wèn)題沒(méi)有必然聯(lián)系的其它啟發(fā)式規(guī)則。例如,可以運(yùn)用只有特定百分比的文庫(kù)能被特定的一種或多種基因所代表的規(guī)則。商業(yè)化的軟件,如Wagner軟件,也容易提供這些類型的啟發(fā)式規(guī)則。這也是有用的,例如,當(dāng)準(zhǔn)確度和精確度以外的因素(如預(yù)期的許可費(fèi)),對(duì)包括一個(gè)或多個(gè)基因的需要性有影響時(shí)。
本發(fā)明的一種方法包括比較多種基因(或文庫(kù))的基因表達(dá)模式來(lái)進(jìn)行預(yù)后。組成文庫(kù)的每個(gè)基因的基因表達(dá)模式被固定于如計(jì)算機(jī)可讀介質(zhì)等的介質(zhì)上。這可以采取多種形式。例如,可以建立一個(gè)表格,從而將指示疾病的信號(hào)(例如,強(qiáng)度測(cè)量值)范圍輸入其中。比較實(shí)際患者的數(shù)據(jù)和表格中的數(shù)值,從而確定患者樣品是正常還是患病的。在一個(gè)更精確的實(shí)施方案中,表達(dá)信號(hào)的模式(如熒光強(qiáng)度)以數(shù)字或圖形方式記錄。再將與患者樣品相結(jié)合的基因文庫(kù)的基因表達(dá)模式與上述表達(dá)模式比較。模式比較軟件可用于確定患者樣品是否具有指示疾病復(fù)發(fā)的模式。當(dāng)然,這些比較也可用于確定患者是否可能經(jīng)歷疾病復(fù)發(fā)。然后將樣品表達(dá)模式與對(duì)照細(xì)胞文庫(kù)相比較。如果樣品表達(dá)模式與結(jié)直腸癌復(fù)發(fā)的表達(dá)模式一致(無(wú)相反的醫(yī)學(xué)考慮),那么該患者將以一個(gè)復(fù)發(fā)患者對(duì)待。如果樣品表達(dá)模式與正常/對(duì)照細(xì)胞的表達(dá)模式一致,那么該患者被診斷為結(jié)直腸癌陰性。
許多公知的模式識(shí)別方法都可采用。下面的文獻(xiàn)可以提供一些實(shí)例加權(quán)投票(Weighted Voting)Golub,TR.,Sclonim,DK.,Tamaya,P.,Huard,C.,Gaasenbeek,M.,Mesirov,JP.,Coller,H.,Loh,L.,Downing,JR.,Caligiuri,MA.,Bloomfield,CD.,Lander,ES.癌癥的分子分類利用基因表達(dá)監(jiān)視的類型發(fā)現(xiàn)和類型預(yù)測(cè)??茖W(xué)(Science)286531-537,1999支持矢量機(jī)器(Support Vector Machines)Su,AI.,Welsh,JB.,Sapinoso,LM.,Kem,SG.,Dimitrov,P.,Lapp,H.,Schultz,PG.,Powell,SM.,Moskaluk,CA.,F(xiàn)rierson,HF.Jr.,Hampton,GM.利用基因表達(dá)標(biāo)志的人類癌癥的分子分類。癌癥研究(Cancer Researrch)617388-93,2001Ramaswamy,S.,Tamayo,P.,Rifkin,R.,Mukherjee,S.,Yeang,GH.,Angelo,M.,Ladd,C.,Reich,M.,Latulippe,E.,Mesirov,JP.,Poggio,T.,Gerald,W.,Loda,M.,Lander,ES.,Gould,TR.利用腫瘤基因表達(dá)標(biāo)志的多種癌癥診斷。美國(guó)國(guó)家科學(xué)院院刊(Proceedings ofthe National Academy ofSciences ofthe USA)9815149-15154,2001K-最鄰近值(K-nearest Neighbors)Ramaswamy,S.,Tamayo,P.,Rifkin,R.,Mukherjee,S.,Yeang,GH.,Angelo,M.,Ladd,C.,Reich,M.,Latulippe,E.,Mesirov,JP.,Poggio,T.,Gerald,W.,Loda,M.,Lander,ES.,Gould,TR.利用腫瘤基因表達(dá)信號(hào)的多種類癌癥診斷。美國(guó)國(guó)家科學(xué)院院刊(Proceedingsofthe National Academy of Sciences of the USA)9815149-15154,2001校正系數(shù)(Correlation Coefficients)van’t Veer LJ,Dai H,van de Vijver MJ,He YD,Hart AA,Mao M,Peterse HL,vander Kooy K,Marton MJ,Witteveen AT,Sehreiber GJ,Kerkhoven RM,Roberts C,LinsleyPS,Bernards R,F(xiàn)riend SH.基因表達(dá)模式預(yù)測(cè)乳腺癌的臨床結(jié)果。自然(Nature)2002 Jan 31415(6871)530-6。
本發(fā)明的基因表達(dá)模式也可以與在癌癥診斷,預(yù)后,或治療監(jiān)視中使用的其它非遺傳診斷方法聯(lián)合使用。例如,在一些情況下,把上述的基于基因表達(dá)診斷能力的方法,與來(lái)自傳統(tǒng)的標(biāo)記,如血清蛋白標(biāo)記物(如癌胚抗原)的數(shù)據(jù)結(jié)合起來(lái)是有益的。這種存在的標(biāo)記范圍包括分析物如CEA。在這樣的一個(gè)方法中,從治療的患者中定期采血,然后對(duì)上述的血清標(biāo)記之一進(jìn)行酶免疫測(cè)定。當(dāng)標(biāo)記物的濃度顯示腫瘤復(fù)發(fā)或治療失敗時(shí),可對(duì)樣品源進(jìn)行基因表達(dá)分析。對(duì)于存在疑似的腫塊的部位,可以進(jìn)行細(xì)針吸取采樣,然后用上述方法對(duì)從腫塊采集的細(xì)胞進(jìn)行基因表達(dá)模式分析??蛇x擇地,可以從與先前腫瘤切除的組織相鄰的區(qū)域采集組織樣品。當(dāng)其它測(cè)試結(jié)果不明確時(shí),這種方法是特別有效的。
本發(fā)明的制品包括在治療,診斷,預(yù)后和評(píng)估疾病中使用的基因表達(dá)模式的表示物。這些模式表示物壓縮至一種可被機(jī)器自動(dòng)讀取的介質(zhì),如計(jì)算機(jī)可讀介質(zhì)(磁性的,光學(xué)的及類似的)。制品也可包括在這種介質(zhì)中評(píng)估基因表達(dá)模式的說(shuō)明。例如,制品也可包括CD ROM,它具有比較上述基因文庫(kù)的基因表達(dá)模式的計(jì)算機(jī)說(shuō)明。制品也可包括數(shù)字化記錄在其中的基因表達(dá)模式,以便用于與患者樣品的基因表達(dá)數(shù)據(jù)進(jìn)行比較??蛇x擇地,模式可以不同的表示形式記錄。圖形記錄就是這樣一種格式。上面提到的Partek公司的“DISCOVERY”和“INFER”軟件中整合的聚類算法,能最好的協(xié)助這些數(shù)據(jù)可視化。
本發(fā)明的制品的不同類型,是用于揭示基因表達(dá)模式的介質(zhì)或格式化的測(cè)定。這些可以包括,例如,微陣列,其中序列互補(bǔ)物或探針固定于基質(zhì)上,指示感興趣基因的序列與之結(jié)合產(chǎn)生一種確定其存在的可讀判定。可選擇地,本發(fā)明的制品可被制作成試劑盒,用于進(jìn)行雜交,擴(kuò)增,和產(chǎn)生表示檢測(cè)結(jié)直腸癌的感興趣基因表達(dá)水平的信號(hào)。
根據(jù)本發(fā)明制備的試劑盒,包括確定基因表達(dá)模式的格式化測(cè)定。這些也包括進(jìn)行測(cè)定所需的所有的或部分的物質(zhì),如試劑和說(shuō)明。
本發(fā)明進(jìn)一步地通過(guò)下面的非限制性實(shí)施例進(jìn)行說(shuō)明。
實(shí)施例根據(jù)本發(fā)明進(jìn)行分析的基因,典型地與編碼蛋白質(zhì)或肽產(chǎn)物的全長(zhǎng)核酸序列相關(guān)。本領(lǐng)域的普通技術(shù)人員公認(rèn),全長(zhǎng)序列的鑒定從分析的角度來(lái)說(shuō)不是必需的。也就是,可以根據(jù)熟知的為評(píng)估相關(guān)基因表達(dá)而設(shè)計(jì)探針的原理進(jìn)行部分序列或ESTs選擇。
實(shí)施例1-樣品處理和LCM收集接受結(jié)直腸腫瘤外科手術(shù)患者的新鮮冷凍組織樣品。使用的樣品來(lái)自根據(jù)標(biāo)準(zhǔn)的臨床診斷和病理學(xué)分期為杜克B類的63個(gè)患者?;颊叩呐R床結(jié)局已知。36個(gè)患者已經(jīng)超過(guò)3年沒(méi)有患病,27個(gè)患者在3年內(nèi)腫瘤復(fù)發(fā)。
組織在獲得后20-30分鐘內(nèi)于液氮中快速冷凍,然后在-80℃下儲(chǔ)存。為了激光捕獲,將樣品切片(6μm),并將一切片封固于載玻片上,另一切片封固于已被固定于玻璃載玻片(Micro Slides Colorfrost,VWR Scientific,Media,PA)上的膜(P.A.L.M.)上。封固于玻璃載片上的切片隨后在冷的丙酮中固定,并用Mayer’s蘇木精(Sigma,St.Louis,MO)染色。病理學(xué)家將該為樣品用于診斷和分期而進(jìn)行分析。根據(jù)外科病理學(xué)分析和驗(yàn)證杜克分類體系的臨床報(bào)告來(lái)評(píng)價(jià)其臨床階段。封固于膜上的切片隨后在100%乙醇中固定5分鐘,在曙紅/100%乙醇(100μg曙紅溶于100ml脫水乙醇)中負(fù)染1分鐘,快速在100%乙醇中浸泡一次以除去游離的染料,并空氣中干燥10分鐘。
在LCM使用前,膜(LPC-MEMBERANE PEN FOIL 1.35μmNo.8100,P.A.LM.GmbH Mikrolaser Technologie,Bemried,Germany)和載玻片經(jīng)過(guò)預(yù)處理以除去RNA酶,并且增強(qiáng)組織樣品在膜上的附著。簡(jiǎn)要的,載玻片用DEP H2O洗滌,膜用RNA酶AWAY(Moleclar Bioproducts,Inc.,SanDiego,CA)洗滌并用DEP H2O沖洗。膜附著到載玻片上后,載玻片于+120℃烘烤8小時(shí),用TI-SAD(Diagnostic Products Corporation,Los Angeles,CA,以1∶50溶于DEP H2O,用脫脂棉過(guò)濾)處理,+37℃孵育30分鐘。使用前,立即將10μl RNA酶抑制劑溶液等分物(RNA酶蛋白質(zhì)抑制劑2500U=33U/μlN211A,Promega GmbH,Mannheim,Germany,0.5μl溶于400μl冷的含有0.15molNaCl,10mmol Tris pH8.0,0.25mmol二硫蘇糖醇的溶液)鋪展到膜上,在此封固組織樣品。
封固于膜上的組織切片用于LCM。利用連接于Zeiss Axiovert 135顯微鏡(Carl Zeiss Jena GmbH,Jena,Germany)的PALM Robot微光束技術(shù)(P.A.L.M.Microlaser Technologie,Carl Zeiss,Inc.,Thomwood,NY)可捕獲約2000個(gè)上皮細(xì)胞/樣品。正常粘膜周?chē)幕|(zhì)和癌癥樣品中偶然的干擾基質(zhì)成分都包括在內(nèi)。捕獲到的細(xì)胞置于100%乙醇的小管中于-80℃保存。
實(shí)施例2-RNA提取和擴(kuò)增利用Zymo-Spin柱(Zymo Research,Orange,CA92867)從LCM捕獲的樣品中提取總RNA。將約2ng的總RNA重懸于10μl水并且利用T7 RNA聚合酶進(jìn)行兩輪擴(kuò)增產(chǎn)生約為50μg的擴(kuò)增的RNA。
實(shí)施例3-cDNA微陣列雜交和定量用從Affymetrix公司獲得并商業(yè)化的人U133a芯片,利用包括約23,000個(gè)人的cDNA克隆的一套cDNA微陣列來(lái)檢測(cè)樣品。獲得總RNA并用上述的制備方法制備,將其應(yīng)用于芯片并根據(jù)制造商的使用說(shuō)明采用AgilentBioAnalyzer進(jìn)行分析。所有的63個(gè)樣品均通過(guò)質(zhì)量控制標(biāo)準(zhǔn)檢測(cè),并將數(shù)據(jù)用于標(biāo)記物選擇。
芯片強(qiáng)度數(shù)據(jù)通過(guò)Affymetrix公司商業(yè)化的5.0版本的MAS軟件(“MAS5.0”)進(jìn)行分析。如下所述,進(jìn)行無(wú)監(jiān)督分析用于確定區(qū)別復(fù)發(fā)患者和不復(fù)發(fā)患者的兩個(gè)基因。采用上述方法獲得的芯片強(qiáng)度數(shù)據(jù),作為輸入值輸入商業(yè)化的PARTEK5.1版軟件的無(wú)監(jiān)督聚類軟件中。這種無(wú)監(jiān)督聚類算法確定了一組高頻率復(fù)發(fā)的20個(gè)患者(13個(gè)復(fù)發(fā)者和7個(gè)存活者)。從最初的23,000個(gè)基因中,t-檢驗(yàn)分析選擇了在這些患者中顯著差異表達(dá)的276個(gè)基因。從該組中,選擇了能最好區(qū)別復(fù)發(fā)患者和不復(fù)發(fā)患者的兩種基因人腸肽相關(guān)轉(zhuǎn)運(yùn)蛋白(Seq ID No.3)和人脂肪酸結(jié)合蛋白1(Seq ID No.1)。在該患者組中,這兩種基因在復(fù)發(fā)患者中下調(diào)(實(shí)際上,它們被關(guān)閉或不表達(dá))。該結(jié)果示于圖1和圖2中,其中信號(hào)強(qiáng)度(y-軸)對(duì)患者樣品數(shù)(x-軸)作圖。
監(jiān)督分析用于更進(jìn)一步區(qū)別剩下的43個(gè)患者中的復(fù)發(fā)患者和不復(fù)發(fā)患者。這組患者數(shù)據(jù)分為如下的組27個(gè)患者被分配至訓(xùn)練組,16個(gè)患者被分配至測(cè)試組。這確保了同樣的數(shù)據(jù)不用于先確定標(biāo)記,然后再驗(yàn)證它們的用途。
對(duì)訓(xùn)練組進(jìn)行不等方差t檢驗(yàn)。從有顯著相關(guān)p值的一列28個(gè)基因中,選擇MHC II-DR-B。這些基因在復(fù)發(fā)者中是下調(diào)的。MHC II-DR-B(Seq IDNo.2)也有最小的p值(圖3a)。
在另一輪附加的監(jiān)督分析中,采用上述的Partek 5.0版本軟件來(lái)實(shí)現(xiàn)用于線性辨別分析的變量選擇程序,從而在訓(xùn)練組中區(qū)別復(fù)發(fā)者和存活者。該搜索方法為正向選擇。經(jīng)最低后誤差選擇的變量為免疫球蛋白樣轉(zhuǎn)錄蛋白5(Seq IDNo.4)(圖3b)。然后用Cox比例危險(xiǎn)模型(用nsightful公司的“S Plus”軟件)進(jìn)行基因選擇,用于證實(shí)上述基因選擇的存活時(shí)間。在全部27個(gè)循環(huán)的每個(gè)循環(huán)中,訓(xùn)練組中27個(gè)患者中的每一個(gè)都進(jìn)行該步驟,剩下的26個(gè)患者采用單變量Cox回歸模型來(lái)評(píng)估基因表達(dá)與患者存活時(shí)間相關(guān)性的強(qiáng)度。這種相關(guān)性的強(qiáng)度,由相應(yīng)的估計(jì)的標(biāo)準(zhǔn)化參數(shù)估計(jì)值和從Cox模型回歸返回的P值來(lái)評(píng)價(jià)。0.01的P值為用作從留一法(leave-one-out)基因選擇的每個(gè)循環(huán)中選擇最高基因的域值。然后比較那些從每個(gè)循環(huán)中選擇的最高基因,以便從全部27個(gè)留一法(leave-one-out)基因選擇循環(huán)中選擇出至少有26次顯示上調(diào)的那些基因??偣策x擇出了70個(gè)基因,MHC II-DR-B和免疫球蛋白樣轉(zhuǎn)錄蛋白5也在其中(再一次,顯示下調(diào))。
多基因預(yù)測(cè)標(biāo)準(zhǔn)的構(gòu)建通過(guò)線性辨別分析,用兩個(gè)基因,MHC II-DR-B和免疫球蛋白樣轉(zhuǎn)錄蛋白5,產(chǎn)生預(yù)測(cè)標(biāo)準(zhǔn)。投票分?jǐn)?shù)被定義為復(fù)發(fā)的后驗(yàn)概率。如果患者的分?jǐn)?shù)高于0.5,患者被劃分到復(fù)發(fā)者一類。如果患者的分?jǐn)?shù)低于0.5,患者被劃分到存活者一類。在訓(xùn)練組中測(cè)驗(yàn)該預(yù)測(cè)標(biāo)準(zhǔn)(表1)。對(duì)預(yù)測(cè)的復(fù)發(fā)者和存活者構(gòu)建Kaplan-Meier曲線(圖4)。
交叉證實(shí)和預(yù)測(cè)標(biāo)準(zhǔn)評(píng)估預(yù)測(cè)標(biāo)準(zhǔn)應(yīng)該基于一個(gè)獨(dú)立數(shù)據(jù)組來(lái)確定,因?yàn)榇蠖鄶?shù)分類方法在用于它們的建立的實(shí)例中都很有效。16個(gè)患者的測(cè)試組被用于評(píng)估預(yù)測(cè)的準(zhǔn)確性。分類的截止值通過(guò)使用ROC曲線(圖5)來(lái)確定。根據(jù)選擇的截止值,確定并概括了測(cè)試組中復(fù)發(fā)和存活患者的正確預(yù)測(cè)數(shù)目(表2)。根據(jù)預(yù)測(cè)的復(fù)發(fā)者和存活者構(gòu)建了Kaplan-Meier曲線(圖6)。
總體預(yù)測(cè)63個(gè)杜克B結(jié)直腸癌患者的基因表達(dá)模式確定了在這些患者中差異表達(dá)(下調(diào)或關(guān)閉)的4個(gè)基因。這些基因是Seq ID No.1,Seq ID No.2,SeqID No.3,和Seq ID No.4。這些患者中有36個(gè)已經(jīng)超過(guò)3年無(wú)病,而27個(gè)患者在3年內(nèi)腫瘤復(fù)發(fā)。用Seq ID No.2,Seq ID No.3,和Seq ID No.4這3個(gè)基因標(biāo)記物文庫(kù),正確地確定了27個(gè)復(fù)發(fā)患者中的22個(gè)和36個(gè)無(wú)病患者中的27個(gè)。結(jié)果顯示了該方法具有82%的靈敏度和75%的特異性。陽(yáng)性預(yù)測(cè)值是71%,陰性預(yù)測(cè)值是84%(表3)。根據(jù)預(yù)測(cè)的復(fù)發(fā)者和存活者構(gòu)建了Kaplan-Meier曲線(圖6)。
包括本發(fā)明模式的基因在下文中描述。人脂肪酸結(jié)合蛋白1(FABP1)人的肝脂肪酸結(jié)合蛋白(L-FABP)基因首先由Smith LC等在Bio.Chem.260(5),2629-2632(1985)中從肝臟cDNA文庫(kù)中鑒定出。L-FABP包含127個(gè)氨基酸殘基。脂肪酸結(jié)合蛋白是一個(gè)能結(jié)合長(zhǎng)鏈脂肪酸和其它的疏水配體的小而高度保守的細(xì)胞質(zhì)蛋白質(zhì)家族。研究認(rèn)為,F(xiàn)ABPs的功能包括脂肪酸攝取,轉(zhuǎn)運(yùn)和代謝。它們也可能負(fù)責(zé)調(diào)節(jié)細(xì)胞的生長(zhǎng)和增殖。L-FABP與在結(jié)腸組織中特異性表達(dá)的I-FABP有顯著的同源性。
人腸肽相關(guān)轉(zhuǎn)運(yùn)蛋白HPT-1mRNA來(lái)自Eli Lilly公司的一組科學(xué)家鑒定了這個(gè)基因。論文發(fā)表于Science,1994年4月15日,264(5157)430-3。這個(gè)基因編碼一個(gè)大約92kda的膜蛋白,它的氨基酸序列表明,這個(gè)轉(zhuǎn)運(yùn)相關(guān)蛋白與鈣依賴性,細(xì)胞—細(xì)胞粘附蛋白的鈣粘著蛋白超家族共有幾個(gè)保守結(jié)構(gòu)元件。
人MHC II類抗原(HLA-DRB1)mRNA這個(gè)基因于1997年在一個(gè)西班牙嬰兒中首次發(fā)現(xiàn),并發(fā)表于組織抗原(Tissue Antigens),1997年1月,49(6)658-61。正如其名稱表示的那樣,它屬于MHC II類抗原超家族。這個(gè)基因編碼267個(gè)氨基酸的蛋白質(zhì)。
人克隆6的免疫球蛋白樣轉(zhuǎn)錄蛋白5的mRNA該基因編碼一個(gè)不僅由NK和T細(xì)胞的亞型表達(dá),也由B細(xì)胞,單核細(xì)胞,巨噬細(xì)胞和樹(shù)突細(xì)胞表達(dá)的免疫球蛋白超家族的抑制性MHC I類受體的蛋白產(chǎn)物。該分子包含194個(gè)氨基酸。序列發(fā)表在J Exp Med,1997年12月1日,186(11)1809-18上。該受體結(jié)合了MHC I類分子,并遞送抑制NK和T細(xì)胞導(dǎo)致的殺傷,以及抑制B細(xì)胞抗原受體和人組織相容性白細(xì)胞抗原(HLA)-DR引發(fā)的B細(xì)胞和骨髓單核細(xì)胞中的Ca2+動(dòng)員的負(fù)信號(hào)。
人羥甲基膽色烷合成酶(也可稱為膽色素原脫氨基酶-PBGD)該基因作為對(duì)照基因。這是實(shí)體瘤和正常組織間的一個(gè)最少變異的基因。其序列首次發(fā)表于Nucleic Acids Res,14(15),5955-5968(1986)。
表1.在訓(xùn)練組中采用2基因預(yù)測(cè)標(biāo)準(zhǔn)的預(yù)測(cè)準(zhǔn)確度
表2.在測(cè)試組中采用2基因預(yù)測(cè)標(biāo)準(zhǔn)的預(yù)測(cè)準(zhǔn)確度
表3.對(duì)全部患者采用3基因預(yù)測(cè)標(biāo)準(zhǔn)(Seq ID 2,Seq ID 3,Seq ID 4)的預(yù)測(cè)準(zhǔn)確度
序列表<110>Y.王<120>結(jié)直腸癌的預(yù)后<130>CDS5005<140>tbd<141>2003-03-31<160>5<170>PatentIn version 3.1<210>1<211>489<212>DNA<213>人<400>1agagccgcag gtcagtcgtg aagagggagc tctattgcca ccatgagttt ctccggcaag 60taccaactgc agagccagga aaactttgaa gccttcatga aggcaatcgg tctgccggaa120gagctcatcc agaaggggaa ggatatcaag ggggtgtcgg aaatcgtgca gaatgggaag180cacttcaagt tcaccatcac cgctgggtcc aaagtgatcc aaaacgaatt cacggtgggg240gaggaatgtg agctggagac aatgacaggg gagaaagtca agacagtggt tcagttggaa300ggtgacaata aactggtgac aactttcaaa aacatcaagt ctgtgaccga actcaacggc360gacataatca ccaataccat gacattgggt gacattgtct tcaagagaat cagcaagaga420atttaaacaa gtctgcattt catattattt tagtgtgtaa aattaatgta ataaagtgaa480ctttgtttt489<210>2<211>853<212>DNA<213>人<400>2gcctgctgct ctggcccctg gtcctgtcct gttctccagc atggtgtgtc tgaggctccc 60
tggaggctcc tgcatggcag ttctgacagt gacactgatg gtgctgagct ccccactggc120tttggctggg gacaccagac cacgtttctt ggagtactct acgtctgagt gtcatttctt180caatgggacg gagcgggtgc ggtacctgga cagatacttc cataaccagg aggagaacgt240gcgcttcgac agcgacgtgg gggagttccg ggcggtgacg gagctggggc ggcctgctgc300ggagcactgg aacagccaga aggacctcct ggagcagaag cggggccggg tggacaacta360ctgcagacac aactacgggg ttgtggagag cttcacagtg cagcggcgag tccatcctaa420ggtgactgtg tatccttcaa agacccagcc cctgcagcac cataacctcc tggtctgttc480tgtgagtggt ttctatccag gcagcattga agtcaggtgg ttccggaatg gccaggaaga540gaagactggg gtggtgtcca caggcctgat ccacaatgga gactggacct tccagaccct600ggtgatgctg gaaacagttc ctcggagtgg agaggtttac acctgccaag tggagcaccc660aagcgtgaca agccctctca cagtggaatg gagagcacgg tctgaatctg cacagagcaa720gatgctgagt ggagtcgggg gctttgtgct gggcctgctc ttccttgggg ccgggctgtt780catctacttc aggaatcaga aaggacactc tggacttcag ccaagaggat tcctgagctg840aagtgcagat gac 853<210>3<211>3345<212>DNA<213>人<400>3gaattccgtc tcgaccactg aatggaagaa aaggactttt aaccaccatt ttgtgactta 60cagaaaggaa tttgaataaa gaaaactatg atacttcagg cccatcttca ctccctgtgt120cttcttatgc tttatttggc aactggatat ggccaagagg ggaagtttag tggacccctg180aaacccatga cattttctat ttatgaaggc caagaaccga gtcaaattat attccagttt240aaggccaatc ctcctgctgt gacttttgaa ctaactgggg agacagacaa catatttgtg300atagaacggg agggacttct gtattacaac agagccttgg acagggaaac aagatctact360cacaatctcc aggttgcagc cctggacgct aatggaatta tagtggaggg tccagtccct420
atcaccatag aagtgaagga catcaacgac aatcgaccca cgtttctcca gtcaaagtac 480gaaggctcag taaggcagaa ctctcgccca ggaaagccct tcttgtatgt caatgccaca 540gacctggatg atccggccac tcccaatggc cagctttatt accagattgt catccagctt 600cccatgatca acaatgtcat gtactttcag atcaacaaca aaacgggagc catctctctt 660acccgagagg gatctcagga attgaatcct gctaagaatc cttcctataa tctggtgatc 720tcagtgaagg acatgggagg ccagagtgag aattccttca gtgataccac atctgtggat 780atcatagtga cagagaatat ttggaaagca ccaaaacctg tggagatggt ggaaaactca 840actgatcctc accccatcaa aatcactcag gtgcggtgga atgatcccgg tgcacaatat 900tccttagttg acaaagagaa gctgccaaga ttcccatttt caattgacca ggaaggagat 960atttacgtga ctcagccctt ggaccgagaa gaaaaggatg catatgtttt ttatgcagtt1020gcaaaggatg agtacggaaa accactttca tatccgctgg aaattcatgt aaaagttaaa1080gatattaatg ataatccacc tacatgtccg tcaccagtaa ccgtatttga ggtccaggag1140aatgaacgac tgggtaacag tatcgggacc cttactgcac atgacaggga tgaagaaaat1200actgccaaca gttttctaaa ctacaggatt gtggagcaaa ctcccaaact tcccatggat1260ggactcttcc taatccaaac ctatgctgga atgttacagt tagctaaaca gtccttgaag1320aagcaagata ctcctcagta caacttaacg atagaggtgt ctgacaaaga tttcaagacc1380ctttgttttg tgcaaatcaa cgttattgat atcaatgatc agatccccat ctttgaaaaa1440tcagattatg gaaacctgac tcttgctgaa gacacaaaca ttgggtccac catcttaacc1500atccaggcca ctgatgctga tgagccattt actgggagtt ctaaaattct gtatcatatc1560ataaagggag acagtgaggg acgcctgggg gttgacacag atccccatac caacaccgga1620tatgtcataa ttaaaaagcc tcttgatttt gaaacagcag ctgtttccaa cattgtgttc1680aaagcagaaa atcctgagcc tctagtgttt ggtgtgaagt acaatgcaag ttcttttgcc1740aagttcacgc ttattgtgac agatgtgaat gaagcacctc aattttccca acacgtattc1800caagcgaaag tcagtgagga tgtagctata ggcactaaag tgggcaatgt gactgccaag1860
gatccagaag gtctggacat aagctattca ctgaggggag acacaagagg ttggcttaaa1920attgaccacg tgactggtga gatctttagt gtggctccat tggacagaga agccggaagt1980ccatatcggg tacaagtggt ggccacagaa gtaggggggt cttccttaag ctctgtgtca2040gagttccacc tgatccttat ggatgtgaat gacaaccctc ccaggctagc caaggactac2100acgggcttgt tcttctgcca tcccctcagt gcacctggaa gtctcatttt cgaggctact2160gatgatgatc agcacttatt tcggggtccc cattttacat tttccctcgg cagtggaagc2220ttacaaaacg actgggaagt ttccaaaatc aatggtactc atgcccgact gtctaccagg2280cacacagact ttgaggagag ggcgtatgtc gtcttgatcc gcatcaatga tgggggtcgg2340ccacccttgg aaggcattgt ttctttacca gttacattct gcagttgtgt ggaaggaagt2400tgtttccggc cagcaggtca ccagactggg atacccactg tgggcatggc agttggtata2460ctgctgacca cccttctggt gattggtata attttagcag ttgtgtttat ccgcataaag2520aaggataaag gcaaagataa tgttgaaagt gctcaagcat ctgaagtcaa acctctgaga2580agctgaattt gaaaaggaat gtttgaattt atatagcaag tgctatttca gcaacaacca2640tctcatccta ttacttttca tctaacgtgc attataattt tttaaacaga tattccctct2700tgtcctttaa tatttgctaa atatttcttt tttgaggtgg agtcttgctc tgtcgcccag2760gctggagtac agtggtgtga tcccagctca ctgcaacctc cgcctcctgg gttcacatga2820ttctcctgcc tcagcttcct aagtagctgg gtttacaggc acccaccacc atgcccagct2880aatttttgta tttttaatag agacggggtt tcgccatttg gccaggctgg tcttgaactc2940ctgacgtcaa gtgatctgcc tgccttggtc tcccaataca ggcatgaacc actgcaccca3000cctacttaga tatttcatgt gctatagaca ttagagagat ttttcatttt tccatgacat3060ttttcctctc tgcaaatggc ttagctactt gtgtttttcc cttttggggc aagacagact3120cattaaatat tctgtacatt ttttctttat caaggagata tatcagtgtt gtctcataga3180actgcctgga ttccatttat gttttttctg attccatcct gtgtcccctt catccttgac3240tcctttggta tttcactgaa tttcaaacat ttgtcagaga agaaaaaagt gaggactcag3300
gaaaaataaa taaataaaag aacagccttt tgcggccgcg aattc3345<210>4<211>1924<212>DNA<213>人<400>4ccatgacgcc cgccctcaca gccctgctct gccttgggct gagtctgggc cccaggaccc 60gcatgcaggc agggcccttc cccaaaccca ccctctgggc tgagccaggc tctgtgatca 120gctgggggag ccccgtgacc atctggtgtc aggggagcct ggaggcccag gagtaccaac 180tggataaaga gggaagccca gagccctggg acagaaataa cccactggaa cccaagaaca 240aggccagatt ctccatccca tccatgacac agcaccatgc agggagatac cgctgccact 300attacagctc tgcaggctgg tcagagccca gcgaccccct ggagctggtg atgacaggat 360tctacaacaa acccaccctc tcagccctgc ccagccctgt ggtggcctca ggggggaata 420tgaccctccg atgtggctca cagaagggat atcaccattt tgttctgatg aaggaaggag 480aacaccagct cccccggacc ctggactcac agcagctcca cagtgggggg ttccaggccc 540tgttccctgt gggccccgtg acccccagcc acaggcgtgt ctaggaagcc ctccctcctg 600accctgcagg gccctgtcct ggcccctggg cagagcctga ccctccagtg tggctctgat 660gtcggctacg acagatttgt tctgtataag gagggggaac gtgacttcct ccagcgccct 720ggccagcagc cccaggctgg gctctcccag gccaacttca ccctgggccc tgtgagccgc 780tcctacgggg gccagtacag gtgctatggt gcacacaacc tctcctccga gtggtcggcc 840cccagtgacc ccctggacat cctgatcaca ggacagatct atgacaccgt ctccctgtca 900gcacagccgg gccccacagt ggcctcagga gagaacatga ccctgctgtg tcagtcacgg 960gggtattttg acactttcct tctgaccaaa gaaggggcag cccatccccc actgcgtctg1020agatcaatgt acggagctca taagtaccag gctgaattcc ccatgagtcc tgtgacctca1080gcccacgcgg ggacctacag gtgctacggc tcacgcagct ccaaccccca cctgctgtct1140
ttccccagtg agcccctgga actcatggtc tcaggacact ctggaggctc cagcctccca1200cccacagggc cgccctccac acctggtctg ggaagatacc tggaggtttt gattggggtc1260tcggtggcct tcgtcctgct gctcttcctc ctcctcttcc tcctcctccg acgtcagcgt1320cacagcaaac acaggacatc tgaccagaga aagactgatt tccagcgtcc tgcaggggct1380gcggagacag agcccaagga caggggcctg ctgaggaggt ccagcccagc tgctgacgtc1440caggaagaaa acctctagcc cacacgatga agacccccag gcagtgacgt atgccccggt1500gaaacactcc agtcctagga gagaaatggc ctctcctccc tcctcactgt ctggggaatt1560cctggacaca aaggacagac aggtggaaga ggacaggcag atggacactg aggctgctgc1620atctgaagcc tcccaggatg tgacctacgc ccagctgcac agcttgaccc ttagacggaa1680ggcaactgag cctcctccat cccaggaagg ggaacctcca gctgagccca gcatctacgc1740cactctggcc atccactagc ccggggggta cgcagacccc acactcagca gaaggagact1800caggactgct gaaggcacgg gagctgcccc cagtggacac cagtgaaccc cagtcagcct1860ggacccctaa cacagaccat gaggagacgc tgggaacttg tgggactcac ctgactcaaa1920gatg 1924<210>5<211>1536<212>DNA<213>人<400>5gtgacgcgag gctctgcgga gaccaggagt cagactgtag gacgacctcg ggtcccacgt 60gtccccggta ctcgccggcc ggagcccccg gcttcccggg gccgggggac cttagcggca 120cccacacaca gcctactttc caagcggagc catgtctggt aacggcaatg cggctgcaac 180ggcggaagaa aacagcccaa agatgagagt gattcgcgtg ggtacccgca agagccagct 240tgctcgcata cagacggaca gtgtggtggc aacattgaaa gcctcgtacc ctggcctgca 300gtttgaaatc attgctatgt ccaccacagg ggacaagatt cttgatactg cactctctaa 360gattggagag aaaagcctgt ttaccaagga gcttgaacat gccctggaga agaatgaagt 420
ggacctggtt gttcactcct tgaaggacct gcccactgtg cttcctcctg gcttcaccat 480cggagccatc tgcaagcggg aaaaccctca tgatgctgtt gtctttcacc caaaatttgt 540tgggaagacc ctagaaaccc tgccagagaa gagtgtggtg ggaaccagct ccctgcgaag 600agcagcccag ctgcagagaa agttcccgca tctggagttc aggagtattc ggggaaacct 660caacacccgg cttcggaagc tggacgagca gcaggagttc agtgccatca tcctggcaac 720agctggcctg cagcgcatgg gctggcacaa ccgggtgggg cagatcctgc accctgagga 780atgcatgtat gctgtgggcc agggggcctt gggcgtggaa gtgcgagcca aggaccagga 840catcttggat ctggtgggtg tgctgcacga tcccgagact ctgcttcgct gcatcgctga 900aagggccttc ctgaggcacc tggaaggagg ctgcagtgtg ccagtagccg tgcatacagc 960tatgaaggat gggcaactgt acctgactgg aggagtctgg agtctagacg gctcagatag1020catacaagag accatgcagg ctaccatcca tgtccctgcc cagcatgaag atggccctga1080ggatgaccca cagttggtag gcatcactgc tcgtaacatt ccacgagggc cccagttggc1140tgcccagaac ttgggcatca gcctggccaa cttgttgctg agcaaaggag ccaaaaacat1200cctggatgtt gcacggcagc ttaacgatgc ccattaactg gtttgtgggg cacagatgcc1260tgggttgctg ctgtccagtg cctacatccc gggcctcagt gccccattct cactgctatc1320tggggagtga ttaccccggg agactgaact gcagggttca agccttccag ggatttgcct1380caccttgggg ccttgatgac tgccttgcct cctcagtatg tgggggcttc atctctttag1440agaagtccaa gcaacagcct ttgaatgtaa ccaatcctac taataaacca gttctgaagg1500taaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaa 15361權(quán)利要求
1.一種評(píng)估結(jié)直腸癌狀況的方法,包括鑒定選自Seq ID No.1,Seq ID No.2,Seq ID No.3和Seq ID No.4的基因的組合中每個(gè)基因(相對(duì)于正常群體中相同基因的表達(dá))的差異調(diào)節(jié)。
2.權(quán)利要求1所述的方法,其中基因的組合為Seq ID No.1,Seq ID No.2,SeqID No.3和Seq ID No.4。
3.權(quán)利要求1所述的方法,其中基因的組合為Seq ID No 2,Seq ID No.3和Seq ID No.4。
4.權(quán)利要求1所述的方法,其中受調(diào)節(jié)基因的表達(dá)至少存在2倍差異。
5.權(quán)利要求1所述的方法,其中表示差異調(diào)節(jié)的p值小于0.05。
6.權(quán)利要求1所述的方法,進(jìn)一步包括不基于遺傳的結(jié)直腸癌診斷。
7.一種診斷文庫(kù),包括從選自Seq ID No.1,Seq ID No.2,Seq ID No.3和SeqID No.4的基因的組合的分離核酸序列,它們的互補(bǔ)序列,或其部分。
8.權(quán)利要求7所述的文庫(kù),其中基因的組合為Seq ID No.1,Seq ID No.2,SeqID No.3和Seq ID No.4。
9.權(quán)利要求7所述的文庫(kù),其中基因的組合為Seq ID No.2,Seq ID No.3和Seq ID No.4。
10.權(quán)利要求7所述的文庫(kù),位于適用于鑒定其中所含的基因的差異表達(dá)的基質(zhì)中。
11.權(quán)利要求10所述的文庫(kù),其中所述的基質(zhì)用于微陣列中。
12.權(quán)利要求11所述的文庫(kù),其中所述的微陣列是cDNA微陣列。
13.權(quán)利要求11所述的文庫(kù),其中所述的微陣列是寡核苷酸微陣列。
14.一種用于確定結(jié)直腸癌患者的預(yù)后的試劑盒,包括用于檢測(cè)選自Seq IDNo.1,Seq ID No.2,Seq ID No.3和Seq ID No.4的基因的組合的分離核酸序列,它們的互補(bǔ)序列,或其部分的物質(zhì)。
15.權(quán)利要求14的試劑盒,其中所述的基因?yàn)镾eq ID No.2,Seq ID No.3和Seq ID No.4。
16.權(quán)利要求14的試劑盒,其中所述的基因?yàn)镾eq ID No.1,Seq ID No.2,SeqID No.3和Seq ID No.4。
17.權(quán)利要求14的試劑盒,包括進(jìn)行微陣列分析的試劑。
18.權(quán)利要求14的試劑盒,進(jìn)一步包括所述的核苷酸序列,它們的互補(bǔ)序列,或其部分通過(guò)其進(jìn)行分析的介質(zhì)。
19.一種評(píng)估對(duì)結(jié)直腸癌治療的反應(yīng)的方法,包括在選自Seq ID No.1,SeqID No.2,Seq ID No.3和Seq ID No.4的基因的組合中鑒定每個(gè)基因(相對(duì)于正常群體中相同基因的表達(dá))的差異調(diào)節(jié)。
20.用于評(píng)估結(jié)直腸癌狀況的制品,包括用于鑒定選自Seq ID No.1,Seq IDNo.2,Seq ID No.3和Seq ID No.4的基因的組合的核酸序列,它們的互補(bǔ)序列,或其部分的物質(zhì)。
21.用于評(píng)估結(jié)直腸癌狀況的制品,包括選自Seq ID No.1,Seq ID No.2,SeqID No.3和Seq ID No.4的基因的組合的分離核酸序列,它們的互補(bǔ)序列,或其部分的表示物。
全文摘要
一種通過(guò)分析一組基因的表達(dá)從而提供結(jié)直腸癌預(yù)后的方法。多種介質(zhì)如微陣列中的基因表達(dá)模式也包括在內(nèi),如含有它們的試劑盒。
文檔編號(hào)C07H21/04GK1542143SQ20041003875
公開(kāi)日2004年11月3日 申請(qǐng)日期2004年3月31日 優(yōu)先權(quán)日2003年3月31日
發(fā)明者Y·王, Y 王 申請(qǐng)人:維里德克斯有限責(zé)任公司