r>[0034] 對于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)和方法可能不作詳細討論,但在適當情況 下,所述技術(shù)行業(yè)方法和當被視為授權(quán)說明書的一部分。
[0035] 在本發(fā)明提及的所有文獻都在本申請中引用作為參考,就如同每一篇文獻被單獨 引用作為參考那樣。
[0036] 本發(fā)明人收集了全世界9個國家和地區(qū)迄今為止14年來公開發(fā)布的17大研究總 計2738例肺癌的基因表達忍片(GE巧數(shù)據(jù),采用最先進最科學的分析計算方法,從中篩選 出95個肺癌預后特異性基因,其中有85個基因為首次報道與肺癌的生存概率及術(shù)后復發(fā) 概率相關(guān)。
[0037] 數(shù)據(jù)來源和誤差消除
[0038] 本發(fā)明選用了包括美國、加拿大、德國、西班牙、荷蘭、瑞典、日本和臺灣等在內(nèi)的 多個國家或地區(qū)的肺癌數(shù)據(jù),并消除了運些國家或地區(qū)多套數(shù)據(jù)之間的批處理誤差。如圖 1所示,管家基因β-肌動蛋白(ACTB)的表達表明,在模型訓練組不同研究機構(gòu)的數(shù)據(jù)之 間存在較大的批處理誤差(圖1曰,C)。其中研究l(GSE314UBildetal. ,2006))與研究 5(GSE29013狂ieetal. ,2011))之間差異最大,相差32倍W上。在測試組各數(shù)據(jù)之間(圖 le)亦觀察到類似的批處理誤差。應用批處理誤差消除程序COMBAT處理后,批處理誤差完 全被消除了(圖化,d,f)。
[0039] 肺癌死亡時間分布規(guī)律
[0040] 如圖2所示,在研究結(jié)束前已經(jīng)死亡的306例非小細胞性肺癌(NSCLC)患者中,生 存期分布圖顯示出Ξ峰分布。我們可W很好地用Ξ個正態(tài)分布來擬合其數(shù)據(jù),用兩個分割 值將患者劃分到Ξ個不同的群體:預后較好的(〉60個月),預后一般或中間的(16~60個 月)和預后較差的(<16個月)。此種分布亦表明生存期或生存概率(0巧是受多基因控制 的。由于每一個正態(tài)分布都是由2個W上的基因決定,因此我們可W預測可能會有至少六 個或更多個基因與肺癌的生存概率相關(guān)。
[0041] 基因標志物篩選
[0042] 如圖3所示,利用基因表達顯著性差別分析法(Siggenes)進行3個兩兩比較和2 個ΞΞ比較,假陽性率設定為0. 05或0. 01。將各組結(jié)果進行交叉分析,發(fā)現(xiàn)95個具有高度 重復性的共同基因。其中有85個基因(參見表1)為首次報道與肺癌的生存概率及術(shù)后復 發(fā)概率相關(guān),其中10個基因(參見表2)已經(jīng)有人報道過與非小細胞性肺癌患者的術(shù)后復 發(fā)概率相關(guān)化imetal.,美國專利號:7, 585, 634)。對所述95個基因進一步進行單因素 分析、多因素分析和生存曲線分析,最終更精確地篩選出有代表性的7個基因(參見表3)。
[0043] 表1:85個基因的名稱,識別號,染色體位置及編碼蛋白描述
[0044]
[0045]
[0047]
[00閲風險評分
[0054] 將多因素分析(多元COX地模型)中取得的每個基因系數(shù)乘W各自基因表達值之 和即可生成7基因得分(7基因得分=系數(shù)lx基因1+系數(shù)2x基因化...+系數(shù)7x基因7)。 在模型訓練組中,只有477例患者具有所有臨床參數(shù)。同時為了避免術(shù)后化療(ACT)的影 響,去掉了已接受ACT或未知是否ACT的患者(N= 159)。故在模型訓練組中最終只有318 例擁有所有臨床參數(shù)且未接受ACT的患者。將此7基因得分應用于此患者組的生存曲線分 析,可W有效地將其分為不同的Ξ組(低風險、中風險和高風險)(圖4曰,η= 318)。
[0055] 對臨床參數(shù)(包括年齡,性別,臨床分期和細胞類型)進行多因素分析后結(jié)果表 明,患者的年齡,臨床分期和細胞類型有可能是獨立的生存概率預測因子(表4)。然而,進 行生存曲線分析時,利用患者的年齡,臨床分期和細胞類型只能夠?qū)⒒颊叻殖蓛蓚€不同的 組(圖4b-d)。當我們引入7基因得分進行多因素分析時,我們發(fā)現(xiàn),雖然年齡和臨床分期 仍為獨立的預測因子,但細胞類型不再是獨立的預測因子。另外,風險比值(HR)和P值均 表明屯基因得分是最強有力的獨立預測因子(參見表4)。其中,皿為風險比值化azard ratio),Coef為系數(shù)(^coefficient)。
[0056] 表4.對318例肺癌患者生存概率與臨床資料包括或不包括7基因得分進行多因 素分析
[0057]
[005引肺癌預后指數(shù)化CPI)
[0059] 7個基因評分與年齡和臨床分期共同構(gòu)成肺癌預后指數(shù)化CPI)。
[0060] 在確定了 7個基因得分,年齡和臨床分期均為生存概率的獨立預測因子,我們就 可W生成W下生存概率函數(shù):
[0061] S(t)=e、t (1)
[0062] LCPI=λ=blx基因l+b2x基因 2+. . . +b7x基因 7+b8x年齡 +b9x分期似
[0063] 其中S(t)是時間t之前的生存概率;λ是風險比值皿;LCPI是肺癌預后指標; 系數(shù)bl到b9用COX地在模型訓練組中計算得來,分別為:0. 45 (VANGL1),0. 36 (GNAI3),0. 30 (CTSB),-0. 44 (ANK畑 11),-0. 49αΤΡ?。?,0. 03 化IAA0101),0. 05 (PL0D2),0. 03 (年齡)和 0. 69 (分期),在所有LCPI計算中保持恒定;基因1至基因7是基因表達的對數(shù)值;年齡為 實際年齡(歲);分期值為0至3(ΙΑ期=0,ΙΒ-ΙΙΒ= 1,IIIA-IV= 3)。使用上述函數(shù) (2),我們可W給任何患者計算出LCPI得分并預測他或她的生存概率(方程(1))。LCPI越 低,生存概率越高;LCPI越高,生存概率越低,死亡和癌癥復發(fā)的可能性越高。對來自相同 檢測平臺的數(shù)據(jù),采取相同的分割值;對不同平臺的數(shù)據(jù),采用該組本身的最佳分割值。
[0064] 使用LCPI可W將模型訓練組劃分為Ξ個明顯不同的亞組(N= 318,圖4e)。低風 險組在手術(shù)后10年的生存概率為100%,甚至在手術(shù)后15年仍然保持不變。中等風險組, 手術(shù)后15年生存概率為53 + 10% (p<0. 001)。高風險組的15年生存概率小于20%。從模 型訓練組獲得最佳分割值,可W直接應用于相同平臺的測試組。對于不同平臺的數(shù)據(jù),調(diào)整 為相應的最佳分割值。LCPI在包括美國,德國,西班牙,荷蘭,瑞典,日本和臺灣在內(nèi)的模型 訓練組中,能夠有效地將患者劃分為低風險(約27% ),中度風險(約38% )和高風險(約 35% )Ξ組。
[006引化療影響
[0066] 術(shù)后化療(ACT)對LCPI定義的高風險組患者的生存概率無提高,但顯著降低低風 險或中度風險組的生存概率。
[0067] 為了辨別ACT是否影響生存概率,我們將已經(jīng)接受了ACT或未知處理的患者也包 括在內(nèi),對477例患者應用LCPI進行了分析。事實證明,包括已經(jīng)接受了ACT或未知處 理的患者在內(nèi),LCPI亦能有效地將肺癌患者劃分為Ξ個顯著不同的風險組(圖4f)。但 在手術(shù)后的第15年,LCPI定義的低風險組和中度風險組其生存概率分別只有80 + 5% 和30 + 10% (於0. 05),相較于手術(shù)后未接受治療的患者,生存概率顯著下降(80 + 5%比 100%,p<0. 001 ;30±10%比53±10%,p<0. 05)。運表明ACT對LCPI定義的低風險組或中 度風險組的患者具有顯著的負面影響。
[0068] 為了進一步探討ACT對生存概率的影響,我們將測試組的患者(N= 477)分為未 接受任何ACT(非ACT組),已接受ACT(ACT組)和不知是否已接受ACT(未知組)Ξ組。非 ACT組生存概率最高,而ACT組或未知組生存概率顯著下降(圖5a;p<0. 001)。運一結(jié)果在 529例的測試組中亦得到了驗證。此測試組還包括了術(shù)后進行放射治療(ART)或放療加化 療組(ACT+ART),但化療對生存概率亦體現(xiàn)出類似的負面影響,尤其是放療對生存概率的負 面影響最大(圖化,P<〇. 001)。
[0069] 鑒于W上結(jié)果,我們想了解ACT對LCPI定義的不同風險組的患者是否產(chǎn)生相同 的影響,所W我們在模型訓練組中分析了LCPI定義的各風險組的生存概率與ACT的關(guān)系。 ACT并不影響高風險組的生存概率,但卻顯著降低低風險組和中度風險組的生存概率(圖 5c_e)。
[0070] 復發(fā)概率預測
[0071] LCPI亦適用于術(shù)后復發(fā)概率的預測。
[0072] 因為生存概率有時會受到其他因素的影響,而計算復發(fā)概率比計算生存概率更可 靠,且肺癌手術(shù)切除后復發(fā)是患者過早死亡的主要原因,所W我們進一步分析了復發(fā)概率。 在477例模型訓練組中只有377例患者具有術(shù)后復發(fā)的數(shù)據(jù),使用LCPI我們同樣可朗尋他 們區(qū)分為復發(fā)風險顯著不同的Ξ個組(圖5f;p<0. 001)。計算復發(fā)概率的結(jié)果亦證實了我 們在生存概率數(shù)據(jù)分析中獲得的LCPI模型。
[0073] 生存概率驗證
[0074] LCPI預測生存概率,在來自美國和加拿大的多個研究所的最大的臨床數(shù)據(jù)中得到 了驗證。
[00巧]整合"雅各布-00182 " (Director'S化allengeConso;rtiumforthe Mole州larClassificationofLung,A.etal.,2008),G沈14814(Zhuetal.,2010)和 GSE4573(Raponietal. ,2006)的數(shù)據(jù)后,生成了非小細胞性肺癌的第二大多機構(gòu)數(shù)據(jù), 包括了來自美國和加拿大屯家研究機構(gòu)的所有臨床分期,Ξ種細胞類型和部分術(shù)后ACT或 ART的659例患者。由于本組數(shù)據(jù)是采用Affymetrix的GPL96平臺,它所檢測的基因數(shù)及 靈敏度與模型訓練組的GPL570平臺不同,所W我們使用LCPI時,仍然采用來自本組的最佳 分割值進行不同風險組的劃分。圖6d顯示,在此來自不同平臺的檢測數(shù)據(jù)中使用最佳分割 值,LCPI可W將659例肺癌患者劃分為Ξ個顯著不同的亞組。5年和10年的生存概率,高 風險組分別為28%和9. 5%。該組所有患者生存期均未超過130個月。中等風險組5年, 10年,15年的生存概率分別為64% ,39%和23%。上述結(jié)果與模型訓練組包含ACT的結(jié)果 非常類似。但低風險亞組5年,10年和15年的生存概率分別為80% ,76%和63%,運比模 型訓練組包含ACT患者的結(jié)果還低。基于我們之前的分析(圖4,圖5),可知運些負面影響 可能來自放療和/或化療(圖化),但尚需進一步研究證實。上述結(jié)果表明,LCPI模型適用 于預測來自多個研究機構(gòu)包括所有臨床分期,Ξ種細胞類型和不同術(shù)后輔助放療或和化療 的非小細胞性肺癌的臨床數(shù)據(jù)。
[0076] LCPI預測生存概率,在來自美國德州癌癥中屯、的臨床數(shù)據(jù)GSE42127中得到了驗 證。
[0077] 測試組數(shù)據(jù)GSE42127燈angetal.