亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分析個(gè)體兩類(lèi)狀態(tài)的免疫差異、輔助確定個(gè)體狀態(tài)的方法與流程

文檔序號(hào):11831049閱讀:295來(lái)源:國(guó)知局
分析個(gè)體兩類(lèi)狀態(tài)的免疫差異、輔助確定個(gè)體狀態(tài)的方法與流程
本發(fā)明屬于生物檢測(cè)領(lǐng)域,具體的,本發(fā)明涉及一種分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法、一種分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的裝置、一種輔助確定個(gè)體狀態(tài)的方法和一種輔助確定個(gè)體狀態(tài)的裝置。
背景技術(shù)
:免疫組庫(kù)(immunerepertoire,IR)是指在任何指定時(shí)間,某個(gè)個(gè)體的循環(huán)系統(tǒng)中所有功能多樣性B細(xì)胞和T細(xì)胞的總和。T細(xì)胞受體(TCR)的互補(bǔ)決定區(qū)3(CDR3)由V、D、J三個(gè)基因編碼,在淋巴細(xì)胞的成熟過(guò)程中,通過(guò)V、D、J基因的重排形成了各種重組序列片段,這就解釋了人類(lèi)基因組及蛋白組學(xué)揭示的有限基因數(shù)目編碼幾乎無(wú)限蛋白種類(lèi)的原因。B細(xì)胞受體(BCR)由兩條重鏈和兩條輕鏈連接而成,其中重鏈分為可變區(qū)(V區(qū))、恒定區(qū)(C區(qū))、跨膜區(qū)及胞質(zhì)區(qū);而輕鏈則只有V區(qū)和C區(qū)。BCR重鏈的CDR3區(qū)由V、D、J三個(gè)基因編碼,輕鏈的CDR3區(qū)由V、J基因編碼。目前對(duì)免疫高通量數(shù)據(jù)分析內(nèi)容局限,對(duì)鑒定出的CDR3區(qū)域的分析匱乏。技術(shù)實(shí)現(xiàn)要素:本發(fā)明旨在至少解決上述問(wèn)題之一或者提出一種商業(yè)選擇手段。依據(jù)本發(fā)明的一方面,本發(fā)明提供一種分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法,包括:獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù),所述第一測(cè)序數(shù)據(jù)為第一類(lèi)狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第一讀段,所述第二測(cè)序數(shù)據(jù)為第二類(lèi)狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第二讀段,所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分;分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接,獲得第一拼接序列和第二拼接序列;將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),獲得第一CDR3序列和第二CDR3序列,所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;進(jìn)行以下(1)~(4)中的至少之二,(1)比較第一高頻CDR3序列比例和第二高 頻CDR3序列比例的差異,確定差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,所述第一高頻CDR3序列比例為所述第一CDR3序列種類(lèi)總數(shù)中高頻CDR3序列種類(lèi)所占的比例,所述第二高頻CDR3序列比例為所述第二CDR3序列種類(lèi)總數(shù)中高頻CDR3序列種類(lèi)所占的比例,所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05%的CDR3序列,所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05%的CDR3序列,(2)比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的第二CDR3序列的種類(lèi)總數(shù)的比值,(3)比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的第二CDR3序列的種類(lèi)總數(shù)的比值,(4)比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類(lèi)總數(shù)的比值。所稱(chēng)的個(gè)體的兩類(lèi)狀態(tài)可以是一個(gè)或者一群個(gè)體的不同時(shí)間點(diǎn)和/或不同空間位置的兩類(lèi)狀態(tài),也可以是不同個(gè)體或者不同群體在某個(gè)時(shí)間點(diǎn)和/或空間的各自的狀態(tài),這里的狀態(tài)指免疫狀態(tài),包括核酸和/或氨基酸水平上反映出的生物體免疫狀態(tài)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法中的第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)獲取,包括:分別提取第一類(lèi)狀態(tài)個(gè)體和第二類(lèi)狀態(tài)個(gè)體的淋巴細(xì)胞中的核酸,獲得第一核酸和第二核酸;分別捕獲第一核酸和第二核酸中的CDR3序列;分別對(duì)捕獲得的核酸進(jìn)行測(cè)序文庫(kù)構(gòu)建,獲得第一測(cè)序文庫(kù)和第二測(cè)序文庫(kù);對(duì)所述第一測(cè)序文庫(kù)和第二測(cè)序文庫(kù)進(jìn)行測(cè)序,獲得第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)。在本發(fā)明的一個(gè)實(shí)施例中,所述捕獲利用多重PCR實(shí)現(xiàn)。減少非目的區(qū)域例如非免疫相關(guān)區(qū)域數(shù)據(jù)的帶入,利于提高目標(biāo)區(qū)域分析效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用雙末端測(cè)序獲得成對(duì)讀段,該方法中的第一測(cè)序數(shù)據(jù) 包括多對(duì)第一讀段對(duì),每對(duì)第一讀段對(duì)由兩個(gè)第一讀段組成,該方法中的第二測(cè)序數(shù)據(jù)包括多對(duì)第二讀段對(duì),每對(duì)第二讀段對(duì)由兩個(gè)第二讀段組成。在該實(shí)施例中,所述拼接是依據(jù)有重疊的第一讀段或第二讀段,以及第一讀段對(duì)或者第二讀段對(duì)中兩個(gè)讀段之間的距離來(lái)進(jìn)行的。拼接也稱(chēng)為組裝,所得的拼接序列也稱(chēng)為重疊群(contigs)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述多種CDR3參考序列包括V基因參考序列和J基因參考序列。所述將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),包括:將所述第一拼接序列和第二拼接序列分別與所述多種CDR3參考序列進(jìn)行比對(duì),獲得第一比對(duì)結(jié)果和第二比對(duì)結(jié)果,其中,所述第一比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第一拼接序列,所述第二比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第二拼接序列;基于所述第一比對(duì)結(jié)果,確定其中的第一拼接序列上的CDR3序列的起始位置,基于所述第二比對(duì)結(jié)果,確定其中的第二拼接序列上的CDR3序列的起始位置;分別將第一比對(duì)結(jié)果中的第一拼接序列上的CDR3序列起始位置之后的部分和第二比對(duì)結(jié)果中的第二拼接序列上的CDR3序列起始位置之后的部分與所述多種CDR3參考序列進(jìn)行重新比對(duì),獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果。在本發(fā)明的一個(gè)實(shí)施例中,上述重新比對(duì)的比對(duì)條件設(shè)置為:與所述V基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為0,與所述V基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2,和/或與所述J基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為0,與所述J基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2。將拼接序列上的CDR3序列起始位置確定出,且以不同的比對(duì)條件例如相對(duì)更嚴(yán)格的比對(duì)條件將CDR3序列起始位置之后的部分進(jìn)行重新比對(duì),利于獲得這些拼接序列的準(zhǔn)確信息,利于提高后續(xù)基于這些contigs的免疫差異分析的準(zhǔn)確性。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果后,還包括:分別對(duì)所述第一重新比對(duì)結(jié)果和所述第二重新比對(duì)結(jié)果進(jìn)行過(guò)濾,以獲得所述第一CDR3序列和所述第二CDR3序列,其中包括,分別去除第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果中的符合以下任一描述的拼接序列:其所在的CDR3序列種類(lèi)的拼接序列支持?jǐn)?shù)為1——即該種CDR3序列只包含這一條拼接序列,未能比對(duì)上V基因參考序列或者J基因參考序列,比對(duì)上所述CDR3參考序列的假基因參考序列區(qū),比對(duì)上V基因參考序列和J基因參考序列、且比對(duì)上二者的方向相反,無(wú)法確定其上的CDR3的起始位置,含終止密碼子或者不含開(kāi)放閱讀框。去除符合以上任意之一的contigs,去除這些contigs信息不明確、難以明確、無(wú)義、錯(cuò)誤或者低可靠性的contigs的干擾,利于提高后續(xù)免疫差異分析的準(zhǔn)確性和 效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法(1)中的第一高頻CDR3序列為在所述第一CDR3序列中頻率不大于0.5%的CDR3序列,第二高頻CDR3序列為在所述第二CDR3序列中頻率不大于0.5%的CDR3序列。增加對(duì)高頻CDR3序列的頻率的上限的限定,去除離群的高頻CDR序列,使統(tǒng)計(jì)分析結(jié)果更具有意義。根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用ROC分析確定(1)-(4)中的至少之一中的區(qū)分效果。ROC分析指ROC曲線(receiveroperatingcharacteristiccurve,接收者操作特征曲線),是一種二元分類(lèi)模型,即輸出結(jié)果只有兩種類(lèi)別的模型??紤]一個(gè)二分問(wèn)題,即將實(shí)例分成正類(lèi)(positive)或負(fù)類(lèi)(negative),對(duì)一個(gè)二分問(wèn)題來(lái)說(shuō),會(huì)出現(xiàn)四種情況:如果一個(gè)實(shí)例是正類(lèi)并且也被預(yù)測(cè)成正類(lèi),即為真正類(lèi)(Truepositive,TP),如果實(shí)例是負(fù)類(lèi)被預(yù)測(cè)成正類(lèi),稱(chēng)之為假正類(lèi)(Falsepositive,F(xiàn)P),相應(yīng)地,如果實(shí)例是負(fù)類(lèi)被預(yù)測(cè)成負(fù)類(lèi),稱(chēng)之為真負(fù)類(lèi)(Truenegative,TN),正類(lèi)被預(yù)測(cè)成負(fù)類(lèi)則為假負(fù)類(lèi)(falsenegative,F(xiàn)N)。TP:正確肯定的數(shù)目;FN:漏報(bào),沒(méi)有正確找到的匹配的數(shù)目;FP:誤報(bào),給出的匹配是不正確的;TN:正確拒絕的非匹配對(duì)數(shù)。在一個(gè)二分類(lèi)模型中,對(duì)于所得到的連續(xù)結(jié)果,這邊的連續(xù)結(jié)果指(1)-(4)中的任意至少之一的因素對(duì)多個(gè)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)個(gè)體的分類(lèi)結(jié)果,如(1)中的差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例、(2)中差異具有統(tǒng)計(jì)意義的V亞型的使用頻率、(3)中的差異具有統(tǒng)計(jì)意義的V合并亞型的使用頻率或者(4)中的差異具有統(tǒng)計(jì)意義的VJ合并亞型的使用頻率對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)個(gè)體的分類(lèi)結(jié)果,假設(shè)已確定(1)中的差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閥值,比如說(shuō)0.3,大于這個(gè)值的個(gè)體劃歸為第一類(lèi)狀態(tài)(正類(lèi)),小于這個(gè)值則劃到第二類(lèi)狀態(tài)(負(fù)類(lèi))。如果減小閥值,減到0.2,固然能識(shí)別出更多的第一類(lèi)狀態(tài)個(gè)體,也就是提高了識(shí)別出的正類(lèi)占所有正類(lèi)的比例,即TPR(truepositiverate,真正類(lèi)率),但同時(shí)也將更多的負(fù)類(lèi)當(dāng)作了正類(lèi),即提高了FPR(falsepositiverate,負(fù)正類(lèi)率)。為了形象化這一變化,引入ROC,ROC曲線可以用于評(píng)價(jià)一個(gè)分類(lèi)器,即評(píng)價(jià)這一差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閥值。AUC(AreaUnderrocCurve)為ROC曲線下方的面積,AUC值介于0.5到1.0之間,AUC越大,分類(lèi)器分類(lèi)效果越好。根據(jù)本發(fā)明的一個(gè)實(shí)施例,(2)中的確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,包括:利用主成分分析方法(PrincipalComponentAnalysis,PCA)確定能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的V亞型,以及利用ROC分析確定所述能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的V亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。PCA把原先的n個(gè)特征用數(shù)目更少的m個(gè)特征取代,新特征是舊特征的線性組合。CDR3V基因有幾十個(gè),將各 個(gè)V基因稱(chēng)為V亞型或者V區(qū)基因,一般會(huì)得到的具有統(tǒng)計(jì)意義的多個(gè)V亞型,PCA能對(duì)高維數(shù)據(jù)進(jìn)行降維,即得出權(quán)重較大的V亞型,權(quán)重較大的V亞型對(duì)分類(lèi)起了主要作用,經(jīng)過(guò)降維同時(shí)也除去了噪聲。根據(jù)本發(fā)明的一個(gè)實(shí)施例,(3)中的確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,包括:利用主成分分析方法確定能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的V合并亞型,以及利用ROC分析確定所述能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的V合并亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。V合并亞型指合并的V區(qū)基因,例如,根據(jù)IMGT數(shù)據(jù)庫(kù)(http://www.imgt.org/),48個(gè)V區(qū)基因片段可合并成23個(gè)進(jìn)行分析,當(dāng)獲得的差異具有統(tǒng)計(jì)意義的V合并亞型有多個(gè),利用PCA能夠進(jìn)行降維,確定主成分,即對(duì)分類(lèi)起主要作用的V合并亞型。進(jìn)行ROC分析,依據(jù)ROC曲線及其AUC值,能夠評(píng)估分類(lèi)器即主成分的分類(lèi)效果。根據(jù)本發(fā)明的一個(gè)實(shí)施例,(4)中的確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,包括:利用主成分分析方法確定能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的VJ組合亞型,以及利用ROC分析確定所述能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的VJ組合亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。VJ組合亞型指V區(qū)基因和/或V合并亞型與J區(qū)基因的組合,當(dāng)獲得的差異具有統(tǒng)計(jì)意義的VJ組合亞型有多個(gè),利用PCA能夠進(jìn)行降維,確定主成分,即確定對(duì)分類(lèi)起主要作用的VJ組合亞型。而進(jìn)行ROC分析,依據(jù)ROC曲線及其AUC值,能夠評(píng)估分類(lèi)器即主成分的分類(lèi)效果。依據(jù)本發(fā)明的另一方面,本發(fā)明提供一種分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的裝置,該裝置可以用以實(shí)施上述本發(fā)明任一實(shí)施方式的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法,裝置包括:測(cè)序數(shù)據(jù)獲取單元,用于獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù),所述第一測(cè)序數(shù)據(jù)為第一類(lèi)狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第一讀段,所述第二測(cè)序數(shù)據(jù)為第二類(lèi)狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第二讀段,所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分;拼接單元,與所述測(cè)序數(shù)據(jù)獲取單元連接,用于分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接,獲得第一拼接序列和第二拼接序列;比對(duì)單元,與所述拼接單元相連,用于將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),獲得第一CDR3序列和第二CDR3序列,所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;免疫差異分析單元,與所述比對(duì)單元相連,用于進(jìn)行以下(1)~(4)中的至少之二:(1)比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異,確定差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū) 分效果,所述第一高頻CDR3序列比例為所述第一CDR3序列種類(lèi)總數(shù)中高頻CDR3序列種類(lèi)數(shù)目所占的比例,所述第二高頻CDR3序列比例為所述第二CDR3序列種類(lèi)總數(shù)中高頻CDR3序列種類(lèi)數(shù)目所占的比例,所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05%的CDR3序列,所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05%的CDR3序列,(2)比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的第二CDR3序列的種類(lèi)總數(shù)的比值,(3)比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的第二CDR3序列的種類(lèi)總數(shù)的比值,(4)比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類(lèi)總數(shù)的比值。本領(lǐng)域普通技術(shù)人員可以理解,通過(guò)對(duì)該裝置增加相應(yīng)功能單元或者子單元能夠?qū)崿F(xiàn)上述本發(fā)明任一具體實(shí)施方式的方法。前述對(duì)本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法的技術(shù)特征和效果的描述,同樣適用本發(fā)明的這一方面的裝置,在此不再贅述。依據(jù)本發(fā)明的再一方面,本發(fā)明提供一種輔助確定個(gè)體狀態(tài)的方法,該方法包括:提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸;對(duì)所述核酸中的CDR3序列進(jìn)行捕獲;對(duì)捕獲得的核酸進(jìn)行序列測(cè)定,獲得測(cè)序結(jié)果,所述測(cè)序結(jié)果包括多個(gè)讀段;對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接,獲得拼接片段;將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì),獲得CDR3序列,所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;基于獲得的CDR3序列,確定待測(cè)個(gè)體的(a)-(d)中的至少之一:(a)高頻CDR3序列的比例,所述高頻CDR3序列的比例為高頻CDR3序列種類(lèi)數(shù)目在所述 CDR3序列種類(lèi)總數(shù)中所占的比例,所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05%的CDR3序列,(b)CDR3序列中的各種V亞型的使用頻率,所述V亞型的使用頻率為支持該V亞型的CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的CDR3序列的種類(lèi)總數(shù)的比值,(c)CDR3序列中的各種V合并亞型的使用頻率,所述V合并亞型的使用頻率為支持該V合并亞型的CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的CDR3序列的種類(lèi)總數(shù)的比值,(d)CDR3序列中的各種VJ組合亞型的使用頻率的差異,所述VJ組合亞型的使用頻率為支持該VJ組合亞型的CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的CDR3序列的種類(lèi)總數(shù)的比值;比較所述(a)-(d)中的至少之一與其相應(yīng)閾值的差異,以輔助確定個(gè)體狀態(tài),所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法。前述對(duì)本發(fā)明一方面的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法的技術(shù)特征和優(yōu)點(diǎn)的描述,同樣適用本發(fā)明這一方面的輔助確定個(gè)體狀態(tài)的方法,在此不再贅述。依據(jù)本發(fā)明的又一方面,本發(fā)明提供一種輔助確定個(gè)體狀態(tài)的裝置,該裝置可以實(shí)施上述本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法。該裝置包括:核酸提取部,用于提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸;捕獲部,與核酸提取部相連,用于對(duì)所述核酸中的CDR3序列進(jìn)行捕獲;測(cè)序部,與捕獲部相連,用于對(duì)捕獲得的核酸進(jìn)行序列測(cè)定,獲得測(cè)序結(jié)果,所述測(cè)序結(jié)果包括多個(gè)讀段;拼接部,與測(cè)序部相連,用于對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接,獲得拼接片段;比對(duì)部,與拼接部相連,用于將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì),獲得CDR3序列,所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;免疫因素確定部,與比對(duì)部相連,用于基于獲得的CDR3序列,確定待測(cè)個(gè)體的(a)-(d)中的至少之一:(a)高頻CDR3序列的比例,所述高頻CDR3序列的比例為高頻CDR3序列種類(lèi)數(shù)目在所述CDR3序列種類(lèi)總數(shù)中所占的比例,所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05%的CDR3序列,(b)CDR3序列中的各種V亞型的使用頻率,所述V亞型的使用頻率為支持該V亞型的CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的CDR3序列的種類(lèi)總數(shù)的比值,(c)CDR3序列中的各種V合并亞型的使用頻率,所述V合并亞型的使用頻率為支持該V合并亞型的CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的CDR3序列的種類(lèi)總數(shù)的比值,(d)CDR3序列中的各種VJ組合亞型的使用頻率的差異,所述VJ組合亞型的使用頻率為支持該VJ組合亞型的CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的CDR3序列的種類(lèi)總數(shù)的比值;差異比較部,與免疫因素確定部相連,用于比較所述(a)-(d)中的至少之一與其相應(yīng)閾值的差異,以輔助確定個(gè)體狀態(tài),所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施 方式中的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法。前述對(duì)本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法的技術(shù)特征和優(yōu)點(diǎn)的描述,同樣適用本發(fā)明這一方面的裝置,在此不再贅述。本發(fā)明提供基于T細(xì)胞受體和/或B細(xì)胞受體的高變區(qū)域CDR3測(cè)序數(shù)據(jù),進(jìn)行免疫相關(guān)分析、輔助確定個(gè)體狀態(tài)的方法和/或裝置,有效解決目前對(duì)免疫高通量數(shù)據(jù)分析及對(duì)鑒定出的CDR3區(qū)域進(jìn)行后續(xù)分析的局限和匱乏。本發(fā)明提供了基于鑒定出的CDR序列的分析方案及分析手段,能夠便于挖掘潛在可利用的生物信息,為免疫組庫(kù)的臨床應(yīng)用與科學(xué)研究提供助力。附圖說(shuō)明本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施方式的描述中將變得明顯和容易理解,其中:圖1是本發(fā)明一個(gè)實(shí)施例中的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法的步驟示意圖。圖2是本發(fā)明一個(gè)實(shí)施例中的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法的步驟示意圖。圖3是本發(fā)明一個(gè)實(shí)施例中的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的裝置示意圖。圖4是本發(fā)明一個(gè)實(shí)施例中的輔助確定個(gè)體免疫狀態(tài)的方法的步驟示意圖。圖5是本發(fā)明一個(gè)實(shí)施例中的輔助確定個(gè)體免疫狀態(tài)的裝置示意圖。圖6是本發(fā)明一個(gè)實(shí)施例中的利用HEC-rate對(duì)正常人及肝癌患者的區(qū)分效果示意圖,圖6A為T(mén)檢驗(yàn)正常人與肝癌組血液樣品的HEC-rate的差異示意圖,圖6B為與圖6A對(duì)應(yīng)的ROC曲線評(píng)估結(jié)果,圖6C為T(mén)檢驗(yàn)正常人與肝癌組組織樣品的HEC-rate的差異示意圖,圖6D為與圖6C對(duì)應(yīng)的ROC曲線評(píng)估結(jié)果;其中,*表示p<0.05,***表示p<0.001。圖7是本發(fā)明一個(gè)實(shí)施例中的利用肝癌患者與健康人差異V亞型對(duì)正常人及肝癌患者進(jìn)行區(qū)分的ROC曲線評(píng)估示意圖。圖8是本發(fā)明一個(gè)實(shí)施例中的腸癌人群及健康人群的TRBV19TRBJ1-1的使用頻率差異示意圖,其中,**表示p<0.01。圖9是本發(fā)明一個(gè)實(shí)施例中的腸癌人群及健康人群的TRBV25-1TRBJ1-1的使用頻率差異示意圖,其中,***表示p<0.001。圖10是本發(fā)明一個(gè)實(shí)施例中的腸癌人群及健康人群的TRBV25-1TRBJ1-4使用頻率差異示意圖,其中,***表示p<0.001。圖11是本發(fā)明一個(gè)實(shí)施例中的結(jié)直腸癌組和健康組的差異顯著的VJ組合亞型的使用頻率的主成分分析結(jié)果示意圖。具體實(shí)施方式下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中,自始至終相同或類(lèi)似的標(biāo)號(hào)表示相同或類(lèi)似的元件或具有相同或類(lèi)似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。需要說(shuō)明的,本文中所使用的術(shù)語(yǔ)“第一”、“第二”、“第一類(lèi)”、“第二類(lèi)”或者“第一部分”等僅為方便描述,不能理解為指示或暗示相對(duì)重要性,也不能理解為之間有先后順序關(guān)系。在本發(fā)明的描述中,除非另有說(shuō)明,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。在本文中,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)“相連”、“連接”等術(shù)語(yǔ)應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過(guò)中間媒介間接相連,可以是兩個(gè)元件內(nèi)部的連通。如圖1所示,依據(jù)本發(fā)明的一個(gè)實(shí)施例,提供一種分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法,該方法包括:S10獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù),所述第一測(cè)序數(shù)據(jù)為第一類(lèi)狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第一讀段,所述第二測(cè)序數(shù)據(jù)為第二類(lèi)狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第二讀段,所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分;S20分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接,獲得第一拼接序列和第二拼接序列;S30將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),獲得第一CDR3序列和第二CDR3序列,所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;S40進(jìn)行以下(1)~(4)中的至少之二:(1)比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異,確定差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,所述第一高頻CDR3序列比例為所述第一CDR3序列種類(lèi)總數(shù)中高頻CDR3序列種類(lèi)數(shù)目所占的比例,所述第二高頻CDR3序列比例為所述第二CDR3序列種類(lèi)總數(shù)中高頻CDR3序列種類(lèi)數(shù)目所占的比例,所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05%的CDR3序列,所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05%的CDR3序列,(2)比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的第二CDR3序列的種類(lèi)總數(shù)的比值,(3)比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì) 意義的V合并亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的第二CDR3序列的種類(lèi)總數(shù)的比值,(4)比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類(lèi)總數(shù)的比值。在本發(fā)明的一些實(shí)施例中,S40為進(jìn)行(1)-(4)中的至少之三或者為進(jìn)行全部(1)-(4)。所稱(chēng)的個(gè)體的兩類(lèi)狀態(tài)可以是一個(gè)或者一群個(gè)體的不同時(shí)間點(diǎn)和/或不同空間位置的兩類(lèi)狀態(tài),也可以是不同個(gè)體或者不同群體在某個(gè)時(shí)間點(diǎn)和/或空間的各自的狀態(tài),這里的狀態(tài)指免疫狀態(tài),包括核酸和/或氨基酸水平上反映出的生物體免疫狀態(tài)。免疫差異指核酸和/或氨基酸水平上反映出的免疫狀態(tài)差異。所稱(chēng)的頻率指出現(xiàn)的次數(shù)的比例,不同種類(lèi)的CDR3序列不同,一種CDR3序列至少包含一條拼接序列,即一種CDR3序列至少有1條拼接序列的支持,亦即至少有一條拼接序列比對(duì)上該種CDR3序列的參考序列,例如,有三種CDR3序列分別表示為A序列、B序列和C序列,如果A序列的拼接序列支持?jǐn)?shù)有70條,B序列的拼接序列支持?jǐn)?shù)有20條,C序列的拼接序列支持?jǐn)?shù)有10條,則其中A序列的頻率是70/(70+20+10),若定義超過(guò)50%的為高頻CDR3序列,則高頻CDR3序列的比例為1/3。所稱(chēng)的區(qū)分效果,包括區(qū)分開(kāi)兩類(lèi)狀態(tài)的準(zhǔn)確率、精確度、特異性以及任意其它的可用以評(píng)估分類(lèi)器分類(lèi)效果的方法中的相關(guān)值。所稱(chēng)第一和第二測(cè)序數(shù)據(jù)是通過(guò)測(cè)序獲得的,根據(jù)本發(fā)明的一個(gè)實(shí)施例,如圖2所示,該方法中的S10第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)獲取,包括:S11分別提取第一類(lèi)狀態(tài)個(gè)體和第二類(lèi)狀態(tài)個(gè)體的淋巴細(xì)胞中的核酸,獲得第一核酸和第二核酸;S13分別捕獲第一核酸和第二核酸中的CDR3序列;S15分別對(duì)捕獲得的核酸進(jìn)行測(cè)序文庫(kù)構(gòu)建,獲得第一測(cè)序文庫(kù)和第二測(cè)序文庫(kù);S17對(duì)所述第一測(cè)序文庫(kù)和第二測(cè)序文庫(kù)進(jìn)行測(cè)序,獲得第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)。文庫(kù)的構(gòu)建方法根據(jù)所選擇的測(cè)序方法的要求進(jìn)行,測(cè)序方法依據(jù)測(cè)序平臺(tái)的不同可選擇但不限于Illumina公司的Hisq2000/2500測(cè)序平臺(tái)、LifeTechnologies公司的IonTorrent平臺(tái)和單分子測(cè)序平臺(tái),測(cè)序方式可以選擇單端測(cè)序,也可以選擇雙末端測(cè)序,獲得的下機(jī)數(shù)據(jù)是測(cè)讀出來(lái)的片段,稱(chēng)為讀段(reads)。在本發(fā)明的一 個(gè)實(shí)施例中,所述捕獲利用多重PCR實(shí)現(xiàn),例如利用IMGT數(shù)據(jù)庫(kù)中的已知CDR3序列自己設(shè)計(jì)或者委托設(shè)計(jì)合成多重引物或者使用市售試劑盒,利用這些引物使核酸中的CDR3序列富集,減少非目的區(qū)域例如非免疫相關(guān)區(qū)域數(shù)據(jù)的帶入或比例,利于提高目標(biāo)區(qū)域分析效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用雙末端測(cè)序獲得成對(duì)讀段,該方法中的第一測(cè)序數(shù)據(jù)包括多對(duì)第一讀段對(duì),每對(duì)第一讀段對(duì)由兩個(gè)第一讀段組成,該方法中的第二測(cè)序數(shù)據(jù)包括多對(duì)第二讀段對(duì),每對(duì)第二讀段對(duì)由兩個(gè)第二讀段組成。在該實(shí)施例中,所述拼接是依據(jù)有重疊的第一讀段或第二讀段,以及第一讀段對(duì)或者第二讀段對(duì)中兩個(gè)讀段之間的距離來(lái)進(jìn)行的。拼接也稱(chēng)為組裝,組裝可使用soapdenovo等軟件進(jìn)行,所得的拼接序列也稱(chēng)為重疊群(contigs)。所稱(chēng)比對(duì)可以利用已知比對(duì)軟件,例如利用SOAP、BWA和TeraMap等使用或調(diào)整其默認(rèn)參數(shù)進(jìn)行。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述多種CDR3參考序列包括V基因參考序列和J基因參考序列,優(yōu)選的,V基因參考序列包括全部各個(gè)V區(qū)基因參考序列,J基因參考序列包括全部各個(gè)J區(qū)基因參考序列。所稱(chēng)的參考序列指預(yù)先確定的序列,可以是預(yù)先獲得的待測(cè)樣本所屬或者所包含的生物類(lèi)別的任意參考模板,例如,若待測(cè)樣本來(lái)源的個(gè)體為人類(lèi),參考序列可選擇NCBI數(shù)據(jù)庫(kù)提供的HG19,進(jìn)一步地,也可以預(yù)先配置包含更多參考序列的資源庫(kù),例如依據(jù)待測(cè)樣本來(lái)源個(gè)體的狀態(tài)、地域等因素選擇或是測(cè)定組裝出更接近的序列作為參考序列。在本發(fā)明的一個(gè)實(shí)施例中,所述將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),包括:將所述第一拼接序列和第二拼接序列分別與所述多種CDR3參考序列進(jìn)行比對(duì),獲得第一比對(duì)結(jié)果和第二比對(duì)結(jié)果,其中,所述第一比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第一拼接序列,所述第二比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第二拼接序列;基于所述第一比對(duì)結(jié)果,確定其中的第一拼接序列上的CDR3序列的起始位置,基于所述第二比對(duì)結(jié)果,確定其中的第二拼接序列上的CDR3序列的起始位置;分別將第一比對(duì)結(jié)果中的第一拼接序列上的CDR3序列起始位置之后的部分和第二比對(duì)結(jié)果中的第二拼接序列上的CDR3序列起始位置之后的部分與所述多種CDR3參考序列進(jìn)行重新比對(duì),獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果。在本發(fā)明的一個(gè)實(shí)施例中,上述重新比對(duì)的比對(duì)條件設(shè)置為:與所述V基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為0,與所述V基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2,和/或與所述J基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為0,與所述J基因參考序列的IGH 基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2。依據(jù)拼接序列比對(duì)上參考序列的位置以及CDR3序列的特點(diǎn),將拼接序列上的CDR3序列起始位置確定出,且以不同的比對(duì)條件例如相對(duì)更嚴(yán)格的比對(duì)條件將CDR3序列起始位置之后的部分進(jìn)行重新比對(duì),利于獲得這些拼接序列的準(zhǔn)確信息,利于提高后續(xù)基于這些contigs的免疫差異分析的準(zhǔn)確性。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果后,還包括:分別對(duì)所述第一重新比對(duì)結(jié)果和所述第二重新比對(duì)結(jié)果進(jìn)行過(guò)濾,以獲得所述第一CDR3序列和所述第二CDR3序列,其中包括,分別去除第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果中的符合以下描述任至少之一的拼接序列:其所屬的CDR3序列種類(lèi)的拼接序列支持?jǐn)?shù)為1,即這種CDR3序列中只包含這一條拼接序列,這種CDR3序列可靠性低;未能比對(duì)上V基因參考序列或者J基因參考序列;比對(duì)上所述CDR3參考序列的假基因參考序列區(qū);比對(duì)上一個(gè)V基因參考序列和一個(gè)J基因參考序列、且比對(duì)上二者的方向相反;無(wú)法確定其上的CDR3的起始位置;含終止密碼子或者不含開(kāi)放閱讀框。所稱(chēng)的比對(duì)上,指在比對(duì)過(guò)程中一般對(duì)比對(duì)參數(shù)進(jìn)行設(shè)置,例如設(shè)置一條拼接序列最多允許有s個(gè)堿基錯(cuò)配(mismatch),如設(shè)置為s≤3,若該拼接序列中有超過(guò)s個(gè)堿基發(fā)生錯(cuò)配,則視該序列無(wú)法比對(duì)到(比對(duì)上)參考序列。比對(duì)上假基因區(qū)的拼接序列對(duì)后續(xù)分析意義不大。比對(duì)上V基因參考序列和J基因參考序列、但比對(duì)上二者的方向相反的拼接序列多數(shù)是由于組裝錯(cuò)誤去除的,所說(shuō)的方向可以以參考序列的方向?yàn)閰⒄?。去除以上這些contigs信息不明確、難以明確、無(wú)義、錯(cuò)誤或者低可靠性的contigs的干擾,利于提高后續(xù)免疫差異分析的準(zhǔn)確性和效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法(1)中的第一高頻CDR3序列為在所述第一CDR3序列中頻率不大于0.5%的CDR3序列,第二高頻CDR3序列為在所述第二CDR3序列中頻率不大于0.5%的CDR3序列。增加對(duì)高頻CDR3序列的頻率的上限的限定,去除離群的高頻CDR序列,使統(tǒng)計(jì)分析結(jié)果更具有意義。根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用ROC分析確定(1)-(4)中的至少之一中的區(qū)分效果。ROC分析指ROC曲線(receiveroperatingcharacteristiccurve,接收者操作特征曲線),是一種二元分類(lèi)模型,即輸出結(jié)果只有兩種類(lèi)別的模型。考慮一個(gè)二分問(wèn)題,即將實(shí)例分成正類(lèi)(positive)或負(fù)類(lèi)(negative),對(duì)一個(gè)二分問(wèn)題來(lái)說(shuō),會(huì)出現(xiàn)四種情況:如果一個(gè)實(shí)例是正類(lèi)并且也被預(yù)測(cè)成正類(lèi),即為真正類(lèi)(Truepositive,TP),如果實(shí)例是負(fù)類(lèi)被預(yù)測(cè)成正類(lèi),稱(chēng)之為假正類(lèi)(Falsepositive,F(xiàn)P),相應(yīng)地,如果實(shí)例是負(fù)類(lèi)被預(yù)測(cè)成負(fù)類(lèi),稱(chēng)之為真負(fù)類(lèi)(Truenegative,TN),正類(lèi)被預(yù)測(cè)成負(fù)類(lèi)則為假負(fù)類(lèi)(falsenegative,F(xiàn)N)。 TP:正確肯定的數(shù)目;FN:漏報(bào),沒(méi)有正確找到的匹配的數(shù)目;FP:誤報(bào),給出的匹配是不正確的;TN:正確拒絕的非匹配對(duì)數(shù)。在一個(gè)二分類(lèi)模型中,對(duì)于所得到的連續(xù)結(jié)果,這邊的連續(xù)結(jié)果指(1)-(4)中的任意至少之一的因素對(duì)多個(gè)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)個(gè)體的分類(lèi)結(jié)果,如(1)中的差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例、(2)中差異具有統(tǒng)計(jì)意義的V亞型的使用頻率、(3)中的差異具有統(tǒng)計(jì)意義的V合并亞型的使用頻率或者(4)中的差異具有統(tǒng)計(jì)意義的VJ合并亞型的使用頻率對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)個(gè)體的分類(lèi)結(jié)果,假設(shè)已確定(1)中的差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閾值,比如說(shuō)0.3,大于這個(gè)值的個(gè)體劃歸為第一類(lèi)狀態(tài)(正類(lèi)),小于這個(gè)值則劃到第二類(lèi)狀態(tài)(負(fù)類(lèi))。如果減小閾值,減到0.2,固然能識(shí)別出更多的第一類(lèi)狀態(tài)個(gè)體,也就是提高了識(shí)別出的正類(lèi)占所有正類(lèi)的比例,即TPR(truepositiverate,真正類(lèi)率),但同時(shí)也將更多的負(fù)類(lèi)當(dāng)作了正類(lèi),即提高了FPR(falsepositiverate,負(fù)正類(lèi)率)。引入ROC可以形象化這一變化,ROC曲線可以用于評(píng)價(jià)一個(gè)分類(lèi)器,即評(píng)價(jià)這一差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閾值對(duì)兩個(gè)狀態(tài)個(gè)體的區(qū)分效果。AUC(AreaUnderrocCurve)為ROC曲線下方的面積,AUC值介于0.5到1.0之間,AUC越大,分類(lèi)器分類(lèi)效果越好。根據(jù)本發(fā)明的一個(gè)實(shí)施例,(2)中的確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,包括:利用主成分分析方法(PrincipalComponentAnalysis,PCA)確定能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的V亞型,以及利用ROC分析確定所述能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的V亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。主成分分析(PCA)是多元統(tǒng)計(jì)分析中用來(lái)分析數(shù)據(jù)的一種方法,它是用一種較少數(shù)量的特征對(duì)樣本進(jìn)行描述以達(dá)到降低特征空間維數(shù)的方法,它的本質(zhì)實(shí)際上是K-L變換。PCA把原先的n個(gè)特征用數(shù)目更少的m個(gè)特征取代,新特征是舊特征的線性組合。CDR3V基因有幾十個(gè),各個(gè)V基因也稱(chēng)為V亞型或者V區(qū)基因,一般會(huì)得到的具有統(tǒng)計(jì)意義的多個(gè)V亞型,PCA能對(duì)高維數(shù)據(jù)進(jìn)行降維,即得出權(quán)重較大(特征值)的V亞型,權(quán)重較大的V亞型對(duì)分類(lèi)起了主要作用,經(jīng)過(guò)降維同時(shí)也除去了噪聲。在本發(fā)明的一個(gè)實(shí)施例中,TRBV18、TRBV4-1、TRBV4-2和TRBV6-9這四個(gè)V亞型的特征值占到所有確定出的V亞型的特征值之和的95%,可將這四個(gè)V亞型作為主成分,這里的特征值為PCA中的概念,若AX=λX,則稱(chēng)λ是矩陣A的特征值,X是對(duì)應(yīng)的特征向量,可以這樣理解:矩陣A作用在它的特征向量X上,僅僅使得X的長(zhǎng)度發(fā)生了變化,縮放比例就是相應(yīng)的特征值λ。根據(jù)本發(fā)明的一個(gè)實(shí)施例,(3)中的確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,包括:利用主成分分析方法確定能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的V合并亞型,以及利用ROC分析確定所述能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的V合 并亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。V合并亞型指合并的V區(qū)基因,例如,根據(jù)IMGT數(shù)據(jù)庫(kù)(http://www.imgt.org/),48個(gè)V區(qū)基因片段可合并成23個(gè)進(jìn)行分析,當(dāng)獲得的差異具有統(tǒng)計(jì)意義的V合并亞型有多個(gè),利用PCA能夠進(jìn)行降維,確定主成分,即對(duì)分類(lèi)起主要作用的V合并亞型。進(jìn)行ROC分析,依據(jù)ROC曲線及其AUC值,能夠評(píng)估分類(lèi)器即主成分的分類(lèi)效果。根據(jù)本發(fā)明的一個(gè)實(shí)施例,(4)中的確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,包括:利用主成分分析方法確定能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的VJ組合亞型,以及利用ROC分析確定所述能夠區(qū)分開(kāi)第一狀態(tài)和第二狀態(tài)的VJ組合亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。VJ組合亞型指V區(qū)基因和/或V合并亞型與J區(qū)基因的組合,當(dāng)獲得的差異具有統(tǒng)計(jì)意義的VJ組合亞型有多個(gè),利用PCA能夠進(jìn)行降維,確定主成分,即確定對(duì)分類(lèi)起主要作用的VJ組合亞型。而進(jìn)行ROC分析,依據(jù)ROC曲線及其AUC值,能夠評(píng)估分類(lèi)器即主成分的分類(lèi)效果。根據(jù)本發(fā)明的一個(gè)實(shí)施例,當(dāng)?shù)谝活?lèi)狀態(tài)和第二類(lèi)狀態(tài)個(gè)體分別為結(jié)直腸癌和健康人群,確定差異具有統(tǒng)計(jì)意義的VJ組合亞型包括以下至少之一、至少之二、至少之三、至少之四、至少之五、至少之六、至少之七、至少之八、至少之九或者全部十種:TRBV19&TRBJ1-1、TRBV25-1&TRBJ1-1、TRBV25-1&TRBJ1-4、TRBV25-1&TRBJ2-1、TRBV27&TRBJ1-4、TRBV6-2&TRBJ1-1、TRBV6-3&TRBJ1-1、TRBV6-6&TRBJ1-1、TRBV6-9&TRBJ1-1和TRBV7-9&TRBJ2-3。進(jìn)一步的,依據(jù)兩個(gè)群體中各自的以上這些VJ組合亞型的使用頻率差異,確定出的能夠區(qū)分出結(jié)直腸癌的差異VJ組合亞型的使用頻率(%)為以下至少之一或者全部或者部分的組合,TRBV19&TRBJ1-1(等同于TRBV19TRBJ1-1):0.01-0.20、TRBV25-1&TRBJ1-1:0.100.60、TRBV25-1&TRBJ1-4:0.01-0.20、TRBV25-1&TRBJ2-1:0.10-0.40、TRBV27&TRBJ1-4:0.10-0.50、TRBV6-2&TRBJ1-1:0.50-2.00、TRBV6-3&TRBJ1-1:0.50-2.00、TRBV6-6&TRBJ1-1:0.08-0.50、TRBV6-9&TRBJ1-1:0.06-0.30、TRBV7-9&TRBJ2-3:0.10-0.50。需要說(shuō)明的是,這個(gè)(些)確定出的VJ組合亞型及其各自的使用頻率的數(shù)值范圍(閾值)能夠作為區(qū)分開(kāi)結(jié)直腸癌和健康人群的一個(gè)免疫差異因素或者輔助判斷個(gè)體屬于哪一類(lèi)狀態(tài),但難以直接作為區(qū)分結(jié)直腸癌與另一類(lèi)非直腸癌患者的因素或范圍,即僅依此還未能用于診斷判斷個(gè)體是否為結(jié)直腸癌患者。如圖3所示,依據(jù)本發(fā)明的另一方面,本發(fā)明提供一種分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的裝置100,該裝置100可以用以實(shí)施上述本發(fā)明任一實(shí)施方式的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法,裝置100包括:測(cè)序數(shù)據(jù)獲取單元10,用于獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù),所述第一測(cè)序數(shù)據(jù)為第一類(lèi)狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù) 據(jù),包括多個(gè)第一讀段,所述第二測(cè)序數(shù)據(jù)為第二類(lèi)狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第二讀段,所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分;拼接單元20,與所述測(cè)序數(shù)據(jù)獲取單元10連接,用于分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接,獲得第一拼接序列和第二拼接序列;比對(duì)單元30,與所述拼接單元20相連,用于將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),獲得第一CDR3序列和第二CDR3序列,所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;免疫差異分析單元40,與所述比對(duì)單元30相連,用于進(jìn)行以下(1)~(4)中的至少之二:(1)比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異,確定差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,所述第一高頻CDR3序列比例為所述第一CDR3序列種類(lèi)總數(shù)中高頻CDR3序列種類(lèi)數(shù)目所占的比例,所述第二高頻CDR3序列比例為所述第二CDR3序列種類(lèi)總數(shù)中高頻CDR3序列種類(lèi)數(shù)目所占的比例,所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05%的CDR3序列,所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05%的CDR3序列,(2)比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的第二CDR3序列的種類(lèi)總數(shù)的比值,(3)比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的第二CDR3序列的種類(lèi)總數(shù)的比值,(4)比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類(lèi)狀態(tài)和第二類(lèi)狀態(tài)的區(qū)分效果,第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類(lèi)總數(shù)的比值,第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類(lèi)總數(shù)的比值。本領(lǐng)域普通技術(shù)人員可以理解,通過(guò)對(duì)該裝置增加相應(yīng)功能單元或者子單元能夠?qū)崿F(xiàn)上述本發(fā)明任一具體實(shí)施方式的方法。前述 對(duì)本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法的技術(shù)特征和效果的描述,同樣適用本發(fā)明的這一方面的裝置,在此不再贅述。如圖4所示,依據(jù)本發(fā)明的再一方面,提供一種輔助確定個(gè)體狀態(tài)的方法,該方法包括步驟:S100提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸;S200對(duì)所述核酸中的CDR3序列進(jìn)行捕獲;S300對(duì)捕獲得的核酸進(jìn)行序列測(cè)定,獲得測(cè)序結(jié)果,所述測(cè)序結(jié)果包括多個(gè)讀段;S400對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接,獲得拼接片段;S500將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì),獲得CDR3序列,所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;S600基于獲得的CDR3序列,確定待測(cè)個(gè)體的(a)-(d)中的至少之一:(a)高頻CDR3序列的比例,所述高頻CDR3序列的比例為高頻CDR3序列種類(lèi)數(shù)目在所述CDR3序列種類(lèi)總數(shù)中所占的比例,所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05%的CDR3序列,(b)CDR3序列中的各種V亞型的使用頻率,所述V亞型的使用頻率為支持該V亞型的CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的CDR3序列的種類(lèi)總數(shù)的比值,(c)CDR3序列中的各種V合并亞型的使用頻率,所述V合并亞型的使用頻率為支持該V合并亞型的CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的CDR3序列的種類(lèi)總數(shù)的比值,(d)CDR3序列中的各種VJ組合亞型的使用頻率的差異,所述VJ組合亞型的使用頻率為支持該VJ組合亞型的CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的CDR3序列的種類(lèi)總數(shù)的比值;S700比較所述(a)-(d)中的至少之一與其相應(yīng)閾值的差異,以輔助確定個(gè)體狀態(tài),所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法。前述對(duì)本發(fā)明一方面的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法的技術(shù)特征和優(yōu)點(diǎn)的描述,同樣適用本發(fā)明這一方面的輔助確定個(gè)體狀態(tài)的方法,在此不再贅述。如圖5所示,依據(jù)本發(fā)明的又一方面,提供一種輔助確定個(gè)體狀態(tài)的裝置1000,該裝置1000可以實(shí)施上述本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法。該裝置1000包括:核酸提取部100,用于提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸;捕獲部200,與核酸提取部100相連,用于對(duì)所述核酸中的CDR3序列進(jìn)行捕獲;測(cè)序部300,與捕獲部200相連,用于對(duì)捕獲得的核酸進(jìn)行序列測(cè)定,獲得測(cè)序結(jié)果,所述測(cè)序結(jié)果包括多個(gè)讀段;拼接部400,與測(cè)序部300相連,用于對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接,獲得拼接片段;比對(duì)部500,與拼接部400相連,用于將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì),獲得CDR3序列,所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;免疫因素確定部600,與比對(duì)部500相連,用于基于獲得的CDR3序列,確定待測(cè)個(gè)體的(a)-(d)中的至少之一:(a)高頻CDR3序列的比例,所述高頻CDR3 序列的比例為高頻CDR3序列種類(lèi)數(shù)目在所述CDR3序列種類(lèi)總數(shù)中所占的比例,所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05%的CDR3序列,(b)CDR3序列中的各種V亞型的使用頻率,所述V亞型的使用頻率為支持該V亞型的CDR3序列的種類(lèi)數(shù)目與支持所有V亞型的CDR3序列的種類(lèi)總數(shù)的比值,(c)CDR3序列中的各種V合并亞型的使用頻率,所述V合并亞型的使用頻率為支持該V合并亞型的CDR3序列的種類(lèi)數(shù)目與支持所有V合并亞型的CDR3序列的種類(lèi)總數(shù)的比值,(d)CDR3序列中的各種VJ組合亞型的使用頻率的差異,所述VJ組合亞型的使用頻率為支持該VJ組合亞型的CDR3序列的種類(lèi)數(shù)目與支持所有VJ組合亞型的CDR3序列的種類(lèi)總數(shù)的比值;差異比較部700,與免疫因素確定部600相連,用于比較所述(a)-(d)中的至少之一與其相應(yīng)閾值的差異,以輔助確定個(gè)體狀態(tài),所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法。前述對(duì)本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法的技術(shù)特征和優(yōu)點(diǎn)的描述,同樣適用本發(fā)明這一方面的裝置,在此不再贅述。為了使本發(fā)明技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例對(duì)本發(fā)明的分析個(gè)體兩類(lèi)狀態(tài)的免疫差異的方法和/或裝置、輔助確定個(gè)體免疫狀態(tài)的方法和/或裝置進(jìn)行詳細(xì)的描述。應(yīng)當(dāng)理解,下面示例用于解釋本發(fā)明,不是對(duì)本發(fā)明的限制。需要說(shuō)明的是在本文中所使用的術(shù)語(yǔ)“第一”、“第二”等僅為方便描述,不能理解為指示或暗示相對(duì)重要性,也不能理解為之間有先后順序關(guān)系。在本發(fā)明的描述中,除非另有說(shuō)明,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。除另有交待,以下實(shí)施例中涉及的未特別交待的試劑、序列(接頭、標(biāo)簽和引物)、軟件及儀器,都是常規(guī)市售產(chǎn)品或者開(kāi)源的,例如購(gòu)買(mǎi)Illumina的測(cè)序文庫(kù)構(gòu)建試劑盒。實(shí)施例一一般方法,包括:首先,對(duì)CDR3進(jìn)行測(cè)序與鑒定:用淋巴細(xì)胞分離液分離外周血T/B淋巴細(xì)胞,提取DNA(或RNA),采用多重PCR/5'RACE對(duì)CDR3進(jìn)行捕獲,通過(guò)Hiseq2000或Hiseq2500或Miseq平臺(tái)進(jìn)行高通量測(cè)序。對(duì)所測(cè)數(shù)據(jù)進(jìn)行質(zhì)控后比對(duì)到IMGT數(shù)據(jù)庫(kù)(http://www.imgt.org/),確定其CDR3序列。其次,對(duì)免疫結(jié)果的分析:高頻CDR3序列即為高增殖克隆(highlyexpandedclone),定義HEC比率——高增殖克隆比率(highlyexpandedclone-rate,HECrate)為頻率超過(guò)0.05%,較佳的,頻率不超過(guò)0.5%的CDR3的種類(lèi)數(shù)目占CDR3種類(lèi)總數(shù)的比例。對(duì)差異使用的V亞型、V合并亞型(Vmerge)和/或VJ組合亞型進(jìn)行PCA分析。涉及的細(xì)節(jié)與步驟如下:常規(guī)統(tǒng)計(jì)量部分說(shuō)明:1、CDR3豐度,通過(guò)測(cè)序出的免疫數(shù)據(jù),質(zhì)控糾錯(cuò)后通過(guò)比對(duì)軟件與IMGT網(wǎng)站免疫參考序列進(jìn)行比對(duì),確定CDR3支持的reads數(shù)(支持CDR3的reads即為比對(duì)上該CDR3的reads),并計(jì)算出每種CDR3克隆所占比率。2、CDR3長(zhǎng)度,即對(duì)鑒定出的CDR3序列長(zhǎng)度進(jìn)行統(tǒng)計(jì)。3、VJ使用(VJ組合亞型使用頻率),即通過(guò)對(duì)確定的CDR3序列所比對(duì)上的VJ情況進(jìn)行VJ連用的所占比率。單獨(dú)統(tǒng)計(jì)V亞型或者J亞型使用頻率。4、HECrate,統(tǒng)計(jì)分析高頻CDR3序列的豐度(如0.1%~0.5%)占總體序列種類(lèi)數(shù)的比率達(dá)到某個(gè)閾值或落入某個(gè)范圍。具體分析內(nèi)容說(shuō)明:1.HECrate比較統(tǒng)計(jì)頻率超過(guò)0.1%(或者0.1%~0.5%)的CDR3種類(lèi)數(shù)目占CDR3種類(lèi)總數(shù)的比例。用T檢驗(yàn)等檢驗(yàn)兩組個(gè)體之間是否存在差異,例如檢驗(yàn)?zāi)臣膊〗M與正常組之間是否存在差異。2.V、J亞型分析2.1V亞型以及VJ組合亞型關(guān)聯(lián)分析統(tǒng)計(jì)不同V亞型下樣本的相對(duì)豐度,并對(duì)疾病組和對(duì)照組樣本進(jìn)行T檢驗(yàn)、Wilcox檢驗(yàn)等,來(lái)找到P值<0.01的V亞型,或依據(jù)不同V亞型區(qū)分疾病組和對(duì)照組的最小錯(cuò)誤率,找出最小錯(cuò)誤率最低的V亞型,這些V亞型即有可能與研究目的相關(guān)。VJ使用或V合并亞型分析同上。2.2對(duì)V亞型或VJ亞型進(jìn)行PCA分析統(tǒng)計(jì)不同V亞型下樣本的相對(duì)豐度,然后用PCA(主成分分析)的方法算出各個(gè)樣本的第一主成分和第二主成分的值作圖,看是否有疾病組和對(duì)照組的分開(kāi)聚集現(xiàn)象,如是否使兩類(lèi)狀態(tài)達(dá)到線性可分。如果某個(gè)主成分可以很好的區(qū)分疾病組和對(duì)照組,對(duì)訓(xùn)練集找出有差異的V亞型,在測(cè)試集中進(jìn)行驗(yàn)證,并對(duì)測(cè)試集進(jìn)行ROC分析并計(jì)算AUC值。多次隨機(jī)抽取訓(xùn)練集與測(cè)試集,求出AUC均值,以判斷挑選出的亞型在疾病差別中是否穩(wěn)定。VJ組合亞型,合并V型同理分析。通過(guò)此方法,可尋找不同指標(biāo)來(lái)對(duì)人群進(jìn)行區(qū)分,進(jìn)而可找出或者輔助找出某此疾病潛在的Bio-mark,利于達(dá)到無(wú)創(chuàng)檢測(cè)目的,亦有利于對(duì)疾病的治療進(jìn)行預(yù)后的監(jiān)控。由于免疫反應(yīng)的特性,免疫的研究對(duì)早期檢測(cè)可能優(yōu)于現(xiàn)有技術(shù)水平,對(duì)免疫數(shù)據(jù)的積累,后期可能達(dá)到一次測(cè)序,檢查多項(xiàng)疾病的目的,能極大的提高人民健康水平。實(shí)施例二以T淋巴細(xì)胞為研究目標(biāo),采用優(yōu)化的多重PCR的技術(shù)對(duì)T細(xì)胞受體β鏈最具多樣性的互補(bǔ)決定區(qū)CDR3區(qū)進(jìn)行擴(kuò)增,擴(kuò)增引物、擴(kuò)增方法、文庫(kù)構(gòu)建測(cè)序等可按照CN103205420A中描述的進(jìn)行,獲得下機(jī)數(shù)據(jù),全面分析TCR組成,評(píng)估免疫系統(tǒng)的多樣性,挖掘免疫組庫(kù)與肝癌、肝炎、直腸癌的發(fā)生和發(fā)展的關(guān)系信息。該方法包括如下步驟:(一)根據(jù)T細(xì)胞受體CDR3序列,設(shè)計(jì)Vsegment和Jsegment引物如CN103205420A,以及參考序列構(gòu)建,包括從數(shù)據(jù)庫(kù)中獲得已知CDR3序列集合。(二)樣本制備1.抽取待檢者外周血5mL,存于EDTA抗凝管中,使用Ficoll淋巴細(xì)胞分離液在3h內(nèi)進(jìn)行外周血PBMC分離;2.trizol法提取總RNA;3.RNA定量檢測(cè);(三)文庫(kù)制備及測(cè)序1.RNA逆轉(zhuǎn)錄為cDNA;2.多重PCR擴(kuò)增T細(xì)胞受體β鏈CDR3序列,切膠回收目的片段;3.對(duì)T細(xì)胞受體β鏈CDR3片段進(jìn)行末端修復(fù);4.對(duì)T細(xì)胞受體β鏈CDR3片段末端加A;5.連接接頭(Adapter);6.連接產(chǎn)物PCR擴(kuò)增;7.連接產(chǎn)物磁珠純化;8.文庫(kù)定量及質(zhì)控;9.IlluminaHiSeq2500/2000上機(jī)測(cè)序;(四)下機(jī)數(shù)據(jù)進(jìn)行生物信息分析1.SOAPnukefilter:去除低質(zhì)量reads;2.利用拼接程序,將PEreads進(jìn)行拼接合并;3.拼接好的數(shù)據(jù)與參考序列比對(duì);4.重新比對(duì);5.重比對(duì)結(jié)果過(guò)濾;6.相關(guān)統(tǒng)計(jì)及作圖分析。個(gè)體在無(wú)抗原刺激時(shí),TCR基因重排是隨機(jī)的,因此正常人外周T細(xì)胞呈多家族、多克隆性特點(diǎn)。當(dāng)抗原刺激后,TCRV區(qū)基因可對(duì)該抗原產(chǎn)生特異性識(shí)別,并使帶有這類(lèi)基因的T細(xì)胞得到優(yōu)勢(shì)擴(kuò)增,通過(guò)對(duì)待檢者外周血PBMC中的T細(xì)胞受體β鏈CDR3進(jìn)行擴(kuò)增及高通量測(cè)序,對(duì)TCRV區(qū)基因多樣性分布及變化進(jìn)行分析,進(jìn)而分析不同TCRV亞家族T細(xì)胞的表達(dá)和利用,從而可以發(fā)現(xiàn)差異,這些差異可能能夠應(yīng)用或者輔助應(yīng)用于另一種狀態(tài),另一種正?;虍惓顟B(tài),如肝癌、肝炎、直腸癌等的早期無(wú)創(chuàng)診斷檢測(cè)、發(fā)病進(jìn)展監(jiān)測(cè)、指導(dǎo)腫瘤術(shù)后效果檢測(cè)評(píng)估等。例如,通過(guò)對(duì)待檢者的細(xì)胞免疫水平進(jìn)行綜合評(píng)價(jià),進(jìn)行腫瘤的早期無(wú)創(chuàng)診斷;進(jìn)一步通過(guò)比較患者手術(shù)/用藥前后的免疫組庫(kù)變化來(lái)監(jiān)測(cè)疾病發(fā)展,評(píng)估預(yù)后效果,指導(dǎo)選擇合適的治療方案,預(yù)防腫瘤復(fù)發(fā)。若用于輔助臨床檢測(cè),具有如下優(yōu)勢(shì):1)微創(chuàng)性:受檢者只需要提供5-10mL外周血樣本;2)實(shí)時(shí)性:可對(duì)受檢者進(jìn)行多次實(shí)時(shí)采血,早期篩查時(shí)可定期檢測(cè),監(jiān)控腫瘤發(fā)病風(fēng)險(xiǎn),腫瘤患者可在手術(shù)后、化療后隨時(shí)檢測(cè),以分析手術(shù)預(yù)后情況及化療效果;3)高通量:基于新一代測(cè)序技術(shù)的免疫組庫(kù)測(cè)序,能夠在很短的時(shí)間內(nèi)同時(shí)進(jìn)行多例樣本檢測(cè)。一次測(cè)序得到百萬(wàn)級(jí)別條數(shù)的序列信息。實(shí)施例三20例來(lái)自醫(yī)院的肝癌患者樣本:包括肝組織樣本,癌旁肝組織樣本以及同期的外周血樣本。健康人的樣本:20例健康志愿者的外周血樣本。9例志愿者的正常肝組織樣本。免疫組庫(kù)測(cè)序檢測(cè)以外周血中分離的PBMC作為研究對(duì)象,內(nèi)容如下:1.外周血取樣1)取患者外周血樣本5ml于EDTA抗凝管中。上下輕輕顛倒4-6次充分混勻后,室溫放置,并在2小時(shí)以?xún)?nèi)完成PBMC分離工作;2)加入3倍體積的無(wú)菌生理鹽水,上下顛倒混勻;3)取3ml細(xì)胞分層液于15ml離心管中,并小心的吸取2)步稀釋的全血細(xì)胞4ml沿管壁疊加于分層液面上,體積大于4ml的分多管進(jìn)行。水平離心,400g,室溫條件下離心30分鐘;4)小心吸取淋巴細(xì)胞層,置于另一離心管中,加入5倍以上體積的無(wú)菌生理鹽水,400g室溫條件下離心10分鐘;5)倒掉上清液,加入1mlTRIzol。用吸頭反復(fù)吹打細(xì)胞直至看不見(jiàn)成團(tuán)的細(xì)胞塊,整個(gè)溶液呈清亮而不粘稠的狀態(tài);轉(zhuǎn)移至2ml離心管。6)液氮速凍后-80°保存,干冰盒運(yùn)輸,避免反復(fù)凍融。2.RNA的提取1)每管PBMC(組織樣本經(jīng)液氮研磨后)加入1mlTrizol,混均,冰上放置5min。2)加入氯仿0.2ml/管,振搖15s。15-30℃孵育2-3min,4℃,12000g,離心15min。3)吸取上層無(wú)色液體轉(zhuǎn)移至新的EP管中。4)加入等體積異丙醇,混勻,15-30℃孵育10-30min,4℃,12000g,離心10min。5)去上清,加入75%乙醇1ml,渦旋振蕩30s,4℃,7500g,離心5min。6)吸凈上清,管內(nèi)沉淀在超凈臺(tái)中鼓風(fēng)靜置3-5min。7)加入20ulDEPC水溶解,-80℃冰箱保存。3.RNA反轉(zhuǎn)錄(RNAreversetranscripsion)RNA(補(bǔ)DEPCH2O)10ul(RNA總量200ng)ReversePrimer1ul65℃變性5min后立即置于冰上,依次加入以下體系:4.文庫(kù)構(gòu)建4.1多重PCR(multiplexpolymerchainreaction)擴(kuò)增T細(xì)胞受體CDR3區(qū)4.1.1使用QIAGEN公司的MultiplexPCR試劑盒,配置PCR的反應(yīng)體系,進(jìn)行PCR。PCR反應(yīng)條件:4.1.2多重PCR產(chǎn)物,QIAquickGelPurificationKit純化膠回收產(chǎn)物1)配置2%的回收膠。2)將多重PCR產(chǎn)物進(jìn)行電泳,400mA,100V,電泳2h。3)EB染膠。4)片段選擇:100-200bp。5)使用30ul超純水進(jìn)行回溶。4.2末端修復(fù)1)在1.5ml的離心管中配制末端修復(fù)反應(yīng)體系:2)上述100μL反應(yīng)混合物輕微振蕩混合均勻,瞬時(shí)離心,在Thermomixer中20℃溫浴30min。3)用QIAquickPCRPurificationKit純化產(chǎn)物,34μL回溶。4.3末端加“A”(A-Tailing)1)在1.5ml的離心管中配制末端加“A”反應(yīng)體系:DNA32μL10xbluebuffer5μLdATP(1mM)10μLKlenow(3’-5’exo-)3μL2)上述50μL反應(yīng)混合物輕微振蕩混合均勻,瞬時(shí)離心后置于Thermomixer中37℃溫浴30min。3)用QIAquickMinElutePCRPurificationKit純化產(chǎn)物,17μL回溶。4.4Adapter的連接(AdapterLigation)1)在1.5ml的離心管中配制Adapter連接反應(yīng)體系:DNA15μL2xRapidligationbuffer25μLPEAdapteroligomix(1μM)5μLT4DNALigase(Rapid)5μL2)上述50μL反應(yīng)混合物輕微振蕩混勻,瞬時(shí)離心后置于Thermomixer中20℃溫浴15min。3)QIAquickMinElutePCRPurificationKit純化產(chǎn)物,25μL回溶。4.5連接產(chǎn)物PCRDNA23μLPrimer1公用(10μm)1μLPrimerindexX(10μm)1μL2×phusionmastermix25μL總體積50μLPCR反應(yīng)條件:4.6連接產(chǎn)物的純化(AGENCOURTAMPureXPbeads)在50μL連接產(chǎn)物中,加入1.2倍體積的磁珠(60μL),進(jìn)行磁珠純化,加入20μLUltraPureWater,進(jìn)行回溶。5.文庫(kù)檢測(cè)使用Agilent2100Bioanalyzer檢測(cè)文庫(kù)產(chǎn)量;使用qPCR定量檢測(cè)文庫(kù)產(chǎn)量。6.上機(jī)測(cè)序TCR-seq采用IlluminaHiSeq2500PE101+8+101(雙末端測(cè)序,讀段長(zhǎng)度101bp)程序進(jìn)行上機(jī)測(cè)序,測(cè)序?qū)嶒?yàn)操作按照制造商提供的操作說(shuō)明書(shū)進(jìn)行上機(jī)測(cè)序操作。7.下機(jī)數(shù)據(jù)生物信息分析及免疫組庫(kù)測(cè)序結(jié)果分析7.1生物信息分析1)測(cè)序數(shù)據(jù)的預(yù)處理:去除Nrate(N比例)大于或等于5%的reads;去除含有adapter污染的reads;去除平均質(zhì)量值低于15的reads;Reads1與reads2尾部質(zhì)量值小于10的堿基逐個(gè)進(jìn)行切除,切除后reads1長(zhǎng)度需滿(mǎn)足60bp以上,reads2長(zhǎng)度需滿(mǎn)足50bp以上。2)PairedReads合并:利用COPE和FqMerger(華大基因,BGI),將PEreads進(jìn)行拼接合并為contigs。3)contigs數(shù)據(jù)與參考序列進(jìn)行比對(duì):拼接好的序列(contigs)與構(gòu)建好的CDR3V/D/J參考序列(CDR3V/D/J參考序列來(lái)源于http://www.imgt.org/download/GENE-DB/)分別進(jìn)行BLAST比對(duì)。4)重新比對(duì):根據(jù)以上合并的blast比對(duì)結(jié)果,將CDR3起始位置后的序列依照CDR3區(qū)域比對(duì)標(biāo)準(zhǔn)進(jìn)行重新比對(duì):對(duì)blast比對(duì)部分的V,D,J兩端進(jìn)行延伸比對(duì)至contig兩 端為止,并對(duì)CDR3區(qū)域進(jìn)行mismatch設(shè)置,例如采用的設(shè)置標(biāo)準(zhǔn)為:V區(qū)允許的mismatch數(shù)TRB的為0、IGH的為2,J區(qū)允許的mismatch數(shù)TRB的為0、IGH的為2,D區(qū)允許的mismatch數(shù)目TRB的為0、IGH為4,過(guò)濾參數(shù)可依據(jù)mismatch數(shù)參考IMGT工具進(jìn)行設(shè)置。重新計(jì)算identity(比對(duì)率),比對(duì)率的計(jì)算方式為比對(duì)上的堿基數(shù)除以該contig的比對(duì)至CDR3參考序列達(dá)到所允許的mismatch數(shù)的位置的堿基數(shù)目,對(duì)計(jì)算出的identity進(jìn)行過(guò)濾:V區(qū)比對(duì)率大于或等于80%,J區(qū)大于或等于80%最終比對(duì)結(jié)果分別作為V,D,J的型別。5)比對(duì)結(jié)果過(guò)濾:去除Contigs重復(fù)為1的比對(duì)結(jié)果,去除未比上V基因或者J基因的Contigs,去除比對(duì)V,J基因相反方向的Contigs,去除比上假基因的Contigs。根據(jù)參考序列CDR3起始位置,確定Contig的CDR3位置,去除無(wú)法確定CDR3位置的Contigs,去除含終止密碼子或者無(wú)ORF的Contigs。6)相關(guān)統(tǒng)計(jì)與作圖:使用最終確定的TCRβ鏈上48個(gè)V區(qū)基因片段和13個(gè)J區(qū)基因片段進(jìn)行后續(xù)分析,其中為了便于統(tǒng)計(jì),48個(gè)V區(qū)基因片段可合并成23個(gè)進(jìn)行分析。我們利用高增殖克隆的比率(highlyexpandedclone-rate,HEC-rate)分析及V區(qū)使用的主成分分析(V-usage-PrincipalComponentAnalysis,V-usagePCA)等方法對(duì)健康人及肝癌患者進(jìn)行分類(lèi)分析。1)統(tǒng)計(jì)頻率超過(guò)0.1%的高頻CDR3(HEC)的種類(lèi)數(shù)目占CDR3種類(lèi)總數(shù)的比例。用T檢驗(yàn)等檢驗(yàn)患者與健康人數(shù)據(jù)之間是否存在差異。T檢驗(yàn),亦稱(chēng)studentt檢驗(yàn),是用t分布理論來(lái)推論差異發(fā)生的概率,從而比較兩個(gè)平均數(shù)的差異是否顯著;2)統(tǒng)計(jì)不同V亞型下樣本的相對(duì)豐度,然后用PCA(主成分分析)的方法算出各個(gè)樣本的第一主成分和第二主成分的值作圖,觀察患者和健康人群的分開(kāi)聚集現(xiàn)象。如果某些主成分(V亞型)可以很好的區(qū)分患者和健康人,對(duì)該主成分進(jìn)行受試者工作特征曲線分析(receiveroperatingcharacteristiccurve,ROC)并統(tǒng)計(jì)ROC曲線下的面積即AUC值。ROC曲線能很容易地查出任意界限值時(shí)的對(duì)疾病的識(shí)別能力。通過(guò)計(jì)算ROC曲線下的面積(AUC)判別識(shí)別效果,AUC越大(接近1),則識(shí)別診斷價(jià)值越佳。7.2免疫組庫(kù)測(cè)序結(jié)果分析1)使用HEC-rate分析對(duì)健康人群及肝癌患者在組織和血液水平進(jìn)行區(qū)分首先,我們定義了高表達(dá)克隆HEC的概念,即頻率超過(guò)0.1%的CDR3的種類(lèi)占的比例(并不局限于此,范圍可擴(kuò)展至0.05%-0.5%),并利用HEC-rate分析方法,即統(tǒng)計(jì)頻率超過(guò)0.1%的高頻CDR3(HEC)占CDR3種類(lèi)總數(shù)的比例,對(duì)20例健康人及20例肝癌患 者的血液樣本及9例健康人與20例肝癌患者肝組織樣本分別進(jìn)行比較,結(jié)果如圖6所示,兩組人群無(wú)論在血液水平還是組織水平,HEC-rate存在明顯差異。我們又通過(guò)對(duì)健康人群及肝癌患者這兩組樣品分別進(jìn)行ROC分析,計(jì)算其AUC值,量化其區(qū)分度。我們發(fā)現(xiàn)利用HEC-rate分析可以在血液中明顯的區(qū)分健康人和肝癌患者,經(jīng)T檢驗(yàn)后p值<0.001,這說(shuō)明兩組人確實(shí)在HEC-rate的數(shù)值上存在明顯差異,而ROC曲線分析表明ROC曲線下的面積(AUC)達(dá)到了0.9595,說(shuō)明區(qū)分度很高。這為輔助肝癌的早期無(wú)創(chuàng)診斷提供了可能性,同時(shí)也更便于對(duì)患者病情發(fā)展的實(shí)時(shí)監(jiān)測(cè)。值得一提的是利用此種方法,肝癌人群與肝炎人群也能得以較好的區(qū)分。經(jīng)T檢驗(yàn)后p值<0.01,這說(shuō)明在HEC-rate的數(shù)值上也存在明顯差異。因此,我們將肝癌疾病的HEC-rate范圍限定在0.0003-0.0009。2)利用V-usage-PCA分析對(duì)健康人和肝癌患者進(jìn)行有效區(qū)分,并找到了可能的biomarker。為了進(jìn)一步尋找肝癌特異性的免疫組庫(kù)biomarker,我們首先對(duì)20例健康人與20例肝癌患者的血液樣本分組進(jìn)行分析,統(tǒng)計(jì)V/D/J基因的使用頻率,挑選出兩組人群中差異表達(dá)的V區(qū)基因片段,并利用這些差異V區(qū)基因片段進(jìn)行V-usage-PCA分析,研究表明TRBV18、TRBV4-1、TRBV4-2和TRBV6-9作為主成分1可以很好得將健康人和肝癌患者分成兩群,而這些V區(qū)基因片段可以作為肝癌的潛在標(biāo)記(Bio-marker),用于區(qū)分健康人及肝癌患者,而血液中鑒定的這些Bio-marker可能可以應(yīng)用于肝癌的無(wú)創(chuàng)診斷。對(duì)于如何確定出這些潛在Bio-maker的使用頻率臨界值或范圍來(lái)輔助診斷檢測(cè),需進(jìn)一步依據(jù)大量樣本數(shù)據(jù)確定。為了進(jìn)一步證明血液樣本中這些差異V基因片段的可靠性,我們將20例健康人與20例肝癌患者分成兩組,每組隨機(jī)抽取10人,即10對(duì)(健康人與肝癌患者)作為訓(xùn)練集,另外10對(duì)則作為測(cè)試集,利用訓(xùn)練集樣本進(jìn)行PCA分析,對(duì)初步鑒定的差異V亞型,利用測(cè)試集樣本進(jìn)行驗(yàn)證分析,并與之對(duì)應(yīng)進(jìn)行受試者工作特征曲線分析ROC分析,ROC曲線下的面積(AUC)達(dá)到了0.92,如圖7所示。經(jīng)過(guò)多次隨機(jī)抽取測(cè)試,我們發(fā)現(xiàn)TRBV4-1,TRBV18,TRBV6-9,尤其是TRBV4-1可作為重要的特征性biomarker。如我們通過(guò)設(shè)定TRBV4-1的使用頻率閾值對(duì)健康人及肝癌患者進(jìn)行區(qū)分。3)利用癌旁及癌組織中TCRβCDR3的一致性分析對(duì)肝癌發(fā)展進(jìn)行評(píng)估,并為肝癌分類(lèi)奠定基礎(chǔ)。利用不同類(lèi)型的肝癌患者癌和癌旁的組織樣品,來(lái)比較癌和癌旁的TCRβCDR3的一致性。我們的研究結(jié)果顯示腫瘤惡性化程度較高的癌細(xì)胞處于低分化時(shí)期的患者,其癌和 癌旁的TCRβCDR3一致性較高,反之亦然。而且不同類(lèi)型的肝癌子類(lèi)基本可以通過(guò)這種分析方式進(jìn)行區(qū)分,這就為不同類(lèi)型肝癌的發(fā)展及惡性程度進(jìn)行評(píng)估及分子分型奠定了良好的基礎(chǔ)。癌組織和癌旁組織的差異表達(dá)VJ組合TRBV6-4TRBJ1-1,TRBV6-4TRBJ2-2。實(shí)施例四對(duì)10例來(lái)自醫(yī)院的結(jié)直腸癌外周血樣本及20例健康人外周血樣本進(jìn)行了TCRβ鏈CDR3的測(cè)序檢測(cè)。免疫組庫(kù)測(cè)序檢測(cè)以外周血中分離的PBMC作為研究對(duì)象,具體操作步驟1-6同實(shí)施例三。7.下機(jī)數(shù)據(jù)生物信息分析及免疫組庫(kù)測(cè)序結(jié)果分析7.1生物信息分析1)測(cè)序數(shù)據(jù)的預(yù)處理:去除Nrate大于或等于5%的reads;去除含有adapter污染的reads;去除平均質(zhì)量值低于15的reads;Reads1與reads2尾部質(zhì)量值小于10的堿基逐個(gè)進(jìn)行切除,切除后reads1長(zhǎng)度需滿(mǎn)足60bp以上,reads2長(zhǎng)度需滿(mǎn)足50bp以上。2)PairedReads合并:利用COPE和FqMerger(BGI),將PEreads進(jìn)行拼接合并為contig。3)Merge好的數(shù)據(jù)與參考序列進(jìn)行比對(duì):拼接好的序列(contigs)與構(gòu)建好的CDR3V/D/J參考序列(CDR3V/D/J參考序列來(lái)源于http://www.imgt.org/download/GENE-DB/)分別進(jìn)行BLAST比對(duì)。4)重新比對(duì):根據(jù)以上合并的blast比對(duì)結(jié)果,將CDR3起始位置后的序列依照CDR3區(qū)域比對(duì)標(biāo)準(zhǔn)進(jìn)行重新比對(duì):對(duì)blast比對(duì)部分的V,D,J兩端進(jìn)行延伸比對(duì)至reads兩端為止,并對(duì)CDR3區(qū)域進(jìn)行mismatch設(shè)置。重新計(jì)算identity(比對(duì)率),對(duì)計(jì)算出的identity進(jìn)行過(guò)濾:將V區(qū)比對(duì)率大于或等于80%、J區(qū)大于或等于80%的最終比對(duì)結(jié)果分別作為V,D,J的型別。5)比對(duì)結(jié)果過(guò)濾:去除Contigs重復(fù)為1的比對(duì)結(jié)果,去除未比上V基因或者J基因的Contigs,去除比對(duì)V,J基因相反方向的Contigs,去除比上假基因的Contigs。根據(jù)參考序列CDR3起始位置,確定Contig的CDR3位置,去除無(wú)法確定CDR3位置的Contigs,去除含終止密碼子或者無(wú)ORF的Contigs。6)重要相關(guān)統(tǒng)計(jì)將20例健康人及10例結(jié)直腸癌患者外周血樣本數(shù)據(jù)進(jìn)行以上初步分析后,對(duì)每個(gè)樣本TCRβ鏈上48個(gè)V區(qū)基因片段和13個(gè)J區(qū)基因片段進(jìn)行V-J使用頻率統(tǒng)計(jì),其中為了便于統(tǒng)計(jì),48個(gè)V區(qū)基因片段合并成23個(gè)進(jìn)行分析。1)統(tǒng)計(jì)樣本VJ亞型使用頻率:通過(guò)統(tǒng)計(jì)各樣本不同VJ亞型使用的相對(duì)豐度,并對(duì)10例結(jié)直腸癌患者外周血樣本和20例健康人外周血樣本進(jìn)行T檢驗(yàn),Wilcox檢驗(yàn)等,來(lái)找到P值<0.01的VJ亞型,或不同VJ亞型區(qū)分兩組的最小錯(cuò)誤率,找出最小錯(cuò)誤率最低的VJ亞型。2)對(duì)VJ亞型進(jìn)行PCA分析根據(jù)CDR3-VJ使用頻率采用主成分分析(PrincipalComponentAnalysis,PCA)的方法對(duì)兩組進(jìn)行分類(lèi)分析:用主成分分析的方法算出各個(gè)樣本的第一主成分和第二主成分的值作圖,看是否有疾病組和對(duì)照組的分開(kāi)聚集現(xiàn)象。7.2免疫組庫(kù)測(cè)序結(jié)果分析結(jié)合以上分析方法我們從20例健康人與10例結(jié)直腸癌人群中找到了9個(gè)或者說(shuō)10個(gè)的差異顯著的VJ配對(duì)亞型(VJ組合亞型)。具體如表1所示。表1差異VJ亞型腸癌對(duì)應(yīng)頻率范圍(%)1TRBV19TRBJ1-10.01-0.202TRBV25-1TRBJ1-10.10-0.603TRBV25-1TRBJ1-40.01-0.204TRBV25-1TRBJ2-10.10-0.405TRBV27TRBJ1-40.10-0.506TRBV6-2/TRBV6-3TRBJ1-10.50-2.007TRBV6-6TRBJ1-10.08-0.508TRBV6-9TRBJ1-10.06-0.309TRBV7-9TRBJ2-30.10-0.50對(duì)從20例健康人與10例結(jié)直腸癌人群中找到的9個(gè)差異VJ亞型的頻率進(jìn)行了箱線圖分析,圖8、圖9和圖10分別顯示以TRBV19TRBJ1-1,TRBV25-1TRBJ1-1和TRBV25-1TRBJ1-4為例的箱線圖分析。TRBV19TRBJ1-1的使用頻率在兩組樣本中存在明顯差異(p<0.01);RBV25-1TRBJ1-1和TRBV25-1TRBJ1-4的使用頻率在兩組樣本中存在極顯著差異(p<0.001)。最終,我們利用找到的差異VJ亞型進(jìn)行PCA分析,結(jié)果顯示兩組有分開(kāi)聚集趨勢(shì),如圖11所示。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1