分析個(gè)體兩類狀態(tài)的免疫差異的方法和裝置與流程

文檔序號(hào)：11831042閱讀：187來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于生物檢測(cè)領(lǐng)域，具體的，本發(fā)明涉及一種分析個(gè)體兩類狀態(tài)的免疫差異的方法、一種分析個(gè)體兩類狀態(tài)的免疫差異的裝置、一種輔助確定個(gè)體狀態(tài)的方法和一種輔助確定個(gè)體狀態(tài)的裝置。
背景技術(shù)：
：乙型病毒性肝炎是乙肝病毒(HBV)引起的，并已成為嚴(yán)重威脅人類健康的世界性疾病，也是我國(guó)當(dāng)前流行最為廣泛、危害性最嚴(yán)重的一種疾病。近年來乙肝發(fā)病率呈明顯增高的趨勢(shì)，給社會(huì)和家庭造成嚴(yán)重負(fù)擔(dān)。乙肝廣泛流行于世界各國(guó)，且部分患者可轉(zhuǎn)化為肝硬化甚至肝癌，HBV通過細(xì)胞內(nèi)免疫引發(fā)的肝損害是慢性肝炎、肝硬化和肝細(xì)胞癌的主要原因[WilliamM.Lee,M.D.HepatitisBVirusInfection.NEnglJMed1997；337:1733-45.]。慢性乙肝發(fā)病與機(jī)體對(duì)HBV免疫應(yīng)答異常有關(guān)，HBV持續(xù)感染所形成的慢性化主要是病毒誘導(dǎo)機(jī)體對(duì)其感染形成的一種持續(xù)免疫耐受狀態(tài)，特別是與細(xì)胞毒性T細(xì)胞低反應(yīng)狀態(tài)有關(guān)。用于乙肝病毒基因檢查的方法主要有：熒光PCR法、競(jìng)爭(zhēng)PCR法、PCR酶聯(lián)免疫吸附法、熒光標(biāo)記物法和PCR酶聯(lián)化學(xué)發(fā)光等方法。這些方法各有優(yōu)缺點(diǎn)，所使用的儀器設(shè)備、試劑品質(zhì)源于不同的國(guó)家和地區(qū)，設(shè)立的標(biāo)準(zhǔn)曲線以及標(biāo)準(zhǔn)熒光等各不相同，得出的數(shù)值左右漂浮，偏差很大，得出的檢測(cè)值范圍也不相同。目前，最常用乙肝病毒的血清學(xué)標(biāo)志是：“二對(duì)半”即乙肝病毒五項(xiàng)指標(biāo)。但乙肝五項(xiàng)檢測(cè)法存在一定的假陰性和假陽性，假陰性結(jié)果會(huì)延誤或者診療,而假陽性結(jié)果又增加患者的精神壓力和心理負(fù)擔(dān)。而檢測(cè)肝組織中的病毒DNA，能更準(zhǔn)確地反映病毒的復(fù)制狀況。但是組織穿刺取材較復(fù)雜，且是一項(xiàng)入侵式的操作，具有一定的風(fēng)險(xiǎn)性，很多患者不易接受，很難成為肝臟疾病發(fā)生及發(fā)展檢測(cè)的手段，更不能作為常規(guī)檢查。肝臟作為體內(nèi)最強(qiáng)大的免疫豁免器官，其內(nèi)發(fā)生的免疫應(yīng)答通常以誘導(dǎo)免疫耐受(immunetolerance)為主。免疫組庫是指在任何指定時(shí)間，某個(gè)個(gè)體的循環(huán)系統(tǒng)中所有功能多樣性B細(xì)胞和T細(xì)胞的總和。在機(jī)體的多種疾病進(jìn)程中，都有免疫過程參與，而這些疾病特異性的免疫反應(yīng)，能被機(jī)體及時(shí)記錄下來。通過檢測(cè)這些表達(dá)的B細(xì)胞或T細(xì)胞受體基因，就能準(zhǔn)確的將其反映出來，用來評(píng)估個(gè)體的免疫狀態(tài)，疾病的發(fā)生，發(fā)展和預(yù)后，甚至指導(dǎo)治療。T細(xì)胞受體(Tcellreceptor，TCR)是T細(xì)胞表面特異性識(shí)別抗原和介導(dǎo)免疫應(yīng)答的分子，是人類基因組中多態(tài)性最高的區(qū)域之一，決定著人的免疫系統(tǒng)如何適應(yīng)環(huán)境的變化。T細(xì)胞受體庫的多樣性直接反映了機(jī)體免疫應(yīng)答的狀態(tài)。TCR可分為TCRα/β和TCRγ/δ兩種類型,外周血T細(xì)胞主要為TCRα/β的T細(xì)胞，是介導(dǎo)機(jī)體特異性細(xì)胞免疫反應(yīng)的主要細(xì)胞[DavisMM,BjorkmanPJ.T-cellantigenreceptorgenesandT-cellrecognition.Nature1988；334:395-402.；WangC,SandersCM,YangQ,eta1.HighthroughputsequencingrevealscomplexpatternofdynamicinterrelationshipsamonghumanTcellsubsets.ProcNatlAcadSciUSA2010；107(4)：1518-23.]。在T細(xì)胞發(fā)育過程中CDR3區(qū)由V、D和J進(jìn)行重排而形成具有功能的TCR編碼基因(T細(xì)胞克隆)。正常個(gè)體在無抗原刺激時(shí)，TCR基因重排是隨機(jī)的，因此正常人外周T細(xì)胞呈多家族、多克隆性特點(diǎn)。不同抗原(如腫瘤)刺激后，TCRV區(qū)基因可對(duì)該抗原產(chǎn)生特異性識(shí)別，并使帶有這類基因的T細(xì)胞得到優(yōu)勢(shì)擴(kuò)增，可用于分析不同TCRV亞家族T細(xì)胞的表達(dá)和利用[WoodsworthDJ,CastellarinM,HoltRA.SequenceanalysisofT-cellrepertoiresinhealthanddisease.GenomeMed.2013；5(10):98.；KrangelMS.GenesegmentselectioninV(D)Jrecombination:Accessibilityandbeyond.NatImmunol2003；4:624–630.]。技術(shù)實(shí)現(xiàn)要素：本發(fā)明旨在至少解決上述問題之一或者提出一種商業(yè)選擇手段。依據(jù)本發(fā)明的一方面，本發(fā)明提供一種分析個(gè)體兩類狀態(tài)的免疫差異的方法，包括：獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)，所述第一測(cè)序數(shù)據(jù)為第一類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù)，包括多個(gè)第一讀段，所述第二測(cè)序數(shù)據(jù)為第二類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù)，包括多個(gè)第二讀段，所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分；分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接，獲得第一拼接序列和第二拼接序列；將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì)，獲得第一CDR3序列和第二CDR3序列，所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種；比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異，確定差異具有統(tǒng)計(jì)意義并且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍，所述第一高頻CDR3序列比例為所述第一CDR3序列種類數(shù)中高頻CDR3序列種類數(shù) 所占的比例，所述第二高頻CDR3序列比例為所述第二CDR3序列種類總數(shù)中高頻CDR3序列種類數(shù)所占的比例，所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05％的CDR3序列，所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05％的CDR3序列。所稱的個(gè)體的兩類狀態(tài)可以是一個(gè)或者一群生物個(gè)體的不同時(shí)間點(diǎn)和/或不同空間位置的兩類狀態(tài)，也可以是不同個(gè)體或者不同群體在某個(gè)時(shí)間點(diǎn)和/或空間的各自的狀態(tài)，這里的狀態(tài)指免疫狀態(tài)，包括核酸和/或氨基酸水平上反映出的生物體免疫狀態(tài)。根據(jù)本發(fā)明的一個(gè)實(shí)施例，該方法中的第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)獲取，包括：分別提取第一類狀態(tài)個(gè)體和第二類狀態(tài)個(gè)體的淋巴細(xì)胞中的核酸，獲得第一核酸和第二核酸；分別捕獲第一核酸和第二核酸中的CDR3序列；分別對(duì)捕獲得的核酸進(jìn)行測(cè)序文庫構(gòu)建，獲得第一測(cè)序文庫和第二測(cè)序文庫；對(duì)所述第一測(cè)序文庫和第二測(cè)序文庫進(jìn)行測(cè)序，獲得第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)。在本發(fā)明的一個(gè)實(shí)施例中，所述捕獲利用多重PCR實(shí)現(xiàn)。減少非目的區(qū)域例如非免疫相關(guān)區(qū)域數(shù)據(jù)的帶入，利于提高目標(biāo)區(qū)域分析效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例，利用雙末端測(cè)序獲得成對(duì)讀段，該方法中的第一測(cè)序數(shù)據(jù)包括多對(duì)第一讀段對(duì)，每對(duì)第一讀段對(duì)由兩個(gè)第一讀段組成，該方法中的第二測(cè)序數(shù)據(jù)包括多對(duì)第二讀段對(duì)，每對(duì)第二讀段對(duì)由兩個(gè)第二讀段組成。在該實(shí)施例中，所述拼接是依據(jù)有重疊的第一讀段或第二讀段，以及第一讀段對(duì)或者第二讀段對(duì)中一對(duì)讀段對(duì)的兩個(gè)讀段之間的距離來進(jìn)行的。拼接也稱為組裝，所得的拼接序列也稱為重疊群(contigs)。根據(jù)本發(fā)明的一個(gè)實(shí)施例，所述多種CDR3參考序列包括V基因參考序列和J基因參考序列。所述將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì)，包括：將所述第一拼接序列和第二拼接序列分別與所述多種CDR3參考序列進(jìn)行比對(duì)，獲得第一比對(duì)結(jié)果和第二比對(duì)結(jié)果，其中，所述第一比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第一拼接序列，所述第二比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第二拼接序列；基于所述第一比對(duì)結(jié)果，確定其中的第一拼接序列上的CDR3序列的起始位置，基于所述第二比對(duì)結(jié)果，確定其中的第二拼接序列上的CDR3序列的起始位置；分別將第一比對(duì)結(jié)果中的第一拼接序列上的CDR3序列起始位置之后的部分和第二比對(duì)結(jié)果中的第二拼接序列上的CDR3序列起始位置之后的部分與所述多種CDR3參考序列進(jìn)行重新比對(duì)，獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果。在本發(fā)明的一個(gè)實(shí)施例中，上述重新比對(duì)的比對(duì)條件設(shè)置為：與所述V基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為0，與所述V基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2，和/或與所述J基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù) 為0，與所述J基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2。將拼接序列上的CDR3序列起始位置確定出，且以不同的比對(duì)條件例如相對(duì)更嚴(yán)格的比對(duì)條件將CDR3序列起始位置之后的部分進(jìn)行重新比對(duì)，利于獲得這些拼接序列的準(zhǔn)確信息，利于提高后續(xù)基于這些contigs的免疫差異分析的準(zhǔn)確性。根據(jù)本發(fā)明的一個(gè)實(shí)施例，在獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果后，還包括：分別對(duì)所述第一重新比對(duì)結(jié)果和所述第二重新比對(duì)結(jié)果進(jìn)行過濾，以獲得所述第一CDR3序列和所述第二CDR3序列，其中包括，分別去除第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果中的符合以下任一描述的拼接序列：其所在的CDR3序列種類的拼接序列支持?jǐn)?shù)為1，即該種CDR3序列只包含這一條拼接序列，未能比對(duì)上V基因參考序列或者J基因參考序列，比對(duì)上所述CDR3參考序列的假基因參考序列區(qū)，比對(duì)上V基因參考序列和J基因參考序列、且比對(duì)上二者的方向相反，無法確定其上的CDR3的起始位置，含終止密碼子或者不含開放閱讀框。去除符合以上任意之一的contigs，去除這些contigs信息不明確、難以明確、無義、錯(cuò)誤或者低可靠性的contigs的干擾，利于提高后續(xù)免疫差異分析的準(zhǔn)確性和效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例，該方法(1)中的第一高頻CDR3序列為在所述第一CDR3序列中頻率不大于0.5％的CDR3序列，第二高頻CDR3序列為在所述第二CDR3序列中頻率不大于0.5％的CDR3序列。增加對(duì)高頻CDR3序列的頻率的上限的限定，去除離群的高頻CDR序列，使統(tǒng)計(jì)分析結(jié)果更具有意義。根據(jù)本發(fā)明的一個(gè)實(shí)施例，利用ROC分析評(píng)估是否能夠區(qū)分第一類狀態(tài)和第二類狀態(tài)。ROC分析指ROC曲線(receiveroperatingcharacteristiccurve，接收者操作特征曲線)，是一種二元分類模型，即輸出結(jié)果只有兩種類別的模型?？紤]一個(gè)二分問題，即將實(shí)例分成正類(positive)或負(fù)類(negative)，對(duì)一個(gè)二分問題來說，會(huì)出現(xiàn)四種情況：如果一個(gè)實(shí)例是正類并且也被預(yù)測(cè)成正類，即為真正類(Truepositive，TP)，如果實(shí)例是負(fù)類被預(yù)測(cè)成正類，稱之為假正類(Falsepositive，F(xiàn)P)，相應(yīng)地，如果實(shí)例是負(fù)類被預(yù)測(cè)成負(fù)類，稱之為真負(fù)類(Truenegative，TN)，正類被預(yù)測(cè)成負(fù)類則為假負(fù)類(falsenegative，F(xiàn)N)。TP：正確肯定的數(shù)目；FN：漏報(bào)，沒有正確找到的匹配的數(shù)目；FP：誤報(bào)，給出的匹配是不正確的；TN：正確拒絕的非匹配對(duì)數(shù)。在一個(gè)二分類模型中，對(duì)于所得到的連續(xù)結(jié)果，這邊的連續(xù)結(jié)果指高頻CDR3序列比例對(duì)多個(gè)第一類狀態(tài)和第二類狀態(tài)個(gè)體的分類結(jié)果，假設(shè)已確定差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閾值，比如說0.3，大于這個(gè)值的個(gè)體劃歸為第一類狀態(tài)(正類)，小于這個(gè)值則劃到第二類狀態(tài)(負(fù)類)。如果減小閾值，減到0.2，固然能識(shí)別出更多的第一類狀態(tài)個(gè)體，也就是提高了識(shí)別出的正類占所有正類的比例，即TPR(truepositiverate，真正類率)，但同時(shí)也將更多的負(fù)類當(dāng)作了正類，即提高了 FPR(falsepositiverate，負(fù)正類率)。為了形象化這一變化，引入ROC，ROC曲線可以用于評(píng)價(jià)一個(gè)分類器，即評(píng)價(jià)這一差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閾值。AUC(AreaUnderrocCurve)為ROC曲線下方的面積，AUC值介于0.5到1.0之間，AUC越大，分類器分類效果越好。根據(jù)本發(fā)明的一個(gè)實(shí)施例，所述高頻CDR3序列比例的數(shù)值范圍能夠區(qū)分開第一類狀態(tài)和第二類狀態(tài)。在本發(fā)明的一個(gè)實(shí)施例中，比較肝炎人群和正常健康人群，或者比較肝癌人群和肝炎人群的高頻CDR3序列比例，確定肝炎人群的所述高頻CDR3序列比例的范圍為0.0090-0.0014，這里，通過擴(kuò)增T細(xì)胞受體β鏈CDR3并進(jìn)行高通量測(cè)序，對(duì)肝炎患者及正常人組織和血液中的TCRβ鏈CDR3的多樣性及特異性進(jìn)行比較分析，發(fā)現(xiàn)使用血液樣品就能對(duì)正常人和肝炎患者進(jìn)行有效的區(qū)分。因此，檢測(cè)待測(cè)者外周血TCRβ鏈CDR3的表達(dá)特征，可輔助結(jié)合臨床用于肝炎的無創(chuàng)早期診斷檢測(cè)。需要說明的是，這個(gè)確定出的高頻CDR3序列比例的范圍能夠作為區(qū)分開肝炎和健康人群的一個(gè)免疫差異因素或者輔助判斷個(gè)體屬于哪一類狀態(tài)，但僅依此還未能用于診斷判斷個(gè)體是否為肝炎患者。根據(jù)本發(fā)明的一些實(shí)施例，該分析個(gè)體兩類狀態(tài)的免疫差異的方法還包括：比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異，確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類數(shù)目與支持所有V亞型的第一CDR3序列的種類總數(shù)的比值，第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類數(shù)目與支持所有V亞型的第二CDR3序列的種類總數(shù)的比值；和/或，比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異，確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，第一CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第一CDR3序列的種類數(shù)目與支持所有V合并亞型的第一CDR3序列的種類總數(shù)的比值，第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類數(shù)目與支持所有V合并亞型的第二CDR3序列的種類總數(shù)的比值；和/或，比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異，確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類總數(shù)的比值，第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類總數(shù)的比值。進(jìn)一步比較兩類狀態(tài)個(gè)體的V亞型、V合并亞型和/或VJ組合亞型的使用頻率的差異，以進(jìn)一步分析兩類狀態(tài)的免疫差異。對(duì)應(yīng)的，在本發(fā)明的一些實(shí)施例中，所述確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，包括：利用主成分分析方法(PrincipalComponentAnalysis，PCA)確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V亞型，以及，利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。PCA把原先的n個(gè)特征用數(shù)目更少的m個(gè)特征取代，新特征是舊特征的線性組合。CDR3V基因有幾十個(gè)，將各個(gè)V基因稱為V亞型或者V區(qū)基因，一般會(huì)得到的具有統(tǒng)計(jì)意義的多個(gè)V亞型，PCA能對(duì)高維數(shù)據(jù)進(jìn)行降維，即得出權(quán)重較大的V亞型，權(quán)重較大的V亞型對(duì)分類起了主要作用，經(jīng)過降維同時(shí)也除去了噪聲。根據(jù)本發(fā)明的一個(gè)實(shí)施例，所述確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，包括：利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V合并亞型，以及，利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V合并亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。V合并亞型指合并的V區(qū)基因，例如，根據(jù)IMGT數(shù)據(jù)庫(http://www.imgt.org/)，48個(gè)V區(qū)基因片段可合并成23個(gè)進(jìn)行分析，當(dāng)獲得的差異具有統(tǒng)計(jì)意義的V合并亞型有多個(gè)，利用PCA能夠進(jìn)行降維，確定主成分，即對(duì)分類起主要作用的V合并亞型。進(jìn)行ROC分析，依據(jù)ROC曲線及其AUC值，能夠評(píng)估分類器即主成分的分類效果。根據(jù)本發(fā)明的一個(gè)實(shí)施例，所述確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，包括：利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的VJ組合亞型，以及，利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的VJ組合亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。VJ組合亞型指V區(qū)基因和/或V合并亞型與J區(qū)基因的組合，當(dāng)獲得的差異具有統(tǒng)計(jì)意義的VJ組合亞型有多個(gè)，利用PCA能夠進(jìn)行降維，確定主成分，即確定對(duì)分類起主要作用的VJ組合亞型。而進(jìn)行ROC分析，依據(jù)ROC曲線及其AUC值，能夠評(píng)估分類器即主成分的分類效果。依據(jù)本發(fā)明的另一方面，本發(fā)明提供一種分析個(gè)體兩類狀態(tài)的免疫差異的裝置，該裝置可以用以實(shí)施上述本發(fā)明任一實(shí)施方式的分析個(gè)體兩類狀態(tài)的免疫差異的方法，裝置包括：測(cè)序數(shù)據(jù)獲取單元，用于獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)，所述第一測(cè)序數(shù)據(jù)為第一類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù)，包括多個(gè)第一讀段，所述第二測(cè)序數(shù)據(jù)為第二類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù)，包括多個(gè)第二讀段，所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分；拼接單元，與所述測(cè)序數(shù)據(jù)獲取單元連接，用于分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接，獲得第一拼接序列和第二拼接序列；比對(duì)單元，與所述拼接單元相連，用于將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì)，獲得第一CDR3序列和第二CDR3序列，所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種；免疫差異分析單元，與所述比對(duì)單元相連，用于比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異，確定差異具有統(tǒng)計(jì)意義且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍，所述第一高頻CDR3序列比例為所述第一CDR3序列種類中高頻CDR3序列種類數(shù)所占的比例，所述第二高頻CDR3序列比例為所述第二CDR3序列種類中高頻CDR3序列種類數(shù)所占的比例，所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05％的CDR3序列，所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05％的CDR3序列。本領(lǐng)域普通技術(shù)人員可以理解，通過對(duì)該裝置增加相應(yīng)功能單元或者子單元能夠?qū)崿F(xiàn)上述本發(fā)明任一具體實(shí)施方式的方法。前述對(duì)本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法的技術(shù)特征和效果的描述，同樣適用本發(fā)明的這一方面的裝置，在此不再贅述。依據(jù)本發(fā)明的再一方面，本發(fā)明提供一種輔助確定個(gè)體狀態(tài)的方法，該方法包括：提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸；對(duì)所述核酸中的CDR3序列進(jìn)行捕獲；對(duì)捕獲得的核酸進(jìn)行序列測(cè)定，獲得測(cè)序結(jié)果，所述測(cè)序結(jié)果包括多個(gè)讀段；對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接，獲得拼接片段；將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì)，獲得CDR3序列，所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種；基于獲得的CDR3序列，確定待測(cè)個(gè)體的高頻CDR3序列的比例，所述高頻CDR3序列的比例為高頻CDR3序列種類數(shù)目在所述CDR3序列種類總數(shù)中所占的比例，所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05％的CDR3序列；比較所述所述高頻CDR3序列的比例與其閾值的差異，以輔助確定個(gè)體狀態(tài)，所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法。所述閾值即為上述的差異具有統(tǒng)計(jì)意義且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍，或者該數(shù)值范圍的上下限。根據(jù)本發(fā)明的一些實(shí)施例，輔助確定個(gè)體狀態(tài)的方法還包括：確定以下(a)-(c)至少之一：(a)CDR3序列中的各種V亞型的使用頻率，所述V亞型的使用頻率為支持該V亞型的CDR3序列的種類數(shù)目與支持所有V亞型的CDR3序列的種類總數(shù)的比值，(b)CDR3序列中的各種V合并亞型的使用頻率，所述V合并亞型的使用頻率為支持該V合并亞型的CDR3序列的種類數(shù)目與支持所有V合并亞型的CDR3序列的種類總數(shù)的比值，(c)CDR3序列中的各種VJ組合亞型的使用頻率，所述VJ組合亞型的使用頻率為支持該VJ組合亞型的CDR3序列的種類數(shù)目與支持所有VJ組合亞型的CDR3序列的種類總數(shù)的比值；比較所述確定的(a)-(c)至少之一與其對(duì)應(yīng)閾值的差異，以輔助確定個(gè)體狀態(tài)。前述對(duì)本發(fā)明一方面的分析個(gè)體兩類狀態(tài)的免疫差異的方法的技術(shù)特征和優(yōu)點(diǎn)的描述，同樣適用本發(fā)明這一方面的輔助確定個(gè)體狀態(tài)的方法，在此不再贅述。依據(jù)本發(fā)明的又一方面，本發(fā)明提供一種輔助確定個(gè)體狀態(tài)的裝置，該裝置可以實(shí)施上述本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法。該裝置包括：核酸提取部，用于提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸；捕獲部，與核酸提取部相連，用于對(duì)所述核酸中的CDR3序列進(jìn)行捕獲；測(cè)序部，與捕獲部相連，用于對(duì)捕獲得的核酸進(jìn)行序列測(cè)定，獲得測(cè)序結(jié)果，所述測(cè)序結(jié)果包括多個(gè)讀段；拼接部，與測(cè)序部相連，用于對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接，獲得拼接片段；比對(duì)部，與拼接部相連，用于將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì)，獲得CDR3序列，所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種；免疫因素確定部，與比對(duì)部相連，用于基于獲得的CDR3序列，確定待測(cè)個(gè)體的高頻CDR3序列的比例，所述高頻CDR3序列的比例為高頻CDR3序列種類數(shù)目在所述CDR3序列種類總數(shù)中所占的比例，所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05％的CDR3序列；差異比較部，與免疫因素確定部相連，用于比較所述高頻CDR3序列的比例與其閾值的差異，以輔助確定個(gè)體狀態(tài)，所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法。本領(lǐng)域普通技術(shù)人員可以理解，通過對(duì)該裝置增加相應(yīng)功能單元或者子單元能夠?qū)崿F(xiàn)上述本發(fā)明任一具體實(shí)施方式的方法。前述對(duì)本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法的技術(shù)特征和優(yōu)點(diǎn)的描述，同樣適用本發(fā)明這一方面的裝置，在此不再贅述。本發(fā)明提供基于T細(xì)胞受體和/或B細(xì)胞受體的高變區(qū)域CDR3測(cè)序數(shù)據(jù)，進(jìn)行免疫相關(guān)分析、輔助確定個(gè)體狀態(tài)的方法和/或裝置，有效解決目前對(duì)免疫高通量數(shù)據(jù)分析及對(duì)鑒定出的CDR3區(qū)域進(jìn)行后續(xù)分析的局限和匱乏。本發(fā)明提供了基于鑒定出的CDR序列的分析方案及分析手段，能夠便于挖掘潛在可利用的生物信息，為免疫組庫的臨床應(yīng)用與科學(xué)研究提供助力。附圖說明本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施方式的描述中將變得明顯和容易理解，其中：圖1是本發(fā)明一個(gè)實(shí)施例中的分析個(gè)體兩類狀態(tài)的免疫差異的方法的步驟示意圖。圖2是本發(fā)明一個(gè)實(shí)施例中的分析個(gè)體兩類狀態(tài)的免疫差異的方法的步驟示意圖。圖3是本發(fā)明一個(gè)實(shí)施例中的分析個(gè)體兩類狀態(tài)的免疫差異的裝置示意圖。圖4是本發(fā)明一個(gè)實(shí)施例中的輔助確定個(gè)體免疫狀態(tài)的方法的步驟示意圖。圖5是本發(fā)明一個(gè)實(shí)施例中的輔助確定個(gè)體免疫狀態(tài)的裝置示意圖。圖6是本發(fā)明一個(gè)實(shí)施例中的利用HEC-rate分析對(duì)正常人及肝炎患者進(jìn)行區(qū)分的結(jié)果示意圖；圖6A為利用T檢驗(yàn)來檢驗(yàn)正常人與肝炎組血液樣品的HEC-rate的差異的示意圖，圖6B為對(duì)應(yīng)圖6A的ROC曲線評(píng)估結(jié)果(AUC值為0.8739)，圖6C為利用T檢驗(yàn)來檢驗(yàn)正常人與肝炎組組織樣品的HEC-rate的差異地示意圖，圖6D為對(duì)應(yīng)圖6C的ROC曲線評(píng)估結(jié)果(AUC值為0.7712)，其中，*表示P<0.05，***表示p<0.001。具體實(shí)施方式下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中，自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，僅用于解釋本發(fā)明，而不能理解為對(duì)本發(fā)明的限制。需要說明的，本文中所使用的術(shù)語“第一”、“第二”、“第一類”、“第二類”或者“第一部分”等僅為方便描述，不能理解為指示或暗示相對(duì)重要性，也不能理解為之間有先后順序關(guān)系。在本發(fā)明的描述中，除非另有說明，“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。在本文中，除非另有明確的規(guī)定和限定，術(shù)語“相連”、“連接”等術(shù)語應(yīng)做廣義理解，例如，可以是固定連接，也可以是可拆卸連接，或一體地連接；可以是機(jī)械連接，也可以是電連接；可以是直接相連，也可以通過中間媒介間接相連，可以是兩個(gè)元件內(nèi)部的連通。如圖1所示，依據(jù)本發(fā)明的一個(gè)實(shí)施例，提供一種分析個(gè)體兩類狀態(tài)的免疫差異的方法，該方法包括：S10獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)，所述第一測(cè)序數(shù)據(jù)為第一類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù)，包括多個(gè)第一讀段，所述第二測(cè)序數(shù)據(jù)為第二類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù)，包括多個(gè)第二讀段，所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分；S20分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接，獲得第一拼接序列和第二拼接序列；S30將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì)，獲得第一CDR3序列和第二CDR3序列，所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種；S40比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異，確定確定差異具有統(tǒng)計(jì)意義且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍，所述第一高頻CDR3序列比例為所述第一CDR3序列種類總數(shù)中高頻CDR3序列種類數(shù)所占的比例，所述第二高頻CDR3序列比例為所述第二CDR3序列種類總數(shù)中高頻CDR3序列種類數(shù)所占的比例，所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05％的CDR3序列，所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05％的CDR3序列。所稱的個(gè)體的兩類狀態(tài)可以是一個(gè)或者一群個(gè)體的不同時(shí)間點(diǎn)和/或不同空間位置的兩類狀態(tài)，也可以是不同個(gè)體或者不同群體在某個(gè)時(shí)間點(diǎn)和/或空間的各自的狀態(tài)，這里的狀態(tài)指免疫狀態(tài)，包括核酸和/或氨基酸水平上反映出的生物體免疫狀態(tài)。免疫差異指核酸和/或氨基酸水平上反映出的免疫狀態(tài)差異。所稱的頻率指出現(xiàn)的次數(shù)的比例，不同種類的CDR3序列不同，一種CDR3序列至少包含一條拼接序列，即一種CDR3序列至少有一條拼接序列的支持，亦即至少有一條拼接序列比對(duì)上該種CDR3序列的參考序列，例如，有三種CDR3序列分別表示為A序列、B序列和C序列，如果A序列的拼接序列支持?jǐn)?shù)有70條，B序列的拼接序列支持?jǐn)?shù)有20條，C序列的拼接序列支持?jǐn)?shù)有10條，則其中A序列的頻率是70/(70+20+10)，若定義超過50％的為高頻CDR3序列，則高頻CDR3序列的比例為1/3。所稱的區(qū)分包含區(qū)分效果，包括區(qū)分開兩類狀態(tài)的準(zhǔn)確率、精確度、特異性以及任意其它的可用以評(píng)估分類器分類效果的方法中的相關(guān)值。所稱第一和第二測(cè)序數(shù)據(jù)是通過測(cè)序獲得的，根據(jù)本發(fā)明的一個(gè)實(shí)施例，如圖2所示，該方法中的S10第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)獲取，包括：S11分別提取第一類狀態(tài)個(gè)體和第二類狀態(tài)個(gè)體的淋巴細(xì)胞中的核酸，獲得第一核酸和第二核酸；S13分別捕獲第一核酸和第二核酸中的CDR3序列；S15分別對(duì)捕獲得的核酸進(jìn)行測(cè)序文庫構(gòu)建，獲得第一測(cè)序文庫和第二測(cè)序文庫；S17對(duì)所述第一測(cè)序文庫和第二測(cè)序文庫進(jìn)行測(cè)序，獲得第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)。文庫的構(gòu)建方法根據(jù)所選擇的測(cè)序方法的要求進(jìn)行，測(cè)序方法依據(jù)測(cè)序平臺(tái)的不同可選擇但不限于Illumina公司的Hisq2000/2500測(cè)序平臺(tái)、LifeTechnologies公司的IonTorrent平臺(tái)和單分子測(cè)序平臺(tái)，測(cè)序方式可以選擇單端測(cè)序，也可以選擇雙末端測(cè)序，獲得的下機(jī)數(shù)據(jù)是測(cè)讀出來的片段，稱為讀段(reads)。在本發(fā)明的一個(gè)實(shí)施例中，所述捕獲利用多重PCR實(shí)現(xiàn)，例如利用IMGT數(shù)據(jù)庫中的已知CDR3序列自己設(shè)計(jì)或者委托設(shè)計(jì)合成多重引物或者使用市售試劑盒，利用這些引物使核酸中的CDR3序列富集，減少非目的區(qū)域例如非免疫相關(guān)區(qū)域數(shù)據(jù)的帶入或比例，利于提高目標(biāo)區(qū)域分析效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例，利用雙末端測(cè)序獲得成對(duì)讀段，該方法中的第一測(cè)序數(shù)據(jù)包括多對(duì)第一讀段對(duì)，每對(duì)第一讀段對(duì)由兩個(gè)第一讀段組成，該方法中的第二測(cè)序數(shù)據(jù)包括多對(duì)第二讀段對(duì)，每對(duì)第二讀段對(duì)由兩個(gè)第二讀段組成。在該實(shí)施例中，所述拼接是依據(jù)有重疊的第一讀段或第二讀段，以及第一讀段對(duì)或者第二讀段對(duì)中兩個(gè)讀段之間的距離來進(jìn)行的。拼接也稱為組裝，組裝可使用soapdenovo等軟件進(jìn)行，所得的拼接序列也稱為重疊群(contigs)。所稱比對(duì)可以利用已知比對(duì)軟件，例如利用SOAP、BWA和TeraMap等使用或調(diào)整其默認(rèn)參數(shù)進(jìn)行。根據(jù)本發(fā)明的一個(gè)實(shí)施例，所述多種CDR3參考序列包括V基因參考序列和J基因參考序列，優(yōu)選的，V基因參考序列包括全部各個(gè)V區(qū)基因參考序列，J基因參考序列包括全部各個(gè)J區(qū)基因參考序列。所稱的參考序列指預(yù)先確定的序列，可以是預(yù)先獲得的待測(cè)樣本所屬或者所包含的生物類別的任意參考模板，例如，若待測(cè)樣本來源的個(gè)體為人類，參考序列可選擇NCBI數(shù)據(jù)庫提供的HG19，進(jìn)一步地，也可以預(yù)先配置包含更多參考序列的資源庫，例如依據(jù)待測(cè)樣本來源個(gè)體的狀態(tài)、地域等因素選擇或是測(cè)定組裝出更接近的序列作為參考序列。在本發(fā)明的一個(gè)實(shí)施例中，所述將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì)，包括：將所述第一拼接序列和第二拼接序列分別與所述多種CDR3參考序列進(jìn)行比對(duì)，獲得第一比對(duì)結(jié)果和第二比對(duì)結(jié)果，其中，所述第一比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第一拼接序列，所述第二比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第二拼接序列；基于所述第一比對(duì)結(jié)果，確定其中的第一拼接序列上的CDR3序列的起始位置，基于所述第二比對(duì)結(jié)果，確定其中的第二拼接序列上的CDR3序列的起始位置；分別將第一比對(duì)結(jié)果中的第一拼接序列上的CDR3序列起始位置之后的部分和第二比對(duì)結(jié)果中的第二拼接序列上的CDR3序列起始位置之后的部分與所述多種CDR3參考序列進(jìn)行重新比對(duì)，獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果。在本發(fā)明的一個(gè)實(shí)施例中，上述重新比對(duì)的比對(duì)條件設(shè)置為：與所述V基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為0，與所述V基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2，和/或與所述J基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為0，與所述J基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2。依據(jù)拼接序列比對(duì)上參考序列的位置以及CDR3序列的特點(diǎn)，將拼接序列上的CDR3序列起始位置確定出，且以不同的比對(duì)條件例如相對(duì)更嚴(yán)格的比對(duì)條件將CDR3序列起始位置之后的部分進(jìn)行重新比對(duì)，利于獲得這些拼接序列的準(zhǔn)確信息，利于提高后續(xù)基于這些contigs的免疫差異分析的準(zhǔn)確性。根據(jù)本發(fā)明的一個(gè)實(shí)施例，在獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果后，還包括：分別對(duì)所述第一重新比對(duì)結(jié)果和所述第二重新比對(duì)結(jié)果進(jìn)行過濾，以獲得所述第一CDR3序列和所述第二CDR3序列，其中包括，分別去除第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果中的符合以下描述任意之一的拼接序列：其所屬的CDR3序列種類的拼接序列支持?jǐn)?shù)為1，即這種CDR3序列中只包含這一條拼接序列，這種CDR3序列可靠性低，未能比對(duì)上V基因參考序列或者J基因參考序列，比對(duì)上所述CDR3參考序列的假基因參考序列區(qū)，比對(duì)上一個(gè)V基因參考序列和一個(gè)J基因參考序列、且比對(duì)上二者的方向相反，無法確定其上的CDR3的起始位置，含終止密碼子或者不含開放閱讀框。所稱的比對(duì)上，指在比對(duì)過程中一般對(duì)比對(duì)參數(shù)進(jìn)行設(shè)置，例如設(shè)置一條拼接序列最多允許有s個(gè)堿基錯(cuò)配(mismatch)，如設(shè)置為s≤3，若該拼接序列中有超過s個(gè)堿基發(fā)生錯(cuò)配，則視該序列無法比對(duì)到(比對(duì)上)參考序列。比對(duì)上假基因區(qū)的拼接序列對(duì)后續(xù)分析意義不大。比對(duì)上V基因參考序列和J基因參考序列、但比對(duì)上二者的方向相反的拼接序列多數(shù)是由于組裝錯(cuò)誤去除的，所說的方向可以以參考序列的方向?yàn)閰⒄铡Ｈコ陨线@些contigs信息不明確、難以明確、無義、錯(cuò)誤或者低可靠性的contigs的干擾，利于提高后續(xù)免疫差異分析的準(zhǔn)確性和效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例，該方法(1)中的第一高頻CDR3序列為在所述第一CDR3序列中頻率不大于0.5％的CDR3序列，第二高頻CDR3序列為在所述第二CDR3序列中頻率不大于0.5％的CDR3序列。增加對(duì)高頻CDR3序列的頻率的上限的限定，去除離群的高頻CDR序列，使統(tǒng)計(jì)分析結(jié)果更具有意義。根據(jù)本發(fā)明的一個(gè)實(shí)施例，利用ROC分析確定所說的區(qū)分的區(qū)分效果。ROC分析指ROC曲線(receiveroperatingcharacteristiccurve，接收者操作特征曲線)，是一種二元分類模型，即輸出結(jié)果只有兩種類別的模型?？紤]一個(gè)二分問題，即將實(shí)例分成正類(positive)或負(fù)類(negative)，對(duì)一個(gè)二分問題來說，會(huì)出現(xiàn)四種情況：如果一個(gè)實(shí)例是正類并且也被預(yù)測(cè)成正類，即為真正類(Truepositive，TP)，如果實(shí)例是負(fù)類被預(yù)測(cè)成正類，稱之為假正類(Falsepositive，F(xiàn)P)，相應(yīng)地，如果實(shí)例是負(fù)類被預(yù)測(cè)成負(fù)類，稱之為真負(fù)類(Truenegative，TN)，正類被預(yù)測(cè)成負(fù)類則為假負(fù)類(falsenegative，F(xiàn)N)。TP：正確肯定的數(shù)目；FN：漏報(bào)，沒有正確找到的匹配的數(shù)目；FP：誤報(bào)，給出的匹配是不正確的；TN：正確拒絕的非匹配對(duì)數(shù)。在一個(gè)二分類模型中，對(duì)于所得到的連續(xù)結(jié)果，這邊的連續(xù)結(jié)果指高頻CDR3序列比例對(duì)多個(gè)第一類狀態(tài)和第二類狀態(tài)個(gè)體的分類結(jié)果，假設(shè)已確定差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閾值，比如說0.3，大于這個(gè)值的個(gè)體劃歸為第一類狀態(tài)(正類)，小于這個(gè)值則劃到第二類狀態(tài)(負(fù)類)。如果減小閾值，減到0.2，固然能識(shí)別出更多的第一類狀態(tài)個(gè)體，也就是提高了識(shí)別出的正類占所有正類的比例，即TPR(truepositiverate，真正類率)，但同時(shí)也將更多的負(fù)類當(dāng)作了正類，即提高了FPR(falsepositiverate，假正類率)。為了形象化這一變化，引入ROC，ROC曲線可以用于評(píng)價(jià)一個(gè)分類器，即評(píng)價(jià)這一差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閾值。AUC(AreaUnderrocCurve) 為ROC曲線下方的面積，AUC值介于0.5到1.0之間，AUC越大，分類器分類效果越好。根據(jù)本發(fā)明的一個(gè)實(shí)施例，該方法還包括：確定區(qū)分效果達(dá)到預(yù)定要求的高頻CDR3序列比例的范圍。在本發(fā)明的一個(gè)實(shí)施例中，比較肝癌人群和正常健康人群，或者比較肝癌人群和肝炎人群的高頻CDR3序列比例，確定肝癌人群的所述高頻CDR3序列比例的數(shù)值范圍為0.0090-0.0014，這里，通過擴(kuò)增T細(xì)胞受體β鏈CDR3并進(jìn)行高通量測(cè)序，對(duì)肝癌患者及正常人組織和血液中的TCRβ鏈CDR3的多樣性及特異性進(jìn)行比較分析，發(fā)現(xiàn)使用血液樣品就能對(duì)正常人和肝炎患者進(jìn)行有效的區(qū)分，這為輔助肝癌的早期無創(chuàng)診斷提供了可能。因此，檢測(cè)待測(cè)者外周血TCRβ鏈CDR3的表達(dá)特征，可輔助結(jié)合臨床用于肝炎的無創(chuàng)早期診斷檢測(cè)。需要說明的是，這個(gè)確定出的高頻CDR3序列比例的數(shù)值范圍能夠作為區(qū)分開肝癌和健康人群的一個(gè)免疫差異因素或者輔助判斷個(gè)體屬于哪一類狀態(tài)，但僅依此還未能用于診斷判斷個(gè)體是否為肝癌患者。根據(jù)本發(fā)明的一些實(shí)施例，該分析個(gè)體兩類狀態(tài)的免疫差異的方法還包括：比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異，確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類數(shù)目與支持所有V亞型的第一CDR3序列的種類總數(shù)的比值，第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類數(shù)目與支持所有V亞型的第二CDR3序列的種類總數(shù)的比值；和/或，比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異，確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，第一CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第一CDR3序列的種類數(shù)目與支持所有V合并亞型的第一CDR3序列的種類總數(shù)的比值，第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類數(shù)目與支持所有V合并亞型的第二CDR3序列的種類總數(shù)的比值；和/或，比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異，確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類總數(shù)的比值，第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類總數(shù)的比值。進(jìn)一步比較兩類狀態(tài)個(gè)體的V亞型、V合并亞型和/或VJ組合亞型的使用頻率的差異，以進(jìn)一步分析兩類狀態(tài)的免疫差異。對(duì)應(yīng)的，在本發(fā)明的一些實(shí)施例中，所述確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，包括：利用主成分分析方法(PrincipalComponentAnalysis， PCA)確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V亞型，以及，利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果；當(dāng)?shù)谝粻顟B(tài)和第二狀態(tài)分別為肝癌人群和正常人群時(shí)，利用PCA確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的主成分1包括的V亞型為TRBV18、TRBV4-1、TRBV4-2和TRBV6-9，這四個(gè)V亞型對(duì)這兩狀態(tài)的區(qū)分能力能夠代表反映所有的差異具有顯著性的V亞型對(duì)這兩狀態(tài)的區(qū)分能力的95％，或者利用PCA，確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的主成分1包括的V亞型為TRBV4-1、TRBV18和TRBV6-9，這三個(gè)V亞型能夠代表反映所有的差異具有顯著性的V亞型對(duì)這兩狀態(tài)的區(qū)分能力的90％；主成分分析(PCA)是多元統(tǒng)計(jì)分析中用來分析數(shù)據(jù)的一種方法，它是用一種較少數(shù)量的特征對(duì)樣本進(jìn)行描述以達(dá)到降低特征空間維數(shù)的方法，它的本質(zhì)實(shí)際上是K-L變換。PCA把原先的n個(gè)特征用數(shù)目更少的m個(gè)特征取代，新特征是舊特征的線性組合。CDR3V基因有幾十個(gè)，各個(gè)V基因也稱為V亞型或者V區(qū)基因，一般會(huì)得到的具有統(tǒng)計(jì)意義的多個(gè)V亞型，PCA能對(duì)高維數(shù)據(jù)進(jìn)行降維，即得出權(quán)重較大(特征值)的V亞型，權(quán)重較大的V亞型對(duì)分類起了主要作用，經(jīng)過降維同時(shí)也除去了噪聲。在本發(fā)明的一個(gè)實(shí)施例中，TRBV18、TRBV4-1、TRBV4-2和TRBV6-9這四個(gè)V亞型的特征值占到所有確定出的V亞型的特征值之和的95％，可將這四個(gè)V亞型作為主成分，這里的特征值為PCA中的概念，若AX＝λX，則稱λ是矩陣A的特征值，X是對(duì)應(yīng)的特征向量，可以這樣理解：矩陣A作用在它的特征向量X上，僅僅使得X的長(zhǎng)度發(fā)生了變化，縮放比例就是相應(yīng)的特征值λ。根據(jù)本發(fā)明的一個(gè)實(shí)施例，所述確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，包括：利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V合并亞型，以及，利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V合并亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。V合并亞型指合并的V區(qū)基因，例如，根據(jù)IMGT數(shù)據(jù)庫(http://www.imgt.org/)，48個(gè)V區(qū)基因片段可合并成23個(gè)進(jìn)行分析，當(dāng)獲得的差異具有統(tǒng)計(jì)意義的V合并亞型有多個(gè)，利用PCA能夠進(jìn)行降維，確定主成分，即對(duì)分類起主要作用的V合并亞型。進(jìn)行ROC分析，依據(jù)ROC曲線及其AUC值，能夠評(píng)估分類器即主成分的分類效果。根據(jù)本發(fā)明的一個(gè)實(shí)施例，所述確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，包括：利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的VJ組合亞型，以及，利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的VJ組合亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果；當(dāng)?shù)谝粻顟B(tài)和第二狀態(tài)分別為肝癌組織和肝癌旁組織，利用PCA降維確定出所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的主成分包括的VJ組合亞型為TRBV6-4TRBJ1-1和TRBV6-4TRBJ2-2，這兩個(gè)VJ組合亞型能夠反映代表所有的差異具有顯著性的VJ組合亞型對(duì)這兩狀態(tài)的區(qū)分能力的95％。VJ組合亞型指V區(qū)基因和/或V合并亞型與J區(qū)基因的組合，當(dāng)獲得的差異具有統(tǒng)計(jì)意義的VJ組合亞型有多個(gè)，利用PCA能夠進(jìn)行降維，確定主成分，即確定對(duì)分類起主要作用的VJ組合亞型。而進(jìn)行ROC分析，依據(jù)ROC曲線及其AUC值，能夠評(píng)估分類器即主成分的分類效果。如圖3所示，依據(jù)本發(fā)明的另一方面，本發(fā)明提供一種分析個(gè)體兩類狀態(tài)的免疫差異的裝置100，該裝置100可以用以實(shí)施上述本發(fā)明任一實(shí)施方式的分析個(gè)體兩類狀態(tài)的免疫差異的方法，裝置100包括：測(cè)序數(shù)據(jù)獲取單元10，用于獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)，所述第一測(cè)序數(shù)據(jù)為第一類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù)，包括多個(gè)第一讀段，所述第二測(cè)序數(shù)據(jù)為第二類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù)，包括多個(gè)第二讀段，所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分；拼接單元20，與所述測(cè)序數(shù)據(jù)獲取單元10連接，用于分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接，獲得第一拼接序列和第二拼接序列；比對(duì)單元30，與所述拼接單元20相連，用于將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì)，獲得第一CDR3序列和第二CDR3序列，所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種；免疫差異分析單元40，與所述比對(duì)單元30相連，用于比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異，確定差異具有統(tǒng)計(jì)意義且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍，所述第一高頻CDR3序列比例為所述第一CDR3序列種類總數(shù)中高頻CDR3序列種類數(shù)所占的比例，所述第二高頻CDR3序列比例為所述第二CDR3序列種類總數(shù)中高頻CDR3序列種類數(shù)所占的比例，所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05％的CDR3序列，所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05％的CDR3序列。在本發(fā)明的一些實(shí)施例中，免疫差異分析單元40還用于進(jìn)行以下(a)-(c)至少之一：(a)比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異，確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類數(shù)目與支持所有V亞型的第一CDR3序列的種類總數(shù)的比值，第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類數(shù)目與支持所有V亞型的第二CDR3序列的種類總數(shù)的比值，(b)比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異，確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，第一CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第一CDR3序列的種類數(shù)目與支持所有V合并亞型的第一CDR3序列的種類總數(shù)的比值，第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類數(shù)目與支持所有V合并亞型的第二CDR3序列的種類總數(shù)的比值，(c)比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異，確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果，第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類總數(shù)的比值，第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類總數(shù)的比值。本領(lǐng)域普通技術(shù)人員可以理解，通過對(duì)該裝置增加相應(yīng)功能單元或者子單元能夠?qū)崿F(xiàn)上述本發(fā)明任一具體實(shí)施方式的方法。前述對(duì)本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法的技術(shù)特征和效果的描述，同樣適用本發(fā)明的這一方面的裝置，在此不再贅述。如圖4所示，依據(jù)本發(fā)明的再一方面，提供一種輔助確定個(gè)體狀態(tài)的方法，該方法包括步驟：S100提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸；S200對(duì)所述核酸中的CDR3序列進(jìn)行捕獲；S300對(duì)捕獲得的核酸進(jìn)行序列測(cè)定，獲得測(cè)序結(jié)果，所述測(cè)序結(jié)果包括多個(gè)讀段；S400對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接，獲得拼接片段；S500將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì)，獲得CDR3序列，所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種；S600基于獲得的CDR3序列，確定待測(cè)個(gè)體的高頻CDR3序列的比例，所述高頻CDR3序列的比例為高頻CDR3序列種類數(shù)目在所述CDR3序列種類數(shù)中所占的比例，所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05％的CDR3序列；S700比較所述高頻CDR3序列的比例與其相應(yīng)閾值的差異，以輔助確定個(gè)體狀態(tài)，所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法，閾值即為上述確定出的數(shù)值范圍或者為數(shù)值范圍的上下限。在本發(fā)明的一些實(shí)施例中，該方法的S600還包括進(jìn)行以下(1)-(3)至少之一：(1)CDR3序列中的各種V亞型的使用頻率，所述V亞型的使用頻率為支持該V亞型的CDR3序列的種類數(shù)目與支持所有V亞型的CDR3序列的種類總數(shù)的比值，(2)CDR3序列中的各種V合并亞型的使用頻率，所述V合并亞型的使用頻率為支持該V合并亞型的CDR3序列的種類數(shù)目與支持所有V合并亞型的CDR3序列的種類總數(shù)的比值，(3)CDR3序列中的各種VJ組合亞型的使用頻率的差異，所述VJ組合亞型的使用頻率為支持該VJ組合亞型的CDR3序列的種類數(shù)目與支持所有VJ組合亞型的CDR3序列的種類總數(shù)的比值；相應(yīng)的，S700還包括比較S600中確定的(1)-(3)的至少之一與其相應(yīng)閾值的差異，以輔助確定個(gè)體狀態(tài)。前述對(duì)本發(fā)明一方面的分析個(gè)體兩類狀態(tài)的免疫差異的方法的技術(shù)特征和優(yōu)點(diǎn)的描述，同樣適用本發(fā)明這一方面的輔助確定個(gè)體狀態(tài)的方法，在此不再贅述。如圖5所示，依據(jù)本發(fā)明的又一方面，提供一種輔助確定個(gè)體狀態(tài)的裝置1000，該裝置1000可以實(shí)施上述本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法。該裝置1000包括：核酸提取部100，用于提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸；捕獲部200，與核酸提取部100相連，用于對(duì)所述核酸中的CDR3序列進(jìn)行捕獲；測(cè)序部300，與捕獲部200相連，用于對(duì)捕獲得的核酸進(jìn)行序列測(cè)定，獲得測(cè)序結(jié)果，所述測(cè)序結(jié)果包括多個(gè)讀段；拼接部400，與測(cè)序部300相連，用于對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接，獲得拼接片段；比對(duì)部500，與拼接部400相連，用于將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì)，獲得CDR3序列，所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種；免疫因素確定部600，與比對(duì)部500相連，用于基于獲得的CDR3序列，確定待測(cè)個(gè)體的高頻CDR3序列的比例，所述高頻CDR3序列的比例為高頻CDR3序列種類數(shù)目在所述CDR3序列種類總數(shù)中所占的比例，所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05％的CDR3序列；差異比較部700，與免疫因素確定部600相連，用于比較所述高頻CDR3序列的比例與其相應(yīng)閾值的差異，以輔助確定個(gè)體狀態(tài)，所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法。在本發(fā)明的一些實(shí)施例中，免疫因素確定部600還用于進(jìn)行以下(i)-(iii)至少之一：(i)CDR3序列中的各種V亞型的使用頻率，所述V亞型的使用頻率為支持該V亞型的CDR3序列的種類數(shù)目與支持所有V亞型的CDR3序列的種類總數(shù)的比值，(ii)CDR3序列中的各種V合并亞型的使用頻率，所述V合并亞型的使用頻率為支持該V合并亞型的CDR3序列的種類數(shù)目與支持所有V合并亞型的CDR3序列的種類總數(shù)的比值，(iii)CDR3序列中的各種VJ組合亞型的使用頻率的差異，所述VJ組合亞型的使用頻率為支持該VJ組合亞型的CDR3序列的種類數(shù)目與支持所有VJ組合亞型的CDR3序列的種類總數(shù)的比值；相應(yīng)的，差異比較部700還用于比較所述(i)-(iii)至少之一與其對(duì)應(yīng)閾值的差異，以輔助確定個(gè)體狀態(tài)。前述對(duì)本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法的技術(shù)特征和優(yōu)點(diǎn)的描述，同樣適用本發(fā)明這一方面的裝置，在此不再贅述。為了使本發(fā)明技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合實(shí)施例對(duì)本發(fā)明的分析個(gè)體兩類狀態(tài)的免疫差異的方法和/或裝置、輔助確定個(gè)體免疫狀態(tài)的方法和/或裝置進(jìn)行詳細(xì)的描述。應(yīng)當(dāng)理解，下面示例用于解釋本發(fā)明，不是對(duì)本發(fā)明的限制。需要說明的是在本文中所使用的術(shù)語“第一”、“第二”等僅為方便描述，不能理解為指示或暗示相對(duì)重要性，也不能理解為之間有先后順序關(guān)系。在本發(fā)明的描述中，除非另有說明，“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。除另有交待，以下實(shí)施例中涉及的未特別交待的試劑、序列(接頭、標(biāo)簽和引物)、軟件及儀器，都是常規(guī)市售產(chǎn)品或者開源的，例如購(gòu)買Illumina的測(cè)序文庫構(gòu)建試劑盒。實(shí)施例一一般方法，包括：首先，對(duì)CDR3進(jìn)行測(cè)序與鑒定：用淋巴細(xì)胞分離液分離外周血T/B淋巴細(xì)胞，提取DNA(或RNA)，采用多重PCR/5'RACE對(duì)CDR3進(jìn)行捕獲，通過Hiseq2000或Hiseq2500或Miseq平臺(tái)進(jìn)行高通量測(cè)序。對(duì)所測(cè)數(shù)據(jù)進(jìn)行質(zhì)控后比對(duì)到IMGT數(shù)據(jù)庫(http://www.imgt.org/)，確定其CDR3序列。其次，對(duì)免疫結(jié)果的分析：高頻CDR3序列即為高增殖克隆(highlyexpandedclone)，定義HEC比率——高增殖克隆比率(highlyexpandedclone-rate，HECrate)為頻率超過0.05％，較佳的，頻率不超過0.5％的CDR3的種類數(shù)目占CDR3種類總數(shù)的比例。對(duì)差異使用的V亞型、V合并亞型(Vmerge)和/或VJ組合亞型進(jìn)行PCA分析。涉及的細(xì)節(jié)與步驟如下：常規(guī)統(tǒng)計(jì)量部分說明：1、CDR3豐度，通過測(cè)序出的免疫數(shù)據(jù)，質(zhì)控糾錯(cuò)后通過比對(duì)軟件與IMGT網(wǎng)站免疫參考序列進(jìn)行比對(duì)，確定CDR3支持的reads數(shù)(支持CDR3的reads即為比對(duì)上該CDR3的reads)，并計(jì)算出每種CDR3克隆所占比率。2、CDR3長(zhǎng)度，即對(duì)鑒定出的CDR3序列長(zhǎng)度進(jìn)行統(tǒng)計(jì)。3、VJ使用(VJ組合亞型使用頻率)，即通過對(duì)確定的CDR3序列所比對(duì)上的VJ情況進(jìn)行VJ連用的所占比率。單獨(dú)統(tǒng)計(jì)V亞型或者J亞型使用頻率。4、HECrate，統(tǒng)計(jì)分析高頻CDR3序列的豐度(如0.1％～0.5％)占總體序列種類數(shù)的比率達(dá)到某個(gè)閾值或落入某個(gè)范圍。具體分析內(nèi)容說明：1.HECrate比較統(tǒng)計(jì)頻率超過0.1％(或者0.1％～0.5％)的CDR3種類數(shù)目占CDR3種類總數(shù)的比例。用T檢驗(yàn)等檢驗(yàn)兩組個(gè)體之間是否存在差異，例如檢驗(yàn)?zāi)臣膊〗M與正常組之間是否存在差異。2.V、J亞型分析2.1V亞型以及VJ組合亞型關(guān)聯(lián)分析統(tǒng)計(jì)不同V亞型下樣本的相對(duì)豐度，并對(duì)疾病組和對(duì)照組樣本進(jìn)行T檢驗(yàn)、Wilcox檢驗(yàn)等，來找到P值<0.01的V亞型。或者依據(jù)不同V亞型區(qū)分疾病組和對(duì)照組的最小錯(cuò)誤率，找出最小錯(cuò)誤率最低的V亞型，這些V亞型即有可能與研究目的相關(guān)。或者對(duì)訓(xùn)練集挑選出的相關(guān)亞型在測(cè)試集中進(jìn)行ROC分析并計(jì)算AUC值，對(duì)于區(qū)分效果明顯者亦可使用全部亞型進(jìn)行區(qū)分，不進(jìn)行P值挑選。VJ使用或V合并亞型分析類似。2.2對(duì)V亞型或VJ亞型進(jìn)行PCA分析統(tǒng)計(jì)不同V亞型下樣本的相對(duì)豐度，然后用PCA(主成分分析)的方法算出各個(gè)樣本的第一主成分和第二主成分的值作圖，看是否有疾病組和對(duì)照組的分開聚集現(xiàn)象，如是否使兩類狀態(tài)達(dá)到線性可分。如果某個(gè)主成分可以很好的區(qū)分疾病組和對(duì)照組，對(duì)訓(xùn)練集找出有差異的V亞型，在測(cè)試集中進(jìn)行驗(yàn)證，并對(duì)測(cè)試集進(jìn)行ROC分析并計(jì)算AUC值。多次隨機(jī)抽取訓(xùn)練集與測(cè)試集，求出AUC均值，以判斷挑選出的亞型在疾病差別中是否穩(wěn)定。VJ組合亞型，合并V型同理分析。通過此方法，可尋找不同指標(biāo)來對(duì)人群進(jìn)行區(qū)分，進(jìn)而可找出或者輔助找出某此疾病潛在的Bio-mark，利于達(dá)到無創(chuàng)檢測(cè)目的，亦有利于輔助對(duì)疾病的治療進(jìn)行預(yù)后的監(jiān)控。由于免疫反應(yīng)的特性，免疫的研究對(duì)早期檢測(cè)可能優(yōu)于現(xiàn)有技術(shù)水平，對(duì)免疫數(shù)據(jù)的積累，后期可能達(dá)到一次測(cè)序，檢查多項(xiàng)疾病的目的，能極大的提高人民健康水平。實(shí)施例二以T淋巴細(xì)胞為研究目標(biāo)，采用優(yōu)化的多重PCR的技術(shù)對(duì)T細(xì)胞受體β鏈最具多樣性的互補(bǔ)決定區(qū)CDR3區(qū)進(jìn)行擴(kuò)增，擴(kuò)增引物、擴(kuò)增方法、文庫構(gòu)建測(cè)序等可按照CN103205420A中描述的進(jìn)行，獲得下機(jī)數(shù)據(jù)，全面分析TCR組成，評(píng)估免疫系統(tǒng)的多樣性，挖掘免疫組庫與肝癌、肝炎、直腸癌的發(fā)生和發(fā)展的關(guān)系信息。該方法包括如下步驟：(一)根據(jù)T細(xì)胞受體CDR3序列，設(shè)計(jì)Vsegment和Jsegment引物如CN103205420A，以及參考序列構(gòu)建，包括從數(shù)據(jù)庫中獲得已知CDR3序列集合。(二)樣本制備1.抽取待檢者外周血5mL，存于EDTA抗凝管中，使用Ficoll淋巴細(xì)胞分離液在3h內(nèi)進(jìn)行外周血PBMC分離；2.trizol法提取總RNA；3.RNA定量檢測(cè)；(三)文庫制備及測(cè)序1.RNA逆轉(zhuǎn)錄為cDNA；2.多重PCR擴(kuò)增T細(xì)胞受體β鏈CDR3序列，切膠回收目的片段；3.對(duì)T細(xì)胞受體β鏈CDR3片段進(jìn)行末端修復(fù)；4.對(duì)T細(xì)胞受體β鏈CDR3片段末端加A；5.連接接頭(Adapter)；6.連接產(chǎn)物PCR擴(kuò)增；7.連接產(chǎn)物磁珠純化；8.文庫定量及質(zhì)控；9.IlluminaHiSeq2500/2000上機(jī)測(cè)序；(四)下機(jī)數(shù)據(jù)進(jìn)行生物信息分析1.SOAPnuke過濾：去除低質(zhì)量reads；2.利用拼接程序，將PEreads進(jìn)行拼接合并；3.拼接好的數(shù)據(jù)與參考序列比對(duì)；4.重新比對(duì)；5.重比對(duì)結(jié)果過濾；6.相關(guān)統(tǒng)計(jì)及作圖分析。個(gè)體在無抗原刺激時(shí)，TCR基因重排是隨機(jī)的，因此正常人外周T細(xì)胞呈多家族、多克隆性特點(diǎn)。當(dāng)抗原刺激后，TCRV區(qū)基因可對(duì)該抗原產(chǎn)生特異性識(shí)別，并使帶有這類基因的T細(xì)胞得到優(yōu)勢(shì)擴(kuò)增，通過對(duì)待檢者外周血PBMC中的T細(xì)胞受體β鏈CDR3進(jìn)行擴(kuò)增及高通量測(cè)序，對(duì)TCRV區(qū)基因多樣性分布及變化進(jìn)行分析，進(jìn)而分析不同TCRV亞家族T細(xì)胞的表達(dá)和利用，從而可以發(fā)現(xiàn)差異，這些差異可能能夠應(yīng)用或者輔助應(yīng)用于另一種狀態(tài)，另一種正?；虍惓顟B(tài)，如肝癌、肝炎、直腸癌等的早期無創(chuàng)診斷檢測(cè)、發(fā)病進(jìn)展監(jiān)測(cè)、指導(dǎo)腫瘤術(shù)后效果檢測(cè)評(píng)估等。例如，通過對(duì)待檢者的細(xì)胞免疫水平進(jìn)行綜合評(píng)價(jià)，進(jìn)行腫瘤的早期無創(chuàng)診斷；進(jìn)一步通過比較患者手術(shù)/用藥前后的免疫組庫變化來監(jiān)測(cè)疾病發(fā)展，評(píng)估預(yù)后效果，指導(dǎo)選擇合適的治療方案，預(yù)防腫瘤復(fù)發(fā)。若用于輔助臨床檢測(cè)，具有如下優(yōu)勢(shì)：1)微創(chuàng)性：受檢者只需要提供5-10mL外周血樣本；2)實(shí)時(shí)性：可對(duì)受檢者進(jìn)行多次實(shí)時(shí)采血，輔助早期篩查時(shí)的定期檢測(cè)，監(jiān)控腫瘤發(fā)病風(fēng)險(xiǎn)，腫瘤患者可在手術(shù)后、化療后隨時(shí)檢測(cè)，以分析手術(shù)預(yù)后情況及化療效果；3)高通量：基于新一代測(cè)序技術(shù)的免疫組庫測(cè)序，能夠在很短的時(shí)間內(nèi)同時(shí)進(jìn)行多例樣本檢測(cè)。一次測(cè)序得到百萬級(jí)別條數(shù)的序列信息。實(shí)施例三17例肝炎患者樣本：包括肝組織樣本以及同期的外周血樣本健康人的樣本：20例健康志愿者的外周血樣本。9例志愿者的正常肝組織樣本。免疫組庫測(cè)序檢測(cè)以外周血中分離的PBMC作為研究對(duì)象，內(nèi)容如下：1.外周血取樣1)取患者外周血樣本5ml于EDTA抗凝管中。上下輕輕顛倒4-6次充分混勻后，室溫放置，并在2小時(shí)以內(nèi)完成PBMC分離工作；2)加入3倍體積的無菌生理鹽水，上下顛倒混勻；3)取3ml細(xì)胞分層液于15ml離心管中，并小心的吸取2)步稀釋的全血細(xì)胞4ml沿管壁疊加于分層液面上，體積大于4ml的分多管進(jìn)行。水平離心，400g，室溫條件下離心30分鐘；4)小心吸取淋巴細(xì)胞層，置于另一離心管中，加入5倍以上體積的無菌生理鹽水，400g室溫條件下離心10分鐘；5)倒掉上清液，加入1mlTRIzol。用吸頭反復(fù)吹打細(xì)胞直至看不見成團(tuán)的細(xì)胞塊，整個(gè)溶液呈清亮而不粘稠的狀態(tài)；轉(zhuǎn)移至2ml離心管。6)液氮速凍后-80°保存，干冰盒運(yùn)輸，避免反復(fù)凍融。2.RNA的提取1)每管PBMC(組織樣本經(jīng)液氮研磨后)加入1mlTrizol，混均，冰上放置5min。2)加入氯仿0.2ml/管，振搖15s。15-30℃孵育2-3min，4℃,12000g，離心15min。3)吸取上層無色液體轉(zhuǎn)移至新的EP管中。4)加入等體積異丙醇，混勻，15-30℃孵育10-30min，4℃,12000g，離心10min。5)去上清，加入75％乙醇1ml，渦旋振蕩30s，4℃,7500g，離心5min。6)吸凈上清，管內(nèi)沉淀在超凈臺(tái)中鼓風(fēng)靜置3-5min。7)加入20ulDEPC水溶解，-80℃冰箱保存。3.RNA反轉(zhuǎn)錄(RNAreversetranscripsion)RNA(補(bǔ)DEPCH2O)10ul(RNA總量200ng)ReversePrimer1ul65℃變性5min后立即置于冰上，依次加入以下體系：4.文庫構(gòu)建4.1多重PCR(multiplexpolymerchainreaction)擴(kuò)增T細(xì)胞受體CDR3區(qū)4.1.1使用QIAGEN公司的MultiplexPCR試劑盒，配置PCR的反應(yīng)體系，進(jìn)行PCR。PCR反應(yīng)條件：4.1.2多重PCR產(chǎn)物,QIAquickGelPurificationKit純化膠回收產(chǎn)物1)配置2％的回收膠。2)將多重PCR產(chǎn)物進(jìn)行電泳，400mA，100V，電泳2h。3)EB染膠。4)片段選擇：100-200bp。5)使用30ul超純水進(jìn)行回溶。4.2末端修復(fù)1)在1.5ml的離心管中配制末端修復(fù)反應(yīng)體系：2)上述100μL反應(yīng)混合物輕微振蕩混合均勻,瞬時(shí)離心，在Thermomixer中20℃溫浴30min。3)用QIAquickPCRPurificationKit純化產(chǎn)物，34μL回溶。4.3末端加“A”(A-Tailing)1)在1.5ml的離心管中配制末端加“A”反應(yīng)體系：DNA32μL10xbluebuffer5μLdATP(1mM)10μLKlenow(3’-5’exo-)3μL2)上述50μL反應(yīng)混合物輕微振蕩混合均勻，瞬時(shí)離心后置于Thermomixer中37℃溫浴30min。3)用QIAquickMinElutePCRPurificationKit純化產(chǎn)物，17μL回溶。4.4Adapter的連接(AdapterLigation)1)在1.5ml的離心管中配制Adapter連接反應(yīng)體系：DNA15μL2xRapidligationbuffer25μLPEAdapteroligomix(1μM)5μLT4DNALigase(Rapid)5μL2)上述50μL反應(yīng)混合物輕微振蕩混勻，瞬時(shí)離心后置于Thermomixer中20℃溫浴15min。3)QIAquickMinElutePCRPurificationKit純化產(chǎn)物，25μL回溶。4.5連接產(chǎn)物PCRDNA23μLPrimer1公用(10μm)1μLPrimerindexX(10μm)1μL2×phusionmastermix25μL總體積50μLPCR反應(yīng)條件：4.6連接產(chǎn)物的純化(AGENCOURTAMPureXPbeads)在50μL連接產(chǎn)物中，加入1.2倍體積的磁珠(60μL)，進(jìn)行磁珠純化，加入20μLUltraPureWater，進(jìn)行回溶。5.文庫檢測(cè)使用Agilent2100Bioanalyzer檢測(cè)文庫產(chǎn)量；使用qPCR定量檢測(cè)文庫產(chǎn)量。6.上機(jī)測(cè)序TCR-seq采用IlluminaHiSeq2500PE101+8+101(雙末端測(cè)序，讀段長(zhǎng)度101bp)程序進(jìn)行上機(jī)測(cè)序，測(cè)序?qū)嶒?yàn)操作按照制造商提供的操作說明書進(jìn)行上機(jī)測(cè)序操作。7.下機(jī)數(shù)據(jù)生物信息分析及免疫組庫測(cè)序結(jié)果分析7.1生物信息分析1)測(cè)序數(shù)據(jù)的預(yù)處理：去除Nrate(N比例)大于或等于5％的reads；去除含有adapter污染的reads；去除平均質(zhì)量值低于15的reads；一對(duì)讀段對(duì)reads1和reads2，reads1與reads2尾部質(zhì)量值小于10的堿基逐個(gè)進(jìn)行切除，切除后reads1長(zhǎng)度需滿足60bp以上，reads2長(zhǎng)度需滿足50bp以上。2)PairedReads合并：利用COPE和FqMerger(華大基因，BGI)，將PEreads進(jìn)行拼接合并為contigs。3)contigs數(shù)據(jù)與參考序列進(jìn)行比對(duì)：拼接好的序列(contigs)與構(gòu)建好的CDR3V/D/J參考序列(CDR3V/D/J參考序列來源于http://www.imgt.org/download/GENE-DB/)分別進(jìn)行BLAST比對(duì)。4)重新比對(duì)：根據(jù)以上合并的blast比對(duì)結(jié)果，將CDR3起始位置后的序列依照CDR3區(qū)域比對(duì)標(biāo)準(zhǔn)進(jìn)行重新比對(duì)：對(duì)blast比對(duì)部分的V，D，J兩端進(jìn)行延伸比對(duì)至contig兩端為止，并對(duì)CDR3區(qū)域進(jìn)行mismatch設(shè)置，例如采用的設(shè)置標(biāo)準(zhǔn)為：V區(qū)允許的mismatch數(shù)TRB的為0、IGH的為2，J區(qū)允許的mismatch數(shù)TRB的為0、IGH的為2，D區(qū)允許的mismatch數(shù)目TRB的為0、IGH為4，過濾參數(shù)可依據(jù)mismatch數(shù)參考IMGT工具進(jìn)行設(shè)置。重新計(jì)算identity(比對(duì)率)，比對(duì)率的計(jì)算方式為比對(duì)上的堿基數(shù)除以該contig的比對(duì)至CDR3參考序列達(dá)到所允許的mismatch數(shù)的位置的堿基數(shù)目，對(duì)計(jì)算出的identity進(jìn)行過濾：V區(qū)比對(duì)率大于或等于80％，J區(qū)大于或等于80％的最終比對(duì)結(jié)果分別作為V，D，J的型別。5)比對(duì)結(jié)果過濾：去除Contigs重復(fù)為1的比對(duì)結(jié)果，去除未比上V基因或者J基因的Contigs，去除比對(duì)V，J基因相反方向的Contigs，去除比上假基因的Contigs。根據(jù)參考序列CDR3起始位置，確定Contig的CDR3位置，去除無法確定CDR3位置的Contigs，去除含終止密碼子或者無ORF的Contigs。6)相關(guān)統(tǒng)計(jì)與作圖：使用最終確定的TCRβ鏈上48個(gè)V區(qū)基因片段和13個(gè)J區(qū)基因片段進(jìn)行后續(xù)分析，其中為了便于統(tǒng)計(jì)，48個(gè)V區(qū)基因片段可合并成23個(gè)進(jìn)行分析。我們利用高增殖克隆的比率(highlyexpandedclone-rate，HEC-rate)分析及V區(qū)使用的主成分分析(V-usage-PrincipalComponentAnalysis，V-usagePCA)等方法對(duì)健康人及肝癌患者進(jìn)行分類分析。1)統(tǒng)計(jì)頻率超過0.1％的高頻CDR3(HEC)種類數(shù)目占CDR3種類總數(shù)的比例。用T檢驗(yàn)等檢驗(yàn)患者與健康人數(shù)據(jù)之間是否存在差異。T檢驗(yàn)，亦稱studentt檢驗(yàn)，是用t分布理論來推論差異發(fā)生的概率，從而比較兩個(gè)平均數(shù)的差異是否顯著；2)統(tǒng)計(jì)不同V亞型下樣本的相對(duì)豐度，然后用PCA(主成分分析)的方法算出各個(gè)樣本的第一主成分和第二主成分的值作圖，觀察患者和健康人群的分開聚集現(xiàn)象。如果某些主成分(V亞型)可以很好的區(qū)分患者和健康人，對(duì)該主成分進(jìn)行受試者工作特征曲線分析(receiveroperatingcharacteristiccurve，ROC)并統(tǒng)計(jì)ROC曲線下的面積即AUC值。ROC曲線能很容易地查出任意界限值時(shí)的對(duì)疾病的識(shí)別能力。通過計(jì)算ROC曲線下的面積(AUC)判別識(shí)別效果，AUC越大(接近1)，則識(shí)別診斷價(jià)值越佳。7.2免疫組庫測(cè)序結(jié)果分析1)使用HEC-rate分析對(duì)健康人群及肝炎患者在組織和血液水平進(jìn)行區(qū)分首先，我們定義了高表達(dá)克隆HEC的概念，即頻率超過0.1％的CDR3的比例，并利用HEC-rate分析方法，即統(tǒng)計(jì)頻率超過0.1％的高頻CDR3(HEC)占UniqueCDR3(CDR3種類)總數(shù)的比例，對(duì)20例健康人及17例肝炎患者的血液樣本及組織樣本分別進(jìn)行比較，結(jié)果如圖6所示，表明兩組人群無論在血液水平還是組織水平，HEC-rate存在明顯差異。通過對(duì)健康人群及肝炎患者這兩組樣品分別進(jìn)行ROC分析，計(jì)算其ROC曲線下的面積即AUC，量化其區(qū)分度。結(jié)果我們發(fā)現(xiàn)利用HEC-rate分析可以在血液中明顯的區(qū)分健康人和肝炎患者，經(jīng)T檢驗(yàn)后p值<0.001，這說明兩組人確實(shí)在HEC-rate的數(shù)值上存在明顯差異，而ROC曲線分析表明ROC曲線下的面積(AUC)達(dá)到了0.8739，說明區(qū)分度也比較高，如圖6B所示，這為基于對(duì)T細(xì)胞受體β鏈CDR3進(jìn)行擴(kuò)增并利用高通量測(cè)序進(jìn)行檢測(cè)從而輔助肝炎無創(chuàng)診斷提供了可能性，同時(shí)這種無創(chuàng)檢測(cè)方法也更便于對(duì)患者病情發(fā)展的實(shí)時(shí)監(jiān)測(cè)。因此，我們將區(qū)分肝炎疾病和正常人的肝炎的HEC-rate數(shù)值范圍限定在0.0090-0.0014。2)肝癌患者，肝炎患者及正常人的共享克隆率進(jìn)行了密度分布分析。通過組內(nèi)兩兩比較的方法分析共享的TCRCDR3的比例，并對(duì)正常人、肝炎患者、肝癌患者的共享克隆率進(jìn)行了密度分布比較，結(jié)果表明健康人的TCR庫容量比疾病患者的庫容量要豐富。另外，我們還發(fā)現(xiàn)在相同起始量RNA的情況下，肝炎患者組織中的T細(xì)胞種類數(shù)量要少于血液中T細(xì)胞種類數(shù)量。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王玉奇;韓穎鑫;李紅梅;董燕;楊玲;易鑫;尹燁;
技術(shù)所有人：深圳華大基因科技有限公司;
我是此專利的發(fā)明人

上一篇：一種混凝土攪拌罐用塑料及其制備方法與流程
上一篇：一種儲(chǔ)藥槽裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

免疫分析系統(tǒng)相關(guān)技術(shù)

免疫過程相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分析個(gè)體兩類狀態(tài)的免疫差異的方法和裝置與流程