亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分析個(gè)體兩類狀態(tài)的免疫差異的方法和裝置與流程

文檔序號(hào):11831042閱讀:187來源:國(guó)知局
分析個(gè)體兩類狀態(tài)的免疫差異的方法和裝置與流程
本發(fā)明屬于生物檢測(cè)領(lǐng)域,具體的,本發(fā)明涉及一種分析個(gè)體兩類狀態(tài)的免疫差異的方法、一種分析個(gè)體兩類狀態(tài)的免疫差異的裝置、一種輔助確定個(gè)體狀態(tài)的方法和一種輔助確定個(gè)體狀態(tài)的裝置。
背景技術(shù)
:乙型病毒性肝炎是乙肝病毒(HBV)引起的,并已成為嚴(yán)重威脅人類健康的世界性疾病,也是我國(guó)當(dāng)前流行最為廣泛、危害性最嚴(yán)重的一種疾病。近年來乙肝發(fā)病率呈明顯增高的趨勢(shì),給社會(huì)和家庭造成嚴(yán)重負(fù)擔(dān)。乙肝廣泛流行于世界各國(guó),且部分患者可轉(zhuǎn)化為肝硬化甚至肝癌,HBV通過細(xì)胞內(nèi)免疫引發(fā)的肝損害是慢性肝炎、肝硬化和肝細(xì)胞癌的主要原因[WilliamM.Lee,M.D.HepatitisBVirusInfection.NEnglJMed1997;337:1733-45.]。慢性乙肝發(fā)病與機(jī)體對(duì)HBV免疫應(yīng)答異常有關(guān),HBV持續(xù)感染所形成的慢性化主要是病毒誘導(dǎo)機(jī)體對(duì)其感染形成的一種持續(xù)免疫耐受狀態(tài),特別是與細(xì)胞毒性T細(xì)胞低反應(yīng)狀態(tài)有關(guān)。用于乙肝病毒基因檢查的方法主要有:熒光PCR法、競(jìng)爭(zhēng)PCR法、PCR酶聯(lián)免疫吸附法、熒光標(biāo)記物法和PCR酶聯(lián)化學(xué)發(fā)光等方法。這些方法各有優(yōu)缺點(diǎn),所使用的儀器設(shè)備、試劑品質(zhì)源于不同的國(guó)家和地區(qū),設(shè)立的標(biāo)準(zhǔn)曲線以及標(biāo)準(zhǔn)熒光等各不相同,得出的數(shù)值左右漂浮,偏差很大,得出的檢測(cè)值范圍也不相同。目前,最常用乙肝病毒的血清學(xué)標(biāo)志是:“二對(duì)半”即乙肝病毒五項(xiàng)指標(biāo)。但乙肝五項(xiàng)檢測(cè)法存在一定的假陰性和假陽性,假陰性結(jié)果會(huì)延誤或者診療,而假陽性結(jié)果又增加患者的精神壓力和心理負(fù)擔(dān)。而檢測(cè)肝組織中的病毒DNA,能更準(zhǔn)確地反映病毒的復(fù)制狀況。但是組織穿刺取材較復(fù)雜,且是一項(xiàng)入侵式的操作,具有一定的風(fēng)險(xiǎn)性,很多患者不易接受,很難成為肝臟疾病發(fā)生及發(fā)展檢測(cè)的手段,更不能作為常規(guī)檢查。肝臟作為體內(nèi)最強(qiáng)大的免疫豁免器官,其內(nèi)發(fā)生的免疫應(yīng)答通常以誘導(dǎo)免疫耐受(immunetolerance)為主。免疫組庫是指在任何指定時(shí)間,某個(gè)個(gè)體的循環(huán)系統(tǒng)中所有功能多樣性B細(xì)胞和T細(xì)胞的總和。在機(jī)體的多種疾病進(jìn)程中,都有免疫過程參與,而這些疾病特異性的免疫反應(yīng), 能被機(jī)體及時(shí)記錄下來。通過檢測(cè)這些表達(dá)的B細(xì)胞或T細(xì)胞受體基因,就能準(zhǔn)確的將其反映出來,用來評(píng)估個(gè)體的免疫狀態(tài),疾病的發(fā)生,發(fā)展和預(yù)后,甚至指導(dǎo)治療。T細(xì)胞受體(Tcellreceptor,TCR)是T細(xì)胞表面特異性識(shí)別抗原和介導(dǎo)免疫應(yīng)答的分子,是人類基因組中多態(tài)性最高的區(qū)域之一,決定著人的免疫系統(tǒng)如何適應(yīng)環(huán)境的變化。T細(xì)胞受體庫的多樣性直接反映了機(jī)體免疫應(yīng)答的狀態(tài)。TCR可分為TCRα/β和TCRγ/δ兩種類型,外周血T細(xì)胞主要為TCRα/β的T細(xì)胞,是介導(dǎo)機(jī)體特異性細(xì)胞免疫反應(yīng)的主要細(xì)胞[DavisMM,BjorkmanPJ.T-cellantigenreceptorgenesandT-cellrecognition.Nature1988;334:395-402.;WangC,SandersCM,YangQ,eta1.HighthroughputsequencingrevealscomplexpatternofdynamicinterrelationshipsamonghumanTcellsubsets.ProcNatlAcadSciUSA2010;107(4):1518-23.]。在T細(xì)胞發(fā)育過程中CDR3區(qū)由V、D和J進(jìn)行重排而形成具有功能的TCR編碼基因(T細(xì)胞克隆)。正常個(gè)體在無抗原刺激時(shí),TCR基因重排是隨機(jī)的,因此正常人外周T細(xì)胞呈多家族、多克隆性特點(diǎn)。不同抗原(如腫瘤)刺激后,TCRV區(qū)基因可對(duì)該抗原產(chǎn)生特異性識(shí)別,并使帶有這類基因的T細(xì)胞得到優(yōu)勢(shì)擴(kuò)增,可用于分析不同TCRV亞家族T細(xì)胞的表達(dá)和利用[WoodsworthDJ,CastellarinM,HoltRA.SequenceanalysisofT-cellrepertoiresinhealthanddisease.GenomeMed.2013;5(10):98.;KrangelMS.GenesegmentselectioninV(D)Jrecombination:Accessibilityandbeyond.NatImmunol2003;4:624–630.]。技術(shù)實(shí)現(xiàn)要素:本發(fā)明旨在至少解決上述問題之一或者提出一種商業(yè)選擇手段。依據(jù)本發(fā)明的一方面,本發(fā)明提供一種分析個(gè)體兩類狀態(tài)的免疫差異的方法,包括:獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù),所述第一測(cè)序數(shù)據(jù)為第一類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第一讀段,所述第二測(cè)序數(shù)據(jù)為第二類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第二讀段,所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分;分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接,獲得第一拼接序列和第二拼接序列;將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),獲得第一CDR3序列和第二CDR3序列,所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異,確定差異具有統(tǒng)計(jì)意義并且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍,所述第一高頻CDR3序列比例為所述第一CDR3序列種類數(shù)中高頻CDR3序列種類數(shù) 所占的比例,所述第二高頻CDR3序列比例為所述第二CDR3序列種類總數(shù)中高頻CDR3序列種類數(shù)所占的比例,所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05%的CDR3序列,所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05%的CDR3序列。所稱的個(gè)體的兩類狀態(tài)可以是一個(gè)或者一群生物個(gè)體的不同時(shí)間點(diǎn)和/或不同空間位置的兩類狀態(tài),也可以是不同個(gè)體或者不同群體在某個(gè)時(shí)間點(diǎn)和/或空間的各自的狀態(tài),這里的狀態(tài)指免疫狀態(tài),包括核酸和/或氨基酸水平上反映出的生物體免疫狀態(tài)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法中的第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)獲取,包括:分別提取第一類狀態(tài)個(gè)體和第二類狀態(tài)個(gè)體的淋巴細(xì)胞中的核酸,獲得第一核酸和第二核酸;分別捕獲第一核酸和第二核酸中的CDR3序列;分別對(duì)捕獲得的核酸進(jìn)行測(cè)序文庫構(gòu)建,獲得第一測(cè)序文庫和第二測(cè)序文庫;對(duì)所述第一測(cè)序文庫和第二測(cè)序文庫進(jìn)行測(cè)序,獲得第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)。在本發(fā)明的一個(gè)實(shí)施例中,所述捕獲利用多重PCR實(shí)現(xiàn)。減少非目的區(qū)域例如非免疫相關(guān)區(qū)域數(shù)據(jù)的帶入,利于提高目標(biāo)區(qū)域分析效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用雙末端測(cè)序獲得成對(duì)讀段,該方法中的第一測(cè)序數(shù)據(jù)包括多對(duì)第一讀段對(duì),每對(duì)第一讀段對(duì)由兩個(gè)第一讀段組成,該方法中的第二測(cè)序數(shù)據(jù)包括多對(duì)第二讀段對(duì),每對(duì)第二讀段對(duì)由兩個(gè)第二讀段組成。在該實(shí)施例中,所述拼接是依據(jù)有重疊的第一讀段或第二讀段,以及第一讀段對(duì)或者第二讀段對(duì)中一對(duì)讀段對(duì)的兩個(gè)讀段之間的距離來進(jìn)行的。拼接也稱為組裝,所得的拼接序列也稱為重疊群(contigs)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述多種CDR3參考序列包括V基因參考序列和J基因參考序列。所述將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),包括:將所述第一拼接序列和第二拼接序列分別與所述多種CDR3參考序列進(jìn)行比對(duì),獲得第一比對(duì)結(jié)果和第二比對(duì)結(jié)果,其中,所述第一比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第一拼接序列,所述第二比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第二拼接序列;基于所述第一比對(duì)結(jié)果,確定其中的第一拼接序列上的CDR3序列的起始位置,基于所述第二比對(duì)結(jié)果,確定其中的第二拼接序列上的CDR3序列的起始位置;分別將第一比對(duì)結(jié)果中的第一拼接序列上的CDR3序列起始位置之后的部分和第二比對(duì)結(jié)果中的第二拼接序列上的CDR3序列起始位置之后的部分與所述多種CDR3參考序列進(jìn)行重新比對(duì),獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果。在本發(fā)明的一個(gè)實(shí)施例中,上述重新比對(duì)的比對(duì)條件設(shè)置為:與所述V基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為0,與所述V基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2,和/或與所述J基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù) 為0,與所述J基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2。將拼接序列上的CDR3序列起始位置確定出,且以不同的比對(duì)條件例如相對(duì)更嚴(yán)格的比對(duì)條件將CDR3序列起始位置之后的部分進(jìn)行重新比對(duì),利于獲得這些拼接序列的準(zhǔn)確信息,利于提高后續(xù)基于這些contigs的免疫差異分析的準(zhǔn)確性。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果后,還包括:分別對(duì)所述第一重新比對(duì)結(jié)果和所述第二重新比對(duì)結(jié)果進(jìn)行過濾,以獲得所述第一CDR3序列和所述第二CDR3序列,其中包括,分別去除第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果中的符合以下任一描述的拼接序列:其所在的CDR3序列種類的拼接序列支持?jǐn)?shù)為1,即該種CDR3序列只包含這一條拼接序列,未能比對(duì)上V基因參考序列或者J基因參考序列,比對(duì)上所述CDR3參考序列的假基因參考序列區(qū),比對(duì)上V基因參考序列和J基因參考序列、且比對(duì)上二者的方向相反,無法確定其上的CDR3的起始位置,含終止密碼子或者不含開放閱讀框。去除符合以上任意之一的contigs,去除這些contigs信息不明確、難以明確、無義、錯(cuò)誤或者低可靠性的contigs的干擾,利于提高后續(xù)免疫差異分析的準(zhǔn)確性和效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法(1)中的第一高頻CDR3序列為在所述第一CDR3序列中頻率不大于0.5%的CDR3序列,第二高頻CDR3序列為在所述第二CDR3序列中頻率不大于0.5%的CDR3序列。增加對(duì)高頻CDR3序列的頻率的上限的限定,去除離群的高頻CDR序列,使統(tǒng)計(jì)分析結(jié)果更具有意義。根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用ROC分析評(píng)估是否能夠區(qū)分第一類狀態(tài)和第二類狀態(tài)。ROC分析指ROC曲線(receiveroperatingcharacteristiccurve,接收者操作特征曲線),是一種二元分類模型,即輸出結(jié)果只有兩種類別的模型??紤]一個(gè)二分問題,即將實(shí)例分成正類(positive)或負(fù)類(negative),對(duì)一個(gè)二分問題來說,會(huì)出現(xiàn)四種情況:如果一個(gè)實(shí)例是正類并且也被預(yù)測(cè)成正類,即為真正類(Truepositive,TP),如果實(shí)例是負(fù)類被預(yù)測(cè)成正類,稱之為假正類(Falsepositive,F(xiàn)P),相應(yīng)地,如果實(shí)例是負(fù)類被預(yù)測(cè)成負(fù)類,稱之為真負(fù)類(Truenegative,TN),正類被預(yù)測(cè)成負(fù)類則為假負(fù)類(falsenegative,F(xiàn)N)。TP:正確肯定的數(shù)目;FN:漏報(bào),沒有正確找到的匹配的數(shù)目;FP:誤報(bào),給出的匹配是不正確的;TN:正確拒絕的非匹配對(duì)數(shù)。在一個(gè)二分類模型中,對(duì)于所得到的連續(xù)結(jié)果,這邊的連續(xù)結(jié)果指高頻CDR3序列比例對(duì)多個(gè)第一類狀態(tài)和第二類狀態(tài)個(gè)體的分類結(jié)果,假設(shè)已確定差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閾值,比如說0.3,大于這個(gè)值的個(gè)體劃歸為第一類狀態(tài)(正類),小于這個(gè)值則劃到第二類狀態(tài)(負(fù)類)。如果減小閾值,減到0.2,固然能識(shí)別出更多的第一類狀態(tài)個(gè)體,也就是提高了識(shí)別出的正類占所有正類的比例,即TPR(truepositiverate,真正類率),但同時(shí)也將更多的負(fù)類當(dāng)作了正類,即提高了 FPR(falsepositiverate,負(fù)正類率)。為了形象化這一變化,引入ROC,ROC曲線可以用于評(píng)價(jià)一個(gè)分類器,即評(píng)價(jià)這一差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閾值。AUC(AreaUnderrocCurve)為ROC曲線下方的面積,AUC值介于0.5到1.0之間,AUC越大,分類器分類效果越好。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述高頻CDR3序列比例的數(shù)值范圍能夠區(qū)分開第一類狀態(tài)和第二類狀態(tài)。在本發(fā)明的一個(gè)實(shí)施例中,比較肝炎人群和正常健康人群,或者比較肝癌人群和肝炎人群的高頻CDR3序列比例,確定肝炎人群的所述高頻CDR3序列比例的范圍為0.0090-0.0014,這里,通過擴(kuò)增T細(xì)胞受體β鏈CDR3并進(jìn)行高通量測(cè)序,對(duì)肝炎患者及正常人組織和血液中的TCRβ鏈CDR3的多樣性及特異性進(jìn)行比較分析,發(fā)現(xiàn)使用血液樣品就能對(duì)正常人和肝炎患者進(jìn)行有效的區(qū)分。因此,檢測(cè)待測(cè)者外周血TCRβ鏈CDR3的表達(dá)特征,可輔助結(jié)合臨床用于肝炎的無創(chuàng)早期診斷檢測(cè)。需要說明的是,這個(gè)確定出的高頻CDR3序列比例的范圍能夠作為區(qū)分開肝炎和健康人群的一個(gè)免疫差異因素或者輔助判斷個(gè)體屬于哪一類狀態(tài),但僅依此還未能用于診斷判斷個(gè)體是否為肝炎患者。根據(jù)本發(fā)明的一些實(shí)施例,該分析個(gè)體兩類狀態(tài)的免疫差異的方法還包括:比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類數(shù)目與支持所有V亞型的第一CDR3序列的種類總數(shù)的比值,第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類數(shù)目與支持所有V亞型的第二CDR3序列的種類總數(shù)的比值;和/或,比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,第一CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第一CDR3序列的種類數(shù)目與支持所有V合并亞型的第一CDR3序列的種類總數(shù)的比值,第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類數(shù)目與支持所有V合并亞型的第二CDR3序列的種類總數(shù)的比值;和/或,比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類總數(shù)的比值,第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類總數(shù)的比值。進(jìn)一步比較兩類狀態(tài)個(gè)體的V亞型、V合并亞型和/或VJ組合亞型的使用頻率的差異,以進(jìn)一步分析兩類狀態(tài)的免疫差異。對(duì)應(yīng)的,在本發(fā)明的一些實(shí)施例中,所述確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,包括:利用主成分分析方法(PrincipalComponentAnalysis,PCA)確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V亞型,以及,利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。PCA把原先的n個(gè)特征用數(shù)目更少的m個(gè)特征取代,新特征是舊特征的線性組合。CDR3V基因有幾十個(gè),將各個(gè)V基因稱為V亞型或者V區(qū)基因,一般會(huì)得到的具有統(tǒng)計(jì)意義的多個(gè)V亞型,PCA能對(duì)高維數(shù)據(jù)進(jìn)行降維,即得出權(quán)重較大的V亞型,權(quán)重較大的V亞型對(duì)分類起了主要作用,經(jīng)過降維同時(shí)也除去了噪聲。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,包括:利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V合并亞型,以及,利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V合并亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。V合并亞型指合并的V區(qū)基因,例如,根據(jù)IMGT數(shù)據(jù)庫(http://www.imgt.org/),48個(gè)V區(qū)基因片段可合并成23個(gè)進(jìn)行分析,當(dāng)獲得的差異具有統(tǒng)計(jì)意義的V合并亞型有多個(gè),利用PCA能夠進(jìn)行降維,確定主成分,即對(duì)分類起主要作用的V合并亞型。進(jìn)行ROC分析,依據(jù)ROC曲線及其AUC值,能夠評(píng)估分類器即主成分的分類效果。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,包括:利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的VJ組合亞型,以及,利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的VJ組合亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。VJ組合亞型指V區(qū)基因和/或V合并亞型與J區(qū)基因的組合,當(dāng)獲得的差異具有統(tǒng)計(jì)意義的VJ組合亞型有多個(gè),利用PCA能夠進(jìn)行降維,確定主成分,即確定對(duì)分類起主要作用的VJ組合亞型。而進(jìn)行ROC分析,依據(jù)ROC曲線及其AUC值,能夠評(píng)估分類器即主成分的分類效果。依據(jù)本發(fā)明的另一方面,本發(fā)明提供一種分析個(gè)體兩類狀態(tài)的免疫差異的裝置,該裝置可以用以實(shí)施上述本發(fā)明任一實(shí)施方式的分析個(gè)體兩類狀態(tài)的免疫差異的方法,裝置包括:測(cè)序數(shù)據(jù)獲取單元,用于獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù),所述第一測(cè)序數(shù)據(jù)為第一類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第一讀段,所述第二測(cè)序數(shù)據(jù)為第二類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第二讀段,所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分;拼接單元,與所述測(cè)序數(shù)據(jù)獲取單元連接,用于分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接,獲得第一拼接序列和第二拼接序列;比對(duì)單元,與所述拼接單元相 連,用于將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),獲得第一CDR3序列和第二CDR3序列,所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;免疫差異分析單元,與所述比對(duì)單元相連,用于比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異,確定差異具有統(tǒng)計(jì)意義且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍,所述第一高頻CDR3序列比例為所述第一CDR3序列種類中高頻CDR3序列種類數(shù)所占的比例,所述第二高頻CDR3序列比例為所述第二CDR3序列種類中高頻CDR3序列種類數(shù)所占的比例,所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05%的CDR3序列,所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05%的CDR3序列。本領(lǐng)域普通技術(shù)人員可以理解,通過對(duì)該裝置增加相應(yīng)功能單元或者子單元能夠?qū)崿F(xiàn)上述本發(fā)明任一具體實(shí)施方式的方法。前述對(duì)本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法的技術(shù)特征和效果的描述,同樣適用本發(fā)明的這一方面的裝置,在此不再贅述。依據(jù)本發(fā)明的再一方面,本發(fā)明提供一種輔助確定個(gè)體狀態(tài)的方法,該方法包括:提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸;對(duì)所述核酸中的CDR3序列進(jìn)行捕獲;對(duì)捕獲得的核酸進(jìn)行序列測(cè)定,獲得測(cè)序結(jié)果,所述測(cè)序結(jié)果包括多個(gè)讀段;對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接,獲得拼接片段;將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì),獲得CDR3序列,所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;基于獲得的CDR3序列,確定待測(cè)個(gè)體的高頻CDR3序列的比例,所述高頻CDR3序列的比例為高頻CDR3序列種類數(shù)目在所述CDR3序列種類總數(shù)中所占的比例,所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05%的CDR3序列;比較所述所述高頻CDR3序列的比例與其閾值的差異,以輔助確定個(gè)體狀態(tài),所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法。所述閾值即為上述的差異具有統(tǒng)計(jì)意義且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍,或者該數(shù)值范圍的上下限。根據(jù)本發(fā)明的一些實(shí)施例,輔助確定個(gè)體狀態(tài)的方法還包括:確定以下(a)-(c)至少之一:(a)CDR3序列中的各種V亞型的使用頻率,所述V亞型的使用頻率為支持該V亞型的CDR3序列的種類數(shù)目與支持所有V亞型的CDR3序列的種類總數(shù)的比值,(b)CDR3序列中的各種V合并亞型的使用頻率,所述V合并亞型的使用頻率為支持該V合并亞型的CDR3序列的種類數(shù)目與支持所有V合并亞型的CDR3序列的種類總數(shù)的比值,(c)CDR3序列中的各種VJ組合亞型的使用頻率,所述VJ組合亞型的使用頻率為支持該VJ組合亞 型的CDR3序列的種類數(shù)目與支持所有VJ組合亞型的CDR3序列的種類總數(shù)的比值;比較所述確定的(a)-(c)至少之一與其對(duì)應(yīng)閾值的差異,以輔助確定個(gè)體狀態(tài)。前述對(duì)本發(fā)明一方面的分析個(gè)體兩類狀態(tài)的免疫差異的方法的技術(shù)特征和優(yōu)點(diǎn)的描述,同樣適用本發(fā)明這一方面的輔助確定個(gè)體狀態(tài)的方法,在此不再贅述。依據(jù)本發(fā)明的又一方面,本發(fā)明提供一種輔助確定個(gè)體狀態(tài)的裝置,該裝置可以實(shí)施上述本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法。該裝置包括:核酸提取部,用于提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸;捕獲部,與核酸提取部相連,用于對(duì)所述核酸中的CDR3序列進(jìn)行捕獲;測(cè)序部,與捕獲部相連,用于對(duì)捕獲得的核酸進(jìn)行序列測(cè)定,獲得測(cè)序結(jié)果,所述測(cè)序結(jié)果包括多個(gè)讀段;拼接部,與測(cè)序部相連,用于對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接,獲得拼接片段;比對(duì)部,與拼接部相連,用于將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì),獲得CDR3序列,所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;免疫因素確定部,與比對(duì)部相連,用于基于獲得的CDR3序列,確定待測(cè)個(gè)體的高頻CDR3序列的比例,所述高頻CDR3序列的比例為高頻CDR3序列種類數(shù)目在所述CDR3序列種類總數(shù)中所占的比例,所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05%的CDR3序列;差異比較部,與免疫因素確定部相連,用于比較所述高頻CDR3序列的比例與其閾值的差異,以輔助確定個(gè)體狀態(tài),所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法。本領(lǐng)域普通技術(shù)人員可以理解,通過對(duì)該裝置增加相應(yīng)功能單元或者子單元能夠?qū)崿F(xiàn)上述本發(fā)明任一具體實(shí)施方式的方法。前述對(duì)本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法的技術(shù)特征和優(yōu)點(diǎn)的描述,同樣適用本發(fā)明這一方面的裝置,在此不再贅述。本發(fā)明提供基于T細(xì)胞受體和/或B細(xì)胞受體的高變區(qū)域CDR3測(cè)序數(shù)據(jù),進(jìn)行免疫相關(guān)分析、輔助確定個(gè)體狀態(tài)的方法和/或裝置,有效解決目前對(duì)免疫高通量數(shù)據(jù)分析及對(duì)鑒定出的CDR3區(qū)域進(jìn)行后續(xù)分析的局限和匱乏。本發(fā)明提供了基于鑒定出的CDR序列的分析方案及分析手段,能夠便于挖掘潛在可利用的生物信息,為免疫組庫的臨床應(yīng)用與科學(xué)研究提供助力。附圖說明本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施方式的描述中將變得明顯和容易理解,其中:圖1是本發(fā)明一個(gè)實(shí)施例中的分析個(gè)體兩類狀態(tài)的免疫差異的方法的步驟示意圖。圖2是本發(fā)明一個(gè)實(shí)施例中的分析個(gè)體兩類狀態(tài)的免疫差異的方法的步驟示意圖。圖3是本發(fā)明一個(gè)實(shí)施例中的分析個(gè)體兩類狀態(tài)的免疫差異的裝置示意圖。圖4是本發(fā)明一個(gè)實(shí)施例中的輔助確定個(gè)體免疫狀態(tài)的方法的步驟示意圖。圖5是本發(fā)明一個(gè)實(shí)施例中的輔助確定個(gè)體免疫狀態(tài)的裝置示意圖。圖6是本發(fā)明一個(gè)實(shí)施例中的利用HEC-rate分析對(duì)正常人及肝炎患者進(jìn)行區(qū)分的結(jié)果示意圖;圖6A為利用T檢驗(yàn)來檢驗(yàn)正常人與肝炎組血液樣品的HEC-rate的差異的示意圖,圖6B為對(duì)應(yīng)圖6A的ROC曲線評(píng)估結(jié)果(AUC值為0.8739),圖6C為利用T檢驗(yàn)來檢驗(yàn)正常人與肝炎組組織樣品的HEC-rate的差異地示意圖,圖6D為對(duì)應(yīng)圖6C的ROC曲線評(píng)估結(jié)果(AUC值為0.7712),其中,*表示P<0.05,***表示p<0.001。具體實(shí)施方式下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中,自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。需要說明的,本文中所使用的術(shù)語“第一”、“第二”、“第一類”、“第二類”或者“第一部分”等僅為方便描述,不能理解為指示或暗示相對(duì)重要性,也不能理解為之間有先后順序關(guān)系。在本發(fā)明的描述中,除非另有說明,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。在本文中,除非另有明確的規(guī)定和限定,術(shù)語“相連”、“連接”等術(shù)語應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個(gè)元件內(nèi)部的連通。如圖1所示,依據(jù)本發(fā)明的一個(gè)實(shí)施例,提供一種分析個(gè)體兩類狀態(tài)的免疫差異的方法,該方法包括:S10獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù),所述第一測(cè)序數(shù)據(jù)為第一類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第一讀段,所述第二測(cè)序數(shù)據(jù)為第二類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第二讀段,所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分;S20分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接,獲得第一拼接序列和第二拼接序列;S30將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),獲得第一CDR3序列和第二CDR3序列,所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;S40比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異,確定確定差異具有統(tǒng)計(jì)意義且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍,所述第一高頻CDR3序列比例為所述第一CDR3序列種類總數(shù)中高頻CDR3序列種類數(shù)所占的比例,所述第二高頻CDR3序列比例 為所述第二CDR3序列種類總數(shù)中高頻CDR3序列種類數(shù)所占的比例,所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05%的CDR3序列,所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05%的CDR3序列。所稱的個(gè)體的兩類狀態(tài)可以是一個(gè)或者一群個(gè)體的不同時(shí)間點(diǎn)和/或不同空間位置的兩類狀態(tài),也可以是不同個(gè)體或者不同群體在某個(gè)時(shí)間點(diǎn)和/或空間的各自的狀態(tài),這里的狀態(tài)指免疫狀態(tài),包括核酸和/或氨基酸水平上反映出的生物體免疫狀態(tài)。免疫差異指核酸和/或氨基酸水平上反映出的免疫狀態(tài)差異。所稱的頻率指出現(xiàn)的次數(shù)的比例,不同種類的CDR3序列不同,一種CDR3序列至少包含一條拼接序列,即一種CDR3序列至少有一條拼接序列的支持,亦即至少有一條拼接序列比對(duì)上該種CDR3序列的參考序列,例如,有三種CDR3序列分別表示為A序列、B序列和C序列,如果A序列的拼接序列支持?jǐn)?shù)有70條,B序列的拼接序列支持?jǐn)?shù)有20條,C序列的拼接序列支持?jǐn)?shù)有10條,則其中A序列的頻率是70/(70+20+10),若定義超過50%的為高頻CDR3序列,則高頻CDR3序列的比例為1/3。所稱的區(qū)分包含區(qū)分效果,包括區(qū)分開兩類狀態(tài)的準(zhǔn)確率、精確度、特異性以及任意其它的可用以評(píng)估分類器分類效果的方法中的相關(guān)值。所稱第一和第二測(cè)序數(shù)據(jù)是通過測(cè)序獲得的,根據(jù)本發(fā)明的一個(gè)實(shí)施例,如圖2所示,該方法中的S10第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)獲取,包括:S11分別提取第一類狀態(tài)個(gè)體和第二類狀態(tài)個(gè)體的淋巴細(xì)胞中的核酸,獲得第一核酸和第二核酸;S13分別捕獲第一核酸和第二核酸中的CDR3序列;S15分別對(duì)捕獲得的核酸進(jìn)行測(cè)序文庫構(gòu)建,獲得第一測(cè)序文庫和第二測(cè)序文庫;S17對(duì)所述第一測(cè)序文庫和第二測(cè)序文庫進(jìn)行測(cè)序,獲得第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù)。文庫的構(gòu)建方法根據(jù)所選擇的測(cè)序方法的要求進(jìn)行,測(cè)序方法依據(jù)測(cè)序平臺(tái)的不同可選擇但不限于Illumina公司的Hisq2000/2500測(cè)序平臺(tái)、LifeTechnologies公司的IonTorrent平臺(tái)和單分子測(cè)序平臺(tái),測(cè)序方式可以選擇單端測(cè)序,也可以選擇雙末端測(cè)序,獲得的下機(jī)數(shù)據(jù)是測(cè)讀出來的片段,稱為讀段(reads)。在本發(fā)明的一個(gè)實(shí)施例中,所述捕獲利用多重PCR實(shí)現(xiàn),例如利用IMGT數(shù)據(jù)庫中的已知CDR3序列自己設(shè)計(jì)或者委托設(shè)計(jì)合成多重引物或者使用市售試劑盒,利用這些引物使核酸中的CDR3序列富集,減少非目的區(qū)域例如非免疫相關(guān)區(qū)域數(shù)據(jù)的帶入或比例,利于提高目標(biāo)區(qū)域分析效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用雙末端測(cè)序獲得成對(duì)讀段,該方法中的第一測(cè)序數(shù)據(jù)包括多對(duì)第一讀段對(duì),每對(duì)第一讀段對(duì)由兩個(gè)第一讀段組成,該方法中的第二測(cè)序數(shù)據(jù)包括多對(duì)第二讀段對(duì),每對(duì)第二讀段對(duì)由兩個(gè)第二讀段組成。在該實(shí)施例中,所述拼接是依據(jù)有重疊的第一讀段或第二讀段,以及第一讀段對(duì)或者第二讀段對(duì)中兩個(gè)讀段之間的距離 來進(jìn)行的。拼接也稱為組裝,組裝可使用soapdenovo等軟件進(jìn)行,所得的拼接序列也稱為重疊群(contigs)。所稱比對(duì)可以利用已知比對(duì)軟件,例如利用SOAP、BWA和TeraMap等使用或調(diào)整其默認(rèn)參數(shù)進(jìn)行。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述多種CDR3參考序列包括V基因參考序列和J基因參考序列,優(yōu)選的,V基因參考序列包括全部各個(gè)V區(qū)基因參考序列,J基因參考序列包括全部各個(gè)J區(qū)基因參考序列。所稱的參考序列指預(yù)先確定的序列,可以是預(yù)先獲得的待測(cè)樣本所屬或者所包含的生物類別的任意參考模板,例如,若待測(cè)樣本來源的個(gè)體為人類,參考序列可選擇NCBI數(shù)據(jù)庫提供的HG19,進(jìn)一步地,也可以預(yù)先配置包含更多參考序列的資源庫,例如依據(jù)待測(cè)樣本來源個(gè)體的狀態(tài)、地域等因素選擇或是測(cè)定組裝出更接近的序列作為參考序列。在本發(fā)明的一個(gè)實(shí)施例中,所述將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),包括:將所述第一拼接序列和第二拼接序列分別與所述多種CDR3參考序列進(jìn)行比對(duì),獲得第一比對(duì)結(jié)果和第二比對(duì)結(jié)果,其中,所述第一比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第一拼接序列,所述第二比對(duì)結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對(duì)上的第二拼接序列;基于所述第一比對(duì)結(jié)果,確定其中的第一拼接序列上的CDR3序列的起始位置,基于所述第二比對(duì)結(jié)果,確定其中的第二拼接序列上的CDR3序列的起始位置;分別將第一比對(duì)結(jié)果中的第一拼接序列上的CDR3序列起始位置之后的部分和第二比對(duì)結(jié)果中的第二拼接序列上的CDR3序列起始位置之后的部分與所述多種CDR3參考序列進(jìn)行重新比對(duì),獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果。在本發(fā)明的一個(gè)實(shí)施例中,上述重新比對(duì)的比對(duì)條件設(shè)置為:與所述V基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為0,與所述V基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2,和/或與所述J基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為0,與所述J基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對(duì)所允許的錯(cuò)配堿基數(shù)為2。依據(jù)拼接序列比對(duì)上參考序列的位置以及CDR3序列的特點(diǎn),將拼接序列上的CDR3序列起始位置確定出,且以不同的比對(duì)條件例如相對(duì)更嚴(yán)格的比對(duì)條件將CDR3序列起始位置之后的部分進(jìn)行重新比對(duì),利于獲得這些拼接序列的準(zhǔn)確信息,利于提高后續(xù)基于這些contigs的免疫差異分析的準(zhǔn)確性。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在獲得第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果后,還包括:分別對(duì)所述第一重新比對(duì)結(jié)果和所述第二重新比對(duì)結(jié)果進(jìn)行過濾,以獲得所述第一CDR3序列和所述第二CDR3序列,其中包括,分別去除第一重新比對(duì)結(jié)果和第二重新比對(duì)結(jié)果 中的符合以下描述任意之一的拼接序列:其所屬的CDR3序列種類的拼接序列支持?jǐn)?shù)為1,即這種CDR3序列中只包含這一條拼接序列,這種CDR3序列可靠性低,未能比對(duì)上V基因參考序列或者J基因參考序列,比對(duì)上所述CDR3參考序列的假基因參考序列區(qū),比對(duì)上一個(gè)V基因參考序列和一個(gè)J基因參考序列、且比對(duì)上二者的方向相反,無法確定其上的CDR3的起始位置,含終止密碼子或者不含開放閱讀框。所稱的比對(duì)上,指在比對(duì)過程中一般對(duì)比對(duì)參數(shù)進(jìn)行設(shè)置,例如設(shè)置一條拼接序列最多允許有s個(gè)堿基錯(cuò)配(mismatch),如設(shè)置為s≤3,若該拼接序列中有超過s個(gè)堿基發(fā)生錯(cuò)配,則視該序列無法比對(duì)到(比對(duì)上)參考序列。比對(duì)上假基因區(qū)的拼接序列對(duì)后續(xù)分析意義不大。比對(duì)上V基因參考序列和J基因參考序列、但比對(duì)上二者的方向相反的拼接序列多數(shù)是由于組裝錯(cuò)誤去除的,所說的方向可以以參考序列的方向?yàn)閰⒄铡Hコ陨线@些contigs信息不明確、難以明確、無義、錯(cuò)誤或者低可靠性的contigs的干擾,利于提高后續(xù)免疫差異分析的準(zhǔn)確性和效率。根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法(1)中的第一高頻CDR3序列為在所述第一CDR3序列中頻率不大于0.5%的CDR3序列,第二高頻CDR3序列為在所述第二CDR3序列中頻率不大于0.5%的CDR3序列。增加對(duì)高頻CDR3序列的頻率的上限的限定,去除離群的高頻CDR序列,使統(tǒng)計(jì)分析結(jié)果更具有意義。根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用ROC分析確定所說的區(qū)分的區(qū)分效果。ROC分析指ROC曲線(receiveroperatingcharacteristiccurve,接收者操作特征曲線),是一種二元分類模型,即輸出結(jié)果只有兩種類別的模型??紤]一個(gè)二分問題,即將實(shí)例分成正類(positive)或負(fù)類(negative),對(duì)一個(gè)二分問題來說,會(huì)出現(xiàn)四種情況:如果一個(gè)實(shí)例是正類并且也被預(yù)測(cè)成正類,即為真正類(Truepositive,TP),如果實(shí)例是負(fù)類被預(yù)測(cè)成正類,稱之為假正類(Falsepositive,F(xiàn)P),相應(yīng)地,如果實(shí)例是負(fù)類被預(yù)測(cè)成負(fù)類,稱之為真負(fù)類(Truenegative,TN),正類被預(yù)測(cè)成負(fù)類則為假負(fù)類(falsenegative,F(xiàn)N)。TP:正確肯定的數(shù)目;FN:漏報(bào),沒有正確找到的匹配的數(shù)目;FP:誤報(bào),給出的匹配是不正確的;TN:正確拒絕的非匹配對(duì)數(shù)。在一個(gè)二分類模型中,對(duì)于所得到的連續(xù)結(jié)果,這邊的連續(xù)結(jié)果指高頻CDR3序列比例對(duì)多個(gè)第一類狀態(tài)和第二類狀態(tài)個(gè)體的分類結(jié)果,假設(shè)已確定差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閾值,比如說0.3,大于這個(gè)值的個(gè)體劃歸為第一類狀態(tài)(正類),小于這個(gè)值則劃到第二類狀態(tài)(負(fù)類)。如果減小閾值,減到0.2,固然能識(shí)別出更多的第一類狀態(tài)個(gè)體,也就是提高了識(shí)別出的正類占所有正類的比例,即TPR(truepositiverate,真正類率),但同時(shí)也將更多的負(fù)類當(dāng)作了正類,即提高了FPR(falsepositiverate,假正類率)。為了形象化這一變化,引入ROC,ROC曲線可以用于評(píng)價(jià)一個(gè)分類器,即評(píng)價(jià)這一差異具有統(tǒng)計(jì)意義的高頻CDR3序列比例的閾值。AUC(AreaUnderrocCurve) 為ROC曲線下方的面積,AUC值介于0.5到1.0之間,AUC越大,分類器分類效果越好。根據(jù)本發(fā)明的一個(gè)實(shí)施例,該方法還包括:確定區(qū)分效果達(dá)到預(yù)定要求的高頻CDR3序列比例的范圍。在本發(fā)明的一個(gè)實(shí)施例中,比較肝癌人群和正常健康人群,或者比較肝癌人群和肝炎人群的高頻CDR3序列比例,確定肝癌人群的所述高頻CDR3序列比例的數(shù)值范圍為0.0090-0.0014,這里,通過擴(kuò)增T細(xì)胞受體β鏈CDR3并進(jìn)行高通量測(cè)序,對(duì)肝癌患者及正常人組織和血液中的TCRβ鏈CDR3的多樣性及特異性進(jìn)行比較分析,發(fā)現(xiàn)使用血液樣品就能對(duì)正常人和肝炎患者進(jìn)行有效的區(qū)分,這為輔助肝癌的早期無創(chuàng)診斷提供了可能。因此,檢測(cè)待測(cè)者外周血TCRβ鏈CDR3的表達(dá)特征,可輔助結(jié)合臨床用于肝炎的無創(chuàng)早期診斷檢測(cè)。需要說明的是,這個(gè)確定出的高頻CDR3序列比例的數(shù)值范圍能夠作為區(qū)分開肝癌和健康人群的一個(gè)免疫差異因素或者輔助判斷個(gè)體屬于哪一類狀態(tài),但僅依此還未能用于診斷判斷個(gè)體是否為肝癌患者。根據(jù)本發(fā)明的一些實(shí)施例,該分析個(gè)體兩類狀態(tài)的免疫差異的方法還包括:比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類數(shù)目與支持所有V亞型的第一CDR3序列的種類總數(shù)的比值,第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類數(shù)目與支持所有V亞型的第二CDR3序列的種類總數(shù)的比值;和/或,比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,第一CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第一CDR3序列的種類數(shù)目與支持所有V合并亞型的第一CDR3序列的種類總數(shù)的比值,第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類數(shù)目與支持所有V合并亞型的第二CDR3序列的種類總數(shù)的比值;和/或,比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類總數(shù)的比值,第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類總數(shù)的比值。進(jìn)一步比較兩類狀態(tài)個(gè)體的V亞型、V合并亞型和/或VJ組合亞型的使用頻率的差異,以進(jìn)一步分析兩類狀態(tài)的免疫差異。對(duì)應(yīng)的,在本發(fā)明的一些實(shí)施例中,所述確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,包括:利用主成分分析方法(PrincipalComponentAnalysis, PCA)確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V亞型,以及,利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果;當(dāng)?shù)谝粻顟B(tài)和第二狀態(tài)分別為肝癌人群和正常人群時(shí),利用PCA確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的主成分1包括的V亞型為TRBV18、TRBV4-1、TRBV4-2和TRBV6-9,這四個(gè)V亞型對(duì)這兩狀態(tài)的區(qū)分能力能夠代表反映所有的差異具有顯著性的V亞型對(duì)這兩狀態(tài)的區(qū)分能力的95%,或者利用PCA,確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的主成分1包括的V亞型為TRBV4-1、TRBV18和TRBV6-9,這三個(gè)V亞型能夠代表反映所有的差異具有顯著性的V亞型對(duì)這兩狀態(tài)的區(qū)分能力的90%;主成分分析(PCA)是多元統(tǒng)計(jì)分析中用來分析數(shù)據(jù)的一種方法,它是用一種較少數(shù)量的特征對(duì)樣本進(jìn)行描述以達(dá)到降低特征空間維數(shù)的方法,它的本質(zhì)實(shí)際上是K-L變換。PCA把原先的n個(gè)特征用數(shù)目更少的m個(gè)特征取代,新特征是舊特征的線性組合。CDR3V基因有幾十個(gè),各個(gè)V基因也稱為V亞型或者V區(qū)基因,一般會(huì)得到的具有統(tǒng)計(jì)意義的多個(gè)V亞型,PCA能對(duì)高維數(shù)據(jù)進(jìn)行降維,即得出權(quán)重較大(特征值)的V亞型,權(quán)重較大的V亞型對(duì)分類起了主要作用,經(jīng)過降維同時(shí)也除去了噪聲。在本發(fā)明的一個(gè)實(shí)施例中,TRBV18、TRBV4-1、TRBV4-2和TRBV6-9這四個(gè)V亞型的特征值占到所有確定出的V亞型的特征值之和的95%,可將這四個(gè)V亞型作為主成分,這里的特征值為PCA中的概念,若AX=λX,則稱λ是矩陣A的特征值,X是對(duì)應(yīng)的特征向量,可以這樣理解:矩陣A作用在它的特征向量X上,僅僅使得X的長(zhǎng)度發(fā)生了變化,縮放比例就是相應(yīng)的特征值λ。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,包括:利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V合并亞型,以及,利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V合并亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果。V合并亞型指合并的V區(qū)基因,例如,根據(jù)IMGT數(shù)據(jù)庫(http://www.imgt.org/),48個(gè)V區(qū)基因片段可合并成23個(gè)進(jìn)行分析,當(dāng)獲得的差異具有統(tǒng)計(jì)意義的V合并亞型有多個(gè),利用PCA能夠進(jìn)行降維,確定主成分,即對(duì)分類起主要作用的V合并亞型。進(jìn)行ROC分析,依據(jù)ROC曲線及其AUC值,能夠評(píng)估分類器即主成分的分類效果。根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,包括:利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的VJ組合亞型,以及,利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的VJ組合亞型對(duì)第一狀態(tài)和第二狀態(tài)的區(qū)分效果;當(dāng)?shù)谝粻顟B(tài)和第二狀態(tài)分別為肝癌組織和肝癌旁組織,利用PCA降維確定出所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的主成分包括的VJ組 合亞型為TRBV6-4TRBJ1-1和TRBV6-4TRBJ2-2,這兩個(gè)VJ組合亞型能夠反映代表所有的差異具有顯著性的VJ組合亞型對(duì)這兩狀態(tài)的區(qū)分能力的95%。VJ組合亞型指V區(qū)基因和/或V合并亞型與J區(qū)基因的組合,當(dāng)獲得的差異具有統(tǒng)計(jì)意義的VJ組合亞型有多個(gè),利用PCA能夠進(jìn)行降維,確定主成分,即確定對(duì)分類起主要作用的VJ組合亞型。而進(jìn)行ROC分析,依據(jù)ROC曲線及其AUC值,能夠評(píng)估分類器即主成分的分類效果。如圖3所示,依據(jù)本發(fā)明的另一方面,本發(fā)明提供一種分析個(gè)體兩類狀態(tài)的免疫差異的裝置100,該裝置100可以用以實(shí)施上述本發(fā)明任一實(shí)施方式的分析個(gè)體兩類狀態(tài)的免疫差異的方法,裝置100包括:測(cè)序數(shù)據(jù)獲取單元10,用于獲取第一測(cè)序數(shù)據(jù)和第二測(cè)序數(shù)據(jù),所述第一測(cè)序數(shù)據(jù)為第一類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第一讀段,所述第二測(cè)序數(shù)據(jù)為第二類狀態(tài)個(gè)體的淋巴細(xì)胞基因組的至少一部分的序列測(cè)定數(shù)據(jù),包括多個(gè)第二讀段,所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分;拼接單元20,與所述測(cè)序數(shù)據(jù)獲取單元10連接,用于分別對(duì)第一測(cè)序數(shù)據(jù)中的第一讀段和第二測(cè)序數(shù)據(jù)中的第二讀段進(jìn)行拼接,獲得第一拼接序列和第二拼接序列;比對(duì)單元30,與所述拼接單元20相連,用于將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對(duì),獲得第一CDR3序列和第二CDR3序列,所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;免疫差異分析單元40,與所述比對(duì)單元30相連,用于比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異,確定差異具有統(tǒng)計(jì)意義且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍,所述第一高頻CDR3序列比例為所述第一CDR3序列種類總數(shù)中高頻CDR3序列種類數(shù)所占的比例,所述第二高頻CDR3序列比例為所述第二CDR3序列種類總數(shù)中高頻CDR3序列種類數(shù)所占的比例,所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05%的CDR3序列,所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05%的CDR3序列。在本發(fā)明的一些實(shí)施例中,免疫差異分析單元40還用于進(jìn)行以下(a)-(c)至少之一:(a)比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類數(shù)目與支持所有V亞型的第一CDR3序列的種類總數(shù)的比值,第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類數(shù)目與支持所有V亞型的第二CDR3序列的種類總數(shù)的比值,(b)比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的V合并亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,第一CDR3序列中的V合并亞型的使用頻率為支持該V合 并亞型的第一CDR3序列的種類數(shù)目與支持所有V合并亞型的第一CDR3序列的種類總數(shù)的比值,第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類數(shù)目與支持所有V合并亞型的第二CDR3序列的種類總數(shù)的比值,(c)比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異,確定差異具有統(tǒng)計(jì)意義的VJ組合亞型對(duì)第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類總數(shù)的比值,第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類總數(shù)的比值。本領(lǐng)域普通技術(shù)人員可以理解,通過對(duì)該裝置增加相應(yīng)功能單元或者子單元能夠?qū)崿F(xiàn)上述本發(fā)明任一具體實(shí)施方式的方法。前述對(duì)本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法的技術(shù)特征和效果的描述,同樣適用本發(fā)明的這一方面的裝置,在此不再贅述。如圖4所示,依據(jù)本發(fā)明的再一方面,提供一種輔助確定個(gè)體狀態(tài)的方法,該方法包括步驟:S100提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸;S200對(duì)所述核酸中的CDR3序列進(jìn)行捕獲;S300對(duì)捕獲得的核酸進(jìn)行序列測(cè)定,獲得測(cè)序結(jié)果,所述測(cè)序結(jié)果包括多個(gè)讀段;S400對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接,獲得拼接片段;S500將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì),獲得CDR3序列,所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;S600基于獲得的CDR3序列,確定待測(cè)個(gè)體的高頻CDR3序列的比例,所述高頻CDR3序列的比例為高頻CDR3序列種類數(shù)目在所述CDR3序列種類數(shù)中所占的比例,所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05%的CDR3序列;S700比較所述高頻CDR3序列的比例與其相應(yīng)閾值的差異,以輔助確定個(gè)體狀態(tài),所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法,閾值即為上述確定出的數(shù)值范圍或者為數(shù)值范圍的上下限。在本發(fā)明的一些實(shí)施例中,該方法的S600還包括進(jìn)行以下(1)-(3)至少之一:(1)CDR3序列中的各種V亞型的使用頻率,所述V亞型的使用頻率為支持該V亞型的CDR3序列的種類數(shù)目與支持所有V亞型的CDR3序列的種類總數(shù)的比值,(2)CDR3序列中的各種V合并亞型的使用頻率,所述V合并亞型的使用頻率為支持該V合并亞型的CDR3序列的種類數(shù)目與支持所有V合并亞型的CDR3序列的種類總數(shù)的比值,(3)CDR3序列中的各種VJ組合亞型的使用頻率的差異,所述VJ組合亞型的使用頻率為支持該VJ組合亞型的CDR3序列的種類數(shù)目與支持所有VJ組合亞型的CDR3序列的種類總數(shù)的比值;相應(yīng)的,S700還包括比較S600中確定的(1)-(3)的至少之一與其相應(yīng)閾值的差異,以輔助確定 個(gè)體狀態(tài)。前述對(duì)本發(fā)明一方面的分析個(gè)體兩類狀態(tài)的免疫差異的方法的技術(shù)特征和優(yōu)點(diǎn)的描述,同樣適用本發(fā)明這一方面的輔助確定個(gè)體狀態(tài)的方法,在此不再贅述。如圖5所示,依據(jù)本發(fā)明的又一方面,提供一種輔助確定個(gè)體狀態(tài)的裝置1000,該裝置1000可以實(shí)施上述本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法。該裝置1000包括:核酸提取部100,用于提取待測(cè)個(gè)體的淋巴細(xì)胞中的核酸;捕獲部200,與核酸提取部100相連,用于對(duì)所述核酸中的CDR3序列進(jìn)行捕獲;測(cè)序部300,與捕獲部200相連,用于對(duì)捕獲得的核酸進(jìn)行序列測(cè)定,獲得測(cè)序結(jié)果,所述測(cè)序結(jié)果包括多個(gè)讀段;拼接部400,與測(cè)序部300相連,用于對(duì)所述測(cè)序結(jié)果中的讀段進(jìn)行拼接,獲得拼接片段;比對(duì)部500,與拼接部400相連,用于將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對(duì),獲得CDR3序列,所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;免疫因素確定部600,與比對(duì)部500相連,用于基于獲得的CDR3序列,確定待測(cè)個(gè)體的高頻CDR3序列的比例,所述高頻CDR3序列的比例為高頻CDR3序列種類數(shù)目在所述CDR3序列種類總數(shù)中所占的比例,所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05%的CDR3序列;差異比較部700,與免疫因素確定部600相連,用于比較所述高頻CDR3序列的比例與其相應(yīng)閾值的差異,以輔助確定個(gè)體狀態(tài),所述閾值的確定包括利用上述本發(fā)明任一具體實(shí)施方式中的分析個(gè)體兩類狀態(tài)的免疫差異的方法。在本發(fā)明的一些實(shí)施例中,免疫因素確定部600還用于進(jìn)行以下(i)-(iii)至少之一:(i)CDR3序列中的各種V亞型的使用頻率,所述V亞型的使用頻率為支持該V亞型的CDR3序列的種類數(shù)目與支持所有V亞型的CDR3序列的種類總數(shù)的比值,(ii)CDR3序列中的各種V合并亞型的使用頻率,所述V合并亞型的使用頻率為支持該V合并亞型的CDR3序列的種類數(shù)目與支持所有V合并亞型的CDR3序列的種類總數(shù)的比值,(iii)CDR3序列中的各種VJ組合亞型的使用頻率的差異,所述VJ組合亞型的使用頻率為支持該VJ組合亞型的CDR3序列的種類數(shù)目與支持所有VJ組合亞型的CDR3序列的種類總數(shù)的比值;相應(yīng)的,差異比較部700還用于比較所述(i)-(iii)至少之一與其對(duì)應(yīng)閾值的差異,以輔助確定個(gè)體狀態(tài)。前述對(duì)本發(fā)明一方面的輔助確定個(gè)體狀態(tài)的方法的技術(shù)特征和優(yōu)點(diǎn)的描述,同樣適用本發(fā)明這一方面的裝置,在此不再贅述。為了使本發(fā)明技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例對(duì)本發(fā)明的分析個(gè)體兩類狀態(tài)的免疫差異的方法和/或裝置、輔助確定個(gè)體免疫狀態(tài)的方法和/或裝置進(jìn)行詳細(xì)的描述。應(yīng)當(dāng)理解,下面示例用于解釋本發(fā)明,不是對(duì)本發(fā)明的限制。需要說明的是在本文中所使用的術(shù)語“第一”、“第二”等僅為方便描述,不能理解為指示或暗示相對(duì)重要性,也不能理解為之間有先后順序關(guān)系。在本發(fā)明的描述中,除非另有說明,“多個(gè)”的含義是兩 個(gè)或兩個(gè)以上。除另有交待,以下實(shí)施例中涉及的未特別交待的試劑、序列(接頭、標(biāo)簽和引物)、軟件及儀器,都是常規(guī)市售產(chǎn)品或者開源的,例如購(gòu)買Illumina的測(cè)序文庫構(gòu)建試劑盒。實(shí)施例一一般方法,包括:首先,對(duì)CDR3進(jìn)行測(cè)序與鑒定:用淋巴細(xì)胞分離液分離外周血T/B淋巴細(xì)胞,提取DNA(或RNA),采用多重PCR/5'RACE對(duì)CDR3進(jìn)行捕獲,通過Hiseq2000或Hiseq2500或Miseq平臺(tái)進(jìn)行高通量測(cè)序。對(duì)所測(cè)數(shù)據(jù)進(jìn)行質(zhì)控后比對(duì)到IMGT數(shù)據(jù)庫(http://www.imgt.org/),確定其CDR3序列。其次,對(duì)免疫結(jié)果的分析:高頻CDR3序列即為高增殖克隆(highlyexpandedclone),定義HEC比率——高增殖克隆比率(highlyexpandedclone-rate,HECrate)為頻率超過0.05%,較佳的,頻率不超過0.5%的CDR3的種類數(shù)目占CDR3種類總數(shù)的比例。對(duì)差異使用的V亞型、V合并亞型(Vmerge)和/或VJ組合亞型進(jìn)行PCA分析。涉及的細(xì)節(jié)與步驟如下:常規(guī)統(tǒng)計(jì)量部分說明:1、CDR3豐度,通過測(cè)序出的免疫數(shù)據(jù),質(zhì)控糾錯(cuò)后通過比對(duì)軟件與IMGT網(wǎng)站免疫參考序列進(jìn)行比對(duì),確定CDR3支持的reads數(shù)(支持CDR3的reads即為比對(duì)上該CDR3的reads),并計(jì)算出每種CDR3克隆所占比率。2、CDR3長(zhǎng)度,即對(duì)鑒定出的CDR3序列長(zhǎng)度進(jìn)行統(tǒng)計(jì)。3、VJ使用(VJ組合亞型使用頻率),即通過對(duì)確定的CDR3序列所比對(duì)上的VJ情況進(jìn)行VJ連用的所占比率。單獨(dú)統(tǒng)計(jì)V亞型或者J亞型使用頻率。4、HECrate,統(tǒng)計(jì)分析高頻CDR3序列的豐度(如0.1%~0.5%)占總體序列種類數(shù)的比率達(dá)到某個(gè)閾值或落入某個(gè)范圍。具體分析內(nèi)容說明:1.HECrate比較統(tǒng)計(jì)頻率超過0.1%(或者0.1%~0.5%)的CDR3種類數(shù)目占CDR3種類總數(shù)的比例。用T檢驗(yàn)等檢驗(yàn)兩組個(gè)體之間是否存在差異,例如檢驗(yàn)?zāi)臣膊〗M與正常組之間是否存在差異。2.V、J亞型分析2.1V亞型以及VJ組合亞型關(guān)聯(lián)分析統(tǒng)計(jì)不同V亞型下樣本的相對(duì)豐度,并對(duì)疾病組和對(duì)照組樣本進(jìn)行T檢驗(yàn)、Wilcox檢驗(yàn)等,來找到P值<0.01的V亞型。或者依據(jù)不同V亞型區(qū)分疾病組和對(duì)照組的最小錯(cuò)誤率,找出最小錯(cuò)誤率最低的V亞型,這些V亞型即有可能與研究目的相關(guān)。或者對(duì)訓(xùn)練集挑選出的相關(guān)亞型在測(cè)試集中進(jìn)行ROC分析并計(jì)算AUC值,對(duì)于區(qū)分效果明顯者亦可使用全部亞型進(jìn)行區(qū)分,不進(jìn)行P值挑選。VJ使用或V合并亞型分析類似。2.2對(duì)V亞型或VJ亞型進(jìn)行PCA分析統(tǒng)計(jì)不同V亞型下樣本的相對(duì)豐度,然后用PCA(主成分分析)的方法算出各個(gè)樣本的第一主成分和第二主成分的值作圖,看是否有疾病組和對(duì)照組的分開聚集現(xiàn)象,如是否使兩類狀態(tài)達(dá)到線性可分。如果某個(gè)主成分可以很好的區(qū)分疾病組和對(duì)照組,對(duì)訓(xùn)練集找出有差異的V亞型,在測(cè)試集中進(jìn)行驗(yàn)證,并對(duì)測(cè)試集進(jìn)行ROC分析并計(jì)算AUC值。多次隨機(jī)抽取訓(xùn)練集與測(cè)試集,求出AUC均值,以判斷挑選出的亞型在疾病差別中是否穩(wěn)定。VJ組合亞型,合并V型同理分析。通過此方法,可尋找不同指標(biāo)來對(duì)人群進(jìn)行區(qū)分,進(jìn)而可找出或者輔助找出某此疾病潛在的Bio-mark,利于達(dá)到無創(chuàng)檢測(cè)目的,亦有利于輔助對(duì)疾病的治療進(jìn)行預(yù)后的監(jiān)控。由于免疫反應(yīng)的特性,免疫的研究對(duì)早期檢測(cè)可能優(yōu)于現(xiàn)有技術(shù)水平,對(duì)免疫數(shù)據(jù)的積累,后期可能達(dá)到一次測(cè)序,檢查多項(xiàng)疾病的目的,能極大的提高人民健康水平。實(shí)施例二以T淋巴細(xì)胞為研究目標(biāo),采用優(yōu)化的多重PCR的技術(shù)對(duì)T細(xì)胞受體β鏈最具多樣性的互補(bǔ)決定區(qū)CDR3區(qū)進(jìn)行擴(kuò)增,擴(kuò)增引物、擴(kuò)增方法、文庫構(gòu)建測(cè)序等可按照CN103205420A中描述的進(jìn)行,獲得下機(jī)數(shù)據(jù),全面分析TCR組成,評(píng)估免疫系統(tǒng)的多樣性,挖掘免疫組庫與肝癌、肝炎、直腸癌的發(fā)生和發(fā)展的關(guān)系信息。該方法包括如下步驟:(一)根據(jù)T細(xì)胞受體CDR3序列,設(shè)計(jì)Vsegment和Jsegment引物如CN103205420A,以及參考序列構(gòu)建,包括從數(shù)據(jù)庫中獲得已知CDR3序列集合。(二)樣本制備1.抽取待檢者外周血5mL,存于EDTA抗凝管中,使用Ficoll淋巴細(xì)胞分離液在3h內(nèi)進(jìn)行外周血PBMC分離;2.trizol法提取總RNA;3.RNA定量檢測(cè);(三)文庫制備及測(cè)序1.RNA逆轉(zhuǎn)錄為cDNA;2.多重PCR擴(kuò)增T細(xì)胞受體β鏈CDR3序列,切膠回收目的片段;3.對(duì)T細(xì)胞受體β鏈CDR3片段進(jìn)行末端修復(fù);4.對(duì)T細(xì)胞受體β鏈CDR3片段末端加A;5.連接接頭(Adapter);6.連接產(chǎn)物PCR擴(kuò)增;7.連接產(chǎn)物磁珠純化;8.文庫定量及質(zhì)控;9.IlluminaHiSeq2500/2000上機(jī)測(cè)序;(四)下機(jī)數(shù)據(jù)進(jìn)行生物信息分析1.SOAPnuke過濾:去除低質(zhì)量reads;2.利用拼接程序,將PEreads進(jìn)行拼接合并;3.拼接好的數(shù)據(jù)與參考序列比對(duì);4.重新比對(duì);5.重比對(duì)結(jié)果過濾;6.相關(guān)統(tǒng)計(jì)及作圖分析。個(gè)體在無抗原刺激時(shí),TCR基因重排是隨機(jī)的,因此正常人外周T細(xì)胞呈多家族、多克隆性特點(diǎn)。當(dāng)抗原刺激后,TCRV區(qū)基因可對(duì)該抗原產(chǎn)生特異性識(shí)別,并使帶有這類基因的T細(xì)胞得到優(yōu)勢(shì)擴(kuò)增,通過對(duì)待檢者外周血PBMC中的T細(xì)胞受體β鏈CDR3進(jìn)行擴(kuò)增及高通量測(cè)序,對(duì)TCRV區(qū)基因多樣性分布及變化進(jìn)行分析,進(jìn)而分析不同TCRV亞家族T細(xì)胞的表達(dá)和利用,從而可以發(fā)現(xiàn)差異,這些差異可能能夠應(yīng)用或者輔助應(yīng)用于另一種狀態(tài),另一種正?;虍惓顟B(tài),如肝癌、肝炎、直腸癌等的早期無創(chuàng)診斷檢測(cè)、發(fā)病進(jìn)展監(jiān)測(cè)、指導(dǎo)腫瘤術(shù)后效果檢測(cè)評(píng)估等。例如,通過對(duì)待檢者的細(xì)胞免疫水平進(jìn)行綜合評(píng)價(jià),進(jìn)行腫瘤的早期無創(chuàng)診斷;進(jìn)一步通過比較患者手術(shù)/用藥前后的免疫組庫變化來監(jiān)測(cè)疾病發(fā)展,評(píng)估預(yù)后效果,指導(dǎo)選擇合適的治療方案,預(yù)防腫瘤復(fù)發(fā)。若用于輔助臨床檢測(cè),具有如下優(yōu)勢(shì):1)微創(chuàng)性:受檢者只需要提供5-10mL外周血樣本;2)實(shí)時(shí)性:可對(duì)受檢者進(jìn)行多次實(shí)時(shí)采血,輔助早期篩查時(shí)的定期檢測(cè),監(jiān)控腫瘤發(fā)病風(fēng)險(xiǎn),腫瘤患者可在手術(shù)后、化療后隨時(shí)檢測(cè),以分析手術(shù)預(yù)后情況及化療效果;3)高通量:基于新一代測(cè)序技術(shù)的免疫組庫測(cè)序,能夠在很短的時(shí)間內(nèi)同時(shí)進(jìn)行多例樣本檢測(cè)。一次測(cè)序得到百萬級(jí)別條數(shù)的序列信息。實(shí)施例三17例肝炎患者樣本:包括肝組織樣本以及同期的外周血樣本健康人的樣本:20例健康志愿者的外周血樣本。9例志愿者的正常肝組織樣本。免疫組庫測(cè)序檢測(cè)以外周血中分離的PBMC作為研究對(duì)象,內(nèi)容如下:1.外周血取樣1)取患者外周血樣本5ml于EDTA抗凝管中。上下輕輕顛倒4-6次充分混勻后,室溫放置,并在2小時(shí)以內(nèi)完成PBMC分離工作;2)加入3倍體積的無菌生理鹽水,上下顛倒混勻;3)取3ml細(xì)胞分層液于15ml離心管中,并小心的吸取2)步稀釋的全血細(xì)胞4ml沿管壁疊加于分層液面上,體積大于4ml的分多管進(jìn)行。水平離心,400g,室溫條件下離心30分鐘;4)小心吸取淋巴細(xì)胞層,置于另一離心管中,加入5倍以上體積的無菌生理鹽水,400g室溫條件下離心10分鐘;5)倒掉上清液,加入1mlTRIzol。用吸頭反復(fù)吹打細(xì)胞直至看不見成團(tuán)的細(xì)胞塊,整個(gè)溶液呈清亮而不粘稠的狀態(tài);轉(zhuǎn)移至2ml離心管。6)液氮速凍后-80°保存,干冰盒運(yùn)輸,避免反復(fù)凍融。2.RNA的提取1)每管PBMC(組織樣本經(jīng)液氮研磨后)加入1mlTrizol,混均,冰上放置5min。2)加入氯仿0.2ml/管,振搖15s。15-30℃孵育2-3min,4℃,12000g,離心15min。3)吸取上層無色液體轉(zhuǎn)移至新的EP管中。4)加入等體積異丙醇,混勻,15-30℃孵育10-30min,4℃,12000g,離心10min。5)去上清,加入75%乙醇1ml,渦旋振蕩30s,4℃,7500g,離心5min。6)吸凈上清,管內(nèi)沉淀在超凈臺(tái)中鼓風(fēng)靜置3-5min。7)加入20ulDEPC水溶解,-80℃冰箱保存。3.RNA反轉(zhuǎn)錄(RNAreversetranscripsion)RNA(補(bǔ)DEPCH2O)10ul(RNA總量200ng)ReversePrimer1ul65℃變性5min后立即置于冰上,依次加入以下體系:4.文庫構(gòu)建4.1多重PCR(multiplexpolymerchainreaction)擴(kuò)增T細(xì)胞受體CDR3區(qū)4.1.1使用QIAGEN公司的MultiplexPCR試劑盒,配置PCR的反應(yīng)體系,進(jìn)行PCR。PCR反應(yīng)條件:4.1.2多重PCR產(chǎn)物,QIAquickGelPurificationKit純化膠回收產(chǎn)物1)配置2%的回收膠。2)將多重PCR產(chǎn)物進(jìn)行電泳,400mA,100V,電泳2h。3)EB染膠。4)片段選擇:100-200bp。5)使用30ul超純水進(jìn)行回溶。4.2末端修復(fù)1)在1.5ml的離心管中配制末端修復(fù)反應(yīng)體系:2)上述100μL反應(yīng)混合物輕微振蕩混合均勻,瞬時(shí)離心,在Thermomixer中20℃溫浴30min。3)用QIAquickPCRPurificationKit純化產(chǎn)物,34μL回溶。4.3末端加“A”(A-Tailing)1)在1.5ml的離心管中配制末端加“A”反應(yīng)體系:DNA32μL10xbluebuffer5μLdATP(1mM)10μLKlenow(3’-5’exo-)3μL2)上述50μL反應(yīng)混合物輕微振蕩混合均勻,瞬時(shí)離心后置于Thermomixer中37℃溫浴30min。3)用QIAquickMinElutePCRPurificationKit純化產(chǎn)物,17μL回溶。4.4Adapter的連接(AdapterLigation)1)在1.5ml的離心管中配制Adapter連接反應(yīng)體系:DNA15μL2xRapidligationbuffer25μLPEAdapteroligomix(1μM)5μLT4DNALigase(Rapid)5μL2)上述50μL反應(yīng)混合物輕微振蕩混勻,瞬時(shí)離心后置于Thermomixer中20℃溫浴15min。3)QIAquickMinElutePCRPurificationKit純化產(chǎn)物,25μL回溶。4.5連接產(chǎn)物PCRDNA23μLPrimer1公用(10μm)1μLPrimerindexX(10μm)1μL2×phusionmastermix25μL總體積50μLPCR反應(yīng)條件:4.6連接產(chǎn)物的純化(AGENCOURTAMPureXPbeads)在50μL連接產(chǎn)物中,加入1.2倍體積的磁珠(60μL),進(jìn)行磁珠純化,加入20μLUltraPureWater,進(jìn)行回溶。5.文庫檢測(cè)使用Agilent2100Bioanalyzer檢測(cè)文庫產(chǎn)量;使用qPCR定量檢測(cè)文庫產(chǎn)量。6.上機(jī)測(cè)序TCR-seq采用IlluminaHiSeq2500PE101+8+101(雙末端測(cè)序,讀段長(zhǎng)度101bp)程序 進(jìn)行上機(jī)測(cè)序,測(cè)序?qū)嶒?yàn)操作按照制造商提供的操作說明書進(jìn)行上機(jī)測(cè)序操作。7.下機(jī)數(shù)據(jù)生物信息分析及免疫組庫測(cè)序結(jié)果分析7.1生物信息分析1)測(cè)序數(shù)據(jù)的預(yù)處理:去除Nrate(N比例)大于或等于5%的reads;去除含有adapter污染的reads;去除平均質(zhì)量值低于15的reads;一對(duì)讀段對(duì)reads1和reads2,reads1與reads2尾部質(zhì)量值小于10的堿基逐個(gè)進(jìn)行切除,切除后reads1長(zhǎng)度需滿足60bp以上,reads2長(zhǎng)度需滿足50bp以上。2)PairedReads合并:利用COPE和FqMerger(華大基因,BGI),將PEreads進(jìn)行拼接合并為contigs。3)contigs數(shù)據(jù)與參考序列進(jìn)行比對(duì):拼接好的序列(contigs)與構(gòu)建好的CDR3V/D/J參考序列(CDR3V/D/J參考序列來源于http://www.imgt.org/download/GENE-DB/)分別進(jìn)行BLAST比對(duì)。4)重新比對(duì):根據(jù)以上合并的blast比對(duì)結(jié)果,將CDR3起始位置后的序列依照CDR3區(qū)域比對(duì)標(biāo)準(zhǔn)進(jìn)行重新比對(duì):對(duì)blast比對(duì)部分的V,D,J兩端進(jìn)行延伸比對(duì)至contig兩端為止,并對(duì)CDR3區(qū)域進(jìn)行mismatch設(shè)置,例如采用的設(shè)置標(biāo)準(zhǔn)為:V區(qū)允許的mismatch數(shù)TRB的為0、IGH的為2,J區(qū)允許的mismatch數(shù)TRB的為0、IGH的為2,D區(qū)允許的mismatch數(shù)目TRB的為0、IGH為4,過濾參數(shù)可依據(jù)mismatch數(shù)參考IMGT工具進(jìn)行設(shè)置。重新計(jì)算identity(比對(duì)率),比對(duì)率的計(jì)算方式為比對(duì)上的堿基數(shù)除以該contig的比對(duì)至CDR3參考序列達(dá)到所允許的mismatch數(shù)的位置的堿基數(shù)目,對(duì)計(jì)算出的identity進(jìn)行過濾:V區(qū)比對(duì)率大于或等于80%,J區(qū)大于或等于80%的最終比對(duì)結(jié)果分別作為V,D,J的型別。5)比對(duì)結(jié)果過濾:去除Contigs重復(fù)為1的比對(duì)結(jié)果,去除未比上V基因或者J基因的Contigs,去除比對(duì)V,J基因相反方向的Contigs,去除比上假基因的Contigs。根據(jù)參考序列CDR3起始位置,確定Contig的CDR3位置,去除無法確定CDR3位置的Contigs,去除含終止密碼子或者無ORF的Contigs。6)相關(guān)統(tǒng)計(jì)與作圖:使用最終確定的TCRβ鏈上48個(gè)V區(qū)基因片段和13個(gè)J區(qū)基因片段進(jìn)行后續(xù)分析,其中為了便于統(tǒng)計(jì),48個(gè)V區(qū)基因片段可合并成23個(gè)進(jìn)行分析。我們利用高增殖克隆的比率(highlyexpandedclone-rate,HEC-rate)分析及V區(qū)使用的主成分分析(V-usage-PrincipalComponentAnalysis,V-usagePCA)等方法對(duì)健康人及肝癌患者進(jìn)行分類分析。1)統(tǒng)計(jì)頻率超過0.1%的高頻CDR3(HEC)種類數(shù)目占CDR3種類總數(shù)的比例。用T檢驗(yàn)等檢驗(yàn)患者與健康人數(shù)據(jù)之間是否存在差異。T檢驗(yàn),亦稱studentt檢驗(yàn),是用t分布理論來推論差異發(fā)生的概率,從而比較兩個(gè)平均數(shù)的差異是否顯著;2)統(tǒng)計(jì)不同V亞型下樣本的相對(duì)豐度,然后用PCA(主成分分析)的方法算出各個(gè)樣本的第一主成分和第二主成分的值作圖,觀察患者和健康人群的分開聚集現(xiàn)象。如果某些主成分(V亞型)可以很好的區(qū)分患者和健康人,對(duì)該主成分進(jìn)行受試者工作特征曲線分析(receiveroperatingcharacteristiccurve,ROC)并統(tǒng)計(jì)ROC曲線下的面積即AUC值。ROC曲線能很容易地查出任意界限值時(shí)的對(duì)疾病的識(shí)別能力。通過計(jì)算ROC曲線下的面積(AUC)判別識(shí)別效果,AUC越大(接近1),則識(shí)別診斷價(jià)值越佳。7.2免疫組庫測(cè)序結(jié)果分析1)使用HEC-rate分析對(duì)健康人群及肝炎患者在組織和血液水平進(jìn)行區(qū)分首先,我們定義了高表達(dá)克隆HEC的概念,即頻率超過0.1%的CDR3的比例,并利用HEC-rate分析方法,即統(tǒng)計(jì)頻率超過0.1%的高頻CDR3(HEC)占UniqueCDR3(CDR3種類)總數(shù)的比例,對(duì)20例健康人及17例肝炎患者的血液樣本及組織樣本分別進(jìn)行比較,結(jié)果如圖6所示,表明兩組人群無論在血液水平還是組織水平,HEC-rate存在明顯差異。通過對(duì)健康人群及肝炎患者這兩組樣品分別進(jìn)行ROC分析,計(jì)算其ROC曲線下的面積即AUC,量化其區(qū)分度。結(jié)果我們發(fā)現(xiàn)利用HEC-rate分析可以在血液中明顯的區(qū)分健康人和肝炎患者,經(jīng)T檢驗(yàn)后p值<0.001,這說明兩組人確實(shí)在HEC-rate的數(shù)值上存在明顯差異,而ROC曲線分析表明ROC曲線下的面積(AUC)達(dá)到了0.8739,說明區(qū)分度也比較高,如圖6B所示,這為基于對(duì)T細(xì)胞受體β鏈CDR3進(jìn)行擴(kuò)增并利用高通量測(cè)序進(jìn)行檢測(cè)從而輔助肝炎無創(chuàng)診斷提供了可能性,同時(shí)這種無創(chuàng)檢測(cè)方法也更便于對(duì)患者病情發(fā)展的實(shí)時(shí)監(jiān)測(cè)。因此,我們將區(qū)分肝炎疾病和正常人的肝炎的HEC-rate數(shù)值范圍限定在0.0090-0.0014。2)肝癌患者,肝炎患者及正常人的共享克隆率進(jìn)行了密度分布分析。通過組內(nèi)兩兩比較的方法分析共享的TCRCDR3的比例,并對(duì)正常人、肝炎患者、肝癌患者的共享克隆率進(jìn)行了密度分布比較,結(jié)果表明健康人的TCR庫容量比疾病患者的庫容量要豐富。另外,我們還發(fā)現(xiàn)在相同起始量RNA的情況下,肝炎患者組織中的T細(xì)胞種類數(shù)量要少于血液中T細(xì)胞種類數(shù)量。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1