1.一種分析個體兩類狀態(tài)的免疫差異的方法,其特征在于,包括,
獲取第一測序數(shù)據(jù)和第二測序數(shù)據(jù),
所述第一測序數(shù)據(jù)為第一類狀態(tài)個體的淋巴細(xì)胞基因組的至少一部分的序列測定數(shù)據(jù),包括多個第一讀段,
所述第二測序數(shù)據(jù)為第二類狀態(tài)個體的淋巴細(xì)胞基因組的至少一部分的序列測定數(shù)據(jù),包括多個第二讀段,
所述淋巴細(xì)胞基因組的至少一部分包括CDR3序列的至少一部分;
分別對第一測序數(shù)據(jù)中的第一讀段和第二測序數(shù)據(jù)中的第二讀段進(jìn)行拼接,獲得第一拼接序列和第二拼接序列;
將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對,獲得第一CDR3序列和第二CDR3序列,所述多種CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;
比較第一高頻CDR3序列比例和第二高頻CDR3序列比例的差異,確定差異具有統(tǒng)計意義且能夠區(qū)分所述第一類狀態(tài)和所述第二類狀態(tài)的高頻CDR3序列比例的數(shù)值范圍,
所述第一高頻CDR3序列比例為所述第一CDR3序列種類中高頻CDR3序列種類數(shù)所占的比例,
所述第二高頻CDR3序列比例為所述第二CDR3序列種類中高頻CDR3序列種類數(shù)所占的比例,
所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不小于0.05%的CDR3序列,
所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不小于0.05%的CDR3序列。
2.權(quán)利要求1的方法,其特征在于,所述第一測序數(shù)據(jù)包括多對第一讀段對,每對第一讀段對由兩個第一讀段組成,
所述第二測序數(shù)據(jù)包括多對第二讀段對,每對所述第二讀段對由兩個第二讀段組成,
進(jìn)行所述拼接依據(jù)有重疊的第一讀段或第二讀段,以及第一讀段對或者第二讀段對中一對讀段對中的兩個讀段之間的距離。
3.權(quán)利要求1的方法,其特征在于,所述多種CDR3參考序列包括V基因參考序列 和J基因參考序列,
所述將第一拼接序列和第二拼接序列分別與多種CDR3參考序列比對,包括,
將所述第一拼接序列和第二拼接序列分別與所述多種CDR3參考序列進(jìn)行比對,獲得第一比對結(jié)果和第二比對結(jié)果,
所述第一比對結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對上的第一拼接序列,
所述第二比對結(jié)果包括能夠與至少一種V基因參考序列和至少一種J基因參考序列都比對上的第二拼接序列,
基于所述第一比對結(jié)果,確定其中的第一拼接序列上的CDR3序列的起始位置,
基于所述第二比對結(jié)果,確定其中的第二拼接序列上的CDR3序列的起始位置,
分別將第一比對結(jié)果中的第一拼接序列上的CDR3序列起始位置之后的部分和第二比對結(jié)果中的第二拼接序列上的CDR3序列起始位置之后的部分與所述多種CDR3參考序列進(jìn)行重新比對,獲得第一重新比對結(jié)果和第二重新比對結(jié)果。
4.權(quán)利要求3的方法,其特征在于,所述重新比對的比對條件設(shè)置為,
與所述V基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對所允許的錯配堿基數(shù)為0,與所述V基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對所允許的錯配堿基數(shù)為2,和/或
與所述J基因參考序列的TRB基因參考序列區(qū)進(jìn)行所述重新比對所允許的錯配堿基數(shù)為0,與所述J基因參考序列的IGH基因參考序列區(qū)進(jìn)行所述重新比對所允許的錯配堿基數(shù)為2。
5.權(quán)利要求3的方法,其特征在于,在獲得第一重新比對結(jié)果和第二重新比對結(jié)果后,還包括,
分別對所述第一重新比對結(jié)果和所述第二重新比對結(jié)果進(jìn)行過濾,以獲得所述第一CDR3序列和所述第二CDR3序列,其中包括,分別去除第一重新比對結(jié)果和第二重新比對結(jié)果中的符合以下描述至少之一的拼接序列,
其所在的CDR3序列種類的拼接序列支持?jǐn)?shù)為1,
未能比對上V基因參考序列或者J基因參考序列,
比對上所述CDR3參考序列的假基因參考序列區(qū),
比對上V基因參考序列和J基因參考序列,且比對上二者的方向相反,
無法確定其上的CDR3的起始位置,
含終止密碼子,
不含開放閱讀框。
6.權(quán)利要求1的方法,其特征在于,所述第一高頻CDR3序列為在所述第一CDR3序列中頻率不大于0.5%的CDR3序列,
所述第二高頻CDR3序列為在所述第二CDR3序列中頻率不大于0.5%的CDR3序列。
7.權(quán)利要求1-6任一方法,其特征在于,所述高頻CDR3序列比例的數(shù)值范圍能夠區(qū)分開第一類狀態(tài)和第二類狀態(tài);
任選的,所述高頻CDR3序列比例的數(shù)值范圍為0.0090-0.0014。
8.權(quán)利要求1-7任一方法,其特征在于,還包括,
比較第一CDR3序列和第二CDR3序列中的各種V亞型的使用頻率的差異,確定差異具有統(tǒng)計意義的V亞型對第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,
第一CDR3序列的V亞型的使用頻率為支持該V亞型的第一CDR3序列的種類數(shù)目與支持所有V亞型的第一CDR3序列的種類總數(shù)的比值,
第二CDR3序列中的V亞型的使用頻率為支持該V亞型的第二CDR3序列的種類數(shù)目與支持所有V亞型的第二CDR3序列的種類總數(shù)的比值,
和/或,
比較第一CDR3序列和第二CDR3序列中的各種V合并亞型的使用頻率的差異,確定差異具有統(tǒng)計意義的V合并亞型對第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,
第一CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第一CDR3序列的種類數(shù)目與支持所有V合并亞型的第一CDR3序列的種類總數(shù)的比值,
第二CDR3序列中的V合并亞型的使用頻率為支持該V合并亞型的第二CDR3序列的種類數(shù)目與支持所有V合并亞型的第二CDR3序列的種類總數(shù)的比值,
和/或,
比較第一CDR3序列和第二CDR3序列中的各種VJ組合亞型的使用頻率的差異,確定差異具有統(tǒng)計意義的VJ組合亞型對第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,
第一CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第一CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第一CDR3序列的種類總數(shù)的比值,
第二CDR3序列中的VJ組合亞型的使用頻率為支持該VJ組合亞型的第二CDR3序列的種類數(shù)目與支持所有VJ組合亞型的第二CDR3序列的種類總數(shù) 的比值。
9.權(quán)利要求8的方法,其特征在于,所述確定差異具有統(tǒng)計意義的V亞型對第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,包括,
利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V亞型,以及
利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V亞型對第一狀態(tài)和第二狀態(tài)的區(qū)分效果;
和/或,
所述確定差異具有統(tǒng)計意義的V合并亞型對第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,包括,
利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V合并亞型,以及
利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的V合并亞型對第一狀態(tài)和第二狀態(tài)的區(qū)分效果;
和/或,
所述確定差異具有統(tǒng)計意義的VJ組合亞型對第一類狀態(tài)和第二類狀態(tài)的區(qū)分效果,包括,
利用主成分分析方法確定能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的VJ組合亞型,以及
利用ROC分析確定所述能夠區(qū)分開第一狀態(tài)和第二狀態(tài)的VJ組合亞型對第一狀態(tài)和第二狀態(tài)的區(qū)分效果。
10.一種輔助確定個體狀態(tài)的方法,其特征在于,包括,
提取待測個體的淋巴細(xì)胞中的核酸;
對所述核酸中的CDR3序列進(jìn)行捕獲;
對捕獲得的核酸進(jìn)行序列測定,獲得測序結(jié)果,所述測序結(jié)果包括多個讀段;
對所述測序結(jié)果中的讀段進(jìn)行拼接,獲得拼接片段;
將所述拼接片段分別與多種CDR3基因參考序列進(jìn)行比對,獲得CDR3序列,所述CDR3參考序列包括V基因參考序列、D基因參考序列和J基因參考序列中的至少兩種;
基于獲得的CDR3序列,確定待測個體的高頻CDR3序列的比例,所述高頻CDR3序列的比例為高頻CDR3序列種類數(shù)目在所述CDR3序列種類總數(shù)中所占的比例,所述高頻CDR3序列為在所述CDR3序列中頻率不小于0.05%的CDR3序列;
比較所述高頻CDR3序列的比例與其對應(yīng)閾值的差異,以輔助確定個體狀態(tài),所述閾值的確定包括利用權(quán)利要求1-9任一方法。