本發(fā)明屬于生物信息領(lǐng)域,具體的,本發(fā)明涉及一種確定重排前v/j基因序列的方法和裝置。
背景技術(shù):
胚系細(xì)胞(germline)上存在一簇v基因、一簇j基因,有的v/j基因之間還有一簇d基因,基因簇中的基因由內(nèi)含子分開,串聯(lián)排列在同一條染色體上,并且基因之間的同源性非常的高【動(dòng)物免疫學(xué)[m].中國農(nóng)業(yè)大學(xué)出版社,1996.】。一般一個(gè)簇里面有幾十個(gè)基因,且每個(gè)基因在不同個(gè)體上可能不一樣,如人編碼抗體的重鏈(igh)的v基因簇中有40個(gè)基因、d基因簇有25個(gè)基因、j基因簇有6個(gè)基因,其中40個(gè)v基因總共有425個(gè)等位基因(allele)。
對于淋巴細(xì)胞來說,在細(xì)胞發(fā)育成熟過程中,v基因、j基因或者d基因會(huì)發(fā)生基因間的重排【parkinj,cohenb.anoverviewoftheimmunesystem[j].thelancet,2001,357(9270):1777-1789.】,形成編碼t細(xì)胞受體(tcr)和b細(xì)胞受體(bcr)或抗體(ig)的基因。而這些構(gòu)成機(jī)體免疫系統(tǒng)的b細(xì)胞受體/抗體或t細(xì)胞受體的集合就形成了免疫組庫(immunereperoire)。
免疫球蛋白tcr和bcr的恒定區(qū)(c區(qū))比較保守,相對容易測序,很多動(dòng)物的c區(qū)已知。但v,d,j基因區(qū)的多樣性較高【余江,姚新生.高通量測序分析自身免疫性疾病t細(xì)胞受體β鏈cdr3組庫的特征[j].貴州醫(yī)藥,2015,3:037.】;而且,除人類和小鼠外,其他物種的該區(qū)域基因還未被找到或者僅僅證明了其中一部分;這些一定程度上阻礙了免疫學(xué)研究的進(jìn)程。例如,猴子是一種可用的疫苗評(píng)價(jià)和抗體動(dòng)物模型并被廣泛使用。但是猴子的igh序列【linkjm,hellingerma,schroederhw.therhesusmonkeyimmunoglobulinighdandighjgermlinerepertoire[j].immunogenetics,2002,54(4):240-250.】只有少量被發(fā)現(xiàn),遠(yuǎn)遠(yuǎn)達(dá)不到分析的要求。因此研究物種的germline序列是一個(gè)亟待解決的基本問題。
目前,已有一些方法試圖探索germline序列。傳統(tǒng)的方法是使用pcr克隆的策略,基于人類基因組dna序列作為引物進(jìn)行pcr擴(kuò)增物種的germline。使用這種方法能測出駱駝【nguyenvk,hamersr,wynsl,etal.camelheavy‐chainantibodies:diversegermlinevhhandspecificmechanismsenlargetheantigen‐bindingrepertoire[j].theembojournal,2000,19(5):921-930.】和猴子【diazol,daubenbergerca,rodriguezr,etal.immunoglobulinkappalight-chainv,j,andcgenesequencesoftheowlmonkeyaotusnancymaae[j].immunogenetics,2000,51(3):212-218.】的部分germline序列,這是最直接的獲得序列的方法,但只適用于和人類同源的物種,并且需要設(shè)計(jì)多重配對引物且時(shí)間長。
最近,將生物信息的方法應(yīng)用于參考序列組裝物種的基因組已成為一個(gè)重要的方向。但這些生物信息策略依賴于已知物種基因組和germline序列。對于物種germline區(qū)域高度重復(fù)性區(qū)域的組裝準(zhǔn)確校正是較難的,影響了germline的推斷。另外,至今也沒有軟件或工具用于推斷germline序列。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少解決上述問題之一或者提出一種商業(yè)選擇手段。為此,發(fā)明人提供了一個(gè)從頭(denovo)方法以推定v/j的germline序列,即推定重排前的v/j基因序列。
依據(jù)本發(fā)明的一方面,本發(fā)明提供一種確定重排前的v和/或j基因序列的方法,該方法包括:(1)獲取待測rna樣品的測序數(shù)據(jù),所述測序數(shù)據(jù)包括來自tcr、bcr和/或ig的可變區(qū)的多個(gè)讀段,所述讀段的長度為l,l≥100bp;(2)基于所述測序數(shù)據(jù),依據(jù)所述可變區(qū)中的v基因片段和j基因片段與c基因片段的排列關(guān)系,確定所述讀段上的來自v基因片段和/或j基因片段的部分,獲得多個(gè)v區(qū)部分和/或多個(gè)j區(qū)部分;(3)從每個(gè)所述v區(qū)部分和/或所述j區(qū)部分取出至少一段序列作為種子序列,獲得包含多個(gè)種子序列的種子序列集,所述種子序列的長度為k;(4)依據(jù)所述種子序列集中的每個(gè)種子序列的v區(qū)部分和/或j區(qū)部分的支持?jǐn)?shù)目的差異,對所述v區(qū)部分和/或j區(qū)部分進(jìn)行聚類,獲得多個(gè)v區(qū)部分簇和/或多個(gè)j區(qū)部分簇;(5)利用每個(gè)所述v區(qū)部分簇和/或所述j區(qū)部分簇延伸其所支持的種子序列,獲得多個(gè)候選的重排前v基因序列和/或多個(gè)候選的重排前j基因序列;(6)利用所述測序數(shù)據(jù)中的讀段對所述候選的重排前v基因序列和/或所述候選的重排前j基因序列的支持情況進(jìn)行過濾,以獲得所述重排前的v和/或j基因序列。
依據(jù)本發(fā)明的另一方面,本發(fā)明提供一種計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行程序,執(zhí)行所述程序包括完成上述本發(fā)明一方面的確定重排前的v和/或j基因序列的方法。本領(lǐng)域技術(shù)人員可以理解,在執(zhí)行該計(jì)算機(jī)可執(zhí)行程序時(shí),通過指令相關(guān)硬件可完成上述方法的全部或部分步驟。所稱存儲(chǔ)介質(zhì)可以包括:只讀存儲(chǔ)器、隨機(jī)存儲(chǔ)器、磁盤或光盤等。
依據(jù)本發(fā)明的又一方面,本發(fā)明提供一種確定重排前的v和/或j基因序列的裝置,該裝置包括:數(shù)據(jù)輸入單元,用于輸入數(shù)據(jù);數(shù)據(jù)輸出單元,用于輸出數(shù)據(jù);存儲(chǔ)單元,用于存儲(chǔ)數(shù)據(jù),其中包括計(jì)算機(jī)可執(zhí)行程序;處理器,與所述數(shù)據(jù)輸入單元、所述數(shù)據(jù)輸出單元和所述存儲(chǔ)單元連接,用于執(zhí)行所述計(jì)算機(jī)可執(zhí)行程序,執(zhí)行所述程序包括完成上述本發(fā)明一方面的確定重排前的v和/或j基因序列的方法。
依據(jù)本發(fā)明的再一方面,本發(fā)明提供一種確定重排前的v和/或j基因序列的系統(tǒng),該系統(tǒng)包括:數(shù)據(jù)獲取裝置,用于獲取待測rna樣品的測序數(shù)據(jù),所述測序數(shù)據(jù)包括來自tcr、bcr和/或ig的可變區(qū)的多個(gè)讀段,所述讀段的長度為l,l≥100bp;v/j區(qū)部分確定裝置,用于基于所述測序數(shù)據(jù),依據(jù)所述可變區(qū)中的v基因片段和j基因片段與c基因片段的排列關(guān)系,確定所述讀段上的來自v基因片段和/或j基因片段的部分,獲得多個(gè)v區(qū)部分和/或多個(gè)j區(qū)部分;種子序列集獲取裝置,用于從每個(gè)所述v區(qū)部分和/或所述j區(qū)部分取出至少一段序列作為種子序列,獲得包含多個(gè)種子序列的種子序列集,所述種子序列的長度為k;v/j區(qū)部分簇確定裝置,用于依據(jù)所述種子序列集中的每個(gè)種子序列的v區(qū)部分和/或j區(qū)部分的支持?jǐn)?shù)目的差異,對所述v區(qū)部分和/或j區(qū)部分進(jìn)行聚類,獲得多個(gè)v區(qū)部分簇和/或多個(gè)j區(qū)部分簇;候選重排前v/j基因序列獲取裝置,用于利用每個(gè)所述v區(qū)部分簇和/或所述j區(qū)部分簇延伸其所支持的種子序列,獲得多個(gè)候選的重排前v基因序列和/或多個(gè)候選的重排前j基因序列;重排前v/j基因序列確定裝置,用于利用所述測序數(shù)據(jù)中的讀段對所述候選的重排前v基因序列和/或所述候選的重排前j基因序列的支持情況進(jìn)行過濾,以獲得所述重排前的v和/或j基因序列。
上述本發(fā)明的方法、裝置和/或系統(tǒng),基于高通量測序免疫組庫獲得的測序數(shù)據(jù),能夠僅利用信息分析方法,準(zhǔn)確推導(dǎo)出v/j的germline序列。通過本發(fā)明的方法,可以對很多未發(fā)現(xiàn)v/jgermline的物種,確定其germline序列,利于用于對物種t細(xì)胞受體和b細(xì)胞受體或抗體的進(jìn)一步研究。相比傳統(tǒng)和目前已有的方法,本發(fā)明的方法大大降低了難度,縮短了時(shí)間和費(fèi)用。
附圖說明
本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施方式的描述中將變得明顯和容易理解,其中:
圖1是本發(fā)明一個(gè)實(shí)施例中的確定重排前的v和/或j基因序列的方法的步驟示意圖。
圖2是本發(fā)明一個(gè)實(shí)施例中的確定重排前的v和/或j基因序列的裝置的結(jié)構(gòu)示意圖。
圖3是本發(fā)明一個(gè)實(shí)施例中的確定重排前的v和/或j基因序列的系統(tǒng)的結(jié)構(gòu)示意圖。
圖4是本發(fā)明一個(gè)實(shí)施例中的確定重排前的v和/或j基因序列的方法的流程圖。
圖5是本發(fā)明一個(gè)實(shí)施例中的確定的三個(gè)樣本的合并的trb-j基因在人類jgermline基因區(qū)的覆蓋情況的示意圖。
圖6是本發(fā)明一個(gè)實(shí)施例中的確定的三個(gè)樣本的合并的trb-v基因在人類vgermline基因區(qū)的覆蓋情況的示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中,自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。
下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。需要說明的,本文中所使用的術(shù)語“第一”、“第二”、“第一類”、“第二類”或者“第一部分”等僅為方便描述,不能理解為指示或暗示相對重要性,也不能理解為之間有先后順序關(guān)系。在本發(fā)明的描述中,除非另有說明,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。
在本文中,除非另有明確的規(guī)定和限定,術(shù)語“相連”、“連接”等術(shù)語應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個(gè)元件內(nèi)部的連通。
如圖1所示,依據(jù)本發(fā)明的一個(gè)實(shí)施例提供的一種確定重排前的v和/或j基因序列的方法,該方法包括以下步驟:
s10獲取待測rna樣品的測序數(shù)據(jù)。
獲取的待測rna樣品的測序數(shù)據(jù)包括來自tcr、bcr和/或ig的可變區(qū)的多個(gè)讀段,所述讀段的長度為l,l≥100bp。
所稱的rna樣品來自發(fā)生v和/或j基因重排的細(xì)胞中的rna或游離rna。一般來自特異性免疫細(xì)胞,例如來自t淋巴細(xì)胞和/或b淋巴細(xì)胞。
所稱的測序數(shù)據(jù)通過對待測rna樣品的核酸序列進(jìn)行測序文庫制備、上機(jī)測序獲得。根據(jù)本發(fā)明的實(shí)施例,獲取所述測序數(shù)據(jù),包括:獲取待測樣本中的核酸,制備所述核酸的測序文庫,對所述測序文庫進(jìn)行測序。測序文庫的制備方法根據(jù)所選擇的測序方法的要求進(jìn)行,測序方法依據(jù)所選的測序平臺(tái)的不同,可選擇但不限于illumina公司的hisq2000/2500測序平臺(tái)、lifetechnologies公司的iontorrent平臺(tái)和單分子測序平臺(tái),測序方式可以選擇單端測序,也可以選擇雙末端測序,獲得的下機(jī)數(shù)據(jù)是測讀出來的片段,稱為讀段(reads)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述測序數(shù)據(jù)為經(jīng)過預(yù)處理的測序數(shù)據(jù),所述預(yù)處理包括以下至少之一:過濾掉包含接頭序列的讀段、切去讀段的末端序列質(zhì)量值小于10的堿基以及切去讀段末端的接頭序列。如此,預(yù)處理后的測序數(shù)據(jù)的整體質(zhì)量更高,利于后續(xù)準(zhǔn)確分析推定v/j的germline序列。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用雙末端測序獲得所述測序數(shù)據(jù),即所述測序數(shù)據(jù)包含多對成對讀段,利用讀段之間的重疊部分將一對成對讀段拼接成一條拼接序列,以所述拼接序列替代所述成對讀段進(jìn)行以下步驟。如此,相當(dāng)于獲得更長的測序片段,利用更長的測序片段利于后續(xù)準(zhǔn)確分析推定重排前的序列。
s20獲取多個(gè)v區(qū)部分和/或多個(gè)j區(qū)部分。
基于所述測序數(shù)據(jù),依據(jù)所述可變區(qū)中的v基因片段和j基因片段與c基因片段的排列關(guān)系,確定所述讀段上的來自v基因片段和/或j基因片段的部分,獲得多個(gè)v區(qū)部分和/或多個(gè)j區(qū)部分。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,s20包括:確定所述讀段上的來自c基因片段的部分,例如利用局部比對確定所述讀段上的來自c基因片段的部分;切割掉所述讀段上的來自c基因片段的部分,獲得切割后的部分;從所述切割后的部分的3’端向5’端提取不小于60bp的序列以獲得所述j區(qū)部分;和/或從所述切割后的部分的3’端向5’端切割掉40bp,獲得的余下部分為所述多個(gè)v區(qū)部分。該示例是依據(jù)ig或trb中可變區(qū)的v基因片段、j基因片段與恒定區(qū)c基因片段的排列關(guān)系以及目標(biāo)基因片段的大小,來初步確定讀段上的來自v基因片段和j基因片段的v區(qū)部分和j區(qū)部分。
根據(jù)本發(fā)明的一個(gè)較佳實(shí)施例,s20還包括:過濾掉長度小于40bp的所述j區(qū)部分和/或長度小于40bp的所述v區(qū)部分。如此,依據(jù)目標(biāo)基因片段的大小,去除掉非來自目標(biāo)基因的片段或者短碎的目標(biāo)片段,利于后續(xù)簡單準(zhǔn)確的進(jìn)行數(shù)據(jù)處理。
s30獲得種子序列集。
從每個(gè)所述v區(qū)部分和/或所述j區(qū)部分取出至少一段序列作為種子序列,獲得包含多個(gè)種子序列的種子序列集,所述種子序列的長度為k。
考慮到j(luò)區(qū)長度范圍為40~60bp,根據(jù)本發(fā)明的一個(gè)實(shí)施例,設(shè)定k為不大于40bp。如此,利于將每個(gè)v區(qū)部分或j區(qū)部分轉(zhuǎn)化成多個(gè)種子序列。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,s30包括:對每個(gè)所述v區(qū)部分和/或所述j區(qū)部分以1bp長度進(jìn)行滑動(dòng)切割,以將一個(gè)所述v區(qū)部分和/或所述j區(qū)部分轉(zhuǎn)化成一個(gè)種子序列子集,一個(gè)所述種子序列子集包括(l-k+1)個(gè)所述種子序列,多個(gè)所述種子序列子集構(gòu)成所述種子序列集。這樣,將v區(qū)部分或j區(qū)部分轉(zhuǎn)化成對應(yīng)的一個(gè)種子序列子集,即轉(zhuǎn)化成一個(gè)kmer集合,該轉(zhuǎn)化一方面使得滑動(dòng)1bp的兩個(gè)kmer間存在(k-1)bp長度的重疊,這種重疊關(guān)系不需通過比對來獲得,這樣節(jié)省了比對時(shí)間,另一方面使得每個(gè)v區(qū)部分或j區(qū)部分相當(dāng)于一個(gè)kmer群,確定了這一群kmer的線性方向關(guān)系,這些都利于后續(xù)基于種子序列的延伸,利于推定重排前的v/j基因序列。
s40獲得多個(gè)v區(qū)部分簇和/或多個(gè)j區(qū)部分簇。
依據(jù)所述種子序列集中的每個(gè)種子序列的v區(qū)部分和/或j區(qū)部分的支持?jǐn)?shù)目的差異,對所述v區(qū)部分和/或j區(qū)部分進(jìn)行聚類,獲得多個(gè)v區(qū)部分簇和/或多個(gè)j區(qū)部分簇。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,s40包括重復(fù)進(jìn)行以下(i)和(ii),直至沒有所述種子序列剩余:(i)確定獲得數(shù)目最多v區(qū)部分和/或j區(qū)部分的支持的種子序列,將支持該種子序列的所有v區(qū)部分和/或j區(qū)部分歸為一類,對應(yīng)獲得一個(gè)v區(qū)部分簇和/或一個(gè)j區(qū)部分簇;(ii)去除(i)中的種子序列和支持該種子序列的所有v區(qū)部分和/或j區(qū)部分。這樣,循環(huán)類推,直到剩余的種子序列序列為0。
s50獲得候選的重排前v基因序列和/或候選的重排前j基因序列。
利用每個(gè)所述v區(qū)部分簇和/或所述j區(qū)部分簇延伸其所支持的種子序列,獲得多個(gè)候選的重排前v基因序列和/或多個(gè)候選的重排前j基因序列。所稱的延伸依據(jù)v區(qū)部分或j區(qū)部分之間的重疊關(guān)系進(jìn)行。例如,將同一j區(qū)部分簇中的j區(qū)部分比對到其所支持的種子序列,即將這些j區(qū)部分定位,基于定位后的j區(qū)部分序列之間的重疊關(guān)系進(jìn)行。
所稱的“比對上”意同匹配。具體比對時(shí),可以利用已知比對軟件進(jìn)行,例如soap、bwa和teramap等,本實(shí)施例對此不作限制。在比對過程中,根據(jù)比對參數(shù)的設(shè)置,一對或一條序列最多允許有n個(gè)堿基錯(cuò)配(mismatch),例如設(shè)置n為1或2,若序列中有超過n個(gè)堿基發(fā)生錯(cuò)配,則視為該條/對序列無法比對到參考序列。
當(dāng)匹配為完全匹配,例如當(dāng)比對上的序列的某個(gè)位點(diǎn)與參考序列上的該位點(diǎn)一致,則稱這種序列為支持該位點(diǎn)的序列。
由于v、d基因均有多個(gè)拷貝,各片段隨機(jī)組合即重排的方式多樣,顯示為定位后的v/j區(qū)部分的同一位置的堿基多樣,延伸時(shí)需要設(shè)定可信條件確定該位置的堿基類型。根據(jù)本發(fā)明的一個(gè)實(shí)施例,s50包括:利用所述v區(qū)部分簇和/或所述j區(qū)部分簇,對所述v區(qū)部分簇和/或所述j區(qū)部分簇支持的種子序列進(jìn)行延伸,以獲得多個(gè)所述候選的重排前v基因序列和/或多個(gè)所述候選的重排前j基因序列,其中包括進(jìn)行以下至少之一:(a)對于j區(qū)部分簇支持的種子序列,利用該j區(qū)部分簇對該種子序列的3’端和/或5’端進(jìn)行延伸一個(gè)堿基需要同時(shí)滿足條件:支持該堿基的j區(qū)部分的數(shù)目占該j區(qū)部分簇包含的j區(qū)部分總數(shù)的比例大于3%,支持該堿基的j區(qū)部分的種類數(shù)目占該j區(qū)部分簇包含的種類總數(shù)的比例大于5%;(b)對于v區(qū)部分簇支持的種子序列,利用該v區(qū)部分簇對該種子序列的3’端進(jìn)行延伸一個(gè)堿基需要同時(shí)滿足條件:支持該堿基的v區(qū)部分的數(shù)目占該v區(qū)部分簇包含的v區(qū)部分總數(shù)的比例大于3%,支持該堿基的v區(qū)部分的種類數(shù)目占該v區(qū)部分簇包含的v區(qū)部分種類總數(shù)的比例大于5%;(c)對于v區(qū)部分簇支持的種子序列,利用該v區(qū)部分簇對該種子序列的5’端進(jìn)行延伸一個(gè)堿基需要同時(shí)滿足條件:支持該堿基的v區(qū)部分的數(shù)目大于100,支持該堿基的v區(qū)部分的種類數(shù)目大于2。所稱的支持某堿基的j區(qū)部分的種類是指該位置堿基一樣但其它位置的堿基不完全一樣的j區(qū)部分。所稱的支持某堿基的v區(qū)部分的種類是指該位置堿基一樣但其它位置的堿基不完全一樣的v區(qū)部分。
為獲得候選的重排前v基因序列,根據(jù)本發(fā)明的一個(gè)實(shí)施例,s50包括進(jìn)行上述(b)和(c),以及將進(jìn)行(b)和(c)后得到的序列進(jìn)行拼接,以獲得候選的重排前的v基因序列。該實(shí)施例考慮到v區(qū)基因打斷之后,片段長度不一,情況較j區(qū)復(fù)雜,所以將左右兩端分開延伸,采用不同的過濾條件,利于獲得準(zhǔn)確度高的候選v基因序列。
s60過濾以獲得重排前的v和/或j基因序列。
利用所述測序數(shù)據(jù)中的讀段對所述候選的重排前v基因序列和/或所述候選的重排前j基因序列的支持情況進(jìn)行過濾,以獲得所述重排前的v和/或j基因序列。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,在進(jìn)行s60之前,將序列相似度不小于95%的候選的重排前v基因序列合并,和/或?qū)⑿蛄邢嗨贫炔恍∮?5%的候選的重排前j基因序列合并。如此,能夠避免相同數(shù)據(jù)的重復(fù)調(diào)用分析,減少運(yùn)算量。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,s60包括進(jìn)行以下(d)和/或(e):(d)從所述候選的重排前v基因序列的3’端的第一個(gè)堿基開始,向5’端方向截取所述種子序列長度的序列,作為第一片段,從所述候選的重排前v基因序列的3’端的第p個(gè)堿基開始,向5’端方向截取所述種子序列長度的序列,作為第二片段,基于所述第一片段的讀段支持?jǐn)?shù)和所述第二片段的讀段支持?jǐn)?shù)的差異程度,對所述候選的重排前v基因序列進(jìn)行過濾;(e)從所述候選的重排前j基因序列的5’端的第一個(gè)堿基開始,向3’端方向截取所述種子序列長度的序列,作為第三片段,從所述候選的重排前j基因序列的5’端的第p’個(gè)堿基開始,向3’端方向截取所述種子序列長度的序列,作為第四片段,基于所述第三片段的讀段支持?jǐn)?shù)和所述第四片段的讀段支持?jǐn)?shù)的差異程度,對所述候選的重排前j基因序列進(jìn)行過濾。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,s60中的(d)包括保留同時(shí)滿足以下兩個(gè)條件的候選的重排前v基因序列:第二片段的讀段支持?jǐn)?shù)/第一片段的讀段支持?jǐn)?shù)>1.5,第一片段的讀段支持?jǐn)?shù)/第一片段的平均讀段支持?jǐn)?shù)>5%;和/或s60中的(e)包括保留同時(shí)滿足以下兩個(gè)條件的候選的重排前j基因序列:第四片段的讀段支持?jǐn)?shù)/第三片段的讀段支持?jǐn)?shù)>1.5,第三片段的讀段支持?jǐn)?shù)/第三片段的平均讀段支持?jǐn)?shù)>5%。上述實(shí)施例基于獲得的讀段支持?jǐn)?shù)量對候選v/j基因序列進(jìn)行篩選,利于最終保留住的為可靠的重排前序列。
上述本發(fā)明的這一方法能夠僅利用信息分析技術(shù),準(zhǔn)確推導(dǎo)出v/j的germline序列。通過本發(fā)明的方法,可以確定很多未發(fā)現(xiàn)v/jgermline的物種的germline序列,可用于對任何物種t細(xì)胞受體和b細(xì)胞受體或抗體的進(jìn)一步研究。相比傳統(tǒng)和目前已有的方法,本發(fā)明的方法大大降低了難度,縮短了時(shí)間和費(fèi)用。
本領(lǐng)域技術(shù)人員可以理解,上述確定重排前的v和/或j基因序列的方法的全部或部分步驟,可以利用機(jī)器可識(shí)別語言編寫成程序,存儲(chǔ)于存儲(chǔ)介質(zhì)中。依據(jù)本發(fā)明的另一個(gè)實(shí)施例提供的一種計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行程序,執(zhí)行所述程序包括完成上述任一實(shí)施例中的的確定重排前的v和/或j基因序列方法。本領(lǐng)域技術(shù)人員可以理解,在執(zhí)行該計(jì)算機(jī)可執(zhí)行程序時(shí),通過指令相關(guān)硬件可完成上述任一確定重排前的v和/或j基因序列方法的全部或部分步驟。所稱存儲(chǔ)介質(zhì)可以包括:只讀存儲(chǔ)器、隨機(jī)存儲(chǔ)器、磁盤或光盤等。
如圖2所示,依據(jù)本發(fā)明的又一實(shí)施例提供的一種確定重排前的v和/或j基因序列的裝置,該裝置100包括:數(shù)據(jù)輸入單元110,用于輸入數(shù)據(jù);數(shù)據(jù)輸出單元120,用于輸出數(shù)據(jù);存儲(chǔ)單元130,用于存儲(chǔ)數(shù)據(jù),其中包括計(jì)算機(jī)可執(zhí)行程序;處理器140,與所述數(shù)據(jù)輸入單元110、所述數(shù)據(jù)輸出單元120和所述存儲(chǔ)單元130連接,用于執(zhí)行所述計(jì)算機(jī)可執(zhí)行程序,執(zhí)行所述程序包括完成上述任一實(shí)施例中的確定重排前的v和/或j基因序列的方法。
如圖3所示,依據(jù)本發(fā)明的再一個(gè)實(shí)施例提供的一種確定重排前的v和/或j基因序列的系統(tǒng),該系統(tǒng)能夠用以實(shí)施上述本發(fā)明任一實(shí)施例中的確定重排前的v和/或j基因序列的方法。該系統(tǒng)1000包括:數(shù)據(jù)獲取裝置1010,用于獲取待測rna樣品的測序數(shù)據(jù),所述測序數(shù)據(jù)包括來自tcr和/或ig的可變區(qū)的多個(gè)讀段,所述讀段的長度為l,l≥100bp;v/j區(qū)部分確定裝置1020,用于基于所述測序數(shù)據(jù),依據(jù)所述可變區(qū)中的v基因片段和j基因片段與c基因片段的排列關(guān)系,確定所述讀段上的來自v基因片段和/或j基因片段的部分,獲得多個(gè)v區(qū)部分和/或多個(gè)j區(qū)部分;種子序列集獲取裝置1030,用于從每個(gè)所述v區(qū)部分和/或所述j區(qū)部分取出至少一段序列作為種子序列,獲得包含多個(gè)種子序列的種子序列集,所述種子序列的長度為k;v/j區(qū)部分簇確定裝置1040,用于依據(jù)所述種子序列集中的每個(gè)種子序列的v區(qū)部分和/或j區(qū)部分的支持?jǐn)?shù)目的差異,對所述v區(qū)部分和/或j區(qū)部分進(jìn)行聚類,獲得多個(gè)v區(qū)部分簇和/或多個(gè)j區(qū)部分簇;候選重排前v/j基因序列獲取裝置1050,用于利用每個(gè)所述v區(qū)部分簇和/或所述j區(qū)部分簇延伸其所支持的種子序列,獲得多個(gè)候選的重排前v基因序列和/或多個(gè)候選的重排前j基因序列;重排前v/j基因序列確定裝置1060,用于利用所述測序數(shù)據(jù)中的讀段對所述候選的重排前v基因序列和/或所述候選的重排前j基因序列的支持情況進(jìn)行過濾,以獲得所述重排前的v和/或j基因序列。上述對本發(fā)明的確定重排前的v和/或j基因序列的方法的技術(shù)特征和優(yōu)點(diǎn)的描述,同樣適用該系統(tǒng),在此不再贅述。
根據(jù)本發(fā)明的實(shí)施例,本發(fā)明的這一系統(tǒng),還可以具有至少一個(gè)以下附加技術(shù)特征:
根據(jù)本發(fā)明的一個(gè)實(shí)施例,數(shù)據(jù)獲取裝置1010中的測序數(shù)據(jù)為經(jīng)過預(yù)處理的測序數(shù)據(jù),所述預(yù)處理包括以下至少之一:過濾掉包含接頭序列的讀段、切除掉讀段的末端序列的質(zhì)量值小于10的末端序列部分以及切除掉讀段的末端序列包含接頭序列的末端序列部分。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用所述v/j區(qū)部分確定裝置進(jìn)行以下:確定所述讀段上的來自c基因片段的部分,切割掉所述讀段上的來自c基因片段的部分,獲得切割后的部分,從所述切割后的部分的3’端向5’端提取不小于60bp的序列以獲得所述j區(qū)部分;和/或從所述切割后的部分的3’端向5’端切割掉40bp,獲得的余下部分為所述多個(gè)v區(qū)部分。其中,根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用局部比對確定所述讀段上的來自c基因片段的部分。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,還利用所述v/j區(qū)部分確定裝置進(jìn)行:過濾掉長度小于40bp的所述j區(qū)部分和/或長度小于40bp的所述v區(qū)部分。
考慮到目標(biāo)序列的長度,根據(jù)本發(fā)明的一個(gè)實(shí)施例,設(shè)置k為不大于40bp。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用所述種子序列集獲取裝置進(jìn)行以下:對每個(gè)所述v區(qū)部分和/或所述j區(qū)部分以1bp長度進(jìn)行滑動(dòng)切割,以將一個(gè)所述v區(qū)部分和/或所述j區(qū)部分轉(zhuǎn)化成一個(gè)種子序列子集,一個(gè)所述種子序列子集包括(l-k+1)個(gè)所述種子序列,多個(gè)所述種子序列子集構(gòu)成所述種子序列集。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用所述v/j區(qū)部分簇確定裝置重復(fù)進(jìn)行以下(i)和(ii),直至沒有所述種子序列剩余:確定獲得數(shù)目最多v區(qū)部分和/或j區(qū)部分的支持的種子序列,將支持該種子序列的所有v區(qū)部分和/或j區(qū)部分歸為一類,對應(yīng)獲得一個(gè)v區(qū)部分簇和/或一個(gè)j區(qū)部分簇,(ii)去除(i)中的種子序列和支持該種子序列的所有v區(qū)部分和/或j區(qū)部分。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用所述候選重排前v/j基因序列獲取裝置進(jìn)行以下:利用所述v區(qū)部分簇和/或所述j區(qū)部分簇,對所述v區(qū)部分簇和/或所述j區(qū)部分簇支持的種子序列進(jìn)行延伸,以獲得多個(gè)所述候選的重排前v基因序列和/或多個(gè)所述候選的重排前j基因序列,其中包括進(jìn)行以下至少之一:(a)對于j區(qū)部分簇支持的種子序列,利用該j區(qū)部分簇對該種子序列的3’端和/或5’端進(jìn)行延伸一個(gè)堿基需要同時(shí)滿足條件:支持該堿基的j區(qū)部分的數(shù)目占該j區(qū)部分簇包含的j區(qū)部分總數(shù)的比例大于3%,支持該堿基的j區(qū)部分的種類數(shù)目占該j區(qū)部分簇包含的種類總數(shù)的比例大于5%,(b)對于v區(qū)部分簇支持的種子序列,利用該v區(qū)部分簇對該種子序列的3’端進(jìn)行延伸一個(gè)堿基需要同時(shí)滿足條件:支持該堿基的v區(qū)部分的數(shù)目占該v區(qū)部分簇包含的v區(qū)部分總數(shù)的比例大于3%,支持該堿基的v區(qū)部分的種類數(shù)目占該v區(qū)部分簇包含的v區(qū)部分種類總數(shù)的比例大于5%,(c)對于v區(qū)部分簇支持的種子序列,利用該v區(qū)部分簇對該種子序列的5’端進(jìn)行延伸一個(gè)堿基需要同時(shí)滿足條件:支持該堿基的v區(qū)部分的數(shù)目大于100,支持該堿基的v區(qū)部分的種類數(shù)目大于2。根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用所述v區(qū)部分簇和/或所述j區(qū)部分簇進(jìn)行上述(b)和(c),以及將進(jìn)行(b)和(c)后得到的序列進(jìn)行拼接。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,在利用所述重排前v/j基因序列確定裝置獲得所述重排前的v和/或j基因序列之前,將序列相似度不小于95%的候選的重排前v基因序列合并,和/或?qū)⑿蛄邢嗨贫炔恍∮?5%的候選的重排前j基因序列合并。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用所述重排前v/j基因序列確定裝置進(jìn)行以下(d)和/或(e):(d)從所述候選的重排前v基因序列的3’端的第一個(gè)堿基開始,向5’端方向截取所述種子序列長度的序列,作為第一片段,從所述候選的重排前v基因序列的3’端的第p個(gè)堿基開始,向5’端方向截取所述種子序列長度的序列,作為第二片段,基于所述第一片段的讀段支持?jǐn)?shù)和所述第二片段的讀段支持?jǐn)?shù)的差異程度,對所述候選的重排前v基因序列進(jìn)行過濾,(e)從所述候選的重排前j基因序列的5’端的第一個(gè)堿基開始,向3’端方向截取所述種子序列長度的序列,作為第三片段,從所述候選的重排前j基因序列的5’端的第p’個(gè)堿基開始,向3’端方向截取所述種子序列長度的序列,作為第四片段,基于所述第三片段的讀段支持?jǐn)?shù)和所述第四片段的讀段支持?jǐn)?shù)的差異程度,對所述候選的重排前j基因序列進(jìn)行過濾。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,利用所述重排前v/j基因序列確定裝置進(jìn)行(d)包括保留同時(shí)滿足以下兩個(gè)條件的候選的重排前v基因序列:第二片段的讀段支持?jǐn)?shù)/第一片段的讀段支持?jǐn)?shù)>1.5,第一片段的讀段支持?jǐn)?shù)/第一片段的平均讀段支持?jǐn)?shù)>5%,和/或利用所述重排前v/j基因序列確定裝置進(jìn)行(e)包括保留同時(shí)滿足以下兩個(gè)條件的候選的重排前j基因序列:第四片段的讀段支持?jǐn)?shù)/第三片段的讀段支持?jǐn)?shù)>1.5,第三片段的讀段支持?jǐn)?shù)/第三片段的平均讀段支持?jǐn)?shù)>5%。
為了使本發(fā)明技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例對本發(fā)明的的確定重排前的v和/或j基因序列方法、裝置和/或系統(tǒng)進(jìn)行詳細(xì)的描述。應(yīng)當(dāng)理解,下面示例用于解釋本發(fā)明,不是對本發(fā)明的限制。
除另有交待,以下實(shí)施例中涉及的未特別交待的試劑、序列(接頭、標(biāo)簽和引物)、軟件及儀器,都是常規(guī)市售產(chǎn)品或者開源的,例如購買illumina的測序文庫構(gòu)建試劑盒。
實(shí)施例一
一般方法,包括以下步驟:
針對rna樣品,可使用經(jīng)過發(fā)明人優(yōu)化一套通用引物通過5’race擴(kuò)增tcr、bcr或ig的可變區(qū):
可變區(qū)由tcr或ig的v、d、j三種基因片段重排形成,重排過程中基因片段之間的連接處有核苷酸的插入與缺失,該區(qū)域體現(xiàn)了適應(yīng)性免疫分子表面受體的多樣性。c區(qū)是恒定區(qū),針對rna可在c區(qū)設(shè)計(jì)引物,擴(kuò)增可變區(qū),然后通過5’race的方法擴(kuò)增由不同亞家族的v區(qū)與j區(qū)重排所得的可變區(qū)。
(2)文庫制備
步驟一通過c區(qū)的反轉(zhuǎn)錄引物和superscriptⅱ等合成cdna一鏈,然后,用rnasemix消化cdna中的rna,接著在5’端加c,最后用5’race試劑盒中的abridgedanchorprimer和有生物素標(biāo)記的c區(qū)引物pcr擴(kuò)增。
步驟二把擴(kuò)增產(chǎn)物打斷到250bp左右,dynabeadsm-270鏈霉素磁珠富集帶有生物素的dna,用限制性內(nèi)切酶pacⅰ酶切收集dna。
步驟三文庫構(gòu)建:dna通過t4dnapolymerase、klenowfragment和t4polynucleotidekinase等酶的作用以dntp為作用底物進(jìn)行末端修復(fù),形成補(bǔ)平的末端磷酸化的dna片段。如果后續(xù)是ta粘性末端連接,可以利用klenowfragment(3’-5’exo-)聚合酶及datp在補(bǔ)平序列的3’末端加上“a”堿基。在t4dnaligase的作用下與接頭進(jìn)行連接。為了方便來源于不同樣本制備的rna文庫混合上機(jī)測序并在測序后區(qū)分開來,可在接頭中引入標(biāo)簽序列以區(qū)分不同樣品制備的文庫。如果需要富集連接上接頭的片段,可以加一步公用引物的pcr。
測序文庫全程為磁珠純化,文庫進(jìn)行安捷倫2100檢測和q-pcr定量。
(3)高通量測序
將上述準(zhǔn)備的文庫在高通量測序平臺(tái)上進(jìn)行測序,高通量測序平臺(tái)可選擇illuminahiseq及miseq測序平臺(tái),roche454測序平臺(tái),lifetechnologies的solid及iontorrent測序平臺(tái)中的至少一種。
(4)數(shù)據(jù)分析
如圖4所示,主要包括以下步驟:
步驟一:數(shù)據(jù)初步處理
數(shù)據(jù)過濾:檢查序列是否有測序接頭污染,若有接頭序列,并且在末端(最后50bp)則切掉末端污染部分,否則過濾掉整個(gè)序列。序列末端測序低質(zhì)量值(<q10)的堿基被切掉。拼接read:對paired-end的測序類型,將兩條reads通過中間重疊的部分拼接起來,成為一條序列。拼接時(shí)要求重疊區(qū)域的長度>10bp、錯(cuò)配堿基所占比例(mismatch)<=10%。
步驟二:確定c區(qū)并把序列分成v和j兩部分
1)確定恒定區(qū)域(c區(qū)):過濾完的序列進(jìn)行c區(qū)的參考序列進(jìn)行局部比對(如blast)。通過比對確定c區(qū),切掉c區(qū)部分,并將反義鏈轉(zhuǎn)成正義鏈。
2)分別提取v/j部分:因d區(qū)較短且插入/刪除使無法確定j區(qū)與d區(qū)的接頭,因j區(qū)長度范圍為40~60bp,從c區(qū)起點(diǎn)向j區(qū)延伸,提取一定讀長(如70bp)作為j區(qū)部分;同樣,從c區(qū)的起點(diǎn)向5‘端方向,剪切掉40bp,則剩下的序列作為v區(qū)部分。
步驟三:基于seed聚類
對于v、j區(qū)部分分別聚類,取一定長度的序列(如40bp)作為seed,讀取序列,記錄每個(gè)seed所擁有的序列支持?jǐn)?shù)。首先選擇擁有支持?jǐn)?shù)最大的seed,將支持這個(gè)seed的所有序列全部輸出作為一類;再重新統(tǒng)計(jì)剩余序列的seed以及seed的序列支持?jǐn)?shù),選擇最大的seed并輸出其支持的序列作為另外一類;再重新統(tǒng)計(jì)剩余序列,輸出最大的一類,依次循環(huán)類推,直到剩余序列為0。
步驟四:seed延伸
j區(qū)seed延伸:對于每一類序列,根據(jù)seed往左右兩邊一個(gè)堿基逐步延伸,每次延伸時(shí),當(dāng)同時(shí)滿足條件:(1)序列支持?jǐn)?shù)占該類序列比例>3%,(2)序列支持?jǐn)?shù)的種類占該類序列種類比例>5%;則繼續(xù)往前延伸。當(dāng)延伸時(shí)出現(xiàn)分支(即一個(gè)位置上出現(xiàn)多個(gè)堿基同是滿足)的情況時(shí),則根據(jù)分支產(chǎn)生多條序列。最后延伸停止時(shí),延伸得到的序列視為候選germline。
v區(qū)seed延伸:對v區(qū)的所有seed聚類子集,由于v區(qū)打斷之后,片段長度不一,情況較j區(qū)復(fù)雜,我們將左右兩端分開延伸,過濾條件不同,對3‘端延伸時(shí),保留的條件與j區(qū)類似;但向5’端延伸時(shí),過濾條件是:(1)序列支持?jǐn)?shù)>100,(2)序列支持?jǐn)?shù)的種類>2;最后將延展的兩部分拼接到一起。
步驟五:合并候選germline
每個(gè)seed聚類延伸完成后,可能出現(xiàn)不同子集之間有重復(fù)germline,合并的過程,就是去除候選germline的重復(fù)序列。對候選的germline進(jìn)行兩兩比對,如果相似度達(dá)到95%以上,則將兩條序列合并成一條序列。
步驟六:過濾
在候選vgermline的3‘端,或者jgermline的5‘端,從末端向前取40bp作為片段一,從末端的第5個(gè)堿基開始,向前取40bp作為片段二。將片段一和片段二在原始數(shù)據(jù)集(數(shù)據(jù)初步處理過后的)進(jìn)行搜索,統(tǒng)計(jì)各自的序列支持?jǐn)?shù)。如果同時(shí)滿足:(1)片段二序列支持?jǐn)?shù)/片段一序列支持?jǐn)?shù)>1.5;(2)片段一序列支持?jǐn)?shù)/片段一平均支持?jǐn)?shù)>5%;則序列保留,否則被過濾掉。
實(shí)施例二
(一)實(shí)驗(yàn)流程
(1)5’race富集目的片段
抽取三個(gè)正常人外周血,分離外周血單核細(xì)胞(peripheralbloodmononuclearcellpbmc)后提取rna,獲得三個(gè)rna樣本,記為樣本1(hrb),樣本2(hxy)和樣本3(xhs)。rna通過tcr恒定區(qū)c特異性引物反轉(zhuǎn)錄成cdna。以下體系都以一個(gè)樣品的反應(yīng)數(shù)為例。
1.1cdna1st合成
1)按以下體系配制(1個(gè)樣品)
tcrc區(qū)引物:ttgatggctcaaacacagcga(seqidno:1)
2)70℃10min,放置冰上1min,加入以下體系,42℃孵育1min。
3)加入1μlsuperscriptⅱ,42℃反應(yīng)50min,70℃反應(yīng)15min。
4)加入1μlrnasemix,37℃孵育30min。
1.21.5倍磁珠純化cdna,回溶18ulnuclease-freewater。
1.3tdttailingcdna
1)按以下體系配制
2)94℃孵育2-3min,冰上冷卻1min。
3)加入1μltdt混勻,37℃孵育10min,65℃孵育10min。
1.4pcrofdc-tailedcdna
1)按以下體系配制
2)置于pcr儀中按照下列程序反應(yīng)。
a.94℃2min
b.94℃15s
c.60℃30s
d.72℃30s
e.重復(fù)b-d步驟29次(共30cycles)
f.72℃5min
g.12℃hold
3)用1倍磁珠純化,回溶20μlnuclease-freewater。
(2)covaris打斷樣品
取出3μl的樣品用于電泳檢測打斷效果.
(3)打斷序列的洗滌和洗脫
提前將水浴鍋打開并將溫度調(diào)至47℃并平衡,用來加熱washingbuffer。
3.1準(zhǔn)備洗液
提前準(zhǔn)備好各種washbuffer試劑,按照比例配制兩種washbuffer試劑(1×bindingandwashbuffer、2×bindingandwashbuffer)。
3.2準(zhǔn)備鏈霉素磁珠m-270
3.3將打斷的dna結(jié)合到鏈霉素磁珠上并洗滌
(4)限制性酶內(nèi)切
1)按以下體系配制
2)置于pcr儀中按照下列程序反應(yīng)。置于磁力架上,吸取上清,即為目的產(chǎn)物。
a.37℃2h
b.65℃20min
(5)通過連接酶引入測序接頭則根據(jù)各測序平臺(tái)制定的標(biāo)準(zhǔn)文庫制備流程進(jìn)行測序文庫制備.
(6)文庫檢測
bioanalyzeranalysissystem(agilent,santaclara,usa)檢測文庫插入片段大小及含量;q-pcr精確定量文庫的濃度。
(7)測序
文庫檢測合格后在相應(yīng)的測序平臺(tái)上進(jìn)行測序,按照雙末端151個(gè)堿基的讀長在hiseq2000測序儀上進(jìn)行測序。
(二)數(shù)據(jù)分析
1.數(shù)據(jù)預(yù)處理
數(shù)據(jù)過濾:檢查序列是否有測序接頭污染,若有接頭序列,并且在末端(最后50bp)則切掉末端污染部分,否則過濾掉整個(gè)序列。序列末端測序低質(zhì)量值(<q10)的堿基被切掉。
拼接read:對paired-end的測序類型,將兩條reads通過中間重疊的部分拼接起來,成為一條序列。(重疊區(qū)域,長度>10bp,mismatch<=10%)
根據(jù)過濾條件,三個(gè)樣本過濾情況分別為:樣本1(hrb)濾出序列14,695,238條,濾出率為97.97%;樣本2(hxy)濾出序列17,459,894條,數(shù)據(jù)濾出率98.14%;樣本3(xhs)濾出序列16,515,129條,濾出率為96.01%。
2.確定c區(qū)并把序列分成v和j部分
確定恒定區(qū)域(c區(qū)):過濾完的序列進(jìn)行c區(qū)的參考序列進(jìn)行局部比對(如blast)。通過比對確定c區(qū),切掉c區(qū)部分,并將反義鏈轉(zhuǎn)成正義鏈。
分別提取v/j部分:因d區(qū)較短且插入/刪除使無法確定j區(qū)與d區(qū)的接頭,因j區(qū)長度范圍為40~60bp,從c區(qū)起點(diǎn)向j區(qū)延伸,提取一定70bp作為j區(qū)部分;同樣,從c區(qū)的起點(diǎn)向5‘端方向,剪切掉40bp,則剩下的序列作為v區(qū)部分。若v、j序列長度小于40bp則被過濾掉。表1顯示從三個(gè)樣本中成功提取的v區(qū)和j區(qū)序列的數(shù)目和比例。
表1
3.基于seed聚類和延伸
序列聚類
對v、j區(qū)部分分別聚類,取一定長度的40bp作為seed,讀取序列,記錄每個(gè)seed所擁有的序列支持?jǐn)?shù)。首先選擇擁有支持?jǐn)?shù)最大的seed,將支持這個(gè)seed的所有序列全部輸出作為一類;再重新統(tǒng)計(jì)剩余序列的seed以及seed的序列支持?jǐn)?shù),選擇最大的seed并輸出其支持的序列作為另外一類;再重新統(tǒng)計(jì)剩余序列,輸出最大的一類,…,依次循環(huán)類推,直到剩余序列為0。
j區(qū)seed延伸
對于每一類序列,根據(jù)seed往左右兩邊一個(gè)堿基逐步延伸,每次延伸時(shí),當(dāng)同時(shí)滿足條件:(1)序列支持?jǐn)?shù)占該類序列比例>3%,(2)序列支持?jǐn)?shù)的種類占該類序列種類比例>5%;則繼續(xù)往前延伸。當(dāng)延伸時(shí)出現(xiàn)分支(即一個(gè)位置上出現(xiàn)多個(gè)堿基同是滿足)的情況時(shí),則根據(jù)分支產(chǎn)生多條序列。最后延伸停止時(shí),延伸得到的序列視為候選germline。
v區(qū)seed延伸
對v區(qū)的所有seed聚類子集,由于v區(qū)打斷之后,片段長度不一,情況較j區(qū)復(fù)雜,我們將左右兩端分開延伸,過濾條件不同,對3‘端延伸時(shí),保留的條件與j區(qū)類似;但向5‘端延伸時(shí),過濾條件是:(1)序列支持?jǐn)?shù)>100,(2)序列支持?jǐn)?shù)的種類>2;最后將延展的兩部分拼接到一起。
4.合并候選germline
每個(gè)seed聚類延伸完成后,可能出現(xiàn)不同子集之間有重復(fù)germline,合并的過程,就是去除候選germline的重復(fù)序列。對候選的germline進(jìn)行兩兩比對,如果相似度達(dá)到95%以上,則將兩條序列合并成一條序列。
5.過濾并得到參考germline
在候選vgermline的3‘端,或者jgermline的5‘端,從末端向前取40bp作為片段一,從末端的第5個(gè)堿基開始,向前取40bp作為片段二。將片段一和片段二在原始數(shù)據(jù)集(數(shù)據(jù)初步處理過后的)進(jìn)行搜索,統(tǒng)計(jì)各自的序列支持?jǐn)?shù)。如果同時(shí)滿足:(1)片段二序列支持?jǐn)?shù)/片段一序列支持?jǐn)?shù)>1.5;(2)片段一序列支持?jǐn)?shù)/平均片段一支持?jǐn)?shù)>5%;則序列保留,否則被過濾掉。
經(jīng)過分析,對于trb-j的germline,三個(gè)樣品均得到11條候選germline。而對trb-v的germline,發(fā)明人推導(dǎo)出樣品1共34條,樣品2則推導(dǎo)出30條,樣品3則得到36條。下面分析germline的準(zhǔn)確度和覆蓋度。
6.檢驗(yàn)germline可信度
6.1統(tǒng)計(jì)trb-jgermline比對信息
表2顯示3個(gè)樣本的預(yù)測的germline的trb-j基因,與人類已知的trb-j基因比對的匹配情況。
由于排列在編碼免疫細(xì)胞受體蛋白的基因上有很多個(gè)v/j基因,并具有多樣性,對于表中的相似度,這里是指將本發(fā)明方法預(yù)測的trb-v和trb-j的一個(gè)基因片段與人類目前已知的某個(gè)v/j基因進(jìn)行比對。比對的相似度為100%,則是為一個(gè)百分之百匹配(match)的v/j基因。
表2
6.2預(yù)測的germlinetrb-j(重排前的trb的j基因序列)分布
圖5顯示3個(gè)樣本合并的trb-j基因在人類germline基因區(qū)的覆蓋情況。從圖5可看出,上述統(tǒng)計(jì)分析后,樣本1-3分別得到trb-j區(qū)基因個(gè)數(shù)分別為均為11條,平均長度為50bp;總體相似度>=90%,堿基缺失<=5bp,插入堿基<=5bp,錯(cuò)配率<=2。從推斷的各個(gè)j基因覆蓋分布圖,看出整個(gè)trb-j基因被完全覆蓋,說明該方法對于trb-j區(qū)基因的個(gè)數(shù)和準(zhǔn)確度都有很高的預(yù)測性和準(zhǔn)確性,可以用來作為j區(qū)基因的推斷。
6.3統(tǒng)計(jì)trb-vgermline比對信息
以下表3顯示三個(gè)樣本推導(dǎo)的vgermline序列與已知的人類trb-vgermline比對匹配情況。
表3
6.4預(yù)測的germlinetrb-v分布
圖6顯示三個(gè)樣本合并的trb-v基因在人類germline基因區(qū)的覆蓋情況。
從上面表2的統(tǒng)計(jì)分析結(jié)果可看出,推定樣本1-3分別得到trb-v區(qū)基因個(gè)數(shù)分別為34、30和36;總體相似度>=90%,堿基缺失<=5bp,插入堿基<=5bp,錯(cuò)配率<=3。圖6推斷的v區(qū)各個(gè)基因覆蓋分布圖顯示,整個(gè)trb-v區(qū)基因覆蓋率超過80%。有3條不在推斷的germline之中,結(jié)果與trb-j區(qū)基因相比較,準(zhǔn)確性較一致,但整體覆蓋率稍差。
在本說明書的描述中,參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、“實(shí)施方式”或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同物限定。