亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分子標(biāo)簽糾錯(cuò)方法、高效多重?cái)U(kuò)增子捕獲測(cè)序文庫(kù)預(yù)處理方法與流程

文檔序號(hào):40321803發(fā)布日期:2024-12-18 12:58閱讀:15來(lái)源:國(guó)知局
分子標(biāo)簽糾錯(cuò)方法、高效多重?cái)U(kuò)增子捕獲測(cè)序文庫(kù)預(yù)處理方法與流程

本發(fā)明屬于生物信息領(lǐng)域,具體涉及一種分子標(biāo)簽糾錯(cuò)方法,以及基于該分子標(biāo)簽糾錯(cuò)方法的高效多重?cái)U(kuò)增子捕獲測(cè)序文庫(kù)預(yù)處理方法。


背景技術(shù):

1、隨著基因檢測(cè)技術(shù)的廣泛使用,尤其是結(jié)合了多重引物探針和分子標(biāo)簽(uniquemolecular?identifier,umi)的二代測(cè)序技術(shù)手段應(yīng)用的深入,測(cè)序文庫(kù)預(yù)處理的準(zhǔn)確性和高效性變得至關(guān)重要,這一過(guò)程涉及多個(gè)關(guān)鍵步驟,主要包括測(cè)序數(shù)據(jù)的質(zhì)量控制、引物匹配性檢測(cè)以及分子標(biāo)簽的提取與糾錯(cuò)。

2、然而,針對(duì)帶分子標(biāo)簽的多重引物探針二代測(cè)序文庫(kù)的預(yù)處理,目前尚未出現(xiàn)能夠一次性解決質(zhì)量控制、和/或引物匹配性檢測(cè)、分子標(biāo)簽提取糾錯(cuò)的統(tǒng)一軟件。現(xiàn)有的解決方案通常依賴(lài)于多款第三方軟件的串聯(lián)使用,但這些軟件各自專(zhuān)注于特定問(wèn)題的解決,例如質(zhì)量控制可能使用一款軟件,而引物匹配檢查和分子標(biāo)簽糾錯(cuò)則可能使用其他軟件。此類(lèi)預(yù)處理方法不僅導(dǎo)致了數(shù)據(jù)處理流程的復(fù)雜化,也降低了整體效率,因?yàn)椴煌浖g的數(shù)據(jù)不兼容,頻繁的數(shù)據(jù)輸入輸出操作增加了計(jì)算負(fù)擔(dān)。

3、進(jìn)一步,在引物匹配性檢測(cè)方面,現(xiàn)有技術(shù)往往采用逐一比對(duì)的方式,效率較低。針對(duì)大規(guī)模文庫(kù),尤其是當(dāng)引物數(shù)量達(dá)到數(shù)千條時(shí),傳統(tǒng)方法需要進(jìn)行大量的匹配操作,導(dǎo)致處理時(shí)間顯著增加。此外,現(xiàn)有軟件對(duì)引物長(zhǎng)度和錯(cuò)配的支持也相對(duì)有限,無(wú)法滿(mǎn)足多樣化的實(shí)驗(yàn)需求。

4、進(jìn)一步,在分子標(biāo)簽糾錯(cuò)方面,傳統(tǒng)方法主要依賴(lài)于比對(duì)策略,處理速度緩慢,并且很少有軟件能夠有效支持短序列的匹配。這一過(guò)程的復(fù)雜性和對(duì)計(jì)算資源的高要求,進(jìn)一步加劇了文庫(kù)預(yù)處理的難度。尤其是在處理長(zhǎng)度固定且數(shù)量龐大的分子標(biāo)簽時(shí),現(xiàn)有技術(shù)難以實(shí)現(xiàn)快速準(zhǔn)確的糾錯(cuò)。

5、因此,針對(duì)上述技術(shù)問(wèn)題,提供一種高效、統(tǒng)一的測(cè)序文庫(kù)預(yù)處理方法顯得尤為重要。


技術(shù)實(shí)現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)中1).?分子標(biāo)簽糾錯(cuò)處理速度緩慢,2).?缺乏能夠一次性解決測(cè)序文庫(kù)質(zhì)量控制、和/或引物匹配性檢測(cè)、分子標(biāo)簽糾錯(cuò)的預(yù)處理方法的問(wèn)題,本發(fā)明提供了一種高效的分子標(biāo)簽糾錯(cuò)方法,并基于該分子標(biāo)簽糾錯(cuò)方法,提供了一種高效、統(tǒng)一的測(cè)序文庫(kù)預(yù)處理方法,該方法能夠在保證準(zhǔn)確性的基礎(chǔ)上,顯著提高預(yù)處理速度,減少計(jì)算資源的消耗,從而滿(mǎn)足日益增長(zhǎng)的基因檢測(cè)需求。

2、本發(fā)明第一方面提供了一種分子標(biāo)簽糾錯(cuò)方法,包括:根據(jù)umi序列白名單,構(gòu)建合法列表、容錯(cuò)列表;根據(jù)構(gòu)建的合法列表、容錯(cuò)列表,對(duì)測(cè)序數(shù)據(jù)中提取的umi序列進(jìn)行糾錯(cuò);其中,合法列表的構(gòu)建方法包括:對(duì)存在于umi序列白名單中的合法umi序列進(jìn)行數(shù)字化處理,根據(jù)數(shù)字化處理信息對(duì)合法umi序列添加合法索引;將合法umi序列、合法umi序列對(duì)應(yīng)的數(shù)字化處理信息、合法umi序列對(duì)應(yīng)的索引存儲(chǔ)在合法列表中;容錯(cuò)列表的構(gòu)建方法包括:針對(duì)每條合法umi序列,依據(jù)預(yù)設(shè)的允許錯(cuò)誤堿基數(shù)量進(jìn)行全枚舉突變,獲得非法突變umi序列、合法突變umi序列;對(duì)合法umi序列、合法突變umi序列、非法突變umi序列進(jìn)行數(shù)字化處理,根據(jù)數(shù)字化處理信息對(duì)合法umi序列、合法突變umi序列添加容錯(cuò)索引以及相對(duì)應(yīng)的合法umi序列的合法索引,對(duì)非法突變umi序列的合法索引設(shè)定非法值;將合法umi序列、合法umi序列對(duì)應(yīng)的數(shù)字化處理信息、合法umi序列對(duì)應(yīng)的容錯(cuò)索引、合法umi序列對(duì)應(yīng)的合法索引、合法突變umi序列、合法突變umi序列對(duì)應(yīng)的數(shù)字化處理信息、合法突變umi序列對(duì)應(yīng)的容錯(cuò)索引、合法突變umi序列對(duì)應(yīng)的合法索引、非法突變umi序列、非法突變umi序列對(duì)應(yīng)的數(shù)字化處理信息、非法突變umi序列對(duì)應(yīng)的合法索引存儲(chǔ)在容錯(cuò)列表中;對(duì)提取的umi序列進(jìn)行糾錯(cuò)的方法包括:對(duì)提取的umi序列進(jìn)行數(shù)字化處理,根據(jù)數(shù)字化處理信息對(duì)提取的umi序列添加訪問(wèn)索引;根據(jù)訪問(wèn)索引訪問(wèn)容錯(cuò)列表,若返回值為非法值,則該提取的umi序列無(wú)法匹配umi序列白名單,作為錯(cuò)誤umi序列;若返回值不為非法值,則將該訪問(wèn)索引依次匹配至容錯(cuò)列表中相應(yīng)的容錯(cuò)索引、合法索引,再根據(jù)匹配到的合法索引訪問(wèn)合法列表并匹配至對(duì)應(yīng)的合法umi序列,作為該提取的umi序列的正確umi序列,通過(guò)umi序列糾錯(cuò)。

3、在一些實(shí)施方式下,所述數(shù)字化處理的方法包括:將umi序列轉(zhuǎn)化為二進(jìn)制數(shù)值進(jìn)行存儲(chǔ);其中,將umi序列的堿基a/a、c/c、g/g、t/t分別映射為存儲(chǔ)空間為2?bit的二進(jìn)制數(shù)值;優(yōu)選將umi序列的堿基a/a、c/c、g/g、t/t分別映射為二進(jìn)制數(shù)值00、01、10、11。

4、在一些實(shí)施方式下,所述數(shù)字化處理信息為umi序列的二進(jìn)制數(shù)值所對(duì)應(yīng)的字符信息、rgb信息、二進(jìn)制數(shù)值、八進(jìn)制數(shù)值、十六進(jìn)制數(shù)值、十進(jìn)制數(shù)值中的任意一種。

5、在一些實(shí)施方式下,對(duì)提取的umi序列進(jìn)行糾錯(cuò)的方法還包括:

6、將錯(cuò)誤umi序列返回至質(zhì)控測(cè)序數(shù)據(jù)中相應(yīng)讀段,根據(jù)錯(cuò)誤umi序列于相應(yīng)讀段上的位置信息、預(yù)設(shè)的偏移距離,獲取與錯(cuò)誤umi序列相同長(zhǎng)度的偏移umi序列;

7、對(duì)偏移umi序列進(jìn)行數(shù)字化處理,根據(jù)數(shù)字化處理信息對(duì)偏移umi序列添加訪問(wèn)索引;根據(jù)訪問(wèn)索引訪問(wèn)容錯(cuò)列表,若返回值為非法值,則該偏移umi序列無(wú)法匹配umi序列白名單,丟棄該偏移umi序列;若返回值不為非法值,則將該訪問(wèn)索引依次匹配至容錯(cuò)列表中相應(yīng)的容錯(cuò)索引、合法索引,再根據(jù)匹配到的合法索引訪問(wèn)合法列表并匹配至對(duì)應(yīng)的合法umi序列,作為該偏移umi序列的正確umi序列。

8、在一些實(shí)施方式下,所述的預(yù)設(shè)的偏移距離為1~3個(gè)堿基。

9、本發(fā)明第二方面提供了一種高效多重?cái)U(kuò)增子捕獲測(cè)序文庫(kù)預(yù)處理方法,包括:

10、獲取具有引物序列、umi序列的測(cè)序數(shù)據(jù),基于讀寫(xiě)分離策略對(duì)獲得的測(cè)序數(shù)據(jù)進(jìn)行質(zhì)量控制,獲得質(zhì)控測(cè)序數(shù)據(jù),從質(zhì)控測(cè)序數(shù)據(jù)中提取umi序列;

11、采用所述的分子標(biāo)簽糾錯(cuò)方法對(duì)質(zhì)控測(cè)序數(shù)據(jù)具有的umi序列進(jìn)行糾錯(cuò);

12、經(jīng)質(zhì)量控制、umi序列糾錯(cuò)后的測(cè)序數(shù)據(jù)作為預(yù)處理結(jié)果,輸出并報(bào)告預(yù)處理結(jié)果。

13、在一些實(shí)施方式下,所述高效多重?cái)U(kuò)增子捕獲測(cè)序文庫(kù)預(yù)處理方法包括:

14、獲取具有引物序列、umi序列的測(cè)序數(shù)據(jù),基于讀寫(xiě)分離策略對(duì)獲得的測(cè)序數(shù)據(jù)進(jìn)行質(zhì)量控制,獲得質(zhì)控測(cè)序數(shù)據(jù),從質(zhì)控測(cè)序數(shù)據(jù)中提取umi序列、引物序列;

15、根據(jù)引物白名單構(gòu)建按引物序列長(zhǎng)度進(jìn)行分級(jí)的引物詞典,根據(jù)引物詞典對(duì)質(zhì)控測(cè)序數(shù)據(jù)具有的引物序列進(jìn)行引物匹配性檢測(cè);

16、采用所述的分子標(biāo)簽糾錯(cuò)方法對(duì)通過(guò)引物匹配性檢測(cè)的質(zhì)控測(cè)序數(shù)據(jù)具有的umi序列進(jìn)行糾錯(cuò);

17、經(jīng)質(zhì)量控制、引物匹配性檢測(cè)、umi序列糾錯(cuò)后的測(cè)序數(shù)據(jù)作為預(yù)處理結(jié)果,輸出并報(bào)告預(yù)處理結(jié)果。

18、在一些實(shí)施方式下,所述根據(jù)引物白名單構(gòu)建按引物序列長(zhǎng)度進(jìn)行分級(jí)的引物詞典,根據(jù)引物詞典對(duì)提取的引物序列進(jìn)行引物匹配性檢測(cè)的方法包括:

19、對(duì)存在于引物白名單中的合法引物序列、與合法引物發(fā)生允許的堿基錯(cuò)配的合法錯(cuò)配引物序列按引物序列長(zhǎng)度進(jìn)行分級(jí),將具有同一引物序列長(zhǎng)度的合法引物序列/合法錯(cuò)配引物序列存儲(chǔ)于同一哈希表中,構(gòu)建得到以引物序列長(zhǎng)度-合法引物序列/合法錯(cuò)配引物序列為鍵值對(duì)的引物詞典;

20、根據(jù)引物詞典中不同的引物序列長(zhǎng)度對(duì)提取的引物序列進(jìn)行分級(jí),獲得不同引物序列長(zhǎng)度的引物子序列,并分別查閱至對(duì)應(yīng)引物序列長(zhǎng)度的哈希表中;若哈希表中存在與引物子序列相同的合法引物序列/合法錯(cuò)配引物序列,則該提取的引物序列通過(guò)引物匹配性檢測(cè)。

21、在一些實(shí)施方式下,所述高效多重?cái)U(kuò)增子捕獲測(cè)序文庫(kù)預(yù)處理方法還包括:

22、依次將空格符、提取的umi序列/正確umi序列,添加至該提取的umi序列/正確umi序列相應(yīng)讀段的原始讀段名后,作為輸出讀段名,用于預(yù)處理結(jié)果輸出。

23、在一些實(shí)施方式下,所述輸出并報(bào)告預(yù)處理結(jié)果的方法包括:

24、以fastq、json格式輸出預(yù)處理結(jié)果,以交互型動(dòng)態(tài)網(wǎng)頁(yè)形式對(duì)預(yù)處理結(jié)果進(jìn)行報(bào)告;

25、所述預(yù)處理結(jié)果包括合格數(shù)據(jù)、不合格數(shù)據(jù);將通過(guò)質(zhì)量控制、通過(guò)引物匹配性檢測(cè)、通過(guò)umi序列糾錯(cuò)的測(cè)序數(shù)據(jù)作為合格數(shù)據(jù);將未通過(guò)質(zhì)量控制、和/或未通過(guò)引物匹配性檢測(cè)、和/或未通過(guò)umi序列糾錯(cuò)的測(cè)序數(shù)據(jù)作為不合格數(shù)據(jù);

26、所述報(bào)告內(nèi)容包括質(zhì)量控制結(jié)果、引物匹配性檢測(cè)結(jié)果、umi序列糾錯(cuò)結(jié)果中的至少一種。

27、本發(fā)明的有益效果:

28、本發(fā)明提供的高效多重?cái)U(kuò)增子捕獲測(cè)序文庫(kù)預(yù)處理方法對(duì)帶分子標(biāo)簽的多重引物探針二代測(cè)序文庫(kù)全數(shù)據(jù)計(jì)算流程進(jìn)行了優(yōu)化,并使用c/c++高性能實(shí)現(xiàn),保證準(zhǔn)確率的情況下,帶來(lái)了顯著的速度和性能提升,并產(chǎn)出了工業(yè)化的標(biāo)準(zhǔn)結(jié)果文件以及用戶(hù)友好的動(dòng)態(tài)網(wǎng)頁(yè)。

29、在測(cè)序數(shù)據(jù)質(zhì)量控制方面,本發(fā)明提供的預(yù)處理方法摒棄了傳統(tǒng)質(zhì)控軟件單線(xiàn)程讀寫(xiě)數(shù)據(jù)的缺點(diǎn),采用高效的雙線(xiàn)程讀寫(xiě)處理分離模式設(shè)計(jì),讀寫(xiě)速度提高一倍,結(jié)合高效的開(kāi)源壓縮庫(kù),速度能夠得到更高的提升。同時(shí)還摒棄了傳統(tǒng)質(zhì)控軟件要么指標(biāo)單一,要么指標(biāo)太多不適應(yīng)特定業(yè)務(wù)場(chǎng)景的缺點(diǎn),針對(duì)本業(yè)務(wù)場(chǎng)景,本發(fā)明提供的預(yù)處理方法僅內(nèi)置了高效的基礎(chǔ)質(zhì)量控制,過(guò)濾低質(zhì)量片段,自動(dòng)檢測(cè)并切除接頭序列,提取多樣化的分子標(biāo)簽,具備足夠的計(jì)算指標(biāo),但是又不濫用指標(biāo)。此外,在分子標(biāo)簽提取過(guò)程中,本發(fā)明提供的預(yù)處理方法可以將分子標(biāo)簽信息添加至原始讀段名,提高了后續(xù)處理速度,支持工業(yè)化的比對(duì)結(jié)果bam的標(biāo)簽選項(xiàng)。

30、在引物匹配性檢測(cè)方面,針對(duì)可變段序列匹配,本發(fā)明提供的預(yù)處理方法創(chuàng)造性地提出了分段式的引物詞典,根據(jù)白名單引物的長(zhǎng)度不同構(gòu)建了以引物序列長(zhǎng)度-合法引物序列/合法錯(cuò)配引物序列為鍵值對(duì)的引物詞典。同時(shí),本發(fā)明還直接將容錯(cuò)(即合法錯(cuò)配引物序列)映射到詞典中的真集序列,達(dá)到了高效的無(wú)比對(duì)匹配。

31、在分子標(biāo)簽糾錯(cuò)方面,本發(fā)明提供的分子標(biāo)簽糾錯(cuò)方法摒棄了傳統(tǒng)分子標(biāo)簽糾錯(cuò)過(guò)程中使用的字符串逐個(gè)字符比較的算法,一次性引入了數(shù)字化編碼容錯(cuò)范圍內(nèi)的所有分子標(biāo)簽,并且將編碼信息作為列表索引,列表元素存儲(chǔ)了對(duì)應(yīng)的分子標(biāo)簽信息,譬如錯(cuò)誤個(gè)數(shù),正確序列信息等。此外,本發(fā)明提供的分子標(biāo)簽糾錯(cuò)方法還針對(duì)堿基偏移,引入了滾動(dòng)哈希算法,避免反復(fù)構(gòu)建子序列,同時(shí)也對(duì)起始位置的錯(cuò)位提供了支持。

32、在預(yù)處理結(jié)果輸出并報(bào)告方面,本發(fā)明提供的預(yù)處理方法摒棄了標(biāo)準(zhǔn)的文本內(nèi)容,引入工業(yè)化的fastq、json格式進(jìn)行預(yù)處理結(jié)果輸出,并采用html交互型動(dòng)態(tài)網(wǎng)頁(yè)形式進(jìn)行報(bào)告,便于上下游工作軟件流的訪問(wèn),以及用戶(hù)友好的查看結(jié)果。

33、綜合而言,相較于傳統(tǒng)的預(yù)處理方法,本發(fā)明提供的預(yù)處理方法在分析速度上得到了顯著提升,同時(shí)也降低了資源消耗。對(duì)189個(gè)樣品的測(cè)試結(jié)果顯示,本發(fā)明提供的預(yù)處理方法平均用時(shí)2分鐘,而傳統(tǒng)流程需要經(jīng)過(guò)質(zhì)控、拆分、處理、合并步驟,平均用時(shí)在3小時(shí)以上;本發(fā)明提供的預(yù)處理方法消耗內(nèi)存平均為5.2g,而傳統(tǒng)流程總的內(nèi)存消耗在50g以上;同時(shí)本發(fā)明提供的預(yù)處理方法其臨時(shí)文件僅為傳統(tǒng)方法的十分之一。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1