本公開涉及生物信息處理,尤其涉及一種群體基因組變異數(shù)據(jù)處理方法、裝置、電子設備及存儲介質(zhì)。
背景技術:
1、當前,變異質(zhì)量值重校正(variant?quality?score?recalibration,vqsr)是群體基因組學研究的一個關鍵環(huán)節(jié),通過機器學習的方法利用多個不同的數(shù)據(jù)特征訓練一個高斯混合模型對變異數(shù)據(jù)進行質(zhì)控,以區(qū)分基因組變異數(shù)據(jù)中的“好”變異和“壞”變異,過濾得到高質(zhì)量的變異數(shù)據(jù)。
2、相關技術中,通常是采用重測序數(shù)據(jù)分析工具(the?genome?analysis?toolkit,gatk)運算模式直接進行群體基因組分析。
3、這種方式下,當基因組數(shù)據(jù)規(guī)模上升到萬人或十萬人規(guī)模時,處理群體基因組vqsr時容易存在超大型群體基因組分析難以實施,以及耗時超長的問題。
技術實現(xiàn)思路
1、本公開旨在至少在一定程度上解決相關技術中的技術問題之一。
2、為此,本公開的目的在于提出一種群體基因組變異數(shù)據(jù)處理方法、裝置、電子設備、存儲介質(zhì)及計算機程序產(chǎn)品。
3、本公開第一方面實施例提出一種群體基因組變異數(shù)據(jù)處理方法,包括:獲取多個染色體變異數(shù)據(jù)樣本,其中,所述染色體變異數(shù)據(jù)樣本具有對應的群體來源標識信息;根據(jù)多個所述群體來源標識信息,確定所述多個染色體變異數(shù)據(jù)樣本對應的區(qū)間劃分模式;根據(jù)所述區(qū)間劃分模式分別對各個所述染色體變異數(shù)據(jù)樣本進行劃分,以得到各個所述染色體變異數(shù)據(jù)樣本對應的多個變異數(shù)據(jù)片段;基于變異數(shù)據(jù)過濾參數(shù)處理所述多個變異數(shù)據(jù)片段,得到所述目標群體基因組變異數(shù)據(jù)。
4、本公開第二方面實施例提出一種群體基因組變異數(shù)據(jù)處理裝置,包括:獲取模塊,用于獲取多個染色體變異數(shù)據(jù)樣本,其中,所述染色體變異數(shù)據(jù)樣本具有對應的群體來源標識信息;確定模塊,用于根據(jù)多個所述群體來源標識信息,確定所述多個染色體變異數(shù)據(jù)樣本對應的區(qū)間劃分模式;第一處理模塊,用于根據(jù)所述區(qū)間劃分模式分別對各個所述染色體變異數(shù)據(jù)樣本進行劃分,以得到各個所述染色體變異數(shù)據(jù)樣本對應的多個變異數(shù)據(jù)片段;第二處理模塊,用于基于變異數(shù)據(jù)過濾參數(shù)處理所述多個變異數(shù)據(jù)片段,得到所述目標群體基因組變異數(shù)據(jù)。
5、本公開第三方面實施例提出了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,處理器執(zhí)行程序時,實現(xiàn)如本公開第一方面實施例提出的群體基因組變異數(shù)據(jù)處理方法。
6、本公開第四方面實施例提出了一種非臨時性計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如本公開第一方面實施例提出的群體基因組變異數(shù)據(jù)處理方法。
7、本公開第五方面實施例提出了一種計算機程序產(chǎn)品,當計算機程序產(chǎn)品中的指令由處理器執(zhí)行時,執(zhí)行如本公開第一方面實施例提出的群體基因組變異數(shù)據(jù)處理方法。
8、本公開實施例中提出的群體基因組變異數(shù)據(jù)處理方法、裝置、電子設備、存儲介質(zhì)及計算機程序產(chǎn)品,至少可以包括以下有益效果:通過獲取多個染色體變異數(shù)據(jù)樣本,其中,染色體變異數(shù)據(jù)樣本具有對應的群體來源標識信息,根據(jù)多個群體來源標識信息,確定多個染色體變異數(shù)據(jù)樣本對應的區(qū)間劃分模式,根據(jù)區(qū)間劃分模式分別對各個染色體變異數(shù)據(jù)樣本進行劃分,以得到各個染色體變異數(shù)據(jù)樣本對應的多個變異數(shù)據(jù)片段,基于變異數(shù)據(jù)過濾參數(shù)處理多個變異數(shù)據(jù)片段,得到目標群體基因組變異數(shù)據(jù),能夠基于將染色體變異數(shù)據(jù)樣本的群體來源,將染色體變異數(shù)據(jù)樣本的變異數(shù)據(jù)過濾任務分為數(shù)據(jù)處理量均衡的多個子任務,對多個子任務進行并行處理,從而可以避免存在子任務拖尾現(xiàn)象而造成運行等待,從而有效節(jié)省計算資源和提升數(shù)據(jù)處理速度。
9、本公開附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本公開的實踐了解到。
1.一種群體基因組變異數(shù)據(jù)處理方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,所述根據(jù)多個所述群體來源標識信息,確定所述多個染色體變異數(shù)據(jù)樣本對應的區(qū)間劃分模式,包括:
3.如權利要求2所述的方法,其特征在于,所述根據(jù)所述比對結果,確定所述區(qū)間劃分模式,包括:
4.如權利要求3所述的方法,其特征在于,所述根據(jù)所述區(qū)間劃分模式分別對各個所述染色體變異數(shù)據(jù)樣本進行劃分,以得到各個所述染色體變異數(shù)據(jù)樣本對應的多個變異數(shù)據(jù)片段,包括:
5.如權利要求4所述的方法,其特征在于,所述根據(jù)所述參考位點數(shù)量和變異位點密度信息分別對各個所述染色體變異數(shù)據(jù)樣本進行劃分,以得到各個所述染色體變異數(shù)據(jù)樣本對應的多個變異數(shù)據(jù)片段,包括:
6.如權利要求5所述的方法,其特征在于,所述根據(jù)所述參考位點數(shù)量和所述變異位點密度信息,確定各個所述變異數(shù)據(jù)片段在所述染色體變異數(shù)據(jù)樣本上的目標區(qū)間信息,包括:
7.如權利要求5所述的方法,其特征在于,所述根據(jù)所述參考位點數(shù)量和所述變異位點密度信息,確定各個所述變異數(shù)據(jù)片段在所述染色體變異數(shù)據(jù)樣本上的目標區(qū)間信息,還包括:
8.如權利要求4所述的方法,其特征在于,所述根據(jù)所述參考位點數(shù)量和等位基因密度信息分別對各個所述染色體變異數(shù)據(jù)樣本進行劃分,以得到各個所述染色體變異數(shù)據(jù)樣本對應的多個變異數(shù)據(jù)片段,包括:
9.如權利要求8所述的方法,其特征在于,所述根據(jù)所述參考位點數(shù)量和所述等位基因密度信息,確定各個所述變異數(shù)據(jù)片段在所述染色體變異數(shù)據(jù)樣本上的目標區(qū)間信息,包括:
10.如權利要求8所述的方法,其特征在于,所述根據(jù)所述參考位點數(shù)量和所述等位基因密度信息,確定各個所述變異數(shù)據(jù)片段在所述染色體變異數(shù)據(jù)樣本上的目標區(qū)間信息,還包括:
11.如權利要求1所述的方法,其特征在于,所述基于變異數(shù)據(jù)過濾參數(shù)處理所述多個變異數(shù)據(jù)片段,得到所述目標群體基因組變異數(shù)據(jù),包括:
12.一種群體基因組變異數(shù)據(jù)處理裝置,其特征在于,包括:
13.一種電子設備,其特征在于,包括:
14.一種計算機可讀存儲介質(zhì),其特征在于,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如權利要求1-11中任一項所述方法。