本發(fā)明涉及數(shù)據(jù)傳輸,具體涉及一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法及系統(tǒng)。
背景技術(shù):
1、非小細(xì)胞肺癌ctdna,即循環(huán)腫瘤dna,是指由腫瘤細(xì)胞釋放到血液循環(huán)系統(tǒng)中的dna片段。在非小細(xì)胞肺癌等實體腫瘤中,ctdna攜帶了腫瘤的基因變異信息,如點突變、基因擴增、基因缺失、基因重排等,因此,通過血液樣本進(jìn)行ctdna基因檢測,可以實現(xiàn)對腫瘤細(xì)胞的病變檢測?;驒z測結(jié)果的生物學(xué)信息中包含有大量的生物學(xué)數(shù)據(jù)指標(biāo),數(shù)據(jù)內(nèi)容較多,且存在大量的冗余信息,這使得檢測結(jié)果的傳輸變得緩慢。
2、非小細(xì)胞肺癌基因檢測的數(shù)據(jù)較多,涉及到大量的生物學(xué)指標(biāo),數(shù)據(jù)內(nèi)容多,因其通過專業(yè)的醫(yī)學(xué)設(shè)備進(jìn)行醫(yī)學(xué)檢測的結(jié)果,檢測的相關(guān)基因都較為重要,現(xiàn)有的傳輸方法是通過對數(shù)據(jù)進(jìn)行壓縮后減小數(shù)據(jù)的容量來進(jìn)行數(shù)據(jù)的傳輸,以提高數(shù)據(jù)傳輸效率。但是因為非小細(xì)胞肺癌基因復(fù)雜多變,基因檢測結(jié)果中數(shù)據(jù)類型較多,檢測結(jié)果數(shù)據(jù)量較大,采用傳統(tǒng)的壓縮算法構(gòu)建字典時,字典編碼量較大,壓縮效率降低,信息的傳輸量較大,非小細(xì)胞肺癌基因檢測數(shù)據(jù)的傳輸效率較低。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有方法在對非小細(xì)胞肺癌基因檢測數(shù)據(jù)進(jìn)行傳輸時存在傳輸效率較低的問題,本發(fā)明的目的在于提供一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法及系統(tǒng),所采用的技術(shù)方案具體如下:
2、第一方面,本發(fā)明提供了一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法,該方法包括以下步驟:
3、獲取目標(biāo)人員的非小細(xì)胞肺癌基因檢測序列;
4、分別以不同的預(yù)設(shè)長度對目標(biāo)基因序列進(jìn)行子序列段的劃分,所述目標(biāo)基因序列是基于堿基對的排列組合特點從基因檢測序列中提取到的;根據(jù)每個子序列段在目標(biāo)基因序列中出現(xiàn)的情況,獲得每個子序列段的重復(fù)度;利用每種預(yù)設(shè)長度的單個子序列段的重復(fù)度與所有子序列段的重復(fù)度之間的大小關(guān)系,篩選第一子序列段;
5、綜合不同長度的第一子序列段之間的重復(fù)情況以及對應(yīng)的所述重復(fù)度,篩選目標(biāo)子序列段;利用所述目標(biāo)子序列段構(gòu)建字典,基于所述字典對目標(biāo)基因序列進(jìn)行壓縮傳輸。
6、優(yōu)選的,所述目標(biāo)基因序列的獲取,包括:
7、提取目標(biāo)人員的非小細(xì)胞肺癌基因檢測序列中所有奇數(shù)位置的堿基或者所有偶數(shù)位置的堿基,構(gòu)成目標(biāo)基因序列。
8、優(yōu)選的,所述根據(jù)每個子序列段在目標(biāo)基因序列中出現(xiàn)的情況,獲得每個子序列段的重復(fù)度,包括:
9、統(tǒng)計候選子序列段在所述目標(biāo)基因序列中出現(xiàn)的次數(shù);將所述次數(shù)作為候選子序列段的重復(fù)度;所述候選子序列段為所有預(yù)設(shè)長度的所有子序列段中的任一子序列段。
10、優(yōu)選的,所述利用每種預(yù)設(shè)長度的單個子序列段的重復(fù)度與所有子序列段的重復(fù)度之間的大小關(guān)系,篩選第一子序列段,包括:
11、對于任意一種預(yù)設(shè)長度:
12、計算該預(yù)設(shè)長度的所有子序列段的平均重復(fù)度;
13、對于該種預(yù)設(shè)長度的任一子序列段,計算該子序列段的重復(fù)度與所述平均重復(fù)度之間的差值,基于所述差值判斷該子序列段是否為第一子序列段。
14、優(yōu)選的,所述基于所述差值判斷該子序列段是否為第一子序列段,包括:
15、若所述差值大于預(yù)設(shè)差異閾值,則判定該子序列段為第一子序列段;所述預(yù)設(shè)差異閾值大于等于0。
16、優(yōu)選的,所述綜合不同長度的第一子序列段之間的重復(fù)情況以及對應(yīng)的所述重復(fù)度,篩選目標(biāo)子序列段,包括:
17、計算待分析子序列段對應(yīng)的參考子序列段的重復(fù)度與待分析子序列段的重復(fù)度之間的第一比值;根據(jù)待分析子序列段與其對應(yīng)的參考子序列段的重復(fù)度之間的差異、以及待分析子序列段對應(yīng)的所有第一比值,得到待分析子序列段的保留指標(biāo);所述待分析子序列段為任一第一子序列段;
18、所述參考子序列段為所有第一子序列段中包含待分析子序列段且長度大于待分析子序列段的第一子序列段;
19、基于所述保留指標(biāo)判斷待分析子序列段是否為目標(biāo)子序列段;所述待分析子序列段為任一第一子序列段。
20、優(yōu)選的,所述根據(jù)待分析子序列段與其對應(yīng)的參考子序列段的重復(fù)度之間的差異、以及待分析子序列段對應(yīng)的所有第一比值,得到待分析子序列段的保留指標(biāo),包括:
21、計算待分析子序列段與其對應(yīng)的所有參考子序列段的重復(fù)度之間的整體差異;
22、計算待分析子序列段對應(yīng)的所有第一比值的平均值;
23、將所述整體差異與所述平均值之差的歸一化結(jié)果,確定為待分析子序列段的保留指標(biāo)。
24、優(yōu)選的,所述基于所述保留指標(biāo)判斷待分析子序列段是否為目標(biāo)子序列段,包括:
25、若所述保留指標(biāo)大于預(yù)設(shè)保留閾值,則將待分析子序列段作為目標(biāo)子序列段。
26、優(yōu)選的,采用lzw算法對基因檢測序列進(jìn)行壓縮。
27、第二方面,本發(fā)明提供了一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸系統(tǒng),該系統(tǒng)包括:
28、數(shù)據(jù)采集模塊,用于獲取目標(biāo)人員的非小細(xì)胞肺癌基因檢測序列;
29、第一子序列段篩選模塊,用于分別以不同的預(yù)設(shè)長度對目標(biāo)基因序列進(jìn)行子序列段的劃分,所述目標(biāo)基因序列是基于堿基對的排列組合特點從基因檢測序列中提取到的;根據(jù)每個子序列段在目標(biāo)基因序列中出現(xiàn)的情況,獲得每個子序列段的重復(fù)度;利用每種預(yù)設(shè)長度的單個子序列段的重復(fù)度與所有子序列段的重復(fù)度之間的大小關(guān)系,篩選第一子序列段;
30、數(shù)據(jù)傳輸模塊,用于綜合不同長度的第一子序列段之間的重復(fù)情況以及對應(yīng)的所述重復(fù)度,篩選目標(biāo)子序列段;利用所述目標(biāo)子序列段構(gòu)建字典,基于所述字典對目標(biāo)基因序列進(jìn)行壓縮傳輸。
31、本發(fā)明至少具有如下有益效果:
32、本發(fā)明首先對目標(biāo)人員進(jìn)行非小細(xì)胞肺癌基因檢測獲得基因檢測序列,然后根據(jù)堿基對的排列組合特點從基因檢測序列中提取出了目標(biāo)基因序列,在保留原基因檢測序列的重要信息的同時,整體數(shù)據(jù)量減少了一半,使得壓縮傳輸效率能夠得以提升,進(jìn)一步地,分別以不同的預(yù)設(shè)長度對目標(biāo)基因序列進(jìn)行多次劃分,獲得不同預(yù)設(shè)長度的子序列段,分別對每個子序列段在目標(biāo)基因序列中出現(xiàn)的情況進(jìn)行分析,獲得每個子序列段的重復(fù)度,對每種預(yù)設(shè)長度的單個子序列段的重復(fù)度與所有子序列段的重復(fù)度之間的大小進(jìn)行比較,篩選出第一子序列段,第一子序列段編入字典的可選性較高,綜合不同長度的第一子序列段之間的重復(fù)情況以及對應(yīng)的重復(fù)度,從第一子序列段中篩選目標(biāo)子序列段,目標(biāo)子序列段用于字典的構(gòu)建,進(jìn)而對目標(biāo)基因序列進(jìn)行壓縮傳輸,本發(fā)明提供的方法根據(jù)不同的基因片段進(jìn)行差異化的壓縮,確保了壓縮率的同時對于關(guān)鍵的dna數(shù)據(jù)信息也能更好地進(jìn)行傳輸,提高了非小細(xì)胞肺癌基因檢測結(jié)果的傳輸效率,通過安全、快速地傳輸非小細(xì)胞肺癌基因檢測結(jié)果,臨床醫(yī)生能夠及時獲取患者的基因變異信息,為患者提供個性化的治療方案。
1.一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法,其特征在于,所述目標(biāo)基因序列的獲取,包括:
3.根據(jù)權(quán)利要求1所述的一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法,其特征在于,所述根據(jù)每個子序列段在目標(biāo)基因序列中出現(xiàn)的情況,獲得每個子序列段的重復(fù)度,包括:
4.根據(jù)權(quán)利要求1所述的一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法,其特征在于,所述利用每種預(yù)設(shè)長度的單個子序列段的重復(fù)度與所有子序列段的重復(fù)度之間的大小關(guān)系,篩選第一子序列段,包括:
5.根據(jù)權(quán)利要求4所述的一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法,其特征在于,所述基于所述差值判斷該子序列段是否為第一子序列段,包括:
6.根據(jù)權(quán)利要求2所述的一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法,其特征在于,所述綜合不同長度的第一子序列段之間的重復(fù)情況以及對應(yīng)的所述重復(fù)度,篩選目標(biāo)子序列段,包括:
7.根據(jù)權(quán)利要求6所述的一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法,其特征在于,所述根據(jù)待分析子序列段與其對應(yīng)的參考子序列段的重復(fù)度之間的差異、以及待分析子序列段對應(yīng)的所有第一比值,得到待分析子序列段的保留指標(biāo),包括:
8.根據(jù)權(quán)利要求6所述的一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法,其特征在于,所述基于所述保留指標(biāo)判斷待分析子序列段是否為目標(biāo)子序列段,包括:
9.根據(jù)權(quán)利要求1所述的一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸方法,其特征在于,采用lzw算法對基因檢測序列進(jìn)行壓縮。
10.一種非小細(xì)胞肺癌基因檢測結(jié)果的傳輸系統(tǒng),其特征在于,該系統(tǒng)包括: