一種將基因信息進行二進制表示的存儲方法
【專利摘要】本發(fā)明公開了一種將基因信息進行二進制表示的存儲方法,所述的方法包括:根據(jù)DNA雙鏈結(jié)構(gòu)及堿基配對,由字符代表匹配的堿基對;將四種堿基對進行數(shù)值定義并用兩位二進制數(shù)來表示;三個堿基對組成的堿基組以6位二進制數(shù)值和2位固定賦值組成一個8位一字節(jié)的二進制數(shù)值表示;以線性映射的方式,將64種堿基組0~63根據(jù)Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進制數(shù),以二進制字節(jié)流形式的數(shù)據(jù)信息進行存儲。
【專利說明】
-種將基因信息進行二進制表示的存儲方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及生物信息領(lǐng)域,設(shè)及基因檢測后數(shù)據(jù)存儲的處理技術(shù),是一種將基因 信息進行二進制表示的存儲方法。
【背景技術(shù)】
[0002] 高通量基因測序技術(shù)的成熟與普及,使得基因檢測的成本也逐漸降低,測序時間 更快,而隨著最新的更高通量、更快、成本更低的基因測序技術(shù)的研發(fā)與商業(yè)化,基因測序 業(yè)已走進個人基因檢測的商業(yè)化模式。然而,基因檢測所得的數(shù)據(jù)是海量的,在測序輸出的 數(shù)據(jù)存儲格式上,一般WSAM(Sequence Alignment Map)/BAM(Binary Alignment Map)格 式存儲能夠緊湊的表示出核巧酸序列。運種傳統(tǒng)格式存儲不但占用巨大的存儲空間,而且 不利于對基因數(shù)據(jù)進行進一步的分析(如人工智能的數(shù)據(jù)挖掘)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供一種基因測序后數(shù)據(jù)信息的二進制表示的存儲方法;通過 把生物基因的四種堿基對(A,T,G,C)轉(zhuǎn)換成二進制形式。在縮小了存儲空間的同時能更加 便捷的讀取分析基因信息。
[0004] 為解決上述問題,本發(fā)明提供W下技術(shù)方案:
[0005] DNA(Deo巧ribonucleic acid),即脫氧核糖核酸,是一種分子,雙鏈雙螺旋結(jié)構(gòu), 由脫氧核糖核巧酸(成分為:脫氧核糖、憐酸及四種含氮堿基)組成??山M成遺傳指令,引導(dǎo) 生物發(fā)育與生命機能運作,帶有遺傳信息的DNA片段稱為基因。脫氧核巧酸是基因的基本結(jié) 構(gòu)和功能單位,決定生物的多樣性的就是脫氧核巧酸中四種堿基:腺嚷嶺(adenine,縮寫為 A)、胸腺喀晚(thymine,縮寫為T)、胞喀晚(c}ftosine,縮寫為C)和鳥嚷嶺(guanine,縮寫為 G)的排列順序不同?;驕y序得到四種堿基排列順序的數(shù)據(jù)信息,將四種堿基排列順序W 二進制形式表示并進行存儲,從而減少存儲空間的使用,也方便讀取分析基因信息,為基 因信息的大數(shù)據(jù)挖掘、人工智能數(shù)據(jù)分析創(chuàng)造良好的應(yīng)用基礎(chǔ)。
[0006] -種基因信息的二進制存儲方法,其特征在于,所述的方法包括:
[0007] 根據(jù)DNA雙鏈結(jié)構(gòu)及堿基配對,由字符代表匹配的堿基對;
[000引將四種堿基對進行數(shù)值定義并用兩位二進制數(shù)來表示;
[0009]=個堿基對組成的堿基組W6位二進制數(shù)值和2位固定賦值組成一個8位一字節(jié)的 二進制數(shù)值表示;
[0010] W線性映射的方式,將64種堿基組0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進制數(shù),W二進制字節(jié) 流形式的數(shù)據(jù)信息進行存儲。
[0011] 作為本發(fā)明的進一步技術(shù)方案:由字符代表匹配的堿基對,根據(jù)堿基的固定配對, 由字符4,1',6,巧且成的字符文件,其中每一個字符代表一個堿基對,轉(zhuǎn)換方式如下所示:
[0012] A:A = T;T:T=A;G:G = C;C:C=G〇
[0013] 作為本發(fā)明的進一步技術(shù)方案:將四種堿基對進行數(shù)值定義并用兩位二進制數(shù)來 表示,A、T、G、C四種堿基對,利用計算機二進制方法,分別用2位的二進制數(shù)值來表示,可W 有24種組合的表示方法,舉例1中組合如下:
[0014] a = 00、T = 01、G = 10、C=11。
[0015] 作為本發(fā)明的進一步技術(shù)方案:堿基組的8位二進制數(shù)值表示方法,=個堿基對組 成的堿基組W6位二進制數(shù)值和2位固定賦值組成一個8位一字節(jié)的二進制數(shù)值來表示;2位 的固定賦值可W用〇〇、〇1、1〇、11作為固定值來填充表示;^高位固定賦值是11,由堿基對八、 T、G組合成的堿基組其兩位二進制數(shù)表示分別是00、01、10為例,由堿基對4、1\6組成的堿基 組的二進制表示為:ATG = 11000110。
[0016] 作為本發(fā)明的進一步技術(shù)方案:W線性映射的方式,將64種堿基組進行數(shù)值映射 并轉(zhuǎn)換成8位二進制數(shù)值,根據(jù)線性映射的方式,將賦值之后的64種堿基組0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn) 換為8位二進制數(shù);通過該賦值與映射的方式,每一個堿基組即可得到一個固定的8位二進 制數(shù),所有堿基組組合在一起便形成二進制字節(jié)流,得到與基因信息兩位代表轉(zhuǎn)換法轉(zhuǎn)換 之后同樣形式的字節(jié)流。
[0017] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過把生物基因的四種堿基對(A, T,G,C)轉(zhuǎn)換成二進制形式。在縮小了存儲空間的同時能更加便捷的讀取分析基因信息。
【附圖說明】
[0018] 圖1是字符與堿基對對應(yīng)轉(zhuǎn)換關(guān)系圖。
【具體實施方式】
[0019] 下面將對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施 例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通 技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范 圍。
[0020] 參見說明書附圖1,本發(fā)明提供一種技術(shù)方案:
[0021 ] DNA(Deo巧ribonucleic acid),即脫氧核糖核酸,是一種分子,雙鏈雙螺旋結(jié)構(gòu), 由脫氧核糖核巧酸(成分為:脫氧核糖、憐酸及四種含氮堿基)組成。可組成遺傳指令,引導(dǎo) 生物發(fā)育與生命機能運作,帶有遺傳信息的DNA片段稱為基因。脫氧核巧酸是基因的基本結(jié) 構(gòu)和功能單位,決定生物的多樣性的就是脫氧核巧酸中四種堿基:腺嚷嶺(adenine,縮寫為 A)、胸腺喀晚(thymine,縮寫為T)、胞喀晚(c}ftosine,縮寫為C)和鳥嚷嶺(guanine,縮寫為 G)的排列順序不同?;驕y序得到四種堿基排列順序的數(shù)據(jù)信息,將四種堿基排列順序W 二進制形式表示并進行存儲,從而減少存儲空間的使用,也方便讀取分析基因信息,為基 因信息的大數(shù)據(jù)挖掘、人工智能數(shù)據(jù)分析創(chuàng)造良好的應(yīng)用基礎(chǔ)。
[0022] 在DNA雙鏈結(jié)構(gòu)中,堿基的互補配對是固定的,A = T、G = C,所W,由字符A,T,G,C組 成的字符文件,其中每一個字符代表一個堿基對,轉(zhuǎn)換方式如下所示:
[0023] A:A = T;T:T=A;G:G = C;C:C=G
[0024] 堿基對示例:T ACGAACTGCTA
[002引 ATGCTTGACGAT
[0026] 如上所示,雙鏈上的兩個互補配對的堿基稱為一個堿基對,如A = T、T = A、G = C、C =G等,=個相鄰的堿基對編成一組堿基組。
[0027] 可W利用計算機二進制方法,對每一個堿基對進行數(shù)值定義并用兩位二進制數(shù)來 表示。所有二進制組合如下表: 「00281
[0029]
[0030] DNA上每=個相鄰堿基對編成一組命名為堿基組,當堿基組位于基因上時,每個堿 基組對應(yīng)一個密碼子W及氨基酸。堿基組通過兩位代表法轉(zhuǎn)換之后生成了一個6位的二進 制數(shù)值,并且可W將運個6位數(shù)據(jù)存儲到一個字節(jié)(8位)的高位或低位,剩余的2位數(shù)值可用 00,01,10,11作為固定值來填充。W高位固定賦值是11,由=個堿基對A、T、G組合成的堿基 組其兩位二進制數(shù)表示分別是〇〇、〇1、1〇為例,因此由=個堿基對A、T、G組成的堿基組的二 進制表示為ATG = 11000110。
[0031] 每個堿基組都是可W用一個8位二進制數(shù)(一個字節(jié))來表示。當所有堿基組都使 用二進制數(shù)表示之后,即得到一個新的由二進制數(shù)字節(jié)流表示的基因信息,再利用字節(jié)流 圖像表示的方式便可得到一個基因信息轉(zhuǎn)化而成的可視化圖像,通過運種方式可W對基因 進行更加直觀的研究與分析,并且在存儲上節(jié)省了大量的存儲空間。
[0032] 每個堿基組由=個堿基對組成,堿基對共有四種組合,所W每個堿基組有4~3 = 64 種組合方式。對基因的64種堿基組進行重新編碼,將64種堿基組賦予0-63的編號,然后通過 線性映射或可選閥值映射的方式映射到0~255的范圍,從而得到一個新的字節(jié)流。堿基組 編號如下表所不: r00331
[0034] 線性映射可W有四種方式:Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3,根據(jù)線性映 射的方式,將賦值之后的64種堿基組WY = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式均 勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進制數(shù),通過該賦值與映射的方式, 每一個堿基組即可得到一個固定的8位二進制數(shù),所有堿基組的組合在一起便形成二進制 字節(jié)流,得到與基因信息兩位代表轉(zhuǎn)換法轉(zhuǎn)換之后同樣形式的字節(jié)流。W映射公式Y(jié) = 4X+1 為例,映射結(jié)果如下表:
[0035]
[0036] 通過基因的兩位代表轉(zhuǎn)換法W及基因信息映射轉(zhuǎn)換法都可W將多個DNA序列存儲 在一個具有隨機存取格式的二進制文件當中。文件可包含DNA信息W及需要隱藏的信息。
[0037] 利用數(shù)據(jù)賦值、兩位二進制數(shù)表示,對堿基組進行重新編碼,編碼之后形成的便是 字節(jié)流形式的基因數(shù)據(jù)信息,運種數(shù)據(jù)可W通過字節(jié)流圖像表示的方式對基因信息進行可 視化轉(zhuǎn)換,也可W進行W機器學(xué)習(xí)的算法進行數(shù)據(jù)挖掘。
[0038] 盡管已經(jīng)示出和描述了本發(fā)明的實施例,對于本領(lǐng)域的普通技術(shù)人員而言,可W 理解在不脫離本發(fā)明的原理和精神的情況下可W對運些實施例進行多種變化、修改、替換 和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同物限定。
【主權(quán)項】
1. 一種將基因信息進行二進制表示的存儲方法,其特征在于,所述的方法包括: 根據(jù)DNA雙鏈結(jié)構(gòu)及堿基配對,由字符代表匹配的堿基對; 將四種堿基對進行數(shù)值定義并用兩位二進制數(shù)來表示; 三個堿基對組成的堿基組以6位二進制數(shù)值和2位固定賦值組成一個8位一字節(jié)的二進 制數(shù)值表示; 以線性映射的方式,將64種堿基組0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3 的公式均勻映射到0~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進制數(shù),以二進制字節(jié)流形 式的數(shù)據(jù)信息進行存儲。2. 根據(jù)權(quán)利要求1所述的一種將基因信息進行二進制表示的存儲方法,由字符代表匹 配的堿基對,其特征在于:根據(jù)堿基的固定配對,由字符A,T,G,C組成的字符文件,其中每一 個字符代表一個堿基對,轉(zhuǎn)換方式如下所示: A:A = T;T:T=A;G:G = C;C:C = G〇3. 根據(jù)權(quán)利要求1所述的一種基因信息的二進制存儲方法,將四種堿基對進行數(shù)值定 義并用兩位二進制數(shù)來表示,其特征在于4、1\6、(:四種堿基對,利用計算機二進制方法,分 別用2位的二進制數(shù)值來表示,可以有24種組合的表示方法,舉例1中組合如下: A = 00、T = 01、G=10、C=11〇4. 根據(jù)權(quán)利要求1所述的一種將基因信息進行二進制表示的存儲方法,堿基組的8位二 進制數(shù)值表示方法,其特征在于:三個堿基對組成的堿基組以6位二進制數(shù)值和2位固定賦 值組成一個8位一字節(jié)的二進制數(shù)值來表示;2位的固定賦值可以用00、01、10、11作為固定 值來填充表示;以高位固定賦值是11,由堿基對A、T、G組合成的堿基組其兩位二進制數(shù)表示 分別是00、01、10為例,由堿基對A、T、G組成的堿基組的二進制表示為:ATG = 11000110。5. 根據(jù)權(quán)利要求1所述的一種將基因信息進行二進制表示的存儲方法,以線性映射的 方式,將64種堿基組進行數(shù)值映射并轉(zhuǎn)換成8位二進制數(shù)值,其特征在于:根據(jù)線性映射的 方式,將賦值之后的64種堿基組0~63根據(jù)Y = 4X、或Y = 4X+1、或Y = 4X+2、或Y = 4X+3的公式 均勻映射到〇~255中,并將0~255所有數(shù)值轉(zhuǎn)換為8位二進制數(shù);通過該賦值與映射的方 式,每一個堿基組即可得到一個固定的8位二進制數(shù),所有堿基組組合在一起便形成二進制 字節(jié)流,得到與基因信息兩位代表轉(zhuǎn)換法轉(zhuǎn)換之后同樣形式的字節(jié)流。
【文檔編號】G06F19/28GK106022006SQ201610390134
【公開日】2016年10月12日
【申請日】2016年6月2日
【發(fā)明人】謝清祿, 徐宏鍇, 朱軍, 余孟春
【申請人】廣州麥侖信息科技有限公司