一種利用dna進(jìn)行信息存儲(chǔ)的編碼方法和解碼方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種利用脫氧核糖核苷酸(DNA)序列存儲(chǔ)計(jì)算機(jī)多媒體信息過程中的編碼和解碼方法。
【背景技術(shù)】
[0002]人類文明的發(fā)展就是信息的創(chuàng)造、傳播和存儲(chǔ)的過程。在漫長的文明發(fā)展過程中,先后出現(xiàn)了多種信息的存儲(chǔ)方式。紙張的發(fā)明使人們能夠?qū)⑽淖中畔⒑屠L畫信息進(jìn)行存儲(chǔ);感光膠片的發(fā)明將人類帶入文字、圖像、聲音、視頻的多媒體時(shí)代;計(jì)算機(jī)硬盤這種磁性存儲(chǔ)材料的出現(xiàn)極大的降低了信息存儲(chǔ)的成本,引領(lǐng)了信息時(shí)代的到來。時(shí)至今日,互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代帶來了信息的急速膨脹,IDC的研究報(bào)告指出全球的數(shù)據(jù)資料存儲(chǔ)量到2020年將達(dá)到40ZB,這個(gè)數(shù)目相當(dāng)于地球上沙灘上所有沙粒總和的47倍;如果把40ZB全存到藍(lán)光光碟中,光碟的重量將與424臺(tái)10萬噸級(jí)航母相當(dāng)。面對(duì)如此迅猛的信息增長量,以計(jì)算機(jī)硬盤為主的磁性存儲(chǔ)介質(zhì)存在的“信息體積比相對(duì)較大、存儲(chǔ)壽命較短”等缺點(diǎn)逐漸顯現(xiàn),因此尋找新的存儲(chǔ)媒介成為人類不得不面對(duì)的問題。
[0003]隨著分子遺傳學(xué)和基因組學(xué)的發(fā)展,脫氧核糖核苷酸(DNA)這種生物遺傳信息的存儲(chǔ)物質(zhì)逐漸進(jìn)入人們的視野,引發(fā)了人們利用DNA進(jìn)行信息存儲(chǔ)的嘗試。DNA存儲(chǔ)技術(shù),其本質(zhì)是將文本、圖像等數(shù)字信息存儲(chǔ)于DNA這種生物載體中。由于讀取、寫入、更新等多方面因素的制約,以往在高通量生物信息存儲(chǔ)方面一直沒有大的突破。隨著高通量測(cè)序和合成生物學(xué)研究領(lǐng)域的發(fā)展,目前大規(guī)模生物存儲(chǔ)已成為可能。DNA存儲(chǔ)具有“存儲(chǔ)信息量大,信息體積比很小、信息拷貝成本低,信息存儲(chǔ)時(shí)間長,存儲(chǔ)成本低”等優(yōu)勢(shì),非常適合特大數(shù)據(jù)的長時(shí)間存儲(chǔ)。DNA存儲(chǔ)信息體積比小,存儲(chǔ)700TB的計(jì)算機(jī)數(shù)據(jù)僅需要Ig左右的DNA核苷酸合成物;DNA核苷酸合成物易于保存,只要保存在普通的_80°C的冰箱內(nèi),原則上保存時(shí)間可以達(dá)上萬年;DNA核苷酸合成物存儲(chǔ)的信息只要通過簡(jiǎn)單的聚合酶鏈?zhǔn)椒磻?yīng)(PCR)就可以上萬倍的擴(kuò)增,拷貝成本極低。
[0004]為了適應(yīng)DNA存儲(chǔ)技術(shù)的發(fā)展,探索有效的信息編碼解碼方式顯得尤為重要,本發(fā)明就是為了解決DNA信息存儲(chǔ)過程中編碼方法這一關(guān)鍵問題。
【發(fā)明內(nèi)容】
[0005]針對(duì)DNA存儲(chǔ)這種新型存儲(chǔ)方式在信息寫入和信息讀取過程的特殊性,本發(fā)明所要解決的技術(shù)問題在于,設(shè)計(jì)合理的信息編碼方法和解碼方法,保證信息讀寫和存儲(chǔ)的高效進(jìn)行。
[0006]本發(fā)明為實(shí)現(xiàn)上述目的所采用的技術(shù)方案是:一種利用DNA進(jìn)行信息存儲(chǔ)的編碼方法,包括以下步驟:
[0007]步驟1:將計(jì)算機(jī)文件代碼二進(jìn)制化,將計(jì)算機(jī)文件的二進(jìn)制序列轉(zhuǎn)換為三進(jìn)制序列;
[0008]步驟2:將所述三進(jìn)制序列轉(zhuǎn)換為A、T、G、C四種脫氧核糖核苷酸表示的DNA序列;
[0009]步驟3:將所述DNA序列打斷成若干個(gè)DNA片段,并在各個(gè)DNA片段序列兩端添加起始終止信息;
[0010]步驟4:對(duì)步驟3得到的每個(gè)DNA片段添加序列首部信息區(qū);
[0011]步驟5:對(duì)步驟4得到的每一個(gè)DNA片段添加前向引物接頭和后向引物接頭;
[0012]步驟6:將步驟5所述的DNA片段合成實(shí)物的DNA寡核苷酸片段并儲(chǔ)存。
[0013]所述將計(jì)算機(jī)文件的二進(jìn)制序列轉(zhuǎn)換為三進(jìn)制序列為:采用霍夫曼編碼的編碼規(guī)則將二進(jìn)制代碼O、I轉(zhuǎn)換為三進(jìn)制代碼0、1、2。
[0014]所述步驟2采用抗同聚物的編碼方式將三進(jìn)制代碼0、1、2轉(zhuǎn)換為A、T、G、C四種脫氧核糖核苷酸表示的DNA序列。
[0015]所述步驟3中的DNA片段的長度為80bp_100bp。
[0016]所述步驟3中的DNA片段打斷采用四倍重疊打斷,相鄰DNA片段之間有75%長度的重疊區(qū),使除了前后DNA片段,其他位置都是在前后相鄰的4個(gè)片段中重復(fù)出現(xiàn)。
[0017]所述首部信息區(qū)序列包含文件編號(hào)、序列編號(hào)、序列編號(hào)校驗(yàn)、數(shù)據(jù)信息校驗(yàn)四部分。
[0018]所述數(shù)據(jù)信息校驗(yàn)采用循環(huán)冗余校驗(yàn)方法。
[0019]一種利用DNA進(jìn)行信息存儲(chǔ)的解碼方法,包括以下步驟:
[0020]步驟1:將存儲(chǔ)有實(shí)際信息的DNA寡核苷酸片段進(jìn)行DNA測(cè)序,并對(duì)測(cè)序后的DNA片段進(jìn)行錯(cuò)誤校驗(yàn)和去冗余;
[0021]步驟2,對(duì)多個(gè)校驗(yàn)和去冗余后的DNA片段進(jìn)行拼接;
[0022]步驟3,將拼接后的DNA序列轉(zhuǎn)碼為三進(jìn)制序列,進(jìn)而轉(zhuǎn)換為二進(jìn)制序列,最終得到計(jì)算機(jī)原始文件。
[0023]所述錯(cuò)誤校驗(yàn)是根據(jù)DNA編碼過程中添加的校驗(yàn)碼進(jìn)行校驗(yàn)的,檢驗(yàn)序列中保存的校驗(yàn)碼和實(shí)際測(cè)序得到的編碼數(shù)據(jù)序列按照同樣方法生成的校驗(yàn)碼是否一致,一致的話就說明所述編碼數(shù)據(jù)序列正確。
[0024]所述拼接為根據(jù)DNA寡核苷酸片中的首部信息區(qū)中的文件編號(hào)和序列編號(hào),按照前后順序進(jìn)行拼接。
[0025]與傳統(tǒng)的計(jì)算機(jī)磁性介質(zhì)不同,DNA存儲(chǔ)的信息寫入方式是將信息編碼后利用寡核苷酸鏈合成技術(shù)合成一定長度的寡核苷酸鏈,合成后的寡核苷酸鏈以粉末方式保存;DNA存儲(chǔ)的讀取技術(shù)是利用高通量測(cè)序技術(shù)將寡核苷酸鏈進(jìn)行測(cè)序,測(cè)序后的片段拼接后進(jìn)行轉(zhuǎn)碼即可恢復(fù)原始的計(jì)算機(jī)多媒體文件。由于DNA寡核苷酸鏈具有的特性,在設(shè)計(jì)編碼方式時(shí)應(yīng)該充分考慮DNA合成和測(cè)序過程中可能存在的隨機(jī)誤差,對(duì)DNA片段進(jìn)行錯(cuò)誤校驗(yàn)和多重覆蓋分割。具體地,本發(fā)明具有以下優(yōu)點(diǎn)及有益效果:
[0026]1,本發(fā)明所構(gòu)建的用于DNA存儲(chǔ)技術(shù)的編碼方法簡(jiǎn)便易行,可以應(yīng)用于各種格式的計(jì)算機(jī)多媒體文件轉(zhuǎn)換為DNA序列從而進(jìn)行信息存儲(chǔ)。
[0027]2,本發(fā)明所構(gòu)建的方法充分考慮了信息存儲(chǔ)的高效性、信息的安全性和對(duì)存儲(chǔ)信息的壓縮,為進(jìn)行DNA存儲(chǔ)打好了基礎(chǔ)。
[0028]3,本發(fā)明所構(gòu)建的方法充分考慮了脫氧核糖核苷酸鏈(DNA)這種遺傳物質(zhì)自身具有的特性,利用有效的編碼方式避免了信息寫入和讀取過程中潛在的誤差。
[0029]4,本發(fā)明通過添加前后弓I物接頭保證了信息拷貝的便捷性和經(jīng)濟(jì)性。
【附圖說明】
[0030]圖1為抗同聚物編碼策略的編碼示意圖;
[0031]圖2為編碼完成后的DNA片段的結(jié)構(gòu)實(shí)施例圖;
[0032]圖3為應(yīng)用于DNA存儲(chǔ)的編碼方式進(jìn)行DNA信息存儲(chǔ)的完整流程圖;
[0033]圖4為針對(duì)一張圖片的DNA編碼存儲(chǔ)流程的實(shí)施例圖。
【具體實(shí)施方式】
[0034]下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明。
[0035]圖1為抗同聚物編碼策略的編碼不意圖。米用這種編碼策略編碼得到的DNA序列前后相鄰兩個(gè)堿基不會(huì)出現(xiàn)相同。
[0036]圖2為編碼完成后的DNA片段的結(jié)構(gòu)實(shí)施例圖。該DNA片段包括首向引物接頭(ISbp)、序列首部信息區(qū)(16bp)、序列數(shù)據(jù)區(qū)(10bp)和反向引物接頭(ISbp)。其中,序