技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明提供一種有參考DNA序列壓縮方法和系統(tǒng),所述方法包括:重復(fù)圖案的匹配步驟,利用輸入的參考序列生成反向的全文子序列索引結(jié)構(gòu),對輸入的待壓縮序列進行最長匹配子序列搜索,將匹配信息用于壓縮編碼步驟,并將未匹配的符號用于非重復(fù)符號的預(yù)測編碼步驟;壓縮編碼步驟,將匹配序列的長度、位置信息進行壓縮編碼,并將編碼信息用于解壓縮;非重復(fù)符號的預(yù)測編碼步驟,接收所述重復(fù)圖案的匹配步驟的未匹配的符號,利用混合上下文模型進行符號出現(xiàn)概率預(yù)測及編碼。本發(fā)明充分結(jié)合索引數(shù)據(jù)結(jié)構(gòu)高效查找和混合上下文模型對單個字符高效壓縮的特點,在可接受的壓縮耗時內(nèi),比其他有參考DNA序列方法取得更高的壓縮率,具備良好的實用性。
技術(shù)研發(fā)人員:熊紅凱;范雯敬
受保護的技術(shù)使用者:上海交通大學(xué)
技術(shù)研發(fā)日:2017.04.01
技術(shù)公布日:2017.08.18